CN115982368A

CN115982368A - 一种文本分类的方法、装置、电子设备及存储介质

Info

Publication number: CN115982368A
Application number: CN202310238892.8A
Authority: CN
Inventors: 张乐平; 李文举; 侯磊; 李海峰
Original assignee: Beijing Deepctrl Co ltd
Current assignee: Beijing Deepctrl Co ltd
Priority date: 2023-03-14
Filing date: 2023-03-14
Publication date: 2023-04-18
Anticipated expiration: 2043-03-14
Also published as: CN115982368B

Abstract

本发明涉及互联网技术领域，尤其提供了一种文本分类的方法、装置、电子设备及存储介质，该方法包括：获取待分类文本；将所述待分类文本划分为多个待分类语句；将多个所述待分类语句输入预设的文本分类模型，得到每个所述待分类语句对应的语句预测类别和所述待分类文本对应的辅助预测类别；其中，所述辅助预测类别用于表征文本整体篇章类别或者各语句预测类别中的多数类别。本申请提供的文本分类的方法将待分类文本中的全部语句作为预设的文本分类模型的输入，综合每一个待分类语句的语义得到每个待分类语句对应的语句预测类别，并且结合全部的待分类语句组成的整体篇章得到对应的辅助预测类别，这样可以有效地提高文本分类的准确性和可靠性。

Description

一种文本分类的方法、装置、电子设备及存储介质

技术领域

本发明涉及互联网技术领域，尤其是涉及一种文本分类的方法、装置、电子设备及存储介质。

背景技术

文本内容安全分类，通常指对一段文本中的每句话进行判断，是否属于预先定义的违规类型中的一种。常用的方案有两种，一是预先收集一批违规类型的敏感词，通过文本中是否包含相应类别的敏感词来判断语句分类；二是通过深度学习的方法，训练一个文本分类模型。常规的深度学习方法，都是直接将语句通过模型编码后加上全连接的预测层，再通过softmax函数，将预测归一到0-1的概率区间。

实际分类中，仅仅通过语句本身的信息，不足以判断语句所属的类别，需要结合语句的上下文信息才能判断。因此，仅仅从前一句话的内容进行判断，很容易造成句子类别的误判断，这样导致现有的文字分类方法易出现错误。

发明内容

有鉴于此，本发明的目的在于提供一种文本分类的方法、装置、电子设备及存储介质以及计算机程序产品，以提高文本分类的准确性及可靠性。

第一方面，本发明实施例提供了一种文本分类的方法，该方法包括：

获取待分类文本；

将所述待分类文本划分为多个待分类语句；

将多个所述待分类语句输入预设的文本分类模型，得到每个所述待分类语句对应的语句预测类别和所述待分类文本对应的辅助预测类别；

其中，所述辅助预测类别用于表征文本整体篇章类别或者各语句预测类别中的多数类别。

做为一种可实施的方式，所述文本分类模型的训练过程如下：

获取训练样本集；所述训练样本集中的样本包括标注有语句类别标签，和篇章类别标签的文本；

应用所述训练样本集对预设分类模型进行训练，得到所述文本分类模型。

做为一种可实施的方式，获取训练样本集的步骤，包括：

获取参考文本；所述参考文本包括设定地址段内的网页文本信息；

对所述参考文本进行数据清洗和分句处理，得到多个语句；针对每个语句，标注对应的至少一个语句类别标签；

针对所述参考文本标注对应的篇章类别标签，得到训练样本集。

做为一种可实施的方式，所述语句类别标签至少包括以下之一：正常、广告宣传；所述篇章类别标签至少包括以下之一：玄幻小说、历史小说、电商类、其他。

做为一种可实施的方式，所述预设分类模型包括：依次连接的：BERT-base模型、单层转换层、两个全连接分类层；应用所述训练样本集对预设分类模型进行训练，得到所述文本分类模型的步骤，包括：

将所述训练样本集中的参考文本对应的所有语句输入所述BERT-base模型，输出每个语句对应的句向量；

将每个所述语句对应的句向量输入所述单层转换层，输出每个句向量对应的叠加有随机初始化权重的转换句向量；

将每个所述转换句向量输入所述两个全连接分类层，并进行归一化处理，输出每个语句对应的预测语句类别、以及所述参考文本对应的预测篇章类别；

根据每个语句分别对应的预测语句类别以及语句类别标签、所述参考文本分别对应的预测篇章类别以及篇章类别标签，计算总预测损失值；

根据所述总预测损失值进行反向传播，计算模型中参数梯度并更新，得到文本分类模型。

做为一种可实施的方式，根据每个语句分别对应的预测语句类别以及语句类别标签、所述参考文本分别对应的预测篇章类别以及篇章类别标签，计算总预测损失值的步骤，包括：

根据每个语句分别对应的预测语句类别以及语句类别标签，计算第一交叉熵损失；

根据所述参考文本分别对应的预测篇章类别以及篇章类别标签，计算第二交叉熵损失；

将所述第一交叉熵损失和所述第二交叉熵损失进行加权求和，得到总预测损失值。

做为一种可实施的方式，所述各语句预测类别中的多数类别为基于各类别对应的数量，确定出的数量最大的类别。

本申请第二方面提供一种文本检测装置，该装置包括：

获取模块，用于获取待分类文本；

划分模块，用于将所述待分类文本划分为多个待分类语句；

输入模块，用于将多个所述待分类语句输入预设的文本分类模型，得到每个所述待分类语句对应的语句预测类别和待分类文本对应的辅助预测类别；

本申请第三方面提供一种电子设备，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器执行所述机器可执行指令以实现上述的方法。

本申请第四方面提供一种存储介质，存储介质存储有机器可执行指令，所述机器可执行指令在被处理器调用和执行时，机器可执行指令促使处理器实现上述的方法。

本发明实施例带来了以下有益效果：本发明提供了一种文本分类的方法、装置、电子设备以及存储介质，该方法包括：获取待分类文本；将所述待分类文本划分为多个待分类语句；将多个所述待分类语句输入预设的文本分类模型，得到每个所述待分类语句对应的语句预测类别和所述待分类文本对应的辅助预测类别；其中，所述辅助预测类别用于表征文本整体篇章类别或者各语句预测类别中的多数类别。

本申请提供的文本分类的方法将待分类文本中的全部语句作为预设的文本分类模型的输入，综合每一个待分类语句的语义得到每个待分类语句对应的语句预测类别，并且结合全部的待分类语句组成的整体篇章得到对应的辅助预测类别，这样可以有效地提高文本分类的准确性和可靠性。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的文本分类方法的流程图；

图2为本发明实施例提供的文本分类装置结构示意图；

图3为本发明实施例提供的应用训练样本集对预设分类模型进行训练得到所述文本分类模型的流程图；

图4为本发明实施例提供的电子设备结构示意图。

附图标记：

21-获取模块、22-划分模块、23-输入模块、4-电子设备、41-处理器、42-存储器。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在介绍了本申请涉及的技术用语后，接下来，对本申请实施例的应用场景和设计思想进行简单介绍。

在文本内容安全审核过程中一般通过对文本内容进行分类后与预设的文本内容安全规则进行比对后得到审核结果。相关技术中，通常包含有两种方案，一是预先手机一批违规类型的敏感词，通过文本中是否包含响应类别的敏感词来判断句子分类；二是通过深度学习的方法，训练一个文本分类模型。而常规的深度学习方法，都是直接将句子通过模型编码后加上全连接的预测层后通过Softmax函数将预测归一到0-1概率区间。

然而，在实际审核中，仅仅通过句子本身的信息不足以判断句子所属的类别。

实施例1

结合图1所示，本申请实施例提供一种文本分类的方法，该方法包括如下步骤：

S110，处理器获取待分类文本。

S120，处理器将待分类文本划分为多个待分类语句。

S130，处理器将多个待分类语句输入预设的文本分类模型，得到每个待分类语句对应的语句预测类别和待分类文本对应的辅助预测类别。

在本申请实施例提供的文本分类的方法通过划分多个待分类语句，并将各个带分类语句输入到文本分类模型进行语句类别的预测，在此过程中结合了每个带分类语句使得在语句类别预测的工作可以结合上下文信息，使得文本分类更为准确。并且，文本分类模型输出每个待分类语句对应的语句预测类别和用于表征文本整体篇章类别作为辅助预测，进一步辅助预测语句类别，进一步地提高预测准确性和可靠性。

值得说明的是，该方法可以用于文本审核操作，通过本申请实施例提供的方法将文本分类，根据文本分类结果与文本审核规则进行比对、判断，得到最终的文本审核结果。

在步骤S110中，待分类文本的语言不做限定，即上述的待分类文本可以为中文、英文以及其他语言。

在步骤S130中，将划分得到的多个待分类语句作为文本分类模型的输入，通过局部和整体两个方向获得每个待分类语句对应的语句预测类别和全部待分类语句组合形成的待分类文本对应的辅助预测类别。从不同的方面结合全部待分类文本信息提高对每个语句对应的语句预测类别的预测准确性。

值得说明的是，辅助预测类别用于表征文本整体篇章类别或者各语句预测类别中的多数类别，例如在预设的文本分类模型中，预设语句类别可以为正常、广告等等，篇章类别可以为：玄幻小说、历史小说电商类、其他等等。通过篇章类别可以辅助语句预测类别的预测判断。

做为一种可实施的方式，在本申请实施例中文本分类模型的训练过程如下：

获取训练样本集；训练样本集中的样本包括标注有语句类别标签，和篇章类别标签的文本；

应用训练样本集对预设分类模型进行训练，得到文本分类模型。

做为一种可实施的方式，在本申请实施例中获取训练样本集的步骤，包括：

获取参考文本；参考文本包括设定地址段内的网页文本信息；

对参考文本进行数据清洗和分句处理，得到多个语句；针对每个语句，标注对应的至少一个语句类别标签；

针对参考文本标注对应的篇章类别标签，得到训练样本集。

在本申请实施例中，获取参考文本的步骤包括获取网络上开源的文本数据集，使用爬虫扫描等方式爬取设定地址段内的网页文本信息，例如爬取某一省份IP地址段内全部网页内容。

对参考文本进行数据处理的步骤包括至少以下方面之一：去除html标签、去除emoji符号、js代码、乱码等方式对网页文本进行清洗。之后对清洗后的网页内容进行分句，并将处理后的分句的参考文本整理成预设格式文件储存到服务器内，参考文本的储存所采用预设格式不做限定，可以根据实际需求调整设置，做为一种可实施的方式，在本实施例中预设格式为txt格式。

基于储存的多个语句，根据预设置的标签对每个语句进行标注，使得每个语句具有至少一个语句类别标签。做为一种可实施的方式，在本申请实施例中对每个句子标注一个语句类别标签，并基于对参考文本标注对应的篇章类标签。具体的可以采用标注工具对已储存的网页文本的篇章级别和语句级别进行预设类别标注，例如，将篇章级别标记为电商类，将语句标注为广告宣传、正常等。

其中，标注工具不做限定，在本申请实施例中标注工具为doccano。

做为一种可实施的方式，在本申请实施例中语句类别标签至少包括以下之一：正常、广告宣传；所述篇章类别标签至少包括以下之一：玄幻小说、历史小说、电商类、其他。

通过上述操作获得了训练样本集，并应用训练样本集对预设分类模型进行训练，得到文本分类模型。之后应用文本分类模型，以多个待分类语句做为输入，得到每个待分类语句对应的语句预测类别和全部待分类语句组成的待分类文本对应的辅助预测类别。

做为一种可实施的方式，结合图2所示预设分类模型包括：依次连接的：BERT-base模型、单层转换层、两个全连接分类层。

基于上述的预设分类模型，应用训练样本集对预设分类模型进行训练，得到所述文本分类模型的步骤，包括：

将训练样本集中的参考文本对应的所有语句输入BERT-base模型，输出每个语句对应的句向量。

在本申请实施例中采用神经网络以预训练号的BERT-base模型作为后端，将训练样本集中的参考文本对应的所有语句输入BERT-base模型，通过提取语句前面加入的[CLS]token的嵌入向量作为该语句的句向量，输出每个语句对应的句向量。

例如，结合图3所示，参考文本由n个如下语句序列组成：{s1，s2...sn}。

输入BERT-base模型之后提取嵌入量后，得到n个句向量{v1，v2...vn}。

将每个语句对应的句向量输入单层转换层，输出每个句向量对应的叠加有随机初始化权重的转换句向量。

在上述步骤中，在n个句向量集合上叠加一层随机初始化权重的transformer，目的是对每个句向量进行变换，这样可以在对每个语句进行预测类别的过程中可以关注到篇章中的其他语句的内容。通过这样的方式，可以考虑上下文信息。

将每个转换句向量输入两个全连接分类层，并进行归一化处理，输出每个语句对应的预测语句类别、以及参考文本对应的预测篇章类别。

在上述步骤中，基于变换后的每个语句对应的转换句向量，添加两个全连接分类层，其中一个全连接分类层用以对语句进行分类，另一个全连接分类层用以对篇章进行分类。

根据每个语句分别对应的预测语句类别以及语句类别标签、参考文本分别对应的预测篇章类别以及篇章类别标签，计算总预测损失值。

在上述步骤中，对得到的语句分类结果和篇章分类结果通过softmax进行归一化处理，得到0-1的类别概率分布，例如，得到第m个语句的语句分类结果为：正常0.6、其他0.15、广告宣传0.25。

根据之前标注的标签，对篇章类别预测值和语句类别预测值分别计算交叉熵损失，并分别标记为loss1和loss2。

之后，将loss1和loss2加权求和，并计算得到最终的总预测损失值loss，loss=（1-α）×loss1+α×loss2；其中，α为预设的超参数。一般设为α=0.8，并可以根据具体的实际训练效果进行调整预设的超参数α。

根据总预测损失值进行反向传播，计算模型中参数梯度并更新，得到文本分类模型。

这样将loss通过反向传播将模型中的参数梯度更新，进行模型的训练，通常训练时长为3个轮次，也可以根据实际数据量大小进行调整。做为一种可实施的方式，根据每个语句分别对应的预测语句类别以及语句类别标签、所述参考文本分别对应的预测篇章类别以及篇章类别标签，计算总预测损失值的步骤，包括：

根据每个语句分别对应的预测语句类别以及语句类别标签，计算第一交叉熵损失，标记为loss1。

根据参考文本分别对应的预测篇章类别以及篇章类别标签，计算第二交叉熵损失，标记为loss2。

根据将第一交叉熵损失和第二交叉熵损失进行加权求和，得到总预测损失值。根据以下算式loss=（1-α）×loss1+α×loss2；其中，α为预设的超参数。一般设为0.8，并可以根据具体的实际训练效果进行调整。

做为一种可选择的实施方式，各语句预测类别中的多数类别为基于各类别对应的数量，确定出的数量最大的类别。

结合图2所示，本申请第二方面提供一种文本分类装置，该装置包括：获取模块21、划分模块22、输入模块23。

获取模块21用于获取待分类文本。

划分模块22用于将待分类文本划分为多个待分类语句。

输入模块23用于将多个待分类语句输入预设的文本分类模型，得到每个待分类语句对应的语句预测类别和待分类文本对应的辅助预测类别。

其中辅助预测类别用于表征文本整体篇章类别或者各语句预测类别中的多数类别。

通过本申请实施例提供的文本分类装置，将清洗后的网页文本进行分句后经输入模块输入预设的文本分类模型，获得每个语句对应的语句预测类别和待分类文本对应的辅助预测类别，通过结合上下文信息提高语句预测类别的准确性和可靠性。

结合图4所示本申请实施例第三方面提供一种电子设备4，包括处理器41和存储器42，存储器42存储有能够被处理器41执行的机器可执行指令，处理器41执行机器可执行指令以实现上述的方法。

本申请实施例第四方面提供一种存储介质，机器可读存储介质存储有机器可执行指令，机器可执行指令在被处理器41调用和执行时，机器可执行指令促使处理器41实现上述的方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种文本分类的方法，其特征在于，所述方法包括：

获取待分类文本；

将所述待分类文本划分为多个待分类语句；

2.根据权利要求1所述的方法，其特征在于，所述文本分类模型的训练过程如下：

3.根据权利要求2所述的方法，其特征在于，获取训练样本集的步骤，包括：

4.根据权利要求3所述的方法，其特征在于，所述语句类别标签至少包括以下之一：正常、广告宣传；所述篇章类别标签至少包括以下之一：玄幻小说、历史小说、、电商类、其他。

5.根据权利要求2所述的方法，其特征在于，所述预设分类模型包括：依次连接的：BERT-base模型、单层转换层、两个全连接分类层；应用所述训练样本集对预设分类模型进行训练，得到所述文本分类模型的步骤，包括：

6.根据权利要求5所述的方法，其特征在于，根据每个语句分别对应的预测语句类别以及语句类别标签、所述参考文本分别对应的预测篇章类别以及篇章类别标签，计算总预测损失值的步骤，包括：

7.根据权利要求1所述的方法，其特征在于，所述各语句预测类别中的多数类别为基于各类别对应的数量，确定出的数量最大的类别。

8.一种文本检测装置，其特征在于，所述装置包括：

获取模块，用于获取待分类文本；

划分模块，用于将所述待分类文本划分为多个待分类语句；

9.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器执行所述机器可执行指令以实现权利要求1至7任一项所述的方法。

10.一种存储介质，其特征在于，所述存储介质存储有机器可执行指令，所述机器可执行指令在被处理器调用和执行时，机器可执行指令促使处理器实现权利要求1至7任一项所述的方法。