CN112883158A

CN112883158A - 对短文本分类的方法、装置、介质以及电子设备

Info

Publication number: CN112883158A
Application number: CN202110212306.3A
Authority: CN
Inventors: 司学峰
Original assignee: Beijing Precision Communication Media Technology Co ltd
Current assignee: Beijing Precision Communication Media Technology Co ltd
Priority date: 2021-02-25
Filing date: 2021-02-25
Publication date: 2021-06-01

Abstract

本发明涉及对短文本分类的方法、装置、介质以及电子设备。一种对短文本分类的方法包括：针对待分类短文本利用至少两种分词方式进行分词，获得至少两种分词结果；根据分词结果构建待分类短文本的第一扩充特征词集合；利用预先训练好的表征特征词与短文本训练集中各个训练短文本之间相关性矩阵，计算待分类短文本与各个训练短文本之间的各个相似度；各个相似度判定与待分类短文本相似的相似训练短文本，将相似训练短文本所对应的类别确定为待分类短文本的类别。本发明方案改善了短文本自身信息量不足而特征稀疏的问题，提高了分类精准度；将分类问题转换成相似度计算问题，节约了系统开销，在处理海量的短文本分类任务时提高计算设备处理效率。

Description

对短文本分类的方法、装置、介质以及电子设备

技术领域

本发明涉及自然语言处理领域，具体涉及短文本分类的方法、装置、介质以及电子设备。

背景技术

短文本，一般在数个字到数十个字之间，典型地，作为口碑数据、评论数据等包含的短句，通常用逗号或者句号将两个短文本相间隔。现有的文本分类算法例如有基于深度学习算法或朴素贝叶斯的文本分类等，其典型地应用于诸如文章之类的长文本。

发明内容

当对互联网上的评价文本或口碑数据等进行分析时，需要将评价文本或口碑数据的段落以逗号或句号等分隔符拆分成多个短文本单独进行分析。由于评价文本或口碑数据中所含实体和描述性词汇的稀疏性、短文本本身所携带的信息不足，利用现有技术的文本分类算法对短文本分类往往不够精准。

本发明的目的在于，提供一种对短文本分类的方法，提高对短文本分类的精确度。

根据本发明的一个方案，对短文本分类的方法包括：针对待分类短文本，利用至少两种分词方式对其进行分词，获得至少两种分词结果；根据所述至少两种分词结果构建所述待分类短文本的第一扩充特征词集合；基于所述扩充特征词集合中的每一特征词，利用预先训练好的表征特征词与短文本训练集中各个训练短文本之间相关性的相关性矩阵，计算所述待分类短文本与所述各个训练短文本之间的各个相似度；基于所述各个相似度判定与所述待分类短文本相似的相似训练短文本，并将所述相似训练短文本所对应的类别确定为所述待分类短文本的类别。

根据本发明的另一个方案中，还提供一种对短文本分类的装置，包括：分词模块，其配置为针对待分类短文本，利用至少两种分词方式分别对其进行分词，获得至少两种分词结果；第一集合构建模块，其配置为根据所述至少两种分词结果构建所述待分类短文本的第一扩充特征词集合；相似度计算模块，其配置为基于所述扩充特征词集合中的每一特征词，利用预先训练好的表征特征词与短文本训练集中各个训练短文本之间相关性的相关性矩阵，分别计算所述待分类短文本与所述各个训练短文本之间的各个相似度；类别确定模块，其配置为基于所述各个相似度判定与所述待分类短文本相似的相似训练短文本，并将所述相似训练短文本所对应的类别确定为所述待分类短文本的类别。

根据本发明的再一个方案中，提供了一种非临时性计算机可读介质，其上存储有计算机可执行代码，所述计算机可执行代码在被处理器执行时实现所述的方法。

根据本发明的还一个方案中，提供了一种电子设备，包括处理器、存储器以及其上存储的计算机可执行代码，当所述处理器执行所述计算机可执行代码时实现所述的方法。

根据本发明的方案，针对待分类短文本进行了至少两种分词，且基于至少两种分词结果扩充了待分类短文本的特征词，有利地改善了短文本自身信息量不足从而特征稀疏的问题，提高了分类精准度；此外，该方案将短文本的分类问题转换成相似度计算问题，通过确定与待分类短文本相似的训练短文本从而依据训练短文本的类别确定待分类短文本的类别，节约了系统开销，在处理海量的短文本分类任务时，可以提高计算设备处理效率。

附图说明

在不一定按比例绘制的附图中，相同的附图标记可以在类型的视图中描述相似的部件。附图大体上通过举例而不是限制的方式示出各种实施例，并且与说明书以及权利要求书一起用于对所公开的实施例进行说明。在适当的时候，在所有附图中使用相同的附图标记指代同一或相似的部分。这样的实施例是例证性的，而并非旨在作为本系统或方法的穷尽或排他实施例。

图1是本发明实施例的对短文本分类的方法的流程示意图。

图2是本发明实施例的获得相关性矩阵的示意图。

图3是本发明实施例的一种对短文本分类的装置的示意图。

具体实施方式

此处参考附图描述本公开的各种方案以及特征。通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述，本发明的这些和其它特性将会变得显而易见。

本说明书可使用词组“在一个实施例中”、“在一些实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”，其均可指代根据本公开的相同或类型实施例中的一个或多个。注意的是，在说明书全文中，相同或相近的附图标记指代相同或相似的元件，并省略不必要的重复描述。此外，具体实施例中，以单数形式出现的元件并不排除可以以多个(复数个)形式出现。

图1是本发明实施例的对短文本分类的方法100的流程示意图。该方法包括：

步骤101，针对待分类短文本，利用至少两种分词方式对其进行分词，获得至少两种分词结果；

步骤103，根据所述至少两种分词结果构建所述待分类短文本的第一扩充特征词集合；

步骤105，基于所述扩充特征词集合中的每一特征词，利用预先训练好的表征特征词与短文本训练集中各个训练短文本之间相关性的相关性矩阵，计算所述待分类短文本与所述各个训练短文本之间的各个相似度；

步骤107，基于所述各个相似度判定与所述待分类短文本相似的相似训练短文本，并将所述相似训练短文本所对应的类别确定为所述待分类短文本的类别。

根据本实施例的方案，针对待分类短文本进行了至少两种分词，且基于至少两种分词结果扩充了待分类短文本的特征词，生成了多样化特征，有利地改善了短文本自身信息量不足从而特征稀疏的问题，提高了分类精准度；此外，该方案将短文本的分类问题转换成相似度计算问题，通过确定与待分类短文本相似的训练短文本从而依据训练短文本的类别确定待分类短文本的类别，节约了系统开销，在处理海量的短文本分类任务时，可以提高分类效率。

在本发明的一个实施例中，在步骤101之前，还可以包括对待分类短文本去除停用词和标点符号的操作。停用词例如包括数字、数学字符等。当待分类短文本为中文文本时，停用词还可以包括英文字符以及某些没有实际意义但使用频率特高的单汉字等，比如：是、的。

在本发明的一个实施例中，步骤101可以包括：利用按字切分方式对所述待分类短文本分词，得到第一分词结果；并且利用隐马尔可夫模型对所述待分类短文本分词，得到第二分词结果。从而在步骤103中，通过对第一和第二分词结果进行合并和去重操作，得到所述扩充特征词集合。举例说明，例如待分类短文本为“和同等价格的轿车型车是不可比的”。利用按字切分方式，得到的第一分词结果为：和/同/等/价/格/的/轿/车/型/车/是/不/可/比/的。利用隐马尔可夫模型分词方式，得到的第二分词结果为：和/同等/价格/的/轿车型/车/是/不可比/的。将第一分词结果和第二分词结果合并并且去除重复的分词，得到扩充特征词集合{和、同、等、同等、价、格、价格、的、轿、车、型、轿车型、车、是、不、可、比、不可比}。在一个实施例中，对于这两种分词结果去除了停用词和标点符号时，从而得到的扩充特征词集合中去除了“是”、“的”等停用词。如此获得的扩充特征词集合能够改善短文本自身信息量不足从而特征稀疏的问题，有助于提高分类的精确度。在一些实施例中，可以根据待分类短文本所属的领域，如汽车或房产领域，设定专属于领域的停用词典(即，黑名单)，从而在处理前或处理后去除这些词，并且可以针对例如第二分词方式或第三分词方式设定专属于领域的白名单，以在分词时，以白名单为约束，使得分词结果不能将白名单中的词进行切分。例如，假设“不可比”是白名单中的词，则分词结果中，不能将“不可比”这一词汇切散。由此，所生成的特征词能够更加多样化地表达短文本的特征。

在另一个实施例中，步骤101可以包括：利用按字切分方式对所述待分类短文本分词，得到第一分词结果；并且利用条件随机场模型对所述待分类短文本分词，得到第三分词结果。并且，在步骤103中，对第一分词结果和第三分词结果进行合并去重得到待分类短文本的扩充特征词集合。在还一个实施例中，对第一、第二、第三分词结果进行合并和去重，得到待分类短文本的扩充特征词集合。在还一个实施例中，可以利用现有的各种分词方式进行组合，比如N-gram和隐马尔可夫模型分词，并对两种分词结果进行合并去重处理。如此获得的扩充特征词集合能够改善短文本自身信息量不足从而特征稀疏的问题，实现了短文本特征的多样化表达，有助于提高分类的精确度。

如图2所示，在一些实施例中，步骤105中的相关性矩阵可以通过以下方式获得：

步骤202，获取所述短文本训练集及其包含的所述各个训练短文本所对应的类别。短文本训练集中，已经预先确定了各个训练短文本的类别，该类别可以人工指定，例如由领域专家来评定，或者应用机器学习的方式确定类别后，由人工再次评估和校正。

步骤204，对所述每一训练短文本，利用至少两种分词方式分别对其进行分词，以根据各个训练短文本的至少两种分词结果来构建所述短文本训练集的第二扩充特征词集合。

在步骤204中，至少两种分词方式可以包括但不限于按字切分方式、隐马尔可夫模型、条件随机场模型中的至少两种。当对各个训练短文本都进行了至少两种分词后，将各个训练短文本分词的分词结果合并和去重，得到短文本训练集的第二扩充特征词集合。说明的是，各种具体的分词方式和构建第二扩充特征词集合的具体方式可以参照前文描述的方式，为避免不必要的赘述，这里不详细论述。

步骤206，基于所述第二扩充特征词集合和所述短文本训练集，利用计算词与文档之间相关性的算法，得到表征所述第二扩充特征词集合中的特征词与各个训练短文本之间相关性的所述相关性矩阵。

在实施例中，所用的算法为BM25或其改进算法、TF-IDF算法中的一种。

下面，以BM25改进算法BM25OKAPI为例，第二扩充特征词集合中的特征词q_i与短文本训练集{D₁,D₂,...,D_m}的相关性矩阵W的各元素W_ij的计算公式为：

其中n,m,i,j为自然数，1≤i≤n,1≤j≤m，IDF(q_i)是q_i的反文档频率，f(qi,Dj)为q_i在文档D_j中的术语频率，|Dj|是文档D_j的长度，avgdl是短文本训练集{D₁,D₂,...,D_m}中短文本的平均长度，k1、b、δ是根据经验设定的自由参数，并可通过测试结果的反馈，例如准召率参数，进行调整。在一个实施例中，通过随机搜索策略，对超参数k1、b、δ进行搜索，通过准召率反馈寻找最优k1、b、δ参数。具体的，可以对k1、b、δ参数分别设定初始值k10、b0以及δ0，并各自设定不同的搜索步长，获得多个不同的参数值组合。例如，k1的步长为ks，则k1可以生成k10、k10+ks、k10+2ks、……依次类推，直到对k1设定的最大值。对b0以及δ0同理，由此k1、b、δ参数具有多个取值，并且可以对多个取值进行不同的组合，找到准召率最优的k1、b、δ取值组合。由此，可以确保k1、b、δ的取值能够更好地拟合实际模型。

在另一个实施例中，利用TF-IDF算法计算相关性矩阵W的各元素W_ij。

在一个实施例中，在对训练短文本分词之前，还可以包括训练短文本去除停用词和标点符号的操作；或者在获得训练短文本的至少两种分词结果之后，还可以包括对训练短文本的至少两种分词结果去除停用词和标点符号的操作，以使得第二扩充特征词集合中去除了停用词和标点符号。此外，在一些实施例中，与之前实施例同样地，可以在分词时考虑黑名单和白名单约束，从而优化分词的效果，此处不再详细赘述。

在一些实施例中，步骤105可以包括：在所述相关性矩阵中，查询所述第一扩充特征词集合{q1,q2,...,qn}中的每一特征词ql与短文本训练集{D₁,D₂,...,D_m}中各个训练短文本之间的相关性W_lj，将

计算为所述扩充特征词集合与训练短文本D_j之间的相似度，其中m,l,s,j为自然数，1≤l≤s,1≤j≤m。从而，将其中与待分类短文本相似度最高的训练短文本Da所对应的类别确定为待分类短文本的类别。由此，可以快速的确定待分类短文本的类别。例如，待分类短文本为“尾翼颠簸的时候有异响”，与待分类短文本相似度最高的训练短文本为“过颠簸路车身有异响”，其类别为“振动与噪音”，则将待分类短文本分类为相似度最高的该训练短文本对应的类别，即“振动与噪音”。

测试表明，当待分类的短文本为海量数据时，采用本发明实施例的方案可以提高对短文本分类的效率。除此之外，根据本发明上述实施例，其优点还在于，可以对训练短文本设定不同的分类粒度，从而待分类短文本的分类结果可以有不同的分类粒度，以满足各种应用的需要。例如在外观方面，分类粒度由粗到细可以设定为“外观”、“造型设计”、“侧面造型设计”。则可以根据需要获取待分类短文本的粒度类别，只要对训练短文本设定了相应粒度的类别即可。

参见图3，提供了一种对短文本分类的装置300。装置300包括：分词模块301、第一集合构建模块303、相似度计算模块305以及类别确定模块307。

分词模块301配置为针对待分类短文本，利用至少两种分词方式分别对其进行分词，获得至少两种分词结果。第一集合构建模块303配置为根据所述至少两种分词结果构建所述待分类短文本的第一扩充特征词集合。相似度计算模块305配置为基于所述扩充特征词集合中的每一特征词，利用预先训练好的表征特征词与短文本训练集中各个训练短文本之间相关性的相关性矩阵，分别计算所述待分类短文本与所述各个训练短文本之间的各个相似度。类别确定模块307配置为基于所述各个相似度判定与所述待分类短文本相似的相似训练短文本，并将所述相似训练短文本所对应的类别确定为所述待分类短文本的类别。

在一些实施例中，分词模块301配置为：利用按字切分方式对所述待分类短文本分词，得到第一分词结果；利用隐马尔可夫模型和/或条件随机场模型对所述待分类短文本分词，得到第二分词结果和/或第三分词结果。在还一个实施例中，可以利用现有的各种分词方式进行组合，比如N-gram和隐马尔可夫模型分词，对分词结果进行合并去重处理。在一些实施例中，第一集合构建模块303配置为对所述至少两种分词结果进行合并和去重操作，得到所述扩充特征词集合。如此获得的扩充特征词集合能够改善短文本自身信息量不足从而特征稀疏的问题，丰富了特征的多样性，有助于提高分类的精确度。

在一些实施例中，相似度计算模块305中使用的相关性矩阵由以下方式生成：获取所述短文本训练集及其包含的所述各个训练短文本所对应的类别；对所述每一训练短文本，利用至少两种分词方式分别对其进行分词，以根据各个训练短文本的至少两种分词结果来构建所述短文本训练集的第二扩充特征词集合；基于所述第二扩充特征词集合和所述短文本训练集，利用计算词与文档之间相关性的算法，得到表征所述第二扩充特征词集合中的特征词与各个训练短文本之间相关性的所述相关性矩阵。在一些实施例中，所述算法为：BM25算法或其改进算法、TF-IDF算法中的任一种。

在一些实施例中，装置300还包括去除模块309，其配置为：在分词模块301进行分词之前，进行对待分类短文本去除停用词和标点符号的操作；或者在通过分词模块301获得至少两种分词结果之后，进行对所述至少两种分词结果去除停用词和标点符号的操作。

在一些实施例中，相似度计算模块305配置为：在所述相关性矩阵中，查询所述第一扩充特征词集合{q1,q2,...,qn}中的每一特征词ql与短文本训练集{D₁,D₂,...,D_m}中各个训练短文本之间的相关性W_lj，将

计算为所述扩充特征词集合与训练短文本D_j之间的相似度，其中m,l,s,j为自然数，1≤l≤s,1≤j≤m。从而类别确定模块307基于相似度计算模块305的计算结果，将与待分类短文本相似度最高的训练短文本Da所对应的类别判定为待分类短文本的类别。

对于本发明装置实施例的未详尽描述之处，可参考对应的方法实施例。

本发明一个实施例中，还提供了一种非临时性计算机可读介质，其上存储有计算机可执行代码，计算机可执行代码在被处理器执行时能够实现上述的任一方法实施例。计算机可读介质可以包括磁性的、半导体的、磁带的、光学的、可移动的、不可移动的或其他类型的计算机可读介质或计算机可读存储设备。例如，如所公开的，计算机可读介质可以是其上存储有计算机指令的存储设备或存储器模块。在一些实施例中，计算机可读介质可以是其上存储有计算机指令的盘或闪存驱动器。

本发明实施例还提供一种电子设备，包括处理器、存储器以及其上存储的计算机可执行代码。当处理器执行计算机可执行代码时实现上述的任一方法实施例及其变形。电子设备例如为服务器、桌面计算机等，并且可适用于本发明实施例的对短文本分类的方法。

这里描述了各种操作或功能，其可以被实现为软件代码或指令或被定义为软件代码或指令。这样的内容可以是可直接执行的源代码或差异代码(“增量”或“块”代码)(“对象”或“可执行”形式)。软件代码或指令可以存储在计算机可读存储介质中，并且当被执行时，可以使机器执行所描述的功能或操作，并且包括用于以机器可访问的形式存储信息的任何机构(例如，计算设备，电子系统等)，诸如可记录或不可记录介质(例如，只读存储器(ROM)、随机存取存储器(RAM)、磁盘存储介质、光存储介质，闪存设备等)。结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件单元，或者二者的结合来实施。

与“包括”、“包含”或“特征在于”同义的术语“包括”是非排他性的或者开放性的，不排除另外的、未叙述的要素或方法步骤。“包括”是权利要求语言中使用的本领域的术语，其意味着所命名的要素是必要的，但是能够添加其他要素并且仍然形成权利要求书的范围内的结构。

如本文所使用的，当在实体列表的上下文中使用术语“和/或”时，是指单独或组合出现的实体。因此，例如，短语“A、B、C、和/或D”分别包括A、B、C和D，但也包括A、B、C和D的任何和所有组合和子组合。

以上实施例仅为本发明的示例性实施例，不用于限制本发明，本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内，对本发明做出各种修改或等同替换，这种修改或等同替换也应视为落在本发明的保护范围内。

Claims

1.一种对短文本分类的方法，其特征在于，包括：

针对待分类短文本，利用至少两种分词方式对其进行分词，获得至少两种分词结果；

根据所述至少两种分词结果构建所述待分类短文本的第一扩充特征词集合；

基于所述第一扩充特征词集合中的每一特征词，利用预先训练好的表征特征词与短文本训练集中各个训练短文本之间相关性的相关性矩阵，计算所述待分类短文本与所述各个训练短文本之间的各个相似度；

基于所述各个相似度判定与所述待分类短文本相似的相似训练短文本，并将所述相似训练短文本所对应的类别确定为所述待分类短文本的类别。

2.根据权利要求1所述的方法，其特征在于，所述针对待分类短文本，利用至少两种分词方式分别对其进行分词，获得至少两种分词结果，包括：

利用按字切分方式对所述待分类短文本分词，得到第一分词结果；

利用隐马尔可夫模型和/或条件随机场模型对所述待分类短文本分词，得到第二分词结果和/或第三分词结果。

3.根据权利要求1所述的方法，其特征在于，所述根据所述至少两种分词结果构建所述待分类短文本的第一扩充特征词集合，包括：

对所述至少两种分词结果进行合并和去重操作，得到所述扩充特征词集合。

4.根据权利要求1所述的方法，其特征在于，所述相关性矩阵由以下方式生成：

获取所述短文本训练集及其包含的所述各个训练短文本所对应的类别；

对所述每一训练短文本，利用至少两种分词方式分别对其进行分词，以根据各个训练短文本的至少两种分词结果来构建所述短文本训练集的第二扩充特征词集合；

基于所述第二扩充特征词集合和所述短文本训练集，利用计算词与文档之间相关性的算法，得到表征所述第二扩充特征词集合中的特征词与各个训练短文本之间相关性的所述相关性矩阵。

5.根据权利要求4所述的方法，其特征在于，所述算法为：BM25算法或其改进算法、TF-IDF算法中的任一种。

6.根据权利要求1所述的方法，其特征在于，在所述针对待分类短文本，利用至少两种分词方式分别对其进行分词之前，还包括对待分类短文本去除停用词和标点符号的操作；或者在获得至少两种分词结果之后，还包括对所述至少两种分词结果去除停用词和标点符号的操作。

7.根据权利要求1所述的方法，其特征在于，所述基于所述第一扩充特征词集合中的每一特征词，利用预先训练好的表征特征词与短文本训练集中各个训练短文本之间相关性的相关性矩阵，计算所述待分类的短文本与所述各个训练短文本之间的各个相似度，包括：

在所述相关性矩阵中，查询所述第一扩充特征词集合{q1,q2,...,qn}中的每一特征词q_l与短文本训练集{D₁,D₂,...,D_m}中各个训练短文本之间的相关性W_lj，将

计算为所述第一扩充特征词集合与训练短文本D_j之间的相似度，其中m,l,s,j为自然数，1≤l≤s,1≤j≤m。

8.一种对短文本分类的装置，其特征在于，包括：

分词模块，其配置为针对待分类短文本，利用至少两种分词方式分别对其进行分词，获得至少两种分词结果；

第一集合构建模块，其配置为根据所述至少两种分词结果构建所述待分类短文本的第一扩充特征词集合；

相似度计算模块，其配置为基于所述扩充特征词集合中的每一特征词，利用预先训练好的表征特征词与短文本训练集中各个训练短文本之间相关性的相关性矩阵，分别计算所述待分类短文本与所述各个训练短文本之间的各个相似度；

类别确定模块，其配置为基于所述各个相似度判定与所述待分类短文本相似的相似训练短文本，并将所述相似训练短文本所对应的类别确定为所述待分类短文本的类别。

9.一种非临时性计算机可读介质，其上存储有计算机可执行代码，其特征在于，所述计算机可执行代码在被处理器执行时实现根据权利要求1～7中任一项所述的方法。

10.一种电子设备，包括处理器、存储器以及其上存储的计算机可执行代码，其特征在于，当所述处理器执行所述计算机可执行代码时实现如权利要求1～7中任一项所述的方法。