CN111309901A

CN111309901A - 一种短文本分类方法及装置

Info

Publication number: CN111309901A
Application number: CN202010062909.5A
Authority: CN
Inventors: 刘晓春; 杨春宇; 闫继培; 王竞文
Original assignee: BEIJING HISIGN TECHNOLOGY CO LTD
Current assignee: BEIJING HISIGN TECHNOLOGY CO LTD
Priority date: 2020-01-19
Filing date: 2020-01-19
Publication date: 2020-06-19

Abstract

本发明实施例公开了一种短文本分类方法及装置，方法包括：对目标短文本进行向量化处理，得到向量化目标短文本；提取所述向量化目标短文本的特征，得到向量化目标短文本特征；根据所述向量化目标短文本特征，确定所述目标短文本的语义向量；根据所述目标短文本的语义向量，确定所述目标短文本的类别。本发明实施例根据所述目标短文本的语义向量，确定所述目标短文本的类别，提高了分类精度，提高了分类准确率；克服了支持向量机模型分类只能进行二分类的问题，本发明支持多类分类；克服了支持向量机模型对大规模训练样本难以实施的问题；自动化对目标短文本进行分类，减少了工作人员工作量。

Description

一种短文本分类方法及装置

技术领域

本发明涉及计算机技术领域，具体涉及一种短文本分类方法及装置。

背景技术

目前，在文本分类领域，支持向量机模型得到了广泛的应用。

支持向量机模型分类适用于小样本学习，解决了非线性问题和高维问题，抗干扰能力强，总体表现出色。但是，支持向量机模型分类存在以下问题：第一方面，对缺失数据敏感，对样本的预测依赖于训练所得的分类决策函数，根据决策函数的值判断样本更接近哪个类别，即使在决策函数的值的置信度很低的情况下，依然会给出一个结果；第二方面，在公共安全领域案件分类这一特定场景，案件类别存在层次结构，如果仅采用单一层次的分类器，忽视了案件类别的层次关系，会导致分类的准确率低下；第三方面，支持向量机模型分类是借助二次规划来求解支持向量，而求解二次规划将涉及m阶矩阵的计算(m为样本的个数)，当m数目很大时该矩阵的存储和计算将耗费大量的机器内存和运算时间，因此，对大规模训练样本难以实施；第四方面，支持向量机模型分类只给出了二分类的算法，而在数据挖掘的实际应用中，一般要解决多类的分类问题，因此，使用支持向量机模型分类解决多分类问题存在困难。

中国专利“CN107798033A一种公安领域案件文本的分类方法”公开了一种公安领域案件文本的分类方法，包括以下步骤：对案件文本进行预处理；建立支持向量机模型对预处理后的案件文本进行分类；建立基于词典的规则匹配案件分类器；根据决策函数值，对支持向量机分类所得结果置信度低的案件，利用所述基于词典的规则匹配案件分类器进行二次分类，以该分类结果为最终结果。上述专利主要是解决支持向量机模型分类中置信度较低时的误判问题，并不能从根本上解决支持向量机模型分类的其他方面问题。

发明内容

由于现有方法存在上述问题，本发明实施例提出一种短文本分类方法及装置。

第一方面，本发明实施例提出一种短文本分类方法，包括：

对目标短文本进行向量化处理，得到向量化目标短文本；

提取所述向量化目标短文本的特征，得到向量化目标短文本特征；

根据所述向量化目标短文本特征，确定所述目标短文本的语义向量；

根据所述目标短文本的语义向量，确定所述目标短文本的类别。

可选地，所述对目标短文本进行向量化处理，得到向量化目标短文本之前，所述短文本分类方法，还包括：

对所述目标短文本进行预处理，得到预处理后的目标短文本。

可选地，所述对目标短文本进行向量化处理，得到向量化目标短文本，包括：

根据训练好的词向量库，对所述预处理后的目标短文本进行向量化处理，得到所述向量化目标短文本。

可选地，所述根据训练好的词向量库，对所述预处理后的目标短文本进行向量化处理，得到所述向量化目标短文本，包括：

对所述预处理后的目标短文本划分词项，得到各个词项；

根据所述训练好的词向量库，对所述各个词项进行向量化处理，得到所述向量化目标短文本。

可选地，所述提取所述向量化目标短文本的特征，得到向量化目标短文本特征，包括：

利用卷积神经网络卷积层，提取所述向量化目标短文本的特征；

基于注意力机制，确定所述向量化目标短文本的特征中的关键特征，以作为所述向量化目标短文本特征。

可选地，所述根据所述向量化目标短文本特征，确定所述目标短文本的语义向量，包括：

针对所述向量化目标短文本特征，利用卷积神经网络的连接层，获取所述目标短文本的语义向量。

可选地，所述根据所述目标短文本的语义向量，确定所述目标短文本的类别，包括：

计算所述目标短文本的语义向量在每个类别上的输出概率；

根据所述输出概率，确定所述目标短文本的类别。

第二方面，本发明实施例还提出一种短文本分类装置，包括：向量化处理模块、特征提取模块、语义向量确定模块和类别确定模块；

所述向量化处理模块，用于对目标短文本进行向量化处理，得到向量化目标短文本；

所述特征提取模块，用于提取所述向量化目标短文本的特征，得到向量化目标短文本特征；

所述语义向量确定模块，用于根据所述向量化目标短文本特征，确定所述目标短文本的语义向量；

所述类别确定模块，用于根据所述目标短文本的语义向量，确定所述目标短文本的类别。

可选地，所述短文本分类装置，还包括：预处理模块；

所述预处理模块，用于在对目标短文本进行向量化处理，得到向量化目标短文本之前，对所述目标短文本进行预处理，得到预处理后的目标短文本。

可选地，所述向量化处理模块，具体用于：

对所述预处理后的目标短文本划分词项，得到各个词项；

可选地，所述特征提取模块，具体用于：

可选地，所述语义向量确定模块，具体用于：

可选地，所述类别确定模块，具体用于：

计算所述目标短文本的语义向量在每个类别上的输出概率；

根据所述输出概率，确定所述目标短文本的类别。

第三方面，本发明实施例还提出一种电子设备，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行上述方法。

第四方面，本发明实施例还提出一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机程序，所述计算机程序使所述计算机执行上述方法。

由上述技术方案可知，本发明实施例通过根据所述目标短文本的语义向量，确定所述目标短文本的类别，提高了分类精度，提高了分类准确率；克服了支持向量机模型分类只能进行二分类的问题，本发明支持多类分类；克服了支持向量机模型对大规模训练样本难以实施的问题；自动化对目标短文本进行分类，减少了工作人员工作量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些图获得其他的附图。

图1为本发明一实施例提供的一种短文本分类方法的流程示意图；

图2为本发明一实施例提供的一种短文本分类装置的结构示意图；

图3为本发明一实施例提供的电子设备的逻辑框图。

具体实施方式

下面结合附图，对本发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

图1示出了本实施例提供的一种短文本分类方法的流程示意图，包括：

S11，对目标短文本进行向量化处理，得到向量化目标短文本。

在本发明实施例中，所述目标短文本是待分类短文本。所述目标短文本包括但不限于公安领域的简要案情。

在本发明实施例中，所述目标短文本是指长度不超过160个字符的文本形式。

在本发明实施例中，对所述目标短文本进行向量化处理，以使所述目标短文本的表示方式为向量，得到向量化目标短文本。

S12，提取所述向量化目标短文本的特征，得到向量化目标短文本特征。

在本发明实施例中，在所述目标短文本向量化的基础上，提取S11中得到的所述向量化目标短文本的特征，得到向量化目标短文本特征。

需要说明的是，可以通过诸如卷积神经网络或循环神经网络等深度学习模型提取S11中得到的所述向量化目标短文本的特征。

S13，根据所述向量化目标短文本特征，确定所述目标短文本的语义向量。

在本发明实施例中，在所述向量化目标短文本特征的基础上，获取所述目标短文本的语义向量，实现对所述目标短文本的深层语义分析，使机器对所述目标短文本的理解不仅局限在字词层面，而且具备通过语义来理解语句乃至段落中深层意思的能力。

S14，根据所述目标短文本的语义向量，确定所述目标短文本的类别。

在本发明实施例中，所述目标短文本的类别包括几百种。根据所述目标短文本的语义向量，对所述目标短文本进行类别标注，以确定所述目标短文本所属的类别。

需要说明的是，在本发明实施例中，支持同一个目标短文本标注超过两个以上的类别。支持同时对多个所述目标短文本进行类别标注。单个目标短文本类别标注时间小于10ms。支持目标短文本分类，最短目标短文本长度大于或等于10个词。最少支持80个以上的所述目标短文本的类别，最多可支持300个以下的所述目标短文本的类别。支持定制化的所述目标短文本的类别训练和升级。

本发明实施例根据所述目标短文本的语义向量，确定所述目标短文本的类别，提高了分类精度，提高了分类准确率；克服了支持向量机模型分类只能进行二分类的问题，本发明支持多类分类；克服了支持向量机模型对大规模训练样本难以实施的问题；自动化对目标短文本进行分类，减少了工作人员工作量。

进一步地，在上述方法实施例的基础上，所述对目标短文本进行向量化处理，得到向量化目标短文本之前，所述短文本分类方法，还包括：

在本发明实施例中，所述目标短文本可能为不规范的文本，这对所述目标短文本的分类造成负面影响，因此，在对所述目标短文本进行向量化处理，得到所述向量化目标短文本之前，需要对不规范的目标短文本进行预处理，得到预处理后的目标短文本。

其中，所述对不规范的目标短文本进行预处理包括但不限于将所述不规范的目标短文本的全角格式的字符转换成半角格式的字符或将半角格式的字符转换成全角格式的字符，剔除所述不规范的目标短文本中格式错误的电话号码、邮箱账号、身份证号、银行账号等。具体的预处理方法根据实际情况确定。

本发明实施例通过对目标短文本进行预处理，去除了没有实际意义的冗余信息，节约了目标短文本处理的时间，提高了目标短文本信息的清晰度，避免了一词多义和多词一义的干扰。

进一步地，在上述方法实施例的基础上，所述对目标短文本进行向量化处理，得到向量化目标短文本，包括：

在本发明实施例中，所述训练好的词向量库是通过大量特定领域的专业术语和词汇训练出的一套专注于特定领域的词向量。所述词向量是所述目标短文本向量化的基础，可以有效地将所述目标短文本进行向量化，得到所述目标短文本在特定领域的有效表示。

在本发明实施例中，根据所述训练好的词向量库，对所述预处理后的目标短文本进行向量化处理，得到所述向量化目标短文本。

需要说明的是，所述特定领域包括但不限于公安领域。

本发明实施例通过训练出的一套专注于特定领域的词向量，有效地将所述目标短文本进行向量化，得到所述目标短文本在特定领域的有效表示。

进一步地，在上述方法实施例的基础上，所述根据训练好的词向量库，对所述预处理后的目标短文本进行向量化处理，得到所述向量化目标短文本，包括：

对所述预处理后的目标短文本划分词项，得到各个词项；

在本发明实施例中，对所述预处理后的目标短文本划分词项，得到各个词项；根据所述训练好的词向量库，对所述各个词项进行向量化处理，得到所述向量化目标短文本。

在本发明实施例中，可以将所述向量化目标短文本的各个词项按照出现的频率重新进行排序，还可以将和地理位置相关的词项排在前面、将和数量相关的词项排在中间、将和时间相关的词项排在最后。

本发明实施例通过训练好的词向量库对所述目标短文本的各个词项进行向量化处理，有效地将所述目标短文本进行向量化，得到所述向量化目标短文本。

进一步地，在上述方法实施例的基础上，所述提取所述向量化目标短文本的特征，得到向量化目标短文本特征，包括：

在本发明实施例中，在所述目标短文本向量化的基础上，通过卷积神经网络卷积层，自动提取所述向量化目标短文本的多重特征；并通过注意力机制找到最大化影响所述目标短文本分类的关键特征，以作为所述向量化目标短文本特征。

需要说明的是，所述向量化目标短文本特征是后续卷积神经网络连接层的输入。

本发明实施例通过卷积神经网络卷积层，提取出所述向量化目标短文本的多重特征；并通过注意力机制找到最大化影响所述目标短文本分类的关键特征，提高了目标短文本分类的准确率。

进一步地，在上述方法实施例的基础上，所述根据所述向量化目标短文本特征，确定所述目标短文本的语义向量，包括：

在本发明实施例中，所述向量化目标短文本特征经过堆叠式的多个卷积神经网络的连接层，可以获取所述目标短文本的潜在语义，输出所述目标短文本的语义向量。

需要说明的是，所述卷积神经网络在训练过程中，会出现过拟合问题，因此，需要对所述目标短文本的语义向量采用正则化的方法和dropout机制，提高获取所述目标短文本语义的准确率。

本发明实施例通过卷积神经网络的连接层，获取所述目标短文本的语义向量，提高了后续目标短文本分类的准确率。

进一步地，在上述方法实施例的基础上，所述根据所述目标短文本的语义向量，确定所述目标短文本的类别，包括：

计算所述目标短文本的语义向量在每个类别上的输出概率；

根据所述输出概率，确定所述目标短文本的类别。

在本发明实施例中，以所述类别包括网络订票、机票改签、游戏币游戏卡、Q币Q号、推销、冒充经理、冒充客服、网络主播、中奖诈骗以及网络招工，所述目标短文本为“2019年12月25日，事主看到一条署名为“长安航空”的短信提示，“航班因起落架故障已取消，请联系客服×××”。主动联系客服后，提供了个人银行卡信息和验证码，被骗2680元”为例。计算所述目标短文本“2019年12月25日，事主看到一条署名为“长安航空”的短信提示，“航班因起落架故障已取消，请联系客服×××”。主动联系客服后，提供了个人银行卡信息和验证码，被骗2680元”的语义向量在每个类别，即网络订票、机票改签、游戏币游戏卡、Q币Q号、推销、冒充经理、冒充客服、网络主播、中奖诈骗以及网络招工的输出概率分别为41％、27％、21％、22％、17％、19％、85％、17％、17％及19％。根据上述输出概率，可以确定出所述目标短文本的类别是“冒充客服”，概率是85％。

本发明实施例通过计算所述目标短文本的语义向量在每个类别上的输出概率，确定所述目标短文本的类别，提高了所述目标短文本分类的准确率和精度；自动化对目标短文本进行分类，减少了工作人员工作量。

图2示出了本实施例提供的一种短文本分类装置的结构示意图，所述装置包括：向量化处理模块21、特征提取模块22、语义向量确定模块23和类别确定模块24；

所述向量化处理模块21，用于对目标短文本进行向量化处理，得到向量化目标短文本；

所述特征提取模块22，用于提取所述向量化目标短文本的特征，得到向量化目标短文本特征；

所述语义向量确定模块23，用于根据所述向量化目标短文本特征，确定所述目标短文本的语义向量；

所述类别确定模块24，用于根据所述目标短文本的语义向量，确定所述目标短文本的类别。

进一步地，在上述装置实施例的基础上，所述短文本分类装置，还包括：预处理模块；

进一步地，在上述装置实施例的基础上，所述向量化处理模块21，具体用于：

进一步地，在上述装置实施例的基础上，所述根据训练好的词向量库，对所述预处理后的目标短文本进行向量化处理，得到所述向量化目标短文本，包括：

对所述预处理后的目标短文本划分词项，得到各个词项；

进一步地，在上述装置实施例的基础上，所述特征提取模块22，具体用于：

进一步地，在上述装置实施例的基础上，所述语义向量确定模块23，具体用于：

进一步地，在上述装置实施例的基础上，所述类别确定模块24，具体用于：

计算所述目标短文本的语义向量在每个类别上的输出概率；

根据所述输出概率，确定所述目标短文本的类别。

本实施例所述的短文本分类装置可以用于执行上述方法实施例，其原理和技术效果类似，此处不再赘述。

图3为本发明一实施例提供的电子设备的逻辑框图；所述电子设备，包括：处理器(processor)31、存储器(memory)32和总线33；

其中，所述处理器31和存储器32通过所述总线33完成相互间的通信；所述处理器31用于调用所述存储器32中的程序指令，以执行上述方法实施例所提供的短文本分类方法。

本发明一实施例还提出一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机程序，该计算机程序被处理器执行时实现了执行上述各实施例提供的短文本分类方法。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种短文本分类方法，其特征在于，包括：

对目标短文本进行向量化处理，得到向量化目标短文本；

2.根据权利要求1所述的短文本分类方法，其特征在于，所述对目标短文本进行向量化处理，得到向量化目标短文本之前，所述短文本分类方法，还包括：

3.根据权利要求2所述的短文本分类方法，其特征在于，所述对目标短文本进行向量化处理，得到向量化目标短文本，包括：

4.根据权利要求3所述的文本分类方法，其特征在于，所述根据训练好的词向量库，对所述预处理后的目标短文本进行向量化处理，得到所述向量化目标短文本，包括：

对所述预处理后的目标短文本划分词项，得到各个词项；

5.根据权利要求4所述的短文本分类方法，其特征在于，所述提取所述向量化目标短文本的特征，得到向量化目标短文本特征，包括：

6.根据权利要求5所述的短文本分类方法，其特征在于，所述根据所述向量化目标短文本特征，确定所述目标短文本的语义向量，包括：

7.根据权利要求6所述的短文本分类方法，其特征在于，所述根据所述目标短文本的语义向量，确定所述目标短文本的类别，包括：

计算所述目标短文本的语义向量在每个类别上的输出概率；

根据所述输出概率，确定所述目标短文本的类别。

8.一种短文本分类装置，其特征在于，包括：向量化处理模块、特征提取模块、语义向量确定模块和类别确定模块；

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一所述的短文本分类方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7任一所述的短文本分类方法。