CN114756675A

CN114756675A - 文本分类方法、相关设备及可读存储介质

Info

Publication number: CN114756675A
Application number: CN202111646089.5A
Authority: CN
Inventors: 程飞; 吴飞; 方四安; 徐承; 柳林
Original assignee: Hefei Ustc Iflytek Co ltd
Current assignee: Hefei Ustc Iflytek Co ltd
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2022-07-15

Abstract

本申请公开了一种文本分类方法、相关设备及可读存储介质。在获取待进行分类的文本之后，确定该文本的关键词匹配类别标签得分、分类匹配类别标签得分以及相似度匹配类别标签得分；基于该文本的关键词匹配类别标签得分、分类匹配类别标签得分以及相似度匹配类别标签得分，确定该文本的最终类别标签得分；最后，基于该文本的最终类别标签得分，确定该文本的类别。该方案中，关键词匹配类别标签得分、分类匹配类别标签得分、相似度匹配类别标签得分指示的是文本在三个不同维度的分类结果，文本的类别是基于文本在三个不同维度的分类结果得到的，准确率更高。

Description

文本分类方法、相关设备及可读存储介质

技术领域

本申请涉及自然语言处理技术领域，更具体的说，是涉及一种文本分类方法、相关设备及可读存储介质。

背景技术

在一些场景中，需要对文本进行分类。比如，在警方办案场景中，可以对犯罪人员通过社交软件所产生的交互数据(如，即时通讯工具所产生的聊天数据)进行收集和分类，从中找出与违法犯罪相关的消息，以协助警方侦查违法犯罪行为，找出违法犯罪团伙，获取违法犯罪证据、抓捕违法犯罪人员，捣毁违法犯罪社交组织等，提升警方办案效率。

文本分类是用算法对文本包含的内容进行自动的分析，从而识别出不同文本的类别，目前的文本分类方案，只能从一个维度对文本包含的内容进行分析，导致文本分类的准确率较低。

因此，如何提升文本分类的准确率，成为本领域技术人员亟待解决的技术问题。

发明内容

鉴于上述问题，本申请提出了一种文本分类方法、相关设备及可读存储介质。具体方案如下：

一种文本分类方法，所述方法包括：

获取待进行分类的文本；

确定所述文本的关键词匹配类别标签得分、分类匹配类别标签得分以及相似度匹配类别标签得分；

基于所述文本的关键词匹配类别标签得分、分类匹配类别标签得分以及相似度匹配类别标签得分，确定所述文本的最终类别标签得分；

基于所述文本的最终类别标签得分，确定所述文本的类别。

可选地，确定所述文本的关键词匹配类别标签得分，包括：

获取预设的各类别标签对应的关键词信息，所述关键词信息包括关键词以及关键词的权重；

将所述文本与所述各类别标签对应的关键词进行匹配，得到匹配关键词；

基于所述匹配关键词对应的类别标签，以及所述匹配关键词的权重，确定所述文本的关键词匹配类别标签得分。

可选地，所述关键词包括单独关键词、组合关键词和反向关键词中的一种或多种。

可选地，确定所述文本的分类匹配类别标签得分，包括：

将所述文本输入文本分类模型，所述文本分类模型输出所述文本的分类匹配类别标签得分；

所述文本分类模型是以训练用文本为训练样本，以训练用文本标注的类别标签为样本标签，以所述文本分类模型的输出趋近于基于所述类别标签对应的关键词信息对所述类别标签调整之后的类别标签为训练目标训练得到的。

可选地，确定所述文本的相似度匹配类别标签得分，包括：

获取预设的参考文本库，所述参考文本库中包括各类别标签对应的参考文本；

针对每个参考文本，将所述参考文本与所述文本输入相似度计算模型，所述相似度计算模型输出所述参考文本与所述文本的相似度得分；所述相似度计算模型是以训练用文本对为训练样本，以训练用文本对标注的相似度结果为样本标签，训练得到的；

基于各参考文本对应的类别标签，以及，各参考文本与所述文本的相似度得分，计算所述文本的相似度匹配类别标签得分。

可选地，所述训练用文本对的确定方式为：

获取预设的原始文本对；

确定预设的关键词；

基于所述原始文本对与所述关键词，得到训练用文本对，每个训练用文本对中的一个文本是由一个关键词和与该文本对应的原始文本组合得到的。

可选地，所述相似度计算模型的训练过程包括：

基于dropout机制对训练用文本对进行处理后再输入所述相似度计算模型。

可选地，所述基于所述文本的关键词匹配类别标签得分、分类匹配类别标签得分以及相似度匹配类别标签得分，确定所述文本的最终类别标签得分，包括：

确定关键词匹配类别标签得分对应的权重、分类匹配类别标签得分的权重以及相似度匹配类别标签得分的权重；

基于所述文本的关键词匹配类别标签得分、分类匹配类别标签得分、相似度匹配类别标签得分、所述关键词匹配类别标签得分对应的权重、所述分类匹配类别标签得分的权重以及所述相似度匹配类别标签得分的权重，确定所述文本的最终类别标签得分。

可选地，所述基于所述文本的最终类别标签得分，确定所述文本的类别，包括：

确定最大的最终类别标签得分；

如果所述最大的最终类别标签得分大于预设阈值，则确定所述最大的最终类别标签得分对应的类别标签为所述文本的类别；如果所述最大的最终类别标签得分不大于预设阈值，则确定所述文本的类别为其他类别。

一种文本分类装置，所述装置包括：

获取单元，用于获取待进行分类的文本；

各匹配类别标签得分确定单元，用于确定所述文本的关键词匹配类别标签得分、分类匹配类别标签得分以及相似度匹配类别标签得分；

最终类别标签得分确定单元，用于基于所述文本的关键词匹配类别标签得分、分类匹配类别标签得分以及相似度匹配类别标签得分，确定所述文本的最终类别标签得分；

文本类别确定单元，用于基于所述文本的最终类别标签得分，确定所述文本的类别。

可选地，所述各匹配类别标签得分确定单元包括关键词匹配类别标签得分确定单元，所述关键词匹配类别标签得分确定单元包括：

关键词信息获取单元，用于获取预设的各类别标签对应的关键词信息，所述关键词信息包括关键词以及关键词的权重；

匹配单元，用于将所述文本与所述各类别标签对应的关键词进行匹配，得到匹配关键词；

关键词匹配类别标签得分确定子单元，用于基于所述匹配关键词对应的类别标签，以及所述匹配关键词的权重，确定所述文本的关键词匹配类别标签得分。

可选地，所述各匹配类别标签得分确定单元包括分类匹配类别标签得分确定单元，所述分类匹配类别标签得分确定单元用于：

可选地，所述各匹配类别标签得分确定单元包括相似度匹配类别标签得分确定单元，所述相似度匹配类别标签得分确定单元，包括：

参考文本库获取单元，用于获取预设的参考文本库，所述参考文本库中包括各类别标签对应的参考文本；

相似度得分计算单元，用于针对每个参考文本，将所述参考文本与所述文本输入相似度计算模型，所述相似度计算模型输出所述参考文本与所述文本的相似度得分；所述相似度计算模型是以训练用文本对为训练样本，以训练用文本对标注的相似度结果为样本标签，训练得到的；

相似度匹配类别标签得分计算子单元，用于基于各参考文本对应的类别标签，以及，各参考文本与所述文本的相似度得分，计算所述文本的相似度匹配类别标签得分。

可选地，所述装置还包括：训练用文本对确定单元，用于获取预设的原始文本对；确定预设的关键词；基于所述原始文本对与所述关键词，得到训练用文本对，每个训练用文本对中的一个文本是由一个关键词和与该文本对应的原始文本组合得到的。

可选地，所述相似度计算模型的训练过程包括：

可选地，所述最终类别标签得分确定单元，包括：

权重确定单元，用于确定关键词匹配类别标签得分对应的权重、分类匹配类别标签得分的权重以及相似度匹配类别标签得分的权重；

最终类别标签得分确定子单元，用于基于所述文本的关键词匹配类别标签得分、分类匹配类别标签得分、相似度匹配类别标签得分、所述关键词匹配类别标签得分对应的权重、所述分类匹配类别标签得分的权重以及所述相似度匹配类别标签得分的权重，确定所述文本的最终类别标签得分。

可选地，所述文本类别确定单元，具体用于：

确定最大的最终类别标签得分；如果所述最大的最终类别标签得分大于预设阈值，则确定所述最大的最终类别标签得分对应的类别标签为所述文本的类别；如果所述最大的最终类别标签得分不大于预设阈值，则确定所述文本的类别为其他类别。

一种文本分类设备，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如上所述的文本分类方法的各个步骤。

一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上所述的文本分类方法的各个步骤。

借由上述技术方案，本申请公开了一种文本分类方法、相关设备及可读存储介质。在获取待进行分类的文本之后，确定该文本的关键词匹配类别标签得分、分类匹配类别标签得分以及相似度匹配类别标签得分；基于该文本的关键词匹配类别标签得分、分类匹配类别标签得分以及相似度匹配类别标签得分，确定该文本的最终类别标签得分；最后，基于该文本的最终类别标签得分，确定该文本的类别。该方案中，关键词匹配类别标签得分、分类匹配类别标签得分、相似度匹配类别标签得分指示的是文本在三个不同维度的分类结果，文本的类别是基于文本在三个不同维度的分类结果得到的，准确率更高。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本申请实施例公开的文本分类方法的流程示意图；

图2为本申请实施例公开的一种文本分类装置结构示意图；

图3为本申请实施例公开的一种文本分类设备的硬件结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

接下来，通过下述实施例对本申请提供的文本分类方法进行介绍。

参照图1，图1为本申请实施例公开的文本分类方法的流程示意图，该方法可以包括：

步骤S101：获取待进行分类的文本。

在本申请中，待进行分类的文本可以为各种场景下的文本，比如，可以为在警方办案场景中即时通讯工具所产生的聊天数据，对此，本申请不进行任何限定。

步骤S102：确定所述文本的关键词匹配类别标签得分、分类匹配类别标签得分以及相似度匹配类别标签得分。

在本申请中，可以根据场景需求，预先指定多个类别标签，并针对每个类别标签，预设其对应的关键词信息，所述关键词匹配类别标签得分用于指示所述文本与各类别标签对应的关键词信息进行匹配后，各类别标签的得分，分类匹配类别标签得分用于指示对所述文本进行分类处理后，各类别标签的得分，相似度匹配类别标签得分用于指示对所述文本进行相似度匹配后，各类别标签的得分。

需要说明的是，所述文本的关键词匹配类别标签得分、分类匹配类别标签得分以及相似度匹配类别标签得分的具体确定方式将通过后面的实施例详细说明，本步骤不再展开描述。

步骤S103：基于所述文本的关键词匹配类别标签得分、分类匹配类别标签得分以及相似度匹配类别标签得分，确定所述文本的最终类别标签得分。

在确定所述文本的关键词匹配类别标签得分、分类匹配类别标签得分以及相似度匹配类别标签得分之后，可以对所述文本的关键词匹配类别标签得分、分类匹配类别标签得分以及相似度匹配类别标签得分进行融合处理，确定所述文本的最终标签得分。融合处理的具体实现方式将通过后面的实施例详细说明，本步骤不再展开描述。

步骤S104：基于所述文本的最终类别标签得分，确定所述文本的类别。

所述文本的最终类别标签得分中包括各个类别标签的最终得分，作为一种可实施方式，可以确定最大的最终类别标签得分对应的类别标签为所述文本的类别。作为另一种可实施方式，可以预设阈值，如果所述最大的最终类别标签得分大于预设阈值，则确定所述最大的最终类别标签得分对应的类别标签为所述文本的类别；如果所述最大的最终类别标签得分不大于预设阈值，则确定所述文本的类别为其他类别。需要说明的是，通过预设阈值确定所述文本的类别方式，能够提高结果的置信度。

本实施例公开了一种文本分类方法，在获取待进行分类的文本之后，确定该文本的关键词匹配类别标签得分、分类匹配类别标签得分以及相似度匹配类别标签得分；基于该文本的关键词匹配类别标签得分、分类匹配类别标签得分以及相似度匹配类别标签得分，确定该文本的最终类别标签得分；最后，基于该文本的最终类别标签得分，确定该文本的类别。该方法中，关键词匹配类别标签得分、分类匹配类别标签得分、相似度匹配类别标签得分指示的是文本在三个不同维度的分类结果，文本的类别是基于文本在三个不同维度的分类结果得到的，准确率更高。

在本申请的另一个实施例中，对确定所述文本的关键词匹配类别标签得分的具体实现方式进行详细说明。该方式包括以下步骤：

步骤S201：获取预设的各类别标签对应的关键词信息，所述关键词信息包括关键词以及关键词的权重。

在本申请中，可以预先基于场景需求，确定至少一个类别标签，并针对每个类别标签，确定该类别标签对应的关键词信息。

具体的，可以先搜集该场景下的大量数据，基于这些数据生成文本库，比如，在警方办案场景中，搜集大量聊天数据，基于这些聊天数据生成文本库。在生成文本库之后，可以基于各类别标签对文本库中的各个文本进行类别标注，并对文本库中的各个文本进行分词处理，得到各个类别标签对应的词语。针对每个类别标签，基于该类别标签对应的词语确定出该类别标签对应的关键词信息。

需要说明的是，搜集的原始数据，其表达方式可能不规范，比如，与人们的口语接近，可能包含较多的网络词汇和表情符号，通常会破坏主谓宾的句法结构、存在词语简写、指代不明，出现拼写错误等。因此，搜集的原始数据中往往存在较多噪声数据，在本申请中，可以对搜集的原始数据进行预处理，得到预处理后的数据，基于预处理后的数据生成文本库。在本申请中，对搜集的原始数据进行预处理，可以去除原始数据中的噪声数据，有助于提升后续步骤的精确度。

预处理的方式可以有多种，比如，数据清洗处理、数据转换处理、数据规范处理、无用词过滤处理等。其中，

数据清洗处理可以包括剔除原始数据中较短数据(比如，小于三个字的数据、纯标点符号的数据等)、表情包、图片等。

数据转换处理可以包括将原始数据中的语音交互信息转写成文本等。

数据规范处理可以包括将原始数据中不规范表达方式替换为规范表达方式。作为一种可实施方式，在本申请中，可以基于字典映射实现规范处理。字典的每一行为一个不规范表达方式与规范表达方式的映射。在对原始数据进行数据规范处理时，可以扫描该原始数据，当发现不规范表达方式时，自动将其替换成规范的表达方式。

无用词过滤处理可以包括去掉原始数据中的停用词、语气词等无用词。作为一种可实施方式，可以对原始数据进行分词，再去掉停用词、语气词等无用词。分词可以采用现有成熟的分词技术，如N-gram分词等，对此，本申请不进行任何限定。

作为一种可实施方式，在本申请中，可以选择上述预处理方式中的任意一种或多种，对此，本申请不进行任何限定。

作为一种可实施方式，所述关键词包括单独关键词，组合关键词和反向关键词中的一种或多种。

在本申请中，针对每个类别标签，基于该类别标签对应的词语确定出该类别标签对应的单独关键词信息的方式可以包括：

针对该类别标签对应的每个词语，确定所述词语的重要程度；基于各个词语的重要程度，确定该类别标签对应的单独关键词信息。

作为一种可实施方式，所述确定所述词语的重要程度，包括：计算所述词语的TF-IDF值，表征所述词语的重要程度，TF-IDF值越大，重要程度越高，TF-IDF值越小，重要程度越低。所述计算所述词语的TF-IDF值，包括：基于所述词语在文本库中出现的次数、所述词语的长度、所述文本库中文本的条数计算所述词语的词频；计算所述词语的逆文档频率；基于所述词语的词频和所述词语的逆文档频率计算所述词语的TF-IDF值。

TF-IDF是一种用于信息检索与数据挖掘的常用技术。其中，TF表示词频，计算方法为TF＝(某个词语在文档中出现的次数/文档的总词数)，IDF表示逆文档频率，计算方法为IDF＝log(语料库中文档总个数/(包含某词语的文档个数+1))。当有一个词语的TF和IDF后，将这两个数字相乘，就能得到该词语的TF-IDF值。某个词语的TF-IDF值越大，那么一般而言这个词语在这篇文档中的重要性会越高。

但普通的TF-IDF算法存在一些问题，在计算一个词语的TF时，忽略词语长度，不管词语包含几个字在计算TF时都一视同仁。但是，对于短文本，长度较短的词语需要重点关注，因此，在本申请中，在计算一个词语的TF时，获取所述词语在文本库中出现的次数、所述词语的长度、所述文本库中文本的条数，基于所述词语在文本库中出现的次数、所述词语的长度、所述文本库中文本的条数计算所述词语的TF。

作为一种可实施方式，在本申请中，一个词语的TF可基于以下公式计算得到：

作为一种可实施方式，基于各个词语的重要程度，确定单独关键词的方式可以包括：基于各词语的重要程度进行降序排序，取排名靠前的预设数量个词语作为候选关键词。对候选关键词中的常用词进行过滤，将剩余的候选关键词确定为单独关键词，并基于每个单独关键词的重要程度确定其权重h_单。作为一种可实施方式，可以利用人机协同的方式对候选关键词中的常用词进行过滤。

由于单个关键词匹配可能带来大量噪声数据，无法满足数据筛选需求，为了提高数据筛选效率，降低噪声数据量级，因此，本申请中，可以在专家先验知识及历史经验的基础上，对数据进行多轮分析，提取类别标签关键特征，多次实验迭代更新，确定组合关键词、反向关键词表，并配置相应的权重h_组、h_反。

步骤S202：将所述文本与所述各类别标签对应的关键词进行匹配，得到匹配关键词。

在本申请中，可以判断所述文本中是否包含某个关键词，如果包含，则该关键词为匹配关键词。

步骤S203：基于所述匹配关键词对应的类别标签，以及所述匹配关键词的权重，确定所述文本的关键词匹配类别标签得分。

作为一种可实施方式，可以先计算各类别标签的关键词匹配得分，再基于各类别标签的关键词匹配得分，确定所述文本的关键词匹配类别标签得分。其中，每个类别标签的关键词匹配得分可以基于该类别标签对应的匹配关键词中单独关键词的数量、组合关键词的数量以及反向关键词的数量计算得到。

为便于理解，假设有4个类别标签，则所述文本的关键词匹配类别标签得分为：

score_关键词＝[Score_{类别标签1}，Score_{类别标签2}，Score_{类别标签3}，Scor_{e类别标签4}]

针对每个类别标签，可以基于如下公式，计算该类别标签的关键词匹配得分：

Score_类别标签＝h_单*Score_单+h_组*Score_组-h_反*Score_反

具体的，可以先确定该类别标签对应的匹配关键词中单独关键词的数量、组合关键词的数量以及反向关键词的数量，Score_单可以由单独关键词的数量除以该类别标签对应的匹配关键词的总数得到；Score_组可以由组合关键词的数量除以该类别标签对应的匹配关键词的总数得到；Score_反可以由反向关键词的数量除以该类别标签对应的匹配关键词的总数得到。

在本申请的另一个实施例中，对确定所述文本的分类匹配类别标签得分的具体实现方式进行详细说明。该方式可以包括：将所述文本输入文本分类模型，所述文本分类模型输出所述文本的分类匹配类别标签得分。

需要说明的是，在一般情况下，在模型训练过程中，是以所述文本分类模型的输出趋近于训练用文本标注的类别标签为训练目标训练的，比如，使用一个深度网络(DNN，诸如LSTM、CNN、BERT等)来得到训练用文本的向量表示；借助softmax分类器来输出预测的标签概率分布p，使用 Cross-entropy来计算训练用文本标注的类别标签与p之间的损失，通过loss 函数不断迭代更新最终获得所述文本分类模型。

但是，训练用文本标注的类别标签往往为one-hot表示形式，其与数据的真实标签往往存在偏差。

为便于理解，假设训练用文本为：

‘#大排查大整治#【一个分神，撞树上了！】6月9日中午12点半左右，江东镇十白线往武义方向，一辆大货车因司机一时分神，撞上了一颗大树，所幸树木起到了缓冲作用，车子并未冲进路边河沟造成更大的损失。交警提醒：午后人体易感觉困倦，注意力不集中，容易出现判断失误，危及安全行车，司机朋友要适当午休，适当调整驾驶时间，开车时开窗通通风，保持车内空气清新。#关注交通安全#’

该数据60％部分讲的是消极，而只有40％讲的内容为积极和中性，所以该数据真实标签应该为(0.6，0.35，0.05)，但是事实上该数据标注的标签为 (1，0，0)，二者存在偏差。

当存在上述情况时，使用Cross-entropy来计算训练用文本标注的类别标签与p之间的损失时存在一定的误差，导致训练的模型泛化能力较差。

为此，在本申请中，基于所述类别标签对应的关键词信息对所述类别标签进行调整得到的类别标签与真实标签更为接近。以所述文本分类模型的输出趋近于基于所述类别标签对应的关键词信息对所述类别标签调整之后的类别标签为训练目标训练得到的文本分类模型泛化能力更强。

需要说明的是，调整后的类别标签更能反映标签中各个分量之间的混淆程度或相似程度的分布。

作为一种可实施方式，在本申请中，所述文本分类模型可以采用WWM (Whole WordMasking，全词覆盖)预训练BERT模型作为基础的模型。为了使得该模型更适合本申请的场景需求，在本申请中，可以以文本库中的全部或部分文本作为训练用文本，对基础的模型继续进行训练。

以文本库中包含聊天数据文本为例，在对基础的模型继续进行训练时，由于数据较短，采用更大的batch size，更长训练步长；去掉原始的下句预测损失函数；不采用原始的现在128长度的文本上进行训练，然后二阶段再在 32的长度上进行微调，直接在32的序列长度上进行训练，使得模型能够适应短文本；不采用原始的字级别MASK，而采用词级别进行MASK，融入更多先验知识，减轻对中文特有的词结构破坏；采用2e-6的学习率，训练80万步得到更适合于聊天数据文本处理的BERT预训练模型。

文本分类模型为BERT模型时，将所述文本输入文本分类模型，所述文本分类模型输出所述文本的分类匹配类别标签得分的过程可以为：对于用户输入的所述文本，首先经过分词处理，并补充上BERT模型输入所需要的 [CLS]、[SEP]。然后对分词后的输入进行向量化处理并输入到BERT模型中，输出经过BERT模型编码过语义的特征向量，使用[CLS]所对应的特征向量作为sotfmax的输入，输出所述文本的分类匹配类别标签得分。

为便于理解，假设有4个类别标签，则所述文本的分类匹配类别标签得分为：

score_分类＝[Score_{类别标签1}，Score_{类别标签2}，Score_{类别标签3}，Score_{类别标签4}]

在本申请的另一个实施例中，对确定所述文本的相似度匹配类别标签得分的具体实现方式进行了说明，该方式可以包括以下步骤：

步骤S301：获取预设的参考文本库，所述参考文本库中包括各类别标签对应的参考文本。

在本申请中，可以从文本分类模型的训练用文本中筛选出部分文本作为参考文本，用于与待进行分类的文本组成文本对，计算相似度得分，以得到所述文本的相似度匹配类别标签得分。

需要说明的是，参考文本中包含预设的全部类别标签对应的文本，比如，预设类别标签为1、2、3、4，参考文本中可以包括10个类别标签为1的文本，10个类别标签为2的文本，10个类别标签为3的文本和10个类别标签为4 的文本。

步骤S302：针对每个参考文本，将所述参考文本与所述文本输入相似度计算模型，所述相似度计算模型输出所述参考文本与所述文本的相似度得分；所述相似度计算模型是以训练用文本对为训练样本，以训练用文本对标注的相似度结果为样本标签，训练得到的。

作为一种可实施方式，所述训练用文本对的确定方式为：获取预设的原始文本对；确定预设的关键词；基于所述原始文本对与所述关键词，得到训练用文本对，每个训练用文本对中的一个文本是由一个关键词和与该文本对应的原始文本组合得到的。

需要说明的是，预设的原始文本对可以是从文本分类模型的训练用文本中筛选出来的，为了解决数据量稀缺问题，在本申请中可以采用预设的关键词与原始文本相组合的方式进行数据扩充，其中，预设的关键词可以为各个类别标签对应的关键词中的全部或部分，也可以为原始文本涉及的关键词，对此，本申请不进行任何限定。

使用扩充后的数据训练容易造成模型过拟合，因此，在本申请中，所述相似度计算模型的训练过程包括：基于dropout机制对训练用文本对进行处理后再输入所述相似度计算模型。如此处理，能够增加输入相似度计算模型的数据的多样性。其中的dropout机制是基于预设的dropout值在每轮训练迭代时，输入数据随机mask掉一部分信息，比如，dropout＝0.8，则每轮训练迭代时，输入数据随机mask掉20％信息。

步骤S303：基于各参考文本对应的类别标签，以及，各参考文本与所述文本的相似度得分，计算所述文本的相似度匹配类别标签得分。

在本步骤中，可以将同一类别标签的参考文本与所述文本的相似度得分进行求和求平均，即得到各个类别标签的相似度匹配得分。各个类别标签的相似度匹配得分组合得到所述文本的相似度匹配类别标签得分。

为便于理解，假设有4个类别标签，则所述文本的相似度匹配类别标签得分为：

score_相似度＝[Score_{类别标签1}，Score_{类别标签2}，Score_{类别标签3}，Score_{类别标签4}]

在本申请的另一个实施例中，对基于所述文本的关键词匹配类别标签得分、分类匹配类别标签得分以及相似度匹配类别标签得分，确定所述文本的最终类别标签得分的过程进行了详细说明，该过程可以包括：

步骤S401：确定关键词匹配类别标签得分对应的权重、分类匹配类别标签得分的权重以及相似度匹配类别标签得分的权重。

在本申请中，可以通过多次试验调优得到关键词匹配类别标签得分对应的权重、分类匹配类别标签得分的权重以及相似度匹配类别标签得分的权重。

步骤S402：基于所述文本的关键词匹配类别标签得分、分类匹配类别标签得分、相似度匹配类别标签得分、所述关键词匹配类别标签得分对应的权重、所述分类匹配类别标签得分的权重以及所述相似度匹配类别标签得分的权重，确定所述文本的最终类别标签得分。

将各个权重与对应的得分相乘求和即可确定所述文本的最终类别标签得分。

下面对本申请实施例公开的文本分类装置进行描述，下文描述的文本分类装置与上文描述的文本分类方法可相互对应参照。

参照图2，图2为本申请实施例公开的一种文本分类装置结构示意图。如图2所示，该文本分类装置可以包括：

获取单元21，用于获取待进行分类的文本；

各匹配类别标签得分确定单元22，用于确定所述文本的关键词匹配类别标签得分、分类匹配类别标签得分以及相似度匹配类别标签得分；

最终类别标签得分确定单元23，用于基于所述文本的关键词匹配类别标签得分、分类匹配类别标签得分以及相似度匹配类别标签得分，确定所述文本的最终类别标签得分；

文本类别确定单元24，用于基于所述文本的最终类别标签得分，确定所述文本的类别。

作为一种可实施方式，所述各匹配类别标签得分确定单元包括关键词匹配类别标签得分确定单元，所述关键词匹配类别标签得分确定单元包括：

作为一种可实施方式，所述关键词包括单独关键词、组合关键词和反向关键词中的一种或多种。

作为一种可实施方式，所述各匹配类别标签得分确定单元包括分类匹配类别标签得分确定单元，所述分类匹配类别标签得分确定单元用于：

作为一种可实施方式，所述各匹配类别标签得分确定单元包括相似度匹配类别标签得分确定单元，所述相似度匹配类别标签得分确定单元，包括：

作为一种可实施方式，所述装置还包括：训练用文本对确定单元，用于获取预设的原始文本对；确定预设的关键词；基于所述原始文本对与所述关键词，得到训练用文本对，每个训练用文本对中的一个文本是由一个关键词和与该文本对应的原始文本组合得到的。

作为一种可实施方式，所述相似度计算模型的训练过程包括：

作为一种可实施方式，所述最终类别标签得分确定单元，包括：

作为一种可实施方式，所述文本类别确定单元，具体用于：

参照图3，图3为本申请实施例提供的文本分类设备的硬件结构框图，参照图3，文本分类设备的硬件结构可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本申请实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC (ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器 (non-volatilememory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

获取待进行分类的文本；

基于所述文本的最终类别标签得分，确定所述文本的类别。

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种可读存储介质，该可读存储介质可存储有适于处理器执行的程序，所述程序用于：

获取待进行分类的文本；

基于所述文本的最终类别标签得分，确定所述文本的类别。

可选的，所述程序的细化功能和扩展功能可参照上文描述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……” 限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种文本分类方法，其特征在于，所述方法包括：

获取待进行分类的文本；

基于所述文本的最终类别标签得分，确定所述文本的类别。

2.根据权利要求1所述的方法，其特征在于，确定所述文本的关键词匹配类别标签得分，包括：

3.根据权利要求2所述的方法，其特征在于，所述关键词包括单独关键词、组合关键词和反向关键词中的一种或多种。

4.根据权利要求1所述的方法，其特征在于，确定所述文本的分类匹配类别标签得分，包括：

5.根据权利要求1所述的方法，其特征在于，确定所述文本的相似度匹配类别标签得分，包括：

6.根据权利要求5所述的方法，其特征在于，所述训练用文本对的确定方式为：

获取预设的原始文本对；

确定预设的关键词；

7.根据权利要求5所述的方法，其特征在于，所述相似度计算模型的训练过程包括：

8.根据权利要求1所述的方法，其特征在于，所述基于所述文本的关键词匹配类别标签得分、分类匹配类别标签得分以及相似度匹配类别标签得分，确定所述文本的最终类别标签得分，包括：

9.根据权利要求1所述的方法，其特征在于，所述基于所述文本的最终类别标签得分，确定所述文本的类别，包括：

确定最大的最终类别标签得分；

10.一种文本分类装置，其特征在于，所述装置包括：

获取单元，用于获取待进行分类的文本；

11.一种文本分类设备，其特征在于，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1至9中任一项所述的文本分类方法的各个步骤。

12.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1至9中任一项所述的文本分类方法的各个步骤。