CN110633366A

CN110633366A - 一种短文本分类方法、装置和存储介质

Info

Publication number: CN110633366A
Application number: CN201910697992.0A
Authority: CN
Inventors: 任博雅; 李扬曦; 刘权; 胡燕林; 佟玲玲; 赵媛; 徐雅静; 程明飞; 李静蕾; 李思
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2019-07-31
Filing date: 2019-07-31
Publication date: 2019-12-31
Anticipated expiration: 2039-07-31
Also published as: CN110633366B

Abstract

本发明提出了一种短文本分类方法、装置和存储介质，用以从有限的训练数据中获取泛化能力强并且较为准确的分类特征，提高短文本分类的准确性。所述短文本分类方法，包括：获取待分类短文本；将所述待分类短文本输入到多层分类器中，其中，所述多层分类器为利用训练样本和所述待分类短文本所属目标领域的领域知识图谱进行训练得到的，每一层分类器提取不同的文本特征进行训练；根据所述多层分类器的输出结果，确定所述待分类短文本对应的文本类别。

Description

一种短文本分类方法、装置和存储介质

技术领域

本发明涉及机器学习技术领域，尤其涉及一种短文本分类方法、装置和存储介质。

背景技术

随着网络信息的爆炸式增长，网络中逐渐积累了大量需要处理的文本数据，尤其是短文本数据。这类短文本数据主要用于用户的日常沟通和消息推广等，合理的对此类数据进行分类，有助于话题追踪、舆情监测等研究的发展与突破。但是，由于这类短文本不仅规模巨大，而且具有天然的数据稀疏性、复杂的语言多样性和随意性、噪声多而有效数据分布不平衡等特点，对现有的文本分类系统带来了极大的挑战。

现有的文本分类的技术主要有两类方法：一类是基于统计和机器学习的文本分类方法，如支持向量机、K邻居算法和决策树算法等。另一类是基于深度学习的文本分类方法，如CNN(卷积神经网络)、RNN(循环神经网络)和LSTM(长短期记忆网络)等。这两类技术均高度依赖从已标注好的训练数据中分析或学习得到的分类特征，以获得较高的准确率和召回率。但面对大规模开放场景下的短文本分类问题，获取高质量和大数量的训练数据是很困难，并且训练数据集也很难覆盖所有情况，而如何从有限的训练数据中获取泛化能力强并且较为准确的分类特征，成为解决开放场景下短文本分类的关键技术问题之一。

发明内容

本发明要解决的技术问题是从有限的训练数据中获取泛化能力强并且较为准确的分类特征，提高短文本分类的准确性，提供一种短文本分类方法、装置和存储介质。

本发明采用的技术方案是提供一种短文本分类方法，所述短文本分类方法，包括：

获取待分类短文本；

将所述待分类短文本输入到多层分类器中，其中，所述多层分类器为利用训练样本和所述待分类短文本所属目标领域的领域知识图谱进行训练得到的，每一层分类器提取不同的文本特征进行训练；

根据所述多层分类器的输出结果，确定所述待分类短文本对应的文本类别。

在一种可能的实施方式中，所述多层分类器包括第一层分类器、第二层分类器和第三层分类器，所述第一层分类器用于提取背景知识特征，所述第二层分类器用于提取正负样本大类特征，所述第三层分类器用于提取正样本子类特征。

在一种可能的实施方式中，将所述待分类短文本输入到多层分类器中，具体包括：

将所述待分类短文本输入所述第一层分类器，提取背景知识特征，根据提取的背景知识特征输出预测属于所述目标领域的候选短文本；

将所述候选短文本输入所述第二层分类器，提取正负样本大类特征，根据提取的正负样本大类特征输出所述候选短文本是否属于目标领域的输出结果；

将属于所述目标领域的短文本输入所述第三层分类器，提取正样本子类特征，根据提取的正样本子类特征，输出属于所述目标领域的短文本对应的文本类别。

在一种可能的实施方式中，所述多层分类器还包括第四层分类器，所述第四层分类器用于提取上下文消除歧义特征；

在确定属于所述目标领域的短文本对应的文本类别之后，还包括；

将包含有预设歧义词且属于所述目标领域的短文本输入所述第四层分类器，提取上下文消除歧义特征，根据提取的上下文消除歧义特征，输出包含有预设歧义词且属于所述目标领域的短文本的分类结果。

在一种可能的实施方式中，按照以下方法对第一层分类器进行训练：

从所述领域知识图谱中提取所有实体组成实体表；

对所述实体表中包含的所有实体进行分词，并按照各个分词在所有实体中出现的频次降序排列得到候选背景特征集合；

依序遍历所述候选背景特征集合中包含的每一候选背景特征，针对当前遍历的候选背景特征，执行：

遍历所述实体表中包含的每一实体，如果任一实体包含当前遍历的候选背景特征，则将当前遍历的候选背景特征添加到领域背景特征集合中，并从所述实体表中删除包含当前遍历的候选背景特征的实体，直至遍历完成所有候选背景特征；

基于所述领域背景特征集合中包含的领域背景特征，利用AC自动机算法进行训练得到所述第一层分类器。

在一种可能的实施方式中，按照以下方法对第二层分类器进行训练：

将所述训练样本输入第一层分类器，输出候选样本，所述候选样本包括正样本和负样本；

对所述候选样本进行分词得到特征词；

统计每一特征词分别在正样本中出现的第一词频和在负样本中出现的第二词频；

利用属于所述正样本中且对应的第一词频与第二词频之差大于第一预设阈值的第一特征词，从所述领域知识图谱中匹配相应的第一实体，确定所述领域知识图谱中与所述第一实体直接邻接的实体组成第一实体候选集合；

对所述第一实体候选集合包含的实体进行分词得到第一候选样本特征词集合；

对于所述第一候选样本特征词集合中包含的第一候选样本特征词，如果所述第一候选样本特征词不在负样本出现，则将所述第一候选样本特征词加入第一目标样本特征词集合中；

从所述负样本中选择对应的第二词频与第一词频之差大于所述第一预设阈值的第二特征词，加入到所述第一目标样本特征词集合中；

基于所述第一目标样本特征词集合中包含的特征词，采用如下至少一个分类器进行训练得到所述第二层分类器：支持向量机SVM分类器、逻辑回归LR分类器和感知器分类器。

在一种可能的实施方式中，按照以下方法对第三层分类器进行训练：

针对所述正样本中包含的每一特征词，根据其与样本类别标签之间的皮尔森系数选择预设数量的特征词；

利用选择出的特征词在所述领域知识图谱中匹配第二实体，确定所述领域知识图谱中与所述第二实体直接邻接的实体组成第二实体候选集合；

对所述第二实体候选集合包含的实体进行分词得到第二候选样本特征词集合；

对于所述第二候选样本特征词集合中包含的第二候选样本特征词，如果所述第二候选样本特征词不在负样本出现，则将所述第二候选样本特征词加入第二目标样本特征词集合中；

基于所述第二目标样本特征词集合中包含的特征词，采用如下至少一个分类器进行训练得到所述第三层分类器：支持向量机SVM分类器、贝叶斯分类器和感知器分类器。

在一种可能的实施方式中，按照以下方法对第四层分类器进行训练：

针对所述第三层分类器的输出结果，确定预设歧义词语的每个词语含义在各个样本类别中所占比例；

如果预设歧义词语的任一词语含义在各个样本类别中所占比例不大于第二预设阈值，则提取所述预设歧义词语的上下文词语组成歧义词语上下文特征集合；

基于所述歧义词语上下文特征集合，采用无监督学习方法进行训练得到所述第四层分类器。

本发明还提供一种短文本分类装置，包括：

获取单元，用于获取待分类短文本；

文本分类单元，将所述待分类短文本输入到多层分类器中，其中，所述多层分类器为利用训练样本和所述待分类短文本所属目标领域的领域知识图谱进行训练得到的，每一层分类器提取不同的文本特征进行训练；根据所述多层分类器的输出结果，确定所述待分类短文本对应的文本类别。

在一种可能的实施方式中，所述文本分类单元，具体用于将所述待分类短文本输入所述第一层分类器，提取背景知识特征，根据提取的背景知识特征输出预测属于所述目标领域的候选短文本；将所述候选短文本输入所述第二层分类器，提取正负样本大类特征，根据提取的正负样本大类特征输出所述候选短文本是否属于目标领域的输出结果；将属于所述目标领域的短文本输入所述第三层分类器，提取正样本子类特征，根据提取的正样本子类特征，输出属于所述目标领域的短文本对应的文本类别。

所述文本分类单元，还用于将包含有预设歧义词且属于所述目标领域的短文本输入所述第四层分类器，提取上下文消除歧义特征，根据提取的上下文消除歧义特征，输出包含有预设歧义词且属于所述目标领域的短文本的分类结果。

在一种可能的实施方式中，本发明提供的短文本分类装置，还包括：

第一训练单元，用于从所述领域知识图谱中提取所有实体组成实体表；对所述实体表中包含的所有实体进行分词，并按照各个分词在所有实体中出现的频次降序排列得到候选背景特征集合；依序遍历所述候选背景特征集合中包含的每一候选背景特征，针对当前遍历的候选背景特征，执行：遍历所述实体表中包含的每一实体，如果任一实体包含当前遍历的候选背景特征，则将当前遍历的候选背景特征添加到领域背景特征集合中，并从所述实体表中删除包含当前遍历的候选背景特征的实体，直至遍历完成所有候选背景特征；基于所述领域背景特征集合中包含的领域背景特征，利用AC自动机算法进行训练得到所述第一层分类器。

第二训练单元，用于将所述训练样本输入第一层分类器，输出候选样本，所述候选样本包括正样本和负样本；对所述候选样本进行分词得到特征词；统计每一特征词分别在正样本中出现的第一词频和在负样本中出现的第二词频；

利用属于所述正样本中且对应的第一词频与第二词频之差大于第一预设阈值的第一特征词，从所述领域知识图谱中匹配相应的第一实体，确定所述领域知识图谱中与所述第一实体直接邻接的实体组成第一实体候选集合；对所述第一实体候选集合包含的实体进行分词得到第一候选样本特征词集合；对于所述第一候选样本特征词集合中包含的第一候选样本特征词，如果所述第一候选样本特征词不在负样本出现，则将所述第一候选样本特征词加入第一目标样本特征词集合中；从所述负样本中选择对应的第二词频与第一词频之差大于所述第一预设阈值的第二特征词，加入到所述第一目标样本特征词集合中；基于所述第一目标样本特征词集合中包含的特征词，采用如下至少一个分类器进行训练得到所述第二层分类器：支持向量机SVM分类器、逻辑回归LR分类器和感知器分类器。

第三训练单元，用于针对所述正样本中包含的每一特征词，根据其与样本类别标签之间的皮尔森系数选择预设数量的特征词；利用选择出的特征词在所述领域知识图谱中匹配第二实体，确定所述领域知识图谱中与所述第二实体直接邻接的实体组成第二实体候选集合；对所述第二实体候选集合包含的实体进行分词得到第二候选样本特征词集合；对于所述第二候选样本特征词集合中包含的第二候选样本特征词，如果所述第二候选样本特征词不在负样本出现，则将所述第二候选样本特征词加入第二目标样本特征词集合中；基于所述第二目标样本特征词集合中包含的特征词，采用如下至少一个分类器进行训练得到所述第三层分类器：支持向量机SVM分类器、贝叶斯分类器和感知器分类器。

第四训练单元，用于针对所述第三层分类器的输出结果，确定预设歧义词语的每个词语含义在各个样本类别中所占比例；如果预设歧义词语的任一词语含义在各个样本类别中所占比例不大于第二预设阈值，则提取所述预设歧义词语的上下文词语组成歧义词语上下文特征集合；基于所述歧义词语上下文特征集合，采用无监督学习方法进行训练得到所述第四层分类器。

本发明还提供了一种文本处理装置，所述文本处理装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述任一短文本分类方法所述的步骤。

本发明还提供了一种计算机存储介质，所述计算机存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一短文本分类方法所述的步骤。

采用上述技术方案，本发明至少具有下列优点：

本发明所述的短文本分类方法、装置和存储介质中，利用训练样本和待分类短文本所属目标领域的领域知识图谱训练得到一个多层分类器，每一层分类器提取不同的特征进行训练，这样，可以从有限的训练样本中获取更多的分类特征，从而提高了短文本分类的准确率。

附图说明

图1为本发明实施例的短文本分类方法的系统结构示意图；

图2为本发明实施例的第一层分类器训练流程示意图；

图3为本发明实施例的第二层分类器训练流程示意图；

图4为本发明实施例的第三层分类器训练流程示意图；

图5为本发明实施例的第四层分类器训练流程示意图；

图6为本发明实施例的短文本分类方法流程示意图；

图7为本发明实施例的短文本分类装置结构示意图；

图8为本发明实施例的文本处理装置的结构示意图。

具体实施方式

为更进一步阐述本发明为达成预定目的所采取的技术手段及功效，以下结合附图及较佳实施例，对本发明进行详细说明如后。

首先，对本发明实施例中涉及的部分用语进行说明，以便于本领域技术人员理解。

SCIM：一款Linux操作系统上的文字输入平台。

Neo4j：一个开源图形数据库，可稳定储存及管理上亿节点及关系，具有较高的可靠性及扩展性，并支持完整的ACID(原子性、一致性、隔离性、持久性)事务，可高效地完成对知识图谱的储存、更新、管理与检索。

SVM(Support Vector Machine，支持向量机)：是一类按监督学习方式对数据进行二元分类的广义线性分类器，其决策边界是对学习样本求解的最大边距超平面。

LR(Logistic regression逻辑回归)分类器：是当前业界比较常用的机器学习方法，用于估计某种事物的可能性，也用来进行分类。

感知器分类器：一种线性分类器。

Pearson(皮尔森)相关系数：是用来衡量两个数据集合是否在一条线上面，它用来衡量定距变量间的线性关系。

AC(Aho-Corasick automaton)自动机：是一种多模匹配算法，在计算机科学中，Aho-Corasick自动机是由Alfred V.Aho和Margaret J.Corasick发明的字符串搜索算法，用于在输入的一串字符串中匹配有限组“字典”中的子串。它与普通字符串匹配的不同点在于同时与所有字典串进行匹配。算法均摊情况下具有近似于线性的时间复杂度，约为字符串的长度加所有匹配的数量。该算法主要依靠构造一个有限状态机来实现。这些额外的失配指针允许在查找字符串失败时进行回退，转向某前缀的其他分支，免于重复匹配前缀，提高算法效率。

知识图谱：又称为科学知识图谱，在图书情报界称为知识域可视化或知识领域映射地图，是显示知识发展进程与结构关系的一系列各种不同的图形。知识图谱本质上是语义网络，是一种基于图的数据结构，由节点(Point)和边(Edge)组成。在知识图谱里，每个节点表示现实世界中存在的“实体”，每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲，知识图谱就是把所有不同种类的信息(HeterogeneousInformation)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。

需要说明的是，本发明实施例中的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。

在本文中提及的“多个或者若干个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

如图1所示，其为本发明实施例提供的短文本分类方法的系统结构示意图。基于图1所示的系统结构，本发明实施例中，首先，采用构建领域知识图谱的方法，建立目标数据集背景知识特征库，采用无监督分类的方法过滤绝大部分噪声，从而解决部分由于噪声和有效数据分布极不均衡的问题；其次，针对数据类别分布不同、类别差异不等等短文本数据的分布问题，建立不同粒度的特征，本发明实施例中，称之为特征金字塔结构，从而提高分类准确率；最后，对于上述得到特征金字塔，采用已建立的领域知识图谱补充分类特征，弥补仅依赖训练数据集构建特征库，在正样本稀疏的噪声过多的不平衡条件下，缺乏足够的正样本特征的问题。以下结合具体的实施方式对本发明的实施过程进行详细说明。

为了提高短文本分类的准确性，本发明实施例中，利用训练样本和目标领域的领域知识图谱中的数据进行训练，得到一个多层分类器，每一层分类器提取不同的文本特征进行训练。

具体实施时，根据应用场景可构建任意层数的特征金字塔实现领域内文本分类，本发明实施例对此不进行限定。为了便于描述，本发明实施例中以四层分类器为例进行说明。

为了便于说明，本发明实施例中，定义变量如下：

1)四层特征记为F＝{f₁，f₂，f₃，f₄}，其中f_i＝{x_i0，x_i1，...，x_ij}表示第i层特征；2)分类器模型集合ψ＝{ψ₁，ψ₂，...，ψ_n}，其中分类器模型ψ_i与特征层f_i一一对应。

在开始训练之前，首先使用爬虫工具爬取百科网站中目标领域相关的半结构化数据，从中提取三元组，人工评估并修正数据，将三元组数据存储至Neo4j图形数据库，构建领域知识图谱。

以下结合图2所第一层分类器的训练过程进行说明，如图2所示，可以包括以下步骤：

S21、从领域知识图谱中提取所有实体组成实体表。

本步骤中，提取领域知识图谱中的实体建立临时实体表E_temp1＝{e₁，e₂，...，e_n}。

S22、对实体表中包含的所有实体进行分词，并按照各个分词在所有实体中出现的频次降序排列得到候选背景特征集合。

本步骤中，对E_temp1中的所有实体进行分词，并按照各个分词在所有实体中出现的频次降序排列，作为领域背景特征集合f₁的候选背景特征集合W＝{w₁，w₂，...，w_m}。

S23、依序遍历候选背景特征集合中包含的每一候选背景特征，针对当前遍历的候选背景特征，执行：遍历实体表中包含的每一实体，如果任一实体包含当前遍历的候选背景特征，则将当前遍历的候选背景特征添加到领域背景特征集合中，并从实体表中删除包含当前遍历的候选背景特征的实体，直至遍历完成所有候选背景特征。

本步骤中，对特征候选集W进行筛选，具体步骤如下：

遍历W，对

遍历Etemp₁，对

如果实体e_j包含特征w_k：

将w_k添加至f₁；

将实体e_j从E_temp1中删除；

重复上述过程，直至遍历W，得到领域背景特征集合f₁＝{w₁，w₂，...，w_l}。

S24、基于领域背景特征集合中包含的领域背景特征，利用AC自动机算法进行训练得到第一层分类器。

具体实施时，分类模型ψ₁加载f₁层特征，ψ₁可以为AC自动机算法进行文本初筛。训练得到的第一层分类器，用于提取背景知识特征，根据提取的背景知识特征输出所输入文本是否属于目标领域的结果。

如图3所示，其为本发明实施例中对第二层分类器进行训练的实施流程示意图，包括以下步骤：

S31、将训练样本输入第一层分类器，输出候选样本，候选样本包括正样本和负样本。

本步骤中，将训练样本输入第一层分类器中得到可能属于目标领域的候选样本。对于候选样本标注其对应的样本类型，其中，样本类型包括正样本和负样本。

S32、对候选样本进行分词得到特征词。

S33、统计每一特征词分别在正样本中出现的第一词频和在负样本中出现的第二词频。

本步骤中，统计候选样本中各个特征词在正样本中出现的第一词频tf_ip和负样本中出现的第二词频tf_in，依据tf_di＝|tf_ip-tf_in|，比较第一预设阈值ε挑选特征词。

S34、利用属于正样本中且对应的第一词频与第二词频之差大于第一预设阈值的第一特征词，从领域知识图谱中匹配相应的第一实体，确定领域知识图谱中与第一实体直接邻接的实体组成第一实体候选集合。

具体地，利用正样本中满足tf_ip-tf_in＞ε的特征词匹配知识图谱的实体，并将匹配到实体的所有直接相邻的实体作为实体候选集E_temp2＝{e₁，e₂，...，e_n}。

S35、对第一实体候选集合包含的实体进行分词得到第一候选样本特征词集合。

本步骤中，对E_temp2中的实体进行分词得到候选样本特征词集合W₂＝{w₂₁，w₂₂，...，w_2m}。

S36、对于第一候选样本特征词集合中包含的第一候选样本特征词，如果所述第一候选样本特征词不在负样本出现，则将第一候选样本特征词加入第一目标样本特征词集合中。

具体实施时，若w_2i不在负样本中出现，则将w_2i加入目标样本特征词集合f₂。

S37、从负样本中选择对应的第二词频与第一词频之差大于第一预设阈值的第二特征词，加入到第一目标样本特征词集合中。

本步骤中，将负样本中满足tf_in-tf_ip＞ε条件的特征词加入目标样本特征词集合f₂中。

S38、基于第一目标样本特征词集合中包含的特征词，采用如下至少一个分类器进行训练得到第二层分类器：支持向量机SVM分类器、逻辑回归LR分类器和感知器分类器。

具体实施时，分类模型ψ₂采用有监督分类器，本发明实施例中采用SVM(支持向量机)分类器、LR(逻辑回归)分类器和感知器分类器中的至少一种，分别加载f₂进行训练。如果采用上述分类器中的至少两种，则对于每一分类器针对同一文本输出的分类结果，可以采用投票决策策略确定该文本对应的分类。

需要说明的是，在将训练样本输入到分类器中之前，对训练样本生成one-hot向量进行训练。

训练得到的第二层分类器用于提取正负样本大类特征，根据提取的正负样本大类特征，输出所输入文本是否是正样本的结果。

如图4所示，本发明实施例中可以按照如下流程对第三层分类器进行训练：

S41、针对正样本中包含的每一特征词，根据其与样本类别标签之间的皮尔森系数选择预设数量的特征词。

本步骤中，针对正样本中包含的每一特征词，按照以下公式分别计算其与样本类别标签之间的皮尔森相关系数：

ρ_x，Y＝E[(X-μ_x)(Y-μ_Y)]/σ_xσ_Y

其中：X表示在某个样本中该特征词出现的频数，Y表示该条样本对应的类别标签，μ_X表示该特征词在正样本中出现的平均频数，μ_Y表示样本标签的均值，σ_X、σ_Y分别表示X、Y的方差。皮尔森相关系数可以表明，当该特征词出现在文本中时，相应的文本是Y类的概率以及文本不是Y类的概率。

针对正样本中包含的所有特征词，根据其对应的皮尔森相关系数降序排列，按照预设设定的特征数量阈值N，保留前N个特征词，具体实施时，可以根据实际需要设定N，例如，可以设定N＝1000，本发明实施例对此不进行限定。

S42、利用选择出的特征词在领域知识图谱中匹配第二实体，确定领域知识图谱中与第二实体直接邻接的实体组成第二实体候选集合。

本步骤中，利用选择出的特征词在领域知识图谱中匹配实体，将与匹配到的实体直接邻接的所有实体作为第二实体候选集E_temp3＝{e₁，e₂，...，e_n}。

S43、对第二实体候选集合包含的实体进行分词得到第二候选样本特征词集合。

S44、对于第二候选样本特征词集合中包含的第二候选样本特征词，如果第二候选样本特征词不在负样本出现，则将第二候选样本特征词加入第二目标样本特征词集合中。

对第二实体候选集E_temp3中的实体进行分词得到第二候选样本特征集合W₃＝{w₃₁，w₃₂，...，w_3m}，若w_3i不在负样本中出现，则将w_3i加入第二目标样本特征词集合f₃中。

S45、基于第二目标样本特征词集合中包含的特征词，采用如下至少一个分类器进行训练得到第三层分类器：支持向量机SVM分类器、贝叶斯分类器和感知器分类器。

具体实施时，分类模型ψ₃采用有监督分类器，本发明实施例中采用SVM(支持向量机)分类器、贝叶斯分类器和感知器分类器中的至少一种，分别加载f₃进行训练。如果采用上述分类器中的至少两种，则对于每一分类器针对同一文本输出的分类结果，可以采用投票决策策略确定该文本对应的分类。

训练得到的第三层分类器用于提取正样本子类特征，根据提取的正样本子类特征，输出所输入文本对应于文本类别的概率，确定对应概率最大的类别为该文本对应的文本类别。

至此，完成了三层分类器的训练，将待分类短文本输入到训练好的三层分类器中即可输出该短本文对应的文本类别。但是，具体实施时，由于一些有训练数据太少的小样本类别，例如，歧义词、专有名词等，不用的词语含义将对分类结果造成影响，例如，词语“教会”，在不同的应用场景中，对应的含义不同。有鉴于此，本发明实施例中，为了进一步提高短文本分类的准确性，本发明实施例中训练的多级分类器还可以包括第四层分类器，第四层分类器用于提取消除歧义特征，利用提取的消除歧义特征对包含有歧义词的短文本重新确定其对应的文本类别。

具体实施时，可以按照图5所示的方法对第四层分类器进行训练：

S51、针对第三层分类器的输出结果，确定预设歧义词语的每个词语含义在各个样本类别中所占比例。

本步骤中，对于第三层分类器输出的分类结果，根据预设的歧义词语对应的不同含义，确定每一含义在各个样本类别中所占比例。

S52、如果预设歧义词语的任一词语含义在各个样本类别中所占比例不大于第二预设阈值，则提取预设歧义词语的上下文词语组成歧义词语上下文特征集合。

如果歧义词语的某一词语含义在各个样本类别中所占比例不超第二预设阈值，则因歧义词语所带来的分类噪声比较大，需要筛选出干扰较强的歧义词语。具体实施时，第二预设阈值可以根据实际需要进行设定，本发明实施例对此不进行限定，例如，可以第二预设阈值可以设为50％。

具体地，可以提取歧义词语的上下文词语，通过分析歧义词语的上下文词语的词性，建立小样本类别知识库，本发明实施例中即为歧义词语上下文特征集合f₄。

S53、基于歧义词语上下文特征集合，采用无监督学习方法进行训练得到第四层分类器。

基于歧义词语上下文特征集合f₄，使用无监督学习方法，对含有歧义词语的训练样本进行训练，得到第四层分类器。

基于训练得到的多级分类器，本发明实施例还提供了一种短文本分类方法，如图6所示，可以包括以下步骤：

S61、获取待分类短文本。

S62、将待分类短文本输入到多层分类器中，其中，多层分类器为利用训练样本和所述待分类短文本所属目标领域的领域知识图谱进行训练得到的，每一层分类器提取不同的文本特征进行训练。

S63、根据多层分类器的输出结果，确定待分类短文本对应的文本类别。

其中，多层分类器包括第一层分类器、第二层分类器和第三层分类器，第一层分类器用于提取背景知识特征，第二层分类器用于提取正负样本大类特征，第三层分类器用于提取正样本子类特征。将待分类短文本输入所述第一层分类器，提取背景知识特征，根据提取的背景知识特征输出预测属于所述目标领域的候选短文本；将候选短文本输入所述第二层分类器，提取正负样本大类特征，根据提取的正负样本大类特征输出所述候选短文本是否属于目标领域的输出结果；将属于目标领域的短文本输入所述第三层分类器，提取正样本子类特征，根据提取的正样本子类特征，输出属于所述目标领域的短文本对应的文本类别。

为了进一步提高短文本分类准确性，本发明实施例中，针对第三层分类器输出的分类结果，还可以将包含有预设歧义词且属于目标领域的短文本输入第四层分类器，提取上下文消除歧义特征，根据提取的上下文消除歧义特征，输出包含有预设歧义词且属于所述目标领域的短文本的分类结果。

本发明实施例提供的短文本分类方法，采用领域知识图谱辅助构建特征金字塔的方法，针对数据分布极不平衡，正样本极其稀疏的场景，采用多级机器学习方法融合特征金字塔对文本进行细粒度分类识别，达到了如下技术效果：基于领域知识图谱构建背景特征的方式，采用无监督方法有效过滤噪声，改善了高噪声大数据系统冷启动的效率；融合知识图谱和训练数据集共同构建的特征，能够在正样本有限的情况，提取到较为充分的正样本特征，提高了文本识别的泛化能力；基于特征金字塔结构的分层特征，采用多级分类器对不同粒度的数据进行层层筛选，提高了结果准确率。另外，基于特征金字塔结构的多级分类机制，使得每层特征粒度逐级细化，逐步减小细化特征所处理的文本数据压力，从而实现高效处理，以满足系统实时性；基于领域知识图谱构建背景特征，采用无监督算法有效去除噪声的方法，极大改善了高噪声大数据系统的冷启动效率。

基于相同的技术构思，本发明实施例还提供了一种短文本分类装置，如图7所示，可以包括：

获取单元71，用于获取待分类短文本；

文本分类单元72，将所述待分类短文本输入到多层分类器中，其中，所述多层分类器为利用训练样本和所述待分类短文本所属目标领域的领域知识图谱进行训练得到的，每一层分类器提取不同的文本特征进行训练；根据所述多层分类器的输出结果，确定所述待分类短文本对应的文本类别。

在介绍了本发明示例性实施方式的短文本分类方法和装置之后，接下来，介绍根据本发明的另一示例性实施方式的文本分类装置。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，根据本发明的文本分类装置可以至少包括至少一个处理器、以及至少一个存储器。其中，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行本说明书上述描述的根据本发明各种示例性实施方式的短文本分类方法中的步骤。例如，所述处理器可以执行如图6中所示的步骤S61、获取待分类短文本，和步骤S62、将待分类短文本输入到多层分类器中，其中，多层分类器为利用训练样本和所述待分类短文本所属目标领域的领域知识图谱进行训练得到的，每一层分类器提取不同的文本特征进行训练；以及步骤S63、根据多层分类器的输出结果，确定待分类短文本对应的文本类别。

下面参照图7来描述根据本发明的这种实施方式的文本分类装置70。图7显示的文本分类装置70仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，文本分类装置70以通用计算设备的形式表现。文本分类装置70的组件可以包括但不限于：上述至少一个处理器71、上述至少一个存储器72、连接不同系统组件(包括存储器72和处理器71)的总线73。

总线73表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储器72可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)721和/或高速缓存存储器722，还可以进一步包括只读存储器(ROM)723。

存储器72还可以包括具有一组(至少一个)程序模块724的程序/实用工具725，这样的程序模块724包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

文本分类装置70也可以与一个或多个外部设备74(例如键盘、指向设备等)通信，还可与一个或者多个使得用户能与文本分类装置70交互的设备通信，和/或与使得该文本分类装置70能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口75进行。并且，文本分类装置70还可以通过网络适配器76与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器76通过总线73与用于文本分类装置70的其它模块通信。应当理解，尽管图中未示出，可以结合文本分类装置70使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

在一些可能的实施方式中，本发明提供的短文本分类方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在计算机设备上运行时，所述程序代码用于使所述计算机设备执行本说明书上述描述的根据本发明各种示例性实施方式的短文本分类方法中的步骤，例如，所述计算机设备可以执行如图6中所示的步骤S61、获取待分类短文本，和步骤S62、将待分类短文本输入到多层分类器中，其中，多层分类器为利用训练样本和所述待分类短文本所属目标领域的领域知识图谱进行训练得到的，每一层分类器提取不同的文本特征进行训练；以及步骤S63、根据多层分类器的输出结果，确定待分类短文本对应的文本类别。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本发明的实施方式的用于短文本分类的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在计算设备上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言-诸如Java、C++等，还包括常规的过程式程序设计语言-诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)-连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

通过具体实施方式的说明，应当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解，然而所附图示仅是提供参考与说明之用，并非用来对本发明加以限制。

Claims

1.一种短文本分类方法，其特征在于，包括：

获取待分类短文本；

2.根据权利要求1所述的方法，其特征在于，所述多层分类器包括第一层分类器、第二层分类器和第三层分类器，所述第一层分类器用于提取背景知识特征，所述第二层分类器用于提取正负样本大类特征，所述第三层分类器用于提取正样本子类特征。

3.根据权利要求2所述的方法，其特征在于，将所述待分类短文本输入到多层分类器中，具体包括：

4.根据权利要求3所述的方法，其特征在于，所述多层分类器还包括第四层分类器，所述第四层分类器用于提取上下文消除歧义特征；

5.根据权利要求2所述的方法，其特征在于，按照以下方法对第一层分类器进行训练：

从所述领域知识图谱中提取所有实体组成实体表；

6.根据权利要求2所述的方法，其特征在于，按照以下方法对第二层分类器进行训练：

对所述候选样本进行分词得到特征词；

7.根据权利要求6所述的方法，其特征在于，按照以下方法对第三层分类器进行训练：

8.根据权利要求4所述的方法，其特征在于，按照以下方法对第四层分类器进行训练：

9.一种短文本分类装置，其特征在于，包括：

获取单元，用于获取待分类短文本；

10.一种文本处理装置，其特征在于，所述文本处理装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至8中任一项所述的方法的步骤。

11.一种计算机存储介质，所述计算机存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的短文本分类方法的步骤。