CN109388707A

CN109388707A - 短文本分类方法及装置

Info

Publication number: CN109388707A
Application number: CN201710685594.8A
Authority: CN
Inventors: 阮航
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-08-11
Filing date: 2017-08-11
Publication date: 2019-02-26
Anticipated expiration: 2037-08-11
Also published as: CN109388707B

Abstract

本申请公开了一种短文本分类方法及装置，属于数据处理技术领域。所述方法包括：获取待分类的短文本；根据短文本遍历哈夫曼树，确定与短文本匹配的目标主分类；哈夫曼树包括m层节点，每层节点对应标准分类样本的一个主分类；根据标准分类样本，确定目标主分类对应的n个从分类；获取各个从分类对应的短文本样本；计算短文本与各个短文本样本之间的相似度；根据计算出的各个相似度确定短文本的目标从分类。本申请解决了基于特征分析的分类算法对短文本分类时训练周期长、实现难度大、占用运算资源多的问题，达到了去除训练过程、降低实现难度、降低运算量的效果。

Description

短文本分类方法及装置

技术领域

本申请涉及数据处理技术领域，特别涉及一种短文本分类方法及装置。

背景技术

短文本通常是指由1到3个词语组成的文本，比如医院科室的名称、政府机关的部门名称、学校的部门名称等。

对于短文本的分类，相关技术中主要采用基于特征分析的分类算法进行分类，比如：人工神经网络。人工神经网络在使用之前要进行训练，训练过程如下：获取大量已知类别的训练样本，将每个训练样本输入到人工神经网络中，人工神经网络从训练样本中提取特征，根据提取到的特征预测分类到该训练样本所属类别的概率，然后根据预测概率与该类别的实际概率之间的误差，利用误差反向传播算法对人工神经网络中的权重参数进行调整，在权重参数调整之后，若根据预测概率和实际概率计算的损失函数收敛到极小值，则该训练样本的训练过程结束，继续使用其他训练样本进行相同的训练。在人工神经网络训练完成后，利用该人工神经网络进行分类，将待分类的短文本输入到人工神经网络，将人工神经网络预测得到的概率最大的类别作为该短文本的分类类别。

由于基于特征分析的分类算法在使用之前需要经过复杂的训练过程，需要使用大量的训练样本才能训练出能够准确分类的权重参数，并且特征提取的过程也需要经过复杂的运算，因此使用人工神经网络等基于特征分析的分类算法对短文本进行分类的方式训练周期长、实现难度大、占用运算资源多。

发明内容

为了解决使用人工神经网络等基于特征分析的分类算法对短文本进行分类的方式训练周期长、实现难度大、占用运算资源多的问题，本申请实施例提供了一种短文本分类方法及装置。所述技术方案如下：

第一方面，提供了一种短文本分类方法，所述方法包括：

获取待分类的短文本；

根据所述短文本遍历哈夫曼树，确定与所述短文本匹配的目标主分类；所述哈夫曼树包括m层节点，每层节点对应标准分类样本的一个主分类；所述标准分类样本包括m个所述主分类，每个主分类对应至少一个从分类，每个从分类对应至少一个短文本样本，m为正整数；

根据所述标准分类样本，确定所述目标主分类对应的n个从分类，n为正整数；

获取各个所述从分类对应的短文本样本；

计算所述短文本与各个所述短文本样本之间的相似度；

根据计算出的各个所述相似度确定所述短文本的目标从分类。

第二方面，提供了一种短文本分类装置，所述装置包括：

第一获取模块，用于获取待分类的短文本；

第一确定模块，用于根据所述第一获取模块获取的所述短文本遍历哈夫曼树，确定与所述短文本匹配的目标主分类；所述哈夫曼树包括m层节点，每层节点对应标准分类样本的一个主分类；所述标准分类样本包括m个所述主分类，每个主分类对应至少一个从分类，每个从分类对应至少一个短文本样本，m为正整数；

第二确定模块，用于根据所述标准分类样本，确定所述第一确定模块确定的所述目标主分类对应的n个从分类，n为正整数；

第二获取模块，用于获取所述第二确定模块确定的各个所述从分类对应的短文本样本；

计算模块，用于计算所述第一获取模块获取的所述短文本与所述第二获取模块获取的各个所述短文本样本之间的相似度；

第三确定模块，用于根据所述计算模块计算出的各个所述相似度确定所述短文本的目标从分类。

第三方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现如第一方面所述的短文本分类方法。

第四方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由处理器加载并执行以实现如第一方面所述的短文本分类方法。

本申请实施例提供的技术方案带来的有益效果是：

通过根据待分类的短文本遍历哈夫曼树，确定短文本的目标主分类，然后根据标准分类样本确定与目标主分类对应的从分类，获取从分类对应的短文本样本，通过计算短文本与各个短文本样本之间的相似度，确定短文本的目标从分类，由于哈夫曼树的每层节点与标准分类样本的一个主分类对应，因此分类之前只需要建立一个标准分类样本，而不需要进行复杂的训练过程，并且对于待分类的短文本没有复杂的特征提取运算，只需要将短文本与哈夫曼树中的主分类逐个进行匹配确定目标主分类，然后根据短文本与短文本样本之间的相似度确定目标从分类，从而解决了训练周期长、实现难度大、占用运算资源多的问题，达到了去除训练过程、降低实现难度、降低运算量的效果。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例中提供的哈夫曼树的示意图；

图2是本申请一个实施例提供的短文本分类方法的方法流程图；

图3是本申请另一个实施例提供的短文本分类方法的方法流程图；

图4是本申请一个实施例提供的生成分词库的流程图；

图5是本申请一个实施例提供的主分类映射向量的流程图；

图6是本申请一个实施例提供的短文本样本映射向量的流程图；

图7是本申请再一个实施例提供的短文本分类方法的方法流程图；

图8是本申请一个实施例提供的遍历哈夫曼树的示意图；

图9是本申请一个实施例提供的短文本分类方法的流程图；

图10是本申请一个实施例提供的短文本分类装置的结构方框图；

图11是本申请一个实施例中提供的服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

树结构是将数据元素按照分支关系组织起来的结构，通常用于描述具有层次关系的对象，树结构中的数据元素成为节点，其中，树结构最顶层的一个节点称为根节点，树结构的每个分支中最底层的节点称为叶子节点，除了叶子节点之外的其余节点称为中间节点(包括根节点)，每个中间节点包含至少一个孩子节点，叶子节点不包含孩子节点，孩子节点是属于该中间节点的下一层节点(下一层节点可能是中间节点，也可能是叶子节点)。

二叉树是一种特殊的树结构，二叉树中每个中间节点包含一个或两个孩子节点。

哈夫曼树是一种二叉树，每个中间节点包含两个孩子节点，每一个枝干代表状态0或1，枝干是指中间节点与对应的孩子节点之间的连接，也就是说，每个中间节点的一个孩子节点对应状态0，另一个孩子节点对应状态1。

在分类过程中，状态0表示不包含关键字，状态1表示包含关键字。待分类对象与哈夫曼树中的节点进行匹配，若该节点中包含待分类对象的关键字；则表示待分类对象与该节点匹配，若该节点中不包含待分类对象的关键字，则待分类对象与该节点的孩子节点进行匹配。结合参考图1，待分类对象120进入哈夫曼树110，首先与哈夫曼树110的第一层节点111匹配，判定待分类对象120是否A类，若是，则确定待分类对象120为A类；若不是，则将待分类对象120与第二层节点112匹配，判定待分类对象120是否B类，若是，则确定待分类对象为B类；若不是，则将待分类对象120与第三层节点113匹配，判定待分类对象120是否C类，若是，则确定待分类对象120为C类；若不是，则确定待分类对象120未分类。示例性的，待分类对象120为B，当待分类对象120与第一层节点111匹配时，由于第一层节点111不包含待分类对象120的关键字B，因此继续将待分类对象120与第二层节点112匹配，由于第二层节点112包含待分类对象120的关键字B，因此确定待分类对象120为B类，当待分类对象120匹配成功后，则返回成功匹配，待分类对象120不再继续与第三层节点113进行匹配。

在实际应用中，很多组织、对象、物品都有分类需求，比如：医院科室、政府机关、学校部门、图书馆书籍、档案管理等，这些组织、对象、物品的名称通常为短文本，因此，本申请各个实施例提供的短文本分类方法可以应用在医院科室分类、政府机关分类、学校部门分类、图书馆书籍分类、档案分类等任何有短文本分类需求的场景中。

图2是本申请一个实施例提供的短文本分类方法的方法流程图，该方法以应用在服务器中进行举例说明。如图2所示，该方法可以包括：

步骤201，获取待分类的短文本。

可选的，短文本是指由预定数量的词语组成的文本。

可选的，预定数量通常不超过3。

步骤202，根据短文本遍历哈夫曼树，确定与短文本匹配的目标主分类。

哈夫曼树包括m层节点，每层节点对应标准分类样本的一个主分类，m为正整数。

标准分类样本包括m个主分类，每个主分类对应至少一个从分类，每个从分类对应至少一个短文本样本。

标准分类样本是人工建立的分类模板，标准分类样本包含主分类和从分类，其中，主分类和从分类是用户定义的类别标签，从分类是主分类的子分类。

短文本样本是人工划分的属于对应从分类的短文本，相当于是已知类别的短文本。

步骤203，根据标准分类样本，确定目标主分类对应的n个从分类，n为正整数。

在根据哈夫曼树匹配得到短文本对应的目标主分类后，根据标准分类样本中划分的主分类与从分类之间的关系，确定与目标主分类对应的至少一个从分类。

步骤204，获取各个从分类对应的短文本样本。

由于标准分类样本中每个从分类对应至少一个短文本样本，因此在确定与目标主分类对应的各个从分类后，可以根据标准分类样本获取与各个从分类对应的短文本样本。

步骤205，计算短文本与各个短文本样本之间的相似度。

步骤206，根据计算出的各个相似度确定短文本的目标从分类。

根据短文本和短文本样本之间的相似度，可以确定与短文本类似的短文本样本。由于短文本样本的类别是已知的，因此，根据与短文本类似的短文本样本所述的从分类可以确定短文本所属的目标从分类。

综上所述，本申请实施例提供的短文本分类方法，通过根据待分类的短文本遍历哈夫曼树，确定短文本的目标主分类，然后根据标准分类样本确定与目标主分类对应的从分类，获取从分类对应的短文本样本，通过计算短文本与各个短文本样本之间的相似度，确定短文本的目标从分类，由于哈夫曼树的每层节点与标准分类样本的一个主分类对应，因此分类之前只需要建立一个标准分类样本，而不需要进行复杂的训练过程，并且对于待分类的短文本没有复杂的特征提取运算，只需要将短文本与哈夫曼树中的主分类逐个进行匹配确定目标主分类，然后根据短文本与短文本样本之间的相似度确定目标从分类，从而解决了训练周期长、实现难度大、占用运算资源多的问题，达到了去除训练过程、降低实现难度、降低运算量的效果。

图3是本申请另一个实施例提供的短文本分类方法的方法流程图，该方法以应用在服务器中进行举例说明。如图3所示，该方法可以包括：

步骤301，按照最小粒度，分别对标准分类样本中包含的主分类、从分类、短文本样本以及p个待分类的短文本进行分词，得到第一分词结果。

以医院科室为例，全国6000多家医院通过互联网技术提供网络医疗平台，为医院和用户之间提供线上业务和线下业务。各家医院对应的科室名称总共达到14万个，则科室名称为待分类的短文本，p的取值为14万。

这里的主分类和从分类是指对应的类别名称，以医院科室为例，主分类包括中医科，从分类可以包括中医儿科、中医内科等。

主分类、从分类、短文本样本、短文本按照最小粒度分词，是指将主分类、从分类、短文本样本、短文本切分为不可再分的词语。比如：“中医儿科”按照最小粒度分词得到“中医”和“儿科”两个词。

可选的，服务器中预先安装有分词程序，服务器通过分词程序能够对主分类、从分类、短文本样本、待分类的短文本自动分词为最小粒度的词语。

步骤302，将第一分词结果中相同的词语进行合并处理，得到第二分词结果。

由于主分类、从分类、短文本样本和短文本中可能包含相同的词语，因此在将主分类、从分类、短文本样本和短文本进行分词后得到的第一分词结果中可能包含重复的词语，对重复的词语只需要保留一个，因此对第一分词结果中相同的词语进行合并处理。

步骤303，根据第二分词结果生成分词库，分词库用于将第二分词结果中的各个词语按照预定顺序排列。

分词库包括按照预定顺序排列的词语，词语包括组成标准分类样本的词语和组成短文本的词语。

预定顺序可以预先定义，比如按照词语的笔画由少到多排列，或者按照词语的首字母排列。

假设分词库中有100个词语，则分词库为100维的映射空间，该映射空间包括100个字段，每个字段依次对应一个词语。

可选的，步骤301至步骤303可以表示成图4所示的流程图。如图4所示，首先执行11，标准分类样本和待分类短文本分词，然后执行12，输出分词库。

步骤304，根据分词库，将哈夫曼树中每层节点对应的主分类映射成第一词语级向量，每个第一词语级向量是根据节点对应的主分类在分词库中的位置映射成的向量。

以医院科室为例，主分类的名称可以为中医科、肿瘤科、内科等。

需要说明的是，在一种可能的实现中，中医和中医科被看作两个不同的分词，为了提高匹配的准确性，将中医和中医科均作为同一主分类对应的名称，然后将“中医”和“中医科”分别映射为词语级向量；在另一种可能的实现中，中医和中医科被看作相同的分词，中医科在映射之前将无关字段“科”去除，去除之后只对“中医”进行映射。

对于主分类的映射进行举例说明，假设分词库包含5个词语“中医”、“门诊”、“内科”、“儿科”、“皮肤”，形成一个5维的映射空间[中医，门诊，内科，儿科，皮肤]，以主分类为“中医”为例，将“中医”根据分词库进行映射，映射过程是将映射空间中与“中医”对应的字段赋值为1，其他字段赋值为0，则得到第一词语级向量[1，0，0，0，0]。

可选的，主分类的映射过程可以表示为图5所示的流程图。首先执行21，主分类映射分词库，然后执行22，返回第一词语级向量。

步骤305，根据分词库，将标准分类样本中的各个短文本样本分别映射成第一文本级向量，第一文本级向量是根据组成短文本样本的各个词语在分词库中的位置生成的向量。

标准分类样本包括m个主分类，每个主分类对应至少一个从分类，每个从分类对应至少一个短文本样本。标准分类样本是人工建立的包含主分类和从分类的分类模板，其中，主分类和从分类是用户定义的类别标签，从分类是主分类的子分类。短文本样本是人工划分的属于对应从分类的短文本，相当于是已知类别的短文本。

对于短文本样本的映射进行举例说明，假设分词库包含5个词语“中医”、“门诊”、“内科”、“儿科”、“皮肤”，形成一个5维的映射空间[中医，门诊，内科，儿科，皮肤]，以短文本样本为“中医儿科”举例，“中医儿科”可以划分为“中医”和“儿科”两个词语，由于“中医”在映射空间中对应第1个字段，“儿科”在映射空间中对应第4个字段，因此根据“中医儿科”映射得到第一文本级向量[1，4]。

可选的，短文本样本的映射过程可以表示为图6所示的流程图。首先执行23，短文本样本映射分词库，然后执行24，返回第一文本级向量。

步骤306，获取待分类的短文本。

可选的，短文本是指由预定数量的词语组成的文本。

可选的，预定数量通常不超过3。

步骤307，根据短文本遍历哈夫曼树，确定与短文本匹配的目标主分类。

需要说明的是，由于哈夫曼树每层节点对应标准分类样本的一个主分类，由于标准分类样本是由人工建立的，因此哈夫曼树各层节点的层次划分也是人工确定的。

由于不同的主分类在哈夫曼树中对应不同层次的节点，因此不同的主分类具备的优先级也不同，层次越高的节点对应的主分类的优先级越高，越接近根节点的节点被认为层次越高。若待分类的短文本包含多个词语，根据各个词语分别匹配到不同的主分类，在这种情况下，需要选择优先级更高的主分类作为短文本的目标主分类。

可选的，步骤307可以被替换成如图7所示的步骤307a至步骤307e：

步骤307a，获取哈夫曼树中每层节点对应的第一词语级向量。

每个第一词语级向量是根据节点对应的主分类在分词库中的位置映射成的向量。

可选的，由于哈夫曼树是根据标准分类样本中的主分类人工建立的，因此哈夫曼树在建立之后可以预先将各个节点对应的主分类映射成第一词语级向量，当短文本进入哈夫曼树进行匹配时，服务器可以直接获取已经映射好的与各个节点对应的第一词语级向量。

可选的，当待分类的短文本进入哈夫曼树时，服务器可以对哈夫曼树中各层节点对应的主分类实时映射成第一词语级向量。

步骤307b，根据分词库，将短文本中的每个词语分别映射为第二词语级向量。

举例说明，假设分词库包含5个词语“中医”、“门诊”、“内科”、“儿科”、“皮肤”，形成一个5维的映射空间[中医，门诊，内科，儿科，皮肤]，以短文本样本为“中医儿科”举例，“中医儿科”可以划分为“中医”和“儿科”两个词语，首先将“中医”根据分词库进行映射，映射过程是将映射空间中与“中医”对应的字段赋值为1，其他字段赋值为0，则得到第二词语级向量[1，0，0，0，0]，同理，将词语“儿科”映射得到第二词语级向量[0，0，0，1，0]。

步骤307c，对于每个第二词语级向量，从哈夫曼树的根节点开始，逐层检测当前层次节点对应的第一词语级向量与第二词语级向量是否相同。

其中，逐层检测当前层次节点对应的第一词语级向量与第二词语级向量是否相同，可以实现为以下步骤：

S1，检测第i层节点对应的第一词语级向量与第二词语级向量是否相同，i为正整数，1≤i＜m。

S2，当第i层节点对应的第一词语级向量与第二词语级向量不同时，检测第i+1层节点对应的第一词语级向量与第二词语级向量是否相同。

可选的，对于每一层节点，由于主分类可能包括多个关键字，在对同一层节点对应的主分类进行匹配时，需要对主分类包含的各个关键字逐个进行匹配。

步骤307d，当检测到相同时，将相同的第一词语级向量对应的主分类作为待选主分类。

待选主分类是根据组成短文本的一个词语确定的一个主分类。

步骤307e，在各个第二词语级向量匹配结束后，将确定的各个待选主分类中层次最高的待选主分类作为与短文本匹配的目标主分类。

假设短文本由3个词语组成，则在各个第二词语级向量匹配结束后，得到3个待选主分类。

可选的，由于存在词语匹配失败的情况，因此待选主分类的个数可能小于组成短文本的词语个数。通常在从哈夫曼树的根节点一直到叶子节点均没有匹配到时，该词语对应的待选主分类被确定为未知主分类。

结合参考图8，其示例性地示出了遍历哈夫曼树的示意图。如图8所示，哈夫曼树的层次1对应主分类“影像科、麻醉科、疼痛科”，层次2对应主分类“中医、中医科”，层次3对应“儿科”，层次4对应“肿瘤科”，层次5对应“皮肤科、口腔科”，层次6对应“内科、外科”。假设短文本为“中医儿科”，首先根据词语“中医”遍历哈夫曼树，层次1未匹配成功，继续匹配层次2，匹配成功后返回层次2，将主分类“中医、中医科”作为与词语“中医”对应的待选主分类，然后根据词语“儿科”遍历哈夫曼树，层次1为匹配成功，继续匹配层次2，层次2未匹配成功，继续匹配层次3，匹配成功后返回层次3，将主分类“儿科”作为与词语“儿科”对应的待选主分类，最后比较词语“中医”对应的待选主分类和词语“儿科”对应的待选主分类之间哪一个对应的节点层次较高，通过比较可以确定，词语“中医”对应的待选主分类与层次2对应，词语“儿科”对应的待选主分类与层次3对应，因此可以确定主分类“中医、中医科”对应的层次较高，因此短文本“中医儿科”的目标主分类为“中医、中医科”。

步骤308，根据标准分类样本，确定目标主分类对应的n个从分类，n为正整数。

步骤309，获取各个从分类对应的短文本样本。

可选的，对于目标从分类的确定可以采用K近邻算法，K近邻算法在本实施例中的使用可以参见步骤310和步骤311的描述。

步骤310，计算短文本与各个短文本样本之间的相似度。

可选的，步骤310可以被替换成图7所示的步骤310a至步骤310c：

步骤310a，对于每个短文本样本，获取短文本样本的第一文本级向量。

第一文本级向量是根据组成短文本样本的各个词语在分词库中的位置生成的向量。

可选的，由于标准分类样本中的主分类是人工建立的，因此标准分类样本中的短文本样本可以预先映射成第一文本级向量，当短文本需要计算与短文本样本的相似度时，服务器可以直接获取已经映射好的与各个短文本样本对应的第一文本级向量。

可选的，当短文本需要计算与短文本样本的相似度时，服务器可以对短文本样本实时映射成第一文本级向量。

步骤310b，根据分词库，将短文本映射成第二文本级向量，第二文本级向量是根据组成短文本的各个词语在分词库中的位置生成的向量。

对于短文本的映射进行举例说明，假设分词库包含5个词语“中医”、“门诊”、“内科”、“儿科”、“皮肤”，形成一个5维的映射空间[中医，门诊，内科，儿科，皮肤]，以短文本为“中医儿科”举例，“中医儿科”可以划分为“中医”和“儿科”两个词语，由于“中医”在映射空间中对应第1个字段，“儿科”在映射空间中对应第4个字段，因此根据“中医儿科”映射得到第二文本级向量[1，4]。

步骤310c，计算第一文本级向量与第二文本级向量之间的余弦相似度。

余弦相似度即两个向量之间的夹角的余弦值，夹角越小，余弦值越接近1，则两个向量越相似。

步骤311，根据计算出的各个相似度确定短文本的目标从分类。

可选的，短文本样本的数量为s，s为正整数，步骤311可以被替换成图7所示的步骤311a至步骤311e：

步骤311a，获取根据s个短文本样本计算出的s个余弦相似度。

需要与短文本进行相似度比较的短文本样本一共有s个，则根据短文本和s个短文本样本分别计算出s个余弦相似度。

步骤311b，将s个余弦相似度按照从高到低的顺序排列。

步骤311c，获取与前k个余弦相似度对应的k个短文本样本，k为正整数，1≤k≤s。

其中，k需要根据实际情况进行选择。

步骤311d，确定k个短文本样本各自所属的从分类。

步骤311e，将出现频率最高的从分类确定为短文本的目标从分类。

出现频率最高的从分类就是指k个短文本样本中属于该从分类的数量最多。

K近邻算法的主要思想是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于该类别。该样本相当于本实施例中的待分类的短文本，特征空间相当于s个短文本样本组成的空间，k个最相似的样本相当于选取的前k个余弦相似度对应的k个短文本样本。

在一种可能的情况中，若k个短文本样本各自所述的各个从分类的出现频率相同，无法确定目标从分类，则将目标主分类作为该短文本的分类结果。

可选的，本实施例中的短文本分类方法，还可以表示为图9中的流程图。如图9所示，首先执行401，映射到分词库，然后执行402，得到向量，然后执行403，判断哈夫曼树当前层次是否到达叶子节点，若403的判断为否，则执行404，匹配下一层节点，然后执行405，判断是否包含关键字，若405的判断为否，则继续执行403，若403的判断为是，则执行406，确定主分类未知，然后执行407，若405的判断为是，则也执行407，判断短文本样本是否遍历完，若407的判断为否，则执行408，计算待分类的短文本与短文本样本之间的余弦相似度，然后执行409，将余弦相似度存储在缓存列表中，然后继续执行407，若407的判断为是，则执行410，缓存列表进行冒泡排序，然后执行411，选择前k个余弦相似度对应的从分类中占比最高的从分类。

需要说明的是，步骤301至步骤303中关于分词库生成的过程是在对待分类的短文本进行分类之前的预处理过程。

本实施例中步骤304和步骤305是在步骤301至步骤303之后执行。可选的，步骤304还可以在步骤307a之前执行，或者步骤304与步骤307a同时执行。可选的，步骤305还可以在步骤310a之前执行，或者步骤305与步骤310a同时执行。

针对步骤301至步骤303，通过将标准分类样本和待分类的短文本按照最小粒度分词，然后将相同的词语合并后建立分词库，使得建立的分词库能够包括标准分类样本和待分类的短文本中的所有词语，从而使得标准分类样本和待分类的短文本均能根据分词库映射成向量。

针对步骤304至步骤305，通过将哈夫曼树中每层节点对应的主分类映射成第一词语级向量，将标准分类样本中的各个短文本样本映射成第一文本级向量，使得哈夫曼树中每层节点对应的主分类和标准分类样本中的每个短文本样本均转换为机器能够识别的数据，从而能够进行后续的分类工作。另外，由于哈夫曼树中每层节点对应的主分类和标准分类样本中各个短文本样本是预先映射成向量的，从而使得在对短文本分类过程中，能够直接获取已经映射好的第一词语级向量和第一文本级向量进行匹配，缩短匹配时间，提高分类效率。

针对步骤307a至步骤307e，通过将待分类的短文本映射成第二词语级向量，然后逐层比较哈夫曼树的当前层次节点对应的第一词语级向量与第二词语级向量是否相同，使得机器能够根据词语级向量识别短文本与各个层次节点的主分类是否相同。另外，将根据每个第二词语级向量确定的待选主分类中层次最高的待选主分类作为目标主分类，使得在短文本由多个词语组成的情况下，最终只确定一个目标主分类，避免了根据短文本确定多个目标主分类的情况。

针对步骤310a至步骤310c，通过将短文本映射成第二文本级向量，使得机器能够根据第一文本级向量和第二文本级向量计算余弦相似度。

针对步骤311a至步骤311e，通过将s个余弦相似度按照从高到低的顺序排列，取前k个短文本样本确定各自所属的从分类，将出现频率最高的从分类确定为短文本的目标从分类，使得短文本能够根据相似的短文本样本确定所属的目标从分类。

图10是本申请一个实施例提供的短文本分类装置的结构方框图，该装置以应用在服务器中进行举例说明。如图10所示，该短文本分类装置可以包括：第一获取模块510、第一确定模块520、第二确定模块530、第二获取模块540、计算模块550和第三确定模块560。

第一获取模块510，用于实现上述步骤201、步骤306以及其他任意隐含或公开的与获取相关的功能。

第一确定模块520，用于实现上述步骤202、步骤307以及其他任意隐含或公开的与确定相关的功能。

第二确定模块530，用于实现上述步骤203、步骤308以及其他任意隐含或公开的与确定相关的功能。

第二获取模块540，用于实现上述步骤204、步骤309以及其他任意隐含或公开的与获取相关的功能。

计算模块550，用于实现上述步骤205、步骤310以及其他任意隐含或公开的与计算相关的功能。

第三确定模块560，用于实现上述步骤206、步骤311以及其他任意隐含或公开的与确定相关的功能。

可选的，第一确定模块520，包括：第一获取单元、第一映射单元、检测单元、第一确定单元和第二确定单元。

第一获取单元，用于实现上述步骤307a以及其他任意隐含或公开的与获取相关的功能。

第一映射单元，用于实现上述步骤307b以及其他任意隐含或公开的与映射相关的功能。

检测单元，用于实现上述步骤307c、步骤S1、步骤S2以及其他任意隐含或公开的与检测相关的功能。

第一确定单元，用于实现上述步骤307d以及其他任意隐含或公开的与确定相关的功能。

第二确定单元，用于实现上述步骤307e以及其他任意隐含或公开的与确定相关的功能。

可选的，计算模块550，包括：第二获取单元、第二映射单元和计算单元。

第二获取单元，用于实现上述步骤310a以及其他任意隐含或公开的与获取相关的功能。

第二映射单元，用于实现上述步骤310b以及其他任意隐含或公开的与映射相关的功能。

计算单元，用于实现上述步骤310c以及其他任意隐含或公开的与计算相关的功能。

可选的，第三确定模块560，包括：第三获取单元、排序单元、第四获取单元、第三确定单元和第四确定单元。

第三获取单元，用于实现上述步骤311a以及其他任意隐含或公开的与获取相关的功能。

排序单元，用于实现上述步骤311b以及其他任意隐含或公开的与排序相关的功能。

第四获取单元，用于实现上述步骤311c以及其他任意隐含或公开的与获取相关的功能。

第三确定单元，用于实现上述步骤311d以及其他任意隐含或公开的与确定相关的功能。

第四确定单元，用于实现上述步骤311e以及其他任意隐含或公开的与确定相关的功能。

可选的，该装置还包括：第一映射模块、第二映射模块、分词模块、合并模块和生成模块。

第一映射模块，用于实现上述步骤304以及其他任意隐含或公开的与映射相关的功能。

第二映射模块，用于实现上述步骤305以及其他任意隐含或公开的与映射相关的功能。

分词模块，用于实现上述步骤301以及其他任意隐含或公开的与分词相关的功能。

合并模块，用于实现上述步骤302以及其他任意隐含或公开的与合并相关的功能。

生成模块，用于实现上述步骤303以及其他任意隐含或公开的与生成相关的功能。

综上所述，本申请实施例提供的短文本分类装置，通过根据待分类的短文本遍历哈夫曼树，确定短文本的目标主分类，然后根据标准分类样本确定与目标主分类对应的从分类，获取从分类对应的短文本样本，通过计算短文本与各个短文本样本之间的相似度，确定短文本的目标从分类，由于哈夫曼树的每层节点与标准分类样本的一个主分类对应，因此分类之前只需要建立一个标准分类样本，而不需要进行复杂的训练过程，并且对于待分类的短文本没有复杂的特征提取运算，只需要将短文本与哈夫曼树中的主分类逐个进行匹配确定目标主分类，然后根据短文本与短文本样本之间的相似度确定目标从分类，从而解决了训练周期长、实现难度大、占用运算资源多的问题，达到了去除训练过程、降低实现难度、降低运算量的效果。

通过将标准分类样本和待分类的短文本按照最小粒度分词，然后将相同的词语合并后建立分词库，使得建立的分词库能够包括标准分类样本和待分类的短文本中的所有词语，从而使得标准分类样本和待分类的短文本均能根据分词库映射成向量。

通过将哈夫曼树中每层节点对应的主分类映射成第一词语级向量，将标准分类样本中的各个短文本样本映射成第一文本级向量，使得哈夫曼树中每层节点对应的主分类和标准分类样本中的每个短文本样本均转换为机器能够识别的数据，从而能够进行后续的分类工作。另外，由于哈夫曼树中每层节点对应的主分类和标准分类样本中各个短文本样本是预先映射成向量的，从而使得在对短文本分类过程中，能够直接获取已经映射好的第一词语级向量和第一文本级向量进行匹配，缩短匹配时间，提高分类效率。

通过将待分类的短文本映射成第二词语级向量，然后逐层比较哈夫曼树的当前层次节点对应的第一词语级向量与第二词语级向量是否相同，使得机器能够根据词语级向量识别短文本与各个层次节点的主分类是否相同。另外，将根据每个第二词语级向量确定的待选主分类中层次最高的待选主分类作为目标主分类，使得在短文本由多个词语组成的情况下，最终只确定一个目标主分类，避免了根据短文本确定多个目标主分类的情况。

通过将短文本映射成第二文本级向量，使得机器能够根据第一文本级向量和第二文本级向量计算余弦相似度。

通过将s个余弦相似度按照从高到低的顺序排列，取前k个短文本样本确定各自所属的从分类，将出现频率最高的从分类确定为短文本的目标从分类，使得短文本能够根据相似的短文本样本确定所属的目标从分类。

需要说明的是，上述实施例中提供的短文本分类装置在处理业务时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将服务器的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的短文本分类装置与短文本分类方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本申请实施例还提供了一种计算机设备，该计算机设备包括处理器和存储器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如图2、图3和图7所描述的短文本分类方法。

在示例性实施例中，还提供了一种计算机可读存储介质，该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如图2、图3和图7所描述的短文本分类方法。

图11是本申请一个实施例中提供的服务器的结构示意图。具体来讲：服务器包括处理器601、存储器602和系统总线603。

系统总线603用于连接处理器601和存储器602，

可选的，处理器601为中央处理单元(英文：Central Processing Unit，简称：CPU)。

可选的，存储器602包括随机存取存储器(英文：random access memory，简称：RAM)和只读存储器(英文：read-only memory，简称：ROM)。

可选的，存储器602还包括大容量存储设备，大容量存储设备及其相关联的计算机可读介质为服务器提供非易失性存储。也就是说，大容量存储设备可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(英文：Erasable Programmable Read Only Memory，简称：EPROM)、电可擦可编程只读存储器(英文：Electrically Erasable ProgrammableRead-Only Memory，简称：EEPROM)、闪存或其他固态存储其技术，CD-ROM、数字通用光盘(英文：Digital Versatile Disc，简称：DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。

根据本申请的各种实施例，服务器还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器可以通过连接在所述系统总线603上的网络接口单元604连接到网络605，或者说，也可以使用网络接口单元604来连接到其他类型的网络或远程计算机系统(未示出)。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质；也可以是单独存在，未装配入终端中的计算机可读存储介质。该计算机可读存储介质存储有一个或者一个以上程序，该一个或者一个以上程序被一个或者一个以上的处理器用来执行上述短文本分类方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

Claims

1.一种短文本分类方法，其特征在于，所述方法包括：

获取待分类的短文本；

获取各个所述从分类对应的短文本样本；

计算所述短文本与各个所述短文本样本之间的相似度；

2.根据权利要求1所述的方法，其特征在于，所述根据所述短文本遍历哈夫曼树，确定与所述短文本匹配的目标主分类，包括：

获取所述哈夫曼树中每层节点对应的第一词语级向量，每个所述第一词语级向量是根据所述节点对应的主分类在分词库中的位置映射成的向量，所述分词库包括按照预定顺序排列的词语，所述词语包括组成所述标准分类样本的词语和组成所述短文本的词语；

根据所述分词库，将所述短文本中的每个词语分别映射为第二词语级向量；

对于每个所述第二词语级向量，从所述哈夫曼树的根节点开始，逐层检测当前层次节点对应的第一词语级向量与所述第二词语级向量是否相同；

当检测到相同时，将相同的所述第一词语级向量对应的主分类作为待选主分类；

在各个所述第二词语级向量匹配结束后，将确定的各个待选主分类中层次最高的待选主分类作为与所述短文本匹配的所述目标主分类。

3.根据权利要求1所述的方法，其特征在于，所述计算所述短文本与各个所述短文本样本之间的相似度，包括：

对于每个所述短文本样本，获取所述短文本样本的第一文本级向量，所述第一文本级向量是根据组成所述短文本样本的各个词语在分词库中的位置生成的向量，所述分词库包括按照预定顺序排列的词语，所述词语包括组成所述标准分类样本的词语和组成所述短文本的词语；

根据所述分词库，将所述短文本映射成第二文本级向量，所述第二文本级向量是根据组成所述短文本的各个词语在所述分词库中的位置生成的向量；

计算所述第一文本级向量与所述第二文本级向量之间的余弦相似度。

4.根据权利要求3所述的方法，其特征在于，所述短文本样本的数量为s，s为正整数；

所述根据计算出的各个所述相似度确定所述短文本的目标从分类，包括：

获取根据s个所述短文本样本计算出的s个余弦相似度；

将s个所述余弦相似度按照从高到低的顺序排列；

获取与前k个所述余弦相似度对应的k个所述短文本样本，k为正整数，1≤k≤s；

确定k个所述短文本样本各自所属的从分类；

将出现频率最高的从分类确定为所述短文本的目标从分类。

5.根据权利要求1至4任一所述的方法，其特征在于，所述获取待分类的短文本之前，还包括：

根据分词库，将所述哈夫曼树中每层节点对应的所述主分类映射成第一词语级向量，每个所述第一词语级向量是根据所述节点对应的主分类在所述分词库中的位置映射成的向量；

根据所述分词库，将所述标准分类样本中的各个短文本样本分别映射成第一文本级向量，所述第一文本级向量是根据组成所述短文本样本的各个词语在所述分词库中的位置生成的向量；

其中，所述分词库包括按照预定顺序排列的词语，所述词语包括组成所述标准分类样本的词语和组成所述短文本的词语。

6.根据权利要求1至4任一所述的方法，其特征在于，待分类的所述短文本的数量为p，p为正整数，p＞1；

所述获取待分类的短文本之前，还包括：

按照最小粒度，分别对所述标准分类样本中包含的所述主分类、所述从分类、所述短文本样本以及p个待分类的所述短文本进行分词，得到第一分词结果；

将所述第一分词结果中相同的词语进行合并处理，得到第二分词结果；

根据所述第二分词结果生成分词库，所述分词库用于将所述第二分词结果中的各个词语按照预定顺序排列。

7.一种短文本分类装置，其特征在于，所述装置包括：

第一获取模块，用于获取待分类的短文本；

8.根据权利要求7所述的装置，其特征在于，所述第一确定模块，包括：

第一获取单元，用于获取所述哈夫曼树中每层节点对应的第一词语级向量，每个所述第一词语级向量是根据所述节点对应的主分类在分词库中的位置映射成的向量，所述分词库包括按照预定顺序排列的词语，所述词语包括组成所述标准分类样本的词语和组成所述短文本的词语；

第一映射单元，用于根据所述分词库，将所述短文本中的每个词语分别映射为第二词语级向量；

检测单元，用于对于所述第一映射单元得到的每个所述第二词语级向量，从所述哈夫曼树的根节点开始，逐层检测当前层次节点对应的第一词语级向量与所述第二词语级向量是否相同；

第一确定单元，用于当所述检测单元检测到相同时，将相同的所述第一词语级向量对应的主分类作为待选主分类；

第二确定单元，用于在各个所述第二词语级向量匹配结束后，将所述第一确定单元确定的各个待选主分类中层次最高的待选主分类作为与所述短文本匹配的所述目标主分类。

9.根据权利要求7所述的装置，其特征在于，所述计算模块，包括：

第二获取单元，用于对于每个所述短文本样本，获取所述短文本样本的第一文本级向量，所述第一文本级向量是根据组成所述短文本样本的各个词语在分词库中的位置生成的向量，所述分词库包括按照预定顺序排列的词语，所述词语包括组成所述标准分类样本的词语和组成所述短文本的词语；

第二映射单元，用于根据所述分词库，将所述短文本映射成第二文本级向量，所述第二文本级向量是根据组成所述短文本的各个词语在所述分词库中的位置生成的向量；

计算单元，用于计算所述第二获取单元获取的所述第一文本级向量与所述第二映射单元得到的所述第二文本级向量之间的余弦相似度。

10.根据权利要求9所述的装置，其特征在于，所述短文本样本的数量为s，s为正整数；

所述第三确定模块，包括：

第三获取单元，用于获取根据s个所述短文本样本计算出的s个余弦相似度；

排序单元，用于将所述第三获取单元获取的s个所述余弦相似度按照从高到低的顺序排列；

第四获取单元，用于获取与前k个所述余弦相似度对应的k个所述短文本样本，k为正整数，1≤k≤s；

第三确定单元，用于确定所述第四获取单元获取的k个所述短文本样本各自所属的从分类；

第四确定单元，用于将出现频率最高的从分类确定为所述短文本的目标从分类。

11.根据权利要求7至10任一所述的装置，其特征在于，所述装置还包括：

第一映射模块，用于根据分词库，将所述哈夫曼树中每层节点对应的所述主分类映射成第一词语级向量，每个所述第一词语级向量是根据所述节点对应的主分类在所述分词库中的位置映射成的向量；

第二映射模块，用于根据所述分词库，将所述标准分类样本中的各个短文本样本分别映射成第一文本级向量，所述第一文本级向量是根据组成所述短文本样本的各个词语在所述分词库中的位置生成的向量；

12.根据权利要求7至10任一所述的装置，其特征在于，待分类的所述短文本的数量为p，p为正整数，p＞1；

所述装置还包括：

分词模块，用于按照最小粒度，分别对所述标准分类样本中包含的所述主分类、所述从分类、所述短文本样本以及p个待分类的所述短文本进行分词，得到第一分词结果；

合并模块，用于将所述分词模块得到的所述第一分词结果中相同的词语进行合并处理，得到第二分词结果；

生成模块，用于根据所述合并模块得到的所述第二分词结果生成分词库，所述分词库用于将所述第二分词结果中的各个词语按照预定顺序排列。

13.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现如权利要求1至6任一所述的短文本分类方法。

14.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由处理器加载并执行以实现如权利要求1至6任一所述的短文本分类方法。