CN107085581B

CN107085581B - 短文本分类方法和装置

Info

Publication number: CN107085581B
Application number: CN201610087801.5A
Authority: CN
Inventors: 钟黎
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2016-02-16
Filing date: 2016-02-16
Publication date: 2020-04-07
Anticipated expiration: 2036-02-16
Also published as: CN107085581A

Abstract

本发明公开了一种短文本分类方法和装置。该方法包括：对目标短文本执行分词处理，得到目标短文本的分词；根据目标短文本的分词提取目标短文本的关键词；根据目标短文本的关键词对目标短文本执行向量化处理，得到向量化短文本；对向量化短文本执行聚类计算，得到聚类结果；以及根据聚类结果对目标短文本进行分类。本发明解决了相关技术中短文本只能离线分类的技术问题。

Description

短文本分类方法和装置

技术领域

本发明涉及文本分类领域，具体而言，涉及一种短文本分类方法和装置。

背景技术

目前，由于短文本具有结构松散、语法随意、停用词占比大等特点，针对于长文本的分类方法往往不适用。现有的短文本分类技术方案主要根据短文本自身特点进行特征扩充。比如，通过先借助分布表示，将短文本中的词语利用语义相似模型投射到外部语料库里，再利用上下文信息丰富短文本，其中，外部语料库为大文本语料库。这类短文本方法的分类精度虽然有一定的提升，但是只利用短文本自身特点进行特征扩充存在很大的局限性。

图1是根据相关技术中的短文本分类的示意图，如图1所示，短文本与短文本之间先用字符串编辑距离进行计算，然后使用多维标度分析(Multidimensional Scaling，简称为MDS)方法将短文本映射到维基语料库，其中，维基语料库也即外部语料库。通过判别函数分析有助于分析短文本和对应维基语料库之间的簇类相似度和内在一致性。其次根据潜在语义分析(Latent Semantic Analysis，简称为LSA)来对所对应的维基上下文进行分类。最后再把分类情况逆向映射到短文本中去，从而实现了对短文本的分类。

但是，现有技术方案一方面受制于短文本与外部语料库的上下文相互映射的关系，当短文本与外部语料库映射不准确时，影响对短文本分类的准确性。另外，对短文本分类的准确性也受制于外部语料本身的分类效果的准确性。目前，对短文本进行分类时的类目体系需要预先根据外部语料库建立，无法针对短文本进行扩展；每次进行短文本分类时都需映射到较大的外部语料库进行分类，只能离线计算，无法实时对短文本进行分类操作，在短文本中的数据分布不均匀时，短文本与外部语料库的映射过程会受到严重影响，导致完全无法正确分类。

针对相关技术中短文本只能离线分类的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种短文本分类方法和装置，以至少解决相关技术中短文本只能离线分类的技术问题。

根据本发明实施例的一个方面，提供了一种短文本分类方法，该方法包括：对目标短文本执行分词处理，得到目标短文本的分词；根据目标短文本的分词提取目标短文本的关键词；根据目标短文本的关键词对目标短文本执行向量化处理，得到向量化短文本；对向量化短文本执行聚类计算，得到聚类结果；以及根据聚类结果对目标短文本进行分类。

根据本发明实施例的另一方面，还提供了短文本分类装置，该装置包括：分词单元，用于对目标短文本执行分词处理，得到目标短文本的分词；提取单元，用于根据目标短文本的分词提取目标短文本的关键词；向量单元，用于根据目标短文本的关键词对目标短文本执行向量化处理，得到向量化短文本；聚类单元，用于对向量化短文本执行聚类计算，得到聚类结果；以及分类单元，用于根据聚类结果对目标短文本进行分类。

在本发明实施例中，对目标短文本执行分词处理，得到目标短文本的分词；根据目标短文本的分词提取目标短文本的关键词；根据目标短文本的关键词对目标短文本执行向量化处理，得到向量化短文本；对向量化短文本执行聚类计算，得到聚类结果，然后根据聚类结果对目标短文本进行分类，达到了短文本在线分类的目的，从而实现了提高短文本分类效率和准确性的技术效果，进而解决了相关技术中短文本只能离线分类的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据相关技术中的短文本分类的示意图；

图2是根据本发明实施例的短文本分类方法的计算机终端的硬件结构框图；

图3是根据本发明实施例的短文本分类方法的流程图；

图4是根据本发明实施例的CBOW模型的示意图；

图5是根据本发明实施例的霍夫曼树的示意图；

图6是根据本发明实施例的Skip-gram模型的示意图；

图7是根据本发明实施例的对目标短文本执行分词处理方法的流程图；

图8是根据本发明实施例的对目标短文本的多个分词执行加权抽取方法的流程图；

图9是根据本发明实施例的LDA算法模型的示意图；

图10是根据本发明实施例的文本分类的示意图；

图11是根据本发明第一实施例的短文本分类装置的示意图；

图12是根据本发明第二实施例的短文本分类装置的示意图；

图13是根据本发明第三实施例的短文本分类装置的示意图；

图14是根据本发明第四实施例的短文本分类装置的示意图；

图15是根据本发明第五实施例的短文本分类装置的示意图；以及

图16是根据本发明实施例的计算机终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本发明实施例，提供了一种短文本分类方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例，图2是根据本发明实施例的短文本分类方法的计算机终端的硬件结构框图。如图2所示，计算机终端100可以包括一个或多个(图中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。本领域普通技术人员可以理解，图2所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端100还可包括比图2中所示更多或者更少的组件，或者具有与图2所示不同的配置。

存储器104可用于存储应用软件的软件程序以及模块，如本发明实施例中的短文本分类方法对应的程序指令/模块，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的短文本分类方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端100的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

在上述运行环境下，本申请提供了如图3所示的短文本分类方法。该方法可以应用于智能终端设备中，由智能终端设备中的处理器执行，智能终端设备可以是智能手机、平板电脑等。智能终端设备中安装有至少一个应用程序，本发明实施例并不限定应用程序的种类，可以为系统类应用程序，也可以为软件类应用程序。

图3是根据本发明实施例的短文本分类方法的流程图。如图3所示，该短文本分类方法的一种可选的方案包括如下步骤：

步骤S301，对目标短文本执行分词处理，得到目标短文本的分词。

在本申请上述步骤S301提供的方案中，短文本是相对于长文本而言比较短的文本。目标短文本是进行分类的短文本，例如，目标短文本是用户终端发布在即时通讯应用QQ社区上的状态信息，例如，QQ社区的说说或者状态日志，说说的内容可以是心情类、广告类说说，或者旅游风景类等；目标短文本也可以是网页片段、短消息，微型博客文本等，目标短文本可以是中文短文本，也可以是英文短文本。

分词处理可以是将目标短文本中的文本内容进行划分，划分成多个词，例如，读取目标短文本中的文本，将目标短文本划分成多个词，在将目标短文本划分成多个词时，根据上下文的语义进行词的划分，以使对目标短文本的分词更加准确。例如，对QQ社区的说说“今天天气很好”进行分词处理，得到“今天”，“天气”和“很好”三个词。在对目标短文本执行分词处理时可以将划分后的词进行词性标注，例如，将目标短文本划分后的词标注“名词”，“形容词”和“副词”等，以便于提高短文本分类方法的效率和准确性。

步骤S302，根据目标短文本的分词提取目标短文本的关键词。

在本申请上述步骤S302提供的方案中，在对目标短文本执行分词处理，得到目标短文本的分词之后，根据目标短文本的分词提取目标短文本的关键词。例如，在一段目标短文本中，关键词是与目标短文本的主题含义相关的词，能够代表该目标短文本的主题和类别，因此，提取目标短文本的关键词有助于对目标短文本进行准确地分类。在提取目标短文本的关键词时，可以根据在目标短文本中出现的频率进行提取。例如，在目标短文本中出现次数多的词往往是目标短文本着重描述的词，因此可以作为关键词代表目标短文本所表达的含义。优选地，根据目标短文本的分词提取目标短文本的关键词时，可以根据目标短文本的分词的词性对目标短文本的关键词进行提取，例如，在一段短文本中，“是”，“的”，“了”等词出现的频率很高，但目标短文本所表达的含义并不能用上述词表示，因此可以优先对目标短文本中的名词进行关键词的提取，以使目标短文本的关键词的提取更加准确。

本发明实施例根据目标短文本的分词提取目标短文本的关键词，能够快速准确地获取目标短文本的含义，提高对目标短文本进行分类的准确性。

步骤S303，根据目标短文本的关键词对目标短文本执行向量化处理，得到向量化短文本。

在本申请上述步骤S303提供的方案中，根据目标短文本的关键词对目标短文本执行向量化处理可以是通过多种方法对目标短文本执行向量化处理，例如，通过词袋模型(Continuous Bag of Word Model，简称为CBOW)计算词向量，得到向量化短文本。词向量的计算还可以通过Skip-Gram训练算法实现，从而得到向量化短文本。可以使用词嵌入向量模型对目标短文本执行向量化处理，得到向量化短文本。

图4是根据本发明实施例的CBOW模型的示意图，如图4所示，忽略目标短文本的词序、语法和句法，将其看作是词的集合，或者词的组合，文本中每个词的出现都不依赖于其它词是否出现。对于目标短文本，在任意一个位置选择一个词都不受前面句子的影响。例如，目标短文本中“猪”、“马”、“牛”、“羊”、“山谷”、“土地”、“拖拉机”这样的词汇多些，而“银行”、“大厦”、“汽车”、“公园”这样的词汇少些，则倾向于判断该目标短文本是一篇描绘乡村的文本，而不是描述城镇的文本。将多个输入的关键词W(t-2)、W(t-1)、W(t+1)和W(t+2)映射到总的词袋中，将各个词出现的频率以W(t)输出。

图5是根据本发明实施例的霍夫曼树的示意图，如图5所示，每个词对应有从根节点到叶节点的路径，在每条路径上的分叉点都是一个二分类模型，例如，以“左根右”的遍历顺序对霍夫曼树进行遍历，整个霍夫曼树的最左叶节点为“This”，然后遍历根节点，其中，根节点为空，再遍历右叶节点“film”，然后继续遍历根节点，以此类推，得到“This filmdoesn’t care about cleverness,wit or any other kind of intelligent humor”。可选地，用激励函数sigmoid函数对短文本进行分类，sigmoid函数表示人工神经网络中，单个神经元的输入和输出之间的函数关系。由于采用sigmoid函数对目标短文本进行分类，因而总的概率函数就是路径上各个函数的乘积。

图6是根据本发明实施例的Skip-gram模型的示意图，如图6所示，将当前的W(t)输入至Skip-gram模型，通过预设的映射关系将当前的W(t)转化为W(t-2)、W(t-1)、W(t+1)和W(t+2)输出。

该实施例采用Skip-gram模型对目标短文本执行向量化处理，得到向量化短文本。所采用的目标函数如下：

其中，L表示Skip-gram的目标函数，

表示路径长度，路径长度与词w有关，

表示路径中第j个词的编码，

表示第j非叶子节点对应的词向量，此词向量用于辅助计算，

是sigmoid函数。目标函数用随机梯度下降法进行求解，从而减少词向量化的计算量，提高计算速度。

本发明实施例通过根据目标短文本的关键词对目标短文本执行向量化处理，得到向量化短文本，能够提高对目标短文本进行分类的准确性。

步骤S304，对向量化短文本执行聚类计算，得到聚类结果。

在本申请上述步骤S304提供的方案中，在根据目标短文本的关键词对目标短文本执行向量化处理，得到向量化短文本之后，对向量化短文本执行聚类计算，得到聚类结果。聚类计算可以用来对短文本进行分析，用以计算目标短文本之间的相似度。可选地，聚类算法可以是划分聚类法，层次聚类法，基于密度的聚类方法，基于网格的聚类方法，基于模型的聚类方法等。

步骤S305，根据聚类结果对目标短文本进行分类。

在本申请上述步骤S305提供的方案中，根据聚类结果对目标短文本进行分类可以是根据聚类结果将相同类别的目标短文本作为一类文本，可以根据聚类结果对目标短文本进行类别命名。在对目标短文本执行分词处理后，根据目标短文本的分词提取目标短文本的关键词，然后根据目标短文本的关键词对目标短文本执行向量化处理，再对向量化短文本执行聚类计算，最后根据聚类结果对目标短文本进行分类。

可选地，在绝大部分短文本文的应用场景中，例如，即时通讯应用QQ公众号，在QQ公众平台中，每日例行对新增公众号进行行业分类，对于每个新增的公众号样本，抽取标题和公众号描述作为目标短文本，经过上述方法实时计算得到该QQ公众号的分类结果。

本发明实施例可以采用多种方式提取目标短文本的关键词、对目标短文本执行向量化处理、对向量化短文本执行聚类计算和根据聚类结果对目标短文本进行分类，上述短文本分类方法仅为本发明的优选实施例，并不代表本发明实施例的短文本分类方法仅包括上述实施方式。为了提高短文本分类的准确性，本发明实施例还可以包括其他能够提高短文本分类方法的准确性的方式，此处不再一一举例说明。

本发明实施例根据聚类结果对目标短文本进行分类，能够提高对目标短文本进行分类的准确性。

通过上述步骤S301至步骤S305，本发明提供的方案可以实现通过对目标短文本执行分词处理，得到目标短文本的分词；根据目标短文本的分词提取目标短文本的关键词；根据目标短文本的关键词对目标短文本执行向量化处理，得到向量化短文本；对向量化短文本执行聚类计算，得到聚类结果；以及根据聚类结果对目标短文本进行分类，提高了对目标短文本进行分类的效率，可以不再通过短文本与外部语料库的相互映射对短文本进行分类，实现了可以在线对短文本进行分类，进而解决了相关技术中短文本只能离线分类的技术问题。

作为一种可选的实施方式，本申请步骤S301对目标短文本执行分词处理包括：扫描目标短文本，得到扫描结果；根据扫描结果生成目标短文本的有向无环图，其中，有向无环图为根据目标短文本中的不同的词进行组合的有向图；在有向无环图中查找最大概率路径，其中，最大概率路径为根据目标短文本中不同的词出现的频数进行组合的最优路径；以及将最大概率路径上出现的词作为目标短文本的分词。图7是根据本发明实施例的对目标短文本执行分词处理方法的流程图。如图7所示，该对目标短文本执行分词处理方法的一种可选的方案包括如下步骤：

步骤S701，扫描目标短文本，得到扫描结果。

在对目标短文本执行分词处理时，首先扫描目标短文本，得到扫描结果。可选地，在对目标短文本进行扫描时，可以基于前缀词典进行词图扫描。基于前缀词典进行的词图扫描能够更为高效地对短文本进行扫描，例如，基于前缀词典的数据库对目标短文本中的文本进行遍历，得到遍历结果。

步骤S702，根据扫描结果生成目标短文本的有向无环图。

在扫描目标短文本，得到扫描结果之后，根据扫描结果生成有向无环图，可以是根据目标短文本中句子中的汉字所有可能成词情况所构成的有向无环图(Directed AcyclicGraph，简称为DAG)，其中，有向无环图是指从有向图中的一个顶点出发经过若干条边，无法回到该点的图。

步骤S703，在有向无环图中查找最大概率路径。

该实施例的最大概率路径为根据目标短文本中不同的词出现的频数进行组合的最优路径。例如，可以采用动态规划查找最大概率路径，其中，动态规划是求解决策过程的最优化的数学方法，动态规划将多阶段过程转化为一系列单阶段过程，利用各阶段之间的关系，逐个求解。

步骤S704，将最大概率路径上出现的词作为目标短文本的分词。

将最大概率路径上出现的词作为目标短文本的分词。可选地，查找出基于词频的最大切分组合，也即，查找出目标短文本中的词频度得分最大的切分组合。其中，对于未登录词，也即，新出现的词，比如，新出现的流行用语，公司的内部技术用语等，采用了基于汉字成词能力的模型，例如采用隐马尔可夫模型(Hidden Markov Model，简称为HMM)进行分词，HMM是一种统计模型，用来描述一个含有隐含位置参数的马尔可夫过程，从可观察的参数中确定该过程的隐含参数，然后利用这些参数来做进一步的分析，例如模式识别等。在通过HMM进行分词时，可以使用维特比(Viterbi)算法。

通过上述步骤S701至步骤S704，扫描目标短文本，得到扫描结果，根据扫描结果生成目标短文本的有向无环图，在有向无环图中查找最大概率路径，将最大概率路径上出现的词作为目标短文本的分词，实现了对目标短文本执行分词处理的目的，提高了对目标短文本执行分词处理的效率。

在一种可选的实施方式中，目标短文本的分词包括多个，根据分词提取目标短文本的关键词包括对目标短文本的多个分词执行加权抽取，得到目标短文本的多个关键词。其中，对目标短文本的多个分词执行加权抽取可以是根据预设的权重对目标短文本的分词进行抽取。

图8是根据本发明实施例的对目标短文本的多个分词执行加权抽取方法的流程图，如图8所示，在一种可选的实施方式中，对目标短文本的多个分词执行加权抽取的方法可以包括：

步骤S801，分别计算目标短文本的多个分词的TFIDF值。

词频逆文档频率值(Term Frequency-Inverse Document Frequency，简称为TFIDF)用于信息检索与数据挖掘的加权处理，用以评估字词对于一个文件集成一个语料库中的其中一份文件的重要程度。字词的重要性随着在文件中出现的次数成正比增加，但同时会随着字词在语料库中出现的频率成反比下降，TFIDF加权的主要规则是如果某个词或短语在一个文本中出现的频率高，而且在其他文本中很少出现，则认为该词或短语具有很好的类别区分能力，能够代表该文本的类型，适合用来对文本进行分类。

分别计算目标短文本的多个分词的TFIDF值，可以通过以下公式计算每个词的TFIDF值：

其中，n_i，j表示该词在文本d_j中出现的次数。|D|表示语料库中的总文件数，∑_kn_i，j，表示文件中所有字词出现次数之和。

步骤S802，分别计算目标短文本的多个分词的TextRank值。

分别计算目标短文本的多个分词的TextRank值可以是迭代计算目标短文本的多个分词的TextRank值，可选地，所使用的迭代方程如下：

其中，

表示目标短文本d_i，d_j间的相似度，也可以表示词与词之间的相似度，ws(v_i)表示分词的权重。

步骤S803，分别根据目标短文本的多个分词的TFIDF值和目标短文本的多个分词的TextRank值计算目标短文本的多个分词的平均权值。

分别根据目标短文本的多个分词的TFIDF值和目标短文本的多个分词的TextRank值计算目标短文本的多个分词的平均权值可以是对每个词分别计算TFIDF值和TextRank值的平均权值作为其权值。

可选地，对于关键词的提取方法也可以通过除了TFIDF、TextRank以外的方法进行关键词提取。

步骤S804，将预设个数的分词的平均权值对应的分词作为目标短文本的多个关键词，其中，预设个数的分词的平均权值大于预设个数的分词之外的其它分词的平均权值。

将预设个数的分词的平均权值对应的分词作为目标短文本的多个关键词可以是从多个关键词中抽取权值最高的预设个数的关键词，例如抽取前20个最高权值的关键词。

该实施例中采用分别计算目标短文本的多个分词的TFIDF值；分别计算目标短文本的多个分词的TextRank值；分别根据目标短文本的多个分词的TFIDF值和目标短文本的多个分词的TextRank值计算目标短文本的多个分词的平均权值；以及将预设个数的分词的平均权值对应的分词作为目标短文本的多个关键词，其中，预设个数的分词的平均权值大于预设个数的分词之外的其它分词的平均权值，提高了短文本分类的扩展性，对短文本分类的实时计算能力，以及实现了对不均短文本进行分类。

在一种可选的实施方式中，在根据目标短文本的关键词对目标短文本执行向量化处理之前，通过外部语料库计算词嵌入向量模型，其中，词嵌入向量模型为用于对目标短文本执行向量化处理的空间向量化模型，根据目标短文本的关键词对目标短文本执行向量化处理包括：通过目标短文本的关键词和词嵌入向量模型对目标短文本执行向量化处理，得到向量化短文本。可选地，词嵌入向量模型是一种空间模型的向量化处理模型，例如，使用50万词汇构成的词嵌入向量模型。

本发明实施例可以应用于对即时通讯应用QQ公众平台对公众号的短文本分类，还可以应用于对即时通讯应用QQ的空间对说说短文本进行分类，实现了在线对短文本进行分类的效果。

在一种可选的实施方式中，在步骤S304之前，通过外部语料库计算主题权值矩阵，其中，主题权值矩阵为用于对向量化短文本执行聚类计算的矩阵，其中，对向量化短文本执行聚类计算包括：根据向量化短文本和主题权值矩阵获取目标短文本的类目体系，根据聚类结果对目标短文本进行分类包括：根据类目体系对目标短文本进行分类。

可选地，主题权值矩阵通过以下方式来确定：通过Gibbs算法执行采样，得到采样结果；以及根据所述采样结果建立文档主题生成模型(Latent Dirichlet Allocation，简称为LDA)，LDA模型也称为三层贝叶斯概率模型，包含词、主题和文档三层结构。生成模型可以使一个文本的每个词都通过以一定概率选择某个主题，并从这个主题中以一定概率选择某个词语的过程得到。文档到主题服从多项式分布，主题到词服从多项式分布。

图9是根据本发明实施例的LDA算法模型的示意图，如图9所示，LDA算法模型可以采用以下方法：其中，K为主题个数，M为文档总数，N_M是第m个文档的单词总数。β是每个Topic下词的多项分布的Dirichlet先验参数，α是每个文档下Topic的多项分布的Dirichlet先验参数。Z_M,N是第m个文档中第n个词的主题，W_M,N是m个文档中的第n个词。剩下来两个隐含变量θ_M和

分别表示第m个文档下的Topic分布和第k个Topic下词的分布，前者是k维(k为Topic总数)向量，后者是v维向量(v为词典中词总数)。

给定一个文档集合，W_M,N是可以观察到的已知变量，α和β是根据经验给定的先验参数，其他的变量Z_M,N，θ_M和

都是未知的隐含变量，也是需要根据观察到的变量来学习估计的。根据LDA的图模型，可以写出所有变量的联合分布：

可选地，用Gibbs采样的方法来训练LDA模型。

可选地，对向量化短文本执行马氏距离软聚类计算，得到类目体系的相似度，其中，根据聚类结果对目标短文本进行分类包括：根据类目体系的相似度对目标短文本进行分类。可选地，可以通过马氏距离以外的方法进行相似度计算，也可以通过LDA意外的方法进行词-主题权值矩阵的训练，从而实现对向量化短文本执行聚类计算。

作为一种可选的实施方式，对向量化短文本执行马氏距离软聚类计算包括：对类目体系执行混合高斯模型处理，得到多维高斯簇，其中，多维高斯簇中的均值和协方差矩阵由LDA模型中对应的词的向量确定；获取目标短文本的样本；分别计算目标短文本的样本与多维高斯簇的马氏距离；以及对马氏距离执行归一化处理，得到类目体系的相似度。

马氏距离软聚类的整个类目体系作为一个混合高斯模型M＝{G1,G2,...}，每个类目标签为一个带权多维高斯簇G＝{(v1,w1),(v2,w2)...},该簇的均值u和协方差矩阵S由LDA中所对应的词的向量计算得出。在样本在线聚类时，计算样本与每个高斯簇的马氏距离可以采用如下公式：

对得到的距离再做cosine归一化，最终得到每个类目的相似度。

图10是根据本发明实施例的文本分类的示意图，该实施例可以作为本发明实施例的短文本分类方法的优选实施例。如图10所示，本发明的文本分类方法分为在线计算和离线计算两大模块。

将目标短文本进行分词处理后，提取目标短文本的关键词，在提取目标短文本关键词时可以采用TFIDF和TextRank方法，然后根据目标短文本的关键词对目标短文本执行向量化处理，可以通过词嵌入向量模型对目标短文本执行向量化处理，例如，word2vecDict词嵌入向量模型，然后通过类别体系对向量化短文本执行聚类计算，得到聚类结果，最后根据聚类结果对目标短文本进行分类，可以通过对类别体系余弦归一化进行相似度度量，最终对目标短文本进行分类，得到分类结果。除了word2vec Dict词嵌入向量模型外，也可以通过其他词嵌入向量模型对目标短文本执行向量化处理。

在离线计算模块中，通过引入外部语料库来计算巨量词-主题权值矩阵和词嵌入向量模型，并且通过带全随机采样结合类目关键词和权重来获得类别体系。其中，巨量词-主题权值矩阵可以采用50万词。

在线计算模块中，对目标短文本的主题和关键词进行主题识别，然后通过TF-IDF和TextRank方法来提取关键词并利用离线获得的词嵌入向量模型进行向量化。在向量化之后进行相似度计算得到分类结果。

本发明实施例提供了一种可扩展式的短文本快速在线分类方法，该方法包括对目标短文本执行分词处理，得到目标短文本的分词；根据目标短文本的分词提取目标短文本的关键词；根据目标短文本的关键词对目标短文本执行向量化处理，得到向量化短文本；对向量化短文本执行聚类计算，得到聚类结果；以及根据聚类结果对目标短文本进行分类。其中，主要步骤包括：分词和词性标注；离线巨量词-主题权值矩阵训练；类别体系高斯模型拟合；基于马氏距离的相似度计算；短文本快速向量化并软聚类。通过以上步骤，本发明支持扩展式类别体系，能够在线分类，实时计算，能够实现多类别软分类，从而可以有效地应对数据倾斜、长尾分布的情况，由于可以不通过外部语料库对目标短文本进行分类，因此能够在线分类，实时计算。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

根据本发明实施例，还提供了一种用于实施上述短文本分类方法的装置。图11是根据本发明第一实施例的短文本分类装置的示意图，如图11所示，该装置包括：分词单元10，提取单元20，向量单元30，聚类单元40和分类单元50。

分词单元10，用于对目标短文本执行分词处理，得到目标短文本的分词.

提取单元20，用于根据目标短文本的分词提取目标短文本的关键词。

向量单元30，用于根据目标短文本的关键词对目标短文本执行向量化处理，得到向量化短文本。

聚类单元40，用于对向量化短文本执行聚类计算，得到聚类结果。

分类单元50，用于根据聚类结果对目标短文本进行分类。

该实施例的短文本分类的装置中，分词单元10可以用于执行本发明实施例中的步骤S301，提取单元20可以用于执行本发明实施例中的步骤S302，向量单元30可以用于执行本发明实施例中的步骤S303，聚类单元40用于执行本发明实施例中的步骤S304，分类单元50可以用于执行本发明实施例中的步骤S305。

作为一种可选的实施例，图12是根据本发明第二实施例的短文本分类装置的示意图，如图12所示，该装置包括：分词单元10，提取单元20，向量单元30，聚类单元40和分类单元50。其中，分词单元10包括扫描模块101，生成模块102，查找模块103和确定模块104。

该实施例中的分词单元10，提取单元20，向量单元30，聚类单元40和分类单元50的作用与本发明第一实施例相同。

扫描模块101，用于扫描目标短文本，得到扫描结果。

生成模块102，用于根据扫描结果生成目标短文本的有向无环图，其中，有向无环图为根据目标短文本中的不同的词进行组合的有向图。

查找模块103，用于在有向无环图中查找最大概率路径，其中，最大概率路径为根据目标短文本中不同的词出现的频数进行组合的最优路径。

确定模块104，用于将最大概率路径上出现的词作为目标短文本的分词。

作为一种可选的实施例，图13是根据本发明第三实施例的短文本分类装置的示意图，如图13所示，该装置包括：分词单元10，提取单元20，向量单元30，聚类单元40和分类单元50。其中，分词单元10包括扫描模块101，生成模块102，查找模块103和确定模块104。提取单元20包括加权模块201。

目标短文本的分词包括多个，加权模块201，用于对目标短文本的多个分词执行加权抽取，得到目标短文本的多个关键词。

作为一种可选的实施例，图14是根据本发明第四实施例的短文本分类装置的示意图，如图14所示，该装置包括：分词单元10，提取单元20，向量单元30，聚类单元40和分类单元50。其中，分词单元10包括扫描模块101，生成模块102，查找模块103和确定模块104，提取单元20包括加权模块201，加权模块201包括第一计算子模块2011，第二计算子模块2012，第三计算子模块2013和确定子模块2014。

第一计算子模块2011，用于分别计算目标短文本的多个分词的TFIDF值。

第二计算子模块2012，用于分别计算目标短文本的多个分词的TextRank值。

第三计算子模块2013，用于分别根据目标短文本的多个分词的TFIDF值和目标短文本的多个分词的TextRank值计算目标短文本的多个分词的平均权值。

确定子模块2014，用于将预设个数的分词的平均权值对应的分词作为目标短文本的多个关键词，其中，预设个数的分词的平均权值大于预设个数的分词之外的其它分词的平均权值。

作为一种可选的实施例，图15是根据本发明第五实施例的短文本分类装置的示意图，如图15所示，该装置包括：分词单元10，提取单元20，向量单元30，聚类单元40，分类单元50和嵌入单元60。其中，向量单元30包括向量模块301。

嵌入单元60用于在根据目标短文本的关键词对目标短文本执行向量化处理之前，通过外部语料库计算词嵌入向量模型，其中，词嵌入向量模型为用于对目标短文本执行向量化处理的空间向量化模型，

向量模块301，用于通过目标短文本的关键词和词嵌入向量模型对目标短文本执行向量化处理，得到向量化短文本。

实施例3

本发明的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例一种短文本分类方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：

第一步，对目标短文本执行分词处理，得到目标短文本的分词。

第二步，根据目标短文本的分词提取目标短文本的关键词。

第三步，根据目标短文本的关键词对目标短文本执行向量化处理，得到向量化短文本。

第四步，对向量化短文本执行聚类计算，得到聚类结果。

第五步，根据聚类结果对目标短文本进行分类。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：扫描目标短文本，得到扫描结果；根据扫描结果生成目标短文本的有向无环图，其中，有向无环图为根据目标短文本中的不同的词进行组合的有向图；在有向无环图中查找最大概率路径，其中，最大概率路径为根据目标短文本中不同的词出现的频数进行组合的最优路径；以及将最大概率路径上出现的词作为目标短文本的分词。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：对目标短文本的多个分词执行加权抽取，得到目标短文本的多个关键词。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：分别计算目标短文本的多个分词的TFIDF值；分别计算目标短文本的多个分词的TextRank值；分别根据目标短文本的多个分词的TFIDF值和目标短文本的多个分词的TextRank值计算目标短文本的多个分词的平均权值；以及将预设个数的分词的平均权值对应的分词作为目标短文本的多个关键词，其中，预设个数的分词的平均权值大于预设个数的分词之外的其它分词的平均权值。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：通过外部语料库计算词嵌入向量模型，其中，词嵌入向量模型为用于对目标短文本执行向量化处理的空间向量化模型，其中，根据目标短文本的关键词对目标短文本执行向量化处理包括：通过目标短文本的关键词和词嵌入向量模型对目标短文本执行向量化处理，得到向量化短文本。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：通过外部语料库计算主题权值矩阵，其中，主题权值矩阵为用于对向量化短文本执行聚类计算的矩阵，其中，对向量化短文本执行聚类计算包括：根据向量化短文本和主题权值矩阵获取目标短文本的类目体系，根据聚类结果对目标短文本进行分类包括：根据类目体系对目标短文本进行分类。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：通过Gibbs算法执行采样，得到采样结果；以及根据采样结果建立LDA模型。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：对向量化短文本执行马氏距离软聚类计算，得到类目体系的相似度，其中，根据聚类结果对目标短文本进行分类包括：根据类目体系的相似度对目标短文本进行分类。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：对类目体系执行混合高斯模型处理，得到多维高斯簇，其中，多维高斯簇中的均值和协方差矩阵由LDA模型中对应的词的向量确定；获取目标短文本的样本；分别计算目标短文本的样本与多维高斯簇的马氏距离；以及对马氏距离执行归一化处理，得到类目体系的相似度。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

实施例4

本发明的实施例还提供一种计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，图16是根据本发明实施例的计算机终端的结构框图。如图16所示，该计算机终端A可以包括：一个或多个(图中仅示出一个)处理器161、存储器163、以及传输装置165。

其中，存储器163可用于存储软件程序以及模块，如本发明实施例中的短文本分类的方法和装置对应的程序指令/模块，处理器161通过运行存储在存储器163内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的短文本分类。存储器163可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器163可进一步包括相对于处理器161远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

上述的传输装置165用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置165包括一个网络适配器，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置165为射频模块，其用于通过无线方式与互联网进行通讯。

其中，具体地，存储器163用于存储预设动作条件和预设权限用户的信息、以及应用程序。

处理器161可以通过传输装置调用存储器163存储的信息及应用程序，以执行下述步骤：

可选的，上述处理器161还可以执行如下步骤的程序代码：

第二步，根据目标短文本的分词提取目标短文本的关键词。

第四步，对向量化短文本执行聚类计算，得到聚类结果。

第五步，根据聚类结果对目标短文本进行分类。

可选地，本实施例中的具体示例可以参考上述实施例1和实施例2中所描述的示例，本实施例在此不再赘述。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种短文本分类方法，其特征在于，包括：

对目标短文本执行分词处理，得到所述目标短文本的分词；

根据所述目标短文本的分词提取所述目标短文本的关键词；

根据所述目标短文本的关键词对所述目标短文本执行向量化处理，得到向量化短文本；

对所述向量化短文本执行聚类计算，得到聚类结果；以及

根据所述聚类结果对所述目标短文本进行分类；

其中，在对所述向量化短文本执行聚类计算之前，所述方法还包括：通过外部语料库计算主题权值矩阵，其中，所述主题权值矩阵为用于对所述向量化短文本执行聚类计算的矩阵，

其中，对所述向量化短文本执行聚类计算包括：根据所述向量化短文本和所述主题权值矩阵获取所述目标短文本的类目体系，

根据所述聚类结果对所述目标短文本进行分类包括：根据所述类目体系对所述目标短文本进行分类。

2.根据权利要求1所述的方法，其特征在于，对所述目标短文本执行分词处理包括：

扫描所述目标短文本，得到扫描结果；

根据所述扫描结果生成所述目标短文本的有向无环图，其中，所述有向无环图为根据所述目标短文本中的不同的词进行组合的有向图；

在所述有向无环图中查找最大概率路径，其中，所述最大概率路径为根据所述目标短文本中不同的词出现的频数进行组合的最优路径；以及

将所述最大概率路径上出现的词作为所述目标短文本的分词。

3.根据权利要求2所述的方法，其特征在于，所述目标短文本的分词包括多个，根据所述分词提取所述目标短文本的关键词包括：对所述目标短文本的多个分词执行加权抽取，得到所述目标短文本的多个关键词。

4.根据权利要求3所述的方法，其特征在于，对所述目标短文本的多个分词执行加权抽取包括：

分别计算所述目标短文本的多个分词的TFIDF值；

分别计算所述目标短文本的多个分词的TextRank值；

分别根据所述目标短文本的多个分词的TFIDF值和所述目标短文本的多个分词的TextRank值计算所述目标短文本的多个分词的平均权值；以及

将预设个数的分词的平均权值对应的分词作为所述目标短文本的多个关键词，其中，所述预设个数的分词的平均权值大于所述预设个数的分词之外的其它分词的平均权值。

5.根据权利要求1所述的方法，其特征在于，

在根据所述目标短文本的关键词对所述目标短文本执行向量化处理之前，所述方法还包括：通过外部语料库计算词嵌入向量模型，其中，所述词嵌入向量模型为用于对所述目标短文本执行向量化处理的空间向量化模型，

其中，根据所述目标短文本的关键词对所述目标短文本执行向量化处理包括：通过所述目标短文本的关键词和所述词嵌入向量模型对所述目标短文本执行向量化处理，得到所述向量化短文本。

6.根据权利要求1所述的方法，其特征在于，所述主题权值矩阵通过以下方式来确定：

通过Gibbs算法执行采样，得到采样结果；以及

根据所述采样结果建立LDA模型。

7.根据权利要求1所述的方法，其特征在于，

对所述向量化短文本执行聚类计算包括：对所述向量化短文本执行马氏距离软聚类计算，得到所述类目体系的相似度，

其中，根据所述聚类结果对所述目标短文本进行分类包括：根据所述类目体系的相似度对所述目标短文本进行分类。

8.根据权利要求7所述的方法，其特征在于，对所述向量化短文本执行马氏距离软聚类计算包括：

对所述类目体系执行混合高斯模型处理，得到多维高斯簇，其中，所述多维高斯簇中的均值和协方差矩阵由LDA模型中对应的词的向量确定；

获取所述目标短文本的样本；

分别计算所述目标短文本的样本与所述多维高斯簇的马氏距离；以及

对所述马氏距离执行归一化处理，得到所述类目体系的相似度。

9.一种短文本分类装置，其特征在于，包括：

分词单元，用于对目标短文本执行分词处理，得到所述目标短文本的分词；

提取单元，用于根据所述目标短文本的分词提取所述目标短文本的关键词；

向量单元，用于根据所述目标短文本的关键词对所述目标短文本执行向量化处理，得到向量化短文本；

聚类单元，用于对所述向量化短文本执行聚类计算，得到聚类结果；以及

分类单元，用于根据所述聚类结果对所述目标短文本进行分类；

其中，所述聚类单元，还用于：通过外部语料库计算主题权值矩阵，其中，所述主题权值矩阵为用于对所述向量化短文本执行聚类计算的矩阵，

10.根据权利要求9所述的装置，其特征在于，所述分词单元包括：

扫描模块，用于扫描所述目标短文本，得到扫描结果；

生成模块，用于根据所述扫描结果生成所述目标短文本的有向无环图，其中，所述有向无环图为根据所述目标短文本中的不同的词进行组合的有向图；

查找模块，用于在所述有向无环图中查找最大概率路径，其中，所述最大概率路径为根据所述目标短文本中不同的词出现的频数进行组合的最优路径；以及

确定模块，用于将所述最大概率路径上出现的词作为所述目标短文本的分词。

11.根据权利要求10所述的装置，其特征在于，所述目标短文本的分词包括多个，所述提取单元包括：加权模块，用于对所述目标短文本的多个分词执行加权抽取，得到所述目标短文本的多个关键词。

12.根据权利要求11所述的装置，其特征在于，所述加权模块包括：

第一计算子模块，用于分别计算所述目标短文本的多个分词的TFIDF值；

第二计算子模块，用于分别计算所述目标短文本的多个分词的TextRank值；

第三计算子模块，用于分别根据所述目标短文本的多个分词的TFIDF值和所述目标短文本的多个分词的TextRank值计算所述目标短文本的多个分词的平均权值；以及

确定子模块，用于将预设个数的分词的平均权值对应的分词作为所述目标短文本的多个关键词，其中，所述预设个数的分词的平均权值大于所述预设个数的分词之外的其它分词的平均权值。

13.根据权利要求12所述的装置，其特征在于，所述装置还包括：

嵌入单元，用于在根据所述目标短文本的关键词对所述目标短文本执行向量化处理之前，通过外部语料库计算词嵌入向量模型，其中，所述词嵌入向量模型为用于对所述目标短文本执行向量化处理的空间向量化模型，

其中，所述向量单元包括：向量模块，用于通过所述目标短文本的关键词和所述词嵌入向量模型对所述目标短文本执行向量化处理，得到所述向量化短文本。