CN108563722B

CN108563722B - 文本信息的行业分类方法、系统、计算机设备和存储介质

Info

Publication number: CN108563722B
Application number: CN201810290042.1A
Authority: CN
Inventors: 翁永金; 李百川; 冯珏曦; 李锦胜; 陈第; 蔡锐涛
Original assignee: Youmi Technology Co ltd
Current assignee: Youmi Technology Co ltd
Priority date: 2018-04-03
Filing date: 2018-04-03
Publication date: 2021-04-02
Anticipated expiration: 2038-04-03
Also published as: CN108563722A

Abstract

本申请涉及一种文本信息的行业分类方法、系统、计算机设备和存储介质。所述方法包括：获取待分类文本信息的特征词，根据特征词以及预先建立的行业特征词库，得到待分类文本信息对应的初始行业标签，根据特征词以及预先建立的词向量模型，得到待分类文本信息的特征向量，根据特征向量以及预先设置的分类模型，分别得到待分类文本信息对应于初始行业标签中各行业标签的行业标签概率，根据行业标签概率，从初始行业标签中确定出待分类文本信息对应的行业分类。采用本方法能够使文本信息的行业分类更加准确。

Description

文本信息的行业分类方法、系统、计算机设备和存储介质

技术领域

本申请涉及文本挖掘技术领域，特别是涉及一种文本信息的行业分类方法、系统、计算机设备和存储介质。

背景技术

随着互联网的发展，传统的营销行业也愈发焕发生机，营销渠道逐渐从线下转到线上，广告文案也随之呈现爆炸性的增长。广告文案实质上是属于短文本范畴的文本信息，其文本内容较少，具有特征稀疏、缺少上下文信息、信息量少等缺点，同时广告文案为了吸引用户一般呈现的内容含义均是比较表面的。若能利用文本信息对广告文案进行行业分类，不同行业企业便可有的放矢地参考同行文案创意来提升自身广告效果。

针对短文本分类，目前常见的文本分类方法有以下方法：

(1)人工经验标注方法：人工依靠经验对广告文案进行分类；

(2)基于模型的自动分类方法，一般是先对文本进行特征处理再通过相应的算法，如基于朴素贝叶斯(Bayes)、支持向量机(SVM，Support Vector Machine)、人工神经网络(ANN，artificial neural network)、k最邻近(kNN，k-Nearest Neighbor) 等进行判别。

对于人工分类，虽能保证准确率但拓展性差，很难达到实用的标准。对于模型虽能自动化实现分类，但如SVM、ANN等算法一般均为黑箱，人为没办法从特征角度理解其机理，同时对于不同模型在不同业务背景下效果区别较大。从而导致文本信息进行行业分类时准确性较低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够解决文本信息进行行业分类时准确性较低的文本信息的行业分类方法、系统、计算机设备和存储介质。

一种文本信息的行业分类方法，所述方法包括：

获取待分类文本信息的特征词，根据所述特征词以及预先建立的行业特征词库，得到所述待分类文本信息对应的初始行业标签；

根据所述特征词以及预先建立的词向量模型，得到所述待分类文本信息的特征向量；

根据所述特征向量以及预先设置的分类模型，分别得到所述待分类文本信息对应于所述初始行业标签中各行业标签的行业标签概率；

根据所述行业标签概率，从初始行业标签中确定出所述待分类文本信息对应的行业分类。

上述文本信息的行业分类方法，通过获取待分类文本信息的特征词，根据预设的行业特征词库，筛选出初始行业标签，然后以初始行业标签中每个行业标签为待分类文本信息的行业分类，通过词向量模型计算出每个待分类文本信息的特征向量，然后根据预先设置的分类模型，计算出初始行业标签中各行业标签的行业标签概率，从初始行业标签中确定出待分类文本信息对应的行业分类。本发明实施例中，通过初步筛选出可能的行业标签，然后通过分类模型确定出行业标签，使文本信息的行业分类更加准确。

在其中一个实施例中，还包括：获取已知行业标签的已知文本信息；对同一行业标签对应的所有的已知文本信息进行分词处理，得到同一行业标签对应的候选特征词汇集合；将所述候选特征词汇集合中每个词汇作为TextRank模型中的一个节点，得到每个词汇的TextRank值；根据词汇的TextRank值，建立行业特征词库。

在其中一个实施例中，还包括：验证所述待分类文本信息是否与其行业分类对应；若否，则根据所述待分类文本信息的实际行业分类，更新所述行业特征词库。

在其中一个实施例中，所述分类模型包括：根据所述文本库中已知行业分类的已知文本信息训练得到的逻辑回归模型，还包括：将所述特征向量输入所述逻辑回归模型中，分别得到所述待分类文本信息对应于所述初始行业标签中每个行业标签的行业标签概率。

在其中一个实施例中，还包括：若所述初始行业标签中行业标签唯一，则确定唯一的所述行业标签为所述待分类文本信息对应的行业分类。

在其中一个实施例中，还包括：将所述待分类文本信息及其对应的行业分类存入预先设置的文本库。

在其中一个实施例中，还包括：确定所述行业标签概率最大的行业标签，由此得到所述待分类文本信息的行业分类。

在其中一个实施例中，还包括：根据预先建立的行业特征词汇库，对所述特征词与行业特征词汇库进行全匹配和/或正则匹配；得到行业特征词汇库中各行业标签与所述待分类文本信息的特征词的匹配频次；取匹配频次最高的多个行业标签作为所述待分类文本信息的初始行业标签。

在其中一个实施例中，还包括：根据预设语料库训练预设维度的词向量模型，将所述待分类文本信息的特征词依次输入所述词向量模型，得到每个所述特征词对应的词向量；根据每个所述特征词对应的词向量，得到所述待分类文本信息的特征向量。

一种文本信息的行业分类系统，所述系统包括：

初始标签获取模块，用于获取待分类文本信息的特征词，根据所述特征词以及预先建立的行业特征词库，得到所述待分类文本信息对应的初始行业标签；

特征向量获取模块，用于根据所述特征词以及预先建立的词向量模型，得到所述待分类文本信息的特征向量；

概率获取模块，用于根据所述特征向量以及预先设置的分类模型，分别得到所述待分类文本信息对应于所述初始行业标签中各行业标签的行业标签概率。

分类模块，用于根据所述行业标签概率，从初始行业标签中确定出所述待分类文本信息对应的行业分类。

上述文本信息的行业分类系统，通过初始标签获取模块获取待分类文本信息的特征词，根据预设的行业特征词库，筛选出初始行业标签，然后特征向量获取模块以初始行业标签中每个行业标签为待分类文本信息的行业分类，通过词向量模型计算出每个待分类文本信息的特征向量，然后概率获取模块根据预先设置的分类模型，计算出初始行业标签中各行业标签的行业标签概率，分类模块从初始行业标签中确定出所述待分类文本信息对应的行业分类。本发明实施例中，通过初步筛选出可能的行业标签，然后通过分类模型确定出行业标签，使文本信息的行业分类更加准确。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取文本信息的特征词，根据所述特征词以及预先建立的行业特征词库，得到文本信息对应的初始行业标签；

根据所述特征词以及预先建立的词向量模型，得到所述待分类文本信息对应于初始行业标签中各行业标签的特征向量；

上述计算机设备，处理器执行所述计算机程序时使文本信息的行业分类更加准确。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述计算机可读存储介质，计算机程序被处理器执行时使文本信息的行业分类更加准确。

附图说明

图1为一个实施例中文本信息的行业分类方法的应用环境图；

图2为一个实施例中文本信息的行业分类方法的流程示意图；

图3为一实施例中利用初始行业标签进行文本信息的行业分类方法的流程示意图；

图4为另一个实施例中分词处理的流程示意图；

图5为另一实施例中文本信息的行业分类方法的流程示意图；

图6为一具体实施例中文本信息的行业分类方法的流程示意图；

图7为一个实施例中文本信息的行业分类系统的结构框图；

图8为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的文本信息的行业分类方法，可以应用于如图1所示的应用环境中。在图1中，服务器102通过网络与各个终端104-1、104-2以及104-3进行通信。服务器102将采集的文本信息进行行业分类，并将文本信息所对应的广告文案投放至对应行业中，终端104-1、终端104-2、终端104-3可以表示三个浏览不同行业广告文案的终端，那么利用服务器102分类好的广告文案，将分别显示在终端104-1、终端104-2以及终端104-3，值得说明的是，这里选择三个终端只是起说明作用，对本发明实施例不做限制。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现，文本信息不限于广告文案，也可以是其他短文本数据。

提供了一种文本信息的行业分类方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤201，获取待分类文本信息的特征词，根据所述特征词以及预先建立的行业特征词库，得到所述待分类文本信息对应的初始行业标签。

其中，步骤201中的特征词是出现在文本信息中的词汇，一般来说，特征词能大概的体现文本信息的内容；行业特征词库是一个数据库，该数据库中存储有多个行业的行业特征词，行业特征词是指某一行业常用或者出现频率高的词汇，这些词汇组成一个行业的行业特征词，可以通过将获取的多个行业特征词组成行业特征词库。

另外，文本信息的特征词可以是一个，也可以是多个，初始行业标签中可以包括一个行业标签，也可以包括多个行业标签。

值得说明的是，行业标签属于本发明实施例中进行行业识别的一种处理方式，通过识别到某一标签，就可以得到该标签对应的行业。

步骤202，根据所述特征词以及预先建立的词向量模型，得到所述待分类文本信息的特征向量。

其中，步骤202中的词向量模型用于得到词向量，具体的，对于预先训练的词向量模型，输入一个词时，对应输出一个词向量。而特征向量可以表示该待分类文本信息与词向量模型的相关程度。

步骤203，根据所述特征向量以及预先设置的分类模型，分别得到所述待分类文本信息对应于所述初始行业标签中各行业标签的行业标签概率。

其中，步骤203中的分类模型可以是根据分类算法训练而成，用以实现对初始行业标签中行业标签的概率预测，行业标签概率可以通过向量的形式表示各个行业标签的概率。

值得说明的是，分类算法有多种选择，例如：逻辑回归算法、贝叶斯算法等，在本实施例中，在不同的使用场景下，技术效果可能不一样，因此，不限于在本实施例中分类算法的选择。

具体的，本实施例通过分类模型进行待分类文本信息的分类，可以从分类机理的角度解释分类原理，从而可以根据算法的设置提高文本信息分类的准确性。

步骤204，根据所述行业标签概率，从初始行业标签中确定出所述待分类文本信息对应的行业分类。

上述文本信息的行业分类，通过获取待分类文本信息的特征词，根据预设的行业特征词库，筛选出初始行业标签，然后以初始行业标签中每个行业标签为文本信息的行业分类，通过词向量模型计算出每个待分类文本信息的特征向量，然后根据预先设置的分类模型，计算出初始行业标签中各行业标签的行业标签概率，从初始行业标签中确定出所述待分类文本信息对应的行业分类。本发明实施例中，通过初步筛选出可能的行业标签，然后确定出行业标签，使文本信息的行业分类更加准确。

在一实施例中，如图3所示，提供一种利用初始行业标签进行文本信息的行业分类方法，该方法的步骤如下：

步骤301，获取待分类文本信息的特征词，根据所述特征词以及预先建立的行业特征词库，得到所述待分类文本信息对应的初始行业标签。

步骤302，判断所述初始行业标签中的行业标签是否唯一。

步骤303，若是，则将唯一的所述行业标签作为所述待分类文本信息的行业分类。

步骤304，若否，则进行进一步分类。

对于301的步骤，在一实施例中，可以通过对文本信息先进行分词处理，剔除分词处理结果中的异常词汇，得到文本信息的特征词，异常词汇可以包括：单字、停用词、地名中的一个以上。

本实施例中，特征词可以涵盖文本信息的主要内容，然而单字、停用词、地名均是各行业或者各场景的通用词，因此，需要将单字、停用词、地名等删除，以此得到准确的待分类文本信息的特征词。

对于301的步骤，在一实施例中，还可以根据预先建立的行业特征词汇库，对所述特征词与行业特征词汇库进行全匹配和/或正则匹配；得到行业特征词汇库中各行业标签与所述待分类文本信息的特征词的匹配频次；取匹配频次高的多个行业标签作为所述待分类文本信息的初始行业标签。

本实施例中，如图4所示，以“专注深耕精细化移动营销服务”的文本信息1 为例，进行说明，进行分词处理后，文本信息1的特征词为“专注；深耕；精细；移动；营销；服务”，在进行全匹配时，分别取文本信息1的每个特征词，在行业特征词库中匹配，得到匹配到的行业标签，并记录每个行业标签的匹配频次，在进行正则匹配时，将文本信息1中的特征词做如下处理，例如“专注”处理为“* 专注”、“专注*”和/或“*专注*”，其中“*”表示待定词/字，然后在行业特征词库中进行匹配，得到匹配到的行业标签，并记录每个行业标签的匹配频次以及匹配到的特征词，值得说明的是，在不同的场景下，可以使用全匹配或者正则匹配，也可以采用全匹配和正则匹配结合的方式，使本实施例的匹配速度、匹配准确度满足要求。根据上述得到的匹配结果，通过匹配频次，可以确定与文本信息接近的行业标签，具体是通过匹配频次的高低，在本实施例中，选择频次高的多个行业标签作为文本信息的初始行业标签。

对于本实施例中的行业特征词库，在另一实施例中，可以获取已知行业标签的已知文本信息；对同一行业标签对应的所有的已知文本信息进行分词处理，得到同一行业标签对应的候选特征词汇集合；将所述候选特征词汇集合中每个词汇作为TextRank模型中的一个节点，得到每个词汇的TextRank值；根据词汇的TextRank值，建立行业特征词库。

本实施例中，已知行业标签的已知文本信息和待分类文本信息的文本属性一致，只是在进行待分类文本信息的行业分类时，服务器已可以通过其行业标签识别已知文本信息的行业分类。

在一实施例中，可以从预先设置的文本库中获取已知行业标签的已知文本信息，文本库中预先存储了多条已知文本信息，并且在后续过程中，可以持续增加文本库中已知文本信息的数目。

值得说明的是，在一实施例中，可以将初始行业标签的分类结果存入文本库中，分类结果包括待分类文本信息的文本部分以及行业分类部分。

可选的，在TextRank模型中，设置窗口的长度为k，对如下文本信息样本 {w₁,w₂,w₃,w₄,w₅,...,w_n}进行处理，其中w_n表示文本信息样本中的特征词，该文本信息的窗口为{w₁,w₂,..,w_k}、{w₂,w₃,..,w_k+1}、{w₃,w₄,..,w_k+2}、…、{w_n-k,w_n-(k-1),..,w_n}。在一窗口中任意两个节点之间存在两个特征词共现的次数作为权重的边，所有特征词与其共现关系构成带权重的无向图，然后利用如下公式计算不同行业中每个特征词的重要性：

其中，WS(V_i)表示第i个特征词V_i的重要值，d表示阻尼系数，In(V_i)表示与第i个特征词V_i共现的词汇集合，Out(V_j)表示与第j个特征词V_j共现的词汇集合， w_ij表示第i个特征词V_i与第j个特征词V_j的共现权重。

将上述重要值作为每个特征词的TextRank值。

可选的，阻尼系数d可以取0.85。但是不限于0.85，也可以根据使用场景，选择0.8或者0.9等值。

可选的，可以通过以下方式根据词汇的TextRank值，建立行业特征词库：对于每个行业，选择TextRank值靠前的词汇，作为该行业的特征词，并以此建立行业特征词库。

在一实施例，建立行业特征词库之后，由于行业特征词库中行业标签与其对应的特征词匹配度越高，那么进行初始行业标签进行文本信息的行业分类时的结果越准确，因此，还需要对行业特征词库进行更新，具体过程如下：将通过初始行业标签进行文本信息的行业分类结果存入分类库中对应部分，然后对分类库中初始行业标签分类结果进行随机抽检，通过获取分类结果的实际行业分类，然后计算此次随机抽检中分类结果的准确率，设定预设准确率，在准确率小于预设准确率时，将该已知文本信息的特征词存入对应的实际行业分类的行业中，实现行业特征词库的更新。

在一实施例中，如果上述对行业特征词库的更新总是不能达到精度的要求，可以通过人为选择特征词的方式，以此更新行业特征词库。

可选的，可以通过人工标定的方式获取分类结果的实际行业分类。

可选的，预设准确率可以选择95％，可以选择其他的值作为预设准确率。

在一实施例中，如图5所示，还提供另一种文本信息行业分类的方法，该方法具体如下：

步骤501，获取待分类文本信息的初始行业标签。

步骤502，根据初始行业标签以及预设的分类模型，得到待分类文本信息的行业标签概率。

步骤503，判断利用所述行业标签概率进行文本信息行业分类的准确率。

步骤504，若准确率达预设准确率值，则将行业标签概率进行文本信息行业分类的分类结果作为待分类文本信息的行业分类。

在一实施例中，对于502的步骤，可以根据预设语料库训练预设维度的词向量模型，将所述待分类文本信息的特征词依次输入所述词向量模型，得到每个所述特征词对应的词向量；根据每个所述特征词对应的词向量，得到所述待分类文本信息的特征向量。

可选的，可以基于百度百科语料库训练K维(K取50-300)的词向量模型 Vec(word_i)＝(v₁,v₂,K,v_K)，将初始行业标签对应的行业标签匹配到的特征词依次输

入词向量模型中，从而得到文本信息作为每个行业标签时的特征向量：

其中，V表示特征向量，n表示特征词的数目。

在一实施例中，可以通过计算待分类文本信息中每个特征词对应词向量的平均值，将该平均值作为待分类文本信息对应的特征向量。

对于502的步骤，在另一实施例中，可以通过文本库中已知行业分类的已知文本信息训练得到分类模型，该分类模型可以选用逻辑回归模型。

具体的，该逻辑回归模型为多分类模型，通过多分类模型可以实现通过特征向量对待分类文本信息进行分类。

值得说明的是，多分类模型不限于逻辑回归模型，也可以选择其他的例如贝叶斯模型等，均可以得到本发明实施例的结果。

对于步骤502中的多分类模型，在一实施例中，可以从文本库中选择若干已知行业分类的已知文本信息作为分类模型训练的样本，如若分类模型选择逻辑回归模型，则将已知行业分类的已知文本信息的特征向量作为逻辑回归模型的输入，已知行业分类的已知文本信息的行业分类作为逻辑回归模型的输出，以此训练逻辑回归模型。

值得说明的是，在一实施例中，可以将行业标签概率的分类结果存入文本库中，分类结果包括待分类文本信息的文本部分以及行业分类部分。

对于503的步骤，在一实施例中，可以将通过行业标签概率进行文本信息的行业分类结果存入分类库中对应部分，然后对分类库中行业标签概率分类结果进行随机抽检，通过获取分类结果的实际行业分类，然后计算此次随机抽检中分类结果的准确率。

以下结合一具体实施例，进行详细的说明。

如图6所示，提供一具体文本信息的行业分类方法，步骤如下：

步骤601，对待分类文本信息进行分词处理，剔除其中的异常词汇，得到待分类文本信息的特征词。

步骤602，将特征词在预设的行业特征词库中进行全匹配和/或正则匹配，得到待分类文本信息可能的行业标签，然后根据匹配频次，得到文本信息的初始行业标签。

步骤603，判断初始行业标签中行业标签是否唯一，若行业标签唯一，则将该行业标签作为待分类文本信息的行业分类，若行业标签不唯一，则进行进一步的判断。

步骤604，将待分类文本信息的初始行业标签中每个行业标签均作为待分类文本信息的行业分类，然后通过逻辑回归模型得到对应于每个行业标签的行业标签概率。

步骤605，确定所述行业标签概率最大的行业标签，由此确定所述待分类文本信息的行业分类。

上述实施例中，待分类文本信息可以是一条文本信息，也可以是多条文本信息，因此，本发明实施例可以处理单个文本信息，实现单个文本信息的行业分类，那么行业特征词库可以是根据历史记录预先建立好的，文本库也可以是通过历史记录建立的，本发明实施例也可以在某一时刻同时处理大批量数据，同一批数据中有大部分可以通过初始行业标签分类直接得到文本信息的所属分类，可以通过这些数据，建立行业特征词库和文本库，也可以通过这些数据更新行业特征词库，对于另一部分无法通过初始行业标签分类的数据，可以通过初始行业标签分类结果训练逻辑回归模型，从而通过逻辑回归模型得到行业标签概率。

因此，本发明实施例，可以适用于单个文本数据，在处理大批量数据时，无需额外的数据，即可以完成行业的分类。

应该理解的是，虽然图2、3、5、6的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2、3、5、6中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图7所示，提供了一种文本信息的行业分类系统，包括：初始标签获取模块701、特征向量获取模块702、概率获取模块703和分类模块704，其中：

初始标签获取模块701，用于获取待分类文本信息的特征词，根据所述特征词以及预先建立的行业特征词库，得到所述待分类文本信息对应的初始行业标签；

特征向量获取模块702，用于根据所述特征词以及预先建立的词向量模型，得到所述待分类文本信息的特征向量；

概率获取模块703，用于根据所述特征向量以及预先设置的分类模型，分别得到所述待分类文本信息对应于所述初始行业标签中各行业标签的行业标签概率；

分类模块704 ，用于根据所述行业标签概率，从初始行业标签中确定出所述待分类文本信息对应的行业分类。

上述文本信息的行业分类系统，通过初始标签获取模块获取待分类文本信息的特征词，根据预设的行业特征词库，筛选出初始行业标签，然后特征向量获取模块以初始行业标签中每个行业标签为待分类文本信息的行业分类，通过词向量模型计算出每个待分类文本信息的特征向量，然后概率获取模块根据预先设置的分类模型，计算出初始行业标签中各行业标签的行业标签概率，分类模块从初始行业标签中确定出待分类文本信息对应的行业分类。本发明实施例中，通过初步筛选出可能的行业标签，然后通过分类模型确定出行业标签，使文本信息的行业分类更加准确。

在一实施例中，还包括：行业特征词库建立模块，行业特征词库建立模块用于从预先设置的文本库中获取已知行业标签的已知文本信息；对同一行业标签对应的所有的已知文本信息进行分词处理，得到同一行业标签对应的候选特征词汇集合；将所述候选特征词汇集合中每个词汇作为TextRank模型中的一个节点，得到每个词汇的TextRank值；根据词汇的TextRank值，建立行业特征词库。

在一实施例中，还包括：行业特征词库更新模块，行业特征词库更新模块用于获取行业分类后的待分类文本信息，验证所述待分类文本信息是否与其行业分类对应；若否，则获取所述待分类文本信息的实际行业分类，根据所述待分类文本信息以及所述实际行业分类，更新所述行业特征词库。

在一实施例中，所述分类模型包括：根据已知行业分类的已知文本信息训练得到的逻辑回归模型；概率获取模块703还用于将所述特征向量输入所述逻辑回归模型中，分别得到所述待分类文本信息对应于所述初始行业标签中每个行业标签的行业标签概率。

在一实施例中，特征向量获取模块702还用于根据预设语料库训练预设维度的词向量模型，将所述待分类文本信息的特征词依次输入所述词向量模型，得到每个所述特征词对应的词向量；根据每个所述特征词对应的词向量，得到所述待分类文本信息的特征向量。

在一实施例中，还包括初始行业标签分类模块，初始行业标签分类模块用于若所述初始行业标签中行业标签唯一，则确定唯一的所述行业标签为所述待分类文本信息对应的行业分类。

在一实施例中，还包括存储模块，存储模块用于将所述待分类文本信息及其对应的行业分类存入所述文本库，其中，所述文本库用于存储所述已知文本信息。

在一实施例中，分类模块704还用于确定所述行业标签概率最大的行业标签，由此确定所述待分类文本信息的行业分类。

在一实施例中，初始标签获取模块701还用于根据预先建立的行业特征词汇库，对所述特征词进行全匹配和/或正则匹配；得到行业特征词汇库中各行业标签与所述待分类文本信息的特征词的匹配频次；取匹配频次高的多个行业标签作为所述待分类文本信息的初始行业标签。

在一实施例中，初始标签获取模块701还用于对所述待分类文本信息进行分词处理，剔除所述分词处理结果中的异常词汇，得到所述待分类文本信息的特征词；所述异常词汇包括单字、停用词、地名中的至少一个。

关于文本信息的行业分类系统的具体限定可以参见上文中对于文本信息的行业分类方法的限定，在此不再赘述。上述文本信息的行业分类系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储文本信息数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本信息的行业分类方法。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

从预先设置的文本库中获取已知行业标签的已知文本信息；对同一行业标签对应的所有的已知文本信息进行分词处理，得到同一行业标签对应的候选特征词汇集合；将所述候选特征词汇集合中每个词汇作为TextRank模型中的一个节点，得到每个词汇的TextRank值；根据词汇的TextRank值，建立行业特征词库。

获取行业分类后的文本信息，验证所述待分类文本信息是否与其行业分类对应；若否，则获取所述待分类文本信息的实际行业分类，根据所述待分类文本信息以及所述实际行业分类，更新所述行业特征词库。

在一个实施例中，所述分类模型包括：根据已知行业分类的已知文本信息训练得到的逻辑回归模型，处理器执行计算机程序时还实现以下步骤：将所述特征向量输入所述逻辑回归模型中，分别得到所述待分类文本信息对应于所述初始行业标签中每个行业标签的行业标签概率。

根据预设语料库训练预设维度的词向量模型，将所述特征词输入所述词向量模型，得到所述特征词对应的词向量；获取初始行业标签中各行业标签的特征词对应的词向量，取各行业标签的词向量的均值，将所述均值作为所述待分类文本信息对应于初始行业标签中各行业标签的特征向量。

若所述初始行业标签中行业标签唯一，则确定唯一的所述行业标签为所述待分类文本信息对应的行业分类。

将所述待分类文本信息及其对应的行业分类存入所述文本库，其中，所述文本库用于存储所述已知文本信息。

确定所述行业标签概率最大的行业标签，由此确定所述待分类文本信息的行业分类。

根据预先建立的行业特征词汇库，对所述特征词进行全匹配和/或正则匹配；得到行业特征词汇库中各行业标签与所述待分类文本信息的特征词的匹配频次；取匹配频次高的多个行业标签作为所述待分类文本信息的初始行业标签。

对所述待分类文本信息进行分词处理，剔除所述分词处理结果中的异常词汇，得到所述待分类文本信息的特征词；所述异常词汇包括单字、停用词、地名中的至少一个。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

在一个实施例中，所述分类模型包括：根据已知行业分类的已知文本信息训练得到的逻辑回归模型，计算机程序被处理器执行时还实现以下步骤：将所述特征向量输入所述逻辑回归模型中，分别得到所述待分类文本信息对应于所述初始行业标签中每个行业标签的行业标签概率。

根据预设语料库训练预设维度的词向量模型，将所述待分类文本信息的特征词依次输入所述词向量模型，得到每个所述特征词对应的词向量；根据每个所述特征词对应的词向量，得到所述待分类文本信息的特征向量。

将所述待分类文本信息及其对应的行业分类存入所述文本库。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程 ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限， RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步 DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM (ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus) 直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种文本信息的行业分类方法，其特征在于，所述方法包括：

获取待分类文本信息的特征词，根据所述特征词以及预先建立的行业特征词库，得到所述待分类文本信息对应的初始行业标签，所述行业特征词库中包括各行业标签对应的特征词；

根据所述行业标签概率，从初始行业标签中确定出所述待分类文本信息对应的行业分类；

所述根据所述特征词以及预先建立的行业特征词库，得到文本信息对应的初始行业标签的步骤，包括：

根据预先建立的行业特征词汇库，对所述特征词与所述行业特征词汇库进行全匹配和/或正则匹配，得到所述行业特征词汇库中各行业标签与所述待分类文本信息的特征词的匹配频次；

根据各所述匹配频次，确定所述待分类文本信息的初始行业标签。

2.根据权利要求1所述的文本信息的行业分类方法，其特征在于，还包括：

获取已知行业标签的已知文本信息；

对同一行业标签对应的已知文本信息进行分词处理，得到同一行业标签对应的候选特征词汇集合；

将所述候选特征词汇集合中每个词汇作为TextRank模型中的一个节点，得到每个词汇的TextRank值；

根据词汇的TextRank值，建立行业特征词库。

3.根据权利要求2所述的文本信息的行业分类方法，其特征在于，在从初始行业标签中确定出所述待分类文本信息对应的行业分类之后，还包括：

验证所述待分类文本信息是否与其行业分类对应；

若否，则根据所述待分类文本信息及其对应的实际行业分类，更新所述行业特征词库。

4.根据权利要求2或3所述的文本信息的行业分类方法，其特征在于，所述分类模型包括：根据已知行业分类的已知文本信息训练得到的逻辑回归模型；

所述根据所述特征向量以及预先设置的分类模型，分别得到所述待分类文本信息对应于所述初始行业标签中每个行业标签的行业标签概率的步骤，包括：

将所述特征向量输入所述逻辑回归模型中，分别得到所述待分类文本信息对应于所述初始行业标签中每个行业标签的行业标签概率。

5.根据权利要求2或3所述的文本信息的行业分类方法，其特征在于，还包括：

6.根据权利要求5所述的文本信息的行业分类方法，其特征在于，从初始行业标签中确定出所述待分类文本信息对应的行业分类之后，还包括：

将所述待分类文本信息及其对应的行业分类存入预先设置的文本库，其中，所述文本库用于存储所述已知文本信息。

7.根据权利要求1至3任一项所述的文本信息的行业分类方法，其特征在于，所述根据所述行业标签概率，从初始行业标签中确定出所述待分类文本信息对应的行业分类的步骤，包括：

确定所述行业标签概率最大的行业标签，由此得到所述待分类文本信息的行业分类。

8.根据权利要求1至3任一项所述的文本信息的行业分类方法，其特征在于，所述根据各所述匹配频次，确定所述待分类文本信息的初始行业标签的步骤，包括：

取匹配频次最高的多个行业标签作为所述待分类文本信息的初始行业标签。

9.根据权利要求8所述的文本信息的行业分类方法，其特征在于，根据所述特征词以及预先建立的词向量模型，得到所述待分类文本信息的特征向量的步骤，包括：

根据预设语料库训练预设维度的词向量模型，将所述待分类文本信息的特征词依次输入所述词向量模型，得到每个所述特征词对应的词向量；

根据每个所述特征词对应的词向量，得到所述待分类文本信息的特征向量。

10.一种文本信息的行业分类系统，其特征在于，所述系统包括：

初始标签获取模块，用于获取待分类文本信息的特征词，根据所述特征词以及预先建立的行业特征词库，得到所述待分类文本信息对应的初始行业标签，所述行业特征词库中包括各行业标签对应的特征词；

概率获取模块，用于所述特征向量以及根据预先设置的分类模型，分别得到所述待分类文本信息对应于所述初始行业标签中各行业标签的行业标签概率；

分类模块，用于根据所述行业标签概率，从初始行业标签中确定出所述待分类文本信息对应的行业分类；

所述初始标签获取模块，还用于根据预先建立的行业特征词汇库，对所述特征词与所述行业特征词汇库进行全匹配和/或正则匹配，得到所述行业特征词汇库中各行业标签与所述待分类文本信息的特征词的匹配频次；根据各所述匹配频次，确定所述待分类文本信息的初始行业标签。

11.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述待分类文本信息的行业分类方法的步骤。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的文本信息的行业分类方法的步骤。