CN108520041B

CN108520041B - 文本的行业分类方法、系统、计算机设备和存储介质

Info

Publication number: CN108520041B
Application number: CN201810290877.7A
Authority: CN
Inventors: 翁永金; 李百川; 冯珏曦; 李锦胜; 陈第; 蔡锐涛
Original assignee: Youmi Technology Co ltd
Current assignee: Youmi Technology Co ltd
Priority date: 2018-04-03
Filing date: 2018-04-03
Publication date: 2021-01-05
Anticipated expiration: 2038-04-03
Also published as: CN108520041A

Abstract

本申请涉及一种文本的行业分类方法、系统、计算机设备和存储介质。所述方法包括：获取待分类文本信息的特征词，根据特征词以及预先建立的行业特征词库，得到待分类文本信息对应的初始行业标签，根据已知行业分类的已知文本信息、待分类文本信息及其对应的初始行业标签，建立迭代模型，根据迭代模型，得到待分类文本信息对应于初始行业标签中各个行业标签的行业标签概率，根据行业标签概率，从初始行业标签中确定出待分类文本信息对应的行业分类。通过迭代对待分类文本信息进行分类，显著提升文本信息的分类效率。

Description

文本的行业分类方法、系统、计算机设备和存储介质

技术领域

本申请涉及文本挖掘技术领域，特别是涉及一种文本的行业分类方法、系统、计算机设备和存储介质。

背景技术

随着互联网的发展，传统的营销行业也愈发焕发生机，营销渠道逐渐从线下转到线上，广告文案也随之呈现爆炸性的增长。广告文案实质上是属于短文本范畴的文本，其文本内容较少，具有特征稀疏、缺少上下文信息、信息量少等缺点，同时广告文案为了吸引用户一般呈现的内容含义均是比较表面的。若能利用文本对广告文案进行行业分类，不同行业企业便可有的放矢地参考同行文案创意来提升自身广告效果。然而现有技术中，然而现有技术中，通常采用人工分类的方式与模型自动分类方法，其中，人工分类虽然能够保证分类的准确性，但是由于效率低下，缺乏实用性，而模型自动分类较难满足词汇级颗粒度的可解释性。

发明内容

基于此，有必要针对上述技术问题，提供一种能够解决文本信息进行行业分类时效率低的文本的行业分类方法、系统、计算机设备和存储介质。

一种文本的行业分类方法，所述方法包括：

获取待分类文本信息的特征词，根据所述特征词以及预先建立的行业特征词库，得到所述待分类文本信息对应的初始行业标签；

根据已知行业分类的已知文本信息、所述待分类文本信息及其对应的初始行业标签，建立迭代模型；根据所述迭代模型，得到所述待分类文本信息对应于所述初始行业标签中各个行业标签的行业标签概率；

根据所述行业标签概率，从初始行业标签中确定出所述待分类文本信息对应的行业分类。

上述文本的行业分类方法，通过获取文本信息的特征词，根据预设的行业特征词库，筛选出初始行业标签，然后将待分类文本信息作为未知文本，获取的已知行业分类的已知文本信息作为已知文本，建立迭代模型，然后根据迭代模型得到对应于所述初始行业标签中各个行业标签的行业标签概率，从而确定文本信息的行业分类，本发明实施例，通过已知的文本库，进行迭代对文本信息进行分类，显著提升文本信息的分类效率。

在其中一个实施例中，还包括：根据所述已知文本信息和所述待分类文本信息得到文本集合；根据所述已知文本信息的特征词和所述待分类文本信息的特征词，得到特征词汇集合；建立所述文本集合中的文本信息与所述特征词汇集合中的特征词的正映射关系和反映射关系；根据所述正映射关系和所述反映射关系，分别得到所述特征词汇集合中的特征词的正向行业概率公式以及所述文本集合中的文本的反向行业概率公式；根据所述正向行业概率公式和所述反向行业概率公式，建立迭代模型。

在其中一个实施例中，还包括：获取各已知文本信息的初始状态向量以及所述待分类文本信息的初始状态向量；其中，所述初始状态向量是已知文本信息和文本信息初始状态下各行业标签的概率向量；将所述初始状态向量作为迭代模型的初始状态；获取预先设置的所述迭代模型的迭代次数以及迭代误差阈值；在迭代误差小于所述迭代误差阈值，或迭代到所述迭代次数时，将所述迭代模型输出的文本信息对应的各行业标签的概率向量作为行业标签概率。

在其中一个实施例中，还包括：将所述迭代模型输出的特征词对应的各行业标签的概率对应保存；在获取待分类文本信息的特征词之后，还包括：判断所述特征词是否存在已保存的各行业标签的概率，若是，则根据所述各行业标签的概率，得到所述待分类文本信息对应的行业分类。

在其中一个实施例中，还包括：根据所述文本集合中文本信息的数目以及所述文本集合中文本信息对应的所述行业标签的数目，进行加权处理得到每个所述行业标签的权重；根据所述行业标签的权重，更新所述初始状态向量。

在其中一个实施例中，还包括：根据所述行业标签的权重的最大值以及所述行业标签的权重的最小值，对各个所述行业标签的权重进行归一化处理。

在其中一个实施例中，还包括：根据预先建立的行业特征词汇库，对所述特征词与行业特征词汇库进行全匹配和/或正则匹配；得到行业特征词汇库中各行业标签与所述待分类文本信息的特征词的匹配频次；取匹配频次最高的多个行业标签作为所述待分类文本信息的初始行业标签。

在其中一个实施例中，还包括：获取所述已知行业标签的已知文本信息；对同一行业标签对应的所有的已知文本信息进行分词处理，得到同一行业标签对应的候选特征词汇集合；将所述候选特征词汇集合中每个词汇作为TextRank模型中的一个节点，得到每个词汇的TextRank值；根据词汇的TextRank值，建立行业特征词库。

在其中一个实施例中，还包括：若所述初始行业标签中行业标签唯一，则确定唯一的所述行业标签为所述待分类文本信息对应的行业分类。

在其中一个实施例中，还包括：将所述待分类文本信息及其对应的行业分类的结果存入预先设置的文本库；其中，所述文本库用于存储所述已知文本信息。

一种文本的行业分类系统，所述系统包括：

初始标签获取模块，用于获取待分类文本信息的特征词，根据所述特征词以及预先建立的行业特征词库，得到所述待分类文本信息对应的初始行业标签；

模型建立模块，用于根据已知行业分类的已知文本信息、所述待分类文本信息及其对应的初始行业标签，建立迭代模型；根据所述迭代模型，得到所述待分类文本信息对应于所述初始行业标签中各个行业标签的行业标签概率；

分类模块，用于根据所述行业标签概率，从初始行业标签中确定出所述待分类文本信息对应的行业分类。

上述文本的行业分类系统，通过初始标签获取模块获取待分类文本信息的特征词，根据预设的行业特征词库，筛选出初始行业标签，然后模型建立模块将待分类文本信息作为未知文本，获取的已知行业分类的已知文本信息作为已知文本，建立迭代模型，然后根据迭代模型得到对应于所述初始行业标签中各个行业标签的行业标签概率，从而分类模块确定文本信息的行业分类，本发明实施例，通过已知行业分类的文本库，进行迭代对文本信息进行分类，显著提升文本信息的分类效率。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

上述计算机设备，处理器执行所述计算机程序时，显著提升文本信息的分类效率。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述计算机可读存储介质，计算机程序被处理器执行时，显著提升文本信息的分类效率。

附图说明

图1为一个实施例中文本的行业分类方法的应用环境图；

图2为一个实施例中文本的行业分类方法的流程示意图；

图3为一实施例中利用初始行业标签进行文本的行业分类方法的流程示意图；

图4为另一个实施例中分词处理的流程示意图；

图5为另一实施例中文本的行业分类方法的流程示意图；

图6为一具体实施例中文本的行业分类方法的流程示意图；

图7为一个实施例中文本的行业分类系统的结构框图；

图8为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的文本的行业分类方法，可以应用于如图1所示的应用环境中。在图1中，服务器102通过网络与各个终端104-1、104-2以及104-3进行通信。服务器102将采集的文本信息进行行业分类，并将文本信息所对应的广告文案投放至对应行业中，终端104-1、终端104-2、终端104-3可以表示三个浏览不同行业广告文案的终端，那么利用服务器102分类好的广告文案，将分别显示在终端104-1、终端104-2以及终端104-3，值得说明的是，这里选择三个终端只是起说明作用，对本发明实施例不做限制。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现，文本信息不限于广告文案，也可以是其他短文本数据。

在一个实施例中，如图2所示，提供了一种文本的行业分类方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤201，获取待分类文本信息的特征词，根据所述特征词以及预先建立的行业特征词库，得到所述待分类文本信息对应的初始行业标签。

其中，步骤201中的特征词是出现在文本信息中的词汇，一般来说，特征词能大概的体现文本信息的内容；行业特征词库是一个数据库，该数据库中存储有多个行业的行业特征词，行业特征词是指某一行业常用或者出现频率高的词汇，这些词汇组成一个行业的行业特征词，所有行业特征词组成行业特征词库。

另外，文本信息的特征词可以是一个，也可以是多个，初始行业标签中可以包括一个行业标签，也可以包括多个行业标签。

值得说明的是，行业标签属于本发明实施例中进行行业识别的一种处理方式，通过识别到某一标签，就可以得到该标签对应的行业。

步骤202，根据已知行业分类的已知文本信息、所述待分类文本信息及其对应的初始行业标签，建立迭代模型；根据所述迭代模型，得到所述待分类文本信息对应于所述初始行业标签中各个行业标签的行业标签概率。

其中，步骤202中，已知行业分类的已知文本信息可以是通过人工标注的方式得到已知文本信息的行业分类。迭代模型可以是以已知文本信息为监督样本。

步骤203，根据所述行业标签概率，从初始行业标签中确定出所述待分类文本信息对应的行业分类。

上述文本的行业分类方法，通过获取待分类文本信息的特征词，根据预设的行业特征词库，筛选出初始行业标签，然后将待分类文本信息作为未知文本，获取的已知行业分类的已知文本信息作为已知文本，建立迭代模型，然后根据迭代模型得到对应于所述初始行业标签中各个行业标签的行业标签概率，从而确定文本信息的行业分类，本发明实施例，通过已知的文本库，进行迭代对文本信息进行分类，显著提升文本信息的分类效率。

在一实施例中，如图3所示，提供一种利用初始行业标签进行文本的行业分类方法，该方法的步骤如下：

步骤301，获取待分类文本信息的特征词，根据所述特征词以及预先建立的行业特征词库，得到所述待分类文本信息对应的初始行业标签。

步骤302，判断所述初始行业标签中的行业标签是否唯一。

步骤303，若是，则将唯一的所述行业标签作为所述待分类文本信息的行业分类。

步骤304，若否，则进行进一步分类。

对于301的步骤，在一实施例中，可以通过对文本信息先进行分词处理，剔除分词处理结果中的异常词汇，得到文本信息的特征词，异常词汇可以包括：单字、停用词、地名中的一个以上。

本实施例中，特征词可以涵盖文本信息的重要内容，然而单字、停用词、地名均是各行业或者各场景的通用词，因此，需要将单字、停用词、地名等删除，以此提取准确的特征词。

对于301的步骤，还可以根据预先建立的行业特征词汇库，对所述特征词与行业特征词汇库进行全匹配和/或正则匹配；得到行业特征词汇库中各行业标签与文本信息的特征词的匹配频次；取匹配频次最高的多个行业标签作为所述待分类文本信息的初始行业标签。

本实施例中，如图4所示，以“专注深耕精细化移动营销服务”的文本信息1为例，进行说明，进行分词处理后，文本信息1的特征词为“专注；深耕；精细；移动；营销；服务”。在进行全匹配时，分别取文本信息1的每个特征词在行业特征词库中匹配，得到匹配到的行业标签，并记录每个行业标签的匹配频次；在进行正则匹配时，将文本信息1中的特征词做如下处理，例如“专注”处理为“*专注”、“专注*”和/或“*专注*”，其中“*”表示待定词/字，然后在行业特征词库中进行匹配，得到匹配到的行业标签，并记录每个行业标签的特征词。值得说明的是，在不同的场景下，可以使用全匹配或者正则匹配，也可以采用全匹配和正则匹配结合的方式，使本实施例的匹配速度、匹配准确度满足要求。根据上述得到的匹配结果，通过匹配频次，可以确定与文本信息接近的行业标签，具体是通过匹配频次的高低，在本实施例中，选择频次最高的多个行业标签作为文本信息的初始行业标签。

对于本实施例中的行业特征词库，在另一实施例中，可以获取所述已知行业标签的已知文本信息；对同一行业标签对应的所有的已知文本信息进行分词处理，得到同一行业标签对应的候选特征词汇集合；将所述候选特征词汇集合中每个词汇作为TextRank模型中的一个节点，得到每个词汇的TextRank值；根据词汇的TextRank值，建立行业特征词库。

在一实施例中，可以从预先设置的文本库中获取已知行业标签的已知文本信息，文本库中预先存储了多条已知文本信息，并且在后续过程中，可以持续添加文本库中已知文本信息的数目。

值得说明的是，在一实施例中，可以将初始行业标签的分类结果存入文本库中，分类结果包括文本信息的文本部分以及行业分类部分。

可选的，在TextRank模型中，设置窗口的长度为k，对如下已知文本信息{w₁,w₂,w₃,w₄,w₅,...,w_n}进行处理，其中w_n表示已知文本信息中的特征词，该文本信息的窗口为{w₁,w₂,..,w_k}、{w₂,w₃,..,w_k+1}、{w₃,w₄,..,w_k+2}、…、{w_n-k,w_n-(k-1),..,w_n}。在一窗口中任意两个节点之间存在两个特征词共现的次数作为权重的边，所有特征词与其共现关系构成带权重的无向图，然后利用如下公式计算不同行业中每个特征词的重要性：

其中，WS(V_i)表示第i个特征词V_i的重要值，d表示阻尼系数，In(V_i)表示与第i个特征词V_i共现的词汇集合，Out(V_j)表示与第j个特征词V_j共现的词汇集合，w_ij表示第i个特征词V_i与第j个特征词V_j的共现权重。

将上述重要值作为每个特征词的TextRank值。

可选的，阻尼系数d可以取0.85。但是不限于0.85，也可以根据使用场景，选择0.8或者0.9等值。

可选的，可以通过以下方式根据词汇的TextRank值，建立行业特征词库：对于每个行业，选择TextRank值靠前的词汇，作为该行业的特征词，并以此建立行业特征词库。

在一实施例，建立行业特征词库之后，由于行业特征词库中行业标签与其对应的特征词匹配度越高，那么进行初始行业标签进行文本的行业分类时的结果越准确，因此，还需要对行业特征词库进行更新，具体过程如下：将通过初始行业标签进行文本的行业分类结果存入分类库中对应部分，然后对分类库中初始行业标签分类结果进行随机抽检，通过获取分类结果的实际行业分类，然后计算此次随机抽检中分类结果的准确率，设定预设准确率，在准确率小于预设准确率时，将该已知文本信息的特征词存入对应的实际行业分类的行业中，实现行业特征词库的更新。

在一实施例中，如果上述对行业特征词库的更新总是不能达到精度的要求，可以通过人为选择特征词的方式，以此更新行业特征词库。

可选的，可以通过人工标定的方式获取分类结果的实际行业分类。

可选的，预设准确率可以选择95％，可以选择其他的值作为预设准确率。

另外，如果待分类文本信息涉及的是应用文案，则可以预先经过应用库进行分类，然后将应用库分类无法处理的数据再利用特征词进行分类，应用库分类的具体过程如下：建立行业标签L⁽¹⁾＝(l⁽¹⁾ ₁,l⁽¹⁾ ₂,K,l⁽¹⁾ _n)与应用库中行业类别L⁽²⁾＝(l⁽²⁾ ₁,l⁽²⁾ ₂,K,l⁽²⁾ _m)的映射关系f:L⁽¹⁾→L⁽²⁾，映射f的像集为：

根据上述像集得到文本信息的行业分类，如果文本信息的数据量大，利用此方法可以减少后续步骤的数据量，提高整体的分类效率。

在一实施例中，如图5所示，提供另一实施例中文本的行业分类方法，该方法具体流程如下：

步骤501，根据已知行业分类的已知文本信息、所述待分类文本信息及其对应的初始行业标签，建立迭代模型。

步骤502，根据所述迭代模型，得到所述待分类文本信息对应所述初始行业标签中各所述行业标签的行业概率。

步骤503，根据所述行业标签概率，从初始行业标签中确定出所述待分类文本信息对应的行业分类。

对于501的步骤，在一实施例中，根据已知文本信息的文本和文本信息的文本，得到文本集合；根据已知文本信息的特征词和文本信息的特征词，得到特征词汇集合；建立文本集合中的文本与特征词汇集合中的特征词的正、反映射关系；根据正、反映射关系，得到特征词汇集合中的特征词的正向行业概率公式以及文本集合中的文本的反向行业概率公式；根据正向行业概率公式和反向行业概率公式，建立迭代模型。

在本实施例中，已知文本信息的行业分类是已知的，而文本信息的行业分类是未知的，首先需要建立索引，具体可以根据已知文本信息的文本和文本信息的文本，得到文本集合A，根据已知文本信息的特征词和文本信息的特征词，得到特征词汇集合W，得到的映射关系如下：

其中，a_i表示文本集合中第i个文本，w_i表示特征词汇集合中第i个特征词汇。

根据上述映射关系，得到正向行业概率公式为：

其中，k₁表示特征词汇w_i能映射到的文本数目。

得到反向行业概率公式为：

其中，k₂表示文本集合A中文本a_i能映射到特征词汇集合W中特征词汇的数目。

可以将正向行业概率公式和反向行业概率公式作为迭代公式。

对于502的步骤，在一实施例中，可以获取各已知文本信息的初始状态向量以及文本信息的初始状态向量；将初始状态向量作为迭代模型的初始状态；设置迭代模型的迭代次数以及迭代误差阈值；在迭代误差小于所述迭代误差阈值，或迭代到迭代次数时，将迭代模型输出的结果作为行业标签概率。

具体的，已知文本信息的初始状态向量和待分类文本信息的初始状态向量分别为：

然后设置迭代次数为L，迭代的迭代误差为：

cost为迭代误差的代价函数，

表示文本集合中文本a_i属于各行业的真实概率值，

表示文本集合中文本a_i属于各行业的预测概率值。设置迭代误差阈值为δ。

然后根据上述迭代模型进行迭代，在迭代误差小于所述迭代误差阈值δ，或迭代到所述迭代次数L时，将所述迭代模型输出的结果作为行业标签概率。

在一实施例中，还可以将迭代模型输出的特征词对应的各行业标签的概率对应保存，本实施例中，迭代模型输出的结果包括两个部分，其一是待分类文本信息的行业标签概率，其二是特征词对应的各行业标签的概率。

在另一实施例中，可以将特征词对应的各行业标签的概率保存的结果合理利用，在下次对文本信息进行分类时，可以直接利用保存的是特征词对应的各行业标签的概率，从而对待分类文本信息进行分类，无需建立迭代模型进行迭代。

在一实施例中，在步骤501之后，还可以根据文本集合中文本信息的数目以及文本集合中文本信息对应的行业标签的数目，进行加权处理得到每个行业标签的权重；根据行业标签的权重，更新初始状态向量。

具体的，为了降低因样本类别倾斜的影响，提高迭代的稳定性，首先，不同行业标签的文本按以下公式计算第i个行业标签的权重：

其中，M表示文本集合中文本的数目，N表示文本映射到行业标签的数目，n_i表示第i个行业标签映射到文本集合中文本的数目，θ_i表示第i个行业标签的权重。

另外，在一实施例中，还需要对第i个行业标签的权重θ_i进行归一化处理，具体如下：根据所述行业标签的权重的最大值以及所述行业标签的权重的最小值，对各个所述行业标签的权重进行归一化处理。

可选的，可以采用如下公式对第i个行业标签的权重θ_i进行归一化处理：

其中，min(θ)表示行业标签的权重最小值，max(θ)表示行业标签的权重最大值，θ_i′表示归一化后第i个行业标签的权重θ_i。

在一实施例中，可以根据上述归一化处理后的结果，更新已知文本信息的初始状态向量和文本信息的初始状态向量分别为：

对于503的步骤，可以从行业标签概率中选择概率最大的行业标签作为文本的行业分类。

以下结合一具体实施例，进行详细说明。

如图6所示，提供一具体文本的行业分类方法，步骤如下：

步骤601，对待分类文本信息进行分词处理，剔除其中的异常词汇，得到文本信息的特征词。

步骤602，将特征词在预设的行业特征词库中进行全匹配和/或正则匹配，得到待分类文本信息可能的行业标签，然后根据匹配频次，得到文本信息的初始行业标签。

步骤603，判断初始行业标签中行业标签是否唯一，若行业标签唯一，则将该行业标签作为待分类文本信息的行业分类，若行业标签不唯一，则进行进一步的判断。

步骤604，获取若干已知行业分类的已知文本信息，根据已知文本信息、待分类文本信息和初始行业标签，建立文本集合和特征词汇集合，然后根据文本集合和特征词汇集合建立迭代模型，根据迭代模型得到行业标签概率。

步骤605，确定行业标签概率中概率最大的行业标签作为待分类文本信息的行业分类。

上述实施例中，待分类文本信息可以是一条文本信息，也可以是多条文本信息，因此，本发明实施例可以处理单个文本信息，实现单个文本的行业分类，那么行业特征词库可以是根据历史记录预先建立好的，文本库也可以是通过历史记录建立的，本发明实施例也可以在同时处理大批量数据，同一批数据中有大部分可以通过初始行业标签分类直接得到待分类文本信息的分类结果，可以通过这些数据，建立行业特征词库，也可以通过这些数据更新行业特征词库，对于另一部分无法通过初始行业标签分类的数据，可以通过初始行业标签分类得到的结果对另一部分的文本信息进行传播分析，得到行业标签概率，从而确定另一部分数据的行业分类。

在一实施例中，还可以将文本信息及其对应的行业分类的结果存入所述文本库，其中，文本库用于存储所述已知文本信息。在本实施例中，可以将初始行业标签的分类结果存入文本库，也可以将行业标签概率的分类结果存入文本库。

因此，本发明实施例，可以适用于单个文本数据，在处理大批量数据时，无需额外的数据，即可以完成行业的分类，显著提高了行业分类的效率。

应该理解的是，虽然图2、3、5、6的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2、3、5、6中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图7所示，提供了一种文本的行业分类系统，包括：初始标签获取模块701、模型建立模块702和分类模块703，其中：

初始标签获取模块701，用于获取待分类文本信息的特征词，根据所述特征词以及预先建立的行业特征词库，得到所述待分类文本信息对应的初始行业标签。

模型建立模块702，用于根据已知行业分类的已知文本信息、所述待分类文本信息及其对应的初始行业标签，建立迭代模型；根据所述迭代模型，得到所述待分类文本信息对应于所述初始行业标签中各个行业标签的行业标签概率。

分类模块703，用于根据所述行业标签概率，从初始行业标签中确定出所述待分类文本信息对应的行业分类。

上述文本的行业分类系统，通过初始标签获取模块获取待分类文本信息的特征词，根据预设的行业特征词库，筛选出初始行业标签，然后模型建立模块将待分类文本信息作为未知文本，获取的已知行业分类的已知文本信息作为已知文本，建立迭代模型，然后根据迭代模型得到对应于所述初始行业标签中各个行业标签的行业标签概率，从而分类模块确定文本的行业分类，本发明实施例，通过已知的文本库，进行迭代对文本信息进行分类，显著提升文本信息的分类效率。

在一实施例中，模型建立模块702还用于，根据所述已知文本信息和所述待分类文本信息得到文本集合；根据所述已知文本信息的特征词和所述待分类文本信息的特征词，得到特征词汇集合；建立所述文本集合中的文本信息与所述特征词汇集合中的特征词的正映射关系和反映射关系；根据所述正映射关系和所述反映射关系，分别得到所述特征词汇集合中的特征词的正向行业概率公式以及所述文本集合中的文本的反向行业概率公式；根据所述正向行业概率公式和所述反向行业概率公式，建立迭代模型。

在一实施例中，模型建立模块702还用于获取各已知文本信息的初始状态向量以及所述待分类文本信息的初始状态向量；其中，所述初始状态向量是已知文本信息或者文本信息初始状态下各行业标签的概率的向量；将所述初始状态向量作为迭代模型的初始状态；获取预先设置的所述迭代模型的迭代次数以及迭代误差阈值；在迭代误差小于所述迭代误差阈值，或迭代到所述迭代次数时，将所述迭代模型输出的结果作为行业标签概率。

在一实施例中，还包括保存模块，所述保存模块用于将所述迭代模型输出的特征词对应的各行业标签的概率对应保存；在获取待分类文本信息的特征词之后，还用于判断所述特征词是否存在已保存的各行业标签的概率，若是，则根据所述各行业标签的概率，得到所述待分类文本信息对应的行业分类。

在一实施例中，还包括：初始状态更新模块，初始状态更新模块用于根据所述文本集合中文本信息的数目以及所述文本集合中文本信息对应的所述行业标签的数目，进行加权处理得到每个所述行业标签的权重；根据所述行业标签的权重，更新所述初始状态向量。

在一实施例中，还包括：行业标签权重设置模块，行业标签权重设置模块用于根据所述行业标签的权重的最大值以及所述行业标签的权重的最小值，对各个所述行业标签的权重进行归一化处理。

在一实施例中，初始标签获取模块701还用于对所述待分类文本信息进行分词处理，剔除所述分词处理结果中的异常词汇，得到所述待分类文本信息的特征词；所述异常词汇包括：单字、停用词、地名中的一个以上。

在一实施例中，初始标签获取模块701还用于根据预先建立的行业特征词汇库，对所述特征词与行业特征词汇库进行全匹配和/或正则匹配；得到行业特征词汇库中各行业标签与所述待分类文本信息的特征词的匹配频次；取匹配频次最高的多个行业标签作为所述待分类文本信息的初始行业标签。

在一实施例中，还包括：行业特征词库建立模块，行业特征词库建立模块用于获取所述已知行业标签的已知文本信息；对同一行业标签对应的所有的已知文本信息进行分词处理，得到同一行业标签对应的候选特征词汇集合；将所述候选特征词汇集合中每个词汇作为TextRank模型中的一个节点，得到每个词汇的TextRank值；根据词汇的TextRank值，建立行业特征词库。

在一个实施例中，还包括初始行业标签分类模块，初始行业标签分类模块用于若所述初始行业标签中行业标签唯一，则确定唯一的所述行业标签为所述待分类文本信息对应的行业分类。

在一实施例中，还包括存储模块，存储模块用于将所述待分类文本信息及其对应的行业分类存入预先设置的文本库，其中，文本库用于存储所述已知文本信息。。

关于文本的行业分类系统的具体限定可以参见上文中对于文本的行业分类方法的限定，在此不再赘述。上述文本的行业分类系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储文本信息数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本的行业分类方法。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

根据所述已知文本信息和所述待分类文本信息得到文本集合；根据所述已知文本信息的特征词和所述待分类文本信息的特征词，得到特征词汇集合；建立所述文本集合中的文本信息与所述特征词汇集合中的特征词的正映射关系和反映射关系；根据所述正映射关系和所述反映射关系，分别得到所述特征词汇集合中的特征词的正向行业概率公式以及所述文本集合中的文本的反向行业概率公式；根据所述正向行业概率公式和所述反向行业概率公式，建立迭代模型。

获取各已知文本信息的初始状态向量以及所述待分类文本信息的初始状态向量；其中，所述初始状态向量是已知文本信息或者文本信息初始状态下各行业标签的概率的向量；将所述初始状态向量作为迭代模型的初始状态；获取预先设置的所述迭代模型的迭代次数以及迭代误差阈值；在迭代误差小于所述迭代误差阈值，或迭代到所述迭代次数时，将所述迭代模型输出的结果作为行业标签概率。

在一实施例中，处理器执行计算机程序时还实现以下步骤：

将所述迭代模型输出的特征词对应的各行业标签的概率对应保存；在获取待分类文本信息的特征词之后，还包括：判断所述特征词是否存在已保存的各行业标签的概率，若是，则根据所述各行业标签的概率，得到所述待分类文本信息对应的行业分类。

根据所述文本集合中文本信息的数目以及所述文本集合中文本信息对应的所述行业标签的数目，进行加权处理得到每个所述行业标签的权重；根据所述行业标签的权重，更新所述初始状态向量。

据所述行业标签的权重的最大值以及所述行业标签的权重的最小值，对各个所述行业标签的权重进行归一化处理。

对所述待分类文本信息进行分词处理，剔除所述分词处理结果中的异常词汇，得到所述待分类文本信息的特征词；所述异常词汇包括：单字、停用词、地名中的一个以上。

根据预先建立的行业特征词汇库，对所述特征词与行业特征词汇库进行全匹配和/或正则匹配；得到行业特征词汇库中各行业标签与所述待分类文本信息的特征词的匹配频次；取匹配频次最高的多个行业标签作为所述待分类文本信息的初始行业标签。

获取所述已知行业标签的已知文本信息；对同一行业标签对应的所有的已知文本信息进行分词处理，得到同一行业标签对应的候选特征词汇集合；将所述候选特征词汇集合中每个词汇作为TextRank模型中的一个节点，得到每个词汇的TextRank值；根据词汇的TextRank值，建立行业特征词库。

若所述初始行业标签中行业标签唯一，则确定唯一的所述行业标签为所述待分类文本信息对应的行业分类。

将所述待分类文本信息及其对应的行业分类的结果存入预先设置的文本库，其中，所述文本库用于存储所述已知文本信息。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

在一实施例中，计算机程序被处理器执行时还实现以下步骤：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种文本的行业分类方法，其特征在于，所述方法包括：

获取待分类文本信息的特征词，将所述特征词与预先建立的行业特征词库进行匹配，得到所述待分类文本信息对应的初始行业标签，所述行业特征词库中包括各行业标签对应的特征词；

根据已知行业分类的已知文本信息及其特征词、所述待分类文本信息及其特征词以及对应的初始行业标签，获得所述已知文本信息的特征词和所述待分类文本信息的特征词中各特征词的正向行业概率，根据各特征词的正向行业概率获得所述已知文本信息和所述待分类文本信息中各文本的反向行业概率，基于所述正向行业概率和所述反向行业概率建立迭代模型；根据所述迭代模型，得到所述待分类文本信息对应于所述初始行业标签中各个行业标签的行业标签概率；

2.根据权利要求1所述的文本的行业分类方法，其特征在于，所述根据已知行业分类的已知文本信息及其特征词、所述待分类文本信息及其特征词以及对应的初始行业标签，获得所述已知文本信息的特征词和所述待分类文本信息的特征词中各特征词的正向行业概率，根据各特征词的正向行业概率获得所述已知文本信息和所述待分类文本信息中各文本的反向行业概率，基于所述正向行业概率和所述反向行业概率建立迭代模型的步骤，包括：

根据所述已知文本信息和所述待分类文本信息得到文本集合；根据所述已知文本信息的特征词和所述待分类文本信息的特征词，得到特征词汇集合；

建立所述文本集合中的文本信息与所述特征词汇集合中的特征词的正映射关系和反映射关系；

根据所述正映射关系和所述反映射关系，分别得到所述特征词汇集合中的特征词的正向行业概率公式以及所述文本集合中的文本信息的反向行业概率公式；

根据所述正向行业概率公式和所述反向行业概率公式，建立迭代模型。

3.根据权利要求2所述的文本的行业分类方法，其特征在于，所述根据所述迭代模型，得到所述待分类文本信息对应于所述初始行业标签中各个行业标签的行业标签概率的步骤，包括：

获取各已知文本信息的初始状态向量以及所述待分类文本信息的初始状态向量；其中，所述初始状态向量是已知文本信息和文本信息初始状态下各行业标签的概率向量；

将所述初始状态向量作为迭代模型的初始状态；获取预先设置的所述迭代模型的迭代次数以及迭代误差阈值；

在迭代误差小于所述迭代误差阈值，或迭代到所述迭代次数时，将所述迭代模型输出的文本信息对应的各行业标签的概率向量作为行业标签概率。

4.根据权利要求3所述的文本的行业分类方法，其特征在于，还包括：

将所述迭代模型输出的特征词对应的各行业标签的概率对应保存；

在获取待分类文本信息的特征词之后，还包括：

判断所述特征词是否存在已保存的各行业标签的概率，若是，则根据所述各行业标签的概率，得到所述待分类文本信息对应的行业分类。

5.根据权利要求3所述的文本的行业分类方法，其特征在于，在根据已知行业分类的已知文本信息及其特征词、所述待分类文本信息及其特征词以及对应的初始行业标签，获得所述已知文本信息的特征词和所述待分类文本信息的特征词中各特征词的正向行业概率，根据各特征词的正向行业概率获得所述已知文本信息和所述待分类文本信息中各文本的反向行业概率，基于所述正向行业概率和所述反向行业概率建立迭代模型之前，还包括：

根据所述文本集合中文本信息的数目以及所述文本集合中文本信息对应的所述行业标签的数目，进行加权处理得到每个所述行业标签的权重；

根据所述行业标签的权重，更新所述初始状态向量。

6.根据权利要求5所述的文本的行业分类方法，其特征在于，还包括：

根据所述行业标签的权重的最大值以及所述行业标签的权重的最小值，对各个所述行业标签的权重进行归一化处理。

7.根据权利要求1至6任一项所述的文本的行业分类方法，其特征在于，所述将所述特征词与预先建立的行业特征词库进行匹配，得到所述待分类文本信息对应的初始行业标签的步骤，包括：

根据预先建立的行业特征词汇库，对所述特征词与行业特征词汇库进行全匹配和/或正则匹配；得到行业特征词汇库中各行业标签与所述待分类文本信息的特征词的匹配频次；

取匹配频次最高的多个行业标签作为所述待分类文本信息的初始行业标签。

8.根据权利要求1至6任一项所述的文本的行业分类方法，其特征在于，还包括：

获取已知行业标签的已知文本信息；

对同一行业标签对应的所有的已知文本信息进行分词处理，得到同一行业标签对应的候选特征词汇集合；

将所述候选特征词汇集合中每个词汇作为TextRank模型中的一个节点，得到每个词汇的TextRank值；

根据词汇的TextRank值，建立行业特征词库。

9.根据权利要求1至6任一项所述的文本的行业分类方法，其特征在于，还包括：

10.根据权利要求9所述的文本的行业分类方法，其特征在于，在确定唯一的所述行业标签为所述待分类文本信息对应的行业分类之后，还包括：

将所述待分类文本信息及其对应的行业分类的结果存入预先设置的文本库；其中，所述文本库用于存储所述已知文本信息。

11.一种文本的行业分类系统，其特征在于，所述系统包括：

初始标签获取模块，用于获取待分类文本信息的特征词，将所述特征词与预先建立的行业特征词库进行匹配，得到所述待分类文本信息对应的初始行业标签，所述行业特征词库中包括各行业标签对应的特征词；

模型建立模块，用于根据已知行业分类的已知文本信息及其特征词、所述待分类文本信息及其特征词以及对应的初始行业标签，获得所述已知文本信息的特征词和所述待分类文本信息的特征词中各特征词的正向行业概率，根据各特征词的正向行业概率获得所述已知文本信息和所述待分类文本信息中各文本的反向行业概率，基于所述正向行业概率和所述反向行业概率建立迭代模型；根据所述迭代模型，得到所述待分类文本信息对应于所述初始行业标签中各个行业标签的行业标签概率；

12.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至10中任一项所述文本的行业分类方法的步骤。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的文本的行业分类方法的步骤。