CN111797945B

CN111797945B - 一种文本分类方法

Info

Publication number: CN111797945B
Application number: CN202010846090.1A
Authority: CN
Inventors: 康青杨; 刘世林; 李楠; 张学锋; 唐万琪; 范森; 吴桐
Original assignee: Chengdu Business Big Data Technology Co Ltd
Current assignee: Chengdu Business Big Data Technology Co Ltd
Priority date: 2020-08-21
Filing date: 2020-08-21
Publication date: 2020-12-15
Anticipated expiration: 2040-08-21
Also published as: CN111797945A

Abstract

本发明涉及数据分类处理技术领域，提出一种文本分类方法，包括以下步骤：根据开源数据库建立有向图模型；计算有向图模型中所有节点的PageRank初始值；将待分类文本输入有向图模型，根据有向图模型中所有节点的PageRank初始值，使用PageRank算法对待分类文本中节点的PageRank分数进行迭代更新，从而对待分类文本进行分类。本发明使用开源数据库构成的有向图模型和对节点进行的PageRank分数计算，无需进行人工的大量标注数据，节省人力物力，降低文本分类的成本。

Description

一种文本分类方法

技术领域

本发明涉及数据分类处理技术领域，特别涉及一种文本分类方法。

背景技术

互联网上有大量的文章，往往需要对这些文章进行分类，比如在做文章推荐的时候需要按照文章类型推荐给不同的人。现有的文本分类方法都是基于监督学习，需要人工大量标注数据，再使用机器学习模型训练得到分类器，使用分类器对文本进行分类。

使用监督学习的文本分类方法存在最大的问题就是需要大量的标注数据，然而标注这些数据需要耗费大量的人力物力，使得文本分类的成本显著增高。

发明内容

本发明的目的在于改善现有技术中对文本分类需要进行大量的人工标注数据的问题，提供一种文本分类方法，无需对文本进行标注数据，即可对文本进行分类。

为了实现上述发明目的，本发明实施例提供了以下技术方案：

一种文本分类方法，包括以下步骤：

根据开源数据库建立有向图模型；

计算有向图模型中所有节点的PageRank初始值；

将待分类文本输入有向图模型，将待分类文本中的节点映射在有向图模型上；

根据有向图模型中所有节点的PageRank初始值，使用PageRank算法对待分类文本中节点的PageRank分数进行迭代更新，从而对待分类文本进行分类。

所述根据开源数据库建立有向图模型的步骤，包括：

根据开源数据库获取若干个mention节点，将若干个所述mention节点构建为mention集合；

使用mention节点链接到与其映射的concept节点，将所有mention节点链接得到的若干个concept节点构建为concept集合；所述mention集合中的mention节点与concept集合中的concept节点形成映射关系；所述concept节点间存在链入或链出关系；

根据concept节点获取到与其对应的一个或多个category节点，将所有concept节点得到的若干个category节点构建为category集合；所述concept集合中的concept节点属于一个或多个category节点；所述category节点间存在从属关系；

对mention集合、concept集合、category集合中各个节点之间的边进行赋值，从而建立有向图模型。

所述对mention集合、concept集合、category集合中各个节点之间的边进行赋值，从而建立有向图模型的步骤，包括：

对mention集合中的mention节点到concept集合中的concept节点的边进行赋值；

对concept集合中的concept节点到其他concept节点的边进行赋值；

对concept集合中的concept节点到category集合中的category节点的边进行赋值；

对category集合中的category节点到其他category节点的边进行赋值；

根据mention集合、concept集合、category集合中各个节点之间的边的值，建立有向图模型。

所述对mention集合中的mention节点到concept集合中的concept节点的边进行赋值的步骤，包括：

若mention集合中的某mention节点到concept集合中的某concept节点之间存在链接关系，则该mention节点与该concept节点之间存在边，否则不存在边；

所述该mention节点到该concept节点的边的值为：

P1=(concept|mention)=（mention集合中该mention节点链接到concept集合中该concept节点的次数）/（mention集合中该mention节点链接到concept集合中任意concept节点的次数）。

所述对concept集合中的concept节点到其他concept节点的边进行赋值的步骤，包括：

若concept集合中任意两个concept节点链入链出集合的交集为空，则这两个concept节点之间不存在边，否则存在边；

存在边的两个concept节点之间的边的值为：

P2=count(L(c1)∩L(c2))/count(L(c1)∪L(c2))

其中L(c)表示concept集合中的某concept节点c的所有链入、链出的集合。

所述对concept集合中的concept节点到category集合中的category节点的边进行赋值的步骤，包括：

若concept集合中的某concept节点属于category集合中的某category节点，则该concept节点与该category节点之间存在边，否则不存在边；

所述该concept节点到该category节点的边的值为1。

所述对category集合中的category节点到其他category节点的边进行赋值的步骤，包括：

若category集合中的某category节点从属于category集合中的其他category节点，则该category节点与从属于的其他category节点之间存在边，否则不存在边；

所述该category节点到从属于的其他category节点之间的边的值为1。

所述计算有向图模型中所有节点的PageRank初始值的步骤，包括：

设置有向图模型中mention集合中所有mention节点的PageRank初始值R1：R1=包含mention集合中该mention节点连接的页面数量/包含mention集合中该mention节点的页面数量；

设置concept集合中的concept节点的PageRank初始值R2=0；

设置category集合中的category节点的PageRank初始值为R3=0。

所述将待分类文本输入有向图模型，将待分类文本中的节点映射在有向图模型上的步骤，包括：

将待分类文本输入有向图模型，通过Aho-Corasick算法提取待分类文本中的mention节点，构成mention集合，同时得到该待分类文本中各个mention节点的PageRank初始值R1；

按照有向图模型中mention节点与concept节点、concept节点与category节点的关系，得到该分类文本的concept节点、category节点，将该分类文本的节点映射到有向图模型上。

所述根据有向图模型中所有节点的PageRank初始值，使用PageRank算法对待分类文本中节点的PageRank分数进行迭代更新，从而对待分类文本进行分类的步骤，包括：

使用迭代公式对该待分类文本中各节点的PageRank分数进行迭代更新：

其中

为控制迭代更新速度的系数，

为节点u的PageRank初始值，v、u表示待分类文本中的任意节点，

表示节点v到节点u的边的值；

将category集合中的节点的PageRank分数进行由大到小的排序，PageRank分数越大，待分类文本被分类到与其对应的节点类型的概率越大。

所述将待分类文本输入有向图模型之前，还包括步骤：对待分类文本进行分词处理。

与现有技术相比，本发明的有益效果：

（1）本发明使用开源数据库构成有向图模型，将待分类分本的节点抽取后映射在该有向图模型上，然后对节点进行的PageRank分数计算，得到待分类文本的所属类别，无需进行人工的大量标注数据，节省人力物力，降低文本分类的成本。

（2）本发明构建出有向图模型后，对有向图模型中所有节点的PageRank初始值进行提前计算，之后每一次向有向图模型中输入待分类文本时，则无需再次计算节待分类文本中节点的PageRank初始值，将的输入的待分类文本节点映射在有向图模型上，即可直接获取已计算出的PageRank初始值进行PageRank分数的迭代更新，从而完成对待分类文本的分类，更进一步地节省了分类时间，提高分类效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提出的一种文本分类方法流程图；

图2为本发明实施例节点举例说明示意图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

本发明通过下述技术方案实现，如图1所示，提出一种文本分类方法，包括以下步骤：

步骤S100：根据开源数据库建立有向图模型。

所述开源数据库可以使用维基百科数据库，维基百科数据库中的数据量庞大，具有知识网络结构，且开源，因此使用维基百科数据库中的数据来训练建立有向图模型是最好的选择。但目前有很多开源的数据库种都存在丰富的语料，也可以同时使用，结合建立有向图模型，以及未来开发的开源数据库都可以使用，因此本方案不对开源数据库进行限定。

首先，根据维基百科数据库可以获取到若干个mention节点，将若干个所述mention节点构建为mention集合；使用mention节点链接到与其映射的concept节点，将所有mention节点链接得到的若干个concept节点构建为concept集合；所述mention集合中的mention节点与concept集合中的concept节点形成映射关系；所述concept节点间存在链入或链出关系。

现举例说明，维基百科数据库中“数学”这个词所存在的概念页面有这样一段话：“数学是利用符号语言研究数量[1]、结构[2]、变化[3]以及空间[4]等概念的一门学科[5]，从某种角度看属于形式科学的一种。数学透过抽象化[6]和逻辑推理[7]的使用，由计数[8]、计算[9]、量度[10]和对物体形状[11]及运动[12]的观察而产生。数学家[13]们拓展这些概念，为了公式化新的猜想[14]以及从选定的公理[15]及定义[16]中建立起严谨[17]推导出的定理。”

其中，标号的词语存在内部链接，点击标号的词语即会进入这个词语的概念页面，比如点击“数量[1]”这个词语，则会进入“数量[1]”的概念页面，那么我们称标号词语为mention节点，点击这个mention节点进入的概念页面称为concept节点，这个mention节点原本存在的概念页面也称为concept节点。

为便于理解，此处将“数学”这个词所在的概念页面定义为concept节点a，从concept节点a中点击“数量[1]”这个mention节点进入到的概念页面定义为concept节点b，那么我们称concept节点a为concept节点b的链入；同样，concept节点b中也存在多个mention节点，点击其中一个mention节点进入到的概念页面定义为concept节点c，那么我们称concept节点c为concept节点b的链出。

根据这个方式，容易理解的，一个concept节点中存在多个mention节点，某一个mention节点也可能存在于多个concept节点中，因此我们说mention节点与concept节点之间形成映射关系。同样，一个concept节点链入或链出的concept节点也有多个，因此我们说concept节点间存在链入或链出的关系。

然后，根据维基百科数据库已有的分类，一个concept节点会属于一个或多个category节点，相当于对这个concept节点的分类；同样，某个category节点也可能属于一个或多个另外的category节点，因此我们说category节点间存在从属关系。

再举一个实例，如图2所示，“林黛玉”是一个mention节点，“林黛玉”可以链接到“红楼梦”，那么“红楼梦”是一个concept节点；“红楼梦”这个concept节点中包含了“贾宝玉”等多个mention节点；“红楼梦”这个concept节点可以属于“名著”这个category节点，也可以属于“文学”这个category节点，同时“名著”这个category节点也属于“文学”这个category节点。

这样，就形成了属于mention集合、concept集合以及category集合中的若干个节点，得到这些节点后，需要对节点间的边进行赋值，才能得到完整的有向图模型。赋值的步骤如下：

S101：对mention集合中的mention节点到concept集合中的concept节点的边进行赋值。

所述该mention节点到该concept节点的边的值为：

比如，“特拉斯”这个mention节点链接到“尼古拉·特拉斯”这个concept节点的次数是12次，链接到“特拉斯公司”这个concept节点的次数是30次，那么“特拉斯”到“尼古拉·特拉斯”的边的值为12/（12+30），“特拉斯”到“特拉斯公司”的边的值为30/（12+30）。

步骤S102：对concept集合中的concept节点到其他concept节点的边进行赋值。

存在边的两个concept节点之间的边的值为：

P2=count(L(c1)∩L(c2))/count(L(c1)∪L(c2))

其中L(c)表示concept集合中的某concept节点c的所有链入、链出的集合。也就是说L(c1)∩L(c2)代表concept节点c1与concept节点c2之间的所有链入、链出的交集，L(c1)∪L(c2)代表concept节点c1与concept节点c2之间的所有链入、链出的并集。

步骤S103：对concept集合中的concept节点到category集合中的category节点的边进行赋值。

若concept集合中的某concept节点属于category集合中的某category节点，则该concept节点与该category节点之间存在边，且赋值为1，否则不存在边。

步骤S104：对category集合中的category节点到其他category节点的边进行赋值。

若category集合中的某category节点从属于category集合中的其他category节点，则该category节点与从属于的其他category节点之间存在边，且赋值为1，否则不存在边。

通过步骤S101-步骤S104即可对mention集合、concept集合以及category集合中的若干个节点间的边进行赋值，从而得到完整的有向图模型。

步骤S200：计算有向图模型中所有节点的PageRank初始值。

设置concept集合中的concept节点的PageRank初始值R2=0；

设置category集合中的category节点的PageRank初始值为R3=0。

将R2和R3设置为0，表示所有的concept节点和category节点都同等对待，没有任何先验知识，这样我们就得到了有向图模型中所有mention节点、concept节点、category节点的PageRank初始值。

步骤S300：将待分类文本输入有向图模型，将待分类文本中的节点映射在有向图模型上。

将待分类文本输入有向图模型之前，对待分类文本进行分词处理，去除不是由单个词或不是由多个词构成的节点，可以保证抽取待分类文本中的mention节点的准确率。比如，对“我市市长江大桥出席了会议”这句话进行分词后，得到“我”、“市”、“市长”、“江大桥”、“出席”、“了”、“会议”，如果不进行分词，那么则会抽取到“长江大桥”这个mention节点。

将进行分词处理后的待分类文本输入有向图模型，通过Aho-Corasick算法提取待分类文本中的mention节点，构成mention集合。由于在步骤S200中已经对有向图模型中所有的mention节点的PageRank初始值，那么从待分类文本中提取mention节点的同时，即可以得到这些mention节点的PageRank初始值R1。

按照有向图模型中mention节点与concept节点、concept节点与category节点的关系，可以得到该分类文本的concept节点、category节点，即可将待分类文本的节点映射到有向图模型上。

步骤S400：根据有向图模型中所有节点的PageRank初始值，使用PageRank算法对待分类文本中节点的PageRank分数进行迭代更新，从而对待分类文本进行分类。

其中

为控制迭代更新速度的系数

表示节点v到节点u的边的值。

将category集合中的节点的PageRank分数进行由大到小的排序，PageRank分数越大，待分类文本被分类到这个category节点的概率越大，从而完成对该待分类文本的分类。

步骤S200-步骤S400是首先对有向图模型中所有mention节点的PageRank初始值进行统一计算，那么之后每一次向有向图模型中输入待分类文本时，将待分类文本的节点映射在有向图模型上，则不用重新计算一次待分类文本中mention节点的PageRank初始值了，使得计算速度更快，分类效率更高。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种文本分类方法，其特征在于：包括以下步骤：

根据开源数据库建立有向图模型；

计算有向图模型中所有节点的PageRank初始值；

根据有向图模型中所有节点的PageRank初始值，使用PageRank算法对待分类文本中节点的PageRank分数进行迭代更新，从而对待分类文本进行分类；

所述根据开源数据库建立有向图模型的步骤，包括：

对mention集合、concept集合、category集合中各个节点之间的边进行赋值，从而建立有向图模型；

对concept集合中的concept节点到其他concept节点的边进行赋值；

根据mention集合、concept集合、category集合中各个节点之间的边的值，建立有向图模型；

设置有向图模型中mention集合中所有mention节点的PageRank初始值R1：R1＝包含mention集合中该mention节点连接的页面数量/包含mention集合中该mention节点的页面数量；

设置concept集合中的concept节点的PageRank初始值R2＝0；

设置category集合中的category节点的PageRank初始值为R3＝0；

2.根据权利要求1所述的一种文本分类方法，其特征在于：所述对mention集合中的mention节点到concept集合中的concept节点的边进行赋值的步骤，包括：

所述该mention节点到该concept节点的边的值为：

P1＝(concept|mention)＝(mention集合中该mention节点链接到concept集合中该concept节点的次数)/(mention集合中该mention节点链接到concept集合中任意concept节点的次数)。

3.根据权利要求1所述的一种文本分类方法，其特征在于：所述对concept集合中的concept节点到其他concept节点的边进行赋值的步骤，包括：

存在边的两个concept节点之间的边的值为：

P2＝count(L(c1)∩L(c2))/count(L(c1)∪L(c2))

4.根据权利要求1所述的一种文本分类方法，其特征在于：所述对concept集合中的concept节点到category集合中的category节点的边进行赋值的步骤，包括：

所述该concept节点到该category节点的边的值为1。

5.根据权利要求1所述的一种文本分类方法，其特征在于：所述对category集合中的category节点到其他category节点的边进行赋值的步骤，包括：

6.根据权利要求1所述的一种文本分类方法，其特征在于：所述根据有向图模型中所有节点的PageRank初始值，使用PageRank算法对待分类文本中节点的PageRank分数进行迭代更新，从而对待分类文本进行分类的步骤，包括：

PR_t(u)＝τPR₀(u)+(1-τ)∑_vPR_t-1(v)P(v→u)

其中τ为控制迭代更新速度的系数，PR₀(u)为节点u的PageRank初始值，v、u表示待分类文本中的任意节点，P(v→u)表示节点v到节点u的边的值；