CN112906382B

CN112906382B - 基于图神经网络的政策文本多标签标注方法及系统

Info

Publication number: CN112906382B
Application number: CN202110160984.XA
Authority: CN
Inventors: 吴晓明; 石金泽; 刘祥志; 汪付强; 张鹏
Original assignee: Qilu University of Technology; Shandong Computer Science Center National Super Computing Center in Jinan
Current assignee: Qilu University of Technology; Shandong Computer Science Center National Super Computing Center in Jinan
Priority date: 2021-02-05
Filing date: 2021-02-05
Publication date: 2022-06-21
Anticipated expiration: 2041-02-05
Also published as: CN112906382A

Abstract

本发明公开了基于图神经网络的政策文本多标签标注方法及系统，包括：获取待标注的政策文本；对待标注的政策文本进行预处理，对预处理后的政策文本进行分词；将分词得到的单词和预先得到的加权单词向量，输入到训练后的全连接神经网络中，输出待标注政策文本的多标签。高效的标签标注过程，利用廉价的计算资源，减少大量人工成本。相较于人工，实现更加精准的标签标注，不会因为文件信息量的长短而产生标签标注的错漏。及时性的政策文件多标签标注，快速进行所需政策文件的标签标注。减少了主观差异性，不会因为不同的工人的主观判断不同而造成大量的标注标签的差异性。

Description

基于图神经网络的政策文本多标签标注方法及系统

技术领域

本发明涉及文本数据处理技术领域，特别是涉及基于图神经网络的政策文本多标签标注方法及系统。

背景技术

本部分的陈述仅仅是提到了与本发明相关的背景技术，并不必然构成现有技术。

随着互联网技术和信息技术的日渐成熟，很多的政府部门都越来越趋向于将政策文件发布在自己的官方网站上，且政策文件的发布更加的频繁，文件的数量越来越多，但是文件的大量发布同样带来了缺乏高效利用信息的手段的问题。企业越来越容易的获得大量的政策文本信息，但是又迫切的需要富有效率的政策信息处理手段。目前的政策文件信息较为繁琐，预先对每个政策文件进行多标签标注可以达到快速检索的效果，但是目前的多标签标注问题上更多的是依靠人工根据现有的标准进行人工的多标签标注，在某些没有明确标注标准的问题上也会标注人的不同，携带不同的主观因素。

普通中小企业存在着收集政策文件困难的问题。大量的政策文件从不同的网站、不同的部门机构、不同的时间、不同的类别发出，中小企业难于将所有的文件收集，并且及时把和自己企业有关的政策文件收检出来。同样对于普通的中小企业来说，收集之后的人工标注存在着标注成本高、费时费力的问题，普通中小企业难以负担这其中存在的各种经历的消耗。

而标签标注有利于凝练信息，提高使用者检索和自己有关的信息的能力和效率。通过将政策文件进行标签标注，可以更好地对政策文件和符合条件的诸多企业相互配对，使得企业可以富有成效的得到与自己企业相关的政策文件同时不需要耗费精力在与自己无关的政策文件上。

发明内容

为了解决现有技术的不足，本发明提供了基于图神经网络的政策文本多标签标注方法及系统；通过政策文件的单词语义理解、政策文件标签标注和智能信息提取，以解决现有的人工标注存在的大量资源浪费问题。

第一方面，本发明提供了基于图神经网络的政策文本多标签标注方法；

基于图神经网络的政策文本多标签标注方法，包括：

获取待标注的政策文本；

对待标注的政策文本进行预处理，对预处理后的政策文本进行分词；

将分词得到的单词和预先得到的加权单词向量，输入到训练后的全连接神经网络中，输出待标注政策文本的多标签。

第二方面，本发明提供了基于图神经网络的政策文本多标签标注系统；

基于图神经网络的政策文本多标签标注系统，包括：

获取模块，其被配置为：获取待标注的政策文本；

预处理模块，其被配置为：对待标注的政策文本进行预处理，对预处理后的政策文本进行分词；

输出模块，其被配置为：将分词得到的单词和预先得到的加权单词向量，输入到训练后的全连接神经网络中，输出待标注政策文本的多标签。

第三方面，本发明还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述第一方面所述的方法。

第四方面，本发明还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述的方法。

与现有技术相比，本发明的有益效果是：

1.高效的标签标注过程，利用廉价的计算资源，减少大量人工成本。

2.相较于人工，实现更加精准的标签标注，不会因为文件信息量的长短而产生标签标注的错漏。

3.及时性的政策文件多标签标注，快速进行所需政策文件的标签标注。

4.减少了主观差异性，不会因为不同的工人的主观判断不同而造成大量的标注标签的差异性。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为第一个实施例的方法流程图；

图2为第一个实施例的训练阶段的网络结构示意图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

本实施例提供了基于图神经网络的政策文本多标签标注方法；

如图1所示，基于图神经网络的政策文本多标签标注方法，包括：

S101：获取待标注的政策文本；

S102：对待标注的政策文本进行预处理，对预处理后的政策文本进行分词；

S103：将分词得到的单词和预先得到的加权单词向量，输入到训练后的全连接神经网络中，输出待标注政策文本的多标签。

进一步地，所述预先得到的加权单词向量为：

第一乘积与第二乘积之和；

其中，第一乘积，是指第一单词向量与第一权重的乘积；

第二乘积，是指第二单词向量与第二权重的乘积。

进一步地，如图2所示，所述预先得到的加权单词向量是在训练阶段获得的；训练阶段具体包括：

构建训练集，所述训练集为已知标签的若干个单词；

构建深度学习网络架构，所述深度学习网络架构包括：第一图神经网络、第二图神经网络和全连接神经网络；

其中，第一图神经网络的输入端用于输入单词和标签；

第一图神经网络对输入的单词和标签进行向量提取，得到第一单词向量；

第二图神经网络的输入端用于输入第一单词向量；

第二图神经网络对第一单词向量进行向量提取，得到第二单词向量；

第一单词特征向量与设定第一权重进行乘积处理，得到第一乘积；

第二单词特征向量与设定第二权重进行乘积处理，得到第二乘积；

第一乘积和第二乘积进行加和，得到加权单词向量；

将训练集中的单词和所述加权单词向量，作为全连接神经网络的输入值，将训练集中的标签作为全连接神经网络的输出值，对全连接神经网络进行训练，得到训练后的全连接神经网络。

进一步地，所述第一图神经网络和第二图神经网络的内部结构是一样的。

其中，所述第一图神经网络，获取步骤包括：

构建训练集，所述训练集为已知标签的若干个单词；

计算出每个单词对于标签的权重；将单词逆文本频率作为每个单词对于标签的权重；

基于每个单词对于标签的权重，计算出单词与单词之间的权重、单词与标签之间的权重；

其中，所述单词与单词之间的权重，通过逐点互信息来表示；

将单词和标签均视为图神经网络中的节点；将单词与单词之间的权重、单词与标签之间的权重，视为对应节点之间连接边的权重；得到第一图神经网络。

示例性的，每个单词对于标签的基于TF-IDF(Term Frequency-Inverse DocumentFrequency，单词逆文本频率)思想的权重P，计算公式表示为：

P＝TF*ILF (1)

TF＝目标单词在所属标签中出现的次数(2)

ILF＝log(标签总数/(1+包含目标单词的标签总数)) (3)

其中ILF(Inverse Label Frequency，逆标签频率)是类比于IDF的符号表示。

单词之间的PMI(Pointwise Mutual Information，逐点互信息)，计算公式表示为：

PMI(x,y)＝p(x,y)/[p(x)*p(y)] (4)

其中p(x)表示x出现的概率，P(x,y)表示x,y共现的概率。

进一步地，所述S101：获取待标注的政策文本；具体包括：

采用爬取方式，获取待标注的政策文本。

进一步地，所述S102：对待标注的政策文本进行预处理，对预处理后的政策文本进行分词；

采用正则函数，对待标注的政策文本进行清洗，得到政策文本的正文内容；

通过分词库，对政策文本的正文内容进行分词处理；

通过词频统计，去除词频低于设定阈值的单词。

示例性的，采用正则函数，对待标注的政策文本进行清洗，得到政策文本的正文内容；具体是指通过python的re正则函数库将从网络上爬取到的政策文件进行清洗，提取到政策文件的正文内容。

示例性的，所述通过分词库，对政策文本的正文内容进行分词处理；具体是指：通过jieba分词库的jieba.cut()函数对提取后的政策文本正文内容进行默认模式的分词。

应理解的，所述通过词频统计，去除词频低于设定阈值的单词；具体包括：

再经过单词的词频统计，去除掉词频比较低的单词，也就是在所有的文本中总计出现次数比较少的单词，来简化政策文件中包含的冗余文本信息。

进一步地，所述政策文件的正文内容，既包括当前政策文件的题目，也包括正文中所包含的书名号中的政策的题目。

进一步地，所述方法还包括S104：对标注好的结果进行分类存储。

通过两层的图神经网络提取输入的以标签和单词构成的邻接矩阵的1跳和2跳的信息，这里的信息可以理解为对应于图结构中的每个节点，所包含在标签和单词构建成的图结构数据中的某种有利于进行多标签分类任务的节点及其邻居的信息，而1跳表示两个节点之间通过一条边直接相连，而2跳表示两个节点之间通过两条边间接连接；在实际的程序中，信息是以低维空间中的向量的形式表现的。

而后分别以不同权重w1和w2进行将两层图神经网络GCN提取到的信息进行权重的平衡，再以拼接的方式将第一层和第二层的图神经网络GCN提取的信息结合起来，作为经过图神经网络GCN提取到的词向量，而提取到的词向量不仅仅是单词的语义理解的数值表示，同时也是作为单词语义理解部分的输出。

通过将两层GCN的输出再与输入文本向量相乘获得对应政策文本的文本向量，作为全连接网络的输入，经由两层全连接层，输出维度设定为标签的总数，对每个维度的输出值通过sigmoid函数将其限制在0-1的范围内，超过设定阈值就把最终对应标签的数值输出为1，反之设置为0，来表示对文本向量的多标签标注结果，最终实现政策文件的标签标注。

训练过程结束之后就可以固定单词语义理解部分所获得的所有词向量的实际数值，之后进行新的政策文件的多标签标注，只需要输入政策文件包含单词的0、1向量，与已经训练好的词向量矩阵相乘，把结果输入到起到分类作用的参数固定的全连接网络中，就可以得到多标签。

最终的模型公式如下：

Output＝W₃B(W₁δ(W⁽¹⁾X):W₂δ(W⁽²⁾δ(W⁽¹⁾X))) (4)

其中，W⁽¹⁾和W⁽²⁾分别表示第一层的GCL(Graph Convolutional Layers，图卷积层)的参数和第二层GCL的参数，W₁和W₂则是代表了结合两层GCL的信息的权重，W₃则代表了全连接层的参数，最后得到输出的logits，δ代表了ReLU激活函数。

基于所获取到的政策标签标注结果，将数据存储到对应文件中，并展示进行标注的政策文本的标签结果。

根据本发明的政府政策标签标注方法及其工作方法能够自动的进行政策稳健的多标签标注和存储，形成了便于用户查询和了解标注后的信息，整个过程无需人工干预，自动完成。

本发明的政策文件多标签标注方法，能够自动、快速以及准确的标注政府政策网公布的政策文件，具有标注政策效率更高、存储数据更精准、标注结果减少了大量主观因素的优点。

针对现有电子政务中政府公布的政策文献都是通过网页进行公布的，为此本发明提供政府的政策文件多标签标注方法，通过将政府公布的政策文件的网页采集为政策原文并进行标注，从而实现政府政策稳健的的自动、及时、精确的多标签标注并展示。

示例性的，S101：获取待标注的政策文本和S102：对待标注的政策文本进行预处理，对预处理后的政策文本进行分词；实现智能信息提取功能：以一条简单的爬虫爬取的原始政策文本为例，例如“<span style＝"line-height:150％；font-family:宋体；font-size:16px；">3月18日，“建融公租通”政银合作发布会在唐山举行。唐山市政府同建行河北省分行、雄安建信住房服务有限责任公司签署《唐山市公共租赁住房政企合作协议》，标志着建行“建融公租通”业务在唐山率先落地，我省在智慧公租方面迈出开拓性的一步。</span></p>”，通过python的re正则函数库将从网络上爬取到的政策文件进行清洗，提取到政策文件的正文内容“3月18日，“建融公租通”政银合作发布会在唐山举行。唐山市政府同建行河北省分行、雄安建信住房服务有限责任公司签署《唐山市公共租赁住房政企合作协议》，标志着建行“建融公租通”业务在唐山率先落地，我省在智慧公租方面迈出开拓性的一步。”，去除掉冗余的网页文本，同时通过jieba分词库的jieba.cut()函数对提取后的政策文本正文内容进行默认模式的分词，再经过单词的词频统计，去除掉词频比较低的单词，也就是在所有的文本中总计出现次数比较少的单词，来简化政策文件中包含的冗余文本信息。通过re正则函数库提取政策文本的题目和正文中的书名中的政策文件，作为政策文本的主要内容：“河北省智慧公租率先唐山落地唐山市公共租赁住房政企合作协议”，保存到txt文件中。

与现有的技术相比，本发明的政策文件多标签标注方法效率更高，资源开销更少，形成便于用户查询和了解的标签标注结果。

实施例二

本实施例提供了基于图神经网络的政策文本多标签标注系统；

基于图神经网络的政策文本多标签标注系统，包括：

获取模块，其被配置为：获取待标注的政策文本；

此处需要说明的是，上述获取模块、预处理模块和输出模块对应于实施例一中的步骤S101至S103，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。

所提出的系统，可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时，可以有另外的划分方式，例如多个模块可以结合或者可以集成到另外一个系统，或一些特征可以忽略，或不执行。

实施例三

本实施例还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述实施例一所述的方法。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元及算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

实施例四

本实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一所述的方法。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于图神经网络的政策文本多标签标注方法，其特征是，包括：

获取待标注的政策文本；

将分词得到的单词和预先得到的加权单词向量，输入到训练后的全连接神经网络中，输出待标注政策文本的多标签；

所述预先得到的加权单词向量是在训练阶段获得的；训练阶段具体包括：

构建训练集，所述训练集为已知标签的若干个单词；

其中，第一图神经网络的输入端用于输入单词和标签；

第二图神经网络的输入端用于输入第一单词向量；

第一乘积和第二乘积进行加和，得到加权单词向量；

2.如权利要求1所述的基于图神经网络的政策文本多标签标注方法，其特征是，所述预先得到的加权单词向量为：

第一乘积与第二乘积之和；

其中，第一乘积，是指第一单词向量与第一权重的乘积；

第二乘积，是指第二单词向量与第二权重的乘积。

3.如权利要求1所述的基于图神经网络的政策文本多标签标注方法，其特征是，所述第一图神经网络和第二图神经网络的内部结构是一样的。

4.如权利要求1所述的基于图神经网络的政策文本多标签标注方法，其特征是，所述第一图神经网络，获取步骤包括：

构建训练集，所述训练集为已知标签的若干个单词；

5.如权利要求1所述的基于图神经网络的政策文本多标签标注方法，其特征是，获取待标注的政策文本；具体包括：

采用爬取方式，获取待标注的政策文本。

6.如权利要求1所述的基于图神经网络的政策文本多标签标注方法，其特征是，对待标注的政策文本进行预处理，对预处理后的政策文本进行分词；

通过分词库，对政策文本的正文内容进行分词处理；

通过词频统计，去除词频低于设定阈值的单词。

7.基于图神经网络的政策文本多标签标注系统，其特征是，包括：

获取模块，其被配置为：获取待标注的政策文本；

输出模块，其被配置为：将分词得到的单词和预先得到的加权单词向量，输入到训练后的全连接神经网络中，输出待标注政策文本的多标签；

构建训练集，所述训练集为已知标签的若干个单词；

其中，第一图神经网络的输入端用于输入单词和标签；

第二图神经网络的输入端用于输入第一单词向量；

第一乘积和第二乘积进行加和，得到加权单词向量；

8.一种电子设备，其特征是，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述权利要求1-6任一项所述的方法。

9.一种计算机可读存储介质，其特征是，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-6任一项所述的方法。