CN112257442B

CN112257442B - 一种基于扩充语料库神经网络的政策文件信息提取方法

Info

Publication number: CN112257442B
Application number: CN202011033636.8A
Authority: CN
Inventors: 李军锋; 廖敏; 张磊; 冯梅; 向彦任; 李济; 万勤; 陈乔松; 曹宏剑; 胡高浩
Original assignee: Chongqing Productivity Promotion Center; Chongqing University of Post and Telecommunications
Current assignee: Chongqing Productivity Promotion Center; Chongqing University of Post and Telecommunications
Priority date: 2020-09-27
Filing date: 2020-09-27
Publication date: 2023-01-24
Anticipated expiration: 2040-09-27
Also published as: CN112257442A

Abstract

本发明提供了一种基于扩充语料库神经网络的政策文件信息提取方法，包括：构建政策文件语料库；基于构建的政策文件语料库进行模型训练以生成政策文件信息提取模型；利用政策文件信息提取模型对目标政策文件进行提取。本发明的方法能够在政策文件含有大量特定的表达方式、用词措辞和专业性词汇等情况下，有效的识别实体，更精准的提取文件信息。

Description

一种基于扩充语料库神经网络的政策文件信息提取方法

技术领域

本发明属于自然语言处理技术领域，更具体地讲，涉及一种基于扩充语料库神经网络的政策文件信息提取方法。

背景技术

政策文件是指国家党政机关等部门或组织，以正式标准化的语言文字，对在一定时期内需要达到的目标、完成的任务、遵循的原则、采取的步骤以及实施的方式等进行规定的文字材料，例如通知、规划、实施方案等。党政机关的相关职能部门需要对收到的政策文件进行研究解读，对文件核心内容进行通知转发，或进一步提出符合本地实际情况的实施细则并督促落实。

目前，利用自然语言处理技术提取文件信息得到了广泛的应用，让计算机代替人力去完成文件信息提取、文件分类、信息存档及转发等重复且繁琐的工作，大幅提升了工作效率。政策文件属于文件中的一种，同样可以利用自然语言处理技术对政策文件信息进行提取。

在当前的现有技术中，对政策文件信息提取主要包括以下两个方面的不足。一方面，现有语料库包含的政策文件语料不专业，含有大量与政策文件相关性较低的语料；另一方面，使用现有开源语料库训练出来的模型，对政策文件进行信息提取的时候效果并不理想，主要的问题表现在无法正确划分实体。例如，在对同一机构或部门不同的名称（全称、简称、一个机构多块牌子等）无法识别为统一实体；名称特殊或名称较长的专项计划被识别为两个或多个实体并出现歧义；部分部门领导同志的姓名识别有误并出现歧义等等。这些歧义或错误信息会对下一步的文件分类、转发等工作造成困难。具体来说，例如，中华人民共和国工业和信息化部是该部门的全称，但是政策文件中的其他称谓，如工业和信息化部、工信部、国家航天局、国家原子能机构等名称都指该部门。在现有的信息提取技术中，当文件中出现全称、简称共用，或在不同文件中对涉及到该部门的不同职责领域时使用别名时，会将他们识别为不同实体，降低了文件信息提取和分类的准确性，加大了文件转发的工作量，降低了工作效率。

发明内容

针对现有技术中存在的不足，本发明的目的之一在于解决上述现有技术中存在的一个或多个问题。例如，本发明的目的之一在于提供一种关键字抽取效率以及准确率均较高的基于扩充语料库神经网络的政策文件信息提取方法。

本发明提供了一种基于扩充语料库神经网络的政策文件信息提取方法，包括以下步骤：构建政策文件语料库；基于构建的政策文件语料库进行模型训练以生成政策文件信息提取模型；利用政策文件信息提取模型对目标政策文件进行提取，其中，构建政策文件语料库包括：对现有开源语料库进行筛选，保留与政策文件相关性大于80%的语料，并将现有开源语料库中的其它语料删除；收集现有政策文件，整理分类后得到政策文件常用词语语料集、政府各部门领导名单语料集以及政策文件目录语料集，并对现有政策文件中出现的一机构对应多名称的语料进行标注；对政策文件常用词语语料集、政府各部门领导名单语料集以及政策文件目录语料集定期更新并加入筛选后的现有开源语料库中，得到初始政策文件语料库；对包含政策文件的网页进行爬取，人工阅读后提取政策文件信息并将其加入初始政策文件语料库，得到扩充后政策文件语料库；对扩充后政策文件语料库进行标注，完成政策文件语料库的构建。

与现有技术相比，本发明的有益效果至少包含以下中的至少一项：

（1）本发明的提取方法能够在政策文件含有大量特定的表达方式、用词措辞、专业性词汇、复杂实体名等情况下，有效的识别实体，更精准的提取文件框架及文件信息，能够将人从解读文件内容的工作中解脱出来，从而把人力更多地投入到对文件内容的研究和落实等工作中去；

（2）本发明的构建方法能够构建专业、特有的政策文件语料库，包含政策文件语料丰富、全面；基于构建的政策文件语料库训练用于提取政策性文件的模型，训练的模型在实体识别、政策性文件内容解读方面更加准确，提高了关键字抽取的效率和准确率，为文件落实、相关文件信息的重点推送等工作奠定良好的基础。

附图说明

通过下面结合附图进行的描述，本发明的上述和其他目的和特点将会变得更加清楚，其中：

图1示出了本发明一个示例性实施例的模型训练后得到政策文件信息提取模型流程示意图；

图2示出了本发明一个示例性实施例的利用政策文件信息提取模型对目标政策文件进行提取的流程示意图。

具体实施方式

在下文中，将结合附图和示例性实施例详细地描述根据本发明的基于扩充语料库神经网络的政策文件信息提取方法。

本发明的一方面提供了一种基于扩充语料库神经网络的政策文件信息提取方法。在本发明的基于扩充语料库神经网络的政策文件信息提取方法的一个示例性实施例中，可以包括：

S01，构建政策文件语料库。

S02，基于构建的政策文件语料库进行模型训练以生成政策文件信息提取模型。

S03，利用政策文件信息提取模型对目标政策文件进行提取。

对于S01，构建政策文件语料库可以包括：

S101，对现有开源语料库进行筛选，保留与政策文件相关性大于80%的语料，并将现有开源语料库中的其它语料删除。在对现有开源语料库进行筛选的过程中，可以保留百度百科、维基百科以及人民日报等语料库中绝大部分语料，删除和政策文件相关性较差的微博、金融新闻等语料库。保留与政策相关性大，删除与政策文件相关小的语料，能够使构建的政策文件语料库更加专业。可以保留与政策文件相关性大于85%的语料，例如，可以保留相关性为90%的语料。保留的相关性越高，政策文件语料库的专业性更高。

S102，收集现有政策文件，整理分类后得到政策文件常用词语语料集、政府各部门领导名单语料集以及政策文件目录语料集，并对现有政策文件中出现的一机构对应多名称的语料进行标注。在现有的语料库基础上，收集并整理现有的政策性文件，分类汇总后得到政策文件常用词语语料集、政府各部门领导名单语料集以及政策文件目录语料集。同时，对一机构对应多名称的语料进行人工标注，确保该机构可以识别为同一个实体。一机构对应多名称，是指一个机构可能有多种名称。例如，中华人民共和国工业和信息化部是该部门的全称，工业和信息化部、工信部、国家航天局、国家原子能机构等名称都指该部门。当文件中同时出现中华人民共和国工业和信息化部、工信部以及国家航天局时，经过人工标注后，能够对上述三种不同的叫法名称识别为同一部门。在不同的文件，同一机构对应多个名称同样适用。通过对 “一机构多名称”进行人工标注，增加了文件信息提取和分类的准确性，减小了文件转发的工作量，提供了工作效率。这里的机构同样包含部门等。在政策文件常用词语语料集中可以包含公文常用语料，特别是一些在普通文章中不常使用语料，例如“狠抓”“兹”“为荷”“此复”等语料。政策文件目录语料集可以包含近5年或近10年上级机关下发的文件信息，包括文件标题、文号、发布层次等作为语料。

S103，对政策文件常用词语语料集、政府各部门领导名单语料集以及政策文件目录语料集定期更新并加入筛选后的现有开源语料库中，得到初始政策文件语料库。

S104，对包含政策文件的网页进行爬取，人工阅读后提取政策文件信息并将其加入初始政策文件语料库，得到扩充后政策文件语料库。对初始政策文件语料库进行扩充，通过爬虫爬取需要的政策文件信息，人工阅读爬取的文件信息，保留部门或机构官方网站发布且文件信息完整的语料，去掉非官方渠道发布或转发的、重复的、文件信息不完整的语料。

S105，对扩充后政策文件语料库进行标注，完成政策文件语料库的构建。标注关键信息，标注时可采用构建“黑名单词典”，即同时多人标注，然后取多人识别的黑名单词典的交集作为标注结果。标注时可以使用THULAC中文词法分析工具包对政策文件进行中文分词（4-tag法）和词性标注。THULAC标注能力强大，准确率高，速度较快。

标注的词性可以包括：n/名词，np/人名，ns/地名，ni/机构名，nz/其它专名，m/数词，q/量词，mq/数量词，t/时间词，f/方位词，s/处所词，v/动词，vm/能愿动词，vd/趋向动词，a/形容词，d/副词，h/前接成分，k/后接成分，i/习语，j/简称，r/代词，c/连词，p/介词，u/助词，y/语气助词，e/叹词，o/拟声词，g/语素，w/标点，x/其它。

对于S02，政策文件语料库构建完毕后，进入模型训练阶段。模型训练阶段主要可以包括政策文件语料库数据集的读取、特征的转换、模型训练以及参数保存。基于构建的政策文件语料库进行模型训练以生成政策文件信息提取模型可以包括:

S201，对构建的政策文件语料库进行预处理，生成训练集和验证集。首先，将构建的政策文件语料库汇总为文件格式，并可以将文本数据分为两个部分，分别为Train:train.tsv（训练集）和Evaluate: dev.tsv（验证集）。上述两个部分可以按照(7~8):(2~3)进行划分。按照上述比例划分，能够确保训练集损失不太多的情况下，充分评估模型效果。如果训练集数据划分过少，容易导致相对少数据模型与实际预测的完全数据模型偏差较大。例如，按照7:3或者8:2进行划分。也可是使用K-folds进行交叉验证。对于Train和Evaluate，一列为需要做分类的文本数据，另一列则是对应的Label。

S202，基于BERT预训练模型读取训练集和验证集数据，生成包含序号、中文文本以及类别的第一列表。BERT预训练模型可以为谷歌的中文模型“BERT-Base,Chinese”。下载预训练模型后，将构建的政策文件语料库在此预训练模型上进行训练。采用Pytorch的BERT代码，训练阶段首先读取政策文件语料库数据，一般包括两个模块，分别是基类模块和用于自己的数据读取的模块。根据自己的文件格式不同可以对读取方式进行修改。在数据读取完毕后，可以得到一个包含序号、中文本和类别的第一列表。

S203，对第一列表进行特征转换得到第一特征值。列表获取后，可以通过BERT的convert_examples_to_features将列表转换为第一特征值。

S204，将第一特征值输入BERT预训练模型进行模型训练。转换后得到的第一特征值就可以作为输入，用于模型的训练。BERT模型训练主要采用Mask LM和Next SentencePrediction两种策略。在将单词序列输入给 BERT 之前，每个序列中有 15％的词被[MASK] token 替换。然后模型尝试基于序列中其他未被 mask (掩盖)的单词上下文来预测被掩盖的原词。这需要在编码器的输出上添加一个分类层，用softmax计算词汇表中每一个词的概率，用以分类。为了理解两个句子之间的关系，BERT 训练过程中还使用了NextSentence Prediction（下一句预测）。模型会从数据集抽取两句话，其中 B 句有 50% 的概率是 A 句的下一句，然后将这两句话转化前面所述的输入特征。随机遮掩（Mask 掉）输入序列中 15% 的词，并要求 Transformer 预测这些被遮掩的词，以及 B 句是 A 句下一句的概率这两个任务。训练时基于Google 提供的模型训练源码，其文本分类的代码放在run_classifier.py 中，提供了4 个基准数据集上的测试代码，对应 XnliProcessor，MnliProcessor，MrpcProcessor 和 ColaProcessor ，然后根据本发明文本分类要求改写Processor类即可。

S205，利用Adam优化函数进行优化训练，获取最佳模型参数，得到政策文件信息提取模型。

进一步地，对于S205，可以通过以下方法得到最佳模型参数：

S2051，采用Adam优化函数，利用训练中的模型对每个epoch在验证集上进行验证，每个epoch后调整模型参数并生成每个epoch对应的F1分数。在模型训练时，可以采用BERT专用的Adam优化函数，对每一个epoch，训练中的模型都会在验证集上进行验证，并给出对应的F1分数（F1分数可以表示为衡量分类模型精度的一个指标，表示召回率和精确率的调和平均数，取值范围0-1之间，分数越高则代表分类能力越强，用于综合反应整体指标）。生成得到F1分数的方法可以为常规使用方法。对于每一个epoch，均会对模型参数进行相应的调整，下一个epoch就可以得到不同的F1分数。理论上来讲，随着对模型参数的调整，F1分数是会逐步提升的。这里，调整的模型参数可以包括神经网络各层的偏置、权重以及kernel、beta参数等。可以利用验证集调整模型参数，通过训练得到模型后，模型会使用验证集来验证模型的效果。模型参数的调整，就是去拟合预测验证集得到的标签逐渐趋近于验证集原本的标签的过程，此过程中模型参数是训练过程中模型自行调整的。在逐步拟合的过程中，F1分数是不断提高的。

S2052，对F1分数进行判定，根据判定结果，确定最佳模型参数，其中，判定包括：

若F1分数大于0.95，则停止训练，保存此时的模型参数，此时的模型参数即为最佳模型参数；

若F1分数不大于0.95，对F1分数进一步判定，若F1分数大于0.9且相邻两个epoch对应的F1分数变化小于千分之一，则停止训练，保存此时的模型参数，反之，则继续进行模型训练。将模型的正确率设定在0.95或者大于0.9且稳定，可以确保政策文件信息提取的准确性。

本发明采用BERT模型，对下游任务进行fine-tune，从而构成Embedding层，同样使用双向LSTM层以及最后的CRF层来完成序列预测。相比传统NLP（自然语言）处理方法，BERT所使用的Transformer抽取特征能力更强。并且，BERT的一体化融合特征方式比双向拼接融合特征能力也更强，在标准数据集中效果提升明显。BERT 模型是将预训练模型和下游任务模型结合在一起的，即在做下游任务时仍然是用BERT模型，而且天然支持文本分类任务，在做文本分类任务时不需要对模型做修改。结合Bert-NER和特定的分词、词性标注等中文语言处理方式，能获得更高的准确率和更好的效果，同时能在政策文件领域的中文信息抽取任务中取得优异的效果。

进一步地，对连续多个epoch对应的F1分数进行比较，若F1分数没有提升，则设置早停系数，停止模型训练。训练过程中设置早停系数，能够在连续多个训练的性能都没有继续优化时停止训练过程。

进一步地，如图1所示，图1为得到政策文件信息提取模型流程示意图，对现有政策文件中出现的一机构多名称进行人工标注。对包含政策文件的网页进行爬取，人工阅读后提取政策文件信息并将其加入初始政策文件语料库中，扩充开源预料集。然后加载预训练模型，即加载BERT-Base,Chinese模型。加载完毕后读取训练集和验证集数据，进行特征转换，模型训练。在模型训练过程中利用验证集调整模型参数。生成每个epoch对应的F1分数，对F1分数的大小进行判定，若是大于0.95，则保持模型参数；若模型分数稳定（F1分数，相邻两个epoch对应的F1分数变化小于千分之一，千分位变化小于1）且大于0.9，则保存模型参数，若否，则继续训练。

进一步地，如图2所示，利用政策文件信息提取模型对目标政策文件进行提取可以包括：

S301，加载政策文件信息提取模型。

S302，读取目标政策文件信息数据。利用政策文件信息提取模型读取目标文件信息数据，生成包含序号、中文文本以及类别的第二列表。

S302，特征转换。对第二列表进行特征转换，得到第二特征值。

S303，模型提取。将第二特征值输入政策文件信息提取模型，政策文件信息提取模型进行提取，得到提取结果。

需要说明的是，本发明的第一、第二仅用于区分，并不对名称和顺序构成限定。

进一步地，在构件政策文件语料库中还包括在对现有政策文件中出现的一机构对应多名称的语料进行标注的同时对名称特殊或名称较长的专项计划进行标注。

本发明的另一方面提供了一种政策文件语料库构建方法。在政策文件语料库构建方法的一个示例性实施例中，构建方法可以包括以下步骤：

A、对现有开源语料库进行筛选，保留与政策文件相关性大于80%的语料，并将现有开源语料库中的其它语料删除。

B、收集现有政策文件，整理分类后得到政策文件常用词语语料集、政府各部门领导名单语料集以及政策文件目录语料集，并对现有政策文件中出现的一机构对应多名称的语料进行标注。

C、对政策文件常用词语语料集、政府各部门领导名单语料集以及政策文件目录语料集定期更新并加入筛选后的现有开源语料库中，得到初始政策文件语料库。

D、对包含政策文件的网页进行爬取，人工阅读后提取政策文件信息并将其加入初始政策文件语料库，得到扩充后政策文件语料库。

E、对扩充后政策文件语料库进行标注，完成政策文件语料库的构建。

进一步地，步骤A~E记载的构建方法可以与上述S101~S105的步骤一致。

尽管上面已经通过结合示例性实施例描述了本发明，但是本领域技术人员应该清楚，在不脱离权利要求所限定的精神和范围的情况下，可对本发明的示例性实施例进行各种修改和改变。

Claims

1.一种基于扩充语料库神经网络的政策文件信息提取方法，其特征在于，包括以下步骤：

构建政策文件语料库；

基于构建的政策文件语料库进行模型训练以生成政策文件信息提取模型；

利用政策文件信息提取模型对目标政策文件进行提取，其中，构建政策文件语料库包括：

对现有开源语料库进行筛选，保留与政策文件相关性大于80％的语料，并将现有开源语料库中的其它语料删除；

收集现有政策文件，整理分类后得到政策文件常用词语语料集、政府各部门领导名单语料集以及政策文件目录语料集，并对现有政策文件中出现的一机构对应多名称的语料进行标注；

对政策文件常用词语语料集、政府各部门领导名单语料集以及政策文件目录语料集定期更新并加入筛选后的现有开源语料库中，得到初始政策文件语料库；

对包含政策文件的网页进行爬取，人工阅读后提取政策文件信息并将其加入初始政策文件语料库，得到扩充后政策文件语料库；

对扩充后政策文件语料库进行标注，完成政策文件语料库的构建，其中，

基于构建的政策文件语料库进行模型训练以生成政策文件信息提取模型包括以下步骤：

对构建的政策文件语料库进行预处理，生成训练集和验证集；

基于BERT预训练模型读取训练集和验证集数据，生成包含序号、中文文本以及类别的第一列表；

对第一列表进行特征转换得到第一特征值；

将第一特征值输入BERT预训练模型进行模型训练；

利用Adam优化函数进行优化训练，获取最佳模型参数，得到政策文件信息提取模型；其中，

利用Adam优化函数进行优化训练，获取最佳模型参数包括以下步骤：

采用Adam优化函数，利用训练中的模型对每个epoch在验证集上进行验证，每个epoch后调整模型参数并生成每个epoch对应的F1分数；

对F1分数进行判定，根据判定结果，确定最佳模型参数，其中，判定包括：

若F1分数不大于0.95，则对F1分数做进一步判定，若F1分数大于0.9且相邻两个epoch生成的F1分数变化小于千分之一，则停止训练，保存此时的模型参数即为最佳模型参数，反之，则继续进行模型训练；其中，

利用训练中的模型对每个epoch在验证集上进行验证包括：对连续多个epoch对应的F1分数进行比较，若F1分数没有提升，则设置早停系数，停止模型训练。

2.根据权利要求1所述的基于扩充语料库神经网络的政策文件信息提取方法，其特征在于，对扩充后政策文件语料库进行标注包括：

基于THULAC中文词法分析工具，同时多人标注，取多人标注后的交集作为标注结果。

3.根据权利要求1所述的基于扩充语料库神经网络的政策文件信息提取方法，其特征在于，训练集和验证集中含有的数据量比值为(7～8):(2～3)。

4.根据权利要求1至2任一项所述的基于扩充语料库神经网络的政策文件信息提取方法，其特征在于，利用政策文件信息提取模型对目标政策文件进行提取包括以下步骤：

政策文件信息提取模型读取目标政策文件信息数据，生成包含序号、中文文本以及类别的第二列表；

对第二列表进行特征转换，得到第二特征值；

将第二特征值输入政策文件信息提取模型进行信息提取，得到提取结果。

5.根据权利要求1至2任一项所述的基于扩充语料库神经网络的政策文件信息提取方法，其特征在于，基于构建的政策文件语料库进行模型训练以生成政策文件信息提取模型包括利用Mask LM和Next Sentence Prediction两种策略进行模型训练。

6.根据权利要求1至2任一项所述的基于扩充语料库神经网络的政策文件信息提取方法，其特征在于，政府各部门领导名单语料集包括领导姓名、工作地方、单位级别以及职务。

7.一种政策文件语料库构建方法，其特征在于，包括以下步骤：

对第一列表进行特征转换得到第一特征值；

将第一特征值输入BERT预训练模型进行模型训练；