CN110297913A

CN110297913A - 一种电子公文实体抽取方法

Info

Publication number: CN110297913A
Application number: CN201910507540.1A
Authority: CN
Inventors: 陈达纲; 李泽源; 李泽松; 刘昆南; 宋亚军; 王鹏
Original assignee: Division Big Data Research Institute Co Ltd
Current assignee: Division Big Data Research Institute Co Ltd
Priority date: 2019-06-12
Filing date: 2019-06-12
Publication date: 2019-10-01

Abstract

本发明提供了一种电子公文实体抽取方法，包括如下步骤：A.预处理；B.构造特征；C.训练实体抽取模型；D.获取语料；E.获取词向量；F.训练算法模型。本发明采用传统的序列标注算法与深度学习算法相结合，利用传统序列算法需要少语料标注的优点，采用半监督的方法扩充语料，解决深度学习算法需要人工标注大量语料的费时费力问题；在CRF模型中添加最大正向及逆向词典、句法和语义特征，充分考虑了实体词出现的前后边界词特性，让算法更具泛化能力；采用dilated CNN与BiLSTM‑CRF相结合，dilated CNN将字符级向量与字符级位置特征作为外部特征，与词性向量一起拼接到词向量中，可以一定程度表达出更多的语义和上下相关信息。

Description

一种电子公文实体抽取方法

技术领域

本发明涉及一种电子公文实体抽取方法，具体涉及一种基于半监督的dilatedCNN-BiLSTM-CRF的电子公文实体抽取方法。

背景技术

公文是由特定部门机关撰写,不仅具有法律效力的政策活动证据,而且包含大量的专业政策知识，其中蕴含大量的实体信息，如：人名、地名、发文机关、组织机构名、科研项目名称、时间、事件等，只要是业务需要的特殊文本片段都可以称为实体，抽取这些实体或概念是公文分词、依存句法分析、语法分析等工作的前提，对公文本体构建、知识图谱构造以及潜在语义分析等工作有着重要作用。因此，如何更为精准地从公文文本中识别出实体成为了当前的研究热点。

然而，随着社会时代的发展，法律法规等政策性公文文件数量逐渐增加，其中所包含的新生词也会不断增加，相关的领域实体也在不断丰富，并且公文领域长实体居多(如：四川省发展和改革委员会、四川省科学技术厅)，与普通词汇差距大，一般的分词工具也很难实现对公文细分领域的准确分词，这些都为正确提取实体信息带来了挑战。当前，工业界所采用的方法主要包括传统机器学习方法：将实体抽取任务转化为序列标注任务，使用HMM、MEMM、CRF等方法，CRF是目前主流的实体抽取方法，需要标注的语料不需要太多，但需要熟悉公文领域实体的专家参与人工构建特征，这是一个长期的过程；基于深度学习的方法：深度学习无论从准去率、召回率还是F1值都优于传统序列标注算法，深度学习广泛采用：RNN-CRF和CNN-CRF，BiLSTM+CRF算法，不依赖于特征工程，且取得了较高的准确率和召回率，它通过两层长短记忆神经网络(LSTM)学习文本中蕴含的特征，可以省去人工特征构建这一繁琐任务。由于BiLSTM+CRF算法具有长的记忆功能，但输入是词袋模型，忽略了词之间的上下文信息，且不能解决多义词的问题，本文通过增加dilated CNN层，将字符级向量与字符级位置特征作为外部特征，与词性向量一起拼接到词向量中，再输入到BiLSTM+CR网络，这样可以一定程度表达出更多的语义和上下相关信息此外对，同时dilated CNN支持并行化可以加快模型的收敛速度。但深度学习方法，一般需要大量标注语料，否则极易出现过拟合，无法达到预期的泛化能力。

发明内容

为解决上述技术问题，本发明提供了一种电子公文实体抽取方法，该电子公文实体抽取方法能够有效提高实体识别的准确率及召回率。

本发明通过以下技术方案得以实现。

本发明提供的一种电子公文实体抽取方法，包括如下步骤：

A.预处理：利用爬虫系统获取政府公文的文本数据，将文本数据存入数据库中，并对文本数据进行专家标注；

B.构造特征：根据专家标注对文本数据提取CRF特征，CRF特征包括特征词本身、词性、词长、左右信息熵、TF_IDF、公文领域词典位置、基于词典的前向最大匹配分词、基于词典的后向最大匹配分词、基于LTP的句法及基于LTP的语义特征；

C.训练实体抽取模型：根据提取得到的CRF特征，通过CRF++训练实体抽取模型；

D.获取语料：利用实体抽取模型，对文本数据进行语料扩充抽取，确保语料条数不小于5000；

E.获取词向量：将得到的语料通过Bert算法表示成词向量；

F.训练算法模型：以词向量作为训练数据，以dilated CNN-BiLSTM-CRF算法的网络层作为模型架构，训练得到政府公文实体抽取算法模型。

所述dilated CNN-BiLSTM-CRF算法是指，由输入至输出依次为dilated CNN、BiLSTM、CRF模型的算法。

所述步骤B包括如下步骤：

B1.标记词性：通过人工标注的方式对特征词的词性进行标注；

B2.计算词的长度：对每个特征词计算词长度其中w_i为W中的字；

B3.计算左右信息熵：计算左信息熵为计算右信息熵为

B4.计算TF_IDF：计算词频再计算逆向文档频率然后计算TF_IDF为TF_IDF＝TF·IDF，其中count(w，d)为单词w在文档d中的出现次数，xize(d)为文档d中总的单词个数，n为文档总数，docs(w，d)为单词w所出现的文件数；

B5.匹配分词：通过公文领域专家建立领域词典，从左向右取待切分汉语句的maxlen个字符作为匹配字段与字典匹配，如果匹配保存结果，不匹配减少一个字继续重复此步骤，直到所取字符串为空；

B6.计算基于LTP的句法特征：通过LTP标出语句子的语法成分；

B7.计算基于LTP的语义特征：通过LTP标出句子的谓词，并标注出论元的角色。

所述步骤B1中，标注规范采用哈工大LTP词性规范。

所述maxlen取值为8。

所述步骤C中通过CRF++训练实体抽取模型包含如下步骤：

C1.确定特征模板：CRF特征模板中包括一元特征Unigram及二元特征Bigram，在给定的观察序列X时，某个待定标记序列Y的概率为exp(∑_j(λ_it_j(y_i-1，y_i，x，i))+∑_k(μ_kS_k(y_i，x，i))),其中t_j(y_i-1，y_i，x，i)为转移函数，s_k(y_i，x，i)为状态函数，λ_i为t_j的权重，μ_k为s_k的权重；

C2.模型训练及预测：以CRF特征模板和标注好的训练数据作为输入，以实体抽取模型为输出，调用CRF++工具进行训练。

所述步骤F中，训练轮数为400～750。

所述CRF特征模板中，一元特征Unigram的特征窗口为5。

本发明的有益效果在于：采用传统的序列标注算法与深度学习算法相结合，利用传统序列算法需要少语料标注的优点，采用半监督的方法扩充语料，解决深度学习算法需要人工标注大量语料的费时费力问题；在CRF模型中添加最大正向及逆向词典、句法和语义特征，充分考虑了实体词出现的前后边界词特性，让算法更具泛化能力；采用dilated CNN与BiLSTM-CRF相结合，dilated CNN将字符级向量与字符级位置特征作为外部特征，与词性向量一起拼接到词向量中，可以一定程度表达出更多的语义和上下相关信息。

附图说明

图1是本发明的流程示意图；

图2是本发明中dilated CNN-BiLSTM-CRF算法的架构示意图。

具体实施方式

下面进一步描述本发明的技术方案，但要求保护的范围并不局限于所述。

如图1和图2所示的一种电子公文实体抽取方法，包括如下步骤：

A.预处理：从政府网站爬取公文相关数据，大数据平台将文本清洗后存入HBase中，专家标注(采用B、I、E、S、O标准)政府领域内公文中的实体(2000条左右)；

B.构造特征：根据专家标注对文本数据提取CRF特征，CRF特征包括特征词本身、词性、词长、左右信息熵、TF_IDF、公文领域词典位置、基于词典的前向/后向最大匹配分词、基于LTP的句法及语义角色特征等；

C.训练实体抽取模型：基于步骤B构建的特征将标注好的语料进行处理，通过CRF++训练出实体抽取模型；

D.获取语料：将未标注的语料通过步骤C得到的模型抽取出实体，经专家审核将标注正确的公文实体继续作为语料，反复重复扩充到足够语料(1w条以上)；

E.获取词向量：将步骤D得到的语料通过Bert算法表示成词向量；

F.训练算法模型：将步骤E作为输入，设计dilated CNN-BiLSTM-CRF算法的网络层结构，通过参数及网络结构优化后，最终训练得到公文实体抽取算法模型。

所述步骤B包括如下步骤：

B3.计算左右信息熵：

计算左信息熵为

计算右信息熵为

B4.计算TF_IDF：计算词频再计算逆向文档频率0.01是平滑系数，然后计算TF_IDF为TF_IDF＝TF·IDF，其中count(w，d)为单词w在文档d中的出现次数，size(d)为文档d中总的单词个数，n为文档总数，docs(w，D)为单词w所出现的文件数；

B5.匹配分词：通过公文领域专家建立领域词典，从左向右取待切分汉语句的maxlen(公文领域长词较多，最优取8)个字符作为匹配字段与字典匹配，如果匹配保存结果，不匹配减少一个字继续重复此步骤，直到所取字符串为空；

B6.计算基于LTP的句法特征：通过LTP标出语句子的“主谓宾”，“定状补”等语法成分，如SBV、VOB、ATT等；

B7.计算基于LTP的语义特征：通过LTP标出句子的谓词，并标注出论元(与谓词搭配的名词)的角色，如：施事者(Agent)、受事者(Patient)、客体(Theme)。

所述步骤B1中，标注规范采用哈工大LTP词性规范。

所述步骤C中通过CRF++训练实体抽取模型包含如下步骤：

C1.确定特征模板：CRF特征模板中包括一元特征Unigram及二元特征Bigram，在给定的观察序列X时，某个待定标记序列Y的概率为exp(∑_j(λ_it_j(y_i-1，y_i，x，i))+∑k(μ_ks_k(y_i，x，i)))，其中t_j(y_i-1，y_i，x，i)为转移函数，s_k(y_i，x，i)为状态函数，λ_i为t_j的权重，μ_k为s_k的权重；

C2.模型训练及预测：下载CRF++工具包，运行脚本：crf_learn–a MIRA–f 3–c 1.5template train.data model_name，–a MIRA–f 3–c 1.5都是调优参数，template是步骤②生成的模板文件，train.data标注好的训练数据，model_name生成的模型文件名，执行完成后会生成model_name文件，将未标注的数据test.data预处理后调用：crf_test–m model_name test.data>result,经模型预测出的结果存入result文件，抽取出文件中文实体标记序列即为文本实体。

对于步骤F，具体的，将步骤D中CRF算法预测的实体语料，经审核后扩充到标准语料库中，当其数量达到(1w—2w条)后，通过Bert框架训练出词向量，将训练的词向量再输入到dilated CNN-BiLSTM-CRF，最后通过500多轮的迭代，最终收敛到一个设定阈值停止迭代，即训练出可以在线上运行的实体识别模型。

所述CRF特征模板中，一元特征Unigram的特征窗口为5，即当前位置的前后两个词，以下是根据词特征构成的模板，还有其他特征构成的模板暂不列出，CRF会根据如下模板生成的状态特征

#Unigram

U00:％x[-2,0]

U01:％x[-1,0]

U02:％x[0,0]

U03:％x[1,0]

U04:％x[2,0]

U05:％x[-2,0]/％x[-1,0]/％x[0,0]

U06:％x[-1,0]/％x[0,0]/％x[1,0]

U07:％x[0,0]/％x[1,0]/％x[2,0]

U08:％x[-1,0]/％x[0,0]

U09:％x[0,0]/％x[1,0]

二元特征：在一元特征基础上，增加了前一个标注结果，直接写B工具会自动根据特征及前后标注结果一起产生特征函数，CRF会根据模板生成t_j(y_i-1，y_i，x，i)的转移特征。

实施例1

采用上述方案作为Dilated CNN-BiLSTM-CRF算法方案，同时对比采用LSTM、BiLSTM、BiLSTM-CRF三种算法的方案，进行电子公文实体抽取，得到如表1所示的结果：

表1对比结果表

模型	精确率/％	召回率/％	F值/％
				LSTM	81.65	80.17	80.90
BiLSTM	83.22	82.59	82.90
				BiLSTM-CRF	86.57	85.23	85.89
Dilated CNN-BiLSTM-CRF	91.59	91.08	91.33

Claims

1.一种电子公文实体抽取方法，其特征在于：包括如下步骤：

E.获取词向量：将得到的语料通过Bert算法表示成词向量；

2.如权利要求1所述的电子公文实体抽取方法，其特征在于：所述dilated CNN-BiLSTM-CRF算法是指，由输入至输出依次为dilated CNN、BiLSTM、CRF模型的算法。

3.如权利要求1所述的电子公文实体抽取方法，其特征在于：所述步骤B包括如下步骤：

B3.计算左右信息熵：计算左信息熵为计算右信息熵为

B4.计算TF_IDF：计算词频再计算逆向文档频率然后计算TF_IDF为TF_IDF＝TF·IDF，其中count(w，d)为单词w在文档d中的出现次数，size(d)为文档d中总的单词个数，n为文档总数，docs(w，D)为单词w所出现的文件数；

B6.计算基于LTP的句法特征：通过LTP标出语句子的语法成分；

4.如权利要求3所述的电子公文实体抽取方法，其特征在于：所述步骤B1中，标注规范采用哈工大LTP词性规范。

5.如权利要求3所述的电子公文实体抽取方法，其特征在于：所述maxlen取值为8。

6.如权利要求1所述的电子公文实体抽取方法，其特征在于：所述步骤C中通过CRF++训练实体抽取模型包含如下步骤：

C1.确定特征模板：CRF特征模板中包括一元特征Unigram及二元特征Bigram，在给定的观察序列X时，某个待定标记序列Y的概率为exp(∑_j(λ_it_j(y_i-1，y_i，x，i))+∑_k(μ_ks_k(y_i，x，i)))，其中t_j(y_i-1，y_i，x，i)为转移函数，s_k(y_i，x，i)为状态函数，λ_i为t_j的权重，μ_k为s_k的权重；

7.如权利要求1所述的电子公文实体抽取方法，其特征在于：所述步骤F中，训练轮数为400～750。

8.如权利要求6所述的电子公文实体抽取方法，其特征在于：所述CRF特征模板中，一元特征Unigram的特征窗口为5。