CN109446523A

CN109446523A - 基于BiLSTM和条件随机场的实体属性抽取模型

Info

Publication number: CN109446523A
Application number: CN201811238436.9A
Authority: CN
Inventors: 刘德彬; 陈玮; 孙世通; 严维; 严开
Original assignee: Chongqing Yu Yu Da Data Technology Co Ltd
Current assignee: Chongqing Yucun Technology Co ltd
Priority date: 2018-10-23
Filing date: 2018-10-23
Publication date: 2019-03-08
Anticipated expiration: 2038-10-23
Also published as: CN109446523B

Abstract

本发明公开了一种基于BiLSTM和条件随机场的实体属性抽取模型，包括如下步骤：1)将训练样本语料按字进行标注，作为输入文本进行one‑hot编码，得到one‑hot编码后的输入文本矩阵；2)将one‑hot编码后的输入文本矩阵输入到Embedding层中，得到词向量三维矩阵；3)将词向量三维矩阵输入到BiLSTM网络中，得到关于标签类别的概率分布发射矩阵；4)将关于标签类别的概率分布发射矩阵输入到条件随机场中，训练出状态转移矩阵；本发明采用双向长短期记忆网络和条件随机场的结合，构建实体属性抽取模型，对目标企业实体信息进行抽取，避免了采用传统的规则和概率统计方法而出现规则覆盖不全、准备语料工作量大且无法对长文本进行分析的缺点。

Description

基于BiLSTM和条件随机场的实体属性抽取模型

技术领域

本发明属于数据处理技术领域，具体涉及基于BiLSTM和条件随机场的实体属性抽取模型。

背景技术

根据《中华人民共和国公司法》规定，企业在经营期间有信息变动的可向公司登记机关申请变更登记，因此，当我们想了解一个企业或者公司的真实经营状况，可以从这个企业或者公司的工商变更情况入手。例如，当这个企业或者公司高管纷纷离职，就有可能说明这个企业或者公司正遭遇人事变动危机，可以对其进行关注和预警。

现有技术主要采用基于规则工商变更分析。其使用纯规则的方法进行工商变更信息的抽取，但是由于目前工商变更的数据源比较多，数据本身比较混乱，没有一个统一的规范，同一种变更类型可能有很多种数据格式。这就对规则的覆盖有很大的要求，而我们的规则往往不能覆盖所有的样例，这就使得利用纯规则的方法进行分析会产生很多问题，比如：抽取出来的人名或者机构名错误，漏抽数据等，这样对最后的结果会有很大的影响。再者就是这个规则的复杂度会很高，因为会涉及到人名、机构名的识别，所以使用纯规则进行分析会导致效率低下。

发明内容

为了解决现有技术存在的上述问题，本发明目的在于提供基于BiLSTM和条件随机场的实体属性抽取模型。

本发明所采用的技术方案为：

基于BiLSTM和条件随机场的实体属性抽取模型，包括如下步骤：

1)将训练样本语料按字进行标注，作为输入文本进行one-hot编码，得到 one-hot编码后的输入文本矩阵[N*max_seq]；

2)将one-hot编码后的输入文本矩阵[N*max_seq]输入到Embedding层中，得到词向量三维矩阵[N*max_seq*embedding_size]；

3)将词向量三维矩阵[N*max_seq*embedding_size]输入到BiLSTM网络中，得到关于标签类别的概率分布发射矩阵[N*max_seq*num_tag]；

4)将关于标签类别的概率分布发射矩阵[N*max_seq*num_tag]输入到条件随机场中，训练出状态转移矩阵[num_tag*num_tag]。

进一步，所述训练实体属性抽取模型步骤中，还包括对所训练的实体属性抽取模型进行模型评分和模型优化的步骤。

更进一步，所述将训练样本语料按字进行标注包括如下步骤：

定义训练样本的实体类别和属性结构；

训练样本语料的准备和打标。

更进一步，所述定义训练样本的实体类别和属性结构包括：

定义实体类别包括机构名和人名；

定义属性字段为类型字段、起始位字段、截止位字段和主体字段中的一种或多种。

更进一步，所述训练样本语料的准备和打标包括标注机构名起始位标签、机构名中间标签、机构名结束位标签、人名起始位标签、人名中间标签、人名结束位标签、其他文字标签。

本发明的有益效果为：

本发明采用双向长短期记忆网络(Bidirectional LSTM,BiLSTM)和条件随机场(conditional random fields)的结合，构建实体属性抽取模型，对目标企业实体信息进行抽取，从而实现对目标企业工商变更情况进行分析；BiLSTM可自己学习文本之间的信息，不再需要复杂的特征工程，且对长文本有很好的支持，避免了采用传统的规则和概率统计方法而出现规则覆盖不全、准备语料工作量大且无法对长文本进行分析的缺点；而加入条件随机场则更能够利用文本这间的相互信息，使其生成的结果更可靠。

附图说明

图1为本发明流程图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步阐述。

S101、定义训练样本的实体类别和属性结构。

实体类别可以是机构名(ORG)和人名(PER)。

针对每一类实体，定义其标准化的属性结构。在一示例性实施例中，定义人名/机构名的属性结构为：

S102、训练样本语料的准备和打标。

在一示例性实施例中，字标注规范和含义如下：

B-ORG代表机构名起始位标签

I-ORG代表机构名中间标签

E-ORG代表机构名结束位标签

B-PER代表人名起始位标签

I-PER代表人名中间标签

E-PER代表人名结束位标签

B-POS代表职位起始位标签

I-POS代表职位中间标签

E-POS代表职位结束位标签

O代表其他文字

按以上规范，完成训练样本每个字的打标。语料打标完成后，后续程序可以理解文本中实体的含义，方便机器对文本进行处理。

S103、训练实体属性抽取模型。

采用双向长短期记忆网络(Bidirectional LSTM,BiLSTM)和条件随机场(conditional random fields)的结合，构建实体属性抽取模型。

双向长短期记忆网络(Bidirectional LSTM,BiLSTM)包含前向LSTM与后向LSTM两组模块，可获取上下文长时间长范围的相关联依赖关系，捕获前后文实体特征，获取更多实体之间的时空相关性，并能从两个方向上排除干扰实体等噪声对神经网络模型的影响，极大助力对长期依赖关系的挖掘，提取出对信息抽取及实体关系识别等至关重要的高层语义特征。相对贝叶斯网络，LSTM 及其变种的优势是能捕捉到实体间的长序列关系，但其推理能力和可解释性较差。

条件随机场(conditional random fields)是一种判别式概率模型，是随机场的一种，常用于标注或分析序列资料，如自然语言文字或是生物序列。如马尔可夫随机场，条件随机场为具有无向的图模型，图中的顶点代表随机变量，顶点间的连线代表随机变量间的相依关系，在条件随机场中，随机变量Y的分布为条件机率，给定的观察值则为随机变量X。原则上，条件随机场的图模型布局是可以任意给定的，一般常用的布局是链结式的架构，链结式架构不论在训练(training)、推论(inference)、或是解码(decoding)上，都存在效率较高的算法可供演算。

BiLSTM的优势是能够记住上下文信息，极大助力对长期依赖关系的挖掘，对语义理解有很大的帮助，但如果直接用它来进行标注任务，就会有一个问题，BiLSTM属于时序模型，所以它的输出只针对当前字符，属于局部最优解。而条件随机场则对模板的要求很高，覆盖全面的模板才能够让模型学到很多上下文的信息，但往往会有模板覆盖不全的情况出现。BiLSTM可以获取上下文的信息，但需要的是一个求解的模型，而条件随机场可以生成全局最优解，但它需要上下文的信息，因此，本发明结合BiLSTM和条件随机场这两个模型，来构建一个优势互补的完整模型。

训练实体属性抽取模型包括如下步骤：

1)将训练样本语料按字进行标注，作为输入文本进行one-hot编码，得到 one-hot编码后的输入文本矩阵[N*max_seq]。[N*max_seq]矩阵用来训练词向量，其中，N代表batch_size也就是批次大小，max_seq代表整个批次中最大句子长度，用来将整个批次进行对齐操作。

2)将one-hot编码后的输入文本矩阵[N*max_seq]输入到Embedding层当中，得到词向量三维矩阵[N*max_seq*embedding_size]。[N*max_seq* embedding_size]代表将one-hot形式的输入文本以词向量的方式进行表示，其可表示词与词之间的相似程度。其中，embedding_size代表字向量的大小，它代表整个词向量的维度，往往可以影响模型的整体表现。

3)将词向量三维矩阵[N*max_seq*embedding_size]输入到BiLSTM网络中，得到关于标签类别的概率分布发射矩阵[N*max_seq*num_tag]。[N* max_seq*num_tag]是一个关于标签类别的概率分布，分别表示的是输入文本的每个字为每个标签的概率，其中num_tag为标签的总数目。

4)将关于标签类别的概率分布发射矩阵[N*max_seq*num_tag]输入到条件随机场中，训练出状态转移矩阵[num_tag*num_tag]，方便以后求解。状态转移矩阵[num_tag*num_tag]代表某个标签转移至其他标签的概率。

在S103训练实体属性抽取模型步骤中，还包括对所训练的实体属性抽取模型进行模型评分和模型优化的步骤，以保证训练的实体属性抽取模型能够准确的抽取出目标文本的实体属性。

模型评分：

Bi-LSTM的输出矩阵为P，其中代表词ω_i映射到的非归一化概率。对于CRF来说，我们假定存在一个转移矩阵A，则代表转移到的转移概率。

对于输入序列X对应的输出tag序列y，定义每一个输出tag序列y的分数 s(X,y)为：

利用Softmax函数，Y_X为整个状态序列，我们为每一个正确的tag序列y定义一个概率值，即似然概率p(y|X)：

因而在训练中，我们只需要最大化似然概率p(y|X)即可，利用对数似然估计：

所以我们将损失函数定义为-log(p(y|X))，就可以利用梯度下降法来优化模型。

本发明不局限于上述可选实施方式，任何人在本发明的启示下都可得出其他各种形式的产品，但不论在其形状或结构上作任何变化，凡是落入本发明权利要求界定范围内的技术方案，均落在本发明的保护范围之内。

Claims

1.基于BiLSTM和条件随机场的实体属性抽取模型，其特征在于，包括如下步骤：

1)将训练样本语料按字进行标注，作为输入文本进行one-hot编码，得到one-hot编码后的输入文本矩阵[N*max_seq]；

2.根据权利要求1所述的基于BiLSTM和条件随机场的实体属性抽取模型，其特征在于，所述训练实体属性抽取模型步骤中，还包括对所训练的实体属性抽取模型进行模型评分和模型优化的步骤。

3.根据权利要求1所述的基于BiLSTM和条件随机场的实体属性抽取模型，其特征在于，所述将训练样本语料按字进行标注包括如下步骤：

定义训练样本的实体类别和属性结构；

训练样本语料的准备和打标。

4.根据权利要求3所述的基于BiLSTM和条件随机场的实体属性抽取模型，其特征在于，所述定义训练样本的实体类别和属性结构包括：

定义实体类别包括机构名和人名；

5.根据权利要求3所述的基于BiLSTM和条件随机场的实体属性抽取模型，其特征在于，所述训练样本语料的准备和打标包括标注机构名起始位标签、机构名中间标签、机构名结束位标签、人名起始位标签、人名中间标签、人名结束位标签、其他文字标签。