CN109446523B - 基于BiLSTM和条件随机场的实体属性抽取模型 - Google Patents

基于BiLSTM和条件随机场的实体属性抽取模型 Download PDF

Info

Publication number
CN109446523B
CN109446523B CN201811238436.9A CN201811238436A CN109446523B CN 109446523 B CN109446523 B CN 109446523B CN 201811238436 A CN201811238436 A CN 201811238436A CN 109446523 B CN109446523 B CN 109446523B
Authority
CN
China
Prior art keywords
matrix
name
bilstm
extraction model
conditional random
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811238436.9A
Other languages
English (en)
Other versions
CN109446523A (zh
Inventor
刘德彬
陈玮
孙世通
严维
严开
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Yucun Technology Co ltd
Original Assignee
Chongqing Socialcredits Big Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Socialcredits Big Data Technology Co ltd filed Critical Chongqing Socialcredits Big Data Technology Co ltd
Priority to CN201811238436.9A priority Critical patent/CN109446523B/zh
Publication of CN109446523A publication Critical patent/CN109446523A/zh
Application granted granted Critical
Publication of CN109446523B publication Critical patent/CN109446523B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于BiLSTM和条件随机场的实体属性抽取模型,包括如下步骤:1)将训练样本语料按字进行标注,作为输入文本进行one‑hot编码,得到one‑hot编码后的输入文本矩阵;2)将one‑hot编码后的输入文本矩阵输入到Embedding层中,得到词向量三维矩阵;3)将词向量三维矩阵输入到BiLSTM网络中,得到关于标签类别的概率分布发射矩阵;4)将关于标签类别的概率分布发射矩阵输入到条件随机场中,训练出状态转移矩阵;本发明采用双向长短期记忆网络和条件随机场的结合,构建实体属性抽取模型,对目标企业实体信息进行抽取,避免了采用传统的规则和概率统计方法而出现规则覆盖不全、准备语料工作量大且无法对长文本进行分析的缺点。

Description

基于BiLSTM和条件随机场的实体属性抽取模型
技术领域
本发明属于数据处理技术领域,具体涉及基于BiLSTM和条件随机场的实体属性抽取模型。
背景技术
根据《中华人民共和国公司法》规定,企业在经营期间有信息变动的可向公司登记机关申请变更登记,因此,当我们想了解一个企业或者公司的真实经营状况,可以从这个企业或者公司的工商变更情况入手。例如,当这个企业或者公司高管纷纷离职,就有可能说明这个企业或者公司正遭遇人事变动危机,可以对其进行关注和预警。
现有技术主要采用基于规则工商变更分析。其使用纯规则的方法进行工商变更信息的抽取,但是由于目前工商变更的数据源比较多,数据本身比较混乱,没有一个统一的规范,同一种变更类型可能有很多种数据格式。这就对规则的覆盖有很大的要求,而我们的规则往往不能覆盖所有的样例,这就使得利用纯规则的方法进行分析会产生很多问题,比如:抽取出来的人名或者机构名错误,漏抽数据等,这样对最后的结果会有很大的影响。再者就是这个规则的复杂度会很高,因为会涉及到人名、机构名的识别,所以使用纯规则进行分析会导致效率低下。
发明内容
为了解决现有技术存在的上述问题,本发明目的在于提供基于BiLSTM和条件随机场的实体属性抽取模型。
本发明所采用的技术方案为:
基于BiLSTM和条件随机场的实体属性抽取模型,包括如下步骤:
1)将训练样本语料按字进行标注,作为输入文本进行one-hot编码,得到one-hot编码后的输入文本矩阵[N*max_seq];
2)将one-hot编码后的输入文本矩阵[N*max_seq]输入到Embedding层中,得到词向量三维矩阵[N*max_seq*embedding_size];
3)将词向量三维矩阵[N*max_seq*embedding_size]输入到BiLSTM网络中,得到关于标签类别的概率分布发射矩阵[N*max_seq*num_tag];
4)将关于标签类别的概率分布发射矩阵[N*max_seq*num_tag]输入到条件随机场中,训练出状态转移矩阵[num_tag*num_tag]。
进一步,所述训练实体属性抽取模型步骤中,还包括对所训练的实体属性抽取模型进行模型评分和模型优化的步骤。
更进一步,所述将训练样本语料按字进行标注包括如下步骤:
定义训练样本的实体类别和属性结构;
训练样本语料的准备和打标。
更进一步,所述定义训练样本的实体类别和属性结构包括:
定义实体类别包括机构名和人名;
定义属性字段为类型字段、起始位字段、截止位字段和主体字段中的一种或多种。
更进一步,所述训练样本语料的准备和打标包括标注机构名起始位标签、机构名中间标签、机构名结束位标签、人名起始位标签、人名中间标签、人名结束位标签、其他文字标签。
本发明的有益效果为:
本发明采用双向长短期记忆网络(Bidirectional LSTM,BiLSTM)和条件随机场(conditional random fields)的结合,构建实体属性抽取模型,对目标企业实体信息进行抽取,从而实现对目标企业工商变更情况进行分析;BiLSTM可自己学习文本之间的信息,不再需要复杂的特征工程,且对长文本有很好的支持,避免了采用传统的规则和概率统计方法而出现规则覆盖不全、准备语料工作量大且无法对长文本进行分析的缺点;而加入条件随机场则更能够利用文本这间的相互信息,使其生成的结果更可靠。
附图说明
图1为本发明流程图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步阐述。
基于BiLSTM和条件随机场的实体属性抽取模型,包括如下步骤:
S101、定义训练样本的实体类别和属性结构。
实体类别可以是机构名(ORG)和人名(PER)。
针对每一类实体,定义其标准化的属性结构。在一示例性实施例中,定义人名/机构名的属性结构为:
Figure GDA0001867895080000031
Figure GDA0001867895080000041
S102、训练样本语料的准备和打标。
在一示例性实施例中,字标注规范和含义如下:
B-ORG代表机构名起始位标签
I-ORG代表机构名中间标签
E-ORG代表机构名结束位标签
B-PER代表人名起始位标签
I-PER代表人名中间标签
E-PER代表人名结束位标签
B-POS代表职位起始位标签
I-POS代表职位中间标签
E-POS代表职位结束位标签
O代表其他文字
按以上规范,完成训练样本每个字的打标。语料打标完成后,后续程序可以理解文本中实体的含义,方便机器对文本进行处理。
S103、训练实体属性抽取模型。
采用双向长短期记忆网络(Bidirectional LSTM,BiLSTM)和条件随机场(conditional random fields)的结合,构建实体属性抽取模型。
双向长短期记忆网络(Bidirectional LSTM,BiLSTM)包含前向LSTM与后向LSTM两组模块,可获取上下文长时间长范围的相关联依赖关系,捕获前后文实体特征,获取更多实体之间的时空相关性,并能从两个方向上排除干扰实体等噪声对神经网络模型的影响,极大助力对长期依赖关系的挖掘,提取出对信息抽取及实体关系识别等至关重要的高层语义特征。相对贝叶斯网络,LSTM及其变种的优势是能捕捉到实体间的长序列关系,但其推理能力和可解释性较差。
条件随机场(conditional random fields)是一种判别式概率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列。如马尔可夫随机场,条件随机场为具有无向的图模型,图中的顶点代表随机变量,顶点间的连线代表随机变量间的相依关系,在条件随机场中,随机变量Y的分布为条件机率,给定的观察值则为随机变量X。原则上,条件随机场的图模型布局是可以任意给定的,一般常用的布局是链结式的架构,链结式架构不论在训练(training)、推论(inference)、或是解码(decoding)上,都存在效率较高的算法可供演算。
BiLSTM的优势是能够记住上下文信息,极大助力对长期依赖关系的挖掘,对语义理解有很大的帮助,但如果直接用它来进行标注任务,就会有一个问题,BiLSTM属于时序模型,所以它的输出只针对当前字符,属于局部最优解。而条件随机场则对模板的要求很高,覆盖全面的模板才能够让模型学到很多上下文的信息,但往往会有模板覆盖不全的情况出现。BiLSTM可以获取上下文的信息,但需要的是一个求解的模型,而条件随机场可以生成全局最优解,但它需要上下文的信息,因此,本发明结合BiLSTM和条件随机场这两个模型,来构建一个优势互补的完整模型。
训练实体属性抽取模型包括如下步骤:
1)将训练样本语料按字进行标注,作为输入文本进行one-hot编码,得到one-hot编码后的输入文本矩阵[N*max_seq]。[N*max_seq]矩阵用来训练词向量,其中,N代表batch_size也就是批次大小,max_seq代表整个批次中最大句子长度,用来将整个批次进行对齐操作。
2)将one-hot编码后的输入文本矩阵[N*max_seq]输入到Embedding层当中,得到词向量三维矩阵[N*max_seq*embedding_size]。[N*max_seq*embedding_size]代表将one-hot形式的输入文本以词向量的方式进行表示,其可表示词与词之间的相似程度。其中,embedding_size代表字向量的大小,它代表整个词向量的维度,往往可以影响模型的整体表现。
3)将词向量三维矩阵[N*max_seq*embedding_size]输入到BiLSTM网络中,得到关于标签类别的概率分布发射矩阵[N*max_seq*num_tag]。[N*max_seq*num_tag]是一个关于标签类别的概率分布,分别表示的是输入文本的每个字为每个标签的概率,其中num_tag为标签的总数目。
4)将关于标签类别的概率分布发射矩阵[N*max_seq*num_tag]输入到条件随机场中,训练出状态转移矩阵[num_tag*num_tag],方便以后求解。状态转移矩阵[num_tag*num_tag]代表某个标签转移至其他标签的概率。
在S103训练实体属性抽取模型步骤中,还包括对所训练的实体属性抽取模型进行模型评分和模型优化的步骤,以保证训练的实体属性抽取模型能够准确的抽取出目标文本的实体属性。
模型评分:
Bi-LSTM的输出矩阵为P,其中
Figure GDA0001867895080000061
代表词ωi映射到
Figure GDA0001867895080000062
的非归一化概率。对于CRF来说,我们假定存在一个转移矩阵A,则
Figure GDA0001867895080000063
代表
Figure GDA0001867895080000064
转移到
Figure GDA0001867895080000065
的转移概率。
对于输入序列X对应的输出tag序列y,定义每一个输出tag序列y的分数s(X,y)为:
Figure GDA0001867895080000066
利用Softmax函数,YX为整个状态序列,我们为每一个正确的tag序列y定义一个概率值,即似然概率p(y|X):
Figure GDA0001867895080000071
因而在训练中,我们只需要最大化似然概率p(y|X)即可,利用对数似然估计:
Figure GDA0001867895080000072
所以我们将损失函数定义为-log(p(y|X)),就可以利用梯度下降法来优化模型。
本发明采用双向长短期记忆网络(Bidirectional LSTM,BiLSTM)和条件随机场(conditional random fields)的结合,构建实体属性抽取模型,对目标企业实体信息进行抽取,从而实现对目标企业工商变更情况进行分析;BiLSTM可自己学习文本之间的信息,不再需要复杂的特征工程,且对长文本有很好的支持,避免了采用传统的规则和概率统计方法而出现规则覆盖不全、准备语料工作量大且无法对长文本进行分析的缺点;而加入条件随机场则更能够利用文本这间的相互信息,使其生成的结果更可靠。
本发明不局限于上述可选实施方式,任何人在本发明的启示下都可得出其他各种形式的产品,但不论在其形状或结构上作任何变化,凡是落入本发明权利要求界定范围内的技术方案,均落在本发明的保护范围之内。

Claims (2)

1.基于BiLSTM和条件随机场的实体属性抽取模型,其特征在于,包括如下步骤:
S101、定义训练样本的实体类别和属性结构:
定义实体类别包括机构名和人名;定义人名/机构名的属性结构为:
{
type:人名/机构名,
begin:文中起始位置
end:文中截止位置;
entity:实体名称
}
定义属性字段为类型字段、起始位字段、截止位字段和主体字段中的一种或多种;
S102、训练样本语料的准备和打标,B-ORG代表机构名起始位标签,I-ORG代表机构名中间标签,E-ORG代表机构名结束位标签,B-PER代表人名起始位标签,I-PER代表人名中间标签,E-PER代表人名结束位标签,B-POS代表职位起始位标签,I-POS代表职位中间标签,E-POS代表职位结束位标签,O代表其他文字;
S103、训练实体属性抽取模型,包括以下步骤:
1)将训练样本语料按字进行标注,作为输入文本进行one-hot编码,得到one-hot编码后的输入文本矩阵[N*max_seq];
2)将one-hot编码后的输入文本矩阵[N*max_seq]输入到Embedding层中,得到词向量三维矩阵[N*max_seq*embedding_size];
3)将词向量三维矩阵[N*max_seq*embedding_size]输入到BiLSTM网络中,得到关于标签类别的概率分布发射矩阵[N*max_seq*num_tag];
4)将关于标签类别的概率分布发射矩阵[N*max_seq*num_tag]输入到条件随机场中,训练出状态转移矩阵[num_tag*num_tag]。
2.根据权利要求1所述的基于BiLSTM和条件随机场的实体属性抽取模型,其特征在于,所述训练实体属性抽取模型步骤中,还包括对所训练的实体属性抽取模型进行模型评分和模型优化的步骤。
CN201811238436.9A 2018-10-23 2018-10-23 基于BiLSTM和条件随机场的实体属性抽取模型 Active CN109446523B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811238436.9A CN109446523B (zh) 2018-10-23 2018-10-23 基于BiLSTM和条件随机场的实体属性抽取模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811238436.9A CN109446523B (zh) 2018-10-23 2018-10-23 基于BiLSTM和条件随机场的实体属性抽取模型

Publications (2)

Publication Number Publication Date
CN109446523A CN109446523A (zh) 2019-03-08
CN109446523B true CN109446523B (zh) 2023-04-25

Family

ID=65547837

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811238436.9A Active CN109446523B (zh) 2018-10-23 2018-10-23 基于BiLSTM和条件随机场的实体属性抽取模型

Country Status (1)

Country Link
CN (1) CN109446523B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598203B (zh) * 2019-07-19 2023-08-01 中国人民解放军国防科技大学 一种结合词典的军事想定文书实体信息抽取方法及装置
CN111159407B (zh) * 2019-12-30 2022-01-28 北京明朝万达科技股份有限公司 训练实体识别和关系分类模型的方法、装置、设备及介质
CN113468335A (zh) * 2020-03-30 2021-10-01 海信集团有限公司 实体隐含关系抽取方法及设备
CN111783436A (zh) * 2020-06-03 2020-10-16 广州云趣信息科技有限公司 基于深度学习的自动提取商家信息的方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5319748A (en) * 1992-04-30 1994-06-07 Ricoh Company, Ltd. Method and apparatus to manage picture and pageset for document processing
CN108182295A (zh) * 2018-02-09 2018-06-19 重庆誉存大数据科技有限公司 一种企业知识图谱属性抽取方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130073541A1 (en) * 2011-09-15 2013-03-21 Microsoft Corporation Query Completion Based on Location
CN107992597B (zh) * 2017-12-13 2020-08-18 国网山东省电力公司电力科学研究院 一种面向电网故障案例的文本结构化方法
CN108399240B (zh) * 2018-02-28 2020-04-14 北京金堤科技有限公司 企业变更信息数据挖掘方法和系统
CN108255816A (zh) * 2018-03-12 2018-07-06 北京神州泰岳软件股份有限公司 一种命名实体识别方法、装置及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5319748A (en) * 1992-04-30 1994-06-07 Ricoh Company, Ltd. Method and apparatus to manage picture and pageset for document processing
CN108182295A (zh) * 2018-02-09 2018-06-19 重庆誉存大数据科技有限公司 一种企业知识图谱属性抽取方法及系统

Also Published As

Publication number Publication date
CN109446523A (zh) 2019-03-08

Similar Documents

Publication Publication Date Title
CN109446523B (zh) 基于BiLSTM和条件随机场的实体属性抽取模型
US11501182B2 (en) Method and apparatus for generating model
CN113177124B (zh) 一种垂直领域知识图谱构建方法及系统
CN110110054A (zh) 一种基于深度学习的从非结构化文本中获取问答对的方法
CN109508459B (zh) 一种从新闻中提取主题和关键信息的方法
CN115151903A (zh) 文本抽取方法及装置、计算机可读存储介质以及电子设备
US20220300546A1 (en) Event extraction method, device and storage medium
CN109388805A (zh) 一种基于实体抽取的工商变更分析方法
CN110222337A (zh) 一种基于transformer和CRF的中文地址分词方法
CN113434688B (zh) 用于舆情分类模型训练的数据处理方法和装置
CN111143574A (zh) 一种基于少数民族文化知识图谱的查询及可视化系统构建方法
CN110008467A (zh) 一种基于迁移学习的缅甸语依存句法分析方法
CN114580639A (zh) 一种基于政务三元组自动抽取对齐的知识图谱构建的方法
CN115526236A (zh) 一种基于多模态对比学习的文本网络图分类方法
CN114580424A (zh) 一种用于法律文书的命名实体识别的标注方法和装置
CN114398943B (zh) 样本增强方法及其装置
CN117171333A (zh) 一种电力文件问答式智能检索方法及系统
CN111209362A (zh) 基于深度学习的地址数据解析方法
CN113869054A (zh) 一种基于深度学习的电力领域项目特征识别方法
CN116522165B (zh) 一种基于孪生结构的舆情文本匹配系统及方法
CN112632978A (zh) 基于端到端的变电站多元事件关系抽取的方法
CN116166768A (zh) 一种基于规则的文本知识抽取方法及系统
CN114372454A (zh) 文本信息抽取方法、模型训练方法、装置及存储介质
Ren et al. Named-entity recognition method of key population information based on improved BiLSTM-CRF model
CN110909547A (zh) 一种基于改进深度学习的司法实体识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: 401121 Chongqing Yubei District Huangshan Avenue No. 53 with No. 2 Kirin C Block 9 Floor

Patentee after: Chongqing Yucun Technology Co.,Ltd.

Country or region after: China

Address before: 401121 Chongqing Yubei District Huangshan Avenue No. 53 with No. 2 Kirin C Block 9 Floor

Patentee before: CHONGQING SOCIALCREDITS BIG DATA TECHNOLOGY CO.,LTD.

Country or region before: China

CP03 Change of name, title or address