CN109446523B - 基于BiLSTM和条件随机场的实体属性抽取模型 - Google Patents
基于BiLSTM和条件随机场的实体属性抽取模型 Download PDFInfo
- Publication number
- CN109446523B CN109446523B CN201811238436.9A CN201811238436A CN109446523B CN 109446523 B CN109446523 B CN 109446523B CN 201811238436 A CN201811238436 A CN 201811238436A CN 109446523 B CN109446523 B CN 109446523B
- Authority
- CN
- China
- Prior art keywords
- matrix
- name
- bilstm
- extraction model
- conditional random
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 24
- 239000011159 matrix material Substances 0.000 claims abstract description 32
- 238000012549 training Methods 0.000 claims abstract description 23
- 239000013598 vector Substances 0.000 claims abstract description 12
- 230000007704 transition Effects 0.000 claims abstract description 7
- 230000008520 organization Effects 0.000 claims description 15
- 230000005540 biological transmission Effects 0.000 claims description 3
- 238000002360 preparation method Methods 0.000 abstract description 4
- 230000007547 defect Effects 0.000 abstract description 3
- 238000007619 statistical method Methods 0.000 abstract description 3
- 230000008859 change Effects 0.000 description 10
- 230000002457 bidirectional effect Effects 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 238000000034 method Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000009412 basement excavation Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000739 chaotic effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于BiLSTM和条件随机场的实体属性抽取模型,包括如下步骤:1)将训练样本语料按字进行标注,作为输入文本进行one‑hot编码,得到one‑hot编码后的输入文本矩阵;2)将one‑hot编码后的输入文本矩阵输入到Embedding层中,得到词向量三维矩阵;3)将词向量三维矩阵输入到BiLSTM网络中,得到关于标签类别的概率分布发射矩阵;4)将关于标签类别的概率分布发射矩阵输入到条件随机场中,训练出状态转移矩阵;本发明采用双向长短期记忆网络和条件随机场的结合,构建实体属性抽取模型,对目标企业实体信息进行抽取,避免了采用传统的规则和概率统计方法而出现规则覆盖不全、准备语料工作量大且无法对长文本进行分析的缺点。
Description
技术领域
本发明属于数据处理技术领域,具体涉及基于BiLSTM和条件随机场的实体属性抽取模型。
背景技术
根据《中华人民共和国公司法》规定,企业在经营期间有信息变动的可向公司登记机关申请变更登记,因此,当我们想了解一个企业或者公司的真实经营状况,可以从这个企业或者公司的工商变更情况入手。例如,当这个企业或者公司高管纷纷离职,就有可能说明这个企业或者公司正遭遇人事变动危机,可以对其进行关注和预警。
现有技术主要采用基于规则工商变更分析。其使用纯规则的方法进行工商变更信息的抽取,但是由于目前工商变更的数据源比较多,数据本身比较混乱,没有一个统一的规范,同一种变更类型可能有很多种数据格式。这就对规则的覆盖有很大的要求,而我们的规则往往不能覆盖所有的样例,这就使得利用纯规则的方法进行分析会产生很多问题,比如:抽取出来的人名或者机构名错误,漏抽数据等,这样对最后的结果会有很大的影响。再者就是这个规则的复杂度会很高,因为会涉及到人名、机构名的识别,所以使用纯规则进行分析会导致效率低下。
发明内容
为了解决现有技术存在的上述问题,本发明目的在于提供基于BiLSTM和条件随机场的实体属性抽取模型。
本发明所采用的技术方案为:
基于BiLSTM和条件随机场的实体属性抽取模型,包括如下步骤:
1)将训练样本语料按字进行标注,作为输入文本进行one-hot编码,得到one-hot编码后的输入文本矩阵[N*max_seq];
2)将one-hot编码后的输入文本矩阵[N*max_seq]输入到Embedding层中,得到词向量三维矩阵[N*max_seq*embedding_size];
3)将词向量三维矩阵[N*max_seq*embedding_size]输入到BiLSTM网络中,得到关于标签类别的概率分布发射矩阵[N*max_seq*num_tag];
4)将关于标签类别的概率分布发射矩阵[N*max_seq*num_tag]输入到条件随机场中,训练出状态转移矩阵[num_tag*num_tag]。
进一步,所述训练实体属性抽取模型步骤中,还包括对所训练的实体属性抽取模型进行模型评分和模型优化的步骤。
更进一步,所述将训练样本语料按字进行标注包括如下步骤:
定义训练样本的实体类别和属性结构;
训练样本语料的准备和打标。
更进一步,所述定义训练样本的实体类别和属性结构包括:
定义实体类别包括机构名和人名;
定义属性字段为类型字段、起始位字段、截止位字段和主体字段中的一种或多种。
更进一步,所述训练样本语料的准备和打标包括标注机构名起始位标签、机构名中间标签、机构名结束位标签、人名起始位标签、人名中间标签、人名结束位标签、其他文字标签。
本发明的有益效果为:
本发明采用双向长短期记忆网络(Bidirectional LSTM,BiLSTM)和条件随机场(conditional random fields)的结合,构建实体属性抽取模型,对目标企业实体信息进行抽取,从而实现对目标企业工商变更情况进行分析;BiLSTM可自己学习文本之间的信息,不再需要复杂的特征工程,且对长文本有很好的支持,避免了采用传统的规则和概率统计方法而出现规则覆盖不全、准备语料工作量大且无法对长文本进行分析的缺点;而加入条件随机场则更能够利用文本这间的相互信息,使其生成的结果更可靠。
附图说明
图1为本发明流程图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步阐述。
基于BiLSTM和条件随机场的实体属性抽取模型,包括如下步骤:
S101、定义训练样本的实体类别和属性结构。
实体类别可以是机构名(ORG)和人名(PER)。
针对每一类实体,定义其标准化的属性结构。在一示例性实施例中,定义人名/机构名的属性结构为:
S102、训练样本语料的准备和打标。
在一示例性实施例中,字标注规范和含义如下:
B-ORG代表机构名起始位标签
I-ORG代表机构名中间标签
E-ORG代表机构名结束位标签
B-PER代表人名起始位标签
I-PER代表人名中间标签
E-PER代表人名结束位标签
B-POS代表职位起始位标签
I-POS代表职位中间标签
E-POS代表职位结束位标签
O代表其他文字
按以上规范,完成训练样本每个字的打标。语料打标完成后,后续程序可以理解文本中实体的含义,方便机器对文本进行处理。
S103、训练实体属性抽取模型。
采用双向长短期记忆网络(Bidirectional LSTM,BiLSTM)和条件随机场(conditional random fields)的结合,构建实体属性抽取模型。
双向长短期记忆网络(Bidirectional LSTM,BiLSTM)包含前向LSTM与后向LSTM两组模块,可获取上下文长时间长范围的相关联依赖关系,捕获前后文实体特征,获取更多实体之间的时空相关性,并能从两个方向上排除干扰实体等噪声对神经网络模型的影响,极大助力对长期依赖关系的挖掘,提取出对信息抽取及实体关系识别等至关重要的高层语义特征。相对贝叶斯网络,LSTM及其变种的优势是能捕捉到实体间的长序列关系,但其推理能力和可解释性较差。
条件随机场(conditional random fields)是一种判别式概率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列。如马尔可夫随机场,条件随机场为具有无向的图模型,图中的顶点代表随机变量,顶点间的连线代表随机变量间的相依关系,在条件随机场中,随机变量Y的分布为条件机率,给定的观察值则为随机变量X。原则上,条件随机场的图模型布局是可以任意给定的,一般常用的布局是链结式的架构,链结式架构不论在训练(training)、推论(inference)、或是解码(decoding)上,都存在效率较高的算法可供演算。
BiLSTM的优势是能够记住上下文信息,极大助力对长期依赖关系的挖掘,对语义理解有很大的帮助,但如果直接用它来进行标注任务,就会有一个问题,BiLSTM属于时序模型,所以它的输出只针对当前字符,属于局部最优解。而条件随机场则对模板的要求很高,覆盖全面的模板才能够让模型学到很多上下文的信息,但往往会有模板覆盖不全的情况出现。BiLSTM可以获取上下文的信息,但需要的是一个求解的模型,而条件随机场可以生成全局最优解,但它需要上下文的信息,因此,本发明结合BiLSTM和条件随机场这两个模型,来构建一个优势互补的完整模型。
训练实体属性抽取模型包括如下步骤:
1)将训练样本语料按字进行标注,作为输入文本进行one-hot编码,得到one-hot编码后的输入文本矩阵[N*max_seq]。[N*max_seq]矩阵用来训练词向量,其中,N代表batch_size也就是批次大小,max_seq代表整个批次中最大句子长度,用来将整个批次进行对齐操作。
2)将one-hot编码后的输入文本矩阵[N*max_seq]输入到Embedding层当中,得到词向量三维矩阵[N*max_seq*embedding_size]。[N*max_seq*embedding_size]代表将one-hot形式的输入文本以词向量的方式进行表示,其可表示词与词之间的相似程度。其中,embedding_size代表字向量的大小,它代表整个词向量的维度,往往可以影响模型的整体表现。
3)将词向量三维矩阵[N*max_seq*embedding_size]输入到BiLSTM网络中,得到关于标签类别的概率分布发射矩阵[N*max_seq*num_tag]。[N*max_seq*num_tag]是一个关于标签类别的概率分布,分别表示的是输入文本的每个字为每个标签的概率,其中num_tag为标签的总数目。
4)将关于标签类别的概率分布发射矩阵[N*max_seq*num_tag]输入到条件随机场中,训练出状态转移矩阵[num_tag*num_tag],方便以后求解。状态转移矩阵[num_tag*num_tag]代表某个标签转移至其他标签的概率。
在S103训练实体属性抽取模型步骤中,还包括对所训练的实体属性抽取模型进行模型评分和模型优化的步骤,以保证训练的实体属性抽取模型能够准确的抽取出目标文本的实体属性。
模型评分:
利用Softmax函数,YX为整个状态序列,我们为每一个正确的tag序列y定义一个概率值,即似然概率p(y|X):
因而在训练中,我们只需要最大化似然概率p(y|X)即可,利用对数似然估计:
所以我们将损失函数定义为-log(p(y|X)),就可以利用梯度下降法来优化模型。
本发明采用双向长短期记忆网络(Bidirectional LSTM,BiLSTM)和条件随机场(conditional random fields)的结合,构建实体属性抽取模型,对目标企业实体信息进行抽取,从而实现对目标企业工商变更情况进行分析;BiLSTM可自己学习文本之间的信息,不再需要复杂的特征工程,且对长文本有很好的支持,避免了采用传统的规则和概率统计方法而出现规则覆盖不全、准备语料工作量大且无法对长文本进行分析的缺点;而加入条件随机场则更能够利用文本这间的相互信息,使其生成的结果更可靠。
本发明不局限于上述可选实施方式,任何人在本发明的启示下都可得出其他各种形式的产品,但不论在其形状或结构上作任何变化,凡是落入本发明权利要求界定范围内的技术方案,均落在本发明的保护范围之内。
Claims (2)
1.基于BiLSTM和条件随机场的实体属性抽取模型,其特征在于,包括如下步骤:
S101、定义训练样本的实体类别和属性结构:
定义实体类别包括机构名和人名;定义人名/机构名的属性结构为:
{
type:人名/机构名,
begin:文中起始位置
end:文中截止位置;
entity:实体名称
}
定义属性字段为类型字段、起始位字段、截止位字段和主体字段中的一种或多种;
S102、训练样本语料的准备和打标,B-ORG代表机构名起始位标签,I-ORG代表机构名中间标签,E-ORG代表机构名结束位标签,B-PER代表人名起始位标签,I-PER代表人名中间标签,E-PER代表人名结束位标签,B-POS代表职位起始位标签,I-POS代表职位中间标签,E-POS代表职位结束位标签,O代表其他文字;
S103、训练实体属性抽取模型,包括以下步骤:
1)将训练样本语料按字进行标注,作为输入文本进行one-hot编码,得到one-hot编码后的输入文本矩阵[N*max_seq];
2)将one-hot编码后的输入文本矩阵[N*max_seq]输入到Embedding层中,得到词向量三维矩阵[N*max_seq*embedding_size];
3)将词向量三维矩阵[N*max_seq*embedding_size]输入到BiLSTM网络中,得到关于标签类别的概率分布发射矩阵[N*max_seq*num_tag];
4)将关于标签类别的概率分布发射矩阵[N*max_seq*num_tag]输入到条件随机场中,训练出状态转移矩阵[num_tag*num_tag]。
2.根据权利要求1所述的基于BiLSTM和条件随机场的实体属性抽取模型,其特征在于,所述训练实体属性抽取模型步骤中,还包括对所训练的实体属性抽取模型进行模型评分和模型优化的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811238436.9A CN109446523B (zh) | 2018-10-23 | 2018-10-23 | 基于BiLSTM和条件随机场的实体属性抽取模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811238436.9A CN109446523B (zh) | 2018-10-23 | 2018-10-23 | 基于BiLSTM和条件随机场的实体属性抽取模型 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109446523A CN109446523A (zh) | 2019-03-08 |
CN109446523B true CN109446523B (zh) | 2023-04-25 |
Family
ID=65547837
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811238436.9A Active CN109446523B (zh) | 2018-10-23 | 2018-10-23 | 基于BiLSTM和条件随机场的实体属性抽取模型 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109446523B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110598203B (zh) * | 2019-07-19 | 2023-08-01 | 中国人民解放军国防科技大学 | 一种结合词典的军事想定文书实体信息抽取方法及装置 |
CN111159407B (zh) * | 2019-12-30 | 2022-01-28 | 北京明朝万达科技股份有限公司 | 训练实体识别和关系分类模型的方法、装置、设备及介质 |
CN113468335A (zh) * | 2020-03-30 | 2021-10-01 | 海信集团有限公司 | 实体隐含关系抽取方法及设备 |
CN111783436A (zh) * | 2020-06-03 | 2020-10-16 | 广州云趣信息科技有限公司 | 基于深度学习的自动提取商家信息的方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5319748A (en) * | 1992-04-30 | 1994-06-07 | Ricoh Company, Ltd. | Method and apparatus to manage picture and pageset for document processing |
CN108182295A (zh) * | 2018-02-09 | 2018-06-19 | 重庆誉存大数据科技有限公司 | 一种企业知识图谱属性抽取方法及系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130073541A1 (en) * | 2011-09-15 | 2013-03-21 | Microsoft Corporation | Query Completion Based on Location |
CN107992597B (zh) * | 2017-12-13 | 2020-08-18 | 国网山东省电力公司电力科学研究院 | 一种面向电网故障案例的文本结构化方法 |
CN108399240B (zh) * | 2018-02-28 | 2020-04-14 | 北京金堤科技有限公司 | 企业变更信息数据挖掘方法和系统 |
CN108255816A (zh) * | 2018-03-12 | 2018-07-06 | 北京神州泰岳软件股份有限公司 | 一种命名实体识别方法、装置及系统 |
-
2018
- 2018-10-23 CN CN201811238436.9A patent/CN109446523B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5319748A (en) * | 1992-04-30 | 1994-06-07 | Ricoh Company, Ltd. | Method and apparatus to manage picture and pageset for document processing |
CN108182295A (zh) * | 2018-02-09 | 2018-06-19 | 重庆誉存大数据科技有限公司 | 一种企业知识图谱属性抽取方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109446523A (zh) | 2019-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109446523B (zh) | 基于BiLSTM和条件随机场的实体属性抽取模型 | |
US11501182B2 (en) | Method and apparatus for generating model | |
CN113177124B (zh) | 一种垂直领域知识图谱构建方法及系统 | |
CN110110054A (zh) | 一种基于深度学习的从非结构化文本中获取问答对的方法 | |
CN109508459B (zh) | 一种从新闻中提取主题和关键信息的方法 | |
CN115151903A (zh) | 文本抽取方法及装置、计算机可读存储介质以及电子设备 | |
US20220300546A1 (en) | Event extraction method, device and storage medium | |
CN109388805A (zh) | 一种基于实体抽取的工商变更分析方法 | |
CN110222337A (zh) | 一种基于transformer和CRF的中文地址分词方法 | |
CN113434688B (zh) | 用于舆情分类模型训练的数据处理方法和装置 | |
CN111143574A (zh) | 一种基于少数民族文化知识图谱的查询及可视化系统构建方法 | |
CN110008467A (zh) | 一种基于迁移学习的缅甸语依存句法分析方法 | |
CN114580639A (zh) | 一种基于政务三元组自动抽取对齐的知识图谱构建的方法 | |
CN115526236A (zh) | 一种基于多模态对比学习的文本网络图分类方法 | |
CN114580424A (zh) | 一种用于法律文书的命名实体识别的标注方法和装置 | |
CN114398943B (zh) | 样本增强方法及其装置 | |
CN117171333A (zh) | 一种电力文件问答式智能检索方法及系统 | |
CN111209362A (zh) | 基于深度学习的地址数据解析方法 | |
CN113869054A (zh) | 一种基于深度学习的电力领域项目特征识别方法 | |
CN116522165B (zh) | 一种基于孪生结构的舆情文本匹配系统及方法 | |
CN112632978A (zh) | 基于端到端的变电站多元事件关系抽取的方法 | |
CN116166768A (zh) | 一种基于规则的文本知识抽取方法及系统 | |
CN114372454A (zh) | 文本信息抽取方法、模型训练方法、装置及存储介质 | |
Ren et al. | Named-entity recognition method of key population information based on improved BiLSTM-CRF model | |
CN110909547A (zh) | 一种基于改进深度学习的司法实体识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address |
Address after: 401121 Chongqing Yubei District Huangshan Avenue No. 53 with No. 2 Kirin C Block 9 Floor Patentee after: Chongqing Yucun Technology Co.,Ltd. Country or region after: China Address before: 401121 Chongqing Yubei District Huangshan Avenue No. 53 with No. 2 Kirin C Block 9 Floor Patentee before: CHONGQING SOCIALCREDITS BIG DATA TECHNOLOGY CO.,LTD. Country or region before: China |
|
CP03 | Change of name, title or address |