CN109446523A - 基于BiLSTM和条件随机场的实体属性抽取模型 - Google Patents
基于BiLSTM和条件随机场的实体属性抽取模型 Download PDFInfo
- Publication number
- CN109446523A CN109446523A CN201811238436.9A CN201811238436A CN109446523A CN 109446523 A CN109446523 A CN 109446523A CN 201811238436 A CN201811238436 A CN 201811238436A CN 109446523 A CN109446523 A CN 109446523A
- Authority
- CN
- China
- Prior art keywords
- bilstm
- extraction model
- random field
- condition random
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 25
- 239000011159 matrix material Substances 0.000 claims abstract description 24
- 230000007246 mechanism Effects 0.000 claims description 11
- 238000002360 preparation method Methods 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 3
- 238000000034 method Methods 0.000 abstract description 6
- 230000007787 long-term memory Effects 0.000 abstract description 5
- 230000008859 change Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000002457 bidirectional effect Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 230000004075 alteration Effects 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000009412 basement excavation Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000000739 chaotic effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于BiLSTM和条件随机场的实体属性抽取模型,包括如下步骤:1)将训练样本语料按字进行标注,作为输入文本进行one‑hot编码,得到one‑hot编码后的输入文本矩阵;2)将one‑hot编码后的输入文本矩阵输入到Embedding层中,得到词向量三维矩阵;3)将词向量三维矩阵输入到BiLSTM网络中,得到关于标签类别的概率分布发射矩阵;4)将关于标签类别的概率分布发射矩阵输入到条件随机场中,训练出状态转移矩阵;本发明采用双向长短期记忆网络和条件随机场的结合,构建实体属性抽取模型,对目标企业实体信息进行抽取,避免了采用传统的规则和概率统计方法而出现规则覆盖不全、准备语料工作量大且无法对长文本进行分析的缺点。
Description
技术领域
本发明属于数据处理技术领域,具体涉及基于BiLSTM和条件随机场的实体属性抽取模型。
背景技术
根据《中华人民共和国公司法》规定,企业在经营期间有信息变动的可向公司登记机关申请变更登记,因此,当我们想了解一个企业或者公司的真实经营状况,可以从这个企业或者公司的工商变更情况入手。例如,当这个企业或者公司高管纷纷离职,就有可能说明这个企业或者公司正遭遇人事变动危机,可以对其进行关注和预警。
现有技术主要采用基于规则工商变更分析。其使用纯规则的方法进行工商变更信息的抽取,但是由于目前工商变更的数据源比较多,数据本身比较混乱,没有一个统一的规范,同一种变更类型可能有很多种数据格式。这就对规则的覆盖有很大的要求,而我们的规则往往不能覆盖所有的样例,这就使得利用纯规则的方法进行分析会产生很多问题,比如:抽取出来的人名或者机构名错误,漏抽数据等,这样对最后的结果会有很大的影响。再者就是这个规则的复杂度会很高,因为会涉及到人名、机构名的识别,所以使用纯规则进行分析会导致效率低下。
发明内容
为了解决现有技术存在的上述问题,本发明目的在于提供基于BiLSTM和条件随机场的实体属性抽取模型。
本发明所采用的技术方案为:
基于BiLSTM和条件随机场的实体属性抽取模型,包括如下步骤:
1)将训练样本语料按字进行标注,作为输入文本进行one-hot编码,得到 one-hot编码后的输入文本矩阵[N*max_seq];
2)将one-hot编码后的输入文本矩阵[N*max_seq]输入到Embedding层中,得到词向量三维矩阵[N*max_seq*embedding_size];
3)将词向量三维矩阵[N*max_seq*embedding_size]输入到BiLSTM网络中,得到关于标签类别的概率分布发射矩阵[N*max_seq*num_tag];
4)将关于标签类别的概率分布发射矩阵[N*max_seq*num_tag]输入到条件随机场中,训练出状态转移矩阵[num_tag*num_tag]。
进一步,所述训练实体属性抽取模型步骤中,还包括对所训练的实体属性抽取模型进行模型评分和模型优化的步骤。
更进一步,所述将训练样本语料按字进行标注包括如下步骤:
定义训练样本的实体类别和属性结构;
训练样本语料的准备和打标。
更进一步,所述定义训练样本的实体类别和属性结构包括:
定义实体类别包括机构名和人名;
定义属性字段为类型字段、起始位字段、截止位字段和主体字段中的一种或多种。
更进一步,所述训练样本语料的准备和打标包括标注机构名起始位标签、机构名中间标签、机构名结束位标签、人名起始位标签、人名中间标签、人名结束位标签、其他文字标签。
本发明的有益效果为:
本发明采用双向长短期记忆网络(Bidirectional LSTM,BiLSTM)和条件随机场(conditional random fields)的结合,构建实体属性抽取模型,对目标企业实体信息进行抽取,从而实现对目标企业工商变更情况进行分析;BiLSTM可自己学习文本之间的信息,不再需要复杂的特征工程,且对长文本有很好的支持,避免了采用传统的规则和概率统计方法而出现规则覆盖不全、准备语料工作量大且无法对长文本进行分析的缺点;而加入条件随机场则更能够利用文本这间的相互信息,使其生成的结果更可靠。
附图说明
图1为本发明流程图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步阐述。
基于BiLSTM和条件随机场的实体属性抽取模型,包括如下步骤:
S101、定义训练样本的实体类别和属性结构。
实体类别可以是机构名(ORG)和人名(PER)。
针对每一类实体,定义其标准化的属性结构。在一示例性实施例中,定义人名/机构名的属性结构为:
S102、训练样本语料的准备和打标。
在一示例性实施例中,字标注规范和含义如下:
B-ORG代表机构名起始位标签
I-ORG代表机构名中间标签
E-ORG代表机构名结束位标签
B-PER代表人名起始位标签
I-PER代表人名中间标签
E-PER代表人名结束位标签
B-POS代表职位起始位标签
I-POS代表职位中间标签
E-POS代表职位结束位标签
O代表其他文字
按以上规范,完成训练样本每个字的打标。语料打标完成后,后续程序可以理解文本中实体的含义,方便机器对文本进行处理。
S103、训练实体属性抽取模型。
采用双向长短期记忆网络(Bidirectional LSTM,BiLSTM)和条件随机场(conditional random fields)的结合,构建实体属性抽取模型。
双向长短期记忆网络(Bidirectional LSTM,BiLSTM)包含前向LSTM与后向LSTM两组模块,可获取上下文长时间长范围的相关联依赖关系,捕获前后文实体特征,获取更多实体之间的时空相关性,并能从两个方向上排除干扰实体等噪声对神经网络模型的影响,极大助力对长期依赖关系的挖掘,提取出对信息抽取及实体关系识别等至关重要的高层语义特征。相对贝叶斯网络,LSTM 及其变种的优势是能捕捉到实体间的长序列关系,但其推理能力和可解释性较差。
条件随机场(conditional random fields)是一种判别式概率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列。如马尔可夫随机场,条件随机场为具有无向的图模型,图中的顶点代表随机变量,顶点间的连线代表随机变量间的相依关系,在条件随机场中,随机变量Y的分布为条件机率,给定的观察值则为随机变量X。原则上,条件随机场的图模型布局是可以任意给定的,一般常用的布局是链结式的架构,链结式架构不论在训练(training)、推论(inference)、或是解码(decoding)上,都存在效率较高的算法可供演算。
BiLSTM的优势是能够记住上下文信息,极大助力对长期依赖关系的挖掘,对语义理解有很大的帮助,但如果直接用它来进行标注任务,就会有一个问题,BiLSTM属于时序模型,所以它的输出只针对当前字符,属于局部最优解。而条件随机场则对模板的要求很高,覆盖全面的模板才能够让模型学到很多上下文的信息,但往往会有模板覆盖不全的情况出现。BiLSTM可以获取上下文的信息,但需要的是一个求解的模型,而条件随机场可以生成全局最优解,但它需要上下文的信息,因此,本发明结合BiLSTM和条件随机场这两个模型,来构建一个优势互补的完整模型。
训练实体属性抽取模型包括如下步骤:
1)将训练样本语料按字进行标注,作为输入文本进行one-hot编码,得到 one-hot编码后的输入文本矩阵[N*max_seq]。[N*max_seq]矩阵用来训练词向量,其中,N代表batch_size也就是批次大小,max_seq代表整个批次中最大句子长度,用来将整个批次进行对齐操作。
2)将one-hot编码后的输入文本矩阵[N*max_seq]输入到Embedding层当中,得到词向量三维矩阵[N*max_seq*embedding_size]。[N*max_seq* embedding_size]代表将one-hot形式的输入文本以词向量的方式进行表示,其可表示词与词之间的相似程度。其中,embedding_size代表字向量的大小,它代表整个词向量的维度,往往可以影响模型的整体表现。
3)将词向量三维矩阵[N*max_seq*embedding_size]输入到BiLSTM网络中,得到关于标签类别的概率分布发射矩阵[N*max_seq*num_tag]。[N* max_seq*num_tag]是一个关于标签类别的概率分布,分别表示的是输入文本的每个字为每个标签的概率,其中num_tag为标签的总数目。
4)将关于标签类别的概率分布发射矩阵[N*max_seq*num_tag]输入到条件随机场中,训练出状态转移矩阵[num_tag*num_tag],方便以后求解。状态转移矩阵[num_tag*num_tag]代表某个标签转移至其他标签的概率。
在S103训练实体属性抽取模型步骤中,还包括对所训练的实体属性抽取模型进行模型评分和模型优化的步骤,以保证训练的实体属性抽取模型能够准确的抽取出目标文本的实体属性。
模型评分:
Bi-LSTM的输出矩阵为P,其中代表词ωi映射到的非归一化概率。对于CRF来说,我们假定存在一个转移矩阵A,则代表转移到的转移概率。
对于输入序列X对应的输出tag序列y,定义每一个输出tag序列y的分数 s(X,y)为:
利用Softmax函数,YX为整个状态序列,我们为每一个正确的tag序列y定义一个概率值,即似然概率p(y|X):
因而在训练中,我们只需要最大化似然概率p(y|X)即可,利用对数似然估计:
所以我们将损失函数定义为-log(p(y|X)),就可以利用梯度下降法来优化模型。
本发明采用双向长短期记忆网络(Bidirectional LSTM,BiLSTM)和条件随机场(conditional random fields)的结合,构建实体属性抽取模型,对目标企业实体信息进行抽取,从而实现对目标企业工商变更情况进行分析;BiLSTM可自己学习文本之间的信息,不再需要复杂的特征工程,且对长文本有很好的支持,避免了采用传统的规则和概率统计方法而出现规则覆盖不全、准备语料工作量大且无法对长文本进行分析的缺点;而加入条件随机场则更能够利用文本这间的相互信息,使其生成的结果更可靠。
本发明不局限于上述可选实施方式,任何人在本发明的启示下都可得出其他各种形式的产品,但不论在其形状或结构上作任何变化,凡是落入本发明权利要求界定范围内的技术方案,均落在本发明的保护范围之内。
Claims (5)
1.基于BiLSTM和条件随机场的实体属性抽取模型,其特征在于,包括如下步骤:
1)将训练样本语料按字进行标注,作为输入文本进行one-hot编码,得到one-hot编码后的输入文本矩阵[N*max_seq];
2)将one-hot编码后的输入文本矩阵[N*max_seq]输入到Embedding层中,得到词向量三维矩阵[N*max_seq*embedding_size];
3)将词向量三维矩阵[N*max_seq*embedding_size]输入到BiLSTM网络中,得到关于标签类别的概率分布发射矩阵[N*max_seq*num_tag];
4)将关于标签类别的概率分布发射矩阵[N*max_seq*num_tag]输入到条件随机场中,训练出状态转移矩阵[num_tag*num_tag]。
2.根据权利要求1所述的基于BiLSTM和条件随机场的实体属性抽取模型,其特征在于,所述训练实体属性抽取模型步骤中,还包括对所训练的实体属性抽取模型进行模型评分和模型优化的步骤。
3.根据权利要求1所述的基于BiLSTM和条件随机场的实体属性抽取模型,其特征在于,所述将训练样本语料按字进行标注包括如下步骤:
定义训练样本的实体类别和属性结构;
训练样本语料的准备和打标。
4.根据权利要求3所述的基于BiLSTM和条件随机场的实体属性抽取模型,其特征在于,所述定义训练样本的实体类别和属性结构包括:
定义实体类别包括机构名和人名;
定义属性字段为类型字段、起始位字段、截止位字段和主体字段中的一种或多种。
5.根据权利要求3所述的基于BiLSTM和条件随机场的实体属性抽取模型,其特征在于,所述训练样本语料的准备和打标包括标注机构名起始位标签、机构名中间标签、机构名结束位标签、人名起始位标签、人名中间标签、人名结束位标签、其他文字标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811238436.9A CN109446523B (zh) | 2018-10-23 | 2018-10-23 | 基于BiLSTM和条件随机场的实体属性抽取模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811238436.9A CN109446523B (zh) | 2018-10-23 | 2018-10-23 | 基于BiLSTM和条件随机场的实体属性抽取模型 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109446523A true CN109446523A (zh) | 2019-03-08 |
CN109446523B CN109446523B (zh) | 2023-04-25 |
Family
ID=65547837
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811238436.9A Active CN109446523B (zh) | 2018-10-23 | 2018-10-23 | 基于BiLSTM和条件随机场的实体属性抽取模型 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109446523B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110598203A (zh) * | 2019-07-19 | 2019-12-20 | 中国人民解放军国防科技大学 | 一种结合词典的军事想定文书实体信息抽取方法及装置 |
CN111159407A (zh) * | 2019-12-30 | 2020-05-15 | 北京明朝万达科技股份有限公司 | 训练实体识别和关系分类模型的方法、装置、设备及介质 |
CN111783436A (zh) * | 2020-06-03 | 2020-10-16 | 广州云趣信息科技有限公司 | 基于深度学习的自动提取商家信息的方法 |
CN113468335A (zh) * | 2020-03-30 | 2021-10-01 | 海信集团有限公司 | 实体隐含关系抽取方法及设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5319748A (en) * | 1992-04-30 | 1994-06-07 | Ricoh Company, Ltd. | Method and apparatus to manage picture and pageset for document processing |
US20130073541A1 (en) * | 2011-09-15 | 2013-03-21 | Microsoft Corporation | Query Completion Based on Location |
CN107992597A (zh) * | 2017-12-13 | 2018-05-04 | 国网山东省电力公司电力科学研究院 | 一种面向电网故障案例的文本结构化方法 |
CN108182295A (zh) * | 2018-02-09 | 2018-06-19 | 重庆誉存大数据科技有限公司 | 一种企业知识图谱属性抽取方法及系统 |
CN108255816A (zh) * | 2018-03-12 | 2018-07-06 | 北京神州泰岳软件股份有限公司 | 一种命名实体识别方法、装置及系统 |
CN108399240A (zh) * | 2018-02-28 | 2018-08-14 | 北京金堤科技有限公司 | 企业变更信息数据挖掘方法和系统 |
-
2018
- 2018-10-23 CN CN201811238436.9A patent/CN109446523B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5319748A (en) * | 1992-04-30 | 1994-06-07 | Ricoh Company, Ltd. | Method and apparatus to manage picture and pageset for document processing |
US20130073541A1 (en) * | 2011-09-15 | 2013-03-21 | Microsoft Corporation | Query Completion Based on Location |
CN107992597A (zh) * | 2017-12-13 | 2018-05-04 | 国网山东省电力公司电力科学研究院 | 一种面向电网故障案例的文本结构化方法 |
CN108182295A (zh) * | 2018-02-09 | 2018-06-19 | 重庆誉存大数据科技有限公司 | 一种企业知识图谱属性抽取方法及系统 |
CN108399240A (zh) * | 2018-02-28 | 2018-08-14 | 北京金堤科技有限公司 | 企业变更信息数据挖掘方法和系统 |
CN108255816A (zh) * | 2018-03-12 | 2018-07-06 | 北京神州泰岳软件股份有限公司 | 一种命名实体识别方法、装置及系统 |
Non-Patent Citations (1)
Title |
---|
GUILLAUME LAMPLE等: "Neural Architectures for Named Entity Recognition", 《网页在线公开:HTTPS://ARXIV.ORG/ABS/1603.01360V3》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110598203A (zh) * | 2019-07-19 | 2019-12-20 | 中国人民解放军国防科技大学 | 一种结合词典的军事想定文书实体信息抽取方法及装置 |
CN111159407A (zh) * | 2019-12-30 | 2020-05-15 | 北京明朝万达科技股份有限公司 | 训练实体识别和关系分类模型的方法、装置、设备及介质 |
CN111159407B (zh) * | 2019-12-30 | 2022-01-28 | 北京明朝万达科技股份有限公司 | 训练实体识别和关系分类模型的方法、装置、设备及介质 |
CN113468335A (zh) * | 2020-03-30 | 2021-10-01 | 海信集团有限公司 | 实体隐含关系抽取方法及设备 |
CN111783436A (zh) * | 2020-06-03 | 2020-10-16 | 广州云趣信息科技有限公司 | 基于深度学习的自动提取商家信息的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109446523B (zh) | 2023-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108628823B (zh) | 结合注意力机制和多任务协同训练的命名实体识别方法 | |
CN109657239B (zh) | 基于注意力机制和语言模型学习的中文命名实体识别方法 | |
CN109857990B (zh) | 一种基于文档结构与深度学习的金融类公告信息抽取方法 | |
CN106776581B (zh) | 基于深度学习的主观性文本情感分析方法 | |
CN107729309B (zh) | 一种基于深度学习的中文语义分析的方法及装置 | |
CN110598203B (zh) | 一种结合词典的军事想定文书实体信息抽取方法及装置 | |
CN109446523A (zh) | 基于BiLSTM和条件随机场的实体属性抽取模型 | |
CN109408812A (zh) | 一种基于注意力机制的序列标注联合抽取实体关系的方法 | |
CN109960728A (zh) | 一种开放域会议信息命名实体识别方法及系统 | |
CN108664474B (zh) | 一种基于深度学习的简历解析方法 | |
CN110597997B (zh) | 一种军事想定文本事件抽取语料库迭代式构建方法及装置 | |
CN109388805A (zh) | 一种基于实体抽取的工商变更分析方法 | |
CN110046356B (zh) | 标签嵌入的微博文本情绪多标签分类方法 | |
CN110909736A (zh) | 一种基于长短期记忆模型与目标检测算法的图像描述方法 | |
CN114580424B (zh) | 一种用于法律文书的命名实体识别的标注方法和装置 | |
CN108563725A (zh) | 一种中文症状体征构成识别方法 | |
CN108829823A (zh) | 一种文本分类方法 | |
CN112100384B (zh) | 一种数据观点抽取方法、装置、设备及存储介质 | |
CN113312453A (zh) | 一种面向跨语言对话理解的模型预训练系统 | |
CN110222338A (zh) | 一种机构名实体识别方法 | |
CN109977229A (zh) | 一种基于通用语言特征的生物医学命名实体识别方法 | |
CN115952791A (zh) | 基于机器阅读理解的篇章级事件抽取方法、装置、设备及存储介质 | |
CN113312918B (zh) | 融合部首向量的分词和胶囊网络法律命名实体识别方法 | |
CN114356924A (zh) | 用于从结构化文档提取数据的方法和设备 | |
CN116186241A (zh) | 基于语义学分析与提示学习的事件要素抽取方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address | ||
CP03 | Change of name, title or address |
Address after: 401121 Chongqing Yubei District Huangshan Avenue No. 53 with No. 2 Kirin C Block 9 Floor Patentee after: Chongqing Yucun Technology Co.,Ltd. Country or region after: China Address before: 401121 Chongqing Yubei District Huangshan Avenue No. 53 with No. 2 Kirin C Block 9 Floor Patentee before: CHONGQING SOCIALCREDITS BIG DATA TECHNOLOGY CO.,LTD. Country or region before: China |