CN111597812B - 一种基于遮蔽语言模型的金融领域多重关系抽取方法 - Google Patents
一种基于遮蔽语言模型的金融领域多重关系抽取方法 Download PDFInfo
- Publication number
- CN111597812B CN111597812B CN202010394859.0A CN202010394859A CN111597812B CN 111597812 B CN111597812 B CN 111597812B CN 202010394859 A CN202010394859 A CN 202010394859A CN 111597812 B CN111597812 B CN 111597812B
- Authority
- CN
- China
- Prior art keywords
- vector
- subject
- language model
- model
- predicate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于遮蔽语言模型的金融领域多重关系抽取方法,首先,利用遮蔽语言模型对输入的数据集编码为句向量,其次,利用基于概率图思想的融合模型从句向量中抽取主语、谓语和宾语,根据所述主语向量和取宾语向量抽取其对应的谓语向量,最后提出主语、谓语和宾语,并将其映射为对应的字符串。本发明基于概率图模型的联合学习结构,引用概率图模型的数学思想,不仅能同时抽取非结构化数据中的主语、宾语以及其对应关系,还能解决关系抽取中存在的三元组各个元素存在重叠的复杂问题,极大的提升了关系抽取领域非结构化数据的处理能力。
Description
技术领域
本发明涉及一种基于遮蔽语言模型的金融领域多重关系抽取方法。
背景技术
现有的关系抽取方法包括有监督的实体关系抽取、半监督的实体关系抽取、无监督的实体关系抽取及开放式实体关系抽取。
一、实体关系抽取主要包括以下方法:
(1)基于规则的方法需要根据待处理语料涉及领域的不同,通过人工或机器学习的方法总结归纳出相应的规则或模板,然后采用模板匹配的方法进行实体关系抽取;
(2)基于特征向量的方法是一种简单、有效的实体关系抽取方法,其主要思想是从关系句子实例的上下文中提取有用信息(包括词法信息、语法信息)作为特征,构造特征向量,通过计算特征向量的相似度来训练实体关系抽取模型。该方法的关键在于寻找类间有区分度的特征,形成多维加权特征向量,然后采用合适的分类器进行分类。
(3)基于特征向量的实体关系抽取方法能够取得较好的效果,但无法充分利用实体对上下文的结构信息。因此发明了多种基于核函数的实体关系抽取方法,包括词序列核函数方法、依存树核函数方法、最短路径依存树核函数方法、卷积树核函数方法以及它们的组合核函数方法。部分研究还基于核函数的方法与基于特征向量的方法结合来进行实体关系抽取,已有实验结果表明基于核函数和基于特征的实体关系抽取方法可以相互补充。
(4)基于图模型的关系抽取算法,需要先独立学习两个局部分类器,实体和关系之间的依赖通过贝叶斯信念网实现。效果优于独立关系分类器。
二、半监督的实体关系抽取主要包括以下方法:
(1)基于Bootstrapping的半监督实体关系抽取方法从包含关系种子的上下文中总结出实体关系序列模式,然后利用关系序列模式去发现更多的关系种子实例,形成新的关系种子集合。此方法存在一个关键的问题,如何对获取的模式进行过滤,以免将过多的噪声引入迭代过程中而导致“语义漂移”问题。为了解决该问题,提出了协同学习(co-learning)方法,该方法利用两个条件独立的特征集来提供不同且互补的信息,从而减少标注错误。
(2)基于图的半监督方法,每一个instance用一个节点表示,边表示节点的相似度。任何节点的标签信息通过加权边缘迭代地传播到附近节点,最后在传播过程收敛时推断出未示例的标签。有研究将数据集中的每个实体对表示为图中的节点,并且还将特征向量与其相关联。特征向量包含表征关系实例的各种特征。这种方法效果比SVM、boosting算法效果更好。
三、无监督的实体关系抽取方法无需依赖实体关系标注语料,其实现包括关系实例聚类和关系类型词选择两个过程。首先根据实体对出现的上下文将相似度高的实体对聚为一类,然后选择具有代表性的词语来标记这种关系。例如,有研究尝试对实体关系上下文的特征进行加权,并采用改进的K均值算法进行聚类。
四、开放式实体关系抽取方法能避免针对特定关系类型人工构建语料库,可以自动完成关系类型发现和关系抽取任务。开放式实体关系抽取方法的基本假设:若已知两个实体存在某种语义关系,所有包含这两个实体的句子都潜在地表达了它们之间的语义关系。开放式实体关系抽取通过借助外部领域无关的实体知识库(如DBPedia、YAGO、OpenCyc、FreeBase或其它领域知识库)将高质量的实体关系实例映射到大规模文本中,根据文本对齐方法从中获得训练数据,然后使用监督学习方法来解决关系抽取问题。但是,此方法获得训练语料存在较多噪声,噪声标注的滤除成为该方法的研究重点。
从以上现有技术方法中可以看出,现有技术对数据的依赖度较高,需要大量的训练数据集来支持模型的训练。而标注多重复杂关系的人工标记成本较大,另外不同领域背景的数据采集源不一致,如果更换新的领域则需要重新标注,数据的复用率极低。
而且,现有技术对关系抽取的精准度较低,能处理的关系类型也较为简单。一些常见的关系抽取难点也无法通过这些技术得以克服,这些问题包括以下几个方面:
1、一句中存在多种关系,例如三元组(s,p,o)中可能存在一对(s,o)对应多个p;
2、一个s对应(p,o)的情况,或者一个o存在多个(s,p);
3、多个s对应一个(p,o);
4、多种p直接可能存在关联关系,如共现、嵌套;极端复杂情况下,一对(s,o)对应多个p,且p之间有嵌套关系;
5、现有的多数模型,只能一次预测一对实体间的一种关系,对于一次性抽取句中所有(s,p,o)的模型较为少见,且处理如上所列举的各种关系抽取中特殊情况的模型更为少见。
上文提及的s指主语,p指谓语,o指宾语,一个(s,p,o)三元组代表一组关系的主要成分。
此外,现有技术针对关系的抽取是在命名实体识别完成后再进行预测的,这样逐步预测会导致最终关系提取的准确率降低。
发明内容
本发明的目的在于克服以上存在的技术问题,提供一种基于遮蔽语言模型的金融领域多重关系抽取方法。
为实现上述目的,本发明采用如下的技术方案:
一种基于遮蔽语言模型的金融领域多重关系抽取方法,包括以下步骤:
S1:利用遮蔽语言模型对输入的数据集编码为句向量;遮蔽语言模与传统的从左到右预测的自回归语言模型预训练不同,遮蔽语言模型可以学习融合了左右两侧的语境表征,从而预训练一个深度双向多头注意力语言模型。使用此模型在大规模语料上进行预训练后,可以应用于各种不同自然语言处理任务的迁移学习,极大提升了训练效率、降低训练数据的依赖性。
S2:利用基于概率图思想的融合模型首先从所述步骤S1句向量中抽取主语向量,然后从所述主语向量中抽取宾语向量,最后根据所述主语向量和取宾语向量抽取其对应的谓语向量;
S3:提出所述步骤S2中的主语向量、宾语向量和谓语向量,并将其映射为对应的字符串。
进一步地,所述步骤S2是利用概率图思想的融合模型首先从所述步骤S1句向量中抽取主语向量,然后根据所述主语向量提取对应的宾语向量和谓语向量。
进一步地,所述步骤S1中句向量的序列包含词向量序列、位置编码序列和遮蔽编码序列三部分。
进一步地,所述步骤S1利用遮蔽语言模型对输入的数据集编码为句向量前,将所述数据集构建远程监督所需的辅助知识库,将远程监督的结果作为模型的训练特征,该步骤引入了远程监督的思想,将原有训练语料中的数据构建知识库,作为候选的三元组,辅助后续模型的预测,可提升关系抽取的预测准确率。
进一步地,通过利用概率图思想的融合模型的数学思想,将命名实体识别任务和关系抽取任务进行融合,所述基于概率图思想的融合模型的公式为:
P(s,p,o)=P(s)P(o|s)P(p|s,o)
其中,s指主语向量,p指谓语向量,o为宾语向量。
基于概率图思想的融合模型可以一次性抽取句中的实体和对应关系,避免了传统方法需要分别通过两个模型串联预测的低效率、精度低的问题。并且该模型能解决一句中存在多个(s,p,o)三元组,主语、谓语、宾语有重叠和嵌套的各种复杂关系抽取问题。
本发明的有益效果:
1、本发明基于概率图模型的联合学习结构,引用概率图模型的数学思想,不仅能同时抽取非结构化数据中的主语、宾语以及其对应关系,还能解决关系抽取中存在的三元组各个元素存在重叠的复杂问题,极大的提升了关系抽取领域非结构化数据的处理能力。
2、本发明融合了遮蔽语言模型的特质,提升了句向量的语义表达丰富度和表征间的关联度,因而能应对较为复杂语境关系抽取任务。
3、本发明增加了远程监督的辅助信息,将远程监督的结果作为特征传入到模型中,可提升算法的预测性能。
附图说明
图1:本发明一种基于遮蔽语言模型的金融领域多重关系抽取方法的工作流程示意图。
具体实施方式
下面结合附图及实施例对本实用新型进行详细说明。
实施例一:
本实施例输入的数据集是:“2020年1月15日,A公司与B农业路支行签订《流动资金借款合同》(合同编号:借字第XXXX号),借款金额:100万元,期限为2020年1月15日至2021年1月14日;及《流动资金借款合同》(合同编号:第XXXX号),借款金额:900万元,期限为2020年1月15日至2021年1月14日。上述借款由A公司的土地及房产抵押担保,并由A公司实际控制人陈某为该笔借款提供个人连带责任保证担保。”
本实施例输入的数据集是:“某A公司的全资子公司某B公司以现金方式按股权比例向合营某C公司(某B公司持股比例为60%)提供人民币2,015,829,750元的股东借款,某C公司另一股东某D公司(持股比例为40%)同比例提供人民币1,343,886,500元的股东借款。”
如图1所示,一种基于遮蔽语言模型的金融领域多重关系抽取方法,包括以下步骤:
S1:利用遮蔽语言模型对输入的数据集编码为句向量,并基于该数据集构建远程监督所需的辅助知识库,将远程监督的结果作为模型的训练特征;该步骤中,所述句向量的序列包含词向量序列、位置编码序列和遮蔽编码序列三部分。
S2:利用基于概率图思想的融合模型首先从所述步骤S1句向量中抽取主语向量,主语向量即:某C公司;并根据主语某C公司抽取“借款”关系对应的不同宾语“某B公司”、“某D公司”,即:“某C公司,借款,某B公司”、“某C公司,借款,某D公司”。如果采用现有技术,则会先识别出主语“某C公司”和宾语“某B公司和某D公司”,再通过分类模型判断这两个实体之间的关系,而一般情况,只能判断这两个实体之间存在某一种关系,无法处理此样例这样两个实体对应多关系的情况。
S3:提出所述步骤S2中的主语向量、宾语向量和谓语向量(具体语句是:某C公司借款某B公司和某D公司,并将其映射为对应的字符串
最后应说明的是:以上实施例仅用以说明本实用新型而并非限制本实用新型所描述的技术方案;因此,尽管本说明书参照上述的各个实施例对本实用新型已进行了详细的说明,但是,本领域的普通技术人员应当理解,仍然可以对本实用新型进行修改或等同替换;而一切不脱离本实用新型的精神和范围的技术方案及其改进,其均应涵盖在本实用新型的权利要求范围中。
Claims (4)
1.一种基于遮蔽语言模型的金融领域多重关系抽取方法,其特征在于,包括以下步骤:
S1:利用遮蔽语言模型对输入的数据集编码为句向量;所述遮蔽语言模型学习融合左右两侧的语境表征,从而预训练一个深度双向多头注意力语言模型,使用所述深度双向多头注意力语言模型在大规模语料上进行预训练后,能够应用于各种不同自然语言处理任务的迁移学习;
S2:利用基于概率图思想的融合模型首先从所述步骤S1句向量中抽取主语向量,然后从所述主语向量中抽取宾语向量,最后根据所述主语向量和取宾语向量抽取其对应的谓语向量;
S3:提出所述步骤S2中的主语向量、宾语向量和谓语向量,并将其映射为对应的字符串;
其中所述基于概率图思想的融合模型的公式为:
P(s,p,o)=P(s)P(o|s)P(p|s,o)
其中,s指主语向量,p指谓语向量,o为宾语向量。
2.根据权利要求1所述的基于遮蔽语言模型的金融领域多重关系抽取方法,其特征在于:所述步骤S2是利用概率图思想的融合模型首先从所述步骤S1句向量中抽取主语向量,然后根据所述主语向量提取对应的宾语向量和谓语向量。
3.根据权利要求1所述的基于遮蔽语言模型的金融领域多重关系抽取方法,其特征在于:所述步骤S1中句向量的序列包含词向量序列、位置编码序列和遮蔽编码序列三部分。
4.根据权利要求1所述的基于遮蔽语言模型的金融领域多重关系抽取方法,其特征在于:所述步骤S1利用遮蔽语言模型对输入的数据集编码为句向量前,将所述数据集构建远程监督所需的辅助知识库,将远程监督的结果作为模型的训练特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010394859.0A CN111597812B (zh) | 2020-05-09 | 2020-05-09 | 一种基于遮蔽语言模型的金融领域多重关系抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010394859.0A CN111597812B (zh) | 2020-05-09 | 2020-05-09 | 一种基于遮蔽语言模型的金融领域多重关系抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111597812A CN111597812A (zh) | 2020-08-28 |
CN111597812B true CN111597812B (zh) | 2021-09-17 |
Family
ID=72185294
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010394859.0A Active CN111597812B (zh) | 2020-05-09 | 2020-05-09 | 一种基于遮蔽语言模型的金融领域多重关系抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111597812B (zh) |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140032209A1 (en) * | 2012-07-27 | 2014-01-30 | University Of Washington Through Its Center For Commercialization | Open information extraction |
CN107958025B (zh) * | 2017-11-13 | 2021-12-28 | 北京工业大学 | 弱监督实体关系抽取方法及其装置和电子设备 |
US10606958B2 (en) * | 2018-01-10 | 2020-03-31 | International Business Machines Corporation | Machine learning modification and natural language processing |
CN108363816A (zh) * | 2018-03-21 | 2018-08-03 | 北京理工大学 | 基于句义结构模型的开放式实体关系抽取方法 |
CN109062894A (zh) * | 2018-07-19 | 2018-12-21 | 南京源成语义软件科技有限公司 | 中文自然语言实体语义关系的自动辨识算法 |
CN109241538B (zh) * | 2018-09-26 | 2022-12-20 | 上海德拓信息技术股份有限公司 | 基于关键词和动词依存的中文实体关系抽取方法 |
CN109871451B (zh) * | 2019-01-25 | 2021-03-19 | 中译语通科技股份有限公司 | 一种融入动态词向量的关系抽取方法和系统 |
CN109992782B (zh) * | 2019-04-02 | 2023-07-07 | 深圳市华云中盛科技股份有限公司 | 法律文书命名实体识别方法、装置及计算机设备 |
CN110209836B (zh) * | 2019-05-17 | 2022-04-26 | 北京邮电大学 | 远程监督关系抽取方法及装置 |
CN110245292B (zh) * | 2019-05-28 | 2023-04-18 | 华东师范大学 | 一种基于神经网络过滤噪声特征的自然语言关系抽取方法 |
CN110263332A (zh) * | 2019-05-28 | 2019-09-20 | 华东师范大学 | 一种基于神经网络的自然语言关系抽取方法 |
-
2020
- 2020-05-09 CN CN202010394859.0A patent/CN111597812B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111597812A (zh) | 2020-08-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112084790B (zh) | 一种基于预训练卷积神经网络的关系抽取方法及系统 | |
Wu et al. | Fonduer: Knowledge base construction from richly formatted data | |
CN106776711B (zh) | 一种基于深度学习的中文医学知识图谱构建方法 | |
WO2018028077A1 (zh) | 一种基于深度学习的中文语义分析的方法及装置 | |
CN106055675B (zh) | 一种基于卷积神经网络和距离监督的关系抽取方法 | |
CN112434535B (zh) | 基于多模型的要素抽取方法、装置、设备及存储介质 | |
CN111177383B (zh) | 一种融合文本语法结构和语义信息的文本实体关系自动分类方法 | |
CN110727839A (zh) | 自然语言查询的语义解析 | |
US20190213484A1 (en) | Knowledge base construction | |
CN108491382A (zh) | 一种半监督生物医学文本语义消歧方法 | |
Zhou et al. | Roseq: Robust sequence labeling | |
CN112580357A (zh) | 自然语言查询的语义解析 | |
US11003950B2 (en) | System and method to identify entity of data | |
Niu et al. | Knowledge-based topic model for unsupervised object discovery and localization | |
CN111191031A (zh) | 一种基于WordNet和IDF的非结构化文本的实体关系分类方法 | |
CN111222318A (zh) | 基于双通道双向lstm-crf网络的触发词识别方法 | |
CN111709225B (zh) | 一种事件因果关系判别方法、装置和计算机可读存储介质 | |
Wu et al. | WTMED at MEDIQA 2019: A hybrid approach to biomedical natural language inference | |
CN114238524B (zh) | 基于增强样本模型的卫星频轨数据信息抽取方法 | |
CN114373554A (zh) | 利用药物知识和句法依存关系的药物相互作用关系抽取方法 | |
CN111597812B (zh) | 一种基于遮蔽语言模型的金融领域多重关系抽取方法 | |
CN113111136B (zh) | 一种基于ucl知识空间的实体消歧方法及装置 | |
Yan et al. | A review and outlook for relation extraction | |
Liu et al. | Recognizing proper names in ur iii texts through supervised learning | |
Zhen et al. | Frequent words and syntactic context integrated biomedical discontinuous named entity recognition method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |