CN112199491A - 一种基于bert与先验知识特征的关系五元组抽取方法 - Google Patents
一种基于bert与先验知识特征的关系五元组抽取方法 Download PDFInfo
- Publication number
- CN112199491A CN112199491A CN202011099237.1A CN202011099237A CN112199491A CN 112199491 A CN112199491 A CN 112199491A CN 202011099237 A CN202011099237 A CN 202011099237A CN 112199491 A CN112199491 A CN 112199491A
- Authority
- CN
- China
- Prior art keywords
- feature vector
- entity
- bert
- text
- extracting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Abstract
本发明公开了一种基于BERT与先验知识特征的关系五元组抽取方法,包括如下步骤:预处理;提取语义特征向量;融合拼接;s抽取阶段;p、o抽取阶段;t、l抽取阶段;最终得到关系五元组的特征向量h+pre+s+p+o+t+l。本发明利用BERT模型与先验知识特征融合的方法抽取文本的关系五元组,利用概率图结合指针结构,解决了一种关系对应多个实体以及实体重叠的问题。
Description
技术领域
本发明涉及计算机技术领域,特别涉及一种基于BERT与先验知识特征的关系五元组抽取方法。
背景技术
在构建知识图谱时,从非结构化文本数据中抽取知识是一个非常重要的环节,这里的知识抽取主要聚焦在关系及属性的抽取,即知识图谱中的节点和边。关系及属性抽取是指从非结构化的文本数据中抽取出实体—关系—实体或者实体—属性—属性值的结构化数据,通常将关系及属性抽取统一处理,形式化为{subject,predicate,object}三元组,即主语、谓语、宾语关系三元组,但是关系三元组没有刻画出关系的时空信息即{time,location},导致时空信息丢失,因此,关系五元组即{subject,predicate,object,time,location}的信息更加完整。
而现有的关系抽取工作大部分是针对三元组的抽取,存在如下问题:1、关系类型的分类和实体抽取环节是分开独立训练的,会带来抽取结果的误差叠加,尤其运用到五元组抽取时误差叠加的问题更加突出;2、无法很好的解决所抽取的实体和关系叠加的问题,一种关系对应多对实体只能基于简单的就近原则来抽取关系组;3、利用远程监督方法构造的训练数据集噪声较大,抽取效果不理想。
发明内容
为解决上述问题,本发明提供了一种基于BERT与先验知识特征的关系五元组抽取方法。
本发明采用以下技术方案:
一种基于BERT与先验知识特征的关系五元组抽取方法,包括如下步骤:
S1、预处理:将待抽取文本进行预处理,得到字级别的文本序列,所述文本序列中的每个元素记为一个token;
S2、提取语义特征向量:将所述文本序列输入BERT模型进行编码得到序列中每个token的语义特征向量h;
S3、融合拼接:对待抽取文本采用AC自动机算法在先验知识库中进行知识关键词搜索,将搜索到的相匹配的先验知识特征pre与所述语义特征向量h拼接融合,得到融合特征向量h+pre;
S4、s抽取阶段:将所述融合特征向量h+pre输入到一个半指针-半标注结构中预测subject实体的首尾位置,取所述subject实体首尾token的特征向量,进行向量平均操作后与token序列文本进行相加操作,对于每一个token得到特征向量h+pre+s;
S5、p、o抽取阶段:在所述特征向量h+pre+s后面接若干半指针-半标注结构同时预测predicate的类型和object的首尾位置,并编码进所述token序列文本的特征向量中,得到特征向量h+pre+s+p+o;
S6、t、l抽取阶段:在所述特征向量h+pre+s+p+o后面接两个半指针-半标注结构分别同时预测time和location的首尾位置,并编码进所述token序列文本的特征向量中,最终得到关系五元组的特征向量h+pre+s+p+o+t+l。
进一步地,所述半指针-半标注结构为两个带sigmoid激活函数的全连接层。
进一步地,所述先验知识特征pre的标注过程为:对所述先验知识库内的五元关系组中的每个token,新增两维特征,分别表示实体的开始位置和结尾位置,若命中实体的开始位置,则一维特征值为1,否则为0,若命中实体的结尾位置,则另一维特征值为1,否则为0,所述实体包括subject、object、time和location实体。
进一步地,步骤S5中一个半指针-半标注结构对应预测一种predicate关系类型的object实体,即predicate关系类型有n种,则需要用到n个半指针-半标注结构进行object实体的预测。
进一步地,所述先验知识库包括原有数据集的五元关系组以及从互联网爬取的结构化与半结构化数据中提取出的五元关系组。
进一步地,所述BERT模型基于transformer网络结构训练得到。
采用上述技术方案后,本发明与背景技术相比,具有如下优点:
1、本发明利用BERT模型与先验知识特征融合的方法,充分利用先验知识库信息,深度挖掘文本的语义信息,抽取文本的关系五元组,抽取到了关系的时空属性,为知识表示和后续的隐性线索挖掘提供坚实的基础;
2、利用概率图的思想,先抽取subject,然后抽取predicate和object,最后抽取time和location,更好地建模了五元组之间的联系,解决了一种关系对应多个实体的问题;
3、结合指针结构,采用sigmoid代替softmax激活函数,解决了实体重叠问题。
附图说明
图1为本发明的方法流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例
本实施例在五元组的关系抽取中基于概率图的方法进行抽取,具体如下:
P(s,p,o,t,l)=P(s)P(o|s)P(p|s,o)P(t|s,p,o)P(l|s,p,o,t)
公式中,s表示头实体(主语),p表示关系类型(谓语),o表示尾实体(宾语),t表示关系发生的时间属性(时间),l表示关系发生的空间属性(地点)。也就是说,先预测s,然后传入s来预测s对应的o,依次递推,最终传入s、p、o、t来预测对应的l,本实施例实施时,将o、p的预测合并成一步,将t、l的预测合并成一步,即先预测s,然后根据s预测p、o,最后根据s、p、o来预测对应的t、l。所述BERT模型基于transformer网络结构训练得到,在模型预训练时,将BERT模型和指针结构看成一个整体,通过联合优化s阶段损失函数,p、o阶段损失函数,t、l阶段损失函数,达到联合训练的目的,减少误差叠加。这里的损失函数采用二分类交叉熵损失函数,通过将以上三个阶段的损失函数累加得到预训练模型的损失函数,以达到联合训练优化的目的。
具体本实施的实施过程如图1所示,一种基于BERT与先验知识特征的关系五元组抽取方法,包括如下步骤:
S1、预处理:将待抽取文本进行预处理,得到字级别的文本序列,所述文本序列中的每个元素记为一个token;
S2、提取语义特征向量:将所述文本序列输入BERT模型进行编码得到序列中每个token的语义特征向量h;
本实施例采用谷歌公司基于大规模中文预训练的chinese_L-12_H-768_A-12,最终得到每个token的语义特征向量h是768维向量,len表示token的长度,此时的token序列的特征矩阵维度为len*768。
S3、融合拼接:对待抽取文本采用AC自动机算法在先验知识库中进行知识关键词搜索,将搜索到的相匹配的先验知识特征pre与所述语义特征向量h拼接融合,得到融合特征向量h+pre;
具体地,在此之前,先对所述先验知识库中的文本实体包括subject、object、time和location进行特征标注,所述先验知识特征pre的标注过程为:对所述先验知识库内的五元关系组中的每个token,新增两维特征,分别表示实体的开始位置和结尾位置,若命中实体的开始位置,则一维特征值为1,否则为0,若命中实体的结尾位置,则另一维特征值为1,否则为0。
这里的先验知识库包括原有数据集的五元关系组以及从互联网爬取的结构化与半结构化数据中提取出的五元关系组。
步骤S3也就是将BERT模型得到的768维特征与先验知识库得到的2维特征进行拼接融合,得到786维特征向量h+pre,token序列的特征矩阵维度为len*786。
S4、s抽取阶段:将所述融合特征向量h+pre输入到一个半指针-半标注结构中预测subject实体的首尾位置,取所述subject实体首尾token的特征向量,进行向量平均操作后与token序列文本进行相加操作,对于每一个token得到特征向量h+pre+s;
所述半指针-半标注结构为两个带sigmoid激活函数的全连接层,用于预测实体的开始位置与结尾位置,例如在预测subject的开始位置和结尾位置时,为了解决文本序列中含有多个subject实体,采用sigmoid代替softmax激活函数,这种结构相比序列标注能够很好的解决了实体重叠问题,例如:“《鲁迅自传》是一本很好看的书”,要抽取{鲁迅自传,作者,鲁迅},subject实体和object实体重叠,“半指针-半标注”结构通过两个全连接层分别标注实体的首尾指针就解决了实体重叠的问题。
S5、p、o抽取阶段:在所述特征向量h+pre+s后面接若干半指针-半标注结构同时预测predicate的类型和object的首尾位置,并编码进所述token序列文本的特征向量中,得到特征向量h+pre+s+p+o;
步骤S5中一个半指针-半标注结构对应预测一种predicate关系类型的object实体,即predicate关系类型有n种,则需要用到n个半指针-半标注结构进行object实体的预测。
S6、t、l抽取阶段:在所述特征向量h+pre+s+p+o后面接两个半指针-半标注结构分别同时预测time和location的首尾位置,并编码进所述token序列文本的特征向量中,最终得到关系五元组的特征向量h+pre+s+p+o+t+l。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (6)
1.一种基于BERT与先验知识特征的关系五元组抽取方法,其特征在于:包括如下步骤:
S1、预处理:将待抽取文本进行预处理,得到字级别的文本序列,所述文本序列中的每个元素记为一个token;
S2、提取语义特征向量:将所述文本序列输入BERT模型进行编码得到序列中每个token的语义特征向量h;
S3、融合拼接:对待抽取文本采用AC自动机算法在先验知识库中进行知识关键词搜索,将搜索到的相匹配的先验知识特征pre与所述语义特征向量h拼接融合,得到融合特征向量h+pre;
S4、s抽取阶段:将所述融合特征向量h+pre输入到一个半指针-半标注结构中预测subject实体的首尾位置,取所述subject实体首尾token的特征向量,进行向量平均操作后与token序列文本进行相加操作,对于每一个token得到特征向量h+pre+s;
S5、p、o抽取阶段:在所述特征向量h+pre+s后面接若干半指针-半标注结构同时预测predicate的类型和object的首尾位置,并编码进所述token序列文本的特征向量中,得到特征向量h+pre+s+p+o;
S6、t、l抽取阶段:在所述特征向量h+pre+s+p+o后面接两个半指针-半标注结构分别同时预测time和location的首尾位置,并编码进所述token序列文本的特征向量中,最终得到关系五元组的特征向量h+pre+s+p+o+t+l。
2.如权利要求1所述的一种基于BERT与先验知识特征的关系五元组抽取方法,其特征在于:所述半指针-半标注结构为两个带sigmoid激活函数的全连接层。
3.如权利要求1所述的一种基于BERT与先验知识特征的关系五元组抽取方法,其特征在于:所述先验知识特征pre的标注过程为:对所述先验知识库内的五元关系组中的每个token,新增两维特征,分别表示实体的开始位置和结尾位置,若命中实体的开始位置,则一维特征值为1,否则为0,若命中实体的结尾位置,则另一维特征值为1,否则为0,所述实体包括subject、object、time和location实体。
4.如权利要求1所述的一种基于BERT与先验知识特征的关系五元组抽取方法,其特征在于:步骤S5中一个半指针-半标注结构对应预测一种predicate关系类型的object实体,即predicate关系类型有n种,则需要用到n个半指针-半标注结构进行object实体的预测。
5.如权利要求1所述的一种基于BERT与先验知识特征的关系五元组抽取方法,其特征在于:所述先验知识库包括原有数据集的五元关系组以及从互联网爬取的结构化与半结构化数据中提取出的五元关系组。
6.如权利要求1所述的一种基于BERT与先验知识特征的关系五元组抽取方法,其特征在于:所述BERT模型基于transformer网络结构训练得到。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011099237.1A CN112199491B (zh) | 2020-10-14 | 2020-10-14 | 一种基于bert与先验知识特征的关系五元组抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011099237.1A CN112199491B (zh) | 2020-10-14 | 2020-10-14 | 一种基于bert与先验知识特征的关系五元组抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112199491A true CN112199491A (zh) | 2021-01-08 |
CN112199491B CN112199491B (zh) | 2022-04-22 |
Family
ID=74008973
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011099237.1A Active CN112199491B (zh) | 2020-10-14 | 2020-10-14 | 一种基于bert与先验知识特征的关系五元组抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112199491B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112784049A (zh) * | 2021-01-28 | 2021-05-11 | 电子科技大学 | 一种面向文本数据的在线社交平台多元知识获取方法 |
CN113392257A (zh) * | 2021-06-23 | 2021-09-14 | 泰康保险集团股份有限公司 | 图像检索方法和装置 |
CN113822599A (zh) * | 2021-10-27 | 2021-12-21 | 国网江苏省电力有限公司营销服务中心 | 一种基于分类树融合技术的电力行业政策管理方法 |
CN115080756A (zh) * | 2022-06-09 | 2022-09-20 | 广州大学 | 一种面向威胁情报图谱的攻防行为和时空信息抽取方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110688456A (zh) * | 2019-09-25 | 2020-01-14 | 北京计算机技术及应用研究所 | 一种基于知识图谱的漏洞知识库构建方法 |
CN111324728A (zh) * | 2020-01-22 | 2020-06-23 | 腾讯科技(深圳)有限公司 | 文本事件摘要的生成方法、装置、电子设备及存储介质 |
CN111581396A (zh) * | 2020-05-06 | 2020-08-25 | 西安交通大学 | 一种基于多维特征融合与依存句法的事件图谱构建系统及方法 |
CN111709240A (zh) * | 2020-05-14 | 2020-09-25 | 腾讯科技(武汉)有限公司 | 实体关系抽取方法、装置、设备及其存储介质 |
US20200311565A1 (en) * | 2019-03-30 | 2020-10-01 | International Business Machines Corporation | Analyzing geotemporal proximity of entities through a knowledge graph |
-
2020
- 2020-10-14 CN CN202011099237.1A patent/CN112199491B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200311565A1 (en) * | 2019-03-30 | 2020-10-01 | International Business Machines Corporation | Analyzing geotemporal proximity of entities through a knowledge graph |
CN110688456A (zh) * | 2019-09-25 | 2020-01-14 | 北京计算机技术及应用研究所 | 一种基于知识图谱的漏洞知识库构建方法 |
CN111324728A (zh) * | 2020-01-22 | 2020-06-23 | 腾讯科技(深圳)有限公司 | 文本事件摘要的生成方法、装置、电子设备及存储介质 |
CN111581396A (zh) * | 2020-05-06 | 2020-08-25 | 西安交通大学 | 一种基于多维特征融合与依存句法的事件图谱构建系统及方法 |
CN111709240A (zh) * | 2020-05-14 | 2020-09-25 | 腾讯科技(武汉)有限公司 | 实体关系抽取方法、装置、设备及其存储介质 |
Non-Patent Citations (2)
Title |
---|
SHUYA REN: "Question Answering Model Based on Graph Knowledge and Entity Recognition", 《2020 12TH INTERNATIONAL CONFERENCE ON MEASURING TECHNOLOGY AND MECHATRONICS AUTOMATION》 * |
王军平 等: "面向大数据领域的事理认知图谱构建与推断分析", 《中国科学:信息科学》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112784049A (zh) * | 2021-01-28 | 2021-05-11 | 电子科技大学 | 一种面向文本数据的在线社交平台多元知识获取方法 |
CN113392257A (zh) * | 2021-06-23 | 2021-09-14 | 泰康保险集团股份有限公司 | 图像检索方法和装置 |
CN113392257B (zh) * | 2021-06-23 | 2023-06-16 | 泰康保险集团股份有限公司 | 图像检索方法和装置 |
CN113822599A (zh) * | 2021-10-27 | 2021-12-21 | 国网江苏省电力有限公司营销服务中心 | 一种基于分类树融合技术的电力行业政策管理方法 |
CN115080756A (zh) * | 2022-06-09 | 2022-09-20 | 广州大学 | 一种面向威胁情报图谱的攻防行为和时空信息抽取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112199491B (zh) | 2022-04-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112199491B (zh) | 一种基于bert与先验知识特征的关系五元组抽取方法 | |
Zhang et al. | A review on entity relation extraction | |
Dong et al. | Heterogeneous network representation learning. | |
CN111598710B (zh) | 社交网络事件的检测方法和装置 | |
US9087236B2 (en) | Automated recognition of process modeling semantics in flow diagrams | |
US7890438B2 (en) | Stacked generalization learning for document annotation | |
CN113486667B (zh) | 一种基于实体类型信息的医疗实体关系联合抽取方法 | |
CN112328801A (zh) | 事件知识图谱预测群体性事件的方法 | |
CN108256063A (zh) | 一种面向网络安全的知识库构建方法 | |
Siddique et al. | Linguistically-enriched and context-awarezero-shot slot filling | |
Zhang et al. | Log sequence anomaly detection based on local information extraction and globally sparse transformer model | |
Wang et al. | One-shot learning for long-tail visual relation detection | |
WO2023159767A1 (zh) | 目标词语的检测方法、装置、电子设备及存储介质 | |
CN110245349A (zh) | 一种句法依存分析方法、装置及一种电子设备 | |
CN112241456A (zh) | 基于关系网络与注意力机制的假新闻预测方法 | |
CN116450834A (zh) | 一种基于多模态语义特征的档案知识图谱构建方法 | |
CN110928871B (zh) | 使用来自正交行和列的全局机器学习特征的表头部检测 | |
CN115292568B (zh) | 一种基于联合模型的民生新闻事件抽取方法 | |
CN116049419A (zh) | 融合多模型的威胁情报信息抽取方法及系统 | |
CN115114419A (zh) | 问答处理方法、装置、电子设备和计算机可读介质 | |
Wang | A cross-domain natural language interface to databases using adversarial text method | |
Li et al. | Neural factoid geospatial question answering | |
Zhang et al. | A named entity recognition method towards product reviews based on BiLSTM-attention-CRF | |
CN113312451B (zh) | 文本标签确定方法和装置 | |
CN112632223B (zh) | 案事件知识图谱构建方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder | ||
CP01 | Change in the name or title of a patent holder |
Address after: No. 208-3, Fengqi Road, phase III, software park, Xiamen City, Fujian Province, 361000 Patentee after: Zhongke (Xiamen) data Intelligence Research Institute Address before: No. 208-3, Fengqi Road, phase III, software park, Xiamen City, Fujian Province, 361000 Patentee before: Xiamen Institute of data intelligence, Institute of computing technology, Chinese Academy of Sciences |