CN113378571A - 一种文本数据的实体数据关系抽取方法 - Google Patents

一种文本数据的实体数据关系抽取方法 Download PDF

Info

Publication number
CN113378571A
CN113378571A CN202110657344.XA CN202110657344A CN113378571A CN 113378571 A CN113378571 A CN 113378571A CN 202110657344 A CN202110657344 A CN 202110657344A CN 113378571 A CN113378571 A CN 113378571A
Authority
CN
China
Prior art keywords
text data
sequence
representing
entity
lstm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110657344.XA
Other languages
English (en)
Inventor
凌捷
邓成汝
罗玉
李风环
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202110657344.XA priority Critical patent/CN113378571A/zh
Publication of CN113378571A publication Critical patent/CN113378571A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本数据的实体数据关系抽取方法,涉及实体数据关系抽取的技术领域,包括:获取文本数据并进行预处理,获得预处理后的文本数据;对预处理后的文本数据进行标注;对标注后的文本数据进行编码分词,获得文本数据的词向量;根据文本数据的词向量,计算文本数据的隐藏信息序列;对文本数据的隐藏信息序列进行主语抽取,将抽取出的主语拼接到文本数据的隐藏信息序列,获得文本数据新序列;对文本数据新序列进行映射操作,获得映射结果序列;对映射结果序列进行解码操作,获得实体关系三元组。本发明能够发掘文本数据的隐藏信息,准确提取出具有重叠关系的实体三元组。

Description

一种文本数据的实体数据关系抽取方法
技术领域
本发明涉及实体数据关系抽取的技术领域,更具体地,涉及一种文本数据的实体数据关系抽取方法。
背景技术
实体关系抽取的主要目标是从自然语言文本中识别并判定实体对之间存在的特定关系。文本数据的实体是指文本中原始信息的主语和宾语,如人名、组织/机构名、地理位置、日期、金额等;实体关系是指实体间的从属、位置、时间等关系;实体关系二元是指两个实体间存在的关系,实体关系三元组是指三个实体间至少一个实体与另两个实体存在关系;作为信息检索、信息抽取、自然语言理解等领域的核心任务,实体关系抽取一直是自然语言处理领域的热门方向。经过广大中外学者的多年探索研究,取得较为丰富的研究成果。从最初传统的基于规则和词典驱动方法,发展到基于传统的机器学习方法。近些年,随着深度学习的崛起,学者们将Bi-LSTM、GCN等深度学习方法应用到实体关系抽取任务中,使得任务的精准度得到极大的提升。近年来,注意力机制以及预训练模型的引入,不仅了提高模型精准度,而且使得模型的训练效率也得到了极大的提升。但是,目前实体关系抽取的方法基本都是依赖词特征、句法特征等初级特征,这些初级特征对于实体关系的抽取效果较差。其实文本数据中还存在着潜在的高级特征,这些隐藏信息对实体关系的抽取提供巨大的贡献。另外,现实中实体关系并非都是二元的,有些关系需要考虑时间和地点等信息,甚至两个实体之间存在多种关系,目前部分关系抽取方法主要集中于如何对二元关系进行抽取,面对重叠关系的三元组时,识别效果差甚至无法识别。
2019年7月26日公开的中国专利CN110059320A提供了一种实体关系抽取方法、装置、计算机设备和存储介质。所述方法包括:获取文本,识别所述文本中的实体;所述实体包括第一实体和第二实体;在所述文本中对所述实体进行标记;利用预训练语言模型对标记后的文本进行编码,得到第一实体编码向量以及第二实体编码向量;利用所述第一实体编码向量以及所述第二实体编码向量生成实体对标记向量;对所述实体对标记向量进行分类,得到所述第一实体与第二实体之间的关系类别。该方法仍依赖文本实体初级特征,无法发掘文本的隐藏信息,抽取效果较差;并且仅能对二元关系的实体进行抽取,面对具有重叠关系的实体三元组是无法进行实体关系抽取。
发明内容
本发明为克服上述现有技术面对具有重叠关系的实体三元组无法进行实体关系抽取的缺陷,提供一种文本数据的实体数据关系抽取方法,能够发掘文本数据的隐藏信息,准确提取出具有重叠关系的实体关系三元组。
为解决上述技术问题,本发明的技术方案如下:
本发明提供一种文本数据的实体数据关系抽取方法,所述方法包括:
S1:获取文本数据并进行预处理,获得预处理后的文本数据;
S2:对预处理后的文本数据进行标注;
S3:对标注后的文本数据进行编码分词,获得文本数据的词向量;
S4:根据文本数据的词向量,计算文本数据的隐藏信息序列;
S5:对文本数据的隐藏信息序列进行主语抽取,将抽取出的主语拼接到文本数据的隐藏信息序列,获得文本数据新序列;
S6:对文本数据新序列进行映射操作,获得映射结果序列;
S7:对映射结果序列进行解码操作,获得实体关系三元组。
优选地,所述获取文本数据的方法为:
通过爬虫技术在互联网网站上对目标领域数据进行定向爬取;
所述文本数据包括目标领域的所有文本数据、目标领域的企业填报数据、政府部门公布的产业数据和产业发展报告。
优选地,所述预处理具体包括:
分句处理,以句号、问号、感叹号、省略号为切分标记对文本数据进行句子切分,得到句子级别的文本数据;
数据去重,将重复的句子级别的文本数据删除;
数据过滤,将与目标领域无关的文本数据删除。
优选地,所述S2中,对预处理后的文本数据进行标注的具体方法为:
将文本数据的主语开始位置标注为B-sub,将主语中间位置标注为I-sub,将主语终止位置标注为E-sub;将非实体词表示为O;将宾语开始位置及其与主语的关系类型标注为B-be或B-loc,将宾语中间位置及其与主语的关系类型标注为I-be或I-loc,将宾语终止位置及其与主语的关系类型标注为E-be或E-loc。
优选地,所述获得文本数据的词向量的具体方法为:
建立实体关系抽取模型,所述模型包括BERT层;
将标注后的文本数据输入BERT层中,BERT层对文本数据进行编码分词,输出维度数为d的文本数据词向量X={x1,x2,x3,…,xn},X表示文本数据词向量集合,xn表示第n个词向量。
BERT层是预训练语言模型,能够将标注框架的功能与预先训练的先验知识相结合,提高了词向量的隐藏信息表示的准确性,提高了关系抽取的准确度。
优选地,所述计算文本数据的隐藏信息序列的具体方法为:
所述实体关系抽取模型还包括Bi-LSTM层,所述Bi-LSTM层由前向LSTM和后向LSTM构成;
将文本数据的词向量输入Bi-LSTM层,运用门控概念,利用前向LSTM和后向LSTM分别获取该词向量的前文隐藏信息和后文隐藏信息,具体过程为:
其中,前向LSTM的计算方法为:
LSTM的输入门计算:
it=σ(Wi·[ht-1,xt]+bi)
式中,it表示当前t时刻输入门的输出,σ表示sigmoid激活函数,Wi表示输入门权重矩阵,bi表示输入门偏置向量;ht-1上一时刻LSTM单元的输出,xt表示当前t时刻输入的文本数据词向量,xt∈X;
LSTM的遗忘门计算:
ft=σ(Wf·[ht-1,xt]+bf)
式中,ft表示当前t时刻遗忘门的输出,Wf表示遗忘门权重矩阵,bf表示遗忘门偏置向量;
LSTM的记忆细胞状态计算:
ct=ft*ct-1+it*tanh(Wc·[ht-1,xt]+bc)
式中,ct表示当前t时刻记忆细胞的输出,ct-1表示上一时刻记忆细胞输出,tanh表示tanh激活函数,Wc表示记忆细胞权重矩阵,bc表示记忆细胞偏置向量;
LSTM的输出门计算:
ot=σ(Wo·[ht-1,xt]+bo)
式中,ot表示当前t时刻输出门的输出,Wo表示输出门权重矩阵,bo表示输出门偏置向量;
前向LSTM的输出向量和后向LSTM的输出向量为:
Figure BDA0003113662600000041
后向LSTM的计算方法与前向LSTM的计算方法相同,后向LSTM的输出向量
Figure BDA0003113662600000042
与前向LSTM的输出向量
Figure BDA0003113662600000043
数值相同,仅方向相反;
前向LSTM的输出向量
Figure BDA0003113662600000044
和后向LSTM的输出向量
Figure BDA0003113662600000045
包含了词向量的前文隐藏信息和后文隐藏信息,
则文本数据的隐藏信息为:
Figure BDA0003113662600000046
对文本数据词向量集合X中的每个词向量获取文本数据的隐藏信息,组合为文本数据的隐藏信息序列H={h1,h2,…,hn},hn表示第n个词向量的文本数据的隐藏信息;
Bi-LSTM层运用门控概念实现长期记忆,不仅对短期的输入敏感,更能保存长期的状态,结合当前输入和长期包含的状态,提高了最终关系抽取的准确度。
优选地,所述获得文本数据新序列的具体方法为:
所述实体关系抽取模型还包括全连接层;
将文本数据的隐藏信息序列H输入全连接层,映射成低维度向量后,利用解码函数解码出标注的标签,解码函数为:
lab=argmax(softmax(H))
式中,lab表示标注的标签,softmax为归一化指数函数,argmax为对函数求集合的函数;
根据标注的标签获得对应的主语,将主语拼接文本数据的隐藏信息序列H,获得文本数据新序列
Figure BDA0003113662600000047
其中sn表示获得的第n个主语。
优选地,所述获得映射结果序列的具体方法为:
所述实体关系抽取模型还包括自注意力层;
将文本数据新序列
Figure BDA0003113662600000048
输入自注意力层,利用以下公式进行映射操作:
Figure BDA0003113662600000049
Figure BDA00031136626000000410
其中,Qi表示query矩阵,Ki表示keys矩阵,Vi表示value矩阵,
Figure BDA0003113662600000051
表示keys矩阵Ki的转置矩阵;
Figure BDA0003113662600000052
表示query矩阵映射参数,
Figure BDA0003113662600000053
表示keys矩阵映射参数,
Figure BDA0003113662600000054
表示value矩阵映射参数,d表示词向量的维度数;ui表示结合注意力特征向量;
进行若干次映射操作后,将映射结果进行拼接,获得映射结果序列U={u1,u2...un},其中,un表示第n个结合注意力特征向量。
自注意力层的注意力意机制能很好的建模依赖关系,而不考虑在输入或输出的距离,能学习任意两个词之间的依存关系,通过区分不同特征的重要程度,忽略不重要的特征,将注意力放在重要的特征上,捕获文本数据的内部结构信息,有效提高了最终关系抽取的准确度。
优选地,所述获得实体关系三元组的具体方法为:
所述实体关系抽取模型还包括CRF层;
引入转移得分矩阵A,矩阵中的元素
Figure BDA0003113662600000055
表示标签yi转移到标签yi+1的转移得分,令y0和yn+1为开始位置标签和终止位置标签,矩阵元素
Figure BDA0003113662600000056
表示第i个词在第yi个标签下的输出得分;
将映射结果序列U={u1,u2...un}输入CRF层,输出标签序列Y={y1,y2...yn},则标签序列Y的总得分为:
Figure BDA0003113662600000057
对所有可能的标签序列路径进行归一化,获得标签序列的概率分布:
Figure BDA0003113662600000058
其中,
Figure BDA0003113662600000059
表示一个中间状态标签序列的总得分,
Figure BDA00031136626000000510
表示一个中间状态标签序列;
将正确的标签序列记为Y*,则正确的标签序列的对数概率如下式所示:
Figure BDA00031136626000000511
式中,S(U,Y*)表示正确标签序列的总得分,log(P(Y*|X))表示正确的标签序列的对数概率;
利用维特比算法求解正确的标签序列的对数概率的最大值,对最大化正确的标签序列的对数概率取反,作为实体关系抽取模型的当前损失函数loss:
loss=-log(P(Y*|X))
对当前损失函数loss进行优化,直到当前损失函数loss收敛,输出实体关系三元组。
CRF层的可以弥补Bi-LSTM层善于无法处理相邻标签之间的依赖关系的缺点,有效提高了最终关系抽取的准确度。
优选地,利用随机梯度下降法对当前损失函数loss进行优化。
与现有技术相比,本发明技术方案的有益效果是:
本发明通过对预处理后的文本数据进行标注后再进行分词,有效解决了文本数据中实体关系重叠的问题;进一步对文本数据的词向量挖掘文本数据的隐藏信息,利用文本数据中的隐藏信息提高关系抽取的准确性;将提取的主语拼接到隐藏信息序列,识别跨越句子的多元实体关系,解决了多元实体之间的关系分类问题;对文本数据新序列进行映射操作,获得映射结果序列,更准确捕获词向量之间的相互影响特征,进一步提高了关系抽取的准确性。本发明提供的方法能够准确提取出具有重叠关系的实体关系三元组。
附图说明
图1为实施例所述的一种文本数据的实体数据关系抽取方法的流程图;
图2为实施例所述的标注方法的示意图;
图3为实施例所述的实体关系抽取模型内的数据流向图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例
本实施例提供一种文本数据的实体数据关系抽取方法,如图1所示,所述方法包括:
S1:获取文本数据并进行预处理,获得预处理后的文本数据;
通过爬虫技术在互联网网站上进行目标领域数据的定向爬取的所有文本数据、目标领域的企业填报数据、政府部门公布的产业数据和产业发展报告;本实施例以海洋产业为目标领域,通过爬虫技术对中国海洋网等互联网网站进行定向爬取,爬取的模块有海洋经济、海洋军事、海洋历史、海洋资讯、海洋文化等一级网址,之后在一级网址的基础上进行二级网址的爬取,直至获得二级网址下的所有数据文本;收集涉及海洋产业企业的填报数据、相关政府部门的海洋产业数据、整个海洋产业的行业数据和产业发展报告作为文本数据;
对文本数据进行分句处理,以句号、问号、感叹号、省略号为切分标记对文本数据进行句子切分,得到句子级别的文本数据,即存储方式为一个句子占一行的位置;之后对句子级别的文本数据进行数据去重和数据过滤,将重复的句子级别的文本数据和与海洋产业无关的文本数据删除;
S2:对预处理后的文本数据进行标注;
将文本数据的主语开始位置标注为B-sub,将主语中间位置标注为I-sub,将主语终止位置标注为E-sub;将非实体词表示为O;将宾语开始位置及其与主语的关系类型标注为B-be或B-loc,将宾语中间位置及其与主语的关系类型标注为I-be或I-loc,将宾语终止位置及其与主语的关系类型标注为E-be或E-loc;具体的标注方法为:
如图2所示,以“中华白海豚,属鲸目海豚科,栖息于珠江口。”为例,“中华白海豚”是主语,开始位置是“中”,终止位置是“豚”,中间位置是“华、白、海”,所以将“中”标注为B-sub,“华、白、海”均标注为I-sub,“豚”标注为E-sub;“鲸目海豚科”和“珠江口”为宾语,“中华白海豚”与“鲸目海豚科”的关系类型为从属关系,将“鲸”标注为B-be,“目、海、豚”标注为I-be,将“科”标注为E-be;“中华白海豚”与“珠江口”的关系类型为位置关系,将“珠”标注为B-loc,将“江”标注为I-loc,将“口”标注为E-loc;“,”、“属”、“栖息于”、“。”为非实体词,标注为O;
S3:对信息数据集中的文本数据进行编码分词,获得文本数据的词向量;
建立实体关系抽取模型,所述模型包括BERT层;
将信息数据集中的文本数据输入BERT层中,BERT层对文本数据进行编码分词,输出维度数为d的文本数据词向量X={x1,x2,x3,…,xn},X表示文本数据词向量集合,xn表示第n个词向量;
S4:根据文本数据的词向量,计算文本数据的隐藏信息序列;
所述实体关系抽取模型还包括Bi-LSTM层,所述Bi-LSTM层由前向LSTM和后向LSTM构成;
将文本数据的词向量输入Bi-LSTM层,运用门控概念,利用前向LSTM和后向LSTM分别获取该词向量的前文隐藏信息和后文隐藏信息,具体过程为:
其中,前向LSTM的计算方法为:
LSTM的输入门计算:
it=σ(Wi·[ht-1,xt]+bi)
式中,it表示当前t时刻输入门的输出,σ表示sigmoid激活函数,Wi表示输入门权重矩阵,bi表示输入门偏置向量;ht-1上一时刻LSTM单元的输出,xt表示当前t时刻输入的文本数据词向量,xt∈X;
LSTM的遗忘门计算:
ft=σ(Wf·[ht-1,xt]+bf)
式中,ft表示当前t时刻遗忘门的输出,Wf表示遗忘门权重矩阵,bf表示遗忘门偏置向量;
LSTM的记忆细胞状态计算:
ct=ft*ct-1+it*tanh(Wc·[ht-1,xt]+bc)
式中,ct表示当前t时刻记忆细胞的输出,ct-1表示上一时刻记忆细胞输出,tanh表示tanh激活函数,Wc表示记忆细胞权重矩阵,bc表示记忆细胞偏置向量;
LSTM的输出门计算:
ot=σ(Wo·[ht-1,xt]+bo)
式中,ot表示当前t时刻输出门的输出,Wo表示输出门权重矩阵,bo表示输出门偏置向量;
前向LSTM的输出向量和后向LSTM的输出向量为:
Figure BDA0003113662600000081
后向LSTM的计算方法与前向LSTM的计算方法相同,后向LSTM的输出向量
Figure BDA0003113662600000082
与前向LSTM的输出向量
Figure BDA0003113662600000083
数值相同,仅方向相反;
前向LSTM的输出向量
Figure BDA0003113662600000084
和后向LSTM的输出向量
Figure BDA0003113662600000085
包含了词向量的前文隐藏信息和后文隐藏信息,
则文本数据的隐藏信息为:
Figure BDA0003113662600000091
对文本数据词向量集合X中的每个词向量获取文本数据的隐藏信息,组合为文本数据的隐藏信息序列H={h1,h2,…,hn},hn表示第n个词向量的文本数据的隐藏信息;
S5:对文本数据的隐藏信息序列进行主语抽取,将抽取出的主语拼接到文本数据的隐藏信息序列,获得文本数据新序列;
所述实体关系抽取模型还包括全连接层;
将文本数据的隐藏信息序列H输入全连接层,映射成低维度向量后,利用解码函数解码出标注的标签,解码函数为:
lab=argmax(softmax(H))
式中,lab表示标注的标签,softmax为归一化指数函数,argmax为对函数求集合的函数;
根据标注的标签获得对应的主语,将主语拼接文本数据的隐藏信息序列H,获得文本数据新序列
Figure BDA0003113662600000092
其中sn表示获得的第n个主语;
S6:对文本数据新序列进行映射操作,获得映射结果序列;
所述实体关系抽取模型还包括自注意力层;
将文本数据新序列
Figure BDA0003113662600000093
输入自注意力层,利用以下公式进行映射操作:
Figure BDA0003113662600000094
Figure BDA0003113662600000095
其中,Qi表示query矩阵,Ki表示keys矩阵,Vi表示value矩阵,
Figure BDA0003113662600000096
表示keys矩阵Ki的转置矩阵;
Figure BDA0003113662600000097
表示query矩阵映射参数,
Figure BDA0003113662600000098
表示keys矩阵映射参数,
Figure BDA0003113662600000099
表示value矩阵映射参数,d表示词向量的维度数;ui表示结合注意力特征向量;
进行若干次映射操作后,将映射结果进行拼接,获得映射结果序列U={u1,u2...un},其中,un表示第n个结合注意力特征向量;
S7:对映射结果序列进行解码操作,获得实体关系三元组。
所述实体关系抽取模型还包括CRF层;
引入转移得分矩阵A,矩阵中的元素
Figure BDA00031136626000000910
表示标签yi转移到标签yi+1的转移得分,令y0和yn+1为开始位置标签和终止位置标签,矩阵元素
Figure BDA0003113662600000101
表示第i个词在第yi个标签下的输出得分;
将映射结果序列U={u1,u2...un}输入CRF层,输出标签序列Y={y1,y2...yn},则标签序列Y的总得分为:
Figure BDA0003113662600000102
对所有可能的标签序列路径进行归一化,获得标签序列的概率分布:
Figure BDA0003113662600000103
其中,
Figure BDA0003113662600000104
表示一个中间状态标签序列的总得分,
Figure BDA0003113662600000105
表示一个中间状态标签序列;
将正确的标签序列记为Y*,则正确的标签序列的对数概率如下式所示:
Figure BDA0003113662600000106
式中,S(U,Y*)表示正确标签序列的总得分,log(P(Y*|X))表示正确的标签序列的对数概率;
利用维特比算法对求解正确的标签序列的对数概率的最大值,对最大化正确的标签序列的对数概率取反,作为实体关系抽取模型的当前损失函数loss:
loss=-log(P(Y*|X))
对当前损失函数loss进行优化,直到当前损失函数loss收敛,输出实体关系三元组。在本实施例中,以输入的“中华白海豚,属鲸目海豚科,栖息于珠江口。”为例,最终输出的为“中华白海豚,属于,鲸目海豚科”和“中华白海豚,分布区域,珠江口”这两组具有重叠关系的实体关系三元组。
如图3所示,本实施例建立的实体关系抽取模型的BERT层能够将标注框架的功能与预先训练的先验知识相结合,提高了词向量的隐藏信息表示的准确性;Bi-LSTM层运用门控概念实现长期记忆,不仅对短期的输入敏感,更能保存长期的状态;自注意力层的注意力意机制能很好的建模依赖关系,而不考虑在输入或输出的距离,能学习任意两个词之间的依存关系,通过区分不同特征的重要程度,忽略不重要的特征,将注意力放在重要的特征上,捕获文本数据的内部结构信息;CRF层的可以弥补Bi-LSTM层善于无法处理相邻标签之间的依赖关系的缺点;这几层共同配合显著提高了实体关系抽取模型准确率,文本数据输入实体关系抽取模型经这几层处理后,能够准确提取出关系重叠的实体三元组。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种文本数据的实体数据关系抽取方法,其特征在于,所述方法包括:
S1:获取文本数据并进行预处理,获得预处理后的文本数据;
S2:对预处理后的文本数据进行标注;
S3:对标注后的文本数据进行编码分词,获得文本数据的词向量;
S4:根据文本数据的词向量,计算文本数据的隐藏信息序列;
S5:对文本数据的隐藏信息序列进行主语抽取,将抽取出的主语拼接到文本数据的隐藏信息序列,获得文本数据新序列;
S6:对文本数据新序列进行映射操作,获得映射结果序列;
S7:对映射结果序列进行解码操作,获得实体关系三元组。
2.根据权利要求1所述的文本数据的实体数据关系抽取方法,其特征在于,所述获取文本数据的方法为:
通过爬虫技术在互联网网站上对目标领域数据进行定向爬取;
所述文本数据包括目标领域的所有文本数据、目标领域的企业填报数据、政府部门公布的产业数据和产业发展报告。
3.根据权利要求1所述的文本数据的实体数据关系抽取方法,其特征在于,所述预处理具体包括:分句处理、数据去重和数据过滤。
4.根据权利要求1所述的文本数据的实体数据关系抽取方法,其特征在于,所述S2中,对预处理后的文本数据进行标注的具体方法为:
将文本数据的主语开始位置标注为B-sub,将主语中间位置标注为I-sub,将主语终止位置标注为E-sub;将非实体词表示为O;将宾语开始位置及其与主语的关系类型标注为B-be或B-loc,将宾语中间位置及其与主语的关系类型标注为I-be或I-loc,将宾语终止位置及其与主语的关系类型标注为E-be或E-loc。
5.根据权利要求1所述的文本数据的实体数据关系抽取方法,其特征在于,所述获得文本数据的词向量的具体方法为:
建立实体关系抽取模型,所述模型包括BERT层;
将标注后的文本数据输入BERT层中,BERT层对文本数据进行编码分词,输出维度数为d的文本数据词向量X={x1,x2,x3,…,xn},X表示文本数据词向量集合,xn表示第n个词向量。
6.根据权利要求5所述的文本数据的实体数据关系抽取方法,其特征在于,所述计算文本数据的隐藏信息序列的具体方法为:
所述实体关系抽取模型还包括Bi—LSTM层,所述Bi—LSTM层由前向LSTM和后向LSTM构成;
将文本数据的词向量输入Bi—LSTM层,运用门控概念,利用前向LSTM和后向LSTM分别获取该词向量的前文隐藏信息和后文隐藏信息,具体过程为:
其中,前向LSTM的计算方法为:
LSTM的输入门计算:
it=σ(Wi·[ht-1,xt]+bi)
式中,it表示当前t时刻输入门的输出,σ表示sigmoid激活函数,Wi表示输入门权重矩阵,bi表示输入门偏置向量;ht-1上一时刻LSTM单元的输出,xt表示当前t时刻输入的文本数据词向量,xt∈X;
LSTM的遗忘门计算:
ft=σ(Wf·[ht-1,xt]+bf)
式中,ft表示当前t时刻遗忘门的输出,Wf表示遗忘门权重矩阵,bf表示遗忘门偏置向量;
LSTM的记忆细胞状态计算:
ct=ft*ct-1+it*tanh(Wc·[ht-1,xt]+bc)
式中,ct表示当前t时刻记忆细胞的输出,ct-1表示上一时刻记忆细胞输出,tanh表示tanh激活函数,Wc表示记忆细胞权重矩阵,bc表示记忆细胞偏置向量;
LSTM的输出门计算:
ot=σ(Wo·[ht-1,xt]+bo)
式中,ot表示当前t时刻输出门的输出,Wo表示输出门权重矩阵,bo表示输出门偏置向量;
前向LSTM的输出向量和后向LSTM的输出向量为:
Figure FDA0003113662590000021
后向LSTM的计算方法与前向LSTM的计算方法相同,后向LSTM的输出向量
Figure FDA0003113662590000022
与前向LSTM的输出向量
Figure FDA0003113662590000023
数值相同,仅方向相反;
前向LSTM的输出向量
Figure FDA0003113662590000024
和后向LSTM的输出向量
Figure FDA0003113662590000025
包含了词向量的前文隐藏信息和后文隐藏信息,
则文本数据的隐藏信息为:
Figure FDA0003113662590000031
对文本数据词向量集合X中的每个词向量获取文本数据的隐藏信息,组合为文本数据的隐藏信息序列H={h1,h2,…,hn},hn表示第n个词向量的文本数据的隐藏信息。
7.根据权利要求6所述的文本数据的实体数据关系抽取方法,其特征在于,所述获得文本数据新序列的具体方法为:
所述实体关系抽取模型还包括全连接层;
将文本数据的隐藏信息序列H输入全连接层,映射成低维度向量后,利用解码函数解码出标注的标签,解码函数为:
lab=argmax(softmax(H))
式中,lab表示标注的标签,softmax为归一化指数函数,argmax为对函数求集合的函数;
根据标注的标签获得对应的主语,将主语拼接到文本数据的隐藏信息序列H,获得文本数据新序列
Figure FDA0003113662590000032
其中sn表示获得的第n个主语。
8.根据权利要求7所述的文本数据的实体数据关系抽取方法,其特征在于,所述获得映射结果序列的具体方法为:
所述实体关系抽取模型还包括自注意力层;
将文本数据新序列
Figure FDA0003113662590000033
输入自注意力层,利用以下公式进行映射操作:
Figure FDA0003113662590000034
Figure FDA0003113662590000035
其中,Qi表示query矩阵,Ki表示keys矩阵,Vi表示value矩阵,
Figure FDA0003113662590000036
表示keys矩阵Ki的转置矩阵;
Figure FDA0003113662590000037
表示query矩阵映射参数,
Figure FDA0003113662590000038
表示keys矩阵映射参数,
Figure FDA0003113662590000039
表示value矩阵映射参数,d表示词向量的维度数;ui表示结合注意力特征向量;
进行若干次映射操作后,将映射结果进行拼接,获得映射结果序列U={u1,u2…un},其中,un表示第n个结合注意力特征向量。
9.根据权利要求8所述的文本数据的实体数据关系抽取方法,其特征在于,所述获得实体关系三元组的具体方法为:
所述实体关系抽取模型还包括CRF层;
引入转移得分矩阵A,矩阵中的元素
Figure FDA0003113662590000041
表示标签yi转移到标签yi+1的转移得分,令y0和yn+1为开始位置标签和终止位置标签,矩阵元素
Figure FDA0003113662590000042
表示第i个词在第yi个标签下的输出得分;
将映射结果序列U={u1,u2…un}输入CRF层,输出标签序列Y={y1,y2…yn},则标签序列Y的总得分为:
Figure FDA0003113662590000043
对所有可能的标签序列路径进行归一化,获得标签序列的概率分布:
Figure FDA0003113662590000044
其中,
Figure FDA0003113662590000045
表示一个中间状态标签序列的总得分,
Figure FDA0003113662590000046
表示一个中间状态标签序列,
Figure FDA0003113662590000047
表示所有中间状态标签序列的总得分进行求和;
将正确的标签序列记为Y*,则正确的标签序列的对数概率如下式所示:
Figure FDA0003113662590000048
式中,S(U,Y*)表示正确标签序列的总得分,log(P(Y*|X))表示正确的标签序列的对数概率;
利用维特比算法求解正确的标签序列的对数概率的最大值,对最大化正确的标签序列的对数概率取反,作为实体关系抽取模型的当前损失函数loss:
loss=-log(P(Y*|X))
对当前损失函数loss进行优化,直到当前损失函数loss收敛,输出实体关系三元组。
10.根据权利要求9所述的文本数据的实体数据关系抽取方法,其特征在于,利用随机梯度下降法对当前损失函数loss进行优化。
CN202110657344.XA 2021-06-11 2021-06-11 一种文本数据的实体数据关系抽取方法 Pending CN113378571A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110657344.XA CN113378571A (zh) 2021-06-11 2021-06-11 一种文本数据的实体数据关系抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110657344.XA CN113378571A (zh) 2021-06-11 2021-06-11 一种文本数据的实体数据关系抽取方法

Publications (1)

Publication Number Publication Date
CN113378571A true CN113378571A (zh) 2021-09-10

Family

ID=77574268

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110657344.XA Pending CN113378571A (zh) 2021-06-11 2021-06-11 一种文本数据的实体数据关系抽取方法

Country Status (1)

Country Link
CN (1) CN113378571A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113553854A (zh) * 2021-09-18 2021-10-26 航天宏康智能科技(北京)有限公司 实体关系的联合抽取方法和联合抽取装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110196913A (zh) * 2019-05-23 2019-09-03 北京邮电大学 基于文本生成式的多实体关系联合抽取方法和装置
CN110472235A (zh) * 2019-07-22 2019-11-19 北京航天云路有限公司 一种面向中文文本的端到端实体关系联合抽取方法
CN111160008A (zh) * 2019-12-18 2020-05-15 华南理工大学 一种实体关系联合抽取方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110196913A (zh) * 2019-05-23 2019-09-03 北京邮电大学 基于文本生成式的多实体关系联合抽取方法和装置
CN110472235A (zh) * 2019-07-22 2019-11-19 北京航天云路有限公司 一种面向中文文本的端到端实体关系联合抽取方法
CN111160008A (zh) * 2019-12-18 2020-05-15 华南理工大学 一种实体关系联合抽取方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
邵镛: "基于深度学习的中文实体关系提取研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113553854A (zh) * 2021-09-18 2021-10-26 航天宏康智能科技(北京)有限公司 实体关系的联合抽取方法和联合抽取装置
CN113553854B (zh) * 2021-09-18 2021-12-10 航天宏康智能科技(北京)有限公司 实体关系的联合抽取方法和联合抽取装置

Similar Documents

Publication Publication Date Title
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN111985239B (zh) 实体识别方法、装置、电子设备及存储介质
CN104408153B (zh) 一种基于多粒度主题模型的短文本哈希学习方法
CN111382565B (zh) 基于多标签的情绪-原因对抽取方法及系统
CN111966917A (zh) 一种基于预训练语言模型的事件检测与摘要方法
CN112884551B (zh) 一种基于近邻用户和评论信息的商品推荐方法
CN114239585A (zh) 一种生物医学嵌套命名实体识别方法
CN111026880B (zh) 基于联合学习的司法知识图谱构建方法
CN115587594B (zh) 网络安全的非结构化文本数据抽取模型训练方法及系统
CN113051922A (zh) 一种基于深度学习的三元组抽取方法及系统
CN112633431A (zh) 一种基于crnn和ctc的藏汉双语场景文字识别方法
CN116383399A (zh) 一种事件舆情风险预测方法及系统
CN111582506A (zh) 基于全局和局部标记关系的偏多标记学习方法
CN115759092A (zh) 一种基于albert的网络威胁情报命名实体识别方法
CN111709225B (zh) 一种事件因果关系判别方法、装置和计算机可读存储介质
CN115526236A (zh) 一种基于多模态对比学习的文本网络图分类方法
CN111581943A (zh) 一种基于句子关联图的汉越双语多文档新闻观点句识别方法
CN115906816A (zh) 一种基于Bert的双通道Attention模型的文本情感分析方法
CN116186237A (zh) 一种基于事件因果推断的实体关系的联合抽取方法
CN117034948B (zh) 基于多特征自适应融合的段落识别方法、系统及存储介质
CN113920379A (zh) 一种基于知识辅助的零样本图像分类方法
CN116629258B (zh) 基于复杂信息项数据的司法文书的结构化分析方法及系统
CN113378571A (zh) 一种文本数据的实体数据关系抽取方法
CN112749566B (zh) 一种面向英文写作辅助的语义匹配方法及装置
CN116843175A (zh) 一种合同条款风险检查方法、系统、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210910

RJ01 Rejection of invention patent application after publication