CN113378571A - 一种文本数据的实体数据关系抽取方法 - Google Patents
一种文本数据的实体数据关系抽取方法 Download PDFInfo
- Publication number
- CN113378571A CN113378571A CN202110657344.XA CN202110657344A CN113378571A CN 113378571 A CN113378571 A CN 113378571A CN 202110657344 A CN202110657344 A CN 202110657344A CN 113378571 A CN113378571 A CN 113378571A
- Authority
- CN
- China
- Prior art keywords
- text data
- sequence
- representing
- entity
- lstm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 44
- 239000013598 vector Substances 0.000 claims abstract description 92
- 238000013507 mapping Methods 0.000 claims abstract description 46
- 238000000034 method Methods 0.000 claims abstract description 41
- 238000002372 labelling Methods 0.000 claims abstract description 11
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 239000011159 matrix material Substances 0.000 claims description 51
- 230000006870 function Effects 0.000 claims description 34
- 238000004364 calculation method Methods 0.000 claims description 18
- 230000015654 memory Effects 0.000 claims description 15
- 230000004913 activation Effects 0.000 claims description 6
- 238000012546 transfer Methods 0.000 claims description 6
- 230000009193 crawling Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 238000011161 development Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 2
- 241001479123 Sousa chinensis Species 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 230000011218 segmentation Effects 0.000 description 5
- 241000283153 Cetacea Species 0.000 description 4
- 241001481833 Coryphaena hippurus Species 0.000 description 4
- 230000007547 defect Effects 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000007787 long-term memory Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000011324 bead Substances 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种文本数据的实体数据关系抽取方法,涉及实体数据关系抽取的技术领域,包括:获取文本数据并进行预处理,获得预处理后的文本数据;对预处理后的文本数据进行标注;对标注后的文本数据进行编码分词,获得文本数据的词向量;根据文本数据的词向量,计算文本数据的隐藏信息序列;对文本数据的隐藏信息序列进行主语抽取,将抽取出的主语拼接到文本数据的隐藏信息序列,获得文本数据新序列;对文本数据新序列进行映射操作,获得映射结果序列;对映射结果序列进行解码操作,获得实体关系三元组。本发明能够发掘文本数据的隐藏信息,准确提取出具有重叠关系的实体三元组。
Description
技术领域
本发明涉及实体数据关系抽取的技术领域,更具体地,涉及一种文本数据的实体数据关系抽取方法。
背景技术
实体关系抽取的主要目标是从自然语言文本中识别并判定实体对之间存在的特定关系。文本数据的实体是指文本中原始信息的主语和宾语,如人名、组织/机构名、地理位置、日期、金额等;实体关系是指实体间的从属、位置、时间等关系;实体关系二元是指两个实体间存在的关系,实体关系三元组是指三个实体间至少一个实体与另两个实体存在关系;作为信息检索、信息抽取、自然语言理解等领域的核心任务,实体关系抽取一直是自然语言处理领域的热门方向。经过广大中外学者的多年探索研究,取得较为丰富的研究成果。从最初传统的基于规则和词典驱动方法,发展到基于传统的机器学习方法。近些年,随着深度学习的崛起,学者们将Bi-LSTM、GCN等深度学习方法应用到实体关系抽取任务中,使得任务的精准度得到极大的提升。近年来,注意力机制以及预训练模型的引入,不仅了提高模型精准度,而且使得模型的训练效率也得到了极大的提升。但是,目前实体关系抽取的方法基本都是依赖词特征、句法特征等初级特征,这些初级特征对于实体关系的抽取效果较差。其实文本数据中还存在着潜在的高级特征,这些隐藏信息对实体关系的抽取提供巨大的贡献。另外,现实中实体关系并非都是二元的,有些关系需要考虑时间和地点等信息,甚至两个实体之间存在多种关系,目前部分关系抽取方法主要集中于如何对二元关系进行抽取,面对重叠关系的三元组时,识别效果差甚至无法识别。
2019年7月26日公开的中国专利CN110059320A提供了一种实体关系抽取方法、装置、计算机设备和存储介质。所述方法包括:获取文本,识别所述文本中的实体;所述实体包括第一实体和第二实体;在所述文本中对所述实体进行标记;利用预训练语言模型对标记后的文本进行编码,得到第一实体编码向量以及第二实体编码向量;利用所述第一实体编码向量以及所述第二实体编码向量生成实体对标记向量;对所述实体对标记向量进行分类,得到所述第一实体与第二实体之间的关系类别。该方法仍依赖文本实体初级特征,无法发掘文本的隐藏信息,抽取效果较差;并且仅能对二元关系的实体进行抽取,面对具有重叠关系的实体三元组是无法进行实体关系抽取。
发明内容
本发明为克服上述现有技术面对具有重叠关系的实体三元组无法进行实体关系抽取的缺陷,提供一种文本数据的实体数据关系抽取方法,能够发掘文本数据的隐藏信息,准确提取出具有重叠关系的实体关系三元组。
为解决上述技术问题,本发明的技术方案如下:
本发明提供一种文本数据的实体数据关系抽取方法,所述方法包括:
S1:获取文本数据并进行预处理,获得预处理后的文本数据;
S2:对预处理后的文本数据进行标注;
S3:对标注后的文本数据进行编码分词,获得文本数据的词向量;
S4:根据文本数据的词向量,计算文本数据的隐藏信息序列;
S5:对文本数据的隐藏信息序列进行主语抽取,将抽取出的主语拼接到文本数据的隐藏信息序列,获得文本数据新序列;
S6:对文本数据新序列进行映射操作,获得映射结果序列;
S7:对映射结果序列进行解码操作,获得实体关系三元组。
优选地,所述获取文本数据的方法为:
通过爬虫技术在互联网网站上对目标领域数据进行定向爬取;
所述文本数据包括目标领域的所有文本数据、目标领域的企业填报数据、政府部门公布的产业数据和产业发展报告。
优选地,所述预处理具体包括:
分句处理,以句号、问号、感叹号、省略号为切分标记对文本数据进行句子切分,得到句子级别的文本数据;
数据去重,将重复的句子级别的文本数据删除;
数据过滤,将与目标领域无关的文本数据删除。
优选地,所述S2中,对预处理后的文本数据进行标注的具体方法为:
将文本数据的主语开始位置标注为B-sub,将主语中间位置标注为I-sub,将主语终止位置标注为E-sub;将非实体词表示为O;将宾语开始位置及其与主语的关系类型标注为B-be或B-loc,将宾语中间位置及其与主语的关系类型标注为I-be或I-loc,将宾语终止位置及其与主语的关系类型标注为E-be或E-loc。
优选地,所述获得文本数据的词向量的具体方法为:
建立实体关系抽取模型,所述模型包括BERT层;
将标注后的文本数据输入BERT层中,BERT层对文本数据进行编码分词,输出维度数为d的文本数据词向量X={x1,x2,x3,…,xn},X表示文本数据词向量集合,xn表示第n个词向量。
BERT层是预训练语言模型,能够将标注框架的功能与预先训练的先验知识相结合,提高了词向量的隐藏信息表示的准确性,提高了关系抽取的准确度。
优选地,所述计算文本数据的隐藏信息序列的具体方法为:
所述实体关系抽取模型还包括Bi-LSTM层,所述Bi-LSTM层由前向LSTM和后向LSTM构成;
将文本数据的词向量输入Bi-LSTM层,运用门控概念,利用前向LSTM和后向LSTM分别获取该词向量的前文隐藏信息和后文隐藏信息,具体过程为:
其中,前向LSTM的计算方法为:
LSTM的输入门计算:
it=σ(Wi·[ht-1,xt]+bi)
式中,it表示当前t时刻输入门的输出,σ表示sigmoid激活函数,Wi表示输入门权重矩阵,bi表示输入门偏置向量;ht-1上一时刻LSTM单元的输出,xt表示当前t时刻输入的文本数据词向量,xt∈X;
LSTM的遗忘门计算:
ft=σ(Wf·[ht-1,xt]+bf)
式中,ft表示当前t时刻遗忘门的输出,Wf表示遗忘门权重矩阵,bf表示遗忘门偏置向量;
LSTM的记忆细胞状态计算:
ct=ft*ct-1+it*tanh(Wc·[ht-1,xt]+bc)
式中,ct表示当前t时刻记忆细胞的输出,ct-1表示上一时刻记忆细胞输出,tanh表示tanh激活函数,Wc表示记忆细胞权重矩阵,bc表示记忆细胞偏置向量;
LSTM的输出门计算:
ot=σ(Wo·[ht-1,xt]+bo)
式中,ot表示当前t时刻输出门的输出,Wo表示输出门权重矩阵,bo表示输出门偏置向量;
前向LSTM的输出向量和后向LSTM的输出向量为:
则文本数据的隐藏信息为:
对文本数据词向量集合X中的每个词向量获取文本数据的隐藏信息,组合为文本数据的隐藏信息序列H={h1,h2,…,hn},hn表示第n个词向量的文本数据的隐藏信息;
Bi-LSTM层运用门控概念实现长期记忆,不仅对短期的输入敏感,更能保存长期的状态,结合当前输入和长期包含的状态,提高了最终关系抽取的准确度。
优选地,所述获得文本数据新序列的具体方法为:
所述实体关系抽取模型还包括全连接层;
将文本数据的隐藏信息序列H输入全连接层,映射成低维度向量后,利用解码函数解码出标注的标签,解码函数为:
lab=argmax(softmax(H))
式中,lab表示标注的标签,softmax为归一化指数函数,argmax为对函数求集合的函数;
优选地,所述获得映射结果序列的具体方法为:
所述实体关系抽取模型还包括自注意力层;
其中,Qi表示query矩阵,Ki表示keys矩阵,Vi表示value矩阵,表示keys矩阵Ki的转置矩阵;表示query矩阵映射参数,表示keys矩阵映射参数,表示value矩阵映射参数,d表示词向量的维度数;ui表示结合注意力特征向量;
进行若干次映射操作后,将映射结果进行拼接,获得映射结果序列U={u1,u2...un},其中,un表示第n个结合注意力特征向量。
自注意力层的注意力意机制能很好的建模依赖关系,而不考虑在输入或输出的距离,能学习任意两个词之间的依存关系,通过区分不同特征的重要程度,忽略不重要的特征,将注意力放在重要的特征上,捕获文本数据的内部结构信息,有效提高了最终关系抽取的准确度。
优选地,所述获得实体关系三元组的具体方法为:
所述实体关系抽取模型还包括CRF层;
将映射结果序列U={u1,u2...un}输入CRF层,输出标签序列Y={y1,y2...yn},则标签序列Y的总得分为:
对所有可能的标签序列路径进行归一化,获得标签序列的概率分布:
将正确的标签序列记为Y*,则正确的标签序列的对数概率如下式所示:
式中,S(U,Y*)表示正确标签序列的总得分,log(P(Y*|X))表示正确的标签序列的对数概率;
利用维特比算法求解正确的标签序列的对数概率的最大值,对最大化正确的标签序列的对数概率取反,作为实体关系抽取模型的当前损失函数loss:
loss=-log(P(Y*|X))
对当前损失函数loss进行优化,直到当前损失函数loss收敛,输出实体关系三元组。
CRF层的可以弥补Bi-LSTM层善于无法处理相邻标签之间的依赖关系的缺点,有效提高了最终关系抽取的准确度。
优选地,利用随机梯度下降法对当前损失函数loss进行优化。
与现有技术相比,本发明技术方案的有益效果是:
本发明通过对预处理后的文本数据进行标注后再进行分词,有效解决了文本数据中实体关系重叠的问题;进一步对文本数据的词向量挖掘文本数据的隐藏信息,利用文本数据中的隐藏信息提高关系抽取的准确性;将提取的主语拼接到隐藏信息序列,识别跨越句子的多元实体关系,解决了多元实体之间的关系分类问题;对文本数据新序列进行映射操作,获得映射结果序列,更准确捕获词向量之间的相互影响特征,进一步提高了关系抽取的准确性。本发明提供的方法能够准确提取出具有重叠关系的实体关系三元组。
附图说明
图1为实施例所述的一种文本数据的实体数据关系抽取方法的流程图;
图2为实施例所述的标注方法的示意图;
图3为实施例所述的实体关系抽取模型内的数据流向图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例
本实施例提供一种文本数据的实体数据关系抽取方法,如图1所示,所述方法包括:
S1:获取文本数据并进行预处理,获得预处理后的文本数据;
通过爬虫技术在互联网网站上进行目标领域数据的定向爬取的所有文本数据、目标领域的企业填报数据、政府部门公布的产业数据和产业发展报告;本实施例以海洋产业为目标领域,通过爬虫技术对中国海洋网等互联网网站进行定向爬取,爬取的模块有海洋经济、海洋军事、海洋历史、海洋资讯、海洋文化等一级网址,之后在一级网址的基础上进行二级网址的爬取,直至获得二级网址下的所有数据文本;收集涉及海洋产业企业的填报数据、相关政府部门的海洋产业数据、整个海洋产业的行业数据和产业发展报告作为文本数据;
对文本数据进行分句处理,以句号、问号、感叹号、省略号为切分标记对文本数据进行句子切分,得到句子级别的文本数据,即存储方式为一个句子占一行的位置;之后对句子级别的文本数据进行数据去重和数据过滤,将重复的句子级别的文本数据和与海洋产业无关的文本数据删除;
S2:对预处理后的文本数据进行标注;
将文本数据的主语开始位置标注为B-sub,将主语中间位置标注为I-sub,将主语终止位置标注为E-sub;将非实体词表示为O;将宾语开始位置及其与主语的关系类型标注为B-be或B-loc,将宾语中间位置及其与主语的关系类型标注为I-be或I-loc,将宾语终止位置及其与主语的关系类型标注为E-be或E-loc;具体的标注方法为:
如图2所示,以“中华白海豚,属鲸目海豚科,栖息于珠江口。”为例,“中华白海豚”是主语,开始位置是“中”,终止位置是“豚”,中间位置是“华、白、海”,所以将“中”标注为B-sub,“华、白、海”均标注为I-sub,“豚”标注为E-sub;“鲸目海豚科”和“珠江口”为宾语,“中华白海豚”与“鲸目海豚科”的关系类型为从属关系,将“鲸”标注为B-be,“目、海、豚”标注为I-be,将“科”标注为E-be;“中华白海豚”与“珠江口”的关系类型为位置关系,将“珠”标注为B-loc,将“江”标注为I-loc,将“口”标注为E-loc;“,”、“属”、“栖息于”、“。”为非实体词,标注为O;
S3:对信息数据集中的文本数据进行编码分词,获得文本数据的词向量;
建立实体关系抽取模型,所述模型包括BERT层;
将信息数据集中的文本数据输入BERT层中,BERT层对文本数据进行编码分词,输出维度数为d的文本数据词向量X={x1,x2,x3,…,xn},X表示文本数据词向量集合,xn表示第n个词向量;
S4:根据文本数据的词向量,计算文本数据的隐藏信息序列;
所述实体关系抽取模型还包括Bi-LSTM层,所述Bi-LSTM层由前向LSTM和后向LSTM构成;
将文本数据的词向量输入Bi-LSTM层,运用门控概念,利用前向LSTM和后向LSTM分别获取该词向量的前文隐藏信息和后文隐藏信息,具体过程为:
其中,前向LSTM的计算方法为:
LSTM的输入门计算:
it=σ(Wi·[ht-1,xt]+bi)
式中,it表示当前t时刻输入门的输出,σ表示sigmoid激活函数,Wi表示输入门权重矩阵,bi表示输入门偏置向量;ht-1上一时刻LSTM单元的输出,xt表示当前t时刻输入的文本数据词向量,xt∈X;
LSTM的遗忘门计算:
ft=σ(Wf·[ht-1,xt]+bf)
式中,ft表示当前t时刻遗忘门的输出,Wf表示遗忘门权重矩阵,bf表示遗忘门偏置向量;
LSTM的记忆细胞状态计算:
ct=ft*ct-1+it*tanh(Wc·[ht-1,xt]+bc)
式中,ct表示当前t时刻记忆细胞的输出,ct-1表示上一时刻记忆细胞输出,tanh表示tanh激活函数,Wc表示记忆细胞权重矩阵,bc表示记忆细胞偏置向量;
LSTM的输出门计算:
ot=σ(Wo·[ht-1,xt]+bo)
式中,ot表示当前t时刻输出门的输出,Wo表示输出门权重矩阵,bo表示输出门偏置向量;
前向LSTM的输出向量和后向LSTM的输出向量为:
则文本数据的隐藏信息为:
对文本数据词向量集合X中的每个词向量获取文本数据的隐藏信息,组合为文本数据的隐藏信息序列H={h1,h2,…,hn},hn表示第n个词向量的文本数据的隐藏信息;
S5:对文本数据的隐藏信息序列进行主语抽取,将抽取出的主语拼接到文本数据的隐藏信息序列,获得文本数据新序列;
所述实体关系抽取模型还包括全连接层;
将文本数据的隐藏信息序列H输入全连接层,映射成低维度向量后,利用解码函数解码出标注的标签,解码函数为:
lab=argmax(softmax(H))
式中,lab表示标注的标签,softmax为归一化指数函数,argmax为对函数求集合的函数;
S6:对文本数据新序列进行映射操作,获得映射结果序列;
所述实体关系抽取模型还包括自注意力层;
其中,Qi表示query矩阵,Ki表示keys矩阵,Vi表示value矩阵,表示keys矩阵Ki的转置矩阵;表示query矩阵映射参数,表示keys矩阵映射参数,表示value矩阵映射参数,d表示词向量的维度数;ui表示结合注意力特征向量;
进行若干次映射操作后,将映射结果进行拼接,获得映射结果序列U={u1,u2...un},其中,un表示第n个结合注意力特征向量;
S7:对映射结果序列进行解码操作,获得实体关系三元组。
所述实体关系抽取模型还包括CRF层;
将映射结果序列U={u1,u2...un}输入CRF层,输出标签序列Y={y1,y2...yn},则标签序列Y的总得分为:
对所有可能的标签序列路径进行归一化,获得标签序列的概率分布:
将正确的标签序列记为Y*,则正确的标签序列的对数概率如下式所示:
式中,S(U,Y*)表示正确标签序列的总得分,log(P(Y*|X))表示正确的标签序列的对数概率;
利用维特比算法对求解正确的标签序列的对数概率的最大值,对最大化正确的标签序列的对数概率取反,作为实体关系抽取模型的当前损失函数loss:
loss=-log(P(Y*|X))
对当前损失函数loss进行优化,直到当前损失函数loss收敛,输出实体关系三元组。在本实施例中,以输入的“中华白海豚,属鲸目海豚科,栖息于珠江口。”为例,最终输出的为“中华白海豚,属于,鲸目海豚科”和“中华白海豚,分布区域,珠江口”这两组具有重叠关系的实体关系三元组。
如图3所示,本实施例建立的实体关系抽取模型的BERT层能够将标注框架的功能与预先训练的先验知识相结合,提高了词向量的隐藏信息表示的准确性;Bi-LSTM层运用门控概念实现长期记忆,不仅对短期的输入敏感,更能保存长期的状态;自注意力层的注意力意机制能很好的建模依赖关系,而不考虑在输入或输出的距离,能学习任意两个词之间的依存关系,通过区分不同特征的重要程度,忽略不重要的特征,将注意力放在重要的特征上,捕获文本数据的内部结构信息;CRF层的可以弥补Bi-LSTM层善于无法处理相邻标签之间的依赖关系的缺点;这几层共同配合显著提高了实体关系抽取模型准确率,文本数据输入实体关系抽取模型经这几层处理后,能够准确提取出关系重叠的实体三元组。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (10)
1.一种文本数据的实体数据关系抽取方法,其特征在于,所述方法包括:
S1:获取文本数据并进行预处理,获得预处理后的文本数据;
S2:对预处理后的文本数据进行标注;
S3:对标注后的文本数据进行编码分词,获得文本数据的词向量;
S4:根据文本数据的词向量,计算文本数据的隐藏信息序列;
S5:对文本数据的隐藏信息序列进行主语抽取,将抽取出的主语拼接到文本数据的隐藏信息序列,获得文本数据新序列;
S6:对文本数据新序列进行映射操作,获得映射结果序列;
S7:对映射结果序列进行解码操作,获得实体关系三元组。
2.根据权利要求1所述的文本数据的实体数据关系抽取方法,其特征在于,所述获取文本数据的方法为:
通过爬虫技术在互联网网站上对目标领域数据进行定向爬取;
所述文本数据包括目标领域的所有文本数据、目标领域的企业填报数据、政府部门公布的产业数据和产业发展报告。
3.根据权利要求1所述的文本数据的实体数据关系抽取方法,其特征在于,所述预处理具体包括:分句处理、数据去重和数据过滤。
4.根据权利要求1所述的文本数据的实体数据关系抽取方法,其特征在于,所述S2中,对预处理后的文本数据进行标注的具体方法为:
将文本数据的主语开始位置标注为B-sub,将主语中间位置标注为I-sub,将主语终止位置标注为E-sub;将非实体词表示为O;将宾语开始位置及其与主语的关系类型标注为B-be或B-loc,将宾语中间位置及其与主语的关系类型标注为I-be或I-loc,将宾语终止位置及其与主语的关系类型标注为E-be或E-loc。
5.根据权利要求1所述的文本数据的实体数据关系抽取方法,其特征在于,所述获得文本数据的词向量的具体方法为:
建立实体关系抽取模型,所述模型包括BERT层;
将标注后的文本数据输入BERT层中,BERT层对文本数据进行编码分词,输出维度数为d的文本数据词向量X={x1,x2,x3,…,xn},X表示文本数据词向量集合,xn表示第n个词向量。
6.根据权利要求5所述的文本数据的实体数据关系抽取方法,其特征在于,所述计算文本数据的隐藏信息序列的具体方法为:
所述实体关系抽取模型还包括Bi—LSTM层,所述Bi—LSTM层由前向LSTM和后向LSTM构成;
将文本数据的词向量输入Bi—LSTM层,运用门控概念,利用前向LSTM和后向LSTM分别获取该词向量的前文隐藏信息和后文隐藏信息,具体过程为:
其中,前向LSTM的计算方法为:
LSTM的输入门计算:
it=σ(Wi·[ht-1,xt]+bi)
式中,it表示当前t时刻输入门的输出,σ表示sigmoid激活函数,Wi表示输入门权重矩阵,bi表示输入门偏置向量;ht-1上一时刻LSTM单元的输出,xt表示当前t时刻输入的文本数据词向量,xt∈X;
LSTM的遗忘门计算:
ft=σ(Wf·[ht-1,xt]+bf)
式中,ft表示当前t时刻遗忘门的输出,Wf表示遗忘门权重矩阵,bf表示遗忘门偏置向量;
LSTM的记忆细胞状态计算:
ct=ft*ct-1+it*tanh(Wc·[ht-1,xt]+bc)
式中,ct表示当前t时刻记忆细胞的输出,ct-1表示上一时刻记忆细胞输出,tanh表示tanh激活函数,Wc表示记忆细胞权重矩阵,bc表示记忆细胞偏置向量;
LSTM的输出门计算:
ot=σ(Wo·[ht-1,xt]+bo)
式中,ot表示当前t时刻输出门的输出,Wo表示输出门权重矩阵,bo表示输出门偏置向量;
前向LSTM的输出向量和后向LSTM的输出向量为:
则文本数据的隐藏信息为:
对文本数据词向量集合X中的每个词向量获取文本数据的隐藏信息,组合为文本数据的隐藏信息序列H={h1,h2,…,hn},hn表示第n个词向量的文本数据的隐藏信息。
9.根据权利要求8所述的文本数据的实体数据关系抽取方法,其特征在于,所述获得实体关系三元组的具体方法为:
所述实体关系抽取模型还包括CRF层;
将映射结果序列U={u1,u2…un}输入CRF层,输出标签序列Y={y1,y2…yn},则标签序列Y的总得分为:
对所有可能的标签序列路径进行归一化,获得标签序列的概率分布:
将正确的标签序列记为Y*,则正确的标签序列的对数概率如下式所示:
式中,S(U,Y*)表示正确标签序列的总得分,log(P(Y*|X))表示正确的标签序列的对数概率;
利用维特比算法求解正确的标签序列的对数概率的最大值,对最大化正确的标签序列的对数概率取反,作为实体关系抽取模型的当前损失函数loss:
loss=-log(P(Y*|X))
对当前损失函数loss进行优化,直到当前损失函数loss收敛,输出实体关系三元组。
10.根据权利要求9所述的文本数据的实体数据关系抽取方法,其特征在于,利用随机梯度下降法对当前损失函数loss进行优化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110657344.XA CN113378571A (zh) | 2021-06-11 | 2021-06-11 | 一种文本数据的实体数据关系抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110657344.XA CN113378571A (zh) | 2021-06-11 | 2021-06-11 | 一种文本数据的实体数据关系抽取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113378571A true CN113378571A (zh) | 2021-09-10 |
Family
ID=77574268
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110657344.XA Pending CN113378571A (zh) | 2021-06-11 | 2021-06-11 | 一种文本数据的实体数据关系抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113378571A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113553854A (zh) * | 2021-09-18 | 2021-10-26 | 航天宏康智能科技(北京)有限公司 | 实体关系的联合抽取方法和联合抽取装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110196913A (zh) * | 2019-05-23 | 2019-09-03 | 北京邮电大学 | 基于文本生成式的多实体关系联合抽取方法和装置 |
CN110472235A (zh) * | 2019-07-22 | 2019-11-19 | 北京航天云路有限公司 | 一种面向中文文本的端到端实体关系联合抽取方法 |
CN111160008A (zh) * | 2019-12-18 | 2020-05-15 | 华南理工大学 | 一种实体关系联合抽取方法及系统 |
-
2021
- 2021-06-11 CN CN202110657344.XA patent/CN113378571A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110196913A (zh) * | 2019-05-23 | 2019-09-03 | 北京邮电大学 | 基于文本生成式的多实体关系联合抽取方法和装置 |
CN110472235A (zh) * | 2019-07-22 | 2019-11-19 | 北京航天云路有限公司 | 一种面向中文文本的端到端实体关系联合抽取方法 |
CN111160008A (zh) * | 2019-12-18 | 2020-05-15 | 华南理工大学 | 一种实体关系联合抽取方法及系统 |
Non-Patent Citations (1)
Title |
---|
邵镛: "基于深度学习的中文实体关系提取研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113553854A (zh) * | 2021-09-18 | 2021-10-26 | 航天宏康智能科技(北京)有限公司 | 实体关系的联合抽取方法和联合抽取装置 |
CN113553854B (zh) * | 2021-09-18 | 2021-12-10 | 航天宏康智能科技(北京)有限公司 | 实体关系的联合抽取方法和联合抽取装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN111985239B (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN104408153B (zh) | 一种基于多粒度主题模型的短文本哈希学习方法 | |
CN111382565B (zh) | 基于多标签的情绪-原因对抽取方法及系统 | |
CN111966917A (zh) | 一种基于预训练语言模型的事件检测与摘要方法 | |
CN112884551B (zh) | 一种基于近邻用户和评论信息的商品推荐方法 | |
CN114239585A (zh) | 一种生物医学嵌套命名实体识别方法 | |
CN111026880B (zh) | 基于联合学习的司法知识图谱构建方法 | |
CN115587594B (zh) | 网络安全的非结构化文本数据抽取模型训练方法及系统 | |
CN113051922A (zh) | 一种基于深度学习的三元组抽取方法及系统 | |
CN112633431A (zh) | 一种基于crnn和ctc的藏汉双语场景文字识别方法 | |
CN116383399A (zh) | 一种事件舆情风险预测方法及系统 | |
CN111582506A (zh) | 基于全局和局部标记关系的偏多标记学习方法 | |
CN115759092A (zh) | 一种基于albert的网络威胁情报命名实体识别方法 | |
CN111709225B (zh) | 一种事件因果关系判别方法、装置和计算机可读存储介质 | |
CN115526236A (zh) | 一种基于多模态对比学习的文本网络图分类方法 | |
CN111581943A (zh) | 一种基于句子关联图的汉越双语多文档新闻观点句识别方法 | |
CN115906816A (zh) | 一种基于Bert的双通道Attention模型的文本情感分析方法 | |
CN116186237A (zh) | 一种基于事件因果推断的实体关系的联合抽取方法 | |
CN117034948B (zh) | 基于多特征自适应融合的段落识别方法、系统及存储介质 | |
CN113920379A (zh) | 一种基于知识辅助的零样本图像分类方法 | |
CN116629258B (zh) | 基于复杂信息项数据的司法文书的结构化分析方法及系统 | |
CN113378571A (zh) | 一种文本数据的实体数据关系抽取方法 | |
CN112749566B (zh) | 一种面向英文写作辅助的语义匹配方法及装置 | |
CN116843175A (zh) | 一种合同条款风险检查方法、系统、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210910 |
|
RJ01 | Rejection of invention patent application after publication |