CN117521656B - 一种面向中文文本的端到端中文实体关系联合抽取方法 - Google Patents
一种面向中文文本的端到端中文实体关系联合抽取方法 Download PDFInfo
- Publication number
- CN117521656B CN117521656B CN202311629250.7A CN202311629250A CN117521656B CN 117521656 B CN117521656 B CN 117521656B CN 202311629250 A CN202311629250 A CN 202311629250A CN 117521656 B CN117521656 B CN 117521656B
- Authority
- CN
- China
- Prior art keywords
- chinese
- text
- representation
- relation
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 49
- 239000013598 vector Substances 0.000 claims abstract description 58
- 238000012545 processing Methods 0.000 claims abstract description 30
- 238000002372 labelling Methods 0.000 claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 24
- 238000000034 method Methods 0.000 claims abstract description 22
- 230000007246 mechanism Effects 0.000 claims abstract description 17
- 230000000873 masking effect Effects 0.000 claims description 40
- 239000011159 matrix material Substances 0.000 claims description 32
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 108091026890 Coding region Proteins 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 239000013604 expression vector Substances 0.000 claims description 5
- 230000006835 compression Effects 0.000 claims description 4
- 238000007906 compression Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 5
- 230000009977 dual effect Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004304 visual acuity Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0985—Hyperparameter optimisation; Meta-learning; Learning-to-learn
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种面向中文文本的端到端中文实体关系联合抽取方法,包括优化中文预训练模型,对输入的中文文本进行编码处理,生成中文文本的文本表示;对中文文本的文本表示进行实体解码处理,得到实体BIO标注序列和上下文表示向量;采用上下文注意力机制确定上下文注意力向量;将上下文注意力向量与中文文本的文本表示拼接后进行关系编码处理,得到关系编码表示;采用双仿射注意力机制进行关系解码处理,得到实体关系抽取结果。本发明能够捕捉到词级别的交叉依赖信息,能有效提升模型准确性和鲁棒性。
Description
技术领域
本发明涉及中文信息提取技术领域,具体涉及一种面向中文文本的端到端中文实体关系联合抽取方法。
背景技术
实体关系抽取是自然语言处理领域的一个重要任务,旨在从文本中识别和提取出具体实体(如人名、地名、组织机构等)以及它们之间的关系。命名实体识别任务是从文本中识别并标记出命名实体的边界和类型,通常包括人名、地名、组织机构、日期、时间。关系抽取的目标是识别文本中命名实体之间的关系。现有的实体关系抽取方法主要包括管道方法与联合抽取方法两种。管道方法是一种常见的实体关系抽取方法,它将命名实体识别和关系抽取视为两个独立的任务,分别进行处理。首先,使用命名实体识别系统标记文本中的实体,然后再使用关系抽取系统来确定这些实体之间的关系。管道方法的优点在于模块化,容易实现和调试,但可能会导致误差传播,因为命名实体识别错误可能会影响关系抽取结果。联合抽取方法旨在同时执行命名实体识别和关系抽取,将这两个任务视为一个联合优化问题。这种方法可以充分考虑实体和关系之间的相互依赖关系,提高了准确性。联合抽取方法通常基于序列标注模型或图神经网络,能够一次性识别实体和它们之间的关系。
联合抽取方法在解决实体关系抽取问题时具有明显的优势:1、联合抽取方法可以在同一模型中考虑实体和关系,从而更好地捕捉文本中的上下文信息,提高抽取的一致性和准确性;2、相对于管道方法,联合抽取方法可以减少命名实体识别错误对关系抽取结果的影响;3、联合抽取方法可以更容易地应对新实体类别和关系的引入。面临的问题包括数据稀缺性、多语言问题、开放域问题和误差传播。联合抽取方法因其上下文一致性和减少错误传播的优势而备受关注,是实体关系抽取领域的一个前沿研究方向。然而现有的实体关系联合抽取方法模型大多是将两个子任务模型合并到一起,而并不是一个真正统一的模型来同时解决两个任务,这可能会导致模型性能不够优化,同时,虽然对比管道的方法在任务关联性上有提升,但如何增强实体抽取和关系抽取任务的关联性也是需要考虑的问题。
中文实体关系抽取与英语差距较大,中文的语言特点在于没有明显的单词边界,这使得分词成为实体关系抽取的首要问题。另外实体的多样性与关系的复杂性也是造成中文实体关系抽取难度较大的重要原因。例如在文旅领域中,为于评判旅游消费趋势,评估行业发展现状等目的进行实体关系抽取时,往往会遇到实体重叠和关系嵌套等问题,因此如何解决以上问题成为中文实体关系抽取的研究热点。
发明内容
针对现有技术中的上述不足,本发明提供了一种面向中文文本的端到端中文实体关系联合抽取方法,以期解决现有中文实体关系抽取方法中存在实体的多样性与关系的复杂性导致抽取难度大等问题。
为了达到上述发明目的,本发明采用的技术方案为:
一种面向中文文本的端到端中文实体关系联合抽取方法,包括以下步骤:
S1、对输入的中文文本进行全词掩蔽处理,根据处理后的中文文本优化中文预训练模型,并利用优化后的中文预训练模型对输入的中文文本进行编码处理,生成中文文本的文本表示;
S2、对中文文本的文本表示进行包括上下文特征提取和BIO序列标注的实体解码处理,得到实体BIO标注序列和上下文表示向量;
S3、根据实体BIO标注序列和上下文表示向量,以及中文文本的文本表示,采用上下文注意力机制确定上下文注意力向量;
S4、将上下文注意力向量与中文文本的文本表示拼接后进行关系编码处理,得到关系编码表示;
S5、根据关系编码表示,采用双仿射注意力机制进行关系解码处理,得到实体关系抽取结果。
作为可选地,步骤S1包括以下步骤:
S11、对输入的中文文本进行中文分词,确定中文文本中的词语个数;
S12、根据中文文本中的词语个数对分词后的中文文本进行全词掩蔽处理;
S13、将处理后的中文文本输入中文预训练模型进行掩蔽词预测任务,得到掩蔽词预测平均损失,优化中文预训练模型的编码层;
S14、利用优化后的中文预训练模型的编码层对输入的中文文本进行编码处理,生成中文文本的文本表示。
作为可选地,步骤S12包括:
随机选取中文文本中15%个数的词语,采用预设掩蔽策略进行三次全词掩蔽;所述掩蔽策略为:80%的概率替换为MASK标记,10%的概率替换为随机词,10%的概率不做处理保持原状。
作为可选地,步骤S13包括:
将处理后的中文文本输入中文预训练模型进行设定次数的掩蔽词预测任务,根据各次预测的损失函数计算掩蔽词预测平均损失,根据掩蔽词预测平均损失优化中文预训练模型的编码层。
作为可选地,步骤S2包括以下步骤:
S21、将中文文本的文本表示输入双向长短期记忆网络层,得到上下文表示;
S22、将上下文表示输入一个线性层对其维度进行压缩,得到低维的向量表示;
S23、将低维的向量表示输入至CRF层进行BIO序列标注,得到实体BIO标注序列;
S24、将实体BIO标注序列输入标注压缩层,得到固定长度且包含上下文信息的上下文表示向量。
作为可选地,步骤S3包括以下步骤:
S31、采用上下文注意力机制,将上下文表示向量作为查询向量,中文文本的文本表示作为键向量,中文文本的文本表示的转置矩阵作为值向量,计算相关度矩阵;
S32、对相关度矩阵进行softmax操作,得到相关度权重;
S33、根据相关度权重对所有中文文本的文本表示进行加权求和,得到上下文注意力向量。
作为可选地,相关度矩阵的计算公式为:
S=q×HT
其中,S表示相关度矩阵,q表示上下文表示向量,HT表示中文文本的文本表示的转置矩阵。
作为可选地,上下文注意力向量的计算公式为:
C=∑α×H
其中,C表示上下文注意力向量,α表示相关度权重,H表示中文文本的文本表示。
作为可选地,步骤S4包括以下步骤:
S41、将上下文注意力向量与中文文本的文本表示拼接,得到融合后的编码序列;
S42、将融合后的编码序列输入双向长短期记忆网络层进行关系建模,得到初始关系编码表示;
S43、将初始关系编码表示输入一个多头自注意力层,通过注意力学习关系的全局依赖,得到增强关系表示;
S44、将初始关系编码表示与增强关系表示通过残差连接,得到增强关系编码表示;
S45、对增强关系编码表示进行层规范化,得到最终的关系编码表示。
作为可选地,步骤S5包括以下步骤:
S51、将关系编码表示拆分成两个等长向量,作为双仿射注意力的输入矩阵;
S52、将两个等长向量输入定义的双仿射注意力层,得到二维关系得分矩阵;
S53、对二维关系得分矩阵进行softmax操作,得到关系概率矩阵;
S54、通过argmax操作选择每个行最大值所在的列索引,作为关系预测标签;
S55、根据行索引,还原实体对;并根据列索引,还原关系类型,最终输出关系三元组<实体1,关系,实体2>。
本发明具有以下有益效果:
1、本发明在编码过程中加入掩蔽词预测任务,能够加强BERT模型对文本语义的理解,为后续实体关系抽取提供更好的文本表达,同时还可提供类似非监督学习的学习效果;
2、本发明将实体解码器的输出通过上下文注意力机制与编码器输出融合后输入关系解码器,为关系解码器提供包含实体信息的文本表达,提高关系解码器对文本的解析能力;
3、本发明使用双仿射注意力机制作为解码器,能够解决中文实体关系抽取中存在的关系重叠问题;
4、本发明使用实体关系联合抽取方法,在提升实体识别与关系抽取能力的同时增加了两个任务之间的交互。
附图说明
图1为本发明中一种面向中文文本的端到端中文实体关系联合抽取方法的流程示意图;
图2为本发明中一种面向中文文本的端到端中文实体关系联合抽取方法的框架示意图;
图3为本发明中全词掩蔽过程示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1至图3所示,本发明实施例提供了一种面向中文文本的端到端中文实体关系联合抽取方法,包括以下步骤S1至S5:
S1、对输入的中文文本进行全词掩蔽处理,根据处理后的中文文本优化中文预训练模型,并利用优化后的中文预训练模型对输入的中文文本进行编码处理,生成中文文本的文本表示;
在本发明的一个可选实施例中,步骤S1包括以下步骤:
S11、对输入的中文文本进行中文分词,确定中文文本中的词语个数;
S12、根据中文文本中的词语个数对分词后的中文文本进行全词掩蔽处理;
S13、将处理后的中文文本输入中文预训练模型进行掩蔽词预测任务,得到掩蔽词预测平均损失,优化中文预训练模型的编码层;
S14、利用优化后的中文预训练模型的编码层对输入的中文文本进行编码处理,生成中文文本的文本表示。
具体而言,本实施例采用的中文预训练模型包括掩蔽词预测任务和编码任务,例如可以使用BERT-wwm-ext,Chinese预训练模型,该模型专门针对于中文的文本数据进行处理。
本实施例首先使用分词工具对输入的句子进行中文分词,确定句中词语个数;然后对分词后的句子进行全词掩蔽,输入BERT进行掩蔽词预测任务,得到掩蔽词预测平均损失Lossmlm_avg;最后将原始句子输入编码层,获取原始句子的文本表示H。
在本发明的一个可选实施例中,步骤S12包括:
随机选取中文文本中15%个数的词语,采用预设掩蔽策略进行三次全词掩蔽;所述掩蔽策略为:80%的概率替换为MASK标记,10%的概率替换为随机词,10%的概率不做处理保持原状。
在本发明的一个可选实施例中,步骤S13包括:
将处理后的中文文本输入中文预训练模型进行设定次数的掩蔽词预测任务,根据各次预测的损失函数计算掩蔽词预测平均损失,根据掩蔽词预测平均损失优化中文预训练模型的编码层。
具体而言,本实施例使用掩蔽后句子的编码表示完成分别三次预测,得到三次预测的平均损失,该损失函数的表达式为:
其中,Lossi为第i次掩蔽词预测的损失。
本实施例对输入的中文文本进行全词掩蔽处理,输入BERT编码层,获得掩蔽中文文本的文本表示,使用该文本表示完成掩蔽词预测任务,用于优化编码层,同时将原始中文文本输入编码层,获得原始中文文本的文本表示,作为实体编码器的输出,输入到实体解码器。
S2、对中文文本的文本表示进行包括上下文特征提取和BIO序列标注的实体解码处理,得到实体BIO标注序列和上下文表示向量;
在本发明的一个可选实施例中,步骤S2包括以下步骤:
S21、将中文文本的文本表示H输入双向长短期记忆网络层,得到上下文表示;
S22、将上下文表示输入一个线性层对其维度进行压缩,得到低维的向量表示;
S23、将低维的向量表示输入至CRF层进行BIO序列标注,得到实体BIO标注序列;
S24、将实体BIO标注序列输入标注压缩层,得到固定长度且包含上下文信息的上下文表示向量q。
本实施例通过将中文文本的文本表示依次经过双向长短期记忆网络层、CRF(Conditional Random Field,条件随机场)层,获得实体的BIO序列标注结果,再经过标注压缩层,得到固定长度的上下文表示向量,作为实体解码器的输出,输入到关系编码器。
S3、根据实体BIO标注序列和上下文表示向量,以及中文文本的文本表示,采用上下文注意力机制确定上下文注意力向量;
在本发明的一个可选实施例中,步骤S3包括以下步骤:
S31、采用上下文注意力机制,将上下文表示向量q作为查询向量query,中文文本的文本表示H作为键向量key,中文文本的文本表示的转置矩阵HT作为值向量value,计算相关度矩阵S;
其中,相关度矩阵的计算公式为:
S=q×HT
其中,S表示相关度矩阵,q表示上下文表示向量,HT表示中文文本的文本表示的转置矩阵。
S32、对相关度矩阵进行softmax操作,得到相关度权重α;
S33、根据相关度权重α对所有中文文本的文本表示H进行加权求和,得到上下文注意力向量。
其中上下文注意力向量的计算公式为:
C=∑α×H
其中,C表示上下文注意力向量,α表示相关度权重,H表示中文文本的文本表示。
本实施例通过将上下文表示向量与中文文本的文本表示输入上下文注意力机制,计算相关度矩阵,再对相关度矩阵做softmax操作得到权重,将编码器输出加权求和得到上下文注意力向量C,并将上下文注意力向量C作为query的动态表示,作为关系编码器的输出,输入到关系编码器。
S4、将上下文注意力向量与中文文本的文本表示拼接后进行关系编码处理,得到关系编码表示;
在本发明的一个可选实施例中,步骤S4包括以下步骤:
S41、将上下文注意力向量C与中文文本的文本表示H拼接,得到融合后的编码序列F;
S42、将融合后的编码序列F输入双向长短期记忆网络层进行关系建模,得到初始关系编码表示R;
S43、将初始关系编码表示R输入一个多头自注意力层,通过注意力学习关系的全局依赖,得到增强关系表示R';
S44、将初始关系编码表示R与增强关系表示R'通过残差连接,进行正则化,得到增强关系编码表示R”,表示为:
R″=R′+R
S45、对增强关系编码表示R”进行层规范化,得到最终的关系编码表示O。
本实施例通过将上下文注意力向量与中文文本的文本表示拼接,依次输入双向LSTM层、CRF层、残差连接层,进行关系建模,得到关系编码表示O,作为关系编码器的输出,输入到关系解码器。
S5、根据关系编码表示,采用双仿射注意力机制进行关系解码处理,得到实体关系抽取结果。
在本发明的一个可选实施例中,步骤S5包括以下步骤:
S51、将关系编码表示O拆分成两个等长向量,作为双仿射注意力的输入矩阵;
S52、将两个等长向量输入定义的双仿射注意力层,得到二维关系得分矩阵;
S53、对二维关系得分矩阵进行softmax操作,得到关系概率矩阵;
S54、通过argmax操作选择每个行最大值所在的列索引,作为关系预测标签;
S55、根据行索引,还原实体对;并根据列索引,还原关系类型,最终输出关系三元组<实体1,关系,实体2>。
本实施例使用双仿射注意力机制,将关系编码表示经过一个双仿射变换层Bilinear,计算双仿射变换得到得分矩阵,然后采用softmax操作得到概率矩阵,再通过argmax操作选取概率最大的类别作为关系预测标签,最后解码出实体关系抽取结果。
本发明通过在编码器中加入掩蔽词预测任务,对原始中文句子进行随机全词掩蔽,能有效提高BERT模型对中文文本的编码能力与模型的鲁棒性,为后续的实体关系抽取任务提供更优秀的文本表达,同时在实体解码阶段引入上下文注意力机制,学习上下文文本表达,在关系解码阶段引入双仿射注意力机制,计算头尾实体每个词之间的相关性,能够捕捉到词级别的交叉依赖信息,能有效提升模型准确性和鲁棒性。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。
Claims (5)
1.一种面向中文文本的端到端中文实体关系联合抽取方法,其特征在于,包括以下步骤:
S1、对输入的中文文本进行全词掩蔽处理,根据处理后的中文文本优化中文预训练模型,并利用优化后的中文预训练模型对输入的中文文本进行编码处理,生成中文文本的文本表示;
S2、对中文文本的文本表示进行包括上下文特征提取和BIO序列标注的实体解码处理,得到实体BIO标注序列和上下文表示向量;
S3、根据实体BIO标注序列和上下文表示向量,以及中文文本的文本表示,采用上下文注意力机制确定上下文注意力向量;包括以下步骤:
S31、采用上下文注意力机制,将上下文表示向量作为查询向量,中文文本的文本表示作为键向量,中文文本的文本表示的转置矩阵作为值向量,计算相关度矩阵;相关度矩阵的计算公式为:
S=q×HT
其中,S表示相关度矩阵,q表示上下文表示向量,HT表示中文文本的文本表示的转置矩阵;
S32、对相关度矩阵进行softmax操作,得到相关度权重;
S33、根据相关度权重对所有中文文本的文本表示进行加权求和,得到上下文注意力向量;上下文注意力向量的计算公式为:
C=∑α×H
其中,C表示上下文注意力向量,α表示相关度权重,H表示中文文本的文本表示;
S4、将上下文注意力向量与中文文本的文本表示拼接后进行关系编码处理,得到关系编码表示;包括以下步骤:
S41、将上下文注意力向量与中文文本的文本表示拼接,得到融合后的编码序列;
S42、将融合后的编码序列输入双向长短期记忆网络层进行关系建模,得到初始关系编码表示;
S43、将初始关系编码表示输入一个多头自注意力层,通过注意力学习关系的全局依赖,得到增强关系表示;
S44、将初始关系编码表示与增强关系表示通过残差连接,得到增强关系编码表示;
S45、对增强关系编码表示进行层规范化,得到最终的关系编码表示;
S5、根据关系编码表示,采用双仿射注意力机制进行关系解码处理,得到实体关系抽取结果;包括以下步骤:
S51、将关系编码表示拆分成两个等长向量,作为双仿射注意力的输入矩阵;
S52、将两个等长向量输入定义的双仿射注意力层,得到二维关系得分矩阵;
S53、对二维关系得分矩阵进行softmax操作,得到关系概率矩阵;
S54、通过argmax操作选择每个行最大值所在的列索引,作为关系预测标签;
S55、根据行索引,还原实体对;并根据列索引,还原关系类型,最终输出关系三元组<实体1,关系,实体2>。
2.根据权利要求1所述的一种面向中文文本的端到端中文实体关系联合抽取方法,其特征在于,步骤S1包括以下步骤:
S11、对输入的中文文本进行中文分词,确定中文文本中的词语个数;
S12、根据中文文本中的词语个数对分词后的中文文本进行全词掩蔽处理;
S13、将处理后的中文文本输入中文预训练模型进行掩蔽词预测任务,得到掩蔽词预测平均损失,优化中文预训练模型的编码层;
S14、利用优化后的中文预训练模型的编码层对输入的中文文本进行编码处理,生成中文文本的文本表示。
3.根据权利要求2所述的一种面向中文文本的端到端中文实体关系联合抽取方法,其特征在于,步骤S12包括:
随机选取中文文本中15%个数的词语,采用预设掩蔽策略进行三次全词掩蔽;所述掩蔽策略为:80%的概率替换为MASK标记,10%的概率替换为随机词,10%的概率不做处理保持原状。
4.根据权利要求1所述的一种面向中文文本的端到端中文实体关系联合抽取方法,其特征在于,步骤S13包括:
将处理后的中文文本输入中文预训练模型进行设定次数的掩蔽词预测任务,根据各次预测的损失函数计算掩蔽词预测平均损失,根据掩蔽词预测平均损失优化中文预训练模型的编码层。
5.根据权利要求1所述的一种面向中文文本的端到端中文实体关系联合抽取方法,其特征在于,步骤S2包括以下步骤:
S21、将中文文本的文本表示输入双向长短期记忆网络层,得到上下文表示;
S22、将上下文表示输入一个线性层对其维度进行压缩,得到低维的向量表示;
S23、将低维的向量表示输入至CRF层进行BIO序列标注,得到实体BIO标注序列;
S24、将实体BIO标注序列输入标注压缩层,得到固定长度且包含上下文信息的上下文表示向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311629250.7A CN117521656B (zh) | 2023-11-30 | 2023-11-30 | 一种面向中文文本的端到端中文实体关系联合抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311629250.7A CN117521656B (zh) | 2023-11-30 | 2023-11-30 | 一种面向中文文本的端到端中文实体关系联合抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117521656A CN117521656A (zh) | 2024-02-06 |
CN117521656B true CN117521656B (zh) | 2024-05-07 |
Family
ID=89762597
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311629250.7A Active CN117521656B (zh) | 2023-11-30 | 2023-11-30 | 一种面向中文文本的端到端中文实体关系联合抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117521656B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023060633A1 (zh) * | 2021-10-12 | 2023-04-20 | 深圳前海环融联易信息科技服务有限公司 | 增强语义的关系抽取方法、装置、计算机设备及存储介质 |
CN116911252A (zh) * | 2023-06-25 | 2023-10-20 | 山东大学 | 基于关系注意力增强和词性掩码的实体关系联合抽取方法 |
-
2023
- 2023-11-30 CN CN202311629250.7A patent/CN117521656B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023060633A1 (zh) * | 2021-10-12 | 2023-04-20 | 深圳前海环融联易信息科技服务有限公司 | 增强语义的关系抽取方法、装置、计算机设备及存储介质 |
CN116911252A (zh) * | 2023-06-25 | 2023-10-20 | 山东大学 | 基于关系注意力增强和词性掩码的实体关系联合抽取方法 |
Non-Patent Citations (2)
Title |
---|
基于汉明距离的量子K Means算法;钟静 等;计算机应用;20230810;第43卷(第8期);第2493-2498页 * |
大数据环境下量子机器学习的研究进展及发展趋势;张仕斌 等;电子科技大学学报;20211130;第50卷(第6期);第802-819页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117521656A (zh) | 2024-02-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110020438A (zh) | 基于序列识别的企业或组织中文名称实体消歧方法和装置 | |
CN111625634A (zh) | 词槽识别方法及装置、计算机可读存储介质、电子设备 | |
CN112800768A (zh) | 一种嵌套命名实体识别模型的训练方法及装置 | |
CN113190656A (zh) | 一种基于多标注框架与融合特征的中文命名实体抽取方法 | |
CN115759119B (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
CN113743119A (zh) | 中文命名实体识别模块、方法、装置及电子设备 | |
CN115168541A (zh) | 基于框架语义映射和类型感知的篇章事件抽取方法及系统 | |
CN115831102A (zh) | 基于预训练特征表示的语音识别方法、装置及电子设备 | |
CN112784580A (zh) | 基于事件抽取的金融数据分析方法及装置 | |
CN112434514A (zh) | 基于多粒度多通道的神经网络的语义匹配方法、装置及计算机设备 | |
CN116304748A (zh) | 一种文本相似度计算方法、系统、设备及介质 | |
CN116341651A (zh) | 实体识别模型训练方法、装置、电子设备及存储介质 | |
CN117807482B (zh) | 海关报关单的分类方法、装置、设备及存储介质 | |
CN117610562B (zh) | 一种结合组合范畴语法和多任务学习的关系抽取方法 | |
CN117591543B (zh) | 一种中文自然语言的sql语句生成方法和装置 | |
CN117151223B (zh) | 一种基于可学习提示的多模态实体识别和关系抽取方法 | |
CN117521656B (zh) | 一种面向中文文本的端到端中文实体关系联合抽取方法 | |
CN114548090B (zh) | 基于卷积神经网络和改进级联标注的快速关系抽取方法 | |
CN116090468A (zh) | 一种基于层叠式指针网络的实体关系联合抽取方法及系统 | |
CN116258147A (zh) | 一种基于异构图卷积的多模态评论情感分析方法及系统 | |
CN113157914B (zh) | 一种基于多层循环神经网络的文档摘要提取方法及系统 | |
CN114297408A (zh) | 一种基于级联二进制标注框架的关系三元组抽取方法 | |
CN114692596A (zh) | 基于深度学习算法的债券信息解析方法、装置及电子设备 | |
CN117669593B (zh) | 基于等价语义的零样本关系抽取方法、系统、设备及介质 | |
CN114638231B (zh) | 实体链接方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |