CN116842944A - 一种基于词增强的实体关系抽取方法及装置 - Google Patents
一种基于词增强的实体关系抽取方法及装置 Download PDFInfo
- Publication number
- CN116842944A CN116842944A CN202310826578.1A CN202310826578A CN116842944A CN 116842944 A CN116842944 A CN 116842944A CN 202310826578 A CN202310826578 A CN 202310826578A CN 116842944 A CN116842944 A CN 116842944A
- Authority
- CN
- China
- Prior art keywords
- sentence
- relation
- instance
- training
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 31
- 238000000034 method Methods 0.000 claims abstract description 47
- 230000014509 gene expression Effects 0.000 claims abstract description 7
- 238000012549 training Methods 0.000 claims description 97
- 239000013598 vector Substances 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 abstract description 10
- 238000012545 processing Methods 0.000 abstract description 3
- 238000004891 communication Methods 0.000 description 7
- 238000002372 labelling Methods 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 239000003814 drug Substances 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000000547 structure data Methods 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于词增强的实体关系抽取方法及装置,涉及语言处理领域。所述方法包括:获取句子实例;对句子实例进行编码,得到句子编码;利用句子编码对句子实例表达的关系进行识别,得到关系标签,根据句子实例的关系标签生成对应的关系表示;将关系表示与句子实例进行拼接,通过词增强模型进行识别,得到句子实例中的主体及客体;将关系标签、主体和客体组合得到所述句子实例的关系三元组。相较于现有技术,本发明提出一种新的实体关系抽取方法,计算复杂度低,计算资源占用率低。
Description
技术领域
本发明涉及语言处理技术领域,更具体地,涉及一种基于词增强的实体关系抽取方法及装置。
背景技术
目前,常见的NLP(Natural Language Processing,自然语言处理)任务中,知识图谱(Knowledge Graph)作为一种特殊的图数据在各个领域都有着广泛的应用,其本身是一种具有极强规范性和语义表示能力的图网络,这种语义结构能够对现实世界的实体、概念、属性以及它们之间的关系进行建模,相关技术涵盖知识抽取、知识集成、知识管理和知识应用等各个环节。构建知识图谱的关键步骤在于实体识别与关系抽取。实体识别要解决的是对给定文本依据语义提取出句子中存在的命名实体,关系抽取则是提取出句子中出现的关系三元组,其结构一般为<subject,relation,object>(<主体,关系,客体>)。
传统的关系抽取方法一般将命名实体识别作为上游任务,即将实体识别预处理后的句子再提取关系,这种方法的缺点是计算资源的过度浪费,计算效率低下。
发明内容
本发明为克服上述现有技术所述的NLP任务中采用传统的关系抽取方法存在浪费计算资源、计算效率低下的缺陷,提供一种基于词增强的实体关系抽取方法及装置。
为解决上述技术问题,本发明的技术方案如下:
第一方面,一种基于词增强的实体关系抽取方法,包括:
获取句子实例;
通过预训练语言模型对所述句子实例进行编码,得到句子编码;
利用所述句子编码对所述句子实例表达的关系进行识别,得到所述句子实例的关系标签,根据所述句子实例的关系标签生成对应的关系表示;
将所述关系表示与所述句子实例进行拼接,通过词增强模型对拼接后的数据进行识别,得到所述句子实例中的主体及客体;
将所述关系标签、所述主体和所述客体组合为所述句子实例的关系三元组。
第二方面,一种基于词增强的实体关系抽取装置,用于实现第一方面所述的方法,包括:
句子编码模块,用于搭载预训练语言模型,还用于获取句子实例并进行编码,得到句子编码;
关系抽取模块,用于利用所述句子编码对句子实例表达的关系进行识别,得到所述句子实例的关系标签;还用于根据所述关系标签生成对应的关系表示;
实体识别模块,用于搭载词增强模型,将所述关系表示与所述句子实例进行拼接后输入词增强模型中,得到所述句子实例中的主体及客体,结合关系标签输出所述句子实例的关系三元组。
第三方面,一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现第一方面所述方法中的步骤。
第四方面,一种计算机存储介质,所述计算机存储介质上存储有计算机指令,所述指令在计算机上执行时,使得所述计算机执行第一方面所述方法的步骤。
与现有技术相比,本发明技术方案的有益效果是:
本发明提出一种新的实体关系抽取方法及装置,先对句子表达的关系进行识别,在此基础上抽取检测出的关系标签对应的主客体,进而生成关系三元组。相较于传统的关系抽取方法先进行实体识别、再基于实体对抽取关系,计算复杂度低,计算资源占用率低。
附图说明
图1为实施例1中实体关系抽取方法的流程示意图;
图2为实施例1中Flat模型结构示意图;
图3为实施例2中实体关系抽取方法的流程示意图;
图4为实施例3中实体关系抽取装置的结构示意图;
图5为实施例4中计算机设备的硬件实体示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
本实施例提出一种基于词增强的实体关系抽取方法,参阅图1,包括:
获取句子实例;
通过预训练语言模型对所述句子实例进行编码,得到句子编码;
利用所述句子编码对所述句子实例表达的关系进行识别,得到所述句子实例的关系标签,根据所述句子实例的关系标签生成对应的关系表示;
将所述关系表示与所述句子实例进行拼接,通过词增强模型对拼接后的数据进行识别,得到所述句子实例中的主体及客体;
将所述关系标签、所述主体和所述客体组合为所述句子实例的关系三元组。
相较于传统的pipeline类实体关系抽取方法——先进行实体识别、再基于实体对抽取关系,本实施例采用了端到端方法,先对句子表达的关系进行识别,在此基础上抽取检测出的关系对应的主客体,解析生成对应文本中的关系三元组,其计算复杂度低,计算资源占用率低,还减小了两阶段任务的类先验概率,可广泛应用于知识图谱搭建和后续NLP任务的完成以及文本的结构化等方面。
该实施例基于关系抽取的第三范式进行联合抽取,即实体识别是基于所识别到的句子级别关系做出的token级实体判断。且该实施例中,在实体识别阶段,根据识别出的句子级别关系抽取实体,这可以看作跨度标注(span tagging)任务,句子中的实体往往以一个连续的跨度形式存在。
本领域技术人员应当理解,在得到所述句子实例的关系标签,和主体及客体后,经组合即为对应句子实例的关系三元组<subject,relation,object>。
在一些示例中,采用计算机程序实现所述关系标签和实体的组合;所述计算机程序设有缓存机制,用于存储关系标签、主体和客体。
在一优选实施例中,所述预训练语言模型的训练过程,包括:
构建初始预训练语言模型;
获取至少一个句包,所述句包中包括标注有相同关系标签的句子实例;
将所述句包输入预训练语言模型,对所述句包内的句子实例进行编码,得到训练用的句子编码;
对所述训练用的句子编码进行加权编码,生成用于表示同一句包中句子实例共同特征的句包编码;
将所述句包编码和对应句包中句子实例的所述训练用的句子编码进行融合,利用融合句包编码后的训练用的句子编码对句子实例表达的关系进行识别,根据识别结果对所述初始预训练语言模型进行参数更新,得到所述预训练语言模型。
需要说明的是,预训练语言模型的训练结束由本领域技术人员根据实际情况自行确定。在一些示例中,通过判断是否达到预设训练次数确定是否停止预训练语言模型的训练;在另一些示例中,根据损失函数的收敛情况确定预训练语言模型的训练结束。
该优选实施例中,尽管句包中的句子实例被标注有相同关系标签,但由于该用于标注的关系标签可能与句子实例实际表达的关系标签存在偏差,如专业性不足导致的人工标注误差或者数据集质量差导致的自动标注误差,致使在整个实体关系抽取的过程中存在数据噪声,其中存在错误标注的句子实例及其关系标签可能对句包语义产生影响。该实施例引入了多实例学习方法,生成的句包编码包含了同一句包中句子实例的共同特征,融合句包编码的训练用的句子编码可实现对句包噪声的降低,进而提高预训练语言模型的最终性能。
在一可选实施例中,所述将所述句包编码和对应句包中句子实例的所述训练用的句子编码进行融合,具体为:
基于匹配方法(match function)将句包编码融入句包中句子实例的对应训练用的句子编码;其中,所述匹配方法表达式为:
M(xi,Bj)=Wmxi+m(xi,Bi)Ebag(Bj)+bm
式中,M(xi,Bj)表示融合句包编码后的训练用的句子编码;Bj表示第j个句包;xi∈Bj,表示句包中的第i个句子实例;Wm,bm表示可学习参数;Ebag(Bj)表示句包编码;m(xi,Bj)表示匹配度分数,其表达式为:
m(xi,Bj)=σ(xiWmEbw(Bj)+bm)
式中,σ(·)表示sigmoid函数。
该可选实施例中,采用匹配方法减少句包中的数据噪声,通过加入可学习的选项可弱化因对句子实例的错误标签而产生的噪声。
作为非限制性示例,使用句包编码器,对所述训练用的句子编码进行加权编码以生成句包编码;
在一具体实施过程中,所述句包编码器基于soft attention(软注意力)机制计算句包的联合编码,即句包编码,Ebag(Bj)表达式如下:
bi=xiAqr
其中,K表示句包中包含的句子实例数量;A表示可学习参数,为对角权重矩阵;qr为随机初始化的句包关系表示;αi表示句子实例xi与表示句包关系qr的匹配程度。
可选地,融合句包关系信息后的训练用的句子编码还经过dropout层和层归一化进行处理。
在一可选实施例中,所述句包通过远程监督数据集生成,具体为:
提取远程监督数据集中的训练用的关系标签;
根据所述训练用的关系标签,在所述远程监督数据集中提取指定数量的训练用的句子实例,并将所述训练用的关系标签和提取出训练用的句子实例组合为与所述训练用的关系标签对应的至少一个句包。
该可选实施例中,利用远程监督数据集的目的在于,能够快速生成大量被标注有相同训练用的关系标签的句子实例的句包,有效解决人工标注模式人工成本过高的问题。
在一些示例中,句包由远程监督数据集预处理生成,将远程监督数据集中训练用的关系标签相同的指定数目的句子实例集合为一个句包,以句包为单位进行批量训练,在训练过程作为一个小批量数据进行参数更新。
在一可选实施例中,所述句包通过将语料库与已有的知识库对齐生成;其中,所述知识库中包含了完整的关系三元组,即实体对以及与实体对相对应的关系标签。
本领域技术人员应当理解,所述语料库包括至少一个句子实例;所述将语料库与已有的知识库对齐,即通过将句子实例基于实体对在所述知识库中进行匹配,当所述知识库中任一实体对存在于句子实例中,则将知识库中与该实体对对应的关系标签标注至该句子实例。
在一些示例中,所述语料库可以直接采集文本生成,也可以通过对图像基于文字识别技术(Optical Character Recognition,OCR)生成,也可以通过采集语音信息基于语音识别技术(Automatic Speech Recognition,ASR)生成。
在一优选实施例中,所述利用所述句子编码对所述句子实例表达的关系进行识别,具体为:
对所述句子编码进行解码,生成句子级别关系分类的逻辑量,将符合预设值的逻辑量的位置对应关系作为所述句子实例的关系标签;
基于所述句子实例的所述关系标签,生成所述句子实例对应的关系表示。
本领域技术人员应当理解,所述逻辑量为向量形式,在一些示例中,所述逻辑量采用0-1编码表示;
作为非限制性示例,生成句子级别关系分类的逻辑量后,将逻辑量为1的位置对应关系作为对应句子实例的关系标签,即此时预设值为“1”。
在一具体实施过程中,利用前馈神经网络解码句子编码。
在一可选实施例中,所述基于所述句子实例的所述关系标签,生成所述句子实例对应的关系表示,具体为:
将所述句子实例的所述关系标签输入询问生成器,基于所述句子实例的对应关系表示,或者,将所述句子实例的关系标签作为关系表示。
本领域技术人员应当理解,所述询问生成器用于将关系标签转换为关系表示,并符合词增强模型的输入规范。进一步地,所述关系表示可以是token字符串形式;所述询问生成器中集成了Unicode(统一码)编码方法、Base64编码方法、ASCII(American StandardCode for Information Interchange,美国信息互换标准代码)编码方法和BPE(Byte PairEncoding,字节对编码)算法中的至少之一。
在一些示例中,一个句子实例中包含“投资”关系,则通过询问生成器将字符“投资”转换为query token(询问语句),作为关系表示。本领域技术人员应当理解,所述关系标签的字符与所述关系表示的token间的数量映射关系可以是“一对一”(即一个字符对应一个token),也可以是“一对多”(即一个字符对应多个token)或“多对一”(即多个字符对应一个token)。
在另一些示例中,基于one-hot编码方法将所述关系标签的字符转换成关系表示。
在一优选实施例中,所述通过词增强模型对拼接后的数据进行识别,得到所述句子实例中的主体及客体,具体为:
将所述拼接后的数据作为词增强模型的输入;
在词增强模型中引入预训练词汇,对所述拼接后的数据进行潜在词匹配,生成晶格序列;
对所述晶格序列的token编码首尾位置索引后,对晶格序列进行Embedding(嵌入)编码,生成对应句子实例的分布式向量表示;
对所述分布式向量表示进行解码,生成基于关系的实体识别预测结果,根据所述实体识别预测结果解析得到所述句子实例中的主体及客体的位置,根据所述主体及客体的位置抽取所述主体及客体。
需要说明的是,所述词增强模型是采用了词汇增强方法(如动态框架法和自适应编码法)的模型,实体位置确定的准确性取决于词增强模型对于词语边界的捕获能力,上述实施例采用了引入外部词汇信息的方式,提高了词增强模型跨度范围识别精度,进而提高了关系三元组提取能力。
需要强调的是,词增强模型的输入是拼接了所述关系表示后的句子编码,输出是主体及客体。应当理解,对于本领域技术人员而言,在得到所述句子实例中主体及客体的位置后,即可根据主体及客体的位置解析得到所处句子实例中主体及客体的对应实体字符。在得到所述句子实例的关系标签,和主体及客体的实体字符后,本领域技术人员可根据实际自行选择组合方式对所述关系标签和所述主体、客体进行组合。
在一些示例中,所述实体识别预测结果为矩阵形式。
在一具体实施过程中,完成拼接后输入词增强模型的数据的格式为[[CLS],qr,[SEP],xi,[SEP]];其中,qr表示关系表示;xi表示对应句子实例的文本表示。
在一可选实施例中,所述在词增强模型中引入预训练词汇,对句子编码进行潜在词匹配,具体为:
对于任意输入词增强模型的以句子编码表示的文本序列{x1,x2,…,xm},采用预训练词汇对句子编码进行潜在词匹配,并将匹配到的(n-m)个潜在词按文本顺序串联到原序列的尾部,生成晶格序列{x1,x2,…,xm,xm+1,…,xn}。
本领域技术人员应当理解,所述晶格序列相当于在原句子实例中无损引入了新的词汇信息。
在一具体实施过程中,所述潜在词匹配的过程如下:
采用树结构Trie加载预训练词汇,通过最大匹配算法获得句子中的潜在词。可以理解,所述最大匹配算法包括但不限于最大前向匹配、最大后向匹配。
在一可选实施例中,所述词增强模型包括Transformer编码模块;所述对所述晶格序列的token编码首尾位置索引后,对晶格序列进行Embedding编码,包括:
对于晶格序列中任意两个跨度,依次采用相对位置编码方法和正余弦位置编码方法进行编码;
对完成正余弦位置编码后的晶格序列,由所述词增强模型中Transformer编码模块进行Embedding编码。
在一些示例中,对于晶格序列中任意两个跨度xi和xj,采用相对位置编码方法进行编码,编码过程如下:
其中,ead[·]表示对应跨度的首部索引位置;tail[·]表示对应跨度的尾部索引位置;表示两跨度的首部索引位置对应的距离;/>表示两跨度的首部索引位置与尾部索引间对应的距离;/>表示两跨度的尾部索引位置与首部索引间对应的距离;表示两跨度的尾部索引位置对应的距离;
对前述四种距离进行正余弦位置编码,编码过程如下:
其中,d表示任意两个跨度间的四种距离表示位置编码的维度索引;dmodel表示位置编码长度;
对完成正余弦位置编码后的晶格序列,由所述词增强模型中Transformer编码模块进行Embedding编码。
该可选实施例中,由于Transformer编码模块采用注意力机制,并不包含位置信息,采用传统的正余弦位置编码无法准确编码晶格结构数据,因此采用相对位置编码方法进行编码后,使满足Transformer编码模块的要求。在Transformer编码模块中,通过位置融合注意力机制将上述四种距离信息同内容注意力组合起来,对晶格结构数据进行编码学习,生成包含外部预训练词汇信息的文本语义,为实体识别提供词增强。
在一可选实施例中,所述对分布式向量表示进行解码,生成基于关系的实体识别预测结果,根据所述实体识别预测结果解析得到所述句子实例中的主体及客体的位置,根据所述主体及客体的位置抽取所述主体及客体,具体为:
在词增强模型的输出层对分布式向量表示进行解码,生成基于关系的实体识别预测结果该结果表示为[Sstart,Send,Ostart,Oend];
对所述实体识别预测结果进行解析,得到所述主体及客体的位置;其中,Sstart为指定值处表示对应token为主体实体的首位,Send为指定值处表示对应token为主体实体的末位,Ostart为指定值处表示对应token为客体实体的首位,Oend为指定值处表示对应token为客体实体的末位;
根据所述主体及客体的位置,基于句子编码抽取得到所述主体及客体。
可以理解,对于一个长度为m的句子实例,预设所述指定值为“1”,是形状为4×m的二维张量,每个位置有类似[0,1,0,0]这样的输出,[Sstart,Send,Ostart,Oend]代表了主体实体的首末位置和客体实体的首末位置,位置为1处表示该位置对应的token是主体实体/客体实体的首位、末位,解析后可得到对应实体的实体字符。
在一具体实施过程中,对于给定文本序列“任正飞创立了华为”,其实体识别预测结果中:“任”为Sstart为1位置的对应token,“飞”为Send为1位置的对应token,“华”为Ostart为1位置的对应token,“为”为Oend为1位置的对应token。
在一些示例中,所述词增强模型包括顺序连接的输入层、编码层和输出层;其中,所述输入层用于获取拼接了关系表示的句子编码,还用于潜在词匹配以得到晶格序列;所述编码层用于对晶格序列进行编码得到分布式向量;所述输出层用于对分布式向量解码输出关系三元组。需要说明的是,本领域技术人员可自行根据实际对词增强模型的结构进行修改,如增加新的层、修改层参数等。
在一些示例中,所述词增强模型可以是Lattice-LSTM、LR-CNN、CGN(Collaborative Graph Network)、Flat和LGN(Lexicon-Based Graph Neural Network)中的至少之一。
在一优选实施例中,所述词增强模型为Flat或其变体。
Flat是一种词增强模型,使用Transformer编码模块提取文本特征。该优选实施例中,通过Flat模型中的Transformer编码模块融合预训练词汇与全局语义信息,提取出原始文本序列位置的编码进入输出层解码。
在一具体实施过程中,Flat模型结构如图2所示,对于晶格序列{重,庆,人,和,药,店,重庆,人和药店,药店},经过Embedding层、自注意力机制(self-attention)层、残差连接与归一化(Add&Norm)层、前馈神经网络(Feed Foward Network,FFN)层、残差连接与归一化(Add&Norm)层后生成分布式向量表示。
在一优选实施例中,所述对所述句子实例进行编码,得到句子编码,具体为:
对所述句子实例,使用预训练语言模型编码词表示,生成带有上下文语义的所述句子实例所有字符的预训练词编码;
提取带有指定标记符的预训练词编码作为代表句子实例的编码表示,得到所述句子实例对应的句子编码。
需要说明的是,所述指定标记符由本领域技术人员根据所采用的预训练语言模型自行设定。
在一些示例中,所述预训练语言模型基于Transformer架构构建,所述指定标记符为[CLS]。由于Transformer架构基于注意力机制,因此标记符[CLS]对应的词编码可以看作整个句子实例的编码。
示范性地,所述预训练语言模型包括但不限于BERT及其变体。
实施例2
本实施例提出一种基于词增强的实体关系抽取方法,包括:
获取若干句包;其中,所述句包基于远程监督数据集生成,所述句包中包括若干个被标注有相同训练用的关系标签的训练用的句子实例;
采用BERT作为初始预训练语言模型,采用多实例学习方法对预训练语言模型进行迭代训练,即将句包输入预训练语言模型,对句包内的训练用的句子实例进行编码,得到训练用的句子编码,对所述训练用的句子编码进行加权编码,生成用于表示同一句包中训练用的句子实例共同特征的句包编码,将所述句包编码融入对应句包中训练用的句子实例的所述训练用的句子编码,利用融合句包编码后的所述训练用的句子编码对所述训练用的句子实例表达的关系进行识别,根据识别结果对初始预训练语言模型进行参数更新,直至训练结束,得到预训练语言模型;
向预训练语言模型输入新的句子实例即待检测文本,对该句子实例编码词表示,生成带有上下文语义的所述待检测文本中所有字符的预训练词编码;
提取带有CLS标记符的预训练词编码作为代表待检测文本的编码表示,得到所述待检测文本对应的句子编码;
对待检测文本的句子编码进行解码,生成句子级别关系分类的逻辑量,将符合预设值的逻辑量的位置对应关系作为对应待检测文本的关系标签;
采用Flat模型作为词增强模型,基于待检测文本的关系标签,生成关系表示,将所述关系表示与待检测文本进行拼接,并将拼接后的数据作为词增强模型的输入;
在词增强模型中引入预训练词汇,对句子编码进行潜在词匹配,生成晶格序列;
对晶格序列的token编码首尾位置索引后,通过Flat模型中的Transformer编码模块对晶格序列进行Embedding编码,生成对应待检测文本的分布式向量表示;
对所述分布式向量表示进行解码,生成基于关系的实体识别预测结果,根据所述实体识别预测结果解析得到所述待检测文本中的主体及客体的位置,根据所述主体及客体的位置抽取所述主体及客体;
将所述关系标签和所述主体及客体组合得到所述待检测文本的关系三元组。
本实施例采用远程监督数据集,能够快速高效地生成大量关系抽取数据,即包括有大量被标注相同训练用的关系标签的所述训练用的句子实例的句包,相较于人工标注模式可有效解决人工成本过高的问题,但其由于采用自动标注模式引入了大量的数据噪声,如FP(False Positive,伪阳性)类数据噪声,其是由于远程监督自动标注的训练用的关系标签不是训练用的句子实例中真实表达的三元组关系而引入的噪声。该实施例中,通过多实例学习方法缓解由于使用远程监督数据集导致的FP类数据噪声,还提高了预训练语言模型的性能,进而提高实体关系抽取结果的准确率。此外,在Flat模型中引入外部词汇信息,提高了实体位置检测准确率,进一步提高三元组提取能力。
可以理解,上述实施例1中的可选项同样适用于本实施例,故在此不再重复描述。
在一具体实施过程中,对于一给定句子实例“任正飞创立了华为”,参阅图3,通过基于Transformer架构的预训练语言模型——BERT,生成对应的句子编码,利用前馈神经网络解码句子编码,生成句子级别关系分类的逻辑量将逻辑量中值为1的位置对应关系作为对应句子实例的关系标签;基于句子实例的关系标签,生成关系表示并与所述句子实例进行拼接,将拼接后的数据作为词增强模型Flat的输入;引入预训练词汇,对拼接后的数据进行潜在词匹配,生成晶格序列;在对晶格序列的token编码首尾位置索引后,通过Flat模型中的Transformer编码模块对晶格序列进行Embedding编码,生成对应句子实例的分布式向量表示;对分布式向量表示进行解码,生成基于关系的实体识别预测结果/>将实体识别预测结果/>中对应值为1的位置分别标注为主体实体和客体实体字符的首末位置,根据主体及客体实体的首末位置,抽取出主体及客体的实体字符;最后,将关系标签与主、客体的对应实体字符结合即得到对应句子实例的关系三元组。
实施例3
本实施例提出一种基于词增强的实体关系抽取装置,参阅图4,包括:
句子编码模块,用于搭载预训练语言模型;还用于获取句子实例进行编码,得到句子编码;
关系抽取模块,用于利用所述句子编码对句子实例表达的关系进行识别,得到所述句子实例的关系标签;还用于根据所述关系标签生成对应的关系表示;
实体识别模块,用于搭载词增强模型,将所述关系表示与所述句子实例进行拼接后输入词增强模型中,得到所述句子实例中的主体及客体,结合关系标签输出所述句子实例的关系三元组。
可以理解,上述实施例1中的可选项同样适用于本实施例,故在此不再重复描述。
示范性地,该装置可设置在汽车上。
实施例4
本实施例提出一种计算机设备,参阅图5,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如实施例1中所述方法的部分或全部步骤。
可以理解,所述计算机设备包括但不限于智能手机、个人计算机、服务器、或者网络设备。
示范性地,该计算机设备可以车载多媒体设备的形式安装在汽车上。
示范性地,该计算机设备为远程服务器端并与汽车通信连接。
示范性地,所述处理器可以为中央处理器(Central ProcessingUnit,CPU)、微处理器(Microprocessor Unit,MPU)、数字信号处理器(Digital SignalProcessor,DSP)或现场可编程门阵列(Field Programmable Gate Array,FPGA)等。
在一些示例中提供一种所述计算机的硬件实体,包括:处理器、存储器和通信接口;
其中,所述处理器通常控制所述计算机设备的总体操作;
所述通信接口用于使所述计算机设备通过网络与其他终端或服务器通信;
所述存储器配置为存储由处理器可执行的指令和应用,还可以缓存待处理器以及计算机设备中各模块待处理或已经处理的数据(包括但不限于图像数据、音频数据、语音通信数据和视频通信数据),可以通过闪存(FLASH)或随机访问存储器(RAM,Random AccessMemory)实现。
进一步地,处理器、通信接口和存储器之间可以通过总线进行数据传输,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器和存储器的各种电路连接在一起。
实施例5
本实施例提出一种计算机存储介质,所述计算机存储介质上存储有计算机指令,所述指令在计算机上执行时,使得所述计算机执行实施例1中所述方法的部分或全部步骤。
可以理解,所述存储介质可以是瞬时性的,也可以是非瞬时性的。示范性地,所述存储介质包括但不限于U盘、移动硬盘、只读存储器(ROM,Read Only Memory)、随机访问存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在一具体实施过程中,所述存储介质设置在汽车的智能座舱中。
在另一具体实施过程中,所述存储介质设置在车载多媒体设备中。
在另一具体实施过程中,所述存储介质设置在汽车的交互设备中,如语音交互设备。
在一些示例中提供一种计算机程序产品,具体可以通过硬件、软件或其结合的方式实现。作为非限制性示例,所述计算机程序产品可以体现为所述存储介质,还可以体现为软件产品,例如SDK(Software Development Kit,软件开发包)等。
在一些示例中提供一种计算机程序,包括计算机可读代码,在所述计算机可读代码在计算机设备中运行的情况下,所述计算机设备中的处理器执行用于实现所述方法中的部分或全部步骤。
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。应理解,在本公开的各种实施例中,上述各步骤/过程的序号的大小并不意味着执行顺序的先后,各步骤/过程的执行顺序应以其功能和内在逻辑确定,而不应对实施例的实施过程构成任何限定。还应理解,以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (10)
1.一种基于词增强的实体关系抽取方法,其特征在于,包括:
获取句子实例;
通过预训练语言模型对所述句子实例进行编码,得到句子编码;
利用所述句子编码对所述句子实例表达的关系进行识别,得到所述句子实例的关系标签,根据所述句子实例的关系标签生成对应的关系表示;
将所述关系表示与所述句子实例进行拼接,通过词增强模型对拼接后的数据进行识别,得到所述句子实例中的主体及客体;
将所述关系标签、所述主体和所述客体组合为所述句子实例的关系三元组。
2.根据权利要求1所述的一种基于词增强的实体关系抽取方法,其特征在于,所述预训练语言模型的训练过程,包括:
构建初始预训练语言模型;
获取至少一个句包,所述句包中包括标注有相同关系标签的句子实例;
将所述句包输入预训练语言模型,对所述句包内的句子实例进行编码,得到训练用的句子编码;
对所述训练用的句子编码进行加权编码,生成用于表示同一句包中句子实例共同特征的句包编码;
将所述句包编码和对应句包中句子实例的所述训练用的句子编码进行融合,利用融合句包编码后的训练用的句子编码对句子实例表达的关系进行识别,根据识别结果对所述初始预训练语言模型进行参数更新,得到所述预训练语言模型。
3.根据权利要求2所述的一种基于词增强的实体关系抽取方法,其特征在于,所述将所述句包编码和对应句包中句子实例的所述训练用的句子编码进行融合,具体为:
基于匹配方法将句包编码融入句包中句子实例的对应训练用的句子编码;其中,所述匹配方法表达式为:
M(xi,Bj)=Wmxi+m(xi,Bj)Ebag(Bj)+bm
式中,M(xi,Bj)表示融合句包编码后的训练用的句子编码;Bj表示第j个句包;xi∈Bj,表示句包中的第i个句子实例;Wm,bm表示可学习参数;Ebag(Bj)表示句包编码;m(xi,Bj)表示匹配度分数,其表达式为:
m(xi,Bj)=σ(xiWmEbag(Bj)+bm)
式中,σ(·)表示sigmoid函数。
4.根据权利要求2或3所述的一种基于词增强的实体关系抽取方法,其特征在于,所述句包通过远程监督数据集生成,具体为:
提取远程监督数据集中的训练用的关系标签;
根据所述训练用的关系标签,在所述远程监督数据集中提取指定数量的训练用的句子实例,并将所述训练用的关系标签和提取出训练用的句子实例组合为与所述训练用的关系标签对应的至少一个句包。
5.根据权利要求1所述的一种基于词增强的实体关系抽取方法,其特征在于,所述利用所述句子编码对所述句子实例表达的关系进行识别,具体为:
对所述句子编码进行解码,生成句子级别关系分类的逻辑量,将符合预设值的逻辑量的位置对应关系作为所述句子实例的关系标签;
基于所述句子实例的所述关系标签,生成所述句子实例对应的关系表示。
6.根据权利要求5所述的一种基于词增强的实体关系抽取方法,其特征在于,所述基于所述句子实例的所述关系标签,生成所述句子实例对应的关系表示,具体为:
将所述句子实例的所述关系标签输入询问生成器,生成所述关系标签对应的关系表示;或者,将所述句子实例的关系标签作为关系表示。
7.根据权利要求1所述的一种基于词增强的实体关系抽取方法,其特征在于,所述通过词增强模型对拼接后的数据进行识别,得到所述句子实例中的主体及客体,具体为:
将所述拼接后的数据作为词增强模型的输入;
在词增强模型中引入预训练词汇,对所述拼接后的数据进行潜在词匹配,生成晶格序列;
对所述晶格序列的token编码首尾位置索引后,对晶格序列进行Embedding编码,生成对应句子实例的分布式向量表示;
对所述分布式向量表示进行解码,生成基于关系的实体识别预测结果,根据所述实体识别预测结果解析得到所述句子实例中的主体及客体的位置,根据所述主体及客体的位置抽取所述主体及客体。
8.根据权利要求1、2、3、5、6或7任一项所述的一种基于词增强的实体关系抽取方法,其特征在于,所述对所述句子实例进行编码,得到句子编码,具体为:
对所述句子实例,使用预训练语言模型编码词表示,生成带有上下文语义的所述句子实例中所有字符的预训练词编码;
提取带有指定标记符的预训练词编码作为代表句子实例的编码表示,得到所述句子实例对应的句子编码。
9.一种基于词增强的实体关系抽取装置,其特征在于,包括:
句子编码模块,用于搭载预训练语言模型,还用于获取句子实例并进行编码,得到句子编码;
关系抽取模块,用于利用所述句子编码对句子实例表达的关系进行识别,得到所述句子实例的关系标签;还用于根据所述关系标签生成对应的关系表示;
实体识别模块,用于搭载词增强模型,将所述关系表示与所述句子实例进行拼接后输入词增强模型中,得到所述句子实例中的主体及客体,结合关系标签输出所述句子实例的关系三元组。
10.一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-8任一项所述方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310826578.1A CN116842944A (zh) | 2023-07-06 | 2023-07-06 | 一种基于词增强的实体关系抽取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310826578.1A CN116842944A (zh) | 2023-07-06 | 2023-07-06 | 一种基于词增强的实体关系抽取方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116842944A true CN116842944A (zh) | 2023-10-03 |
Family
ID=88173977
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310826578.1A Pending CN116842944A (zh) | 2023-07-06 | 2023-07-06 | 一种基于词增强的实体关系抽取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116842944A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117610562A (zh) * | 2024-01-23 | 2024-02-27 | 中国科学技术大学 | 一种结合组合范畴语法和多任务学习的关系抽取方法 |
-
2023
- 2023-07-06 CN CN202310826578.1A patent/CN116842944A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117610562A (zh) * | 2024-01-23 | 2024-02-27 | 中国科学技术大学 | 一种结合组合范畴语法和多任务学习的关系抽取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020140487A1 (zh) | 用于智能设备的人机交互语音识别方法及系统 | |
Han et al. | A survey of transformer-based multimodal pre-trained modals | |
CN114676234A (zh) | 一种模型训练方法及相关设备 | |
CN114298121A (zh) | 基于多模态的文本生成方法、模型训练方法和装置 | |
CN113836992A (zh) | 识别标签的方法、训练标签识别模型的方法、装置及设备 | |
CN113553850A (zh) | 一种基于有序结构编码指针网络解码的实体关系抽取方法 | |
CN111914076A (zh) | 一种基于人机对话的用户画像构建方法、系统、终端及存储介质 | |
CN116612281A (zh) | 基于文本监督的开放词汇图像语义分割系统 | |
CN115131638A (zh) | 视觉文本预训练模型的训练方法、装置、介质和设备 | |
CN115952791A (zh) | 基于机器阅读理解的篇章级事件抽取方法、装置、设备及存储介质 | |
CN113705315A (zh) | 视频处理方法、装置、设备及存储介质 | |
CN114662476A (zh) | 一种融合词典与字符特征的字符序列识别方法 | |
CN117251795A (zh) | 基于自适应融合的多模态虚假新闻检测方法 | |
CN116842944A (zh) | 一种基于词增强的实体关系抽取方法及装置 | |
CN117875395A (zh) | 多模态预训练模型的训练方法、装置及存储介质 | |
CN115953788A (zh) | 基于ocr和nlp技术的绿色金融属性智能认定方法及系统 | |
CN116562270A (zh) | 一种支持多模态输入的自然语言处理系统及其方法 | |
CN116912847A (zh) | 一种医学文本识别方法、装置、计算机设备及存储介质 | |
CN117558270B (zh) | 语音识别方法、装置、关键词检测模型的训练方法和装置 | |
CN112926700B (zh) | 针对目标图像的类别识别方法和装置 | |
CN114692624A (zh) | 一种基于多任务迁移的信息抽取方法、装置及电子设备 | |
CN117195911A (zh) | 一种语言模型驱动的零样本目标检测方法及系统 | |
CN115115432B (zh) | 基于人工智能的产品信息推荐方法及装置 | |
CN115687625B (zh) | 文本分类方法、装置、设备及介质 | |
CN115759262A (zh) | 基于知识感知注意力网络的视觉常识推理方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |