CN113626553A - 一种基于预训练模型的级联二进制中文实体关系提取方法 - Google Patents

一种基于预训练模型的级联二进制中文实体关系提取方法 Download PDF

Info

Publication number
CN113626553A
CN113626553A CN202110802863.0A CN202110802863A CN113626553A CN 113626553 A CN113626553 A CN 113626553A CN 202110802863 A CN202110802863 A CN 202110802863A CN 113626553 A CN113626553 A CN 113626553A
Authority
CN
China
Prior art keywords
vector
text
relationship
word
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110802863.0A
Other languages
English (en)
Other versions
CN113626553B (zh
Inventor
刘晓明
朱皓宬
沈超
周亚东
郭俊波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konami Sports Club Co Ltd
Original Assignee
People Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by People Co Ltd filed Critical People Co Ltd
Priority to CN202110802863.0A priority Critical patent/CN113626553B/zh
Publication of CN113626553A publication Critical patent/CN113626553A/zh
Application granted granted Critical
Publication of CN113626553B publication Critical patent/CN113626553B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

一种基于预训练模型的级联二进制中文实体关系提取方法,包括:利用预训练模型Bert将文本的语义及位置信息提取联合生成嵌入向量;将关系建模为主体到客体的一种函数映射,抛弃了以往主客体同时识别的方式,首先通过对每个字的嵌入向量进行二分类任务预测三元组中主体所在的位置,然后在提取关系及客体的过程中,将文本及主体的联合嵌入信息作为输入,在每种关系映射之下对每个字的嵌入向量进行二分类任务预测三元组中客体所在的位置。本发明能够提取出非结构化文本的人物,组织,事件等实体及其之间的多种关系并有效的解决了三元组之间的重叠问题,预测结果准确率高、误差小,计算复杂度低,有很高的实用价值。

Description

一种基于预训练模型的级联二进制中文实体关系提取方法
技术领域
本发明属于信息处理技术领域,涉及信息抽取,特别涉及一种基于预训练模型的级联二进制中文实体关系提取方法。
背景技术
事物、概念之间的关系是人类知识中非常重要的一个部分,但是他们通常隐藏在海量的非结构文本中。为了从文本中抽取这些实体关系事实,从早期的模式匹配到近年的神经网络,大量的研究在多年前就已经展开。
信息抽取是从文本数据中抽取特定信息的一种技术。文本数据是由一些具体的单位构成的,例如句子、段落、篇章,文本信息正是由一些小的具体的单位构成的,例如字、词、词组、句子、段落或是这些具体的单位的组合。抽取文本数据中的名词短语、人名、地名等都是文本信息抽取,当然,文本信息抽取技术所抽取的信息可以是各种类型的信息。
然而,随着互联网的爆炸发展,人类的知识也随之飞速的增长,因而对信息抽取提出了更高的要求,需要一个有效的信息抽取系统,能够利用更多的数据;有效的获取更多的关系;高效的处理更多复杂的文本;具有较好的扩展性,能够迁移到更多的领域。
信息抽取技术有许多不同的用途。一种典型的应用是使用信息抽取技术构建面向特定任务的知识库(如学术论文库、商品库、旅游景点库、电影库、音乐库等等),并在此基础上实现智能知识服务(如垂直搜索引擎)。另外一种典型应用是特定目标信息的发现和识别。在现在的网络文本中,相关的信息往往被无关的信息淹没。而信息抽取技术可以发现并整合蕴含在海量信息中的特定目标信息,为正确决策提供大量的相关情报,大大降低其中需要的人工成本。
发明内容
为了解决上述中文信息抽取问题,本发明的目的在于提供一种基于预训练模型的级联二进制中文实体关系提取方法,能够提取出非结构化文本的人物,组织,事件等实体及其之间的多种关系并有效解决三元组之间的重叠问题。
为了实现上述目的,本发明采用的技术方案是:
步骤1:中文非结构化数据包括文本、实体内容、实体类别以及关系等。从初始的中文非结构化数据中筛选出有效数据,具体可根据规则匹配的方法去掉标注实体或关系不全的数据,仅保留实体和关系标注完全的有效数据。然后以字典的形式获得文本、实体及关系三元组,并对获取的文本进行分字,过程包括:
步骤1.1:将有效数据表示为{text:t,triple_list:[spo1,spo2,spo3,…]}的字典格式,其中text表示文本,t表示文本内容,triple_list表示文本中包含的三元组列表,spo1,spo2……表示文本中的具体三元组,对于任意一个三元组spo,其具体表示为一个元素个数为3的列表[sub,re,obj],其中sub表示该三元组spo中的主体,re表示该三元组spo中的关系,obj表示该三元组spo中的客体。
步骤1.2:对每条有效数据中的文本内容t及三元组列表triple_list中的每个三元组spo中的主体sub及客体obj进行分字。分字是将文本内容t中的每一个字与预训练模型Bert的内置词表进行匹配并得到对应的字符索引值。
步骤1.3:获取每个主体sub及客体obj在文本内容t中的索引位置idxsb,idxst,idxoh,idxot,其中idxsh表示主体sub第一个字在文本内容t中的索引,idxst表示主体sub最后一个字在文本内容t中的索引,idxoh表示客体obj第一个字在文本内容t中的索引,idxot表示客体obj最后一个字在文本内容t中的索引,用一个序列[re1,re2,re3,re4,…ren,…]表示所有可能发现的关系,ren表示某一特定关系。
步骤1.4:对每一文本内容t中的每一主体sub建立字典s2ro,其格式为{(idxsh,idxst):[or1,or2,or3,…orn,…]},其中orn表示客体位置索引以及关系组成的元组,其形式为(idxoh,idxot,ren)。
步骤2:使用预训练模型Bert对有效数据中的文本内容t生成其对应的嵌入向量,通过嵌入向量来生成文本的语义信息,捕捉字与字之间的语义贡献关系,并提供字与字的位置嵌入信息,得到文本中单个句子的句向量表示。具体地,在生成嵌入向量后,执行如下过程:
步骤2.1:对分完字后的文本内容t随机生成15%的mask数据,并在句子的开头和结尾处增加表示句子开始和结束的标识符,通过被mask的字符两侧的未被mask的字符来预测被mask的字符,而用来预测被mask的字符的中间向量即为被mask的字符的语义信息嵌入向量。
步骤2.2:将上一步骤处理完的文本内容t对于每个字符的位置索引生成索引的位置嵌入信息并与上一步骤生成的语义嵌入信息连结最终生成文本中单个句子的句向量表示[c1,c2,c3,c4,c5,c6,…cn,…],cn表示文本内容t中的第n个中文字向量。
Bert是一种预训练语言表示的方法,其在大量文本语料上训练了一个通用的“语言理解”模型,然后该模型可以去执行其他下游NLP任务。Bert比之前的预训练方法表现更出色,因为它是第一个用在预训练NLP上的无监督的、深度双向系统。无监督意味着Bert只需要用纯文本语料来训练,这点非常重要,因为海量的文本语料可以在各种语言的网络公开得到。预训练表示可以是上下文无关的,也可以是上下文相关的,而且,上下文相关的表示可以是单向的或双向的,上下文相关的模型会基于句子中的其他词生成每一个词的表示。Bert是建立在最近的预训练相关表示工作例如ELMO和GPT之上,但是这些模型都是单向的或浅双向的,这意味着每个词只会和它左边或右边的词相关,而BERT的这种自编码器的形式可以有效解决这个问题。
步骤3:对句子中每个字向量进行主体标记二分类,对于句子中的每一主体在每一关系下进行客体标记二分类,最后合并结果并生成句子中的全部三元组,即中文实体关系。本步骤具体包括:
步骤3.1:对得到的句向量表示中的每个中文字向量进行两次二分类,第一次二分类判断该字向量所对应的字符是否为主体sub的首字符,第二次二分类判断该字符是否为主体sub的尾字符。
其中主体识别器中主体sub的具体识别方法:设定与文本向量等长的主体sub开端标记序列sh,主体sub结尾标记序列st,对文本t中的每个字向量进行两次二分类,第一次二分类用于判断该字向量是否为某一主体sub的开始,若为某一主体sub的开始则将主体sub开端标记序列sh的对应索引位置i标记为1,否则标记为0。第二次二分类用于判断该字向量是否为某一主体sub的结束,若为某一主体sub的结束则将主体sub结尾标记序列se的对应索引位置i标记为1,否则标记为0,其中对每个字向量进行的主体标记定义如下:
Figure BDA0003165288300000041
Figure BDA0003165288300000042
其中
Figure BDA0003165288300000043
表示索引i处的字向量为主体sub开端的概率,
Figure BDA0003165288300000044
表示索引i处的字向量为主体sub结尾的概率,xi表示索引i处的字向量,W为权重矩阵,σ表示sigmoid函数。
步骤3.2:生成发现的主体序列的嵌入特征,将主体特征向量与句向量生成联合特征向量[cs1,cs2,cs3,cs4,cs5,cs6,…csn,…],csn表示文本内容t中的第n个联合特征向量,在任意关系ren的情况下,对联合特征向量[cs1,cs2,cs3,cs4,cs5,cs6,…csn,…]中的每个联合特征向量进行两次二分类,第一次二分类判断该字向量对应的字符是否为客体的首字符,第二次二分类判断该字向量对应的字符是否为客体的尾字符,抽取出三元组。
其中关系ren的提取方法:将其建模为主题到可以的一种函数映射,对于每一个主体sub,模型将迭代检查每一种关系映射,检验任一关系rei是否可以将句子中的客体obj与这个主体sub关联起来。
其中客体obj的识别方法:对于每一关系rei设定与文本向量等长的客体obj开端标记序列
Figure BDA0003165288300000051
客体obj结尾标记序列
Figure BDA0003165288300000052
对文本t中的每个字向量对于每一关系rei进行两次二分类,第一次二分类用于判断该字向量是否为该关系下某一客体obj的开端,若为该关系下某一客体obj的开端则将该关系下客体obj开端标记序列
Figure BDA0003165288300000053
的对应索引位置i标记为1,否则标记为0,第二次二分类用于判断该字向量是否为该关系下某一客体obj的结尾,若为该关系下某一客体obj的结尾则将该关系下客体obj结尾标记序列
Figure BDA0003165288300000054
的对应索引位置i标记为1,否则标记为0,其中对每个字向量在每一关系下进行的客体标记定义如下:
Figure BDA0003165288300000055
Figure BDA0003165288300000056
其中
Figure BDA0003165288300000057
表示索引i处的字向量为客体obj开端的概率,
Figure BDA0003165288300000058
表示索引i处的字向量为客体obj结尾的概率,xi表示索引i处的字向量,Wre_j为第j个关系的权重矩阵,
Figure BDA0003165288300000059
为第k个主体首尾嵌入的平均值,σ表示sigmoid函数。
与现有技术相比,本发明的有益效果是:
(1)、本发明通过利用预训练模型将文本的语义及位置信息提取生成文本向量并对每个字的嵌入向量进行二分类任务预测三元组中主体所在的位置,相较于之前主客体同时提取的方法,主体识别准确率更高,主客体重叠发生的概率更小。
(2)、本发明通过在提取关系及客体的过程中,将文本及主体的联合嵌入信息作为输入,将多种关系形式以映射的形式给出,在每种映射之下对每个字的嵌入向量进行二分类任务预测三元组中客体所在的位置,有效提高了客体识别的准确率并使得模型可以识别同一组实体下的不同关系。
(3)、本发明通过基于预训练模型的级联二进制中文实体关系提取方法能够提取出非结构化文本的人物,组织,事件等实体及其之间的多种关系并有效的解决了三元组之间的重叠问题,预测结果准确率高、误差小,计算复杂度低,有很高的实用价值。
附图说明
图1为本发明主体流程图。
图2为标记主体二分类方法示意图。
图3为基于关系映射的客体二分类标记方法示意图。
具体实施方式
下面结合附图和实施例详细说明本发明的实施方式。
如图1所示,本发明预训练模型的级联二进制中文实体关系提取方法,包括以下步骤:
步骤1,从初始的中文非结构化数据中筛选出有效数据,并以字典的形式获得三元组(文本、实体及关系)。
步骤1.1:本实施例中数据集为百度2019语言与智能技术竞赛信息抽取数据,共173109条中文三元组数据。将所有数据表示为{text:t,triple_list:[spo1,spo2spo3,…]}的字典格式,其中text表示文本数据,t表示文本数据内容,triple_list表示该文本数据中包含的三元组列表,spo1,spo2……表示该文本数据中的具体三元组内容。对于任意一个三元组spo其具体表示为一个元素个数为3的列表[sub,re,obj],其中sub表示该三元组中的主体,re表示该三元组中的关系,obj表示该三元组中的客体,例如将文本数据"如何演好自己的角色,请读《演员自我修养》《喜剧之王》周星驰崛起于穷困潦倒之中的独门秘笈"中的三元组表示为{"text″:″如何演好自己的角色,请读《演员自我修养》《喜剧之王》周星驰崛起于穷困潦倒之中的独门秘笈″,″spo_list″:[{″sub″:″喜剧之王″,″re″:″主演″,″obj″:″周星驰″}]}的形式;
步骤1.2:对每条数据中的文本数据t及三元组列表triple_list中的每个三元组spo中的主体sub及客体obj进行分字;
步骤1.3:获取每个主体sub及客体obj在文本数据t中的索引位置idxsh,idxst,idxoh,idxot,其中idxsh表示主体第一个字在文本t中的索引,idxst表示主体最后一个字在文本t中的索引,idxoh表示客体第一个字在文本t中的索引,idxot表示客体最后一个字在文本t中的索引,用一个序列[re1,re2,re3,re4,…]表示所有可能发现的关系,ren表示某一特定关系,共50种待识别的关系,对于数据{"text":"如何演好自己的角色,请读《演员自我修养》《喜剧之王》周星驰崛起于穷困潦倒之中的独门秘笈",″spo_list″:[{″sub″:″喜剧之王″,″re″:″主演″,″obj″:″周星驰"}]},主体“喜剧之王”的idxsh=20,idxst=23,客体“周星驰”的idxoh=25,idxot=27,待识别的关系包括“祖籍”、“作者”、“主演”等50种关系;
步骤2:使用预训练模型Bert对有效数据中的文本内容t生成其对应的嵌入向量,通过嵌入向量来生成文本的语义信息,捕捉字与字之间的语义贡献关系,并提供字与字的位置嵌入信息,得到文本中单个句子的句向量表示。具体地,在生成嵌入向量后,执行如下过程:
步骤2.1:对分完字后的文本内容t随机生成15%的mask数据,并在句子的开头和结尾处增加表示句子开始和结束的标识符,通过被mask的字符两侧的未被mask的字符来预测被mask的字符,而用来预测被mask的字符的中间向量即为被mask的字符的语义信息嵌入向量。
步骤2.2:将上一步骤处理完的文本内容t对于每个字符的位置索引生成索引的位置嵌入信息并与上一步骤生成的语义嵌入信息连结最终生成256*768的文本内容t的句向量表示;
步骤3:对句子中每个字向量进行主体标记二分类,对于句子中的每一主体在每一关系下进行客体标记二分类,最后合并结果并生成句子中的全部三元组,即中文实体关系。本步骤具体包括
步骤3.1:对步骤(2)中生成的文本数据的句向量表示[c1,c2,c3,c4,c5,c6,…],对于其中的每个中文字向量cn,进行两次二分类,第一次二分类判断该字符是否为主体的首字符,第二次二分类判断该字符是否为主体的尾字符。
如图2所示,对于每个字符通过一个主体识别器识别出主体的开头和结尾,例如在数据{″text″:″如何演好自己的角色,请读《演员自我修养》《喜剧之王》周星驰崛起于穷困潦倒之中的独门秘笈″,″spo_list″:[{″sub":"喜剧之王","re":"主演","obj":"周星驰"}]}中,第一次二分类时“喜”对应的索引应标记为1,第二次二分类时“王”对应的索引应标记为1;
步骤3.2:生成发现的主体序列的嵌入特征,将主体特征向量与句向量生成联合特征向量[cs1,cs2,cs3,cs4,cs5,cs6,…],在任意关系ren的情况下,对联合向量[cs1,cs2,cs3,cs4,cs5,cs6,…]中的每个中文字向量csn,进行两次二分类,第一次二分类判断该字符是否为客体的首字符,第二次二分类判断该字符是否为客体的尾字符,抽取出三元组。
其中关系ren的提取方法:将其建模为主题到可以的一种函数映射,对于每一个主体sub,模型将迭代检查每一种关系映射,检验任一关系rei是否可以将句子中的客体obj与这个主体sub关联起来。
如图3所示,对于每个客体通过一个基于关系映射的客体识别器识别出在每一具体关系下的客体的开头和结尾。
在数据{"text":"如何演好自己的角色,请读《演员自我修养》《喜剧之王》周星驰崛起于穷困潦倒之中的独门秘笈","spo_list":[{"sub":"喜剧之王","re":"主演","obj":"周星驰"}]}中主体特征向量即为“喜剧之王”的开端“喜”和结尾“王”的字向量平均值,在“主演”关系之下,进行客体二分类,第一次二分类应将“周”对应的索引标记为1,第二次二分类应将“驰”对应的索引标记为1,待客体标记完成后三元组[“喜剧之王”,“周星驰”,“主演”]即已被识别;
本次实施例的实验结果如下:
测试集的准确率(AUC)稳定在0.8974,F1-Score稳定在0.8996。
该实验结果表明本发明所提出的基于预训练模型的级联二进制中文实体关系提取方法能够提取出非结构化文本的人物,组织,事件等实体及其之间的多种关系并有效的解决了三元组之间的重叠问题,预测结果准确率高、误差小,计算复杂度低,有很高的实用价值。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (10)

1.一种基于预训练模型的级联二进制中文实体关系提取方法,其特征在于,包括以下步骤:
步骤1:从初始的中文非结构化数据中筛选出有效数据,以字典的形式获得文本、实体及关系三元组,并对获取的文本进行分字,其中所述中文非结构化数据包括文本、实体内容、实体类别以及关系;
步骤2:利用预训练模型Bert将所述有效数据生成嵌入向量,通过嵌入向量来生成文本的语义信息,捕捉字与字之间的语义贡献关系,并提供字与字的位置嵌入信息,得到文本中单个句子的句向量表示;
步骤3:对句子中每个字向量进行主体标记二分类,对于句子中的每一主体在每一关系下进行客体标记二分类,最后合并结果并生成句子中的全部三元组,即中文实体关系。
2.根据权利要求1所述基于预训练模型的级联二进制中文实体关系提取方法,其特征在于,所述步骤1中,根据规则匹配的方法去掉标注实体或关系不全的数据,仅保留实体和关系标注完全的有效数据。
3.根据权利要求1所述基于预训练模型的级联二进制中文实体关系提取方法,其特征在于,所述步骤1中,以字典的形式获得文本、实体及关系的过程包括:
步骤1.1:将有效数据表示为{text:t,triple_list:[spo1,spo2,spo3,...]}的字典格式,其中text表示文本,t表示文本内容,triple_list表示文本中包含的三元组列表,spo1,spo2......表示文本中的具体三元组,对于任意一个三元组spo,其具体表示为一个元素个数为3的列表[sub,re,obj],其中sub表示该三元组spo中的主体,re表示该三元组spo中的关系,obj表示该三元组spo中的客体;
步骤1.2:对每条有效数据中的文本内容t及三元组列表triple_list中的每个三元组spo中的主体sub及客体obj进行分字;
步骤1.3:获取每个主体sub及客体obj在文本内容t中的索引位置idxsn,idxst,idxoh,idxot,其中idxsh表示主体sub第一个字在文本内容t中的索引,idxst表示主体sub最后一个字在文本内容t中的索引,idxoh表示客体obj第一个字在文本内容t中的索引,idxot表示客体obj最后一个字在文本内容t中的索引,用一个序列[re1,re2,re3,re4,...ren,...]表示所有可能发现的关系,ren表示某一特定关系;
步骤1.4:对每一文本内容t中的每一主体sub建立字典s2ro,其格式为{(idxsh,idxst):[or1,or2,or3,...orn,...]},其中orn表示客体位置索引以及关系组成的元组,其形式为(idxoh,idxot,ren)。
4.根据权利要求3所述基于预训练模型的级联二进制中文实体关系提取方法,其特征在于,所述分字是将文本内容t中的每一个字与预训练模型Bert的内置词表进行匹配并得到对应的字符索引值。
5.根据权利要求1所述基于预训练模型的级联二进制中文实体关系提取方法,其特征在于,所述步骤2中,使用预训练模型Bert对有效数据中的文本内容t生成其对应的嵌入向量。
6.根据权利要求1或5所述基于预训练模型的级联二进制中文实体关系提取方法,其特征在于,所述步骤2中,在生成嵌入向量后,执行如下过程:
步骤2.1:对分完字后的文本内容t随机生成15%的mask数据,并在句子的开头和结尾处增加表示句子开始和结束的标识符,通过被mask的字符两侧的未被mask的字符来预测被mask的字符,而用来预测被mask的字符的中间向量即为被mask的字符的语义信息嵌入向量;
步骤2.2:将上一步骤处理完的文本内容t对于每个字符的位置索引生成索引的位置嵌入信息并与上一步骤生成的语义嵌入信息连结最终生成文本中单个句子的句向量表示[c1,c2,c3,c4,c5,c6,...cn,...],cn表示文本内容t中的第n个中文字向量。
7.根据权利要求6所述基于预训练模型的级联二进制中文实体关系提取方法,其特征在于,所述步骤3包括:
步骤3.1:对得到的句向量表示中的每个中文字向量进行两次二分类,第一次二分类判断该字向量所对应的字符是否为主体sub的首字符,第二次二分类判断该字符是否为主体sub的尾字符;
步骤3.2:生成发现的主体序列的嵌入特征,将主体特征向量与句向量生成联合特征向量[cs1,cs2,cs3,cs4,cs5,cs6,...csn,...],csn表示文本内容t中的第n个联合特征向量,在任意关系ren的情况下,对联合特征向量[cs1,cs2,cs3,cs4,cs5,cs6,...csn,...]中的每个联合特征向量进行两次二分类,第一次二分类判断该字向量对应的字符是否为客体的首字符,第二次二分类判断该字向量对应的字符是否为客体的尾字符,抽取出三元组。
8.根据权利要求7所述基于预训练模型的级联二进制中文实体关系提取方法,其特征在于,所述步骤3.1中主体sub的识别方法:设定与文本向量等长的主体sub开端标记序列sh,主体sub结尾标记序列st,对文本t中的每个字向量进行两次二分类,第一次二分类用于判断该字向量是否为某一主体sub的开始,若为某一主体sub的开始则将主体sub开端标记序列sh的对应索引位置i标记为1,否则标记为0;第二次二分类用于判断该字向量是否为某一主体sub的结束,若为某一主体sub的结束则将主体sub结尾标记序列se的对应索引位置i标记为1,否则标记为0,其中对每个字向量进行的主体标记定义如下:
Figure FDA0003165288290000031
Figure FDA0003165288290000032
其中
Figure FDA0003165288290000033
表示索引i处的字向量为主体sub开端的概率,
Figure FDA0003165288290000034
表示索引i处的字向量为主体sub结尾的概率,xi表示索引i处的字向量,W为权重矩阵,σ表示sigmoid函数。
9.根据权利要求7所述基于预训练模型的级联二进制中文实体关系提取方法,其特征在于,所述步骤3.2中关系ren的提取方法:对于每一个主体sub,模型将迭代检查每一种关系,检验任一关系rei是否可以将句子中的客体obj与这个主体sub关联起来。
10.根据权利要求7所述基于预训练模型的级联二进制中文实体关系提取方法,其特征在于,所述步骤3.2中客体obj的识别方法:对于每一关系rei设定与文本向量等长的客体obj开端标记序列
Figure FDA0003165288290000041
客体obj结尾标记序列
Figure FDA0003165288290000042
对文本t中的每个字向量对于每一关系rei进行两次二分类,第一次二分类用于判断该字向量是否为该关系下某一客体obj的开端,若为该关系下某一客体obj的开端则将该关系下客体obj开端标记序列
Figure FDA0003165288290000043
的对应索引位置i标记为1,否则标记为0,第二次二分类用于判断该字向量是否为该关系下某一客体obj的结尾,若为该关系下某一客体obj的结尾则将该关系下客体obj结尾标记序列
Figure FDA0003165288290000044
的对应索引位置i标记为1,否则标记为0,其中对每个字向量在每一关系下进行的客体标记定义如下:
Figure FDA0003165288290000045
Figure FDA0003165288290000046
其中
Figure FDA0003165288290000047
表示索引i处的字向量为客体obj开端的概率,
Figure FDA0003165288290000048
表示索引i处的字向量为客体obj结尾的概率,xi表示索引i处的字向量,Wre_j为第j个关系的权重矩阵,
Figure FDA0003165288290000049
为第k个主体首尾嵌入的平均值,σ表示sigmoid函数。
CN202110802863.0A 2021-07-15 2021-07-15 一种基于预训练模型的级联二进制中文实体关系提取方法 Active CN113626553B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110802863.0A CN113626553B (zh) 2021-07-15 2021-07-15 一种基于预训练模型的级联二进制中文实体关系提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110802863.0A CN113626553B (zh) 2021-07-15 2021-07-15 一种基于预训练模型的级联二进制中文实体关系提取方法

Publications (2)

Publication Number Publication Date
CN113626553A true CN113626553A (zh) 2021-11-09
CN113626553B CN113626553B (zh) 2024-02-20

Family

ID=78379890

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110802863.0A Active CN113626553B (zh) 2021-07-15 2021-07-15 一种基于预训练模型的级联二进制中文实体关系提取方法

Country Status (1)

Country Link
CN (1) CN113626553B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114186043A (zh) * 2021-12-10 2022-03-15 北京三快在线科技有限公司 预训练方法、装置、设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180094453A (ko) * 2017-02-15 2018-08-23 동명대학교산학협력단 다중채널 가버 필터와 중심대칭지역 이진 패턴기반 얼굴인식기술
CN110472066A (zh) * 2019-08-07 2019-11-19 北京大学 一种城市地理语义知识图谱的构建方法
CN112100351A (zh) * 2020-09-11 2020-12-18 陕西师范大学 一种通过问题生成数据集构建智能问答系统的方法及设备
CN112541501A (zh) * 2020-12-18 2021-03-23 北京中科研究院 一种基于视觉语言建模网络的场景文字识别方法
CN112905868A (zh) * 2021-03-22 2021-06-04 京东方科技集团股份有限公司 事件抽取方法、装置、设备及存储介质
CN113051922A (zh) * 2021-04-20 2021-06-29 北京工商大学 一种基于深度学习的三元组抽取方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180094453A (ko) * 2017-02-15 2018-08-23 동명대학교산학협력단 다중채널 가버 필터와 중심대칭지역 이진 패턴기반 얼굴인식기술
CN110472066A (zh) * 2019-08-07 2019-11-19 北京大学 一种城市地理语义知识图谱的构建方法
CN112100351A (zh) * 2020-09-11 2020-12-18 陕西师范大学 一种通过问题生成数据集构建智能问答系统的方法及设备
CN112541501A (zh) * 2020-12-18 2021-03-23 北京中科研究院 一种基于视觉语言建模网络的场景文字识别方法
CN112905868A (zh) * 2021-03-22 2021-06-04 京东方科技集团股份有限公司 事件抽取方法、装置、设备及存储介质
CN113051922A (zh) * 2021-04-20 2021-06-29 北京工商大学 一种基于深度学习的三元组抽取方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZHEPEI WEI等: "A Novel Cascade Binary Tagging Framework for Relational Triple Extraction", pages 1 - 13, Retrieved from the Internet <URL:《网页在线公开:https://arxiv.org/pdf/1909.03227.pdf》> *
刘奕洋等: "基于机器阅读理解的中文命名实体识别方法", 《模式识别与工智能L》, vol. 33, no. 7, pages 653 - 659 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114186043A (zh) * 2021-12-10 2022-03-15 北京三快在线科技有限公司 预训练方法、装置、设备和存储介质
CN114186043B (zh) * 2021-12-10 2022-10-21 北京三快在线科技有限公司 预训练方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN113626553B (zh) 2024-02-20

Similar Documents

Publication Publication Date Title
CN106776711B (zh) 一种基于深度学习的中文医学知识图谱构建方法
CN108536870B (zh) 一种融合情感特征和语义特征的文本情感分类方法
CN106599032B (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
CN108628828B (zh) 一种基于自注意力的观点及其持有者的联合抽取方法
CN111931506B (zh) 一种基于图信息增强的实体关系抽取方法
CN111046179B (zh) 一种面向特定领域开放网络问句的文本分类方法
WO2018028077A1 (zh) 一种基于深度学习的中文语义分析的方法及装置
CN109670039B (zh) 基于三部图和聚类分析的半监督电商评论情感分析方法
CN110532328B (zh) 一种文本概念图构造方法
CN109101490B (zh) 一种基于融合特征表示的事实型隐式情感识别方法和系统
US11170169B2 (en) System and method for language-independent contextual embedding
CN112328797A (zh) 一种基于神经网络和注意力机制的情感分类方法及系统
CN114416942A (zh) 一种基于深度学习的自动化问答方法
CN110705298B (zh) 一种改进的前缀树与循环神经网络结合的领域分类方法
CN111222318A (zh) 基于双通道双向lstm-crf网络的触发词识别方法
Ren et al. Detecting the scope of negation and speculation in biomedical texts by using recursive neural network
CN115713072A (zh) 一种基于提示学习和上下文感知的关系类别推断系统及方法
CN114691864A (zh) 文本分类模型训练方法及装置、文本分类方法及装置
CN114764566B (zh) 用于航空领域的知识元抽取方法
CN112733764A (zh) 一种基于多模态识别视频情感信息的方法
CN117251524A (zh) 一种基于多策略融合的短文本分类方法
CN113609267B (zh) 基于GCNDT-MacBERT神经网络框架的话语关系识别方法及系统
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
Wu et al. Inferring users' emotions for human-mobile voice dialogue applications
CN113626553B (zh) 一种基于预训练模型的级联二进制中文实体关系提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant