CN112948535A - 一种文本的知识三元组抽取方法、装置及存储介质 - Google Patents
一种文本的知识三元组抽取方法、装置及存储介质 Download PDFInfo
- Publication number
- CN112948535A CN112948535A CN201911259634.8A CN201911259634A CN112948535A CN 112948535 A CN112948535 A CN 112948535A CN 201911259634 A CN201911259634 A CN 201911259634A CN 112948535 A CN112948535 A CN 112948535A
- Authority
- CN
- China
- Prior art keywords
- text
- processed
- head
- extracting
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种文本的知识三元组抽取方法、装置及存储介质,针对多映射关系和多个关系共享头、尾实体的情况,能够准确的抽取出待处理文本中的全部结果,包括以下步骤:步骤S1,获取待处理文本;步骤S2,对待处理文本进行预处理;步骤S3,使用预定的文本多标签分类模型预测待处理文本中包含的关系类别集合;步骤S4,通过预定的文本数据抽取模型对待处理文本以及关系类别集合进行抽取从而得到头尾实体集合;步骤S5,对头尾实体集合进行后处理。
Description
技术领域
本发明属于信息抽取领域,具体涉及一种文本的知识三元组抽取方法、装置及计算机可读存储介质。
背景技术
文本信息一直以来都是人类获取知识和信息的最重要的途径。文本是目前规模最大、内容最丰富的信息源。然而,文本中的信息只有人类自身才能很好的理解,机器难以掌握文本数据的意义,这给机器理解人类语言带来了极大的障碍。文本信息抽取是将嵌入在文本中的非结构化信息自动提取转换为结构化数据的过程。文本信息抽取是帮助机器处理文本数据,理解人类语言的关键一步。随着文本信息流量的飞速发展,如何构建一个高精度、高自动化的知识抽取系统逐渐成为了一个亟待解决的技术难题。
三元组抽取得到结构化的信息来自非结构化的文本,其同时抽取两个实体和他们之间的关系,传统的方法利用正则模式串从文本中提取想要的信息,这种方法提取的结果的准确率一般较高,但是召回率非常低。最近发展的信息抽取技术大多可以分为两个步骤:首先,利用命名实体识别等工具识别文本中提到的命名实体,然后两两组合识别出的命名实体,使用模型确定实体之间是否存在关系以及存在关系的类别。
基于正则匹配的文本信息抽取方法严重依赖于正则模式串的设计和语料的质量,并且难以复用。基于命名实体识别和关系分类的方法虽然可以避免这些问题,但是此类方法的效果受制于命名实体识别工具的效果以及关系分类的效果,并且此类方法无法处理同一组头尾实体对应多个关系的情况;同时,对于长文本中的大量实体,往往只有稀疏的实体对之间存在关系,这种情况下第一步识别出来的实体很多都是无意义的,导致对长文本的抽取效率不高。
发明内容
为解决上述问题,提供一种针对多映射关系和多个关系共享头、尾实体的情况,能够从文本中准确的抽取出全部结果的抽取方法,本发明采用了如下技术方案:
本发明提供了一种文本的知识三元组抽取方法,用于对输入的待处理文本进行抽取从而完成文本信息抽取,其特征在于,包括如下步骤:步骤S1,获取待处理文本;步骤S2,对待处理文本进行预处理;步骤S3,使用预定的文本多标签分类模型预测待处理文本中包含的关系类别集合;步骤S4,通过文本数据抽取模型对待处理文本以及关系类别集合进行抽取从而得到头尾实体集合;步骤S5,对头尾实体集合进行后处理。
本发明提供的文本的知识三元组抽取方法,还可以具有这样的技术特征,其中,文本多标签分类模型以及文本数据抽取模型包括BERT模型以及DGCNN网络,步骤S3包括如下子步骤:步骤S3-1,对待处理文本使用BERT模型的分词策略进行分词并进行词性标注,进一步通过BERT模型将文本和相应的词性标注分别编码为向量并拼接形成文本向量;步骤S3-2,提取隐含特征并编码为隐含特征向量;步骤S3-3,将文本向量输入DGCNN网络并将输出与隐含特征向量连接后经过全连接层进行关系预测从而得到关系类别集合,步骤S4包括如下子步骤:步骤S4-1,构建长序列以连接文本和其关系类别,进一步对该长序列进行标注并使用BERT模型将该长序列编码为长序列向量;步骤S4-2,提取额外特征并编码为额外特征向量;步骤S4-3,将长序列向量以及额外特征向量输入DGCNN网络进行解码,并预测头实体与尾实体的位置信息从而输出头尾实体集合。
本发明提供的文本的知识三元组抽取方法,还可以具有这样的技术特征,其中,步骤S4-3中进行的预测包括如下操作:利用DGCNN网络对待处理文本的各个位置进行解码并输出每个位置的概率,并根据概率计算文本区间作为头实体或尾实体的得分score,score(s[i,j])=p[i]*p[j],式中,p[i]表示区间左端点的概率,p[j]表示区间右端点的概率,s[i,j]表示从第i个位置到第j个位置的文本区间,若得分score大于预定阈值,则认定相应文本区间为头实体或尾实体的候选项;将相互覆盖的候选项按照得分score的高低进行排除;若候选项中存在互相重叠但不覆盖的情况时则根据得分和长度信息选择保留候选项;对由保留的候选项构成的候选项集合进行组合,若候选项集合较小,则将候选项两两组合产生结果集作为头尾实体集合,若候选项集合较大,则通过在待处理文本中出现距离最近的候选项通过贪心组合产生结果集作为头尾实体集合。
本发明提供的文本的知识三元组抽取方法,还可以具有这样的技术特征,其中,隐含特征包括:模型区分度类特征,用于加强区分度;以及同义词特征,用于利用待处理文本的同义关系捕捉待处理文本的语义信息,额外特征包括:表示是否在书名号中的0/1序列特征;表示是否在头类型、关系、尾类型中的0/1序列特征;以及表示和待抽取关系的头类型、关系、尾类型模糊匹配的实数序列特征以及实体类型特征,实体类型特征根据训练数据集中的标注结果出现的实体的类型计算而来。
本发明提供的文本的知识三元组抽取方法,还可以具有这样的技术特征,其中,词性标注以BIO的形式编码。
本发明提供的文本的知识三元组抽取方法,还可以具有这样的技术特征,其中,预处理包括:清洗待处理文本中的特殊符号并替换为unicode空格;通过分词方案对进行分词扩增;对训练数据集中的标注结果清洗;以及对文本中连续的书名号和顿号进行替换。
本发明提供的文本的知识三元组抽取方法,还可以具有这样的技术特征,其中,后处理包括:冲突检测与消除操作,检测头尾实体集合中的相互冲突情况并消除冲突;知识引导操作,利用通过训练数据集中标注结果构建的知识库引导消除头尾实体集合中错误的情况;以及知识补全操作,包括:进行关系推理,根据已存在的关系推理出合理的但是未被抽取到的关系;进行实体名称补全,补全头尾实体集合中实体的名词。
本发明提供的文本的知识三元组抽取方法,还可以具有这样的技术特征,其中,相互冲突情况为实体的关系不相容,关系推理包括互逆关系推理以及组合关系推理。
本发明还提供了一种文本的知识三元组抽取方法的装置,其特征在于,包括:处理器、存储器以及存储在存储器中的程序,其中,处理器用于对存储器存储的程序进行调用以对待处理的文本执行上述的文本的知识三元组抽取方法从而完成文本信息抽取。
本发明还提供了一种计算机可读的存储介质,用于存储计算机程序,其特征在于,计算机程序被配置成执行上述的文本的知识三元组抽取方法。
发明作用与效果
根据本发明的文本的知识三元组抽取方法及装置,由于通过优化后的BERT模型对文本进行编码,因此可以有效引入分词信息到文本表示中,在头尾实体抽取过程中进一步合并了关系属性到文本表示中,这使得模型相比以前方法可以更好地提取文本语义特征;在最后的解码中,使用DGCNN网络来预测每个位置是头实体开始、头实体结尾、尾实体开始、尾实体结尾的概率,而不是现有技术直接抽取实体的做法,可以轻松处理一个关系对应多个头尾实体和一组头尾实体对应多个关系的情况。同时,相比于现有技术仅提取文本的字符串特征和分词词性标注特征,本实施例的方法在关系分类阶段额外提取了两类特征,在头尾实体抽取阶段额外提取了四类特征,从而更多地提取了文本中的隐含特征,利用这些提取的特征可以让模型更好地理解文本,捕获文本的语义信息。进一步,在初步得到头尾实体集合,还通过后处理的冲突检测与消除、知识引导以及知识补全在去除错误结果的同时发现并添加了新的关系,相对与传统方法中没有该步骤或者仅仅应用部分简单规则,本实施例的后处理使得整个抽取方案更加健壮和高精度。
附图说明
图1是本发明实施例中文本的知识三元组抽取装置的结构框图;
图2是本发明实施例中文本的知识三元组抽取方法的流程图;
图3是本发明实施例中步骤S3的子步骤的流程图;以及
图4是本发明实施例中步骤S4的子步骤的流程图。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,以下结合实施例及附图对本发明的文本的知识三元组抽取方法、装置以及存储介质作具体阐述。
<实施例>
本实施例中,文本的知识三元组抽取方法通过一台用户持有的计算机运行:此方法被相应地设计为对应的可执行程序,计算机通过运行该可执行程序从而执行上述文本的知识三元组抽取方法并完成相应的文本信息抽取处理。该可执行程序被存储在计算机中并与计算机形成了一个文本的知识三元组抽取装置。
图1是本发明实施例中文本的知识三元组抽取装置的结构框图。
图1所示,文本的知识三元组抽取装置100包括存储器11、输入显示器12以及处理器13。
存储器11中存储有与文本的知识三元组抽取方法相应的可执行程序以及与可执行程序相对应的程序画面。
本实施例中,存储器11中存储有实现文本的知识三元组抽取方法的计算机执行指令,包括至少一个可以软件或固件的形式存储于存储器11中的软件功能模块,处理器13通过运行存储在存储器11内的软件程序以及模块,从而执行各种功能应用以及数据处理。
输入显示器12用于显示程序画面从而让持有计算机的用户输入需要进行文本信息抽取的待处理文本。该输入显示器为计算机的显示屏、键盘等输入输出设备。
处理器13用于根据存储器11中存储的可执行程序对被输入的待处理文本进行处理从而完成文本信息抽取。
本实施例中,在处理器13完成文本信息抽取后,输入显示器12还会通过程序画面显示相应的处理结果从而让用户确认。
本实施例中,存储器11、输入显示器12以及处理器13之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可以通过一条或者多条通信总线或信号线实现电性连接、或是通过总线连接。
图2是本发明实施例中文本的知识三元组抽取方法的流程图。
如图2所示,文本的知识三元组抽取方法包括如下步骤:
步骤S1,获取待处理文本。
本实施例中,待处理文本为用户通过计算机输入的文本。而在其他实施例中,待处理文本也可以是事先存储在计算机中、或是由相应的抓取程序从互联网、数据库等地中获取。
步骤S2,对待处理文本进行预处理。
本实施例中,步骤S2中进行的预处理包括:
清洗待处理文本中的特殊符号并替换为unicode空格,例如“张三\u3000李四”会被拆分为“张三”,“”(unicode空格),“李四”;
产生其他的分词方案,用于作为扩增,在本实施例中,使用结巴分词(jieba分词)方案对所有的文本进行分词;
训练集标注结果清洗,用于修正训练数据集中不完整的标注,如年份标注“1999”不够完整,改为“1999年”;
对文本中连续的书名号和顿号进行替换,如“某人的作品有《A》、《B》、《C》、《D》和《E》”会被替换为“某人的作品有《A》和《E》”,替换后重新进行分词。后续预测时若产生了A为结果,则会同时产生B、C、D等结果。
步骤S3,使用预定的文本多标签分类模型预测待处理文本中包含的关系类别集合。
本实施例中,文本多标签分类模型主要由BERT模型以及DGCNN网络组成,该模型在模型分类前的最后一层(DGCNN网络之后)引入额外特征(即隐含特征),其针对待处理文本中每个句子输出50维度向量。
为了利用深度神经网络(本实施例中所采用的深度神经网络即为DGCNN网络),需要编码文本为机器可以直接处理的形式。而深度神经网络的输入一般都是向量形式,因此,本实施例在文本多标签分类模型以及文本数据抽取模型中使用了优化后的BERT模型编码文本从而将文本编码为机器可以直接处理的向量形式。该BERT模型是在大量文本语料(维基百科)上训练的一个通用的“语言理解”模型,本实施例通过使用BIO的形式编码分词的词性,解决了BERT本身无法利用分词词性标注信息,从而利用BERT模型可以对输入文本进行编码,编码后的向量可以直接作为深度神经网络的输入。
具体地,如图3所示,步骤S3包括如下子步骤:
步骤S3-1,对待处理文本使用BERT模型的分词策略进行分词,并进行词性标注,进一步通过BERT模型将文本和相应的词性标注分别编码为向量,再拼接形成文本向量。该词性标注以BIO的形式编码,其中,BIO中B:begin、I:middle、O:other。
例如,待处理文本为“《东方奥斯维辛》是…”,对应的词性标注为:B-x B-n I-n I-n I-n I-n I-n B-x B-v…,这样就获取了“东方奥斯维辛”是一个名词的信息;进一步,该待处理文本经过BERT模型编码后就变成了一个长度为768的向量,串联上长度为64的词性标注特征向量,总长度为768+64=832。
步骤S3-2,提取隐含特征并编码为隐含特征向量,提取的隐含特征包括模型区分度类特征以及同义词特征。
本实施例中,模型区分度类特征用于加强区分度,如:将“\d{4}年”,\d为正则表达式通配符,表示任意数字,即0-9,“[^\d][\d一二三四五六七八九十]年”分别置为两维,则让模型能够区分“2004年”和“4年”;同义词特征用于利用文本的同义关系捕捉文本的语义信息,例如“简称|全称|即”都能表达“简称”关系,利用三者的同义关系可以使得当文本中出现任意其一时,分类结果中都包括“简称”关系。
步骤S3-3,将步骤S3-1拼接得到的文本向量输入到DGCNN网络,并将步骤S3-2编码得到的隐含特征向量与DGCNN网络的输出拼接,最后通过全连接层进行分类从而得到关系类别集合。
本实施例中,DGCNN全称为“膨胀门卷积神经网络”,其相对于普通卷积神经网络主要添加了膨胀卷积和门卷积两种操作。本实施例使用DGCNN网络作为网络中间层对BERT编码后的信息进行非线性映射操作。
步骤S4,通过预定的文本数据抽取模型对待处理文本以及关系类别集合进行抽取从而得到头尾实体集合。
本实施例中,文本数据抽取模型主要由BERT模型以及DGCNN网络组成,该模型在将长序列向量与额外特征向量连接在一起,再经过DGCNN网络进行处理,其针对待处理文本中每个句子的每个位置输出4维度向量。
具体地,如图4所示,步骤S4包括如下子步骤:
步骤S4-1,构建长序列以连接文本和其关系类别,进一步对该长序列进行标注并使用BERT模型将该长序列编码为长序列向量。
例如,待处理文本为“《东方奥斯维辛》是1999年中国青年出版社出版的图书,作者是谭元亨”和输入关系“作者”,构造出的一个长序列为:“图书作品,作者,人物。《东方奥斯维辛》是1999年中国青年出版社出版的图书,作者是谭元亨”,然后使用BERT模型对该长序列进行编码,和步骤S3-1中所进行的编码一样,文本编码层的输出也是长度为832的embedding向量。
步骤S4-2,提取额外特征并编码为额外特征向量,该额外特征具体包括:
表示是否在书名号中的0/1序列特征,例如“《东方奥斯维辛》是”会产生“011111100”的额外特征序列;
表示是否在头类型、关系、尾类型中的0/1序列特征,例如,针对头类型、关系和尾类型为“歌曲,作词,人物”的情况,文本“由青年作词家李俊伟作词”会产生额外特征序列,其中出现的两个“作词”对应位置为1,其余位置为0;
表示和待抽取关系的头类型、关系、尾类型模糊匹配的实数序列特征、实体类型特征,其通过计算文本中的每个滑动窗口和待匹配元素的Jaccard相似度实现,其中,实体类型特征是根据训练集标注结果出现的实体的类型计算而来。
步骤S4-3,将步骤S4-1编码得到的长序列向量以及步骤S4-2编码得到的额外特征向量输入DGCNN网络进行解码,并预测头实体与尾实体的位置信息从而输出头尾实体集合。
具体地,预测时,分别在待处理文本中寻找头实体的候选项以及尾实体的候选项:利用DGCNN网络解码输出的每个位置的概率(以位置i为例,位置i的头实体开始/结束以及尾实体开始/结束的概率分别记作为p1[i]/p2[i]和p3[i]/p4[i]]),通过文本区间(文本中的一段文字)两端的概率计算该文本区间作为头实体/尾实体的得分score,当得分score大于预定阈值,则认定相应的文本区间为候选项。
假设字符串s代表输入文本,s[i,j]表示从第i个位置到第j个位置的文本区间,则s(i,j)的得分可以通过如下公式计算(此处以计算s(i,j)为头实体候选项的得分为例):
score(s[i,j])=p1[i]*p2[j]
式中,p1[i]表示区间左端点作为头实体开始的概率,p2[j]表示区间右端点作为头实体结束的概率。
s(i,j)作为尾实体候选项的得分的计算方法同理。
然后,将互相覆盖的候选项按照得分score的高低进行排除,例如,若候选项中同时存在A,B,C,且A,B in C,若score(A)+score(B)>score(C),则保留A和B,否则保留C。
其次,若候选项中存在互相重叠但不覆盖的情况时,则根据长度信息选择保留的候选项,例如,若同时存在候选项A,B,C且 and len(A),len(B)<len(C),若score(A)/6+score(B)/8>score(C)/10,则保留A和B,否则保留C。
通过上述的排除以及保留操作,对由最后剩余的候选项构成的候选项集合进行组合,若候选项集合较小,则将候选项两两组合产生结果集作为头尾实体集合;若候选项集合较大,则通过在待处理文本中出现距离最近的候选项通过贪心组合产生结果集作为头尾实体集合。
步骤S5,对步骤S4抽取到的头尾实体集合进行后处理,该后处理具体包括:
冲突检测与消除操作:检测头尾实体集合中的相互冲突情况并消除冲突,当检测到不相容的情况时,认定为冲突情况,设定存在A、B不相容,则通过包含A,B的其他结果确定A,B的身份关系,例如,一个人不可能同时属于另外一个人的父亲和丈夫。当结果中出现(A,父亲,B)和(A,丈夫,B)时,即判定为一次冲突。本发明解决冲突的方案是:利用包含A,B的其他结果确定A,B的身份关系。例如,当有另外一条结果(A,妻子,C)存在时即可知道A的性别为男,因此(A,丈夫,B)是一条错误的结果,需要删除。
知识引导操作:利用训练数据集标注结果构建的知识库引导消除抽取结果(即头尾实体集合)中错误的情况,用于指导过滤抽取结果,构建的知识库中主要包括一些概念关系和部分非概念关系,用于指导过滤抽取结果。例如,当抽取关系“妻子”的尾实体在知识库中从未以女性身份出现并且以男性身份出现次数超过预定阈值时,说明该抽取的置信度较低,应该舍弃。
知识补全操作,包括:
关系推理,用于根据已存在的关系,推理出合理的但是未被抽取到的关系,推理时利用的关系推理包括:互逆关系推理和组合关系推理,例如,根据(A,妻子,B)可以推出(B,丈夫,A);根据(A,父亲,B)和(B,妻子,C)可以推理出(A,母亲,C)。即利用了“丈夫<->妻子”的互逆关系推理和“父亲+妻子=母亲”的组合关系推理;
实体名称补全,用于补全实体的名词,这里主要指时间和地点类名词,例如将年份“1999”补全为“1999年”,将地点“南京”补全为“南京市”等。
通过上述步骤,将头尾实体集合通过步骤S5进行后处理操作后,最终就得到了待处理文本中能够被抽取的全部结果。这些结果包含待处理文本中所含有的知识,例如对于待处理文本“《机器学习》是周志华著作的一本有关机器学习的书籍,由清华大学出版社出版”,结果为(机器学习,作者,周志华)和(机器学习,出版社,清华大学出版社),从而利用这些结果进行知识图谱的完善或是进行文本的识别判断等处理。
实施例作用与效果
根据本实施例提供的文本的知识三元组抽取方法及装置,由于通过优化后的BERT对文本进行编码,因此可以有效引入分词信息到文本表示中,在头尾实体抽取过程中进一步合并了关系属性到文本表示中,这使得模型相比以前方法可以更好地提取文本语义特征;在最后的解码中,使用DGCNN网络来预测每个位置是头实体开始、头实体结尾、尾实体开始、尾实体结尾的概率,而不是现有技术直接抽取实体的做法,可以轻松处理一个关系对应多个头尾实体和一组头尾实体对应多个关系的情况。同时,相比于现有技术仅提取文本的字符串特征和分词词性标注特征,本实施例的方法在关系分类阶段额外提取了两类特征,在头尾实体抽取阶段额外提取了四类特征,从而更多地提取了文本中的隐含特征,利用这些提取的特征可以让模型更好地理解文本,捕获文本的语义信息。进一步,在初步得到头尾实体集合,还通过后处理的冲突检测与消除、知识引导以及知识补全在去除错误结果的同时发现并添加了新的关系,相对与传统方法中没有该步骤或者仅仅应用部分简单规则,本实施例的后处理使得整个抽取方案更加健壮和高精度。
本实施例的方法主要解决了如下三个问题:第一,尽可能挖掘文本隐含信息帮助抽取。抽取任务往往只利用了文本的表面特征,还有更多的隐含特征需要挖掘。第二,尽可能利用标注信息。人工标注的结果往往含有大量丰富的知识,这些知识除了可以作为训练集外,还可以进一步帮助抽取结果生成。第三,对于多映射关系(关系有多个头实体或多个尾实体)或者多个关系共享头尾实体对的情况,尽可能准确地抽取出全部结果。
另外,由于多映射关系或者多个关系共享头尾实体对的情况比较常见并且比较复杂,因此必须设计合理的抽取模型准确地抽取出全部结果,本实施例具体通过如下方式执行并产生了如下效果:
1、采用先寻找文本中可能存在的关系,再枚举每个关系去文本中寻找头、尾实体的两步方案来进行知识三元组抽取,这样不仅可以处理一个关系对应多个头尾实体和一组头尾实体对应多个关系的情况,而且避免了先寻找实体再关系分类导致对长文本抽取效率较低的问题。
2、在BERT模型中引入BIO分词信息进行实体标注,由于BERT模型以单字为基本单位,为了引入分词标注信息,本发明将词性标注以BIO的形式编码,并级联在BERT模型的结果上,相比于以前方法使用word2vec直接编码文本,利用BERT模型可以更好地捕获文本的语义信息,引入BIO分词信息的做法避免了标准BERT下无法使用词信息的缺点。
3、使用待抽取关系的属性和每个文本滑动窗口之间的相似度作为额外特征进行实体标注,本发明提取的此类特征有效获取了待抽取关系和输入文本之间的语法相似度,增强了模型的匹配泛化能力。
4、采用基于预测头/尾实体开始/结束双指针的解码,使用DGCNN网络预测每个位置属于头/尾实体开始/结束的概率,相比于直接识别实体的做法而言,可以轻松处理一个关系对应多个头尾实体对的情况。
5、采用头/尾实体双指针的候选项的重叠/覆盖消除。本发明提出的输出候选项之间重叠/覆盖的消除策略可以有效避免使用双指针输出导致的结果重叠/覆盖问题。
6、使用训练标注数据指导抽取错误消除和利用关系推理进行新关系的发现。本发明提出的这些方案进一步优化了抽取结果,使得整个抽取系统更加健壮和合理。
上述实施例仅用于举例说明本发明的具体实施方式,而本发明不限于上述实施例的描述范围。
例如,实施例中,存储器用于存储可执行程序以及程序画面,在本发明其他实施例中,该存储器可以为随机存取存储器(Random Access Memory,简称:RAM)、只读存储器(Read Only Memory,简称:ROM)、可编程只读存储器(Programmable Read-Only Memory,简称:PROM)、可擦除只读存储器(Erasable Programmable Read-Only Memory,简称:EPROM)、电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,简称:EEPROM)等中的任意一种。同时,实施例中的处理器为一种集成电路芯片,具有信号的处理能力,在本发明其他实施例中,该处理器还可以是通用处理器,包括中央处理器(CentralProcessing Unit,简称:CPU)、网络处理器(Network Processor,简称:NP)、微处理器或者任何常规的处理器等。
再例如,本发明的文本的知识三元组抽取方法,还可以配置成一种计算机程序指令,这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读的存储介质中,使得存储在该计算机可读的存储介质中的指令产生包括指令装置的制造品,用于实现上述文本的知识三元组抽取方法的功能。
Claims (10)
1.一种文本的知识三元组抽取方法,用于对输入的待处理文本进行抽取从而完成文本信息抽取,其特征在于,包括如下步骤:
步骤S1,获取所述待处理文本;
步骤S2,对所述待处理文本进行预处理;
步骤S3,使用预定的文本多标签分类模型预测所述待处理文本中包含的关系类别集合;
步骤S4,通过预定的文本数据抽取模型对所述待处理文本以及所述关系类别集合进行抽取从而得到头尾实体集合;
步骤S5,对所述头尾实体集合进行后处理。
2.根据权利要求1所述的文本的知识三元组抽取方法,其特征在于:
其中,所述文本多标签分类模型以及所述文本数据抽取模型包括BERT模型以及DGCNN网络,
所述步骤S3包括如下子步骤:
步骤S3-1,对所述待处理文本使用BERT模型的分词策略进行分词并进行词性标注,进一步通过所述BERT模型将所述文本和相应的所述词性标注分别编码为向量并拼接形成文本向量;
步骤S3-2,提取隐含特征并编码为隐含特征向量;
步骤S3-3,将所述文本向量输入所述DGCNN网络并将输出与所述隐含特征向量连接后通过全连接层进行关系预测从而得到所述关系类别集合,
所述步骤S4包括如下子步骤:
步骤S4-1,构建长序列以连接所述文本和其关系类别,进一步对该长序列进行标注并使用所述BERT模型将该长序列编码为长序列向量;
步骤S4-2,提取额外特征并编码为额外特征向量;
步骤S4-3,将所述长序列向量以及所述额外特征向量输入所述DGCNN网络进行解码,并预测头实体与尾实体的位置信息从而输出所述头尾实体集合。
3.根据权利要求2所述的文本的知识三元组抽取方法,其特征在于:
其中,所述步骤S4-3中进行的预测包括如下操作:
利用所述DGCNN网络对所述待处理文本的各个位置进行解码并输出每个所述位置的概率,并根据所述概率计算文本区间作为头实体或尾实体的得分score,
score(s[i,j])=p[i]*p[j]
式中,p[i]表示区间左端点的所述概率,p[j]表示区间右端点的所述概率,s[i,j]表示从第i个位置到第j个位置的所述文本区间,
若所述得分score大于预定阈值,则认定相应所述文本区间为头实体或尾实体的候选项;
将相互覆盖的所述候选项按照所述得分score的高低进行排除;
若所述候选项中存在互相重叠但不覆盖的情况时则综合所述候选项的所述得分以及所述候选项的长度信息选择保留的所述候选项;
对由保留的所述候选项构成的候选项集合进行组合,
若所述候选项集合较小,则将所述候选项两两组合产生结果集作为所述头尾实体集合,
若所述候选项集合较大,则通过在所述待处理文本中出现距离最近的所述候选项通过贪心组合产生结果集作为所述头尾实体集合。
4.根据权利要求2所述的文本的知识三元组抽取方法,其特征在于:
其中,所述隐含特征包括:
模型区分度类特征,用于加强区分度;以及
同义词特征,用于利用所述待处理文本的同义关系捕捉所述待处理文本的语义信息,
所述额外特征包括:
表示是否在书名号中的0/1序列特征;
表示是否在头类型、关系、尾类型中的0/1序列特征;以及
表示和待抽取关系的头类型、关系、尾类型模糊匹配的实数序列特征以及实体类型特征,
所述实体类型特征根据训练数据集中的标注结果出现的实体的类型计算而来。
5.根据权利要求2所述的文本的知识三元组抽取方法,其特征在于:
其中,所述词性标注以BIO的形式编码。
6.根据权利要求1所述的文本的知识三元组抽取方法,其特征在于:
其中,所述预处理包括:
清洗所述待处理文本中的特殊符号并替换为unicode空格;
通过分词方案对所述进行分词扩增;
对训练数据集中的标注结果清洗;以及
对所述待处理文本中连续的书名号和顿号进行替换。
7.根据权利要求1所述的文本的知识三元组抽取方法,其特征在于:
其中,所述后处理包括:
冲突检测与消除操作,检测所述头尾实体集合中的相互冲突情况并消除冲突;
知识引导操作,利用通过训练数据集中标注结果构建的知识库引导消除所述头尾实体集合中错误的情况;以及
知识补全操作,包括:
进行关系推理,根据已存在的关系推理出合理的但是未被抽取到的关系;
进行实体名称补全,补全所述头尾实体集合中实体的名词。
8.根据权利要求7所述的文本的知识三元组抽取方法,其特征在于:
其中,所述相互冲突情况为所述实体的关系不相容,
所述关系推理包括互逆关系推理以及组合关系推理。
9.一种文本的知识三元组抽取方法的装置,其特征在于,包括:
处理器、存储器以及存储在所述存储器中的程序,
其中,所述处理器用于对所述存储器存储的所述程序进行调用以对待处理的文本执行权利要求1至8中任意一项所述的文本的知识三元组抽取方法从而完成文本信息抽取。
10.一种计算机可读的存储介质,用于存储计算机程序,其特征在于,所述计算机程序被配置成执行权利要求1至8中任意一项所述的文本的知识三元组抽取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911259634.8A CN112948535B (zh) | 2019-12-10 | 2019-12-10 | 一种文本的知识三元组抽取方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911259634.8A CN112948535B (zh) | 2019-12-10 | 2019-12-10 | 一种文本的知识三元组抽取方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112948535A true CN112948535A (zh) | 2021-06-11 |
CN112948535B CN112948535B (zh) | 2022-06-14 |
Family
ID=76225633
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911259634.8A Active CN112948535B (zh) | 2019-12-10 | 2019-12-10 | 一种文本的知识三元组抽取方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112948535B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113312486A (zh) * | 2021-07-27 | 2021-08-27 | 中国电子科技集团公司第十五研究所 | 一种信号画像构建方法装置、电子设备、存储介质 |
CN113449118A (zh) * | 2021-06-29 | 2021-09-28 | 华南理工大学 | 一种基于标准知识图谱的标准文档冲突检测方法及系统 |
CN113568969A (zh) * | 2021-07-30 | 2021-10-29 | 咪咕文化科技有限公司 | 信息抽取方法、装置、设备以及计算机可读存储介质 |
CN113850532A (zh) * | 2021-10-15 | 2021-12-28 | 深圳市宝龙辉鞋业有限公司 | 一种按摩鞋生产在线连续监控方法及系统 |
CN115168619A (zh) * | 2022-09-06 | 2022-10-11 | 科大讯飞(苏州)科技有限公司 | 实体关系抽取方法及相关装置、电子设备、存储介质 |
CN115168599A (zh) * | 2022-06-20 | 2022-10-11 | 北京百度网讯科技有限公司 | 多三元组抽取方法、装置、设备、介质及产品 |
CN115688920A (zh) * | 2022-11-22 | 2023-02-03 | 百度国际科技(深圳)有限公司 | 知识抽取方法、模型的训练方法、装置、设备和介质 |
CN116245177A (zh) * | 2023-05-06 | 2023-06-09 | 中国科学院自动化研究所 | 地理环境知识图谱自动化构建方法及系统、可读存储介质 |
CN116757190A (zh) * | 2023-08-15 | 2023-09-15 | 北京大学第一医院 | 一种基于双向树型标注方法的实体关系联合抽取方法、系统及设备 |
CN117151222A (zh) * | 2023-09-15 | 2023-12-01 | 大连理工大学 | 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质 |
CN113568969B (zh) * | 2021-07-30 | 2024-06-04 | 咪咕文化科技有限公司 | 信息抽取方法、装置、设备以及计算机可读存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763353A (zh) * | 2018-05-14 | 2018-11-06 | 中山大学 | 基于规则和远程监督的百度百科关系三元组抽取方法 |
CN110110621A (zh) * | 2019-04-23 | 2019-08-09 | 安徽大学 | 基于多特征整合深度学习模型的倾斜摄影点云分类方法 |
CN110188172A (zh) * | 2019-05-31 | 2019-08-30 | 清华大学 | 基于文本的事件检测方法、装置、计算机设备及存储介质 |
CN110263323A (zh) * | 2019-05-08 | 2019-09-20 | 清华大学 | 基于栅栏式长短时记忆神经网络的关键词抽取方法及系统 |
CN110334354A (zh) * | 2019-07-11 | 2019-10-15 | 清华大学深圳研究生院 | 一种中文关系抽取方法 |
CN110427623A (zh) * | 2019-07-24 | 2019-11-08 | 深圳追一科技有限公司 | 半结构化文档知识抽取方法、装置、电子设备及存储介质 |
-
2019
- 2019-12-10 CN CN201911259634.8A patent/CN112948535B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763353A (zh) * | 2018-05-14 | 2018-11-06 | 中山大学 | 基于规则和远程监督的百度百科关系三元组抽取方法 |
CN110110621A (zh) * | 2019-04-23 | 2019-08-09 | 安徽大学 | 基于多特征整合深度学习模型的倾斜摄影点云分类方法 |
CN110263323A (zh) * | 2019-05-08 | 2019-09-20 | 清华大学 | 基于栅栏式长短时记忆神经网络的关键词抽取方法及系统 |
CN110188172A (zh) * | 2019-05-31 | 2019-08-30 | 清华大学 | 基于文本的事件检测方法、装置、计算机设备及存储介质 |
CN110334354A (zh) * | 2019-07-11 | 2019-10-15 | 清华大学深圳研究生院 | 一种中文关系抽取方法 |
CN110427623A (zh) * | 2019-07-24 | 2019-11-08 | 深圳追一科技有限公司 | 半结构化文档知识抽取方法、装置、电子设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
LI, WENTING: "The Automatic Text Classification Method Based on BERT and Feature Union", 《IEEE》 * |
YUE WANG: "Deep Closest Point: Learning Representations for Point Cloud Registration", 《IEEE》 * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113449118A (zh) * | 2021-06-29 | 2021-09-28 | 华南理工大学 | 一种基于标准知识图谱的标准文档冲突检测方法及系统 |
CN113449118B (zh) * | 2021-06-29 | 2022-09-20 | 华南理工大学 | 一种基于标准知识图谱的标准文档冲突检测方法及系统 |
CN113312486B (zh) * | 2021-07-27 | 2021-11-16 | 中国电子科技集团公司第十五研究所 | 一种信号画像构建方法装置、电子设备、存储介质 |
CN113312486A (zh) * | 2021-07-27 | 2021-08-27 | 中国电子科技集团公司第十五研究所 | 一种信号画像构建方法装置、电子设备、存储介质 |
CN113568969A (zh) * | 2021-07-30 | 2021-10-29 | 咪咕文化科技有限公司 | 信息抽取方法、装置、设备以及计算机可读存储介质 |
CN113568969B (zh) * | 2021-07-30 | 2024-06-04 | 咪咕文化科技有限公司 | 信息抽取方法、装置、设备以及计算机可读存储介质 |
CN113850532A (zh) * | 2021-10-15 | 2021-12-28 | 深圳市宝龙辉鞋业有限公司 | 一种按摩鞋生产在线连续监控方法及系统 |
CN115168599B (zh) * | 2022-06-20 | 2023-06-20 | 北京百度网讯科技有限公司 | 多三元组抽取方法、装置、设备、介质及产品 |
CN115168599A (zh) * | 2022-06-20 | 2022-10-11 | 北京百度网讯科技有限公司 | 多三元组抽取方法、装置、设备、介质及产品 |
CN115168619A (zh) * | 2022-09-06 | 2022-10-11 | 科大讯飞(苏州)科技有限公司 | 实体关系抽取方法及相关装置、电子设备、存储介质 |
CN115688920A (zh) * | 2022-11-22 | 2023-02-03 | 百度国际科技(深圳)有限公司 | 知识抽取方法、模型的训练方法、装置、设备和介质 |
CN115688920B (zh) * | 2022-11-22 | 2023-08-25 | 百度国际科技(深圳)有限公司 | 知识抽取方法、模型的训练方法、装置、设备和介质 |
CN116245177B (zh) * | 2023-05-06 | 2023-08-11 | 中国科学院自动化研究所 | 地理环境知识图谱自动化构建方法及系统、可读存储介质 |
CN116245177A (zh) * | 2023-05-06 | 2023-06-09 | 中国科学院自动化研究所 | 地理环境知识图谱自动化构建方法及系统、可读存储介质 |
CN116757190A (zh) * | 2023-08-15 | 2023-09-15 | 北京大学第一医院 | 一种基于双向树型标注方法的实体关系联合抽取方法、系统及设备 |
CN116757190B (zh) * | 2023-08-15 | 2023-10-20 | 北京大学第一医院 | 一种基于双向树型标注方法的实体关系联合抽取方法 |
CN117151222A (zh) * | 2023-09-15 | 2023-12-01 | 大连理工大学 | 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质 |
CN117151222B (zh) * | 2023-09-15 | 2024-05-24 | 大连理工大学 | 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112948535B (zh) | 2022-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112948535B (zh) | 一种文本的知识三元组抽取方法、装置及存储介质 | |
CN110096570B (zh) | 一种应用于智能客服机器人的意图识别方法及装置 | |
CN107798136B (zh) | 基于深度学习的实体关系抽取方法、装置及服务器 | |
CN107291783B (zh) | 一种语义匹配方法及智能设备 | |
CN108959242B (zh) | 一种基于中文字符词性特征的目标实体识别方法及装置 | |
CN111639171A (zh) | 一种知识图谱问答方法及装置 | |
CN117076653B (zh) | 基于思维链及可视化提升上下文学习知识库问答方法 | |
CN108205524B (zh) | 文本数据处理方法和装置 | |
CN112800184B (zh) | 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法 | |
CN114372470B (zh) | 基于边界检测和提示学习的中文法律文本实体识别方法 | |
CN113312922B (zh) | 一种改进的篇章级三元组信息抽取方法 | |
CN113742493A (zh) | 一种病理知识图谱的构建方法及装置 | |
CN113569050A (zh) | 基于深度学习的政务领域知识图谱自动化构建方法和装置 | |
CN113821605A (zh) | 一种事件抽取方法 | |
CN111651569B (zh) | 一种电力领域的知识库问答方法及系统 | |
CN113033204A (zh) | 信息实体抽取方法、装置、电子设备和存储介质 | |
CN115390806A (zh) | 基于双模态联合建模的软件设计模式推荐方法 | |
CN113282754A (zh) | 针对新闻事件的舆情检测方法、装置、设备和存储介质 | |
CN116050352A (zh) | 文本编码方法和装置、计算机设备及存储介质 | |
CN115221332A (zh) | 一种危化品事故事理图谱的构建方法与系统 | |
CN116992040A (zh) | 基于概念图的知识图谱补全方法和系统 | |
CN116975161A (zh) | 电力设备局放文本的实体关系联合抽取方法、设备、介质 | |
CN111178080A (zh) | 一种基于结构化信息的命名实体识别方法及系统 | |
CN113468307A (zh) | 文本处理方法、装置、电子设备及存储介质 | |
CN112883735A (zh) | 一种表单图像的结构化处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |