CN113609855A - 一种信息抽取方法及装置 - Google Patents
一种信息抽取方法及装置 Download PDFInfo
- Publication number
- CN113609855A CN113609855A CN202110924432.1A CN202110924432A CN113609855A CN 113609855 A CN113609855 A CN 113609855A CN 202110924432 A CN202110924432 A CN 202110924432A CN 113609855 A CN113609855 A CN 113609855A
- Authority
- CN
- China
- Prior art keywords
- target
- vector
- model
- text
- extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 93
- 239000013598 vector Substances 0.000 claims abstract description 261
- 238000000034 method Methods 0.000 claims abstract description 33
- 238000006243 chemical reaction Methods 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000011218 segmentation Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 abstract description 13
- 230000006870 function Effects 0.000 description 45
- 241000220225 Malus Species 0.000 description 13
- 238000010586 diagram Methods 0.000 description 10
- 238000004590 computer program Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 241000220324 Pyrus Species 0.000 description 5
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 4
- 235000014443 Pyrus communis Nutrition 0.000 description 4
- 239000013604 expression vector Substances 0.000 description 4
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000033764 rhythmic process Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- UCJGJABZCDBEDK-UHFFFAOYSA-N bazedoxifene Chemical compound C=1C=C(OCCN2CCCCCC2)C=CC=1CN1C2=CC=C(O)C=C2C(C)=C1C1=CC=C(O)C=C1 UCJGJABZCDBEDK-UHFFFAOYSA-N 0.000 description 2
- 229960000817 bazedoxifene Drugs 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 235000021016 apples Nutrition 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 235000021017 pears Nutrition 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种信息抽取方法及装置,将待抽取文本转换为第一目标输入向量;将第一目标输入向量传递给主体抽取模型,得到目标主体,主提抽取模型基于第一Bert模型、第一全连接层和第一sigmoid函数构建;将目标主体与待抽取文本进行拼接后转化为第二目标输入向量;将第二目标输入向量传递给预测客体和关系模型,得到目标客体和目标关系,预测客体和关系模型基于第二Bert模型、第二全连接层、第二sigmoid函数、相对距离、标点状态向量和主体向量构建。上述过程,基于主体抽取模型和预测客体和关系模型抽取目标主体、目标客体和目标关系,基于模型进行抽取保证了抽取的准确率,由于不需要人工参与,节省了人力。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种信息抽取方法及装置。
背景技术
构建知识图谱的一个重要的步骤三元组的抽取,其中,三元组指从文字数据中抽取出主体、客体以及主客体之间的关系,在知识图谱中,数据以节点和节点间的关系等形式存储,例如在金融领域,可以通过知识图谱来构建出公司之间的金融情况,这对于分析整个市场的系统性风险以及风险在各个公司的传播有着重大的意义。为了将这些持股信息,债务信息进行分析,需要从公司的公告中抽取出这些结构化信息,比如某一公司的公告中这样描述:“A公司持有B公司30%的流通股,A公司持有B公司的剩余到期年限为十年的年利率为6%的债券“,对于这个句子我们希望抽取出两条结构化信息:第一条:主体:A公司,客体:B公司,关系:股权投资,持股类型:流通股,持股比例:30%。第二条:主体:A公司,客体:B公司,关系:债券融资,到期时间:十年,年利率:6%。当我们获取到相关的三元组数据后,我们就可以将这些数据存入图数据库或者关系型数据库中用于构建知识图谱。
发明人研究发现,现有技术中采用人力来抽取三元组不仅费时费力,而且还会存在较高的错误率。
发明内容
有鉴于此,本发明提供了一种信息抽取方法及装置,用于解决现有技术中采用人力来抽取三元组不仅费时费力,而且还会存在较高的错误率的问题,具体方案如下:
一种信息抽取方法,包括:
接收待抽取文本,将所述待抽取文本中转换为第一目标输入向量;
将所述第一目标输入向量传递给主体抽取模型进行抽取,得到目标主体,其中,所述主提抽取模型基于第一Bert模型、第一全连接层和第一sigmoid函数构建;
将所述目标主体与所述待抽取文本进行拼接,将拼接后的文本转化为第二目标输入向量;
将所述第二目标输入向量传递给预测客体和关系模型进行抽取,得到目标客体和目标关系,其中,所述预测客体和关系模型基于第二Bert模型、第二全连接层、第二sigmoid函数、相对距离、标点状态向量和主体向量构建。
上述的方法,可选的,将所述待抽取文本中转换为第一目标输入向量,包括:
将所述待抽取文本按字的粒度进行分词,得到各个字;
将每个字转换为内容表示向量和位置表示向量;
将所述内容表示向量和所述位置标识向量进行叠加,得到第一目标输入向量。
上述的方法,可选的,将所述第一目标输入向量传递给主体抽取模型进行主体抽取,得到目标主体,包括:
将所述第一目标输入向量传递给所述第一Bert模型,得到第一语义向量;
将所述第一语义向量传递给所述第一全连接层的所述第一sigmoid函数,预测所述待抽取文本中目标主体。
上述的方法,可选的,将所述第二目标输入向量传递给预测客体和关系模型,得到目标客体和目标关系,包括:
将所述得让目标输入向量传递给所述第二Bert模型,得到第二语义向量;
将所述第二语义向量中添加所述相对距离、所述标点状态向量和所述主体向量,得到第三语义向量;
确定所述第三语义向量中主体词和非主体词的相关性,将所述相关性与所述主体向量的乘积添加到对应的第三语义向量中,得到目标语义向量;
将所述目标语义向量传递给所述第二全连接层的所述第二sigmoid函数,预测所述待抽取文本中目标客体和目标关系。
上述的方法,可选的,还包括:所述主体抽取模型和所述预测客体和关系模型至少为一个;
获取各个三元组,其中,所述三元组包括:目标主体、目标客体和目标关系;
在所述各个三元组中选取待预测三元组;
将所述待预测三元组传递给三元组预测模型,得到所述待预测三元组合理性概率,其中,所述三元组预测模型基于第三Bert模型、第三全连接层和第三sigmoid函数构建;
在各个合理性概率中选取概率值大于预设概率阈值的待预测三元组作为所述目标三元组
一种信息抽取装置,包括:
第一转换模块,用于接收待抽取文本,将所述待抽取文本中转换为第一目标输入向量;
第一抽取模块,用于将所述第一目标输入向量传递给主体抽取模型进行抽取,得到目标主体,其中,所述主提抽取模型基于第一Bert模型、第一全连接层和第一sigmoid函数构建;
第二转换模块,用于将所述目标主体与所述待抽取文本进行拼接,将拼接后的文本转化为第二目标输入向量;
第二抽取模块,用于将所述第二目标输入向量传递给预测客体和关系模型进行抽取,得到目标客体和目标关系,其中,所述预测客体和关系模型基于第二Bert模型、第二全连接层、第二sigmoid函数、相对距离、标点状态向量和主体向量构建。
上述的装置,可选的,所述第一转换模块包括:
分词单元,用于将所述待抽取文本按字的粒度进行分词,得到各个字;
转换单元,用于将每个字转换为内容表示向量和位置表示向量;
叠加单元,用于将所述内容表示向量和所述位置标识向量进行叠加,得到第一目标输入向量。
上述的装置,可选的,所述第一抽取模块包括:
第一计算单元,用于将所述第一目标输入向量传递给所述第一Bert模型,得到第一语义向量;
第一预测单元,用于将所述第一语义向量传递给所述第一全连接层的所述第一sigmoid函数,预测所述待抽取文本中目标主体。
上述的装置,可选的,所述第二抽取模块包括:
第二计算单元,用于将所述得让目标输入向量传递给所述第二Bert模型,得到第二语义向量;
第一添加单元,用于将所述第二语义向量中添加所述相对距离、所述标点状态向量和所述主体向量,得到第三语义向量;
第二添加单元,用于确定所述第三语义向量中主体词和非主体词的相关性,将所述相关性与所述主体向量的乘积添加到对应的第三语义向量中,得到目标语义向量;
第二预测单元,用于将所述目标语义向量传递给所述第二全连接层的所述第二sigmoid函数,预测所述待抽取文本中目标客体和目标关系。
上述的装置,可选的,还包括:所述主体抽取模型和所述预测客体和关系模型至少为一个;
获取模块,用于获取各个三元组,其中,所述三元组包括:目标主体、目标客体和目标关系;
第一选取模块,用于在所述各个三元组中选取待预测三元组;
预测模块,用于将所述待预测三元组传递给三元组预测模型,得到所述待预测三元组合理性概率,其中,所述三元组预测模型基于第三Bert模型、第三全连接层和第三sigmoid函数构建;
第二选取模块,在各个合理性概率中选取概率值大于预设概率阈值的待预测三元组作为所述目标三元组。
与现有技术相比,本发明包括以下优点:
本发明公开了一种信息抽取方法及装置,包括:接收待抽取文本,将待抽取文本中的各个字转换为第一目标输入向量;将第一目标输入向量传递给主体抽取模型进行抽取,得到目标主体,其中,主提抽取模型基于第一Bert模型、第一全连接层和第一sigmoid函数构建;将目标主体与待抽取文本进行拼接,将拼接后的文本转化为第二目标输入向量;将第二目标输入向量传递给预测客体和关系模型进行抽取,得到目标客体和目标关系,其中,预测客体和关系模型基于第二Bert模型、第二全连接层、第二sigmoid函数、相对距离、标点状态向量和主体向量构建。上述过程,基于主体抽取模型和预测客体和关系模型对目标主体、目标客体和目标关系,基于模型进行抽取保证了抽取的准确率,由于不需要人工参与,节省了人力。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例公开的一种信息抽取方法流程图;
图2为本申请实施例公开的一种信息抽取装置结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
本发明公开了一种信息抽取方法及装置,应用于在构建知识图谱的过程中获取文本数据中的三元组,其中,所述文本数据的三元组包括:主体、客体和主体与客体之间的关系,所述方法的执行流程如图1所示,包括步骤:
S101、接收待抽取文本,将所述待抽取文本中转换为第一目标输入向量;
本发明实施例中,接收所述待抽取文本,其中,所述待抽取文本可以一段话或者一句话,将所述待抽取文本按照字的粒度进行拆分,得到各个字,例如,比如“张三喜欢吃苹果”,分词后就变成了[“张”,“三”,“喜”,“欢”,“吃”,“苹”,“果”]。将每个字转换为内容表示向量和位置表示向量,其中,内容向量就是表示词的含义,位置向量是表示词在整个句子中的位置,之所以要有额外的位置表示向量,是为了向模型传递句子的一个词的顺序信息。比如“张三喜欢吃苹果”和“喜欢吃苹果张三”中的词是完全相同的,但是词的顺序是不一样的,因此它们是不同的句子,所以需要准备好位置表示向量,从而让模型知道想要表达的是“张三想要吃苹果”而不是“想要吃苹果张三”。针对所述内容表示向量:每个词在Bert模型里面都有对应的一个512维的向量来表示,这就是内容表示向量。针对所述位置表示向量:Bert模型使用的是绝对位置编码,即对每一个位置单独准备一个向量,比如用x1向量表示位置1,x2向量表示位置2,以此类推。比如说“张”是句子中的第一个词,那么就用x1向量表示它的位置,“果”是句子中的第6个词,就用x6向量来表示这个位置。进一步的,在确定了所述内容表示向量和所述位置表示向量后,将所述内容表示向量和所述位置标识向量进行叠加,得到第一目标输入向量。
S102、将所述第一目标输入向量传递给主体抽取模型进行抽取,得到目标主体,其中,所述主体提抽取模型基于第一Bert模型、第一全连接层和第一sigmoid函数构建;
本发明实施例中,所述主体抽取模型基于第一Bert模型、第一全连接层和第一sigmoid函数构建,其中,所述第一Bert模型是预先训练过的,所述第一Bert模型用于将所述第一目标输入向量转化为所述第一语义向量,所述第一语义向量包括了所述第一目标输入向量的上下文的信息。所述第一Bert模型的本质上用于将所述待抽取文本每个词去注意各自的上下文的信息从而得到编码后的第一语义向量。例如,所述待抽取文本为“张三喜欢吃苹果。”其中的每一个词在Bert的字典中都有一个index,比如对应的index如[2,4,65,7,45,23,6,233],index 2代表“张”这个字,index 4代表”三”这个字,每个字对应了初始的编码,当把[2,4,65,7,45,23,6,233]传给Bert后,Bert会自动将这些index转化为相应的第一语义向量,具体来说是用一个512维的向量来表示一个词。
进一步的,将所述第一语义向量传递给所述第一全连接层的所述第一sigmoid函数,优选的,所述第一全连接层为两个并列的全链接层之所以用两个并列的全链接层是因为我使用半指针的方法预测主体的位置,其中一个全链接层用来预测主体的起始位置,另一个则用来预测主体的结束位置。基于所述起始位置和所述结束位置确定所述目标主体,优选的,所述目标主体至少为一个。
S103、将所述目标主体与所述待抽取文本进行拼接,将拼接后的文本转化为第二目标输入向量;
本发明实施例中,将所述目标主体与所述待抽取文本进行拼接,得到拼接后的文本,优选的,所述目标主体在所述待抽取文本的前方,采用与所述第一目标输入向量相同的处理方式,对所述拼接后的文本进行分词,将分词得到的对应的字转换为内容表示向量和位置表示向量,并将对应的内容表示向量和位置表示向量进行叠加,得到第二目标输入向量。
S104、将所述第二目标输入向量传递给预测客体和关系模型进行抽取,得到目标客体和目标关系,其中,所述预测客体和关系模型基于第二Bert模型、第二全连接层、第二sigmoid函数、相对距离、标点状态向量和主体向量构建。
本发明实施例中,所述预测客体和关系模型基于第二Bert模型、第二全连接层、第二sigmoid函数、相对距离、标点状态向量和主体向量构建,其中,所述第二Bert模型是预先训练过的,所述第二Bert模型用于将所述第二目标输入向量转化为所述第二语义向量,所述第二语义向量包括了所述第二目标输入向量的上下文的信息。所述第二Bert模型的本质上用于将所述拼接后的文本每个词去注意各自的上下文的信息从而得到编码后的第二语义向量。
进一步的,所述主体向量为所述目标主体对应的向量,所述相对距离用于表示各个向量之间的距离,所述标点状态向量用于表示向量之间标点符号的关系,例如句子”张三喜欢吃苹果。李四喜欢吃梨”。第一个向量v1表示相对距离为1,第二个向量v12表示相对距离为2,以此类推。选择相应的相对距离加到对应词的被编码后的向量上。所述标点状态向量,把句号和分号视为触发器。初始化一些向量,对于词和词之间有0个触发器,用向量x0表示此情况,对于词和词之间有1个触发器,我用向量x1表示此情况,在此句中,“苹”和“三”之间没有触发器,则把x0加到“苹”的编码后的向量上,把x1加到“梨”的编码向量上。添加所述标点状态向量的目的是让模型知道更多语义的信息。比如在此句中,前面的句子的主语是“张三”,后面的主语是“李四”,“梨”是“李四”的客体,所以当在预测“张三”的客体的时候,希望模型知道“张三”和“梨”是没有关系的,于是通过把标点符号信息传递给模型让模型更好地感知到这一点,不要把“梨”也预测成“张张三”的客体了
经过所述第二Bert模型编码后加上可以训练的表示相对距离和标点的状态向量,然后将主体的首向量和尾向量进行平均,得到第三语义向量,并采取相对位置编码确定所述第三语义向量中主体和非主体词之间的相关性,用相关性为主体向量加权,加到词向量上。相关性权重的计算公式如下:
公式(1)作用是算出主体和词之间的相关性,因为主体对应的客体在语义上和主体的关系是很大的,因此希望通过计算出主体和词之间的相关性,并把这种相关性传递给模型,让模型更准确地识别出客体。
其中,表示句子中第i个词和第j个词之间的相关性权重,E表示词编码,指的是第i个词的512维的向量(在这里是平均后的主语向量),Wq和Wk分别为主体和词向量的多头注意力转换矩阵,下标q表示对query进行变换(这里query指的就是平均后的主语向量),Wk表示相对距离,即主体和词之间的距离,u和v为全局向量,用来度量词在整个句子中的重要程度。uT和vT各是512维的向量,含义是表示整个句子。
进一步的,公式(1)的前两项用来计算主体和客体之间的关联大小以及距离大小(因为其中涉及主体向量和词向量的运算,主体向量和表示相对距离的向量间的运算)。公式(1)的后两项,用来计算各个词在整个句子中的重要程度。(因为涉及u和词向量的计算和v对距离向量的计算)
通过上述公式的计算,距离主体越近,和主体在语义上越相关的词将得到更大的相关性权重。通过将表示相对距离和标点的状态向量和已经经过注意力计算相关性并加权的主体向量加到最初的非主体词向量上形成最终的词向量表示,模型能够更准确地感知句子中词相对于一个特定主体的客体属性。
进一步的,将计算得到的相关性与主题向量的乘积添加到所述第三语义向量对应的向量中,得到目标语义向量,所述目标语义向量拼接上所述第二全链接层用所述第二sigmoid激活函数输出概率值,基于所述概率值确定所述目标客体的起始位置和所述目标客体的结束位置,以及所述目标关系的起始位置和所述目标关系的结束位置,基于对应起始位置和结束位置分别确定所述目标客体和所述目标关系,对应的起始位置或者结束位置采用采用one-hot编码,对于正确位置的词,比如“苹果”的苹是客体的开头词,果那么就在预测客体开始位置的标签中把其打上1值,优选的,所述目标客体和所述目标关系至少为一组。
针对所述预测客体和关系模型进行举例,例如待抽取文本为“《月光奏鸣曲》是贝多芬创作的”,这个句子的前面拼接上了“贝多芬”这个先前预测出来的目标主体,同上所述,所述第二Bert模型的编码过程实质上是让句子中的每一个词去注意其上下文的词的信息从而获得其在句子中的信息,在所述预测客体和关系模型中,想要预测出《月光奏鸣曲》这个客体,在模型所述预测客体和关系模型的计算过程中,会去注意”贝多芬”这个目标主体的信息,从而在最后的编码的向量中,就包含了其是“贝多芬”的目标主体这一信息,从而可以进行预测。换句话说就是希望所述预测客体和关系模型可以预测出“《月光奏鸣曲》是贝多芬创作的”中的每一个词和目标主体“贝多芬”的关系是什么,通过所述第二Bert模型,让句子中的词的编码后的向量中能够包含这一信息,从而进行预测。针对目标关系的预测:用多个仿射函数来实现不同关系的预测。主体和客体间的关系可能是多样的,比如:“作曲”关系,“导演”关系等,对于每种关系,都进行半指针的方式进行客体的预测,即对于输出的编码后的向量采用仿射函数将其变为1维,然后经过softmax函数转化为0到1的概率值来判断其是否为客体的开头词或者结尾词,这就是对一种关系的客体预测方式。具体来说,针对“作曲”关系,准备了两个仿射函数进行客体预测,针对“导演”关系,我们也准备了相应的两个仿射函数进行客体预测,以此类推。
损失函数使用了多分类交叉熵,训练方法采用了Adam算法。多分类交叉熵计算公式:
其中:H(p)表示损失函数,C表示分类的种类数目,p(xi)表示x为第i类的真实的概率,q(xi)表示模型计算出的x为第i类的概率。
通过该方法,随着模型的训练,损失函数的减小,模型预测出的概率会逐渐逼近真实的概率。
本发明实施例中,Bert模型是基于大量文本数据训练完成的预训练模型,在多项语言任务重都取得了优秀的成绩,本模型用Bert来抽取主语能够实现较高的准确率。另外,创造性地提出了先验知识和预训练模型知识的融合,具体来说,会预先准备可训练的一些状态向量,这些向量用来表示距离以及词与词之间的标点符号信息,在预测主语所对应的客体以及其关系时,当预训练模型完成对句子中词的编码后,会将这些状态向量和词向量相加,同时为了让模型感知更多的非主体词向量和主体向量之间的关系,本发明使用相对位置编码计算出词向量和主体向量间的相关性,将相关性和主体向量相乘加到词向量上,使得词向量和主体向量的信息进一步结合,促进模型更准确地感知词向量的客体属性,再让模型去判别这些词是否是客体。这样做的逻辑是,在一个句子中,一个主体对应的客体往往有多个不同的位置,如何确定客体真正的位置是一个难题,而在语义中,与主体的距离越近的客体越有可能是真正的客体,另外主体和客体之间的标点符号也表达了句子的信息,比如一个客体A和一个主体之间存在句号,另一个客体B和该主体间是逗号,那么B更有可能是该主体对应的客体。通过加入这些先验知识,模型能够获得更多地关于特定主语和其他词语的关系,因此能够更好地识别出目标客体和目标关系。
本发明公开了一种信息抽取方法,包括:接收待抽取文本,将待抽取文本中的各个字转换为第一目标输入向量;将第一目标输入向量传递给主体抽取模型进行抽取,得到目标主体,其中,主提抽取模型基于第一Bert模型、第一全连接层和第一sigmoid函数构建;将目标主体与待抽取文本进行拼接,将拼接后的文本转化为第二目标输入向量;将第二目标输入向量传递给预测客体和关系模型进行抽取,得到目标客体和目标关系,其中,预测客体和关系模型基于第二Bert模型、第二全连接层、第二sigmoid函数、相对距离、标点状态向量和主体向量构建。上述过程,基于主体抽取模型和预测客体和关系模型对目标主体、目标客体和目标关系,基于模型进行抽取保证了抽取的准确率,由于不需要人工参与,节省了人力。
本发明实施例中,为了保证抽取结果的准确性,可以选取多组主体抽取模型和预测客体和关系模型对待抽取文本进行抽取,得到多个三元组的组合,进一步的,对各个三元组进行筛选,筛选出满足要求的待预测三元组,所述待预测三元组至少为一个,本发明实施例中,筛选规则可以为相同的三元组达到预设数量或者预设百分比阈值等,对具体的筛选规则不进行限定。
进一步的,将所述待预测三元组传递给三元组预测模型,得到所述待预测三元组合理性概率,其中,所述三元组预测模型基于第三Bert模型、第三全连接层和第三sigmoid函数构建,所述三元组预测模型具体的处理过程如下:
将所述待预测三元组主客体和其关系拼接到所述待抽取前,传入所述第三Bert进行编码,然后传入所述第三全链接层和所述第三sigmoid激活函数,用第一个字符<CLS>的输出值代表其合理性概率,在各个合理性概率中选取概率值大于预设概率阈值的待预测三元组作为所述目标三元组,所述预设概率阈值可以基于经验或者具体情况进行设定,优选的,所述预设概率阈值为0.5,基于上述的处理过程,进一步保证了三原组抽取的准确性。
本发明实施例中,所述第一Bert模型,所述第二Bert模型和所述第三Bert模型可以相同也可以不同,本发明实施例中不进行具体限定,进一步的,所述第一全连接层、所述第二全连接层和所述第三全连接层和所述第一sigmoid函数、第二sigmoid函数和第三sigmoid函数与Bert模型的限定相同,在此不再赘述。
本发明实施中所述抽取方法使用了预训练语言模型BERT作为词嵌入层,用它对原始文本进行编码产生包含上下文信息的动态字向量,并且本发明通过提取出句子中的先验信息,比如词与主体间的相对位置,词与主体间的标点符号的状况,词与主体的语义上的相关性,将这些信息融合到词向量中,能够增加模型对句子语义结构的感知能力,帮助模型更准确地提取出三元组。上述抽取方法能够处理绝大部分的复杂三元组的情况,包括客体相同主体不同的三元组,主体相同客体不同的三元组,以及主客体都相同但是关系不同的三元组,这能够大大提高模型对三元组的抽取能力,减少信息的损失。
基于上述的一种信息抽取方法,本发明实施例中,还提供了一种信息抽取装置,所述抽取装置的结构框图如图2所示,包括:
第一转换模块201、第一抽取模块202、第二转换模块203和第二抽取模块204。
其中,
所述第一转换模块201,用于接收待抽取文本,将所述待抽取文本中转换为第一目标输入向量;
所述第一抽取模块202,用于将所述第一目标输入向量传递给主体抽取模型进行抽取,得到目标主体,其中,所述主提抽取模型基于第一Bert模型、第一全连接层和第一sigmoid函数构建;
所述第二转换模块203,用于将所述目标主体与所述待抽取文本进行拼接,将拼接后的文本转化为第二目标输入向量;
所述第二抽取模块204,用于将所述第二目标输入向量传递给预测客体和关系模型进行抽取,得到目标客体和目标关系,其中,所述预测客体和关系模型基于第二Bert模型、第二全连接层、第二sigmoid函数、相对距离、标点状态向量和主体向量构建。
本发明公开了一种信息抽取装置,包括:接收待抽取文本,将待抽取文本中的各个字转换为第一目标输入向量;将第一目标输入向量传递给主体抽取模型进行抽取,得到目标主体,其中,主提抽取模型基于第一Bert模型、第一全连接层和第一sigmoid函数构建;将目标主体与待抽取文本进行拼接,将拼接后的文本转化为第二目标输入向量;将第二目标输入向量传递给预测客体和关系模型进行抽取,得到目标客体和目标关系,其中,预测客体和关系模型基于第二Bert模型、第二全连接层、第二sigmoid函数、相对距离、标点状态向量和主体向量构建。上述过程,基于主体抽取模型和预测客体和关系模型对目标主体、目标客体和目标关系,基于模型进行抽取保证了抽取的准确率,由于不需要人工参与,节省了人力。
本发明实施例中,所述第一抽取模块201包括:
分词单元205、转换单元206和叠加单元207。
其中,
所述分词单元205,用于将所述待抽取文本按字的粒度进行分词,得到各个字;
所述转换单元206,用于将每个字转换为内容表示向量和位置表示向量;
所述叠加单元207,用于将所述内容表示向量和所述位置标识向量进行叠加,得到第一目标输入向量。
本发明实施例中,所述第一抽取模块202包括:
第一计算单元208和第一预测单元209。
其中,
所述第一计算单元208,用于将所述第一目标输入向量传递给所述第一Bert模型,得到第一语义向量;
所述第一预测单元209,用于将所述第一语义向量传递给所述第一全连接层的所述第一sigmoid函数,预测所述待抽取文本中目标主体。
本发明实施例中,所述第二抽取模块203包括:
第二计算单元210、第一添加单元211、第二添加单元212和第二预测单元213。
其中,
所述第二计算单元210,用于将所述得让目标输入向量传递给所述第二Bert模型,得到第二语义向量;
所述第一添加单元211,用于将所述第二语义向量中添加所述相对距离、所述标点状态向量和所述主体向量,得到第三语义向量;
所述第二添加单元212,用于确定所述第三语义向量中主体词和非主体词的相关性,将所述相关性与所述主体向量的乘积添加到对应的第三语义向量中,得到目标语义向量;
所述第二预测单元213,用于将所述目标语义向量传递给所述第二全连接层的所述第二sigmoid函数,预测所述待抽取文本中目标客体和目标关系。
本发明实施例中,所述舟曲装置还包括:所述主体抽取模型和所述预测客体和关系模型至少为一个;
获取模块214、第一选取模块215、预测模块216和第二选取模块217。
其中,
所述获取模块214,用于获取各个三元组,其中,所述三元组包括:目标主体、目标客体和目标关系;
所述第一选取模块215,用于在所述各个三元组中选取待预测三元组;
所述预测模块216,用于将所述待预测三元组传递给三元组预测模型,得到所述待预测三元组合理性概率,其中,所述三元组预测模型基于第三Bert模型、第三全连接层和第三sigmoid函数构建;
所述第二选取模块217,在各个合理性概率中选取概率值大于预设概率阈值的待预测三元组作为所述目标三元组。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种信息抽取方法,其特征在于,包括:
接收待抽取文本,将所述待抽取文本中转换为第一目标输入向量;
将所述第一目标输入向量传递给主体抽取模型进行抽取,得到目标主体,其中,所述主提抽取模型基于第一Bert模型、第一全连接层和第一sigmoid函数构建;
将所述目标主体与所述待抽取文本进行拼接,将拼接后的文本转化为第二目标输入向量;
将所述第二目标输入向量传递给预测客体和关系模型进行抽取,得到目标客体和目标关系,其中,所述预测客体和关系模型基于第二Bert模型、第二全连接层、第二sigmoid函数、相对距离、标点状态向量和主体向量构建。
2.根据权利要求1所述的方法,其特征在于,将所述待抽取文本中转换为第一目标输入向量,包括:
将所述待抽取文本按字的粒度进行分词,得到各个字;
将每个字转换为内容表示向量和位置表示向量;
将所述内容表示向量和所述位置标识向量进行叠加,得到第一目标输入向量。
3.根据权利要求1所述的方法,其特征在于,将所述第一目标输入向量传递给主体抽取模型进行主体抽取,得到目标主体,包括:
将所述第一目标输入向量传递给所述第一Bert模型,得到第一语义向量;
将所述第一语义向量传递给所述第一全连接层的所述第一sigmoid函数,预测所述待抽取文本中目标主体。
4.根据权利要求1所述的方法,其特征在于,将所述第二目标输入向量传递给预测客体和关系模型,得到目标客体和目标关系,包括:
将所述得让目标输入向量传递给所述第二Bert模型,得到第二语义向量;
将所述第二语义向量中添加所述相对距离、所述标点状态向量和所述主体向量,得到第三语义向量;
确定所述第三语义向量中主体词和非主体词的相关性,将所述相关性与所述主体向量的乘积添加到对应的第三语义向量中,得到目标语义向量;
将所述目标语义向量传递给所述第二全连接层的所述第二sigmoid函数,预测所述待抽取文本中目标客体和目标关系。
5.根据权利要求1所述的方法,其特征在于,还包括:所述主体抽取模型和所述预测客体和关系模型至少为一个;
获取各个三元组,其中,所述三元组包括:目标主体、目标客体和目标关系;
在所述各个三元组中选取待预测三元组;
将所述待预测三元组传递给三元组预测模型,得到所述待预测三元组合理性概率,其中,所述三元组预测模型基于第三Bert模型、第三全连接层和第三sigmoid函数构建;
在各个合理性概率中选取概率值大于预设概率阈值的待预测三元组作为所述目标三元组。
6.一种信息抽取装置,其特征在于,包括:
第一转换模块,用于接收待抽取文本,将所述待抽取文本中转换为第一目标输入向量;
第一抽取模块,用于将所述第一目标输入向量传递给主体抽取模型进行抽取,得到目标主体,其中,所述主提抽取模型基于第一Bert模型、第一全连接层和第一sigmoid函数构建;
第二转换模块,用于将所述目标主体与所述待抽取文本进行拼接,将拼接后的文本转化为第二目标输入向量;
第二抽取模块,用于将所述第二目标输入向量传递给预测客体和关系模型进行抽取,得到目标客体和目标关系,其中,所述预测客体和关系模型基于第二Bert模型、第二全连接层、第二sigmoid函数、相对距离、标点状态向量和主体向量构建。
7.根据权利要求6所述的装置,其特征在于,所述第一转换模块包括:
分词单元,用于将所述待抽取文本按字的粒度进行分词,得到各个字;
转换单元,用于将每个字转换为内容表示向量和位置表示向量;
叠加单元,用于将所述内容表示向量和所述位置标识向量进行叠加,得到第一目标输入向量。
8.根据权利要求6所述的装置,其特征在于,所述第一抽取模块包括:
第一计算单元,用于将所述第一目标输入向量传递给所述第一Bert模型,得到第一语义向量;
第一预测单元,用于将所述第一语义向量传递给所述第一全连接层的所述第一sigmoid函数,预测所述待抽取文本中目标主体。
9.根据权利要求6所述的装置,其特征在于,所述第二抽取模块包括:
第二计算单元,用于将所述得让目标输入向量传递给所述第二Bert模型,得到第二语义向量;
第一添加单元,用于将所述第二语义向量中添加所述相对距离、所述标点状态向量和所述主体向量,得到第三语义向量;
第二添加单元,用于确定所述第三语义向量中主体词和非主体词的相关性,将所述相关性与所述主体向量的乘积添加到对应的第三语义向量中,得到目标语义向量;
第二预测单元,用于将所述目标语义向量传递给所述第二全连接层的所述第二sigmoid函数,预测所述待抽取文本中目标客体和目标关系。
10.根据权利要求6所述的装置,其特征在于,还包括:所述主体抽取模型和所述预测客体和关系模型至少为一个;
获取模块,用于获取各个三元组,其中,所述三元组包括:目标主体、目标客体和目标关系;
第一选取模块,用于在所述各个三元组中选取待预测三元组;
预测模块,用于将所述待预测三元组传递给三元组预测模型,得到所述待预测三元组合理性概率,其中,所述三元组预测模型基于第三Bert模型、第三全连接层和第三sigmoid函数构建;
第二选取模块,在各个合理性概率中选取概率值大于预设概率阈值的待预测三元组作为所述目标三元组。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110924432.1A CN113609855A (zh) | 2021-08-12 | 2021-08-12 | 一种信息抽取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110924432.1A CN113609855A (zh) | 2021-08-12 | 2021-08-12 | 一种信息抽取方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113609855A true CN113609855A (zh) | 2021-11-05 |
Family
ID=78340469
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110924432.1A Pending CN113609855A (zh) | 2021-08-12 | 2021-08-12 | 一种信息抽取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113609855A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111079431A (zh) * | 2019-10-31 | 2020-04-28 | 北京航天云路有限公司 | 一种基于迁移学习的实体关系联合抽取方法 |
CN111476023A (zh) * | 2020-05-22 | 2020-07-31 | 北京明朝万达科技股份有限公司 | 识别实体关系的方法及装置 |
CN111723569A (zh) * | 2020-05-21 | 2020-09-29 | 上海明略人工智能(集团)有限公司 | 一种事件抽取方法、装置和计算机可读存储介质 |
CN111968700A (zh) * | 2020-07-07 | 2020-11-20 | 南京农业大学 | 一种基于bert的水稻表型组学知识图谱关系提取方法及系统 |
CN111967242A (zh) * | 2020-08-17 | 2020-11-20 | 支付宝(杭州)信息技术有限公司 | 一种文本信息的抽取方法、装置及设备 |
CN112199491A (zh) * | 2020-10-14 | 2021-01-08 | 中国科学院计算技术研究所厦门数据智能研究院 | 一种基于bert与先验知识特征的关系五元组抽取方法 |
CN112560484A (zh) * | 2020-11-09 | 2021-03-26 | 武汉数博科技有限责任公司 | 一种改进bert训练模型及一种命名实体识别方法、系统 |
CN113128203A (zh) * | 2021-03-30 | 2021-07-16 | 北京工业大学 | 基于注意力机制的关系抽取方法、系统、设备及存储介质 |
CN113239700A (zh) * | 2021-04-27 | 2021-08-10 | 哈尔滨理工大学 | 改进bert的文本语义匹配设备、系统、方法及存储介质 |
-
2021
- 2021-08-12 CN CN202110924432.1A patent/CN113609855A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111079431A (zh) * | 2019-10-31 | 2020-04-28 | 北京航天云路有限公司 | 一种基于迁移学习的实体关系联合抽取方法 |
CN111723569A (zh) * | 2020-05-21 | 2020-09-29 | 上海明略人工智能(集团)有限公司 | 一种事件抽取方法、装置和计算机可读存储介质 |
CN111476023A (zh) * | 2020-05-22 | 2020-07-31 | 北京明朝万达科技股份有限公司 | 识别实体关系的方法及装置 |
CN111968700A (zh) * | 2020-07-07 | 2020-11-20 | 南京农业大学 | 一种基于bert的水稻表型组学知识图谱关系提取方法及系统 |
CN111967242A (zh) * | 2020-08-17 | 2020-11-20 | 支付宝(杭州)信息技术有限公司 | 一种文本信息的抽取方法、装置及设备 |
CN112199491A (zh) * | 2020-10-14 | 2021-01-08 | 中国科学院计算技术研究所厦门数据智能研究院 | 一种基于bert与先验知识特征的关系五元组抽取方法 |
CN112560484A (zh) * | 2020-11-09 | 2021-03-26 | 武汉数博科技有限责任公司 | 一种改进bert训练模型及一种命名实体识别方法、系统 |
CN113128203A (zh) * | 2021-03-30 | 2021-07-16 | 北京工业大学 | 基于注意力机制的关系抽取方法、系统、设备及存储介质 |
CN113239700A (zh) * | 2021-04-27 | 2021-08-10 | 哈尔滨理工大学 | 改进bert的文本语义匹配设备、系统、方法及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113627447B (zh) | 标签识别方法、装置、计算机设备、存储介质及程序产品 | |
CN112434535B (zh) | 基于多模型的要素抽取方法、装置、设备及存储介质 | |
CN112241626A (zh) | 一种语义匹配、语义相似度模型训练方法及装置 | |
CN112463968B (zh) | 文本分类方法、装置和电子设备 | |
CN114510570A (zh) | 基于小样本语料的意图分类方法、装置及计算机设备 | |
CN110377733A (zh) | 一种基于文本的情绪识别方法、终端设备及介质 | |
CN116228383A (zh) | 风险预测方法及装置、存储介质和电子设备 | |
CN115374845A (zh) | 商品信息推理方法和装置 | |
CN116680386A (zh) | 基于多轮对话的答案预测方法和装置、设备、存储介质 | |
CN114898156A (zh) | 基于跨模态语义表征学习和融合的图像分类方法及系统 | |
CN107967304A (zh) | 会话交互处理方法、装置及电子设备 | |
CN114692624A (zh) | 一种基于多任务迁移的信息抽取方法、装置及电子设备 | |
CN114648005B (zh) | 一种多任务联合学习的多片段机器阅读理解方法及装置 | |
CN116401372A (zh) | 知识图谱表示学习方法、装置、电子设备及可读存储介质 | |
CN112818688B (zh) | 文本处理方法、装置、设备及存储介质 | |
CN113704466B (zh) | 基于迭代网络的文本多标签分类方法、装置及电子设备 | |
CN113609855A (zh) | 一种信息抽取方法及装置 | |
CN115994524A (zh) | 表格预训练模型的训练方法、装置、设备及介质 | |
CN111783453B (zh) | 文本的情感信息处理方法及装置 | |
CN110633476B (zh) | 用于获取知识标注信息的方法及装置 | |
CN114254622A (zh) | 一种意图识别方法和装置 | |
CN113392190A (zh) | 一种文本识别方法、相关设备及装置 | |
CN115329183A (zh) | 数据处理方法、装置、存储介质及设备 | |
CN114792086A (zh) | 一种支持文本交叉覆盖的信息抽取方法、装置、设备和介质 | |
CN112417260A (zh) | 本地化推荐方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |