CN110334217A - 一种要素抽取方法、装置、设备及存储介质 - Google Patents
一种要素抽取方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN110334217A CN110334217A CN201910387302.1A CN201910387302A CN110334217A CN 110334217 A CN110334217 A CN 110334217A CN 201910387302 A CN201910387302 A CN 201910387302A CN 110334217 A CN110334217 A CN 110334217A
- Authority
- CN
- China
- Prior art keywords
- word
- target
- probability
- target text
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种要素抽取方法、装置、设备及存储介质,其中,方法包括:获取目标文本以及基于要素抽取需求定义的要素标签;从目标文本中抽取要素标签对应的目标要素内容;从目标文本中抽取与目标要素内容相匹配的对象指代词,作为要素标签对应的目标对象指代词;将由要素标签和要素标签对应的目标要素内容和目标对象指代词组成的三元组,确定为目标文本的要素抽取结果。本申请提供的要素抽取方法能够自动、高效、准确地从目标文本中抽取出要素。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种要素抽取方法、装置、设备及存储介质。
背景技术
在某些时候,基于数据分析需求,需要从一些文本中抽取一些要素,比如,在司法领域,对于法官、检察官、公安等公检法一线工作人员来说,办案的任何一个环节都离不开大量卷宗(比如起诉书、询问笔录、讯问笔录、庭审笔录、判决书等)的处理,为了了解案情,工作人员往往需要反复阅读大量的卷宗,从中获取案情要素(即与案情相关的内容)。
目前,文本中要素的抽取大多由人工阅读完成,然而,人工抽取要素费时费力,即人工抽取方式的人工成本和时间成本较高,并且,人工抽取方式受主观因素(比如抽取人员的经验、状态等)影响,导致抽取的要素可能不准确。
发明内容
有鉴于此,本发明提供了一种要素抽取方法、装置、设备及存储介质,用以解决现有的人工抽取方式人工成本和时间成本较高,且抽取的要素可能不准确的问题,其技术方案如下:
一种要素抽取方法,包括:
获取目标文本以及基于要素抽取需求定义的要素标签;
从所述目标文本中抽取所述要素标签对应的目标要素内容;
从所述目标文本中抽取与所述目标要素内容相匹配的对象指代词,作为所述要素标签对应的目标对象指代词;
将由所述要素标签和所述要素标签对应的目标要素内容和目标对象指代词组成的三元组确定为所述目标文本的要素抽取结果。
可选的,所述从所述目标文本中抽取所述要素标签对应的目标要素内容,包括:
基于所述要素标签与所述目标文本中各个词的语义关系,从所述目标文本中抽取所述要素标签对应的目标要素内容。
可选的,所述基于所述要素标签与所述目标文本中各个词的语义关系,从所述目标文本中抽取所述要素标签对应的目标要素内容,包括:
利用预先建立的要素抽取模型,根据所述要素标签与所述目标文本中各个词的语义关系,确定所述目标文本中每个词对应的起始位置概率和结束位置概率,其中,任一词对应的起始位置概率和结束位置概率分别为该词为所述目标要素内容的起始位置和结束位置的概率,所述要素抽取模型采用标注有要素标签、要素标签对应的要素内容的训练文本训练得到;
基于所述目标文本中每个词对应的起始位置概率和结束位置概率,从所述目标文本中确定所述要素标签对应的目标要素内容。
可选的,所述利用预先建立的要素抽取模型,根据所述要素标签与所述目标文本中各个词的语义关系,确定所述目标文本中每个词对应的起始位置概率和结束位置概率,包括:
通过所述要素抽取模型的第一语义向量确定模块,确定所述要素标签与所述目标文本中各个词对应的第一语义向量,任一词对应的第一语义向量包含该词自身的语义信息;
通过所述要素抽取模型的第二语义向量确定模块,根据所述要素标签与所述目标文本中各个词对应的第一语义向量,确定所述要素标签与所述目标文本中各个词对应的第二语义向量,任一词对应的第二语义向量包含该词的上下文信息;
通过所述要素抽取模型的第一注意力模块,根据所述要素标签与所述目标文本中各个词对应的第二语义向量,确定所述目标文本中各个词对应的第三语义向量,任一词对应的第三语义向量能够表征该词与所述要素标签的语义相关程度;
通过所述要素抽取模型的第二注意力模块,根据所述目标文本中各个词对应的第三语义向量,确定所述目标文本中各个词对应的第四语义向量,任一词对应的第四语义向量能够表征该词与所述目标文本中其它词的依赖关系;
通过所述要素抽取模型的要素信息确定模块,根据所述目标文本中各个词对应的第四语义向量,确定所述目标文本中每个词对应的起始位置概率和结束位置概率。
可选的,所述基于所述目标文本中每个词对应的起始位置概率和结束位置概率,从所述目标文本中确定所述要素标签对应的目标要素内容,包括:
基于所述目标文本中每个词对应的起始位置概率和结束位置概率,从所述目标文本中筛选出预设个候选起始位置词和预设个候选结束位置词,其中,任一词对应的起始位置概率和结束位置概率分别为该词为所述目标要素内容的起始位置词和结束位置词的概率;
将所述预设个候选起始位置词与所述预设个候选结束位置词进行配对,获得多个由一候选起始位置词和一候选结束位置词组成的候选位置词对;
根据多个候选位置词对分别对应的概率,从所述目标文本中确定所述要素标签对应的目标要素内容,其中,任一候选位置词对对应的概率通过该候选位置词对中候选起始位置词对应的起始位置概率和候选结束位置词对应的结束位置概率确定。
可选的,所述根据多个候选位置词对分别对应的概率,从所述目标文本中确定所述要素标签对应的目标要素内容,包括:
若所述多个候选位置词对分别对应的概率中的最大概率小于或等于预设的无要素阈值,则确定所述目标文本中不存在所述要素标签对应的目标要素内容;
若所述多个候选位置词对分别对应的概率中的最大概率大于所述无要素阈值,则基于所述多个候选位置词对分别对应的概率,从多个候选位置词对中确定目标位置词对,并基于所述目标位置词对从所述目标文本中获得所述要素标签对应的目标要素内容。
可选的,所述对所述预设个候选起始位置词与所述预设个候选结束位置词进行配对,包括:
基于所述预设个候选起始位置词与所述预设个候选结束位置词在所述目标文本中的位置,按预设的配对准则对所述预设个候选起始位置词与所述预设个候选结束位置词进行配对;
其中,所述配对准则为:候选起始位置词在候选结束位置词之前,且候选起始位置词与候选结束位置词之间的距离最近。
可选的,所述基于所述多个候选位置词对分别对应的概率,从多个候选位置词对中确定目标位置词对,包括:
将概率小于所述无要素阈值的候选位置词对从所述多个候选位置词对中去除,获得剩余候选位置词对;
将概率小于所述多个候选位置词对分别对应的概率中的最大概率的预设百分比的候选位置词对去除,剩余的候选位置词对作为所述目标位置词对。
可选的,所述从所述目标文本中抽取与所述目标要素内容相匹配的对象指代词,包括:
从所述目标文本中抽取所有的对象指代词;
将抽取的所有对象指代词两两组合,获得至少一个对象指代词组;
将每个对象代词组与所述目标要素内容进行匹配,获得每个对象指代词组对应的匹配结果,其中,任一对象指代词组对应的匹配结果能够指示该对象指代词组中与所述目标要素内容相匹配的对象指代词,或者指示该对象指代词组中不存在与所述目标要素内容相匹配的对象指代词;
通过每个对象指代词组对应的匹配结果,确定与所述目标要素内容相匹配的对象指代词。
可选的,所述将每个对象代词组与所述目标要素内容进行匹配,获得每个对象指代词组对应的匹配结果,包括:
对于任一对象指代词组:
获取目标段落,所述目标段落为所述目标文本中包含该对象指代词组中的两个对象指代词以及所述目标要素内容的一个段落或者多个连续段落;
基于该对象指代词组中两个对象指代词的位置,按至少一种切分方式对所述目标段落进行切分,获得至少一个包括三部分的切分结果;其中,一种切换方式对应一个切分结果,所述切分结果的数量由该对象指代词组中每个对象指代词在所述目标段落中出现的次数决定;
将每个切分结果的三个部分输入预先建立的、用于对要素内容与对象指代词进行匹配的匹配模型,获得针对每个切分结果的匹配结果;其中,所述匹配模型采用标注有要素内容和与要素内容相配的对象指代词的训练文本训练的得到;
从所述针对各个切分结果的匹配结果中,确定该对象指代词组对应的匹配结果;
以得到每个对象指代词组对应的匹配结果。
可选的,所述将每个切分结果的三部分输入预先建立的、用于对要素内容与对象指代词进行匹配的匹配模型,获得针对每个切分结果的匹配结果将切分得到的多个部分输入预先建立的、用于对要素内容与对象指代词进行匹配的匹配模型,获得该对象指代词组对应的匹配结果,包括:
针对任一切分结果:
通过所述匹配模型的词表征模块,确定该切分结果的每个部分中每个词的词表征向量,其中,任一词的词表征向量由该词自身的表征向量和该词相对于所述目标要素内容的起始位置词的位置向量拼接而成;
通过所述匹配模型的段落语义向量确定模块,根据该切分结果的每个部分中每个词的词表征向量,确定每个部分的语义向量,并通过每个部分的语义向量确定所述目标段落的语义向量;
通过所述匹配模型的对象指代词确定模块,根据所述目标段落的语义向量,确定该对象指代词组对应的概率,并通过该对象指代词组对应的概率确定针对该切分结果的匹配结果;其中,该对象指代词组对应的概率包括该对象指代词组中的两个对象指代词分别与所述目标要素内容相匹配的概率、所述两个对象指代词均与所述目标要素内容相匹配的概率,以及所述两个对象指代词均与所述目标要素内容不匹配的概率。
一种要素抽取装置,包括:获取模块、要素内容抽取模块、对象指代词抽取模块和抽取结果确定模块;
所述获取模块,用于获取目标文本以及基于要素抽取需求定义的要素标签;
所述要素内容抽取模块,用于从所述目标文本中抽取所述要素标签对应的目标要素内容;
所述对象指代词抽取模块,用于从所述目标文本中抽取与所述目标要素内容相匹配的对象指代词,作为所述要素标签对应的目标对象指代词;
所述抽取结果确定模块,用于将由所述要素标签以及所述要素标签对应的目标要素内容和目标对象指代词组成的三元组,确定为所述目标文本的要素抽取结果。
一种要素抽取设备,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现所述要素抽取方法的各个步骤。
一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现所述要素抽取方法的各个步骤。
经由上述方案可知,本申请提供的要素抽取方法、装置、设备及存储介质,首先获取待抽取要素的目标文本以及基于要素抽取需求定义的要素标签,然后从目标文本中抽取要素标签对应的目标要素内容,接着从目标文本中抽取与目标要素内容相匹配的对象指代词,从而获得要素标签对应的目标对象指代词,进而可获得目标文本的要素抽取结果,即由要素标签和要素标签对应的目标要素内容和目标对象代词组成的三元组。本申请提供的要素抽取方法能够基于要素抽取需求自动对目标文本进行要素抽取,相较于人工抽取方式,节省了人工成本,降低了要素抽取的耗时,节约了时间成本,且避免了主观因素对抽取结果的影响,提高了要素抽取的准确度,即本申请提供的要素抽取方法能够自动、高效、准确地从目标文本中抽取出要素。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的要素抽取方法的一流程示意图;
图2为本申请实施例提供的盗窃罪判别书的案情要素标签体系的示意图;
图3为本申请实施例提供的基于要素标签与目标文本中各个词的语义关系,从目标文本中抽取要素标签对应的目标要素内容的流程示意图;
图4为本申请实施例的要素抽取模型的一拓扑结构的示意图;
图5为本申请实施例提供的基于目标文本中每个词对应的起始位置概率和结束位置概率,从目标文本中确定要素标签对应的目标要素内容的流程示意图;
图6为本申请实施例提供的从目标文本中抽取与目标要素内容相匹配的对象指代词的流程示意图;
图7为本申请实施例提供的将一对象代词组与目标要素内容进行匹配的流程示意图;
图8为本申请实施例提供的用于将目标要素内容与对象指代词进行匹配的匹配模型的拓扑结构一示例的示意图;
图9为本申请实施例提供的要素抽取装置的结构示意图;
图10为本申请实施例提供的要素抽取设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
鉴于现有技术中人工抽取方式存在的问题,本案发明人进行了研究:
起初的思路是,采用基于规则的要素抽取方法,然而,该方法需要设计较多的规则,这个过程需要大量人工介入,且该方法的适用范围较小,只适用于形式比较固定的文本(比如,司法领域的起诉状,或者与起诉状类似,书写形式非常固定的法律文书)。
鉴于基于规则的要素抽取方法存在的问题,本案发明人继续进行研究,提出了基于机器学习的要素抽取方法,该方法通过传统的机器学习方法,人工设定许多特征,然而,对于不同类的文本,需要设计不同的特征和不同的要素抽取系统,以司法领域的法律文书为例,对于不同案由、不同文书类型的法律文书,需要设计不同的要素抽取系统,由此可见,基于机器学习的要素抽取方法依然存在人工介入较多且不具通用性的问题。
鉴于上述方案存在的问题,本案发明人进一步进行了深入研究,最终提供了一种效果较好的要素抽取方法,该方法适用于需要从文本中抽取要素的应用场景,比如,适用于司法领域的法律文书中案情要素的抽取,该方法能够自动、高效、准确地从文本中抽取要素,该要素抽取方法可应用于终端,也可应用于服务器。接下来通过下述实施例对本申请提供的要素抽取方法进行介绍。
请参阅图1,示出了本申请实施例提供的要素抽取方法的流程示意图,该方法可以包括:
步骤S101:获取目标文本以及基于要素抽取需求定义的要素标签。
其中,目标文本可以为司法领域的各种法律文书,比如,起诉书、判决书、庭审笔录、询问笔录、讯问笔录等,需要说明的是,本实施例并不限定目标文本为司法领域的法律文本,还可以为其它领域有要素提取需求的文本。
其中,要素标签用于指示需要从目标文本中抽取哪些要素,要素标签可以为一个,也可以为多个。若目标文本为法律文书,则要素标签为基于案情要素需求定义的案情要素标签,案情要素标签可由法律专家根据公检法各个机关工作人员的案情要素需求定义,示例性的,请参阅图2,示出了盗窃罪判决书的案情要素标签体系。
步骤S102:从目标文本中抽取要素标签对应的目标要素内容。
示例性的,目标文本的内容包括“今年的3月12日上午11点,陈X平和谭X洋在解放路公交车站伺机偷窃,最终陈X平窃得一只浅色的女式的包,得手后装入谭X洋携带的黑色的旅行包。”,假设要素标签为“作案时间”、“作案地点”、“所窃赃物”和“作案工具”,则“作案时间”对应的要素内容为“今年的3月12日上午11点”,“作案地点”对应的要素内容为“解放路公交车站”,“所窃赃物”对应的要素内容为“一只浅色的女式的包”,“作案工具”对应的要素内容为“黑色的旅行包”。
步骤S103:从目标文本中抽取与目标要素内容相匹配的对象指代词,作为要素标签对应的目标对象指代词。
在获得要素标签对应的目标要素内容后,还需要从目标文本中抽取与目标要素内容相匹配的对象指代词,需要说明的是,与目标要素内容相匹配的对象指代词指的是目标要素内容指代的对象或者完成目标要素内容的对象。在上述示例中,“作案工具”对应的要素内容为“黑色的旅行包”,与“黑色的旅行包”相匹配的对象指代词为“谭X洋”。
步骤S104:将由要素标签和要素标签对应的目标要素内容和目标对象指代词组成的三元组,确定为目标文本的要素抽取结果。
在本实施例中,可将三元组(目标对象指代词,要素标签,目标要素内容)作为目标文本的要素抽取结果。
本申请实施例提供的要素抽取方法,首先获取待抽取要素的目标文本以及基于要素抽取需求定义的要素标签,然后从目标文本中抽取与要素标签对应的目标要素内容,接着从目标文本中抽取与目标要素内容相匹配的对象指代词,从而获得要素标签对应的目标对象指代词,由此可获得要素抽取结果(目标对象指代词,要素标签,目标要素内容)。一方面,本申请实施例提供的要素抽取方法能够基于要素抽取需求自动对目标文本进行要素抽取,相较于人工抽取要素的方式,节省了人工成本、大大降低了时间成本,且避免了主观因素对抽取结果的影响,提高了要素抽取的准确度,另一方面,本申请实施例提供的要素抽取方法适用范围较广(比如,适用于司法领域各种案由、各种类型的法律文本),即通用性较强。
在本申请的另一实施例中,对上述实施例中的“步骤S102:从目标文本中抽取要素标签对应的目标要素内容”进行介绍。
从目标文本中抽取要素标签对应的目标要素内容的实现方式有多种,在一种可能的实现方式中,可将要素抽取问题设定为对目标文本中每个词的分类问题,即先用标注有要素标签的训练文本(训练文本中的每个词标注对应的要素标签)训练一分类器,然后利用训练得到的分类器对目标文本中的每个词分类,获得每个词对应的要素标签,然后将对应同一要素标签的词拼接起来作为该要素标签对应的要素内容。然而,上述实现方式会由于要素内容相互覆盖而出现同一个词对应有多个要素标签的情况,当这种情况出现时,会导致要素内容抽取无法完成。
鉴于上述实现方式存在的问题,本申请实施例提供了另一种较优的要素内容抽取方式,即基于语义匹配策略的要素内容抽取方式,具体地,基于要素标签与目标文本中各个词的语义关系,从目标文本中抽取要素标签对应的目标要素内容。
请参阅图3,示出了基于要素标签与目标文本中各个词的语义关系,从目标文本中抽取要素标签对应的目标要素内容的实现过程的流程示意图,可以包括:
步骤S301:利用预先建立的要素抽取模型,根据要素标签与目标文本中各个词的语义关系,确定目标文本中每个词对应的起始位置概率和结束位置概率。
其中,要素标签与目标文本中各个词的语义关系可以为要素标签与目标文本中各个词的语义相似度信息。目标文本中任一词对应的起始位置概率和结束位置概率分别为该词为目标要素内容的起始位置和结束位置的概率。要素抽取模型采用标注有要素标签、要素标签对应的要素内容的训练文本训练得到。
具体的,将要素标签与目标文本输入预先建立的要素抽取模型,获得要素抽取模型根据要素标签与目标文本中各个词的语义关系确定的、目标文本中每个词对应的起始位置概率和结束位置概率。
前面提到,要素标签可以为一个,也可以为多个,若要素标签为一个,则直接将该要素标签与目标文本输入要素抽取模型,若要素标签为多个,则分多次输入,即每次输入目标文本和一要素标签。同样的,在训练阶段,将一个训练文本和一个要素标签作为一条训练数据,即要素抽取模型每次处理一个文本和一个要素标签。
请参阅图4,示出了要素抽取模型的一拓扑结构的示意图,其可以包括第一语义向量确定模块401、第二语义向量确定模块402、第一注意力模块403、第二注意力模块404和要素信息确定模块405,则,利用上述的要素抽取模型,根据要素标签与目标文本中各个词的语义关系,确定目标文本中每个词对应的起始位置概率和结束位置概率的过程可以包括:
步骤S3011、通过要素抽取模型的第一语义向量确定模块,确定要素标签与目标文本中各个词对应的第一语义向量。
其中,任一词对应的第一语义向量包含该词自身的语义信息。
可选的,第一语义向量确定模块可以包括字符级别的词表征模型(比如字符级别的卷积神经网络Char CNN)和词级别的词表征模型(比如Word embedding),要素标签与目标文本依次经字符级别的词表征模型、词级别的词表征模型,可获得要素标签与目标文本中各个词的第一表征向量,考虑到前述的词表征模型因训练数据过少导致其无法对有些词进行较好的表征(比如,盗窃案中“刀片”是常见的作案工具,但是“撬棒”这种很少出现的物品,词表征模型在训练集中难以学会其描述),基于此,第一语义向量确定模块还可以包括ELMo模型,要素标签与目标文本经ELMo模型,可获得要素标签与目标文本中各个词的第二表征向量,要素标签与目标文本中各个词的第一表征向量与第二表征向量拼接,作为各个词对应的第一语义向量。
步骤S3012、通过要素抽取模型的第二语义向量确定模块,根据要素标签与目标文本中各个词对应的第一语义向量,确定要素标签与目标文本中各个词对应的第二语义向量。
其中,任一词对应的第二语义向量包含该词的上下文信息,具体的,要素标签中每个词对应的第二语义向量包含该词在要素标签的上下文信息,目标文本中每个词对应的第一语义向量包含该词在目标文本的上下文信息。可选的,第二语义向量确定模块可以但不限为循环神经网络RNN、长短时记忆网络LSTM或者GRU(GRU为LSTM的变体)。
步骤S3013、通过要素抽取模型的第一注意力模块,根据要素标签与目标文本中各个词对应的第二语义向量,确定目标文本中各个词对应的第三语义向量。
其中,任一词对应的第三语义向量能够表征该词与要素标签的语义相关程度。
需要说明的是,根据要素标签与目标文本中各个词对应的第二语义向量,确定目标文本中各个词对应的第三语义向量的过程相当于带着要素标签在目标文本中寻找相关描述。
步骤S3014、通过要素抽取模型的第二注意力模块,根据目标文本中各个词对应的第三语义向量,确定目标文本中各个词对应的第四语义向量。
其中,任一词对应的第四语义向量能够表征该词与目标文本中其它词的依赖关系。
步骤S3015、通过要素抽取模型的要素信息确定模块,根据目标文本中各个词对应的第四语义向量,确定目标文本中每个词对应的起始位置概率和结束位置概率。
步骤S302:基于目标文本中每个词对应的起始位置概率和结束位置概率,从目标文本中确定要素标签对应的目标要素内容。
请参阅图5,示出了步骤S302的实现过程的流程示意图,可以包括:
步骤S501:基于目标文本中每个词对应的起始位置概率和结束位置概率,从目标文本中筛选出预设个候选起始位置词和预设个候选结束位置词。
其中,预设个候选起始位置词分别对应的起始位置概率均大于目标文本中其它词对应的起始位置概率,同样的,预设个候选结束位置词分别对应的结束位置概率均大于目标文本中其它词对应的结束位置概率。
可选的,可将目标文本中各个词对应的起始位置概率降序排序,然后选取前预设个起始位置概率分别对应的词作为预设个候选起始位置词,同样的方式可获得预设个候选结束位置词,比如,将目标文本中起始位置概率排名前5的词作为候选起始位置词,将结束位置概率排名前5的词作为候选结束位置词。
步骤S502:将预设个候选起始位置词与预设个候选结束位置词进行配对,获得多个由一候选起始位置词和一候选结束位置词组成的候选位置词对。
具体的,可基于预设个候选起始位置词与预设个候选结束位置词在目标文本中的位置,按预设的配对准则对预设个候选起始位置词与预设个候选结束位置词进行配对。其中,配对准则为:候选起始位置词在候选结束位置词之前,且候选起始位置词与候选结束位置词之间的距离最近。
可选的,基于预设个候选起始位置词与预设个候选结束位置词在目标文本中的位置,按预设的配对准则对预设个候选起始位置词与预设个候选结束位置词进行配对的过程包括:从预设个候选起始位置词中获取一未获取过的候选起始位置词作为待配对词,从未与候选起始位置词成功配对的候选结束位置词中,查找位于待配对词之后,且距离待配对词最近的候选结束位置词,若查找到,则将查找到的候选结束位置词与待配对词组成一个候选位置词对,然后执行从预设个候选起始位置词中获取一未获取过的候选起始位置词作为待配对词,直至预设个候选起始位置词中不存在未获取过的候选起始位置词。
需要说明的是,上述配对过程是将候选起始位置词作为待配对词,在另一种可能的实现方式中,还可将候选结束位置词作为待配对词,其配对过程与上述配对过程类似,不同之处在于,需要查找位于待配对词之前,且距离待配对词最近的候选起始位置词。另外,经上述配对过程获得的候选位置词对的个数小于或等于预设个。
步骤S503:根据多个候选位置词对分别对应的概率,从目标文本中确定要素标签对应的目标要素内容。
其中,任一候选位置词对对应的概率通过该候选位置词对中候选起始位置词对应的起始位置概率和候选结束位置词对应的结束位置概率确定。可选的,任一候选位置词对对应的概率可以为该候选位置词对中候选起始位置词对应的起始位置概率与候选结束位置词对应的结束位置概率的和,还可以为该候选位置词对中候选起始位置词对应的起始位置概率与候选结束位置词对应的结束位置概率的乘积。
具体的,根据多个候选位置词对分别对应的概率,从目标文本中确定要素标签对应的目标要素内容的过程可以包括:若多个候选位置词对分别对应的概率中的最大概率小于或等于预设的无要素阈值,则确定目标文本中不存在要素标签对应的目标要素内容;若多个候选位置词对分别对应的概率中的最大概率大于无要素阈值,则基于多个候选位置词对分别对应的概率,从多个候选位置词对中确定目标位置词对,并基于目标位置词对从目标文本中获得要素标签对应的目标要素内容。
需要说明的是,在某些时候,可能存在一个要素标签对应多个要素内容的情况,比如,被告人的家庭情况中,所描述的亲人有多个,有鉴于此,本实施例并不直接将多个候选位置词对中概率最高的候选位置词对作为目标位置词对,而是基于多个候选位置词对分别对应的概率,采用下述方式从多个候选位置词对中确定目标位置词对:将概率小于无要素阈值的候选位置词对从多个候选位置词对中去除,获得剩余候选位置词对;将概率小于多个候选位置词对分别对应的概率中的最大概率的预设百分比(比如30%)的候选位置词对去除,剩余的候选位置词对作为目标位置词对。
在获得目标位置词对后,将目标文本中以目标位置词对中的起始位置词为起始位置、以结束位置词为结束位置的文本内容确定为要素标签对应的目标要素内容。示例性的,目标文本为“今年的3月12日上午11点左右,陈X平和谭X洋在解放路公交车站伺机偷窃,最终陈X平窃得一只浅色的女式的包,得手后装入谭X洋携带的黑色的旅行包”,假设要素标签为“作案时间”,目标位置词对为(今年,左右),则“作案时间”对应的要素内容为“今年的3月12日上午11点左右”。
在本申请的另一实施例中,对上述实施例中的“步骤S103:从目标文本中抽取与目标要素内容相匹配的对象指代词,作为要素标签对应的目标对象指代词”进行介绍。
请参阅图6,示出了从目标文本中抽取与目标要素内容相匹配的对象指代词的过程可以包括:
步骤S601:从目标文本中抽取所有的对象指代词。
可选的,可利用LTP等自然语言工具和正则表达式,从目标文本中抽取所有的对象指代词。
步骤S602:将抽取的所有对象指代词两两组合,获得至少一个对象指代词组。
示例性的,对象指代词包括A、B、C,将A、B、C两两组合,可获得(A,B)、(A,C)、(B、C)三个对象指代词组。
步骤S603:将每个对象指代词组与目标要素内容进行匹配,获得每个对象指代词组对应的匹配结果。
其中,任一对象指代词组对应的匹配结果能够指示该对象指代词组中与目标要素内容相匹配的对象指代词,或者指示该对象指代词组中不存在与目标要素内容相匹配的对象指代词。
步骤S604:通过每个对象指代词组对应的匹配结果,确定与目标要素内容相匹配的对象指代词。
示例性的,对象指代词组包括(A,B)、(A,C)、(B、C),若(A,B)中的A与目标要素内容相匹配,(A,C)中的A与目标要素内容相匹配,(B、C)中不存在与目标要素内容相匹配的对象指代词,则确定A为与目标要素内容相匹配的对象指代词。
以下对上述的“步骤S603:将每个对象指代词组与目标要素内容进行匹配,获得每个对象指代词组对应的匹配结果”进行介绍。由于各个对象指代词组与目标要素内容进行匹配的过程类似,以下以一个对象代词组与目标要素内容进行匹配为例对匹配过程进行说明。
请参阅图7,示出了将一对象代词组与目标要素内容进行匹配的实现过程的流程示意图,可以包括:
步骤S701:获取目标段落。
其中,目标段落为目标文本中包含对象指代词组中的两个对象指代词以及目标要素内容的一个段落或者多个连续段落。
步骤S702:基于对象指代词组中两个对象指代词的位置,按至少一种切分方式对目标段落进行切分,获得至少一个包括三部分的切分结果。
其中,一种切分方式对应一个切分结果。切分结果的数量由对象指代词组中每个对象指代词在目标段落中出现的次数决定,若对象指代词组中的两个对象指代词在目标段落中均出现一次,则获得一个切分结果,若对象指代词组中的至少一个对象指代词在目标段落中出现多次,则获得多个切分结果。
示例性的,目标段落为“今年的3月12日上午11点,陈X平和谭X洋在解放路公交车站伺机偷窃,最终陈X平窃得一只浅色的女式的包,得手后装入谭X洋携带的黑色的旅行包”,假设对象指代词组为“陈X平”和“谭X洋”,则基于“陈X平”和“谭X洋”的位置,可获得如下四个切分结果:
(1)今年的3月12日上午11点,陈X平/和谭X洋/在解放路公交车站伺机偷窃,最终陈X平窃得一只浅色的女式的包,得手后装入谭X洋携带的黑色的旅行包。
(2)今年的3月12日上午11点,陈X平/和谭X洋在解放路公交车站伺机偷窃,最终陈X平窃得一只浅色的女式的包,得手后装入谭X洋/携带的黑色的旅行包。
(3)今年的3月12日上午11点,陈X平和谭X洋在解放路公交车站伺机偷窃,最终陈X平/窃得一只浅色的女式的包,得手后装入谭X洋/携带的黑色的旅行包。
(4)今年的3月12日上午11点,陈X平和谭X洋/在解放路公交车站伺机偷窃,最终陈X平/窃得一只浅色的女式的包,得手后装入谭X洋携带的黑色的旅行包。
步骤S703:将每个切分结果的三部分输入预先建立的、用于对要素内容与对象指代词进行匹配的匹配模型,获得针对每个切分结果的匹配结果。
针对任一切分结果的匹配结果用于指示,针对该切分结果,是否存在与目标要素内容相匹配的对象指代词,以及当存在与目标要素内容相匹配的对象指代词时,与目标要素内容相匹配的对象指代词为哪个。
其中,匹配模型采用标注有要素内容和与要素内容相匹配的对象指代词的训练文本训练的得到。
具体的,将任一切分结果输入匹配模型,获得针对该切分结果的匹配结果的实现过程可以包括:
步骤S7031、通过匹配模型的词表征模块,确定该切分结果的每个部分中每个词的词表征向量。
其中,任一词的词表征向量由该词自身的表征向量和该词相对于目标要素内容的起始位置词的位置向量拼接而成,该词自身的表征向量可以为该词的word embedding表示,该词相对于目标要素内容的起始位置词的位置向量为由该词与目标要素内容的起始位置词的距离转换而来的向量。
步骤S7032、通过匹配模型的段落语义向量确定模块,根据该切分结果的每个部分中每个词的词表征向量确定每个部分的语义向量,并通过每个部分的语义向量确定目标段落的语义向量。
请参阅图8,示出了匹配模型的一拓扑结构的一示例的示意图,匹配模型的段落语义向量确定模块可以包括卷积层、池化层和前馈层,卷积层对该切分结果的每部分中每个词对应的词表征向量做卷积操作,以获得每个部分中每个词的特征向量,池化层对卷积层输出的特征向量进行池化操作,以获得每个部分的语义向量,各个部分的语义向量合并起来后输入前馈层,从而获得目标段落的语义向量。
步骤S7033、通过匹配模型的对象指代词确定模块,根据目标段落的语义向量,确定该对象指代词组对应的概率,并通过该对象指代词组对应的概率确定针对该切分结果的匹配结果。
需要说明的是,对于任一对象指代词组而言,将其与目标要素内容进行匹配,可能存在四种情况:第一种情况为,该对象指代词组中的第一对象指代词与目标要素内容相匹配,第二种情况为,该对象指代词组中的第二对象指代词与目标要素内容相匹配,第三种情况为,该对象代词组中的两个对象代词均与目标要素内容相匹配,第四种情况为,该对象代词组中的两个对象代词均与目标要素内容不相匹配,基于此,本实施例通过匹配模型的对象指代词确定模块确定对象指代词组中的第一对象指代词与目标要素内容相匹配的概率、对象指代词组中的第二对象指代词与目标要素内容相匹配的概率、对象指代词组中的两个对象指代词均与目标要素内容相匹配的概率,以及对象指代词组中的两个对象指代词均与目标要素内容不匹配的概率,进而通过上述四个概率中的最大概率获得针对该切分结果的匹配结果,假设第一对象指代词与目标要素内容相匹配的概率最大,则确定针对该切分结果的匹配结果为第一对象指代词,即第一对象指代词与目标要素内容相匹配。
匹配模型的对象指代词确定模块可以为图8中的输出层,在本实施例中,可针对上述四种情况定义四个类别,比如可用“1”(对应上述第一种情况)、“2”(对应上述第二种情况)、“3”(对应上述第三种情况)、“4”(对应上述第四种情况)代表4个类别,目标段落的段落内容表征向量输入输出层,通过输出层确定对象指代词组中的两个对象指代词分别与目标要素内容相匹配的概率、两个对象指代词均与要素内容相匹配的概率,以及两个对象指代词均与要素内容不匹配的概率,并基于上述概率中的最大概率输出上述四个类别中的一个类别,假设输出层输出3,则可确定与目标要素内容相匹配的对象指代词为两个对象指代词。
步骤S704:从针对各个切分结果的匹配结果中,确定该对象指代词对应的匹配结果。
具体的,基于针对各个切分结果的匹配结果对应的概率,从针对各个切分结果的匹配结果中确定该对象指代词对应的匹配结果,进一步的,将概率最大的匹配结果作为该对象指代词对应的匹配结果。
本申请实施例提供的要素抽取方法,一方面,能够基于要素抽取需求自动对目标文本进行要素抽取,相较于人工抽取要素的方式,节省了人工成本、降低了要素抽取的耗时,节约了时间成本,且避免了主观因素对抽取结果的影响,提高了要素抽取的准确度,另一方面,适用范围较广(比如,适用于司法领域各种案由、各种类型的法律文本),即通用性较强。
本申请实施例还提供了一种要素抽取装置,下面对本申请实施例提供的要素抽取装置进行描述,下文描述的要素抽取装置与上文描述的要素抽取方法可相互对应参照。
请参阅图9,示出了本申请实施例提供的一种要素抽取装置的结构示意图,该要素抽取装置可以包括:获取模块901、要素内容抽取模块902和对象指代词抽取模块903和抽取结果确定模块904。
获取模块901,用于获取目标文本以及基于要素抽取需求定义的要素标签。
要素内容抽取模块902,用于从目标文本中抽取要素标签对应的目标要素内容。
对象指代词抽取模块903,用于从目标文本中抽取与目标要素内容相匹配的对象指代词,作为要素标签对应的目标对象指代词。
抽取结果确定模块904,用于将由要素标签以及要素标签对应的目标要素内容和目标对象指代词组成的三元组,确定为目标文本的要素抽取结果。
本申请实施例提供的要素抽取装置,一方面,能够基于要素抽取需求自动对目标文本进行要素抽取,相较于人工抽取要素的方式,节省了人工成本、降低了要素抽取的耗时,节约了时间成本,且避免了主观因素对抽取结果的影响,提高了要素抽取的准确度,另一方面,该装置适用范围较广(比如,适用于司法领域各种案由、各种类型的法律文本),即通用性较强。
在一种可能的实现方式中,上述实施例提供的要素抽取装置中的要素内容抽取模块902,具体用于基于要素标签与目标文本中各个词的语义关系,从目标文本中抽取要素标签对应的目标要素内容。
在一种可能的实现方式中,上述实施例提供的要素抽取装置中的要素内容抽取模块902,包括:匹配模块和要素内容确定模块。
匹配模块,用于利用预先建立的要素抽取模型,根据要素标签与目标文本中各个词的语义关系,确定目标文本中每个词对应的起始位置概率和结束位置概率。
其中,任一词对应的起始位置概率和结束位置概率分别为该词为目标要素内容的起始位置和结束位置的概率,要素抽取模型采用标注有要素标签、要素标签对应的要素内容的训练文本训练得到;
要素内容确定模块,用于基于目标文本中每个词对应的起始位置概率和结束位置概率,从目标文本中确定要素标签对应的目标要素内容。
在一种可能的实现方式中,匹配模块,具体用于通过要素抽取模型的第一语义向量确定模块,确定要素标签与目标文本中各个词对应的第一语义向量,任一词对应的第一语义向量包含该词自身的语义信息;通过要素抽取模型的第二语义向量确定模块,根据要素标签与目标文本中各个词对应的第一语义向量,确定要素标签与目标文本中各个词对应的第二语义向量,任一词对应的第二语义向量包含该词的上下文信息;通过要素抽取模型的第一注意力模块,根据要素标签与目标文本中各个词对应的第二语义向量,确定目标文本中各个词对应的第三语义向量,任一词对应的第三语义向量能够表征该词与要素标签的语义相关程度;通过要素抽取模型的第二注意力模块,根据目标文本中各个词对应的第三语义向量,确定目标文本中各个词对应的第四语义向量,任一词对应的第四语义向量能够表征该词与目标文本中其它词的依赖关系;通过要素抽取模型的要素信息确定模块,根据目标文本中各个词对应的第四语义向量,确定目标文本中每个词对应的起始位置概率和结束位置概率。
在一种可能的实现方式中,要素内容确定模块包括:候选位置词筛选子模块、词配对子模块和要素内容确定子模块。
候选位置词筛选子模块,用于基于目标文本中每个词对应的起始位置概率和结束位置概率,从目标文本中筛选出预设个候选起始位置词和预设个候选结束位置词。
其中,任一词对应的起始位置概率和结束位置概率分别为该词为目标要素内容的起始位置词和结束位置词的概率。
词配对子模块,用于将预设个候选起始位置词与预设个候选结束位置词进行配对,获得多个由一候选起始位置词和一候选结束位置词组成的候选位置词对。
要素内容确定子模块,用于根据多个候选位置词对分别对应的概率,从目标文本中确定要素标签对应的目标要素内容,其中,任一候选位置词对对应的概率通过该候选位置词对中候选起始位置词对应的起始位置概率和候选结束位置词对应的结束位置概率确定。
在一种可能的实现方式中,词配对子模块,具体用于基于预设个候选起始位置词与预设个候选结束位置词在目标文本中的位置,按预设的配对准则对预设个候选起始位置词与预设个候选结束位置词进行配对。
其中,配对准则为:候选起始位置词在候选结束位置词之前,且候选起始位置词与候选结束位置词之间的距离最近。
在一种可能的实现方式中,要素内容确定子模块,具体用于若多个候选位置词对分别对应的概率中的最大概率小于或等于预设的无要素阈值,则确定目标文本中不存在要素标签对应的目标要素内容;若多个候选位置词对分别对应的概率中的最大概率大于无要素阈值,则基于多个候选位置词对分别对应的概率,从多个候选位置词对中确定目标位置词对,并基于目标位置词对从目标文本中获得要素标签对应的目标要素内容。
在一种可能的实现方式中,要素内容确定子模块,在基于多个候选位置词对分别对应的概率,从多个候选位置词对中确定目标位置词对时,具体用于将概率小于无要素阈值的候选位置词对从多个候选位置词对中去除,获得剩余候选位置词对;将概率小于多个候选位置词对分别对应的概率中的最大概率的预设百分比的候选位置词对去除,剩余的候选位置词对作为目标位置词对。
在一种可能的实现方式中,上述实施例提供的要素抽取装置中的对象指代词抽取模块903可以包括:对象指代词获取模块、对象指代词组合模块、对象代词组与目标要素内容匹配模块和匹配指代词确定模块。
对象指代词获取模块,用于从目标文本中抽取所有的对象指代词。
对象指代词组合模块,用于将抽取的所有对象指代词两两组合,获得至少一个对象指代词组。
对象代词组与目标要素内容匹配模块,用于将每个对象代词组与目标要素内容进行匹配,获得每个对象指代词组对应的匹配结果。
其中,任一对象指代词组对应的匹配结果能够指示该对象指代词组中与目标要素内容相匹配的对象指代词,或者指示该对象指代词组中不存在与目标要素内容相匹配的对象指代词。
匹配指代词确定模块,用于通过每个对象指代词组对应的匹配结果,确定与目标要素内容相匹配的对象指代词。
在一种可能的实现方式中,对象代词组与目标要素内容匹配模块包括:获取子模块、切分子模块、匹配子模块和确定子模块。
获取子模块,用于对于任一对象指代词组,获取目标段落,所述目标段落为所述目标文本中包含该对象指代词组中的两个对象指代词以及所述目标要素内容的一个段落或者多个连续段落;
切分子模块,用于基于该对象指代词组中两个对象指代词的位置,按至少一种切分方式对所述目标段落进行切分,获得至少一个包括三部分的切分结果;其中,一种切换方式对应一个切分结果,所述切分结果的数量由该对象指代词组中每个对象指代词在所述目标段落中出现的次数决定。
匹配子模块,用于将每个切分结果的三个部分输入预先建立的、用于对要素内容与对象指代词进行匹配的匹配模型,获得针对每个切分结果的匹配结果;其中,所述匹配模型采用标注有要素内容和与要素内容相配的对象指代词的训练文本训练的得到。
确定子模块,用于从针对各个切分结果的匹配结果中,确定该对象指代词组对应的匹配结果。
在一种可能的实现方式中,匹配子模块,具体用于针对任一切分结果:
通过所述匹配模型的词表征模块,确定该切分结果的每个部分中每个词的词表征向量,其中,任一词的词表征向量由该词自身的表征向量和该词相对于所述目标要素内容的起始位置词的位置向量拼接而成;通过所述匹配模型的段落语义向量确定模块,根据该切分结果的每个部分中每个词的词表征向量,确定每个部分的语义向量,并通过每个部分的语义向量确定所述目标段落的语义向量;通过所述匹配模型的对象指代词确定模块,根据所述目标段落的语义向量,确定该对象指代词组对应的概率,并通过该对象指代词组对应的概率确定针对该切分结果的匹配结果;其中,该对象指代词组对应的概率包括该对象指代词组中的两个对象指代词分别与所述目标要素内容相匹配的概率、所述两个对象指代词均与所述目标要素内容相匹配的概率,以及所述两个对象指代词均与所述要素内容不匹配的概率。
本申请实施例还提供了一种要素抽取设备,请参阅图10,示出了该要素抽取设备的结构示意图,该要素抽取设备可以包括:至少一个处理器1001,至少一个通信接口1002,至少一个存储器1003和至少一个通信总线1004;
在本申请实施例中,处理器1001、通信接口1002、存储器1003、通信总线1004的数量为至少一个,且处理器1001、通信接口1002、存储器1003通过通信总线1004完成相互间的通信;
处理器1001可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器1003可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
获取目标文本以及基于要素抽取需求定义的要素标签;
从目标文本中抽取所述要素标签对应的目标要素内容;
从目标文本中抽取与所述目标要素内容相匹配的对象指代词,作为要素标签对应的目标对象指代词;
将由要素标签和要素标签对应的目标要素内容和目标对象指代词组成的三元组确定为目标文本的要素抽取结果。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种可读存储介质,该可读存储介质可存储有适于处理器执行的程序,所述程序用于:
获取目标文本以及基于要素抽取需求定义的要素标签;
从目标文本中抽取所述要素标签对应的目标要素内容;
从目标文本中抽取与所述目标要素内容相匹配的对象指代词,作为要素标签对应的目标对象指代词;
将由要素标签和所述要素标签对应的目标要素内容和目标对象指代词组成的三元组确定为目标文本的要素抽取结果。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (14)
1.一种要素抽取方法,其特征在于,包括:
获取目标文本以及基于要素抽取需求定义的要素标签;
从所述目标文本中抽取所述要素标签对应的目标要素内容;
从所述目标文本中抽取与所述目标要素内容相匹配的对象指代词,作为所述要素标签对应的目标对象指代词;
将由所述要素标签和所述要素标签对应的目标要素内容和目标对象指代词组成的三元组确定为所述目标文本的要素抽取结果。
2.根据权利要求1所述的要素抽取方法,其特征在于,所述从所述目标文本中抽取所述要素标签对应的目标要素内容,包括:
基于所述要素标签与所述目标文本中各个词的语义关系,从所述目标文本中抽取所述要素标签对应的目标要素内容。
3.根据权利要求2所述的要素抽取方法,其特征在于,所述基于所述要素标签与所述目标文本中各个词的语义关系,从所述目标文本中抽取所述要素标签对应的目标要素内容,包括:
利用预先建立的要素抽取模型,根据所述要素标签与所述目标文本中各个词的语义关系,确定所述目标文本中每个词对应的起始位置概率和结束位置概率,其中,任一词对应的起始位置概率和结束位置概率分别为该词为所述目标要素内容的起始位置和结束位置的概率,所述要素抽取模型采用标注有要素标签、要素标签对应的要素内容的训练文本训练得到;
基于所述目标文本中每个词对应的起始位置概率和结束位置概率,从所述目标文本中确定所述要素标签对应的目标要素内容。
4.根据权利要求3所述的要素抽取方法,其特征在于,所述利用预先建立的要素抽取模型,根据所述要素标签与所述目标文本中各个词的语义关系,确定所述目标文本中每个词对应的起始位置概率和结束位置概率,包括:
通过所述要素抽取模型的第一语义向量确定模块,确定所述要素标签与所述目标文本中各个词对应的第一语义向量,任一词对应的第一语义向量包含该词自身的语义信息;
通过所述要素抽取模型的第二语义向量确定模块,根据所述要素标签与所述目标文本中各个词对应的第一语义向量,确定所述要素标签与所述目标文本中各个词对应的第二语义向量,任一词对应的第二语义向量包含该词的上下文信息;
通过所述要素抽取模型的第一注意力模块,根据所述要素标签与所述目标文本中各个词对应的第二语义向量,确定所述目标文本中各个词对应的第三语义向量,任一词对应的第三语义向量能够表征该词与所述要素标签的语义相关程度;
通过所述要素抽取模型的第二注意力模块,根据所述目标文本中各个词对应的第三语义向量,确定所述目标文本中各个词对应的第四语义向量,任一词对应的第四语义向量能够表征该词与所述目标文本中其它词的依赖关系;
通过所述要素抽取模型的要素信息确定模块,根据所述目标文本中各个词对应的第四语义向量,确定所述目标文本中每个词对应的起始位置概率和结束位置概率。
5.根据权利要求3所述的要素抽取方法,其特征在于,所述基于所述目标文本中每个词对应的起始位置概率和结束位置概率,从所述目标文本中确定所述要素标签对应的目标要素内容,包括:
基于所述目标文本中每个词对应的起始位置概率和结束位置概率,从所述目标文本中筛选出预设个候选起始位置词和预设个候选结束位置词;
将所述预设个候选起始位置词与所述预设个候选结束位置词进行配对,获得多个由一候选起始位置词和一候选结束位置词组成的候选位置词对;
根据多个候选位置词对分别对应的概率,从所述目标文本中确定所述要素标签对应的目标要素内容,其中,任一候选位置词对对应的概率通过该候选位置词对中候选起始位置词对应的起始位置概率和候选结束位置词对应的结束位置概率确定。
6.根据权利要求5所述的要素抽取方法,其特征在于,所述根据多个候选位置词对分别对应的概率,从所述目标文本中确定所述要素标签对应的目标要素内容,包括:
若所述多个候选位置词对分别对应的概率中的最大概率小于或等于预设的无要素阈值,则确定所述目标文本中不存在所述要素标签对应的目标要素内容;
若所述多个候选位置词对分别对应的概率中的最大概率大于所述无要素阈值,则基于所述多个候选位置词对分别对应的概率,从多个候选位置词对中确定目标位置词对,并基于所述目标位置词对从所述目标文本中获得所述要素标签对应的目标要素内容。
7.根据权利要求5所述的要素抽取方法,其特征在于,所述对所述预设个候选起始位置词与所述预设个候选结束位置词进行配对,包括:
基于所述预设个候选起始位置词与所述预设个候选结束位置词在所述目标文本中的位置,按预设的配对准则对所述预设个候选起始位置词与所述预设个候选结束位置词进行配对;
其中,所述配对准则为:候选起始位置词在候选结束位置词之前,且候选起始位置词与候选结束位置词之间的距离最近。
8.根据权利要求6所述的要素抽取方法,其特征在于,所述基于所述多个候选位置词对分别对应的概率,从多个候选位置词对中确定目标位置词对,包括:
将概率小于所述无要素阈值的候选位置词对从所述多个候选位置词对中去除,获得剩余候选位置词对;
将概率小于所述多个候选位置词对分别对应的概率中的最大概率的预设百分比的候选位置词对去除,剩余的候选位置词对作为所述目标位置词对。
9.根据权利要求1所述的要素抽取方法,其特征在于,所述从所述目标文本中抽取与所述目标要素内容相匹配的对象指代词,包括:
从所述目标文本中抽取所有的对象指代词;
将抽取的所有对象指代词两两组合,获得至少一个对象指代词组;
将每个对象代词组与所述目标要素内容进行匹配,获得每个对象指代词组对应的匹配结果,其中,任一对象指代词组对应的匹配结果能够指示该对象指代词组中与所述目标要素内容相匹配的对象指代词,或者指示该对象指代词组中不存在与所述目标要素内容相匹配的对象指代词;
通过每个对象指代词组对应的匹配结果,确定与所述目标要素内容相匹配的对象指代词。
10.根据权利要求9所述的要素抽取方法,其特征在于,所述将每个对象代词组与所述目标要素内容进行匹配,获得每个对象指代词组对应的匹配结果,包括:
对于任一对象指代词组:
获取目标段落,所述目标段落为所述目标文本中包含该对象指代词组中的两个对象指代词以及所述目标要素内容的一个段落或者多个连续段落;
基于该对象指代词组中两个对象指代词的位置,按至少一种切分方式对所述目标段落进行切分,获得至少一个包括三部分的切分结果;其中,一种切换方式对应一个切分结果,所述切分结果的数量由该对象指代词组中每个对象指代词在所述目标段落中出现的次数决定;
将每个切分结果的三个部分输入预先建立的、用于对要素内容与对象指代词进行匹配的匹配模型,获得针对每个切分结果的匹配结果;其中,所述匹配模型采用标注有要素内容和与要素内容相配的对象指代词的训练文本训练的得到;
从针对各个切分结果的匹配结果中,确定该对象指代词组对应的匹配结果;
以得到每个对象指代词组对应的匹配结果。
11.根据权利要求10所述的要素抽取方法,其特征在于,所述将每个切分结果的三部分输入预先建立的、用于对要素内容与对象指代词进行匹配的匹配模型,获得针对每个切分结果的匹配结果,包括:
针对任一切分结果:
通过所述匹配模型的词表征模块,确定该切分结果的每个部分中每个词的词表征向量,其中,任一词的词表征向量由该词自身的表征向量和该词相对于所述目标要素内容的起始位置词的位置向量拼接而成;
通过所述匹配模型的段落语义向量确定模块,根据该切分结果的每个部分中每个词的词表征向量,确定每个部分的语义向量,并通过每个部分的语义向量确定所述目标段落的语义向量;
通过所述匹配模型的对象指代词确定模块,根据所述目标段落的语义向量,确定该对象指代词组对应的概率,并通过该对象指代词组对应的概率确定针对该切分结果的匹配结果;其中,该对象指代词组对应的概率包括该对象指代词组中的两个对象指代词分别与所述目标要素内容相匹配的概率、所述两个对象指代词均与所述目标要素内容相匹配的概率,以及所述两个对象指代词均与所述目标要素内容不匹配的概率;
以得到所述针对每个切分结果的匹配结果。
12.一种要素抽取装置,其特征在于,包括:获取模块、要素内容抽取模块、对象指代词抽取模块和抽取结果确定模块;
所述获取模块,用于获取目标文本以及基于要素抽取需求定义的要素标签;
所述要素内容抽取模块,用于从所述目标文本中抽取所述要素标签对应的目标要素内容;
所述对象指代词抽取模块,用于从所述目标文本中抽取与所述目标要素内容相匹配的对象指代词,作为所述要素标签对应的目标对象指代词;
所述抽取结果确定模块,用于将由所述要素标签以及所述要素标签对应的目标要素内容和目标对象指代词组成的三元组,确定为所述目标文本的要素抽取结果。
13.一种要素抽取设备,其特征在于,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1~11中任一项所述的要素抽取方法的各个步骤。
14.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1~11中任一项所述的要素抽取方法的各个步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910387302.1A CN110334217B (zh) | 2019-05-10 | 2019-05-10 | 一种要素抽取方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910387302.1A CN110334217B (zh) | 2019-05-10 | 2019-05-10 | 一种要素抽取方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110334217A true CN110334217A (zh) | 2019-10-15 |
CN110334217B CN110334217B (zh) | 2021-10-08 |
Family
ID=68140155
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910387302.1A Active CN110334217B (zh) | 2019-05-10 | 2019-05-10 | 一种要素抽取方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110334217B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111177319A (zh) * | 2019-12-24 | 2020-05-19 | 中国建设银行股份有限公司 | 风险事件的确定方法、装置、电子设备和存储介质 |
CN111858938A (zh) * | 2020-07-23 | 2020-10-30 | 鼎富智能科技有限公司 | 一种裁判文书标签的提取方法及装置 |
CN112328856A (zh) * | 2020-10-30 | 2021-02-05 | 中国平安人寿保险股份有限公司 | 公共事件追踪方法、装置、计算机设备及计算机可读介质 |
CN112330501A (zh) * | 2020-10-30 | 2021-02-05 | 南京智慧图谱信息技术有限公司 | 一种文书处理方法、装置、电子设备及存储介质 |
CN112800761A (zh) * | 2020-12-25 | 2021-05-14 | 讯飞智元信息科技有限公司 | 信息回填方法及其相关电子设备、存储介质 |
CN112925877A (zh) * | 2019-12-06 | 2021-06-08 | 中国科学院软件研究所 | 一种基于深度度量学习的一人多案关联识别方法及系统 |
CN113157880A (zh) * | 2021-03-25 | 2021-07-23 | 科大讯飞股份有限公司 | 一种要素内容获取方法、装置、设备及存储介质 |
CN114630068A (zh) * | 2020-12-14 | 2022-06-14 | 阿里巴巴集团控股有限公司 | 一种数据处理方法、系统、设备及存储介质 |
WO2022142635A1 (zh) * | 2020-12-28 | 2022-07-07 | 深圳壹账通智能科技有限公司 | 业务信息录入方法、装置、服务器和存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103116448A (zh) * | 2013-01-30 | 2013-05-22 | 浪潮电子信息产业股份有限公司 | 一种可视化信息的抽取方法 |
CN103530281A (zh) * | 2013-10-15 | 2014-01-22 | 苏州大学 | 一种论元抽取方法和系统 |
US20160179933A1 (en) * | 2011-07-22 | 2016-06-23 | Open Text S.A. | Methods, systems, and computer-readable media for semantically enriching content and for semantic navigation |
CN107729480A (zh) * | 2017-10-16 | 2018-02-23 | 北京神州泰岳软件股份有限公司 | 一种限定区域的文本信息抽取方法及装置 |
CN109241528A (zh) * | 2018-08-24 | 2019-01-18 | 讯飞智元信息科技有限公司 | 一种量刑结果预测方法、装置、设备及存储介质 |
CN109582949A (zh) * | 2018-09-14 | 2019-04-05 | 阿里巴巴集团控股有限公司 | 事件元素抽取方法、装置、计算设备及存储介质 |
CN109582789A (zh) * | 2018-11-12 | 2019-04-05 | 北京大学 | 基于语义单元信息的文本多标签分类方法 |
-
2019
- 2019-05-10 CN CN201910387302.1A patent/CN110334217B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160179933A1 (en) * | 2011-07-22 | 2016-06-23 | Open Text S.A. | Methods, systems, and computer-readable media for semantically enriching content and for semantic navigation |
CN103116448A (zh) * | 2013-01-30 | 2013-05-22 | 浪潮电子信息产业股份有限公司 | 一种可视化信息的抽取方法 |
CN103530281A (zh) * | 2013-10-15 | 2014-01-22 | 苏州大学 | 一种论元抽取方法和系统 |
CN107729480A (zh) * | 2017-10-16 | 2018-02-23 | 北京神州泰岳软件股份有限公司 | 一种限定区域的文本信息抽取方法及装置 |
CN109241528A (zh) * | 2018-08-24 | 2019-01-18 | 讯飞智元信息科技有限公司 | 一种量刑结果预测方法、装置、设备及存储介质 |
CN109582949A (zh) * | 2018-09-14 | 2019-04-05 | 阿里巴巴集团控股有限公司 | 事件元素抽取方法、装置、计算设备及存储介质 |
CN109582789A (zh) * | 2018-11-12 | 2019-04-05 | 北京大学 | 基于语义单元信息的文本多标签分类方法 |
Non-Patent Citations (1)
Title |
---|
王凤霞: "比较句识别及观点要素抽取方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112925877A (zh) * | 2019-12-06 | 2021-06-08 | 中国科学院软件研究所 | 一种基于深度度量学习的一人多案关联识别方法及系统 |
CN112925877B (zh) * | 2019-12-06 | 2023-07-07 | 中国科学院软件研究所 | 一种基于深度度量学习的一人多案关联识别方法及系统 |
CN111177319A (zh) * | 2019-12-24 | 2020-05-19 | 中国建设银行股份有限公司 | 风险事件的确定方法、装置、电子设备和存储介质 |
CN111177319B (zh) * | 2019-12-24 | 2024-08-27 | 中国建设银行股份有限公司 | 风险事件的确定方法、装置、电子设备和存储介质 |
CN111858938B (zh) * | 2020-07-23 | 2024-05-24 | 鼎富智能科技有限公司 | 一种裁判文书标签的提取方法及装置 |
CN111858938A (zh) * | 2020-07-23 | 2020-10-30 | 鼎富智能科技有限公司 | 一种裁判文书标签的提取方法及装置 |
CN112328856A (zh) * | 2020-10-30 | 2021-02-05 | 中国平安人寿保险股份有限公司 | 公共事件追踪方法、装置、计算机设备及计算机可读介质 |
CN112330501A (zh) * | 2020-10-30 | 2021-02-05 | 南京智慧图谱信息技术有限公司 | 一种文书处理方法、装置、电子设备及存储介质 |
CN114630068A (zh) * | 2020-12-14 | 2022-06-14 | 阿里巴巴集团控股有限公司 | 一种数据处理方法、系统、设备及存储介质 |
CN112800761A (zh) * | 2020-12-25 | 2021-05-14 | 讯飞智元信息科技有限公司 | 信息回填方法及其相关电子设备、存储介质 |
WO2022142635A1 (zh) * | 2020-12-28 | 2022-07-07 | 深圳壹账通智能科技有限公司 | 业务信息录入方法、装置、服务器和存储介质 |
CN113157880A (zh) * | 2021-03-25 | 2021-07-23 | 科大讯飞股份有限公司 | 一种要素内容获取方法、装置、设备及存储介质 |
CN113157880B (zh) * | 2021-03-25 | 2023-01-17 | 科大讯飞股份有限公司 | 一种要素内容获取方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110334217B (zh) | 2021-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110334217A (zh) | 一种要素抽取方法、装置、设备及存储介质 | |
CN106777275B (zh) | 基于多粒度语义块的实体属性和属性值提取方法 | |
CN103324609B (zh) | 文本校对装置和文本校对方法 | |
CN107436922A (zh) | 文本标签生成方法和装置 | |
CN108334500A (zh) | 一种基于机器学习算法的裁判文书标注方法及装置 | |
CN108664473A (zh) | 文本关键信息的识别方法、电子装置及可读存储介质 | |
CN111767716B (zh) | 企业多级行业信息的确定方法、装置及计算机设备 | |
CN104679728A (zh) | 一种文本相似度检测方法 | |
CN111125354A (zh) | 文本分类方法及装置 | |
CN109241528A (zh) | 一种量刑结果预测方法、装置、设备及存储介质 | |
Yin et al. | Facto: a fact lookup engine based on web tables | |
CN109684476B (zh) | 一种文本分类方法、文本分类装置及终端设备 | |
CN111694927B (zh) | 一种基于改进词移距离算法的文档自动评阅方法 | |
CN107291949A (zh) | 信息搜索方法及装置 | |
CN103577989A (zh) | 一种基于产品识别的信息分类方法及信息分类系统 | |
CN104778186A (zh) | 将商品对象挂载到标准产品单元的方法及系统 | |
CN109255022B (zh) | 一种用于网络文章的摘要自动提取方法 | |
CN108062351A (zh) | 关于特定主题类别的文本摘要提取方法、可读存储介质 | |
CN113468339B (zh) | 基于知识图谱的标签提取方法、系统、电子设备及介质 | |
Shi et al. | Mining chinese reviews | |
CN110610003A (zh) | 用于辅助文本标注的方法和系统 | |
CN105701085B (zh) | 一种网络查重方法及系统 | |
CN110705292A (zh) | 一种基于知识库和深度学习的实体名称提取方法 | |
CN105389303A (zh) | 一种异源语料自动融合方法 | |
CN110929518A (zh) | 一种使用重叠拆分规则的文本序列标注算法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |