CN112527981B - 开放式信息抽取方法、装置、电子设备及存储介质 - Google Patents
开放式信息抽取方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112527981B CN112527981B CN202011312007.9A CN202011312007A CN112527981B CN 112527981 B CN112527981 B CN 112527981B CN 202011312007 A CN202011312007 A CN 202011312007A CN 112527981 B CN112527981 B CN 112527981B
- Authority
- CN
- China
- Prior art keywords
- entity
- type
- relationship
- node
- importance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种开放式信息抽取方法、装置、电子设备及存储介质,其中,该方法包括:根据预设的知识图谱,获取目标技术领域的文档集中每一待提取文档中的候选三元组;根据各待提取文档中的候选三元组,建立图表示模型,根据图表示模型,获取每一待提取文档中每一候选三元组的重要性分值;对于每一待提取文档,根据每一待提取文档中各候选三元组的重要性分值,获取抽取结果。本发明提供的开放式信息抽取方法、装置、电子设备及存储介质,根据从目标技术领域的文档集中提取出的各候选三元组,建立图表示模型,根据图表示模型,获取候选三元组的重要性分值,对待提取文档中的候选三元组进行筛选,获取抽取结果,能提高开放式信息抽取的准确率。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种开放式信息抽取方法、装置、电子设备及存储介质。
背景技术
目前,通用领用的知识图谱已经公开并使用,但其在专业领域的知识覆盖度还不够全面。为了解决知识图谱的知识覆盖度问题,需要进行知识获取。知识获取通常通过信息抽取(Information Extraction,IE)任务实现。
传统的信息抽取方法主要目标是从有限规模数据中获得预定义类型的实体、关系以及事件等信息。随着互联网数据规模的不断扩增,依靠手工标注数据的传统信息抽取方法效果不佳。为克服传统的信息抽取方法的上述不足,开放式信息抽取(Open InformationExtraction,OIE)任务就是面向互联网海量数据处理提出的,其提取的是不限定类型的实体、关系及事件等信息。
传统的中文开放式信息抽取方法,主要是利用无监督的方法,首先利用自然语言处理工具对文本进行分词及词性标注的处理,其次利用句法分析器对句子结构进行分析,在人工制定一系列规则的约束下,结合文本特征,最后获得实体关系三元组(头实体,关系,尾实体)。传统的中文开放式信息抽取方法,单纯依赖现有的分词工具、句法分析器等工具,这些工具存在准确率较低等问题,导致抽取结果的准确率较低。
发明内容
本发明提供一种开放式信息抽取方法、装置、电子设备及存储介质,用以解决现有技术中的抽取结果的准确率较低的缺陷,实现高准确率的开放式信息抽取。
本发明提供一种开放式信息抽取方法,包括:
根据预设的知识图谱,获取目标技术领域的文档集中每一待提取文档中的候选三元组;
根据各所述待提取文档中的候选三元组,建立图表示模型,根据所述图表示模型,获取每一所述待提取文档中每一所述候选三元组的重要性分值;
对于每一待提取文档,根据所述每一待提取文档中各所述候选三元组的重要性分值,获取抽取结果;
其中,所述图表示模型包括关系层、实体层和类型层;所述关系层中的关系节点,表示所述候选三元组中的关系;所述实体层中的实体节点,表示所述候选三元组中的头实体和尾实体;所述类型层中的类型节点,表示所述候选三元组中的头实体和尾实体对应的类型;两个关系节点之间的连接边,用于连接相似度大于预设的第一相似度阈值的两个关系节点;关系节点与实体节点之间的连接边,用于连接表示同一所述候选三元组中的关系和实体的关系节点和实体节点;实体节点与类型节点之间的连接边,用于连接表示每一实体的实体节点和表示所述每一实体对应的类型的类型节点;两个类型节点之间的连接边,用于连接相似度大于预设的第二相似度阈值的两个类型节点。
根据本发明提供的一种开放式信息抽取方法,所述根据所述每一待提取文档中各所述候选三元组的重要性分值,获取抽取结果的具体步骤包括:
获取重要性分值大于预设的分值阈值的所述每一待提取文档中的所述候选三元组,作为所述每一待提取文档的抽取结果。
根据本发明提供的一种开放式信息抽取方法,所述根据各所述待提取文档中的候选三元组,建立图表示模型,根据所述图表示模型,获取每一所述待提取文档中每一所述候选三元组的重要性分值的具体步骤包括:
对于各所述待提取文档中的候选三元组中的每一关系,根据包括所述每一关系的各所述待提取文档中的候选三元组,建立所述图表示模型的第一子模型,根据所述第一子模型和重要性传播算法,获取所述每一关系对应的头实体对应的类型的重要性分值和尾实体对应的类型的重要性分值;
对于每一所述待提取文档,根据所述待提取文档建立所述图表示模型的第二子模型,根据所述第二子模型和所述重要性传播算法,获取所述待提取文档中的各候选三元组中的头实体、尾实体和关系的重要性分值;
对于所述待提取文档中的每一所述候选三元组,根据所述每一关系对应的头实体对应的类型的重要性分值和尾实体对应的类型的重要性分值,获取所述候选三元组中的头实体对应的类型和尾实体对应的类型的重要性分值;
根据所述候选三元组中的头实体、尾实体、关系、头实体对应的类型和尾实体对应的类型的重要性分值,获取所述候选三元组的重要性分值。
根据本发明提供的一种开放式信息抽取方法,所述根据所述第一子模型和重要性传播算法,获取所述每一关系对应的头实体对应的类型的重要性分值和尾实体对应的类型的重要性分值的具体步骤包括:
对于每一类型,根据所述重要性传播算法、所述第一子模型中表示所述每一类型的类型节点连接的各实体节点表示的实体的重要性分值、表示所述每一类型的类型节点的各连接边的权值和表示所述每一类型的类型节点连接的各实体节点连接各类型节点的连接边的权值,进行预设次数的迭代,获取所述每一类型的重要性分值。
根据本发明提供的一种开放式信息抽取方法,所述根据所述第二子模型和所述重要性传播算法,获取所述待提取文档中的各候选三元组中的头实体、尾实体和关系的重要性分值的具体步骤包括:
对于每一实体,根据所述重要性传播算法、所述第二子模型中表示所述每一实体的实体节点连接的各关系节点表示的关系的重要性分值、所述每一实体的实体节点连接的各类型节点表示的类型的重要性分值,表示所述每一实体的实体节点的各连接边的权值、表示所述每一实体的实体节点连接的各关系节点连接各实体节点的连接边的权值和表示所述每一实体对应的各类型节点连接各实体节点的连接边的权值,进行预设次数的迭代,获取所述每一实体的重要性分值;
对于每一关系,根据所述重要性传播算法、所述第二子模型中表示所述每一关系的关系节点连接的各实体节点表示的实体的重要性分值、表示所述每一关系的关系节点的各连接边的权值和表示所述每一关系的关系节点连接的各实体节点连接各关系节点的连接边的权值,进行预设次数的迭代,获取所述每一关系的重要性分值。
根据本发明提供的一种开放式信息抽取方法,所述根据所述重要性传播算法、所述第一子模型中表示所述每一类型的类型节点连接的各实体节点表示的实体的重要性分值、表示所述每一类型的类型节点的各连接边的权值和表示所述每一类型的类型节点连接的各实体节点连接各类型节点的连接边的权值,进行预设次数的迭代,获取所述每一类型的重要性分值的具体步骤包括:
根据上一次迭代所述第一子模型中表示所述每一类型的类型节点连接的各实体节点表示的实体的重要性分值、所述第一子模型中表示所述每一类型的类型节点连接各实体节点的连接边的权值和表示所述每一类型的类型节点连接的各实体节点连接各类型节点的连接边的权值,进行所述预设次数的迭代,获取本次迭代所述每一类型的第一分值,并根据上一次迭代所述每一类型的重要性分值、上一次迭代所述第一子模型中表示所述每一类型的类型节点连接的各类型节点表示的类型的重要性分值、所述第一子模型中表示所述每一类型的类型节点连接各类型节点的连接边的权值,进行所述预设次数的迭代,获取本次迭代所述每一类型的第二分值;
根据最后一次迭代所述每一类型的第一分值和第二分值,获取所述每一类型的重要性分值。
根据本发明提供的一种开放式信息抽取方法,所述对于每一关系,根据所述重要性传播算法、所述第二子模型中表示所述每一关系的关系节点连接的各实体节点表示的实体的重要性分值、表示所述每一关系的关系节点的各连接边的权值和表示所述每一关系的关系节点连接的各实体节点连接各关系节点的连接边的权值,进行预设次数的迭代,获取所述每一关系的重要性分值的具体步骤包括:
根据上一次迭代所述第二子模型中表示所述每一关系的关系节点连接的各实体节点表示的实体的重要性分值、所述第二子模型中表示所述每一关系的关系节点连接各实体节点的连接边的权值和表示所述每一关系的关系节点连接的各实体节点连接各关系节点的连接边的权值,进行所述预设次数的迭代,获取本次迭代所述每一关系的第一分值,并根据上一次迭代所述每一关系的重要性分值、上一次迭代所述第二子模型中表示所述每一关系的关系节点连接的各关系节点表示的关系的重要性分值、所述第二子模型中表示所述每一关系的关系节点连接各关系节点的连接边的权值,进行所述预设次数的迭代,获取本次迭代所述每一关系的第二分值;
根据最后一次迭代的所述每一关系的第一分值和第二分值,获取所述每一关系的重要性分值。
本发明还提供一种开放式信息抽取装置,包括:
三元组提取模块,用于根据预设的知识图谱,获取目标技术领域的文档集中每一待提取文档中的候选三元组;
重要性获取模块,用于根据各所述待提取文档中的候选三元组,建立图表示模型,根据所述图表示模型,获取每一所述待提取文档中每一所述候选三元组的重要性分值;
信息抽取模块,用于对于每一所述待提取文档,根据所述待提取文档中各所述候选三元组的重要性分值,获取抽取结果;
其中,所述图表示模型包括关系层、实体层和类型层;所述关系层中的关系节点,表示所述候选三元组中的关系;所述实体层中的实体节点,表示所述候选三元组中的头实体和尾实体;所述类型层中的类型节点,表示所述候选三元组中的头实体和尾实体对应的类型;两个关系节点之间的连接边,用于连接相似度大于预设的第一相似度阈值的两个关系节点;关系节点与实体节点之间的连接边,用于连接表示同一所述候选三元组中的关系和实体的关系节点和实体节点;实体节点与类型节点之间的连接边,用于连接表示每一实体的实体节点和表示所述每一实体对应的类型的类型节点;两个类型节点之间的连接边,用于连接相似度大于预设的第二相似度阈值的两个类型节点。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述开放式信息抽取方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述开放式信息抽取方法的步骤。
本发明提供的开放式信息抽取方法、装置、电子设备及存储介质,根据从目标技术领域的文档集中提取出的各候选三元组,建立用于捕捉实体、关系及实体的对应类型的相互作用关系的图表示模型,根据图表示模型,获取每一候选三元组的重要性分值,根据重要性分值,对每一待提取文档中的候选三元组进行筛选,获取开放式信息的抽取结果,能提高开放式信息抽取的准确率,并能抽取到更重要的三元组。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的一种开放式信息抽取方法的流程示意图;
图2是本发明提供的一种开放式信息抽取装置的结构示意图;
图3是本发明提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明实施例的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明实施例和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明实施例的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
为了克服现有技术的上述问题,本发明实施例提供一种开放式信息抽取方法、装置、电子设备及存储介质,其发明构思是,采用无监督的方法来避免有监督方法所需的大量标注数据,利用已有知识图谱的信息来补充改进单纯依赖分词工具所带来的大量误差,并通过基于类型知识的图强化模型(GAM)来对获得的候选三元组进行其在专业领域的重要度评判打分,根据重要度分值确定抽取结果,可以获得更为准确且重要的结果。
图1是本发明实施例提供的一种开放式信息抽取方法的流程示意图。下面结合图1描述本发明实施例的开放式信息抽取方法。如图1所示,该方法包括:步骤S101、根据预设的知识图谱,获取目标技术领域的文档集中每一待提取文档中的候选三元组。
具体地,目标技术领域给定的一个文档集D={D1,D2,…,Dl}。其中,D1,D2,…,Dl表示l个待提取文档,l为正整数。
对于每一待提取文档,获取其句子集,从而得到该文档集的句子集S={S1,S2,…,Sk}。其中,k为正整数,表示句子集S包括的句子的总数。
对于该文档集的句子集中的每个句子Si=(w1,w2,…,wp)(1≤i≤p),将其转换为结构化的表示信息,得到S′i=({e1,…,en},{r1,…,rm})。其中,w1,w2,…,wp表示句子Si中的p个词语,p为正整数;e1,…,en表示句子Si中的n个实体,n为正整数;r1,…,rm表示句子Si中的m个关系,m为正整数。
还可以记录每个实体和关系词的位置信息,得到由S′i组成的结构化文档。
预设的知识图谱,为涵盖了该目标技术领域的知识的知识图谱。
根据预设的知识图谱,获取每一待提取文档中的实体和关系,根据该待提取文档中的实体和关系,获取由头实体、关系和尾实体构成的候选三元组。
可以根据预设的知识图谱,建立实体词典。
例如,百度百科数据是中文领域最丰富的百科信息资源,可以从百度百科中获取面向旅游领域的相关网页,然后提取上述百度百科自有的实体链接。为了进一步完善命名实体,还可以使用知识图谱XLORE并从中获得上述每个百科页面中的链接实体。还可以对上述每个百科页面中特殊符号包括的实体、文件名等信息进行处理,获得链接实体。综合上述实体,可以生成包含近13000个词的实体字典。
可以将实体字典导入NLP(Natural Language Processing,自然语言处理)工具(例如jiagu),对每个句子Si进行分词,改进分词质量,可以获得包括名词、动词、及实体的结构化信息,对每个逗号和顿号进行保留,并记录每个元素(实体和关系)的位置信息。
根据知识图谱进行命名实体识别,可以提高分词准确性。
对每一上述结构化信息进行句子主语补全和长实体生成的处理,以保证后续候选三元组获取的准确性。
对于每一待提取文档,根据预设的三元组生成规则处理该待提取文档中的每个句子的结构化的表示信息,获得候选三元组。具体步骤:
获取该句子中的动词作为关系;
根据该句子中的实体与该关系的相对位置,约束头实体和尾实体;
根据优先级规则,判断该句子的实体中是否存在该关系命中的头实体和尾实体;
如果该关系同时命中头实体和尾实体,则生成一个候选三元组。
优先级规则包括:对于头实体,优先级从高到低依次为主语、实体、邻居名词;对于尾实体,优先级从高到低依次为长实体、实体、邻居名词。
三元组的表示方式为:(ei_head,r,ej_tail),其中r代表关系,ei_head和ej_tail分别表示关系对应的头实体和尾实体。
步骤S102、根据各待提取文档中的候选三元组,建立图表示模型,根据图表示模型,获取每一待提取文档中每一候选三元组的重要性分值。
其中,图表示模型包括关系层、实体层和类型层;关系层中的关系节点,表示候选三元组中的关系;实体层中的实体节点,表示候选三元组中的头实体和尾实体;类型层中的类型节点,表示候选三元组中的头实体和尾实体对应的类型;两个关系节点之间的连接边,用于连接相似度大于预设的第一相似度阈值的两个关系节点;关系节点与实体节点之间的连接边,用于连接表示同一候选三元组中的关系和实体的关系节点和实体节点;实体节点与类型节点之间的连接边,用于连接表示每一实体的实体节点和表示每一实体对应的类型的类型节点;两个类型节点之间的连接边,用于连接相似度大于预设的第二相似度阈值的两个类型节点。
具体地,根据从目标技术领域的文档集获得的各候选三元组,可以建立三层的图表示模型。该模型,用于捕捉实体、关系及实体对应的类型的相互作用关系。并且,该模型对于相似的类型之间和相似的关系之间的关系也可以很好的表示。
该图表示模型可以包括类型层、实体层和关系层三层结构。每层中的节点为各层构成的词语。在实体层和关系层,类型层和实体层之间的相关节点都构建了边,比如相关实体ei和关系rj之间有一条边wij,该边表示了实体和关系之间的关联程度。
根据各待提取文档中的候选三元组,建立图表示模型的具体步骤包括:
1、构建关系层
对于各待提取文档中的候选三元组中出现的每一关系,在关系层中建立表示该关系的关系节点;
获取每两个关系节点之间的相似度,若上述两个关系节点之间的相似度大于预设的第一相似度阈值,则连接上述两个关系节点,形成两个关系节点之间的连接边。
可以理解的是,若上述两个关系节点之间的相似度不大于预设的第一相似度阈值,则不连接上述两个关系节点。
两个关系节点之间的相似度,即两个关系节点表示的关系之间的相似度,可以根据两个关系节点表示的关系的词向量之间的相似度获取。
两个向量之间的相似度可以根据欧氏距离、余弦相似度、曼哈顿距离、马氏距离或汉明距离获取。
第一相似度阈值,可以根据实际情况设定,例如第一相似度阈值为0.7。对于第一相似度阈值的取值,本发明实施例不进行具体限定。
优选地,可以选取长度小于2的动词和语义不明的动词以提高关系层的质量。
2、构建实体层
对于各待提取文档中的候选三元组中出现的每一头实体,在实体层中建立表示该头实体的实体节点;对于各待提取文档中的候选三元组中出现的每一尾实体,在实体层中建立表示该尾实体的实体节点。
优选地,可以计算每个实体的TF-IDF(Term Frequency–Inverse DocumentFrequency,词频-逆文本频率指数)值并设定阈值(例如0.005)进行筛选获取更为重要的实体。
3、构建类型层
对于各待提取文档中的候选三元组中出现的每一实体(包括头实体和尾实体),在类型层中建立表示该实体对应的类型的类型节点;
获取每两个类型节点之间的相似度,若上述两个类型节点之间的相似度大于预设的第二相似度阈值,则连接上述两个类型节点,形成两个类型节点之间的连接边。
可以理解的是,若上述两个类型节点之间的相似度不大于预设的第一相似度阈值,则不连接上述两个类型节点。
可以从前述预设的知识图谱(例如XLORE)中获得实体的类型列表。由于细粒度类型很多是粗粒度类型的子集,加之根据所有的类型进行计算会导致冗余并效率较低,可以从所有类型中选择了50个重要且频繁的粗粒度类型,以此构建类型层。
由于一个实体可能对应多个类型标为了确定最适合的类型,可以预先对类型标签设置领域重要度权值,然后根据权值的大小对上述多个类型进行排序,选取最靠前的类型匹配该实体。
两个类型节点之间的相似度,即两个类型节点表示的类型之间的相似度,可以由PMI(Point-wise Mutual Information,逐点互信息)计算。具体计算公式为
PMI(t1,t2)=lg(p(t1,t2)/(p(t1)*p(t2)))
其中,t1和t2分别表示两个类型;PMI(t1,t2)表示t1和t2之间的相似度;p(t1,t2)表示类型中实体同现的概率,p(t1)和p(t2)分别代表实体归属于类型t1和类型t2的概率。
实体归属于类型t1的概率,指各待提取文档中的候选三元组中,归属于类型t1的实体的数量与实体的总数之比。
实体归属于类型t2的概率,指各待提取文档中的候选三元组中,归属于类型t2的实体的数量与实体的总数之比。
实体同现的概率,指各待提取文档中的候选三元组中,既归属于类型t1又归属于类型t2的实体的数量与实体的总数之比。
第二相似度阈值,可以根据实际情况设定,例如第二相似度阈值为1.3。对于第二相似度阈值的取值,本发明实施例不进行具体限定。
4、构建关系层和实体层之间的连接边
关系层和实体层之间的连接边,指连接一个关系节点和一个实体节点的连接边。
对于任一关系节点和任一实体节点,若该关系节点表示的关系和该实体节点表示的实体共现,则连接该关系节点和该实体节点,形成关系节点与实体节点之间的连接边。
关系与实体共现,指关系与实体出现在同一个候选三元组中。
关系节点与实体节点之间的连接边的值,设为各待提取文档中的候选三元组中,该关系节点表示的关系和该实体节点表示的实体共现的次数。
5、构建实体层和类型层之间的连接边
实体层和类型层之间的连接边,指连接一个实体节点和一个类型节点的连接边。
对于每一个类型节点,分别设置两个类型类别,分别是domain类和range类(如:地点_domain,地点_range)。
连接表示头实体的实体节点与表示该头实体的domain类型的类型节点,连接表示尾实体的实体节点与表示该尾实体的range类型的类型节点,形成实体节点与类型节点之间的连接边。
通过上述步骤,可以根据各待提取文档中的候选三元组,建立图表示模型。
需要说明的是,图表示模型中,表示一个实体的实体节点如果连接了多个表示重要关系的关系节点同时又连接了多个表示重要类型的类型节点,那么该实体也是重要的;如果表示一个关系的关系节点连接了多个表示重要实体的实体节点,那么该关系也是重要的;如果表示一个类型的类型节点连接了多个表示重要实体的实体节点,那么该类型也是是重要的。
对于一个关系节点连接更多的重要关系节点的,代表该关系节点表示的关系也重要。对于类型节点连接更多重要类型节点的,代表该类型节点表示的类型也重要。
因此,根据图表示模型中每一节点(可以为实体节点、关系节点或类型节点)连接的其他节点的情况,可以对该节点表示的实体、关系或类型的重要性进行打分,获取该节点表示的实体、关系或类型的重要性分值。
由于候选三元组包括头实体、关系和尾实体,因此,对于每一候选三元组,根据该候选三元组中的头实体、尾实体、关系、头实体对应的类型和尾实体对应的类型的重要性分值,可以获取该候选三元组的重要性分值。
步骤S103、对于每一待提取文档,根据每一待提取文档中各候选三元组的重要性分值,获取抽取结果。
具体地,对于每一待提取文档,可以根据候选三元组的重要性分值,对该待提取文档中的各候选三元组进行筛选,筛选出更为准确且重要的候选三元组,作为该待提取文档的抽取结果。
本发明实施例根据从目标技术领域的文档集中提取出的各候选三元组,建立用于捕捉实体、关系及实体的对应类型的相互作用关系的图表示模型,根据图表示模型,获取每一候选三元组的重要性分值,根据重要性分值,对每一待提取文档中的候选三元组进行筛选,获取开放式信息的抽取结果,能提高开放式信息抽取的准确率,并能抽取到更重要的三元组。
基于上述各实施例的内容,根据每一待提取文档中各候选三元组的重要性分值,获取抽取结果的具体步骤包括:获取重要性分值大于预设的分值阈值的每一待提取文档中的候选三元组,作为每一待提取文档的抽取结果。
具体地,对于每一待提取文档,判断该待提取文档中的每一候选三元组的重要性分值是否大于预设的分值阈值。
获取该待提取文档中的每一候选三元组的重要性分值是否大于预设的分值阈值的判断结果之后,将该待提取文档中的各候选三元组中,重要性分值大于预设的分值阈值候选三元组,作为该待提取文档的抽取结果。
分值阈值,可以根据实际情况设定。对于分值阈值的取值,本发明实施例不进行具体限定。
需要说明的是,对于该文档集中的任意两个待提取文档,分值阈值可以相同或不同。
本发明实施例通过预设的分值阈值对对每一待提取文档中的候选三元组进行筛选,获取开放式信息的抽取结果,能提高开放式信息抽取的准确率,并能抽取到更重要的三元组。
基于上述各实施例的内容,根据各待提取文档中的候选三元组,建立图表示模型,根据图表示模型,获取每一待提取文档中每一候选三元组的重要性分值的具体步骤包括:对于各待提取文档中的候选三元组中的每一关系,根据包括每一关系的各待提取文档中的候选三元组,建立图表示模型的第一子模型,根据第一子模型和重要性传播算法,获取每一关系对应的头实体对应的类型的重要性分值和尾实体对应的类型的重要性分值。
具体地,对于每一关系,根据包括该关系的各候选三元组,获取一个三层图,作为第一子模型。
可以理解的是,第一子模型,为图表示模型中与表示关系的关系节点相关的部分构成的子模型。第一子模型中的每一类型节点表示的类型,是该关系对应的头实体对应的类型,或该关系对应的尾实体的对应的类型。关系对应的头实体,指与该关系共现的头实体;关系对应的尾实体,指与该关系共现的尾实体。
可以根据第一子模型中每一类型节点连接的其他节点的情况,采用重要性传播算法,进行各实体、类型、关系等节点之间的重要性相互传播,对该类型节点表示的类型的重要性进行打分,获取该类型节点表示的类型的重要性分值。
对于每一待提取文档,根据待提取文档建立图表示模型的第二子模型,根据第二子模型和重要性传播算法,获取待提取文档中的各候选三元组中的头实体、尾实体和关系的重要性分值。
具体地,对于每一待提取文档,根据该待提取文档中的各候选三元组,获取一个三层图,作为第二子模型。
第二子模型,为图表示模型中与表示该待提取文档中的各候选三元组中的关系和实体的节点相关的部分构成的子模型。
可以根据第二子模型中每一关系节点连接的其他节点的情况,采用重要性传播算法,进行各实体、类型、关系等节点之间的重要性相互传播,对该关系节点表示的关系的重要性进行打分,获取该关系节点表示的关系的重要性分值,并根据第二子模型中每一实体节点连接的其他节点的情况,采用重要性传播算法,进行各实体、类型、关系等节点之间的重要性相互传播,对该实体节点表示的实体的重要性进行打分,获取该实体节点表示的实体的重要性分值。
通过上述步骤,可以获取该待提取文档中的各候选三元组中的头实体、尾实体和关系的重要性分值。
对于待提取文档中的每一候选三元组,根据每一关系对应的头实体对应的类型的重要性分值和尾实体对应的类型的重要性分值,获取候选三元组中的头实体对应的类型和尾实体对应的类型的重要性分值。
具体地,对与每一关系共现的对头实体和尾实体对应的类型进行统计,得到该关系的domain和range分布。
关系分布的格式是:(r:[[<typei-domain,scorei>,…],[<typej-range,scorej>,…]])。其中,r代表关系;typei-domain和scorei分别表示domain类型和其分值;typej-range和scorej分别表示range的类型和其分值。
每个关系对应的domain和range分布,可以用于补充知识图谱。
对于待提取文档中的每一候选三元组,可以从该候选三元组中的关系对应的各头实体对应的类型的重要性分值和各尾实体对应的类型的重要性分值中,获取到该候选三元组中的头实体对应的类型的重要性分值和尾实体对应的类型的重要性分值。
根据候选三元组中的头实体、尾实体、关系、头实体对应的类型和尾实体对应的类型的重要性分值,获取候选三元组的重要性分值。
具体地,候选三元组的重要性分值的计算公式为
Striple=lg(λ*(Sdomain*Srange)+(1-λ)*μ*(Shead+Sr+Stail)+θ)
其中,Striple表示候选三元组的重要性分值;Sdomain表示该候选三元组中的头实体对应的类型的重要性分值;Srange表示该候选三元组中的尾实体对应的类型的重要性分值;Shead表示该候选三元组中的头实体的重要性分值;Sr表示该候选三元组中的关系的重要性分值;Stail表示该候选三元组中的尾实体的重要性分值;λ,μ∈[0,1]是权值参数,用于调整三元组中各元素对整体的影响程度;θ是防止计算错误的常数。
本发明实施例通过图表示模型的第一子模型和重要性传播算法,获取候选三元组中的头实体对应的类型和尾实体对应的类型的重要性分值,通过图表示模型的第二子模型和重要性传播算法,获取候选三元组中的实体和关系的重要性分值,根据候选三元组中的头实体、尾实体、关系、头实体对应的类型和尾实体对应的类型的重要性分值,获取候选三元组的重要性分值,能更准确地描述候选三元组的重要性,从而能根据候选三元组的重要性进行筛选,能获取更为准确且重要三元组作为抽取结果,能提高开放式信息抽取的准确率,并能抽取到更重要的三元组。
基于上述各实施例的内容,根据第一子模型和重要性传播算法,获取每一关系对应的头实体对应的类型的重要性分值和尾实体对应的类型的重要性分值的具体步骤包括:对于每一类型,根据重要性传播算法、第一子模型中表示每一类型的类型节点连接的各实体节点表示的实体的重要性分值、表示每一类型的类型节点的各连接边的权值和表示每一类型的类型节点连接的各实体节点连接各类型节点的连接边的权值,进行预设次数的迭代,获取每一类型的重要性分值。
具体地,对于类型,与实体层和类型层进行计算,获取类型的重要性分值。
对于每一类型,该类型的重要性,与表示该类型的类型节点连接的类型节点和实体节点的重要性有关,因此,可以基于第一子模型,根据其中表示该类型的类型节点连接的每一实体节点表示的实体的重要性分值、表示该类型的类型节点与其他节点之间的连接边的权值,以及该类型节点连接的每一实体节点连接各类型节点的连接边的权值,采用重要性传播算法进行预设次数的迭代,获取该类型的重要性分值。
类型节点之间的连接边的权值,为两个类型节点之间的相似度。
实体节点与类型节点之间的连接边的权值,初始化为1。
迭代的次数可以根据实际情况预先设置。对于迭代的次数,本发明实施例不进行具体限定。预设次数,可以为1至10次。在1至10次迭代时重要性分值的变化较稳定。优选地,预设次数为5次。
本发明实施例通过图表示模型的第一子模型中类型节点的连接关系和重要性传播算法,获取类型的重要性分值,能更准确地描述类型的重要性,使得根据类型的重要性获取的候选三元组的重要性更准确,根据候选三元组的重要性进行筛选,能获取更为准确且重要三元组作为抽取结果,能提高开放式信息抽取的准确率,并能抽取到更重要的三元组。
基于上述各实施例的内容,根据第二子模型和重要性传播算法,获取待提取文档中的各候选三元组中的头实体、尾实体和关系的重要性分值的具体步骤包括:对于每一实体,根据重要性传播算法、第二子模型中表示每一实体的实体节点连接的各关系节点表示的关系的重要性分值、每一实体的实体节点连接的各类型节点表示的类型的重要性分值,表示每一实体的实体节点的各连接边的权值、表示每一实体的实体节点连接的各关系节点连接各实体节点的连接边的权值和表示每一实体对应的各类型节点连接各实体节点的连接边的权值,进行预设次数的迭代,获取每一实体的重要性分值。
具体地,对于实体,与类型层和关系层一起进行计算,获取实体的重要性分值。
对于每一实体,该实体的重要性,与表示该实体的实体节点连接的类型节点和关系节点的重要性有关,因此,可以基于第二子模型,根据其中表示该实体的实体节点连接的每一类型节点表示的类型的重要性分值、表示该实体的实体节点连接的每一关系节点表示的关系的重要性分值、表示该实体的实体节点与其他节点之间的连接边的权值,该实体节点连接的每一关系节点连接各实体节点的连接边的权值,以及该实体节点连接的每一类型节点连接各实体节点的连接边的权值,采用重要性传播算法进行预设次数的迭代,获取该实体的重要性分值。
实体、关系和类型的重要性分值,均初始化为1。即对于第1次迭代,上一次迭代实体、关系和类型的重要性分值均为1。
实体节点与类型节点之间的连接边的权值,初始化为1。
表示头实体的实体节点与关系节点之间的连接边的权值,为该待提取文档中该头实体与该关系节点表示的关系共现的次数;表示尾实体的实体节点与关系节点之间的连接边的权值,为该待提取文档中该尾实体与该关系节点表示的关系共现的次数。
对于每一实体,根据上一次迭代第二子模型中表示该实体的实体节点连接的各关系节点表示的关系的重要性分值、上一次迭代第二子模型中表示该实体的实体节点连接的各类型节点表示的类型的重要性分值、第二子模型中表示该实体的实体节点的各连接边的权值、表示该实体的实体节点连接的各关系节点连接各实体节点的连接边的权值和表示该实体对应的各类型节点连接各实体节点的连接边的权值,获取本次迭代该实体的重要性分值;将最后一次迭代该实体的重要性分值,确定为该实体的重要性分值。
实体ei在第(k+1)次迭代计算的公式为:
其中,s1(ei)k+1表示第(k+1)次迭代实体ei的重要性分值;s(rm)k表示第k次迭代关系rm的重要性分值,关系rm为与实体ei共现的关系;s(tm)k表示第k次迭代类型tm的重要性分值,类型tm为实体ei对应的类型;w表示连接边的权值;rm-ei为表示关系rm的关系节点与表示实体ei的实体节点之间的连接边;rm-en表示关系rm的关系节点与表示实体en的实体节点之间的连接边;tm-ei为表示类型tm的类型节点与表示实体ei的实体节点之间的连接边;tm-en为表示类型tm的类型节点与表示实体en的实体节点之间的连接边。
对于每一关系,根据重要性传播算法、第二子模型中表示每一关系的关系节点连接的各实体节点表示的实体的重要性分值、表示每一关系的关系节点的各连接边的权值和表示每一关系的关系节点连接的各实体节点连接各关系节点的连接边的权值,进行预设次数的迭代,获取每一关系的重要性分值。
具体地,对于关系,与实体层和关系层进行计算,获取关系的重要性分值。
对于每一关系,该关系的重要性,与表示该关系的关系节点连接的关系节点和实体节点的重要性有关,因此,可以基于第二子模型,根据其中表示该关系的关系节点连接的每一实体节点表示的实体的重要性分值、表示该关系的关系节点与其他节点之间的连接边的权值,以及该关系节点连接的每一实体节点连接各关系节点的连接边的权值,采用重要性传播算法进行预设次数的迭代,获取该关系的重要性分值。
关系节点之间的连接边的权值,为两个关系节点之间的相似度。
表示头实体的实体节点与关系节点之间的连接边的权值,为该待提取文档中该头实体与该关系节点表示的关系共现的次数;表示尾实体的实体节点与关系节点之间的连接边的权值,为该待提取文档中该尾实体与该关系节点表示的关系共现的次数。
迭代的次数可以根据实际情况预先设置。对于迭代的次数,本发明实施例不进行具体限定。预设次数,可以为1至10次。在1至10次迭代时重要性分值的变化较稳定。优选地,预设次数为5次。
本发明实施例通过图表示模型的第二子模型中实体节点和关系节点的连接关系和重要性传播算法,获取实体和关系的重要性分值,能更准确地描述实体和关系的重要性,使得根据实体和关系的重要性获取的候选三元组的重要性更准确,根据候选三元组的重要性进行筛选,能获取更为准确且重要三元组作为抽取结果,能提高开放式信息抽取的准确率,并能抽取到更重要的三元组。
基于上述各实施例的内容,根据重要性传播算法、第一子模型中表示每一类型的类型节点连接的各实体节点表示的实体的重要性分值、表示每一类型的类型节点的各连接边的权值和表示每一类型的类型节点连接的各实体节点连接各类型节点的连接边的权值,进行预设次数的迭代,获取每一类型的重要性分值的具体步骤包括:根据上一次迭代第一子模型中表示每一类型的类型节点连接的各实体节点表示的实体的重要性分值、第一子模型中表示每一类型的类型节点连接各实体节点的连接边的权值和表示每一类型的类型节点连接的各实体节点连接各类型节点的连接边的权值,进行预设次数的迭代,获取本次迭代每一类型的第一分值,并根据上一次迭代每一类型的重要性分值、上一次迭代第一子模型中表示每一类型的类型节点连接的各类型节点表示的类型的重要性分值、第一子模型中表示每一类型的类型节点连接各类型节点的连接边的权值,进行预设次数的迭代,获取本次迭代每一类型的第二分值。
具体地,类型ti在第(k+1)次迭代计算的公式为:
其中,s1(ti)k+1表示第(k+1)次迭代类型ti的第一分值;s(em)k表示第k次迭代实体em的重要性分值,实体em对应的类型为ti;w表示连接边的权值;em-ti为表示实体em的实体节点与表示类型ti的类型节点之间的连接边;em-tn为表示实体em的实体节点与表示类型tn的类型节点之间的连接边;s2(ti)k+1表示第(k+1)次迭代类型ti的第二分值;s(ti)k表示第k次迭代类型ti的重要性分值;s(tj)k表示第k次迭代类型tj的重要性分值;tj-ti为表示类型tj的类型节点与表示类型ti的类型节点之间的连接边;tj-tn为表示类型tj的类型节点与表示类型tn的类型节点之间的连接边;β表示影响因子,用于控制公式中加号连接的两部分。
根据最后一次迭代每一类型的第一分值和第二分值,获取每一类型的重要性分值。
具体地,第(k+1)次迭代类型ti的重要性分值的计算公式为
s(ti)k+1=(1-α)×s1(ti)k+1+α×s2(ti)k+1
其中,s(ti)k+1表示第(k+1)次迭代类型ti的重要性分值;s1(ti)k+1表示第(k+1)次迭代类型ti的第一分值;s2(ti)k+1表示第(k+1)次迭代类型ti的第二分值;α∈[0,1]是一个自定义加权参数。
可以理解的是,若预设次数为(k+1),则将第(k+1)次迭代类型ti的重要性分值,作为类型ti的重要性分值。
本发明实施例通过图表示模型的第一子模型中类型节点的连接关系和重要性传播算法,获取类型的重要性分值,能更准确地描述类型的重要性,使得根据类型的重要性获取的候选三元组的重要性更准确,根据候选三元组的重要性进行筛选,能获取更为准确且重要三元组作为抽取结果,能提高开放式信息抽取的准确率,并能抽取到更重要的三元组。
基于上述各实施例的内容,对于每一关系,根据重要性传播算法、第二子模型中表示每一关系的关系节点连接的各实体节点表示的实体的重要性分值、表示每一关系的关系节点的各连接边的权值和表示每一关系的关系节点连接的各实体节点连接各关系节点的连接边的权值,进行预设次数的迭代,获取每一关系的重要性分值的具体步骤包括:根据上一次迭代每一关系的第一分值、上一次迭代第二子模型中表示每一关系的关系节点连接的各实体节点表示的实体的重要性分值、第二子模型中表示每一关系的关系节点连接各实体节点的连接边的权值和表示每一关系的关系节点连接的各实体节点连接各关系节点的连接边的权值,进行预设次数的迭代,获取本次迭代每一关系的第一分值,并根据上一次迭代每一关系的重要性分值、上一次迭代第二子模型中表示每一关系的关系节点连接的各关系节点表示的关系的重要性分值、第二子模型中表示每一关系的关系节点连接各关系节点的连接边的权值,进行预设次数的迭代,获取本次迭代每一关系的第二分值。
具体地,关系rj在第(k+1)次迭代计算的公式为:
其中,s1(rj)k+1表示第(k+1)次迭代关系rj的第一分值;s(ei)k表示第k次迭代实体ei的重要性分值,实体ei为与关系rj共现的实体;w表示连接边的权值;ei-rj为表示实体ei的实体节点与表示关系rj的关系节点之间的连接边;ei-rn为表示实体ei的实体节点与表示关系rn的关系节点之间的连接边;s2(rj)k+1表示第(k+1)次迭代关系rj的第二分值;s(rj)k表示第k次迭代关系rj的重要性分值;s(ri)k表示第k次迭代关系ri的重要性分值;ri-rj为表示关系ri的关系节点与表示关系rj的关系节点之间的连接边;ri-rn为表示关系ri的关系节点与表示关系rn的关系节点之间的连接边;β表示影响因子,用于控制公式中加号连接的两部分。
根据最后一次迭代的每一关系的第一分值和第二分值,获取每一关系的重要性分值。
具体地,第(k+1)次迭代关系rj的重要性分值的计算公式为
s(rj)k+1=(1-α)×s1(rj)k+1+α×s2(rj)k+1
其中,s(rj)k+1表示第(k+1)次迭代关系rj的重要性分值;s1(rj)k+1表示第(k+1)次迭代关系rj的第一分值;s2(rj)k+1表示第(k+1)次迭代关系rj的第二分值;α∈[0,1]是一个自定义加权参数。
可以理解的是,若预设次数为(k+1),则将第(k+1)次迭代关系rj的重要性分值,作为关系rj的重要性分值。
本发明实施例通过图表示模型的第二子模型中关系节点的连接关系和重要性传播算法,获取关系的重要性分值,能更准确地描述关系的重要性,使得根据关系的重要性获取的候选三元组的重要性更准确,根据候选三元组的重要性进行筛选,能获取更为准确且重要三元组作为抽取结果,能提高开放式信息抽取的准确率,并能抽取到更重要的三元组。
为了便于说明本发明上述各实施例的技术效果,下面通过一个实例进行描述。
(一)数据集介绍。从百度百科中获取了1218个关于北京旅游领域网页。经过预处理,得到91649个句子并从中抽取了近13000个实体。在实体类型方面,从XLORE中匹配了12915个实体的类型列表,然后从中选择了50个类型作为类型层的构成。为了控制规模和质量,利用TF-IDF算法筛选了实体和词语,最终得到36353个词语。
(二)参数设置。在重要性分值传播算法章节提到的参数α和β被分别设置为0.2和0.1。迭代计算的次数设置为5。在最后的三元组计算公式中,参数λ、μ和θ被分别设置为0.8,0.0001和0.5。
(三)对比实验。利用在中文信息开放抽取效果较好的两种方法UnCORE和DSNFs,与本发明实施例提供的开放式信息抽取方法进行对比。UnCORE和DSNFs是两个近期效果很好的开放信息抽取模型,以此作为对比实验基准。
(四)评价指标。
准确度:使用本发明实施例提供的方法(GAM)抽取了70108个三元组。由于不太可能将所有三元组进行标注,因此使用了多次抽样的方法进行准确度评估。确定了一个分值区间(距离为2),然后在区间随机抽取了200个三元组N次并将其全部标注。于是得到了每次采样的准确率:Pi=Ci/A,其中Ci代表在第i次抽样时准确的三元组个数,A代表区间所有的三元组个数。最终得到该区间的平均准确率:
Yield评估:召回率recall在评估抽取效果中是十分重要的。由于在大量未标注数据中进行recall的评估是困难的,采用了yield评估。Yield评估是指所有准确的抽取结果个数,它与召回率存在正比关系。对于每一个分值区间而言,yield可以通过公式yield=P*C进行计算,其中C代表所有的抽取个数。Yield的值越大说明效果越好。
(四)实验结果。使用了GAM模型从1218个百度百科文档中抽取了超过70000个三元组并获取了每个三元组的分值。本发明实施例提供开放式信息抽取方法的结果反映了一个事实,随着分值的逐渐增加,三元组对该领域的重要性也越来越大,而且准确性也越来越高。评估了在不同分值区间的三元组情况,也对分值在设定阈值之上的三元组进行了统计和评估。结果表明,当阈值为4时得到7726个三元组,其准确率可以达到70%,并且大部分为旅游领域较为重要的位置相关信息。另外在阈值为3之上也可以达到66.7%的准确率。表1展示了从不同文档中所获得的三元组以及其通过GAM模型得到的分值。
表1不同文档中抽取的三元组结果
分值 | 三元组 | 文档名 |
10.050 | 颐和园/坐落/北京西郊 | 颐和园 |
9.079 | 荷花/成为/著名景观 | 什刹海 |
7.275 | 恭王府/占地/61120平方米 | 恭王府 |
5.010 | 东南角楼/建于/明朝 | 明城墙遗址公园 |
4.487 | 嘉靖/重建/中极殿 | 故宫博物院 |
表2展示了在区间为2的不同分值段的三元组抽取情况。可以得知,尽管大部分(近69%)的抽取结果落在最低的分值区间(0,-1),但高分值的三元组获得了更高的准确率。另外,生成了在阈值大于4时三元组precision-yield的变化曲线,可以看出阈值大于4时三元组准确率可以达到70%以上。
对比试验部分,采用了阈值大于3和阈值大于4的结果与两个模型进行了比对。表格3结果显示,本发明实施例提供的模型在三元组抽取数量及抽取准确性上均好于两个对比模型。
表2不同区间抽取结果的准确率和yield指标
分值区间 | (14,12] | (12,10] | (10,8] | (8,6] | (6,4] | (4,2] | (2,0] | (0,-1] |
三元组数量 | 1244 | 799 | 565 | 1765 | 3714 | 5453 | 8296 | 48272 |
准确率 | 0.95 | 0.89 | 0.87 | 0.85 | 0.70 | 0.53 | 0.35 | 0.21 |
Yield | 1185 | 712 | 492 | 1501 | 2599 | 2890 | 2904 | 10137 |
为了解决中文信息抽取领域的问题,本发明实施例提出了一个无监督的模型:GAM。首先,通过基于知识图谱的数据预处理得到百科文档中的实体、类型、关系等信息。其次,通过预定义的规则获取了百科文档中的三元组信息,然后这些三元组可以构建一个由类型层、实体层、关系层构成的三层图。同时,设计了一个重要性传播算法去获取每层节点的重要性分值,并获取了关系节点的domain和range分布。最终,设计了一个公式综合计算图中各节点分值并得到每个三元组的分值,该分值反映了三元组的重要性及准确性。的发明模型可以达到更高的准确性,并可以很好的符合专业领域的知识图谱构建需要。
表3所有文档三元组比对结果
方法 | 三元组数量 | 准确率 | Yield |
GAM(阈值=4) | 7726 | 77% | 5949 |
GAM(阈值=3) | 10154 | 70% | 7107 |
DSNFs | 9292 | 58% | 5459 |
UnCORE | 2038 | 41.2% | 841 |
下面对本发明实施例提供的开放式信息抽取装置进行描述,下文描述的开放式信息抽取装置与上文描述的开放式信息抽取方法可相互对应参照。
图2是根据本发明实施例提供的开放式信息抽取装置的结构示意图。基于上述各实施例的内容,如图2所示,该装置包括三元组提取模块201、重要性获取模块202和信息抽取模块203,其中:
三元组提取模块201,用于根据预设的知识图谱,获取目标技术领域的文档集中每一待提取文档中的候选三元组;
重要性获取模块202,用于根据各待提取文档中的候选三元组,建立图表示模型,根据图表示模型,获取每一待提取文档中每一候选三元组的重要性分值;
信息抽取模块203,用于对于每一待提取文档,根据待提取文档中各候选三元组的重要性分值,获取抽取结果;
其中,图表示模型包括关系层、实体层和类型层;关系层中的关系节点,表示候选三元组中的关系;实体层中的实体节点,表示候选三元组中的头实体和尾实体;类型层中的类型节点,表示候选三元组中的头实体和尾实体对应的类型;两个关系节点之间的连接边,用于连接相似度大于预设的第一相似度阈值的两个关系节点;关系节点与实体节点之间的连接边,用于连接表示同一候选三元组中的关系和实体的关系节点和实体节点;实体节点与类型节点之间的连接边,用于连接表示每一实体的实体节点和表示每一实体对应的类型的类型节点;两个类型节点之间的连接边,用于连接相似度大于预设的第二相似度阈值的两个类型节点。
具体地,三元组提取模块201、重要性获取模块202和信息抽取模块203依次电连接。
三元组提取模块201根据预设的知识图谱建立实体词典;将实体字典导入NLP工具,对每一待提取文档中的每个句子进行分词,得到该句子的结构化的表示信息;根据预设的三元组生成规则处理每个句子的结构化的表示信息,获得候选三元组。
重要性获取模块202根据各候选三元组,建立用于捕捉实体、关系及实体对应的类型的相互作用关系的图表示模型;根据图表示模型中每一节点(可以为实体节点、关系节点或类型节点)连接的其他节点的情况,可以对该节点表示的实体、关系或类型的重要性进行打分,获取该节点表示的实体、关系或类型的重要性分值。
信息抽取模块203对于每一待提取文档,可以根据候选三元组的重要性分值,对该待提取文档中的各候选三元组进行筛选,筛选出更为准确且重要的候选三元组,作为该待提取文档的抽取结果。
本发明实施例提供的开放式信息抽取装置,用于执行本发明上述各实施例提供的开放式信息抽取方法,该开放式信息抽取装置包括的各模块实现相应功能的具体方法和流程详见上述开放式信息抽取方法的实施例,此处不再赘述。
该开放式信息抽取装置用于前述各实施例的开放式信息抽取方法。因此,在前述各实施例中的开放式信息抽取方法中的描述和定义,可以用于本发明实施例中各执行模块的理解。
本发明实施例根据从目标技术领域的文档集中提取出的各候选三元组,建立用于捕捉实体、关系及实体的对应类型的相互作用关系的图表示模型,根据图表示模型,获取每一候选三元组的重要性分值,根据重要性分值,对每一待提取文档中的候选三元组进行筛选,获取开放式信息的抽取结果,能提高开放式信息抽取的准确率,并能抽取到更重要的三元组。
图3示例了一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)301、存储器(memory)302和总线303;其中,处理器301和存储器302通过总线303完成相互间的通信;处理器301用于调用存储在存储器302中并可在处理器301上运行的计算机程序指令,以执行上述各方法实施例提供的开放式信息抽取方法,该方法包括:根据预设的知识图谱,获取目标技术领域的文档集中每一待提取文档中的候选三元组;根据各待提取文档中的候选三元组,建立图表示模型,根据图表示模型,获取每一待提取文档中每一候选三元组的重要性分值;对于每一待提取文档,根据每一待提取文档中各候选三元组的重要性分值,获取抽取结果。
此外,上述的存储器302中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的开放式信息抽取方法,该方法包括:根据预设的知识图谱,获取目标技术领域的文档集中每一待提取文档中的候选三元组;根据各待提取文档中的候选三元组,建立图表示模型,根据图表示模型,获取每一待提取文档中每一候选三元组的重要性分值;对于每一待提取文档,根据每一待提取文档中各候选三元组的重要性分值,获取抽取结果。
又一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的开放式信息抽取方法,该方法包括:根据预设的知识图谱,获取目标技术领域的文档集中每一待提取文档中的候选三元组;根据各待提取文档中的候选三元组,建立图表示模型,根据图表示模型,获取每一待提取文档中每一候选三元组的重要性分值;对于每一待提取文档,根据每一待提取文档中各候选三元组的重要性分值,获取抽取结果。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种开放式信息抽取方法,其特征在于,包括:
根据预设的知识图谱,获取目标技术领域的文档集中每一待提取文档中的候选三元组;
根据各所述待提取文档中的候选三元组,建立图表示模型,根据所述图表示模型,获取每一所述待提取文档中每一所述候选三元组的重要性分值;
对于每一待提取文档,根据所述每一待提取文档中各所述候选三元组的重要性分值,获取抽取结果;
其中,所述图表示模型包括关系层、实体层和类型层;所述关系层中的关系节点,表示所述候选三元组中的关系;所述实体层中的实体节点,表示所述候选三元组中的头实体和尾实体;所述类型层中的类型节点,表示所述候选三元组中的头实体和尾实体对应的类型;两个关系节点之间的连接边,用于连接相似度大于预设的第一相似度阈值的两个关系节点;关系节点与实体节点之间的连接边,用于连接表示同一所述候选三元组中的关系和实体的关系节点和实体节点;实体节点与类型节点之间的连接边,用于连接表示每一实体的实体节点和表示所述每一实体对应的类型的类型节点;两个类型节点之间的连接边,用于连接相似度大于预设的第二相似度阈值的两个类型节点。
2.根据权利要求1所述的开放式信息抽取方法,其特征在于,所述根据所述每一待提取文档中各所述候选三元组的重要性分值,获取抽取结果的具体步骤包括:
获取重要性分值大于预设的分值阈值的所述每一待提取文档中的所述候选三元组,作为所述每一待提取文档的抽取结果。
3.根据权利要求1或2所述的开放式信息抽取方法,其特征在于,所述根据各所述待提取文档中的候选三元组,建立图表示模型,根据所述图表示模型,获取每一所述待提取文档中每一所述候选三元组的重要性分值的具体步骤包括:
对于各所述待提取文档中的候选三元组中的每一关系,根据包括所述每一关系的各所述待提取文档中的候选三元组,建立所述图表示模型的第一子模型,根据所述第一子模型和重要性传播算法,获取所述每一关系对应的头实体对应的类型的重要性分值和尾实体对应的类型的重要性分值;
对于每一所述待提取文档,根据所述待提取文档建立所述图表示模型的第二子模型,根据所述第二子模型和所述重要性传播算法,获取所述待提取文档中的各候选三元组中的头实体、尾实体和关系的重要性分值;
对于所述待提取文档中的每一所述候选三元组,根据所述每一关系对应的头实体对应的类型的重要性分值和尾实体对应的类型的重要性分值,获取所述候选三元组中的头实体对应的类型和尾实体对应的类型的重要性分值;
根据所述候选三元组中的头实体、尾实体、关系、头实体对应的类型和尾实体对应的类型的重要性分值,获取所述候选三元组的重要性分值。
4.根据权利要求3所述的开放式信息抽取方法,其特征在于,所述根据所述第一子模型和重要性传播算法,获取所述每一关系对应的头实体对应的类型的重要性分值和尾实体对应的类型的重要性分值的具体步骤包括:
对于每一类型,根据所述重要性传播算法、所述第一子模型中表示所述每一类型的类型节点连接的各实体节点表示的实体的重要性分值、表示所述每一类型的类型节点的各连接边的权值和表示所述每一类型的类型节点连接的各实体节点连接各类型节点的连接边的权值,进行预设次数的迭代,获取所述每一类型的重要性分值。
5.根据权利要求3所述的开放式信息抽取方法,其特征在于,所述根据所述第二子模型和所述重要性传播算法,获取所述待提取文档中的各候选三元组中的头实体、尾实体和关系的重要性分值的具体步骤包括:
对于每一实体,根据所述重要性传播算法、所述第二子模型中表示所述每一实体的实体节点连接的各关系节点表示的关系的重要性分值、所述每一实体的实体节点连接的各类型节点表示的类型的重要性分值,表示所述每一实体的实体节点的各连接边的权值、表示所述每一实体的实体节点连接的各关系节点连接各实体节点的连接边的权值和表示所述每一实体对应的各类型节点连接各实体节点的连接边的权值,进行预设次数的迭代,获取所述每一实体的重要性分值;
对于每一关系,根据所述重要性传播算法、所述第二子模型中表示所述每一关系的关系节点连接的各实体节点表示的实体的重要性分值、表示所述每一关系的关系节点的各连接边的权值和表示所述每一关系的关系节点连接的各实体节点连接各关系节点的连接边的权值,进行预设次数的迭代,获取所述每一关系的重要性分值。
6.根据权利要求4所述的开放式信息抽取方法,其特征在于,所述根据所述重要性传播算法、所述第一子模型中表示所述每一类型的类型节点连接的各实体节点表示的实体的重要性分值、表示所述每一类型的类型节点的各连接边的权值和表示所述每一类型的类型节点连接的各实体节点连接各类型节点的连接边的权值,进行预设次数的迭代,获取所述每一类型的重要性分值的具体步骤包括:
根据上一次迭代所述第一子模型中表示所述每一类型的类型节点连接的各实体节点表示的实体的重要性分值、所述第一子模型中表示所述每一类型的类型节点连接各实体节点的连接边的权值和表示所述每一类型的类型节点连接的各实体节点连接各类型节点的连接边的权值,进行所述预设次数的迭代,获取本次迭代所述每一类型的第一分值,并根据上一次迭代所述每一类型的重要性分值、上一次迭代所述第一子模型中表示所述每一类型的类型节点连接的各类型节点表示的类型的重要性分值、所述第一子模型中表示所述每一类型的类型节点连接各类型节点的连接边的权值,进行所述预设次数的迭代,获取本次迭代所述每一类型的第二分值;
根据最后一次迭代所述每一类型的第一分值和第二分值,获取所述每一类型的重要性分值。
7.根据权利要求5所述的开放式信息抽取方法,其特征在于,所述对于每一关系,根据所述重要性传播算法、所述第二子模型中表示所述每一关系的关系节点连接的各实体节点表示的实体的重要性分值、表示所述每一关系的关系节点的各连接边的权值和表示所述每一关系的关系节点连接的各实体节点连接各关系节点的连接边的权值,进行预设次数的迭代,获取所述每一关系的重要性分值的具体步骤包括:
根据上一次迭代所述第二子模型中表示所述每一关系的关系节点连接的各实体节点表示的实体的重要性分值、所述第二子模型中表示所述每一关系的关系节点连接各实体节点的连接边的权值和表示所述每一关系的关系节点连接的各实体节点连接各关系节点的连接边的权值,进行所述预设次数的迭代,获取本次迭代所述每一关系的第一分值,并根据上一次迭代所述每一关系的重要性分值、上一次迭代所述第二子模型中表示所述每一关系的关系节点连接的各关系节点表示的关系的重要性分值、所述第二子模型中表示所述每一关系的关系节点连接各关系节点的连接边的权值,进行所述预设次数的迭代,获取本次迭代所述每一关系的第二分值;
根据最后一次迭代的所述每一关系的第一分值和第二分值,获取所述每一关系的重要性分值。
8.一种开放式信息抽取装置,其特征在于,包括:
三元组提取模块,用于根据预设的知识图谱,获取目标技术领域的文档集中每一待提取文档中的候选三元组;
重要性获取模块,用于根据各所述待提取文档中的候选三元组,建立图表示模型,根据所述图表示模型,获取每一所述待提取文档中每一所述候选三元组的重要性分值;
信息抽取模块,用于对于每一所述待提取文档,根据所述待提取文档中各所述候选三元组的重要性分值,获取抽取结果;
其中,所述图表示模型包括关系层、实体层和类型层;所述关系层中的关系节点,表示所述候选三元组中的关系;所述实体层中的实体节点,表示所述候选三元组中的头实体和尾实体;所述类型层中的类型节点,表示所述候选三元组中的头实体和尾实体对应的类型;两个关系节点之间的连接边,用于连接相似度大于预设的第一相似度阈值的两个关系节点;关系节点与实体节点之间的连接边,用于连接表示同一所述候选三元组中的关系和实体的关系节点和实体节点;实体节点与类型节点之间的连接边,用于连接表示每一实体的实体节点和表示所述每一实体对应的类型的类型节点;两个类型节点之间的连接边,用于连接相似度大于预设的第二相似度阈值的两个类型节点。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述的开放式信息抽取方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述的开放式信息抽取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011312007.9A CN112527981B (zh) | 2020-11-20 | 2020-11-20 | 开放式信息抽取方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011312007.9A CN112527981B (zh) | 2020-11-20 | 2020-11-20 | 开放式信息抽取方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112527981A CN112527981A (zh) | 2021-03-19 |
CN112527981B true CN112527981B (zh) | 2022-11-11 |
Family
ID=74981995
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011312007.9A Active CN112527981B (zh) | 2020-11-20 | 2020-11-20 | 开放式信息抽取方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112527981B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113011189A (zh) * | 2021-03-26 | 2021-06-22 | 深圳壹账通智能科技有限公司 | 开放式实体关系的抽取方法、装置、设备及存储介质 |
CN113535973B (zh) * | 2021-06-07 | 2023-06-23 | 中国科学院软件研究所 | 基于知识映射的事件关系抽取、语篇关系分析方法及装置 |
CN114186552B (zh) * | 2021-12-13 | 2023-04-07 | 北京百度网讯科技有限公司 | 文本分析方法、装置、设备及计算机存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107885717A (zh) * | 2016-09-30 | 2018-04-06 | 腾讯科技(深圳)有限公司 | 一种关键词提取方法及装置 |
CN110427623A (zh) * | 2019-07-24 | 2019-11-08 | 深圳追一科技有限公司 | 半结构化文档知识抽取方法、装置、电子设备及存储介质 |
CN111222500A (zh) * | 2020-04-24 | 2020-06-02 | 腾讯科技(深圳)有限公司 | 一种标签提取方法及装置 |
-
2020
- 2020-11-20 CN CN202011312007.9A patent/CN112527981B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107885717A (zh) * | 2016-09-30 | 2018-04-06 | 腾讯科技(深圳)有限公司 | 一种关键词提取方法及装置 |
CN110427623A (zh) * | 2019-07-24 | 2019-11-08 | 深圳追一科技有限公司 | 半结构化文档知识抽取方法、装置、电子设备及存储介质 |
CN111222500A (zh) * | 2020-04-24 | 2020-06-02 | 腾讯科技(深圳)有限公司 | 一种标签提取方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112527981A (zh) | 2021-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108197111B (zh) | 一种基于融合语义聚类的文本自动摘要方法 | |
CN112527981B (zh) | 开放式信息抽取方法、装置、电子设备及存储介质 | |
CN109190117B (zh) | 一种基于词向量的短文本语义相似度计算方法 | |
US20200081899A1 (en) | Automated database schema matching | |
CN111143576A (zh) | 一种面向事件的动态知识图谱构建方法和装置 | |
Matci et al. | Address standardization using the natural language process for improving geocoding results | |
CN108399163A (zh) | 结合词聚合与词组合语义特征的文本相似性度量方法 | |
CN113535974B (zh) | 诊断推荐方法及相关装置、电子设备、存储介质 | |
CN109783806B (zh) | 一种利用语义解析结构的文本匹配方法 | |
Yan-Yan et al. | Integrating intra-and inter-document evidences for improving sentence sentiment classification | |
CN108062305B (zh) | 一种基于迭代的三步式无监督中文分词方法 | |
CN113392209B (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN106570180A (zh) | 基于人工智能的语音搜索方法及装置 | |
US11170169B2 (en) | System and method for language-independent contextual embedding | |
CN111414763A (zh) | 一种针对手语计算的语义消歧方法、装置、设备及存储装置 | |
CN109858029A (zh) | 一种提高语料整体质量的数据预处理方法 | |
CN115017299A (zh) | 一种基于去噪图自编码器的无监督社交媒体摘要方法 | |
CN110928981A (zh) | 一种文本标签体系搭建及完善迭代的方法、系统及存储介质 | |
CN111241824A (zh) | 一种用于中文隐喻信息识别的方法 | |
CN110674301A (zh) | 一种情感倾向预测方法、装置、系统及存储介质 | |
CN114997288A (zh) | 一种设计资源关联方法 | |
CN113127607A (zh) | 文本数据标注方法、装置、电子设备及可读存储介质 | |
CN117271736A (zh) | 一种问答对的生成方法和系统、电子设备及存储介质 | |
CN111651559A (zh) | 一种基于事件抽取的社交网络用户关系抽取方法 | |
CN109903198B (zh) | 专利对比分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |