CN113158668B - 基于结构化信息的关系对齐方法、装置、设备及介质 - Google Patents
基于结构化信息的关系对齐方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN113158668B CN113158668B CN202110420316.6A CN202110420316A CN113158668B CN 113158668 B CN113158668 B CN 113158668B CN 202110420316 A CN202110420316 A CN 202110420316A CN 113158668 B CN113158668 B CN 113158668B
- Authority
- CN
- China
- Prior art keywords
- vector
- vector representation
- relation
- triple
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于结构化信息的关系对齐方法,包括:构建三元组语料库,所述三元组语料库中包括若干个三元组;获取所述三元组语料库中每一个三元组对应的关系向量表征;根据所述关系向量表征构建三元组中的头实体对应的关系集,从所述关系集中获取范围最大的关系互斥集;根据所述关系向量表征对所述三元组语料库中的三元组进行聚类分析,并根据所述关系互斥集进行聚类簇合并,得到若干个簇;对于每一个簇,选择所述簇中出现频率最高的关系向量表征作为目标关系向量表征,将所述簇中的所有三元组的关系向量表征修改为所述目标关系向量表征。本发明解决了现有技术在构建知识图谱时存在的关系表征准确率低、关系对齐精度低的问题。
Description
技术领域
本发明涉及信息技术领域,尤其涉及一种基于结构化信息的关系对齐方法、装置、设备及介质。
背景技术
构建知识图谱需要有一个完整的知识体系。知识体系可以通过人工建立,也可以通过计算机基于数据分析来建立。现有互比如百科知识联网,存在大量的三元组知识。现有技术主要采用百科知识等互联网提供的三元组知识构建知识体系,在这过程中需要进行关系对齐。
然而在关系对齐的过程中,如果把互联网提供的结构化信息还原成非结构化信息,然后按照非结构化信息的实体进行关系对齐,由于还原后的非结构化信息是极短的文本,关系的上下文环境缺失,且这些结构化信息最初也是人为编辑的,带有一定的主观性和人为错误,从而导致关系的表征精度较低,降低了关系对齐的准确率。在对关系向量表征进行聚类以消除歧义时,又由于通过结构化信息得到关系向量表征所蕴含的语义信息有限,关系聚类的效果欠佳,关系对齐的准确率低。
发明内容
本发明实施例提供了一种基于结构化信息的关系对齐方法、装置、设备及介质,以解决现有技术在构建知识图谱时存在的关系表征准确率低、关系对齐精度低的问题。
一种基于结构化信息的关系对齐方法,包括:
构建三元组语料库,所述三元组语料库中包括若干个三元组;
获取所述三元组语料库中每一个三元组对应的关系向量表征;
根据所述关系向量表征构建三元组中的头实体对应的关系集,从所述关系集中获取范围最大的关系互斥集;
根据所述关系向量表征对所述三元组语料库中的三元组进行聚类分析,并根据所述关系互斥集进行聚类簇合并,得到若干个簇;
对于每一个簇,选择所述簇中出现频率最高的关系向量表征作为目标关系向量表征,将所述簇中的所有三元组的关系向量表征修改为所述目标关系向量表征。
可选地,所述获取所述三元组语料库中每一个三元组对应的关系向量表征包括:
对于三元组语料库中的三元组,查询预设的词向量列表,得到所述三元组对应的关系的第一向量表征;
获取所述三元组对应的头实体向量表征和尾实体向量表征,根据所述头实体向量表征和尾实体向量表征构建所述三元组对应的关系的第二向量表征;
拼接所述第一向量表征和第二向量表征,得到所述三元组对应的关系向量表征。
可选地,所述获取所述三元组对应的头实体向量表征和尾实体向量表征,根据所述头实体向量表征和尾实体向量表征构建所述三元组对应的关系的第二向量表征包括:
获取所述三元组对应的头实体的实体类型及类别信息,查询所述词向量列表,得到所述头实体对应的实体类型向量表征和类别信息向量表征;
求取所述头实体对应的实体类型向量表征和类别信息向量表征之间的平均值,作为所述头实体向量表征;
获取所述三元组对应的尾实体的实体类型及类别信息,查询所述词向量列表,得到所述尾实体对应的实体类型向量表征和类别信息向量表征;
求取所述尾实体对应的实体类型向量表征和类别信息向量表征之间的平均值,作为所述尾实体向量表征;
求取所述头实体向量表征和尾实体向量表征之间的差值,作为所述三元组对应的关系的第二向量表征。
可选地,所述获取所述三元组语料库中每一个三元组对应的关系向量表征包括:
对于三元组语料库中的三元组,查询预设的词向量列表,得到所述三元组对应的属性的第一向量表征;
获取所述三元组对应的头实体向量表征和属性值向量表征,根据所述头实体向量表征和属性值向量表征构建所述三元组对应的属性的第二向量表征;
拼接所述第一向量表征和第二向量表征,得到所述三元组对应的关系向量表征。
可选地,所述获取所述三元组对应的头实体向量表征和属性值向量表征,根据所述头实体向量表征和属性值向量表征构建所述三元组对应的属性的第二向量表征包括:
获取所述三元组对应的头实体的实体类型及类别信息,查询所述词向量列表,得到所述头实体对应的实体类型向量表征和类别信息向量表征;
求取所述头实体对应的实体类型向量表征和类别信息向量表征之间的平均值,作为所述头实体向量表征;
对所述属性值进行分词处理,按照分词结果查询预设的词向量列表,得到每一分词对应的分词向量表征;
求取所述分词向量表征之间的平均值,作为所述属性值向量表征;
求取所述头实体向量表征和属性值向量表征之间的差值,作为所述三元组对应的属性的第二向量表征。
可选地,,所述根据所述关系向量表征构建三元组中的头实体对应的关系集,从所述关系集中获取范围最大的关系互斥集包括:
获取具有相同头实体的三元组及其对应的关系向量表征,对所述关系向量表征进行去重处理,得到所述头实体对应的关系集;
对所有头实体对应的关系集进行包含筛选,得到范围最大的关系互斥集。
可选地,所述根据所述关系向量表征对所述三元组语料库中的三元组进行聚类分析,并根据所述关系互斥集进行聚类簇合并,得到若干个簇包括:
采用预设算法对所述三元组语料库中的三元组对应的关系向量表征进行聚类分析;
在聚类分析过程中,对于待合并的两个聚类簇,判断所述两个聚类簇中是否有至少一个关系向量表征同时存在于同一关系互斥集中;
若是,不合并所述两个聚类簇,否则合并所述两个聚类簇。
一种基于结构化信息的关系对齐装置,包括:
语料库构建模块,用于构建三元组语料库,所述三元组语料库中包括若干个三元组;
关系获取模块,用于获取所述三元组语料库中每一个三元组对应的关系向量表征;
互斥集获取模块,用于根据所述关系向量表征构建三元组中的头实体对应的关系集,从所述关系集中获取范围最大的关系互斥集;
聚类合并模块,用于根据所述关系向量表征对所述三元组语料库中的三元组进行聚类分析,并根据所述关系互斥集进行聚类簇合并,得到若干个簇;
修正模块,用于对于每一个簇,选择所述簇中出现频率最高的关系向量表征作为目标关系向量表征,将所述簇中的所有三元组的关系向量表征修改为所述目标关系向量表征。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于结构化信息的关系对齐方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基于结构化信息的关系对齐方法。
本发明实施例通过构建三元组语料库,所述三元组语料库中包括若干个三元组;获取所述三元组语料库中每一个三元组对应的关系向量表征;根据所述关系向量表征构建三元组中的头实体对应的关系集,从所述关系集中获取范围最大的关系互斥集;根据所述关系向量表征对所述三元组语料库中的三元组进行聚类分析,并根据所述关系互斥集进行聚类簇合并,得到若干个簇;对于每一个簇,选择所述簇中出现频率最高的关系向量表征作为目标关系向量表征,将所述簇中的所有三元组的关系向量表征修改为所述目标关系向量表征,从而提高了关系对齐的精度和实用性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中基于结构化信息的关系对齐方法的流程图;
图2是本发明一实施例中基于结构化信息的关系对齐方法中步骤S102的流程图;
图3是本发明一实施例中基于结构化信息的关系对齐方法中步骤S202的流程图;
图4是本发明另一实施例中基于结构化信息的关系对齐方法中步骤S102的流程图;
图5是本发明另一实施例中基于结构化信息的关系对齐方法中步骤S402的流程图;
图6是本发明一实施例中基于结构化信息的关系对齐方法中步骤S103的流程图;
图7是本发明一实施例中基于结构化信息的关系对齐方法中步骤S104的流程图;
图8是本发明一实施例中基于结构化信息的关系对齐装置的一原理框图;
图9是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本实施例提供了一种基于结构化信息的关系对齐方法。以下将对本实施例提供的基于结构化信息的关系对齐方法进行详细的描述,如图1所示,所述基于结构化信息的关系对齐方法包括:
在步骤S101中,构建三元组语料库,所述三元组语料库中包括若干个三元组。
在这里,本发明实施例通过从互联网网页中解析infobox的内容,获取三元组知识,或者从开放域的知识图谱中获取三元组知识。其中,所述互联网网页包括但不限于百度百科、维基百科。
根据资源描述框架(RDF),任何复杂的语义都可以通过若干三元组的组合来进行表达,在本发明实施例中,所述三元组的形式包括“实体-关系-实体”和“实体-属性-属性值”这两种类型。比如三元组(张三,国籍,中国)属于“实体-关系-实体”这一类型,三元组(李四,出生日期,476年)属于“实体-属性-属性值”这一类型。
在步骤S102中,获取所述三元组语料库中每一个三元组对应的关系向量表征。
在这里,所述关系向量表征是指以向量形式表现的、所述三元组中的关系或者属性。与现有技术不同,本发明实施例结合三元组对应的关系或属性在海量数据中的表征以及三元组自身前后文转化出来的关系表征,得到每一个三元组对应的关系向量表征,从而大大地提高了关系表征的准确率。
可选地,作为本发明的一个优选示例,当所述三元组为“实体-关系-实体”这一类型,如图2所示,步骤S102所述的获取所述三元组语料库中每一个三元组对应的关系向量表征包括:
在步骤S201中,对于三元组语料库中的三元组,查询预设的词向量列表,得到所述三元组对应的关系的第一向量表征。
本发明实施例首先遍历三元组语料库中的每一个三元组,按照所述三元组中的关系词,查询预设的词向量列表获取关系词的向量表征,作为所述三元组对应的关系的第一向量表征,这是本实施例中所述三元组对应的关系的基础表征。其中,所述预设的词向量列表可以为腾讯开源的800万词向量列表。相比于现有技术从非结构化数据中构建关系的表征,本发明实施例通过基于已有的词向量列表来查询三元组中的关系词的向量表征,有利于提高三元组的关系表征获取的速率。
可选地,预设的词向量列表中包含的词向量是有限的,若无法从预设的词向量列表中获取三元组中关系词的向量表征时,可通过对所述三元组中的关系词进行分词,查询所述预设的词向量列表,得到每一分词对应的向量,将所有分词对应的向量进行累加后求取平均值,作为所述三元组对应的关系的基础表征。
在步骤S202中,获取所述三元组对应的头实体向量表征和尾实体向量表征,根据所述头实体向量表征和尾实体向量表征构建所述三元组对应的关系的第二向量表征。
由于预设的词向量列表也是人工编辑的,存在一定的主观性和错误,基于预设的词向量列表查询得到的三元组对应的关系的第一向量表征也会有偏差,对此,本发明实施例进一步基于三元组的头实体向量表征和尾实体向量表征来对所述第一向量表征进行修正。可选地,作为本发明的一个优选示例,如图3所示,步骤S202还包括:
在步骤S301中,获取所述三元组对应的头实体的实体类型及类别信息,查询所述词向量列表,得到所述头实体对应的实体类型向量表征和类别信息向量表征。
在这里,按照应用场景,实体可以按照人物、地点、物品等进行一级划分,得到若干个类型;所述实体类型是指所述头实体在应用场景中所属的一级划分类型。所述实体类型也可以进行二级划分,得到若干个类别信息。示例性地,为了便于理解,表1为本发明实施例提供的现有的某场景经一级划分得到的实体类型和实体类型经二级划分后得到的类别信息。
表1
本发明实施例根据应用场景得到对应的实体类型和类别信息表,根据该表确定所述三元组对应的头实体的实体类型及类别信息;然后查询所述词向量列表,分别得到所述头实体对应的实体类型向量表征和类别信息向量表征。可选地,所述词向量列表可以是前文所述的腾讯开源的800万词向量列表。
在步骤S302中,求取所述头实体对应的实体类型向量表征和类别信息向量表征之间的平均值,作为所述头实体向量表征。
在得到所述头实体对应的实体类型向量表征和类别信息向量表征之后,本发明实施例计算所述头实体对应的实体类型向量表征和类别信息向量表征之间的平均值,从而得到所述头实体的向量表征。
为了便于理解,以下给出头实体“张三”的向量表征的计算过程,基于表1的划分,可以得到所述“张三”对应的实体类型为“人”、类别信息为“第二类人”,然后按照实体类型“人”、类别信息“第二类人”分别查询所述词向量列表,得到“人”的向量表征vec_1作为所述“张三”的实体类型向量表征,得到的“第二类人”的向量表征vec_2作为所述“张三”的类别信息向量表征。所述“张三”作为头实体的向量表征v_head,为“人”的向量表征vec_1和“第二类人”的向量表征vec_2之间的平均值,即v_head=(vec_1+vec_2)/2。
在步骤S303中,获取所述三元组对应的尾实体的实体类型及类别信息,查询所述词向量列表,得到所述尾实体对应的实体类型向量表征和类别信息向量表征。
在步骤S304中,求取所述尾实体对应的实体类型向量表征和类别信息向量表征之间的平均值,作为所述尾实体向量表征。
在这里,尾实体向量表征v_tail的获取及计算流程与头实体向量v_head相同,具体请参见上述步骤S301至步骤S302的记载,此处不再赘述。
在步骤S305中,求取所述头实体向量表征和尾实体向量表征之间的差值,作为所述三元组对应的关系的第二向量表征。
根据三元组表征的经典模型TransE及其变种可知,关系的向量表征v_relation=v_head-v_tail。本发明实施例通过计算所述头实体向量表征和尾实体向量表征之间的差值,作为所述三元组对应的关系的第二向量表征。
在这里,所述三元组对应的关系的第二向量表征是基于三元组自身的前后文关系所得到的,能在一定程度上反映了所述三元组中头实体和尾实体的转化,即体现了所述三元组中的关系。
在步骤S203中,拼接所述第一向量表征和第二向量表征,得到所述三元组对应的关系向量表征。
在这里,本发明实施例以所述第一向量表征作为“实体-关系-实体”这一类型的基础向量,以所述第二向量表征作为“实体-关系-实体”这一类型的修正向量,通过将所述第一向量表征和第二向量表征拼接在一起,所得到的组合作为所述“实体-关系-实体”这一类型三元组对应的关系向量表征。其中,若第一向量表征的长度为len1,第二向量表征的长度为len2,那么拼接后所得到的关系向量表征的长度为len1+len2。
可选地,作为本发明的另一个优选示例,当所述三元组为“实体-属性-属性值”这一类型,如图4所示,步骤S102所述的获取所述三元组语料库中每一个三元组对应的关系向量表征包括:
在步骤S401中,对于三元组语料库中的三元组,查询预设的词向量列表,得到所述三元组对应的属性的第一向量表征。
本发明实施例首先遍历三元组语料库中的每一个三元组,按照所述三元组中的属性值,查询预设的词向量列表获取属性值的向量表征,作为所述三元组对应的属性的第一向量表征,这是本实施例中所述三元组对应的属性的基础表征。其中,所述预设的词向量列表可以为腾讯开源的800万词向量列表。相比于现有技术从非结构化数据中构建属性的表征,本发明实施例通过基于已有的词向量列表来查询三元组中的属性值的向量表征,有利于提高三元组的关系表征获取的速率。
可选地,预设的词向量列表中包含的词向量是有限的,若无法从预设的词向量列表中获取三元组中属性值的向量表征时,可通过对所述三元组中的关系词进行分词,查询所述预设的词向量列表,得到每一分词对应的向量,将所有分词对应的向量进行累加后求取平均值,作为所述三元组对应的属性的基础表征。
在步骤S402中,获取所述三元组对应的头实体向量表征和属性值向量表征,根据所述头实体向量表征和属性值向量表征构建所述三元组对应的属性的第二向量表征。
由于预设的词向量列表也是人工编辑的,存在一定的主观性和错误,基于预设的词向量列表查询得到的三元组对应的属性的第一向量表征也会有偏差,对此,本发明实施例进一步基于三元组的头实体向量表征和属性值向量表征来对所述第一向量表征进行修正。可选地,作为本发明的一个优选示例,如图5所示,步骤S402还包括:
在步骤S501中,获取所述三元组对应的头实体的实体类型及类别信息,查询所述词向量列表,得到所述头实体对应的实体类型向量表征和类别信息向量表征。
在步骤S502中,求取所述头实体对应的实体类型向量表征和类别信息向量表征之间的平均值,作为所述头实体向量表征。
在这里,步骤S501至步骤S502与上述步骤S301至步骤S302相同,具体请参见上述步骤S301至步骤S302的记载,此处不再赘述。
在步骤S503中,对所述三元组中的属性值进行分词处理,按照分词结果查询预设的词向量列表,得到每一分词对应的分词向量表征。
对于属性值,本发明实施例对所述三元组中的属性值进行分词处理,得到若干个分词,然后查询预设的词向量列表得到每一个分词对应的分词向量表征。可选地,所述预设的词向量列表可以为前文所述的腾讯开源的800万词向量列表。分词处理可以通过调用jieba分词工具进行。
在步骤S504中,求取所述分词向量表征之间的平均值,作为所述属性值向量表征。
在分词后,本发明实施例对所述属性值对应的所有分词向量表征求取平均值,作为所述三元组对应的属性值向量表征。
在步骤S505中,求取所述头实体向量表征和属性值向量表征之间的差值,作为所述三元组对应的属性的第二向量表征。
与步骤S305原理相似,本发明实施例通过计算所述头实体向量表征和属性值向量表征之间的差值,作为所述三元组对应的属性的第二向量表征。
在这里,所述三元组对应的属性的第二向量表征是基于三元组自身的前后文关系所得到的,能在一定程度上反映了所述三元组中头实体和属性值的转化,即体现了所述三元组中的属性。
在步骤S403中,拼接所述第一向量表征和第二向量表征,得到所述三元组对应的关系向量表征。
在这里,本发明实施例以所述第一向量表征作为“实体-属性-属性值”这一类型的基础向量,以所述第二向量表征作为“实体-属性-属性值”这一类型的修正向量,通过将所述第一向量表征和第二向量表征拼接在一起,所得到的组合作为“实体-属性-属性值”这一类型三元组对应的关系向量表征。其中,若第一向量表征的长度为len1,第二向量表征的长度为len2,那么拼接后所得到的关系向量表征的长度为len1+len2。
通过拼接得到的关系向量表征,不仅考虑了作为关系或属性的词语本身的词义表征,同时加入了关系或属性所处的三元组的上下文环境所提供的表征帮助,能够有效地修正第一向量表征中的人为主观性,提高关系表征的准确率。
在步骤S103中,根据所述关系向量表征构建三元组中的头实体对应的关系集,从所述关系集中获取范围最大的关系互斥集。
在这里,所述关系集是指将指定三元组中的关系或者属性取出来,并进行去重处理后得到的集合。本发明实施例根据三元组中的头实体构建对应的关系集。所述关系互斥集是指相互之间不存在包含或者被包含关系的关系集。本发明实施例通过对关系集进行包含筛选,得到范围最大的关系互斥集。可选地,作为本发明的一个优选示例,如图6所示,步骤S103还包括:
在步骤S601中,获取具有相同头实体的三元组及其对应的关系向量表征,对所述关系向量表征进行去重处理,得到所述头实体对应的关系集。
本发明实施例根据三元组的头实体进行分类,得到具有相同头实体的三元组,组合具有相同头实体的三元组对应的关系向量表征,并对组合中相同的关系向量表征进行去重处理,仅保留一个关系向量表征,最后所得到的集合作为所述头实体对应的关系集。应当理解,经过去重处理,所述关系集中所包含的关系或者属性是互斥的,不能进行聚类。当一个三元组语料库中包括n个不同的头实体时,对应可以得到n组关系集。
在步骤S602中,对所有头实体对应的关系集进行包含筛选,得到范围最大的关系互斥集。
不同头实体对应的关系集可能存在包含关系,对此,本发明实施例通过比较所有头实体对应的关系集,对所有头实体对应的关系集进行包含筛选,合并具有包含关系的关系集,经过若干次合并,将得到范围最大的关系互斥集。
示例性地,当一个三元组语料库中包括4个不同的头实体时,对应可以得到4组关系集,分别为({本名,别称,所处时代,民族族群},{中文名,外文名,出生地,代表作品},{本名,所处时代},{中文名,外文名}),其中关系集{本名,所处时代}∈关系集{本名,别称,所处时代,民族族群},关系集{中文名,外文名}∈关系集{中文名,外文名,出生地,代表作品}。将关系集{本名,所处时代}与关系集{本名,别称,所处时代,民族族群合并,将关系集{中文名,外文名}与关系集{中文名,外文名,出生地,代表作品}合并,最终得到范围最大的两个关系互斥集({本名,别称,所处时代,民族族群},{中文名,外文名,出生地,代表作品})。
在步骤S104中,根据所述关系向量表征对所述三元组语料库中的三元组进行聚类分析,并根据所述关系互斥集进行聚类簇合并,得到若干个簇。
本发明实施例采用预设的聚类算法对所述关系向量表征进行聚类分析,以将所述三元组语料库中具有相同或相似关系的所有三元组聚类到一个簇中,以完成关系对齐处理。可选地,作为本发明的一个优选示例,如图7所示,步骤S104还包括:
在步骤S701中,采用预设算法对所述三元组语料库中的三元组对应的关系向量表征进行聚类分析。
可选地,本发明实施例采用半监督的层次聚类算法对所述三元组语料库中的三元组进行聚类分析,由底往上对所得到的聚类簇进行两两合并。
在步骤S702中,在聚类分析过程中,对于待合并的两个聚类簇,判断所述两个聚类簇中是否有至少一个关系向量表征同时存在于同一关系互斥集中。
本发明实施例将所述关系互斥集融合到聚类模型中。在聚类模型通过层次聚类算法对两两聚类簇进行合并之前,基于所述关系互斥集确定待合并的两个聚类簇是否可以合并。如前所述,经过去重处理,所述关系集中所包含的关系或者属性是互斥的,关系互斥集中所包含的关系或者属性也是互斥的,不能进行聚类。本发明实施例通过判断所述两个聚类簇中是否有至少一个关系向量表征同时存在于同一关系互斥集中。
若是时,表明所述两个聚类簇存在互斥的元素,所述两个聚类簇不是相同或相似的,不能进行关系对齐,执行步骤S703;否则,表明所述两个聚类簇不存在互斥的元素,所述两个聚类簇是相同或相似的,可进行关系对齐,执行步骤S704。
在步骤S703中,不合并所述两个聚类簇。
在步骤S704中,合并所述两个聚类簇。
本发明实施例将关系互斥集融入到聚类分析的过程中,加入的先验知识能够有效地提高聚类分析中聚类簇合并的准确度,提高了关系对齐的精度和实用性。
在步骤S105中,对于每一个簇,选择所述簇中出现频率最高的关系向量表征作为目标关系向量表征,将所述簇中的所有三元组的关系向量表征修改为所述目标关系向量表征。
最后聚类得到的簇中包括若干个相同或者显示的关系向量表征,本发明实施例进一步对每一个簇中的关系向量表征进行频次统计及比较,获取出现频率最高的关系向量表征,作为所述簇的目标关系向量表征。对于所述簇中的关系向量表征不是所述目标关系向量表征的三元组,将其关系向量表征修改为所述目标关系向量表征,以纠正簇中的错误关系、偏差关系,能够有效地纠正人为主观性造成的错误或偏差,大大地提高了关系对齐的精度和实用性。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种基于结构化信息的关系对齐装置,该基于结构化信息的关系对齐装置与上述实施例中基于结构化信息的关系对齐方法一一对应。如图8所示,该基于结构化信息的关系对齐装置包括语料库构建模块81、关系获取模块82、互斥集获取模块83、聚类合并模块84、修正模块85。各功能模块详细说明如下:
语料库构建模块81,用于构建三元组语料库,所述三元组语料库中包括若干个三元组;
关系获取模块82,用于获取所述三元组语料库中每一个三元组对应的关系向量表征;
互斥集获取模块83,用于根据所述关系向量表征构建三元组中的头实体对应的关系集,从所述关系集中获取范围最大的关系互斥集;
聚类合并模块84,用于根据所述关系向量表征对所述三元组语料库中的三元组进行聚类分析,并根据所述关系互斥集进行聚类簇合并,得到若干个簇;
修正模块85,用于对于每一个簇,选择所述簇中出现频率最高的关系向量表征作为目标关系向量表征,将所述簇中的所有三元组的关系向量表征修改为所述目标关系向量表征。
可选地,所述关系获取模块82包括:
第一向量表征获取单元,用于对于三元组语料库中的三元组,查询预设的词向量列表,得到所述三元组对应的关系的第一向量表征;
第二向量表征获取单元,用于获取所述三元组对应的头实体向量表征和尾实体向量表征,根据所述头实体向量表征和尾实体向量表征构建所述三元组对应的关系的第二向量表征;
拼接单元,用于拼接所述第一向量表征和第二向量表征,得到所述三元组对应的关系向量表征。
可选地,所述第二向量表征获取单元包括:
第一查询子单元,用于获取所述三元组对应的头实体的实体类型及类别信息,查询所述词向量列表,得到所述头实体对应的实体类型向量表征和类别信息向量表征;
第一计算子单元,用于求取所述头实体对应的实体类型向量表征和类别信息向量表征之间的平均值,作为所述头实体向量表征;
第二查询子单元,用于获取所述三元组对应的尾实体的实体类型及类别信息,查询所述词向量列表,得到所述尾实体对应的实体类型向量表征和类别信息向量表征;
第二计算子单元,用于求取所述尾实体对应的实体类型向量表征和类别信息向量表征之间的平均值,作为所述尾实体向量表征;
第三计算子单元,用于求取所述头实体向量表征和尾实体向量表征之间的差值,作为所述三元组对应的关系的第二向量表征。
可选地,所述关系获取模块82包括:
第一向量表征获取单元,用于对于三元组语料库中的三元组,查询预设的词向量列表,得到所述三元组对应的属性的第一向量表征;
第二向量表征获取单元,用于获取所述三元组对应的头实体向量表征和属性值向量表征,根据所述头实体向量表征和属性值向量表征构建所述三元组对应的属性的第二向量表征;
拼接单元,用于拼接所述第一向量表征和第二向量表征,得到所述三元组对应的关系向量表征。
可选地,所述第二向量表征获取单元包括:
第一查询子单元,用于获取所述三元组对应的头实体的实体类型及类别信息,查询所述词向量列表,得到所述头实体对应的实体类型向量表征和类别信息向量表征;
第一计算子单元,用于求取所述头实体对应的实体类型向量表征和类别信息向量表征之间的平均值,作为所述头实体向量表征;
第二查询子单元,用于对所述属性值进行分词处理,按照分词结果查询预设的词向量列表,得到每一分词对应的分词向量表征;
第二计算子单元,用于求取所述分词向量表征之间的平均值,作为所述属性值向量表征;
第三计算子单元,用于求取所述头实体向量表征和属性值向量表征之间的差值,作为所述三元组对应的属性的第二向量表征。
可选地,所述互斥集获取模块83包括:
关系集获取单元,用于获取具有相同头实体的三元组及其对应的关系向量表征,对所述关系向量表征进行去重处理,得到所述头实体对应的关系集;
互斥集获取单元,用于对所有头实体对应的关系集进行包含筛选,得到范围最大的关系互斥集。
可选地,所述聚类合并模块84包括:
聚类单元,用于采用预设算法对所述三元组语料库中的三元组对应的关系向量表征进行聚类分析;
判断单元,用于在聚类分析过程中,对于待合并的两个聚类簇,判断所述两个聚类簇中是否有至少一个关系向量表征同时存在于同一关系互斥集中;
合并处理单元,用于当判断单元的判断结果为是时,不合并所述两个聚类簇,否则合并所述两个聚类簇。
关于基于结构化信息的关系对齐装置的具体限定可以参见上文中对于基于结构化信息的关系对齐方法的限定,在此不再赘述。上述基于结构化信息的关系对齐装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于结构化信息的关系对齐方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
构建三元组语料库,所述三元组语料库中包括若干个三元组;
获取所述三元组语料库中每一个三元组对应的关系向量表征;
根据所述关系向量表征构建三元组中的头实体对应的关系集,从所述关系集中获取范围最大的关系互斥集;
根据所述关系向量表征对所述三元组语料库中的三元组进行聚类分析,并根据所述关系互斥集进行聚类簇合并,得到若干个簇;
对于每一个簇,选择所述簇中出现频率最高的关系向量表征作为目标关系向量表征,将所述簇中的所有三元组的关系向量表征修改为所述目标关系向量表征。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于结构化信息的关系对齐方法,其特征在于,包括:
构建三元组语料库,所述三元组语料库中包括若干个三元组;
获取所述三元组语料库中每一个三元组对应的关系向量表征;
根据所述关系向量表征构建三元组中的头实体对应的关系集,从所述关系集中获取范围最大的关系互斥集;
根据所述关系向量表征对所述三元组语料库中的三元组进行聚类分析,并根据所述关系互斥集进行聚类簇合并,得到若干个簇;
对于每一个簇,选择所述簇中出现频率最高的关系向量表征作为目标关系向量表征,将所述簇中的所有三元组的关系向量表征修改为所述目标关系向量表征;
所述根据所述关系互斥集进行聚类簇合并,得到若干个簇包括:
在聚类分析过程中,对于待合并的两个聚类簇,判断所述两个聚类簇中是否有至少一个关系向量表征同时存在于同一关系互斥集中;
若是,不合并所述两个聚类簇,否则合并所述两个聚类簇。
2.如权利要求1所述的基于结构化信息的关系对齐方法,其特征在于,所述获取所述三元组语料库中每一个三元组对应的关系向量表征包括:
对于三元组语料库中的三元组,查询预设的词向量列表,得到所述三元组对应的关系的第一向量表征;
获取所述三元组对应的头实体向量表征和尾实体向量表征,根据所述头实体向量表征和尾实体向量表征构建所述三元组对应的关系的第二向量表征;
拼接所述第一向量表征和第二向量表征,得到所述三元组对应的关系向量表征。
3.如权利要求2所述的基于结构化信息的关系对齐方法,其特征在于,所述获取所述三元组对应的头实体向量表征和尾实体向量表征,根据所述头实体向量表征和尾实体向量表征构建所述三元组对应的关系的第二向量表征包括:
获取所述三元组对应的头实体的实体类型及类别信息,查询所述词向量列表,得到所述头实体对应的实体类型向量表征和类别信息向量表征;
求取所述头实体对应的实体类型向量表征和类别信息向量表征之间的平均值,作为所述头实体向量表征;
获取所述三元组对应的尾实体的实体类型及类别信息,查询所述词向量列表,得到所述尾实体对应的实体类型向量表征和类别信息向量表征;
求取所述尾实体对应的实体类型向量表征和类别信息向量表征之间的平均值,作为所述尾实体向量表征;
求取所述头实体向量表征和尾实体向量表征之间的差值,作为所述三元组对应的关系的第二向量表征。
4.如权利要求1至3任一项所述的基于结构化信息的关系对齐方法,其特征在于,所述获取所述三元组语料库中每一个三元组对应的关系向量表征包括:
对于三元组语料库中的三元组,查询预设的词向量列表,得到所述三元组对应的属性的第一向量表征;
获取所述三元组对应的头实体向量表征和属性值向量表征,根据所述头实体向量表征和属性值向量表征构建所述三元组对应的属性的第二向量表征;
拼接所述第一向量表征和第二向量表征,得到所述三元组对应的关系向量表征。
5.如权利要求4所述的基于结构化信息的关系对齐方法,其特征在于,所述获取所述三元组对应的头实体向量表征和属性值向量表征,根据所述头实体向量表征和属性值向量表征构建所述三元组对应的属性的第二向量表征包括:
获取所述三元组对应的头实体的实体类型及类别信息,查询所述词向量列表,得到所述头实体对应的实体类型向量表征和类别信息向量表征;
求取所述头实体对应的实体类型向量表征和类别信息向量表征之间的平均值,作为所述头实体向量表征;
对所述三元组中的属性值进行分词处理,按照分词结果查询预设的词向量列表,得到每一分词对应的分词向量表征;
求取所述分词向量表征之间的平均值,作为所述属性值向量表征;
求取所述头实体向量表征和属性值向量表征之间的差值,作为所述三元组对应的属性的第二向量表征。
6.如权利要求1、5任一项所述的基于结构化信息的关系对齐方法,其特征在于,所述根据所述关系向量表征构建三元组中的头实体对应的关系集,从所述关系集中获取范围最大的关系互斥集包括:
获取具有相同头实体的三元组及其对应的关系向量表征,对所述关系向量表征进行去重处理,得到所述头实体对应的关系集;
对所有头实体对应的关系集进行包含筛选,得到范围最大的关系互斥集。
7.如权利要求6所述的基于结构化信息的关系对齐方法,其特征在于,所述根据所述关系向量表征对所述三元组语料库中的三元组进行聚类分析包括:
采用预设算法对所述三元组语料库中的三元组对应的关系向量表征进行聚类分析。
8.一种基于结构化信息的关系对齐装置,其特征在于,所述装置包括:
语料库构建模块,用于构建三元组语料库,所述三元组语料库中包括若干个三元组;
关系获取模块,用于获取所述三元组语料库中每一个三元组对应的关系向量表征;
互斥集获取模块,用于根据所述关系向量表征构建三元组中的头实体对应的关系集,从所述关系集中获取范围最大的关系互斥集;
聚类合并模块,用于根据所述关系向量表征对所述三元组语料库中的三元组进行聚类分析,并根据所述关系互斥集进行聚类簇合并,得到若干个簇;
修正模块,用于对于每一个簇,选择所述簇中出现频率最高的关系向量表征作为目标关系向量表征,将所述簇中的所有三元组的关系向量表征修改为所述目标关系向量表征;
所述聚类合并模块包括:
判断单元,用于在聚类分析过程中,对于待合并的两个聚类簇,判断所述两个聚类簇中是否有至少一个关系向量表征同时存在于同一关系互斥集中;
合并处理单元,用于当判断单元的判断结果为是时,不合并所述两个聚类簇,否则合并所述两个聚类簇。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的基于结构化信息的关系对齐方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的基于结构化信息的关系对齐方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110420316.6A CN113158668B (zh) | 2021-04-19 | 2021-04-19 | 基于结构化信息的关系对齐方法、装置、设备及介质 |
PCT/CN2021/096584 WO2022222226A1 (zh) | 2021-04-19 | 2021-05-28 | 基于结构化信息的关系对齐方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110420316.6A CN113158668B (zh) | 2021-04-19 | 2021-04-19 | 基于结构化信息的关系对齐方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113158668A CN113158668A (zh) | 2021-07-23 |
CN113158668B true CN113158668B (zh) | 2023-02-28 |
Family
ID=76868936
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110420316.6A Active CN113158668B (zh) | 2021-04-19 | 2021-04-19 | 基于结构化信息的关系对齐方法、装置、设备及介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN113158668B (zh) |
WO (1) | WO2022222226A1 (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104933164A (zh) * | 2015-06-26 | 2015-09-23 | 华南理工大学 | 互联网海量数据中命名实体间关系提取方法及其系统 |
CN111061841A (zh) * | 2019-12-19 | 2020-04-24 | 京东方科技集团股份有限公司 | 知识图谱的构建方法及装置 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150127323A1 (en) * | 2013-11-04 | 2015-05-07 | Xerox Corporation | Refining inference rules with temporal event clustering |
US9740771B2 (en) * | 2014-09-26 | 2017-08-22 | International Business Machines Corporation | Information handling system and computer program product for deducing entity relationships across corpora using cluster based dictionary vocabulary lexicon |
KR101983455B1 (ko) * | 2017-09-21 | 2019-05-28 | 숭실대학교산학협력단 | 지식베이스 구축 방법 및 그 서버 |
CN110851609A (zh) * | 2018-07-24 | 2020-02-28 | 华为技术有限公司 | 表示学习方法及装置 |
CN109992673A (zh) * | 2019-04-10 | 2019-07-09 | 广东工业大学 | 一种知识图谱生成方法、装置、设备及可读存储介质 |
CN110516078A (zh) * | 2019-08-27 | 2019-11-29 | 合肥工业大学 | 对齐方法及装置 |
CN111026865B (zh) * | 2019-10-18 | 2023-07-21 | 平安科技(深圳)有限公司 | 知识图谱的关系对齐方法、装置、设备及存储介质 |
CN111198950B (zh) * | 2019-12-24 | 2021-10-15 | 浙江工业大学 | 一种基于语义向量的知识图谱表示学习方法 |
CN112149400B (zh) * | 2020-09-23 | 2021-07-27 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、设备及存储介质 |
-
2021
- 2021-04-19 CN CN202110420316.6A patent/CN113158668B/zh active Active
- 2021-05-28 WO PCT/CN2021/096584 patent/WO2022222226A1/zh active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104933164A (zh) * | 2015-06-26 | 2015-09-23 | 华南理工大学 | 互联网海量数据中命名实体间关系提取方法及其系统 |
CN111061841A (zh) * | 2019-12-19 | 2020-04-24 | 京东方科技集团股份有限公司 | 知识图谱的构建方法及装置 |
Non-Patent Citations (2)
Title |
---|
Triplet-Aware Scene Graph Embeddings;Brigit Schroeder et al.;《arXiv:1909.09256v1 [cs.CV]》;20190919;第1-5页 * |
中文产品评论结构化引擎;杨慧 等;《计算机与现代化》;20140731(第7期);第1-7、15页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113158668A (zh) | 2021-07-23 |
WO2022222226A1 (zh) | 2022-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11301637B2 (en) | Methods, devices, and systems for constructing intelligent knowledge base | |
US20210295162A1 (en) | Neural network model training method and apparatus, computer device, and storage medium | |
WO2022142613A1 (zh) | 训练语料扩充方法及装置、意图识别模型训练方法及装置 | |
WO2019136993A1 (zh) | 文本相似度计算方法、装置、计算机设备和存储介质 | |
CN111881693B (zh) | 论文作者的消歧方法、装置和计算机设备 | |
WO2020034810A1 (zh) | 搜索方法、装置、计算机设备和存储介质 | |
US20220335086A1 (en) | Full-text indexing method and system based on graph database | |
WO2023045184A1 (zh) | 一种文本类别识别方法、装置、计算机设备及介质 | |
WO2020048048A1 (zh) | 不平衡样本数据预处理方法、装置和计算机设备 | |
WO2021027162A1 (zh) | 一种非满格表格内容提取方法、装置及终端设备 | |
CN108595437B (zh) | 文本查询纠错方法、装置、计算机设备和存储介质 | |
CN112434003B (zh) | 一种sql优化方法、装置、计算机设备及存储介质 | |
CN112560444A (zh) | 文本处理方法、装置、计算机设备和存储介质 | |
WO2020132933A1 (zh) | 短文本过滤方法、装置、介质及计算机设备 | |
EP2897054A2 (en) | Entity resolution from documents | |
CN112883030A (zh) | 数据收集方法、装置、计算机设备和存储介质 | |
US20230018381A1 (en) | Method for automatically identifying design changes in building information model | |
CN112395425A (zh) | 一种数据处理方法、装置、计算机设备以及可读存储介质 | |
CN112559526A (zh) | 数据表导出方法、装置、计算机设备及存储介质 | |
CN115062016A (zh) | 关联关系提取方法、装置和计算机设备 | |
CN117216239A (zh) | 文本去重方法、装置、计算机设备及存储介质 | |
CN109213775B (zh) | 搜索方法、装置、计算机设备和存储介质 | |
CN113158668B (zh) | 基于结构化信息的关系对齐方法、装置、设备及介质 | |
CN113761161A (zh) | 文本关键词提取方法、装置、计算机设备和存储介质 | |
CN110704437B (zh) | 数据库查询语句的修改方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |