CN112528046A - 新的知识图谱的构建方法、装置和信息检索方法、装置 - Google Patents

新的知识图谱的构建方法、装置和信息检索方法、装置 Download PDF

Info

Publication number
CN112528046A
CN112528046A CN202011573618.9A CN202011573618A CN112528046A CN 112528046 A CN112528046 A CN 112528046A CN 202011573618 A CN202011573618 A CN 202011573618A CN 112528046 A CN112528046 A CN 112528046A
Authority
CN
China
Prior art keywords
entity object
text information
information
knowledge graph
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011573618.9A
Other languages
English (en)
Other versions
CN112528046B (zh
Inventor
张林箭
张聪
赵玉坤
范长杰
胡志鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Netease Hangzhou Network Co Ltd
Original Assignee
Netease Hangzhou Network Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Netease Hangzhou Network Co Ltd filed Critical Netease Hangzhou Network Co Ltd
Priority to CN202011573618.9A priority Critical patent/CN112528046B/zh
Publication of CN112528046A publication Critical patent/CN112528046A/zh
Application granted granted Critical
Publication of CN112528046B publication Critical patent/CN112528046B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了新的知识图谱的构建方法、装置和信息检索方法、装置。其中,上述新的知识图谱的构建方法包括:获取一原始知识图谱,原始知识图谱至少包括第一实体对象、第二实体对象;基于第一实体对象获取文本信息;根据文本信息,识别出与文本信息具有关联关系的第二实体对象;在原始知识图谱中建立文本信息分别与第一实体对象和第二实体对象的关联关系,以构建新的知识图谱,从而通过将文本信息多个实体对象关联在一起,丰富了新的知识图谱的内容,提高了检索结果的丰富性,解决了现有的知识图谱信息单一无法满足实际应用需要的问题,以及,缓解了不同数据库之间因查询隔阂导致检索速度慢的问题。

Description

新的知识图谱的构建方法、装置和信息检索方法、装置
技术领域
本发明涉及检索式对话技术领域,尤其是涉及新的知识图谱的构建方法、装置和信息检索方法、装置。
背景技术
KG(Knowledge Graph,知识图谱)在自然语言处理领域有着广泛的应用场景。从组成形式来看,KG主要由点和边组成,其中,点描述了实体的属性信息,比如“张三”这个实体包含了“身高”、“年龄”等属性;边则描述了点和点之间的关系信息,比如“张三”和“张四”两个实体之间可以通过“女儿”这条边建立联系。因此,现有的知识图谱中信息比较单一,主要包括多个实体对象,具有关联关系的两个实体对象之间连接有关系线。
现有的基于KG的检索式问答方法中,通常将KG和回答语料分开存储,其中,KG采用图数据库存储,回答采用ES(Elasticsearch,搜索服务器)存储,在实际应用时,需要先后访问两个数据库才能够获取到最终的回复候选项,由于知识图谱中信息比较单一,每条回答语料仅与KG中相关的实体对象关联,导致检索效率较低,检索结果不理想,因此,现有的知识图谱无法满足实际应用需求。
发明内容
有鉴于此,本发明的目的在于提供新的知识图谱的构建方法、装置和信息检索方法、装置,以缓解上述问题,丰富了新的知识图谱的内容,提高了检索结果的丰富性,以及,缓解了不同数据库之间因查询隔阂导致检索速度慢到的问题,提高了信息检索速度。
第一方面,本发明实施例提供了一种新的知识图谱的构建方法,该方法包括:获取一原始知识图谱,原始知识图谱至少包括第一实体对象、第二实体对象;基于第一实体对象获取文本信息;其中,文本信息包括第一实体对象的评论信息和/或描述信息;根据文本信息,识别出与文本信息具有关联关系的第二实体对象;在原始知识图谱中建立文本信息分别与第一实体对象和第二实体对象的关联关系,以构建新的知识图谱。
进一步的,上述基于第一实体对象获取文本信息的步骤,包括:向第一实体对象对应的指定信息源获取原始文本信息;根据预设规则优化原始文本信息,得到优化后的文本信息。
进一步的,上述在原始知识图谱中建立文本信息分别与第一实体对象和第二实体对象的关联关系的步骤,包括:在原始知识图谱中建立文本信息分别与第一实体对象和第二实体对象的直接关联关系,以构建新的知识图谱;和/或,在原始知识图谱中建立文本信息分别与第一实体对象和第二实体对象的间接关联关系,以构建新的知识图谱。
进一步的,上述在原始知识图谱中建立文本信息分别与第一实体对象和第二实体对象的间接关联关系的步骤,包括:基于实体识别技术,识别出文本信息中包含的关联关系;在原始知识图谱中,确定与第一实体对象具有关联关系的第一尾实体对象,以及与第二实体对象具有关联关系的第二尾实体对象;建立文本信息分别与第一尾实体对象和第二尾实体对象的关联关系。
进一步的,上述建立文本信息分别与第一尾实体对象和第二尾实体对象的关联关系的步骤,包括:如果第一实体对象和关联关系均为多个,遍历第一实体对象和关联关系的所有组合,得到尾实体对象集合;建立文本信息与第一尾实体对象集合中每个第一尾实体对象之间的关联关系;其中,第一尾实体对象集合包括多个与第一实体对象具有关联关系的第一尾实体对象;和/或,如果第二实体对象和关联关系均为多个,遍历第二实体对象和关联关系的所有组合,得到第二尾实体对象集合;建立文本信息与第二尾实体对象集合中每个第二尾实体对象之间的关联关系;其中,第二尾实体对象集合包括多个与第二实体对象具有关联关系的第二尾实体对象。
进一步的,上述根据预设规则优化原始文本信息的步骤至少包括以下之一:对获取到的原始文本信息进行过滤处理;对获取到的原始文本信息进行加权处理;对获取到的原始文本信息进行去重处理;对获取到的原始文本信息进行聚类处理。
进一步的,上述对获取到的原始文本信息进行去重处理的步骤,包括:对获取到的第一实体对象的相同或相似的原始文本信息进行去重处理。
第二方面,本发明实施例还提供一种信息检索方法,该方法应用于配置有新的知识图谱的电子设备,新的知识图谱为基于第一方面的新的知识图谱的构建方法得到的,该方法包括:响应于输入的检索信息,识别出与检索信息具有关联关系的第三实体对象;根据第三实体对象,在新的知识图谱中检索得到与第三实体对象具有关联关系的目标文本信息。
进一步的,上述在新的知识图谱中检索得到与第三实体对象具有关联关系的目标文本信息的步骤,包括:基于新的知识图谱,对第三实体对象进行检索,得到第三实体对象对应的答复候选集合;其中,答复候选集合包括与第三实体对象具有关联关系的多个文本信息;通过对答复候选集合中的多个文本信息排序,确定目标文本信息。
进一步的,新的知识图谱中的文本信息配置有加权值;上述通过对答复候选集合中的多个文本信息排序,确定目标文本信息的步骤,包括:基于加权值对多个文本信息进行排序,并根据排序结果确定目标文本信息。
第三方面,本发明实施例还提供一种新的知识图谱的构建装置,该装置包括:第一获取模块,用于获取一原始知识图谱,原始知识图谱至少包括第一实体对象、第二实体对象;第二获取模块,用于基于第一实体对象获取文本信息;其中,文本信息包括第一实体对象的评论信息和/或描述信息;识别模块,用于根据文本信息,识别出与文本信息具有关联关系的第二实体对象;建立模块,用于在原始知识图谱中建立文本信息分别与第一实体对象和第二实体对象的关联关系,以构建新的知识图谱。
第四方面,本发明实施例还提供一种信息检索装置,该装置应用于配置有新的知识图谱的电子设备,新的知识图谱为基于第一方面的新的知识图谱的构建方法得到的,该装置包括:响应模块,用于响应于输入的检索信息,识别出与检索信息具有关联关系的第三实体对象;检索模块,用于根据第三实体对象,在新的知识图谱中检索得到与第三实体对象具有关联关系的目标文本信息。
第五方面,本发明实施例还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现第一方面和第二方面的方法的步骤。
第六方面,本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行第一方面和第二方面的方法的步骤。
本发明实施例带来了以下有益效果:
本发明实施例提供了新的知识图谱的构建方法、装置和信息检索方法、装置,通过建立文本信息分别与第一实体对象和第二实体对象的关联关系,以构建新的知识图谱中,实现了每条文本信息与多个实体对象关联,以及,文本信息包含有实体对象的评论信息和/或描述信息,这些信息的引入丰富了新的知识图谱的内容,缓解了现有方法中每条文本信息仅与相关的一个实体对象关联,导致知识图谱信息比较单一的问题,提高了检索结果的丰富性。同时,这种将文本信息与多个实体对象融合于新的知识图谱的方式,还缓解了现有方法中实体对象和知识图谱存储在不同数据库之间,由于查询隔阂导致的检索速度慢的问题,提高了信息检索的速度,进而提升了新的知识图谱的实用价值。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种新的知识图谱的构建方法的流程图;
图2为本发明实施例提供的一种原始知识图谱的示意图;
图3为本发明实施例提供的一种构建的新的知识图谱的示意图;
图4为本发明实施例提供的一种建立文本信息与实体对象的间接关联关系的流程图;
图5为本发明实施例提供的一种信息检索方法的流程图;
图6为本发明实施例提供的另一种构建的新的知识图谱的示意图;
图7为本发明实施例提供的一种新的知识图谱的构建装置的示意图;
图8为本发明实施例提供的一种信息检索装置的示意图;
图9为本发明实施例提供的一种电子设备的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
随着人机交互技术的发展,信息检索应用的场景越来越多,比如,游戏场景中的人机对话,或者某些电商领域中的自助回复等,为了提升信息检索的准确性和效率,信息检索通常基于预先建立的知识图谱进行。而针对现有知识图谱中每条文本信息仅与相关实体对象关联,导致信息比较单一的问题,本发明实施例提供了新的知识图谱的构建方法、装置和信息检索方法、装置,通过建立文本信息与多个实体对象之间的关联关系,丰富了新的知识图谱的内容,提高了检索结果的丰富性。
为便于对本实施例进行理解,下面首先对本发明实施例提供的一种知识图谱的构建方法进行详细介绍。
本发明实施例提供了一种新的知识图谱的构建方法,执行主体为服务器,其中,服务器或者与其关联的可通信设备中预存有原始知识图谱,如图1所示,该方法包括以下步骤:
步骤S102,获取一原始知识图谱,原始知识图谱至少包括第一实体对象、第二实体对象。
具体地,原始知识图谱包括多个实体对象,这里实体对象也称为实体,具有关联关系的两个实体对象之间连接有关系线,参见图2所示的一种原始知识图谱示意图,其中,圆形用于表示实体对象,具有关联关系的两个实体对象之间连接有关系线,如无填充圆形表示声优实体对象,有填充圆形则表示动漫实体对象,具有关联关系的声优实体对象和动漫实体对象之间连接有关系线。
原始知识图谱可以采用相关技术中的KG,从内容上可以分为两大类:开放域KG和特定领域(垂直领域)的KG,其中,典型的开放域KG如中文通用百科知识图谱CN-DBpedia、维基数据Wikidata、开源语义网络ConceptNet和创作共享类网站Freebase等;CN-DBpedia是最大的中文开放域百科知识,其中,所有知识采用三元组形式表示,涵盖了人物、作品、地点等通用领域的知识,从广义上来看,可以理解为多个垂域知识的集合。特定领域的KG如电影领域的IMDB(Internet Movie Database,互联网电影资料库)和音乐领域的自由音乐数据库MusicBrainz等。
需要说明的是,上述原始知识图谱中的第一实体对象和第二实体对象可以连接有关系线,也可以为没有关联关系的两个实体对象,具体可以根据实际情况进行设置,本发明实施例对此不作限制说明。
步骤S104,基于第一实体对象获取文本信息;其中,文本信息包括第一实体对象的评论信息和/或描述信息。
具体地,上述文本信息也可称为回答或者回答语料,包括原始知识图谱中实体对象已有的评论信息和/或其他来源的用于描述实体对象的描述信息,此外,描述信息还包括其他用于区分实体对象类别的特征信息等;与现有的仅考虑原始知识图谱中实体对象的评论信息相比,本发明实施例增加了文本信息的内容,从而丰富了信息检索结果。在实际应用中,上述文本信息可以为文字信息,也可以为语音信息,具体可以根据实际情况进行设置,本发明实施例对此不作限制说明。
其中一种获取文本信息的方法,包括:向第一实体对象对应的指定信息源获取原始文本信息;根据预设规则优化原始文本信息,得到优化后的文本信息。具体地可以从第一实体对象对应的指定信息源获取原始文本信息,如第一实体对象为动漫时,可以从b站爬取得到该动漫的评论信息;或者第一实体对象为电影或明星时,可以从豆瓣爬取得到该电影或明星的评论信息,以及从百度获取第一实体对象的描述信息等,并根据预设规则优化原始文本信息,得到优化后的文本信息。
具体地,根据预设规则优化原始文本信息的步骤至少包括以下之一:
(1)对获取到的原始文本信息进行过滤处理;可选地,可以按照预设信息长度区间如5~40对第一实体对象的原始文本信息进行过滤处理,以得到满足预设信息长度区间的原始文本信息,从而过滤掉太长或太短的原始文本信息。
(2)对获取到的原始文本信息进行加权处理;可选的,对于原始文本信息中如评论信息,基于评论信息的点赞数量、回复数量和转发数量等特征,对该评论信息进行打分处理,并将最后的分数归一化至0-1之间,从而使得热门的评论信息具有较高的分数,以提高在实际应用中被检索出来的概率。以及,上述加权处理也可以通过一些模型如回归模型来实现,本发明实施例对此不作限制说明。
(3)对获取到的原始文本信息进行去重处理;具体地,对获取到的第一实体对象中的相同或相似的原始文本信息进行去重处理,而对于不同实体对象之间的相同或相似的原始文本信息则进行不去重处理,从而保证多个实体对象不会轻易地被无意义的文本信息间接关联上,因为不同实体对象如动漫,获取到的原始文本信息很多都是比如“五星好番!”、“这番好热血”等信息量较低的原始文本信息,通过不去重的操作,某个文本信息如“五星好番!”可能会作为多个实体对象如动漫实体对象的原始文本信息,分别和多个实体对象进行关联,而这些实体对象之间不会通过这条文本信息产生间接的联系,从而避免了查询多个动漫实体对象的公共文本信息时,返回上述信息量低的原始文本信息。
(4)对获取到的原始文本信息进行聚类处理;具体地,对于基于第一实体对象获取的多条原始文本信息,通常会有很多语义接近的文本信息,对此可以通过K-means或者DBSCAN(Density-Based Spatial Clustering of Applications with Noise,聚类算法)等聚类算法,以将大部分语义接近的原始文本信息聚在一起,如将部分比较无意义的原始文本信息聚在一起,从而提高优化后的文本信息的质量。以及,在构建的新的知识图谱中,聚类处理后的文本信息通过一个节点表示,并通过比如“相同评论列表”属性来保存这些原始文本信息等,以简化新的知识图谱的结构,节省了存储空间等。
步骤S106,根据文本信息,识别出与文本信息具有关联关系的第二实体对象。
具体地,对于每条文本信息,可能包含原始知识图谱中的多个实体对象,因此,需要在原始知识图谱中查找与该文本信息具有关联关系的实体对象如第二实体对象,从而还可以将该文本信息与第二实体对象关联起来,缓解了现有方法中该文本信息仅与第一实体对象关联导致检索结果不理想的问题。
具体地,可以通过NER(Named Entity Recognition,实体识别技术)在原始知识图谱中查找文本信息包含的第二实体对象,如通过AC(Aho-Corasick automaton)自动机在原始知识图谱中快速查找与文本信息具有关联关系的第二实体对象,或者,通过神经网络的实体识别技术在原始知识图谱中快速查找与文本信息具有关联关系的第二实体对象等,具体的NER技术可以根据实际情况进行设置,本发明实施例对此不作限制说明。
步骤S108,在原始知识图谱中建立文本信息分别与第一实体对象和第二实体对象的关联关系,以构建新的知识图谱。
上述查找到与文本信息具有关联关系的第二实体对象之后,在原始知识图谱的结构下,建立文本信息分别与第一实体对象和第二实体对象的关联关系。具体地,每条文本信息可以看作一个节点,当将文本信息分别与第一实体对象和第二实体对象进行关联时,相当于在原始知识图谱中将表示文本信息的节点分别与第一实体对象和第二实体对象连接起来,如图3所示,将文本信息分别与图2中的第一实体对象和第二实体对象进行关联,其中,虚线圆形表示文本信息,无填充圆形表示第一实体对象,有填充圆形表示第二实体对象。
在实际应用中,如果第一实体对象和第二实体对象不具有关联关系,则通过建立文本信息分别与第一实体对象和第二实体对象的关联关系,还可以将第一实体对象和第二实体对象关联起来,以及,第一实体对象和第二实体对象在原始知识图谱中还连接有其余多个实体对象,从而使得构建的新的知识图谱中文本信息与多个实体对象、不同文本信息和不同实体对象之间通过图的形式直接或间接的关联起来,丰富了新的知识图谱的内容,提高了检索结果的丰富性。
本发明实施例提供的新的知识图谱的构建方法,通过建立文本信息分别与第一实体对象和第二实体对象的关联关系,以构建新的知识图谱中,实现了每条文本信息与多个实体对象关联,以及,文本信息包含有实体对象的评论信息和/或描述信息,这些信息的引入丰富了新的知识图谱的内容,缓解了现有方法中每条文本信息仅与相关的一个实体对象关联,导致知识图谱信息比较单一的问题,提高了检索结果的丰富性。同时,这种将文本信息与多个实体对象融合于新的知识图谱的方式,还缓解了现有方法中实体对象和知识图谱存储在不同数据库之间,由于查询隔阂导致的检索速度慢的问题,提高了信息检索的速度,进而提升了新的知识图谱的实用价值。
可选的,可以在原始知识图谱中建立文本信息分别与第一实体对象和第二实体对象的直接关联关系,以构建新的知识图谱;和/或,在原始知识图谱中建立文本信息分别与第一实体对象和第二实体对象的间接关联关系,以构建新的知识图谱。具体地,在原始知识图谱中,将表征文本信息的节点分别与第一实体对象和第二实体对象直接连接起来,即建立文本信息分别与第一实体对象和第二实体对象的直接关联关系。
其中,对于在原始知识图谱中建立文本信息分别与第一实体对象和第二实体对象的间接关联关系的过程,如图4所示,则包括以下步骤:
步骤S402,基于实体识别技术,识别出文本信息包含的关联关系。
具体地,上述实体识别技术可以采用现有技术,如通过AC自动机匹配文本信息中包含的关联关系,或者,通过神经网络对文本信息进行关系分类,从而得到文本信息中包含的关联关系。具体可以参考前述实施例,本发明实施例在此不再详细赘述。
步骤S404,在原始知识图谱中,确定与第一实体对象具有关联关系的第一尾实体对象,以及与第二实体对象具有关联关系的第二尾实体对象。
具体地,在原始知识图谱中,通常通过(S,P,O)三元组表示知识图谱,其中,S为原始知识图谱中的实体对象,P表示关联关系,O则表示与实体对象S具有关联关系的尾实体对象,在实际应用中,实体对象S和尾实体对象O之间连接有关系线,用于表征实体S和尾实体对象O之间的关联关系,这里三元组包括但不仅限于基于CN-DBpedia开放的三元组数据。需要说明的是,同一实体对象在不同关联关系中也可作为尾实体对象,本发明实施例对此不作限制说明。
因此,在原始知识图谱中,根据文本信息包含的关联关系,可以分别确定与第一实体对象具有关联关系的第一尾实体对象,以及与第二实体对象具有关联关系的第二尾实体对象。例如,根据文本信息识别出的关联关系为P,第一实体对象为S1,第二实体对象为S2,则根据三元组(S,P,O)即可确定与第一实体对象S1具有关联关系P的第一尾实体对象O1,以及与第二实体对象S2具有关联关系P的第二尾实体对象O2
步骤S406,建立文本信息分别与第一尾实体对象和第二尾实体对象的关联关系。
上述确定出与第一实体对象具有关联关系的第一尾实体对象和与第二实体对象具有关联关系的第二尾实体对象之后,在原始知识图谱的结构中,建立文本信息分别与第一尾实体对象和第二尾实体对象的关联关系,如将表征文本信息的节点分别与第一尾实体对象和第二尾实体对象连接起来,由于第一实体对象和第一尾实体对象、第二实体对象和第二尾实体对象之间分别连接有用于表征关联关系的关系线,从而建立了文本信息分别与第一实体对象和第二实体对象的间接关联关系。
可选的,如果第一实体对象和关联关系均为多个,则遍历第一实体对象和关联关系的所有组合,得到第一尾实体对象集合;并建立文本信息与第一尾实体对象集合中每个第一尾实体对象之间的关联关系;其中,第一尾实体对象集合包括多个与第一实体对象具有关联关系的第一尾实体对象;和/或,如果第二实体对象和关联关系均为多个,遍历第二实体对象和关联关系的所有组合,得到第二尾实体对象集合;建立文本信息与第二尾实体对象集合中每个第二尾实体对象之间的关联关系;其中,第二尾实体对象集合包括多个与第二实体对象具有关联关系的第二尾实体对象,从而完善了新的知识图谱中文本信息与多个实体对象、不同文本信息和不同实体对象之间的关联,进而丰富了新的知识图谱的内容,提高了检索结果的丰富性。
为了便于理解,这里举例说明。根据文本信息识别出的关联关系为P,第一实体对象为S1,第二实体对象为S2,则根据三元组(S,P,O)即可确定与第一实体对象S1具有第一关联关系P1的第一尾实体对象集合O1,以及与第二实体对象S2具有第二关联关系P2的第二尾实体对象集合O2。需要说明的是,上述第一关联关系P1和第二关联关系P2可能相同,均等于关联关系P,也可能不同,分别为关联关系P的子集,即关联关系P中包含多个关联子关系,部分关联子关系与第一实体对象S1关联,组成第一关联关系P1;部分关联子关系则与第二实体对象S2关联,组成第二关联关系P2,具体可以根据实际情况进行设置,本发明实施例对此不作限制说明。
因此,通过上述新的知识图谱的构建方法,不仅扩充了原始图谱中实体对象和文本信息的关系线的数量,使构建的新的知识图谱更加稠密;还增大了内容丰富、有营养的文本信息的概率,降低了通用口水文本信息的占比。此外,通过建立同一条文本信息和多个实体对象之间的关联关系,还增强了不同文本信息之间的间接联系(通过实体对象之间的关系线来间接关联),同时,增强了不同实体对象之间的间接联系(通过同一条文本信息进行关联),使得所建立的新的知识图谱的内容更加丰富,提高了检索结果的丰富性。同时,这种将文本信息与多个实体对象融合于新的知识图谱的方式,还缓解了现有方法中实体对象和知识图谱存储在不同数据库之间,由于查询隔阂导致的检索速度慢的问题,提高了信息检索的速度,进而提升了新的知识图谱的实用价值。
在上述构建的新的知识图谱的基础上,本发明实施例还提供了一种信息检索方法,该方法执行主体为配置有新的知识图谱的电子设备,如图5所示,该方法包括以下步骤:
步骤S502,响应于输入的检索信息,识别出与检索信息具有关联关系的第三实体对象。
具体地,上述电子设备如机器人等提供有检索对话界面,用户可以通过检索对话界面输入utterance即检索信息,其中,检索信息可以为文字信息,也可以为语音信息,本发明实施例对此不作限制说明。
可选的,对于上述检索信息,可以通过NER技术识别出该检索信息对应的第三实体对象,具体识别方法可以参见前述实施例,本发明实施例在此不再详细赘述。需要说明的是,这里第三实体对象可以为单独的一个实体对象,也可能为包含多个第三实体对象的第三实体对象集合,具体可以根据实际情况进行设置,本发明实施例对此不作限制说明。
在实际识别过程中,电子设备还同时考虑检索对话历史中用户或者机器人提到的实体对象,比如考虑历史三轮检索对话中提到的实体对象集合,此时,电子设备会对提到的实体对象集合的实体对象和第三实体对象先做一次排序处理,将当前检索信息识别到的第三实体对象放在前面,历史越久的检索对话中提及的实体对象排在越后面。
其中,上述实体对象集合可以分为以下情况:(1)实体对象集合为空,即历史对话中并没有提到实体对象;(2)实体对象集合包括一个实体对象;(3)实体对象集合至少包括两个实体对象等,具体可以根据实际的检索信息和历史检索对话确定。因此,上述最后得到的第三实体对象可以仅包括检索信息识别出的实体对象,也可能包含历史检索对话中提及的实体对象。
步骤S504,根据第三实体对象,在新的知识图谱中检索得到与第三实体对象具有关联关系的目标文本信息。
基于前述实施例构建的新的知识图谱,可以检索得到第三实体对象具有关联关系的目标文本信息,具体地,存储有新的知识图谱的图数据库配置有搜索功能,可以在新的知识图谱中自动搜索第三实体对象关联的目标文本信息,以及,在搜索多跳等复杂场景时,存储新的知识图谱的图数据库将比其他数据库的搜索效率较高,因此,通过图数据库自带的搜索功能,可以提高目标文本信息的查找速度,进而提高信息检索的速度。
具体地,基于新的知识图谱,对第三实体对象进行检索,得到第三实体对象对应的答复候选集合;其中,答复候选集合包括与第三实体对象具有关联关系的多个文本信息;并通过对答复候选集合中的多个文本信息排序,以确定目标文本信息。可选的,新的知识图谱中的文本信息还可以配置有加权值;从而通过加权值对多个文本信息进行排序,并根据排序结果确定目标文本信息。
当根据检索信息识别得到第三实体对象集合时,其中,第三实体对象集合包括多个第三实体对象;此时通过对答复候选集合中的多个文本信息排序,以确定目标文本信息的过程如下:判断答复候选集合是否存在与第三实体对象集合中所有第三实体对象均关联的共有文本信息;如果是,则基于共有文本信息的加权值对共有文本信息排序,并根据排序结果选择目标文本信息。
此外,在构建新的知识图谱中,还会对原始文本信息进行加权处理,得到每条文本信息的分数值,这里打分包括根据文本信息关联的实体对象的数量和热度进行打分,以及,对于文本信息关联的实体对象,该实体对象还与其他实体对象进行连接,即该文本信息经过多跳后相连的所有实体对象的情况进行打分,并将两个分数加权求和,得到用于描述该文本信息重要程度的新的分数,并根据新的分数和配置的加权值对文本信息进行排序。
上述具体的确定目标文本信息,还可以分为以下情况:
(1)如果第三实体对象集合为空,则无需进行任何操作,返回空的答复候选集合即可。
(2)如果第三实体对象集合包括一个第三实体对象,则在新的知识图谱中搜索与该第三实体对象具有关联关系的所有文本信息即答复候选集合,并对搜索到的所有文本信息按照加权值进行排序,将最终分值最高的文本信息确定为目标文本信息。
(3)如果第三实体对象集合包括两个第三实体对象,则在新的知识图谱中搜索与这两个第三实体对象共同关联的所有文本信息即共有文本信息,组成答复候选集合,再按照加权值对答复候选集合中的共有文本信息进行排序,如按照分数值从高至低进行排序,将分数值最高的共有文本信息作为目标文本信息。此外,如果共有文本信息为0,则此时对每个第三实体对象,分别在新的知识图谱中进行搜索与该实体对象关联的文本信息,放在一起组成答复候选集合,然后按照加权值对答复候选集合中的文本信息进行排序,比如其中一个第三实体对象关联的文本信息均乘以一个小于1的加权值,如0.5,以降低该第三实体对象关联的文本信息的置信度,即对于检索信息中的两个第三实体对象,在新的知识图谱中不存在共有文本信息时,通过降低文本信息的置信度,将其中一个第三实体对象的文本信息作为新的答复候选集合,进而确定目标文本信息。
(4)如果第三实体对象集合包括三个及以上的第三实体对象,此时,对于三个第三实体对象的情况,首先在新的知识图谱中搜索三个第三实体对象的共有文本信息,如果存在共有文本信息,则对所有共有文本信息按照加权值进行排序,并将分数值最高的共有文本信息作为目标文本信息;如果共有文本信息不存在,则在新的知识图谱中搜索任意两两第三实体对象的共有文本信息和任意一个第三实体对象关联的文本信息,组成答复候选集合,设置两两第三实体对象的共有文本信息的加权值为0.8,单个第三实体对象关联的文本信息的加权值为0.5,并分别进行加权计算,以及按照加权后的分数值进行排序,将分数值最高的文本信息作为目标文本信息。其余多个第三实体对象的情况,可以参考前述实施例,本发明实施例在此不再详细赘述。
此外,确定上述目标文本信息之后,电子设备在检索对话界面反馈目标文本信息对应的检索结果,这里检索结果可以为文字信息,即在检索对话界面显示文字信息,该文字信息为目标文本信息的内容;也可以为语音信息,即在检索对话界面播放语音信息,该语音信息为对应的目标文本信息的内容,具体可以根据实际情况进行设置。
本发明实施例提供的信息检索方法,首先识别检索信息对应的第三实体对象,然后在新的知识图谱中检索得到与第三实体对象具有关联关系的目标文本信息。该信息检索过程中,由于新的知识图谱中包括文本信息,从而避免了现有方法中由于原始知识图谱和文本信息分别存储在不同数据库导致的查询隔阂的问题,提高了检索速度;以及新的知识图谱还完善了原始知识图谱无法考虑文本信息的图状结构的问题,将文本信息与多个实体对象关联起来,从而提高了检索结果的丰富性,进而提升了新的知识图谱在检索式对话场景下的对话效果,提高了用户体验度。
进一步的,上述信息检索过程中,还可以通过间接检索的方法来搜索,比如获取到第三实体对象后,除了直接搜索和第三实体对象关联的文本信息之外,还可以通过一些规则搜索和第三实体对象相连的其他实体对象关联的文本信息,即相当于实现了一个话题切换的功能。
具体地,对于间接检索的情形,可以通过预设规则和/或神经网络模型判断第三实体对象是否需要进行话题切换,如果需要进行话题切换,则可以根据历史对话里提到的实体对象集合,搜索出和实体对象集合中的实体对象都关联或者部分实体对象都关联的共有实体对象,如果共有实体对象有多个,此时仅考虑热度最大的共有实体对象,并基于该热度最大的共有实体对象在新的知识图谱中进行搜索,得到该热度最大的共有实体对象的答复候选集合,以及对答复候选集合的文本信息进行排序,得到目标文本信息,其中,上述热度最大的共有实体对象可以根据参考上述文本信息的分数值的计算,本发明实施例对此不再详细赘述。因此,本申请提供的信息检索方式,包括直接搜索或间接搜索的方式,从而增大了检索结果的丰富性。
基于上述新的知识图谱,其在对话场景的应用可以分为以下几类:(1)关于知识图谱本身内容的问答,即KBQA(Knowledge-based Question Answering,基于知识图谱的问答),比如直接询问新的知识图谱里和某个实体对象相连的实体对象,如Q:张三的女儿是谁?A:张四;(2)基于知识图谱的生成式问答;在生成式对话场景中,通常会先识别出utterance(即用户说的话)中包含的新的知识图谱中的实体对象,然后从新的知识图谱中抽取出包含这些实体对象的子图或者三元组信息,并将这些额外知识融合至生成模型中以生成回复信息;(3)基于知识图谱的检索式问答;该场景通常可应用非平行语料,也即新的知识图谱中的文本信息,将文本信息和新的知识图谱里的实体对象进行关联,在对话过程中,如果用户提及新的知识图谱里的实体对象,便从该实体对象关联的文本信息里检索出最相关的回答列表,作为答复候选集合。
为了便于理解,这里举例说明。如图6所示,实体对象包括鬼灭之刃、火影忍者和竹内顺子,文本信息为评论信息,包括:评论1:鬼灭之刃是继火影忍者之后又一部热血番剧;评论2:我超喜欢鸣人的配音;评论3:这番真热血;评论4:这番真热血。此外,提供该新的知识图谱的为机器人,该机器人还提供检索对话界面,在该检索对话界面中,U表示用户,B表示机器人,后面的数字则表示对话轮数。具体信息检索过程如下:
U1:好喜欢看鬼灭之刃和火影忍者啊【NER识别出“鬼灭之刃”和“火影忍者”两个实体对象,于是在新的知识图谱里搜索这两个实体对象的共有评论信息】;
B1:鬼灭之刃是继火影忍者之后又一部热血番剧【按共有评论信息排序,回复热度最高的评论1】;
U2:竹内顺子配音很不错呀【NER识别出“竹内顺子”,考虑多轮场景,将U1中谈及的两个实体对象和本轮对话提到的实体对象,一起进行搜索,竹内顺子和火影忍者具有共有评论信息,优先返回】;
B2:我超喜欢鸣人的配音【按搜索出来的共有评论信息排序,回复热度最高的评论2】。
因此,在信息检索场景中,基于构建的新的知识图谱,提高了检索速度和检索结果的丰富性,从而提升了新的知识图谱在检索式对话场景下的对话效果,提高了用户体验度。
对应于上述新的知识图谱的构建方法实施例,本发明实施例提供了一种新的知识图谱的构建装置,如图7所示,该装置包括依次连接的第一获取模块71、第二获取模块72、识别模块73和建立模块74,其中,各个模块的功能如下:
第一获取模块71,用于获取一原始知识图谱,原始知识图谱至少包括第一实体对象、第二实体对象;
第二获取模块72,用于基于第一实体对象获取文本信息;其中,文本信息包括第一实体对象的评论信息和/或描述信息;
识别模块73,用于根据文本信息,识别出与文本信息具有关联关系的第二实体对象;
建立模块74,用于在原始知识图谱中建立文本信息分别与第一实体对象和第二实体对象的关联关系,以构建新的知识图谱。
本发明实施例提供的新的知识图谱的构建装置,通过建立文本信息分别与第一实体对象和第二实体对象的关联关系,以构建新的知识图谱中,实现了每条文本信息与多个实体对象关联,以及,文本信息包含有实体对象的评论信息和/或描述信息,这些信息的引入丰富了新的知识图谱的内容,缓解了现有方法中每条文本信息仅与相关的一个实体对象关联,导致知识图谱信息比较单一的问题,提高了检索结果的丰富性。
在其中一种可能的实施例中,上述第二获取模块72还用于:向第一实体对象对应的指定信息源获取原始文本信息;根据预设规则优化原始文本信息,得到优化后的文本信息。
在另一种可能的实施例中,上述建立模块74还用于:在原始知识图谱中建立文本信息分别与第一实体对象和第二实体对象的直接关联关系,以构建新的知识图谱;和/或,在原始知识图谱中建立文本信息分别与第一实体对象和第二实体对象的间接关联关系,以构建新的知识图谱。
在另一种可能的实施例中,上述在原始知识图谱中建立文本信息分别与第一实体对象和第二实体对象的间接关联关系包括:基于实体识别技术,识别出文本信息中包含的关联关系;在原始知识图谱中,确定与第一实体对象具有关联关系的尾实体对象,以及与第二实体对象具有关联关系的第二尾实体对象;建立文本信息分别与第一尾实体对象和第二尾实体对象的关联关系。
在另一种可能的实施例中,上述建立文本信息分别与第一尾实体对象和第二尾实体对象的关联关系包括:如果第一实体对象和关联关系均为多个,遍历第一实体对象和关联关系的所有组合,得到第一尾实体对象集合;建立文本信息与第一尾实体对象集合中每个第一尾实体对象之间的关联关系;其中,第一尾实体对象集合包括多个与第一实体对象具有关联关系的第一尾实体对象;和/或,如果第二实体对象和关联关系均为多个,遍历第二实体对象和关联关系的所有组合,得到第二尾实体对象集合;建立文本信息与第二尾实体对象集合中每个第二尾实体对象的关联关系;其中,第二尾实体对象集合包括多个与第二实体对象具有关联关系的第二尾实体对象。
在另一种可能的实施例中,上述根据预设规则优化原始文本信息的方式,至少包括以下之一:对获取到的原始文本信息进行过滤处理;对获取到的原始文本信息进行加权处理;对获取到的原始文本信息进行去重处理;对获取到的原始文本信息进行聚类处理。
在另一种可能的实施例中,上述对获取到的原始文本信息进行去重处理包括:对获取到的第一实体对象的相同或相似的原始文本信息进行去重处理。
本发明实施例提供的新的知识图谱的构建装置,与上述实施例提供的新的知识图谱的构建方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
对应于上述信息检索方法实施例,本发明实施例还提供了一种信息检索装置,该装置应用于配置有新的知识图谱的电子设备,新的知识图谱为基于上述新的知识图谱的构建方法得到的。如图8所示,该装置包括依次连接的响应模块81和检索模块82,其中,各个模块的功能如下:
响应模块81,用于响应于输入的检索信息,识别出与检索信息具有关联关系的第三实体对象;
检索模块82,用于根据第三实体对象,在新的知识图谱中检索得到与第三实体对象具有关联关系的目标文本信息。
本发明实施例提供的信息检索装置,由于新的知识图谱中包括文本信息,避免了现有方法中由于原始知识图谱和文本信息分别存储在不同数据库导致的查询隔阂的问题,提高了检索速度;以及新的知识图谱中文本信息与多个文本信息进行关联,完善了原始知识图谱无法考虑文本信息的图状结构的问题,从而提高了检索结果的丰富性,进而提升了知识图谱在检索式对话场景下的对话效果,提高了用户体验度。
在其中一种可能的实施例中,上述检索模块82还用于:基于新的知识图谱,对第三实体对象进行检索,得到第三实体对象对应的答复候选集合;其中,答复候选集合包括与第三实体对象关联的多个文本信息;通过对答复候选集合中的多个文本信息排序,确定目标文本信息。
在另一种可能的实施例中,新的知识图谱中的文本信息配置有加权值,上述检索模块82还用于:基于加权值对多个文本信息进行排序,并根据排序结果确定目标文本信息。
本发明实施例提供的信息检索装置,与上述实施例提供的信息检索方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
本发明实施例还提供一种电子设备,包括处理器和存储器,存储器存储有能够被处理器执行的机器可执行指令,处理器执行机器可执行指令以实现上述知识图谱的构建方法或者信息检索方法。
参见图9所示,该电子设备包括处理器90和存储器91,该存储器91存储有能够被处理器90执行的机器可执行指令,该处理器90执行机器可执行指令以实现上述新的知识图谱的构建方法和/或信息检索方法。
进一步地,图9所示的电子设备还包括总线92和通信接口93,处理器90、通信接口93和存储器91通过总线92连接。
其中,存储器91可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口93(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。总线92可以是ISA(IndustrialStandard Architecture,工业标准结构总线)总线、PCI(Peripheral ComponentInterconnect,外设部件互连标准)总线或EISA(Enhanced Industry StandardArchitecture,扩展工业标准结构)总线等。上述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图9中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
处理器90可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器90中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器90可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器91,处理器90读取存储器91中的信息,结合其硬件完成前述实施例的方法的步骤。
本实施例还提供一种机器可读存储介质,机器可读存储介质存储有机器可执行指令,机器可执行指令在被处理器调用和执行时,机器可执行指令促使处理器实现上方法。
本发明实施例所提供的新的知识图谱的构建方法、装置和信息检索方法、装置的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (14)

1.一种新的知识图谱的构建方法,其特征在于,所述方法包括:
获取一原始知识图谱,所述原始知识图谱至少包括第一实体对象、第二实体对象;
基于所述第一实体对象获取文本信息;其中,所述文本信息包括所述第一实体对象的评论信息和/或描述信息;
根据所述文本信息,识别出与所述文本信息具有关联关系的第二实体对象;
在所述原始知识图谱中建立所述文本信息分别与所述第一实体对象和所述第二实体对象的关联关系,以构建新的知识图谱。
2.根据权利要求1所述的新的知识图谱的构建方法,其特征在于,基于所述第一实体对象获取文本信息的步骤,包括:
向所述第一实体对象对应的指定信息源获取原始文本信息;
根据预设规则优化所述原始文本信息,得到优化后的文本信息。
3.根据权利要求1所述的新的知识图谱的构建方法,其特征在于,在所述原始知识图谱中建立所述文本信息分别与所述第一实体对象和所述第二实体对象的关联关系的步骤,包括:
在所述原始知识图谱中建立所述文本信息分别与所述第一实体对象和所述第二实体对象的直接关联关系,以构建新的知识图谱;和/或,
在所述原始知识图谱中建立所述文本信息分别与所述第一实体对象和所述第二实体对象的间接关联关系,以构建新的知识图谱。
4.根据权利要求3所述的新的知识图谱的构建方法,其特征在于,在所述原始知识图谱中建立所述文本信息分别与所述第一实体对象和所述第二实体对象之间的间接关联关系的步骤,包括:
基于实体识别技术,识别出所述文本信息包含的关联关系;
在所述原始知识图谱中,确定与所述第一实体对象具有所述关联关系的第一尾实体对象,以及与所述第二实体对象具有所述关联关系的第二尾实体对象;
建立所述文本信息分别与所述第一尾实体对象和所述第二尾实体对象的关联关系。
5.根据权利要求4所述的新的知识图谱的构建方法,其特征在于,建立所述文本信息分别与所述第一尾实体对象和所述第二尾实体对象的关联关系的步骤,包括:
如果所述第一实体对象和所述关联关系均为多个,遍历所述第一实体对象和所述关联关系的所有组合,得到第一尾实体对象集合;建立所述文本信息与所述第一尾实体对象集合中每个第一尾实体对象之间的关联关系;其中,所述第一尾实体对象集合包括多个与所述第一实体对象具有所述关联关系的第一尾实体对象;和/或,
如果所述第二实体对象和所述关联关系均为多个,遍历所述第二实体对象和所述关联关系的所有组合,得到第二尾实体对象集合;建立所述文本信息与所述第二尾实体对象集合中每个第二尾实体对象之间的关联关系;其中,所述第二尾实体对象集合包括多个与所述第二实体对象具有所述关联关系的第二尾实体对象。
6.根据权利要求2所述的新的知识图谱的构建方法,其特征在于,所述根据预设规则优化所述原始文本信息的步骤至少包括以下之一:
对获取到的所述原始文本信息进行过滤处理;
对获取到的所述原始文本信息进行加权处理;
对获取到的所述原始文本信息进行去重处理;
对获取到的所述原始文本信息进行聚类处理。
7.根据权利要求6所述的新的知识图谱的构建方法,其特征在于,所述对获取到的所述原始文本信息进行去重处理的步骤,包括:
对获取到的所述第一实体对象的相同或相似的原始文本信息进行去重处理。
8.一种信息检索方法,其特征在于,所述方法应用于配置有新的知识图谱的电子设备,所述新的知识图谱为基于权利要求1-7任一项所述的新的知识图谱的构建方法得到的,所述方法包括:
响应于输入的检索信息,识别出与所述检索信息具有关联关系的第三实体对象;
根据所述第三实体对象,在所述新的知识图谱中检索得到与所述第三实体对象具有关联关系的目标文本信息。
9.根据权利要求8所述的信息检索方法,其特征在于,在所述新的知识图谱中检索得到与所述第三实体对象具有关联关系的目标文本信息的步骤,包括:
基于所述新的知识图谱,对所述第三实体对象进行检索,得到所述第三实体对象对应的答复候选集合;其中,所述答复候选集合包括与所述第三实体对象具有关联关系的多个文本信息;
通过对所述答复候选集合中的多个文本信息排序,确定目标文本信息。
10.根据权利要求9所述的信息检索方法,其特征在于,所述新的知识图谱中的文本信息配置有加权值;通过对所述答复候选集合中的多个文本信息排序,确定目标文本信息的步骤,包括:
基于所述加权值对所述多个文本信息进行排序,并根据排序结果确定所述目标文本信息。
11.一种新的知识图谱的构建装置,其特征在于,所述装置包括:
第一获取模块,用于获取一原始知识图谱,所述原始知识图谱至少包括第一实体对象、第二实体对象;
第二获取模块,用于基于所述第一实体对象获取文本信息;其中,所述文本信息包括所述第一实体对象的评论信息和/或描述信息;
识别模块,用于根据所述文本信息,识别出与所述文本信息具有关联关系的第二实体对象;
建立模块,用于在所述原始知识图谱中建立所述文本信息分别与所述第一实体对象和所述第二实体对象的关联关系,以构建新的知识图谱。
12.一种信息检索装置,其特征在于,所述装置应用于配置有新的知识图谱的电子设备,所述新的知识图谱为基于权利要求1-7任一项所述的新的知识图谱的构建方法得到的,所述装置包括:
响应模块,用于响应于输入的检索信息,识别出与所述检索信息具有关联关系的第三实体对象;
检索模块,用于根据所述第三实体对象,在所述新的知识图谱中检索得到与所述第三实体对象具有关联关系的目标文本信息。
13.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1-10任一项所述方法的步骤。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述权利要求1-10任一项方法的步骤。
CN202011573618.9A 2020-12-25 2020-12-25 新的知识图谱的构建方法、装置和信息检索方法、装置 Active CN112528046B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011573618.9A CN112528046B (zh) 2020-12-25 2020-12-25 新的知识图谱的构建方法、装置和信息检索方法、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011573618.9A CN112528046B (zh) 2020-12-25 2020-12-25 新的知识图谱的构建方法、装置和信息检索方法、装置

Publications (2)

Publication Number Publication Date
CN112528046A true CN112528046A (zh) 2021-03-19
CN112528046B CN112528046B (zh) 2023-09-15

Family

ID=74976769

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011573618.9A Active CN112528046B (zh) 2020-12-25 2020-12-25 新的知识图谱的构建方法、装置和信息检索方法、装置

Country Status (1)

Country Link
CN (1) CN112528046B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113704494A (zh) * 2021-08-27 2021-11-26 北京百度网讯科技有限公司 基于知识图谱的实体检索方法、装置、设备以及存储介质
CN117556058A (zh) * 2024-01-11 2024-02-13 安徽大学 知识图谱增强网络嵌入的作者名称消歧方法和装置

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130262449A1 (en) * 2012-04-02 2013-10-03 Playence GmBH System and method for search refinement using knowledge model
WO2017076263A1 (zh) * 2015-11-03 2017-05-11 中兴通讯股份有限公司 融合知识库处理方法和装置及知识库管理系统、存储介质
WO2018072563A1 (zh) * 2016-10-18 2018-04-26 中兴通讯股份有限公司 一种知识图谱构建方法、装置及系统
CN108197290A (zh) * 2018-01-19 2018-06-22 桂林电子科技大学 一种融合实体和关系描述的知识图谱表示学习方法
CN109885660A (zh) * 2019-02-22 2019-06-14 上海乐言信息科技有限公司 一种知识图谱赋能的基于信息检索的问答系统和方法
CN110609902A (zh) * 2018-05-28 2019-12-24 华为技术有限公司 一种基于融合知识图谱的文本处理方法及装置
WO2020001373A1 (zh) * 2018-06-26 2020-01-02 杭州海康威视数字技术股份有限公司 一种本体构建方法及装置
CN111143521A (zh) * 2019-10-28 2020-05-12 广州恒巨信息科技有限公司 基于知识图谱的法条检索方法、系统、装置及存储介质
CN111625658A (zh) * 2020-07-28 2020-09-04 杭州翔毅科技有限公司 基于知识图谱的语音交互方法、装置、设备及存储介质
CN111625655A (zh) * 2020-05-12 2020-09-04 埃睿迪信息技术(北京)有限公司 基于知识图谱的归并以及分类方法、装置以及存储介质
CN111666399A (zh) * 2020-06-23 2020-09-15 中国平安人寿保险股份有限公司 基于知识图谱的智能问答方法、装置和计算机设备
CN111737481A (zh) * 2019-10-10 2020-10-02 北京沃东天骏信息技术有限公司 知识图谱的降噪方法、装置、设备和存储介质
JP2020187419A (ja) * 2019-05-10 2020-11-19 富士通株式会社 エンティティリンキング方法、情報処理装置およびエンティティリンキングプログラム
CN112069326A (zh) * 2020-09-03 2020-12-11 Oppo广东移动通信有限公司 知识图谱的构建方法、装置、电子设备及存储介质

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130262449A1 (en) * 2012-04-02 2013-10-03 Playence GmBH System and method for search refinement using knowledge model
WO2017076263A1 (zh) * 2015-11-03 2017-05-11 中兴通讯股份有限公司 融合知识库处理方法和装置及知识库管理系统、存储介质
WO2018072563A1 (zh) * 2016-10-18 2018-04-26 中兴通讯股份有限公司 一种知识图谱构建方法、装置及系统
CN108197290A (zh) * 2018-01-19 2018-06-22 桂林电子科技大学 一种融合实体和关系描述的知识图谱表示学习方法
CN110609902A (zh) * 2018-05-28 2019-12-24 华为技术有限公司 一种基于融合知识图谱的文本处理方法及装置
WO2020001373A1 (zh) * 2018-06-26 2020-01-02 杭州海康威视数字技术股份有限公司 一种本体构建方法及装置
CN109885660A (zh) * 2019-02-22 2019-06-14 上海乐言信息科技有限公司 一种知识图谱赋能的基于信息检索的问答系统和方法
JP2020187419A (ja) * 2019-05-10 2020-11-19 富士通株式会社 エンティティリンキング方法、情報処理装置およびエンティティリンキングプログラム
CN111737481A (zh) * 2019-10-10 2020-10-02 北京沃东天骏信息技术有限公司 知识图谱的降噪方法、装置、设备和存储介质
CN111143521A (zh) * 2019-10-28 2020-05-12 广州恒巨信息科技有限公司 基于知识图谱的法条检索方法、系统、装置及存储介质
CN111625655A (zh) * 2020-05-12 2020-09-04 埃睿迪信息技术(北京)有限公司 基于知识图谱的归并以及分类方法、装置以及存储介质
CN111666399A (zh) * 2020-06-23 2020-09-15 中国平安人寿保险股份有限公司 基于知识图谱的智能问答方法、装置和计算机设备
CN111625658A (zh) * 2020-07-28 2020-09-04 杭州翔毅科技有限公司 基于知识图谱的语音交互方法、装置、设备及存储介质
CN112069326A (zh) * 2020-09-03 2020-12-11 Oppo广东移动通信有限公司 知识图谱的构建方法、装置、电子设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
栗永芳: "面向知识图谱的表示学习研究", 《中国优秀博硕士学位论文全文数据库(硕士)社会科学Ⅱ辑》 *
栗永芳: "面向知识图谱的表示学习研究", 《中国优秀博硕士学位论文全文数据库(硕士)社会科学Ⅱ辑》, no. 01, 15 January 2019 (2019-01-15), pages 4 *
栗永芳: "面向知识图谱的表示学习研究", 中国优秀博硕士学位论文全文数据库(硕士)社会科学Ⅱ辑, no. 01, pages 4 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113704494A (zh) * 2021-08-27 2021-11-26 北京百度网讯科技有限公司 基于知识图谱的实体检索方法、装置、设备以及存储介质
CN113704494B (zh) * 2021-08-27 2024-04-05 北京百度网讯科技有限公司 基于知识图谱的实体检索方法、装置、设备以及存储介质
CN117556058A (zh) * 2024-01-11 2024-02-13 安徽大学 知识图谱增强网络嵌入的作者名称消歧方法和装置
CN117556058B (zh) * 2024-01-11 2024-05-24 安徽大学 知识图谱增强网络嵌入的作者名称消歧方法和装置

Also Published As

Publication number Publication date
CN112528046B (zh) 2023-09-15

Similar Documents

Publication Publication Date Title
CN107797984B (zh) 智能交互方法、设备及存储介质
CN107609101B (zh) 智能交互方法、设备及存储介质
CN110209897B (zh) 智能对话方法、装置、存储介质及设备
CN106095833B (zh) 人机对话内容处理方法
US8554540B2 (en) Topic map based indexing and searching apparatus
CN109643325B (zh) 在自动聊天中推荐朋友
CN103425635B (zh) 一种答案推荐方法和装置
WO2016150083A1 (zh) 一种信息输入方法和装置
CN110399470B (zh) 会话消息处理
WO2013170587A1 (zh) 一种多媒体问答系统及方法
CN109241451B (zh) 一种内容组合推荐方法、装置及可读存储介质
CN111798279A (zh) 基于对话的用户画像生成方法和装置
CN108520046A (zh) 搜索聊天记录的方法及设备
KR101224312B1 (ko) 소셜 네트워킹 서비스 사용자를 위한 친구 추천 방법, 이를 위한 기록 매체 및 이를 이용하는 소셜 네트워킹 서비스 및 서버
CN112528046A (zh) 新的知识图谱的构建方法、装置和信息检索方法、装置
CN109582700A (zh) 一种语音房间用户匹配方法、装置及设备
US20160098437A1 (en) Information retrieval method and apparatus
CN110222194A (zh) 基于自然语言处理的数据图表生成方法和相关装置
CN112015852A (zh) 在关于事件的会话中提供响应
WO2013107031A1 (zh) 基于评论信息确定视频质量参数的方法、装置和系统
CN106095941B (zh) 基于大数据知识库的解决方案推荐方法和系统
CN113961678A (zh) 一种基于事理图谱的智能对话方法和装置
WO2023207451A1 (zh) 一种搜索结果展示的方法、搜索请求处理方法以及装置
CN112507214B (zh) 基于用户名的数据处理方法、装置、设备及介质
CN114297449A (zh) 内容查找方法、装置、电子设备及计算机可读介质及产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant