CN106909662A - 知识图谱构建方法及装置 - Google Patents

知识图谱构建方法及装置 Download PDF

Info

Publication number
CN106909662A
CN106909662A CN201710109316.8A CN201710109316A CN106909662A CN 106909662 A CN106909662 A CN 106909662A CN 201710109316 A CN201710109316 A CN 201710109316A CN 106909662 A CN106909662 A CN 106909662A
Authority
CN
China
Prior art keywords
concept
illustrative plates
collection
knowledge
rudimental
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710109316.8A
Other languages
English (en)
Inventor
李鹏
金星明
辛愿
李科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shanghai Co Ltd
Original Assignee
Tencent Technology Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shanghai Co Ltd filed Critical Tencent Technology Shanghai Co Ltd
Priority to CN201710109316.8A priority Critical patent/CN106909662A/zh
Publication of CN106909662A publication Critical patent/CN106909662A/zh
Priority to PCT/CN2018/075721 priority patent/WO2018153266A1/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种知识图谱构建方法及装置,属于互联网技术领域。方法包括:基于目标语言,构建针对于目标物的初步知识图谱,目标语言为复杂度小于RDF语言的轻量级数据交换格式,初步知识图谱中包含语义理解所需的各种关键要素,各种关键要素存储在同一个文件中;从至少一个数据源,收集与各种关键要素中至少一种关键要素匹配的行业数据;将行业数据添加到初步知识图谱中至少一种关键要素指示的位置,得到目标物的目标知识图谱。由于基于复杂度小于RDF语言的轻量级目标语言构建知识图谱,因此知识图谱可读性和可维护性较佳,可提升聊天机器人的聊天效果。此外,知识图谱中包含了语义理解所需且存储在同一文件中的各种关键要素,便于统一进行管理。

Description

知识图谱构建方法及装置
技术领域
本发明涉及互联网技术领域,特别涉及一种知识图谱构建方法及装置。
背景技术
知识图谱,也被称为科学知识图谱,在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及知识之间的相互关系。时下,通过构建知识图谱,并将构建的知识图谱运用于聊天机器人实现智能问答,已经成为了本领域技术人员广泛采取的一种做法。
相关技术在构建知识图谱时,通常采用RDF(Resource Description Framework,资源描述框架)语言构建针对目标物的知识图谱。其中,目标物既可指代某一个特定的领域,比如汽车领域,也可指代某一个特定的领域所属范围内一个子领域,比如汽车领域的发动机。
由于RDF语言是基于XML(Extensible Markup Language,可扩展标记语言)的,因此较为繁琐和复杂,所以构建的知识图谱可读性和可维护性差,进而导致聊天机器人的聊天效果不佳。
发明内容
为了解决相关技术的问题,本发明实施例提供了一种知识图谱构建方法及装置。所述技术方案如下:
第一方面,提供了一种知识图谱构建方法,所述方法包括:
基于目标语言,构建针对于目标物的初步知识图谱,所述目标语言为复杂度小于RDF语言的轻量级数据交换格式,所述初步知识图谱中包含语义理解所需的各种关键要素,所述各种关键要素存储在同一个文件中;
从至少一个数据源,收集与所述各种关键要素中至少一种关键要素匹配的行业数据;
将所述行业数据添加到所述初步知识图谱中所述至少一种关键要素指示的位置,得到所述目标物的目标知识图谱。
第二方面,提供了一种知识图谱构建装置,所述装置包括:
第一构建模块,用于基于目标语言,构建针对于目标物的初步知识图谱,所述目标语言为复杂度小于RDF语言的轻量级数据交换格式,所述初步知识图谱中包含语义理解所需的各种关键要素,所述各种关键要素存储在同一个文件中;
收集模块,用于从至少一个数据源,收集与所述各种关键要素中至少一种关键要素匹配的行业数据;
所述第一构建模块,还用于将所述行业数据添加到所述初步知识图谱中所述至少一种关键要素指示的位置,得到所述目标物的目标知识图谱。
本发明实施例提供的技术方案带来的有益效果是:
基于复杂度小于RDF语言的轻量级目标语言,构建针对于目标物的初步知识图谱,因此构建的知识图谱可读性和可维护性较佳,进而可提升聊天机器人的聊天效果。此外,知识图谱中包含了语义理解所需的各种关键要素,且各种关键要素统一存储在一个文件中,便于统一进行管理。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种知识图谱构建方法的流程图;
图2是本发明实施例提供的一种知识图谱的示意图;
图3是本发明实施例提供的一种数据收集模板的示意图;
图4是本发明实施例提供的一种知识图谱的示意图;
图5是本发明实施例提供的一种知识图谱与自然语言理解语法库的关联关系示意图;
图6是本发明实施例提供的一种知识图谱构建装置的结构示意图;
图7是本发明实施例提供的一种服务器的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
在对本发明实施例进行详细地解释说明之前,先对本发明实施例提供的知识图谱构建方法所涉及的实施场景进行简单介绍。
本发明实施例提供的知识图谱构建方法运用于聊天机器人。其中,聊天机器人本质上是用来模拟人类对话或聊天的程序,其可实现问答功能。当用户终端提出一个问题时,聊天机器人可以返回给用户终端一个准确的答案,至少暂时性地让用户认为他们正在同另一个真实的人聊天。其中,实现聊天机器人问答功能的重要核心是知识图谱和用于语义理解的NLU(Natural Language Understanding,自然语言理解)语法库的建立。
其中,知识图谱本质上旨在描述真实世界客观存在的知识、以及知识之间等关联关系的语义网络。基于知识图谱的应用领域,时下通常将知识图谱分为通用知识图谱和垂直知识图谱(又称行业知识图谱)。通用知识图谱不面向特定领域,可将其类比为结构化的百科知识。这类知识图谱包含了大量常识性知识,强调知识的广度。垂直知识图谱则面向特定领域,基于行业知识构建,强调知识的深度。
本发明实施例针对的是垂直领域的知识图谱,即垂直知识图谱。垂直知识图谱针对一个特定领域或一个特定领域下的子领域,例如中医药领域或海洋领域或海洋领域下鱼类知识子领域等等。举例来说,中医药知识图谱可以包括疾病知识、症状知识、中草药知识、方剂知识等等。而基于中医药知识图谱可以实现中医药相关的问答功能。海洋知识图谱可以包括鱼类知识、海洋经济知识和海岛知识等等。而基于海洋知识图谱可以实现海洋相关的问答功能。
NLU语法库用于对自然语言进行语义理解,即尝试分析用户终端的问答消息并获得用户的提问意图。其中,NLU语法库需要知识库来辅助进行问答消息的语义理解。比如,用户终端提出的问答消息中可能包括了多种关系,诸如概念之间含义相同、概念的包含关系等等,而要NLU语法库理解这些复杂的关系,那么NLU语法库就必须具有相当广阔领域的知识,也就是需要依赖于大型的知识库。比如,A某的老婆和A某的妻子便是两个含义相同的概念,指代的是同一个人。若在知识库中存储了这一相同的概念,则NLU语法库便可以将老婆和妻子关联起来。
图1是本发明实施例提供的一种知识图谱构建方法的流程图。参见图1,本发明实施例提供的方法流程包括:
101、基于目标语言,构建针对于目标物的初步知识图谱。
由于RDF语言是基于XML的,因此也集成了XML的一些“重”的特征,比较繁琐和复杂,降低了知识图谱的可读性和可维护性,为此本发明实施例提出了一种与互联网事实标准更兼容且复杂度小于RDF语言的轻量级数据交换格式,例如,JSON-LD(JavaScriptObject Notation-Linked Data,JavaScript对象表示法-链接数据)语言。本实施例以JSON-LD语言为目标语言来构建知识图谱为例。
其中,JSON-LD语言是一种基于JSON表示和传输互联网数据的方法,JSON-LD语言描述了如何通过JSON表示有向图,以及如何在一个文档中混合表示互联数据以及非互联数据。换句话说,JSON-LD语言是一种基于JSON的数据格式,可用于实施结构化数据,以便向诸如搜索引擎等工具进行内容描述。
目标物既可指代某一个特定的领域,比如母婴领域、前文提及的中医药领域、海洋领域、汽车领域等;也可指代某一个特定的领域所属范围内一个具体的子领域,比如发动机、奶粉、手机等等,本发明实施例对目标物的表现形式不进行具体限定。
需要说明的是,在初始构建知识图谱时,知识图谱中有一些数据是不完善的,因此在本发明实施例中将此时构建的知识图谱称之为初始知识图谱。举一个简单的例子来说,参见图2,以发动机为例,在初始构建知识图谱时,发动机这一概念可能包含有油耗、颜色、排量、品牌和型号等等属性,这些属性均是常识性知识,为公众所公知,因此在初始构建知识图谱时,这些有关于发动机属性的概念便可添加至知识图谱中,一个概念位于一个节点。此时便是如图2所示,初步构建了一个知识图谱的整体大框架。但是油耗具体为多少、颜色都包括哪些、排量的大小是多少升、品牌和型号都包括哪些这类的知识却是千变万化的,并不属于常识性知识,因此是无法具体给出的,还需对这些数据再进行收集。如图2所示,在初始知识图谱中用于描述油耗具体多少、用于描述颜色具体分为哪些等等节点的值均为空。
在本发明实施例中,初步知识图谱中包含了语义理解所需的各种关键要素。也即是,初步知识图谱中包含了前文中提及的NLU语法库所需的各种关键要素。通过将语义理解需要的全部关键要素统一映射到知识图谱的概念层次树中,方便了系统进行统一处理。其中,这里的各种关键要素至少包括概念集、概念-概念映射集、概念-实例映射集、概念-同义词映射集。换句话说,在初步知识图谱中会尝试构建用于进行概念描述的概念集、用于描述概念与概念之间包含关系的概念-概念映射集、用于描述概念与实例之间对应关系的概念-实例映射集,以及用于描述概念与同义词之间对应关系的概念-同义词映射集。
下面以一个具体的例子对上述提及的四种关键要素进行说明。继续以图2为例,图2中每一个有文字示出的节点均表示一个概念,用于表示发动机属性的诸如油耗、颜色、排量、品牌和型号等概念均属于发动机这一概念的下位概念,即诸如油耗、颜色、排量、品牌和型号等概念与发动机这一概念是包含关系。由于发动机又可称之为引擎,因此引擎这一概念属于发动机这一概念的同义词概念。而针对排量这一概念来说,诸如1.4L和2.0L等概念均属于它的实例,即具体的例子。由前文的分析可知,针对实例所在节点大部分的值均为空,因此需要进行数据收集,以完善初步知识图谱。
102、从至少一个数据源,收集与初步知识图谱中包含的各种关键要素中至少一种关键要素匹配的行业数据。
在本发明实施例中,针对上述四种关键要素来讲,通常概念集、概念-概念映射集、概念-同义词映射集在初步构建知识图谱时就是完备的。以概念-概念映射集来讲,比如发动机可分为油耗、颜色、品牌、排量、型号等概念均是常识性知识,因此无需再通过数据收集来确定发送机这一概念究竟可划分出来多少个下位的子概念。但是对于概念-实例映射集来说,实例的值基本大部分均为空,因为随着技术的不断进步和产品的不断更新,实例可能是不断变化的。因此,本发明实施例提及的收集与各种关键要素中至少一种关键要素匹配的行业数据,实质上指代的是收集与概念-实例映射集匹配的行业数据。其中,由于本发明实施例针对的是垂直知识图谱,而垂直知识图谱是有针对性的即面向特定的领域知识,因此在本发明实施例中以行业数据对待收集数据进行统称。
其中,在进行行业数据收集时,可采取下述方式实现:从概念-实例映射集中导出数据收集模板;基于数据收集模板,从至少一个数据源收集与至少一个指定概念匹配的行业数据。其中,该数据收集模板是从知识图谱描述的概念-实例映射集中导出的,该数据收集模板中包含了概念-实例映射集中实例的值为空的至少一个指定概念。继续以图2为例,由于油耗、颜色、品牌、排量和型号这几个概念的实例的值均为空,因此至少一个指定概念便覆盖了油耗、颜色、品牌、排量和型号这几个概念。因此可生成如图3所示的数据收集模板。
在本发明实施例中,在进行行业数据收集时数据源可分为下述几种:一种可为百科类数据,通过信息框(Infobox)可从英文类百科中获取本发明实施例所需的行业数据。此外,还可从中文类百科中进行行业数据的收集以弥补英文类百科的不足。另一种还可为结构化数据,即除了百科类数据,在构建知识图谱时还可以考虑其他结构化数据。比如,网络上存在大量高质量的垂直领域站点(如电商网站,点评网站等),这些站点被称为Deep Web,它们通过动态网页技术将保存在数据库中的各种领域相关的结构化数据以HTML(HyperText Markup Language,可扩展标记语言)表格的形式展现给用户终端。可通过这些站点的数据来进行行业数据的收集。此外,还可通过半结构化数据或搜索日志来进行行业数据的收集,本发明实施例对行业数据收集方式不进行具体限定。
103、将收集到的与至少一种关键要素匹配的行业数据添加到初步知识图谱中至少一种关键要素指示的位置,得到目标物的目标知识图谱。
在获取到行业数据后,便可将行业数据添加到初步知识图谱中,以对初步知识图谱进行完善,即将行业数据添加到初步知识图谱中至少一种关键要素指示的位置,可采取下述方式实现:确定至少一个指定概念的实例在初步知识图谱中的位置;其中,至少一个指定概念的实例在初步知识图谱中的位置即初步知识图谱中一个个值为空的节点。之后,将收集到的与至少一个指定概念匹配的行业数据作为至少一个指定概念的实例的值,添加到至少一个指定概念的实例在初步知识图谱中的位置。
继续以图2为例,假设针对油耗这一概念,获取到的行业数据中包括7.3L和8.6L这两个实例的值,针对颜色这一概念,获取到的行业数据中包括灰色和黑色这两个实例的值,针对品牌这一概念,获取到的行业数据中包括帕金斯和强鹿这两个实例的值,针对排量这一概念,获取到的行业数据中包括1.4L和2.0L这两个实例的值,针对型号这一概念,获取到的行业数据中包括1E45和1E35这两个实例的值,那么便可将得到这些行业数据作为至少一个指定概念的实例的值,添加到图2所示的知识图谱中对应位置,即7.3L和8.6L这两个实例的值添加到油耗这一概念所在节点的子节点中,灰色和黑色这两个实例的值添加到颜色这一概念所在节点的子节点中,帕金斯和强鹿这两个实例的值添加到品牌这一概念所在节点的子节点中,1.4L和2.0L这两个实例的值添加到排量这一概念所在节点的子节点中,1E45和1E35这两个实例的值添加到型号这一概念所在节点的子节点中。得到图4所示的目标知识图谱。
综上所述,完成了针对目标物的目标知识图谱的建立过程,下面以发动机这个概念为例,对基于JSON-LD语言的建模过程进行伪代码实例。
由上述伪代码可以看出,发动机这个概念包含型号和排量这两个子概念以及同义词,同时在每个子概念下面又包含了具体的实例。需要说明的是,本发明实施例在基于JSON-LD语言构建知识图谱时,上述各种关键要素是统一存储在一个文件中的,相较于现有技术中将不同的关键要素分别存储的方式而言,方便了对知识图谱进行统一管理。
此外,在本发明实例中知识图谱和用于语义理解的NLU语法库并不是各自独立开发的,而是如图5所示,在构建知识图谱时语义理解所需的四种关键要素全部映射到知识图谱的概念层次树上,之后自动从知识图谱中构建用于进行自然语言理解,即语义理解的NLU语法库。也即,基于上述的目标知识图谱,自动构建语义理解所需的自然语言理解语法库,该自然语言理解语法库中包含目标知识图谱中描述的各种关键要素。其中,在基于目标知识图谱构建自然语言理解语法库时,通常可采取下述方式实现:
基于自顶向下的抽取规则,从目标知识图谱中抽取各种关键要素,根据各种关键要素构建语义理解所需的自然语言理解语法库;或,基于自底向上的抽取规则,从目标知识图谱中抽取各种关键要素,根据各种关键要素构建自然语言理解语法库;或,基于自顶向下结合自底向上的抽取规则,从目标知识图谱中抽取各种关键要素,根据各种关键要素构建自然语言理解语法库。
其中,自顶向下的抽取规则指代从目标知识图谱的顶部开始逐渐向底部进行抽取,自底向上的抽取规则指代从目标知识图谱的底部开始逐渐向顶部进行抽取。换句话说,利用自顶向下或自底向上、或自顶向下结合自底向上的抽取规则从构建的知识图谱中进行概念、概念与概念、概念与实例、概念与同义词之间的关键要素抽取,从而形成NLU语法库的知识库,以便于在接收到用户终端的问答消息后,基于NLU语法库的知识库进行语义理解。比如,若知识库中存储了妻子这一概念的同义词老婆,那么NLU语法库便知道老婆与妻子指代的是相同的含义。
在构建好知识图谱和NLU语法库后,聊天机器人便形成了。在接收到用户终端的问答消息后,基于NLU语法库便可实现对问答消息进行语义理解,得到理解结果。其中,在对问答消息进行语义理解时,如果问答消息是一个简单句,则NLU语法库需要理解语句中的每一个词,并以这些词为基础组成一个可以表达整个语句意义的结构。也即,简单句的理解不涉及句子与句子之间的相互关系,它的理解过程是首选赋单词以意义,然后再给整个语句赋予一种结构。而若问答消息是一组语句,则一组语句的理解,是需要发现句子之间的相互关系。
比如在对话场景中,每句话都有上下文,同样的句子在不同的上下文中理解结果是不一样的。例如,同样的一句话“今天天气好吗”在“U:今天天气好吗?A:今天天气晴,温度…..”中属于对天气进行提问,而“U:给我放首歌;A:请问你要听什么歌?U:今天天气好吗”则属于音乐领域范畴,没有提问意图。
即,聊天机器人聊天效果的好坏,跟NLU语法库能否正确理解用户的意图,也即NLU语法库准确进行语义理解具有重大关系。比如,“东三环堵吗”这句话用户的意图是查询路况,而“下水道堵吗”就不是查询路况了;“今天的天气”是想问天气状况,“今天的天气不错”则无此意;“附近哪儿可以喝咖啡”是想找咖啡馆,但“牛皮癣能喝咖啡吗”便不是一个知识问答了。
之后,根据理解结果,基于目标知识图谱生成问答消息的查询路径,再根据查询路径,获取与该问答消息匹配的应答消息,并将该应答消息返回给用户终端。以用户终端的问答消息为“一般汽车引擎的油耗是多少”为例,则NLU语法库在进行语义理解后,发现发动机与引擎是同义词,因此如图5所示基于目标知识图谱自动生成查询路径,而该查询路径的终止节点为油耗这一概念,而油耗这一概念所在节点的实例在图5中对应子节点7.3L和7.6L,因此将7.3L和7.6L作为应答消息返回给用户终端。
本发明实施例提供的方法,基于复杂度小于RDF语言的轻量级目标语言,构建针对于目标物的初步知识图谱,因此构建的知识图谱可读性和可维护性较佳,进而可提升聊天机器人的聊天效果。此外,知识图谱中包含了语义理解所需的各种关键要素,且各种关键要素统一存储在一个文件中,便于统一进行管理。且还可基于构建的知识图谱来建立用于语义理解的自然语言理解语法库,不但方便了对知识图谱和NLU语法库的统一管理,而且保持了系统的整体一致性,进一步地提升了聊天机器人的聊天效果。
图6是本发明实施例提供的一种知识图谱构建装置的结构示意图。参见图6,该装置包括:
第一构建模块601,用于基于目标语言,构建针对于目标物的初步知识图谱,目标语言为复杂度小于RDF语言的轻量级数据交换格式,初步知识图谱中包含语义理解所需的各种关键要素,各种关键要素存储在同一个文件中;
收集模块602,用于从至少一个数据源,收集与各种关键要素中至少一种关键要素匹配的行业数据;
第一构建模块601,还用于将收集到的与至少一种关键要素匹配的行业数据添加到初步知识图谱中至少一种关键要素指示的位置,得到目标物的目标知识图谱。
在另一个实施例中,各种关键要素包括概念集、概念-概念映射集、概念-实例映射集以及概念-同义词映射集,
第一构建模块601,用于在初步知识图谱中构建用于进行概念描述的概念集;在初步知识图谱中构建用于描述概念与概念之间包含关系的概念-概念映射集;在初步知识图谱中构建用于描述概念与实例之间对应关系的概念-实例映射集;在初步知识图谱中构建用于描述概念与同义词之间对应关系的概念-同义词映射集。
在另一个实施例中,第一构建模块601,用于基于JSON-LD语言,在同一个文件中构建针对目标物的初步知识图谱。
在另一个实施例中,收集模块602,用于从初步知识图谱的概念-实例映射集中导出数据收集模板,数据收集模板中包含概念-实例映射集中实例的值为空的至少一个指定概念;基于数据收集模板,从至少一个数据源,收集与至少一个指定概念匹配的行业数据;
第一构建模块601,用于确定至少一个指定概念的实例在初步知识图谱中的位置;将收集到的与至少一个指定概念匹配的行业数据作为至少一个指定概念的实例的值,添加到至少一个指定概念的实例在初步知识图谱中的位置。
在另一个实施例中,该装置还包括:
第二构建模块,用于自顶向下的抽取规则,从目标知识图谱中抽取各种关键要素,根据各种关键要素构建语义理解所需的自然语言理解语法库;或,基于自底向上的抽取规则,从目标知识图谱中抽取各种关键要素,根据各种关键要素构建自然语言理解语法库;或,基于自顶向下结合自底向上的抽取规则,从目标知识图谱中抽取各种关键要素,根据各种关键要素构建自然语言理解语法库;其中,自然语言理解语法库中包含目标知识图谱中描述的各种关键要素。
在另一个实施例中,该装置还包括:
处理模块,用于在接收到用户终端的问答消息后,基于自然语言理解语法库,对问答消息进行语义理解,得到理解结果;
生成模块,用于根据理解结果,基于目标知识图谱生成问答消息的查询路径;
获取模块,用于基于查询路径,获取与问答消息匹配的应答消息;
发送模块,用于将应答消息返回给用户终端。
本发明实施例提供的装置,基于复杂度小于RDF语言的轻量级目标语言,构建针对于目标物的初步知识图谱,因此构建的知识图谱可读性和可维护性较佳,进而可提升聊天机器人的聊天效果。此外,知识图谱中包含了语义理解所需的各种关键要素,且各种关键要素统一存储在一个文件中,便于统一进行管理。且还可基于构建的知识图谱来建立用于语义理解的自然语言理解语法库,不但方便了对知识图谱和NLU语法库的统一管理,而且保持了系统的整体一致性,进一步地提升了聊天机器人的聊天效果。
图7是根据一示例性实施例示出的一种服务器,该服务器可以用于实施上述任一示例性实施例示出的知识图谱构建方法。具体来讲:参见图7,该服务器700可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central Process ingUnit,CPU)722(例如,一个或一个以上处理器)和存储器732,一个或一个以上存储应用程序742或数据744的存储介质730(例如一个或一个以上海量存储设备)。其中,存储器732和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出)。
服务器700还可以包括一个或一个以上电源728,一个或一个以上有线或无线网络接口750,一个或一个以上输入输出接口758,和/或,一个或一个以上操作系统741,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行上述一个或者一个以上程序包含用于执行知识图谱构建的指令。
需要说明的是:上述实施例提供的知识图谱构建装置在构建知识图谱时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的知识图谱构建装置与知识图谱构建方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种知识图谱构建方法,其特征在于,所述方法包括:
基于目标语言,构建针对于目标物的初步知识图谱,所述目标语言为复杂度小于资源描述框架RDF语言的轻量级数据交换格式,所述初步知识图谱中包含语义理解所需的各种关键要素,所述各种关键要素存储在同一个文件中;
从至少一个数据源,收集与所述各种关键要素中至少一种关键要素匹配的行业数据;
将收集到的与所述至少一种关键要素匹配的行业数据添加到所述初步知识图谱中所述至少一种关键要素指示的位置,得到所述目标物的目标知识图谱。
2.根据权利要求1所述的方法,其特征在于,所述各种关键要素包括概念集、概念-概念映射集、概念-实例映射集以及概念-同义词映射集,
所述构建针对于目标物的初步知识图谱,包括:
在所述初步知识图谱中构建用于进行概念描述的所述概念集;
在所述初步知识图谱中构建用于描述概念与概念之间包含关系的所述概念-概念映射集;
在所述初步知识图谱中构建用于描述概念与实例之间对应关系的所述概念-实例映射集;
在所述初步知识图谱中构建用于描述概念与同义词之间对应关系的所述概念-同义词映射集。
3.根据权利要求1所述的方法,其特征在于,所述基于目标语言,构建针对于目标物的初步知识图谱,包括:
基于JavaScript对象表示法-链接数据JSON-LD语言,在同一个文件中构建针对所述目标物的初步知识图谱。
4.根据权利要求1或2所述的方法,其特征在于,所述从至少一个数据源,收集与所述各种关键要素中至少一种关键要素匹配的行业数据,包括:
从所述初步知识图谱的概念-实例映射集中导出数据收集模板,所述数据收集模板中包含所述概念-实例映射集中实例的值为空的至少一个指定概念;
基于所述数据收集模板,从所述至少一个数据源,收集与所述至少一个指定概念匹配的行业数据;
所述将收集到的与所述至少一种关键要素匹配的行业数据添加到所述初步知识图谱中所述至少一种关键要素指示的位置,包括:
确定所述至少一个指定概念的实例在所述初步知识图谱中的位置;
将收集到的与所述至少一个指定概念匹配的行业数据作为所述至少一个指定概念的实例的值,添加到所述至少一个指定概念的实例在所述初步知识图谱中的位置。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于自顶向下的抽取规则,从所述目标知识图谱中抽取所述各种关键要素,根据所述各种关键要素构建语义理解所需的自然语言理解语法库;或,
基于自底向上的抽取规则,从所述目标知识图谱中抽取所述各种关键要素,根据所述各种关键要素构建所述自然语言理解语法库;或,
基于自顶向下结合自底向上的抽取规则,从所述目标知识图谱中抽取所述各种关键要素,根据所述各种关键要素构建所述自然语言理解语法库;
其中,所述自然语言理解语法库中包含所述目标知识图谱中描述的各种关键要素。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
在接收到用户终端的问答消息后,基于所述自然语言理解语法库,对所述问答消息进行语义理解,得到理解结果;
根据所述理解结果,基于所述目标知识图谱生成所述问答消息的查询路径;
基于所述查询路径,获取与所述问答消息匹配的应答消息,并将所述应答消息返回给所述用户终端。
7.一种知识图谱构建装置,其特征在于,所述装置包括:
第一构建模块,用于基于目标语言,构建针对于目标物的初步知识图谱,所述目标语言为复杂度小于资源描述框架RDF语言的轻量级数据交换格式,所述初步知识图谱中包含语义理解所需的各种关键要素,所述各种关键要素存储在同一个文件中;
收集模块,用于从至少一个数据源,收集与所述各种关键要素中至少一种关键要素匹配的行业数据;
所述第一构建模块,还用于将收集到的与所述至少一种关键要素匹配的行业数据添加到所述初步知识图谱中所述至少一种关键要素指示的位置,得到所述目标物的目标知识图谱。
8.根据权利要求7所述的装置,其特征在于,所述各种关键要素包括概念集、概念-概念映射集、概念-实例映射集以及概念-同义词映射集,所述第一构建模块,用于在所述初步知识图谱中构建用于进行概念描述的所述概念集;在所述初步知识图谱中构建用于描述概念与概念之间包含关系的所述概念-概念映射集;在所述初步知识图谱中构建用于描述概念与实例之间对应关系的所述概念-实例映射集;在所述初步知识图谱中构建用于描述概念与同义词之间对应关系的所述概念-同义词映射集。
9.根据权利要求7所述的装置,其特征在于,所述第一构建模块,用于基于JavaScript对象表示法-链接数据JSON-LD语言,在同一个文件中构建针对所述目标物的初步知识图谱。
10.根据权利要求7或8所述的装置,其特征在于,所述收集模块,用于从所述初步知识图谱的概念-实例映射集中导出数据收集模板,所述数据收集模板中包含所述概念-实例映射集中实例的值为空的至少一个指定概念;基于所述数据收集模板,从所述至少一个数据源,收集与所述至少一个指定概念匹配的行业数据;
所述第一构建模块,用于确定所述至少一个指定概念的实例在所述初步知识图谱中的位置;将收集到的与所述至少一个指定概念匹配的行业数据作为所述至少一个指定概念的实例的值,添加到所述至少一个指定概念的实例在所述初步知识图谱中的位置。
11.根据权利要求7至10中任一权利要求所述的装置,其特征在于,所述装置还包括:
第二构建模块,用于自顶向下的抽取规则,从所述目标知识图谱中抽取所述各种关键要素,根据所述各种关键要素构建语义理解所需的自然语言理解语法库;或,基于自底向上的抽取规则,从所述目标知识图谱中抽取所述各种关键要素,根据所述各种关键要素构建所述自然语言理解语法库;或,基于自顶向下结合自底向上的抽取规则,从所述目标知识图谱中抽取所述各种关键要素,根据所述各种关键要素构建所述自然语言理解语法库;其中,所述自然语言理解语法库中包含所述目标知识图谱中描述的各种关键要素。
12.根据权利要求11所述的装置,其特征在于,所述装置还包括:
处理模块,用于在接收到用户终端的问答消息后,基于所述自然语言理解语法库,对所述问答消息进行语义理解,得到理解结果;
生成模块,用于根据所述理解结果,基于所述目标知识图谱生成所述问答消息的查询路径;
获取模块,用于基于所述查询路径,获取与所述问答消息匹配的应答消息;
发送模块,用于将所述应答消息返回给所述用户终端。
CN201710109316.8A 2017-02-27 2017-02-27 知识图谱构建方法及装置 Pending CN106909662A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710109316.8A CN106909662A (zh) 2017-02-27 2017-02-27 知识图谱构建方法及装置
PCT/CN2018/075721 WO2018153266A1 (zh) 2017-02-27 2018-02-08 知识图谱构建方法、装置以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710109316.8A CN106909662A (zh) 2017-02-27 2017-02-27 知识图谱构建方法及装置

Publications (1)

Publication Number Publication Date
CN106909662A true CN106909662A (zh) 2017-06-30

Family

ID=59209327

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710109316.8A Pending CN106909662A (zh) 2017-02-27 2017-02-27 知识图谱构建方法及装置

Country Status (2)

Country Link
CN (1) CN106909662A (zh)
WO (1) WO2018153266A1 (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107895193A (zh) * 2017-11-13 2018-04-10 北京神州泰岳软件股份有限公司 一种知识库构建方法、基于对话的参数设置方法及装置
CN108388650A (zh) * 2018-02-28 2018-08-10 百度在线网络技术(北京)有限公司 基于需求的搜索处理方法、装置和智能设备
WO2018153266A1 (zh) * 2017-02-27 2018-08-30 腾讯科技(深圳)有限公司 知识图谱构建方法、装置以及存储介质
CN108491443A (zh) * 2018-02-13 2018-09-04 上海好体信息科技有限公司 由计算机实施的与用户对话的方法和计算机系统
CN108804521A (zh) * 2018-04-27 2018-11-13 南京柯基数据科技有限公司 一种基于知识图谱的问答方法及农业百科问答系统
CN109002470A (zh) * 2018-06-12 2018-12-14 东方银谷(北京)投资管理有限公司 知识图谱构建方法及装置、客户端
CN109446343A (zh) * 2018-11-05 2019-03-08 上海德拓信息技术股份有限公司 一种公共安全知识图谱构建的方法
CN109726296A (zh) * 2018-12-27 2019-05-07 武汉理工数字传播工程有限公司 基于知识图谱的海量知识资源存储方法
WO2019091018A1 (zh) * 2017-11-13 2019-05-16 平安科技(深圳)有限公司 知识图谱建立方法、装置、计算机设备及计算机存储介质
CN109947950A (zh) * 2019-03-14 2019-06-28 长沙沃本智能科技有限公司 基于中间层核心本体的领域知识图谱的构建方法和装置
CN109992689A (zh) * 2019-03-26 2019-07-09 华为技术有限公司 搜索方法、终端及介质
CN110222199A (zh) * 2019-06-20 2019-09-10 青岛大学 一种基于本体和多种神经网络集成的人物关系图谱构建方法
CN110688488A (zh) * 2018-06-20 2020-01-14 南京网感至察信息科技有限公司 一种通用的知识图谱云服务系统
CN110825862A (zh) * 2019-11-06 2020-02-21 北京诺道认知医学科技有限公司 基于药学知识图谱的智能问答方法及装置
CN110992002A (zh) * 2019-12-05 2020-04-10 腾讯云计算(北京)有限责任公司 事项处理方法、装置、设备及存储介质
CN111190900A (zh) * 2019-12-10 2020-05-22 浙江工业大学 一种云计算模式下json数据可视化优化方法
CN111241278A (zh) * 2020-01-06 2020-06-05 北京明略软件系统有限公司 基于知识图谱的舆情预警方法及装置
CN111797243A (zh) * 2020-07-03 2020-10-20 中国烟草总公司湖南省公司 知识图谱数据系统构建方法、系统、终端及可读存储介质
CN112069392A (zh) * 2020-07-28 2020-12-11 浙江警察学院 涉网犯罪防控方法、装置、计算机设备及存储介质
CN112259102A (zh) * 2020-10-29 2021-01-22 适享智能科技(苏州)有限公司 基于知识图谱的零售场景语音交互优化方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111597290B (zh) * 2020-07-27 2020-10-30 成都数联铭品科技有限公司 知识图谱与gis地图数据传递方法及装置、存储介质、设备
CN114055451B (zh) * 2021-11-24 2023-07-07 深圳大学 基于知识图谱的机器人操作技能表达方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101436206A (zh) * 2008-12-22 2009-05-20 昆明理工大学 基于本体推理的旅游问答系统答案抽取方法
CN105468583A (zh) * 2015-12-09 2016-04-06 百度在线网络技术(北京)有限公司 一种实体关系的获取方法及装置
CN106205248A (zh) * 2016-08-31 2016-12-07 北京师范大学 一种表征学习者在特定领域知识学习掌握状态的在线学习认知地图生成系统及方法
US20160373456A1 (en) * 2015-06-16 2016-12-22 Business Objects Software, Ltd. Business intelligence (bi) query and answering using full text search and keyword semantics

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105574089B (zh) * 2015-12-10 2020-08-28 百度在线网络技术(北京)有限公司 知识图谱的生成方法及装置、对象对比方法及装置
CN106909662A (zh) * 2017-02-27 2017-06-30 腾讯科技(上海)有限公司 知识图谱构建方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101436206A (zh) * 2008-12-22 2009-05-20 昆明理工大学 基于本体推理的旅游问答系统答案抽取方法
US20160373456A1 (en) * 2015-06-16 2016-12-22 Business Objects Software, Ltd. Business intelligence (bi) query and answering using full text search and keyword semantics
CN105468583A (zh) * 2015-12-09 2016-04-06 百度在线网络技术(北京)有限公司 一种实体关系的获取方法及装置
CN106205248A (zh) * 2016-08-31 2016-12-07 北京师范大学 一种表征学习者在特定领域知识学习掌握状态的在线学习认知地图生成系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
METAPSYCHO: "知识图谱的知识表现方法回顾与展望", 《HTTPS://WENKU.BAIDU.COM/VIEW/577288B3CC7931B765CE15A8.HTML》 *

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018153266A1 (zh) * 2017-02-27 2018-08-30 腾讯科技(深圳)有限公司 知识图谱构建方法、装置以及存储介质
CN107895193A (zh) * 2017-11-13 2018-04-10 北京神州泰岳软件股份有限公司 一种知识库构建方法、基于对话的参数设置方法及装置
CN107895193B (zh) * 2017-11-13 2020-03-13 中科鼎富(北京)科技发展有限公司 一种知识库构建方法、基于对话的参数设置方法及装置
WO2019091018A1 (zh) * 2017-11-13 2019-05-16 平安科技(深圳)有限公司 知识图谱建立方法、装置、计算机设备及计算机存储介质
WO2019158014A1 (zh) * 2018-02-13 2019-08-22 上海好体信息科技有限公司 由计算机实施的与用户对话的方法和计算机系统
CN108491443A (zh) * 2018-02-13 2018-09-04 上海好体信息科技有限公司 由计算机实施的与用户对话的方法和计算机系统
CN108388650B (zh) * 2018-02-28 2022-11-04 百度在线网络技术(北京)有限公司 基于需求的搜索处理方法、装置和智能设备
CN108388650A (zh) * 2018-02-28 2018-08-10 百度在线网络技术(北京)有限公司 基于需求的搜索处理方法、装置和智能设备
CN108804521A (zh) * 2018-04-27 2018-11-13 南京柯基数据科技有限公司 一种基于知识图谱的问答方法及农业百科问答系统
CN108804521B (zh) * 2018-04-27 2021-05-14 南京柯基数据科技有限公司 一种基于知识图谱的问答方法及农业百科问答系统
CN109002470A (zh) * 2018-06-12 2018-12-14 东方银谷(北京)投资管理有限公司 知识图谱构建方法及装置、客户端
CN110688488A (zh) * 2018-06-20 2020-01-14 南京网感至察信息科技有限公司 一种通用的知识图谱云服务系统
CN109446343A (zh) * 2018-11-05 2019-03-08 上海德拓信息技术股份有限公司 一种公共安全知识图谱构建的方法
CN109446343B (zh) * 2018-11-05 2020-10-27 上海德拓信息技术股份有限公司 一种公共安全知识图谱构建的方法
CN109726296A (zh) * 2018-12-27 2019-05-07 武汉理工数字传播工程有限公司 基于知识图谱的海量知识资源存储方法
CN109947950A (zh) * 2019-03-14 2019-06-28 长沙沃本智能科技有限公司 基于中间层核心本体的领域知识图谱的构建方法和装置
CN109947950B (zh) * 2019-03-14 2023-01-06 长沙沃本智能科技有限公司 基于中间层核心本体的领域知识图谱的构建方法和装置
WO2020192534A1 (zh) * 2019-03-26 2020-10-01 华为技术有限公司 搜索方法、终端及介质
CN109992689A (zh) * 2019-03-26 2019-07-09 华为技术有限公司 搜索方法、终端及介质
CN109992689B (zh) * 2019-03-26 2024-01-30 华为技术有限公司 搜索方法、终端及介质
CN110222199A (zh) * 2019-06-20 2019-09-10 青岛大学 一种基于本体和多种神经网络集成的人物关系图谱构建方法
CN110825862A (zh) * 2019-11-06 2020-02-21 北京诺道认知医学科技有限公司 基于药学知识图谱的智能问答方法及装置
CN110992002A (zh) * 2019-12-05 2020-04-10 腾讯云计算(北京)有限责任公司 事项处理方法、装置、设备及存储介质
CN110992002B (zh) * 2019-12-05 2023-04-18 腾讯云计算(北京)有限责任公司 事项处理方法、装置、设备及存储介质
CN111190900B (zh) * 2019-12-10 2022-06-10 优网云计算有限公司 一种云计算模式下json数据可视化优化方法
CN111190900A (zh) * 2019-12-10 2020-05-22 浙江工业大学 一种云计算模式下json数据可视化优化方法
CN111241278A (zh) * 2020-01-06 2020-06-05 北京明略软件系统有限公司 基于知识图谱的舆情预警方法及装置
CN111797243A (zh) * 2020-07-03 2020-10-20 中国烟草总公司湖南省公司 知识图谱数据系统构建方法、系统、终端及可读存储介质
CN112069392A (zh) * 2020-07-28 2020-12-11 浙江警察学院 涉网犯罪防控方法、装置、计算机设备及存储介质
CN112069392B (zh) * 2020-07-28 2021-08-27 浙江警察学院 涉网犯罪防控方法、装置、计算机设备及存储介质
CN112259102A (zh) * 2020-10-29 2021-01-22 适享智能科技(苏州)有限公司 基于知识图谱的零售场景语音交互优化方法

Also Published As

Publication number Publication date
WO2018153266A1 (zh) 2018-08-30

Similar Documents

Publication Publication Date Title
CN106909662A (zh) 知识图谱构建方法及装置
CN110222199A (zh) 一种基于本体和多种神经网络集成的人物关系图谱构建方法
CN108595449A (zh) 调度自动化系统知识图谱的构建与应用方法
CN106570081A (zh) 基于语义网的大规模离线数据分析框架
US10262262B2 (en) Semantic method for terminal devices of internet of things
CN107633005A (zh) 一种基于课堂教学内容的知识图谱构建、对比系统及方法
Salmond et al. Can big data tame a “naughty” world?
Nickerson et al. Cognitive tools shape thought: diagrams in design
CN110347401B (zh) 一种基于语义相似度的API Framework服务发现方法
Wei A classification method of tourism English talents based on feature mining and information fusion technology
Wei et al. LSTM-SN: complex text classifying with LSTM fusion social network
Ma et al. Research on the construction method of knowledge graph for power grid education resources
Brodaric et al. Distinguishing instances and evidence of geographical concepts for geospatial database design
Pumain et al. Conclusion: Perspectives on urban theories
CN110516079A (zh) 一种rdf对象模型类层次树建立方法及系统
CN115577519A (zh) 基于本体和知识图谱的双层次多重时空耦合建模方法
Zhang et al. Semantic web and geospatial unique features based geospatial data integration
Duy et al. SemIDEA: towards a semantic IoT data analytic framework for facilitating environmental protection
CN116542124B (zh) 一种分布式水文模型的辅助建模方法
Siao Him Fa A brokering approach to federating spatial data in a semantic web environment
Miao et al. The discussion on data system in the era of big data
Zhang Basic dimensions and concepts of the Internet of things from the perspective of philosophy &category theory
Giatti et al. Citizen Science Involving Collections of Standardized Community Data
Tambassi The Ontological Background
González-Vidal et al. NGI Search: The need for Trust and Privacy in Search, Discovery and Indexing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination