CN110147437B - 一种基于知识图谱的搜索方法及装置 - Google Patents

一种基于知识图谱的搜索方法及装置 Download PDF

Info

Publication number
CN110147437B
CN110147437B CN201910436619.XA CN201910436619A CN110147437B CN 110147437 B CN110147437 B CN 110147437B CN 201910436619 A CN201910436619 A CN 201910436619A CN 110147437 B CN110147437 B CN 110147437B
Authority
CN
China
Prior art keywords
searched
sentence
type
intention
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910436619.XA
Other languages
English (en)
Other versions
CN110147437A (zh
Inventor
李长亮
江凡
汪美玲
唐剑波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Digital Entertainment Co Ltd
Chengdu Kingsoft Digital Entertainment Co Ltd
Original Assignee
Beijing Kingsoft Digital Entertainment Co Ltd
Chengdu Kingsoft Digital Entertainment Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Digital Entertainment Co Ltd, Chengdu Kingsoft Digital Entertainment Co Ltd filed Critical Beijing Kingsoft Digital Entertainment Co Ltd
Priority to CN201910436619.XA priority Critical patent/CN110147437B/zh
Publication of CN110147437A publication Critical patent/CN110147437A/zh
Application granted granted Critical
Publication of CN110147437B publication Critical patent/CN110147437B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种基于知识图谱的搜索方法及装置,其中所述方法包括:获取来自用户的待搜索语句;对所述待搜索语句进行意图识别,确定所述待搜索语句的类型;基于命名实体识别和所述待搜索语句的类型,将所述待搜索语句解析为包含有实体和关系的节点查询语句;在预设的知识图谱的图数据库中搜索与所述节点查询语句匹配的三元组;在获取到与所述节点查询语句匹配的三元组的情况下,将所述三元组中的实体作为搜索结果返回至所述用户。

Description

一种基于知识图谱的搜索方法及装置
技术领域
本申请涉及计算机技术领域,特别涉及一种基于知识图谱的搜索方法、装置、计算设备及计算机可读存储介质。
背景技术
目前,用户在进行目标文件搜索时,可以采用百度或谷歌等搜索引擎,通过目标文件的名称或者模糊查询检索词进行检索,在显示搜索结果的网页信息中逐条进行筛选;用户也可以浏览包含有目标文件的门户网站,在门户网站的文件库中查找所需要的目标文件。然而,在利用搜索引擎进行搜索目标文件时,往往获得的搜索结果是零散化和碎片化的,需要人为甄别且精度不高缺少联系;在通过门户网站进行搜索时,由于门户网站的搜索功能相对落后,需要消耗大量的人力劳动和时间成本,造成搜索效率低下。
发明内容
有鉴于此,本申请实施例提供了一种基于知识图谱的搜索方法、装置、计算设备及计算机可读存储介质,以解决现有技术中存在的技术缺陷。
根据本申请实施例的第一方面,提供了一种基于知识图谱的搜索方法,包括:
获取来自用户的待搜索语句;
对所述待搜索语句进行意图识别,确定所述待搜索语句的类型;
基于命名实体识别和所述待搜索语句的类型,将所述待搜索语句解析为包含有实体和关系的节点查询语句;
在预设的知识图谱的图数据库中搜索与所述节点查询语句匹配的三元组;
在获取到与所述节点查询语句匹配的三元组的情况下,将所述三元组中的实体作为搜索结果返回至所述用户。
根据本申请实施例的第二方面,提供了一种基于知识图谱的搜索装置,包括:
用户问句模块,被配置为获取来自用户的待搜索语句;
意图识别模块,被配置为对所述待搜索语句进行意图识别,确定所述待搜索语句的类型;
语句解析模块,被配置为基于命名实体识别和所述待搜索语句的类型,将所述待搜索语句解析为包含有实体和关系的节点查询语句;
搜索模块,被配置为在预设的知识图谱的图数据库中搜索与所述节点查询语句匹配的三元组;
结果返回模块,被配置为在获取到与所述节点查询语句匹配的三元组的情况下,将所述三元组中的实体作为搜索结果返回至所述用户。
根据本申请实施例的第三方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述基于知识图谱的搜索方法的步骤。
根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述基于知识图谱的搜索方法的步骤。
本申请基于知识图谱的智能搜索功能,通过将带搜索语句进行意图识别和要点提炼,为用户提供了精确快速的信息搜索功能,提高了搜索的效率,减少了搜索所消耗的时间。
附图说明
图1是本申请实施例提供的计算设备的结构框图;
图2是本申请实施例提供的基于知识图谱的搜索方法的流程图;
图3是本申请实施例提供的基于知识图谱的搜索方法的示意图;
图4是本申请实施例提供的基于知识图谱的搜索方法中应用的意图识别模型的结构示意图;
图5是本申请实施例提供的基于知识图谱的搜索方法的示意图
图6是本申请实施例提供的基于知识图谱的搜索装置的结构示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
在本申请中,提供了一种基于知识图谱的搜索方法、装置、计算设备及计算机可读存储介质,在下面的实施例中逐一进行详细说明。
图1示出了根据本说明书一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110 通过总线130相连接,数据库150用于保存数据。
计算设备100还包括接入设备140,接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN) 无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线 (USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图1所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备100可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC 的静止计算设备。计算设备100还可以是移动式或静止式的服务器。
其中,处理器120可以执行图2所示方法中的步骤。图2是示出了根据本申请一实施例的基于知识图谱的搜索方法的示意性流程图,包括步骤201至步骤207。
步骤201:获取来自用户的待搜索语句。
在本申请的实施例中,系统可以获取来自用户的待搜索语句,并将所述待搜索语句作为用户向系统进行查询的查询语句,例如,用户在应用层输入待搜索语句“关于人工智能的发布文件”,则系统会将待搜索语句“关于人工智能的发布文件”作为用户向系统进行查询的查询语句进行后续的操作。
步骤202:对所述待搜索语句进行意图识别,确定所述待搜索语句的类型。
在本申请的实施例中,系统通过对所述待搜索语句进行意图识别,判断用户向系统提问的意图,并根据用户向系统提问的意图确定所述待搜索语句的类型,从而在搜索时根据用户的意图进行有针对性的搜索,将与所述待搜索语句关联性最大的搜索结果作为答案返回给用户,例如,用户在应用层输入待搜索语句“仙剑奇侠传”,而待搜索语句“仙剑奇侠传”的搜索结果一般包括游戏类、电视剧类、新闻类和图片类等,系统可以通过意图识别发现该用户的意图是电视剧类,则直接把包含“仙剑奇侠传”的电视剧类作为结果返回给用户,就会节省用户的搜索点击次数,缩短搜索时间,大大提升用户的使用体验。
步骤203:基于命名实体识别和所述待搜索语句的类型,将所述待搜索语句解析为包含有实体和关系的节点查询语句。
在本申请的实施例中,系统通过命名实体识别技术从所述待搜索语句中提取实体,并将所述待搜索语句的类型作为关系,将所述待搜索语句解析为包含有实体和关系的节点查询语句,例如,对于用户的待搜索语句“关于人工智能的发布文件”,系统最终将待搜索语句解析为以“人工智能”为实体,以“发布文件”为关系的节点查询语句。
步骤204:在预设的知识图谱的图数据库中搜索与所述节点查询语句匹配的三元组。
在本申请的实施例中,系统根据节点查询语句中的实体和关系,在预设的知识图谱的图数据库中搜索包含所述节点查询语句中的实体和关系的三元组。
可选的,所述知识图谱可以是政务文件的知识图谱,即在图数据库中存储有政务文件的属性图,所述属性图包括政务文件对应的多个实体和关系,所述实体和/或关系中含有政务文件的属性信息,所述属性信息包括政务文件的文件名称、文件原文链接、文件主题、文件发布日期以及发布机构等等。
可选的,所述图数据库可以是Neo4j图形数据库。
步骤205:在获取到与所述节点查询语句匹配的三元组的情况下,将所述三元组中的实体作为搜索结果返回至所述用户。
在本申请的实施例中,在搜索到与所述节点查询语句匹配的三元组的情况下,将所述三元组中与所述节点查询语句中的实体存在映射关系的另一个实体或属性作为所述用户的待搜索语句的答案即搜索结果返回至用户,例如,对于用户的待搜索语句“关于人工智能的发布文件”,系统将待搜索语句解析为以“人工智能”为实体,以“发布文件”为关系的节点查询语句,假设系统在所述图数据库中匹配到三元组(人工智能,发布文件,XXX关于印发新一代人工智能发展规划的通知),其中“人工智能”与“XXX关于印发新一代人工智能发展规划的通知”存在“发布文件”映射关系,则系统可以将实体“XXX 关于印发新一代人工智能发展规划的通知”以及所述实体“XXX关于印发新一代人工智能发展规划的通知”的属性信息作为搜索结果返回给用户。
步骤206:在未获取到与所述节点查询语句匹配的三元组的情况下,对所述待搜索语句进行分词,得到所述待搜索语句对应的模糊查询检索词。
步骤207:根据所述待搜索语句对应的模糊查询检索词在分布式系统集群中进行模糊查询。
在本申请的实施例中,对于用户的待搜索语句,在系统未能从预设的知识图谱中搜索出匹配的答案的情况下,系统通过备选方法即将所述待搜索语句拆分为若干个对应的模糊查询检索词,并根据所述模糊查询检索词在存储有数据信息的分布式系统集群中进行模糊查询,并按照相关度优先级返回搜索结果。
本申请基于知识图谱的智能搜索功能,通过将带搜索语句进行意图识别和要点提炼,为用户提供了精确快速的信息搜索功能,提高了搜索的效率,减少了搜索所消耗的时间。
在本申请的另一个实施例中,如图3所示,在获取来自用户的待搜索语句之前,还包括步骤301至步骤304:
步骤301:从数据源中获取结构化数据和非结构化数据。
在本申请的实施例中,系统可以利用网络爬虫技术,从互联网中爬取大量的结构化数据和非结构化数据,例如官方网站、各大门户网站、搜索引擎或百科网站中的文件信息或知识。
可选的,所述官方网站可以是政府网站,所述文件信息或知识可以是政府网站的文件库中的政务文件属性信息,包括政务文件属性信息的文件名称、文件原文链接、文件主题、文件发布日期以及发布机构等。
步骤302:将所述结构化数据和非结构化数据存储在分布式系统集群中。
在本申请的实施例中,所述分布式系统集群可以是Hadoop分布式集群。
步骤303:从所述分布式系统集群中提取多个三元组。
在本申请的实施例中,系统通过信息抽取、知识融合和知识加工等步骤从存储在分布式系统集群中结构化数据和非结构化数据中提取出实体、属性以及实体间的相互关系,在此基础上形成本体化的知识表达,形成多个三元组,例如,(XXXXXX关于严格控制举办城市周年庆典活动的通知-隶属于-政务督查)、(宗教事务条例-隶属于-宗教事务)、(XXXXXX关于开展行政法规规章清理工作的通知-发布日期-2007年02月26日)以及(XXXXXX关于开展行政法规规章清理工作的通知-发布机构-XXXXXX)等。
步骤304:根据所述多个三元组构建知识图谱并存储在图数据库中。
在本申请的实施例中,系统以图数据库的形式将知识图谱以属性图的形式存储至图数据库中,目前知识图谱主要有两种存储方式:一种是基于资源描述框架(RDF)的存储,另一种是基于图数据库的存储,其中,图数据库把重点放在了高效的图查询和搜索上,图数据库一般以属性图为基本的表示形式,实体和关系可以包含属性,这就意味着更容易表达现实的真实场景。
可选的,所述图数据库可以是Neo4j图形数据库。
在本申请的另一个实施例中,对所述待搜索语句进行意图识别,确定所述待搜索语句的类型包括:
S1、将所述待搜索语句分解为对应的词序列。
S2、将所述词序列输入意图识别模型进行意图识别并确定所述待搜索语句的类型,其中,所述意图识别模型包括:
意图识别组件,通过所述词序列识别所述待搜索语句的意图;
类型确定组件,通过所述词序列确定出所述词序列中每个词的属性;
类型选择组件,用来提供期望选取的对象的属性。
在申请实施例中,如图4所示,系统将所述待搜索语句分解为对应的词序列x1至xn,其中n为大于1的正整数,将所述词序列x1至xn输入意图识别组件,得到所述待搜索语句的编码以及所述待搜索语句的意图yI即所述待搜索语句的类型,将所述待搜索语句的编码输入类型确定组件,对词序列x1至xn进行槽位填充,并通过类型选择组件对所述词序列x1至xn中每个词的属性添加约束,最终得到所述词序列x1至xn的解码即词序列x1至xn中每个词的属性 y1至yn,例如,对于用户的待搜索语句“关于人工智能的发布文件”,系统通过意图识别组件判断问题类型,确定为发布文件寻找类,通过类型确定组件并结合类型选择组件,进行发布文件寻找类的槽位填充,槽位识别为“人工智能”和“发布文件”,最终将待搜索语句解析为查找与“人工智能”具有“发布文件”关系的节点查询语句。
可选的,所述意图识别组件组包括双向长短期记忆网络模型(BiLSTM) 和意图注意力意模型(Attention)。
可选的,所述类型确定组件包括槽位门模型(Slot-Gate)。
可选的,所述类型选择组件为条件随机场(CRF)。
在本申请的另一个实施例中,根据所述待搜索语句对应的模糊查询检索词在所述分布式系统集群中进行模糊查询包括步骤501至步骤503:
步骤501:将所述分布式系统集群中的文档型数据存储在分布式全文搜索引擎的引擎库中。
步骤502:在所述分布式全文搜索引擎的引擎库中建立所述文档型数据的文档索引。
步骤503:基于所述待搜索语句对应的模糊查询检索词和文档索引,通过所述分布式全文搜索引擎在所述引擎库中进行搜索。
可选的,所述分布式全文搜索引擎可以是Elasticsearch全文搜索引擎。
与上述方法实施例相对应,本说明书还提供了基于知识图谱的搜索装置实施例,图6示出了本说明书一个实施例的基于知识图谱的搜索装置的结构示意图。如图6所示,该装置包括:
用户问句模块601,被配置为获取来自用户的待搜索语句;
意图识别模块602,被配置为对所述待搜索语句进行意图识别,确定所述待搜索语句的类型;
语句解析模块603,被配置为基于命名实体识别和所述待搜索语句的类型,将所述待搜索语句解析为包含有实体和关系的节点查询语句;
搜索模块604,被配置为在预设的知识图谱的图数据库中搜索与所述节点查询语句匹配的三元组;
结果返回模块605,被配置为在获取到与所述节点查询语句匹配的三元组的情况下,将所述三元组中的实体作为搜索结果返回至所述用户。
可选的,还包括:
数据获取模块,被配置为从数据源中获取结构化数据和非结构化数据;
数据存储模块,被配置为将所述结构化数据和非结构化数据存储在分布式系统集群中;
三元组提取模块,被配置为从所述分布式系统集群中提取多个三元组;
三元组存储模块,被配置为根据所述多个三元组构建知识图谱并存储在图数据库中。
可选的,所述意图识别模块包括:
分解单元,被配置为将所述待搜索语句分解为对应的词序列;
识别单元,被配置为将所述词序列输入意图识别模型进行意图识别并确定所述待搜索语句的类型,所述意图识别模型包括:
意图识别组件,通过所述词序列识别所述待搜索语句的意图;
类型确定组件,通过所述词序列确定出所述词序列中每个词的属性;
类型选择组件,用来提供期望选取的对象的属性。
可选的,所述意图识别组件组包括双向长短期记忆网络模型和意图注意力意模型;
所述类型确定组件包括槽位门模型和槽位注意力模型;
所述类型选择组件为条件随机场。
可选的,所述装置还包括:
模糊分词模块,被配置为在未获取到与所述节点查询语句匹配的三元组的情况下,对所述待搜索语句进行分词,得到所述待搜索语句对应的模糊查询检索词;
模糊搜索模块,被配置为根据所述待搜索语句对应的模糊查询检索词在所述分布式系统集群中进行模糊查询。
可选的,所述模糊搜索模块包括:
引擎库存储单元,被配置为将所述分布式系统集群中的文档型数据存储在分布式全文搜索引擎的引擎库中;
索引构建单元,被配置为在所述分布式全文搜索引擎的引擎库中建立所述文档型数据的文档索引;
查询检索单元,被配置为基于所述待搜索语句对应的模糊查询检索词和文档索引,通过所述分布式全文搜索引擎在所述引擎库中进行搜索。
本申请的基于知识图谱的搜索装置,基于知识图谱的智能搜索功能,通过将带搜索语句进行意图识别和要点提炼,为用户提供了精确快速的信息搜索功能,提高了搜索的效率,减少了搜索所消耗的时间。
本申请一实施例还提供一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现以下步骤:
获取来自用户的待搜索语句;
对所述待搜索语句进行意图识别,确定所述待搜索语句的类型;
基于命名实体识别和所述待搜索语句的类型,将所述待搜索语句解析为包含有实体和关系的节点查询语句;
在预设的知识图谱的图数据库中搜索与所述节点查询语句匹配的三元组;
在获取到与所述节点查询语句匹配的三元组的情况下,将所述三元组中的实体作为搜索结果返回至所述用户。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如前所述基于知识图谱的搜索方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该计算机可读存储介质的技术方案与上述的基于知识图谱的搜索方法的技术方案属于同一构思,计算机可读存储介质的技术方案未详细描述的细节内容,均可以参见上述基于知识图谱的搜索方法的技术方案的描述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims (8)

1.一种基于知识图谱的搜索方法,其特征在于,包括:
从数据源中获取结构化数据和非结构化数据;
将所述结构化数据和非结构化数据存储在分布式系统集群中;
从所述分布式系统集群中提取多个三元组;
根据所述多个三元组构建知识图谱并存储在图数据库中;
获取来自用户的待搜索语句;
将所述待搜索语句对应的词序列输入意图识别模型进行意图识别并确定所述待搜索语句的类型;该步骤具体包括:将所述待搜索语句分解为对应的词序列,将所述词序列输入所述意图识别模型,得到所述待搜索语句的编码以及所述待搜索语句的意图,将所述编码和所述意图作为所述待搜索语句的类型;
基于命名实体识别和所述待搜索语句的类型,从所述待搜索语句中提取实体,并将所述待搜索语句的类型作为关系,将所述待搜索语句解析为包含有实体和关系的节点查询语句;
在预设的知识图谱的图数据库中搜索与所述节点查询语句中的实体和关系匹配的三元组,其中,所述实体和关系包含属性;
在获取到与所述节点查询语句中的实体和关系匹配的三元组的情况下,将所述三元组中的实体和属性作为搜索结果返回至所述用户。
2.根据权利要求1所述的方法,其特征在于,所述意图识别模型包括:
意图识别组件,通过所述词序列识别所述待搜索语句的意图;
类型确定组件,通过所述词序列确定出所述词序列中每个词的属性;
类型选择组件,用来提供期望选取的对象的属性。
3.根据权利要求2所述的方法,其特征在于,所述意图识别组件包括双向长短期记忆网络模型和意图注意力意模型;
所述类型确定组件包括槽位门模型和槽位注意力模型;
所述类型选择组件为条件随机场。
4.根据权利要求1所述的方法,其特征在于,还包括:
在未获取到与所述节点查询语句中的实体和关系匹配的三元组的情况下,对所述待搜索语句进行分词,得到所述待搜索语句对应的模糊查询检索词;
根据所述待搜索语句对应的模糊查询检索词在所述分布式系统集群中进行模糊查询。
5.根据权利要求4所述的方法,其特征在于,根据所述待搜索语句对应的模糊查询检索词在所述分布式系统集群中进行模糊查询包括:
将所述分布式系统集群中的文档型数据存储在分布式全文搜索引擎的引擎库中;
在所述分布式全文搜索引擎的引擎库中建立所述文档型数据的文档索引;
基于所述待搜索语句对应的模糊查询检索词和文档索引,通过所述分布式全文搜索引擎在所述引擎库中进行搜索。
6.一种基于知识图谱的搜索装置,其特征在于,包括:
数据获取模块,被配置为从数据源中获取结构化数据和非结构化数据;
数据存储模块,被配置为将所述结构化数据和非结构化数据存储在分布式系统集群中;
三元组提取模块,被配置为从所述分布式系统集群中提取多个三元组;
三元组存储模块,被配置为根据所述多个三元组构建知识图谱并存储在图数据库中;
用户问句模块,被配置为获取来自用户的待搜索语句;
意图识别模块,被配置为对将所述待搜索语句对应的词序列输入意图识别模型进行意图识别并确定所述待搜索语句的类型;所述意图识别模块,具体被配置为将所述待搜索语句分解为对应的词序列,将所述词序列输入所述意图识别模型,得到所述待搜索语句的编码以及所述待搜索语句的意图,将所述编码和所述意图作为所述待搜索语句的类型;
语句解析模块,被配置为基于命名实体识别和所述待搜索语句的类型,从所述待搜索语句中提取实体,并将所述待搜索语句的类型作为关系,将所述待搜索语句解析为包含有实体和关系的节点查询语句;
搜索模块,被配置为在预设的知识图谱的图数据库中搜索与所述节点查询语句中的实体和关系匹配的三元组,其中,所述实体和关系包含属性;
结果返回模块,被配置为在获取到与所述节点查询语句中的实体和关系匹配的三元组的情况下,将所述三元组中的实体和属性作为搜索结果返回至所述用户。
7.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,所述处理器执行所述指令时实现权利要求1-5任意一项所述方法的步骤。
8.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1-5任意一项所述方法的步骤。
CN201910436619.XA 2019-05-23 2019-05-23 一种基于知识图谱的搜索方法及装置 Active CN110147437B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910436619.XA CN110147437B (zh) 2019-05-23 2019-05-23 一种基于知识图谱的搜索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910436619.XA CN110147437B (zh) 2019-05-23 2019-05-23 一种基于知识图谱的搜索方法及装置

Publications (2)

Publication Number Publication Date
CN110147437A CN110147437A (zh) 2019-08-20
CN110147437B true CN110147437B (zh) 2022-09-02

Family

ID=67592970

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910436619.XA Active CN110147437B (zh) 2019-05-23 2019-05-23 一种基于知识图谱的搜索方法及装置

Country Status (1)

Country Link
CN (1) CN110147437B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112445890A (zh) * 2019-08-27 2021-03-05 北京国双科技有限公司 一种基于合同知识图谱的数据处理方法及相关装置
CN110516047A (zh) * 2019-09-02 2019-11-29 湖南工业大学 基于包装领域的知识图谱的检索方法及检索系统
CN110795528B (zh) * 2019-09-05 2023-10-13 腾讯科技(深圳)有限公司 一种数据查询方法、装置、电子设备及存储介质
CN110765275B (zh) * 2019-10-14 2023-02-07 深圳平安医疗健康科技服务有限公司 搜索方法、装置、计算机设备和存储介质
CN111143394B (zh) * 2019-11-20 2023-06-13 泰康保险集团股份有限公司 知识数据处理方法、装置、介质及电子设备
CN111008309B (zh) * 2019-12-06 2023-08-08 北京百度网讯科技有限公司 查询方法及装置
CN111241209B (zh) * 2020-01-03 2023-07-11 北京百度网讯科技有限公司 用于生成信息的方法和装置
CN111274407B (zh) * 2020-01-15 2023-07-07 北京百度网讯科技有限公司 知识图谱中三元组置信度计算方法和装置
CN111309773A (zh) * 2020-02-11 2020-06-19 汉纳森(厦门)数据股份有限公司 一种车辆信息的查询方法、装置、系统及存储介质
CN111353049A (zh) * 2020-02-24 2020-06-30 京东方科技集团股份有限公司 数据更新方法、装置、电子设备及计算机可读存储介质
CN111368049B (zh) * 2020-02-26 2024-04-26 京东方科技集团股份有限公司 信息获取方法、装置、电子设备及计算机可读存储介质
CN111737571B (zh) * 2020-06-11 2024-01-30 北京字节跳动网络技术有限公司 搜索方法、装置和电子设备
CN111984694A (zh) * 2020-07-17 2020-11-24 北京欧应信息技术有限公司 一种骨科搜索引擎系统
CN111897840A (zh) * 2020-08-14 2020-11-06 北京字节跳动网络技术有限公司 一种数据搜索方法、装置、电子设备及存储介质
CN112115314A (zh) * 2020-09-16 2020-12-22 江苏开拓信息与系统有限公司 一种政务通用大数据聚合检索系统及构建方法
CN112182239A (zh) * 2020-09-22 2021-01-05 中国建设银行股份有限公司 信息检索方法和装置
CN112328766B (zh) * 2020-11-10 2022-05-03 四川长虹电器股份有限公司 一种基于路径搜索的知识图谱问答方法和装置
CN112597277A (zh) * 2020-12-26 2021-04-02 中国农业银行股份有限公司 文档查询方法、装置、存储介质及电子设备
CN112632225B (zh) * 2020-12-29 2022-08-30 天津汇智星源信息技术有限公司 基于案事件知识图谱的语义搜索方法、装置和电子设备
CN113204696A (zh) * 2021-01-05 2021-08-03 北京欧拉认知智能科技有限公司 一种基于文本图谱的智能搜索引擎的检索方法
CN113590645B (zh) * 2021-06-30 2022-05-10 北京百度网讯科技有限公司 搜索方法、装置、电子设备及存储介质
CN113626574B (zh) * 2021-08-19 2023-08-29 成都数联云算科技有限公司 一种信息查询方法及系统及装置及介质
CN114417179A (zh) * 2021-12-29 2022-04-29 航天科工网络信息发展有限公司 一种面向大规模知识库群的元搜索引擎处理方法和装置
CN116244344B (zh) * 2022-11-25 2023-09-05 中国农业科学院农业信息研究所 基于用户需求的检索方法、装置以及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105868313A (zh) * 2016-03-25 2016-08-17 浙江大学 一种基于模板匹配技术的知识图谱问答系统及方法
CN108491443A (zh) * 2018-02-13 2018-09-04 上海好体信息科技有限公司 由计算机实施的与用户对话的方法和计算机系统
CN108804521A (zh) * 2018-04-27 2018-11-13 南京柯基数据科技有限公司 一种基于知识图谱的问答方法及农业百科问答系统
CN109002516A (zh) * 2018-07-06 2018-12-14 国网电子商务有限公司 一种搜索方法及装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346446A (zh) * 2014-10-27 2015-02-11 百度在线网络技术(北京)有限公司 一种基于知识图谱的论文关联信息推荐方法及装置
US20170024375A1 (en) * 2015-07-26 2017-01-26 Microsoft Technology Licensing, Llc Personal knowledge graph population from declarative user utterances
CN107248937A (zh) * 2017-06-30 2017-10-13 北京百度网讯科技有限公司 一种基于物联网的与用户进行交互的方法与系统
CN107748757B (zh) * 2017-09-21 2021-05-07 北京航空航天大学 一种基于知识图谱的问答方法
CN108920497B (zh) * 2018-05-23 2021-10-15 北京奇艺世纪科技有限公司 一种人机交互方法及装置
CN109145153B (zh) * 2018-07-02 2021-03-12 北京奇艺世纪科技有限公司 意图类别的识别方法和装置
CN109408811B (zh) * 2018-09-29 2021-10-22 联想(北京)有限公司 一种数据处理方法及服务器
CN109522465A (zh) * 2018-10-22 2019-03-26 国家电网公司 基于知识图谱的语义搜索方法及装置
CN109710701B (zh) * 2018-12-14 2022-11-01 浪潮软件股份有限公司 一种用于公共安全领域大数据知识图谱的自动化构建方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105868313A (zh) * 2016-03-25 2016-08-17 浙江大学 一种基于模板匹配技术的知识图谱问答系统及方法
CN108491443A (zh) * 2018-02-13 2018-09-04 上海好体信息科技有限公司 由计算机实施的与用户对话的方法和计算机系统
CN108804521A (zh) * 2018-04-27 2018-11-13 南京柯基数据科技有限公司 一种基于知识图谱的问答方法及农业百科问答系统
CN109002516A (zh) * 2018-07-06 2018-12-14 国网电子商务有限公司 一种搜索方法及装置

Also Published As

Publication number Publication date
CN110147437A (zh) 2019-08-20

Similar Documents

Publication Publication Date Title
CN110147437B (zh) 一种基于知识图谱的搜索方法及装置
CN110119473B (zh) 一种目标文件知识图谱的构建方法及装置
CN107346336B (zh) 基于人工智能的信息处理方法和装置
CN107391677B (zh) 携带实体关系属性的中文通用知识图谱的生成方法及装置
EP3671526B1 (en) Dependency graph based natural language processing
US11775767B1 (en) Systems and methods for automated iterative population of responses using artificial intelligence
CN110321437B (zh) 一种语料数据处理方法、装置、电子设备及介质
Li et al. Intelligent polar cyberinfrastructure: enabling semantic search in geospatial metadata catalogue to support polar data discovery
CN114218472A (zh) 基于知识图谱的智能搜索系统
CN116303558A (zh) 查询语句生成方法、数据查询方法及生成模型训练方法
Al-Saqaf Mecodify: a tool for big data analysis & visualization with twitter as a case study
CN114647719A (zh) 一种基于知识图谱的问答方法及装置
Blümel et al. The quest for research information
CN116010662A (zh) 一种能源消费-碳排放查询系统的构建方法、装置及介质
Barrero et al. Adapting searchy to extract data using evolved wrappers
CN102214179A (zh) 网络信息抓取方法
CN114691880A (zh) 知识图谱构建方法、装置及电子设备
CN109101550A (zh) 语义网管理系统、方法、设备以及存储介质
KR102454261B1 (ko) 사용자 정보 기반 협업 파트너 추천 시스템 및 그 방법
Narock et al. Semantics all the way down: the Semantic Web and open science in big earth data
CN114003706A (zh) 关键词组合生成模型训练方法及装置
CN112905757A (zh) 文本处理方法及装置
Singh et al. User specific context construction for personalized multimedia retrieval
CN111897947A (zh) 一种基于开源信息的数据分析处理方法及装置
ElGindy et al. Capturing place semantics on the geosocial web

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant