CN110516047A - 基于包装领域的知识图谱的检索方法及检索系统 - Google Patents
基于包装领域的知识图谱的检索方法及检索系统 Download PDFInfo
- Publication number
- CN110516047A CN110516047A CN201910821935.9A CN201910821935A CN110516047A CN 110516047 A CN110516047 A CN 110516047A CN 201910821935 A CN201910821935 A CN 201910821935A CN 110516047 A CN110516047 A CN 110516047A
- Authority
- CN
- China
- Prior art keywords
- entity
- attribute information
- knowledge mapping
- target keyword
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Abstract
本申请的目的是提供一种基于包装领域的知识图谱的检索方法及检索系统,其方法包括以下步骤:接收到终端发送的检索命令,其中,所述检索命令中包含查询信息;对所述查询信息进行预处理,获取目标关键词;根据预先建立的知识图谱包含的待选实体,确定与所述目标关键词相匹配的实体和对应的属性信息;基于所述实体确定上N级和/或下M级待选实体所对应的属性信息,生成属性信息集合,其中,所述N和所述M为自然数;根据所述属性信息集合,获得与所述目标关键词相匹配的检索结果。与现有技术相比,可以提升检索的准确率和效率。
Description
技术领域
本发明涉及计算机领域,尤其涉及一种基于包装领域的知识图谱的检索方法及检索系统。
背景技术
随着通信技术和互联网的发展,使得互联网和本地数据库存储的数据呈几何级数增长,且数据的种类异常繁多,如不同行业领域的数据,例如包装领域,且多数数据呈无规则,即非结构化数据。
目前,现有的搜索引擎通常根据实体识别技术提取用户输入的查询语句,提取关键词,然后采用匹配算法匹配相应的数据库得到相关的数据源,例如包括关键词的文档集或链接等,再根据PageRank算法等排序算法对匹配到的相关数据源进行排序,并展示在搜索界面共用户浏览。尽管现有的搜索引擎采集的检索方法及系统已较为成熟,其功能已经能满足用户的基本搜索需求,然而其检索出的结果仍然较为模糊,导致其检索的准确率和效率不高。
由上可见,如何提高检索的准确率和效率,是本发明所要解决的技术问题。
发明内容
针对上述现有技术的缺点或不足,本发明提供了一种基于包装领域的知识图谱的检索方法及检索系统,以提升检索的准确率和效率。
为解决上述技术问题,本发明提供了如下技术方案:
一种基于包装领域的知识图谱的检索方法,包括以下步骤:
接收到终端发送的检索命令,其中,所述检索命令中包含查询信息;
对所述查询信息进行预处理,获取目标关键词;
根据预先建立的知识图谱包含的待选实体,确定与所述目标关键词相匹配的实体和对应的属性信息;
基于所述实体确定上N级和/或下M级待选实体所对应的属性信息,生成属性信息集合,其中,所述N和所述M为自然数;
根据所述属性信息集合,获得与所述目标关键词相匹配的检索结果。
优选地,对所述查询信息进行预处理,获取目标关键词的步骤包括:
对所述查询信息进行语句识别判断;
如若判断成功,则根据分词算法对所述查询信息进行语句分词,得到分词实体,并作为目标关键词;
如若判断不成功,则根据查询信息的类型匹配相应的关键词。
优选地,根据预先建立的知识图谱包含的待选实体,确定与所述目标关键词相匹配的实体和对应的属性信息的步骤包括:
根据预先的同义词表,对所述目标关键词进行替换处理得到标准关键词;
根据所述标准关键词,在本地数据库和/或互联网服务器获取相关联的知识图谱;
若所述相关联的知识图谱为多个,则根据所述标准关键词与各相关联的知识图谱中的候选实体,构建节点空间词汇表;
根据所述节点空间词汇表,确定与所述目标关键词相匹配的候选实体和对应的属性信息。
优选地,所述基于所述实体,确定上N级和/或下M级待选实体所对应的属性信息,并生成属性信息集合,其中,所述N和所述M为自然数的步骤包括:
根据所述实体的数量及对应的属性信息,确定所述N和/或所述M的数值;
将所述上N级和/或下M级待选实体作为备选实体;
根据备选实体与所述目标关键词之间的相似度,确定目标实体;
根据所述目标实体的属性信息,生成所述属性信息集合。
优选地,所述根据所述属性信息集合,获得与所述目标关键词相匹配的检索结果的步骤包括:
根据所述属性信息集合,确定相关联的数据源;
根据所述索引排序表中数据源的顺序,计算所述属性信息集合与对应的数据源的相似度;
根据所述属性信息集合与对应的数据源的相似度的数值,从大到小对所述数据源进行排序;
将排序后的数据源作为所述检索结果输出。
本发明还提供了如下技术方案:
一种基于包装领域的知识图谱的检索系统,包括:
第一获取模块,用于接收到终端发送的检索命令,其中,所述检索命令中包含查询信息;
第一处理模块,用于对所述查询信息进行预处理,获取目标关键词;
第一判断模块,用于根据预先建立的知识图谱包含的实体,确定与所述目标关键词相匹配的实体和对应的属性信息;
第一分析模块,用于通过所述实体确定上N级和/或下M级待选实体所对应的属性信息,生成属性信息集合,其中,所述N和所述M为自然数;
第一匹配模块,用于根据所述属性信息集合,获得与所述目标关键词相匹配的检索结果。
作为优选地,所述第一处理模块包括:
判断单元,用于对所述查询信息进行语句识别判断;
划分单元,用于在所述判断单元判断成功后,根据分词算法对所述查询信息进行语句分词,得到分词实体,并作为目标关键词;
匹配单元,用于在所述判断单元判断不成功后,根据查询信息的类型匹配相应的关键词。
作为优选地,所述第一判断模块包括:
替换单元,用于根据预先的同义词表,对所述目标关键词进行替换处理得到标准关键词;
识别单元,用于根据所述标准关键词,在本地数据库和/或互联网服务器获取相关联的知识图谱;
转换单元,用于在判断所述相关联的知识图谱为多个后,根据所述标准关键词与各相关联的知识图谱中的候选实体,构建节点空间词汇表;
鉴别单元,用于根据所述节点空间词汇表,确定与所述目标关键词相匹配的候选实体和对应的属性信息。
作为优选地,所述第一分析模块,包括:
分析单元,用于根据所述实体的数量及对应的属性信息,确定所述N和/或所述M的数值;
比较单元,用于将所述N级和/或下M级待选实体作为备选实体,并根据备选实体与所述目标关键词之间的相似度,确定目标实体;
生成单元,用于根据所述目标实体的属性信息,生成所述属性信息集合。
作为优选地,所述第一匹配模块包括:
检索单元,用于根据所述属性信息集合,确定相关联的数据源;
计算单元,用于根据所述索引排序表中数据源的顺序,计算所述属性信息集合与对应的数据源的相似度;
排序单元,用于根据所述属性信息集合与对应的数据源的相似度的数值,从大到小对所述数据源进行排序;
输出单元,用于将排序后的数据源作为所述检索结果输出。
与现有技术相比,本发明还具有如下有益效果:
采用本发明的检索方法及检索系统,可以提升检索的准确率和效率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1:本发明第一实施例中检索方法的流程示意图;
图2:图1中步骤S2的流程示意图;
图3:知识图谱1的示意图;
图4:知识图谱2的示意图;
图5:图1中步骤S3的具体流程示意图;
图6:图5中步骤S32的具体流程示意图;
图7:图5中步骤S35的具体流程示意图;
图8:节点空间词汇表的示意图;
图9:图1中步骤S4的流程示意图;
图10:图7中步骤S41的具体流程示意图;
图11:步骤S400~S403的流程示意图;
图12:知识图谱3的示意图;
图13:图1中步骤S5的流程示意图;
图14:本发明第二实施例中检索系统的系统模块框;
附图标记:第一获取模块1;第一处理模块2;第一判断模块3;第一分析模块4、第一匹配模块5。
具体实施方式
以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。
实施例1
如图1至图13所示,本发明的第一实施例提供了一种基于包装领域的知识图谱的检索方法,可用于本地数据库检索或局域网的检索,例如包装数据库等专业领域网站等,或网页检索等,该检索方法包括以下步骤:
步骤S1:接收到终端发送的检索命令,其中,所述检索命令中包含查询信息;
步骤S2:对所述查询信息进行预处理,获取目标关键词;
步骤S3:根据预先建立的知识图谱包含的待选实体,确定与所述目标关键词相匹配的实体和对应的属性信息。也就是说,根据预先建立的知识图谱包含的待选实体,确定至少一个对应的属性信息与所述目标关键词相匹配的实体;
步骤S4:基于所述实体确定上N级和/或下M级待选实体所对应的属性信息,生成属性信息集合,其中,所述N和所述M为自然数;
步骤S5:根据所述属性信息集合,获得与所述目标关键词相匹配的检索结果。
由上可知,通过将用户输入的查询信息(例如用户输入的搜索词)进行相关的预处理,得到相应的目标关键词,并根据预先建立的知识图谱中包含的待选实体,与目标关键词进行匹配,得到相匹配的实体和对应的属性信息,然后再根据相匹配的实体确定知识图谱中上N级和/或下M级待选实体所对应的属性信息,以构成属性信息集合,然后再根据所述属性信息集合,获得与目标关键词相匹配的检索结果,因此借助知识图谱查询匹配得到相应的信息并输出,相比现有技术中的关键词匹配,可较好地提高检索准确率和效率,提升用户的体验度。
具体地,如图2所示,对所述查询信息进行预处理,获取目标关键词的步骤包括以下子步骤:
步骤S21:对所述查询信息进行语句识别判断,以判断查询信息是否为文字语句信息;
步骤S22:如若判断成功,则根据分词算法对所述查询信息进行语句分词,得到分词实体,并作为目标关键词。例如根据随机分配算法将用户输入的查询信息划分为若干个词组,并将若干个词组均作为关键词,若无法划分为多个,则将当前查询信息被直接提取得到的文字作为目前关键词,下面举例说明:本实施例优选采用CRF算法对查询信息进行语句分词,例如输入“中国包装行业网站有哪些?”时,经过分词后为,“['中国','包装','行业','网站','有','哪些','?']”
步骤S23:如若判断不成功,则根据查询信息的类型匹配相应的关键词。例如查询信息为图片时,可通过本地的数据库或互联网上的数据库通过相似度查询得到相关联的图片以及对应的关联词,也就是将图片的查询转换为对应的文字查询。
如图5所示,进一步作为优选地,根据预先建立的知识图谱包含的待选实体,确定与所述目标关键词相匹配的实体和对应的属性信息的步骤包括以下步骤:
步骤S31:根据预先的同义词表,对所述目标关键词进行替换处理得到标准关键词;例如将目标关键词中表达同一含义的词或词组替换为标准词,以提高后续匹配结果的可靠性,删除冗余匹配,下面举例说明:
预先构建同义词表,其中,同义词表包含收录的标准词,以及其对应的多个与之同义的词语。然后,在对所述目标关键词进行替换处理得到标准关键词的过程中,若根据同义词表,查询多个目标关键词对应一个标准词,则遍历问句分词后的结果,将结果中的目标关键词依次统一替换为同义词表中对应的标准词,并将替换后的目标关键词作为标准关键词进行下一步操作。
步骤S32:根据所述标准关键词,在本地数据库和/或互联网服务器获取相关联的知识图谱;
步骤S33:若所述相关联的知识图谱为多个,则根据所述标准关键词与各相关联的知识图谱中的候选实体,构建节点空间词汇表,如图3、图4和图8所示。
步骤S34:根据所述节点空间词汇表,确定与所述目标关键词相匹配的候选和对应的属性信息。也就是说,根据节点空间词汇表,确定至少一个对应的属性信息与所述目标关键词相匹配的实体;
例如上述关键词包括“['中国','包装','行业','网站','有','哪些','?']等,在查询相关联的知识图谱时,存在包括一个或多个上述候选实体('中国','包装','行业'或'网站')的知识图谱,可将相关联的知识图谱中的对应的待选实体作为候选实体,且构建相应的节点空间词汇表,按顺序列出所有关联的知识图谱所包括的候选实体及其属性信息以及对应的知识图谱的数量信息等信息。
作为进一步优选地,在步骤S32:根据所述标准关键词,在本地数据库和/或互联网服务器获取相关联的知识图谱的步骤中还包括以下步骤:
步骤S321:根据所述标准关键词,确定知识图谱的主题数据库。例如,本地数据库或互联网数据库有多个专业领域的大数据知识图谱数据库,则可上述关键词包括“['中国','包装','行业','网站','有','哪些','?']”等主题词,则将需要查询的知识图谱的领域限定为包装行业的知识图谱数据库,或本地数据库中的包装数据知识图谱等主题数据库,如图4所示的包装工程知识图谱。
步骤S322:根据所述标准关键词,在所述主题数据库获取相关联的知识图谱;
通过上述步骤S321和步骤S322,可快速的查找主题数据库,缩小检索范围,避免无用检索,提升检索的效率和准确率。在此需要说明的是,本实施例中的检索方法及检索系统也可以为基于本地数据库的检索方法及检索系统,即基于本地数据库中的包装数知识图谱的检索方法及检索系统,因此,当用户在专业领域网站输入相关的查询信息,可无须直接确定主题,直接匹配本地数据库中包装数知识图谱中的知识图谱。
为了较好的说明上述原理,通过下列例子说明:
如图3和图4所示,例如查询信息在经过上述步骤后得到的候选实体为[’中国’、‘包装’、‘行业’、‘网站’]等,将与候选实体直接相关联的上一级或下一级待选实体以及该节点所属的信息提取出来,结合对应的知识图谱的数量信息构建节点空间词汇表。
如图5和图6所示,步骤S34还包括以下步骤:
步骤S341:根据统计节点空间词汇表中出现与目标关键词相匹配的实体的个数,计算目标关键词与相关联的知识图谱对应的节点空间词汇表的节点空间相似度;
详细地,本实施例中节点空间相似度的计算方法如下公式(一)所示:
其中,公式一中w表示与目标关键词相匹配的实体所对应的查询词,tf(w)表示与目标关键词相匹配的实体所对应的查询词的词频,即各查询词在对应的节点空间词汇表中出现的次数/所有的查询词在单个空间词汇表中出现的总次数;N表示所有节点空间词汇表中出现该查询词的次数;df(w)表示节点空间词汇表出现的频率,即是否出现查询词的节点空间词汇表的个数/节点空间词汇表的总数。tfidf(w)指节点空间词汇表所对应的知识图谱与对应的目标关键词的的重要度,即节点空间相似度。
步骤S342:根据节点空间相似度排序,取节点空间相似度最高的节点空间词汇表对应的知识图谱作为目标知识图谱;
步骤S343:将该目标知识图谱中的候选实体及对应的属性信息,确定为与所述目标关键词相匹配的实体和对应的属性信息。
通过上述步骤可知,通过目标关键词匹配相关联的知识图谱,并根据相关联的知识图谱建立对应的节点空间词汇表,从而借助相应的相似度计算方法,得到各节点空间词汇表与目标关键词之间的相似度,从而借助相似度排序可较好地筛选出相似度较高的节点空间词汇表,进而筛选出相似度较高的知识图谱,以较好地实现语义的歧义消除,提升检索的效率。
另外,优选地,如图9所示,基于所述实体,确定上N级和/或下M级待选实体所对应的属性信息,并生成属性信息集合,其中,所述N和所述M为自然数的步骤包括以下步骤:
步骤S41:根据所述实体的数量及对应的属性信息,确定所述N和/或所述M的数值;
步骤S42:将所述上N级和/或下M级待选实体作为备选实体;
步骤S43:根据备选实体与所述目标关键词之间的相似度,确定目标实体;
步骤S44:根据所述目标实体的属性信息,生成所述属性信息集合。
详细地,上述备选实体与所述目标关键词之间的相似度可根据下述公式二进行计算,即采用余弦相似度对目标关键词和备选实体之间的相似度。
其中,tfidf(xi)表示节点空间词汇表所对应的知识图谱与对应的备选实体的重要度,可参考上述公式(一)获得;tfidf(yi))表示节点空间词汇表所对应的知识图谱与对应的目标关键词的重要度,可参考上述公式(一)获得;此外,需要说明的是,备选实体与目标关键词之间的相似度可参照上述公式一中的计算方法外,也可采用现有技术中相似度的其他计算方法,在此不作赘述和限定。
例如,在包含与所述目标关键词相匹配的实体的知识图谱中,当与所述目标关键词相匹配的实体为'包装'和'网站'等,其对应的上一级或下一级待选实体为'中国包装网','中国包装网'对应的上一级或下一级待选实体为“对应的网站链接地址”,因此,通过确定合理的N和M的数值,也就是确定合理的节点级数检索范围,有利于提升检索结果的准确性,尤其是问答型例句,可以找寻理想的检索结果,克服了当检索结果不包含查询信息中的语句时而无法被匹配到的缺陷。
作为优选的方式,如图10所示,步骤S41可以包括以下步骤:
步骤S411:根据预设的粒度数值,设定所述N和/或所述M的数值;其中,粒度数值可以为一,可以为二、三等,本实施例仅以粒度数值为二作简要说明。
通过上述步骤,可在提升检索精度的情况下,缩小检索的范围,降低检索的耗时,比如根据上述步骤S3确定节点空间词汇表所对应的知识图谱中,与目标关键词相匹配的候选实体较多,即上级候选实体或下级候选实体的级数较多时,可通过预设的粒度数值,在保证检索精度的情况下,降低候选实体的级数,以减小检索的耗时。
进一步作为优选地,上述步骤S41还可以包括:
步骤S412:将根据上N级和/或下M级待选实体所对应的属性信息与所述实体进行上下文匹配;其中,上下文匹配可以是根据训练样本进行训练得到的相似度。
步骤S413:若匹配成功,则将粒度数值确定为所述N和/或所述M的数值,否则在降低所述粒度数值后,替换所述预设的粒度数值,并返回步骤S411;
通过上下文匹配的方式,可合理地自动查询并确定粒度数值,使得选出的待选实体在后续筛选后得到的备选实体,可较好以符合语义检索的要求,从而可进一步提升检索精度。
如图11所示,作为进一步优选地,在步骤S41前还包括以下步骤:
步骤S400:判断所述目标知识图谱中所述实体的个数,若实体的个数大于1,则根据所述实体的个数建立对应的节点空间词汇表;
步骤S401:计算各节点空间词汇表中实体对应的属性信息与未作为候选实体的其他标准关键词的相似度;
步骤S402:选择相似度较高的节点空间词汇表作为最终的节点空间词汇表;
步骤S403:根据最终的节点空间词汇表确定实体的搜索方向;例如是上N级,还是下M级或上N级和下M级,如图6所示,其搜索方向为上一级或上二级或上三级。
通过上述步骤,可在知识图谱中出现重复的候选实体时,更加精确的匹配,并确定搜索方向。
为了更好的说明上述方式,如图12所示,另举一例说明:当查询信息为‘苹果外装材质产家’,对查询信息进行预处理得到的目标关键词为‘苹果’、‘外装’‘材质’‘产家’,经过根据预先的同义词表,对所述目标关键词进行替换处理得到标准关键词,如‘苹果’、‘包装’‘材料’‘供应商’,如图6所述,在相关的知识图谱中,候选实体为‘苹果’,由于苹果可以同时表示水果中的苹果和智能手机Iphone,如果不结合上下文或者外界知识辅助,计算机等执行载体是很难确定‘苹果’到底属于水果苹果还是智能手机Iphone。因此本发明可以调用知识图库中预先建立的知识图谱,将与候选实体直接相连接的上一级和/或下一级待选实体以及该节点所属的信息提取出来,构建节点空间词汇表,其中,如图12所述,该知识图谱中有两个候选实体为‘苹果’,因此建立的节点空间词汇表具有两个节点空间词汇表,当“苹果”的意思代表手机时,对应的词语,即属性信息为【手机、iphone、乔布斯、科技、包装材料、…】,当“苹果”的意思代表水果时,对应的词语,即属性信息为【农业、食品、水果、有机食品、…】。而由于其中一个节点空间词汇表中与候选实体对应的属性信息与未作为候选实体的其他标准关键词的相似度较高,因此选择相似度较高的节点空间词汇表作为最终的节点空间词汇表,确定实体的匹配方向,例如是上N级,还是下M级或上N级和下M级。
优选地,如图13所示,所述根据所述属性信息集合,获得与所述目标关键词相匹配的检索结果的步骤包括:
步骤S51:根据所述属性信息集合,确定相关联的数据源。其中,数据源可以是相关的文档、图片、视频或网页链接地址等不同类型的数据源;
步骤S52:通过排序算法对所述数据源进行排序,建立索引排序表;
步骤S53:根据所述索引排序表中数据源的顺序,计算所述属性信息集合与对应的数据源的相似度;
步骤S54:根据所述属性信息集合与对应的数据源的相似度的数值,从大到小对所述数据源进行排序;
步骤S55:将排序后的数据源作为所述检索结果输出。例如,在搜索的显示界面上按照相似度的数值大小,从上往下依次序排列数据源。
由上述可知,通过上述方法,可使得检索出来的数据源能够较好的反映应用户输入的查询信息,使得检索的结果更加智能,尤其是适用于专业领域,例如包装行业内问答语句的检索,代替了简单的模糊匹配算法。此外,通过上述排序的方法,相比相有的模糊匹配的方式,可最大限度地展示与用户输入的查询信息相匹配的搜索结果。
在此,值得一说的是,本实施例中的排序方法可采用BM25搜索排序算法或倒序索引等算法。
实施例2
本申请还提供了一种基于包装领域的知识图谱的检索系统,与上述实施例2涉及的方法相对应,参考上述图14所示,包括:
第一获取模块,用于接收到终端发送的检索命令,其中,所述检索命令中包含查询信息;
第一处理模块,用于对所述查询信息进行预处理,获取目标关键词;
第一判断模块,用于根据预先建立的知识图谱包含的待选实体,确定与所述目标关键词相匹配的实体和对应的属性信息确定。也就是说,根据预先建立的知识图谱包含的待选实体,确定至少一个对应的属性信息与所述目标关键词相匹配的实体;
第一分析模块,用于通过所述实体确定上N级和/或下M级待选实体所对应的属性信息,生成属性信息集合,其中,所述N和所述M为自然数;
第一匹配模块,用于根据所述属性信息集合,获得与所述目标关键词相匹配的检索结果。
在本实施例中,通过将用户输入的查询信息(例如用户输入的搜索词)进行相关的预处理,得到相应的目标关键词,并根据预先建立的知识图谱中包含的待选实体,与目标关键词进行匹配,得到相匹配的实体和对应的属性信息,然后再根据相匹配的实体确定知识图谱中上N级和/或下M级待选实体所对应的属性信息,以构成属性信息集合,然后再根据所述属性信息集合,获得与目标关键词相匹配的检索结果,因此借助知识图谱查询匹配得到相应的信息并输出,相比现有技术中的关键词匹配,可较好地提高检索准确率和效率,提升用户的体验度。
具体地,所述第一处理模块包括:
判断单元,用于对所述查询信息进行语句识别判断;
划分单元,用于在所述判断单元判断成功后,根据分词算法对所述查询信息进行语句分词,得到分词实体,并作为目标关键词;例如根据随机分配算法将用户输入的查询信息划分为若干个词组,并将若干个词组均作为关键词,若无法划分为多个,则将当前查询信息被直接提取得到的文字作为目前关键词,下面举例说明:本实施例优选采用CRF算法对查询信息进行语句分词,例如输入“中国包装行业网站有哪些?”时,经过分词后为,“['中国','包装','行业','网站','有','哪些','?']”
匹配单元,用于在所述判断单元判断不成功后,根据查询信息的类型匹配相应的关键词。例如查询信息为图片时,可通过本地的数据库或互联网上的数据库通过相似度查询得到相关联的图片以及对应的关联词,也就是将图片的查询转换为对应的文字查询。
另外,作为优选地,所述第一判断模块包括:
替换单元,用于根据预先的同义词表,对所述目标关键词进行替换处理得到标准关键词;
识别单元,用于根据所述标准关键词,在本地数据库和/或互联网服务器获取相关联的知识图谱;
转换单元,用于在判断所述相关联的知识图谱为多个后,根据所述标准关键词与各相关联的知识图谱中的候选实体,构建节点空间词汇表;
鉴别单元,用于根据所述节点空间词汇表,确定与所述目标关键词相匹配的候选和对应的属性信息。也就是说,根据节点空间词汇表,确定至少一个对应的属性信息与所述目标关键词相匹配的实体;例如上述关键词包括“['中国','包装','行业','网站','有','哪些','?']等,在查询相关联的知识图谱时,存在包括一个或多个上述候选实体('中国','包装','行业'或'网站')的知识图谱,可将相关联的知识图谱中的对应的待选实体作为候选实体,且构建相应的节点空间词汇表,按顺序列出所有关联的知识图谱包括的候选实体及其属性信息以及对应的知识图谱的数量信息。
进一步作为优选地,识别单元包括:
主题识别子单元,用于根据所述标准关键词,确定知识图谱的主题数据库。
关联识别子单元,用于根据所述标准关键词,在所述主题数据库获取相关联的知识图谱。
通过上述主题识别子单元和关联识别子单元,可快速的查找主题数据库,缩小检索范围,避免无用检索,提升检索的效率和准确率。在此需要说明的是,本实施例中的检索方法及检索系统也可以为基于本地数据库的检索方法及检索系统,即基于本地数据库中的包装数知识图谱的检索方法及检索系统,因此,当用户在专业领域网站输入相关的查询信息,可无须直接确定主题,直接匹配本地数据库中包装领域的知识图谱中的相关主题的知识图谱,例如包装设计,包装设备等细分领域的主题。
进一步作为优选地,所述鉴别单元,包括:
第一鉴别子单元,用于根据统计节点空间词汇表中出现与目标关键词相匹配的实体的个数,计算目标关键词与上述相关联的知识图谱对应的节点空间词汇表相似度;
详细地,本实施例中节点空间相似度的计算方法如下公式(一)所示:
其中,公式一中w表示与目标关键词相匹配的实体所对应的查询词,tf(w)表示与目标关键词相匹配的实体所对应的查询词的词频,即各查询词在对应的节点空间词汇表中出现的次数/所有的查询词在单个空间词汇表中出现的总次数;N表示所有节点空间词汇表中出现该查询词的次数;df(w)表示节点空间词汇表出现的频率,即是否出现查询词的节点空间词汇表的个数/节点空间词汇表的总数。tfidf(w)指节点空间词汇表所对应的知识图谱与对应的目标关键词的的重要度,即节点空间相似度。
进一步作为优选地,所述鉴别单元还包括:
第二鉴别子单元,用于根据节点空间相似度排序,取节点空间相似度最高的节点空间词汇表对应的知识图谱作为目标知识图谱;
第三鉴别子单元,用于将该目标知识图谱中的候选实体及对应的属性信息,确定为与所述目标关键词相匹配的实体和对应的属性信息。
通过鉴别单元可匹配与目标关键词相关联的知识图谱,并根据相关联的知识图谱建立对应的节点空间词汇表,从而借助相应的相似度计算方法,得到各节点空间词汇表与目标关键词之间的相似度,从而借助相似度排序可较好地筛选出相似度较高的节点空间词汇表,进而筛选出相似度较高的知识图谱,以较好地实现语义的歧义消除,提升检索的效率。
进一步作为优选地,所述第一分析模块,包括:
分析单元,用于根据所述实体的数量及对应的属性信息,确定所述N和/或所述M的数值;
比较单元,用于将所述N级和/或下M级待选实体作为备选实体,并根据备选实体与所述目标关键词之间的相似度,确定目标实体;
生成单元,用于根据所述目标实体的属性信息,生成所述属性信息集合。
详细地,上述备选实体与所述目标关键词之间的相似度可根据下述公式二进行计算,即采用余弦相似度对目标关键词和该查询词计算文本语义相似度,即计算节点空间相似度。
其中,tfidf(xi)表示节点空间词汇表所对应的知识图谱与对应的备选实体的重要度,可参考上述公式(一)获得;tfidf(yi))表示节点空间词汇表所对应的知识图谱与对应的目标关键词的重要度,可参考上述公式(一)获得;
例如,在包含与所述目标关键词相匹配的实体的知识图谱中,当与所述目标关键词相匹配的实体为'包装'和'网站'等,其对应的上一级或下一级待选实体为'中国包装网','中国包装网'对应的上一级或下一级待选实体为“对应的网站链接地址”,因此,通过确定合理的N和M的数值,也就是确定合理的节点级数检索范围,有利于提升检索结果的准确性,尤其是问答型例句,可以找寻理想的检索结果,克服了当检索结果不包含查询信息中的语句时而无法被匹配到的缺陷。
第一分析子单元,用于根据预设的粒度数值,设定所述N和/或所述M的数值;其中,粒度数值可以为一,可以为二、三等,本实施例仅以粒度数值为二作简要说明。
通过第一分析子单元可在提升检索精度的情况下,缩小检索的范围,降低检索的耗时,比如根据上述第一判断模块确定节点空间词汇表所对应的知识图谱中,与目标关键词相匹配的候选实体较多,即上级候选实体或下级候选实体的级数较多时,可通过预设的粒度数值,在保证检索精度的情况下,降低候选实体的级数,以减小检索的耗时。
作为进一步优选的方式,分析单元还可以包括:
第二分析子单元,用于将根据上N级和/或下M级待选实体所对应的属性信息与所述实体进行上下文匹配;其中,上下文匹配可以是根据训练样本进行训练得到的相似度。
第三分析子单元,用于在匹配成功后,则将粒度数值确定为所述N和/或所述M的数值,否则在降低所述粒度数值后,替换所述预设的粒度数值,由第一分析子单元继续处理;
通过上述分析单元可在提升检索精度的情况下,缩小检索的范围,降低检索的耗时。
另外,值得一提的是,作为进一步优选的方式,检索系统还包括:
统计单元,用于判断所述目标知识图谱中所述实体的个数,若实体的个数大于1,则根据所述实体的个数建立对应的节点空间词汇表;
核算单元,用于计算各节点空间词汇表中实体对应的属性信息与未作为候选实体的其他标准关键词的相似度;
选择单元,用于选择相似度较高的节点空间词汇表作为最终的节点空间词汇表;
搜索单元,用于根据最终的节点空间词汇表确定实体的搜索方向;例如是上N级,还是下M级或上N级和下M级。
通过上述各单元的配合,可较好地在知识图谱中出现重复的候选实体时,如何更加精确的匹配,并确定搜索方向。
作为优选地,所述第一匹配模块包括:
检索单元,用于根据所述属性信息集合,确定相关联的数据源;
计算单元,用于根据所述索引排序表中数据源的顺序,计算所述属性信息集合与对应的数据源的相似度;
排序单元,用于根据所述属性信息集合与对应的数据源的相似度的数值,从大到小对所述数据源进行排序;
输出单元,用于将排序后的数据源作为所述检索结果输出。
由上述可知,通过上述模块可使得检索出来的数据源能够较好的反映应用户输入的查询信息,使得检索的结果更加智能,尤其是适用于专业领域,例如包装行业内问答语句的检索,代替了简单的模糊匹配算法。此外,通过上述排序的方法,相比相有的模糊匹配的方式,可最大限度地展示与用户输入的查询信息相匹配的搜索结果。
此外,需要说明的是,计算所述属性信息集合与对应的数据源的相似度可参照上述公式一和公式二中的计算方法,也可采用现有技术中相似度的其他计算方法,在此不作赘述和限定。
以上实施例仅用以说明本发明的技术方案而非限定,仅仅参照较佳实施例对本发明进行了详细说明。本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围,均应涵盖在本发明的权利要求范围。
Claims (10)
1.一种基于包装领域的知识图谱的检索方法,其特征在于,包括以下步骤:
接收到终端发送的检索命令,其中,所述检索命令中包含查询信息;
对所述查询信息进行预处理,获取目标关键词;
根据预先建立的知识图谱包含的待选实体,确定与所述目标关键词相匹配的实体和对应的属性信息;
基于所述实体确定上N级和/或下M级待选实体所对应的属性信息,生成属性信息集合,其中,所述N和所述M为自然数;
根据所述属性信息集合,获得与所述目标关键词相匹配的检索结果。
2.根据权利要求1所述的检索方法,其特征在于,所述对所述查询信息进行预处理,获取目标关键词的步骤包括:
对所述查询信息进行语句识别判断;
如若判断成功,则根据分词算法对所述查询信息进行语句分词,得到分词实体,并作为目标关键词;
如若判断不成功,则根据查询信息的类型匹配相应的关键词。
3.根据权利要求1所述的检索方法,其特征在于,所述根据预先建立的知识图谱,确定与所述目标关键词相匹配的实体和对应的属性信息的步骤包括:
根据预先的同义词表,对所述目标关键词进行替换处理得到标准关键词;
根据所述标准关键词,在本地数据库和/或互联网服务器获取相关联的知识图谱;
若所述相关联的知识图谱为多个,则根据所述标准关键词与各相关联的知识图谱中的候选实体,构建节点空间词汇表;
根据所述节点空间词汇表,确定与所述目标关键词相匹配的候选实体和对应的属性信息。
4.根据权利要求1所述的检索方法,其特征在于,所述基于所述实体,确定上N级和/或下M级待选实体所对应的属性信息,并生成属性信息集合,其中,所述N和所述M为自然数的步骤包括:
根据所述实体的数量及对应的属性信息,确定所述N和/或所述M的数值;
将所述上N级和/或下M级待选实体作为备选实体;
根据备选实体与所述目标关键词之间的相似度,确定目标实体;
根据所述目标实体的属性信息,生成所述属性信息集合。
5.根据权利要求1所述的检索方法,其特征在于,所述根据所述属性信息集合,获得与所述目标关键词相匹配的检索结果的步骤包括:
根据所述属性信息集合,确定相关联的数据源;
根据所述索引排序表中数据源的顺序,计算所述属性信息集合与对应的数据源的相似度;
根据所述属性信息集合与对应的数据源的相似度的数值,从大到小对所述据源进行排序;
将排序后的数据源作为所述检索结果输出。
6.一种基于包装领域的知识图谱的检索系统,其特征在于,包括:
第一获取模块,用于接收到终端发送的检索命令,其中,所述检索命令中包含查询信息;
第一处理模块,用于对所述查询信息进行预处理,获取目标关键词;
第一判断模块,用于根据预先建立的知识图谱包含的待选实体,确定与所述目标关键词相匹配的实体和对应的属性信息;
第一分析模块,用于通过所述实体确定上N级和/或下M级待选实体所对应的属性信息,生成属性信息集合,其中,所述N和所述M为自然数;
第一匹配模块,用于根据所述属性信息集合,获得与所述目标关键词相匹配的检索结果。
7.一种根据权利要求6所述的检索系统,其特征在于,所述第一处理模块包括:
判断单元,用于对所述查询信息进行语句识别判断;
划分单元,用于在所述判断单元判断成功后,根据分词算法对所述查询信息进行语句分词,得到分词实体,并作为目标关键词;
匹配单元,用于在所述判断单元判断不成功后,根据查询信息的类型匹配相应的关键词。
8.一种根据权利要求6所述的检索系统,其特征在于,所述第一判断模块包括:
替换单元,用于根据预先的同义词表,对所述目标关键词进行替换处理得到标准关键词;
识别单元,用于根据所述标准关键词,在本地数据库和/或互联网服务器获取相关联的知识图谱;
转换单元,用于在判断所述相关联的知识图谱为多个后,根据所述标准关键词与各相关联的知识图谱中的候选实体,构建节点空间词汇表;
鉴别单元,确定与所述目标关键词相匹配的候选实体和对应的属性信息。
9.一种根据权利要求6所述的检索系统,其特征在于,所述第一分析模块,包括:
分析单元,用于根据所述实体的数量及对应的属性信息,确定所述N和/或所述M的数值;
比较单元,用于将所述N级和/或下M级待选实体作为备选实体,并根据备选实体与所述目标关键词之间的相似度,确定目标实体;
生成单元,用于根据所述目标实体的属性信息,生成所述属性信息集合。
10.一种用于制作权利要求6的检索系统,其特征在于,所述第一匹配模块包括:
检索单元,用于根据所述属性信息集合,确定相关联的数据源;
计算单元,用于根据所述索引排序表中数据源的顺序,计算所述属性信息集合与对应的数据源的相似度;
排序单元,用于根据所述属性信息集合与对应的数据源的相似度的数值,从大到小对所述数据源进行排序;
输出单元,用于将排序后的数据源作为所述检索结果输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910821935.9A CN110516047A (zh) | 2019-09-02 | 2019-09-02 | 基于包装领域的知识图谱的检索方法及检索系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910821935.9A CN110516047A (zh) | 2019-09-02 | 2019-09-02 | 基于包装领域的知识图谱的检索方法及检索系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110516047A true CN110516047A (zh) | 2019-11-29 |
Family
ID=68630275
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910821935.9A Pending CN110516047A (zh) | 2019-09-02 | 2019-09-02 | 基于包装领域的知识图谱的检索方法及检索系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110516047A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111063447A (zh) * | 2019-12-17 | 2020-04-24 | 北京懿医云科技有限公司 | 查询和文本处理方法及装置、电子设备和存储介质 |
CN111259659A (zh) * | 2020-01-14 | 2020-06-09 | 北京百度网讯科技有限公司 | 信息处理方法和装置 |
CN111274332A (zh) * | 2020-01-19 | 2020-06-12 | 中国科学院计算技术研究所 | 一种基于知识图谱的专利智能检索方法及系统 |
CN111309872A (zh) * | 2020-03-26 | 2020-06-19 | 北京百度网讯科技有限公司 | 搜索处理方法、装置及设备 |
CN111475624A (zh) * | 2020-04-13 | 2020-07-31 | 杭州海康威视系统技术有限公司 | 一种监控数据检索方法、装置及设备 |
CN111984694A (zh) * | 2020-07-17 | 2020-11-24 | 北京欧应信息技术有限公司 | 一种骨科搜索引擎系统 |
CN112015918A (zh) * | 2020-09-14 | 2020-12-01 | 支付宝(杭州)信息技术有限公司 | 数据处理方法及装置 |
CN112015886A (zh) * | 2020-08-31 | 2020-12-01 | 中国银行股份有限公司 | 知识的检索方法、装置、服务器和计算机存储介质 |
CN112579750A (zh) * | 2020-11-30 | 2021-03-30 | 百度健康(北京)科技有限公司 | 相似病案的检索方法、装置、设备及存储介质 |
CN112732883A (zh) * | 2020-12-31 | 2021-04-30 | 平安科技(深圳)有限公司 | 基于知识图谱的模糊匹配方法、装置和计算机设备 |
CN112884362A (zh) * | 2021-03-18 | 2021-06-01 | 杭州太火鸟科技有限公司 | 供应商智能匹配方法、装置、设备及存储介质 |
CN113220904A (zh) * | 2021-05-20 | 2021-08-06 | 合肥工业大学 | 数据处理方法及数据处理装置、电子设备 |
CN113609308A (zh) * | 2021-08-12 | 2021-11-05 | 脸萌有限公司 | 知识图谱构建方法、装置、存储介质及电子设备 |
CN115757816A (zh) * | 2022-11-07 | 2023-03-07 | 北京交通大学 | 一种多源异构信息通道耦合方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160092513A1 (en) * | 2002-01-14 | 2016-03-31 | International Business Machines Corporation | Knowledge gathering system based on user's affinity |
CN107480183A (zh) * | 2017-07-06 | 2017-12-15 | 广州索答信息科技有限公司 | 一种厨房领域知识图谱查询方法、装置和存储介质 |
CN108446368A (zh) * | 2018-03-15 | 2018-08-24 | 湖南工业大学 | 一种包装产业大数据知识图谱的构建方法及设备 |
CN110147437A (zh) * | 2019-05-23 | 2019-08-20 | 北京金山数字娱乐科技有限公司 | 一种基于知识图谱的搜索方法及装置 |
-
2019
- 2019-09-02 CN CN201910821935.9A patent/CN110516047A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160092513A1 (en) * | 2002-01-14 | 2016-03-31 | International Business Machines Corporation | Knowledge gathering system based on user's affinity |
CN107480183A (zh) * | 2017-07-06 | 2017-12-15 | 广州索答信息科技有限公司 | 一种厨房领域知识图谱查询方法、装置和存储介质 |
CN108446368A (zh) * | 2018-03-15 | 2018-08-24 | 湖南工业大学 | 一种包装产业大数据知识图谱的构建方法及设备 |
CN110147437A (zh) * | 2019-05-23 | 2019-08-20 | 北京金山数字娱乐科技有限公司 | 一种基于知识图谱的搜索方法及装置 |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111063447B (zh) * | 2019-12-17 | 2024-05-03 | 北京懿医云科技有限公司 | 查询和文本处理方法及装置、电子设备和存储介质 |
CN111063447A (zh) * | 2019-12-17 | 2020-04-24 | 北京懿医云科技有限公司 | 查询和文本处理方法及装置、电子设备和存储介质 |
CN111259659A (zh) * | 2020-01-14 | 2020-06-09 | 北京百度网讯科技有限公司 | 信息处理方法和装置 |
CN111274332A (zh) * | 2020-01-19 | 2020-06-12 | 中国科学院计算技术研究所 | 一种基于知识图谱的专利智能检索方法及系统 |
CN111309872A (zh) * | 2020-03-26 | 2020-06-19 | 北京百度网讯科技有限公司 | 搜索处理方法、装置及设备 |
CN111309872B (zh) * | 2020-03-26 | 2023-08-08 | 北京百度网讯科技有限公司 | 搜索处理方法、装置及设备 |
CN111475624A (zh) * | 2020-04-13 | 2020-07-31 | 杭州海康威视系统技术有限公司 | 一种监控数据检索方法、装置及设备 |
CN111475624B (zh) * | 2020-04-13 | 2023-08-04 | 杭州海康威视系统技术有限公司 | 一种监控数据检索方法、装置及设备 |
CN111984694A (zh) * | 2020-07-17 | 2020-11-24 | 北京欧应信息技术有限公司 | 一种骨科搜索引擎系统 |
CN112015886A (zh) * | 2020-08-31 | 2020-12-01 | 中国银行股份有限公司 | 知识的检索方法、装置、服务器和计算机存储介质 |
CN112015886B (zh) * | 2020-08-31 | 2023-09-01 | 中国银行股份有限公司 | 知识的检索方法、装置、服务器和计算机存储介质 |
CN112015918A (zh) * | 2020-09-14 | 2020-12-01 | 支付宝(杭州)信息技术有限公司 | 数据处理方法及装置 |
CN112579750A (zh) * | 2020-11-30 | 2021-03-30 | 百度健康(北京)科技有限公司 | 相似病案的检索方法、装置、设备及存储介质 |
CN112732883A (zh) * | 2020-12-31 | 2021-04-30 | 平安科技(深圳)有限公司 | 基于知识图谱的模糊匹配方法、装置和计算机设备 |
WO2022142027A1 (zh) * | 2020-12-31 | 2022-07-07 | 平安科技(深圳)有限公司 | 基于知识图谱的模糊匹配方法、装置、计算机设备和存储介质 |
CN112884362A (zh) * | 2021-03-18 | 2021-06-01 | 杭州太火鸟科技有限公司 | 供应商智能匹配方法、装置、设备及存储介质 |
CN113220904A (zh) * | 2021-05-20 | 2021-08-06 | 合肥工业大学 | 数据处理方法及数据处理装置、电子设备 |
CN113609308B (zh) * | 2021-08-12 | 2023-04-21 | 脸萌有限公司 | 知识图谱构建方法、装置、存储介质及电子设备 |
CN113609308A (zh) * | 2021-08-12 | 2021-11-05 | 脸萌有限公司 | 知识图谱构建方法、装置、存储介质及电子设备 |
CN115757816A (zh) * | 2022-11-07 | 2023-03-07 | 北京交通大学 | 一种多源异构信息通道耦合方法 |
CN115757816B (zh) * | 2022-11-07 | 2023-12-08 | 北京交通大学 | 一种多源异构信息通道耦合方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110516047A (zh) | 基于包装领域的知识图谱的检索方法及检索系统 | |
CN110298033B (zh) | 关键词语料标注训练提取系统 | |
CN105760495B (zh) | 一种基于知识图谱针对bug问题进行探索性搜索方法 | |
CN103218436B (zh) | 一种融合用户类别标签的相似问题检索方法及装置 | |
CN106709040B (zh) | 一种应用搜索方法和服务器 | |
CN110377715A (zh) | 基于法律知识图谱的推理式精准智能问答方法 | |
CN105095433A (zh) | 实体推荐方法及装置 | |
CN106339502A (zh) | 一种基于用户行为数据分片聚类的建模推荐方法 | |
CN105975531B (zh) | 基于对话知识库的机器人对话控制方法和系统 | |
CN103838833A (zh) | 基于相关词语语义分析的全文检索系统 | |
CN111832290B (zh) | 用于确定文本相关度的模型训练方法、装置、电子设备及可读存储介质 | |
CN103679462A (zh) | 一种评论数据处理方法和装置、一种搜索方法和系统 | |
WO2006108069A2 (en) | Searching through content which is accessible through web-based forms | |
CN102033877A (zh) | 检索方法和装置 | |
CN103309869B (zh) | 数据对象的展示关键词推荐方法及系统 | |
CN111061828B (zh) | 一种数字图书馆知识检索方法及装置 | |
CN112307182B (zh) | 一种基于问答系统的伪相关反馈的扩展查询方法 | |
KR20120067062A (ko) | 온톨로지 기반의 품목분류코드 검색 장치 및 방법 | |
CN110555154B (zh) | 一种面向主题的信息检索方法 | |
CN113312474A (zh) | 一种基于深度学习的法律文书的相似案件智能检索系统 | |
CN106844482B (zh) | 一种基于搜索引擎的检索信息匹配方法及装置 | |
CN115422372A (zh) | 一种基于软件测试的知识图谱构建方法和系统 | |
CN104123319B (zh) | 对具有地图需求的搜索项进行解析的方法和装置 | |
CN110851584A (zh) | 一种法律条文精准推荐系统和方法 | |
CN112989215A (zh) | 一种基于稀疏用户行为数据的知识图谱增强的推荐系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20191129 |