CN114201587A - 一种基于本体的搜索意图表达方法及系统 - Google Patents

一种基于本体的搜索意图表达方法及系统 Download PDF

Info

Publication number
CN114201587A
CN114201587A CN202210149253.XA CN202210149253A CN114201587A CN 114201587 A CN114201587 A CN 114201587A CN 202210149253 A CN202210149253 A CN 202210149253A CN 114201587 A CN114201587 A CN 114201587A
Authority
CN
China
Prior art keywords
concept
word
words
search
ontology
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210149253.XA
Other languages
English (en)
Other versions
CN114201587B (zh
Inventor
胡炜梅
陈丽莎
陈锦毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Giantan Information Technology Co ltd
Original Assignee
Guangzhou Giantan Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Giantan Information Technology Co ltd filed Critical Guangzhou Giantan Information Technology Co ltd
Priority to CN202210149253.XA priority Critical patent/CN114201587B/zh
Publication of CN114201587A publication Critical patent/CN114201587A/zh
Application granted granted Critical
Publication of CN114201587B publication Critical patent/CN114201587B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Animal Behavior & Ethology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及知识图谱技术领域,提出一种基于本体的搜索意图表达方法及系统,其中包括以下步骤:获取用户输入的搜索内容,对搜索内容进行分词;利用预设的基于领域本体的知识图谱对分词结果进行概念识别,得到分词结果对应的概念标签;根据分词结果对应的概念标签,从所述基于领域本体的知识图谱中搜索同义词、外延词和/或关联词并进行显示;用户从显示的同义词、外延词和/或关联词中选用目标搜索词,对选用的目标搜索词进行组合,生成搜索意图表达结果。本发明通过对用户输入的搜索内容进行分词并转换为概念,再进一步结合基于领域本体的知识图谱进行推荐词搜索,有助于完整列举用户意图的词链表达,生成更准确的搜索意图表达结果。

Description

一种基于本体的搜索意图表达方法及系统
技术领域
本发明涉及知识图谱技术领域,更具体地,涉及一种基于本体的搜索意图表达方法及系统。
背景技术
本体(ontology)是共享概念模型的明确的形式化规范说明(Rudi Studer,1998)。本体定义了概念以及概念与概念之间的关系。词汇是概念的指称,概念是思维的单元,人们的思想通过语言(词汇串)进行交流。本体为计算机建立了类人的概念体系,使人与人之间、人与计算机之间能基于共享概念进行语言交流。本体作为机器理解人类语言的知识组织方式,应用场景包括信息查找、分析、知识自动化、知识管理等,提高这些场景的智能化水平。其中本体可分为通用本体(general ontology)和领域本体(domain ontology)。通用本体用于描述世界万物,如SUMO,WordNet,HowNet等。领域本体将领域概念及概念之间关系进行关联组织,专业性强。而知识图谱 (knowledge graph) 是以图的形式表现客观世界中的实体/概念及其之间关系的语义知识库。
目前,对于机器实现搜索意图表达方式主要有关键词搜索和自然语言搜索两种方式。关键词搜索中包括词或多词组合搜索,其中搜索引擎预先对数据源进行分词索引,搜索时直接使用这些词于索引进行词匹配。自然语言搜索主要使用完整的句子、段落进行搜索,其中搜索引擎对搜索句子、段落进行分词,再对分词的结果进行搜索匹配。然而仅使用关键词、自然语言的句子或文本表达搜索意图显然无法满足用户的搜索要求,因为用户输入的关键词、自然语言的句子或文本只是其搜索意图的一种表达。同样的意图,不同的人会采用不同的词或词的组合来表达,如果数据源中的内容是多人表达的结果,采用意图的一种表达方式去匹配搜索,显然会严重影响搜索的查全效果。
发明内容
本发明为克服仅使用关键词、自然语言的句子或文本表达搜索意图会严重影响搜索的准确率和效率的缺陷,提供一种基于本体的搜索意图表达方法及系统。
为解决上述技术问题,本发明的技术方案如下:
一种基于本体的搜索意图表达方法,包括以下步骤:
S1、获取用户输入的搜索内容,对搜索内容进行分词;
S2、利用预设的基于领域本体的知识图谱对分词结果进行概念识别,得到分词结果对应的概念标签;
S3、根据分词结果对应的概念标签,从所述基于领域本体的知识图谱中搜索同义词、外延词和/或关联词并进行显示;
S4、用户从显示的同义词、外延词和/或关联词中选用目标搜索词,对选用的目标搜索词进行组合,生成搜索意图表达结果。
本技术方案中,通过对用户输入的搜索内容进行分词并转换为概念,再进一步结合基于领域本体的知识图谱进行同义词、外延词和/或关联词的搜索,有助于完整列举用户意图的词链表达,进而生成更准确的搜索意图表达结果。
进一步的,本发明还提出一种基于本体的搜索意图表达系统,应用上述一种基于本体的搜索意图表达方法。搜索意图表达系统包括人机交互模块、分词模块、知识图谱模块、概念识别模块、推荐词生成模块和搜索意图表达生成模块。
其中,人机交互模块用于获取用户输入的搜索内容、用户选用的目标搜索词,以及显示推荐词及搜索意图表达结果。
分词模块用于对所述人机交互模块获取的搜索内容进行分词。
知识图谱模块存储有预设的基于领域本体的知识图谱。所述知识图谱中的领域本体包括概念集合、属性集合、个体集合和事实集合。其中,所述属性集合包括数据属性和对象属性,所述数据属性包括概念-属性-属性值关系,所述对象属性包括概念-属性-概念的关联关系。所述概念集合包括若干概念节点,所述概念节点中存储有同一概念标签的词汇,且不同的概念节点与概念节点之间通过上-下位关系和整体-部分关系形成树形概念层次结构。
概念识别模块用于通过调用所述知识图谱模块对所述分词模块输出的分词结果进行概念识别,得到分词结果对应的概念标签。
推荐词生成模块用于根据分词结果对应的概念标签,通过调用所述知识图谱模块搜索同义词、外延词和/或关联词作为推荐词,然后发送至所述人机交互模块中进行显示。
搜索意图表达生成模块用于通过所述人机交互模块获取用户选用的目标搜索词,调用所述知识图谱模块获取目标搜索词对应的概念节点之间的数据属性和对象属性,以及概念节点之间的上下位关系和整体部分关系后进行组合,得到若干搜索意图表达结果,然后发送至所述人机交互模块中进行显示。
与现有技术相比,本发明技术方案的有益效果是:本发明通过将用户输入的搜索词汇表示转变为概念表示,并基于概念识别结果,进行同义词推荐、外延推荐和关联词推荐,有助于完整列举用户意图的词链表达,有效提高用户搜索意图表达的准确率,且搜索引擎基于该完整的词汇序列组成的搜索意图表达结果在数据源中进行匹配搜索,能得出更全面且更准确的搜索结果。
附图说明
图1为实施例1的搜索意图表达方法的流程图。
图2为实施例1的基于领域本体的知识图谱的示意图。
图3为实施例2的搜索意图表达方法的流程图。
图4为实施例3的搜索意图表达系统的架构图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
本实施例提出一种基于本体的搜索意图表达方法,如图1所示,为本实施例的搜索意图表达方法的流程图。
本实施例提出的搜索意图表达方法中,包括以下步骤:
S1、获取用户输入的搜索内容,对搜索内容进行分词。
S2、利用预设的基于领域本体的知识图谱对分词结果进行概念识别,得到分词结果对应的概念标签。
S3、根据分词结果对应的概念标签,从所述基于领域本体的知识图谱中搜索同义词、外延词和/或关联词并进行显示。
S4、用户从显示的同义词、外延词和/或关联词中选用目标搜索词,对选用的目标搜索词进行组合,生成搜索意图表达结果。
本实施例中,所述基于领域本体的知识图谱中的领域本体包括概念集合、属性集合、个体集合和事实集合。其中,所述属性集合包括数据属性和对象属性,所述数据属性包括概念-属性-属性值关系,例如:姚明-身高-2.26米;所述对象属性包括概念-属性-概念的关联关系,且可实例化为个体-属性-个体的关系。所述概念集合包括若干概念节点,所述概念节点中存储有同一概念标签的词汇,且不同的概念节点与概念节点之间通过上-下位关系(is-a)和整体-部分关系(part-of)形成树形概念层次结构。
从所述基于领域本体的知识图谱中搜索同义词、外延词和/或关联词时,通过所述知识图谱中本体里存储的每一个概念的所有词汇表达,以及概念的外延中存储的所有词汇表达,获取与概念标签匹配的同义词、外延词和/或关联词进行显示。
本实施例中的知识图谱中本体里存储的概念节点形成概念层次结构,如图2所示,为本实施例的基于领域本体的知识图谱的示意图。由图可知,本实施例的基于领域本体的知识图谱为具有层次结构的概念集,顶级概念为“Thing”,一级大类由业务实体及业务实体的描述维度(即围绕业务实体的特征、运动、变化、事件)组成。
在具体实施过程中,在完成目标搜索词的选用后,对这些目标搜索词对应的维度进行组合可得到具体的概念链。例如“李白-月亮-忧愁”,在本实施例的知识图谱中为诗人-物-情感三维组合,则在中小学诗词本体的搜索场景中,就可以得到“李白写月亮并且表达忧愁的诗”这一搜索意图表达结果。
本实施例基于本体对用户输入的搜索内容进行分词和概念识别,本体中记录了目标数据源的概念和其所有符号表达——词汇。本实施例通过将用户输入的搜索词汇表示转变为概念表示,相较于仅使用关键词、自然语言的句子或文本表达搜索意图,本实施例更有利于意图的准确理解。此外,本实施例基于概念识别结果,进行同义词推荐、外延推荐和关联词推荐,有助于完整列举用户意图的词链表达,搜索引擎基于该完整的词汇序列组成的搜索意图表达结果在数据源中进行匹配搜索,能得出更全面且更准确的搜索结果。
实施例2
本实施例提出一种基于本体的搜索意图表达方法,如图3所示,为本实施例的搜索意图表达方法的流程图。其中包括以下步骤:
S1、获取用户输入的搜索内容,对搜索内容进行分词。
本步骤中,对用户输入的关键词、关键词的逻辑组合、句子、文本等搜索内容进行划分,得到分词结果,用于进一步的概念识别及搜索意图生成。
S2、利用预设的基于领域本体的知识图谱对分词结果进行概念识别,得到分词结果对应的概念标签。
本实施例中,所述基于领域本体的知识图谱中的领域本体包括概念集合、属性集合、个体集合和事实集合;其中,所述属性集合包括数据属性和对象属性,所述数据属性包括概念-属性-属性值关系,所述对象属性包括概念-属性-概念的关联关系;所述概念集合包括若干概念节点,所述概念节点中存储有同一概念标签的词汇,且不同的概念节点与概念节点之间通过上-下位关系和整体-部分关系形成树形概念层次结构。
进一步的,对分词结果进行概念识别的步骤包括:根据分词结果在知识图谱的领域本体中匹配概念节点,当匹配到一个概念节点,则根据匹配的概念节点对应的标签对分词结果进行标记;当匹配到多个概念节点,则根据分词结果的上下文进行自动消歧、推荐消歧后,将消歧后的一个概念标签对分词结果进行标记,且当分词结果无上下文或经过消歧后仍存在匹配的多个概念节点,则将匹配的多个概念节点对应的概念标签进行显示,由用户选定,并将用户选定的概念标签对分词结果进行标记。
具体地,在根据分词结果的上下文进行自动消歧、推荐消歧时,根据上下文的词汇对应的概念标签,计算上下文词汇的概念标签与需要消歧的词汇的概念标签在知识图谱上的距离,当各词汇间距离较大,则取距离最短的概念标签对应的概念节点作为消歧结果;当各词汇间距离较小,则将匹配的多个概念节点对应的概念标签进行显示,由用户选择相应的概念标签。
S3、根据分词结果对应的概念标签,从所述基于领域本体的知识图谱中搜索同义词、外延词和/或关联词并进行显示。
本步骤中,在搜索同义词时,根据分词结果对应的概念标签从所述基于领域本体的知识图谱中搜索同一概念标签的概念节点,将同一概念标签的概念节点中存储的所有词汇组成词集并作为同义词推荐进行输出显示。
本实施例的知识图谱中,每一个本体中存储有每一个概念的所有词汇表达。在搜索同义词时,是根据本体的概念-词汇表达关系来进行的。
本步骤中,在搜索外延词时,根据分词结果对应的概念标签从所述基于领域本体的知识图谱中搜索同一概念标签的概念节点,将与所述概念节点存在上-下位关系和/或整体-部分关系的其他概念节点中存储的所有词汇组成词集并作为外延词推荐进行输出显示。
本实施例的知识图谱中,每一个本体中存储的不同的概念节点与概念节点之间通过上-下位关系和整体-部分关系形成树形概念层次结构。在进行外延词搜索时,根据分词结果对应的概念标签,利用本体的概念层次结构,推出对应概念的外延概念,并对于每个外延概念,推出其词汇表达作为外延词输出显示。
进一步地,在进行同义词推荐和外延词推荐时,将同义词词集和外延词词集合并组成推荐词集进行输出显示。将输入词A1的意图(即A1指向的概念及外延概念)拓展为其词表达集合[A11,A12,…,A1n],实质是将用户意图的词表达列举完整。例如:在诗词查询的场景中,用户输入“月亮”,经过同义词推荐后,形成词集[月亮,婵娟,玉盘];进一步经过外延词推荐之后,词集变为[月亮,婵娟,玉盘,月光,月色]。其中,“月光”“月色”在诗词本体中是“月”这个概念标签的外延概念的词表示。
本步骤中,在搜索关联词时,根据分词结果对应的概念标签从所述基于领域本体的知识图谱中搜索同一概念标签的概念节点,并根据所述概念节点的数据属性和/或对象属性构建概念图谱;所述概念图谱以所述概念节点为中心点,展开得到与所述概念节点关联有数据属性和/或对象属性的其他概念节点;将该其他概念节点中存储的所有词汇作为关联词推荐进行输出显示。
进一步地,得到关联词推荐后,根据关联词推荐中的任一词汇从所述基于领域本体的知识图谱中搜索同义词和/或外延词,将所述关联词推荐中的词汇及其同义词和/或外延词组成关联词推荐词集后输出显示。
本实施例中在搜索关联词时,旨在帮助用户完善搜索意图,并通过利用本体的概念维度组合关系、概念-属性-概念关联关系,构建概念图谱。本实施例的概念图谱中以词对应的概念为中心点,展开其属性及关联概念节点,对于每个关联概念节点,推出其词汇表达作为关联词输出显示。
在另一实施例中,除了将关联概念节点中存储的词汇进行显示,还将对应的概念图谱进行输出显示,所述概念图谱在推出分词结果对应的概念为中心点的同时,也推出本体其他概念维度的顶点,用户可以沿顶点展开这些维度的概念节点,选取目标概念加入概念组合链,进一步生成搜索意图表达结果。
进一步的,对用户历史输入的搜索内容及选用的目标搜索词进行记录及分析统计,将词频最高的若干个词汇,以及词链频率最高的二词词链、三词词链和/或四词词链进行显示,以提高用户输入效率。
S4、用户从显示的同义词、外延词和/或关联词中选用目标搜索词,对选用的目标搜索词进行组合,生成搜索意图表达结果。
本步骤中,根据用户选用的目标搜索词,在预设的基于领域本体的知识图谱中获取目标搜索词对应的概念节点之间的数据属性和对象属性,以及概念节点之间的上-下位关系和整体-部分关系,将所述目标搜索词对应的概念标签、根据目标搜索词对应概念节点的数据属性和/或对象属性获得的关联概念节点对应的概念标签、根据目标搜索词对应概念节点的上-下位关系和/或整体-部分关系获得的外延概念节点对应的概念标签进行组合,得到若干词链作为搜索意图表达结果。
以下进一步举例说明本实施例提出的搜索意图表达方法在具体实施过程中的效果。
在一具体实施过程中,用户输入搜索内容为“移动套餐扣费问题”,对搜索内容进行分词得到“移动套餐”、“扣费问题”。则在概念识别时,对于分词结果“移动套餐”结合预设的基于领域本体的知识图谱的搜索得到同义词、外延词和关联词,如“流量套餐”、“畅享套餐”、“流量畅享套餐”、“5G移动套餐”、“校园流量套餐”等等,对于分词结果“扣费问题”结合预设的基于领域本体的知识图谱的搜索得到同义词、外延词和关联词,如“自动扣费”、“自动续费”、“乱扣费”、“恶意扣费”、“自动订购”等等。用户可以从显示的词汇或概念图谱中选用目标搜索词。
完成选用后,利用知识图谱中的概念维度描述搜索意图,例如从特征、运动、变化、事件等维度进行组合,例如当选用“5G移动套餐”和“自动订购”作为目标搜索词后,其维度属于产品、业务动作,则通过组合得到搜索意图表达结果“如何自动订购5G移动套餐”、“5G移动套餐自动订购方法”等。
本实施例进一步结合树形概念层次结构的基于领域本体的知识图谱,在搜索关联词时,利用本体的概念维度组合关系、概念-属性-概念关联关系,进一步构建概念图谱。概念图谱在推出分词结果对应的概念节点的相关词汇的同时,也推出本体其他概念维度的顶点,用户可以沿顶点展开这些维度的概念节点,选取目标概念加入概念组合链,进一步生成搜索意图表达结果。或进一步结合历史选用的词链频率,将高频选用的词链作为推荐显示,能够有效提高用户输入效率和搜索效率。
实施例3
本实施例提出一种基于本体的搜索意图表达系统,应用实施例1或实施例2提出的搜索意图表达方法。如图4所示,为本实施例的搜索意图表达系统的架构图。
本实施例提出的搜索意图表达系统中,包括人机交互模块、分词模块、知识图谱模块、概念识别模块、推荐词生成模块和搜索意图表达生成模块。
其中,分词模块用于对所述人机交互模块获取的搜索内容进行分词。
知识图谱模块存储有预设的基于领域本体的知识图谱。所述知识图谱中的领域本体包括概念集合、属性集合、个体集合和事实集合。其中,所述属性集合包括数据属性和对象属性,所述数据属性包括概念-属性-属性值关系,所述对象属性包括概念-属性-概念的关联关系。所述概念集合包括若干概念节点,所述概念节点中存储有同一概念标签的词汇,且不同的概念节点与概念节点之间通过上-下位关系和整体-部分关系形成树形概念层次结构。
概念识别模块用于通过调用所述知识图谱模块对所述分词模块输出的分词结果进行概念识别,得到分词结果对应的概念标签。
在具体实施过程中,当所述概念识别模块在对分词结果进行概念识别时,所述概念识别模块根据分词结果在知识图谱的领域本体中匹配概念节点,当匹配到一个概念节点,则根据匹配的概念节点对应的标签对分词结果进行标记;当匹配到多个概念节点,则根据分词结果的上下文进行自动消歧后,将匹配的一个或多个概念节点对应的标签对分词结果进行标记;当没有匹配到概念节点,则根据分词结果与概念节点的匹配度最高的若干个概念节点对应的标签发送至人机交互模块中进行显示,由用户选定,并将用户选定的概念节点对应的标签对分词结果进行标记。
所述推荐词生成模块用于根据分词结果对应的概念标签,通过调用所述知识图谱模块搜索同义词、外延词和/或关联词作为推荐词,然后发送至所述人机交互模块中进行显示。
进一步的,本实施例中的推荐词生成模块包括同义词推荐单元、外延词推荐单元和关联词推荐单元。
其中,同义词推荐单元用于根据分词结果对应的概念标签,通过调用所述知识图谱模块搜索同一概念标签的概念节点,将同一概念标签的概念节点中存储的所有词汇作为同义词推荐进行输出,并发送至所述人机交互模块中进行显示。
外延词推荐单元用于根据分词结果对应的概念标签,通过调用所述知识图谱模块搜索同一概念标签的概念节点,将与所述概念节点存在上-下位关系和/或整体-部分关系的其他概念节点中存储的所有词汇作为外延词推荐进行输出,并发送至所述人机交互模块中进行显示。
关联词推荐单元用于根据分词结果对应的概念标签,通过调用所述知识图谱模块搜索同一概念标签的概念节点,并根据所述概念节点的数据属性和/或对象属性构建概念图谱,其中所述概念图谱以所述概念节点为中心点,展开得到与所述概念节点的数据属性和/或对象属性关联的其他概念节点;所述关联词推荐单元以概念节点-数据属性、概念节点-对象属性-其他概念的关联关系,将相应概念节点中存储的所有词汇作为关联词推荐进行输出,并发送至所述人机交互模块中进行显示。
在另一实施例中,所述关联词推荐单元除了将关联词输出显示,还将构建的概念图谱发送至所述人机交互模块中进行显示,其中显示的概念图谱在推出词对应的概念为中心点的同时,也推出本体其他概念维度的顶点,用户可沿顶点展开这些维度的概念,去选取目标搜索词加入搜索意图表达结果中。
在另一实施例中,所述关联词推荐单元还对用户历史输入的搜索内容及选用的目标搜索词进行记录及分析统计,将词频最高的若干个词汇,以及词链频率最高的二词词链、三词词链和/或四词词链作为关联词推荐,并发送至所述人机交互模块中进行显示供用户选择。
搜索意图表达生成模块用于通过所述人机交互模块获取用户选用的目标搜索词,调用所述知识图谱模块获取目标搜索词对应的概念节点之间的数据属性和对象属性,以及概念节点之间的上下位关系和整体部分关系后进行组合,得到若干搜索意图表达结果,然后发送至所述人机交互模块中进行显示。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种基于本体的搜索意图表达方法,其特征在于,包括以下步骤:
S1、获取用户输入的搜索内容,对搜索内容进行分词;
S2、利用预设的基于领域本体的知识图谱对分词结果进行概念识别,得到分词结果对应的概念标签;
S3、根据分词结果对应的概念标签,从所述基于领域本体的知识图谱中搜索同义词、外延词和/或关联词并进行显示;
S4、用户从显示的同义词、外延词和/或关联词中选用目标搜索词,对选用的目标搜索词进行组合,生成搜索意图表达结果。
2.根据权利要求1所述的基于本体的搜索意图表达方法,其特征在于,所述基于领域本体的知识图谱中的领域本体包括概念集合、属性集合、个体集合和事实集合;其中,所述属性集合包括数据属性和对象属性,所述数据属性包括概念-属性-属性值关系,所述对象属性包括概念-属性-概念的关联关系;所述概念集合包括若干概念节点,所述概念节点中存储有同一概念标签的词汇,且不同的概念节点与概念节点之间通过上-下位关系和整体-部分关系形成树形概念层次结构。
3.根据权利要求2所述的基于本体的搜索意图表达方法,其特征在于,所述S2步骤中,对分词结果进行概念识别的步骤包括:根据分词结果在知识图谱的领域本体中匹配概念节点,当匹配到一个概念节点,则根据匹配的概念节点对应的标签对分词结果进行标记;当匹配到多个概念节点,则根据分词结果的上下文进行自动消歧后,将消歧后的一个概念标签对分词结果进行标记,且当分词结果无上下文或经过消歧后仍存在匹配的多个概念节点,则将匹配的多个概念节点对应的概念标签进行显示,由用户选定,并将用户选定的概念标签对分词结果进行标记。
4.根据权利要求2所述的基于本体的搜索意图表达方法,其特征在于,所述S3步骤中,根据分词结果对应的概念标签从所述基于领域本体的知识图谱中搜索同义词的步骤包括:根据分词结果对应的概念标签从所述基于领域本体的知识图谱中搜索同一概念标签的概念节点,将同一概念标签的概念节点中存储的所有词汇作为同义词推荐进行输出显示。
5.根据权利要求2所述的基于本体的搜索意图表达方法,其特征在于,所述S3步骤中,根据分词结果对应的概念标签从所述基于领域本体的知识图谱中搜索外延词的步骤包括:根据分词结果对应的概念标签从所述基于领域本体的知识图谱中搜索同一概念标签的概念节点,将与所述概念节点存在上-下位关系和/或整体-部分关系的其他概念节点中存储的所有词汇作为外延词推荐进行输出显示。
6.根据权利要求2所述的基于本体的搜索意图表达方法,其特征在于,所述S3步骤中,根据分词结果对应的概念标签从所述基于领域本体的知识图谱中搜索关联词的步骤包括以下一个或多个:
(1)根据分词结果对应的概念标签从所述基于领域本体的知识图谱中搜索同一概念标签的概念节点,并根据所述概念节点的数据属性和/或对象属性构建概念图谱;所述概念图谱以所述概念节点为中心点,展开得到与所述概念节点的数据属性和/或对象属性关联的其他概念节点;以概念节点-数据属性、概念节点-对象属性-其他概念的关联关系,将相应概念节点中存储的所有词汇作为关联词推荐进行输出显示;
(2)根据步骤(1)得到关联词推荐后,根据关联词推荐中的任一词汇从所述基于领域本体的知识图谱中搜索同义词和/或外延词,将所述关联词推荐中的词汇及其同义词和/或外延词组成关联词推荐词集后输出显示。
7.根据权利要求6所述的基于本体的搜索意图表达方法,其特征在于,所述S3步骤中,还包括以下一个或多个步骤:
(3)将所述概念图谱输出显示;
(4)对用户历史输入的搜索内容及选用的目标搜索词进行记录及分析统计,将词频最高的若干个词汇,以及词链频率最高的二词词链、三词词链和/或四词词链进行显示。
8.根据权利要求2~7任一项所述的基于本体的搜索意图表达方法,其特征在于,所述S4步骤中,生成搜索意图表达结果的步骤包括:根据用户选用的目标搜索词,在预设的基于领域本体的知识图谱中获取目标搜索词对应的概念节点之间的数据属性和对象属性,以及概念节点之间的上-下位关系和整体-部分关系,将所述目标搜索词对应的概念标签、根据目标搜索词对应概念节点的数据属性和/或对象属性获得的关联概念节点对应的概念标签、根据目标搜索词对应概念节点的上-下位关系和/或整体-部分关系获得的外延概念节点对应的概念标签进行组合,得到若干词链作为搜索意图表达结果。
9.一种基于本体的搜索意图表达系统,应用权利要求1~8任一项所述的基于本体的搜索意图表达方法,其特征在于,包括:
人机交互模块,用于获取用户输入的搜索内容、用户选用的目标搜索词,以及显示推荐词及搜索意图表达结果;
分词模块,用于对所述人机交互模块获取的搜索内容进行分词;
知识图谱模块,所述知识图谱模块存储有预设的基于领域本体的知识图谱;所述知识图谱中的领域本体包括概念集合、属性集合、个体集合和事实集合;其中,所述属性集合包括数据属性和对象属性,所述数据属性包括概念-属性-属性值关系,所述对象属性包括概念-属性-概念的关联关系;所述概念集合包括若干概念节点,所述概念节点中存储有同一概念标签的词汇,且不同的概念节点与概念节点之间通过上-下位关系和整体-部分关系形成树形概念层次结构;
概念识别模块,用于通过调用所述知识图谱模块对所述分词模块输出的分词结果进行概念识别,得到分词结果对应的概念标签;
推荐词生成模块,用于根据分词结果对应的概念标签,通过调用所述知识图谱模块搜索同义词、外延词和/或关联词作为推荐词,然后发送至所述人机交互模块中进行显示;
搜索意图表达生成模块,用于通过所述人机交互模块获取用户选用的目标搜索词,调用所述知识图谱模块获取目标搜索词对应的概念节点之间的数据属性和对象属性,以及概念节点之间的上下位关系和整体部分关系后进行组合,得到若干搜索意图表达结果,然后发送至所述人机交互模块中进行显示。
10.根据权利要求9所述的基于本体的搜索意图表达系统,其特征在于,所述推荐词生成模块中包括:
同义词推荐单元,用于根据分词结果对应的概念标签,通过调用所述知识图谱模块搜索同一概念标签的概念节点,将同一概念标签的概念节点中存储的所有词汇作为同义词推荐进行输出,并发送至所述人机交互模块中进行显示;
外延词推荐单元,用于根据分词结果对应的概念标签,通过调用所述知识图谱模块搜索同一概念标签的概念节点,将与所述概念节点存在上-下位关系和/或整体-部分关系的其他概念节点中存储的所有词汇作为外延词推荐进行输出,并发送至所述人机交互模块中进行显示;
关联词推荐单元,用于根据分词结果对应的概念标签,通过调用所述知识图谱模块搜索同一概念标签的概念节点,并根据所述概念节点的数据属性和/或对象属性构建概念图谱,其中所述概念图谱以所述概念节点为中心点,展开得到与所述概念节点的数据属性和/或对象属性关联的其他概念节点;所述关联词推荐单元以概念节点-数据属性、概念节点-对象属性-其他概念的关联关系,将相应概念节点中存储的所有词汇作为关联词推荐进行输出,并发送至所述人机交互模块中进行显示。
CN202210149253.XA 2022-02-18 2022-02-18 一种基于本体的搜索意图表达方法及系统 Active CN114201587B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210149253.XA CN114201587B (zh) 2022-02-18 2022-02-18 一种基于本体的搜索意图表达方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210149253.XA CN114201587B (zh) 2022-02-18 2022-02-18 一种基于本体的搜索意图表达方法及系统

Publications (2)

Publication Number Publication Date
CN114201587A true CN114201587A (zh) 2022-03-18
CN114201587B CN114201587B (zh) 2022-06-07

Family

ID=80645553

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210149253.XA Active CN114201587B (zh) 2022-02-18 2022-02-18 一种基于本体的搜索意图表达方法及系统

Country Status (1)

Country Link
CN (1) CN114201587B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115422377A (zh) * 2022-11-03 2022-12-02 中科雨辰科技有限公司 一种基于知识图谱的搜索系统
CN115658929A (zh) * 2022-12-14 2023-01-31 天津理工大学 一种资产管理知识图谱的生成方法、装置及系统
CN115827829A (zh) * 2023-02-08 2023-03-21 广州极天信息技术股份有限公司 一种基于本体的搜索意图优化方法及系统
CN118467572A (zh) * 2024-07-15 2024-08-09 深圳希施玛数据科技有限公司 一种数据查询方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102609512A (zh) * 2012-02-07 2012-07-25 北京中机科海科技发展有限公司 异构信息知识挖掘与可视化分析系统及方法
CN103927358A (zh) * 2014-04-15 2014-07-16 清华大学 文本检索方法及系统
CN107330111A (zh) * 2017-07-07 2017-11-07 长沙沃本智能科技有限公司 基于通用形式化本体的领域本体的检索方法及装置
CN111680207A (zh) * 2020-03-11 2020-09-18 华中科技大学鄂州工业技术研究院 一种用于确定用户搜索意图的方法及装置
CN113792123A (zh) * 2021-11-17 2021-12-14 广州极天信息技术股份有限公司 一种基于数据驱动的领域知识图谱构建方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102609512A (zh) * 2012-02-07 2012-07-25 北京中机科海科技发展有限公司 异构信息知识挖掘与可视化分析系统及方法
CN103927358A (zh) * 2014-04-15 2014-07-16 清华大学 文本检索方法及系统
CN107330111A (zh) * 2017-07-07 2017-11-07 长沙沃本智能科技有限公司 基于通用形式化本体的领域本体的检索方法及装置
CN111680207A (zh) * 2020-03-11 2020-09-18 华中科技大学鄂州工业技术研究院 一种用于确定用户搜索意图的方法及装置
CN113792123A (zh) * 2021-11-17 2021-12-14 广州极天信息技术股份有限公司 一种基于数据驱动的领域知识图谱构建方法及系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115422377A (zh) * 2022-11-03 2022-12-02 中科雨辰科技有限公司 一种基于知识图谱的搜索系统
CN115422377B (zh) * 2022-11-03 2022-12-27 中科雨辰科技有限公司 一种基于知识图谱的搜索系统
CN115658929A (zh) * 2022-12-14 2023-01-31 天津理工大学 一种资产管理知识图谱的生成方法、装置及系统
CN115827829A (zh) * 2023-02-08 2023-03-21 广州极天信息技术股份有限公司 一种基于本体的搜索意图优化方法及系统
CN115827829B (zh) * 2023-02-08 2023-05-02 广州极天信息技术股份有限公司 一种基于本体的搜索意图优化方法及系统
CN118467572A (zh) * 2024-07-15 2024-08-09 深圳希施玛数据科技有限公司 一种数据查询方法及装置

Also Published As

Publication number Publication date
CN114201587B (zh) 2022-06-07

Similar Documents

Publication Publication Date Title
CN111680173B (zh) 统一检索跨媒体信息的cmr模型
CN114201587B (zh) 一种基于本体的搜索意图表达方法及系统
WO2021093755A1 (zh) 问题的匹配方法及装置、问题的回复方法及装置
CN110968699B (zh) 一种基于事理推荐的逻辑图谱构建及预警方法和装置
CN104252533B (zh) 搜索方法和搜索装置
WO2021213314A1 (zh) 数据处理方法、装置及计算机可读存储介质
CN111475623A (zh) 基于知识图谱的案件信息语义检索方法及装置
US9460211B2 (en) Apparatus, system and method for a semantic editor and search engine
KR101646754B1 (ko) 모바일 시멘틱 검색 장치 및 그 방법
CN113987212A (zh) 一种数控加工领域工艺数据的知识图谱构建方法
US20100077001A1 (en) Search system and method for serendipitous discoveries with faceted full-text classification
US20140280179A1 (en) System and Apparatus for Information Retrieval
WO2014160309A1 (en) Method and apparatus for human-machine interaction
CN111291210A (zh) 图像素材库生成方法、图像素材推荐方法及相关装置
CN112328800A (zh) 自动生成编程规范问题答案的系统及方法
CN112036178A (zh) 一种配网实体相关的语义搜索方法
JP2018005690A (ja) 情報処理装置及びプログラム
CN114817454A (zh) 一种结合信息量和BERT-BiLSTM-CRF的NLP知识图谱构建方法
CN112507076A (zh) 一种语义分析搜索方法、装置及存储介质
CN112507089A (zh) 一种基于知识图谱的智能问答引擎及其实现方法
CN112052332A (zh) 检索方法、装置、电子设备及可读存储介质
Repke et al. Extraction and representation of financial entities from text
CN102902705B (zh) 定位数据中的歧义
CN114218406A (zh) 基于传动知识图谱的传动解决方案生成方法及系统
KR20100073793A (ko) 집단지성을 이용한 지식 구조화 장치 및 그 방법과, 그를 이용한 지식서비스 제공 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant