CN115827829B - 一种基于本体的搜索意图优化方法及系统 - Google Patents

一种基于本体的搜索意图优化方法及系统 Download PDF

Info

Publication number
CN115827829B
CN115827829B CN202310083765.5A CN202310083765A CN115827829B CN 115827829 B CN115827829 B CN 115827829B CN 202310083765 A CN202310083765 A CN 202310083765A CN 115827829 B CN115827829 B CN 115827829B
Authority
CN
China
Prior art keywords
search
word
ontology
words
exploration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310083765.5A
Other languages
English (en)
Other versions
CN115827829A (zh
Inventor
胡炜梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Giantan Information Technology Co ltd
Original Assignee
Guangzhou Giantan Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Giantan Information Technology Co ltd filed Critical Guangzhou Giantan Information Technology Co ltd
Priority to CN202310083765.5A priority Critical patent/CN115827829B/zh
Publication of CN115827829A publication Critical patent/CN115827829A/zh
Application granted granted Critical
Publication of CN115827829B publication Critical patent/CN115827829B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据处理技术领域,提出一种基于本体的搜索意图优化方法及系统,应用于包含本体库的搜索引擎,包括以下步骤:获取用户提交的查询语句和/或关键词,并对其进行预处理,得到搜索词集;在本体库中进行搜索匹配得到由词链或词子集组成的关注点候选集;对于任一关注点,通过搜索引擎的搜索匹配,得到与该关注点中所有词同时匹配的结果集;对结果集进行基于本体的语义分析和共现分析,生成探索词及其共现关系;以关注点作为节点,以探索词作为子节点,以关注点与探索次之间的共现关系作为边,生成探索图并可视化显示;根据用户对于探索图的选择指令,对搜索词集进行更新后重新搜索匹配,或确定目标搜索结果条目,得到搜索意图优化结果。

Description

一种基于本体的搜索意图优化方法及系统
技术领域
本发明涉及数据处理技术领域,更具体地,涉及一种基于本体的搜索意图优化方法及系统。
背景技术
本体(ontology)是共享概念模型的明确的形式化规范说明,其定义了概念以及概念与概念之间的关系。词汇是概念的指称,概念是思维的单元,人们的思想通过语言(词汇串)进行交流。本体为计算机建立了类人的概念体系,使人与人之间、人与计算机之间能基于共享概念进行语言交流。本体作为机器理解人类语言的知识组织方式,应用场景包括信息查找、分析、知识自动化等,提高这些场景的智能化水平。
用户在搜索作业中,很难在初次搜索时明确表达搜索意图。目前的搜索引擎大多是基于关键字匹配的搜索引擎,形成搜索结果集。然而,这些搜索引擎很少具有语义推理能力。如Google虽然采用了一些自然语言处理技术,例如,同义词扩展,但是它并不能解析概念之间的语义关系,这样在一定程度上导致了查准率的降低,使得查询返回结果并不是用户所满意的信息。当用户一次将意图表达为多个关键字时,可能存在没有结果条目;而当关键字较少的情况,又可能有大量的结果条目,这需要用户进行多次表达,反复尝试。且当搜索出现大量的结果条目时,用户需要进行筛选并二次搜索,存在作业繁琐,效率低的问题。
发明内容
本发明为克服上述现有技术所述的搜索作业中需要用户进行多次表达,搜索效率低的缺陷,提供一种基于本体的搜索意图优化方法及系统。
为解决上述技术问题,本发明的技术方案如下:
一种基于本体的搜索意图优化方法,应用于包含本体库的搜索引擎,包括以下步骤:
S1、获取用户提交的查询语句和/或关键词,并对其进行预处理,得到搜索词集;
S2、根据所述搜索词集,在所述本体库中进行搜索匹配得到由词链或词子集组成的关注点候选集;
S3、对于任一关注点,通过搜索引擎的搜索匹配,得到与该关注点中所有词同时匹配的结果集;
S4、对所述结果集进行基于本体的语义分析和共现分析,生成探索词及其共现关系;以关注点作为节点,以探索词作为子节点,以关注点与探索词之间的共现关系作为边,生成探索图并可视化显示;
S5、根据用户对于探索图的选择指令,对搜索词集进行更新后跳转执行S2步骤,或确定目标搜索结果条目,得到搜索意图优化结果。
进一步地,本发明还提出一种基于本体的搜索意图优化系统,其应用本发明提出的于本体的搜索优化方法,且应用于包含本体库的搜索引擎。所述系统包括:
采集模块,用于获取用户提交的查询语句和/或关键词,以及用户对于探索图的选择指令;
预处理模块,用于对查询语句和/或关键词进行预处理,得到搜索词集;以及用于根据用户对于探索图的选择指令,对搜索词集进行更新;
关注点匹配模块,用于与所述搜索引擎数据交互,在所述本体库中进行搜索匹配得到由词链或词子集组成的关注点候选集;
搜索匹配模块,用于与所述搜索引擎数据交互,对于任一关注点,通过搜索引擎的搜索匹配,得到与该关注点中所有词同时匹配的结果集;
探索图生成模块,用于对所述结果集进行基于本体的语义分析,生成探索词;对所述结果集进行基于本体的共现分析,生成关注点与探索词的共现关系;以关注点作为节点,以探索词作为子节点,以关注点与探索词之间的共现关系作为边,生成探索图;
显示模块,用于将所述探索图生成模块输出的探索图进行可视化显示,以及显示相应关注点或探索词节点的结果条目。
进一步地,本发明还提出一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现本发明提出的基于本体的搜索意图优化方法的步骤。
与现有技术相比,本发明技术方案的有益效果是:本发明基于本体的探索式搜索,基于用户关注点,动态提供结果集视图及探索图,给出了下一步有效表达的且与结果条目对应的推荐词,帮助用户提高用户意图表达效率和结果集的浏览效率,提升用户体验。此外,本发明基于探索图实现用户搜索意图的交互,以实现对结果目标集合的收敛,能够进一步深化表达,从而提高表达效率。
附图说明
图1为本发明的基于本体的搜索意图优化方法的流程图。
图2为实施例1的探索图示意图。
图3为实施例1的古诗搜索结果条目示意图。
图4为实施例1的工单搜索结果条目示意图。
图5为本发明的基于本体的搜索意图优化系统的架构图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
本实施例提出一种基于本体的搜索意图优化方法,如图1所示,为本实施例的搜索优化方法的流程图。
本实施例提出的基于本体的搜索意图优化方法应用于包含本体库的搜索引擎,其中包括以下步骤:
S1、获取用户提交的查询语句和/或关键词,并对其进行预处理,得到搜索词集。
S2、根据所述搜索词集,在所述本体库中进行搜索匹配得到由词链或词子集组成的关注点候选集。
S3、对于任一关注点,通过搜索引擎的搜索匹配,得到与该关注点中所有词同时匹配的结果集。
S4、对所述结果集进行基于本体的语义分析和共现分析,生成探索词及其共现关系;以关注点作为节点,以探索词作为子节点,以关注点与探索词之间的共现关系作为边,生成探索图并可视化显示。
S5、根据用户对于探索图的选择指令,对搜索词集进行更新后跳转执行S2步骤,或确定目标搜索结果条目,得到搜索意图优化结果。
其中,所述搜索词集是搜索引擎在数据源中匹配搜索结果集的条件,其来源于用户输入的查询语句和/或关键词,并经过预处理得到。
对于用户输入的查询语句和/或关键词的预处理操作,可选地包括分词、关键词提取、虚词和停用词的过滤,以及关键词的扩展。
在一可选实施例中,对用户提交的查询语句和/或关键词进行预处理的步骤包括:
1)对查询语句进行分词;
2)对查询语句的关键词提取;
3)对分词结果、提取的关键词和/或用户提交的关键词进行虚词和停用词的过滤。
进一步可选地,对经过预处理的搜索词集进行扩展,其中,将所述搜索词集中的词利用本体转换为概念,并提取出该概念的所有指称词后,补充在所述搜索词集中;和/或,提取与该概念匹配的上位概念和/或下位概念的所有指称词,补充在所述搜索词集中。
本实施例中的关注点是以符号表达的概念或概念关联组合。在以文本为主的搜索引擎中,关注点的表现形式是带符号的词链。而在探索图中,所述关注点是由一个或多个节点组成的节点路径。如图2所示,其中圈中部分内容表示关注点“宽带-终端设备”。
本实施例中的关注点在探索图上体现为由一个或多个节点组成的节点路径,随着路径的越深入,关注点代表的语义越具体,对应的结果集越小。
进一步可选地,以关注点为中心的路径中,每个节点上显示该路径上所有节点同时有映射的的结果集条目数量。
在一可选实施例中,对于词数为 n的搜索词集{ w 1,..., w n},将其与所述本体库中的概念节点进行匹配,获得搜索词相应的同义词和/或搜索词在本体上概念的外延词组成词集{ W 1,..., W n},并构建关注点候选集。
其中,搜索词 w ii=1,2,..., n)转化为以下三种词集:
(1) W i仅仅包括 w i
(2) W i包括 w i及所有同义词;
(3) W i包括 w i及所有同义词,以及 w i在本体上概念的外延词。
由此可见,本实施例中的每一个搜索词对应本体中一个或多个概念(包括外延概念),每个概念将对应一个或多个概念词。
而本实施例在构建关注点候选集时,选用特殊词链集组成关注点候选集,具体地,由关键词对应的词集经过笛卡尔乘积连接形成的词链组成。
进一步地,所述关注点候选集中包括:
(1)由成功匹配的 n个概念词组成的词集, W 1* W 2*...* W n
(2)由成功匹配的 n- k个概念词组成的词集,其中1 ≤ k< n,W k*...* W n
(3)由成功匹配的单个概念词组成的词集。
显然,对于用户来说,上述词子集的价值顺序是(1)>(2)>(3)。进一步可选地,可以对节点进行分类,以调整这些集合的价值排序。例如认为业务实体节点的价值最高等。
在一可选实施例中,S2步骤还包括以下步骤:
对所述关注点候选集进行优化筛选,其中,对所述关注点候选集中的词数量进行判断:
若所述关注点候选集中的词数量小于预设的优化阈值 m,则不对所述关注点候选集进行筛选;否则,从所述关注点候选集中保留业务对象实体作为关注点,滤除其他词;
当业务对象实体的数量大于或等于优化阈值 m时,从所述业务对象实体中选择在本体分层级结构中的下层节点中的 m-1个节点;
当同为本体分层级结构中的下层节点的数量大于或等于优化阈值 m时,选择权重最大的 m-1个节点。
由此得到的关注点候选集为贴合用户搜索意图的词子集。
其中,业务对象实体是本体中的独立实体,可通过本体筛选。
进一步地,本实施例通过搜索引擎的搜索匹配,得到与该关注点中所有词同时匹配的结果集。
其中,所述结果集是用户搜索对象的集合,不同类型的对象,对应的实例也不一样。
例如,文档的实例单元为文件或文档片;其中,文档片是指将文档切成一个个的片段,是搜索定义和查阅的最小单元,适用于文件比较大;对于小文件,则以文件作为实例单元。表单的实例单元为表记录。术语的实例单元为词条。仪表的是实例单元是一个个具体带编号的仪表,在数据体现上为一条半结构化或结构化的记录。
进一步地,本实施例对所述结果集进行基于本体的语义分析和共现分析,生成探索词及其共现关系,进而生成探索图。
本实施例中的探索图是一个“图(Graph)”,由节点和边组成。探索图是结果集中的各结果条目的语义关系统计视图,其语义关系体现在以关注点为中心,与关注点连接的节点和边依托本体,且在结果集中有映射(mapping)。
在一可选实施例中,对所述结果集进行基于本体的语义分析的步骤包括:
对结果集中的任一结果条目进行语义分析,获得相应关注点对应概念的推荐词;
所述推荐词包括以下一种或多种:上位概念及下位概念指称词、通过属性关联的概念指称词、通过属性关联的属性值,以及本体上的共现词。
由于对象依然可能有概念-属性-对象(概念),探索图可形成树状结构。如多个概念与同一个对象概念关联,则探索图可形成网状结构。
进一步地,本实施例的共现分析包含词共现分析和概念共现分析。在一可选实施例中,对所述结果集进行基于本体的共现分析的步骤包括:获取所述关注点对应的概念节点与所述推荐词对应的概念节点在本体库中存在的共现关系,即查找是否存在一个或多个词与关注点对应的词在文本中一起出现,或是否存在一个或多个概念的指称词与关注点对应的词在文本中一起出现。
所述共现关系包括条目共现、同句共现和同句顺序共现。
其中,所述条目共现包括多个概念节点在一个搜索结果条目中同时出现。
请参阅图3,为同一搜索结果条目的古诗,例如,古诗《枫桥夜泊》中,“月-夜-孤寂”为一条目共现关系,“月-夜-孤寂-愁”同样为一条目共现关系。由此可见,同一条目上所有的词都是成对的共现关系。
而同一搜索条目的古诗《枫桥夜泊》、《静夜思》、《舟夜书所见》具有的共现关系就少很多,如“秋天-夜-孤寂”。
所述同句共现包括多个概念节点在一个搜索结果条目中的一个句子内同时出现。
请参阅图4,为同一搜索结果条目的工单,例如工单1、2、4、5都有“上网-信号”的同句共现关系。显然同句共现关系比条目共现/同文共现具有更强的语义关系,也蕴含了更明确的语义。
所述同句顺序共现包括多个概念节点在一个搜索条目中的一个句子内按指定顺序出现。
如图4中,工单1、2、3、4、5中的“无法-上网”,工单1、4的“无-信号”,工单2、5的“有-信号”具有同句顺序共现关系。显然,这种同句顺序共现的词链具有明确的语义。
本实施例中的探索图展示的是概念与概念的关系。通过基于本体的语义分析,可将词转变为概念。如图4中,工单5、6是有“无法-上网”的共现关系,因为“无法”和“不能”是同义的,他们指向同一个概念。而通过基于本体的共现分析,可挑选节点对应的结果集,叠加了语义关系和共现关系,有利于用户挑全和挑准结果集。
此外,在具体实施过程中,用户可在探索图上直观浏览关注点匹配上多少结果条目,并浏览结果条目以确定是否为搜索标的。同时,用户还可以在探索图上通过增加或减少节点的方式来改变关注点,用于获取用户的意图表达,相当于获取用户的思维过程,以对探索图进行更新,进一步优化搜索意图。
具体地,在一可选实施例中,根据用户对于探索图的选择指令,对搜索词集进行更新的步骤包括以下的一种:
(1)根据用户重新提出的查询语句和/或关键词对其进行预处理,对所述关注点候选集进行更新,并跳转执行S3步骤;
(2)根据用户在探索图中选定的推荐词对所述关注点候选集进行更新,并跳转执行S3步骤;
(3)根据用户的滤除指令,从关注点候选集中删除相应的词,并跳转执行S3步骤。
在探索图的交互目的是查看结果集的概况及分布,并在结果集中选取目标子集。所以对探索图的节点选择确定后,需要关联结果子集进行展示。
本实施例中,基于本体的探索式搜索,基于用户关注点,动态提供结果集视图及探索图,给出了下一步有效表达的且与结果条目对应的推荐词,帮助用户提高用户意图表达效率和结果集的浏览效率,提升用户体验。
此外,本实施例利用本体,生成搜索结果集的探索图,用户可以使用探索图对结果集进行筛选,便于用户快速定位目标结果,或迅速判定结果集价值。
实施例2
本实施例提出一种基于本体的搜索意图优化系统,应用实施例1提出的基于本体的搜索意图优化方法。如图5所示,为本实施例的基于本体的搜索意图优化系统的架构图。
本实施例提出的基于本体的搜索意图优化系统中,应用于包含本体库的搜索引擎,其中包括:
采集模块,用于获取用户提交的查询语句和/或关键词,以及用户对于探索图的选择指令。
预处理模块,用于对查询语句和/或关键词进行预处理,得到搜索词集;以及用于根据用户对于探索图的选择指令,对搜索词集进行更新。
关注点匹配模块,用于与所述搜索引擎数据交互,在所述本体库中进行搜索匹配得到由词链或词子集组成的关注点候选集。
搜索匹配模块,用于与所述搜索引擎数据交互,对于任一关注点,通过搜索引擎的搜索匹配,得到与该关注点中所有词同时匹配的结果集。
探索图生成模块,用于对所述结果集进行基于本体的语义分析,生成探索词;对所述结果集进行基于本体的共现分析,生成关注点与探索词的共现关系;以关注点作为节点,以探索词作为子节点,以关注点与探索词之间的共现关系作为边,生成探索图。
显示模块,用于将所述探索图生成模块输出的探索图进行可视化显示,以及显示相应关注点或探索词节点的结果条目。
在一可选实施例中,所述预处理模块对用户提交的查询语句和/或关键词进行预处理的步骤包括:
(1)对查询语句进行分词;
(2)对查询语句的关键词提取;
(3)对分词结果、提取的关键词和/或用户提交的关键词进行虚词和停用词的过滤;
(4)对经过预处理的搜索词集进行扩展:将所述搜索词集中的词利用本体转换为概念,并提取出该概念的所有指称词后,补充在所述搜索词集中;和/或,提取与该概念匹配的上位概念和/或下位概念的所有指称词,补充在所述搜索词集中。
所述关注点匹配模块根据所述预处理模块输出的搜索词集进行关注点匹配。对于词数为 n的搜索词集,将其与所述本体库中的概念进行匹配,得到匹配的概念词并组成词子集。
在一可选实施例中,对于词数为 n的搜索词集{ w 1,..., w n},将其与所述本体库中的概念节点进行匹配,获得搜索词相应的同义词和/或搜索词在本体上概念的外延词组成词集{ W 1,..., W n},并构建关注点候选集。所述关注点候选集中包括:
(1)由成功匹配的 n个概念词组成的词集, W 1* W 2*...* W n
(2)由成功匹配的 n- k个概念词组成的词集,其中1 ≤ k< n,W k*...* W n
(3)由成功匹配的单个概念词组成的词集。
进一步地,用户还可以通过显示模块对所述关注点候选集进行优化筛选,其中,对所述关注点候选集中的词数量进行判断:
若所述关注点候选集中的词数量小于预设的优化阈值 m,则不对所述关注点候选集进行筛选;否则,从所述关注点候选集中保留业务对象实体作为关注点,滤除其他词;
当业务对象实体的数量大于或等于优化阈值 m时,从所述业务对象实体中选择在本体分层级结构中的下层节点中的 m-1个节点;
当同为本体分层级结构中的下层节点的数量大于或等于优化阈值 m时,选择权重最大的 m-1个节点。
所述搜索匹配模块通过搜索引擎的搜索匹配,得到与该关注点中所有词同时匹配的结果集,然后发送至探索图生成模块中进一步处理。
所述探索图生成模块可对结果集进行基于本体的语义分析和/或共现分析。
其中,对所述结果集进行基于本体的语义分析的步骤包括:
对结果集中的任一结果条目进行语义分析,获得相应关注点对应概念的推荐词;
所述推荐词包括以下一种或多种:上位概念及下位概念指称词、通过属性关联的概念指称词、通过属性关联的属性值,以及本体上的共现词。
对所述结果集进行基于本体的共现分析的步骤包括:
获取所述关注点对应的概念节点与所述推荐词对应的概念节点在本体库中存在的共现关系;
所述共现关系包括条目共现、同句共现和同句顺序共现;其中:
所述条目共现包括多个概念节点在一个搜索结果条目中同时出现;
所述同句共现包括多个概念节点在一个搜索结果条目中的一个句子内同时出现;
所述同句顺序共现包括多个概念节点在一个搜索条目中的一个句子内按指定顺序出现。
所述探索图生成模块以关注点作为节点,以探索词作为子节点,以关注点与探索词之间的共现关系作为边,生成探索图后,将探索图传输至显示模块中进行可视化显示。
在一可选实施例中,所述显示模块为人机交互显示器。
用户可在探索图上直观浏览关注点匹配上多少结果条目,并浏览结果条目以确定是否为搜索标的。同时,用户还可以在探索图上通过增加或减少节点的方式来改变关注点,用于获取用户的意图表达。
具体地,在一可选实施例中,根据用户对于探索图的选择指令,对搜索词集进行更新的步骤包括以下的一种:
(1)根据用户重新提出的查询语句和/或关键词,并对其进行预处理,得到更新的关注点候选集,并跳转执行S3步骤;
(2)以用户在探索图中选定的推荐词作为关注点,并跳转执行S3步骤;
(3)根据用户的滤除指令,对关注点候选集中删除相应的关注点,并跳转执行S3步骤。
其中,用户通过显示模块执行的探索图的选择,相当于获取用户的思维过程,以对探索图进行更新,进一步优化搜索意图。
实施例3
本实施例提出一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现实施例1提出的基于本体的搜索意图优化方法的步骤。
相同或相似的标号对应相同或相似的部件;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (7)

1.一种基于本体的搜索意图优化方法,应用于包含本体库的搜索引擎,其特征在于,包括以下步骤:
S1、获取用户提交的查询语句和/或关键词,并对其进行预处理,得到搜索词集;
S2、根据所述搜索词集,在所述本体库中进行搜索匹配得到由词链或词子集组成的关注点候选集;其中,对于词数为n的搜索词集{w 1,...,w n},将其与所述本体库中的概念节点进行匹配,获得搜索词相应的同义词和/或搜索词在本体上概念的外延词组成词集{W 1,...,W n},并构建关注点候选集;所述关注点候选集中的关注点为特殊词链集,由所述词集经过笛卡尔乘积连接形成的词链组成;所述关注点候选集中包括:
(1)由成功匹配的n个概念词组成的词集,W 1*W 2*...*W n
(2)由成功匹配的n-k个概念词组成的词集,其中1 ≤ n,W k*...*W n
(3)由成功匹配的单个概念词组成的词集;
S3、对于任一关注点,通过搜索引擎的搜索匹配,得到与该关注点中所有词同时匹配的结果集;
S4、对所述结果集进行基于本体的语义分析和共现分析,生成探索词及其共现关系;以关注点作为节点,以探索词作为子节点,以关注点与探索词之间的共现关系作为边,生成探索图并可视化显示;其中:
对所述结果集进行基于本体的语义分析的步骤包括:对结果集中的任一结果条目进行语义分析,获得相应关注点对应概念的推荐词;所述推荐词包括以下一种或多种:上位概念及下位概念指称词、通过属性关联的概念指称词、通过属性关联的属性值,以及本体上的共现词;
对所述结果集进行基于本体的共现分析的步骤包括:
获取所述关注点对应的概念节点与所述推荐词对应的概念节点在本体库中存在的共现关系;
所述共现关系包括条目共现、同句共现和同句顺序共现;其中:
所述条目共现包括多个概念节点在一个搜索结果条目中同时出现;
所述同句共现包括多个概念节点在一个搜索结果条目中的一个句子内同时出现;
所述同句顺序共现包括多个概念节点在一个搜索条目中的一个句子内按指定顺序出现;
S5、根据用户对于探索图的选择指令,对关注点进行更新后跳转执行S3步骤,或确定目标搜索意图节点,得到搜索意图优化结果。
2.根据权利要求1所述的基于本体的搜索意图优化方法,其特征在于,所述S1步骤中,对用户提交的查询语句和/或关键词进行预处理的步骤包括:
对查询语句进行分词;
对查询语句的关键词提取;
对分词结果、提取的关键词和/或用户提交的关键词进行虚词和停用词的过滤。
3.根据权利要求2所述的基于本体的搜索意图优化方法,其特征在于,所述S1步骤中,还包括以下步骤:对经过预处理的搜索词集进行扩展,其中,将所述搜索词集中的词利用本体转换为概念,并提取出该概念的所有指称词后,补充在所述搜索词集中;和/或,提取与该概念匹配的上位概念和/或下位概念的所有指称词,补充在所述搜索词集中。
4.根据权利要求1所述的基于本体的搜索意图优化方法,其特征在于,所述S2步骤中,还包括以下步骤:对所述关注点候选集进行优化筛选,其中,对所述关注点候选集中的词数量进行判断:
若所述关注点候选集中的词数量小于预设的优化阈值m,则不对所述关注点候选集进行筛选;否则,从所述关注点候选集中保留业务对象实体作为关注点,滤除其他词;
当业务对象实体的数量大于或等于优化阈值m时,从所述业务对象实体中选择在本体分层级结构中的下层节点中的m-1个节点;
当同为本体分层级结构中的下层节点的数量大于或等于优化阈值m时,选择权重最大的m-1个节点。
5.根据权利要求1所述的基于本体的搜索意图优化方法,其特征在于,所述S5步骤中,根据用户对于探索图的选择指令,对搜索词集进行更新的步骤包括以下的一种:
(1)根据用户重新提出的查询语句和/或关键词对其进行预处理,对所述关注点候选集进行更新,并跳转执行S3步骤;
(2)根据用户在探索图中选定的推荐词对所述关注点候选集进行更新,并跳转执行S3步骤;
(3)根据用户的滤除指令,从关注点候选集中删除相应的词,并跳转执行S3步骤。
6.一种基于本体的搜索意图优化系统,其应用权利要求1~5任一项所述的基于本体的搜索意图优化方法,且应用于包含本体库的搜索引擎,其特征在于,所述系统包括:
采集模块,用于获取用户提交的查询语句和/或关键词,以及用户对于探索图的选择指令;
预处理模块,用于对查询语句和/或关键词进行预处理,得到搜索词集;以及用于根据用户对于探索图的选择指令,对搜索词集进行更新;
关注点匹配模块,用于与所述搜索引擎数据交互,在所述本体库中进行搜索匹配得到由词链或词子集组成的关注点候选集;
搜索匹配模块,用于与所述搜索引擎数据交互,对于任一关注点,通过搜索引擎的搜索匹配,得到与该关注点中所有词同时匹配的结果集;
探索图生成模块,用于对所述结果集进行基于本体的语义分析,生成探索词;对所述结果集进行基于本体的共现分析,生成关注点与探索词的共现关系;以关注点作为节点,以探索词作为子节点,以关注点与探索词之间的共现关系作为边,生成探索图;
显示模块,用于将所述探索图生成模块输出的探索图进行可视化显示,以及显示相应关注点或探索词节点的结果条目。
7.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1~5任一项所述的基于本体的搜索意图优化方法的步骤。
CN202310083765.5A 2023-02-08 2023-02-08 一种基于本体的搜索意图优化方法及系统 Active CN115827829B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310083765.5A CN115827829B (zh) 2023-02-08 2023-02-08 一种基于本体的搜索意图优化方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310083765.5A CN115827829B (zh) 2023-02-08 2023-02-08 一种基于本体的搜索意图优化方法及系统

Publications (2)

Publication Number Publication Date
CN115827829A CN115827829A (zh) 2023-03-21
CN115827829B true CN115827829B (zh) 2023-05-02

Family

ID=85520908

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310083765.5A Active CN115827829B (zh) 2023-02-08 2023-02-08 一种基于本体的搜索意图优化方法及系统

Country Status (1)

Country Link
CN (1) CN115827829B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992689A (zh) * 2019-03-26 2019-07-09 华为技术有限公司 搜索方法、终端及介质
CN114201587A (zh) * 2022-02-18 2022-03-18 广州极天信息技术股份有限公司 一种基于本体的搜索意图表达方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102087669B (zh) * 2011-03-11 2013-01-02 北京汇智卓成科技有限公司 基于语义关联的智能搜索引擎系统
CN103064945B (zh) * 2012-12-26 2016-01-06 吉林大学 基于本体的情境搜索方法
EP3811226A4 (en) * 2018-06-25 2022-03-23 salesforce.com, inc. SYSTEMS AND PROCEDURES FOR STUDYING RELATIONSHIPS BETWEEN ENTITIES
CN109033272A (zh) * 2018-07-10 2018-12-18 广州极天信息技术股份有限公司 一种基于概念的知识自动关联方法及装置
KR102215088B1 (ko) * 2020-07-03 2021-02-10 (주)어센트코리아 검색 의도를 제공하기 위한 서비스 제공 장치 및 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992689A (zh) * 2019-03-26 2019-07-09 华为技术有限公司 搜索方法、终端及介质
CN114201587A (zh) * 2022-02-18 2022-03-18 广州极天信息技术股份有限公司 一种基于本体的搜索意图表达方法及系统

Also Published As

Publication number Publication date
CN115827829A (zh) 2023-03-21

Similar Documents

Publication Publication Date Title
US10963794B2 (en) Concept analysis operations utilizing accelerators
CN110399457B (zh) 一种智能问答方法和系统
US9448995B2 (en) Method and device for performing natural language searches
US9684683B2 (en) Semantic search tool for document tagging, indexing and search
US11210468B2 (en) System and method for comparing plurality of documents
KR101646754B1 (ko) 모바일 시멘틱 검색 장치 및 그 방법
CN101814067B (zh) 对自然语言内容中的信息含量进行定量估算的系统和方法
Zouaq et al. Evaluating the generation of domain ontologies in the knowledge puzzle project
US8463810B1 (en) Scoring concepts for contextual personalized information retrieval
US12007939B1 (en) Method and apparatus for determining search result demographics
CN111680173A (zh) 统一检索跨媒体信息的cmr模型
CN111475623A (zh) 基于知识图谱的案件信息语义检索方法及装置
US20090063550A1 (en) Fact-based indexing for natural language search
US9720962B2 (en) Answering superlative questions with a question and answer system
KR20120073229A (ko) 신뢰 질의 시스템 및 방법
KR20100075454A (ko) 간접 화법 내에서의 시맨틱 관계의 식별
CN111061828B (zh) 一种数字图书馆知识检索方法及装置
CN103886099A (zh) 一种模糊概念的语义检索系统及方法
CN114201587B (zh) 一种基于本体的搜索意图表达方法及系统
JP2018005690A (ja) 情報処理装置及びプログラム
CN112507089A (zh) 一种基于知识图谱的智能问答引擎及其实现方法
US20200065395A1 (en) Efficient leaf invalidation for query execution
KR20240023535A (ko) 텍스트 데이터의 자동 라벨링
CN112417170B (zh) 面向不完备知识图谱的关系链接方法
Mvumbi Natural language interface to relational database: a simplified customization approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant