CN112100330A - 一种基于人工智能技术的主题搜索方法及其系统 - Google Patents

一种基于人工智能技术的主题搜索方法及其系统 Download PDF

Info

Publication number
CN112100330A
CN112100330A CN202010941417.3A CN202010941417A CN112100330A CN 112100330 A CN112100330 A CN 112100330A CN 202010941417 A CN202010941417 A CN 202010941417A CN 112100330 A CN112100330 A CN 112100330A
Authority
CN
China
Prior art keywords
search
topic
word
phrase
screening
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010941417.3A
Other languages
English (en)
Other versions
CN112100330B (zh
Inventor
姚洲鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Fanews Technology Co ltd
Original Assignee
Hangzhou Fanews Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Fanews Technology Co ltd filed Critical Hangzhou Fanews Technology Co ltd
Priority to CN202010941417.3A priority Critical patent/CN112100330B/zh
Publication of CN112100330A publication Critical patent/CN112100330A/zh
Application granted granted Critical
Publication of CN112100330B publication Critical patent/CN112100330B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明包括一种基于人工智能技术的主题搜索方法及其系统,方法包括:对用户输入的至少一个关键词进行搜索,得到每个关键词的关联词组;于关联词组中获取每个关联词的权重,并根据权重获取预设核心词;根据预设核心词获取得到与预设核心词相关联的次要核心词并计算次要核心词的权重,并根据权重顺序对次要核心词进行筛选,以根据筛选结果和预设核心词获取得到预选主题词组;获取每个预选主题词组对应的第二搜索结果中的每个主题搜索项的第一相关度;对主题搜索项进行筛选,并将对应于所有关键词的预选主题词组和筛选后的对应于预选主题词组的主题搜索项根据第一相关度的大小进行展示。本发明的有益效果:快速、高效地对海量数据进行主题搜索项和预选主题词组地发现。

Description

一种基于人工智能技术的主题搜索方法及其系统
技术领域
本发明涉及信息检索技术领域,尤其涉及一种基于人工智能技术的主题搜索方法及其系统。
背景技术
目前的搜索服务通常是以列表或图片链接的形式返回针对用户输入的关键字的搜索结果,用户通常只能逐条点击链接、即采用依次浏览搜索结果的标题和摘要,才能找到和确定其感兴趣的信息,或者所需要的搜索内容。这样的搜索过程效率低下,用户无法直观地获得想要的搜索结果。
并且用户输入的关键字的语义可以有多种理解方式,由于语义的歧义性或用户无法准确表达自己的需求,使得现有的搜索服务不能够区分关键字的不同歧义,有可能造成搜索结果中包含用户实际并不感兴趣的信息,这样,就需要用户自己筛选定位,更进一步增加了用户筛选有效信息的工作量,从而增加了搜索时间,降低了搜索效率。
以及目前的很多搜索服务中,通常采用聚类算法对指定数据进行迭代计算,检索出主题,但是通过聚类算法进行迭代计算的计算复杂程度高,而且计算量较大,从而导致检索出主题的速度往往需要等待几小时甚至几天。
发明内容
针对现有技术中存在的上述问题,现提供一种基于人工智能技术的主题搜索方法及其系统。
具体技术方案如下:
一种基于人工智能技术的主题搜索方法,其中,包括以下步骤:
步骤S1,对用户输入的至少一个关键词进行搜索,并根据第一搜索结果对关键词进行预处理,以得到每个关键词对应的关联词组;
步骤S2,根据权重计算公式于关联词组中获取每个关联词的权重,以根据权重顺序由上至下依次获取预设数量的关联词,并将根据权重获取的关联词记为预设核心词;
步骤S3,根据预设核心词于第一搜索结果中获取得到与预设核心词相关联的次要核心词,根据权重计算公式计算次要核心词的权重,并根据权重顺序对次要核心词进行筛选,以根据筛选结果和预设核心词获取得到预选主题词组;
步骤S4,对每个预选主题词组进行搜索,以获取每个预选主题词组对应的第二搜索结果中的每个主题搜索项的第一相关度;
步骤S5,根据第一相关度筛选阈值结合主题搜索项的第一相关度对主题搜索项进行筛选,并将对应于所有关键词的每个主题搜索信息根据第一相关度的大小进行依次展示;
其中,主题搜索信息包括所有关键词的一个预选主题词组和筛选后的对应于预选主题词组的一个主题搜索项;并且每两个主题搜索信息不同。
优选的,基于人工智能技术的主题搜索方法,其中,步骤S1具体包括以下步骤:
步骤S11,用户在搜索框中输入至少一个关键词,以得到对应于所有关键词的第一搜索结果;
步骤S12,获取第一搜索结果中的每个关联词搜索项与所有关键词之间的第二相关度;
步骤S13,根据预设关联词筛选设置结合第二相关度对每个关联词搜索项进行筛选,以于筛选得到的关联词搜索项中获取得到与每个关键词相关联的关联词;
步骤S14,根据所有关联词搜索项中的关联词获取得到与每个关键词对应的关联词组。
优选的,基于人工智能技术的主题搜索方法,其中,关联词组包括与关键词相关联的关联词,和相互关联的关联词。
优选的,基于人工智能技术的主题搜索方法,其中,采用图表展示关联词、预设核心词和次要核心词之间的连接关系,以及采用图表展示关联词、预设核心词和次要核心词的权重大小。
优选的,基于人工智能技术的主题搜索方法,其中,权重计算公式如下述公式所示:
Figure BDA0002673768210000021
其中,Weight用于表示权重;
subsetFreq用于表示第一搜索结果的词频;
subsetSize用于表示第一搜索结果的大小;
superFreq用于表示整个搜索数据库的词频;
superSize用于表示整个搜索数据库的大小;
natureBoost用于表示词性权重;
fieldBoost用于表示字段权重。
优选的,基于人工智能技术的主题搜索方法,其中,步骤S3具体包括以下步骤:
步骤S31,于第一搜索结果中的每个关联词搜索项中获取与预设核心词相关联的次要核心词,以得到关联于预设核心词的次要核心词组;
步骤S32,根据权重计算公式计算得到次要核心词组中的每个次要核心词的权重,以根据权重顺序和预设筛选规则对次要核心词进行筛选,以得到筛选结果,筛选结果包括预设筛选数量的次要核心词;
步骤S33,根据预设核心词和与预设核心词相关联的筛选结果获取得到预选主题词组。
优选的,基于人工智能技术的主题搜索方法,其中,步骤S4具体包括以下步骤:
步骤S41,根据预设搜索顺序依次对预选主题词组进行搜索,以得到对应于每个预选主题词组的第二搜索结果,每个预选主题词组对应的第二搜索结果中包括每个主题搜索项的主题第一相关度;
步骤S42,按照预设规则对每个预选主题词组对应的所有主题第一相关度进行筛选,以筛选得到每个预选主题词组对应的多个筛选后的主题第一相关度;
步骤S43,获取每个预选主题词组对应的筛选后的多个主题第一相关度的平均值,并将平均值作为对应的主题搜索项的第一相关度。
优选的,基于人工智能技术的主题搜索方法,其中,步骤S5具体包括以下步骤:
步骤S51,获取最高的第一相关度,并根据最大的第一相关度的预设比例计算得到第一相关度筛选阈值;
步骤S52,判断主题搜索项的第一相关度是否低于第一相关度筛选阈值;
若是,过滤主题搜索项;
若否,以得到筛选后的主题搜索项;
步骤S52,并将对应于所有关键词的每个主题搜索信息根据第一相关度的大小进行依次展示;
其中,主题搜索信息包括所有关键词的一个预选主题词组和筛选后的对应于预选主题词组的一个主题搜索项;并且每两个主题搜索信息不同。
优选的,基于人工智能技术的主题搜索方法,其中,步骤S11还包括:
用户在搜索框中还输入检索参数,以根据用户输入的每个关键词和检索参数搜索得到对应于所有关键词的第一搜索结果。
还包括一种基于人工智能技术的主题搜索系统,其中,包括:
关键词处理模块,用于对用户输入的至少一个关键词进行搜索,并根据第一搜索结果对关键词进行预处理,以得到每个关键词对应的关联词组;
关联词处理模块,用于根据权重计算公式于关联词组中获取每个关联词的权重,以根据权重顺序由上至下依次获取预设数量的关联词,并将根据权重获取的关联词记为预设核心词;
第一筛选模块,用于根据预设核心词于第一搜索结果中获取得到与预设核心词相关联的次要核心词,根据权重计算公式计算次要核心词的权重,并根据权重对次要核心词进行筛选,以根据筛选结果和预设核心词获取得到预选主题词组;
第一相关度计算模块,用于对每个预选主题词组进行搜索,以获取每个预选主题词组对应的第二搜索结果中的每个主题搜索项的第一相关度;
第二筛选模块,用于根据第一相关度筛选阈值结合主题搜索项的第一相关度对主题搜索项进行筛选,并将对应于所有关键词的每个主题搜索信息根据第一相关度的大小进行依次展示;
其中,主题搜索信息包括所有关键词的一个预选主题词组和筛选后的对应于预选主题词组的一个主题搜索项;并且每两个主题搜索信息不同。
上述技术方案具有如下优点或有益效果:
通过关键词获取得到与关键词相关联的关联词组,并在关联词组中根据权重进行第一次筛选,以获取预设核心词,随后在第一搜索结果中获取与预设核心词相关联的次要核心词,接着根据权重对次要核心词进行第二次筛选,以得到预选主题词组,从而实现关键词、关联词、预设核心词和次要核心词之间的建立对应的词关系,并且实现通过改造权重以得到对应的词关系;
随后,根据第二次筛选得到的筛选结果和预设核心词获取得到预选主题词组,接着对每个预选主题词组进行搜索,以获取每个预选主题词组对应的第二搜索结果中的每个主题搜索项的第一相关度,最后根据相关度筛选阈值结合主题搜索项的第一相关度对主题搜索项进行筛选,以得到对应于所有关键词的预选主题词组和筛选后的对应于预选主题词组的主题搜索项;从而实现对关键词对应的主题搜索项和预选主题词组进行搜索,进而快速、高效地对海量数据进行主题搜索项和预选主题词组地发现,并且有助于各行各业在海量数据中可以快速浓缩主题,获取有价值的信息。
附图说明
参考所附附图,以更加充分的描述本发明的实施例。然而,所附附图仅用于说明和阐述,并不构成对本发明范围的限制。
图1为本发明基于人工智能技术的主题搜索方法的实施例的节点关系图一;
图2为本发明基于人工智能技术的主题搜索方法的实施例的节点关系图二。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。
本发明包括一种基于人工智能技术的主题搜索方法,包括以下步骤:
步骤S1,对用户输入的至少一个关键词1进行搜索,并根据第一搜索结果对关键词1进行预处理,以得到每个关键词1对应的关联词组;
步骤S2,根据权重计算公式于关联词组中获取每个关联词2的权重,以根据权重顺序由上至下依次获取预设数量的关联词2,并将根据权重获取的关联词2记为预设核心词3;
步骤S3,根据预设核心词3于第一搜索结果中获取得到与预设核心词3相关联的次要核心词4,根据权重计算公式计算次要核心词4的权重,并根据权重顺序对次要核心词4进行筛选,以根据筛选结果和预设核心词3获取得到预选主题词组;
步骤S4,对每个预选主题词组进行搜索,以获取每个预选主题词组对应的第二搜索结果中的每个主题搜索项的第一相关度;
步骤S5,根据相关度筛选阈值结合主题搜索项的第一相关度对主题搜索项进行筛选,并将对应于所有关键词1的每个主题搜索信息根据第一相关度的大小进行依次展示;
其中,主题搜索信息包括所有关键词1的一个预选主题词组和筛选后的对应于预选主题词组的一个主题搜索项;并且每两个主题搜索信息不同。
在上述实施例中,通过关键词1获取得到与关键词1相关联的关联词组,并在关联词组中根据权重进行第一次筛选,以获取预设核心词3,随后在第一搜索结果中获取与预设核心词3相关联的次要核心词4,接着根据权重对次要核心词4进行第二次筛选,以得到预选主题词组,从而实现关键词1、关联词2、预设核心词3和次要核心词4之间的建立对应的词关系,并且实现通过改造权重以得到对应的词关系,如图1所示,关键词1与多个关联词2连接,将根据权重获取的关联词2记为预设核心词3,预设核心词3与次要核心词4相关联;
随后,根据第二次筛选得到的筛选结果和预设核心词3获取得到预选主题词组,接着对每个预选主题词组进行搜索,以获取每个预选主题词组对应的第二搜索结果中的每个主题搜索项的第一相关度,最后根据相关度筛选阈值结合主题搜索项的第一相关度对主题搜索项进行筛选,以得到对应于所有关键词1的预选主题词组和筛选后的对应于预选主题词组的主题搜索项;从而实现对关键词1对应的主题搜索项和预选主题词组进行搜索,进而快速、高效地对海量数据进行主题搜索项和预选主题词组地发现,并且有助于各行各业在海量数据中可以快速浓缩主题,获取有价值的信息。
在上述实施例中,可以将得到的对应于所有关键词1的预选主题词组和筛选后的对应于预选主题词组的主题搜索项根据第一相关度的大小顺序进行排序展示。
作为优选的实施方式,可以采用分布式搜索引擎(Elastic Search)对关键词1和预选主题词组进行搜索。
进一步地,在上述实施例中,步骤S1具体包括以下步骤:
步骤S11,用户在搜索框中输入至少一个关键词1,以得到对应于所有关键词1的第一搜索结果;
步骤S12,获取第一搜索结果中的每个关联词搜索项与所有关键词1之间的第二相关度;
步骤S13,根据预设关联词2筛选设置结合第二相关度对每个关联词搜索项进行筛选,以于筛选得到的关联词搜索项中获取得到与每个关键词1相关联的关联词2;
步骤S14,根据所有关联词搜索项中的关联词2获取得到与每个关键词1对应的关联词组。
在上述实施例中,用户会在一个搜索框中同时输入每个关键词1,从而搜索得到满足所有关键词1的第一搜索结果;
其中,第一搜索结果中包括多个关联词搜索项(例如,关联词搜索项可以为文章、咨询),
根据预设关联词2筛选设置结合第二相关度对每个关联词搜索项进行筛选,会在筛选得到的至少一个关联词搜索项中获取得到与每个关键词1相关联的关联词2;最后根据关联与每个关键词1的所有关联词2形成关键词1对应的关联词组。
其中预设关联词2筛选设置可以由用户自设定,例如,用户想要选择第二相关度最高的关联词搜索项,因此可以在第二相关度最高的关联词搜索项中获取得到与每个关键词1相关联的关联词2;
例如,用户想要选择第二相关度由高到低排列的多个关联词搜索项,因此可以在选择的多个关联词搜索项中获取得到与每个关键词1相关联的关联词2。
作为优选的实施方式,关键词1可以包括“第一关键词”和“第二关键词”,用户在搜索框中同时输入“第一关键词”和“第二关键词”,那么会得到同时满足“第一关键词”和“第二关键词”的第一搜索结果,第一搜索结果包括多个关联词搜索项(指代文章、咨询),在每个关联词搜索项中获取得到与每个关键词1相关联的关联词2(例如,可以在第一关联词搜索项中获取得到与“第一关键词”相关联的“第一关联词一”,同样地也可以在第一关联词搜索项中获取与“第二关键词”相关联的“第二关联词一”;
还可以在第二关联词搜索项中获取得到与“第一关键词”相关联的“第一关联词二”,同样地也可以在第二关联词搜索项中获取与“第二关键词”相关联的“第二关联词二”;以此类推;
而“第一关联词一”和“第一关联词二”可以形成对应于“第一关键词”的关联词组;同样地,“第二关联词一”和“第二关联词二”可以形成对应于“第二关键词”的关联词组)。
进一步地,在上述实施例中,步骤S11还包括:
用户在搜索框中还输入检索参数,以根据用户输入的每个关键词1和检索参数搜索得到对应于所有关键词1的第一搜索结果。
在上述实施例中,检索参数包括需要检索的时间段,例如需要检索最近3天的关键词1时,可以直接输入时间段范围是2020年4月26日至2020年4月29日。
在上述实施例中,检索参数包括检索位置,例如,检索位置包括个关联词搜索项的全文、标题等范围。
在上述实施例中,检索参数包括每个关键词1对应的关联词2的采集数量等。
进一步地,在上述实施例中,关联词组包括与关键词1相关联的关联词2,和相互关联的关联词2。
作为优选的实施方式,关键词1可以包括“第一关键词”和“第二关键词”,与“第一关键词”相关联的关联词2可以包括“第一关联词一”、“第一关联词二”和“第一关联词三”,“第一关联词一”可以与“第一关联词二”和/或“第一关联词三”相关联。
进一步地,在上述实施例中,采用图表展示关键词1和/或关联词2和/或预设核心词3和/或次要核心词4之间的连接关系,以及采用图表展示关键词1和/或关联词2和/或预设核心词3和/或次要核心词4的权重大小,如图2所示,当关键词1和/或关联词2和/或预设核心词3和/或次要核心词4的权重越大,则关键词1和/或关联词2和/或预设核心词3和/或次要核心词4的权重所代表的圆圈越大。
作为优选的实施方式,每个圆圈用于表示关键词1和/或关联词2和/或预设核心词3和/或次要核心词4,两个圆圈之间的线条可以用于表示两个圆圈之间相互连接,每个圆圈的大小可以用于表示键词和/或关联词2和/或预设核心词3和/或次要核心词4的权重大小,以图表的方式更能直观地展示关键词1和/或关联词2和/或预设核心词3和/或次要核心词4之间的连接关系,以及关键词1和/或关联词2和/或预设核心词3和/或次要核心词4的权重大小。
进一步地,在上述实施例中,权重计算公式如下述公式所示:
Figure BDA0002673768210000081
其中,Weight用于表示权重;
subsetFreq用于表示第一搜索结果的词频;
subsetSize用于表示第一搜索结果的大小;
superFreq用于表示整个搜索数据库的词频;
superSize用于表示整个搜索数据库的大小;
natureBoost用于表示词性权重(其中,名词和动词的权重大于比其他词性的权重);
fieldBoost用于表示字段权重(其中,标题的权重大于比内容的权重)。
在上述实施例中,可以在步骤S1之前供用户选择搜索的种类和/或领域,并根据用户选择的搜索领域和/或种类形成搜索数据库。
例如,用户可以选择种类包括:网页、文章、咨询等中的至少一种;
用户可以选择领域包括:新闻、文化等中的至少一种。
当用户没有进行选择时,可以默认用户选择了所有种类和所有领域,即此时的整个搜索数据库包括了所有领域和所有种类的数据。
作为优选的实施方式,当用户选择搜索的领域是新闻,并且用户选择搜索的种类的文章时,那么此时的整个搜索数据库为新闻文章数据库,新闻文章数据库中包括所有的新闻文章;
用户输入“第一关键词”和“第二关键词”,以在新闻文章数据库中搜索得到同时满足“第一关键词”和“第二关键词”的第一搜索结果。
进一步地,在上述实施例中,步骤S3具体包括以下步骤:
步骤S31,于第一搜索结果中的每个关联词搜索项中获取与预设核心词3相关联的次要核心词4,以得到关联于预设核心词3的次要核心词4组;
步骤S32,根据权重计算公式计算得到次要核心词4组中的每个次要核心词4的权重,以根据权重顺序和预设筛选规则对次要核心词4进行筛选,以得到筛选结果,筛选结果包括预设筛选数量的次要核心词4;
步骤S33,根据预设核心词3和与预设核心词3相关联的筛选结果获取得到预选主题词组。
作为优选的实施方式,预设核心词3可以包括“第一预设核心词”和“第二预设核心词”,第一搜索结果包括多个关联词搜索项(指代文章、咨询),在每个关联词搜索项中获取得到与每个关键词1相关联的关联词2;例如,可以在第一关联词搜索项中获取得到与“第一预设核心词”相关联的“第一次要核心词一”,同样地也可以在第一关联词搜索项中获取与“第二预设核心词”相关联的“第二次要核心词一”;
还可以在第二关联词搜索项中获取得到与“第一预设核心词”相关联的“第一次要核心词二”,同样地也可以在第二关联词搜索项中获取与“第二预设核心词”相关联的“第二次要核心词二”;以此类推;
而“第一次要核心词一”和“第一次要核心词二”可以形成对应于“第一预设核心词”的第一次要核心词组;同样地,“第二次要核心词一”和“第二次要核心词二”可以形成对应于“第二预设核心词”的第二次要核心词组。
接着,根据权重计算公式计算得到第一次要核心词组中的“第一次要核心词一”的权重为0.175663784,“第一次要核心词二”的权重为0.5560048,“第一次要核心词三”的权重为0.116093472;
根据权重计算公式计算得到第二次要核心词组中的“第二次要核心词一”的权重为0.375763784,“第二次要核心词二”的权重为0.5560048,“第二次要核心词三”的权重为0.216693472;
其中,此时的预设筛选规则可以为筛选得到权重最高的次要核心词4,因此,
第一预选主题词组包括:第一预设核心词一和第一次要核心词二;
第二预选主题词组包括:第二预设核心词一和第二次要核心词二。
在上述实施例中,预设筛选规则可以根据需求自设定;
例如,预设筛选规则可以为筛选得到权重最高的次要核心词4;
例如,预设筛选规则可以为筛选得到权重前五的次要核心词4。
进一步地,在上述实施例中,步骤S4具体包括以下步骤:
步骤S41,根据预设搜索顺序依次对预选主题词组进行搜索,以得到对应于每个预选主题词组的第二搜索结果,每个预选主题词组对应的第二搜索结果中包括每个主题搜索项的主题第一相关度;
步骤S42,按照预设规则对每个预选主题词组对应的所有主题第一相关度进行筛选,以筛选得到每个预选主题词组对应的多个筛选后的主题第一相关度;
步骤S43,获取每个预选主题词组对应的筛选后的多个主题第一相关度的平均值,并将平均值作为对应的主题搜索项的第一相关度。
进一步地,在上述实施例中,步骤S5具体包括以下步骤:
步骤S51,获取最高的第一相关度,并根据最大的第一相关度的预设比例计算得到第一相关度筛选阈值;
步骤S52,判断主题搜索项的第一相关度是否低于第一相关度筛选阈值;
若是,过滤主题搜索项;
若否,以得到筛选后的主题搜索项;
步骤S52,并将对应于所有关键词1的每个主题搜索信息根据第一相关度的大小进行依次展示;
其中,主题搜索信息包括所有关键词1的一个预选主题词组和筛选后的对应于预选主题词组的一个主题搜索项;并且每两个主题搜索信息不同。
在上述实施例中,相关度筛选阈值可以根据需求自设定;
作为优选的实施方式,获取得到的第一主题搜索项的第一相关度一为2087,其预选主题词组包括第一预设核心词和第一次要核心词;
获取得到的第二主题搜索项的第一相关度二为1870,其预选主题词组包括第一预设核心词和第一次要核心词;
获取得到的第三主题搜索项的第一相关度三为970,其预选主题词组包括第一预设核心词和第一次要核心词;
即在上述实施例中,第一主题搜索项、第二主题搜索项和第三主题搜索项对应的预选主题词组均一致,但是其第一相关度均不一致;
而此时将相关度筛选阈值设置为预选主题词组对应的最大第一相关度的50%以上,在上述实施方式中,最大第一相关度为第一主题搜索项的第一相关度一,因此相关度筛选阈值为大于1043.5,由此可见,第三主题搜索项的第一相关度三(970)不在相关度筛选阈值内,因此过滤第三主题搜索项。
还包括一种基于人工智能技术的主题搜索系统,其中,包括:
关键词处理模块,用于对用户输入的至少一个关键词1进行搜索,并根据第一搜索结果对关键词进行预处理,以得到每个关键词1对应的关联词组;
关联词处理模块,用于根据权重计算公式于关联词组中获取每个关联词2的权重,以根据权重顺序由上至下依次获取预设数量的关联词2,并将根据权重获取的关联词2记为预设核心词3;
第一筛选模块,用于根据预设核心词3于第一搜索结果中获取得到与预设核心词3相关联的次要核心词4,根据权重计算公式计算次要核心词4的权重,并根据权重对次要核心词4进行筛选,以根据筛选结果和预设核心词3获取得到预选主题词组;
第一相关度计算模块,用于对每个预选主题词组进行搜索,以获取每个预选主题词组对应的第二搜索结果中的每个主题搜索项的第一相关度;
第二筛选模块,用于根据第一相关度筛选阈值结合主题搜索项的第一相关度对主题搜索项进行筛选,并将对应于所有关键词1的每个主题搜索信息根据第一相关度的大小进行依次展示;
其中,主题搜索信息包括所有关键词1的一个预选主题词组和筛选后的对应于预选主题词组的一个主题搜索项;并且每两个主题搜索信息不同。
本发明基于人工智能技术的主题搜索系统的具体实施方式与上述基于人工智能技术的主题搜索方法各实施例基本相同,在此不再赘述。
以上仅为本发明较佳的实施例,并非因此限制本发明的实施方式及保护范围,对于本领域技术人员而言,应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案,均应当包含在本发明的保护范围内。

Claims (10)

1.一种基于人工智能技术的主题搜索方法,其特征在于,包括以下步骤:
步骤S1,对用户输入的至少一个关键词进行搜索,并根据第一搜索结果对所述关键词进行预处理,以得到每个所述关键词对应的关联词组;
步骤S2,根据权重计算公式于所述关联词组中获取每个关联词的权重,以根据权重顺序由上至下依次获取预设数量的所述关联词,并将根据权重获取的所述关联词记为预设核心词;
步骤S3,根据所述预设核心词于所述第一搜索结果中获取得到与所述预设核心词相关联的次要核心词,根据所述权重计算公式计算所述次要核心词的权重,并根据权重顺序对所述次要核心词进行筛选,以根据筛选结果和所述预设核心词获取得到预选主题词组;
步骤S4,对每个所述预选主题词组进行搜索,以获取每个所述预选主题词组对应的第二搜索结果中的每个主题搜索项的第一相关度;
步骤S5,根据相关度筛选阈值结合所述主题搜索项的所述第一相关度对所述主题搜索项进行筛选,并将对应于所有所述关键词的每个主题搜索信息根据所述第一相关度的大小进行依次展示;
其中,所述主题搜索信息包括所有所述关键词的一个所述预选主题词组和筛选后的对应于所述预选主题词组的一个所述主题搜索项;并且每两个主题搜索信息不同。
2.如权利要求1所述的基于人工智能技术的主题搜索方法,其特征在于,所述步骤S1具体包括以下步骤:
步骤S11,用户在搜索框中输入至少一个所述关键词,以得到对应于所有所述关键词的所述第一搜索结果;
步骤S12,与所述第一搜索结果中的每个关联词搜索项中获取得到与每个所述关键词相关联的所述关联词;
步骤S13,根据所有所述关联词搜索项中的所述关联词获取得到与每个所述关键词对应的所述关联词组。
3.如权利要求1所述的基于人工智能技术的主题搜索方法,其特征在于,所述关联词组包括与所述关键词相关联的所述关联词,和相互关联的所述关联词。
4.如权利要求3所述的基于人工智能技术的主题搜索方法,其特征在于,采用图表展示所述关联词、所述预设核心词和所述次要核心词之间的连接关系,以及采用所述图表展示所述关联词、所述预设核心词和所述次要核心词的权重大小。
5.如权利要求1所述的基于人工智能技术的主题搜索方法,其特征在于,所述权重计算公式如下述公式所示:
Figure FDA0002673768200000021
其中,Weight用于表示权重;
subsetFreq用于表示所述第一搜索结果的词频;
subsetSize用于表示所述第一搜索结果的大小;
superFreq用于表示整个搜索数据库的词频;
superSize用于表示整个搜索数据库的大小;
natureBoost用于表示词性权重;
fieldBoost用于表示字段权重。
6.如权利要求1所述的基于人工智能技术的主题搜索方法,其特征在于,所述步骤S3具体包括以下步骤:
步骤S31,于所述第一搜索结果中的每个关联词搜索项中获取与所述预设核心词相关联的次要核心词,以得到关联于所述预设核心词的次要核心词组;
步骤S32,根据所述权重计算公式计算得到所述次要核心词组中的每个所述次要核心词的权重,以根据权重顺序和预设筛选规则对所述次要核心词进行筛选,以得到所述筛选结果,所述筛选结果包括预设筛选数量的所述次要核心词;
步骤S33,根据所述预设核心词和与所述预设核心词相关联的所述筛选结果获取得到预选主题词组。
7.如权利要求1所述的基于人工智能技术的主题搜索方法,其特征在于,所述步骤S4具体包括以下步骤:
步骤S41,根据预设搜索顺序依次对所述预选主题词组进行搜索,以得到对应于每个所述预选主题词组的所述第二搜索结果,每个所述预选主题词组对应的所述第二搜索结果中包括每个所述主题搜索项的主题第一相关度;
步骤S42,按照预设规则对每个所述预选主题词组对应的所有所述主题第一相关度进行筛选,以筛选得到每个所述预选主题词组对应的多个筛选后的所述主题第一相关度;
步骤S43,获取每个所述预选主题词组对应的筛选后的多个所述主题第一相关度的平均值,并将所述平均值作为对应的所述主题搜索项的所述第一相关度。
8.如权利要求1所述的基于人工智能技术的主题搜索方法,其特征在于,所述步骤S5具体包括以下步骤:
步骤S51,获取最高的所述第一相关度,并根据最大的所述第一相关度的预设比例计算得到所述相关度筛选阈值;
步骤S52,判断所述主题搜索项的所述第一相关度是否低于所述相关度筛选阈值;
若是,过滤所述主题搜索项;
若否,以得到筛选后的所述主题搜索项;
步骤S52,并将对应于所有所述关键词的每个主题搜索信息根据所述第一相关度的大小进行依次展示;
其中,所述主题搜索信息包括所有所述关键词的一个所述预选主题词组和筛选后的对应于所述预选主题词组的一个所述主题搜索项;并且每两个主题搜索信息不同。
9.如权利要求2所述的基于人工智能技术的主题搜索方法,其特征在于,所述步骤S11还包括:
用户在搜索框中还输入检索参数,以根据用户输入的每个所述关键词和所述检索参数搜索得到对应于所有所述关键词的所述第一搜索结果。
10.一种基于人工智能技术的主题搜索系统,其特征在于,包括:
关键词处理模块,用于对用户输入的至少一个关键词进行搜索,并根据第一搜索结果对所述关键词进行预处理,以得到每个所述关键词对应的关联词组;
关联词处理模块,用于根据权重计算公式于所述关联词组中获取每个关联词的权重,以根据权重顺序由上至下依次获取预设数量的所述关联词,并将根据权重获取的所述关联词记为预设核心词;
第一筛选模块,用于根据所述预设核心词于所述第一搜索结果中获取得到与所述预设核心词相关联的次要核心词,根据所述权重计算公式计算所述次要核心词的权重,并根据权重对所述次要核心词进行筛选,以根据筛选结果和所述预设核心词获取得到预选主题词组;
第一相关度计算模块,用于对每个所述预选主题词组进行搜索,以获取每个所述预选主题词组对应的第二搜索结果中的每个主题搜索项的第一相关度;
第二筛选模块,用于根据相关度筛选阈值结合所述主题搜索项的所述第一相关度对所述主题搜索项进行筛选,并将对应于所有所述关键词的每个主题搜索信息根据所述第一相关度的大小进行依次展示;
其中,所述主题搜索信息包括所有所述关键词的一个所述预选主题词组和筛选后的对应于所述预选主题词组的一个所述主题搜索项;并且每两个主题搜索信息不同。
CN202010941417.3A 2020-09-09 2020-09-09 一种基于人工智能技术的主题搜索方法及其系统 Active CN112100330B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010941417.3A CN112100330B (zh) 2020-09-09 2020-09-09 一种基于人工智能技术的主题搜索方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010941417.3A CN112100330B (zh) 2020-09-09 2020-09-09 一种基于人工智能技术的主题搜索方法及其系统

Publications (2)

Publication Number Publication Date
CN112100330A true CN112100330A (zh) 2020-12-18
CN112100330B CN112100330B (zh) 2023-09-26

Family

ID=73752203

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010941417.3A Active CN112100330B (zh) 2020-09-09 2020-09-09 一种基于人工智能技术的主题搜索方法及其系统

Country Status (1)

Country Link
CN (1) CN112100330B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116701813A (zh) * 2023-08-04 2023-09-05 北控水务(中国)投资有限公司 一种数据检索方法、系统、终端及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102033955A (zh) * 2010-12-24 2011-04-27 常华 扩展用户搜索结果的方法及服务器
KR20110072296A (ko) * 2009-12-22 2011-06-29 최진근 검색어와 검색 결과의 단어 연관성을 이용하는 검색 방법 및 검색 시스템
CN104102723A (zh) * 2014-07-21 2014-10-15 百度在线网络技术(北京)有限公司 搜索内容提供方法和搜索引擎
CN107784123A (zh) * 2017-11-06 2018-03-09 北京中科智营科技发展有限公司 一种基于主题的搜索优化方法
CN109815499A (zh) * 2019-01-25 2019-05-28 杭州凡闻科技有限公司 信息关联方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110072296A (ko) * 2009-12-22 2011-06-29 최진근 검색어와 검색 결과의 단어 연관성을 이용하는 검색 방법 및 검색 시스템
CN102033955A (zh) * 2010-12-24 2011-04-27 常华 扩展用户搜索结果的方法及服务器
CN104102723A (zh) * 2014-07-21 2014-10-15 百度在线网络技术(北京)有限公司 搜索内容提供方法和搜索引擎
CN107784123A (zh) * 2017-11-06 2018-03-09 北京中科智营科技发展有限公司 一种基于主题的搜索优化方法
CN109815499A (zh) * 2019-01-25 2019-05-28 杭州凡闻科技有限公司 信息关联方法和系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116701813A (zh) * 2023-08-04 2023-09-05 北控水务(中国)投资有限公司 一种数据检索方法、系统、终端及存储介质

Also Published As

Publication number Publication date
CN112100330B (zh) 2023-09-26

Similar Documents

Publication Publication Date Title
US9600533B2 (en) Matching and recommending relevant videos and media to individual search engine results
US9846744B2 (en) Media discovery and playlist generation
US9177044B2 (en) Discovering and scoring relationships extracted from human generated lists
US8108405B2 (en) Refining a search space in response to user input
US7987191B2 (en) System and method for generating a relationship network
US7814105B2 (en) Method for domain identification of documents in a document database
US20080154886A1 (en) System and method for summarizing search results
US20080086453A1 (en) Method and apparatus for correlating the results of a computer network text search with relevant multimedia files
JP2009238241A (ja) データベースのデータを検索するための方法と装置
CN108509449B (zh) 一种信息处理的方法及服务器
CN112100330B (zh) 一种基于人工智能技术的主题搜索方法及其系统
Satokar et al. Web search result personalization using web mining
WO2002037328A2 (en) Integrating search, classification, scoring and ranking
WO2009123594A1 (en) Correlating the results of a computer network text search with relevant multimedia files
CN109857866B (zh) 一种面向事件查询建议的关键词抽取方法和事件查询建议生成方法及检索系统
Golub Using controlled vocabularies in automated subject classification of textual web pages, in the context of browsing
EP1208470A1 (en) Method and system for creating a topical data structure
KR20050096912A (ko) 객체 분류를 위한 두드러진 특징들을 자동적으로 결정하는방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant