CN110019738A - 一种搜索词的处理方法、装置及计算机可读存储介质 - Google Patents

一种搜索词的处理方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN110019738A
CN110019738A CN201810000847.8A CN201810000847A CN110019738A CN 110019738 A CN110019738 A CN 110019738A CN 201810000847 A CN201810000847 A CN 201810000847A CN 110019738 A CN110019738 A CN 110019738A
Authority
CN
China
Prior art keywords
keyword
focus
speech
string
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810000847.8A
Other languages
English (en)
Inventor
段福高
冯俊兰
胡珉
王燕蒙
邓路
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Communications Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Communications Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Communications Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201810000847.8A priority Critical patent/CN110019738A/zh
Publication of CN110019738A publication Critical patent/CN110019738A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems

Abstract

本发明公开了一种搜索词的处理方法、装置及计算机可读存储介质。其中,方法包括:获取输入的搜索串;所述搜索串包含至少两个关键词;确定所述搜索串中每个关键词的词性;利用确定的每个关键词的词性,从所述至少两个关键词中确定焦点关键词;获取所述焦点关键词的扩展关键词;并确定所述焦点关键词及扩展关键词的权重;所述焦点关键词的权重高于所述搜索串中的其它关键词的权重,且高于所述扩展关键词的权重;利用确定的各关键词的权重、所述搜索串的各关键词以及扩展关键词,生成检索串;所述检索串用于对数据库进行检索,获取在数据库进行检索后的检索结果。

Description

一种搜索词的处理方法、装置及计算机可读存储介质
技术领域
本发明涉及智能问答搜索技术领域,尤其涉及搜索词的处理方法、装置及计算机可读存储介质。
背景技术
目前大部分搜索引擎的搜索方式是用户向搜索引擎提交查询串,搜索引擎返回一系列与用户提交的查询相关的结果,用户在结果中寻找符合自身需求的信息。因此,搜索引擎需要通过用户提交的查询串去理解用户的真实需求。为了更好地理解用户意图,让搜索结果更加准确,对搜索查询串进行优化处理是信息检索领域中的一个基本问题。
目前,搜索查询串进行优化处理的解决方案主要包括:对搜索查询串进行关键词扩展;对搜索查询串中关键词进行权重调整;对搜索查询串中关键词扩展结合权重调整。
然而,这些方案中有些方案的检索精度较差,有些方案的检索结果不能够真正代表用户的查询意图。
发明内容
为解决现有存在的技术问题,本发明实施例提供一种搜索词的处理方法、装置及计算机可读存储介质。
本发明实施例的技术方案是这样实现的:
本发明实施例提供了一种搜索词的处理方法,包括:
获取输入的搜索串;所述搜索串包含至少两个关键词;
确定所述搜索串中每个关键词的词性;
利用确定的每个关键词的词性,从所述至少两个关键词中确定焦点关键词;
获取所述焦点关键词的扩展关键词;并确定所述焦点关键词及扩展关键词的权重;所述焦点关键词的权重高于所述搜索串中的其它关键词的权重,且高于所述扩展关键词的权重;
利用确定的各关键词的权重、所述搜索串的各关键词以及扩展关键词,生成检索串;所述检索串用于对数据库进行检索,获取在数据库进行检索后的检索结果。
上述方案中,确定所述搜索串中每个关键词的词性,包括:
确定所述搜索串中每个关键词的词性为动词、或为名词、或为数量词。
上述方案中,所述利用确定的每个关键词的词性,从所述至少两个关键词中确定焦点关键词,包括:
利用确定的每个关键词的词性,确定所述搜索串所形成的短语结构类型;
利用确定的短语结构类型,从所述至少两个关键词中确定焦点关键词。
上述方案中,所述利用确定的短语结构类型,从所述至少两个关键词中确定焦点关键词,包括:
当短语结构类型为名词结构、或为主谓结构时,从词性为名词的各关键词中确定所述焦点关键词;
或者,
当短语结构类型为主谓结构,且词性包含数量词时,从词性为名词和数量词的各关键词中确定所述焦点关键词。
上述方案中,所述当短语结构类型为主谓结构时,从词性为名词的各关键词中确定所述焦点关键词,包括:
将词性为名词,且与词性为动词的关键词形成主谓关系的关键词作为所述焦点关键词。
上述方案中,所述当短语结构类型为名词结构时,从词性为名词的各关键词中确定所述焦点关键词,包括:
将词性为名词,且在所述搜索串所形成的短语结构中表征主题的关键词作为所述焦点关键词。
上述方案中,所述获取所述焦点关键词的扩展关键词,包括:
针对每个焦点关键词,依据扩展词的扩展策略,确定对应焦点关键词的一个扩展关键词。
上述方案中,所述方法还包括:
利用所述检索串和搜索串对所述数据库进行检索;
将检索后的检索结果进行打分并按分数高低进行排序;
从检索结果中选择分数最高的检索结果作为查询结果。
本发明实施例还提供了一种搜索词的处理装置,包括:
接收单元,用于获取输入的搜索串;所述搜索串包含至少两个关键词;
焦点确定单元,用于确定所述搜索串中每个关键词的词性;利用确定的每个关键词的词性,从所述至少两个关键词中确定焦点关键词;
扩展及权重确定单元,用于获取所述焦点关键词的扩展关键词;并确定所述焦点关键词及扩展关键词的权重;所述焦点关键词的权重高于所述搜索串中的其它关键词的权重,且高于所述扩展关键词的权重;
生成单元,用于利用确定的各关键词的权重、所述搜索串的各关键词以及扩展关键词,生成检索串;所述检索串用于对数据库进行检索,获取在数据库进行检索后的答案。
本发明实施例又提供了一种搜索词的处理装置,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,
其中,所述处理器用于运行所述计算机程序时,执行:
获取输入的搜索串;所述搜索串包含至少两个关键词;
确定所述搜索串中每个关键词的词性;
利用确定的每个关键词的词性,从所述至少两个关键词中确定焦点关键词;
获取所述焦点关键词的扩展关键词;并确定所述焦点关键词及扩展关键词的权重;所述焦点关键词的权重高于所述搜索串中的其它关键词的权重,且高于所述扩展关键词的权重;
利用确定的各关键词的权重、所述搜索串的各关键词以及扩展关键词,生成检索串;所述检索串用于对数据库进行检索,获取在数据库进行检索后的答案。
上述方案中,所述处理器用于运行所述计算机程序时,执行:
确定所述搜索串中每个关键词的词性为动词、或为名词、或为数量词。
上述方案中,所述处理器用于运行所述计算机程序时,执行:
利用确定的每个关键词的词性,确定所述搜索串所形成的短语结构类型;
利用确定的短语结构类型,从所述至少两个关键词中确定焦点关键词。
上述方案中,所述处理器用于运行所述计算机程序时,执行:
针对每个焦点关键词,依据扩展词的扩展策略,确定对应焦点关键词的一个扩展关键词。
上述方案中,所述处理器还用于运行所述计算机程序时,执行:
利用所述检索串和搜索串对所述数据库进行检索;
将检索后的检索结果进行打分并按分数高低进行排序;
从检索结果中选择分数最高的检索结果作为查询结果。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一方法的步骤。
本发明实施例提供的搜索词的处理方法、装置及计算机可读存储介质,获取输入的搜索串;所述搜索串包含至少两个关键词;确定所述搜索串中每个关键词的词性;利用确定的每个关键词的词性,从所述至少两个关键词中确定焦点关键词;获取所述焦点关键词的扩展关键词;并确定所述焦点关键词及扩展关键词的权重;所述焦点关键词的权重高于所述搜索串中的其它关键词的权重,且高于所述扩展关键词的权重;利用确定的各关键词的权重、所述搜索串的各关键词以及扩展关键词,生成检索串;所述检索串用于对数据库进行检索,获取在数据库进行检索后的检索结果。通过确定搜索串中每个关键词的词性,进而确定搜索串中的焦点信息,如此,能够有效识别查询意图;同时,在焦点信息的基础上,通过同义词扩展、词权重调整完成查询语句的改写,采用改写后的查询语句去进行检索,能够明显提升检索精度。
附图说明
在附图(其不一定是按比例绘制的)中,相似的附图标记可在不同的视图中描述相似的部件。附图以示例而非限制的方式大体示出了本文中所讨论的各个实施例。
图1为本发明实施例搜索词的处理方法流程示意图;
图2为本发明应用实施例搜索查询优化方法流程示意图;
图3为本发明应用实施例搜索查询优化装置结构示意图;
图4为本发明实施例搜索词的处理装置结构示意图;
图5为本发明实施例搜索词的处理装置硬件结构示意图。
具体实施方式
下面结合附图及实施例对本发明再作进一步详细的描述。
目前,相关技术中,对搜索查询串进行优化处理的方案主要包括:
1、对搜索查询串进行关键词扩展
具体地,实际应用中,用户提交的查询请求中的搜索查询串通常都只包含很少的几个关键词,并不能准确、完整地表达用户真正的信息需求,这就会导致搜索引擎经常会返回大量的不相关文档。比如,用户在google输入查询请求“北京旅游”,可以认为用户关心的是旅游景点、旅游线路以及车船住宿等信息;如果按照查询穿去搜索,搜索引擎可能只是返回大量包含单词“北京”和“旅游”等与用户查询意图相关度较低的网页。
所以对搜索查询串进行关键词扩展,其基本思想是:将与初始查询词(用户提交的搜索查询)相关的其他关键词添加到初始查询词中,对初始查询词进行进一步的丰富,以更详尽地描述用户的信息需求,进而提高信息检索的准确性。比如,对于上述例子,当用户输入查询请求“北京旅游”,能够满足用户信息需求的网页很可能包含“天安门”、“北京机场”、“全聚德”等单词,则这些关键词有很大的概率作为查询扩展词加入到初始查询请求中,以便详尽地描述用户的信息需求,从而提高检索的准索性。
2、对搜索查询串中关键词进行权重调整
通常来说,对于搜索引擎,短查询(short query)的检索效果一般来说比长的查询(long query)要好。这主要是由于当今大多数搜索引擎将查询中的查询词(term)以相同的重要性来看待,这使得在最终的检索结果中,倾向于查询(query)中不重要的term的文档同样会得到很高的排序(rank)得分,从而导致真正与查询有较强的语义相关性的文档排到后面,最终影响检索性能。
所以需要对搜索查询串中关键词进行权重调整,其基本思想是:将用户对搜索引擎的一次查询输入分词后的集合记为Query,将分词后得到的单个词记为term。每一个term的重要程度用term-weight来标识。如何识别用户Query中term的重要程度是查询分析的重要组成部分。通过区分Query中term的重要程度,可以把用户的输入转化为让搜索引擎更容易理解的结构进行检索,并根据用户的输入来进行反馈,以帮助用户进一步明确自己的搜索目的和方向。
3、对搜索查询串中关键词扩展结合权重调整
如前所述,不同的扩展词具有不同的重要性,因此查询扩展要考虑另外一个问题是如何对扩展后的查询词条进行权重分配。相关检索模型的检索词权重基本都采用布尔模型,各检索词条的权重要么是1,要么是0。没有区分彼此间的轻重关系。
所以对搜索查询串中关键词扩展结合权重调整的基本思想是查询词条的近义词、同义词也直接参与检索,但权重小于查询词条。
然而,这些方案中有些方案的检索精度较差,有些方案的检索结果不能够真正代表用户的查询意图。具体表现在:
对搜索查询串进行关键词扩展的方案存在的主要问题是:
首先,关键词存在多个同义词的情况,同义词的个数增多就会提高噪声降低搜索的准确率,也就是说,同义词个数越多搜索的准确率就越低。
其次,如果几个扩展词之间具有很强的内在语义关联,选择多个扩展词仅是对初始查询请求的某一个特定侧面进行加强,并不会比仅将其中一个作为扩展词更加合理,比如对初始查询请求“香港旅游”,候选扩展词包括“迪士尼”和“乐园”。事实上,仅将“迪士尼”列入查询扩展词,即可以包含大部分包含“乐园”的结果。在这种情况下,将“迪士尼”和“乐园”同时加入初始查询请求,并不会获得初始查询语义的进一步扩充,也并不会明显的提升检索精度。
对搜索查询串中关键词进行权重调整的方案存在的主要问题是:对于检索而言,长的query中往往包含一些不重要的干扰词,而相关的查询方法导致将词与词之间孤立起来,而从语义的角度词与词之间的组合才能够真正代表用户的查询意图。
当然,对搜索查询串中关键词扩展结合权重调整的方案会存在上述两种方案的问题。
基于此,在本发明的各种实施例中:获取输入的搜索串;所述搜索串包含至少两个关键词;确定所述搜索串中每个关键词的词性;利用确定的每个关键词的词性,从所述至少两个关键词中确定焦点关键词;获取所述焦点关键词的扩展关键词;并确定所述焦点关键词及扩展关键词的权重;所述焦点关键词的权重高于所述搜索串中的其它关键词的权重,且高于所述扩展关键词的权重;利用确定的各关键词的权重、所述搜索串的各关键词以及扩展关键词,生成检索串;所述检索串用于对数据库进行检索,获取在数据库进行检索后的检索结果。
本发明实施例提供的方案,通过确定搜索串中每个关键词的词性,进而确定搜索串中的焦点信息,如此,能够有效识别查询意图;同时,在焦点信息的基础上,通过同义词扩展、词权重调整完成查询语句的改写,采用改写后的查询语句去进行检索,能够明显提升检索精度。
本发明实施例提供了一种搜索词的处理方法,如图1所示,所述方法包括:
步骤101:获取输入的搜索串;
这里,实际应用时,用户利用终端(比如手机、平板电脑(Pad)等)向服务器发起查询请求,此时查询请求中携带用户通过终端输入的搜索串,以表明用户的查询意图。
所述搜索串可以包含至少两个关键词,以便能表明用户的查询意图。
步骤102:确定所述搜索串中每个关键词的词性;
这里,实际应用时,首先需要对搜索串进行分词处理,然后才能进行词性的分析。
实际应用时,在查询请求中,关键词的词性一般可以分为:名词、动词及数量词。其中,名词是搜索查询中最为广泛使用的词,其次是动词和数量词。在一个句子中,三者的作用往往也无法代替。
基于此,在一实施例中,确定所述搜索串中每个关键词的词性为动词、或为名词、或为数量词。
步骤103:利用确定的每个关键词的词性,从所述至少两个关键词中确定焦点关键词;
这里,由于检索查询中最常用的词性包括名词、动词及数量词,所以可以针对这三种词性组成的短语词组进行分析。
基于此,在一实施例中,本步骤的具体实现可以包括:
利用确定的每个关键词的词性,确定所述搜索串所形成的短语结构类型;
利用确定的短语结构类型,从所述至少两个关键词中确定焦点关键词。
其中,在检索查询中,最常用的几种短语结构类型如表1所示:
短语结构类型 示例
N1+N2 流量余额
N+V 积分兑换
M+N+V 28元4G自选套餐介绍
N1+N2+N3 双11专属流量包活动
N1+N2+V 积分商城订单查询
表1
其中,在表1中,N表示名词,V表示动词,M表示数量词。
这几种短语结构类型中,N+N、N+N+N的短语结构类型可以表述成名词结构,N+V、M+N+V、N+N+V的短语结构类型可以表述成主谓结构。
这里,所述名词结构是指:所述搜索串中的各关键词的词性均为名词。
所述主谓结构是指:所述搜索串的关键词中,有的关键词的词性为名词,有的关键词的词性为动词,使得名词和动词形成主谓关系,即陈述与被陈述的关系。可以表示成名词+动词的形式。
另外,所述焦点关键词可以理解为信息焦点,所述信息焦点是指:在这个短语结构中起到核心作用的词,这个词在语义中也起到核心作用。比如搜索串“积分商城首页”,分词结果为“积分商城为名词,首页为名词”,则信息焦点为“积分商城”。
基于表1的短语结构类型,在一实施例中,所述利用确定的短语结构类型,从所述至少两个关键词中确定焦点关键词,包括:
当短语结构类型为名词结构、或为主谓结构时,从词性为名词的各关键词中确定所述焦点关键词;
或者,
当短语结构类型为主谓结构,且词性包含数量词时,从词性为名词和数量词的各关键词中确定所述焦点关键词。
在一实施例中,所述当短语结构类型为名词结构时,将词性为名词,且在所述搜索串所形成的短语结构中表征主题的关键词作为所述焦点关键词。
在一实施例中,当短语结构类型为主谓结构时,将词性为名词,且与词性为动词的关键词形成主谓关系的关键词作为所述焦点关键词。
下面分别举个例子来说明如何确定焦点关键词。
当短语结构为名词结构时,比如N1+N2型和N1+N2+N3型结构短语中,95%以上的信息焦点都在名词N1或者N1+N2上,这些名词起到表征主题的作用,而少于2%的信息焦点位于N2或N3上,剩下的其余短语则不存在信息焦点。也就是说,焦点关键词为N1或者N1+N2。
当短语结构类型为主谓结构时,此时短语中不包含数量词,即为N+V型短语,或为N1+N2+V型短语。在N+V型短语中,比如“积分兑换”,N与V共同形成主谓关系,N作为主语一般是动作的发起者,所以信息焦点为N。在N1+N2+V型短语中,比如“积分商城订单查询”,“积分商城”和“订单”这两个名词共同与“查询”形成主谓关系,所以信息焦点为N1+N2。也就是说,焦点关键词为N1+N2。
当短语结构类型为主谓结构,且词性包含数量词时时,即为M+N+V型短语,在这种结构的短语中,比如“28元4G自选套餐介绍”,数量词“28”作为名词“4G自选套餐”的修饰词,共同与动词“介绍”形成主谓关系,所以信息焦点为M+N。也就是说,焦点关键词为M+N。
步骤104:获取所述焦点关键词的扩展关键词;并确定所述焦点关键词及扩展关键词的权重;
这里,所述焦点关键词的权重高于所述搜索串中的其它关键词的权重,且高于所述扩展关键词的权重。
在一实施例中,针对每个焦点关键词,依据扩展词的扩展策略,确定对应焦点关键词的一个扩展关键词。
其中,实际应用时,所示扩展关键词一般是指:所述焦点关键词的同义词。可以通过构建扩展词词表的形式来确定焦点关键词的扩展关键词。
这里,利用扩展关键词来进行识别,能够增加识别范围,提高识别率。
确定各关键词的权重时,需要采用焦点关键词的权重高于其他关键词的策略,从而真正代表用户的查询意图。比如,可以设置焦点关键词的权重为w=2,而扩展关键词以及搜索串中其它关键词的权重为w=1等。
当然,实际应用时,可以根据需要设置其它数值,只要能满足反映用户的查询意图的目的即可。
步骤105:利用确定的各关键词的权重、所述搜索串的各关键词以及扩展关键词,生成检索串。
这里,所述检索串用于对数据库进行检索,获取在数据库进行检索后的检索结果。
假设搜索串的各关键词为:term1、term2、term3、term4,经过上述处理,得到term2、term3为焦点关键词,对应的权重分别为w2、w3,term2的扩展关键词为term2sys,则会生成下面的检索串:
query=term1+term2^w2+term3^w3+term4+term2sys。
这里,需要说明的是:上述公式只是示意,实际应用时,不是每个焦点关键词都会有相应的扩展关键词,当有的焦点关键词没有相应的扩展关键词时,生成的检索串就不会体现出相应的扩展关键词,比如,对于上述例子,term3没有对应的扩展关键词,所以检索串中未体现出其扩展关键词。
生成所述检索串后,就可以利用所述检索串和搜索串对所述数据库进行检索;
将检索后的检索结果进行打分并按分数高低进行排序;
从检索结果中选择分数最高的检索结果作为查询结果。
其中,实际应用时,所述数据库可以包括常见问题库和网页数据库等。
在进行打分时,可以设置相应的打分机制,根据打分机制确定检索结果对应的分数即可。比如,一种简单的实现方式是:打分机制规定了每种检索结果的分数,在这种情况下,可以在打分机制中查找检索后的检索结果对应的分数即可。
这里,上述确定查询结果的方式中,由于扩展语句后有可能会增加噪声,所以将原始语句与扩展语句结果取其优,如此,能够增加识别范围,提高识别率。
本发明实施例提供的方案,获取输入的搜索串;所述搜索串包含至少两个关键词;确定所述搜索串中每个关键词的词性;利用确定的每个关键词的词性,从所述至少两个关键词中确定焦点关键词;获取所述焦点关键词的扩展关键词;并确定所述焦点关键词及扩展关键词的权重;所述焦点关键词的权重高于所述搜索串中的其它关键词的权重,且高于所述扩展关键词的权重;利用确定的各关键词的权重、所述搜索串的各关键词以及扩展关键词,生成检索串;所述检索串用于对数据库进行检索,获取在数据库进行检索后的检索结果。通过确定搜索串中每个关键词的词性,进而确定搜索串中的焦点信息,如此,能够有效识别查询意图;同时,在焦点信息的基础上,通过同义词扩展、词权重调整完成查询语句的改写,采用改写后的查询语句去进行检索,能够明显提升检索精度。
从上面的描述可以看出,实际应用时,本发明实施例提供的搜索查询优化方法,可以如图2所示,收到用户的查询请求(步骤201)后,需要进行查询改写,具体包括:对用户的搜索串依次进行分词处理(步骤202),词性分析(步骤203),根据预设的短语组合类型确定用户的搜索串对应的短语结构类型(步骤204),从而获取信息焦点(步骤205),即焦点关键词,对焦点关键词加权(确定各关键词的权重)(步骤206),并对焦点关键词词进行同义词扩展,完成查询改写(步骤207),得到改写后的查询语句(检索串);最后用原始查询语句(查询请求中的)改写后的查询语句作为搜索的输入条件进行检索(步骤208),然后将二者的搜索结果进行打分排序处理(步骤209),选用分数最高的作为查询的结果(步骤210)。
为了实现图2所示的索查询优化方法,如图3所示,搜索查询优化装置可以包括:问题预处理模块、短语类型管理模块、信息焦点获取模块、同义词处理模块、词加权模块、查询改写模块、搜索模块、结果优化排序模块;其中,
问题预处理模块,主要负责涉及分词、词性分析等处理功能;
短语类型管理模块,主要负责对预设短语类型的管理,包括:增加、删除、修改、查询等;
信息焦点获取模块,用于获取用户查询语句中的焦点关键词;
同义词处理模块,用于获取焦点关键词的同义词;
词加权模块,对于焦点词权重的参数设置;
查询改写模块:对用户查询语句进行词加权、同义词扩展改写,最终得到改写后的查询语句;
搜索模块,用于提供索引的创建与查询功能(根据查询语句在索引库进行检索);
结果优化排序模块,用于对搜索结果进行综合打分排序,并输出最有结果(分数最高的搜索结果)。
从上面的描述可以看出,本发明实施例提供的方案,从自然语言理解的角度,根据用户搜索串(也可以成为查询串)的词性特点和句法特征,分析词性规律和短语组合的类型,寻找搜索串中的信息焦点,即给出了查询语句中信息焦点的获取方案,再此基础上对信息焦点进行词加权,即增强信息焦点在搜索查询中的权重,调高权重系数,并对信息焦点词进行同义词扩展,确定了查询改写语句的公式。真正从语义的角度去理解用户的查询意图。最终通过对搜索结果进行综合的排序,获取最优结果。
为实现本发明实施例提供的方案,本发明实施例还提供了一种搜索词的处理装置,如图4所示,所述装置包括:
接收单元41,用于获取输入的搜索串;所述搜索串包含至少两个关键词;
焦点确定单元42,用于确定所述搜索串中每个关键词的词性;利用确定的每个关键词的词性,从所述至少两个关键词中确定焦点关键词;
扩展及权重确定单元43,用于获取所述焦点关键词的扩展关键词;并确定所述焦点关键词及扩展关键词的权重;所述焦点关键词的权重高于所述搜索串中的其它关键词的权重,且高于所述扩展关键词的权重;
生成单元44,用于利用确定的各关键词的权重、所述搜索串的各关键词以及扩展关键词,生成检索串;所述检索串用于对数据库进行检索,获取在数据库进行检索后的答案。
其中,实际应用时,首先需要对搜索串进行分词处理,然后才能进行词性的分析。
基于此,所述焦点确定单元42,还用于对搜索串进行分词处理。
由于检索查询中最常用的词性包括名词、动词及数量词,所以可以针对这三种词性组成的短语词组进行分析。
基于此,在一实施例中,所述焦点确定单元42,具体用于:
确定所述搜索串中每个关键词的词性为动词、或为名词、或为数量词。
由于检索查询中最常用的词性包括名词、动词及数量词,所以可以针对这三种词性组成的短语词组进行分析。
基于此,在一实施例中,所述焦点确定单元42,具体用于:
利用确定的每个关键词的词性,确定所述搜索串所形成的短语结构类型;
利用确定的短语结构类型,从所述至少两个关键词中确定焦点关键词。
基于表1的短语结构类型,在一实施例中,所述焦点确定单元42,具体用于:
当短语结构类型为名词结构、或为主谓结构时,从词性为名词的各关键词中确定所述焦点关键词;
或者,
当短语结构类型为主谓结构,且词性包含数量词时,从词性为名词和数量词的各关键词中确定所述焦点关键词。
在一实施例中,所述当短语结构类型为名词结构时,所述焦点确定单元42将词性为名词,且在所述搜索串所形成的短语结构中表征主题的关键词作为所述焦点关键词。
在一实施例中,当短语结构类型为主谓结构时,所述焦点确定单元42将词性为名词,且与词性为动词的关键词形成主谓关系的关键词作为所述焦点关键词。
从上面的描述可以看出,所述焦点确定单元42的功能相当于图3中的问题预处理模块、短语类型管理模块、及信息焦点获取模块这三个模块的功能。
在一实施例中,所述扩展及权重确定单元43,具体用于:
针对每个焦点关键词,依据扩展词的扩展策略,确定对应焦点关键词的一个扩展关键词。
生成所述检索串后,就可以利用所述检索串进行检索,得到查询结果。
从上面的描述可以看出,所述扩展及权重确定单元43的功能此案当与图3中同义词处理模块、词加权模块的功能。
基于此,在一实施例中,所述装置还可以包括:检索单元(图3中搜索模块及结果优化排序模块的功能),用于:
利用所述检索串和搜索串对所述数据库进行检索;
将检索后的检索结果进行打分并按分数高低进行排序;
从检索结果中选择分数最高的检索结果作为查询结果。
实际应用时,所述接收单元41、焦点确定单元42、扩展及权重确定单元43、生成单元44及检索单元可由搜索词的处理装置中的处理器实现。
需要说明的是:上述实施例提供的搜索词的处理装置在进行搜索词的处理时,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,即将装置的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的搜索词的处理装置与搜索词的处理方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
基于上述程序模块的硬件实现,为实现本发明实施例的方法,本发明实施例还提供了一种搜索词的处理装置,如图5所述,该装置50包括:处理器51和用于存储能够在处理器上运行的计算机程序的存储器52,
其中,所述处理器51用于运行所述计算机程序时,执行:
获取输入的搜索串;所述搜索串包含至少两个关键词;
确定所述搜索串中每个关键词的词性;
利用确定的每个关键词的词性,从所述至少两个关键词中确定焦点关键词;
获取所述焦点关键词的扩展关键词;并确定所述焦点关键词及扩展关键词的权重;所述焦点关键词的权重高于所述搜索串中的其它关键词的权重,且高于所述扩展关键词的权重;
利用确定的各关键词的权重、所述搜索串的各关键词以及扩展关键词,生成检索串;所述检索串用于对数据库进行检索,获取在数据库进行检索后的答案。
在一实施例中,所述处理器51用于运行所述计算机程序时,执行:
确定所述搜索串中每个关键词的词性为动词、或为名词、或为数量词。
在一实施例中,所述处理器51用于运行所述计算机程序时,执行:
利用确定的每个关键词的词性,确定所述搜索串所形成的短语结构类型;
利用确定的短语结构类型,从所述至少两个关键词中确定焦点关键词。
在一实施例中,所述处理器51用于运行所述计算机程序时,执行:
当短语结构类型为名词结构、或为主谓结构时,从词性为名词的各关键词中确定所述焦点关键词;
或者,
当短语结构类型为主谓结构,且词性包含数量词时,从词性为名词和数量词的各关键词中确定所述焦点关键词。
在一实施例中,所述处理器51用于运行所述计算机程序时,执行:
将词性为名词,且与词性为动词的关键词形成主谓关系的关键词作为所述焦点关键词。
在一实施例中,所述处理器51用于运行所述计算机程序时,执行:
将词性为名词,且在所述搜索串所形成的短语结构中表征主题的关键词作为所述焦点关键词。
在一实施例中,所述处理器51用于运行所述计算机程序时,执行:
针对每个焦点关键词,依据扩展词的扩展策略,确定对应焦点关键词的一个扩展关键词。
在一实施例中,所述处理器51还用于运行所述计算机程序时,执行:
利用所述检索串和搜索串对所述数据库进行检索;
将检索后的检索结果进行打分并按分数高低进行排序;
从检索结果中选择分数最高的检索结果作为查询结果。
当然,实际应用时,所述装置50中的各个组件通过总线系统53耦合在一起。可理解,总线系统53用于实现这些组件之间的连接通信。总线系统53除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图5中将各种总线都标为总线系统53。
其中,所述处理器51的个数为至少一个。
本发明实施例中的存储器52用于存储各种类型的数据以支持所述装置50的操作。这些数据的示例包括:用于在所述装置50上操作的任何计算机程序。
上述本发明实施例揭示的方法可以应用于所述处理器51中,或者由所述处理器51实现。所述处理器51可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过所述处理器51中的硬件的集成逻辑电路或者软件形式的指令完成。上述的所述处理器51可以是通用处理器、数字信号处理器(DSP,Digital SignalProcessor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。所述处理器51可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器52,所述处理器51读取存储器52中的信息,结合其硬件完成前述方法的步骤。
在示例性实施例中,装置50可以被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)、通用处理器、控制器、微控制器(MCU,Micro Controller Unit)、微处理器(Microprocessor)、或者其他电子元件实现,用于执行前述方法。
可以理解,本发明实施例的存储器52可以是易失性存储器或者非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,ferromagnetic random access memory)、快闪存储器(FlashMemory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random Access Memory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,Synchronous Dynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random AccessMemory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random AccessMemory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本发明实施例描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
在示例性实施例中,本发明实施例还提供了一种计算机可读存储介质,例如包括存储计算机程序的存储器52,上述计算机程序可由所述装置50的处理器51执行,以完成前述方法所述步骤。计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、FlashMemory、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备,如移动电话、计算机、平板设备、个人数字助理等。
需要说明的是:本发明实施例所记载的技术方案之间,在不冲突的情况下,可以任意组合。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (15)

1.一种搜索词的处理方法,其特征在于,所述方法包括:
获取输入的搜索串;所述搜索串包含至少两个关键词;
确定所述搜索串中每个关键词的词性;
利用确定的每个关键词的词性,从所述至少两个关键词中确定焦点关键词;
获取所述焦点关键词的扩展关键词;并确定所述焦点关键词及扩展关键词的权重;所述焦点关键词的权重高于所述搜索串中的其它关键词的权重,且高于所述扩展关键词的权重;
利用确定的各关键词的权重、所述搜索串的各关键词以及扩展关键词,生成检索串;所述检索串用于对数据库进行检索,获取在数据库进行检索后的检索结果。
2.根据权利要求1所述的方法,其特征在于,确定所述搜索串中每个关键词的词性,包括:
确定所述搜索串中每个关键词的词性为动词、或为名词、或为数量词。
3.根据权利要求1所述的方法,其特征在于,所述利用确定的每个关键词的词性,从所述至少两个关键词中确定焦点关键词,包括:
利用确定的每个关键词的词性,确定所述搜索串所形成的短语结构类型;
利用确定的短语结构类型,从所述至少两个关键词中确定焦点关键词。
4.根据权利要求3所述的方法,其特征在于,所述利用确定的短语结构类型,从所述至少两个关键词中确定焦点关键词,包括:
当短语结构类型为名词结构、或为主谓结构时,从词性为名词的各关键词中确定所述焦点关键词;
或者,
当短语结构类型为主谓结构,且词性包含数量词时,从词性为名词和数量词的各关键词中确定所述焦点关键词。
5.根据权利要求4所述的方法,其特征在于,所述当短语结构类型为主谓结构时,从词性为名词的各关键词中确定所述焦点关键词,包括:
将词性为名词,且与词性为动词的关键词形成主谓关系的关键词作为所述焦点关键词。
6.根据权利要求4所述的方法,其特征在于,所述当短语结构类型为名词结构时,从词性为名词的各关键词中确定所述焦点关键词,包括:
将词性为名词,且在所述搜索串所形成的短语结构中表征主题的关键词作为所述焦点关键词。
7.根据权利要求1所述的方法,其特征在于,所述获取所述焦点关键词的扩展关键词,包括:
针对每个焦点关键词,依据扩展词的扩展策略,确定对应焦点关键词的一个扩展关键词。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
利用所述检索串和搜索串对所述数据库进行检索;
将检索后的检索结果进行打分并按分数高低进行排序;
从检索结果中选择分数最高的检索结果作为查询结果。
9.一种搜索词的处理装置,其特征在于,所述装置包括:
接收单元,用于获取输入的搜索串;所述搜索串包含至少两个关键词;
焦点确定单元,用于确定所述搜索串中每个关键词的词性;利用确定的每个关键词的词性,从所述至少两个关键词中确定焦点关键词;
扩展及权重确定单元,用于获取所述焦点关键词的扩展关键词;并确定所述焦点关键词及扩展关键词的权重;所述焦点关键词的权重高于所述搜索串中的其它关键词的权重,且高于所述扩展关键词的权重;
生成单元,用于利用确定的各关键词的权重、所述搜索串的各关键词以及扩展关键词,生成检索串;所述检索串用于对数据库进行检索,获取在数据库进行检索后的答案。
10.一种搜索词的处理装置,其特征在于,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,
其中,所述处理器用于运行所述计算机程序时,执行:
获取输入的搜索串;所述搜索串包含至少两个关键词;
确定所述搜索串中每个关键词的词性;
利用确定的每个关键词的词性,从所述至少两个关键词中确定焦点关键词;
获取所述焦点关键词的扩展关键词;并确定所述焦点关键词及扩展关键词的权重;所述焦点关键词的权重高于所述搜索串中的其它关键词的权重,且高于所述扩展关键词的权重;
利用确定的各关键词的权重、所述搜索串的各关键词以及扩展关键词,生成检索串;所述检索串用于对数据库进行检索,获取在数据库进行检索后的答案。
11.根据权利要求10所述的装置,其特征在于,所述处理器用于运行所述计算机程序时,执行:
确定所述搜索串中每个关键词的词性为动词、或为名词、或为数量词。
12.根据权利要求10所述的装置,其特征在于,所述处理器用于运行所述计算机程序时,执行:
利用确定的每个关键词的词性,确定所述搜索串所形成的短语结构类型;
利用确定的短语结构类型,从所述至少两个关键词中确定焦点关键词。
13.根据权利要求10所述的装置,其特征在于,所述处理器用于运行所述计算机程序时,执行:
针对每个焦点关键词,依据扩展词的扩展策略,确定对应焦点关键词的一个扩展关键词。
14.根据权利要求10所述的装置,其特征在于,所述处理器还用于运行所述计算机程序时,执行:
利用所述检索串和搜索串对所述数据库进行检索;
将检索后的检索结果进行打分并按分数高低进行排序;
从检索结果中选择分数最高的检索结果作为查询结果。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8任一项所述方法的步骤。
CN201810000847.8A 2018-01-02 2018-01-02 一种搜索词的处理方法、装置及计算机可读存储介质 Pending CN110019738A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810000847.8A CN110019738A (zh) 2018-01-02 2018-01-02 一种搜索词的处理方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810000847.8A CN110019738A (zh) 2018-01-02 2018-01-02 一种搜索词的处理方法、装置及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN110019738A true CN110019738A (zh) 2019-07-16

Family

ID=67187266

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810000847.8A Pending CN110019738A (zh) 2018-01-02 2018-01-02 一种搜索词的处理方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110019738A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111143666A (zh) * 2019-12-04 2020-05-12 深圳市智微智能软件开发有限公司 钢网库存查询方法及系统
CN111191105A (zh) * 2019-10-31 2020-05-22 腾讯科技(深圳)有限公司 政务信息的搜索方法、装置、系统、设备及存储介质
CN111797205A (zh) * 2020-06-30 2020-10-20 百度在线网络技术(北京)有限公司 一种词表检索方法、装置、电子设备及存储介质
CN113361272A (zh) * 2021-06-22 2021-09-07 海信视像科技股份有限公司 一种媒资标题的概念词提取方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101510221A (zh) * 2009-02-17 2009-08-19 北京大学 一种用于信息检索的查询语句分析方法与系统
CN102902806A (zh) * 2012-10-17 2013-01-30 深圳市宜搜科技发展有限公司 一种利用搜索引擎进行查询扩展的方法及系统
CN103425687A (zh) * 2012-05-21 2013-12-04 阿里巴巴集团控股有限公司 一种基于关键词的检索方法和系统
CN104598445A (zh) * 2013-11-01 2015-05-06 腾讯科技(深圳)有限公司 自动问答系统和方法
CN104866496A (zh) * 2014-02-22 2015-08-26 腾讯科技(深圳)有限公司 确定词素重要性分析模型的方法及装置
US20170213157A1 (en) * 2015-07-17 2017-07-27 Knoema Corporation Method and system to provide related data
CN107239455A (zh) * 2016-03-28 2017-10-10 阿里巴巴集团控股有限公司 核心词识别方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101510221A (zh) * 2009-02-17 2009-08-19 北京大学 一种用于信息检索的查询语句分析方法与系统
CN103425687A (zh) * 2012-05-21 2013-12-04 阿里巴巴集团控股有限公司 一种基于关键词的检索方法和系统
CN102902806A (zh) * 2012-10-17 2013-01-30 深圳市宜搜科技发展有限公司 一种利用搜索引擎进行查询扩展的方法及系统
CN104598445A (zh) * 2013-11-01 2015-05-06 腾讯科技(深圳)有限公司 自动问答系统和方法
CN104866496A (zh) * 2014-02-22 2015-08-26 腾讯科技(深圳)有限公司 确定词素重要性分析模型的方法及装置
US20170213157A1 (en) * 2015-07-17 2017-07-27 Knoema Corporation Method and system to provide related data
CN107239455A (zh) * 2016-03-28 2017-10-10 阿里巴巴集团控股有限公司 核心词识别方法及装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111191105A (zh) * 2019-10-31 2020-05-22 腾讯科技(深圳)有限公司 政务信息的搜索方法、装置、系统、设备及存储介质
CN111143666A (zh) * 2019-12-04 2020-05-12 深圳市智微智能软件开发有限公司 钢网库存查询方法及系统
CN111797205A (zh) * 2020-06-30 2020-10-20 百度在线网络技术(北京)有限公司 一种词表检索方法、装置、电子设备及存储介质
CN111797205B (zh) * 2020-06-30 2024-03-12 百度在线网络技术(北京)有限公司 一种词表检索方法、装置、电子设备及存储介质
CN113361272A (zh) * 2021-06-22 2021-09-07 海信视像科技股份有限公司 一种媒资标题的概念词提取方法及装置
CN113361272B (zh) * 2021-06-22 2023-03-21 海信视像科技股份有限公司 一种媒资标题的概念词提取方法及装置

Similar Documents

Publication Publication Date Title
CN109800284B (zh) 一种面向任务的非结构化信息智能问答系统构建方法
CN109829104B (zh) 基于语义相似度的伪相关反馈模型信息检索方法及系统
JP5597255B2 (ja) 単語の重みに基づいた検索結果の順位付け
US7966332B2 (en) Method of generating a distributed text index for parallel query processing
CN110019738A (zh) 一种搜索词的处理方法、装置及计算机可读存储介质
US7895195B2 (en) Method and apparatus for constructing a link structure between documents
US8352474B2 (en) System and method for retrieving information using a query based index
US9275128B2 (en) Method and system for document indexing and data querying
CN103136352A (zh) 基于双层语义分析的全文检索系统
CN101021875A (zh) 面向对象的数据库访问方法及系统
CN111522905A (zh) 一种基于数据库的文档搜索方法和装置
CN102081668A (zh) 基于领域本体的信息检索优化方法
CN109408799B (zh) 语义决策方法和系统
CN108475266A (zh) 用来移除匹配文档的匹配修复
US20120130999A1 (en) Method and Apparatus for Searching Electronic Documents
CN103226601B (zh) 一种图片搜索的方法和装置
CN116431837B (zh) 基于大型语言模型和图网络模型的文档检索方法和装置
CN109918661B (zh) 同义词获取方法及装置
WO2003091828A2 (en) Method and system for searching documents with numbers
CN113505196B (zh) 基于词性的文本检索方法、装置、电子设备及存储介质
CN112100313B (zh) 一种基于最细粒度切分的数据索引方法及系统
WO2021213278A1 (zh) 一种文件预取方法、存储设备以及预取装置
CN111723179A (zh) 基于概念图谱的反馈模型信息检索方法、系统及介质
JP6040141B2 (ja) キーワード付与装置、キーワード付与方法及びプログラム
CN112084290B (zh) 一种数据检索方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190716