CN108984582B - 一种查询请求处理方法 - Google Patents

一种查询请求处理方法 Download PDF

Info

Publication number
CN108984582B
CN108984582B CN201810420899.0A CN201810420899A CN108984582B CN 108984582 B CN108984582 B CN 108984582B CN 201810420899 A CN201810420899 A CN 201810420899A CN 108984582 B CN108984582 B CN 108984582B
Authority
CN
China
Prior art keywords
keyword
ordered
group
keywords
ordered group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810420899.0A
Other languages
English (en)
Other versions
CN108984582A (zh
Inventor
左晓栋
崔占华
杨晨
张弛
王石
刘雨桁
周亚超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Information Safety Research Institute Co ltd
Original Assignee
China Information Safety Research Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Information Safety Research Institute Co ltd filed Critical China Information Safety Research Institute Co ltd
Priority to CN201810420899.0A priority Critical patent/CN108984582B/zh
Publication of CN108984582A publication Critical patent/CN108984582A/zh
Application granted granted Critical
Publication of CN108984582B publication Critical patent/CN108984582B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种查询请求处理方法,所述方法包括:S1:接收用户查询请求以获取关键词有序组;S2:对关键词有序组进行处理,以获取中间关键词有序组;S3:基于所述中间关键词有序组进行基于搜索引擎的查询。本发明能够对用户输入的查询请求从多个层次进行处理,在基于大数据分析的基础上融入个性化的修正,通过对用户查询请求的完成来深入的刻画用户查询请求,从而能够更好地满足用户的实际需求。

Description

一种查询请求处理方法
【技术领域】
本发明属于数据查询领域,尤其涉及一种查询请求处理方法。
【背景技术】
随着互联网的发展,网络的各种功能被不断开发,从而在各个方面为用户提供方便。以电子商务为例,目前,买卖交易的对象已经由传统意义上的“商品”扩展为“服务”,其特点是让网络成为线下服务的交易前台,这样线下服务就可以用线上方式来招揽顾客。目前如餐饮、旅游等服务均大量采用该方式,对于商家可以有效节约成本,对于消费者则可以利用网络功能来实现对服务的快捷筛选。对于提供服务信息的网站而言,为了方便用户在线上选择服务,搜索功能是必不可少的。对于用户针对“服务”的查询请求,最基本的处理方式是直接根据用户输入的查询文本,在服务商品信息数据库中检索与该文本内容匹配的内容,这种方式实际与普通的文本信息检索相同,然而对于“服务”的查询而言,却并不一定适用,例如,用户输入的查询请求是“中关村海底捞”,目的是要找位于“中关村”地区的“海底捞”餐馆信息,而并非要找名为“中关村海底捞”的餐馆,如果使用文本匹配的查询方式,往往难以得到符合用户需求的结果。基于上述诸多问题,现在亟需一种新的查询请求处理方法,本发明能够对用户输入的查询请求从多个层次进行处理,在基于大数据分析的基础上融入个性化的修正,通过对用户查询请求的完成来深入的刻画用户查询请求,从而能够更好地满足用户的实际需求。
【发明内容】
为了解决现有技术中的上述问题,本发明提出了一种查询请求处理方法,该方法包括如下步骤:
S1:接收用户查询请求以获取关键词有序组;
S2:对关键词有序组进行处理,以获取中间关键词有序组;
S3:基于所述中间关键词有序组进行基于搜索引擎的查询。
进一步的,所述步骤S1具体为,对查询请求中查询内容的类型进行判断,如果查询内容为一个或多个关键词,则直接基于所述查询内容获取关键词有序组;如果查询内容为一个或多个句子,则对句子进行逐个处理以获取关键词有序组。
进一步的,所述直接基于所述查询内容获取关键词有序组,具体为:直接将查询内容中包含的一个或多个关键词按照其在查询请求中的先后顺序存放到关键词有序组中。
进一步的,所述对句子进行逐个处理以获取关键词有序组,具体为:依次对每个句子进行词划分,以获取一个或多个词,删除其中第一类型的词而保留第二类型的词,将第二类型的词按预设排序规则进行排序,并将排序后的词按顺序放入关键词有序组中;对于多个句子获取的多个关键词有序组,将所述多个关键词有序组合并成一个关键词有序组作为关键词有序组。
进一步的,所述将所述多个关键词有序组合并成一个关键词有序组,具体为:将多个关键词有序组按照其对应的句子出现的先后顺序放入合并后的关键词有序组;合并后对于重复出现的关键词进行去重复,删除排序靠后的关键词而保留排序靠前的关键词,对于排序靠前的关键词进行向前移动。
进一步的,当一关键词的出现次数超过次数阈值时,将所述关键词的排序向前移动。
进一步的,所述向前移动具体为:向前移动一次。
进一步的,当一个关键词的出现次数为n时,将所述关键词的排序向前移动的次数为
进一步的,当关键词已经位于第一位时,不再移动。
本发明的有益效果包括:能够对用户输入的查询请求从多个层次进行处理,在基于大数据分析的基础上融入个性化的修正,通过对用户查询请求的完成来深入的刻画用户查询请求,从而能够更好地满足用户的实际需求。
【附图说明】
此处所说明的附图是用来提供对本发明的进一步理解,构成本申请的一部分,但并不构成对本发明的不当限定,在附图中:
图1是本发明的查询请求处理方法的流程图。
【具体实施方式】
下面将结合附图以及具体实施例来详细说明本发明,其中的示意性实施例以及说明仅用来解释本发明,但并不作为对本发明的限定。
对本发明所应用的一种查询请求处理方法进行详细说明,所述方法包含下述步骤:
S1:接收用户查询请求,并从所述用户查询请求中获取关键词有序组,具体的:对查询请求中查询内容的类型进行判断,如果查询内容为一个或多个关键词,则直接基于所述查询内容获取关键词有序组;如果查询内容为一个或多个句子,则对句子进行逐个处理以获取关键词有序组;
所述直接基于所述查询内容获取关键词有序组,具体为:直接将查询内容中包含的一个或多个关键词按照其在查询请求中的先后顺序存放到关键词有序组中;
所述对句子进行逐个处理以获取关键词有序组,具体为:依次对每个句子进行词划分,以获取一个或多个词,删除其中第一类型的词而保留第二类型的词,将第二类型的词按预设排序规则进行排序,并将排序后的词按顺序放入关键词有序组中;对于多个句子获取的多个关键词有序组,将所述多个关键词有序组合并成一个关键词有序组作为关键词有序组;
优选的:所述第一类型为连接词,语气词等;所述第二类型为:名词,动词等;管理员可以通过对第一类型和第二类型包含的词语类型的范围进行调整来减少或者增加关键词有序组所包含的词语量,从而降低或增加查询的准确度,相应的增加或者减少查询的效率;
所述预设排序规则为:名词排在动词之前,时间名词和处所名词排在人物名词之后;
所述将所述多个关键词有序组合并成一个关键词有序组,具体为:将多个关键词有序组按照其对应的句子出现的先后顺序放入合并后的关键词有序组;合并后对于重复出现的关键词进行去重复,删除排序靠后的关键词而保留排序靠前的关键词,对于排序靠前的关键词进行向前移动;
优选的:当一关键词的出现次数超过次数阈值时,将所述关键词的排序向前移动;其中,所述次数阈值为预设值;
优选的:所述向前移动具体为:向前移动一次;
优选的:当一个关键词的出现次数为n时,将所述关键词的排序向前移动的次数为当关键词已经位于第一位时,不再移动;
S2:对关键词有序组进行处理,以获取中间关键词有序组;具体为:将所述关键词有序组和通用有序组进行比较以获取中间关键词有序组;
所述将所述关键词有序组和通用有序组进行比较以获取中间关键词有序组,具体为:计算关键词有序组和通用有序组的通用相似度,如果存在一通用有序组,其和关键词有序组之间的通用相似度大于第一相似度阈值,则基于所述一通用有序组对关键词有序组进行修正;
所述计算关键词有序组和通用有序组的通用相似度,具体为:对于每个通用有序组,获取所述通用有序组中和所述关键词有序组所包含的相同关键词的个数,将所述个数和关键词有序组中所有关键词的个数的比值作为所述通用相似度;
优选的:所述第一相似度阈值为100%;
优选的:当大于第一相似度阈值的通用有序组的个数为为多个时,随机选择一个通用有序组作为所选择的一个通用有序组;
所述基于所述一通用有序组对关键词有序组进行修正,具体为:如果关键词有序组中关键词的个数小于等于所述一通用有序组中关键词的个数,则不进行修正;否则,在所述一通用有序组中选择一关键词加入所述关键词有序组中;
所述选择一关键词加入所述通用有序组中,具体为:在所述一通用有序组中包含的相同关键词相邻的所有关键词中,选择排序最靠前的相邻关键词作为所选择的关键词;将所述所选择的关键词放入所述关键词有序组中尾部的位置;
优选的:所述通用有序组为基于大数据获取,通过对多用户查询请求进行分析,将预定时间段内出现次数较多的关键词有序组作为通用有序组;
其中:预定时间段为用户设置或者根据用户的查询习惯设置;
所述根据用户的查询习惯设置,具体为:当判断用户为追新用户时,将所述预定时间段设置为第一时间段,当判断用户为追老用户时,将所述预定时间段设置为第三时间段,否则,将所述预定时间段设置为第二时间段;其中:第一时间段小于第二时间段,第二时间段小于第三时间段;
优选的:所述追新用户为对新事件,新事物感兴趣的用户;所述追老用户为对老事物,老事件感兴趣的用户;
S3:基于用户查询历史获取用户关键词有序组,具体的:基于用户属性确定第二预定时间,基于所述用户查询历史,获取第二预定时间内的用户关键词有序组;
优选的:所述用户查询历史中包含多个用户查询请求及其对应的用户关键词有序组;
所述基于用户属性确定第二预定时间,具体为:获取用户属性,基于主要用户属性获取和所述主要用户属性对应的标准第二预定时间;基于次要用户属性对标准第二预定时间进行调整以获取第二预定时间;
所述基于主要用户属性获取和所述主要用户属性对应的标准第二预定时间,具体为:主要用户属性包括:年龄,性别,区域;预先保存主要用户属性和标准第二预定时间之间的对应关系;基于所述主要用户属性的属性值查找所述对应关系,并获取主要用户属性均一致的对应关系条目中的标准第二预定时间;
所述主要用户属性均一致,具体为:所有主要用户属性的属性值均完全相等或主要用户属性的属性值大致相等;
所述主要用户属性的属性值大致相等,具体为:主要用户属性的一部分完全相等而另一部分大致相等;优选的:所述一部分为性别和区域,另一部分为年龄;
所述大致相等,具体为:主要用户属性的属性值和对应关系条目中对应属性的属性值之间的相似度在预设范围内;所述预设范围为用户指定;例如;用户主要属性为22岁,而对应关系条目中对应的属性值为23,预设范围为1岁,则所述用户主要属性的属性值大致相等;
优选的:将所述对应关系保存在云服务器上;所述对应关系基于大数据统计分析获取;
优选的:将所述对应关系保存在分布式数据库中;
所述基于次要用户属性对第二预定时间进行调整,具体为:所述次要用户属性包括:用户日均查询次数N,用户日均上网时间T,用户网龄A;获取所述标准第二预定时间BST,通过下式计算所述第二预定时间ST;
其中:Bs_T为日均上网时间调整值,BS_A为用户网龄调整值;所述调整值为预设值;
S4:对中间关键词有序组进行处理,以获取目标关键词有序组;具体的:获取用户关键词有序组,基于所述中间关键词有序组选取一个用户关键词有序组,基于所述一用户关键词有序组对中间关键词有序组进行修正;
所述基于所述中间关键词有序组选取一个用户关键词有序组,具体为:对于每个用户关键词有序组,计算中间关键词有序组和用户关键词有序组之间的用户相似度,将相似度最高的用户关键词有序组作为所选取的一个用户关键词有序组;
优选的:当存在多个用户相似度相同的用户关键词有序组时,选择使用频率最高的用户关键词有序组作为所选取的用户关键词有序组;
所述计算中间关键词有序组和用户关键词有序组之间的用户相似度,具体为:获取中间关键词有序组中的第一有序二元组集合和用户关键词有序组中的第二有序二元组集合;计算第一有序二元组集合和第二有序二元组集合中相同有序二元组的个数,将所述个数和第一有序二元组集合中有序二元组个数的比值作为所述用户相似度;
所述获取中间关键词有序组中的第一有序二元组集合,具体为:获取中间关键词有序组中所有关键词的二元排列组合,并将符合关键词有序组中序关系的二元排列组合放入所述第一有序二元组集合中;
例如:有序组(A,B,C),第一有序二元组集合为{(A,B),(A,C),(B,C)};
所述获取用户关键词有序组中的第二有序二元组集合,具体为:获取用户关键词有序组中所有关键词的二元排列组合,并将符合用户关键词有序组中序关系的二元排列组合放入所述第二有序二元组集合中;
所述基于所述一用户关键词有序组对中间关键词有序组进行修正,具体为:按照所述一用户关键词有序组的序关系对所述关键词有序组进行修正;
所述按照所述一用户关键词有序组的序关系对所述中间关键词有序组进行修正,以获取目标关键词有序组;具体为:将所述用户关键词有序组中关键词的排序先后关系对所述中间关键词有序组中关键词的排列顺序进行修正,将排序靠前的关键词调整到排序靠后的关键词之前,反之亦然;将所述修正后的中间关键词有序组作为目标关键词有序组;
S5:将所述目标关键词有序组输入搜索引擎进行查询。
以上所述仅是本发明的较佳实施方式,故凡依本发明专利申请范围所述的构造、特征及原理所做的等效变化或修饰,均包括于本发明专利申请范围内。

Claims (5)

1.一种查询请求处理方法,其特征在于,该方法包括如下步骤:
S1:接收用户查询请求以获取关键词有序组;
所述步骤S1具体为,对查询请求中查询内容的类型进行判断,如果查询内容为一个或多个关键词,则直接基于所述查询内容获取关键词有序组;如果查询内容为一个或多个句子,则对句子进行逐个处理以获取关键词有序组;
所述直接基于所述查询内容获取关键词有序组,具体为:直接将查询内容中包含的一个或多个关键词按照其在查询请求中的先后顺序存放到关键词有序组中;
所述对句子进行逐个处理以获取关键词有序组,具体为:依次对每个句子进行词划分,以获取一个或多个词,删除其中第一类型的词而保留第二类型的词,将第二类型的词按预设排序规则进行排序,并将排序后的词按顺序放入关键词有序组中;对于多个句子获取的多个关键词有序组,将所述多个关键词有序组合并成一个关键词有序组作为关键词有序组;
所述将所述多个关键词有序组合并成一个关键词有序组,具体为:将多个关键词有序组按照其对应的句子出现的先后顺序放入合并后的关键词有序组;合并后对于重复出现的关键词进行去重复,删除排序靠后的关键词而保留排序靠前的关键词,对于排序靠前的关键词进行向前移动;
S2:对关键词有序组进行处理,以获取中间关键词有序组;
所述步骤S2具体为:对关键词有序组进行处理,以获取中间关键词有序组;具体为:将所述关键词有序组和通用有序组进行比较以获取中间关键词有序组;
所述将所述关键词有序组和通用有序组进行比较以获取中间关键词有序组,具体为:计算关键词有序组和通用有序组的通用相似度,如果存在一通用有序组,其和关键词有序组之间的通用相似度大于第一相似度阈值,则基于所述一通用有序组对关键词有序组进行修正;
所述计算关键词有序组和通用有序组的通用相似度,具体为:对于每个通用有序组,获取所述通用有序组中和所述关键词有序组所包含的相同关键词的个数,将所述个数和关键词有序组中所有关键词的个数的比值作为所述通用相似度;
所述第一相似度阈值为100%;
当大于第一相似度阈值的通用有序组的个数为多个时,随机选择一个通用有序组作为所选择的一个通用有序组;
所述基于所述一通用有序组对关键词有序组进行修正,具体为:如果关键词有序组中关键词的个数小于等于所述一通用有序组中关键词的个数,则不进行修正;否则,在所述一通用有序组中选择一关键词加入所述关键词有序组中;
所述选择一关键词加入所述通用有序组中,具体为:在所述一通用有序组中包含的相同关键词相邻的所有关键词中,选择排序最靠前的相邻关键词作为所选择的关键词;将所述所选择的关键词放入所述关键词有序组中尾部的位置;
所述通用有序组为基于大数据获取,通过对多用户查询请求进行分析,将预定时间段内出现次数较多的关键词有序组作为通用有序组;
S3:基于所述中间关键词有序组进行基于搜索引擎的查询。
2.根据权利要求1所述的查询请求处理方法,其特征在于,当一关键词的出现次数超过次数阈值时,将所述关键词的排序向前移动。
3.根据权利要求2所述的查询请求处理方法,其特征在于,所述向前移动具体为:向前移动一次。
4.根据权利要求3所述的查询请求处理方法,其特征在于,当一个关键词的出现次数为n时,将所述关键词的排序向前移动的次数为
5.根据权利要求4所述的查询请求处理方法,其特征在于,当关键词已经位于第一位时,不再移动。
CN201810420899.0A 2018-05-04 2018-05-04 一种查询请求处理方法 Active CN108984582B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810420899.0A CN108984582B (zh) 2018-05-04 2018-05-04 一种查询请求处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810420899.0A CN108984582B (zh) 2018-05-04 2018-05-04 一种查询请求处理方法

Publications (2)

Publication Number Publication Date
CN108984582A CN108984582A (zh) 2018-12-11
CN108984582B true CN108984582B (zh) 2023-07-28

Family

ID=64542425

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810420899.0A Active CN108984582B (zh) 2018-05-04 2018-05-04 一种查询请求处理方法

Country Status (1)

Country Link
CN (1) CN108984582B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111680130A (zh) * 2020-06-16 2020-09-18 深圳前海微众银行股份有限公司 文本检索方法、装置、设备及存储介质
CN113868533A (zh) * 2021-09-30 2021-12-31 北京达佳互联信息技术有限公司 应用搜索方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101196898A (zh) * 2007-08-21 2008-06-11 新百丽鞋业(深圳)有限公司 将词组索引技术应用在互联网搜索引擎中的方法
CN101201838A (zh) * 2007-08-21 2008-06-18 新百丽鞋业(深圳)有限公司 利用词组索引技术对基于关键词索引的搜索引擎进行改进的方法
CN101246492A (zh) * 2008-02-26 2008-08-20 华中科技大学 基于自然语言的全文检索系统
CN101464897A (zh) * 2009-01-12 2009-06-24 阿里巴巴集团控股有限公司 一种词匹配及信息查询方法及装置
CN103106287A (zh) * 2013-03-06 2013-05-15 深圳市宜搜科技发展有限公司 一种用户检索语句的处理方法及系统
CN105786910A (zh) * 2014-12-25 2016-07-20 北京奇虎科技有限公司 词条权重计算方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8115869B2 (en) * 2007-02-28 2012-02-14 Samsung Electronics Co., Ltd. Method and system for extracting relevant information from content metadata

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101196898A (zh) * 2007-08-21 2008-06-11 新百丽鞋业(深圳)有限公司 将词组索引技术应用在互联网搜索引擎中的方法
CN101201838A (zh) * 2007-08-21 2008-06-18 新百丽鞋业(深圳)有限公司 利用词组索引技术对基于关键词索引的搜索引擎进行改进的方法
CN101246492A (zh) * 2008-02-26 2008-08-20 华中科技大学 基于自然语言的全文检索系统
CN101464897A (zh) * 2009-01-12 2009-06-24 阿里巴巴集团控股有限公司 一种词匹配及信息查询方法及装置
CN103106287A (zh) * 2013-03-06 2013-05-15 深圳市宜搜科技发展有限公司 一种用户检索语句的处理方法及系统
CN105786910A (zh) * 2014-12-25 2016-07-20 北京奇虎科技有限公司 词条权重计算方法和装置

Also Published As

Publication number Publication date
CN108984582A (zh) 2018-12-11

Similar Documents

Publication Publication Date Title
CN107180093B (zh) 信息搜索方法及装置和时效性查询词识别方法及装置
KR101700352B1 (ko) 이력적 검색 결과들을 사용한 향상된 문서 분류 데이터 생성
US20180225712A1 (en) Systems and methods for targeted advertising
US8719262B1 (en) Identification of semantic units from within a search query
US9875313B1 (en) Ranking authors and their content in the same framework
US10049154B2 (en) Method for matching queries with answer items in a knowledge base
CN104835072B (zh) 用于社交网络中用户的兼容性评分的方法和系统
US10452662B2 (en) Determining search result rankings based on trust level values associated with sellers
US7505964B2 (en) Methods and systems for improving a search ranking using related queries
CN109033101B (zh) 标签推荐方法及装置
US20110041075A1 (en) Separating reputation of users in different roles
US20110307469A1 (en) System and method for query suggestion based on real-time content stream
NO325864B1 (no) Fremgangsmåte ved beregning av sammendragsinformasjon og en søkemotor for å støtte og implementere fremgangsmåten
WO2014176192A2 (en) Live recommendation generation
CN104933100A (zh) 关键词推荐方法和装置
US10380121B2 (en) System and method for query temporality analysis
US9600586B2 (en) System and method for metadata transfer among search entities
US7143085B2 (en) Optimization of server selection using euclidean analysis of search terms
US6385605B1 (en) Information retrieval apparatus and a method
US20080256057A1 (en) Optimizing a query using fuzzy matching
CN108984582B (zh) 一种查询请求处理方法
US11113299B2 (en) System and method for metadata transfer among search entities
CN107423298B (zh) 一种搜索方法和装置
CN110147424B (zh) 一种Top-k组合空间关键字查询方法和系统
CN116540907A (zh) 一种页面工具展示方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant