CN104715022B - 一种相关搜索方法和装置 - Google Patents

一种相关搜索方法和装置 Download PDF

Info

Publication number
CN104715022B
CN104715022B CN201510092270.4A CN201510092270A CN104715022B CN 104715022 B CN104715022 B CN 104715022B CN 201510092270 A CN201510092270 A CN 201510092270A CN 104715022 B CN104715022 B CN 104715022B
Authority
CN
China
Prior art keywords
search word
relevant search
digging
relevant
mass parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510092270.4A
Other languages
English (en)
Other versions
CN104715022A (zh
Inventor
胡军
陈英傑
李伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201510092270.4A priority Critical patent/CN104715022B/zh
Publication of CN104715022A publication Critical patent/CN104715022A/zh
Application granted granted Critical
Publication of CN104715022B publication Critical patent/CN104715022B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种相关搜索方法和装置,其中的方法具体包括:依据用户输入的搜索词查询索引表,以得到与所述搜索词对应的相关列表;其中,所述索引表中存储有搜索词与相关列表之间的映射关系,所述相关列表中记录有基于多种相关搜索词挖掘方法得到的相关搜索词与对应的分质量参数、以及基于日志统计得到的所述相关搜索词的相关特征之间的映射关系;依据所述相关列表中记录的相关搜索词及所述相关搜索词对应的分质量参数和相关特征,确定所述相关搜索词的总质量参数;对总质量参数最高的若干个相关搜索词进行展现。本发明实施例能够有效提高相关搜索结果的多样性以及覆盖率。

Description

一种相关搜索方法和装置
技术领域
本发明涉及搜索引擎技术领域,特别是涉及一种相关搜索方法和装置。
背景技术
随着互联网发展,信息的快速膨胀,人们对搜索引擎的依赖越来越大。但是在有些情况下,用户输入的搜索词不能准确地描述搜索意图,从而导致得到的搜索结果无法满足用户需求。为了提高用户搜索的体验度,相关搜索技术应运而生,相关搜索技术可以检索所述搜索词对应的相关搜索词,并提供给用户,以便于用户的二次检索。
传统的相关搜索方法具有相关搜索词多样性较差的缺点,或者具有对于长尾搜索词的搜索效果不佳的缺点,或者导致相关搜索覆盖率较低。
发明内容
本发明实施例所要解决的技术问题是提供一种相关搜索方法和装置,能够有效提高相关搜索结果的多样性以及覆盖率。
为了解决上述问题,本发明公开了一种相关搜索方法,包括:
依据用户输入的搜索词查询索引表,以得到与所述搜索词对应的相关列表;其中,所述索引表中存储有搜索词与相关列表之间的映射关系,所述相关列表中记录有基于多种相关搜索词挖掘方法得到的相关搜索词与对应的分质量参数、以及基于日志统计得到的所述相关搜索词的相关特征之间的映射关系;
依据所述相关列表中记录的相关搜索词及所述相关搜索词对应的分质量参数和相关特征,确定所述相关搜索词的总质量参数;
对总质量参数最高的若干个相关搜索词进行展现。
优选地,通过如下步骤生成所述相关列表:
采用多种相关搜索词挖掘方法挖掘得到搜索词对应的相关搜索词及所述相关搜索词在各种相关搜索词挖掘方法中对应的分质量参数;
对基于多种相关搜索词挖掘方法得到的相关搜索词及所述相关搜索词在各种相关搜索词挖掘方法中对应的分质量参数进行第一融合处理,得到所述相关搜索词及所述相关搜索词在多种相关搜索词挖掘方法中对应的分质量参数;
通过分析日志得到所述相关搜索词对应的相关特征;
对所述相关搜索词及所述相关搜索词在多种相关搜索词挖掘方法中对应的分质量参数、及所述相关搜索词对应的相关特征进行第二融合处理,得到所述相关搜索词与分质量参数和相关特征之间的映射关系,并将所述映射关系记录至相关列表。
优选地,所述相关搜索词的相关特征包括所述相关搜索词的点击率,所述相关搜索词对应的分质量参数包括:所述相关搜索词在多种相关搜索词挖掘方法中对应的分质量参数,则所述依据所述相关列表中记录的相关搜索词及所述相关搜索词对应的分质量参数和相关特征,确定所述相关搜索词的总质量参数的步骤,包括:
依据所述相关搜索词的点击率与点击权重的乘积确定点击参数;
对所述相关搜索词在多种相关搜索词挖掘方法中对应的分质量参数进行第一加权处理,得到相应的挖掘方法参数;
对所述点击参数和所述挖掘方法参数进行第二加权处理,得到所述相关搜索词的总质量参数。
优选地,所述相关搜索词的点击率为基于日志统计得到相关搜索词的被点击次数与被展现次数的比值。
优选地,所述方法还包括:
依据用户的点击记录在所述多种相关搜索词挖掘方法中的分布信息对所述第一加权处理进行调整。
优选地,所述相关搜索词挖掘方法包括基于会话的方法和/或基于点击相关的方法。
优选地,在所述相关搜索词挖掘方法为基于会话的方法时,所述分质量参数为所述搜索词到所述相关搜索词的转移概率;
在所述相关搜索词挖掘方法为基于点击相关的方法时,所述分质量参数为所述搜索词与所述相关搜索词之间的相关度。
优选地,所述方法还包括:
依据所述相关搜索词、相关搜索词对应的分质量参数以及相关特征更新所述索引表。
依据本发明的另一个方面,提供了一种相关搜索装置,包括:
查询模块,用于依据用户输入的搜索词查询索引表,以得到与所述搜索词对应的相关列表;其中,所述索引表中存储有搜索词与相关列表之间的映射关系,所述相关列表中记录有基于多种相关搜索词挖掘方法得到的相关搜索词与对应的分质量参数、以及基于日志统计得到的所述相关搜索词的相关特征之间的映射关系;
确定模块,用于依据所述相关列表中记录的相关搜索词及所述相关搜索词对应的分质量参数和相关特征,确定所述相关搜索词的总质量参数;及
展现模块,用于对总质量参数最高的若干个相关搜索词进行展现。
优选地,所述装置还包括:用于生成所述相关列表的生成模块;
其中,所述生成模块包括:
挖掘子模块,用于采用多种相关搜索词挖掘方法挖掘得到搜索词对应的相关搜索词及所述相关搜索词在各种相关搜索词挖掘方法中对应的分质量参数;
第一融合子模块,用于对基于多种相关搜索词挖掘方法得到的相关搜索词及所述相关搜索词在各种相关搜索词挖掘方法中对应的分质量参数进行第一融合处理,得到所述相关搜索词及所述相关搜索词在多种相关搜索词挖掘方法中对应的分质量参数;
特征提取子模块,用于通过分析日志得到所述相关搜索词对应的相关特征;及
第二融合子模块,用于对所述相关搜索词及所述相关搜索词在多种相关搜索词挖掘方法中对应的分质量参数、及所述相关搜索词对应的相关特征进行第二融合处理,得到所述相关搜索词与分质量参数和相关特征之间的映射关系,并将所述映射关系记录至相关列表。
优选地,所述相关搜索词的相关特征包括所述相关搜索词的点击率,所述相关搜索词对应的分质量参数包括:所述相关搜索词在多种相关搜索词挖掘方法中对应的分质量参数,则所述确定模块包括:
点击参数确定子模块,用于依据所述相关搜索词的点击率与点击权重的乘积确定点击参数;
挖掘方法参数确定子模块,用于对所述相关搜索词在多种相关搜索词挖掘方法中对应的分质量参数进行第一加权处理,得到相应的挖掘方法参数;
总质量参数确定子模块,用于对所述点击参数和所述挖掘方法参数进行第二加权处理,得到所述相关搜索词的总质量参数。
优选地,所述装置还包括:
加权调整模块,用于依据用户的点击记录在所述多种相关搜索词挖掘方法中的分布信息对所述第一加权处理进行调整。
优选地,所述装置还包括:
更新模块,用于依据所述相关搜索词、相关搜索词对应的分质量参数以及相关特征更新所述索引表。
与现有技术相比,本发明实施例包括以下优点:
本发明实施例的相关搜索方法融合多种相关搜索词挖掘方法提取相关搜索词,并依据搜索日志得到相关搜索词的相关特征,在相关搜索词对应挖掘方法的分质量参数与相关特征的共同作用下,确定相关搜索词的总质量参数,将总质量参数最高的若干个相关搜索词进行展现。由于相关搜索词为基于多种相关搜索词挖掘方法得到,因此可以提高相关搜索词的多样性和覆盖率;此外,由于分质量参数可以体现各种挖掘方法对相关搜索结果的影响,以及相关特征可以体现用户的搜索行为对相关搜索结果的影响,因此,通过分质量参数和相关特征确定的总质量参数可以综合反映各种挖掘方法以及用户搜索习惯等各方面因素对搜索结果的影响,从而提高相关搜索词的多样性及准确性,可以进一步提高搜索结果的覆盖率和准确率。
附图说明
图1示出了本发明的一种相关搜索方法实施例的步骤流程图;
图2示出了本发明的一种确定所述相关搜索词的总质量参数的步骤流程图;
图3示出了本发明的一种生成所述相关列表的步骤流程图;
图4示出了本发明的一种相关搜索系统的框架图;
图5示出了本发明的一种挖掘融合系统的工作流程示意图;
图6示出了本发明的一种相关搜索系统的工作流程示意图;及
图7示出了本发明的一种相关搜索装置的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例一
参照图1,示出了本发明的一种相关搜索方法实施例的步骤流程图,具体可以包括:
步骤101、依据用户输入的搜索词查询索引表,以得到与所述搜索词对应的相关列表;其中,所述索引表中存储有搜索词与相关列表之间的映射关系,所述相关列表中记录有基于多种相关搜索词挖掘方法得到的相关搜索词与对应的分质量参数、以及基于日志统计得到的所述相关搜索词的相关特征之间的映射关系;
具体地,索引表可以采用如下数据结构:key=用户搜索词,value=相关列表;其中,key为索引表的关键词,其对应用户输入的搜索词,value为用户搜索词对应的相关搜索词构成的列表结构。本发明实施例优选采用内存对索引表进行存储和管理,当然,在具体应用中也可以采用数据库仓库存储和管理索引表,本发明实施例对于存储和管理索引表的方法不做具体限制。参见表1,示出了本发明的一种索引表的具体示例。
表1
用户搜索词(key) 相关列表(value)
古剑奇谭 相关列表1
神雕侠侣 相关列表2
…… ……
在具体应用中,例如,当用户输入搜索词“古剑奇谭”后,根据该搜索词查询上述索引表表1,可以得到与该搜索词对应的相关列表1。相关列表1中存储有用户搜索词“古剑奇谭”对应相关搜索词对应的分质量参数以及相关特征,上述相关搜索词是依据多种相关搜索词挖掘方法提取得到的。参见表2,示出了本发明的一种相关列表1的具体示例。
表2
由于传统的相关搜索方法具有相关搜索词多样性较差或者覆盖率较低的缺点,本发明创造性地提出将多种相关搜索词挖掘方法融合,以提高相关搜索词的多样性和覆盖率。如表1中,相关搜索词“古剑奇谭花絮”可以为依据文本相关的挖掘方法提取得到,而相关搜索词“李易峰”可以为依据逻辑相关的挖掘方法提取得到,如此得到的相关列表1中包含了多种相关搜索词挖掘方法提取的相关搜索词,从而可以提高相关搜索词的多样性;而且相对于传统的相关搜索方法能够提供更多的相关搜索词,因此能够提高搜索得到相关搜索词相对于所有相关搜索词的比例,也即能够提高相关搜索词的覆盖率。
在本发明的一种应用示例中,假设融合了3种相关搜索词挖掘方法,则上述表2中,“分质量参数11”为相关搜索词“古剑奇谭花絮”在相关搜索词挖掘方法1中对应的分质量参数、“分质量参数12”为相关搜索词“古剑奇谭花絮”在相关搜索词挖掘方法2中对应的分质量参数、“分质量参数13”为相关搜索词“古剑奇谭花絮”在相关搜索词挖掘方法3中对应的分质量参数。
本发明实施例中,分质量参数可以用来衡量各种相关搜索词挖掘方法对搜索结果的影响,依据该分质量参数可以选择更加合适的相关搜索词挖掘方法进行,以提高分质量参数,从而得到更优的相关搜索结果。
另外,由于相关特征为依据日志统计得到,因此,相关特征可以反映用户平时的搜索行为,通过相关特征可以筛选出符合用户搜索行为的相关搜索词,从而使得相关搜索结果更加准确。
步骤102、依据所述相关列表中记录的相关搜索词及所述相关搜索词对应的分质量参数和相关特征,确定所述相关搜索词的总质量参数;
为了使得最终的相关搜索结果最符合用户的搜索需求,本发明实施例确定相关列表中各相关搜索词的总质量参数,该总质量参数能够综合体现多种相关搜索词挖掘方法对相关搜索结果的影响,以及用户的搜索行为对相关搜索结果的影响,从而使得相关搜索结果可以综合体现各种挖掘方法以及用户搜索习惯等各方面因素的影响,提高搜索结果的覆盖率和准确率。
步骤103、对总质量参数最高的若干个相关搜索词进行展现。
综上,本发明实施例的相关搜索方法融合多种相关搜索词挖掘方法提取相关搜索词,并依据搜索日志得到相关搜索词的相关特征,在相关搜索词对应挖掘方法的分质量参数与相关特征的共同作用下,确定相关搜索词的总质量参数,将总质量参数最高的若干个相关搜索词进行展现。由于相关搜索词为基于多种相关搜索词挖掘方法得到,因此可以提高相关搜索词的多样性和覆盖率;此外,由于分质量参数可以体现各种挖掘方法对相关搜索结果的影响,以及相关特征可以体现用户的搜索行为对相关搜索结果的影响,因此,通过分质量参数和相关特征确定的总质量参数可以综合反映各种挖掘方法以及用户搜索习惯等各方面因素对搜索结果的影响,从而提高相关搜索词的多样性及准确性,可以进一步提高搜索结果的覆盖率和准确率。
实施例二
本实施例的相关搜索方法在上述实施例一的基础上,进一步还可以包括如下可选技术方案。
所述相关搜索词的相关特征具体可以包括所述相关搜索词的点击率,所述相关搜索词对应的分质量参数具体可以包括:所述相关搜索词在多种相关搜索词挖掘方法中对应的分质量参数,则所述依据所述相关列表中记录的相关搜索词及所述相关搜索词对应的分质量参数和相关特征,确定所述相关搜索词的总质量参数,参见图2,示出了本发明的一种确定所述相关搜索词的总质量参数的步骤流程图,具体可以包括:
步骤201、依据所述相关搜索词的点击率与点击权重的乘积确定点击参数;
在本发明的一种优选实施例中,所述相关搜索词的点击率可以为基于日志统计得到相关搜索词的被点击次数与被展现次数的比值。
假设从日志中统计相关搜索词的被展现次数impression_count、被点击次数click_count,则点击率ctr可以通过下述公式确定:
ctr=click_count/impression_count (1)
设点击权重为α,α为正的加权系数,表示点击率ctr对相关搜索词总质量参数final_score的影响,如果相关搜索词的点击率ctr越大,则其final_score就越大,因此,为了向用户推荐点击率高的相关搜索词,所述点击参数可以表示为:α·ctr。
本实施例考虑了相关搜索词的点击率ctr,因此可以确保将点击率较高的、与搜索词更相关的相关搜索词推荐给用户,从而提高搜索结果的覆盖率和准确率。
在本发明的一种优选实施例中,所述方法还可以包括:
依据用户的点击记录在所述多种相关搜索词挖掘方法中的分布信息对所述第一加权处理进行调整。
具体地,α的取值范围可以设置为(0,1),优选的,通过实验经验可知,α可以取值0.2。
步骤202、对所述相关搜索词在多种相关搜索词挖掘方法中对应的分质量参数进行第一加权处理,得到相应的挖掘方法参数;
其中,βk为多种相关搜索词挖掘方法对应的权重参数,可以用来表示不同的相关搜索词挖掘方法对搜索结果的影响,通过自适应地调整权重参数βi:比如某种挖掘方法产生的相关搜索词对用户的作用较大,则可以为该挖掘方法设置较大的权重,以确保推荐给用户的相关搜索词来自用户点击较多的挖掘方法。
在具体应用中,可以设置βk的具体数值可以根据用户点击在各类挖掘方法中的分布进行动态调整。例如,统计所有用户的点击记录,假设80%的点击记录分布在挖掘方法A中,20%的点击记录分布在挖掘方法B中,那么可以设置β1=0.8,β2=0.2,当点击分布发生变化时,可以相应的调整各种挖掘方法对应的权重参数βk
步骤203、对所述点击参数和所述挖掘方法参数进行第二加权处理,得到所述相关搜索词的总质量参数。
具体地,可以通过下式确定相关搜索词的总质量参数final_score:
此外,也可以采用其他方法确定总质量参数final_score,例如
其中,α、βk为正的加权系数,并且本发明实施例对于确定总质量参数的具体方法不加以限制。
综上,本实施例考虑了相关搜索词的点击率ctr,可以确保将点击率较高的、与搜索词更相关的相关搜索词推荐给用户,从而提高搜索结果的覆盖率和准确率;另外,还可以通过自适应地调整权重参数,以确保推荐给用户的相关搜索词来自用户点击较多的挖掘方法;从而使得相关搜索系统成为一个正向反馈系统:即使得用户点击的相关搜索词具有较高综合得分,为用户的二次搜索提供更加精准的相关搜索词。
实施例三
参照图3,示出了本发明的一种生成所述相关列表的步骤流程图,具体可以包括:
步骤301、采用多种相关搜索词挖掘方法挖掘得到搜索词对应的相关搜索词及所述相关搜索词在各种相关搜索词挖掘方法中对应的分质量参数;
在本发明的一种优选实施例中,可以采用基于会话的方法和基于点击相关的方法从搜索日志中提取各类相关搜索词。为了便于说明,本发明实施例中以基于会话的方法和基于点击相关的方法为例描述相关搜索的过程,本领域技术人员应该知悉,在实际应用中,可以根据实际需要选择合适的相关搜索词挖掘方法,本发明实施例对采用何种相关搜索词挖掘方法不加以限制。
其中,基于会话的方法的基本原理为:用户连续的两次搜索之间必然存在一定关联(相关);例如用户搜索了“古剑奇谭”之后还可能继续搜索“古剑奇谭花絮”,也可能会继续搜索“李易峰”。因此基于搜索日志进行大量的统计,可以计算出用户搜索“古剑奇谭”之后继续搜索其他关键词的概率(定义为一步转移概率)。
基于点击相关的方法的基本原理是:如果两个搜索词之间存在某种关联(文本相关或者内容相关),那么这两个搜索词的搜索结果列表里可能包含相同的URL(UniformResource Locator,统一资源定位符),用户点击这些URL会产生点击日志。因此,可以通过分析两个搜索词下的点击记录是否包含相同URL判断两个搜索词是否相关,并且可以进一步计算两个搜索词之间的相关度。
在本发明的一种应用示例中,针对搜索词“古剑奇谭”,选取了基于会话和基于点击相关这两种相关搜索词挖掘方法从搜索日志中提取相关搜索词,参照表3,示出了本发明的一种依据基于会话的方法从搜索日志中提取相关搜索词构成的相关列表1。
表3
相关搜索词 分质量参数
古剑奇谭花絮 0.3
古剑奇谭穿帮 0.2
李易峰 0.1
…… ……
从表3中可以看出,相关搜索词“古剑奇谭花絮”在基于会话的方法中的分质量参数为0.3;相关搜索词“李易峰”在基于会话的方法中的分质量参数为0.1。
参照表4,示出了本发明的一种依据基于点击相关的方法从搜索日志中提取相关搜索词构成的相关列表2。
表4
相关搜索词 分质量参数
李易峰 0.3
古剑奇谭花絮 0.2
杨幂 0.1
…… ……
从表4中可以看出,相关搜索词“古剑奇谭花絮”在基于点击相关的方法中的分质量参数为0.2;相关搜索词“李易峰”在基于点击相关的方法中的分质量参数为0.3。
步骤302、对基于多种相关搜索词挖掘方法得到的相关搜索词及所述相关搜索词在各种相关搜索词挖掘方法中对应的分质量参数进行第一融合处理,得到所述相关搜索词及所述相关搜索词在多种相关搜索词挖掘方法中对应的分质量参数;
在实际应用中,对于基于会话的方法,分质量参数可以定义为用户搜索词到相关搜索词的转移概率;对于基于点击相关的方法,分质量参数可以定义为用户搜索词与相关搜索词之间的相关度。
第一融合处理,即将基于多种相关搜索词挖掘方法得到的相关搜索词依据相关搜索词在各种相关搜索词挖掘方法中对应的分质量参数,合并为一个列表,该列表中包含多个相关搜索词以及相关搜索词的分质量参数。
具体地,合并表3和表4,并保留对应的相关搜索词的分质量参数,可以得到表5;
表5
从表5中可以看出,相关搜索词“李易峰”在第一种挖掘方法(基于会话的方法)中的分质量参数为0.1,在第二种挖掘方法(基于点击相关的方法)中的分质量参数为0.3。
步骤303、通过分析日志得到所述相关搜索词对应的相关特征;
具体地,可以从日志中统计相关搜索词的被展现次数impression_count、被点击次数click_count、以及根据被展现次数和被点击次数计算得到的点击率ctr,构成相关搜索词对应的相关特征。
本领域技术人员应该知悉,本发明实施例中以相关搜索词的被展现次数、被点击次数、以及点击率作为相关搜索词的相关特征,在具体应用中,可以根据实际情况选取其它特征作为相关搜索词的相关特征,本发明对相关特征的选取不加以限制。
步骤304、对所述相关搜索词及所述相关搜索词在多种相关搜索词挖掘方法中对应的分质量参数、及所述相关搜索词对应的相关特征进行第二融合处理,得到所述相关搜索词与分质量参数和相关特征之间的映射关系,并将所述映射关系记录至相关列表。
其中,第二融合,即在第一融合后的列表中进一步融合相关搜索词的相关特征。具体地,融合相关搜索词的相关特征后可以生成表6。
表6
在具体应用中,生成所述相关列表之后还可以包括如下步骤:生成索引表。具体地,索引表可以采用如下数据结构:key=用户搜索词,value=相关列表;其中,key为索引表的关键词,其对应用户输入的搜索词,value为用户搜索词对应的相关搜索词构成的列表结构。
在本发明的一种优选实施例中,所述方法还可以包括:
依据所述相关搜索词、相关搜索词对应的分质量参数以及相关特征更新所述索引表。
本发明实施例描述的索引更新可以为全量更新,即定期生成上述索引表,并全量替换线上的索引表。在具体应用中,本发明对于索引表的更新方法不加以限制。
实施例四
本发明实施例提供的一种相关搜索系统具体可以包括线下的挖掘融合系统和线上的相关搜索系统两部分;其中,挖掘融合系统完成相关搜索词的挖掘、融合以及索引表的更新工作;相关搜索系统则可以依据索引表对用户输入的搜索词进行相关搜索。参照图4,示出了本发明的一种相关搜索系统的框架图。
其中,挖掘融合系统具体可以包括相关搜索词挖掘模块410、数据融合模块420以及索引更新模块430。
具体地,相关搜索词挖掘模块410可以用于依据多种相关搜索词挖掘方法从搜索日志中提取各类相关搜索词,相关搜索词挖掘方法可以包括基于会话的方法、基于点击相关的方法、基于文本相关的方法等已知的任何相关搜索词挖掘方法。
数据融合模块420可以用于将相关搜索词挖掘模块提取出的各类相关搜索词融合构成相关列表;以及生成索引表。
索引更新模块430可以用于更新索引表。
参照图5,示出了本发明的一种挖掘融合系统的工作流程示意图,具体可以包括:
步骤501、基于多种相关搜索词挖掘方法从搜索日志中提取相关搜索词;
步骤502、将提取的各类相关搜索词融合构成相关列表,并保存相关搜索词的相关特征数据,以及生成索引表;
步骤503、定期更新索引表。
相关搜索系统具体可以包括索引表440、查询重写模块450和推荐模块460。
具体地,索引表440为挖掘融合系统生成并定期进行更新。
查询重写模块450可以用于对用户输入的搜索词进行纠错、繁简体转换、大小写转换、以及去除标点符号等操作,该过程可以称为归一化搜索词。
推荐模块460可以用于将归一化的搜索词作为关键词key查询索引表,得到相关列表;然后,基于相关列表中各相关搜索词的相关特征和分质量参数计算各相关搜索词对应的总质量参数final_score;最后,将final_score最高的n(n>0)个相关搜索词展现给用户。
参照图6,示出了本发明的一种相关搜索系统的工作流程示意图,具体可以包括:
步骤601、接收用户输入的搜索词;
步骤602、对用户输入的搜索词进行纠错、繁简体转换、大小写转换、以及去除标点符号等归一化操作;
步骤603、查询索引表,计算相关搜索词的总质量参数,将总质量参数最高的n个相关搜索词展现给用户;
其中,步骤603具体可以包括如下子步骤:
步骤B1、以归一化后的搜索词作为key查询索引表,获取相关列表;
步骤B2、依据相关列表中各相关搜索词的相关特征和分质量参数计算各相关搜索词的总质量参数;
步骤B3、将总质量参数最高的n个相关搜索词展现给用户。
步骤604、在前端页面展现所述n个相关搜索词。
装置实施例
参照图7,示出了本发明一种相关搜索装置的结构框图,具体可以包括:
查询模块710,用于依据用户输入的搜索词查询索引表,以得到与所述搜索词对应的相关列表;其中,所述索引表中存储有搜索词与相关列表之间的映射关系,所述相关列表中记录有基于多种相关搜索词挖掘方法得到的相关搜索词与对应的分质量参数、以及基于日志统计得到的所述相关搜索词的相关特征之间的映射关系;
确定模块720,用于依据所述相关列表中记录的相关搜索词及所述相关搜索词对应的分质量参数和相关特征,确定所述相关搜索词的总质量参数;及
展现模块730,用于对总质量参数最高的若干个相关搜索词进行展现。
在本发明的一种优选实施例中,所述装置还可以包括:用于生成所述相关列表的生成模块;
其中,所述生成模块可以包括:
挖掘子模块,用于采用多种相关搜索词挖掘方法挖掘得到搜索词对应的相关搜索词及所述相关搜索词在各种相关搜索词挖掘方法中对应的分质量参数;
第一融合子模块,用于对基于多种相关搜索词挖掘方法得到的相关搜索词及所述相关搜索词在各种相关搜索词挖掘方法中对应的分质量参数进行第一融合处理,得到所述相关搜索词及所述相关搜索词在多种相关搜索词挖掘方法中对应的分质量参数;
特征提取子模块,用于通过分析日志得到所述相关搜索词对应的相关特征;
第二融合子模块,用于对所述相关搜索词及所述相关搜索词在多种相关搜索词挖掘方法中对应的分质量参数、及所述相关搜索词对应的相关特征进行第二融合处理,得到所述相关搜索词与分质量参数和相关特征之间的映射关系,并将所述映射关系记录至相关列表。
在本发明的另一种优选实施例中,所述相关搜索词的相关特征包括所述相关搜索词的点击率,所述相关搜索词对应的分质量参数包括:所述相关搜索词在多种相关搜索词挖掘方法中对应的分质量参数,则所述确定模块720具体可以包括:
点击参数确定子模块,用于依据所述相关搜索词的点击率与点击权重的乘积确定点击参数;
挖掘方法参数确定子模块,用于对所述相关搜索词在多种相关搜索词挖掘方法中对应的分质量参数进行第一加权处理,得到相应的挖掘方法参数;
总质量参数确定子模块,用于对所述点击参数和所述挖掘方法参数进行第二加权处理,得到所述相关搜索词的总质量参数。
在本发明的又一种优选实施例中,所述装置还可以包括:
加权调整模块,用于依据用户的点击记录在所述多种相关搜索词挖掘方法中的分布信息对所述第一加权处理进行调整。
在本发明的再一种优选实施例中,所述装置还可以包括:
更新模块,用于依据所述相关搜索词、相关搜索词对应的分质量参数以及相关特征更新所述索引表。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种相关搜索方法和装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (13)

1.一种相关搜索方法,其特征在于,所述方法包括:
依据用户输入的搜索词查询索引表,以得到与所述搜索词对应的相关列表;其中,所述索引表中存储有搜索词与相关列表之间的映射关系,所述相关列表中记录有基于多种相关搜索词挖掘方法得到的相关搜索词与对应的分质量参数、以及基于日志统计得到的所述相关搜索词的相关特征之间的映射关系;其中,所述相关搜索词挖掘方法包括基于会话的方法,则所述分质量参数为所述搜索词到所述相关搜索词的转移概率;
依据所述相关列表中记录的相关搜索词及所述相关搜索词对应的分质量参数和相关特征,确定所述相关搜索词的总质量参数;其中,所述相关特征包括所述相关搜索词的点击率;
对总质量参数最高的若干个相关搜索词进行展现。
2.如权利要求1所述的方法,其特征在于,通过如下步骤生成所述相关列表:
采用多种相关搜索词挖掘方法挖掘得到搜索词对应的相关搜索词及所述相关搜索词在各种相关搜索词挖掘方法中对应的分质量参数;
对基于多种相关搜索词挖掘方法得到的相关搜索词及所述相关搜索词在各种相关搜索词挖掘方法中对应的分质量参数进行第一融合处理,得到所述相关搜索词及所述相关搜索词在多种相关搜索词挖掘方法中对应的分质量参数;
通过分析日志得到所述相关搜索词对应的相关特征;
对所述相关搜索词及所述相关搜索词在多种相关搜索词挖掘方法中对应的分质量参数、及所述相关搜索词对应的相关特征进行第二融合处理,得到所述相关搜索词与分质量参数和相关特征之间的映射关系,并将所述映射关系记录至相关列表。
3.如权利要求1所述的方法,其特征在于,所述相关搜索词对应的分质量参数包括:所述相关搜索词在多种相关搜索词挖掘方法中对应的分质量参数,则所述依据所述相关列表中记录的相关搜索词及所述相关搜索词对应的分质量参数和相关特征,确定所述相关搜索词的总质量参数的步骤,包括:
依据所述相关搜索词的点击率与点击权重的乘积确定点击参数;
对所述相关搜索词在多种相关搜索词挖掘方法中对应的分质量参数进行第一加权处理,得到相应的挖掘方法参数;
对所述点击参数和所述挖掘方法参数进行第二加权处理,得到所述相关搜索词的总质量参数。
4.如权利要求3所述的方法,其特征在于,所述相关搜索词的点击率为基于日志统计得到相关搜索词的被点击次数与被展现次数的比值。
5.如权利要求3所述的方法,其特征在于,所述方法还包括:
依据用户的点击记录在所述多种相关搜索词挖掘方法中的分布信息对所述第一加权处理进行调整。
6.如权利要求1所述的方法,其特征在于,所述相关搜索词挖掘方法还包括基于点击相关的方法。
7.如权利要求6所述的方法,其特征在于,在所述相关搜索词挖掘方法为基于点击相关的方法时,所述分质量参数为所述搜索词与所述相关搜索词之间的相关度。
8.如权利要求1所述的方法,其特征在于,所述方法还包括:
依据所述相关搜索词、相关搜索词对应的分质量参数以及相关特征更新所述索引表。
9.一种相关搜索装置,其特征在于,所述装置包括:
查询模块,用于依据用户输入的搜索词查询索引表,以得到与所述搜索词对应的相关列表;其中,所述索引表中存储有搜索词与相关列表之间的映射关系,所述相关列表中记录有基于多种相关搜索词挖掘方法得到的相关搜索词与对应的分质量参数、以及基于日志统计得到的所述相关搜索词的相关特征之间的映射关系;其中,所述相关搜索词挖掘方法包括基于会话的方法,则所述分质量参数为所述搜索词到所述相关搜索词的转移概率;
确定模块,用于依据所述相关列表中记录的相关搜索词及所述相关搜索词对应的分质量参数和相关特征,确定所述相关搜索词的总质量参数;其中,所述相关特征包括所述相关搜索词的点击率;
展现模块,用于对总质量参数最高的若干个相关搜索词进行展现。
10.如权利要求9所述的装置,其特征在于,所述装置还包括:用于生成所述相关列表的生成模块;
其中,所述生成模块包括:
挖掘子模块,用于采用多种相关搜索词挖掘方法挖掘得到搜索词对应的相关搜索词及所述相关搜索词在各种相关搜索词挖掘方法中对应的分质量参数;
第一融合子模块,用于对基于多种相关搜索词挖掘方法得到的相关搜索词及所述相关搜索词在各种相关搜索词挖掘方法中对应的分质量参数进行第一融合处理,得到所述相关搜索词及所述相关搜索词在多种相关搜索词挖掘方法中对应的分质量参数;
特征提取子模块,用于通过分析日志得到所述相关搜索词对应的相关特征;及
第二融合子模块,用于对所述相关搜索词及所述相关搜索词在多种相关搜索词挖掘方法中对应的分质量参数、及所述相关搜索词对应的相关特征进行第二融合处理,得到所述相关搜索词与分质量参数和相关特征之间的映射关系,并将所述映射关系记录至相关列表。
11.如权利要求9所述的装置,其特征在于,所述相关搜索词对应的分质量参数包括:所述相关搜索词在多种相关搜索词挖掘方法中对应的分质量参数,则所述确定模块包括:
点击参数确定子模块,用于依据所述相关搜索词的点击率与点击权重的乘积确定点击参数;
挖掘方法参数确定子模块,用于对所述相关搜索词在多种相关搜索词挖掘方法中对应的分质量参数进行第一加权处理,得到相应的挖掘方法参数;
总质量参数确定子模块,用于对所述点击参数和所述挖掘方法参数进行第二加权处理,得到所述相关搜索词的总质量参数。
12.如权利要求11所述的装置,其特征在于,所述装置还包括:
加权调整模块,用于依据用户的点击记录在所述多种相关搜索词挖掘方法中的分布信息对所述第一加权处理进行调整。
13.如权利要求9所述的装置,其特征在于,所述装置还包括:
更新模块,用于依据所述相关搜索词、相关搜索词对应的分质量参数以及相关特征更新所述索引表。
CN201510092270.4A 2015-02-28 2015-02-28 一种相关搜索方法和装置 Active CN104715022B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510092270.4A CN104715022B (zh) 2015-02-28 2015-02-28 一种相关搜索方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510092270.4A CN104715022B (zh) 2015-02-28 2015-02-28 一种相关搜索方法和装置

Publications (2)

Publication Number Publication Date
CN104715022A CN104715022A (zh) 2015-06-17
CN104715022B true CN104715022B (zh) 2018-07-31

Family

ID=53414349

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510092270.4A Active CN104715022B (zh) 2015-02-28 2015-02-28 一种相关搜索方法和装置

Country Status (1)

Country Link
CN (1) CN104715022B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105224959B (zh) * 2015-11-02 2019-03-26 北京奇艺世纪科技有限公司 排序模型的训练方法和装置
CN106933912B (zh) * 2015-12-31 2020-07-03 北京国双科技有限公司 关键词的获取方法和装置
CN105956148A (zh) * 2016-05-12 2016-09-21 北京奇艺世纪科技有限公司 资源信息的推荐方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101807183A (zh) * 2009-02-18 2010-08-18 财团法人资讯工业策进会 关键词汇实时扩展方法、系统及其计算机可擦写记录媒体
CN103365904A (zh) * 2012-04-05 2013-10-23 阿里巴巴集团控股有限公司 一种广告信息搜索方法和系统
CN103577416A (zh) * 2012-07-20 2014-02-12 阿里巴巴集团控股有限公司 扩展查询方法及系统
CN103886094A (zh) * 2014-04-03 2014-06-25 江苏物联网研究发展中心 电子商务搜索引擎纠错扩展方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101807183A (zh) * 2009-02-18 2010-08-18 财团法人资讯工业策进会 关键词汇实时扩展方法、系统及其计算机可擦写记录媒体
CN103365904A (zh) * 2012-04-05 2013-10-23 阿里巴巴集团控股有限公司 一种广告信息搜索方法和系统
CN103577416A (zh) * 2012-07-20 2014-02-12 阿里巴巴集团控股有限公司 扩展查询方法及系统
CN103886094A (zh) * 2014-04-03 2014-06-25 江苏物联网研究发展中心 电子商务搜索引擎纠错扩展方法

Also Published As

Publication number Publication date
CN104715022A (zh) 2015-06-17

Similar Documents

Publication Publication Date Title
Strekalovsky On solving optimization problems with hidden nonconvex structures
US8180778B1 (en) Generating action trails from web history
CN105335519A (zh) 模型生成方法及装置、推荐方法及装置
Mitzenmacher et al. Efficient estimation for high similarities using odd sketches
JP4179341B2 (ja) 情報処理装置および方法、プログラム、並びに記録媒体
CN103902545B (zh) 一种类目路径识别方法及系统
US20180300296A1 (en) Document similarity analysis
CN107357812A (zh) 一种数据查询方法及装置
CN103425687A (zh) 一种基于关键词的检索方法和系统
CN104102658B (zh) 文本内容挖掘方法及装置
CN101408887A (zh) 推荐词条以指定本体空间
CN103136262A (zh) 信息检索方法及装置
Valkanas et al. Mining competitors from large unstructured datasets
CN104715022B (zh) 一种相关搜索方法和装置
CN102654881B (zh) 用于名称消岐聚类的装置和方法
CN103309960A (zh) 一种网络舆情事件多维信息提取的方法及装置
CN108475256A (zh) 从同现矩阵生成特征嵌入
CN104615631A (zh) 一种信息推荐的方法及装置
CN111241242B (zh) 目标内容的确定方法、装置、设备及计算机可读存储介质
CN106844550A (zh) 一种虚拟化平台操作推荐方法及装置
CN105930423A (zh) 多媒体相似度确定方法、装置以及多媒体推荐方法
CN104123321B (zh) 一种确定推荐图片的方法及装置
Thiyagarajan et al. Recommendation of web pages using weighted K-means clustering
CN106570196A (zh) 视频节目的搜索方法和装置
CN104461558B (zh) 一种基于协相关主题模型的面向软件修改的个性化任务推荐方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant