CN107885783B - 获取搜索词高相关分类的方法和装置 - Google Patents
获取搜索词高相关分类的方法和装置 Download PDFInfo
- Publication number
- CN107885783B CN107885783B CN201710962298.8A CN201710962298A CN107885783B CN 107885783 B CN107885783 B CN 107885783B CN 201710962298 A CN201710962298 A CN 201710962298A CN 107885783 B CN107885783 B CN 107885783B
- Authority
- CN
- China
- Prior art keywords
- search
- click
- words
- searching
- search terms
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种获取搜索词高相关分类的方法和装置,涉及互联网技术领域。该方法的一具体实施方式包括:获取搜索会话数据,所述搜索会话数据包括搜索一个搜索词之后对召回结果进行的点击操作;根据所述点击操作提取点击特征,并计算所述点击特征的点击特征值;根据所述点击特征值获取所述搜索词的高相关分类。该实施方式能够根据搜索会话数据中的对召回结果进行的点击操作数据,获取用户在搜索过程中的行为特征,进而对搜索词进行高相关分类挖掘,解决了通过文本的特征很难对搜索词进行分类的问题,提高了搜索词的高相关分类的准确性。
Description
技术领域
本发明涉及互联网技术领域,尤其涉及一种获取搜索词高相关分类的方法和装置。
背景技术
随着科技的发展,互联网搜索已经成为大部分用户的选择。搜索词高相关分类用于定位搜索词的分类,实现搜索结果的精准召回。在从海量的搜索召回结果中快速定位到用户心仪结果的过程中,挖掘搜索词的高相关分类对于理解用户需求是非常重要的;它可以为本次搜索提供可靠依据,也能为召回结果的排序模型、相关性模型和理解搜索词意图提供基础的数据支撑。除此之外,在电商领域中搜索词的高相关分类还能反应用户的购物类目倾向。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
1、现有技术是根据文本特征通过分析大量的网页信息,使用机器学习算法对搜索词进行分类,对于网页包含的信息不太丰富的情况,只通过文本的特征很难对搜索词进行分类,容易造成分类结果不准确;
2、一些热门搜索词通过人工编辑分类,但是其覆盖率远远不满足用户的需求,且人工编辑不能及时发现并更新分类数据。
发明内容
有鉴于此,本发明实施例提供一种获取搜索词高相关分类的方法,能够根据搜索会话数据中的搜索一个搜索词之后对召回结果进行的点击操作数据,获取用户在搜索过程中的行为特征,进而对搜索词进行高相关分类挖掘,解决了通过文本的特征很难对搜索词进行分类的问题。
为实现上述目的,根据本发明实施例的一个方面,提供了一种获取搜索词高相关分类的方法,包括:获取搜索会话数据,所述搜索会话数据包括搜索一个搜索词之后对召回结果进行的点击操作;根据所述点击操作提取点击特征,并计算所述点击特征的点击特征值;根据所述点击特征值获取所述搜索词的高相关分类。
可选地,所述根据所述点击特征值获取所述搜索词的高相关分类,包括:根据所述点击特征值,确定所述搜索词的类目信息;所述类目信息包括:所述搜索词的类目及其权值;将根据各个点击特征值确定的类目信息进行加权求和,得到所述搜索词的综合类目信息;根据所述综合类目信息获取所述搜索词的高相关分类。
可选地,所述点击特征包括以下至少之一:所述搜索词在类目i下的点击率占比、所述搜索词在类目i下的点击次数占比、在类目i下所述搜索词作为品牌字段出现的次数;其中,
可选地,在所述根据所述点击操作提取点击特征之前,还包括:将所述搜索词的每个召回结果按照其被点击次数由高到低排序,对前总点击次数m%次的点击操作进行时间衰减处理:
clickcount表示经时间衰减处理后的t天内召回结果被点击次数,dt代表距离当前日期前x天的日期,x代表dt距离当前日期的天数,clickdt指dt对应的召回结果的被点击次数。
可选地,所述搜索会话数据包括:再搜索词语、改写词条件;所述再搜索词语为在搜索会话中搜索的不同于所述搜索词的词语;所述改写词条件包括:所述再搜索词语包括所述搜索词;所述方法还包括:将满足所述改写词条件的所述再搜索词语作为所述搜索词的改写词;将所述改写词的高相关分类补充至所述搜索词的高相关分类中。
可选地,所述搜索会话数据包括:再搜索词语、改写词条件;所述再搜索词语为在搜索会话中搜索的不同于所述搜索词的词语;所述改写词条件包括:所述再搜索词语包括所述搜索词;所述方法还包括:将满足所述改写词条件的所述再搜索词语作为所述搜索词的改写词;按照搜索会话数据中所述改写词出现的次数,从高到低对所述改写词排序,选出前M个改写词;将所述前M个改写词的高相关分类补充至所述搜索词的高相关分类中,M为正整数。
可选地,所述搜索会话数据包括:再搜索词语的搜索时刻、搜索词的搜索时刻、搜索会话的持续时间;所述方法还包括:将搜索会话切割成N个时间窗口,每个时间窗口的持续时间不超过预设时间,N为正整数;针对每个时间窗口内的所述再搜索词语、所述搜索词,所述改写词条件包括:所述再搜索词语的搜索时刻晚于搜索词第一时刻;其中,所述搜索词第一时刻为所述时间窗口内搜索时刻最早的所述搜索词的搜索时刻。
为实现上述目的,根据本发明实施例的另一方面,提供了一种获取搜索词高相关分类的装置,包括:数据获取模块、特征提取模块、高相关分类获取模块;其中,所述数据获取模块,用于获取搜索会话数据,所述搜索会话数据包括搜索一个搜索词之后对召回结果进行的点击操作数据;所述特征提取模块,用于根据所述点击操作数据提取点击特征,并计算所述点击特征的点击特征值;所述高相关分类获取模块,用于根据所述点击特征值获取所述搜索词的高相关分类。
可选地,所述高相关分类获取模块用于:根据所述点击特征值,确定所述搜索词的类目信息;所述类目信息包括:所述搜索词的类目及其权值;将根据各个点击特征值确定的类目信息进行加权求和,得到所述搜索词的综合类目信息;根据所述综合类目信息获取所述搜索词的高相关分类。
可选地,所述点击特征包括以下至少之一:所述搜索词在类目i下的点击率占比、所述搜索词在类目i下的点击次数占比、在类目i下所述搜索词作为品牌字段出现的次数;其中,
可选地,所述特征提取模块还用于:将所述搜索词的每个召回结果按照其被点击次数由高到低排序,对前总点击次数m%次的点击操作进行时间衰减处理:
clickcount表示经时间衰减处理后的t天内召回结果被点击次数,dt代表距离当前日期前x天的日期,x代表dt距离当前日期的天数,clickdt指dt对应的召回结果的被点击次数。
可选地,所述数据获取模块用于:获取再搜索词语、改写词条件;所述再搜索词语为在搜索会话中搜索的不同于所述搜索词的词语;所述改写词条件包括:所述再搜索词语包括所述搜索词;所述高相关分类获取模块用于:将满足所述改写词条件的所述再搜索词语作为所述搜索词的改写词;将所述改写词的高相关分类补充至所述搜索词的高相关分类中。
可选地,所述数据获取模块用于:获取再搜索词语、改写词条件;所述再搜索词语为在搜索会话中搜索的不同于所述搜索词的词语;所述改写词条件包括:所述再搜索词语包括所述搜索词;所述高相关分类获取模块用于:将满足所述改写词条件的所述再搜索词语作为所述搜索词的改写词;按照搜索会话数据中所述改写词出现的次数,从高到低对所述改写词排序,选出前M个改写词;将所述前M个改写词的高相关分类补充至所述搜索词的高相关分类中,M为正整数。
可选地,所述数据获取模块用于:获取再搜索词语的搜索时刻、搜索词的搜索时刻、搜索会话的持续时间;将搜索会话切割成N个时间窗口,每个时间窗口的持续时间不超过预设时间,N为正整数;针对每个时间窗口内的所述再搜索词语、所述搜索词,所述改写词条件包括:所述再搜索词语的搜索时刻晚于搜索词第一时刻;其中,所述搜索词第一时刻为所述时间窗口内搜索时刻最早的所述搜索词的搜索时刻。
为实现上述目的,根据本发明实施例的再一方面,提供了一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明实施例所提供的获取搜索词高相关分类的方法。
为实现上述目的,根据本发明实施例的再一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行本发明所提供的基于用户行为获取搜索词高相关分类的方法。
根据本发明的技术方案,上述发明中的一个实施例具有如下优点或有益效果:能够根据搜索会话数据中的对召回结果进行的点击操作数据,获取用户在搜索过程中的行为特征,进而对搜索词进行高相关分类挖掘,解决了通过文本的特征很难对搜索词进行分类的问题,提高了搜索词的高相关分类的准确性。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的获取搜索词高相关分类的方法的基本流程的示意图;
图2是根据本发明实施例的将搜索会话切割成N个时间窗口的示意图;
图3是根据本发明实施例的获取搜索词高相关分类的装置的基本组成部分的示意图;
图4是本发明实施例可以应用于其中的示例性系统架构图;
图5是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本发明实施例的获取搜索词高相关分类的方法的基本流程的示意图;
如图1所述,本发明实施例的获取搜索词高相关分类的方法,包括:
步骤S101:获取搜索会话数据,所述搜索会话数据包括搜索一个搜索词之后对召回结果进行的点击操作数据;
步骤S102:根据所述点击操作数据提取点击特征,并计算所述点击特征的点击特征值;
步骤S103:根据所述点击特征值获取所述搜索词的高相关分类。
所述搜索会话是指完整的互联网搜索过程,即从开始搜索到结束搜索的过程。
以在电商平台中搜索“苹果”为例:在搜索“苹果”之后,网页召回多个关于“苹果”的商品,统计这些商品的被点击情况,包括被点击的次数、被点击时间等。根据这些被点击情况计算点击特征A的特征值,将各类目按照特征值大小排序,选出前两个类目作为搜索词“苹果”的高相关分类,则“苹果”的高相关分类为:“手机”、“水果”。所述类目为对各种各样的搜索召回结果做出的归类。
本发明实施例能够根据搜索会话数据中的对召回结果进行的点击操作数据,获取用户在搜索过程中的行为特征,进而对搜索词进行高相关分类挖掘,解决了通过文本的特征很难对搜索词进行分类的问题,提高了搜索词的高相关分类的准确性。
本发明实施例中,所述根据所述点击特征值获取所述搜索词的高相关分类,包括:根据所述点击特征值,确定所述搜索词的类目信息;所述类目信息包括:所述搜索词的类目及其权值;将根据各个点击特征值确定的类目信息进行加权求和,得到所述搜索词的综合类目信息;根据所述综合类目信息获取所述搜索词的高相关分类。所述综合类目信息中包括所述类目及其综合权值;若所述综合权值大于设定阈值,则所述类目即为所述搜索词的高相关分类;或将所述综合权值由大到小进行排序,选前NT个类目作为所述搜索词的高相关分类,NT为正整数。
以在电商平台中搜索“苹果”为例:
通过点击特征A得到“苹果”的类目信息,包括:类目“手机”的权值为0.5,类目“水果”的权值为0.5,其他类目的权值皆为0;
通过点击特征B得到“苹果”的类目信息,包括:类目“手机”的权值为0.3,类目“笔记本”的权值为0.3,类目“台式机”的权值为0.3,其他类目的权值皆为0;
通过点击特征C得到“苹果”的类目信息,包括:类目“手机”的权值0.2,类目“台式机”的权值为0.2,类目“数据线”的权值为0.2,其他类目的权值皆为0。
将根据各个点击特征值确定的类目信息进行加权求和:
0.5×(手机+水果)+0.3×(手机+笔记本+台式机)+0.2×(手机+台式机+数据线)
=1.0×手机+0.5×水果+0.5×台式机+0.3×笔记本+0.2×数据线;
得到所述搜索词的综合类目信息,包括:“手机”的综合权值1.0,“水果”的综合权值0.5,“台式机”的综合权值0.5,“笔记本”的综合权值0.3,“数据线”的综合权值0.2;
选出综合权值大于0.3的类目作为搜索词“苹果”的高相关分类,即“苹果”的高相关分类为:手机、水果、台式机。
本发明实施例通过对根据每个点击特征得到的类目进行加权然后求和处理,可以达到根据不同点击特征的重要程度来获取搜索词高相关分类的目的,提高了获取搜索词高相关分类的准确度。
本发明实施例中,所述点击特征包括以下至少之一:所述搜索词在类目i下的点击率占比、所述搜索词在类目i下的点击次数占比、在类目i下所述搜索词作为品牌字段出现的次数;其中,
本发明实施例的点击特征与搜索词及其高相关分类的关联程度较高,通过以上点击特征获取的搜索词高相关分类更符合用户的搜索期望,使获取搜索词高相关分类的效果更好。
本发明实施例中,在所述根据所述点击操作提取点击特征之前,还包括对点击操作进行预处理:
将所述搜索词的每个召回结果按照其被点击次数由高到低排序,对前总点击次数m%次的点击操作进行时间衰减处理:
clickcount表示经时间衰减处理后的t天内召回结果被点击次数,dt代表距离当前日期前x天的日期,x代表dt距离当前日期的天数,clickdt指dt对应的召回结果的被点击次数。
以在电商平台中搜索“苹果”为例:例如4天内搜索“苹果”之后,一共点击了1000次召回商品,将被点击商品按照其点击次数从高到底排序,点击商品1的次数是450次,点击商品2的次数是300次,点击商品3的次数是100次,点击商品4的次数是50次,其余商品的总点击次数是100次。取1000次点击量的80%次的点击操作即800次的点击操作,这800次的点击操作取的是商品1的全部450次,商品2的全部300次,商品3中的50次。
要计算“苹果”在手机类目的点击次数占比这个特征值之前,需要对这800次的点击操作中属于“手机”的商品被点击次数和这800次点击操作进行时间衰减处理。
表1为搜索苹果之后所有召回商品的被点击总次数
日期dt | 8月1号 | 8月2号 | 8月3号 | 8月4号 | 8月5号(当前日期) |
click<sub>dt</sub> | 173 | 166 | 198 | 157 | 106 |
x | 4 | 3 | 2 | 1 | 0 |
根据表1中的数据对这800次点击操作进行时间衰减处理:
click′count表示经时间衰减处理后的4天内搜索苹果之后所有召回商品被点击总次数,dt代表距离当前日期前x天的日期,x代表dt那天距离当前日期的天数,click′dt指dt对应的搜索苹果之后所有召回商品被点击总次数。
本发明实施例取前总点击次数m%次的点击操作作为搜索词下面的有效点击,可以过滤掉统计数据中因少量随机点击而引入的杂质;对点击次数进行时间衰减处理可以保证计算数据的时效性。通过以上对点击操作的预处理可以提高获取搜索词高相关分类的准确度。
本发明实施例中,所述搜索会话数据包括:再搜索词语、改写词条件;所述再搜索词语为在搜索会话中搜索的不同于所述搜索词的词语;所述改写词条件包括:所述再搜索词语包括所述搜索词;所述方法还包括:将满足所述改写词条件的所述再搜索词语作为所述搜索词的改写词;将所述改写词的高相关分类补充至所述搜索词的高相关分类中。
在搜索过程中,如果用户搜索一个搜索词之后该搜索词下的召回结果不满足用户要求,用户会更改成语义相近的词语进行二次搜索至多次搜索,因此在搜索会话内的改写信息对判断搜索词的高相关分类是一个非常重要的数据源。本发明实施例基于搜索后的改写行为获得搜索词高相关分类,避免了人工编辑不能及时发现并更新分类数据的情况,还可以使搜索词的高相关分类更加丰富,提高搜索词高相关分类的多样性,满足用户的需求。
本发明实施例中,所述搜索会话数据包括:再搜索词语、改写词条件;所述再搜索词语为在搜索会话中搜索的不同于所述搜索词的词语;所述改写词条件包括:所述再搜索词语包括所述搜索词;所述方法还包括:将满足所述改写词条件的所述再搜索词语作为所述搜索词的改写词;按照搜索会话数据中所述改写词出现的次数,从高到低对所述改写词排序,选出前M个改写词;将所述前M个改写词的高相关分类补充至所述搜索词的高相关分类中,M为正整数。
本发明实施例在搜索会话中选出出现次数最多的前M个改写词,将所选出的改写词的高相关分类补充至所述搜索词的高相关分类中,这前M个改写词更符合搜索意图,满足用户的搜索需求。
本发明实施例中,所述搜索会话数据包括:再搜索词语的搜索时刻、搜索词的搜索时刻、搜索会话的持续时间;所述方法还包括:将搜索会话切割成N个时间窗口,每个时间窗口的持续时间不超过预设时间,N为正整数;针对每个时间窗口内的所述再搜索词语、所述搜索词,所述改写词条件包括:所述再搜索词语的搜索时刻晚于搜索词第一时刻;其中,所述搜索词第一时刻为所述时间窗口内搜索时刻最早的所述搜索词的搜索时刻。
图2是根据本发明实施例的将搜索会话切割成N个时间窗口的示意图。如图2所示,将搜索会话切割成N个时间窗口,每个时间窗口的持续时间不超过预设时间。针对每个时间窗口:将所述时间窗口内搜索过的所有输入词两两组合,所述输入词包括以下至少之一:所述搜索词、所述再搜索词语;然后选出所述搜索词与所述再搜索词语的两两组合,作为搜索词组合;将所述时间窗口内搜索时刻最早的所述搜索词的搜索时刻作为搜索词第一时刻,则搜索词组合中晚于所述搜索词第一时刻的,且包含所述搜索词的所述再搜索词语为所述搜索词的改写词。按照搜索会话数据中所述改写词出现的次数,从高到底对所述改写词排序,选出前M个改写词;将所述前M个改写词的高相关分类补充至所述搜索词的高相关分类中,N、M皆为正整数。搜索会话中搜索过的所有输入词的来源包含:用户主动输入的搜索词、点击下拉的搜索词。
以在电商平台中搜索“苹果”为例,下面是用户在一个搜索会话内的搜索情况,格式为(输入词,搜索时间):
用户1:(苹果,20170616 21:47:27),(笔记本,20170616 21:50:46),(苹果笔记本,20170616 21:51:59);
用户2:(苹果,20170616 17:38:21),(苹果红富士,2017061617:40:43);(烟台苹果,20170616 17:45:21)
用户3:(苹果,20170616 23:21:26),(手表,20170616 23:23:49),(苹果手表,20170616 23:24:51),(苹果,20170616 23:25:33);
用户4:(苹果,20170616 22:47:37),(苹果笔记本,2017061622:50:46),(苹果台式机,20170616 22:53:38),(苹果,2017061622:54:06),(苹果电脑,20170616 22:55:42),(一体机,2017061622:56:46)。
将搜索会话切割成N个时间窗口,每个时间窗口的持续时间不超过预设时间5分钟。
用户1的搜索会话有1个时间窗口,此时间窗口内的搜索过的输入词依次为“苹果”、“笔记本”、“苹果笔记本”,其中“笔记本”、“苹果笔记本”为再搜索词语。
用户2的搜索会话有2个时间窗口,其中用户2第一个时间窗口内的搜索过的输入词依次为“苹果”、“苹果红富士”,“苹果红富士”为再搜索词语;用户2第二时间窗口内的搜索过的输入词依次为“烟台苹果”,“烟台苹果”为再搜索词语。
用户3的搜索会话有1个时间窗口,此时间窗口内的搜索过的输入词依次为“苹果”、“手表”、“苹果手表”、“苹果”,其中“手表”、“苹果手表”为再搜索词语。
用户4的搜索会话有2个时间窗口,用户4第一个时间窗口内的搜索过的输入词依次为“苹果”、“苹果笔记本”,“苹果笔记本”为再搜索词语;用户4第二个时间窗口内的搜索过的输入词依次为“台式机”、“苹果”、“苹果电脑”、“一体机”,其中“台式机”、“苹果电脑”、“一体机”为再搜索词语。
在同一个时间窗口内的输入词具有一定的关联,分别将同一个时间窗口内的所有输入词两两组合:
用户1:(苹果,笔记本)、(苹果,苹果笔记本)、(笔记本,苹果笔记本);
用户2:(苹果,苹果红富士);
用户3:(苹果,手表)、(苹果,苹果手表)、(手表,苹果手表),(苹果,苹果);
用户4第一个时间窗口:(苹果,苹果笔记本);
用户4第二个时间窗口:(苹果,苹果电脑)、(苹果,一体机)、(苹果电脑,一体机)、(苹果台式机,苹果电脑)、(苹果,台式机)、(苹果台式机,一体机)。
其中,用户2的第二个时间窗口内的搜索过的输入词只有一个“烟台苹果”,所以无法两两组合。
针对搜索词“苹果”,在上述两两组合中,选出“苹果”与再搜索词语的两两组合,作为搜索词组合:
用户1的搜索组合为(苹果,笔记本)、(苹果,苹果笔记本);
用户2的搜索组合为(苹果,苹果红富士);
用户3的搜索组合为(苹果,手表)、(苹果,苹果手表);
用户4第一个时间窗口的搜索组合为(苹果,苹果笔记本)、用户4;用户4第二个时间窗口的搜索组合为(苹果,苹果电脑)、(苹果,一体机)、(苹果,苹果台式机)。
将搜索词组合中晚于所述搜索词时刻的且包含所述搜索词的所述再搜索词语为所述搜索词的改写词。其中,在用户2的第二个时间窗口内,搜索词第一时刻为2017061622:54:06,而“苹果台式机”的搜索时刻为20170616 22:53:38,早于搜索词时刻,所以“苹果台式机”不满足改写词的要求;“笔记本”、“手表”、“一体机”中不包含“苹果”也不满足改写词的要求。则搜索会话中搜索词“苹果”的改写词及其出现次数为:“苹果笔记本”2次、“苹果红富士”1次、“苹果手表”1次、“苹果电脑”1次。
选出出现次数最多的1个改写词:“苹果笔记本”;将“苹果笔记本”的高相关分类“电脑”,补充至“苹果”的高相关分类中。
本发明实施例选出的改写词更具有时效性,每个时间窗口内的改写词与搜索词的相关性更大,从而使搜索词的高相关分类更符合搜索意图,分类更加准确。
图3是根据本发明实施例的获取搜索词高相关分类的装置的基本组成部分的示意图;
如图3所示,本发明实施例提供了一种获取搜索词高相关分类的装置,包括:数据获取模块301、特征提取模块302、高相关分类获取模块303;其中,所述数据获取模块301,用于获取搜索会话数据,所述搜索会话数据包括搜索一个搜索词之后对召回结果进行的点击操作数据;所述特征提取模块302,用于根据所述点击操作数据提取点击特征,并计算所述点击特征的点击特征值;所述高相关分类获取模块303,用于根据所述点击特征值获取所述搜索词的高相关分类。
本发明实施例能够根据搜索会话数据中的对召回结果进行的点击操作数据,获取用户在搜索过程中的行为特征,进而对搜索词进行高相关分类挖掘,解决了通过文本的特征很难对搜索词进行分类的问题,提高了搜索词的高相关分类的准确性。
本实施例中,所述高相关分类获取模块303用于:根据所述点击特征值,确定所述搜索词的类目信息;所述类目信息包括:所述搜索词的类目及其权值;将根据各个点击特征值确定的类目信息进行加权求和,得到所述搜索词的综合类目信息;根据所述综合类目信息获取所述搜索词的高相关分类。所述综合类目信息中包括所述类目及其综合权值;若所述综合权值大于设定阈值,则所述类目即为所述搜索词的高相关分类;或将所述综合权值由大到小进行排序,选前NT个类目作为所述搜索词的高相关分类,NT为正整数。
本发明实施例通过对根据每个点击特征得到的类目进行加权然后求和处理,可以达到根据不同点击特征的重要程度来获取搜索词高相关分类的目的,提高了获取搜索词高相关分类的准确度。
本实施例中,所述点击特征包括以下至少之一:
所述搜索词在类目i下的点击率占比、所述搜索词在类目i下的点击次数占比、在类目i下所述搜索词作为品牌字段出现的次数;其中,
本发明实施例的点击特征与搜索词及其高相关分类的关联程度较高,通过以上点击特征获取的搜索词高相关分类更符合用户的搜索期望,使获取搜索词高相关分类的效果更好。
本发明实施例中,所述特征提取模块302还用于对所述点击操作进行预处理:将所述搜索词的每个召回结果按照其被点击次数由高到低排序,对前总点击次数m%次的点击操作进行时间衰减处理:
clickcount表示经时间衰减处理后的t天内召回结果被点击次数,dt代表距离当前日期前x天的日期,x代表dt距离当前日期的天数,clickdt指dt对应的召回结果的被点击次数。
本发明实施例在特征提取模块302中取前总点击次数m%次的点击操作作为搜索词下面的有效点击,可以过滤掉统计数据中因少量随机点击而引入的杂质;对点击次数进行时间衰减处理可以保证计算数据的时效性。通过以上预处理可以提高获取搜索词高相关分类的准确度。
本实施例中,所述数据获取模块301用于:获取再搜索词语、改写词条件;所述再搜索词语为在搜索会话中搜索的不同于所述搜索词的词语;所述改写词条件包括:所述再搜索词语包括所述搜索词;所述高相关分类获取模块303用于:将满足所述改写词条件的所述再搜索词语作为所述搜索词的改写词;将所述改写词的高相关分类补充至所述搜索词的高相关分类中。
本发明实施例基于搜索后的改写行为获得搜索词高相关分类,避免了人工编辑不能及时发现并更新分类数据的情况,还可以使搜索词的高相关分类更加丰富,提高搜索词高相关分类的多样性,满足用户的需求。
本发明实施例中,所述数据获取模块301用于:获取再搜索词语、改写词条件;所述再搜索词语为在搜索会话中搜索的不同于所述搜索词的词语;所述改写词条件包括:所述再搜索词语包括所述搜索词;所述高相关分类获取模块303用于:将满足所述改写词条件的所述再搜索词语作为所述搜索词的改写词;按照搜索会话数据中所述改写词出现的次数,从高到低对所述改写词排序,选出前M个改写词;将所述前M个改写词的高相关分类补充至所述搜索词的高相关分类中,M为正整数。
本发明实施例在搜索会话中选出出现次数最多的前M个改写词,将所选出的改写词的高相关分类补充至所述搜索词的高相关分类中,这前M个改写词更符合搜索意图,满足用户的搜索需求。
本发明实施例中,所述数据获取模块301用于:获取再搜索词语的搜索时刻、搜索词的搜索时刻、搜索会话的持续时间;将搜索会话切割成N个时间窗口,每个时间窗口的持续时间不超过预设时间,N为正整数;针对每个时间窗口内的所述再搜索词语、所述搜索词,所述改写词条件包括:所述再搜索词语的搜索时刻晚于搜索词第一时刻;其中,所述搜索词第一时刻为所述时间窗口内搜索时刻最早的所述搜索词的搜索时刻。
本发明实施例选出的改写词更具有时效性,每个时间窗口内的改写词与搜索词的相关性更大,从而使搜索词的高相关分类更符合搜索意图,分类更加准确。
图4示出了可以应用本发明实施例的获取搜索词高相关分类的方法或获取搜索词高相关分类的装置的示例性系统架构400。
如图4所示,系统架构400可以包括终端设备401、402、403,网络404和服务器405。网络404用以在终端设备401、402、403和服务器405之间提供通信链路的介质。网络404可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备401、402、403通过网络404与服务器405交互,以接收或发送消息等。终端设备401、402、403上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备401、402、403可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器405可以是提供各种服务的服务器,例如对用户利用终端设备401、402、403所浏览的购物类网站提供支持的后台管理服务器。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果反馈给终端设备。
需要说明的是,本发明实施例所提供的获取搜索词高相关分类的方法一般由服务器405执行,相应地,获取搜索词高相关分类的装置一般设置于服务器405中。
应该理解,图4中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
根据本发明的实施例,本发明还提供了一种电子设备和一种可读存储介质。
本发明的电子设备包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行本发明所提供的获取搜索词高相关分类的方法。
本发明的计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行本发明所提供的基于用户行为获取搜索词高相关分类的方法。
下面参考图5,其示出了适于用来实现本发明实施例的终端设备的计算机系统500的结构示意图。图5示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,计算机系统500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括:数据获取模块、特征提取模块、高相关分类获取模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,数据获取模块还可以被描述为“获取搜索会话数据的模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:步骤S101:获取搜索会话数据,所述搜索会话数据包括搜索一个搜索词之后对召回结果进行的点击操作数据;步骤S102:根据所述点击操作数据提取点击特征,并计算所述点击特征的点击特征值;步骤S103:根据所述点击特征值获取所述搜索词的高相关分类。
本发明实施例能够根据搜索会话数据中的对召回结果进行的点击操作数据,获取用户在搜索过程中的行为特征,进而对搜索词进行高相关分类挖掘,解决了通过文本的特征很难对搜索词进行分类的问题,提高了搜索词的高相关分类的准确性。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (10)
1.一种获取搜索词高相关分类的方法,其特征在于,包括:
获取搜索会话数据,所述搜索会话数据包括搜索一个搜索词之后对召回结果进行的点击操作数据;
根据所述点击操作数据提取点击特征,并计算所述点击特征的点击特征值;
根据所述点击特征值获取所述搜索词的高相关分类;
所述搜索会话数据包括:再搜索词语、改写词条件、再搜索词语的搜索时刻、搜索词的搜索时刻、搜索会话的持续时间;所述再搜索词语为在搜索会话中搜索的不同于所述搜索词的词语;
所述方法还包括:
将搜索会话切割成N个时间窗口,每个时间窗口的持续时间不超过预设时间,N为正整数;针对每个时间窗口内的所述再搜索词语、所述搜索词,所述改写词条件包括:所述再搜索词语包括所述搜索词,所述再搜索词语的搜索时刻晚于搜索词第一时刻;其中,所述搜索词第一时刻为所述时间窗口内搜索时刻最早的所述搜索词的搜索时刻;
将满足所述改写词条件的所述再搜索词语作为所述搜索词的改写词;将所述改写词的高相关分类补充至所述搜索词的高相关分类中;或者,按照搜索会话数据中所述改写词出现的次数,从高到低对所述改写词排序,选出前M个改写词,将所述前M个改写词的高相关分类补充至所述搜索词的高相关分类中,M为正整数。
2.根据权利要求1所述的方法,其特征在于,所述根据所述点击特征值获取所述搜索词的高相关分类,包括:
根据所述点击特征值,确定所述搜索词的类目信息;所述类目信息包括:所述搜索词的类目及其权值;
将根据各个点击特征值确定的类目信息进行加权求和,得到所述搜索词的综合类目信息;
根据所述综合类目信息获取所述搜索词的高相关分类。
5.一种获取搜索词高相关分类的装置,其特征在于,包括:数据获取模块、特征提取模块、高相关分类获取模块;
其中,
所述数据获取模块,用于获取搜索会话数据,所述搜索会话数据包括搜索一个搜索词之后对召回结果进行的点击操作数据;
所述特征提取模块,用于根据所述点击操作数据提取点击特征,并计算所述点击特征的点击特征值;
所述高相关分类获取模块,用于根据所述点击特征值获取所述搜索词的高相关分类;
所述数据获取模块还用于:获取再搜索词语、改写词条件、再搜索词语的搜索时刻、搜索词的搜索时刻、搜索会话的持续时间;所述再搜索词语为在搜索会话中搜索的不同于所述搜索词的词语;将搜索会话切割成N个时间窗口,每个时间窗口的持续时间不超过预设时间,N为正整数;针对每个时间窗口内的所述再搜索词语、所述搜索词,所述改写词条件包括:所述再搜索词语包括所述搜索词,所述再搜索词语的搜索时刻晚于搜索词第一时刻;其中,所述搜索词第一时刻为所述时间窗口内搜索时刻最早的所述搜索词的搜索时刻;
所述高相关分类获取模块还用于:将满足所述改写词条件的所述再搜索词语作为所述搜索词的改写词;将所述改写词的高相关分类补充至所述搜索词的高相关分类中;或者,按照搜索会话数据中所述改写词出现的次数,从高到低对所述改写词排序,选出前M个改写词,将所述前M个改写词的高相关分类补充至所述搜索词的高相关分类中,M为正整数。
6.根据权利要求5所述的装置,其特征在于,所述高相关分类获取模块用于:
根据所述点击特征值,确定所述搜索词的类目信息;所述类目信息包括:所述搜索词的类目及其权值;
将根据各个点击特征值确定的类目信息进行加权求和,得到所述搜索词的综合类目信息;
根据所述综合类目信息获取所述搜索词的高相关分类。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述至少一个处理器执行,使得所述一个或多个处理器实现如权利要求1-4中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-4中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710962298.8A CN107885783B (zh) | 2017-10-17 | 2017-10-17 | 获取搜索词高相关分类的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710962298.8A CN107885783B (zh) | 2017-10-17 | 2017-10-17 | 获取搜索词高相关分类的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107885783A CN107885783A (zh) | 2018-04-06 |
CN107885783B true CN107885783B (zh) | 2020-11-03 |
Family
ID=61781561
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710962298.8A Active CN107885783B (zh) | 2017-10-17 | 2017-10-17 | 获取搜索词高相关分类的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107885783B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109388693B (zh) * | 2018-09-13 | 2021-04-27 | 武汉斗鱼网络科技有限公司 | 一种确定分区意图的方法以及相关设备 |
CN109213848B (zh) * | 2018-11-23 | 2022-03-11 | 北京字节跳动网络技术有限公司 | 相关搜索词的确定方法、装置、存储介质及电子设备 |
CN109933714B (zh) * | 2019-03-18 | 2021-04-20 | 北京搜狗科技发展有限公司 | 一种词条权重的计算方法、搜索方法及相关装置 |
CN112749328B (zh) * | 2020-04-21 | 2024-01-05 | 腾讯科技(深圳)有限公司 | 搜索方法、装置和计算机设备 |
CN113254588B (zh) * | 2021-06-02 | 2023-08-22 | 竹间智能科技(上海)有限公司 | 一种数据搜索方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102289436A (zh) * | 2010-06-18 | 2011-12-21 | 阿里巴巴集团控股有限公司 | 确定搜索词权重值方法及装置、搜索结果生成方法及装置 |
CN102541857A (zh) * | 2010-12-08 | 2012-07-04 | 腾讯科技(深圳)有限公司 | 一种网页排序方法和装置 |
CN103838754A (zh) * | 2012-11-23 | 2014-06-04 | 腾讯科技(深圳)有限公司 | 信息搜索装置及方法 |
CN103970796A (zh) * | 2013-02-04 | 2014-08-06 | 深圳市世纪光速信息技术有限公司 | 查询偏好排序方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7603348B2 (en) * | 2007-01-26 | 2009-10-13 | Yahoo! Inc. | System for classifying a search query |
-
2017
- 2017-10-17 CN CN201710962298.8A patent/CN107885783B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102289436A (zh) * | 2010-06-18 | 2011-12-21 | 阿里巴巴集团控股有限公司 | 确定搜索词权重值方法及装置、搜索结果生成方法及装置 |
CN102541857A (zh) * | 2010-12-08 | 2012-07-04 | 腾讯科技(深圳)有限公司 | 一种网页排序方法和装置 |
CN103838754A (zh) * | 2012-11-23 | 2014-06-04 | 腾讯科技(深圳)有限公司 | 信息搜索装置及方法 |
CN103970796A (zh) * | 2013-02-04 | 2014-08-06 | 深圳市世纪光速信息技术有限公司 | 查询偏好排序方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107885783A (zh) | 2018-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107885783B (zh) | 获取搜索词高相关分类的方法和装置 | |
CN109460513B (zh) | 用于生成点击率预测模型的方法和装置 | |
CN107679211B (zh) | 用于推送信息的方法和装置 | |
CN111125574B (zh) | 用于生成信息的方法和装置 | |
CN107679217B (zh) | 基于数据挖掘的关联内容提取方法和装置 | |
CN107679119B (zh) | 生成品牌衍生词的方法和装置 | |
CN107908662B (zh) | 搜索系统的实现方法和实现装置 | |
CN110020162B (zh) | 用户识别方法和装置 | |
CN107609192A (zh) | 一种搜索引擎的补充搜索方法和装置 | |
CN112182370A (zh) | 物品类目信息推送方法、装置、电子设备和介质 | |
CN111435406A (zh) | 一种纠正数据库语句拼写错误的方法和装置 | |
CN112116426A (zh) | 一种推送物品信息的方法和装置 | |
CN110750707A (zh) | 关键词推荐方法、装置和电子设备 | |
CN108985805B (zh) | 一种选择性执行推送任务的方法和装置 | |
CN113190558A (zh) | 一种数据加工方法和系统 | |
CN110852078A (zh) | 生成标题的方法和装置 | |
CN110766488A (zh) | 一种自动确定主题场景的方法和装置 | |
CN114036391A (zh) | 数据推送方法、装置、电子设备和存储介质 | |
CN114996574A (zh) | 画像标签的构建方法、装置及电子设备 | |
CN113722593A (zh) | 事件数据处理方法、装置、电子设备和介质 | |
CN114445179A (zh) | 业务推荐方法、装置、电子设备和计算机可读介质 | |
CN107886350B (zh) | 分析数据的方法和装置 | |
CN112184370A (zh) | 一种推送产品的方法和装置 | |
CN112016017A (zh) | 确定特征数据的方法和装置 | |
CN113360765B (zh) | 事件信息的处理方法、装置、电子设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |