CN106570046A - 一种基于用户操作行为推荐相关搜索数据的方法及装置 - Google Patents

一种基于用户操作行为推荐相关搜索数据的方法及装置 Download PDF

Info

Publication number
CN106570046A
CN106570046A CN201610118113.0A CN201610118113A CN106570046A CN 106570046 A CN106570046 A CN 106570046A CN 201610118113 A CN201610118113 A CN 201610118113A CN 106570046 A CN106570046 A CN 106570046A
Authority
CN
China
Prior art keywords
data
search data
search
peration
relevant search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610118113.0A
Other languages
English (en)
Inventor
邹敏
魏博
李力行
魏强
齐志兵
尹玉宗
姚键
顾思斌
潘柏宇
王冀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
1Verge Internet Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 1Verge Internet Technology Beijing Co Ltd filed Critical 1Verge Internet Technology Beijing Co Ltd
Priority to CN201610118113.0A priority Critical patent/CN106570046A/zh
Publication of CN106570046A publication Critical patent/CN106570046A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Abstract

本发明公开了一种基于用户操作行为推荐相关搜索数据的方法,包括:根据搜索数据,获取用户操作行为所对应的操作数据;根据所述搜索数据与所述操作数据生成二者之间的关联概率图;根据所述关联概率图生成所述搜索数据和所述操作数据的语义编码;根据所述关联概率图和所述语义编码推荐关于所述搜索数据的相关搜索数据;使得搜索数据和操作数据之间具有较强的语义性,从而能够搜索出与搜索数据关联更加密切的相关搜索数据内容。本发明还提供一种基于用户操作行为的相关搜索装置。

Description

一种基于用户操作行为推荐相关搜索数据的方法及装置
技术领域
本发明涉及搜索引擎技术领域,具体涉及一种基于用户操作行为推荐相关搜索数据的方法以及装置。
背景技术
随着互联网发展,信息的快速膨胀,人们对搜索引擎的依赖越来越大。当由于选择的搜索词不恰当,而导致搜索结果佳时,可以通过参考其他相关搜索的信息,获得启发。
相关搜索是与当前搜索词具有相似搜索需求的用户所选择的搜索词,根据这些搜索词被搜索的热门程度以及与当前所选择的搜索词之间的相关性,将该些相关性较高的搜索词显示于搜索引擎的搜索结果页面上。通常情况下,与当前搜索词相关的相关搜索内容排布在搜索结果页面的左侧和下方,点击相关搜索词可以直接获得该相关搜索词的搜索结果。
现有技术中的相关搜索的计算方法通常是通过对大量网页文本的分析,找出经常共同出现在同一网页中的两个词,将它们作为彼此的相关搜索结果推出。该种相关搜索的计算方法存在如下问题:
1、相关搜索的结果,对搜索文本的相关性要求较高,因此使相关搜索仅停留在文本相关或相似的范畴内,导致相关搜索的结果受到局限。
2、对语义相关性要求较低,因此,使搜索词与相关搜索结果之间的关联性较差。
基于上述,如何提供一种不受搜索文本相关性限制,提高语义相关性要求的相关搜索方法成为本领域技术人员亟待解决的技术问题。
发明内容
本发明提供一种基于用户操作行为推荐相关搜索数据的方法,以解决上述问题。
本发明提供一种基于用户操作行为推荐相关搜索数据的方法,包括:
根据搜索数据,获取用户操作行为所对应的操作数据;
根据所述搜索数据与所述操作数据生成二者之间的关联概率图;
根据所述关联概率图生成所述搜索数据和所述操作数据的语义编码;
根据所述关联概率图和所述语义编码推荐关于所述搜索数据的相关搜索数据。
可选的,所述根据所述搜索数据与所述操作数据,生成二者之间的关联概率图,具体为,对所述搜索数据和所述操作数据进行迭代处理,所述迭代处理包括:
为所述搜索数据和操作数据之间建立初始化映射关系,并形成初始化关联概率图。
可选的,为所述搜索数据和操作数据之间建立初始化映射关系,并形成初始化关联概率图,具体为,对具有操作关系的搜索数据和操作数据之间添加边,构成所述初始化映射关系,形成无向图。
可选的,所述迭代处理包括:
基于所述初始化关联概率图,判断所述搜索数据之间是否存在以所述操作数据为公共端的关联关系,和/或所述操作数据之间是否存在以所述搜索数据为公共端的关联关系,若存在,则建立所述搜索数据之间和/或所述操作数据之间的邻接关系;
根据所述邻接关系获取所述搜索数据之间、所述操作数据之间和/或所述搜索数据与操作数据之间的关联概率;
根据所述邻接关系和关联概率,对所述初始化关联概率图进行剪枝操作,形成迭代后的关联概率图。
可选的,所述建立所述搜索数据之间和/或所述操作数据之间的邻接关系,具体为,基于所述无向图,分别对具有所述公共端的所述搜索数据之间和/或所述操作数据之间添加双向边。
可选的,所述根据所述关联概率图生成所述搜索数据的语义编码,包括:
根据所述搜索数据之间、所述操作数据之间和/或搜索数据与操作数据之间的关联概率,分别计算所述搜索数据和所述操作数据的向量值。
可选的,所述根据所述关联概率图和所述语义编码推荐关于所述搜索数据的相关搜索数据,包括:
根据所述关联概率图获取与所述搜索数据的相关搜索候选集;
查找所述搜索数据和所述相关搜索候选集中候选数据的语义编码;
根据所述搜索数据的语义编码计算所述搜索数据与每一所述候选数据的相关值;
选取相关值最大候选数据作为相关搜索数据加入结果集中;
判断所述结果集中的所述相关搜索数据是否达到设定的阈值,或者所述相关搜索候选集是否为空,若是,则将所述结果集中相关搜索数据作为推荐的相关搜索数据进行推荐,若否,则更新所述相关搜索候选集中搜索数据的语义编码,并返回至所述根据所述搜索数据的语义编码计算所述搜索数据与每一所述候选数据的相关值的步骤。
可选的,在所述更新前,将加入所述结果集中的所述相关搜索数据对应于所述相关搜索候选集中的候选数据删除。
可选的,所述选取相关值最大候选数据作为相关搜索数据加入结果集中包括:
对所述结果集中的相关搜索数据,根据所述相关搜索数据的语义编码进行去重复处理。
可选的,所述搜索数据为查询词,所述操作数据为对应所述查询词的相关网络资源;所述用户操作行为为用户点击行为。
本发明还提供一种基于用户操作行为推荐相关搜索数据的装置包括:
操作数据获取单元,用于根据搜索数据,获取用户操作行为所对应的操作数据;
关联概率图生成单元,用于根据所述搜索数据与所述操作数据生成二者之间的关联概率图;
语义编码生成单元,用于根据所述关联概率图生成所述搜索数据和所述操作数据的语义编码;
推荐单元,用于根据所述关联概率图和所述语义编码推荐关于所述搜索数据的相关搜索内容。
可选的,所述关联概率图生成单元包括迭代处理单元,所述迭代处理单元包括:
初始关系建立单元,用于为所述搜索数据和操作数据之间建立初始映射关系,并形成初始化关联概率图。
可选的,所述初始关系建立单元具体是,对具有操作关系的搜索数据和操作数据之间添加边,构成所述初始化映射关系,形成无向图。
可选的,所述迭代处理单元包括:
关联关系判断单元,用于判断所述搜索数据之间是否存以所述操作数据为公共端的关联关系,和/或所述操作数据之间是否存在以所述搜索数据为公共端的关联关系,若存在,则进入邻接关系建立单元;
所述邻接关系建立单元,用于建立所述搜索数据之间和/或所述操作数据之间的邻接关系;
关联概率获取单元,用于根据所述邻接关系获取所述搜索数据之间、所述操作数据之间和/或所述搜索数据与操作数据之间的关联概率;
剪枝单元,用于根据所述邻接关系和关联概率,对所述初始化关联概率图进行剪枝操作,形成迭代后的关联概率图。
可选的,所述邻接关系建立单元具体是基于所述无向图,分别对具有所述公共端的所述搜索数据之间和所述操作数据之间添加双向边。
可选的,所述语义编码生成单元包括:
计算单元,用于根据所述搜索数据之间、所述操作数据之间和/或所述搜索数据与所述操作数据之间的关联概率,分别计算所述搜索数据和所述操作数据的向量值。
可选的,所述推荐单元包括:
相关搜索候选集获取单元,用于根据所述关联概率图获取与所述搜索数据的相关搜索候选集;
查找单元,用于查找所述搜索数据和所述相关搜索候选集中候选数据的语义编码;
相关值计算单元,用于根据所述搜索数据的语义编码计算所述搜索数据与每一所述候选数据的相关值;
选取单元,用于选取相关值最大候选数据作为相关搜索数据加入结果集中;
相关搜索数据推荐判断单元,用于判断所述结果集中的所述相关搜索数据是否达到设定的阈值,或者所述相关搜索候选集是否为空,若是,则将所述结果集中相关搜索数据作为推荐的相关搜索数据进行推荐,若否,则进入更新返回单元;
所述更新返回单元,用于更新所述相关搜索候选集中搜索数据的语义编码,并返回至所述相关值计算单元。
可选的,所述选取单元包括:
删除单元,用于在所述更新前,将加入结果集中的所述相关搜索数据对应于所述相关搜索候选集中的候选数据删除。
可选的,所述选取单元包括:
去重复处理单元,用于对所述结果集中的相关搜索数据,根据所述相关搜索数据的语义编码进行去重复处理。
可选的,所述操作数据获取单元中的所述搜索数据为查询词,所述操作数据为对应所述查询词的相关网络资源,所述用户操作行为为用户点击行为。
本发明提供的一种基于用户操作行为推荐相关搜索数据的方法,根据搜索数据,获取用户操作行为所对应的操作数据;根据所述搜索数据与所述操作数据生成二者之间的关联概率图;根据所述关联概率图生成所述搜索数据和所述操作数据的语义编码;根据所述关联概率图和所述语义编码推荐关于所述搜索数据的相关搜索内容;可见,本发明只要根据搜索数据收集的操作数据,而操作数据可以是文本信息可以是视频信息等只要具有操作行为的任何数据信息,因此,根据搜索数据获得相关搜索数据不受搜索文本的限制,并且根据搜索数据和操作数据生成关联概率图,通过关联概率图获得搜索数据和操作数据的语义编码,使得搜索数据和操作数据之间具有较强的语义相关性,从而能够搜索出与搜索数据关联更加密切的相关搜索内容。
附图说明
为了更清楚地说明本发明实施例和现有技术中的技术方案,下面将对实施例和现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的一种基于用户操作行为推荐相关搜索数据的方法流程图;
图2是本发明提供的一种基于用户操作行为推荐相关搜索数据的方法中初始化关联概率图的示意图;
图3是本发明提供的一种基于用户操作行为推荐相关搜索数据的方法中具有邻接关系的示意图。
图4是本发明提供的一种基于用户操作行为推荐相关搜索数据的方法中迭代后的关联概率图的示意图;
图5为本发明提供的一种基于用户操作行为推荐相关搜索数据的装置的实施例结构示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施的限制。
为了更好的理解本发明的技术内容,以下通过所述搜索数据为查询词,所述操作数据为对应用户点击行为而获取的相关网络资源或者称为点击数据;所述用户操作行为为用户点击行为,为例对发明进行说明。
需要说明的是,本发明中的用户操作行为并不限于用户点击行为,还可以是敲击按键、滑屏、触摸等等。搜索数据也不限于查询词,还可以是搜索图片、视频,文本等等。所述操作数据可以为任何关于所述搜索数据的相关资源信息,例如文本数据、图片数据、视频数据等等。
下面通过上述用户点击行为、查询词、相关网络资源进行说明。
请参考图1所示,图1是本发明提供的一种基于用户操作行为推荐相关搜索数据的方法流程图,该方法包括如下步骤:
步骤100:根据搜索数据,获取用户操作行为所对应的操作数据。
该步骤的具体实现过程是,通过使用搜索引擎输入搜索词,收集关于该搜索词的点击数据,并上传至日志中心,日志中心将收到的点击数据进行分析整理并上传至数据中心。所述点击数据是指用户在搜索引擎内输入的搜索数据,根据所述搜索数据Web显示的关于所述搜索数据的网络资源信息,用户操作Web上的资源信息,并返回进行操作的结果。
为了更好的了解该步骤的内容,下面举例说明,例如:搜索词为“王菲”,点击数据为“清风徐来”的视频数据或其他经用户点击的数据信息。
步骤101:根据所述搜索数据与所述操作数据生成二者之间的关联概率图。
请参考图2所示,图2是本发明提供的一种基于用户点击行为推荐相关搜索数据的方法中初始化关联概率图的示意图。
该步骤的具体实现过程是对所述搜索数据和所述操作数据进行迭代处理,所述迭代处理包括:
通过为所述搜索词和点击数据之间建立初始化映射关系,并形成初始化关联概率图;其中,所述初始化映射关系,可以是通过对具有点击关系的搜索词和点击数据之间添加边21,形成无向图,该无向图即为初始化关联概率图。
所述搜索词和点击数据可以分别看作为节点(ni和nj),节点可以存在多个,初始化时,节点之间边的权重初始化为归一化之后的点击量,也就是说,边的权重为搜索词与点击数据之间的关联概率Pij
如在步骤100中所举例,搜索词“王菲”和点击数据“清风徐来”视频信息之间通过边形成无向图,进而构成两个节点之间的初始映射关系。
基于所述初始映射关系,对所述搜索词和点击数据之间再次进行迭代处理,进而形成迭代后的关联概率图。
其中所述迭代处理,包括:判断所述搜索词之间是否存以所述点击数据为公共端的关联关系,和/或所述点击数据之间是否存在以所述搜索词为公共端的关联关系,若存在,则建立所述搜索词之间和/或所述点击数据之间的邻接关系。根据所述邻接关系获取所述搜索词之间、所述点击数据之间和/或所述搜索词和点击数据之间的关联概率。
需要说明的是,所述搜索词和点击数据之间可能存在搜索词之间的相关关联关系,也可能存在点击数据之间的关联关系,也可能存在搜索词和点击数据之间的关联关系,也就是说,搜索词之间、点击数据之间、搜索词和点击数据之间存在多种关联关系的可能性。
其中,基于所述无向图,分别对具有所述公共端的所述搜索词之间和所述点击数据之间添加双向边22,从而形成关联概率图。
所述关联概率图是由节点20集合V={ni}以及边的集合P={Pij}构成,也就是说,关联概率图:G={P,V},其中,ni表示其中的一个节点。节点ni和nj之间的关联程度用来Pij表示。
结合图2参考图3所示,图3是本发明提供的一种基于用户操作行为推荐相关搜索数据的方法中具有邻接关系的示意图。
以上述初始化映射关系的举例而言,对具有邻接关系的节点之间再次进行迭代处理,通过对节点之间进行不断的迭代处理,最终能够获得搜索词之间、所述点击数据之间和/或所述搜索词和点击数据之间的关联概率。
举例而言:如果节点ni和nj能够通过一个中间节点(公共端)nk连接,说明节点ni和nj之间具有关联性,在无向图中加入节点ni和nj之间的双向边,此时边的权重有Pik和Pjk以及nk的连接数确定。通常情况下,Pik和Pjk的值越大,则nk的连接数越小,进而Pij越大。
迭代后的相关概率可以通过以下公式获得:
上述公式中:
i(j):是关联概率图中的节点,具体到本实施例中,有搜索数据和视频两类节点。
Pij:关联概率图中节点i和节点j的概率关系。Pij∈[0,1],值越大表示两者的关联关系越强。
Pik为所述第一节点Ni和所述中间节点Nk的关联概率,Pkj为所述中间节点Nk和所述第二节点Nj的关联概率。
P′ij:新一轮迭代的计算后,所述第一节点Ni和所述第二节点Nj之间的关联概率。
k:同时和i以及j连接的中间节点(公共端)。
α:是参数,保证算法的收敛性。
λk:以节点连接数为输入参数的惩罚函数,节点的连接数越大,惩罚函数的值越大。惩罚函数的具体实现如下:
其中Degree(k)是中间节点Nk的连接数,σ是参数,为根据所述中间节点Nk所连接的节点数预设的惩罚参数。在实际应用中取值为0.85。
通过上述迭代处理可以减弱“大词引力效应”,即搜索词经过几次迭代之后通常会与搜索频率较高的搜索词或点击数据(如:视频数据)产生关联。
根据上述迭代处理后形成的关联概率图,根据所述邻接关系和关联概率,对所述关联概率图进行剪枝操作。
所述剪枝操作即为,将没有两个节点之间没有中间节点或者说两个节点之间没有公共端,而导致两个节点之间没有双向边,或者是说两个节点由于不存在中间节点而使二者之间没有关联性,将没有关联性的节点修剪删除。也可以理解为再次进行的迭代处理,只不过此处的迭代处理时进行了剪枝操作(图如4所示)。
步骤102:根据所述关联概率图生成所述搜索词和所述点击数据的语义编码。
该步骤的具体实现过程包括:
根据所述搜索词之间、所述点击数据之间和/或搜索词与点击数据之间的关联概率计算所述搜索词和/或所述点击数据的向量值。
所述向量值的计算可以通过如下公式计算:
先用公式定义边Pij和节点ni和节点nj之间的关系。
其中:Pij是图中节点ni和nj相邻接的边所代表的值(关联概率),为已知量。是待求的向量值,是对每个节点的向量表示,例如:
利用关联概率图G中任意两个节点构建一个方程式,如果两个节点有关联关系,那么Pij为两个节点相邻边的值,如果两个节点无关联关系,则Pij=0.对于一个有n个节点的图,方程数为n×(n-1)。
以5个节点为例说明向量的计算:n12的Pij=0.3,n13的Pij=0,n14的Pij=0,n15的Pij=0.2,n21的Pij=0.2,n23的Pij=0.8,......,n54的Pij=0.6
为节点1,2之间的方程;
为节点1,3之间的方程;
为节点1,4之间的方程;
为节点1,5之间的方程;
为节点2,1之间的方程;
为节点2,3之间的方程;
........;
为节点5,4之间的方程;
通过梯度下降法解上述方程组,以获得各个节点之间的向量值
初始化每一个向量为长度为K的随机向量;
将获得的各个节点之间的向量值,按照公式计算两两向量当前的相关性的实际值yij
用交叉熵(cross entropy)函数作为惩罚函数计算当前相关性yij与搜索词Pij的惩罚度;
Lij=-P′ijlog(yij)-(1-P′ij)log(1-yij)
利用惩罚度计算下述公式中的目标函数:
目标函数L的值越小,表示节点i和节点j的向量越合适,可以选择使得L的值最小的节点ni和nj的向量,作为节点ni和节点nj的语义向量。
并依此计算出每个向量的更新量:
更新
其中,η为根据迭代次数确定的增量步长。
步骤103:根据所述关联概率图和所述语义编码推荐关于所述搜索词的相关搜索内容。
该步骤的具体实现方式包括:
根据所述关联概率图获取与所述搜索词的相关搜索候选集;其中,当所述当前搜索词为q时,则根据关联概率图可获得相关搜索候选集为:<q1,q2,q3,...,qn>。
查找所述搜索数据和所述相关搜索候选集中候选数据的语义编码,根据上述相关搜索候选集,在生成的语义编码中查找当前搜索数据的语义编码
根据所述搜索数据的语义编码计算所述搜索数据与每一所述候选数据的相关值;
选取相关值最大候选数据作为相关搜索词加入结果集中,在该步骤的实现过程中,可以通过公式:获得相关值最大或者是说相关性最高的搜索词。
判断所述结果集中的所述相关搜索词是达到设定的阈值,或者所述相关搜索候选集是否为空,若是,则将所述结果集中相关搜索词作为推荐相关搜索内容,若否,则更新所述搜索词的语义编码,并返回至所述根据所述搜索词的语义编码计算所述搜索词与每一所述候选数据的相关值的步骤。其中,所述条件可以是人为设定的上限值,也就是说,根据搜索需求设定相关搜索量,当相关搜索量达到设定的上限值后,则停止查找,将查找到的相关搜索内容输出显示。所述设定的阈值可以是设定的搜索数据个数,例如:当相关搜索数据达到8个则停止。
所述更新所述搜索词的语义编码,可以通过如下公式实现:
可以理解的是,为避免推荐重复的搜索词,在将相关值最大的候选数据作为相关搜索词加入结果集中后,可以利用公式:将结果集中存在重复语义编码的相关搜索词去除。
上述根据所述关联概率图和所述语义编码推荐关于所述搜索词的相关搜索内容的过程,可以通过以下伪代码实现:
//该步更新当前词的语义向量,保证相关搜索结果的语义多样性;
Result num++;
以上是对步骤103的具体流程步骤进行的说明,为更好的了解步骤103的实现,以下采用以计算搜索词“王菲”的相关搜索结果为例进行说明,具体如下:
首选,从关联概率图(VideoGraph)中查找“王菲”的相关搜索候选集:
{王菲清风徐来|清风徐来mv|港|匆匆那年王菲|匆匆那年mv|港完整版|红豆|谢霆锋|千岁情人|陈奕迅|经典老歌|mv歌曲|因为爱情|港主题曲|清平调|赵薇|经典歌曲|红豆王菲|匆匆那年|致青春王菲|致青春|王菲清风徐来|中国好声音第4季|刘德华|胡歌|优酷全娱乐20158月|王菲匆匆那年|窦唯|千岁情人国语版|中国好声音|王菲演唱会|谢霆锋王菲|致青春mv}。
其次,查找“王菲”以及相关搜索候选结果的语义编码(VideoVector)。
[清风徐来|港|匆匆那年|因为爱情|名人]。
王菲:[0.8,0.7,0.8,0.6,0.7]
清风徐来:[1,0.6,0.05,0.05,0.6]
清风徐来mv:[1,0.6,0.05,0.05,0.6]
港:[0.6,1,0.05,0.05,0.3]
......
致青春mv:[0.6,1,0.05,0.05,0.3]。
筛选相关搜索结果,筛选过程也就是迭代的过程,具体如下:
第一次迭代:
“王菲”一词的语义向量为:[0.8,0.7,0.8,0.6,0.7]。
候选集为:{清风徐来|清风徐来mv|港|匆匆那年王菲|匆匆那年mv|港完整版|红豆|谢霆锋|千岁情人|陈奕迅|经典老歌|mv歌曲|因为爱情|港主题曲|清平调|赵薇|经典歌曲|红豆王菲|匆匆那年|致青春王菲|致青春|王菲清风徐来|中国好声音第4季|刘德华|胡歌|优酷全娱乐20158月|王菲匆匆那年|窦唯|千岁情人国语版|中国好声音|王菲演唱会|谢霆锋王菲|致青春mv}。
结果集为空:{}。
根据公式分别计算王菲和每个候选结果的相关值,如下表:。
根据相关分数选择最相关的相关搜索结果,“清风徐来”。
将“清风徐来”添加到结果集中,同时从候选集中删除“清风徐来”。
更新“王菲”一词的语义编码(或者称为语义向量)。
更新后“王菲”一词的语义向量=当前“王菲”一词的语义向量-0.5ד清风徐来”一词的语义向量。
第二次筛选(迭代):
“王菲”一词的语义向量为:[0.3,0.4,0.775,0.575,0.4]。
候选集为:{清风徐来mv|港|匆匆那年王菲|匆匆那年mv|港完整版|红豆|谢霆锋|千岁情人|陈奕迅|经典老歌|mv歌曲|因为爱情|港主题曲|清平调|赵薇|经典歌曲|红豆王菲|匆匆那年|致青春王菲|致青春|王菲清风徐来|中国好声音第4季|刘德华|胡歌|优酷全娱乐20158月|王菲匆匆那年|窦唯|千岁情人国语版|中国好声音|王菲演唱会|谢霆锋王菲|致青春mv}。
结果集为:{清风徐来}
计算“王菲”和每个词的相关性
根据相关分数选择最相关的相关搜索结果,“港”。
将“港”添加到结果集中,同时从候选集中删除“港”。
更新“王菲”一词的语义向量。
上述过程重复执行,直到已经找到的能够满足设定阈值的相关搜索数据或者候选集已经为空为止。
以上是对本发明提供的一种基于用户操作行为推荐相关搜索数据的方法的说明,本发明还提供一种基于用户操作行为推荐相关搜索数据的装置,请参看图5,图5为本发明提供的一种基于用户操作行为推荐相关搜索数据的装置的实施例结构示意图。由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可,下述描述的装置实施例仅仅是示意性的。
本发明提供的一种基于用户操作行为推荐相关搜索数据的装置,包括:
操作数据获取单元501,用于根据搜索数据,获取用户操作行为所对应的操作数据;
关联概率图生成单元502,用于根据所述搜索数据与所述操作数据生成二者之间的关联概率图;
语义编码生成单元503,用于根据所述关联概率图生成所述搜索数据和所述操作数据的语义编码;
推荐单元504,用于根据所述关联概率图和所述语义编码推荐关于所述搜索数据的相关搜索内容。
所述关联概率图生成单元502包括迭代处理单元,所述迭代处理单元具体包括:
初始关系建立单元,用于为所述搜索数据和操作数据之间建立初始映射关系,并形成初始化关联概率图。
所述初始关系建立单元具体是,对具有操作关系的搜索数据和操作数据之间添加边,构成所述初始化映射关系,形成无向图。
所述迭代处理单元包括:
关联关系判断单元,用于判断所述搜索数据之间是否存以所述操作数据为公共端的关联关系,和/或所述操作数据之间是否存在以所述搜索数据为公共端的关联关系,若存在,则进入邻接关系建立单元;
所述邻接关系建立单元,用于建立所述搜索数据之间和/或所述操作数据之间的邻接关系;
关联概率获取单元,用于根据所述邻接关系获取所述搜索数据之间、所述操作数据之间和/或所述搜索数据与操作数据之间的关联概率;
剪枝单元,用于根据所述邻接关系和关联概率,对所述初始化关联概率图进行剪枝操作,形成迭代后的关联概率图。
所述邻接关系建立单元具体是基于所述无向图,分别对具有所述公共端的所述搜索数据之间和所述操作数据之间添加双向边。
所述语义编码生成单元503包括:
计算单元,用于根据所述搜索数据之间、所述操作数据之间以及搜索数据与操作数据之间的关联概率计算所述搜索数据和所述操作数据的向量值。
所述推荐单元504包括:
相关搜索候选集获取单元,用于根据所述关联概率图获取与所述搜索数据的相关搜索候选集;
查找单元,用于查找所述搜索数据和所述相关搜索候选集中候选数据的语义编码;
相关值计算单元,用于根据所述搜索数据的语义编码计算所述搜索数据与每一所述候选数据的相关值;
选取单元,用于选取相关值最大候选数据作为相关搜索数据加入结果集中;
相关搜索内容推荐判断单元,用于判断所述结果集中的所述相关搜索数据是否满足条件,或者所述相关搜索候选集是否为空,若是,则将所述结果集中相关搜索数据作为相关搜索内容推荐,若否,则进入更新返回单元;
所述更新返回单元,用于更新所述相关搜索候选集中搜索数据的语义编码,并返回至所述相关值计算单元。
所述选取单元包括:
删除单元,用于将加入结果集中的所述相关搜索数据对应于所述相关搜索候选集中的候选数据删除。
所述选取单元还包括:去重复处理单元,用于对所述结果集中的相关搜索数据,根据所述相关搜索数据的语义编码进行去重复处理。
本发明虽然以较佳实施例公开如上,但其并不是用来限定本发明,任何本领域技术人员在不脱离本发明的精神和范围内,都可以做出可能的变动和修改,因此本发明的保护范围应当以本发明权利要求所界定的范围为准。

Claims (20)

1.一种基于用户操作行为推荐相关搜索数据的方法,其特征在于,包括:
根据搜索数据,获取用户操作行为所对应的操作数据;
根据所述搜索数据与所述操作数据生成二者之间的关联概率图;
根据所述关联概率图生成所述搜索数据和所述操作数据的语义编码;
根据所述关联概率图和所述语义编码推荐关于所述搜索数据的相关搜索数据。
2.根据权利要求1所述的基于用户操作行为推荐相关搜索数据的方法,其特征在于:所述根据所述搜索数据与所述操作数据,生成二者之间的关联概率图,具体为,对所述搜索数据和所述操作数据进行迭代处理,所述迭代处理包括:
为所述搜索数据和操作数据之间建立初始化映射关系,并形成初始化关联概率图。
3.根据权利要求2所述的基于用户操作行为推荐相关搜索数据的方法,其特征在于:为所述搜索数据和操作数据之间建立初始化映射关系,并形成初始化关联概率图,具体为,对具有操作关系的搜索数据和操作数据之间添加边,构成所述初始化映射关系,形成无向图。
4.根据权利要求2所述的基于用户操作行为推荐相关搜索数据的方法,其特征在于,所述迭代处理包括:
基于所述初始化关联概率图,判断所述搜索数据之间是否存在以所述操作数据为公共端的关联关系,和/或所述操作数据之间是否存在以所述搜索数据为公共端的关联关系,若存在,则建立所述搜索数据之间和/或所述操作数据之间的邻接关系;
根据所述邻接关系获取所述搜索数据之间、所述操作数据之间和/或所述搜索数据与操作数据之间的关联概率;
根据所述邻接关系和关联概率,对所述初始化关联概率图进行剪枝操作,形成迭代后的关联概率图。
5.根据权利要求4所述的基于用户操作行为推荐相关搜索数据的方法,其特征在于:所述建立所述搜索数据之间和/或所述操作数据之间的邻接关系,具体为,基于所述无向图,分别对具有所述公共端的所述搜索数据之间和/或所述操作数据之间添加双向边。
6.根据权利要求1所述的基于用户操作行为推荐相关搜索数据的方法,其特征在于,所述根据所述关联概率图生成所述搜索数据的语义编码,包括:
根据所述搜索数据之间、所述操作数据之间和/或搜索数据与操作数据之间的关联概率,分别计算所述搜索数据和所述操作数据的向量值。
7.根据权利要求1所述的基于用户操作行为推荐相关搜索数据的方法,其特征在于,所述根据所述关联概率图和所述语义编码推荐关于所述搜索数据的相关搜索数据,包括:
根据所述关联概率图获取与所述搜索数据的相关搜索候选集;
查找所述搜索数据和所述相关搜索候选集中候选数据的语义编码;
根据所述搜索数据的语义编码计算所述搜索数据与每一所述候选数据的相关值;
选取相关值最大候选数据作为相关搜索数据加入结果集中;
判断所述结果集中的所述相关搜索数据是否达到设定的阈值,或者所述相关搜索候选集是否为空,若是,则将所述结果集中相关搜索数据作为推荐的相关搜索数据进行推荐,若否,则更新所述相关搜索候选集中搜索数据的语义编码,并返回至所述根据所述搜索数据的语义编码计算所述搜索数据与每一所述候选数据的相关值的步骤。
8.根据权利要求7所述的基于用户操作行为推荐相关搜索数据的方法,其特征在于,在所述更新前,将加入所述结果集中的所述相关搜索数据对应于所述相关搜索候选集中的候选数据删除。
9.根据权利要求7所述的基于用户操作行为推荐相关搜索数据的方法,其特征在于,所述选取相关值最大候选数据作为相关搜索数据加入结果集中包括:
对所述结果集中的相关搜索数据,根据所述相关搜索数据的语义编码进行去重复处理。
10.根据权利要求1所述的基于用户操作行为推荐相关搜索数据的方法,其特征在于:所述搜索数据为查询词,所述操作数据为对应所述查询词的相关网络资源;所述用户操作行为为用户点击行为。
11.一种基于用户操作行为推荐相关搜索数据的装置,其特征在于,包括:
操作数据获取单元,用于根据搜索数据,获取用户操作行为所对应的操作数据;
关联概率图生成单元,用于根据所述搜索数据与所述操作数据生成二者之间的关联概率图;
语义编码生成单元,用于根据所述关联概率图生成所述搜索数据和所述操作数据的语义编码;
推荐单元,用于根据所述关联概率图和所述语义编码推荐关于所述搜索数据的相关搜索内容。
12.根据权利要求11所述的基于用户操作行为推荐相关搜索数据的装置,其特征在于,所述关联概率图生成单元包括迭代处理单元,所述迭代处理单元包括:
初始关系建立单元,用于为所述搜索数据和操作数据之间建立初始映射关系,并形成初始化关联概率图。
13.根据权利要求12所述的基于用户操作行为推荐相关搜索数据的装置,其特征在于,所述初始关系建立单元具体是,对具有操作关系的搜索数据和操作数据之间添加边,构成所述初始化映射关系,形成无向图。
14.根据权利要求12所述的基于用户操作行为推荐相关搜索数据的装置,其特征在于,所述迭代处理单元包括:
关联关系判断单元,用于判断所述搜索数据之间是否存以所述操作数据为公共端的关联关系,和/或所述操作数据之间是否存在以所述搜索数据为公共端的关联关系,若存在,则进入邻接关系建立单元;
所述邻接关系建立单元,用于建立所述搜索数据之间和/或所述操作数据之间的邻接关系;
关联概率获取单元,用于根据所述邻接关系获取所述搜索数据之间、所述操作数据之间和/或所述搜索数据与操作数据之间的关联概率;
剪枝单元,用于根据所述邻接关系和关联概率,对所述初始化关联概率图进行剪枝操作,形成迭代后的关联概率图。
15.根据权利要求14所述的基于用户操作行为推荐相关搜索数据的装置,其特征在于,所述邻接关系建立单元具体是基于所述无向图,分别对具有所述公共端的所述搜索数据之间和所述操作数据之间添加双向边。
16.根据权利要求11所述的基于用户操作行为推荐相关搜索数据的装置,其特征在于,所述语义编码生成单元包括:
计算单元,用于根据所述搜索数据之间、所述操作数据之间和/或所述搜索数据与所述操作数据之间的关联概率,分别计算所述搜索数据和所述操作数据的向量值。
17.根据权利要求11所述的基于用户操作行为推荐相关搜索数据的装置,其特征在于,所述推荐单元包括:
相关搜索候选集获取单元,用于根据所述关联概率图获取与所述搜索数据的相关搜索候选集;
查找单元,用于查找所述搜索数据和所述相关搜索候选集中候选数据的语义编码;
相关值计算单元,用于根据所述搜索数据的语义编码计算所述搜索数据与每一所述候选数据的相关值;
选取单元,用于选取相关值最大候选数据作为相关搜索数据加入结果集中;
相关搜索数据推荐判断单元,用于判断所述结果集中的所述相关搜索数据是否达到设定的阈值,或者所述相关搜索候选集是否为空,若是,则将所述结果集中相关搜索数据作为推荐的相关搜索数据进行推荐,若否,则进入更新返回单元;
所述更新返回单元,用于更新所述相关搜索候选集中搜索数据的语义编码,并返回至所述相关值计算单元。
18.根据权利要求17所述的基于用户操作行为推荐相关搜索数据的装置,其特征在于,所述选取单元包括:
删除单元,用于在所述更新前,将加入结果集中的所述相关搜索数据对应于所述相关搜索候选集中的候选数据删除。
19.根据权利要求17所述的基于用户操作行为推荐相关搜索数据的装置,其特征在于,所述选取单元包括:
去重复处理单元,用于对所述结果集中的相关搜索数据,根据所述相关搜索数据的语义编码进行去重复处理。
20.根据权利要求11所述的基于用户操作行为推荐相关搜索数据的装置,其特征在于:所述操作数据获取单元中的所述搜索数据为查询词,所述操作数据为对应所述查询词的相关网络资源,所述用户操作行为为用户点击行为。
CN201610118113.0A 2016-03-02 2016-03-02 一种基于用户操作行为推荐相关搜索数据的方法及装置 Pending CN106570046A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610118113.0A CN106570046A (zh) 2016-03-02 2016-03-02 一种基于用户操作行为推荐相关搜索数据的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610118113.0A CN106570046A (zh) 2016-03-02 2016-03-02 一种基于用户操作行为推荐相关搜索数据的方法及装置

Publications (1)

Publication Number Publication Date
CN106570046A true CN106570046A (zh) 2017-04-19

Family

ID=58531587

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610118113.0A Pending CN106570046A (zh) 2016-03-02 2016-03-02 一种基于用户操作行为推荐相关搜索数据的方法及装置

Country Status (1)

Country Link
CN (1) CN106570046A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304453A (zh) * 2017-12-18 2018-07-20 北京奇艺世纪科技有限公司 一种视频相关搜索词的确定方法及装置
CN110110235A (zh) * 2019-05-14 2019-08-09 北京百度网讯科技有限公司 用于处理数据的方法和装置
WO2021082123A1 (zh) * 2019-10-28 2021-05-06 苏州跃盟信息科技有限公司 信息推荐方法及装置、电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101241512A (zh) * 2008-03-10 2008-08-13 北京搜狗科技发展有限公司 一种重新定义查询词的搜索方法及装置
CN101685448A (zh) * 2008-09-28 2010-03-31 国际商业机器公司 在用户的查询操作与搜索结果之间建立关联的方法和设备
CN102682001A (zh) * 2011-03-09 2012-09-19 阿里巴巴集团控股有限公司 一种确定推荐词的方法及设备
CN102855252A (zh) * 2011-06-30 2013-01-02 北京百度网讯科技有限公司 一种基于需求的数据检索方法和装置
JP5345918B2 (ja) * 2009-10-13 2013-11-20 日本電信電話株式会社 文書検索方法、文書検索装置、文書検索プログラム
CN104166659A (zh) * 2013-05-20 2014-11-26 百度在线网络技术(北京)有限公司 一种地图数据判重的方法及系统
CN104166712A (zh) * 2014-08-13 2014-11-26 东北电力大学 科技文献检索方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101241512A (zh) * 2008-03-10 2008-08-13 北京搜狗科技发展有限公司 一种重新定义查询词的搜索方法及装置
CN101685448A (zh) * 2008-09-28 2010-03-31 国际商业机器公司 在用户的查询操作与搜索结果之间建立关联的方法和设备
JP5345918B2 (ja) * 2009-10-13 2013-11-20 日本電信電話株式会社 文書検索方法、文書検索装置、文書検索プログラム
CN102682001A (zh) * 2011-03-09 2012-09-19 阿里巴巴集团控股有限公司 一种确定推荐词的方法及设备
CN102855252A (zh) * 2011-06-30 2013-01-02 北京百度网讯科技有限公司 一种基于需求的数据检索方法和装置
CN104166659A (zh) * 2013-05-20 2014-11-26 百度在线网络技术(北京)有限公司 一种地图数据判重的方法及系统
CN104166712A (zh) * 2014-08-13 2014-11-26 东北电力大学 科技文献检索方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
朱亮等: "基于用户搜索行为的query-doc关联挖掘", 《自动化学报》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304453A (zh) * 2017-12-18 2018-07-20 北京奇艺世纪科技有限公司 一种视频相关搜索词的确定方法及装置
CN108304453B (zh) * 2017-12-18 2021-07-06 北京奇艺世纪科技有限公司 一种视频相关搜索词的确定方法及装置
CN110110235A (zh) * 2019-05-14 2019-08-09 北京百度网讯科技有限公司 用于处理数据的方法和装置
CN110110235B (zh) * 2019-05-14 2021-08-31 北京百度网讯科技有限公司 用于推送信息的方法和装置
WO2021082123A1 (zh) * 2019-10-28 2021-05-06 苏州跃盟信息科技有限公司 信息推荐方法及装置、电子设备
US11436289B2 (en) 2019-10-28 2022-09-06 Suzhou Deepleper Information And Technology Company Limited Information recommendation method and apparatus, and electronic device

Similar Documents

Publication Publication Date Title
Thakkar et al. Graph-based algorithms for text summarization
US10437867B2 (en) Scenario generating apparatus and computer program therefor
CN104484339B (zh) 一种相关实体推荐方法和系统
CN104102626B (zh) 一种用于短文本语义相似度计算的方法
CN104933081B (zh) 一种搜索建议提供方法及装置
CN103309886B (zh) 一种基于交易平台的结构化信息搜索方法和装置
CN110019658B (zh) 检索项的生成方法及相关装置
CN103870000B (zh) 一种对输入法所产生的候选项进行排序的方法及装置
WO2020063092A1 (zh) 知识图谱的处理方法及装置
CN108694647B (zh) 一种商户推荐理由的挖掘方法及装置,电子设备
CN105045875B (zh) 个性化信息检索方法及装置
CN106570144A (zh) 推荐信息的方法和装置
US10095685B2 (en) Phrase pair collecting apparatus and computer program therefor
WO2019236360A1 (en) Taxonomy enrichment using ensemble classifiers
Kherwa et al. An approach towards comprehensive sentimental data analysis and opinion mining
CN107239512B (zh) 一种结合评论关系网络图的微博垃圾评论识别方法
WO2021082123A1 (zh) 信息推荐方法及装置、电子设备
CN105447080B (zh) 一种社区问答搜索中的查询补全方法
TW200945079A (en) Search results ranking using editing distance and document information
TW201214169A (en) Recognition of target words using designated characteristic values
CN104462553A (zh) 问答页面相关问题推荐方法及装置
CN104281565B (zh) 语义词典构建方法和装置
Dermouche et al. A joint model for topic-sentiment modeling from text
CN106570046A (zh) 一种基于用户操作行为推荐相关搜索数据的方法及装置
CN108460150A (zh) 新闻标题的处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100080 A 5 C, block A, China International Steel Plaza, 8 Haidian Avenue, Haidian District, Beijing.

Applicant after: Youku network technology (Beijing) Co., Ltd.

Address before: 100080 A 5 C, block A, China International Steel Plaza, 8 Haidian Avenue, Haidian District, Beijing.

Applicant before: 1Verge Inc.

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200525

Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Applicant after: Alibaba (China) Co.,Ltd.

Address before: 100080 Beijing Haidian District city Haidian street A Sinosteel International Plaza No. 8 block 5 layer A, C

Applicant before: Youku network technology (Beijing) Co., Ltd

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170419