CN102737045A - 一种相关度计算方法和装置 - Google Patents

一种相关度计算方法和装置 Download PDF

Info

Publication number
CN102737045A
CN102737045A CN2011100885919A CN201110088591A CN102737045A CN 102737045 A CN102737045 A CN 102737045A CN 2011100885919 A CN2011100885919 A CN 2011100885919A CN 201110088591 A CN201110088591 A CN 201110088591A CN 102737045 A CN102737045 A CN 102737045A
Authority
CN
China
Prior art keywords
query
word
demand
demand type
page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011100885919A
Other languages
English (en)
Other versions
CN102737045B (zh
Inventor
占惠融
李双龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201110088591.9A priority Critical patent/CN102737045B/zh
Publication of CN102737045A publication Critical patent/CN102737045A/zh
Application granted granted Critical
Publication of CN102737045B publication Critical patent/CN102737045B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明提供了一种相关度计算方法和装置,其中方法包括:对用户输入的搜索请求(query)进行分词处理;利用分词处理后得到的各词语所对应的需求类型概率,对所述query进行需求类型的识别;分别计算所述query在识别出的各需求类型上与页面之间的相关度;整合所述query在识别出的各需求类型上与页面之间的相关度,得到所述query与所述页面之间的相关度。通过本发明计算的相关度充分考量了query的需求类型,能够在至少一个需求维度上计算query与页面之间的相关度,使得计算出的相关度更加准确,应用于搜索过程能够提供更好的搜索效果。

Description

一种相关度计算方法和装置
【技术领域】
本发明涉及计算机技术领域,特别涉及一种相关度计算方法和装置。
【背景技术】
随着计算机技术的迅速发展,搜索引擎逐渐成为人们获取信息的重要工具,用户向搜索引擎输入搜索请求(query)后,搜索引擎就能够将与query匹配的页面包含搜索结果返回给用户。其中,搜索引擎在对搜索结果中的页面进行排序时,是依据搜索结果中各页面与query之间的相关度进行的,将相关度越高的排在越前面。
在现有技术中页面与query之间相关度的计算仅仅基于文本,即仅仅计算页面在文本上与query的相关度,但基于这种相关度计算方式提供的搜索结果并不能很好地满足用户需求,搜索效果较差。例如,当用户输入的query为“蜗居第三集”,搜索引擎向用户返回的页面与query之间相关度的计算是基于词频和位置信息等文本内容的,如果在页面中词语“蜗居”以及“第三集”的词频越高,则该页面与query的相关度越高。然而,当用户输入的query为“蜗居第三集”时,更可能要获取视频类的页面,但词语“蜗居”和“第三集”在视频类页面中出现的词频可能很低,因此视频类页面往往不能排在搜索结果中靠前的位置。
【发明内容】
本发明提供了一种相关度计算方法和装置,以便于充分考量用户的需求,提高搜索效果。
具体技术方案如下:
一种相关度计算方法,该方法包括:
A、对用户输入的搜索请求query进行分词处理;
B、利用分词处理后得到的各词语所对应的需求类型概率,对所述query进行需求类型的识别;
C、分别计算所述query在识别出的各需求类型上与页面之间的相关度;
D、整合所述query在识别出的各需求类型上与页面之间的相关度,得到所述query与所述页面之间的相关度。
在所述步骤B中,查找预先建立的词语需求概率模型,来确定所述分词处理后得到的各词语对应的需求类型概率;
其中,所述词语需求概率模型中包含:词语、词语对应的需求类型、词语对应的需求类型概率。
具体地,所述词语需求概率模型的建立包括:
S1、根据搜索日志中各query对应的搜索结果,确定所述各query对应的需求类型;
S2、对所述各query进行分词处理,将分词处理后得到的各词语映射到所属query对应的需求类型;
S3、根据各词语映射到各需求类型上的次数,统计各词语对应的需求类型概率。
其中,所述步骤S1具体包括:
根据搜索日志中各query对应的搜索结果,人工标注所述各query对应的需求类型;或者,
根据搜索日志中记录的用户对各query对应的搜索结果的行为,从用户所点击或浏览搜索结果的页面类型中确定各query对应的需求类型。
另外,所述步骤B具体包括:
针对所述分词处理后得到的各词语所对应的各需求类型,分别采用公式
Figure BDA0000054436410000021
计算query在需求类型Tj上的概率p(q,Tj),其中,ti为所述query进行分词处理后得到的第i个词语,M为所述query进行分词处理后得到的词语个数,p(ti,Tj)为词语ti所对应的需求类型Tj概率;
根据所述query在各需求类型上的概率,将排在前N个的需求类型确定为所述query具有的需求类型,其中N为预设的正整数。
或者,所述步骤B具体包括:
将处于所述query中的预设位置的词语所对应的需求类型概率中排在前N个的需求类型确定为所述query具有的需求类型,其中N为预设的正整数。具体地,在所述步骤C中,采用公式
Figure BDA0000054436410000031
计算所述query在需求类型Ti上与页面d之间的相关度p(q,Ti|d);
其中p(tj,Ti|d)为对所述query进行分词处理之后得到的第j个词语tj在需求类型Ti上与页面d之间的相关度,M为所述query进行分词处理后得到的词语个数。
另外,所述步骤D具体包括:
采用公式整合得到所述query与页面d之间的相关度p(d|q);
其中,所述p(d)和所述p(q)为预设的正整数,所述p(q,Ti|d)为所述query在需求类型Ti上与页面d之间的相关度。
当所述Ti为文本类需求时,所述p(tj,Ti|d)为所述tj在所述页面d的词频-倒文档率的值;
当所述Ti为非文本类需求时,所述p(tj,Ti|d)采用以下参数构成的拟合函数来计算:所述tj与所述页面d的主题的相关度、所述页面d的资源类型与Ti一致的概率。
一种相关度计算装置,该装置包括:分词处理单元、需求识别单元、相关度计算单元和相关度整合单元;
所述分词处理单元,用于对用户输入的搜索请求query进行分词处理;
所述需求识别单元,用于利用所述分词处理单元分词处理后得到的各词语所对应的需求类型概率,对所述query进行需求类型的识别;
所述相关度计算单元,用于分别计算所述query在所述需求识别单元识别出的各需求类型上与页面之间的相关度;
所述整合处理单元,用于整合所述query在识别出的各需求类型上与页面之间的相关度,得到所述query与所述页面之间的相关度。
更进一步地,该装置还包括:词语需求确定单元,用于查找预先建立的词语需求概率模型,来确定所述分词处理后得到的各词语对应的需求类型概率;
其中,所述词语需求概率模型中包含:词语、词语对应的需求类型、词语对应的需求类型概率。
另外,该装置还包括:模型建立单元;
所述模型建立单元具体包括:query需求确定子单元、分词处理子单元、需求映射子单元和概率统计子单元;
所述query需求确定子单元,用于根据搜索日志中各query对应的搜索结果,确定所述各query对应的需求类型;
所述分词处理子单元,用于对所述各query进行分词处理;
所述需求映射子单元,用于将所述分词处理子单元进行分词处理后得到的各词语映射到所属query对应的需求类型;
所述概率统计子单元,用于根据各词语映射到各需求类型上的次数,统计各词语对应的需求类型概率。
具体地,所述query需求确定子单元,根据人工标注确定各query对应的需求类型,或者,根据搜索日志中记录的用户对各query对应的搜索结果的行为,从用户所点击或浏览搜索结果的页面类型中确定各query对应的需求类型。
所述需求识别单元具体包括:概率计算子单元和需求识别子单元;
所述概率计算子单元,用于针对所述分词处理单元分词处理后得到的各词语所对应的各需求类型,分别采用公式
Figure BDA0000054436410000041
计算query在需求类型Tj上的概率p(q,Tj),其中,ti为所述query进行分词处理后得到的第i个词语,M为所述query进行分词处理后得到的词语个数,p(ti,Tj)为词语ti所对应的需求类型Tj概率;
所述需求识别子单元,用于根据所述query在各需求类型上的概率,将排在前N个的需求类型确定为所述query具有的需求类型,其中N为预设的正整数。
或者,所述需求识别单元具体将所述query中的预设位置的词语所对应的需求类型概率中排在前N个的需求类型确定为所述query具有的需求类型,其中N为预设的正整数。
另外,所述相关度计算单元具体采用公式计算所述query在需求类型Ti上与页面d之间的相关度p(q,Ti|d);
其中p(tj,Ti|d)为对所述query进行分词处理之后得到的第j个词语tj在需求类型Ti上与页面d之间的相关度,M为所述query进行分词处理后得到的词语个数。
所述相关度整合单元具体采用公式
Figure BDA0000054436410000052
整合得到所述query与页面d之间的相关度p(d|q);
其中,所述p(d)和所述p(q)为预设的正整数,所述p(q,Ti|d)为所述query在需求类型Ti上与页面d之间的相关度。
当所述Ti为文本类需求时,所述p(tj,Ti|d)为所述tj在所述页面d的词频-倒文档率的值;
当所述Ti为非文本类需求时,所述p(tj,Ti|d)采用以下参数构成的拟合函数来计算:所述tj与所述页面d的主题的相关度、所述页面d的资源类型与Ti一致的概率。
由以上技术方案可以看出,本发明利用query分词处理后得到的各词语所对应的需求类型概率,对所述query进行需求类型的识别,分别计算query在识别出的各需求类型上与页面之间的相关度后再进行整合,得到该query与页面之间的相关度。通过该方式能够根据识别出的query的需求类型,在至少一个需求维度上计算query与页面之间的相关度,而不像现有技术中一样无视query的需求仅基于文本进行相关度计算,因此,本发明提供的方法和装置计算的相关度更加准确,应用于搜索过程能够提供更好的搜索效果。
【附图说明】
图1为本发明实施例一提供的相关度计算方法流程图;
图2为本发明实施例一中提供的建立词语需求概率模型的方法流程图;
图3为本发明实施例一中提供的query分词处理后得到的词语映射到各需求类型的示意图;
图4为本发明实施例二提供的相关度计算装置的结构图。
【具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
实施例一、
图1为本发明实施例一提供的相关度计算方法流程图,如图1所示,该方法可以包括以下步骤:
步骤101:对用户输入的query进行分词处理。
本步骤中对query进行的分词处理可以采用但不限于以下所列中的任一种:基于字符串的分词方法、基于理解的分词方法、基于统计的分词方法以及基于语义的分词方法。
更优地,在对query进行分词处理后,可以进一步对分词处理后得到的各词语进行过滤处理,包括但不限于以下所列过滤处理:过滤掉预设的停用词表所包含的词语,或者过滤掉非独立表意的词语等。
本步骤为已有技术,在此不再赘述。
步骤102:利用分词处理后得到的各词语所对应的需求类型概率,对query进行需求类型的识别。
本步骤中获取分词处理后得到的各词语所对应的需求类型概率可以通过查找预先建立的词语需求概率模型的方式。该词语需求概率模型中可以包括:各词语、词语对应的需求类型、词语对应的需求类型的概率。
其中,建立词语需求概率模型可以采用对搜索日志进行数据挖掘的方式,如图2所示,可以具体包括步骤S1至步骤S3:
S1、根据搜索日志中各query对应的搜索结果,确定各query对应的需求类型。
该步骤S1中,可以采用人工标注的方式,确定各query对应的需求类型,即根据各query对应的搜索结果人工确定query对应的需求类型。例如:如果用户输入的query为“蜗居第三集”,根据“蜗居第三集”对应的搜索结果,可以认为判定出搜索结果大多是视频类、小说类,那么,可以人工标注该query对应的需求类型为视频类需求和小说类需求。
也可以采用机器学习的方式,确定各query对应的需求类型,通常基于搜索日志中记录的用户对query对应的搜索结果的行为,从用户所点击或浏览搜索结果的页面类型中确定各query对应的需求类型。例如:如果用户输入的query为“蜗居第三集”,在该query对应的搜索结果中用户点击的页面类型多为视频类和小说类,那么,可以确定该query对应的需求类型为视频类需求和小说类需求。
S2、对各query进行分词处理,将分词处理后得到的各词语映射到各query对应的需求类型。
例如,如果某query(标识为q)对应的需求类型为T1和T2,该query进行分词处理后得到的词语为t1、t2和t3,则t1、t2和t3可以均映射到需求类型T1和T2,如图3所示。
S3、根据分词处理后得到的各词语映射到各需求类型上的次数,统计各词语对应的需求类型概率。
同一个词语在不同query中可能映射到相同的需求类型,也可能映射到不同的需求类型,可以统计各词语映射到需求类型上的次数,从而计算各词语映射到该需求类型的概率分别作为各词语对应的需求类型概率。
至此建立词语需求概率模型的过程结束。
在获取到分词处理后得到的各词语所对应的需求类型概率后,确定query具有的需求类型的方式可以采用但不限于以下两种:
第一种方式:确定出query进行分词处理后得到各词语所对应的各需求类型后,针对各需求类型,分别采用公式
Figure BDA0000054436410000081
计算query在需求类型Tj上的概率p(q,Tj),其中,ti为query进行分词处理后得到的第i个词语,M为query进行分词处理后得到的词语个数,p(ti,Tj)为词语ti对应的需求类型Tj的概率。根据query在各需求类型上的概率,将排在前N个的需求类型确定为该query具有的需求类型,其中N为预设的正整数。
第二种方式:将处于query中的预设位置的词语所对应的需求类型概率中排在前N个的需求类型作为query具有的需求类型,其中预设位置可以是query中的头部或者尾部位置,N为预设的正整数。通常,用户在输入query时,会将重要的词语(即表达用户意图的词语)放在query中的头部或尾部位置,因此,可以直接将处于query中的头部或尾部位置的词语所对应的需求类型概率中排在前一个或几个的需求类型作为query具有的需求类型。
例如,对于用户输入的query如果是“蜗居海青第三集”,如果预设位置是query中的头部,词语“蜗居”对应的需求类型概率分别为:在视频类需求的概率为0.6,在小说类需求的概率为0.2,在图片类需求的概率为0.1,在新闻类需求的概率为0.1,如果取N为2,则可以确定该query的需求类型为视频类需求和小说类需求。
在本发明中query的需求类型可以包括:文本类需求和非文本类需求。其中非文本类需求可以包括:视频类需求、图片类需求、商品类需求、博客类需求、小说类需求、论坛类需求等。
步骤103:分别计算query在识别出的各需求类型上与页面之间的相关度。
假设在步骤102中识别出query具有N种需求类型,query进行步骤101的分词处理之后得到的词语为M个,那么query在第i种需求类型Ti上与页面d之间的相关度p(q,Ti|d)可以采用如下公式计算:
p ( q , T i | d ) = Π j M p ( t j , T i | d ) - - - ( 1 )
其中,p(tj,Ti|d)为对query进行分词处理之后得到的第j个词语tj在需求类型Ti上与页面d之间的相关度。
p(tj,Ti|d)可以按照具体的需求类型Ti采用不同的计算方式:
如果Ti为文本类需求,则可以采用词频-倒文档率(TF-IDF)的方式计算p(tj,Ti|d),即将词语tj在页面d的TF-IDF作为p(tj,Ti|d)。
如果Ti是非文本类需求,则需要进一步对页面d的资源类型进行识别,可以采用以下参数构成的拟合函数来计算p(tj,Ti|d):tj与该页面d主题的相关度、页面d的资源类型与Ti一致的概率。
例如,如果Ti为视频类需求,则可以采用以下参数构成的拟合函数来计算p(tj,Ti|d):tj与该页面d主题的相关度、页面d是视频类页面的概率。该拟合函数还可以包括以下参数中的之一或组合:视频长度、视频清晰度以及视频来源等。例如:将页面d的f(tj与该页面d主题的相关度,页面d是视频类页面的概率,视频长度,视频清晰度,视频来源)的函数值作为p(tj,Ti|d)。
如果Ti为图片类需求,则可以采用以下参数构成的拟合函数来计算p(tj,Ti|d):tj与该页面d主题的相关度、页面d是图片类页面的概率。该拟合函数还可以包括以下参数中的之一或组合:图片大小、图片数目以及图片清晰度等。例如:将页面d的f(tj与该页面d主题的相关度,页面d是图片类页面的概率,图片大小,图片数目,图片清晰度)的函数值作为p(tj,Ti|d)。
如果Ti为商品类需求,则可以采用以下参数构成的拟合函数来计算p(tj,Ti|d):tj与该页面d主题的相关度、页面d是商品类页面的概率。该拟合函数还可以包括以下参数中的之一或组合:商品数目以及商品丰富度等。例如,将页面d的f(tj与该页面d主题的相关度,页面d是商品类页面的概率,商品数目,商品丰富度)的函数值作为p(tj,Ti|d)。
步骤104:整合query在识别出的各需求类型上与页面之间的相关度,得到query与页面之间的相关度。
本步骤可以采用如下公式整合得到query与页面d之间的相关度p(d|q):
p ( d | q ) = Σ i = 1 N p ( q , T i | d ) * p ( d ) p ( q ) - - - ( 2 )
其中,p(d)为页面d出现的概率,p(q)为query出现的概率,可以认为所有页面出现的概率均是相同的,所有query出现的概率也是相同的,即p(d)和p(q)可以采用预设的正整数。
下面举一个具体的例子对图1所示过程进行说明。假设用户输入的query为“蜗居第三集”的query,对该query进行分词处理后,得到“蜗居”和“第三集”两个词语。查找预先建立的词语需求概率模型后,得到“蜗居”对应视频类需求的概率为0.6,对应小说类需求的概率为0.2,对应图片类需求的概率为0.1,对应新闻类需求的概率为0.1;“第三集”对应视频类需求的概率为0.8,对应小说类需求的概率为0.2,新闻类需求的概率为0.05。
计算query在视频类需求的概率p(q,T1)为:0.6×0.8=0.48,query在小说类需求的概率p(q,T2)为:0.2×0.2=0.04,query在新闻类需求的概率p(q,T3)为:0.1*0.05=0.005,query在图片类需求的概率p(q,T4)为0。取概率值排在前两个的需求类型,即视频类需求和小说类需求作为该query具有的需求类型。
进一步计算query分别在视频类需求和小说类需求上与页面d之间的相关度p(q,T1|d)和p(q,T2|d):
p ( q , T 1 | d ) = Π j 2 p ( t j , T 1 | d )
p ( q , T 2 | d ) = Π j 2 p ( t j , T 2 | d )
最后整合query在视频类需求和小说类需求上与页面d之间的相关度,假设p(d)和p(q)的取值均为1,得到query与页面d之间的相关度p(d|q)为:
p ( d | q ) = p ( q , T 1 | d ) * p ( d ) + p ( q , T 2 | d ) * p ( d ) p ( q ) .
本发明实施例提供的上述方法可以用于搜索结果的排序,即根据上述方法计算出的query与搜索结果中各页面的相关度,按照相关度从高到低的顺序对搜索结果中各页面进行排序。当然,也不排除利用本发明提供的上述方法进行其他应用,例如,应用于搜索结果的召回,仅将与query的相关度达到预设相关度阈值的页面作为该query的搜索结果进行召回。
实施例二、
图4为本发明实施例二提供的相关度计算装置结构图,如图4所示,该装置可以包括:分词处理单元400、需求识别单元410、相关度计算单元420和相关度整合单元430。
分词处理单元400,用于对用户输入的搜索请求query进行分词处理。
其中,对query进行的分词处理可以采用但不限于以下所列中的任一种:基于字符串的分词方法、基于理解的分词方法、基于统计的分词方法以及基于语义的分词方法。
另外,分词处理单元400还可以进一步对分词处理后得到的各词语进行过滤处理,包括但不限于以下所列过滤处理:过滤掉预设的停用词表所包含的词语,或者过滤掉非独立表意的词语等。
需求识别单元410,用于利用分词处理单元400分词处理后得到的各词语所对应的需求类型概率,对query进行需求类型的识别。
相关度计算单元420,用于分别计算query在需求识别单元410识别出的各需求类型上与页面之间的相关度。
整合处理单元430,用于整合query在识别出的各需求类型上与页面之间的相关度,得到query与页面之间的相关度。
另外,该装置还可以包括:词语需求确定单元440,用于查找预先建立的词语需求概率模型,来确定分词处理后得到的各词语对应的需求类型概率。
其中,上述词语需求概率模型可以包含:词语、词语对应的需求类型、词语对应的需求类型概率。
除此之外,该装置还可以包括:用于建立词语需求概率模型的模型建立单元450,具体包括:query需求确定子单元451、分词处理子单元452、需求映射子单元453和概率统计子单元454。
query需求确定子单元451,用于根据搜索日志中各query对应的搜索结果,确定各query对应的需求类型。
分词处理子单元452,用于对各query进行分词处理。
需求映射子单元453,用于将分词处理子单元452进行分词处理后得到的各词语映射到所属query对应的需求类型。
概率统计子单元454,用于根据各词语映射到各需求类型上的次数,统计各词语对应的需求类型概率。
其中,query需求确定子单元451可以根据人工标注确定各query对应的需求类型,或者,根据搜索日志中记录的用户对各query对应的搜索结果的行为,从用户所点击或浏览搜索结果的页面类型中确定各query对应的需求类型。
需求识别单元410可以采用以下两种方式进行query的需求识别:
第一种方式:需求识别单元410具体包括:概率计算子单元411和需求识别子单元412。
概率计算子单元411,用于针对分词处理单元400分词处理后得到的各词语所对应的各需求类型,分别采用公式
Figure BDA0000054436410000121
计算query在需求类型Tj上的概率p(q,Tj),其中,ti为query进行分词处理后得到的第i个词语,M为query进行分词处理后得到的词语个数,p(ti,Tj)为词语ti所对应的需求类型Tj概率。
需求识别子单元412,用于根据query在各需求类型上的概率,将排在前N个的需求类型确定为query具有的需求类型,其中N为预设的正整数。
第二种方式:需求识别单元410具体将query中的预设位置的词语所对应的需求类型概率中排在前N个的需求类型确定为query具有的需求类型,其中N为预设的正整数。
图4中仅示出需求识别单元410的上述第一种方式所对应的结构。具体地,相关度计算单元420可以采用公式
Figure BDA0000054436410000131
计算query在需求类型Ti上与页面d之间的相关度p(q,Ti|d)。
其中p(tj,Ti|d)为对query进行分词处理之后得到的第j个词语tj在需求类型Ti上与页面d之间的相关度,M为query进行分词处理后得到的词语个数。
相关度整合单元430可以具体采用公式
Figure BDA0000054436410000132
整合得到query与页面d之间的相关度p(d|q)。
其中,p(d)和p(q)为预设的正整数,所述p(q,Ti|d)为所述query在需求类型Ti上与页面d之间的相关度。
p(tj,Ti|d)可以按照具体的需求类型Ti采用不同的计算方式:
当Ti为文本类需求时,p(tj,Ti|d)可以采用词频-倒文档率(TF-IDF)的方式计算,即将词语tj在页面d的TF-IDF作为p(tj,Ti|d)。
当Ti是非文本类需求时,可以采用以下参数构成的拟合函数来计算p(tj,Ti|d):tj与该页面d主题的相关度、页面d的资源类型与Ti一致的概率。
例如,当Ti为视频类需求时,p(tj,Ti|d)可以采用以下参数构成的拟合函数来计算p(tj,Ti|d):tj与该页面d主题的相关度、页面d是视频类页面的概率。该拟合函数还可以包括以下参数中的之一或组合:视频长度、视频清晰度以及视频来源等。例如:将页面d的f(tj与该页面d主题的相关度,页面d是视频类页面的概率,视频长度,视频清晰度,视频来源)的函数值作为p(tj,Ti|d)。
当Ti为图片类需求时,则p(tj,Ti|d)可以采用以下参数构成的拟合函数来计算:tj与该页面d主题的相关度、页面d是图片类页面的概率。该拟合函数还可以包括以下参数中的之一或组合:图片大小、图片数目以及图片清晰度等。例如:将页面d的f(tj与该页面d主题的相关度,页面d是图片类页面的概率,图片大小,图片数目,图片清晰度)的函数值作为p(tj,Ti|d)。
当Ti为商品类需求时,则p(tj,Ti|d)可以采用以下参数构成的拟合函数来计算:tj与该页面d主题的相关度、页面d是商品类页面的概率。该拟合函数还可以包括以下参数中的之一或组合:商品数目以及商品丰富度等。例如,将页面d的f(tj与该页面d主题的相关度,页面d是商品类页面的概率,商品数目,商品丰富度)的函数值作为p(tj,Ti|d)。
通过本发明实施例提供的上述方法和装置所计算出的相关度,可以应用于搜索过程中的页面召回或页面排序中,由于通过本发明实施例计算出的query与页面之间的相关度充分考量了query的需求类型,能够在至少一个需求维度上计算query与页面之间的相关度,使得计算出的相关度更加准确,因此,应用于搜索过程能够提供更好的搜索效果。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (18)

1.一种相关度计算方法,其特征在于,该方法包括:
A、对用户输入的搜索请求query进行分词处理;
B、利用分词处理后得到的各词语所对应的需求类型概率,对所述query进行需求类型的识别;
C、分别计算所述query在识别出的各需求类型上与页面之间的相关度;
D、整合所述query在识别出的各需求类型上与页面之间的相关度,得到所述query与所述页面之间的相关度。
2.根据权利要求1所述的方法,其特征在于,在所述步骤B中,查找预先建立的词语需求概率模型,来确定所述分词处理后得到的各词语对应的需求类型概率;
其中,所述词语需求概率模型中包含:词语、词语对应的需求类型、词语对应的需求类型概率。
3.根据权利要求2所述的方法,其特征在于,所述词语需求概率模型的建立包括:
S1、根据搜索日志中各query对应的搜索结果,确定所述各query对应的需求类型;
S2、对所述各query进行分词处理,将分词处理后得到的各词语映射到所属query对应的需求类型;
S3、根据各词语映射到各需求类型上的次数,统计各词语对应的需求类型概率。
4.根据权利要求3所述的方法,其特征在于,所述步骤S1具体包括:
根据搜索日志中各query对应的搜索结果,人工标注所述各query对应的需求类型;或者,
根据搜索日志中记录的用户对各query对应的搜索结果的行为,从用户所点击或浏览搜索结果的页面类型中确定各query对应的需求类型。
5.根据权利要求1所述的方法,其特征在于,所述步骤B具体包括:
针对所述分词处理后得到的各词语所对应的各需求类型,分别采用公式
Figure FDA0000054436400000021
计算query在需求类型Tj上的概率p(q,Tj),其中,ti为所述query进行分词处理后得到的第i个词语,M为所述query进行分词处理后得到的词语个数,p(ti,Tj)为词语ti所对应的需求类型Tj概率;
根据所述query在各需求类型上的概率,将排在前N个的需求类型确定为所述query具有的需求类型,其中N为预设的正整数。
6.根据权利要求1所述的方法,其特征在于,所述步骤B具体包括:
将处于所述query中的预设位置的词语所对应的需求类型概率中排在前N个的需求类型确定为所述query具有的需求类型,其中N为预设的正整数。
7.根据权利要求1所述的方法,其特征在于,在所述步骤C中,采用公式
Figure FDA0000054436400000022
计算所述query在需求类型Ti上与页面d之间的相关度p(q,Ti|d);
其中p(tj,Ti|d)为对所述query进行分词处理之后得到的第j个词语tj在需求类型Ti上与页面d之间的相关度,M为所述query进行分词处理后得到的词语个数。
8.根据权利要求1所述的方法,其特征在于,所述步骤D具体包括:采用公式
Figure FDA0000054436400000023
整合得到所述query与页面d之间的相关度p(d|q);
其中,所述p(d)和所述p(q)为预设的正整数,所述p(q,Ti|d)为所述query在需求类型Ti上与页面d之间的相关度。
9.根据权利要求7所述的方法,其特征在于,当所述Ti为文本类需求时,所述p(tj,Ti|d)为所述tj在所述页面d的词频-倒文档率的值;
当所述Ti为非文本类需求时,所述p(tj,Ti|d)采用以下参数构成的拟合函数来计算:所述tj与所述页面d的主题的相关度、所述页面d的资源类型与Ti一致的概率。
10.一种相关度计算装置,其特征在于,该装置包括:分词处理单元、需求识别单元、相关度计算单元和相关度整合单元;
所述分词处理单元,用于对用户输入的搜索请求query进行分词处理;
所述需求识别单元,用于利用所述分词处理单元分词处理后得到的各词语所对应的需求类型概率,对所述query进行需求类型的识别;
所述相关度计算单元,用于分别计算所述query在所述需求识别单元识别出的各需求类型上与页面之间的相关度;
所述整合处理单元,用于整合所述query在识别出的各需求类型上与页面之间的相关度,得到所述query与所述页面之间的相关度。
11.根据权利要求10所述的装置,其特征在于,该装置还包括:词语需求确定单元,用于查找预先建立的词语需求概率模型,来确定所述分词处理后得到的各词语对应的需求类型概率;
其中,所述词语需求概率模型中包含:词语、词语对应的需求类型、词语对应的需求类型概率。
12.根据权利要求11所述的装置,其特征在于,该装置还包括:模型建立单元;
所述模型建立单元具体包括:query需求确定子单元、分词处理子单元、需求映射子单元和概率统计子单元;
所述query需求确定子单元,用于根据搜索日志中各query对应的搜索结果,确定所述各query对应的需求类型;
所述分词处理子单元,用于对所述各query进行分词处理;
所述需求映射子单元,用于将所述分词处理子单元进行分词处理后得到的各词语映射到所属query对应的需求类型;
所述概率统计子单元,用于根据各词语映射到各需求类型上的次数,统计各词语对应的需求类型概率。
13.根据权利要求12所述的装置,其特征在于,所述query需求确定子单元,根据人工标注确定各query对应的需求类型,或者,根据搜索日志中记录的用户对各query对应的搜索结果的行为,从用户所点击或浏览搜索结果的页面类型中确定各query对应的需求类型。
14.根据权利要求10所述的装置,其特征在于,所述需求识别单元具体包括:概率计算子单元和需求识别子单元;
所述概率计算子单元,用于针对所述分词处理单元分词处理后得到的各词语所对应的各需求类型,分别采用公式
Figure FDA0000054436400000041
计算query在需求类型Tj上的概率p(q,Tj),其中,ti为所述query进行分词处理后得到的第i个词语,M为所述query进行分词处理后得到的词语个数,p(ti,Tj)为词语ti所对应的需求类型Tj概率;
所述需求识别子单元,用于根据所述query在各需求类型上的概率,将排在前N个的需求类型确定为所述query具有的需求类型,其中N为预设的正整数。
15.根据权利要求10所述的装置,其特征在于,所述需求识别单元具体将所述query中的预设位置的词语所对应的需求类型概率中排在前N个的需求类型确定为所述query具有的需求类型,其中N为预设的正整数。
16.根据权利要求10所述的装置,其特征在于,所述相关度计算单元具体采用公式
Figure FDA0000054436400000042
计算所述query在需求类型Ti上与页面d之间的相关度p(q,Ti|d);
其中p(tj,Ti|d)为对所述query进行分词处理之后得到的第j个词语tj在需求类型Ti上与页面d之间的相关度,M为所述query进行分词处理后得到的词语个数。
17.根据权利要求10所述的装置,其特征在于,所述相关度整合单元具体采用公式
Figure FDA0000054436400000051
整合得到所述query与页面d之间的相关度p(d|q);
其中,所述p(d)和所述p(q)为预设的正整数,所述p(q,Ti|d)为所述query在需求类型Ti上与页面d之间的相关度。
18.根据权利要求16所述的装置,其特征在于,当所述Ti为文本类需求时,所述p(tj,Ti|d)为所述tj在所述页面d的词频-倒文档率的值;
当所述Ti为非文本类需求时,所述p(tj,Ti|d)采用以下参数构成的拟合函数来计算:所述tj与所述页面d的主题的相关度、所述页面d的资源类型与Ti一致的概率。
CN201110088591.9A 2011-04-08 2011-04-08 一种相关度计算方法和装置 Active CN102737045B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110088591.9A CN102737045B (zh) 2011-04-08 2011-04-08 一种相关度计算方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110088591.9A CN102737045B (zh) 2011-04-08 2011-04-08 一种相关度计算方法和装置

Publications (2)

Publication Number Publication Date
CN102737045A true CN102737045A (zh) 2012-10-17
CN102737045B CN102737045B (zh) 2014-02-19

Family

ID=46992565

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110088591.9A Active CN102737045B (zh) 2011-04-08 2011-04-08 一种相关度计算方法和装置

Country Status (1)

Country Link
CN (1) CN102737045B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103870521A (zh) * 2012-12-17 2014-06-18 祁勇 一种获取用户和文档个性化特征的方法和系统
CN104050203A (zh) * 2013-03-17 2014-09-17 祁勇 一种获取网页和用户个性化特征的方法
CN104375847A (zh) * 2013-08-14 2015-02-25 华为技术有限公司 识别业务类型的方法及装置
CN106919588A (zh) * 2015-12-24 2017-07-04 北京奇虎科技有限公司 一种应用程序搜索系统及方法
CN109740075A (zh) * 2018-12-13 2019-05-10 北京百度网讯科技有限公司 事件相关度计算方法、装置、设备及存储介质
CN110516127A (zh) * 2019-08-28 2019-11-29 百度在线网络技术(北京)有限公司 多需求搜索请求的划分方法、装置、电子设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853272A (zh) * 2010-04-30 2010-10-06 华北电力大学(保定) 基于相关反馈和聚类的搜索引擎技术

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853272A (zh) * 2010-04-30 2010-10-06 华北电力大学(保定) 基于相关反馈和聚类的搜索引擎技术

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103870521A (zh) * 2012-12-17 2014-06-18 祁勇 一种获取用户和文档个性化特征的方法和系统
CN104050203A (zh) * 2013-03-17 2014-09-17 祁勇 一种获取网页和用户个性化特征的方法
CN104375847A (zh) * 2013-08-14 2015-02-25 华为技术有限公司 识别业务类型的方法及装置
CN104375847B (zh) * 2013-08-14 2017-12-05 华为技术有限公司 识别业务类型的方法及装置
CN106919588A (zh) * 2015-12-24 2017-07-04 北京奇虎科技有限公司 一种应用程序搜索系统及方法
CN109740075A (zh) * 2018-12-13 2019-05-10 北京百度网讯科技有限公司 事件相关度计算方法、装置、设备及存储介质
CN110516127A (zh) * 2019-08-28 2019-11-29 百度在线网络技术(北京)有限公司 多需求搜索请求的划分方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN102737045B (zh) 2014-02-19

Similar Documents

Publication Publication Date Title
US9721205B2 (en) Clarification of submitted questions in a question and answer system
CN108280114B (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
CN102799591B (zh) 一种提供推荐词的方法及装置
CN113822067A (zh) 关键信息提取方法、装置、计算机设备及存储介质
CN105357586A (zh) 视频弹幕过滤方法及装置
WO2019041521A1 (zh) 用户关键词提取装置、方法及计算机可读存储介质
CN104199972A (zh) 一种基于深度学习的命名实体关系抽取与构建方法
CN102737045B (zh) 一种相关度计算方法和装置
CN103488724A (zh) 一种面向图书的阅读领域知识图谱构建方法
CN104462553A (zh) 问答页面相关问题推荐方法及装置
CN103608826A (zh) 利用网络信息挖掘的视频内产品注释
CN104008166A (zh) 一种基于形态和语义相似度的对话短文本聚类方法
CN102737039A (zh) 索引建立方法、搜索方法和搜索结果排序方法及对应装置
CN109522011A (zh) 一种基于编程现场上下文深度感知的代码行推荐方法
CN102402566A (zh) 基于中文网页自动分类技术的Web用户行为分析方法
CN103870597A (zh) 一种无水印图片的搜索方法及装置
JP2018509664A (ja) モデル生成方法、単語重み付け方法、装置、デバイス及びコンピュータ記憶媒体
CN103034627A (zh) 计算句子相似度的方法和装置以及机器翻译的方法和装置
CN105630975A (zh) 一种信息处理方法和电子设备
CN106815253B (zh) 一种基于混合数据类型数据的挖掘方法
CN104317867A (zh) 对搜索引擎返回的网页图片进行实体聚类的系统
CN105159885A (zh) 一种兴趣点名称的识别方法和装置
CN109657043B (zh) 自动生成文章的方法、装置、设备及存储介质
CN105243120A (zh) 一种检索方法及装置
CN114141384A (zh) 用于检索医学数据的方法、设备和介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant