CN103186573A - 一种确定搜索需求强度的方法、需求识别的方法及其装置 - Google Patents

一种确定搜索需求强度的方法、需求识别的方法及其装置 Download PDF

Info

Publication number
CN103186573A
CN103186573A CN2011104494327A CN201110449432A CN103186573A CN 103186573 A CN103186573 A CN 103186573A CN 2011104494327 A CN2011104494327 A CN 2011104494327A CN 201110449432 A CN201110449432 A CN 201110449432A CN 103186573 A CN103186573 A CN 103186573A
Authority
CN
China
Prior art keywords
inquiry
preset need
need classification
demand
core word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011104494327A
Other languages
English (en)
Other versions
CN103186573B (zh
Inventor
黄际洲
柴春光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201110449432.7A priority Critical patent/CN103186573B/zh
Publication of CN103186573A publication Critical patent/CN103186573A/zh
Application granted granted Critical
Publication of CN103186573B publication Critical patent/CN103186573B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种确定搜索需求强度的方法、需求识别的方法及其装置,其中确定搜索需求强度的方法包括:提取搜索日志中的查询归属于预设需求类别的相似度特征及点击特征中的至少一个特征;根据提取的每个特征及每个特征的权重计算所述查询在所述预设需求类别的强度。需求识别的方法包括:获取线上查询;确定搜索日志中与所述线上查询最相似的线下查询;将确定的线下查询的各需求类别强度中大于预设值的需求类别强度所对应的需求类别作为所述线上查询具有的需求。通过上述方式,提高了对用户需求识别的准确率。

Description

一种确定搜索需求强度的方法、需求识别的方法及其装置
【技术领域】
本发明涉及数据处理技术,特别涉及一种确定搜索需求强度的方法、需求识别的方法及其装置。
【背景技术】
随着搜索引擎技术的发展,用户已经不仅仅满足于从搜索引擎中获取与搜索关键字匹配的内容,而是希望能够获得与自己搜索目的相关的结果。为了向用户提供与搜索目的相关的搜索结果,就必须对用户的搜索需求进行识别。在现有的搜索需求识别的方法中,采用简单规则对用户的需求进行识别,例如制定规则“凡是以MP3结尾的查询都具有音乐需求”等等,这种方式虽然简单,但是需要大量的人力物力去制定规则,并且规则写入到程序当中,使得需求识别程序的可扩展性和可维护性都大大降低,同时,由于规则难以适应需求的变化,这种方式对用户需求的识别效果也比较差。
【发明内容】
本发明所要解决的技术问题是提供一种确定搜索需求强度的方法、需求识别的方法及其装置,以解决现有技术中对用户的需求进行识别时,识别程序的可扩展性和可维护性差,且对用户需求的识别准确率较低的缺陷。
本发明为解决技术问题而采用的技术方案是提供一种确定搜索需求强度的方法,包括:A.提取搜索日志中的查询归属于预设需求类别的相似度特征及点击特征中的至少一个特征,其中所述查询归属于预设需求类别的相似度特征用于表征所述查询与所述预设需求类别之间的语义相似度,所述查询归属于预设需求类别的点击特征用于表征所述查询引起的点击页面属于所述预设需求类别的可能性;B.根据提取的每个特征及每个特征的权重计算所述查询归属于所述预设需求类别的得分,并利用所述查询归属于所述预设需求类别的得分得到所述查询在所述预设需求类别的强度。
根据本发明之一优选实施例,提取所述查询归属于预设需求类别的相似度特征的步骤包括:获取所述预设需求类别的核心词向量;获取所述查询的核心词向量;计算所述查询的核心词向量与所述预设需求类别的核心词向量之间的余弦相似度,得到所述查询归属于所述预设需求类别的相似度特征。
根据本发明之一优选实施例,获取所述预设需求类别的核心词向量的步骤包括:获取所述预设需求类别的种子查询;从所述预设需求类别的种子查询及所述预设需求类别的种子查询得到的点击页面中提取核心词;确定提取的各核心词在所述预设需求类别的核心词向量中所占的权重,以生成所述预设需求类别的核心词向量。
根据本发明之一优选实施例,获取所述预设需求类别的种子查询的方式至少包括以下方式中的一种:方式一、将搜索日志中人工标注为所述预设需求类别的查询作为所述预设需求类别的种子查询;或者方式二:将搜索日志中与人工标注为所述预设需求类别的查询引起了相同点击页面的查询作为所述预设需求类别的种子查询。
根据本发明之一优选实施例,获取所述查询的核心词向量的步骤包括:从所述查询及所述查询得到的点击页面中提取核心词;确定提取的各核心词在所述查询的核心词向量中所占的权重,以生成所述查询的核心词向量。
根据本发明之一优选实施例,提取所述查询归属于预设需求类别的点击特征的步骤包括:对所述查询引起的各点击页面的内容按照需求进行分类,以确定各点击页面所属需求类别;统计属于所述预设需求类别的点击页面数量;以所述查询属于所述预设需求类别的点击页面数量与所述查询引起的所有点击页面数量的比值作为所述查询归属于所述预设需求类别的点击特征。
本发明还提供了一种需求识别的方法,包括:获取线上查询;确定搜索日志中与所述线上查询最相似的线下查询;将确定的线下查询的各需求类别强度中大于预设值的需求类别强度所对应的需求类别作为所述线上查询具有的需求,其中线下查询的各需求类别强度是采用前文所述的确定搜索需求强度的方法得到的。
根据本发明之一优选实施例,所述需求识别方法进一步包括:向用户返回与所述线上查询具有的需求相关的页面;或者向用户返回与所述线上查询具有的需求相关的推荐词。
本发明还提供了一种确定搜索需求强度的装置,包括:相似度特征提取单元或点击特征提取单元中的至少一个,其中相似度特征提取单元用于提取搜索日志中的查询归属于预设需求类别的相似度特征,点击特征提取单元用于提取搜索日志中的查询归属于所述预设需求类别的点击特征,所述查询归属于所述预设需求类别的相似度特征用于表征所述查询与所述预设需求类别之间的语义相似度,所述查询归属于所述预设需求类别的点击特征用于表征所述查询引起的点击页面属于所述预设需求类别的可能性;计算单元,用于根据提取的每个特征及每个特征的权重计算所述查询归属于所述预设需求类别的得分,并利用所述查询归属于所述预设需求类别的得分得到所述查询在所述预设需求类别的强度。
根据本发明之一优选实施例,所述相似度特征提取单元包括:需求向量获取单元,用于获取所述预设需求类别的核心词向量;查询向量获取单元,用于获取所述查询的核心词向量;相似度计算单元,用于计算所述查询的核心词向量与所述预设需求类别的核心词向量之间的余弦相似度,得到所述查询归属于所述预设需求类别的相似度特征。
根据本发明之一优选实施例,所述需求向量获取单元包括:种子获取单元,用于在获取所述预设需求类别的核心词向量时,获取所述预设需求类别的种子查询;第一提取单元,用于从所述预设需求类别的种子查询及所述预设需求类别的种子查询得到的点击页面中提取核心词;第一确定单元,用于确定提取的各核心词在所述预设需求类别的核心词向量中所占的权重,以生成所述预设需求类别的核心词向量。
根据本发明之一优选实施例,所述种子获取单元获取所述预设需求类别的种子查询的方式至少包括以下方式中的一种:方式一、将搜索日志中人工标注为所述预设需求类别的查询作为所述预设需求类别的种子查询;或者方式二:将搜索日志中与人工标注为所述预设需求类别的查询引起了相同点击页面的查询作为所述预设需求类别的种子查询。
根据本发明之一优选实施例,所述查询向量获取单元包括:第二提取单元,用于从所述查询及所述查询得到的点击页面中提取核心词;第二确定单元,用于确定提取的各核心词在所述查询的核心词向量中所占的权重,以生成所述查询的核心词向量。
根据本发明之一优选实施例,所述点击特征提取单元包括:分类单元,用于对所述查询引起的各点击页面的内容按照需求进行分类,以确定各点击页面所属需求类别;统计单元,用于统计属于所述预设需求类别的点击页面数量;特征确定单元,用于以所述查询属于所述预设需求类别的点击页面数量与所述查询引起的所有点击页面数量的比值作为所述查询归属于所述预设需求类别的点击特征。
本发明还提供了一种需求识别的装置,包括:接收单元,用于获取线上查询;查询确定单元,用于确定搜索日志中与所述线上查询最相似的线下查询;需求确定单元,用于将确定的线下查询的各需求类别强度中大于预设值的需求类别强度所对应的需求类别作为所述线上查询具有的需求,其中线下查询的各需求类别强度是采用前文所述的确定搜索需求强度的装置得到的。
根据本发明之一优选实施例,所述需求识别装置进一步包括:页面返回单元,用于向用户返回与所述线上查询具有的需求相关的页面;或者推荐词返回单元,用于向用户返回与所述线上查询具有的需求相关的推荐词。
由以上技术方案可以看出,通过对线下查询提取特征,并依据提取的特征计算线下查询的需求强度,可以实现对线上查询的需求识别。由于每个线下查询存在着不同的需求强度分值,通过衡量线上查询与线下查询的相似度,就可以根据需要通过不同的需求强度预设值对用户的线上查询具有的需求进行选取,从而使得需求识别程序的可扩展性和可维护性都大大提高,也提高了对用户需求识别的准确率。
【附图说明】
图1为本发明中确定搜索需求强度的方法与需求识别的方法的实施例的流程示意图;
图2为本发明中训练分类器并利用分类器对页面进行分类的过程的示意图;
图3为本发明中确定搜索需求强度的装置与需求识别的装置的实施例的结构示意框图;
图4为本发明中相似度特征提取单元的实施例的结构示意框图;
图5为本发明中点击特征提取单元的实施例的结构示意框图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
请参考图1,图1为本发明中确定搜索需求强度的方法与需求识别的方法的实施例的流程示意图,其中图1的线下部分为确定搜索需求强度的方法的流程示意图,图1的线上部分为需求识别的方法的流程示意图。如图1所示,确定搜索需求强度的方法包括:
S101:提取搜索日志中的查询归属于预设需求类别的相似度特征及点击特征中的至少一个特征。
S102:根据提取的每个特征及每个特征的权重计算该查询归属于预设需求类别的得分,并利用该查询归属于预设需求类别的得分得到该查询在预设需求类别的强度。
下面对上述步骤进行具体说明。
本发明中的需求类别,是预先设置的对搜索日志中的查询进行分类的类别。例如:小说类需求、音乐类需求、住房类需求等等。
查询归属于一个需求类别的相似度特征用于表征该查询与该需求类别之间的语义相似度。查询归属于一个需求类别的点击特征用于表征该查询引起的点击页面归属于该需求类别的可能性。
步骤S101中提取一个查询归属于预设需求类别的相似度特征的步骤包括:
步骤S1011:获取该需求类别的核心词向量。
步骤S1012:获取该查询的核心词向量。
步骤S1013:计算该查询的核心词向量与该需求类别的核心词向量之间的余弦相似度,得到该查询归属于该需求类别的相似度特征。
步骤S1011中,获取预设需求类别的核心词向量的步骤包括:
步骤S10111:获取该需求类别的种子查询。
步骤S10112:从该需求类别的种子查询及该需求类别的种子查询得到的点击页面中提取核心词。
步骤S10113:确定提取的各核心词在该需求类别的核心词向量中所占的权重,以生成该需求类别的核心词向量。
步骤S10111中,种子查询指的是搜索日志中能反映相应预设需求的查询。本实施例中,获取预设需求类别的种子查询的方式包括:
方式一:将搜索日志中人工标注为该需求类别的查询作为该需求类别的种子查询。
例如可以在搜索日志中标注“斗破苍穹最新章节”、“小说斗破苍穹”、“斗破苍穹txt”等查询为小说类的查询,这些标注的查询就可以作为小说需求类别的种子查询。
方式二:将搜索日志中与人工标注为该需求类别的查询引起了相同点击页面的查询作为该需求类别的种子查询。
搜索日志中记录了查询与查询引起的点击页面之间的对应关系。人工标注的种子查询引起的点击页面,也可能被其他查询点击,这些与人工标注的种子查询点击了相同页面的查询也可以作为种子查询。
人工标注的种子查询数量不需要很多,通过方式二,可以在人工标注种子查询的基础上得到数量更多的种子查询。
例如:与“小说斗破苍穹”这个查询点击了相同页面的查询有“斗破苍穹全文阅读”、“玄幻小说下载”,因此“斗破苍穹全文阅读”和“玄幻小说下载”也可以作为小说需求类别的种子查询。
除了上述两种方式获取预设需求类别的种子查询以外,还可以通过查询模板来挖掘预设需求类别的种子查询。例如有预设需求类别的查询模板,搜索日志中凡是与该查询模板匹配的查询,均可以作为预设需求类别的种子查询。又或者有预设需求类别的页面地址(URL)模板,搜索日志中凡是与该页面地址模板匹配的页面地址所对应的查询,也可以作为预设需求类别的种子查询。应该理解,本发明对获取种子查询的方式并不加以限定,任何能够得到与需求类别相关的查询的方式均可作为获取种子查询的方式。
步骤S10112中,从种子查询及种子查询得到的点击页面中提取核心词,可以通过词频统计的方式来进行。具体的方式为:在对种子查询及种子查询得到的点击页面进行分词处理后,计算每个词的词频,将词频满足预设要求的词语作为核心词。
种子查询得到的点击页面包括了页面的标题(title)部分和页面的内容部分。页面的标题部分,指的是在一个页面的HTML格式文件中,属于title标签对里的内容。页面的标题部分,通常能够反映该页面的主题,因此可以认为标题部分的词语在种子查询得到的整个点击页面中的重要性比较高,在提取核心词时,可以为种子查询中的词与页面的标题部分的词语设置较高的权重,这样在对每个词加权计算词频时,就更容易得到合理的核心词。
例如对住房需求类别的种子查询“洪家华天大厦”,其得到的页面的标题部分中包含的词语有“洪家华天大厦、二手房、台州”,而页面的内容部分包含的词语有“洪家华天大厦、二手房、限购、小区、房屋、出售”,假设种子查询与页面的标题部分中每个词均出现了1次,而页面的内容部分包含的词语中“洪家华天大厦”出现了2次,“二手房”出现了1次,“限购”出现了1次,“小区”出现了5次,“房屋”出现了2次,“出售”出现了1次,且为种子查询和页面的标题部分的词语设置的权重是1,而为页面的内容部分的词语设置的权重是0.5,则计算上述种子查询及种子查询得到的点击页面中的所有词语的词频,得到:
“洪家华天大厦”的词频=1*1+1*1+0.5*2=3
“二手房”的词频=1*0+1*1+0.5*1=1.5
“台州”的词频=1*0+1*1+0.5*0=1
“限购”=1*0+1*0+0.5*1=0.5
“小区”=1*0+1*0+0.5*5=2.5
“房屋”=1*0+1*0+1*0.5=0.5
“出售”=1*0+1*0+1*0.5=0.5
如果设定将词频大于1的词语选择为核心词,则上述例子中可以得到的住房类别的核心词为“洪家华天大厦”、“二手房”和“小区”。
当然,在确定核心词时,也可以仅对查询中的词语进行加权处理,应该理解,以上实例仅是为了便于理解本发明而举的一个例子,并不用于对本发明进行限定,本发明对确定核心词时的策略不做限定。
步骤S10113中,确定提取的各核心词在对应需求类别的核心词向量中所占的权重时,可以采用核心词的词频作为对应的权重,也可以采用核心词的词频-逆文档频率(TF-IDF)作为对应的权重。由于确定一个词语的词频逆文档频率属于现有技术,在此不再做过多的说明。
在确定出提取的每个核心词所占的权重后,实际上代表着预设需求类别的核心词就被量化了,每个权重构成了核心词向量中的一个分量,从而形成了整个核心词向量。比如上述的“洪家华天大厦”的权重为3,“二手房”的权重为2,“小区”的权重为2.5,则住房需求类别的核心词向量就可以表示为{(洪家华天大厦,3),(小区,2.5),(二手房,2)}。
与步骤S1011中获取预设需求类别的核心词向量类似的,步骤S1012中获取查询的核心词向量包括:
从该查询及该查询得到的点击页面中提取核心词;确定提取的各核心词在该查询的核心词向量中所占的权重,以生成该查询的核心词向量。
上述提取核心词的过程与确定权重的过程均与步骤S1011中描述的提取核心词与确定权重的过程类似,在此不再单独描述。
本发明中,除了可以用相似度特征来衡量查询具有某种需求的强度,还可以利用查询的点击特征衡量该查询具有某种需求的强度。
在步骤S101中,提取查询归属于预设需求类别的点击特征的步骤包括:
步骤S101a:对该查询引起的各点击页面的内容按照需求进行分类,以确定各点击页面所属需求类别。
步骤S101b:统计属于预设需求类别的点击页面数量。
步骤S101c:以该查询属于预设需求类别的点击页面数量与该查询引起的所有点击页面数量的比值作为该查询归属于预设需求类别的点击特征。
步骤S101a中,对点击页面的内容按照需求进行分类,可以采用任意的现有分类技术进行,本发明对此不做限制,常见的方式是采用机器学习的方法训练分类器,然后用训练后的分类器对未知类别的页面进行分类。分类器可以理解为一个模型,训练分类器的过程实际上就是获取该模型未知的分类参数的过程,当模型训练结束,该模型的各分类参数也就确定了,这时的模型便可以用于对未知类别的页面进行分类。请参考图2,图2为本发明中训练分类器并利用分类器对页面进行分类的过程的示意图。
在图2所示的训练分类器的阶段,需要先按照需求类别标注一批页面作为训练语料,然后对训练语料提取分类时使用的特征。分类时使用的特征可以是由页面的特征词形成的特征向量。页面的特征词及特征词在特征向量中所占的权重,可以采用与前文所述的获取核心词向量类似的方法,在此不再赘述。
与同一个查询产生点击关系的页面可能有多个,在步骤S101a中分别确定了这些点击页面所属类别,在步骤S101b中,将统计预设需求类别包含的点击页面数量,并在步骤S101c中以预设需求类别包含的点击页面数量与该查询的所有点击页面数量的比值作为该查询归属于预设需求类别的点击特征。
例如:对查询“宫崎骏的作品”,其对应点击的页面中有1000个页面属于动画需求类别,有100个页面属于音乐需求类别,而对应点击页面中属于其他需求类别的页面数均为零,则“宫崎骏的作品”这个查询属于动画需求类别的点击特征值就是1000/1100,而属于音乐需求类别的点击特征值就是100/1000,由于该查询没有属于其他需求类别的点击页面,因此该查询属于其他需求类别的点击特征值就是0,由此可以看出,“宫崎骏的作品”具有动画需求的可能性非常高,而具有其他需求的可能性比较小。
在得到查询归属于预设需求类别的特征后,在步骤S102中就可以根据提取的特征及特征的权重计算该查询归属于预设需求类别的得分,该得分即为该查询在预设需求类别的强度。
提取的各特征在最终得分中所占的权重,可以通过预先设定,也可以通过机器学习的方法得到,具体地,可采用各种已有的特征融合算法来确定提取的每个特征所占的权重,在此不再对现有的特征融合算法进行赘述。
请继续参考图1,图1中的线上部分为需求识别的方法的流程示意图。如图1所示,需求识别的方法包括:
步骤S201:获取线上查询。
步骤S202:确定搜索日志中与线上查询最相似的线下查询。
步骤S203:将确定的线下查询的各需求类别强度中大于预设值的需求类别强度所对应的需求类别作为线上查询具有的需求,其中线下查询的各需求类别强度是采用前文所述的确定搜索需求强度的方法得到的。
线上查询就是用户在线发出的查询。步骤S202中确定搜索日志中与线上查询最相似的线下查询可以采用多种方法。例如可以通过前文描述的获取核心词向量类似的方法,利用线上查询和线下查询的检索结果分别对线上查询与线下查询进行扩展并抽取词向量后,计算线上查询与各个线下查询的语义相似度,将语义相似度最高的线下查询作为与线上查询最相似的查询,或者确定线上查询与线下查询的编辑距离,将与线上查询之间的编辑距离最小的线下查询作为与线上查询最相似的线下查询,或者本领域技术人员可以想到的任何其他判断两个查询之间相似程度的方法。本发明对如何确定与线上查询之间最相似的线下查询的方式不做限定。
由于线下查询通过前文所述的确定搜索需求强度的方法可以确定出对应各需求类别的强度,因此在步骤S203中,只需要通过预设值确定需求强度的阈值,就可以把大于这个阈值的需求强度所对应的需求类别作为线上查询具有的需求。
进一步地,在需求识别的方法中,在识别出线上查询所具有的需求后,可根据线上查询具有的需求,向用户返回相关的内容,例如向用户返回与线上查询具有的需求相关的页面,或者向用户返回与线上查询具有的需求相关的推荐词。
假设线上查询“见不见”与搜索日志中的线下查询“见或不见”最相似,而“见或不见”具有的需求分别有诗歌需求、音乐需求和影视需求,则在向用户返回搜索结果时,可以返回与诗歌需求、音乐需求或影视需求相关的页面,或者向用户返回与这几个需求相关的推荐词,如“仓央嘉措”、“何晟铭”或“宫锁心玉”等等。
请参考图3。图3为本发明中确定搜索需求强度的装置与需求识别的装置的实施例的结构示意框图。其中图3的线上部分是确定搜索需求强度的装置的结构示意框图,图3的线下部分是需求识别的装置的结构示意框图。如图3所示,确定搜索需求强度的装置包括相似度特征提取单元301、点击特征提取单元302、计算单元303。
其中,相似度特征提取单元301,用于提取搜索日志中的查询归属于预设需求类别的相似度特征,查询归属于预设需求类别的相似度特征用于表征该查询与预设需求类别之间的语义相似度。
点击特征提取单元302,用于提取搜索日志中的查询归属于预设需求类别的点击特征,查询归属于预设需求类别的点击特征用于表征该查询引起的点击页面属于预设需求类别的可能性。
计算单元303,用于根据提取的每个特征及每个特征的权重计算查询归属于预设需求类别的得分,并将该查询归属于预设需求类别的得分作为该查询在预设需求类别的强度。
请参考图4,图4为本发明中相似度特征提取单元的实施例的结构示意框图。如图4所示,相似度特征提取单元301包括需求向量获取单元3011、查询向量获取单元3012及相似度计算单元3013。
其中需求向量获取单元3011,用于获取预设需求类别的核心词向量。查询向量获取单元3012,用于获取查询的核心词向量。相似度计算单元3013,用于计算查询的核心词向量与预设需求类别的核心词向量之间的余弦相似度并将预设需求类别对应的余弦相似度,得到该查询归属于预设需求类别的相似度特征。
需求向量单元获取单元3011包括:种子获取单元3011_1,用于在获取预设需求类别的核心词向量时,获取预设需求类别的种子查询,第一提取单元3011_2,用于从预设需求类别的种子查询及预设需求类别的种子查询得到的点击页面中提取核心词,第一确定单元3011_3,用于确定提取的各核心词在预设需求类别的核心词向量中所占的权重,以生成预设需求类别的核心词向量。
其中种子获取单元3011_1获取预设需求类别的种子查询的方式至少包括以下一种:
方式一、将搜索日志中人工标注为预设需求类别的查询作为预设需求类别的种子查询;或者
方式二:将搜索日志中与人工标注为预设需求类别的查询引起了相同点击页面的查询作为预设需求类别的种子查询。
查询向量获取单元3012包括第二提取单元3012_1和第二确定单元3012_2。其中第二提取单元3012_1用于从查询和查询得到的点击页面中提取核心词,第二确定单元3012_2用于确定提取的各核心词在查询的核心词向量中所占的权重,以生成查询的核心词向量。
请参考图5,图5为本发明中点击特征提取单元的实施例的结构示意框图。如图5所示,点击特征提取单元302包括分类单元3021、统计单元3022及特征确定单元3023。
其中分类单元3021用于对查询引起的各点击页面的内容按照需求进行分类,以确定各点击页面所属需求类别。统计单元3022用于统计属于预设需求类别的点击页面数量。特征确定单元3023用于以查询属于预设需求类别的点击页面数量与查询引起的所有点击页面数量的比值作为查询归属于预设需求类别的点击特征。
请继续参考3。图3中的线上部分为需求识别装置的结构示意框图。如图3所示,需求识别的装置包括:接收单元401、查询确定单元402及需求确定单元403。
其中,接收单元401用于获取线上查询。查询确定单元402用于确定搜索日志中与线上查询最相似的线下查询。需求确定单元403用于将确定的线下查询的各需求类别强度中大于预设值的需求类别强度所对应的需求类别作为线上查询具有的需求,其中线下查询的各需求类别强度是采用前文所述的确定搜索需求强度的装置得到的。
此外,需求识别的装置进一步还可包括页面返回单元404和推荐词返回单元405。其中页面返回单元404用于想用户返回与线上查询具有的需求相关的页面,推荐词返回单元405用于向用户返回与线上查询具有的需求相关的推荐词。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (16)

1.一种确定搜索需求强度的方法,其特征在于,所述方法包括:
A.提取搜索日志中的查询归属于预设需求类别的相似度特征及点击特征中的至少一个特征,其中所述查询归属于预设需求类别的相似度特征用于表征所述查询与所述预设需求类别之间的语义相似度,所述查询归属于预设需求类别的点击特征用于表征所述查询引起的点击页面属于所述预设需求类别的可能性;
B.根据提取的每个特征及每个特征的权重计算所述查询归属于所述预设需求类别的得分,并利用所述查询归属于所述预设需求类别的得分得到所述查询在所述预设需求类别的强度。
2.根据权利要求1所述的方法,其特征在于,提取所述查询归属于预设需求类别的相似度特征的步骤包括:
获取所述预设需求类别的核心词向量;
获取所述查询的核心词向量;
计算所述查询的核心词向量与所述预设需求类别的核心词向量之间的余弦相似度,得到所述查询归属于所述预设需求类别的相似度特征。
3.根据权利要求2所述的方法,其特征在于,获取所述预设需求类别的核心词向量的步骤包括:
获取所述预设需求类别的种子查询;
从所述预设需求类别的种子查询及所述预设需求类别的种子查询得到的点击页面中提取核心词;
确定提取的各核心词在所述预设需求类别的核心词向量中所占的权重,以生成所述预设需求类别的核心词向量。
4.根据权利要求3所述的方法,其特征在于,获取所述预设需求类别的种子查询的方式至少包括以下方式中的一种:
方式一、将搜索日志中人工标注为所述预设需求类别的查询作为所述预设需求类别的种子查询;或者
方式二:将搜索日志中与人工标注为所述预设需求类别的查询引起了相同点击页面的查询作为所述预设需求类别的种子查询。
5.根据权利要求2所述的方法,其特征在于,获取所述查询的核心词向量的步骤包括:
从所述查询及所述查询得到的点击页面中提取核心词;
确定提取的各核心词在所述查询的核心词向量中所占的权重,以生成所述查询的核心词向量。
6.根据权利要求1所述的方法,其特征在于,提取所述查询归属于预设需求类别的点击特征的步骤包括:
对所述查询引起的各点击页面的内容按照需求进行分类,以确定各点击页面所属需求类别;
统计属于所述预设需求类别的点击页面数量;
以所述查询属于所述预设需求类别的点击页面数量与所述查询引起的所有点击页面数量的比值作为所述查询归属于所述预设需求类别的点击特征。
7.一种需求识别的方法,其特征在于,所述方法包括:
获取线上查询;
确定搜索日志中与所述线上查询最相似的线下查询;
将确定的线下查询的各需求类别强度中大于预设值的需求类别强度所对应的需求类别作为所述线上查询具有的需求,其中线下查询的各需求类别强度是采用权利要求1至6中任一权项所述的确定搜索需求强度的方法得到的。
8.根据权利要求7所述的方法,其特征在于,所述方法进一步包括:
向用户返回与所述线上查询具有的需求相关的页面;或者
向用户返回与所述线上查询具有的需求相关的推荐词。
9.一种确定搜索需求强度的装置,其特征在于,所述装置包括:
相似度特征提取单元或点击特征提取单元中的至少一个,其中相似度特征提取单元用于提取搜索日志中的查询归属于预设需求类别的相似度特征,点击特征提取单元用于提取搜索日志中的查询归属于所述预设需求类别的点击特征,所述查询归属于所述预设需求类别的相似度特征用于表征所述查询与所述预设需求类别之间的语义相似度,所述查询归属于所述预设需求类别的点击特征用于表征所述查询引起的点击页面属于所述预设需求类别的可能性;
计算单元,用于根据提取的每个特征及每个特征的权重计算所述查询归属于所述预设需求类别的得分,并利用所述查询归属于所述预设需求类别的得分得到所述查询在所述预设需求类别的强度。
10.根据权利要求9所述的装置,其特征在于,所述相似度特征提取单元包括:
需求向量获取单元,用于获取所述预设需求类别的核心词向量;
查询向量获取单元,用于获取所述查询的核心词向量;
相似度计算单元,用于计算所述查询的核心词向量与所述预设需求类别的核心词向量之间的余弦相似度,得到所述查询归属于所述预设需求类别的相似度特征。
11.根据权利要求10所述的装置,其特征在于,所述需求向量获取单元包括:
种子获取单元,用于在获取所述预设需求类别的核心词向量时,获取所述预设需求类别的种子查询;
第一提取单元,用于从所述预设需求类别的种子查询及所述预设需求类别的种子查询得到的点击页面中提取核心词;
第一确定单元,用于确定提取的各核心词在所述预设需求类别的核心词向量中所占的权重,以生成所述预设需求类别的核心词向量。
12.根据权利要求11所述的装置,其特征在于,所述种子获取单元获取所述预设需求类别的种子查询的方式至少包括以下方式中的一种:
方式一、将搜索日志中人工标注为所述预设需求类别的查询作为所述预设需求类别的种子查询;或者
方式二:将搜索日志中与人工标注为所述预设需求类别的查询引起了相同点击页面的查询作为所述预设需求类别的种子查询。
13.根据权利要求10所述的装置,其特征在于,所述查询向量获取单元包括:
第二提取单元,用于从所述查询及所述查询得到的点击页面中提取核心词;
第二确定单元,用于确定提取的各核心词在所述查询的核心词向量中所占的权重,以生成所述查询的核心词向量。
14.根据权利要求9所述的装置,所述点击特征提取单元包括:
分类单元,用于对所述查询引起的各点击页面的内容按照需求进行分类,以确定各点击页面所属需求类别;
统计单元,用于统计属于所述预设需求类别的点击页面数量;
特征确定单元,用于以所述查询属于所述预设需求类别的点击页面数量与所述查询引起的所有点击页面数量的比值作为所述查询归属于所述预设需求类别的点击特征。
15.一种需求识别的装置,其特征在于,所述装置包括:
接收单元,用于获取线上查询;
查询确定单元,用于确定搜索日志中与所述线上查询最相似的线下查询;
需求确定单元,用于将确定的线下查询的各需求类别强度中大于预设值的需求类别强度所对应的需求类别作为所述线上查询具有的需求,其中线下查询的各需求类别强度是采用权利要求9至14中任一权项所述的确定搜索需求强度的装置得到的。
16.根据权利要求15所述的装置,其特征在于,所述装置进一步包括:
页面返回单元,用于向用户返回与所述线上查询具有的需求相关的页面;或者
推荐词返回单元,用于向用户返回与所述线上查询具有的需求相关的推荐词。
CN201110449432.7A 2011-12-29 2011-12-29 一种确定搜索需求强度的方法、需求识别的方法及其装置 Active CN103186573B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110449432.7A CN103186573B (zh) 2011-12-29 2011-12-29 一种确定搜索需求强度的方法、需求识别的方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110449432.7A CN103186573B (zh) 2011-12-29 2011-12-29 一种确定搜索需求强度的方法、需求识别的方法及其装置

Publications (2)

Publication Number Publication Date
CN103186573A true CN103186573A (zh) 2013-07-03
CN103186573B CN103186573B (zh) 2016-05-18

Family

ID=48677742

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110449432.7A Active CN103186573B (zh) 2011-12-29 2011-12-29 一种确定搜索需求强度的方法、需求识别的方法及其装置

Country Status (1)

Country Link
CN (1) CN103186573B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103455411A (zh) * 2013-08-01 2013-12-18 百度在线网络技术(北京)有限公司 日志分类模型的建立、行为日志分类方法及装置
CN105989040A (zh) * 2015-02-03 2016-10-05 阿里巴巴集团控股有限公司 智能问答的方法、装置及系统
CN107832468A (zh) * 2017-11-29 2018-03-23 百度在线网络技术(北京)有限公司 需求识别方法和装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080154877A1 (en) * 2006-12-20 2008-06-26 Joshi Deepa B Discovering query intent from search queries and concept networks
US20080183685A1 (en) * 2007-01-26 2008-07-31 Yahoo! Inc. System for classifying a search query
CN101556603A (zh) * 2009-05-06 2009-10-14 北京航空航天大学 一种用于对检索结果重新排序的协同检索方法
CN101627384A (zh) * 2007-03-08 2010-01-13 微软公司 从搜索查询中检测用户的位置、地方意图和旅游意图
CN102012900A (zh) * 2009-09-04 2011-04-13 阿里巴巴集团控股有限公司 信息检索方法和系统
CN102043833A (zh) * 2010-11-25 2011-05-04 北京搜狗科技发展有限公司 一种基于查询词进行搜索的方法和搜索装置
CN102096717A (zh) * 2011-02-15 2011-06-15 百度在线网络技术(北京)有限公司 搜索方法及搜索引擎

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080154877A1 (en) * 2006-12-20 2008-06-26 Joshi Deepa B Discovering query intent from search queries and concept networks
US20080183685A1 (en) * 2007-01-26 2008-07-31 Yahoo! Inc. System for classifying a search query
CN101627384A (zh) * 2007-03-08 2010-01-13 微软公司 从搜索查询中检测用户的位置、地方意图和旅游意图
CN101556603A (zh) * 2009-05-06 2009-10-14 北京航空航天大学 一种用于对检索结果重新排序的协同检索方法
CN102012900A (zh) * 2009-09-04 2011-04-13 阿里巴巴集团控股有限公司 信息检索方法和系统
CN102043833A (zh) * 2010-11-25 2011-05-04 北京搜狗科技发展有限公司 一种基于查询词进行搜索的方法和搜索装置
CN102096717A (zh) * 2011-02-15 2011-06-15 百度在线网络技术(北京)有限公司 搜索方法及搜索引擎

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103455411A (zh) * 2013-08-01 2013-12-18 百度在线网络技术(北京)有限公司 日志分类模型的建立、行为日志分类方法及装置
CN103455411B (zh) * 2013-08-01 2016-04-27 百度在线网络技术(北京)有限公司 日志分类模型的建立、行为日志分类方法及装置
CN105989040A (zh) * 2015-02-03 2016-10-05 阿里巴巴集团控股有限公司 智能问答的方法、装置及系统
CN105989040B (zh) * 2015-02-03 2021-02-09 创新先进技术有限公司 智能问答的方法、装置及系统
CN107832468A (zh) * 2017-11-29 2018-03-23 百度在线网络技术(北京)有限公司 需求识别方法和装置
CN107832468B (zh) * 2017-11-29 2019-05-10 百度在线网络技术(北京)有限公司 需求识别方法和装置
US10671684B2 (en) 2017-11-29 2020-06-02 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for identifying demand

Also Published As

Publication number Publication date
CN103186573B (zh) 2016-05-18

Similar Documents

Publication Publication Date Title
CN109992645B (zh) 一种基于文本数据的资料管理系统及方法
CN103577478B (zh) 网页推送方法及系统
CN103425687A (zh) 一种基于关键词的检索方法和系统
CN102207936B (zh) 用于提示电子文档内容变更的方法和系统
CN111797214A (zh) 基于faq数据库的问题筛选方法、装置、计算机设备及介质
CN105404699A (zh) 一种搜索财经文章的方法、装置及服务器
CN103049440A (zh) 一种相关文章的推荐处理方法和处理系统
CN102890702A (zh) 一种面向网络论坛的意见领袖挖掘方法
CN103810162A (zh) 推荐网络信息的方法和系统
CN103177036A (zh) 一种标签自动提取方法和系统
CN102428467A (zh) 用于分类的基于相似度的特征集补充
CN103838754A (zh) 信息搜索装置及方法
CN103309869A (zh) 数据对象的展示关键词推荐方法及系统
CN109446313B (zh) 一种基于自然语言分析的排序系统及方法
CN104503988A (zh) 搜索方法及装置
CN103294820A (zh) 基于语义扩展的web页面归类方法和系统
CN101088082A (zh) 全文查询和搜索系统及其使用方法
CN116010552A (zh) 一种基于关键词词库的工程造价数据解析系统及其方法
CN103186573A (zh) 一种确定搜索需求强度的方法、需求识别的方法及其装置
KR20200127587A (ko) 뉴스 기사의 감성 정보 레이블링 프로그램
CN103136221A (zh) 一种生成需求模板的方法、需求识别的方法及其装置
CN107506407A (zh) 一种文件分类、调用的方法及装置
CN102831192A (zh) 基于话题的新闻检索装置及方法
CN114528378A (zh) 文本分类方法、装置、电子设备及存储介质
KR20220061388A (ko) 키워드-종목 맵핑 정보 서비스 제공 프로그램이 기록된 기록매체

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant