CN105786910B - 词条权重计算方法和装置 - Google Patents

词条权重计算方法和装置 Download PDF

Info

Publication number
CN105786910B
CN105786910B CN201410826788.1A CN201410826788A CN105786910B CN 105786910 B CN105786910 B CN 105786910B CN 201410826788 A CN201410826788 A CN 201410826788A CN 105786910 B CN105786910 B CN 105786910B
Authority
CN
China
Prior art keywords
search term
entry
participle
search
entries
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410826788.1A
Other languages
English (en)
Other versions
CN105786910A (zh
Inventor
邹启波
周连强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201410826788.1A priority Critical patent/CN105786910B/zh
Publication of CN105786910A publication Critical patent/CN105786910A/zh
Application granted granted Critical
Publication of CN105786910B publication Critical patent/CN105786910B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种词条权重计算方法和装置,主要涉及互联网技术领域,主要目的在于合理计算搜索词中分词词条的权重。方法包括:获取共同点击同一搜索结果条目的多个搜索词,组成共同点击搜索词集合;对点击搜索结果条目的第一搜索词进行拆分,得到第一搜索词的一个或多个分词词条;根据第一搜索词的每个分词词条在共同点击搜索词集合中的出现频次,计算第一搜索词的每个分词词条的分词权重。根据本发明,收集共同点击的搜索结果条目对应的搜索词进行权重分析,可以发现出现频次较高的词条往往是搜索词的核心内容,因此可以为其赋予较高的分词权重,将该分词权重用于从搜索词中提取核心词、对搜索结果排序等都有良好效果。

Description

词条权重计算方法和装置
技术领域
本发明涉及互联网技术领域,具体而言,涉及一种词条权重计算方法和装置。
背景技术
随着网络和信息技术的迅猛发展,网络中的信息量也呈现爆炸式的增长,那么快速并且正确从这些海量的数据里面获取正确的信息成为了现在搜索引擎技术的核心问题。
用户的输入通常呈现很大的差异性,这是因为不同的人接受不同的教育、不同的文化,导致在表述同一个问题上面差异很大,那么对用户输入的搜索词进行词条权重的打分是非常有必要的,这对于从用户输入的搜索词中提取核心词提取,或是对搜索词返回的文档排序等都是一个非常重要的课题。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的词条权重计算方法和装置。
依据本发明的一个方面,提供了一种词条权重计算方法,其包括:获取共同点击同一搜索结果条目的多个搜索词,组成共同点击搜索词集合;对点击所述搜索结果条目的第一搜索词进行拆分,得到所述第一搜索词的一个或多个分词词条;根据所述第一搜索词的每个分词词条在所述共同点击搜索词集合中的出现频次,计算所述第一搜索词的每个分词词条的分词权重。
可选地,前述的方法,还包括:接收来自用户的第二搜索词;对所述第二搜索词进行拆分,得到所述第二搜索词的一个或多个分词词条;根据所述第一搜索词的分词词条的分词权重,计算所述第二搜索词的分词词条的分词权重。
可选地,前述的方法,根据所述第一搜索词的分词词条的分词权重,计算所述第二搜索词的分词词条的分词权重,具体包括:从所述第一搜索词中选取分词词条,组成所述第一搜索词的一个或多个词条组合;为所述第一搜索词的每个词条组合查找其所在的除所述第一搜索词的其他搜索词,根据所述第一搜索词的每个词条组合中分词词条在所述第一搜索词和所述其他搜索词中的分词权重,计算所述第一搜索词的每个词条组合中分词词条的组合权重;从所述第二搜索词中选取分词词条,组成所述第二搜索词的一个或多个词条组合;根据所述第一搜索词的词条组合中分词词条的组合权重,确定所述第二搜索词的词条组合中分词词条的组合权重;根据所述第二搜索词的每个分词词条在所述第二搜索词的不同词条组合中的组合权重,计算所述第二搜索词的每个分词词条的分词权重。
可选地,前述的方法,从所述第一搜索词中选取的多个分词词条为连续多个分词词条;从所述第二搜索词中选取的多个分词词条为连续多个分词词条。
可选地,前述的方法,所述第一搜索词中的每个词条组合中分词词条数量低于预设阈值;所述第二搜索词中的每个词条组合中分词词条数量低于所述预设阈值。
可选地,前述的方法,还包括:根据所述第二搜索词中不同分词词条的分词权重,对所述第二搜索词中不同分词词条对应的搜索结果条目进行排序。
可选地,前述的方法,还包括:根据所述第二搜索词中不同分词词条的分词权重,从所述第二搜索词的多个分词词条中提取用于进行搜索的核心词。
可选地,前述的方法,所述共同点击搜索词集合中包含所述第一搜索词;或所述共同点击搜索词集合中不包含所述第一搜索词。
依据本发明的另一方面,还提供了一种词条权重计算装置,其包括:共同点击搜索词组合组成模块,用于获取共同点击同一搜索结果条目的多个搜索词,组成共同点击搜索词集合;第一搜索词拆分模块,用于对点击所述搜索结果条目的第一搜索词进行拆分,得到所述第一搜索词的一个或多个分词词条;第一分词权重计算模块,用于根据所述第一搜索词的每个分词词条在所述共同点击搜索词集合中的出现频次,计算所述第一搜索词的每个分词词条的分词权重。
可选地,前述的装置,还包括:第二搜索词接收模块,用于接收来自用户的第二搜索词;第二搜索词拆分模块,用于对所述第二搜索词进行拆分,得到所述第二搜索词的一个或多个分词词条;第二分词权重计算模块,用于根据所述第一搜索词的分词词条的分词权重,计算所述第二搜索词的分词词条的分词权重。
可选地,前述的装置,还包括:第一词条组合组成模块,用于从所述第一搜索词中选取分词词条,组成所述第一搜索词的一个或多个词条组合;第一组合权重计算模块,用于为所述第一搜索词的每个词条组合查找其所在的除所述第一搜索词的其他搜索词,根据所述第一搜索词的每个词条组合中分词词条在所述第一搜索词和所述其他搜索词中的分词权重,计算所述第一搜索词的每个词条组合中分词词条的组合权重;第二词条组合组成模块,用于从所述第二搜索词中选取分词词条,组成所述第二搜索词的一个或多个词条组合;第二组合权重计算模块,用于根据所述第一搜索词的词条组合中分词词条的组合权重,确定所述第二搜索词的词条组合中分词词条的组合权重;所述第二分词权重计算模块根据所述第二搜索词的每个分词词条在所述第二搜索词的不同词条组合中的组合权重,计算所述第二搜索词的每个分词词条的分词权重。
可选地,前述的装置,从所述第一搜索词中选取的多个分词词条为连续多个分词词条;从所述第二搜索词中选取的多个分词词条为连续多个分词词条。
可选地,前述的装置,所述第一搜索词中的每个词条组合中分词词条数量低于预设阈值;所述第二搜索词中的每个词条组合中分词词条数量低于所述预设阈值。
可选地,前述的装置,还包括:搜索结果条目排序模块,用于根据所述第二搜索词中不同分词词条的分词权重,对所述第二搜索词中不同分词词条对应的搜索结果条目进行排序。
可选地,前述的装置,还包括:核心词提取模块,用于根据所述第二搜索词中不同分词词条的分词权重,从所述第二搜索词的多个分词词条中提取用于进行搜索的核心词。
可选地,前述的装置,所述共同点击搜索词集合中包含所述第一搜索词;或所述共同点击搜索词集合中不包含所述第一搜索词。
根据以上技术方案,可知本发明的词条权重计算方法和装置至少具有以下优点:
不同用户输入了不同的搜索词,但点击了相同的搜索结果条目,这就说明不同用户输入搜索词的含义是一致的,只是表达方式不同;通过本发明的技术方案,收集共同点击的搜索结果条目对应的搜索词进行权重分析,可以发现出现频次较高的词条往往是搜索词的核心内容,因此可以为其赋予较高的分词权重,将该分词权重用于从搜索词中提取核心词、对搜索结果排序等都有良好效果。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明的一个实施例的词条权重计算方法的流程图;
图2示出了根据本发明的一个实施例的词条权重计算方法的流程图;
图3示出了根据本发明的一个实施例的词条权重计算方法的流程图;
图4示出了根据本发明的一个实施例的词条权重计算方法的流程图;
图5示出了根据本发明的一个实施例的词条权重计算方法的流程图;
图6示出了根据本发明的一个实施例的词条权重计算装置的框图;
图7示出了根据本发明的一个实施例的词条权重计算装置的框图;
图8示出了根据本发明的一个实施例的词条权重计算装置的框图;
图9示出了根据本发明的一个实施例的词条权重计算装置的框图;
图10示出了根据本发明的一个实施例的词条权重计算装置的框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
如图1所示,本发明的一个实施例中提供了一种词条权重计算方法,其包括:
步骤110,获取共同点击同一搜索结果条目的多个搜索词,组成共同点击搜索词集合。在本实施例中,如果不同搜索词对应同一搜索结果条目,则表示用户输入不同搜索词具有同一含义。同一搜索结果条目可以是单个搜索结果条目,也可以是多个搜索结果条目的集合。
步骤120,对点击搜索结果条目的第一搜索词进行拆分,得到第一搜索词的一个或多个分词词条。进一步地,共同点击搜索词集合中包含第一搜索词;或共同点击搜索词集合中不包含第一搜索词。
步骤130,根据第一搜索词的每个分词词条在共同点击搜索词集合中的出现频次,计算第一搜索词的每个分词词条的分词权重。根据本实施例的技术方案,收集共同点击的搜索结果条目对应的搜索词进行权重分析,可以发现出现频次较高的词条往往是搜索词的核心内容,因此可以为其赋予较高的分词权重,将该分词权重用于从搜索词中提取核心词、对搜索结果排序等都有良好效果。
根据图1,一条搜索词表示为Q={term1,term2,term3……termn},其中term1-termn为Q中所包含的分词词条,Q点击了的搜索结果条目的url集合是QURL={url1,url2,url3……urlx},而Q点击的这批url又会被其他的搜索词点击,其集合是QS={Q1,Q2,Q3……Qm},那么我们认为Q与QS是共同点击。对于每个分词词条,如果其出现在QS集合中一次,累计值就加1。选取最高次数的作为分母就可以对搜索的每一个分词词条算出一个分词权重,这可将不同搜索词中分词词条的最大权重统一设置为1,相当于对不同搜索词的分词词条的分词权重值进行了标准化处理。需要注意的是,也可以将Q加入QS后进行计算,QS包含或不包含Q的情况下计算的分词权重相差无几。
例如,假设存在三个搜索词(第一搜索词):“故宫门票多少钱”,“北京故宫门票”,“故宫门票票价”,输入了该三个搜索词的用户在搜索结果中共同点击了用于咨询故宫票价的url,则三个搜索词形成共同点击搜索词集合。对同样点击了该url的“北京故宫门票多少”进行拆分并计算分词权重,拆分结果为:“北京”、“故宫”、“门票”、“多少”,则其在共同点击搜索词集合出现的次数分别为1、3、3、0,进一步除以其中的最大次数,得到分词权重为1/3、1、1、0。
如图2所示,本发明的一个实施例中提供了一种词条权重计算方法,其包括:
步骤210,获取共同点击同一搜索结果条目的多个搜索词,组成共同点击搜索词集合。
步骤220,对点击搜索结果条目的第一搜索词进行拆分,得到第一搜索词的一个或多个分词词条。
步骤230,根据第一搜索词的每个分词词条在共同点击搜索词集合中的出现频次,计算第一搜索词的每个分词词条的分词权重。
步骤240,接收来自用户的第二搜索词。
步骤250,对第二搜索词进行拆分,得到第二搜索词的一个或多个分词词条。
步骤260,根据第一搜索词的分词词条的分词权重,计算第二搜索词的分词词条的分词权重。在本实施例中,对计算的方式不进行限制,其包括但不限于直接设置为相同的值。在本实施例中,对已经得到的分词词条权重进行记录,则在用户输入搜索词时,可以基于已经得到的分词词条分词权重,来确定搜索词中每个分词词条的分词权重,基于该分词权重可更好地进行搜索。
根据图2,假设用户输入的搜索词(第二搜索词):“故宫门票多少”,分词得到“故宫”、“门票”、“多少”,从已经记录的分词权重数据中查询得到该搜索词的分词词条的分词权重值分别是1、1、0。
如图3所示,本发明的一个实施例中提供了一种词条权重计算方法,其包括:
步骤310,获取共同点击同一搜索结果条目的多个搜索词,组成共同点击搜索词集合。
步骤320,对点击搜索结果条目的第一搜索词进行拆分,得到第一搜索词的一个或多个分词词条。
步骤330,根据第一搜索词的每个分词词条在共同点击搜索词集合中的出现频次,计算第一搜索词的每个分词词条的分词权重。
步骤340,接收来自用户的第二搜索词。
步骤350,对第二搜索词进行拆分,得到第二搜索词的一个或多个分词词条。
步骤360,从第一搜索词中选取分词词条,组成第一搜索词的一个或多个词条组合。在本实施例中,对选取分词词条不进行限制;进一步地,从第一搜索词中选取的多个分词词条为连续多个分词词条,这是因为分词词条在不同上下文关系中的含义不同,选择连续多个分词词条使得计算的分词权重体现出上下文关系的重要性。在本实施例中,对选取分词词条的数量不进行限制;进一步地,第一搜索词中的每个词条组合中分词词条数量低于预设阈值,从而既能够合理体现上下文关系,又不会造成过多的计算负担,经过大量计算,该阈值可以设置为4。
步骤370,为第一搜索词的每个词条组合查找其所在的除第一搜索词的其他搜索词,根据第一搜索词的每个词条组合中分词词条在第一搜索词和其他搜索词中的分词权重,计算第一搜索词的每个词条组合中分词词条的组合权重。在本实施例中,对计算的方式不进行限制;进一步地,考虑到词条组合的数目对词条权重的影响,在计算组合权重时可以累加不同搜索词中相同词条组合的分词词条的分词权重后,除以词条组合中的词条数量。
步骤380,从第二搜索词中选取分词词条,组成第二搜索词的一个或多个词条组合。在本实施例中,对选取分词词条不进行限制;进一步地,从第二搜索词中选取的多个分词词条为连续多个分词词条,这是因为分词词条在不同上下文关系中的含义不同,选择连续多个分词词条使得计算的分词权重体现出上下文关系的重要性。在本实施例中,对选取分词词条的数量不进行限制;进一步地,第二搜索词中的每个词条组合中分词词条数量低于预设阈值,从而既能够合理体现上下文关系,又不会造成过多的计算负担,经过大量计算,该阈值可以设置为4。
步骤390,根据第一搜索词的词条组合中分词词条的组合权重,确定第二搜索词的词条组合中分词词条的组合权重。
步骤3100,根据第二搜索词的每个分词词条在第二搜索词的不同词条组合中的组合权重,计算第二搜索词的每个分词词条的分词权重。在本实施例中,对计算方式不进行限制;进一步地,考虑到词条组合中的多个分词词条组合在一起时的影响,可以根据词条组合的词条数量来设置对应的权重系数,对于每个分词词条取其在不同词条组合中的组合权重以及相应系数的乘积进行累加,从而得到合理的分词权重;进一步地,可以对乘积累加值除以最大词条组合中的词条数量,以便于消除包含该分词词条的词条组合数量对分词权重造成的影响。
根据图3,对于第一搜索词,可以枚举第一搜索词的m-gram(m阶模型)作为词条组合,经过试验,m从1取至4属于最好的效果。那么对包含同一gram的多个搜索词来说,每一个gram中的分词词条的组合权重的计算方式如下:
对于用户新输入的第二搜索词,可以从头开始枚举1-4gram作为词条组合,并根据前述计算结果查找相应的组合权重。进一步地,本实施例中采用加权平均的方式来综合多个词条组合中分词词条的组合权重以计算每个分词词条的分词权重,按照经验来说,词条数量较多的词条组合由于上下文关系更强,所以其对应的组合权重更加重要,需要为其分配更大的系数,假设一分词词条对应m个词条组合,那么得到组合权重值:S={X1,X2…Xm},系数X1-Xm对应的词条组合中词条数量由少到多,那么最后的分词权重就是:
其中W1<W2<.…Wm
例如,假设组合共同点击搜索词集合的为搜索词q1、q2,其中,q1中的分词词条为t1、t2、t3,假设分词权重分别为1、1/2、1/2,q2中的分词词条为t1、t2、t4,假设分词权重分别为1/2、1/2、2;从q1中可以得到词条组合t1、t1t2、t1t2t3、t2、t2t3、t3,从q2中可以得到词条组合t1、t1t2、t1t2t4、t2、t2t4、t4,以t1t2为例,t1t2中t1、t2的组合权重分别为:(1+1/2)/2、(1/2+1/2)/2。假设用户输入了搜索词q3,其包含分词词条为t1、t2、t5,计算每个分词词条的权重时,以t1为例:首先从q3可以得到词条组合t1、t1t2、t1t2t5、t2、t2t5、t5,其中t1对应的词条组合为t1、t1t2,从已经计算出的组合权重中查询,t1对应的两个组合权重值分别为:1/2+1/2、(1+1/2)/2,即为1、3/4,综合该两个值可以计算得到t1的分词权重,例如:t1的分词权重为(1×0.35+3/4×0.65)/4,其中0.35、0.65分别为预设的系数,4为前述的词条组合中词条数量的阈值。
如图4所示,本发明的一个实施例中提供了一种词条权重计算方法,其包括:
步骤410,获取共同点击同一搜索结果条目的多个搜索词,组成共同点击搜索词集合。
步骤420,对点击搜索结果条目的第一搜索词进行拆分,得到第一搜索词的一个或多个分词词条。
步骤430,根据第一搜索词的每个分词词条在共同点击搜索词集合中的出现频次,计算第一搜索词的每个分词词条的分词权重。
步骤440,接收来自用户的第二搜索词。
步骤450,对第二搜索词进行拆分,得到第二搜索词的一个或多个分词词条。
步骤460,根据第一搜索词的分词词条的分词权重,计算第二搜索词的分词词条的分词权重。
步骤470,根据第二搜索词中不同分词词条的分词权重,对第二搜索词中不同分词词条对应的搜索结果条目进行排序。根据本实施例的技术方案,可知分词权重较高的分词词条必然是第二搜索词中的较核心的内容,所以将核心内容对应的搜索结果条目排序较前。
如图5所示,本发明的一个实施例中提供了一种词条权重计算方法,其包括:
步骤510,获取共同点击同一搜索结果条目的多个搜索词,组成共同点击搜索词集合。
步骤520,对点击搜索结果条目的第一搜索词进行拆分,得到第一搜索词的一个或多个分词词条。
步骤530,根据第一搜索词的每个分词词条在共同点击搜索词集合中的出现频次,计算第一搜索词的每个分词词条的分词权重。
步骤540,接收来自用户的第二搜索词。
步骤550,对第二搜索词进行拆分,得到第二搜索词的一个或多个分词词条。
步骤560,根据第一搜索词的分词词条的分词权重,计算第二搜索词的分词词条的分词权重。
步骤570,根据第二搜索词中不同分词词条的分词权重,从第二搜索词的多个分词词条中提取用于进行搜索的核心词。根据本实施例的技术方案,可知分词权重较高的分词词条必然是第二搜索词中的较核心的内容,所以将核心内容作为用于进行搜索的核心词,能够得到令用户满意的搜索结果。
如图6所示,本发明的一个实施例中提供了一种词条权重计算装置,其包括:
共同点击搜索词组合组成模块610,获取共同点击同一搜索结果条目的多个搜索词,组成共同点击搜索词集合。在本实施例中,如果不同搜索词对应同一搜索结果条目,则表示用户输入不同搜索词具有同一含义。同一搜索结果条目可以是单个搜索结果条目,也可以是多个搜索结果条目的集合。
第一搜索词拆分模块620,对点击搜索结果条目的第一搜索词进行拆分,得到第一搜索词的一个或多个分词词条。进一步地,共同点击搜索词集合中包含第一搜索词;或共同点击搜索词集合中不包含第一搜索词。
第一分词权重计算模块630,根据第一搜索词的每个分词词条在共同点击搜索词集合中的出现频次,计算第一搜索词的每个分词词条的分词权重。根据本实施例的技术方案,收集共同点击的搜索结果条目对应的搜索词进行权重分析,可以发现出现频次较高的词条往往是搜索词的核心内容,因此可以为其赋予较高的分词权重,将该分词权重用于从搜索词中提取核心词、对搜索结果排序等都有良好效果。
根据图6,一条搜索词表示为Q={term1,term2,term3……termn},其中term1-termn为Q中所包含的分词词条,Q点击了的搜索结果条目的url集合是QURL={url1,url2,url3……urlx},而Q点击的这批url又会被其他的搜索词点击,其集合是QS={Q1,Q2,Q3……Qm},那么我们认为Q与QS是共同点击。对于每个分词词条,如果其出现在QS集合中一次,累计值就加1。选取最高次数的作为分母就可以对搜索的每一个分词词条算出一个分词权重,这可将不同搜索词中分词词条的最大权重统一设置为1,相当于对不同搜索词的分词词条的分词权重值进行了标准化处理。需要注意的是,也可以将Q加入QS后进行计算,QS包含或不包含Q的情况下计算的分词权重相差无几。
例如,假设存在三个搜索词(第一搜索词):“故宫门票多少钱”,“北京故宫门票”,“故宫门票票价”,输入了该三个搜索词的用户在搜索结果中共同点击了用于咨询故宫票价的url,则三个搜索词形成共同点击搜索词集合。对同样点击了该url的“北京故宫门票多少”进行拆分并计算分词权重,拆分结果为:“北京”、“故宫”、“门票”、“多少”,则其在共同点击搜索词集合出现的次数分别为1、3、3、0,进一步除以其中的最大次数,得到分词权重为1/3、1、1、0。
如图7所示,本发明的一个实施例中提供了一种词条权重计算装置,其包括:
共同点击搜索词组合组成模块710,获取共同点击同一搜索结果条目的多个搜索词,组成共同点击搜索词集合。
第一搜索词拆分模块720,对点击搜索结果条目的第一搜索词进行拆分,得到第一搜索词的一个或多个分词词条。
第一分词权重计算模块730,根据第一搜索词的每个分词词条在共同点击搜索词集合中的出现频次,计算第一搜索词的每个分词词条的分词权重。
第二搜索词接收模块740,接收来自用户的第二搜索词。
第二搜索词拆分模块750,对第二搜索词进行拆分,得到第二搜索词的一个或多个分词词条。
第二分词权重计算模块760,根据第一搜索词的分词词条的分词权重,计算第二搜索词的分词词条的分词权重。在本实施例中,对计算的方式不进行限制,其包括但不限于直接设置为相同的值。在本实施例中,对已经得到的分词词条权重进行记录,则在用户输入搜索词时,可以基于已经得到的分词词条分词权重,来确定搜索词中每个分词词条的分词权重,基于该分词权重可更好地进行搜索。
根据图7,假设用户输入的搜索词(第二搜索词):“故宫门票多少”,分词得到“故宫”、“门票”、“多少”,从已经记录的分词权重数据中查询得到该搜索词的分词词条的分词权重值分别是1、1、0。
如图8所示,本发明的一个实施例中提供了一种词条权重计算装置,其包括:
共同点击搜索词组合组成模块810,获取共同点击同一搜索结果条目的多个搜索词,组成共同点击搜索词集合。
第一搜索词拆分模块820,对点击搜索结果条目的第一搜索词进行拆分,得到第一搜索词的一个或多个分词词条。
第一分词权重计算模块830,根据第一搜索词的每个分词词条在共同点击搜索词集合中的出现频次,计算第一搜索词的每个分词词条的分词权重。
第二搜索词接收模块840,接收来自用户的第二搜索词。
第二搜索词拆分模块850,对第二搜索词进行拆分,得到第二搜索词的一个或多个分词词条。
第一词条组合组成模块860,从第一搜索词中选取分词词条,组成第一搜索词的一个或多个词条组合。在本实施例中,对选取分词词条不进行限制;进一步地,从第一搜索词中选取的多个分词词条为连续多个分词词条,这是因为分词词条在不同上下文关系中的含义不同,选择连续多个分词词条使得计算的分词权重体现出上下文关系的重要性。在本实施例中,对选取分词词条的数量不进行限制;进一步地,第一搜索词中的每个词条组合中分词词条数量低于预设阈值,从而既能够合理体现上下文关系,又不会造成过多的计算负担,经过大量计算,该阈值可以设置为4。
第一组合权重计算模块870,为第一搜索词的每个词条组合查找其所在的除第一搜索词的其他搜索词,根据第一搜索词的每个词条组合中分词词条在第一搜索词和其他搜索词中的分词权重,计算第一搜索词的每个词条组合中分词词条的组合权重。在本实施例中,对计算的方式不进行限制;进一步地,考虑到词条组合的数目对词条权重的影响,在计算组合权重时可以累加不同搜索词中相同词条组合的分词词条的分词权重后,除以词条组合中的词条数量。
第二词条组合组成模块880,从第二搜索词中选取分词词条,组成第二搜索词的一个或多个词条组合。在本实施例中,对选取分词词条不进行限制;进一步地,从第二搜索词中选取的多个分词词条为连续多个分词词条,这是因为分词词条在不同上下文关系中的含义不同,选择连续多个分词词条使得计算的分词权重体现出上下文关系的重要性。在本实施例中,对选取分词词条的数量不进行限制;进一步地,第二搜索词中的每个词条组合中分词词条数量低于预设阈值,从而既能够合理体现上下文关系,又不会造成过多的计算负担,经过大量计算,该阈值可以设置为4。
第二组合权重计算模块890,根据第一搜索词的词条组合中分词词条的组合权重,确定第二搜索词的词条组合中分词词条的组合权重。
第二分词权重计算模块8100,根据第二搜索词的每个分词词条在第二搜索词的不同词条组合中的组合权重,计算第二搜索词的每个分词词条的分词权重。在本实施例中,对计算方式不进行限制;进一步地,考虑到词条组合中的多个分词词条组合在一起时的影响,可以根据词条组合的词条数量来设置对应的权重系数,对于每个分词词条取其在不同词条组合中的组合权重以及相应系数的乘积进行累加,从而得到合理的分词权重;进一步地,可以对乘积累加值除以最大词条组合中的词条数量,以便于消除包含该分词词条的词条组合数量对分词权重造成的影响。
根据图8,对于第一搜索词,可以枚举第一搜索词的m-gram(m阶模型)作为词条组合,经过试验,m从1取至4属于最好的效果。那么对包含同一gram的多个搜索词来说,每一个gram中的分词词条的组合权重的计算方式如下:
对于用户新输入的第二搜索词,可以从头开始枚举1-4gram作为词条组合,并根据前述计算结果查找相应的组合权重。进一步地,本实施例中采用加权平均的方式来综合多个词条组合中分词词条的组合权重以计算每个分词词条的分词权重,按照经验来说,词条数量较多的词条组合由于上下文关系更强,所以其对应的组合权重更加重要,需要为其分配更大的系数,假设一分词词条对应m个词条组合,那么得到组合权重值:S={X1,X2…Xm},系数X1-Xm对应的词条组合中词条数量由少到多,那么最后的分词权重就是:
其中W1<W2<.…Wm
例如,假设组合共同点击搜索词集合的为搜索词q1、q2,其中,q1中的分词词条为t1、t2、t3,假设分词权重分别为1、1/2、1/2,q2中的分词词条为t1、t2、t4,假设分词权重分别为1/2、1/2、2;从q1中可以得到词条组合t1、t1t2、t1t2t3、t2、t2t3、t3,从q2中可以得到词条组合t1、t1t2、t1t2t4、t2、t2t4、t4,以t1t2为例,t1t2中t1、t2的组合权重分别为:(1+1/2)/2、(1/2+1/2)/2。假设用户输入了搜索词q3,其包含分词词条为t1、t2、t5,计算每个分词词条的权重时,以t1为例:首先从q3可以得到词条组合t1、t1t2、t1t2t5、t2、t2t5、t5,其中t1对应的词条组合为t1、t1t2,从已经计算出的组合权重中查询,t1对应的两个组合权重值分别为:1/2+1/2、(1+1/2)/2,即为1、3/4,综合该两个值可以计算得到t1的分词权重,例如:t1的分词权重为(1×0.35+3/4×0.65)/4,其中0.35、0.65分别为预设的系数,4为前述的词条组合中词条数量的阈值。
如图9所示,本发明的一个实施例中提供了一种词条权重计算装置,其包括:
共同点击搜索词组合组成模块910,获取共同点击同一搜索结果条目的多个搜索词,组成共同点击搜索词集合。
第一搜索词拆分模块920,对点击搜索结果条目的第一搜索词进行拆分,得到第一搜索词的一个或多个分词词条。
第一分词权重计算模块930,根据第一搜索词的每个分词词条在共同点击搜索词集合中的出现频次,计算第一搜索词的每个分词词条的分词权重。
第二搜索词接收模块940,接收来自用户的第二搜索词。
第二搜索词拆分模块950,对第二搜索词进行拆分,得到第二搜索词的一个或多个分词词条。
第二分词权重计算模块960,根据第一搜索词的分词词条的分词权重,计算第二搜索词的分词词条的分词权重。
搜索结果条目排序模块970,根据第二搜索词中不同分词词条的分词权重,对第二搜索词中不同分词词条对应的搜索结果条目进行排序。根据本实施例的技术方案,可知分词权重较高的分词词条必然是第二搜索词中的较核心的内容,所以将核心内容对应的搜索结果条目排序较前。
如图10所示,本发明的一个实施例中提供了一种词条权重计算装置,其包括:
共同点击搜索词组合组成模块1010,获取共同点击同一搜索结果条目的多个搜索词,组成共同点击搜索词集合。
第一搜索词拆分模块1020,对点击搜索结果条目的第一搜索词进行拆分,得到第一搜索词的一个或多个分词词条。
第一分词权重计算模块1030,根据第一搜索词的每个分词词条在共同点击搜索词集合中的出现频次,计算第一搜索词的每个分词词条的分词权重。
第二搜索词接收模块1040,接收来自用户的第二搜索词。
第二搜索词拆分模块1050,对第二搜索词进行拆分,得到第二搜索词的一个或多个分词词条。
第二分词权重计算模块1060,根据第一搜索词的分词词条的分词权重,计算第二搜索词的分词词条的分词权重。
核心词提取模块1070,根据第二搜索词中不同分词词条的分词权重,从第二搜索词的多个分词词条中提取用于进行搜索的核心词。根据本实施例的技术方案,可知分词权重较高的分词词条必然是第二搜索词中的较核心的内容,所以将核心内容作为用于进行搜索的核心词,能够得到令用户满意的搜索结果。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的词条权重计算装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (12)

1.一种词条权重计算方法,其包括:
获取共同点击同一搜索结果条目的多个搜索词,组成共同点击搜索词集合;
对点击所述搜索结果条目的第一搜索词进行拆分,得到所述第一搜索词的一个或多个分词词条;
根据所述第一搜索词的每个分词词条在所述共同点击搜索词集合中的出现频次,计算所述第一搜索词的每个分词词条的分词权重;
接收来自用户的第二搜索词;
对所述第二搜索词进行拆分,得到所述第二搜索词的一个或多个分词词条;
根据所述第一搜索词的分词词条的分词权重,计算所述第二搜索词的分词词条的分词权重;
根据所述第一搜索词的分词词条的分词权重,计算所述第二搜索词的分词词条的分词权重,具体包括:
从所述第一搜索词中选取分词词条,组成所述第一搜索词的一个或多个词条组合;
为所述第一搜索词的每个词条组合查找其所在的除所述第一搜索词的其他搜索词,根据所述第一搜索词的每个词条组合中分词词条在所述第一搜索词和所述其他搜索词中的分词权重,计算所述第一搜索词的每个词条组合中分词词条的组合权重;
从所述第二搜索词中选取分词词条,组成所述第二搜索词的一个或多个词条组合;
根据所述第一搜索词的词条组合中分词词条的组合权重,确定所述第二搜索词的词条组合中分词词条的组合权重;
根据所述第二搜索词的每个分词词条在所述第二搜索词的不同词条组合中的组合权重,计算所述第二搜索词的每个分词词条的分词权重。
2.根据权利要求1所述的方法,其中,
从所述第一搜索词中选取的多个分词词条为连续多个分词词条;
从所述第二搜索词中选取的多个分词词条为连续多个分词词条。
3.根据权利要求1所述的方法,其中,
所述第一搜索词中的每个词条组合中分词词条数量低于预设阈值;
所述第二搜索词中的每个词条组合中分词词条数量低于所述预设阈值。
4.根据权利要求1所述的方法,其中,还包括:
根据所述第二搜索词中不同分词词条的分词权重,对所述第二搜索词中不同分词词条对应的搜索结果条目进行排序。
5.根据权利要求1所述的方法,其中,还包括:
根据所述第二搜索词中不同分词词条的分词权重,从所述第二搜索词的多个分词词条中提取用于进行搜索的核心词。
6.根据权利要求1所述的方法,其中,
所述共同点击搜索词集合中包含所述第一搜索词;或
所述共同点击搜索词集合中不包含所述第一搜索词。
7.一种词条权重计算装置,其包括:
共同点击搜索词组合组成模块,用于获取共同点击同一搜索结果条目的多个搜索词,组成共同点击搜索词集合;
第一搜索词拆分模块,用于对点击所述搜索结果条目的第一搜索词进行拆分,得到所述第一搜索词的一个或多个分词词条;
第一分词权重计算模块,用于根据所述第一搜索词的每个分词词条在所述共同点击搜索词集合中的出现频次,计算所述第一搜索词的每个分词词条的分词权重;
第二搜索词接收模块,用于接收来自用户的第二搜索词;
第二搜索词拆分模块,用于对所述第二搜索词进行拆分,得到所述第二搜索词的一个或多个分词词条;
第二分词权重计算模块,用于根据所述第一搜索词的分词词条的分词权重,计算所述第二搜索词的分词词条的分词权重;
第一词条组合组成模块,用于从所述第一搜索词中选取分词词条,组成所述第一搜索词的一个或多个词条组合;
第一组合权重计算模块,用于为所述第一搜索词的每个词条组合查找其所在的除所述第一搜索词的其他搜索词,根据所述第一搜索词的每个词条组合中分词词条在所述第一搜索词和所述其他搜索词中的分词权重,计算所述第一搜索词的每个词条组合中分词词条的组合权重;
第二词条组合组成模块,用于从所述第二搜索词中选取分词词条,组成所述第二搜索词的一个或多个词条组合;
第二组合权重计算模块,用于根据所述第一搜索词的词条组合中分词词条的组合权重,确定所述第二搜索词的词条组合中分词词条的组合权重;
所述第二分词权重计算模块根据所述第二搜索词的每个分词词条在所述第二搜索词的不同词条组合中的组合权重,计算所述第二搜索词的每个分词词条的分词权重。
8.根据权利要求7所述的装置,其中,
从所述第一搜索词中选取的多个分词词条为连续多个分词词条;
从所述第二搜索词中选取的多个分词词条为连续多个分词词条。
9.根据权利要求7所述的装置,其中,
所述第一搜索词中的每个词条组合中分词词条数量低于预设阈值;
所述第二搜索词中的每个词条组合中分词词条数量低于所述预设阈值。
10.根据权利要求7所述的装置,其中,还包括:
搜索结果条目排序模块,用于根据所述第二搜索词中不同分词词条的分词权重,对所述第二搜索词中不同分词词条对应的搜索结果条目进行排序。
11.根据权利要求7所述的装置,其中,还包括:
核心词提取模块,用于根据所述第二搜索词中不同分词词条的分词权重,从所述第二搜索词的多个分词词条中提取用于进行搜索的核心词。
12.根据权利要求7所述的装置,其中,
所述共同点击搜索词集合中包含所述第一搜索词;或
所述共同点击搜索词集合中不包含所述第一搜索词。
CN201410826788.1A 2014-12-25 2014-12-25 词条权重计算方法和装置 Expired - Fee Related CN105786910B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410826788.1A CN105786910B (zh) 2014-12-25 2014-12-25 词条权重计算方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410826788.1A CN105786910B (zh) 2014-12-25 2014-12-25 词条权重计算方法和装置

Publications (2)

Publication Number Publication Date
CN105786910A CN105786910A (zh) 2016-07-20
CN105786910B true CN105786910B (zh) 2019-06-07

Family

ID=56388579

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410826788.1A Expired - Fee Related CN105786910B (zh) 2014-12-25 2014-12-25 词条权重计算方法和装置

Country Status (1)

Country Link
CN (1) CN105786910B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052503B (zh) * 2017-12-26 2021-04-27 北京奇艺世纪科技有限公司 一种置信度的计算方法及装置
CN108984582B (zh) * 2018-05-04 2023-07-28 中国信息安全研究院有限公司 一种查询请求处理方法
CN109947902B (zh) * 2019-03-06 2021-03-26 腾讯科技(深圳)有限公司 一种数据查询方法、装置和可读介质
CN109933714B (zh) * 2019-03-18 2021-04-20 北京搜狗科技发展有限公司 一种词条权重的计算方法、搜索方法及相关装置
CN111984749B (zh) * 2019-05-23 2024-08-20 北京搜狗科技发展有限公司 一种兴趣点排序方法和装置
CN114637601B (zh) * 2022-03-02 2024-10-18 马上消费金融股份有限公司 信息获取方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102043845A (zh) * 2010-12-08 2011-05-04 百度在线网络技术(北京)有限公司 一种用于基于查询序列簇提取核心关键词的方法与设备
CN103106287A (zh) * 2013-03-06 2013-05-15 深圳市宜搜科技发展有限公司 一种用户检索语句的处理方法及系统
CN103150409A (zh) * 2013-04-08 2013-06-12 深圳市宜搜科技发展有限公司 一种用户检索词推荐的方法及系统
CN103873601A (zh) * 2012-12-11 2014-06-18 百度在线网络技术(北京)有限公司 一种寻址类查询词的挖掘方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102043845A (zh) * 2010-12-08 2011-05-04 百度在线网络技术(北京)有限公司 一种用于基于查询序列簇提取核心关键词的方法与设备
CN103873601A (zh) * 2012-12-11 2014-06-18 百度在线网络技术(北京)有限公司 一种寻址类查询词的挖掘方法及系统
CN103106287A (zh) * 2013-03-06 2013-05-15 深圳市宜搜科技发展有限公司 一种用户检索语句的处理方法及系统
CN103150409A (zh) * 2013-04-08 2013-06-12 深圳市宜搜科技发展有限公司 一种用户检索词推荐的方法及系统

Also Published As

Publication number Publication date
CN105786910A (zh) 2016-07-20

Similar Documents

Publication Publication Date Title
CN105786910B (zh) 词条权重计算方法和装置
CN106611052B (zh) 文本标签的确定方法及装置
CN103577413B (zh) 搜索结果排序方法及系统、搜索结果排序优化方法及系统
CN103440335B (zh) 视频推荐方法及装置
CN103714084B (zh) 推荐信息的方法和装置
JP6211605B2 (ja) クリックスルー率に基づく検索結果の順位付け
CN104965905B (zh) 一种网页分类的方法和装置
CN104361115B (zh) 一种基于共同点击的词条权重确定方法及装置
CN108038161A (zh) 基于相册的信息推荐方法、装置及计算设备
CN104462301B (zh) 一种网络数据的处理方法和装置
CN105653701B (zh) 模型生成方法及装置、词语赋权方法及装置
KR20160137935A (ko) 소셜 네트워크 정보흐름 표시방법, 장치, 서버, 프로그램 및 컴퓨터가 판독가능한 기록매체
WO2008106668A1 (en) User query mining for advertising matching
CN102663617A (zh) 一种广告的点击率预测方法及系统
CN105095381B (zh) 新词识别方法和装置
CN104933044B (zh) 应用卸载原因的分类方法及分类装置
CN104462554B (zh) 问答页面相关问题推荐方法和装置
CN103559313B (zh) 搜索方法及装置
CN102915358B (zh) 导航网站实现方法和装置
CN113268641B (zh) 基于大数据的用户数据处理方法及大数据服务器
CN106469187A (zh) 关键词的提取方法及装置
CN109558544A (zh) 排序方法及装置、服务器和存储介质
CN110968664A (zh) 一种文书检索方法、装置、设备及介质
CN104537080B (zh) 资讯推荐方法和系统
CN113392329A (zh) 内容推荐方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190607

Termination date: 20211225

CF01 Termination of patent right due to non-payment of annual fee