CN104615723A - 查询词权重值的确定方法和装置 - Google Patents

查询词权重值的确定方法和装置 Download PDF

Info

Publication number
CN104615723A
CN104615723A CN201510064123.6A CN201510064123A CN104615723A CN 104615723 A CN104615723 A CN 104615723A CN 201510064123 A CN201510064123 A CN 201510064123A CN 104615723 A CN104615723 A CN 104615723A
Authority
CN
China
Prior art keywords
log information
inquiry log
weighted value
query word
query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510064123.6A
Other languages
English (en)
Other versions
CN104615723B (zh
Inventor
张军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510064123.6A priority Critical patent/CN104615723B/zh
Publication of CN104615723A publication Critical patent/CN104615723A/zh
Application granted granted Critical
Publication of CN104615723B publication Critical patent/CN104615723B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种查询词权重值的确定方法和装置。所述方法包括:按照设定规则对查询日志信息进行分类处理;根据查询词在至少两类查询日志信息中出现的差异性,确定查询词的权重值。所述装置包括:日志信息处理模块,用于按照设定规则对查询日志信息进行分类处理;权重值计算模块,根据查询词在至少两类查询日志信息中出现的差异性,确定查询词的权重值。本发明解决了现有的查询词权重值由网络中包含该查询词的文档数目所决定,与查询词在该查询式中的重要程度有较大偏差技术问题,优化现有的查询词权重值确定技术,使得计算得到的查询词权重值与用户实际的查询操作密切相关,提高了查询词权重值的准确性以及搜索引擎的搜索效果。

Description

查询词权重值的确定方法和装置
技术领域
本发明实施例涉及数据处理技术,尤其涉及一种查询词权重值的确定方法和装置。
背景技术
随着互联网技术的不断发展以及互联网应用对人们工作、学习与生活的不断渗透,人们越来越多的通过网络获取信息。典型的,用户通过搜索引擎输入查询式(Query),搜索引擎通过采用一定的搜索排序方式向用户返回与输入查询式相匹配的搜索结果。其中,搜索引擎在处理用户输入的查询式时,会给查询式中包括的查询词(Term)赋予不同的权重来反映不同查询词在查询式当中的重要程度(也称为Term重要性),搜索引擎通过联合使用查询式当中的Term重要性以及查询式与网络中文档(典型的,网页)的匹配程度对搜索结果进行排序,并提供给用户。
现有技术主要通过IDF(Inverse Document Frequency,逆文档频率)方法来计算查询词的权重值,即通过文档集合中所有文档的数目除以包含某个查询词的文档的数目,再将得到的商取对数的结果,作为该查询词的权重值。现有技术的主要缺陷在于查询词权重值由网络中包含该查询词的文档数目所决定,与查询词在该查询式中的重要程度有较大偏差。
发明内容
有鉴于此,本发明实施例提供一种查询词权重值的确定方法和装置,以优化现有的查询词权重值确定技术,提高所确定的查询词重要程度的准确性。
在第一方面,本发明实施例提供了一种查询词权重值的确定方法,包括:
按照设定规则对查询日志信息进行分类处理;
根据查询词在至少两类所述查询日志信息中出现的差异性,确定所述查询词的权重值。
在第二方面,本发明实施例提供了一种查询词权重值的确定装置,包括:
查询日志处理模块,用于按照设定规则对查询日志信息进行分类处理;
权重值确定模块,用于根据查询词在至少两类所述查询日志信息中出现的差异性,确定所述查询词的权重值。
本发明实施例通过按照设定规则对查询日志信息进行分类处理;根据查询词在至少两类所述查询日志信息中出现的差异性,确定所述查询词的权重值的技术手段,解决了现有技术在计算查询词权重值时仅仅根据网络中查询词的文档数目,而不考虑用户实际输入的查询式以及实际点击的搜索结果的技术问题,优化了现有的查询词权重值确定技术,使得计算得到的查询词权重值与用户实际的查询操作密切相关,提高了查询词权重值的准确性以及搜索引擎的搜索效果。
附图说明
图1是本发明第一实施例的一种查询词权重值的确定方法的流程图;
图2是本发明第二实施例的一种查询词权重值的确定方法的流程图;
图3是本发明第三实施例的一种查询词权重值的确定方法的流程图;
图4是本发明第三实施例所应用的一种搜索引擎的查询系统的实现框图;
图5是本发明第四实施例的一种查询词权重值的确定装置的结构图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明具体实施例作进一步的详细描述。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。
首先,将本发明实施例的主要实现思路简述如下:
一般来说,用户通过搜索引擎输入的查询式中包括有多个查询词,但是这多个查询词的重要程度是不相同的。例如,当用户输入的查询式为“百度的股价是多少”时,显然“百度”以及“股价”这两个查询词的重要程度,要高于“的”、“是”以及“多少”这三个查询词。因此,重要程度高的查询词需要被赋予较高的权重值,以实现在返回搜索结果时,将与权重值高的查询词相匹配的文档(或网页),优先于与权重值低的查询词相匹配的文档(或网页)显示。
现有的IDF技术在计算查询词的权重值时,使用的主要思想是:如果网络中同时包含某个查询词的文档数越多,那这个词的区分能力也就越小,那这个词的权重值就应该降低;反之,如果某个词只在很少的文档中出现,那么这个词的区分能力就更高,因此权重值也更高。换句话说,现有技术在计算查询词的权重值时,查询词在文档(或网页)中出现的次数越少,该查询词的权重值也就越高。
而在本发明各实施例中,采用了截然不同的思路来计算查询词的权重值。即:在本发明各实施例中,将查询词的权重值与用户实际输入的查询式,以及实际点击的网页地址等用户操作相关联。举例而言,针对多个不同用户输入不同查询式进行搜索后,点击同一个URL(Uniform Resoure Locator,统一资源定位符)地址的操作,用户实际输入的某个查询词的次数越多,则对上述URL地址来说,该查询词的重要程度也就越高,该查询词的权重值也就应该越大。
第一实施例
图1为本发明第一实施例提供的一种查询词权重值的确定方法的流程图,本实施例的方法可以由查询词权重值的确定装置来执行,该装置可通过硬件和/或软件的方式实现,并一般可以集成于用于提供查询词权重值确定服务的权重值确定服务器中,与用于提供搜索引擎服务的搜索服务器配合使用,其中,所述权重值确定服务器和所述搜索服务器可以相同也可以不同,对此并不进行限制。
本实施例的方法具体包括如下操作:
110、按照设定规则对查询日志信息进行分类处理。
在本实施例中,权重值确定服务器按照设定规则对查询日志信息进行分类处理。
其中,查询日志信息具体是指与用户通过搜索引擎查询信息时的用户行为操作所对应的行为日志信息。
一般来说,在可提供搜索引擎服务的搜索服务器端,通常会存储与用户的查询及点击操作对应的查询日志信息。典型的,在该查询日志信息中通常会记录有:用户通过哪种输入设备(Device,例如,台式机或者移动终端等),以哪种输入方式(InputMethod,例如,文本输入或者语音输入等),输入了哪种查询式(Query),以及点击了所返回的搜索结果当中的哪条记录(URL)等参数。因此,在逻辑上,假定与一个用户对应的查询日志信息中共包括M条记录,则该M条记录的数据形式如下所示:
Device1,InputMethod1,Query1,URL1;
Device2,InputMethod2,Query2,URL2;
…;
DeviceM,InputMethodM,QueryM,URLM。
当然,可以理解的是,上述查询日志信息中还可以记录其他类型的参数,例如,用户标识、查询时间等,本实施例对此并不进行限制。
在本实施例中,可以通过主动拉取或者被动接收的方式,获取搜索服务器中存储的所述查询日志信息。
在本实施例中,按照设定规则对查询日志信息进行分类处理具体可以包括:根据查询日志信息中包括的设定参数,对所述查询日志信息进行分类处理。
举例而言,可以仅根据查询日志信息中包括的URL参数,对所述查询日志信息进行分类,例如,可以将URL参数相同的查询日志信息分为一类。
优选还可以同时根据查询日志信息中包括的URL参数、输入设备参数和/或输入方式参数对所述查询日志信息进行分类处理,例如,在获取URL相同的查询日志信息后,可以对上述查询日志信息按照不同的输入设备参数进行分类,以生成分类处理结果;也可以对上述查询日志信息按照不同的输入方式参数进行分类,以生成分类处理结果;还可以对上述查询日志信息同时按照输入设备参数和输入方式参数进行分类,以生成分类处理结果等。
当然,可以理解的是,还可以采取其他的方式对所述查询日志信息进行分类处理,本实施例对此并不进行限制。
120、根据查询词在至少两类所述查询日志信息中出现的差异性,确定所述查询词的权重值。
在本实施例中,可以根据查询词在不同类查询日志信息中出现的差异性,采用不同的方法计算所述查询日志信息中包括的查询词的权重值。
其中,当用户的查询意图一致时,不同用户所输入的查询式会有差异,例如有些用户习惯口语化输入方式而另一些用户则习惯书面化输入方式;更精确的,当用户的查询意图一致时,对于具有不同共有特征的不同类查询日志信息,用户输入的查询式会有差异,例如语音输入与文本输入方式的不同导致相同查询意图的查询式并不完全一致。即查询词在查询式中出现的方式会存在差异性。但由于查询意图一致,所以其中核心查询词基本相同或相似。所以可利用查询词在不同类查询日志信息中出现的差异性来确定查询词的权重值。
在一个具体例子中,可以按照URL参数对查询日志信息进行分类,将URL参数相同的查询日志信息分为一类。针对每一类查询日志信息,不同查询词出现的差异性,即可反应该查询词的权重值。因此,通过统计不同分类的查询日志信息中包括的查询词的总数目,将各个查询词在查询词的总数目中所占的比例,直接作为所述查询词的权重值。
例如:按照URL参数将查询日志信息分为M(M>2)类,从每一类信息中获取K(K>2)条查询日志信息,并对获取的查询日志信息中的查询式进行统计:统计结果为第一查询词出现156次,第二查询词出现38次,第三查询词出现46次。因此,可以分别计算第一查询词的权重值P(1)=156/(156+38+46);第二查询词的权重值P(2)=38/(156+38+46);第三查询词的权重值P(3)=46/(156+38+46)。
在另一个具体例子中,为了进一步提高查询词权重值的准确性,可以同时根据输入设备参数和URL参数对查询日志信息进行分类处理。例如,首先根据URL参数将查询日志信息进行分组,之后再对每一组信息按照输设备参数进行分类,例如,按照台式输入设备移动输入设备分为两类。通过统计查询词在不同分类的查询日志信息中的差异性,进而可以确定查询词的权重值。
优选的,针对上述输入情况,可以根据下述公式,计算所述查询日志信息包括的查询词w的权重值P(w):
P(w)=λP(w,S→P)+(1-λ)P(w,P→S);
其中:
0≤λ≤1,
P表示第一类查询日志信息的集合,S表示第二类查询日志信息的集合。
当然,可以理解的是,权重值确定服务器还可以采用其他的方式计算所述查询日志信息中包括的查询词的权重值,本实施例对此并不进行限制。
本发明实施例通过按照设定规则对查询日志信息进行分类处理;根据查询词在至少两类所述查询日志信息中出现的差异性,确定所述查询词的权重值的技术手段,解决了现有技术在计算查询词权重值时仅仅根据网络中查询词的文档数目,而不考虑用户实际输入的查询式以及实际点击的搜索结果的技术问题,优化了现有的查询词权重值确定技术,使得计算得到的查询词权重值与用户实际的查询操作密切相关,提高了查询词权重值的准确性以及搜索引擎的搜索效果。
在上述实施例的基础上,将操作按照设定规则对查询日志信息进行分类处理可以优化为:获取目标点击网页地址相同的查询日志信息;基于设定输入设备和/或设定输入方式,对获取的所述查询日志信息进行分类处理。
在本优选实施方式中,权重值确定服务器获取目标点击网页地址相同的查询日志信息。
其中,所述目标点击网页地址相同的查询日志信息,即为上文所述的URL参数相同的查询日志信息。通过获取URL参数相同的查询日志信息,即可获取针对查询意图的一致的网页地址,不同用户输入的不同查询式。
其中,可以基于设定输入设备,对获取的所述查询日志信息进行分类处理。例如,基于台式输入设备,对获取的所述查询日志信息进行分类处理;也可以基于移动输入设备,对获取的所述查询日志信息进行分类处理;还可以分别基于台式输入设备和移动输入设备,对获取的所述查询日志信息进行分类处理;
还可以基于设定输入方式,对获取的所述查询日志信息进行分类处理。例如,可以基于文本输入方式,对获取的所述查询日志信息进行分类处理;也可以基于语音输入方式,对获取的所述查询日志信息进行分类处理;还可以分别基于文本输入方式和语音输入方式,对获取的所述查询日志信息进行分类处理;
还可以基于设定输入设备和设定输入方式,对获取的所述查询日志信息进行分类处理。例如,权重值确定服务器可以基于台式输入设备的文本输入方式,对获取的所述查询日志信息进行分类处理;也可以基于移动输入设备的语音输入方式,对获取的所述查询日志信息进行分类处理;还可以分别基于台式输入设备的文本输入方式和移动输入设备的语音输入方式,对获取的所述查询日志信息进行分类处理等。
这样设置的好处是,通过综合使用多个参数对查询日志信息进行分类处理,可以进一步区分不同分类中查询词的差异性,进而提高查询词的权重值计算结果的准确度和针对性。
第二实施例
图2是本发明第二实施例的一种查询词权重值的确定方法的流程图。本实施例以上述实施例为基础进行优化,在本实施例中,优选的将操作基于设定输入设备和/或设定输入方式,对获取的所述查询日志信息进行分类处理优化为:基于台式输入设备的文本输入方式,获取所述查询日志信息中的第一类查询日志信息;基于移动输入设备的语音输入方式,获取所述查询日志信息中的第二类查询日志信息;按照设定规则,获取设定数目的第一类查询日志信息和第二类查询日志信息,作为分类处理结果。
相应的,将操作根据查询词在至少两类所述查询日志信息中出现的差异性,确定所述查询词的权重值优化为:
根据下述公式,计算所述查询日志信息包括的查询词w的权重值P(w):
P(w)=λP(w,S→P)+(1-λ)P(w,P→S);
其中:
0≤λ≤1,
P表示第一类查询日志信息的集合,S表示第二类查询日志信息的集合。
相应的,本实施例的方法包括如下操作:
210、获取目标点击网页地址相同的查询日志信息。
220、基于台式输入设备的文本输入方式,获取所述查询日志信息中的第一类查询日志信息。
230、基于移动输入设备的语音输入方式,获取所述查询日志信息中的第二类查询日志信息。
一般来说,当用户通过台式输入设备或者移动输入设备进行网络搜索时,用户输入的查询式是具有一定的差异性的。典型的,对于台式输入设备(例如,PC(Personal Computer,个人电脑)),用户通常会采用文本输入的方式,构造简洁的查询式,例如:“马三立”或者“百度股价”等来进行网络搜索;而对于移动输入设备(例如,智能手机或者平板电脑等),用户通常会采用语音输入的方式,使用口语化的语句构造查询式,例如:“马三立是谁”,或者,可能还会夹杂着一些语气助词,“嗯,那个,百度的股票现在多少钱啊”等来进行网络搜索。尽管查询的方式不一样,但是用户还是有很大的概率会点击搜索结果中的同一个URL地址。例如:在PC端输入“马三立”的用户和在智能手机端输入“马三立是谁”的用户有很大可能都会点击到马三立的百度百科;在PC端搜索“百度股价”的用户和在智能手机端搜索“嗯,那个,百度的股票现在多少钱啊”的用户有很大可能都会点击同一个财经网站上百度股价的页面。
在本实施例中,基于上述这种差异性,在分别获取目标点击网页地址相同的查询日志信息之后,分别基于台式输入设备的文本输入方式以及移动输入设备的语音输入方式,对获取的所述查询日志信息进行分类处理。
具体的,首先将查询日志信息中,URL参数相同的查询日志信息分为一组;
在上述每个分组中,分别获取输入设备参数为台式输入设备且输入方式参数为文本输入方式的查询日志信息,作为第一类查询日志信息;
在上述每个分组中,分别获取输入设备参数为移动输入设备且输入方式参数为语音输入方式的查询日志信息,作为第二类查询日志信息。
240、按照设定规则,获取设定数目的第一类查询日志信息和第二类查询日志信息,作为分类处理结果。
在本实施例中,可以按照随机获取或者顺序获取的方式,在各个分组中,分别获取相同数目或者不同数目的第一类查询日志信息和第二类查询日志信息,作为分类处理结果,本实施例对此并不进行限制。
250、根据分类处理结果,计算所述查询日志信息中包括的查询词的权重值。
一般来说,由于现代搜索引擎已经积累了足够多的查询日志信息,因此上述得到的第一类查询日志信息的集合和第二类查询日志信息的集合中包含的信息数目也会很大,一般会超过亿级别。因此一个查询词的权重值就可以用第一类查询日志信息的集合和第二类查询日志信息的集合中该查询词的重要程度概率来精确代表。因此,在本实施例中,使用极大似然估计的方式来计算查询词的权重值。
在本实施例中,根据下述公式,计算所述查询日志信息包括的查询词w的权重值P(w):
P(w)=λP(w,S→P)+(1-λ)P(w,P→S);
其中:0≤λ≤1,
P表示第一类查询日志信息的集合,S表示第二类查询日志信息的集合。
本发明实施例通过按照设定规则对查询日志信息进行分类处理;根据查询词在至少两类所述查询日志信息中出现的差异性,确定所述查询词的权重值的技术手段,解决了现有技术在计算查询词权重值时仅仅根据网络中查询词的文档数目,而不考虑用户实际输入的查询式以及实际点击的搜索结果的技术问题,优化了现有的查询词权重值确定技术,使得计算得到的查询词权重值与用户实际的查询操作密切相关,提高了查询词权重值的准确性以及搜索引擎的搜索效果。
第三实施例
图3是本发明第三实施例的一种查询词权重值的确定方法的流程图。本实施例以上述实施例为基础进行优化,在本实施例中,还优选包括:根据用户输入的查询式中查询词的权重值,计算所述查询式与待查询文档的相关度;根据所述查询式与待查询文档的相关度,对所述待查询文档进行排序,并将排序结果提供给用户。
相应的,将操作根据用户输入的查询式中查询词的权重值,计算所述查询式与待查询文档的相关度优化为:根据下述公式,计算所述查询式Q与待查询文档C的相关度Cosine(Q,C):
Co sin e ( Q , C ) = Σ i = 1 m Q i × C i Σ i = 1 m Q i 2 × Σ i = 1 m C i 2 ;
其中,m为词典词表的长度;在词典词表的第i个位置上标准词与Q或者C中的查询词w相等时,Qi或者Ci的值为P(w)*TF(w);否则,Qi或者Ci的值为0;P(w)为w的权重值,TF(w)为w在Q和C中出现的总次数。
相应的,本实施例的方法包括如下操作:
310、按照设定规则对查询日志信息进行分类处理。
320、根据分类处理结果,计算所述查询日志信息中包括的查询词的权重值。
330、根据用户输入的查询式中查询词的权重值,计算所述查询式与待查询文档的相关度。
在本实施例中,权重值确定服务器与搜索服务器为同一服务器。也就是说,权重值服务器即可以进行查询词的权重值的确定,又可以对用户的查询式进行网络搜索。
在本实施例中,权重值确定服务器根据用户输入的查询式中查询词的权重值,计算所述查询式与待查询文档的相关度。
搜索引擎的主要的任务是计算出用户输入的查询式与网络中的待查询文档的内容之间的相关程度(也即,相关度),根据这个相关度来对待查询文档进行排序,并将排序结果提供给用户。
具体的,可以通过将用户输入的查询式与待查询文档都转换为向量空间模型,然后将计算得到的两个向量之间的余弦相似度,作为查询式与待查询文档的相关度。
因此,在本实施例中,根据下述余弦相似度公式,计算所述查询式Q与待查询文档C的相关度Cosine(Q,C):
Co sin e ( Q , C ) = Σ i = 1 m Q i × C i Σ i = 1 m Q i 2 × Σ i = 1 m C i 2 ;
其中,m为词典词表的长度;在词典词表的第i个位置上标准词与Q或者C中的查询词w相等时,Qi或者Ci的值为P(w)*TF(w);否则,Qi或者Ci的值为0;P(w)为w的权重值,TF(w)为w在Q和C中出现的总次数。
当然,还可以采用其他的计算方法计算所述查询式与待查询文档的相关度,本实施例对此并不进行限制。
340、根据所述查询式与待查询文档的相关度,对所述待查询文档进行排序,并将排序结果提供给用户。
在本实施例中,权重值确定服务器根据所述查询式与待查询文档的相关度,对所述待查询文档进行排序,并将排序结果提供给用户。
其中,本实施例的方法可以通过如图4所示的一种搜索引擎的查询系统的实现框图来实现。
本发明实施例通过按照设定规则对查询日志信息进行分类处理;根据查询词在至少两类所述查询日志信息中出现的差异性,确定所述查询词的权重值的技术手段,解决了现有技术在计算查询词权重值时仅仅根据网络中查询词的文档数目,而不考虑用户实际输入的查询式以及实际点击的搜索结果的技术问题,优化了现有的查询词权重值确定技术,使得计算得到的查询词权重值与用户实际的查询操作密切相关,提高了查询词权重值的准确性以及搜索引擎的搜索效果。
第四实施例
在图5中示出了本发明第四实施例的一种查询词权重值的确定装置的结构图。如图5所示,所述装置包括:
查询日志处理模块51,用于按照设定规则对查询日志信息进行分类处理;
权重值确定模块52,用于根据查询词在至少两类所述查询日志信息中出现的差异性,确定所述查询词的权重值。
本发明实施例通过按照设定规则对查询日志信息进行分类处理,根据分类处理结果,计算所述查询日志信息中包括的查询词的权重值的技术手段,解决了现有技术在计算查询词权重值时仅仅根据网络中查询词的文档数目,而不考虑用户实际输入的查询式以及实际点击的搜索结果的技术问题,优化了现有的查询词权重值确定技术,使得计算得到的查询词权重值与用户实际的查询操作密切相关,提高了查询词权重值的准确性以及搜索引擎的搜索效果。
在上述各实施例的基础上,所述权重值确定模块具体可以用于:
根据下述公式,计算所述查询日志信息包括的查询词w的权重值P(w):
P(w)=λP(w,S→P)+(1-λ)P(w,P→S);
其中:
0≤λ≤1,
P表示第一类查询日志信息的集合,S表示第二类查询日志信息的集合。
在上述各实施例的基础上,所述查询日志处理模块可以包括:
查询日志获取子模块,用于获取目标点击网页地址相同的查询日志信息;
分类处理子模块,用于基于设定输入设备和/或设定输入方式,对获取的所述查询日志信息进行分类处理。
在上述各实施例的基础上,所述分类处理子模块具体可以用于:
基于台式输入设备的文本输入方式,获取所述查询日志信息中的第一类查询日志信息;
基于移动输入设备的语音输入方式,获取所述查询日志信息中的第二类查询日志信息;
获取设定数目的第一类查询日志信息和第二类查询日志信息,作为分类处理结果。
在上述各实施例的基础上,所述装置还可以包括:
相关度计算模块,用于根据用户输入的查询式中查询词的权重值,计算所述查询式与待查询文档的相关度;
查询结果提供模块,用于根据所述查询式与待查询文档的相关度,对所述待查询文档进行排序,并将排序结果提供给用户。
在上述各实施例的基础上,所述相关度计算模块具体可以用于:
根据下述公式,计算所述查询式Q与待查询文档C的相关度Cosine(Q,C):
Co sin e ( Q , C ) = Σ i = 1 m Q i × C i Σ i = 1 m Q i 2 × Σ i = 1 m C i 2 ;
其中,m为词典词表的长度;
在词典词表的第i个位置上标准词与Q或者C中的查询词w相等时,Qi或者Ci的值为P(w)*TF(w);否则,Qi或者Ci的值为0;
P(w)为w的权重值,TF(w)为w在Q和C中出现的总次数。
本发明实施例所提供的查询词权重值的确定装置可用于执行本发明任意实施例提供的查询词权重值的确定方法,具备相应的功能模块,实现相同的有益效果。
显然,本领域技术人员应该明白,上述的本发明的各模块或各步骤可以通过如上所述的服务器实施。可选地,本发明实施例可以用计算机装置可执行的程序来实现,从而可以将它们存储在存储装置中由处理器来执行,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等;或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种查询词权重值的确定方法,其特征在于,包括:
按照设定规则对查询日志信息进行分类处理;
根据查询词在至少两类所述查询日志信息中出现的差异性,确定所述查询词的权重值。
2.根据权利要求1所述的方法,其特征在于,根据查询词在至少两类所述查询日志信息中出现的差异性,确定所述查询词的权重值包括:
根据下述公式,计算所述查询日志信息包括的查询词w的权重值P(w):
P(w)=λP(w,S→P)+(1-λ)P(w,P→S);
其中:
0≤λ≤1,
P表示第一类查询日志信息的集合,S表示第二类查询日志信息的集合。
3.根据权利要求2所述的方法,其特征在于,按照设定规则对查询日志信息进行分类处理包括:
获取目标点击网页地址相同的查询日志信息;
基于设定输入设备和/或设定输入方式,对获取的所述查询日志信息进行分类处理。
4.根据权利要求3所述的方法,其特征在于,所述基于设定输入设备和/或设定输入方式,对获取的所述查询日志信息进行分类处理包括:
基于台式输入设备的文本输入方式,获取所述查询日志信息中的第一类查询日志信息;
基于移动输入设备的语音输入方式,获取所述查询日志信息中的第二类查询日志信息;
获取设定数目的第一类查询日志信息和第二类查询日志信息,作为分类处理结果。
5.根据权利要求1-4任一项所述的方法,其特征在于,还包括:
根据用户输入的查询式中查询词的权重值,计算所述查询式与待查询文档的相关度;
根据所述查询式与待查询文档的相关度,对所述待查询文档进行排序,并将排序结果提供给用户。
6.根据权利要求5所述的方法,其特征在于,根据用户输入的查询式中查询词的权重值,计算所述查询式与待查询文档的相关度包括:
根据下述公式,计算所述查询式Q与待查询文档C的相关度Cosine(Q,C):
Co sin e ( Q , C ) = Σ i = 1 m Q i × C i Σ i = 1 m Q i 2 × Σ i = 1 m C i 2 ;
其中,m为词典词表的长度;
在词典词表的第i个位置上标准词与Q或者C中的查询词w相等时,Qi或者Ci的值为P(w)*TF(w);否则,Qi或者Ci的值为0;
P(w)为w的权重值,TF(w)为w在Q和C中出现的总次数。
7.一种查询词权重值的确定装置,其特征在于,包括:
查询日志处理模块,用于按照设定规则对查询日志信息进行分类处理;
权重值确定模块,用于根据查询词在至少两类所述查询日志信息中出现的差异性,确定所述查询词的权重值。
8.根据权利要求7所述的装置,其特征在于,所述权重值确定模块具体用于:
根据下述公式,计算所述查询日志信息包括的查询词w的权重值P(w)
P(w)=λP(w,S→P)+(1-λ)P(w,P→S);
其中:
0≤λ≤1,
P表示第一类查询日志信息的集合,S表示第二类查询日志信息的集合。
9.根据权利要求8所述的装置,其特征在于,所述查询日志处理模块包括:
查询日志获取子模块,用于获取目标点击网页地址相同的查询日志信息;
分类处理子模块,用于基于设定输入设备和/或设定输入方式,对获取的所述查询日志信息进行分类处理。
10.根据权利要求9所述的装置,其特征在于,所述分类处理子模块具体用于:
基于台式输入设备的文本输入方式,获取所述查询日志信息中的第一类查询日志信息;
基于移动输入设备的语音输入方式,获取所述查询日志信息中的第二类查询日志信息;
获取设定数目的第一类查询日志信息和第二类查询日志信息,作为分类处理结果。
11.根据权利要求7-10任一项所述的装置,其特征在于,所述装置还包括:
相关度计算模块,用于根据用户输入的查询式中查询词的权重值,计算所述查询式与待查询文档的相关度;
查询结果提供模块,用于根据所述查询式与待查询文档的相关度,对所述待查询文档进行排序,并将排序结果提供给用户。
12.根据权利要求11所述的装置,其特征在于,所述相关度计算模块具体用于:
根据下述公式,计算所述查询式Q与待查询文档C的相关度Cosine(Q,C);
Co sin e ( Q , C ) = Σ i = 1 m Q i × C i Σ i = 1 m Q i 2 × Σ i = 1 m C i 2 ;
其中,m为词典词表的长度;
在词典词表的第i个位置上标准词与Q或者C中的查询词w相等时,Qi或者Ci的值为P(w)*TF(w);否则,Qi或者Ci的值为0;
P(w)为w的权重值,TF(w)为w在Q和C中出现的总次数。
CN201510064123.6A 2015-02-06 2015-02-06 查询词权重值的确定方法和装置 Active CN104615723B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510064123.6A CN104615723B (zh) 2015-02-06 2015-02-06 查询词权重值的确定方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510064123.6A CN104615723B (zh) 2015-02-06 2015-02-06 查询词权重值的确定方法和装置

Publications (2)

Publication Number Publication Date
CN104615723A true CN104615723A (zh) 2015-05-13
CN104615723B CN104615723B (zh) 2018-08-07

Family

ID=53150165

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510064123.6A Active CN104615723B (zh) 2015-02-06 2015-02-06 查询词权重值的确定方法和装置

Country Status (1)

Country Link
CN (1) CN104615723B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105488209A (zh) * 2015-12-11 2016-04-13 北京奇虎科技有限公司 一种词权重的分析方法及装置
CN105528430A (zh) * 2015-12-10 2016-04-27 北京奇虎科技有限公司 一种确定搜索项的权重的方法和装置
CN107368479A (zh) * 2016-05-11 2017-11-21 江苏食品药品职业技术学院 一种利用计算机应用的信息检索方法
CN107885879A (zh) * 2017-11-29 2018-04-06 北京小度信息科技有限公司 语义分析方法、装置、电子设备及计算机可读存储介质
CN109933714A (zh) * 2019-03-18 2019-06-25 北京搜狗科技发展有限公司 一种词条权重的计算方法、搜索方法及相关装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007062215A2 (en) * 2005-11-22 2007-05-31 Word Data Corp. Method, system and code for retrieving texts
CN102682001A (zh) * 2011-03-09 2012-09-19 阿里巴巴集团控股有限公司 一种确定推荐词的方法及设备
CN103365839A (zh) * 2012-03-26 2013-10-23 腾讯科技(深圳)有限公司 一种搜索引擎的推荐搜索方法和装置
CN104050235A (zh) * 2014-03-27 2014-09-17 浙江大学 基于集合选择的分布式信息检索方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007062215A2 (en) * 2005-11-22 2007-05-31 Word Data Corp. Method, system and code for retrieving texts
CN102682001A (zh) * 2011-03-09 2012-09-19 阿里巴巴集团控股有限公司 一种确定推荐词的方法及设备
CN103365839A (zh) * 2012-03-26 2013-10-23 腾讯科技(深圳)有限公司 一种搜索引擎的推荐搜索方法和装置
CN104050235A (zh) * 2014-03-27 2014-09-17 浙江大学 基于集合选择的分布式信息检索方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105528430A (zh) * 2015-12-10 2016-04-27 北京奇虎科技有限公司 一种确定搜索项的权重的方法和装置
CN105528430B (zh) * 2015-12-10 2019-05-31 北京奇虎科技有限公司 一种确定搜索项的权重的方法和装置
CN105488209A (zh) * 2015-12-11 2016-04-13 北京奇虎科技有限公司 一种词权重的分析方法及装置
CN105488209B (zh) * 2015-12-11 2019-06-07 北京奇虎科技有限公司 一种词权重的分析方法及装置
CN107368479A (zh) * 2016-05-11 2017-11-21 江苏食品药品职业技术学院 一种利用计算机应用的信息检索方法
CN107885879A (zh) * 2017-11-29 2018-04-06 北京小度信息科技有限公司 语义分析方法、装置、电子设备及计算机可读存储介质
CN109933714A (zh) * 2019-03-18 2019-06-25 北京搜狗科技发展有限公司 一种词条权重的计算方法、搜索方法及相关装置

Also Published As

Publication number Publication date
CN104615723B (zh) 2018-08-07

Similar Documents

Publication Publication Date Title
US10489399B2 (en) Query language identification
US11288573B2 (en) Method and system for training and neural network models for large number of discrete features for information rertieval
US7949643B2 (en) Method and apparatus for rating user generated content in search results
CA2618854C (en) Ranking search results using biased click distance
US7720870B2 (en) Method and system for quantifying the quality of search results based on cohesion
US9251249B2 (en) Entity summarization and comparison
CN104899322A (zh) 搜索引擎及其实现方法
US20120011112A1 (en) Ranking specialization for a search
US10565253B2 (en) Model generation method, word weighting method, device, apparatus, and computer storage medium
US8631002B2 (en) Web-relevance based query classification
JP5543020B2 (ja) リサーチミッション識別
US20210125108A1 (en) Training a ranking model
Lu et al. An improved focused crawler: using web page classification and link priority evaluation
WO2010139091A1 (en) Co-selected image classification
CN104615723A (zh) 查询词权重值的确定方法和装置
US20080082475A1 (en) System and method for resource adaptive classification of data streams
CN104268142A (zh) 基于可拒绝策略的元搜索结果排序算法
WO2018121198A1 (en) Topic based intelligent electronic file searching
US9002832B1 (en) Classifying sites as low quality sites
US8682892B1 (en) Ranking search results
Zhang et al. Click-based evidence for decaying weight distributions in search effectiveness metrics
CN112579729A (zh) 文档质量评价模型的训练方法、装置、电子设备和介质
CN111737607B (zh) 数据处理方法、装置、电子设备以及存储介质
CN115630144A (zh) 一种文档搜索方法、装置及相关设备
US20090049478A1 (en) System and method for the generation of replacement titles for content items

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant