CN101241512B - 一种重新定义查询词的搜索方法及装置 - Google Patents

一种重新定义查询词的搜索方法及装置 Download PDF

Info

Publication number
CN101241512B
CN101241512B CN2008101016425A CN200810101642A CN101241512B CN 101241512 B CN101241512 B CN 101241512B CN 2008101016425 A CN2008101016425 A CN 2008101016425A CN 200810101642 A CN200810101642 A CN 200810101642A CN 101241512 B CN101241512 B CN 101241512B
Authority
CN
China
Prior art keywords
query word
effective
url
query
related term
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2008101016425A
Other languages
English (en)
Other versions
CN101241512A (zh
Inventor
王静帆
张智敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN2008101016425A priority Critical patent/CN101241512B/zh
Publication of CN101241512A publication Critical patent/CN101241512A/zh
Application granted granted Critical
Publication of CN101241512B publication Critical patent/CN101241512B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种重新定义查询词的搜索方法及装置,解决现有的搜索方式只能将包含查询词的网页作为搜索结果,而不能精确搜索到包含该查询词的同义或近义词的网页,造成搜索效果不能满足用户需求的问题。所述方法包括:根据搜索引擎日志,获得查询词的历史记录;比较查询词之间历史记录的相似度,并将相似度符合预置条件的判为相关词;根据查询词搜索时,将相应的相关词或相关词的查询结果提供给用户。本发明能将仅包含相关词的网页也一同搜索出来,解决了同义或近义词常常以替代形式出现而无法被其他方法发现的问题,从而提高了搜索质量。

Description

一种重新定义查询词的搜索方法及装置
技术领域
本发明涉及搜索引擎技术,特别是涉及一种重新定义查询词的搜索方法及装置。
背景技术
搜索引擎技术的发展给广大网络用户带来非常多的便利,用户在搜索引擎上输入一个查询词,搜索引擎根据用户的查询词,就能返回与该查询词对应的相关网页。现有的各种搜索引擎在进行网页检索时,都是通过查找关键词是否在网页中出现来进行检索。虽然这种搜索方式提供了强大的网页检索功能,但是也存在下述问题:由于自然语言中存在同义词或近义词现象,用户输入的查询词可能与目标网页中的词语义相似但是没有直接出现,这样就检索不到需要的结果了。
现有的解决思路是建立查询词之间的关系表,然后在输入一个查询词的情况下,根据关系表找到该词的同义词或近义词,将包含所述同义词或近义词的网页也作为搜索结果。
目前,建立查询词之间的关系主要有两种实现方式,第一种为人工方式。这种方法的缺点是需要大量人力,而且由于网络的更新速度较快,对网络上出现的大量查询词无法做到及时更新,通常只能做小范围处理。
第二种方法是通过两个词语在文本中的同现来建立它们的关联关系,即基于语料库的统计信息来建立同义、近义关系。常用的同现计算方式有同现概率和互信息。举例说明,例如X,Y是两个词,同现概率计算公式是P(X,Y同现)=同时包含X,Y的文本数量/文本总数,互信息计算公式是MI(X,Y)=P(X,Y同现)/P(X)/P(Y);其中计算结果较大的认为X,Y有联系。
根据上述计算公式,这种基于同现方法的缺点是:由于同义词或近义词常常是以替代的形式出现,很少会包含在同一个网页文本中,例如,“搜狐”和“sohu”是同义词,许多网页中可能根据习惯只包含其中一个词;因此,根据同现计算方式就不能精确找出具有同义或近义关系的词语。
发明内容
本发明所要解决的技术问题是提供一种重新定义查询词的搜索方法及装置,以解决现有的搜索方式只能将包含查询词的网页作为搜索结果,而不能精确搜索到包含该查询词的同义或近义词的网页,造成搜索效果不能满足用户需求的问题。
为解决上述技术问题,根据本发明提供的具体实施例,本发明公开了以下技术方案:
一种重新定义查询词的搜索方法,包括:
根据搜索引擎日志,获得查询词的历史记录;
根据所述查询词的历史记录,比较查询词之间的相似度,并将相似度符合预置条件的判为相关词,建立查询词之间的相关关系;
根据查询词搜索时,将相应的相关词或相关词的查询结果提供给用户。
优选的,所述方法还包括:对所述查询词的历史记录进行预处理,筛选出有效的历史记录;其中,所述有效历史记录包括对应查询词的有效URL及相应的点击次数,以及对应URL的有效查询词及相应的访问次数。
其中,所述筛选有效历史记录的步骤包括:根据搜索引擎日志中对应一个查询词所点击的网页URL及每个网页URL的点击次数,将点击次数符合预置条件的URL筛选为对应该查询词的有效URL。
其中,所述筛选有效历史记录的步骤包括:根据搜索引擎日志中对应一个网页URL所使用的查询词及每个查询词的访问次数,将访问次数符合预置条件的查询词筛选为对应该URL的有效查询词。
优选的,所述筛选有效历史记录的步骤包括:根据搜索引擎日志中对应一个查询词所点击的网页URL及每个网页URL的点击次数,将点击次数符合预置条件的URL筛选为对应该查询词的有效URL;针对所述有效URL,根据搜索引擎日志中对应一个网页URL所使用的查询词及每个查询词的访问次数,将访问次数符合预置条件的查询词筛选为对应所述有效URL的有效查询词;生成针对查询词的有效历史记录,包括对应查询词的有效URL及相应的点击次数。
优选的,所述比较查询词的历史记录来判断相关词的步骤包括:根据查询词的有效历史记录得到对应查询词的向量,所述向量包括对应查询词的有效URL和相应的点击次数;计算两个向量的相似度,并将计算结果符合预置条件的两个词判为相关词。
优选的,计算两个向量的相似度之前,还包括:对所述向量进行归一化计算。
其中,所述比较查询词的历史记录来判断相关词的步骤包括:比较两个词的有效URL,将两个词的有效URL的相似度符合预置条件的判为相关词。
其中,所述相关词的查询结果为仅包含相关词的查询结果,和/或同时包含相关词和查询词的查询结果。
其中,如果将相关词提供给用户,还包括:根据用户选择的相关词,重新进行查询。
优选的,所述方法还包括:对所述查询结果中出现的相关词标红。
一种重新定义查询词的搜索装置,包括:
日志查询单元,用于根据搜索引擎日志,获得查询词的历史记录;
相关词判断单元,用于根据所述查询词的历史记录,比较查询词之间的相似度,并将相似度符合预置条件的判为相关词,建立查询词之间的相关关系;
查询重定义单元,用于根据查询词搜索时,将相应的相关词或相关词的查询结果提供给用户。
优选的,所述装置还包括:有效历史记录筛选单元,用于对所述查询词的历史记录进行预处理,筛选出有效的历史记录;其中,所述有效历史记录包括对应查询词的有效URL及相应的点击次数,以及对应URL的有效查询词及相应的访问次数。
其中,所述有效历史记录筛选单元包括第一筛选单元,用于根据搜索引擎日志中对应一个查询词所点击的网页URL及每个网页URL的点击次数,将点击次数符合预置条件的URL筛选为对应该查询词的有效URL。
其中,所述有效历史记录筛选单元还包括第二筛选单元,用于根据搜索引擎日志中对应一个网页URL所使用的查询词及每个查询词的访问次数,将访问次数符合预置条件的查询词筛选为对应该URL的有效查询词。
优选的,所述有效历史记录筛选单元利用第一筛选单元获得对应查询词的有效URL,针对所述有效URL,再利用第二筛选单元获得对应所述有效URL的有效查询词;然后,生成针对查询词的有效历史记录,包括对应查询词的有效URL及相应的点击次数。
优选的,所述相关词判断单元包括第一判断单元,负责根据查询词的有效历史记录得到对应查询词的向量,所述向量包括对应查询词的有效URL和相应点击次数;计算两个向量的相似度,并将计算结果符合预置条件的两个词判为相关词。
优选的,所述第一判断单元对所述向量进行归一化计算后,再计算两个向量的相似度。
其中,所述相关词判断单元包括第二判断单元,负责比较两个词的有效URL,将两个词的有效URL的相似度符合预置条件的判为相关词。
其中,所述相关词的查询结果为仅包含相关词的查询结果,和/或同时包含相关词和查询词的查询结果。
其中,如果查询重定义单元将相关词提供给用户,则根据用户选择的相关词,重新进行查询。
优选的,所述查询重定义单元对所述查询结果中出现的相关词标红。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
首先,本发明充分利用搜索引擎日志,获得查询词的历史记录,然后比较查询词之间历史记录的相似度,将相似度符合预置条件的判为相关词,这些相关词是该查询词的同义或近义词;在用户输入查询词进行搜索时,搜索引擎根据查询词搜索时,将相应的相关词或相关词的查询结果提供给用户。这样就能将包含相关词的网页也一同搜索出来,解决了同义或近义词常常以替代形式出现而无法被其他方法发现的问题,从而提高了搜索质量。
其次,由于搜索引擎日志可以覆盖近期的大部分查询,同时用户输入的查询词、点击的URL与他的查询意图之间存在比较直接的联系,在覆盖度和准确性上具有一定优势,因此建立的查询词相似度关系更紧密。
再次,由于搜索引擎日志同步更新,所以所述整个流程也是在不断更新,进一步提高了搜索质量,还有利于抓住网上流行的热点。
最后,有些词(比如新闻词汇)在特定的时期具有一些特殊的含义,同义或近义词常常是以替代的形式出现,不会包含在同一个网页文本中,基于同现的方法无法获取这类词;而搜索引擎日志具有更强的时效性,通过本发明所述方法能够获取到这类词,并添加到查询中。
附图说明
图1是现有技术中建立查询词之间关系的方法示意图;
图2是本发明实施例所述一种重新定义查询词的搜索方法流程图;
图3是本发明实施例所述一种重新定义查询词的搜索装置结构图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明实施例提供了一种重新定义查询词的搜索方法,利用搜索引擎日志来获得查询词的有效历史记录,然后计算查询词之间有效历史记录的相似度,在查询时选定相似词加入原始查询,生成新的查询,这样就能将包含同义或近义词的网页也一同搜索出来,解决了同义或近义词常常以替代形式出现而无法被其他方法发现的问题,从而提高了搜索质量。
举例说明,查询词“搜狐”和“sohu”是同义词,现有技术中当用户输入“搜狐”查询时,搜索引擎会将包含该查询词的网页作为搜索结果展现给用户,而本发明会将包含“搜狐”的网页以及包含“sohu”的网页都返回给用户。
参照图2,是本发明实施例所述一种重新定义查询词的搜索方法流程图。
步骤201,根据搜索引擎日志,获得查询词的历史记录。
搜索引擎的日志系统记录了用户在搜索引擎上的进行的行为,包含两个方面:其一,记录用户在搜索引擎上进行的查询;其二,记录用户在进行一次查询时点击的网页,例如:用户在“sogou”网站上搜索查询词“sohu”时,点击的网页有http://www.sohu.com/、http://news.sohu.com/等。
本发明充分利用所述完备的搜索引擎查询点击日志,通过查询该日志可以得到:第一,用户在查询某个查询词时点击了哪些网页,每个网页被访问了多少次;第二,输入一个网址,得到点击这个网址的查询词,以及每个查询词被访问了多少次。然后,利用所述日志记录来建立词与词之间的关联关系。
优选步骤202,对所述查询词的历史记录进行预处理,筛选出有效的历史记录。
由于日志系统中的数据量非常大,而且日志系统中存在很多使用率较低的查询词,如果对每个词都计算它与其他词的关系,则计算量非常大。并且,日志记录中存在一些噪声,会影响后续步骤的处理。因此,本实施例需要先对这些日志记录进行预处理,尽量去除日志噪声,筛选出有效的历史记录。
本实施例采用以下两个步骤来筛选有效的历史记录,这种方法仅作为本发明的实施例进行说明,本发明不限定还有其他筛选方法。
步骤a,根据对应一个查询词所点击的网页URL(Uniform Resoure Locator,统一资源定位符)及每个网页的点击次数,筛选出对应查询词的有效URL。即对每个词,从历史记录中筛选出用户集中访问的一些网页和访问次数作为有效的历史记录。
例如,对于查询词“搜狐”,其历史记录如下:
Figure GDA0000088929920000061
其中,点击网址http://www.sohu.com/的查询比其它查询高出数倍,可看作该词对应的有效URL。
步骤b,根据对应一个网页URL所使用的查询词及每个查询词的访问次数,再对步骤a筛选出的有效URL进一步筛选,得到对应所述有效URL的有效查询词。
例如,对于上例中有效的URL:http://www.sohu.com/,对应的查询词记录如下:
Figure GDA0000088929920000062
Figure GDA0000088929920000071
其中,查询词“sohu”和“搜狐”的访问量比其它的查询词高出数倍,可视作该URL的有效查询词。
在筛选有效历史记录的过程中,将上述两个步骤结合起来,可将日志记录中点击较少的查询词和点击较少的网页都去除,并去除不相关的点击,从而得到包含有效查询词和有效URL的历史记录,即“查询词-URL”对。例如,对于查询词“搜弧”,相应的点击URL中www.sohu.com的排名很高,但是在www.sohu.com下,“搜弧”的查询不高,所以“搜弧”这个查询词不是有效的查询词,将被删去。
需要说明的是,上述步骤a和步骤b在执行时没有特定的先后顺序,可以先a后b,也可以先b后a;而且,所述两个步骤也可以分别单独使用,但通常是配合起来共同进行筛选效果更好。
步骤203,通过比较查询词之间有效历史记录的相似度,建立查询词之间的相关关系,并将有效历史记录相似的词语作为相关词。
根据步骤202得到对应查询词的有效历史记录后,将有效URL和相应的访问量构成一个向量,例如针对查询词“搜狐”,其向量为[www.sohu.com,25778]。通过比较两个向量的相似度,可以得到两个查询词的相似度,选中其中相似度高的词作为相关词。
所述相关词通常是指在自然语言上具有同义或近义关系的词,例如“搜弧”和“sohu”。但本发明中相关词的定义并不限定在同义词或近义词的范围之内,而是包含根据以下过程获得的查询词,所述过程如下:
根据搜索引擎日志中记录的网页URL,可以得到点击这个网址的查询词,这些查询词之间都具有本发明所述的相关关系;或者,针对某一查询词a,根据搜索引擎日志获得对应该查询词的网页URL,然后再针对每个网页URL找到点击相应URL的查询词b,查询词b与查询词a就具有相关关系。
优选的,还可以通过上述步骤a和步骤b得到有效相关词。例如,根据步骤b直接筛选出有效相关词,或者根据步骤a和b共同筛选出有效相关词。
计算向量相似度的方法有多种,本实施例在此介绍其中的两种,如下:
第一种,通过简单计算两个词公共的有效URL比例,判断向量的相似度。
所述方法是指比较两个词的向量中相同的URL,将比较结果符合预置条件的判为相似。其中一种方式是将向量中所有的有效URL都相同的词判为相关词,例如:
两个词“sohu”和“搜狐”,“sohu”对应的有效URL只有www.sohu.com,“搜狐”对应的有效URL也只有www.sohu.com,即他们对应的有效URL都是www.sohu.com,则将“sohu”和“搜狐”判为相关词;
两个词“新闻”和“news”,“新闻”对应的有效URL有2个,分别是news.sina.com.cn和news.sohu.com;“news”对应的有效URL也只有2个,分别是news.sina.com.cn和news.sohu.com。这样,“新闻”和“news”对应的有效URL都是news.sina.com.cn和news.sohu.com,则将所述两个词判为相似。
这种方法仅仅将有效URL完全相同的两个词判为相似,本实施例还提供了另一种判断方式,主要是针对两个词的有效URL部分相同的情况。例如,有些词语是同义或近义关系,其对应的URL列表有部分重叠而不完全相同,这时在比较两个词的有效URL时,通过确定预置的阈值,保证选中的词语对具有一定的相似性。
由上可知,上述第一种方式是第二种方式的特例。第二种方式中当阈值为100%时,即两个查询词的有效URL列表完全重叠时,即为第一种情况。
第二种,对进行比较的向量进行量化计算。
假设针对某个查询词a,其对应的有效历史记录为:
(Ui,Nai),i=1,2,...n;
其中,Ui表示对应的第i个有效URL,Nai表示对应该URL用户使用该词a进行查询的次数。所述有效历史记录可以表示成一个n维向量,每一维对应一个有效的URL及相应的访问次数。
在比较两个词的相似度时,将上述方式表示的向量带入相似度计算公式计算,然后将计算值符合阈值的判为相似。其中,相似度计算可以采用的公式包括K-L散度公式(库尔贝克一莱布勒散度)、欧式距离、余弦公式等等公式,本发明在此不作限定。
经过上述步骤,搜索引擎系统建立起一张相关词列表。
步骤204,用户输入查询词进行检索时,搜索引擎根据相关词列表查找到对应该查询词的相关词,然后在返回该查询词结果时,还可以将相应的相关词或相关词的查询结果提供给用户。即将相关词作为用户输入的补充加入原始查询,生成新的查询,将该查询词和相关词都作为搜索关键词,分别进行搜索。
搜索引擎最后返回的查询结果包括以下三种情况:第一种,仅包含该查询词的网页信息;第二种,同时包含该查询词和相关词的网页信息;第三种,仅包含相关词的网页信息。根据查询结果与查询词的相关程度,搜索引擎在排序靠前的查询结果中会将这三种网页信息都提供给用户,也可能仅提供其中的一种或两种结果。
举例说明,以查询词“搜狐”和“sohu”为例:
第一种:用“搜狐”作为查询词,查询结果里只含有“搜狐”不含有“sohu”;
第二种:用“搜狐”作为查询词,查询结果里既含有“搜狐”又含有“sohu”;
第三种:用“搜狐”作为查询词,查询结果里只含有“sohu”不含有“搜狐”。
在现有技术中,利用目前的搜索引擎得到的查询结果包括第一种和第二种情况,即搜索引擎将包含查询词“搜狐”的网页作为查询结果。而利用本发明实施例所述方法,搜索引擎获得的查询结果包括以上三种情况。针对第三种查询结果,用户输入查询词“搜狐”,本发明搜索引擎首先找到该词的相关词“sohu”,然后将仅包含“sohu”的网页检索出来。针对第二种情况,查询结果中同时包含“搜狐”和“sohu”,本发明搜索引擎根据查询词“搜狐”可以检索出,也可以根据相关词“sohu”检索出。
综上所述,本发明与现有技术的区别在于:现有技术仅仅能将包含查询词“搜狐”的网页检索出,而不能把仅包含相关词“sohu”的网页检索出;本发明即可以将仅包含查询词“搜狐”的网页检索出,也可以把仅包含相关词“sohu”的网页检索出,还可以把同时包含“搜狐”和“sohu”的网页检索出来。由此可见,利用本发明得到的搜索结果更准确,能够给用户带来更好的搜索体验。
再举例,现有技术中,用“搜狐”作为查询词时,返回的网页有A、B、C、D,用“sohu”作为查询词时返回的网页是A、B、E、F。其中,网页A、B即包含“搜狐”又包含“sohu”,网页C、D仅包含“搜狐”,网页E、F仅包含“sohu”。应用本发明后,当用户用“搜狐”作为查询词时,搜索引擎会将“搜狐”和“sohu”都作为查询词,分别进行查询,最终为用户提供A、B、C、D、E、F的网页内容。
此外,本实施例还可以将该查询词的相关词作为查询结果提供给用户,即在查询结果页面中列出相应的相关词。这时,搜索引擎会根据用户选择的相关词,进行重新查询。即用户点击相关词,搜索引擎将所述相关词作为查询词,再次进行查询。例如,用户输入查询词“搜狐”,搜索引擎的结果页面中不仅列出对应“搜狐”的查询结果,还会将相关词“sohu”列出作为提示信息,用户继续点击“sohu”,搜索引擎就会将对应“sohu”的查询结果提供给用户。或者,搜索引擎将对应“搜狐”和“sohu”的查询结果都列出来,同时将相关词“sohu”也列出来供用户参考。
本发明实施例优选的,还会对查询结果中出现的相关词进行标红。所述标红是指在查询结果中将查询词以彩色标注出来,以方便用户查看。由于有些查询结果的页面中并没有列出相应的查询词或相关词,所以仅对出现在查询结果的自动摘要或网页链接等位置的查询词和相关词标红。在现有技术中,针对查询词的查询结果中就会将出现的查询词标红,而本发明会将查询结果中出现的查询词和相关词都标红。
将本发明与现有技术对比:上例中,现有技术的查询结果包括第一种和第二种情况,标红的查询词为“搜狐”;而本发明的查询结果包括所述三种情况,标红的查询词既有“搜狐”,还有“搜狐”的相关词“sohu”。区别尤其明显的是第二种查询结果里既含有“搜狐”又含有“sohu”的情况,现有技术只将“搜狐”标红,本发明会同时将“搜狐”和“sohu”都标红。
此外,针对日志噪声的问题,还可以有多种去噪方法,例如:
www.sohu.com对应的查询词“搜弧”是错别字造成的查询词,由于该站点的知名度较高,“搜弧”的查询量可能比某些小站点的查询词点击量要高出很多,但是小站点中查询词和URL的关系可能要更紧密一些。如果将小站点的查询词与大站点的查询词进行相似度比较,是没有可比性的。因此,需要找到一些特征,滤掉这些大站点下的噪声,同时加强对小站点的处理能力。
解决方法是采用归一化方法,就是用每个部分去除整体,然后得到占整体的百分数,把数据映射到0~1范围之内处理。如果画出了各个部分的图象,那么图象的积分应该是1,就像正态分布。例如,设一个向量为V,则归一化后为V/‖V‖。
例如对向量(Ui,Nai),i=1,2,...n  进行归一化处理,得到(Na1/N,Na2/N,...,Nan/N),其中N为该词所有的URL的访问数之和。
综上所述,本发明充分利用了搜索引擎的日志信息,通过挖掘相似词汇并加入查询串中以弥补单个用户输入信息量的不足,提高了搜索质量。而且,搜索引擎的日志在同步更新,所以所述整个流程也是在不断更新,进一步提高了搜索质量,还有利于抓住网上流行的热点。
其次,由于搜索引擎日志可以覆盖近期的大部分查询,同时用户输入的查询词、点击的URL与他的查询意图之间存在比较直接的联系,在覆盖度和准确性上具有一定优势,因此建立的查询词相似度关系更紧密。而且,针对在特定时期具有一些特殊含义的词语,比如新闻词汇,基于同现的方法无法获取这类词;而搜索引擎日志具有更强的时效性,通过本发明所述方法能够获取到这类词,并添加到查询中。
针对上述方法,本发明还提供了一种重新定义查询词的搜索装置实施例。参照图3,是所述装置的结构图。所述装置主要包括日志查询单元301,相关词判断单元302,查询重定义单元303,以及优选设置的有效历史记录筛选单元304。
所述日志查询单元301负责从搜索引擎的日志系统中获取历史记录,所述历史记录包括:对应一个查询词所点击的网页URL及每个网页URL的点击次数,以及对应一个网页URL所使用的查询词及每个查询词的访问次数。
由于日志系统中的数据量非常大,而且日志记录中存在一些噪声,会影响后续的处理。因此,本实施例设置有效历史记录筛选单元304,需要先对这些日志记录进行预处理,尽量去除日志噪声,筛选出有效的历史记录。
所述有效历史记录筛选单元304主要负责从搜索引擎的日志系统中筛选出有效的历史记录,根据筛选方法的不同,可以分为第一筛选单元和第二筛选单元。所述第一筛选单元用于根据对应一个查询词所点击的网页URL及每个网页的点击次数,筛选出对应查询词的有效URL;所述第二筛选单元用于根据对应一个网页URL所使用的查询词及每个查询词的访问次数,筛选出对应所述有效URL的有效查询词。所述两个单元可以单独使用,分别获得有效的URL和有效的查询词。
一种优选的方式是,有效历史记录筛选单元304同时使用所述两个单元来获得针对查询词的有效历史记录。筛选方式是:利用第一筛选单元获得对应查询词的有效URL,针对所述有效URL,再利用第二筛选单元获得对应所述有效URL的有效查询词;然后,生成针对查询词的有效历史记录,包括对应查询词的有效URL及相应的点击次数。
相关词判断单元302负责通过计算查询词之间有效历史记录的相似度,建立查询词之间的相关关系,并将有效历史记录相似的词语作为相关词,最后得到一张相关词列表。根据相似度的计算及判断方式不同,相关词判断单元202可分为第一判断单元和第二判断单元。
其中,第一判断单元采用的方式是对进行比较的查询词向量进行量化计算,将查询词对应的向量带入相似度计算公式计算,然后将计算值符合阈值的判为相似。其中,相似度计算可以采用的公式包括K-L散度公式、欧式距离、余弦公式等等公式。
第二判断单元负责通过比较两个词的有效URL,将有效URL的相似度符合预置条件的判为相关词。一种情况是,如果两个词的有效URL有部分重叠而不完全相同,则第二判断单元在比较两个词的有效URL时,通过确定预置的阈值,保证选中的词语对具有一定的相似性。还有一种特殊情况是,当设置所述阈值为100%时,即两个查询词的有效URL列表完全重叠时,才判为相关词。
查询重定义单元303负责在用户输入查询词进行检索时,根据相关词列表查找到对应该查询词的相关词,然后将相关词作为用户输入的补充加入原始查询,生成新的查询。即将该查询词和相关词都作为搜索关键词,分别进行搜索。搜索结果包括三种情况:第一种,仅包含该查询词的网页信息;第二种,同时包含该查询词和相关词的网页信息;第三种,仅包含相关词的网页信息。
此外,查询重定义单元303还可以将该查询词的相关词作为查询结果提供给用户,即在查询结果页面中列出相应的相关词。这时,查询重定义单元303会根据用户选择的相关词,进行重新查询。
优选的,查询重定义单元303不仅将查询结果中出现的查询词标红,还将出现的相关词也进行标红。例如,查询结果里既含有“搜狐”又含有“sohu”的情况,现有技术只将“搜狐”标红,本发明会同时将“搜狐”和“sohu”都标红。
图3所示装置中未详述的部分可以参见图2所示方法的相关部分,为了篇幅考虑,在此不再详述。
以上对本发明所提供的一种重新定义查询词的搜索方法及装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (22)

1.一种重新定义查询词的搜索方法,其特征在于,包括:
根据搜索引擎日志,获得查询词的历史记录;
根据所述查询词的历史记录,比较查询词之间的相似度,并将相似度符合预置条件的判为相关词,建立查询词之间的相关关系;
根据查询词搜索时,将相应的相关词或相关词的查询结果提供给用户。
2.根据权利要求1所述的方法,其特征在于,还包括:
对所述查询词的历史记录进行预处理,筛选出有效的历史记录;
其中,所述有效历史记录包括对应查询词的有效URL及相应的点击次数,以及对应URL的有效查询词及相应的访问次数。
3.根据权利要求2所述的方法,其特征在于,所述筛选有效历史记录的步骤包括:
根据搜索引擎日志中对应一个查询词所点击的网页URL及每个网页URL的点击次数,将点击次数符合预置条件的URL筛选为对应该查询词的有效URL。
4.根据权利要求2所述的方法,其特征在于,所述筛选有效历史记录的步骤包括:
根据搜索引擎日志中对应一个网页URL所使用的查询词及每个查询词的访问次数,将访问次数符合预置条件的查询词筛选为对应该URL的有效查询词。
5.根据权利要求2所述的方法,其特征在于,所述筛选有效历史记录的步骤包括:
根据搜索引擎日志中对应一个查询词所点击的网页URL及每个网页URL的点击次数,将点击次数符合预置条件的URL筛选为对应该查询词的有效URL;
针对所述有效URL,根据搜索引擎日志中对应一个网页URL所使用的查询词及每个查询词的访问次数,将访问次数符合预置条件的查询词筛选为对应所述有效URL的有效查询词;
生成针对查询词的有效历史记录,包括对应查询词的有效URL及相应的点击次数。
6.根据权利要求1所述的方法,其特征在于,所述比较查询词的历史记录来判断相关词的步骤包括:
根据查询词的有效历史记录得到对应查询词的向量,所述向量包括对应查询词的有效URL和相应的点击次数;
计算两个向量的相似度,并将计算结果符合预置条件的两个词判为相关词。
7.根据权利要求6所述的方法,其特征在于,计算两个向量的相似度之前,还包括:对所述向量进行归一化计算。
8.根据权利要求1所述的方法,其特征在于,所述比较查询词的历史记录来判断相关词的步骤包括:
比较两个词的有效URL,将两个词的有效URL的相似度符合预置条件的判为相关词。
9.根据权利要求1所述的方法,其特征在于:所述相关词的查询结果为仅包含相关词的查询结果,和/或同时包含相关词和查询词的查询结果。
10.根据权利要求1所述的方法,其特征在于,如果将相关词提供给用户,还包括:根据用户选择的相关词,重新进行查询。
11.根据权利要求1或9所述的方法,其特征在于,还包括:对所述查询结果中出现的相关词标红。
12.一种重新定义查询词的搜索装置,其特征在于,包括:
日志查询单元,用于根据搜索引擎日志,获得查询词的历史记录;
相关词判断单元,用于根据所述查询词的历史记录,比较查询词之间的相似度,并将相似度符合预置条件的判为相关词,建立查询词之间的相关关系;
查询重定义单元,用于根据查询词搜索时,将相应的相关词或相关词的查询结果提供给用户。
13.根据权利要求12所述的装置,其特征在于,所述装置还包括:有效历史记录筛选单元,用于对所述查询词的历史记录进行预处理,筛选出有效的历史记录;其中,所述有效历史记录包括对应查询词的有效URL及相应的点击次数,以及对应URL的有效查询词及相应的访问次数。
14.根据权利要求13所述的装置,其特征在于:所述有效历史记录筛选单元包括第一筛选单元,用于根据搜索引擎日志中对应一个查询词所点击的网页URL及每个网页URL的点击次数,将点击次数符合预置条件的URL筛选为对应该查询词的有效URL。
15.根据权利要求14所述的装置,其特征在于:所述有效历史记录筛选单元还包括第二筛选单元,用于根据搜索引擎日志中对应一个网页URL所使用的查询词及每个查询词的访问次数,将访问次数符合预置条件的查询词筛选为对应该URL的有效查询词。
16.根据权利要求15所述的装置,其特征在于:所述有效历史记录筛选单元利用第一筛选单元获得对应查询词的有效URL,针对所述有效URL,再利用第二筛选单元获得对应所述有效URL的有效查询词;然后,生成针对查询词的有效历史记录,包括对应查询词的有效URL及相应的点击次数。
17.根据权利要求12所述的装置,其特征在于:所述相关词判断单元包括第一判断单元,负责根据查询词的有效历史记录得到对应查询词的向量,所述向量包括对应查询词的有效URL和相应点击次数;计算两个向量的相似度,并将计算结果符合预置条件的两个词判为相关词。
18.根据权利要求17所述的装置,其特征在于:所述第一判断单元对所述向量进行归一化计算后,再计算两个向量的相似度。
19.根据权利要求12所述的装置,其特征在于:所述相关词判断单元包括第二判断单元,负责比较两个词的有效URL,将两个词的有效URL的相似度符合预置条件的判为相关词。
20.根据权利要求12所述的装置,其特征在于:所述相关词的查询结果为仅包含相关词的查询结果,和/或同时包含相关词和查询词的查询结果。
21.根据权利要求12所述的装置,其特征在于:如果查询重定义单元将相关词提供给用户,则根据用户选择的相关词,重新进行查询。
22.根据权利要求12或20所述的装置,其特征在于:所述查询重定义单元对所述查询结果中出现的相关词标红。
CN2008101016425A 2008-03-10 2008-03-10 一种重新定义查询词的搜索方法及装置 Active CN101241512B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008101016425A CN101241512B (zh) 2008-03-10 2008-03-10 一种重新定义查询词的搜索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008101016425A CN101241512B (zh) 2008-03-10 2008-03-10 一种重新定义查询词的搜索方法及装置

Publications (2)

Publication Number Publication Date
CN101241512A CN101241512A (zh) 2008-08-13
CN101241512B true CN101241512B (zh) 2012-01-11

Family

ID=39933043

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008101016425A Active CN101241512B (zh) 2008-03-10 2008-03-10 一种重新定义查询词的搜索方法及装置

Country Status (1)

Country Link
CN (1) CN101241512B (zh)

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101464897A (zh) * 2009-01-12 2009-06-24 阿里巴巴集团控股有限公司 一种词匹配及信息查询方法及装置
CN101887436B (zh) 2009-05-12 2013-08-21 阿里巴巴集团控股有限公司 一种检索方法和装置
CN101576916B (zh) * 2009-06-18 2011-01-05 清华大学 一种获取同义词的方法及装置
CN102129427B (zh) * 2010-01-13 2013-06-05 腾讯科技(深圳)有限公司 一种词关系挖掘方法和装置
CN102541899B (zh) * 2010-12-23 2014-04-16 阿里巴巴集团控股有限公司 一种信息识别方法及设备
CN102033955B (zh) * 2010-12-24 2012-12-05 常华 扩展用户搜索结果的方法及服务器
CN102567408B (zh) 2010-12-31 2014-06-04 阿里巴巴集团控股有限公司 推荐搜索关键词的方法和装置
CN102637171A (zh) * 2011-02-10 2012-08-15 北京百度网讯科技有限公司 一种优化搜索结果的方法和装置
CN102722501B (zh) * 2011-03-31 2015-07-01 北京百度网讯科技有限公司 搜索引擎及其实现方法
CN102722498B (zh) * 2011-03-31 2015-06-03 北京百度网讯科技有限公司 搜索引擎及其实现方法
CN102722499B (zh) * 2011-03-31 2015-07-01 北京百度网讯科技有限公司 搜索引擎及其实现方法
CN102737021B (zh) * 2011-03-31 2014-10-22 北京百度网讯科技有限公司 搜索引擎及其实现方法
CN102207962B (zh) * 2011-05-25 2013-03-13 盛乐信息技术(上海)有限公司 一种动态搜索引擎及方法
CN102855252B (zh) * 2011-06-30 2015-09-09 北京百度网讯科技有限公司 一种基于需求的数据检索方法和装置
CN102236710A (zh) * 2011-06-30 2011-11-09 百度在线网络技术(北京)有限公司 一种用于在查询结果中展现新闻信息的方法与设备
CN103136210A (zh) * 2011-11-23 2013-06-05 北京百度网讯科技有限公司 一种挖掘具有相似需求的查询的方法及装置
CN102609458B (zh) * 2012-01-12 2015-08-05 北京搜狗信息服务有限公司 一种图片推荐方法和装置
CN103207881B (zh) * 2012-01-17 2016-03-02 阿里巴巴集团控股有限公司 查询方法和装置
CN102929962B (zh) * 2012-10-11 2015-08-12 中国科学技术大学 一种搜索引擎的评测方法
CN103793390B (zh) * 2012-10-29 2018-05-29 阿里巴巴集团控股有限公司 查询条件相似度确定方法、对象查询方法及相关装置
CN103793444B (zh) * 2012-11-05 2017-02-08 江苏苏大大数据科技有限公司 用户需求获取方法
CN103873601B (zh) * 2012-12-11 2019-03-08 百度在线网络技术(北京)有限公司 一种寻址类查询词的挖掘方法及系统
CN103106282B (zh) * 2013-02-27 2016-01-13 王义东 一种网页搜索与展示的方法
CN104111941B (zh) * 2013-04-18 2018-11-16 阿里巴巴集团控股有限公司 信息展示的方法及设备
CN104424215B (zh) * 2013-08-23 2018-02-27 腾讯科技(深圳)有限公司 进行数据搜索的方法及搜索服务器
CN103514269B (zh) * 2013-09-12 2017-08-01 百度在线网络技术(北京)有限公司 基于自然搜索结果确定与第一查询词相关联的第二查询词
CN104090929A (zh) * 2014-06-23 2014-10-08 吕志雪 一种个性化图片推荐方法及装置
CN104239455B (zh) * 2014-09-02 2017-10-10 百度在线网络技术(北京)有限公司 一种搜索结果的获取方法及装置
CN104462310B (zh) * 2014-11-28 2018-02-02 北京国双科技有限公司 网页搜索关键词的相关性检测方法及装置
CN104933183B (zh) * 2015-07-03 2018-02-06 重庆邮电大学 一种融合词向量模型和朴素贝叶斯的查询词改写方法
CN105045781B (zh) * 2015-08-27 2020-06-23 广州神马移动信息科技有限公司 查询词相似度计算方法及装置、查询词搜索方法及装置
CN106611029B (zh) * 2015-10-27 2020-03-03 北京国双科技有限公司 提高网站站内搜索效率的方法和装置
CN106708843A (zh) * 2015-11-12 2017-05-24 北京国双科技有限公司 网站搜索词的推送方法及装置
CN105589967B (zh) * 2015-12-23 2019-08-09 北京奇虎科技有限公司 多级相关新闻的查找方法及装置
CN105659235A (zh) * 2016-01-08 2016-06-08 马岩 网络信息的搜词方法及系统
CN106570046A (zh) * 2016-03-02 2017-04-19 合网络技术(北京)有限公司 一种基于用户操作行为推荐相关搜索数据的方法及装置
CN105808685B (zh) 2016-03-02 2021-09-28 腾讯科技(深圳)有限公司 推广信息的推送方法及装置
CN105912630B (zh) * 2016-04-07 2020-01-31 北京搜狗信息服务有限公司 一种信息扩展方法及装置
CN106407280B (zh) * 2016-08-26 2020-02-14 合一网络技术(北京)有限公司 查询目标匹配方法及装置
CN108255868B (zh) * 2016-12-29 2020-11-24 北京国双科技有限公司 检查网站中链接的方法和装置
CN106844572B (zh) * 2017-01-03 2020-10-30 北京搜狗科技发展有限公司 搜索结果处理方法及装置、用于搜索结果处理的装置
CN107577667B (zh) * 2017-09-14 2020-10-27 北京奇艺世纪科技有限公司 一种实体词处理方法和装置
CN110019646B (zh) * 2017-10-12 2021-10-15 北京京东尚科信息技术有限公司 一种建立索引的方法和装置
CN108846014B (zh) * 2018-05-04 2023-07-25 中国信息安全研究院有限公司 一种数据需求满足方法
CN109918565B (zh) * 2019-02-02 2021-05-11 北京搜狗科技发展有限公司 一种搜索数据的处理方法、装置及电子设备
CN110516029B (zh) * 2019-08-14 2022-06-10 出门问问创新科技有限公司 一种数据处理方法、设备及计算机存储介质
CN110688837B (zh) * 2019-09-27 2023-10-31 北京百度网讯科技有限公司 数据处理的方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1389811A (zh) * 2002-02-06 2003-01-08 北京造极人工智能技术有限公司 搜索引擎的智能化搜索方法
CN101105801A (zh) * 2007-04-20 2008-01-16 清华大学 一种网络关键资源页面的自动定位方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1389811A (zh) * 2002-02-06 2003-01-08 北京造极人工智能技术有限公司 搜索引擎的智能化搜索方法
CN101105801A (zh) * 2007-04-20 2008-01-16 清华大学 一种网络关键资源页面的自动定位方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
全文.

Also Published As

Publication number Publication date
CN101241512A (zh) 2008-08-13

Similar Documents

Publication Publication Date Title
CN101241512B (zh) 一种重新定义查询词的搜索方法及装置
US8244750B2 (en) Related search queries for a webpage and their applications
US7698344B2 (en) Search macro suggestions relevant to search queries
US8560513B2 (en) Searching for information based on generic attributes of the query
US7249121B1 (en) Identification of semantic units from within a search query
US7962477B2 (en) Blending mobile search results
JP4857333B2 (ja) 諸文書にわたる文脈要約情報の決定方法
US9928296B2 (en) Search lexicon expansion
JP5661200B2 (ja) 検索情報の提供
US20110307432A1 (en) Relevance for name segment searches
US20170154116A1 (en) Method and system for recommending contents based on social network
US20100191758A1 (en) System and method for improved search relevance using proximity boosting
JP5616444B2 (ja) 文書インデックス化およびデータクエリングのための方法およびシステム
US9864768B2 (en) Surfacing actions from social data
US8977625B2 (en) Inference indexing
CN110795627B (zh) 信息推荐方法及装置、电子设备
CN101073080A (zh) 推荐搜索引擎关键词
JP2005302042A (ja) マルチセンスクエリについての関連語提案
WO2012162541A1 (en) Method and apparatus of providing suggested terms
CN103365839A (zh) 一种搜索引擎的推荐搜索方法和装置
WO2010125463A1 (en) Method and apparatus for identifying synonyms and using synonyms to search
US20110010354A1 (en) Using scenario-related information to customize user experiences
KR101932619B1 (ko) 콘텐츠 항목과 이미지를 매칭시키기 위한 방법, 장치 및 데이터 처리 시스템
CN106663100B (zh) 多域查询补全
CN110990696B (zh) 搜索意图推荐的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant