CN103873601B - 一种寻址类查询词的挖掘方法及系统 - Google Patents
一种寻址类查询词的挖掘方法及系统 Download PDFInfo
- Publication number
- CN103873601B CN103873601B CN201210533948.4A CN201210533948A CN103873601B CN 103873601 B CN103873601 B CN 103873601B CN 201210533948 A CN201210533948 A CN 201210533948A CN 103873601 B CN103873601 B CN 103873601B
- Authority
- CN
- China
- Prior art keywords
- word
- query word
- main domain
- url
- granularity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Abstract
本发明提供了一种寻址类查询词的挖掘方法及系统,该方法包括:对用户点击日志中记录的域名相同的主域URL进行归一化处理,生成对应的主域名,并依据所述主域URL对应的查询词生成所述主域名的查询词集合;对所述查询词集合中的查询词进行切词,并统计得到的分词的出现次数,确定出现次数最多的分词中最长的分词为所述主域名对应的核心词;确定所述查询词集合中包含所述核心词且被查询次数最高的查询词为所述主域名对应的寻址类查询词。根据本发明提供的技术方案,能够自动挖掘生成寻址类查询词集合,提高寻址类Bad Case挖掘召回率。
Description
【技术领域】
本发明涉及互联网领域的搜索技术,尤其涉及一种寻址类查询词的挖掘方法及系统。
【背景技术】
搜索引擎的查询词可以分为寻址类查询词、信息类查询词和事务类查询词。按照Andrei Broder的研究,这三种查询词的比例分别是:12.3%、62%和25.7%。寻址类查询词指的是用户需要查询某个网站地址时提供的查询词,例如,淘宝网、蘑菇街、中国平安官方网站等,对于这类查询词用户的搜索需求非常明确,就是希望找到对应的官方网站地址,因此搜索引擎需要将对应的官方网站地址放在搜索结果的靠前位置,如前三位。但是,实际情况下中会出现如下官方网站地址没有排到首位而不能满足用户搜索需求的情况:
1、官方网站地址没有出现在搜索结果的第一位;
2、官方网站地址没有出现在首页;
3、官方网站地址没有被搜索引擎收录;
4、出现虚假的官方网站地址;
上述情况称为搜索引擎的寻址类Bad Case,寻址类Bad Case指的是用户的查询词是寻址类查询词,但是搜索引擎没有给出对应的官方网站地址或者给出的官方网站地址在搜索结果中比较靠后,从而导致搜索引擎对于寻址类查询词给出的搜索结果不能满足用户需求。
目前,寻址类Bad Case的挖掘方法是一种半自动的挖掘方法,需要人工提供寻址类查询词集合和对应的官方网站地址,然后自动抓取集合中寻址类查询词的搜索结果,判断对应的官方网站地址是否在搜索结果中、是否排在比较靠前的位置等。这种挖掘方法的缺点是:寻址类查询词集合需要人工配置,浪费人力且效率较低,配置的寻址类查询词的数量有限,导致寻址类BadCase挖掘召回率较低,从而导致搜索结果不能满足用户需求,需要用户的频繁操作,搜索效率较低,同样给搜索引擎增加负担。寻址类Bad Case挖掘召回率指的是从一个集合中找出真正寻址类Bad Case的比例,例如,实际中存在有100个寻址类BadCase,利用上述方法只能找到其中的60个寻址类BadCase,则寻址类Bad Case挖掘召回率为60%。
【发明内容】
本发明提供了一种寻址类查询词的挖掘方法及系统,能够自动挖掘生成寻址类查询词集合,提高寻址类Bad Case挖掘召回率。
本发明的具体技术方案如下:
根据本发明一优选实施例,一种寻址类查询词的挖掘方法,包括:
对用户点击日志中记录的域名相同的主域URL进行归一化处理,生成对应的主域名,并依据所述主域URL对应的查询词生成所述主域名的查询词集合;
对所述查询词集合中的查询词进行切词,并统计得到的分词的出现次数,确定出现次数最多的分词中最长的分词为所述主域名对应的核心词;
确定所述查询词集合中包含所述核心词且被查询次数最高的查询词为所述主域名对应的寻址类查询词。
上述方法中,该方法还包括:
依据预设的时间区间参数从用户点击日志中提取最近的用户点击日志,并依据预设的字段序号从提取的用户点击日志中获取查询词和点击的URL;
依据预设的主域URL格式对所述点击的URL进行筛选,得到点击的URL中的主域URL。
上述方法中,所述对用户点击日志中记录的域名相同的主域URL进行归一化处理,生成对应的主域名具体包括:
以域名作为关键字对主域URL进行分类处理,将域名相同的主域URL归为一类;
依据预设的一个主域URL格式对每类主域URL下的主域URL进行归一化处理,对应每类主域URL生成一个主域名。
上述方法中,所述依据主域URL对应的查询词生成所述主域名的查询词集合具体包括:
提取每类主域URL下每个主域URL对应的查询词,并统计每种查询词的被查询次数,对提取的查询词进行去重处理;
利用处理后得到的查询词及每种查询词的被查询次数生成查询词集合,确定所述查询词集合为所述主域名的查询词集合。
上述方法中,所述对查询词集合中的查询词进行切词具体包括:
依据预设的切词粒度对主域名对应的查询词集合中的每个查询词进行切词处理,对应每个查询词生成一个以上分词;
所述切词粒度是以词组或具有完整意义的字为粒度的切词粒度。
上述方法中,确定主域名对应的寻址类查询词的方法为:
从主域名的查询词集合中提取包含所述核心词的查询词;
依据被查询次数由高到低的顺序对提取出的查询词进行排序,提取其中排名靠前的一个以上查询词;
确定所述核心词和提取的查询词为主域名对应的寻址类查询词。
上述方法中,该方法还包括:
判断主域名的查询词集合中除主域名对应的寻址类查询词以外的查询词以切词为粒度的编辑距离;所述查询词以切词为粒度的编辑距离包括:查询词与核心词之间以切词为粒度的编辑距离、查询词与寻址类查询词之间以切词为粒度的编辑距离;当所述查询词以切词为粒度的编辑距离小于预设的编辑距离阈值时,确定所述查询词为主域名的扩展寻址类查询词;
或,将所述核心词与预设的分词后缀进行组合生成寻址类查询词,确定生成的寻址类查询词为主域名的扩展寻址类查询词。
上述方法中,判断查询词以切词为粒度的编辑距离之前,该方法还包括:
在主域名的查询词集合中将寻址类查询词筛除,对筛除后保留的查询词依据预设的切词粒度进行切词,对应每个查询词得到一个以上分词。
上述方法中,如果查询词对应存在两个以上以切词为粒度的编辑距离,则所述查询词以切词为粒度的编辑距离为两个以上以切词为粒度的编辑距离中最小的编辑距离。
一种寻址类查询词的挖掘系统,包括:主域名生成单元、核心词生成单元、寻址类查询词生成单元;其中,
主域名生成单元,用于对用户点击日志中记录的域名相同的主域URL进行归一化处理,生成对应的主域名,并依据所述主域URL对应的查询词生成所述主域名的查询词集合;
核心词生成单元,用于对所述查询词集合中的查询词进行切词,并统计得到的分词的出现次数,确定出现次数最多的分词中最长的分词为所述主域名对应的核心词;
寻址类查询词生成单元,用于确定所述查询词集合中包含所述核心词且被查询次数最高的查询词为所述主域名对应的寻址类查询词。
上述系统中,该系统还包括:
日志提取单元,用于依据预设的时间区间参数从用户点击日志中提取最近的用户点击日志,并依据预设的字段序号从提取的用户点击日志中获取查询词和点击的URL;
主域URL生成单元,用于依据预设的主域URL格式对所述点击的URL进行筛选,得到点击的URL中的主域URL。
上述系统中,所述主域名生成单元对用户点击日志中记录的域名相同的主域URL进行归一化处理生成对应的主域名具体包括:
以域名作为关键字对主域URL进行分类处理,将域名相同的主域URL归为一类;
依据预设的一个主域URL格式对每类主域URL下的主域URL进行归一化处理,对应每类主域URL生成一个主域名。
上述系统中,所述主域名生成单元依据主域URL对应的查询词生成所述主域名的查询词集合具体包括:
提取每类主域URL下每个主域URL对应的查询词,并统计每种查询词的被查询次数,对提取的查询词进行去重处理;
利用处理后得到的查询词及每种查询词的被查询次数生成查询词集合,确定所述查询词集合为所述主域名的查询词集合。
上述系统中,所述核心词生成单元对查询词集合中的查询词进行切词具体包括:
依据预设的切词粒度对主域名对应的查询词集合中的每个查询词进行切词处理,对应每个查询词生成一个以上分词;
所述切词粒度是以词组或具有完整意义的字为粒度的切词粒度。
上述系统中,所述寻址类查询词生成单元确定主域名对应的寻址类查询词具体包括:
从主域名的查询词集合中提取包含所述核心词的查询词;
依据被查询次数由高到低的顺序对提取出的查询词进行排序,提取其中排名靠前的一个以上查询词;
确定所述核心词和提取的查询词为主域名对应的寻址类查询词。
上述系统中,该系统还包括:
寻址类查询词扩展单元,用于判断主域名的查询词集合中除主域名对应的寻址类查询词以外的查询词以切词为粒度的编辑距离;所述查询词以切词为粒度的编辑距离包括:查询词与核心词之间以切词为粒度的编辑距离、查询词与寻址类查询词之间以切词为粒度的编辑距离;当所述查询词以切词为粒度的编辑距离小于预设的编辑距离阈值时,确定所述查询词为主域名的扩展寻址类查询词;
或,寻址类查询词扩展单元,用于将所述核心词与预设的分词后缀进行组合生成寻址类查询词,确定生成的寻址类查询词为主域名的扩展寻址类查询词。
上述系统中,所述寻址类查询词扩展单元,还用于在主域名的查询词集合中将寻址类查询词筛除,对筛除后保留的查询词依据预设的切词粒度进行切词,对应每个查询词得到一个以上分词。
上述系统中,所述寻址类查询词扩展单元,还用于当查询词对应存在两个以上以切词为粒度的编辑距离时,确定两个以上以切词为粒度的编辑距离中最小的编辑距离为所述查询词以切词为粒度的编辑距离。
由以上技术方案可以看出,本发明提供的具有以下有益效果:
本发明通过对搜索引擎记录的用户点击日志进行反向分析处理,自动生成官方网站地址对应的寻址类查询词,有效挖掘出寻址类查询词;依据自动挖掘出的寻址类查询词对寻址类Bad Case进行挖掘时,能够提高寻址类BadCase的挖掘效率和寻址类Bad Case挖掘召回率,从而依据挖掘出的寻址类Bad Case对搜索结果进行调整,使搜索结果能够满足用户需求,减少用户的频繁操作,提高搜索效率,最终能够改进搜索引擎对于寻址类查询词的搜索效果,提高搜索产品在寻址类需求上的搜索满意度。
【附图说明】
图1是本发明实现寻址类查询词的挖掘方法的优选实施例的流程示意图;
图2是本发明实现寻址类查询词的挖掘系统的优选实施例的结构示意图。
【具体实施方式】
本发明的基本思想是:对用户点击日志中记录的域名相同的主域URL进行归一化处理,生成对应的主域名,并依据所述主域URL对应的查询词生成所述主域名的查询词集合;对所述查询词集合中的查询词进行切词,并统计得到的分词的出现次数,确定出现次数最多的分词中最长的分词为所述主域名对应的核心词;确定所述查询词集合中包含所述核心词且被查询次数最高的查询词为所述主域名对应的寻址类查询词。
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
本发明提供一种寻址类查询词的挖掘方法,图1是本发明实现寻址类查询词的挖掘方法的优选实施例的流程示意图,如图1所示,该优选实施例包括以下步骤:
步骤101,依据预设的字段序号从用户点击日志中提取查询词和点击的URL。
具体的,搜索引擎每天都有数以亿计的查询,每次查询都会对应0~n次的用户点击行为,用户点击日志中记录了每次查询对应的点击的URL,该点击的URL指的是用户在输入查询词后,用户在搜索引擎提供的该查询词的搜索结果中所点击的URL;用户所点击的URL从一定程度上代表用户的搜索意图,而查询词是用户表达搜索意图的方式,因而间接地反映出查询词的类型,当用户点击的是官方网站地址(也称为主域URL)时,用户所用的查询词很可能就是一个寻址类查询词,寻址类查询词一定会落在官方网站地址对应的所有查询词组成的查询词集合中。
搜索引擎记录的用户点击日志中,用户点击日志中包括:cookie、用户的IP地址、搜索时间、用户输入的查询词和用户在查询词的搜索结果中点击的URL;本优选实施例中可以依据预设的时间区间参数T在用户点击日志中提取最近T天的用户点击日志。
用户预先设置一个配置脚本,该配置脚本的内容为用户点击日志中的字段序号,依据配置脚本中的字段序号从提取的用户点击日志中提取与字段序号对应的字段,本优选实施例中,从用户点击日志中提取的字段包括查询词和用户在搜索结果中点击的URL;这里,对于不同的搜索引擎,对应的用户点击日志格式也不一样,因此配置脚本中字段的序号可以依据用户点击日志格式进行设置,只要能依据配置脚本从用户点击日志中提取出查询词和用户点击的URL即可。
例如,有如下用户点击日志:
000062E33D2650968076693074BBA7D6 111.224.89.13512/Nov/2012:22:19:0路虎揽胜http://www.autohome.com.cn/69/
000062E33D2650968076693074BBA7D6 111.224.89.13512/Nov/2012:22:19:30路虎揽胜http://car.bitauto.com/luhulansheng/
0001893BF7D55652EA6A10BF4470259E 111.194.105.1412/Nov/2012:23:02:10蘑菇街http://www.mogujie.com/
0002F17005B75292FA484CA8A59941B9 221.2.145.9812/Nov/2012:13:34:51成吉思汗电视剧http://www.56.com/w78/album-aid-8034399.html
00032B70FCA0553766F7C30EB58141F2 112.230.47.24212/Nov/2012:10:32:51蘑菇街网址http://www.mogujie.com/
0004DB2301E4872CB77FF6892FF8C41E 123.55.2.4312/Nov/2012:15:34:12成吉思汗http://www.56.com/w78/album-aid-8034399.html
0004DB2301E4872CB77FF6892FF8C41E 123.55.2.4312/Nov/2012:15:34:36蘑菇街http://www.mogujie.com
其中,上述7个用户点击日志中,每个用户点击日志包括5个字段,每个字段之间以空格或“\t”为分隔符进行分隔,所述5个字段中,第1个字段“000062E33D2650968076693074BBA7D6”为cookie,用于表示一个具体的用户,第2个字段“111.224.89.135为IP”地址,第3个字段“12/Nov/2012:22:19:0”为搜索时间,第4个字段“路虎揽胜”为查询词,第5个字段“http://www.autohome.com.cn/69/”为路虎揽胜的搜索结果中用户点击的URL。
例如,对于上述用户点击日志,配置脚本中字段的序号为4和5,依据该配置脚本可以从用户点击日志中提取出第4个字段和第5个字段,即查询词和点击的URL,得到如下“查询词点击的URL”的组合形式的信息:
路虎揽胜http://www.autohome.com.cn/69/
路虎揽胜http://car.bitauto.com/luhulansheng/
蘑菇街http://www.mogujie.com/
成吉思汗电视剧http://www.56.com/w78/album-aid-8034399.html
蘑菇街网址http://www.mogujie.com/
成吉思汗http://www.56.com/w78/album-aid-8034399.html
蘑菇街http://www.mogujie.com
步骤102,依据预设的主域URL格式对点击的URL进行筛选得到主域URL,对具有相同域名的主域URL进行归一化处理,生成对应的主域名;依据主域URL对应的查询词生成主域名的查询词集合。
具体的,为了后续便于对查询词和点击的URL进行处理,首先对在步骤101中得到的查询词和点击的URL的组合形式进行处理,对查询词和点击的URL进行次序互换处理,将“查询词点击的URL”的组合形式处理成“点击的URL查询词”的组合形式。
例如,将步骤101中从用户点击日志中提取出查询词和点击的URL进行次序互换处理后,得到如下信息:
http://www.autohome.com.cn/69/路虎揽胜
http://car.bitauto.com/luhulansheng/路虎揽胜
http://www.mogujie.com/蘑菇街
http://www.56.com/w78/album-aid-8034399.html成吉思汗电视剧
http://www.mogujie.com/蘑菇街网址
http://www.56.com/w78/album-aid-8034399.html成吉思汗
http://www.mogujie.com/蘑菇街
依据预设的主域URL格式对点击的URL进行筛选处理,将不符合主域URL格式的点击的URL筛除,得到符合主域URL格式的点击的URL;其中,主域URL指的是一个网站的主页URL;由于本优选实施例是针对寻址类查询词的挖掘,因而仅需要对寻址类查询词对应的点击的URL进行处理,而寻址类查询词对应的点击的URL的格式都是主域URL格式,因此,对点击的URL的筛选处理可以从提取的用户点击日志的点击的URL中得到主域URL;其中,为了能够筛选出多种形式的主域URL,这里,预设的主域URL格式包括:http://域名、http://域名/、http://域名/文件名,例如:
http://域名
http://域名/
http://域名/index.html
http://域名/default.html
http://域名/index.htm
http://域名/index.php
http://域名/index.jsp
http://域名/index.asp
其中,预设的主域URL格式可以动态增加、删除和修改。
以域名作为关键字对筛选后得到的主域URL进行分类处理,将域名相同的主域URL归为一类;对每类主域URL下的主域URL进行归一化处理,即依据预设的一个主域URL格式,对应每类主域URL生成一个主域名,例如,这里预设的主域URL格式可以为“http://域名/”,将每类主域URL下的主域URL都归一化处理为“http://域名/”格式的主域名。
将每类主域URL对应的主域名作为key,提取该类主域URL下每个主域URL对应的查询词,统计每种查询词的被查询次数,然后对提取的查询词进行去重处理,利用处理后得到的查询词及每种查询词的被查询次数生成查询词集合,将该查询词集合作为所述key的查询词集合,从而得到主域名的查询词集合;生成的查询词集合中包括查询词及对应的被查询次数。
例如,对次序互换处理后得到的查询词和点击的URL进行筛选、分类、归一化、提取查询词、统计查询词的被查询次数、去重等处理后,得到如下主域名及对应的查询词集合:
http://www.autohome.com.cn/69/路虎揽胜(1)
http://car.bitauto.com/luhulansheng/路虎揽胜(1)
http://www.mogujie.com/蘑菇街(2)蘑菇街网址(1)
http://www.56.com/w78/album-aid-8034399.html成吉思汗(1)成吉思汗电视剧(1)
其中,主域名与查询词之间、对应同一主域名的不同查询词之间,可以用空格或“\t”为分隔符进行分隔;示例的括号中的数字表示查询词的被查询次数。
步骤103,依据预设的切词粒度对查询词集合中的查询词进行切词,统计得到的分词的出现次数,确定出现次数最多的分词中最长的分词为主域名对应的寻址类查询词的核心词。
具体的,依据预设的切词粒度对步骤102中得到的主域名对应的查询词集合中的每个查询词都进行切词处理,每个查询词都对应生成一个以上分词;其中,所述切词粒度可以利用搜索引擎中常用的切词粒度,如以词组为切词粒度或以具有完整意义的字为切词粒度,只要保证对查询词进行切词处理后得到的每个分词都具有完整意义即可;其中,对于一个查询词如果存在两种以上的切词结果,则保留每种切词结果后的分词,并对这些分词进行去重处理,将处理后的分词作为该查询词的分词;例如,“蘑菇街官方网站”进行切词后,可以得到“蘑菇”、“街”、“官方”、“网站”以及“蘑菇街”、“官方网站”两种切词结果,将这些分词都作为“蘑菇街”切词处理后生成的分词;例如,“蘑菇街网址”可以切词处理生成“蘑菇”、“街”、“网址”三个分词,“蘑菇”和“网址”都不能再进一步切词处理。
可选的,为了提高处理效率,在对查询词集合中的查询词进行切词处理之前,可以依据被查询次数由高到底的顺序对查询词集合中的查询词进行排序,提取排名靠前的查询词,仅对提取的查询词进行切词处理,例如,提取排名位于前10%的查询词;这样处理是因为查询词集合中会存在与主域名关联度较低的一些查询词,例如,主域名为http://www.mogujie.com/的查询词集合为:蘑菇街(100)、蘑菇街官网(40)、蘑菇街官方网站(30)、蘑菇街网站(20)、蘑菇街网址(10)、女性购物社区(3)、最大购物社区(3),其中,女性购物社区和最大购物社区这些查询词仅代表一小部分人甚至个别人的搜索习惯,而不是普遍的搜索习惯,不具有代表性,因此,可以仅对被查询次数靠前的查询词进行切词处理,这些查询词是具有代表性的查询词。
对查询词集合中的每个查询词都进行切词处理后,每个查询词对应生成一个以上分词,这些分词组成分词集合,将分词集合中相同的分词的出现次数相加,得到该分词的出现次数;其中,查询词对应的一个以上分词中,每个分词的出现次数都等于该查询词的被查询次数;依据分词的出现次数由大到小的顺序对分词进行排序,生成分词序列;依据预设的分词候选数,从该分词序列中提取排名靠前的一个以上分词,这些分词的出现次数最多;然后,确定出现次数最多一个以上分词中最长的分词为主域名对应的寻址类查询词的核心词;将主域名与核心词的关联关系以字典文件形式进行保存,例如,字典文件形式为:http://www.mogujie.com/蘑菇街。
步骤104,从主域名的查询词集合中提取包含核心词且被查询次数最高的一个以上查询词,确定核心词和提取的查询词为主域名对应的寻址类查询词。
具体的,从主域名的查询词集合中提取出包含所述核心词的查询词,依据被查询次数由高到低的顺序对提取出的查询词进行排序,提取其中排名靠前的一个以上查询词,其中,提取的查询词的具体数量可以预先进行配置;利用核心词和得到的查询词组成主域名对应的寻址类查询词集合,即确定核心词和提取出的查询词为主域名对应的寻址类查询词。
例如,如果核心词为蘑菇街,则寻址类查询词集合中可以包括:蘑菇街官网地址、蘑菇街网址、蘑菇街官方网站、蘑菇街地址、蘑菇街网站地址、蘑菇街网址等;保存确定的寻址类查询词与主域名的关联关系,这里可以将主域名与核心词、主域名与寻址类查询词的关联关系进行合并保存,如:http://www.mogujie.com/蘑菇街蘑菇街官方网站蘑菇街网址;其中,在保存关联关系的字典文件中,主域名与核心词之间,核心词与寻址类查询词之间、寻址类查询词与寻址类查询词之间可以用空格或“\t”为分隔符进行分隔。
步骤105,当识别出用户输入的查询词为寻址类查询词时,在该查询词的搜索结果中优先显示该寻址类查询词对应的主域名。
具体的,当搜索引擎识别出用户输入的查询词属于某个寻址类查询词集合时,表示用户输入的查询词为寻址类查询词,则依据保存的寻址类查询词与主域名的关联关系,找到该寻址类查询词对应的主域名,通过增加该主域名在搜索结果中的权重值的方式,提高主域名在搜索结果中的位置,实现在搜索结果中相对优先显示对应的主域名;需要说明的是,如果用户输入的查询词与寻址类查询词相同,表示用户带有强烈的寻址需求,想要找到对应的官方网站地址,因此搜索引擎会优先考虑将对应的主域名放在搜索结果的靠前位置,例如前三位;但是主域名在搜索结果中最终的位置还取决于其他因素,如网站的页面质量、竞价等;因此,当用户输入的查询词为寻址类查询词时,搜索引擎在该查询词的搜索结果中优先显示寻址类查询词对应的主域名,但不表示主域名必须作为搜索结果中的第一个结果;例如,主域名与另外一个URL的因素完全一样,则通过提高主域名的权重值的方式使得主域名在搜索结果中的位置比该URL在搜索结果中的位置靠前,因而是在搜索结果中相对优先显示主域名。
由于用户的搜索习惯不同,因此对于同一搜索需求不同用户输入的查询词不同,因此,在上述技术方案的基础上,为了进一步提高对寻址类查询词的识别率,本优选实施例还包括以下步骤:
步骤106,依据主域名的查询词集合中除主域名对应的寻址类查询词以外的查询词以切词为粒度的编辑距离,确定所述查询词为主域名的扩展寻址类查询词;或,依据所述核心词与预设的分词后缀生成主域名的扩展寻址类查询词。
具体的,为了进一步提高寻址类查询词的召回率,可以对寻址类查询词进行进一步扩展,扩展方式可以依据搜索需求进行配置,本优选实施例中包括以下两种扩展方式,但不仅限于以下方式:
第一种:在主域名的查询词集合中将寻址类查询词集合中的寻址类查询词筛除,对筛除后保留的查询词依据预设的切词粒度进行切词,对应每个查询词得到一个以上分词。
判断主域名的查询词集合中除主域名对应的寻址类查询词以外的查询词以切词为粒度的编辑距离;所述查询词以切词为粒度的编辑距离包括:查询词与核心词之间以切词为粒度的编辑距离、查询词与寻址类查询词之间以切词为粒度的编辑距离;所述编辑距离指的是两个字符串之间,由一个字符串转换成另一个字符串所需要的最少编辑操作次数,允许的编辑操作包括:将一个字符替换成另一个字符、插入一个字符和删除一个字符等;通常都是以字或字符为粒度的编辑距离,本优选实施例中,查询词与核心词之间的编辑距离是以切词为粒度,也称为切词距离;如果该查询词以切词为粒度的编辑距离小于预设的编辑距离阈值,则认为该查询词为具有寻址类需求的查询词,则确定该查询词为所述主域名对应的扩展寻址类查询词,将该查询词添加到寻址类查询词集合中;其中,如果一个查询词进行切词时可以得到两个以上切词结果,则依据每个切词结果判断该查询词与核心词之间以切词为粒度的编辑距离,得到的一个以上编辑距离,取其中最小的编辑距离作为该查询词与核心词的编辑距离;其中,所述编辑距离阈值可以为1。
第二种:将所述核心词与预设的分词后缀进行组合,生成寻址类查询词,确定生成的寻址类查询词为主域名对应的扩展寻址类查询词,将该扩展寻址类查询词添加到寻址类查询词集合中;其中,预设的分词后缀指的是地址、网址、网站、官网等寻址类查询词常带有的分词;例如,核心词为蘑菇街,将蘑菇街与预设的分词后缀组合后可以得到的扩展寻址类查询词可以是:蘑菇街地址、蘑菇街网址、蘑菇街网站、蘑菇街官网等。
例如,对于查询词进行切词后得到如下分词:
(1)蘑菇街官网:蘑菇|街|官网
(2)蘑菇街官方网站:蘑菇|街|官方|网站
(3)蘑菇街网站:蘑菇|街|网站
其中,对于(1)与核心词“蘑菇街”,由“蘑菇街”转换成“蘑菇街官网”,只需要增加一个切词,因此“蘑菇街官网”与“蘑菇街”之间以切词为粒度的编辑距离为1;同理,对于(2)与核心词“蘑菇街”之间以切词为粒度的编辑距离为2。
实施例
依据预设的主域URL格式对点击的URL进行筛选处理和分类处理后,得到如下主域URL:
http://www.mogujie.com
http://www.mogujie.com/
http://www.mogujie.com/index.html
http://www.mogujie.com/index.php
http://www.mogujie.com/default.html
http://www.mogujie.com/default.htm
依据“http://域名/”的主域URL格式,对上述主域URL进行归一化处理,生成的主域名为:www.mogujie.com。
将主域名www.mogujie.com作为key,提取key的查询词集合,并对查询词集合中查询词的被查询次数进行统计,得到如下5个查询词及对应的被查询次数:蘑菇街(100)、蘑菇街官网(40)、蘑菇街官方网站(30)、蘑菇街地址(10)、蘑菇街网址(20),其中,100、40、30、10和20分别为这5个查询词对应的被查询次数。
对该5个查询词分别进行切词处理:
蘑菇街(100):蘑菇|街|蘑菇街
蘑菇街官网(40):蘑菇|街|官网|蘑菇街
蘑菇街官方网站(30):蘑菇|街|官方|网站|蘑菇街|官方网站
蘑菇街地址(10):蘑菇|街|地址|蘑菇街
蘑菇街网站(20):蘑菇|街|网站|蘑菇街
对上述分词的出现次数进行统计:
蘑菇:200
街:200
蘑菇街:200
官网:40
官方:30
网站:30
官方网站:30
地址:10
网址:10
其中,蘑菇、街、蘑菇街为提取的三个出现次数最高的分词,将这三个分词中的最长的分词“蘑菇街”筛选出来,确定主域名“www.mogujie.com”的查询词集合的核心词为“蘑菇街”。
为实现上述方法,本发明还提供一种寻址类查询词的挖掘系统,图2是本发明实现寻址类查询词的挖掘系统的优选实施例的结构示意图,如图2所示,该系统包括:主域名生成单元20、核心词生成单元21、寻址类查询词生成单元22;其中,
主域名生成单元20,用于对用户点击日志中记录的域名相同的主域URL进行归一化处理,生成对应的主域名,并依据所述主域URL对应的查询词生成所述主域名的查询词集合;
核心词生成单元21,用于对所述查询词集合中的查询词进行切词,并统计得到的分词的出现次数,确定出现次数最多的分词中最长的分词为所述主域名对应的核心词;
寻址类查询词生成单元22,用于确定所述查询词集合中包含所述核心词且被查询次数最高的查询词为所述主域名对应的寻址类查询词。
该系统还包括:
日志提取单元23,用于依据预设的时间区间参数从用户点击日志中提取最近的用户点击日志,并依据预设的字段序号从提取的用户点击日志中获取查询词和点击的URL;
主域URL生成单元24,用于依据预设的主域URL格式对所述点击的URL进行筛选,得到点击的URL中的主域URL。
其中,所述主域名生成单元20对用户点击日志中记录的域名相同的主域URL进行归一化处理生成对应的主域名具体包括:以域名作为关键字对主域URL进行分类处理,将域名相同的主域URL归为一类;依据预设的一个主域URL格式对每类主域URL下的主域URL进行归一化处理,对应每类主域URL生成一个主域名。
其中,所述主域名生成单元20依据主域URL对应的查询词生成所述主域名的查询词集合具体包括:提取每类主域URL下每个主域URL对应的查询词,并统计每种查询词的被查询次数,对提取的查询词进行去重处理;利用处理后得到的查询词及每种查询词的被查询次数生成查询词集合,确定所述查询词集合为所述主域名的查询词集合。
其中,所述核心词生成单元21对查询词集合中的查询词进行切词具体包括:依据预设的切词粒度对主域名对应的查询词集合中的每个查询词进行切词处理,对应每个查询词生成一个以上分词;所述切词粒度是以词组或具有完整意义的字为粒度的切词粒度。
其中,所述寻址类查询词生成单元22确定主域名对应的寻址类查询词具体包括:从主域名的查询词集合中提取包含所述核心词的查询词;依据被查询次数由高到低的顺序对提取出的查询词进行排序,提取其中排名靠前的一个以上查询词;确定所述核心词和提取的查询词为主域名对应的寻址类查询词。
该系统还包括:寻址类查询词扩展单元25,用于判断主域名的查询词集合中除主域名对应的寻址类查询词以外的查询词以切词为粒度的编辑距离;所述查询词以切词为粒度的编辑距离包括:查询词与核心词之间以切词为粒度的编辑距离、查询词与寻址类查询词之间以切词为粒度的编辑距离;当所述查询词以切词为粒度的编辑距离小于预设的编辑距离阈值时,确定所述查询词为主域名的扩展寻址类查询词;
或,寻址类查询词扩展单元25,用于将所述核心词与预设的分词后缀进行组合生成寻址类查询词,确定生成的寻址类查询词为主域名的扩展寻址类查询词。
所述寻址类查询词扩展单元25,还用于在主域名的查询词集合中将寻址类查询词筛除,对筛除后保留的查询词依据预设的切词粒度进行切词,对应每个查询词得到一个以上分词。
所述寻址类查询词扩展单元25,还用于当查询词对应存在两个以上以切词为粒度的编辑距离时,确定两个以上以切词为粒度的编辑距离中最小的编辑距离为所述查询词以切词为粒度的编辑距离。
本发明的上述技术方案,通过对搜索引擎记录的用户点击日志进行反向分析处理,自动生成官方网站地址对应的寻址类查询词,有效挖掘出寻址类查询词;不再需要人工提供寻址类查询词和对应的官方网站地址,而是依据自动挖掘出的寻址类查询词对寻址类Bad Case进行挖掘,因而能够提高寻址类Bad Case的挖掘效率和寻址类Bad Case挖掘召回率,从而依据挖掘出的寻址类Bad Case对搜索结果进行调整,使搜索结果能够满足用户需求,减少用户的频繁操作,提高搜索效率,最终能够改进搜索引擎对于寻址类查询词的搜索效果,提高搜索产品在寻址类需求上的搜索满意度。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (18)
1.一种寻址类查询词的挖掘方法,其特征在于,该方法包括:
对用户点击日志中记录的域名相同的主域URL进行归一化处理,生成对应的主域名,并依据所述主域URL对应的查询词生成所述主域名的查询词集合,其中,主域URL为网站主页的URL,主域名为主域URL中的域名;
对所述查询词集合中的查询词进行切词,并统计得到的分词的出现次数,确定出现次数最多的一个以上分词中最长的分词为所述主域名对应的核心词;
确定所述查询词集合中包含所述核心词且被查询次数最高的一个以上查询词为所述主域名对应的寻址类查询词。
2.根据权利要求1所述的方法,其特征在于,该方法还包括:
依据预设的时间区间参数从用户点击日志中提取最近的用户点击日志,并依据预设的字段序号从提取的用户点击日志中获取查询词和点击的URL;
依据预设的主域URL格式对所述点击的URL进行筛选,得到点击的URL中的主域URL。
3.根据权利要求1所述的方法,其特征在于,所述对用户点击日志中记录的域名相同的主域URL进行归一化处理,生成对应的主域名具体包括:
以域名作为关键字对主域URL进行分类处理,将域名相同的主域URL归为一类;
依据预设的一个主域URL格式对每类主域URL下的主域URL进行归一化处理,对应每类主域URL生成一个主域名。
4.根据权利要求1所述的方法,其特征在于,所述依据主域URL对应的查询词生成所述主域名的查询词集合具体包括:
提取每类主域URL下每个主域URL对应的查询词,并统计每种查询词的被查询次数,对提取的查询词进行去重处理;
利用处理后得到的查询词及每种查询词的被查询次数生成查询词集合,确定所述查询词集合为所述主域名的查询词集合。
5.根据权利要求1所述的方法,其特征在于,所述对查询词集合中的查询词进行切词具体包括:
依据预设的切词粒度对主域名对应的查询词集合中的每个查询词进行切词处理,对应每个查询词生成一个以上分词;
所述切词粒度是以词组或具有完整意义的字为粒度的切词粒度。
6.根据权利要求1所述的方法,其特征在于,确定主域名对应的寻址类查询词的方法包括:
从主域名的查询词集合中提取包含所述核心词的查询词;
依据被查询次数由高到低的顺序对提取出的查询词进行排序,提取其中排名靠前的一个以上查询词;
确定提取的查询词为主域名对应的寻址类查询词;
确定主域名对应的寻址类查询词的方法进一步包括:将所述核心词确定为主域名对应的寻址类查询词。
7.根据权利要求1所述的方法,其特征在于,该方法还包括:
判断主域名的查询词集合中除主域名对应的寻址类查询词以外的查询词以切词为粒度的编辑距离;所述查询词以切词为粒度的编辑距离包括:查询词与核心词之间以切词为粒度的编辑距离、查询词与寻址类查询词之间以切词为粒度的编辑距离;当所述查询词以切词为粒度的编辑距离小于预设的编辑距离阈值时,确定所述查询词为主域名的扩展寻址类查询词,其中,以切词为粒度是以切词结果为词组或具有完整意义的字为粒度的粒度;
或,将所述核心词与预设的分词后缀进行组合生成寻址类查询词,确定生成的寻址类查询词为主域名的扩展寻址类查询词。
8.根据权利要求7所述的方法,其特征在于,判断查询词以切词为粒度的编辑距离之前,该方法还包括:
在主域名的查询词集合中将寻址类查询词筛除,对筛除后保留的查询词依据预设的切词粒度进行切词,对应每个查询词得到一个以上分词。
9.根据权利要求7所述的方法,其特征在于,如果查询词对应存在两个以上以切词为粒度的编辑距离,则所述查询词以切词为粒度的编辑距离为两个以上以切词为粒度的编辑距离中最小的编辑距离。
10.一种寻址类查询词的挖掘系统,其特征在于,该系统包括:主域名生成单元、核心词生成单元、寻址类查询词生成单元;其中,
主域名生成单元,用于对用户点击日志中记录的域名相同的主域URL进行归一化处理,生成对应的主域名,并依据所述主域URL对应的查询词生成所述主域名的查询词集合,其中,主域URL为网站主页的URL,主域名为主域URL中的域名;
核心词生成单元,用于对所述查询词集合中的查询词进行切词,并统计得到的分词的出现次数,确定出现次数最多的一个以上分词中最长的分词为所述主域名对应的核心词;
寻址类查询词生成单元,用于确定所述查询词集合中包含所述核心词且被查询次数最高的一个以上查询词为所述主域名对应的寻址类查询词。
11.根据权利要求10所述的系统,其特征在于,该系统还包括:
日志提取单元,用于依据预设的时间区间参数从用户点击日志中提取最近的用户点击日志,并依据预设的字段序号从提取的用户点击日志中获取查询词和点击的URL;
主域URL生成单元,用于依据预设的主域URL格式对所述点击的URL进行筛选,得到点击的URL中的主域URL。
12.根据权利要求10所述的系统,其特征在于,所述主域名生成单元对用户点击日志中记录的域名相同的主域URL进行归一化处理生成对应的主域名具体包括:
以域名作为关键字对主域URL进行分类处理,将域名相同的主域URL归为一类;
依据预设的一个主域URL格式对每类主域URL下的主域URL进行归一化处理,对应每类主域URL生成一个主域名。
13.根据权利要求10所述的系统,其特征在于,所述主域名生成单元依据主域URL对应的查询词生成所述主域名的查询词集合具体包括:
提取每类主域URL下每个主域URL对应的查询词,并统计每种查询词的被查询次数,对提取的查询词进行去重处理;
利用处理后得到的查询词及每种查询词的被查询次数生成查询词集合,确定所述查询词集合为所述主域名的查询词集合。
14.根据权利要求10所述的系统,其特征在于,所述核心词生成单元对查询词集合中的查询词进行切词具体包括:
依据预设的切词粒度对主域名对应的查询词集合中的每个查询词进行切词处理,对应每个查询词生成一个以上分词;
所述切词粒度是以词组或具有完整意义的字为粒度的切词粒度。
15.根据权利要求10所述的系统,其特征在于,所述寻址类查询词生成单元确定主域名对应的寻址类查询词具体包括:
从主域名的查询词集合中提取包含所述核心词的查询词;
依据被查询次数由高到低的顺序对提取出的查询词进行排序,提取其中排名靠前的一个以上查询词;
确定提取的查询词为主域名对应的寻址类查询词;
寻址类查询词生成单元确定主域名对应的寻址类查询词进一步包括:将所述核心词确定为主域名对应的寻址类查询词。
16.根据权利要求10所述的系统,其特征在于,该系统还包括:
寻址类查询词扩展单元,用于判断主域名的查询词集合中除主域名对应的寻址类查询词以外的查询词以切词为粒度的编辑距离;所述查询词以切词为粒度的编辑距离包括:查询词与核心词之间以切词为粒度的编辑距离、查询词与寻址类查询词之间以切词为粒度的编辑距离;当所述查询词以切词为粒度的编辑距离小于预设的编辑距离阈值时,确定所述查询词为主域名的扩展寻址类查询词,其中,以切词为粒度是以切词结果为词组或具有完整意义的字为粒度的粒度;
或,寻址类查询词扩展单元,用于将所述核心词与预设的分词后缀进行组合生成寻址类查询词,确定生成的寻址类查询词为主域名的扩展寻址类查询词。
17.根据权利要求16所述的系统,其特征在于,所述寻址类查询词扩展单元,还用于在主域名的查询词集合中将寻址类查询词筛除,对筛除后保留的查询词依据预设的切词粒度进行切词,对应每个查询词得到一个以上分词。
18.根据权利要求16所述的系统,其特征在于,所述寻址类查询词扩展单元,还用于当查询词对应存在两个以上以切词为粒度的编辑距离时,确定两个以上以切词为粒度的编辑距离中最小的编辑距离为所述查询词以切词为粒度的编辑距离。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210533948.4A CN103873601B (zh) | 2012-12-11 | 2012-12-11 | 一种寻址类查询词的挖掘方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210533948.4A CN103873601B (zh) | 2012-12-11 | 2012-12-11 | 一种寻址类查询词的挖掘方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103873601A CN103873601A (zh) | 2014-06-18 |
CN103873601B true CN103873601B (zh) | 2019-03-08 |
Family
ID=50911714
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210533948.4A Active CN103873601B (zh) | 2012-12-11 | 2012-12-11 | 一种寻址类查询词的挖掘方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103873601B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105335449B (zh) * | 2014-08-15 | 2019-03-01 | 北京奇虎科技有限公司 | 基于搜索引擎数据库的样本自动挖掘方法及装置 |
CN104462519A (zh) * | 2014-12-22 | 2015-03-25 | 北京奇虎科技有限公司 | 搜索查询方法和装置 |
CN105786910B (zh) * | 2014-12-25 | 2019-06-07 | 北京奇虎科技有限公司 | 词条权重计算方法和装置 |
CN106611029B (zh) * | 2015-10-27 | 2020-03-03 | 北京国双科技有限公司 | 提高网站站内搜索效率的方法和装置 |
CN105589954A (zh) * | 2015-12-21 | 2016-05-18 | 北京奇虎科技有限公司 | 基于中心词确定搜索建议的方法及装置 |
CN105608071A (zh) * | 2015-12-21 | 2016-05-25 | 北京奇虎科技有限公司 | 用于确定中心词的机器学习算法的生成方法及装置 |
CN105630926A (zh) * | 2015-12-22 | 2016-06-01 | 北京奇虎科技有限公司 | 从查询词中提取中心词的方法和装置 |
CN105930528B (zh) * | 2016-06-03 | 2020-09-08 | 腾讯科技(深圳)有限公司 | 一种网页缓存的方法及服务器 |
CN106570180B (zh) * | 2016-11-10 | 2020-05-22 | 北京百度网讯科技有限公司 | 基于人工智能的语音搜索方法及装置 |
CN106776803A (zh) * | 2016-11-24 | 2017-05-31 | 北京锐安科技有限公司 | 一种日志记录的更新方法及装置 |
CN108536867B (zh) * | 2018-04-24 | 2021-08-06 | 百度在线网络技术(北京)有限公司 | 用于生成信息的方法和装置 |
CN108804532B (zh) * | 2018-05-03 | 2020-06-26 | 腾讯科技(深圳)有限公司 | 一种查询意图的挖掘和查询意图的识别方法、装置 |
CN110889050A (zh) * | 2018-09-07 | 2020-03-17 | 北京搜狗科技发展有限公司 | 一种泛品牌词的挖掘方法及装置 |
CN109510904B (zh) * | 2018-12-25 | 2020-10-27 | 携程旅游网络技术(上海)有限公司 | 呼叫中心外呼录音的检测方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101241512A (zh) * | 2008-03-10 | 2008-08-13 | 北京搜狗科技发展有限公司 | 一种重新定义查询词的搜索方法及装置 |
CN102004792A (zh) * | 2010-12-07 | 2011-04-06 | 百度在线网络技术(北京)有限公司 | 一种热搜词生成方法及系统 |
CN102737021A (zh) * | 2011-03-31 | 2012-10-17 | 北京百度网讯科技有限公司 | 搜索引擎及其实现方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7990973B2 (en) * | 2008-08-13 | 2011-08-02 | Alcatel-Lucent Usa Inc. | Hash functions for applications such as network address lookup |
US8276057B2 (en) * | 2009-09-17 | 2012-09-25 | Go Daddy Operating Company, LLC | Announcing a domain name registration on a social website |
-
2012
- 2012-12-11 CN CN201210533948.4A patent/CN103873601B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101241512A (zh) * | 2008-03-10 | 2008-08-13 | 北京搜狗科技发展有限公司 | 一种重新定义查询词的搜索方法及装置 |
CN102004792A (zh) * | 2010-12-07 | 2011-04-06 | 百度在线网络技术(北京)有限公司 | 一种热搜词生成方法及系统 |
CN102737021A (zh) * | 2011-03-31 | 2012-10-17 | 北京百度网讯科技有限公司 | 搜索引擎及其实现方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103873601A (zh) | 2014-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103873601B (zh) | 一种寻址类查询词的挖掘方法及系统 | |
CN102722558B (zh) | 一种为用户推荐提问的方法和装置 | |
CN103365839B (zh) | 一种搜索引擎的推荐搜索方法和装置 | |
CN103685174B (zh) | 一种不依赖样本的钓鱼网站检测方法 | |
CN101820366B (zh) | 一种基于预取的钓鱼网页检测方法 | |
CN104133820B (zh) | 内容推荐方法及内容推荐装置 | |
CN105138558B (zh) | 基于用户访问内容的实时个性化信息采集方法 | |
CN106156372B (zh) | 一种互联网网站的分类方法及装置 | |
CN103077250B (zh) | 一种网页内容抓取方法及装置 | |
CN103279516B (zh) | 网络爬虫识别方法 | |
CN102315953B (zh) | 基于帖子的出现规律来检测垃圾帖子的方法及设备 | |
CN103838754B (zh) | 信息搜索装置及方法 | |
CN103116635B (zh) | 面向领域的暗网资源采集方法和系统 | |
CN104090931A (zh) | 一种基于网页链接参数分析的信息预测采集方法 | |
CN110012122A (zh) | 一种基于词嵌入技术的域名相似性分析方法 | |
CN107743128A (zh) | 一种基于首页关联域名和同服务ip的非法网站挖掘方法 | |
CN106021418A (zh) | 新闻事件的聚类方法及装置 | |
CN103902579B (zh) | 获取信息的方法和装置 | |
CN102811207A (zh) | 网络信息推送方法及系统 | |
CN100477593C (zh) | 网络社区中相关讨论区的选取方法及选取装置 | |
CN106021552A (zh) | 基于人群行为模拟的互联网爬虫并发数据采集方法及系统 | |
CN102855251A (zh) | 一种需求识别的方法及装置 | |
CN104967698B (zh) | 一种爬取网络数据的方法和装置 | |
CN106649823A (zh) | 基于综合主题词垂直搜索和聚焦爬虫的网页分类识别方法 | |
CN103455754B (zh) | 一种基于正则表达式的恶意搜索关键词识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |