CN105335449A

CN105335449A - 基于搜索引擎数据库的样本自动挖掘方法及装置

Info

Publication number: CN105335449A
Application number: CN201410401487.4A
Authority: CN
Inventors: 杨军
Original assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Priority date: 2014-08-15
Filing date: 2014-08-15
Publication date: 2016-02-17
Anticipated expiration: 2034-08-15
Also published as: CN105335449B

Abstract

本发明公开了一种基于搜索引擎数据库的样本自动挖掘方法及装置。其中方法包括：获取已标注域名集合，所述已标注域名集合中包含多个已标注类目的第一域名；在所述搜索引擎数据库中查询每个第一域名对应的搜索词，对搜索词的类目进行标注，得到已标注搜索词集合；在搜索引擎数据库中查找每个已标注类目的搜索词对应的未标注类目的第二域名，对第二域名的类目进行标注，并将标注完成的第二域名添加到所述已标注域名集合中。本方案通过较为精确的扩展策略完成更丰富的host的挖掘，使得host的标注质量较高，较好的改善了文本分类问题中常见的样本标注的数量问题和质量问题。

Description

基于搜索引擎数据库的样本自动挖掘方法及装置

技术领域

本发明涉及互联网技术领域，具体涉及一种基于搜索引擎数据库的样本自动挖掘方法及装置。

背景技术

数据挖掘领域里，文本分类是常用的技术手段，广泛应用于用户兴趣分类、人口统计属性建模、垃圾邮件识别等场景。作为典型的有监督学习方法，文本分类的质量高度依赖于标注样本的质量。而传统的样本标注通过人工方式来完成，成本高，主观性强，不利于标注样本的收集，从而影响到文本分类的质量和效率。

现有技术提供了一种基于点击协同的方式，用以完成样本的自动挖掘。其原理是人工标注点击域名(host)的分类，然后在点击host与文本之间建立起对应关系，通过待标注文本与标注host之间的协同关系，完成文本的自动标注过程。由于待标注的host通常较少，而文本则较多，所以通过这种方案能够在一定程度上缓解标注样本的工作量。但是，host本身仍然需要人工标注，所以本方案的可扩展性不高。

现有技术还提供了一种基于伪相关反馈的样本挖掘策略。该方案中，首先为每个类目人工选取一定数量的种子词，然后将这些种子词送入搜索引擎，从搜索引擎的返回结果中提取排名靠前的部分中提取出高权重词语，作为种子词的扩充，再送入搜索引擎，这些扩充后的种子词以及搜索结果中排名靠前的文本即作为标注样本。在该方案中，种子词的扩充容易往往在扩充过程中会引入概念飘移，最终会影响到自动挖掘出的标注样本的质量。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的基于搜索引擎数据库的样本自动挖掘方法及装置。

根据本发明的一个方面，提供了一种基于搜索引擎数据库的样本自动挖掘方法，所述搜索引擎数据库中存储有搜索词与域名之间的多对多的对应关系，所述搜索词对应的域名是指该搜索词的搜索结果中所有被用户点击的网页的域名；

所述方法包括：

获取已标注域名集合，所述已标注域名集合中包含多个已标注类目的第一域名；

在所述搜索引擎数据库中查询每个第一域名对应的搜索词，对搜索词的类目进行标注，得到已标注搜索词集合；

在搜索引擎数据库中查找每个已标注类目的搜索词对应的未标注类目的第二域名，对第二域名的类目进行标注，并将标注完成的第二域名添加到所述已标注域名集合中。

根据本发明的另一方面，提供了一种基于搜索引擎数据库的样本自动挖掘装置，包括：

搜索引擎数据库，适于存储有搜索词与域名之间的多对多的对应关系，所述搜索词对应的域名是指该搜索词的搜索结果中所有被用户点击的网页的域名；

第一域名标注模块，适于获取已标注域名集合，所述已标注域名集合中包含多个已标注类目的第一域名；

搜索词标注模块，适于在所述搜索引擎数据库中查询每个第一域名对应的搜索词，对搜索词的类目进行标注，得到已标注搜索词集合；

第二域名标注模块，适于在搜索引擎数据库中查找每个已标注类目的搜索词对应的未标注类目的第二域名，对第二域名的类目进行标注，并将标注完成的第二域名添加到所述已标注域名集合中。

根据本发明提供的技术方案，借助已标注域名集合完成其它未标注的第二域名的挖掘，实现了已标注域名集合的扩展。相对于完全靠人工标注域名的方式来说，有效减低了host人工标注的成本。本方案通过较为精确的扩展策略完成更丰富的host的挖掘，使得host的标注质量较高，较好的改善了文本分类问题中常见的样本标注的数量问题和质量问题。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的基于搜索引擎数据库的样本自动挖掘方法的流程图；

图2示出了根据本发明另一个实施例的基于搜索引擎数据库的样本自动挖掘方法的流程图；

图3示出了根据本发明又一个实施例的基于搜索引擎数据库的样本自动挖掘方法的流程图；

图4示出了根据本发明一个实施例的基于搜索引擎数据库的样本自动挖掘装置的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明提供了一种基于搜索引擎数据库的样本自动挖掘方法，这里样本具体是指host，样本自动挖掘是指对host的类目进行自动标注，而非完全借助人工标注方式。具体地，借助通过人工方式标注多个第一域名形成的已标注域名集合，完成其它未标注的第二域名的挖掘，从而实现已标注域名集合的扩展。在已标注域名集合的扩展过程中，host集合与搜索词(query)集合构成二部图，在二部图中，通过query的传递关系完成其它未标注的第二域名的挖掘过程。

每个搜索引擎都有自己的数据库系统，搜索引擎数据库存放着各种query以及各种URL的相关信息(包括host)，这些信息是由爬虫、蜘蛛或机器人搜集来的。搜索引擎数据库存储的是大数据，它存储有网内使用该搜索引擎的所有用户的搜索信息，包含query以及query对应的搜索结果的URL和host等信息，本发明实施例中，搜索引擎数据库中存储有query与host之间的多对多的对应关系，query对应的host是指该query在搜索引擎给出的搜索结果中所有被用户点击的网页的host。一个query对应多个host，一个host对应多个query。

举例来说，某一用户A输入关键词query1，搜索引擎给出多个搜索结果，在这些搜索结果中，用户A点击2个网页，这2个网页的域名分别为host1和host2；另一用户B也输入关键词query1，搜索引擎也给出多个搜索结果(搜索引擎对不同用户使用同一query可能得到的不同的搜索结果)，在这些搜索结果中，用户B点击1个网页，这1个网页的域名为host3。对应的，在搜索引擎数据库中，与query1对应的host包括host1、host2和host3。总结来说，与某一query对应的host应包括所有用户在搜索引擎给出的搜索结果中点击的网页的host。对于用户未点击的网页本发明不予考虑，也即本发明搜索引擎数据库中与query对应的host都是点击host(即产生用户点击行为的网页的host)。

再举例来说，某一用户C输入关键词query2，搜索引擎给出多个搜索结果，在这些搜索结果中，用户C点击2个网页，这2个网页的域名分别为host4和host5；另一用户D输入关键词query3，搜索引擎也给出多个搜索结果(搜索引擎对不同用户使用不同query可能得到的某一相同的搜索结果)，在这些搜索结果中，用户D点击1个网页，这1个网页的域名为host4。对应的，在搜索引擎数据库中，与host4对应的query包括query2和query3。总结来说，与某一host对应的query应包括所有用户点击该host所使用的query。

基于上述搜索引擎数据库中提供的query与host之间的多对多的对应关系，本发明提供了样本自动挖掘方法，具体通过以下几个实施例来说明。

图1示出了根据本发明一个实施例的基于搜索引擎数据库的样本自动挖掘方法的流程图。如图1所示，本方法包括如下步骤：

步骤S100，获取已标注域名集合，该已标注域名集合中包含多个已标注类目的第一域名。

本实施例样本自动挖掘是基于初始的已标注域名集合而完成的，这里初始的已标注域名集合包含多个已标注类目的第一域名，其标注方式可以采用人工标注方式。

步骤S101，在搜索引擎数据库中查询每个第一域名对应的搜索词，对搜索词的类目进行标注，得到已标注搜索词集合。

对于上述已标注域名集合中的每个第一域名，在搜索引擎数据库中查询与该第一域名对应的多个query。所有第一域名对应的query集合起来形成query集合，对query集合中的每个query进行标注，得到已标注query集合。本步骤是基于已标注的host完成query的自动标注。

步骤S102，在搜索引擎数据库中查找每个已标注类目的搜索词对应的未标注类目的第二域名，对第二域名的类目进行标注，并将标注完成的第二域名添加到所述已标注域名集合中。

对于已标注query集合中的每个query，在搜索引擎数据库中查找与该query对应的多个host，在这多个host中去除已标注类目的第一域名得到其它未标注类目的第二域名。所有query对应的第二域名集合起来形成第二域名集合，对第二域名集合中的每个第二域名进行标注，然后将标注完成的第二域名添加到已标注域名集合中，从而实现已标注域名集合的扩展。

根据本实施例提供的样本自动挖掘方法，借助已标注域名集合完成其它未标注的第二域名的挖掘，实现了已标注域名集合的扩展。相对于完全靠人工标注域名的方式来说，有效减低了host人工标注的成本。本方法通过较为精确的扩展策略完成更丰富的host的挖掘，使得host的标注质量较高，较好的改善了文本分类问题中常见的样本标注的数量问题和质量问题。

图2示出了根据本发明另一个实施例的基于搜索引擎数据库的样本自动挖掘方法的流程图。如图2所示，本方法包括如下步骤：

步骤S200，获取已标注域名集合，该已标注域名集合中包含多个已标注类目的第一域名。

本实施例样本自动挖掘是基于初始的已标注域名集合而完成的，这里初始的已标注域名集合包含多个已标注类目的第一域名。第一域名的标注方式可以采用人工标注方式。例如，对于sports.sohu.com，人工标注其类目为“体育”；对于ent.sina.com.cn，人工标注其类目为“娱乐”。或者，第一域名的标注方式也可采用非人工标注方式，例如选择一些访问量较大、具有代表性归属类的域名，根据域名对应的网站首页的内容信息或域名的ICP备案信息确定域名的标注类目，形成已标注域名集合。

步骤S201，对于已标注域名集合中的每个第一域名，在搜索引擎数据库中查询该第一域名对应的搜索词，从而查询到所有第一域名对应的多个搜索词。

基于上面描述的搜索引擎数据库，搜索引擎数据库存储有host与query的对应关系，对于已标注域名集合中的每个第一域名，在搜索引擎数据库中查询该第一域名对应的搜索词，从而查询到所有第一域名对应的多个搜索词。

例如，设已标注域名集合包含如下第一域名：sports.sohu.com(类目为“体育”)，ent.sina.com.cn(类目为“娱乐”)，video.sina.com.cn(类目为“视频”)。通过查询搜索引擎数据库，得到：

sports.sohu.com对应的query为：“NBA姚明”，“2014世界杯”；

ent.sina.com.cn对应的query为：“梁朝伟刘嘉玲”；

video.sina.com.cn对应的query为：“在线视频”，“爸爸去哪儿观看”。

由此得到所有第一域名对应的query集合：{“NBA姚明”；“2014世界杯”；“梁朝伟刘嘉玲”；“在线视频”；“爸爸去哪儿观看”}。

上述例子仅为示例，本领域技术人员可以获知的是，搜索引擎数据库存储的是全网用户的数据，其存储数据量很多很丰富，因此得到的第一域名的query也很全面丰富，而不仅限于上述示例给出的少数query。

步骤S202，对于步骤S201中每个查询到的搜索词，根据该搜索词对应的至少一个第一域名，标注该搜索词的类目，从而获得已标注搜索词集合。

本步骤具体实现根据第一域名的类目标注query集合中query的类目。虽然步骤S201为查询每个第一域名对应的query得到query集合，但很有可能存在某一query对应多个第一域名的情况，因此本步骤需分情况进行处理。

具体地，对于query对应的一个第一域名或者query对应的多个第一域名属于同一类目的情况，可以直接将query的类目标注为其所对应的第一域名的类目，例如，在上述示例中对query标注如下：

“NBA姚明”，“2014世界杯”→体育

“梁朝伟刘嘉玲”→娱乐

“在线视频”，“爸爸去哪儿观看”→视频

对于query对应的多个第一域名属于不同类目的情况，可以考虑该多个第一域名在哪个类目下的数量比较多来决定query的类目。例如，某一query对应3个host，其中1个host属于类目1，2个host属于类目2，这样可将该query标注为类目2。若某一query对应的第一域名在至少两个类目下的数量相等，则可在该至少两个类目中随机选择一个作为该query的类目。当然，也可以采用其它方式对query的类目进行标注，本发明对此不做限制。

步骤S203，对于已标注搜索词集合每个已标注类目的搜索词，在搜索引擎数据库中查找该搜索词对应的未标注类目的第二域名，从而查找到所有已标注类目的搜索词对应的多个第二域名。

由于搜索引擎数据库存储有query与host的对应关系，对于已标注query集合中的每个query，在搜索引擎数据库中查找与该query对应的多个host，在这多个host中去除已标注类目的第一域名得到其它未标注类目的第二域名。

例如，对于上述示例中的query集合：{“NBA姚明”；“2014世界杯”；“梁朝伟刘嘉玲”；“在线视频”；“爸爸去哪儿观看”}，在搜索引擎数据库中查找每个query对应的host如下：

“NBA姚明”对应的host为：sports.sohu.com，sports.qq.com；

“2014世界杯”对应的host为：sports.sohu.com，sports.sina.com.cn；

“梁朝伟刘嘉玲”对应的host为：ent.sina.com.cn，ent.china.com；

“在线视频”对应的host为：video.sina.com.cn，youku.com；

“爸爸去哪儿观看”对应的host为：video.sina.com.cn，tv.sohu.com。

在上述host中去除已标注类目的第一域名得到其它未标注类目的第二域名为：sports.qq.com，sports.sina.com.cn，ent.china.com，youku.com，tv.sohu.com。

上述例子仅为示例，本领域技术人员可以获知的是，搜索引擎数据库存储的是全网用户的数据，其存储数据量很多很丰富，因此得到的第二域名也很全面丰富，而不仅限于上述示例给出的少数第二域名。

步骤S204，对于步骤S203中查找到的每个第二域名，根据该第二域名对应的至少一个已标注类目的搜索词，对该第二域名的类目进行标注。

本步骤具体实现根据query的类目标注与其对应的第二域名的类目。虽然步骤S203为查询query集合中每个query对应的第二域名，但有可能存在某一第二域名对应query集合中多个query的情况，因此本步骤也需分情况进行处理。

具体地，对于第二域名对应一个query或者第二域名对应的多个query(这里所指的query是步骤S202获得的已标注query集合中的query)属于同一类目的情况，可以直接将第二域名的类目标注为其所对应的query的类目，例如，在上述示例中对第二域名标注如下：

sports.qq.com→体育

sports.sina.com.cn→体育

ent.china.com→娱乐

youku.com→视频

tv.sohu.com→视频

对于第二域名对应的多个query属于不同类目的情况，可以考虑该多个query在哪个类目下的数量比较多来决定第二域名的类目。例如，某一第二域名对应3个query，其中1个query属于类目1，2个query属于类目2，这样可将该第二域名标注为类目2。若某一第二域名对应的query在至少两个类目下的数量相等，则可在该至少两个类目下随机选择一个作为该第二域名的类目。当然，也可以采用其它方式对第二域名的类目进行标注，本发明对此不做限制。

步骤S205，将标注完成的第二域名添加到已标注域名集合中。

在上述示例中，已标注域名集合被扩展为：sports.sohu.com(类目为“体育”)，sports.qq.com(类目为“体育”)，sports.sina.com.cn(类目为“体育”)，ent.sina.com.cn(类目为“娱乐”)，ent.china.com(类目为“娱乐”)，video.sina.com.cn(类目为“视频”)，youku.com(类目为“视频”)，tv.sohu.com(类目为“视频”)。

进一步的，本实施例各步骤可为循环执行的步骤，即在步骤S205执行完毕之后，跳转步骤S201，将添加的第二域名作为已标注域名集合中的第一域名，循环执行步骤S201-步骤S205，在循环执行过程中，已标注域名集合中的样本得到进一步扩展。在实际应用中，当样本数量足够时，就可收敛循环过程；或者，当样本数量到达某个稳定态即域名的扩展比例相对很低时，表明域名的覆盖程度已经到达良好状态，也可收敛循环过程。

根据本实施例提供的样本自动挖掘方法，借助已标注域名集合完成其它未标注的第二域名的挖掘，实现了已标注域名集合的扩展。相对于完全靠人工标注域名的方式来说，有效减低了host人工标注的成本。而且，本方法基于搜索引擎数据库中存储的数据进行扩展，搜索引擎数据库存储的数据是全网用户的行为数据，它能精确地反映用户的行为，进而提升了扩展策略的精确性。本方法通过较为精确的扩展策略完成更丰富的host的挖掘，使得host的标注质量较高，较好的改善了文本分类问题中常见的样本标注的数量问题和质量问题。

在实际应用中，根据query搜索到的host存在噪声问题，如某些规模小的网站为了吸引流量，在其网站中登出与其主题无关的热议文章，例如，用户输入query“NBA姚明”，得到搜索结果页中具有某网站的链接，该网站完全与体育无关，仅为了吸引流量刊登了有关“NBA姚明”的文章，该网站的host就存在噪声问题。对于这种复杂的情况，则需要考虑该网站的点击访问量占query触发的所有网页点击访问量的比例。因此，本发明的搜索引擎数据库除了存储上述数据之外，优选地，还存储有与搜索词对应的每个域名的点击权重值，与搜索词对应的域名的点击权重值具体为搜索词所触发的该域名的网页点击访问量占搜索词所触发的所有网页点击访问量的比例。基于这样的搜索引擎数据库，本发明又提供了应对上述复杂情况的具体方案。

图3示出了根据本发明又一个实施例的基于搜索引擎数据库的样本自动挖掘方法的流程图。如图3所示，本方法包括如下步骤：

步骤S300，获取已标注域名集合，该已标注域名集合中包含多个已标注类目的第一域名。

步骤S301，对于已标注域名集合中的每个第一域名，在搜索引擎数据库中查询该第一域名对应的搜索词，从而查询到所有第一域名对应的多个搜索词。

有关步骤S300-步骤S301的内容可参见图2对应的实施例中步骤S200-步骤S201的描述，在此不再赘述。

步骤S302，对于步骤S301中每个查询到的搜索词，获取该搜索词对应的至少一个第一域名的点击权重值，将该搜索词的类目标注为点击权重值最大的第一域名的类目。

与图2所示的实施例不同的是，对于query对应的多个第一域名属于不同类目的情况，本步骤在搜索引擎数据库中查找多个第一域名的点击权重值，该点击权重值反映了用户点击行为的权重，如果某个第一域名的点击权重值最大，则将该第一域名的类目作为query的类目。这样对于用户点击访问量很小的网站，就排除了它对query类目标注的影响，因而更进一步提高了query类目标注的精确性。

根据上述方法对步骤S301中每个查询到的query进行标注，从而获得已标注搜索词集合。

步骤S303，对于已标注搜索词集合每个已标注类目的搜索词，在搜索引擎数据库中查找该搜索词对应的未标注类目的第二域名，从而查找到所有已标注类目的搜索词对应的多个第二域名。

有关步骤S303的内容可参见图2对应的实施例中步骤S203的描述，在此不再赘述。

步骤S304，对于步骤S203中查找到的每个第二域名，获取该第二域名对应的至少一个已标注类目的搜索词，并获取至少一个已标注类目的搜索词对应的该第二域名的点击权重值，将该第二域名的类目标注为点击权重值最大者对应的搜索词的类目。

与图2所示的实施例不同的是，对于第二域名对应的多个query属于不同类目的情况，本步骤在搜索引擎数据库中查找每个query对应的该第二域名的点击权重值，即由该query所触发的该第二域名的网页点击访问量占该query所触发的所有网页点击访问量的比例，找出其中对应该第二域名的点击权重值最大的query，将第二域名的类目标注为该query的类目。这样对于用户点击访问量很小的网站，就排除了它对第二域名类目标注的影响，因此更进一步提高了第二域名标注的精确性。

步骤S305，将标注完成的第二域名添加到已标注域名集合中。

同样地，本实施例各步骤也可为循环执行的步骤，即在步骤S305执行完毕之后，跳转步骤S301，将添加的第二域名作为已标注域名集合中的第一域名，循环执行步骤S301-步骤S305，在循环执行过程中，已标注域名集合中的样本得到进一步扩展。在实际应用中，当样本数量足够时，就可收敛循环过程；或者，当样本数量到达某个稳定态即域名的扩展比例相对很低时，表明域名的覆盖程度已经到达良好状态，也可收敛循环过程。

根据本实施例提供的样本自动挖掘方法，借助已标注域名集合完成其它未标注的第二域名的挖掘，实现了已标注域名集合的扩展。相对于完全靠人工标注域名的方式来说，有效减低了host人工标注的成本。而且，本方法基于搜索引擎数据库中存储的数据进行扩展，搜索引擎数据库存储的数据是全网用户的行为数据，它能精确地反映用户的行为，进而提升了扩展策略的精确性。进一步的，在query和host扩展过程中，考虑到query所触发的host点击访问量比例的影响，排除了噪声问题，进一步提升了扩展策略的精确性。本方法通过较为精确的扩展策略完成更丰富的host的挖掘，使得host的标注质量较高，较好的改善了文本分类问题中常见的样本标注的数量问题和质量问题。

以上各实施例提供的方法是通过在host集合与query集合构成的二部图中利用query的传递关系完成的已标注host集合的扩展。在上述实施例的基础上，本发明进一步还可以通过计算不同host之间的网站首页相关性的方法，来完成已标注host集合的扩展，具体方法如下：

首先，采用爬虫技术抓取至少一个第三域名对应的网站首页内容。通过爬虫技术抓取未知host对应的网站首页内容，未知host对应的网站首页内容能代表host的所属类目。例如，sports.sohu.com的网站首页中全部是体育类信息，其能反映该host所属类目为体育。

然后，计算第三域名对应的网站首页内容与第一域名对应的网站首页内容的相似度。这里第一域名指的是已标注域名集合中的域名，它包含上述通过扩展方式添加到已标注域名集合中的第二域名。具体的，可以提取网站首页内容中的关键词信息或特征词信息，计算关键词信息或特征词信息之间的相似度。

最后，根据相似度对至少一个第三域名的类目进行标注，并将标注完成的第三域名添加到已标注域名集合中。具体地，预先设置相似度阈值(例如80％)，如果第三域名的网站首页内容与某第一域名的网站首页内容的相似度高于相似度阈值，可将该第三域名标注为该第一域名的类目，在标注完成之后将第三域名添加到已标注域名集合中，完成已标注域名集合的扩展。

以上方法是一种补足方法，它利用历史数据(已标注域名集合中的数据)挖掘出新的数据(第三域名的类目)进行补足，使得本发明样本自动挖掘方案更为完善。

图4示出了根据本发明一个实施例的基于搜索引擎数据库的样本自动挖掘装置的结构框图。如图4所示，该装置包括：搜索引擎数据库400，第一域名标注模块410，搜索词标注模块420，第二域名标注模块430。

搜索引擎数据库400适于存储有搜索词与域名之间的多对多的对应关系，搜索词对应的域名是指该搜索词的搜索结果中所有被用户点击的网页的域名。进一步的，搜索引擎数据库400还适于存储有与搜索词对应的每个域名的点击权重值，与搜索词对应的域名的点击权重值具体为搜索词所触发的该域名的网页点击访问量占搜索词所触发的所有网页点击访问量的比例。有关搜索引擎数据库400的具体内容可参见方法实施例的描述。

第一域名标注模块410适于获取已标注域名集合，该已标注域名集合中包含多个已标注类目的第一域名。进一步的，第一域名标注模块410包括人工标注单元411，适于通过人工标注方式标注多个第一域名的类目，形成已标注域名集合。可选地，第一域名标注模块410也可采用非人工标注方式，例如选择一些访问量较大、具有代表性归属类的域名，根据域名对应的网站首页的内容信息或域名的ICP备案信息确定域名的标注类目，形成已标注域名集合。

搜索词标注模块420适于在搜索引擎数据库400中查询每个第一域名对应的搜索词，对搜索词的类目进行标注，得到已标注搜索词集合。进一步的，搜索词标注模块420包括搜索词查询单元421和搜索词标注单元422。其中，搜索词查询单元421适于对于每个第一域名，在搜索引擎数据库400中查询该第一域名对应的搜索词，从而查询到所有第一域名对应的多个搜索词；搜索词标注单元422适于对于每个查询到的搜索词，根据该搜索词对应的至少一个第一域名，标注该搜索词的类目，从而获得已标注搜索词集合。

搜索词标注单元422进一步适于：对于每个查询到的搜索词，获取该搜索词对应的至少一个第一域名的点击权重值；将该搜索词的类目标注为点击权重值最大的第一域名的类目。

第二域名标注模块430适于在搜索引擎数据库400中查找每个已标注类目的搜索词对应的未标注类目的第二域名，对第二域名的类目进行标注，并将标注完成的第二域名添加到已标注域名集合中。进一步的，第二域名标注模块430包括第二域名查找单元431和第二域名标注单元432。其中第二域名查找单元431适于对于每个已标注类目的搜索词，在搜索引擎数据库400中查找该搜索词对应的未标注类目的第二域名，从而查找到所有已标注类目的搜索词对应的多个第二域名；第二域名标注单元432适于对于每个第二域名，根据该第二域名对应的至少一个已标注类目的搜索词，对该第二域名的类目进行标注。

第二域名标注单元432进一步适于：对于每个第二域名，获取该第二域名对应的至少一个已标注类目的搜索词，并获取至少一个已标注类目的搜索词对应的该第二域名的点击权重值；将该第二域名的类目标注为点击权重值最大者对应的搜索词的类目。

进一步的，该装置还包括：第三域名标注模块440，适于采用爬虫技术抓取至少一个第三域名对应的网站首页内容；计算第三域名对应的网站首页内容与第一域名对应的网站首页内容的相似度；根据相似度对至少一个第三域名的类目进行标注，并将标注完成的第三域名添加到已标注域名集合中。

根据本实施例提供的样本自动挖掘装置，借助已标注域名集合完成其它未标注的第二域名的挖掘，实现了已标注域名集合的扩展。相对于完全靠人工标注域名的方式来说，有效减低了host人工标注的成本。而且，本装置基于搜索引擎数据库中存储的数据进行扩展，搜索引擎数据库存储的数据是全网用户的行为数据，它能精确地反映用户的行为，进而提升了扩展策略的精确性。进一步的，在query和host扩展过程中，考虑到query所触发的host点击访问量比例的影响，排除了噪声问题，进一步提升了扩展策略的精确性。本装置通过较为精确的扩展策略完成更丰富的host的挖掘，使得host的标注质量较高，较好的改善了文本分类问题中常见的样本标注的数量问题和质量问题。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的基于搜索引擎数据库的样本自动挖掘装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

本发明公开了：A1、一种基于搜索引擎数据库的样本自动挖掘方法，所述搜索引擎数据库中存储有搜索词与域名之间的多对多的对应关系，所述搜索词对应的域名是指该搜索词的搜索结果中所有被用户点击的网页的域名；

所述方法包括：

A2、根据A1所述的方法，所述获取已标注域名集合具体为：通过人工标注方式标注多个第一域名的类目，形成所述已标注域名集合。

A3、根据A1或A2所述的方法，所述在搜索引擎数据库中查询每个第一域名对应的搜索词，对搜索词的类目进行标注，得到已标注搜索词集合的步骤进一步包括：

对于每个第一域名，在搜索引擎数据库中查询该第一域名对应的搜索词，从而查询到所有第一域名对应的多个搜索词；

对于每个查询到的搜索词，根据该搜索词对应的至少一个第一域名，标注该搜索词的类目，从而获得已标注搜索词集合。

A4、根据A3所述的方法，所述在搜索引擎数据库中查找每个已标注类目的搜索词对应的未标注类目的第二域名，对第二域名的类目进行标注的步骤进一步包括：

对于每个已标注类目的搜索词，在搜索引擎数据库中查找该搜索词对应的未标注类目的第二域名，从而查找到所有已标注类目的搜索词对应的多个所述第二域名；

对于每个第二域名，根据该第二域名对应的至少一个已标注类目的搜索词，对该第二域名的类目进行标注。

A5、根据A3所述的方法，所述搜索引擎数据库中还存储有与搜索词对应的每个域名的点击权重值，与搜索词对应的域名的点击权重值具体为搜索词所触发的该域名的网页点击访问量占搜索词所触发的所有网页点击访问量的比例；

所述对于每个查询到的搜索词，根据该搜索词对应的至少一个第一域名，标注该搜索词的类目的步骤进一步包括：

对于每个查询到的搜索词，获取该搜索词对应的至少一个第一域名的点击权重值；

将该搜索词的类目标注为点击权重值最大的第一域名的类目。

A6、根据A4所述的方法，所述搜索引擎数据库中还存储有与搜索词对应的每个域名的点击权重值，与搜索词对应的域名的点击权重值具体为搜索词所触发的该域名的网页点击访问量占搜索词所触发的所有网页点击访问量的比例；

所述对于每个第二域名，根据该第二域名对应的至少一个已标注类目的搜索词，对该第二域名的类目进行标注的步骤进一步包括：

对于每个第二域名，获取该第二域名对应的至少一个已标注类目的搜索词，并获取所述至少一个已标注类目的搜索词对应的该第二域名的点击权重值；

将该第二域名的类目标注为点击权重值最大者对应的搜索词的类目。

A7、根据A1-A6任一项所述的方法，还包括：

采用爬虫技术抓取至少一个第三域名对应的网站首页内容；

计算所述第三域名对应的网站首页内容与所述第一域名对应的网站首页内容的相似度；

根据所述相似度对至少一个第三域名的类目进行标注，并将标注完成的第三域名添加到所述已标注域名集合中。

本发明还公开了：B8、一种基于搜索引擎数据库的样本自动挖掘装置，包括：

B9、根据B8所述的装置，所述第一域名标注模块包括：人工标注单元，适于通过人工标注方式标注多个第一域名的类目，形成所述已标注域名集合。

B10、根据B8或B9所述的装置，所述搜索词标注模块包括：

搜索词查询单元，适于对于每个第一域名，在搜索引擎数据库中查询该第一域名对应的搜索词，从而查询到所有第一域名对应的多个搜索词；

搜索词标注单元，适于对于每个查询到的搜索词，根据该搜索词对应的至少一个第一域名，标注该搜索词的类目，从而获得已标注搜索词集合。

B11、根据B10所述的装置，所述第二域名标注模块包括：

第二域名查找单元，适于对于每个已标注类目的搜索词，在搜索引擎数据库中查找该搜索词对应的未标注类目的第二域名，从而查找到所有已标注类目的搜索词对应的多个所述第二域名；

第二域名标注单元，适于对于每个第二域名，根据该第二域名对应的至少一个已标注类目的搜索词，对该第二域名的类目进行标注。

B12、根据B10所述的装置，所述搜索引擎数据库中还存储有与搜索词对应的每个域名的点击权重值，与搜索词对应的域名的点击权重值具体为搜索词所触发的该域名的网页点击访问量占搜索词所触发的所有网页点击访问量的比例；

所述搜索词标注单元进一步适于：对于每个查询到的搜索词，获取该搜索词对应的至少一个第一域名的点击权重值；将该搜索词的类目标注为点击权重值最大的第一域名的类目。

B13、根据B11所述的装置，所述搜索引擎数据库中还存储有与搜索词对应的每个域名的点击权重值，与搜索词对应的域名的点击权重值具体为搜索词所触发的该域名的网页点击访问量占搜索词所触发的所有网页点击访问量的比例；

所述第二域名标注单元进一步适于：对于每个第二域名，获取该第二域名对应的至少一个已标注类目的搜索词，并获取所述至少一个已标注类目的搜索词对应的该第二域名的点击权重值；将该第二域名的类目标注为点击权重值最大者对应的搜索词的类目。

B14、根据B8-B13任一项所述的装置，还包括：第三域名标注模块，适于采用爬虫技术抓取至少一个第三域名对应的网站首页内容；计算所述第三域名对应的网站首页内容与所述第一域名对应的网站首页内容的相似度；根据所述相似度对至少一个第三域名的类目进行标注，并将标注完成的第三域名添加到所述已标注域名集合中。

Claims

1.一种基于搜索引擎数据库的样本自动挖掘方法，所述搜索引擎数据库中存储有搜索词与域名之间的多对多的对应关系，所述搜索词对应的域名是指该搜索词的搜索结果中所有被用户点击的网页的域名；

所述方法包括：

2.根据权利要求1所述的方法，所述获取已标注域名集合具体为：通过人工标注方式标注多个第一域名的类目，形成所述已标注域名集合。

3.根据权利要求1或2所述的方法，所述在搜索引擎数据库中查询每个第一域名对应的搜索词，对搜索词的类目进行标注，得到已标注搜索词集合的步骤进一步包括：

4.根据权利要求3所述的方法，所述在搜索引擎数据库中查找每个已标注类目的搜索词对应的未标注类目的第二域名，对第二域名的类目进行标注的步骤进一步包括：

5.根据权利要求3所述的方法，所述搜索引擎数据库中还存储有与搜索词对应的每个域名的点击权重值，与搜索词对应的域名的点击权重值具体为搜索词所触发的该域名的网页点击访问量占搜索词所触发的所有网页点击访问量的比例；

6.根据权利要求4所述的方法，所述搜索引擎数据库中还存储有与搜索词对应的每个域名的点击权重值，与搜索词对应的域名的点击权重值具体为搜索词所触发的该域名的网页点击访问量占搜索词所触发的所有网页点击访问量的比例；

7.根据权利要求1-6任一项所述的方法，还包括：

采用爬虫技术抓取至少一个第三域名对应的网站首页内容；

8.一种基于搜索引擎数据库的样本自动挖掘装置，包括：

9.根据权利要求8所述的装置，所述第一域名标注模块包括：人工标注单元，适于通过人工标注方式标注多个第一域名的类目，形成所述已标注域名集合。

10.根据权利要求8或9所述的装置，所述搜索词标注模块包括：