CN104572767B

CN104572767B - 一种站点语种分类的方法和系统

Info

Publication number: CN104572767B
Application number: CN201310514221.6A
Authority: CN
Inventors: 甘文杰; 于晓明; 杨建武; 张涛
Original assignee: Peking University; Peking University Founder Group Co Ltd; Beijing Founder Electronics Co Ltd
Current assignee: New Founder Holdings Development Co ltd; Peking University; Beijing Founder Electronics Co Ltd
Priority date: 2013-10-25
Filing date: 2013-10-25
Publication date: 2017-11-10
Anticipated expiration: 2033-10-25
Also published as: CN104572767A

Abstract

本发明提供一种站点语种分类的方法和系统，包括：对于每一种语种，利用该语种的预设搜索词进行搜索，得到对应于该语种的所有页面链接；根据所述所有页面链接的链接地址，将所有页面链接分类，每一类对应一个站点；从每一个站点对应的分类中抽样部分页面链接，组成样本集合，根据样本集合中页面链接的数量和语种信息，生成对应于该语种的训练模型；将需检测的网页资源的页面链接集合按照站点进行分类，得到各个需检测的站点；根据所述语种训练模型，得到每一个所述需检测的站点的语种预测值。本发明基于网页单页面语种识别技术，给出了一种合理高效的站点语种分类方法，系统架构简单易维护，满足了现代搜索引擎技术的要求。

Description

一种站点语种分类的方法和系统

技术领域

本发明涉及计算机互联网技术领域，尤其涉及一种站点语种分类的方法和系统。

背景技术

在现代搜索引擎技术中，站点语种对于搜索引擎的资源抓取和处理有重要的指导意义。首先，站点语种信息用于搜索引擎的爬虫调度，可以控制不同语种的资源抓取压力，提高网络带宽和抓取资源的效率，也可以针对性收录目标语种资源，以丰富相关语种的搜索展现；其次，站点语种信息也可以用于指导垃圾资源的删除和屏蔽。

在现有技术中，对于网页单页面而言，目前已经有较为成熟的方法通过爬虫系统抓取网页资源，来完成单页面的语种识别。而站点则是包含多个页面链接、多个网页单页面的集合。如果认为一个站点为某个语种，一般而言该站点下的页面链接(url)应主要为该语种，也即站点语种应为网页单页面语种的统计集合。

对于站点级别的语种，至今还没有相应的识别方法。现有技术缺乏一个抓取并识别站点语种的系统，来合理高效地对网页单页面语种信息进行挖掘扩展，以满足现代搜索引擎技术的要求。

发明内容

(一)要解决的技术问题

本发明提供一种站点语种分类的方法和系统，以解决现有技术中无法针对站点级别进行语种识别的技术问题。

(二)技术方案

为解决上述技术问题，本发明提供一种站点语种分类的方法，其包括：

对于每一种语种，利用该语种的预设搜索词进行搜索，得到对应于该语种的所有页面链接；

根据所述所有页面链接的链接地址，将所有页面链接分类，每一类对应一个站点；

从每一个站点对应的分类中抽样部分页面链接，组成样本集合，根据样本集合中页面链接的数量和语种信息，生成对应于该语种的训练模型；

将需检测的网页资源的页面链接集合按照站点进行分类，得到各个需检测的站点；

根据所述语种训练模型，得到每一个所述需检测的站点的语种预测值。

进一步地，

所述利用该语种的预设搜索词进行搜索，得到对应于该语种的所有页面链接包括：利用该语种的热门搜索词库，选择该语种第一数量的热门搜索词，对每一个搜索词，提取搜索结果的前第二数量页面链接，得到对应于该语种的所有页面链接。

进一步地，

所述根据所述所有页面链接的链接地址，将所有页面链接分类包括：对所述所有页面链接的链接地址去重，按照有效合法的链接地址特征提取站点地址，按照站点地址进行分类；

和／或，所述语种信息包括：首页语种、各页面链接语种、各语种数量占比中的一个或多个。

进一步地，所述从每一个站点对应的分类中抽样部分页面链接包括：

对每一个站点对应的分类进行随机抽样，或根据每一个站点对应的分类中页面链接数量的比例，进行有偏抽样。

进一步地，所述根据样本集合中页面链接的数量和语种信息，生成对应于该语种的训练模型包括：

提取样本集合中页面链接的数量为预设数量以上的站点，当所对应的语种为首页语种，或在各语种数量占比中占预设比例以上时，提取并利用模型训练系统生成对应于该语种的训练模型。

进一步地，

在所述将需检测的网页资源的页面链接集合按照站点进行分类之前，还包括：统计各站点的首页语种、各站点页面链接数量、各页面链接语种、各语种数量占比中的一个或多个站点基础信息。

另一方面，本发明还提供一种站点语种分类的系统，包括：链接获取单元、站点分类单元、训练模型单元、检测分类单元和语种预测单元；链接获取单元、站点分类单元、训练模型单元和语种预测单元顺序相连，语种预测单元还与检测分类单元相连，其中：

链接获取单元，用于对于每一种语种，利用该语种的预设搜索词进行搜索，得到对应于该语种的所有页面链接，并输出至站点分类单元；

站点分类单元，用于根据所述所有页面链接的链接地址，将所有页面链接分类，每一类对应一个站点，并输出至训练模型单元；

训练模型单元，用于从每一个站点对应的分类中抽样部分页面链接，组成样本集合，根据样本集合中页面链接的数量和语种信息，生成对应于该语种的训练模型，并输出至语种预测单元；

检测分类单元，用于将需检测的网页资源的页面链接集合按照站点进行分类，得到各个需检测的站点，并输出至语种预测单元；

语种预测单元，用于根据所述语种训练模型，得到每一个所述需检测的站点的语种预测值。

进一步地，

所述链接获取单元包括：搜索子单元，用于利用该语种的热门搜索词库，选择该语种第一数量的热门搜索词，对每一个搜索词，提取搜索结果的前第二数量页面链接，得到对应于该语种的所有页面链接。

进一步地，

所述站点分类单元包括：分类子单元，用于对所述所有页面链接的链接地址去重，按照有效合法的链接地址特征提取站点地址，按照站点地址进行分类；

进一步地，所述训练模型单元包括：

随机抽样子单元，用于对每一个站点对应的分类进行随机抽样；

或，有偏抽样子单元，用于根据每一个站点对应的分类中页面链接数量的比例，进行有偏抽样。

进一步地，所述训练模型单元包括：

模型生成子单元，用于提取样本集合中页面链接的数量为预设数量以上的站点，当所对应的语种为首页语种，或在各语种数量占比中占预设比例以上时，提取并利用模型训练系统生成对应于该语种的训练模型。

进一步地，所述系统还包括：

检测信息单元，与检测分类单元相连，用于统计各站点的首页语种、各站点页面链接数量、各页面链接语种、各语种数量占比中的一个或多个站点基础信息。

(三)有益效果

可见，在本发明提出的一种站点语种分类的方法和系统中，能够对于每一种语种的页面链接按照站点进行分类抽样统计，生成对应于该语种的训练模型，并在此训练模型的基础上对需检测的站点进行语种预测，最终输出语种预测值。本发明基于网页单页面语种识别技术，给出了一种合理高效的站点语种分类方法，系统架构简单易维护，满足了现代搜索引擎技术的要求。

利用本发明的一种站点语种分类的方法和系统，能够使所得到的站点语种数据中各语种准确率和召回率均在80％以上，且可以在不降低其他语种分类效果的情况下，对单个语种进行优化，并可以动态增减待分类语种。本发明适用于单机和分布式环境。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例站点语种分类的方法基本流程示意图；

图2是本发明一个优选实施例站点语种分类的方法流程示意图；

图3是本发明实施例站点语种分类的系统基本结构示意图；

图4是本发明一个优选实施例站点语种分类的系统结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例首先提出一种站点语种分类的方法，参见图1，包括：

步骤101：对于每一种语种，利用该语种的预设搜索词进行搜索，得到对应于该语种的所有页面链接。

步骤102：根据所述所有页面链接的链接地址，将所有页面链接分类，每一类对应一个站点。

步骤103：从每一个站点对应的分类中抽样部分页面链接，组成样本集合，根据样本集合中页面链接的数量和语种信息，生成对应于该语种的训练模型。

步骤104：将需检测的网页资源的页面链接集合按照站点进行分类，得到各个需检测的站点。

步骤105：根据所述语种训练模型，得到每一个所述需检测的站点的语种预测值。

可见，在本发明实施例提出的一种站点语种分类的方法和系统中，能够对于每一种语种的页面链接按照站点进行分类抽样统计，生成对应于该语种的训练模型，并在此训练模型的基础上对需检测的站点进行语种预测，最终输出语种预测值。本发明基于网页单页面语种识别技术，给出了一种合理高效的站点语种分类方法，系统架构简单易维护，满足了现代搜索引擎技术的要求。

在本发明的一个实施例中，语种可以包括：汉语、英语、德语、俄语、西班牙语、法语、阿拉伯语等各国语种中的一个或多个。在本发明的另一个实施例中，为了满足样本数量的需求，优选地，可以利用该语种的热门搜索词库，选择该语种第一数量的热门搜索词，然后用谷歌或雅虎搜索工具，对每一个搜索词提取出搜索结果的前第二数量url，这样就得到了对应于该语种的url集合，以保证后续过程具有足够的站点基数。

在本发明的一个实施例中，需要根据所述所有页面链接的链接地址，将所有页面链接进行分类。优选地，可以利用有效合法的url特征来提取：站点地址应位于http前缀和url路径后缀之间，因此可以对url去重后，按照上述规律提取站点地址，并按照站点地址进行分类。在本发明的另一个实施例中，优选地，站点的语种信息可以包括：首页语种、各url语种、语种1url数量占比、语种2url数量占比、...语种nurl数量占比等。这些站点的强特征可以从多个维度有效地表征站点的语种信息，具有良好的区分度。

在本发明的一个实施例中，为了在各个语种站点集合的大量信息中进行选择性分析，优选地，可以采用从每一个站点对应的分类中抽样部分页面链接的方法。其中，可以对每一个站点对应的分类进行随机抽样；或根据每一个站点对应的分类中页面链接数量的比例，对每一个站点对应的分类进行有偏抽样，也即意味着使拥有越多站内url数量的站点，相对来说所占的比例越大。

在完成抽样步骤之后，优选地，在本发明的另一个实施例中，可以在抽样后的分语种站点集合中，提取样本集合中页面链接的数量为预设数量以上的站点，当所对应的语种为首页语种，或在各语种数量占比中占预设比例以上时，提取并利用模型训练系统生成对应于该语种的训练模型。此时可以对每一个语种都采用上述相同的步骤，以得到对应于每一个语种的训练模型，最终获得所有语种的训练模型总集合。

在本发明的一个实施例中，在得到了语种训练模型之后，可以开始对网页资源进行语种分类。优选地，在将需检测的网页资源的页面链接集合按照站点进行分类之前，还可以统计各站点的首页语种、站点url总数、语种1url数量占比、语种2url数量占比、...语种nurl数量占比等站点基础信息。

在本发明的另一个实施例中，还可以将同一语种的所有站点进行聚合，放到同一文件，以方便使用。

下面以阿拉伯语为例，来详细说明本发明实施例中站点语种分类方法的具体实现过程，参见图2：

步骤201：对于阿拉伯语，利用该语种的预设搜索词进行搜索，得到对应于阿拉伯语的所有页面链接。

本步骤中，利用阿拉伯语的热门搜索词库，选择5000条阿拉伯语热门搜索词，然后对于每一个搜索词，利用谷歌或雅虎搜索工具进行搜索，提取出搜索结果的前100条url，从而得到50万条url集合。这样其中阿拉伯语的站点约为四五千个，满足了后续过程样本数量的需求。

步骤202：根据所有页面链接的链接地址，将所有页面链接分类，每一类对应一个站点。

由于有效合法的url，站点地址都是具有明显规律的，一般位于http前缀和url路径后缀之间，比如http://arabic.news.cn/speak/index.htm，站点地址即为arabic.news.cn。因此可以对url去重后，按照上述规律提取站点地址，并按照站点进行分类，得到站点集合。

步骤203：从每一个站点对应的分类中抽样部分页面链接，组成样本集合。

根据应用的不同，抽样的方式可以选择随机抽样或有偏抽样。本实施例中，采用有偏抽样，使阿拉伯语样本集中拥有较多的站内url数量的较大的站点，所占比例较大。

步骤204：对所有url样本集合进行语种识别。

本步骤中，需要预先识别所有抽样得到的url样本集合的网页单页面语种，并以格式化的方式保存。具体格式如表1：

列1	列2	列…
			url	语种类型	其他

表1

步骤205：统计url样本集合中各站点页面链接数量和语种信息。

站点的语种信息可以包括：首页语种、语种1url数量占比、语种2url数量占比、...语种nurl数量占比等。这些站点的强特征可以从多个维度有效地表征站点的语种信息。比如首页语种，通常一个站点若首页为阿拉伯语，则该站点有很大概率为阿拉伯语站点；首页语种如果为英语，也有可能为阿拉伯语站点，典型的多语种站点就是这种情况。而站点url总数，各语种比例也很直观的反应了站点的语种信息，具有良好的区分度。

步骤206：根据样本集合中页面链接的数量和语种信息，生成对应于该语种的训练模型。

本步骤中，在样本集合内提取页面链接数量为1000以上的站点，当此时阿拉伯语为首页语种，或在各语种数量占比中占90％以上时，则利用模型训练系统生成阿拉伯语训练模型。另外，还可以根据各国语种得到对应于不同语种的训练模型，操作方法与上述步骤201～步骤206相同，最终则可以获得所有语种的训练模型总集合。

在本实施例的具体操作过程中，既可以利用所统计的各项语种信息判断，生成训练模型，也可以利用支持向量机(SVM)这种基于监督的模型训练系统，对抽样得到的各语种站点集合进行人工标注和语种选择，使所得到的各语种训练模型更加精确。相应地，在后述步骤进行语种分类时，也可以利用开源库libsvm工具和各语种训练模型，来得到语种预测值。

步骤207：统计需检测的网页资源各站点基础信息。

本步骤中，利用爬虫系统抓取的所有网页资源作为数据源，数据源的格式也为表1所示。判断所抓取url的对应站点，该url是否为首页，以及该url的语种信息，统计需检测的网页资源中各站点的基础信息并输出。各站点基础信息包括：各站点的首页语种、各站点页面链接数量、各页面链接语种、各语种数量占比等等，输出信息格式如表2：

表2

步骤208：将需检测的网页资源的页面链接集合按照站点进行分类，得到各个需检测的站点。

本步骤中，按照站点对需检测的网页资源url集合进行分类，得到需检测的站点集合。

步骤209：根据各语种训练模型，得到每一个所述需检测的站点的语种预测值。

本步骤中，可以利用上一步所输出的信息，根据阿拉伯语训练模型和其他各语种的训练模型，来得到各站点的语种预测值，输出格式如下表：

列1	列2
		站点	分类语种

表3

步骤210：将同一语种的所有站点进行聚合。

本步骤中，可以根据各站点的语种预测值，将同一语种的所有站点聚合起来，放到同一文件，以方便使用。

至此，则完成了本发明实施例的站点语种分类的方法全过程。

另外，需要说明的是，上述基于图2的所有流程描述是本发明站点语种分类的方法一种优选的实现过程，在本发明站点语种分类的方法实际实现中，可以根据需要在图1所示流程的基础上进行任意变形，可以是选择图2中的任意步骤来实现，各步骤的先后顺序也可以根据需要调整等。

本发明的一个实施例还提出了一种站点语种分类的系统，参见图3，该系统包括：

链接获取单元301，用于对于每一种语种，利用该语种的预设搜索词进行搜索，得到对应于该语种的所有页面链接，并输出至站点分类单元302；

站点分类单元302，用于根据所述所有页面链接的链接地址，将所有页面链接分类，每一类对应一个站点，并输出至训练模型单元303；

训练模型单元303，用于从每一个站点对应的分类中抽样部分页面链接，组成样本集合，根据样本集合中页面链接的数量和语种信息，生成对应于该语种的训练模型，并输出至语种预测单元305；

检测分类单元304，用于将需检测的网页资源的页面链接集合按照站点进行分类，得到各个需检测的站点，并输出至语种预测单元305；

语种预测单元305，用于根据所述语种训练模型，得到每一个所述需检测的站点的语种预测值。

在本发明的一个实施例中，语种可以包括：汉语、英语、德语、俄语、西班牙语、法语、阿拉伯语等各国语种中的一个或多个。在本发明的另一个实施例中，为了满足样本数量的需求，优选地，链接获取单元301可以包括：搜索子单元401，如图4所示，用于利用该语种的热门搜索词库，选择该语种第一数量的热门搜索词，然后用谷歌或雅虎搜索工具，对每一个搜索词提取出搜索结果的前第二数量url，这样就得到了对应于该语种的url集合，以保证后续过程具有足够的站点基数。

在本发明的一个实施例中，需要根据所述所有页面链接的链接地址，将所有页面链接进行分类。优选地，可以利用有效合法的url特征来提取：站点地址应位于http前缀和url路径后缀之间，因此站点分类单元302可以包括：分类子单元402，用于对url去重后，按照有效合法的页面链接特征提取站点地址，并按照站点地址进行分类。在本发明的另一个实施例中，优选地，站点的语种信息可以包括：首页语种、各url语种、语种1url数量占比、语种2url数量占比、...语种nurl数量占比等。这些站点的强特征可以从多个维度有效地表征站点的语种信息，具有良好的区分度。

在本发明的一个实施例中，为了在各个语种站点集合的大量信息中进行选择性分析，优选地，训练模型单元303可以包括：随机抽样子单元403，用于对每一个站点对应的分类进行随机抽样；或，有偏抽样子单元404，用于根据每一个站点对应的分类中页面链接数量的比例，对每一个站点对应的分类进行有偏抽样，也即意味着使拥有越多站内url数量的站点，相对来说所占的比例越大。

在完成抽样步骤之后，优选地，在本发明的另一个实施例中，训练模型单元303还可以包括：模型生成子单元405，用于提取样本集合中页面链接的数量为预设数量以上的站点，当所对应的语种为首页语种，或在各语种数量占比中占预设比例以上时，提取并利用模型训练系统生成对应于该语种的训练模型。此时可以对每一个语种都采用上述相同的步骤，以得到对应于每一个语种的训练模型，最终获得所有语种的训练模型总集合。

在本发明的一个实施例中，在得到了语种训练模型之后，可以开始对网页资源进行语种分类。优选地，系统还可以包括：检测信息单元406，与检测分类单元304相连，用于统计各站点的首页语种、站点url总数、语种1url数量占比、语种2url数量占比、...语种nurl数量占比等站点基础信息。

需要说明的是，上述图4所示的站点语种分类的系统各个实施例的结构可以进行任意组合使用。

可见，本发明实施例具有如下有益效果：

在本发明实施例提出的一种站点语种分类的方法和系统中，能够对于每一种语种的页面链接按照站点进行分类抽样统计，生成对应于该语种的训练模型，并在此训练模型的基础上对需检测的站点进行语种预测，最终输出语种预测值。本发明实施例基于网页单页面语种识别技术，给出了一种合理高效的站点语种分类方法，系统架构简单易维护，满足了现代搜索引擎技术的要求。

利用本发明实施例的一种站点语种分类的方法和系统，能够使所得到的站点语种数据中各语种准确率和召回率均在80％以上，且可以在不降低其他语种分类效果的情况下，对单个语种进行优化，并可以动态增减待分类语种。本发明实施例适用于单机和分布式环境。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种站点语种分类的方法，其特征在于，包括：

根据所述语种训练模型，得到每一个所述需检测的站点的语种预测值；

其中，所述根据样本集合中页面链接的数量和语种信息，生成对应于该语种的训练模型包括：

2.根据权利要求1所述的站点语种分类的方法，其特征在于：

3.根据权利要求1所述的站点语种分类的方法，其特征在于：

和/或，所述语种信息包括：首页语种、各页面链接语种、各语种数量占比中的一个或多个。

4.根据权利要求1所述的站点语种分类的方法，其特征在于，所述从每一个站点对应的分类中抽样部分页面链接包括：

5.根据权利要求1至4中任一项所述的站点语种分类的方法，其特征在于，在所述将需检测的网页资源的页面链接集合按照站点进行分类之前，还包括：

统计各站点的首页语种、各站点页面链接数量、各页面链接语种、各语种数量占比中的一个或多个站点基础信息。

6.一种站点语种分类的系统，其特征在于，包括：链接获取单元、站点分类单元、训练模型单元、检测分类单元和语种预测单元；链接获取单元、站点分类单元、训练模型单元和语种预测单元顺序相连，语种预测单元还与检测分类单元相连，其中：

语种预测单元，用于根据所述语种训练模型，得到每一个所述需检测的站点的语种预测值；

7.根据权利要求6所述的站点语种分类的系统，其特征在于：

8.根据权利要求6所述的站点语种分类的系统，其特征在于：

9.根据权利要求6所述的站点语种分类的系统，其特征在于，所述训练模型单元包括：

10.根据权利要求6至9中任一项所述的站点语种分类的系统，其特征在于，所述系统还包括：