CN109271477A

CN109271477A - 一种借助互联网构建分类语料库的方法及系统

Info

Publication number: CN109271477A
Application number: CN201811032694.1A
Authority: CN
Inventors: 闵勇
Original assignee: Hangzhou Shuwan Information Technology Co Ltd
Current assignee: Hangzhou Shuwan Information Technology Co Ltd
Priority date: 2018-09-05
Filing date: 2018-09-05
Publication date: 2019-01-25
Anticipated expiration: 2038-09-05
Also published as: CN109271477B

Abstract

本发明涉及自然语言处理技术，具体涉及一种借助互联网构建分类语料库的方法，包括以下步骤：S1、设置目标类别；S2、设置信息源；S3、信息源评级；S4、信息采集和解析；S5、过滤后备文档语料集；S6、分类语料库输出。本发明的实质性效果是：在尽量降低人工干预水平的前提下，以互联网中带有明确分类标识和动态更新列表内容的页面为语料信息来源，结合网页排版特征和网页DOM节点拓扑结构特征，提高了网页主题语料提取的准确度，通过目标类别和信息源关键词的匹配评价体系，利用文本间量化相似性筛选互联网动态语料，构建出高质量文本分类语料库。

Description

一种借助互联网构建分类语料库的方法及系统

技术领域

本发明涉及自然语言处理技术，具体涉及一种借助互联网构建分类语料库的方法及系统。

背景技术

随着互联网信息的高速增长，搜索引擎已成为人们浏览网络信息必不可少的工具。搜索引擎根据用户提供的关键词检索网站数据库，为用户呈现其感兴趣的网站列表。然而，很多情况下用户很难找到准确描述检索目标的关键词，因此严重影响了返回结果的准确率。尤其是在用户对所需检索的领域缺乏了解的情况下。同时，由于需要索引的网页数目过于庞大，为了兼顾准确率与召回率，传统的通用搜索引擎往往返回属于不同主题的搜索结果，这种策略很难满足单个用户的检索需求。

垂直搜索引擎是目前缓解这种问题最好的方案，如学术搜索、金融搜索、音乐搜索等。这类搜索引擎通过限定爬取和索引的网页范围来达到较高的检索精度。通过用户指定的分类来进行搜索，可以更好的满足用户的不同需求。然而，对于某个概念进行分类的方法往往是多样的，比如计算机学科，可以分为软件和硬件，也可以按照涉及的不同子学科分为体系结构，操作系统，计算机网络等等。现有的垂直搜索引擎，一般是根据领域专家事先定义好的分类方式，通过人工的方法标注出训练语料来训练分类器。这个过程费时费力，结果容易受到标注人个人倾向的影响。所以，这样的分类方式难以满足人们对不同领域的分类需求，更无法随用户需求的改变进行灵活调整。同时，网络上有一些网页是具有某些标注信息的或者是已经经过初步分类的，比如门户网站的导航栏一般都分为新闻、军事、博客等等很多子版块，关注于某个特定领域的网站一般都会按照相关领域的某种分类方式来构造。如何构造一种方法，使其能够自动利用这些已有的网页分类信息来自动构建分类语料库，是本发明要重点研究和探讨的问题。

中国专利CN 103823824 B，公开日2017年4月5日，一种借助互联网自动构建文本分类语料库的方法及系统，该方法包括如下步骤：用户提供所需的文本类别体系，网站结构与内容的采集整理，用户输入类别与网站结构的匹配，语料库去噪，输出语料库。本发明的技术效果是：利用互联网上各类网站上存在的类别标注信息，无需专业的人员手工标注，快速的构建出大容量的文本分类语料库。但其仅采用拓扑结构图的方式作为处理依据，忽视网站网页的排版，准确性不高。

中国专利CN 103473280 B，公开日2017年2月8日，一种网络可比语料的挖掘方法，涉及网络可比语料的挖掘方法，包括：利用网络爬虫获取源语言网页，经预处理后形成源语言文档；分析源语言文档的跨语言主题的概率，产生对应的目标语言查询词；将目标语言查询词提交搜索引擎，选取前N的文档构成目标语言候选相似文档集；计算源语言文档和目标语言候选相似文档的相似度，筛选出相似度较高的文档构建可比语料库。本发明避免词汇翻译产生歧义或消耗大量时间；源语言文档源自于网络爬虫获取的特定网站内容，目标语言文档来自于整个互联网，有效提高对源语言文档的利用率；源语言和目标语言相似文档匹配通过主题分布的相似性实现，提高了语料库建设的准确度。其能够实现可对比语料库的构建，但不能对语料按语义分类，无法完成分类语料库的构建任务。

发明内容

本发明要解决的技术问题是：目前利用互联网构建分类语料库仅依赖节点拓扑结构忽视网页排版而准确性差的技术问题。提出了一种依据网页排版和节点特征结合提取网页内容标签的准确性更高的构建分类语料库的方法及系统。

为解决上述技术问题，本发明所采取的技术方案为：一种借助互联网构建分类语料库的方法，包括以下步骤：S1、设置目标类别：由用户设置目标类别，并设置若干个初始关键词；S2、设置信息源：由用户提供若干个信息源，或者由目标类别初始关键词提交搜索引擎检索结果前N条作为互联网信息源，所述每条信息源包括网址以及若干个信息源描述关键词；S3、信息源评级：计算信息源描述关键词与初始关键词的匹配度，根据信息源主体类型以及历史访问数据计算信息源可靠度，根据匹配度和可靠度对每条信息源评级；S4、信息采集和解析：对信息源进行信息采集和解析，获取信息源在设定时间区间内的文档列表，作为后备文档语料集；S5、过滤后备文档语料集：利用文本相似性算法，过滤后备文档语料；S6、分类语料库输出：将过滤后的后备文档语料作为目标类别的分类语料库输出。

作为优选，所述设置信息源包括以下步骤：S21、信息源选择：由用户提供若干个信息源，或者由目标类别初始关键词提交搜索引擎检索结果前N条作为互联网信息源，或者事先建立包括描述关键词的网站索引，根据目标类别，从索引中匹配对应栏目、板块以及兴趣分类作为信息源；S22、构建信息源网页结构分类器：利用基于DOM树的特征提取技术，和基于神经网络的分类技术，获得一个可自动识别信息源页面列表内容和链接地址的分类器；S23、识别信息源合法性：依据信息源网址，利用S22构建的分类器判断该地址是否属于合法信息源，筛选合法的信息源；S24、构建信息源关键词：用户提供的信息源由用户设置信息源关键词，由索引中匹配的信息源从索引中直接读取，由提交搜索引擎获得的信息源将网址标题分词后作为信息源关键词；S25、保存信息源：将设置好信息源关键词的合法信息源作为最终信息源保存。

作为优选，所述信息源评级包括以下步骤：S31、信息源匹配度评估：利用目标类别初始关键词集合K和信息源关键词集合Ω_i的相似度，作为信息源与目标分类的匹配度M_i，0≤M_i≤1，具体公式如下：M_i＝|K∩Ω_i|/|Ω_i|；S32、信息源可靠度评估：获取信息源地址的历史访问量及访问排名信息ri，结合网址域名后缀，计算信息源可靠度R_i，0≤R_i≤1，具体规则如下：(1)如果域名属于政府部门网站，即网址域名后缀为.gov，则R_i＝1；(2)对于其他网址域名后缀：R_i＝a^1/ri，其中，a为收敛参数，a>1，a越大，信息源可靠度R_i的值随排名的增加下降的更快；S33、信息源过滤：依据S31和S32的计算结果，通过人工设定的匹配度阈值T_M和人工设定的可靠度阈值T_R，剔除匹配度M_i和可靠度R_i均分别对应低于设定阈值的信息源，获得过滤后的信息源。

作为优选，所述信息采集和解析包括以下步骤：S41、信息源获取：利用网络爬虫，获取每个信息源s_i的HTML页面，并进行页面的DOM树解析；S42、信息源解析：构建信息源网页结构分类器：利用基于DOM树的特征提取技术，和基于神经网络的分类技术，获得一个可自动识别信息源页面列表内容和链接地址的分类器，对于每个信息源s_i的HTML页面，利用所述分类器，获得信息源页面P_i所包含的内容列表主题内容和二级链接地址S43、后备文本语料获取：获取步骤S42中获得的各个信息源的二级链接U_i对应的HTML页面，并解析其中主要文本内容：作为后备语料；S44、短文本后备语料库输出：组合从所有信息源获得的主题内容，作为面向短文本分类需求的后备语料库H＝H₁∪H₂∪…∪H_m；S45、普通文本后备语料库输出：组合从所有信息源获得二级链接文本内容，作为面向普通本分类需求的后备语料库D＝D₁∪D₂∪…∪D_m。

作为优选，所述过滤后备文档语料包括以下步骤：S51、后备文档语料排序：根据步骤S3中获得的信息源匹配度M_i和可靠度R_i，获得综合评分Σi，对后备文档语料按综合评分Σi进行降序排序，获得降序的后备文档语料集合C＝<C₁，C₂，…，C_m>，其中综合评分的计算式为：∑_i＝M_i×R_i；S52、初始语料选择：选择综合评分Σi大于等于设定阈值的前v个后备文档语料作为合法语料集合E＝C₁∪C₂∪…∪C_v，并将集合E从后备文档语料集合中删除：C＝C-E＝<C_v+1，C_v+2，…，C_m>；S53、语料库迭代扩展与优化：将后备文档语料集合C中后备文档语料与合法语料集E任意语料文本相似度超过设定阈值的后备文档语料，作为新的合法语料加入合法语料集E中，将最终的合法语料集E作为过滤的后备文档语料。

作为优选，所述构建信息源网页结构分类器包括以下步骤：S2201、确定信息源的通用模块，包括“主题列表”和“文档地址”，并删除不必要的信息节点；S2202、构建信息源样本库；S2203、对信息源样本进行DOM解析，利用DOM解析技术将信息源样本网页解析为DOM树；S2204、信息源样本网页DOM树初步标注，基于DOM节点的排版特征和DOM结构，对样本DOM中的“主题列表”块进行人工标注，作为有监督学习算法的训练数据，具体为：将符合以下标准的DOM树节点标注为主题列表区域MA(Main Area)，包括：(1)MA位于页面中央；(2)MA占据页面最大面积；(3)MA所含文本内容占本页文本内容的百分比超过设定阈值；S2205、MA标注筛选：对于含有MA类型子节点的MA节点，采取以下具体过程进行筛选：(1)如果子节点的宽度与自身节点的差值的绝对值和自身宽度的比值大于10％，则删除自身的标记；(2)如果子节点的宽度与自身节点的差值的绝对值和自身宽度的比值小于或等于10％，删除子节点的标记；S2206、以包含MA节点的DOM为正样本，以未包含MA节点的DOM为负样本，构建MA训练样本；S2207、对于MA训练样本中的MA节点，提取以下备选特征中的若干个特征的值作为样本的特征向量，备选特征包括：节点距离父元素顶部的距离、节点距离父元素左侧的距离、节点距离网页顶部的距离、距离网页左侧的距离、节点宽度、节点高度、节点层次、子节点数量、相邻节点的数量、文本内容长度、文本密度、文本与父元素对比得到的占比、文本与全局对比得到的占比)、锚标记的数量、链接的数量以及图片节点的数量；S2208、利用MA训练样本，训练一个可以辨别任意网页是否包含MA节点的神经网络分类器，称为Classifier A；S2209、获得MA节点的内容，按以下标准选择主题块DOM节点，主题块DOM节点即TN(TopicNode)节点：(1)TN的排版结构相似度高于设定阈值；(2)全部TN排版占据MA排版区域的百分比超过设定阈值；(3)全部TN文本占MA总文本量的百分比超过设定阈值；(4)TN节点在MA内的拓扑深度相同；S2210、以MA样本中被标记为TN的DOM树节点为正样本，以该MA样本中未被标记为TN的其他DOM树节为负样本，构建TN训练样本；S2211、对TN训练样本，提取以下备选特征中的若干个特征的值作为样本的特征向量，备选特征包括：TN节点宽度、TN节点宽度与所在MA宽度的比、TN节点高度、TN节点高度与所在MA高度的比、TN节点在MA中的节点深度、子节点数量、相邻节点的数量、文本内容长度、文本密度、文本与所在MA文本的占比以及链接的数量；

S2212、利用TN训练样本，获得一个可以辨别MA中各个主题块DOM节点在MA的DOM树位置的神经网络分类器，称为Classifier B；S2213、主题块DOM节点中的文本即为对应的语料主题，主题块DOM节点中链接地址即为对应语料主题的互联网地址。

作为优选，所述识别信息源合法性包括以下步骤：S2301、利用网络爬虫获取一个信息源的HTML页面，并进行DOM树解析；S2302、利用Classifier A对信息源页面进行判断，若能分类出主题列表MA节点，则进入下一步，否则该信息源判定为非法信息源；S2303、利用Classifier B对步骤S2302中获得MA节点进行判断，若提取出主题集合则该信息源为合法信息源，否则，该信息源为非法信息源。

作为优选，所述后备文本语料获取包括以下步骤：S4301、对于门户网站或新闻网站类数据源：识别主题列表区，并提取正文区域中的文本语料；S4302、对于论坛类数据源：识别全部主题块，并提取首个主题块中的文本语料；S4303、对于社交网络类数据源：直接将网站标题和关键词内容作为文本语料。

作为优选，所述语料库迭代扩展与优化包括以下步骤：S5301、待对比语料选定：依次将删除合法语料集合E之后的后备文档语料集合C中的信息源语料库，作为待对比语料库C_x，其对应评分为Σ_x；S5302、语料表达：将合法语料库E的文档以及待对比语料库C_x的文档进行分词操作，将分词集合作为特征向量，即向量(分词1,分词2,…,分词N)，合法语料库E和待对比语料库C_x中的文本的特征向量分别为：和其中特征向量e_i以及d_j中对应位置取值1表示对应语料库的文本包含该位置的分词，取值0则表示对应语料库的文本不包含该位置的分词；S5303、相似性计算：计算待对比语料库C_x的文档向量d_j与合法语料库E每个信息源语料库的文本向量e_i的距离：

S5304、待对比语料库筛选：依据文档d_j与当前合法语料库E中所有信息源语料库的文本向量e_i的最小距离d_min若满足下式，则判定文档d_j对应的待对比语料库C_x为合法语料：d_min≤λ*(1-∑_x)，其中λ为人工设定尺度参数，综合评分∑_x值越大，尺度参数λ越小，则计算出的阈值越低；S5305、待对比语料库迭代：若待对比语料库C_x为合法语料，则E＝E∪C_x作为新的合法语料库E，C＝C-C_x，重复步骤S5301至S5305，直到遍历后备文档语料集合C。

一种借助互联网构建分类语料库的系统，适用于前述的一种借助互联网构建分类语料库的方法，包括用户输入单元：采集用户提供的目标类别、关键词以及信息源；信息源输入与采集单元：获取信息源地址信息，判断地址信息合法性，并获取信息源描述关键词；信息源评级单元：计算信息源描述关键词与初始关键词的匹配度，根据信息源主体类型以及历史访问数据计算信息源可靠度，根据匹配度和可靠度对每条信息源评级；信息源获取和解析单元：对信息源进行信息采集和解析，获取信息源在设定时间区间内的文档列表，作为后备文档语料集；语料库筛选单元：利用文本相似性算法，过滤后备文档语料中相似性低于设定阈值的语料；语料库输出与储存单元：将过滤后的后备文档语料作为目标类别的分类语料库输出。

本发明的实质性效果是：在尽量降低人工干预水平的前提下，以互联网中带有明确分类标识和动态更新列表内容的页面为语料信息来源，结合网页排版特征和网页DOM节点拓扑结构特征，提高了网页主题语料提取的准确度，通过目标类别和信息源关键词的匹配评价体系，利用文本间量化相似性筛选互联网动态语料，构建出高质量文本分类语料库。

附图说明

图1为本发明的流程图。

图2为本发明的信息源构建的流程图。

图3为本发明的构建信息源网页结构分类器方法的流程图。

图4为本发明的信息源评级的流程图。

图5为本发明的互联网文本语料采集和解析的流程图。

图6为本发明的语料过滤的流程。

图7为本发明系统的结构图。

具体实施方式

下面通过具体实施例，并结合附图，对本发明的具体实施方式作进一步具体说明。

如图1所示，本发明提供了一种本发明提供了一种利用互联网语料构建动态分类语料库的方法，包括如下步骤：S1、设置目标类别：由用户设置目标类别，并设置若干个初始关键词。对于目标类别A，设置n个关键词，n≥1，K＝{k₁，k₂，…，k_n}，关键词主要描述本类别信息所包含的特征词语；S2、设置信息源：由用户提供若干个信息源，或者由目标类别初始关键词提交搜索引擎检索结果前N条作为互联网信息源，所述每条信息源包括网址以及若干个信息源描述关键词，每个信息源包含一组用以描述信息源的关键词和一个互联网地址；S3、如图4所示，信息源评级：通过匹配来自S1的目标类别和来自S2的信息源类型的关键词集合的匹配度，根据信息源主体类型以及历史访问数据计算信息源可靠度，根据匹配度和可靠度对每条信息源评级；S4、如图5所示，信息采集和解析：依据S2设定的信息源地址，通过互联网爬虫获取各信息源在有效时间内的文档列表，作为目标类别的后备文档语料；S5、后备语料过滤：依据S3所的信息源标记与评级，利用文本相似性算法，过滤后备文档语料中相似性低于设定阈值的语料；S6、分类语料库输出：将S5筛选出的合法文档语料输出；重复S1至S6步骤，构建具有多类型文本的完整语料库。

如图7所示，本发明还提供了一套与之匹配的动态分类语料库构建装置，包括：E1、用户输入单元：采集用户提供的目标类别、关键词以及信息源；E2、信息源输入与采集单元：获取信息源地址信息，判断地址信息合法性，并获取信息源描述关键词；E3、信息源评级单元：计算信息源描述关键词与初始关键词的匹配度，根据信息源主体类型以及历史访问数据计算信息源可靠度，根据匹配度和可靠度对每条信息源评级；E4、信息源获取和解析单元：对信息源进行信息采集和解析，获取信息源在设定时间区间内的文档列表，作为后备文档语料集；E5、语料库筛选单元：利用文本相似性算法，过滤后备文档语料中相似性低于设定阈值的语料；E6、语料库输出与储存单元：将过滤后的后备文档语料作为目标类别的分类语料库输出。

在步骤S2信息源设置和分析步骤中，包括如下的具体步骤，如图2所示：S21、信息源选择：由用户提供若干个信息源，或者由目标类别初始关键词提交搜索引擎检索结果前N条作为互联网信息源，或者事先建立包括描述关键词的网站索引，根据目标类别，从索引中匹配对应栏目、板块以及兴趣分类作为信息源，如常见门户新闻网站的对应栏目、常见论坛的对应板块以及微博等社交网络的对应兴趣分类作为信息源；S22、构建信息源网页结构分类器：利用基于DOM树的特征提取技术，和基于神经网络的分类技术，获得一个可自动识别信息源页面列表内容和链接地址的分类器；S23、识别信息源合法性：依据信息源网址，利用S22构建的分类器判断该地址是否属于合法信息源，筛选合法的信息源；S24、构建信息源关键词：用户提供的信息源由用户设置信息源关键词，由索引中匹配的信息源从索引中直接读取，由提交搜索引擎获得的信息源将网址标题分词后作为信息源关键词；为每个信息源s_i，得到m_i个关键词，m_i≥1；关键词主要描述本信息源所包含的特征词语；S25、保存信息源：将设置好信息源关键词的合法信息源作为最终信息源保存，每个合法信息源为一个二元组：s_i＝(ω_i,u_i)，所有l个合法信息源构成语料库信息集合：S＝{s₁，s₂，…，s_l}。

步骤S22中的分类器构建流程如图3所示，包括如下具体过程：S2201、确定信息源的通用模块，包括“主题列表”和“文档地址”，并删除不必要的信息节点，如广告、导航栏、侧栏等，具体删除方法在X.Huang et al.,“Web Content Extraction Using Clusteringwith Web Structure,”in Advances in Neural Networks,2017,pp.95–103.中有详细记载，在此不再赘述；S2202、构建信息源样本库：为利用有监督学习方法对未知信息源进行自动识别与文本语料采集，需首先人工构建信息源样本库，信息源样本库与具体目标类型无关；S2203、信息源样本DOM解析：利用DOM解析器将获取的信息源网页样本解析为DOM树；S2204、信息源样本DOM树初步标注：基于DOM节点的视觉特征和DOM结构，对样本DOM中的“主题列表”块进行人工标注，作为有监督学习算法的训练数据。将符合以下标准的DOM树节点标注为主题列表区域MA(Main Area)，包括：(1)MA位于页面中央；(2)MA占据页面最大面积；(3)MA所含文本内容占本页文本内容的百分比超过设定阈值；S2205、MA标注筛选：由于网页DOM节点存在着嵌套关系，所以初步表述的MA也存在重复嵌套可能，因此，对于含有MA类型子节点的MA节点，采取以下具体过程进行筛选：(1)如果子节点的宽度与自身节点的差值的绝对值和自身宽度的比值大于10％，则删除自身的标记；(2)如果子节点的宽度与自身节点的差值的绝对值和自身宽度的比值小于或等于10％，删除子节点的标记；S2206、信息源样本构建：以包含MA节点的DOM为正样本，以未包含MA节点的DOM为负样本，构建MA训练样本；S2207、信息源样本特征提取：对于MA训练样本中的MA节点，提取以下备选特征中的若干个特征的值作为样本的特征向量，备选特征包括：offset-top(距离父元素顶部的距离)，offset-left(距离父元素左侧的距离)，top(距离网页顶部的距离)，left(距离网页左侧的距离)，width(DOM宽度)，height(DOM高度)，level(DOM层次)，children-count(子节点数量)，siblings-count(相邻节点的数量)，inner-text-length(文本内容长度)，text-density(文本密度)，text-percentage(文本与父元素对比得到的占比)，text-body-percentage(文本与全局对比得到的占比)，anchor-count(锚标记的数量)，link-count(链接的数量)，以及image-count(图片节点的数量)；S2208、信息源样本训练：利用MA训练样本，训练一个可以辨别任意网页是否包含MA节点的神经网络分类器，称为Classifier A，在本实施实例中采用了神经网络分类器，但在具体的实践中并不限于神经网络模型，诸如支持向量机、贝叶斯决策树等有监督机器学习算法均可使用；S2209、MA内部主题块识别：在步骤S225获得MA标注节点子树的内部，按以下标准选择主题块DOM节点，即TN(Topic Node)：(1)TN的排版结构相似度高于设定阈值；(2)全部TN排版占据MA排版区域的百分比超过设定阈值；(3)全部TN文本占MA总文本量的百分比超过设定阈值；(4)TN节点在MA内的拓扑深度相同；S2210、主题块样本构建：以MA样本中被标记为TN的DOM树节点为正样本，以该MA样本中未被标记为TN的其他DOM树节为负样本，构建TN训练样本；S2211、主题块样本特征提取：对TN训练样本，提取以下备选特征中的若干个特征的值作为样本的特征向量，备选特征包括：width(DOM宽度)，width-ratio(DOM宽度与MA宽度比)，height(DOM高度)，height-ratio(DOM高度与MA高度比)，relative-level(DOM节点在MA中的相对层次)，child-count(子节点数量)，siblings-count(相邻节点的数量)，inner-text-length(文本内容长度)，text-density(文本密度)，text-percentage(文本与MA对比得到的占比)，以及link-count(链接的数量)；S2212、主题块样本训练：利用TN训练样本，获得一个可以辨别MA中各个主题块DOM节点在MA的DOM树位置的神经网络分类器，称为Classifier B；S2213、主题块DOM节点中的文本即为对应的语料主题，主题块DOM节点中链接地址即为对应语料主题的互联网地址。

步骤S23筛选合法的信息源具体包括以下步骤：S2301、利用网络爬虫获取一个信息源的HTML页面，并进行DOM树解析；S2302、利用Classifier A对信息源页面进行判断，若能分类出主题列表MA节点，则进入下一步，否则该信息源判定为非法信息源；S2303、利用Classifier B对步骤S2302中获得MA节点进行判断，若提取出主题集合则该信息源为合法信息源，否则，该信息源为非法信息源。

步骤S24中信息源关键词提取包括如下具体过程：S2401、提取S2303中主题集合的文本；S2402、对文本集合进行分词和词频计算，将高频词作为本信息源的候选关键词；S2403、对候选关键词进行筛选，可通过人工方式进一步优化关键词集合。

步骤S3中，信息源评级具体包括以下步骤：S31、信息源匹配度评估：利用目标类别关键词集合K和信息源关键词集合Ω_i的相似性量化信息源与目标分类的匹配度M_i，0≤M_i≤1，具体公式如下：

也就是信息源关键词集合Ω_i中属于K的关键词的比例；S32、信息源可靠度评估：利用域名访问量搜索引擎，查询信息源地址的访问量排名信息r_i，并结合域名地址特征，量化信息源可靠度R_i，0≤R_i≤1，具体规则如下：(1)如果域名属于省级以上政府部门官方网站，即域名后缀为.gov，则R_i＝1；(2)其他域名利用访问量排名进行计算：

R_i＝a^1/ri

其中，a>1为收敛参数，α越大，随着排名增加，可靠度趋向0的速度越快，实际中可选择2≤a≤3之间的范围；S33、信息源过滤：依据S31和S32的计算结果，通过设定匹配度阈值T_M和可靠度阈值T_R，剔除匹配度和可靠度都低于阈值的信息源，获得共m个信息源。

步骤S4中，信息采集和解析具体包括以下流程：S41、信息源获取：利用网络爬虫，获取每个信息源s_i的HTML页面，包括同源页面的多个翻页：P_i＝{p₁，p₂，…，p_x}，并进行页面的DOM树解析；S42、信息源解析：对于每个信息源s_i，利用S22中构建的信息源页面分类器，获得信息源页面P_i所包含的内容列表主题内容和二级链接地址S43、后备文本语料获取：对于每个信息源s_i，利用网络爬虫的相关技术，获取S42中获得的各个信息源的二级链接U_i对应的HTML页面，并解析其中主要文本内容：作为后备语料；S44、短文本后备语料库输出：组合从所有信息源获得主题内容，通常意为但不限于：新闻标题、论坛帖子标题以及微博内容，可构建面向短文本分类需求的后备语料库：H＝H₁∪H₂∪…∪H_m；S45、普通文本后备语料库输出：组合从所有信息源获得二级链接文本内容，通常意为但不限于：新闻内容和论坛帖子内容，可构建面向普通本分类需求的后备语料库：D＝D₁∪D₂∪…∪D_m。

步骤S42中信息源解析的具体过程如下：S4201、对于信息源页面，利用S2208中获得Classifier A对页面进行MA提取，并记录MA的DOM子树；S4202、对于上一步中获得MA的DOM子树，利用S2212中的Classifier B对主题列表中的各个主题的DOM节点进行提取；S4203、提取主题DOM节点中的文本信息作为主题内容；S4204、提取主题DOM节点中的链接信息作为主题的文本地址。

步骤S43中，后备文本语料获取的具体过程为：S4301、对于门户网站或新闻网站类数据源：此类网站的二级链接一般对应于一篇文档的页面，可识别主题列表区，并提取正文区域中的文本语料；S4302、对于论坛类数据源：此类网站的二级链接一般对应于一个文本列表，可识别全部主题块，并提取首个主题块中的文本语料；S4303、对于社交网络类数据源：此类网站一般不存在明确的二级链接地址，而直接将网站标题和关键词内容作为文本语料。

如图6所示，步骤S5中，过滤后备文档语料集具体包括以下流程：S51、后备文本语料排序：综合S31和S32中获得的信息源匹配度M_i和可靠度Ri，获得综合评分Σ_i对后备语料H或D进行降序排序，后备语料的分数与信息源分数一致，获得降序的后备语料集(按照信息源归类)，C＝<C₁，C₂，…，C_m>，综合评分计算公式为：∑_i＝M_i×R_i；S52、初始语料选择：选择综合评分Σ_i大于等于一定阈值的后备语料集合1到v作为符合目标类别的合法语料集合，E＝C₁∪C₂∪…∪C_v，并将语料E集合从排序后的后备语料集中删除：C＝C-E＝<C_v+1，C_v+2，…，C_m>。在本实施中，选择Σ_i＝1为阈值；S53、语料库迭代扩展与优化：基于当前合法语料集E，利用文本相似性，依据后备语料集合的综合评分排序，逐步将后备语料中与合法语料集中相似的文本语料加入合法语料集中。

步骤S53中，语料库迭代扩展与优化具体过程如下：S5301、待对比语料选定：将后备语料库中综合评分最高的信息源语料库作为待对比语料库，即C_x，其对应评分为Σ_x；S5302、语料表达：将合法语料库E和待对比语料库C_x中的文档进行分词、去停用词操作，并利用向量空间模型(VSM)，将分词集合作为特征向量，即向量(分词1,分词2,…,分词N)，将合法语料库E和待对比语料库C_x中的文本分别表达为：和其中特征向量e_i以及d_j中对应位置取值1表示对应语料库的文本包含该位置的分词，取值0则表示对应语料库的文本不包含该位置的分词；S5303、相似性计算：对于每个待对比语料库C_x中的文档d_j，利用向量余弦角距离(cosine)计算其与合法语料库E中每个合法文本的距离：

在实施中使用余弦角距离，但在具体实践中可以选择其他向量距离，例如海明距离等；S5304、待对比语料库筛选：对于每个待对比语料库C_x中的文档d_j，依据其与当前合法语料库中所有文本的最近距离d_min是否小于等于如下阈值，判定其是否属于合法语料：

d_min≤λ(1-∑_x)

其中λ为尺度常数。注意，该距离阈值与待对比语料库的综合评分有关，评分越高，阈值越低。通过该距离阈值，待对比库中所有合法语料构成集合G；S5305、待对比语料库迭代：如果G不为空集合，则设E＝E+G且C_x＝C_x-G，而后重复S5303至S5305的过程，如果G为空，则进入下一过程；S5306、后备语料库迭代：如果后备语料库C不为空，则设C＝C-C_x，而后重复S5301至S5306的过程，如果C为空，则结束本步骤，当前合法语料集合E为本次构建结果。

以上所述的实施例只是本发明的一种较佳的方案，并非对本发明作任何形式上的限制，在不超出权利要求所记载的技术方案的前提下还有其它的变体及改型。

Claims

1.一种借助互联网构建分类语料库的方法，其特征在于，

包括以下步骤：

S1、设置目标类别：由用户设置目标类别，并设置若干个初始关键词；

S2、设置信息源：由用户提供若干个信息源，或者由目标类别初始关键词提交搜索引擎检索结果前N条作为互联网信息源，所述每条信息源包括网址以及若干个信息源描述关键词；

S3、信息源评级：计算信息源描述关键词与初始关键词的匹配度，根据信息源主体类型以及历史访问数据计算信息源可靠度，根据匹配度和可靠度对每条信息源评级；

S4、信息采集和解析：对信息源进行信息采集和解析，获取信息源在设定时间区间内的文档列表，作为后备文档语料集；

S5、过滤后备文档语料集：利用文本相似性算法，过滤后备文档语料；

S6、分类语料库输出：将过滤后的后备文档语料作为目标类别的分类语料库输出。

2.根据权利要求1所述的一种借助互联网构建分类语料库的方法，其特征在于，

所述设置信息源包括以下步骤：

S21、信息源选择：由用户提供若干个信息源，或者由目标类别初始关键词提交搜索引擎检索结果前N条作为互联网信息源，或者事先建立包括描述关键词的网站索引，根据目标类别，从索引中匹配对应栏目、板块以及兴趣分类作为信息源；

S22、构建信息源网页结构分类器：利用基于DOM树的特征提取技术，和基于神经网络的分类技术，获得一个可自动识别信息源页面列表内容和链接地址的分类器；

S23、识别信息源合法性：依据信息源网址，利用S22构建的分类器判断该地址是否属于合法信息源，筛选合法的信息源；

S24、构建信息源关键词：用户提供的信息源由用户设置信息源关键词，由索引中匹配的信息源从索引中直接读取，由提交搜索引擎获得的信息源将网址标题分词后作为信息源关键词；

S25、保存信息源：将设置好信息源关键词的合法信息源作为最终信息源保存。

3.根据权利要求1或2所述的一种借助互联网构建分类语料库的方法，其特征在于，

所述信息源评级包括以下步骤：

S31、信息源匹配度评估：利用目标类别初始关键词集合K和信息源关键词集合Ω_i的相似度，作为信息源与目标分类的匹配度M_i，0≤M_i≤1，具体公式如下：

M_i＝|K∩Ω_i|/|Ω_i|；

S32、信息源可靠度评估：获取信息源地址的历史访问量及访问排名信息ri，结合网址域名后缀，计算信息源可靠度R_i，0≤R_i≤1，具体规则如下：

(1)如果域名属于政府部门网站，即网址域名后缀为.gov，则R_i＝1；

(2)对于其他网址域名后缀：R_i＝α^1/ri，其中，α为收敛参数，α>1，α越大，信息源可靠度R_i的值随排名的增加下降的更快；

S33、信息源过滤：依据S31和S32的计算结果，通过设定匹配度阈值T_M和可靠度阈值T_R，剔除匹配度M_i和可靠度R_i均分别对应低于设定阈值的信息源，获得过滤后的信息源。

4.根据权利要求1或2所述的一种借助互联网构建分类语料库的方法，其特征在于，

所述信息采集和解析包括以下步骤：

S41、信息源获取：利用网络爬虫，获取每个信息源s_i的HTML页面，并进行页面的DOM树解析；

S42、信息源解析：构建信息源网页结构分类器：利用基于DOM树的特征提取技术，和基于神经网络的分类技术，获得一个可自动识别信息源页面列表内容和链接地址的分类器，对于每个信息源s_i的HTML页面，利用所述分类器，获得信息源页面P_i所包含的内容列表主题内容和二级链接地址

S43、后备文本语料获取：获取步骤S42中获得的各个信息源的二级链接U_i对应的HTML页面，并解析其中主要文本内容：作为后备语料；

S44、短文本后备语料库输出：组合从所有信息源获得的主题内容，作为面向短文本分类需求的后备语料库H＝H₁∪H₂∪…∪H_m；

S45、普通文本后备语料库输出：组合从所有信息源获得二级链接文本内容，作为面向普通本分类需求的后备语料库D＝D₁∪D₂∪…∪D_m。

5.根据权利要求1或2所述的一种借助互联网构建分类语料库的方法，其特征在于，

所述过滤后备文档语料包括以下步骤：

S51、后备文档语料排序：根据步骤S3中获得的信息源匹配度M_i和可靠度R_i，获得综合评分Σi，对后备文档语料按综合评分Σi进行降序排序，获得降序的后备文档语料集合C＝<C₁，C₂，…，C_m>，其中综合评分的计算式为：∑_i＝M_i×R_i；

S52、初始语料选择：选择综合评分Σi大于等于设定阈值的前v个后备文档语料作为合法语料集合E＝C₁∪C₂∪…∪C_v，并将集合E从后备文档语料集合中删除：C＝C-E＝<C_v+1，C_v+2，…，C_m>；

S53、语料库迭代扩展与优化：将后备文档语料集合C中后备文档语料与合法语料集E任意语料文本相似度超过设定阈值的后备文档语料，作为新的合法语料加入合法语料集E中，将最终的合法语料集E作为过滤的后备文档语料。

6.根据权利要求2所述的一种借助互联网构建分类语料库的方法，其特征在于，

所述构建信息源网页结构分类器包括以下步骤：

S2201、确定信息源的通用模块，包括“主题列表”和“文档地址”，并删除不必要的信息节点；

S2202、构建信息源样本库；

S2203、对信息源样本进行DOM解析，利用DOM解析技术将信息源样本网页解析为DOM树；

S2204、信息源样本网页DOM树初步标注，基于DOM节点的排版特征和DOM结构，对样本DOM中的“主题列表”块进行人工标注，作为有监督学习算法的训练数据，具体为：将符合以下标准的DOM树节点标注为主题列表区域MA(Main Area)，包括：(1)MA位于页面中央；(2)MA占据页面最大面积；(3)MA所含文本内容占本页文本内容的百分比超过设定阈值；

S2205、MA标注筛选：对于含有MA类型子节点的MA节点，采取以下具体过程进行筛选：(1)如果子节点的宽度与自身节点的差值的绝对值和自身宽度的比值大于10％，则删除自身的标记；(2)如果子节点的宽度与自身节点的差值的绝对值和自身宽度的比值小于或等于10％，删除子节点的标记；

S2206、以包含MA节点的DOM为正样本，以未包含MA节点的DOM为负样本，构建MA训练样本；

S2207、对于MA训练样本中的MA节点，提取以下备选特征中的若干个特征的值作为样本的特征向量，备选特征包括：节点距离父元素顶部的距离、节点距离父元素左侧的距离、节点距离网页顶部的距离、距离网页左侧的距离、节点宽度、节点高度、节点层次、子节点数量、相邻节点的数量、文本内容长度、文本密度、文本与父元素对比得到的占比、文本与全局对比得到的占比)、锚标记的数量、链接的数量以及图片节点的数量；

S2208、利用MA训练样本，训练一个可以辨别任意网页是否包含MA节点的神经网络分类器，称为Classifier A；

S2209、获得MA节点的内容，按以下标准选择主题块DOM节点，主题块DOM节点即TN(Topic Node)节点：(1)TN的排版结构相似度高于设定阈值；(2)全部TN排版占据MA排版区域的百分比超过设定阈值；(3)全部TN文本占MA总文本量的百分比超过设定阈值；(4)TN节点在MA内的拓扑深度相同；

S2210、以MA样本中被标记为TN的DOM树节点为正样本，以该MA样本中未被标记为TN的其他DOM树节为负样本，构建TN训练样本；

S2211、对TN训练样本，提取以下备选特征中的若干个特征的值作为样本的特征向量，备选特征包括：TN节点宽度、TN节点宽度与所在MA宽度的比、TN节点高度、TN节点高度与所在MA高度的比、TN节点在MA中的节点深度、子节点数量、相邻节点的数量、文本内容长度、文本密度、文本与所在MA文本的占比以及链接的数量；

S2212、利用TN训练样本，获得一个可以辨别MA中各个主题块DOM节点在MA的DOM树位置的神经网络分类器，称为Classifier B；

S2213、主题块DOM节点中的文本即为对应的语料主题，主题块DOM节点中链接地址即为对应语料主题的互联网地址。

7.根据权利要求6所述的一种借助互联网构建分类语料库的方法，其特征在于，

所述识别信息源合法性包括以下步骤：

S2301、利用网络爬虫获取一个信息源的HTML页面，并进行DOM树解析；

S2302、利用Classifier A对信息源页面进行判断，若能分类出主题列表MA节点，则进入下一步，否则该信息源判定为非法信息源；

S2303、利用Classifier B对步骤S2302中获得MA节点进行判断，若提取出主题集合则该信息源为合法信息源，否则，该信息源为非法信息源。

8.根据权利要求4所述的一种借助互联网构建分类语料库的方法，其特征在于，

所述后备文本语料获取包括以下步骤：

S4301、对于门户网站或新闻网站类数据源：识别主题列表区，并提取正文区域中的文本语料；

S4302、对于论坛类数据源：识别全部主题块，并提取首个主题块中的文本语料；

S4303、对于社交网络类数据源：直接将网站标题和关键词内容作为文本语料。

9.根据权利要求5所述的一种借助互联网构建分类语料库的方法，其特征在于，

所述语料库迭代扩展与优化包括以下步骤：

S5301、待对比语料选定：依次将删除合法语料集合E之后的后备文档语料集合C中的信息源语料库，作为待对比语料库C_x，其对应评分为Σ_x；

S5302、语料表达：将合法语料库E的文档以及待对比语料库C_x的文档进行分词操作，将分词集合作为特征向量，即向量(分词1,分词2,…,分词N)，合法语料库E和待对比语料库C_x中的文本的特征向量分别为：和其中特征向量e_i以及d_j中对应位置取值1表示对应语料库的文本包含该位置的分词，取值0则表示对应语料库的文本不包含该位置的分词；

S5303、相似性计算：计算待对比语料库C_x的文档向量d_j与合法语料库E每个信息源语料库的文本向量e_i的距离：

S5304、待对比语料库筛选：依据文档d_j与当前合法语料库E中所有信息源语料库的文本向量e_i的最小距离d_min若满足下式，则判定文档d_j对应的待对比语料库C_x为合法语料：

d_min≤λ*(1-∑_x)，

其中λ为人工设定尺度参数，综合评分∑_x值越大，尺度参数λ越小，则计算出的阈值越低；

S5305、待对比语料库迭代：若待对比语料库C_x为合法语料，则E＝E∪C_x作为新的合法语料库E，C＝C-C_x，重复步骤S5301至S5305，直到遍历后备文档语料集合C。

10.一种借助互联网构建分类语料库的系统，适用于如权利要求1至9任一项所述的一种借助互联网构建分类语料库的方法，其特征在于，

包括用户输入单元：采集用户提供的目标类别、关键词以及信息源；

信息源输入与采集单元：获取信息源地址信息，判断地址信息合法性，并获取信息源描述关键词；

信息源评级单元：计算信息源描述关键词与初始关键词的匹配度，根据信息源主体类型以及历史访问数据计算信息源可靠度，根据匹配度和可靠度对每条信息源评级；

信息源获取和解析单元：对信息源进行信息采集和解析，获取信息源在设定时间区间内的文档列表，作为后备文档语料集；

语料库筛选单元：利用文本相似性算法，过滤后备文档语料中相似性低于设定阈值的语料；语料库输出与储存单元：将过滤后的后备文档语料作为目标类别的分类语料库输出。