CN107291723B

CN107291723B - 网页文本分类的方法和装置，网页文本识别的方法和装置

Info

Publication number: CN107291723B
Application number: CN201610195483.4A
Authority: CN
Inventors: 段秉南
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2016-03-30
Filing date: 2016-03-30
Publication date: 2021-04-30
Anticipated expiration: 2036-03-30
Also published as: TW201737118A; TWI735543B; WO2017167067A1; CN107291723A

Abstract

本申请实施例提供了一种网页文本分类的方法和装置，网页文本识别的方法和装置，该网页文本分类的方法包括：采集网页中的文本数据；对所述文本数据进行分词，获得基础分词；计算各基础分词的第一属性值和第二属性值；依据所述第一属性值和第二属性值计算各基础分词的特征值；依据所述特征值从所述基础分词中筛选出特征分词；计算各特征分词相应的权重；将所述权重作为相应特征分词的特征向量，采用所述特征向量训练出分类模型。本申请实施例不仅有效保证了特征提取的客观性与准确性，还兼顾了特征对分类影响，从而提高了网页文本分类的准确性，更方便于用户在海量的文本中及时准确地获得有效的信息。

Description

网页文本分类的方法和装置，网页文本识别的方法和装置

技术领域

本申请涉及文本分类的技术领域，特别是涉及一种网页文本分类的方法，一种网页文本分类的装置，一种网页文本识别的方法，以及，一种网页文本识别的装置。

背景技术

在当今的信息社会，各种形式的信息都极大的丰富了人们的生活，尤其随着Internet的大规模普及，网络上的信息量在飞速增长当中，如各种电子文档、电子邮件和网页充满网络上，从而造成信息杂乱。为了快速、准确、全面地找到我们所需要的信息，文本分类成为了有效组织和管理文本数据的重要方式，越来越受到广泛的关注。

网页文本分类是指按照预先定义的主题类别，根据海量网页文档的内容，确定相应网页的类别。网页文本分类采用的技术基础是基于内容的纯文本分类。基本方法是，在抓取到的网页集合中，对每篇网页文本进行纯文本的内容抽取，得到相应的纯文本。再将抽取出的纯文本组成新的文档集合，在新的文档集合上应用纯文本分类算法进行分类。再根据纯文本与网页文本的对应关系，对网页文本进行分类，即应用网页的纯文本内容信息，对网页进行分类。

由于海量文本所具有的多意性、模糊性、各异性等特点，已有技术中，在分类特征的选取上难以令人满意，例如，往往会夸大某些无效词的作用，或者，忽略某些特征分词的重要属性，从而导致网页文本分类的准确度极低。

发明内容

鉴于上述问题，提出了本申请实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种网页文本分类的方法，一种网页文本识别的方法，和相应的一种网页文本分类的装置，一种网页文本识别的装置。

为了解决上述问题，本申请实施例公开了一种网页文本分类的方法，包括：

采集网页中的文本数据；

对所述文本数据进行分词，获得基础分词；

计算各基础分词的第一属性值和第二属性值；

依据所述第一属性值和第二属性值计算各基础分词的特征值；

依据所述特征值从所述基础分词中筛选出特征分词；

计算各特征分词相应的权重；

将所述权重作为相应特征分词的特征向量，采用所述特征向量训练出分类模型。

优选地，所述第一属性值为所述基础分词的信息增益值，所述第二属性值为所述基础分词相对于预定义的各个分类的卡方统计量值的标准差，所述特征值为所述基础分词的区分度。

优选地，通过如下公式依据所述第一属性值和第二属性值计算各基础分词的特征值：

其中，score为基础分词的区分度，igScore为基础分词的信息增益值，chiScore为基础分词对相对于预定义的各个分类的卡方统计量值，所述n为预定义的分类的数量。

优选地，所述依据所述特征值从所述基础分词中筛选出特征分词的步骤包括：

将所述基础分词按照其对应的特征值由高至低排列；

提取预设数量的，所述特征值高于预设阈值的基础分词作为特征分词。

优选地，所述计算各特征分词相应的权重的步骤包括：

获取各特征分词在相应网页的文本数据中出现的次数；

统计所述网页的文本数据中特征分词的总数；

依据所述特征分词的特征值，各特征分词在相应网页的文本数据中出现的次数，以及，所述网页的文本数据中特征分词的总数，计算得到各特征分词相应的权重。

优选地，通过如下公式依据所述特征分词的特征值，各特征分词在相应网页的文本数据中出现的次数，以及，所述网页的文本数据中特征分词的总数，计算得到各特征分词相应的权重：

其中，weight为特征分词的权重，tf为特征分词在相应网页的文本数据中出现的次数，n为网页的文本数据中特征分词的总数，score为特征分词的区分度。

优选地，所述计算各特征分词相应的权重的步骤还包括：

对所述特征分词的权重进行归一化处理。

优选地，通过以下公式对所述特征分词的权重进行归一化处理：

其中，norm(weight)为归一化之后的权重，weight为所述特征分词的权重，min(weight)为所述网页中文本数据中最小weight值，max(weight)为所述网页中文本数据中最大weight值。

本申请实施例还公开了一种网页文本识别的方法，包括：

提取待识别网页中的文本数据；

对所述文本数据进行分词，获得基础分词；

计算各基础分词的第一属性值和第二属性值；

依据所述特征值从所述基础分词中筛选出特征分词；

计算各特征分词相应的权重；

将所述权重作为特征向量输入预先训练出的分类模型中，获得分类信息；

针对所述待识别网页标记分类信息。

将所述基础分词按照其对应的特征值由高至低排列；

优选地，所述计算各特征分词相应的权重的步骤包括：

获取各特征分词在相应网页的文本数据中出现的次数；

统计所述网页的文本数据中特征分词的总数；

优选地，所述计算各特征分词相应的权重的步骤还包括：

对所述特征分词的权重进行归一化处理。

本申请实施例还公开了一种网页文本分类的装置，包括：

采集模块，用于采集网页中的文本数据；

分词模块，用于对所述文本数据进行分词，获得基础分词；

分词属性计算模块，用于计算各基础分词的第一属性值和第二属性值；

特征值计算模块，用于依据所述第一属性值和第二属性值计算各基础分词的特征值；

特征提取模块，用于依据所述特征值从所述基础分词中筛选出特征分词；

特征权重分配模块，用于计算各特征分词相应的权重；

模型训练模块，用于将所述权重作为相应特征分词的特征向量，采用所述特征向量训练出分类模型。

优选地，所述特征值计算模块通过如下公式依据所述第一属性值和第二属性值计算各基础分词的特征值：

优选地，所述特征提取模块包括：

排序子模块，用于将所述基础分词按照其对应的特征值由高至低排列；

提取子模块，用于提取预设数量的，所述特征值高于预设阈值的基础分词作为特征分词。

优选地，所述特征权重分配模块包括：

次数统计子模块，用于获取各特征分词在相应网页的文本数据中出现的次数；

分词总数统计子模块，用于统计所述网页的文本数据中特征分词的总数；

计算子模块，用于依据所述特征分词的特征值，各特征分词在相应网页的文本数据中出现的次数，以及，所述网页的文本数据中特征分词的总数，计算得到各特征分词相应的权重。

优选地，所述计算子模块通过如下公式依据所述特征分词的特征值，各特征分词在相应网页的文本数据中出现的次数，以及，所述网页的文本数据中特征分词的总数，计算得到各特征分词相应的权重：

优选地，所述特征权重分配模块还包括：

归一化子模块，用于对所述特征分词的权重进行归一化处理。

优选地，所述归一化子模块通过以下公式对所述特征分词的权重进行归一化处理：

本申请实施例还公开了一种网页文本识别的装置，包括：

文本提取模块，用于提取待识别网页中的文本数据；

分词模块，用于对所述文本数据进行分词，获得基础分词；

特征值计算模块，用于依据所述第一属性值和第二属性值计算各基

础分词的特征值；

特征权重分配模块，用于计算各特征分词相应的权重；

分类模块，用于将所述权重作为特征向量输入预先训练出的分类模型中，获得分类信息；

标记模块，用于针对所述待识别网页标记分类信息。

本申请实施例包括以下优点：

本申请实施例通过改进特征分词的提取方式，以及，特征分词权重的计算方式，不仅有效保证了特征提取的客观性与准确性，还兼顾了特征对分类影响，从而提高了网页文本分类的准确性，更方便于用户在海量的文本中及时准确地获得有效的信息。

本申请实施例融合至少两种特征提取算法，并在卡方统计中引入标准差，有效保证了特征提取的客观性与准确性。并且，通过使用长尾分布图选择特征数量，针对特征分词采用兼顾了特征对分类影响的权重，因而能进一步筛选出有效特征，从而使网页文本分类的效果更精准。

附图说明

图1是本申请的一种网页文本分类的方法的步骤流程图；

图2是本申请一种示例中长尾分布的示意图；

图3是本申请的一种网页文本识别的步骤流程图；

图4是本申请的一种网页文本分类的装置的结构框图；

图5是本申请的一种网页文本识别的装置的结构框图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

文本分类是通过训练一定的文本集合，得到类别与未知文本的映射规则，即计算出文本与类别的相关度，再根据训练的分类器来决定文本的类别归属。

文本分类是一个有指导的学习过程，它根据一个已经被标注的训练文本集合，找到文本属性(特征)和文本类别之间的关系模型(分类器)，然后利用这种学习得到的关系模型对新的文本进行类别判断。文本分类的过程总体可划分为训练和分类两部分。训练的目的是通过新的文本和类别之间的联系构造分类模型，使其用于分类。分类过程是根据训练结果对未知文本进行分类，给定类别标识的过程。

参考图1，示出了本申请的一种网页文本分类的方法实施例的步骤流程图，具体可以包括如下步骤：

步骤101，采集网页中的文本数据；

本步骤即获取到用于进行分类模型训练的网页的文本数据，在实际中，其可能是海量数据。通常的处理方法是，在抓取到的网页集合中，对每篇网页文本进行纯文本的内容抽取，从而得到相应的纯文本，然后将抽取出的纯文本组成新的文档集合，该文档集合即为本申请所指网页中的文本数据。

步骤102，对所述文本数据进行分词，获得基础分词；

众所周知，英文是以词为单位的，词和词之间是靠空格隔开，而中文是以字为单位，句子中所有的字连起来才能描述一个意思。例如，英文句子I am a student，用中文则为：“我是一个学生”。计算机可以很简单通过空格知道student是一个单词，但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词，就是中文分词。例如，我是一个学生，分词的结果是：我是一个学生。

下面介绍一些常用的分词方法：

1、基于字符串匹配的分词方法：是指按照一定的策略将待分析的汉字串与一个预置的机器词典中的词条进行匹配，若在词典中找到某个字符串，则匹配成功(识别出一个词)。实际使用的分词系统，都是把机械分词作为一种初分手段，还需通过利用各种其它的语言信息来进一步提高切分的准确率。

2、基于特征扫描或标志切分的分词方法：是指优先在待分析字符串中识别和切分出一些带有明显特征的词，以这些词作为断点，可将原字符串分为较小的串再来进机械分词，从而减少匹配的错误率；或者将分词和词类标注结合起来，利用丰富的词类信息对分词决策提供帮助，并且在标注过程中又反过来对分词结果进行检验、调整，从而提高切分的准确率。

3、基于理解的分词方法：是指通过让计算机模拟人对句子的理解，达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象。它通常包括三个部分：分词子系统、句法语义子系统、总控部分。在总控部分的协调下，分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断，即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。

4、基于统计的分词方法：是指，中文信息中由于字与字相邻共现的频率或概率能够较好的反映成词的可信度，所以可以对语料中相邻共现的各个字的组合的频度进行统计，计算它们的互现信息，以及计算两个汉字X、Y的相邻共现概率。互现信息可以体现汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时，便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计，不需要切分词典。

本申请对所述文本数据进行分词的方式不作限制，在针对文档集合进行分词，所获得的所有分词即为本申请所指的基础分词。

在具体实现中，在进入下一步骤前，还可以针对基础分词中的无效词，比如，针对停用词等预先进行去除处理。停用词通常指在各类文本中都频繁出现，因而被认为带有很少的有助于分类任何信息的代词、介词、连词等高频词。本领域技术人员也可以按需求设计需要在特征提取之前或特征提取过程中删除的特征词，本申请对此无需加以限制。

步骤103，计算各基础分词的第一属性值和第二属性值；

步骤104，依据所述第一属性值和第二属性值计算各基础分词的特征值；

步骤105，依据所述特征值从所述基础分词中筛选出特征分词；

以上步骤103-105涉及文本分类中特征选择的处理。通常原始特征空间维数非常高，且存在大量冗余的特征，因此需要进行特征降维。特征选择是特征降维中的其中一类，它的基本思路：根据某种评价函数独立地对每个原始特征项进行评分，然后按分值的高低排序，从中选取若干个分值最高的特征项，或者预先设定一个阈值，把度量值小于阈值特征过滤掉，剩下的候选特征作为结果的特征子集。

特征选择算法包括：文档频次、互信息量、信息增益、χ²统计量(CHI)等算法。已有技术中，本领域技术人员通常会选用其中之一进行特征分词的选取，然而这种单一算法的使用存在不少弊端，以信息增益算法为例，信息增益通过分词在文本中出现和不出现前后的信息量之差来推断该分词所带的信息量，即一个分词的信息增益值表示分词特征包含的信息量。可以理解，信息增益值越高表示分词特征可以给分类器来带较大的信息量，但已有的信息增益算法只考虑分词特征对整体分类器提供的信息量，忽略了分词特征对不同的各个分类的区分度。

或者，以χ²统计量(CHI)算法为例，卡方统计也用于表征两个变量的相关性，它同时考虑了特征在某类文本中出现和不出现时的情况。卡方统计量值越大，它与该类的相关性就越大，携带的类别信息也就越多，但已有的χ²统计量(CHI)算法中过分夸大低频词的作用。

针对上述弊端，本申请提出不采用单一算法，而采用至少两种算法进行特征提取，即分别采用不同的两种算法计算各基础分词的第一属性值和第二属性值，例如，采用信息增益算法计算第一属性值，采用CHI算法计算第二属性值。

当然，本领域技术人员依据实际情况采用其它算法分别计算分词不同的属性值，甚至两个以上的属性值，都是可行的，本申请对此不作限制。

在本申请的一种优选实施例中，所述第一属性值可以为所述基础分词的信息增益值，所述第二属性值可以为所述基础分词相对于预定义的各个分类的卡方统计量值的标准差，所述特征值可以为所述基础分词的区分度，即所述步骤103具体可以包括如下子步骤：

子步骤1031，计算各基础分词的信息增益值；

子步骤1032，计算各基础分词的卡方统计量值；

子步骤1033，基于所述基础分词的数量，统计所述基础分词相对于预定义的各个分类的卡方统计量的标准差。

在这种情况下，所述步骤104可以为，基于所述信息增益值和标准差的乘积获得各基础分词的区分度。

更具体而言，可以通过如下公式依据所述第一属性值和第二属性值计算各基础分词的特征值：

本申请融合至少两种特征提取算法，并在卡方统计中引入标准差，有效保证了特征提取的客观性与准确性。

在本申请的一种优选实施例中，所述步骤105具体可以包括如下子步骤：

子步骤1051，将所述基础分词按照其对应的特征值由高至低排列；

子步骤1052，提取预设数量的，所述特征值高于预设阈值的基础分词作为特征分词。

在计算出各基础分词的特征值后，可以发现此值符合如图2所示的长尾分布(齐鲁夫定律)示意图，图2中横轴为基础分词的个数，纵轴为基础分词的区分度，应用本申请的优选实施例，可以取例如横坐标大于0小于30000的基础分词作为特征分词。

本申请通过使用长尾分布图选择特征数量，可以进一步筛选出有效特征，从而使网页文本分类的效果更精准。

步骤106，计算各特征分词相应的权重；

在文本中，每一个特征分词赋予一个权重，表示这一特征分词在该文本中的重要程度。权重一般都是以特征项的频率为基础进行计算，计算方式很多，例如，布尔权值法，词频权值法，TF/IDF权值法，TFC权值法等，已有这种权重计算方法的计算也存在不少弊端，例如，TF/IDF权值法中TF表示特征在单个文本中的数量，IDF表示特征在整个语料中的数量，因此完全忽略了特征对分类的影响。

因而，本申请提出了一种用于计算权重的优选实施例，在本实施例中，所述步骤106可以包括如下子步骤：

子步骤1061，获取各特征分词在相应网页的文本数据中出现的次数；

子步骤1062，统计所述网页的文本数据中特征分词的总数；

子步骤1063，依据所述特征分词的特征值，各特征分词在相应网页的文本数据中出现的次数，以及，所述网页的文本数据中特征分词的总数，计算得到各特征分词相应的权重。

作为本申请优选实施例具体应用的一种示例，所述子步骤1063具体可以通过如下公式计算各特征分词相应的权重：

在具体实现中，更为优选的是，所述步骤105还可以包括如下子步骤：

子步骤1064，对所述特征分词的权重进行归一化处理。

作为本申请具体应用的一种示例，可以通过以下公式对所述特征分词的权重进行归一化处理：

以上本申请的示例中所采用的权重则兼顾了特征对分类影响，因而能进一步提升特征选取的有效性。当然，本申请采用任一种权重计算方式均是可行的，对此本申请无需加以限制。

以上计算得到的各特征分词相应的权重(包括如子步骤1063得到的权重或如子步骤1064得到的归一化权重)，可以作为一个文本的特征向量，得到特征向量之后可以选择某个文本分类算法训练出分类模型。

步骤107，将所述权重作为相应特征分词的特征向量，采用所述特征向量训练出分类模型。

本领域技术人员采用任一种文本分类算法，比如贝叶斯概率算法(NaiveBayese)，支持向量机，KNN算法(k nearest neighbor)等采用特征向量训练出分类模型都是可行的，本申请对此不作限制。

参考图3，示出了本申请的一种网页文本识别的方法实施例的流程图，具体可以包括如下步骤：

步骤301，提取待识别网页中的文本数据；

步骤302，对所述文本数据进行分词，获得基础分词；

步骤303，计算各基础分词的第一属性值和第二属性值；

步骤304，依据所述第一属性值和第二属性值计算各基础分词的特征值；

步骤305，依据所述特征值从所述基础分词中筛选出特征分词；

步骤306，计算各特征分词相应的权重；

步骤307，将所述权重作为特征向量输入预先训练出的分类模型中，获得分类信息；

步骤308，针对所述待识别网页标记分类信息。

在本申请的一种优选实施例中，所述第一属性值可以为所述基础分词的信息增益值，所述第二属性值可以为所述基础分词相对于预定义的各个分类的卡方统计量值的标准差，所述特征值可以为所述基础分词的区分度。

作为本申请具体应用的一种示例，可以通过如下公式依据所述第一属性值和第二属性值计算各基础分词的特征值：

在本申请的一种优选实施例中，所述步骤305可以包括如下子步骤：

子步骤3051，将所述基础分词按照其对应的特征值由高至低排列；

子步骤3052，提取预设数量的，所述特征值高于预设阈值的基础分词作为特征分词。

在本申请的一种优选实施例中，所述步骤306可以包括如下子步骤：

子步骤3061，获取各特征分词在相应网页的文本数据中出现的次数；

子步骤3062，统计所述网页的文本数据中特征分词的总数；

子步骤3063，依据所述特征分词的特征值，各特征分词在相应网页的文本数据中出现的次数，以及，所述网页的文本数据中特征分词的总数，计算得到各特征分词相应的权重。

作为本申请优选实施例具体应用的一种示例，所述子步骤3063具体可以通过如下公式计算各特征分词相应的权重：

在具体实现中，更为优选的是，所述步骤306还可以包括如下子步骤：

子步骤3064，对所述特征分词的权重进行归一化处理。

以上计算得到的各特征分词相应的权重，可以作为一个文本的特征向量，得到特征向量之后可以将其输入按图1所示的过程预先生成的分类模型中，即可获得当前特征向量所归属的分类信息，最后将当前识别的网页标记上相应的分类信息即可。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的动作顺序的限制，因为依据本申请实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本申请实施例所必须的。

参照图4，示出了本申请的一种网页文本分类的装置实施例的结构框图，具体可以包括如下模块：

采集模块401，用于采集网页中的文本数据；

分词模块402，用于对所述文本数据进行分词，获得基础分词；

分词属性计算模块403，用于计算各基础分词的第一属性值和第二属性值；

特征值计算模块404，用于依据所述第一属性值和第二属性值计算各基础分词的特征值；

特征提取模块405，用于依据所述特征值从所述基础分词中筛选出特征分词；

特征权重分配模块406，用于计算各特征分词相应的权重；

模型训练模块407，用于将所述权重作为相应特征分词的特征向量，采用所述特征向量训练出分类模型。

作为本申请实施例具体应用的一种示例，所述特征值计算模块404可以通过如下公式依据所述第一属性值和第二属性值计算各基础分词的特征值：

在本申请的一种优选实施例中，所述特征提取模块405可以包括如下子模块：

排序子模块4051，用于将所述基础分词按照其对应的特征值由高至低排列；

提取子模块4052，用于提取预设数量的，所述特征值高于预设阈值的基础分词作为特征分词。

在本申请的一种优选实施例中，所述特征权重分配模块406可以包括如下子模块：

次数统计子模块4061，用于获取各特征分词在相应网页的文本数据中出现的次数；

分词总数统计子模块4062，用于统计所述网页的文本数据中特征分词的总数；

计算子模块4063，用于依据所述特征分词的特征值，各特征分词在相应网页的文本数据中出现的次数，以及，所述网页的文本数据中特征分词的总数，计算得到各特征分词相应的权重。

作为本申请实施例具体应用的一种示例，所述计算子模块4063可以通过如下公式依据所述特征分词的特征值，各特征分词在相应网页的文本数据中出现的次数，以及，所述网页的文本数据中特征分词的总数，计算得到各特征分词相应的权重：

在本申请的一种优选实施例中，所述特征权重分配模块406还可以包括如下子模块：

归一化子模块4064，用于对所述特征分词的权重进行归一化处理。

作为本申请实施例具体应用的一种示例，所述归一化子模块4064可以通过以下公式对所述特征分词的权重进行归一化处理：

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

参照图5，示出了本申请的一种网页文本识别的装置实施例的结构框图，具体可以包括如下模块：

文本提取模块501，用于提取待识别网页中的文本数据；

分词模块502，用于对所述文本数据进行分词，获得基础分词；

分词属性计算模块503，用于计算各基础分词的第一属性值和第二属性值；

特征值计算模块504，用于依据所述第一属性值和第二属性值计算各基础分词的特征值；

特征提取模块505，用于依据所述特征值从所述基础分词中筛选出特征分词；

特征权重分配模块506，用于计算各特征分词相应的权重；

分类模块507，用于将所述权重作为特征向量输入预先训练出的分类模型中，获得分类信息；

标记模块508，用于针对所述待识别网页标记分类信息。

作为本申请实施例具体应用的一种示例，所述特征值计算模块504可以通过如下公式依据所述第一属性值和第二属性值计算各基础分词的特征值：

在本申请的一种优选实施例中，所述特征提取模块505可以包括如下子模块：

排序子模块5051，用于将所述基础分词按照其对应的特征值由高至低排列；

提取子模块5052，用于提取预设数量的，所述特征值高于预设阈值的基础分词作为特征分词。

在本申请的一种优选实施例中，所述特征权重分配模块506可以包括如下子模块：

次数统计子模块5061，用于获取各特征分词在相应网页的文本数据中出现的次数；

分词总数统计子模块5062，用于统计所述网页的文本数据中特征分词的总数；

计算子模块5063，用于依据所述特征分词的特征值，各特征分词在相应网页的文本数据中出现的次数，以及，所述网页的文本数据中特征分词的总数，计算得到各特征分词相应的权重。

在本申请的一种优选实施例中，所述特征权重分配模块506还可以包括如下子模块：

归一化子模块5064，用于对所述特征分词的权重进行归一化处理。

本说明书中的每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

在一个典型的配置中，所述计算机设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非持续性的电脑可读媒体(transitory media)，如调制的数据信号和载波。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种网页文本分类的方法，一种网页文本分类的装置，一种网页文本识别的方法，以及，一种网页文本识别的装置进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种网页文本分类的方法，其特征在于，包括：

采集网页中的文本数据；

对所述文本数据进行分词，获得基础分词；

计算各基础分词的第一属性值和第二属性值；其中，所述第一属性值为所述基础分词的信息增益值，所述第二属性值为所述基础分词相对于预定义的各个分类的卡方统计量值的标准差；

依据所述特征值从所述基础分词中筛选出特征分词；

计算各特征分词相应的权重；

将所述权重作为相应特征分词的特征向量，采用所述特征向量训练出分类模型；

其中，所述特征值为所述基础分词的区分度；

通过如下公式依据所述第一属性值和第二属性值计算各基础分词的特征值：

2.根据权利要求1所述的方法，其特征在于，所述依据所述特征值从所述基础分词中筛选出特征分词的步骤包括：

将所述基础分词按照其对应的特征值由高至低排列；

3.根据权利要求1所述的方法，其特征在于，所述计算各特征分词相应的权重的步骤包括：

获取各特征分词在相应网页的文本数据中出现的次数；

统计所述网页的文本数据中特征分词的总数；

4.根据权利要求3所述的方法，其特征在于，通过如下公式依据所述特征分词的特征值，各特征分词在相应网页的文本数据中出现的次数，以及，所述网页的文本数据中特征分词的总数，计算得到各特征分词相应的权重：

5.根据权利要求1或4所述的方法，其特征在于，所述计算各特征分词相应的权重的步骤还包括：

对所述特征分词的权重进行归一化处理。

6.根据权利要求5所述的方法，其特征在于，通过以下公式对所述特征分词的权重进行归一化处理：

7.一种网页文本识别的方法，其特征在于，包括：

提取待识别网页中的文本数据；

对所述文本数据进行分词，获得基础分词；

依据所述特征值从所述基础分词中筛选出特征分词；

计算各特征分词相应的权重；

针对所述待识别网页标记分类信息；

其中，所述特征值为所述基础分词的区分度；通过如下公式依据所述第一属性值和第二属性值计算各基础分词的特征值：

8.根据权利要求7所述的方法，其特征在于，所述依据所述特征值从所述基础分词中筛选出特征分词的步骤包括：

将所述基础分词按照其对应的特征值由高至低排列；

9.根据权利要求7所述的方法，其特征在于，所述计算各特征分词相应的权重的步骤包括：

获取各特征分词在相应网页的文本数据中出现的次数；

统计所述网页的文本数据中特征分词的总数；

10.根据权利要求7或9所述的方法，其特征在于，所述计算各特征分词相应的权重的步骤还包括：

对所述特征分词的权重进行归一化处理。

11.一种网页文本分类的装置，其特征在于，包括：

采集模块，用于采集网页中的文本数据；

分词模块，用于对所述文本数据进行分词，获得基础分词；

分词属性计算模块，用于计算各基础分词的第一属性值和第二属性值；其中，所述第一属性值为所述基础分词的信息增益值，所述第二属性值为所述基础分词相对于预定义的各个分类的卡方统计量值的标准差；

特征值计算模块，用于依据所述第一属性值和第二属性值计算各基础分词的特征值；所述特征值为所述基础分词的区分度；所述特征值计算模块通过如下公式依据所述第一属性值和第二属性值计算各基础分词的特征值：

其中，score为基础分词的区分度，igScore为基础分词的信息增益值，chiScore为基础分词对相对于预定义的各个分类的卡方统计量值，所述n为预定义的分类的数量；

特征权重分配模块，用于计算各特征分词相应的权重；

12.根据权利要求11所述的装置，其特征在于，所述特征提取模块包括：

13.根据权利要求11所述的装置，其特征在于，所述特征权重分配模块包括：

14.根据权利要求13所述的装置，其特征在于，所述计算子模块通过如下公式依据所述特征分词的特征值，各特征分词在相应网页的文本数据中出现的次数，以及，所述网页的文本数据中特征分词的总数，计算得到各特征分词相应的权重：

15.根据权利要求11或14所述的装置，其特征在于，所述特征权重分配模块还包括：

16.根据权利要求15所述的装置，其特征在于，所述归一化子模块通过以下公式对所述特征分词的权重进行归一化处理：

17.一种网页文本识别的装置，其特征在于，包括：

文本提取模块，用于提取待识别网页中的文本数据；

分词模块，用于对所述文本数据进行分词，获得基础分词；

特征权重分配模块，用于计算各特征分词相应的权重；

标记模块，用于针对所述待识别网页标记分类信息。