CN113032564B

CN113032564B - 特征提取方法、装置、电子设备以及存储介质

Info

Publication number: CN113032564B
Application number: CN202110303272.9A
Authority: CN
Inventors: 陈伟鸿
Original assignee: CCB Finetech Co Ltd
Current assignee: CCB Finetech Co Ltd
Priority date: 2021-03-22
Filing date: 2021-03-22
Publication date: 2023-05-30
Anticipated expiration: 2041-03-22
Also published as: CN113032564A

Abstract

本申请涉及人工智能技术领域，尤其涉及自然语言处理技术领域，公开了一种特征提取方法、装置、电子设备以及存储介质。对于文本集中的每一特征项，确定该特征项在每类文本中的影响因子，其中，所述文本集中至少包括一类文本，且所述文本集中包括至少两个特征项，所述影响因子包括频度因子、类内分布均匀因子和修正因子中的至少一项；根据该特征项在每类文本中的影响因子和初始卡方统计值，确定该特征项在每类文本中的新卡方统计值；根据文本集中所有特征项在每类文本中的新卡方统计值，从至少两个特征项中确定所述文本集的特征集合。上述技术方案，为文本的特征提取提供了一种新思路。

Description

特征提取方法、装置、电子设备以及存储介质

技术领域

本申请实施例涉及人工智能技术领域，尤其涉及自然语言处理技术领域，具体涉及一种特征提取方法、装置、电子设备以及存储介质。

背景技术

随着互联网技术的发展，各种各样的文本使得读者眼花缭乱。为了提高用户的阅读体验，会对文本进行处理归类。文本的分类流程分为四步：一是对文本进行预处理；二是对文本表示以及特征选择；三是构造分类器；四是分类。

文本表示以及特征选择的准确性，在后续文本分类中至关重要，特性选择的准确性决定了文本分类的准确性，因此，如何提高特征选择(提取)的准确性，是文本分类预测中亟需解决的问题。

发明内容

本申请提供一种特征提取方法、装置、电子设备以及存储介质，以提高文本特征提取的准确性。

第一方面，本申请实施例提供了一种特征提取方法，包括：

对于文本集中的每一特征项，确定该特征项在每类文本中的影响因子，其中，所述文本集中至少包括一类文本，且所述文本集中包括至少两个特征项，所述影响因子包括频度因子、类内分布均匀因子和修正因子中的至少一项；

根据该特征项在每类文本中的影响因子和初始卡方统计值，确定该特征项在每类文本中的新卡方统计值；

根据文本集中所有特征项在每类文本中的新卡方统计值，从至少两个特征项中确定所述文本集的特征集合。

第二方面，本申请实施例还提供了一种特征提取装置，包括：

影响因子确定模块，用于对于文本集中的每一特征项，确定该特征项在每类文本中的影响因子，其中，所述文本集中至少包括一类文本，且所述文本集中包括至少两个特征项，所述影响因子包括频度因子、类内分布均匀因子和修正因子中的至少一项；

新卡方统计值确定模块，用于根据该特征项在每类文本中的影响因子和初始卡方统计值，确定该特征项在每类文本中的新卡方统计值；

特征集合确定模块，用于根据文本集中所有特征项在每类文本中的新卡方统计值，从至少两个特征项中确定所述文本集的特征集合。

第三方面，本申请实施例还提供了一种电子设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本申请任一实施例所提供的特征提取方法。

第四方面，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如本申请任一实施例所提供的特征提取方法。

本申请的技术方案，通过对于文本集中的每一特征项，确定该特征项在每类文本中的影响因子，其中，文本集中至少包括一类文本，且文本集中包括至少两个特征项，影响因子包括频度因子、类内分布均匀因子和修正因子中的至少一项，之后根据该特征项在每类文本中的影响因子和初始卡方统计值，确定该特征项在每类文本中的新卡方统计值，进而根据文本集中所有特征项在每类文本中的新卡方统计值，从至少两个特征项中确定文本集的特征集合。上述技术方案，通过引入频度因子，将词频影响纳入特征项的卡方统计值的计算，从而解决卡方统计低频词缺陷带来的干扰；通过引入类内分布因子，将特征项均匀度纳入考虑，从而更好的提高特征集筛选的效果；通过引入修正因子，去除负相关特征项带来的影响，从而提高后续模型分类效果，为文本的特征提取提供了一种新思路。

附图说明

图1是本申请实施例一提供的一种特征提取方法的流程图；

图2是本申请实施例二提供的一种特征提取方法的流程图；

图3是本申请实施例三提供的一种特征提取方法的流程图；

图4是本申请实施例四提供的一种特征提取装置的结构示意图；

图5是本申请实施例五提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部结构。

实施例一

图1是本申请实施例一提供的一种特征提取方法的流程图；本实施例可适用于文本特征提取的情况，尤其适用于可疑报告的特征提取的情况。该方法可以由特征提取装置来执行，该装置可由软件/硬件实现，并可集成于承载特征提取功能的电子设备中，例如服务器中。

如图1所示，该方法具体可以包括：

S110、对于文本集中的每一特征项，确定该特征项在每类文本中的影响因子。

其中，文本集中至少包括一类文本，且文本集中包括至少两个特征项，特征项是指能够表征文本突出特征的词语。

所谓影响因子是衡量特征项与类别间的关联度的因素，可以包括频度因子、类内分布均匀因子和修正因子中的至少一项。所谓频度因子是用于衡量特征项自身在文本中出现的频次对于文本分类预测的贡献度的因素。所谓类内分布均匀因子是用于衡量在某一类别中的每一文本中，区分度较高且均匀分布的特征项对于文本分类预测的贡献度的因素。所谓修正因子是用于衡量特征项与类别相关性呈负相关对于文本分类预测的贡献度的因素。

本实施例中，对于文本集中每一特征项，基于统计学算法，确定该特征项在每类文本中的影响因子。

S120、根据该特征项在每类文本中的影响因子和初始卡方统计值，确定该特征项在每类文本中的新卡方统计值。

其中，初始卡方统计值是指采用传统卡方统计方法确定的特征项在每类文本中的卡方统计值，用于表征特征项与文本类别的关联度大小。所谓卡方统计方法即为实际观测值与理论推断之间的偏差程度，计算这种偏离程度可通过如下公式：

其中，A_i表示实际观测值，E_i表示理论期望值，当实际观测值和理论期望值完全一致时，χ²值为0；实际观测值与理论期望值越接近，两者之间的差异越小，接近假设，则两者独立。反之，实际观测值与理论期望值的偏差越大，则是两者越相关。

本实施例中，可以根据该特征项在每类文本中的影响因子中的频度因子和初始卡方统计值，确定该特征项在每类文本中的新卡方统计值。

可选的，还可以根据该特征项在每类文本中的影响因子中的类内分布均匀因子和初始卡方统计值，确定该特征项在每类文本中的新卡方统计值。

可选的，还可以根据该特征项在每类文本中的影响因子中的修正因子和初始卡方统计值，确定该特征项在每类文本中的新卡方统计值。

可选的，还可以根据该特征项在每类文本中的影响因子中频度因子、类内分布均匀因子、修正因子中的任意两项，和初始卡方统计值，确定该特征项在每类文本中的新卡方统计值。

可选的，还可以根据该特征项在每类文本中的影响因子中频度因子、类内分布均匀因子、修正因子中、和初始卡方统计值，确定该特征项在每类文本中的新卡方统计值。

示例性的，对于每类文本，将该特征项在该类文本中的影响因子和初始卡方统计值相乘，并将相乘结果作为该特征项在该类文本中的新卡方统计值。可选的，对于每类文本，可以将该特征项在该类文本中的影响因子中的频度因子、类内分布均匀因子、修正因子中的任一项，和初始卡方统计值相乘，并将相乘结果作为该特征项在该类文本中的新卡方统计值。可选的，还可以将该特征项在该类文本中的影响因子中的频度因子、类内分布均匀因子、修正因子中的任意两项，和初始卡方统计值相乘，并将相乘结果作为该特征项在该类文本中的新卡方统计值。可选的，还可以将该特征项在该类文本中的影响因子中的频度因子、类内分布均匀因子、修正因子中这三项，和初始卡方统计值相乘，并将相乘结果作为该特征项在该类文本中的新卡方统计值。例如，可以通过如下公式确定该特征项在该类文本中的新卡方统计值：

New_CHI(t_i,c_j)＝χ²(t_i,c_j)*α*β*γ

其中，New_CHI(t_i,c_j)表示特征项t_i在c_j类文本中的新卡方统计值，χ²(t_i,c_j)表示特征项t_i在c_j类文本中的原始卡方统计值，α表示特征项t_i在c_j类文本中的频度因子，β表示特征项t_i在c_j类文本中的类内分布均匀因子，γ表示特征项t_i在c_j类文本中的修正因子，i表示第i个特征项，j表示第j类文本。

S130、根据文本集中所有特征项在每类文本中的新卡方统计值，从至少两个特征项中确定文本集的特征集合。

本实施例中，对于文本集中的每一特征项，确定该特征项在各类文本中的新卡方统计值的平均值，将该平均值作为该特征项在文本集中的新卡方统计值。进而，根据文本集中所有特征项在文本集中的新卡方统计值，从至少两个特征项中确定文本集的特征集合。

现有技术中，在对文本表示以及特征选择时，常用到卡方统计方法进行文本的特征提取，传统卡方统计存在低频词缺陷，当一个特征项在整个文本集的多个类别中都出现，在单篇文档内出现的频率却不高，很明显这些特征项没有高的类别代表性，但是根据卡方统计计算公式则优先选出这类特征项，该缺陷将会对分类预测结果带来干扰，通过引入频度因子，将词频数影响纳入卡方统计值的计算，从而解决卡方统计低频词缺陷带来的干扰；且传统的卡方统计特征选取仅根据公式计算出的关联度大小，却忽略了在类中分布均匀的特征项更具有代表性的影响，通过引入类内分布因子，将特征项均匀度纳入考虑，从而更好的提高特征集筛选的效果；传统的卡方统计计算会将结果都转化为正值，忽略了特征项与文本类别的负相关的影响，通过引入修正负相关因子将去除负相关特征项带来的影响，从而提高模型分类效果。

本实施例的技术方案，通过对于文本集中的每一特征项，确定该特征项在每类文本中的影响因子，其中，文本集中至少包括一类文本，且文本集中包括至少两个特征项，影响因子包括频度因子、类内分布均匀因子和修正因子中的至少一项，之后根据该特征项在每类文本中的影响因子和初始卡方统计值，确定该特征项在每类文本中的新卡方统计值，进而根据文本集中所有特征项在每类文本中的新卡方统计值，从至少两个特征项中确定文本集的特征集合。上述技术方案，通过引入频度因子，将词频影响纳入特征项的卡方统计值的计算，从而解决卡方统计低频词缺陷带来的干扰；通过引入类内分布因子，将特征项均匀度纳入考虑，从而更好的提高特征集筛选的效果；通过引入修正因子，去除负相关特征项带来的影响，从而提高后续模型分类效果，为文本的特征提取提供了一种新思路。

在上述技术方案的基础上，为了进一步保证特征项选择的准确性，首先对文本集进行预处理。具体的，基于分词技术，对文本集进行分词处理，进而过滤掉语气词、副词、标点等无意义但又大量存在的词语。

实施例二

图2是本申请实施例二提供的一种特征提取方法的流程图；在上述实施例的基础上，对“对于文本集中的每一特征项，确定该特征项在每类文本中的影响因子”进行具体阐述，进而提供一种可选实施方案。

如图2所示，该方法具体可以包括：

S210、对于文本集中的每一特征项，确定该特征项在每类文本中的影响因子。

可选的，确定该特征项在每类文本中的影响因子中的频度因子可以是，对于每类文本，确定该类文本的文本数，以及该特征项在该类文本的单位词频；其中，单位词频为该特征项在该类文本中每一文本的词频。具体的，对于每类文本，可以基于数学统计分析，确定该类文本的文本数，以及该特征项在该类文本的单位词频。

在确定该特征项在该类文本的单位词频后，根据单位词频，确定该特征项在该类文本的总词频。具体可以是，将该特征项在该类文本中的每一文本的词频相加，将相加后的结果作为该特征项在该类文本的总词频。

在确定该类文本的文本数以及该特征项在该类文本中的总词频后，根据文本数和总词频，确定该特征项在该类文本中的频度因子。具体可以是，将总词频与文本数的商作为该特征项在该类文本中的频度因子。可选的，还可以是将总词频和文本数的商再加1后的结果取对数，将取对数后的结果作为该特征项在该类文本中的频度因子。例如，可以通过如下公式确定该特征项在该类文本中的频度因子：

其中，t_i表示第i个特征项，c_j表示第j类文本，α(t_i,c_j)表示特征项t_i在c_j类文本的频度因子，s_j表示c_j类文本的文本数，d_n表示c_j类文本中的第n个文本，tf(t_i,d_n)表示特征项t_i在c_j类文本的单位词频，即特征项t_i在c_j类文本中第n个文本中的词频。

可选的，确定该特征项在每类文本中的影响因子中的类内分布均匀因子可以是，对于每类文本，确定该特征项在该类文本的单位词频；其中，单位词频为该特征项在该类文本中每一文本的词频。

在确定该特征项在该类文本的单位词频后，根据单位词频，确定该特征项在该类文本的平均词频，以及该特征项在该类文本的标准差。具体的，统计该特征项在该类文本中的单位词频，即统计该特征项在该类文本中所有文本的词频，将所有文本的词频除以该类文本的文本数，得到该特征项在该类文本的平均词频；进而，根据该特征项在该类文本中每一文本的词频，与该特征项在该类文本的平均词频，确定该特征项在该类文本的标准差。

在确定该特征项在在该类文本的平均词频，以及该特征项在该类文本的标准差之后，根据平均词频和标准差，确定该特征项在该类文本中的类内分布均匀因子。具体的，将平均词频和标准差的商作为该特征项在该类文本中的类内分布均匀因子。例如，可以通过如下公式确定该特征项在该类文本中的类内分布均匀因子：

其中，β(t_i,c_j)表示特征项t_i在c_j类文本中的类内分布均匀因子，tf_jn(t_i)表示特征项t_i在c_j类文本中第n个文本中的词频，

表示，特征项t_i在c_j类文本的平均词频，σ表示特征项t_i在c_j类文本的标准差，s_j表示c_j类文本的文本数。κ避免出现分母为0的情况且不影响到β(t_i,c_j)的值，以标准差的思想，特征项t_i在某一个具体类内的所有文本中分布越均匀，该特征项t_i的标准差应该越小，则β(t_i,c_j)的值就越大，从而提高在类内分布均匀的特征项的权重。

可选的，确定该特征项在每类文本中的影响因子中的修正因子可以是，对于每类文本，确定该类文本中包含该特征项的文本数。具体的，基于统计学算法，确定该类文本中包含该特征项的文本数。

在确定该类文本中包含该特征项的文本数之后，根据每类文本中包含该特征项的文本数和文本集的总类别数，确定该特征项在每类文本的平均数。具体的，确该文本集中所有类文本中包含该特征项的文本数，并确定文本集的总类别数，将文本集中所有类文本中包含该特征项的文本数，与总类别数作商，将作商后的结果作为该特征项在每类文本的平均数。

在确定特征项在每类文本的平均数之后，根据平均数和每类文本中包含该特征项的文本数，确定特征项在每类文本中的修正因子。具体的，将平均数与每类文本中包含该特征项的文本数相减，将相减后的结果，作为特征项在每类文本中的修正因子。例如，可以通过如下公式确定特征项在每类文本中的修正因子：

其中，γ(t_i,c_j)表示特征项t_i在c_j类文本中的修正因子，N(t_i,c_j)表示在c_j类文本中包含特征项t_i的文本数，m表示文本集的总类别数，

表示该特征项在每类文本的平均数。当平均每个类中含有特征项t_i的文本数N(t_i,c_j)大于c_j类中含有特征项t_i文本数时，通过修正因子γ(t_i,c_j)计算公式将得到负数，因此后续这类负相关的特征项的卡方统计值将以负数形式出现，以使得最终可以通过降序的方式排除这些负相关特征项的影响。

S220、根据该特征项在每类文本中的影响因子和初始卡方统计值，确定该特征项在每类文本中的新卡方统计值。

S230、根据文本集中所有特征项在每类文本中的新卡方统计值，从至少两个特征项中确定文本集的特征集合。

本实施例的技术方案，通过引入频度因子，将词频数影响纳入特征项的卡方统计值的计算，从而解决卡方统计低频词缺陷带来的干扰；通过引入类内分布因子，将特征项均匀度纳入考虑，从而更好的提高特征集筛选的效果；通过引入修正因子，去除负相关特征项带来的影响，从而提高后续模型分类效果，为文本的特征提取提供了一种新思路。

实施例三

图3是本申请实施例三提供的一种特征提取方法的流程图；在上述实施例的基础上，对“根据文本集中所有特征项在每类文本中的新卡方统计值，从至少两个特征项中确定文本集的特征集合”进行优化，提供一种可选实施方案。

如图3所示，该方法具体可以包括：

S310、对于文本集中的每一特征项，确定该特征项在每类文本中的影响因子。

S320、确定该特征项在每类文本中的初始卡方统计值。

本实施例中，对于每类文本，确定第一数量和第二数量；第一数量为文本集中包含该特征项的文本数，第二数量为文本集中不包含该特征项的文本数。进而，从第一数量中确定属于该类文本的第一子数量和不属于该类文本的第二子数量，以及从第二数量中确定属于该类文本的第三子数量和不属于该类文本的第四子数量。

在确定第一子数量、第二子数量、第三子数量、第四子数量和文本集的文本总数之后，根据第一子数量、第二子数量、第三子数量、第四子数量和文本集的文本总数，确定该特征项在该类文本中的初始卡方统计值。具体的，首先计算分别计算第一子数量和第四子数量的和、第一子数量和第三子数量的和，第二子数量和第四子数量的和，第三子数量和第四子数量的和，再把这四个和相加后的结果记为数量总和；然后计算第一子数量与第四子数量的乘积，和第二子数量与第三子数量的乘积，之间的差值的平方；将该平方乘以文本集的文本总数后再除以数量总和，将得到的结果作为该特征项在该类文本中的初始卡方统计值。例如，可以通过如下公式确定该特征项在该类文本中的初始卡方统计值：

其中，χ²(t_i,c_j)表示特征项t_i在c_j类文本中的初始卡方统计值，A表示第一子数量，B表示第二子数量，C表示第三子数量，D表示第四子数量，N表示文本集的文本总数。

S330、根据该特征项在每类文本中的影响因子和初始卡方统计值，确定该特征项在每类文本中的新卡方统计值。

S340、针对文本集中的每一特征项，根据该特征项在每类文本中的新卡方统计值，确定该特征项在文本集中的新卡方统计值。

本实施例中，可以将该特征项在每类文本中的新卡方统计值中最大的新卡方统计值，作为该特征项在文本集中的新卡方统计值。例如，可以通过如下公式确定：

其中，χ² _MAX(t_i)表示特征项t_i在文本集中的新卡方统计值。

S350、根据所有特征项在文本集中的新卡方统计值，从至少两个特征项中确定文本集的特征集合。

本实施例中，可以对所有特征项在文本集中的新卡方统计值进行排序，并根据排序结果，选取设定数量的特征项作为文本集的特征集合。其中，设定数量是本领域技术人员根据实际情况设定的。

本实施例的技术方案，通过该特征项在每类文本中的新卡方统计值中最大的新卡方统计值，作为该特征项在文本集中的新卡方统计值，可以更好的表征该特征项与文本集的关联程度，提高文本集的特征提取，进而为文本集的分类提供了保障。

实施例四

图4是本申请实施例四提供的一种特征提取装置的结构示意图；本实施例可适用于文本特征提取的情况，尤其适用于可疑报告的特征提取的情况。该装置可由软件/硬件实现，并可集成于承载特征提取功能的电子设备中，例如服务器中。

如图4所示，该装置包括影响因子确定模块410、新卡方统计值确定模块420和特征集合确定模块430，其中，

影响因子确定模块410，用于对于文本集中的每一特征项，确定该特征项在每类文本中的影响因子，其中，文本集中至少包括一类文本，且文本集中包括至少两个特征项，影响因子包括频度因子、类内分布均匀因子和修正因子中的至少一项；

新卡方统计值确定模块420，用于根据该特征项在每类文本中的影响因子和初始卡方统计值，确定该特征项在每类文本中的新卡方统计值；

特征集合确定模块430，用于根据文本集中所有特征项在每类文本中的新卡方统计值，从至少两个特征项中确定文本集的特征集合。

进一步地，影响因子确定模块410包括频度因子确定子模块，该频度因子确定子模块包括单位词频确定单元、总词频确定单元和频度因子确定单元，其中，

单位词频确定单元，用于对于每类文本，确定该类文本的文本数，以及该特征项在该类文本的单位词频；其中，单位词频为该特征项在该类文本中每一文本的词频；

总词频确定单元，用于根据单位词频，确定该特征项在该类文本的总词频；

频度因子确定单元，用于根据文本数和总词频，确定该特征项在该类文本中的频度因子。

进一步地，影响因子确定模块410还包括类内分布均匀因子确定子模块，该类内分布均匀因子确定子模块包括单位词频确定单元、平均词频和标准差确定单元、以及类内分布均匀因子确定单元，其中，

单位词频确定单元，用于对于每类文本，确定该特征项在该类文本的单位词频；其中，单位词频为该特征项在该类文本中每一文本的词频；

平均词频和标准差确定单元，用于根据单位词频，确定该特征项在该类文本的平均词频，以及该特征项在该类文本的标准差；

类内分布均匀因子确定单元，用于根据平均词频和标准差，确定该特征项在该类文本中的类内分布均匀因子。

进一步地，影响因子确定模块410还包括修正因子确定子模块，该修正因子确定子模块包括文本数确定单元、平均数确定单元和修正因子确定单元，其中，

文本数确定单元，用于对于每类文本，确定该类文本中包含该特征项的文本数；

平均数确定单元，用于根据每类文本中包含该特征项的文本数和文本集的总类别数，确定该特征项在每类文本的平均数；

修正因子确定单元，用于根据平均数和每类文本中包含该特征项的文本数，确定特征项在每类文本中的修正因子。

进一步地，该装置还包括初始卡方统计值确定模块，该初始卡方统计值确定模块包括数量确定单元、子数量确定单元和初始卡方统计值确定单元，其中，

数量确定单元，用于对于每类文本，确定第一数量和第二数量；第一数量为文本集中包含该特征项的文本数，第二数量为文本集中不包含该特征项的文本数；

子数量确定单元，用于从第一数量中确定属于该类文本的第一子数量和不属于该类文本的第二子数量，以及从第二数量中确定属于该类文本的第三子数量和不属于该类文本的第四子数量；

初始卡方统计值确定单元，用于根据第一子数量、第二子数量、第三子数量、第四子数量和文本集的文本总数，确定该特征项在该类文本中的初始卡方统计值。

进一步地，新卡方统计值确定模块420具体用于：

对于每类文本，将该特征项在该类文本中的影响因子和初始卡方统计值相乘，并将相乘结果作为该特征项在该类文本中的新卡方统计值。

进一步地，特征集合确定模块430包括新卡方统计值确定单元和特征集合确定单元，其中，

新卡方统计值确定单元，用于针对文本集中的每一特征项，根据该特征项在每类文本中的新卡方统计值，确定该特征项在文本集中的新卡方统计值；

特征集合确定单元，用于根据所有特征项在文本集中的新卡方统计值，从至少两个特征项中确定文本集的特征集合。

进一步地，新卡方统计值确定单元具体用于：

将该特征项在每类文本中的新卡方统计值中最大的新卡方统计值，作为该特征项在文本集中的新卡方统计值。

进一步地，特征集合确定单元具体用于：

对所有特征项在文本集中的新卡方统计值进行排序，并根据排序结果，选取设定数量的特征项作为文本集的特征集合。

进一步地，该装置还包括预处理模块，该模块具体用于：

对文本集进行预处理。

上述特征提取装置可执行本申请任意实施例所提供的特征提取方法，具备执行方法相应的功能模块和有益效果。

实施例五

图5是本申请实施例五提供的一种电子设备的结构示意图，图5示出了适于用来实现本申请实施例实施方式的示例性设备的框图。图5显示的设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图5所示，电子设备12以通用计算设备的形式表现。电子设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

电子设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。电子设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图5未显示，通常称为“硬盘驱动器”)。尽管图5中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本申请实施例各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如系统存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请实施例所描述的实施例中的功能和/或方法。

电子设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该电子设备12交互的设备通信，和/或与使得该电子设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，电子设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与电子设备12的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本申请实施例所提供的特征提取方法。

实施例六

本申请实施例六还提供一种计算机可读存储介质，其上存储有计算机程序(或称为计算机可执行指令)，该程序被处理器执行时用于执行本申请实施例所提供的特征提取方法。

本申请实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请实施例操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络包括局域网(LAN)或广域网(WAN)连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解，本申请不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此，虽然通过以上实施例对本申请实施例进行了较为详细的说明，但是本申请实施例不仅仅限于以上实施例，在不脱离本申请构思的情况下，还可以包括更多其他等效实施例，而本申请的范围由所附的权利要求范围决定。

Claims

1.一种特征提取方法，其特征在于，包括：

根据文本集中所有特征项在每类文本中的新卡方统计值，从至少两个特征项中确定所述文本集的特征集合；

其中，所述频度因子通过如下公式确定：

t_i表示第i个特征项，c_j表示第j类文本，α(t_i，c_j)表示特征项t_i在c_j类文本的频度因子，s_j表示c_j类文本的文本数，d_n表示c_j类文本中的第n个文本，tf(t_i，d_n)表示特征项t_i在c_j类文本的单位词频，即特征项t_i在c_j类文本中第n个文本中的词频；

其中，所述类内分布均匀因子通过如下公式确定：

β(t_i，c_j)表示特征项t_i在c_j类文本中的类内分布均匀因子，tf_jn(t_i)表示特征项t_i在c_j类文本中第n个文本中的词频，

表示，特征项t_i在c_j类文本的平均词频，σ表示特征项t_i在c_j类文本的标准差，s_j表示c_j类文本的文本数，κ避免出现分母为0的情况且不影响到β(t_i，c_j)的值；

其中，所述修正因子通过如下公式确定：

其中，γ(t_i，c_j)表示特征项t_i在c_j类文本中的修正因子，N(t_i，c_j)表示在c_j类文本中包含特征项t_i的文本数，m表示文本集的总类别数，

表示该特征项在每类文本的平均数；

其中，所述初始卡方统计值通过如下公式确定：

χ²(t_i，c_j)表示特征项t_i在c_j类文本中的初始卡方统计值，A表示第一子数量，B表示第二子数量，C表示第三子数量，D表示第四子数量，N表示文本集的文本总数；

其中，所述新卡方统计值通过如下公式确定：

New_CHI(t_i，c_j)＝χ²(t_i，c_j)*α*β*γ

New_CHI(t_i，c_j)表示特征项t_i在c_j类文本中的新卡方统计值，χ²(t_i，c_j)表示特征项t_i在c_j类文本中的原始卡方统计值，α表示特征项t_i在c_j类文本中的频度因子，β表示特征项t_i在c_j类文本中的类内分布均匀因子，γ表示特征项t_i在c_j类文本中的修正因子，i表示第i个特征项，j表示第j类文本。

2.根据权利要求1所述的方法，其特征在于，根据文本集中所有特征项在每类文本中的新卡方统计值，从至少两个特征项中确定所述文本集的特征集合，包括：

针对文本集中的每一特征项，根据该特征项在每类文本中的新卡方统计值，确定该特征项在所述文本集中的新卡方统计值；

根据所有特征项在所述文本集中的新卡方统计值，从至少两个特征项中确定所述文本集的特征集合。

3.根据权利要求2所述的方法，其特征在于，根据该特征项在每类文本中的新卡方统计值，确定该特征项在所述文本集中的新卡方统计值，包括：

将该特征项在每类文本中的新卡方统计值中最大的新卡方统计值，作为该特征项在所述文本集中的新卡方统计值。

4.根据权利要求2所述的方法，其特征在于，根据所有特征项在所述文本集中的新卡方统计值，从至少两个特征项中确定所述文本集的特征集合，包括：

对所有特征项在所述文本集中的新卡方统计值进行排序，并根据排序结果，选取设定数量的特征项作为所述文本集的特征集合。

5.根据权利要求1所述的方法，其特征在于，对于文本集中的每一特征项，确定该特征项在每类文本中的影响因子之前，还包括：

对所述文本集进行预处理。

6.一种特征提取装置，其特征在于，包括：

特征集合确定模块，用于根据文本集中所有特征项在每类文本中的新卡方统计值，从至少两个特征项中确定所述文本集的特征集合；

其中，所述频度因子通过如下公式确定：