CN107644104A

CN107644104A - 一种文本特征提取方法及系统

Info

Publication number: CN107644104A
Application number: CN201710962617.5A
Authority: CN
Inventors: 谢永恒; 李强; 火莽; 火一莽; 万月亮
Original assignee: Beijing Ruian Technology Co Ltd
Current assignee: Beijing Ruian Technology Co Ltd
Priority date: 2017-10-17
Filing date: 2017-10-17
Publication date: 2018-01-30
Anticipated expiration: 2037-10-17
Also published as: CN107644104B

Abstract

本发明实施例公开了一种文本特征提取方法及系统，其中，该方法包括：获取待处理文本集中预设数量的特征词汇；根据得到的预设数量的特征词汇，将待处理文本集中的每个文本采用特征向量表示；根据每个文本的特征向量的维度选择母小波函数，对特征向量进行小波分析，得到每个文本的新的特征向量；使用得到的每个文本的新的特征向量表示待处理文本集中的每个文本。本发明降低了文本集中文本特征向量的维度，实现了对文本贡献大的相关信息的细化和扩大，提高了信息挖掘过程中分类与聚类的精确性。

Description

一种文本特征提取方法及系统

技术领域

本发明实施例涉及计算机信息处理技术，尤其涉及一种文本特征提取方法及系统。

背景技术

互联网时代的到来，数据信息与日俱增。在海量的信息中，绝大部分信息是以文本的形式存放，对文本进行有效的处理成为文本挖掘与信息检索的一个基本问题。

传统数据挖掘所处理的数据是结构化的，而文档都是半结构或无结构的,要想从大量的文本中挖掘有用的信息就必须首先将文本转化为可处理的结构化形式，即对文本进行科学的抽象，使得计算机可以识别处理。目前人们通常采用向量空间模型来描述文本向量,但是直接用分词算法和词频统计方法得到的特征项来表示文本向量中的各个维,那么这个向量的维度将非常大。这种维度较大的文本向量不仅给后续工作，例如信息挖掘，带来巨大的计算负担,使整个文本处理过程的效率非常低下,而且会损害信息挖掘过程中分类、聚类的精确性,从而使得到的结果很难令人满意。

发明内容

本发明实施例提供一种文本特征提取方法及系统，以实现降低文本集中文本特征向量的维度，实现对文本贡献大的相关信息的细化和扩大，提高文本处理的效率。

第一方面，本发明实施例提供了一种文本特征提取方法，该方法包括：

获取待处理文本集中预设数量的特征词汇；

根据所述预设数量的特征词汇，将所述文本集中的每个文本采用特征向量表示；

根据所述特征向量的维度选择母小波函数，对所述特征向量进行小波分析，得到所述每个文本的新的特征向量；

使用所述每个文本的新的特征向量表示所述文本集中的每个文本。

进一步地，所述获取待处理文本集中预设数量的特征词汇，包括：

获取所述待处理文本集中的所有词汇；

对所述获取的所有词汇进行权重计算；

按照所述权重由大到小的顺序，依次选取预设数量的词汇作为所述特征词汇。

进一步地，所述对所述获取的所有词汇进行权重计算，包括：

根据各词汇在所述待处理文本集中的出现频次和出现的文本数量，确定各词汇的权重。

进一步地，所述根据所述特征向量的维度选择母小波函数，对所述特征向量进行小波分析，得到所述每个文本的新的特征向量，包括：

根据所述每个文本的特征向量的维度选择母小波函数；

将所述母小波函数与所述特征向量进行匹配计算，得到一系列小波系数；其中，所述匹配计算包括对所述母小波函数进行拉伸计算和平移计算；

将所述一系列小波系数组成的小波系数矩阵作为所述每个文本的新的特征向量矩阵。

进一步地，所述将所述母小波函数与所述特征向量进行匹配计算，得到一系列小波系数，包括：

使用如下公式进行计算，得到所述一系列小波系数W_f(a,b)，

其中，f(x)表示所述待处理文件集中每个文本的特征向量组成的离散函数，x＝kΔt，k的值为正整数1至D中任意值，Δt表示所述待处理文本集中特征词汇间选词时间间隔，离散型参数a表示拉伸尺度，离散型参数b表示平移尺度。

第二方面，本发明实施例还提供了一种文本特征提取系统，该系统包括：

获取模块，用于获取待处理文本集中预设数量的特征词汇；

第一表示模块，用于根据所述预设数量的特征词汇，将所述文本集中的每个文本采用特征向量表示；

分析模块，用于根据所述特征向量的维度选择母小波函数，对所述特征向量进行小波分析，得到所述每个文本的新的特征向量；

第二表示模块，用于使用所述每个文本的新的特征向量表示所述文本集中的每个文本。

进一步地，所述获取模块包括：

词汇获取单元，用于获取所述待处理文本集中的所有词汇；

权重计算单元，用于对所述获取的所有词汇进行权重计算；

词汇选取单元，用于按照所述权重由大到小的顺序，依次选取预设数量的词汇作为所述特征词汇。

进一步地，所述权重计算单元具体用于根据各词汇在所述待处理文本集中的出现频次和出现的文本数量，确定各词汇的权重。

进一步地，所述分析模块包括：

选择单元，用于根据所述每个文本的特征向量的维度选择母小波函数；

匹配单元，用于将所述母小波函数与所述特征向量进行匹配计算，得到一系列小波系数；其中，所述匹配计算包括对所述母小波函数进行拉伸计算和平移计算；

重置单元，用于将所述一系列小波系数组成的小波系数矩阵作为所述每个文本的新的特征向量矩阵。

使用如下公式进行计算，得到所述一系列小波系数W_f(a,b)，

本发明本实施例通过选取出待处理文本集中预设数量的特征词汇，逐一将文本集中的文本进行特征向量表示，然后通过小波分析进行扩展得到每个文本的新的特征向量，解决了现有技术中直接采用文本中所有词汇表示文本的特征向量而导致特征向量的维度非常大、文本处理计算量大、文本处理效率低以及信息挖掘中分类与聚类的准确性低的问题，降低了文本集中文本特征向量的维度，实现了对文本贡献大的相关信息的细化和扩大，保证了文本特征提取时数据信息的全面性，提高了文本处理效率，提高了信息挖掘中分类与聚类的准确性。

附图说明

图1是本发明实施例一中所提供的一种文本特征提取方法的流程图；

图2是本发明实施例二中的所提供的一种文本特征提取系统的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1是本发明实施例一中所提供的一种文本特征提取方法的流程图，本实施例可适用于提取文本特征的情况，该方法可以由文本特征提取系统来执行，该系统可以采用软件和/或硬件的方式实现。如图1所示，该方法具体包括如下步骤：

步骤S110、获取待处理文本集中预设数量的特征词汇。

利用计算机处理大量的文本信息过程中，一般需要将文本转化为可处理的结构化形式，例如，通常采用向量空间模型来描述文本向量,但是直接利用文本中所有的词汇来表示文本向量,得到的文本向量的维度将非常大，这将会给后续的文本处理和信息挖掘造成巨大的计算负担，使得整个文本集处理过程的效率非常低，所以非常有必要在保持文本信息不变的情况下，对文本向量做进一步净化升级处理，删除对文本信息贡献值较小的特征项，保留对文本信息贡献较大的特征项。本步骤中获取待处理文本集中预设数量的特征词汇就是为了对代表文本信息的文本特征向量进行简化处理，然后在此基础上利用小波分析进行文本信息的细化和扩展。

可选地，获取待处理文本集中预设数量的特征词汇所用到的方法包括但不限于词频统计方法或信息增益方法，然后根据词汇的权重排序选取预设数量的特征词汇，其中，词汇权重值越大表示对文本集的贡献值越大。

可选地，该步骤S110获取待处理文本集中预设数量的特征词汇，具体包括：获取待处理文本集中的所有词汇；对获取的所有词汇进行权重计算；按照权重由大到小的顺序，依次选取预设数量的词汇作为文本集的特征词汇。

进一步地，根据各词汇在待处理文本集中的出现频次和出现的文本数量，确定各词汇的权重。示例性地，可以利用词频统计方法选取文本集中预设数量的特征词汇。在实际的文本处理中，待处理的文本集中包括大量的词汇，在此以随机选取文本集中三个词语“金融”，“信贷”，“好的”为例说明权重的计算过程。假设待处理文本集中包括100篇文本，其中：词语“金融”在文本集中出现的频次总数为34，且出现在了21篇文本中，其对应权重值为34/21＝1.62；词语“信贷”在文本集中出现的频次总数为60，且出现在了15篇文本中，其对应权重值为60/15＝4.00；词语“好的”在文本集中出现的频次总数为120，且出现在了85篇文本中，其对应权重值为120/85＝1.41。按照得到的权重值进行排序，三个词语的排序结果为“信贷”、“金融”、“好的”，这意味“信贷”对文本集的贡献值最大，“好的”对文本集的贡献值最小。

按照上述计算方法对待处理的文本集中的所有词汇进行权重计算并排序,依次选取预设数量的词汇作为文本集的特征词汇，其中的预设数量可以是用户按照权重排序结果进行的预先设定，例如，文本集中共有1000个词汇，用户可以根据自己的文本处理需求选择排名前350个词汇作为文本集的特征词汇。

步骤S120、根据得到的预设数量的特征词汇，将待处理文本集中的每个文本采用特征向量表示。

其中，每个文本的特征向量的维度是由特征词汇的预设数量决定的，示例性的，选取的特征词汇有350个，则每篇文本对应一个350维的特征向量。特征向量的每一个维度的具体数值是由对应的特征词汇在文本中出现的次数决定。统计前述步骤S110得到的特征词汇中的每个特征词汇在文本集中每篇文本中出现的次数，逐一将文本进行特征向量表示。

上述技术方案中通过根据词汇出现频次和词汇出现在文本集中文本数量对词汇进行权重计算，得到词汇对文本集的贡献大小，并根据此贡献值进行排序，选取排序靠前的预设数量的特征词汇来表示文本的特征向量，相比于现有技术中直接采用分词算法和词频统计方法得到文本的所有词汇来表示文本特征向量，减少了选取的特征词汇数量，降低了文本特征向量的维度。

步骤S130、根据每个文本的特征向量的维度选择母小波函数，对特征向量进行小波分析，得到每个文本的新的特征向量。

步骤S120中利用预设数量的特征词汇对文本集中每个文本进行特征向量表示，隐藏在特征向量内的文本信息可以通过小波分析进行展现。在此根据每个文本的特征向量的维度选择适当的母小波函数之后，利用小波分析将现有的文本特征向量进行扩展，得到每个文本的新的特征向量，实现文本特征信息的细化。示例性地，特征向量中各元素之间的关联性可在小波系数矩阵中得到相应的体现，进而可分析出特征词汇在每个文本中的关系，例如词汇的上下文位置关系等。其中，可选择的母小波函数包括但不限于：哈尔(Haar)小波、多贝西(Daubechies)小波、莫雷(Morlet)小波、迈耶(Meyer)小波或墨西哥草帽(Mexican Hat)小波等。根据选择的母小波函数的不同，小波变换分析的结果也不尽相同，因此，具体选择的母小波函数形式，可以根据用户的文本处理需求进行确定。

示例性地，可以选取Morlet复小波为母小波函数。考虑到文本集中所有文本的特征向量维度一致，特征向量无断点，并且特征向量随时间尺度变化，可以采用Morlet小波变换来进行向量分析。相比于选择实小波变换分析只可以表示出特征向量随时间序列变化的振幅，选择复小波变换分析不仅可以表示出特征向量随时间序列变化的振幅，还可以表示出特征向量相位的信息，从而使得提取文本特征时，数据信息更加全面。此外，Morlet复小波函数的实部和虚部位相差为π/2，能够消除使用实小波变换得到的小波系数作为文本特征提取的判断依据而产生的虚假振荡，使文本分析结果更为准确。

步骤S140、使用得到的每个文本的新的特征向量表示待处理文本集中的每个文本。

利用小波分析依次得到待处理文本集中每个文本对应的新的特征向量，便可利用此新的特征向量表示对应的文本，从而实现利用有限的特征词汇对文本进行特征扩展与细化，保证了文本特征提取时数据信息的全面性，提高了信息挖掘中分类与聚类的准确性。

在上述实施例的基础上，可选地，该步骤S130具体包括：根据每个文本的特征向量的维度选择母小波函数；将母小波函数与每个文本的特征向量进行匹配计算，得到一系列小波系数；其中，匹配计算包括对母小波函数进行拉伸计算和平移计算；将得到的一系列小波系数组成的小波系数矩阵作为每个文本的新的特征向量矩阵。

进一步地，将母小波函数与每个文本的特征向量进行匹配计算，得到一系列小波系数，包括：使用如下公式进行计算，得到一系列小波系数W_f(a,b)，

其中，f(x)表示待处理文件集中每个文本的特征向量组成的离散函数，x＝kΔt，k的值为正整数1至D中任意值，D的值根据文本集中特征词汇的预设数量决定，Δt表示待处理文本集中特征词汇间选词时间间隔，离散型参数a表示拉伸尺度，离散型参数b表示平移尺度。函数是母小波函数ψ的复共轭函数。

示例性地，选择待处理文本集中权重排序前350个词汇作为文本集的特征词汇，每篇文本对应一个350维的特征向量，此特征向量可以是列向量。对应于每个特征向量的离散函数f(x)，x＝kΔt，k的取值为1-350中任意整数。平移尺度b的范围为1-350，按照此平移尺度将母小波函数与函数f(x)进行平移匹配计算，每一次平移计算得到一组新的小波系数，最终得到350组小波系数。拉伸尺度a的取值范围为1-2^N，其中N的值为用户确定的任意整数，例如，N取值为5，拉伸尺度范围即为1-32，继续按照上述公式将母小波函数与函数f(x)进行拉伸匹配计算,每一次拉伸计算得到一组新的小波系数，最终将得到32组小波系数。因此，通过平移和拉伸计算可以得到一个包含350×32组小波系数的小波系数矩阵，将此小波系数矩阵作为文本扩展后的新的特征向量矩阵。

本实施例中，通过对母小波函数进行平移与拉伸计算得到每个文本的新的特征向量矩阵，实现了利用有限的特征词汇对文本信息进行的特征扩展与细化，保证了文本特征提取时数据信息的全面性。

其中，示例性地，对文本特征的扩展与细化可以理解如下，假设选取的特征词汇为W1，W2，W3，W4，W5，对应的文本特征向量为5维，具体的文本A的特征向量为(1，4，6，0，13)，向量中的每一维表示特征词汇在文本中出现的频次，并且向量维度之间两两独立，运用小波分析，当平移尺度b为2时，就可以分析出词汇W1与W2、W2与W3、W3与W4和W4与W5之间的两两关系，具体关系值为小波分析的结果；当平移尺度b为3时，就能分析出W1、W2与W3，W2、W3与W4，W3、W4与W5之间的关系，当平移尺度b取其他值时，分析结果依次类推。

本实施例的技术方案通过对待处理文本集中的所有词汇进行权重排序，选取出预设数量的特征词汇，逐一将文本集中的文本进行特征向量表示，然后通过小波分析进行扩展得到每个文本的新的特征向量，解决了现有技术中直接采用文本中所有词汇表示文本的特征向量而导致特征向量的维度非常大、文本处理计算量大、文本处理效率低以及信息挖掘中分类与聚类的准确性低的问题，降低了文本集中文本特征向量的维度，实现了对文本贡献大的相关信息的细化和扩大，保证了文本特征提取时数据信息的全面性，提高了文本处理效率，提高了信息挖掘中分类与聚类的准确性。

实施例二

图2是本发明实施例二中所提供的一种文本特征提取系统的结构示意图，本实施例可适用于提取文本特征的情况。本实施例所提供的系统可执行本发明任意实施例所提供的文本特征提取的方法，具备执行方法相应的功能模块和有益效果。

如图2所示，本实施例提供的文本特征提取系统包括获取模块210、第一表示模块220、分析模块230和第二表示模块240。其中：

获取模块210，用于获取待处理文本集中预设数量的特征词汇。获取待处理文本集中预设数量的特征词汇所用到的方法包括但不限于词频统计方法或信息增益方法。

可选地，获取模块210包括：

词汇获取单元，用于获取待处理文本集中的所有词汇；

权重计算单元，用于对获取的所有词汇进行权重计算；

词汇选取单元，用于按照权重由大到小的顺序，依次选取预设数量的词汇作为特征词汇。

进一步地，获取模块210中的权重计算单元具体用于根据各词汇在待处理文本集中的出现频次和出现的文本数量，确定各词汇的权重。

第一表示模块220，用于根据得到的预设数量的特征词汇，将待处理文本集中的每个文本采用特征向量表示。

分析模块230，用于根据每个文本的特征向量的维度选择母小波函数，对特征向量进行小波分析，得到每个文本的新的特征向量。

可选地，分析模块230包括：

选择单元，用于根据每个文本的特征向量的维度选择母小波函数；

匹配单元，用于将母小波函数与每个文本的特征向量进行匹配计算，得到一系列小波系数；其中，匹配计算包括对母小波函数进行拉伸计算和平移计算；

重置单元，用于将得到的一系列小波系数组成的小波系数矩阵作为每个文本的新的特征向量矩阵。

进一步地，匹配单元中将母小波函数与每个文本的特征向量进行匹配计算，得到一系列小波系数，包括：使用如下公式进行计算，得到一系列小波系数W_f(a,b)，

其中，f(x)表示待处理文件集中每个文本的特征向量组成的离散函数，x＝kΔt，k的值为正整数1至D中任意值，Δt表示待处理文本集中特征词汇间选词时间间隔，离散型参数a表示拉伸尺度，离散型参数b表示平移尺度。

第二表示模块240，用于使用得到的每个文本的新的特征向量表示待处理文本集中的每个文本。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种文本特征提取方法，其特征在于，包括：

获取待处理文本集中预设数量的特征词汇；

2.根据权利要求1所述的方法，其特征在于，所述获取待处理文本集中预设数量的特征词汇，包括：

获取所述待处理文本集中的所有词汇；

对所述获取的所有词汇进行权重计算；

3.根据权利要求2所述的方法，其特征在于，所述对所述获取的所有词汇进行权重计算，包括：

4.根据权利要求1～3任一项所述的方法，其特征在于，所述根据所述特征向量的维度选择母小波函数，对所述特征向量进行小波分析，得到所述每个文本的新的特征向量，包括：

根据所述每个文本的特征向量的维度选择母小波函数；

5.根据权利要求4所述的方法，其特征在于，所述将所述母小波函数与所述特征向量进行匹配计算，得到一系列小波系数，包括：

使用如下公式进行计算，得到所述一系列小波系数W_f(a,b)，

<mrow> <msub> <mi>W</mi> <mi>f</mi> </msub> <mrow> <mo>(</mo> <mi>a</mi> <mo>,</mo> <mi>b</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>|</mo> <mi>a</mi> <msup> <mo>|</mo> <mrow> <mo>-</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> </mrow> </msup> <msubsup> <mi>&Delta;t&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>D</mi> </msubsup> <mi>f</mi> <mrow> <mo>(</mo> <mi>k</mi> <mi>&Delta;</mi> <mi>t</mi> <mo>)</mo> </mrow> <mover> <mi>&psi;</mi> <mo>&OverBar;</mo> </mover> <mrow> <mo>(</mo> <mfrac> <mrow> <mi>k</mi> <mi>&Delta;</mi> <mi>t</mi> <mo>-</mo> <mi>b</mi> </mrow> <mi>a</mi> </mfrac> <mo>)</mo> </mrow> <mo>,</mo> </mrow>

6.一种文本特征提取系统，其特征在于，包括：

获取模块，用于获取待处理文本集中预设数量的特征词汇；

7.根据权利要求6所述的系统，其特征在于，所述获取模块包括：

词汇获取单元，用于获取所述待处理文本集中的所有词汇；

权重计算单元，用于对所述获取的所有词汇进行权重计算；

8.根据权利要求7所述的系统，其特征在于，所述权重计算单元具体用于根据各词汇在所述待处理文本集中的出现频次和出现的文本数量，确定各词汇的权重。

9.根据权利要求6～8任一项所述的系统，其特征在于，所述分析模块包括：

10.根据权利要求9所述的系统，其特征在于，所述将所述母小波函数与所述特征向量进行匹配计算，得到一系列小波系数，包括：

使用如下公式进行计算，得到所述一系列小波系数W_f(a,b)，