CN106611042A

CN106611042A - 一种新的文本特征词汇提取方法

Info

Publication number: CN106611042A
Application number: CN201610864551.1A
Authority: CN
Inventors: 金平艳
Original assignee: Sichuan Yonglian Information Technology Co Ltd
Current assignee: Sichuan Yonglian Information Technology Co Ltd
Priority date: 2016-09-29
Filing date: 2016-09-29
Publication date: 2017-05-03

Abstract

一种新的文本特征词汇提取方法，利用分词技术对文本分词处理，匹配停用词表对词汇进行去停用词操作，根据调研统计，得出一系列词汇位置和词性权重值，综合上述两因子，根据词汇在文本中信息量，提取第一位与值更大的前m‑1位，即得此文本的特征词汇向量。本发明比传统文本特征词汇提取方法准确度更高，具有更好的应用价值，在没有文本集合或没有事先分好类别，仅仅给出一个文本条件下，可以提取这个文本的特征，计算了不同词汇对文本思想的贡献度，为后续文本相似度与文本聚类提供良好的理论基础。

Description

一种新的文本特征词汇提取方法

技术领域

本发明涉及语义网络技术领域，具体涉及一种新的文本特征词汇提取方法。

背景技术

文本特征指的是最能代表文本主旨的词汇集合，文本特征不仅可以很好的概括文本主要内容和主旨，而且可以降低文本处理的复杂程度。前常用的文本特征提取方法，包括词频-反文档频率方法、信息增益等方法。词频-反文档频率方法的简单结构并不能有效地反映词汇或短语的重要程度和特征值的分布情况，所以TF-IDF的精度并不是很高。信息增益方法只适合用来提取一个类别的文本特征，而无法用于提取多个类别的文本特征。上述两种文本特征提取方法没有文本集合或没有事先分好类别，仅仅给出一个文本，那么将无法提取这个文本的特征，这两种方法的优点在于计算速度快，但是计算结果的精度不高。为了满足上述需求，本发明提供一种新的文本特征词汇提取方法。

发明内容

针对于常用的文本特征提取方法都需要大量的训练集作为提取的前提，仅仅给出一个文本，那么将无法提取这个文本特征以及常用的文本特征提取方法精度不高的不足，本发明提供了一种新的文本特征词汇提取方法。

为了解决上述问题，本发明是通过以下技术方案实现的：

步骤1：利用中文分词技术对文本进行分词处理；

步骤2：根据停用表对文本词汇进行去停用词处理；

步骤3：根据词汇在文本中的位置得到一系列词汇位置权重值(α₁，α₂，…，α_n)；

步骤4：根据词汇在文本中的词性得到一系列词汇词性权重值β₁、β₂、β₃、β₄；

步骤5：综合上述位置与词性，根据词汇在文本中信息量，得到词汇的权重贡献公式RE(c_i，c(w₁))，提取第一位c(w₁)与RE(c_i，c(w₁))值更大的前m-1位，即得此文本的特征词汇向量。

本发明有益效果是：

1、此方法比传统的词频-反文档频率方法得到的特征词汇集合的准确度更高。

2、此方法克服了信息增益方法只适合用来提取一个类别的文本特征的缺点。

3、此方法在文本特征提取方法没有文本集合或没有事先分好类别，仅仅给出一个文本条件下，可以提取这个文本的特征。

4、为后续的文本相似度与文本聚类技术提供良好的理论基础。

5、此算法具有更大的利用价值。

6、此方法计算了特征词汇中不同词汇对文本思想的贡献度。

附图说明

图1 一种新的文本特征词汇提取方法的结构流程图

图2 n元语法分词算法图解

图3 中文文本预处理过程流程图

具体实施方式

为了解决常用的文本特征提取方法都需要大量的训练集作为提取的前提，仅仅给出一个文本，那么将无法提取这个文本特征以及常用的文本特征提取方法精度不高的问题，结合图1-图3对本发明进行了详细说明，其具体实施步骤如下：

步骤1：利用中文分词技术对文本进行分词处理，其具体分词技术过程如下：

步骤1.1：根据《分词词典》找到待分词句子中与词典中匹配的词，把待分词的汉字串完整的扫描一遍，在系统的词典里进行查找匹配，遇到字典里有的词就标识出来；如果词典中不存在相关匹配，就简单地分割出单字作为词；直到汉字串为空。

步骤1.2：依据概率统计学，将待分词句子拆分为网状结构，即得n个可能组合的句子结构，把此结构每条顺序节点依次规定为SM₁M₂M₃M₄M₅E，其结构图如图2所示。

步骤1.3：基于信息论方法，给上述网状结构每条边赋予一定的权值，其具体计算过程如下：

根据《分词词典》匹配出的字典词与未匹配的单个词，第i条路径包含词的个数为n_i。即n条路径词的个数集合为(n₁，n₂，…，n_n)。

得min()＝min(n₁，n₂，…，n_n)

在上述留下的剩下的(n-m)路径中，求解每条相邻路径的权重大小。

在统计语料库中，计算每个词的信息量X(C_i)，再求解路径相邻词的共现信息量X(C_i，C_i+1)。既有下式：

X(C_i)＝|x(C_i)₁-x(C_i)₂|

上式x(C_i)₁为文本语料库中词C_i的信息量，x(C_i)₂为含词C_i的文本信息量。

x(C_i)₁＝-p(C_i)₁lnp(C_i)₁

上式p(C_i)₁为C_i在文本语料库中的概率，n为含词C_i的文本语料库的个数。

x(C_i)₂＝-p(C_i)₂lnp(C_i)₂

上式p(C_i)₂为含词C_i的文本数概率值，N为统计语料库中文本总数。

同理X(C_i，C_i+1)＝|x(C_i，C_i+1)₁-x(C_i，C_i+1)₂|

x(C_i，C_i+1)₁为在文本语料库中词(C_i，C_i+1)的共现信息量，x(C_i，C_i+1)₂为相邻词(C_i，C_i+1)共现的文本信息量。

同理x(C_i，C_i+1)₁＝-p(C_i，C_i+1)₁lnp(C_i，C_i+1)₁

上式p(C_i，C_i+1)₁为在文本语料库中词(C_i，C_i+1)的共现概率，m为在文本库中词(C_i，C_i+1)共现的文本数量。

x(C_i，C_i+1)₂＝-p(C_i，C_i+1)₂lnp(C_i，C_i+1)₂

p(C_i，C_i+1)₂为文本库中相邻词(C_i，C_i+1)共现的文本数概率。

综上可得每条相邻路径的权值为

w(C_i，C_i+1)＝X(C_i)+X(C_i+1)-2X(C_i，C_i+1)

步骤1.4：找到权值最大的一条路径，即为待分词句子的分词结果，其具体计算过程如下：

有n条路径，每条路径长度不一样，假设路径长度集合为(L₁，L₂，…，L_n)。

假设经过取路径中词的数量最少操作，排除了m条路径，m＜n。即剩下(n-m)路径，设其路径长度集合为

则每条路径权重为：

上式分别为第1,2到路径边的权重值，根据步骤1.4可以一一计算得出，为剩下(n-m)路径中第S_j条路径的长度。

权值最大的一条路径:

步骤2：根据停用表对文本词汇进行去停用词处理，其具体描述如下：

停用词是指在文本中出现频率高，但对于文本标识却没有太大作用的单词。去停用词的过程就是将特征项与停用词表中的词进行比较，如果匹配就将该特征项删除。

综合分词和删除停用词技术,中文文本预处理过程流程图如图3。

步骤3：根据词汇在文本中的位置得到一系列词汇位置权重值(α₁，α₂，…，α_n)，其具体描述如下：

各个词在文本中的分布是不同的，而不同位置的词对于表示文本内容的能力也是不同的。这个可以根据统计调查得出一系列的位置权重值(α₁，α₂，…，α_n)。

步骤4：根据词汇在文本中的词性得到一系列词汇词性权重值β₁、β₂、β₃、β₄，其具体描述如下：

现代汉语语法中，一个句子主要由主语、谓语、宾语、定语和状语等成分构成。从词性的角度看，名词一般担当主语和宾语的角色，动词一般担当谓语的角色，形容词和副词一般担当定语的角色。词性的不同，造成了它们对文本或者句子的表示内容的能力的不一样。根据调查统计得出名词、动词、形容词、副词的权重值依次为β₁、β₂、β₃和β₄，且β₁＞β₂＞β₃＞β₄。

步骤5：综合上述位置与词性，根据词汇在文本中信息量，得到词汇的权重贡献公式RE(c_i，c(w₁))，提取第一位c(w₁)与RE(c_i，c(w₁))值更大的前m-1位，即得此文本的特征词汇向量，其具体计算过程如下：

利用下列公式，先提取文中信息量最大的词汇作为文本的核心词汇；

上式N_总为文本词汇集合总的个数，n_i为第i个词汇在文本出现的次数，α_i为位置权重值i∈(1，2，…，n)，β_j为词性权重值，j∈(1，2，3，4)。

再根据w₁对应的词汇作为参考词汇c(w₁)，计算其他词汇与它的相关度，公式如下：

n(c_i，c(w₁))为词汇c_i与核心词汇c(w₁)在文本中同一句话中出现的次数，n(c_i)为词汇n(c_i)在文本中出现的次数，n(c(w₁))为核心词汇c(w₁)在文本中出现的次数。为词汇c_i与c(w₁)的平均权重值，w(c_i)为词汇c_i在文本中的权重值。

上式

提取前m位作为文本的特征词汇，即参考词汇c(w₁)与RE(c_i，c(w₁))值更大的前m-1位所对应的词汇c_i集合。

一种新的文本特征词汇提取方法，其伪代码计算过程如下：

输入：一个文本

输出：提取m个文本特征词汇。

Claims

1.一种新的文本特征词汇提取方法，本发明涉及语义网络技术领域，具体涉及一种新的文本特征词汇提取方法，其特征是，包括如下步骤：

步骤1.1：根据《分词词典》找到待分词句子中与词典中匹配的词，把待分词的汉字串完整的扫描一遍，在系统的词典里进行查找匹配，遇到字典里有的词就标识出来；如果词典中不存在相关匹配，就简单地分割出单字作为词；直到汉字串为空

步骤1.2：依据概率统计学，将待分词句子拆分为网状结构，即得n个可能组合的句子结构，把此结构每条顺序节点依次规定为，其结构图如图2所示

根据《分词词典》匹配出的字典词与未匹配的单个词，第i条路径包含词的个数为，即n条路径词的个数集合为

得

在上述留下的剩下的(n-m)路径中，求解每条相邻路径的权重大小

在统计语料库中，计算每个词的信息量，再求解路径相邻词的共现信息量，既有下式：

上式为文本语料库中词的信息量，为含词的文本信息量

上式为在文本语料库中的概率，n为含词的文本语料库的个数

上式为含词的文本数概率值，N为统计语料库中文本总数

同理

为在文本语料库中词的共现信息量，为相邻词共现的文本信息量

同理

上式为在文本语料库中词的共现概率，m为在文本库中词共现的文本数量

为文本库中相邻词共现的文本数概率

综上可得每条相邻路径的权值为

有n条路径，每条路径长度不一样，假设路径长度集合为

假设经过取路径中词的数量最少操作，排除了m条路径，m<n，即剩下(n-m)路径，设其路径长度集合为

则每条路径权重为:

上式分别为第1,2到路径边的权重值，根据步骤1.4可以一一计算得出，为剩下(n-m)路径中第条路径的长度

权值最大的一条路径:

停用词是指在文本中出现频率高，但对于文本标识却没有太大作用的单词，去停用词的过程就是将特征项与停用词表中的词进行比较，如果匹配就将该特

征项删除

综合分词和删除停用词技术,中文文本预处理过程流程图如图3

步骤3：根据词汇在文本中的位置得到一系列词汇位置权重值；

步骤4：根据词汇在文本中的词性得到一系列词汇词性权重值、、、；

步骤5：综合上述位置与词性，根据词汇在文本中信息量，得到词汇的权重贡献公式，提取第一位与值更大的前m-1位，即得此文本的特征词汇向量。

2.根据权利要求1中所述的一种新的文本特征词汇提取方法，其特征是，以上所述步骤3中的具体描述如下：

步骤3：根据词汇在文本中的位置得到一系列词汇位置权重值，其具体描述如下：

各个词在文本中的分布是不同的，而不同位置的词对于表示文本内容的能力也是不同的，这个可以根据统计调查得出一系列的位置权重值。

3.根据权利要求1中所述的一种新的文本特征词汇提取方法，其特征是，以上所述步骤4中的具体描述如下：

步骤4：根据词汇在文本中的词性得到一系列词汇词性权重值、、、，其具体描述如下：

现代汉语语法中，一个句子主要由主语、谓语、宾语、定语和状语等成分构成，从词性的角度看，名词一般担当主语和宾语的角色，动词一般担当谓语的角色，形容词和副词一般担当定语的角色，词性的不同，造成了它们对文本或者句子的表示内容的能力的不一样，根据调查统计得出名词、动词、形容词、副词的权重值依次为、、和，且。

4.根据权利要求1中所述的一种新的文本特征词汇提取方法，其特征是，以上所述步骤5中的具体描述如下：

步骤5：综合上述位置与词性，根据词汇在文本中信息量，得到词汇的权重贡献公式，提取第一位与值更大的前m-1位，即得此文本的特征词汇向量，其具体计算过程如下：

上式为文本词汇集合总的个数，为第i个词汇在文本出现的次数，为位置权重值，为词性权重值，

再根据对应的词汇作为参考词汇，计算其他词汇与它的相关度，公式如下：

为词汇与核心词汇在文本中同一句话中出现的次数，为词汇在文本中出现的次数，为核心词汇在文本中出现的次数，为词汇与的平均权重值，为词汇在文本中的权重值

上式

提取前m位作为文本的特征词汇，即参考词汇与值更大的前m-1位所对应的词汇集合。