CN106610949A

CN106610949A - 一种基于语义分析的文本特征提取方法

Info

Publication number: CN106610949A
Application number: CN201610863997.2A
Authority: CN
Inventors: 金平艳
Original assignee: Sichuan Yonglian Information Technology Co Ltd
Current assignee: Sichuan Yonglian Information Technology Co Ltd
Priority date: 2016-09-29
Filing date: 2016-09-29
Publication date: 2017-05-03

Abstract

一种基于语义分析的文本特征提取方法，初始化文本语料库，对文本分词和去停用词处理，文本词汇集合依据语义相关度出现了聚合现象，构建词汇语义网络模型图，根据词汇在词汇语义网络模型中的重要度得词汇在整个文本中的地位和贡献度，设定一个合适的重要度阈值，提取文本的特征词汇向量。本发明比传统词频‑反文档频率方法的准确度更高，克服了信息增益方法只适合提取一个类别的文本特征的不足，具有更好的应用价值，可以精确计算不同词汇对文本思想的贡献度，同时为后续的文本聚类提供良好的理论基础。

Description

一种基于语义分析的文本特征提取方法

技术领域

本发明涉及语义网络技术领域，具体涉及一种基于语义分析的文本特征提取方法。

背景技术

目前常用的文本特征提取方法，包括词频-反文档频率方法—TF-IDF、信息增益方法、互信息等方法；TF-IDF的简单结构并不能有效地反映词汇或短语的重要程度和特征值的分布情况，所以TF-IDF的精度并不是很高。信息增益方法只适合用来提取一个类别的文本特征，而无法用于提取多个类别的文本特征。互信息方法考虑了类别出现概率与集合出现概率之比，那么会造成一个缺陷，那就是类别集合中文本的数量差异会很大程度上影响文本特征提取的准确性。文本特征指的是最能代表文本主旨的词汇集合，文本特征不仅可以很好的概括文本主要内容和主旨，而且可以降低文本处理的复杂程度。然而目前常用的文本特征提取方法没有考虑特征词汇的语义地位和其对文本主旨表达所做的贡献。为了满足上述需求，本发明提供了一种基于语义分析的文本特征提取方法。

发明内容

针对于常用的文本特征提取方法没有考虑特征词汇的语义地位和其对文本主旨表达所做贡献的不足，本发明提供了一种基于语义分析的文本特征提取方法。

为了解决上述问题，本发明是通过以下技术方案实现的：

步骤1：初始化文本语料库模块，对文本W的进行预处理。

步骤2：得到的文本词汇集合依据其语义相关度R(c₁，c₂)会出现聚合现象，构建词汇语义网络模型图。

步骤3：根据图中词汇在整个语义网络图中的重要度weight(c_i)，即可得词汇在整个文本中的地位和贡献度。

步骤4：根据重要度满足的条件提取文本中的特征词汇，即为代表文本主旨的特征词汇向量。

本发明有益效果是：

1、此方法比传统的词频-反文档频率方法得到的特征词汇集合的准确度更高。

2、克服了信息增益方法只适合用来提取一个类别的文本特征的不足。

3、此算法具有更大的利用价值。

4、此方法精确地计算了特征词汇中不同词汇对文本思想的贡献度。

5、计算特征词汇中不同词汇对文本思想的贡献度具有更高的精确度。

6、为后续的文本相似度与文本聚类技术提供良好的理论基础。

7、此方法着重在语义分析的角度来提取文本中的特征词汇，更符合人们的经验值。

附图说明

图1一种基于语义分析的文本特征提取方法的结构流程图

图2中文文本预处理过程流程图

图3 n元语法分词算法图解

图4词汇语义网络模型图

具体实施方式

为了解决常用的文本特征提取方法没有考虑特征词汇的语义地位和其对文本主旨表达所做贡献的问题，结合图1-图4对本发明进行了详细说明，其具体实施步骤如下：

步骤1：初始化文本语料库模块，对文本W的进行预处理，其具体描述过程如下：

综合分词和删除停用词技术，中文文本预处理过程流程图如图2。

这里分词方法利用一种基于信息论中文自动分词算法，其具体分词和去停用词步骤如下：

步骤1.1：利用停用表对文本进行去停用词处理。

步骤1.2：根据《分词词典》找到待分词句子中与词典中匹配的词，其具体描述如下：

把待分词的汉字串完整的扫描一遍，在系统的词典里进行查找匹配，遇到字典里有的词就标识出来；如果词典中不存在相关匹配，就简单地分割出单字作为词；直到汉字串为空。

步骤1.3：依据概率统计学，将待分词句子拆分为网状结构，即得n个可能组合的句子结构，把此结构每条顺序节点依次规定为SM₁M₂M₃M₄M₅E，其结构图如图3所示。

步骤1.4：基于信息论方法，给上述网状结构每条边赋予一定的权值，其具体计算过程如下：

根据《分词词典》匹配出的字典词与未匹配的单个词，第i条路径包含词的个数为n_i。即n条路径词的个数集合为(n₁，n₂，…，n_n)。

得min()＝min(n₁，n₂，…，n_n)

在上述留下的剩下的(n-m)路径中，求解每条相邻路径的权重大小。

在统计语料库中，计算每个词的信息量X(C_i)，再求解路径相邻词的共现信息量X(C_i，C_i+1)。既有下式：

X(C_i)＝|x(C_i)₁-x(C_i)₂|

上式x(C_i)₁为文本语料库中词C_i的信息量，x(C_i)₂为含词C_i的文本信息量。

x(C_i)₁＝-p(C_i)₁lnp(C_i)₁

上式p(C_i)₁为C_i在文本语料库中的概率，n为含词C_i的文本语料库的个数。

x(C_i)₂＝-p(C_i)₂lnp(C_i)₂

上式p(C_i)₂为含词C_i的文本数概率值，N为统计语料库中文本总数。

同理X(C_i，C_i+1)＝|x(C_i，C_i+1)₁-x(C_i，C_i+1)₂|

x(C_i，C_i+1)₁为在文本语料库中词(C_i，C_i+1)的共现信息量，x(C_i，C_i+1)₂为相邻词(C_i，C_i+1)共现的文本信息量。

同理x(C_i，C_i+1)₁＝-p(C_i，C_i+1)₁lnp(C_i，C_i+1)₁

上式p(C_i，C_i+1)₁为在文本语料库中词(C_i，C_i+1)的共现概率，m为在文本库中词(C_i，C_i+1)共现的文本数量。

x(C_i，C_i+1)₂＝-p(C_i，C_i+1)₂lnp(C_i，C_i+1)₂

p(C_i，C_i+1)₂为文本库中相邻词(C_i，C_i+1)共现的文本数概率。

综上可得每条相邻路径的权值为

w(C_i，C_i+1)＝X(C_i)+X(C_i+1)-2X(C_i，C_i+1)

步骤1.5：找到权值最大的一条路径，即为待分词句子的分词结果，其具体计算过程如下：

有n条路径，每条路径长度不一样，假设路径长度集合为(L₁，L₂，…，L_n)。

假设经过取路径中词的数量最少操作，排除了m条路径，m<n。即剩下(n-m)路径，设其路径长度集合为

则每条路径权重为:

上式分别为第1,2到路径边的权重值，根据步骤1.4可以一一计算得出，为剩下(n-m)路径中第S_j条路径的长度。

权值最大的一条路径:

步骤2：得到的文本词汇集合依据其语义相关度R(c₁，c₂)会出现聚合现象，构建词汇语义网络模型图，其具体计算过程如下：

基于《知网》的词汇相关度计算方法，文本特征词汇集合中的两两词汇间相关度计算公式为：

上式ρ(ICN)为两词汇本体概念共同的父节点密度，d(ICN)为两词汇本体概念共同的父节点深度，ρ_max(S)为义原网状结构中对应父节点所在的树状结构中的最大节点密度值，d_max(S)为义原网状结构中对应父节点所在的树状结构中的树的度。N′＝0为两词汇(c₁，c₂)间无特殊关系，N′＞0为两词汇(c₁，c₂)间有特殊关系，a为由专家给定的特殊关系权重，a∈(0，1)。

利用上式构建词汇语义网络模型图，如图4。

步骤3：根据图中词汇在整个语义网络图中的重要度weight(c_i)，即可得词汇在整个文本中的地位和贡献度，其具体计算过程如下：

特征词汇的分支越多，词汇在整个文本中的地位和贡献度越大，可以通过下式计算词汇在整个语义网络图中的重要度；

为特征词汇c_i直接子节点的个数，N_t为整个语义网络图中总节点个数。

步骤4：根据重要度满足的条件提文本中的特征词汇，即为代表文本主旨的特征词汇向量，其具体计算过程如下：

相关专家设定一个合适的阈值y∈(0，1)，提取满足下式关系的特征词汇；

weight(c_i)＞y。

Claims

1.一种基于语义分析的文本特征提取方法，本发明涉及语义网络技术领域，具体涉及一种基于语义分析的文本特征提取方法，其特征是，包括如下步骤：

步骤1：初始化文本语料库模块，对文本W的进行预处理，其具体处理过程如下：

综合分词和删除停用词技术，中文文本预处理过程流程图如图2

步骤1.1：利用停用表对文本进行去停用词处理

把待分词的汉字串完整的扫描一遍，在系统的词典里进行查找匹配，遇到字典里有的词就标识出来；如果词典中不存在相关匹配，就简单地分割出单字作为词；直到汉字串为空

步骤1.3：依据概率统计学，将待分词句子拆分为网状结构，即得n个可能组合的句子结构，把此结构每条顺序节点依次规定为，其结构图如图3所示

根据《分词词典》匹配出的字典词与未匹配的单个词，第i条路径包含词的个数为，即n条路径词的个数集合为

得

在上述留下的剩下的(n-m)路径中，求解每条相邻路径的权重大小

在统计语料库中，计算每个词的信息量，再求解路径相邻词的共现信息量，既有下式：

上式为文本语料库中词的信息量，为含词的文本信息量

上式为在文本语料库中的概率，n为含词的文本语料库的个数

上式为含词的文本数概率值，N为统计语料库中文本总数

同理

为在文本语料库中词的共现信息量，为相邻词共现的文本信息量

同理

上式为在文本语料库中词的共现概率，m为在文本库中词共现的文本数量

为文本库中相邻词共现的文本数概率

综上可得每条相邻路径的权值为

有n条路径，每条路径长度不一样，假设路径长度集合为

假设经过取路径中词的数量最少操作，排除了m条路径，m<n，即剩下(n-m)路径，设其路径长度集合为

则每条路径权重为:

上式分别为第1,2到路径边的权重值，根据步骤1.4可以一一计算得出，为剩下(n-m)路径中第条路径的长度

权值最大的一条路径:

步骤2：得到的文本词汇集合依据其语义相关度会出现聚合现象，构建词汇语义网络模型图

步骤3：根据图中词汇在整个语义网络图中的重要度，即可得词汇在整个文本中的地位和贡献度

2.根据权利要求1中所述的一种基于语义分析的文本特征提取方法，其特征是，以上所述步骤2中的具体计算过程如下：

步骤2：得到的文本词汇集合依据其语义相关度会出现聚合现象，构建词汇语义网络模型图，其具体计算过程如下：

上式为两词汇本体概念共同的父节点密度，为两词汇本体概念共同的父节点深度，为义原网状结构中对应父节点所在的树状结构中的最大节点密度值，为义原网状结构中对应父节点所在的树状结构中的树的度，为两词汇间无特殊关系，为两词汇间有特殊关系，a为由专家给定的特殊关系权重，

利用上式构建词汇语义网络模型图，如图4。

3.根据权利要求1中所述的一种基于语义分析的文本特征提取方法，其特征是，以上所述步骤3中的具体计算过程如下：

步骤3：根据图中词汇在整个语义网络图中的重要度，即可得词汇在整个文本中的地位和贡献度，其具体计算过程如下：

为特征词汇直接子节点的个数，为整个语义网络图中总节点个数。

4.根据权利要求1中所述的一种基于语义分析的文本特征提取方法，其特征是，以上所述步骤4中的具体计算过程如下：

相关专家设定一个合适的阈值，提取满足下式关系的特征词汇；

。