CN107038155A

CN107038155A - 基于改进的小世界网络模型实现文本特征的提取方法

Info

Publication number: CN107038155A
Application number: CN201710268925.8A
Authority: CN
Inventors: 金平艳
Original assignee: Sichuan Yonglian Information Technology Co Ltd
Current assignee: Sichuan Yonglian Information Technology Co Ltd
Priority date: 2017-04-23
Filing date: 2017-04-23
Publication date: 2017-08-11

Abstract

基于改进的小世界网络模型实现文本特征的提取方法，根据中文分词预处理过程、确定词汇位置权重、词性权重，综合《知网》的两词汇相关度算法、词汇对文本重要度方法来确定语义相关度函数，这里对函数都进行了归一化处理，值的计算条件更加规范，对词汇语义网络模型图设置两参数，一个为密度参数、另一个边权重参数，有效融合两参数，设置一个合适阈值提取文本特征词汇。本发明有更好的准确度、克服了传统方法只适合提取一类别的文本特征不足，具有更好的应用价值，可以精确计算不同词汇对文本思想的贡献度，数据处理更加规范，降低了结果出错率，构成的词汇语义网络模型图更加符合实际情况，同时为后续的文本聚类提供良好的理论基础。

Description

基于改进的小世界网络模型实现文本特征的提取方法

技术领域

本发明涉及语义网络技术领域，具体涉及基于改进的小世界网络模型实现文本特征的提取方法。

背景技术

目前传统的关键词提取算法只注重文档的表层统计特性(如词频、词语位置、词语长度等)，忽略文档的语义信息和结构信息，导致关键词语义和结构信息的缺失。而现有基于词语网络的关键词提取算法，虽然在一定程度上利用了文档的结构信息，但语义信息的利用依然不足，并且网络的构造过程过分依赖于分词的粒度。信息增益方法只适合用来提取一个类别的文本特征，而无法用于提取多个类别的文本特征。互信息方法考虑了类别出现概率与集合出现概率之比，那么会造成一个缺陷，那就是类别集合中文本的数量差异会很大程度上影响文本特征提取的准确性。文本特征指的是最能代表文本主旨的词汇集合，文本特征不仅可以很好的概括文本主要内容和主旨，而且可以降低文本处理的复杂程度。然而目前常用的文本特征提取方法没有考虑特征词汇的语义地位和其对文本主旨表达所做的贡献，更重要的是，对数据归一化的处理欠缺。为了满足上述需求，本发明提供了一种基于改进的小世界网络模型实现文本特征的提取方法。

发明内容

针对于常用的文本特征提取方法没有考虑特征词汇的语义地位和其对文本主旨表达所做贡献的不足、数据归一化处理的欠缺问题，本发明提供了一种基于改进的小世界网络模型实现文本特征的提取方法。

为了解决上述问题，本发明是通过以下技术方案实现的：

步骤1：初始化文本语料库模块，对文本W的进行中文分词预处理。

步骤2：给步骤1中分词结果的文本进行位置、词性加权处理。

步骤3：得到的文本词汇集合依据其语义相关度R(c₁，c₂)会出现聚合现象，构建词汇语义网络模型图。

步骤4：根据图中词汇在整个语义网络图中的重要度构造两函数参数w₁(c_i)、w₂(c_i)，即可得词汇在整个文本中的地位和贡献度。

步骤5：根据步骤4中的两参数构造目标函数G(w₁(c_i)，w₂(c_i)^new)，根据其值提取文本特征词汇集合

本发明有益效果是：

1、此方法比传统的词频-反文档频率方法得到的特征词汇集合的准确度更高。

2、克服了信息增益方法只适合用来提取一个类别的文本特征的不足。

3、此算法具有更大的利用价值。

4、此方法精确地计算了特征词汇中不同词汇对文本思想的贡献度。

5、计算特征词汇中不同词汇对文本思想的贡献度具有更高的精确度。

6、为后续的文本相似度与文本聚类技术提供良好的理论基础。

7、此方法着重在语义分析的角度来提取文本中的特征词汇，更符合人们的经验值。

8、融合了统计学方法，又综合了关键词在文本中的贡献度，构建的词汇语义网络模型图准确度更高。

9、在词汇语义网络模型中提取关键词，既考虑了邻近节点的密度，又考虑邻近节点边的权重，关键词的提取更好的符合经验值。

9、数据处理更加规范，易于词汇语义网络模型的生成。

10、在关键词的相关度计算过程中，设定了更加严苛的约束条件，构成的词

汇语义网络模型图更加符合实际情况。

11、完整的数据处理，方便了文本特征词汇提取的过程，降低了结果出错率。

附图说明

图1基于改进的小世界网络模型实现文本特征的提取方法的结构流程图

图2中文文本预处理过程流程图

图3 n元语法分词算法图解

图4词汇语义网络模型图

具体实施方式

为了解决常用的文本特征提取方法没有考虑特征词汇的语义地位和其对文本主旨表达所做贡献的问题、数据归一化处理的欠缺问题，结合图1-图4对本发明进行了详细说明，其具体实施步骤如下：

步骤1：初始化文本语料库模块，对文本W的进行中文分词预处理，其具体描述过程如下：

综合分词和删除停用词技术，中文文本预处理过程流程图如图2。。

这里分词方法利用一种基于信息论中文自动分词算法，其具体分词和去停用词步骤如下：

步骤1.1：利用停用表对文本进行去停用词处理。

步骤1.2：根据《分词词典》找到待分词句子中与词典中匹配的词，其具体描述如下：

把待分词的汉字串完整的扫描一遍，在系统的词典里进行查找匹配，遇到字典里有的词就标识出来；如果词典中不存在相关匹配，就简单地分割出单字作为词；直到汉字串为空。

步骤1.3：依据概率统计学，将待分词句子拆分为网状结构，即得n个可能组合的句子结构，把此结构每条顺序节点依次规定为SM₁M₂M₃M₄M₅E，其结构图如图3所示。

步骤1.4：基于信息论方法，给上述网状结构每条边赋予一定的权值，其具体计算过程如下：

根据《分词词典》匹配出的字典词与未匹配的单个词，第i条路径包含词的个数为n_i。即n条路径词的个数集合为(_n1，n₂，…，n_n)。

得min()＝min(_n1，n2，…，nn)

在上述留下的剩下的(n-m)路径中，求解每条相邻路径的权重大小。

在统计语料库中，计算每个词的信息量X(C_i)，再求解路径相邻词的共现信

息量X(C_i，C_i+1)。既有下式：

X(C_i)＝|x(C_i)₁-x(C_i)₂|

上式x(C_i)₁为文本语料库中词C_i的信息量，x(C_i)₂为含词C_i的文本信息量。

x(C_i)₁＝-p(C_i)₁lnp(C_i)₁

上式p(C_i)₁为C_i在文本语料库中的概率，n为含词C_i的文本语料库的个数。

x(C_i)₂＝-p(C_i)₂lnp(C_i)₂

上式p(C_i)₂为含词C_i的文本数概率值，N为统计语料库中文本总数。

同理X(C_i，C_i+1)＝|x(C_i，C_i+1)₁-x(C_i，C_i+1)₂|

x(C_i，C_i+1)₁为在文本语料库中词(C_i，C_i+1)的共现信息量，x(C_i，C_i+1)₂为相邻词(C_i，C_i+1)共现的文本信息量。

同理x(C_i，C_i+1)₁＝-p(C_i，C_i+1)₁lnp(C_i，C_i+1)₁

上式p(C_i，C_i+1)₁为在文本语料库中词(C_i，C_i+1)的共现概率，m为在文本库中词(C_i，C_i+1)共现的文本数量。

x(C_i，C_i+1)₂＝-p(C_i，C_i+1)₂lnp(C_i，C_i+1)₂

p(C_i，C_i+1)₂为文本库中相邻词(C_i，C_i+1)共现的文本数概率。

综上可得每条相邻路径的权值为

w(C_i，C_i+1)＝X(C_i)+X(C_i+1)-2X(C_i，C_i+1)

步骤1.5：找到权值最大的一条路径，即为待分词句子的分词结果，其具体计算过程如下：

有n条路径，每条路径长度不一样，假设路径长度集合为(L₁，L₂，…，L_n)。

假设经过取路径中词的数量最少操作，排除了m条路径，m＜n。即剩下(n-m)路径，设其路径长度集合为

则每条路径权重为：

上式分别为第1，2到路径边的权重值，根据步骤1.4可以一一计算得出，为剩下(n-m)路径中第S_j条路径的长度。

权值最大的一条路径:

步骤2：给步骤1中分词结果的文本进行位置、词性加权处理，其具体描述如下：

α_j代表位置权重，其赋值规则为：文本第一行是标题，赋予权值5；段首第一个词等于“摘要”，则赋予权值3；段首第一个词等于“关键字”或“关键词”，则赋予权值5；段首第一个词等于“结论”，赋予权值3；其它，每段首赋予权值1；

β_k代表词性权重，其赋值规则为：现代汉语语法中，一个句子主要由主语、谓语、宾语、定语和状语等成分构成。从词性的角度看，名词一般担当主语和宾语的角色，动词一般担当谓语的角色，形容词和副词一般担当定语的角色。词性的不同，造成了它们对文本或者句子的表示内容的能力的不一样。根据调查统计得出名词、动词、形容词、副词的权重值依次为β₁、β₂、β₃和β₄，且β₁＞β₂＞β₃＞β₄，其值可以由专家指出。

步骤3：得到的文本词汇集合依据其语义相关度R(c₁，c₂)会出现聚合现象，构建词汇语义网络模型图，其具体计算过程如下：

基于《知网》的词汇相关度计算方法，文本特征词汇集合中的两两词汇间相关度计算公式为：

上式ρ(ICN)为两词汇本体概念共同的父节点密度，d(ICN)为两词汇本体概念共同的父节点深度，ρ_max(S)为义原网状结构中对应父节点所在的树状结构中的最大节点密度值，d_max(S)为义原网状结构中对应父节点所在的树状结构中的树的度。N′＝0为两词汇(c₁，c₂)间无特殊关系，N′＞0为两词汇(c₁，c₂)间有特殊关系，a为由专家给定的特殊关系权重，a∈(0，1)，α、β分别为对应的影响系数，α、β∈(0，1)，这个可以由实验测出，α+β＝1。

联合词汇在文本中的重要度、基于统计方法，构造词汇对文本影响函数y(c_i)，根据R₁(c₁，c₂)的值，y(c_i)需归一化处理：

即为

n_i为词汇c_i在文本中出现的频数，为文本词汇的总频数，N_K为在满足下式约束条件下库中含有词汇c_i的文本数，为库中所有文本的数量。

约束条件为：

n_i·j为第j文本中词汇c_i出现的频数，为第j文本中所有词汇出现的总频数。

综合y(c_i)、R₁(c₁，c₂)，即可得语义相关度R(c₁，c₂)

ρ、σ分别为对应因子的影响系数，ρ、σ∈(0，1)，ρ+σ＝1，其指可以根据实验测出，一般ρ＞σ，同理w、w′，不一样的是，也许w′≥w，这个要视具体情况而定。

利用上式构建词汇语义网络模型图，如图4。

步骤4：根据图中词汇在整个语义网络图中的重要度构造两函数参数w₁(c_i)、w₂(c_i)，即可得词汇在整个文本中的地位和贡献度，其具体计算过程如下：

特征词汇的分支越多，词汇在整个文本中的地位和贡献度越大，可以通过下式计算词汇在整个语义网络图中的重要度；

为特征词汇c_i直接子节点的个数，N_t为整个语义网络图中总节点个数。

计算特征词汇相邻边的平均权重w₂(c_i)

R(c_i，c_m)为c_i与相邻词汇c_m的相关度值，L为邻边数。

根据w₁(c_i)值，需对w₂(c_i)进行归一化处理，即

m′为词汇语义网络模型中节点的个数。

步骤5：根据步骤4中的两参数构造目标函数G(w₁(c_i)，w₂(c_i)^new)，根据其值提取文本特征词汇集合，其具体计算过程如下：

目标函数G(w₁(c_i)，w₂(c_i)^new):

τ为值的修正系数，这个可以由专家测试出最佳值。

设定目标函数满足的条件：G(w₁(c_i)，w₂(c_i)^new)＞ε。

Claims

1.基于改进的小世界网络模型实现文本特征的提取方法，本发明涉及语义网络技术领域，具体涉及基于改进的小世界网络模型实现文本特征的提取方法，其特征是，包括如下步骤：

步骤1：初始化文本语料库模块，对文本W的进行中文分词预处理，其具体描述如下：

把待分词的汉字串完整的扫描一遍，在系统的词典里进行查找匹配，遇到字典里有的词就标识出来；如果词典中不存在相关匹配，就简单地分割出单字作为词；直到汉字串为空

步骤1.2：依据概率统计学，将待分词句子拆分为网状结构，即得n个可能组合的句子结构，把此结构每条顺序节点依次规定为，其结构图如图2所示

步骤1.3：基于信息论方法，给上述网状结构每条边赋予一定的权值，其具体计算过程如下：

根据《分词词典》匹配出的字典词与未匹配的单个词，第i条路径包含词的个数为，即n条路径词的个数集合为

得

在上述留下的剩下的(n-m)路径中，求解每条相邻路径的权重大小

在统计语料库中，计算每个词的信息量，再求解路径相邻词的共现信息量，既有下式：

上式为文本语料库中词的信息量，为含词的文本信息量

上式为在文本语料库中的概率，n为含词的文本语料库的个数

上式为含词的文本数概率值，N为统计语料库中文本总数

同理

为在文本语料库中词的共现信息量，为相邻词共现的文本信息量

同理

上式为在文本语料库中词的共现概率，m为在文本库中词共现的文本数量

为文本库中相邻词共现的文本数概率

综上可得每条相邻路径的权值为

步骤1.4：找到权值最大的一条路径，即为待分词句子的分词结果，其具体计算过程如下：

有n条路径，每条路径长度不一样，假设路径长度集合为

假设经过取路径中词的数量最少操作，排除了m条路径，m<n，即剩下(n-m)路径，设其路径长度集合为

则每条路径权重为:

上式分别为第1,2到路径边的权重值，根据步骤1.4可以一一计算得出，为剩下(n-m)路径中第条路径的长度

权值最大的一条路径:

代表位置权重，其赋值规则为：文本第一行是标题，赋予权值5；段首第一个词等于“摘要”，则赋予权值3；段首第一个词等于“关键字”或“关键词”，则赋予权值5；段首第一个词等于“结论”，赋予权值3；其它，每段首赋予权值1；

代表词性权重，其赋值规则为：现代汉语语法中，一个句子主要由主语、谓语、宾语、定语和状语等成分构成，从词性的角度看，名词一般担当主语和宾语的角色，动词一般担当谓语的角色，形容词和副词一般担当定语的角色，词性的不同，造成了它们对文本或者句子的表示内容的能力的不一样，根据调查统计得出名词、动词、形容词、副词的权重值依次为、、和，且，其值可以由专家指出

步骤3：得到的文本词汇集合依据其语义相关度会出现聚合现象，构建词汇语义网络模型图，其具体计算过程如下：

上式为两词汇本体概念共同的父节点密度，为两词汇本体概念共同的父节点深度，为义原网状结构中对应父节点所在的树状结构中的最大节点密度值，为义原网状结构中对应父节点所在的树状结构中的树的度，为两词汇间无特殊关系，为两词汇间有特殊关系，为由专家给定的特殊关系权重，，、分别为对应的影响系数，、，这个可以由实验测出，

联合词汇在文本中的重要度、基于统计方法，构造词汇对文本影响函数，根据的值，需归一化处理：

即为

为词汇在文本中出现的频数，为文本词汇的总频数，为在满足下式约束条件下库中含有词汇的文本数，为库中所有文本的数量

约束条件为：

为第j文本中词汇出现的频数，为第j文本中所有词汇出现的总频数

综合、，即可得语义相关度

、分别为对应因子的影响系数，、，，其指可以根据实验测出，一般，同理、，不一样的是，也许，这个要视具体情况而定

利用上式构建词汇语义网络模型图，如图4

步骤4：根据图中词汇在整个语义网络图中的重要度构造两函数参数、，即可得词汇在整个文本中的地位和贡献度

步骤5：根据步骤4中的两参数构造目标函数，根据其值提取文本特征词汇集合。

2.根据权利要求1中所述的基于改进的小世界网络模型实现文本特征的提取方法，其特征是，以上所述步骤4中的具体计算过程如下：

步骤4：根据图中词汇在整个语义网络图中的重要度构造两函数参数、，即可得词汇在整个文本中的地位和贡献度，其具体计算过程如下：

为特征词汇直接子节点的个数，为整个语义网络图中总节点个数

计算特征词汇相邻边的平均权重

为与相邻词汇的相关度值，为邻边数

根据值，需对进行归一化处理，即

为词汇语义网络模型中节点的个数。

3.根据权利要求1中所述的基于改进的小世界网络模型实现文本特征的提取方法，其特征是，以上所述步骤5中的具体计算过程如下：

步骤5：根据步骤4中的两参数构造目标函数，根据其值提取文本特征词汇集合，其具体计算过程如下：

目标函数:

为值的修正系数，这个可以由专家测试出最佳值

设定目标函数满足的条件：

满足上式条件，即为需要的文本特征词汇。