CN103886062B

CN103886062B - 一种基于语义网络的文本短语权重计算方法

Info

Publication number: CN103886062B
Application number: CN201410099977.3A
Authority: CN
Inventors: 于慧敏; 孙孟孟
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2014-03-18
Filing date: 2014-03-18
Publication date: 2017-09-19
Anticipated expiration: 2034-03-18
Also published as: CN103886062A

Abstract

本发明公开一种基于语义网络的文本短语权重计算方法。包括以下步骤：首先，去除文本中的停止词，根据选词后的文本构建语义网络，将文本中的短语视作语义网络的一个节点；然后，使用随机游走的方法，计算在有限步内从一个节点随机游走到达另外一个节点的概率，得到所有节点之间的概率；最终，去除一个节点，重新计算所有节点之间的概率，并计算两者之差，这个差值便可以作为文本中此短语的权重。本发明使用了图论和马尔科夫链的理论，将文本转化为图并建模为马尔科夫链进行分析，利用了短语在文档中相对位置信息，提高了短语权重计算的准确性。本发明能够针对实际文档，有效的计算短语的权重，实现文档的降噪功能，提高信噪比。

Description

一种基于语义网络的文本短语权重计算方法

技术领域

本发明属于文本分类领域，涉及一种对文本中短语权重进行计算的方法。

背景技术

文本分类是数据挖掘领域的重要分支之一，然而如何在向量空间中表示一个文本，即如何对文中的短语进行加权调整，制约着文本分类的精度。由于实际的文档具有很高的噪声，单纯的使用词频对文档进行描述会使部分信息淹没在噪声之中。一种优秀的短语加权方法必须能够有效提高文本的信噪比，实现文本的降噪功能。近年来，人们提出了许多短语权重构造函数，但主要基于向量空间法（Vector Space Model，VSM）。

向量空间法的基本思想是使用词袋模型表示文本，将语料库中的每个短语作为向量空间中的一维，将文本视作向量空间的一个矢量。其特点简单直观且处理速度较快，但此方法在理论和实际应用中有着很大的局限。

近年来，不断有学者提出新的短语权重构造方法。其中，基于语义网络的短语权重计算方法能够体现短语节点在语义网络的连通性上影响，并能够将此影响量化，作为短语在文中的权重。

基于语义网络的短语权重计算方法能够有效的滤除文本噪声，提高文本分类的准确性与鲁棒性。

发明内容

本发明的目的是克服现有技术的不足，提供一种基于语义网络的文本短语权重计算方法。

基于语义网络的文本短语权重计算方法包含以下步骤：

1）去除文本中的停止词，根据选词后的文本构建语义网络，将文本中的短语视作语义网络的一个节点;

2）使用随机游走的方法，计算语义网络中在有限步长内从一个节点随机游走到另外一个节点的概率，并得到语义网络的转移矩阵π,语义网络的转移矩阵π是一个多步转移矩阵;

3）去除某一节点之后重新计算新的语义网络对应的转移矩阵π'；语义网络的转移矩阵π和重新计算后的语义网络的转移矩阵π'的之差Δπ中的元素之和便可以表示去除的节点在语义网络的连通性方面所起到的影响，即可表示这一节点所对应的短语在文本中的权重；

4）重复步骤3）直到处理完文本中所有短语，便可以得到文本中所有短语的权重。

所述的步骤1）为：

（1）去除文本中的停止词，根据选词后的文本构建语义网络，将文本中的短语视作语义网络的一个节点；

（2）两个短语之间的连接视作语义网络的边，边的权重可以使用下式计算：

式中，Edge(i,j)表示节点i与节点j的边的权重，1(·)是一个指示函数，当满足条件时取1，不满足条件时取0，N为文本中短语个数，通过上式，便可得到边的权重矩阵Edge；

（3）将得到的边的权重矩阵Edge按行进行归一化，

式中，M是语义网络中节点个数，这样语义网络就变成了一个加权有向图，且每个节点出边权重之和为1，语义网络便可视作马尔科夫链的状态转移图，P就是马尔科夫链的状态转移矩阵。

所述的步骤2）为：

（1）计算从一个节点出发在有限步内能够到达另一个节点的概率：

式中，π(i,v)表示从节点i在有限步内能够到达节点v的概率，ε为在任何节点重新跳回节点i的概率，P是马尔科夫链的一步转移概率；

（2）语义网络的转移矩阵π可以通过矩阵表示为：

π＝εE[E-(1-ε)P]^-1

式中E表示单位矩阵，上标表示矩阵的逆或伪逆。

所述的步骤3）计算语义网络中去除的节点i在语义网络的连通性方面所起到的影响为：

（1）去除节点i的出边，即从节点i出发进行概率转移，只能转移到自身；

（2）计算新的语义网络对应的转移矩阵π'；

（3）计算两个矩阵的差值Δπ，Δπ＝π-π'，然后将Δπ的第i行和第i列置零，节点i在语义网络连通性上的影响便可以表示为：

式中，influence(i)表示节点i对语义网络连通性的影响，即短语i在文本中的权重。

所述的步骤4）为：

（1）重复步骤3）得到每一个节点对网络连通性的影响；

（2）将influence归一化，便可以得到文本在短语上的概率分布，即每个短语在文本中的权重。

本发明的有益效果是：

1）提出了一种基于语义网络的文本短语权重计算方法，该方法使用图论和马尔科夫链的理论，计算短语对应节点在语义网络连通性上的影响，并将此影响量化，作为短语在文本中的权重。

2）本发明能够有效降低了文本噪声，提高文本信噪比。

3）本发明能够对实际文档的短语进行加权，能够提高文本分类的准确性和鲁棒性。

附图说明

图1为本发明的添加了Edge信息的双向语义网络；

图2为本发明的加权有向语义网络；

图3为去除一个节点的出边的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。

本发明提出了一种基于语义网络的文本权重计算方法。本发明利用图论和马尔科夫链的理论，利用了短语在文本中的相对位置的信息，构建语义网络，通过去除语义网络中对应节点的方法，计算节点在语义网络连通性上的影响，并将之量化，作为短语在文本中的权重。

如图1、图2和图3所示，基于语义网络的文本短语权重计算方法包含以下步骤：

3）去除一个节点之后重新计算新的语义网络对应的转移矩阵π'；语义网络的转移矩阵π和重新计算后的语义网络的转移矩阵π'的之差Δπ中的元素之和便可以表示去除的节点在语义网络的连通性方面所起到的影响，即可表示这一节点所对应的短语在文本中的权重；

所述的步骤1）为：

（3）将得到的边的权重矩阵Edge按行进行归一化，

所述的步骤2）为：

（2）语义网络的转移矩阵π可以通过矩阵表示为：

π＝εE[E-(1-ε)P]^-1

式中E表示单位矩阵，上标表示矩阵的逆或伪逆。

（2）计算新的语义网络对应的转移矩阵π'；

所述的步骤4）为：

（1）重复步骤3）得到每一个节点对网络连通性的影响；

实施例1

一种基于语义网络的文本短语权重计算方法，包括以下步骤：

1）读入一个文本，去除文本中的停止词，将文档中的短语视作语义网络的一个节点，并根据文本中短语的行对位置构建双向语义网络。

2）两个短语之间的连接视作语义网络的边，边的权重可以使用以下的公式计算：

式中，Edge(i,j)连接节点i与节点j的边的权重，1(·)是一个指示函数，当满足条件时取1，不满足条件时取0，N为文本中短语个数。此时便可以得到图1所示的添加了Edge信息的双向语义网络。

3）将得到的矩阵Edge按行进行归一化，

式中，M是语义网络中节点个数。这样语义网络就变成了一个加权有向图，且每个节点出边权重之和为1，语义网络便可以视作马尔科夫链的状态转移图，P就是马尔科夫链的状态转移矩阵。此时便可以得到如图2所示的加权有向语义网络。

4）计算从一个节点出发在有限步内能够到达另一个节点的概率：

式中，π(i,v)表示从节点i在有限步内能够到达节点v的概率，ε为在任何节点重新跳回节点i的概率，P是马尔科夫链的一步转移概率。

5）矩阵π可以通过矩阵表示为：

π＝εE[E-(1-ε)P]^-1

式中E表示单位矩阵，上标表示矩阵的逆。

6）去除某一节点的出边，即从此节点出发进行概率转移，只能转移到自身。如图3所示。

7）计算新的语义网络对应的转移矩阵π'。

8）计算两个矩阵的差值，Δπ＝π-π'，然后将Δπ的第i行和第i列置零。节点i在语义网络连通性上的影响便可以表示为：

9）重复步骤6）到步骤8），得到每一个节点的influence，将influence归一化，便可以得到文本在短语上的概率分布，即每个短语在文本中的权重。

以上所述仅为本发明的较佳实施例而已，并不以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于语义网络的文本短语权重计算方法，其特征在于，包含以下步骤：

1)去除文本中的停止词，根据选词后的文本构建语义网络，将文本中的短语视作语义网络的一个节点；

所述的步骤1)具体为：

(1)去除文本中的停止词，根据选词后的文本构建语义网络，将文本中的短语视作语义网络的一个节点；

(2)两个短语之间的连接视作语义网络的边，边的权重可以使用下式计算：

<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>E</mi> <mi>d</mi> <mi>g</mi> <mi>e</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>E</mi> <mi>d</mi> <mi>g</mi> <mi>e</mi> <mrow> <mo>(</mo> <mi>j</mi> <mo>,</mo> <mi>i</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>N</mi> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <mn>1</mn> <mrow> <mo>(</mo> <mi>t</mi> <mi>h</mi> <mi>e</mi> <mi> </mi> <mi>k</mi> <mi>t</mi> <mi>h</mi> <mi> </mi> <mi>t</mi> <mi>e</mi> <mi>r</mi> <mi>m</mi> <mi> </mi> <mi>i</mi> <mi>s</mi> <mi> </mi> <mi>i</mi> <mo>,</mo> <mi>a</mi> <mi>n</mi> <mi>d</mi> <mi> </mi> <mi>t</mi> <mi>h</mi> <mi>e</mi> <mo>(</mo> <mrow> <mi>k</mi> <mo>+</mo> <mn>1</mn> </mrow> <mo>)</mo> <mi>t</mi> <mi>h</mi> <mi> </mi> <mi>t</mi> <mi>e</mi> <mi>r</mi> <mi>m</mi> <mi> </mi> <mi>i</mi> <mi>s</mi> <mi> </mi> <mi>j</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>+</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>N</mi> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <mn>1</mn> <mrow> <mo>(</mo> <mi>t</mi> <mi>h</mi> <mi>e</mi> <mi> </mi> <mi>k</mi> <mi>t</mi> <mi>h</mi> <mi> </mi> <mi>t</mi> <mi>e</mi> <mi>r</mi> <mi>m</mi> <mi> </mi> <mi>i</mi> <mi>s</mi> <mi> </mi> <mi>j</mi> <mo>,</mo> <mi>a</mi> <mi>n</mi> <mi>d</mi> <mi> </mi> <mi>t</mi> <mi>h</mi> <mi>e</mi> <mo>(</mo> <mrow> <mi>k</mi> <mo>+</mo> <mn>1</mn> </mrow> <mo>)</mo> <mi>t</mi> <mi>h</mi> <mi> </mi> <mi>t</mi> <mi>e</mi> <mi>r</mi> <mi>m</mi> <mi> </mi> <mi>i</mi> <mi>s</mi> <mi> </mi> <mi>i</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced>

(3)将得到的边的权重矩阵Edge按行进行归一化，

<mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>E</mi> <mi>d</mi> <mi>g</mi> <mi>e</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>)</mo> </mrow> </mrow> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <mi>E</mi> <mi>d</mi> <mi>g</mi> <mi>e</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>

式中，M是语义网络中节点个数，这样语义网络就变成了一个加权有向图，且每个节点出边权重之和为1，语义网络便可视作马尔科夫链的状态转移图，P就是马尔科夫链的状态转移矩阵；

2)使用随机游走的方法，计算语义网络中在有限步长内从一个节点随机游走到另外一个节点的概率，并得到语义网络的转移矩阵π,语义网络的转移矩阵π是一个多步转移矩阵；

3)去除某一节点之后重新计算新的语义网络对应的转移矩阵π'；语义网络的转移矩阵π和重新计算后的语义网络的转移矩阵π'的两者之差Δπ中的元素之和便可以表示去除的节点在语义网络的连通性方面所起到的影响，即可表示这一节点所对应的短语在文本中的权重；

4)重复步骤3)直到处理完文本中所有短语，便可以得到文本中所有短语的权重。

2.根据权利要求1所述的基于语义网络的文本短语权重计算方法，其特征在于，所述的步骤2)为：

(1)计算从一个节点出发在有限步内能够到达另一个节点的概率：

<mrow> <mi>&pi;</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>v</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>&epsiv;</mi> <mo>&CenterDot;</mo> <mn>1</mn> <mrow> <mo>(</mo> <mi>v</mi> <mo>=</mo> <mi>i</mi> <mo>)</mo> </mrow> <mo>+</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>&epsiv;</mi> <mo>)</mo> </mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>u</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>v</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <mi>&pi;</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>u</mi> <mo>)</mo> </mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>u</mi> <mo>,</mo> <mi>v</mi> <mo>)</mo> </mrow> </mrow>

式中，π(i,v)表示从节点i在有限步内能够到达节点v的概率，ε为在任何节点重新跳回节点i的概率，P是马尔科夫链的一步转移概率；1(v＝i)是一个指示函数，当满足条件v＝i时取1，不满足条件时取0；

(2)语义网络的转移矩阵π可以通过矩阵表示为：

π＝εE[E-(1-ε)P]^-1

式中E表示单位矩阵，上标表示矩阵的逆或伪逆。

3.根据权利要求1所述的基于语义网络的文本短语权重计算方法，其特征在于，所述的步骤3)计算语义网络中去除的节点i在语义网络的连通性方面所起到的影响为：

(1)去除节点i的出边，即从节点i出发进行概率转移，只能转移到自身；

(2)计算新的语义网络对应的转移矩阵π'；

(3)计算两个矩阵的差值Δπ，Δπ＝π-π'，然后将Δπ的第i行和第i列置零，节点i在语义网络连通性上的影响便可以表示为：

<mrow> <mi>inf</mi> <mi>l</mi> <mi>u</mi> <mi>e</mi> <mi>n</mi> <mi>c</mi> <mi>e</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>m</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <mi>&Delta;</mi> <mi>&pi;</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>,</mo> <mi>m</mi> <mo>)</mo> </mrow> </mrow>

4.根据权利要求1所述的基于语义网络的文本短语权重计算方法，其特征在于，所述的步骤4)为：

(1)重复步骤3)得到每一个节点对网络连通性的影响；

(2)将influence归一化，便可以得到文本在短语上的概率分布，即每个短语在文本中的权重。