CN104298709A

CN104298709A - 基于句间关联图的文本主题挖掘方法

Info

Publication number: CN104298709A
Application number: CN201410451862.6A
Authority: CN
Inventors: 陶余会; 吴康宁; 孙煦峰; 赵亮
Original assignee: SHANGHAI CHUWA SOFTWARE CO Ltd
Current assignee: SHANGHAI CHUWA SOFTWARE CO Ltd
Priority date: 2014-09-05
Filing date: 2014-09-05
Publication date: 2015-01-21

Abstract

一种基于句间关联图的文本主题挖掘方法，涉及数据挖掘技术领域，所解决的是现有挖掘方法质量低及通用性差的技术问题。该方法先将目标文本按句划分，获得文本的句子序列表，再构建目标文本的句子关联矩阵，然后计算句子序列表中各元素的权值，并依据计算出的权值选取主题句，每选取一次主题句后即调整各个非主题句的权值，再依据调整后的权值再度选取主题句，如此往复，直至所有主题句的字符长度之和达到预先设定的字符数量阈值，最后将所有主题句作为从目标文本中挖掘到的主题内容。本发明提供的方法，适用于各种体裁、风格、类型文本文档。

Description

基于句间关联图的文本主题挖掘方法

技术领域

本发明涉及数据挖掘技术，特别是涉及一种基于句间关联图的文本主题挖掘方法的技术。

背景技术

文本数据主题挖掘技术主要是指利用计算机自动地从文本集合中抽取最能代表其主题内容的关键句子组成简洁连贯的短文的技术。随着WEB上文档数量的指数型增长，快速发现文本的主题变得越来越重要。精炼准确的主题内容可以节约用户信息过滤的时间，提高用户的工作效率。

现有的主题挖掘方法中，基于篇章结构特征、句子位置的主题挖掘方法与目标文本的体裁有关，对科技文献实用的方法不一定适合新闻类文献；随着自然语言处理技术的发展，一些比较高级的技术如词汇链、指代消解和自然语言生成等应用到了这个技术领域中。尽管这些技术的应用在一定程度上改进了主题的质量，但是这些技术自身的发展还不成熟。不能适应大规模文本数据处理的需求；基于浅层特征统计的主题挖掘方法(如句子中词语频率统计方法)尽管具有通用性，但是现有的一些统计方法太过简单，抽取出的主题质量不高。

发明内容

针对上述现有技术中存在的缺陷，本发明所要解决的技术问题是提供一种能挖掘出高质量主题，且通用性高，适用于各种体裁、风格、类型文本文档的基于句间关联图的文本主题挖掘方法。

为了解决上述技术问题，本发明所提供的一种基于句间关联图的文本主题挖掘方法，其特征在于，具体步骤如下：

1)目标文本预处理

对目标文本按句划分，获得文本的句子序列表S，并对句子序列表S中的各个句子进行词汇分析，提取各个句子中的词汇，将各句子中的词汇作为特征词；

2)构建目标文本的句子关联矩阵为：

A＝[A_ij]_m×m

A_{ij} = \{\begin{matrix} (- 1.0) * P_{ij} * l o g_{2}^{P_{ij}}, & P_{ij} > 0 \\ 0, & P_{ij} = 0 \end{matrix}

P_{ij} = \{\begin{matrix} \frac{C_{ij}}{\sqrt{| S_{i} | * | S_{j} |}}, & i &NotEqual; j \\ 0, & i = j \end{matrix}

其中，A为目标文本的句子关联矩阵，A为m×m的矩阵，m为句子序列表S中的句子数量，A_ij为A中的第i行第j列元素，1≤i≤m,1≤j≤m，S_i为句子序列表S中的第i个句子，S_j为句子序列表S中的第j个句子，|S_i|为S_i中的特征词数量，|S_j|为S_j中的特征词数量，C_ij为S_i与S_j中共同出现的特征词的数量；

3)计算句子序列表S中各元素的权值，具体计算公式为：

W (i) = Σ_{j = 1}^{m} A_{ij}

其中，W(i)为句子序列表S中的第i个句子的权值；

4)将句子序列表S中权值最大的句子设定为主题句；

5)计算所有主题句的字符长度之和，如果所有主题句的字符长度之和达到主题长度，则转至步骤8)，反之则转至步骤6)；

其中，主题长度为预先设定的字符数量阈值；

6)调整句子序列表S中各个非主题句的权值，非主题句的权值调整公式为：

W_{new} (i) = W_{old} (i) \sqrt{1 - {(P_{ic})}^{2}}, P_{ic} &GreaterEqual; 0.5

P_{ic} = \{\begin{matrix} \frac{C_{ic}}{\sqrt{| S_{i} | * | S_{c} |}}, & i &NotEqual; c \\ 0, & i = c \end{matrix}

其中，W_new(i)为句子序列表S中的第i个句子调整后的权值，W_old(i)为句子序列表S中的第i个句子调整前的权值，S_i为句子序列表S中的第i个句子，S_c为句子序列表S中最新选出的主题句，|S_i|为S_i中的特征词数量，|S_c|为S_c中的特征词数量，C_ic为S_i与S_c中共同出现的特征词的数量；

7)将句子序列表S的非主题句中权值最大的句子设定为主题句，再转至步骤5)；

8)将句子序列表S中所有主题句作为从目标文本中挖掘到的主题内容。

本发明提供的基于句间关联图的文本主题挖掘方法，充分利用了文本的连贯特性，并在文本中充分去除了信息的冗余，生成了更加接近人工撰写的主题内容，能挖掘出高质量主题，且通用性高，适用于各种体裁、风格、类型文本文档的基于句间关联图的文本主题挖掘方法。

附图说明

图1是本发明实施例的基于句间关联图的文本主题挖掘方法。

具体实施方式

以下结合附图说明对本发明的实施例作进一步详细描述，但本实施例并不用于限制本发明，凡是采用本发明的相似结构及其相似变化，均应列入本发明的保护范围。

如图1所示，本发明实施例所提供的一种基于句间关联图的文本主题挖掘方法，其特征在于，具体步骤如下：

1)目标文本预处理

2)构建目标文本的句子关联矩阵为：

A＝[A_ij]_m×m

A_{ij} = \{\begin{matrix} (- 1.0) * P_{ij} * l o g_{2}^{P_{ij}}, & P_{ij} > 0 \\ 0, & P_{ij} = 0 \end{matrix}

P_{ij} = \{\begin{matrix} \frac{C_{ij}}{\sqrt{| S_{i} | * | S_{j} |}}, & i &NotEqual; j \\ 0, & i = j \end{matrix}

3)计算句子序列表S中各元素的权值，具体计算公式为：

W (i) = Σ_{j = 1}^{m} A_{ij}

其中，W(i)为句子序列表S中的第i个句子的权值；

4)将句子序列表S中权值最大的句子设定为主题句；

其中，主题长度为预先设定的字符数量阈值；

6)调整句子序列表S中各个非主题句的权值，从而降低主题句信息的冗余，非主题句的权值调整公式为：

W_{new} (i) = W_{old} (i) \sqrt{1 - {(P_{ic})}^{2}}, P_{ic} &GreaterEqual; 0.5

P_{ic} = \{\begin{matrix} \frac{C_{ic}}{\sqrt{| S_{i} | * | S_{c} |}}, & i &NotEqual; c \\ 0, & i = c \end{matrix}

本发明实施例采用句子间关联度的计算方法，并据此计算句子的权重，句子的权重值越大，表明该句子所包含的信息量越多，越具备主题代表性，一篇好的文章必然是连贯性较强的文章，词汇衔接是使文章变得连贯的主要手段，而相邻句子间词汇的重复出现又是词汇衔接的主要手段，因此，句子间共同出现的词语数的多少，可以在一定程度上反映句子间的关联度。

本发明实施例还可以进一步应用到关键词抽取、文本分类和聚类以及信息检索中。

本发明实施例的方法与现有的同样以句子作为文本单元建立的文档关联图进行主题抽取的Sanfilippo方法、TextRank方法、LexRank方法进行了比较实验，实验中对四种方法采用了相同的数据集(DUC2006所用的多文档主题抽取技术比较所用的数据集)、相同的停用词表、相同的文本预处理过程，并采用相同的自动测试比较工具包ROUGE，并采用相同的测试参数设置，比较不同的句子权重计算方法获得的主题句子评测结果，自动测试结果中的相应值越大，表明该方法获得的主题效果更好。

Sanfilippo方法中，文本关联图中节点依然是句子，该方法直接用采用句子间的共现的特征词数作为边的权重，当边的权重大于2时，将其计入节点及句子的权重；

TextRank方法中，文本关联图中节点依然是句子，图中边的权重与节点(及句子的权重)计算方法与本发明不同，该方法先计算边的权重，然后用带权重的PageRank方法计算节点(句子)的权重；

LexRank方法中，文本关联图中节点依然是句子，但是句子之间是否有边相连取决于节点(句子)之间的相似度值的大小，若有边，则边的权重值为1，节点(句子)的权重采用不带权重的PageRank方法计算，当句子间相似度大于0.1时，对应图中节点之间连边。

本发明实施例的方法实验评测结果：R-2值为0.0829，R-SU4值为0.1409；

Sanfilippo方法实验评测结果：R-2值为0.0755，R-SU4值为0.1321；

TextRank方法实验评测结果：R-2值为0.0803，R-SU4值为0.1370；

LexRank方法实验评测结果：R-2值为0.0733，R-SU4值为0.1301；

通过四种方法的实验评测结果可以看出，本发明实施例的方法挖掘出的主题评测结果最优，这是因为本发明实施例充分利用了文本的连贯特性，并在大数据文本中充分去除了信息的冗余，生成了更加接近人工撰写的主题内容。

Sanfilippo方法的参考文献为：Sanfilippo A..Ranking Text Units According to Textual Saliency,Connectivity and Topic Aptness.In Proceedings of the17th international conference on Computational linguistics,Montreal,Quebec,Canada,1998,1157–1163.

TextRank方法的参考文献为：Mihalcea R.,Tarau P..TextRank:Bringing Order into Texts.In Proceedings of the Conference on Empirical Methods in Natural Language Processing,July2004,Barcelona,Spain.

LexRank方法的参考文献为：Erkan G.,Radev D.R..Lexrank:Graph-based Lexical Centrality as Salience in Text Summarization.Journal of Artificial Intelligence Research,2004,22:457-479。

Claims

1.一种基于句间关联图的文本主题挖掘方法，其特征在于，具体步骤如下：

1)目标文本预处理

2)构建目标文本的句子关联矩阵为：

A＝[A_ij]_m×m

A_{ij} = \{\begin{matrix} (- 1.0) * P_{ij} * l o g_{2}^{P_{ij}}, & P_{ij} > 0 \\ 0, & P_{ij} = 0 \end{matrix}

P_{ij} = \{\begin{matrix} \frac{C_{ij}}{\sqrt{| S_{i} | * | S_{j} |}}, & i &NotEqual; j \\ 0, & i = j \end{matrix}

3)计算句子序列表S中各元素的权值，具体计算公式为：

W (i) = Σ_{j = 1}^{m} A_{ij}

其中，W(i)为句子序列表S中的第i个句子的权值；

4)将句子序列表S中权值最大的句子设定为主题句；

其中，主题长度为预先设定的字符数量阈值；

W_{new} (i) = W_{old} (i) \sqrt{1 - {(P_{ic})}^{2}}, P_{ic} &GreaterEqual; 0.5

P_{ic} = \{\begin{matrix} \frac{C_{ic}}{\sqrt{| S_{i} | * | S_{c} |}}, & i &NotEqual; c \\ 0, & i = c \end{matrix}