CN109726402B

CN109726402B - 一种文档主题词自动提取方法

Info

Publication number: CN109726402B
Application number: CN201910028660.3A
Authority: CN
Inventors: 陈雍君
Original assignee: CETC 7 Research Institute
Current assignee: CETC 7 Research Institute
Priority date: 2019-01-11
Filing date: 2019-01-11
Publication date: 2022-12-23
Anticipated expiration: 2039-01-11
Also published as: CN109726402A

Abstract

本发明提供一种文档主题词自动提取方法的实现方法是一种非监督的方法，全程不需要人为干涉，从主题的划分还是关联词的寻找，都是根据文章自身的词语特征形成的；本发明提出了关联度来衡量主题词的关系，这种关联度充分考虑了共现度和词语间的互信息两种情况；本发明采用重叠矩阵来划分文章的主题，CPM算法作为社团划分的主流，用派系变异系数来衡量词语关联的稳定性，更有助于划分有效稳定的主题；采用重叠社区划分后结果的不同主题簇之间的连接词来反映不同主题之间的连接特征，这种连接特很好反映不同主题之间的承上启下的作用，有助于文章摘要顺序的生成。

Description

一种文档主题词自动提取方法

技术领域

本发明涉及进信息处理领域，更具体地，涉及一种文档主题词自动提取方法。

背景技术

采用数据技术和计算机算法提取文档中具有特征意义和概括性质的主题词，即代替人脑进行内容的初步审阅，是编辑出版行业一直以来的需要。

目前的文档主题词提取技术一般仅仅利用词语之间的关联度来衡量文本主题词关联度，在一定程度上体现该文档的主题词的重要性，但是它仅仅是从词语的本身来衡量，忽略了词语相邻之间的关系，以及词语与相邻词语出现的稳定性。共现度、互信息等关联度，它们仅仅关注词语在本文的一个句子或者一段话中一起出现的概率或者相似性，并没有从本质上衡量词语的相邻关系以及相邻关系的稳定性。或者采用关联度的主题词划分不能反映不同主题特征的承上启下作用，能够有助于中文摘要自动生成的主题转换。过分关注反映主题特征的承上启下作用，虽然能够有助于中文摘要自动生成的主题转换，但是没有体现每一个簇的中心性，也就是每一个主题的几个重要特征词。

发明内容

为解决现有文档主题词自动提取技术仅利用词语间的关联度来衡量文本主题词关联度，在一定程度上体现该文档的主题词的重要性，但是它仅仅是从词语的本身来衡量，忽略了词语相邻之间的关系，以及词语与相邻词语出现的稳定性或过分关注反映主题特征的承上启下作用，虽然能够有助于中文摘要自动生成的主题转换，但是没有体现每一个簇的中心性的问题。

本发明提出一种文档主题词自动提取方法，本发明采用的技术方案是：

一种文档主题词自动提取方法，包括以下步骤：

S1.对文档进行预处理，包括分词、停用词的去除以及筛选词频最高前N位的词作为候选主题词的词集；

S2.利用词汇之间的关联关系衡量文本主题词关联度；

S3.构建词汇的网络空间模型，词的空间模型以词为节点，以关联性作为边的无向派系网络；

S4.采用派系过滤算法，即CPM算法对词的网络空间模型图进行重叠社区划分；

S41.按照迭代递归的方法找到满足度数要求的网络的大小不同派系；

S42.构建基于词间关联性的带权派系，用派系变异系数来衡量词语关联稳定性；

S5.根据S4所得的所有带权派系，建立带权派系重叠矩阵；

S6.根据输入值k和带权派系重叠矩阵，构建带权派系连接矩阵，产生k个主题划分结果，即形成k个主题簇，构成文章表达的特定主题；

S7.根据划分结果找到不同主题簇之间的连接特征，找到不同主题簇之间的连接词；

S8.找到主题簇里面的主题词，通过对主题簇进行提取，根据S2所得的主题簇里面的关联度求出主题簇内的连接权重，比较主题簇里面的各个词语的连接性得出该主题簇的主题词，主题簇内连接权重最大的词语即为该主题簇的主题词；

优选的，所述的S2包括以下步骤；

S21.计算文档中每一个词的相对共现度C：

其中w_x表示词语a，w_y表示词语b，(w_x|w_y)在一定的滑动窗口下表示在词语“词语b”出现的情况下，出现词语“词语a”的概率；

S22.用互信息进行衡量词与词之间的相似性PMI：

其中x表示词语c，y表示词语d；p(x)表示词语c在一段文本中出现的概率、p(x，y)表示在一段文本中词语c与词语d同时出现的概率、p(y|x)表示在一段文本中出现词语c的情况下出现词语d的概率、p(x|y)表示在一段文本中出现词语d的情况下出现词语c的概率；

S23.根据S21所得的共现度与S22互信息定义，两个词汇之间的关联性S为：

S(x,y)＝αC(x,y)+βPMI(x,y) (4)

其中，α和β是人为设定的参数，两者之和为1。

优选的，所述的S4包括以下步骤：

S411.按照迭代递归的方法找到满足度数要求的网络的大小不同派系，首先根据预知的k，提取复杂网络中度数大于k-1的节点，k为先验系数，缩小派系搜索过程所花费的时间；

S412.寻找度数最大值为g-1的节点集合：从该集合中随机一个节点出发，找到包含该节点大小为g-1的派系后，g为当前网络中度的最大值，删除该节点以及其连接的边，再另选一个节点直至集合中没有节点为止；

S413.g-2派系、g-3派系…、k派系的寻找方法按照上述步骤进行，当g＝k时，停止寻找；

S421.根据上述的方法找到了满足度数要求的大小不同的派系之后，引用词间关联性；接着根据关联性的公式计算每一个大小不同派系的关联性变异系数c.v；结合法卡斯的派系强度函数公式计算每一类派系的关联性变异系数阈值C.V^*；如果c.v小于设定的阈值C.V^*，则认为该k节点构成一个基于关联性变异系数的带权派系，否则，则忽略该k派系；该方法设置派系关联性变异系数的阈值C.V*，把派系变异系数大于该阈值的派系忽略掉，缩小整个算法的搜索空间，改进了空间网络的社团划分的流程，大大提升算法的速度。

S422.采用变异系数来衡量词语之间的关联度的稳定性，其公式为：

其中，σ表示该派系中权重的标准差，μ表示该派系中权重的平均值；

S423.在求出每一个派系的变异系数后，借助法卡斯的派系强度函数计算派系权重变异系数阈值C.V^*，其公式为：

其中，c为派系集合，u和v表示派系，k表示集合中派系的个数；

如果c.v小于设定的阈值C.V^*，则认为该k节点构成一个基于变异系数的带权派系，否则，则忽略该k派系。

优选的，还包括步骤S9.根据对主题词与连接词进行分析，获取主题词和连接词中关键句子的位置，提取相关句子生成文本摘要。

优选的，所述的步骤S9步骤中，根据对主题词与连接词进行分析，提取相关句子后借助开源摘要自动生成算法——Sequence-to-Sequence序列，生成文本摘要。

优选的，所述S8的连接权重为主题簇内一词语与其他词语关联度之和。

优选的，所述的滑动窗口大小为4个词汇。

与现有技术相比，本发明技术方案的有益效果是：

(1)提出了一种主题词自动提取的方法；是一种非监督的方法，全程不需要人为干涉，从主题的划分还是关联词的寻找，都是根据文章自身的词语特征形成的。

(2)提出了关联度来衡量主题词的关系，这种关联度充分考虑了共现度和词语间的互信息两种情况。

(3)采用重叠矩阵来划分文章的主题，CPM作为社团划分的主流，采用，用派系变异系数来衡量词语关联的稳定性，更有助于划分有效稳定的主题。

(4)采用重叠社区划分后结果的不同主题簇之间的连接词来反映不同主题之间的连接特征，这种连接特很好反映不同主题之间的承上启下的作用，有助于文章摘要顺序的生成。

附图说明

图1是本发明提供的一种文档主题词自动提取方法的流程示意图。

图2是实施例1中通过共现度和互信息描述关键词的示意图。

图3是实施例2中滑动窗口在文档中移动的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，仅用于示例性说明，不能理解为对本专利的限制。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

本实施例提供一种文档主题词自动提取方法，请参考图1，包括以下步骤：

S2.利用词汇之间的关联关系衡量文本主题词关联度；

S21.计算文档中每一个词的相对共现度C：

S22.用互信息进行衡量词与词之间的相似性PMI：

S(x,y)＝αC(x,y)+βPMI(x,y) (4)

其中，α和β是人为设定的参数，两者之和为1。

S5.根据S4所得的所有带权派系，建立带权派系重叠矩阵；

S9.根据对主题词与连接词进行分析，获取主题词和连接词中关键句子的位置，提取相关句子生成文本摘要。

作为进一步的优选实施方案，所述的步骤S9步骤中，根据对主题词与连接词进行分析，提取相关句子后借助开源摘要自动生成算法——Sequence-to-Sequence序列，生成文本摘要。

其中，所述S8的连接权重为主题簇内一词语与其他词语关联度之和。

其中，所述的滑动窗口大小为4个词汇。

如图2所示，若最终形成2个簇，其中一个簇的主题词是共现度，另一个簇的主题词是互信息。两个簇之间的关联词是“关键词”。也就是，互信息和共现度通过关键词形成了文本的两个主题的合并。第一个主题是描述互信息形成关键词的主题，第二个主题是描述共现度形成关键词的主题，该文本是采用共现度和互信息这两个不同的角度来共同描述关键词的。

生成式文本摘要主要依靠深度神经网络结构实现，Sequence-to-Sequence又称为编、解码器架构。其中Encoder、Decoder均由数层RNN/LSTM构成，Encoder负责把原文编码为一个向量C；Decoder负责从这个向量C中提取信息，获取语义，生成文本摘要。

实施例2

本实施例提供一段文本，如图3所示，计算文本中词汇的共现度与词汇之间的相似性。

计算词汇的共现度：

从第一次出现共现度的窗口，到第二次出现共现度的窗口，再到第三次出现共现度的窗口，由此可知，共现度在本文出现两次，但是在滑动窗口中，与共现度一起出现的词语只出现一次，因此，

f(w_xw_y)＝1，f(w_y)＝2.R(w_x|w_y)＝1/2。同理，R(w_y|w_x)＝1/2。C(w_y，w_x)＝1/2。

计算词汇之间的相似性：

除去停用词之后，文章有51个词语(包括重复的词，有一个算一个)，然后“词语”在文章出现了2次，“共现度”也出现了2次。“词语共现度”出现了1次。那么p(x)＝2/51；p(y)＝2/51；p(xy)＝1/51.PMI(x，y)就能根据公式求出来。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种文档主题词自动提取方法，其特征在于，包括以下步骤：

S2.利用词汇之间的关联关系衡量文本主题词关联度；

S4.采用派系过滤算法对词的网络空间模型图进行重叠社区划分；

S5.根据S4所得的所有带权派系，建立带权派系重叠矩阵；

S8.找到主题簇里面的主题词，通过对主题簇进行提取，根据S2所得的主题簇里面的关联度求出主题簇内的连接权重，比较主题簇里面的各个词语的连接性得出该主题簇的主题词，主题簇内连接权重最大的词语即为该主题簇的主题词。

2.根据权利要求1所述的文档主题词自动提取方法，其特征在于，所述的S2包括以下步骤；

S21.计算文档中每一个词的相对共现度C：

S22.用互信息进行衡量词与词之间的相似性PMI：

S(x,y)＝αC(x,y)+βPMI(x,y) (4)

其中，α和β是人为设定的参数，两者之和为1。

3.根据权利要求2所述的文档主题词自动提取方法，其特征在于，所述的S4包括以下步骤：

S411.按照迭代递归的方法找到满足度数要求的网络的大小不同派系，首先根据预知的k，提取复杂网络中度数大于k-1的节点，k为先验系数；

S421.根据上述的方法找到了满足度数要求的大小不同的派系之后，引用词间关联性；接着根据关联性的公式计算每一个大小不同派系的关联性变异系数c.v；结合法卡斯的派系强度函数公式计算每一类派系的关联性变异系数阈值C.V^*；如果c.v小于设定的阈值C.V^*，则认为该k节点构成一个基于关联性变异系数的带权派系，否则，则忽略该k派系；

4.根据权利要求1所述的文档主题词自动提取方法，其特征在于，还包括

5.根据权利要求4所述的文档主题词自动提取方法，其特征在于，所述的步骤S9步骤中提取相关句子后借助开源摘要自动生成算法生成文本摘要。

6.根据权利要求1所述的文档主题词自动提取方法，其特征在于，所述S8的连接权重为主题簇内一词语与其他词语关联度之和。

7.根据权利要求2所述的文档主题词自动提取方法，其特征在于，所述的滑动窗口大小为4个词汇。