CN110717042A

CN110717042A - 一种构建文档-关键词异构网络模型方法

Info

Publication number: CN110717042A
Application number: CN201910904571.0A
Authority: CN
Inventors: 段大高; 闫光宇; 韩忠明; 杨伟杰; 尹丹琪
Original assignee: Beijing Technology and Business University
Current assignee: Beijing Technology and Business University
Priority date: 2019-09-24
Filing date: 2019-09-24
Publication date: 2020-01-21

Abstract

本发明公开一种构建文档‑关键词异构网络模型方法，包括：获取大量文本语料作为语料库；获取相应停用词语料；对获取的所有文本进行去停用词处理；计算和保存每个单词词频；计算和保存关键词间互信息；计算和保存文档‑词的权重；构建文档‑词异构网络。与现有技术相比，本发明的有益效果是：本发明所提供的一种构建文档‑关键词异构网络模型方法，构建语料库的文本语料和停用词语料容易获取，关键词处理过程简单有效，边缘权重易于计算获得，可将无结构化或半结构化的文本文档转换成能够被各种处理算法识别与计算的结构化形式，可以将本发明应用于文本特征提取或者文本聚类后端处理领域，从而为人们提供有价值的信息。

Description

一种构建文档-关键词异构网络模型方法

技术领域

本发明涉及数据挖掘与自然语言处理技术领域，特别是涉及一种可应用于提取文档向量、文本分类、链路预测等下游任务的构建文档-关键词异构网络模型方法。

背景技术

现如今，文本已经成为众多平台上研究的热点问题，同时由于大多数文本都是非结构化或半结构化数据，文本挖掘已经是面向多领域进行数据挖掘重要的研究角度之一。同时随着互联网的逐渐普及，网络文本的数据规模越来越大，信息量的增长速度也随之逐渐扩大，要从海量数据中知道到用户所需要的信息也逐渐变得越来越困难。

传统的方法，包括有对一篇文档所包含的所有词向量求平均值，运用基于神经网络概率理论对自然语言进行处理的doc2vec模型等。最近，包括卷积神经网络(CNN)和循环神经网络(RNN)等在内的深度学习模型已广泛用于学习文本表示，但由于CNN和RNN优先考虑局部性和序列性，这些深度学习模型虽然可以获取局部连续词序列中的语义和句法信息，但忽略了语料库中非连续的全局词共现和长距离语义。针对这个问题，我们提出一种新的构建文档-关键词异构网络模型方法。

发明内容

本发明的目的是提供一种新的构建文档-关键词异构网络模型方法，将无结构化或半结构化的文本文档转换成能够被各种处理算法识别与计算的结构化形式，可以将本发明应用于文本特征提取或者文本聚类后端处理领域，从而为人们提供有价值的信息。以解决上述现有技术存在的问题。

为实现上述目的，本发明提供了如下技术方案：

1)获取大量文本语料作为语料库；

2)获取停用词语料；

3)对所有文本进行去停用词处理；

4)计算和保存每个单词词频，所述词频定义为某个单词在某一篇文章中出现的次数，取词频大于等于N的单词作为关键词，所述N为本发明预定义的一个固定的整数值，其数值大于1；

5)计算和保存关键词间互信息PMI(i,j)，如下述公式所示：

其中，i和j是步骤4)中作为关键词的单词，#W(i)是语料库中包含单词i的文档的数量，#W(i,j)是同时包含单词i和j的文档的数量，#W是语料库中文档的总数量；PMI(i,j)>0表示语料库中单词的高语义相关性，PMI(i,j)<0表示语料库中很少或没有语义相关性；

6)计算和保存文档-词的权重，如下述公式所示：

TF-IDF＝tf(t，D_i)×idf(t)

其中,tf(t,D_i)为单词t在第i篇文档中的词频，M为文档的总数，n_t为文档集中出现单词t的文档数量，IDF表示倒文本频率，倒文本频率是文本频率的倒数，所述文本频率是指某个关键词在整个语料所有文章中出现的次数；

7)构建文档-词异构网络

把每个文档作为网络中的一个节点、每个关键词也作为一个节点，再构建节点间的边，节点i和节点j之间的边缘权重定义为A_ij，如下述公式所示：

本发明公开了以下技术效果：本发明公开的构建文档-关键词异构网络模型方法在对文本内容压缩以及转换的过程当中，数据容易获取，关键词处理过程简单有效，边缘权重易于计算获得，然后构建文本-关键词网络，即找到每个文本关键词后对大量文本进行转换成一个异构网络，这可以极大地压缩文本规模，同时尽可能少的丢失文本内基本信息，可将无结构化或半结构化的文本文档转换成能够被各种处理算法识别与计算的结构化形式，完成对文本文档的分析处理任务，可以将本发明构建的文本-关键词异构网络有效应用于文本特征提取或者文本聚类等后端处理，从而为人们提供有价值的信息。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明方法的流程图；

图2为本发明构建的文本-关键词异构网络示例图。

其中D7、D10等表示文本节点、cardiac、sarcona等表示单词节点。

图3所示为本发明具体实施方式步骤7中文本-关键词异构网络邻接矩阵示例图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明的原理是：本实施例是以英文文本做例子进行阐述，首先收集大量的英文文本语料，下载英文停用词语料，利用停用词语料对收集的所有文本语料做去停用词处理，然后计算并保存每个文档中词的词频，取词频大于正整数n的词作为关键词，其中n为预定义的值大于1的整数值，其次计算并保存文本关键词权重TF-IDF以及关键词间权重PMI，最后定义网络节点以及节点和节点边缘权重。

参见附图1-3，本发明提供一种构建文档-关键词异构网络模型方法，具体包括：

1)获取大量英文文本语料作为语料库，以数据集“20Newsgroups”为例，其下载地址为：http://qwone.com/jason/20Newsgroups/20news-bydate.tar.gz，其中包括18846个文档，为方便描述，本发明用此数据中的3个文档来构建复杂网络示例，分别用D₁、D₂、D₃表示所述文档；

2)获取英文停用词语料，以新浪用户总结的停用词为例，下载地址为：http://blog.sina.com.cn/s/blog_a19ab3770102wjau.html，其中包括891个停用词，包含“‘about’，‘above’，‘also’，‘I’，‘want’，‘to’，‘the’……”等。本发明用此数据来筛选关键词；

3)用步骤2)获取的英文停用词语料对步骤1)中的英文文本进行去停用词处理,若文本中出现‘about’，‘above’，‘also’，I’，‘want’，‘to’，‘the’……等891个停用词，则在文本中删除这些词，最后得到去停用词以后的文档集合。例如文档D1中包含：“I want to flyin the sky.”,根据停用词顺序删除停用词表中的词，首先在文档中寻找about’，若存在，则删除‘about’；然后在文档中删除‘above’；……直至删除到停用词表中最后一个词。由于“‘I’，‘want’，‘to’，‘in’，‘the’”均为停用词，所以去停用词后的文档D₁为“fly sky”。

4)计算和保存步骤3)中得到的单词的词频(TF)，所述词频定义为某个单词在某一篇文章中所出现的次数，取词频大于等于5的词作为关键词，则文档D₁包含关键词{w₁,w₂}，文档D₂包含关键词{w₁,w₃}，文档D₃包含关键词{w₃,w₄}；

5)计算和保存关键词间互信息PMI(i,j)，如下述公式所示：

其中，i和j是步骤4)中作为关键词的单词，#W(i)是语料库中包含单词i的出现的文档的数量，#W(i,j)是单词i和j同时出现在同一篇文档的文档数量，#W是语料库中文档的总数量，正PMI值表示语料库中作为关键词的单词间的高语义相关性，而负PMI值表示语料库中作为关键词的单词间很小或没有语义相关性。对于示例中的三篇文档，PMI(w₁,w₂)＝0.176,PMI(w₁,w₃)＝-0.125,PMI(w₁,w₄)＝0,PMI(w₂,w₃)＝0,PMI(w₂,w₄)＝0,PMI(w₃,w₄)＝0.176；

6)计算和保存文档-词的权重,如下述公式所示：

TF-IDF＝tf(t，D_i)×idf(t)

其中，tf(t,D_i)为词t在第i篇文档中的词频，M为文档的总数，n_t为文档集中出现单词t的文档数，IDF表示计算倒文本频率，文本频率是指某个关键词在整个语料所有文章中出现的次数，倒文本频率是文本频率的倒数，主要用于降低所有文档中一些常见却对文档影响不大的词语的作用。对于所选取的3个数据集，其文档数M为3，对于‘sky’，若其在文档D₂中出现的词频数为tf(sky,D₂)＝5，其在2个文档中为关键词则n_sky＝2，

计算得到

7)构建文档-词异构网络

把每个文档作为网络中的一个节点、每个关键词也作为一个节点，构建节点间的边，节点i和节点j之间的边缘权重定义为A_ij，如下述公式所示；

即对于异构网络邻接矩阵为A：

由于有3个文档和4个关键词，所以邻接矩阵A为7×7的矩阵，顺序为{D₁、D₂、D₃、w₁、w₂、w₃、w₄}。

根据上述异构网络临接矩阵A得到的节点间的权重值构建文档-词异构网络图结构，将无结构化或半结构化的文本文档转换成能够被各种处理算法识别与计算的结构化形式，从而可以将本发明应用于文本特征提取或者文本聚类后端处理领域，为人们提供有价值的信息。

在本发明的描述中，需要理解的是，术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

以上所述的实施例仅是对本发明的优选方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种构建文档-关键词异构网络模型方法，其特征在于：包括如下步骤：

1)获取文本语料作为语料库；

2)获取停用词语料；

3)用获取的停用词语料对获取的文本语料进行去停用词处理，得到经过去停用词处理后的单词；

4)计算和保存步骤3)中得到的单词的词频，所述词频定义为某个单词在某一篇文章中出现的次数，取词频大于等于N的单词作为关键词，所述N为本发明预定义的一个固定的整数值，其数值大于1；

5)计算和保存关键词间互信息PMI(i,j)，如下述公式所示：

其中，i和j是步骤4)中作为关键词的单词，#W(i)是语料库中包含单词i的文档的数量，#W(i,j)是同时包含单词i和j的文档的数量，#W是语料库中文档的总数量；

6)计算和保存文档-词的权重TF-IDF，如下述公式所示：

TF-IDF＝tf(t,D_i)×idf(t)

7)构建文档-词异构网络。

2.根据权利要求1所述的构建文档-关键词异构网络模型方法，其特征在于，步骤7)具体过程为：把每个文档作为网络中的一个节点，每个关键词也作为一个节点，然后构建不同节点之间的边，节点i和节点j之间边的边缘权重A_ij，用如下公式计算得到：