CN105912524B

CN105912524B - 基于低秩矩阵分解的文章话题关键词提取方法和装置

Info

Publication number: CN105912524B
Application number: CN201610218407.0A
Authority: CN
Inventors: 郎丛妍; 何伟明; 于兆鹏; 冯松鹤; 王涛; 杜雪涛; 张晨
Original assignee: Beijing Jiaotong University; China Mobile Group Design Institute Co Ltd
Current assignee: Beijing Jiaotong University; China Mobile Group Design Institute Co Ltd
Priority date: 2016-04-09
Filing date: 2016-04-09
Publication date: 2019-08-20
Anticipated expiration: 2036-04-09
Also published as: CN105912524A

Abstract

本发明实施例提供了一种基于低秩矩阵分解的文章话题关键词提取方法和装置。该方法主要包括：使用将词表征为实数值向量的工具训练数据预处理后的文章文本，得到词向量化文件，使用基于文本图模型的关键词抽取算法抽取数据预处理后的文章文本中的特定话题下每个事件的关键词，根据抽取的关键词查询词向量化文件，建立特定话题下的关键词矩阵；采用增广拉格朗日乘子算法求解关键词矩阵的低秩分解问题，得到关键词低秩矩阵，最终生成所述数据预处理后的文章文本中所述特定话题下的关键词。本发明采用低秩矩阵分解的方法生成微博等文章话题的关键词，有效的解决了微博等文章话题关键词的稀疏性问题，大大降低了非关键词数据噪声的干扰。

Description

基于低秩矩阵分解的文章话题关键词提取方法和装置

技术领域

本发明涉及文章关键字提取技术领域，尤其涉及一种基于低秩矩阵分解的文章话题关键词提取方法和装置。

背景技术

现在已经进入Web3.0时代，信息呈现指数爆炸式增长，如何提高信息访问效率成为一个越来越重要的问题。为了对海量信息进行有效地组织、压缩和检索，人们迫切地希望通过若干个词语对信息进行很好地概括或索引。以微博为代表的新兴媒体成为人们交流、分享的重要渠道。一个关键词抽取系统对如何快速地寻找用户感兴趣的话题，以及如何监管话题的内容都具有着重要的意义。

微博文本相比传统新闻文本字数较少，并且微博话题种类较，微博内容杂乱，质量参差不齐。有一些内容涉及色情、恐怖以及一些其他的不良微博，人工进行管控，工作量巨大。若能抽取微博的关键词，则能快速定位不良微博，管控舆情走向，因此，开发一种有效地提取微博话题关键词的方法是十分必要的。

发明内容

本发明的实施例提供了一种基于低秩矩阵分解的文章话题关键词提取方法和装置，以实现有效地对文章话题关键词进行提取。

为了实现上述目的，本发明采取了如下技术方案。

一种基于低秩矩阵分解的文章话题关键词提取方法，包括：

使用将词表征为实数值向量的工具训练数据预处理后的文章文本，得到词向量化文件，该词向量化文件中包括多个词语向量，所述词语包含关键词和非关键词；

使用基于文本图模型的关键词抽取算法抽取所述数据预处理后的文章文本中的特定话题下每个事件的关键词，根据抽取的关键词查询所述词向量化文件，建立所述特定话题下的关键词矩阵；

采用增广拉格朗日乘子算法求解所述关键词矩阵的低秩分解问题，得到关键词低秩矩阵，最终生成所述数据预处理后的文章文本中所述特定话题下的关键词。

进一步地，所述的使用将词表征为实数值向量的工具训练数据预处理后的文本之前还包括：对待处理的文章文本进行数据预处理，该数据预处理包括清洗、分词、去除停用词。

进一步地，所述的将词表征为实数值向量的工具包括：word2vec工具。

进一步地，所述的使用基于文本图模型的关键词抽取算法抽取所述数据预处理后的文章文本中的特定话题下每个事件的关键词，根据抽取的关键词查询所述词向量化文件，建立所述特定话题下的关键词矩阵，包括：

针对特定话题，使用基于文本图模型的关键词抽取算法将前述分词处理后的文章文本中的词语作为文本图模型的顶点，词语之间的关系作为文本图的边，建立文本图模型，顶点的权重的计算公式如下：

其中WS(V_i)表示词语i的权重；P是预先设置的阻尼系数，In(V_i)是存在指向词语i的所有词语的集合；Out(V_j)是词语j指向的所有词语的集合；w_ij表示词语i和词语j之间的联系强度；

将所有词语的权值进行降序排序，选取排列靠前的设定数量个词语作为关键词；

根据所述抽取的关键词查询所述词向量化文件，获取关键词对应的关键词向量，根据所有的关键词向量组成关键词矩阵：

其中，k_i为特定话题下第i个事件抽取的关键词的个数，n为每个事件抽取的关键词的个数，d为每个关键词向量的维数。

进一步地，所述的采用增广拉格朗日乘子算法求解所述关键词矩阵的低秩分解问题，得到关键词低秩矩阵，最终生成所述数据预处理后的文章文本中所述特定话题下的关键词，包括：

所述关键词矩阵的分解的式子如下：

X＝XZ+E

其中，X是观测到的数据矩阵，即所述关键词矩阵W(r*n)，Z是要恢复的低秩性矩阵，E为数据噪声；

基于低秩矩阵分解的文章话题关键词提取方法，得到凸优化问题如下式：

s.t.X＝XZ+E

Z＝J

λ是约束参数，J是要求解的关键词低秩矩阵；

所述凸优化问题采用增广的拉格朗日乘子方法求解，要求解的最小化拉格朗日函数构造如下：

其中，Y和W均是拉格朗日乘子，参数μ＞0是惩罚参数，通过对固定无关变量进行迭代优化，求解出所述关键词低秩矩阵J。

一种基于低秩矩阵分解的文章话题关键词提取装置，包括：

词向量化文件生成模块，用于使用将词表征为实数值向量的工具训练数据预处理后的文章文本，得到词向量化文件，该词向量化文件中包括多个词语向量，所述词语包含关键词和非关键词；

关键词矩阵建立模块，用于使用基于文本图模型的关键词抽取算法抽取所述数据预处理后的文章文本中的特定话题下每个事件的关键词，根据抽取的关键词查询所述词向量化文件，建立所述特定话题下的关键词矩阵；

关键词获取模块，用于采用增广拉格朗日乘子算法求解所述关键词矩阵的低秩分解问题，得到关键词低秩矩阵，最终生成所述数据预处理后的文章文本中所述特定话题下的关键词。

进一步地，所述的装置还包括：

数据预处理模块，用于使用将词表征为实数值向量的工具训练数据预处理后的文本之前还包括：对待处理的文章文本进行数据预处理，该数据预处理包括清洗、分词、去除停用词。

进一步地，所述的关键词矩阵建立模块，具体用于针对特定话题，使用基于文本图模型的关键词抽取算法将前述分词处理后的文章文本中的词语作为文本图模型的顶点，词语之间的关系作为文本图的边，建立文本图模型，顶点的权重的计算公式如下：

其中，k_i为特定话题下第i个事件抽取的关键词的个数，

n为每个事件抽取的关键词的个数，d为每个关键词向量的维数。

进一步地，所述的关键词获取模块，具体用于设所述关键词矩阵的分解的式子如下：

X＝XZ+E

s.t.X＝XZ+E

Z＝J

λ是约束参数，J是要求解的关键词低秩矩阵；

由上述本发明的实施例提供的技术方案可以看出，本发明实施例可应用到社交网络媒体语义识别以及文本舆情分析等领域，具有广阔的应用前景。本发明采用低秩矩阵分解的方法生成微博等文章话题的关键词，有效的解决了微博等文章话题关键词的稀疏性问题，大大降低了非关键词数据噪声的干扰。本发明系统的所有模块都是完全自动的，不需要人工干预，因此可以嵌入到各类Web信息过滤系统中去。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供了一种基于低秩矩阵分解的文章话题关键词提取方法的流程图；

图2是本发明实施例提供的一种关键词矩阵的具体构建实例示意图；

图3为本发明实施例提供的一种基于低秩矩阵分解的文章话题关键词提取装置的具体结构图，包括：数据预处理模块31，词向量化文件生成模块32，关键词矩阵建立模块33，关键词获取模块34。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。

实施例一

本发明实施例提供了一种基于低秩矩阵分解的文章话题关键词提取方法的流程图如图1所示，该方法包括以下步骤：

步骤S110：对待处理的文章中的文本进行清洗、分词、去除停用词的数据预处理，以得到便于后续事件关键词抽取的文本。上述文章可以为新闻、微博、博客和评论等。

本发明在文本预处理阶段主要做了如下的文本预处理：去除文章文本中的网址链接、表情符号、无效字符；由于中文词语之间没有空格，因此在进行关键词提取之前需要进行文本的分词，本发明采用效果较好的开源的自然语言处理工具包——HanLP进行分词；接着去除文本中的停用词，比如“的”、“但是”，“啊”、“比如”等无实际含义的词语。

步骤S120：使用谷歌开源的提取深度学习特征的工具-word2vec训练预处理后的文章，将文章中的词语转换成向量的形式，以得到文本的词向量文件。

使用word2vec工具训练去除停用词后的文章文本。word2vec是Google在2013年年中开源的一款将词表征为实数值向量的高效工具，其利用深度学习的思想，可以通过训练，把对文章文本内容的处理简化为K维向量空间中的向量运算。在实际应用中，通常取K＝200。该工具共有两个模型——CBOW和Skip-gram模型，本发明使用较为常用的Skip-gram模型以及取K＝200进行训练文本，得到分析语料的所有词语的词向量化文件vectors.bin，

该词向量化文件vectors.bin包括多个词语向量，每个词语向量的维数为K，vectors.bin相当于一个词典，其中的词语数量远远大于关键词的数量，它是所有词语(其中包含关键词与非关键词)的集合，一个词语对应一个向量。

步骤S130：使用基于TextRank算法抽取特定话题下每个事件的关键词，并根据word2vec训练生成的词向量文件建立该话题的关键词矩阵。

所述的TextRank算法是基于文本图模型的关键词抽取算法，将前述分词处理后的文章文本中的词语作为文本图模型的顶点，词语之间的关系作为文本图的边，建立文本图模型，顶点的权重要通过计算得到。TextRank方法的关键是计算文本图模型中的词语权重，计算的公式如下：

其中WS(V_i)表示词语i的权重；P是阻尼系数，是一个预先设置的常量；In(V_i)是存在指向关键词i的所有关键词的集合；Out(V_j)是词语j指向的所有的关键词的集合；w_ij表示词语i和词语j之间的联系强度。本发明，采用通常情况下的阻尼系数，即取P＝0.85。

词语i和词语j是分词之后得到的词语，要通过上述公式的权值计算，判断其是否为关键词，最后迭代得到的WS(Vi)越大，这个词就越重要，也就是关键词。比如，最后根据权值降序排序，取前10个左右词语即为关键词。

根据上述抽取的关键词查询上述词向量化文件vectors.bin，获取关键词对应的关键词向量，根据所有的关键词向量组成关键词矩阵：

其中，k_i为特定话题下第i个事件抽取的关键词的个数，n为每个事件抽取的关键词的个数，其具体数值根据具体的事件的关键词的个数而定，不同的事件n的大小可能不同，d为每个关键词向量的维数，等于上文中所提的词语向量维数K(K＝200)，即d＝200。

步骤S140：采用增广拉格朗日乘子(ALM)算法求解关键词矩阵的低秩分解问题，以得到关键词低秩矩阵，最终生成特定话题的关键词。

关键词矩阵的分解的式子如下：

X＝XZ+E

其中，X是观测到的数据矩阵，即上文所述的关键词矩阵W(r*n)，Z是我们要恢复的低秩性矩阵，E为数据噪声，该数据噪声是文本中自带的，不需要求出。

基于低秩矩阵分解的文章话题关键词提取方法，可得到凸优化问题如下式：

s.t.X＝XZ+E

Z＝J

λ是约束参数，J是要求解的低秩矩阵。

这个问题可采用增广的拉格朗日乘子方法(ALM)求解，要求解的最小化拉格朗日函数构造如下：

其中，Y和W均是拉格朗日乘子，参数μ＞0是惩罚参数。该问题是凸问题，都具有闭合形式的解，每次通过固定无关变量，然后分别对相关变量进行迭代优化求解，求解出所述关键词低秩矩阵J。然后，将所述关键词低秩矩阵J中的关键词作为所述文章文本中所述特定话题下的关键词。

图2示出了本发明求解出的关键词矩阵的具体构建实例，其中n₁列表示第该话题下的第一个事件的所有关键词，n₁列和n₃列具有相同的元素d₁，表明事件1和事件3都含有关键词w₁，每个关键词向量w_i都由上文中的word2vec训练得到，为d维的向量，d的取值一般为200；0表示该事件不含有相关的关键词；m是所有事件提取的关键词个数的总和，而每个关键词的维数为d，每个话题包含n个事件，因此话题关键词矩阵X为r*n，r＝m*d；

实施例二

该实施例提供了一种基于低秩矩阵分解的文章话题关键词提取装置，该装置的具体结构如图3所示，包括：

数据预处理模块31，用于使用将词表征为实数值向量的工具训练数据预处理后的文本之前还包括：对待处理的文章文本进行数据预处理，该数据预处理包括清洗、分词、去除停用词。

词向量化文件生成模块32，用于使用将词表征为实数值向量的工具训练数据预处理后的文章文本，得到词向量化文件，该词向量化文件中包括多个词语向量，所述词语包含关键词和非关键词；

关键词矩阵建立模块33，用于使用基于文本图模型的关键词抽取算法抽取所述数据预处理后的文章文本中的特定话题下每个事件的关键词，根据抽取的关键词查询所述词向量化文件，建立所述特定话题下的关键词矩阵；

关键词获取模块34，用于采用增广拉格朗日乘子算法求解所述关键词矩阵的低秩分解问题，得到关键词低秩矩阵，最终生成所述数据预处理后的文章文本中所述特定话题下的关键词。

进一步地，所述的关键词矩阵建立模块33，具体用于针对特定话题，使用基于文本图模型的关键词抽取算法将前述分词处理后的文章文本中的词语作为文本图模型的顶点，词语之间的关系作为文本图的边，建立文本图模型，顶点的权重的计算公式如下：

进一步地，所述的关键词获取模块34，具体用于设所述关键词矩阵的分解的式子如下：

X＝XZ+E

s.t.X＝XZ+E

Z＝J

λ是约束参数，J是要求解的关键词低秩矩阵；

用本发明实施例的装置进行基于低秩矩阵分解的文章话题关键词提取的具体过程与前述方法实施例类似，此处不再赘述。

综上所述，本发明实施例可应用到社交网络媒体语义识别以及文本舆情分析等领域，具有广阔的应用前景。本发明具有以下优点：

1、本发明提供的这种微博等文章的关键词抽取方法，重点解决了短文本的关键词抽取方法，并开创性的研究微博等文章话题关键词生成方法。

2、采用低秩矩阵分解的方法生成微博等文章话题的关键词，有效的解决了微博等文章话题关键词的稀疏性问题，大大降低了非关键词数据噪声的干扰。

3、本系统的所有模块都是完全自动的，不需要人工干预，因此可以嵌入到各类Web信息过滤系统中去。此外，本系统还可以作为子系统嵌入到通用舆情分析系统中。具有广泛的应用前景。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于低秩矩阵分解的文章话题关键词提取方法，其特征在于，包括：

采用增广拉格朗日乘子算法求解所述关键词矩阵的低秩分解问题，得到关键词低秩矩阵，最终生成所述数据预处理后的文章文本中所述特定话题下的关键词；

所述的使用基于文本图模型的关键词抽取算法抽取所述数据预处理后的文章文本中的特定话题下每个事件的关键词，根据抽取的关键词查询所述词向量化文件，建立所述特定话题下的关键词矩阵，包括：

针对特定话题，使用基于文本图模型的关键词抽取算法将前述分词处理后的文章文本中的词语作为文本图模型的顶点，词语之间的关系作为文本图的边，建立文本图模型，顶点的权重的计算公式如下:

其中WS(V_i)表示词语i的权重，WS(V_j)表示词语j的权重；P是预先设置的阻尼系数，In(V_i)是存在指向词语i的所有词语的集合；Out(V_j)是词语j指向的所有词语的集合；w_ij表示词语i和词语j之间的联系强度，w_jk表示词语j和词语k之间的联系强度；

W(r*n)，r＝m*d，

2.根据权利要求1所述的基于低秩矩阵分解的文章话题关键词提取方法，其特征在于，所述的使用将词表征为实数值向量的工具训练数据预处理后的文本之前还包括：对待处理的文章文本进行数据预处理，该数据预处理包括清洗、分词、去除停用词。

3.根据权利要求1所述的基于低秩矩阵分解的文章话题关键词提取方法，其特征在于，所述的将词表征为实数值向量的工具包括：word2vec工具。

4.根据权利要求1所述的基于低秩矩阵分解的文章话题关键词提取方法，其特征在于，所述的采用增广拉格朗日乘子算法求解所述关键词矩阵的低秩分解问题，得到关键词低秩矩阵，最终生成所述数据预处理后的文章文本中所述特定话题下的关键词，包括：

所述关键词矩阵的分解的式子如下：

X＝XZ+E

s.t.X＝XZ+E

Z＝J

λ是约束参数，J是要求解的关键词低秩矩阵；

其中，Y和W均是拉格朗日乘子，参数μ>0是惩罚参数，通过对固定无关变量进行迭代优化，求解出所述关键词低秩矩阵J。

5.一种基于低秩矩阵分解的文章话题关键词提取装置，其特征在于，包括：

关键词获取模块，用于采用增广拉格朗日乘子算法求解所述关键词矩阵的低秩分解问题，得到关键词低秩矩阵，最终生成所述数据预处理后的文章文本中所述特定话题下的关键词；

所述的关键词矩阵建立模块，具体用于针对特定话题，使用基于文本图模型的关键词抽取算法将前述分词处理后的文章文本中的词语作为文本图模型的顶点，词语之间的关系作为文本图的边，建立文本图模型，顶点的权重的计算公式如下:

其中WS(V_i)表示词语i的权重，WS(V_j)表示词语j的权重；P是预先设置的阻尼系数，In(Vi)是存在指向词语i的所有词语的集合；Out(V_j)是词语j指向的所有词语的集合；w_ij表示词语i和词语j之间的联系强度，w_jk表示词语j和词语k之间的联系强度；

W(r*n)，r＝m*d，

其中，k_i为特定话题下第i个事件抽取的关键词的个数，

6.根据权利要求5所述的基于低秩矩阵分解的文章话题关键词提取装置，其特征在于，所述的装置还包括：

7.根据权利要求6所述的基于低秩矩阵分解的文章话题关键词提取装置，其特征在于，所述的将词表征为实数值向量的工具包括：word2vec工具。

8.根据权利要求7所述的基于低秩矩阵分解的文章话题关键词提取方法，其特征在于：

所述的关键词获取模块，具体用于设所述关键词矩阵的分解的式子如下：

X＝XZ+E

s.t.X＝XZ+E

Z＝J

λ是约束参数，J是要求解的关键词低秩矩阵；