CN109815400A

CN109815400A - 基于长文本的人物兴趣提取方法

Info

Publication number: CN109815400A
Application number: CN201910061518.9A
Authority: CN
Inventors: 占梦来; 张磊; 张军; 罗爽; 邹佩良
Original assignee: Sichuan Chengzhi Hearing Technology Co Ltd; University of Electronic Science and Technology of China
Current assignee: Sichuan Chengzhi Hearing Technology Co Ltd; University of Electronic Science and Technology of China
Priority date: 2019-01-23
Filing date: 2019-01-23
Publication date: 2019-05-28

Abstract

本发明公开一种基于长文本的人物兴趣提取方法，包括：S1、文本预处理；S2、对经步骤S1处理后的文本，分别采用TextRank和RAKE来提取同一文本的关键词；S3、采用训练好的LDA模型对经步骤S1处理后的文本进行预测，得到文本主题分布情况；S4、对步骤S2提取的各关键词采用训练好的Word2Vec模型，将其转换为词向量；将各关键词对应的词向量加入到文本特征向量中；S5、将步骤S3得到的文本主题分布情况加入到步骤S4得到的文本特征向量中；S6、采用训练好的二分类支持向量机，提取出文本中的人物兴趣分类结果；本发明方法能够有效提高最终提取结果准确率。

Description

基于长文本的人物兴趣提取方法

技术领域

本发明属于数据挖掘领域，特别涉及一种社交媒体用户个性化推荐技术。

背景技术

随着计算机和互联网应用技术的快速发展，人类在短短几十年间从很难获取到信息的时代飞跃到信息过载时代。在这个信息大爆炸时代，人类可以通过各类应用访问并获取各种各样的新闻、信息等，但是这种爆炸式增长的信息使得消费者能够获得其感兴趣信息的更加的困难，消费者最终会被繁杂的信息所困扰，无法找到真正感兴趣的信息。对于生产者，如何使得自己的产品从繁多的产品中脱颖而出所面临的问题更加严峻。

近年来，个性化推荐变得越来越热门，就是因为它能在一定程度上解决上面的问题。个性化推荐系统中很重要的就是如何把产品或信息与用户的兴趣相关联起来。因为如今互联网信息最重要的信息载体还是文本，那么如何从文本中提取出人物兴趣就成研究重点。如今的兴趣提取模型(参考：张岱.基于内容特征提取的兴趣建模[D].北京邮电大学,2015)主要包括以下几种方法：基于关键词的兴趣提取模型、基于主题的兴趣提取模型、基于词向量的兴趣提取模型等。

(1)基于关键词的兴趣提取模型

基于关键词提取模型主要通过例如TF-IDF、IG、卡方统计量等关键词提取方法从文本中提取出关键词，然后利用余弦夹角等算法计算彼此的相似度，利用相似度来表征兴趣的距离。该方法的特点是简单容易操作，可解释型强，但是其准确性不够精确，而且对于长文本来说若干关键词很难全面的涵盖长文本的信息。

(2)基于主题的兴趣提取模型

基于主题的兴趣提取模型是一个文本生成概率模型。通过给文本-主题-词三者一个先验概率，利用文本信息选择主题，主题选择单词的概率过程。经过训练后，每个主题都能被表示为一系列词的加权和，而文本被表示为主题的加权和。

该方法能够直接获得文本的主题表征，也能获得潜在非人为分类的主题。但是无法与一个预定义好的兴趣分类主题相对应，并且无法获得一个低纬度的主题向量空间。最重要的是模型训练出的主题分布与语料库高度相关，主题提取与分类过程混合在一起，当兴趣类别语料库发生变更时，需要重新训练整个模型。

(3)基于词向量的兴趣提取模型

基于词向量的兴趣提取模型利用词向量模型将词变为一个带有语义信息的实值向量，其中的词的语义信息可以通过词向量的余弦相似度来获得。基于词向量的兴趣提取模型一般与上面两种方法结合起来一起使用，将上面的关键词或者主题词表征为词向量，然后可以通过计算相似度或者机器学习方法来提取出文本中的兴趣。

发明内容

为解决上述技术问题，本发明提出一种基于长文本的人物兴趣提取方法，在构建文本特征向量结合了关键词、主题、词向量，能充分提取出文本的人物兴趣信息。

本发明采用的技术方案为：基于长文本的人物兴趣提取方法，包括：

S1、对去除多余web标签后的纯文本进行去除停用词、词干还原、去除特殊字符的处理；

S2、对经步骤S1处理后的文本，分别采用TextRank和RAKE来提取同一文本的关键词；

S3、采用训练好的LDA模型对经步骤S1处理后的文本进行预测，得到文本主题分布情况；

S4、对步骤S2提取的各关键词采用训练好的Word2Vec模型，将其转换为词向量；将各关键词对应的词向量加入到文本特征向量中；

S5、将步骤S3得到的文本主题分布情况加入到步骤S4得到的文本特征向量中；

S6、对于步骤S5得到的文本特征向量，采用训练好的二分类支持向量机，提取出文本中的人物兴趣分类结果。

进一步地，步骤S2所述TextRank提取关键词的过程为：

A1、将经步骤S1处理后的文本分割为句子序列；

A2、对于每一句子序列，进行分词和词性标注，只保留名词、动词、形容词作为候选关键词；

A3、构建候选关键词图G＝(V,E)，然后采用共现关系来构造节点间的边；V表示节点，E表示边；

A4、根据节点之间边的权重，迭代计算各节点的权重，直到收敛；所述计算各节点的权重，计算式为：

其中，WS(V_i)为节点V_i的权重，In(V_i)表示指向节点V_i的节点集合，Out(V_j)表示节点V_j指向的节点集合，w_ji表示节点V_i和V_j之间边的权重，d为阻尼系数。

A5、对节点权重进行倒序排序，得到第一确定数量的单词作为候选关键词；然后选取第二确定数量的候选关键词作为文本的关键词。

进一步地，步骤S2所述RAKE提取关键词的过程为：

B1、候选关键词提取；具体为：将文档文本根据停用词和标点符号分割成单词序列，所述单词序列即为候选关键词，其中所述标点符号被认为是句子边界；列在停止词文件中的所有词被认为是短语边界。

B2、候选关键词打分；具体为：统计每个单词序列出现的次数，得到所有单词序列总共现的次数；根据某候选关键词出现的次数与所有单词序列总共现的次数的比值，得到该候选关键词的打分。

B3、根据每个候选关键词的分数，选取第三确定数量的关键词。

进一步地，步骤S3还包括：根据文本主题分布情况得到文本关于K个主题的分布概率情况，将其视为K维向量。

进一步地，步骤S3所述LDA模型采用语料库来进行训练，所述语料库由预先定义好的兴趣分类文本构成。

本发明的有益效果：本发明在表征文本的文本特征向量时同时采用关键词和LDA模型，并且训练LDA模型时采用的语料库是由预先定义好的兴趣分类文本构成的，能够导致加入LDA模型能够提高文本表征人物兴趣的信息，最终提取结果准确率能够有效提高，具有如下优点：

(1)通过加入LDA模型，能够有效引入文本中的主题和兴趣信息。

(2)加入Word2vec模型，使得提取出来的关键词携带有语义信息；最终使得文本特征向量能够更好地表征文本中的兴趣信息；

(3)文本预处理过程中的去除web标签和保留特定编码区间的字符能保证即使是从web上爬去的长文本，在预处理后只剩下纯文本。

附图说明

图1为本发明实施例提供的CBOW模型和Skip-gram模型；

图2为本发明实施例提供的语料生成过程中的word和topic；

图3为本发明实施例提供的LDA概率图模型；

图4为本发明实施例提供的基于长文本的人物兴趣提取方法流程图；

图5为本发明实施例提供的文本预处理流程图。

具体实施方式

首先对本发明涉及的现有技术进行简要说明：

1、Word2Vec词向量模型

Word2Vec词向量模型是神经网络概率语言模型中的一种。根据语言模型的不同，分为两种模型：CBOW模型和Skip-gram模型。如图1所示，左边为CBOW模型，右边为Skip-gram模型，两种模型都分为三层：输入层，投影层和输出层。前者是在已知当前词的上下文词概率前提下预测当前的概率，后者是已知当前词的概率来预测上下文词的概率。下面主要介绍CBOW模型。图1中input为输入层，projection为投影层，output为输出层。

CBOW模型的输入层输入了文本的所有词的词向量，第一次训练前会对词向量随机初始化。投影层是一个求和器，对所有词的词向量进行求和得到中间向量。输出层是一个哈夫曼树(此时能保证编码长度总长最短)。每个叶子结点就是表示词典中一个词，每个非叶子结点都相当于一个二分类器，将非叶子结点向量分到左右子树。

CBOW模型的训练过程(参考：吴欣辉.基于中英文主题向量空间的文本分类算法[D].中国科学技术大学,2018.)如下所示：

(1)根据输入文本首先初始化，建立所有词的字典，对字典中的每个词随机赋予一个词向量，同时根据词频建立哈夫曼树。

(2)对文本进行滑动窗口输入。在当前滑动窗口中，将词w上下文的所有词向量进行求和得到中间向量。然后滑动窗口依次将文本输入到模型中训练。

(3)根据当前词w得到哈夫曼树从根节点到词w节点的路径，从而得到路径上的非叶子节点预测概率。

(4)然后将路径上的所有非叶子节点预测概率相乘就得到了当前词在上下文词的概率p，然后利用梯度下降法来优化路径上非叶子节点参数和上下文词向量得到正确路径。

(5)重复迭代n次，得到所有词的词向量。

2、LDA模型

LDA(潜在狄利克雷分布)模型是文档-主题和主题-词的先验概率服从Dirchlet分布的基于主题的文档生成概率模型。LDA模型认为一篇文档(Docunment)是由多个主题混合而成，而每个主题都是词汇上的概率分布，文章中的每个词是由主题生成的。

假设语料库中有M篇文档和V个不同的词汇，生成过程如图2所示，所有的Word和对应topic如下表示：

其中，表示第m篇文档中的词，表示这些词对应的topic的编号。

文档生成过程服从以下前提：

1)选择主题数目为K

2)对于每个主题，主题在词汇上的分布满足编号1-K

3)对于每个文档，文档在主题上的分布满足

4)对于词汇总数N,满足N～Poisson(ξ)

LDA的概率生成模型如图3所示：

其中表示doc-topic的Dirichlet先验分布参数；其中表示topic-word的Dirichlet先验分布参数；表示第k个主题的单词分布；表示第m篇文本的主题分布；z_mn表示第m篇文本中第n个词所属于的主题；w_mn表示第m篇文本中第n个词。

为便于本领域技术人员理解本发明的技术内容，下面结合附图对本发明内容进一步阐释。

如图4所示，本发明的方案流程包括以下步骤：

S1、文本预处理

本发明主要是针对从web网页爬取的长文本进行人物兴趣提取。但是因为web网页一般包含各式各样的标签，而且不同的网站样式不同，所以我们在爬取的时候无法针对特定的网页格式来直接取得纯文本。如图5所示，在去除多余的web标签后，对纯文本还要进行去除停用词、词干还原、去除特殊字符等操作。

S2、TextRank和RAKE提取关键词

在得到长文本后，分别使用TextRank和RAKE来提取同一文本的关键词来保证提取的信息足够充分。

RAKE提取关键词过程如下：

1)候选关键词的抽取。将文档文本根据停用词和标点符号分割成单词序列(候选关键词)。各种标点符号将会被认为句子边界；列在停止词文件中的所有词将会被认为是短语边界。

2)候选关键词打分。统计每个词出现的次数feq(w)，和其他单词共现的次数deg(w)，对于每一个候选词计算feq(w)/deg(w)。

3)抽取关键词。根据每个候选词的分数，选择10个关键词。

TextRank提取关键词过程如下：

1)将分割为句子序列。

2)对于每一句，进行分词和词性标注，只保留名词、动词、形容词等作为候选关键词。

3)构建候选关键词图G＝(V,E)，然后采用共现关系来构造节点间的边。两个节点存在边当且仅当它们词同时出现长度为K的窗口中。

4)根据下面的公式，迭代计算各节点的权重，直到收敛。

其中，WS(V_i)为V_i节点的权重，In(V_i)表示指向V_i节点的节点集合，Out(V_j)表示V_j节点指向的节点集合，w_ji表示V_i和V_j节点之间边的权重，d为阻尼系数

5)对节点权重进行倒序排序，得到最重要的n个单词，作为候选关键词，一般选择为n＝3/2*k。

选择最重要的k个候选关键词，作为文本的关键词，k一般取值为10。

S3、文本主题分布

首先使用足够充分的语料库来训练LDA模型，然后使用预训练好的LDA模型来对文档文本进行预测，得到文本的主题分布情况，根据分布情况得到文本关于K个主题的分布概率情况，将其视为K维向量。K的取值根据训练样本包含的主题数来决定。

这里的语料库采用的人工标记的与所需要的人物兴趣分类相对应的文本，这样能一定程度上保证文本潜在的主题概率分布与人物兴趣相对应起来。

S4、文本特征向量

首先使用足够充分的语料库(长文本)来训练Word2Vec模型，得到一个词向量序列。每个词对应着n维向量，两者之间相似度可以用余弦夹角来表征。

利用TextRank和RAKE算法得到文本的关键词，通过词向量序列将对应的词转为词向量，加入到文本特征向量中。与此同时，将上面的主题概率分布加入到文本特征向量。

对于文本特征向量，例如：

文本提取的关键词n个[关键词1，关键词2,….关键词n]；对每个关键词通过word2vec模型转为m(训练时设定的，也是可以调节的)维向量[m,m2,m2,…,mn]；加上LDA得到的K维向量；文本特征向量[m1,m2,m3,…,mn,k维]总维度为n*m+k。

S5、支持向量机

对于每篇文档的文本特征向量，将其通过预先训练好的二分类支持向量机，判别是否属于这个兴趣。经过多个模型后，就能提取出文本中的人物兴趣分类结果(可以含有多个兴趣)。

本发明能够有效准确地提取出长文本中人物兴趣。在对13217篇文档首先根据兴趣类别分类，对于每个类别，正例为提前标记好的文本，负例从归属于其他类别中随机抽样，保证正负例比例均匀，然后采用8折交叉训练，将8次情况平均后得到的结果如表1所示：

表1基于长文本的人物兴趣提取方法结果

	精确率	召回率	F1系数	AUC	样本数
						Literature	0.95	0.96	0.96	0.95	3384
Technology	0.98	0.98	0.98	0.98	3420
						Political	0.93	0.94	0.94	0.93	10590
Entertainment	0.86	0.87	0.86	0.88	1032

从上面的结果可以看出上面四个兴趣分类结果准确率都在86％以上。并且三个类别准确率都在93％以上。并且在加入LDA模型时，性能能有效提高。例如，Entertainment的准确率在83％左右，加入预先定义兴趣的LDA模型后，准确率能达到86％。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.基于长文本的人物兴趣提取方法，其特征在于，包括：

2.根据权利要求1所述的基于长文本的人物兴趣提取方法，其特征在于，步骤S2所述TextRank提取关键词的过程为：

A1、将经步骤S1处理后的文本分割为句子序列；

A3、构建候选关键词图G＝(V,E)，然后采用共现关系来构造节点间的边；

A4、根据节点之间边的权重，迭代计算各节点的权重，直到收敛；

3.根据权利要求2所述的基于长文本的人物兴趣提取方法，其特征在于，步骤A4所述计算各节点的权重，计算式为：

4.根据权利要求2所述的基于长文本的人物兴趣提取方法，其特征在于，步骤S2所述RAKE提取关键词的过程为：

B1、候选关键词提取；

B2、候选关键词打分；

5.根据权利要求4所述的基于长文本的人物兴趣提取方法，其特征在于，步骤B1具体为：将文档文本根据停用词和标点符号分割成单词序列，所述单词序列即为候选关键词，其中所述标点符号被认为是句子边界；列在停止词文件中的所有词被认为是短语边界。

6.根据权利要求5所述的基于长文本的人物兴趣提取方法，其特征在于，步骤B2具体为：统计每个单词序列出现的次数，得到所有单词序列总共现的次数；根据某候选关键词出现的次数与所有单词序列总共现的次数的比值，得到该候选关键词的打分。

7.根据权利要求6所述的基于长文本的人物兴趣提取方法，其特征在于，步骤S3还包括：根据文本主题分布情况得到文本关于K个主题的分布概率情况，将其视为K维向量。

8.根据权利要求7所述的基于长文本的人物兴趣提取方法，其特征在于，步骤S3所述LDA模型采用语料库来进行训练，所述语料库由预先定义好的兴趣分类文本构成。