CN104778161A

CN104778161A - 基于Word2Vec和Query log抽取关键词方法

Info

Publication number: CN104778161A
Application number: CN201510219784.1A
Authority: CN
Inventors: 张平
Original assignee: Che Zhi Interconnect (beijing) Technology Co Ltd
Current assignee: Che Zhi Interconnect (beijing) Technology Co Ltd
Priority date: 2015-04-30
Filing date: 2015-04-30
Publication date: 2015-07-15
Anticipated expiration: 2035-04-30
Also published as: CN104778161B

Abstract

本发明公开了一种基于Word2Vec和Query log抽取关键词方法，涉及信息处理领域。该方法包括：S1，构建目标领域的特定词表；S2，获取文档集合中每个文档的候选关键词；S3，获取每个所述候选关键词的若干维的词向量；S4，计算任意一个候选关键词L的词向量与所述中心向量的余弦相似度，判断候选关键词L是否出现在特定词表中，如果出现，则直接进入S5；如果不出现，则进入S6；S5，将得到余弦相似度乘以加权因子i，获得新余弦相似度，进入S6；S6，将余弦相似度的数值从大到小顺序排序，从余弦相似度数值最大开始输出m个余弦相似度的数值，即得最终关键词。本发明可针对特定领域文本迅速高效地提取出质量较为理想的关键词，避免引入口语化词汇且提取出的关键词质量高。

Description

基于Word2Vec和Query log抽取关键词方法

技术领域

本发明涉及信息处理领域，尤其涉及一种基于Word2Vec和Query log抽取关键词方法。

背景技术

通过文档关键词，人们可以迅速地了解文本内容，把握文档主题。关键词广泛应用于新闻报道、科技论文等领域，以方便人们高效地管理和检索文档。除了帮助人们快速筛选感兴趣的内容之外，文档关键词还可以用于搜索结果排序、文本摘要、文档分类、文档聚类、用户建模等上层应用领域。

传统的关键词抽取方法分为两种，分别为无监督方法和有监督方法。其中无监督方法包括TFIDF、Chi-squared、Text Rank、LDA等方法，而有监督方法将关键词抽取问题转换为判断每个词是否为关键词的二分类问题，在之前曾有人通过Naive Bayes和决策树C4.5等有监督方法进行关键词抽取。无监督方法和有监督方法各有其优势和劣势：无监督方法不需要人工标注训练集合，因此更加快捷，但由于无法综合利用多种信息对候选词排序，所以效果上可能不如有监督方法；而有监督方法可以通过训练学习调节多种信息对于判断关键词的影响程度，因此效果更好，但是在现今的数据时代，标注训练集合非常耗时耗力。

现有TFIDF是一种用于信息检索和文本挖掘的常用加权技术。TFIDF是一种统计方法，用以评估一个字词对于文档集合中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在文档集合中出现的频率成反比下降。TFIDF的主要思想是：如果某个词或短语在一份文件中出现的频率TF高，并且在其他文章中很少出现(IDF值很大)，则认为这个词或者短语具有很好的类别区分能力，那么我们就给予在此文档中的这个词或者短语一个较大的权重，代表这个词或者短语对此文档内容的表征能力。利用TFIDF可以进行关键词抽取工作，对文档中每个不同的词计算其TFIDF值，并且按照数值从大到小的顺序进行排序，从而选取排名靠前的若干个词作为此篇文档的关键词。

但是在实际工作中，一般用TFIDF作为baseline。在特定领域的关键词抽取工作中，因为大量口语化词汇在文档及文档集合中的分布与特定领域词汇极为相似以及TFIDF算法本身基于统计的局限性，所以按照TFIDF算法抽取出来的关键词会含有大量口语化词汇和不是那么重要的词汇，从而导致关键词抽取的效果不佳。

受到PageRank算法在IR领域中的广泛应用和巨大成功的启发，Mihalcea和Tarau提出了一种与PageRank类似基于图排序的算法TextRank，用于进行关键词抽取。TextRank的算法思想是构建一个网络，网络中的顶点代表文本中不同的词，边代表共现的词之间的链接。两个词之间相隔的词的个数如果在事先规定的范围之内，那么TextRank就认为这两个词满足共现关系。网络中的边具有权重，利用PageRank算法对其进行赋值。与PageRank算法类似，TextRank认为一个词的重要程度由链向它的其他词的重要程度来决定，利用PageRank算法迭代地计算网络中每个词的重要程度，然后根据词的PageRank值进行排序，从而选取排名靠前的若干个词作为此篇文档的关键词。

但是TextRank关键词提取算法需要迭代计算每个词的PageRank值，通常迭代次数在20到30次之间。因为计算复杂度较高，所以这种算法很少使用在大规模文本关键词抽取工作中。

综上，传统的关键词抽取方法存在关键词抽取的效果不佳、关键词抽取效率低和适用范围受限的问题。

发明内容

本发明的目的在于提供一种基于Word2Vec和Query log抽取关键词方法，从而解决现有技术中存在的前述问题。

为了实现上述目的，本发明所述基于Word2Vec和Query log抽取关键词方法，该方法包括以下步骤：

S1，利用query log数据，构建目标领域的特定词表；

S2，在文档集合和特定词表的基础上，获取文档集合中每个文档的候选关键词；

S3，训练得到目标领域的Word2Vec模型，将每个文档中的候选关键词代入所述模型，得到每个所述候选关键词的若干维的词向量；

S4，计算任意一个文档A中任意一个候选关键词L对应的词向量与所述文档A的中心向量的余弦相似度，判断候选关键词L是否出现在特定词表中，如果出现，则直接进入S5；如果不出现，则进入S6；

S5，将所述候选关键词L的余弦相似度乘以加权因子i，得到新余弦相似度，进入S6；

S6，将得到的余弦相似度的数值按照从大到小的顺序排序，然后按照预先设定的关键词数量m，从所述排序中余弦相似度数值最大开始输出m个余弦相似度的数值，m个余弦相似度的数值所对应的候选关键词即为最终关键词。

优选地，步骤S1，具体按照下述步骤实现：

A1，获取p天共q条用户在目标领域的查询记录；所述p大于等于50，所述q大于等于10000；

A2，将所述q条查询记录进行分组，并统计每查询记录组出现的次数，去除出现次数小于阈值A的查询记录组，得到目标查询记录组；

A3，对目标查询记录组中的查询记录进行分词，统计任意一个查询词在所有目标查询记录组中重复出现的次数，去除出现次数小于阈值B的查询词，得到热门搜索词；

A4，将所述热门搜索词与已有所述目标领域的词进行合并去重，得到目标领域的特定词表。

优选地，步骤S2中，所述文本是字节长度大于等于字节长度阈值C。

更优选地，步骤S2，具体按照下述步骤实现：

B1，获取目标领域的文档集合，从中筛选并获得字节长度大于等于字节长度阈值C的文本；

B2，采用TF-IDF算法提取候选关键词，在此过程中，对出现在所述文本的Title或目标领域的特定词表的词进行加权，得到每个词出现的次数；

步骤B2中，所述Title中词的加权因子为x，所述目标领域的特定词表中词的加权因子为y；

B3，去除出现次数小于0.00003×j的词，最终得到每个文档的候选关键词；所述j表示文本总数。

更优选地，在步骤B2中还存在以下步骤：利用停用词表去除文本中存在的停用词。

优选地，步骤S3，具体按照下述步骤实现：

C1，对所述文档集合中的每个文档进行分词；

C2，利用分词后的文档训练Word2Vec模型，得到所述目标领域的Word2Vec模型；

C3，将每个文档中每个所述候选关键词代入所述目标领域的Word2Vec模型，得到每个文档中所述候选关键词的若干维的词向量。

更优选地，步骤C3中，所述每个所述候选关键词的词向量维数预先设定。

优选地，步骤S4，具体按照下述步骤实现：

D1，获取任意一个文档A中候选关键词的总数a；

D2，将文档A中所有候选关键词的词向量相加，得到b；

D3，将b除以a，得到所述文档A的中心向量c；

D4，计算文档A每个所述候选关键词的词向量与文档A的中心向量的余弦相似度d；

D5，候选关键词L是否出现在特定词表中，如果出现，则直接进入S5；如果不出现，则进入S6。

本发明的有益效果是：

本发明所述方法，可以针对特定领域文本迅速高效地提取出质量较为理想的关键词，避免引入口语化词汇。且在不需要人工标注关键词训练模型和对文本进行词性标记的前提下，不仅可以迅速高效地抽取出质量较为理想、可以满足业务需求的特定领域关键词，而且可以方便快捷地被移植到其他特定领域。

通过本发明提取出的关键词质量高，这些关键词不仅可以通过精炼冗长query或者辅助建立索引的方式提升搜索效果，而且还可以用于文本标记、文本分类、文本聚类、用户建模、广告投放等多种上层应用领域。

附图说明

图1是实施例中所述基于Word2Vec和Query log抽取关键词方法的结构流程示意图；

图2是实施例中步骤S1的流程示意图；

图3是实施例中步骤S2的流程示意图；

图4是实施例中步骤S3的流程示意图；

图5是实施例中步骤S4的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不用于限定本发明。

实施例

参照图1，本实施例中所述基于Word2Vec和Query log抽取关键词方法，该方法包括以下步骤：

S1，利用query log数据，构建目标领域的特定词表；

S5，将所述候选关键词L的余弦相似度乘以加权因子i，得到新余弦相似度，进入S6；在本实施例中设定加权因子i＝100；

S6，将得到的余弦相似度的数值按照从大到小的顺序排序，然后按照预先设定的关键词数量m＝10，从所述排序中余弦相似度数值最大开始输出10个余弦相似度的数值，10个余弦相似度的数值所对应的候选关键词即为最终关键词。

参照图2，在本实施例中，步骤S1，具体按照下述步骤实现：

A1，获取88天共21342445条用户在目标领域的查询记录；

A2，将所述21342445条查询记录进行分组，并统计每查询记录组出现的次数，去除出现次数小于阈值500的查询记录组，得到目标查询记录组；

A3，对目标查询记录组中的查询记录进行分词，统计任意一个查询词在所有目标查询记录组中重复出现的次数，去除出现次数小于阈值800的查询词，得到热门搜索词；

参照图3，在本实施例中，步骤S2中，所述文本是字节长度大于等于字节长度阈值560个字节，步骤S2，具体按照下述步骤实现：

B1，获取目标领域的文档集合，从中筛选并获得字节长度大于等于字节长度阈值560个字节的文本；

步骤B2中，所述Title中词的加权因子为2.5，所述目标领域的特定词表中词的加权因子为5.0；

B3，去除出现次数小于0.00003×j的词，最终得到每个文档的20个候选关键词，所述j表示文本总数。

其中，在步骤B2中还存在以下步骤：利用停用词表去除文本中存在的停用词。

参照图4，在本实施例中，步骤S3，具体按照下述步骤实现：

C1，对所述文档集合中的每个文档进行分词；

C3，将每个文档中每个所述候选关键词代入所述目标领域的Word2Vec模型，得到每个文档中所述候选关键词的若干维的词向量；其中，所述每个所述候选关键词的词向量维数预先设定，在本实施例中设定为300维。

参照图5，在本实施例中，步骤S4，具体按照下述步骤实现：

D1，获取任意一个文档A中候选关键词的总数a；

D2，将文档A中所有候选关键词的词向量相加，得到b；

D3，将b除以a，得到所述文档A的中心向量c；

其中，步骤D4中，所述余弦相似度R是按照下述公式计算：

R = (Σ_{i = 0}^{n} wti \times wci) / (\sqrt{Σ_{i = 0}^{n} {wit}^{2}} \times \sqrt{Σ_{i = 0}^{n} {wic}^{2}})

其中，wti表示任意一个文档中候选关键词的词向量，i＝0，1，2……n；wci表示任意一个文档的中心向量，i＝0，1，2……n；

通过采用本发明公开的上述技术方案，得到了如下有益的效果：

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。

Claims

1.一种基于Word2Vec和Query log抽取关键词方法，其特征在于，该方法包括以下步骤：

S1，利用query log数据，构建目标领域的特定词表；

2.根据权利要求1所述抽取关键词方法，其特征在于，步骤S1，具体按照下述步骤实现：

3.根据权利要求1所述抽取关键词方法，其特征在于，步骤S2中，所述文本是字节长度大于等于字节长度阈值C。

4.根据权利要求书3所述抽取关键词方法，其特征在于，步骤S2，具体按照下述步骤实现：

5.根据权利要求书4所述抽取关键词方法，其特征在于，在步骤B2中还存在以下步骤：利用停用词表去除文本中存在的停用词。

6.根据权利要求书1所述抽取关键词方法，其特征在于，步骤S3，具体按照下述步骤实现：

C1，对所述文档集合中的每个文档进行分词；

7.根据权利要求书6所述抽取关键词方法，其特征在于，步骤C3中，所述每个所述候选关键词的词向量维数预先设定。

8.根据权利要求书1所述抽取关键词方法，其特征在于，步骤S4，具体按照下述步骤实现：

D1，获取任意一个文档A中候选关键词的总数a；

D2，将文档A中所有候选关键词的词向量相加，得到b；

D3，将b除以a，得到所述文档A的中心向量c；