CN105354333A

CN105354333A - 一种基于新闻文本的话题提取方法

Info

Publication number: CN105354333A
Application number: CN201510887551.9A
Authority: CN
Inventors: 雷涛; 吕慧; 张鹏起
Original assignee: Tianyun Sunac Data Technology (beijing) Co Ltd
Current assignee: Tianyun Sunac Data Technology (beijing) Co Ltd
Priority date: 2015-12-07
Filing date: 2015-12-07
Publication date: 2016-02-24
Anticipated expiration: 2035-12-07
Also published as: CN105354333B

Abstract

本发明涉及一种基于新闻文本的话题提取方法。操作步骤如下：第一，设置用户自定义词典，并对文本进行预处理，生成词语文本，词性和分词序列向量。第二，根据词频等词语信息进行权重计算并排序，从新闻标题和内容中提取出权重较大的词语作为该文章的主题词序列。第三，根据所有文章的主题词权重获取文本集合的热点主题词序列。第四，通过主题词组合形成话题的主题词表达向量。第五，利用文章标题、主题词、内容与话题的主题词表达向量中线索词的包含关系进行话题聚合，最终获得多个热点话题。本发明通过利用文章主题词来表达文章主题并进行相关文章聚合，最终利用两个线索词表示当前的一个热点新闻话题。

Description

一种基于新闻文本的话题提取方法

技术领域

本发明涉及自然语言处理，人工智能领域，具体涉及一种基于新闻文本的话题提取方法。

背景技术

随着互联网的普及，人们获取信息的方式越来越多，网络逐渐成为社会中各种信息的载体。特别是随着中国经济的不断发展，网上新闻产品逐渐成为人们获取信息的重要渠道，越来越多的人通过网络获取实时新闻及其相关信息。Web文本已成为我们获取信息的重要来源，每天都有大量的新闻热点产生，如何从海量的新闻文本中获取当前讨论的热点话题已经成为新闻文本处理必备的基础技术。

一般的文本聚类技术大多采用机器学习算法中的自动文本聚类方法，首先对文本进行预处理，将文本表示成特征词的向量表示，然后根据文本的相似性进行聚类。对文本进行聚类多采用single-pass算法，K最邻近结点算法(KNN)，k-means算法等。这些聚类算法都存在着各种各样的缺点，single-pass算法与文章输入的顺序相关性很大；KNN算法则存在时间复杂度较高；而k-means算法则必须提前确定聚类个数，但是这点通常是比较困难的。并且这些算法在聚类完成以后得到的聚类结果往往不知所云，我们无法用具体的词汇或内容来表示聚类结果。

发明内容

大多数网络新闻产品往往只是简单地将实时新闻报道或信息展现给用户，很难对新闻按照内容进行组织归类，而且通过人工的方式来提取当前热点新闻是一件非常繁琐和困难的事情。本发明基于文本主题词的提取算法，通过热点词组合的聚类技术来获取当前文本集合的热点话题。用两个热点主题词表示一个话题，即克服了一个热点词表示话题的片面性，同时又将相关的文章进行了聚合。

本文提供了一种文本聚类的方法，用于提取当前文本集合的热点话题，帮助用户更好的掌握当前新闻的热点。从互联网上采集近期的新闻文本，然后通过主题词提取算法，从各篇文章中提取出主题词形成该文章的主题词序列，通过各篇文章的主题词序列综合计算出当前文本集合的热点主题词序列，并用热点主题词组合的方式表示热点话题；一般两个热点主题词就可以表示当前的一个热点话题。如:“GDP”和“增速”，通过这两个词我们就可以知道当前讨论的一个热点是与我国的GDP增长速度相关的新闻话题。

上述发明包括如下步骤：

步骤1：通过人工添加或新词识别的方法，构建新闻领域词典，确保提取的词语能够覆盖到新闻领域的常用词和新词。

步骤2：文本预处理。对当前新闻文本集合中所有文本进行分词处理，并进行停用词过滤，得到分词后的包含词语和词性的分词序列向量。

步骤3：统计词语频率，文档频率，以及每篇文章中每个词语在文章中首次出现的位置。

步骤4：根据词语权重抽取每篇文章的主题词。文章的主题词定义为通过一定方式从文章标题和内容中抽取出来的，能够简要精准地表达该文章主要思想的词语集合。词语权重计算过程为：根据统计信息计算文章中各个词语的权重，词语的权重代表了词语在文章中的表达性重要程度，每个词语对文章的权重影响由两部分组成，可表示为，

W(t,d)＝a*norm(W_a(t,d))+b*norm(W_b(t,d))

式中：W(t,d)表示词语t在文章d中的权重；a,b表示权重系数，其中a+b＝1；norm表示归一化处理，norm(W_a(t,d))表示词频，文档频率和词性对词语权重影响，norm(W_b(t,d))表示词语长度和词语位置对词语权重影响。具体过程如下：

步骤401：首先计算每篇文章中各个词的词频，文档频率和词性对文章的影响权重

W_a(t,d)＝log₂(tf(t,d))*log₂(N_d/n_t)*W(POS(t))

式中：tf(t,d)表示词语t在文档d中出现的频率；N_d表示文档集合中文档数目，n_t表示包含该词语的文档数目；W(POS(t))表示词语t的词性权重，当词性为名词时权重为2，当词性为用户自定义时权重为1.8，当词性为动词时权重为1.5，其余词性权重为1；

步骤402：计算词语长度和词语在文章中首次出现的位置对词语权重影响

W_b(t,d)＝len(t)*W(pos(t,d))

式中：len(t)表示词语t的长度；W(pos(t,d))表示词语t在文章d中的位置权重，W(pos(t,d))＝(N-firstpos(t))/N，其中N为文章词语总数，firstpos(t)表示词语t在文章中首次出现的位置。

步骤403：对词语权重两部分分别进行归一化处理如下：

n o r m (W_{a} (t, d)) = (W_{a} (t, d) - \min_{j = 1, 2 ... n} (W_{a} (t_{j}, d)) / ((\max_{i = 1, 2 ... n} W_{a} (t_{i}, d)) - (\min_{i = 1, 2 ... n} W_{a} (t_{i}, d))

n o r m (W_{b} (t, d)) = (W_{b} (t, d) - \min_{j = 1, 2 ... n} (W_{b} (t_{j}, d)) / ((\max_{i = 1, 2 ... n} W_{b} (t_{i}, d)) - (\min_{i = 1, 2 ... n} W_{b} (t_{i}, d))

步骤404：计算出词语在文章中的权重

W(t,d)＝a*norm(W_a(t,d))+b*norm(W_b(t,d))

步骤5：对每篇文章中词语进行权重降序排列，提取出前六个作为主题词，一般情况下，从标题中提取三个，从正文中提取三个，如果标题中提取词语数目达不到三个，则剩余的从正文中补足。然后对这些词进行过滤，如果一个词语包含另一个词语则将权重较小的词语删除，并进行补全，将最终的六个词语作为该文章的主题词序列

Topt(d)＝{tt₁,tt₂,tt₃,tt₄,tt₅,tt₆}

步骤6：提取当前新闻文本集合热点主题词序列。对所有文章的六个主题词按照相同词语权重相加的方式，获取到文本集合中所有主题词的权重，然后将所有主题词按照权重值进行降序排列，得到文本集合的热点主题词序列：

HotT＝{ht₁,ht₂,…,ht_k},k＝1,2,...,m

其中，m表示热点词主题序列的大小。

步骤7：将排好序的热点主题词序列HotT中的第一个词语ht₁作为热点话题的第一个线索词，对文章进行聚类。其步骤如下

步骤701：根据ht₁找到文章主题词序列中包含这个词的文章集合

{HotTDSet}_{1} = {d_{1}^{{ht}_{1}}, d_{2}^{{ht}_{1}}, ...}

式中表示包含线索词ht₁的第i篇文章。

步骤702：按照步骤6中文章主题词序列权重相加合并的方式提取文章集合HotTDSet₁中的主题词集合，取出权重值最大的前5个词

{FHotTSet}_{1} = ({ft}_{1}^{1}, {ft}_{2}^{1}, {ft}_{3}^{1}, {ft}_{4}^{1}, {ft}_{5}^{1})

步骤703：取出FHotTSet₁的第一个词作为第二个线索词与ht₁组合形成一个热点话题主题词表达向量。

步骤704：找出与ht₁组成的热点话题的相关文章集合。

首先，将文章主题词序列中同时包含与ht₁的文章加入到话题相关文章集合中。

然后，将文章主题词序列中包含ht₁，文章标题包含的文章，或者主题词序列中包含文章标题中包含ht₁的文章加入到话题相关文章集合中。

最后，将文章主题词序列中包含ht₁，文章内容中包含并且其权重大于阈值V_th(根据经验选取V_th＝0.3)的文章或者主题词序列中包含而文章内容中包含ht₁并且其权重大于阈值V_th的文章加入到话题相关文章集合中。

将所有已经加入到当前话题相关文章集合中的文章进行标记，以后不再对这些文章进行聚类处理。

步骤705：分别将FHotTSet₁中剩下的其它四个词语和ht₁组成热点话题主题词表达向量，按照步骤704进行热点话题聚类，找出热点话题的相关文章集合。

步骤8：取出HotT中的第二个词语ht₂作为新的热点话题的第一个线索词，然后按照步骤7对ht₂进行热点话题聚类。不同的是对于第二个热点主题词ht₂，当我们获取了后，由这五个词分别和ht₂组成的热点话题主题词表达向量进行聚类时，我们首先要判断其是否和已有的表达向量相同，如果相同则不需要再进行处理，否则继续对该话题进行聚类。

步骤9：对后面的第3至n个(n≤m)热点词分别按步骤8进行处理，得到最终的话题聚类结果,然后按照聚类得到的话题集合中包含的文章数目进行降序排列，得到基于当前新闻文本集合的最终的多个热点话题文本集合，并且每个话题对应一个热点话题主题词表达向量，由两个主题词构成。n根据实际数据进行调整。

本发明首先根据新闻文本中词语的词频、词性、文档频率和词语在新闻文本中首次出现的位置，综合计算出词语在文章中的权重；之后根据词语在文章中的权重排序分别在每篇文章中提取了六个主题词来表达文章的主要思想；然后通过主题词集合的权重排序获取了新闻文本集合的热点主题词序列，依序从热点主题词序列中取出热点主题词作为话题线索词进行相关文章的凝聚，按照两个主题词进行组合来表达一个热点话题的方式进行聚类；最后将所有文章凝聚到相应的话题相关文章集合当中，通过两个主题词，我们可以大致了解热点话题所讲的内容，避免了一般文本聚类后各聚类结果不知所云的情况，更加符合人们的思维习惯。

附图说明

图1为本发明“一种基于新闻文本的话题提取方法”的流程图。

具体实施方式

下面结合附图和具体实施方式对本发明“一种基于新闻文本的话题提取方法”作进一步的说明。

本发明提供了一种新闻文本的话题提取方法，首先用新词识别或者人工添加的方式对用户自定义词典进行扩充，确保提取的词语能够覆盖到新闻领域的常用词和新词，然后对文本进行分词，词频统计，文档频率统计等工作，通过这些信息计算出新闻文本中各个词的权重，得到文本集合的主题词序列，最后用两个主题词表示一个话题，将属于这个话题的文本凝聚到这个热点话题中，得到最后结果。如附图1所示，具体步骤如下：

1.用户词典扩充。利用人工添加或新词识别的方法扩充用户自定义词典。

2.初始化分词工具，加入用户自定义词典和停用词词典。

3.文本预处理。读入新闻文本集合，对文本进行分词，词性识别，去除停用词。

4.对文章中的每个词语进行词频、文档频率以及词语在文章中首次出现位置的统计。

5.根据词频，文档频率和词性计算词语的权重值，然后对每篇文本中所有的权重值进行归一化。

6.根据词语长度和词语在文章中首次出现的位置计算词语的权重值，然后对每篇文本中所有词语的权重值进行归一化。

7.综合5、6两步计算的结果求得词语的综合权重值。

从每篇文章中抽取出六个权重值最大的词语作为该文章的主题词，其中3个词来自文章标题，3个来自文章内容。

如果从文章标题中提取主题词个数不够3个，则从内容中提取补足；如果文章只有标题，则从标题中尽可能多的提取主题词。

将文本集合中所有文章的主题词按照相同词语权重求和的方式，得到所有主题词的权重，并进行降序排列，得到热点主题词序列，权重代表该词语在文本集合中的重要程度，排名越靠前表示重要程度越高，说明这个词能够表达文本集合的热点信息，是当前文本集合的一个热点词。

根据热点主题词序列和所有文章的主题词得到热点话题。

在本文中我们使用两个主题词表达一个热点话题的内容概括，形成一个热点话题主题词表达向量，其获取方法为：首先从热点主题词序列中取出第一个热点主题词作为热点话题的线索词，然后根据这个线索词，获得所有文章主题词序列中包含这个线索词的文章；提取这批文章的权重值最大的前5个主题词，用线索词分别和获取的5个主题词组成不同的热点话题表达向量，将文章归入到不同的热点话题相关文本集合中，具体步骤如下：

首先将文章中主题词序列同时包含热点话题表达向量中两个主题词的文章凝聚到当前热点话题相关文本集合中。

然后将文章标题和文章主题词序列中同时含有热点话题表达向量中两个主题词的文章凝聚到当前热点话题相关文本集合中。

最后将文章主题词序列中包含一个主题词，内容中包含另一个主题词且这个主题词的权重大于阈值(通常为0.3)的文章加入到当前类中。

然后依次将热点主题序列中的第2至n个热点词作为话题线索词，与相关文章集合中的热点词组成不同的话题表达向量。其中有些热点话题表达向量有可能和之前的热点话题表达向量有重复，我们对其进行判断识别后，将重复的不再进行处理，否则按照之前的步骤进行线索词相关话题文本聚类。

当对前n个热点词进行完聚类后我们就获得了当前文本集的热点话题，将所有的热点话题按包含文章数目从多到少的方式进行排序，话题包含文本数目越多，说明与这个话题相关的文章越多，则该话题越热。

Claims

1.一种基于新闻文本的话题提取方法，其特征在于包括如下步骤：

1)构建用户自定义词典。确保提取的词语能够覆盖到新闻领域的常用词和新词。

2)文本预处理。对文本分词，生成包含词语文本，词性的分词序列向量。

3)词语权重计算。根据词频，文档频率，词性，词语长度以及词语首次在文章中出现的位置进行词语的权重计算。

4)提取每篇文章的主题词序列。根据词语的权重，从文章标题和文章内容的词语集合中提取出六个权重最大的词表示文章主题。

5)获取文本集合的热点主题词序列。将文本集合中所有主题词进行合并以获取文本集合的热点主题词序列。

6)获取热点话题主题词表达向量。依序从热点主题词序列中取出主题词作为线索词构建不同的话题主题词表达向量。

7)基于话题主题词表达向量进行话题凝聚。利用文章标题、文章主题词、文章内容与话题主题词表达向量中线索词的包含关系进行话题凝聚。

2.根据权利要求1所述基于新闻文本的话题提取方法，其特征在于：所述步骤(1)构建用户自定义词典，包括通过新词识别或者人工添加的方式扩充的新闻领域常用词、专用词或者新词。

3.根据权利要求1所述基于新闻文本的话题提取方法，其特征在于：所述步骤(2)文本预处理需要对每一个待处理的文本进行分词，并对文本进行停用词过滤，将文本表示成词及词性的向量形式。

4.根据权利要求1所述基于新闻文本的话题提取方法，其特征在于：所述步骤(3)词语权重计算方法分别对文章中的每个词语进行权重计算。计算步骤如下：

1)首先计算每篇文章中各个词的词频，文档频率和词性对文章的影响权重

W_a(t,d)＝log₂(tf(t,d))*log₂(N_d/n_t)*W(POS(t))

2)计算词语长度和词语在文章中首次出现的位置对词语权重影响

W_b(t,d)＝len(t)*W(pos(t,d))

3)对词语权重两部分分别进行归一化处理如下：

4)计算出词语在文章中的权重

W(t,d)＝a*norm(W_a(t,d))+b*norm(W_b(t,d))

式中：W(t,d)表示词语t在文章d中的权重；a,b表示权重系数，其中a+b＝1。

5.根据权利要求1所述基于新闻文本的话题提取方法，其特征在于：所述步骤(4)提取每篇文章的主题词序列，提取过程如下：对每篇文章中词语进行权重降序排列，提取出前六个作为主题词，一般情况下，从标题中提取三个，从正文中提取三个，如果标题中提取词语数目达不到三个，则剩余的从正文中补足。然后对这些词进行过滤，如果一个词语包含另一个词语则将权重较小的词语删除，并进行补全，将最终的六个词语作为该文章的主题词序列

Topt(d)＝{tt₁,tt₂,tt₃,tt₄,tt₅,tt₆}。

6.根据权利要求1所述基于新闻文本的话题提取方法，其特征在于：所述步骤(5)提取当前文本集合热点主题词序列，然后将各篇文章中相同的主题词按照权重相加的方式得到各个词在文本集中的权重。将这个权重和作为词在文本集中的热度值，这些词按照热度值从大到小的方式排序，我们就得到了文本集的热点词，排名靠前的词热度越高，排名靠后的词热度越低。

7.根据权利要求1所述基于新闻文本的话题提取方法，其特征在于：所述步骤(6)在本文中我们用两个主题词表示一个热点话题，热点话题中包含的文本数量越多，则这个话题越热。首先，依序取出热点主题词序列中的主题词作为话题线索词，将包含词线索词的文章放入相关话题集合中，然后获取这个相关话题集合的主题词集合，从中取出权重值最大的5个主题词分别与线索词组成一个话题，形成话题表达向量，得到5个话题，加入到热点话题列表中。

8.根据权利要求1所述基于新闻文本的话题提取方法，其特征在于：所述步骤(7)对热点话题进行文本聚合。首先从热点话题列表中获取热点话题表达向量。首先我们将主题词同时包含该话题表达向量中两个线索词的文章加入到该话题的相关文章集合中；然后将主题词包含一个线索词，同时文章标题包含另一个线索词的文章加入到该话题的相关文章集合中；最后将主题词包含一个线索词，同时内容中包含另一个线索词并且该线索词权重大于阈值的文章加入到该话题的相关文章集合中。将已经加入到话题相关文章集合中的文章标记为已聚类文章，以后聚类不对这些文章进行处理，到此则完成聚类，最后将热点话题按照包含文章多少的方式进行排序，得到最终的新闻文本集合的热点话题。