CN109086355B

CN109086355B - 基于新闻主题词的热点关联关系分析方法及系统

Info

Publication number: CN109086355B
Application number: CN201810787254.0A
Authority: CN
Inventors: 徐汕; 梁炬; 张晶亮; 杨端; 姜桥
Original assignee: Beijing Casicloud Co ltd
Current assignee: Beijing Casicloud Co ltd
Priority date: 2018-07-18
Filing date: 2018-07-18
Publication date: 2022-05-17
Anticipated expiration: 2038-07-18
Also published as: CN109086355A

Abstract

本发明公开了基于新闻主题词的热点关联关系分析方法及系统，统计每篇新闻的阅读量，计算每个关键词的所有阅读量；将关键词向量化，并通过向量夹角的方式计算所有关键词的相似度，每个关键词取相似度最大的前几个词；原生数据将数据处理成JSON格式，数组中的对象使用key‑value键值对表示关键词和阅读量，相似度相近的在同一对象中；根据数据生成关键词的关系图；采用关系图中各个点的大小体现关键词的阅读量，并根据阅读量的不同，将各个点划分不同的等级，对应不同的颜色，点与点之间线的连接体现了相似关键词的关系。本发明有益效果：将用户阅读量数据加入到文本分析中，改善了基于新闻本身进行分析的局限性；对新闻热点主题词的关联关系进行可视化。

Description

基于新闻主题词的热点关联关系分析方法及系统

技术领域

本发明涉及人工智能领域的自然语言处理方法，具体来说，涉及一种基于新闻主题词的热点关联关系分析方法。

背景技术

随着互联网的发展和普及,互联网新闻报道已是人们获取社会信息的主要手段,如何快速准确地获取互联网新闻热点话题及探索各热点话题之间的关联关系是一个急需解决的问题，新闻热点检测及新闻话题关联关系探索具有很重要的社会价值。

目前，我国针对网络舆情的研究非常活跃，积累了大量的成果。国内外一些学者就这个问题展开了研究，曾依灵等人根据网络热点信息的特点提出以切分词为基础进行多级过滤的拼接算法，该算法可以提取出能够代表网络热点话题的信息串，该算法的缺点是难以保证切分词和多级过滤的效率，不能满足在线话题识别的应用；孙学刚等人提出了基于二次特征提取和聚类的Web文档的主题聚类方法，该算法在不利用任何先验知识的前提下，实现Web文档的主题聚类，但是该算法的缺点是只针对具有明显特征的Web文档，而现实的网络新闻并不是都具有明显特征，因此该算法存在一定的局限性；周亚东等人提出了流量内容中热点词语相关度计算算法，并采用基于高密度连接区的密度聚类方法得到热点簇，该算法与k-均值聚类算法都存在无法满足热点话题发现的实时性。综上所述，结合新闻自身特点和用户关注热点的舆情可视化分析研究工作并不多。

通常人们难以从海量的网络文本中直接获取到有效的信息，因此大大限制了分析信息的能力。

针对相关技术中的问题，目前尚未提出有效的解决方案。

发明内容

针对相关技术中的上述技术问题，本发明提出一种基于新闻主题词的热点关联关系分析方法，能够将用户阅读量数据加入到文本分析中，改善了基于新闻本身进行分析的局限性，同时对新闻热点主题词的关联关系进行可视化，使得用户可以探索式交互地了解一段时间内人们关注的新闻热点随时间的演化过程、演化的细节、热点话题以及分析推动种种变化的原因。

为实现上述技术目的，本发明的技术方案是这样实现的：

一种基于新闻主题词的热点关联关系分析方法，包括以下步骤：

S1针对新闻内容通过TextRank算法自动提取摘要，并对提取的摘要以及新闻标题分别提取几个关键词；

S2统计每篇新闻的阅读量，对所有样本新闻的关键词做并集，并计算每个关键词的所有阅读量；

S3使用word2vec将所述关键词向量化，并通过向量夹角的方式计算所有关键词的相似度，每个关键词取相似度最大的前几个词；

S4原生数据将数据处理成JSON格式，数组中的对象使用key-value键值对表示关键词和阅读量，相似度相近的在同一对象中；

S5根据数据生成关键词的关系图；

S6采用关系图中各个点的大小体现关键词的阅读量，并根据阅读量的不同，将各个点划分不同的等级，对应不同的颜色，点与点之间线的连接体现了相似关键词的关系。

进一步地，所述步骤S5中生成关键词的关系图具体步骤如下：

S51使用JavaScript将数据处理成ECharts关系图所要求的数据格式；

S52nodes与edges分数组存储；

S53将数据对应赋到图表参数中，调用ECharts接口生成对应图表。

进一步地，步骤S3中使用word2vec将所述关键词向量化具体步骤如下：

S31使用语料库作为模型训练的样本数据，并对所有的文本文档进行分词处理，得到文本的分词结果；

S32使用所有文本文档的分词结果训练word2vec模型；

S33将需要向量化的关键词输入到word2vec模型中，得到相关关键词的词向量。

进一步地，所述步骤S1中TextRank算法具体步骤如下：

S11按照常规方法对新闻文本进行分词，加载文本，对文本数据进行分词并进行词性标注；

S12对分词后的结果进行去停用词操作，得到处理后的文本数据；

S13计算分词处理后的文本数据的TextRank算法得分；

S14通过TextRank算法获取关键词，采用窗口大小为5来计算得分，关键词和关键词之间的权重为1；

S15通过TextRank算法获取摘要时，全部句子是相邻的，不提取窗口，关键词与关键词之间的权重采用BM25相似度算法获得；

S16通过TextRank算法获取得分后，进行降序排序。

进一步地，步骤S13中，计算公式如下：

其中，d为阻尼系数，其取值在0-1之间，V_i表示文本数据中第i个词，W_ji表示文本数据中第i个词和第j个词之间的权重，In(V_i)表示文本数据中以V_i为终点的入边集合Out(V_j)表示文本中以V_j起点的出边集合。

进一步地，步骤S15中，BM25算法计算公式如下：

其中，Q表示文本数据中的句子，q_i表示Q进行分词后的结果列表中的词；d表示处理的文档；W_i表示q_i的权重(一般使用TF-IDF值来作为权重)；R(q_i，d)表示q_i与文档d的相关性得分，其中，计算方式如下：

其中，k，b为调节因子，一般按照经验设置，一般为k＝2，b＝0.75，f_i为q_i在文档中d中出现的频率，dl为文档的长度，avgdl为文本的平均长度；S16通过TextRank算法获取得分后，进行降序排序，按照获取摘要和关键词的个数a，取出排序后排名前a个的句子和关键词。

本发明另一方面，提供一种基于新闻主题词的热点关联关系分析系统，包括：

提取模块，用于对新闻内容通过TextRank算法自动提取摘要，并对提取的摘要以及新闻标题分别提取几个关键词；

统计模块，用于统计每篇新闻的阅读量，对所有样本新闻的关键词做并集，并计算每个关键词的所有阅读量；

计算模块，用于使用word2vec将所述关键词向量化，并通过向量夹角的方式计算所有关键词的相似度，每个关键词取相似度最大的前几个词；

第一处理模块，用于原生数据将数据处理成JSON格式，数组中的对象使用key-value键值对表示关键词和阅读量，相似度相近的在同一对象中；

生成模块，用于根据数据生成关键词的关系图；

划分模块，用于采用关系图中各个点的大小体现关键词的阅读量，并根据阅读量的不同，将各个点划分不同的等级，对应不同的颜色，点与点之间线的连接体现了相似关键词的关系。

进一步地，所述生成模块包括

第二处理模块，用于使用JavaScript将数据处理成ECharts关系图所要求的数据格式；

存储模块，用于将nodes与edges分数组存储；

调用模块，用于将数据对应赋到图表参数中，调用ECharts接口生成对应图表。

进一步地，所述计算模块包括

分词处理模块，用于使用语料库作为模型训练的样本数据，并对所有的文本文档进行分词处理，得到文本的分词结果；

训练模块，用于使用所有文本文档的分词结果训练word2vec模型；

输入模块，用于将需要向量化的关键词输入到word2vec模型中，得到相关关键词的词向量。

本发明的有益效果：

将用户阅读量数据加入到文本分析中，改善了基于新闻本身进行分析的局限性；对新闻热点主题词的关联关系进行可视化，使得用户可以探索式交互地了解一段时间内人们关注的新闻热点随时间的演化过程、演化的细节、热点话题以及分析推动种种变化的原因。

采用分词提取新闻的摘要及关键词，同时结合用户阅读数据找出新闻热点，进一步计算新闻主题词的热点关联关系并进行可视化展示，同时用户可以探索式交互地了解一段时间内人们关注的新闻热点随时间的演化过程、演化的细节、热点话题以及分析推动种种变化的原因。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例所述的基于新闻主题词的热点关联关系分析方法的流程图；

图2是根据本发明实施例所述的生成关键词的关系图的流程图；

图3是根据本发明实施例所述的将所述关键词向量化的流程图；

图4是根据本发明实施例所述的基于新闻主题词的热点关联关系分析系统的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

如图1-3所示，根据本发明实施例所述的一种基于新闻主题词的热点关联关系分析方法，包括以下步骤：

其中，对提取的摘要通过TextTank算法提取3个关键词，对新闻标题提取2个关键词。

TextRank算法关键步骤具体如下：

S11按照常规方法对新闻文本进行分词，加载文本，对文本数据进行分词并进行词性标注，例如使用N-最短路径分词，采用马尔科夫模型进行词性标注；

S12对分词后的结果进行去停用词操作，主要是根据分词及词性标注结果取出文本中的名词、动词、形容词、副词等，得到处理后的文本数据；

S13根据计算分词处理后的文本数据的TextRank算法得分，计算公式如下：

其中，d为阻尼系数，其取值在0-1之间，V_i表示文本数据中第i个词，W_ji表示文本数据中第i个词和第j个词之间的权重，In(V_i)表示文本数据中以V_i为终点的入边集合Out(V_j)表示文本中以V_j起点的出边集合；

S14在通过TextRank算法获取关键词中，采用窗口大小为5来计算得分，关键词和关键词之间的权重为1，即任意词之间的W_ji＝1；

S15在通过TextRank算法获取文本摘要时，一般认为全部句子是相邻的，不提取窗口，词与词之间的权重采用BM25相似度算法获得，BM25算法计算公式如下：

其中，将统计每篇新闻的阅读量，作为该新闻5个关键字的阅读量，对所有样本新闻的关键词做并集，并计算每个关键词的所有阅读量。

S3使用word2vec将所述关键词向量化，并通过向量夹角的方式计算所有关键词的相似度，每个关键词取相似度最大的前5个词；

其中，Word2vec词向量化关键步骤如下：

S31使用人民日报2014年语料库作为模型训练的样本数据，并对所有的文本文档进行分词处理，得到文本的分词结果；

S32使用所有文本文档的分词结果训练word2vec模型；

S4原生数据需要将数据处理成JSON格式，数组中的对象使用key-value键值对表示关键词和阅读量，相似度相近的在同一对象中；

S5根据数据生成关键词的关系图；

其中，生成关键词的关系图具体步骤如下：

S52以关键词作为nodes与关键词之间的相似度作为edges按数组存储；

S53将数据对应赋到图表参数中，调用ECharts接口生成对应图表；

S6根据数据生成的关键词的关系图具有一定的稳定性，点的大小体现关键词的阅读量，并根据阅读量的不同，将各个点划分不同的等级，对应不同的颜色，点和点之间线的连接体现了相似关键词的关系，在交互上，添加了鼠标悬浮显示当前点的对应关系，鼠标滚动放大关系图，鼠标拖动某个点，改变关系图状态。

如图4所示，本发明另一方面，提供一种基于新闻主题词的热点关联关系分析系统，包括提取模块，用于对新闻内容通过TextRank算法自动提取摘要，并对提取的摘要以及新闻标题分别提取几个关键词；

生成模块，用于根据数据生成关键词的关系图；

在本发明的一个具体实施例中，所述生成模块包括第二处理模块，用于使用JavaScript将数据处理成ECharts关系图所要求的数据格式；存储模块，用于将nodes与edges分数组存储；调用模块，用于将数据对应赋到图表参数中，调用ECharts接口生成对应图表。

在本发明的一个具体实施例中，所述计算模块包括分词处理模块，用于使用语料库作为模型训练的样本数据，并对所有的文本文档进行分词处理，得到文本的分词结果；训练模块，用于使用所有文本文档的分词结果训练word2vec模型；输入模块，用于将需要向量化的关键词输入到word2vec模型中，得到相关关键词的词向量。

综上所述，借助于本发明的上述技术方案，将用户阅读量数据加入到文本分析中，改善了基于新闻本身进行分析的局限性；对新闻热点主题词的关联关系进行可视化，使得用户可以探索式交互地了解一段时间内人们关注的新闻热点随时间的演化过程、演化的细节、热点话题以及分析推动种种变化的原因。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于新闻主题词的热点关联关系分析方法，其特征在于，包括以下步骤：

S1 针对新闻内容通过TextRank算法自动提取摘要，并对提取的摘要以及新闻标题分别提取几个关键词；

S2 统计每篇新闻的阅读量，对所有样本新闻的关键词做并集，并计算每个关键词的所有阅读量；

S3 使用word2vec将所述关键词向量化，并通过向量夹角的方式计算所有关键词的相似度，每个关键词取相似度最大的前几个词；

S4 原生数据将数据处理成JSON格式，数组中的对象使用key-value键值对表示关键词和阅读量，相似度相近的在同一对象中；

S5 根据数据生成关键词的关系图；

S6 采用关系图中各个点的大小体现关键词的阅读量，并根据阅读量的不同，将各个点划分不同的等级，对应不同的颜色，点与点之间线的连接体现了相似关键词的关系。

2.根据权利要求1所述的基于新闻主题词的热点关联关系分析方法，其特征在于，所述步骤S5中生成关键词的关系图具体步骤如下：

S51 使用JavaScript将数据处理成ECharts关系图所要求的数据格式；

S52 nodes与edges分数组存储；

S53 将数据对应赋到图表参数中，调用ECharts接口生成对应图表。

3.根据权利要求1所述的基于新闻主题词的热点关联关系分析方法，其特征在于，步骤S3中使用word2vec将所述关键词向量化具体步骤如下：

S31 使用语料库作为模型训练的样本数据，并对所有的文本文档进行分词处理，得到文本的分词结果；

S32使用所有文本文档的分词结果训练word2vec模型；

S33 将需要向量化的关键词输入到word2vec模型中，得到相关关键词的词向量。

4.根据权利要求1所述的基于新闻主题词的热点关联关系分析方法，其特征在于，所述步骤S1中TextRank算法具体步骤如下：

S11 按照常规方法对新闻文本进行分词，加载文本，对文本数据进行分词并进行词性标注；

S12 对分词后的结果进行去停用词操作，得到处理后的文本数据；

S13 计算分词处理后的文本数据的TextRank算法得分；

S15 通过TextRank算法获取摘要时，全部句子是相邻的，不提取窗口，关键词与关键词之间的权重采用BM25相似度算法获得；

S16通过TextRank算法获取得分后，进行降序排序。

5.根据权利要求4所述的基于新闻主题词的热点关联关系分析方法，其特征在于，步骤S13中，计算公式如下：

其中，dc为阻尼系数，其取值在0-1之间，V_i表示文本数据中第i个词，W_ij表示文本数据中第i个词和第j个词之间的权重，In(V_i)表示文本数据中以V_i为终点的入边集合，Out(V_j)表示文本中以V_j起点的出边集合。

6.根据权利要求4所述的基于新闻主题词的热点关联关系分析方法，其特征在于，步骤S15中，BM25算法计算公式如下：

其中，Q表示文本数据中的句子，q_i表示Q进行分词后的结果列表中的词；d表示处理的文档；W_i表示q_i的权重（一般使用TF-IDF值来作为权重）；R(q_i,d)表示q_i与文档d的相关性得分，其中，计算方式如下：

其中，k，b为调节因子，一般按照经验设置，一般为k=2，b=0.75，f_i为 q_i在文档中d中出现的频率，dl为文档的长度，avgdl为文本的平均长度；S16 通过TextRank算法获取得分后，进行降序排序，按照获取摘要和关键词的个数a，取出排序后排名前a个的句子和关键词。

7.一种基于新闻主题词的热点关联关系分析系统，其特征在于，包括：

生成模块，用于根据数据生成关键词的关系图；

8.根据权利要求7所述的分析系统，其特征在于，所述生成模块包括第二处理模块，用于使用JavaScript将数据处理成ECharts关系图所要求的数据格式；

存储模块，用于将nodes与edges分数组存储；

9.根据权利要求7或8所述的分析系统，其特征在于，所述计算模块包括分词处理模块，用于使用语料库作为模型训练的样本数据，并对所有的文本文档进行分词处理，得到文本的分词结果；