CN110413863A

CN110413863A - 一种基于深度学习的舆情新闻去重与推送方法

Info

Publication number: CN110413863A
Application number: CN201910707729.5A
Authority: CN
Inventors: 王慜骊; 林路; 陈芃; 郏维强
Original assignee: SUNYARD SYSTEM ENGINEERING Co Ltd
Current assignee: SUNYARD SYSTEM ENGINEERING Co Ltd
Priority date: 2019-08-01
Filing date: 2019-08-01
Publication date: 2019-11-05

Abstract

本发明公开了一种基于深度学习的舆情新闻去重与推送方法，包括以下步骤，网络数据爬取，利用爬虫技术在各类新闻网站、政府公开网站爬取金融相关新闻信息文章，将爬取的新闻文本化，设一段时间内爬取的金融相关新闻信息为Fz，其中z代表周期，生成主题关键词，通过计算待处理文本的相同新闻实体的z周期内收集到的可能相似新闻数据，生成每篇新闻的主题关键词。本发明中，对公告、新闻等舆情数据，设计并实现文本去重算法方案，筛选描述同一事件的相似文本，避免信息损失重复资讯识别，算法简明，效果显著，可以大大提高业务人员的风险预警新闻阅读量。

Description

一种基于深度学习的舆情新闻去重与推送方法

技术领域

本发明涉及自然语言处理的技术领域，尤其涉及一种基于深度学习的舆情新闻去重与推送方法。

背景技术

新闻情数据来自各大门户网站，因为对同一事件的报道各大网站可能会相互转载引用，也可能用不同的措辞描述同一事件，内容相似的概率很高，会给阅读，统计和分析带来较大噪声干扰，舆情预警也会出现重复预警信号。

在NLP领域，基于语义的去重，一直是个难题：同样一个意思，可以有很多种说法，这些说法在语义上是十分接近的，目前在相似新闻去重方面，有人工运营相似新闻去重技术方案，这种方法成本高昂，有遗漏风险，该发明针对公告、新闻等舆情数据，设计并实现文本去重算法方案，筛选描述同一事件的相似文本，避免信息损失。

发明内容

本发明的目的是为了解决现有技术中存在的缺点，而提出的一种基于深度学习的舆情新闻去重与推送方法。

为了实现上述目的，本发明采用了如下技术方案：一种基于深度学习的舆情新闻去重与推送方法，包括以下步骤：

S1：网络数据爬取，利用爬虫技术在各类新闻网站、政府公开网站爬取金融相关新闻信息文章，将爬取的新闻文本化，设一段时间内爬取的金融相关新闻信息为Fz，其中z代表周期；

S2：生成主题关键词，通过计算待处理文本的相同新闻实体的z周期内收集到的可能相似新闻数据，生成每篇新闻的主题关键词；

S3：舆情新闻去重,对新闻进行聚类，只将主信号新闻推送给用户，推送主信号的主题关键词；

S4：主题关键词推送，通过实时预测的新闻热点关键词与金融词库的关联度，并将主题关键词推送给用户。

作为上述技术方案的进一步描述：

所述网络爬虫技术是指一种按照一定的规则自动地抓取网站上发布的信息的程序或者脚本，且网络爬虫的爬行策略包括深度优先策略和广度优先策略。

作为上述技术方案的进一步描述：

所述网络爬虫技术的模式为基于目标数据模式，且目标数据模式的网络爬虫技术的爬虫针对的是网页上的数据，所抓取的数据符合一定的模式，且可以转化或映射为目标数据模式。

作为上述技术方案的进一步描述：

所述S2步骤中通过计算待处理文本的相同新闻实体的z周期内收集到的可能相似新闻数据，生成每篇新闻的主题关键词，包括以下步骤：

S2.1：对每篇新闻进行清洗预处理；

S2.2：文本向量化，算出基于TF-IDF算法获得的每篇新闻的每个词汇的TF-IDF值设置为A,同时查询该关键词在历史高风险新闻库的TF-IDF值设置为B；

S2.3：将A和B的共同的关键词设置为主题关键词。

作为上述技术方案的进一步描述：

所述TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度，字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降，TF-IDF加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级。

作为上述技术方案的进一步描述：

所述S3步骤中对新闻进行聚类，只将主信号新闻推送给用户，在聚类过程中判断相似新闻数据标题和正文对中的处理文本的标题和正文主题的相似度包括以下步骤：

S3.1：判断相似新闻数据标题和正文对中的处理文本的标题和正文主题的相似度，设定相似度阈值T；

S3.2：如果判断相似新闻数据对中的预设文本主题不存在相似度阈值大于相似度阈值T的新闻，则保留待处理新闻文本为新闻舆情的主信号；

S3.3：如果存在多条相似新闻数据对中的预设文本主题相似度阈值大于相似度阈值T的新闻，则保留待处理新闻文本为更新时间和权威媒体的相似新闻数据的子信号。

作为上述技术方案的进一步描述：

所述S3步骤中对新闻进行聚类，只将主信号新闻推送给用户，在聚类过程中判断相似新闻数据标题和正文对中的处理文本的标题和正文的内容相似度包括以下步骤：

S3.4：判断相似新闻数据标题和正文对中的处理文本的标题和正文的内容相似度，设定相似度阈值P；

S3.5：如果判断所述相似新闻数据对中的预设文本内容不存在相似度阈值大于P的新闻，则保留待处理新闻文本为新闻舆情的主信号。

作为上述技术方案的进一步描述：

所述S3步骤中对新闻进行聚类，只将主信号新闻推送给用户，对主信号新闻推送包括以下步骤：

S3.6：目标新闻与对比新闻为相似新闻；

S3.7：对相似新闻进行去重处理，只推送主信号新闻以及主信号新闻的主题词和关键词给用户。

作为上述技术方案的进一步描述：

所述S3.2步骤中判断相似新闻数据标题和正文对中的处理文本的标题和正文主题的相似度阈值，包括以下步骤：

S3.2.1：根据标记对新闻分类；

S3.2.2：针对分类后的文本数据进行对每个类别下的数据文本集合中的每一条数据进行n-grams拆分，获得各个分类下的训练特征集；将正文的内容用词袋模型将训练特征集转换为词向量；

S3.2.3：将S3.2.2步骤中获得的词向量作为神经网络的输入进行训练，获得不同分类下的语义模型，计算待分类的文本与已经训练好的各个类别的语义模型之间的相似度值。

作为上述技术方案的进一步描述：

所述n-grams拆分用于针对分类后的文本数据进行多元组拆分，获得各个分类下的训练特征集，其中，n-grams拆分具体包括：对每个类别下的数据文本集合中的每一条数据进行n-grams拆分，拆分为由二元词组、三元词组和原文本组成的该类别下的训练特征集，并对训练特征集中的词组进行去重处理。

有益效果

本发明提供了一种基于深度学习的舆情新闻去重与推送方法。具备以下有益效果：

该基于深度学习的舆情新闻去重与推送方法对公告、新闻等舆情数据，设计并实现文本去重算法方案，筛选描述同一事件的相似文本，避免信息损失重复资讯识别，算法简明，效果显著，可以大大提高业务人员的风险预警新闻阅读量。

附图说明

图1为本发明提出的一种基于深度学习的舆情新闻去重与推送方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

参照图1，一种基于深度学习的舆情新闻去重与推送方法，包括以下步骤：

网络爬虫技术是指一种按照一定的规则自动地抓取网站上发布的信息的程序或者脚本，且网络爬虫的爬行策略包括深度优先策略和广度优先策略。

网络爬虫技术的模式为基于目标数据模式，且目标数据模式的网络爬虫技术的爬虫针对的是网页上的数据，所抓取的数据符合一定的模式，且可以转化或映射为目标数据模式。

S2步骤中通过计算待处理文本的相同新闻实体的z周期内收集到的可能相似新闻数据，生成每篇新闻的主题关键词，包括以下步骤：

S2.1：对每篇新闻进行清洗预处理；

S2.3：将A和B的共同的关键词设置为主题关键词。

TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度，字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降，TF-IDF加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级。

S3步骤中对新闻进行聚类，只将主信号新闻推送给用户，在聚类过程中判断相似新闻数据标题和正文对中的处理文本的标题和正文主题的相似度包括以下步骤：

S3步骤中对新闻进行聚类，只将主信号新闻推送给用户，在聚类过程中判断相似新闻数据标题和正文对中的处理文本的标题和正文的内容相似度包括以下步骤：

S3.5：如果判断相似新闻数据对中的预设文本内容不存在相似度阈值大于P的新闻，则保留待处理新闻文本为新闻舆情的主信号。

S3步骤中对新闻进行聚类，只将主信号新闻推送给用户，对主信号新闻推送包括以下步骤：

S3.6：目标新闻与对比新闻为相似新闻；

S3.2步骤中判断相似新闻数据标题和正文对中的处理文本的标题和正文主题的相似度阈值包括以下步骤：

S3.2.1：根据标记对新闻分类；

n-grams拆分用于针对分类后的文本数据进行多元组拆分，获得各个分类下的训练特征集，其中，n-grams拆分具体包括：对每个类别下的数据文本集合中的每一条数据进行n-grams拆分，拆分为由二元词组、三元词组和原文本组成的该类别下的训练特征集，并对训练特征集中的词组进行去重处理。

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于深度学习的舆情新闻去重与推送方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于深度学习的舆情新闻去重与推送方法，其特征在于，所述网络爬虫技术是指一种按照一定的规则自动地抓取网站上发布的信息的程序或者脚本，且网络爬虫的爬行策略包括深度优先策略和广度优先策略。

3.根据权利要求1所述的一种基于深度学习的舆情新闻去重与推送方法，其特征在于，所述网络爬虫技术的模式为基于目标数据模式，且目标数据模式的网络爬虫技术的爬虫针对的是网页上的数据，所抓取的数据符合一定的模式，且可以转化或映射为目标数据模式。

4.根据权利要求1所述的一种基于深度学习的舆情新闻去重与推送方法，其特征在于，所述S2步骤中通过计算待处理文本的相同新闻实体的z周期内收集到的可能相似新闻数据，生成每篇新闻的主题关键词，包括以下步骤：

S2.1：对每篇新闻进行清洗预处理；

S2.3：将A和B的共同的关键词设置为主题关键词。

5.根据权利要求4所述的一种基于深度学习的舆情新闻去重与推送方法，其特征在于，所述TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度，字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降，TF-IDF加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级。

6.根据权利要求1所述的一种基于深度学习的舆情新闻去重与推送方法，其特征在于，所述S3步骤中对新闻进行聚类，只将主信号新闻推送给用户，在聚类过程中判断相似新闻数据标题和正文对中的处理文本的标题和正文主题的相似度包括以下步骤：

7.根据权利要求1所述的一种基于深度学习的舆情新闻去重与推送方法，其特征在于，所述S3步骤中对新闻进行聚类，只将主信号新闻推送给用户，在聚类过程中判断相似新闻数据标题和正文对中的处理文本的标题和正文的内容相似度包括以下步骤：

8.根据权利要求1所述的一种基于深度学习的舆情新闻去重与推送方法，其特征在于，所述S3步骤中对新闻进行聚类，只将主信号新闻推送给用户，对主信号新闻推送包括以下步骤：

S3.6：目标新闻与对比新闻为相似新闻；

9.根据权利要求6所述的一种基于深度学习的舆情新闻去重与推送方法，其特征在于，所述S3.2步骤中判断相似新闻数据标题和正文对中的处理文本的标题和正文主题的相似度阈值包括以下步骤：

S3.2.1：根据标记对新闻分类；

10.根据权利要求9所述的一种基于深度学习的舆情新闻去重与推送方法，其特征在于，所述n-grams拆分用于针对分类后的文本数据进行多元组拆分，获得各个分类下的训练特征集，其中，n-grams拆分具体包括：对每个类别下的数据文本集合中的每一条数据进行n-grams拆分，拆分为由二元词组、三元词组和原文本组成的该类别下的训练特征集，并对训练特征集中的词组进行去重处理。