CN116541486A

CN116541486A - 一种基于数据挖掘与深度学习的新闻信息聚合方法

Info

Publication number: CN116541486A
Application number: CN202310514267.1A
Authority: CN
Inventors: 郑冬花; 叶丽珠; 修位蓉; 代丽娜
Original assignee: Guangzhou College Of Commerce
Current assignee: Guangzhou College Of Commerce
Priority date: 2023-05-08
Filing date: 2023-05-08
Publication date: 2023-08-04

Abstract

本发明公开了一种基于数据挖掘与深度学习的新闻信息聚合方法，该方法包括以下步骤：S1、数据采集和预处理：从多个新闻来源采集实时更新的新闻文本，并进行预处理；S2、数据分析和特征提取：对采集到的新闻文本进行数据挖掘和深度学习处理，得到每篇新闻文本的关键词、主题、情感和事件等特征，并将处理结果存储在数据库中。本发明，能够对采集到的新闻文本进行数据挖掘和深度学习处理，得到每篇新闻文本的关键词、主题、情感和事件等特征，并将处理结果存储在数据库中，提高了数据的可用性和价值；能够根据用户的请求或推送设置，从数据库中检索相关的新闻文本，以便为用户提供清晰、简洁、丰富的新闻阅读界面，提高了数据的可读性和吸引力。

Description

一种基于数据挖掘与深度学习的新闻信息聚合方法

技术领域

本发明涉及新闻信息技术领域，具体为一种基于数据挖掘与深度学习的新闻信息聚合方法。

背景技术

新闻是传递信息、反映社会、引导舆论的重要媒介。随着互联网、大数据等技术的发展，新闻传播方式和形式也发生了变化，数据新闻应运而生，成为一种新兴的新闻形式。

数据新闻是指基于数据挖掘和分析思维的新闻报道，也是数据驱动型的调查性报道或深度报道。提取数据中隐藏的信息和知识，并以清晰、简洁、丰富的方式呈现给用户，帮助用户更好地理解和参与新闻事件。数据新闻具有以下特点：

基于数据：数据是数据新闻的核心和基础，数据新闻要求对数据进行科学严谨的处理和分析，用数据来支撑新闻观点和结论，提高新闻的客观性和可信度。

基于深度学习：深度学习是一种基于神经网络的机器学习方法，能够从大量复杂的数据中自动学习特征和规律，并进行预测和推理。

基于可视化：可视化是将数据转换为图形或图像的过程，能够有效地传达信息和知识，增强用户的认知和记忆。

基于交互：交互是指用户与系统之间进行信息交换和沟通的过程，能够增强用户的参与感和体验感。

数据新闻作为一种新兴的新闻形式，具有很多优势，但是在实际使用过程中，数据新闻也面临着一些挑战和困难，如数据获取难、数据分析难、数据呈现难等；

为此我们提出一种基于数据挖掘与深度学习的新闻信息聚合方法。

发明内容

本发明的目的在于提供一种基于数据挖掘与深度学习的新闻信息聚合方法，具备高效精准获取数据、深度分析数据的优点，解决了背景技术中的问题。

为实现上述目的，本发明提供如下技术方案：一种基于数据挖掘与深度学习的新闻信息聚合方法，包括以下步骤：

S1、数据采集和预处理：

从多个新闻来源采集实时更新的新闻文本，并进行预处理；

S2、数据分析和特征提取：

对采集到的新闻文本进行数据挖掘和深度学习处理，得到每篇新闻文本的关键词、主题、情感和事件等特征，并将处理结果存储在数据库中；

S3、数据展示和摘要生成：

根据用户的请求或推送设置，从数据库中检索相关的新闻文本，并进行数据可视化和摘要生成，以便为用户提供清晰、简洁、丰富的新闻阅读界面；

S4、数据反馈和模型优化：

收集用户对新闻信息聚合结果的反馈数据，并利用反馈数据对数据挖掘和深度学习模型进行更新和优化。

优选的，所述数据分析和特征提取包括以下子步骤：

A1、关键词提取：

利用基于词频－逆文档频率(TF-IDF)的算法提取每篇新闻文本的关键词；

A2、主题识别：

利用基于潜在狄利克雷分布(LDA)的算法识别每篇新闻文本的主题；

A3、情感分析：

利用基于卷积神经网络(CNN)的算法分析每篇新闻文本的情感倾向；

A4、事件抽取：

利用基于双向长短期记忆网络(Bi-LSTM)和条件随机场(CRF)的算法抽取每篇新闻文本中的事件要素；

A5、事件关系抽取：利用基于图卷积网络(GCN)的算法抽取每篇新闻文本中的事件之间的因果、时序、条件等关系；

A6、事件知识库构建：利用基于生成对抗网络(GAN)的算法将抽取出的事件及其关系存储在一个事件知识库中，以便进行事件推理和查询。

优选的，所述数据展示和摘要生成包括子步骤B：

B1数据可视化：

利用基于图表、地图、时间轴等方式对新闻文本中的数据进行可视化展示；

B2摘要生成：

利用基于注意力机制(Attention)和指针生成器网络(Pointer-GeneratorNetwork)的算法对新闻文本进行摘要生成。

优选的，所述数据反馈和模型优化包括以下子步骤：

C1、用户反馈数据收集：

记录用户对新闻信息聚合结果的点击率、阅读时长、评价等行为数据；

C2、用户喜好程度计算：

利用基于协同过滤(Collaborative Filtering)的算法计算用户对新闻信息聚合结果的喜好程度。

优选的，所述数据反馈和模型优化包括以下子步骤：

D1、模型参数调整：

利用基于梯度下降(Gradient Descent)的算法调整数据挖掘和深度学习模型的参数；

D2模型性能评估：

利用基于交叉验证(Cross-Validation)的算法评估数据挖掘和深度学习模型的性能；

D3、模型迁移应用：

利用基于迁移学习(Transfer Learning)的算法将数据挖掘和深度学习模型应用于不同的新闻领域或语言。

优选的，所述多个新闻来源包括但不限于网络新闻、社交媒体、博客、论坛、视频、音频。

优选的，所述用户的请求或推送设置包括但不限于用户的兴趣标签、阅读历史、订阅频道、地理位置、时间段。

优选的，所述新闻阅读界面包括但不限于新闻标题、新闻摘要、新闻图片、新闻来源、新闻时间、新闻数据可视化、新闻相关事件。

优选的，所述包括用于替换数据展示和摘要生成子步骤B的子步骤E，所述子步骤E包括：

E1、事件融合：

利用基于迁移学习(Transfer Learning)的算法将不同来源、不同语言、不同领域的新闻文本中的相同或相似事件进行融合，以消除冗余和矛盾；

E2、事件摘要生成：

利用基于变分自编码器(VAE)的算法对融合后的事件进行摘要生成，以提供更精炼、更全面、更客观的事件描述

与现有技术相比，本发明的有益效果如下：

1、本发明能够对采集到的新闻文本进行数据挖掘和深度学习处理，得到每篇新闻文本的关键词、主题、情感和事件等特征，并将处理结果存储在数据库中，提高了数据的可用性和价值。

2、能够根据用户的请求或推送设置，从数据库中检索相关的新闻文本，并进行数据可视化和摘要生成，以便为用户提供清晰、简洁、丰富的新闻阅读界面，提高了数据的可读性和吸引力。

3、能够收集用户对新闻信息聚合结果的反馈数据，并利用反馈数据对数据挖掘和深度学习模型进行更新和优化，提高了数据的互动性和参与性。

4、能够将不同来源、不同语言、不同领域的新闻文本中的相同或相似事件进行融合，以消除冗余和矛盾，提供更精炼、更全面、更客观的事件描述，提高了数据的深度和广度。

5、能够将数据挖掘和深度学习模型应用于不同的新闻领域或语言，实现模型的迁移学习，提高了数据的普适性和适应性。

附图说明

图1为本发明一种基于数据挖掘与深度学习的新闻信息聚合方法的；

图2为本发明数据分析和特征提取的流程图；

图3为本发明数据展示和摘要生成子步骤B的流程图；

图4为本发明数据反馈和模型优化中子步骤的流程图；

图5为本发明数据反馈和模型优化中子步骤的后期流程图；

图6为本发明多个新闻来源的种类分析图；

图7为本发明用户的请求或推送设置的种类分析图；

图8为本发明新闻阅读界面可视化展示内容种类分析图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一，本发明提供一种技术方案：一种基于数据挖掘与深度学习的新闻信息聚合方法，包括以下步骤：

S1、数据采集和预处理：从多个新闻来源采集实时更新的新闻文本，并进行预处理。所述多个新闻来源包括但不限于网络新闻、社交媒体、博客、论坛、视频、音频等。所述预处理包括但不限于去除噪声、分词、词性标注、命名实体识别等。

进一步的，S2、数据分析和特征提取：对采集到的新闻文本进行数据挖掘和深度学习处理，得到每篇新闻文本的关键词、主题、情感和事件等特征，并将处理结果存储在数据库中。所述数据挖掘和深度学习处理包括以下子步骤：

A1、关键词提取：利用基于词频－逆文档频率(TF-IDF)的算法提取每篇新闻文本的关键词，以反映新闻文本的主要内容和重点。

所述算法包括以下步骤：

a)对每篇新闻文本进行分词，得到一个词汇表；

b)计算每个词在每篇新闻文本中的词频(TF)，即该词在该文本中出现的次数除以该文本的总词数；

c)计算每个词在所有新闻文本中的逆文档频率(IDF)，即所有新闻文本的总数除以包含该词的新闻文本的数目的对数；

d)计算每个词在每篇新闻文本中的词频－逆文档频率(TF-IDF)，即该词的TF乘以该词的IDF；

e)对每篇新闻文本中的所有词按照TF-IDF值降序排序，选取前若干个词作为该文本的关键词；

A2、主题识别：利用基于潜在狄利克雷分布(LDA)的算法识别每篇新闻文本的主题，以反映新闻文本的类别和范围；

所述算法包括以下步骤：

a)将所有新闻文本表示为一个词－文档矩阵，其中每一行对应一个词，每一列对应一个文档，每个元素表示该词在该文档中出现的次数；

b)假设每个主题是一个概率分布，表示不同词在该主题下出现的概率；假设每个文档是一个概率分布，表示不同主题在该文档下出现的概率；

c)通过迭代优化一个目标函数，估计出给定主题数目下，每个主题对应的词分布和每个文档对应的主题分布；

d)对每篇新闻文本，根据其主题分布，选取概率最大的一个或几个主题作为该文本的主题。

A3、情感分析：利用基于卷积神经网络(CNN)的算法分析每篇新闻文本的情感倾向，以反映新闻文本的态度和观点；

所述算法包括以下步骤：

a)将每篇新闻文本转换为一个向量序列，其中每个向量表示一个词或一个字，在预训练好的词嵌入或字嵌入空间中有固定长度和位置；

b)在向量序列上应用多个不同大小和数量的卷积核，得到多个特征图，其中每个特征图表示一个局部特征；

c)在特征图上应用池化操作，得到多个池化值，其中每个池化值表示一个全局特征；

d)将所有池化值拼接成一个长向量，作为新闻文本的情感特征；

e)在情感特征上应用一个全连接层和一个激活函数，得到新闻文本的情感倾向，如正面、负面或中性。

A4、事件抽取：利用基于双向长短期记忆网络(Bi-LSTM)和条件随机场(CRF)的算法抽取每篇新闻文本中的事件要素，如事件触发词、事件类型、事件参与者、事件时间、事件地点等，以反映新闻文本的事实和情况。

所述算法包括以下步骤：

b)在向量序列上应用一个双向长短期记忆网络(Bi-LSTM)，得到每个词或字的上下文信息，即前后相邻词或字的影响；

c)在上下文信息上应用一个条件随机场(CRF)，得到每个词或字的标签，即该词或字是否属于某个事件要素及其类别；

d)根据标签序列，将每篇新闻文本中的事件要素分割和识别出来；

A5、事件关系抽取：利用基于图卷积网络(GCN)的算法抽取每篇新闻文本中的事件之间的因果、时序、条件等关系，以反映新闻文本的逻辑和结构。

所述算法包括以下步骤：

a)将每篇新闻文本中的事件要素构建成一个有向图，其中每个节点表示一个事件要素，每条边表示两个事件要素之间可能存在的关系；

b)在有向图上应用一个图卷积网络(GCN)，得到每个节点和边的特征表示，即该节点或边在整个图中的重要性和作用；

c)在特征表示上应用一个分类器，得到每条边的标签，即该边表示的具体关系类型；

d)根据标签序列，将每篇新闻文本中的事件关系分割和识别出来。

所述算法包括以下步骤：

a)将每篇新闻文本中的事件及其关系转换为一个三元组序列，其中每个三元组表示一个事实，由主体、谓语和宾语组成；

b)将三元组序列输入一个生成器网络，得到一个假的知识图谱，即由节点和边组成的图结构，表示一些虚构的事实；

c)将假的知识图谱和真实的知识图谱(从已有的知识库中获取)输入一个判别器网络，得到一个真假判断结果，即该知识图谱是否符合真实世界的常识；

d)通过反向传播和梯度下降等方法更新生成器网络和判别器网络的参数，使生成器网络能够生成更真实的知识图谱，判别器网络能够更准确地区分真假知识图谱；

e)重复上述步骤，直到生成器网络和判别器网络达到平衡，即生成器网络生成的知识图谱能够骗过判别器网络；

f)将生成器网络生成的知识图谱与真实的知识图谱合并，得到一个事件知识库，用于存储新闻文本中的事件及其关系。

进一步的，S3、数据展示和摘要生成：根据用户的请求或推送设置，从数据库中检索相关的新闻文本，并进行数据可视化和摘要生成，以便为用户提供清晰、简洁、丰富的新闻阅读界面。所述数据可视化和摘要生成包括子步骤B：

B1、数据可视化：利用基于图表、地图、时间轴等方式对新闻文本中的数据进行可视化展示，以增强用户的感知和理解；

所述方式包括以下类型：

a)图表：利用基于柱状图、饼图、折线图、散点图等方式对新闻文本中的数值型数据进行可视化展示，以反映数据的分布、比例、趋势、相关性等；

b)地图：利用基于地理位置坐标、行政区划、热力图等方式对新闻文本中的地理型数据进行可视化展示，以反映数据的空间分布、区域差异、热点区域等；

c)时间轴：利用基于时间点、时间段、时间序列等方式对新闻文本中的时间型数据进行可视化展示，以反映数据的时间顺序、时间跨度、时间变化等。

B2、摘要生成：利用基于注意力机制(Attention)和指针生成器网络(Pointer-Generator Network)的算法对新闻文本进行摘要生成，以提供更精炼、更全面、更客观的新闻概要。

所述算法包括以下步骤：

b)在向量序列上应用一个编码器网络，得到每个词或字的隐藏状态，即该词或字在整个文本中的语义信息；

c)在隐藏状态上应用一个解码器网络，得到每个词或字的输出概率，即该词或字在摘要中出现的可能性；

d)在输出概率上应用一个注意力机制(Attention)，得到每个词或字的注意力权重，即该词或字在原文中的重要性；

e)在输出概率和注意力权重上应用一个指针生成器网络(Pointer-GeneratorNetwork)，得到每个词或字的最终输出概率，即该词或字是从词汇表中选择还是从原文中复制；

f)根据最终输出概率，选取概率最大的一个或几个词或字作为摘要中的一部分，直到达到预设的长度或结束符号。

进一步的，S4、数据反馈和模型优化：收集用户对新闻信息聚合结果的反馈数据，并利用反馈数据对数据挖掘和深度学习模型进行更新和优化。所述数据反馈和模型优化包括以下子步骤：

C1、用户反馈数据收集：记录用户对新闻信息聚合结果的点击率、阅读时长、评价等行为数据，以反映用户的兴趣和偏好；

本方法通过在新闻阅读界面设置相应的按钮或评分系统，让用户可以对新闻信息聚合结果进行点赞、收藏、评论、分享等操作，从而记录用户的行为数据。同时，本方法还可以通过监测用户的阅读时长、滑动次数、跳转频率等指标，反映用户的阅读兴趣和偏好。本方法将收集到的用户反馈数据存储在数据库中，并将其转化为用户满意度指标，用于评价新闻信息聚合结果的质量和效果。

C2、用户喜好程度计算：利用基于协同过滤(Collaborative Filtering)的算法计算用户对新闻信息聚合结果的喜好程度，以提高用户的满意度和忠诚度；

本方法利用基于协同过滤(Collaborative Filtering)的算法计算用户对新闻信息聚合结果的喜好程度，并根据用户的兴趣标签、阅读历史、订阅频道等信息进行个性化推荐。具体地，本方法采用基于矩阵分解(Matrix Factorization)的协同过滤算法，将用户和新闻文本分别表示为低维的隐含特征向量，通过最小化用户对新闻文本评分的预测误差，学习出用户和新闻文本的隐含特征向量。然后，本方法根据用户和新闻文本的隐含特征向量之间的相似度，为每个用户推荐最适合其兴趣和偏好的新闻文本；

D1、模型参数调整：利用基于梯度下降(Gradient Descent)的算法调整数据挖掘和深度学习模型的参数，以提高模型的准确性和效率；

本方法利用基于梯度下降(Gradient Descent)的算法调整数据挖掘和深度学习模型的参数，使其适应不同的新闻领域或语言。具体地，本方法采用随机梯度下降(Stochastic Gradient Descent,SGD)算法，每次从数据库中随机抽取一批新闻文本作为训练样本，计算模型在训练样本上的损失函数及其梯度，并根据梯度方向更新模型参数。通过不断重复这一过程，直到模型参数收敛或达到预设的迭代次数或误差阈值。

D2、模型性能评估：利用基于交叉验证(Cross-Validation)的算法评估数据挖掘和深度学习模型的性能，以检验模型的泛化能力和稳定性；

本方法利用基于交叉验证(Cross-Validation)的算法评估数据挖掘和深度学习模型的性能，包括准确率、召回率、F1值等指标。具体地，本方法采用k折交叉验证(k-foldCross-Validation)算法，将数据库中的新闻文本随机划分为k个互斥的子集，最后取k次测试结果的平均值作为模型的最终性能评估。本方法可以根据不同的评估指标，选择最优的模型参数和模型结构；

D3、模型迁移应用：利用基于迁移学习(Transfer Learning)的算法将数据挖掘和深度学习模型应用于不同的新闻领域或语言，以扩大模型的适用范围和覆盖面。

本方法利用基于迁移学习(Transfer Learning)的算法将数据挖掘和深度学习模型应用于不同的新闻领域或语言，实现跨领域或跨语言的新闻信息聚合。具体地，本方法采用基于领域自适应(Domain Adaptation)的迁移学习算法，将源领域或源语言的新闻文本视为源域数据，将目标领域或目标语言的新闻文本视为目标域数据，利用源域数据和目标域数据之间的相似性和差异性，调整数据挖掘和深度学习模型的参数和结构，使其能够适应目标域数据。通过这种方式，本方法可以将已经训练好的数据挖掘和深度学习模型迁移到不同的新闻领域或语言上，提高新闻信息聚合的效率和质量。

实施例二，在实施例一的基础上，进一步的是：所述多个新闻来源包括但不限于网络新闻、社交媒体、博客、论坛、视频、音频。

多个新闻来源包括但不限于网络新闻、社交媒体、博客、论坛、视频、音频、图片等多媒体形式。具体地，本方法可以从以下新闻来源采集实时更新的新闻文本：

网络新闻：指从各大门户网站、新闻网站、新闻客户端等网络平台获取的新闻文本，包括文字、图片、视频等形式。

社交媒体：指从微博、微信、抖音、快手等社交平台获取的用户生成的新闻文本，包括文字、图片、视频等形式。

博客：指从知乎、简书、CSDN等博客平台获取的用户撰写的新闻文本，包括文字、图片、视频等形式。

论坛：指从贴吧、豆瓣、虎扑等论坛平台获取的用户发表的新闻文本，包括文字、图片、视频等形式。

视频：指从优酷、爱奇艺、腾讯视频等视频平台获取的视频内容，并通过语音识别技术将视频内容转化为文字形式的新闻文本。

音频：指从喜马拉雅、荔枝FM、蜻蜓FM等音频平台获取的音频内容，并通过语音识别技术将音频内容转化为文字形式的新闻文本。

进一步的，所述用户的请求或推送设置包括但不限于用户的兴趣标签、阅读历史、订阅频道、地理位置、时间段。

用户的请求或推送设置包括但不限于用户的兴趣标签、阅读历史、订阅频道、地理位置、时间段、偏好主题等信息。具体地，本方法可以根据以下信息对用户进行请求或推送设置；

兴趣标签：指用户在注册或登录时选择或输入的代表其兴趣和偏好的关键词或短语，例如“体育”“科技”“美食”等。本方法可以根据用户的兴趣标签，为用户推送与其兴趣标签相关的新闻文本。

阅读历史：指用户在使用本方法时浏览或阅读过的新闻文本的记录，包括新闻文本的标题、摘要、来源、时间等信息。本方法可以根据用户的阅读历史，为用户推送与其阅读历史相似或相关的新闻文本。

订阅频道：指用户在使用本方法时主动选择或关注的新闻来源或主题，例如“新浪新闻”“财经”“娱乐”等。本方法可以根据用户的订阅频道，为用户推送与其订阅频道相符或相关的新闻文本。

地理位置：指用户在使用本方法时所处的地理位置，包括国家、省份、城市等信息。本方法可以根据用户的地理位置，为用户推送与其地理位置相关的新闻文本。

时间段：指用户在使用本方法时所处的时间段，包括年份、月份、日期、小时等信息。本方法可以根据用户的时间段，为用户推送与其时间段相关的新闻文本。

进一步的，新闻阅读界面包括但不限于新闻标题、新闻摘要、新闻图片、新闻来源、新闻时间、新闻数据可视化、新闻相关事件。

新闻标题：指每篇新闻文本的标题，用于概括新闻文本的主要内容和吸引用户的注意力。本方法可以根据新闻文本的关键词、主题、情感等特征，生成简洁、明确、有吸引力的新闻标题。

新闻摘要：指每篇新闻文本的摘要，用于提供新闻文本的核心信息和概览。本方法可以根据新闻文本的关键词、主题、情感、事件等特征，生成精炼、全面、客观的新闻摘要。

新闻图片：指每篇新闻文本的图片，用于增加新闻文本的视觉效果和信息量。本方法可以根据新闻文本的关键词、主题、情感、事件等特征，从数据库中检索或生成与之相关的图片，并在合适的位置插入到新闻文本中。

新闻来源：指每篇新闻文本的来源，用于标明新闻文本的出处和可信度。本方法可以根据数据库中存储的每个新闻来源的名称、网址、评分等信息，显示每篇新闻文本的来源，并提供链接或二维码供用户访问原始网页。

新闻时间：指每篇新闻文本的时间，用于标明新闻文本的时效性和重要性。

实施例三，与实施例一基本相同，不同之处将实施例一中的子步骤B替换成子步骤E，所述子步骤E包括：

E1、事件融合：

E2、事件摘要生成：

利用基于变分自编码器(VAE)的算法对融合后的事件进行摘要生成，以提供更精炼、更全面、更客观的事件描述。

E1、事件融合：本方法利用基于迁移学习(Transfer Learning)的算法将不同来源、不同语言、不同领域的新闻文本中的相同或相似事件进行融合，以消除冗余和矛盾。具体地，本方法采用基于多任务学习(Multi-Task Learning)的迁移学习算法，将不同来源、不同语言、不同领域的新闻文本视为不同的任务，共享一个事件抽取模型的参数，并在每个任务上添加一个任务特定的输出层。通过这种方式，本方法可以利用不同任务之间的相似性和互补性，提高事件抽取模型的泛化能力和准确性。然后，本方法根据事件抽取模型输出的事件要素和事件关系，对不同来源、不同语言、不同领域的新闻文本中的相同或相似事件进行匹配和融合，生成一个统一的事件表示。

E2、事件摘要生成：本方法利用基于变分自编码器(VAE)的算法对融合后的事件进行摘要生成，以提供更精炼、更全面、更客观的事件描述。具体地，本方法采用基于序列到序列(Seq2Seq)的变分自编码器算法，将融合后的事件表示作为输入序列，将事件摘要作为输出序列。本方法在编码器和解码器之间添加一个隐含变量层，用于捕捉输入序列和输出序列之间的隐含关系，并增加输出序列的多样性。通过这种方式，本方法可以根据融合后的事件表示，生成简洁、明确、有吸引力的事件摘要。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于数据挖掘与深度学习的新闻信息聚合方法，其特征在于：包括以下步骤：

S1、数据采集和预处理：

从多个新闻来源采集实时更新的新闻文本，并进行预处理；

S2、数据分析和特征提取：

S3、数据展示和摘要生成：

S4、数据反馈和模型优化：

2.根据权利要求1所述的一种基于数据挖掘与深度学习的新闻信息聚合方法，其特征在于：所述数据分析和特征提取包括以下子步骤：

A1、关键词提取：

利用基于词频－逆文档频率的算法提取每篇新闻文本的关键词；

A2、主题识别：

利用基于潜在狄利克雷分布的算法识别每篇新闻文本的主题；

A3、情感分析：

利用基于卷积神经网络的算法分析每篇新闻文本的情感倾向；

A4、事件抽取：

利用基于双向长短期记忆网络和条件随机场的算法抽取每篇新闻文本中的事件要素；

A5、事件关系抽取：利用基于图卷积网络的算法抽取每篇新闻文本中的事件之间的因果、时序、条件等关系；

A6、事件知识库构建：利用基于生成对抗网络的算法将抽取出的事件及其关系存储在一个事件知识库中，以便进行事件推理和查询。

3.根据权利要求2所述的一种基于数据挖掘与深度学习的新闻信息聚合方法，其特征在于：所述数据展示和摘要生成包括子步骤B：

B1数据可视化：

B2摘要生成：

利用基于注意力机制和指针生成器网络的算法对新闻文本进行摘要生成。

4.根据权利要求3所述的一种基于数据挖掘与深度学习的新闻信息聚合方法，其特征在于：所述数据反馈和模型优化包括以下子步骤：

C1、用户反馈数据收集：

C2、用户喜好程度计算：

利用基于协同过滤的算法计算用户对新闻信息聚合结果的喜好程度。

5.根据权利要求4所述的一种基于数据挖掘与深度学习的新闻信息聚合方法，其特征在于：所述数据反馈和模型优化还包括以下子步骤：

D1、模型参数调整：

利用基于梯度下降的算法调整数据挖掘和深度学习模型的参数；

D2模型性能评估：

利用基于交叉验证的算法评估数据挖掘和深度学习模型的性能；

D3、模型迁移应用：

利用基于迁移学习的算法将数据挖掘和深度学习模型应用于不同的新闻领域或语言。

6.根据权利要求5所述的一种基于数据挖掘与深度学习的新闻信息聚合方法，其特征在于：所述多个新闻来源包括但不限于网络新闻、社交媒体、博客、论坛、视频、音频。

7.根据权利要求6所述的一种基于数据挖掘与深度学习的新闻信息聚合方法，其特征在于：所述用户的请求或推送设置包括但不限于用户的兴趣标签、阅读历史、订阅频道、地理位置、时间段。

8.根据权利要求7所述的一种基于数据挖掘与深度学习的新闻信息聚合方法，其特征在于：所述新闻阅读界面包括但不限于新闻标题、新闻摘要、新闻图片、新闻来源、新闻时间、新闻数据可视化、新闻相关事件。

9.根据权利要求3所述的一种基于数据挖掘与深度学习的新闻信息聚合方法，其特征在于：包括用于替换数据展示和摘要生成子步骤B的子步骤E，所述子步骤E包括：

E1、事件融合：

利用基于迁移学习的算法将不同来源、不同语言、不同领域的新闻文本中的相同或相似事件进行融合，以消除冗余和矛盾；

E2、事件摘要生成：

利用基于变分自编码器的算法对融合后的事件进行摘要生成，以提供更精炼、更全面、更客观的事件描述。