CN111970327A - 一种基于大数据处理的新闻传播方法及系统 - Google Patents

一种基于大数据处理的新闻传播方法及系统 Download PDF

Info

Publication number
CN111970327A
CN111970327A CN202010711916.3A CN202010711916A CN111970327A CN 111970327 A CN111970327 A CN 111970327A CN 202010711916 A CN202010711916 A CN 202010711916A CN 111970327 A CN111970327 A CN 111970327A
Authority
CN
China
Prior art keywords
news
data
module
user
spreading
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010711916.3A
Other languages
English (en)
Inventor
杨国为
杨章静
詹天明
张凡龙
黄璞
万鸣华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NANJING AUDIT UNIVERSITY
Original Assignee
NANJING AUDIT UNIVERSITY
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NANJING AUDIT UNIVERSITY filed Critical NANJING AUDIT UNIVERSITY
Priority to CN202010711916.3A priority Critical patent/CN111970327A/zh
Publication of CN111970327A publication Critical patent/CN111970327A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/535Tracking the activity of the user
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/55Push-based network services

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于新闻传播技术领域,公开了一种基于大数据处理的新闻传播方法及系统,基于大数据处理的新闻传播系统包括:数据获取模块、数据分析模块、新闻传播模块、中央控制模块、传播力预测模块、传播量计算模块、新闻传播评价模块、数据存储模块、显示模块。本发明通过对大量用户的反馈数据进行反复迭代,优化待推送用户新闻偏好数据之间的关系系数,并根据优化结果进行新闻推送,实现基于用户大数据处理的新闻传播,可以有效利用新闻资源进行精准的推送,提高新闻利用率以及提高新闻推送效率。同时,通过传播力预测程序大数据对当前互联网的用户进行分析,再结合新闻的特点,预测新闻的传播力,为新闻传播效果做出预计的判断。

Description

一种基于大数据处理的新闻传播方法及系统
技术领域
本发明属于新闻传播技术领域,尤其涉及一种基于大数据处理的新闻传播方法及系统。
背景技术
目前,新闻种类越来越多,每天的新闻新增量非常庞大,用户无话在有限的时间内浏览所有新闻,如何将用户关注的新闻推送给用户,是当今研究的一个重点。现有技术采用的方式是将新闻按种类进行分类,根据用户喜欢的种类进行新闻推送。但是,新闻种类有限,同种类新闻数量大,如果按新闻种类进行新闻推送,被推送新闻正好是用户喜欢的新闻概率较低;往往需要推送10篇以上新闻,甚至推送上百篇新闻后,才会出现一篇用户想要的新闻,新闻推送效率低;同时无法对新闻的传播力进行预测,降低了传播速度。
综上所述,现有技术存在的问题及缺陷是:
(1)现有新闻传播方法新闻推送效率低,被推送新闻正好是用户喜欢的新闻概率较低。
(2)现有新闻传播方法无法对新闻的传播力进行预测,降低了传播速度。
发明内容
针对现有技术存在的问题,本发明提供了一种基于大数据处理的新闻传播方法及系统。
本发明是这样实现的,一种基于大数据处理的新闻传播方法,所述基于大数据处理的新闻传播方法包括:
步骤一,数据获取模块通过数据获取程序获取搜索的新闻关键字、用户新闻偏好数据;用户新闻偏好数据包括用户ID和用户偏好关键词;数据分析模块对获取的需要新闻关键字和待推送用户新闻偏好数据的关联度进行权重分析;
步骤二,根据数据分析结果,中央控制模块通过信号传输模块与云端连接,提取相应的新闻信息;中央控制模块控制传播量计算模块对新闻传播量进行计算;
所述传播量计算模块对新闻传播量进行计算时:
首先获取新闻的发布日期以及新闻发布日期与新闻传播量统计日的时间间隔;
然后获取新闻发布日期至新闻传播量统计日的阅读数,以及新闻发布日期至新闻传播量统计日的评论数;
最后获取新闻发布日期至新闻传播量统计日的参与人数;
步骤三,根据新闻传播量,中央控制模块控制新闻传播评价模块对新闻传播进行评价,并且传播力预测模块对新闻传播力进行预测;
步骤四,根据新闻传播力预测结果数据,新闻传播模块接受与搜索的新闻关键字和用户新闻偏好数据新闻;
步骤五,数据存储模块存储获取的需要新闻的关键字、数据分析结果、传播力预测数据、新闻传播量以及新闻传播评价数据;显示模块显示获取的需要新闻的关键字、数据分析结果、传播力预测数据、新闻传播量以及新闻传播评价的实时数据。
进一步,所述步骤一中,数据获取模块提取出需要新闻的主题和关键词的方法包括:
获取对需要新闻,并通过停用词表将新闻稿中的停用词进行过滤;通过关键词提取算法对新闻稿中的关键词进行提取;
根据新闻稿中提取的关键词使用LDA主题模型得到新闻稿的主题。
进一步,所述步骤一中,数据分析模块通过数据分析程序对获取的需要新闻关键词和待推送用户新闻偏好数据的关联度进行权重分析的方法包括:
步骤A,获取新闻关键词和用户新闻偏好数据之间的关系系数;
步骤B,基于用户新闻偏好数据和关键词的关系系数,向用户推送新闻集;
步骤C,中央处理器获取用户反馈信息,所述反馈信息包括新闻集中的各新闻是否被浏览的信息;
步骤D,基于用户的反馈信息,调整用户新闻偏好数据和关键词的关系系数。
进一步,所述需要新闻关键词和待推送用户新闻偏好数据之间的关系系数的计算方法,具体包括:
Figure BDA0002596874450000031
其中,Nij表示第i个关键词相对于第j个关键词的关系系数;i=j时,第i个关键词相对于第j个关键词的关系系数为1;i≠j时,第i个关键词相对于第j个关键词的关系系数为
Figure BDA0002596874450000032
其中,Yij表示第i个关键词相对于第j个关键词的关系值,n为关键词总数量,Yij初始值为1。
进一步,步骤二中,所述传播量计算模块用于计算新闻发布日期至新闻传播量统计日的传播量,将新闻发布日期获取单元、时间间隔获取单元、阅读数获取单元、评论数获取单元和参与人数获取单元所获取的参数数据引入时间衰减函数单元后得出新闻的传播量。
进一步,所述步骤二中,根据数据分析结果,中央控制模块通过信号传输模块与云端连接,提取相应的新闻信息过程为:
提取新闻关键词和用户新闻偏好数据中的特征信息,将与特征信息相关的数据建立成数据训练集;
将特征信息与数据训练集中的数据进行相似度计算,按照相似度增大的趋势进行排序;
确定中间值,提取离中间值相近的N个点;计算N个点所在类别的数据训练集出现的频率;
确定出现频率最高的点作为相应新闻信息。
进一步,所述步骤三中,传播力预测模块通过传播力预测程序对新闻传播力进行预测的方法包括:
步骤a,通过对相应的新闻进行拆解,提取出需要新闻的主题和关键词;
步骤b,通过浏览器找到用户浏览内容的主题与对需要新闻的主题一致的主题,提取用户浏览内容的关键词,并统计各个主题的用户浏览内容的用户数;
步骤c,将用户浏览内容提取出来的关键词的数量与需要新闻的关键词的数量之间的比值乘以该用户浏览内容的主题的用户数,得到需要新闻的预测传播量。
进一步,所述步骤四中,新闻传播模块接受与搜索的新闻关键字和用户新闻偏好数据新闻的过程为:
服务端通过Socket调用提交TCP/IP层,将所要搜索的数据信息封装成IP数据报文,送往数据链路层;
数据链路层将目的方的MAC地址和自己的MAC地址分别填入目标MAC和源MAC的字段中,发送到接受端。
进一步,所述步骤五中,数据存储模块对获取新闻的关键字、数据分析结果、传播力预测数据、新闻传播量以及新闻传播评价数据进行分类过程为:
将获取新闻的关键字、数据分析结果、传播力预测数据、新闻传播量以及新闻传播评价数据建立多个相应的训练样本;
对建立多个相应的训练样本,计算所有属性的信息增益;把测试属性取值相同的样本华为同一个子样本集;
若类别属性值含有单个属性,在属性值并标注相应的注释,进行调出。
本发明另一目的在于提供一种实施所述的基于大数据处理的新闻传播方法的基于大数据处理的新闻传播系统,所述基于大数据处理的新闻传播系统包括:
数据获取模块,用于通过数据获取程序获取需要新闻及其关键字、待推送用户新闻偏好数据;所述用户新闻偏好数据包括用户ID和用户偏好关键词;数据获取模块提取出需要新闻的主题和关键词的过程为:获取对需要新闻,并通过停用词表将新闻稿中的停用词进行过滤;通过关键词提取算法对新闻稿中的关键词进行提取;根据新闻稿中提取的关键词使用LDA主题模型得到新闻稿的主题;
数据分析模块,用于通过数据分析程序对获取的需要新闻关键字和待推送用户新闻偏好数据的关联度进行权重分析;数据分析模块通过数据分析程序对获取的需要新闻关键词和待推送用户新闻偏好数据的关联度进行权重分析的过程为:获取新闻关键词和用户新闻偏好数据之间的关系系数;基于用户新闻偏好数据和关键词的关系系数,向用户推送新闻集;中央处理器获取用户反馈信息,所述反馈信息包括新闻集中的各新闻是否被浏览的信息;基于用户的反馈信息,调整用户新闻偏好数据和关键词的关系系数;
新闻传播模块,用于接受与搜索的新闻关键字和用户新闻偏好数据新闻。
中央控制模块,与数据获取模块、数据分析模块、新闻传播模块、传播力预测模块、传播量计算模块、新闻传播评价模块、数据存储模块、显示模块连接,用于通过中央处理器控制各个模块的正常运行;
传播力预测模块,用于通过传播力预测程序对新闻传播力进行预测;通过对相应的新闻进行拆解,提取出需要新闻的主题和关键词;通过浏览器找到用户浏览内容的主题与对需要新闻的主题一致的主题,提取用户浏览内容的关键词,并统计各个主题的用户浏览内容的用户数;将用户浏览内容提取出来的关键词的数量与需要新闻的关键词的数量之间的比值乘以该用户浏览内容的主题的用户数,得到需要新闻的预测传播量;
传播量计算模块,用于通过传播量计算程序对新闻传播量进行计算;
新闻传播评价模块,用于通过评价程序根据新闻传播量对新闻传播进行评价。
进一步,所述数据存储模块,用于通过存储器存储获取的需要新闻的关键字、数据分析结果、传播力预测数据、新闻传播量以及新闻传播评价数据;将获取新闻的关键字、数据分析结果、传播力预测数据、新闻传播量以及新闻传播评价数据建立多个相应的训练样本;对建立多个相应的训练样本,计算所有属性的信息增益;把测试属性取值相同的样本华为同一个子样本集;若类别属性值含有单个属性,在属性值并标注相应的注释,进行调出;
显示模块,用于通过显示器显示获取的需要新闻的关键字、数据分析结果、传播力预测数据、新闻传播量以及新闻传播评价的实时数据。
结合上述的所有技术方案,本发明所具备的优点及积极效果为:
(1)本发明提供的基于大数据处理的新闻传播方法,通过对需要新闻关键词和待推送用户新闻偏好数据之间的关系系数进行计算,根据大量的不同用户的反馈数据,进行反复迭代,优化优化待推送用户新闻偏好数据之间的关系系数,并根据优化后的优化待推送用户新闻偏好数据之间的关系系数进行新闻推送,进而实现基于用户大数据处理的新闻传播,可以有效利用新闻资源进行精准的推送,提高新闻利用率以及提高新闻推送效率。同时通过传播力预测程序大数据对当前互联网的用户进行分析,再结合新闻的特点,预测新闻的传播力,为新闻传播效果做出预计的判断。
(2)本发明数据获取模块提取出需要新闻的主题和关键词的方法,可以有效提取相应的数据信息。
(3)本发明数据分析模块通过数据分析程序对获取的需要新闻关键词和待推送用户新闻偏好数据的关联度进行权重分析的方法,提高新闻信息的准确度。
(4)本发明根据数据分析结果,中央控制模块通过信号传输模块与云端连接,提取相应的新闻信息方法,能够获取大量所需要的新闻信息。
(5)本发明传播力预测模块通过传播力预测程序对新闻传播力进行预测的方法,提高新闻信息传输的效率。
(6)本发明数据存储模块对获取新闻的关键字、数据分析结果、传播力预测数据、新闻传播量以及新闻传播评价数据进行分类,提高储存新闻信息的容量。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的基于大数据处理的新闻传播系统结构示意图;
图中:1、数据获取模块;2、数据分析模块;3、新闻传播模块;4、中央控制模块;5、传播力预测模块;6、传播量计算模块;7、新闻传播评价模块;8、数据存储模块;9、显示模块。
图2是本发明实施例提供的基于大数据处理的新闻传播方法流程图。
图3是本发明实施例提供的通过数据分析程序对获取的需要新闻关键词和待推送用户新闻偏好数据的关联度进行权重分析的方法流程图。
图4是本发明实施例提供的通过传播力预测程序对新闻传播力进行预测的方法流程图。
图5是本发明实施例提供的提取出需要新闻的主题和关键词的方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种基于大数据处理的新闻传播方法及系统,下面结合附图对本发明作详细的描述。
如图1所示,本发明实施例提供的基于大数据处理的新闻传播系统包括:数据获取模块1、数据分析模块2、新闻传播模块3、中央控制模块4、传播力预测模块5、传播量计算模块6、新闻传播评价模块7、数据存储模块8、显示模块9。
数据获取模块1,与中央控制模块4连接,用于通过数据获取程序获取需要新闻及其关键字、待推送用户新闻偏好数据;所述用户新闻偏好数据包括用户ID和用户偏好关键词;
数据分析模块2,与中央控制模块4连接,用于通过数据分析程序对获取的需要新闻关键字和待推送用户新闻偏好数据的关联度进行权重分析;
新闻传播模块3,与中央控制模块4连接,用于接受与搜索的新闻关键字和用户新闻偏好数据新闻。
中央控制模块4,与数据获取模块1、数据分析模块2、新闻传播模块3、传播力预测模块5、传播量计算模块6、新闻传播评价模块7、数据存储模块8、显示模块9连接,用于通过中央处理器控制各个模块的正常运行;
传播力预测模块5,与中央控制模块4连接,用于通过传播力预测程序对新闻传播力进行预测;
传播量计算模块6,与中央控制模块4连接,用于通过传播量计算程序对新闻传播量进行计算;
新闻传播评价模块7,与中央控制模块4连接,用于通过评价程序根据新闻传播量对新闻传播进行评价;
数据存储模块8,与中央控制模块4连接,用于通过存储器存储获取的需要新闻的关键字、数据分析结果、传播力预测数据、新闻传播量以及新闻传播评价数据;
显示模块9,与中央控制模块4连接,用于通过显示器显示获取的需要新闻的关键字、数据分析结果、传播力预测数据、新闻传播量以及新闻传播评价的实时数据。
如图2所示,本发明实施例提供的基于大数据处理的新闻传播方法包括以下步骤:
S101:数据获取模块通过数据获取程序获取搜索的新闻关键字、用户新闻偏好数据;用户新闻偏好数据包括用户ID和用户偏好关键词;数据分析模块对获取的需要新闻关键字和待推送用户新闻偏好数据的关联度进行权重分析。
S102:根据数据分析结果,中央控制模块通过信号传输模块与云端连接,提取相应的新闻信息;中央控制模块控制传播量计算模块对新闻传播量进行计算。
S103:根据新闻传播量,中央控制模块控制新闻传播评价模块对新闻传播进行评价,并且传播力预测模块对新闻传播力进行预测。
S104:根据新闻传播力预测结果数据,新闻传播模块接受与搜索的新闻关键字和用户新闻偏好数据新闻。
S105:数据存储模块存储获取的需要新闻的关键字、数据分析结果、传播力预测数据、新闻传播量以及新闻传播评价数据;显示模块显示获取的需要新闻的关键字、数据分析结果、传播力预测数据、新闻传播量以及新闻传播评价的实时数据。
步骤S102中,传播量计算模块对新闻传播量进行计算时:
首先获取新闻的发布日期以及新闻发布日期与新闻传播量统计日的时间间隔;
然后获取新闻发布日期至新闻传播量统计日的阅读数,以及新闻发布日期至新闻传播量统计日的评论数;
最后获取新闻发布日期至新闻传播量统计日的参与人数。
传播量计算模块用于计算新闻发布日期至新闻传播量统计日的传播量,将新闻发布日期获取单元、时间间隔获取单元、阅读数获取单元、评论数获取单元和参与人数获取单元所获取的参数数据引入时间衰减函数单元后得出新闻的传播量。
本发明实施例提供的S101中,数据分析模块通过数据分析程序对获取的需要新闻关键词和待推送用户新闻偏好数据的关联度进行权重分析的方法包括:
S201:获取新闻关键词和用户新闻偏好数据之间的关系系数。
S202:基于用户新闻偏好数据和关键词的关系系数,向用户推送新闻集。
S203:中央处理器获取用户反馈信息,所述反馈信息包括新闻集中的各新闻是否被浏览的信息。
S204:基于用户的反馈信息,调整用户新闻偏好数据和关键词的关系系数。
本发明实施例提供的需要新闻关键词和待推送用户新闻偏好数据之间的关系系数的计算方法,具体包括:
Figure BDA0002596874450000101
其中,Nij表示第i个关键词相对于第j个关键词的关系系数;i=j时,第i个关键词相对于第j个关键词的关系系数为1;i≠j时,第i个关键词相对于第j个关键词的关系系数为
Figure BDA0002596874450000102
其中,Yij表示第i个关键词相对于第j个关键词的关系值,n为关键词总数量,Yij初始值为1。
本发明实施例提供的S102中,根据数据分析结果,中央控制模块通过信号传输模块与云端连接,提取相应的新闻信息过程为:
提取新闻关键词和用户新闻偏好数据中的特征信息,将与特征信息相关的数据建立成数据训练集;
将特征信息与数据训练集中的数据进行相似度计算,按照相似度增大的趋势进行排序;
确定中间值,提取离中间值相近的N个点;计算N个点所在类别的数据训练集出现的频率;
确定出现频率最高的点作为相应新闻信息。
本发明实施例提供的S103中,传播力预测模块通过传播力预测程序对新闻传播力进行预测的方法包括:
S301:通过对相应的新闻进行拆解,提取出需要新闻的主题和关键词。
S302:通过浏览器找到用户浏览内容的主题与对需要新闻的主题一致的主题,提取用户浏览内容的关键词,并统计各个主题的用户浏览内容的用户数。
S303:将用户浏览内容提取出来的关键词的数量与需要新闻的关键词的数量之间的比值乘以该用户浏览内容的主题的用户数,得到需要新闻的预测传播量。
本发明实施例提供的S104中,新闻传播模块接受与搜索的新闻关键字和用户新闻偏好数据新闻的过程为:
服务端通过Socket调用提交TCP/IP层,将所要搜索的数据信息封装成IP数据报文,送往数据链路层;
数据链路层将目的方的MAC地址和自己的MAC地址分别填入目标MAC和源MAC的字段中,发送到接受端。
本发明实施例提供的S101中,数据获取模块提取出需要新闻的主题和关键词的方法包括:
S401:获取对需要新闻,并通过停用词表将新闻稿中的停用词进行过滤。
S402:通过关键词提取算法对新闻稿中的关键词进行提取。
S403:根据新闻稿中提取的关键词使用LDA主题模型得到新闻稿的主题。
本发明实施例提供的S105中,数据存储模块对获取新闻的关键字、数据分析结果、传播力预测数据、新闻传播量以及新闻传播评价数据进行分类过程为:
将获取新闻的关键字、数据分析结果、传播力预测数据、新闻传播量以及新闻传播评价数据建立多个相应的训练样本;
对建立多个相应的训练样本,计算所有属性的信息增益;把测试属性取值相同的样本华为同一个子样本集;
若类别属性值含有单个属性,在属性值并标注相应的注释,进行调出。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。
本发明的工作原理为:数据获取模块1通过数据获取程序获取搜索的新闻关键字、用户新闻偏好数据;用户新闻偏好数据包括用户ID和用户偏好关键词;据分析模块2对获取的需要新闻关键字和待推送用户新闻偏好数据的关联度进行权重分析。根据数据分析结果,中央控制模块4通过信号传输模块与云端连接,提取相应的新闻信息;中央控制模块4控制传播量计算模块6对新闻传播量进行计算。根据新闻传播量,中央控制模块4控制新闻传播评价模块7对新闻传播进行评价,并且传播力预测模块5对新闻传播力进行预测。
根据新闻传播力预测结果数据,新闻传播模块3接受与搜索的新闻关键字和用户新闻偏好数据新闻。数据存储模块8存储获取的需要新闻的关键字、数据分析结果、传播力预测数据、新闻传播量以及新闻传播评价数据;显示模块9显示获取的需要新闻的关键字、数据分析结果、传播力预测数据、新闻传播量以及新闻传播评价的实时数据。
以上所述,仅为本发明较优的具体的实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种基于大数据处理的新闻传播方法,其特征在于,所述基于大数据处理的新闻传播方法包括:
步骤一,数据获取模块通过数据获取程序获取搜索的新闻关键字、用户新闻偏好数据;用户新闻偏好数据包括用户ID和用户偏好关键词;数据分析模块对获取的需要新闻关键字和待推送用户新闻偏好数据的关联度进行权重分析;
所述权重分析的方法包括:
步骤A,获取新闻关键词和用户新闻偏好数据之间的关系系数;
步骤B,基于用户新闻偏好数据和关键词的关系系数,向用户推送新闻集;
步骤C,中央处理器获取用户反馈信息,所述反馈信息包括新闻集中的各新闻是否被浏览的信息;
步骤D,基于用户的反馈信息,调整用户新闻偏好数据和关键词的关系系数;
步骤二,根据数据分析结果,中央控制模块通过信号传输模块与云端连接,提取相应的新闻信息;中央控制模块控制传播量计算模块对新闻传播量进行计算;
所述传播量计算模块对新闻传播量进行计算时:
首先获取新闻的发布日期以及新闻发布日期与新闻传播量统计日的时间间隔;
然后获取新闻发布日期至新闻传播量统计日的阅读数,以及新闻发布日期至新闻传播量统计日的评论数;
最后获取新闻发布日期至新闻传播量统计日的参与人数;
步骤三,根据新闻传播量,中央控制模块控制新闻传播评价模块对新闻传播进行评价,并且传播力预测模块对新闻传播力进行预测;
步骤四,根据新闻传播力预测结果数据,新闻传播模块接受与搜索的新闻关键字和用户新闻偏好数据新闻;
步骤五,数据存储模块存储获取的需要新闻的关键字、数据分析结果、传播力预测数据、新闻传播量以及新闻传播评价数据;显示模块显示获取的需要新闻的关键字、数据分析结果、传播力预测数据、新闻传播量以及新闻传播评价的实时数据。
2.如权利要求1所述的基于大数据处理的新闻传播方法,其特征在于,所述步骤一中,数据获取模块提取出需要新闻的主题和关键词的方法包括:
获取对需要新闻,并通过停用词表将新闻稿中的停用词进行过滤;通过关键词提取算法对新闻稿中的关键词进行提取;
根据新闻稿中提取的关键词使用LDA主题模型得到新闻稿的主题。
3.如权利要求1所述的基于大数据处理的新闻传播方法,其特征在于,所述传播量计算模块用于计算新闻发布日期至新闻传播量统计日的传播量,将新闻发布日期获取单元、时间间隔获取单元、阅读数获取单元、评论数获取单元和参与人数获取单元所获取的参数数据引入时间衰减函数单元后得出新闻的传播量。
4.如权利要求1所述的基于大数据处理的新闻传播方法,其特征在于,所述需要新闻关键词和待推送用户新闻偏好数据之间的关系系数的计算方法,具体包括:
Figure FDA0002596874440000021
其中,Nij表示第i个关键词相对于第j个关键词的关系系数;i=j时,第i个关键词相对于第j个关键词的关系系数为1;i≠j时,第i个关键词相对于第j个关键词的关系系数为
Figure FDA0002596874440000022
其中,Yij表示第i个关键词相对于第j个关键词的关系值,n为关键词总数量,Yij初始值为1。
5.如权利要求1所述的基于大数据处理的新闻传播方法,其特征在于,所述步骤二中,根据数据分析结果,中央控制模块通过信号传输模块与云端连接,提取相应的新闻信息过程为:
提取新闻关键词和用户新闻偏好数据中的特征信息,将与特征信息相关的数据建立成数据训练集;
将特征信息与数据训练集中的数据进行相似度计算,按照相似度增大的趋势进行排序;
确定中间值,提取离中间值相近的N个点;计算N个点所在类别的数据训练集出现的频率;
确定出现频率最高的点作为相应新闻信息。
6.如权利要求1所述的基于大数据处理的新闻传播方法,其特征在于,所述步骤三中,传播力预测模块通过传播力预测程序对新闻传播力进行预测的方法包括:
步骤a,通过对相应的新闻进行拆解,提取出需要新闻的主题和关键词;
步骤b,通过浏览器找到用户浏览内容的主题与对需要新闻的主题一致的主题,提取用户浏览内容的关键词,并统计各个主题的用户浏览内容的用户数;
步骤c,将用户浏览内容提取出来的关键词的数量与需要新闻的关键词的数量之间的比值乘以该用户浏览内容的主题的用户数,得到需要新闻的预测传播量。
7.如权利要求1所述的基于大数据处理的新闻传播方法,其特征在于,所述步骤四中,新闻传播模块接受与搜索的新闻关键字和用户新闻偏好数据新闻的过程为:
服务端通过Socket调用提交TCP/IP层,将所要搜索的数据信息封装成IP数据报文,送往数据链路层;
数据链路层将目的方的MAC地址和自己的MAC地址分别填入目标MAC和源MAC的字段中,发送到接受端。
8.如权利要求1所述的基于大数据处理的新闻传播方法,其特征在于,所述步骤五中,数据存储模块对获取新闻的关键字、数据分析结果、传播力预测数据、新闻传播量以及新闻传播评价数据进行分类过程为:
将获取新闻的关键字、数据分析结果、传播力预测数据、新闻传播量以及新闻传播评价数据建立多个相应的训练样本;
对建立多个相应的训练样本,计算所有属性的信息增益;把测试属性取值相同的样本华为同一个子样本集;
若类别属性值含有单个属性,在属性值并标注相应的注释,进行调出。
9.一种实施如权利要求1-8任意一项所述的基于大数据处理的新闻传播方法的基于大数据处理的新闻传播系统,其特征在于,所述基于大数据处理的新闻传播系统包括:
数据获取模块,用于通过数据获取程序获取需要新闻及其关键字、待推送用户新闻偏好数据;所述用户新闻偏好数据包括用户ID和用户偏好关键词;数据获取模块提取出需要新闻的主题和关键词的过程为:获取对需要新闻,并通过停用词表将新闻稿中的停用词进行过滤;通过关键词提取算法对新闻稿中的关键词进行提取;根据新闻稿中提取的关键词使用LDA主题模型得到新闻稿的主题;
数据分析模块,用于通过数据分析程序对获取的需要新闻关键字和待推送用户新闻偏好数据的关联度进行权重分析;数据分析模块通过数据分析程序对获取的需要新闻关键词和待推送用户新闻偏好数据的关联度进行权重分析的过程为:获取新闻关键词和用户新闻偏好数据之间的关系系数;基于用户新闻偏好数据和关键词的关系系数,向用户推送新闻集;中央处理器获取用户反馈信息,所述反馈信息包括新闻集中的各新闻是否被浏览的信息;基于用户的反馈信息,调整用户新闻偏好数据和关键词的关系系数;
新闻传播模块,用于接受与搜索的新闻关键字和用户新闻偏好数据新闻。
中央控制模块,与数据获取模块、数据分析模块、新闻传播模块、传播力预测模块、传播量计算模块、新闻传播评价模块、数据存储模块、显示模块连接,用于通过中央处理器控制各个模块的正常运行;
传播力预测模块,用于通过传播力预测程序对新闻传播力进行预测;通过对相应的新闻进行拆解,提取出需要新闻的主题和关键词;通过浏览器找到用户浏览内容的主题与对需要新闻的主题一致的主题,提取用户浏览内容的关键词,并统计各个主题的用户浏览内容的用户数;将用户浏览内容提取出来的关键词的数量与需要新闻的关键词的数量之间的比值乘以该用户浏览内容的主题的用户数,得到需要新闻的预测传播量;
传播量计算模块,用于通过传播量计算程序对新闻传播量进行计算;
新闻传播评价模块,用于通过评价程序根据新闻传播量对新闻传播进行评价。
10.如权利要求9所述的基于大数据处理的新闻传播系统,其特征在于,所述数据存储模块,用于通过存储器存储获取的需要新闻的关键字、数据分析结果、传播力预测数据、新闻传播量以及新闻传播评价数据;将获取新闻的关键字、数据分析结果、传播力预测数据、新闻传播量以及新闻传播评价数据建立多个相应的训练样本;对建立多个相应的训练样本,计算所有属性的信息增益;把测试属性取值相同的样本华为同一个子样本集;若类别属性值含有单个属性,在属性值并标注相应的注释,进行调出;
显示模块,用于通过显示器显示获取的需要新闻的关键字、数据分析结果、传播力预测数据、新闻传播量以及新闻传播评价的实时数据。
CN202010711916.3A 2020-07-22 2020-07-22 一种基于大数据处理的新闻传播方法及系统 Pending CN111970327A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010711916.3A CN111970327A (zh) 2020-07-22 2020-07-22 一种基于大数据处理的新闻传播方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010711916.3A CN111970327A (zh) 2020-07-22 2020-07-22 一种基于大数据处理的新闻传播方法及系统

Publications (1)

Publication Number Publication Date
CN111970327A true CN111970327A (zh) 2020-11-20

Family

ID=73362702

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010711916.3A Pending CN111970327A (zh) 2020-07-22 2020-07-22 一种基于大数据处理的新闻传播方法及系统

Country Status (1)

Country Link
CN (1) CN111970327A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114328765A (zh) * 2022-03-04 2022-04-12 四川大学 新闻传播预测方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462578A (zh) * 2014-12-29 2015-03-25 北京邮电大学 新闻推送方法
CN108197292A (zh) * 2018-01-22 2018-06-22 成都睿码科技有限责任公司 一种新闻传播量的度量方法及系统
CN110222909A (zh) * 2019-06-20 2019-09-10 郑州工程技术学院 一种新闻传播力预测方法
CN110532478A (zh) * 2019-09-04 2019-12-03 北京人民在线网络有限公司 一种基于大数据处理的新闻传播方法
CN110738053A (zh) * 2019-10-14 2020-01-31 广东南方新媒体科技有限公司 基于语义分析与监督学习模型的新闻主题推荐算法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462578A (zh) * 2014-12-29 2015-03-25 北京邮电大学 新闻推送方法
CN108197292A (zh) * 2018-01-22 2018-06-22 成都睿码科技有限责任公司 一种新闻传播量的度量方法及系统
CN110222909A (zh) * 2019-06-20 2019-09-10 郑州工程技术学院 一种新闻传播力预测方法
CN110532478A (zh) * 2019-09-04 2019-12-03 北京人民在线网络有限公司 一种基于大数据处理的新闻传播方法
CN110738053A (zh) * 2019-10-14 2020-01-31 广东南方新媒体科技有限公司 基于语义分析与监督学习模型的新闻主题推荐算法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114328765A (zh) * 2022-03-04 2022-04-12 四川大学 新闻传播预测方法及装置
CN114328765B (zh) * 2022-03-04 2022-05-31 四川大学 新闻传播预测方法及装置

Similar Documents

Publication Publication Date Title
CN107609152B (zh) 用于扩展查询式的方法和装置
EP2438539B1 (en) Co-selected image classification
WO2021098648A1 (zh) 文本推荐方法、装置、设备及介质
US10503710B2 (en) Webpage pre-reading method, apparatus and smart terminal
CN107784010B (zh) 一种用于确定新闻主题的热度信息的方法与设备
CN111538931B (zh) 基于大数据的舆情监控方法、装置、计算机设备及介质
CN108874812B (zh) 一种数据处理方法及服务器、计算机存储介质
US11423096B2 (en) Method and apparatus for outputting information
CN104423621A (zh) 拼音字符串处理方法和装置
CN111368063A (zh) 一种基于机器学习的信息推送方法以及相关装置
CN111159563A (zh) 用户兴趣点信息的确定方法、装置、设备及存储介质
CN111708942B (zh) 多媒体资源推送方法、装置、服务器及存储介质
CN111538859B (zh) 一种动态更新视频标签的方法、装置及电子设备
CN103164425B (zh) 应用程序平台系统中推送应用程序的方法和装置
CN116932906A (zh) 一种搜索词推送方法、装置、设备及存储介质
CN111970327A (zh) 一种基于大数据处理的新闻传播方法及系统
CN111723201A (zh) 一种用于文本数据聚类的方法和装置
CN116226494A (zh) 一种用于信息搜索的爬虫系统及方法
CN114491232B (zh) 信息查询方法、装置、电子设备和存储介质
CN113722593B (zh) 事件数据处理方法、装置、电子设备和介质
CN111539208B (zh) 语句处理方法和装置、以及电子设备和可读存储介质
CN114065054A (zh) 一种推送信息的方法和装置
CN114722313A (zh) 搜索结果排序方法、装置、设备及存储介质
CN110580317B (zh) 社交信息分析方法、装置、终端设备及存储介质
CN109241444B (zh) 基于状态机的内容推荐方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20201120

RJ01 Rejection of invention patent application after publication