CN109815391A - 基于大数据的新闻数据分析方法及装置、电子终端 - Google Patents
基于大数据的新闻数据分析方法及装置、电子终端 Download PDFInfo
- Publication number
- CN109815391A CN109815391A CN201811536859.9A CN201811536859A CN109815391A CN 109815391 A CN109815391 A CN 109815391A CN 201811536859 A CN201811536859 A CN 201811536859A CN 109815391 A CN109815391 A CN 109815391A
- Authority
- CN
- China
- Prior art keywords
- information
- news
- word
- hot
- several words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供了一种基于大数据的新闻数据分析方法及装置、电子终端,涉及数据分析技术领域。本发明提供的实施例中,首先,获取新闻源信息;然后,将所述新闻源信息进行分词处理,得到若干词语;其次,利用热点分析模型对所述若干词语进行处理,得到热点信息;以及,利用词语关联模型对所述若干词语进行处理,得到每个词语间的关联关系;从而,基于所述关联关系,获取与所述热点信息对应的指定词语;进而,显示所述热点信息以及所述热点信息对应的指定词语。因此,本发明实施例提供的技术方案能够自动确定热点信息以及其相关信息,不需要用户自行判断与热点信息相关的信息,从而节省了人力成本。
Description
【技术领域】
本发明涉及数据分析技术领域,尤其涉及一种基于大数据的新闻数据分方法及装置、电子终端。
【背景技术】
随着信息化技术的迅速发展,每时每刻都会产生大量的新闻,当今社会除了传统的报纸、电视等可以传播新闻外,网络也成为新闻传播的一个重要媒介。然而随着新闻传播媒介的增加,也随之带来数据或新闻来源较杂乱,新闻质量参差不齐的问题。进一步来说的,新闻来源较杂乱、新闻质量参差不齐,用户不能快速识别出有效新闻。
现有技术中,提出可以通过获取用户搜索内容,并对其进行分析,得到新闻热点变化趋势,以便用户了解当前新闻热点变化情况;或者,还可以是获取用户搜索内容,并对其进行分析,确定热点新闻,从而以向用户展示热点新闻。
在实现本发明的过程中,发明人发现现有技术至少存在以下技术问题:
现有技术提供的技术方案,仅可以向用户展示热点新闻或者热点新闻的变化趋势,用户仅可以了解展示的热点新闻,如果用户想要了解与热点新闻相关的其他新闻,用户需要先自行确定与热点新闻相关的词语,利用这些词,自己去检索,这会消耗大量的人力资源成本。
【发明内容】
有鉴于此,本发明实施例提供了一种基于大数据的新闻数据分方法及装置、电子终端,能够自动确定热点信息以及其相关信息,不需要用户自行判断与热点信息相关的信息,从而节省了人力成本。
本发明实施例提供了一种基于大数据的新闻数据分析方法,所述基于大数据新闻数据分析方法包括:
获取新闻源信息;
将所述新闻源信息进行分词处理,得到若干词语;
利用热点分析模型对所述若干词语进行处理,得到热点信息;
利用词语关联模型对所述若干词语进行处理,得到每个词语间的关联关系;
基于所述关联关系,获取与所述热点信息对应的指定词语;
显示所述热点信息以及所述热点信息对应的指定词语。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述利用热点分析模型对所述若干词语进行处理,得到热点信息,包括:
基于新闻源信息以及预设词库,确定分词方式;
按照所述分词方式对所述新闻源信息进行分词处理。
或者,
基于名词识别学习算法以及预设企业名称词库,识别出所述新闻源信息中包含的企业名称。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述利用热点分析模型对所述若干词语进行处理,得到热点信息,包括:
利用所述热点分析模型对所述若干词语进行处理,得到所述得到每个词语的在每篇新闻中对应的TF-IDF(词频-逆向文档频)值;
获取每个词语的TF-IDF(词频-逆向文档频)平均值,以及,所述每篇新闻预设的权重;
根据所述TF-IDF平均值以及所述每篇新闻预设权重,得到多个加权处理后的TF-IDF值;
获取所述多个加权处理后的TF-IDF值的和,将其和确定为对应词语的热点指数;
将所述热点指数满足预设条件的词语,确定为热点信息。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述将所述热点指数满足预设条件的词语,确定为热点信息,包括:
对所述热点指数按照从大到小的顺序进行排列,得到热点指数排序;
将所述热点指数排序中前n个词频对应的词语,确定为热点信息。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述显示所述热点信息以及所述热点信息对应的指定词语,包括:
按照所述热点指数排序,显示所述热点信息以及与所述热点信息关联的相关信息。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,在所述利用热点分析模型对所述若干词语进行处理,得到热点信息之后,所述方法还包括:
获取所述热点信息在多个时期内的热点指数;
根据所述多个时期内的热点指数,生成所述热点信息对应的热点变化趋势。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述利用词语关联模型对所述若干词语进行处理,得到每个词语件的关联关系,包括:
获取所述若干词语的属性信息;
根据所述属性信息,确定每个词语间的关联关系。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述属性信息包括:词性、词义、词语所在位置中的一种或多种。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,在所述获取新闻源信息之后,所述方法还包括:
利用情感分析学习模型对所述新闻源信息进行处理,得到每条新闻的舆情信息。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,在所述获取新闻源信息之后,所述方法还包括:
提取所述新闻源信息中每天新闻的特征信息;
根据所述特征信息,确定任意两条新闻的相似度;
当所述任意两条新闻的相似度达到预设阈值时,确定所述两条新闻为同类。
第二方面,本发明实施例提供一种基于大数据的新闻数据分析装置,所述基于大数据的新闻数据分析装置包括:
第一获取单元,用于获取新闻源信息;
分词处理单元,用于将所述新闻源信息进行分词处理,得到若干词语;
热点确定单元,用于利用热点分析模型对所述若干词语进行处理,得到热点信息;
关联关系确定单元,用于利用词语关联模型对所述若干词语进行处理,得到每个词语间的关联关系;
第二获取单元,用于基于所述关联关系,获取与所述热点信息对应的指定词语;
显示单元,用于显示所述热点信息以及所述热点信息对应的指定词语。
第三方面,本发明实施例提供了一种电子终端,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现第一方面中任一项所述的方法。
第四方面,本发明实施例提供了一种非易失性计算机可读存储介质,该非易失性计算机可读存储介质包括计算机可读指令,当计算机读取并执行所述计算机可读指令时,使得计算机执行第一方面中任一项所述的方法。
上述技术方案具有如下有益效果:
本发明提供的实施例,通过对新闻源信息进行分词处理,得到若干分词,并且利用热点分析模型对若干分词进行处理,直接得到热点词语;此外,还利用词语关联模型对若干分词进行处理,得到每个词语间的关联关系,从而,基于该关联关系以及热点信息,可能够直接获取到与热点信息相关的信息,并将热点信息以及与热点信息相关的信息一并显示给用户,如此以来,就可以自动确定热点信息以及其相关信息,不需要用户自行判断与热点信息相关的信息,从而节省了人力成本。
【附图说明】
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例所提供的一种基于大数据的新闻数据分析方法的流程示意图;
图2是本发明实施例所提供的另一种基于大数据的新闻数据分析方法的流程示意图;
图3是本发明实施例所提供的另一种基于大数据的新闻数据分析方法的流程示意图;
图4是本发明实施例所提供的一种基于大数据的新闻数据分析装置的功能框图;
图5是本发明实施例所提供的一种电子终端的功能框图。
【具体实施方式】
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
本发明实施例给出一种基于大数据的新闻数据分析方法。
具体的,请参考图1,其为本发明实施例所提供的方法的流程示意图,如图所示,该方法包括以下步骤:
102、获取新闻源信息。
新闻源信息是实现新闻资讯分析的基础,因此,为了保证新闻资讯分析的准确性,保证显示给用户的热点信息更具新闻价值,保证新闻源信息质量尤为重要。具体的,为了保证新闻源信息质量,可以在终端中内存储一些具有权威性的新闻网络平台的链接,通过有线通信或无线通信的方式与这些新闻网络平台进行通信,从而得到这些新闻网络平台内的数据快照文件、各种文字信息、多媒体信息等,以作为新闻源信息。或者,还可以从各个网站中抓取所有信息,然后,对得到的所有信息分别进行数据清洗的处理,即通过检测所有信息的一致性问题、缺失性问题等,去掉这些信息中的错误的信息、重复的信息以及不完整的信息,过滤到虚假新闻。经过上述处理获取新闻源信息,在保证新闻源信息全面性的同时,也保证了新闻源信息的真实可靠性。
104、将所述新闻源信息进行分词处理,得到若干词语。
具体如何将所述新闻源信息进行分词处理,请参见下文。
106、利用热点分析模型对所述若干词语进行处理,得到热点信息。
具体的,在执行完步骤104之后,会得到大量的词语,而热点分析模型主要用于区分出这些词语的重要程度,从而确定出比较受关注的热点词语,以得到热点信息。具体如何利用热点分析模型对所述若干词语进行处理,请参见下文。
108、利用词语关联模型对所述若干词语进行处理,得到每个词语间的关联关系。
具体的,词语关联模型对若干词语进行处理的过程,可以为:将得到的关联词语输入到该词语关联模型中,然后,该词语关联模型先提取这些若干词语的属性信息,并利用提取到的属性信息,确定每个词语间的关联关系。其中,词语的属性信息可以包括但不限于:词性、词义、词语所在位置中的一种或多种。例如词语关联模型可以为word2vec,利用该word2vec模型实现确定词语关联关系过程中,获取每个词语的词性、词义、词语在新闻源中的所在位置的属性信息,然后根据这些属性信息将每个词语向量化,以得到每个词语对应的词向量,从而基于每个词语对应的词向量,就可以实现词与词之间的定量分析,进而就可以度量词语之间的关系,挖掘词之间的关联关系。
110、基于所述关联关系,获取与所述热点信息关联的相关信息。
112、显示所述热点信息以及与所述热点信息关联的相关信息。
本发明提供的实施例,通过对新闻源信息进行分词处理,得到若干分词,并且利用热点分析模型对若干分词进行处理,直接得到热点词语;此外,还利用词语关联模型对若干分词进行处理,得到每个词语间的关联关系,从而,基于该关联关系以及热点信息,可能够直接获取到与热点信息相关的信息,并将热点信息以及与热点信息相关的信息一并显示给用户,如此以来,就可以自动确定热点信息以及其相关信息,不需要用户自行判断与热点信息相关的信息,从而节省了人力成本。
进一步的,一句话基于不同语境和语义,有不同的分词方式,例如,“区块链”在计算机、金融等行业中,认为“区块链”是一个整体,不需要分词处理,而在其他语境中,“区块链”可能会被拆分成“区块”、“链”两个词语,因此,考虑到上述情况,为了使得新闻源信息经过分词处理后,拆分出的分词更符合需求,针对于步骤104将所述新闻源信息进行分词处理,得到若干词语的实现提出以下实现方式,
第一种,可以建立一个词库,终端利用该词库进行分词处理,具体实现如下:
步骤1,基于新闻源信息以及预设词库,确定目标分词方式。
其中,该预设词库可以基于不同行业和应用场景建立不同的词库,如,上述基于大数据的新闻数据分析方法应用于金融科技邻域,该预设词库则是由金融科技邻域相关的词语组成的词库,其预设词库词语包括股票、基金、货币、区块链、以太坊、保险、利率等描述金融科技的词汇;又如,上述基于大数据的新闻数据分析方法应用于IT行业,该预设词库则包括:CPU、开发、测试用例、防护墙等互联网行业的词汇。
具体的,步骤1基于新闻源信息以及预设词库,确定分词方式的实现原理为:判断新闻源信息中是否存在预设词库中的词语,如果判断出新闻源信息存在与预设词库中的词语,则在进行分词处理时,将可以切分出预设词库中词语对应的分词方式,确定为目标分词方式。
步骤2,按照所述目标分词方式对所述新闻源信息进行分词处理。
另外,这里需要补充说明的是,各个领域都在随着时代发展,一些新兴词语(如,“区块链”、“比特币”、“大数据”、“壹基金”等)也越来越多,这些新兴词语在一定程度上能够反应近期人们关注点,基于此,为了进一步保证分词处理的准确性,还可以更新该预设词库,将这行新兴词语添加到预设词库中,以增加预设词库的词汇量。其中,如果对分词处理的准确性要求较高时,可以实时更新该预设词库,从而在一定程度上保证分词处理的准确性;或者,为了降低对终端资源的占用,保证终端的运行速度,还可以定时更新该预设词库,该定时时间可以根据不同需求执行设置。
第二种,如果想要了解新闻源信息中提及到哪些企业,针对于此,在对新闻源信息进行分词处理时,可以基于名词识别(NER)学习算法以及预设企业名称词库,识别出所述新闻源信息中包含的企业名称。
具体的,任何一个企业在成立时,都需要在工商管理部门进行注册,因此,该预设企业名称词库可以通过工商管理部门提供的数据库建立的。
具体的,名词识别学习算法模型可以为预先建立的一种RNN-CRF学习模型。其中,名词识别学习算法模型与该预设企业名称词库相互配合,保证识别出的企业名称的准确率。
进一步的,热点分析模型主要用于区分出这些词语的重要程度,而词语的重要程度可以通过词语出现的频率,来反应词语的重要程度,因此,针对于步骤106利用热点分析模型对所述若干词语进行处理,得到热点信息的实现,本发明提供了另一种实现方式,如图2所示,步骤106具体包括:
201、利用所述热点分析模型对所述若干词语进行处理,得到每个词语的在每篇新闻中对应的TF-IDF(词频-逆向文档频)值。
其中,该热点分析模型可以为TF-IDF模型。
其中,每个词语的在每篇新闻中对应的TF-IDF(词频-逆向文档频)值为词语在本篇新闻中的出现的频次(TF,Term Frequency)以及该词语的逆向文档频(IDF,InverseDocument Frequency)的乘积。具体的,词语的逆向文档频IDF主要用于反应词语的普遍重要性,其可以过滤常见的词语,凸显出重要的词语。
202、获取每个词语的TF-IDF(词频-逆向文档频)平均值,以及,所述每篇新闻预设的权重;
其中,该平均值为同一新闻源中每篇新闻对应的某词语的TF-IDF值求和,再除以此新闻源的新闻数;每篇新闻预设的权重可以基于一些规则或者需求配置每篇新闻的权重,例如,可以基于每篇新闻来源的权威性配置权重。
203、根据所述TF-IDF平均值以及所述每篇新闻预设权重,得到多个加权处理后的TF-IDF值。
其中,加权处理后的TF-IDF值为该TF-IDF平均值以及预设权重的乘积。
204、获取所述多个加权处理后的TF-IDF值的和,将其和确定为对应词语的热点指数;
205、将所述热点指数满足预设条件的词语,确定为热点信息。
具体的,结合前述实现方法流程,如果预设条件为热点指数排名前n,则针对于步骤205所述将将所述热点指数满足预设条件的词语,确定为热点信息过程可以为:首先,对所述热点指数按照从大到小的顺序进行排列,得到热点指数排序;从而,将所述热点指数排序中前n个热点指数对应的词语,确定为热点信息。
可选的是,结合前述实施例,为了让用户能够更清楚的了解到这些热点信息中哪个是用户关注度最高的最火热点信息,还可以按照一定的排行显示这些热点信息,因此,结合前述实施例,本发明进一步提供了一种可行的实施方式,在实现步骤112显示所述热点信息以及与所述热点信息关联的相关信息时,具体可以为:按照所述热点指数排序,显示所述热点信息以及与所述热点信息关联的相关信息。
可选的是,新闻在不断的更新,因此,用户对热点信息的关注度也可能随时变化,因此,为了方便用户了解热点信息的变化情况,在得到热点信息之后,还可以执行以下步骤:获取所述热点信息在多个时期内的热点指数,并且,根据所述多个时期内的热点指数,生成所述热点信息对应的热点变化趋势。
具体的,可以获取热点信息在不同时期的热点指数,从而,将同一热点信息在不同时期的热点指数连接成曲线,该曲线的变化形式表征对应的热点变化趋势。
进一步的,为了能够了解大众对新闻的评价,基于此目的,在获取新闻源信息之后,所述方法还包括:利用情感分析学习模型对所述新闻源信息进行处理,得到每条新闻的舆情信息。
其中,情感分析学习模型可以基于大数据利用深度学习算法进行训练得到的。
具体的,基于大数据获取大量的新闻,并标定出这些新闻中哪些是正面新闻,哪些是负面新闻,用标定情感后的新闻构成样本训练集,然后,将该样本训练集输入到LSTM学习模型中,对该LSTM学习模型进行训练,以确定出情感分析学习模型。其中,将该样本训练集输入到LSTM学习模型中,对该LSTM学习模型进行训练的过程为:确定LSTM学习模型的输入为标定正负情感的新闻,输出为新闻正负情感判定结果,基于样本训练集对LSTM学习模型进行训练,从而不断修正模型的参数值,以保证情感分析学习模型对每条新闻情感判定的准确性。
进一步的,新闻信息涉及各行各业,因此,为了保证用户能够从海量的新闻信息中获取到同一类新闻信息,本发明提出可以对这些海量新闻信息进行聚类处理,以方便用户查看同一类信息,在该思路的引导下,本发明提出一种可行实现方式,如图3所示,包括:
302、获取新闻源信息。
其中,步骤302的具体实现方式与前述实施例中步骤102的实现方式相同,关于步骤302的实现过程请参见前述针对步骤102的阐述。
304、提取所述新闻源信息中每条新闻的特征信息。
306、根据所述特征信息,确定任意两条新闻的相似度。
308、当所述任意两条新闻的相似度达到预设阈值时,确定所述两条新闻为同类。
具体的,为了能够更加快速准确对新闻源信息进行聚类,可以构建一个sent2vec模型,利用该sent2vec模型对新闻源信息进行聚类。其中,利用该sent2vec模型实现聚类为:将获取的新闻源信息输入到sent2vec模型中,然后,sent2vec模型提取每条新闻的特征信息,并确定任意两条新闻的相似度,并筛选出相似度达到阈值的任意两条新闻,以得到聚类结果,从而,输出该聚类结果。
另外,终端的显示屏不可能将所有的新闻信息同时显示给用户,因此,考虑到终端显示屏有限,向用户推荐的热点新闻的数量也受到限制,在向用户显示新闻信息时,只显示每一类新闻的中心新闻,当用于点击某个中心新闻时,终端再将该中心新闻对应的这一类新闻显示给用户。
这里需要说明的是,对新闻源信息中的每条新闻进行聚类,当用户查看某个热点信息对应的热点新闻时,可以通过识别该热点新闻对应的新闻类型,向用户推荐与该热点新闻同类型的其他新闻,从而可以方便用户更加全面的了解同一类新闻信息。
基于上述实施例所提供的基于大数据的新闻数据分析方法,本发明实施例进一步给出实现上述方法实施例中各步骤及方法的装置实施例。
请参考图4,其为本发明实施例所提供的基于大数据的新闻数据分析装置的功能方块图。如图所示,该装置包括:第一获取单元41,分词处理单元42,热点确定单元43,关联关系确定单元44,第二获取单元45以及显示单元46。其中,第一获取单元41,用于获取新闻源信息;分词处理单元42,用于将所述新闻源信息进行分词处理,得到若干词语;热点确定单元43,用于利用热点分析模型对所述若干词语进行处理,得到热点信息;关联关系确定单元44,用于利用词语关联模型对所述若干词语进行处理,得到每个词语间的关联关系;第二获取单元45,用于基于所述关联关系,获取与所述热点信息对应的指定词语;显示单元46,用于显示所述热点信息以及所述热点信息对应的指定词语。
本发明中,可选的是,该分词处理单元42执行将所述新闻源信息进行分词处理,得到若干词语时,具体可以执行:首先,基于新闻源信息以及预设词库,确定分词方式;其次,按照所述分词方式对所述新闻源信息进行分词处理。
本发明中,可选的是,该分词处理单元42执行将所述新闻源信息进行分词处理,得到若干词语时,还可以执行:基于名词识别学习算法以及预设企业名称词库,识别出所述新闻源信息中包含的企业名称。
本发明中,可选的是,热点确定单元43执行利用热点分析模型对所述若干词语进行处理,得到热点信息时,具体可以执行:首先,利用所述热点分析模型对所述若干词语进行处理,得到所述得到每个词语的在每篇新闻中对应的TF-IDF(词频-逆向文档频)值;然后,获取每个词语的TF-IDF(词频-逆向文档频)平均值,以及,所述每篇新闻预设的权重;其次,根据所述TF-IDF平均值以及所述每篇新闻预设权重,得到多个加权处理后的TF-IDF值;从而,获取所述多个加权处理后的TF-IDF值的和,将其和确定为对应词语的热点指数;进而,将所述热点指数满足预设条件的词语,确定为热点信息。
另外,在实现将所述热点指数满足预设条件的词语,确定为热点信息,可以执行:对所述热点指数按照从大到小的顺序进行排列,得到热点指数排序;将所述热点指数排序中前n个热点指数对应的词语,确定为热点信息。
本发明中,可选的是,显示单元46执行显示所述热点信息以及所述热点信息对应的指定词语时,具体可以执行:按照所述热点指数排序,显示所述热点信息以及与所述热点信息关联的相关信息。
本发明中,可选的是,该基于大数据的新闻数据分析装置还包括热点变化趋势分析单元(图5中未示出),在热点确定单元43利用热点分析模型对所述若干词语进行处理,得到热点信息之后,该热点变化趋势分析单元,执行:获取所述热点信息在多个时期内的热点指数;以及,根据所述多个时期内的热点指数,生成所述热点信息对应的热点变化趋势。
本发明中,可选的是,关联关系确定单元44执行利用词语关联模型对所述若干词语进行处理,得到每个词语的关联关系时,包括:获取所述若干词语的属性信息;以及,根据所述属性信息,确定每个词语间的关联关系。
其中,所述属性信息包括:词性、词义、词语所在位置中的一种或多种。
本发明中,可选的是,该基于大数据的新闻数据分析装置还包括舆情分析单元(图5中未示出),在第一获取单元41获取新闻源信息之后,该舆情分析单元执行:利用情感分析学习模型对所述新闻源信息进行处理,得到每条新闻的舆情信息。
本发明中,可选的是,该基于大数据的新闻数据分析装置还包括聚类单元(图5中未示出),在第一获取单元41获取新闻源信息之后,该聚类单元执行:提取所述新闻源信息中每天新闻的特征信息;以及,根据所述特征信息,确定任意两条新闻的相似度;以及,当所述任意两条新闻的相似度达到预设阈值时,确定所述两条新闻为同类。
请参考图5,其为本发明实施例提供的一种电子终端的功能方框图,如图5所示,该电子终端,包括存储器51、处理器52以及存储在所述存储器51中并可在所述处理器52上运行的计算机程序,处理器52执行所述计算机程序时实现上述任一项所述的基于大数据的新闻数据分析方法。
一种非易失性计算机可读存储介质,该非易失性计算机可读存储介质包括计算机可读指令,当计算机读取并执行所述计算机可读指令时,使得计算机执行上述任一项所述的基于大数据的新闻数据分析方法。
本发明提供的实施例,通过对新闻源信息进行分词处理,得到若干分词,并且利用热点分析模型对若干分词进行处理,直接得到热点词语;此外,还利用词语关联模型对若干分词进行处理,得到每个词语间的关联关系,从而,基于该关联关系以及热点信息,可能够直接获取到与热点信息相关的信息,并将热点信息以及与热点信息相关的信息一并显示给用户,如此以来,就可以自动确定热点信息以及其相关信息,不需要用户自行判断与热点信息相关的信息,从而节省了人力成本。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (10)
1.一种基于大数据的新闻数据分析方法,其特征在于,所述新闻数据分析方法包括:
获取新闻源信息;
将所述新闻源信息进行分词处理,得到若干词语;
利用热点分析模型对所述若干词语进行处理,得到热点信息;
利用词语关联模型对所述若干词语进行处理,得到每个词语间的关联关系;
基于所述关联关系,获取与所述热点信息对应的指定词语;
显示所述热点信息以及所述热点信息对应的指定词语。
2.根据权利要求1所述的方法,其特征在于,所述将所述新闻源信息进行分词处理,得到若干词语,包括:
基于新闻源信息以及预设词库,确定分词方式;
按照所述分词方式对所述新闻源信息进行分词处理;
或者,
基于名词识别学习算法以及预设企业名称词库,识别出所述新闻源信息中包含的企业名称。
3.根据权利要求1所述的方法,其特征在于,所述利用热点分析模型对所述若干词语进行处理,得到热点信息,包括:
利用所述热点分析模型对所述若干词语进行处理,得到所述得到每个词语的在每篇新闻中对应的TF-IDF(词频-逆向文档频)值;
获取每个词语的TF-IDF(词频-逆向文档频)平均值,以及,所述每篇新闻预设的权重;
根据所述TF-IDF平均值以及所述每篇新闻预设权重,得到多个加权处理后的TF-IDF值;
获取所述多个加权处理后的TF-IDF值的和,将其和确定为对应词语的热点指数;
将所述热点指数满足预设条件的词语,确定为热点信息。
4.根据权利要求3所述的方法,其特征在于,所述将所述热点指数满足预设条件的词语,确定为热点信息,包括:
对所述热点指数按照从大到小的顺序进行排列,得到热点指数排序;
将所述热点指数排序中前n个热点指数对应的词语,确定为热点信息。
5.根据权利要求3所述的方法,其特征在于,在所述利用热点分析模型对所述若干词语进行处理,得到热点信息之后,所述方法还包括:
获取所述热点信息在多个时期内的热点指数;
根据所述多个时期内的热点指数,生成所述热点信息对应的热点变化趋势。
6.根据权利要求1所述的方法,其特征在于,所述利用词语关联模型对所述若干词语进行处理,得到每个词语件的关联关系,包括:
获取所述若干词语的属性信息;
根据所述属性信息,确定每个词语间的关联关系。
7.根据权利要求1所述的方法,其特征在于,在所述获取新闻源信息之后,所述方法还包括:
利用情感分析学习模型对所述新闻源信息进行处理,得到每条新闻的舆情信息。
8.根据权利要求1所述的方法,其特征在于,在所述获取新闻源信息之后,所述方法还包括:
提取所述新闻源信息中每天新闻的特征信息;
根据所述特征信息,确定任意两条新闻的相似度;
当所述任意两条新闻的相似度达到预设阈值时,确定所述两条新闻为同类。
9.一种基于大数据的新闻数据分析装置,其特征在于,所述基于大数据的新闻数据分析装置包括:
第一获取单元,用于获取新闻源信息;
分词处理单元,用于将所述新闻源信息进行分词处理,得到若干词语;
热点确定单元,用于利用热点分析模型对所述若干词语进行处理,得到热点信息;
关联关系确定单元,用于利用词语关联模型对所述若干词语进行处理,得到每个词语间的关联关系;
第二获取单元,用于基于所述关联关系,获取与所述热点信息对应的指定词语;
显示单元,用于显示所述热点信息以及所述热点信息对应的指定词语。
10.一种电子终端,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811536859.9A CN109815391A (zh) | 2018-12-14 | 2018-12-14 | 基于大数据的新闻数据分析方法及装置、电子终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811536859.9A CN109815391A (zh) | 2018-12-14 | 2018-12-14 | 基于大数据的新闻数据分析方法及装置、电子终端 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109815391A true CN109815391A (zh) | 2019-05-28 |
Family
ID=66601643
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811536859.9A Pending CN109815391A (zh) | 2018-12-14 | 2018-12-14 | 基于大数据的新闻数据分析方法及装置、电子终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109815391A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110851608A (zh) * | 2020-01-15 | 2020-02-28 | 支付宝(杭州)信息技术有限公司 | 基于区块链的侵权检测方法、装置、设备及存储介质 |
CN112836110A (zh) * | 2021-02-07 | 2021-05-25 | 四川封面传媒有限责任公司 | 一种热点信息挖掘方法、装置、计算机设备及存储介质 |
WO2021147710A1 (zh) * | 2020-01-20 | 2021-07-29 | 北京大米未来科技有限公司 | 一种数据处理方法、装置、存储介质和电子设备 |
-
2018
- 2018-12-14 CN CN201811536859.9A patent/CN109815391A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110851608A (zh) * | 2020-01-15 | 2020-02-28 | 支付宝(杭州)信息技术有限公司 | 基于区块链的侵权检测方法、装置、设备及存储介质 |
WO2021147710A1 (zh) * | 2020-01-20 | 2021-07-29 | 北京大米未来科技有限公司 | 一种数据处理方法、装置、存储介质和电子设备 |
CN112836110A (zh) * | 2021-02-07 | 2021-05-25 | 四川封面传媒有限责任公司 | 一种热点信息挖掘方法、装置、计算机设备及存储介质 |
CN112836110B (zh) * | 2021-02-07 | 2022-09-16 | 四川封面传媒有限责任公司 | 一种热点信息挖掘方法、装置、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110532451A (zh) | 针对政策文本的检索方法和装置、存储介质、电子装置 | |
US8856129B2 (en) | Flexible and scalable structured web data extraction | |
CN105068993B (zh) | 一种评估文本难度的方法 | |
CN108921398B (zh) | 店铺质量评价方法及装置 | |
CN109165529B (zh) | 一种暗链篡改检测方法、装置和计算机可读存储介质 | |
CN112632989B (zh) | 一种合同文本中风险信息的提示方法、装置及设备 | |
KR101540683B1 (ko) | 감정어의 극성을 분류하는 방법 및 서버 | |
CN110472203B (zh) | 一种文章的查重检测方法、装置、设备及存储介质 | |
KR20120109943A (ko) | 문장에 내재한 감정 분석을 위한 감정 분류 방법 | |
CN109815391A (zh) | 基于大数据的新闻数据分析方法及装置、电子终端 | |
Deng et al. | Sentiment analysis based online restaurants fake reviews hype detection | |
EP4113321A1 (en) | Data mining method, data mining apparatus, electronic device and storage medium | |
CN112527958A (zh) | 用户行为倾向识别方法、装置、设备及存储介质 | |
CN114692593B (zh) | 一种网络信息安全监测预警方法 | |
CN114255096A (zh) | 数据需求匹配方法和装置、电子设备、存储介质 | |
CN108228587A (zh) | 群体识别方法及群体识别装置 | |
JP5098631B2 (ja) | メール分類システム、メール検索システム | |
CN115018255A (zh) | 一种基于集成学习数据挖掘技术的旅游景区评价信息质量有效性分析方法 | |
CN113392920B (zh) | 生成作弊预测模型的方法、装置、设备、介质及程序产品 | |
CN107908649B (zh) | 一种文本分类的控制方法 | |
CN105095203B (zh) | 同义词的确定、搜索方法及服务器 | |
CN109977231B (zh) | 一种基于情感衰变因子的抑郁情绪分析方法 | |
KR102126911B1 (ko) | KeyplayerRank를 이용한 소셜 미디어상의 주제별 키플레이어 탐지 방법 | |
JP2002157262A (ja) | 分類ルール定義支援方法 | |
CN108304366B (zh) | 一种上位词检测方法及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |