CN106557558B - 一种数据分析方法及装置 - Google Patents

一种数据分析方法及装置 Download PDF

Info

Publication number
CN106557558B
CN106557558B CN201610984491.7A CN201610984491A CN106557558B CN 106557558 B CN106557558 B CN 106557558B CN 201610984491 A CN201610984491 A CN 201610984491A CN 106557558 B CN106557558 B CN 106557558B
Authority
CN
China
Prior art keywords
information
similarity
class
feature vector
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610984491.7A
Other languages
English (en)
Other versions
CN106557558A (zh
Inventor
盛丽晔
乐晓宇
李铮杰
范融
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN201610984491.7A priority Critical patent/CN106557558B/zh
Publication of CN106557558A publication Critical patent/CN106557558A/zh
Application granted granted Critical
Publication of CN106557558B publication Critical patent/CN106557558B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Abstract

本发明提供了一种数据分析方法及装置。所述方法包括:采集多渠道的原始舆情事件;根据设定的数据清洗规则对多渠道的原始舆情事件进行清洗,生成待聚类信息;对待聚类信息进行分类聚合处理,生成舆情事件分析结果;将舆情事件分析结果生成图表数据;根据用户请求展示图表数据。本发明的数据分析方法及装置,大大提高了有效舆情事件的聚合效率,克服了传统舆情事件分析方法中冗余信息多、采集分析渠道单一的问题;并且,本发明还提供了舆情事件服务,将舆情事件的发展脉络与动向全方位展现,形成完整的舆情事件传播路径,为用户提供更为准确、更为全面的舆情事件分析结果,从而为及时掌握社会形势,发现问题隐患,识别潜在风险提供有力的数据支撑。

Description

一种数据分析方法及装置
技术领域
本发明涉及计算机信息系统中的数据信息处理领域,尤其涉及一种数据分析方法及装置,具体的讲是一种跨渠道的数据分析方法及装置。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
伴随着现今互联网的不断发展,人们已经习惯于通过多载体、多层面的网络媒体,及时了解当下最新信息并发表自身看法,网络舆情成为一种新的社会舆论的表现形式。因而,企业为塑造良好声誉及品牌形象,对网络舆情的掌握就显得尤为重要,同时必须兼顾信息时效性、信息覆盖面以及信息成本等关键要素。目前常用的做法是对舆情信息进行智能化聚合,即归并相同事件的多个来源报道及其对应评论,从而在有效保证时效性和覆盖面的基础上,有效降低信息阅读成本。通过智能化归并,还可以直观且全面的了解事件的传播数量、传播特征等属性。
然而这种方式局限于处理新闻类的舆情事件,并通过单一线性聚类算法对相关新闻进行聚合。这样就带来如下两个问题:
1、采集到的舆情信息含有广告等无用信息,企业真正所需信息价值密度低。聚合过多的无用信息,不仅浪费了资源,也消耗了分析人员的时间。
2、实际上,新闻类事件除本身的报道之外,在社交媒体上会有很多相关评论,而这些评论往往更能反映出人们对于事件的真实看法。如果不将评论信息融入舆情事件进行分析,对整个舆情事件导向的把握是不完整。
然而新闻、论坛、微博、微信等各种渠道语言风格不一致,新闻发布用词严谨,惯用全称及书面用语,社交媒体,如论坛、微博、微信用词则多用缩写、甚至是新兴的网络用语,目前的方式不能实现两者聚合分析的目的。
发明内容
本发明的目的是提供一种数据分析方法及装置,准确、全面、高效的聚合不同渠道的舆情事件。
为了达到上述目的,本发明实施例提供一种数据分析方法,包括:采集多渠道的原始舆情事件;根据设定的数据清洗规则对所述多渠道的原始舆情事件进行清洗,生成待聚类信息;对所述待聚类信息进行分类聚合处理,生成舆情事件分析结果;将所述舆情事件分析结果生成图表数据;根据用户请求展示所述图表数据。
进一步地,在一实施例中,所述采集多渠道的原始舆情事件,包括:获取关键词信息,通过不同渠道对应的网络搜索引擎进行数据采集,并对采集的数据的格式进行统一。
进一步地,在一实施例中,所述根据设定的数据清洗规则对所述多渠道的原始舆情事件进行清洗,生成待聚类信息,包括:对所述多渠道的原始舆情事件利用正则表达式进行识别;或者,对所述多渠道的原始舆情事件利用朴素贝叶斯分类方法进行清洗。
进一步地,在一实施例中,所述对所述待聚类信息进行分类聚合处理,生成舆情聚合分析结果,包括:对所述待聚类信息逐条进行筛选聚类,选取每条信息的关键词;以选取的每条信息的关键词为维度建立多维向量空间模型,在所述多维向量空间模型中计算每条信息对应的特征向量与某一类的核心特征向量之间的相似度,如果该条信息对应的特征向量与某一类的核心特征向量之间的相似度的最大值大于设定的相似度阈值,则将该条信息归类为该类;计算归类完成的某类中的所有信息之间的相似度和,选取相似度和最大的那条信息对应的特征向量为该类的新的核心特征向量;计算各类的新的核心特征向量与历史话题向量的相似度,并与设定的话题合并阈值相比较,如果所述新的核心特征向量与历史话题向量的相似度大于所述话题合并阈值,则将该类与该历史话题合并,即该类中所有信息均属于该历史话题,否则创建新话题,即该类中所有信息均属于该新话题。
进一步地,在一实施例中,所述对所述待聚类信息逐条进行筛选聚类,选取每条信息的关键词,包括:对所述待聚类信息逐条进行分词处理,过滤停用词;以及对于所述待聚类信息中有完整标题和正文的信息,对其关键词进行进一步筛选,在信息内部进行聚类,选取与标题最接近的一组关键词,代表该条信息。
为了达到上述目的,本发明实施例还提供一种数据分析装置,包括:采集模块,用于采集多渠道的原始舆情事件;清洗模块,用于根据设定的数据清洗规则对所述多渠道的原始舆情事件进行清洗,生成待聚类信息;聚合模块,用于对所述待聚类信息进行分类聚合处理,生成舆情事件分析结果;图表数据生成模块,用于将所述舆情事件分析结果生成图表数据;展示模块,用于根据用户请求展示所述图表数据。
进一步地,在一实施例中,所述采集模块采集多渠道的原始舆情事件,具体包括:获取关键词信息,通过不同渠道对应的网络搜索引擎进行数据采集,并对采集的数据的格式进行统一。
进一步地,在一实施例中,所述清洗模块根据设定的数据清洗规则对所述多渠道的原始舆情事件进行清洗,生成待聚类信息,具体包括:对所述多渠道的原始舆情事件利用正则表达式进行识别;或者,对所述多渠道的原始舆情事件利用朴素贝叶斯分类方法进行清洗。
进一步地,在一实施例中,所述聚合模块对所述待聚类信息进行分类聚合处理,生成舆情聚合分析结果,具体包括:关键词筛选单元,用于对所述待聚类信息逐条进行筛选聚类,选取每条信息的关键词;归类单元,用于以选取的每条信息的关键词为维度建立多维向量空间模型,在所述多维向量空间模型中计算每条信息对应的特征向量与某一类的核心特征向量之间的相似度,如果该条信息对应的特征向量与某一类的核心特征向量之间的相似度的最大值大于设定的相似度阈值,则将该条信息归类为该类;相似度和计算单元,用于计算归类完成的某类中的所有信息之间的相似度和,选取相似度和最大的那条信息对应的特征向量为该类的新的核心特征向量;话题聚合单元,用于计算各类的新的核心特征向量与历史话题向量的相似度,并与设定的话题合并阈值相比较,如果所述新的核心特征向量与历史话题向量的相似度大于所述话题合并阈值,则将该类与该历史话题合并,即该类中所有信息均属于该历史话题,否则创建新话题,即该类中所有信息均属于该新话题。
进一步地,在一实施例中,所述关键词筛选单元对所述待聚类信息逐条进行筛选聚类,选取每条信息的关键词,包括:对所述待聚类信息逐条进行分词处理,过滤停用词;以及对于所述待聚类信息中有完整标题和正文的信息,对其关键词进行进一步筛选,在信息内部进行聚类,选取与标题最接近的一组关键词,代表该条信息。
本发明实施例公开的数据分析方法及装置,整合了多条网络渠道的舆情事件信息,剔除了其中无关注价值的内容,针对多渠道网络媒体语言风格不一致的问题,使用文本挖掘技术统一关键词,运用事件核心关键词提取、挖掘各渠道舆情事件的内在联系,聚合相同舆情事件的差异报道及评论,从而大大提高了有效舆情事件的聚合效率,克服了传统舆情事件分析方法中冗余信息多、采集分析渠道单一的问题;并且,本发明还提供了舆情事件服务,将舆情事件的发展脉络与动向全方位展现,形成完整的舆情事件传播路径,为用户提供更为准确、更为全面的舆情事件分析结果,从而为及时掌握社会形势,发现问题隐患,识别潜在风险提供有力的数据支撑。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的数据分析方法的处理流程图;
图2为本发明实施例中的步骤S1的处理流程图;
图3为本发明实施例中的步骤S3的处理流程图;
图4为本发明实施例中的步骤S33的处理流程图;
图5为本发明实施例的数据分析装置的结构示意图;
图6为图5所示实施例的聚合模块3的结构示意图;
图7为本发明另一实施例的数据分析装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本领域技术技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精神。
本发明实施例提供了一种跨渠道的数据分析方法及装置。首先从互联网各渠道采集网络舆情事件,然后批量地对数据进行清洗、分析和聚合处理,并将分析结果进行存储。在服务时,通过聚类展现、舆情分布图、舆情趋势图等多种方式全面地向用户展现事件分析结果。
图1为本发明实施例的数据分析方法的处理流程图。如图1所示,包括:
步骤S1,采集多渠道的原始舆情事件;
步骤S2,根据设定的数据清洗规则对所述多渠道的原始舆情事件进行清洗,生成待聚类信息;
步骤S3,对所述待聚类信息进行分类聚合处理,生成舆情事件分析结果;
步骤S4,将所述舆情事件分析结果生成图表数据;
步骤S5,根据用户请求展示所述图表数据。
在本实施例的步骤S1中,采集多渠道的原始舆情事件,包括:获取关键词信息,通过不同渠道对应的网络搜索引擎进行数据采集,并对采集的数据的格式进行统一。其中,所采集的数据主要来源于新闻类网站、社交媒体类网站以及信息发布式公众账号。
具体实施时,一实施例中,如图2所示,步骤S1包括以下步骤:
步骤S11,获取登陆凭据(主要为身份凭证和登陆状态)。此步骤主要针对需用户登录的社交媒体类网站,例如新浪微博的搜索,要求用户登录后方能采集数据。
步骤S12,判断登陆凭据是否失效,失效执行步骤S13,否则直接进入步骤S15。
步骤S13,获取账户信息(主要为用户名和密码),模拟登陆后获取有效的登录凭证并进行存储。
步骤S14,主要针对无须用户登录即可使用的互联网搜索引擎。
步骤S15,获取关键词信息,提交需要采集信息的关键词序列。
步骤S16,通过不同渠道对应的网络搜索引擎进行数据采集。其中,针对不同的搜索引擎,可以使用不同的配置模板进行采集,基于各引擎的html格式,区分有效的采集数据以及非有效数据,提高采集的效率。
步骤S17,一次任务(单一采集页面)采集的数据形成数据集。数据集包含了信息ID,信息标题,信息内容、URL、来源网站、信息发布时间、采集时间。
步骤S18,遍历数据集中的信息,每次处理下一条信息。
步骤S19,判断信息的url是否已经存在,对于已存在的url过滤该重复信息并返回步骤S18,否则执行步骤S110;
步骤S110,采集的数据格式略有不同,对格式进行统一性处理。例如微信搜索,所采集的数据时间格式与既有格式不同,需要对时间进行处理后再执行下一步操作。
步骤S111,判断是否遍历完一次任务所有信息即当前信息是否为数据集最后一条信息,非最后一条信息返回并循环执行步骤S18,否则执行步骤S112;
步骤S112,将确认且格式无误的数据进行存储。
在以上步骤中,步骤S19-S111会对采集的多渠道的数据进行初步处理,即通过去重处理和格式统一后进行存储,以生成原始舆情事件。
在本实施例的步骤S2中,所述根据设定的数据清洗规则对所述多渠道的原始舆情事件进行清洗,生成待聚类信息,包括:对所述多渠道的原始舆情事件利用正则表达式进行识别;或者,对所述多渠道的原始舆情事件利用朴素贝叶斯分类方法进行清洗。其中,朴素贝叶斯分类的思想基础是提取待分类项的特征,根据各特征在各类别中出现的概率,以此求解,最终概率大的即为其所属分类,其公式为:
P(分类|信息)=P(信息|分类)×P(分类)/P(信息)
P(信息|分类)=P(特征词1|分类)×P(特征词2|分类)……
具体步骤为,从历史数据中训练“关注类”和“非关注类”中各特征词出现的概率并保存,在进行数据清洗时进行读取,并代入公式计算,将分类结果为“关注类”的数据进行下一步处理。
该步骤中,将无效舆情信息认定为“非关注类”的数据进行清洗,通常可以分为广告类、招聘类、寻人寻物类等。清洗的方式主要通过对信息关键词进行提取,并归纳成正则表达式的形式进行识别,凡是匹配到对应表达式的会作为“非关注”数据进行清洗,例如“刷.*卡.*半价”为广告类清洗类别,“招聘.*通知”为招聘类清洗类别,“走失.*求转发”为寻人寻物类清洗类别。
在本实施例的步骤S3中,所述对所述待聚类信息进行分类聚合处理,生成舆情聚合分析结果,具体包括以下处理方法:
对所述待聚类信息逐条进行筛选聚类,选取每条信息的关键词;以选取的每条信息的关键词为维度建立多维向量空间模型,在所述多维向量空间模型中计算每条信息对应的特征向量与某一类的核心特征向量之间的相似度,如果该条信息对应的特征向量与某一类的核心特征向量之间的相似度的最大值大于设定的相似度阈值,则将该条信息归类为该类;计算归类完成的某类中的所有信息之间的相似度和,选取相似度和最大的那条信息对应的特征向量为该类的新的核心特征向量;计算各类的新的核心特征向量与历史话题向量的相似度,并与设定的话题合并阈值相比较,如果所述新的核心特征向量与历史话题向量的相似度大于所述话题合并阈值,则将该类与该历史话题合并,即该类中所有信息均属于该历史话题,否则创建新话题,即该类中所有信息均属于该新话题。
图3为本发明的步骤S3的一具体实施例的处理方法流程图。如图3所示,包括:
步骤S31,获取步骤S2中生成的待聚类信息,即清洗后的舆情事件。
步骤S32,对所述待聚类信息逐条进行分词处理,过滤停用词,每条信息由一组关键词进行表示。
步骤S33,对于有完整标题和正文的信息,需要对其关键词进行进一步筛选,在信息内部进行聚类,选取与标题最接近的一组关键词,代表该条信息。
步骤S34,由于不同的发布者对同一事件的表述可能不同,则需要获取同义词对,将同义关键词转化为统一的表达方式,便于后续步骤相似度的计算。
步骤S35,以关键词为维度建立多维向量空间模型,在多维向量空间中构建文本的特征向量S;随机选取1条信息k作为初始类C0,其特征向量sk即为该类的核心特征向量。
步骤S36,依次计算信息i对应的特征向量si与已有核心特征向量sk之间的相似度,相似度计算公式:
Figure BDA0001148673490000071
其中Simik为特征向量si和核心特征向量sk的相似度,si·sk为向量si和向量sk的数量积,|si|、|sk|分别为特征向量si、sk的模;
获取相似度阈值t,特征向量si与类Ck的核心向量相似度最大,将相似度Simmax与阈值t相比,如果Simmax>t,那么将信息i归为类Ck,否则,创建新类Ci,si为类Ci的核心特征向量。
步骤S37,重新计算各类的核心特征向量,类Ci中包含n条信息i,j,…,(j+n-2)依次计算信息i与该类中其他信息的相似度的和,相似度和计算公式如下:
Sumi=Simij+Simi(j+1)+…+Simi(j+n-2)
其中Sumi为信息i与其他信息的相似度和,Simij为信息i与信息j的相似度;然后取相似度和最大的那条信息所对应的特征向量为新的核心特征向量。该步骤是将采集到的信息归好类以后,每个类选择一条最有代表性的信息,便于为用户展现。
步骤S38,获取最大迭代次数M,如果已迭代次数大于M,或者核心特征向量与上一次比较没有变化,则执行步骤S39,否则重复执行步骤S36。
步骤S39,获取历史话题,计算上述聚类结果的各类的核心特征向量与历史话题向量的相似度,相似度计算公式同步骤S36中的相似度计算公式。
步骤S310,获取话题合并阈值T,将步骤S39中计算所得相似度与T比较,如果相似度大于T,则执行步骤S311,否则执行步骤S312。
步骤S311,将该类与历史话题合并,该类中所有信息均属于该历史话题。
步骤S312,创建新话题,该类中所有信息均属于这个新话题。
步骤S313,将话题合并结果进行保存。
在本实施例中,步骤S33中,对于有完整标题和正文的信息,需要对其关键词进行进一步筛选,在信息内部进行聚类,选取与标题最接近的一组关键词,代表该条信息。举例来讲,如果一篇新闻正文有很多关键词嘛,先按词表达的主题或者事件进行归类,再去和新闻标题比较相似度,决定选取哪一组关键词来表示这篇新闻。
该步骤的具体实现方式如图4所示,包括:
步骤S331,将关键词转化为n维向量,例如将关键词i,j分别表示为wi,wj
wi=(wi1,wi2,…,win),wj=(wj1,wj2,…,wjn)。
步骤S332,初始化类C0,关键词k为其核心关键词,向量wk为核心向量。
步骤S333,依次计算关键词i与各核心关键词之间的余弦相似度,计算公式如下:
Figure BDA0001148673490000081
其中Simik为关键词i与关键词k的余弦相似度。
步骤S334,与关键词i相似度最大的核心关键词所属类Ck,最大相似度为Simmax,如果Simmax>1/(1+N)(N为当前已有类的个数),则执行步骤S335,否则取一个0到1的随机数与1/(1+N)相比,如果这个随机数大于1/(1+N),也执行步骤S335,否则执行步骤S336。
步骤S335,将关键词i归为Ck类。
步骤S336,创建一个新类Ci,并将关键词i归为这个新类。
步骤S337,判断是否为最后一个关键词,若是,则执行步骤S338,否则重复执行步骤S333。
步骤S338,计算各类中关键词的矢量和与标题矢量和的相似度,计算公式同步骤S333,保留与标题相似度最大的那一组关键词。例如有一组n个关键词,分别为i,i+1,…,i+n-1,矢量和计算公式:
Wk=wi+wi+1+…+wi+n-1
其中,Wk为这n个关键词的矢量和,wi,wi+1,…,wi+n-1分别为这n个关键词所对应的向量。
在本实施例的步骤S4中,将所述舆情事件分析结果生成图表数据,即通过舆情事件的来源网站、发布时间、转发网站等生成所对应的来源饼状图、转发趋势图以及事件演进图等,并将生成的图表数据进行存储。
在本实施例的步骤S5中,根据用户请求展示所述图表数据,包括:通过来源饼状图、转发趋势图以及事件演进图等方式全方位、多维度地向用户展现舆情事件。用户可以通过筛选对应的正负面、标题、发布时间、涉及业务、风险点等有针对性的查看与自身相关或关注的舆情事件。
在本实施例中,需要提及的是,上述各个方法步骤中可以直接获取的例如清洗规则、同义词对、聚类参数(相似度阈值t、最大迭代次数M、历史话题、话题合并阈值T)等,可以存储在数据存储装置中,需要的时候直接获取即可。并且,步骤S1中采集的多渠道的原始舆情事件、步骤S2中对所述多渠道的原始舆情事件进行清洗后生成的待聚类信息、步骤S3中对所述待聚类信息进行分类聚合处理后生成的舆情事件分析结果、步骤S4中生成图表数据以及各项数据处理的中间数据都可以在计算过程中实时存储在数据存储装置中,以便于后期用户查询和向用户展现。
应当注意,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
在介绍了本发明示例性实施方式的方法之后,接下来,参考图5对本发明示例性实施方式的数据分析装置进行介绍。该装置的实施可以参见上述方法的实施,重复之处不再赘述。以下所使用的术语“模块”和“单元”,可以是实现预定功能的软件和/或硬件。尽管以下实施例所描述的模块较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图5为本发明实施例的数据分析装置的结构示意图。如图5所示,包括:采集模块1,用于采集多渠道的原始舆情事件;清洗模块2,用于根据设定的数据清洗规则对所述多渠道的原始舆情事件进行清洗,生成待聚类信息;聚合模块3,用于对所述待聚类信息进行分类聚合处理,生成舆情事件分析结果;图表数据生成模块4,用于将所述舆情事件分析结果生成图表数据;展示模块5,用于根据用户请求展示所述图表数据。
进一步地,在本实施例中,所述采集模块1采集多渠道的原始舆情事件,具体包括:获取关键词信息,通过不同渠道对应的网络搜索引擎进行数据采集,并对采集的数据的格式进行统一。
进一步地,在本实施例中,所述清洗模块2根据设定的数据清洗规则对所述多渠道的原始舆情事件进行清洗,生成待聚类信息,具体包括:对所述多渠道的原始舆情事件利用正则表达式进行识别;或者,对所述多渠道的原始舆情事件利用朴素贝叶斯分类方法进行清洗。
进一步地,在本实施例中,所述聚合模块3对所述待聚类信息进行分类聚合处理,生成舆情聚合分析结果,如图6所示,具体包括:
关键词筛选单元31,用于对所述待聚类信息逐条进行筛选聚类,选取每条信息的关键词;
归类单元32,用于以选取的每条信息的关键词为维度建立多维向量空间模型,在所述多维向量空间模型中计算每条信息对应的特征向量与某一类的核心特征向量之间的相似度,如果该条信息对应的特征向量与某一类的核心特征向量之间的相似度的最大值大于设定的相似度阈值,则将该条信息归类为该类;
相似度和计算单元33,用于计算归类完成的某类中的所有信息之间的相似度和,选取相似度和最大的那条信息对应的特征向量为该类的新的核心特征向量;
话题聚合单元34,用于计算各类的新的核心特征向量与历史话题向量的相似度,并与设定的话题合并阈值相比较,如果所述新的核心特征向量与历史话题向量的相似度大于所述话题合并阈值,则将该类与该历史话题合并,即该类中所有信息均属于该历史话题,否则创建新话题,即该类中所有信息均属于该新话题。
进一步地,在本实施例中,所述关键词筛选单元31对所述待聚类信息逐条进行筛选聚类,选取每条信息的关键词,包括:对所述待聚类信息逐条进行分词处理,过滤停用词;以及对于所述待聚类信息中有完整标题和正文的信息,对其关键词进行进一步筛选,在信息内部进行聚类,选取与标题最接近的一组关键词,代表该条信息。
另外,如图7所示,本发明实施例的数据分析装置可以直接获取的例如清洗规则、同义词对、聚类参数(相似度阈值t、最大迭代次数M、历史话题、话题合并阈值T)等,可以存储在一数据存储装置6中,需要的时候直接获取即可。并且,采集的多渠道的原始舆情事件、对所述多渠道的原始舆情事件进行清洗后生成的待聚类信息、对所述待聚类信息进行分类聚合处理后生成的舆情事件分析结果、生成图表数据以及各项数据处理的中间数据都可以在计算过程中实时存储在数据存储装置6中,以便于后期用户查询和向用户展现。
此外,尽管在上文详细描述中提及了数据分析装置的若干单元,但是这种划分仅仅并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。同样,上文描述的一个单元的特征和功能也可以进一步划分为由多个单元来具体化。
本发明实施例公开的数据分析方法及装置,整合了多条网络渠道的舆情事件信息,剔除了其中无关注价值的内容,针对多渠道网络媒体语言风格不一致的问题,使用文本挖掘技术统一关键词,运用事件核心关键词提取、挖掘各渠道舆情事件的内在联系,聚合相同舆情事件的差异报道及评论,从而大大提高了有效舆情事件的聚合效率,克服了传统舆情事件分析方法中冗余信息多、采集分析渠道单一的问题;并且,本发明还提供了舆情事件服务,将舆情事件的发展脉络与动向全方位展现,形成完整的舆情事件传播路径,为用户提供更为准确、更为全面的舆情事件分析结果,从而为及时掌握社会形势,发现问题隐患,识别潜在风险提供有力的数据支撑。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (6)

1.一种数据分析方法,其特征在于,包括:
采集多渠道的原始舆情事件;
根据设定的数据清洗规则对所述多渠道的原始舆情事件进行清洗,生成待聚类信息;
对所述待聚类信息进行分类聚合处理,生成舆情事件分析结果;
所述对所述待聚类信息进行分类聚合处理,生成舆情事件分析结果,包括:
对所述待聚类信息逐条进行筛选聚类,选取每条信息的关键词;
以选取的每条信息的关键词为维度建立多维向量空间模型,在所述多维向量空间模型中计算每条信息对应的特征向量与某一类的核心特征向量之间的相似度,如果该条信息对应的特征向量与某一类的核心特征向量之间的相似度的最大值大于设定的相似度阈值,则将该条信息归类为该类;
计算归类完成的某类中的所有信息之间的相似度和,选取相似度和最大的那条信息对应的特征向量为该类的新的核心特征向量;
计算各类的新的核心特征向量与历史话题向量的相似度,并与设定的话题合并阈值相比较,如果所述新的核心特征向量与历史话题向量的相似度大于所述话题合并阈值,则将该类与该历史话题合并,即该类中所有信息均属于该历史话题,否则创建新话题,即该类中所有信息均属于该新话题;
将所述舆情事件分析结果生成图表数据;
根据用户请求展示所述图表数据;
所述对所述待聚类信息逐条进行筛选聚类,选取每条信息的关键词,包括:
对所述待聚类信息逐条进行分词处理,过滤停用词;以及
对于所述待聚类信息中有完整标题和正文的信息,对其关键词进行进一步筛选,在信息内部进行聚类,选取与标题最接近的一组关键词,代表该条信息;
S1:将同义的关键词转化为统一的表达方式;
S2:以关键词为维度建立多维向量空间模型,在多维向量空间中构建文本的特征向量S;随机选取1条信息k作为初始类C0,其特征向量sk即为该类的核心特征向量;
S3:依次计算信息i对应的特征向量si与已有核心特征向量sk之间的相似度,相似度计算公式:
Figure FDA0002611946330000021
其中Simik为特征向量si和核心特征向量sk的相似度,si·sk为向量si和向量sk的数量积,|si|、|sk|分别为特征向量si、sk的模;
获取相似度阈值t,特征向量si与类Ck的核心向量相似度最大,将相似度Simmax与阈值t相比,如果Simmax>t,那么将信息i归为类Ck,否则,创建新类Ci,si为类Ci的核心特征向量;
S4:重新计算各类的核心特征向量,类Ci中包含n条信息i,j,…,(j+n-2)依次计算信息i与该类中其他信息的相似度的和,相似度和计算公式如下:
Sumi=Simij+Simi(j+1)+…+Simi(j+n-2)
其中Sumi为信息i与其他信息的相似度和,Simij为信息i与信息j的相似度;然后取相似度和最大的那条信息所对应的特征向量为新的核心特征向量;
S6:获取最大迭代次数M,如果已迭代次数大于M,或者核心特征向量与上一次比较没有变化,则执行S7,否则重复执行步骤S3;
S7,获取历史话题,计算上述聚类结果的各类的核心特征向量与历史话题向量的相似度,相似度计算公式同步骤S3中的相似度计算公式;
S8,获取话题合并阈值T,将S7中计算所得相似度与T比较,如果相似度大于T,则执行S9,否则执行S10;
S9,将该类与历史话题合并,该类中所有信息均属于该历史话题;
S10,创建新话题,该类中所有信息均属于这个新话题;
S11,将话题合并结果进行保存。
2.根据权利要求1所述的数据分析方法,其特征在于,所述采集多渠道的原始舆情事件,包括:
获取关键词信息,通过不同渠道对应的网络搜索引擎进行数据采集,并对采集的数据的格式进行统一。
3.根据权利要求1所述的数据分析方法,其特征在于,所述根据设定的数据清洗规则对所述多渠道的原始舆情事件进行清洗,生成待聚类信息,包括:
对所述多渠道的原始舆情事件利用正则表达式进行识别;或者,
对所述多渠道的原始舆情事件利用朴素贝叶斯分类方法进行清洗。
4.一种数据分析装置,其特征在于,包括:
采集模块,用于采集多渠道的原始舆情事件;
清洗模块,用于根据设定的数据清洗规则对所述多渠道的原始舆情事件进行清洗,生成待聚类信息;
聚合模块,用于对所述待聚类信息进行分类聚合处理,生成舆情事件分析结果;
所述聚合模块包括:
关键词筛选单元,用于对所述待聚类信息逐条进行筛选聚类,选取每条信息的关键词;
归类单元,用于以选取的每条信息的关键词为维度建立多维向量空间模型,在所述多维向量空间模型中计算每条信息对应的特征向量与某一类的核心特征向量之间的相似度,如果该条信息对应的特征向量与某一类的核心特征向量之间的相似度的最大值大于设定的相似度阈值,则将该条信息归类为该类;
相似度和计算单元,用于计算归类完成的某类中的所有信息之间的相似度和,选取相似度和最大的那条信息对应的特征向量为该类的新的核心特征向量;
话题聚合单元,用于计算各类的新的核心特征向量与历史话题向量的相似度,并与设定的话题合并阈值相比较,如果所述新的核心特征向量与历史话题向量的相似度大于所述话题合并阈值,则将该类与该历史话题合并,即该类中所有信息均属于该历史话题,否则创建新话题,即该类中所有信息均属于该新话题;
图表数据生成模块,用于将所述舆情事件分析结果生成图表数据;
展示模块,用于根据用户请求展示所述图表数据;所述关键词筛选单元对所述待聚类信息逐条进行筛选聚类,选取每条信息的关键词,包括:
对所述待聚类信息逐条进行分词处理,过滤停用词;以及
对于所述待聚类信息中有完整标题和正文的信息,对其关键词进行进一步筛选,在信息内部进行聚类,选取与标题最接近的一组关键词,代表该条信息;
S1:将同义的关键词转化为统一的表达方式;
S2:以关键词为维度建立多维向量空间模型,在多维向量空间中构建文本的特征向量S;随机选取1条信息k作为初始类C0,其特征向量sk即为该类的核心特征向量;
S3:依次计算信息i对应的特征向量si与已有核心特征向量sk之间的相似度,相似度计算公式:
Figure FDA0002611946330000041
其中Simik为特征向量si和核心特征向量sk的相似度,si·sk为向量si和向量sk的数量积,|si|、|sk|分别为特征向量si、sk的模;
获取相似度阈值t,特征向量si与类Ck的核心向量相似度最大,将相似度Simmax与阈值t相比,如果Simmax>t,那么将信息i归为类Ck,否则,创建新类Ci,si为类Ci的核心特征向量;
S4:重新计算各类的核心特征向量,类Ci中包含n条信息i,j,…,(j+n-2)依次计算信息i与该类中其他信息的相似度的和,相似度和计算公式如下:
Sumi=Simij+Simi(j+1)+…+Simi(j+n-2)
其中Sumi为信息i与其他信息的相似度和,Simij为信息i与信息j的相似度;然后取相似度和最大的那条信息所对应的特征向量为新的核心特征向量;
S5:获取最大迭代次数M,如果已迭代次数大于M,或者核心特征向量与上一次比较没有变化,则执行S6,否则重复执行S3;
S6,获取历史话题,计算上述聚类结果的各类的核心特征向量与历史话题向量的相似度,相似度计算公式同S3中的相似度计算公式;
S7,获取话题合并阈值T,将S6中计算所得相似度与T比较,如果相似度大于T,则执行S8,否则执行S9;
S8,将该类与历史话题合并,该类中所有信息均属于该历史话题;
S9,创建新话题,该类中所有信息均属于这个新话题;
S10,将话题合并结果进行保存。
5.根据权利要求4所述的数据分析装置,其特征在于,所述采集模块采集多渠道的原始舆情事件,具体包括:
获取关键词信息,通过不同渠道对应的网络搜索引擎进行数据采集,并对采集的数据的格式进行统一。
6.根据权利要求4所述的数据分析装置,其特征在于,所述清洗模块根据设定的数据清洗规则对所述多渠道的原始舆情事件进行清洗,生成待聚类信息,具体包括:
对所述多渠道的原始舆情事件利用正则表达式进行识别;或者,
对所述多渠道的原始舆情事件利用朴素贝叶斯分类方法进行清洗。
CN201610984491.7A 2016-11-09 2016-11-09 一种数据分析方法及装置 Active CN106557558B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610984491.7A CN106557558B (zh) 2016-11-09 2016-11-09 一种数据分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610984491.7A CN106557558B (zh) 2016-11-09 2016-11-09 一种数据分析方法及装置

Publications (2)

Publication Number Publication Date
CN106557558A CN106557558A (zh) 2017-04-05
CN106557558B true CN106557558B (zh) 2020-09-15

Family

ID=58444805

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610984491.7A Active CN106557558B (zh) 2016-11-09 2016-11-09 一种数据分析方法及装置

Country Status (1)

Country Link
CN (1) CN106557558B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107632976B (zh) * 2017-09-08 2020-02-21 华南理工大学 一种实验电路问题脉络图的生成方法及装置
CN107741929A (zh) * 2017-10-18 2018-02-27 网智天元科技集团股份有限公司 舆情分析方法及装置
CN108287906A (zh) * 2018-01-28 2018-07-17 江苏快页信息技术有限公司 一种基于即时通讯社交软件的舆情监测方法
CN108628994A (zh) * 2018-04-28 2018-10-09 广东亿迅科技有限公司 一种舆情数据处理系统
CN110232158A (zh) * 2019-05-06 2019-09-13 重庆大学 基于多模态数据的突发公共安全事件检测方法
CN111966915A (zh) * 2019-05-20 2020-11-20 腾讯科技(深圳)有限公司 信息巡检方法、计算机设备及存储介质
CN111428146A (zh) * 2020-03-24 2020-07-17 上海智臻智能网络科技股份有限公司 网络信息处理方法及系统、设备、存储介质
CN111510371A (zh) * 2020-04-14 2020-08-07 华谊(深圳)知识产权咨询有限公司 一种基于时序的可进行事实真相追踪的通信系统
CN114003553B (zh) * 2021-09-27 2023-12-15 上海金慧软件有限公司 一种图档管理的智能计数展示方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104408157A (zh) * 2014-12-05 2015-03-11 四川诚品电子商务有限公司 一种网络舆情漏斗式数据采集分析推送系统及方法
CN104462253A (zh) * 2014-11-20 2015-03-25 武汉数为科技有限公司 一种面向网络文本大数据的话题检测或跟踪方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110055210A1 (en) * 2009-09-02 2011-03-03 The Government Of The U.S.A., As Represented By The Secretary Of The Navy Robust Adaptive Data Clustering in Evolving Environments

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462253A (zh) * 2014-11-20 2015-03-25 武汉数为科技有限公司 一种面向网络文本大数据的话题检测或跟踪方法
CN104408157A (zh) * 2014-12-05 2015-03-11 四川诚品电子商务有限公司 一种网络舆情漏斗式数据采集分析推送系统及方法

Also Published As

Publication number Publication date
CN106557558A (zh) 2017-04-05

Similar Documents

Publication Publication Date Title
CN106557558B (zh) 一种数据分析方法及装置
US20190197416A1 (en) Information recommendation method, apparatus, and server based on user data in an online forum
US9990368B2 (en) System and method for automatic generation of information-rich content from multiple microblogs, each microblog containing only sparse information
Goonetilleke et al. Twitter analytics: a big data management perspective
US9116985B2 (en) Computer-implemented systems and methods for taxonomy development
US20150032492A1 (en) Methods of Identifying Relevant Content and Subject Matter Expertise for Online Communities
US20150032751A1 (en) Methods and Systems for Utilizing Subject Matter Experts in an Online Community
US20140344230A1 (en) Methods and systems for node and link identification
El Alaoui et al. Big data quality metrics for sentiment analysis approaches
CN103020212B (zh) 一种基于用户查询日志实时发现热点视频的方法和装置
US9311372B2 (en) Product record normalization system with efficient and scalable methods for discovering, validating, and using schema mappings
US10002187B2 (en) Method and system for performing topic creation for social data
US11409752B1 (en) Dimensional reduction of complex vectors in artificially intelligent solutions to compare similarity of natural language text
Huang et al. Kb-enabled query recommendation for long-tail queries
US20140147048A1 (en) Document quality measurement
US9996529B2 (en) Method and system for generating dynamic themes for social data
CN112100396A (zh) 一种数据处理方法和装置
AU2017221807A1 (en) Preference-guided data exploration and semantic processing
Bykau et al. Fine-grained controversy detection in Wikipedia
JP5952711B2 (ja) 予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法
CN107330076B (zh) 一种网络舆情信息展示系统及方法
Zwicklbauer et al. Do we need entity-centric knowledge bases for entity disambiguation?
Daouadi et al. Organization vs. Individual: Twitter User Classification.
JP6509590B2 (ja) 商品に対するユーザの感情分析装置及びプログラム
Ruhwinaningsih et al. A sentiment knowledge discovery model in Twitter’s TV content using stochastic gradient descent algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant