CN114638230B

CN114638230B - 一种互联网大数据分析方法及系统

Info

Publication number: CN114638230B
Application number: CN202210257659.XA
Authority: CN
Inventors: 张思国; 王春鹏; 唐捷; 李小龙; 曹舸; 范绪; 何怀平; 杨金澄
Original assignee: Sichuan Zhisheng Huilv Technology Co ltd
Current assignee: Sichuan Zhisheng Huilv Technology Co ltd
Priority date: 2022-03-16
Filing date: 2022-03-16
Publication date: 2023-05-05
Anticipated expiration: 2042-03-16
Also published as: CN114638230A

Abstract

本发明公开了一种互联网大数据分析方法及系统，该方法包括：获取多个互联网舆情数据源，对所述互联网舆情数据源进行预处理；从预设时间点起，采用纵向比较法对预处理后的每个互联网舆情数据源分别进行去重选负处理，得到每个互联网舆情数据源去重选负后的数据；在预设周期内，采用横向比较法对各个互联网舆情数据源去重选负后的数据进行进一步分析处理，得到相似舆情的情感分析结果，同时得到被选定的互联网舆情数据源及互联网舆情推送时间，并将最早的时间赋予被选定的舆情数据。本发明采用相似度计算，对比多家舆情的情感，规避一家舆情情感分析的一家“片面性”，从而使情感分析更为准确。

Description

一种互联网大数据分析方法及系统

技术领域

本发明涉及信息技术领域，具体涉及一种互联网大数据分析方法及系统。

背景技术

互联网时代，人们喜欢用自媒体、论坛、网络客服等若干互联网途径表达和反馈自己对各种事物的想法、看法及评价等。而服务单位也非常希望通过互联网数据来分析公众对自身各项服务的评价和意见反馈，从而找到真正贴合用户的管理服务改进措施。于是，互联网舆情系统就诞生了。

互联网舆情监控系统主要依托搜索引擎技术和文本挖掘技术，通过网页内容的自动采集处理、敏感词过滤、智能聚类分类、主题检测、专题聚焦、统计分析，实现服务单位对自己相关网络舆情监督管理的需要，最终形成各种舆情报告，为服务单位决策层全面掌握舆情动态，做出正确舆论引导，提供分析依据。

舆情数据的获取存在两方面的难点：

一方面是数据源问题：互联网发展至今，信息的反馈不光是在网页文本上面，还有图片与视频上面，相对文本的识别分析，图片和视频体现的舆情信息识别更为复杂一些，一方面是图片、视频信息反馈的舆情意图无法用技术手段来准确识别并转化，如一种从情感上分析明显的是正面的语言表述却是用一种“反语”的语气来表达、或者没有语言表达纯粹是一些动作来表达不满等，另一方面是越来越多的社交媒体、评价网站、媒体网站等舆情产生地，基于法律、隐私、行业保护以及其它方面必要因素都在做一些功能性、法律性反数据搜索措施，导致舆情获取渠道越来越受限；

另一方面是情感分析问题：语言的情感分析是一个世界性的难题，无论是对哪一种语言的分析，因为语言文字不光是从文本上，还是在使用场景上，使用人的语气语调上不同，都有可能表达的是不同的意思。情感的分析在技术上只能是一个更好的解决方法，没有最好的解决方案。

互联网舆情渠道越来越广，舆情数据的检索、分析等工作需要投入大量的软、硬件资源，情感分析又是一个需要高技术投入的专业，还会涉及到一些法律法规方面的要求，所以舆情产品的市场准入门榄非常高。虽然不同的舆情厂商都投入巨资专项尽全力开发，但都无法完全靠自身的能力完全达到用户预期效果，各家公司又因其投入、技术能力、资源及运营方式等，其提供的舆情结果服务都有不同的优缺点，如舆情时间、舆情渠道、情感分析准确度等。但从市场需求来讲，用户单位希望获得的舆情系统最大的两项诉求，一方面就是全网，无论是哪里产生或传播的，都应该要获取到而且是适时获取到，另一方面就是情感分析尽可能的准确。

发明内容

本发明所要解决的技术问题是现有的互联网大数据获取不够快速与分析不够精准的问题，目的在于提供一种互联网大数据分析方法及系统，本发明围绕向用户输出尽可能高的舆情服务水平的情况下，采用比较法向用户提供相对快速的舆情信息、传播渠道和相对准确的情感分析，而不是依赖某一家舆情厂商“片面”之言，从而获取得相对更为准确的舆情数据并为管理决策提供支持。

本发明通过下述技术方案实现：

第一方面，本发明提供了一种互联网大数据分析方法，该方法包括：

获取多个互联网舆情数据源，对所述互联网舆情数据源进行预处理；

从预设时间点起，采用纵向比较法对预处理后的每个互联网舆情数据源分别进行去重选负处理，得到每个互联网舆情数据源去重选负后的数据；

在预设周期内，采用横向比较法对各个互联网舆情数据源去重选负后的数据进行进一步分析处理，得到相似舆情的情感分析结果，同时得到被选定的互联网舆情数据源及互联网舆情推送时间，并将最早的时间赋予被选定的舆情数据。

工作原理是：基于现有的互联网大数据获取不够快速与分析不够精准的问题，本发明设计了一种互联网大数据分析方法，通过多渠道的舆情数据获取和采集，充分整合各渠道的技术及资源优势，规避各家的短板，汇聚各家的舆情数据达到一个相对更完善的舆情数据渠道覆盖；同时结合纵向比较法和横向比较法，首先，从预设时间点起，采用纵向比较法对预处理后的每个互联网舆情数据源分别进行去重选负处理，得到每个互联网舆情数据源去重选负后的数据；其次，在预设周期内，采用横向比较法对各个互联网舆情数据源去重选负后的数据进行进一步分析处理，得到相似舆情的情感分析结果，同时得到被选定的互联网舆情数据源及互联网舆情推送时间；这样通过多家舆情的情感对比，规避一家舆情情感分析的一家“片面性”，从而使情感分析更为准确；通过多家舆情提供商的舆情反馈时间来选择相对更适时的舆情数据；通过对多家舆情数据提供商的反向监控，可以将促进平台舆情服务水平“站在巨人肩膀上”，取得优于行业的舆情服务。

进一步地，每个所述互联网舆情数据源包括舆情数据的时间点和舆情数据的情感语义，所述舆情数据的情感语义包括正面情感、负面情感。

进一步地，所述的采用纵向比较法对预处理后的每个互联网舆情数据源分别进行去重选负处理；具体包括：

从预设时间点T1起，在时间序列上根据一家互联网舆情数据源对应的提供商依次推送的舆情数据，采用相似度函数对所述舆情数据进行舆情相似度计算，得到第一舆情相似度；根据所述第一舆情相似度，判断各个舆情数据是否为相似或者相同舆情数据：

若所述第一舆情相似度大于等于第一预设值，则各个舆情数据为相似舆情数据，进行各个舆情数据的情感对比分析，剔除重复舆情数据并选取负向舆情数据；并采用第一计数器记录提供商推送的重复或相似舆情数据次数进行累加；

若所述第一舆情相似度小于第一预设值，则各个舆情数据为非相似舆情数据，进行非相似的舆情数据重复比较，进一步去掉重复舆情数据，得到互联网舆情数据源中去重选负后的数据。

具体地，所述相似度函数使用bag of words模型或TF-IDF方法，将舆情数据文本转换为feature vectors特征向量，使用余弦相似度，基于两个舆情数据文本的特征向量，来计算它们的相似度S：

其中，A为第一舆情数据文本，B为第二舆情数据文本，A_i为第一舆情数据文本的第i个词向量，B_i为第二舆情数据文本的第i个词向量；n为第一舆情数据文本的词向量个数、第二舆情数据文本中的词向量个数。

进一步地，所述的若所述舆情相似度大于等于第一预设值，则进行各个舆情数据的情感对比分析，剔除重复舆情数据并选取负向舆情数据；具体包括：

在情感对比分析中，当舆情数据中只有一条负面舆情时，则剔除其它条舆情数据，选取该条舆情数据，同时该条舆情数据的时间点值取本次对比舆情数据中最早的时间点值；

当舆情数据中不止一条负面舆情时，选取一条舆情数据作为本轮对比结果，剔除多余的负面舆情数据，同时选取的该条舆情数据的时间值取本次对比舆情数据中最早的时间点值。

进一步地，所述的采用横向比较法对各个互联网舆情数据源去重选负后的数据进行进一步分析处理，具体包括：

在预设周期内，采用相似度函数对各个互联网舆情数据源去重选负后的舆情数据进行舆情相似度计算，得到第二舆情相似度；根据所述第二舆情相似度，进行各个舆情数据的舆情情感纠偏处理：

若第二舆情相似度大于等于第二预设值，则各个互联网舆情数据源去重选负后的舆情数据为相似舆情；并进行以上舆情数据的情感对比；

若第二舆情相似度小于第二预设值，则将渠道舆情数据作为参照数据项继续保留在预设周期内，看是否有新的对比舆情数据；若无，则将相关舆情数据作为平台的正式舆情数据使用，并将最早的时间赋予被选定的舆情数据。

进一步地，所述的若第二舆情相似度大于等于第二预设值，则各个互联网舆情数据源去重选负后的舆情数据为相似舆情；并进行以上舆情数据的情感对比；具体包括：

步骤A，比较各个提供商在相同舆情的推送时间适时性，较晚的提供商均采用各自的第二计数器进行数量累加1；

步骤B，比较各个提供商在相同舆情的横向对比中时间非最快次数，各个提供商均采用各自的第三计数器记录被情感纠正的舆情数据量；

步骤C，当情感比较中，舆情数据中三条数据的情感都为负，则取时间最早的一条舆情数据供平台使用，直接将该舆情标注为事件需要进入指挥调度系统体系直接派人处置；此时各个第三计数器不计数；

步骤D，当舆情数据中两条为负，一条为正时，则同步骤C，同时将选取的该条舆情数据标黄，提醒值守人员给予关注是否进行舆情情感纠偏；当语义分析被确认正确的，正面的一条会被记录到步骤A中对应的第二计数器中，反之，负面的两条会被记录；同时值守人员人工将负面两条纠偏取正，正面语义的时间最早的一条供平台使用；被纠偏的舆情数据对应提供商的第三计数器对应加1；

步骤E，当舆情数据中两条为正，一条为负时，则取负面的一条舆情数据，并将该条舆情数据的时间赋予三条舆情数据中最早的时间点值，并将该条舆情数据标红，要求值守人员进行舆情情感纠偏；被纠偏的舆情对应提供商的对应的第三计数器对应加1。

进一步地，该方法还包括：根据所述互联网舆情推送时间和所述情感分析结果对各个互联网舆情数据源的提供商进行服务质量评价。

进一步地，所述的对所述互联网舆情数据源进行预处理包括对所述互联网舆情数据源进行数据有效性判断处理，具体为：

判断所述互联网舆情数据源的舆情标题是否为空，若舆情标题为空，则该条舆情数据为无效舆情数据；若舆情标题为不为空，则继续判断该条舆情数据的正文内容是否为空，如果正文内容为空，则该条舆情数据为无效舆情数据；如果正文内容不为空，则该条舆情数据为有效舆情数据；

对于无效舆情数据，供提供商统计向平台推送舆情数据时剔除；

对于有效舆情数据，供提供商统计向平台推送舆情数据时累加。

第二方面，本发明又提供了一种互联网大数据分析系统，该系统支持所述的一种互联网大数据分析方法，该系统包括：

获取单元，用于获取多个互联网舆情数据源；

预处理单元，用于对所述互联网舆情数据源进行预处理；

去重选负处理单元，用于从预设时间点起，采用纵向比较法对预处理后的每个互联网舆情数据源分别进行去重选负处理，得到每个互联网舆情数据源去重选负后的数据；

情感分析处理单元，用于在预设周期内，采用横向比较法对各个互联网舆情数据源去重选负后的数据进行进一步分析处理，得到相似舆情的情感分析结果，同时得到被选定的互联网舆情数据源及互联网舆情推送时间，并将最早的时间赋予被选定的舆情数据；

输出及显示单元，用于对所述舆情分析结果、被选定的互联网舆情数据源及互联网舆情推送时间进行输出及显示。

进一步地，所述去重选负处理单元的执行过程为：

本发明与现有技术相比，具有如下的优点和有益效果：

一种互联网大数据分析方法及系统，通过多渠道的舆情数据获取和采集，充分整合各渠道的技术及资源优势，规避各家的短板，汇聚各家的舆情数据达到一个相对更完善的舆情数据渠道覆盖；同时结合纵向比较法和横向比较法，首先，从预设时间点起，采用纵向比较法对预处理后的每个互联网舆情数据源分别进行去重选负处理，得到每个互联网舆情数据源去重选负后的数据；其次，在预设周期内，采用横向比较法对各个互联网舆情数据源去重选负后的数据进行进一步分析处理，得到相似舆情的情感分析结果，同时得到被选定的互联网舆情数据源及互联网舆情推送时间；这样通过多家舆情的情感对比，规避一家舆情情感分析的一家“片面性”，从而使情感分析更为准确；通过多家舆情提供商的舆情反馈时间来选择相对更适时的舆情数据；通过对多家舆情数据提供商的反向监控，可以将促进平台舆情服务水平“站在巨人肩膀上”，取得优于行业的舆情服务。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。在附图中：

图1为本发明实施例1一种互联网大数据分析方法流程图。

图2为本发明实施例1一种互联网大数据分析方法步骤2的流程图。

图3为本发明实施例1一种互联网大数据分析方法步骤3的流程图。

图4为本发明实施例3一种互联网大数据分析系统结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例1

如图1至图3所示，本发明一种互联网大数据分析方法，该方法包括：

在预设周期内，采用横向比较法对各个互联网舆情数据源去重选负后的数据进行进一步分析处理，得到相似舆情的情感分析结果，同时得到被选定的互联网舆情数据源及互联网舆情推送时间，并将最早的时间赋予被选定的舆情数据；

根据所述互联网舆情推送时间和所述情感分析结果对各个互联网舆情数据源的提供商进行服务质量评价。

具体地，本发明采用“负面情感分析高于时间纬度”原则，即当某条舆情语义判定为负面时，即使时间靠后，我们也优先选择负面舆情数据的这一条，并将最早舆情的时间值T赋予负面语义的这一条；

如图1所示，具体实施如下：

步骤1，获取多个互联网舆情数据源，对所述互联网舆情数据源进行预处理；

本实施例中互联网舆情数据源提供至少不少于3家以上，而且为奇数个，为方便描述，以下以3家举例，分别为商家甲，乙，丙，分别对应提供的舆情数据为Da,Db,Dc，每一个渠道提供的舆情数据的时间点和情数据的情感语义都有不同，需要对比是否为相似舆情，然后根据相似舆情进行情感比较；

步骤2，从预设时间点起，采用纵向比较法对预处理后的每个互联网舆情数据源分别进行去重选负处理，得到每个互联网舆情数据源去重选负后的数据；如图2所示，步骤2具体包括：

以某个时间为起点按“先到先排”原则，假设一家舆情数据提供商甲最先时间点T1向平台推送了舆情源数据DaT1，后续的舆情数据可能有DaT2,DaT3；以DaT1为参照物与DaT2,DaT3数据的标题采用相似度函数对所述舆情数据进行舆情相似度计算，得到第一舆情相似度；根据所述第一舆情相似度，判断各个舆情数据是否为相似或者相同舆情数据：

其中，所述相似度函数使用bag of words模型或TF-IDF方法，将舆情数据文本转换为feature vectors特征向量，使用余弦相似度，基于两个舆情数据文本的特征向量，来计算它们的相似度S：

(1)若所述第一舆情相似度大于等于第一预设值M(M＝70％～80％)，则各个舆情数据为相似舆情数据，进行各个舆情数据的情感对比分析(即进行DaT1Y,DaT2Y,DaT3Y情感对比分析)，剔除重复舆情数据并选取负向舆情数据；具体包括：

A：在情感对比分析中，当舆情数据中只有一条负面舆情时(如DaT2Y为负面时)，则剔除其它条舆情数据(DaT1，DaT3)，选取该条舆情数据(DaT2)，同时该条舆情数据(DaT2)的时间点值取本次对比舆情数据中最早的时间点值；

B：当舆情数据中不止一条负面舆情时，选取一条舆情数据作为本轮对比结果，剔除多余的负面舆情数据，同时选取的该条舆情数据的时间值取本次对比舆情数据中最早的时间点值。

C：并采用第一计数器CFa记录提供商推送的重复或相似舆情数据次数，当1)的M为值达标，则此第一计数器CFa累加进行累加一次；

(2)若所述第一舆情相似度小于第一预设值，则各个舆情数据为非相似舆情数据，进行非相似的舆情数据重复比较，进一步去掉重复舆情数据，得到互联网舆情数据源中去重选负后的数据。非相似的舆情数据按步骤2算法重复比较，以此累推；

同理，数据渠道乙与丙都采用本方法执行“去重、选负”；输出数据存储至甲、乙、丙各自数据资源池供下一步跨数据提供渠道横向舆情数据对比；

步骤3，在预设周期内，采用横向比较法对各个互联网舆情数据源去重选负后的数据进行进一步分析处理，得到相似舆情的情感分析结果，同时得到被选定的互联网舆情数据源及互联网舆情推送时间，并将最早的时间赋予被选定的舆情数据；如图3所示，步骤3具体包括：

在预设周期内，采用相似度函数对各个互联网舆情数据源去重选负后的舆情数据进行舆情相似度计算，得到第二舆情相似度；根据所述第二舆情相似度，进行各个舆情数据的舆情情感纠偏处理；

设三家渠道商一个时间周期内，如10-60分钟不等(具体由平台参考景区的对舆情数据的适时性要求)，各自渠道去重取负后的数据为DaT2、DbT2、DcT3，需要进行进一步比较处理；

(1)若第二舆情相似度大于等于第二预设值M(M＝70％～80％)，则各个互联网舆情数据源去重选负后的舆情数据为相似舆情；并进行以上舆情数据的情感对比(即进行DaT2Y,DbT2Y,DcT3Y情感对比)；具体包括：

步骤A，比较各个提供商在相同舆情的推送时间适时性，较晚的提供商均采用各自的第二计数器进行数量累加1；具体地，定义舆情时间适时性计数变量YQSJa、YQSJb、YQSJc，比较三条数据的舆情推送时间T，时间第二和第三的的在各自变量上累加1，以此类推；

步骤B，比较各个提供商在相同舆情的横向对比中时间非最快次数，各个提供商均采用各自的第三计数器记录被情感纠正的舆情数据量；具体地，设舆情情感准确性计数变量YYFXa、YYFXb、YYFXc，记录被情感纠正的舆情数据量；

步骤C，当情感比较中，舆情数据中三条数据的情感(DaT2Y,DbT2Y,DcT3Y)都为负，则取时间最早的一条舆情数据供平台使用，直接将该舆情标注为事件需要进入指挥调度系统体系直接派人处置；此时YYFXa、YYFXb、YYFXc不计数；

步骤D，当舆情数据中两条为负，一条为正时，则同步骤C，同时将选取的该条舆情数据标黄，提醒值守人员给予关注是否进行舆情情感纠偏；当语义分析被确认正确的，正面的一条会被记录到步骤A中对应的第二计数器中，反之，负面的两条会被记录；同时值守人员人工将负面两条纠偏取正，正面语义的时间最早的一条供平台使用；被纠偏的舆情提供渠道对应的YYFXa、YYFXb、YYFXc对应加1；这是因为情感分析被纠正，意味着请义分析错误，对应渠道舆情情感准确性计数变量记1次；

步骤E，当舆情数据中两条为正，一条为负时，则取负面的一条舆情数据，并将该条舆情数据的时间赋予三条舆情数据中最早的时间点值，并将该条舆情数据标红，要求值守人员进行舆情情感纠偏；被纠偏的舆情提供渠道对应的YYFXa、YYFXb、YYFXc对应加1；

另外，当舆情数据渠道不只三家时，平台可以提供设定争议占比评比原则，如有5家，按2/3原则或1/4原则等；

(2)若第二舆情相似度小于第二预设值，则将渠道舆情数据作为参照数据项继续保留在预设周期内，看是否有新的对比舆情数据；若无，则将相关舆情数据作为平台的正式舆情数据使用，并将最早的时间赋予被选定的舆情数据。

步骤4，根据所述互联网舆情推送时间和所述情感分析结果对各个互联网舆情数据源的提供商进行服务质量评价。具体如下：

平台会根据前面的对舆情推送的时间、情感分析结果(包括人工修订)纬度对各个舆情数据提供商甲、乙、丙进行服务质量评价，以为平台运营方对舆情数据供应商选择时作为参考，具体做法为：

1)将步骤3(1)中的舆情情感准确计数变量YYFXa、YYFXb、YYFXc，步骤3(1)中的舆情时间推送记数变量YQSJa、YQSJb、YQSJc，步骤2(1)C条中的渠道自身渠道重复推送次数记数变量CFa、CFb、CFc按某个时间周期(如：按日、月、年)来进行舆情绩效评估；

2)按情感分析50％、时间推送时效40％、重复推送次数10％，平台根据50％+40％+10％的比例来对甲、乙、丙渠道进行评分，分数最高的为绩效最差的舆情数据提供商，输出排名报表。

以上技术方案，通过横向渠道对比中情感分析错误次数，横向渠道舆情数据推送非最早次数，单一渠道推送舆情数据重复累积次数，按5：4：1比例合计各个渠道的总评分并比较，值最高的，则为舆情数据较差提供商，供平台运营方决策是否淘汰。

实施例2

如图1至图3所示，本实施例与实施例1的区别在于，所述的对所述互联网舆情数据源进行预处理包括对所述互联网舆情数据源进行数据有效性判断处理，具体为：

所述的对所述互联网舆情数据源进行预处理还包括对渠道舆情数据数量管控处理，具体为：

以对渠道商甲的舆情数据量管控为描述，如下：

1)设一个时间周期(通常为1年)的舆情数量为SUMa；

2)要求渠道商提前根据自己的技术和资源特点提供某景区往年(考虑到相对精度，可以要求过去几年)分布到每月的的舆情数据量统计，将每月(或每月平均数)将SUMa指标按12个月平均分配数量值，该值为SUMaYn,(本发明Yn为1-12),其中SUMa1+SUMa2+SUMa3+…+SUMa12<＝SUMa，在实际应用过程中应与渠道供应商谈判允许一个周期及数量的误差冗余，具体误差冗余值可参见前一条中涉及到的下一个周期开始时间的舆情数量；

3)定义渠道商甲年舆情数据实际总量计数变量Yqasum和误差计数变量Yqawc，月舆情数据总量计数变量YqasumYn,月误差计数变量YqawcYn；

4)以第1月为例，当3)的判断语义为负时，则YqasumY1无条件加1；当3)的判断语义为正时，则判断YqasumY1<＝SUMaY1,若小于等于，则YqasumY1累加上舆情条数，否则YqawcY1累加上误舆情条数；当截止当月23点59分59秒时YqasumY1<＝SUMaY1仍然为负，则YqawcY1取差值；YqasumY1+SUMaY1作为下一周期的舆情参照值SUMaY1，而不再取4)由供应商提供往年数据参照；

5)在12月底时，将YqawcYn进行累加，然后结合5)的输出结果与供应商甲线下洽商商务事谊，包括本周期的误差商务费用结算、下一周期的舆情商务费用或是否进一步合作等。

实施例3

如图4所示，本实施例与实施例1的区别在于，本实施例提供了一种互联网大数据分析系统，该系统支持实施例1所述的一种互联网大数据分析方法，该系统包括：

获取单元，用于获取多个互联网舆情数据源；

预处理单元，用于对所述互联网舆情数据源进行预处理；

本实施例中，所述去重选负处理单元的执行过程为：

其它各个单元的执行过程按照实施例1所述的一种互联网大数据分析方法流程步骤执行即可，此实施例中不再一一赘述。

本发明系统通过多渠道的舆情数据获取，充分整合各渠道的技术及资源优势，规避各家的短板，汇聚各家的舆情数据达到一个相对更完善的舆情数据渠道覆盖；同时结合纵向比较法和横向比较法，首先，从预设时间点起，采用纵向比较法对预处理后的每个互联网舆情数据源分别进行去重选负处理，得到每个互联网舆情数据源去重选负后的数据；其次，在预设周期内，采用横向比较法对各个互联网舆情数据源去重选负后的数据进行进一步分析处理，得到相似舆情的情感分析结果，同时得到被选定的互联网舆情数据源及互联网舆情推送时间；这样通过多家舆情的情感对比，规避一家舆情情感分析的一家“片面性”，从而使情感分析更为准确；通过多家舆情提供商的舆情反馈时间来选择相对更适时的舆情数据；通过对多家舆情数据提供商的反向监控，可以将促进平台舆情服务水平“站在巨人肩膀上”，取得优于行业的舆情服务。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种互联网大数据分析方法，其特征在于，该方法包括：

所述的采用纵向比较法对预处理后的每个互联网舆情数据源分别进行去重选负处理；具体包括：从预设时间点T1起，在时间序列上根据一家互联网舆情数据源对应的提供商依次推送的舆情数据，采用相似度函数对所述舆情数据进行舆情相似度计算，得到第一舆情相似度；根据所述第一舆情相似度，判断各个舆情数据是否为相似或者相同舆情数据；

所述的根据所述第一舆情相似度，判断各个舆情数据是否为相似或者相同舆情数据；具体包括：

若所述第一舆情相似度小于第一预设值，则各个舆情数据为非相似舆情数据，进行非相似的舆情数据重复比较，进一步去掉重复舆情数据，得到互联网舆情数据源中去重选负后的数据；

所述的若所述第一舆情相似度大于等于第一预设值，则进行各个舆情数据的情感对比分析，剔除重复舆情数据并选取负向舆情数据；具体包括：

在情感对比分析中，当舆情数据中只有一条负面舆情时，则剔除其它条舆情数据，选取只有一条负面舆情的舆情数据，同时只有一条负面舆情的舆情数据的时间点值取本次对比舆情数据中最早的时间点值；

当舆情数据中不止一条负面舆情时，选取一条舆情数据作为本轮对比结果，剔除多余的负面舆情数据，同时选取的该条舆情数据的时间值取本次对比舆情数据中最早的时间点值；

所述的采用横向比较法对各个互联网舆情数据源去重选负后的数据进行进一步分析处理，具体包括：

若第二舆情相似度小于第二预设值，则将渠道舆情数据作为参照数据项继续保留在预设周期内，看是否有新的对比舆情数据；若无，则将相关舆情数据作为平台的正式舆情数据使用，并将最早的时间赋予被选定的舆情数据；

所述的若第二舆情相似度大于等于第二预设值，则各个互联网舆情数据源去重选负后的舆情数据为相似舆情；并进行以上舆情数据的情感对比；具体包括：

步骤C，当情感比较中，舆情数据中三条数据的情感都为负，则取时间最早的一条舆情数据供平台使用，将该舆情标注为事件需要进入指挥调度系统体系直接派人处置；此时各个第三计数器不计数；

步骤D，当舆情数据中两条为负，一条为正时，则采用步骤C中选取的处理方法进行选取，同时将选取的舆情数据标黄，提醒值守人员给予关注是否进行舆情情感纠偏；当语义分析被确认正确的，正面的一条会被记录到步骤A中对应的第二计数器中，反之，负面的两条会被记录；同时值守人员人工将负面两条纠偏取正，正面语义的时间最早的一条供平台使用；被纠偏的舆情数据对应提供商的第三计数器对应加1；

步骤E，当舆情数据中两条为正，一条为负时，则取负面的一条舆情数据，并将该条舆情数据的时间赋予三条舆情数据中最早的时间点值，并将该条舆情数据标红，要求值守人员进行舆情情感纠偏；被纠偏的舆情对应提供商的第三计数器对应加1。

2.根据权利要求1所述的一种互联网大数据分析方法，其特征在于，每个所述互联网舆情数据源包括舆情数据的时间点和舆情数据的情感语义，所述舆情数据的情感语义包括正面情感、负面情感。

3.根据权利要求1所述的一种互联网大数据分析方法，其特征在于，该方法还包括：根据所述互联网舆情推送时间和所述情感分析结果对各个互联网舆情数据源的提供商进行服务质量评价。

4.根据权利要求1所述的一种互联网大数据分析方法，其特征在于，所述的对所述互联网舆情数据源进行预处理包括对所述互联网舆情数据源进行数据有效性判断处理，具体为：

判断所述互联网舆情数据源的舆情标题是否为空，若舆情标题为空，则所述互联网舆情数据源为无效舆情数据；若舆情标题为不为空，则继续判断所述互联网舆情数据源的正文内容是否为空，如果正文内容为空，则所述互联网舆情数据源为无效舆情数据；如果正文内容不为空，则所述互联网舆情数据源为有效舆情数据；

5.一种互联网大数据分析系统，其特征在于，该系统支持如权利要求1至4中任一所述的一种互联网大数据分析方法，该系统包括：

获取单元，用于获取多个互联网舆情数据源；

预处理单元，用于对所述互联网舆情数据源进行预处理；

去重选负处理单元，用于从预设时间点起，采用纵向比较法对预处理后的每个互联网舆情数据源分别进行去重选负处理，得到每个互联网舆情数据源去重选负后的数据；所述纵向比较法为从预设时间点T1起，在时间序列上根据一家互联网舆情数据源对应的提供商依次推送的舆情数据，采用相似度函数对所述舆情数据进行舆情相似度计算，得到第一舆情相似度；根据所述第一舆情相似度，判断各个舆情数据是否为相似或者相同舆情数据；

输出及显示单元，用于对舆情分析结果、被选定的互联网舆情数据源及互联网舆情推送时间进行输出及显示。

6.根据权利要求5所述的一种互联网大数据分析系统，其特征在于，所述的根据所述第一舆情相似度，判断各个舆情数据是否为相似或者相同舆情数据；具体包括：