CN113536133B

CN113536133B - 基于单一舆情事件的互联网数据处理方法

Info

Publication number: CN113536133B
Application number: CN202110875537.2A
Authority: CN
Inventors: 郭齐
Original assignee: Xi'an Kangnai Network Technology Co ltd
Current assignee: Xi'an Kangnai Network Technology Co ltd
Priority date: 2021-07-30
Filing date: 2021-07-30
Publication date: 2023-04-11
Anticipated expiration: 2041-07-30
Also published as: CN113536133A

Abstract

本发明公开了基于单一舆情事件的互联网数据处理方法，涉及数据处理技术领域，对微博、微信公众号、百度、360搜索等众多社交平台和搜索引擎进行数据提取，汇总了公共网络的舆情数据，并在储存之后使用Elasticsearch整合大数据平台进行搜索。部署单一舆情事件的关键词进行搜索，由Elasticsearch整合大数据平台进行展示，完成了针对单一舆情事件相关数据信息的汇总工作，解决传统搜索平台，社交网站数据不共享，信息不通信的缺点，为应对单一舆情事件的数据汇总工作提供数据支持。

Description

基于单一舆情事件的互联网数据处理方法

技术领域

本发明涉及数据处理技术领域，特别涉及基于单一舆情事件的互联网数据处理方法。

背景技术

根据中国互联网络信息中心(CNNIC)发布的第47期《中国互联网发展统计报告》显示，截至2020年12月20日，中国互联网用户数量达到9.89亿。因此，互联网给我们网罗和提供了大量的数据信息，其中对于基于单一舆情事件的互联网数据处理方法为舆情分析提供了坚定的数据支持，给舆情分析提供了很大的便利。

随着互联网时代的不断深入发展，互联网舆情分析已经成为了解社情民意、把握舆情动向、对突发事件做出快速响应和处理的不可或缺的手段。互联网舆情事件的数据汇总，特别是单一指定舆情事件的互联网数据汇总方法，是大数据时代自动化汇总的生动运用。

但现有的数据汇总方案普遍采用传统人工汇总，人工复制粘贴、各大搜索平台为了商业竞争，彼此对数据采取绝对隔阂，互不相通，导致面对舆情事件，无法做到数据全量性。各大商业机构存在以盈利性推销为基础的盈利模式，必然导致舆情新闻在扩散渠道产生一些不太精准的商业广告伴随，所以，现有汇总数据的方式在面对日益进步的互联网技术方面已然落后，但实际情况中对汇总成本，数据的全量性，精准性，及时性的要求，给本发明提供的一种基于单一舆情事件的互联网数据处理方法提供了动力。

针对现有技术存在的问题，本申请提供了种基于单一舆情事件的互联网数据处理方法，解决传统舆情数据汇总工作中准确率不高、全量性不足、存在脏乱数据的问题。

发明内容

本发明的目的在于提供基于单一舆情事件的互联网数据处理方法，解决传统舆情数据汇总工作中准确率不高、全量性不足、存在脏乱数据的问题。

本发明提供了基于单一舆情事件的互联网数据处理方法，包括以下步骤：

通过实时获取来自公共网络的舆情数据，建立Elasticsearch整合大数据平台；

根据单一目标舆情事件的关键词和匹配要求，在Elasticsearch整合大数据平台的数据仓库中匹配提取单一目标舆情事件的关联互联网数据；

利用Elasticsearch整合大数据平台进行单一目标舆情事件的关联互联网数据的汇总和展示；

其中，所述匹配提取目标舆情的步骤包括：

利用模糊匹配算法，匹配调用数据仓库中与目标舆情事件相关的互联网数据；根据预设的精准匹配筛选条件进行精准匹配。

进一步地，所述预设的精准匹配筛选条件包括：单一目标舆情事件的关键字、单一目标舆情事件的时间和单一目标舆情事件的地点。

进一步地，所述实时获取来自公共网络的舆情数据，包括：

设置通用的解析模型，进行公共网络数据的规则化汇总提取，其具体为：

通过解析模型获取所有舆情数据的中文父标签；

将所有的父标签每n行进行一个分组，并拣选出包含文字数量最多的一个分组；

拣选后的分组对应的父标签所包含的所有内容为文本正文内容，并对文本正文内容进行数据规则化解析提取。

进一步地，还包括：在公共网络数据规则化提取后，对未被成功提取出来的数据，进行标记识别，并通过预先准备的特定格式化规则库进行格式化解析提取；

根据待汇总公共网络的域名建立相应的域名数据库，建立对应的特殊提取解析规则，对解析提取后的数据进行数据格式化，利用Elasticsearch整合大数据平台进行展示。

进一步地，还包括：对来自各个公共网络的舆情数据进行不同字段的识别，对每个公共网络的多条舆情数据进行去重，确保数据在隶属公共网络中的唯一性。

进一步地，所述公共网络：包括社交网站、搜索平台、新闻发布平台和舆情发布平台。

与现有技术相比，本发明具有如下显著优点：

(一)本发明提出的基于单一舆情事件的互联网数据处理方法，对众多社交平台和搜索引擎进行数据提取，汇总了公共网络的舆情数据，并在储存之后使用Elasticsearch整合大数据平台进行搜索。部署单一舆情事件的关键词进行搜索，由Elasticsearch整合大数据平台进行展示，完成了针对单一舆情事件相关数据信息的汇总工作，解决传统搜索平台，社交网站数据不共享，信息不通信的缺点，为应对单一舆情事件的数据汇总工作提供数据支持。

(二)本发明提出的基于单一舆情事件的互联网数据处理方法，从数据仓库查询匹配舆情事件的相关数据后，利用Elasticsearch整合大数据平台对数据进行中转，极大的提升了数据仓库的查找速度上限，所需查找时间更少，对针对单一舆情事件的汇总所用时间更短，使得对单一舆情事件分析之后产生的各项情境预留出来更多充足的时间，来预判舆情发展方向和可能产生的后果。

附图说明

图1为本发明实施例提供的数据汇总框图；

图2为本发明实施例提供的数据索引结构图。

具体实施方式

下面结合本发明中的附图，对本发明实施例的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

本发明提出的一种基于单一舆情事件的互联网数据处理方法，在针对数据来源的全量性方面做出了有效的突破，对于各大社交网站，搜索平台，新闻发布平台，舆论发布平台等商业性平台之间的数据不共享产生了有效的解决，统一汇总，为特定的单一舆情事件的处理方案提供了坚定的数据支撑。根据传统文本密度来提取内容的方案上，作出了自动和预想方案的有效结合。根据文本密度判别出来内容的所在，进行提取之后，对于根据文本密度自动化提取产生失败或者争议的内容，进行判别，然后通过之前预设计的规则提取方案进行二次提取，针对单一舆情事件的互联网数据汇总，保证了有效的互联网数据汇总所必需的准确性。

Elasticsearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTfulweb接口。Elasticsearch是用Java语言开发的，并作为Apache许可条款下的开放源码发布，是一种流行的企业级搜索引擎。Elasticsearch用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。官方客户端在Java、.NET(C#)、PHP、Python、ApacheGroovy、Ruby和许多其他语言中都是可用的。

参照图1-2，本发明提供了基于单一舆情事件的互联网数据处理方法，包括以下步骤：

通过实时获取来自公共网络的舆情数据，建立Elasticsearch整合大数据平台，通过HTTP协议实时更新汇总来自公共网络的舆情数据，针对各个单一舆情事件的互联网数据来源网站及平台等制定符合规范的自动汇总方案，进行自动化数据汇总，公共网络包括社交网站、搜索平台、新闻发布平台和舆情发布平台，针对各个搜索平、社交网站、新闻发布平台和舆情发布平台的数据不共享情况，并对数据重复刷流量问题进行单独特殊的去重处理，采取特定的汇总方式以及方法，进行特定的单一舆情事件的互联网数据汇总；

确定单一目标舆情，根据单一目标舆情事件的关键词和匹配要求，在Elasticsearch整合大数据平台的数据仓库中匹配提取单一目标舆情事件的关联互联网数据，如对汇总的相关单一舆情事件进行时间段的区分比较，自动挑选出来和单一舆情事件最匹配的数据，在Elasticsearch整合大数据平台的数据仓库中匹配提取目标舆情的相关互联网数据，利用模糊匹配算法，匹配调用数据仓库中与目标舆情事件相关的互联网数据，然后根据自定义的精准匹配筛选条件进行精准匹配，将精准匹配后得到的互联网数据，利用Elasticsearch整合大数据平台进行单一目标舆情事件的关联互联网数据的汇总和展示。

其中，所述匹配提取目标舆情的步骤包括：

利用模糊匹配算法，匹配调用数据仓库中与目标舆情事件相关的互联网数据；根据预设的精准匹配筛选条件进行精准匹配。所述预设的精准匹配筛选条件包括：单一目标舆情事件的关键字、单一目标舆情事件的时间和单一目标舆情事件的地点。

所述HTTP协议的接口采用的数据提交方式为POST，传输格式为JSON。

本申请采用模糊匹配算法进行匹配的方法为：

对两个字符串进行模糊匹配并计算两个字符串的匹配度。“匹配度”并不是只用是否包含就可以表示的。“匹配度”由两个字符串的最长公共子序列来描述。现有的一个字符串的子序列是指：原字符串在不改变里面字符的顺序的情况下去删除某些字符子集(也可以不删除任何字符子集)后组成的全新字符串。例："123"是"12345"的子序列，但"145"不是"12345"的子序列。两个字符串的“公共子序列”是这两个字符串所共同拥有的子序列。

使用两个字符串的公共子序列的长度比较的阈值结果来表示相匹配的程度，即：较长的公共子序列的长度％较短字符串的长度。

从现有数据仓库通过比对阈值结果的方式，查询出来现有数据仓库可能包含有相关单一舆情事件的所有符合已经设定好的匹配要求，将根据单一舆情事件的相关关键词，匹配要求从现有数据仓库匹配出来的相关数据进行下一步的精准匹配。

精准匹配的匹配要求主要是自定义的要求。单一舆情事件，所代表的舆情效应和可能会造成的舆情结局均有各自不一样的情况，所以由自定义的匹配要求去进行二次核验来保证数据的精准性。

精准匹配检索是指检索词与资源库中某一字段完全相同的检索方式。

此时在进行精准匹配的时候，由多个已经设定好的匹配要求(可以手动设置，更加人性化)，对第一轮模糊匹配出来的数据进行再次筛选，此时筛选出来的数据再利用Elasticsearch整合大数据平台进行使用。

精准匹配检索流程说明：

①文档特征项可以表示为向量形式：T＝{t₁,t₂,t₃,t₄,t₅,....t_n}其中n＝6763，t_i(1≤i≤n)代表国标汉字字符集GBK/2：GB2312中包含的6763个汉字中的某个特定汉字。汉字编码是用双字节形式，编码分为9个区，高字节分别为：B0～B7，B8～BF，C0～C7，C8～CF，D0～D7，D8～DF，E0～E7，E8～EF，F0～F7；相应的低字节编码均为：A1～FE。

②假设被检索文档为D。其向量表示形式为：D＝{d₁,d₂,...d_n}其中n＝6763，d_i(1≤i≤n)。在集合{0，1}中取值。如果特征分项t_i在文档D中出现，即t_i∈D，则相应d_i＝1；如果特征分项t_i在文档D中没有出现，即t_i不属于D，则相应d_i＝0。

⑧用户查询可表示为Q，其向量形式为：Q＝{q₁,q₂,...q_n}。这里的m值理论上不受限制，但从实际出发考虑m应该小于等于n，为了方便两个向量的运算，在此取m＝n(差项用数字0填补)。同样q_i在集合(0，1}中取值。如果特征分项t_i在文档Q中出现，即t_i∈Q，则相应q_i＝1；如果特征分项t_i在文档Q中没有出现，即t_i不属于Q，则相应q_i＝0。

④将向量D、Q做数量积运算，设向量D、Q的数量积为R。

i)如果R＝0，则说明用户检索条件在被检索的文档中不存在。

ii)如果R≠0，下面继续判断、计算。

如果cosα＝1，则说明用户检索条件完全存在于被检索文档中，但不能说明是否连续存在。要判断是否连续存在，则需要采集到被检索文档中汉字的位置关系，这可以依据数据索引结构和数据索引方式来完成。结构图如图2所示。

此时匹配到的数据再利用Elasticsearch整合大数据平台进行使用。

使用单一舆情相关的关键词语，舆情产生的相关或相近时间进行多网站平台的查询，解决传统搜索平台的数据不精准问题，解决传统搜索平台的数据不共享问题，根据文本内容密度进行相关数据的提取，当在非详情页产生的脏乱数据，进行数据储存，以接口方式提供给自定义的规则提取库，进行精准数据提取和解析。

本发明解决传统搜索平台的数据不共享问题，通过全网的多个平台进行单一舆情事件的互联网数据汇总，数据包含多个来源，避免了各个平台之间数据不共享问题，保证数据的全量性。经过数据汇总之后，在Elasticsearch整合大数据平台上展示的汇总数据，具有相关单一舆情事件的互联网数据应具备的全量性、准确性、稳定性等特点。

实施例1

对来自各个公共网络的舆情数据进行不同字段的识别，对每个公共网络的多条舆情数据进行去重，指定去重方式，避免同个网站产生不同的重复数据，根据内容密度进行多次去重，确保数据在隶属公共网络中的唯一性。通过单一舆情事件的互联网数据来源网站的海量数据对比出每个来源域名的数据唯一性所具备的特点，分别进行数据的去重，比如来源数据的网址中的唯一识别符，舆情标题的唯一性，舆情内容与相关舆情时间的匹配程度等来保证数据的唯一性。

实现了从本地数据仓库模糊匹配单一舆情事件的相关信息，再通过精准匹配单一舆情事件的相关信息，然后利用Elasticsearch整合大数据平台进行使用之后，对于单一舆情事件的相关数据的汇总，就要开始通过对全网的社交平台，搜索平台，新闻发布平台，舆情发布平台等等一系列网站进行数据的自动汇总。然后通过一个通用的解析模型，来进行数据的规则化提取，通过内容文本密度来实现。实时获取来自公共网络的舆情数据，包括：设置通用的解析模型，进行公共网络数据的规则化汇总提取，具体为：

通过解析模型获取所有舆情数据的中文父标签；

将所有的父标签每n行进行一个分组(n＝5，从第一行开始)，以此类推，直至最后一行，并拣选出包含文字数量最多的一个分组；

在公共网络数据规则化提取后，对未被成功提取出来的数据，进行标记识别，并通过预先准备的特定格式化规则库进行格式化解析提取；

最终的数据格式为：

字段说明：

"Title":相关舆情标题；

"Author":发布相关舆情的作者；

"PublishTime":相关舆情的发布时间；

"Source":相关舆情的来源网站(或者平台)；

"Content":相关舆情的正文内容；

最终将本地数据仓库的相关舆情数据和全网各大搜索平台，社交网站，新闻发布平台，舆情发布平台上面自动汇总的数据利用Elasticsearch整合大数据平台进行整合，通过HTTP协议进行数据之间的通信与交流，提供一种基于单一舆情事件的互联网数据处理方法，解决传统舆情事件的互联网数据汇总工作中出现的准确率不高、全量性不足、脏乱数据存在等一系列问题。

实施例2

Elasticsearch整合大数据平台对相关舆情进行预处理，其预处理的步骤为：

针对单一舆情事件的互联网数据汇总，拿到相关舆情的关键词，从数据仓库对相关舆情根据相关时间段进行数据查询；

对查询到的数据结果进行格式化；

使用中文字符词典文件，对相关舆情数据按需处理；

使用Elasticsearch整合大数据平台对数据进行中转，极大的提升了数据仓库的查找速度上限，性能更优。

单一舆情事件的互联网数据汇总方法的预处理步骤为：

建立Elasticsearch整合大数据平台，对数据进行汇总展示；对可能会产生舆情互联网数据平台进行统计，存储；对获取到的相关的单一舆情事件的关键词进行不间断的自动汇总；对单一舆情事件的互联网数据汇总进行持久化存储。

进行特定的单一舆情事件的互联网数据汇总步骤为：

各个商业搜索平台，社交网站，新闻发布平台，舆情发布平台等舆情时间的数据来源平台都会存在不定期的技术更新问题，根据提前设想到的多重处理更新方案进行预处理，然后对每一种方案均进行多重预判，当针对单一舆情事件响应之时，汇总数据不及预期的情况下，及时调换汇总方案，保证单一舆情事件的互联网数据汇总的稳定性。

以上公开的仅为本发明的几个具体实施例，但是，本发明实施例并非局限于此，任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims

1.基于单一舆情事件的互联网数据处理方法，其特征在于，包括以下步骤：

其中，匹配提取目标舆情的步骤包括：

利用模糊匹配算法，匹配调用数据仓库中与目标舆情事件相关的互联网数据；根据预设的精准匹配筛选条件进行精准匹配；

还包括，Elasticsearch整合大数据平台对相关舆情进行预处理，其预处理的步骤为：

针对单一舆情事件的互联网数据汇总，得到相关舆情的关键词，从数据仓库对相关舆情根据相关时间段进行数据查询；

对查询到的数据结果进行格式化；

使用中文字符词典文件，对相关舆情数据按需处理；

单一舆情事件的互联网数据汇总方法的预处理步骤为：

建立Elasticsearch整合大数据平台，对数据进行汇总展示；

对可能会产生舆情互联网数据平台进行统计，存储；

对获取到的相关的单一舆情事件的关键词进行不间断的自动汇总；

对单一舆情事件的互联网数据汇总进行持久化存储；

所述实时获取来自公共网络的舆情数据，包括：

通过解析模型获取所有舆情数据的中文父标签；

拣选后的分组对应的父标签所包含的所有内容为文本正文内容，并对文本正文内容进行数据规则化解析提取；

还包括：

根据待汇总公共网络的域名建立相应的域名数据库，建立对应的特殊提取解析规则，对解析提取后的数据进行数据格式化，利用Elasticsearch整合大数据平台进行展示；

还包括：

对来自各个公共网络的舆情数据进行不同字段的识别，对每个公共网络的多条舆情数据进行去重，确保数据在隶属公共网络中的唯一性。

2.如权利要求1所述的基于单一舆情事件的互联网数据处理方法，其特征在于，所述预设的精准匹配筛选条件包括：单一目标舆情事件的关键字、单一目标舆情事件的时间和单一目标舆情事件的地点。

3.如权利要求1所述的基于单一舆情事件的互联网数据处理方法，其特征在于，所述公共网络包括：社交网站、搜索平台、新闻发布平台和舆情发布平台。