CN113010764B

CN113010764B - 一种舆情监测系统、方法、计算机设备及存储介质

Info

Publication number: CN113010764B
Application number: CN202110403117.4A
Authority: CN
Inventors: 汪声; 马善杰; 栗婧
Original assignee: Deguan Intelligent Control Equipment Zhuozhou Co ltd
Current assignee: Deguan Intelligent Control Equipment Zhuozhou Co ltd
Priority date: 2021-04-15
Filing date: 2021-04-15
Publication date: 2023-08-22
Anticipated expiration: 2041-04-15
Also published as: CN113010764A

Abstract

本发明涉及网络安全管控技术领域，具体公开了一种舆情监测系统，所述系统包括识别信息获取单元，用于接收上传端的文件上传请求，发送应用程序识别码获取指令，并基于应用程序识别码获取识别信息；其中，所述识别信息包括文件类型；粗识别单元，用于基于所述文件类型进行文件粗识别，并确认处理措施；细识别单元，用于判断下载端是否发送文件分享请求，基于判断结果生成文件传播指数，基于所述文件传播指数对所述文件进行细识别，并确认处理措施。本发明基于传播能力对文件采取不同识别标准，对于传播性较强的不合适内容进行压制，对于传播性较低的不合适内容采取放任措施，在维持社会稳定的前提下保障了人们的言论自由。

Description

一种舆情监测系统、方法、计算机设备及存储介质

技术领域

本发明涉及网络安全管控技术领域，具体是一种舆情监测系统、方法、计算机设备及存储介质。

背景技术

在当今社会，网络媒体逐渐成为了大部分人获取信息的主要途径，但是在网络媒体传递信息的过程中，由于发布者的多元性以及隐匿性，往往会有很多不合适的内容出现，这些不合适的内容大多数以吸引别人注意为目的而发布的，随着社会的进步以及科技的发展，通过网络获取信息的人也越来越多，在获取信息的同时，本身就可以作为传播者，因此，很容易会发生不合适内容的快速传播，相应的，舆情监控，特别是网络舆情监控，便作为一个新的技术领域出现了。

现有网络舆情监测系统通过对海量网络舆论信息进行实时采集，然后进行识别，在这一过程中，当然，对于采集过程是有分工的，分工的核心是分区域进行采集，即，以网络地址为基础，实时采集数据，然后对数据进行分类，进而进行识别。

从上述过程易于想到，这是一件非常大的工程，尤其在当今的大数据时代，每个分区都发生着这样的过程：自动采集，分析，汇总，监视，并识别其中的关键信息。这种全盘扫描的过程所需的算度是非常惊人的，而且对于采集能力和识别能力的要求都非常高，无论采集能力或是识别能力降低，都会发生监测不善的后果，相反的，如果采集能力或是识别能力都很强，那么造成的后果一定是限制人们的言论自由，实际上，网络舆情监控的目的绝非是言论限制，网络舆情监控的目的是维护网络安全进而维持社会稳定，对于一些传播性不强的不合适内容并不需要过于打击，因此，如何更加准确的对网络内容进行识别，在维持社会稳定的前提下保障人们言论自由是需要解决的技术问题。

发明内容

本发明的目的在于提供一种舆情监测系统、方法、计算机设备及存储介质，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种舆情监测系统，所述系统包括：

识别信息获取单元，用于接收上传端的文件上传请求，发送应用程序识别码获取指令，并基于应用程序识别码获取识别信息；其中，所述识别信息包括用户信息以及文件类型；

粗识别单元，用于基于所述文件类型进行文件粗识别，并确认处理措施；所述粗识别单元至少包括文本识别模块、音频识别模块以及视频识别模块；

风险检测单元，用于接收下载端的文件下载请求，确认下载端发送下载请求的应用程序，基于确认结果发送相应的文件；

细识别单元，用于判断下载端是否发送文件分享请求，基于判断结果生成文件传播指数，基于所述文件传播指数对所述文件进行细识别，并确认处理措施。

一种舆情监测方法，所述方法应用于所述舆情监测系统，所述方法具体包括：

接收上传端的文件上传请求，发送应用程序识别码获取指令，并基于应用程序识别码获取识别信息；其中，所述识别信息包括用户信息以及文件类型；

基于所述文件类型进行文件粗识别，并确认处理措施；

接收下载端的文件下载请求，确认下载端发送下载请求的应用程序，基于确认结果发送相应的文件；

判断下载端是否发送文件分享请求，基于判断结果生成文件传播指数，基于所述文件传播指数对所述文件进行细识别，并确认处理措施。

一种计算机设备，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条程序代码，所述程序代码由所述一个或多个处理器加载并执行时，实现所述舆情监测系统的功能。

一种计算机存储介质，所述计算机存储介质中存储有至少一条程序代码，所述程序代码由处理器加载并执行时，实现所述舆情监测系统的功能。

与现有技术相比，本发明的有益效果是：本发明通过获取应用程序识别码定位用户上传文件所用的途径，通过应用程序识别码借助相应的数据库直接获取用户信息，这种方式非常便捷，且有相应的管控主体，即，所述应用程序的运营公司；通过应用程序识别码借助相应的数据库获取文件类型，基于不同的文件类型采用不同的识别方法；其中，识别核心为对文本信息的检测，对于音频文件，通过语音识别过程将音频信息转变为文本信息，对于视频文件，从视频文件中提取音频信息，进而转变为文本信息，此外，对于视频文件多了一步图片识别过程；通过粗识别单元所有上传的文件进行粗识别，粗识别的标准较低；通过风险检测单元将用户获取信息的途径限制在相同的应用程序中，通过细识别单元判断文件传播速度，基于所述传播速度对文件进行细识别，细识别过程中重点也是对文本信息的检测，所述细识别的标准较高；

本发明基于传播能力对文件采取不同识别标准，对于传播性较强的不合适内容进行压制，对于传播性较低的不合适内容采取放任措施，在维持社会稳定的前提下保障了人们的言论自由。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例。

图1为舆情监测系统的系统架构图。

图2为舆情监测系统的组成结构图。

图3为舆情监测系统中识别信息获取单元的组成结构图。

图4为粗识别单元中的文本识别模块的组成结构图。

图5为粗识别单元中的音频识别模块的组成结构图。

图6为粗识别单元中的视频识别模块的组成结构图。

图7为舆情监测系统中细识别单元的结构示意图。

图8为细识别单元中绝对识别模块的结构示意图。

图9为舆情监测方法的流程框图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图1示出了舆情监测系统的系统架构图，所述系统架构包括三方，分别为用户终端、网络和服务平台，所述用户终端和服务平台通过网络相互传输数据，网络可以是用以在用户终端和服务平台之间提供通信链路的介质，所述网络的连接类型主要是无线通信链路。所述用户终端包括上传端、下载端以及分享端，这些统称为用户终端。

用户可以使用用户终端通过网络与服务平台进行交互，以发送文件上传请求、文件下载请求或文件分享请求。所述用户终端可以是硬件，也可以是软件，当用户终端为硬件时，所述用户终端具备通信功能的电子设备，包括但不限于智能手机、平板电脑、个人电脑等等。当用户终端为软件时，可以安装在上述所列举的电子设备中，其可以实现成多个软件或软件模块，也可以实现成单个软件或软件模块，在此不做具体限定。

服务平台可以是提供各种服务的服务器，服务平台可以接收用户终端发送的文件上传请求，进而发送应用程序识别码获取指令，并基于应用程序识别码获取识别信息；其中，所述识别信息包括用户信息以及文件类型；服务平台可以接收用户终端发送的文件下载请求，确认下载端发送下载请求的应用程序，基于确认结果发送相应的文件；服务平台可以接收用户终端发送的文件分享请求，生成文件传播指数，基于所述文件传播指数对所述文件进行细识别，并确认处理措施。

需要说明的是，上述服务器可以是硬件，也可以是软件。当服务器为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成多个软件或软件模块，也可以实现成单个软件或软件模块。在此不做具体限定。

应该理解，图1中的用户终端和服务平台的数目仅仅是示意性的。根据实现需要，可以具有任意数目的用户终端和服务平台。

实施例1

图2示出了舆情监测系统10的组成结构图，为了便于说明，仅示出与本发明实施例相关的部分：

在本发明实施例中，所述舆情监测系统10包括：

识别信息获取单元11，用于接收上传端的文件上传请求，发送应用程序识别码获取指令，并基于应用程序识别码获取识别信息；其中，所述识别信息包括用户信息以及文件类型；

识别信息获取单元本系统的初始单元，用于接收上传端的文件上传请求，这里的上传端其实就是用户终端，举例来说，如果所述用户终端可以为智能手机，当用户使用它来上传文件时，那么它就称为上传端，上传过程一般会用于应用程序，在智能手机，就是我们常说的APP，这些APP都有对应的运营公司，对应运营公司一定存在着用户信息数据库以及文件的数据结构库，在接收到上传端的文件上传请求后，发送应用程序识别码获取指令，这里是应用程序识别码获取指令，即，权限是默认拥有的，这是因为需要舆情检测的一方往往权限都比较高；

所述应用程序识别码是一种通行证，通过应用程序识别码可以访问运营公司的用户信息数据库以及文件的数据结构库，进而获取识别信息；其中，所述识别信息包括用户信息以及文件类型，所述用户信息就是用户注册信息，而文件类型一般通过文件后缀名来判断，至于文件后缀名，不同公司有着不同的定义方式，这属于数据结构库中的内容。

粗识别单元12，用于基于所述文件类型进行文件粗识别，并确认处理措施；所述粗识别单元至少包括文本识别模块、音频识别模块以及视频识别模块；

粗识别单元至少包括文本识别模块、音频识别模块以及视频识别模块，当然，在此基础上会有拓展，拓展的内容不属于本发明涉及的内容，这里不做讨论；文本识别模块用于识别文本文件，音频识别模块用于识别音频文件，视频识别模块用于识别视频文件，三个模块的核心是文本识别模块，因为文本识别模块是音频识别模块的基础，音频识别模块是视频识别模块的基础，具体见下述内容。

风险检测单元13，用于接收下载端的文件下载请求，确认下载端发送下载请求的应用程序，基于确认结果发送相应的文件；

风险检测单元的目的较为简单，核心功能是确认下载端发送下载请求的应用程序，像上传端发送文件上传请求一样，都是通过应用程序去发送的，这里的确认过程是一种判断过程，即，判断上传端发送文件上传请求所用的APP与下载端发送下载请求所用的APP是否“相同”，只有“相同”，才会发送对应文件，在某种意义上，这也是一种防火墙；这里的相同是带引号的，其意义在于，不同公司之间往往会有业务往来，自然的，也会有相应的协议，那么，隶属于同一协议的应用程序便视为“相同”的。

细识别单元14，用于判断下载端是否发送文件分享请求，基于判断结果生成文件传播指数，基于所述文件传播指数对所述文件进行细识别，并确认处理措施；

细识别单元共有两大部分，一是生成文件传播指数，二是进行细识别，所述文件传播指数生成过程是所述细识别过程的条件；文件传播指数是看分享端，所述分享端也是用户终端的一种，基于分享的目的将此类用户终端定义为分享端，分享端的结构类似于树状图，如果每一个分享端仅向另一个分享端发送，那只能是一种传递，但如果每一个分享端都向另外两个分享端进行分享，那么传播速度便是指数型的，这种传播速度是非常快的，当然，不同分享端采取的措施肯定不同，有些不会继续分享，有些会分享的很多，易于想到，文件传播指数的生成准确度取决于分享端级数。

图3示出了舆情监测系统中识别信息获取单元11的组成结构图，所述识别信息获取单元11包括：

用户信息确认模块111，用于基于所述应用程序识别码建立与用户信息数据库的连接通道，获取用户信息；

如上述内容所述，所述应用程序识别码作为通行证，访问运营公司的用户信息数据库，进而获取用户信息，所述用户信息可以包括身份信息，联系方式等，这取决于该运营公司是否有实名认证过程。

文件类型确认模块112，用于基于所述应用程序识别码建立与文件格式数据库的连接通道，获取不同类型文件的后缀名，基于所述后缀名确认文件类型；其中，所述文件类型包括文本文件、音频文件及视频文件；

文件格式数据库是数据结构库的子数据库，通过所述应用程序识别码访问所述文件格式数据库，确认不同文件的后缀名，在接收到上传端上传的文件时，很容易判断出文件类型；当然，后缀名并不是唯一的方式，文件类型的判断方式有很多种，通过文件后缀名进行判断是最常见的方式。

图4为粗识别单元12中的文本识别模块121的组成结构图，所述文本识别模块121用于识别文本文件，所述文本识别模块121包括：

分句模块1211，用于遍历文本文件中的文本信息，获取分隔符位置，基于所述分隔符位置将所述文本信息转换为字符串数组，并获取字符串总数；

分句模块的目的是将文本信息分离成单句，再进行后续操作；这里的单句并非是汉语意义上的句子，确切的说，一切使用分隔符隔开的字符组便是我们要的单句，在正常文本信息中，检测普通的标点符号便可以胜任这一过程；通过分隔符对文本信息进行分离，并将相邻字符组连接成字符串，多个字符串连接成字符串数组，便于后续处理；相应的，字符串总数也是非常容易获取的。

敏感度计算模块1212，用于建立与敏感词汇库的连接通道，基于所述敏感词汇库遍历字符串数组，获取敏感字符串数，并生成文件敏感度；所述文件敏感度的计算公式为：文件敏感度=（敏感字符串数/字符串总数）*100%；

敏感度计算模块的目的是生成文件敏感度，值得一提的是，如果有这样的一种文本信息，全文只有头尾具有分隔符，即，只有一句话，并且它也有敏感词，那么它的敏感字符串数和字符串总数都为一，相应的文件敏感度便为100%；还有一点，敏感度计算模块是基于所述敏感词汇库遍历字符串数组的，重点在于敏感词汇，并不是敏感字，这二者是不同的，敏感词汇的限制范围会小很多；获取敏感字符串数这个过程就是检测字符串中是否有敏感词，如果有，那么它就是敏感字符串，当遍历完成后，可以得出敏感字符串数。

第一处理模块1213，用于确认敏感阈值，判断文件敏感度与敏感阈值大小，基于判断结果确认处理措施；

敏感阈值是一个预设值，它是可以更改的，判断文件敏感度与敏感阈值大小，若文件敏感度小于敏感阈值，那么在粗识别过程中将它作为无害的，易于想到，具备敏感词汇的单句是一定无法通过验证的。

图5为粗识别单元12中的音频识别模块122的组成结构图，所述音频识别模块122用于识别音频文件，所述音频识别模块122包括：

解压缩模块1221，用于将所述音频文件解压缩，生成纯波形文件；

一般的音频输入均为时域波形，我们知道声音实际上是一种波，常见的mp3、wmv等格式都是压缩格式，必须转成非压缩的纯波形文件。

分帧模块1222，用于将所述纯波形文件静音切除并分帧，生成多段语音；

静音切除是对时域波形的一种常用操作，目的是减少干扰，这是普通的信号处理技术；时域波形必须要分帧，也就是把波形切开成一小段一小段，每小段称为一帧，分帧操作通常使用移动窗函数来实现，当然，分帧之前还有一些预处理操作，这并非本发明的内容，这里不进行详述。

特征提取模块1223，用于对所述多段语音进行纯声学特征提取，生成特征矩阵；

波形在时域上几乎没有描述能力，因此必须将波形转换，最最常见的一种变换方法便是提取MFCC特征，把每一帧波形变成一个向量，这个向量是12维的，也可以称之为矩阵，这种提取方法是根据人耳的生理特性提取的，这样一来，就将音频信息转变为了可以计算的数据，当然，在实际应用中，还有很多细节，这里不再详述。

信息确认模块1224，用于基于所述特征矩阵确认文本信息，并将所述文本信息向文本识别模块发送。

基于特征矩阵确认文本信息是一种比较成熟的现有技术，概述的说，就是把帧识别成状态，这是难点，然后把状态组合成音素，最后，再把音素组合成单词，现在有许多算法可以完成这些过程，本发明不再细述；本发明的重点是将所述文本信息向文本识别模块发送，这一步的目的是，将音频信息转变为文本信息，借助文本识别模块来进行信息识别，这样的好处是，改变文本识别模块的性能便改变了音频识别模块的性能，便于后期维护管理。

图6为粗识别单元12中的视频识别模块123的组成结构图，所述视频识别模块123用于识别视频文件，所述视频识别模块123包括：

音频提取模块1231，用于提取所述视频文件中的音频文件，向所述音频识别模块发送；

视频文件一般都包括音频文件，音频提取模块便是起到提取音频文件的作用，提取音频文件后，自然便交由音频识别模块完成后续过程。

数组生成模块1232，用于顺序读取视频文件中的图片，对所述图片进行灰度转换，并计算相应的灰度平均值，基于所述灰度平均值生成灰度数组；

视频文件中是有很多图片组成的，这是视频文件的组成原理，这些图片的突变便是不同场景的更替，在RGB色值条件下，图片的参数有三个，这在后续处理是很麻烦的，因此，对所述图片进行灰度转换，是常见的一种图片处理方式，在进行灰度转换后，紧接着计算图片中各像素的灰度平均值，这个值就保存着图片的特征；视频文件是图片的顺序排列，将每一张图片的灰度平均值计算出来后，按所述顺序进行排列，即可生成灰度数组。

图片提取模块1233，用于确认跳动值，遍历所述灰度数组，判断相邻元素间的差值与跳动值的大小，基于判断结果确认相应图片并进行风险识别；

跳动值是预设值，可以更改，遍历所述灰度数组，判断相邻元素间的差值与跳动值的大小，所述相邻元素即相邻图片的灰度平均值，当所述相邻元素间的差值大于跳动值时，就说明相邻图片的改变较大，从宏观上来说，视频中发生了场景更替，处于场景更替处的图片变是视频文件中的重要图片信息，最终，图片提取模块实现了对视频文件的图片提取；对这些图片的风险识别过程不属于本发明的重点内容，但可以想到，这并不是很难的事情，因为现在有许多软件都可以完成图片识别的功能。

第二处理模块1234，用于基于风险识别结果确认处理措施；

第二处理模块是图片识别结果，至于图片中的音频识别属于音频识别模块的内容，需要说明的是，音频识别过程与图片识别过程是与的关系，任一个过程没有通过验证都是无法进行传播的。

图7为舆情监测系统10中细识别单元14的结构示意图，所述细识别单元14包括：

第一追踪模块141，用于判断下载端是否发送文件分享请求，若接收到下载端发送的文件分享请求，则获取相应的分享数并将所述文件向分享端发送；

接收到下载端发送的文件分享请求后，自然要对分享对象进行追踪，在这一过程中，获取相应的分享数是很容易的，值得一提的是，第一追踪模块一旦开始工作，就说明文件通过了粗识别单元的识别过程，所以并将所述文件向分享端发送是正常过程。

第二追踪模块142，用于判断分享端是否发送文件分享请求，若接收到分享端发送的文件分享请求，则获取相应的分享数并将所述文件向下一个分享端发送；

第二追踪模块实际上是一个循环模块，循环次数为预设值，它的目的是要检测同一文件分享了多少次，换而言之，分享过程是一个树状图，不断的进行分支，每一个分享端都是一个节点，第二追踪模块的目的是获取不同节点对应的分支度，并基于这些分支度确认传播次数；值得一提的是，若某级分享端的分享数为零，那么它的传播度为零，无须进行细识别。

判断模块143，用于计算分享数的平均值，所述平均值即为文件传播指数，确认指数阈值，判断所述文件传播指数与所述指数阈值大小，若所述文件传播指数大于所述指数阈值，则进行细识别；

判断模块包括一个计算过程，即，计算分享数的平均值，所述分享数的平均值的计算过程实际上有两个，一是同一级分享端的不同分享数的平均值，二是不同级分享端分享数平均值的平均值，最终生成的分享数的平均值是指不同级分享端分享数平均值的平均值，这个值就是文件传播指数；举例来说，如果第一分享端向三个第二分享端分享，每个第二分享端又像三个第三分享端分享，最终计算出的分享数的平均值就是3，即，文件传播指数为3；所述指数阈值为预设值，可以更改。

图8为细识别单元14中绝对识别模块144的结构示意图，所述细识别单元14还包括绝对识别模块144，所述绝对识别模块144用于检测文本文件；

绝对识别模块一旦运行，就说明文件传播速度很快，它的识别要求远大于文本识别模块。

敏感字确认模块1441，用于建立与敏感字库的连接通道，以单字为单位遍历所述文本文件中的文本信息，确认敏感字及其敏感地址；

敏感字确认模块的目的是检测敏感字，一个文本文件中会有许多个敏感字，显然，这些敏感字并非都是不能传播的，因此，后续过程要对这些敏感字进行筛选，这就需要确认敏感地址；

敏感词生成模块1442，用于基于敏感地址获取待检词汇，建立与敏感词汇库的连接通道，基于敏感词汇库判断所述待检词汇是否为敏感词，基于判断结果生成敏感词数；

以敏感字确认待检词汇的方式不唯一，这里举出一种确认方式：从敏感字向前获取两个字，再向后获取两个字，对所述五个字符进行组合，共有四个二字词，三个三字词，两个四字词以及一个五字词，对这些词汇均进行如文本识别模块中所述的敏感词汇检测；当然，也可以从敏感字向前获取一个字，再向后获取一个字，这都是可以的；对所有敏感字进行检测，最终生成敏感词数；

第三处理模块1443，用于确认词数阈值，判断敏感词数与词数阈值大小，基于判断结果确认处理措施；

第三处理模块的处理过程与第一处理模块的处理过程也是不同的，第三处理模块比对的是绝对词数，而第一处理模块比对的是相对数值，这两者有很大的区别。

实施例2

图9示出了舆情监测方法的流程框图，为了便于说明，仅示出与本发明实施例相关的部分：

一种舆情监测系统，所述方法具体包括：

步骤S1：接收上传端的文件上传请求，发送应用程序识别码获取指令，并基于应用程序识别码获取识别信息；其中，所述识别信息包括用户信息以及文件类型；

所述步骤S1由识别信息获取单元完成；

步骤S2：基于所述文件类型进行文件粗识别，并确认处理措施；

所述步骤S2由粗识别单元完成；

步骤S3：接收下载端的文件下载请求，确认下载端发送下载请求的应用程序，基于确认结果发送相应的文件；

所述步骤S3由风险检测单元完成；

步骤S4：判断下载端是否发送文件分享请求，基于判断结果生成文件传播指数，基于所述文件传播指数对所述文件进行细识别，并确认处理措施；

所述步骤S4由细识别单元完成。

上述舆情监测系统所能实现的功能均由计算机设备完成，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条程序代码，所述程序代码由所述一个或多个处理器加载并执行以实现所述舆情监测系统的功能。

处理器从存储器中逐条取出指令、分析指令，然后根据指令要求完成相应操作，产生一系列控制命令，使计算机各部分自动、连续并协调动作，成为一个有机的整体，实现程序的输入、数据的输入以及运算并输出结果，这一过程中产生的算术运算或逻辑运算均由运算器完成；所述存储器包括只读存储器(Read-Only Memory，ROM)，所述只读存储器用于存储计算机程序，所述存储器外部设有保护装置。

示例性的，计算机程序可以被分割成一个或多个模块，一个或者多个模块被存储在存储器中，并由处理器执行，以完成本发明。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序在终端设备中的执行过程。

本领域技术人员可以理解，上述服务设备的描述仅仅是示例，并不构成对终端设备的限定，可以包括比上述描述更多或更少的部件，或者组合某些部件，或者不同的部件，例如可以包括输入输出设备、网络接入设备、总线等。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列 (Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，上述处理器是上述终端设备的控制中心，利用各种接口和线路连接整个用户终端的各个部分。

上述存储器可用于存储计算机程序和/或模块，上述处理器通过运行或执行存储在存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现上述终端设备的各种功能。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如信息采集模板展示功能、产品信息发布功能等）等；存储数据区可存储根据泊位状态显示系统的使用所创建的数据（比如不同产品种类对应的产品信息采集模板、不同产品提供方需要发布的产品信息等）等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡（Smart Media Card， SMC），安全数字（Secure Digital， SD）卡，闪存卡（Flash Card）、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例系统中的全部或部分模块/单元，也可以通过计算机程序来指令相关的硬件来完成，上述的计算机程序可存储于计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个系统实施例的功能。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random AccessMemory）、电载波信号、电信信号以及软件分发介质等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种舆情监测系统，其特征在于，所述系统包括：

细识别单元，用于判断下载端是否发送文件分享请求，基于判断结果生成文件传播指数，基于所述文件传播指数对所述文件进行细识别，并确认处理措施；

所述细识别单元包括：

追踪模块，用于判断下载端是否发送文件分享请求，若接收到下载端发送的文件分享请求，则获取相应的分享数并将所述文件向分享端发送；

第二追踪模块，用于判断分享端是否发送文件分享请求，若接收到分享端发送的文件分享请求，则获取相应的分享数并将所述文件向下一个分享端发送；

判断模块，用于计算分享数的平均值，所述平均值即为文件传播指数，确认指数阈值，判断所述文件传播指数与所述指数阈值大小，若所述文件传播指数大于所述指数阈值，则进行细识别；

其中，所述第二追踪模块用于获取树状分享过程中不同节点的分支度，所述分支度为所述分享数。

2.根据权利要求1所述的舆情监测系统，其特征在于，所述识别信息获取单元包括：

用户信息确认模块，用于基于所述应用程序识别码建立与用户信息数据库的连接通道，获取用户信息；

文件类型确认模块，用于基于所述应用程序识别码建立与文件格式数据库的连接通道，获取不同类型文件的后缀名，基于所述后缀名确认文件类型；其中，所述文件类型包括文本文件、音频文件及视频文件。

3.根据权利要求2所述的舆情监测系统，其特征在于，所述文本识别模块用于识别文本文件，所述文本识别模块包括：

分句模块，用于遍历文本文件中的文本信息，获取分隔符位置，基于所述分隔符位置将所述文本信息转换为字符串数组，并获取字符串总数；

敏感度计算模块，用于建立与敏感词汇库的连接通道，基于所述敏感词汇库遍历字符串数组，获取敏感字符串数，并生成文件敏感度；

处理模块，用于确认敏感阈值，判断文件敏感度与敏感阈值大小，基于判断结果确认处理措施。

4.根据权利要求2所述的舆情监测系统，其特征在于，所述音频识别模块用于识别音频文件，所述音频识别模块包括：

解压缩模块，用于将所述音频文件解压缩，生成纯波形文件；

分帧模块，用于将所述纯波形文件静音切除并分帧，生成多段语音；

特征提取模块，用于对所述多段语音进行纯声学特征提取，生成特征矩阵；

信息确认模块，用于基于所述特征矩阵确认文本信息，并将所述文本信息向文本识别模块发送。

5.根据权利要求3所述的舆情监测系统，其特征在于，所述视频识别模块用于识别视频文件，所述视频识别模块包括：

音频提取模块，用于提取所述视频文件中的音频文件，向所述音频识别模块发送；

数组生成模块，用于顺序读取视频文件中的图片，对所述图片进行灰度转换，并计算相应的灰度平均值，基于所述灰度平均值生成灰度数组；

图片提取模块，用于确认跳动值，遍历所述灰度数组，判断相邻元素间的差值与跳动值的大小，基于判断结果确认相应图片并进行风险识别；

第二处理模块，用于基于风险识别结果确认处理措施。

6.根据权利要求1所述的舆情监测系统，其特征在于，所述细识别单元还包括绝对识别模块，所述绝对识别模块用于检测文本文件；

敏感字确认模块，用于建立与敏感字库的连接通道，以单字为单位遍历所述文本文件中的文本信息，确认敏感字及其敏感地址；

敏感词生成模块，用于基于敏感地址获取待检词汇，建立与敏感词汇库的连接通道，基于敏感词汇库判断所述待检词汇是否为敏感词，基于判断结果生成敏感词数；

第三处理模块，用于确认词数阈值，判断敏感词数与词数阈值大小，基于判断结果确认处理措施。

7.一种舆情监测方法，其特征在于，所述方法应用于舆情监测系统，所述方法具体包括：

基于所述文件类型进行文件粗识别，并确认处理措施；

判断下载端是否发送文件分享请求，基于判断结果生成文件传播指数，基于所述文件传播指数对所述文件进行细识别，并确认处理措施；

所述判断下载端是否发送文件分享请求，基于判断结果生成文件传播指数，基于所述文件传播指数对所述文件进行细识别，并确认处理措施的内容包括：

判断下载端是否发送文件分享请求，若接收到下载端发送的文件分享请求，则获取相应的分享数并将所述文件向分享端发送；

判断分享端是否发送文件分享请求，若接收到分享端发送的文件分享请求，则获取相应的分享数并将所述文件向下一个分享端发送；

计算分享数的平均值，所述平均值即为文件传播指数，确认指数阈值，判断所述文件传播指数与所述指数阈值大小，若所述文件传播指数大于所述指数阈值，则进行细识别；

其中，所述判断分享端是否发送文件分享请求，若接收到分享端发送的文件分享请求，则获取相应的分享数并将所述文件向下一个分享端发送的步骤用于获取树状分享过程中不同节点的分支度，所述分支度为所述分享数。

8.一种计算机设备，其特征在于，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条程序代码，所述程序代码由所述一个或多个处理器加载并执行时，实现如权利要求1至6中任一项权利要求所述舆情监测系统的功能。

9.一种计算机存储介质，其特征在于，所述计算机存储介质中存储有至少一条程序代码，所述程序代码由处理器加载并执行时，实现如权利要求1-6中任一项权利要求所述舆情监测系统的功能。