CN114417162A

CN114417162A - 一种基于大数据的数据处理方法

Info

Publication number: CN114417162A
Application number: CN202210071744.7A
Authority: CN
Inventors: 朱旭龙
Original assignee: Individual
Current assignee: Individual
Priority date: 2022-01-21
Filing date: 2022-01-21
Publication date: 2022-04-29

Abstract

本发明涉及大数据处理技术领域，具体公开了一种基于大数据的数据处理方法，所述方法包括接收用户发送的含有用户信息的上传数据，对所述上传数据进行数据转换，得到待检数据；对所述待检数据进行内容识别，根据内容识别结果对所述待检数据进行加密；根据所述用户信息确定上传数据的预测传播值，根据所述预测传播值确定脱敏级别，根据所述脱敏级别对加密后的待检数据进行解密。本发明对用户上传的数据进行加密，然后根据用户的传播能力，对所述数据进行解密，适应力强，对于不同的用户有着不同的评判标准，因人而异，极大地降低了“误伤”的概率。

Description

一种基于大数据的数据处理方法

技术领域

本发明涉及大数据处理技术领域，具体是一种基于大数据的数据处理方法。

背景技术

目前，基于大数据的数据处理和分析方法的应用十分广泛，比如目前主流的基于数据挖掘的推荐引擎APP会对用户的浏览历史进行数据处理，得到用户可能的感兴趣数据，然后向用户推送相关的内容。

在上述过程中，内容监管是非常重要的一项内容，现有的技术方案大都采取“一刀切”的方式，这造成了很多“误伤”的情况，这种方式会降低用户的分享积极性，不利于网络良好环境的构建。

发明内容

本发明的目的在于提供一种基于大数据的数据处理方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种基于大数据的数据处理方法，所述方法包括：

接收用户发送的含有用户信息的上传数据，对所述上传数据进行数据转换，得到待检数据；其中，所述待检数据包括含有时间项的文本数据和含有时间项的图像数据；

对所述待检数据进行内容识别，根据内容识别结果对所述待检数据进行加密；

根据所述用户信息确定上传数据的预测传播值，根据所述预测传播值确定脱敏级别，根据所述脱敏级别对加密后的待检数据进行解密；

将解密后的待检数据上传至云端并开放下载端口，实时监测下载指数，根据所述下载指数修正所述脱敏级别。

作为本发明进一步的方案：所述接收用户发送的含有用户信息的上传数据，对所述上传数据进行数据转换，得到待检数据的步骤包括：

统计所述上传数据的格式信息，根据所述格式信息确定数据类型；其中，所述数据类型包括文本数据、音频数据、图像数据和视频数据；

当所述数据类型为音频数据时，将所述音频数据转换为文本数据；

当所述数据类型为图像数据时，对所述图像数据进行文本检测，得到文本数据和剔除文本数据的图像数据；

当所述数据类型为视频数据时，将所述视频数据转换为音频数据和图像数据组，将相应的音频数据转换为文本数据，将相应的图像数据组转换为文本数据组和剔除文本数据的图像数据组。

作为本发明进一步的方案：所述当所述数据类型为音频数据时，将所述音频数据转换为文本数据的步骤包括：

将所述音频数据输入训练好的解压缩模型，得到纯波形文件；

将所述纯波形文件静音切除并分帧，生成多段语音；

对所述多段语音进行纯声学特征提取，生成特征矩阵；

基于所述特征矩阵确定文本数据。

作为本发明进一步的方案：所述当所述数据类型为图像数据时，对所述图像数据进行文本检测，得到文本数据和剔除文本数据的图像数据的步骤包括：

对图片进行文本检测，获得标识所述图片中文本行位置的候选框，以及各所述候选框对应的原始置信度；

根据所述原始置信度将所述候选框标记为识别框；其中，所述识别框包括端点参数；

基于所述识别框对所述图像数据进行文本检测，得到文本数据；

拷贝所述图像数据，根据所述端点参数在拷贝后的图像数据中删除识别框区域，得到剔除文本数据的图像数据。

作为本发明进一步的方案：所述根据所述原始置信度将所述候选框标记为识别框的步骤包括：

在存在交集区域的所述候选框中选取所述原始置信度最大的所述候选框作为第一候选框，其他任一所述候选框作为第二候选框，根据所述第一候选框与所述第二候选框的所述交集区域的尺寸以及闭包区域的尺寸，计算所述第二候选框的损失参数；

计算所述第一候选框与所述第二候选框的原始交并比，根据所述第二候选框的损失参数修正所述原始交并比，获得修正交并比；

根据所述修正交并比和所述第二候选框的原始置信度计算所述第二候选框的修正置信度；

判断所述第二候选框的修正置信度是否满足置信度条件，若满足，则将所述第一候选框及所述第二候选框均作为识别文本框。

作为本发明进一步的方案：所述根据所述第一候选框与所述第二候选框的所述交集区域的尺寸以及闭包区域的尺寸，计算所述第二候选框的损失参数的步骤包括：

获取所述交集区域的宽度和高度，以及所述闭包区域的宽度和高度；

根据所述交集区域与所述闭包区域的高度比，以及所述交集区域与所述闭包区域的宽度比，计算所述第二候选框的损失参数。

作为本发明进一步的方案：所述根据所述修正交并比和所述第二候选框的原始置信度计算所述第二候选框的修正置信度的步骤包括：

根据所述修正交并比计算所述第二候选框的衰减权值；

根据所述第二候选框的衰减权值修正所述第二候选框的原始置信度，获得所述第二候选框的修正置信度。

作为本发明进一步的方案：所述对所述待检数据进行内容识别，根据内容识别结果对所述待检数据进行加密的步骤包括：

当所述待检数据为文本数据时，建立与预设的敏感字库之间的连接通道；

剔除所述文本数据中的分隔符，得到文本内容，依次提取所述文本内容中的单字，以所述单字为单位遍历所述敏感字库，确定敏感字及其敏感地址；

基于敏感地址获取待检词汇，建立与敏感词汇库的连接通道，基于敏感词汇库判断所述待检词汇是否为敏感词；

当所述待检词汇为敏感词时，获取敏感词的敏感度，根据所述敏感度对文本数据进行含有加密级别的加密。

当所述待检数据为图像数据时，对所述图像数据进行轮廓识别，得到物体轮廓；

对所述物体轮廓进行完整度分析，得到轮廓完整度；

当所述轮廓完整度达到预设的完整度阈值时，将相应的物体轮廓标记为前景物体，当所述轮廓完整度小于预设的完整度阈值时，将相应的物体轮廓标记为背景物体；

根据所述背景物体确定图像数据的类别，基于类别对所述前景物体进行内容识别，根据内容识别结果对图像数据进行加密。

作为本发明进一步的方案：所述方法还包括：

当内容识别过程发生错误时，向用户发送预设的文件评价表，获取用户评价信息；

根据所述用户评价信息查询相似内容，基于所述相似内容确定参考数据库；

基于所述参考数据库对所述待检数据进行二次识别。

与现有技术相比，本发明的有益效果是：本发明对用户上传的数据进行加密，然后根据用户的传播能力，对所述数据进行解密，适应力强，对于不同的用户有着不同的评判标准，因人而异，极大地降低了“误伤”的概率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例。

图1为基于大数据的数据处理方法的流程框图。

图2为基于大数据的数据处理方法的第一子流程框图。

图3为基于大数据的数据处理方法的第二子流程框图。

图4为基于大数据的数据处理方法的第三子流程框图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例1

图1为基于大数据的数据处理方法的流程框图，本发明实施例中，一种基于大数据的数据处理方法，所述方法包括步骤S100至步骤S400：

步骤S100：接收用户发送的含有用户信息的上传数据，对所述上传数据进行数据转换，得到待检数据；其中，所述待检数据包括含有时间项的文本数据和含有时间项的图像数据；

为了更好的说明本发明技术方案的技术特征，举一个实例来对步骤S100至步骤S400进行具体的说明；本发明技术方案应用于交互式软件中，一方面，该软件向用户推送数据，另一方面，它可以接收用户的上传数据，当该软件的用户数量较少时，推送的数据大部分是后台工作人员转载的数据，当该软件的用户数量软多时，推送的数据大部分是用户上传的数据。可以想到，在交互式软件中，信息监管环节的重要性很高，现有的信息监管方式主要是“一刀切”的方式，对于不符合软件要求的数据全都采取限流或删除的方式，这种方式有时候会“误伤”一些实际上符合要求的上传数据；此外，在不同软件中，软件要求是不同的，比如，对竞争对手的宣传信息，一般都不会允许上传，对于上传者来说，很难全面地了解软件要求，因此，上述“误伤”的情况非常普遍。

步骤S200：对所述待检数据进行内容识别，根据内容识别结果对所述待检数据进行加密；

步骤S300：根据所述用户信息确定上传数据的预测传播值，根据所述预测传播值确定脱敏级别，根据所述脱敏级别对加密后的待检数据进行解密；

步骤S200至步骤S300对待检数据的加密过程与解密过程进行了进一步的限定，其中，预测传播值通过用户信息，所述用户信息包括账户等级、用户年龄、用户好友量等等，每个用户的传播能力是不同的，对于传播能力强的用户，解密的内容会少一些，这也就意味着，该用户上传的数据将会受到更加严格的管控；

步骤S400：将解密后的待检数据上传至云端并开放下载端口，实时监测下载指数，根据所述下载指数修正所述脱敏级别；

预测传播值是一个理论值，由预测传播模型生成，所述预测传播模型由样本-拟合法确定；需要说明的是，本发明技术方案将缓存过程也视为下载过程，根据下载端口确定下载指数，下载指数是实际的预测传播值，当预测传播模型的准确度足够时，通过下载指数对理论的预测传播值进行修正的幅度较小。

图2为基于大数据的数据处理方法的第一子流程框图，所述接收用户发送的含有用户信息的上传数据，对所述上传数据进行数据转换，得到待检数据的步骤包括步骤S101至步骤S104：

步骤S101：统计所述上传数据的格式信息，根据所述格式信息确定数据类型；其中，所述数据类型包括文本数据、音频数据、图像数据和视频数据；

步骤S102：当所述数据类型为音频数据时，将所述音频数据转换为文本数据；

步骤S103：当所述数据类型为图像数据时，对所述图像数据进行文本检测，得到文本数据和剔除文本数据的图像数据；

步骤S104：当所述数据类型为视频数据时，将所述视频数据转换为音频数据和图像数据组，将相应的音频数据转换为文本数据，将相应的图像数据组转换为文本数据组和剔除文本数据的图像数据组。

上传数据的格式信息有很多种，每种软件都会有自己独特的文件后缀名，但是，从宏观上来说，现有的交互式软件中传播的数据主要分为四大类，分别是文本数据、音频数据、图像数据和视频数据，其中，音频数据可以转换为文本数据，视频数据可以转换为音频数据和多帧图像数据。此外，图像数据中也存在文本数据。

图3为基于大数据的数据处理方法的第二子流程框图，所述当所述数据类型为音频数据时，将所述音频数据转换为文本数据的步骤包括步骤S1031至步骤S1034：

步骤S1031：将所述音频数据输入训练好的解压缩模型，得到纯波形文件；

步骤S1032：将所述纯波形文件静音切除并分帧，生成多段语音；

步骤S1033：对所述多段语音进行纯声学特征提取，生成特征矩阵；

步骤S1034：基于所述特征矩阵确定文本数据。

一般的音频输入均为时域波形，我们知道声音实际上是一种波，常见的mp3、wmv等格式都是压缩格式，必须转成非压缩的纯波形文件；

静音切除是对时域波形的一种常用操作，目的是减少干扰，这是普通的信号处理技术；时域波形必须要分帧，也就是把波形切开成一小段一小段，每小段称为一帧，分帧操作通常使用移动窗函数来实现，当然，分帧之前还有一些预处理操作，这并非本发明的内容，这里不进行详述；

波形在时域上几乎没有描述能力，因此必须将波形转换，最最常见的一种变换方法便是提取MFCC特征，把每一帧波形变成一个向量，这个向量是12维的，也可以称之为矩阵，这种提取方法是根据人耳的生理特性提取的，这样一来，就将音频信息转变为了可以计算的数据，当然，在实际应用中，还有很多细节，这里不再详述；

基于特征矩阵确认文本信息是一种比较成熟的现有技术，概述的说，就是把帧识别成状态，这是难点，然后把状态组合成音素，最后，再把音素组合成单词，现在有许多算法可以完成这些过程，本发明不再细述；本发明的重点是将所述文本信息向文本识别模块发送，这一步的目的是，将音频信息转变为文本信息，借助文本识别模块来进行信息识别，这样的好处是，改变文本识别模块的性能便改变了音频识别模块的性能，便于后期维护管理。

进一步的，所述当所述数据类型为图像数据时，对所述图像数据进行文本检测，得到文本数据和剔除文本数据的图像数据的步骤包括：

上述内容对根据图像数据确定文本数据的步骤进行了具体的说明，在现有技术中，对于图像进行文本检测的过程包括两步，首先，对文本位置进行定位，然后再进行识别。

具体的，所述根据所述原始置信度将所述候选框标记为识别框的步骤包括：

选取候选框的技术方案有很多，但现有的所有技术方案都无法保证一定是准确的，对这些技术方案的评估参数是置信度，相应的，候选框作为二维置信区间；值得一提的是，对于一张图片来说，候选框有可能出现重叠，对于重叠的候选框，需要进行进一步的判断，判断方式就是基于交并比判断候选框的重叠范围大小，如果重叠范围过大，就可以合并重叠的候选框，统一进行识别，如果重叠范围并不大，那么就需要单独进行识别。

在本发明技术方案的一个实例中，所述根据所述第一候选框与所述第二候选框的所述交集区域的尺寸以及闭包区域的尺寸，计算所述第二候选框的损失参数的步骤包括：

在本发明技术方案的一个实例中，所述根据所述修正交并比和所述第二候选框的原始置信度计算所述第二候选框的修正置信度的步骤包括：

根据所述修正交并比计算所述第二候选框的衰减权值；

图4为基于大数据的数据处理方法的第三子流程框图，所述对所述待检数据进行内容识别，根据内容识别结果对所述待检数据进行加密的步骤包括步骤S201至步骤S204：

步骤S201：当所述待检数据为文本数据时，建立与预设的敏感字库之间的连接通道；

步骤S202：剔除所述文本数据中的分隔符，得到文本内容，依次提取所述文本内容中的单字，以所述单字为单位遍历所述敏感字库，确定敏感字及其敏感地址；

步骤S201和步骤S202的目的是识别敏感字，首先，将文本数据中的分隔符删除，得到纯文本文件，然后依次的对纯文本文件中的单字进行识别。根据识别结果标记敏感字，还需要获取相应的敏感地址。

步骤S203：基于敏感地址获取待检词汇，建立与敏感词汇库的连接通道，基于敏感词汇库判断所述待检词汇是否为敏感词；

以敏感字为中心，确定待检词汇，所述待检词汇可以为双字词，也可以为三字词或是多字词，具体不做限定，基于敏感词库可以判断该待检词汇是否为敏感词。

步骤S204：当所述待检词汇为敏感词时，获取敏感词的敏感度，根据所述敏感度对文本数据进行含有加密级别的加密。

不同敏感词或敏感字的敏感程度是不同的，因此，对于不同敏感词或敏感字来说，加密级别也是不同的，根据用户的传播值进行不同程度的解密；可以看出，本发明技术方案采用的数据加密方式是逆过程，这与传统的技术方案是不同的，在本发明技术方案中，统一对上传数据进行严格的加密，然后根据用户信息进行适应性解密，传统技术方案是根据用户信息进行适应性加密。

进一步的，所述对所述待检数据进行内容识别，根据内容识别结果对所述待检数据进行加密的步骤包括：

对所述物体轮廓进行完整度分析，得到轮廓完整度；

上述内容提供了一种具体的图像数据识别方式，轮廓完整度可以理解为图像轮廓的闭合程度，没有闭合的轮廓大都是背景轮廓，闭合的轮廓大都是前景轮廓，通过背景轮廓确定环境信息，基于环境信息对前景轮廓进行内容识别，进而进行加密。

其中，对于轮廓的识别方式大都是通过参考数据库进行比对。

实施例2

作为本发明技术方案的一个优选实施例，本发明实施例中，一种基于大数据的数据处理方法，所述方法还包括：

基于所述参考数据库对所述待检数据进行二次识别。

对于实施例1中的识别方式，尤其是图像识别方式，一定会出现无法识别的情况，对于这种情况，无论是直接加密又或者是直接进行传播都是不合适的，在上述内容中，向用户发送一个文件评价表，获取用户评价信息，根据所述用户评价信息确定相似内容，进而缩小识别过程的比对范围，从而提高识别能力。

当然，如果这样还是无法识别，那么可以采取人工识别的方式，作为最终解决途径。

所述基于大数据的数据处理方法所能实现的功能均由计算机设备完成，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条程序代码，所述程序代码由所述一个或多个处理器加载并执行以实现所述基于大数据的数据处理方法的功能。

处理器从存储器中逐条取出指令、分析指令，然后根据指令要求完成相应操作，产生一系列控制命令，使计算机各部分自动、连续并协调动作，成为一个有机的整体，实现程序的输入、数据的输入以及运算并输出结果，这一过程中产生的算术运算或逻辑运算均由运算器完成；所述存储器包括只读存储器（Read-Only Memory，ROM），所述只读存储器用于存储计算机程序，所述存储器外部设有保护装置。

示例性的，计算机程序可以被分割成一个或多个模块，一个或者多个模块被存储在存储器中，并由处理器执行，以完成本发明。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序在终端设备中的执行过程。

本领域技术人员可以理解，上述服务设备的描述仅仅是示例，并不构成对终端设备的限定，可以包括比上述描述更多或更少的部件，或者组合某些部件，或者不同的部件，例如可以包括输入输出设备、网络接入设备、总线等。

所称处理器可以是中央处理单元（Central Processing Unit，CPU），还可以是其他通用处理器、数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现成可编程门阵列（Field-Programmable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，上述处理器是上述终端设备的控制中心，利用各种接口和线路连接整个用户终端的各个部分。

上述存储器可用于存储计算机程序和/或模块，上述处理器通过运行或执行存储在存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现上述终端设备的各种功能。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如信息采集模板展示功能、产品信息发布功能等）等；存储数据区可存储根据泊位状态显示系统的使用所创建的数据（比如不同产品种类对应的产品信息采集模板、不同产品提供方需要发布的产品信息等）等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡（Smart Media Card， SMC），安全数字（Secure Digital， SD）卡，闪存卡（Flash Card）、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例系统中的全部或部分模块/单元，也可以通过计算机程序来指令相关的硬件来完成，上述的计算机程序可存储于计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个系统实施例的功能。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random AccessMemory）、电载波信号、电信信号以及软件分发介质等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于大数据的数据处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于大数据的数据处理方法，其特征在于，所述接收用户发送的含有用户信息的上传数据，对所述上传数据进行数据转换，得到待检数据的步骤包括：

3.根据权利要求2所述的基于大数据的数据处理方法，其特征在于，所述当所述数据类型为音频数据时，将所述音频数据转换为文本数据的步骤包括：

将所述纯波形文件静音切除并分帧，生成多段语音；

对所述多段语音进行纯声学特征提取，生成特征矩阵；

基于所述特征矩阵确定文本数据。

4.根据权利要求2所述的基于大数据的数据处理方法，其特征在于，所述当所述数据类型为图像数据时，对所述图像数据进行文本检测，得到文本数据和剔除文本数据的图像数据的步骤包括：

5.根据权利要求4所述的基于大数据的数据处理方法，其特征在于，所述根据所述原始置信度将所述候选框标记为识别框的步骤包括：

6.根据权利要求5所述的基于大数据的数据处理方法，其特征在于，所述根据所述第一候选框与所述第二候选框的所述交集区域的尺寸以及闭包区域的尺寸，计算所述第二候选框的损失参数的步骤包括：

7.根据权利要求5所述的基于大数据的数据处理方法，其特征在于，所述根据所述修正交并比和所述第二候选框的原始置信度计算所述第二候选框的修正置信度的步骤包括：

根据所述修正交并比计算所述第二候选框的衰减权值；

8.根据权利要求1所述的基于大数据的数据处理方法，其特征在于，所述对所述待检数据进行内容识别，根据内容识别结果对所述待检数据进行加密的步骤包括：

9.根据权利要求1所述的基于大数据的数据处理方法，其特征在于，所述对所述待检数据进行内容识别，根据内容识别结果对所述待检数据进行加密的步骤包括：

对所述物体轮廓进行完整度分析，得到轮廓完整度；

10.根据权利要求1至9任一项所述的基于大数据的数据处理方法，其特征在于，所述方法还包括：

基于所述参考数据库对所述待检数据进行二次识别。