CN115391295A

CN115391295A - 非结构化数据的处理方法、装置、存储介质和设备

Info

Publication number: CN115391295A
Application number: CN202211047030.9A
Authority: CN
Inventors: 丁一斐; 文国军; 张浩瑀; 黄雅男; 田心茹; 王子琦; 洪宇坤
Original assignee: Bank of China Ltd
Current assignee: Bank of China Ltd
Priority date: 2022-08-30
Filing date: 2022-08-30
Publication date: 2022-11-25

Abstract

本申请公开了一种非结构化数据的处理方法、装置、存储介质和设备，应用于大数据领域，该方法为：对非结构化数据进行解析，得到非结构化数据的类型、文件头信息和文件尾信息；基于非结构化数据的类型、文件头信息和文件尾信息，获得多个文件分片；将各个文件分片，分别存储到不同的存储节点中；从各个存储节点中获取符合预设要求的文件分片，标识为目标文件分片；在目标文件分片的文件属性不符合预设条件的情况下，重复对目标文件分片进行读取，以使文件属性不断更新，直至文件属性符合预设条件；基于各个目标文件分片，生成目标非结构化数据。本申请将非结构化数据以文件分片的形式，存储在存储节点中，使得非结构化数据的可读性得到有效提高。

Description

非结构化数据的处理方法、装置、存储介质和设备

技术领域

本申请涉及大数据领域，尤其涉及一种非结构化数据的处理方法、装置、存储介质和设备。

背景技术

目前，大数据平台经常使用海杜普(Hadoop)技术栈，来处理大数据平台中的海量数据。

然而，大数据平台不仅包含结构化数据和关系型数据，同时也包含大量的非结构化数据(例如图像、音频、视频等)，使用Hadoop技术栈处理非结构化数据时，会仅按照文件(数据通常以文件格式存储在大数据平台)大小进行切分并会破坏文件结构，使得每个文件缺乏可读性，在进行数据处理时仍需要读取整个文件，非常耗费资源。

发明内容

本申请提供了一种非结构化数据的处理方法、装置、存储介质和设备，目的在于提高非结构化数据的可读性，以避免在非结构化数据的读取过程中发生资源消耗。

为了实现上述目的，本申请提供了以下技术方案：

一种非结构化数据的处理方法，包括：

对第一用户上传的非结构化数据进行解析，得到所述非结构化数据的类型、文件头信息以及文件尾信息；

基于所述非结构化数据的类型、文件头信息以及文件尾信息，获得所述非结构化数据的多个文件分片；

将各个所述文件分片，分别存储到不同的存储节点中；

在接收到第二用户发送的数据读取指令后，从各个所述存储节点中获取符合预设要求的文件分片，标识为目标文件分片；所述预设要求为：文件分片包含有所述数据读取指令所示文件头信息和文件尾信息；

对于获取得到的每个所述目标文件分片，在所述目标文件分片的文件属性不符合预设条件的情况下，重复对所述目标文件分片进行读取，以使所述文件属性不断更新，直至所述文件属性符合所述预设条件；所述预设条件为：所述文件属性所示的分辨率大于预设分辨率阈值，且所述文件属性所示的码率大于预设码率阈值；

基于各个所述目标文件分片，生成目标非结构化数据，并将所述目标非结构化数据发送给所述第二用户。

可选的，所述基于所述非结构化数据的类型、文件头信息以及文件尾信息，获得所述非结构化数据的多个文件分片，包括：

在所述非结构化数据的类型为图像的情况下，对所述非结构化数据所示的图像进行特征提取，得到多个特征图像；

对各个所述特征图像进行下采样，得到各个有效特征图像；

对于每个所述有效特征图像，将所述文件头信息、所述文件尾信息以及所述有效特征图像进行组合，生成所述非结构化数据的文件分片。

在所述非结构化数据的类型为音频和视频的情况下，对所述非结构化数据进行时间采样，得到播放时间相等、且内容不同的多个数据段；

对于每个所述数据段，将所述文件头信息、所述文件尾信息以及所述数据段进行组合，生成所述非结构化数据的文件分片。

可选的，所述将各个所述文件分片，分别存储到不同的存储节点中之后，还包括：

对于每个所述存储节点，对所述存储节点所存储的文件分片进行备份，得到文件分片备份，并将所述文件分片备份存储到其他存储节点中。

一种非结构化数据的处理装置，包括：

解析单元，用于对第一用户上传的非结构化数据进行解析，得到所述非结构化数据的类型、文件头信息以及文件尾信息；

分片单元，用于基于所述非结构化数据的类型、文件头信息以及文件尾信息，获得所述非结构化数据的多个文件分片；

存储单元，用于将各个所述文件分片，分别存储到不同的存储节点中；

获取单元，用于在接收到第二用户发送的数据读取指令后，从各个所述存储节点中获取符合预设要求的文件分片，标识为目标文件分片；所述预设要求为：文件分片包含有所述数据读取指令所示文件头信息和文件尾信息；

读取单元，用于对于获取得到的每个所述目标文件分片，在所述目标文件分片的文件属性不符合预设条件的情况下，重复对所述目标文件分片进行读取，以使所述文件属性不断更新，直至所述文件属性符合所述预设条件；所述预设条件为：所述文件属性所示的分辨率大于预设分辨率阈值，且所述文件属性所示的码率大于预设码率阈值；

发送单元，用于基于各个所述目标文件分片，生成目标非结构化数据，并将所述目标非结构化数据发送给所述第二用户。

可选的，所述分片单元具体用于：

对各个所述特征图像进行下采样，得到各个有效特征图像；

可选的，所述分片单元具体用于：

可选的，所述存储单元还用于：

一种计算机可读存储介质，所述计算机可读存储介质包括存储的程序，其中，所述程序执行所述的非结构化数据的处理方法。

一种非结构化数据的处理设备，包括：处理器、存储器和总线；所述处理器与所述存储器通过所述总线连接；

所述存储器用于存储程序，所述处理器用于运行程序，其中，所述程序运行时执行所述的非结构化数据的处理方法。

本申请提供的技术方案，对第一用户上传的非结构化数据进行解析，得到非结构化数据的类型、文件头信息以及文件尾信息。基于非结构化数据的类型、文件头信息以及文件尾信息，获得非结构化数据的多个文件分片。将各个文件分片，分别存储到不同的存储节点中。在接收到第二用户发送的数据读取指令后，从各个存储节点中获取符合预设要求的文件分片，标识为目标文件分片。对于获取得到的每个目标文件分片，在目标文件分片的文件属性不符合预设条件的情况下，重复对目标文件分片进行读取，以使文件属性不断更新，直至文件属性符合预设条件。基于各个目标文件分片，生成目标非结构化数据，并将目标非结构化数据发送给第二用户。本申请将非结构化数据以文件分片的形式，存储在存储节点中，使得非结构化数据的可读性得到有效提高，在读取非结构化数据时，仅仅针对文件属性不符合预设条件的目标文件分片进行读取，相较于现有技术，无需针对整个非结构化数据进行读取，有效减少资源的消耗。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a为本申请实施例提供的一种非结构化数据的处理方法的流程示意图；

图1b为本申请实施例提供的一种非结构化数据的处理方法的流程示意图；

图2为本申请实施例提供的另一种非结构化数据的处理方法的流程示意图；

图3为本申请实施例提供的一种非结构化数据的处理装置的架构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

如图1a和图1b所示，为本申请实施例提供的一种非结构化数据的处理方法的流程示意图，可应用于大数据平台，包括如下步骤：

S101：获取第一用户上传的非结构化数据，并对非结构化数据进行解析，得到非结构化数据的类型、文件头信息以及文件尾信息。

其中，文件头信息和文件尾信息均为本领域技术人员所熟悉的公知常识，具体的，文件头信息可以指示非结构化数据的名称，文件尾信息可以指示非结构化数据的生成时间戳。

S102：在非结构化数据的类型为图像的情况下，对非结构化数据所示的图像进行特征提取，得到多个特征图像。

其中，对非结构化数据所示的图像进行特征提取，实质上还是需要对各非结构化数据所示的图像进行卷积运算。当然，卷积运算过程中所使用的卷积核、参数(例如卷积步长)可由技术人员根据实际情况进行设置。

可选的，为了提高对非结构化数据所示的图像的卷积效率，可以调用预设的卷积计算器，对非结构化数据所示的图像进行卷积运算。具体的，在调用卷积计算器的过程中，需要使用预设的计算资源控制，统计本地的可用计算资源总和，以及卷积运算过程所花费的计算资源。在卷积运算过程所花费的计算资源，不大于可用计算资源总和的情况下，调用预设的计算任务生成器，生成与非结构化数据对应的卷积运算任务，并将卷积运算任务发送给卷积计算器，以使卷积计算器执行卷积运算任务，实现对非结构化数据所示的图像进行特征提取。

S103：对各个特征图像进行下采样，得到各个有效特征图像。

其中，所谓的下采样具体是指：对特征图像进行降维，以使特征图像的分辨率调整，得到有效特征图像。需要说明的是，有效特征图像的分辨率，相较于特征图像的分辨率更低，具体的，假设非结构化数据的卷积过程中所使用的卷积步长为N，特征图像的分辨率则为有效特征图像的分辨率的N倍。

一般来讲，对各个特征图像进行下采样，实质上还是需要对各个特征图像进行卷积运算。

可选的，为了提高各个特征图像的卷积运算效率，可以调用预设的卷积计算器，对各个特征图像进行卷积运算。具体的，在调用卷积计算器的过程中，需要使用预设的计算资源控制，统计本地的可用计算资源总和，以及卷积运算过程所花费的计算资源。在卷积运算过程所花费的计算资源，不大于可用计算资源总和的情况下，调用预设的计算任务生成器，生成与非结构化数据对应的卷积运算任务，并将卷积运算任务发送给卷积计算器，以使卷积计算器执行卷积运算任务，实现对各个特征图像进行下采样。

S104：对于每个有效特征图像，将文件头信息、文件尾信息以及有效特征图像进行组合，生成非结构化数据的文件分片。

在执行S104之后，继续执行S107。

其中，将非结构化数据的文件头信息、文件尾信息以及有效特征图像进行组合的具体实现过程，为本领域技术人员所熟悉的技术手段，这里不再赘述。

S105：在非结构化数据的类型为音频和视频的情况下，对非结构化数据进行时间采样，得到播放时间相等、且内容不同的多个数据段。

其中，数据段的类型与非结构化数据的类型相同。对非结构化数据进行时间采样，实质上还是得需要对非结构化数据进行卷积运算。

可选的，为了提高时间采样的卷积运算效率，可以调用预设的卷积计算器，对非结构化数据进行卷积运算。具体的，在调用卷积计算器的过程中，需要使用预设的计算资源控制，统计本地的可用计算资源总和，以及卷积运算过程所花费的计算资源。在卷积运算过程所花费的计算资源，不大于可用计算资源总和的情况下，调用预设的计算任务生成器，生成与非结构化数据对应的卷积运算任务，并将卷积运算任务发送给卷积计算器，以使卷积计算器执行卷积运算任务，实现对非结构化数据进行时间采样。

S106：对于每个数据段，将文件头信息、文件尾信息以及数据段进行组合，生成非结构化数据的文件分片。

在执行S106之后，继续执行S107。

S107：将非结构化数据的各个文件分片，分别存储到不同的存储节点中。

其中，不同的存储节点可以为分布式节点，将非结构化数据的各个文件分片，分别存储到不同的存储节点中，能够有效提高非结构化数据的存储效率，以及后续的查询效率。

S108：对于每个存储节点，对存储节点所存储的文件分片进行备份，得到文件分片备份，并将文件分片备份存储到其他存储节点中。

其中，将文件分片备份存储到其他存储节点中，能够实现对非结构化数据的有效灾备，提高非结构化数据存储的安全性。

S109：在接收到第二用户的数据读取指令后，从各个存储节点中获取符合预设要求的文件分片，标识为目标文件分片。

其中，预设要求为：文件分片包含有数据读取指令所示文件头信息和文件尾信息。

S110：对于每个目标文件分片，在目标文件分片的文件属性不符合预设条件的情况下，重复对目标文件分片进行读取，以使目标文件分片的文件属性不断更新，直至文件属性符合预设条件。

其中，文件属性至少包括分辨率和码率，相应的，预设条件可以为：文件属性所示的分辨率大于预设分辨率阈值，且文件属性所示的码率大于预设码率阈值。

S111：基于获取得到的各个目标文件分片，生成目标非结构化数据，并将目标非结构化数据发送给第二用户。

基于上述S101-S111所示流程，本实施例能够实现以下有益效果：

1、根据图像、音视频等非结构化数据进行分片，有效的保证了文件分片的可读性，降低高画质存储、低画质读取时的网络和计算资源开销；

2、提供卷积计算器，实现对图像、音视频等非结构化数据的公共加工方式提取；

3、以分布式大数据平台的形式，可以实现硬件资源的无限扩展；

4、由于主要使用存储和计算资源，可以和使用存储及计算资源的大数据平台优势互补，共享资源。

综上所述，本实施例将非结构化数据以文件分片的形式，存储在存储节点中，使得非结构化数据的可读性得到有效提高，在读取非结构化数据时，仅仅针对文件属性不符合预设条件的目标文件分片进行读取，相较于现有技术，无需针对整个非结构化数据进行读取，有效减少资源的消耗。

需要说明的是，上述实施例提及的S102，为本申请实施例所示非结构化数据的处理方法的一种可选的实现方式。此外，上述实施例提及的S108，也为本申请实施例所示非结构化数据的处理方法的一种可选的实现方式。为此，上述实施例提及的流程，可以概括为图2所示的方法。

如图2所示，为本申请实施例提供的另一种非结构化数据的处理方法的流程示意图，包括如下步骤：

S201：对第一用户上传的非结构化数据进行解析，得到非结构化数据的类型、文件头信息以及文件尾信息。

S202：基于非结构化数据的类型、文件头信息以及文件尾信息，获得非结构化数据的多个文件分片。

S203：将各个文件分片，分别存储到不同的存储节点中。

S204：在接收到第二用户发送的数据读取指令后，从各个存储节点中获取符合预设要求的文件分片，标识为目标文件分片。

S205：对于获取得到的每个目标文件分片，在目标文件分片的文件属性不符合预设条件的情况下，重复对目标文件分片进行读取，以使文件属性不断更新，直至文件属性符合预设条件。

其中，预设条件为：文件属性所示的分辨率大于预设分辨率阈值，且文件属性所示的码率大于预设码率阈值。

S206：基于各个目标文件分片，生成目标非结构化数据，并将目标非结构化数据发送给第二用户。

需要说明的是，本发明提供的非结构化数据的处理方法可用于人工智能领域、区块链领域、分布式领域、云计算领域、大数据领域、物联网领域、移动互联领域、网络安全领域、芯片领域、虚拟现实领域、增强现实领域、全息技术领域、量子计算领域、量子通信领域、量子测量领域、数字孪生领域或金融领域。上述仅为示例，并不对本发明提供的非结构化数据的处理方法的应用领域进行限定。

本发明提供的非结构化数据的处理方法可用于金融领域或其他领域，例如，可用于金融领域中的交易应用场景。其他领域为除金融领域之外的任意领域，例如，电力领域。上述仅为示例，并不对本发明提供的非结构化数据的处理方法的应用领域进行限定。

与上述本申请实施例提供的非结构化数据的处理方法相对应，本申请实施例还提供了一种非结构化数据的处理装置。

如图3所示，为本申请实施例提供的一种非结构化数据的处理装置的架构示意图，包括：

解析单元100，用于对第一用户上传的非结构化数据进行解析，得到非结构化数据的类型、文件头信息以及文件尾信息。

分片单元200，用于基于非结构化数据的类型、文件头信息以及文件尾信息，获得非结构化数据的多个文件分片。

可选的，分片单元200具体用于：在非结构化数据的类型为图像的情况下，对非结构化数据所示的图像进行特征提取，得到多个特征图像；对各个特征图像进行下采样，得到各个有效特征图像；对于每个有效特征图像，将文件头信息、文件尾信息以及有效特征图像进行组合，生成非结构化数据的文件分片。

分片单元200具体用于：在非结构化数据的类型为音频和视频的情况下，对非结构化数据进行时间采样，得到播放时间相等、且内容不同的多个数据段；对于每个数据段，将文件头信息、文件尾信息以及数据段进行组合，生成非结构化数据的文件分片。

存储单元300，用于将各个文件分片，分别存储到不同的存储节点中。

可选的，存储单元300还用于：对于每个存储节点，对存储节点所存储的文件分片进行备份，得到文件分片备份，并将文件分片备份存储到其他存储节点中。

获取单元400，用于在接收到第二用户发送的数据读取指令后，从各个存储节点中获取符合预设要求的文件分片，标识为目标文件分片；预设要求为：文件分片包含有数据读取指令所示文件头信息和文件尾信息。

读取单元500，用于对于获取得到的每个目标文件分片，在目标文件分片的文件属性不符合预设条件的情况下，重复对目标文件分片进行读取，以使文件属性不断更新，直至文件属性符合预设条件；预设条件为：文件属性所示的分辨率大于预设分辨率阈值，且文件属性所示的码率大于预设码率阈值。

发送单元600，用于基于各个目标文件分片，生成目标非结构化数据，并将目标非结构化数据发送给第二用户。

本申请还提供了一种计算机可读存储介质，计算机可读存储介质包括存储的程序，其中，程序执行上述本申请提供的非结构化数据的处理方法。

本申请还提供了一种非结构化数据的处理设备，包括：处理器、存储器和总线。处理器与存储器通过总线连接，存储器用于存储程序，处理器用于运行程序，其中，程序运行时执行上述本申请提供的非结构化数据的处理方法，包括如下步骤：

将各个所述文件分片，分别存储到不同的存储节点中；

具体的，在上述实施例的基础上，所述基于所述非结构化数据的类型、文件头信息以及文件尾信息，获得所述非结构化数据的多个文件分片，包括：

对各个所述特征图像进行下采样，得到各个有效特征图像；

具体的，在上述实施例的基础上，所述将各个所述文件分片，分别存储到不同的存储节点中之后，还包括：

本申请实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算设备可读取存储介质中。基于这样的理解，本申请实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一台计算设备(可以是个人计算机，服务器，移动计算设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种非结构化数据的处理方法，其特征在于，包括：

将各个所述文件分片，分别存储到不同的存储节点中；

2.根据权利要求1所述的方法，其特征在于，所述基于所述非结构化数据的类型、文件头信息以及文件尾信息，获得所述非结构化数据的多个文件分片，包括：

对各个所述特征图像进行下采样，得到各个有效特征图像；

3.根据权利要求1所述的方法，其特征在于，所述基于所述非结构化数据的类型、文件头信息以及文件尾信息，获得所述非结构化数据的多个文件分片，包括：

4.根据权利要求1所述的方法，其特征在于，所述将各个所述文件分片，分别存储到不同的存储节点中之后，还包括：

5.一种非结构化数据的处理装置，其特征在于，包括：

6.根据权利要求5所述的装置，其特征在于，所述分片单元具体用于：

对各个所述特征图像进行下采样，得到各个有效特征图像；

7.根据权利要求5所述的装置，其特征在于，所述分片单元具体用于：

8.根据权利要求5所述的装置，其特征在于，所述存储单元还用于：

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的程序，其中，所述程序执行权利要求1-4任一所述的非结构化数据的处理方法。

10.一种非结构化数据的处理设备，其特征在于，包括：处理器、存储器和总线；所述处理器与所述存储器通过所述总线连接；

所述存储器用于存储程序，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1-4任一所述的非结构化数据的处理方法。