CN110109890A

CN110109890A - 非结构化数据处理方法和非结构化数据处理系统

Info

Publication number: CN110109890A
Application number: CN201910389001.2A
Authority: CN
Inventors: 樊林
Original assignee: BOE Technology Group Co Ltd
Current assignee: BOE Technology Group Co Ltd
Priority date: 2019-05-10
Filing date: 2019-05-10
Publication date: 2019-08-09
Also published as: WO2020228452A1

Abstract

本发明提供一种非结构化数据处理方法和非结构化数据处理系统，该非结构化数据处理方法包括：获取非结构化数据；对所述非结构化数据进行序列化处理，得到序列化数据；将所述序列化数据与所述非结构化数据的索引信息进行连接，得到目标数据；将多个所述目标数据存储至目标结构化数据文件中，所述目标结构化数据文件用于分布式文件系统。本发明中，对多个非结构化数据进行序列化处理，并合并存储到一个结构化数据文件中用于分布式文件系统，与在分布式文件系统中存储多个小的非结构化数据相比，可以有效节省所需的存储空间。

Description

非结构化数据处理方法和非结构化数据处理系统

技术领域

本发明涉及数据处理技术领域，尤其涉及一种非结构化数据处理方法和非结构化数据处理系统。

背景技术

分布式文件系统(DFS)可以有效解决海量数据的存储和管理难题：将固定于某个地点的某个文件系统，扩展到任意多个地点/多个文件系统，众多的节点组成一个文件系统网络。每个节点可以分布在不同的地点，通过网络进行节点间的通信和数据传输。人们在使用分布式文件系统时，无需关心数据是存储在哪个节点上、或者是从哪个节点从获取的，只需要像使用本地文件系统一样管理和存储文件系统中的数据。

但是面对规模越来越大的海量文件，分布式文件系统也遇到了一些问题：文件系统中存在大量小的非结构化数据，需要极大的存储空间，且在分布式处理的过程中，大量小的非结构化数据的任务调度需要占用大量资源，影响处理效率。

发明内容

有鉴于此，本发明提供一种非结构化数据处理方法和非结构化数据处理系统，用于解决现有的分布式文件系统中存储大量小的非结构化数据，造成存储空间浪费，且影响分布式处理效率的问题。

为解决上述技术问题，本发明提供一种非结构化数据处理方法，包括：

获取非结构化数据；

对所述非结构化数据进行序列化处理，得到序列化数据；

将所述序列化数据与所述非结构化数据的索引信息进行连接，得到目标数据；

将多个所述非结构化数据对应的目标数据存储至目标结构化数据文件中，所述目标结构化数据文件用于分布式文件系统。

可选的，所述非结构化数据处理方法还包括：

将所述目标结构化数据文件上传至所述分布式文件系统。

可选的，所述索引信息包括文件名、文件类型和/或文件检索字段信息。

可选的，所述非结构化数据为图像、音频、视频、文档、自定义对象、XML或HTML。

可选的，所述分布式文件系统为hadoop分布式文件系统。

本发明还提供一种非结构化数据处理方法，包括：

读取目标结构化数据文件；

获取所述目标结构化数据文件中的至少一个目标数据；

对所述目标数据中的序列化数据进行反序列化处理，得到非结构化数据。

本发明还提供一种非结构化数据处理系统，包括：

获取模块，用于获取非结构化数据；

序列化处理模块，用于对所述非结构化数据进行序列化处理，得到序列化数据；

连接模块，用于将所述序列化数据与所述非结构化数据的索引信息进行连接，得到目标数据；

存储模块，用于将多个所述目标数据存储至目标结构化数据文件中，所述目标结构化数据文件用于分布式文件系统。

本发明还提供一种非结构化数据处理系统，包括：

读取模块，用于读取目标结构化数据文件；

获取模块，用于获取所述目标结构化数据文件中的至少一个目标数据；

反序列化处理模块，用于对所述目标数据中的序列化数据进行反序列化处理，得到非结构化数据。

本发明还提供一种非结构化数据处理系统，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述非结构化数据处理方法的步骤。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现上述非结构化数据处理方法的步骤。

本发明的上述技术方案的有益效果如下：

本发明实施例中，将多个非结构化数据进行序列化处理后，存储到一个大的结构化数据文件在分布式文件系统进行存储，不使用二进制的方式对非结构化数据进行存储，与在分布式文件系统中存储多个小的非结构化数据相比，存储结构简单，可以有效节省所需的存储空间，且在进行分布式处理时，只需要调度大的结构化数据文件即可对该多个小的非结构化数据进行批次或流式处理，提高了分布式处理效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例的非结构化数据处理方法的流程示意图；

图2为本发明实施例的目标结构化数据文件的存储结构示意图；

图3为本发明另一实施例的非结构化数据处理方法的流程示意图；

图4为本发明又一实施例的非结构化数据处理方法的流程示意图；

图5为本发明又一实施例的非结构化数据处理方法的流程示意图；

图6为本发明一实施例的非结构化数据处理系统的结构示意图；

图7为本发明另一实施例的非结构化数据处理系统的结构示意图；

图8为本发明一实施例的非结构化数据处理系统的整体框架示意图；

图9为本发明又一实施例的非结构化数据处理系统的结构示意图；

图10为本发明又一实施例的非结构化数据处理系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

为解决现有的分布式文件系统中存储大量小文件，造成存储空间浪费，且影响分布式处理效率的问题，请参考图1，图1为本发明一实施例的非结构化数据处理方法的流程示意图，该非结构化数据处理方法包括：

步骤11：获取非结构化数据；

非结构化数据是数据结构不规则或不完整的数据，没有预定义的数据模型，不方便用数据库二维逻辑表来表现的数据。

所述非结构化数据可以为图像、音频、视频、文档(例如word文件、PDF文档等)、自定义对象、XML(可扩展标记语言)或HTML(超文本标记语言)等。

所述非结构化数据可以从文件中获取，也可以从报文等中获取。

本步骤中，如果是从文件中获取非结构化数据，文件可以是本地存储的文件，也可以是分布式文件系统中存储的文件。

步骤12：对所述非结构化数据进行序列化处理，得到序列化数据；

序列化就是一种用来处理对象流的机制，所谓对象流也就是将对象的内容进行流化。可以对流化后的对象进行读写操作，也可将流化后的对象传输于网络之间。

本发明实施例中，可以采用多种方法对非结构化数据进行序列化处理，例如，例如使用Base64编码方法对非结构化数据进行序列化，Base64就是一种基于64个可打印字符来表示二进制数据的方法。当然，在本发明的其他一些实施例中，也可以采用其他序列化处理方法，例如采用Base62x编码方法。

步骤13：将所述序列化数据与所述非结构化数据的索引信息进行连接，得到目标数据；

所述索引信息可以包括文件名、文件类型和/或文件检索字段信息等。

本发明实施例中，在将序列化数据与索引信息进行连接时，可以采用分隔符等符号将序列化数据和索引信息进行分割，以使得后续可以区分出索引信息和序列化数据。

步骤14：将多个所述目标数据存储至目标结构化数据文件中，所述目标结构化数据文件用于分布式文件系统。

本发明实施例中，将多个非结构化数据对应的多个目标数据合并存储到目标结构化数据文件中时，可以按照指定次序对目标数据进行存储，例如，按照序列化处理的先后次序等，目标结构化数据文件中存储的目标数据可以参见图2所示，其中，文件索引信息可以是单列，也可以是多列，可以包括文件名、文件类型和/或文件检索字段信息等。

本发明实施例中，可选的，如果是在本地处理得到目标结构化数据文件，则所述方法还可以包括：将所述目标结构化数据文件上传至所述分布式文件系统，以便进行后续的分布式处理。

在本发明的一些实施例中，可选的，所述对所述非结构化数据进行序列化处理，得到序列化数据包括：建立一个处理线程，针对多个待处理的非结构化数据中的每一所述非结构化数据，依次采用所述处理线程进行序列化处理。本发明实施例中，采用一个处理线程，依次对多个待处理的非结构化数据中每一个非结构化数据进行序列化处理，占用的处理资源少。

下面举例进行说明。

请参考图3，图3为本发明另一实施例的非结构化数据处理方法的流程示意图，该非结构化数据处理方法包括：

步骤31：读取文件列表中的一个非结构化数据文件，其中，所述文件列表中包括多个非结构化数据文件；

本发明实施例中，可以根据文件名依次读取文件列表中的每一非结构化数据文件。

在具体实现时，可以使用缓存读取非结构化数据文件。

步骤32：判断读取的文件是否存在，如果是，进入步骤33，否则，返回步骤31，读取文件列表中的下一个非结构化数据文件；

步骤33：将读取的非结构化数据文件缓存至一个字节(Byte)数组中。

步骤34：建立一个处理线程，对字节数组进行序列化处理，得到序列化数据；

步骤35：将所述非结构化数据文件的序列化数据与所述非结构化数据文件的索引信息进行连接，得到目标数据，并将目标数据输出至目标结构化数据文件中。

步骤36：判断所述文件列表中是否还有未处理的非结构化数据文件，如果是，返回步骤31，读取文件列表中的下一个非结构化数据文件；否则，进入步骤37；

步骤37：将目标结构化数据文件上传至分布式文件系统。

本发明实施例中，采用一个处理线程，依次对每一个非结构化数据文件进行序列化处理，占用的处理资源少。

在本发明的一些实施例中，可选的，所述对所述非结构化数据进行序列化处理，得到序列化数据包括：建立N个处理线程，针对待处理的多个非结构化数据中的N个所述非结构化数据，同时采用所述N个处理线程进行序列化处理，N为大于1的正整数，N小于或等于所述待处理的所述非结构化数据的个数。例如，待处理的非结构化数据是100个，可以建立100个处理线程，同时对该100个非结构化数据进行序列化处理。当然，也可以是建立50个处理线程，分两批对该100个非结构化数据进行处理。

下面举例进行说明。

请参考图4，图4为本发明又一实施例的非结构化数据处理方法的流程示意图，该非结构化数据处理方法包括：

步骤41：读取文件列表中的所有非结构化数据文件，获取所述文件列表中的非结构化数据文件的个数N；

步骤42：建立N个处理线程；

步骤43：针对所述文件列表中的N个所述非结构化数据文件，同时采用所述N个处理线程进行序列化处理。

步骤44：将所述非结构化数据文件的序列化数据与所述非结构化数据文件的索引信息进行连接，得到目标数据，并将目标数据输出至目标结构化数据文件中。

步骤45：将目标结构化数据文件上传至分布式文件系统。

本发明实施例中，采用多个处理线程，同时对多个非结构化数据文件进行序列化处理，可以有效提高处理效率。

本发明的上述实施例中，所述分布式文件系统可以为hadoop分布式文件系统(HDFS)。当然，也可以是其他类型的分布式文件系统，例如FastDFS、GFS(google文件系统)或TFS等。

请参考图5，图5为本发明又一实施例的非结构化数据处理方法的流程示意图，该非结构化数据处理方法包括：

步骤51：读取目标结构化数据文件，所述目标结构化数据文件采用上述任一实施例中的非结构化数据处理方法得到；

步骤52：获取所述目标结构化数据文件中的至少一个目标数据；

本发明实施例中，可以对目标结构化数据文件中的部分目标数据进行处理，也可以对全部目标数据进行处理。

步骤53：对所述目标数据中的序列化数据进行反序列化处理，得到非结构化数据。

本发明实施例中，在对多个序列化数据进行反序列化处理时，可以采用一个处理线程依次对每一个序列化数据依次进行反序列化处理，也可以采用多个处理线程同时对多个序列化数据进行反序列化处理。

可选的，本发明实施例的非结构化数据处理方法还可以包括：对反序列处理得到的非结构化数据进行分布式处理，例如批次或流式处理。

本发明实施例中，可以采用例如Mapreduce，Spark等，批次或者流式对结构化数据文件进行处理。

本发明实施例中，按照结构化数据处理方式，将结构化数据文件读出，并将文件中的序列化数据进行反序列化处理，即可对结构化数据文件中的多个非结构化数据进行批次或流式处理，由于只需要调度大的结构化数据文件，可以有效提高处理效率。

基于同一发明构思，请参考图6，本发明实施例还提供一种非结构化数据处理系统60，包括：

获取模块61，用于获取非结构化数据；

序列化处理模块62，用于对所述非结构化数据进行序列化处理，得到序列化数据；

连接模块63，用于将所述序列化数据与所述非结构化数据的索引信息进行连接，得到目标数据；

存储模块64，用于将多个所述目标数据存储至目标结构化数据文件中，所述目标结构化数据文件用于分布式文件系统。

在本发明的一些实施例中，可选的，所述非结构化数据处理系统还包括：

上传模块，用于将所述目标结构化数据文件上传至所述分布式文件系统。

在本发明的一些实施例中，可选的，所述索引信息包括文件名、文件类型和/或文件检索字段信息。

在本发明的一些实施例中，可选的，所述非结构化数据为图像、音频、视频、文档、自定义对象、XML或HTML。

在本发明的一些实施例中，可选的，所述分布式文件系统为hadoop分布式文件系统。

请参考图7，本发明实施例还提供一种非结构化数据处理系统70，包括：

读取模块71，用于读取目标结构化数据文件，所述目标结构化数据文件采用上述实施例中的非结构化数据处理方法得到；

获取模块72，用于获取所述目标结构化数据文件中的至少一个目标数据；

反序列化处理模块73，用于对所述目标数据中的序列化数据进行反序列化处理，得到非结构化数据。

可选的，发明实施例的非结构化数据处理系统还可以包括：分布式处理模块，用于所述反文件序列化处理模块得到的非结构化数据进行分布式处理，例如批次或流式处理。

本发明实施例中，按照结构化数据处理方式，将结构化数据文件读出，并将文件中的序列化数据进行反序列化处理，即可对结构化数据文件中的多个小非结构数据进行批次或流式处理，由于只需要调度大的结构化数据文件，可以有效提高处理效率。

请参考图8，图8为本发明一实施例的非结构化数据处理系统的整体框架示意图，从图8中可以看出，可以首先采用序列化处理模块对多个图像进行序列化处理，得到目标结构化数据文件，并将目标结构化数据文件上传至分布式文件系统(如图8中的Hadoop文件存储系统)。分布式处理时，使用hadoop分布式计算框架对目标结构化数据文件进行反序列化处理(如图8中的Maper进行反序列化处理)，然后对反序列化处理得到的非结构化数据进行其他分布式处理，例如对非结构化数据进行重组(Shuffle)，然后将重组数据输入至Reducer中处理。

请参考图9，图9为本发明又一实施例的非结构化数据处理系统的结构示意图，该终端90包括：处理器91和存储器92。在本发明实施例中，非结构化数据处理系统90还包括：存储在存储器92上并可在处理器91上运行的计算机程序，计算机程序被处理器91执行时实现如下步骤：

获取非结构化数据；

对所述非结构化数据进行序列化处理，得到序列化数据；

可选的，计算机程序被处理器91执行时还可实现如下步骤：将所述目标结构化数据文件上传至所述分布式文件系统。

可选的，所述分布式文件系统为hadoop分布式文件系统。

请参考图10，图10为本发明又一实施例的非结构化数据处理系统的结构示意图，该终端100包括：处理器101和存储器102。在本发明实施例中，非结构化数据处理系统100还包括：存储在存储器102上并可在处理器101上运行的计算机程序，计算机程序被处理器101执行时实现如下步骤：

读取目标结构化数据文件；

获取所述目标结构化数据文件中的至少一个目标数据；

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现上述非结构化数据处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random AccessMemory，RAM)、磁碟或者光盘等。

除非另作定义，本发明中使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也相应地改变。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种非结构化数据处理方法，其特征在于，包括：

获取非结构化数据；

对所述非结构化数据进行序列化处理，得到序列化数据；

2.如权利要求1所述的非结构化数据处理方法，其特征在于，还包括：

将所述目标结构化数据文件上传至所述分布式文件系统。

3.如权利要求1所述的非结构化数据处理方法，其特征在于，所述索引信息包括文件名、文件类型和/或文件检索字段信息。

4.如权利要求1所述的非结构化数据处理方法，其特征在于，所述非结构化数据为图像、音频、视频、文档、自定义对象、XML或HTML。

5.如权利要求1或2所述的非结构化数据处理方法，其特征在于，所述分布式文件系统为hadoop分布式文件系统。

6.一种非结构化数据处理方法，其特征在于，包括：

读取目标结构化数据文件，所述目标结构化数据文件采用如权利要求1-5任一项所述的非结构化数据处理方法得到；

获取所述目标结构化数据文件中的至少一个目标数据；

7.一种非结构化数据处理系统，其特征在于，包括：

获取模块，用于获取非结构化数据；

8.一种非结构化数据处理系统，其特征在于，包括：

读取模块，用于读取目标结构化数据文件，所述目标结构化数据文件采用如权利要求1-5任一项所述的非结构化数据处理方法得到；

9.一种非结构化数据处理系统，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述的非结构化数据处理方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的非结构化数据处理方法的步骤。