CN116107979B

CN116107979B - 一种数据分布式读取方法及系统

Info

Publication number: CN116107979B
Application number: CN202310395168.6A
Authority: CN
Inventors: 燕金龙
Original assignee: Big Bear Group Co ltd
Current assignee: Big Bear Group Co ltd
Priority date: 2023-04-14
Filing date: 2023-04-14
Publication date: 2023-06-27
Anticipated expiration: 2043-04-14
Also published as: CN116107979A

Abstract

本发明适用于数据读取技术领域，提供了一种数据分布式读取方法及系统，包括以下步骤：接收上传的用户文件，将识别出的图像和表格从用户文件中提取出来，为每个图像和表格标记提取位置信息；将提取出的图像存储至图像库中，生成图像存储位置信息，将提取出的表格存储至表格库中，生成表格存储位置信息，将提取后的用户文件进行存储，生成文件存储位置信息；接收文件读取指令，分布读取对应的用户文件、图像和表格，将读取到的图像和表格插入所述用户文件中，对用户文件进行还原。如此，能够同时读取一份数据的三个部分，大幅度提高了读取效率。另外，本发明能够将所有的图像和表格进行单独的存储，方便用户只浏览图像或者表格信息。

Description

一种数据分布式读取方法及系统

技术领域

本发明涉及数据读取技术领域，具体是涉及一种数据分布式读取方法及系统。

背景技术

分布式数据处理是指将原先集中在单节点上的庞大计算任务被负载均衡地分派给分布式网络中的计算机上并行地进行处理计算，大幅度提高了数据处理的效率，然而分布式数据处理不便于直接应用在一份数据的读取上，目前读取一份数据时，没有将数据分割成多个部分进行分布式的读取，如果一份数据的量较大时，特别是数据中包含大量的图表时，读取加载的速度较为缓慢。因此，需要提供一种数据分布式读取方法及系统，旨在解决或者缓解上述问题。

发明内容

针对现有技术存在的不足，本发明的目的在于提供一种数据分布式读取方法及系统，以解决或者缓解上述背景技术中存在的问题。

本发明是这样实现的，一种数据分布式读取方法，所述方法包括以下步骤：

接收上传的用户文件，所述用户文件包括文件名，对用户文件中的图像和表格进行识别；

将识别出的图像和表格从用户文件中提取出来，为每个图像和表格标记提取位置信息；

将提取出的图像存储至图像库中，生成图像存储位置信息，将图像存储位置信息与对应的提取位置信息进行绑定；将提取出的表格存储至表格库中，生成表格存储位置信息，将表格存储位置信息与对应的提取位置信息进行绑定；

将提取后的用户文件进行存储，生成文件存储位置信息，将文件存储位置信息与图像存储位置信息以及表格存储位置信息进行绑定；

接收文件读取指令，所述文件读取指令包括文件名和文件存储位置信息，确定文件存储位置信息对应的图像存储位置信息和表格存储位置信息；

分布读取对应的用户文件、图像和表格，将读取到的图像和表格插入所述用户文件中，对用户文件进行还原。

作为本发明进一步的方案：所述为每个图像和表格标记提取位置信息的步骤，具体包括：

提取每个图像和表格时，记录提取位置；

识别每个图像和表格的对齐方式和尺寸大小，对提取位置、对齐方式和尺寸大小进行整合得到提取位置信息；

将每个提取位置信息标记在对应的图像或者表格上。

作为本发明进一步的方案：所述将提取出的图像存储至图像库中，生成图像存储位置信息的步骤，具体包括：

将提取出的图像发送至图像库中，将所述图像与图像库中的所有图像进行相似度对比；

当所述图像与图像库中的某一个图像相同时，将所述图像删除，相同图像的存储位置即为图像存储位置信息；当所述图像与图像库中任何一个图像不相同时，对所述图像进行存储，得到图像存储位置信息。

作为本发明进一步的方案：将所述图像与图像库中的图像进行相似度对比的步骤，具体包括：

根据图像库中的图像对所述图像进行尺寸缩放，使得两者的尺寸相同；

用基于DCT的hash方法分别计算所述图像与图像库中图像的hash值，得到h_1和h_2；

计算h_1和h_2之间的汉明距离dis_h；

根据汉明距离dis_h计算得到所述图像与图像库中图像之间的相似度，当相似度大于设定相似值时，判定两张图像相同。

作为本发明进一步的方案：所述将读取到的图像和表格插入所述用户文件中的步骤，具体包括：

调取每个图像和表格对应的提取位置信息；

根据提取位置信息中的提取位置将每个图像和表格插入至用户文件中的对应位置；

根据对齐方式和尺寸大小对每个图像和表格进行编辑还原。

本发明的另一目的在于提供一种数据分布式读取系统，所述系统包括：

用户文件上传模块，用于接收上传的用户文件，所述用户文件包括文件名，对用户文件中的图像和表格进行识别；

图像表格提取模块，用于将识别出的图像和表格从用户文件中提取出来，为每个图像和表格标记提取位置信息；

图像表格存储模块，用于将提取出的图像存储至图像库中，生成图像存储位置信息，将图像存储位置信息与对应的提取位置信息进行绑定；将提取出的表格存储至表格库中，生成表格存储位置信息，将表格存储位置信息与对应的提取位置信息进行绑定；

用户文件存储模块，用于将提取后的用户文件进行存储，生成文件存储位置信息，将文件存储位置信息与图像存储位置信息以及表格存储位置信息进行绑定；

读取指令接收模块，用于接收文件读取指令，所述文件读取指令包括文件名和文件存储位置信息，确定文件存储位置信息对应的图像存储位置信息和表格存储位置信息；

数据分布读取模块，用于分布读取对应的用户文件、图像和表格，将读取到的图像和表格插入所述用户文件中，对用户文件进行还原。

作为本发明进一步的方案：所述图像表格提取模块包括：

提取位置记录单元，用于提取每个图像和表格时，记录提取位置；

位置信息整合单元，用于识别每个图像和表格的对齐方式和尺寸大小，对提取位置、对齐方式和尺寸大小进行整合得到提取位置信息；

位置信息标记单元，用于将每个提取位置信息标记在对应的图像或者表格上。

作为本发明进一步的方案：所述图像表格存储模块包括：

相似度对比单元，用于将提取出的图像发送至图像库中，将所述图像与图像库中的所有图像进行相似度对比；

图像存储处理单元，当所述图像与图像库中的某一个图像相同时，将所述图像删除，相同图像的存储位置即为图像存储位置信息；当所述图像与图像库中任何一个图像不相同时，对所述图像进行存储，得到图像存储位置信息。

作为本发明进一步的方案：所述相似度对比单元包括：

尺寸缩放子单元，用于根据图像库中的图像对所述图像进行尺寸缩放，使得两者的尺寸相同；

hash值确定子单元，用基于DCT的hash方法分别计算所述图像与图像库中图像的hash值，得到h_1和h_2；

汉明距离子单元，用于计算h_1和h_2之间的汉明距离dis_h；

相似度计算子单元，用于根据汉明距离dis_h计算得到所述图像与图像库中图像之间的相似度，当相似度大于设定相似值时，判定两张图像相同。

作为本发明进一步的方案：所述数据分布读取模块包括：

位置信息调取单元，用于调取每个图像和表格对应的提取位置信息；

图像表格插入单元，用于根据提取位置信息中的提取位置将每个图像和表格插入至用户文件中的对应位置；

图像表格还原单元，用于根据对齐方式和尺寸大小对每个图像和表格进行编辑还原。

与现有技术相比，本发明的有益效果是：

本发明能够将图像和表格从用户文件中提取出来，为每个图像和表格标记提取位置信息；然后将提取出的图像存储至图像库中，生成图像存储位置信息，将提取出的表格存储至表格库中，生成表格存储位置信息，将提取后的用户文件进行存储，生成文件存储位置信息；接收到文件读取指令时，会分布读取对应的用户文件、图像和表格，将读取到的图像和表格插入所述用户文件中，对用户文件进行还原。如此，能够同时读取一份数据的三个部分，大幅度提高了读取效率。另外，本发明能够将所有的图像和表格进行单独存储，方便用户只浏览图像或者表格信息，用户能够在短时间内获取更多直观信息。

附图说明

图1为一种数据分布式读取方法的流程图。

图2为一种数据分布式读取方法中标记提取位置信息的流程图。

图3为一种数据分布式读取方法中将提取出的图像存储至图像库中的流程图。

图4为一种数据分布式读取方法中将所述图像与图像库中的图像进行相似度对比的流程图。

图5为一种数据分布式读取方法中将读取到的图像和表格插入所述用户文件的流程图。

图6为一种数据分布式读取系统的结构示意图。

图7为一种数据分布式读取系统中图像表格提取模块的结构示意图。

图8为一种数据分布式读取系统中图像表格存储模块的结构示意图。

图9为一种数据分布式读取系统中相似度对比单元的结构示意图。

图10为一种数据分布式读取系统中数据分布读取模块的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清晰，以下结合附图及具体实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下结合具体实施例对本发明的具体实现进行详细描述。

如图1所示，本发明实施例提供了一种数据分布式读取方法，所述方法包括以下步骤：

S100，接收上传的用户文件，所述用户文件包括文件名，对用户文件中的图像和表格进行识别；

S200，将识别出的图像和表格从用户文件中提取出来，为每个图像和表格标记提取位置信息；

S300，将提取出的图像存储至图像库中，生成图像存储位置信息，将图像存储位置信息与对应的提取位置信息进行绑定；将提取出的表格存储至表格库中，生成表格存储位置信息，将表格存储位置信息与对应的提取位置信息进行绑定；

S400，将提取后的用户文件进行存储，生成文件存储位置信息，将文件存储位置信息与图像存储位置信息以及表格存储位置信息进行绑定；

S500，接收文件读取指令，所述文件读取指令包括文件名和文件存储位置信息，确定文件存储位置信息对应的图像存储位置信息和表格存储位置信息；

S600，分布读取对应的用户文件、图像和表格，将读取到的图像和表格插入所述用户文件中，对用户文件进行还原。

本发明实施例中，当接收到用户上传的用户文件，会对用户文件中的图像和表格进行识别，将识别出的图像和表格从用户文件中提取出来，并为每个图像和表格标记上提取位置信息，如此，将用户文件的文本部分、图像部分以及表格拆分开了，为后续的分布式读取做好准备；存储服务器中单独设置有图像库和表格库，将提取出的图像存储至图像库中，生成图像存储位置信息，将图像存储位置信息与对应的提取位置信息进行绑定；同时将提取出的表格存储至表格库中，生成表格存储位置信息，将表格存储位置信息与对应的提取位置信息进行绑定；接着将提取后的用户文件进行存储，生成文件存储位置信息，并将文件存储位置信息与对应的图像存储位置信息以及表格存储位置信息进行绑定；当用户需要读取某份文件时，输入文件读取指令，会分布读取对应的用户文件、图像和表格，将读取到的图像和表格插入所述用户文件中，如此，能够同时读取一份数据的三个部分，大幅度提高了读取效率。另外，本发明实施例将所有的图像和表格进行单独的存储，方便用户只浏览图像或者表格信息，用户能够在短时间内获取更多直观信息。

如图2所示，作为本发明一个优选的实施例，所述为每个图像和表格标记提取位置信息的步骤，具体包括：

S201，提取每个图像和表格时，记录提取位置；

S202，识别每个图像和表格的对齐方式和尺寸大小，对提取位置、对齐方式和尺寸大小进行整合得到提取位置信息；

S203，将每个提取位置信息标记在对应的图像或者表格上。

本发明实施例中，在提取每个图像和表格时，都会记录提取位置，并识别每个图像和表格的对齐方式和尺寸大小，如此，以后在插入图像和表格时，能够快速将图像和表格插入到对应的位置，且能够保证图像和表格的对齐方式以及尺寸大小与原先一致，避免了乱码。

如图3所示，作为本发明一个优选的实施例，所述将提取出的图像存储至图像库中，生成图像存储位置信息的步骤，具体包括：

S301，将提取出的图像发送至图像库中，将所述图像与图像库中的所有图像进行相似度对比；

S302，当所述图像与图像库中的某一个图像相同时，将所述图像删除，相同图像的存储位置即为图像存储位置信息；当所述图像与图像库中任何一个图像不相同时，对所述图像进行存储，得到图像存储位置信息。

本发明实施例中，容易理解，图像占用的存储空间相对较大，且存储服务器中往往存在很多相同的图像，占用了不必要的空间，因此本发明实施例在将提取出的图像发送至图像库中，会将所述图像与图像库中的所有图像进行相似度对比，当所述图像与图像库中的某一个图像相同时，将所述图像删除，相同图像的存储位置即为图像存储位置信息，如此，本发明实施例通过将用户文件中的图像提取出来，并与所有的图像进行对比，避免存储相同的图像，能够有效降低数据的占用空间。

如图4所示，作为本发明一个优选的实施例，将所述图像与图像库中的图像进行相似度对比的步骤，具体包括：

S3011，根据图像库中的图像对所述图像进行尺寸缩放，使得两者的尺寸相同；

S3012，用基于DCT的hash方法分别计算所述图像与图像库中图像的hash值，得到h_1和h_2；

S3013，计算h_1和h_2之间的汉明距离dis_h；

S3014，根据汉明距离dis_h计算得到所述图像与图像库中图像之间的相似度，当相似度大于设定相似值时，判定两张图像相同。

本发明实施例中，需要将提取出的图像与图像库中的每个图像进行相似度对比，每次对比时，根据图像库中的图像对所述图像进行尺寸缩放，使得两者的尺寸相同，然后计算两者之间的相似度，当相似度大于设定相似值时，例如设定相似值为98%，判定两张图像相同，其中DCT为离散余弦变换；hash是指散列函数，是把任意长度的输入通过散列算法变换成固定长度的输出，该输出就是散列值。计算图像之间的相似度为现有的成熟技术，这里不再赘述。

如图5所示，作为本发明一个优选的实施例，所述将读取到的图像和表格插入所述用户文件中的步骤，具体包括：

S601，调取每个图像和表格对应的提取位置信息；

S602，根据提取位置信息中的提取位置将每个图像和表格插入至用户文件中的对应位置；

S603，根据对齐方式和尺寸大小对每个图像和表格进行编辑还原。

本发明实施例中，对用户文件进行还原时，会根据提取位置信息中的提取位置将每个图像和表格插入至用户文件中的正确位置，并根据对齐方式和尺寸大小对每个图像和表格进行编辑，使得图像和表格与原先相同。

如图6所示，本发明实施例还提供了一种数据分布式读取系统，所述系统包括：

用户文件上传模块100，用于接收上传的用户文件，所述用户文件包括文件名，对用户文件中的图像和表格进行识别；

图像表格提取模块200，用于将识别出的图像和表格从用户文件中提取出来，为每个图像和表格标记提取位置信息；

图像表格存储模块300，用于将提取出的图像存储至图像库中，生成图像存储位置信息，将图像存储位置信息与对应的提取位置信息进行绑定；将提取出的表格存储至表格库中，生成表格存储位置信息，将表格存储位置信息与对应的提取位置信息进行绑定；

用户文件存储模块400，用于将提取后的用户文件进行存储，生成文件存储位置信息，将文件存储位置信息与图像存储位置信息以及表格存储位置信息进行绑定；

读取指令接收模块500，用于接收文件读取指令，所述文件读取指令包括文件名和文件存储位置信息，确定文件存储位置信息对应的图像存储位置信息和表格存储位置信息；

数据分布读取模块600，用于分布读取对应的用户文件、图像和表格，将读取到的图像和表格插入所述用户文件中，对用户文件进行还原。

如图7所示，作为本发明一个优选的实施例，所述图像表格提取模块200包括：

提取位置记录单元201，用于提取每个图像和表格时，记录提取位置；

位置信息整合单元202，用于识别每个图像和表格的对齐方式和尺寸大小，对提取位置、对齐方式和尺寸大小进行整合得到提取位置信息；

位置信息标记单元203，用于将每个提取位置信息标记在对应的图像或者表格上。

如图8所示，作为本发明一个优选的实施例，所述图像表格存储模块300包括：

相似度对比单元301，用于将提取出的图像发送至图像库中，将所述图像与图像库中的所有图像进行相似度对比；

图像存储处理单元302，当所述图像与图像库中的某一个图像相同时，将所述图像删除，相同图像的存储位置即为图像存储位置信息；当所述图像与图像库中任何一个图像不相同时，对所述图像进行存储，得到图像存储位置信息。

如图9所示，作为本发明一个优选的实施例，所述相似度对比单元301包括：

尺寸缩放子单元3011，用于根据图像库中的图像对所述图像进行尺寸缩放，使得两者的尺寸相同；

hash值确定子单元3012，用基于DCT的hash方法分别计算所述图像与图像库中图像的hash值，得到h_1和h_2；

汉明距离子单元3013，用于计算h_1和h_2之间的汉明距离dis_h；

相似度计算子单元3014，用于根据汉明距离dis_h计算得到所述图像与图像库中图像之间的相似度，当相似度大于设定相似值时，判定两张图像相同。

如图10所示，作为本发明一个优选的实施例，所述数据分布读取模块600包括：

位置信息调取单元601，用于调取每个图像和表格对应的提取位置信息；

图像表格插入单元602，用于根据提取位置信息中的提取位置将每个图像和表格插入至用户文件中的对应位置；

图像表格还原单元603，用于根据对齐方式和尺寸大小对每个图像和表格进行编辑还原。

以上仅对本发明的较佳实施例进行了详细叙述，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

本领域技术人员在考虑说明书及实施例处的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

Claims

1.一种数据分布式读取方法，其特征在于，所述方法包括以下步骤：

分布读取对应的用户文件、图像和表格，将读取到的图像和表格插入所述用户文件中，对用户文件进行还原；

其中，所述为每个图像和表格标记提取位置信息的步骤，具体包括：提取每个图像和表格时，记录提取位置；识别每个图像和表格的对齐方式和尺寸大小，对提取位置、对齐方式和尺寸大小进行整合得到提取位置信息；将每个提取位置信息标记在对应的图像或者表格上。

2.根据权利要求1所述的数据分布式读取方法，其特征在于，所述将提取出的图像存储至图像库中，生成图像存储位置信息的步骤，具体包括：

3.根据权利要求2所述的数据分布式读取方法，其特征在于，将所述图像与图像库中的图像进行相似度对比的步骤，具体包括：

计算h_1和h_2之间的汉明距离dis_h；

4.根据权利要求1所述的数据分布式读取方法，其特征在于，所述将读取到的图像和表格插入所述用户文件中的步骤，具体包括：

调取每个图像和表格对应的提取位置信息；

根据对齐方式和尺寸大小对每个图像和表格进行编辑还原。

5.一种数据分布式读取系统，其特征在于，所述系统包括：

数据分布读取模块，用于分布读取对应的用户文件、图像和表格，将读取到的图像和表格插入所述用户文件中，对用户文件进行还原；

其中，所述图像表格提取模块包括：提取位置记录单元，用于提取每个图像和表格时，记录提取位置；位置信息整合单元，用于识别每个图像和表格的对齐方式和尺寸大小，对提取位置、对齐方式和尺寸大小进行整合得到提取位置信息；位置信息标记单元，用于将每个提取位置信息标记在对应的图像或者表格上。

6.根据权利要求5所述的数据分布式读取系统，其特征在于，所述图像表格存储模块包括：

7.根据权利要求6所述的数据分布式读取系统，其特征在于，所述相似度对比单元包括：

汉明距离子单元，用于计算h_1和h_2之间的汉明距离dis_h；

8.根据权利要求5所述的数据分布式读取系统，其特征在于，所述数据分布读取模块包括：