CN116107979B - 一种数据分布式读取方法及系统 - Google Patents

一种数据分布式读取方法及系统 Download PDF

Info

Publication number
CN116107979B
CN116107979B CN202310395168.6A CN202310395168A CN116107979B CN 116107979 B CN116107979 B CN 116107979B CN 202310395168 A CN202310395168 A CN 202310395168A CN 116107979 B CN116107979 B CN 116107979B
Authority
CN
China
Prior art keywords
image
position information
images
file
storage position
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310395168.6A
Other languages
English (en)
Other versions
CN116107979A (zh
Inventor
燕金龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Big Bear Group Co ltd
Original Assignee
Big Bear Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Big Bear Group Co ltd filed Critical Big Bear Group Co ltd
Priority to CN202310395168.6A priority Critical patent/CN116107979B/zh
Publication of CN116107979A publication Critical patent/CN116107979A/zh
Application granted granted Critical
Publication of CN116107979B publication Critical patent/CN116107979B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • G06F40/18Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/19007Matching; Proximity measures
    • G06V30/19093Proximity measures, i.e. similarity or distance measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明适用于数据读取技术领域,提供了一种数据分布式读取方法及系统,包括以下步骤:接收上传的用户文件,将识别出的图像和表格从用户文件中提取出来,为每个图像和表格标记提取位置信息;将提取出的图像存储至图像库中,生成图像存储位置信息,将提取出的表格存储至表格库中,生成表格存储位置信息,将提取后的用户文件进行存储,生成文件存储位置信息;接收文件读取指令,分布读取对应的用户文件、图像和表格,将读取到的图像和表格插入所述用户文件中,对用户文件进行还原。如此,能够同时读取一份数据的三个部分,大幅度提高了读取效率。另外,本发明能够将所有的图像和表格进行单独的存储,方便用户只浏览图像或者表格信息。

Description

一种数据分布式读取方法及系统
技术领域
本发明涉及数据读取技术领域,具体是涉及一种数据分布式读取方法及系统。
背景技术
分布式数据处理是指将原先集中在单节点上的庞大计算任务被负载均衡地分派给分布式网络中的计算机上并行地进行处理计算,大幅度提高了数据处理的效率,然而分布式数据处理不便于直接应用在一份数据的读取上,目前读取一份数据时,没有将数据分割成多个部分进行分布式的读取,如果一份数据的量较大时,特别是数据中包含大量的图表时,读取加载的速度较为缓慢。因此,需要提供一种数据分布式读取方法及系统,旨在解决或者缓解上述问题。
发明内容
针对现有技术存在的不足,本发明的目的在于提供一种数据分布式读取方法及系统,以解决或者缓解上述背景技术中存在的问题。
本发明是这样实现的,一种数据分布式读取方法,所述方法包括以下步骤:
接收上传的用户文件,所述用户文件包括文件名,对用户文件中的图像和表格进行识别;
将识别出的图像和表格从用户文件中提取出来,为每个图像和表格标记提取位置信息;
将提取出的图像存储至图像库中,生成图像存储位置信息,将图像存储位置信息与对应的提取位置信息进行绑定;将提取出的表格存储至表格库中,生成表格存储位置信息,将表格存储位置信息与对应的提取位置信息进行绑定;
将提取后的用户文件进行存储,生成文件存储位置信息,将文件存储位置信息与图像存储位置信息以及表格存储位置信息进行绑定;
接收文件读取指令,所述文件读取指令包括文件名和文件存储位置信息,确定文件存储位置信息对应的图像存储位置信息和表格存储位置信息;
分布读取对应的用户文件、图像和表格,将读取到的图像和表格插入所述用户文件中,对用户文件进行还原。
作为本发明进一步的方案:所述为每个图像和表格标记提取位置信息的步骤,具体包括:
提取每个图像和表格时,记录提取位置;
识别每个图像和表格的对齐方式和尺寸大小,对提取位置、对齐方式和尺寸大小进行整合得到提取位置信息;
将每个提取位置信息标记在对应的图像或者表格上。
作为本发明进一步的方案:所述将提取出的图像存储至图像库中,生成图像存储位置信息的步骤,具体包括:
将提取出的图像发送至图像库中,将所述图像与图像库中的所有图像进行相似度对比;
当所述图像与图像库中的某一个图像相同时,将所述图像删除,相同图像的存储位置即为图像存储位置信息;当所述图像与图像库中任何一个图像不相同时,对所述图像进行存储,得到图像存储位置信息。
作为本发明进一步的方案:将所述图像与图像库中的图像进行相似度对比的步骤,具体包括:
根据图像库中的图像对所述图像进行尺寸缩放,使得两者的尺寸相同;
用基于DCT的hash方法分别计算所述图像与图像库中图像的hash值,得到h_1和h_2;
计算h_1和h_2之间的汉明距离dis_h;
根据汉明距离dis_h计算得到所述图像与图像库中图像之间的相似度,当相似度大于设定相似值时,判定两张图像相同。
作为本发明进一步的方案:所述将读取到的图像和表格插入所述用户文件中的步骤,具体包括:
调取每个图像和表格对应的提取位置信息;
根据提取位置信息中的提取位置将每个图像和表格插入至用户文件中的对应位置;
根据对齐方式和尺寸大小对每个图像和表格进行编辑还原。
本发明的另一目的在于提供一种数据分布式读取系统,所述系统包括:
用户文件上传模块,用于接收上传的用户文件,所述用户文件包括文件名,对用户文件中的图像和表格进行识别;
图像表格提取模块,用于将识别出的图像和表格从用户文件中提取出来,为每个图像和表格标记提取位置信息;
图像表格存储模块,用于将提取出的图像存储至图像库中,生成图像存储位置信息,将图像存储位置信息与对应的提取位置信息进行绑定;将提取出的表格存储至表格库中,生成表格存储位置信息,将表格存储位置信息与对应的提取位置信息进行绑定;
用户文件存储模块,用于将提取后的用户文件进行存储,生成文件存储位置信息,将文件存储位置信息与图像存储位置信息以及表格存储位置信息进行绑定;
读取指令接收模块,用于接收文件读取指令,所述文件读取指令包括文件名和文件存储位置信息,确定文件存储位置信息对应的图像存储位置信息和表格存储位置信息;
数据分布读取模块,用于分布读取对应的用户文件、图像和表格,将读取到的图像和表格插入所述用户文件中,对用户文件进行还原。
作为本发明进一步的方案:所述图像表格提取模块包括:
提取位置记录单元,用于提取每个图像和表格时,记录提取位置;
位置信息整合单元,用于识别每个图像和表格的对齐方式和尺寸大小,对提取位置、对齐方式和尺寸大小进行整合得到提取位置信息;
位置信息标记单元,用于将每个提取位置信息标记在对应的图像或者表格上。
作为本发明进一步的方案:所述图像表格存储模块包括:
相似度对比单元,用于将提取出的图像发送至图像库中,将所述图像与图像库中的所有图像进行相似度对比;
图像存储处理单元,当所述图像与图像库中的某一个图像相同时,将所述图像删除,相同图像的存储位置即为图像存储位置信息;当所述图像与图像库中任何一个图像不相同时,对所述图像进行存储,得到图像存储位置信息。
作为本发明进一步的方案:所述相似度对比单元包括:
尺寸缩放子单元,用于根据图像库中的图像对所述图像进行尺寸缩放,使得两者的尺寸相同;
hash值确定子单元,用基于DCT的hash方法分别计算所述图像与图像库中图像的hash值,得到h_1和h_2;
汉明距离子单元,用于计算h_1和h_2之间的汉明距离dis_h;
相似度计算子单元,用于根据汉明距离dis_h计算得到所述图像与图像库中图像之间的相似度,当相似度大于设定相似值时,判定两张图像相同。
作为本发明进一步的方案:所述数据分布读取模块包括:
位置信息调取单元,用于调取每个图像和表格对应的提取位置信息;
图像表格插入单元,用于根据提取位置信息中的提取位置将每个图像和表格插入至用户文件中的对应位置;
图像表格还原单元,用于根据对齐方式和尺寸大小对每个图像和表格进行编辑还原。
与现有技术相比,本发明的有益效果是:
本发明能够将图像和表格从用户文件中提取出来,为每个图像和表格标记提取位置信息;然后将提取出的图像存储至图像库中,生成图像存储位置信息,将提取出的表格存储至表格库中,生成表格存储位置信息,将提取后的用户文件进行存储,生成文件存储位置信息;接收到文件读取指令时,会分布读取对应的用户文件、图像和表格,将读取到的图像和表格插入所述用户文件中,对用户文件进行还原。如此,能够同时读取一份数据的三个部分,大幅度提高了读取效率。另外,本发明能够将所有的图像和表格进行单独存储,方便用户只浏览图像或者表格信息,用户能够在短时间内获取更多直观信息。
附图说明
图1为一种数据分布式读取方法的流程图。
图2为一种数据分布式读取方法中标记提取位置信息的流程图。
图3为一种数据分布式读取方法中将提取出的图像存储至图像库中的流程图。
图4为一种数据分布式读取方法中将所述图像与图像库中的图像进行相似度对比的流程图。
图5为一种数据分布式读取方法中将读取到的图像和表格插入所述用户文件的流程图。
图6为一种数据分布式读取系统的结构示意图。
图7为一种数据分布式读取系统中图像表格提取模块的结构示意图。
图8为一种数据分布式读取系统中图像表格存储模块的结构示意图。
图9为一种数据分布式读取系统中相似度对比单元的结构示意图。
图10为一种数据分布式读取系统中数据分布读取模块的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清晰,以下结合附图及具体实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下结合具体实施例对本发明的具体实现进行详细描述。
如图1所示,本发明实施例提供了一种数据分布式读取方法,所述方法包括以下步骤:
S100,接收上传的用户文件,所述用户文件包括文件名,对用户文件中的图像和表格进行识别;
S200,将识别出的图像和表格从用户文件中提取出来,为每个图像和表格标记提取位置信息;
S300,将提取出的图像存储至图像库中,生成图像存储位置信息,将图像存储位置信息与对应的提取位置信息进行绑定;将提取出的表格存储至表格库中,生成表格存储位置信息,将表格存储位置信息与对应的提取位置信息进行绑定;
S400,将提取后的用户文件进行存储,生成文件存储位置信息,将文件存储位置信息与图像存储位置信息以及表格存储位置信息进行绑定;
S500,接收文件读取指令,所述文件读取指令包括文件名和文件存储位置信息,确定文件存储位置信息对应的图像存储位置信息和表格存储位置信息;
S600,分布读取对应的用户文件、图像和表格,将读取到的图像和表格插入所述用户文件中,对用户文件进行还原。
本发明实施例中,当接收到用户上传的用户文件,会对用户文件中的图像和表格进行识别,将识别出的图像和表格从用户文件中提取出来,并为每个图像和表格标记上提取位置信息,如此,将用户文件的文本部分、图像部分以及表格拆分开了,为后续的分布式读取做好准备;存储服务器中单独设置有图像库和表格库,将提取出的图像存储至图像库中,生成图像存储位置信息,将图像存储位置信息与对应的提取位置信息进行绑定;同时将提取出的表格存储至表格库中,生成表格存储位置信息,将表格存储位置信息与对应的提取位置信息进行绑定;接着将提取后的用户文件进行存储,生成文件存储位置信息,并将文件存储位置信息与对应的图像存储位置信息以及表格存储位置信息进行绑定;当用户需要读取某份文件时,输入文件读取指令,会分布读取对应的用户文件、图像和表格,将读取到的图像和表格插入所述用户文件中,如此,能够同时读取一份数据的三个部分,大幅度提高了读取效率。另外,本发明实施例将所有的图像和表格进行单独的存储,方便用户只浏览图像或者表格信息,用户能够在短时间内获取更多直观信息。
如图2所示,作为本发明一个优选的实施例,所述为每个图像和表格标记提取位置信息的步骤,具体包括:
S201,提取每个图像和表格时,记录提取位置;
S202,识别每个图像和表格的对齐方式和尺寸大小,对提取位置、对齐方式和尺寸大小进行整合得到提取位置信息;
S203,将每个提取位置信息标记在对应的图像或者表格上。
本发明实施例中,在提取每个图像和表格时,都会记录提取位置,并识别每个图像和表格的对齐方式和尺寸大小,如此,以后在插入图像和表格时,能够快速将图像和表格插入到对应的位置,且能够保证图像和表格的对齐方式以及尺寸大小与原先一致,避免了乱码。
如图3所示,作为本发明一个优选的实施例,所述将提取出的图像存储至图像库中,生成图像存储位置信息的步骤,具体包括:
S301,将提取出的图像发送至图像库中,将所述图像与图像库中的所有图像进行相似度对比;
S302,当所述图像与图像库中的某一个图像相同时,将所述图像删除,相同图像的存储位置即为图像存储位置信息;当所述图像与图像库中任何一个图像不相同时,对所述图像进行存储,得到图像存储位置信息。
本发明实施例中,容易理解,图像占用的存储空间相对较大,且存储服务器中往往存在很多相同的图像,占用了不必要的空间,因此本发明实施例在将提取出的图像发送至图像库中,会将所述图像与图像库中的所有图像进行相似度对比,当所述图像与图像库中的某一个图像相同时,将所述图像删除,相同图像的存储位置即为图像存储位置信息,如此,本发明实施例通过将用户文件中的图像提取出来,并与所有的图像进行对比,避免存储相同的图像,能够有效降低数据的占用空间。
如图4所示,作为本发明一个优选的实施例,将所述图像与图像库中的图像进行相似度对比的步骤,具体包括:
S3011,根据图像库中的图像对所述图像进行尺寸缩放,使得两者的尺寸相同;
S3012,用基于DCT的hash方法分别计算所述图像与图像库中图像的hash值,得到h_1和h_2;
S3013,计算h_1和h_2之间的汉明距离dis_h;
S3014,根据汉明距离dis_h计算得到所述图像与图像库中图像之间的相似度,当相似度大于设定相似值时,判定两张图像相同。
本发明实施例中,需要将提取出的图像与图像库中的每个图像进行相似度对比,每次对比时,根据图像库中的图像对所述图像进行尺寸缩放,使得两者的尺寸相同,然后计算两者之间的相似度,当相似度大于设定相似值时,例如设定相似值为98%,判定两张图像相同,其中DCT为离散余弦变换;hash是指散列函数,是把任意长度的输入通过散列算法变换成固定长度的输出,该输出就是散列值。计算图像之间的相似度为现有的成熟技术,这里不再赘述。
如图5所示,作为本发明一个优选的实施例,所述将读取到的图像和表格插入所述用户文件中的步骤,具体包括:
S601,调取每个图像和表格对应的提取位置信息;
S602,根据提取位置信息中的提取位置将每个图像和表格插入至用户文件中的对应位置;
S603,根据对齐方式和尺寸大小对每个图像和表格进行编辑还原。
本发明实施例中,对用户文件进行还原时,会根据提取位置信息中的提取位置将每个图像和表格插入至用户文件中的正确位置,并根据对齐方式和尺寸大小对每个图像和表格进行编辑,使得图像和表格与原先相同。
如图6所示,本发明实施例还提供了一种数据分布式读取系统,所述系统包括:
用户文件上传模块100,用于接收上传的用户文件,所述用户文件包括文件名,对用户文件中的图像和表格进行识别;
图像表格提取模块200,用于将识别出的图像和表格从用户文件中提取出来,为每个图像和表格标记提取位置信息;
图像表格存储模块300,用于将提取出的图像存储至图像库中,生成图像存储位置信息,将图像存储位置信息与对应的提取位置信息进行绑定;将提取出的表格存储至表格库中,生成表格存储位置信息,将表格存储位置信息与对应的提取位置信息进行绑定;
用户文件存储模块400,用于将提取后的用户文件进行存储,生成文件存储位置信息,将文件存储位置信息与图像存储位置信息以及表格存储位置信息进行绑定;
读取指令接收模块500,用于接收文件读取指令,所述文件读取指令包括文件名和文件存储位置信息,确定文件存储位置信息对应的图像存储位置信息和表格存储位置信息;
数据分布读取模块600,用于分布读取对应的用户文件、图像和表格,将读取到的图像和表格插入所述用户文件中,对用户文件进行还原。
如图7所示,作为本发明一个优选的实施例,所述图像表格提取模块200包括:
提取位置记录单元201,用于提取每个图像和表格时,记录提取位置;
位置信息整合单元202,用于识别每个图像和表格的对齐方式和尺寸大小,对提取位置、对齐方式和尺寸大小进行整合得到提取位置信息;
位置信息标记单元203,用于将每个提取位置信息标记在对应的图像或者表格上。
如图8所示,作为本发明一个优选的实施例,所述图像表格存储模块300包括:
相似度对比单元301,用于将提取出的图像发送至图像库中,将所述图像与图像库中的所有图像进行相似度对比;
图像存储处理单元302,当所述图像与图像库中的某一个图像相同时,将所述图像删除,相同图像的存储位置即为图像存储位置信息;当所述图像与图像库中任何一个图像不相同时,对所述图像进行存储,得到图像存储位置信息。
如图9所示,作为本发明一个优选的实施例,所述相似度对比单元301包括:
尺寸缩放子单元3011,用于根据图像库中的图像对所述图像进行尺寸缩放,使得两者的尺寸相同;
hash值确定子单元3012,用基于DCT的hash方法分别计算所述图像与图像库中图像的hash值,得到h_1和h_2;
汉明距离子单元3013,用于计算h_1和h_2之间的汉明距离dis_h;
相似度计算子单元3014,用于根据汉明距离dis_h计算得到所述图像与图像库中图像之间的相似度,当相似度大于设定相似值时,判定两张图像相同。
如图10所示,作为本发明一个优选的实施例,所述数据分布读取模块600包括:
位置信息调取单元601,用于调取每个图像和表格对应的提取位置信息;
图像表格插入单元602,用于根据提取位置信息中的提取位置将每个图像和表格插入至用户文件中的对应位置;
图像表格还原单元603,用于根据对齐方式和尺寸大小对每个图像和表格进行编辑还原。
以上仅对本发明的较佳实施例进行了详细叙述,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
本领域技术人员在考虑说明书及实施例处的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。

Claims (8)

1.一种数据分布式读取方法,其特征在于,所述方法包括以下步骤:
接收上传的用户文件,所述用户文件包括文件名,对用户文件中的图像和表格进行识别;
将识别出的图像和表格从用户文件中提取出来,为每个图像和表格标记提取位置信息;
将提取出的图像存储至图像库中,生成图像存储位置信息,将图像存储位置信息与对应的提取位置信息进行绑定;将提取出的表格存储至表格库中,生成表格存储位置信息,将表格存储位置信息与对应的提取位置信息进行绑定;
将提取后的用户文件进行存储,生成文件存储位置信息,将文件存储位置信息与图像存储位置信息以及表格存储位置信息进行绑定;
接收文件读取指令,所述文件读取指令包括文件名和文件存储位置信息,确定文件存储位置信息对应的图像存储位置信息和表格存储位置信息;
分布读取对应的用户文件、图像和表格,将读取到的图像和表格插入所述用户文件中,对用户文件进行还原;
其中,所述为每个图像和表格标记提取位置信息的步骤,具体包括:提取每个图像和表格时,记录提取位置;识别每个图像和表格的对齐方式和尺寸大小,对提取位置、对齐方式和尺寸大小进行整合得到提取位置信息;将每个提取位置信息标记在对应的图像或者表格上。
2.根据权利要求1所述的数据分布式读取方法,其特征在于,所述将提取出的图像存储至图像库中,生成图像存储位置信息的步骤,具体包括:
将提取出的图像发送至图像库中,将所述图像与图像库中的所有图像进行相似度对比;
当所述图像与图像库中的某一个图像相同时,将所述图像删除,相同图像的存储位置即为图像存储位置信息;当所述图像与图像库中任何一个图像不相同时,对所述图像进行存储,得到图像存储位置信息。
3.根据权利要求2所述的数据分布式读取方法,其特征在于,将所述图像与图像库中的图像进行相似度对比的步骤,具体包括:
根据图像库中的图像对所述图像进行尺寸缩放,使得两者的尺寸相同;
用基于DCT的hash方法分别计算所述图像与图像库中图像的hash值,得到h_1和h_2;
计算h_1和h_2之间的汉明距离dis_h;
根据汉明距离dis_h计算得到所述图像与图像库中图像之间的相似度,当相似度大于设定相似值时,判定两张图像相同。
4.根据权利要求1所述的数据分布式读取方法,其特征在于,所述将读取到的图像和表格插入所述用户文件中的步骤,具体包括:
调取每个图像和表格对应的提取位置信息;
根据提取位置信息中的提取位置将每个图像和表格插入至用户文件中的对应位置;
根据对齐方式和尺寸大小对每个图像和表格进行编辑还原。
5.一种数据分布式读取系统,其特征在于,所述系统包括:
用户文件上传模块,用于接收上传的用户文件,所述用户文件包括文件名,对用户文件中的图像和表格进行识别;
图像表格提取模块,用于将识别出的图像和表格从用户文件中提取出来,为每个图像和表格标记提取位置信息;
图像表格存储模块,用于将提取出的图像存储至图像库中,生成图像存储位置信息,将图像存储位置信息与对应的提取位置信息进行绑定;将提取出的表格存储至表格库中,生成表格存储位置信息,将表格存储位置信息与对应的提取位置信息进行绑定;
用户文件存储模块,用于将提取后的用户文件进行存储,生成文件存储位置信息,将文件存储位置信息与图像存储位置信息以及表格存储位置信息进行绑定;
读取指令接收模块,用于接收文件读取指令,所述文件读取指令包括文件名和文件存储位置信息,确定文件存储位置信息对应的图像存储位置信息和表格存储位置信息;
数据分布读取模块,用于分布读取对应的用户文件、图像和表格,将读取到的图像和表格插入所述用户文件中,对用户文件进行还原;
其中,所述图像表格提取模块包括:提取位置记录单元,用于提取每个图像和表格时,记录提取位置;位置信息整合单元,用于识别每个图像和表格的对齐方式和尺寸大小,对提取位置、对齐方式和尺寸大小进行整合得到提取位置信息;位置信息标记单元,用于将每个提取位置信息标记在对应的图像或者表格上。
6.根据权利要求5所述的数据分布式读取系统,其特征在于,所述图像表格存储模块包括:
相似度对比单元,用于将提取出的图像发送至图像库中,将所述图像与图像库中的所有图像进行相似度对比;
图像存储处理单元,当所述图像与图像库中的某一个图像相同时,将所述图像删除,相同图像的存储位置即为图像存储位置信息;当所述图像与图像库中任何一个图像不相同时,对所述图像进行存储,得到图像存储位置信息。
7.根据权利要求6所述的数据分布式读取系统,其特征在于,所述相似度对比单元包括:
尺寸缩放子单元,用于根据图像库中的图像对所述图像进行尺寸缩放,使得两者的尺寸相同;
hash值确定子单元,用基于DCT的hash方法分别计算所述图像与图像库中图像的hash值,得到h_1和h_2;
汉明距离子单元,用于计算h_1和h_2之间的汉明距离dis_h;
相似度计算子单元,用于根据汉明距离dis_h计算得到所述图像与图像库中图像之间的相似度,当相似度大于设定相似值时,判定两张图像相同。
8.根据权利要求5所述的数据分布式读取系统,其特征在于,所述数据分布读取模块包括:
位置信息调取单元,用于调取每个图像和表格对应的提取位置信息;
图像表格插入单元,用于根据提取位置信息中的提取位置将每个图像和表格插入至用户文件中的对应位置;
图像表格还原单元,用于根据对齐方式和尺寸大小对每个图像和表格进行编辑还原。
CN202310395168.6A 2023-04-14 2023-04-14 一种数据分布式读取方法及系统 Active CN116107979B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310395168.6A CN116107979B (zh) 2023-04-14 2023-04-14 一种数据分布式读取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310395168.6A CN116107979B (zh) 2023-04-14 2023-04-14 一种数据分布式读取方法及系统

Publications (2)

Publication Number Publication Date
CN116107979A CN116107979A (zh) 2023-05-12
CN116107979B true CN116107979B (zh) 2023-06-27

Family

ID=86260186

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310395168.6A Active CN116107979B (zh) 2023-04-14 2023-04-14 一种数据分布式读取方法及系统

Country Status (1)

Country Link
CN (1) CN116107979B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008071050A (ja) * 2006-09-13 2008-03-27 Sharp Corp 情報処理端末装置、情報処理装置、ファイル管理サーバ、情報処理システム、ファイル名自動生成方法、プログラムおよび記録媒体
CN114581923A (zh) * 2022-03-03 2022-06-03 众安在线财产保险股份有限公司 表格图像及对应标注信息的生成方法、装置及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101398869B (zh) * 2008-10-07 2010-04-14 深圳市蓝韵实业有限公司 一种海量数据存储方法
JP5595701B2 (ja) * 2009-09-16 2014-09-24 株式会社日立製作所 ファイル管理方法及びストレージシステム
CN102298641B (zh) * 2011-09-14 2013-05-01 清华大学 一种基于键值库的文件与结构化数据统一存储方法
CN111522791B (zh) * 2020-04-30 2023-05-30 电子科技大学 一种分布式文件重复数据删除系统及方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008071050A (ja) * 2006-09-13 2008-03-27 Sharp Corp 情報処理端末装置、情報処理装置、ファイル管理サーバ、情報処理システム、ファイル名自動生成方法、プログラムおよび記録媒体
CN114581923A (zh) * 2022-03-03 2022-06-03 众安在线财产保险股份有限公司 表格图像及对应标注信息的生成方法、装置及存储介质

Also Published As

Publication number Publication date
CN116107979A (zh) 2023-05-12

Similar Documents

Publication Publication Date Title
EP3624398B1 (en) Storage capacity evaluation method and apparatus based on cdn application
CN102414721B (zh) 具有多于一个操作模式的数据文件
CN109359283B (zh) 表格数据的汇总方法、终端设备及介质
JP5316711B2 (ja) ファイル記憶装置、ファイル記憶方法およびプログラム
CN107911461B (zh) 云存储系统中的对象处理方法、存储服务器及云存储系统
CN106874348A (zh) 文件存储和索引方法、装置及读取文件的方法
CN110149529A (zh) 媒体信息的处理方法、服务器及存储介质
CN112463026A (zh) 分布式对象存储系统中追加数据的重复删除的方法和设备
JP6193406B2 (ja) 差分符号化のためのシリアライゼーション
CN116107979B (zh) 一种数据分布式读取方法及系统
JPWO2020015613A5 (zh)
CN112286457B (zh) 对象重删方法、装置、电子设备及机器可读存储介质
CN111680030A (zh) 数据融合方法及装置,基于元信息的数据处理方法和装置
CN110413684A (zh) 一种数据库同步方法、装置及系统
CN110232047B (zh) Cad文件的时间线管理系统、方法、计算机可读存储介质及计算机终端
CN112463734A (zh) 一种文件检索方法、系统及相关装置
TWI420333B (zh) 分散式的重複數據刪除系統及其處理方法
CN104822076A (zh) 一种数据的分发方法及装置
CN111651531B (zh) 数据导入方法、装置、设备及计算机存储介质
EP2336911A1 (en) Efficient change tracking of transcoded copies
US20110138078A1 (en) Compressing photos for devices
CN111967226A (zh) 一种文档格式转换方法、设备及介质
CN113535404B (zh) 数据管控方法、系统、装置和介质
CN106411975B (zh) 一种数据输出方法、装置及计算机可读取存储介质
Thompson et al. Embedded metadata patterns across web sharing Environments

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant