CN113033269B - 一种数据处理方法及装置 - Google Patents

一种数据处理方法及装置 Download PDF

Info

Publication number
CN113033269B
CN113033269B CN201911359781.2A CN201911359781A CN113033269B CN 113033269 B CN113033269 B CN 113033269B CN 201911359781 A CN201911359781 A CN 201911359781A CN 113033269 B CN113033269 B CN 113033269B
Authority
CN
China
Prior art keywords
data
image
text
image block
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911359781.2A
Other languages
English (en)
Other versions
CN113033269A (zh
Inventor
乔健
罗嘉文
王靓伟
郑荣福
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technical Service Co Ltd
Original Assignee
Huawei Technical Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technical Service Co Ltd filed Critical Huawei Technical Service Co Ltd
Priority to CN201911359781.2A priority Critical patent/CN113033269B/zh
Publication of CN113033269A publication Critical patent/CN113033269A/zh
Application granted granted Critical
Publication of CN113033269B publication Critical patent/CN113033269B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Processing Or Creating Images (AREA)
  • Character Input (AREA)

Abstract

本发明实施例公开一种数据处理方法及装置,该方法包括:获取包括多张图像的待处理数据,多张图像包括文字;确定多张图像包括的图像块的类型和位置,图像块的类型包括文字;根据图像块的类型和图像块的位置,提取图像块中的数据以及数据之间的逻辑关系,该数据包括文字以及文字的文字特征;根据逻辑关系对数据进行结构化处理,得到结构化数据。该方法可以自动提取图像中的数据,并对提取的数据进行结构化处理,可以提高数据处理效率。

Description

一种数据处理方法及装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种数据处理方法及装置。
背景技术
不同行业在不同阶段都会产生很多数据,例如,电信行业中网络部署与集成业务的勘测阶段的勘测报告记录了经纬度、站型、天线方位角下倾角等站点数据,电信行业中网络部署与集成业务的设计阶段的设计报告记录了站点的详细设计信息。在每个阶段结束后,需要由相应的工作人员对该阶段记录的数据进行整理,以便将非结构化数据转换为结构化数据。然而,上述方式中,由于工作人员需要对记录的数据进行提取、整理和转填,所需时间较长,以致降低了数据处理效率。
发明内容
本发明实施例公开了一种数据处理方法及装置,用于提高数据处理效率。
第一方面公开一种数据处理方法,获取包括多张图像的待处理数据,确定这多张图像包括的图像块的类型和位置,根据图像块的类型和该图像块的位置,提取图像块中的数据以及该数据之间的逻辑关系,根据逻辑关系对该数据进行结构化处理得到结构化数据。这多张图像包括文字,图像块的类型包括文字,该数据包括文字以及文字的文字特征。文字的文字特征可以包括文字的字体风格、字体大小和字体划线。文字的字体风格可以包括文字的字体、粗细、是否加粗、颜色等。字体划线可以包括下划线、删除线等。由于可以自动提取图像中的数据,并对提取的数据进行结构化处理,不需要人的参与,因此,可以提高数据处理效率。
作为一种可能的实施方式,确定这多张图像包括的图像块的类型和位置时,可以通过版面分析算法对这多张图像进行分析,得到这多张图像包括的图像块的类型和位置。图像块的类型可以包括文字、表格、图像、页眉、页脚、公式等。版面分析算法可以为基于文档频谱的版面分析算法(the document spectrum for page layout analysis)、基于区域沃罗诺伊图的版面分割算法(segmentation of page images using the area voronoidiagram)等。可以将一张图像按照包括数据的类型划分为不同的图像块,以便针对不同类型的图像块可以采用相应的数据提取方法提取数据,从而可以提高数据处理效率。
作为一种可能的实施方式,可以根据映射规则将结构化数据中的数据添加至文档模板得到文档,以便可以自动生成文档,从而可以提高了文档生成效率。
作为一种可能的实施方式,映射规则可以包括键值对,根据映射规则将结构化数据中的数据添加至文档模板得到文档时,可以先根据键值对中的键确定文档模板中的待填写位置,之后将结构化数据中该键值对的键对应的值添加至待填写位置,可以根据键值对将结构化数据中存在键值对关系的数据快速地添加至文档模板,可以提高文档生成效率。
作为一种可能的实施方式,可以根据业务规则从提取的数据中选取部分数据,之后根据部分数据对应的逻辑关系对部分数据进行结构化处理得到结构化数据。业务规则为所需数据的位置信息和/或所需数据要满足的条件信息。可以根据业务规则选取出需要的数据,以便只对需要的数据进行结构化,而对不需要的数据不进行结构化,可以减少需要结构化的数据,从而可以进一步提高数据处理效率。
作为一种可能的实施方式,可以根据业务规则确定多张图像包括的图像块的类型和位置,业务规则为所需数据的位置信息和/或所需数据要满足的条件信息。可以先根据业务规则确定需要提取数据的位置和类型,之后只对需要提取的类型和位置中的数据进行提取,不需要对所有图像中的所有数据进行提取,减少了数据的提取范围,因此,可以进一步提高数据处理效率。
作为一种可能的实施方式,根据业务规则确定这多张图像包括的图像块的类型和位置时,可以先获取模板图像,根据业务规则在模板图像中标记掩模区域得到标记模板图像,将这多张图像中与标记模板图像中除掩模区域之外的区域中的内容能够匹配的图像确定为待处理图像,确定待处理图像中掩模区域对应位置包括的图像块的类型和位置。可以以掩模的方式确定需要提取数据的位置和类型,之后只需要提取掩模区域中的数据即可,可以减少数据提取范围,从而可以提高数据处理效率。
作为一种可能的实施方式,根据图像块的类型和该图像块的位置提取该图像块中的数据以及数据之间的逻辑关系时,在第一图像块的类型为文字的情况下,可以根据第一图像块的位置提取第一图像块的图像特征,根据图像特征确定第一图像块中文字行的位置,根据图像特征提取文字行的位置所在文字以及文字的文字特征,根据文字行的位置确定文字行的信息,根据文字行的信息确定文字段落的信息。在根据逻辑关系对数据进行结构化处理得到结构化数据时,可以根据文字行的信息和文字段落的信息对文字以及文字的文字特征进行结构化处理得到结构化数据。第一图像块为图像块中的任一图像块。可见,不仅可以提取出文字,而且还可以提取出文字的文字特征、文字行的信息、文字段落的信息,可以保证提取较完整的信息。
作为一种可能的实施方式,提取第一图像块的图像特征时,可以通过图像特征提取网络提取第一图像块的图像特征。图像特征提取网络可以为卷积神经网络(convolutional neural networks,CNN)等。
作为一种可能的实施方式,根据图像特征确定第一图像块中文字行的位置时,可以通过文字行定位网络根据图像特征确定第一图像块中文字行的位置。文字行定位网络可以为基于连接预选框网络的文本检测(detecting text in natural image withconnectionist text proposal network,CTPN)、基于渐进尺度扩展网络的形状鲁棒文本检测(shape robust text detection with progressive scale expansion network,PSENet)、一种高效且准确的自然场景文本检测(an efficient and accurate scene textdetector,EAST)、基于监督金字塔上下文网络的场景文本检测(scene text detectionwith supervised pyramid context network,SPCNet)等。
作为一种可能的实施方式,根据图像特征提取文字行的位置所在文字以及文字的文字特征时,可以通过文字识别网络根据图像特征识别文字行的位置所在文字,可以通过字体识别网络根据图像特征识别文字行的位置所在文字的字体风格,可以通过大小识别网络根据图像特征识别文字行的位置所在文字的字体大小,可以通过划线识别网络根据图像特征识别文字行的位置所在文字的字体划线。
作为一种可能的实施方式,文字行的信息可以包括文字行的起始位置、结束位置、高度、宽度、行首是否缩进以及缩进量、行尾是否缩进以及缩进量,以及相邻文字行之间的行间距。
作为一种可能的实施方式,文字段落的信息可以包括文字段落的起始位置、结束位置、高度、宽度、段落首是否缩进以及缩进量、段落尾是否缩进以及缩进量,以及相邻文字段落之间的间距。
作为一种可能的实施方式,图像块的类型还可以包括表格,根据图像块的类型和图像块的位置,提取图像块中的数据以及数据之间的逻辑关系时,在第二图像块的类型为表格的情况下,确定第二图像块的位置所在表格的包括单元格的位置信息的结构信息,提取该位置信息对应位置的数据。根据逻辑关系对数据进行结构化处理得到结构化数据时,可以根据表格的结构信息对表格中的数据进行结构化处理得到结构化数据。第二图像块为图像块中的任一图像块。
作为一种可能的实施方式,确定第二图像块的位置所在表格的结构信息时,可以通过表格解析算法解析第二图像块的位置所在表格,得到第二图像块的位置所在表格的结构信息。表格解析算法可以为基于表格线的表格解析算法、基于图的表格解析算法等。
第二方面公开一种数据处理装置,包括:
用户输入输出(input output,I/O)模块,用于获取包括多张图像的待处理数据,所述多张图像包括文字;
图像解析模块,用于确定所述多张图像包括的图像块的类型和位置,所述图像块的类型包括文字;
数据提取模块,用于根据所述图像块的类型和所述图像块的位置,提取所述图像块中的数据以及所述数据之间的逻辑关系,所述数据包括文字以及所述文字的文字特征;
数据结构化模块,用于根据所述逻辑关系对所述数据进行结构化处理,得到结构化数据。
作为一种可能的实施方式,所述图像解析模块,具体用于通过版面分析算法对所述多张图像进行分析,得到所述多张图像包括的图像块的类型和位置。
作为一种可能的实施方式,所述装置还包括:
文档生成模块,用于根据映射规则将所述结构化数据中的数据添加至文档模板,得到文档。
作为一种可能的实施方式,所述映射规则包括键值对,所述文档生成模块具体用于:
根据所述键值对中的键,确定文档模板中的待填写位置;
将所述结构化数据中所述键对应的值添加至所述待填写位置,得到文档。
作为一种可能的实施方式,,所述数据结构化模块具体用于:
根据业务规则从所述数据中选取部分数据,所述业务规则为所需数据的位置信息和/或所需数据要满足的条件信息;
根据所述部分数据对应的逻辑关系对所述部分数据进行结构化处理,得到结构化数据。
作为一种可能的实施方式,所述数据提取模块,具体用于根据业务规则确定所述多张图像包括的图像块的类型和位置,所述业务规则为所需数据的位置信息和/或所需数据要满足的条件信息。
作为一种可能的实施方式,所述数据提取模块根据业务规则确定所述多张图像包括的图像块的类型和位置包括:
获取模板图像;
根据业务规则在所述模板图像中标记掩模区域,得到标记模板图像;
将所述多张图像中与所述标记模板图像中除所述掩模区域之外的区域中的内容能够匹配的图像确定为待处理图像;
确定所述待处理图像中所述掩模区域对应位置包括的图像块的类型和位置。
作为一种可能的实施方式,所述数据提取模块具体用于:
在第一图像块的类型为文字的情况下,根据所述第一图像块的位置提取所述第一图像块的图像特征,所述第一图像块为所述图像块中的任一图像块;
根据所述图像特征确定所述第一图像块中文字行的位置;
根据所述图像特征提取所述文字行的位置所在文字以及所述文字的文字特征;
根据所述文字行的位置确定所述文字行的信息;
根据所述文字行的信息确定文字段落的信息;
所述数据结构化模块,具体用于根据所述文字行的信息和所述文字段落的信息对所述文字以及所述文字的文字特征进行结构化处理,得到结构化数据。
作为一种可能的实施方式,所述数据提取模块提取所述第一图像块的图像特征包括:
通过图像特征提取网络提取所述第一图像块的图像特征。
作为一种可能的实施方式,所述数据提取模块根据所述图像特征确定所述第一图像块中文字行的位置包括:
通过文字行定位网络根据所述图像特征确定所述第一图像块中文字行的位置。
作为一种可能的实施方式,所述数据提取模块根据所述图像特征提取所述文字行的位置所在文字以及所述文字的文字特征包括:
通过文字识别网络根据所述图像特征识别所述文字行的位置所在文字;
通过字体识别网络根据所述图像特征识别所述文字行的位置所在文字的字体风格;
通过大小识别网络根据所述图像特征识别所述文字行的位置所在文字的字体大小;
通过划线识别网络根据所述图像特征识别所述文字行的位置所在文字的字体划线。
作为一种可能的实施方式,所述文字行的信息包括文字行的起始位置、结束位置、高度、宽度、行首是否缩进以及缩进量、行尾是否缩进以及缩进量,以及相邻文字行之间的行间距。
作为一种可能的实施方式,所述文字段落的信息包括文字段落的起始位置、结束位置、高度、宽度、段落首是否缩进以及缩进量、段落尾是否缩进以及缩进量,以及相邻文字段落之间的间距。
作为一种可能的实施方式,所述数据提取模块具体用于:
在第二图像块的类型为表格的情况下,确定所述第二图像块的位置所在表格的结构信息,所述第二图像块为所述图像块中的任一图像块,所述结构信息包括单元格的位置信息;
提取所述位置信息对应位置的数据;
所述数据结构化模块,具体用于根据所述结构信息对所述数据进行结构化处理,得到结构化数据。
作为一种可能的实施方式,所述数据提取模块确定所述第二图像块的位置所在表格的结构信息包括:
通过表格解析算法解析所述第二图像块的位置所在表格,得到所述第二图像块的位置所在表格的结构信息。
第三方面公开一种计算设备,所述计算设备包括存储器和处理器,所述存储器用于存储一组计算机指令;所述处理器执行所述存储器存储的一组计算机指令,以使得所述计算设备执行第一方面或第一方面的任意一种可能的实施方式公开的方法。
第四方面公开一种计算机可读存储介质,所述非瞬态的可读存储介质存储有计算机程序代码,当所述计算机程序代码被计算设备执行时,所述计算设备执行前述第一方面或第一方面的任意一种可能的实施方式公开的方法。该存储介质包括但不限于易失性存储器,例如随机访问存储器,非易失性存储器,例如快闪存储器、硬盘(hard disk drive,HDD)、固态硬盘(solid state drive,SSD)。
第五方面公开一种计算机程序产品,所述计算机程序产品包括计算机程序代码,在所述计算机程序代码被计算设备执行时,所述计算设备执行前述第一方面或第一方面的任意可能的实施方式公开的方法。该计算机程序产品可以为一个软件安装包,在需要使用前述第一方面或第一方面的任意可能的实施方式中提供的方法的情况下,可以下载该计算机程序产品并在计算设备上执行该计算机程序产品。
附图说明
图1是本发明实施例公开的一种OCR的处理流程示意图;
图2是本发明实施例公开的一种系统架构的结构示意图;
图3是本发明实施例公开的一种数据处理装置的部署示意图;
图4是本发明实施例公开的另一种数据处理装置的部署示意图;
图5是本发明实施例公开的一种数据处理装置的结构示意图;
图6是本发明实施例公开的一种数据处理方法的流程示意图;
图7是本发明实施例公开的一种基于版面分析算法对图像进行分析的示意图;
图8是本发明实施例公开的一种模板图像匹配示意图;
图9是本发明实施例公开的一种确定图像块中文字行的位置以及提取该文字行的位置所在文字以及文字的文字特征的示意图;
图10是本发明实施例公开的一种表格提取的示意图;
图11是本发明实施例公开的一种数据结构化处理的示意图;
图12是本发明实施例公开的另一种数据处理方法的流程示意图;
图13是本发明实施例公开的一种数据处理的示意图;
图14是本发明实施例公开的另一种数据处理装置的结构示意图;
图15为本发明实施例公开的一种计算设备的结构示意图。
具体实施方式
本发明实施例公开了一种数据处理方法及装置,用于提高数据处理效率。以下分别进行详细说明。
在数据提取过程中,工作人员有时候会使用光学字符识别(optical characterrecognition,OCR)技术来协助其识别非结构化数据源(如pdf文档、照片、扫描件等)中的文字。OCR指的是对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。从影像到结果输出,须经过影像输入、影像前处理、文字特征抽取、比对识别等。
请参阅图1,图1是本发明实施例公开的一种OCR的处理流程示意图。如图1所示,OCR技术主要包括文字检测和文字识别。有些方案在文字检测之前还有图像预处理过程,文字识别之后还有文字纠正过程。文字检测方法可以为人工特征设计的文字检测方法,也可以为笔画宽度变换算法(stroke width transform algorithm,SWT),还可以为基于深度学习方法的文字检测算法,如文本框(TextBoxes)算法、EAST算法、PSENet等。这些算法的输出为文字的位置区域,通常用矩形框或封闭曲线标识。文字识别方法通常是基于卷积神经网络与序列处理模型结合,可以包括卷积递归神经网络(convolutional recurrent neuralnetwork,CRNN)、具有灵活校正功能的注意场景文本识别器(attentional scene textrecognizer with flexible rectification,Aster)等算法。所有这些算法的输出都只是文字字符串,没有输出文字的字体风格、字体大小、字体划线等文字的文字特征,以致在使用OCR识别出文字之后,还需要工作人员重新提取这些文字的文字特征,以致降低了数据处理效率。此外,由于OCR只能识别出文字,无法提取图片、表格、公式等信息,以致还需要工作人员重新提取图片、表格、公式等信息,以致降低了数据处理效率。
本发明实施例公开了一种数据处理方法及装置,该方法不仅可以提取出文字,而且还可以提取出文字的文字特征,从而可以提高数据处理效率。
为了更好地理解本发明实施例公开的一种数据处理方法及装置,下面先对本发明实施例使用的系统架构进行描述。请参阅图2,图2是本发明实施例公开的一种系统架构的结构示意图。如图2所示,该系统架构可以包括终端设备201和数据处理装置202。
终端设备201,用于根据用户的操作向数据处理装置202发送源数据。
数据处理装置202,用于接收来自终端设备201的源数据,根据源数据确定待处理数据,提取待处理数据中的数据和数据的逻辑关系,根据数据的逻辑关系将数据进行结构化得到结构化数据。
可选地,数据处理装置202,还用于根据映射规则将结构化数据中的数据添加至文档模板,得到文档。
其中,源数据可以为图像、pdf文档、扫描件等。在源数据不是图像的情况下,数据处理装置202,还用于对源数据进行扫描得到待处理数据。
请参阅图3,图3是本发明实施例公开的一种数据处理装置的部署示意图。如图3所示,数据处理装置可以部署在云环境。云环境是云计算模式下利用基础资源向用户提供云服务的实体。云环境包括云数据中心和云服务平台,云数据中心包括云服务提供商拥有的大量基础资源(包括计算资源、存储资源和网络资源),云数据中心包括的计算资源可以是大量的计算设备(例如服务器)。数据处理装置可以独立地部署在云数据中心中的服务器或虚拟机上,数据处理装置也可以分布式地部署在云数据中心中的多台服务器上、或者分布式地部署在云数据中心中的多台虚拟机上、再或者分布式地部署在云数据中心中的服务器和虚拟机上。如图3所示,数据处理装置由云服务提供商在云服务平台抽象成一种数据处理服务提供给用户,用户在云服务平台购买该云服务后(可预充值再根据最终资源的使用情况进行结算),云环境利用部署在云数据中心的数据处理装置向用户提供数据结构化服务和/或文档生成服务。
请参阅图4,图4是本发明实施例公开的另一种数据处理装置的部署示意图。如图4所示,本发明提供的数据处理装置还可以分布式地部署在不同的环境中。本发明提供的数据处理装置可以在逻辑上分成多个部分,每个部分具有不同的功能。数据处理装置中的各部分可以分别部署在终端计算设备、边缘环境和云环境中的任意两个或三个环境中。终端计算设备包括:终端服务器、智能手机、笔记本电脑、平板电脑、个人台式电脑、智能摄相机等。边缘环境为包括距离终端计算设备较近的边缘计算设备集合的环境,边缘计算设备包括:边缘服务器、拥有计算力的边缘小站等。部署在不同环境或设备的数据处理装置的各个部分协同实现为用户提供数据处理功能。应理解,本发明不对数据处理装置的哪些部分具体部署在什么环境进行限制性的划分,实际应用时可根据终端计算设备的计算能力、边缘环境和云环境的资源占有情况或具体应用需求进行适应性的部署。
数据处理装置还可以部署在边缘环境。数据处理装置可以独立地部署在边缘计算设备上,数据处理装置也可以分布式地部署在多台边缘服务器上、或者分布式地部署在多台拥有计算力的边缘小站上、再或者分布式地部署在边缘服务器和拥有计算力的边缘小站上。此外,数据处理装置还可以部署在其它环境,例如终端计算设备集群。数据处理装置可以是一个软件系统,运行在服务器等计算设备上。
请参阅图5,图5是本发明实施例公开的一种数据处理装置的结构示意图。如图5所示,该数据处理装置可以包括:
用户I/O模块501,用于获取包括多张图像的待处理数据,这多张图像包括文字;
图像解析模块502,用于确定这多张图像包括的图像块的类型和位置,图像块的类型可以包括文字;
数据提取模块503,用于根据图像块的类型和该图像块的位置,提取图像块中的数据以及数据之间的逻辑关系,数据可以包括文字以及文字的文字特征;
数据结构化模块504,用于根据逻辑关系对数据进行结构化处理,得到结构化数据。
在一个实施例中,图像解析模块502,具体用于通过版面分析算法对这多张图像进行分析,得到多张图像包括的图像块的类型和位置。
在一个实施例中,该数据处理装置还可以包括:
文档生成模块505,根据映射规则将结构化数据中的数据添加至文档模板,得到工程文档。
在一个实施例中,映射规则可以包括键值对,文档生成模块205具体用于:
根据该键值对中的键,确定文档模板中的待填写位置;
将结构化数据中该键对应的值添加至待填写位置,得到文档。
在一个实施例中,数据结构化模块504具体用于:
根据业务规则从提取的数据中选取部分数据,业务规则为所需数据的位置信息和/或所需数据要满足的条件信息;
根据部分数据对应的逻辑关系对部分数据进行结构化处理,得到结构化数据。
在一个实施例中,数据提取模块503,具体用于根据业务规则确定这多张图像包括的图像块的类型和位置,业务规则为所需数据的位置信息和/或所需数据要满足的条件信息。
在一个实施例中,数据提取模块503根据业务规则确定这多张图像包括的图像块的类型和位置包括:
获取模板图像;
根据业务规则在模板图像中标记掩模区域,得到标记模板图像;
将这多张图像中与标记模板图像中除掩模区域之外的区域中的内容能够匹配的图像确定为待处理图像;
确定待处理图像中掩模区域对应位置包括的图像块的类型和位置。
在一个实施例中,数据提取模块503具体用于:
在第一图像块的类型为文字的情况下,根据第一图像块的位置提取第一图像块的图像特征,第一图像块为图像块中的任一图像块;
根据该图像特征确定第一图像块中文字行的位置;
根据该图像特征提取文字行的位置所在文字以及文字的文字特征;
根据文字行的位置确定文字行的信息;
根据文字行的信息确定文字段落的信息;
数据结构化模块504,具体用于根据文字行的信息和文字段落的信息对文字以及文字的文字特征进行结构化处理,得到结构化数据。
在一个实施例中,数据提取模块503提取第一图像块的图像特征包括:
通过图像特征提取网络提取第一图像块的图像特征。
在一个实施例中,数据提取模块503根据图像特征确定第一图像块中文字行的位置包括:
通过文字行定位网络根据该图像特征确定第一图像块中文字行的位置。
在一个实施例中,数据提取模块503根据该图像特征提取文字行的位置所在文字以及文字的文字特征包括:
通过文字识别网络根据该图像特征识别文字行的位置所在文字;
通过字体识别网络根据该图像特征识别文字行的位置所在文字的字体风格;
通过大小识别网络根据该图像特征识别文字行的位置所在文字的字体大小;
通过划线识别网络根据该图像特征识别文字行的位置所在文字的字体划线。
在一个实施例中,文字行的信息可以包括文字行的起始位置、结束位置、高度、宽度、行首是否缩进以及缩进量、行尾是否缩进以及缩进量,以及相邻文字行之间的行间距。
在一个实施例中,文字段落的信息可以包括文字段落的起始位置、结束位置、高度、宽度、段落首是否缩进以及缩进量、段落尾是否缩进以及缩进量,以及相邻文字段落之间的间距。
在一个实施例中,数据提取模块503具体用于:
在第二图像块的类型为表格的情况下,确定第二图像块的位置所在表格的结构信息,第二图像块为图像块中的任一图像块,结构信息可以包括单元格的位置信息;
提取该位置信息对应位置的数据;
数据结构化模块504,具体用于根据该结构信息对数据进行结构化处理,得到结构化数据。
在一个实施例中,数据提取模块503确定第二图像块的位置所在表格的结构信息包括:
通过表格解析算法解析第二图像块的位置所在表格,得到第二图像块的位置所在表格的结构信息。
由于上述各模块的功能,本发明实施例公开的数据处理装置可以向用户提供数据结构化业务,进一步可以向用户提供文档生成业务。
基于图2所示的系统架构,请参阅图6,图6是本发明实施例公开的一种数据处理方法的流程示意图。其中,该数据处理方法应用于数据处理装置。如图6所示,该数据处理方法可以包括以下步骤。
601、获取包括多张图像的待处理数据。
待处理数据可以是用户通过终端设备发送或上传的源数据。待处理数据也可以是对用户通过终端设备发送或上传的源数据进行处理后的数据。在源数据全部为图像的情况下,待处理数据是源数据。在源数据包括pdf文档、word文档等的情况下,需要将源数据中除图像外的数据转换为图像,例如,对word文档进行扫描得到图像。待处理数据可以包括多张图像。这多张图像可以包括文字,可以是每张图像均包括文字,也可以是这多张图像中的部分图像包括文字。此外,这多张图像还可以包括表格、图片、公式等,可以是每张图像均包括,也可以是部分图像包括。
602、确定多张图像包括的图像块的类型和位置。
由于这多张图像可能包括文字、表格、图片、公式、页眉、页脚等不同类型的内容,而不同类型的内容的提取方式可能不同。因此,获取到待处理数据之后,可以确定这多张图像包括的图像块的类型和位置。图像块的类型可以包括文字、表格、图片、公式、页眉、页脚等。图像块的位置为图像块在具体某张图像中的位置。
可以通过版面分析算法对这多张图像进行分析,可以将图像分割成不同的图像块并分类,得到这多张图像包括的图像块的类型和位置。请参阅图7,图7是本发明实施例公开的一种基于版面分析算法对图像进行分析的示意图。如图7所示,左侧是一张文档的图像,这张图像包括文字块、表格块和图片块,右侧是版面分割后的结果,不同类型的图像块被分割开来,并且不同类型的图像块用不同深度颜色表示出来。
在待处理数据包括的图像的数量较多的情况下,这些图像包括的数据较多,而这些数据中可能只有部分数据是用户需要的数据。因此,用户可以预先针对需要的数据设置好业务规则,以便可以根据业务规则提取需要的数据。业务规则可以为所需数据的位置信息,例如,可以为某一页的内容,也可以为某些包括固定内容的页面中某些区域的信息。业务规则也可以为所需数据要满足的条件信息,例如,业务规则可以为包括关键词段落或页面。业务规则还可以为所需数据的位置信息和所需数据要满足的条件信息。例如,在业务规则包括关键词段落或页面的情况下,由于不知道关键词会出现哪张图像中,因此,需要通过版面分析这多张图像中每张图像的所有内容进行分析。例如,在业务规则不包括关键词段落或页面的情况下,由于可能需要提取的数据在部分图像中,或者在所有图像中的部分区域中,因此,可以先确定需要提取的数据在这些图像中的位置,之后通过版面分析算法对这些位置进行分析,可以减少需要分析的范围,进而可以减少后面需要提取的信息,因此,可以提高数据处理效率。
对于一个业务场景,通常只有部分地方的数据是变化的,其他地方的数据是固定的。因此,在业务规则包括这种情形的话,获取到包括多张图像的待处理数据之后,可以先获取模板图像,模板图像可以是预先存储的这个场景的图像。之后根据业务规则在模板图像中标记掩模区域得到标记模板图像,标记掩模区域即在模板图像中标记数据变化的区域,一张图像可以包括一个掩模区域,也可以包括多个掩模区域。之后可以将多张图像中与标记模板图像中除掩模区域之外的区域中的内容能够匹配的图像确定为待处理图像,即将标记模板图像与这多张图像分别进行匹配,匹配时只需要匹配掩模区域之外的区域中的内容,掩模区域中的内容可以不需要进行匹配,可以将这多张图像中匹配成功的图像确定为待处理图像。在这多张图像中存在与标记模板图像匹配的图像之后,可以直接将匹配的图像确定为待处理图像,也可以使用匹配成功的图像中掩模区域对应的内容替换标记模板图像中掩模区域的内容,之后再次进行匹配,在匹配成功的情况下,才将这张图像确定为待处理图像。可见,可以只匹配一次,也可以匹配两次,而匹配两次可以提高置信度。之后可以通过版面分析算法对待处理图像进行分析,以便确定待处理图像中掩模区域对应的位置包括的图像块的类型和位置。
请参阅图8,图8是本发明实施例公开的一种模板图像匹配示意图。如图8所示,最左边的图像为模板图像,是一个软件界面的图像。中间的图像为标记模板图像,用框标记出来的区域为掩模区域,即数据可变的区域。最右边的图像为待处理数据中的一张图像,被标记出来的区域即不需要进行匹配的区域。
603、根据图像块的类型和图像块的位置,提取图像块中的数据以及数据之间的逻辑关系。
确定出这多张图像包括的图像块的类型和位置之后,可以根据图像块的类型和图像块的位置,提取图像块中的数据以及数据之间的逻辑关系。数据包括文字以及文字的文字特征。
在第一图像块的类型为文字的情况下,可以先根据第一图像块的位置提取第一图像块的图像特征,之后根据该图像特征确定第一图像块中文字行的位置,之后可以根据该图像特征提取该文字行的位置所在文字以及文字的文字特征,根据该文字行的位置确定文字行的信息,根据该文字行的信息确定文字段落的信息。第一图像块为确定出的这多张图像包括的图像块中的任一图像块。可以通过图像特征提取网络提取第一图像块的图像特征。图像特征提取网络可以为CNN,也可以为其它图像特征提取网络。可以通过文字行定位网络根据该图像特征确定第一图像块中文字行的位置。文字行定位网络可以为CTPN、PSENet、EAST、SPCNet等。根据该图像特征提取文字行的位置所在文字以及该文字的文字特征时,可以通过文字识别网络根据该图像特征识别文字行的位置所在文字,可以通过字体识别网络根据该图像特征识别该文字行的位置所在文字的字体风格,可以通过通过大小识别网络根据该图像特征识别该文字行的位置所在文字的字体大小,可以通过划线识别网络根据该图像特征识别该文字行的位置所在文字的字体划线。文字识别网络可以为CNN-连接时序分类(connectionist temporal classification,CTC)、CNN-长短期记忆(long shortterm memory,LSTM)、2D记忆(Attention)网络等。字体识别网络可以为CNN等,大小识别网络可以为CNN等,划线识别网络可以为CNN等。可以通过文本检测算法根据该文字行的位置确定文字行的信息。文字行的信息可以包括文字行的起始位置、结束位置、高度、宽度、行首是否缩进以及缩进量、行尾是否缩进以及缩进量,以及相邻文字行之间的行间距。文字行的信息还可以包括文字行所在页面的页眉、页脚等。文字段落的信息可以包括文字段落的起始位置、结束位置、高度、宽度、段落首是否缩进以及缩进量、段落尾是否缩进以及缩进量,以及相邻文字段落之间的间距。文字段落的信息还可以包括文字段落所在页面的页眉、页脚等。
请参阅图9,图9是本发明实施例公开的一种确定图像块中文字行的位置以及提取该文字行的位置所在文字以及文字的文字特征的示意图。如图9所示,采用图像特征提取网络提取图像特征,提取的图像特征同时用于文字行定位和文字识别,文字行定位得到文字行的位置结合提取的图像特征用于文字识别任务,文字、字体风格、字体大小和字体划线等多个识别任务可以并行执行。
在第二图像块的类型为表格的情况下,可以先确定第二图像块的位置所在表格的结构信息,可以通过表格解析算法解析第二图像块的位置所在表格得到第二图像块的位置所在表格的结构信息。表格解析算法可以为基于表格线的表格解析算法、基于图的表格解析算法等。结构信息可以包括行的位置信息,列的位置信息,单元格的位置信息,行的邻接信息,列的邻接信息,单元格的邻接信息,行、列与单元格之间的包含关系等。之后提取单元格的位置信息对应位置的数据。提取方式与上述的相同。第二图像块为确定出的这多张图像包括的图像块中的任一图像块。请参阅图10,图10是本发明实施例公开的一种表格提取的示意图。如图10所示,左边的表格为图像中的表格,右边的表格为提取的表格。
在将这多张图像中匹配成功的图像确定为待处理图像之后,然后对匹配得到的区域图像进行文字识别,从而提取出关键字段,关键字段一部分作为结构化数据中的键存在,一部分作为结构化数据中的值存在。
604、根据逻辑关系对数据进行结构化处理得到结构化数据。
根据图像块的类型在图像块的位置,提取出图像块中的数据以及数据之间的逻辑关系之后,可以根据逻辑关系对提取的数据进行结构化处理得到结构化数据。请参阅图11,图11是本发明实施例公开的一种数据结构化处理的示意图。如图11所示,可以利用正则表达式阵列的字符比对能力和自然语言处理(natural language processing,NLP)的结构分析、语义理解、实例关系抽取能力,将逻辑关系从自然语言描述转化成底层算法代码实现,构成提取规则网络,从输入的数据中快速、准确地抽取和组织关键信息,并将离散的、无逻辑关系的数据按照逻辑关系进行组织和整理,生成结构化数据。
在待处理数据包括文字的情况下,根据逻辑关系对数据进行结构化处理得到结构化数据时,可以根据文字行的信息和文字段落的信息对文字以及文字的文字特征进行结构化处理得到结构化数据。
在待处理数据包括表格的情况下,可以根据表格的结构信息对表格中的数据进行结构化处理得到结构化数据。
在提取的数据包括通过模板匹配方式得到的数据的情况下,可以根据键值对对数据进行结构化处理得到结构化数据。
在业务规则包括关键词段落或页面等情况下,根据图像块的类型在图像块的位置,提取出图像块中的数据以及数据之间的逻辑关系之后,可以先根据业务规则从提取的数据中选取部分数据,之后根据部分数据对应的逻辑关系对部分数据进行结构化处理得到结构化数据。
可选地,上述方法还可以包括:根据映射规则将结构化数据中的数据添加至文档模板,得到文档。根据逻辑关系对数据进行结构化处理得到结构化数据之后,可以将结构化数据存储在数据库中,以便后续调用。也可以根据映射规则将结构化数据中的数据添加至文档模板得到文档,即根据结构化数据和文档模板生成文档。文档模板是预先生成的。映射规则可以包括键值对,也可以包括表格的数据结构,还可以包括文字行的信息和文字段落的信息。
可选地,在映射规则包括键值对的情况下,可以先根据键值对中的键,确定文档模板中的待填写位置,之后将结构化数据中该键值对中该键对应的值添加至待填写位置。
基于图2所示的系统架构,请参阅图12,图12是本发明实施例公开的另一种数据处理方法的流程示意图。其中,该数据处理方法应用于数据处理装置。如图12所示,该数据处理方法可以包括以下步骤。
1201、获取包括多张图像的待处理数据。
1202、确定多张图像包括的图像块的类型和位置。
1203、根据图像块的类型和图像块的位置,提取图像块中的数据以及数据之间的逻辑关系。
1204、根据逻辑关系对数据进行结构化处理得到结构化数据。
1205、根据映射规则将结构化数据中的数据添加至文档模板,得到文档。
步骤1201与步骤1205的详细描述可以参考上面实施例的描述,在此不加赘述。
请参阅图13,图13是本发明实施例公开的一种数据处理的示意图。如图13所示,用户提取数据、整理和转填,用户可以先获取源数据,之后从源数据中提取数据,之后将提取的数据生成excel、pdf等文档。
请参阅图14,图14是本发明实施例公开的另一种数据处理装置的结构示意图。如图14所示,数据处理装置可以包括图像OCR算法引擎和文档生成引擎。这两个引擎可以分别部署在不同的互联网技术(internet technology,IT)系统中,可以通过IT系统的应用程序接口(application programming interface,API)接口进行对接;也可以同时部署在同一个IT系统中。数据来源为非结构化数据,主要是图像或者pdf文档,它可以通过其他IT系统的API接口来获取,也可以从线下获取。
举例说明,使用基于分割的深度学习算法对待处理数据包括的图像进行分割,得到不同的图像块,对各图像块使用基于残差网络(residual network,ResNet)的分类算法进行分类,得到各个图像块的类型,如图片、表格、文字、页眉、页脚等。之后使用PSENet对图像块的类型为文字的图像块进行检测,得到文本行的位置。使用线段检测算法检测出表格中的线段,两线段的交汇点作为单元格的顶点,四根线段交汇得到的四个点构成的凸四边形作为一个单元格。使用2D Attention算法识别文本行的文字及文字的文字特征。之后使用正则表达式根据数据的逻辑关系对数据进行结构化处理得到结构化数据。
举例说明,根据业务规则制定感兴趣区域图像模板,通过模板图像匹配技术找到待处理数据包括的某张图像中感兴趣的区域,之后使用基于分割的深度学习算法对感兴趣区域图像进行分割得到不同的图像块,之后对各图像块使用基于ResNet的分类算法进行分类,得到各个图像块的类型。之后使用字符区域感知的文字检测(character-regionawareness for text detection,CFAFT)算法对图像块的类型为文字的图像块进行检测,得到文本行的位置。使用基于图表的算法得到表格单元格的邻接关系。使用2D Attention算法识别文本行的文字及文字的文字特征。之后通过NLP根据数据的逻辑关系对数据进行结构化处理得到结构化数据。
请参阅图15,图15为本发明实施例公开的一种计算设备的结构示意图。如图15所示,计算设备1500包括存储器1501、处理器1502、通信接口1503以及总线1504。其中,存储器1501、处理器1502、通信接口1503通过总线1504实现彼此之间的通信连接。
存储器1501可以是只读存储器(read only memory,ROM),静态存储设备,动态存储设备或者随机存取存储器(random access memory,RAM)。存储器1501可以存储程序,当存储器1501中存储的程序被处理器1502执行时,处理器1502和通信接口1503用于执行数据处理装置500执行的方法。存储器1501还可以存储源数据和/或待处理数据,例如:存储器1501中的一部分存储资源被划分成一个数据存储模块,用于存储数据处理装置500获取的源数据和/或得到的待处理数据,存储器1501中的一部分存储资源被划分成一个结果存储模块,用于存储结构化数据和/或文档。
处理器1502可以采用通用的中央处理器(central processing unit,CPU),微处理器,应用专用集成电路(application specific integrated circuit,ASIC),图形处理器(graphics processing unit,GPU)或者一个或多个集成电路。
处理器1502还可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,本申请的数据处理装置500的功能可以通过处理器1502中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1502还可以是通用处理器、数字信号处理器(digital signalprocessing,DSP)、专用集成电路(ASIC)、现成可编程门阵列(field programmable gatearray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1501,处理器1502读取存储器1501中的信息,结合其硬件完成本申请实施例的评估系统的功能。
通信接口1503使用例如但不限于收发器一类的收发模块,来实现计算设备1500与其他设备或通信网络之间的通信。例如,可以通过通信接口1503获取评估数据集。
总线1504可包括在计算设备1500各个部件(例如,存储器1501、处理器1502、通信接口1503)之间传送信息的通路。
上述各个附图对应的流程的描述各有侧重,某个流程中没有详述的部分,可以参见其他流程的相关描述。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (28)

1.一种数据处理方法,其特征在于,包括:
获取包括多张图像的待处理数据,所述多张图像包括文字;
将所述多张图像中与标记模板图像中除掩模区域之外的区域中的内容能够匹配的图像确定为待处理图像;所述标记模板图像是根据业务规则在模板图像中标记掩膜区域后得到的,所述掩膜区域为在所述模板图像中标记的数据变化的区域;
确定所述待处理图像中所述掩模区域对应位置包括的图像块的类型和位置,所述图像块的类型包括文字;
根据所述图像块的类型和所述图像块的位置,提取所述图像块中的数据以及所述数据之间的逻辑关系,所述数据包括文字以及所述文字的文字特征;
根据所述逻辑关系对所述数据进行结构化处理,得到结构化数据;
所述根据所述逻辑关系对所述数据进行结构化处理,得到结构化数据包括:根据业务规则从所述数据中选取部分数据,所述业务规则为所需数据的位置信息和/或所需数据要满足的条件信息;根据所述部分数据对应的逻辑关系对所述部分数据进行结构化处理,得到结构化数据。
2.根据权利要求1所述的方法,其特征在于,所述确定所述多张图像包括的图像块的类型和位置包括:
通过版面分析算法对所述多张图像进行分析,得到所述多张图像包括的图像块的类型和位置。
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
根据映射规则将所述结构化数据中的数据添加至文档模板,得到文档。
4.根据权利要求3所述的方法,其特征在于,所述映射规则包括键值对,所述根据映射规则将所述结构化数据中的数据添加至文档模板,得到文档包括:
根据所述键值对中的键,确定文档模板中的待填写位置;
将所述结构化数据中所述键对应的值添加至所述待填写位置,得到文档。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述模板图像;
根据所述业务规则在所述模板图像中标记掩模区域,得到所述标记模板图像。
6.根据权利要求1-2、4-5中任一项所述的方法,其特征在于,所述根据所述图像块的类型和所述图像块的位置,提取所述图像块中的数据以及所述数据之间的逻辑关系包括:
在第一图像块的类型为文字的情况下,根据所述第一图像块的位置提取所述第一图像块的图像特征,所述第一图像块为所述图像块中的任一图像块;
根据所述图像特征确定所述第一图像块中文字行的位置;
根据所述图像特征提取所述文字行的位置所在文字以及所述文字的文字特征;
根据所述文字行的位置确定所述文字行的信息;
根据所述文字行的信息确定文字段落的信息;
所述根据所述逻辑关系对所述数据进行结构化处理,得到结构化数据包括:
根据所述文字行的信息和所述文字段落的信息对所述文字以及所述文字的文字特征进行结构化处理,得到结构化数据。
7.根据权利要求6所述的方法,其特征在于,所述提取所述第一图像块的图像特征包括:
通过图像特征提取网络提取所述第一图像块的图像特征。
8.根据权利要求6所述的方法,其特征在于,所述根据所述图像特征确定所述第一图像块中文字行的位置包括:
通过文字行定位网络根据所述图像特征确定所述第一图像块中文字行的位置。
9.根据权利要求6所述的方法,其特征在于,所述根据所述图像特征提取所述文字行的位置所在文字以及所述文字的文字特征包括:
通过文字识别网络根据所述图像特征识别所述文字行的位置所在文字;
通过字体识别网络根据所述图像特征识别所述文字行的位置所在文字的字体风格;
通过大小识别网络根据所述图像特征识别所述文字行的位置所在文字的字体大小;
通过划线识别网络根据所述图像特征识别所述文字行的位置所在文字的字体划线。
10.根据权利要求6所述的方法,其特征在于,所述文字行的信息包括文字行的起始位置、结束位置、高度、宽度、行首是否缩进以及缩进量、行尾是否缩进以及缩进量,以及相邻文字行之间的行间距。
11.根据权利要求6所述的方法,其特征在于,所述文字段落的信息包括文字段落的起始位置、结束位置、高度、宽度、段落首是否缩进以及缩进量、段落尾是否缩进以及缩进量,以及相邻文字段落之间的间距。
12.根据权利要求1-2、4-5、7-11任一项所述的方法,其特征在于,所述图像块的类型还包括表格,所述根据所述图像块的类型和所述图像块的位置,提取所述图像块中的数据以及所述数据之间的逻辑关系包括:
在第二图像块的类型为表格的情况下,确定所述第二图像块的位置所在表格的结构信息,所述第二图像块为所述图像块中的任一图像块,所述结构信息包括单元格的位置信息;
提取所述位置信息对应位置的数据;
所述根据所述逻辑关系对所述数据进行结构化处理,得到结构化数据包括:
根据所述结构信息对所述数据进行结构化处理,得到结构化数据。
13.根据权利要求12所述的方法,其特征在于,所述确定所述第二图像块的位置所在表格的结构信息包括:
通过表格解析算法解析所述第二图像块的位置所在表格,得到所述第二图像块的位置所在表格的结构信息。
14.一种数据处理装置,其特征在于,包括:
用户输入输出I/O模块,用于获取包括多张图像的待处理数据,所述多张图像包括文字;
图像解析模块,用于将所述多张图像中与标记模板图像中除掩模区域之外的区域中的内容能够匹配的图像确定为待处理图像;确定所述待处理图像中所述掩模区域对应位置包括的图像块的类型和位置,所述图像块的类型包括文字;所述标记模板图像是根据业务规则在模板图像中标记掩膜区域后得到的,所述掩膜区域为在所述模板图像中标记的数据变化的区域;
数据提取模块,用于根据所述图像块的类型和所述图像块的位置,提取所述图像块中的数据以及所述数据之间的逻辑关系,所述数据包括文字以及所述文字的文字特征;
数据结构化模块,用于根据所述逻辑关系对所述数据进行结构化处理,得到结构化数据;
所述数据结构化模块具体用于:根据业务规则从所述数据中选取部分数据,所述业务规则为所需数据的位置信息和/或所需数据要满足的条件信息;根据所述部分数据对应的逻辑关系对所述部分数据进行结构化处理,得到结构化数据。
15.根据权利要求14所述的装置,其特征在于,所述图像解析模块,具体用于通过版面分析算法对所述多张图像进行分析,得到所述多张图像包括的图像块的类型和位置。
16.根据权利要求14或15所述的装置,其特征在于,所述装置还包括:
文档生成模块,用于根据映射规则将所述结构化数据中的数据添加至文档模板,得到文档。
17.根据权利要求16所述的装置,其特征在于,所述映射规则包括键值对,所述文档生成模块具体用于:
根据所述键值对中的键,确定文档模板中的待填写位置;
将所述结构化数据中所述键对应的值添加至所述待填写位置,得到文档。
18.根据权利要求14所述的装置,其特征在于,所述数据提取模块还用于包括:
获取所述模板图像;
根据所述业务规则在所述模板图像中标记掩模区域,得到所述标记模板图像。
19.根据权利要求14-15、17-18中任一项所述的装置,其特征在于,所述数据提取模块具体用于:
在第一图像块的类型为文字的情况下,根据所述第一图像块的位置提取所述第一图像块的图像特征,所述第一图像块为所述图像块中的任一图像块;
根据所述图像特征确定所述第一图像块中文字行的位置;
根据所述图像特征提取所述文字行的位置所在文字以及所述文字的文字特征;
根据所述文字行的位置确定所述文字行的信息;
根据所述文字行的信息确定文字段落的信息;
所述数据结构化模块,具体用于根据所述文字行的信息和所述文字段落的信息对所述文字以及所述文字的文字特征进行结构化处理,得到结构化数据。
20.根据权利要求19所述的装置,其特征在于,所述数据提取模块提取所述第一图像块的图像特征包括:
通过图像特征提取网络提取所述第一图像块的图像特征。
21.根据权利要求19所述的装置,其特征在于,所述数据提取模块根据所述图像特征确定所述第一图像块中文字行的位置包括:
通过文字行定位网络根据所述图像特征确定所述第一图像块中文字行的位置。
22.根据权利要求19所述的装置,其特征在于,所述数据提取模块根据所述图像特征提取所述文字行的位置所在文字以及所述文字的文字特征包括:
通过文字识别网络根据所述图像特征识别所述文字行的位置所在文字;
通过字体识别网络根据所述图像特征识别所述文字行的位置所在文字的字体风格;
通过大小识别网络根据所述图像特征识别所述文字行的位置所在文字的字体大小;
通过划线识别网络根据所述图像特征识别所述文字行的位置所在文字的字体划线。
23.根据权利要求19所述的装置,其特征在于,所述文字行的信息包括文字行的起始位置、结束位置、高度、宽度、行首是否缩进以及缩进量、行尾是否缩进以及缩进量,以及相邻文字行之间的行间距。
24.根据权利要求19所述的装置,其特征在于,所述文字段落的信息包括文字段落的起始位置、结束位置、高度、宽度、段落首是否缩进以及缩进量、段落尾是否缩进以及缩进量,以及相邻文字段落之间的间距。
25.根据权利要求14-15、17-18、20-24任一项所述的装置,其特征在于,所述数据提取模块具体用于:
在第二图像块的类型为表格的情况下,确定所述第二图像块的位置所在表格的结构信息,所述第二图像块为所述图像块中的任一图像块,所述结构信息包括单元格的位置信息;
提取所述位置信息对应位置的数据;
所述数据结构化模块,具体用于根据所述结构信息对所述数据进行结构化处理,得到结构化数据。
26.根据权利要求25所述的装置,其特征在于,所述数据提取模块确定所述第二图像块的位置所在表格的结构信息包括:
通过表格解析算法解析所述第二图像块的位置所在表格,得到所述第二图像块的位置所在表格的结构信息。
27.一种计算设备,其特征在于,所述计算设备包括存储器和处理器,所述存储器用于存储一组计算机指令;
所述处理器执行所述存储器存储的一组计算机指令,以执行上述权利要求1至13中任一项所述的方法。
28.一种计算机可读存储介质,其特征在于,所述可读存储介质存储有计算机程序代码,当所述计算机程序代码被计算设备执行时,所述计算设备执行上述权利要求1至13中任一项所述的方法。
CN201911359781.2A 2019-12-25 2019-12-25 一种数据处理方法及装置 Active CN113033269B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911359781.2A CN113033269B (zh) 2019-12-25 2019-12-25 一种数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911359781.2A CN113033269B (zh) 2019-12-25 2019-12-25 一种数据处理方法及装置

Publications (2)

Publication Number Publication Date
CN113033269A CN113033269A (zh) 2021-06-25
CN113033269B true CN113033269B (zh) 2023-08-25

Family

ID=76458376

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911359781.2A Active CN113033269B (zh) 2019-12-25 2019-12-25 一种数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN113033269B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113610068B (zh) * 2021-10-11 2022-07-08 江西风向标教育科技有限公司 基于试卷图像的试题拆解方法、系统、存储介质及设备
CN114897478B (zh) * 2022-06-06 2023-12-22 壹沓科技(上海)有限公司 一种数据处理方法、装置、设备和存储介质
CN115422125B (zh) * 2022-09-29 2023-05-19 浙江星汉信息技术股份有限公司 一种基于智能算法的电子文档自动归档方法与系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101782896A (zh) * 2009-01-21 2010-07-21 汉王科技股份有限公司 结合ocr技术的pdf文字提取方法
CN106446899A (zh) * 2016-09-22 2017-02-22 北京市商汤科技开发有限公司 文字检测方法和装置、及文字检测训练方法和装置
CN108415887A (zh) * 2018-02-09 2018-08-17 武汉大学 一种pdf文件向ofd文件转化的方法
CN109086756A (zh) * 2018-06-15 2018-12-25 众安信息技术服务有限公司 一种基于深度神经网络的文本检测分析方法、装置及设备
CN109933756A (zh) * 2019-03-22 2019-06-25 腾讯科技(深圳)有限公司 基于ocr的图像转档方法、装置、设备及可读存储介质
CN110046978A (zh) * 2019-03-19 2019-07-23 上海大学 智能报销方法
CN110263694A (zh) * 2019-06-13 2019-09-20 泰康保险集团股份有限公司 一种票据识别方法及装置
CN110334346A (zh) * 2019-06-26 2019-10-15 京东数字科技控股有限公司 一种pdf文件的信息抽取方法和装置
CN110363252A (zh) * 2019-07-24 2019-10-22 山东大学 趋向于端到端的场景文字检测与识别方法以及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10180932B2 (en) * 2015-06-30 2019-01-15 Datawatch Corporation Systems and methods for automatically creating tables using auto-generated templates

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101782896A (zh) * 2009-01-21 2010-07-21 汉王科技股份有限公司 结合ocr技术的pdf文字提取方法
CN106446899A (zh) * 2016-09-22 2017-02-22 北京市商汤科技开发有限公司 文字检测方法和装置、及文字检测训练方法和装置
CN108415887A (zh) * 2018-02-09 2018-08-17 武汉大学 一种pdf文件向ofd文件转化的方法
CN109086756A (zh) * 2018-06-15 2018-12-25 众安信息技术服务有限公司 一种基于深度神经网络的文本检测分析方法、装置及设备
WO2019238063A1 (zh) * 2018-06-15 2019-12-19 众安信息技术服务有限公司 文本检测分析方法、装置及设备
CN110046978A (zh) * 2019-03-19 2019-07-23 上海大学 智能报销方法
CN109933756A (zh) * 2019-03-22 2019-06-25 腾讯科技(深圳)有限公司 基于ocr的图像转档方法、装置、设备及可读存储介质
CN110263694A (zh) * 2019-06-13 2019-09-20 泰康保险集团股份有限公司 一种票据识别方法及装置
CN110334346A (zh) * 2019-06-26 2019-10-15 京东数字科技控股有限公司 一种pdf文件的信息抽取方法和装置
CN110363252A (zh) * 2019-07-24 2019-10-22 山东大学 趋向于端到端的场景文字检测与识别方法以及系统

Also Published As

Publication number Publication date
CN113033269A (zh) 2021-06-25

Similar Documents

Publication Publication Date Title
CN110738207B (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
CN110348294B (zh) Pdf文档中图表的定位方法、装置及计算机设备
AU2020279921B2 (en) Representative document hierarchy generation
Dong et al. Tablesense: Spreadsheet table detection with convolutional neural networks
US8818033B1 (en) System and method for detecting equations
CN113033269B (zh) 一种数据处理方法及装置
US11954139B2 (en) Deep document processing with self-supervised learning
Tran et al. Page segmentation using minimum homogeneity algorithm and adaptive mathematical morphology
Wilkinson et al. Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections
Gordo et al. Large-scale document image retrieval and classification with runlength histograms and binary embeddings
US9141853B1 (en) System and method for extracting information from documents
Gomez et al. A fast hierarchical method for multi-script and arbitrary oriented scene text extraction
CN114596566A (zh) 文本识别方法及相关装置
Zhai et al. Chinese image text recognition with BLSTM-CTC: a segmentation-free method
Lee et al. Improved image retrieval and classification with combined invariant features and color descriptor
Ghosh et al. R-PHOC: segmentation-free word spotting using CNN
Yu et al. An effective method for figures and tables detection in academic literature
CN110147516A (zh) 页面设计中前端代码的智能识别方法及相关设备
US20230138491A1 (en) Continuous learning for document processing and analysis
CN114758340A (zh) 物流地址智能识别方法、装置、设备及存储介质
Pham et al. A deep learning approach for text segmentation in document analysis
CN114399782B (zh) 文本图像处理方法、装置、设备、存储介质及程序产品
Dey et al. Evaluation of word spotting under improper segmentation scenario
Singh et al. DeepDoT: deep framework for detection of tables in document images
Slavin et al. Extraction of Information Fields in Administrative Documents Using Constellations of Special Text Points

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant