CN110443317A

CN110443317A - 一种纸档资料电子化的方法、装置和电子设备

Info

Publication number: CN110443317A
Application number: CN201910733992.1A
Authority: CN
Inventors: 刘志刚
Original assignee: Shanghai Yaomou Electric Technology Co Ltd
Current assignee: Shanghai Yaomou Electric Technology Co Ltd
Priority date: 2019-08-09
Filing date: 2019-08-09
Publication date: 2019-11-12

Abstract

本说明书实施例提供一种纸档资料电子化的方法，通过获取目标图像，目标图像为待电子化的纸档资料的图像，根据目标图像的页面特征确定所述目标图像的类别，根据与所述目标图像的类别对应的光学字符识别模板对所述目标图像进行电子化识别。通过根据页面特征自动地进行分类，不需要人工的对纸档资料或者其图像进行分类，操作简单，提高了纸档资料电子化的分类效率。

Description

一种纸档资料电子化的方法、装置和电子设备

技术领域

本申请涉及通信领域，尤其涉及一种纸档资料电子化的方法、装置和电子设备。

背景技术

纸档资料的电子化是随着信息技术发展产生的一个趋势，将纸档资料电子化后，使资料的保存更简便、信息的查阅更快速、便利。

纸档资料的电子化的实质，是对纸档资料进行光学字符识别，根据纸档资料中字符的形状，联想电子档的字符，既而生成电子档资料。

发明内容

本说明书实施例提供一种纸档资料电子化的方法、装置和电子设备，用以解决现有技术中纸档资料电子化中存在的效率低的问题。

本说明书实施例提供一种纸档资料电子化的方法，包括：

获取目标图像，所述目标图像为待电子化的纸档资料的图像；

根据所述目标图像的页面特征确定所述目标图像的类别；

根据与所述目标图像的类别对应的光学字符识别模板对所述目标图像进行电子化识别，得到电子档资料。

可选地，所述根据所述目标图像的页面特征确定所述目标图像的类别，包括：

利用构建的页面分类模型确定所述目标图像的类别，所述页面分类模型为以样本图像为训练集，以所述样本图像的页面类型为标签值进行监督学习模拟得到的。

可选地，所述获取目标图像，包括：

服务器获取终端采集并向所述服务器发送的目标图像；

所述方法还包括：将所述电子档资料发送给所述终端，使所述终端展示所述电子档资料。

可选地，所述页面特征包括：页面中标识的位置、形状和色度中的至少一个，所述页面中的标识包括字符、线条和图案终端中至少一个。

可选地，在所述服务器获取终端采集并向所述服务器发送的目标图像之后，还包括：

对所述目标图像的视角进行校正处理，得到校正处理后的目标图像，所述校正处理包括：旋转、缩放、摆正中的至少一个。

可选地，还包括：根据所述目标图像的类别存储所述电子档资料。

可选地，所述根据所述目标图像的类别存储所述电子档资料，包括：

将所述电子档资料存储到所述目标图像的类别对应的数据库中。

本说明书实施例还提供一种纸档资料电子化的装置，包括：

获取模块，获取目标图像，所述目标图像为待电子化的纸档资料的图像；

分类模块，根据所述目标图像的页面特征确定所述目标图像的类别；

识别模块，根据与所述目标图像的类别对应的光学字符识别模板对所述目标图像进行电子化识别，得到电子档资料。

可选地，所述获取目标图像，包括：

服务器获取终端采集并向所述服务器发送的目标图像；

所述装置还用于：将所述电子档资料发送给所述终端，使所述终端展示所述电子档资料。

本说明书实施例还提供一种电子设备，其中，该电子设备包括：

处理器；以及，

存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行上述任一项方法。

本说明书实施例还提供一种计算机可读存储介质，其中，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被处理器执行时，实现上述任一项方法。

本说明书记载的各种实施例通过根据待电子化纸档资料的图像的页面特征自动地进行分类，不需要人工的对纸档资料或者其图像进行分类，操作简单，提高了纸档资料电子化的分类效率。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本说明书实施例提供的一种纸档资料电子化的方法的原理示意图；

图2为本说明书实施例提供的一种纸档资料电子化的装置的原理示意图；

图3为本说明书实施例提供的一种电子设备的结构示意图。

具体实施方式

为了便于查阅资料时可以进行针对性的查阅，现有技术会在对纸档资料进行光学字符识别对纸质资料进行分类，根据分类的纸档资料分别进行光学字符识别的处理。

对现有技术进行分析发现，现有技术通常人工的将纸档资料进行分类，利用特定类别的电子档模板对纸档资料进行光学字符识别，这是因为，光学字符识别实质上是对纸档的字符逐一进行识别，然而，不同纸档资料的区别不仅体现在字符串的差异上，还体现在资料的模板、格式等页面布局的差异上，因此，为了使电子档资料保持原纸档资料的页面布局，现有技术通常在进行光学字符识别前，人工的将纸档资料或者其扫描的图像进行分类。

然而这种方式需要人工的进行分类，操作繁琐，费时费力，效率较低，因此，如果能提出一种能高效分类的纸档资料电子化的方法，将很大程度上改善业内进行纸档资料电子化时操作繁琐的现状。

本说明书实施例提供一种纸档资料电子化的方法，包括：

根据所述目标图像的页面特征确定所述目标图像的类别；

通过根据纸档资料图像的页面特征自动地进行分类，既而根据对应的光学字符识别模板对所述目标图像进行电子化识别，不需要人工的对纸档资料或者其图像进行分类，操作简单，提高了纸档资料电子化的分类效率。

图1为本说明书实施例提供的一种纸档资料电子化的方法的原理示意图，该方法可以包括：

S101：获取目标图像，所述目标图像为待电子化的纸档资料的图像。

服务器获取图像，可以是从与服务器建立通信连接的各种图像采集终端中获取目标图像，在此之前，图像采集终端通过采集目标图像，并向服务器发送目标图像。

在本说明书实施例中，用户可以移动终端作为采集终端，比如手机，由于移动终端的具有可移动和轻便的特性，因此，可以现场采集纸档资料的目标图像，而不需要将纸档资料集中到图像采集终端处进行图像采集，使得便利性提高。

其中，终端中可以安装进行应用程序用于向服务器上传目标图像，比如，用户选择多个目标图像，点击“一键分类”，便可以使服务器对目标图像将进行分类和电子化。

尤其在一些复杂场景中，比如纸档资料只能在作废后才能进行收集并进行电子化存档，使得纸档资料电子化存档的时间往往有一定的延迟，而通过移动终端采集图像，可以到纸档资料(比如产线的生产记录卡，或者不同格式的报告等)的现场(生产现场)进行采集，使得纸档资料电子化的及时性和实时性得以提高，也降低了操作复杂性、提高了便利性。

因此，获取目标图像，可以包括：

服务器获取终端采集并向所述服务器发送的目标图像。

其中，服务器获取终端采集并向所述服务器发送的目标图像，可以包括：

服务器获取移动终端采集并向所述服务器发送的目标图像。

在实际的应用场景中，图像的采集效果很大程度上影响对图像的分析，而在通过拍摄采集目标图像时，可能存在由于拍摄的视角和远近导致拍摄效果的差问题，既而使得对图像进行类别识别的准确率较低。

因此，在所述服务器获取终端采集并向所述服务器发送的目标图像之后，该方法还可以包括：

既而，便可以根据校正的目标图像的页面特征确定目标图像的类别，以提高对目标图像进行类别识别的准确率。

S102：根据所述目标图像的页面特征确定所述目标图像的类别。

在本说明书实施例中，页面特征可以包括：页面中标识的位置、形状和色度中的至少一个，页面中的标识可以包括字符、线条和图案终端中至少一个。

页面特征可以以图像特征的形式反应纸档资料所使用的模板和格式，因此，通过识别目标图像的页面特征，便可以确定目标图像的类别，继而确定纸档资料的模板类别，这样，再进行电子化的时候，便可以直接对目标图像中的字符进行识别，并且使识别到的电子档资料保持原纸档资料的格式。

在本说明书实施例中，可以在根据所述目标图像的页面特征确定所述目标图像的类别前，可以预先设定特定的页面特征作为目标图像的类别的识别标识，比如，文档主标题、部门编号、加密等级等，再比如，文档区域在图像页面中的位置，甚至是特殊的图案或者盖章等，这些都可以作为目标图像的页面特征。

这样，根据所述目标图像的页面特征确定所述目标图像的类别，可以包括：

根据预先设定的分类方式根据所述目标图像的页面特征确定所述目标图像的类别。

在本说明书实施例中，可以构建页面分类模型，根据目标图像的页面特征，对目标图像进行分类，比如，可以利用监督学习的方式，采集不同模板或格式下的纸档资料的图像，作为样本图像，来进行训练分类模型。

因此，所述根据所述目标图像的页面特征确定所述目标图像的类别，可以包括：

通过构建页面分类模型的方式确定所述目标图像的类别，不需要频繁的设置分类方式，只需要训练模拟的到页面分类模型后，便可以根据该模型，适用于多种场景下的分类，由于页面分类模型是通过根据页面特征利用监督学习的方式获得的，因此，该模型可以对目标图像进行分类，可以适用于大规模纸档资料的分类电子化，而且准确率较高。

S103：根据与所述目标图像的类别对应的光学字符识别模板对所述目标图像进行电子化识别，得到电子档资料。

在本说明书实施例中，在确定了目标图像的类别之后，便可以采用对应光学字符识别模板对目标图像进行电子化识别，由于对应的光学字符识别模板中包括了该类别的目标图像的页面特征，因此，只需要在此基础上识别目标图像中的字符，填充到模板中，便可以得到与纸档资料相同格式的电子档资料。

可选地，在得到电子档资料之后，该方法还可以包括：将所述电子档资料发送给所述终端，使所述终端展示所述电子档资料。

可选地，该方法还可以包括：根据所述目标图像的类别存储所述电子档资料。

具体的，根据所述目标图像的类别存储所述电子档资料，可以包括：

在一种具体的应用场景，某大型企业具有多个部门，每个部门都会有不同模板的文件，比如，不同部门的设计资料会有不同的格式，产品在不同研发部门的验证结果也可能会有不同的格式、模板，这些都可能形成纸质文档。在对这些纸质文档进行电子化存档时，可以将各种模板的文档集中采集目标图像，或者，用户手持手机到各个部门对多种模板的纸质文档进行采集目标图像，相服务器上传这些目标图像，比如选中带分类存档的目标图像，选中“分类”，便可有服务器识别各目标图像的类别们根据对应的模板将其电子化存档，这种方式一方面减少了人工分类的操作，一方面快速高效，提升了资质资料电子化分类存档的效率。

基于同一发明构思，本说明书实施例还提供一种纸档资料电子化的装置。

图2为本说明书实施例提供的一种纸档资料电子化的装置的原理示意图，该装置可以包括：

获取模块201，获取目标图像，所述目标图像为待电子化的纸档资料的图像；

分类模块202，根据所述目标图像的页面特征确定所述目标图像的类别；

识别模块203，根据与所述目标图像的类别对应的光学字符识别模板对所述目标图像进行电子化识别，得到电子档资料。

该装置通过根据纸档资料图像的页面特征自动地进行分类，既而根据对应的光学字符识别模板对所述目标图像进行电子化识别，不需要人工的对纸档资料或者其图像进行分类，操作简单，提高了纸档资料电子化的分类效率。

可选地，所述根据所述目标图像的页面特征确定所述目标图像的类别，可以包括：

可选地，所述获取目标图像，可以包括：

服务器获取终端采集并向所述服务器发送的目标图像；

可选地，所述页面特征可以包括：页面中标识的位置、形状和色度中的至少一个，所述页面中的标识可以包括字符、线条和图案终端中至少一个。

可选地，在所述服务器获取终端采集并向所述服务器发送的目标图像之后，还可以包括：

对所述目标图像的视角进行校正处理，得到校正处理后的目标图像，所述校正处理可以包括：旋转、缩放、摆正中的至少一个。

可选地，还可以包括：根据所述目标图像的类别存储所述电子档资料。

可选地，所述根据所述目标图像的类别存储所述电子档资料，可以包括：

基于同一发明构思，本说明书实施例还提供一种电子设备。

下面描述本发明的电子设备实施例，该电子设备可以视为对于上述本发明的方法和装置实施例的具体实体实施方式。对于本发明电子设备实施例中描述的细节，应视为对于上述方法或装置实施例的补充；对于在本发明电子设备实施例中未披露的细节，可以参照上述方法或装置实施例来实现。

图3为本说明书实施例提供的一种电子设备的结构示意图。下面参照图3来描述根据本发明该实施例的电子设备300。图3显示的电子设备300仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图3所示，电子设备300以通用计算设备的形式表现。电子设备300的组件可以包括但不限于：至少一个处理单元310、至少一个存储单元320、连接不同系统组件(包括存储单元320和处理单元310)的总线330、显示单元340等。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元310执行，使得所述处理单元310执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。例如，所述处理单元310可以执行如图1所示的步骤。

所述存储单元320可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)3201和/或高速缓存存储单元3202，还可以进一步包括只读存储单元(ROM)3203。

所述存储单元320还可以包括具有一组(至少一个)程序模块3205的程序/实用工具3204，这样的程序模块3205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线330可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备300也可以与一个或多个外部设备400(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备300交互的设备通信，和/或与使得该电子设备300能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口350进行。并且，电子设备300还可以通过网络适配器360与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器360可以通过总线330与电子设备300的其它模块通信。应当明白，尽管图3中未示出，可以结合电子设备300使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，本发明描述的示例性实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本发明实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个计算机可读的存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本发明的上述方法。当所述计算机程序被一个数据处理设备执行时，使得该计算机可读介质能够实现本发明的上述方法，即：如图1所示的方法。

所述计算机程序可以存储于一个或多个计算机可读介质上。计算机可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

综上所述，本发明可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)等通用数据处理设备来实现根据本发明实施例中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，本发明不与任何特定计算机、虚拟装置或者电子设备固有相关，各种通用装置也可以实现本发明。以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种纸档资料电子化的方法，其特征在于，包括：

根据所述目标图像的页面特征确定所述目标图像的类别；

2.根据权利要求1所述的方法，其特征在于，所述根据所述目标图像的页面特征确定所述目标图像的类别，包括：

3.根据权利要求2所述的方法，其特征在于，所述获取目标图像，包括：

服务器获取终端采集并向所述服务器发送的目标图像；

4.根据权利要求1-3中任一项所述的方法，其特征在于，所述页面特征包括：页面中标识的位置、形状和色度中的至少一个，所述页面中的标识包括字符、线条和图案终端中至少一个。

5.根据权利要求4所述的方法，其特征在于，在所述服务器获取终端采集并向所述服务器发送的目标图像之后，还包括：

6.根据权利要求1所述的方法，其特征在于，还包括：根据所述目标图像的类别存储所述电子档资料。

7.根据权利要求6所述的方法，其特征在于，所述根据所述目标图像的类别存储所述电子档资料，包括：

8.一种纸档资料电子化的装置，其特征在于，包括：

9.根据权利要求8所述的装置，其特征在于，所述根据所述目标图像的页面特征确定所述目标图像的类别，包括：

10.根据权利要求9所述的装置，其特征在于，所述获取目标图像，包括：

服务器获取终端采集并向所述服务器发送的目标图像；

11.根据权利要求8-10中任一项所述的装置，其特征在于，所述页面特征包括：页面中标识的位置、形状和色度中的至少一个，所述页面中的标识包括字符、线条和图案终端中至少一个。

12.根据权利要求11所述的装置，其特征在于，在所述服务器获取终端采集并向所述服务器发送的目标图像之后，还包括：

13.根据权利要求8所述的装置，其特征在于，还包括：根据所述目标图像的类别存储所述电子档资料。

14.根据权利要求13所述的装置，其特征在于，所述根据所述目标图像的类别存储所述电子档资料，包括：

15.一种电子设备，其中，该电子设备包括：

处理器；以及，

存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行根据权利要求1-7中任一项所述的方法。

16.一种计算机可读存储介质，其中，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被处理器执行时，实现权利要求1-7中任一项所述的方法。