CN113673501A

CN113673501A - 一种ocr分类方法、系统、电子设备及存储介质

Info

Publication number: CN113673501A
Application number: CN202110970634.XA
Authority: CN
Inventors: 黄敏清; 梁柱; 黄浩; 杨毅; 伍绍聪; 卢福宁
Original assignee: Guangdong Power Grid Co Ltd; Zhaoqing Power Supply Bureau of Guangdong Power Grid Co Ltd
Current assignee: Guangdong Power Grid Co Ltd; Zhaoqing Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date: 2021-08-23
Filing date: 2021-08-23
Publication date: 2021-11-19
Anticipated expiration: 2041-08-23
Also published as: CN113673501B

Abstract

本申请公开了一种OCR分类方法、系统、电子设备及存储介质，本方法通过网络爬虫技术获取图像样本集，以提高数据来源多样性，提取图像样本集中每个图像样本的字符特征，并根据字符特征生成标签数据对相应的图像样本进行标注，以得到图像和字符特征之间的映射关系，再对标注图像样本集进行增广技术处理，以提高图像样本多样性，并将增广后得到的图像增广样本集按照一定比例划分为训练样本集和测试样本集，利用训练样本集对预设的OCR分类模型进行数据训练，以得到初始的OCR分类模型，并利用测试样本集对初始的OCR分类模型进行准确度测试，从而得到准确度高于预设准确度阈值的OCR分类模型，进而提高了图文信息分类的效率和准确度。

Description

一种OCR分类方法、系统、电子设备及存储介质

技术领域

本申请涉及OCR分类技术领域，尤其涉及一种OCR分类方法、系统、电子设备及存储介质。

背景技术

随着电力市场化改革的深化，电力公司的营销业务发展越来越强，这也会导致营销业务数据出现大幅增长，而目前对于图文信息分类的效率和精准度还不高，从而导致信息分类存在延迟和误差影响，进而影响供电公司营销业务的管理效率较低，这将大大影响用户使用体验感，因此，目前亟需提高图文信息分类的效率和准确度。

发明内容

本申请提供了一种OCR分类方法、系统、电子设备及存储介质，用于解决上述图文信息分类的效率和准确度较低的技术问题。

有鉴于此，本申请第一方面提供了一种OCR分类方法，包括以下步骤：

利用网络爬虫技术对目标网站进行获取图像样本集，所述图像样本集中每个图像样本包含电力营销业务数据；

提取所述所述图像样本集中每个图像样本的字符特征，根据所述字符特征生成标签数据，通过标签数据对相应的所述图像样本进行标注，以得到标注图像样本集；

对所述标注图像样本集进行增广技术处理，得到图像增广样本集；

将所述图像增广样本集按预定比例划分为训练样本集和测试样本集；

以所述训练样本集作为输入量，以所述训练样本集的所述标签数据作为输出量，对预设的OCR分类模型进行数据训练，以得到初始的OCR分类模型；

将所述测试样本集输入至所述初始的OCR分类模型中，输出所述测试样本集的标签数据；

根据所述测试样本集的标签数据的分类结果和所述测试样本集的标签数据的标注结果进行准确度计算；

若准确度的计算结果未超过预设准确度，则调整网络参数，并重新训练初始的OCR分类模型，直至所述初始的OCR分类模型的准确度超过所述预设准确度，输出最终的OCR分类模型。

可选地，所述电力营销业务数据包括电网报装业务数据、专有票据数据和统计表格数据。

可选地，所述对所述标注图像样本集进行增广技术处理，得到图像增广样本集的步骤具体包括：

对所述标注图像样本集中的每个去噪图像样本进行切割，得到多个图像块；

对所述图像块进行筛选，得到筛选后的图像块，所述筛选后的图像块至少包含一个标签数据；

基于图像增强算法对所述筛选后的图像块进行图像增强；

基于预设的噪声扰动模板图像对所述筛选后的图像块进行叠加，以得到噪声叠加图像，作为图像增广样本，从而得到图像增广样本集。

可选地，所述若准确度的计算结果未超过预设准确度，则调整网络参数，并重新训练初始的OCR分类模型，直至所述初始的OCR分类模型的准确度超过所述预设准确度，输出最终的OCR分类模型的步骤之后包括：

通过最终的OCR分类模型对待分类的电力营销图像数据进行识别，输出相应的标签数据；

基于聚类算法对所述标签数据进行聚类处理。

第二方面，本发明提供了一种OCR分类系统，包括：

图像获取模块，用于利用网络爬虫技术对目标网站进行获取图像样本集，所述图像样本集中每个图像样本包含电力营销业务数据；

特征提取模块，用于提取所述所述图像样本集中每个图像样本的字符特征，根据所述字符特征生成标签数据，通过标签数据对相应的所述图像样本进行标注，以得到标注图像样本集；

增广模块，用于对所述标注图像样本集进行增广技术处理，得到图像增广样本集；

划分模块，用于将所述图像增广样本集按预定比例划分为训练样本集和测试样本集；

训练模块，用于以所述训练样本集作为输入量，以所述训练样本集的所述标签数据作为输出量，对预设的OCR分类模型进行数据训练，以得到初始的OCR分类模型；

测试模块，用于将所述测试样本集输入至所述初始的OCR分类模型中，输出所述测试样本集的标签数据；

准确度计算模块，用于根据所述测试样本集的标签数据的分类结果和所述测试样本集的标签数据的标注结果进行准确度计算；

模型输出模块，用于若准确度的计算结果未超过预设准确度，则调整网络参数，并重新训练初始的OCR分类模型，直至所述初始的OCR分类模型的准确度超过所述预设准确度，输出最终的OCR分类模型。

可选地，所述增广模块具体包括：

切割模块，用于对所述标注图像样本集中的每个去噪图像样本进行切割，得到多个图像块；

筛选模块，用于对所述图像块进行筛选，得到筛选后的图像块，所述筛选后的图像块至少包含一个标签数据；

图像增强模块，用于基于图像增强算法对所述筛选后的图像块进行图像增强；

噪声叠加模块，用于基于预设的噪声扰动模板图像对所述筛选后的图像块进行叠加，以得到噪声叠加图像，作为图像增广样本，从而得到图像增广样本集。

可选地，本系统还包括：

识别模块，用于通过最终的OCR分类模型对待分类的电力营销图像数据进行识别，输出相应的标签数据；

聚合模块，用于基于聚类算法对所述标签数据进行聚类处理。

第三方面，本发明提供了一种电子设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被一个或多个所述处理器执行时，使得一个或多个所述处理器执行上述的OCR分类方法的步骤。

第四方面，本发明提供了一种存储介质，所述存储介质可被处理器读写，所述存储介质存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个所述处理器执行上述的OCR分类方法的步骤。

从以上技术方案可以看出，本发明具有以下优点：

本发明通过网络爬虫技术获取图像样本集，以提高数据来源多样性，提取图像样本集中每个图像样本的字符特征，并根据字符特征生成标签数据对相应的图像样本进行标注，以得到图像和字符特征之间的映射关系，再对标注图像样本集进行增广技术处理，以提高图像样本多样性，并将增广后得到的图像增广样本集按照一定比例划分为训练样本集和测试样本集，利用训练样本集对预设的OCR分类模型进行数据训练，以得到初始的OCR分类模型，并利用测试样本集对初始的OCR分类模型进行准确度测试，从而得到准确度高于预设准确度阈值的OCR分类模型，进而提高了图文信息分类的效率和准确度。

附图说明

图1为本申请实施例提供的一种OCR分类方法的流程图；

图2为本申请实施例提供的一种OCR分类系统的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了便于理解，请参阅图1，本发明提供的一种OCR分类方法，包括以下步骤：

S1、利用网络爬虫技术对目标网站进行获取图像样本集，图像样本集中每个图像样本包含电力营销业务数据；

S2、提取图像样本集中每个图像样本的字符特征，根据字符特征生成标签数据，通过标签数据对相应的图像样本进行标注，以得到标注图像样本集；

S3、对标注图像样本集进行增广技术处理，得到图像增广样本集；

S4、将图像增广样本集按预定比例划分为训练样本集和测试样本集；

S5、以训练样本集作为输入量，以训练样本集的标签数据作为输出量，对预设的OCR分类模型进行数据训练，以得到初始的OCR分类模型；

S6、将测试样本集输入至初始的OCR分类模型中，输出测试样本集的标签数据；

S7、根据测试样本集的标签数据的分类结果和测试样本集的标签数据的标注结果进行准确度计算；

S8、若准确度的计算结果未超过预设准确度，则调整网络参数，并重新训练初始的OCR分类模型，直至初始的OCR分类模型的准确度超过预设准确度，输出最终的OCR分类模型。

需要说明的是，本发明提供的一种OCR分类方法，通过网络爬虫技术获取图像样本集，以提高数据来源多样性，提取图像样本集中每个图像样本的字符特征，并根据字符特征生成标签数据对相应的图像样本进行标注，以得到图像和字符特征之间的映射关系，再对标注图像样本集进行增广技术处理，以提高图像样本多样性，并将增广后得到的图像增广样本集按照一定比例划分为训练样本集和测试样本集，利用训练样本集对预设的OCR分类模型进行数据训练，以得到初始的OCR分类模型，并利用测试样本集对初始的OCR分类模型进行准确度测试，从而得到准确度高于预设准确度阈值的OCR分类模型，进而提高了图文信息分类的效率和准确度。

以下为本发明提供的一种OCR分类方法的实施例的详细描述。

本发明提供的一种OCR分类方法，包括以下步骤：

S100、利用网络爬虫技术对目标网站进行获取图像样本集，图像样本集中每个图像样本包含电力营销业务数据；

需要说明的是，目标网站可以为电网内部网站，如电力营销系统。电力营销业务数据包括电网报装业务数据、专有票据数据和统计表格数据。

S200、提取图像样本集中每个图像样本的字符特征，根据字符特征生成标签数据，通过标签数据对相应的图像样本进行标注，以得到标注图像样本集；

需要说明的是，字符特征可以描述字符串特征，包括字符串长度、字符框尺度等。同时，通过自定义的标签数据对字符特征进行标注，其中，自定义的标签数据是具有唯一性的。

S300、对标注图像样本集进行增广技术处理，得到图像增广样本集；

在本实施例中，步骤S300具体包括：

S301、对标注图像样本集中的每个去噪图像样本进行切割，得到多个图像块；

需要说明的是，其切割的尺度可以自定义，一般示例中，其图像块为正方形。

S302、对图像块进行筛选，得到筛选后的图像块，筛选后的图像块至少包含一个标签数据；

需要说明的是，由于图像切割后，容易出现空白字符的图像块，而这类图像块无意义，则无需对其进行后续处理，需要仅保留至少包含一个标签数据的图像块。

S303、基于图像增强算法对筛选后的图像块进行图像增强；

其中，图像增强的方式包括亮度调整、对比度调整和灰度调整等。

S304、基于预设的噪声扰动模板图像对筛选后的图像块进行叠加，以得到噪声叠加图像，作为图像增广样本，从而得到图像增广样本集。

需要说明的是，预设的噪声扰动模板图像是可以预先自定义设定的，其可以为多块，多块噪声扰动模板图像对不同的图像块进行叠加，或重复叠加，而噪声扰动模板图像具有亮度、灰度、噪声点等的设定，从而可以提高图像样本的多样性，减少图像样本的亢余性。

S400、将图像增广样本集按预定比例划分为训练样本集和测试样本集；

在本实施例中，预定比例可以为7:3。

S500、以训练样本集作为输入量，以训练样本集的标签数据作为输出量，对预设的OCR分类模型进行数据训练，以得到初始的OCR分类模型；

需要说明的是，OCR分类模型包括分类器字符识别层、字符模板匹配层和深度学习计算层。

S600、将测试样本集输入至初始的OCR分类模型中，输出测试样本集的标签数据；

S700、根据测试样本集的标签数据的分类结果和测试样本集的标签数据的标注结果进行准确度计算；

S800、若准确度的计算结果未超过预设准确度，则调整网络参数，并重新训练初始的OCR分类模型，直至初始的OCR分类模型的准确度超过预设准确度，输出最终的OCR分类模型。

在一个具体实施例中，在得到最终的OCR分类模型后，还可以进行参数配置训练，通过神经网络策略进一步提高OCR识别分类精度。

S900、通过最终的OCR分类模型对待分类的电力营销图像数据进行识别，输出相应的标签数据；

S1000、基于聚类算法对标签数据进行聚类处理。

需要说明的是，为了提高数据管理的层次性，可以基于聚类算法对标签数据进行聚类处理，以使得标签数据可以围绕不同的主题进行分布，以进行有效管理。

以上为本发明提供的一种OCR分类方法的实施例的具体描述，以下为本发明提供的一种OCR分类系统的实施例的具体描述。

为了方便理解，请参阅图2，本发明提供的一种OCR分类系统，包括：

图像获取模块100，用于利用网络爬虫技术对目标网站进行获取图像样本集，图像样本集中每个图像样本包含电力营销业务数据；

特征提取模块200，用于提取图像样本集中每个图像样本的字符特征，根据字符特征生成标签数据，通过标签数据对相应的图像样本进行标注，以得到标注图像样本集；

增广模块300，用于对标注图像样本集进行增广技术处理，得到图像增广样本集；

划分模块400，用于将图像增广样本集按预定比例划分为训练样本集和测试样本集；

训练模块500，用于以训练样本集作为输入量，以训练样本集的标签数据作为输出量，对预设的OCR分类模型进行数据训练，以得到初始的OCR分类模型；

测试模块600，用于将测试样本集输入至初始的OCR分类模型中，输出测试样本集的标签数据；

准确度计算模块700，用于根据测试样本集的标签数据的分类结果和测试样本集的标签数据的标注结果进行准确度计算；

模型输出模块800，用于若准确度的计算结果未超过预设准确度，则调整网络参数，并重新训练初始的OCR分类模型，直至初始的OCR分类模型的准确度超过预设准确度，输出最终的OCR分类模型。

进一步地，电力营销业务数据包括电网报装业务数据、专有票据数据和统计表格数据。

进一步地，增广模块具体包括：

切割模块，用于对标注图像样本集中的每个去噪图像样本进行切割，得到多个图像块；

筛选模块，用于对图像块进行筛选，得到筛选后的图像块，筛选后的图像块至少包含一个标签数据；

图像增强模块，用于基于图像增强算法对筛选后的图像块进行图像增强；

噪声叠加模块，用于基于预设的噪声扰动模板图像对筛选后的图像块进行叠加，以得到噪声叠加图像，作为图像增广样本，从而得到图像增广样本集。

进一步地，本系统还包括：

聚合模块，用于基于聚类算法对标签数据进行聚类处理。

需要说明的是，本发明提供的一种OCR分类系统的工作过程与上述实施例提供的OCR分类方法的流程一致，在此不再赘述。

本系统通过网络爬虫技术获取图像样本集，以提高数据来源多样性，提取图像样本集中每个图像样本的字符特征，并根据字符特征生成标签数据对相应的图像样本进行标注，以得到图像和字符特征之间的映射关系，再对标注图像样本集进行增广技术处理，以提高图像样本多样性，并将增广后得到的图像增广样本集按照一定比例划分为训练样本集和测试样本集，利用训练样本集对预设的OCR分类模型进行数据训练，以得到初始的OCR分类模型，并利用测试样本集对初始的OCR分类模型进行准确度测试，从而得到准确度高于预设准确度阈值的OCR分类模型，进而提高了图文信息分类的效率和准确度。

本发明还提供了一种电子设备，包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述的OCR分类方法的步骤。

本发明还提供了一种存储介质，存储介质可被处理器读写，存储介质存储有计算机可读指令，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述的OCR分类方法的步骤。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以通过一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：Random Access Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种OCR分类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的OCR分类方法，其特征在于，所述电力营销业务数据包括电网报装业务数据、专有票据数据和统计表格数据。

3.根据权利要求1所述的OCR分类方法，其特征在于，所述对所述标注图像样本集进行增广技术处理，得到图像增广样本集的步骤具体包括：

基于图像增强算法对所述筛选后的图像块进行图像增强；

4.根据权利要求1所述的OCR分类方法，其特征在于，所述若准确度的计算结果未超过预设准确度，则调整网络参数，并重新训练初始的OCR分类模型，直至所述初始的OCR分类模型的准确度超过所述预设准确度，输出最终的OCR分类模型的步骤之后包括：

基于聚类算法对所述标签数据进行聚类处理。

5.一种OCR分类系统，其特征在于，包括：

6.根据权利要求5所述的OCR分类系统，其特征在于，所述电力营销业务数据包括电网报装业务数据、专有票据数据和统计表格数据。

7.根据权利要求5所述的OCR分类系统，其特征在于，所述增广模块具体包括：

8.根据权利要求5所述的OCR分类系统，其特征在于，还包括：

9.一种电子设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被一个或多个所述处理器执行时，使得一个或多个所述处理器执行权利要求1～4任一项所述的OCR分类方法的步骤。

10.一种存储介质，其特征在于，所述存储介质可被处理器读写，所述存储介质存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个所述处理器执行权利要求1～4任一项所述的OCR分类方法的步骤。