CN111027529A

CN111027529A - 减少深度学习ocr的参数量和计算量的方法与计算机设备及存储介质

Info

Publication number: CN111027529A
Application number: CN201911227887.7A
Authority: CN
Inventors: 黄鸿康; 涂天牧; 严博宇; 赵寒枫; 刘新宇
Original assignee: Shenzhen New Guodu Jinfu Technology Co Ltd
Current assignee: Shenzhen New Guodu Jinfu Technology Co Ltd
Priority date: 2019-12-04
Filing date: 2019-12-04
Publication date: 2020-04-17

Abstract

本发明公开了一种减少深度学习OCR的参数量和计算量的方法与计算机设备及存储介质，方法包括以下步骤：步骤S1，用卷积层进行特征提取，在这个卷积层提取出的特征的基础上，再同时做两个多层卷积、对应的卷积层再分别用全连接层进行分类；步骤S2，当推理文字时，分别提取两个全连接网络中最大的预测概率的类，用于表达最终文字的类别；步骤S3，使用两个全连接网络代替一个全连接网络，两个全连接网络分别输出一个分类概率，对两个分类概率综合获得总的概率。

Description

减少深度学习OCR的参数量和计算量的方法与计算机设备及存储介质

技术领域

本发明涉及深度学习领域和文字识别领域，尤其涉及一种减少深度学习OCR的参数量和计算量的方法与计算机设备及存储介质。

背景技术

在当前深度学习领域，OCR技术在需要识别的字很多时,产生的参数量会非常庞大,计算量也会非常大；而且，OCR技术在移动端的算力远远不如在GPU上的算力,文字识别时间会比较长，使用OCR技术也会使得移动端下载几十Mb的参数会影响用户体验。

公开于该背景技术部分的信息仅仅旨在加深对本发明的总体背景技术的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。

基于上述原因本发明提出了一种减少深度学习OCR的参数量和计算量的方法与计算机设备及存储介质，旨在解决上述存在的问题。

发明内容

为了满足上述要求，本发明第一个目的在于提供一种减少深度学习OCR的参数量和计算量的方法。

本发明的第二个目的在于提供一种减少深度学习OCR的参数量和计算量的计算机设备。

本发明的第三个目的在于提供一种非临时性计算机可读存储介质，其上存储有计算机程序。

为了实现上述目的，本发明采用以下技术方案：

一种减少深度学习OCR的参数量和计算量的方法，包括以下步骤：

步骤S1，用卷积层进行特征提取，在这个卷积层提取出的特征的基础上，再同时做两个多层卷积、对应的卷积层再分别用全连接层进行分类；

步骤S2，当推理文字时，分别提取两个全连接网络中最大的预测概率的类，用于表达最终文字的类别；

步骤S3，使用两个全连接网络代替一个全连接网络，两个全连接网络分别输出一个分类概率，对两个分类概率综合获得总的概率。

进一步技术方案为，所述步骤S3之后还包括，将两个分类头分别计算ctc-loss,并将连个ctc-loss相加得到最终的loss，以实现端到端的训练。

本发明还公开了一种减少深度学习OCR的参数量和计算量的计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的OCR程序，所述OCR程序被所述处理器执行时实现如上述任一项所述的减少深度学习OCR的参数量和计算量的方法。

本发明还公开了一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述任一项所述的减少深度学习OCR的参数量和计算量的方法。

相比于现有技术,本发明的有益效果在于：采用本方案的减少深度学习OCR的参数量和计算量的方法，能够在进行OCR文字识别中将最终模型的参数大小由以前的33Mb减少到4Mb(作为一个示例，由本发明人经过大量实验测试得出)，极大地减少了计算量,使得文字识别在手机端或计算力受限的情况下能更友好地使用。

下面结合附图和具体实施例对本发明作进一步描述。

附图说明

图1是本发明一种减少深度学习OCR的参数量和计算量的方法的具体实施例流程示意图；

图2是本发明一种减少深度学习OCR的参数量和计算量的计算机设备的框架组成具体实施例示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面结合附图和具体实施方式对本发明作进一步详细说明。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不应理解为必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。此外，本领域的技术人员可以将本说明书中描述的不同实施例或示例进行接合和组合。

如图1所示的方法流程图，为本发明一种减少深度学习OCR的参数量和计算量的方法的具体实施例，包括以下步骤：

具体地，在文字识别中，一般是先检测出文字所在图片中的区域，然后将文字区域提取出来喂到文字识别网络。文字识别网络是对图片进行多层的卷积进行特征提取，最后再用全连接的softmax来计算文字的类别的概率，然后选出最大概率，认为是识别出的文字。当需要识别的文字比较多的时候，最后一层全连接的参数量就会非常大。

我们对此的改进是用两个全连接网络来代替一个全连接网络，两个网络中每个网络输出一个分类概率，最后再将连个网络的输出概率进行综合，求得总的概率。

在推理的时候，我们只需要在每个网络中取最大的预测概率的类，最后两个类来表达最终文字的类别。

假设需要分类的文字是M，那么我们两个分类头只需要两个分类[√M]。如果特征提取层的最后一层的参数量量是N₀，则要计算最后的全连接层的所有类别的概率，需要至少(N₀+1)×M的参数。

举个实际例子，N₀＝768，M＝8080，则全连接的参数量是(768+1)×8080＝6213520。如果将全连接的8080分类分解成两个90分类，则参数量是2×(768+1)×90＝138420，参数量大大减少。

此外，由于我们的文字识别是识别不定长的文字序列，用到了CTC-loss,在实际训练中，我们将两个分类头共享底层的特征提取卷积层，使得训练和推理需要的资源减少。在全连接层分别前增加了两层卷积层，以增加非线性表达能力，在增加少许参数量(小于10w个)的情况下，使得两个分类头的相关性减少。

再者，我们修改了CTC-loss，将两个分类头的CTC-loss相加做为模型的最终loss，使得模型可以只使用一个GPU进行端到端的训练。

在推理的时候，我们不需要计算所有M个分类的概率，只需要在两个分类头中分别找出最大的概率所对应的类别，然后将两个类别综合做为最终的类别，也减少了推理时的计算量。

如图2所示，本发明还公开了一种减少深度学习OCR的参数量和计算量的计算机设备，包括存储器100、处理器200及存储在所述存储器100上并可在所述处理器200上运行的OCR程序，所述OCR程序被所述处理器执行时实现如上述任一项所述的减少深度学习OCR的参数量和计算量的方法。其中，所述存储器可以是只读存储器(read-onlymemory，ROM)或可存储静态信息和指令的其它类型的静态存储设备，随机存取存储器(randomaccessmemory，RAM))或者可存储信息和指令的其它类型的动态存储设备，也可以是电可擦可编程只读存储器(ElectricallyErasableProgrammableRead-OnlyMemory，EEPROM)、只读光盘(CompactDiscRead-OnlyMemory，CD-ROM)或其它光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其它磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其它介质，但不限于此。存储器可以是独立存在，通过通信总线与处理器相连接。存储器也可以和处理器集成在一起。

本发明还公开了一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述任一项所述的减少深度学习OCR的参数量和计算量的方法。所述存储介质可以是前述服务器的内部存储单元，例如服务器的硬盘或内存。所述存储介质也可以是所述设备的外部存储设备，例如所述设备上配备的插接式硬盘，智能存储卡(SmartMediaCard,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(FlashCard)等。进一步地，所述存储介质还可以既包括所述设备的内部存储单元也包括外部存储设备。

综上所述，采用本方案的减少深度学习OCR的参数量和计算量的方法，能够在进行OCR文字识别中将最终模型的参数大小由以前的33Mb减少到4Mb(作为一个示例，由本发明人经过大量实验测试得出)，极大地减少了计算量,使得文字识别在手机端或计算力受限的情况下能更友好地使用。

对本领域的技术人员来说，可根据以上描述的技术方案以及构思，做出其他各种相应的改变以及形变，而所有的这些改变以及形变应该属于本发明权利要求的保护范围之内。

Claims

1.一种减少深度学习OCR的参数量和计算量的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种减少深度学习OCR的参数量和计算量的方法，其特征在于，所述步骤S3之后还包括，将两个分类头分别计算ctc-loss,并将连个ctc-loss相加得到最终的loss，以实现端到端的训练。

3.一种减少深度学习OCR的参数量和计算量的计算机设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的OCR程序，所述OCR程序被所述处理器执行时实现如权利要求1-2中任一项所述的减少深度学习OCR的参数量和计算量的方法。

4.一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1-2中任一项所述的减少深度学习OCR的参数量和计算量的方法。