CN111008624A

CN111008624A - 光学字符识别方法和产生光学字符识别的训练样本的方法

Info

Publication number: CN111008624A
Application number: CN201911232462.5A
Authority: CN
Inventors: 吴大帅; 余超
Original assignee: Mobilemd System Jiaxing Co ltd
Current assignee: SHANGHAI YIKAI INTELLIGENT TECHNOLOGY Co.,Ltd.
Priority date: 2019-12-05
Filing date: 2019-12-05
Publication date: 2020-04-14

Abstract

本公开提供了一种光学字符识别方法和系统以及一种产生光学字符识别的训练样本的方法和系统。本公开涉及的光学字符识别方法和系统，能够大幅度提高光学字符识别的准确率和识别效率。本公开的产生光学字符识别的训练样本的方法及系统通过使生成训练样本所使用的文本行的类别分布与训练文本的的类别分布相符合，以及在训练样本的生成中加入随机特征变换，使得生成的训练样本更接近实际应用场景中的真实数据，从而大幅度提高所训练出来的光学字符识别模型的识别准确率。

Description

光学字符识别方法和产生光学字符识别的训练样本的方法

技术领域

本公开主要涉及光学字符识别领域，尤其涉及一种光学字符识别方法和系统以及一种产生光学字符识别的训练样本的方法和系统。

背景技术

光学字符识别是指针对字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式的技术。如何提高光学字符识别的识别正确率，是本领域最关注的课题。

使用神经网络来进行光学字符识别可以大幅度提高识别正确率，并且可以减少人工设计字符特征等步骤。但现有技术中，神经网络所使用的训练数据一般思路是通过业务系统收集或通过人工标注。对训练文本和训练样本的模拟生成的关注较少。

发明内容

本公开要解决的一个技术问题是提供一种光学字符识别方法，可用于更准确地进行光学字符识别。

本公开要解决的另一技术问题是提供一种产生光学字符识别的训练样本的方法，可生成更接近真实数据的光学字符识别的训练样本。

为解决上述技术问题，本公开提供了一种光学字符识别方法，包括以下步骤：获取字符图像；使用特征提取模型提取所述字符图像的多个特征，所述特征提取模型是使用预先生成的训练图像样本训练得到的多层残差网络模型；将所述多个特征组成特征序列，利用识别概率模型确定对所述特征序列进行水平方向的拟合，从而输出多个位置所分别对应的预定义字符的概率值；所述识别概率模型是使用所述训练图像样本训练得到的长短期记忆模型；以及根据所述识别概率模型确定的所述概率值，利用连续时序分类器确定所述特征序列对应的字符序列。

可选地，所述方法包括按照如下方法生成所述训练图像样本：获取多个训练文本，每一训练文本具有类别属性；统计所述多个训练文本的类别分布；从所述多个训练文本中选取多个文本行，使所述多个文本行的类别分布符合所述多个训练文本的类别分布；将所述多个文本行转换为文本图像；以及对所述文本图像进行随机特征变换，获得所述训练图像样本。

可选地，所述随机特征变换包括以下之一或任意组合：随机挑选字体渲染文字、随机调整线条粗细、随机调整文本图像亮度、随机仿射变换以及随机投影变换。

可选地，所述随机挑选字体渲染文字的步骤是根据所述类别分布进行。

可选地，所述随机调整线条粗细、随机调整文本图像亮度、随机仿射变换以及随机投影变换的步骤是根据对应的预设范围进行。

可选地，所述训练文本的类别包括：文献、医学病历、不良事件描述以及检验报告单。

可选地，按照如下方法训练所述特征提取模型和识别概率模型：获取所述训练图像样本；使用特征提取模型提取所述训练图像样本的多个特征；将所述多个特征组成特征序列，利用识别概率模型对所述特征序列进行水平方向的拟合，从而输出多个位置所对应的预定义字符的概率值；根据所述识别概率模型确定的概率值，使用连续时序分类器计算损失值；以及使用所述连续时序分类器确定误差，且调整所述特征提取模型和所述识别概率模型。

可选地，利用连续时序分类器确定所述特征图像序列对应的字符序列的步骤之后还包括：根据语言模型对所述字符序列进行修正，其中所述语言模型是根据与所述字符图像的领域有关的语料统计得到。

本公开还提供了一种产生光学字符识别的训练样本的方法，包括如下步骤：获取多个训练文本，每一训练文本具有类别属性；统计所述多个训练文本的类别分布；从所述多个训练文本中选取多个文本行，使所述多个文本行的类别分布符合所述多个训练文本的类别分布；将所述多个文本行转换为文本图像；以及对所述文本图像进行随机特征变换，获得训练样本

可选地，随机调整线条粗细、随机调整文本图像亮度、随机仿射变换以及随机投影变换的步骤是根据对应的预设范围进行。

本公开还提供了一种光学字符识别系统，包括：存储器，用于存储可由处理器执行的指令；处理器，配置为执行所述指令以实现上述的光学字符识别方法训练光学字符识别模型；以及使用经训练的光学字符识别模型识别目标文件。

本公开还提供了一种产生光学字符识别的训练样本的系统，包括：存储器，用于存储可由处理器执行的指令；以及处理器，用于执行所述指令以实现上述的产生光学字符识别的训练样本的方法。

与现有技术相比，本公开的光学字符识别方法及系统具有可以大幅度提高光学字符识别的准确率和识别效率的优点。

与现有技术相比，本公开的产生光学字符识别的训练样本的方法及系统具有以下优点：

通过使生成训练样本所使用的文本行的类别分布与训练文本的的类别分布相符合，使得训练样本更接近实际应用场景中的真实数据，从而大幅度提高所训练出来的光学字符识别模型的识别准确率；通过在训练样本的生成中加入随机特征变换，使得生成的训练样本更接近实际应用场景中的真实图像，从而大幅度地提高所训练出来的光学字符识别模型的识别准确率。

附图说明

通过参照附图详细描述其示例实施例，本公开的上述和其它目标、特征及优点将变得更加显而易见。下面描述的附图仅仅是本公开的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本公开一实施例示出的光学字符识别方法和产生光学字符识别的训练样本的方法及其系统的系统框图。

图2是根据本公开一实施例示出的产生光学字符识别的训练样本的方法的流程图。

图3是根据本公开一实施例示出的光学字符识别方法的流程图。

图4是根据本公开一实施例示出的训练特征提取模型和识别概率模型的方法的流程图。

图5是根据本公开一实施例示出的光学字符识别系统的系统框图。

图6是根据本公开一实施例示出的产生光学字符识别的训练样本系统的系统框图。

图7是根据本公开一实施例示出的产生光学字符识别的训练样本的方法得到的文本图像。

图8是根据本公开一实施例示出的产生光学字符识别的训练样本的方法得到的训练样本。

具体实施方式

为了更清楚地说明本公开的实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本公开的一些示例或实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本公开应用于其他类似情景。除非从语言环境中显而易见或另做说明，图中相同标号代表相同结构或操作。

如本公开和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其他的步骤或元素。本公开文件中使用的术语“和/或”，包括一个或多个相关的所列项目的任意的和所有的组合。

本公开中使用了流程图用来说明根据本公开的实施例的系统所执行的操作。应当理解的是，前面或下面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各种步骤。同时，或将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

光学字符识别(Optical Character Recognition，简称OCR)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。如何提高识别准确率是光学字符识别中最重要的问题。

系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送数据等。终端设备101、102、103上可以安装有光学字符识别软件应用。

终端设备101、102、103可以是各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是一个实体的服务器，还可例如为多个服务器组成，需要说明的是，本公开实施例所提供的光学字符识别方法和产生光学字符识别的训练样本的方法可以由服务器105执行或者终端设备101、102、103执行，相应地，光学字符识别系统和产生光学字符识别的训练样本的系统可以设置于服务器105或者终端设备101、102、103中。

在一个使用场景中，用户可利用终端设备101、102、103获取字符图像，例如医学病历的图像，通过本公开的光学字符识别方法对图像中的文本字符进行识别，能够得到字符识别结果。

本公开提供了一种产生光学字符识别的训练样本的方法。图2是根据本公开一实施例示出的产生光学字符识别的训练样本的方法的流程图。如图2所示，本公开实施例的产生光学字符识别的训练样本的方法可以包括以下步骤：

步骤201，获取多个训练文本，每一训练文本具有类别属性；

步骤202，统计多个训练文本的类别分布；

步骤203，从多个训练文本中选取多个文本行，使多个文本行的类别分布符合多个训练文本的类别分布；

步骤204，将多个文本行转换为文本图像；以及

步骤205，对文本图像进行随机特征变换，获得训练样本。

本公开实施例中的方法可以实施在服务器上，也可以实施在终端上，本公开实施例对此不作限定。以下对该方法中的各个步骤进行进一步的详细描述：

在步骤201中，获取多个训练文本，每一训练文本具有类别属性。

训练文本是通过收集文本数据信息得到的。训练文本的类别属性与所应用的具体业务场景相关。例如，当本公开实施例应用于医疗行业时，文本数据信息可以是文献、医学病历、不良事件描述和检验报告单等。训练文本可以具有类别属性，训练文本可以根据作为其来源的文本数据信息的类别属性确定其类别属性。

可选地，训练文本的类别可以包括：文献、医学病历、不良事件描述以及检验报告单。例如，一个训练文本是通过医学病历得到的，则该训练文本所具有的类别属性为医学病历。又如，另一个训练文本是通过不良事件描述得到的，则该训练文本所具有的类别属性为不良事件描述。

在步骤202中，统计多个训练文本的类别分布。

对多个训练文本所具有的类别属性进行统计从而得到多个训练文本的类别分布。多个训练文本的类别分布可以通过分别计算各个类别的训练文本在所有训练文本中所占的比例来得到。在一个示例中，单个类别的比例可以通过如下公式计算得到：

其中，c代表一种类别，Pc指c类别的比例，Dc,i指c类别下第i个训练文本的字符数目，

指c类别下所有训练文本的字符数目之和，

指所有类别下所有训练文本的字符数目之和。

所有类别的比例共同形成多个训练文本的类别分布情况。

在步骤203中，从多个训练文本中选取多个文本行，使多个文本行的类别分布符合多个训练文本的类别分布。

每个训练文本可以包括一个或多个文本行。训练文本的数量可能较大，将全部训练文本进行处理来得到训练样本可能需要较多的时间和较高的处理能力。因此，从多个训练文本中选取多个文本行可以提高训练效率。

在现有技术中，从多个训练文本中选取多个文本行通常为随机挑选，对训练文本的均衡分布的关注不够，选取出来的文本行的类别分布与训练文本的类别分布差距较大，造成与训练文本的真实类别分布偏离严重的问题，导致后续训练出来的模型在实际应用场景中的识别准确性较低。因此，根据本公开的一实施例，可以在从多个训练文本中选取多个文本行时，使多个文本行的类别分布符合多个训练文本的类别分布。举例来说，当在步骤202得到“医学病例”这一类别在所有样本中的比例为20％时，在此步骤203中所选取的文本行中，“医学病例”文本行的比例也可为20％。这样，选取出来的文本行的类别分布更接近与训练文本的类别分布差距更接近，使得训练出来的模型在实际应用中的识别率更高。

在步骤204中，将多个文本行转换为文本图像。

现有的光学字符识别方法通常是对图像文件上的字符进行分析处理和识别，因此需要将多个文本行转换为图像格式才能在后续的模型训练中作为训练样本进行输入。

在一个示例中，可以将文本行“湾836铺山9东书城芝”转换为如图7所示的文本图像。在步骤205中，对文本图像进行随机特征变换，获得训练样本。

由文本行直接转化得到的文本图像是简单将字符渲染到图片上，对真实场景的还原较少。在真实场景中，文本图像的质量还可能受到光照、扭曲、旋转、字形等因素的影响。因此，在产生光学字符识别的训练样本的方法中加入对文本图像进行随机特征变换的部分可以更好地模拟真实场景中的文本图像，从而提高训练出来的模型在实际应用中的识别率。

可选地，随机特征变换可以包括以下之一或任意组合：随机挑选字体渲染文字、随机调整线条粗细、随机调整文本图像亮度、随机仿射变换以及随机投影变换。

随机挑选字体渲染文字可以模拟不同字体的文字。

随机调整线条粗细可以模拟不同字体、不同字号、个人写字习惯或笔头粗细等因素导致的不同线条粗细的文字。

随机调整文本图像亮度可以模拟不同光照条件导致的不同亮度的文本图像。在一个示例中，随机调整文本图像亮度可以通过线性函数或伽玛函数增大或减少像素值的方式进行。

随机仿射变换可以模拟真实场景中文本图像的平移、缩放、旋转、翻转和错切等情况。仿射变换(Affine Transformation)可以通过以下变换或其任意组合来实现，包括：平移(Translation)变换、缩放(Scale)变换、旋转(Rotation)变换、翻转(Flip)变换和错切(Shear)变换。

随机投影变换可以模拟真实场景中文本图像的倾斜、扭曲等情况。投影变换(Perspective Transformation)，又称透视变换，是将图片投影到一个新的视平面，是二维(x,y)到三维(X,Y,Z)，再到另一个二维(x’,y’)空间的映射。

需要注意的是，以上的随机挑选字体渲染文字、随机调整线条粗细、随机调整文本图像亮度、随机仿射变换以及随机投影变换等步骤，可以以任意项、任意次数和任意顺序进行，本公开实施例对此不作限定。

可选地，随机挑选字体渲染文字的步骤可以是根据类别分布进行。在真实业务场景中，不同类别的文本的字体类型分布是不同的。例如，在手写较多的医学病历类别中，手写常用的行书和草书字体可能具有较高的使用频率。又如，在通常为出版物的文献类别中，楷书字体可能具有较高的使用频率。因此，根据类别分布进行随机挑选字体渲染文字可以使渲染后的字体分布更接近真实业务场景中各个类别的实际字体分布，从而提高训练出来的模型在实际场景应用中的识别率。

可选地，随机调整线条粗细、随机调整文本图像亮度、随机仿射变换以及随机投影变换的步骤可以是根据对应的预设范围进行。随机调整线条粗细、随机调整文本图像亮度、随机仿射变换以及随机投影变换的步骤中的随机如果使用真随机，则可能会导致随机变量过大或过小以致于超出了真实业务场景中的变量的合理范围。因此，根据对应的预设范围进行随机调整线条粗细、随机调整文本图像亮度、随机仿射变换以及随机投影变换的步骤，可以有效地将随机变量范围控制在真实业务场景中的变量的合理范围内，从而避免了超出正常范围的的随机变量对后续模型训练的负面影响。

在一个示例中，可以对图7的文本图像进行随机特征变换，获得如图8所示的训练样本。可选地，可以将训练样本转化为二进制，从而减少训练时输入/输出(I/O)压力。

综上所述，本公开实施例的产生光学字符识别的训练样本的方法通过使生成训练样本所使用的文本行的类别分布与训练文本的的类别分布相符合，确保在选取文本行时更接近实际场景中的真实数据，从而大幅度提高所训练出来的光学字符识别模型的识别准确率。在训练样本的生成中加入随机特征变换这一步骤，更好地模拟了实际应用场景中的真实文本图像的平移、缩放、旋转、翻转和错切等情况，从而大幅度提高所训练出来的光学字符识别模型在实际场景应用时的识别准确率。

本公开还提供了一种光学字符识别方法。图3是根据本公开一实施例示出的光学字符识别方法的流程图。如图3所示，本公开实施例的光学字符识别方法可以包括以下步骤：

步骤301，获取字符图像；

步骤302，使用特征提取模型提取字符图像的多个特征，特征提取模型是使用预先生成的训练图像样本训练得到的多层残差网络模型；

步骤303，将多个特征组成特征序列，利用识别概率模型对特征序列进行水平方向的拟合，从而输出多个位置所分别对应的预定义字符的概率值；识别概率模型是使用训练图像样本训练得到的长短期记忆模型；以及

步骤304，根据识别概率模型确定的概率值，利用连续时序分类器确定特征序列对应的字符序列。

在步骤301中，获取字符图像。

获取用户想要进行字符识别的字符图像。字符图像的文本内容根据实际应用的业务场景会有所不同，例如，当本公开实施例应用于医疗行业时，字符图像可以是文献图像、医学病历图像、不良事件描述图像和检验报告单图像等。

在步骤302中，使用特征提取模型提取字符图像的多个特征，特征提取模型是使用预先生成的训练图像样本训练得到的多层残差网络模型。

特征提取是指使用计算机提取图像信息，决定每个图像的点是否属于一个图像特征，将图像上的点分为不同的子集。

卷积神经网络(Convolution Neural Network，简称CNN)是一种多层的监督学习神经网络，隐含层的卷积层和池采样层是实现卷积神经网络特征提取功能的核心模块。该网络模型通过采用梯度下降法最小化损失函数对网络中的权重参数逐层反向调节，通过频繁的迭代训练提高网络的精度。

残差网络模型(Residual Network，简称Resnet)是CNN的其中一种网络模型，可以解决传统CNN中随着网络加深，准确率会下降的问题。

在一个示例中，可以使用CNN网络进行特征提取，可以分为4个部分：

1)3x3 conv(卷积)及Max pooling；

2)Resnet block1包含3层3x3 conv；

3)Resnet block2包含4层3x3 conv；

4)Resnet block3包含3层3x3 conv。

通常来说，CNN底层学到的是细粒度特征，例如：直线、曲线、钩等，CNN高层视野较大，学到的是高维特征，例如：偏旁、字符。提取特征方式主要是通过反向传播(BackPropagation)算法调整卷积核的参数，使卷积核对特征响应更强，从而达到提取图像特征的目的。

在本步骤中使用的多层残差网络模型是使用预先生成的训练图像样本训练得到的。

可选地，可以按照如下方法生成训练图像样本：获取多个训练文本，每一训练文本具有类别属性；统计多个训练文本的类别分布；从多个训练文本中选取多个文本行，使多个文本行的类别分布符合多个训练文本的类别分布；将多个文本行转换为文本图像；以及对文本图像进行随机特征变换，获得训练图像样本。

可选地，训练文本的类别包括：文献、医学病历、不良事件描述以及检验报告单。

可选地，随机特征变换可以包括以下之一或任意组合：随机挑选字体渲染文字、随机调整线条粗细、随机调整文本图像亮度、随机仿射变换以及随机投影变换。需要注意的是，以上的随机挑选字体渲染文字、随机调整线条粗细、随机调整文本图像亮度、随机仿射变换以及随机投影变换等步骤，可以以任意项、任意次数和任意顺序进行，本公开实施例对此不作限定。

可选地，随机挑选字体渲染文字的步骤可以是根据类别分布进行。

可选地，随机调整线条粗细、随机调整文本图像亮度、随机仿射变换以及随机投影变换的步骤可以是根据对应的预设范围进行。

可选地，可以将训练图像样本转化为二进制，从而减少训练时I/O压力。

可以使用前文参考图2所描述的产生光学字符识别的训练样本的方法来预先生成上述的训练图像样本，在此不再赘述。

在步骤303中，将多个特征组成特征序列，利用识别概率模型对特征序列进行水平方向的拟合，从而输出多个位置所分别对应的预定义字符的概率值；识别概率模型是使用训练图像样本训练得到的长短期记忆模型。

将多个特征组成特征序列，特征序列中的特征前后组合可代表一个字符完整特征。识别概率模型对所组成的特征序列进行水平方向的拟合。识别概率模型可以是使用训练图像样本训练得到的长短期记忆模型(Long Short-Term Memory，简称LSTM)。LSTM是一种特殊的循环神经网络(Recurrent Neural Network，简称RNN)，能够学习长期依赖性，适合用于自然语言处理。优选地，可以使用2层双向LSTM对特征序列进行水平方向的拟合。LSTM通过学习将字符前后特征综合起来，从而在对应位置(Timestamp)输出对应的预定义字符的概率值。

在步骤304中，根据识别概率模型确定的概率值，利用连续时序分类器确定特征序列对应的字符序列。

连续时序分类器(Connectionist Temporal Classification，简称CTC)是一种时序分类算法，可以用于解决输入数据与给定标签的对齐问题。CTC可以根据识别概率模型确定的概率值确定特征序列对应的字符序列。CTC主要将LSTM在每个位置(Timestamp)的输出取最可能的N个字符，然后可以采用柱搜索的方法取得一个全局最优的输出序列，然后可以对字符序列做一些去重，即可得到最终的字符识别结果。

可选地，在利用连续时序分类器确定特征图像序列对应的字符序列的步骤之后还可以包括以下步骤：

步骤305，根据语言模型对字符序列进行修正，其中语言模型是根据与字符图像的领域有关的语料统计得到。

统计与字符图像的领域有关的语料可以得到语言模型，语言模型可以对步骤304中所确定的字符序列进行二次修正，得到更准确的字符识别结果。

在一个示例中，语言模型可以使用N-gram模型，N-gram模型是一种语言模型(Language Model，LM)，它的输入是单词的顺序序列，输出是此单词序列的概率。修正作业中，会关注单词的ngram分数，以此判定单词是否合理，进而决定是否修改。优选地，N-gram模型可以是2-gram模型或3-gram模型。

综上所述，本公开实施例的光学字符识别方法通过使用多层残差网络模型和长短期记忆模型大幅度提高了光学字符识别的准确率；通过使用连续时序分类器大幅度提高了光学字符识别的准确率和识别效率。

图4是根据本公开一实施例示出的训练特征提取模型和识别概率模型的方法的流程图。可选地，可以按照如下方法训练特征提取模型和识别概率模型：

步骤401，获取训练图像样本；

步骤402，使用特征提取模型提取训练图像样本的多个特征；

步骤403，将多个特征组成特征序列，利用识别概率模型对特征序列进行水平方向的拟合，从而输出多个位置所对应的预定义字符的概率值；

步骤404，根据识别概率模型确定的概率值，使用连续时序分类器计算损失值；

连续时序分类器计算损失值是基于后验概率的计算。连续时序分类器可以解决输入与输出对齐问题的一种算法，因此适合用于光学字符识别方法中的解码步骤和计算损失值步骤，可以大幅度提高模型训练效率。

步骤405，使用连续时序分类器确定误差，且调整特征提取模型和识别概率模型。

将连续时序分类器确定的误差反向传播调整特征提取模型和识别概率模型的参数。在一个示例中，还可以通过判断当前误差或训练步数是否小于阈值确定是否要结束训练过程。例如，如果当前误差或训练步数小于预定的阈值则可以回到步骤401，如果当前误差或训练步数大于预定的阈值则可以结束训练过程。

前述的步骤401-403的具体方法可以与前文描述的步骤301-303相同。

综上所述，本公开实施例的训练特征提取模型和识别概率模型的方法可以提高特征提取模型和识别概率模型的训练效率，可以提高所训练出来的特征提取模型和识别概率模型的识别准确率和识别效率。

图5是根据本公开一实施例示出的光学字符识别系统的系统框图。光学字符识别系统500可包括内部通信总线501、处理器(Processor)502、只读存储器(ROM)503、随机存取存储器(RAM)504、通信端口505、以及硬盘507。内部通信总线501可以实现光学字符识别系统500组件间的数据通信。处理器502可以进行判断和发出提示。在一些实施例中，处理器502可以由一个或多个处理器组成。通信端口505可以实现光学字符识别系统500与外部的数据通信。在一些实施例中，光学字符识别系统500可以通过通信端口505从网络发送和接受信息及数据。光学字符识别系统500还可以包括不同形式的程序储存单元以及数据储存单元，例如硬盘507，只读存储器(ROM)503和随机存取存储器(RAM)504，能够存储计算机处理和/或通信使用的各种数据文件，以及处理器502所执行的可能的程序指令。处理器执行这些指令以实现方法的主要部分。处理器处理的结果通过通信端口传给用户设备，在用户界面上显示。

举例来说，上述的光学字符识别过程可以实施为计算机程序，保存在硬盘507中，并可记载到处理器502中执行，以实施本公开的方法。

图6是根据本公开一实施例示出的产生光学字符识别的训练样本系统的系统框图。产生光学字符识别的训练样本系统600可包括内部通信总线601、处理器(Processor)602、只读存储器(ROM)603、随机存取存储器(RAM)604、通信端口605、以及硬盘607。内部通信总线601可以实现产生光学字符识别的训练样本系统600组件间的数据通信。处理器602可以进行判断和发出提示。在一些实施例中，处理器602可以由一个或多个处理器组成。通信端口605可以实现产生光学字符识别的训练样本系统600与外部的数据通信。在一些实施例中，产生光学字符识别的训练样本系统600可以通过通信端口605从网络发送和接受信息及数据。产生光学字符识别的训练样本系统600还可以包括不同形式的程序储存单元以及数据储存单元，例如硬盘607，只读存储器(ROM)603和随机存取存储器(RAM)604，能够存储计算机处理和/或通信使用的各种数据文件，以及处理器602所执行的可能的程序指令。处理器执行这些指令以实现方法的主要部分。处理器执行这些指令以实现方法的主要部分。处理器处理的结果通过通信端口传给用户设备，在用户界面上显示。

举例来说，上述的产生光学字符识别的训练样本过程可以实施为计算机程序，保存在硬盘607中，并可记载到处理器602中执行，以实施本公开的方法。

光学字符识别过程或产生光学字符识别的训练样本过程实施为计算机程序时，也可以存储在计算机可读存储介质中作为制品。例如，计算机可读存储介质可以包括但不限于磁存储设备(例如，硬盘、软盘、磁条)、光盘(例如，压缩盘(CD)、数字多功能盘(DVD))、智能卡和闪存设备(例如，电可擦除可编程只读存储器(EPROM)、卡、棒、键驱动)。此外，本文描述的各种存储介质能代表用于存储信息的一个或多个设备和/或其它机器可读介质。术语“机器可读介质”可以包括但不限于能存储、包含和/或承载代码和/或指令和/或数据的无线信道和各种其它介质(和/或存储介质)。

应该理解，上文所描述的实施例仅是示意。本文描述的实施例可在硬件、软件、固件、中间件、微码或者其任意组合中实现。对于硬件实现，处理单元可以在一个或者多个特定用途集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器和/或设计为执行本文所述功能的其它电子单元或者其结合内实现。

上文已对基本概念做了描述，显然，对于本领域技术人员来说，上述公开披露仅仅作为示例，而并不构成对本公开的限定。虽然此处并没有明确说明，本领域技术人员可能会对本公开进行各种修改、改进和修正。该类修改、改进和修正在本公开中被建议，所以该类修改、改进、修正仍属于本公开示例性实施例的精神和范围。

同时，本公开使用了特定词语来描述本公开的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本公开至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外，本公开的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

本公开的一些方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。处理器可以是一个或多个专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理器件(DAPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器或者其组合。此外，本公开的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。例如，计算机可读介质可包括，但不限于，磁性存储设备(例如，硬盘、软盘、磁带……)、光盘(例如，压缩盘CD、数字多功能盘DVD……)、智能卡以及闪存设备(例如，卡、棒、键驱动器……)。

同理，应当注意的是，为了简化本公开披露的表述，从而帮助对一个或多个公开实施例的理解，前文对本公开实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。但是，这种披露方法并不意味着本公开对象所需要的特征比权利要求中提及的特征多。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。

虽然本公开已参照当前的具体实施例来描述，但是本技术领域中的普通技术人员应当认识到，以上的实施例仅是用来说明本公开，在没有脱离本公开精神的情况下还可作出各种等效的变化或替换，因此，只要在本公开的实质精神范围内对上述实施例的变化、变型都将落在本公开的权利要求书的范围内。

Claims

1.一种光学字符识别方法，包括以下步骤：

获取字符图像；

使用特征提取模型提取所述字符图像的多个特征，所述特征提取模型是使用预先生成的训练图像样本训练得到的多层残差网络模型；

将所述多个特征组成特征序列，利用识别概率模型确定对所述特征序列进行水平方向的拟合，从而输出多个位置所分别对应的预定义字符的概率值；所述识别概率模型是使用所述训练图像样本训练得到的长短期记忆模型；以及

根据所述识别概率模型确定的所述概率值，利用连续时序分类器确定所述特征序列对应的字符序列。

2.如权利要求1所述的光学字符识别方法，其特征在于，包括按照如下方法生成所述训练图像样本：

获取多个训练文本，每一训练文本具有类别属性；

统计所述多个训练文本的类别分布；

从所述多个训练文本中选取多个文本行，使所述多个文本行的类别分布符合所述多个训练文本的类别分布；

将所述多个文本行转换为文本图像；以及

对所述文本图像进行随机特征变换，获得所述训练图像样本。

3.如权利要求2所述的光学字符识别方法，其特征在于，所述随机特征变换包括以下之一或任意组合：随机挑选字体渲染文字、随机调整线条粗细、随机调整文本图像亮度、随机仿射变换以及随机投影变换。

4.如权利要求3所述的光学字符识别方法，其特征在于，所述随机挑选字体渲染文字的步骤是根据所述类别分布进行。

5.如权利要求3所述的光学字符识别方法，其特征在于，所述随机调整线条粗细、随机调整文本图像亮度、随机仿射变换以及随机投影变换的步骤是根据对应的预设范围进行。

6.如权利要求2所述的光学字符识别方法，其特征在于，所述训练文本的类别包括：文献、医学病历、不良事件描述以及检验报告单。

7.如权利要求1所述的光学字符识别方法，其特征在于，按照如下方法训练所述特征提取模型和识别概率模型：

获取所述训练图像样本；

使用所述特征提取模型提取所述训练图像样本的多个特征；

将所述多个特征组成特征序列，利用所述识别概率模型对所述特征序列进行水平方向的拟合，从而输出多个位置所对应的预定义字符的概率值；根据所述识别概率模型确定的概率值，使用连续时序分类器计算损失值；以及

使用所述连续时序分类器确定误差，且调整所述特征提取模型和所述识别概率模型。

8.如权利要求1所述的光学字符识别方法，其特征在于，利用连续时序分类器确定所述特征图像序列对应的字符序列的步骤之后还包括：根据语言模型对所述字符序列进行修正，其中所述语言模型是根据与所述字符图像的领域有关的语料统计得到。

9.一种产生光学字符识别的训练样本的方法，包括如下步骤：

获取多个训练文本，每一训练文本具有类别属性；

统计所述多个训练文本的类别分布；

将所述多个文本行转换为文本图像；以及

对所述文本图像进行随机特征变换，获得训练样本。

10.如权利要求9所述的方法，其特征在于，所述随机特征变换包括以下之一或任意组合：随机挑选字体渲染文字、随机调整线条粗细、随机调整文本图像亮度、随机仿射变换以及随机投影变换。

11.如权利要求10所述的方法，其特征在于，所述随机挑选字体渲染文字的步骤是根据所述类别分布进行。

12.如权利要求10所述的方法，其特征在于，随机调整线条粗细、随机调整文本图像亮度、随机仿射变换以及随机投影变换的步骤是根据对应的预设范围进行。

13.如权利要求9所述的方法，其特征在于，所述训练文本的类别包括：文献、医学病历、不良事件描述以及检验报告单。

14.一种光学字符识别系统，包括：

存储器，用于存储可由处理器执行的指令；

处理器，配置为执行所述指令以实现如权利要求1-8任一项所述的方法训练光学字符识别模型；以及

使用经训练的光学字符识别模型识别目标文件。

15.一种产生光学字符识别的训练样本的系统，包括：

存储器，用于存储可由处理器执行的指令；以及

处理器，用于执行所述指令以实现如权利要求9-13任一项所述的方法。