CN110503159A

CN110503159A - 文字识别方法、装置、设备及介质

Info

Publication number: CN110503159A
Application number: CN201910803929.0A
Authority: CN
Inventors: 张水发
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2019-08-28
Filing date: 2019-08-28
Publication date: 2019-11-26
Anticipated expiration: 2039-08-28
Also published as: CN110503159B

Abstract

本公开关于一种文字识别方法、装置、设备及介质，属于多媒体技术领域。所述方法包括：根据文字和背景图像的深度图确定每个背景图像的目标图像区域，将文字添加至背景图像的目标图像区域，生成大量的场景文字图像用于训练文字识别模型，最终使用文字识别模型识别文字，降低了模型训练样本的采集难度和获取成本，提高了文字识别模型的准确率和召回率。

Description

文字识别方法、装置、设备及介质

技术领域

本公开涉及多媒体技术领域，特别涉及一种文字识别方法、装置、设备及介质。

背景技术

光学字符识别(Optical Character Recognition,OCR)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程，该技术可以应用于对自然场景图像中的文字进行识别并获取，也即是场景文字识别。

当前场景文字识别一般通过文字识别模型实现，而文字识别模型大多采用深度学习的方法训练模型。由于深度学习在训练模型时需要大量训练样本，而获取大量训练样本并非易事，尤其是在场景文字识别中，场景文字图像样本采集困难且样本中的文字难于标注，导致样本获取成本较大，限制了模型的学习，最终影响了文字识别模型的准确率和召回率。

发明内容

本公开提供了一种文字识别方法、装置、设备及介质，以至少解决相关技术中场景文字图像样本采集困难，获取成本大导致训练出的文字识别模型准确率和召回率低的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种文字识别方法，包括：

获取多个背景图像和文字；

对于每个背景图像，基于该每个背景图像的深度图中像素点的像素值以及该文字的文字特征，确定每个背景图像的目标图像区域；

将该文字添加至该目标图像区域，得到该每个背景图像对应的场景文字图像；

当获取到待识别的图像时，将该图像输入基于该每个背景图像对应的场景文字图像训练得到的文字识别模型中，输出该图像的文字识别结果。

在一种可能实现方式中，该基于该每个背景图像的深度图中像素点的像素值以及该文字的文字特征，确定每个背景图像的目标图像区域，包括：

根据该每个背景图像的深度图中像素点的像素值，确定该每个背景图像的至少一个图像区域，每个图像区域中任意两个相邻像素点的像素值之间的差值小于差值阈值；

根据该至少一个图像区域的尺寸特征、形状特征和像素值中的至少一种特征，以及该文字的文字特征，确定该每个背景图像的目标图像区域。

在一种可能实现方式中，该根据该每个背景图像的深度图中像素点的像素值，确定该每个背景图像的至少一个图像区域，包括：

对于该每个背景图像的深度图中任意两个相邻像素点，当该任意两个相邻像素点的像素值之间的差值小于差值阈值时，确定该两个相邻像素点位于同一图像区域。

在一种可能实现方式中，该根据该至少一个图像区域的尺寸特征、形状特征和像素值中的至少一种特征，以及该文字的文字特征，确定该每个背景图像的目标图像区域，包括：

根据该至少一个图像区域的尺寸特征、形状特征和像素值中的至少一种特征，以及该文字的文字特征，从该至少一个图像区域中，确定多个候选图像区域；

从该多个候选图像区域，确定目标图像区域。

在一种可能实现方式中，该根据该至少一个图像区域的尺寸特征、形状特征和像素值中的至少一种特征，以及该文字的文字特征，从该至少一个图像区域中，确定多个候选图像区域，包括：

获取该文字的文字特征，该文字特征包括字符的宽度、高度以及字符数量；

获取该至少一个图像区域的尺寸特征、形状特征和像素值中的至少一种特征；

对于任一个图像区域，当根据该图像区域的尺寸特征、形状特征和像素值中的至少一种特征，以及该文字特征，确定该图像区域能够覆盖该文字时，将该图像区域确定为候选图像区域。

在一种可能实现方式中，该获取该至少一个图像区域的尺寸特征、形状特征和像素值中的至少一种特征，包括：

获取该至少一个图像区域的外接矩形的尺寸、形状和该至少一个图像区域的像素值中的至少一种特征；

该当根据该图像区域的尺寸特征、形状特征和像素值中的至少一种特征，以及该文字特征，确定该图像区域能够覆盖该文字时，将该图像区域确定为候选图像区域，包括下述任一项：

当该外接矩形的宽度大于该文字的宽度，且该外接矩形的高度大于该文字的高度时，将该图像区域确定为候选图像区域；

当该外接矩形的宽高比大于该文字的宽高比时，将该图像区域确定为候选图像区域；

当该图像区域内的平均像素值小于像素值阈值时，将该图像区域确定为候选图像区域。

在一种可能实现方式中，该从该多个候选图像区域，确定目标图像区域，包括下述任一项：

从该多个候选图像区域，随机选择一个候选图像区域作为该目标图像区域；

获取该多个候选图像区域与该文字的匹配度，将该匹配度最大的候选图像区域作为该目标图像区域。

在一种可能实现方式中，该深度图的获取过程包括：将该每个背景图像输入深度图提取模型，输出该每个背景图像的深度图。

在一种可能实现方式中，该深度图提取模型的训练过程包括：

获取多个样本背景图像，每个样本背景图像携带有目标深度图；

将该多个样本背景图像输入初始模型，输出每个样本背景图像的预测深度图；

获取该目标深度图和该预测深度图的损失值；

基于该损失值，对该初始模型的模型参数进行调整，直至符合目标条件时，停止调整，得到该深度图提取模型。

在一种可能实现方式中，该文字的获取过程包括下述任一项：

随机生成文字；

根据目标文字特征，生成符合该目标文字特征的文字，该目标文字特征包括字符的宽度、高度或字符数量中至少一项；

根据目标规则，生成该每个背景图像对应的文字，该目标规则用于体现文字与背景图像之间的关联关系；

从文字库中获取文字。

根据本公开实施例的第二方面，提供一种文字识别装置，包括:

获取单元，被配置为执行获取多个背景图像和文字；

确定单元，被配置为执行对于每个背景图像，基于该每个背景图像的深度图中像素点的像素值以及该文字的文字特征，确定每个背景图像的目标图像区域；

添加单元，被配置为执行将该文字添加至该目标图像区域，得到该每个背景图像对应的场景文字图像；

输出单元，被配置为执行当获取到待识别的图像时，将该图像输入基于该每个背景图像对应的场景文字图像训练得到的文字识别模型中，输出该图像的文字识别结果。

在一种可能实现方式中，该确定单元被配置为执行：

在一种可能实现方式中，该确定单元被配置为执行对于该每个背景图像的深度图中任意两个相邻像素点，当该任意两个相邻像素点的像素值之间的差值小于差值阈值时，确定该两个相邻像素点位于同一图像区域。

在一种可能实现方式中，该确定单元被配置为执行：

从该多个候选图像区域，确定目标图像区域。

在一种可能实现方式中，该确定单元被配置为执行：

在一种可能实现方式中，该获取单元被配置为执行：

该确定单元被配置为执行下述任一项：

在一种可能实现方式中，该确定单元被配置为执行下述任一项：

在一种可能实现方式中，该获取单元被配置为执行：

将该每个背景图像输入深度图提取模型，输出该每个背景图像的深度图。

在一种可能实现方式中，该装置还包括训练单元，该训练单元被配置为执行：

获取该目标深度图和该预测深度图的损失值；

在一种可能实现方式中，该获取单元被配置为执行下述任一项：

随机生成文字；

从文字库中获取文字。

根据本公开实施例的第三方面，提供一种计算机设备，包括:该计算机设备包括一个或多个处理器和一个或多个存储器，该一个或多个存储器中存储有至少一条指令，该指令由该一个或多个处理器加载并执行以实现上述文字识别方法所执行的操作。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，包括:该计算机可读存储介质中存储有至少一条指令，该指令由处理器加载并执行以实现上述文字识别方法所执行的操作。

根据本公开实施例的第五方面，提供一种计算机程序产品，包括：该计算机程序产品存储有至少一条指令，该指令由处理器加载并执行以实现上述文字识别方法所执行的操作。

本公开的实施例提供的技术方案至少带来以下有益效果：

本公开实施例提供的方法，根据文字和背景图像的深度图确定每个背景图像的目标图像区域，将文字添加至背景图像的目标图像区域，生成大量的场景文字图像用于训练文字识别模型，最终使用文字识别模型识别文字，降低了模型训练样本的采集难度和获取成本，提高了文字识别模型的准确率和召回率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种文字识别方法的流程图；

图2是根据一示例性实施例示出的一种文字识别方法的流程图；

图3是根据一示例性实施例示出的一种特征提取网络的示意图；

图4是根据一示例性实施例示出的一种像素点位置示意图；

图5是根据一示例性实施例示出的一种场景文字图像生成的流程图；

图6是根据一示例性实施例示出的一种文字识别装置框图；

图7是根据一示例性实施例示出的一种终端的结构示意图；

图8是根据一示例性实施例示出的一种服务器的结构示意图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开所涉及的用户信息可以为经用户授权或者经过各方充分授权的信息。

图1是根据一示例性实施例示出的一种文字识别方法的流程图，如图1所示，包括以下步骤。

在步骤S11中，获取多个背景图像和文字。

在步骤S12中，对于每个背景图像，基于该每个背景图像的深度图中像素点的像素值以及该文字的文字特征，确定每个背景图像的目标图像区域。

在步骤S13中，将该文字添加至该目标图像区域，得到该每个背景图像对应的场景文字图像。

在步骤S14中，当获取到待识别的图像时，将该图像输入基于该每个背景图像对应的场景文字图像训练得到的文字识别模型中，输出该图像的文字识别结果。

从该多个候选图像区域，确定目标图像区域。

获取该目标深度图和该预测深度图的损失值；

随机生成文字；

从文字库中获取文字。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

图2是根据一示例性实施例示出的一种文字识别方法的流程图，如图2所示,包括以下步骤。

在步骤S21中，计算机设备获取多个背景图像和文字。

在本公开实施例中，计算机设备获取的背景图像可以是不同自然场景的图像，例如某条商业街的图像、某处自然风景的图像或某个建筑物的外观图像等图像。该计算机设备可以为终端或者服务器。

计算机设备获取多个背景图像的方式可以有多种，例如从图像数据库中提取，从图像网站上下载，自行拍摄等方式，本公开实施例对此不作限定。

步骤S21中该计算机设备获取的文字可以用来和背景图像组合，生成相应的背景文字图像。

在本公开实施例中，该计算机设备获取文字的过程可以通过下述方式一至方式四中任一项实现：

方式一、随机生成文字。在此实现方式中对文字的字符的宽度、高度或字符数量等文字特征不进行限制。

方式二、根据目标文字特征，生成符合该目标文字特征的文字，该目标文字特征包括字符的宽度、高度或字符数量中至少一项。例如，目标文字特征可以包括字符数量，在一个具体示例中，通过目标文字特征，可以限制生成的文字的字符数量小于字符数量阈值，其中，该字符数量阈值可以由相关技术人员根据需求进行设置，例如，字符数量阈值为5时，生成的文字的字符数量则小于5。

方式三、根据目标规则，生成该每个背景图像对应的文字，该目标规则用于体现文字与背景图像之间的关联关系。通过目标规则可以实现根据背景图像的类型对该文字的内容及字符数量进行限定，例如，目标规则可以设置为：在背景图像类型为商业街的图像时，生成的文字的字符数量小于字符数量阈值。背景图像是某条商业街的图像时，真实场景中的场景文字大多为商店的宣传牌和宣传标语，文字的字符数量不会过大，因此按照上述目标规则生成的文字符合真实场景；目标规则可以设置为：在背景图像类型为自然风景的图像时，生成的文字的尺寸也即是字符的宽度和高度小于尺寸阈值根据目标规则生成的文字的尺寸会小于尺寸阈值。背景图像是自然风景的图像时，真实场景中的场景文字大多为风景介绍文字，文字的尺寸也即是字符的宽度和高度不会过大，因此按照上述目标规则生成的文字符合真实场景。上述目标规则的使用可以使生成的场景文字图像符合常理，提高最终生成的场景文字图像的质量。

方式四、从文字库中获取文字。该计算机设备可以直接从已有的文字库中随机获取文字。

在步骤S22中，对于每个背景图像，计算机设备获取多个背景图像的深度图。

在本公开实施例中，该计算机设备获取多个背景图像的深度图的过程可以通过下述方式一至方式二中任一项实现：

方式一、该多个背景图像的深度图已经存在，该计算机设备直接获取多个背景图像的深度图。

方式二、该多个背景图像的深度图不能直接获取，需要计算机设备基于该多个背景图像进行提取，该深度图提取方式可以为下述提取方式一至提取方式二中任一项实现：

提取方式一、该计算机设备将该每个背景图像输入深度图提取模型，输出该每个背景图像的深度图。

提取方式二、该计算机设备对待处理的原始图像进行高斯模糊处理得到N幅模糊图像(N大于等于2)；检测原始图像和N幅模糊图像的边缘,获得各图像的边缘图像；基于边缘图像，计算边缘处各个像素点在各个高斯滤波参数下对应的模糊参数估计值；使用统计学方法分析边缘处各个像素点的N个模糊参数估计值得到边缘处各个像素点的最优模糊参数估计值；根据边缘处各个像素点的最优模糊参数估计值，计算图像中边缘处各个像素点的深度值得到稀疏深度图；对稀疏深度图做插值处理,获得致密深度图。

当计算机设备通过上述提取方式一的深度图提取模型提取图像深度图时，对于深度图提取模型，该计算机设备可以直接获取已经训练好的深度图提取模型，还可以获取初始模型并通过模型训练得到深度图提取模型。在一种可能实现方式中，深度图提取模型可以通过深度学习的方法进行训练得到，该深度图提取模型的训练过程包括：

第一步，计算机设备获取多个样本背景图像，每个样本背景图像携带有目标深度图。其中，多个样本背景图像可以是不同自然场景的图像，目标深度图是每个样本背景图像的真实的深度图。深度图中任一像素点的像素值表示该像素点对应样本背景图像中该像素点所在位置与拍摄该样本背景图像的相机所在水平面的距离。

该步骤具体可以是：计算机设备可以获取多个样本背景图像，并人工标记每个样本背景图像的目标深度图，还可以是：计算机设备直接获取已经标记过目标深度图的样本背景图像，对此，本公开实施例不做限定。

第二步，该计算机设备将该多个样本背景图像输入初始模型，输出每个样本背景图像的预测深度图。该初始模型可以预测输入的样本背景图像的深度图，以预测深度图和目标深度图的差异来训练初始模型，最终确定深度图提取模型，该深度图提取模型可以用来提取背景图像的深度图。

在一种可能实现方式中，该深度图提取模型可以通过训练如图3所示的decode-encode网络得到，该decode-encode网络包括多层，其中，用Encode1-6代表编码器1-6，用Decode1-6代表解码器1-6，在该网络中网络上一层的输出作为下一层的输入，将样本背景图像输入Encode1层，最终Decode6层输出每个样本背景图像的预测深度图。其中，该decode-encode网络中存在跃层现象，不相邻的层之间可以通过跳跃连接的方式连接,例如，Encode5层的输出还可以作为Decode2层的输入，也即是，Decode2层的输入可以包括上一层Decode1层的输出和该Encode5层的输出。在训练中，对于一般的深度学习网络，随着网络深度的加深，训练错误会先减少，然后增多，该decode-encode网络使用上述类似残差网络的结构在训练更深网络的同时，保证良好的性能。

图3中任一层编码器或解码器上均有三个相乘的数字，该数字代表该层编码器或解码器输出图像的图像分辨率，任一层编码器或解码器上三个相乘的数字对应w*h*c，其中w为图像宽度，h为图像高度，c为图像通道数(描述图像颜色分量的个数)。例如网络第一层编码器Encode1上448*64*3代表编码器Encode1层输出图像的宽度为448，高度为64且输出图像为三通道图像。图3中的各层编码器或解码器上的图像分辨率仅用于举例说明decode-encode网络，在一种可能实现方式中，任一层编码器或解码器输出图像的宽度和高度均为32的倍数，也即是图3中任一层编码器或解码器上三个相乘的数字w*h*c中w和h对应数值为32的倍数。

第三步，该计算机设备获取该目标深度图和该预测深度图的损失值。其中，该目标深度图为样本背景图像的真实的深度图，该预测深度图为通过初始模型预测得到的深度图，该损失值可以体现二者之间的差异。

其中，该损失值可以通过损失函数计算得到，在一种可能实现方式中，该损失函数可以是最小化绝对误差(L1 loss)，也可以是最小化平方误差(L2 loss)，其中L1 loss是计算各点目标值和预测值的绝对差值的总和，L2 loss是计算各点目标值和预测值差值平方和的总和，损失函数中的目标值和预测值在本模型训练过程可以指目标深度图的像素值和预测深度图的像素值。

第四步，该计算机设备基于该损失值，对该初始模型的模型参数进行调整，直至符合目标条件时，停止调整，得到该深度图提取模型。在一种可能实现方式中，此步骤在decode-encode网络中反传第三步获得的损失值，调整网络中编码器和解码器中的参数使损失值减小，调整参数后，再次反传新获取到的损失值，再次根据损失值调整参数，重复进行此过程，直至符合目标条件，停止调整。

上述四个步骤可以为一次迭代过程，该模型训练过程即为通过多次迭代，对初始模型的模型参数进行调整，以使得最终训练得到的深度图提取模型能够准确提取背景图像的深度图。其中，该目标条件可以是损失值收敛，也可以是调整参数的次数达到目标迭代次数。

计算机设备通过上述任一方式获得获取深度图提取模型后，基于深度图提取模型获取多个背景图像的深度图，在一种可能实现方式中，计算机设备将获取的多个背景图像输入深度图提取模型，该深度图提取模型可以包括多层，每一层可以提取输入的背景图像的图像特征，例如可以提取输入背景图像的像素点的像素值，通过多层提取后，该深度图提取模型输出多个背景图像的深度图。

在步骤S23中，该计算机设备对于每个背景图像，根据每个背景图像的深度图中像素点的像素值，确定该每个背景图像的至少一个图像区域。

每个图像区域中任意两个相邻像素点的像素值之间的差值小于差值阈值，也即是该至少一个图像区域中像素点所在位置与拍摄该样本背景图像的相机所在水平面的距离相近，该至少一个图像区域中像素点几乎为同一水平面，文字在真实的场景文字图像中一般显示在同一水平面上，因而，计算机设备可以确定上述至少一个图像区域，将该至少一个图像区域作为待添加的文字的位置。

对于该每个背景图像的深度图中任意两个相邻像素点，当该任意两个相邻像素点的像素值之间的差值小于差值阈值时，确定该两个相邻像素点位于同一图像区域。其中相邻像素点的位置关系可以包括左右相邻、上下相邻和斜向相邻，例如，如图4所示，像素点A的相邻像素点为B-I的所有像素点。相邻像素点的位置关系还可以仅包括左右相邻和上下相邻。例如，如图4所示，像素点A的相邻像素点为C、E、G和I。

在一种可能实现方式中，对于每个背景图像，根据每个背景图像的深度图中像素点的像素值，先确定该每个背景图像的至少一个八连通区域，然后根据确定的至少一个八连通区域确定该每个背景图像的至少一个图像区域，当至少一个八连通区域中任意两个相邻八连通区域的像素值之间的差值小于差值阈值时，确定该两个相邻八连通区域位于同一图像区域。其中，连通区域是指图像中具有相同像素值且位置相邻的像素点组成的图像区域，八连通区域是指其中两个像素点位置相邻的情况包括左右相邻、上下相邻和斜向相邻。

在步骤S24中，该计算机设备根据该至少一个图像区域的尺寸特征、形状特征和像素值中的至少一种特征，以及该文字的文字特征，从该至少一个图像区域中，确定多个候选图像区域。

计算机设备确定了至少一个图像区域后，还可以从该至少一个图像区域中找到能够放下该文字的图像区域，也即是该多个候选图像区域，这样可以将该多个候选图像区域作为步骤S21中该计算机设备获取的文字的候选位置。

在一种可能实现方式中，该计算机设备确定多个候选图像区域的过程可以通过下述步骤一至步骤三实现：

步骤一、计算机设备获取该文字的文字特征，该文字特征包括字符的宽度、高度以及字符数量。

步骤二、该计算机设备获取该至少一个图像区域的尺寸特征、形状特征和像素值中的至少一种特征。

步骤三、对于任一个图像区域，当根据该图像区域的尺寸特征、形状特征和像素值中的至少一种特征，以及该文字特征，确定该图像区域能够覆盖该文字时，该计算机设备将该图像区域确定为候选图像区域。

通过上述步骤一至步骤三的操作，计算机设备即可以确定多个候选图像区域，由于步骤二中计算机设备获取到的该至少一个图像区域的特征可以有多种情况，相应的步骤三中确定多个候选图像区域的方式也可以有多种。

在一种可能实现方式中，图像区域的尺寸特征、形状特征可以通过该图像区域的外接矩形的尺寸和形状来表征。上述步骤二即可以为：该计算机设备获取该至少一个图像区域的外接矩形的尺寸、形状和该至少一个图像区域的像素值中的至少一种特征。

相应地，上述步骤三中，对于任一个图像区域，确定上述候选图像区域时根据的图像区域特征和文字特征不同，可以有不同的确定方式，确定方式可以为下述方式一至方式三中任一项：

方式一、当该外接矩形的宽度大于该文字的宽度，且该外接矩形的高度大于该文字的高度时，将该图像区域确定为候选图像区域。其中外接矩形可以为图像区域的最小外接矩形，是指若干二维形状(例如点、直线、多边形)的最大范围，根据图像区域在二维坐标各顶点中的最大横坐标、最小横坐标、最大纵坐标、最小纵坐标定下边界的矩形。

方式二、当该外接矩形的宽高比大于该文字的宽高比时，将该图像区域确定为候选图像区域，将该图像区域作为候选图像区域生成的场景文字图像时，可以将文字进行缩放后使图像区域能够覆盖该文字，生成的场景文字图像。

方式三、当该图像区域内的平均像素值小于像素值阈值时，将该图像区域确定为候选图像区域。其中，由于在背景图像的深度图中，任一像素点的像素值表示该像素点对应背景图像中指定位置与拍摄该背景图像的相机所在水平面的距离，当该图像区域内的平均像素值大于像素值阈值时，该图像区域距离相机所在水平面的距离较大，在真实的场景文字图像中，较远距离的文字大多是比较模糊的，而生成的文字比较清楚，将该图像区域作为候选图像区域生成的场景文字图像与真实情况不符，因此选择该图像区域内的平均像素值小于像素值阈值的图像区域作为候选图像区域。

上述确定候选图像区域的方式仅为本公开实施例的一种示例，计算机设备还可以通过其他方式确定候选图像区域，例如，还可以将上述外接矩形的宽高和图像区域内的平均像素值结合起来确定候选图像区域，本公开实施例对此不做限定。

在步骤S25中，该计算机设备从该多个候选图像区域，确定目标图像区域。

该目标图像区域为最终生成的场景文字图像中，文字在背景图像中所在的图像区域。

上述计算机设备确定目标图像区域的方式可以通过下述方式一至方式二中任一项实现：

方式一、计算机设备从该多个候选图像区域，随机选择一个候选图像区域作为该目标图像区域。在步骤S24中确定的多个候选图像区域均可以覆盖生成的文字，因此可以随机选择一个候选图像区域作为目标图像区域生成场景文字图像。

方式二、计算机设备获取该多个候选图像区域与该文字的匹配度，将该匹配度最大的候选图像区域作为该目标图像区域。该匹配度的衡量可以有不同的标准，在一种可能实现方式中，当所有候选图像区域外接矩形的宽度大于文字的宽度，且该外接矩形的高度大于文字的高度时，这些候选图像区域中外接矩形的高宽和文字高宽越接近，匹配度越大。

上述步骤S24和步骤S25为根据该至少一个图像区域的尺寸特征、形状特征和像素值中的至少一种特征，以及该文字的文字特征，确定该每个背景图像的目标图像区域的过程。该过程中可以按照上述步骤S24和步骤S25的方法先确定多个候选图像区域，然后从该多个候选图像区域中确定目标图像区域，还可以直接根据至少一个图像区域的尺寸特征、形状特征和像素值中的至少一种特征从该至少一个图像区域中确定目标图像区域，本公开实施例对此不进行限定。

上述步骤S23、步骤S24和步骤S25为对于每个背景图像，基于该每个背景图像的深度图中像素点的像素值以及该文字的文字特征，确定每个背景图像的目标图像区域的过程，该过程中可以按照上述步骤S23、步骤S24和步骤S25的方法首先确定每个背景图像的至少一个图像区域，然后确定多个候选图像区域，最后确定每个背景图像的目标图像区域，还可以直接基于每个背景图像的深度图中像素点的像素值以及文字的文字特征，确定每个背景图像的目标图像区域，本公开实施例对此不进行限定。

在步骤S26中，该计算机设备将该文字添加至该每个背景图像的目标图像区域中，得到该每个背景图像对应的场景文字图像。

该步骤得到的场景文字图像包括背景图像和文字，其中文字位于背景图像在步骤S25中确定的目标图像区域中。生成的场景文字图像可以作为训练样本，用于训练文字识别模型，该文字识别模型可以用于场景文字识别。

上述步骤S21到步骤S26为计算机设备生成场景文字图像的步骤，在一种可能的实现方式中，该计算机设备可以重复进行步骤S21-步骤S26，获取不同的文字和不同的背景图像组合，最终生成不同的场景文字图像。在一种可能的实现方式中，该计算机设备还可以在步骤S25中随机选择一个候选图像区域作为目标图像区域，然后仅重复步骤S25和步骤S26，将获取的文字放入同一背景图像的不同候选区域，最终生成同一背景图像的不同的场景文字图像。

在步骤S27中，该计算机设备当获取到待识别的图像时，将该图像输入基于该每个背景图像对应的场景文字图像训练得到的文字识别模型中，输出该图像的文字识别结果。

基于上述步骤S21至步骤S26生成的大量场景文字图像，可以训练得到用于场景文字图像识别的文字识别模型，当计算机设备获取到待识别的图像时并输入该文字识别模型时，该文字识别模型可以对该待识别的图像进行识别，输出该待识别的图像的文字识别结果。其中，该待识别图像可以为场景文字图像。

计算机设备基于上述步骤S21至步骤S26生成的大量场景文字图像训练得到文字识别模型的过程可以包括：计算机设备获取步骤S21至步骤S26生成的大量场景文字图像，每个场景文字图像携带有目标文字；该计算机设备将获取到的大量场景文字图像输入初始模型，由初始模型对输入进行处理，输出预测文字；该计算机设备获取预测文字和目标文字的损失值，基于该损失值对初始模型进行调整，直至符合目标条件时，停止调整，得到文字识别模型。

得到文字识别模型后，上述计算机设备对该待识别的图像进行识别的过程可以包括：计算机设备获取到该待识别图像时，将其输入文字识别模型中，由该文字识别模型提取该待识别图像的文字区域，确定该文字区域的文字内容，输出该待识别图像的文字识别结果。

上述步骤S21至步骤S26介绍了场景文字图像生成的过程，下面通过图5所示实施例，以一个具体示例的方式，对该场景文字图像生成的过程进行了详细说明。

图5是根据一示例性实施例示出的一种场景文字图像生成的流程图，如图5所示，包括以下步骤。首先输入背景图像，对输入的背景图像提取深度图，然后依据深度图任一像素点的像素值进行深度分块，此步骤先将像素值相同的区域提取出来，然后将深度近似即像素值差异小于阈值的相邻区域划分为一块分块，计算上述分块的特征，最后根据生成的文字找到最匹配的几个分块，随机选择一个分块将生成的文字放入，生成场景文字图像。

图6是根据一示例性实施例示出的一种文字识别装置框图。参照图6，该装置包括获取单元601、确定单元602、添加单元603和输出单元604。

获取单元601，被配置为执行获取多个背景图像和文字。

确定单元602，被配置为执行对于每个背景图像，基于该每个背景图像的深度图中像素点的像素值以及该文字的文字特征，确定每个背景图像的目标图像区域。

添加单元603，被配置为执行将该文字添加至该目标图像区域，得到该每个背景图像对应的场景文字图像。

输出单元604，被配置为执行当获取到待识别的图像时，将该图像输入基于该每个背景图像对应的场景文字图像训练得到的文字识别模型中，输出该图像的文字识别结果。

在一种可能实现方式中，该确定单元被配置为执行：

从该多个候选图像区域，确定目标图像区域。

在一种可能实现方式中，该确定单元被配置为执行：

在一种可能实现方式中，该获取单元被配置为执行：

该确定单元被配置为执行下述任一项：

在一种可能实现方式中，该获取单元被配置为执行：

获取该目标深度图和该预测深度图的损失值；

随机生成文字；

从文字库中获取文字。

需要说明的是：上述实施例提供的文字识别装置在文字识别时，仅以上述各功能单元的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元完成，即将设备的内部结构划分成不同的功能单元，以完成以上描述的全部或者部分功能。另外，上述实施例提供的文字识别装置与文字识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图7是根据一示例性实施例示出的一种终端的结构示意图。该终端700可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端700还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端700包括有：一个或多个处理器701和一个或多个存储器702。

处理器701可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器701可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器701也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器701可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器701还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器702可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器702还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器702中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器701所执行以实现本公开中方法实施例提供的文字识别方法。

在一些实施例中，终端700还可选包括有：外围设备接口703和至少一个外围设备。处理器701、存储器702和外围设备接口703之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口703相连。具体地，外围设备包括：射频电路704、显示屏705、摄像头706、音频电路707、定位组件708和电源709中的至少一种。

外围设备接口703可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器701和存储器702。在一些实施例中，处理器701、存储器702和外围设备接口703被集成在同一芯片或电路板上；在一些其他实施例中，处理器701、存储器702和外围设备接口703中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路704用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路704通过电磁信号与通信网络以及其他通信设备进行通信。射频电路704将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路704包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路704可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路704还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本公开对此不加以限定。

显示屏705用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏705是触摸显示屏时，显示屏705还具有采集在显示屏705的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器701进行处理。此时，显示屏705还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏705可以为一个，设置终端700的前面板；在另一些实施例中，显示屏705可以为至少两个，分别设置在终端700的不同表面或呈折叠设计；在再一些实施例中，显示屏705可以是柔性显示屏，设置在终端700的弯曲表面上或折叠面上。甚至，显示屏705还可以设置成非矩形的不规则图形，也即异形屏。显示屏705可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件706用于采集图像或视频。可选地，摄像头组件706包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件706还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路707可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器701进行处理，或者输入至射频电路704以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端700的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器701或射频电路704的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路707还可以包括耳机插孔。

定位组件708用于定位终端700的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件708可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源709用于为终端700中的各个组件进行供电。电源709可以是交流电、直流电、一次性电池或可充电电池。当电源709包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端700还包括有一个或多个传感器710。该一个或多个传感器710包括但不限于：加速度传感器711、陀螺仪传感器712、压力传感器713、指纹传感器714、光学传感器715以及接近传感器716。

加速度传感器711可以检测以终端700建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器711可以用于检测重力加速度在三个坐标轴上的分量。处理器701可以根据加速度传感器711采集的重力加速度信号，控制显示屏705以横向视图或纵向视图进行用户界面的显示。加速度传感器711还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器712可以检测终端700的机体方向及转动角度，陀螺仪传感器712可以与加速度传感器711协同采集用户对终端700的3D动作。处理器701根据陀螺仪传感器712采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器713可以设置在终端700的侧边框和/或显示屏705的下层。当压力传感器713设置在终端700的侧边框时，可以检测用户对终端700的握持信号，由处理器701根据压力传感器713采集的握持信号进行左右手识别或快捷操作。当压力传感器713设置在显示屏705的下层时，由处理器701根据用户对显示屏705的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器714用于采集用户的指纹，由处理器701根据指纹传感器714采集到的指纹识别用户的身份，或者，由指纹传感器714根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器701授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器714可以被设置终端700的正面、背面或侧面。当终端700上设置有物理按键或厂商Logo时，指纹传感器714可以与物理按键或厂商Logo集成在一起。

光学传感器715用于采集环境光强度。在一个实施例中，处理器701可以根据光学传感器715采集的环境光强度，控制显示屏705的显示亮度。具体地，当环境光强度较高时，调高显示屏705的显示亮度；当环境光强度较低时，调低显示屏705的显示亮度。在另一个实施例中，处理器701还可以根据光学传感器715采集的环境光强度，动态调整摄像头组件706的拍摄参数。

接近传感器716，也称距离传感器，通常设置在终端700的前面板。接近传感器716用于采集用户与终端700的正面之间的距离。在一个实施例中，当接近传感器716检测到用户与终端700的正面之间的距离逐渐变小时，由处理器701控制显示屏705从亮屏状态切换为息屏状态；当接近传感器716检测到用户与终端700的正面之间的距离逐渐变大时，由处理器701控制显示屏705从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图7中示出的结构并不构成对终端700的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图8是根据一示例性实施例示出的一种服务器的结构示意图，该服务器800可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器(central processingunits，CPU)801和一个或多个的存储器802，其中，该一个或多个存储器802中存储有至少一条指令，该至少一条指令由该一个或多个处理器801加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器800还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器800还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由处理器执行以完成上述实施例中的文字识别方法。例如，该计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random AccessMemory，RAM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种文字识别方法，其特征在于，所述方法包括：

获取多个背景图像和文字；

对于每个背景图像，基于所述每个背景图像的深度图中像素点的像素值以及所述文字的文字特征，确定每个背景图像的目标图像区域；

将所述文字添加至所述目标图像区域，得到所述每个背景图像对应的场景文字图像；

当获取到待识别的图像时，将所述图像输入基于所述每个背景图像对应的场景文字图像训练得到的文字识别模型中，输出所述图像的文字识别结果。

2.根据权利要求1所述的方法，其特征在于，所述基于所述每个背景图像的深度图中像素点的像素值以及所述文字的文字特征，确定每个背景图像的目标图像区域，包括：

根据所述每个背景图像的深度图中像素点的像素值，确定所述每个背景图像的至少一个图像区域，每个图像区域中任意两个相邻像素点的像素值之间的差值小于差值阈值；

根据所述至少一个图像区域的尺寸特征、形状特征和像素值中的至少一种特征，以及所述文字的文字特征，确定所述每个背景图像的目标图像区域。

3.根据权利要求2所述的方法，其特征在于，所述根据所述至少一个图像区域的尺寸特征、形状特征和像素值中的至少一种特征，以及所述文字的文字特征，确定所述每个背景图像的目标图像区域，包括：

根据所述至少一个图像区域的尺寸特征、形状特征和像素值中的至少一种特征，以及所述文字的文字特征，从所述至少一个图像区域中，确定多个候选图像区域；

从所述多个候选图像区域，确定目标图像区域。

4.根据权利要求3所述的方法，其特征在于，所述根据所述至少一个图像区域的尺寸特征、形状特征和像素值中的至少一种特征，以及所述文字的文字特征，从所述至少一个图像区域中，确定多个候选图像区域，包括：

获取所述文字的文字特征，所述文字特征包括字符的宽度、高度以及字符数量；

获取所述至少一个图像区域的尺寸特征、形状特征和像素值中的至少一种特征；

对于任一个图像区域，当根据所述图像区域的尺寸特征、形状特征和像素值中的至少一种特征，以及所述文字特征，确定所述图像区域能够覆盖所述文字时，将所述图像区域确定为候选图像区域。

5.根据权利要求4所述的方法，其特征在于，所述获取所述至少一个图像区域的尺寸特征、形状特征和像素值中的至少一种特征，包括：

获取所述至少一个图像区域的外接矩形的尺寸、形状和所述至少一个图像区域的像素值中的至少一种特征；

所述当根据所述图像区域的尺寸特征、形状特征和像素值中的至少一种特征，以及所述文字特征，确定所述图像区域能够覆盖所述文字时，将所述图像区域确定为候选图像区域，包括下述任一项：

当所述外接矩形的宽度大于所述文字的宽度，且所述外接矩形的高度大于所述文字的高度时，将所述图像区域确定为候选图像区域；

当所述外接矩形的宽高比大于所述文字的宽高比时，将所述图像区域确定为候选图像区域；

当所述图像区域内的平均像素值小于像素值阈值时，将所述图像区域确定为候选图像区域。

6.根据权利要求3所述的方法，其特征在于，所述从所述多个候选图像区域，确定目标图像区域，包括下述任一项：

从所述多个候选图像区域，随机选择一个候选图像区域作为所述目标图像区域；

获取所述多个候选图像区域与所述文字的匹配度，将所述匹配度最大的候选图像区域作为所述目标图像区域。

7.根据权利要求1所述的方法，其特征在于，所述深度图的获取过程包括：

将所述每个背景图像输入深度图提取模型，输出所述每个背景图像的深度图。

8.一种文字识别装置，其特征在于，所述装置包括：

获取单元，被配置为执行获取多个背景图像和文字；

确定单元，被配置为执行对于每个背景图像，基于所述每个背景图像的深度图中像素点的像素值以及所述文字的文字特征，确定每个背景图像的目标图像区域；

添加单元，被配置为执行将所述文字添加至所述目标图像区域，得到所述每个背景图像对应的场景文字图像；

输出单元，被配置为执行当获取到待识别的图像时，将所述图像输入基于所述每个背景图像对应的场景文字图像训练得到的文字识别模型中，输出所述图像的文字识别结果。

9.一种计算机设备，其特征在于，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条指令，所述指令由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求7任一项所述的文字识别方法所执行的操作。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如权利要求1至权利要求7任一项所述的文字识别方法所执行的操作。