CN106067019A

CN106067019A - 针对图像进行文字识别的方法及装置

Info

Publication number: CN106067019A
Application number: CN201610366232.8A
Authority: CN
Inventors: 周舒畅; 姚聪; 温和; 何蔚然; 印奇
Original assignee: Beijing Megvii Technology Co Ltd; Beijing Aperture Science and Technology Ltd
Current assignee: Beijing Megvii Technology Co Ltd; Beijing Aperture Science and Technology Ltd
Priority date: 2016-05-27
Filing date: 2016-05-27
Publication date: 2016-11-02

Abstract

本发明的实施例提供了针对图像进行文字识别的方法和装置。该方法包括：将包括待识别对象的图像输入至识别模型，以获得表示所述待识别对象的矢量；以及计算所述表示所述待识别对象的矢量与预定标准矢量集合中的每一个标准矢量的匹配度，并且将匹配度最高的标准矢量所表示的文字作为所述待识别对象的识别结果。上述针对图像进行文字识别的方法和装置可以使用同一个识别模型进行各种文字的较准确识别，且无需在识别模型训练时收集针对目标识别字符集的大量标注数据。此外，因为同一个识别模型可以满足多种文字的识别需求，避免了使用多个识别模型或修正识别模型，进而避免了多个识别模型占用大量存储空间以及其运行时的内存。

Description

针对图像进行文字识别的方法及装置

技术领域

本发明涉及图像处理领域，更具体地涉及一种针对图像进行文字识别的方法和装置。

背景技术

人们在生产和生活中，要处理大量的文字和报表。为了减轻人们的劳动，提高处理效率，随着图像处理技术的日新月异，越来越多的应用场景采用了文字识别技术。例如文字识别技术已经广泛应用于金融、财务、保险和电商等行业的业务中。

现有的针对图像进行文字识别的方法通常包括如下步骤：首先，确定目标识别字符集，如汉字或英文等；然后，仅针对这一目标识别字符集收集大量标注好的图像与文字对，例如，如果目标识别字符集是汉字，那么将仅收集包括汉字的图像与汉字对；然后，利用标注好的图像与文字对针对识别模型(例如，神经网络)进行训练；最后，将包括待识别对象的图像输入至识别模型进行文字识别，以获得识别结果。

以上针对图像进行文字识别的方法需要针对不同的目标识别字符集训练不同的识别模型，且在训练识别模型的过程中，需要大量的、针对目标识别字符集的标注数据，即标注好的图像和文字对。这对于一些缺少数据的字符集(例如阿拉伯语等)而言代价较高，如果未能收集到大量的、针对目标识别字符集的标注数据来训练相应的识别模型，那么利用这样训练得到的识别模型进行文字识别准确率较低。此外，在实际产品需求中，如果已知某一图像的文字识别结果为数字，为了避免将数字“0”识别为字母“o”，还需要定义特别的修正规则对识别模型进行修正或者使用新的识别模型，从而导致存储空间的大量占用以及工程上的额外信息量、工作量和维护困难。

发明内容

考虑到上述问题而提出了本发明。本发明提供了一种针对图像进行文字识别的方法和装置，通过识别模型获得待识别对象的矢量并针对该表示待识别对象的矢量进行匹配计算来进行文字识别，可以使用同一个识别模型针对图像进行各种文字的较准确识别，且无需在训练识别模型时收集针对目标识别字符集的大量标注数据，从而避免了由于缺少特定数据字符集而引起的识别模型训练不好导致文字识别率低、以及针对不同的目标识别字符集单独训练识别模型或者修正识别模型所带来的额外工作量。

根据本发明一方面，提供了一种针对图像进行文字识别的方法，包括：

将包括待识别对象的图像输入至识别模型，以获得表示所述待识别对象的矢量；以及

计算所述表示所述待识别对象的矢量与预定标准矢量集合中的每一个标准矢量的匹配度，并且将匹配度最高的标准矢量所表示的文字作为所述待识别对象的识别结果。

示例性地，所述计算所述表示所述待识别对象的矢量与预定标准矢量集合中的每一个标准矢量的匹配度包括：计算所述表示所述待识别对象的矢量与预定标准矢量集合中的每一个标准矢量的矢量点积，其中，所述矢量点积表示标准矢量所表示的文字作为所述待识别对象的置信度。

示例性地，所述方法还包括：

将用于文字识别的神经网络从输出端去掉d层，并将去掉d层后的神经网络作为所述识别模型，其中d是正整数。

示例性地，所述方法还包括：

接收训练图像和对应的标注内容；以及

利用所述训练图像和所述标注内容训练所述用于文字识别的神经网络。

示例性地，所述利用所述训练图像和所述标注内容训练所述用于文字识别的神经网络包括：

S110，将所述训练图像输入至所述用于文字识别的神经网络，以获得所述训练图像的识别结果；

S130，根据所述训练图像的识别结果和所述标注内容，计算所述用于文字识别的神经网络的损失函数值；以及

S150，在所述损失函数值不满足预设条件的情况和/或迭代次数小于阈值的情况下，调整所述用于文字识别的神经网络的参数并且转所述步骤S110，否则，停止对所述用于文字识别的神经网络的训练并获得训练好的神经网络以用于获得所述识别模型。

示例性地，所述标注内容包括文字标注和/或非文字标注。

示例性地，所述方法还包括：根据期望输出文字集合，从标准矢量总集合中确定所述预定标准矢量集合。

示例性地，所述方法还包括：将包括标准字体的文字的白底黑字图像输入至所述识别模型，以获得与所述标准字体的文字对应的标准矢量，其中，所述标准矢量总集合包括所述标准字体的文字对应的标准矢量。

示例性地，所述将包括标准字体的文字的白底黑字图像输入至所述识别模型以获得与所述标准字体的文字对应的标准矢量的步骤是离线进行的。

根据本发明另一方面，还提供了一种针对图像进行文字识别的装置，包括：

映射模块，用于将包括待识别对象的图像输入至识别模型，以获得表示所述待识别对象的矢量；以及

匹配模块，用于计算所述表示所述待识别对象的矢量与预定标准矢量集合中的每一个标准矢量的匹配度，并且将匹配度最高的标准矢量所表示的文字作为所述待识别对象的识别结果。

示例性地，所述匹配模块包括点积计算单元，用于计算所述表示所述待识别对象的矢量与预定标准矢量集合中的每一个标准矢量的矢量点积，其中，所述矢量点积表示标准矢量所表示的文字作为所述待识别对象的置信度。

示例性地，所述装置还包括：

模型获得模块，用于将用于文字识别的神经网络从输出端去掉d层，并将去掉d层后的神经网络作为所述识别模型，其中d是正整数。

示例性地，所述装置还包括：

接收模块，用于接收训练图像和对应的标注内容；以及

训练模块，用于利用所述训练图像和所述标注内容训练所述用于文字识别的神经网络。

示例性地，所述训练模块包括：

识别单元，用于将所述训练图像输入至所述用于文字识别的神经网络，以获得所述训练图像的识别结果；

损失函数计算单元，用于根据所述训练图像的识别结果和所述标注内容，计算所述用于文字识别的神经网络的损失函数值；以及

调整单元，用于在所述损失函数值不满足预设条件的情况和/或迭代次数小于阈值的情况下，调整所述用于文字识别的神经网络的参数并且启动所述识别单元；否则，停止对所述用于文字识别的神经网络的训练并获得训练好的神经网络以用于获得所述识别模型。

示例性地，所述标注内容包括文字标注和/或非文字标注。

示例性地，所述装置还包括选择模块，用于根据期望输出文字集合，从标准矢量总集合中确定所述预定标准矢量集合。

示例性地，所述装置还包括标准矢量获得模块，用于将包括标准字体的文字的白底黑字图像输入至所述识别模型，以获得与所述标准字体的文字对应的标准矢量，其中，所述标准矢量总集合包括所述标准字体的文字对应的标准矢量。

示例性地，所述标准矢量获得模块是离线运行的。

上述方法和装置可以使用同一个识别模型针对图像进行各种文字的准确识别。而且，无需在训练识别模型时收集针对目标识别字符集的大量标注数据，从而避免了由于缺少特定数据字符集而引起的识别模型训练不好导致文字识别率低。此外，因为同一个识别模型可以满足多种文字的识别需求，所以不需要针对不同的目标识别字符集使用多个识别模型或者修正识别模型，从而避免了使用多个识别模型占用大量存储空间和运行时的内存，减少了工程上的额外信息量、工作量，并且减轻了工程上的维护困难。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同或相似部件或步骤。

图1示出了用于实现根据本发明实施例的用于针对图像进行文字识别的方法和装置的示例电子设备的示意性框图；

图2示出了根据本发明一个实施例的针对图像进行文字识别的方法的示意性流程图；

图3示出了根据本发明另一个实施例的针对图像进行文字识别的方法的示意性流程图；

图4示出了根据本发明一个实施例的训练用于文字识别的神经网络的方法的示意性流程图；

图5A示出了根据本发明一个实施例的训练图像；

图5B示出了根据本发明另一个实施例的训练图像；

图6示出了根据本发明一个实施例的利用训练图像和标注内容训练用于文字识别的神经网络的示意性流程图；

图7示出了根据本发明又一个实施例的针对图像进行文字识别的方法；

图8示出了根据本发明一个实施例的针对图像进行文字识别的装置的示意性框图；

图9示出了根据本发明另一实施例的针对图像进行文字识别的装置的示意性框图；以及

图10是根据本发明一个实施例的文字识别设备的示意性框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

首先，参照图1来描述用于实现本发明实施例的针对图像进行文字识别的方法和装置的示例电子设备100。

如图1所示，电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106和输出装置108，这些组件通过总线系统110和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的计算机功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用来接收用户所输入的指令以及采集数据的装置，并且可以包括键盘、鼠标、麦克风、触摸屏和摄像头等中的一个或多个。

所述输出装置108可以向外部(例如用户)输出各种信息(例如图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

上述输入装置106和输出装置108主要用于与用户交互。

下面，将参考图2描述根据本发明一个实施例的针对图像进行文字识别的方法200。

在步骤S220中，将包括待识别对象的图像输入至识别模型，以获得表示该待识别对象的矢量。

在很多应用场景中，需要针对图像进行文字识别。待识别对象通常是文字。本文中，文字是广义的概念。人类用来记录语言的所有符号均可以称为文字。具体地，待识别对象可以是各种语言的文字，例如中文文字、英文单词、阿拉伯文单词和德文单词等。待识别对象可以是单词，还可以是字符。以英文为例，文字即包括诸如“apple”、“computer”、“process”等单词，又包括诸如“a”、“b”、“c”等字母。再以中文为例，文字即包括诸如“苹果”、“计算机”、“处理”等词语，又包括诸如“彩”、“大”、“更”等单字。

识别模型可以是一个神经网络(Neural Network，简写为NN)。神经网络是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。神经网络依靠模型的复杂程度，通过调整神经网络内部大量节点之间相互连接的关系，从而达到处理信息的目的。神经网络适于处理复杂的、无法简单地用函数处理的计算。而图像数据本身不仅数据量大，而且其没有简单的规律性，利用神经网络可以更好地针对图像进行文字识别。

可以将包括待识别对象的图像输入至识别模型，识别模型将输出与图像相对应的矢量。换言之，识别模型与现有的用于文字识别的神经网络不同，识别模型将所输入的图像映射为矢量，而现有的用于文字识别的神经网络将所输入的图像直接映射为文字。根据本发明的实施例，根据用于文字识别的神经网络，可以获得所述识别模型。识别模型所输出的矢量与所输入的图像具有一一映射关系。对于不同的待识别对象，一个识别模型都可以输出特定长度的矢量。长度是指矢量包含的元素的个数。识别模型所输出的矢量的长度通常大于1。例如矢量的长度可以是4096。可以根据该特定长度的矢量来识别与之对应的待识别对象。

在步骤S240中，计算表示该待识别对象的矢量与预定标准矢量集合中的每一个标准矢量的匹配度，并且将匹配度最高的标准矢量所表示的文字作为该待识别对象的识别结果。

标准矢量集合中的标准矢量与表示待识别对象的矢量的长度是一致的。每个标准矢量与一个特定文字相对应，即该标准矢量表示该特定文字。

不同矢量之间的匹配度表明了两个矢量之间的相似程度，进而表明了两个矢量各自所表示的文字之间的相似度。标准矢量与表示待识别对象的矢量的匹配度越高，那么该待识别对象越有可能是该标准矢量所表示的特定文字。因此，可以将与表示待识别对象的矢量匹配度最高的标准矢量所表示的文字作为该待识别对象的识别结果。

可选地，步骤S240可以通过计算该表示待识别对象的矢量q与预定标准矢量集合中的每一个标准矢量的矢量点积来实现。可以遍历预定标准矢量集合中的所有标准矢量v₁,v₂,…,v_n。分别计算矢量点积s₁＝corr(v₁,q)，s₂＝corr(v₂,q)，...,s_n＝corr(v_n,q)，其中corr(v_i,q)表示预定标准矢量集合中的每一个标准矢量v_i和待识别对象的矢量q的点积计算。每个矢量点积可以表示将对应的标准矢量所表示的文字作为待识别对象的置信度，即将待识别对象识别为对应的标准矢量所表示的文字的置信度。

通过点积计算来确定矢量之间的匹配度，保证了待识别对象的识别准确性并且易于实现。

可以理解，除了点积可以表示匹配度，还可以通过计算矢量的平方差之和来计算矢量之间的匹配度。

上述针对图像进行文字识别的方法，通过识别模型获得待识别对象的矢量并针对表示待识别对象的矢量进行匹配计算来进行文字识别，可以使用同一个识别模型针对图像进行各种文字的较准确识别，且无需在训练识别模型时收集针对目标识别字符集的大量标注数据，从而避免了由于缺少特定数据字符集而引起的识别模型训练不好导致文字识别率低。此外，因为同一个识别模型可以满足多种文字的识别需求，所以不需要针对不同的目标识别字符集使用多个识别模型或者修正识别模型，从而避免了使用多个识别模型占用大量存储空间和其运行时的内存，减少了工程上的额外信息量、工作量，并且减轻了工程上的维护困难。

图3示出了根据本发明另一实施例的针对图像进行文字识别的方法300的示意性流程图。如图3所示，与上述针对图像进行文字识别的方法200相比，针对图像进行文字识别的方法300增加了步骤S313。通过步骤S313获得了用于针对图像进行文字识别的识别模型。方法300中的步骤S320和步骤S340分别与方法200中的对应步骤S220和S240类似，为了简洁，在此不再赘述。

在步骤S313中，将用于文字识别的神经网络从输出端去掉d层，并将去掉d层后的神经网络作为识别模型，其中d是正整数，表示用于文字识别的神经网络与所述识别模型的层数差。

可以理解神经网络包括输入端和输出端。输入端用于接收待分析处理的图像。输出端用于输出分析处理结果，在本发明中用于文字识别的神经网络的输出端用于输出图像的文字识别结果。

神经网络通常包括多个层。在步骤S313中，将神经网络从输出端去掉d层。假设神经网络从输入端到输出端，共包括第1层，第2层，…，第m层，那么在步骤S313中，保留了第1层，第2层，…，第(m-d)层，但去掉了d层(从第(m-d+1)到第m层)。也就是说神经网络的第1层，第2层，…，第(m-d)层构成了识别模型。例如，可以去掉神经网络的输出层的前一层。对于具有m层的神经网络，将输出层(第m层)去掉，只保留神经网络的第1层，第2层，…，第(m-1)层作为识别模型。识别模型的输入与上述包括m层的神经网络的输入一致。但是，识别模型以其第(m-d)层的输出为其最后图像处理结果，其输出为待识别对象的矢量。

上述针对图像进行文字识别的方法300利用了用于文字识别的神经网络来获得识别模型。获得的识别模型可以输出待识别对象的矢量。所述待识别对象可以是各种类型的文字。使用神经网络获得识别模型可以在实现容易的基础上，获得可靠性和实用性。此外，上述获得识别模型的方法可以利用包括各种文字和/或非文字的训练图像来训练用于文字识别的神经网络，可以使最终获得的识别模型鲁棒性更强，能够普遍适用于各种文字的识别。

图4示出了根据本发明一个实施例的训练用于文字识别的神经网络的方法的示意性流程图。

在步骤S411中，接收训练图像和对应的标注内容。

训练图像是已知其中所包括的文字的图像。训练图像可以是包含各种文字的图像，即图像中的文字种类丰富。与这类训练图像对应的标注内容是文字标注。例如，训练图像可以包括不同语言的文字，例如中文、英文和日文等等。又例如，训练图像可以包括不同粒度的文字，例如字符、整词等等。此外，训练图像可以包括各种非文字图像，例如图标、交通标志灯等。换言之，与这类训练图像对应的标注内容是非文字标注。可以统称这类训练图像为背景图像。根据本发明的实施例，训练所述用于文字识别的神经网络，可以使用包括文字和/或非文字图像(对应的为文字标注和/或非文字标注)在内的训练图像，且并不针对特定目标识别文字字符集进行训练，所以训练图像的数量可以大大增加，从而使得训练出来的神经网络在识别文字时具有更强的鲁棒性和准确性。

图5A示出了根据本发明一个实施例的一个训练图像。该训练图像中所包括的文字是“寿”字。即与该训练图像所对应的标注内容为“寿”。可以理解，对于一个标注内容，例如“寿”字，可以存在多个训练图像与之对应，诸如包括不同字体的“寿”的图像。但是，对于一个训练图像，与之对应的标注内容是唯一的。

图5B示出了根据本发明另一个实施例的一个训练图像。该训练图像中包括一个交通标志。该训练图像的标注内容可以是“背景”，其为非文字标注。

在步骤S412中，利用步骤S411中所接收的训练图像和标注内容训练用于文字识别的神经网络。

通过该步骤S412，训练所述用于文字识别的神经网络，该神经网络可以用于对图像进行文字识别。将大量的训练图像输入该神经网络，该神经网络可以识别并输出该图像中的文字。根据该用于文字识别的神经网络获得的文字与对应训练图像中标注的真实文字的差异，调整所述用于文字识别的神经网络的损失函数，可以获得理想的用于文字识别的神经网络。换言之，将训练图像输入该用于文字识别的神经网络所获得的文字与训练图像所对应的标注内容进行比对来调整神经网络的参数，以得到可以用于文字识别的神经网络。由此，该神经网络可以保证在其使用过程中可以获得理想的文字识别结果。

图6示出了根据本发明一个实施例的步骤S412的实现过程。如图6所示，步骤S412可以进一步包括：步骤S612a、步骤S612b和步骤S612c。

在步骤S612a中，将训练图像输入至用于文字识别的神经网络，以获得训练图像的识别结果。针对每个训练图像，所述神经网络输出与其对应的识别结果。识别结果可以是各种文字或背景。

在步骤S612b中，根据训练图像的识别结果和标注内容，计算所述神经网络的损失函数值。

对于每个训练图像，期望神经网络的识别结果和标注内容一致。训练图像的识别结果与标注内容差异越大，那么所计算的损失函数值越大，这表明越需要调整神经网络的当前参数，以获得更准确的识别结果。损失函数值可以包括神经网络的交叉熵和回归损失函数值。该损失函数值能够较好地体现神经网络的识别准确率，由此可以获得一个更理想的神经网络，进而获得更理想的识别模型。

在步骤S612c中，在损失函数值不满足预设条件的情况和/或迭代次数小于阈值的情况下，调整神经网络的参数并且转所述步骤S612a，否则，停止对神经网络的训练并获得训练好的神经网络以用于获得识别模型。

可以将损失函数值满足预设条件以及迭代次数小于阈值这两个条件中的一个或二者作为步骤S612c执行结束的条件。损失函数值满足预设条件表示当前的神经网络可以获得一个相对准确的识别结果。增加迭代次数的约束条件可以使得系统能够适时停止运算，避免无谓的计算，提高计算效率。

在步骤S313中，将步骤S412训练获得的用于文字识别的神经网络从输出端去掉d层，以获得识别模型，其中d是正整数，表示所述用于文字识别的神经网络与识别模型的层数差。

上述针对图像进行文字识别的方法300利用了用于文字识别的神经网络来获得识别模型。基于用于文字识别的神经网络获得的识别模型可以在实现容易的基础上，具有可靠性和实用性。此外，上述获得识别模型的方法利用包括各种文字以及非文字的训练图像来训练神经网络，可以使最终获得的识别模型鲁棒性更强，能够普遍适用于各种文字的识别。

图7示出了根据本发明又一个实施例的针对图像进行文字识别的方法700。如图7所示，与上述针对图像进行文字识别的方法200相比，针对图像进行文字识别的方法700增加了步骤S715。方法700中的步骤S720和步骤S740分别与方法200中的对应步骤类似，为了简洁，在此不再赘述。

在步骤S715中，根据期望输出文字集合，从标准矢量总集合中确定上述预定标准矢量集合。

标准矢量总集合中包括全部标准矢量。在一些应用场景中，可能预先知道识别结果的范围。根据期望的输出文字集合，从标准矢量总集合中确定所述预定标准矢量集合。比如，知道某一图像的文字识别结果必然为数字，可以根据输出数字集合的期望，从全部标准矢量中选择包括数字和逗号的预定标准矢量集合。可以根据该先验知识，从标准矢量总集合中选择一部分矢量，来构成预定标准矢量集合，从而缩小识别结果的范围。从而，在计算识别模型输出的矢量与标准矢量的匹配度时，仅针对所选择的这一部分进行计算。这样，不仅避免了无谓的计算，还能够显著提高识别准确率。例如，避免了将数字“0”识别为字母“O”的错误。

示例性地，可以将包括已知内容的文字的图像输入至识别模型，以获得与该文字对应的标准矢量。这些标准矢量可以构成标准矢量总集合。如前所述，当针对图像进行文字识别时，根据期望输出的文字集合，从标准矢量总集合中确定预定标准矢量集合，可以将识别模型所输出的、表示待识别对象的矢量与预定标准矢量集合中的每一个标准矢量相比对。将相似度最高的标准矢量所表示的文字作为待识别对象的识别结果。

可选地，文字是标准字体和/或包括该文字的图像是白底黑字图像。这两点可以使与该文字对应的矢量更能够表达该文字的特征，而免受字体、图像背景等因素干扰。从而，提高图像的文字识别的准确率。

可选地，可以通过离线获得标准矢量，从而显著提高系统运行速度，节约计算时间。

可以理解，除了利用上述方式获得标准矢量，还可以采用其他方式来获得标准矢量。例如，将标准矢量预先存储在本地。

还应该理解的是，上述标准矢量总集合还可以随着期望输出文字集合而扩展。例如，在现有的标准矢量总集合中不包括期望输出文字时，可以根据期望输出文字集合，将对应的包括新增的标准字体的文字的白底黑字图像输入至所述识别模型，以获得与所述新增的标准字体的文字对应的标准矢量，并将其作为标准矢量总集合的一部分。例如，为了使所述识别模型可以识别不常用的文字，例如，阿拉伯文字，可以通过将包括标准字体的阿拉伯文字的白底黑字的图像输入至所述识别模型，以获得与标准字体的阿拉伯文字对应的标准矢量，并将其作为标准矢量总集合中的一部分，用于识别阿拉伯文字。

通过使用所述识别模型进行文字识别，可以在使用过程中，将包括标准字体的文字的图像输入识别网络(而不需要类似训练过程中的大量包括该文字的图像)，获得与所述标准字体的文字对应的标准矢量，以用于识别文字，从而，对于识别那些训练数据稀缺的字符集而言，避免了在训练过程中由于数据的不充足而造成神经网络模型的训练不佳影响识别效果。

图8示出了根据本发明一个实施例的针对图像进行文字识别的装置800的示意性框图。如图8所示，所述装置800可以包括映射模块820和匹配模块840。

映射模块820用于将包括待识别对象的图像输入至识别模型，以获得表示所述待识别对象的矢量。识别模型将包括待识别对象的图像映射为一个定长矢量。该矢量可以表示待识别对象。

匹配模块840用于计算表示所述待识别对象的矢量与预定标准矢量集合中的每一个标准矢量的匹配度，并且将匹配度最高的标准矢量所表示的文字作为所述待识别对象的识别结果。预定标准矢量集合是备选矢量的集合，待识别对象的识别结果根据表示待识别对象的矢量与备选矢量之间的匹配度确定。可以认为匹配度最高的备选矢量所表示的文字是待识别对象的识别结果。

可选地，匹配模块840可以包括点积计算单元(未示出)。点积计算单元用于计算所述表示所述待识别对象的矢量与预定标准矢量集合中的每一个标准矢量的矢量点积。换言之，两个矢量的点积可以表示两者之间的匹配度。

上述针对图像进行文字识别的装置800，通过针对表示待识别对象的矢量进行匹配计算来进行文字识别，可以针对图像进行各种文字的较准确识别。此外，无需在训练识别模型时收集针对目标识别字符集的大量标注数据。而且，因为同一个识别模型可以满足多种文字的识别需求，避免了使用多个识别模型，所以不需要针对不同的目标字符集使用多个识别模型或者修正识别模型，从而避免了使用多个识别模型占用大量存储空间和其运行时的内存，减少了工程上的额外信息量、工作量，并且减轻了工程上的维护困难。

图9示出了根据本发明另一实施例的针对图像进行文字识别的装置900的示意性框图。如图9所示，相比于上述装置800，装置900中还包括模型获得模块913。装置900中的映射模块920和匹配模块940分别与装置800中的对应模块820和840类似，为了简洁，在此不再赘述。

模型获得模块913用于将用于文字识别的神经网络从输出端去掉d层，并将去掉d层后的神经网络作为所述识别模型，其中d是正整数，表示所述用于文字识别的神经网络与所述识别模型的层数差。

为了得到训练好的用于文字识别的神经网络，所述装置900还可以包括接收模块911和训练模块912(未示出)。

接收模块911用于接收训练图像和对应的标注内容。训练图像是其所包括的内容已经利用自动或手动方法进行了标注的图像。例如，有的训练图像的标注内容是文字标注，该文字可以是各种语言的。有的训练图像的标注内容是非文字标注，可以将其标注为“背景”。具有丰富标注内容的大量训练图像可以帮助获得更稳定的识别模型。

训练模块912用于利用所述训练图像和所述标注内容训练用于文字识别的神经网络。

示例性地，训练模块912包括识别单元、损失函数计算单元和调整单元。识别单元用于将所述训练图像输入至所述用于文字识别的神经网络，以获得所述训练图像的识别结果。损失函数计算单元用于根据所述训练图像的识别结果和所述标注内容，计算所述识别模型的损失函数值。调整单元用于在所述损失函数值不满足预设条件的情况和/或迭代次数小于阈值的情况下，调整所述用于文字识别的神经网络的参数并且启动所述识别单元；否则，停止对所述用于文字识别的神经网络的训练并获得训练好的神经网络以用于获得所述识别模型。

示例性地，所述装置800或装置900还可以包括选择模块，用于从标准矢量总集合中根据期望输出文字集合确定所述预定标准矢量集合。

示例性地，所述装置800或装置900还可以包括标准矢量获得模块，用于将包括标准字体的文字的白底黑字图像输入至所述识别模型，以获得与所述标准字体的文字对应的标准矢量，以构成标准矢量总集合。所述标准矢量获得模块可以是离线运行的。

本领域普通技术人员通过阅读上文关于针对图像进行文字识别的方法和的详细描述，能够理解上述针对图像进行文字识别的装置的结构、实现以及优点，因此这里不再赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

图10示出了根据本发明实施例的文字识别设备1000的示意性框图。该文字识别设备1000可以针对图像进行文字识别。文字识别设备1000包括输入装置1010、存储装置1020、处理器1030以及输出装置1040。

所述输入装置1010用于接收用户所输入的操作指令以及采集数据。输入装置1010可以包括键盘、鼠标、麦克风、触摸屏和摄像头等中的一个或多个。

所述存储装置1020存储用于实现根据本发明实施例的针对图像进行文字识别的方法中的相应步骤的程序代码。

所述处理器1030用于运行所述存储装置1020中存储的程序代码，以执行根据本发明实施例的针对图像进行文字识别的方法的相应步骤，并且用于实现根据本发明实施例的针对图像进行文字识别的装置中的映射模块820和匹配模块840。

在一个实施例中，在所述程序代码被所述处理器1030运行时使所述文字识别设备1000执行以下步骤：

示例性地，在所述程序代码被所述处理器1030运行时使所述文字识别设备1000执行计算所述表示所述待识别对象的矢量与预定标准矢量集合中的每一个标准矢量的匹配度的步骤包括：

计算所述表示所述待识别对象的矢量与预定标准矢量集合中的每一个标准矢量的矢量点积，其中，所述矢量点积表示标准矢量所表示的文字作为所述待识别对象的置信度。

示例性地，在所述程序代码被所述处理器1030运行时使所述文字识别设备1000还执行以下步骤：

接收训练图像和对应的标注内容；以及

示例性地，在所述程序代码被所述处理器1030运行时使所述文字识别设备1000执行利用所述训练图像和所述标注内容训练所述用于文字识别的神经网络的步骤包括：

S312a，将所述训练图像输入至所述用于文字识别的神经网络，以获得所述训练图像的识别结果；

S312b，根据所述训练图像的识别结果和所述标注内容，计算所述用于文字识别的神经网络的损失函数值；以及

S312c，在所述损失函数值不满足预设条件的情况和/或迭代次数小于阈值的情况下，调整所述用于文字识别的神经网络的参数并且转所述步骤S312a，否则，停止对所述用于文字识别的神经网络的训练并获得训练好的神经网络以用于获得所述识别模型。

示例性地，所述标注内容包括文字标注和/或非文字标注。

示例性地，在所述程序代码被所述处理器1030运行时使所述文字识别设备1000还执行以下步骤：根据期望输出文字集合，从标准矢量总集合中确定所述预定标准矢量集合。

示例性地，在所述程序代码被所述处理器1030运行时使所述文字识别设备1000还执行以下步骤：将包括标准字体的文字的白底黑字图像输入至所述识别模型，以获得与所述标准字体的文字对应的标准矢量，其中，所述标准矢量总集合包括所述标准字体的文字对应的标准矢量。

上述将包括标准字体的文字的白底黑字图像输入至所述识别模型，以获得与所述标准字体的文字对应的标准矢量的步骤可以离线进行。

此外，根据本发明实施例，还提供了一种存储介质，在所述存储介质上存储了程序指令，在所述程序指令被计算机或处理器运行时用于执行本发明实施例的针对图像进行文字识别的方法的相应步骤，并且用于实现根据本发明实施例的针对图像进行文字识别的装置中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。所述计算机可读存储介质可以是一个或多个计算机可读存储介质的任意组合。

在一个实施例中，所述计算机程序指令在被计算机或处理器运行时，使得所述计算机或处理器执行以下步骤：

在所述计算机程序指令在被所述计算机或处理器运行时使计算机或处理器执行计算所述表示所述待识别对象的矢量与预定标准矢量集合中的每一个标准矢量的匹配度的步骤包括：

在一个实施例中，所述计算机程序指令在被计算机或处理器运行时，使得所述计算机或处理器运行时还执行以下步骤：

在一个实施例中，所述计算机程序指令在被计算机或处理器运行时，还使得所述计算机或处理器执行以下步骤：

接收训练图像和对应的标注内容；以及

利用所述训练图像和所述标注内容训练用于文字识别的神经网络。

在所述计算机程序指令在被所述计算机或处理器运行时使计算机或处理器执行利用所述训练图像和所述标注内容训练所述用于文字识别的神经网络的步骤包括：

示例性地，所述标注内容包括文字标注和/或非文字标注。

在一个实施例中，所述计算机程序指令在被计算机或处理器运行时还使得所述计算机或处理器执行以下步骤：根据期望输出文字集合，从标准矢量总集合中确定所述预定标准矢量集合。

在一个实施例中，所述计算机程序指令在被计算机或处理器运行时还使得所述计算机或处理器执行以下步骤：将包括标准字体的文字的白底黑字图像输入至所述识别模型，以获得与所述标准字体的文字对应的标准矢量，其中，所述标准矢量总集合包括所述标准字体的文字对应的标准矢量。

示例性地，上述将包括标准字体的文字的白底黑字图像输入至所述识别模型以获得与所述标准字体的文字对应的标准矢量的步骤可以离线进行。

根据本发明实施例的文字识别设备中的各模块可以通过根据本发明实施例的处理器运行在存储器中存储的计算机程序指令来实现，或者可以在根据本发明实施例的计算机程序产品的计算机可读存储介质中存储的计算机指令被计算机或处理器运行时实现。

根据本发明实施例的针对图像进行文字识别的方法及装置、文字识别设备以及存储介质，通过同一个识别模型可以针对图像进行各种文字的较准确识别且无需在训练识别模型时收集针对目标识别字符集的大量标注数据，从而避免了由于缺少特定数据字符集而引起的识别模型训练不好导致文字识别率低。此外，因为同一个识别模型可以满足多种文字的识别需求，所以不需要针对不同的目标识别字符集使用多个识别模型或者修正识别模型，从而避免了多个识别模型占用大量存储空间和其运行时的内存，减少了工程上的额外信息量、工作量，并且减轻了工程上的维护困难。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的针对图像进行文字识别的装置中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种针对图像进行文字识别的方法，包括：

2.如权利要求1所述的方法，其中，所述计算所述表示所述待识别对象的矢量与预定标准矢量集合中的每一个标准矢量的匹配度包括：

3.如权利要求1所述的方法，其中，所述方法还包括：

4.如权利要求3所述的方法，所述方法还包括：

接收训练图像和对应的标注内容；以及

5.如权利要求4所述的方法，其中，所述利用所述训练图像和所述标注内容训练所述用于文字识别的神经网络包括：

6.如权利要求4或5所述的方法，其中，所述标注内容包括文字标注和/或非文字标注。

7.如权利要求1或2所述的方法，其中，所述方法还包括：

根据期望输出文字集合，从标准矢量总集合中确定所述预定标准矢量集合。

8.如权利要求7所述的方法，其中，所述方法还包括：

将包括标准字体的文字的白底黑字图像输入至所述识别模型，以获得与所述标准字体的文字对应的标准矢量，其中，所述标准矢量总集合包括所述标准字体的文字对应的标准矢量。

9.如权利要求8所述的方法，其中，所述将包括标准字体的文字的白底黑字图像输入至所述识别模型以获得与所述标准字体的文字对应的标准矢量的步骤是离线进行的。

10.一种针对图像进行文字识别的装置，包括：

11.如权利要求10所述的装置，其中，所述匹配模块包括：

点积计算单元，用于计算所述表示所述待识别对象的矢量与预定标准矢量集合中的每一个标准矢量的矢量点积，其中，所述矢量点积表示标准矢量所表示的文字作为所述待识别对象的置信度。

12.如权利要求10所述的装置，其中，所述装置还包括：

13.如权利要求12所述的装置，其中，所述装置还包括：

接收模块，用于接收训练图像和对应的标注内容；以及

14.如权利要求13所述的装置，其中，所述训练模块包括：

15.如权利要求13或14所述的装置，其中，所述标注内容包括文字标注和/或非文字标注。

16.如权利要求10或11所述的装置，其中，所述装置还包括：

选择模块，用于根据期望输出文字集合，从标准矢量总集合中确定所述预定标准矢量集合。

17.如权利要求16所述的装置，其中，所述装置还包括：

标准矢量获得模块，用于将包括标准字体的文字的白底黑字图像输入至所述识别模型，以获得与所述标准字体的文字对应的标准矢量，其中，所述标准矢量总集合包括所述标准字体的文字对应的标准矢量。

18.如权利要求17所述的装置，其中，所述标准矢量获得模块是离线运行的。