CN110110777A

CN110110777A - 图像处理方法和训练方法、以及装置、介质和计算设备

Info

Publication number: CN110110777A
Application number: CN201910354110.0A
Authority: CN
Inventors: 邓冰峰; 林辉; 段亦涛
Original assignee: NET EASE YOUDAO INFORMATION TECHNOLOGY (BEIJING) Co Ltd
Current assignee: NET EASE YOUDAO INFORMATION TECHNOLOGY (BEIJING) Co Ltd; Netease Youdao Information Technology Beijing Co Ltd
Priority date: 2019-04-28
Filing date: 2019-04-28
Publication date: 2019-08-09

Abstract

本发明的实施方式提供了一种图像处理方法。该图像处理方法包括：获取第一图像，所述第一图像包括以至少两个语种的字符表示的第一字符信息；通过神经网络识别所述第一字符信息；以及输出与所述第一字符信息对应的第一字符序列。本发明的方法能够同时识别出图像中的多种不同语言文字，提高了对具有图像中多语种文字的识别，为用户带来了更好的体验。本发明的实施方式还提供了一种图像处理装置、介质和计算设备。此外，本发明的实施方式还提供了一种用于图像处理的神经网络的训练方法、装置、介质及计算设备。

Description

图像处理方法和训练方法、以及装置、介质和计算设备

技术领域

本发明的实施方式涉及互联网技术领域，更具体地，本发明的实施方式涉及一种图像处理方法及相应的装置、介质和计算设备，以及一种用于图像处理的神经网络的训练方法及相应的装置、介质和计算设备。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

在全球化不断深入的大背景下，用户拍摄的图像中的文字可能来自于不同的国家，图片中可能包含多个语种的文字。现有的图像文字识别技术(例如，OCR，OpticalCharacter Recognition光学字符识别)，基本上仅能识别单一语种的文字，对于多张图片分别包含不同语种的文字、或者一张图片中同时包含多个语种的文字的识别却无能为力。可见，现有的图像文字识别技术不能同时处理多国的语言文字，因而不能应用于处理图像中包含有多国语言这样的应用场景，而随着国际化的发展，这样的应用场景会越来越普遍。

发明内容

本发明提出来一种能够一次性识别图像中多个语种的文字的识别方法。

在本发明实施方式的第一方面中，提供了一种图像处理方法。该图像处理方法包括：获取第一图像，所述第一图像包括以至少两个语种的字符表示的第一字符信息；通过神经网络识别所述第一字符信息；以及输出与所述第一字符信息对应的第一字符序列。

在本发明的一个实施例中，所述神经网络包括卷积神经网络和递归神经网络，所述通过神经网络识别所述第一字符信息包括：通过所述卷积神经网络提取所述第一图像的特征图；以及将所述第一图像的特征图作为所述递归神经网络的输入，通过所述递归神经网络获得所述第一字符序列。

在本发明的一个实施例中，所述方法还包括训练所述神经网络。具体包括：获取所述至少两个语种的共有基础字符集；获取至少一个第二图像，所述至少一个第二图像包括第二字符信息，所述第二字符信息被设置为以所述至少两个语种的字符按照预定比例的混合来表示；以及通过所述至少一个第二图像与所述共有基础字符集训练所述神经网络，以使所述神经网络输出所述第二字符信息对应的第二字符序列。

在本发明的一个实施例中，所述通过所述至少一个第二图像与所述共有基础字符集训练所述神经网络还包括：以用于时序类数据分类算法Connectionist TemporalClassification构建所述神经网络的损失函数，训练所述神经网络。

在本发明的一个实施例中，所述方法还包括：确定所述第一字符序列中的字符所属的语种信息；以及输出所述语种信息。

在本发明的一个实施例中，在所述通过神经网络识别所述第一字符信息之前，所述方法还包括：从所述第一图像中提取出至少一个文本行区域，所述至少一个文本行区域包括所述第一字符信息；以及将所述至少一个文本行区域输入至所述神经网络。

在本发明实施方式的第二方面中，提供了一种用于图像处理的神经网络的训练方法。所述训练方法包括：获取至少两个语种的共有基础字符集；获取至少一个第二图像，所述至少一个第二图像包括第二字符信息，所述第二字符信息被设置为以所述至少两个语种的字符按照预定比例的混合来表示；以及通过所述至少一个第二图像与所述共有基础字符集训练所述神经网络，以使所述神经网络输出所述第二字符信息对应的第二字符序列。

在本发明的一个实施例中，所述神经网络包括卷积神经网络和递归神经网络，其中所述卷积神经网络的输出被设置为所述递归神经网络的输入。

在本发明实施方式的第三方面中，提供了一种图像处理装置。所述装置包括图像获取模块、识别模块、以及字符序列输出模块。所述图像获取模块用于获取第一图像，所述第一图像包括以至少两个语种的字符表示的第一字符信息。所述识别模块用于通过神经网络识别所述第一字符信息。所述字符序列输出模块用于输出与所述第一字符信息对应的第一字符序列。

在本发明的一个实施例中，所述神经网络包括卷积神经网络和递归神经网络。所述识别模块具体用于通过所述卷积神经网络提取所述第一图像的特征图，以及将所述第一图像的特征图作为所述递归神经网络的输入，通过所述递归神经网络获得所述第一字符序列。

在本发明的一个实施例中，所述装置还包括神经网络训练模块。所述神经网络训练模块用于训练所述神经网络。所述神经网络训练模块包括第一获取子模块、第二获取子模块以及训练子模块。所述第一获取子模块用于获取所述至少两个语种的共有基础字符集。所述第二获取子模块用于获取至少一个第二图像，所述至少一个第二图像包括第二字符信息，所述第二字符信息被设置为以所述至少两个语种的字符按照预定比例的混合来表示。所述训练子模块用于通过所述至少一个第二图像与所述共有基础字符集训练所述神经网络，以使所述神经网络输出所述第二字符信息对应的第二字符序列。

在本发明的一个实施中，所述训练子模块还用于以用于时序类数据分类算法Connectionist Temporal Classification构建所述神经网络的损失函数，训练所述神经网络。

在本发明的一个实施例中，所述装置还包括语种信息输出模块。所述语种信息输出模块，用于确定所述第一字符序列中的字符所属的语种信息，以及输出所述语种信息。

在本发明的一个实施例中，所述装置还包括图像预处理模块。所述图像预处理模块，用于在通过神经网络识别所述第一字符信息之前，从所述第一图像中提取出至少一个文本行区域，所述至少一个文本行区域包括所述第一字符信息，以及将所述至少一个文本行区域输入至所述神经网络。

在本发明实施方式的第四方面中，提供了一种用于图像处理的神经网络的训练装置。所述训练装置包括第一获取模块、第二获取模块以及训练模块。所述第一获取模块用于获取至少两个语种的共有基础字符集。所述第二获取模块用于获取至少一个第二图像，所述至少一个第二图像包括第二字符信息，所述第二字符信息被设置为以所述至少两个语种的字符按照预定比例的混合来表示。所述训练模块，用于通过所述至少一个第二图像与所述共有基础字符集训练所述神经网络，以使所述神经网络输出所述第二字符信息对应的第二字符序列。

在本发明的一个实施例中，所述训练模块还用于以用于时序类数据分类算法Connectionist Temporal Classification构建所述神经网络的损失函数，训练所述神经网络。

在本发明实施方式的第五方面中，提供了一种计算机可读存储介质，其上存储有可执行指令，所述指令在被处理器执行时使处理器执行如上所述的图像处理方法。

在本发明实施方式的第六方面中，提供了一种计算机可读存储介质，其上存储有可执行指令，所述指令在被处理器执行时使处理器执行如上所述的训练方法。

在本发明实施方式的第七方面中，提供了一种计算设备。所述计算设备包括存储有可执行指令的一个或多个存储器、以及一个或多个处理器。所述一个或多个处理器执行所述可执行指令，用以实现如上所述的图像处理方法。

在本发明实施方式的第八方面中，提供了一种计算设备。所述计算设备包括存储有可执行指令的一个或多个存储器、以及一个或多个处理器。所述一个或多个处理器执行所述可执行指令，用以实现如上所述的训练方法。

根据本发明实施方式的图像识别方法、装置、介质和计算设备，可以同时识别图像中多个语种的文字，可以应用于处理图像中包含有多国语言这样的场景，适用于具有多个不同国家语言文字的电子文档，拍照图片，拍照文档等中的文字识别，提高图像中的文字识别效率，提高了用户体验。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1示意性地示出了根据本发明实施方式的图像处理方法、装置、介质和计算设备的应用场景；

图2示意性地示出了根据本发明一实施例的图像处理方法的流程图；

图3示意性地示出了根据本发明一实施例的图像处理方法中通过神经网络识别第一字符信息的操作流程；

图4示意性地示出了根据本发明另一实施例的图像处理方法的流程图；

图5示意性地示出了根据本发明实施例的训练方法的流程图；

图6示意性示出了根据本发明实施例的训练方法的流程构思；

图7示意性示出了根据本发明实施例的图像处理装置的方框图；

图8示意性地示出了根据本发明实施例的训练装置的方框图；

图9示意性的示出了适于实现根据本发明实施例的方法的程序产品的示意图；以及

图10示意性地示出了适于实现根据本发明实施例的方法的计算设备的框图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本发明的实施方式，提出了一种图像处理方法、装置、介质和计算设备，以及一种用于图像处理的神经网络的训练方法、装置、介质和计算设备。

在本文中，需要理解的是，所涉及的术语的含义解释如下：

基础字符集：是一种语言的最基本字符的集合。例如汉语的基础字符集是汉字以及标点、空格等，英语的基础字符集为26个字母的大小写、标点、空格等；

共有基础字符集：至少两个语种的基础字符集的混合。在一个实施例中，该共有基础字符集可以是该至少两个语种的基础字符集混合后，合并该两个语种的基础字符集中共有的字符，同时保留每个语种的基础字符集中特有的字符；

CTC：Connectionist Temporal Classification的缩写，即用于时序类数据分类算法。该算法主要用来解决神经网络要预测的真实字符与神经网络的输出不对齐的问题，CTC能够在输入概率矩阵中找出一条最优的预测路径对原始图像中的文本内容进行表示。所谓不对齐，是指序列与序列之间不一致，例如序列与序列长度不同、或者序列与序列中处于对应位置的信息不同。

此外，附图中的任何元素数量均用于示例而非限制，以及任何命名(例如，第一、第二)都仅用于区分，而不具有任何限制含义。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

发明概述

本发明人发现，可以通过神经网络对多语种的语言文字的学习，来训练神经网络识别图像中所具有的不同语种的语言文字。例如，可以通过多个语种的共有基础字符集作为训练数据，并利用卷积神经网络强大的图像识别特性进行图像特征的深度提取，然后利用递归神经网络强大的序列处理特性将卷积神经网络提取得到的特征图解码得到字符序列，从而可以同时识别出图像中的多个语种的语言文字。以此方式，提高图像中的文字的识别效率。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

应用场景总览

首先参考图1。

图1示意性地示出了根据本发明实施方式的图像处理方法、装置、介质和计算设备的应用场景。

如图1所示，该应用场景包括用户终端11、服务器12和网络13。网络13用以在用户终端11和服务器12之间提供通信链路的介质。网络13可以包括各种连接类型，例如无线通信链路等等。

用户终端11可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

用户可以使用用户终端11通过网络13与服务器12交互，以接收或发送消息等。例如，用户终端11上可以安装有图像处理应用程序(以下简称客户端)。用户通过用户终端11中安装的客户端向服务器12发送图像处理请求。

服务器12可以是提供各种服务的服务器，例如对用户利用用户终端11发送的图像处理请求提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的图像处理请求等数据进行分析等处理，并将处理结果反馈给用户终端11。服务器12可以提供用于图像处理的神经网络。如前所述该神经网络可以通过训练，来识别图像中多个语种的语言文字。

需要说明的是，本发明实施例所提供的图像处理方法或用于图像处理的神经网络的训练方法可以由服务器12执行。相应地，本发明实施例所提供的图像处理装置、介质和计算设备，或者用于图像处理的神经网络的训练方法的装置、介质和计算设备一般可以设置于服务器12中。本发明实施例所提供的图像处理方法或用于图像处理的神经网络的训练方法也可以由不同于服务器12且能够与用户终端11和/或服务器12通信的其他服务器或服务器集群执行。相应地，本发明实施例所提供的图像处理装置、介质和计算设备，或者用于图像处理的神经网络的训练方法的装置、介质和计算设备也可以设置于不同于服务器12且能够与用户终端11和/或服务器12通信的其他服务器或服务器集群中。本发明实施例所提供的图像处理方法或用于图像处理的神经网络的训练方法也可以部分由用户终端11执行，部分由服务器12执行。相应地，本发明实施例所提供的图像处理装置、介质和计算设备，或者用于图像处理的神经网络的训练方法的装置、介质和计算设备也可以部分设置于用户终端11中，部分设置于服务器12中。

应该理解，图1中的用户终端、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

示例性方法

下面结合图1的应用场景，参考图2～图6来描述根据本发明示例性实施方式的图像处理方法。需要注意的是，上述应用场景仅是为了便于理解本发明的精神和原理而示出，本发明的实施方式在此方面不受任何限制。相反，本发明的实施方式可以应用于适用的任何场景。

图2示意性地示出了根据本发明一实施例的图像处理方法的流程图。

如图2所示，根据本发明的实施例该图像处理方法可以包括操作S210～操作S230。

在操作S210，获取第一图像，该第一图像包括以至少两个语种的字符表示的第一字符信息。需要说明的是，在本文中，第一图像指的是神经网络进行图像识别预测时所使用的图像，区别于下文中在神经网络训练阶段所使用的第二图像。

然后在操作S220，通过神经网络识别第一字符信息。

接着在操作S230，输出与第一字符信息对应的第一字符序列。该第一字符序列为该第一字符信息中的字符按照在第一图像中的位置先后顺序排列而获得的一串字符。

例如，该第一图像中包括以图像展示的字符信息“I am from有道”。在第一图像中，第一字符信息“I am from有道”由第一图像中的多个像素组合构成。当经过操作S220的识别后在操作S230中输出的第一字符序列“I am from有道”中，每一个字符与一个二进制编码相对应。

神经网络可以预测出第一图像中包含文字的图像区域中的字符信息对应为某一个字符的概率，其中，将概率最高的那个字符作为预测结果，在操作S230中输出。

根据本发明的实施例，通过神经网络识别图像中的多语种的字符信息，可以不进行语种判别，就能够从图像中识别出具有多语种的字符信息的字符序列，实现对图像中多语种的语言文字的识别，提高图像中多语种的语言文字的识别效率。

根据本发明的实施例，神经网络包括卷积神经网络和递归神经网络。从而，操作S220的具体实现可以参考图3的示意。

图3示意性地示出了根据本发明一实施例的图像处理方法中操作S220通过神经网络识别第一字符信息的操作流程。

如图3所示，根据本发明的实施操作S220可以包括操作S301和操作S302。

在操作S301，通过卷积神经网络提取第一图像的特征图。其中，该特征图为通过卷积神经网络对第一图像进行一系列操作(例如，下采样、上采样、反卷积和/或图像融合等)之后，得到的可以表征该第一图像更深层语义信息的图像。

特征图的大小可以通过卷积神经网络预先设置，通常会比原图要小。例如，第一图像的尺寸为512x512时，在操作S301中可以得到尺寸为64x64的特征图。具体地，在一个实施例中，对于尺寸为512x512的第一图像，可以首先经过多层卷积神经网络处理并进行下采样，得到尺寸为256x256的第一阶段特征图；然后将256x256的第一阶段特征图再经过多层卷积神经网络处理并进行下采样，得到尺寸为128x128的第二阶段特征图，以此类推，可以得到尺寸为64x64的第三阶段特征图、32x32的第四阶段特征图、16x16的第五阶段特征图；接着对16x16的第五阶段特征图可以进行反卷积操作，通过上采样的方式，输出尺寸为32x32的第六阶段特征图；此后可以对对尺寸为32x32的第六阶段特征图进行反卷积操作，再通过上采样的方式，输出尺寸为64x64的第七阶段特征图；最后还可以将下采样得到的尺寸为64x64的第三阶段特征图与上采样得到的尺寸为64x64的第七阶段特征图进行特征融合，并最终输出尺寸为64x64的第八阶段特征图，并以该64x64的第八阶段特征图作为操作S301中提取的特征图。

在操作S302，将第一图像的特征图作为递归神经网络的输入，通过递归神经网络获得第一字符序列。

根据本发明的实施例，卷积神经网络(例如，多层卷积神经网络)擅长进行图像处理，具有强大的图像特征提取能力。递归神经网络擅长时序信息处理。递归神经网络(例如，多层递归神经网络)在语音识别、文本处理、具有时序性数据的处理等方面具有广泛应用。递归神经网络可以从特征图中解码得到第一字符序列。

图4示意性地示出了根据本发明另一实施例的图像处理方法的流程图。

如图4所示，根据本发明另一实施例的图像处理方法，除了操作S210～操作S230以外，还可以包括操作S410～操作S450中的部分或全部。

根据本发明的一个实施例，在操作S210之前可以执行操作S410。其中在操作S410，训练神经网络。根据本发明的实施例，操作S410中训练神经网络的具体过程可以参考下文图5和图6的详细描述。

根据本发明的另一个实施例，在操作S220之前还可以对第一图像进行预处理，具体可以包括操作S420和操作S430。在操作S420从第一图像中提取出至少一个文本行区域，至少一个文本行区域包括第一字符信息。例如，可以利用切行工具从第一图像中切割出包含至少一行文字的图像，并可以将切割出的图像转换为灰度图，以减少神经网络的计算量等。然后在操作S430，将至少一个文本行区域输入至神经网络。该至少一个文本行区域可以作为对第一图像中文字进行识别的基本单元。

根据本发明的又一个实施例，在操作230之后还可以包括操作S440和操作S450。在操作S440，确定第一字符序列中的字符所属的语种信息。在操作S450，输出语种信息。具体地，在输出第一字符序列之后，可以在操作S440中根据第一字符序列中的字符所属的基础字符集所在的语种信息，来判断每个字符所属的语种信息，进而在操作S450中输出该语种信息，以此方式可以为用户提供字符的语种信息。这样，例如如果用户需要通过对某个字符的翻译，来进一步了解某个字符在用户熟悉的语种中的含义，该字符的语种信息就可以给用户提供很大帮助。

以下结合图5和图6对根据本发明实施例的用于图像处理的神经网络的训练方法进行说明。

图5示意性地示出了根据本发明实施例的训练方法的流程图。图6示意性示出了根据本发明实施例的训练方法的流程构思。

如图5所示，根据本发明的实施例，对神经网络的训练(例如，操作S410)可以包括操作S501～操作S503。根据本发明另一实施例，该训练方法在操作S503之后还可以进一步包括操作S504。

在操作S501，获取至少两个语种的共有基础字符集。具体地参考图6，可以收集语种1～语种n中每个语种的大量图像，并对收集的该大量图像进行预处理(例如，灰度化、尺寸大小等调节)。然后通过切行工具从每个图像中切割出至少一个文本行区域，得到例如图6中的至少一个文本行区域1、至少一个文本行区域2、......、至少一个文本行区域n。然后，可以对每一个文本行区域使用标注工具标注出该文本行区域中所包含的字符，或者使用该文本行区域对应的语种识别工具(例如，OCR识别工具)识别出该文本行区域中所包含的字符。根据这些标注的字符或者识别得到的字符，就可以得到每个语种的基础字符集，即图6中的基础字符集1、基础字符集2、...、以及基础字符集n。将n个语种的基础字符集(基础字符集1、基础字符集2、...、以及基础字符集n)混合在一起，就可以得到语种1～n的共有基础字符集。其中，将n个语种的基础字符集混合在一起可以是，对于不同语种中的相同字符(即，撰写方式相同但发音不同的字符)视为同一个字符进行保存，而对于不同语种中的不同字符则各自分别保留。因为发音不同但撰写方式相同的字符，其在计算机中存储的二进制编码是相同的，可以视为同一个字符。

在操作S502，获取至少一个第二图像，该至少一个第二图像包括第二字符信息，第二字符信息被设置为以至少两个语种的字符按照预定比例的混合来表示。具体地，继续参考图6，可以将至少一个文本行区域1、至少一个文本行区域2、......、至少一个文本行区域n按照预定比例进行混合，得到相应的第二图像。该预定比例的设置可以按照所要训练的神经网络的使用目的或使用场景来确定。例如，用户的日常工作生活中接触最多的语言为汉语，其次是英语，另外还涉及少量日语。该神经网络的训练阶段中，那么在该第二图像中该预定比例例如可以是汉语对应的文本行区域达到80％，英语对应的文本行区域达到15％，日语对应的文本行区域可以到达5％。通过该预定比例将不同语种的字符混合，得到的第二图像，可以使训练得到的神经网络与用户的使用环境和使用目的更为契合。当然，本领域的技术人员可以理解，文本行区域1、2、......、n的任何一个或多个中，也可以包括多种语言。

然后在操作S503，通过至少一个第二图像与共有基础字符集训练神经网络，以使神经网络输出第二字符信息对应的第二字符序列。根据本发明的实施例，该神经网络包括卷积神经网络和递归神经网络。卷积神经网络的输出被设置为递归神经网络的输入。

在操作S504，以用于时序类数据分类算法(Connectionist TemporalClassification，CTC)构建神经网络的损失函数，训练神经网络。

例如图6中，将该至少一个第二图像和语种1～n的共有基础字符集输入至神经网络，并以对第二图像中的每一个文本行区域标注出的字符作为神经网络的输出标准，训练神经网络。

CTC算法可以根据输入X映射一些带有概率的Y。例如，当输入X＝包括“I am from有道”的字符信息的第二图像时，神经网络对该第二图像进行特征提取得到对应的特征图，然后对该特征图中的不同位置的图像信息按照一定的时间间隙(例如，1us或者更小)依次进行识别，其中每个时刻根据对所识别的图像信息的分析处理输出至少一个字符、以及该至少一个字符中每个字符对应的概率。

换言之，在神经网络对该特征图中的不同位置的图像信息按照一定的时间间隙依序进行识别后，得到的是由不同时刻输出的字符、以及这些字符对应的概率所组成的一个矩阵。对这个矩阵中不同时刻的字符选择其一并按照时序组合得到一个字符序列的过程，称之为一个路径。

例如，在一个实施例中，某个路径对应的字符序列可以是Y’＝“I aam f_rroom_有道”，其中“_”表示blank是占位符。其中，Y’＝“I aam f_rroom_有道”中存在有重复字符以及blank(占位符)。相应的该字符序列Y’的概率即为Y’对应的路径的概率，与Y’中每个字符对应的概率有关。

另外，Y’＝“I aam f_rroom_有道”中存在有重复字符和占位符。这是因为，不同语种以及同一个语种字符的宽度并不一样，因此在识别的过程中每个字符对应的图像信息所占用的时刻数量不同，这样使得神经网络进行在学习的过程中会使用重复字符以及blank(占位符)的方式，来保证输出与第二图像中的字符信息的宽度一致。

接下来，CTC算法可以对Y’＝“I aam f_rroom_有道”进行去重以及去除占位符操作，得到神经网络的输出结果Y＝“I am from有道”，其中Y的概率与Y’对应的路径相对应。可以理解，对于不同的路径会有不同的输出结果、以及概率。基于这些输出结果及其概率与对第二图像标注出的字符序列的差异，不断调整神经网络的模型参数，使得神经网络的输出结果的概率趋近于对第二图像标注出的字符序列(即，真实值)的概率。以此方式，不断调高神经网络的输出结果中接近真实值的字符、以及路径(即，字符序列)的概率，从而不断训练神经网络。

然后，在预测阶段神经网络可以根据发明实施例的方法，在对用户输入的第一图像进行识别时，对于第一图像的不同位置的图像信息按照时序先后进行识别，其中，在每一个时刻以该时刻预测出的概率最高的字符作为每个时刻的输出，然后将每个时刻中最高概率的字符组合得到一个字符序列，并对该字符序列去重和去除占位符后，得到神经网络的预测结果。

示例性装置

在介绍了本发明示例性实施方式的方法之后，接下来，参考图7对本发明示例性实施方式的图像处理装置进行说明。

图7示意性示出了根据本发明实施例的图像处理装置700的方框图。

如图7所示，该图像处理装置700包括图像获取模块710、识别模块720、以及字符序列输出模块730。该图像处理装置可以用于实现参考图2～图6所描述的图像处理方法。

图像获取模块710例如可以执行操作S210，用于获取第一图像，第一图像包括以至少两个语种的字符表示的第一字符信息。

识别模块720例如可以执行操作S220，用于通过神经网络识别第一字符信息。在本发明的一个实施例中，神经网络包括卷积神经网络和递归神经网络。识别模块720例如具体可以执行操作S301～操作S302，具体用于通过卷积神经网络提取第一图像的特征图，以及将第一图像的特征图作为递归神经网络的输入，通过递归神经网络获得第一字符序列。

字符序列输出模块730例如可以执行操作S230，用于输出与第一字符信息对应的第一字符序列。

在本发明的一个实施例中，装置700还包括神经网络训练模块740。神经网络训练模块740例如可以执行操作S410，用于训练神经网络。神经网络训练模740包括第一获取子模块741、第二获取子模块742以及训练子模块743。第一获取子模块741例如可以执行操作操作S501，用于获取至少两个语种的共有基础字符集。第二获取子模块742例如可以执行操作操作S502，用于获取至少一个第二图像，至少一个第二图像包括第二字符信息，第二字符信息被设置为以至少两个语种的字符按照预定比例的混合来表示。训练子模块743例如可以执行操作操作S503，用于通过至少一个第二图像与共有基础字符集训练神经网络，以使神经网络输出第二字符信息对应的第二字符序列。

在本发明的一个实施中，训练子模块743例如还可以执行操作S504，用于以用于时序类数据分类算法Connectionist Temporal Classification构建神经网络的损失函数，训练神经网络。

在本发明的一个实施例中，装置700还包括语种信息输出模块750。语种信息输出模块750例如可以执行操作S440和操作S450用于确定第一字符序列中的字符所属的语种信息，以及输出语种信息。

在本发明的一个实施例中，装置700还包括图像预处理模块760。图像预处理模块760例如可以执行操作S420和操作S430，用于在通过神经网络识别第一字符信息之前，从第一图像中提取出至少一个文本行区域，至少一个文本行区域包括第一字符信息，以及将至少一个文本行区域输入至神经网络。

图8示意性地示出了根据本发明实施例的训练装置800的方框图。

如图8所示，根据本发明的实施例，该用于图像处理的神经网络的训练装置800可以包括第一获取模块810、第二获取模块820以及训练模块830。该装置800可以用于执行参考图5和图6所描述的训练方法。

第一获取模块810与上述第一获取子模块741类似，可以执行操作S501，用于获取至少两个语种的共有基础字符集。

第二获取模块820与上述第二获取子模块742类似，可以执行操作S502，用于获取至少一个第二图像，至少一个第二图像包括第二字符信息，第二字符信息被设置为以至少两个语种的字符按照预定比例的混合来表示。

训练模块830与上述训练子模块743类似，可以执行操作S503，用于通过至少一个第二图像与共有基础字符集训练神经网络，以使神经网络输出第二字符信息对应的第二字符序列。训练模块830还可以执行操作S504，用于以用于时序类数据分类算法Connectionist Temporal Classification构建神经网络的损失函数，训练神经网络。根据本发明的实施例，神经网络包括卷积神经网络和递归神经网络，其中卷积神经网络的输出被设置为递归神经网络的输入。

示例性介质

在介绍了本发明示例性实施方式的方法、装置之后，接下来，参考图9对适于实现根据本发明实施例的方法的程序产品进行介绍。

根据本发明的实施例，提供了一种计算机可读存储介质，其上存储有可执行指令，所述指令在被处理器执行时使处理器执行参考如图2～图6所描述的图像处理方法、或者使处理器执行参考图5和图6所描述的用于图像处理的神经网络的训练方法。

在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码。当所述程序产品在计算设备上运行时，所述程序代码用于使所述计算设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的图像处理方法中的操作，例如，计算设备可以执行如图2中所示的操作S210，获取第一图像，第一图像包括以至少两个语种的字符表示的第一字符信息；操作S220，通过神经网络识别第一字符信息；以及操作S230，输出与第一字符信息对应的第一字符序列。

或者，当程序产品在计算设备上运行时，程序代码用于使计算设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的用于图像处理的神经网络的训练方法中的操作，例如，计算设备可以执行如图5中所示的操作S501，获取至少两个语种的共有基础字符集；操作S502，获取至少一个第二图像，至少一个第二图像包括第二字符信息，第二字符信息被设置为以至少两个语种的字符按照预定比例的混合来表示；以及操作S503，通过至少一个第二图像与共有基础字符集训练神经网络，以使神经网络输出第二字符信息对应的第二字符序列。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

如图9所示，描述了适于实现根据本发明的实施方式的方法的程序产品900，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在计算设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆，RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言——诸如Java，C4-+等，还包括常规的过程式程序设计语言——诸如“C”，语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)一连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

示例性计算设备

在介绍了本发明示例性实施方式的方法、装置和介质之后，接下来，参考图10对适于本发明示例性实施例的方法的计算设备进行说明。

根据本发明的实施例，提供了一种计算设备。所述计算设备包括存储有可执行指令的一个或多个存储器、以及一个或多个处理器。所述一个或多个处理器执行所述可执行指令，用以实现参考如图2～图6所描述的图像处理方法、或者参考图5和图6所描述的用于图像处理的神经网络的训练方法。

本发明实施例还提供了一种计算设备。所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，根据本发明的计算设备可以至少包括至少一个处理单元、以及至少一个存储单元。其中，存储单元存储有程序代码，当程序代码被处理单元执行时，使得处理单元执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的图像处理方法中的操作。例如，处理单元可以执行如图2中所示的操作S210，获取第一图像，第一图像包括以至少两个语种的字符表示的第一字符信息；操作S220，通过神经网络识别第一字符信息；以及操作S230，输出与第一字符信息对应的第一字符序列。

或者，存储单元存储有程序代码，当程序代码被处理单元执行时，使得处理单元执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的用于图像处理的神经网络的训练方法中的操作。例如，处理单元可以执行如图5中所示的操作S501，获取至少两个语种的共有基础字符集；操作S502，获取至少一个第二图像，至少一个第二图像包括第二字符信息，第二字符信息被设置为以至少两个语种的字符按照预定比例的混合来表示；以及操作S503，通过至少一个第二图像与共有基础字符集训练神经网络，以使神经网络输出第二字符信息对应的第二字符序列。

下面参照图10来描述适于实现根据本发明实施例的方法的计算设备1000。如图10所示的计算设备1000仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图10所示，计算设备1000以通用计算设备的形式表现。计算设备100的组件可以包括但不限于：上述至少一个处理单元1010、上述至少一个存储单元1020、连接不同系统组件(包括存储单元1020和处理单元1010)的总线1030。

总线1030包括数据总线、控制总线和地址总线。

存储单元1020可以包括易失性存储器，例如随机存取存储器(RAM)1021和/或高速缓存存储器1022，还可以进一步包括只读存储器(ROM)1023。

存储单元1020还可以包括具有一组(至少一个)程序模块1024的程序/实用工具1025，这样的程序模块1024包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

计算设备1000也可以与一个或多个外部设备1040(例如键盘、指向设备、蓝牙设备等)通信，这种通信可以通过输入/输出(I/0)接口1050进行。并且，计算设备1000还可以通过网络适配器1060与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器1060通过总线1030与计算设备1000的其它模块通信。应当明白，尽管图中未示出，可以结合计算设备1000使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了装置的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种图像处理方法，包括：

获取第一图像，所述第一图像包括以至少两个语种的字符表示的第一字符信息；

通过神经网络识别所述第一字符信息；以及

输出与所述第一字符信息对应的第一字符序列。

2.根据权利要求1所述的方法，其中，所述神经网络包括卷积神经网络和递归神经网络，所述通过神经网络识别所述第一字符信息包括：

通过所述卷积神经网络提取所述第一图像的特征图；以及

将所述第一图像的特征图作为所述递归神经网络的输入，通过所述递归神经网络获得所述第一字符序列。

3.根据权利要求1所述的方法，其中，所述方法还包括训练所述神经网络，包括：

获取所述至少两个语种的共有基础字符集；

获取至少一个第二图像，所述至少一个第二图像包括第二字符信息，所述第二字符信息被设置为以所述至少两个语种的字符按照预定比例的混合来表示；以及

通过所述至少一个第二图像与所述共有基础字符集训练所述神经网络，以使所述神经网络输出所述第二字符信息对应的第二字符序列。

4.根据权利要求1所述的方法，其中，所述方法还包括：

确定所述第一字符序列中的字符所属的语种信息；以及

输出所述语种信息。

5.根据权利要求1所述的方法，其中，在所述通过神经网络识别所述第一字符信息之前，所述方法还包括：

从所述第一图像中提取出至少一个文本行区域，所述至少一个文本行区域包括所述第一字符信息；以及

将所述至少一个文本行区域输入至所述神经网络。

6.一种用于图像处理的神经网络的训练方法，包括：

获取至少两个语种的共有基础字符集；

7.一种图像处理装置，包括：

图像获取模块，用于获取第一图像，所述第一图像包括以至少两个语种的字符表示的第一字符信息；

识别模块，用于通过神经网络识别所述第一字符信息；以及

字符序列输出模块，用于输出与所述第一字符信息对应的第一字符序列。

8.一种用于图像处理的神经网络的训练装置，包括：

第一获取模块，用于获取至少两个语种的共有基础字符集；

第二获取模块，用于获取至少一个第二图像，所述至少一个第二图像包括第二字符信息，所述第二字符信息被设置为以所述至少两个语种的字符按照预定比例的混合来表示；

训练模块，用于通过所述至少一个第二图像与所述共有基础字符集训练所述神经网络，以使所述神经网络输出所述第二字符信息对应的第二字符序列。

9.一种计算机可读存储介质，其上存储有可执行指令，所述指令在被处理器执行时使处理器执行根据权利要求1～5任意一项所述的方法。

10.一种计算设备，包括：

一个或多个存储器，存储有可执行指令；

一个或多个处理器，执行所述可执行指令，用以实现根据权利要求1～5任意一项所述的方法。