CN111339787B

CN111339787B - 一种语种识别方法、装置、电子设备及存储介质

Info

Publication number: CN111339787B
Application number: CN201811543890.5A
Authority: CN
Inventors: 张雪雷; 沈海峰; 苟巍
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2018-12-17
Filing date: 2018-12-17
Publication date: 2023-09-19
Anticipated expiration: 2038-12-17
Also published as: CN111339787A

Abstract

本申请涉及计算机视觉技术领域，尤其涉及一种语种识别方法、装置、电子设备及存储介质，其中，该方法包括：获取目标文本图像，其中，所述目标文本图像中携带有目标文本；将所述目标文本图像划分为多个目标文本子图像；根据所述目标文本图像、所述多个目标文本子图像、以及预先训练的语种识别模型，确定与所述目标文本对应的语种。采用上述方案，利用训练出的语种识别模型直接对文本图像进行语种识别，使得识别效率和识别准确率较高，适用性较强。

Description

一种语种识别方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机视觉技术领域，具体而言，涉及一种语种识别方法、装置、电子设备及存储介质。

背景技术

在世界范围内，不同国家的人使用不同种类的语言，相应地，文字也各不相同。因此，在自然场景图像中的文字所属的语种(如中文、英文、阿拉伯文等)也千差万别。为了解决语种和文字之间的障碍，光学文字识别(Optical Character Recognition，OCR)技术应运而生，且得到了广泛的应用。

在相关技术中，当需要识别图像中的文字信息时，通常需要先在图像中确定出文字行，然后使用OCR技术识别文字行中的文字信息。

然而，现有的OCR技术均需要假定文字所属的语种已知，也即，在基于OCR技术进行文字识别时，均需要预先指定待识别文字的语种。因此，当语种未知或指定错误时，OCR的识别效果较差，且通常需要针对不同的语种设计专门的OCR系统，适用性较差。

可见，目前尚缺乏识别图像中的文本语种的方案。

发明内容

有鉴于此，本申请实施例的目的在于提供一种语种识别方法、装置、电子设备及存储介质，能够基于文字图像进行语种识别，识别准确率较高。

主要包括以下几个方面：

第一方面，本申请实施例提供了一种语种识别方法，所述方法包括：

获取目标文本图像，其中，所述目标文本图像中携带有目标文本；

将所述目标文本图像划分为多个目标文本子图像；

根据所述目标文本图像、所述多个目标文本子图像、以及预先训练的语种识别模型，确定与所述目标文本对应的语种。

在一些实施例中，所述预先训练的语种识别模型中的内设参数用于反映所述目标文本图像与各个目标文本子图像之间的已知关联程度。

在一种实施方式中，所述将所述目标文本图像划分为多个目标文本子图像，包括：

将所述目标文本图像按照预设大小依次划分为多个目标文本子图像；

所述根据所述目标文本图像、所述多个目标文本子图像、以及预先训练的语种识别模型，确定与所述目标文本对应的语种，包括：

确定所述目标文本图像对应的图像特征向量；并按照所述多个目标文本子图像划分的逻辑顺序，确定所述多个目标文本子图像对应的文本特征矩阵；

将所述图像特征向量和所述文本特征矩阵，输入至预先训练的语种识别模型中，得到与所述目标文本对应的语种。

在一些实施例中，所述确定所述目标文本图像对应的图像特征向量，包括：

将所述目标文本图像输入至预先训练的图像特征提取模型中，得到所述目标文本图像对应的图像特征向量。

在一些实施例中，可以按照如下步骤训练所述图像特征提取模型：

获取参考文本图像；

确定与所述参考文本图像对应的图像特征向量；

将所述参考文本图像作为待训练的图像特征提取模型的输入，将确定的所述图像特征向量作为待训练的图像特征提取模型的输出，训练得到所述图像特征提取模型。

在一些实施例中，所述确定所述多个目标文本子图像对应的文本特征矩阵，包括：

针对每个目标文本子图像，从该目标文本子图像中提取出目标子文本；

针对每个目标子文本，将该目标子文本输入至预先训练的文本特征提取模型中，得到所述目标子文本对应的文本特征向量；

按照所述多个目标文本子图像划分的逻辑顺序，将多个目标子文本对应的文本特征向量进行组合，得到所述多个目标文本子对应的文本特征矩阵；

将得到的所述多个目标文本子对应的文本特征矩阵，确定为所述多个目标文本子图像对应的文本特征矩阵。

在一些实施例中，可以按照如下步骤训练所述文本特征提取模型：

获取参考子文本；

确定所述参考子文本对应的文本特征向量；

将所述参考子文本作为待训练的文本特征提取模型的输入，将确定的所述文本特征向量作为待训练的文本特征提取模型的输出，训练得到所述文本特征提取模型。

在另一种实施方式中，所述确定与所述目标文本对应的语种，包括：

确定所述目标文本属于多种预设语种中每一种语种的概率，选取对应的概率最大的预设语种作为所述目标文本对应的语种。

在又一种实施方式中，可以按照如下步骤训练所述语种识别模型：

获取参考文本图像集；

针对所述参考文本图像集中的每个参考文本图像，将该参考文本图像划分为多个参考文本子图像，其中，所述参考文本图像中携带有参考文本；

根据所述参考文本图像集中的每个参考文本图像、该参考文本图像划分后的多个参考文本子图像、以及与该参考文本图像中携带的参考文本对应的实际语种，训练得到语种识别模型。

在一些实施例中，所述根据所述参考文本图像集中的每个参考文本图像、该参考文本图像划分后的多个参考文本子图像、以及与该参考文本图像中携带的参考文本对应的实际语种，训练得到语种识别模型，包括：

针对所述参考文本图像集中的每个参考文本图像，确定所述参考文本图像对应的图像特征向量；并按照所述多个参考文本子图像划分的逻辑顺序，确定所述多个参考文本子图像对应的文本特征矩阵；

将所述参考文本图像对应的图像特征向量和所述多个参考文本子图像对应的文本特征矩阵作为待训练的语种识别模型的输入，将与所述参考文本图像中携带的参考文本对应的实际语种作为待训练的语种识别模型的输出，训练得到所述语种识别模型。

在一些实施例中，所述将所述参考文本图像对应的图像特征向量和所述多个参考文本子图像对应的文本特征矩阵作为待训练的语种识别模型的输入，将与所述参考文本图像中携带的参考文本对应的实际语种作为待训练的语种识别模型的输出，训练得到所述语种识别模型，包括：

针对所述参考文本图像集中的每个参考文本图像，将该参考文本图像对应的图像特征向量和该参考文本图像划分后的多个参考文本子图像对应的文本特征矩阵输入至待训练的语种识别模型中，进行至少一轮模型训练，直至模型输出的该参考文本图像中参考文本对应的语种与该参考文本对应的实际语种一致时，停止循环，训练得到所述语种识别模型。

在一些实施例中，可以按照如下步骤进行每轮模型训练：

针对所述参考文本图像集中的每个参考文本图像，将该参考文本图像对应的图像特征向量和该参考文本图像划分后的多个参考文本子图像对应的文本特征矩阵输入至待训练的语种识别模型中，输出该参考文本图像中参考文本对应的语种；

确定输出的该参考文本图像中参考文本对应的语种与该参考文本对应的实际语种是否一致，若不一致，则调整所述语种识别模型中的内设参数，并基于调整后的内设参数进行下一轮模型训练。

第二方面，本申请实施例还提供了一种语种识别装置，所述装置包括：

图像获取模块，用于获取目标文本图像，其中，所述目标文本图像中携带有目标文本；

图像划分模块，用于将所述目标文本图像划分为多个目标文本子图像；

语种识别模块，用于根据所述目标文本图像、所述多个目标文本子图像、以及预先训练的语种识别模型，确定与所述目标文本对应的语种。

在一种实施方式中，所述图像划分模块，具体用于：

所述语种识别模块，具体用于：

在一些实施例中，所述语种识别模块，具体用于：

在一些实施例中，还可以包括图像模型训练模块；

所述图像模型训练模块，用于：

获取参考文本图像；

确定与所述参考文本图像对应的图像特征向量；

在一些实施例中，所述语种识别模块，具体用于：

在一些实施例中，还可以包括文本模型训练模块；

所述文本模型训练模块，用于：

获取参考子文本；

确定所述参考子文本对应的文本特征向量；

在另一种实施方式中，所述语种识别模块，具体用于：

在又一种实施方式中，还可以包括语种模型训练模块；

所述语种模型训练模块，用于：

获取参考文本图像集；

在一些实施例中，所述语种模型训练模块，具体用于：

第三方面，本申请实施例还提供了一种电子设备，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行时执行如第一方面所述的语种识别方法的步骤。

第四方面，本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如第一方面所述的语种识别方法的步骤。

采用上述方案，根据参考文本图像、该参考文本图像划分后的多个参考文本子图像以及与该参考文本图像中携带的参考文本对应的实际语种，预先进行语种识别模型的训练，这样，可以基于预先训练的语种识别模型自动识别与所述目标文本对应的语种。也即，本申请实施例利用训练出的语种识别模型直接对文本图像进行语种识别，使得识别效率和识别准确率较高，适用性较强。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例一所提供的一种语种识别方法的流程图；

图2示出了本申请实施例二所提供的一种语种识别方法的流程图；

图3示出了本申请实施例二所提供的另一种语种识别方法的流程图；

图4示出了本申请实施例二所提供的另一种语种识别方法的流程图；

图5示出了本申请实施例三所提供的一种语种识别方法的流程图；

图6示出了本申请实施例四所提供的一种语种识别装置的结构示意图；

图7示出了本申请实施例五所提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

考虑到相关技术中在基于OCR技术进行文字识别时，均需要预先指定待识别文字的语种。因此，当语种未知或指定错误时，OCR的识别效果较差，且通常需要针对不同的语种设计专门的OCR系统，适用性较差。有鉴于此，本申请实施例提供了一种语种识别方法、装置、电子设备及存储介质，其能够基于文字图像进行语种识别，识别效率和识别准确率较高，适用性较强。下面通过几个实施例进行具体描述。

实施例一

如图1所示，为本申请实施例提供的一种语种识别方法的流程图，该语种识别方法的执行主体可以是电子设备，如私有设备、运营商网络设备 (例如，基站设备)，也可以是一定行业组织、团体和个人部署的站点(Station) 等，具体而言，可以包括但不限于移动台、移动终端、移动电话、用户设备、手机及便携设备(portable equipment)、车辆等，例如，终端设备可以是移动电话(或称为“蜂窝”电话)、具有无线通信功能的计算机等，终端设备还可以是便携式、袖珍式、手持式、计算机内置或者车载移动装置。上述语种识别方法具体包括如下步骤：

S101、获取目标文本图像，其中，所述目标文本图像中携带有目标文本。

这里，考虑到本申请实施例提供的语种识别方法主要应用于自然场景中，在自然场景下获取的原始文本图像可能会携带有与文本不相干的图像内容。为了避免上述与文本不相关的图像内容在后续处理过程中可能会带来的干扰，本申请实施例中的目标文本图像可以是对原始文本图像进行文本识别后，从该原始文本图像中截取的携带有目标文本的目标文本图像，另外，该目标文本图像中携带的目标文本可以作为该目标文本图像的前景，除此之外，该目标文本图像还可以包括背景。

S102、将所述目标文本图像划分为多个目标文本子图像。

这里，考虑到不同的语种，其对应的文本所包含的词与词之间的结构是不同的。如对于包含英文、法文等语种的拉丁语系而言，其词与词之间的一般通过空格实现，这样，针对英文的文字处理可以在单词级别进行识别，再如对于包含中文、泰文等语种的非拉丁语系而言，其词与词之间是没有空格的，这样，可能需要作为一个文字条进行识别。

因此，为了确保各类语种识别的有效性，本申请实施例可以针对目标文本图像进行子图像的划分。本申请实施例中，上述目标文本子图像可以是按照预设大小对目标文本图像进行子图像的划分后得到的，其可以是基于对目标文本图像执行滑窗操作确定的。本申请实施例中，可以按照从左到右，从上到下的滑窗遍历方式确定多个目标文本子图像。

其中，每个目标文本子图像的宽度可以固定，且目标文本子图像的数量与目标文本图像的宽度有关，目标文本图像的宽度越大划分的目标文本子图像的数量越多，目标文本图像的宽度越小划分的目标文本子图像的数量越少。

值得说明的是，为了确保划分得到的所有目标文本子图像能够保留对应的目标文本图像的全部信息，本申请实施例中任意相邻的两个目标文本子图像可以重叠也可以不重叠，仅需确保划分后的所有目标文本子图像重组后能够覆盖整个目标文本图像的内容即可，本申请实施例对此不做具体的限制。另外，在确保划分后的所有目标文本子图像重组后能够覆盖整个目标文本图像的内容下，在目标文本对应的语种不同时，目标文本子图像所包含的目标子文本的数量可以是不同的，也即，可能存在一个目标文本子图像中的内容仅为一个字符或者汉字的部分内容。例如，图像中的一个中文汉字相对一个英文字符而言可能较宽，这样，如果使用同样大小的目标文本子图像可能会导致目标文本子图像中仅包含中文汉字的部分内容，因此，本申请实施例中，可以针对不同语种下的文本进行自适应的划分调整，以进一步确保各类语种识别的准确性。

S103、根据所述目标文本图像、所述多个目标文本子图像、以及预先训练的语种识别模型，确定与所述目标文本对应的语种。

这里，本申请实施例可以在对目标文本图像确定对应的图像特征向量，以及在对多个目标文本子图像确定对应的文本特征矩阵后，将图像特征向量和文本特征向量输入至预先训练的语种识别模型中，以确定与目标文本对应的语种。

其中，上述语种识别模型可以是基于参考文本图像集中的每个参考文本图像、该参考文本图像划分后的多个参考文本子图像、以及与该参考文本图像中携带的参考文本对应的实际语种等预先训练得到的。本申请实施例中，训练语种识别模型的过程即是训练语种识别模型中的内设参数的过程。本申请实施例中学习到的内设参数可以反映所述目标文本图像与各个目标文本子图像之间的已知关联程度，这样，在针对目标文本图像中的目标文本进行语种识别时，不仅考虑到了目标文本图像的全局特征，还充分考虑到了各个目标文本子图像对该目标文本图像的关联信息，也即，可以充分考虑不同语种对应的词与词之间结构的不同，进一步确保了语种识别的准确率。

另外，本申请实施例中的图像特征向量可以用于表征目标文本图像的全局视觉信息，该全局视觉信息可以是包含目标文本的信息，还可以是包含目标文本对应图像背景的信息，还可以是包含图像纹理、颜色等信息，上述文本特征矩阵则可以是按照多个目标文本子图像划分的逻辑顺序，确定的与每个目标文本子图像对应的文本特征向量的组合，可以用于表征局部文本信息，不仅可以包括目标文本子图像对应的目标子文本的信息，还可以是包括多个目标子文本的上下文信息。

值得提出的是，本申请实施例提供的语种识别模型可以是一个多分类模型，也即，针对目标文本图像中的目标文本而言，可以确定该目标文本属于多种预设语种中每一种语种的概率，这样，可以将概率最大的预设语种作为所述目标文本对应的语种。

基于上述描述可知，针对目标文本图像对应的图像特征向量的确定，以及针对多个目标文本子图像对应的文本特征矩阵的确定是本申请实施例提供的语种识别方法的关键步骤，接下来结合如下实施例二进行具体说明。

实施例二

第一方面：本申请实施例中，可以将目标文本图像输入至预先训练的图像特征提取模型中，以得到目标文本图像对应的图像特征向量。

如图2所示，上述图像特征提取模型的训练过程具体包括如下步骤：

S201、获取参考文本图像；

S202、确定与所述参考文本图像对应的图像特征向量；

S203、将所述参考文本图像作为待训练的图像特征提取模型的输入，将确定的所述图像特征向量作为待训练的图像特征提取模型的输出，训练得到所述图像特征提取模型。

这里，本申请实施例可以首先获取参考文本图像，然后确定与该参考文本图像对应的图像特征向量，最后将参考文本图像和确定的图像特征向量分别作为待训练的图像特征提取模型的输入和输出，以训练得到上述图像特征提取模型。

其中，上述参考文本图像可以有多个，且多个参考文本图像可以构成一个参考文本图像集，这样，在进行模型训练的过程中，可以依次将参考文本图像集中每个参考文本图像作为模型的输入，将对应的图像特征向量作为输出进行至少一轮模型训练，直至在模型输出的图像特征向量与确定的图像特征向量之间的向量相似度符合预设要求时，训练得到图像特征提取模型。

可见，上述图像特征提取模型可以将一个文本图像映射为一个图像特征向量，且该图像特征向量可以表征上述文本图像的全局视觉信息。本申请实施例可以采用卷积神经网络(Convolutional Neural Networks,CNN)进行图像特征提取模型的训练。也即，本申请实施例采用CNN网络通过反复迭代的学习，逐渐掌握了各种基础知识，并最终学习到如何根据一个文本图像得到一个符合要求的图像特征向量。

第二方面：本申请实施例可以确定多个目标文本子图像对应的文本特征矩阵，如图3所示，上述文本特征矩阵的确定过程包括如下步骤：

S301、针对每个目标文本子图像，从该目标文本子图像中提取出目标子文本；

S302、针对每个目标子文本，将该目标子文本输入至预先训练的文本特征提取模型中，得到所述目标子文本对应的文本特征向量；

S303、按照所述多个目标文本子图像划分的逻辑顺序，将多个目标子文本对应的文本特征向量进行组合，得到所述多个目标文本子对应的文本特征矩阵；

S304、将得到的所述多个目标文本子对应的文本特征矩阵，确定为所述多个目标文本子图像对应的文本特征矩阵。

这里，本申请实施例可以首先基于光学字符识别(Optical CharacterRecognition，OCR)技术从目标文本子图像中提取出目标子文本，然后将该目标子文本输入至预先训练的文本特征提取模型中，以得到所述目标子文本对应的文本特征向量，这样，在按照多个目标文本子图像划分的逻辑顺序，将多个目标子文本对应的文本特征向量进行组合后，并可以得到多个目标文本子图像对应的文本特征矩阵。

如图4所示，上述文本特征提取模型可以根据如下步骤实现：

S401、获取参考子文本；

S402、确定所述参考子文本对应的文本特征向量；

S403、将所述参考子文本作为待训练的文本特征提取模型的输入，将确定的所述文本特征向量作为待训练的文本特征提取模型的输出，训练得到所述文本特征提取模型。

这里，参考子文本可以是从参考文本子图像中提取出的文本信息，且该参考文本子图像可以是参考文本图像按照预设大小划分得到的。这样，本申请实施例提训练得到的文本特征提取模型能够采用一个语义向量(即文本特征向量)来表示一个参考子文本。这样，在确定目标子文本之后，便可以基于数学化的方法，如word2vec，将作为自然语言的目标子文本转化为向量形式的数字信息，以便于机器识别。

本申请实施例中，可以采用基于一次性表示(One-hot Representation) 的向量表示模型来进行文本特征提取模型的训练，还可以基于分布式表示(DistributedRepresentation)的向量表示模型来进行文本特征提取模型的训练，还可以是基于其他向量表示模型进行训练。

其中，前一种向量表示模型可以用一个较长的向量来表示一个词(即子文本)，向量长度为词典的词量大小N，每个向量只有一个维度为1，其余维度全部为0，为1的位置表示该词在词典中的位置。也即，前一种向量表示模型是采用稀疏方式存储词信息，也就是给每个参考子文本分配一个数字标识，表示形式相对简洁。后一种向量表示模型则需要根据上下文信息进行语义表示，也即，后一种向量表示模型是采用稠密方式存储词信息，表示形式相对复杂。考虑到前一种基于One-hot Representation的向量表示模型在解决实际问题时可能会遇到维数灾难，且无法揭示文本之间的潜在联系，在具体实施中可以采用后一种基于Distributed Representation的向量表示模型对目标子文本进行向量表示，不但避免维数灾难问题，并且挖掘了词汇之间的关联属性，从而提高了语义表达的准确度。

本申请实施例在基于文本特征提取模型得到目标子文本对应的文本特征向量后，便可以进行向量组合，以得到与多个目标文本子图像对应的文本特征矩阵。

例如，在确定一个目标文本子图像对应的文本特征向量是一个多维(如 300维)的向量后，对于一个包括N个目标文本子图像的目标文本图像而言，其对应的文本特征矩阵则是300*N维。其中，N与目标文本子图像的长宽成正比。

实施例三

如图5所示，本申请实施例四提供了一种语种识别模型的训练方法，具体包括如下步骤：

S501、获取参考文本图像集；

S502、针对所述参考文本图像集中的每个参考文本图像，将该参考文本图像划分为多个参考文本子图像，其中，所述参考文本图像中携带有参考文本；

S503、根据所述参考文本图像集中的每个参考文本图像、该参考文本图像划分后的多个参考文本子图像、以及与该参考文本图像中携带的参考文本对应的实际语种，训练得到语种识别模型。

这里，与目标文本图像的划分类似的是，在进行语种识别模型的训练之前，本申请实施例可以针对获取得到的参考文本图像集中的每个参考文本图像，也可以对该参考文本图像进行子图像的划分。这样，在确定参考文本图像对应的图像特征向量，并按照多个参考文本子图像划分的逻辑顺序，确定多个参考文本子图像对应的文本特征矩阵后，便可以将所述参考文本图像对应的图像特征向量和所述多个参考文本子图像对应的文本特征矩阵作为待训练的语种识别模型的输入，将与所述参考文本图像中携带的参考文本对应的实际语种作为待训练的语种识别模型的输出，以训练得到上述语种识别模型。

其中，本申请实施例中，有关语种识别模型训练的过程即是训练该语种识别模型的内设参数的过程，此外，本申请实施例进行语种识别模型训练的过程是一个循环过程，且需要经过至少一轮模型训练才能够得到上述语种识别模型，在模型输出的该参考文本图像中参考文本对应的语种与该参考文本对应的实际语种一致或者是达到模型的预设收敛次数后，停止训练。

其中，在进行每轮模型训练的过程中，本申请实施例可以首先针对所述参考文本图像集中的每个参考文本图像，将该参考文本图像对应的图像特征向量和该参考文本图像划分后的多个参考文本子图像对应的文本特征矩阵输入至待训练的语种识别模型中，输出该参考文本图像中参考文本对应的语种，然后确定输出的该参考文本图像中参考文本对应的语种与该参考文本对应的实际语种是否一致，在确定不一致时，可以调整所述语种识别模型中的内设参数，并基于调整后的内设参数进行下一轮模型训练，如此循环直至达到预设收敛条件(如模型输出的语种与实际语种一致或训练次数达到预设收敛次数)时，得到上述语种识别模型。

另外，本申请实施例在进行内设参数确定的过程中，主要是考虑到了文本图像与该文本图像对应各个文本子图像之间的关联程度，也即，增加了语义注意力机制。本申请实施例中，可以利用得到的参考文本图像对应的图像特征向量选择性的关注多个参考文本子图像对应的文本特征矩阵所对应的语义信息。这里，可以按照如下公式确定任一参考文本子图像与参考文本图像之间的关联程度w_i。

其中，是在考虑上述关联程度的前提下学习得到的参数矩阵，f_v用于表征任一参考文本图像对应的图像特征向量，f_ti用于表征该参考文本图像划分后的多个参考文本子图像对应的文本特征矩阵，若图像特征向量为 1*1000的向量，f_ti为300*N的向量矩阵，则/>可以为一个1000*300维的参数矩阵。

这样，融合了上述注意力机制的有关参考文本图像的全局特征f_a可以表示为：

在具体实施时，将上述全局特征f_a输入至语种识别模型的softmax层后，便可以得到当前轮模型训练输出的参考文本属于多种预设语种中每一种语种的概率，并将概率最大的语种作为当前轮模型训练输出的语种，将该语种与参考文本对应的实际语种进行一致性比对，若比对不成功，则更新上述内设参数并进行下一轮模型训练，直至比对成功，训练得到语种识别模型。

例如，本申请实施例中的预设语种有10类，这样，每轮输出将可以是一个1*10的向量，如(0.1,0.2,...,0.9)等)代表参考文本属于各预设语种的概率，取最大值即为该轮模型训练输出的语种。另外，上述参考文本对应的实际语种可以采用标签标记的方式进行确定。

值得说明的是，本申请实施例中有关图像特征提取模型、文本特征提取模型以及语种识别模型的训练过程可以是作为一个整体的语种分类系统训练生成的，还可以是单独训练生成，但可以基于模型之间的相互耦合关系实现模型关联。

实施例四

基于同一发明构思，本申请实施例中还提供了与语种识别方法对应的语种识别装置，由于本申请实施例中的装置解决问题的原理与本申请实施例上述语种识别方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

如图6所示，为本申请实施例所提供的语种识别装置示意图，该语种识别装置包括：

图像获取模块601，用于获取目标文本图像，其中，所述目标文本图像中携带有目标文本；

图像划分模块602，用于将所述目标文本图像划分为多个目标文本子图像；

语种识别模块603，用于根据所述目标文本图像、所述多个目标文本子图像、以及预先训练的语种识别模型，确定与所述目标文本对应的语种。

在一种实施方式中，所述图像划分模块602，具体用于：

所述语种识别模块603，具体用于：

在一些实施例中，所述语种识别模块603，具体用于：

在一些实施例中，还可以包括图像模型训练模块604；

所述图像模型训练模块604，用于：

获取参考文本图像；

确定与所述参考文本图像对应的图像特征向量；

在一些实施例中，所述语种识别模块603，具体用于：

在一些实施例中，还可以包括文本模型训练模块605；

所述文本模型训练模块605，用于：

获取参考子文本；

确定所述参考子文本对应的文本特征向量；

在另一种实施方式中，所述语种识别模块603，具体用于：

在又一种实施方式中，还可以包括语种模型训练模块606；

所述语种模型训练模块606，用于：

获取参考文本图像集；

在一些实施例中，所述语种模型训练模块606，具体用于：

实施例五

如图7所示，为本申请实施例五所提供的一种电子设备的结构示意图，包括：处理器701、存储介质702和总线703，所述存储介质702存储有所述处理器701可执行的机器可读指令，当电子设备运行时，所述处理与所述存储介质702之间通过总线703通信，所述机器可读指令被所述处理器701执行时执行如下处理：

将所述目标文本图像划分为多个目标文本子图像；

在一些实施例中，上述处理器701执行的处理中，所述预先训练的语种识别模型中的内设参数用于反映所述目标文本图像与各个目标文本子图像之间的已知关联程度。

在一种实施方式中，上述处理器701执行的处理中，所述将所述目标文本图像划分为多个目标文本子图像，包括：

上述处理器701执行的处理中，所述根据所述目标文本图像、所述多个目标文本子图像、以及预先训练的语种识别模型，确定与所述目标文本对应的语种，包括：

在一些实施例中，上述处理器701执行的处理中，所述确定所述目标文本图像对应的图像特征向量，包括：

在一些实施例中，上述处理器701执行的处理中，可以按照如下步骤训练所述图像特征提取模型：

获取参考文本图像；

确定与所述参考文本图像对应的图像特征向量；

在一些实施例中，上述处理器701执行的处理中，所述确定所述多个目标文本子图像对应的文本特征矩阵，包括：

在一些实施例中，上述处理器701执行的处理中，可以按照如下步骤训练所述文本特征提取模型：

获取参考子文本；

确定所述参考子文本对应的文本特征向量；

在另一种实施方式中，上述处理器701执行的处理中，所述确定与所述目标文本对应的语种，包括：

在又一种实施方式中，上述处理器701执行的处理中，可以按照如下步骤训练所述语种识别模型：

获取参考文本图像集；

在一些实施例中，上述处理器701执行的处理中，所述根据所述参考文本图像集中的每个参考文本图像、该参考文本图像划分后的多个参考文本子图像、以及与该参考文本图像中携带的参考文本对应的实际语种，训练得到语种识别模型，包括：

在一些实施例中，上述处理器701执行的处理中，所述将所述参考文本图像对应的图像特征向量和所述多个参考文本子图像对应的文本特征矩阵作为待训练的语种识别模型的输入，将与所述参考文本图像中携带的参考文本对应的实际语种作为待训练的语种识别模型的输出，训练得到所述语种识别模型，包括：

在一些实施例中，上述处理器701执行的处理中，可以按照如下步骤进行每轮模型训练：

实施例六

本申请实施例六还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器701运行时执行上述实施例所对应的语种识别方法的步骤。

具体地，该存储介质能够为通用的存储介质，如移动磁盘、硬盘等，该存储介质上的计算机程序被运行时，能够执行上述语种识别方法，从而解决目前识别效果和适应性均较差的问题，达到基于文字图像进行语种识别，使得识别效率和识别准确率较高，适用性更较强的效果。

基于相同的技术构思，本申请实施例还提供了一种计算机程序产品，包括存储了程序代码的计算机可读存储介质，程序代码包括的指令可用于执行上述语种识别方法的步骤，具体实现可参见上述方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考方法实施例中的对应过程，本申请中不再赘述。在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、 RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种语种识别方法，其特征在于，所述方法包括：

将所述目标文本图像划分为多个目标文本子图像；

根据所述目标文本图像、所述多个目标文本子图像、以及预先训练的语种识别模型，确定与所述目标文本对应的语种；

其中，按照如下步骤训练所述语种识别模型：

获取参考文本图像集；

2.根据权利要求1所述的方法，其特征在于，所述预先训练的语种识别模型中的内设参数用于反映所述目标文本图像与各个目标文本子图像之间的已知关联程度。

3.根据权利要求1所述的方法，其特征在于，所述将所述目标文本图像划分为多个目标文本子图像，包括：

4.根据权利要求3所述的方法，其特征在于，所述确定所述目标文本图像对应的图像特征向量，包括：

5.根据权利要求4所述的方法，其特征在于，按照如下步骤训练所述图像特征提取模型：

获取参考文本图像；

确定与所述参考文本图像对应的图像特征向量；

6.根据权利要求3所述的方法，其特征在于，所述确定所述多个目标文本子图像对应的文本特征矩阵，包括：

7.根据权利要求6所述的方法，其特征在于，按照如下步骤训练所述文本特征提取模型：

获取参考子文本；

确定所述参考子文本对应的文本特征向量；

8.根据权利要求1所述的方法，其特征在于，所述确定与所述目标文本对应的语种，包括：

9.根据权利要求1所述的方法，其特征在于，所述将所述参考文本图像对应的图像特征向量和所述多个参考文本子图像对应的文本特征矩阵作为待训练的语种识别模型的输入，将与所述参考文本图像中携带的参考文本对应的实际语种作为待训练的语种识别模型的输出，训练得到所述语种识别模型，包括：

10.根据权利要求9所述的方法，其特征在于，按照如下步骤进行每轮模型训练：

11.一种语种识别装置，其特征在于，所述装置包括：

语种识别模块，用于根据所述目标文本图像、所述多个目标文本子图像、以及预先训练的语种识别模型，确定与所述目标文本对应的语种；

其中，所述装置还包括语种模型训练模块；

所述语种模型训练模块，用于：

获取参考文本图像集；

12.根据权利要求11所述的装置，其特征在于，所述预先训练的语种识别模型中的内设参数用于反映所述目标文本图像与各个目标文本子图像之间的已知关联程度。

13.根据权利要求11所述的装置，其特征在于，所述图像划分模块，具体用于：

所述语种识别模块，具体用于：

14.根据权利要求13所述的装置，其特征在于，所述语种识别模块，具体用于：

15.根据权利要求14所述的装置，其特征在于，还包括图像模型训练模块；

所述图像模型训练模块，用于：

获取参考文本图像；

确定与所述参考文本图像对应的图像特征向量；

16.根据权利要求13所述的装置，其特征在于，所述语种识别模块，具体用于：

17.根据权利要求16所述的装置，其特征在于，还包括文本模型训练模块；

所述文本模型训练模块，用于：

获取参考子文本；

确定所述参考子文本对应的文本特征向量；

18.根据权利要求11所述的装置，其特征在于，所述语种识别模块，具体用于：

19.根据权利要求11所述的装置，其特征在于，所述语种模型训练模块，具体用于：

20.根据权利要求19所述的装置，其特征在于，所述语种模型训练模块，具体用于：

21.一种电子设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行时执行如权利要求1至10任一所述的语种识别方法的步骤。

22.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至10任一所述的语种识别方法的步骤。