CN113468979A

CN113468979A - 文本行语种识别方法、装置、电子设备

Info

Publication number: CN113468979A
Application number: CN202110650294.2A
Authority: CN
Inventors: 黄荔; 刘正珍
Original assignee: Hanwang Technology Co Ltd
Current assignee: Hanwang Technology Co Ltd
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2021-10-01

Abstract

本申请公开了一种文本行语种识别方法，属于计算机视觉技术领域，有助于提升图像中文本行语种识别的准确度。所述方法包括：通过预设深度学习网络的特征提取模块，对目标文本图像进行特征提取和融合处理，得到第一向量表示；通过该网络的第一分类模块对第一向量表示进行二分类映射，确定目标文本图像的二类别概率预测图；基于二类别概率预测图，通过该网络的注意力模块对第一向量表示中对应前景像素点的向量进行加权处理，得到第二向量表示；通过该网络的第二分类模块对第二向量表示进行多分类映射，确定多类别概率预测图；根据多类别概率预测图，确定目标文本图像中匹配各预设语种的文本行的位置信息，提升了图像中文本行及语种识别准确度。

Description

文本行语种识别方法、装置、电子设备

技术领域

本申请实施例涉及计算机视觉技术领域，特别是涉及一种文本行语种识别方法、装置、电子设备及计算机可读存储介质。

背景技术

光学字符识别(OCR)是目前计算机视觉领域的研究热点之一。随着OCR技术应用场景的拓展，待检测图像上通常包含多个语种的文本。对于多语种的文本的识别，不仅需要定位图像上的文本行位置，还需要获取对应文本行的语种，只有获取了文本行的位置和语种后才能对其进行文本识别，将文本图像转换为文字信息。现有技术中通常将文本行检测和语种识别作为两个独立的任务，分为两个阶段进行处理。第一阶段为通用的文本行检测；第二阶段则根据检测到的文本行位置，裁剪出对应的文本行图像并对其进行语种识别。当基于深度学习方法进行文本行检测和语种识别时，现有技术中采用独立的两个模型分别进行文本行检测和语种识别，容易导致误差积累，文本行检测的误差会影响到语种识别的准确性，从而降低语种识别的准确度，且增加计算量。

可见，现有技术中的文本图像语种识别方法还需要改进。

发明内容

本申请实施例提供一种文本行语种识别方法，有助于提升图像中文本行语种识别算法的准确度，降低计算量。

第一方面，本申请实施例提供了一种文本行语种识别方法，包括：

通过预设深度学习网络的特征提取模块，对目标文本图像进行特征提取和融合处理，得到所述目标文本图像的第一向量表示；

通过所述深度学习网络的第一分类模块对所述第一向量表示进行二分类映射，确定所述目标文本图像的二类别概率预测图，其中，所述二类别概率预测图用于指示所述目标文本图像中各像素点属于前景像素点的概率；

基于所述二类别概率预测图，通过所述深度学习网络的注意力模块对所述第一向量表示进行加权处理，得到第二向量表示；

通过所述深度学习网络的第二分类模块对所述第二向量表示进行多分类映射，确定所述目标文本图像的多类别概率预测图；其中，所述多类别概率预测图用于指示所述目标文本图像中各像素点匹配预设文本属性类别的概率值，所述预设文本属性类别包括：背景、各预设语种；

根据所述多类别概率预测图指示的所述目标文本图像中各像素点匹配预设文本属性类别的概率值，确定所述目标文本图像中匹配各所述预设语种的文本行的位置信息。

第二方面，本申请实施例提供了一种文本行语种识别装置，包括：

特征提取模块，用于通过预设深度学习网络的特征提取模块，对目标文本图像进行特征提取和融合处理，得到所述目标文本图像的第一向量表示；

前景背景预测模块，用于通过所述深度学习网络的第一分类模块对所述第一向量表示进行二分类映射，确定所述目标文本图像的二类别概率预测图，其中，所述二类别概率预测图用于指示所述目标文本图像中各像素点属于前景像素点的概率；

特征加权处理模块，用于基于所述二类别概率预测图，通过所述深度学习网络的注意力模块对所述第一向量表示进行加权处理，得到第二向量表示；

多类别预测模块，用于通过所述深度学习网络的第二分类模块对所述第二向量表示进行多分类映射，确定所述目标文本图像的多类别概率预测图；其中，所述多类别概率预测图用于指示所述目标文本图像中各像素点匹配预设文本属性类别的概率值，所述预设文本属性类别包括：背景、各预设语种；

文本行位置及语种确定模块，用于根据所述多类别概率预测图指示的所述目标文本图像中各像素点匹配预设文本属性类别的概率值，确定所述目标文本图像中匹配各所述预设语种的文本行的位置信息。

第三方面，本申请实施例还公开了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本申请实施例所述的文本行语种识别方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时本申请实施例公开的文本行语种识别方法的步骤。

本申请实施例公开的文本行语种识别方法，通过预设深度学习网络的特征提取模块，对目标文本图像进行特征提取和融合处理，得到所述目标文本图像的第一向量表示；通过所述深度学习网络的第一分类模块对所述第一向量表示进行二分类映射，确定所述目标文本图像的二类别概率预测图，其中，所述二类别概率预测图用于指示所述目标文本图像中各像素点属于前景像素点的概率；基于所述二类别概率预测图，通过所述深度学习网络的注意力模块对所述第一向量表示进行加权处理，得到第二向量表示；通过所述深度学习网络的第二分类模块对所述第二向量表示进行多分类映射，确定所述目标文本图像的多类别概率预测图；其中，所述多类别概率预测图用于指示所述目标文本图像中各像素点匹配预设文本属性类别的概率值，所述预设文本属性类别包括：背景、各预设语种；根据所述多类别概率预测图指示的所述目标文本图像中各像素点匹配预设文本属性类别的概率值，确定所述目标文本图像中匹配各所述预设语种的文本行的位置信息，有效提升了图像中文本行语种识别算法的准确度，降低计算量。

本申请实施例公开的文本行语种识别方法，通过一个深度学习网络同时完成文本行检测和语种识别两个任务，同时得到文本行的位置和对应的语种。利用深度学习网络的一个分支网络结构对输入图像进行文本行检测，并利用二类别预测图对第一向量表示进行特征强化，利用深度学习网络的另外一个分支网络结构，基于强化后的特征对输入图像进行多语种和背景的多类别概率预测，上述方法提升了文本行检测和语种识别的准确度。并且，在训练阶段，只需要用一个训练数据集对一个深度学习网络进行训练，便能同时完成文本行检测和语种识别的任务，同时得到文本行位置和对应的语种检测结果，大幅降低了训练过程的时间成本和维护成本。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1是本申请实施例一的文本行语种识别方法流程图；

图2是本申请实施例一的目标文本图像中文本行示意图；

图3是本申请实施例一中的深度学习网络结构示意图之一；

图4是本申请实施例一中的深度学习网络结构示意图之二；

图5是本申请实施例一中的深度学习网络结构示意图之三；

图6是本申请实施例二的文本行语种识别装置结构示意图之一；

图7是本申请实施例二的文本行语种识别装置结构示意图之二。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例一

本申请实施例公开的一种文本行语种识别方法，如图1所示，所述方法包括：步骤110至步骤150。

步骤110，通过预设深度学习网络的特征提取模块，对目标文本图像进行特征提取和融合处理，得到所述目标文本图像的第一向量表示。

本申请实施例中，所述目标文本图像至少包括扫描文档图像(如文档中的文本图像)和自然场景图像(如自然场景中的文本图像)，扫描文档图像和自然场景图像可以为规则文本图像和不规则文本图像，如文本图像中存在的横向或纵向等规则文本，及弯曲型、倾斜型等不规则文本。

本申请实施例中，所述的文本行的位置信息为基于像素点坐标表示的文本行在文本图像中的位置信息，例如，文本行的左上角像素点在所述目标文本图像中的像素位置和文本行的像素长度及像素宽度所表示的位置信息。在一个实施例中，通过文本行的位置信息中的像素点、像素长度和像素宽度可以确定文本图像中的一个矩形区域。本申请实施例中，每个文本行对应一个语种，通过预设深度学习网络识别目标文本图像中包括的一个或多个文本行的位置和匹配的语种。

以图2中所示的目标文本图像为例，所述目标文本图像中包括：文本行220、文本行2101至2105,通过预设深度学习网络对图2中所示的目标文本图像进行识别之后，将得到文本行220、文本行2101至2105中每个文本行的位置信息，以及，得到文本行220、文本行2101至2105匹配的预设语种。例如，可以得到中文文本行220、2101、2103和2105的位置信息，以及英文文本行2102和2104的位置信息。其中，各个文本行的位置信息可以通过该文本行的左上角像素点在所述目标文本图像中的像素位置和文本行的像素宽度和像素高度，表示为一个矩形区域，该矩形区域即为文本行对应的图像区域。

下面结合所述深度学习网络的结构，对确定目标文本图像中文本行的位置信息和语种的具体方案进行描述。本申请实施例中，用于进行文本行识别的所述深度学习网络采用如图3所示的网络结构，其中，深度学习网络包括特征提取模块310、第一分类模块320、第二分类模块330和注意力模块340。

所述特征提取模块310用于对输入图像(如目标文本图像)进行特征提取和特征融合，本申请的一些实施例中，如图3所示，所述特征提取模块310进一步可以包括：特征提取子模块3101和特征融合子模块3102。其中，所述特征提取子模块3101用于提取输入图像(如目标文本图像)的多个不同层级的特征，所述特征提取子模块3101可以使用包括resnet、densenet、mobilenet等常见网络结构，但不局限于这些网络结构。所述特征融合子模块3102用于对所述特征提取子模块3101提取得到的分层特征进行融合，特征融合子模块3102可以采用现有技术中常用的特征融合模块，如特征金字塔网络FPN等，但不局限于FPN网络。对于一幅输入图像，特征提取子模块3101提取的该输入图像的不同层级的特征通常指该输入图像的不同分辨率的特征图，低分辨率的特征图是输入图像的高层次特征，高分辨率的特征图是输入图像的低层次特征。以使用卷积神经网络(例如Resnet)提取输入图像四个层级的特征图为例，所述特征提取子模块3101将能够得到输入图像的1/4，1/8，1/16，1/32大小的特征图。特征融合子模块3102将得到的输入图像的1/4，1/8，1/16，1/32大小的特征图进行融合，得到输入图像的1/4大小的特征图作为输入图像的第一向量表示。

步骤120，通过所述深度学习网络的第一分类模块对所述第一向量表示进行二分类映射，确定所述目标文本图像的二类别概率预测图。

其中，所述二类别概率预测图用于指示所述目标文本图像中各像素点属于前景像素点的概率。

本申请的一些实施例中，第一分类模块320可以采用通用的卷积神经网络结构，例如，采用包括卷积层、批归一化层、激活层和转置卷积层的卷积神经网络。第一分类模块对所述第一向量表示进行二分类映射，确定输入图像(如目标文本图像)的二类别概率预测图。本申请的一些实施例中，所述二类别概率预测图的各像素点的像素值为输入图像的相应像素点作为前景像素点的概率值，例如，所述二类别概率预测图的各像素点的像素值为0至1之间的数值。

步骤130，基于所述二类别概率预测图，通过所述深度学习网络的注意力模块对所述第一向量表示进行加权处理，得到第二向量表示。

本申请的一些实施例中，所述基于所述二类别概率预测图，通过所述深度学习网络的注意力模块对所述第一向量表示进行加权处理，得到第二向量表示，包括以下两种方案。

第一种，以所述二类别概率预测图的各像素点的像素值为权重，通过所述注意力模块对所述第一向量表示进行空间加权处理，得到第二向量表示。例如，所述注意力模块340中包括基于空间注意力机制构建的空间注意力子模块，所述空间注意力子模块以所述第一分类模块320输出的二类别概率预测图中各像素点的像素值为权重，将二类别概率预测图中各像素点的像素值与所述特征提取模块310输出的第一向量表示进行逐像素相乘，将相乘后得到的结果作为第二向量表示。在二类别概率预测图中，文本行区域像素点的像素值会比较高，非文本行区域(即背景区域)像素点的像素值会比较低，因此，二类别概率预测图中各像素点的像素值与第一向量表示相乘之后得到第二向量表示，在这个运算过程中，第一向量表示中文本行区域的特征(即向量表示)会得到突出，非文本行区域的特征会被抑制，在第二分类模块330基于第二向量表示进行多类别概率预测时，有利于提升第二分类模块330输出更精确的多类别概率预测图。

第二种，以所述二类别概率预测图的各像素点的像素值为权重，通过所述注意力模块对所述第一向量表示进行空间加权处理；之后，将进行空间加权处理得到的特征图输入至所述注意力模块，计算各通道对应的权重，再以计算得到的权重对所述特征图进行通道加权处理，得到第二向量表示。例如，所述注意力模块340中包括：基于空间注意力机制构建的空间注意力子模块和基于通道注意力机制构建的通道注意力子模块，首先，可以通过空间注意力子模块以所述第一分类模块320输出的二类别概率预测图中各像素点的像素值为权重，将二类别概率预测图中各像素点的像素值与所述特征提取模块310输出的第一向量表示进行逐像素相乘；然后，将逐像素相乘后得到的结果(即特征图)输入到通道注意力子模块，计算通道注意力子模块中各通道的权重；并以计算得到的通道权重对逐像素相乘后得到的结果进一步进行加权处理，将最终结果作为第二向量表示。

本申请的一些实施例中，通道注意力子模块可以采用SE-inseption模型结构。以进行所述空间加权处理后得到的向量表示为640x640x3维的向量举例，如果计算得到的通道权重为[0.5,0.3,0.2]，则说明对应第一个通道(如第一层特征)的向量重要性最高，对应第三个通道(如第三层特征)的向量重要性最低，将各通道的权重与所述空间加权处理后得到的各通道的向量表示相乘，得到新的向量表示作为第二向量表示。

SE-inseption模型结构的具体结构参见现有技术，本实施例中不再赘述。通过对基于空间注意力机制加权处理后的向量表示，进一步基于通道注意力机制进行加权处理得到的第二向量表示，在通道方向上突出权重高的特征表达，在第二分类模块330基于第二向量表示进行多类别概率预测时，可以进一步提升第二分类模块330输出多类别概率预测图的精确度。

步骤140，通过所述深度学习网络的第二分类模块对所述第二向量表示进行多分类映射，确定所述目标文本图像的多类别概率预测图。

其中，所述多类别概率预测图用于指示所述目标文本图像中各像素点匹配预设文本属性类别的概率值，所述预设文本属性类别包括：背景、各预设语种。

本申请实施例中所述的预设文本属性类别，根据待检测的文本行语种类别确定，预设文本属性类别的数量为待检测的文本行语种类别+1。例如，当待检测的文本行语种类别包括中文和英文两种语种时，所述预设文本属性类别的数量为3，所述预设文本属性类别分别用于指示目标文本图像中某一像素点为背景像素点或者为中文像素点或者为英文像素点。本申请的一些实施例中，第二分类模块330可以采用通用的卷积神经网络结构，例如，采用包括卷积层、批归一化层、激活层和转置卷积层的卷积神经网络。

本申请的一些实施例中，以对中文和英文两种语种进行预测为例，多类别概率预测图可以表示为大小为H×W×C的多通道特征图(即多通道向量表示)，其中，H和W分别代表多类别概率预测图的高和宽，C代表特征图的深度，C等于3。其中，每个通道数据指示目标文本图像中各像素点属于一指定预设文本属性类别的概率值。例如，所述多类别概率预测图的各像素点的像素值可以通过多通道向量表示。例如，多类别概率预测图的各像素点的像素值可以表示为(p1,p2,…,pn)，其中，p1+p2+…+pn＝1，p1、p2至pn-1用于指示该像素点对应语种的概率值，pn用于指示该像素点为背景像素点的概率值。

步骤150，根据所述多类别概率预测图指示的所述目标文本图像中各像素点匹配预设文本属性类别的概率值，确定所述目标文本图像中匹配各所述预设语种的文本行的位置信息。

本申请的一些实施例中，所述多类别概率预测图中每个通道数据分别指示所述目标文本图像中各像素点匹配相应预设文本属性类别的概率值，所述根据所述多类别概率预测图指示的所述目标文本图像中各像素点匹配预设文本属性类别的概率值，确定所述目标文本图像中匹配各所述预设语种的文本行的位置信息，包括：根据所述多类别概率预测图中各通道数据指示的所述概率值，分别确定所述目标文本图像中各像素点匹配的预设文本属性类别；根据所述目标文本图像中各像素点匹配的预设文本属性类别，确定一多通道二值图，其中，所述多通道二值图中每个通道数据分别指示所述目标文本图像中一种所述预设文本属性类别的像素点的位置信息；根据所述多通道二值图中每个通道数据，分别确定所述目标文本图像中匹配各所述预设语种的文本行的位置信息。

以多通道特征图的各像素点的像素值可以表示为(p1,p2,p3)三个通道数据为例，若p1表示该像素点对应的输入图像中相应像素点匹配中文像素点的概率，p2表示该像素点对应的输入图像中相应像素点匹配英文像素点的概率，p3表示该像素点对应的输入图像中相应像素点匹配背景像素点的概率，对于每个像素点，可以根据该像素点的上述三个通道数据中指示的概率值的大小关系，确定该像素点匹配的预设文本属性类别为中文、英文或背景。

本申请的一些实施例中，所述根据所述多类别概率预测图中各通道数据指示的所述概率值，分别确定所述目标文本图像中各像素点匹配的预设文本属性类别，包括：对于所述目标文本图像中每个像素点，确定所述像素点对应的各通道数据指示的所述概率值中的最大概率值，并将最大概率值所在通道对应的预设文本属性类别，作为所述像素点匹配的预设文本属性类别。仍以所述多类别概率预测图中各像素点的多通道数据标识为(p1,p2,p3)为例，假设多类别概率预测图中某个像素点的像素值为(0.6,0.3,0.1)即p1＝0.6，p2＝0.3，p3＝0.1，p1最大，因此将p1所对应的语种类别判定为此像素点的语种类别，则该像素点对应的语种类别为中文。

确定了目标文本图像中每个像素点匹配的文本属性类别之后，进一步根据所述目标文本图像中各像素点匹配的预设文本属性类别，确定一多通道二值图。以前述目标文本图像中的文本属性类别识别结果为例，可以确定目标文本图像对应的一个三通道二值图，其中，第一个通道的二值图指示目标文本图像中中文像素点的位置信息，第二个通道的二值图指示目标文本图像中英文像素点的位置信息，第三个通道的二值图指示目标文本图像中背景像素点的位置信息。

本申请的一些实施例中，以上述步骤得到的二值图中像素点的每个通道的像素值表示为1或0为例，可以采用如下方法根据所述目标文本图像中各像素点匹配的预设文本属性类别，确定多通道二值图：对于所述目标文本图像中的某一像素点，如果该像素点匹配的文本属性类别为中文，则将二值图中对应该像素点的第一个通道的像素值设置为1，而将第二个通道和第三个通道像素值设置为0；如果该像素点匹配的文本属性类别为英文，则将二值图中对应该像素点的第二个通道的像素值设置为1，而将第一个通道和第三个通道的像素值设置为0；如果该像素点匹配的文本属性类别为背景，则将二值图中对应该像素点的第三个通道的像素值设置为1，而将第一个通道和第二个通道的像素值设置为0。

按照此方法，可以得到一个三通道的二值图，该二值图中每个像素点的像素值包括三个通道的取值，三个通道的取值中包括一个1和两个0。由以上二值图的生成方法可以得出，二值图中每个通道的数据，分别表示了目标文本图像中与该通道对应的文本属性类别的像素点的位置信息。例如，当二值图第一个通道数据中对应第I行第J列像素点的像素值为1时，说明目标文本图像的第I行第J列像素点为中文像素点；当二值图第二个通道数据中对应第I行第J+10列像素点的像素值为1时，说明目标文本图像的第I行第J+10列像素点为英文像素点；当二值图第三个通道数据中对应第I行第J+20列像素点的像素值为1时，说明目标文本图像的第I行第J+20列像素点为背景像素点。

接下来，根据二值图中与每个预设语种类别对应的通道数据(如前述中文对应的第一通道数据、英文对应的第二通道数据)，分别确定各通道对应的预设语种类别的文本行的位置信息。

本申请的一些实施例中，所述根据所述多通道二值图中每个通道数据，分别确定所述目标文本图像中匹配各所述预设语种的文本行的位置信息，包括：对于所述多通道二值图中匹配所述预设语种的每个通道数据，通过对所述通道数据指示的所述目标文本图像中相应所述预设语种的像素点的位置信息进行连通性分析，确定所述目标文本图像中匹配相应所述预设语种的文本行对应的图像区域。例如，对于前述二值图的第一通道数据，可以采用现有技术中的相关算法得到二值图的连通域，并求解各个连通域的最小外接矩形。各连通域的最小外接矩形即代表文本行位置信息，得到的每个外接矩形所在位置就是目标文本图像中中文文本行对应的图像区域的位置。同理，根据前述二值图的第二通道数据，可以确定目标文本图像中英文文本行对应的图像区域的位置。

本申请实施例公开的文本行语种识别方法，通过一个深度学习网络同时完成文本行检测和语种识别两个任务，同时得到文本行的位置和对应的语种。利用深度学习网络的一个分支网络结构对输入图像进行文本行检测，并利用二类别预测图对第一向量表示进行特征强化，利用深度学习网络的另外一个分支网络结构，基于强化后的特征对输入图像进行多语种和背景的多类别概率预测，上述方法提升了文本行检测和语种识别的准确度。

为了使读者更加理解本申请公开的文本语种识别方法所带来的有益效果，下面结合图4和图5进一步阐述深度学习网络的训练方案，从而使读者更加理解所述深度学习网络用于在线预测时的数据处理过程。

本申请的一些实施例中，所述通过预设深度学习网络的特征提取模块，对目标文本图像进行特征提取和融合处理，得到所述目标文本图像的第一向量表示之前，还包括：构建若干训练样本；基于所述训练样本训练包括特征提取模块、第一分类模块、注意力模块和第二分类模块的深度学习网络；其中，每条所述训练样本的样本数据为至少包括一个文本行的文本图像、每个所述文本行匹配的语种信息和在所述文本图像中的位置信息，每条所述训练样本至少匹配以下两个样本标签：第一标签、第二标签；所述第一标签用于指示相应样本数据中各像素点属于前景像素点或者背景像素点的真实值，所述第二标签用于指示相应样本数据中各像素点为背景像素点或者为预设语种像素点的真实值；所述深度学习网络的损失值包括所述第一分类模块的损失值和所述第二分类模块的损失值，所述第一分类模块的损失值根据所述第一分类模块对所述训练样本进行预测得到的二类别概率预测图与相应训练样本的第一标签的交叉熵计算得到；所述第二分类模块的损失值根据所述第二分类模块对所述训练样本进行预测得到的多类别概率预测图与相应训练样本的第二标签的交叉熵计算得到。

参阅图4所示的深度学习网络结构，所述深度学习网络包括一个主干网络结构(即特征提取模块310)和两个分支网络结构(即第一分类模块320构成的一个分支网络、注意力模块340加第二分类模块330构成的一个分支网络)，并且，两个分支网络结构的输入均为主干网络结构的输出，两个分支网络结构有各自的输出，因此，在构建深度学习网络的训练样本的过程中，对于每个训练样本，其匹配的样本标签包括两部分：对应第一分类模块320预测结果的所述第一标签，对应第二分类模块330预测结果的所述第二标签。

本申请的一些实施例中，训练样本的样本数据所包括的每个文本行匹配的语种信息和在文本图像中的位置信息，即为表示文本行位置及对应语种的标注信息，在模型训练过程中，文本图像的文本行位置信息和对应语种信息用于生成文本图像对应的训练样本匹配的第一标签和第二标签。其中，文本图像中的文本行的位置信息和对应语种信息为人工标注信息。

以样本数据为如图2中所示的文本图像为例，人工标注文本行220、2101至2105的位置信息，并对应标注其语种，如文本行220对应的为中文，文本行2102对应的为英文。该文本图像匹配的第一标签为与所述文本图像尺寸相同的二元分割图。二元分割图将文本图像中文本区域和非文本区域分割出来，例如，二元分割图的像素值为0和1，其中，1表示该像素点对应的文本图像中相应像素点属于文本，0表示该像素点对应的文本图像中相应像素点不属于文本(如背景)。为了避免一些人工标注的文本框不精确和不同文本框距离较近导致边界不清晰的情况，本申请采用现有技术中将文本区域向内收缩的方式制作第一标签。

仍以样本数据为如图2中所示的文本图像为例，人工标注文本行220、2101至2105的位置信息及对应的语种信息。该文本图像匹配的第二标签为所述文本图像的多元分割图。多元分割图中每个像素点的像素值表示文本图像中相应像素点匹配的预设文本属性类别。多元分割图中每个像素点与样本数据中的文本图像的像素点一一对应。对于尺寸为H×W大小的文本图像，其多元分割图的尺寸大小为H×W×C，C为语种类别数加一。以所述多元分割图为三元分割图举例，输入的文本图像的大小为640x640，语种包括中、英文时，输出的多元分割图大小为640x640x3。输入的文本图像上的每个像素点对应多元分割图上的对应位置的一个三维向量，这个向量的取值包括有(1，0，0)，(0，1，0)，(0，0，1)，三种向量取值分别对应了3个不同类别，其中，1所在的类别表示该像素点所在的语种类别或背景。例如，文本图像中某一像素点为中文字符，则该像素点对应的三元分割图中的像素点的像素值表示为(1，0，0)；再例如，文本图像中某一像素点为英文字符，则该像素点对应的三元分割图中的像素点的像素值表示为(0，1，0)；又例如，文本图像中某一像素点为背景，则该像素点对应的三元分割图中的像素点的像素值表示为(0，0，1)。

在深度学习网络训练过程中，对于每个训练样本，分别执行以下学习过程：首先，通过特征提取模块310进行特征提取和融合处理后，将得到该训练样本的第一向量表示；然后，第一分类模块320进一步对第一向量表示进行分类映射，第一分类模块320将输出二类别概率预测图；之后，注意力模块340基于所述二类别概率预测图对第一向量表示进行加权处理后得到第二向量表示，第二分类模块330进一步对加权处理后得到的第二向量表示进行分类映射，并输出多类别概率预测图；之后，计算二类别概率预测图(即第一分类模块320的输出)与第一标签的交叉熵，将其作为该训练样本的第一预测损失值；计算多类别概率预测图(即第二分类模块330的输出)与第二标签的交叉熵，将其作为该训练样本的第二预测损失值。对所有训练样本进行预测之后，将得到每个训练样本对应的第一预测损失值和第二预测损失值；最后，以所有训练样本的第一预测损失值和第二预测损失值最小为目标(即以深度学习网络的损失值(第一预测损失值与第二预测损失值之和)最小为目标)，优化所述深度学习网络的网络参数，对所述深度学习网络进行迭代训练，直至第一预测损失值和第二预测损失值收敛，即深度学习网络的损失值收敛，完成深度学习网络的训练过程。

本申请的一些实施例中，在计算二类别概率预测图与第一标签的交叉熵时，首先对二类别概率预测图按照预设阈值进行二值化处理，得到二类别概率预测图对应的二元分割图，然后，再计算所述二元分割图与第一标签的交叉熵，作为该训练样本的第一预测损失值。同样，在计算多类别概率预测图与第二标签的交叉熵时，首先对多类别概率预测图进行二值化处理，得到多类别概率预测图对应的多元分割图(具体方法参见前述生成多元分割图的具体实施方式)，然后，再计算所述多元分割图与第二标签的交叉熵，作为该训练样本的第二预测损失值。

本申请的另一些实施例中，每条所述训练样本的样本数据为至少包括一个文本行的文本图像、每个所述文本行匹配的语种信息和在所述文本图像中的位置信息，每条所述训练样本至少匹配以下三个样本标签：第一标签、第二标签和第三标签；所述第一标签用于指示相应样本数据中各像素点属于前景像素点或者背景像素点的真实值，所述第二标签用于指示相应样本数据中各像素点为背景像素点或者为预设语种像素点的真实值；所述第三标签为相应样本数据的阈值图；基于所述训练样本训练深度学习网络，所述深度学习网络包括特征提取模块、第一分类模块、第二分类模块、注意力模块和阈值图生成模块；其中，所述深度学习网络的损失值包括所述第一分类模块的损失值、所述第二分类模块的损失值，以及，所述阈值图生成模块的损失值，所述第一分类模块的损失值根据所述第一分类模块对所述训练样本进行预测得到的二类别概率预测图与相应训练样本的第一标签的交叉熵计算得到；所述第二分类模块的损失值根据所述第二分类模块对所述训练样本进行预测得到的多类别概率预测图与相应训练样本的第二标签的交叉熵计算得到；所述阈值图生成模块的损失值根据所述阈值图生成模块对所述训练样本进行预测得到的阈值图与相应训练样本的第三标签的平均绝对误差计算得到。

参阅图5所示的深度学习网络结构，本申请的另一些实施例中，所述深度学习网络包括一个主干网络结构(即特征提取模块310)和三个分支网络结构(即第一分类模块320构成的一个分支网络、注意力模块340和第二分类模块330构成的一个分支网络，以及阈值图生成模块350构成的一个分支网络)，并且，三个分支网络结构的输入均包括主干网络结构的输出，三个分支网络结构有各自的输出，因此，在构建深度学习网络的训练样本的过程中，对于每个训练样本，其匹配的样本标签包括三部分：对应第一分类模块320预测结果的第一标签，对应第二分类模块330预测结果的第二标签，以及，对应阈值图生成模块350预测结果的第三标签。

第一标签和第二标签的含义和生成方法参见前面段落中的描述，此处不再赘述。

第三标签为作为样本数据的文本图像的阈值图。阈值图可以使用与第一标签类似的方法生成。例如，将文本图像中文本框分别向内和向外扩张0.4倍对应得到收缩框和扩张框，然后计算收缩框和扩张框之间的区域内各像素点距离其最近文本框边界的归一化距离D，将1-D作为阈值图在该点处的像素值。同时，设置阈值图中的像素最大值和最小值，例如，可以将阈值图中的像素最大值设置为0.7，将阈值图中的像素最小值设置为0.3。

在深度学习网络训练过程中，对于每个训练样本，分别执行以下学习过程：首先，通过特征提取模块310进行特征提取和融合处理后，将得到该训练样本的第一向量表示；然后，第一分类模块320和阈值图生成模块350进一步分别对第一向量表示进行分类映射，第一分类模块320将输出二类别概率预测图，阈值图生成模块350将输出阈值图；之后，注意力模块340基于所述二类别概率预测图对第一向量表示进行加权处理后得到第二向量表示，第二分类模块330进一步对加权处理后得到的第二向量表示进行分类映射，并输出多类别概率预测图；之后，计算二类别概率预测图(即第一分类模块320的输出)与第一标签的交叉熵，将其作为该训练样本的第一预测损失值；计算多类别概率预测图(即第二分类模块330的输出)与第二标签的交叉熵，将其作为该训练样本的第二预测损失值；计算阈值图生成模块350输出的阈值图与第三标签的平均绝对误差(即L1 loss)，将其作为该训练样本的第三预测损失值。对所有训练样本进行预测之后，将得到每个训练样本对应的第一预测损失值、第二预测损失值和第三预测损失值；最后，以所有训练样本的第一预测损失值、第二预测损失值和第三预测损失值最小为目标(即以深度学习网络的损失值(第一预测损失值、第二预测损失值与第三预测损失值之和)最小为目标)，优化所述深度学习网络的网络参数，对所述深度学习网络进行迭代训练，直至第一预测损失值、第二预测损失值和第三预测损失值收敛，即深度学习网络的损失值收敛，完成深度学习网络的训练过程。

在这种情况下，计算二类别概率预测图与第一标签的交叉熵时，首先对所述阈值图与二类别概率预测图进行可微分二值化处理，得到二类别概率预测图对应的二元分割图，然后，再计算所述二元分割图与第一标签的交叉熵，作为该训练样本的第一预测损失值。同样，在计算多类别概率预测图与第二标签的交叉熵时，首先对多类别概率预测图进行二值化处理，得到多类别概率预测图对应的多元分割图(具体方法参见前述生成多元分割图的具体实施方式)，然后，再计算所述多元分割图与第二标签的交叉熵，作为该训练样本的第二预测损失值。

通过在训练阶段加入阈值图对二类别概率预测图计算得到文本行的位置信息的过程进行约束，可以提升第一分类模块320输出结果的准确度，进一步提升文本行和语种识别结果的准确度。

本申请的一些实施例中，还可以首先训练特征提取模块310和第一分类模块320，之后，基于训练得到的特征提取模块310的参数，进一步训练第二分类模块330和阈值图生成模块350，本申请实施例中不再展开描述。

在线识别过程中，目标文本图像通过训练得到的模型将输出按照不同语种划分后的文本行。

本申请的另一些实施例中，也可以将包含混合语种的完整一行文本标注为一个文本行，后续再对该文本行进行切分，本申请对此不作限定。

本申请实施例公开的文本行语种识别方法，在深度学习网络训练阶段，只需要用一个训练数据集对一个深度学习网络进行训练，便能同时完成文本行检测和语种识别的任务，同时得到文本行位置和对应的语种检测结果，大幅降低了训练过程的时间成本和维护成本。

另一方面，本申请实施例公开的文本行语种识别方法，在深度学习网络训练阶段，通过独立确定目标文本图像中的文本行位置信息，以及，确定所述目标文本图像中每个像素点匹配的预设文本属性类别的概率值，并融合文本行位置信息和文本类别属性进行文本行内的语种识别，避免了现有技术中首先识别目标文本图像中的文本行位置信息，再基于文本行位置信息进行指定文本行的语种识别时，由于文本行位置信息确定不准确导致的误差积累，从而降低文本行语种识别准确度的问题，进一步提升了训练得到的深度学习网络中特征提取模块、第一分类模块、注意力模块、第二分类模块的数据处理准确度，从而提升文本行的位置信息和语种识别准确度。

实施例二

本申请实施例公开的一种文本行语种识别装置，如图6所示，所述装置包括：

特征提取模块610，用于通过预设深度学习网络的特征提取模块，对目标文本图像进行特征提取和融合处理，得到所述目标文本图像的第一向量表示；

前景背景预测模块620，用于通过所述深度学习网络的第一分类模块对所述第一向量表示进行二分类映射，确定所述目标文本图像的二类别概率预测图，其中，所述二类别概率预测图用于指示所述目标文本图像中各像素点属于前景像素点的概率；

特征加权处理模块630，用于基于所述二类别概率预测图，通过所述深度学习网络的注意力模块对所述第一向量表示进行加权处理，得到第二向量表示；

多类别预测模块640，用于通过所述深度学习网络的第二分类模块对所述第二向量表示进行多分类映射，确定所述目标文本图像的多类别概率预测图；其中，所述多类别概率预测图用于指示所述目标文本图像中各像素点匹配预设文本属性类别的概率值，所述预设文本属性类别包括：背景、各预设语种；

文本行位置及语种确定模块650，用于根据所述多类别概率预测图指示的所述目标文本图像中各像素点匹配预设文本属性类别的概率值，确定所述目标文本图像中匹配各所述预设语种的文本行的位置信息。

本申请的一些实施例中，所述特征加权处理模块630，进一步用于：

以所述二类别概率预测图的各像素点的像素值为权重，通过所述注意力模块对所述第一向量表示进行空间加权处理，得到第二向量表示；或者，

以所述二类别概率预测图的各像素点的像素值为权重，通过所述注意力模块对所述第一向量表示进行空间加权处理；之后，将进行空间加权处理得到的特征图输入至所述注意力模块，计算各通道对应的权重，再以计算得到的权重对所述特征图进行通道加权处理，得到第二向量表示。

本申请的一些实施例中，所述多类别概率预测图中每个通道数据分别指示所述目标文本图像中各像素点匹配相应预设文本属性类别的概率值，所述文本行位置及语种确定模块650，进一步用于：

根据所述多类别概率预测图中各通道数据指示的所述概率值，分别确定所述目标文本图像中各像素点匹配的预设文本属性类别；

根据所述目标文本图像中各像素点匹配的预设文本属性类别，确定一多通道二值图，其中，所述多通道二值图中每个通道数据分别指示所述目标文本图像中一种所述预设文本属性类别的像素点的位置信息；

根据所述多通道二值图中每个通道数据，分别确定所述目标文本图像中匹配各所述预设语种的文本行的位置信息。

本申请的一些实施例中，所述根据所述多通道二值图中每个通道数据，分别确定所述目标文本图像中匹配各所述预设语种的文本行的位置信息，包括：

对于所述多通道二值图中匹配所述预设语种的每个通道数据，通过对所述通道数据指示的所述目标文本图像中相应所述预设语种的像素点的位置信息进行连通性分析，确定所述目标文本图像中匹配相应所述预设语种的文本行对应的图像区域。

本申请的一些实施例中，所述根据所述多类别概率预测图中各通道数据指示的所述概率值，分别确定所述目标文本图像中各像素点匹配的预设文本属性类别，包括：

对于所述目标文本图像中每个像素点，确定所述像素点对应的各通道数据指示的所述概率值中的最大概率值，并将最大概率值所在通道对应的预设文本属性类别，作为所述像素点匹配的预设文本属性类别。

本申请的一些实施例中，如图7所示，所述装置还包括：

训练样本构建模块660，用于构建若干训练样本；其中，每条所述训练样本的样本数据为至少包括一个文本行的文本图像、每个所述文本行匹配的语种信息和在所述文本图像中的位置信息，每条所述训练样本至少匹配以下两个样本标签：第一标签、第二标签；所述第一标签用于指示相应样本数据中各像素点属于前景像素点或者背景像素点的真实值，所述第二标签用于指示相应样本数据中各像素点为背景像素点或者为预设语种像素点的真实值；

模型训练模块670，用于基于所述训练样本训练深度学习网络，所述深度学习网络包括特征提取模块、第一分类模块、注意力模块和第二分类模块；其中，所述深度学习网络的损失值包括所述第一分类模块的损失值和所述第二分类模块的损失值，所述第一分类模块的损失值根据所述第一分类模块对所述训练样本进行预测得到的二类别概率预测图与相应训练样本的第一标签的交叉熵计算得到；所述第二分类模块的损失值根据所述第二分类模块对所述训练样本进行预测得到的多类别概率预测图与相应训练样本的第二标签的交叉熵计算得到。

本申请的一些实施例中，每条所述训练样本的样本数据为至少包括一个文本行的文本图像、每个所述文本行匹配的语种信息和在所述文本图像中的位置信息，每条所述训练样本至少匹配以下三个样本标签：第一标签、第二标签和第三标签；所述第一标签用于指示相应样本数据中各像素点属于前景像素点或者背景像素点的真实值，所述第二标签用于指示相应样本数据中各像素点为背景像素点或者为预设语种像素点的真实值；所述第三标签为相应样本数据的阈值图；

本申请的一些实施例中，所述模型训练模块670，还用于基于所述训练样本训练深度学习网络，所述深度学习网络包括特征提取模块、第一分类模块、第二分类模块、注意力模块和阈值图生成模块；其中，所述深度学习网络的损失值包括所述第一分类模块的损失值、所述第二分类模块的损失值，以及，所述阈值图生成模块的损失值，所述第一分类模块的损失值根据所述第一分类模块对所述训练样本进行预测得到的二类别概率预测图与相应训练样本的第一标签的交叉熵计算得到；所述第二分类模块的损失值根据所述第二分类模块对所述训练样本进行预测得到的多类别概率预测图与相应训练样本的第二标签的交叉熵计算得到；所述阈值图生成模块的损失值根据所述阈值图生成模块对所述训练样本进行预测得到的阈值图与相应训练样本的第三标签的平均绝对误差计算得到。本申请实施例公开的文本行语种识别装置，用于实现本申请实施例一中所述的文本行语种识别方法，装置的各模块的具体实施方式不再赘述，可参见方法实施例相应步骤的具体实施方式。

本申请实施例公开的文本行语种识别装置，通过预设深度学习网络的特征提取模块，对目标文本图像进行特征提取和融合处理，得到所述目标文本图像的第一向量表示；通过所述深度学习网络的第一分类模块对所述第一向量表示进行二分类映射，确定所述目标文本图像的二类别概率预测图，其中，所述二类别概率预测图用于指示所述目标文本图像中各像素点属于前景像素点的概率；基于所述二类别概率预测图，通过所述深度学习网络的注意力模块对所述第一向量表示进行加权处理，得到第二向量表示；通过所述深度学习网络的第二分类模块对所述第二向量表示进行多分类映射，确定所述目标文本图像的多类别概率预测图；其中，所述多类别概率预测图用于指示所述目标文本图像中各像素点匹配预设文本属性类别的概率值，所述预设文本属性类别包括：背景、各预设语种；根据所述多类别概率预测图指示的所述目标文本图像中各像素点匹配预设文本属性类别的概率值，确定所述目标文本图像中匹配各所述预设语种的文本行的位置信息，有效提升了图像中文本行语种识别算法的准确度，降低计算量。

本申请实施例公开的文本行语种识别装置，通过一个深度学习网络同时完成文本行检测和语种识别两个任务，同时得到文本行的位置和对应的语种。利用深度学习网络的一个分支网络结构对输入图像进行文本行检测，并利用二类别预测图对第一向量表示进行特征强化，利用深度学习网络的另外一个分支网络结构，基于强化后的特征对输入图像进行多语种和背景的多类别概率预测，上述方法提升了文本行检测和语种识别的准确度。

本申请实施例公开的文本行语种识别装置，在深度学习网络训练阶段，只需要用一个训练数据集对一个深度学习网络进行训练，便能同时完成文本行检测和语种识别的任务，同时得到文本行位置和对应的语种检测结果，大幅降低了训练过程的时间成本和维护成本。

另一方面，本申请实施例公开的文本行语种识别装置，在深度学习网络训练阶段，通过独立确定目标文本图像中的文本行位置信息，以及，确定所述目标文本图像中每个像素点匹配的预设文本属性类别的概率值，并融合文本行位置信息和文本类别属性进行文本行内的语种识别，避免了现有技术中首先识别目标文本图像中的文本行位置信息，再基于文本行位置信息进行指定文本行的语种识别时，由于文本行位置信息确定不准确导致的误差积累，从而降低文本行语种识别准确度的问题，进一步提升了训练得到的深度学习网络中特征提取模块、第一分类模块、注意力模块、第二分类模块的数据处理准确度，从而提升文本行的位置信息和语种识别准确度。

相应的，本申请还公开了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如本申请实施例一所述的文本行语种识别方法。所述电子设备可以为PC机、移动终端、个人数字助理、平板电脑等。

本申请还公开了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请实施例一所述的文本行语种识别方法的步骤。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上对本申请提供的一种文本行语种识别方法及装置进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

本文中所称的“一个实施例”、“实施例”或者“一个或者多个实施例”意味着，结合实施例描述的特定特征、结构或者特性包括在本申请的至少一个实施例中。此外，请注意，这里“在一个实施例中”的词语例子不一定全指同一个实施例。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本申请的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种文本行语种识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述二类别概率预测图，通过所述深度学习网络的注意力模块对所述第一向量表示进行加权处理，得到第二向量表示，包括：

3.根据权利要求1所述的方法，其特征在于，所述多类别概率预测图中的每个通道数据分别指示所述目标文本图像中各像素点匹配相应预设文本属性类别的概率值，所述根据所述多类别概率预测图指示的所述目标文本图像中各像素点匹配预设文本属性类别的概率值，确定所述目标文本图像中匹配各所述预设语种的文本行的位置信息，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述多通道二值图中每个通道数据，分别确定所述目标文本图像中匹配各所述预设语种的文本行的位置信息，包括：

5.根据权利要求3所述的方法，其特征在于，所述根据所述多类别概率预测图中各通道数据指示的所述概率值，分别确定所述目标文本图像中各像素点匹配的预设文本属性类别，包括：

6.根据权利要求1至5任一项所述的方法，其特征在于，所述通过预设深度学习网络的特征提取模块，对目标文本图像进行特征提取和融合处理，得到所述目标文本图像的第一向量表示的步骤之前，还包括：

构建若干训练样本；其中，每条所述训练样本的样本数据为至少包括一个文本行的文本图像、每个所述文本行匹配的语种信息和在所述文本图像中的位置信息，每条所述训练样本至少匹配以下两个样本标签：第一标签、第二标签；所述第一标签用于指示相应样本数据中各像素点属于前景像素点或者背景像素点的真实值，所述第二标签用于指示相应样本数据中各像素点为背景像素点或者为预设语种像素点的真实值；

基于所述训练样本训练深度学习网络，所述深度学习网络包括特征提取模块、第一分类模块、注意力模块和第二分类模块；其中，所述深度学习网络的损失值包括所述第一分类模块的损失值和所述第二分类模块的损失值，所述第一分类模块的损失值根据所述第一分类模块对所述训练样本进行预测得到的二类别概率预测图与相应训练样本的第一标签的交叉熵计算得到；所述第二分类模块的损失值根据所述第二分类模块对所述训练样本进行预测得到的多类别概率预测图与相应训练样本的第二标签的交叉熵计算得到。

7.根据权利要求1至5任一项所述的方法，其特征在于，所述通过预设深度学习网络的特征提取模块，对目标文本图像进行特征提取和融合处理，得到所述目标文本图像的第一向量表示的步骤之前，还包括：

构建若干训练样本；其中，每条所述训练样本的样本数据为至少包括一个文本行的文本图像、每个所述文本行匹配的语种信息和在所述文本图像中的位置信息，每条所述训练样本至少匹配以下三个样本标签：第一标签、第二标签和第三标签；所述第一标签用于指示相应样本数据中各像素点属于前景像素点或者背景像素点的真实值，所述第二标签用于指示相应样本数据中各像素点为背景像素点或者为预设语种像素点的真实值；所述第三标签为相应样本数据的阈值图；

基于所述训练样本训练深度学习网络，所述深度学习网络包括特征提取模块、第一分类模块、第二分类模块、注意力模块和阈值图生成模块；其中，所述深度学习网络的损失值包括所述第一分类模块的损失值、所述第二分类模块的损失值，以及，所述阈值图生成模块的损失值，所述第一分类模块的损失值根据所述第一分类模块对所述训练样本进行预测得到的二类别概率预测图与相应训练样本的第一标签的交叉熵计算得到；所述第二分类模块的损失值根据所述第二分类模块对所述训练样本进行预测得到的多类别概率预测图与相应训练样本的第二标签的交叉熵计算得到；所述阈值图生成模块的损失值根据所述阈值图生成模块对所述训练样本进行预测得到的阈值图与相应训练样本的第三标签的平均绝对误差计算得到。

8.一种文本行语种识别装置，其特征在于，包括：

特征提取模块，用于通过预先训练的深度学习网络的特征提取模块，对目标文本图像进行特征提取和融合处理，得到所述目标文本图像的第一向量表示；

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的程序代码，其特征在于，所述处理器执行所述程序代码时实现权利要求1至7任意一项所述的文本行语种识别方法。

10.一种计算机可读存储介质，其上存储有程序代码，其特征在于，该程序代码被处理器执行时实现权利要求1至7任意一项所述的文本行语种识别方法的步骤。