CN113468977A - 文本行语种识别方法、装置、电子设备 - Google Patents
文本行语种识别方法、装置、电子设备 Download PDFInfo
- Publication number
- CN113468977A CN113468977A CN202110648995.2A CN202110648995A CN113468977A CN 113468977 A CN113468977 A CN 113468977A CN 202110648995 A CN202110648995 A CN 202110648995A CN 113468977 A CN113468977 A CN 113468977A
- Authority
- CN
- China
- Prior art keywords
- pixel point
- text
- image
- language
- text line
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000012549 training Methods 0.000 claims description 91
- 239000013598 vector Substances 0.000 claims description 77
- 238000013135 deep learning Methods 0.000 claims description 72
- 238000000605 extraction Methods 0.000 claims description 45
- 230000011218 segmentation Effects 0.000 claims description 39
- 238000012545 processing Methods 0.000 claims description 19
- 238000013507 mapping Methods 0.000 claims description 16
- 238000007499 fusion processing Methods 0.000 claims description 11
- 238000004422 calculation algorithm Methods 0.000 abstract description 6
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000001514 detection method Methods 0.000 description 19
- 230000008569 process Effects 0.000 description 14
- 238000004590 computer program Methods 0.000 description 7
- 230000004927 fusion Effects 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 230000001788 irregular Effects 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 3
- 238000012015 optical character recognition Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种文本行语种识别方法,属于计算机视觉技术领域,有助于提升图像中文本行语种识别的准确度。所述方法包括:分别确定目标文本图像中的文本行位置信息和每个像素点匹配的预设文本属性类别的概率值,其中,预设文本属性类别用于指示相应像素点为背景像素点或者为预设语种像素点;根据文本行位置信息,确定目标文本图像中包括的各文本行对应的图像区域;根据图像区域中每个像素点匹配的预设文本属性类别的概率值,分别确定各图像区域中每一种预设语种像素点的数量;对于每个文本行对应的图像区域,根据图像区域中每一种预设语种像素点的数量确定文本行匹配的语种,不仅提升了图像中文本行语种识别算法准确度,还降低了计算量。
Description
技术领域
本申请实施例涉及计算机视觉技术领域,特别是涉及一种文本行语种识别方法、装置、电子设备及计算机可读存储介质。
背景技术
光学字符识别(OCR)是目前计算机视觉领域的研究热点之一。随着OCR技术应用场景的拓展,待检测图像上通常包含多个语种的文本。对于多语种的文本的识别,不仅需要定位图像上的文本行位置,还需要获取对应文本行的语种,只有获取了文本行的位置和语种后才能对其进行文本识别,将文本图像转换为文字信息。现有技术中通常将文本行检测和语种识别作为两个独立的任务,分为两个阶段进行处理。第一阶段为通用的文本行检测;第二阶段则根据检测到的文本行位置,裁剪出对应的文本行图像并对其进行语种识别。当基于深度学习方法进行文本行检测和语种识别时,现有技术中采用独立的两个模型分别进行文本行检测和语种识别,容易导致误差积累,文本行检测的误差会影响到语种识别的准确性,从而降低语种识别的准确度,且增加计算量。
可见,现有技术中的文本图像语种识别方法还需要改进。
发明内容
本申请实施例提供一种文本行语种识别方法,有助于提升图像中文本行语种识别算法的准确度,降低计算量。
第一方面,本申请实施例提供了一种文本行语种识别方法,包括:
确定目标文本图像中的文本行位置信息,以及,确定所述目标文本图像中每个像素点匹配的预设文本属性类别的概率值,其中,所述预设文本属性类别用于指示相应像素点为背景像素点或者为预设语种像素点;
根据所述文本行位置信息,确定所述目标文本图像中包括的各文本行对应的图像区域;
根据所述图像区域中每个像素点匹配的预设文本属性类别的概率值,分别确定各所述图像区域中每一种所述预设语种像素点的数量;
对于每个所述文本行对应的所述图像区域,根据所述图像区域中每一种所述预设语种像素点的数量,确定所述文本行匹配的语种。
第二方面,本申请实施例提供了一种文本行语种识别装置,包括:
文本行位置信息和像素点分类概率值确定模块,用于确定目标文本图像中的文本行位置信息,以及,确定所述目标文本图像中每个像素点匹配的预设文本属性类别的概率值,其中,所述预设文本属性类别用于指示相应像素点为背景像素点或者为预设语种像素点;
文本行对应图像区域确定模块,用于根据所述文本行位置信息,确定所述目标文本图像中包括的各文本行对应的图像区域;
不同语种像素点的数量确定模块,用于根据所述图像区域中每个像素点匹配的预设文本属性类别的概率值,分别确定各所述图像区域中每一种所述预设语种像素点的数量;
文本行语种确定模块,用于对于每个所述文本行对应的所述图像区域,根据所述图像区域中每一种所述预设语种像素点的数量,确定所述文本行匹配的语种。
第三方面,本申请实施例还公开了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本申请实施例所述的文本行语种识别方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时本申请实施例公开的文本行语种识别方法的步骤。
本申请实施例公开的文本行语种识别方法,通过确定目标文本图像中的文本行位置信息,以及,确定所述目标文本图像中每个像素点匹配的预设文本属性类别的概率值,其中,所述预设文本属性类别用于指示相应像素点为背景像素点或者为预设语种像素点;根据所述文本行位置信息,确定所述目标文本图像中包括的各文本行对应的图像区域;根据所述图像区域中每个像素点匹配的预设文本属性类别的概率值,分别确定各所述图像区域中每一种所述预设语种像素点的数量;对于每个所述文本行对应的所述图像区域,根据所述图像区域中每一种所述预设语种像素点的数量,确定所述文本行匹配的语种,有效提升了图像中文本行语种识别算法的准确度,降低计算量。
另一方面,本申请实施例公开的文本行语种识别方法,通过一个深度学习网络同时完成文本行检测和语种识别两个任务,同时得到文本行的位置和对应的语种。利用深度学习网络的一个分支网络结构对输入图像进行文本行检测,同时利用深度学习网络的另外一个分支网络结构对输入图像进行多类别概率预测,结合文本行检测结果和多类别概率预测结果对各个文本行进行语种分类,上述方法提升了文本行检测和语种识别的精度。并且,在训练阶段,只需要用一个训练数据集对一个深度学习网络进行训练,便能同时完成文本行检测和语种识别的任务,同时得到文本行位置和对应的语种检测结果,大幅降低了训练过程的时间成本和维护成本。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1是本申请实施例一的文本行语种识别方法流程图;
图2是本申请实施例一的目标文本图像中文本行示意图;
图3是本申请实施例一中的深度学习网络结构示意图之一;
图4是本申请实施例一中的深度学习网络结构示意图之二;
图5是本申请实施例二的文本行语种识别装置结构示意图之一;
图6是本申请实施例二的文本行语种识别装置结构示意图之二。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例一
本申请实施例公开的一种文本行语种识别方法,如图1所示,所述方法包括:步骤110至步骤140。
步骤110,确定目标文本图像中的文本行位置信息,以及,确定所述目标文本图像中每个像素点匹配的预设文本属性类别的概率值。
其中,所述预设文本属性类别用于指示相应像素点为背景像素点或者为预设语种像素点。
本申请实施例中,所述目标文本图像至少包括扫描文档图像(如文档中的文本图像)和自然场景图像(如自然场景中的文本图像),扫描文档图像和自然场景图像可以为规则文本图像和不规则文本图像,如文本图像中存在的横向或纵向等规则文本,及弯曲型、倾斜型等不规则文本;所述的文本行位置信息为基于像素点坐标表示的文本行的位置信息,例如,文本行的左上角像素点在所述目标文本图像中的像素位置和文本行的像素长度和像素宽度所表示的位置信息。在一个实施例中,文本行位置信息中的像素点、像素长度和像素宽度可以确定一个矩形区域。本申请实施例中,以每个文本行对应一个语种为例,具体实现形式将在后文深度学习网络的训练方案中说明。
以图2中所示的目标文本图像为例,所述目标文本图像中包括:文本行220、文本行2101至2105,每个文本行的位置信息可以基于像素点在所述目标文本图像中的像素位置和文本行的像素长度和像素宽度表示。
本申请实施例中所述的预设文本属性类别,根据待检测的文本行语种类别确定,预设文本属性类别的数量为待检测的文本行语种类别+1。例如,当待检测的文本行语种类别包括中文和英文时,所述预设文本属性类别的数量为3,所述预设文本属性类别分别用于指示目标文本图像中某一像素点为背景像素点或者为中文像素点或者为英文像素点。
步骤120,根据所述文本行位置信息,确定所述目标文本图像中包括的各文本行对应的图像区域。
如前所述,所述文本行位置信息可以通过该文本行的左上角像素点在所述目标文本图像中像素位置和文本行的像素宽度和像素高度,表示为一个矩形区域,该矩形区域即为文本行对应的图像区域。
步骤130,根据所述图像区域中每个像素点匹配的预设文本属性类别的概率值,分别确定各所述图像区域中每一种所述预设语种像素点的数量。
接下来,对于每个图像区域,分别统计该图像区域中匹配不同预设文本属性类别的像素点的数量。以预设文本属性类别包括三类,分别为:中文字符、英文字符、背景为例,对于某一文本行对应的图像区域,遍历该图像区域内的每个像素点,根据各像素点的像素值确定各像素点匹配中文字符或者匹配英文字符或者匹配背景像素点,并分别计数所属图像区域中匹配中文字符的像素点的数量、匹配英文字符的像素点的数量,以及,匹配背景的像素点的数量。
步骤140,对于每个所述文本行对应的所述图像区域,根据所述图像区域中每一种所述预设语种像素点的数量,确定所述文本行匹配的语种。
本申请的一些实施例中,根据所述图像区域中每一种所述预设语种像素点的数量,确定所述文本行匹配的语种,包括:将所述数量的最大值对应的所述预设语种像素点匹配的语种,确定为所述图像区域对应的所述文本行匹配的语种。即统计每个文本行所在图像区域内属于不同语种的像素点的数目,将像素点数目最多的语种作为文本行匹配的语种。
以图2所示的文本行2102对应的图像区域为例,前述步骤中将遍历得到该图像区域中匹配中文字符的像素点的数量为0、匹配英文字符的像素点的数量大于0,则确定该图像区域匹配的语种为英文。以图2所示的文本行220而言,经过前述步骤将确定文本行220对应的图像区域中匹配中文字符的像素点数量为一个大于0的数值,而匹配英文字符的像素点数量为0,则可以确定文本行220匹配的语种为中文。基于不同语种像素点的数量确定文本行的语种,可以有效降低计算量。
本申请实施例公开的文本行语种识别方法,通过确定目标文本图像中的文本行位置信息,以及,确定所述目标文本图像中每个像素点匹配的预设文本属性类别的概率值,其中,所述预设文本属性类别用于指示相应像素点为背景像素点或者为预设语种像素点;根据所述文本行位置信息,确定所述目标文本图像中包括的各文本行对应的图像区域;根据所述图像区域中每个像素点匹配的预设文本属性类别的概率值,分别确定各所述图像区域中每一种所述预设语种像素点的数量;对于每个所述文本行对应的所述图像区域,根据所述图像区域中每一种所述预设语种像素点的数量,确定所述文本行匹配的语种。该方法基于同一目标文本图像,分别进行文本行位置信息检测和文本行语种识别,进而同时获得目标文本图像中每个文本行的位置及对应的语种信息,有效提升了文本图像中文本行语种识别算法的准确度,降低计算量。
本申请实施例公开的文本行语种识别方法,通过独立确定目标文本图像中的文本行位置信息,以及,确定所述目标文本图像中每个像素点匹配的预设文本属性类别的概率值,并融合文本行位置信息和文本类别属性进行文本行内的语种识别,避免了现有技术中首先识别目标文本图像中的文本行位置信息,再基于文本行位置信息进行指定文本行的语种识别时,由于文本行位置信息确定不准确导致的误差积累,从而降低文本行语种识别准确度的问题。
下面举例说明本申请的一些实施例中采用的确定目标文本图像中的文本行位置信息,以及,确定所述目标文本图像中每个像素点匹配的预设文本属性类别的概率值的技术方案。
本申请的一些实施例中,可以采用现有技术中的方法确定目标文本图像中的文本行位置信息。
本申请的另一些实施例中,所述确定目标文本图像中的文本行位置信息,包括:通过预先训练的深度学习网络的特征提取模块,对所述目标文本图像进行特征提取和融合处理,得到所述目标文本图像的第一向量表示;通过所述深度学习网络的第一分类模块对所述第一向量表示进行二分类映射,确定所述目标文本图像的二类别概率预测图,其中,所述二类别概率预测图的各像素点的像素值用于指示所述目标文本图像中相应像素点属于前景像素点的概率;根据所述二类别概率预测图确定所述目标文本图像中的文本行位置信息。
本申请实施例中所述的预先训练的深度学习网络采用如图3所示的网络结构,其中,深度学习网络包括特征提取模块310、第一分类模块320、第二分类模块330和注意力模块340。
所述特征提取模块310用于对输入图像(如目标文本图像)进行特征提取和特征融合,本申请的一些实施例中,如图3所示,所述特征提取模块310进一步可以包括:特征提取子模块3101和特征融合子模块3102。其中,所述特征提取子模块3101用于提取输入图像(如目标文本图像)的多个不同层级的特征,所述特征提取子模块3101可以使用包括resnet、densenet、mobilenet等常见网络结构,但不局限于这些网络结构。所述特征融合子模块3102用于对所述特征提取子模块3101提取得到的分层特征进行融合,特征融合子模块3102可以采用现有技术中常用的特征融合模块,如特征金字塔网络FPN等,但不局限于FPN网络。对于一幅输入图像,特征提取子模块3101提取的该输入图像的不同层级的特征通常指的该输入图像的不同分辨率的特征图,低分辨率的特征图是输入图像的高层次特征,高分辨率的特征图是输入图像的低层次特征。以使用卷积神经网络(例如Resnet)提取输入图像四个层级的特征图为例,所述特征提取子模块3101将能够得到输入图像的1/4,1/8,1/16,1/32大小的特征图。特征融合子模块3102将得到的输入图像的1/4,1/8,1/16,1/32大小的特征图进行融合,得到输入图像的1/4大小的特征图作为输入图像的第一向量表示。
本申请的一些实施例中,第一分类模块320可以采用通用的卷积神经网络结构,例如,采用包括卷积层、批归一化层、激活层和转置卷积层的卷积神经网络。第一分类模块对所述第一向量表示进行二分类映射,确定输入图像(如目标文本图像)的二类别概率预测图。本申请的一些实施例中,所述二类别概率预测图的各像素点的像素值为输入图像的相应像素点作为前景像素点的概率值,例如,所述二类别概率预测图的各像素点的像素值为0至1之间的数值。
接下来,根据所述二类别概率预测图确定所述目标文本图像中的文本行位置信息。本申请的一些实施例中,根据所述二类别概率预测图确定所述目标文本图像中的文本行位置信息,包括:按照预设全局概率阈值对所述二类别概率预测图进行二值化处理,得到所述目标文本图像匹配的二元分割图,其中,所述二元分割图中各像素点的像素值用于指示所述目标文本图像中相应像素点属于前景像素点或背景像素点;根据所述二元分割图,确定所述目标文本图像中的文本行位置信息。其中,预设全局概率阈值根据经验设定,例如所述预设全局概率阈值可以设置为0.3。
具体的,根据所述二元分割图,确定所述目标文本图像中的文本行位置信息,包括:首先得到目标文本图像对应的初始化的二元分割图,即将二元分割图的所有像素点的像素值初始化为0,之后,根据二类别概率预测图中相应位置处像素点的像素值与所述预设全局概率阈值的比较结果,修改初始化后的二元分割图中相应像素点的像素值,从而,将初始化后的二元分割图的所有像素点的像素值修改为非0即1。例如,当二类别概率预测图中某一像素值大于或等于所述预设全局概率阈值时,将初始化后的二元分割图中与该像素点对应的像素点的像素值设置为1;当二类别概率预测图中某一像素值小于所述预设全局概率阈值时,保持初始化后的二元分割图中与该像素点对应的像素点的像素值为0不变,这样,即可实现对所述二类别概率预测图进行二值化处理,得到所述二类别概率预测图对应的二元分割图。所述二元分割图中的像素点与目标文本图像中的像素点一一对应,即所述二元分割图中的像素点与输入图像中的像素点一一对应。
进一步的,采用现有技术中的相关算法得到二元分割图的连通域,并求解各个连通域的最小外接矩形。各连通域的最小外接矩形即代表文本行位置信息,得到的每个外接矩形所在位置就是目标文本图像中每个文本行对应的图像区域的位置。目标文本图像通过该第一分类模块320(尤其是不规则文本图像)检测得到的文本行位置信息更为精准。
本申请的一些实施例中,如图4所示,所述深度学习网络还包括:阈值图生成模块350,所述通过预先训练的深度学习网络的特征提取模块310,对所述目标文本图像进行特征提取和融合处理,得到所述目标文本图像的第一向量表示的步骤之后,还包括:通过所述深度学习网络的阈值图生成模块350对所述第一向量表示进行特征映射,确定所述目标文本图像匹配的阈值图;所述根据所述二类别概率预测图确定所述目标文本图像中的文本行位置信息,包括:将所述阈值图和所述二类别概率预测图进行可微分二值化,得到所述目标文本图像匹配的二元分割图,其中,所述二元分割图中各像素点的像素值用于指示所述目标文本图像中相应像素点属于前景像素点或背景像素点;根据所述二元分割图,确定所述目标文本图像中的文本行位置信息。
其中,阈值图生成模块350进一步对特征提取模块310输出的所述第一向量表示进行特征映射,确定所述目标文本图像匹配的阈值图,所述阈值图中每个像素点的像素值表示对目标文本图像中相应像素点进行二值化的动态阈值。接下来,将阈值图生成模块350生成的所述阈值图和所述第一分类模块320输出的二类别概率预测图进行可微分二值化处理,得到近似二值化图,该近似二值化图作为所述目标文本图像匹配的二元分割图。根据所述二元分割图,确定所述目标文本图像中的文本行位置信息的具体实施方式参见前面段落描述,此处不再赘述,其中需要注意的是,本实施例中,二类别概率预测图中像素点的像素值是与阈值图中相应位置处像素点的动态阈值进行比较,以该比较结果修改初始化后的二元分割图中相应像素点的像素值,从而,将初始化后的二元分割图的所有像素点的像素值修改为非0即1。
通过在所述深度学习网络中设置阈值图生成模块350,使得阈值图生成模块350根据特征提取模块310输出的所述第一向量表示进行特征映射,确定所述目标文本图像中各像素点进行二值化时的动态阈值,有效提升得到的二元分割图的精度,从而提升文本行位置和文本行对应的语种识别结果的准确度。
本申请的一些实施例中,如图3、图4所示,第二分类模块330可以采用通用的卷积神经网络结构,例如,采用包括卷积层、批归一化层、激活层和转置卷积层的卷积神经网络;所述注意力模块340可以采用通用的注意力机制网络。通过预先训练的深度学习网络的特征提取模块310,对所述目标文本图像进行特征提取和融合处理,得到所述目标文本图像的第一向量表示之后,还包括:基于所述二类别概率预测图,通过所述注意力模块对所述第一向量表示进行空间加权处理,得到第二向量表示;通过所述深度学习网络的第二分类模块330对所述第二向量表示进行多分类映射,确定所述目标文本图像的多类别概率预测图;其中,所述多类别概率预测图中每个像素点的像素值用于指示所述目标文本图像中相应像素点匹配预设文本属性类别的概率值。
本申请的一些实施例中,所述多类别概率预测图的各像素点的像素值可以通过多维向量表示。例如,多类别概率预测图的各像素点的像素值可以表示为(p1,p2,…,pn),其中,p1+p2+…+pn=1,p1、p2至pn-1用于指示该像素点对应语种的概率值,pn用于指示该像素点为背景像素点的概率值。以对中文和英文两种语种进行预测为例,多类别概率预测图的各像素点的像素值可以表示为(p1,p2,p3),若p1表示该像素点对应的输入图像中相应像素点匹配中文像素点的概率,p2表示该像素点对应的输入图像中相应像素点匹配英文像素点的概率,p3表示该像素点对应的输入图像中相应像素点匹配背景像素点的概率,假设多类别概率预测图中某个像素点的像素值为(0.6,0.3,0.1)即p1=0.6,p2=0.3,p3=0.1,p1最大,因此将p1所对应的语种类别判定为此像素点的语种类别,则该像素点对应的语种类别为中文。
当通过预先训练的深度学习网络确定目标文本图像中的文本行位置信息,以及,确定每个像素点匹配的预设文本属性类别的概率值时,首先需要训练深度学习网络。下面分别结合图3和图4所示的深度学习网络结构,阐述所述深度学习网络的训练方案。
本申请的一些实施例中,所述确定目标文本图像中的文本行位置信息,以及,确定所述目标文本图像中每个像素点匹配的预设文本属性类别的概率值之前,还包括:构建若干训练样本;基于所述训练样本训练包括特征提取模块、第一分类模块和第二分类模块的深度学习网络;其中,每条所述训练样本的样本数据为至少包括一个文本行的文本图像、每个所述文本行匹配的语种信息和在所述文本图像中的位置信息,每条所述训练样本至少匹配以下两个样本标签:第一标签、第二标签;所述第一标签用于指示相应样本数据中各像素点属于前景像素点或者背景像素点的真实值,所述第二标签用于指示相应样本数据中各像素点为背景像素点或者为预设语种像素点的真实值;所述深度学习网络的损失值包括所述第一分类模块的损失值和所述第二分类模块的损失值,所述第一分类模块的损失值根据所述第一分类模块对所述训练样本进行预测得到的二类别概率预测图与相应训练样本的第一标签的交叉熵计算得到;所述第二分类模块的损失值根据所述第二分类模块对所述训练样本进行预测得到的多类别概率预测图与相应训练样本的第二标签的交叉熵计算得到。
参阅图3所示的深度学习网络结构,所述深度学习网络包括一个主干网络结构(即特征提取模块310)和两个分支网络结构(即第一分类模块320和注意力模块340加第二分类模块330),并且,两个分支网络结构的输入均为主干网络结构的输出,两个分支网络结构有各自的输出,因此,在构建深度学习网络的训练样本的过程中,对于每个训练样本,其匹配的样本标签包括两部分:对应第一分类模块320预测结果的所述第一标签,对应第二分类模块330预测结果的所述第二标签。
本申请的一些实施例中,训练样本的样本数据所包括的每个文本行匹配的语种信息和在文本图像中的位置信息,即为表示文本行位置及对应语种的标注信息,在模型训练过程中,文本图像的文本行位置信息和对应语种信息用于生成文本图像对应的训练样本匹配的第一标签和第二标签。其中,文本图像中的文本行位置信息和对应语种信息为人工标注信息。
以样本数据为如图2中所示的文本图像为例,人工标注文本行220、2101至2105的位置信息,并对应标注其语种,如文本行220对应的为中文,文本行2102对应的为英文。该文本图像匹配的第一标签为与所述文本图像尺寸相同的二元分割图。二元分割图将文本图像中文本区域和非文本区域分割出来,例如,二元分割图的像素值为0和1,其中,1表示该像素点对应的文本图像中相应像素点属于文本,0表示该像素点对应的文本图像中相应像素点不属于文本(如背景)。为了避免一些人工标注的文本框不精确和不同文本框距离较近导致边界不清晰的情况,本申请采用现有技术中将文本区域向内收缩的方式制作第一标签。
仍以样本数据为如图2中所示的文本图像为例,人工标注文本行220、2101至2105的位置信息及对应的语种信息。该文本图像匹配的第二标签为所述文本图像的多元分割图。多元分割图中每个像素点的像素值表示文本图像中相应像素点匹配的预设文本属性类别。多元分割图中每个像素点与样本数据中的文本图像的像素点一一对应。对于尺寸为H×W大小的文本图像,其多元分割图的尺寸大小为H×W×C,C为语种类别数加一。以所述多元分割图为三元分割图举例,输入的文本图像的大小为640x640,语种包括中、英文时,输出的多元分割图大小为640x640x3。输入的文本图像上的每个像素点对应多元分割图上的对应位置的一个三维向量,这个向量的取值包括有(1,0,0),(0,1,0),(0,0,1),三种向量分别对应了3个不同类别,其中,1所在的类别表示该像素点所在的语种类别或背景。例如,文本图像中某一像素点为中文字符,则该像素点对应的三元分割图中的像素点的像素值表示为(1,0,0);再例如,文本图像中某一像素点为英文字符,则该像素点对应的三元分割图中的像素点的像素值表示为(0,1,0);又例如,文本图像中某一像素点为背景,则该像素点对应的三元分割图中的像素点的像素值表示为(0,0,1)。
参阅图3所示的深度学习网络,在深度学习网络训练过程中,对于每个训练样本,分别执行以下学习过程:首先,通过特征提取模块310进行特征提取和融合处理后,将得到该训练样本的第一向量表示;然后,第一分类模块320进一步对第一向量表示进行分类映射,第一分类模块320将输出二类别概率预测图,注意力模块340基于所述二类别概率预测图对第一向量表示进行加权处理后,第二分类模块330对加权处理后得到的第二向量表示进行分类映射,并输出多类别概率预测图;之后,计算二类别概率预测图与第一标签的交叉熵,将其作为该训练样本的第一预测损失值;计算多类别概率预测图与第二标签的交叉熵,将其作为该训练样本的第二预测损失值。对所有训练样本进行预测之后,将得到每个训练样本对应的第一预测损失值和第二预测损失值;最后,以所有训练样本的第一预测损失值和第二预测损失值最小为目标(即以深度学习网络的损失值(第一预测损失值与第二预测损失值之和)最小为目标),优化所述深度学习网络的网络参数,对所述深度学习网络进行迭代训练,直至第一预测损失值和第二预测损失值收敛,即深度学习网络的损失值收敛,完成深度学习网络的训练过程。
参阅图4所示的深度学习网络结构,所述深度学习网络包括一个主干网络结构(即特征提取模块310)和三个分支网络结构(即第一分类模块320、注意力模块340加第二分类模块330,以及阈值图生成模块350),并且,三个分支网络结构的输入均为主干网络结构的输出,三个分支网络结构有各自的输出,因此,在构建深度学习网络的训练样本的过程中,对于每个训练样本,其匹配的样本标签包括三部分:对应第一分类模块320预测结果的第一标签,对应第二分类模块330预测结果的第二标签,以及,对应阈值图生成模块350预测结果的第三标签。
第一标签和第二标签的含义和生成方法参见前面段落中的描述,此处不再赘述。
第三标签为作为样本数据的文本图像的阈值图。阈值图可以使用与第一标签类似的方法生成。例如,将文本图像中文本框分别向内和向外扩张0.4倍,然后计算收缩框和扩张框之间的区域内像素点距离其最近文本框边界的归一化距离D,将1-D作为阈值图在该点处的像素值。同时,设置阈值图中的像素最大值和最小值,例如,可以将阈值图中的像素最大值设置为0.7,将阈值图中的像素最小值设置为0.3。
参阅图4所示的深度学习网络,在深度学习网络训练过程中,对于每个训练样本,分别执行以下学习过程:首先,通过特征提取模块310进行特征提取和融合处理后,将得到该训练样本的第一向量表示;然后,第一分类模块320和阈值图生成模块350进一步分别对第一向量表示进行分类映射,第一分类模块320将输出二类别概率预测图,,阈值图生成模块350将输出阈值图;同时,注意力模块340基于所述二类别概率预测图对第一向量表示进行加权处理后,第二分类模块330进一步对加权处理后得到的第二向量表示进行分类映射,并输出多类别概率预测图;之后,计算二类别概率预测图与第一标签的交叉熵,将其作为该训练样本的第一预测损失值;计算多类别概率预测图与第二标签的交叉熵,将其作为该训练样本的第二预测损失值;计算阈值图生成模块350输出的阈值图与第三标签的平均绝对误差(即L1loss),将其作为该训练样本的第三预测损失值。对所有训练样本进行预测之后,将得到每个训练样本对应的第一预测损失值、第二预测损失值和第三预测损失值;最后,以所有训练样本的第一预测损失值、第二预测损失值和第三预测损失值最小为目标(即以深度学习网络的损失值(第一预测损失值、第二预测损失值与第三预测损失值之和)最小为目标),优化所述深度学习网络的网络参数,对所述深度学习网络进行迭代训练,直至第一预测损失值、第二预测损失值和第三预测损失值收敛,即深度学习网络的损失值收敛,完成深度学习网络的训练过程。
本申请的一些实施例中,还可以首先训练特征提取模块310和第一分类模块320,之后,基于训练得到的特征提取模块310的参数,进一步训练注意力模块340和第二分类模块330,以及,阈值图生成模块350,本申请实施例中不再展开描述。
本申请的一些实施例中,所述注意力模块进一步包括:空间注意力子模块和通道注意力子模块,所述基于所述二类别概率预测图,通过所述注意力模块对所述第一向量表示进行空间加权处理,得到第二向量表示,包括以下任意一种方式。
第一种,以所述二类别概率预测图的各像素点的像素值为权重,通过所述注意力模块对所述第一向量表示进行空间加权处理,得到第二向量表示。例如,通过空间注意力子模块(即基于空间注意力机制的网络模块),以所述第一分类模块320输出的二类别概率预测图中各像素点的像素值为权重,将二类别概率预测图中各像素点的像素值与所述特征提取模块310输出的第一向量表示进行逐像素相乘,将相乘后得到的结果作为第二向量表示。在二类别概率预测图中,文本行区域像素点的像素值会比较高,非文本行区域(即背景区域)像素点的像素值会比较低,因此,二类别概率预测图与第一向量表示相乘之后得到第二向量表示时,第一向量表示中文本行区域的特征(即向量表示)会得到突出,非文本行区域的特征会被抑制,使得第二分类模块330基于第二向量表示进行多类别预测时,有利于提升第二分类模块330输出更精确的多类别概率预测图。
第二种,以所述二类别概率预测图的各像素点的像素值为权重,通过所述注意力模块对所述第一向量表示进行空间加权处理;之后,将进行空间加权处理得到的特征图输入至所述注意力模块,计算各通道对应的权重,再以计算得到的权重对所述特征图进行通道加权处理,得到第二向量表示。例如,首先,通过空间注意力子模块(即基于空间注意力机制的网络模块),以所述第一分类模块320输出的二类别概率预测图中各像素点的像素值为权重,将二类别概率预测图中各像素点的像素值与所述特征提取模块310输出的第一向量表示进行逐像素相乘;然后,将逐像素相乘后得到的特征图输入至通道注意力子模块,计算通道注意力子模块各通道的权重;并以计算得到的通道权重对逐像素相乘后得到的特征图进一步进行加权处理,将最终结果作为第二向量表示。
本申请的一些实施例中,通道注意力子模块可以采用SE-insept ion模型结构。以进行所述空间加权处理后得到的向量表示为640x640x3维的向量举例,如果计算得到的通道权重为[0.5,0.3,0.2],则说明对应第一个通道(如第一层特征)的向量重要性最高,对应第三个通道(如第三层特征)的向量重要性最低,将各通道的权重与所述空间加权处理后得到的各通道的向量表示(即特征图)相乘,得到新的向量表示作为第二向量表示。
通过对基于空间注意力机制加权处理后的向量表示(即特征图),进一步基于通道注意力机制进行加权处理得到的第二向量表示,在通道方向上突出权重高的特征表达,在第二分类模块330基于第二向量表示进行多类别概率预测时,可以进一步提升第二分类模块330输出多类别概率预测图的精确度。
在线识别过程中,目标文本图像通过训练得到的模型将输出按照不同语种划分后的文本行。
本申请的另一些实施例中,也可以将包含混合语种的完整一行文本标注为一个文本行,后续再对该文本行进行切分,本申请对此不作限定。
本申请实施例公开的文本行语种识别方法,通过一个深度学习网络同时完成文本行检测和语种识别两个任务,同时得到文本行的位置和对应的语种。利用深度学习网络的一个分支网络结构得到二类别概率预测图,进行文本行检测,同时利用另外一个分支网络结构得到多类别概率预测图,将文本行检测结果和多类别概率预测结果对各个文本行进行语种分类,上述方法提升了文本行检测和语种识别的精度。并且,在训练阶段,只需要用一个训练数据集对一个深度学习网络进行训练,便能同时完成文本行检测和语种识别的任务,同时得到文本行位置和对应的语种检测结果,大幅降低了训练过程的时间成本和维护成本。
实施例二
本申请实施例公开的一种文本行语种识别装置,如图5所示,所述装置包括:
文本行位置信息和像素点分类概率值确定模块510,用于确定目标文本图像中的文本行位置信息,以及,确定所述目标文本图像中每个像素点匹配的预设文本属性类别的概率值,其中,所述预设文本属性类别用于指示相应像素点为背景像素点或者为预设语种像素点;
文本行对应图像区域确定模块520,用于根据所述文本行位置信息,确定所述目标文本图像中包括的各文本行对应的图像区域;
不同语种像素点的数量确定模块530,用于根据所述图像区域中每个像素点匹配的预设文本属性类别的概率值,分别确定各所述图像区域中每一种所述预设语种像素点的数量;
文本行语种确定模块540,用于对于每个所述文本行对应的所述图像区域,根据所述图像区域中每一种所述预设语种像素点的数量,确定所述文本行匹配的语种。
本申请的一些实施例中,所述确定目标文本图像中的文本行位置信息,包括:
通过预先训练的深度学习网络的特征提取模块,对所述目标文本图像进行特征提取和融合处理,得到所述目标文本图像的第一向量表示;
通过所述深度学习模块的第一分类模块对所述第一向量表示进行二分类映射,确定所述目标文本图像的二类别概率预测图,其中,所述二类别概率预测图的各像素点的像素值用于指示所述目标文本图像中相应像素点属于前景像素点的概率;
根据所述二类别概率预测图确定所述目标文本图像中的文本行位置信息。
本申请的一些实施例中,所述通过预先训练的深度学习网络的特征提取模块,对所述目标文本图像进行特征提取和融合处理,得到所述目标文本图像的第一向量表示之后,还包括:
通过所述深度学习网络的阈值图生成模块对所述第一向量表示进行特征映射,确定所述目标文本图像匹配的阈值图;
所述根据所述二类别概率预测图确定所述目标文本图像中的文本行位置信息,包括:
将所述阈值图和所述二类别概率预测图进行可微分二值化,得到所述目标文本图像匹配的二元分割图,其中,所述二元分割图中各像素点的像素值用于指示所述目标文本图像中相应像素点属于前景像素点或背景像素点;
根据所述二元分割图,确定所述目标文本图像中的文本行位置信息。
本申请的一些实施例中,所述通过预先训练的深度学习网络的特征提取模块,对所述目标文本图像进行特征提取和融合处理,得到所述目标文本图像的第一向量表示之后,还包括:基于所述二类别概率预测图,通过所述注意力模块对所述第一向量表示进行空间加权处理,得到第二向量表示;通过所述深度学习网络的第二分类模块对所述第二向量表示进行多分类映射,确定所述目标文本图像的多类别概率预测图;其中,所述多类别概率预测图中每个像素点的像素值用于指示所述目标文本图像中相应像素点匹配预设文本属性类别的概率值。
本申请的一些实施例中,所述基于所述二类别概率预测图,通过所述注意力模块对所述第一向量表示进行空间加权处理,得到加权向量表示,包括以下任意一种方式:第一种,以所述二类别概率预测图的各像素点的像素值为权重,通过所述注意力模块对所述第一向量表示进行空间加权处理,得到第二向量表示;第二种,以所述二类别概率预测图的各像素点的像素值为权重,通过所述注意力模块对所述第一向量表示进行空间加权处理;之后,将进行空间加权处理得到的特征图输入至所述注意力模块,计算各通道对应的权重,再以计算得到的权重对所述特征图进行通道加权处理,得到第二向量表示。
本申请的一些实施例中,所述根据所述图像区域中每一种所述预设语种像素点的数量,确定所述文本行匹配的语种,包括:
将所述数量的最大值对应的所述预设语种像素点匹配的语种,确定为所述图像区域对应的所述文本行匹配的语种。
本申请的一些实施例中,如图6所示,所述装置还包括:
训练样本构建模块550,用于构建若干训练样本;其中,每条所述训练样本的样本数据为至少包括一个文本行的文本图像、每个所述文本行匹配的语种信息和在所述文本图像中的位置信息,每条所述训练样本至少匹配以下两个样本标签:第一标签、第二标签;所述第一标签用于指示相应样本数据中各像素点属于前景像素点或者背景像素点的真实值,所述第二标签用于指示相应样本数据中各像素点为背景像素点或者为预设语种像素点的真实值;
模型训练模块560,用于基于所述训练样本训练深度学习网络,所述深度学习网络包括特征提取模块、第一分类模块和第二分类模块;其中,所述深度学习网络的损失值包括所述第一分类模块的损失值和所述第二分类模块的损失值,所述第一分类模块的损失值根据所述第一分类模块对所述训练样本进行预测得到的二类别概率预测图与相应训练样本的第一标签的交叉熵计算得到;所述第二分类模块的损失值根据所述第二分类模块对所述训练样本进行预测得到的多类别概率预测图与相应训练样本的第二标签的交叉熵计算得到。
本申请的一些实施例中,所述训练样本构建模块550,还用于构建若干训练样本;其中,每条所述训练样本的样本数据为至少包括一个文本行的文本图像、每个所述文本行匹配的语种信息和在所述文本图像中的位置信息,每条所述训练样本至少匹配以下三个样本标签:第一标签、第二标签和第三标签;所述第一标签用于指示相应样本数据中各像素点属于前景像素点或者背景像素点的真实值,所述第二标签用于指示相应样本数据中各像素点为背景像素点或者为预设语种像素点的真实值;所述第三标签为相应样本数据的阈值图;
所述模型训练模块560,还用于基于所述训练样本训练深度学习网络,所述深度学习网络包括特征提取模块、第一分类模块、第二分类模块和阈值图生成模块;其中,所述深度学习网络的损失值包括所述第一分类模块的损失值、所述第二分类模块的损失值,以及,所述阈值图生成模块的损失值,所述第一分类模块的损失值根据所述第一分类模块对所述训练样本进行预测得到的二类别概率预测图与相应训练样本的第一标签的交叉熵计算得到;所述第二分类模块的损失值根据所述第二分类模块对所述训练样本进行预测得到的多类别概率预测图与相应训练样本的第二标签的交叉熵计算得到;所述阈值图生成模块的损失值根据所述阈值图生成模块对所述训练样本进行预测得到的阈值图与相应训练样本的第三标签的平均绝对误差计算得到。
本申请实施例公开的文本行语种识别装置,用于实现本申请实施例一中所述的文本行语种识别方法,装置的各模块的具体实施方式不再赘述,可参见方法实施例相应步骤的具体实施方式。
本申请实施例公开的文本行语种识别装置,通过确定目标文本图像中的文本行位置信息,以及,确定所述目标文本图像中每个像素点匹配的预设文本属性类别的概率值,其中,所述预设文本属性类别用于指示相应像素点为背景像素点或者为预设语种像素点;根据所述文本行位置信息,确定所述目标文本图像中包括的各文本行对应的图像区域;根据所述图像区域中每个像素点匹配的预设文本属性类别的概率值,分别确定各所述图像区域中每一种所述预设语种像素点的数量;对于每个所述文本行对应的所述图像区域,根据所述图像区域中每一种所述预设语种像素点的数量,确定所述文本行匹配的语种,有效提升了文本图像中文本行语种识别算法的准确度,降低计算量。
本申请实施例公开的文本行语种识别装置,通过独立确定目标文本图像中的文本行位置信息,以及,确定所述目标文本图像中每个像素点匹配的预设文本属性类别的概率值(例如,通过深度学习网络的两个网络分支分别确定目标文本图像中的文本行位置信息和每个像素点匹配预设文本属性类别的概率值),并融合文本行位置信息和文本类别属性进行文本行内的语种识别,避免了现有技术中首先识别目标文本图像中的文本行位置信息,再基于文本行位置信息进行指定文本行的语种识别时,由于文本行位置信息确定不准确导致的误差积累,从而降低文本行语种识别准确度的问题。
通过利用一个深度学习网络同时完成文本行检测和语种识别两个任务,同时得到文本行的位置和对应的语种。利用深度学习网络的一个分支网络结构得到二类别概率预测图,进行文本行检测,同时利用另外一个分支网络结构得到多类别概率预测图,将文本行检测结果和多类别概率预测结果对各个文本行进行语种分类,上述装置提升了文本行检测和语种识别的精度。并且,在训练阶段,只需要用一个训练数据集对一个深度学习网络进行训练,便能同时完成文本行检测和语种识别的任务,同时得到文本行位置和对应的语种检测结果,大幅降低了训练过程中的时间成本和维护成本。
相应的,本申请还公开了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如本申请实施例一所述的文本行语种识别方法。所述电子设备可以为PC机、移动终端、个人数字助理、平板电脑等。
本申请还公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请实施例一所述的文本行语种识别方法的步骤。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上对本申请提供的一种文本行语种识别方法及装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
本文中所称的“一个实施例”、“实施例”或者“一个或者多个实施例”意味着,结合实施例描述的特定特征、结构或者特性包括在本申请的至少一个实施例中。此外,请注意,这里“在一个实施例中”的词语例子不一定全指同一个实施例。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本申请的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (11)
1.一种文本行语种识别方法,其特征在于,包括:
确定目标文本图像中的文本行位置信息,以及,确定所述目标文本图像中每个像素点匹配的预设文本属性类别的概率值,其中,所述预设文本属性类别用于指示相应像素点为背景像素点或者为预设语种像素点;
根据所述文本行位置信息,确定所述目标文本图像中包括的各文本行对应的图像区域;
根据所述图像区域中每个像素点匹配的预设文本属性类别的概率值,分别确定各所述图像区域中每一种所述预设语种像素点的数量;
对于每个所述文本行对应的所述图像区域,根据所述图像区域中每一种所述预设语种像素点的数量,确定所述文本行匹配的语种。
2.根据权利要求1所述的方法,其特征在于,所述确定目标文本图像中的文本行位置信息,包括:
通过预先训练的深度学习网络的特征提取模块,对所述目标文本图像进行特征提取和融合处理,得到所述目标文本图像的第一向量表示;
通过所述深度学习网络的第一分类模块对所述第一向量表示进行二分类映射,确定所述目标文本图像的二类别概率预测图,其中,所述二类别概率预测图的各像素点的像素值用于指示所述目标文本图像中相应像素点属于前景像素点的概率;
根据所述二类别概率预测图确定所述目标文本图像中的文本行位置信息。
3.根据权利要求2所述的方法,其特征在于,所述通过预先训练的深度学习网络的特征提取模块,对所述目标文本图像进行特征提取和融合处理,得到所述目标文本图像的第一向量表示的步骤之后,还包括:
通过所述深度学习网络的阈值图生成模块对所述第一向量表示进行特征映射,确定所述目标文本图像匹配的阈值图;
所述根据所述二类别概率预测图确定所述目标文本图像中的文本行位置信息的步骤,包括:
将所述阈值图和所述二类别概率预测图进行可微分二值化,得到所述目标文本图像匹配的二元分割图,其中,所述二元分割图中各像素点的像素值用于指示所述目标文本图像中相应像素点属于前景像素点或背景像素点;
根据所述二元分割图,确定所述目标文本图像中的文本行位置信息。
4.根据权利要求2所述的方法,其特征在于,所述深度学习网络还包括:注意力模块,所述通过预先训练的深度学习网络的特征提取模块,对所述目标文本图像进行特征提取和融合处理,得到所述目标文本图像的第一向量表示的步骤之后,还包括:
基于所述二类别概率预测图,通过所述注意力模块对所述第一向量表示进行空间加权处理,得到第二向量表示;
通过所述深度学习网络的第二分类模块对所述第二向量表示进行多分类映射,确定所述目标文本图像的多类别概率预测图;其中,所述多类别概率预测图中每个像素点的像素值用于指示所述目标文本图像中相应像素点匹配预设文本属性类别的概率值。
5.根据权利要求4所述的方法,其特征在于,所述基于所述二类别概率预测图,通过所述注意力模块对所述第一向量表示进行空间加权处理,得到第二向量表示的步骤,包括:
以所述二类别概率预测图的各像素点的像素值为权重,通过所述注意力模块对所述第一向量表示进行空间加权处理,得到第二向量表示;或者,
以所述二类别概率预测图的各像素点的像素值为权重,通过所述注意力模块对所述第一向量表示进行空间加权处理;之后,将进行空间加权处理得到的特征图输入至所述注意力模块,计算各通道对应的权重,再以计算得到的权重对所述特征图进行通道加权处理,得到第二向量表示。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述根据所述图像区域中每一种所述预设语种像素点的数量,确定所述文本行匹配的语种的步骤,包括:
将所述数量的最大值对应的所述预设语种像素点匹配的语种,确定为所述图像区域对应的所述文本行匹配的语种。
7.根据权利要求1至5任一项所述的方法,其特征在于,所述确定目标文本图像中的文本行位置信息,以及,确定所述目标文本图像中每个像素点匹配的预设文本属性类别的概率值的步骤之前,还包括:
构建若干训练样本;其中,每条所述训练样本的样本数据为至少包括一个文本行的文本图像、每个所述文本行匹配的语种信息和在所述文本图像中的位置信息,每条所述训练样本至少匹配以下两个样本标签:第一标签、第二标签;所述第一标签用于指示相应样本数据中各像素点属于前景像素点或者背景像素点的真实值,所述第二标签用于指示相应样本数据中各像素点为背景像素点或者为预设语种像素点的真实值;
基于所述训练样本训练深度学习网络,所述深度学习网络包括特征提取模块、第一分类模块和第二分类模块;其中,所述深度学习网络的损失值包括所述第一分类模块的损失值和所述第二分类模块的损失值,所述第一分类模块的损失值根据所述第一分类模块对所述训练样本进行预测得到的二类别概率预测图与相应训练样本的第一标签的交叉熵计算得到;所述第二分类模块的损失值根据所述第二分类模块对所述训练样本进行预测得到的多类别概率预测图与相应训练样本的第二标签的交叉熵计算得到。
8.根据权利要求1至5任一项所述的方法,其特征在于,所述确定目标文本图像中的文本行位置信息,以及,确定所述目标文本图像中每个像素点匹配的预设文本属性类别的概率值的步骤之前,还包括:
构建若干训练样本;其中,每条所述训练样本的样本数据为至少包括一个文本行的文本图像、每个所述文本行匹配的语种信息和在所述文本图像中的位置信息,每条所述训练样本至少匹配以下三个样本标签:第一标签、第二标签和第三标签;所述第一标签用于指示相应样本数据中各像素点属于前景像素点或者背景像素点的真实值,所述第二标签用于指示相应样本数据中各像素点为背景像素点或者为预设语种像素点的真实值;所述第三标签为相应样本数据的阈值图;
基于所述训练样本训练深度学习网络,所述深度学习网络包括特征提取模块、第一分类模块、第二分类模块和阈值图生成模块;其中,所述深度学习网络的损失值包括所述第一分类模块的损失值、所述第二分类模块的损失值,以及,所述阈值图生成模块的损失值,所述第一分类模块的损失值根据所述第一分类模块对所述训练样本进行预测得到的二类别概率预测图与相应训练样本的第一标签的交叉熵计算得到;所述第二分类模块的损失值根据所述第二分类模块对所述训练样本进行预测得到的多类别概率预测图与相应训练样本的第二标签的交叉熵计算得到;所述阈值图生成模块的损失值根据所述阈值图生成模块对所述训练样本进行预测得到的阈值图与相应训练样本的第三标签的平均绝对误差计算得到。
9.一种文本行语种识别装置,其特征在于,包括:
文本行位置信息和像素点分类概率值确定模块,用于确定目标文本图像中的文本行位置信息,以及,确定所述目标文本图像中每个像素点匹配的预设文本属性类别的概率值,其中,所述预设文本属性类别用于指示相应像素点为背景像素点或者为预设语种像素点;
文本行对应图像区域确定模块,用于根据所述文本行位置信息,确定所述目标文本图像中包括的各文本行对应的图像区域;
不同语种像素点的数量确定模块,用于根据所述图像区域中每个像素点匹配的预设文本属性类别的概率值,分别确定各所述图像区域中每一种所述预设语种像素点的数量;
文本行语种确定模块,用于对于每个所述文本行对应的所述图像区域,根据所述图像区域中每一种所述预设语种像素点的数量,确定所述文本行匹配的语种。
10.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的程序代码,其特征在于,所述处理器执行所述程序代码时实现权利要求1至8任意一项所述的文本行语种识别方法。
11.一种计算机可读存储介质,其上存储有程序代码,其特征在于,该程序代码被处理器执行时实现权利要求1至8任意一项所述的文本行语种识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110648995.2A CN113468977A (zh) | 2021-06-10 | 2021-06-10 | 文本行语种识别方法、装置、电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110648995.2A CN113468977A (zh) | 2021-06-10 | 2021-06-10 | 文本行语种识别方法、装置、电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113468977A true CN113468977A (zh) | 2021-10-01 |
Family
ID=77869633
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110648995.2A Pending CN113468977A (zh) | 2021-06-10 | 2021-06-10 | 文本行语种识别方法、装置、电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113468977A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115018857A (zh) * | 2022-08-10 | 2022-09-06 | 南昌昂坤半导体设备有限公司 | 图像分割方法、装置、计算机可读存储介质及计算机设备 |
-
2021
- 2021-06-10 CN CN202110648995.2A patent/CN113468977A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115018857A (zh) * | 2022-08-10 | 2022-09-06 | 南昌昂坤半导体设备有限公司 | 图像分割方法、装置、计算机可读存储介质及计算机设备 |
CN115018857B (zh) * | 2022-08-10 | 2022-11-11 | 南昌昂坤半导体设备有限公司 | 图像分割方法、装置、计算机可读存储介质及计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111652217B (zh) | 文本检测方法、装置、电子设备及计算机存储介质 | |
WO2020221298A1 (zh) | 文本检测模型训练方法、文本区域、内容确定方法和装置 | |
CN110738207B (zh) | 一种融合文字图像中文字区域边缘信息的文字检测方法 | |
WO2019192397A1 (zh) | 一种任意形状的场景文本端到端识别方法 | |
CN111428723B (zh) | 字符识别方法及装置、电子设备、存储介质 | |
CN111814835B (zh) | 计算机视觉模型的训练方法、装置、电子设备和存储介质 | |
CN110378278B (zh) | 神经网络的训练方法、对象搜索方法、装置以及电子设备 | |
CN110443258B (zh) | 文字检测方法、装置、电子设备及存储介质 | |
CN110210431B (zh) | 一种基于点云语义标注和优化的点云分类方法 | |
US20180089525A1 (en) | Method for line and word segmentation for handwritten text images | |
CN110276351B (zh) | 多语言场景文本检测与识别方法 | |
CN115797706A (zh) | 目标检测方法、目标检测模型训练方法及相关装置 | |
CN113657274B (zh) | 表格生成方法、装置、电子设备及存储介质 | |
CN112733858B (zh) | 基于字符区域检测的图像文字快速识别方法及装置 | |
CN113591719A (zh) | 一种自然场景任意形状文本检测方法、装置和训练方法 | |
CN111414913B (zh) | 一种文字识别方法以及识别装置、电子设备 | |
CN113468979A (zh) | 文本行语种识别方法、装置、电子设备 | |
CN111507337A (zh) | 基于混合神经网络的车牌识别方法 | |
CN116311310A (zh) | 一种结合语义分割和序列预测的通用表格识别方法和装置 | |
Ayesh et al. | A robust line segmentation algorithm for Arabic printed text with diacritics | |
CN114581710A (zh) | 图像识别方法、装置、设备、可读存储介质及程序产品 | |
CN114724133A (zh) | 文字检测和模型训练方法、装置、设备及存储介质 | |
CN113468977A (zh) | 文本行语种识别方法、装置、电子设备 | |
CN113657196A (zh) | Sar图像目标检测方法、装置、电子设备和存储介质 | |
Yang et al. | Intelligent digitization of substation one-line diagrams based on computer vision |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |