CN112801103A - 文本方向识别及文本方向识别模型训练方法、装置 - Google Patents
文本方向识别及文本方向识别模型训练方法、装置 Download PDFInfo
- Publication number
- CN112801103A CN112801103A CN202110072744.4A CN202110072744A CN112801103A CN 112801103 A CN112801103 A CN 112801103A CN 202110072744 A CN202110072744 A CN 202110072744A CN 112801103 A CN112801103 A CN 112801103A
- Authority
- CN
- China
- Prior art keywords
- feature
- image
- text
- character
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 100
- 238000012549 training Methods 0.000 title claims description 53
- 238000012545 processing Methods 0.000 claims abstract description 235
- 230000007246 mechanism Effects 0.000 claims abstract description 54
- 238000000605 extraction Methods 0.000 claims abstract description 30
- 239000011159 matrix material Substances 0.000 claims description 60
- 230000008569 process Effects 0.000 claims description 28
- 239000003623 enhancer Substances 0.000 claims description 26
- 230000009467 reduction Effects 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 14
- 230000004927 fusion Effects 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 description 31
- 238000003062 neural network model Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 9
- 239000013598 vector Substances 0.000 description 9
- 238000012015 optical character recognition Methods 0.000 description 6
- 238000012795 verification Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000002708 enhancing effect Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000007500 overflow downdraw method Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000001965 increasing effect Effects 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 229910052704 radon Inorganic materials 0.000 description 1
- SYUHGPGVQRZVTB-UHFFFAOYSA-N radon atom Chemical compound [Rn] SYUHGPGVQRZVTB-UHFFFAOYSA-N 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000002904 solvent Substances 0.000 description 1
- 238000012916 structural analysis Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/34—Smoothing or thinning of the pattern; Morphological operations; Skeletonisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/28—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
- G06V30/287—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters
Abstract
本发明的实施方式提供了一种文本方向识别方法,该方法包括:获取待识别的文本图像;进行针对所述文本图像的特征提取处理,得到初始图像特征;对所述初始图像特征进行基于注意力机制的增强处理,得到增强图像特征;进行基于所述增强图像特征的文本方向识别,得到所述文本图像的文本方向识别结果并输出。本发明的方法能够有效提升文本方向识别精度,和有效减少文本方向识别的运算消耗。此外,本发明的实施方式提供了一种文本方向识别装置、一种电子设备和一种计算机可读存储介质。
Description
技术领域
本发明的实施方式涉及计算机视觉技术领域,更具体地,本发明的实施方式涉及一种文本方向识别及文本方向识别模型训练方法、装置、电子设备和存储介质。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
随着计算机视觉技术的迅速发展,OCR(Optical Character Recognition,光学字符识别)技术得以广泛利用。由于通用场景不固定、文字布局多样等因素,如何将OCR技术做得又快又准是学术界和产业界非常关注的问题。
文本方向识别是OCR技术的重要内容,文本方向识别精度直接影响OCR技术中文字识别结果的准确性。在实现本发明公开构思中,发明人发现相关技术在进行文本图像中的文本方向识别时,通常利用深度学习模型对文本图像进行图像特征提取,然后基于提取的图像特征识别文本方向。
然而,该种文本方向识别方式存在识别精度不高、运算消耗大的问题。
发明内容
现有技术在进行文本图像中的文本方向识别时,通常利用深度学习模型对文本图像进行图像特征提取,然后基于提取的图像特征识别文本方向。该种文本方向识别方式存在识别精度不高、运算消耗大、计算效率低的问题。
为此,非常需要一种改进的文本方向识别方法,以实现一种识别精度高、运算消耗小、计算效率高的文本方向识别方案。
在本上下文中,本发明的实施方式期望提供一种文本方向识别方法及装置、文本方向识别模型的训练方法及装置、电子设备和存储介质。
在本发明实施方式的第一方面中,提供了一种文本方向识别方法,包括获取待识别的文本图像;进行针对所述文本图像的特征提取处理,得到初始图像特征;基于注意力机制对所述初始图像特征分别进行字符特征增强处理和字符序列特征增强处理,融合后得到增强图像特征;进行基于所述增强图像特征的文本方向识别,得到所述文本图像的文本方向识别结果并输出。
在本发明的一个实施例中,所述基于注意力机制对所述初始图像特征分别进行字符特征增强处理和字符序列特征增强处理,融合后得到增强图像特征,包括:对所述初始图像特征进行基于注意力机制的字符特征增强处理,得到第一增强子图像特征;同时,并行地,获取所述初始图像特征中文本的上下文序列依赖关系,根据所述上下文序列依赖关系,对所述初始图像特征进行基于注意力机制的字符序列特征增强处理,得到第二增强子图像特征;融合所述第一增强子图像特征和所述第二增强子图像特征,得到所述增强图像特征。
在本发明的另一实施例中,所述对所述初始图像特征进行基于注意力机制的字符特征增强处理,得到第一增强子图像特征,包括:利用第一注意力矩阵,进行针对所述初始图像特征的所述字符特征增强处理,得到所述第一增强子图像特征,其中,所述第一注意力矩阵指示针对所述初始图像特征的各特征点的注意力权重,所述特征点包括字符特征点和非字符特征点,所述字符特征点的注意力权重高于所述非字符特征点的注意力权重。
在本发明的又一实施例中,所述利用第一注意力矩阵,进行针对所述初始图像特征的所述字符特征增强处理,得到所述第一增强子图像特征,包括:进行针对所述初始图像特征的第一卷积处理,得到第一图像特征;将所述第一注意力矩阵与所述第一图像特征进行点乘,得到中间图像特征;将所述中间图像特征与所述第一图像特征进行求和,得到所述第一增强子图像特征。
在本发明的另一实施例中,所述对所述初始图像特征进行基于注意力机制的字符序列特征增强处理,得到第二增强子图像特征,包括:利用第二注意力矩阵,进行针对所述初始图像特征的所述字符序列特征增强处理,得到所述第二增强子图像特征,其中,所述第二注意力矩阵指示各特征点的上下文序列依赖关系。
在本发明的另一实施例中,生成所述第二注意力矩阵的方法包括:进行针对所述初始图像特征的第二卷积处理,得到C×H×W维度的第二图像特征,其中,C、H、W分别表示第二图像特征的通道数、高度和宽度;利用第一全连接层进行针对所述第二图像特征的第一降维处理,得到N×C维度的Query查询层特征图,N=H×W;利用第二全连接层进行针对所述第二图像特征的第二降维处理,得到C×N维度的Key键层特征图,N=H×W;将所述Query特征图和所述Key特征图进行点乘并经激活函数归一化处理,得到所述第二注意力矩阵。
在本发明的另一实施例中,所述利用第二注意力矩阵,进行针对所述初始图像特征的所述字符序列特征增强处理,得到所述第二增强子图像特征,包括:利用第三全连接层进行针对所述第二图像特征的第三降维处理,得到N×C维度的Value值层特征图,N=H×W;将所述第二注意力矩阵和所述Value特征图进行点乘,得到所述第二增强子图像特征。
在本发明实施方式的第二方面中,提供了一种文本方向识别模型的训练方法,包括:获取具有文本方向标识的样本文本图像;进行针对所述样本文本图像的特征提取处理,得到初始样本特征;基于注意力机制对所述样本文本图像分别进行字符特征增强处理和字符序列特征增强处理,融合后得到增强样本特征;基于所述文本方向标识和所述增强样本特征进行模型训练,得到所述文本方向识别模型。
在本发明的另一实施例中,所述基于注意力机制对所述样本文本图像分别进行字符特征增强处理和字符序列特征增强处理,融合后得到增强样本特征,包括:对所述初始样本特征进行基于注意力机制的字符特征增强处理,得到第一增强子样本特征;同时,并行地,获取所述初始样本特征中文本的上下文序列依赖关系,根据所述上下文序列依赖关系,对所述初始样本特征进行基于注意力机制的字符序列特征增强处理,得到第二增强子样本特征;融合所述第一增强子样本特征和所述第二增强子样本特征,得到所述增强样本特征。
在本发明的又一实施例中,所述对所述初始样本特征进行基于注意力机制的字符特征增强处理,得到第一增强子样本特征,包括:利用第三注意力矩阵,进行针对所述初始样本特征的所述字符特征增强处理,得到所述第一增强子样本特征,其中,所述第三注意力矩阵由针对所述样本文本图像的字符分割信息监督得到。
在本发明的另一实施例中,所述基于所述文本方向标识和所述增强样本特征进行模型训练,得到所述文本方向识别模型,包括:根据针对所述样本文本图像的所述字符分割信息和预设标准分割信息,确定分割损失参数;结合所述分割损失参数和连续时间分类CTC损失函数,进行基于所述文本方向标识和所述增强样本特征的模型训练,得到所述文本方向识别模型。
在本发明的另一实施例中,利用所述文本方向识别模型进行如第一方面所述的文本方向识别操作。
在本发明实施方式的第三方面中,提供了一种文本方向识别装置,包括:第一获取模块,用于获取待识别的文本图像;第一处理模块,用于进行针对所述文本图像的特征提取处理,得到初始图像特征;第二处理模块,用于基于注意力机制对所述初始图像特征分别进行字符特征增强处理和字符序列特征增强处理,融合后得到增强图像特征;第三处理模块,用于进行基于所述增强图像特征的文本方向识别,得到所述文本图像的文本方向识别结果并输出。
在本发明的一个实施例中,所述第二处理模块包括:第一处理子模块,用于对所述初始图像特征进行基于注意力机制的字符特征增强处理,得到第一增强子图像特征;第二处理子模块,用于获取所述初始图像特征中文本的上下文序列依赖关系,根据所述上下文序列依赖关系,对所述初始图像特征进行基于注意力机制的字符序列特征增强处理,得到第二增强子图像特征;第三处理子模块,用于融合所述第一增强子图像特征和所述第二增强子图像特征,得到所述增强图像特征。
在本发明的另一实施例中,所述第一处理子模块包括:第一处理单元,用于利用第一注意力矩阵,进行针对所述初始图像特征的所述字符特征增强处理,得到所述第一增强子图像特征,其中,所述第一注意力矩阵指示针对所述初始图像特征的各特征点的注意力权重,所述特征点包括字符特征点和非字符特征点,所述字符特征点的注意力权重高于所述非字符特征点的注意力权重。
在本发明的又一实施例中,所述第一处理单元包括:第一处理子单元,用于进行针对所述初始图像特征的第一卷积处理,得到第一图像特征;第二处理子单元,用于将所述第一注意力矩阵与所述第一图像特征进行点乘,得到中间图像特征;第三处理子单元,用于将所述中间图像特征与所述第一图像特征进行求和,得到所述第一增强子图像特征。
在本发明的另一实施例中,所述第二处理子模块,包括:第二处理单元,用于利用第二注意力矩阵,进行针对所述初始图像特征的所述字符序列特征增强处理,得到所述第二增强子图像特征,其中,所述第二注意力矩阵指示各特征点的上下文序列依赖关系。
在本发明的另一实施例中,第二处理单元还用于生成所述第二注意力矩阵,所述第二处理单元包括:第四处理子单元,用于进行针对所述初始图像特征的第二卷积处理,得到C×H×W维度的第二图像特征,其中,C、H、W分别表示第二图像特征的通道数、高度和宽度;第五处理子单元,用于利用第一全连接层进行针对所述第二图像特征的第一降维处理,得到N×C维度的Query查询层特征图,N=H×W;利用第二全连接层进行针对所述第二图像特征的第二降维处理,得到C×N维度的Key键层特征图,N=H×W;第六处理子单元,用于将所述Query特征图和所述Key特征图进行点乘并经激活函数归一化处理,得到所述第二注意力矩阵。
在本发明的另一实施例中,所述第二处理单元还包括:第七处理子单元,用于利用第三全连接层进行针对所述第二图像特征的第三降维处理,得到N×C维度的Value值层特征图,N=H×W;第八处理子单元,用于将所述第二注意力矩阵和所述Value特征图进行点乘,得到所述第二增强子图像特征。
在本发明实施方式的第五方面中,提供了一种文本方向识别模型的训练装置,包括:第二获取模块,用于获取具有文本方向标识的样本文本图像;第四处理模块,用于进行针对所述样本文本图像的特征提取处理,得到初始样本特征;第五处理模块,用于基于注意力机制对所述样本文本图像分别进行字符特征增强处理和字符序列特征增强处理,融合后得到增强样本特征;第六处理模块,用于基于所述文本方向标识和所述增强样本特征进行模型训练,得到所述文本方向识别模型。
在本发明的另一实施例中,所述第五处理模块包括:第四处理子模块,用于对所述初始样本特征进行基于注意力机制的字符特征增强处理,得到第一增强子样本特征;第五处理子模块,用于获取所述初始样本特征中文本的上下文序列依赖关系,根据所述上下文序列依赖关系,对所述初始样本特征进行基于注意力机制的字符序列特征增强处理,得到第二增强子样本特征;第六处理子模块,用于融合所述第一增强子样本特征和所述第二增强子样本特征,得到所述增强样本特征。
在本发明的又一实施例中,所述第四处理子模块包括:第三处理单元,用于利用第三注意力矩阵,进行针对所述初始样本特征的所述字符特征增强处理,得到所述第一增强子样本特征,其中,所述第三注意力矩阵由针对所述样本文本图像的字符分割信息监督得到。
在本发明的另一实施例中,所述第六处理模块包括:第七处理子模块,用于根据针对所述样本文本图像的所述字符分割信息和预设标准分割信息,确定分割损失参数;第八处理子模块,用于结合所述分割损失参数和连续时间分类CTC损失函数,进行基于所述文本方向标识和所述增强样本特征的模型训练,得到所述文本方向识别模型。
在本发明实施方式的第五方面中,提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现第一方面或第二方面中任一项所述的方法。
在本发明实施方式的第六方面中,提供了一种计算机可读存储介质,存储有计算机可执行指令,所述指令在被执行时用于实现第一方面或第二方面中任一项所述的方法。
在本发明实施方式的第七方面中,提供了一种计算机程序产品,包括计算机可读指令,其中,所述计算机可读指令被执行时用于实现第一方面或第二方面中任一项所述的方法。
根据本发明实施方式的文本方向识别方法和装置,通过对待识别的文本图像的初始图像特征进行字符特征增强处理,引导神经网络模型加强关注文本图像中的字符信息,以及对初始图像特征进行字符序列特征增强处理,引导神经网络模型加强关注文本图像中字符序列信息,通过引入注意力机制,实现侧重捕捉文本图像中的字符信息以及字符间的内部相关性,利用经增强处理后的增强图像特征预测文本方向,以及基于注意力机制进行计算资源分配,可以有效解决相关技术存在的文本方向识别精度不高、运算消耗大、计算效率低的问题,有利于实现一种识别精度高、识别效率得以有效改善的文本方向识别方法。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
图1示意性地示出了根据本发明实施方式的文本方向识别方法及其装置的示例性系统架构;
图2示意性地示出了根据本发明实施例的一种文本方向识别方法的流程图;
图3示意性地示出了根据本发明实施例的文本方向示意图;
图4示意性地示出了根据本发明实施例的一种对初始图像特征进行增强处理方法的流程图;
图5示意性地示出了根据本发明实施方式的字符特征增强处理过程的示意图;
图6示意性地示出了根据本发明实施方式的字符序列特征增强处理过程的示意图;
图7示意性地示出了根据本发明实施例的文本方向识别过程的示意图;
图8示意性地示出了根据本发明实施例的一种文本方向识别模型的训练方法的流程图;
图9示意性地示出了根据本发明实施例的用于实现文本方向识别或文本方向模型训练的程序产品示意图;
图10示意性地示出了根据本发明实施例的文本方向识别装置的框图;
图11示意性地示出了根据本发明实施例的文本方向识别模型训练装置的框图;以及
图12示意性地示出了根据本发明实施例的可实现文本方向识别或文本方向识别模型训练的计算设备。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本发明的实施方式,提出了一种文本方向识别方法、装置、电子设备和计算机可读介质。
在本文中,需要理解的是,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精神。
发明概述
本发明人发现,相关技术在进行基于文本图像的文本方向识别时,通常利用深度学习模型对文本图像进行图像特征提取,然后基于提取的图像特征识别文本方向。然而,由于提取的图像特征中可能包含大量与文本无关的其他特征,该类特征影响文本方向识别精度,同时会造成文本方向识别运算消耗大,计算效率低的问题。
本发明实施例通过构建双重注意力机制,引导神经网络模型加强关注初始图像特征中的字符信息及字符序列信息。通过对初始图像特征中的不同特征点赋予不同的注意力权重,对背景、噪音等信息分配较少的计算资源,能够有效提升文本方向识别效率,降低文本方向识别运算量,同时还有利于显著提升文本方向识别精度。
在介绍了本发明的基本原理之后,下面具体介绍本发明的各种非限制性实施方式。
应用场景总览
首先参考图1详细阐述本发明实施例的文本方向识别方法及其装置的示例性系统架构。
如图1所示,根据该实施例的系统架构100可以包括应用端101、102、103,网络104和服务器105。网络104用以在应用端101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。服务器105可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或分布式系统,还可以是提供云服务、云计算、网络服务、中间件服务等基础云计算服务的云服务器。
应用端101、102或103可以通过网络104向服务器105发送文本方向识别请求,识别请求指示待识别的文本图像。服务器105获取待识别的文本图像,进行针对文本图像的特征提取处理,得到初始图像特征,然后基于注意力机制对初始图像特征分别进行字符特征增强处理和字符序列特征增强处理,融合后得到增强图像特征,最后进行基于增强图像特征的文本方向识别,得到文本图像的文本方向识别结果,并将文本方向识别结果返回应用端101、102或103。
需要说明的是,本发明实施例所提供的文本方向识别方法一般可以由服务器105执行。相应地,本发明实施例所提供的文本方向识别装置一般可以设置于服务器105中。本发明实施例所提供的文本方向识别方法也可以由不同于服务器105且能够与应用端101、102、103和/或服务器105通信的其他服务器或服务器集群执行。相应地,本发明实施例所提供的文本方向识别装置也可以设置于不同于服务器105且能够与应用端101、102、103和/或服务器105通信的其他服务器或服务器集群中。
应该理解,图1中的业务服务器、网络和处理设备的数目仅仅是示意性的。根据实现需要,可以具有任意数目的业务服务器、网络和处理设备。
示例性方法
下面结合图1的应用场景,参考图2~图8来描述根据本发明示例性实施方式的文本方向识别方法。需要注意的是,上述应用场景仅是为了便于理解本发明的精神和原理而示出,本发明的实施方式在此方面不受任何限制。相反,本发明的实施方式可以应用于适用的任何场景。
图2示意性地示出了根据本发明实施例的一种文本方向识别方法的流程图。
如图2所示,方法200可以包括操作S210~S240。
在操作S210,获取待识别的文本图像。
在本实施例中,具体地,获取待识别的文本图像的方式,例如可以包括通过网络从图像数据库中获取,或者从本地存储中读取得到,或者可以通过文本方向识别装置搭载的传感器采集得到,传感器采集可以包括拍照采集和扫描采集等。文本图像中包含待识别方向的文本,文本可以包括印刷体文本和手写体文本,手写体文本包括但不限于联机手写文本和脱机手写文本。
由于获取的文本图像中可能存在光照、遮挡、断笔、粘连、污点等干扰,因此在对文本图像进行特征编码前,可以对文本图像进行预处理,预处理的方式例如可以包括灰度化、二值化、平滑、文本切分等处理,本实施例对预处理的方式不做限定。
获取的文本图像中可能包含多种文字排序方向的待识别文本,图3示意性地示出了根据本发明实施例的文本方向示意图,如图3所示,待识别文本“火星空间站”可以包含5种文字排序方向。
接下来,在操作S220,进行针对文本图像的特征提取处理,得到初始图像特征。
在本实施例中,具体地,神经网络模型一般无法直接处理图像数据,因此需要把图像数据转换成数值型数据,即需要对文本图像进行特征提取处理,得到初始图像特征。提取的初始图像特征例如可以包括文本图像中的不同局部对象的形状特征、纹理特征等,纹理反映了物体表面变化的表面结构组织的排列属性,纹理特征能够反映文本图像中不同局部对象的表面性特征。为保留丰富的细节特征,获得较大的感受野,实际应用多采用Rest Net(Residual Neural Network,残差神经网络)、VGG Net(Visual Geometry Group Network,视觉几何群网络)等网络进行图像特征提取,例如选用Rest Net50作为特征提取网络。
此外,还可以通过其他方式提取文本图像的纹理特征,例如基于运算模型的方法,具体例如基于马尔科夫模型、滑动平均模型、同步自回归模型、吉布斯模型等运算模型提取;基于结构分析的方法,具体例如基于句法纹理分析、特征滤波器、Laws纹理测量等方式提取;基于数学统计的方法,具体例如基于灰度共生矩阵、灰度差分统计、局部灰度统计、灰度行程统计等方式提取;基于信号处理的方法,具体例如基于离散余弦变换、局部傅里叶变换、拉东变换等方式提取,本实施例对提取纹理特征的方法不做限定。
接下来,在操作S230,基于注意力机制对初始图像特征分别进行字符特征增强处理和字符序列特征增强处理,融合后得到增强图像特征。
在本实施例中,具体地,注意力机制是指在信息中自适应选择出对当前任务目标更关键的信息的技术,深度学习中的注意力机制通过学习不同特征点的重要性,对提取的初始图像特征进行进一步过滤处理,实现把注意力权重主要分配在文本图像中的字符信息,以及分配在字符的上下文序列依赖关系上,以此起到强化文本图像中的文字前景信息,弱化背景干扰信息的作用。
具体地,基于注意力机制进行针对初始图像特征的字符特征增强处理,为初始图像特征中的字符特征分配更高的注意力权重,实现动态加强字符区域特征权重,引导神经网络模型加强关注字符区域。并行地,基于注意力机制进行针对初始图像特征的字符序列特征增强处理,通过考虑文本图像中的字符序列关系,实现捕获长距离的上下文序列依赖关系,基于上下文序列依赖关系分配注意力权重,引导神经网络模型加强关注字符序列关系。
在对初始图像特征分别进行字符特征增强处理和字符序列特征增强处理后,对两种增强处理方式得到的图像特征进行融合,得到增强图像特征,即得到文本图像的注意力增强特征。进行特征融合的方法可采用现有算法实现,例如可以基于贝叶斯决策理论算法、深度学习理论算法、稀疏表示理论算法等方法实现,本实施例对特征融合的方法不做限定。
通过构建双重注意力机制,对初始图像特征中的不同特征点赋予不同的注意力权重,对背景、噪音等信息分配较少的计算资源,能够有效提升文本方向识别效率,降低文本方向识别运算量,同时还有利于显著提升文本方向识别精度。
接下来,在操作S240,进行基于增强图像特征的文本方向识别,得到文本图像的文本方向识别结果并输出。
在本实施例中,具体地,在获得增强图像特征后,进行基于增强图像特征的文本方向识别,确定增强图像特征所表征的文本方向,得到文本方向识别结果。文本方向识别结果为OCR技术中后续进行文本方向矫正及文本内容识别提供实现基础,文本方向识别结果的准确性影响文本方向矫正的有效性,以及影响文本内容识别的识别精度。
本发明实施例的技术方案提供了一种文本方向识别方法,通过获取待识别的文本图像;进行针对文本图像的特征提取处理,得到初始图像特征;基于注意力机制对初始图像特征分别进行字符特征增强处理和字符序列特征增强处理,融合后得到增强图像特征;进行基于增强图像特征的文本方向识别,得到文本图像的文本方向识别结果并输出,本发明实施例通过双重注意力机制的构建,侧重捕捉字符信息及字符之间的内部相关性,通过对背景、噪音等信息分配较少的计算资源,能够显著改善文本方向识别的计算效率,和显著提高文本方向识别精度。
图4示意性地示出了根据本发明实施例的一种对初始图像特征进行增强处理方法的流程图。
如图4所示,操作S230可以包括操作S410~S430。
在操作S410,对初始图像特征进行基于注意力机制的字符特征增强处理,得到第一增强子图像特征。
在本实施例中,具体地,利用第一注意力矩阵,进行针对初始图像特征的字符特征增强处理,得到第一增强子图像特征,其中,第一注意力矩阵指示针对初始图像特征的各特征点的注意力权重,特征点包括字符特征点和非字符特征点,字符特征点的注意力权重高于非字符特征点的注意力权重。
其中,在利用第一注意力矩阵,进行针对初始图像特征的字符特征增强处理,得到第一增强子图像特征时,进行针对初始图像特征的第一卷积处理,得到第一图像特征;将第一注意力矩阵与第一图像特征进行点乘,得到中间图像特征;将中间图像特征与第一图像特征进行求和,得到第一增强子图像特征。
图5示意性地示出了根据本发明实施方式的字符特征增强处理过程的示意图,在过程500中,将初始图像特征输入卷积核为3×3的卷积层进行卷积优化,以此进行针对初始图像特征的第一卷积处理,得到第一图像特征。然后,将第一图像特征输入卷积核为1×1的卷积层进行卷积降维,以此引入自适应的第一注意力矩阵。将第一注意力矩阵与第一图像特征进行点乘,得到中间图像特征,第一注意力矩阵指示针对初始图像特征的各特征点的注意力权重,特征点包括字符特征点和非字符特征点,字符特征点的注意力权重高于非字符特征点的注意力权重。通过对字符特征点赋予更高的注意力权重,引导神经网络模型加强关注文本图像中的字符信息。为保留文本图像的更为全面的特征信息,同时为使文本图像中的重点特征(字符特征)更为突出,将中间图像特征与第一图像特征进行求和,得到字符特征增强后的第一增强子图像特征。
并行地,在操作S420,获取初始图像特征中文本的上下文序列依赖关系,根据上下文序列依赖关系,对初始图像特征进行基于注意力机制的字符序列特征增强处理,得到第二增强子图像特征。
在本实施例中,具体地,利用第二注意力矩阵,进行针对初始图像特征的字符序列特征增强处理,得到第二增强子图像特征,第二注意力矩阵指示各特征点的上下文序列依赖关系。
生成第二注意力矩阵的方法包括:进行针对初始图像特征的第二卷积处理,得到C×H×W维度的第二图像特征,其中,C、H、W分别表示第二图像特征的通道数、高度和宽度;利用第一全连接层进行针对第二图像特征的第一降维处理,得到N×C维度的Query特征图;利用第二全连接层进行针对第二图像特征的第二降维处理,得到C×N维度的Key特征图;将Query特征图和Key特征图进行点乘并经激活函数归一化处理,得到第二注意力矩阵。
在利用第二注意力矩阵,进行针对初始图像特征的字符序列特征增强处理,得到第二增强子图像特征时,利用第三全连接层进行针对第二图像特征的第三降维处理,得到N×C维度的Value特征图;将第二注意力矩阵和Value特征图进行点乘,得到第二增强子图像特征。
图6示意性地示出了根据本发明实施方式的字符序列特征增强处理过程的示意图,在过程600中,利用卷积核大小为1×1的卷积层,进行针对初始图像特征的第二卷积处理,实现将初始图像特征的维度统一至符合神经网络模型的预设要求维度,示例性地,对初始图像特征进行卷积处理得到C×H×W维度的第二图像特征,其中,C、H、W分别表示第二图像特征的通道数、高度和宽度。
将第二图像特征分别接入不同的全连接层进行降维处理,具体地,将第二图像特征接入第一全连接层进行第一降维处理,得到N×C维度的Query特征图,N=H×W;将第二图像特征接入第二全连接层进行第二降维处理,得到C×N维度的Key特征图,N=H×W。Query特征图指示针对不同特征点的Query向量,Key特征图指示针对不同特征点的Key向量。某一特征点的Key向量相当于该特征点的标签向量,其用于匹配和该特征点相关的其他特征点,某一特征点的Query向量用于和其他特征点的Key向量相乘,得到其他特征点相对该特征点的注意力得分。因此,将Query特征图和Key特征图进行点乘,并经softmax函数归一化处理,得到第二注意力矩阵。第二注意力矩阵指示各特征点的上下文序列依赖关系,其通过建模文本图像的全局注意力关系,指导神经网络模型加强专注文本图像中的字符序列关系。
将第二图像特征接入第三全连接层进行第三降维处理,得到N×C维度的Value特征图,N=H×W。Value特征图指示针对不同特征点的Value向量,在计算出各特征点相对其他特征点的注意力得分后,可以利用各特征点的Value向量进行加权求和,得到表征各特征点的上下文序列依赖关系的向量。因此,在将Query特征图与Key特征图进行点乘并经激活函数归一化处理得到第二注意力矩阵后,将第二注意力矩阵和Value特征图进行点乘,得到字符序列特征增强后的第二增强子图像特征。
接下来,在操作S430,融合第一增强子图像特征和第二增强子图像特征,得到增强图像特征。
在本实施例中,在得到字符特征增强的第一增强子图像特征,以及得到字符序列特征增强的第二增强子图像特征后,对第一增强子图像特征和第二增强子图像特征进行融合,得到增强图像特征。通过构建双重注意力机制,引导神经网络模型关注文本图像中的字符信息和字符序列信息,对背景、噪音等信息分配较少的计算资源,这能够显著提高文本方向识别的计算效率,和改善文本方向识别的识别精度。
图7示意性地示出了根据本发明实施例的文本方向识别过程的示意图,在过程700中,执行操作S710~S760。具体地,
在操作S710,获取待识别的文本图像;
在操作S720,进行针对文本图像的特征提取处理,得到初始图像特征;
在操作S730,进行基于初始图像特征的字符特征增强处理,得到第一增强子图像特征;
同时并行地,在操作S740,进行基于初始图像特征的字符序列特征增强处理,得到第二增强子图像特征;
在操作S750,进行基于第一增强子图像特征和第二增强子图像特征的特征融合处理,得到增强图像特征;
在操作S760,基于增强图像特征进行文本方向预测。
图8示意性地示出了根据本发明实施例的一种文本方向识别模型的训练方法的流程图。
如图8所示,方法800可以包括操作S810~S840。
在操作S810,获取具有文本方向标识的样本文本图像。
在本实施例中,具体地,获取具有文本方向标识的样本文本图像,文本方向标识为可用作参考基准的人工标签,人工标签可视作真实标签序列,因此,具有文本方向标识的样本文本图像为经过人工事先分类的有监督训练样本。
可选地,还可以获取没有经过人工事先分类的无监督训练样本,即获取没有被打上用作参考基准的人工标签的训练样本。无监督训练样本可用于神经网络模型的预训练,将无监督训练样本输入神经网络模型,神经网络模型输出针对无监督训练样本的文本方向识别结果,文本方向识别结果可能包含正确识别结果,也可能包含错误识别结果。由于无监督训练样本不具有作为参考基准的人工标签,因此一般无法判断识别结果的准确性,但是,无监督训练样本可用于实现针对神经网络模型的预训练,得到文本方向识别模型的初始参数。
在得到文本方向识别模型的初始参数后,利用有监督训练样本继续进行模型训练,通过有监督判断模型输出的文本方向识别结果的准确性,同时结合损失函数进行模型参数优化,得到具有一定泛化能力并且识别精度符合预设要求的文本方向识别模型。
接下来,在操作S820,进行针对样本文本图像的特征提取处理,得到初始样本特征。
在本实施例中,具体地,对样本文本图像进行特征提取处理,得到初始样本特征,本操作可参考操作S220,本实施例在此不做赘述。
接下来,在操作S830,基于注意力机制对样本文本图像分别进行字符特征增强处理和字符序列特征增强处理,融合后得到增强样本特征。
在本实施例中,具体地,对初始样本特征进行基于注意力机制的字符特征增强处理,得到第一增强子样本特征;同时,并行地,获取初始样本特征中文本的上下文序列依赖关系,根据上下文序列依赖关系,对初始样本特征进行基于注意力机制的字符序列特征增强处理,得到第二增强子样本特征;融合第一增强子样本特征和第二增强子样本特征,得到增强样本特征。
在对初始样本特征进行基于注意力机制的字符特征增强处理,得到第一增强子样本特征时,利用第三注意力矩阵,进行针对初始样本特征的字符特征增强处理,得到第一增强子样本特征,其中,第三注意力矩阵由针对样本文本图像的字符分割信息监督得到。
在模型训练过程中,添加监督项引导神经网络模型的注意力学习,具体地,将针对样本文本图像的字符分割信息作为监督项。相比于相关注意力机制技术中在训练阶段由神经网络模型自主学习各特征点的权重值,本实施例所添加的监督项可以显式引导文本方向识别模型的注意力层关注样本文本图像中的字符区域,得到更为精确的注意力增强结果。在利用文本方向识别模型进行文本方向预测时,本实施例中训练阶段的监督项可以被舍弃或关闭,从而使神经网络模型整体上可以在不增加额外计算量的情况下,保证较高的文本方向识别精度,同时也不会增加网络传输负担。
基于注意力机制对样本文本图像进行增强处理的过程可参考操作S410~S430,本实施例在此不做赘述。
接下来,在操作S840,基于文本方向标识和增强样本特征进行模型训练,得到文本方向识别模型。
在本实施例中,具体地,根据针对样本文本图像的字符分割信息和预设标准分割信息,确定分割损失参数;结合分割损失参数和CTC损失函数,进行基于文本方向标识和增强样本特征的模型训练,得到文本方向识别模型。
在完成文本方向识别模型的预训练后,将具有文本方向标识的样本文本图像输入文本方向识别模型,即将有监督训练样本输入文本方向识别模型,通过文本方向识别模型的编码器提取样本文本图像特征,得到样本文本图像的初始样本特征;利用文本方向识别模型的自注意力层对初始样本特征分别进行字符增强处理和字符序列增强处理,融合后得到增强样本特征;通过文本方向识别模型的解码器进行基于增强样本特征的文本方向预测,输出与样本文本图像关联的目标标签序列,目标标签序列指示针对样本文本图像的文本方向识别结果。
在得到目标标签序列后,结合有监督的样本文本图像和(ConnectionistTemporal Classification,连续时间分类)CTC损失函数,确定文本方向识别模型的CTC损失参数,CTC损失参数描述文本方向识别模型在将样本文本图像对齐为目标标签序列的过程中所产生的损失值。此外,还根据针对样本文本图像的字符分割信息和预设标准分割信息,确定与样本文本图像关联的分割损失参数,分割损失参数描述了在对样本文本图像进行字符分割过程中所产生的损失值。
根据预先向分割损失参数和CTC损失参数分配的权重值,对分割损失参数和CTC损失参数进行加权求和,得到联合损失参数。可以根据模型训练过程中的表现侧重,确定预先分配给分割损失参数和CTC损失参数的权重值。具体地,联合损失参数L=αLsmooth+(1-α)LCTC,其中,Lsmooth表示分割损失参数,LCTC表示CTC损失参数,α为预先分配的权重,0<α<1。
在得到联合损失参数后,利用联合损失参数对文本方向识别模型的参数进行更新,具体可利用联合损失参数对文本方向识别模型的编码器参数和/或解码器参数进行更新。可选地,在利用联合损失参数对文本方向识别模型的参数进行更新后,还可以利用具有文本方向标识的验证文本图像,进行文本方向识别模型的预测能力验证。验证文本图像的文本方向标识为可用作参考基准的人工标签,将验证文本图像输入更新后的文本方向识别模型中,得到针对验证文本图像的文本方向识别结果。将文本方向识别结果与人工标签进行比对,确定文本方向识别模型的预测结果的损失值是否满足预设损失阈值,是则停止训练文本方向识别模型,否则继续进行模型更新与优化。
示例性介质
在介绍了本发明示例性实施方式的方法之后,接下来,参考图9对本发明示例性实施方式的一种计算机可读存储介质进行介绍。计算机可读存储介质存储有计算机可执行指令,上述指令在被处理单元执行时用于实现上述方法实施例中任一项所述的文本方向识别方法,或实现任一项所述的文本方向识别模型训练方法。
在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在计算设备上运行时,所述程序代码用于使所述计算设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的文本方向识别方法中的操作,例如,所述计算设备可以执行如图2中所示的操作S210:获取待识别的文本图像;操作S220:进行针对文本图像的特征提取处理,得到初始图像特征;操作S230:基于注意力机制对初始图像特征分别进行字符特征增强处理和字符序列特征增强处理,融合后得到增强图像特征;操作S240:进行基于增强图像特征的文本方向识别,得到文本图像的文本方向识别结果并输出,或者可以执行如图8中所示的操作S810:获取具有文本方向标识的样本文本图像;操作S820,进行针对样本文本图像的特征提取处理,得到初始样本特征;操作S830,基于注意力机制对样本文本图像分别进行字符特征增强处理和字符序列特征增强处理,融合后得到增强样本特征;操作S840,基于文本方向标识和增强样本特征进行模型训练,得到文本方向识别模型。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
如图9所示,描述了根据本发明的实施方式的用于文本方向识别或文本方向模型训练的程序产品90,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在计算设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、有线、光缆,RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言——诸如Java,C++等,还包括常规的过程式程序设计语言——诸如“C”,语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)一连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
示例性装置
在介绍了本发明示例性实施方式的介质之后,接下来,参考图10对本发明示例性实施方式的文本方向识别装置进行介绍,以及参考图11对本发明示例性实施方式的文本方向识别模型的训练装置进行介绍。
图10示意性地示出了根据本发明实施例的文本方向识别装置的框图。
如图10所示,文本方向识别装置1000可以包括第一获取模块1010、第一处理模块1020、第二处理模块1030和第三处理模块1040。该处理装置可以执行参考方法实施例部分描述的方法。
具体地,第一获取模块1010,用于获取待识别的文本图像;第一处理模块1020,用于进行针对文本图像的特征提取处理,得到初始图像特征;第二处理模块1030,用于基于注意力机制对初始图像特征分别进行字符特征增强处理和字符序列特征增强处理,融合后得到增强图像特征;第三处理模块1040,用于进行基于增强图像特征的文本方向识别,得到文本图像的文本方向识别结果并输出。
本发明实施例的技术方案提供了一种文本方向识别方法,通过获取待识别的文本图像;进行针对文本图像的特征提取处理,得到初始图像特征;基于注意力机制对初始图像特征分别进行字符特征增强处理和字符序列特征增强处理,融合后得到增强图像特征;进行基于增强图像特征的文本方向识别,得到文本图像的文本方向识别结果并输出,本发明实施例通过构建双重注意力机制,侧重捕捉字符信息及字符之间的内部相关性,通过对背景、噪音等信息分配较少的计算资源,能够显著改善文本方向识别的计算效率,和显著提高文本方向识别精度。
在本发明的一个实施例中,第二处理模块包括:第一处理子模块,用于对初始图像特征进行基于注意力机制的字符特征增强处理,得到第一增强子图像特征;第二处理子模块,用于获取初始图像特征中文本的上下文序列依赖关系,根据上下文序列依赖关系,对初始图像特征进行基于注意力机制的字符序列特征增强处理,得到第二增强子图像特征;第三处理子模块,用于融合第一增强子图像特征和第二增强子图像特征,得到增强图像特征。
在本发明的另一实施例中,第一处理子模块包括:第一处理单元,用于利用第一注意力矩阵,进行针对初始图像特征的字符特征增强处理,得到第一增强子图像特征,其中,第一注意力矩阵指示针对初始图像特征的各特征点的注意力权重,特征点包括字符特征点和非字符特征点,字符特征点的注意力权重高于非字符特征点的注意力权重。
在本发明的又一实施例中,第一处理单元包括:第一处理子单元,用于进行针对初始图像特征的第一卷积处理,得到第一图像特征;第二处理子单元,用于将第一注意力矩阵与第一图像特征进行点乘,得到中间图像特征;第三处理子单元,用于将中间图像特征与第一图像特征进行求和,得到第一增强子图像特征。
在本发明的另一实施例中,第二处理子模块,包括:第二处理单元,用于利用第二注意力矩阵,进行针对初始图像特征的字符序列特征增强处理,得到第二增强子图像特征,其中,第二注意力矩阵指示各特征点的上下文序列依赖关系。
在本发明的另一实施例中,第二处理单元还用于生成第二注意力矩阵,第二处理单元包括:第四处理子单元,用于进行针对初始图像特征的第二卷积处理,得到C×H×W维度的第二图像特征,其中,C、H、W分别表示第二图像特征的通道数、高度和宽度;第五处理子单元,用于利用第一全连接层进行针对第二图像特征的第一降维处理,得到N×C维度的Query查询层特征图,N=H×W;利用第二全连接层进行针对第二图像特征的第二降维处理,得到C×N维度的Key键层特征图,N=H×W;第六处理子单元,用于将Query特征图和Key特征图进行点乘并经激活函数归一化处理,得到第二注意力矩阵。
在本发明的另一实施例中,第二处理单元还包括:第七处理子单元,用于利用第三全连接层进行针对第二图像特征的第三降维处理,得到N×C维度的Value值层特征图,N=H×W;第八处理子单元,用于将第二注意力矩阵和Value特征图进行点乘,得到第二增强子图像特征。
由于发明的示例实施例的文本方向识别装置1000的各个功能模块与上述文本方向识别方法的示例实施例的操作对应,因此在此不再赘述。
图11示意性地示出了根据本发明实施例的文本方向识别模型训练装置的框图。
如图11所示,训练装置1100可以包括第二获取模块1110、第四处理模块1120、第五处理模块1130和第六处理模块1140。该处理装置可以执行参考方法实施例部分描述的方法。
具体地,第二获取模块1110,用于获取具有文本方向标识的样本文本图像;第四处理模块1120,用于进行针对样本文本图像的特征提取处理,得到初始样本特征;第五处理模块1130,用于基于注意力机制对样本文本图像分别进行字符特征增强处理和字符序列特征增强处理,融合后得到增强样本特征;第六处理模块1140,用于基于文本方向标识和增强样本特征进行模型训练,得到文本方向识别模型。
在本发明的另一实施例中,第五处理模块包括:第四处理子模块,用于对初始样本特征进行基于注意力机制的字符特征增强处理,得到第一增强子样本特征;第五处理子模块,用于获取初始样本特征中文本的上下文序列依赖关系,根据上下文序列依赖关系,对初始样本特征进行基于注意力机制的字符序列特征增强处理,得到第二增强子样本特征;第六处理子模块,用于融合第一增强子样本特征和第二增强子样本特征,得到增强样本特征。
在本发明的又一实施例中,第四处理子模块包括:第三处理单元,用于利用第三注意力矩阵,进行针对初始样本特征的字符特征增强处理,得到第一增强子样本特征,其中,第三注意力矩阵由针对样本文本图像的字符分割信息监督得到。
在本发明的另一实施例中,第六处理模块包括:第七处理子模块,用于根据针对样本文本图像的字符分割信息和预设标准分割信息,确定分割损失参数;第八处理子模块,用于结合分割损失参数和连续时间分类CTC损失函数,进行基于文本方向标识和增强样本特征的模型训练,得到文本方向识别模型。
由于发明的示例实施例的文本方向识别模型的训练装置1100的各个功能模块与上述文本方向识别模型的训练方法的示例实施例的操作对应,因此在此不再赘述。
示例性计算设备
在介绍了本发明示例性实施方式的方法、介质和装置之后,接下来,参考图12对本发明示例性实施方式的一种计算设备,用于实现本发明的文本方向识别或文本方向识别模型训练。
本发明实施例还提供了一种计算设备。所属技术领域的技术人员能够理解,本发明的各个方面可以实现为装置、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
在一些可能的实施方式中,根据本发明的计算设备可以至少包括至少一个处理单元、以及至少一个存储单元。其中,所述存储单元存储有程序代码,当所述程序代码被所述处理单元执行时,使得所述处理单元执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的信息呈现方法中的操作。例如,所述处理单元可以执行如图2中所示的操作S210:获取待识别的文本图像;操作S220:进行针对文本图像的特征提取处理,得到初始图像特征;操作S230:基于注意力机制对初始图像特征分别进行字符特征增强处理和字符序列特征增强处理,融合后得到增强图像特征;操作S240:进行基于增强图像特征的文本方向识别,得到文本图像的文本方向识别结果并输出,或者可以执行如图8中所示的操作S810:获取具有文本方向标识的样本文本图像;操作S820,进行针对样本文本图像的特征提取处理,得到初始样本特征;操作S830,基于注意力机制对样本文本图像分别进行字符特征增强处理和字符序列特征增强处理,融合后得到增强样本特征;操作S840,基于文本方向标识和增强样本特征进行模型训练,得到文本方向识别模型。
下面参照图12来描述根据本发明的可进行文本方向识别或文本方向识别模型训练的计算设备1200。如图12所示的计算设备1200仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图12所示,计算设备1200以通用计算设备的形式表现。计算设备1200的组件可以包括但不限于:上述至少一个处理单元1210、上述至少一个存储单元1220、连接不同系统组件(包括存储单元1220和处理单元1210)的总线1230。
总线1230表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、图形加速端口、处理器或者使用多种总线结构中的任意总线结构的局域总线。
存储单元1220可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)1221和/或高速缓存存储器1222,还可以进一步包括只读存储器(ROM)1223。
存储单元1220还可以包括具有一组(至少一个)程序模块1224的程序/实用工具1225,这样的程序模块1224包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
计算设备1200也可以与一个或多个外部设备1240(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与计算设备1200交互的设备通信,和/或与使得计算设备1200能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/0)接口1250进行。并且,计算设备1200还可以通过网络适配器1260与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器1260通过总线1230与计算设备1200的其它模块通信。应当明白,尽管图中未示出,可以结合计算设备1200使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了装置的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些操作,将多个操作合并为一个操作执行,和/或将一个操作分解为多个操作执行。
虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。
Claims (10)
1.一种文本方向识别方法,包括:
获取待识别的文本图像;
进行针对所述文本图像的特征提取处理,得到初始图像特征;
基于注意力机制对所述初始图像特征分别进行字符特征增强处理和字符序列特征增强处理,融合后得到增强图像特征;
进行基于所述增强图像特征的文本方向识别,得到所述文本图像的文本方向识别结果并输出。
2.根据权利要求1所述的方法,其中,所述基于注意力机制对所述初始图像特征分别进行字符特征增强处理和字符序列特征增强处理,融合后得到增强图像特征,包括:
对所述初始图像特征进行基于注意力机制的字符特征增强处理,得到第一增强子图像特征;同时,并行地,
获取所述初始图像特征中文本的上下文序列依赖关系,根据所述上下文序列依赖关系,对所述初始图像特征进行基于注意力机制的字符序列特征增强处理,得到第二增强子图像特征;
融合所述第一增强子图像特征和所述第二增强子图像特征,得到所述增强图像特征。
3.根据权利要求2所述的方法,其中,所述对所述初始图像特征进行基于注意力机制的字符特征增强处理,得到第一增强子图像特征,包括:
利用第一注意力矩阵,进行针对所述初始图像特征的所述字符特征增强处理,得到所述第一增强子图像特征,
其中,所述第一注意力矩阵指示针对所述初始图像特征的各特征点的注意力权重,所述特征点包括字符特征点和非字符特征点,所述字符特征点的注意力权重高于所述非字符特征点的注意力权重。
4.根据权利要求3所述的方法,其中,所述利用第一注意力矩阵,进行针对所述初始图像特征的所述字符特征增强处理,得到所述第一增强子图像特征,包括:
进行针对所述初始图像特征的第一卷积处理,得到第一图像特征;
将所述第一注意力矩阵与所述第一图像特征进行点乘,得到中间图像特征;
将所述中间图像特征与所述第一图像特征进行求和,得到所述第一增强子图像特征。
5.根据权利要求2所述的方法,其中,所述对所述初始图像特征进行基于注意力机制的字符序列特征增强处理,得到第二增强子图像特征,包括:
利用第二注意力矩阵,进行针对所述初始图像特征的所述字符序列特征增强处理,得到所述第二增强子图像特征,
其中,所述第二注意力矩阵指示各特征点的上下文序列依赖关系。
6.根据权利要求5所述的方法,其中,生成所述第二注意力矩阵的方法包括:
进行针对所述初始图像特征的第二卷积处理,得到C×H×W维度的第二图像特征,其中,C、H、W分别表示第二图像特征的通道数、高度和宽度;
利用第一全连接层进行针对所述第二图像特征的第一降维处理,得到N×C维度的Query查询层特征图,N=H×W;
利用第二全连接层进行针对所述第二图像特征的第二降维处理,得到C×N维度的Key键层特征图,N=H×W;
将所述Query特征图和所述Key特征图进行点乘并经激活函数归一化处理,得到所述第二注意力矩阵。
7.根据权利要求6所述的方法,其中,所述利用第二注意力矩阵,进行针对所述初始图像特征的所述字符序列特征增强处理,得到所述第二增强子图像特征,包括:
利用第三全连接层进行针对所述第二图像特征的第三降维处理,得到N×C维度的Value值层特征图,N=H×W;
将所述第二注意力矩阵和所述Value特征图进行点乘,得到所述第二增强子图像特征。
8.一种文本方向识别模型的训练方法,包括:
获取具有文本方向标识的样本文本图像;
进行针对所述样本文本图像的特征提取处理,得到初始样本特征;
基于注意力机制对所述样本文本图像分别进行字符特征增强处理和字符序列特征增强处理,融合后得到增强样本特征;
基于所述文本方向标识和所述增强样本特征进行模型训练,得到所述文本方向识别模型。
9.一种文本方向识别装置,包括:
第一获取模块,用于获取待识别的文本图像;
第一处理模块,用于进行针对所述文本图像的特征提取处理,得到初始图像特征;
第二处理模块,用于基于注意力机制对所述初始图像特征分别进行字符特征增强处理和字符序列特征增强处理,融合后得到增强图像特征;
第三处理模块,用于进行基于所述增强图像特征的文本方向识别,得到所述文本图像的文本方向识别结果并输出。
10.一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1至7中任一项所述的方法,或者实现权利要求8所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110072744.4A CN112801103B (zh) | 2021-01-19 | 2021-01-19 | 文本方向识别及文本方向识别模型训练方法、装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110072744.4A CN112801103B (zh) | 2021-01-19 | 2021-01-19 | 文本方向识别及文本方向识别模型训练方法、装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112801103A true CN112801103A (zh) | 2021-05-14 |
CN112801103B CN112801103B (zh) | 2024-02-27 |
Family
ID=75810733
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110072744.4A Active CN112801103B (zh) | 2021-01-19 | 2021-01-19 | 文本方向识别及文本方向识别模型训练方法、装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112801103B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113792741A (zh) * | 2021-09-17 | 2021-12-14 | 平安普惠企业管理有限公司 | 文字识别方法、装置、设备及存储介质 |
CN114359903A (zh) * | 2022-01-06 | 2022-04-15 | 北京百度网讯科技有限公司 | 一种文本识别方法、装置、设备及存储介质 |
CN114359905A (zh) * | 2022-01-06 | 2022-04-15 | 北京百度网讯科技有限公司 | 一种文本识别方法、装置、电子设备及存储介质 |
CN114429633A (zh) * | 2022-01-28 | 2022-05-03 | 北京百度网讯科技有限公司 | 文本识别方法、模型的训练方法、装置、电子设备及介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109543667A (zh) * | 2018-11-14 | 2019-03-29 | 北京工业大学 | 一种基于注意力机制的文本识别方法 |
CN110097019A (zh) * | 2019-05-10 | 2019-08-06 | 腾讯科技(深圳)有限公司 | 字符识别方法、装置、计算机设备以及存储介质 |
US20200327384A1 (en) * | 2019-04-11 | 2020-10-15 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for detecting text regions in image, device, and medium |
CN111797834A (zh) * | 2020-05-28 | 2020-10-20 | 华南理工大学 | 文本识别方法、装置、计算机设备和存储介质 |
CN111860496A (zh) * | 2020-06-22 | 2020-10-30 | 中国平安财产保险股份有限公司 | 车牌识别方法、装置、设备及计算机可读存储介质 |
CN111950453A (zh) * | 2020-08-12 | 2020-11-17 | 北京易道博识科技有限公司 | 一种基于选择性注意力机制的任意形状文本识别方法 |
CN112149619A (zh) * | 2020-10-14 | 2020-12-29 | 南昌慧亦臣科技有限公司 | 一种基于Transformer模型自然场景文字识别方法 |
CN112215223A (zh) * | 2020-10-16 | 2021-01-12 | 清华大学 | 基于多元注意力机制的多方向场景文字识别方法及系统 |
-
2021
- 2021-01-19 CN CN202110072744.4A patent/CN112801103B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109543667A (zh) * | 2018-11-14 | 2019-03-29 | 北京工业大学 | 一种基于注意力机制的文本识别方法 |
US20200327384A1 (en) * | 2019-04-11 | 2020-10-15 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for detecting text regions in image, device, and medium |
CN110097019A (zh) * | 2019-05-10 | 2019-08-06 | 腾讯科技(深圳)有限公司 | 字符识别方法、装置、计算机设备以及存储介质 |
CN111797834A (zh) * | 2020-05-28 | 2020-10-20 | 华南理工大学 | 文本识别方法、装置、计算机设备和存储介质 |
CN111860496A (zh) * | 2020-06-22 | 2020-10-30 | 中国平安财产保险股份有限公司 | 车牌识别方法、装置、设备及计算机可读存储介质 |
CN111950453A (zh) * | 2020-08-12 | 2020-11-17 | 北京易道博识科技有限公司 | 一种基于选择性注意力机制的任意形状文本识别方法 |
CN112149619A (zh) * | 2020-10-14 | 2020-12-29 | 南昌慧亦臣科技有限公司 | 一种基于Transformer模型自然场景文字识别方法 |
CN112215223A (zh) * | 2020-10-16 | 2021-01-12 | 清华大学 | 基于多元注意力机制的多方向场景文字识别方法及系统 |
Non-Patent Citations (3)
Title |
---|
吴倩;应捷;黄影平;杨海马;胡文凯;: "融合多标签和双注意力机制的图像语义理解模型", 智能计算机与应用, no. 01 * |
王俊豪;罗轶凤;: "通过细粒度的语义特征与Transformer丰富图像描述", 华东师范大学学报(自然科学版), no. 05 * |
王雪娇;张超敏;: "基于CNN和LSTM的自然场景文本检测应用", 仪表技术, no. 09 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113792741A (zh) * | 2021-09-17 | 2021-12-14 | 平安普惠企业管理有限公司 | 文字识别方法、装置、设备及存储介质 |
CN113792741B (zh) * | 2021-09-17 | 2023-08-11 | 平安普惠企业管理有限公司 | 文字识别方法、装置、设备及存储介质 |
CN114359903A (zh) * | 2022-01-06 | 2022-04-15 | 北京百度网讯科技有限公司 | 一种文本识别方法、装置、设备及存储介质 |
CN114359905A (zh) * | 2022-01-06 | 2022-04-15 | 北京百度网讯科技有限公司 | 一种文本识别方法、装置、电子设备及存储介质 |
JP2022172292A (ja) * | 2022-01-06 | 2022-11-15 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | テキスト認識の方法、装置、電子機器、記憶媒体およびコンピュータプログラム |
JP7418517B2 (ja) | 2022-01-06 | 2024-01-19 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | テキスト認識の方法、装置、電子機器、記憶媒体およびコンピュータプログラム |
CN114429633A (zh) * | 2022-01-28 | 2022-05-03 | 北京百度网讯科技有限公司 | 文本识别方法、模型的训练方法、装置、电子设备及介质 |
CN114429633B (zh) * | 2022-01-28 | 2023-10-27 | 北京百度网讯科技有限公司 | 文本识别方法、模型的训练方法、装置、电子设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112801103B (zh) | 2024-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112801103B (zh) | 文本方向识别及文本方向识别模型训练方法、装置 | |
CN109117777B (zh) | 生成信息的方法和装置 | |
CN114399769B (zh) | 文本识别模型的训练方法、文本识别方法及装置 | |
Zhang et al. | Recent progresses on object detection: a brief review | |
JP7425147B2 (ja) | 画像処理方法、テキスト認識方法及び装置 | |
CN109919077B (zh) | 姿态识别方法、装置、介质和计算设备 | |
Shen et al. | Vehicle detection in aerial images based on lightweight deep convolutional network and generative adversarial network | |
CN116049397B (zh) | 基于多模态融合的敏感信息发现并自动分类分级方法 | |
WO2019040168A1 (en) | OBJECT DETECTION BASED ON DEEP NEURAL NETWORK | |
CN112861575A (zh) | 一种行人结构化方法、装置、设备和存储介质 | |
CN114419570A (zh) | 一种点云数据识别方法、装置、电子设备及存储介质 | |
CN114092759A (zh) | 图像识别模型的训练方法、装置、电子设备及存储介质 | |
US20240046067A1 (en) | Data processing method and related device | |
CN113780326A (zh) | 一种图像处理方法、装置、存储介质及电子设备 | |
CN116432019A (zh) | 一种数据处理方法及相关设备 | |
He et al. | Mead: a mask-guided anchor-free detector for oriented aerial object detection | |
CN113705293A (zh) | 图像场景的识别方法、装置、设备及可读存储介质 | |
CN111144374B (zh) | 人脸表情识别方法及装置、存储介质和电子设备 | |
CN115828889A (zh) | 文本分析方法、情感分类模型、装置、介质、终端及产品 | |
Peng et al. | Exploiting semantic and boundary information for stereo matching | |
CN114332509A (zh) | 图像处理方法、模型训练方法、电子设备及自动驾驶车辆 | |
CN112801960A (zh) | 图像处理方法及装置、存储介质、电子设备 | |
Ding et al. | Multi-scale predictions fusion for robust hand detection and classification | |
CN116824308B (zh) | 图像分割模型训练方法与相关方法、装置、介质及设备 | |
Zeng et al. | Feature difference for single‐shot object detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |