CN114693905A - 文本识别模型构建方法、文本识别方法以及装置 - Google Patents
文本识别模型构建方法、文本识别方法以及装置 Download PDFInfo
- Publication number
- CN114693905A CN114693905A CN202011595096.2A CN202011595096A CN114693905A CN 114693905 A CN114693905 A CN 114693905A CN 202011595096 A CN202011595096 A CN 202011595096A CN 114693905 A CN114693905 A CN 114693905A
- Authority
- CN
- China
- Prior art keywords
- text
- image
- dimensional
- training
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种文本识别模型构建方法、文本识别方法以及装置,应用识别技术领域,在构建文本识别模型时引入注意力机制,添加了文本异向显示的图像样本来训练模型,通过本发明提高了文本识别率和准确率。
Description
技术领域
本发明实施例属于识别技术领域,尤其涉及一种文本识别模型构建方法、 文本识别方法及装置。
背景技术
在自然场景的文本识别中,经常会看到一些由于排版问题造成文本识别 框架不支持的问题,其中一个问题就是翻转文本的识别。在OCR(Optical CharacterRecognition,光学字符识别)技术进行文本识别前,先采用一个文本 检测器检测提取文本,但文本检测器只能提供文本位置信息,无法提供文本 内容阅读顺序的信息以及文本内容是否翻转的信息,同时,文本识别算法由 于都是end2end的框架,因此也无法得出内容阅读顺序的信息以及文本内容 是否翻转的相关信息,导致对翻转文字识别不准确,甚至无法识别。
发明内容
鉴于现有技术对翻转文字识别不准确,甚至无法识别的技术问题,本发明 实施例提供一种文本识别模型构建方法、文本识别方法及装置。
第一方面,一种文本识别模型构建方法,其特征在于,包括:
获取目标数量的原始文本图像;
处理所述目标数量的原始文本图像,以生成训练图像样本集,所述训练图 像样本集中包含文本异向显示的图像样本和文本正向显示的图像样本;
利用所述训练图像样本集对文本识别模型进行端到端的训练,所述文本 识别模型是利用注意力机制构建。
可选地,所述处理所述目标数量的原始文本图像,以生成训练图像样本集, 包括:
对所述目标数量的原始文本图像进行预处理,得到所述训练图像样本集;
从所述训练图像样本集中选择多个预处理文本图像;
对所述多个预处理文本图像执行预设图像增强处理,以形成所述训练图 像样本集中文本异向显示的图像样本。
可选地,所述对所述多个预处理文本图像执行预设图像增强处理,包括:
针对所述多个预处理文本图像,执行用于文本翻转模拟的图像增强处理。
可选地,所述对所述多个预处理文本图像,执行用于文本翻转模拟的图像 增强处理,包括:
从预设翻转方向范围,确定出针对当前预处理文本图像的目标翻转方向;
对所述当前预处理文本图像或者所述当前预处理文本图像中的文本行区 域进行所述目标翻转方向的翻转模拟。
可选地,所述对所述多个预处理文本图像执行预设图像增强处理,包括:
对所述多个预处理文本图像,分别执行用于文本翻转模拟、文本旋转模拟 以及文本扭曲模拟的至少一种或者多种图像增强处理。
可选地,所述文本识别模型包括:特征提取网络、基于注意力机制创建的 二维编码器网络以及基于注意力机制创建的二维解码器网络;所述利用所述 训练图像样本集对文本识别模型进行端到端的训练包括多次迭代训练,其中, 每次迭代训练包括:
将所述训练图像样本集中M个训练图像样本输入至所述文本识别模型, 通过所述特征提取网络提取所述M个训练图像样本中每个训练图像样本的二 维图像特征序列,M为正整数;
针对所述M个训练图像样本中每个训练图像样本,通过所述二维编码器 网络对该训练图像样本的二维图像特征序列进行编码处理,得到二维编码特 征序列,并通过所述二维解码器网络对所述二维编码特征序列进行解码处理, 得到对该训练图像样本的文字识别结果;
基于所述M个训练图像样本的文字识别结果,调整所述文本识别模型的 模型参数。
可选地,所述二维编码器网络包括二维注意力网络和平行注意力网络,所 述通过所述二维编码器网络对该训练图像样本的二维图像特征序列进行编码 处理,得到二维编码特征序列,包括:
针对所述二维图像特征序列中每个二维图像特征融合位置编码,得到二 维融合特征序列;
将所述二维融合特征序列串行输入至所述二维注意力网络中进行自注意 力计算,得到二维的第一输出特征序列;
通过所述平行注意力网络对所述第一输出特征序列进行并行编码,得到 二维的第二输出特征序列。
可选地,所述二维注意力网络采用多层二维注意力层,每层二维注意力层 包含多个自注意力单元;所述将所述二维融合特征序列串行输入至所述二维 注意力网络中进行自注意力计算,得到二维的第一输出特征序列,包括:
通过所述多层二维注意力层顺序处理所述二维融合特征序列中每个二维 融合特征,以得到所述第一输出特征序列,其中,除第一层二维注意力层之外 的其它二维注意力层中每个自注意力单元的输入来自上一层二维注意力层的 输出。
可选地,所述特征提取网络为卷积神经网络,且所述卷积神经网络中步长 为2的卷积层数量少于预设数量阈值。
第二方面,本发明实施例提供一种文本识别方法,包括:获取待识别的目 标文本图像,并通过第一方面所述方法构建的文本识别模型,从所述目标文本 图像中识别出文本信息。
第三方面,本发明实施提供一种文本识别模型构建装置,包括:
图像获取单元,用于获取目标数量的原始文本图像;
样本生成单元,用于处理所述目标数量的原始文本图像,以生成训练图像 样本集,所述训练图像样本集中包含文本异向显示的图像样本和文本正向显 示的图像样本;
模型训练单元,用于利用所述训练图像样本集对文本识别模型进行端到 端的训练,所述文本识别模型是利用注意力机制构建。
可选地,所述样本生成单元,包括:
预处理子单元,用于对所述目标数量的原始文本图像进行预处理,得到所 述训练图像样本集;
选择子单元,用于从所述训练图像样本集中选择多个预处理文本图像;
增强子单元,用于对所述多个预处理文本图像执行预设图像增强处理,以 形成所述训练图像样本集中文本异向显示的图像样本。
可选地,所述增强子单元,包括:
翻转模拟子单元,用于针对所述多个预处理文本图像,执行用于文本翻转 模拟的图像增强处理。
可选地,所述翻转模拟子单元,具体用于:
从预设翻转方向范围,确定出针对当前预处理文本图像的目标翻转方向;
对所述当前预处理文本图像或者所述当前预处理文本图像中的文本行区 域进行所述目标翻转方向的翻转模拟。
可选地,所述增强子单元,具体用于:
对所述多个预处理文本图像,分别执行用于文本翻转模拟、文本旋转模拟 以及文本扭曲模拟的至少一种或者多种图像增强处理。
可选地,所述文本识别模型包括:特征提取网络、基于注意力机制创建的 二维编码器网络以及基于注意力机制创建的二维解码器网络;所述模型训练 单元用于执行多次迭代训练,其中,在每次迭代训练中,具体用于:
将所述训练图像样本集中M个训练图像样本输入至所述文本识别模型, 通过所述特征提取网络提取所述M个训练图像样本中每个训练图像样本的二 维图像特征序列,M为正整数;
针对所述M个训练图像样本中每个训练图像样本,通过所述二维编码器 网络对该训练图像样本的二维图像特征序列进行编码处理,得到二维编码特 征序列,并通过所述二维解码器网络对所述二维编码特征序列进行解码处理, 得到对该训练图像样本的文字识别结果;
基于所述M个训练图像样本的文字识别结果,调整所述文本识别模型的 模型参数。
可选地,所述二维编码器网络包括二维注意力网络和平行注意力网络,所 述模型训练单元,具体用于:
针对所述二维图像特征序列中每个二维图像特征融合位置编码,得到二 维融合特征序列;
将所述二维融合特征序列串行输入至所述二维注意力网络中进行自注意 力计算,得到二维的第一输出特征序列;
通过所述平行注意力网络对所述第一输出特征序列进行并行编码,得到 二维的第二输出特征序列。
可选地,所述二维注意力网络采用多层二维注意力层,每层二维注意力层 包含多个自注意力单元;所述模型训练单元,具体用于:
通过所述多层二维注意力层顺序处理所述二维融合特征序列中每个二维 融合特征,以得到所述第一输出特征序列,其中,除第一层二维注意力层之外 的其它二维注意力层中每个自注意力单元的输入来自上一层二维注意力层的 输出。
可选地,所述特征提取网络为卷积神经网络,且所述卷积神经网络中步长 为2的卷积层数量少于预设数量阈值。
第四方面,本发明实施例提供一种文本识别装置,包括:
目标获取单元,用于获取待识别的目标文本图像;
识别单元,用于通过第一方面所述方法构建的文本识别模型从所述目标 文本图像中识别出文本信息。
第五方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储 在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时 实现第一方面或者第二方面所述方法。
第六方面,本发明实施例提供一种计算机可读存储介质,其上存储有计算 机程序,该程序被处理器执行时实现第一方面或者第二方面所述方法。
本发明实施例提供的一个或者多个技术方案,至少实现了如下技术效果 或者优点:
在构建文本识别模型时引入注意力机制,能够隐性建模字符级别的特征 和字符间的关系,在此基础上添加了文本异向显示的图像样本来训练模型, 因此只需在训练过程中添加文本异向显示的图片,文本识别模型可自动学会 异向文本的识别,同时对正常文本的识别并无影响,从而,提高了文本识别 率和准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实 施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描 述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出 创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的文本识别模型构建方法的流程图;
图2为本发明实施例提供的文本识别模型的结构示意图;
图3为本发明实施例提供的二维编码器网络的结构示意图;
图4为本发明实施例提供的二维注意力网络的结构示意图;
图5为本发明实施例提供的自注意力单元的结构示意图;
图6为本发明实施例提供的文本识别模型构建装置的示意图;
图7为本发明实施例提供电子设备的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明 实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然, 所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中 的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有 其他实施例,都属于本发明保护的范围。
本发明实施例中,术语“多个”表示“两个以上”,即包括两个或大于两个 的情况;术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在 三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单 独存在B这三种情况。
本发明实施例提供的文本识别模型构建方法,参考图1所示,包括如下 步骤:
S101、获取目标数量的原始文本图像。具体的,原始文本图像的数量是根 据实际训练需要决定的,在此不进行限制。
S102、处理目标数量的原始文本图像,以生成训练图像样本集,所述训练 图像样本集中包含文本异向显示的图像样本和文本正向显示的图像样本。
对目标数量的原始文本图像进行预处理,得到训练图像样本集;从所述训 练图像样本集中选择多个预处理文本图像,并对选择的所述多个预处理文本 图像执行预设图像增强处理,以形成所述训练图像样本集中文本异向显示的 图像样本。
具体的,可以基于预设选择策略,从训练图像样本集选出多个预处理文本 图像,比如,预设选择策略可以是随机或者按照预设间隔进行选择。预设图像 增强处理包括文本翻转模拟、文本旋转模拟、文本扭曲模拟中的一种或者多种 图像增强处理方式。
具体来讲,首先,对每个原始文本图像进行预处理,其中,对每个原始文 本图像的预处理包括:图像标准化处理和/或图像归一化处理,以有利于后续 特征提取网络能够更准确提取出二维图像特征。由于实际业务场景下很难采 集到文本异向显示的图像样本,则随机对一部分的预处理文本图像进行预设 图像增强处理,以模拟出文本异向显示的图像样本,而未进行图像增强处理的 预处理文本图像中包含文本正向显示的图像样本以及少量的文本异向显示的 图像样本。
在本发明实施例中,文本异向显示具体是指文本翻转显示、文本旋转显示 等。其中,文本翻转显示包括:垂直方向的文本翻转、水平方向的文本翻转或 者其他任意方向的翻转,而文本旋转显示可以是(0°,360°)中任意角度的 文本旋转。
具体来讲,针对多个预处理文本图像,至少执行用于文本翻转模拟的图像 增强处理。当前每个选择出的预处理文本图像,进行某一翻转方向的文本翻转 模拟。可以预先设置给定预设翻转方向范围,从给定的预设翻转方向范围中, 确定出针对当前预处理文本图像的目标翻转方向;或者,直接从(0°,360°) 的连续翻转方向中,随机选择针对当前预处理文本图像的目标翻转方向;对所 述当前预处理文本图像或者所述当前预处理文本图像中的文本行区域进行所 述目标翻转方向的翻转模拟。
在一可选的实施方式下,还随机对所述多个预处理文本图像执行用于文 本旋转模拟、文本扭曲模拟中的至少一种或者多种图像增强处理,以增加图像 样本的复杂性和多样性。
S103、利用训练图像样本集对文本识别模型进行端到端的训练,文本识别 模型利用注意力机制创建。
下面,先对本发明实施例中文本识别模型的结构进行描述:
参考图2所示,本发明实施例中文本识别模型的结构包含二维编码器和 二维解码器网络,其中,二维编码器包含特征提取网络和基于注意力机制构建 的二维编码器网络。二维解码器网络基于注意力机制创建,具体包括二维注意 力网络和解码器。由于本发明实施例中,由于二维编码器网络和二维解码器网 络均是基于注意力机制创建,便于隐性建模字符特征与字符之间的联系。
下面结合图2-图4,对特征提取网络、二维编码器网络以及二维解码器网 络的结构进行更为详细的介绍:
在本发明实施中,特征提取网络根据实际情况使用不同的网络结构,具体 形式可以是卷积神经网络,比如:使用轻量级卷积神经网络(比如:MobileNets 网络)或者经典卷积神经网络:resnet(残差网络)。为了减少提取二维图像特 征时的图像压缩量,以避免丢失细节信息,卷积神经网络中步长为2的卷积 层数量少于预设数量阈值。具体的,卷积神经网络中仅仅两个卷积层的步长配 置为2,其余卷积层的步长均配置为1。具体来讲,可以将第二层卷积层和第 四层卷积层的步长配置为2,而其他卷积层的步长配置为1。
在具体实施时,可以对经典卷积神经网络的步长进行修改,保留原始步长 为2的前两个卷积层,将其余原始步长为2的卷积层的步长修改为1。举例来 讲,假设原始的卷积神经网络中:第2、4、6、8、10层卷积层的原始步长为 2,而第1、3、5、7、9层卷积层的原始步长为1,则将第6、8、10层卷积层 的步长修改为1。
通过限制步长为2的卷积层数量,使得从目标文本图像提取出的二维图 像特征的长宽只被压缩为目标文本图像的1/4,即:假设目标文本图像宽和高 分别为w、h;则经过卷积神经网络提取的二维图像特征的宽和高分别为w/4、 h/4,避免丢失细节信息,影响识别效果。
在本发明实施例中所使用的二维编码器网络中引入了二维注意力机制。 具体的,参考图3所示,二维编码器网络包括二维注意力网络,以及在二维注 意力网络之后级联的平行注意力网络。
其中,参考图4所示,二维注意力网络的结构采用多层基于注意力机制 的二维注意力层串联,每层二维注意力层包含多个自注意力单元,图3中每 个圆圈“O”代表一个自注意力单元。在具体实施时,每层二维注意力层的自注 意力单元的数量是与二维图像特征的特征维数相匹配的。在具体实施时,自注 意力单元可以采用transfermer单元,比如,BERT(Bidirectional Encoder Representation from Transformers,即双向Transformer的Encoder)单元,自注 意力单元的具体计算结构参考图5所示,在此不再赘述。
平行注意力网络的引入使得可以并行输出对各个二维图像特征的编码结 果,有效的提升编码速度。具体的,本发明实施例中引入的平行注意力网络 的公式参考如下:
a=softmax(W2tanh(W1OT))
其中,W1,W2为平行注意力网络的网络参数,softmax和tanh为平行注意 力网络的激活函数,OT为平行注意力网络的输入,对应为二维注意力网络输 出的转置。α为平行注意力网络输出的权重系数,i为输出节点的索引,j为二 维图像特征的特征向量索引,Gi为第i个输出节点的编码特征,aij为第i个输 出节点的第j个特征向量对应的权重。
具体的,本发明实施例中的二维解码器网络包括二维注意力网络,以及在 二维注意力网络之后级联的解码器,其中,二维解码器网络中的二维注意力网 络与二维编码器网络中的二维注意力网络,在其结构和工作原理上均相同或 者相似,具体可以参考图3和图4,为了说明书的简洁,在此不再赘述。
通过上述结构的文本识别模型在编码阶段和解码阶段均引入二维注意力 网络,不需要将二维图像特征转换为一维特征,而是直接在二维空间进行对 每个二维图像特征进行编解码,从而保留了空间信息,有利于提升对图像中 各种姿态文本的识别率。
S103具体包括多次迭代训练,直至文本识别模型的预测精度达到预设精 度阈值,其中,在每次迭代训练包括S1031~S1033:
S1031:将所述训练图像样本集中M个训练图像样本输入至所述文本识 别模型,通过所述特征提取网络提取所述M个训练图像样本的二维图像特征 序列。
具体的,每次迭代训练可以使用训练图像样本集中M个训练图像样本, M为大于1的整数。
针对本次迭代所需的M个训练图像样本,分别通过特征提取网络提取每 个训练图像样本的多个通道的二维图像特征,将提取的多个通道的二维图像 特征展开,得到形状为k*c的二维图像特征序列,其中,k是每个二维图像特 征的特征维度,具体为:w/4*h/w,c为二维图像特征的通道数。则二维图像 特征序列中每个二维图像特征表示为{I1,I2,I3,……,Ik-2,Ik-1,Ik},k为大于1的 整数。
提取到了M个训练图像样本所对应的M个二维图像特征序列之后,均不 需要转换为一维特征序列,而是将提取的每个二维图像特征序列直接应用于 步骤S1032~S1033,从而实现直接在二维空间的编码和解码,避免丢失空间信 息。
S1032:针对M个训练图像样本中每个训练图像样本,通过二维编码器网 络对该二维图像特征序列进行编码处理,得到二维编码特征序列,并通过所述 二维解码器网络对所述二维编码特征序列进行解码处理,得到文字识别结果; 从而,针对M个训练图像样本,对应得到M个文本识别结果。
针对M个训练图像样本中任意一个训练图像样本而言,划分编码阶段和 解码阶段来描述得到该训练图像样本的文字识别结果的实施过程:
一、编码阶段:通过二维编码器网络对该二维图像特征序列进行编码处理, 得到二维编码特征序列。
如果二维编码器网络包括二维注意力网络和平行注意力网络,则进行对 该训练图像样本提取的二维图像特征序列进行编码处理,得到二维编码特征 序列的实施过程进行描述,如下步骤1~步骤3:
步骤1、针对二维图像特征序列中每个二维图像特征融合位置编码,得到 二维融合特征序列。具体来讲,二维图像特征序列中包含c个二维图像特征, 针对每个二维图像特征而言,对该二维图像特征中每个维度的特征向量融合 对应的位置编码,形成对位置敏感的二维融合特征F,参考图4所示,二维融 合特征具体表示为{F1,F2,F3,……,Fk-2,Fk-1,Fk},从而基于二维图像特征序列能够 得到包含c个二维融合特征的二维融合特征序列。
具体的,针对二维图像特征序列中任意一个二维图像特征,将该二维图 像特征中第i维度的特征向量与针对该第i维度的特征向量融合的位置编码 进行相加,i依次取1至k,得到对位置敏感的二维融合特征{F1,F2,F3,……,Fk-2,Fk-1,Fk},其中,所使用的位置编码的参考如下公式:
其中,i∈[1,k],表示特征向量的位置;p表示二维融合特征的特征维度 的索引,k表示特征维度,y为对应得到的位置编码。
步骤2、将所述二维融合特征序列串行输入至所述二维注意力网络中进行 自注意力计算,得到二维的第一输出特征序列。
在具体实施时,如果二维注意力网络采用的是参考图4所示的多层二维 注意力层,其中,每层二维注意力层包含多个自注意力单元;其中,每层二维 注意力层包含的自注意力单元的数量与二维图像特征的特征向量维度相同, 即每层包含k个自注意力单元。下面以二维注意力网络包含图3所示的三层 二维注意力层为例,对多层二维注意力层顺序处理二维融合特征序列的过程 进行详细描述:其中,除第一层二维注意力层之外的其它二维注意力层中每个 自注意力单元的输入是上一层二维注意力层的输出。
具体的,针对第n个二维融合特征:通过第一层二维注意力层的每个自 注意力单元对第n个二维融合特征进行自注意力计算;通过第二层二维注意 力层的每个自注意力单元,对第一层二维注意力层的加权输出进行自注意力 计算;通过第三层二维注意力层的每个自注意力单元,对第二维注意力层的加 权输出进行自注意力计算,以得到第n个二维融合特征对应的第一输出特征, 可以表示为{O1,O2,O3,……,Ok-2,Ok-1,Ok}。n依次取1至c,从而得到的第一输 出特征序列O。
结合图4来讲,对于第l层第i个自注意力单元而言,需要获取作为输入 的查询向量键向量和值向量:通过应用查询向量键向量和值 向量的加权和运算来计算该自注意力单元的输出,i∈[1,k],l取1、2、3。 其中,第一层二维注意力层中每个自注意力单元查询向量的计算依赖于输入 的二维融合特征对应的特征向量Fi,键向量和值向量的计算依赖于输入 的二维融合特征F;其余二维注意力层中每个自注意力单元:查询向量的计 算依赖于上一层注意力层中对应第i个自注意力单元的查询向量而键向 量和值向量的计算依赖于上一层注意力层中各个自注意力单元的加权和 输出。其中,是第l个二维注意力层中第i个自注意力单元的查询向量,其 形状为1×c。和是键向量和值向量,两者均为k×c形状。
在一可选的实施方式下,二维注意力网络始终以串行方式工作,可以与 RNN集成,RNN利用二维注意力网络的输出进行串行编码处理,但是RNN 利用二维注意力网络的输出进行串行编码处理会受到先前步骤的限制,因此, 编码速度会受限。
本发明为了提高运算速度,进而加快文本识别效率,提供另一使用了并行 注意力网络的可选实施方式,即在步骤2得到二维的第一输出特征序列之后, 执行步骤3:将第一输出特征序列和二维图像特征序列输入至平行注意力网络 中进行并行编码,以得到第二输出特征序列,其中,第二输出特征序列包含二 维图像特征序列中每个二维图像特征对应的编码特征。
具体的,平行注意力网络的输出节点数量配置为n,第一输出特征序列是 k×c,则平行注意力网络的处理过程具体参考如下公式:
首先,并行注意力网络将通过以下过程输出权重系数α,
a=softmax(W2tanh(W1OT))
其中,W1,W2为平行注意力网络的网络参数,softmax和tanh为激活函 数,OT表示第一输出特征序列的转置。
接着,基于权重系数α和二维图像特征序列,每个输出节点输出对应二 维图像特征的编码特征:
其中,i为输出节点的索引,j为二维图像特征的特征向量索引,Gi为第i 个输出节点输出的编码特征,aij为第i个输出节点的第j个特征向量的权重。
通过上述步骤,二维编码器网络针对任意一个训练图像样本输出二维编 码特征序,可以表示为G={G1,G2,G3,……,Gc-2,Gc-1,Gc}。
二、解码阶段:通过二维解码器网络对二维编码特征序列进行解码处理, 得到文字识别结果。
具体来讲,二维解码器网络利用注意力机制对第二输出特征序列进行解 码,得到字符概率矩阵;根据字符概率矩阵得到文字信息。二维编码特征序列 输入至二维解码器网络之后,对于解码器网络的每个输出节点,通过以下方式 预测出对应输出字符的概率:
Pi=softmax(wGi+b)
其中,Pi为编码特征Gi输出字符的概率,softmax为激活函数,w和b为 二维编码器网络的网络学习参数,Gi为第i个输出节点输出的对应第j个图 像特征的编码特征。
在一可选的实施方式下,二维解码器网络中包含二维注意力网络,与二 维编码器网络中的二维注意力网路的结构和工作原理相同,利用二维解码器 网络中的二维注意力网络对二维编码器网络输出的二维编码特征序列进行自 注意力计算,以进一步建模字符之间的关系,在这种实施方式下,解码器基 于二维编码器网络输出的编码特征以及二维解码器网络中二维注意力网络的 输出进行结合,以预测出字对应的符信息。
接着,根据每个输出节点输出的字符概率得到字符概率矩阵,最后,基 于字符概率矩阵得到训练图像样本中的文本识别结果。
S1033:基于M个训练图像样本的文字识别结果,调整文本识别模型的模 型参数。
在本发明实施例中文本识别模型所使用的二维编码器网络和二维解码器 网络引入了二维注意力机制,以实现基于注意力机制对二维图像特征序列中 每个二维图像特征在二维空间进行编码和解码,能够自动地学习权重用来捕 捉二维编码器网络的隐藏状态和二维编码器网络的隐藏状态,从而隐性建模 字符级别特征和字符之间的联系。在此基础上添加了文本异向显示的图像样 本来训练文本识别模型,不仅能够准确识别出正常显示的文字信息,还能够从 文本图像中识别出异向显示的文字信息,比如,翻转显示、旋转显示的文本信 息,不需要引入额外的模型来单独针对翻转文字进行识别,也不需要引入额外的模型来对异向显示的文本图像进行预处理。
本发明实施例对文本识别模型进行训练的整个过程,不需要额外的字符 级标注数据,实现了端到端的训练,整个训练流程中特征提取网络自动提取图 片特征,简便易用,无需手工建模和引入额外特征,因此减少了冗余特征的引 入,可根据使用场景选择特征抽取模型,因此,可方便快捷的用于实际场景与 业务中。
本发明实施例构建的文本识别模型可以直接应用于用户设备,比如:应用 于点读笔产品、词典笔产品等等,由用户设备独立实现文本识别;也可以应用 于服务端,以基于用户设备与服务端之间的交互来实现文本识别,其中,用户 设备带有摄像头模组,通过摄像头模组采集目标文本图像,具体的,该用户设 备可以为智能手机、平板电脑或者智能穿戴设备等等。
基于同一发明构思,本发明实施例提供一种文本识别方法,包括:获取待 识别的目标文本图像,并利用第一方面所述模型构建方法得到文本识别模型, 从目标文本图像中识别出文本信息。
如果本发明实施例提供的文本识别方法直接应用于用户设备,则需要在 用户设备上保存已训练的文本识别模型。如果本发明实施例提供的文本识别 方法应用于服务端,则在用户设备不需要保存已训练的文本识别模型,而在服 务端保存已训练的文本识别模型。具体的,通过文本识别模型中特征提取网络 提取目标文本图像的二维图像特征序列。将二维图像特征序列输入至文本识 别模型的编码器网络中进行编码,得到二维编码特征序列,将二维编码特征序 列输入至解码器网络中进行解码,得到目标文本图像中的文字信息
具体的,文本识别模型对文本识别进行识别的具体实施过程,与文本识别 模型对训练图像样本进行识别的具体实施过程相似,具体可以参考前文所述 的文本模型识别方法实施例,为了说明书的简洁,在此不再赘述。
具体的,可以是通过用户设备采集待识别的目标文本图像之后,由用户设 备利用文本识别模型获得目标文本图像中的文字信息。也可以是通过用户设 备直接采集待识别的目标文本图像并上传至服务端,由服务端接收到用户设 备上传的目标文本图像之后,由服务端利用利用文本识别模型获得目标文本 图像中的文字信息并返回至用户设备,以使用户设备输出文字信息。
基于同一发明构思,本发明实施例提供一种文本识别模型构建装置,参考 图6所示,包括:
图像获取单元601,用于获取目标数量的原始文本图像;
样本生成单元602,用于处理所述目标数量的原始文本图像,以生成训练 图像样本集,所述训练图像样本集中包含文本异向显示的图像样本和文本正 向显示的图像样本;
模型训练单元603,用于利用所述训练图像样本集对文本识别模型进行端 到端的训练,所述文本识别模型是利用注意力机制构建。
在一可选的实施方式下,所述样本生成单元602,包括:
预处理子单元,用于对所述目标数量的原始文本图像进行预处理,得到所 述训练图像样本集;
选择子单元,用于从所述训练图像样本集中选择多个预处理文本图像;
增强子单元,用于对所述多个预处理文本图像执行预设图像增强处理,以 形成所述训练图像样本集中文本异向显示的图像样本。
在一可选的实施方式下,所述增强子单元,包括:
翻转模拟子单元,用于针对所述多个预处理文本图像,执行用于文本翻转 模拟的图像增强处理。
在一可选的实施方式下,所述翻转模拟子单元,具体用于:
从预设翻转方向范围,确定出针对当前预处理文本图像的目标翻转方向;
对所述当前预处理文本图像或者所述当前预处理文本图像中的文本行区 域进行所述目标翻转方向的翻转模拟。
在一可选的实施方式下,所述增强子单元,具体用于:
对所述多个预处理文本图像,分别执行用于文本翻转模拟、文本旋转模拟 以及文本扭曲模拟的至少一种或者多种图像增强处理。
在一可选的实施方式下,所述文本识别模型包括:特征提取网络、基于注 意力机制创建的二维编码器网络以及基于注意力机制创建的二维解码器网络; 所述模型训练单元603用于执行多次迭代训练,其中,在每次迭代训练中,所 述模型训练单元603具体用于:
将所述训练图像样本集中M个训练图像样本输入至所述文本识别模型, 通过所述特征提取网络提取所述M个训练图像样本中每个训练图像样本的二 维图像特征序列,M为正整数;
针对所述M个训练图像样本中每个训练图像样本,通过所述二维编码器 网络对该训练图像样本的二维图像特征序列进行编码处理,得到二维编码特 征序列,并通过所述二维解码器网络对所述二维编码特征序列进行解码处理, 得到对该训练图像样本的文字识别结果;
基于所述M个训练图像样本的文字识别结果,调整所述文本识别模型的 模型参数。
在一可选的实施方式下,所述二维编码器网络包括二维注意力网络和平 行注意力网络,所述模型训练单元,具体用于:
针对所述二维图像特征序列中每个二维图像特征融合位置编码,得到二 维融合特征序列;
将所述二维融合特征序列串行输入至所述二维注意力网络中进行自注意 力计算,得到二维的第一输出特征序列;
通过所述平行注意力网络对所述第一输出特征序列进行并行编码,得到 二维的第二输出特征序列。
在一可选的实施方式下,所述二维注意力网络采用多层二维注意力层,每 层二维注意力层包含多个自注意力单元;所述模型训练单元603,具体用于:
通过所述多层二维注意力层顺序处理所述二维融合特征序列中每个二维 融合特征,以得到所述第一输出特征序列,其中,除第一层二维注意力层之外 的其它二维注意力层中每个自注意力单元的输入来自上一层二维注意力层的 输出。
在一可选的实施方式下,所述特征提取网络为卷积神经网络,且所述卷积 神经网络中步长为2的卷积层数量少于预设数量阈值。
基于同一发明构思,本发明实施例中一种文本识别装置,包括:
目标获取单元,用于获取待识别的目标文本图像;
识别单元,用于通过第一方面所述的模型构建方法得到的文本识别模型 从所述目标文本图像中识别出文本信息。
上述各个装置,其中的各个功能单元的具体功能已经在本发明实施例提 供的文本识别方法实施例中进行了详细描述,此处将不做详细阐述说明。
基于与前述方法实施例同样的发明构思,本发明实施例还提供一种电子 设备,如图7是根据一示例性实施例示出的一种电子设备700的框图。例如, 设备700可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制 台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图7,设备700可以包括以下一个或多个组件:处理组件702,存储 器704,电源组件706,多媒体组件708,音频组件710,输入/输出(I/O)的 接口712,传感器组件714,以及通信组件716。
处理组件702通常控制设备700的整体操作,诸如与显示,电话呼叫,数 据通信,相机操作和记录操作相关联的操作。处理元件702可以包括一个或 多个处理器720来执行指令,以完成上述的方法的全部或部分步骤。此外,处 理组件702可以包括一个或多个模块,便于处理组件702和其他组件之间的 交互。例如,处理部件702可以包括多媒体模块,以方便多媒体组件707和 处理组件702之间的交互。
存储器704被配置为存储各种类型的数据以支持在设备700的操作。这 些数据的示例包括用于在设备700上操作的任何应用程序或方法的指令,联 系人数据,电话簿数据,消息,图片,视频等。存储器704可以由任何类型的 易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器 (SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储 器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器, 快闪存储器,磁盘或光盘。
电力组件706为设备700的各种组件提供电力。电力组件706可以包括 电源管理系统,一个或多个电源,及其他与为设备700生成、管理和融合电力 相关联的组件。
多媒体组件708包括在设备700和用户之间的提供一个输出接口的屏幕。 在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果 屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。 触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。 所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触 摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件708包 括一个前置摄像头和/或后置摄像头。当设备700处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每 个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光 学变焦能力。
音频组件710被配置为输出和/或输入音频信号。例如,音频组件710包 括一个麦克风(MIC),当设备700处于操作模式,如呼叫模式、记录模式和 语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以 被进一步存储在存储器704或经由通信组件716发送。在一些实施例中,音 频组件710还包括一个扬声器,用于输出音频信号。
I/O接口712为处理组件702和外围接口模块之间提供接口,上述外围接 口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、 音量按钮、启动按钮和锁定按钮。
传感器组件714包括一个或多个传感器,用于为设备700提供各个方面 的状态评估。例如,传感器组件714可以检测到设备700的打开/关闭状态, 组件的相对定位,例如所述组件为设备700的显示器和小键盘,传感器组件 714还可以检测设备700或设备700一个组件的位置改变,用户与设备700接 触的存在或不存在,设备700方位或加速/减速和设备700的温度变化。传感 器组件714可以包括接近传感器,被配置用来在没有任何的物理接触时检测 附近物体的存在。传感器组件714还可以包括光传感器,如CMOS或CCD图 像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件714还可 以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件716被配置为便于设备700和其他设备之间有线或无线方式的 通信。设备700可以接入基于通信标准的无线网络,如WiFi,2G或3G,或 它们的组合。在一个示例性实施例中,通信部件716经由广播信道接收来自 外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述 通信部件716还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC 模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB) 技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,设备700可以被一个或多个应用专用集成电路 (ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑 器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或 其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储 介质,例如包括指令的存储器704,上述指令可由设备700的处理器720执行 以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随 机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本 发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变 化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未 公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为 示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确 结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附 的权利要求来限制以上所述仅为本发明的较佳实施例,并不用以限制本发明, 凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包 含在本发明的保护范围之内。
Claims (10)
1.一种文本识别模型构建方法,其特征在于,包括:
获取目标数量的原始文本图像;
处理所述目标数量的原始文本图像,以生成训练图像样本集,所述训练图像样本集中包含文本异向显示的图像样本和文本正向显示的图像样本;
利用所述训练图像样本集对文本识别模型进行端到端的训练,所述文本识别模型是利用注意力机制构建。
2.如权利要求1所述的方法,其特征在于,所述处理所述目标数量的原始文本图像,以生成训练图像样本集,包括:
对所述目标数量的原始文本图像进行预处理,得到所述训练图像样本集;
从所述训练图像样本集中选择多个预处理文本图像;
对所述多个预处理文本图像执行预设图像增强处理,以形成所述训练图像样本集中文本异向显示的图像样本。
3.如权利要求2所述的方法,其特征在于,所述对所述多个预处理文本图像执行预设图像增强处理,包括:
针对所述多个预处理文本图像,执行用于文本翻转模拟的图像增强处理。
4.如权利要求3所述的方法,其特征在于,所述对所述多个预处理文本图像,执行用于文本翻转模拟的图像增强处理,包括:
从预设翻转方向范围,确定出针对当前预处理文本图像的目标翻转方向;
对所述当前预处理文本图像或者所述当前预处理文本图像中的文本行区域,进行所述目标翻转方向的翻转模拟。
5.如权利要求2所述的方法,其特征在于,所述对所述多个预处理文本图像执行预设图像增强处理,包括:
对所述多个预处理文本图像,分别执行用于文本翻转模拟、文本旋转模拟以及文本扭曲模拟的至少一种或者多种图像增强处理。
6.一种文本识别方法,其特征在于,包括:获取待识别的目标文本图像,并通过权利要求1-5中任一所述方法构建的文本识别模型,从所述目标文本图像中识别出文本信息。
7.一种文本识别模型构建装置,其特征在于,包括:
图像获取单元,用于获取目标数量的原始文本图像;
样本生成单元,用于处理所述目标数量的原始文本图像,以生成训练图像样本集,所述训练图像样本集中包含文本异向显示的图像样本和文本正向显示的图像样本;
模型训练单元,用于利用所述训练图像样本集对文本识别模型进行端到端的训练,所述文本识别模型是利用注意力机制构建。
8.一种文本识别装置,其特征在于,包括:
目标获取单元,用于获取待识别的目标文本图像;
识别单元,用于通过权利要求1-5中任一所述方法构建的文本识别模型,从所述目标文本图像中识别出文本信息。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1-6任一项所述方法。
10.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现权利要求1-6任一项所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011595096.2A CN114693905A (zh) | 2020-12-28 | 2020-12-28 | 文本识别模型构建方法、文本识别方法以及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011595096.2A CN114693905A (zh) | 2020-12-28 | 2020-12-28 | 文本识别模型构建方法、文本识别方法以及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114693905A true CN114693905A (zh) | 2022-07-01 |
Family
ID=82133099
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011595096.2A Pending CN114693905A (zh) | 2020-12-28 | 2020-12-28 | 文本识别模型构建方法、文本识别方法以及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114693905A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210042567A1 (en) * | 2019-04-03 | 2021-02-11 | Beijing Sensetime Technology Development Co., Ltd. | Text recognition |
WO2023034715A1 (en) * | 2021-09-01 | 2023-03-09 | Google Llc | Reading order with pointer transformer networks |
-
2020
- 2020-12-28 CN CN202011595096.2A patent/CN114693905A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210042567A1 (en) * | 2019-04-03 | 2021-02-11 | Beijing Sensetime Technology Development Co., Ltd. | Text recognition |
WO2023034715A1 (en) * | 2021-09-01 | 2023-03-09 | Google Llc | Reading order with pointer transformer networks |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210042474A1 (en) | Method for text recognition, electronic device and storage medium | |
KR102538164B1 (ko) | 이미지 처리 방법 및 장치, 전자 장치 및 기억 매체 | |
CN107291690B (zh) | 标点添加方法和装置、用于标点添加的装置 | |
CN111524521B (zh) | 声纹提取模型训练方法和声纹识别方法、及其装置和介质 | |
CN107221330B (zh) | 标点添加方法和装置、用于标点添加的装置 | |
CN109871843B (zh) | 字符识别方法和装置、用于字符识别的装置 | |
CN112740709A (zh) | 用于视频分析的门控模型 | |
CN111612070B (zh) | 基于场景图的图像描述生成方法及装置 | |
CN110909815B (zh) | 神经网络训练、图像处理方法、装置及电子设备 | |
CN109615006B (zh) | 文字识别方法及装置、电子设备和存储介质 | |
CN111242303B (zh) | 网络训练方法及装置、图像处理方法及装置 | |
CN111539410B (zh) | 字符识别方法及装置、电子设备和存储介质 | |
CN108021897B (zh) | 图片问答方法及装置 | |
CN110147532B (zh) | 编码方法、装置、设备及存储介质 | |
WO2020155713A1 (zh) | 图像处理方法及装置、网络训练方法及装置 | |
CN110188865B (zh) | 信息处理方法及装置、电子设备和存储介质 | |
CN114693905A (zh) | 文本识别模型构建方法、文本识别方法以及装置 | |
EP4287181A1 (en) | Method and apparatus for training neural network, and method and apparatus for audio processing | |
CN111814538B (zh) | 目标对象的类别识别方法、装置、电子设备及存储介质 | |
CN113688729A (zh) | 一种行为识别方法及装置、电子设备和存储介质 | |
CN110619357B (zh) | 一种图片处理方法、装置和电子设备 | |
CN114038067B (zh) | 煤矿人员行为检测方法、设备及存储介质 | |
CN114842404A (zh) | 时序动作提名的生成方法及装置、电子设备和存储介质 | |
CN115422932A (zh) | 一种词向量训练方法及装置、电子设备和存储介质 | |
CN115035440A (zh) | 时序动作提名的生成方法及装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |