CN117173719B - 文本识别方法、装置、设备及存储介质 - Google Patents
文本识别方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN117173719B CN117173719B CN202311441716.0A CN202311441716A CN117173719B CN 117173719 B CN117173719 B CN 117173719B CN 202311441716 A CN202311441716 A CN 202311441716A CN 117173719 B CN117173719 B CN 117173719B
- Authority
- CN
- China
- Prior art keywords
- feature information
- image
- characteristic information
- information
- target image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 109
- 238000000605 extraction Methods 0.000 claims description 106
- 230000015654 memory Effects 0.000 claims description 26
- 238000004590 computer program Methods 0.000 claims description 21
- 238000011176 pooling Methods 0.000 claims description 20
- 230000002776 aggregation Effects 0.000 claims description 14
- 238000004220 aggregation Methods 0.000 claims description 14
- 230000004931 aggregating effect Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 abstract description 27
- 238000005516 engineering process Methods 0.000 abstract description 18
- 238000013473 artificial intelligence Methods 0.000 abstract description 16
- 239000000284 extract Substances 0.000 description 26
- 238000012549 training Methods 0.000 description 24
- 238000010586 diagram Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 11
- 238000012545 processing Methods 0.000 description 8
- 239000013598 vector Substances 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000003672 processing method Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000006403 short-term memory Effects 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000007787 long-term memory Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Image Analysis (AREA)
Abstract
本申请提供了一种文本识别方法、装置、设备及存储介质,可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景,包括:获取目标图像,并提取该目标图像的图像特征信息;对图像特征信息中不同行特征信息之间的上下位置关系进行提取,得到目标图像的第一特征信息;基于第一特征信息对所述图像特征信息中同一行特征信息之间的左右位置关系进行提取,得到目标图像的第二特征信息;基于第二特征信息,得到目标图像的文本识别结果。即本申请在在文本识别过程中,考虑了行与行之间的上下位置关系,以及同一行中特征信息之间的左右位置关系,这样基于包括位置信息的图像特征信息进行文本识别时,可以提升多文本识别的准确性。
Description
技术领域
本申请实施例涉及计算机技术领域,尤其涉及一种文本识别方法、装置、设备及存储介质。
背景技术
中英文场景大部分以单行文本识别,而公式场景以多行文本识别任务为主,传统的单行文本识别方法无法兼顾公式场景识别和中英文场景识别。因此,多行文本识别应用而生。
目前的多行文本识别方法包括基于自注意力的方案和基于单个双向长短期记忆网络(Bi-directional Long Short-Term Memory,简称BiLSTM)的方案。但是,目前的多行文本识别方法,存在识别不准确的问题。
发明内容
本申请提供一种文本识别方法、装置、设备及存储介质,实现对图像中多行文本的准确识别。
第一方面,本申请提供一种文本识别方法,包括:
获取包括待识别文本的目标图像;
对所述目标图像进行图像特征提取,得到所述目标图像的图像特征信息;
对所述图像特征信息中不同行特征信息之间的上下位置关系进行提取,得到所述目标图像的第一特征信息,所述第一特征信息用于表示所述图像特征信息中不同行特征信息之间的上下位置关系;
基于所述第一特征信息对所述图像特征信息中同一行特征信息之间的左右位置关系进行提取,得到所述目标图像的第二特征信息,所述第二特征信息用于表示所述图像特征信息中不同行特征信息之间的上下位置关系,以及所述图像特征信息中同一行特征信息之间的左右位置关系;
基于所述第二特征信息,得到所述目标图像的文本识别结果。
第二方面,本申请提供了一种文本识别装置,包括:
获取单元,用于获取包括待识别文本的目标图像;
特征提取单元,用于对所述目标图像进行图像特征提取,得到所述目标图像的图像特征信息;
上下位置确定单元,用于对所述图像特征信息中不同行特征信息之间的上下位置关系进行提取,得到所述目标图像的第一特征信息,所述第一特征信息用于表示所述图像特征信息中不同行特征信息之间的上下位置关系;
左右位置确定单元,用于基于所述第一特征信息对所述图像特征信息中同一行特征信息之间的左右位置关系进行提取,得到所述目标图像的第二特征信息,所述第二特征信息用于表示所述图像特征信息中不同行特征信息之间的上下位置关系,以及所述图像特征信息中同一行特征信息之间的左右位置关系;
识别单元,用于基于所述第二特征信息,得到所述目标图像的文本识别结果。
在一些实施例中,上下位置确定单元,具体用于基于所述图像特征信息,构建所述图像特征信息中不同行特征信息之间的上下位置关系,得到第一列特征信息,所述第一列特征信息的行数与所述图像特征信息的行数一致,且所述第一列特征信息中不同位置的特征信息表示所述图像特征信息中不同行特征信息之间的上下位置关系;基于所述第一列特征信息和所述图像特征信息,确定所述第一特征信息。
在一些实施例中,上下位置确定单元,具体用于将所述图像特征信息中的每一行特征信息进行特征聚合,得到第二列特征信息,所述第二列特征信息的行数与所述图像特征信息的行数一致;基于所述第二列特征信息,构建所述图像特征信息中不同行特征信息之间的上下位置关系,得到所述第一列特征信息。
在一些实施例中,上下位置确定单元,具体用于通过水平池化操作,将所述图像特征信息中的每一行特征信息聚合为一个特征值,得到所述第二列特征信息。
在一些实施例中,上下位置确定单元,具体用于通过上下位置提取模块,对所述第二列特征信息中特征信息的上下位置关系进行提取,得到所述第一列特征信息。
在一些实施例中,所述上下位置提取模块包括至少一个第一双向长短期记忆网络BiLSTM模块。
在一些实施例中,上下位置确定单元,具体用于将所述第一列特征信息与所述图像特征信息进行广播式相加,确定所述第一特征信息。
在一些实施例中,左右位置确定单元,具体用于将所述第一特征信息的每一行进行拆分,得到多个第一行特征信息;对于所述多个第一行特征信息中的第i个第一行特征信息,基于所述第i个第一行特征信息,构建所述第i个第一行特征信息中特征信息之间的左右位置关系,得到所述第i个第一行特征信息对应的第二行特征信息,所述i为正整数;基于所述多个第一行特征信息中每一个第一行特征信息对应的第二行特征信息,得到所述第二特征信息。
在一些实施例中,左右位置确定单元,具体用于通过左右位置提取模块,对所述第i个第一行特征信息中特征信息的左右位置关系进行提取,得到所述第i个第一行特征信息对应的第二行特征信息。
在一些实施例中,所述左右位置提取模块包括至少一个第二双向长短期记忆网络BiLSTM模块。
在一些实施例中,特征提取单元,具体用于通过特征提取模块,提取所述目标图像的图像特征信息。
在一些实施例中,识别单元,具体用于通过解码器对所述第二特征信息进行解码,得到所述目标图像的文本识别结果。
在一些实施例中,所述解码器包括自回归解码器。
第三方面,提供了一种芯片,用于实现上述第一方面至第二方面中任一方面或其各实现方式中的方法。具体地,所述芯片包括:处理器,用于从存储器中调用并运行计算机程序,使得安装有所述芯片的设备执行如上述第一方面中任一方面或其各实现方式中的方法。
第四方面,提供了一种计算机可读存储介质,用于存储计算机程序,所述计算机程序使得计算机执行上述第一方面中任一方面或其各实现方式中的方法。
第五方面,提供了一种计算机程序产品,包括计算机程序指令,所述计算机程序指令使得计算机执行上述第一方面中任一方面或其各实现方式中的方法。
第六方面,提供了一种计算机程序,当其在计算机上运行时,使得计算机执行上述第一方面中任一方面或其各实现方式中的方法。
综上,本申请通过获取目标图像,并提取该目标图像的图像特征信息,该目标图像包括待识别文本,例如包括多行待识别文本。接着,基于图像特征信息,构建图像特征信息中不同行特征信息之间的上下位置关系,得到目标图像的第一特征信息。基于第一特征信息,构建图像特征信息中不同行特征信息之间的上下位置关系,以及图像特征信息中同一行特征信息之间的左右位置关系,得到目标图像的第二特征信息。最后,基于第二特征信息,得到目标图像的文本识别结果。由上述可知,在本申请实施例中,在多行文本识别过程中,考虑了行与行之间的上下位置关系,以及考虑了同一行中特征信息之间的左右位置关系,这样基于包括位置信息的图像特征信息(即第二特征信息)进行文本识别时,可以提升多个文本识别的准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请的一种应用场景示意图;
图2为已有的多行文本识别方法示意图;
图3为本申请实施例涉及的一种实施环境示意图;
图4为本申请一实施例提供的文本识别方法的流程示意图;
图5为本申请实施例涉及的一种图像特征信息提取示意图;
图6为本申请实施例涉及的第一特征信息的一种确定示意图;
图7为本申请实施例涉及的第一列特征信息的一种示意图;
图8为本申请实施例涉及的第一列特征信息的一种确定示意图;
图9为本申请实施例涉及的第一特征信息的另一种确定示意图;
图10为本申请实施例涉及的第一特征信息的另一种确定示意图;
图11为本申请实施例涉及的第二特征信息的一种确定示意图;
图12为本申请实施例涉及的第二特征信息的一种确定示意图;
图13为本申请实施例涉及的第二特征信息的另一种确定示意图;
图14为本申请实施例的一种的文本识别模型的结构示意图;
图15为本申请一实施例提供的文本识别方法的流程示意图;
图16为本申请一实施例提供的一种文本识别方法的示意图;
图17为本申请一实施例提供的另一种文本识别方法的示意图;
图18为本申请实施例涉及的一种第一特征信息确定示意图;
图19为本申请实施例涉及的另一种第一特征信息确定示意图;
图20为本申请实施例涉及的第二特征信息的一种确定示意图;
图21为本申请一实施例提供的文本识别方法的流程示意图;
图22为本申请实施例提供的一种文本识别模型的结构示意图;
图23为本申请一实施例提供的文本识别装置的示意性框图;
图24是本申请实施例提供的计算设备的示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。在本发明实施例中,“与A对应的B”表示B与A相关联。在一种实现方式中,可以根据A确定B。但还应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其它信息确定B。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。在本申请的描述中,除非另有说明,“多个”是指两个或多于两个。
本申请提出的技术方案,可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。如图1所示,本申请实施例可以实现对图像中多行文本的准确识别,尤其可以实现对图像中公式的准确识别,且识别复杂度低,识别速度快。
下面对本申请实施例涉及的相关概念和技术进行介绍。
人工智能(Artificial Intelligence,AI),是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中,预训练模型又称大模型、基础模型,经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、资源推荐、数据搜索等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
多行文本识别,不仅可以提升对图像中文本的识别速度,且可以实现对文本中公式的识别。
在一些情况下,多行文本识别近些年主要是基于自注意力的方案,具体的,通过卷积提取图像的图像特征信息后,利用自注意力构建图像中文本位置之间的语义关联。但传统的基于自注意力的方案未能考虑图像中不同位置文本的邻域关联性,导致模型收敛效果差,文本识别效果不理想。同时,自注意力的计算量和图像尺寸呈现平方关系,导致该方案的训练时间和推理时间非常长,进而增加了文本识别的计算复杂度和时间复杂度。
在一些情况下,部分公式识别方案通过单个BiLSTM构建空间位置关系。具体的,如图2所示,通过卷积特征提取模块,提取图像中公式的二维特征信息。接着,将二维特征信息展平后输入BiLSTM来构建不同位置之间的关系。但是,该方案破坏了文本的邻域上下关系,导致上下相邻的位置输入BiLSTM后相距非常的远,最终使得文本识别不准确。
为了解决上述技术问题,本申请实施例提出一种文本识别方法,通过获取目标图像,并提取该目标图像的图像特征信息,该目标图像包括待识别文本,例如包括多行待识别文本。接着,基于图像特征信息,构建图像特征信息中不同行特征信息之间的上下位置关系,得到目标图像的第一特征信息。基于第一特征信息,构建图像特征信息中不同行特征信息之间的上下位置关系,以及图像特征信息中同一行特征信息之间的左右位置关系,得到目标图像的第二特征信息。最后,基于第二特征信息,得到目标图像的文本识别结果。由上述可知,在本申请实施例中,在多行文本识别过程中,考虑了行与行之间的上下位置关系,以及考虑了同一行中特征信息之间的左右位置关系,可以提升多个文本识别的准确性。
下面对本申请实施例的实施环境进行介绍。
图3为本申请实施例涉及的一种实施环境示意图,包括终端设备101和计算设备102。
如图3所示,本申请实施例的计算设备102中包括文本识别模型。在一些实施例中,该文本识别模型可以为训练后的模型,例如通过包括文本信息的训练图像训练后的深度模型。可选地,该文本识别模型在实际的业务使用过程中,也实时学习训练,不断更新。
在一些实施例中,本申请的实时环境还包括数据库103。在文本识别模型的训练过程中,计算设备102可以从数据库103中获取训练样本,基于模型损失函数和训练样本,对该文本识别模型进行训练,对训练后的文本识别模型中的参数进行固定。
在一些实施例中,本申请实施例的文本识别方案由计算设备102完成。如图3所示,在实际的文本识别业务中,终端设备101将包括待识别文本的目标图像发送给计算设备102。计算设备102通过保存的文本识别模型,识别目标图像中的文本信息,得到目标图像的文本识别结果。具体的,计算设备101对目标图像进行图像特征提取,得到目标图像的图像特征信息;基于图像特征信息,确定目标图像的第一特征信息,第一特征信息用于表示图像特征信息中不同行特征信息之间的上下位置关系;基于第一特征信息,确定目标图像的第二特征信息,第二特征信息用于表示图像特征信息中不同行特征信息之间的上下位置关系,以及图像特征信息中同一行特征信息之间的左右位置关系;基于第二特征信息,得到目标图像的文本识别结果。
在一些实施例中,本申请实施例的文本识别方案由终端设备102完成。在实际的文本识别业务中,终端设备101获得包括待识别文本的目标图像后,向计算设备102发送模型请求,该模型请求用于请求计算设备102将文本识别模型发送给终端设备。计算设备102接收到终端设备101发送的模型请求后,将训练好的文本识别模型发送给终端设备101。这样,终端设备101使用接收到的文本识别模型,对目标图像进行文本识别,得到目标图像的文本识别结果。具体的,终端设备101对目标图像进行图像特征提取,得到目标图像的图像特征信息;对图像特征信息中不同行特征信息之间的上下位置关系进行提取,得到所述目标图像的第一特征信息,第一特征信息用于表示图像特征信息中不同行特征信息之间的上下位置关系;基于第一特征信息对图像特征信息中同一行特征信息之间的左右位置关系进行提取,得到目标图像的第二特征信息,第二特征信息用于表示图像特征信息中不同行特征信息之间的上下位置关系及图像特征信息中同一行特征信息之间的左右位置关系;基于第二特征信息,得到目标图像的文本识别结果。
在一些实施例中,本申请实施例的文本识别方法,还可以由终端设备101和计算设备102共同执行,这样可以降低终端设备101或计算设备102的计算量。例如,计算设备102将训练后的文本识别模型发送给终端设备101。终端设备101通过该文本识别模型,对目标图像进行图像特征提取,得到目标图像的图像特征信息,并对图像特征信息中不同行特征信息之间的上下位置关系进行提取,得到目标图像的第一特征信息,其中第一特征信息用于表示图像特征信息中不同行特征信息之间的上下位置关系。接着,终端设备101将目标图像的第一特征信息和图像特征信息发送给计算设备102。计算设备102通过文本训练模型,基于目标图像的第一特征信息和图像特征信息,得到目标图像的第二特征信息,并基于第二特征信息,得到目标图像的文本识别结果。
本申请实施例对终端设备101和计算设备102的具体执行本申请实施例提供的文本识别方法中的那些步骤不做限制。
在一种示例中,终端设备101通过文本识别模型,提取出目标图像的图像特征信息,将图像特征信息发送给计算设备102。计算设备102通过文本识别模型,基于目标图像的图像特征信息,构建图像特征信息中不同行特征信息之间的上下位置关系,得到第一特征信息,并基于第一特征信息,构建图像特征信息中不同行特征信息之间的上下位置关系,以及图像特征信息中同一行特征信息之间的左右位置关系,得到第二特征信息。最后,基于第二特征信息,得到目标图像的文本识别结果。
在一种示例中,终端设备101通过文本识别模型,提取出目标图像的图像特征信息,并基于图像特征信息,构建图像特征信息中不同行特征信息之间的上下位置关系,得到第一特征信息。接着,终端设备101基于第一特征信息,构建图像特征信息中不同行特征信息之间的上下位置关系,以及图像特征信息中同一行特征信息之间的左右位置关系,得到第二特征信息。接着,终端设备101将第二特征信息发送给计算设备102。计算设备102通过文本识别模型,对第二特征信息进行处理,得到目标图像的文本识别结果。
在一些实施例中,若计算设备102得到目标图像的文本识别结果后,将该目标图像的文本识别结果发送给终端设备101进行显示或存储。
本申请实施例对终端设备101的具体类型不做限制。在一些实施例中,终端设备101可包括但不限于:手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器、可穿戴智能设备、医疗设备等等。设备往往配置有显示装置,显示装置也可为显示器、显示屏、触摸屏等等,触摸屏也可为触控屏、触控面板等等。
在一些实施例中,计算设备102为具有数据处理功能的终端设备,例如手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器、可穿戴智能设备、医疗设备等等。
在一些实施例中,计算设备102为服务器。该服务器可以是一台或多台。服务器是多台时,存在至少两台服务器用于提供不同的服务,和/或,存在至少两台服务器用于提供相同的服务,比如以负载均衡方式提供同一种服务,本申请实施例对此不加以限定。其中,上述服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器102也可以成为区块链的节点。
本申请实施例中,终端设备101和计算设备102之间可以通过有线通信或者无线通信方式进行直接或间接地连接,本申请在此不做限制。
需要说明的是,本申请实施例的应用场景包括但不限于图3所示。
下面通过一些实施例对本申请实施例的技术方案进行详细说明。下面这几个实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图4为本申请一实施例提供的文本识别方法的流程示意图。本申请实施例的执行主体为具有文本识别功能的装置,例如为文本识别装置。在一些实施例中,该文本识别装置可以为图3中的计算设备,或者为图3中的终端设备,或者为图3中计算设备和终端设备组成的系统。为了便于描述,本申请实施例以执行主体为计算设备为例进行说明。
本申请实施例的文本识别方法可以理解为多行文本识别方法,即对目标图像所包括的多个文本信息进行识别。
如图4所示,本申请实施例的文本识别方法包括:
S101、获取包括待识别文本的目标图像。
本申请实施例对目标图像的具体类型不做限制。
在一种示例中,目标图像可以为拍摄的一张图像,或图像的部分区域。
在一种示例中,目标图像可以为计算设备生成的一张图像,或者图像的部分区域。
在一种示例中,目标图像可以为视频中的一帧图像,或者为一帧图像的部分区域。
本申请实施例对计算设备获取目标图像的具体方式不做限制。
在一些实施例中,上述目标图像为终端设备上传的。例如,用户将待识别的目标图像上传给终端设备,终端设备再将该待识别的目标图像发送给计算设备进行文本识别。
在一些实施例中,上述目标图像还可以为计算设备基于某些规则,主动捕捉到的待识别的图像。
本申请实施例对目标图像中所包括的待识别文本的具体类型不做限制。
在一种可能的情况下,目标图像所包括的待识别文本为单行文本。例如为单行中文文本、或单行英文文本、或单行中英文文本。
在一种可能的情况下,目标图像所包括的待识别文本为多行文本。例如为多行中文文本、或多行英文文本、或多行中英文文本。
在一种可能的情况下,目标图像所包括的待识别文本包括公式。
在一种可能的情况下,目标图像所包括的待识别文本包括公式和中文文本,或包括公式和英文文本,或包括公式、中文文本和英文文本。
计算设备获取目标图像后,执行如下S102的步骤。
S102、对目标图像进行图像特征提取,得到目标图像的图像特征信息。
在本申请实施例中,计算设备获取待识别的目标图像后,首先提取该目标图像的图像特征信息。
本申请实施例对计算设备对目标图像进行图像特征提取,得到目标图像的图像特征信息的具体方式不做限制。
在一种可能的实现方式中,如图5所示,计算设备通过特征提取模块,提取该目标图像的图像特征信息。
需要说明的是,在一些实施例中,该特征提取模块可以是单独训练的,专门用于提取图像的图像特征信息。在一些实施例中,该特征提取模块为本申请实施例提出的文本识别模型的一部分,与文本识别模型中的其他模块同步进行训练,例如与后续的上下位置提取模块、左右位置提取模块等同步进行训练(即进行端到端训练)得到。
本申请实施例对特征提取模块的具体网络结构不做限制。
示例性的,上述特征提取模块可以包括卷积神经网络,例如为Resnet-50,Resnet-50-DC5,Resnet-101等。
在本申请实施例中,计算设备将尺寸为HxW的目标图像输入特征提取模块中进行特征提取,得到尺寸为H/a×W/b的图像特征信息,其中a和b均为正整数。
本申请实施例对a和b的具体大小不做限制,即对目标图像的图像特征信息的具体尺寸不做限制。
可选地,a与b的取值相同。
可选地,a与b的取值不同。
在一种示例中,上述a和b均为8,例如,计算设备将尺寸为HxW的目标图像输入特征提取模块中进行特征提取,得到尺寸为H/8×W/8的图像特征信息。当然,a和b还可以取其他的数值,例如a和b均为4或16,或者a为8,b为16,或者a为16,b为8等等。
计算设备基于上述步骤,提取出目标图像的图像特征信息后,执行如下S103的步骤。
S103、对图像特征信息中不同行特征信息之间的上下位置关系进行提取,得到目标图像的第一特征信息。
其中,第一特征信息用于表示图像特征信息中不同行特征信息之间的上下位置关系。
在本申请实施例中,为了提高对目标图像中多行文本的准确识别,则在文本识别的过程中,基于目标图像的图像特征信息,构建图像特征信息中不同行特征信息之间的上下位置关系,得到目标图像的第一特征信息。该第一特征信息隐含了目标图像的图像特征信息中不同行特征信息之间的上下位置关系。这样,基于该第一特征信息进行后续的文本识别时,可以大大提高文本识别的准确性。
下面对计算设备基于目标图像的图像特征信息,确定目标图像的第一特征信息的具体过程进行介绍。
本申请实施例对计算设备基于目标图像的图像特征信息,确定目标图像的第一特征信息的具体方式不做限制。
在一些实施例中,本申请实施例提供一种上下位置提取模块A,该上下位置提取模块A可以提取出目标图像的图像特征信息中不同行特征信息之间的上下位置关系。基于此,如图6所示,计算设备将目标图像的图像特征信息输入该上下位置提取模块A,进行图像特征信息中不同行特征信息之间的上下位置关系,进而得到包括图像特征信息中不同行特征信息之间的上下位置关系的第一特征信息。本申请实施例对该上下位置提取模块A的具体网络结构不做限制,可以为任意经过训练后,可以提取出图像特征信息中不同行特征信息之间的上下位置关系的神经网络模块。
本申请实施例对第一特征信息的具体尺寸不做限制。
在一些实施例中,第一特征信息的尺寸与目标图像的图像特征信息的尺寸一致。例如,目标图像的图像特征信息的尺寸为H/a×W/b,将尺寸为H/a×W/b的图像特征信息输入该上下位置提取模块,进行不同行特征信息之间的上下位置关系的提取,进而尺寸为H/a×W/b的第一特征信息。
在一些实施例中,上述S103包括如下S103-A1和S103-A2的步骤:
S103-A1、基于图像特征信息,构建图像特征信息中不同行特征信息之间的上下位置关系,得到第一列特征信息。
其中,第一列特征信息的行数与图像特征信息的行数一致,且第一列特征信息中不同位置的特征信息表示图像特征信息中不同行特征信息之间的上下位置关系。
S103-A2、基于第一列特征信息和图像特征信息,确定第一特征信息。
在该实现方式中,计算设备在提取图像特征信息中不同行特征信息之间的上下位置关系时,首先基于图像特征信息,构建图像特征信息中不同行特征信息之间的上下位置关系,得到第一列特征信息。也就是说,计算设备基于图像特征信息,构建可以表达图像特征信息中不同行特征信息之间的上下位置关系的一列特征信息,将该列特征信息记为第一列特征信息。该第一列特征信息的行数与目标图像的图像特征信息的行数一致,且该第一列特征信息中的不同位置的特征信息表示图像特征信息中不同行特征信息之间的上下位置关系。
示例性的,如图7所示,假设目标图像的图像特征信息的尺寸为4×4,计算设备构建尺寸为4×4的图像特征信息中不同行特征信息之间的上下位置关系,得到尺寸为4×1的第一列特征信息。该4×1的第一列特征信息中的标识“1,2,3,4”表示图像特征信息中不同行特征信息之间的上下位置关系。
在本申请实施例中,计算设备基于图像特征信息,构建图像特征信息中不同行特征信息之间的上下位置关系,得到第一列特征信息的具体方式,至少包括如下几种:
在一种可能的实现方式中,如图8所示,计算设备将目标图像的图像特征信息输入一个上下位置提取模块B中。该上下位置提取模块B基于输入的图像特征信息,构建该图像特征信息中不同行特征信息之间的上下位置关系,进而得到第一列特征信息。本申请实施例对该上下位置提取模块B的具体网络结构不做限制,可以为任意经过训练后,可以提取出用于表示图像特征信息中不同行特征信息之间的上下位置关系的第一列特征信息的神经网络模块。可选地,该上下位置提取模块B包括BiLSTM。
在一种可能的实现方式中,上述S103-A1包括如下S103-A11和S103-A12的步骤:
S103-A11、将图像特征信息中的每一行特征信息进行特征聚合,得到第二列特征信息,第二列特征信息的行数与图像特征信息的行数一致;
S103-A12、基于第二列特征信息,构建图像特征信息中不同行特征信息之间的上下位置关系,得到第一列特征信息。
在该实现方式中,计算设备构建目标图像的图像特征信息中不同行特征信息之间的上下位置关系,得到第一行特征信息时,首先将图像特征信息中的每一行特征信息进行特征聚合。具体的,对于图像特征信息中的每一行特征信息,将该行特征信息进行特征聚合,聚合为一个特征值,依次类推,可以将图像特征信息中的每一行特征信息聚合为一个特征信息,进而得到一个与图像特征信息的行数一致的一列特征信息,记为第二列特征信息。例如,目标图像的图像特征信息的行数为4时,则第二列特征信息的行数也为4。
本申请实施例对计算设备将图像特征信息中的每一行特征信息进行特征聚合,得到第二列特征信息的具体方式不做限制。
在一种可能的实现方式中,计算设备基于预设的数值处理方法,将目标图像的图像特征信息中的每一行特征信息聚合为一个特征值。本申请实施例对该预设的数值处理方法不做限制。示例性的,对于目标图像的图像特征信息中的任意一行特征信息,将该行特征信息中不同位置的特征值进行相加或相乘,以将该行特征信息聚合为一个特征值。
在一种可能的实现方式中,计算设备通过水平池化操作,将图像特征信息中的每一行特征信息聚合为一个特征值,得到第二列特征信息。
示例性的,如图9所示,对于目标图像的图像特征信息中的每一行特征信息,计算设备对该行特征信息进行水平池化处理,以将该行特征信息聚合为一个特征值。
举例说明,如图9所示,假设目标图像的图像特征信息的尺寸为4×4,水平尺寸操作的池化窗口大小为1×4,步长stride为(1,4),其中stride为(1,4)表示每次池化的移动步长为1行4列,即对图像特征信息的前一行进行一次池化操作后,接着对图像特征信息的下一行进行一次池化操作。这样,首先使用该1×4的池化窗口,对图像特征信息的第一行特征信息进行特征聚合,得到第一个特征值。接着,使用该1×4的池化窗口,对图像特征信息的第二行特征信息进行特征聚合,得到第二个特征值。使用该1×4的池化窗口,对图像特征信息的第三行特征信息进行特征聚合,得到第三个特征值。使用该1×4的池化窗口,对图像特征信息的第四行特征信息进行特征聚合,得到第四个特征值。此时,上述得到的第一个特征值、第二个特征值、第三个特征值和第四个特征值,组成一个第二列特征信息,该第二列特征信息的不同位置表示图像特征信息中行与行之间的位置关系。
计算设备基于上述步骤,将图像特征信息中的每一行特征信息进行特征聚合,得到第二列特征信息后,执行上述S103-A12的步骤,即基于第二列特征信息,构建图像特征信息中不同行特征信息之间的上下位置关系,得到第一列特征信息。
本申请实施例对计算设备基于第二列特征信息,确定第一列特征信息的具体方式不做限制。
在一种可能的实现方式中,由上述可知,该第二列特征信息是将目标图像的图像特征信息中的每一行特征信息进行特征聚合,得到的一列特征信息,该第二列特征信息中的不同位置表示图像特征信息中行与行之间的位置关系。基于此,计算设备可以将该第二列特征信息,确定为第一列特征信息,用于执行后续的文本识别过程。
在一种可能的实现方式中,如图9所示,计算设备通过上下位置提取模块C,对第二列特征信息中特征信息的上下位置关系进行提取,得到第一列特征信息。
示例性的,如图9所示,在该实现方式中,计算设备首先将目标图像的图像特征信息中的每一行特征信息进行特征聚合,得到的第二列特征信息。例如,对于目标图像的图像特征信息中的每一行特征信息,计算设备对该行特征信息进行水平池化操作,得到一个特征值,依次类推,可以得到的第二列特征信息。接着,计算设备将该第二列特征信息输入上下位置提取模块C中构建图像特征信息中不同行特征信息之间的上下位置关系,得到可以表示图像特征信息中不同行特征信息之间的上下位置关系的第一列特征信息。
本申请实施例对上下位置提取模块C的具体网络结构不做限制。例如,可以为任意经过训练后,可以基于图像特征信息对应的第二列特征信息,构建出图像特征信息中不同行特征信息之间的上下位置关系的第一列特征信息的神经网络模型。
在一种示例中,上述上下位置提取模块C包括至少一个第一BiLSTM模块。本申请实施例对上下位置提取模块C所包括的至少一个第一BiLSTM模块的具体连接方式不做限制。在一种示例中,该至少一个第一BiLSTM模块可以串联连接。在一种示例中,该至少一个第一BiLSTM模块可以并联连接。在一种示例中,该至少一个第一BiLSTM模块中的部分第一BiLSTM模块串联连接,部分第一BiLSTM模块并联连接等。
计算设备基于上述步骤,基于图像特征信息,构建图像特征信息中不同行特征信息之间的上下位置关系,得到第一列特征信息之后,执行上述S103-A2的步骤,即基于第一列特征信息和图像特征信息,确定第一特征信息。
本申请实施例对基于第一列特征信息和目标图像的图像特征信息,确定第一特征信息的具体方式不做限制。
在一些实施例中,目标图像的第一特征信息的尺寸与目标图像的图像特征信息的尺寸一致。例如,目标图像的图像特征信息的尺寸为H/8×W/8,则目标图像的第一特征信息的尺寸也为H/8×W/8。基于此,计算设备基于第一列特征向量和目标图像的图像特征信息,得到目标图像的第一特征信息的方式至少包括如下几种:
方式1,将目标图像的图像特征信息中的每一行特征信息与第一列特征信息中对应行的特征值进行相乘,得到目标图像的第一特征信息。
举例说明,假设目标图像的图像特征信息的尺寸为4×4,第一列特征信息的尺寸为4×1。将图像特征信息的第一行特征信息中的每一个特征值分别与第一列特征信息中的第一个特征值进行相乘,得到第一特征信息的第一行特征信息。将图像特征信息的第二行特征信息中的每一个特征值分别与第一列特征信息中的第二个特征值进行相乘,得到第一特征信息的第二行特征信息。将图像特征信息的第三行特征信息中的每一个特征值分别与第一列特征信息中的第三个特征值进行相乘,得到第一特征信息的第三行特征信息。将图像特征信息的第四行特征信息中的每一个特征值分别与第一列特征信息中的第四个特征值进行相乘,得到第一特征信息的第四行特征信息。
方式2,计算设备将第一列特征信息与目标图像的图像特征信息进行广播式相加,确定目标图像的第一特征信息。
举例说明,假设目标图像的图像特征信息的尺寸为4×4,第一列特征信息的尺寸为4×1。如图10所示,将图像特征信息的第一行特征信息中的每一个特征值分别与第一列特征信息中的第一个特征值进行相加,得到第一特征信息的第一行特征信息。将图像特征信息的第二行特征信息中的每一个特征值分别与第一列特征信息中的第二个特征值进行相加,得到第一特征信息的第二行特征信息。将图像特征信息的第三行特征信息中的每一个特征值分别与第一列特征信息中的第三个特征值进行相加,得到第一特征信息的第三行特征信息。将图像特征信息的第四行特征信息中的每一个特征值分别与第一列特征信息中的第四个特征值进行相加,得到第一特征信息的第四行特征信息。
需要注意的是,计算设备还可以采用的其他的方式,将第一列特征信息和图像特征信息进行融合,得到可以表示图像特征信息中不同行特征信息之间的上下位置关系的第一特征信息。
计算设备基于上述步骤,确定出表示目标图像的图像特征信息中不同行特征信息之间的上下位置关系的第一特征信息后,执行如下S104的步骤。
S104、基于第一特征信息对图像特征信息中同一行特征信息之间的左右位置关系进行提取,得到目标图像的第二特征信息。
其中,第二特征信息用于表示图像特征信息中不同行特征信息之间的上下位置关系,以及图像特征信息中同一行特征信息之间的左右位置关系。
计算设备基于上述步骤,确定出可以表示目标图像的图像特征信息中不同行特征信息之间的上下位置关系的第一特征信息。接着,基于该第一特征信息,确定出即可以表示图像特征信息中不同行特征信息之间的上下位置关系,又可以表示图像特征信息中同一行特征信息之间的左右位置关系的第二特征信息。也就是说,该第二特征信息可以表示出目标图像的图像特征信息中各特征之间的上下左右位置关系,这样基于该第二特征信息进行后续的文本识别时,可以实现对目标图像中多行文本的准确识别。
需要说明的是,在上述基于目标图像的图像特征信息,生成目标图像的第一特征信息时,对目标图像的图像特征信息中同一行特征信息之间的左右位置关系未发送改变。也就是说,目标图像的图像特征信息中同一行特征信息之间的左右位置关系,与目标图像的第一特征信息中同一行特征信息之间的左右位置关系一致。因此,计算设备可以通过第一特征信息中各特征信息之间的左右位置关系,表示目标图像的图像特征信息中各特征信息之间的左右位置关系。
本申请实施例对计算设备基于目标图像的第一特征信息,确定目标图像的第二特征信息的具体方式不做限制。
在一些实施例中,如图11所示,计算设备将目标图像的第一特征信息,输入左右位置提取模块A,该左右位置提取模块A可以提取出输入的第一特征信息中不同特征的左右位置关系。这样,计算设备可以直接从该左右位置提取模块A处,得到目标图像的第二特征信息。由于该第二特征信息是基于第一特征信息生成的,因此从第一特征信息处继承得到目标图像的图像特征信息中不同行特征信息之间的上下位置关系。同时,左右位置提取模块A对第一特征信息中同一行特征信息之间的左右位置关系进行构建,使得生成的第二特征信息还可以表示出目标图像的图像特征信息中同一行特征信息之间的左右位置关系。
本申请实施例对该左右位置提取模块A的具体网络结构不做限制,可以为任意经过训练后,可以提取出第一特征信息中同一行特征信息之间的左右位置关系的神经网络模块。
本申请实施例对第二特征信息的具体尺寸不做限制。
在一些实施例中,第二特征信息的尺寸与目标图像的图像特征信息和第一特征信息的尺寸一致。例如,目标图像的第一特征信息的尺寸为H/a×W/b,将尺寸为H/a×W/b的第一特征信息输入该左右位置提取模块A,进行同一行特征信息之间的左右位置关系的提取,进而得到尺寸为H/a×W/b的第二特征信息。
在一些实施例中,上述S104包括如下S104-A1至S104-A3的步骤:
S104-A1、将第一特征信息的每一行进行拆分,得到多个第一行特征信息;
S104-A2、对于多个第一行特征信息中的第i个第一行特征信息,基于第i个第一行特征信息,构建第i个第一行特征信息中特征信息之间的左右位置关系,得到第i个第一行特征信息对应的第二行特征信息,i为正整数;
S104-A3、基于多个第一行特征信息中每一个第一行特征信息对应的第二行特征信息,得到第二特征信息。
在该实现方式中,在提取第一特征信息中同一行特征信息之间的左右位置关系时,对第一特征信息中的每一行特征信息进行单独处理。也就是说,对于第一特征信息中的每一个行特征信息,单独提取该行特征信息之间的左右位置关系,不受其他行的影响。基于此,计算设备在确定目标图像的第二特征信息时,将表示目标图像的图像特征信息中不同行之间的上下位置关系的第一特征信息进行行拆分。
示例性的,如图12所示,假设目标图像的第一特征信息的尺寸为4×4,图12中的数值表示不同行之间的空间位置关系。计算设备在基于第一特征信息,确定目标图像的第二特征信息时,将第一特征信息进行行拆分,具体的,将第一特征信息的第一行特征信息、第二行特征信息、第三行特征信息和第四行特征信息分别拆分为一行特征信息。这样可以将尺寸为4×4第一特征信息,拆分为4个尺寸为1×4的特征信息,为了便于描述,将这4个尺寸为1×4的特征信息记为4个第一行特征信息。如图12所示,拆分后的每一个第一行特征信息保持有该行特征信息与其他行特征信息之间的上下位置关系信息。
计算设备基于上述步骤,将第一特征信息中每一行进行拆分,得到多个第一行特征信息后,执行上述S104-A2的步骤,确定出多个第一行特征信息中每一个第一行特征信息中特征信息之间的左右位置关系。
在本申请实施例中,计算设备确定每一个第一行特征信息中特征信息之间的左右位置关系的具体方式基本一致,为了便于描述,在此以第i个第一行特征信息为例进行说明。
本申请实施例对计算设备第i个第一行特征信息,构建第i个第一行特征信息中特征信息之间的左右位置关系,得到第i个第一行特征信息对应的第二行特征信息的具体方式不做限制。
在一种可能的实现方式中,计算设备将第i个第一行特征信息输入一个作为位置提取模块B中。该左右位置提取模块B基于输入的第i个第一行特征信息,构建该第i个第一行特征信息中不同特征之间的左右位置关系,进而得到第i个第一行特征信息对应的第二行特征信息。
示例性的,假设第i个第一行特征信息为第一特征信息中标记为2的一行特征信息。将该第i个第一行特征信息输入左右位置提取模块B中,该左右位置提取模块B对第i个第一行特征信息中不同特征之间的左右位置关系进行构建,输出可以表示第i个第一行特征信息在第一特征信息中的上下位置关系,以及可以表示第i个第一行特征信息中不同特征之间的左右位置关系的第二行特征信息。如图12所示,该第i个第一行特征信息对应的第二行特征信息的标记为:(2,1)、(2,2)、(2,3)、(2,4)。其中,(2,1)中的2表示特征的上下位置关系,1表示特征的左右位置关系。也就是说,图12中的数字表示目标图像的图像特征信息中各特征所处的位置信息。
在一些实施例中,计算设备可以通过左右位置提取模块B,对多个第一行特征信息中的每一个第一行特征信息进行依次处理。也就是说,计算设备将多个第一行特征信息,逐一输入左右位置提取模块B。左右位置提取模块B逐一提取多个第一行特征信息中特征信息之间的左右位置关系,得到每一个第一行特征信息对应的第二行特征信息。
在一些实施例中,为了提高数据处理速度,则计算设备可以将多个第一行特征信息同步输入左右位置提取模块B,使得左右位置提取模块B同步提取多个第一行特征信息中特征信息之间的左右位置关系,得到每一个第一行特征信息对应的第二行特征信息。需要说明的是,在左右位置提取模块B在同步提取多个第一行特征信息中特征信息之间的左右位置关系,得到每一个第一行特征信息对应的第二行特征信息时,不同的第一行特征信息之间互不干涉。
由上述可知,本申请实施例提出的文本识别方法,在确定目标图像的图像特征信息中各特征信息的上下左右位置关系时,其时间复杂度和计算复杂度较低。这是因为,对于一个4×4大小的目标图像的图像特征信息来说,采用本申请实施例提供的文本识别方法,在确定图像特征信息的不同行特征信息之间的上下位置关系时,处理的特征的个数为4。在确定图像特征信息的同一行特征信息之间的左右位置关系时,每一个行单独进行处理,每一行需要处理的特征的个数为4,这样本申请实施例,确定目标图像的图像特征信息中各特征的上下和左右位置关系时,需要处理的特征个数为4+4=8,而不是4×4=16个,进而大大降低了确定图像特征信息中各特征信息的上下左右位置关系时的时间复杂度和计算复杂度,进而提升了文本识别的速度,降低文本识别的计算复杂度。
同时,由上述分析可知,本申请实施例在确定图像特征信息中各特征信息的上下左右位置关系时,图像特征信息的尺寸对计算复杂度的影响较小。例如,图像特征信息的尺寸为H/a×W/b时,则本申请实施例的计算复杂度为O(H/a+W/b),而自注意力等方式的计算复杂度为O((H/a×W/b)2)。也就是说,自注意力等方式的计算复杂度随着输入尺寸的增加,计算量大幅增加,而本申请实施例提出的文本识别方法,图像特征信息的尺寸对计算复杂度的影响较小。
本申请实施例对左右位置提取模块B的具体网络结构不做限制。例如,可以为任意经过训练后,可以基于第一特征信息,构建出第一特征信息中同一行特征信息之间的左右位置关系的第二行特征信息的神经网络模型。
在一种示例中,上述左右位置提取模块B包括至少一个第二BiLSTM模块。本申请实施例对左右位置提取模块B所包括的至少一个第二BiLSTM模块的具体连接方式不做限制。在一种示例中,该至少一个第二BiLSTM模块可以串联连接。在一种示例中,该至少一个第二BiLSTM模块可以并联连接。在一种示例中,该至少一个第二BiLSTM模块中的部分第二BiLSTM模块串联连接,部分第二BiLSTM模块并联连接等。
计算设备基于上述步骤,对于多个第一行特征信息中的第i个第一行特征信息,基于第i个第一行特征信息,构建第i个第一行特征信息中特征信息之间的左右位置关系,得到第i个第一行特征信息对应的第二行特征信息之后,执行上述S104-A3的步骤,即基于多个第一行特征信息中每一个第一行特征信息对应的第二行特征信息,得到第二特征信息。
本申请实施例对基于多个第一行特征信息中每一个第一行特征信息对应的第二行特征信息,得到第二特征信息的具体方式不做限制。
在一种可能的实现方式中,如图13所示,在本申请实施例中,计算设备将目标图像的第一特征信息进行拆行,得到多个第一行特征信息。接着,将多个第一行特征信息输入左右位置提取模块B中。该左右位置提取模块B可以提取出多个第一行特征信息中,每一个第一行特征信息中不同特征之间的左右位置关系,进而得到该第一行特征信息对应的第二行特征信息,该第二行特征信息继承了该第一行特征信息的上下位置关系,同时可以表示出该第一行特征信息中不同特征之间的左右位置关系。这样,计算设备可以得到多个第一行特征信息中每一个第一行特征信息对应的第二行特征信息,进而将这多个第一行特征信息中每一个第一行特征信息对应的第二行特征信息进行并接在一起,得到目标图像的第二特征信息。该第二特征信息的尺寸与第一特征信息的尺寸一致。如图13所示,第二特征信息中不同位置上的数值表示图像特征信息中该位置处的特征在图像特征信息中的具体位置信息。
计算设备基于上述步骤,确定出表示目标图像的图像特征信息中不同行特征信息之间的上下位置关系,以及表示图像特征信息中同一行特征信息之间的左右位置关系的第二特征信息后,执行如下S105的步骤。
S105、基于第二特征信息,得到目标图像的文本识别结果。
在本申请实施例中,计算设备在对目标图像中的文本进行识别,例如进行多行识别时,首先基于上述步骤,提取出目标图像的图像特征信息,接着构建该图像特征信息中不同行之间的上下位置关系,得到第一特征信息。接着,基于该第一特征信息,构建该图像特征信息中同一行特征信息之间的左右位置关系,进而得到即可以表示图像特征信息中不同行之间的上下位置关系,又可以表示该图像特征信息中同一行特征信息之间的左右位置关系的第二特征信息。进而基于该可以表示目标图像的图像特征信息中各特征的位置信息的第二特征信息进行后续的文本识别时,可以大大提升文本的识别准确性,尤其可以提升目标图像中公式等多行文本的识别准确性。
本申请实施例对计算设备基于目标图像的第二特征信息,得到目标图像的文本识别结果的具体方式不做限制。
在一些实施例中,计算设备通过解码器对目标图像的第二特征信息进行解码,得到目标图像的文本识别结果。
本申请实施例对计算设备通过解码器对目标图像的第二特征信息进行解码,得到目标图像的文本识别结果的具体方式不做限制。
在一种可能的实现方式中,计算设备将上述确定的目标图像的第二特征信息输入解码器中进行解码处理,得到目标图像的文本识别结果。
在一种可能的实现方式中,计算设备将上述确定的目标图像的第二特征信息和目标图像的图像特征信息进行融合,进而得到目标图像的融合特征信息。接着,将该目标图像的融合特征信息输入解码器中进行解码,得到目标图像的文本识别结果。本申请实施例对计算设备将目标图像的第二特征信息和目标图像的图像特征信息进行融合的具体方式不做限制。例如,计算设备将目标图像的第二特征信息和目标图像的图像特征信息进行相加,得到目标图像的融合特征信息。再例如,计算设备将目标图像的第二特征信息和目标图像的图像特征信息进行相乘,得到目标图像的融合特征信息。再例如,计算设备将目标图像的第二特征信息和目标图像的图像特征信息进行拼接,得到目标图像的融合特征信息。
本申请实施例对该解码器的具体网络结构不做限制。
在一些实施例中,上述解码器可以为自回归解码器。自回归解码器将解码器自己当前步的输出加入下一步的输入,解码器融合所有已经输入的向量来输出下一个向量,所以越往后的输出考虑了更多输入。这样,计算设备通过自回归解码器对第二特征信息进行解码时,通过迭代输入历史解码结果实现整个文本行的识别。具体是,计算设备将第二特征信息和起始符编码向量输入自回归解码器,得到第二特征信息中第一个位置的特征对应的分类结果。接着,计算设备将第二特征信息和第一个位置的特征对应的分类结果输入自回归解码器,得到第二特征信息中第二个位置的特征对应的分类结果。接着,计算设备将第二特征信息和第二个位置的特征对应的分类结果输入自回归解码器,得到第二特征信息中第三个位置的特征对应的分类结果。依次类推,直至出现分类结果为结束符,则终止解码。最终得到目标图像的文本识别结果。
在一些实施例中,计算设备还可以将上述得到目标图像的文本识别结果,发送给终端设备进行显示。
本申请实施例提供的文本识别方法,通过获取目标图像,并提取该目标图像的图像特征信息,该目标图像包括待识别文本,例如包括多行待识别文本。接着,基于图像特征信息,构建图像特征信息中不同行特征信息之间的上下位置关系,得到目标图像的第一特征信息。基于第一特征信息,构建图像特征信息中不同行特征信息之间的上下位置关系,以及图像特征信息中同一行特征信息之间的左右位置关系,得到目标图像的第二特征信息。最后,基于第二特征信息,得到目标图像的文本识别结果。由上述可知,在本申请实施例中,在多行文本识别过程中,考虑了行与行之间的上下位置关系,以及考虑了同一行中特征信息之间的左右位置关系,这样基于包括位置信息的图像特征信息(即第二特征信息)进行文本识别时,可以提升多个文本识别的准确性。
上文对本申请实施例提供的文本识别方法的具体过程进行整体介绍。下面结合图14提供的文本识别模型,对本申请实施例提供的文本识别方法做进一步说明。
首先对图14所示的文本识别模型进行介绍。本申请实施例还提供一种文本识别模型,该文本识别模型包括编码器和解码器。
其中编码器用于提取目标图像的图像特征信息中不同上行特征信息之间的上下位置关系,以及同一行特征信息之间的左右位置关系。
其中解码器用于基于编码器提取的可以表示目标图像的图像特征信息中不同上行特征信息之间的上下位置关系,以及同一行特征信息之间的左右位置关系的第二特征信息,解码得到目标图像的文本识别结果。
在一些实施例中,如图14所示,编码器包括上下位置提取模块和左右位置提取模块。其中,上下位置提取模块,用于提取出目标图像的图像特征信息中不同行特征信息之间的上下位置关系。左右位置提取模块,用于提取目标图像的图像特征信息中同一行特征信息之间的左右位置关系。
图15为本申请一实施例提供的文本识别方法的流程示意图。图15所示的文本识别方法可以理解为上述图4所示的文本识别方法的一种具体实现方式。
如图15所示,本申请实施例的文本识别过程包括如下步骤:
S201、获取包括待识别文本的目标图像。
上述S201的具体实现过程参照上述S101的相关描述,在此不再赘述。
S202、通过特征提取模块,提取目标图像的图像特征信息。
在一些实施例中,如图16所示,本申请实施例提出的文本识别模型不包括特征提取模块,而该特征提取模块为单独训练得到,与文本识别模型不进行同步训练。此时,如图16所示,计算设备首先将目标图像输入特征提取模块中,提取出目标图像的图像特征信息。再将目标图像的图像特征信息输入文本识别模型中进行处理。
在一些实施例中,如图17所示,本申请实施例的文本识别模型包括特征提取模块,也就是说,本申请实施例的编码器包括特征提取模块、上下位置提取模块和左右位置提取模块。此时,计算设备可以将目标图像输入文本识别模块中的编码器中,而编码器中的特征提取模块提取出该目标图像的图像特征信息。
S203、通过上下位置提取模块,构建图像特征信息中不同行特征信息之间的上下位置关系,得到目标图像的第一特征信息。
在本申请实施例中,如图16或图17所示,计算设备提取出目标图像的图像特征信息后,将目标图像的图像特征信息输入上下位置提取模块中,构建图像特征信息中不同行特征信息之间的上下位置关系。
在一些实施例中,图16或图17所示的上下位置提取模块,可以直接提取出目标图像的图像特征信息中不同行之间的上下位置关系,输出第一特征信息。
在一些实施例中,上述S203包括如下S203-A1和S203-A2的步骤:
S203-A1、通过上下位置提取模块,构建图像特征信息中不同行特征信息之间的上下位置关系,得到第一列特征信息。
其中,第一列特征信息的行数与图像特征信息的行数一致,且第一列特征信息中不同位置的特征信息表示图像特征信息中不同行特征信息之间的上下位置关系。
S203-A2、基于第一列特征信息和图像特征信息,确定第一特征信息。
在该实现方式中,计算设备在提取图像特征信息中不同行特征信息之间的上下位置关系时,首先通过上下位置提取模块,对图像特征信息进行处理,以构建图像特征信息中不同行特征信息之间的上下位置关系,得到第一列特征信息。
示例性的,如图18所示,假设目标图像的图像特征信息的尺寸为4×4,计算设备通过上下位置提取模块构建尺寸为4×4的图像特征信息中不同行特征信息之间的上下位置关系,得到尺寸为4×1的第一列特征信息。该4×1的第一列特征信息中的标识“1,2,3,4”表示图像特征信息中不同行特征信息之间的上下位置关系。
在一些实施例中,如图19所示,编码器还包括水平池化层,此时计算设备在使用上下位置提取模块,得到目标图像的第一特征信息时,首先通过水平池化层,将图像特征信息中的每一行特征信息进行特征聚合,得到第二列特征信息,该第二列特征信息的行数与图像特征信息的行数一致。接着,通过上下位置提取模块,基于第二列特征信息,构建图像特征信息中不同行特征信息之间的上下位置关系,得到第一列特征信息。
接着,计算设备基于第一列特征信息和图像特征信息,确定第一特征信息。例如图19所示,计算设备将第一列特征信息和图像特征信息进行广播式相加,得到目标图像的第一特征信息。
需要说明的是,上述S203的相关具体实现过程可以参照上述S103的相关描述,在此不再赘述。
S204、通过左右位置提取模块,构建第一特征信息中同一行特征信息之间的左右位置关系,得到目标图像的第二特征信息。
在本申请实施例中,计算设备基于上述步骤,通过上下位置提取模块,确定出可以表示目标图像的图像特征信息中不同行特征信息之间的上下位置关系的第一特征信息。接着,基于该第一特征信息,通过左右位置提取模块,确定出即可以表示图像特征信息中不同行特征信息之间的上下位置关系,又可以表示图像特征信息中同一行特征信息之间的左右位置关系的第二特征信息。
本申请实施例对计算设备过左右位置提取模块,构建第一特征信息中同一行特征信息之间的左右位置关系,得到目标图像的第二特征信息的具体方式不做限制。
在一些实施例中,计算设备将目标图像的第一特征信息,输入左右位置提取模块A,该左右位置提取模块A可以提取出输入的第一特征信息中不同特征的左右位置关系。这样,计算设备可以直接从该左右位置提取模块A处,得到目标图像的第二特征信息。由于该第二特征信息是基于第一特征信息生成的,因此从第一特征信息处继承得到目标图像的图像特征信息中不同行特征信息之间的上下位置关系。同时,左右位置提取模块A对第一特征信息中同一行特征信息之间的左右位置关系进行构建,使得生成的第二特征信息还可以表示出目标图像的图像特征信息中同一行特征信息之间的左右位置关系。
在一些实施例中,如图20所示,计算设备首先将第一特征信息的每一行进行拆分,得到多个第一行特征信息。对于多个第一行特征信息中的第i个第一行特征信息,通过左右位置提取模块,构建第i个第一行特征信息中特征信息之间的左右位置关系,得到第i个第一行特征信息对应的第二行特征信息,i为正整数。最后,基于多个第一行特征信息中每一个第一行特征信息对应的第二行特征信息,得到第二特征信息。
在该实现方式中,计算设备在提取第一特征信息中同一行特征信息之间的左右位置关系时,对第一特征信息中的每一行特征信息进行单独处理。也就是说,对于第一特征信息中的每一个行特征信息,单独提取该行特征信息之间的左右位置关系,不受其他行的影响。基于此,计算设备在确定目标图像的第二特征信息时,将表示目标图像的图像特征信息中不同行之间的上下位置关系的第一特征信息进行行拆分。
需要说明的是,上述S204的相关具体实现过程可以参照上述S104的相关描述,在此不再赘述。
S205、通过解码器对第二特征信息进行解码处理,得到目标图像的文本识别结果。
本申请实施例对该解码器的具体网络结构不做限制。
在一些实施例中,上述解码器可以为自回归解码器。自回归解码器将解码器自己当前步的输出加入下一步的输入,解码器融合所有已经输入的向量来输出下一个向量,所以越往后的输出考虑了更多输入。这样,计算设备通过自回归解码器对第二特征信息进行解码时,通过迭代输入历史解码结果实现整个文本行的识别。具体是,计算设备将第二特征信息和起始符编码向量输入自回归解码器,得到第二特征信息中第一个位置的特征对应的分类结果。接着,计算设备将第二特征信息和第一个位置的特征对应的分类结果输入自回归解码器,得到第二特征信息中第二个位置的特征对应的分类结果。接着,计算设备将第二特征信息和第二个位置的特征对应的分类结果输入自回归解码器,得到第二特征信息中第三个位置的特征对应的分类结果。依次类推,直至出现分类结果为结束符,则终止解码。最终得到目标图像的文本识别结果。
需要说明的是,上述S205的相关具体实现过程可以参照上述S105的相关描述,在此不再赘述。
本申请实施例的数据处理方法,获取目标图像,通过特征提取模块提取该目标图像的图像特征信息,该目标图像包括待识别文本,例如包括多行待识别文本。接着,通过上下位置提取模块,构建图像特征信息中不同行特征信息之间的上下位置关系,得到目标图像的第一特征信息。通过左右位置提取模块,构建图像特征信息中不同行特征信息之间的上下位置关系,以及图像特征信息中同一行特征信息之间的左右位置关系,得到目标图像的第二特征信息。最后,通过解码器对第二特征信息进行解码处理,得到目标图像的文本识别结果。由上述可知,在本申请实施例中,在多行文本识别过程中,通过上下位置提取模块和左右位置提取模块,提取出了目标图像的图像特征信息中不同行特征信息之间的上下位置关系,以及同一行特征信息之间的左右位置关系,这样基于包括位置信息的图像特征信息(即第二特征信息)进行文本识别时,可以提升多个文本识别的准确性。
下面以上下位置提取模块和左右位置提取模块为BiLSTM模块时,对本申请实施例提供的文本识别方法作进一步介绍。
图21为本申请一实施例提供的文本识别方法的流程示意图。图22所示的文本识别方法可以理解为上述图4所示的文本识别方法的一种具体实现方式。
如图21所示,本申请实施例提供的文本识别方法包括如下步骤:
S301、获取包括待识别文本的目标图像。
上述S301的具体实现过程参照上述S101的相关描述,在此不再赘述。
S302、通过特征提取模块,提取目标图像的图像特征信息。
如图22所示,本申请实施例的文本识别模型包括编码器和解码器,其中编码器中包括特征提取模块。这样计算设备可以将目标图像输入文本识别模块中的编码器中,而编码器中的特征提取模块提取出该目标图像的图像特征信息。
S303、通过水平池化层,将图像特征信息中的每一行特征信息聚合为一个特征值,得到第二列特征信息。
如图22所示,本申请实施例的编码器还包括水平池化层,该水平池化层用于将图像特征信息中的每一行特征信息聚合为一个特征值,得到第二列特征信息。
上述S303的具体相关描述,参照上述S203-A1的相关描述,在此不再赘述。
S304、通过至少一个第一BiLSTM模块,对第二列特征信息中特征信息的上下位置关系进行提取,得到第一列特征信息。
如图22所示,本申请实施例的上下位置提取模块包括至少一个第一BiLSTM模块。这样计算设备可以通过该至少一个第一BiLSTM模块,对第二列特征信息中特征信息的上下位置关系进行提取,得到第一列特征信息。
S305、将第一列特征信息与图像特征信息进行广播式相加,确定第一特征信息。
上述S303至S305的相关描述,可以参照上述S103-A1和S103-A2的相关描述,在此不再赘述。
S306、将第一特征信息的每一行进行拆分,得到多个第一行特征信息。
例如,将第一特征信息的每一行特征信息,拆分为一个第一行特征信息,进而得到数目与第一特征信息的行数相同的多个第一行特征信息。
S307、对于多个第一行特征信息中的第i个第一行特征信息,通过至少一个第二BiLSTM模块,对第i个第一行特征信息中特征信息的左右位置关系进行提取,得到第i个第一行特征信息对应的第二行特征信息。
如图22所示,本申请实施例的左右位置提取模块包括至少一个第二BiLSTM模块。这样计算设备可以通过该至少一个第二BiLSTM模块,对第i个第一行特征信息中特征信息的左右位置关系进行提取,得到第i个第一行特征信息对应的第二行特征信息。
S308、基于多个第一行特征信息中每一个第一行特征信息对应的第二行特征信息,得到第二特征信息。
例如,将多个第一行特征信息中每一个第一行特征信息对应的第二行特征信息进行合并,得到第二特征信息。
上述306至S308的具体描述,可以参照上述S104的相关描述,在此不再赘述。
S309、通过解码器对第二特征信息进行解码,得到目标图像的文本识别结果。
如图22所示,本申请实施例的文本识别模型还包括解码器,该解码器用于对第二特征信息进行解码,得到目标图像的文本识别结果。
可选地,该解码器为自回归解码器。
本申请实施例对上述文本识别模型的具体训练方法不做限制。
在一些实施例中,本申请实施例提供的文本识别模型在训练过程中,通过teacher-forcing方案实现分类特征和分类类别对齐。其中,teacher-forcing为一种训练神经网络模型的方法,通常用于训练序列模型。它的基本思想是,在训练时将真实的目标输出序列作为解码器下一时刻的输入,而不是将解码器自己生成的序列作为下一时刻的输入,这样可以使模型更容易学习到正确的序列生成方式。
本申请实施例对上述文本识别模型在训练过程中所采用的损失函数的类型也不做限制。
在一些实施例中,可以采用交叉熵损失函数作为上述文本识别模型的损失函数,以对文本识别模型进行训练。
另外,需要说明的是,由上述可知,本申请实施例在目标图像中的文本进行识别时,不仅提取了目标文本的图像特征信息,且提取出了图像特征信息中不同行特征信息之间的上下位置关系,以及同一行特征信息之间的左右位置关系。这样对于一些变形程度较大或不清楚的图像,可以基本包括位置信息的图像特征信息(即第二特征信息),实现对这些图像中文本的准确识别。
本申请实施例的数据处理方法,获取目标图像,并通过特征提取模块提取该目标图像的图像特征信息。接着,通过水平池化层,将图像特征信息中的每一行特征信息聚合为一个特征值,得到第二列特征信息,通过至少一个第一BiLSTM模块,对第二列特征信息中特征信息的上下位置关系进行提取,得到第一列特征信息,进而将第一列特征信息与图像特征信息进行广播式相加,确定第一特征信息。接着,将第一特征信息的每一行进行拆分,得到多个第一行特征信息,对于多个第一行特征信息中的第i个第一行特征信息,通过至少一个第二BiLSTM模块,对第i个第一行特征信息中特征信息的左右位置关系进行提取,得到第i个第一行特征信息对应的第二行特征信息,进而基于多个第一行特征信息中每一个第一行特征信息对应的第二行特征信息,得到第二特征信息。最后通过解码器对第二特征信息进行解码,得到目标图像的文本识别结果。由上述可知,在本申请实施例的多行文本识别过程中,通过至少一个第一BiLSTM模块和至少一个第二BiLSTM模块,提取出了目标图像的图像特征信息中不同行特征信息之间的上下位置关系,以及同一行特征信息之间的左右位置关系,这样基于包括位置信息的图像特征信息(即第二特征信息)进行文本识别时,可以提升多个文本识别的准确性。
上文结合图4至图22,详细描述了本申请的文本识别方法实施例,下文结合图23,详细描述本申请的装置实施例。
图23为本申请一实施例提供的文本识别装置的示意性框图。该装置10可以应用于计算设备。
如图10所示,文本识别装置10包括:
获取单元11,用于获取包括待识别文本的目标图像;
特征提取单元12,用于对所述目标图像进行图像特征提取,得到所述目标图像的图像特征信息;
上下位置确定单元13,用于对所述图像特征信息中不同行特征信息之间的上下位置关系进行提取,得到所述目标图像的第一特征信息,所述第一特征信息用于表示所述图像特征信息中不同行特征信息之间的上下位置关系;
左右位置确定单元14,用于基于所述第一特征信息对所述图像特征信息中同一行特征信息之间的左右位置关系进行提取,得到所述目标图像的第二特征信息,所述第二特征信息用于表示所述图像特征信息中不同行特征信息之间的上下位置关系,以及所述图像特征信息中同一行特征信息之间的左右位置关系;
识别单元15,用于基于所述第二特征信息,得到所述目标图像的文本识别结果。
在一些实施例中,上下位置确定单元13,具体用于基于所述图像特征信息,构建所述图像特征信息中不同行特征信息之间的上下位置关系,得到第一列特征信息,所述第一列特征信息的行数与所述图像特征信息的行数一致,且所述第一列特征信息中不同位置的特征信息表示所述图像特征信息中不同行特征信息之间的上下位置关系;基于所述第一列特征信息和所述图像特征信息,确定所述第一特征信息。
在一些实施例中,上下位置确定单元13,具体用于将所述图像特征信息中的每一行特征信息进行特征聚合,得到第二列特征信息,所述第二列特征信息的行数与所述图像特征信息的行数一致;基于所述第二列特征信息,构建所述图像特征信息中不同行特征信息之间的上下位置关系,得到所述第一列特征信息。
在一些实施例中,上下位置确定单元13,具体用于通过水平池化操作,将所述图像特征信息中的每一行特征信息聚合为一个特征值,得到所述第二列特征信息。
在一些实施例中,上下位置确定单元13,具体用于通过上下位置提取模块,对所述第二列特征信息中特征信息的上下位置关系进行提取,得到所述第一列特征信息。
在一些实施例中,所述上下位置提取模块包括至少一个第一双向长短期记忆网络BiLSTM模块。
在一些实施例中,上下位置确定单元13,具体用于将所述第一列特征信息与所述图像特征信息进行广播式相加,确定所述第一特征信息。
在一些实施例中,左右位置确定单元14,具体用于将所述第一特征信息的每一行进行拆分,得到多个第一行特征信息;对于所述多个第一行特征信息中的第i个第一行特征信息,基于所述第i个第一行特征信息,构建所述第i个第一行特征信息中特征信息之间的左右位置关系,得到所述第i个第一行特征信息对应的第二行特征信息,所述i为正整数;基于所述多个第一行特征信息中每一个第一行特征信息对应的第二行特征信息,得到所述第二特征信息。
在一些实施例中,左右位置确定单元14,具体用于通过左右位置提取模块,对所述第i个第一行特征信息中特征信息的左右位置关系进行提取,得到所述第i个第一行特征信息对应的第二行特征信息。
在一些实施例中,所述左右位置提取模块包括至少一个第二双向长短期记忆网络BiLSTM模块。
在一些实施例中,特征提取单元12,具体用于通过特征提取模块,提取所述目标图像的图像特征信息。
在一些实施例中,识别单元15,具体用于通过解码器对所述第二特征信息进行解码,得到所述目标图像的文本识别结果。
在一些实施例中,所述解码器包括自回归解码器。
应理解的是,装置实施例与方法实施例可以相互对应,类似的描述可以参照方法实施例。为避免重复,此处不再赘述。具体地,图23所示的装置可以执行上述方法的实施例,并且装置中的各个模块的前述和其它操作和/或功能分别为了实现上述方法实施例,为了简洁,在此不再赘述。
上文中结合附图从功能模块的角度描述了本申请实施例的装置。应理解,该功能模块可以通过硬件形式实现,也可以通过软件形式的指令实现,还可以通过硬件和软件模块组合实现。具体地,本申请实施例中的方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路和/或软件形式的指令完成,结合本申请实施例公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。可选地,软件模块可以位于随机存储器,闪存、只读存储器、可编程只读存储器、电可擦写可编程存储器、寄存器等本领域的成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法实施例中的步骤。
图24是本申请实施例提供的计算设备的示意性框图,图24的计算设备可以为上述的用于实现文本识别的计算设备。
如图24所示,该计算设备30可包括:
存储器31和处理器32,该存储器31用于存储计算机程序33,并将该程序代码33传输给该处理器32。换言之,该处理器32可以从存储器31中调用并运行计算机程序33,以实现本申请实施例中的方法。
例如,该处理器32可用于根据该计算机程序33中的指令执行上述方法200中的步骤。
在本申请的一些实施例中,该处理器32可以包括但不限于:
通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等等。
在本申请的一些实施例中,该存储器31包括但不限于:
易失性存储器和/或非易失性存储器。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synch link DRAM,SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,DR RAM)。
在本申请的一些实施例中,该计算机程序33可以被分割成一个或多个模块,该一个或者多个模块被存储在该存储器31中,并由该处理器32执行,以完成本申请提供的录制页面的方法。该一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述该计算机程序33在该计算设备900中的执行过程。
如图24所示,该计算设备30还可包括:
收发器34,该收发器34可连接至该处理器32或存储器31。
其中,处理器32可以控制该收发器34与其他设备进行通信,具体地,可以向其他设备发送信息或数据,或接收其他设备发送的信息或数据。收发器34可以包括发射机和接收机。收发器34还可以进一步包括天线,天线的数量可以为一个或多个。
应当理解,该计算设备30中的各个组件通过总线系统相连,其中,总线系统除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。
根据本申请的一个方面,提供了一种计算机存储介质,其上存储有计算机程序,该计算机程序被计算机执行时使得该计算机能够执行上述方法实施例的方法。或者说,本申请实施例还提供一种包含指令的计算机程序产品,该指令被计算机执行时使得计算机执行上述方法实施例的方法。
根据本申请的另一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方法实施例的方法。
换言之,当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时,全部或部分地产生按照本申请实施例该的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如数字视频光盘(digital video disc,DVD))、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的模块及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,该模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。例如,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。
以上内容,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以该权利要求的保护范围为准。
Claims (14)
1.一种文本识别方法,其特征在于,包括:
获取包括待识别文本的目标图像;
对所述目标图像进行图像特征提取,得到所述目标图像的图像特征信息;
基于所述图像特征信息,构建所述图像特征信息中不同行特征信息之间的上下位置关系,得到第一列特征信息,所述第一列特征信息的行数与所述图像特征信息的行数一致,且所述第一列特征信息中不同位置的特征信息表示所述图像特征信息中不同行特征信息之间的上下位置关系;
基于所述第一列特征信息和所述图像特征信息,确定所述目标图像的第一特征信息,所述第一特征信息用于表示所述图像特征信息中不同行特征信息之间的上下位置关系;
基于所述第一特征信息对所述图像特征信息中同一行特征信息之间的左右位置关系进行提取,得到所述目标图像的第二特征信息,所述第二特征信息用于表示所述图像特征信息中不同行特征信息之间的上下位置关系及所述图像特征信息中同一行特征信息之间的左右位置关系;
基于所述第二特征信息,得到所述目标图像的文本识别结果。
2.根据权利要求1所述的方法,其特征在于,所述基于所述图像特征信息,构建所述图像特征信息中不同行特征信息之间的上下位置关系,得到第一列特征信息,包括:
将所述图像特征信息中的每一行特征信息进行特征聚合,得到第二列特征信息,所述第二列特征信息的行数与所述图像特征信息的行数一致;
基于所述第二列特征信息,构建所述图像特征信息中不同行特征信息之间的上下位置关系,得到所述第一列特征信息。
3.根据权利要求2所述的方法,其特征在于,所述将所述图像特征信息中的每一行特征信息进行特征聚合,得到第二列特征信息,包括:
通过水平池化操作,将所述图像特征信息中的每一行特征信息聚合为一个特征值,得到所述第二列特征信息。
4.根据权利要求2所述的方法,其特征在于,所述基于所述第二列特征信息,构建所述图像特征信息中不同行特征信息之间的上下位置关系,得到所述第一列特征信息,包括:
通过上下位置提取模块,对所述第二列特征信息中特征信息的上下位置关系进行提取,得到所述第一列特征信息。
5.根据权利要求4所述的方法,其特征在于,所述上下位置提取模块包括至少一个第一双向长短期记忆网络BiLSTM模块。
6.根据权利要求1所述的方法,其特征在于,所述基于所述第一列特征信息和所述图像特征信息,确定所述第一特征信息,包括:
将所述第一列特征信息与所述图像特征信息进行广播式相加,确定所述第一特征信息。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述基于所述第一特征信息对所述图像特征信息中同一行特征信息之间的左右位置关系进行提取,得到所述目标图像的第二特征信息,包括:
将所述第一特征信息的每一行进行拆分,得到多个第一行特征信息;
对于所述多个第一行特征信息中的第i个第一行特征信息,基于所述第i个第一行特征信息,构建所述第i个第一行特征信息中特征信息之间的左右位置关系,得到所述第i个第一行特征信息对应的第二行特征信息,所述i为正整数;
基于所述多个第一行特征信息中每一个第一行特征信息对应的第二行特征信息,得到所述第二特征信息。
8.根据权利要求7所述的方法,其特征在于,所述基于所述第i个第一行特征信息,构建所述第i个第一行特征信息中特征信息之间的左右位置关系,得到所述第i个第一行特征信息对应的第二行特征信息,包括:
通过左右位置提取模块,对所述第i个第一行特征信息中特征信息的左右位置关系进行提取,得到所述第i个第一行特征信息对应的第二行特征信息。
9.根据权利要求8所述的方法,其特征在于,所述左右位置提取模块包括至少一个第二双向长短期记忆网络BiLSTM模块。
10.根据权利要求1所述的方法,其特征在于,所述对所述目标图像进行图像特征提取,得到所述目标图像的图像特征信息,包括:
通过特征提取模块,提取所述目标图像的图像特征信息。
11.根据权利要求1所述的方法,其特征在于,所述基于所述第二特征信息,得到所述目标图像的文本识别结果,包括:
通过解码器对所述第二特征信息进行解码,得到所述目标图像的文本识别结果。
12.一种文本识别装置,其特征在于,包括:
获取单元,用于获取包括待识别文本的目标图像;
特征提取单元,用于对所述目标图像进行图像特征提取,得到所述目标图像的图像特征信息;
上下位置确定单元,用于基于所述图像特征信息,构建所述图像特征信息中不同行特征信息之间的上下位置关系,得到第一列特征信息,所述第一列特征信息的行数与所述图像特征信息的行数一致,且所述第一列特征信息中不同位置的特征信息表示所述图像特征信息中不同行特征信息之间的上下位置关系;并基于所述第一列特征信息和所述图像特征信息,确定所述目标图像的第一特征信息,所述第一特征信息用于表示所述图像特征信息中不同行特征信息之间的上下位置关系;
左右位置确定单元,用于基于所述第一特征信息对所述图像特征信息中同一行特征信息之间的左右位置关系进行提取,得到所述目标图像的第二特征信息,所述第二特征信息用于表示所述图像特征信息中不同行特征信息之间的上下位置关系及所述图像特征信息中同一行特征信息之间的左右位置关系;
识别单元,用于基于所述第二特征信息,得到所述目标图像的文本识别结果。
13.一种计算机设备,包括处理器和存储器;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述计算机程序以实现如上述权利要求1至11任一项所述的方法。
14.一种计算机可读存储介质,其特征在于,用于存储计算机程序;
所述计算机程序使得计算机执行如上述权利要求1至11任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311441716.0A CN117173719B (zh) | 2023-11-01 | 2023-11-01 | 文本识别方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311441716.0A CN117173719B (zh) | 2023-11-01 | 2023-11-01 | 文本识别方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117173719A CN117173719A (zh) | 2023-12-05 |
CN117173719B true CN117173719B (zh) | 2024-02-23 |
Family
ID=88943488
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311441716.0A Active CN117173719B (zh) | 2023-11-01 | 2023-11-01 | 文本识别方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117173719B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109614944A (zh) * | 2018-12-17 | 2019-04-12 | 科大讯飞股份有限公司 | 一种数学公式识别方法、装置、设备及可读存储介质 |
CN111382717A (zh) * | 2020-03-17 | 2020-07-07 | 腾讯科技(深圳)有限公司 | 一种表格识别方法、装置和计算机可读存储介质 |
CN111695517A (zh) * | 2020-06-12 | 2020-09-22 | 北京百度网讯科技有限公司 | 图像的表格提取方法、装置、电子设备及存储介质 |
CN114170468A (zh) * | 2022-02-14 | 2022-03-11 | 阿里巴巴达摩院(杭州)科技有限公司 | 文本识别方法、存储介质及计算机终端 |
CN114639096A (zh) * | 2022-04-22 | 2022-06-17 | 深圳市星桐科技有限公司 | 文本识别方法、装置、电子设备和存储介质 |
CN114758331A (zh) * | 2022-04-22 | 2022-07-15 | 深圳市星桐科技有限公司 | 文本识别方法、装置、电子设备和存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110569846A (zh) * | 2019-09-16 | 2019-12-13 | 北京百度网讯科技有限公司 | 图像文字识别方法、装置、设备及存储介质 |
WO2021135816A1 (zh) * | 2019-12-30 | 2021-07-08 | 华为技术有限公司 | 识别图像中文本的方法、装置和系统 |
-
2023
- 2023-11-01 CN CN202311441716.0A patent/CN117173719B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109614944A (zh) * | 2018-12-17 | 2019-04-12 | 科大讯飞股份有限公司 | 一种数学公式识别方法、装置、设备及可读存储介质 |
CN111382717A (zh) * | 2020-03-17 | 2020-07-07 | 腾讯科技(深圳)有限公司 | 一种表格识别方法、装置和计算机可读存储介质 |
CN111695517A (zh) * | 2020-06-12 | 2020-09-22 | 北京百度网讯科技有限公司 | 图像的表格提取方法、装置、电子设备及存储介质 |
CN114170468A (zh) * | 2022-02-14 | 2022-03-11 | 阿里巴巴达摩院(杭州)科技有限公司 | 文本识别方法、存储介质及计算机终端 |
CN114639096A (zh) * | 2022-04-22 | 2022-06-17 | 深圳市星桐科技有限公司 | 文本识别方法、装置、电子设备和存储介质 |
CN114758331A (zh) * | 2022-04-22 | 2022-07-15 | 深圳市星桐科技有限公司 | 文本识别方法、装置、电子设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
一种基于注意力机制的中文短文本关键词提取模型;杨丹浩 等;计算机科学(01);第199-204页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117173719A (zh) | 2023-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11868738B2 (en) | Method and apparatus for generating natural language description information | |
WO2021169366A1 (zh) | 数据增强方法和装置 | |
CN117540221B (zh) | 图像处理方法和装置、存储介质及电子设备 | |
CN112434746B (zh) | 基于层次化迁移学习的预标注方法及其相关设备 | |
CN117173719B (zh) | 文本识别方法、装置、设备及存储介质 | |
CN115272667B (zh) | 农田图像分割模型训练方法、装置、电子设备和介质 | |
CN113128225B (zh) | 命名实体的识别方法、装置、电子设备及计算机存储介质 | |
CN117373121B (zh) | 智能座舱环境下的手势交互方法及相关设备 | |
CN117689977A (zh) | 模型训练方法、装置、电子设备及存储介质 | |
CN117058498B (zh) | 分割图评估模型的训练方法、分割图的评估方法及装置 | |
CN117173530B (zh) | 目标异常检测方法及装置 | |
CN116883765B (zh) | 图像分类方法、装置、电子设备及存储介质 | |
CN116778534B (zh) | 图像处理方法、装置、设备和介质 | |
CN117932314A (zh) | 模型训练方法、装置、电子设备、存储介质及程序产品 | |
CN116883882A (zh) | 视频处理方法、装置、计算机设备、存储介质及程序产品 | |
CN118135466A (zh) | 一种数据处理方法、装置、计算机、存储介质及程序产品 | |
CN118230224A (zh) | 标签打分方法、标签打分模型训练方法和装置 | |
CN115129861A (zh) | 文本分类方法、装置和存储介质及电子设备 | |
CN117093769A (zh) | 一种数据处理方法、装置、计算机设备以及可读存储介质 | |
CN116883789A (zh) | 一种语义分割模型的训练方法、主动样本筛选方法及装置 | |
CN115966024A (zh) | 动作捕捉方法、装置、电子设备及介质 | |
CN114328915A (zh) | 语料标签获取方法、装置及计算机设备 | |
CN116989805A (zh) | 一种路径规划方法、装置、设备、存储介质及程序产品 | |
CN118096924A (zh) | 图像处理方法、装置、设备及存储介质 | |
CN116975705A (zh) | 信息预测模型训练方法、信息预测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |