CN117079264A - 场景文本图像识别方法、系统、设备及存储介质 - Google Patents

场景文本图像识别方法、系统、设备及存储介质 Download PDF

Info

Publication number
CN117079264A
CN117079264A CN202311341059.2A CN202311341059A CN117079264A CN 117079264 A CN117079264 A CN 117079264A CN 202311341059 A CN202311341059 A CN 202311341059A CN 117079264 A CN117079264 A CN 117079264A
Authority
CN
China
Prior art keywords
image
text
encoder
stage
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202311341059.2A
Other languages
English (en)
Inventor
谢洪涛
王紫霄
张勇东
王裕鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202311341059.2A priority Critical patent/CN117079264A/zh
Publication of CN117079264A publication Critical patent/CN117079264A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/18162Extraction of features or characteristics of the image related to a structural representation of the pattern
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种场景文本图像识别方法、系统、设备及存储介质,它们是一一对应的方案,方案中:通过迁移预训练的图像编码器与预训练的文本编码器(简称为预训练模型)中的知识以增强文本识别模型的性能,同时在预测阶段不依赖于预训练模型,从而能够保持识别模型的轻量性,实现高效、准确的文本识别。其中本发明提出的对称蒸馏策略能够额外提取预训练模型中的语言知识以指导识别模型学习语言建模能力,进而能够在存在干扰的复杂场景下通过上下文推理提升识别准确率。大量的实验证明了本发明性能优于以往的方法,能够以较少的模型参数对复杂场景下的文本进行准确地识别。

Description

场景文本图像识别方法、系统、设备及存储介质
技术领域
本发明涉及场景文本图像识别技术领域,尤其涉及一种场景文本图像识别方法、系统、设备及存储介质。
背景技术
场景文本图像识别是光学字符识别(OCR)中的关键环节,在场景理解、证件识别、车牌识别等领域的应用中具有重要意义。随着深度学习算法的发展,目前基于视觉神经网络的文本识别算法显著地提升了识别精度,然而由于场景图像中存在嘈杂的背景、模糊的文本和特殊的文本样式等严重的干扰,仅利用输入图像中的视觉信息进行识别仍然面临误检漏检等问题。为了进一步提升识别精度,当前方案需要增强对语言信息的提取和建模能力,通过联合上下文内容辅助识别过程。
近期提出的对比文本-图像预训练模型(CLIP)包含跨模态特征对齐的图像编码器和文本编码器,能够为下游任务中视觉、语言信息的提取提供有力的支持,因而在同时需要视觉和语言信息的文本识别任务中具有天然的优势。如图1所示,现有的方法在利用CLIP时,主要关注于其在视觉特征上的提取能力,针对CLIP图像编码器进行模型融合(图1虚线左侧部分)或蒸馏(图1虚线右侧部分),以上两类方案均固定CLIP图像编码器的参数,训练识别编码器与识别解码器的参数,但是,以上两方案均未使用CLIP文本编码器中带有的语言知识,导致场景文本图像识别效果不佳。
有鉴于此,特提取本发明。
发明内容
本发明的目的是提供一种场景文本图像识别方法、系统、设备及存储介质,通过使用预训练模型进行知识蒸馏,在不引入大量额外模型参数量的同时提升了文本识别的准确率。
本发明的目的是通过以下技术方案实现的:
一种场景文本图像识别方法,包括:
构建包含教师模型与学生模型的模型框架;其中,教师模型包含预训练的图像编码器与预训练的文本编码器,学生模型为文本识别模型,文本识别模型包含识别编码器与识别解码器;
训练阶段,学生模型中的识别编码器对训练文本图像进行多个阶段图像特征的提取,识别解码器利用最后一个阶段的图像特征进行多个阶段解码,获得预测结果;教师模型中的预训练的图像编码器对训练文本图像进行多个阶段图像特征的提取,预训练的文本编码器对训练文本图像对应的标签进行多个阶段文本特征提取;将学生模型获得的多个阶段图像特征与多个阶段解码结果作为学生模型中间特征,将教师模型获得的多个阶段图像特征与多个阶段文本特征作为教师模型中间特征,使用对称蒸馏策略建立教师模型和学生模型中间特征间的一一对应关系,并计算出对称蒸馏损失,再利用学生模型的预测结果计算识别损失,结合所述对称蒸馏损失与识别损失优化学生模型;
训练完毕后,将待识别的场景文本图像输入至训练后的学生模型,获得预测结果。
一种场景文本图像识别系统,包括:
模型框架构建单元,用于构建包含教师模型与学生模型的模型框架;其中,教师模型包含预训练的图像编码器与预训练的文本编码器,学生模型包含识别编码器与识别解码器;
训练单元,应用于训练阶段;训练阶段包括:学生模型中的识别编码器对训练文本图像进行多个阶段图像特征的提取,识别解码器利用最后一个阶段的图像特征进行多个阶段解码,获得预测结果;教师模型中的预训练的图像编码器对训练文本图像进行多个阶段图像特征的提取,预训练的文本编码器对训练文本图像对应的标签进行多个阶段文本特征提取;将学生模型获得的多个阶段图像特征与多个阶段解码结果作为学生模型中间特征,将教师模型获得的多个阶段图像特征与多个阶段文本特征作为教师模型中间特征,使用对称蒸馏策略建立教师模型和学生模型中间特征间的一一对应关系,并计算出对称蒸馏损失,再利用学生模型的预测结果计算识别损失,结合所述对称蒸馏损失与识别损失优化学生模型;
识别单元,用于在训练完毕后,将待识别的场景文本图像输入至训练后的学生模型,获得预测结果。
一种处理设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述的方法。
一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述的方法。
由上述本发明提供的技术方案可以看出,本发明通过迁移预训练的图像编码器与预训练的文本编码器(简称为预训练模型)中的知识以增强文本识别模型的性能,同时在预测阶段不依赖于预训练模型,从而能够保持识别模型的轻量性,实现高效、准确的文本识别。其中本发明提出的对称蒸馏策略能够额外提取预训练模型中的语言知识以指导识别模型学习语言建模能力,进而能够在存在干扰的复杂场景下通过上下文推理提升识别准确率。大量的实验证明了本发明性能优于以往的方法,能够以较少的模型参数对复杂场景下的文本进行准确地识别。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明背景技术提供的现有技术中模型融合与蒸馏方案的示意图;
图2为本发明实施例提供的一种场景文本图像识别方法的流程图;
图3为本发明实施例提供的训练与推理方案的整体框架示意图;
图4为本发明实施例提供的4个阶段下的训练与推理方案的框架图;
图5为本发明实施例提供的自适应对齐后的蒸馏损失计算方案示意图;
图6为本发明实施例提供的全局对齐后的蒸馏损失计算方案示意图;
图7为本发明实施例提供的本发明方法和基线模型识别结果的对比结果示意图;
图8为本发明实施例提供的一种场景文本图像识别系统的示意图;
图9为本发明实施例提供的一种处理设备的示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
首先对本文中可能使用的术语进行如下说明:
术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述,应被解释为非排它性的包括。例如:包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等),应被解释为不仅包括明确列出的某技术特征要素,还可以包括未明确列出的本领域公知的其它技术特征要素。
下面对本发明所提供的一种场景文本图像识别方法、系统、设备及存储介质进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者,按照本领域常规条件或制造商建议的条件进行。本发明实施例中所用试剂或仪器未注明生产厂商者,均为可以通过市售购买获得的常规产品。
实施例一
本发明实施例提供一种场景文本图像识别方法,如图2所示,主要包括如下步骤:
步骤1、构建包含教师模型与学生模型的模型框架。
本发明实施例中,教师模型包含预训练的图像编码器与预训练的文本编码器,学生模型为文本识别模型,文本识别模型包含识别编码器与识别解码器。
步骤2、根据模型框架的输出,利用对称蒸馏策略进行训练。
本发明实施例中,训练阶段,学生模型中的识别编码器对训练文本图像进行多个阶段图像特征的提取,识别解码器利用最后一个阶段的图像特征进行多个阶段解码,获得预测结果;教师模型中的预训练的图像编码器对训练文本图像进行多个阶段图像特征的提取,预训练的文本编码器对训练文本图像对应的标签进行多个阶段文本特征提取;将学生模型获得的多个阶段图像特征与多个阶段解码结果作为学生模型中间特征,将教师模型获得的多个阶段图像特征与多个阶段文本特征作为教师模型中间特征,使用对称蒸馏策略建立教师模型和学生模型中间特征间的一一对应关系,并计算出对称蒸馏损失,再利用学生模型的预测结果计算识别损失,结合所述对称蒸馏损失与识别损失优化学生模型。
步骤3、训练完毕后,将待识别的场景文本图像输入至训练后的学生模型,获得预测结果。
本发明实施例上述方案,可以将预训练模型中的视觉、语言知识迁移至文本识别模型以提升其识别性能和鲁棒性。本发明上述方案可以嵌入到智能系统中来实现场景文本识别,可以针对含有复杂背景的文本图像进行识别。在实施上,可以以软件的形式安装于服务器或者嵌入智能系统,满足后台大批量的文本识别需求。
为了更加清晰地展现出本发明所提供的技术方案及所产生的技术效果,下面以具体实施例对本发明实施例所提供的方法进行详细描述。
一、构建模型框架。
本发明实施例中,教师模型可以使用CLIP模型,即预训练的图像编码器使用CLIP图像编码器,预训练的文本编码器使用CLIP文本编码器。
本发明实施例中,文本识别模型中的识别编码器可以采用ViT-Small模型(小型尺寸的视觉变压器),识别解码器可采用多层级联的Transformer(变压器)解码层实现。
当然,以上仅提供了可行的模型实现方式,在实际应用中,用户可根据实际情况或者经验调整模型实现方式。
二、训练方案。
如图3所示,结合前文提供的可行的模型实现方式,展示了本发明的训练与推理方案的整体框架,其中,输出的训练文本图像的内容及其对应标签的内容仅为示例,并非构成限制;训练方案中,固定CLIP图像编码器与CLIP文本编码器的参数,训练识别编码器与识别解码器中的参数;虚线箭头表示相应流程仅用于训练阶段,水平方向的实线箭头表示相应流程应用于训练与推理阶段,垂直方向的实现箭头表示知识蒸馏。下面针对训练方案进行详细介绍。
1、获取学生模型输出结果。
本发明实施例中,所述学生模型中的识别编码器对训练文本图像进行多个阶段图像特征的提取,识别解码器利用最后一个阶段的图像特征进行多个阶段解码,获得预测结果。
以上处理过程的优选实施方式如下:将训练文本图像分解为第一设定大小(例如4×8)的图像块并分别进行编码,获得第一图像块特征序列;将第一图像块特征序列与可学习的全局特征向量级联后输入至学生模型中的识别编码器。所述识别编码器提取出多个阶段图像特征,将第i个阶段图像特征记为,/>,其中,K为阶段总数。识别解码器利用最后一个阶段的图像特征/>进行多个阶段解码,将第i个阶段解码结果记为,/>,最终预测结果由最后一个阶段的解码结果/>经线性映射得到。
示例性的:可以设置K=4,即识别编码器与识别解码器均包含4个阶段;相应的,可以设置:识别编码器包含12层编码层,按每3层作为1个阶段将其分为4个阶段;使用4层级联的Transformer解码层作为识别解码器,每1层作为1个阶段同样分为4个阶段。当然,此处所涉及的K的具体取值、识别编码器中编码层的层数、以及识别解码器中Transformer解码层的层数均为举例,并非构成限制;在实际应用中,用户可根据实际情况或者经验进行设定。
2、获取教师模型输出结果。
本发明实施例中,所述教师模型中的预训练的图像编码器对训练文本图像进行多个阶段图像特征的提取,预训练的文本编码器对训练文本图像对应的标签进行多个阶段文本特征提取。
以上处理过程的优选实施方式如下:将训练文本图像分解为第二设定大小(例如16×16)的图像块并分别进行编码,获得第二图像块特征序列;将第二图像块特征序列与预训练好的全局特征向量级联后输入至预训练的图像编码器;所述预训练的图像编码器提取出多个阶段图像特征,将第i个阶段图像特征记为,/>,其中,K为阶段总数;并且,将训练文本图像对应的标签进行字符级编码,获得编码序列;在编码序列的开始和结束处分别添加CLIP内训练好的开始标志向量和结束标志向量,再输入至预训练的文本编码器;预训练的文本编码器提取出多个阶段文本特征,将第i个阶段文本特征记为/>
示例性的:可以设置K=4,即预训练的图像编码器与预训练的文本编码器均包含4个阶段,相应的,可以设置:预训练的图像编码器(例如,CLIP图像编码器)使用ViT-Base(基础尺寸的视觉变压器),其包含12层编码层,预训练的文本编码器(例如,CLIP文本编码器)使用12层Transformer编码层,按每3层作为一个阶段,分别将预训练的图像编码器和预训练的文本编码器分为4个阶段。同样的,此处介绍也仅为举例,并非构成限制,在实际应用中,用户可根据实际情况进行调整。
此外,以上获取学生模型输出结果、获取教师模型输出结果的过程不区分先后顺序,二者可以同步执行,也可以按照任意顺序先后执行。
3、对称蒸馏策略。
本发明实施例中,将学生模型中间特征表示为:;其中,/>为识别编码器提取的第i个阶段图像特征,/>为识别解码器输出的第i个阶段解码结果,K为阶段总数;将教师模型中间特征表示为:/>;其中,/>为预训练的图像编码器提取的第i个阶段图像特征,/>为文本编码器提取的第i个阶段文本特征。构建学生模型中间特征和教师模型中间特征间的一一对应关系,从而使用教师模型的中间特征对学生模型的中间特征进行监督。
由于文本识别模型为识别编码器-识别解码器结构,而预训练模型包含两个预训练编码器,常规的知识蒸馏方法只能使用预训练的图像编码器对识别编码器进行蒸馏,但是无法使用预训练的文本编码器对识别模型解码器进行蒸馏。
本发明实施例中,建立识别编码器提取的图像特征与教师模型中间特征的一一对应关系方式如下:在第1个阶段至倒数第2个阶段中,利用预训练的图像编码器提取的图像特征监督识别编码器提取的图像特征,即利用监督/>, />,以及第4个阶段中利用预训练的文本编码器提取的文本特征监督识别编码器提取的图像特征,即利用/>监督/>
本发明实施例中,利用识别解码器和预训练的文本编码器输入输出间的对称关系,将预训练的文本编码器所有阶段文本特征的顺序进行反转,从而构建由特征到文本的解码特征流,建立文本特征与识别解码器输出的解码结果的一一对应关系,在第1个阶段至倒数第2个阶段中,利用预训练的文本编码器提取的文本特征监督识别解码器的解码结果,即利用监督/>,/>,/>为文本编码器提取的第/>个阶段文本特征,从而实现预训练的文本编码器对识别解码器的蒸馏。
如图4所示,展示了4个阶段下的训练与推理方案的框架图,图4中使用的训练文本图像及其对应标签也均为示例,训练方案包含虚线与实线箭头部分,推理方案仅包含实线箭头部分。
上文介绍了知识蒸馏过程中建立的中间特征的一一对应关系,其中,和/>不参与知识蒸馏的过程,因此,在获取教师模型输出结果过程中,可以仅保留预训练的图像编码器与预训练的文本编码器从第1至倒数第2个阶段的特征。
在建立学生模型中间特征和教师模型中间特征间的一一对应关系后,额外引入了自适应对齐模块(包含一个自适应矩阵和一个全连接层)和全局对齐模块(包含全局向量提取模块与两个全连接层)将不同模型的中间特征映射到统一尺寸进行对齐;为了便于说明,先针对两类模型中的中间特征采用统一的符号进行定义。
令:表示识别编码器提取的第1个阶段图像特征/>至第K-1个阶段图像特征、以及识别解码器输出的第1个阶段解码结果/>至第K-1个阶段解码结果/>中的任一项,即/>;/>表示预训练的图像编码器提取的第1个阶段图像特征/>至第K-1个阶段图像特征/>、以及文本编码器提取的第1个阶段文本特征/>至第K-1个阶段文本特征/>中的任一项,即
按照建立的一一对应关系,将与对应/>进行尺寸对齐后,计算蒸馏损失,并遍历所有/>与/>,获得第一部分蒸馏损失,以及分别取出/>与/>中的全局特征向量,将两个全局特征向量进行尺寸对齐后,计算蒸馏损失,称为第二部分蒸馏损失,综合两部分蒸馏损失获得对称蒸馏损失。
如图5所示,按照对应的尺寸,依次使用可学习的自适应矩阵P与全连接层W对进行映射,完成尺寸对齐,再通过层归一化层进行归一化后,计算蒸馏损失。具体的:/>的尺寸记为/>,/>的尺寸记为/>,其中,/>为/>的特征序列长度,为/>的特征维度,/>为/>的特征序列长度,/>为/>的特征维度;通过可学习的自适应映射矩阵/>将/>映射至/>,此过程为自适应映射过程,再使用一个全连接层映射至/>,然后输入至层归一化层进行归一化,同时,将/>也输入至层归一化层进行归一化,最后计算蒸馏损失,以上流程可表示为:
其中,表示矩阵乘法,/>表示层归一化层,/>表示蒸馏损失计算函数,表示利用/>与对应/>计算出的蒸馏损失;遍历所有/>与/>,获得第一部分蒸馏损失,表示为:/>,/>表示利用/>与/>计算出的蒸馏损失,/>表示表示利用/>与/>计算出的蒸馏损失,/>
如图6所示,分别取出与/>中的全局特征向量,记为/>和/>,根据中的全局特征向量/>的尺寸,通过两个全连接层依次对/>中的全局特征向量进行映射,完成尺寸对齐,再通过层归一化层进行归一化后,计算蒸馏损失。
具体的:和/>,其中,/>表示全局特征向量/>的特征维度,/>表示全局特征向量/>的特征维度;/>中的全局特征向量可以利用结束标志向量表示;对于全局特征向量/>通过两个全连接层映射至尺寸,再输入至层归一化层进行归一化,同时,将全局特征向量/>也输入至层归一化层进行归一化,最后计算蒸馏损失,以上流程可表示为:
其中,表示激活函数,例如,使用ReLU(修正线性单元)激活函数,/>与/>表示两个全连接层;/>为第二部分蒸馏损失。
综合两部分蒸馏损失获得对称蒸馏损失,表示为:
其中,为对称蒸馏损失。
本发明实施例中,可以根据实际情况选择蒸馏损失计算函数(如L1损失、L2损失、余弦相似度损失等常用蒸馏损失),为了保证知识蒸馏的效果,进而提升后续文本识别准确率,本发明实施例提供一种蒸馏损失计算函数方案,即利用语言一致性损失函数计算蒸馏损失。
参见前文提供的表达式,蒸馏损失计算函数内部的信息是尺寸对齐,且归一化后的信息,并且两部分蒸馏损失计算时的蒸馏损失计算函数是相同的,因此,为了便于说明,采用统一的符号进行定义。
令:,且,当/>时,,以及当/>时,
为了更准确地监督字符级上下文语义信息,本发明提出的语言一致性损失,引入二阶统计量进行特征对齐,具体包括模型内相似度对齐和模型间相似度对齐。模型内相似度对齐首先计算特征内部各向量间的内积得到自相似度图(即下述公式中的),然后再使用L1损失对齐识别模型和预训练模型的自相似度图,表示为:
其中,N表示和F的特征序列长度,/>即为自相似度图的总元素数量,/>和/>分别表示/>和F的转置,/>表示计算/>中所有元素的绝对值之和;/>表示利用/>和F计算出的模型内相似度对齐损失。
模型间相似度则计算识别模型和预训练模型特征向量间的内积得到互相似度图(即下述公式中的),然后使用交叉熵损失约束两个模型特征向量间的一一对应关系,其过程如下式所示:
其中,为交叉熵损失函数,/>为预定义的温度系数,/>为对角线为1其他元素为0且尺寸为/>的对角矩阵;/>表示利用/>和F计算出的模型间相似度对齐损失。
交叉熵损失函数表示为:
其中,为/>内所有元素的索引集合,/>为/>内所有元素的数量,/>指代,/>指代/>,/>表示/>中索引为j的元素,/>表示/>中索引为j的元素。
最终,语言一致性损失函数表示为:
其中,与/>为预定义的权重系数;示例性的,可设置:/>,/>
4、训练总损失与训练细节。
本发明实施例中,训练过程中固定预训练模型的参数,文本识别模型可使用Adam(自适应矩估计)优化器进行参数更新,直至模型收敛,训练总损失L表示为:
其中,为识别损失,可以利用学生模型的预测结果/>与标签/>,通过交叉熵损失函数进行计算,表示为:/>
同时,前文提及的可学习的全局特征向量也一并进行更新,考虑到训练时所涉及的参数更新方式与全局特征向量的更新方式可通过常规技术实现,故不做赘述。
示例性的,可以在MJSynth和SynthText数据集上训练4轮,然后直接在测试数据集上进行测试,训练的学习率设定为0.0007,每次迭代采样图片320张并将图片缩放至32×128像素大小。
三、推理方案。
还参见图3,推理阶段移除教师模型,直接利用训练得到的文本识别模型对待识别的场景文本图像进行推理,获得预测结果,即待识别的场景文本图像中的文本内容。
四、效果评估。
本发明实施例中,文本识别模型没有引入较多的参数,以前文提供的文本识别模型的结构为例,其参数大小为31.1M。为了验证本发明的有效性,在六个通用数据集上进行了测试,均达到了先进的性能。
IIIT:该数据集包含3000张测试图片,本发明在该数据集上的准确率为97.3%。
SVT:该数据集包含647张街景测试图片,本发明在该数据集上的准确率为94.7%。
ICDAR2013:该数据集包含857张高质量测试图片,本发明在该数据集上的准确率为97.7%。
ICDAR2015:该数据集包含1811张高质量测试图片,本发明在该数据集上的准确率为87.2%。
SVTP:该数据集包含645张高难度的街景测试图片,本发明在该数据集上的准确率为89.9%。
CUTE80:该数据集包含288张带有弯曲文本的测试图片,本发明在该数据集上的准确率为93.1%。
图7为本发明和基线模型识别结果的对比,其中基线模型和本发明的文本识别模型使用相同的模型结构和训练轮数但不使用本发明的蒸馏算法,而是使用常规方式进行训练,图4中每一场景文本图像右侧的两行文本内容为预测结果,第一行为基线模型的预测结果,第二行为本发明的预测结果,可以看到,基线模型的预测结果存在很多错误之处,相较而言,本发明的预测结果更为准确。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例二
本发明还提供一种场景文本图像识别系统,其主要用于实现前述实施例提供的方法,如图8所示,该系统主要包括:
模型框架构建单元,用于构建包含教师模型与学生模型的模型框架;其中,教师模型包含预训练的图像编码器与预训练的文本编码器,学生模型包含识别编码器与识别解码器;
训练单元,应用于训练阶段;训练阶段包括:学生模型中的识别编码器对训练文本图像进行多个阶段图像特征的提取,识别解码器利用最后一个阶段的图像特征进行多个阶段解码,获得预测结果;教师模型中的预训练的图像编码器对训练文本图像进行多个阶段图像特征的提取,预训练的文本编码器对训练文本图像对应的标签进行多个阶段文本特征提取;将学生模型获得的多个阶段图像特征与多个阶段解码结果作为学生模型中间特征,将教师模型获得的多个阶段图像特征与多个阶段文本特征作为教师模型中间特征,使用对称蒸馏策略建立教师模型和学生模型中间特征间的一一对应关系,并计算出对称蒸馏损失,再利用学生模型的预测结果计算识别损失,结合所述对称蒸馏损失与识别损失优化学生模型;
识别单元,用于在训练完毕后,将待识别的场景文本图像输入至训练后的学生模型,获得预测结果。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将系统的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
实施例三
本发明还提供一种处理设备,如图9所示,其主要包括:一个或多个处理器;存储器,用于存储一个或多个程序;其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述实施例提供的方法。
进一步的,所述处理设备还包括至少一个输入设备与至少一个输出设备;在所述处理设备中,处理器、存储器、输入设备、输出设备之间通过总线连接。
本发明实施例中,所述存储器、输入设备与输出设备的具体类型不做限定;例如:
输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等;
输出设备可以为显示终端;
存储器可以为随机存取存储器(Random Access Memory,RAM),也可为非不稳定的存储器(non-volatile memory),例如磁盘存储器。
实施例四
本发明还提供一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述实施例提供的方法。
本发明实施例中可读存储介质作为计算机可读存储介质,可以设置于前述处理设备中,例如,作为处理设备中的存储器。此外,所述可读存储介质也可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (10)

1.一种场景文本图像识别方法,其特征在于,包括:
构建包含教师模型与学生模型的模型框架;其中,教师模型包含预训练的图像编码器与预训练的文本编码器,学生模型为文本识别模型,文本识别模型包含识别编码器与识别解码器;
训练阶段,学生模型中的识别编码器对训练文本图像进行多个阶段图像特征的提取,识别解码器利用最后一个阶段的图像特征进行多个阶段解码,获得预测结果;教师模型中的预训练的图像编码器对训练文本图像进行多个阶段图像特征的提取,预训练的文本编码器对训练文本图像对应的标签进行多个阶段文本特征提取;将学生模型获得的多个阶段图像特征与多个阶段解码结果作为学生模型中间特征,将教师模型获得的多个阶段图像特征与多个阶段文本特征作为教师模型中间特征,使用对称蒸馏策略建立教师模型和学生模型中间特征间的一一对应关系,并计算出对称蒸馏损失,再利用学生模型的预测结果计算识别损失,结合所述对称蒸馏损失与识别损失优化学生模型;
训练完毕后,将待识别的场景文本图像输入至训练后的学生模型,获得预测结果。
2.根据权利要求1所述的一种场景文本图像识别方法,其特征在于,所述学生模型中的识别编码器对训练文本图像进行多个阶段图像特征的提取,识别解码器利用最后一个阶段的图像特征进行多个阶段解码,获得预测结果包括:
将训练文本图像分解为第一设定大小的图像块并分别进行编码,获得第一图像块特征序列;将第一图像块特征序列与可学习的全局特征向量级联后输入至学生模型中的识别编码器;
所述识别编码器提取出多个阶段图像特征,将第i个阶段图像特征记为,其中,K为阶段总数;
识别解码器利用最后一个阶段的图像特征进行多个阶段解码,将第i个阶段解码结果记为/>,/>,预测结果由最后一个阶段的解码结果/>经线性映射得到。
3.根据权利要求1所述的一种场景文本图像识别方法,其特征在于,所述教师模型中的预训练的图像编码器对训练文本图像进行多个阶段图像特征的提取,预训练的文本编码器对训练文本图像对应的标签进行多个阶段文本特征提取包括:
将训练文本图像分解为第二设定大小的图像块并分别进行编码,获得第二图像块特征序列;将第二图像块特征序列与预训练好的全局特征向量级联后输入至预训练的图像编码器;所述预训练的图像编码器提取出多个阶段图像特征,将第i个阶段图像特征记为
并且,将训练文本图像对应的标签进行字符级编码,获得编码序列;在编码序列的开始和结束处分别添加训练好的开始标志向量和结束标志向量,再输入至预训练的文本编码器;预训练的文本编码器提取出多个阶段文本特征,将第i个阶段文本特征记为
4.根据权利要求1所述的一种场景文本图像识别方法,其特征在于,所述使用对称蒸馏策略建立教师模型和学生模型中间特征间的一一对应关系,并计算出对称蒸馏损失包括:
将学生模型中间特征表示为:;其中,/>为识别编码器提取的第i个阶段图像特征,/>为识别解码器输出的第i个阶段解码结果,K为阶段总数;
将教师模型中间特征表示为:;其中,/>为预训练的图像编码器提取的第i个阶段图像特征,/>为文本编码器提取的第i个阶段文本特征;
建立识别编码器提取的图像特征与教师模型中间特征的一一对应关系方式如下:在第1个阶段至倒数第2个阶段中,利用预训练的图像编码器提取的图像特征监督识别编码器提取的图像特征,即利用监督/>, />,以及第4个阶段中利用预训练的文本编码器提取的文本特征监督识别编码器提取的图像特征,即利用/>监督/>
将文本编码器提取的所有阶段文本特征的顺序进行反转,建立文本特征与识别解码器输出的解码结果的一一对应关系,在第1个阶段至倒数第2个阶段中,利预训练的文本编码器提取的文本特征监督识别解码器的解码结果,即利用监督/>,/>为文本编码器提取的第/>个阶段文本特征;
利用建立的一一对应关系计算出对称蒸馏损失。
5.根据权利要求4所述的一种场景文本图像识别方法,其特征在于,计算对称蒸馏损失的方式包括:
令:表示识别编码器提取的第1个阶段图像特征/>至第K-1个阶段图像特征/>、以及识别解码器输出的第1个阶段解码结果/>至第K-1个阶段解码结果/>中的任一项,即/>;/>表示预训练的图像编码器提取的第1个阶段图像特征/>至第K-1个阶段图像特征/>、以及文本编码器提取的第1个阶段文本特征/>至第K-1个阶段文本特征/>中的任一项,即
按照建立的一一对应关系,将与对应/>进行尺寸对齐后,计算蒸馏损失,并遍历所有/>与/>,获得第一部分蒸馏损失,以及分别取出/>与/>中的全局特征向量,将两个全局特征向量进行尺寸对齐后,计算蒸馏损失,称为第二部分蒸馏损失,综合两部分蒸馏损失获得对称蒸馏损失。
6.根据权利要求5所述的一种场景文本图像识别方法,其特征在于,所述按照建立的一一对应关系,将与对应/>进行尺寸对齐后,计算蒸馏损失,并遍历所有/>与/>,获得第一部分蒸馏损失,以及分别取出/>与/>中的全局特征向量,将两个全局特征向量进行尺寸对齐后,计算蒸馏损失,称为第二部分蒸馏损失,综合两部分蒸馏损失获得对称蒸馏损失包括:
按照对应的尺寸,依次使用可学习的自适应矩阵P与全连接层W对/>进行映射,完成尺寸对齐,再通过层归一化层进行归一化后,计算蒸馏损失,表示为:
其中,表示矩阵乘法,/>表示层归一化层,/>表示蒸馏损失计算函数,表示利用/>与对应/>计算出的蒸馏损失;遍历所有/>与/>,获得第一部分蒸馏损失,表示为:/>,/>表示利用/>与/>计算出的蒸馏损失,/>表示表示利用/>与/>计算出的蒸馏损失,/>
分别取出与/>中的全局特征向量,记为/>和/>,根据/>中的全局特征向量/>的尺寸,通过两个全连接层依次对/>中的全局特征向量/>进行映射,完成尺寸对齐,再通过层归一化层进行归一化后,计算蒸馏损失,表示为:
其中,表示激活函数;/>为第二部分蒸馏损失,/>与/>表示两个全连接层;
综合两部分蒸馏损失获得对称蒸馏损失,表示为:
其中,为对称蒸馏损失。
7.根据权利要求6所述的一种场景文本图像识别方法,其特征在于,蒸馏损失计算函数采用语言一致性损失函数,令:,且,当/>时,,以及当/>时,
则语言一致性损失函数表示为:
其中,与/>为预定义的权重系数,/>、/>分别表示利用与F计算出的模型内相似度对齐损失、模型间相似度对齐损失,表示为:
其中,N表示和F的特征序列长度,/>和/>分别表示/>和F的转置,表示计算/>中所有元素的绝对值之和,为交叉熵损失函数,/>为预定义的温度系数,/>为对角线为1其他元素为0且尺寸为/>的对角矩阵。
8.一种场景文本图像识别系统,其特征在于,包括:
模型框架构建单元,用于构建包含教师模型与学生模型的模型框架;其中,教师模型包含预训练的图像编码器与预训练的文本编码器,学生模型包含识别编码器与识别解码器;
训练单元,应用于训练阶段;训练阶段包括:学生模型中的识别编码器对训练文本图像进行多个阶段图像特征的提取,识别解码器利用最后一个阶段的图像特征进行多个阶段解码,获得预测结果;教师模型中的预训练的图像编码器对训练文本图像进行多个阶段图像特征的提取,预训练的文本编码器对训练文本图像对应的标签进行多个阶段文本特征提取;将学生模型获得的多个阶段图像特征与多个阶段解码结果作为学生模型中间特征,将教师模型获得的多个阶段图像特征与多个阶段文本特征作为教师模型中间特征,使用对称蒸馏策略建立教师模型和学生模型中间特征间的一一对应关系,并计算出对称蒸馏损失,再利用学生模型的预测结果计算识别损失,结合所述对称蒸馏损失与识别损失优化学生模型;
识别单元,用于在训练完毕后,将待识别的场景文本图像输入至训练后的学生模型,获得预测结果。
9.一种处理设备,其特征在于,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1~7任一项所述的方法。
10.一种可读存储介质,存储有计算机程序,其特征在于,当计算机程序被处理器执行时实现如权利要求1~7任一项所述的方法。
CN202311341059.2A 2023-10-17 2023-10-17 场景文本图像识别方法、系统、设备及存储介质 Withdrawn CN117079264A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311341059.2A CN117079264A (zh) 2023-10-17 2023-10-17 场景文本图像识别方法、系统、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311341059.2A CN117079264A (zh) 2023-10-17 2023-10-17 场景文本图像识别方法、系统、设备及存储介质

Publications (1)

Publication Number Publication Date
CN117079264A true CN117079264A (zh) 2023-11-17

Family

ID=88704697

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311341059.2A Withdrawn CN117079264A (zh) 2023-10-17 2023-10-17 场景文本图像识别方法、系统、设备及存储介质

Country Status (1)

Country Link
CN (1) CN117079264A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118379744A (zh) * 2024-06-25 2024-07-23 中国科学技术大学 半监督场景文本识别方法、系统、设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113011202A (zh) * 2021-03-23 2021-06-22 中国科学院自动化研究所 基于多任务训练的端到端图像文本翻译方法、系统、装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113011202A (zh) * 2021-03-23 2021-06-22 中国科学院自动化研究所 基于多任务训练的端到端图像文本翻译方法、系统、装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZIXIAO WANG等: "Symmetrical Linguistic Feature Distillation with CLIP for Scene Text Recognition", 《ARXIV》, pages 1 - 10 *
王紫霄等: "层级语义融合的场景文本检测", 《中国图象图形学报》, vol. 28, no. 8, pages 2343 - 2355 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118379744A (zh) * 2024-06-25 2024-07-23 中国科学技术大学 半监督场景文本识别方法、系统、设备及存储介质

Similar Documents

Publication Publication Date Title
CN113571124B (zh) 一种配体-蛋白质相互作用的预测方法及装置
CN114140831B (zh) 人体姿态估计方法、装置、电子设备及存储介质
CN117079264A (zh) 场景文本图像识别方法、系统、设备及存储介质
CN114021582B (zh) 结合语音信息的口语理解方法、装置、设备及存储介质
CN114595357A (zh) 视频搜索方法和装置、电子设备、存储介质
CN116343190B (zh) 自然场景文字识别方法、系统、设备及存储介质
CN116701568A (zh) 一种基于3d卷积神经网络的短视频情感分类方法及系统
CN111242068A (zh) 基于视频的行为识别方法、装置、电子设备和存储介质
CN116091765A (zh) 一种rgb-t图像语义分割方法和装置
CN113806747B (zh) 一种木马图片检测方法、系统及计算机可读存储介质
CN114708436A (zh) 语义分割模型的训练方法、语义分割方法、装置和介质
Dastbaravardeh et al. Channel Attention‐Based Approach with Autoencoder Network for Human Action Recognition in Low‐Resolution Frames
CN110659641A (zh) 一种文字识别的方法、装置及电子设备
CN117520815A (zh) 基于多模态的信息抽取方法、装置、设备及存储介质
CN117171746A (zh) 恶意代码同源性分析方法、装置、电子设备及存储介质
CN111325068B (zh) 基于卷积神经网络的视频描述方法及装置
CN116524407A (zh) 一种基于多模态表示学习的短视频事件检测方法及装置
CN116416645A (zh) 基于双分支Transformer网络的属性与图像跨模态行人再辨识方法及装置
CN113496228B (zh) 一种基于Res2Net、TransUNet和协同注意力的人体语义分割方法
CN112950501B (zh) 基于噪声场的图像降噪方法、装置、设备及存储介质
CN116186195A (zh) 文本抽取模型训练方法、抽取方法、装置、设备及介质
Irandoust et al. Training a vision transformer from scratch in less than 24 hours with 1 gpu
CN117197843B (zh) 无监督的人体部件区域确定方法及装置
CN117974730B (zh) 基于深度多尺度相关与外点剔除的跨模态图像配准方法
CN117912005B (zh) 利用单个标记解码的文本识别方法、系统、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20231117

WW01 Invention patent application withdrawn after publication