CN117292384A - 文字识别方法、相关装置及存储介质 - Google Patents

文字识别方法、相关装置及存储介质 Download PDF

Info

Publication number
CN117292384A
CN117292384A CN202311110188.0A CN202311110188A CN117292384A CN 117292384 A CN117292384 A CN 117292384A CN 202311110188 A CN202311110188 A CN 202311110188A CN 117292384 A CN117292384 A CN 117292384A
Authority
CN
China
Prior art keywords
image
sample
target image
corner
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311110188.0A
Other languages
English (en)
Inventor
请求不公布姓名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Real AI Technology Co Ltd
Original Assignee
Beijing Real AI Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Real AI Technology Co Ltd filed Critical Beijing Real AI Technology Co Ltd
Priority to CN202311110188.0A priority Critical patent/CN117292384A/zh
Publication of CN117292384A publication Critical patent/CN117292384A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/15Cutting or merging image elements, e.g. region growing, watershed or clustering-based techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

本申请实施例涉及OCR技术领域,提供一种文字识别方法、相关装置及存储介质,文字识别方法包括:获取目标图像;基于目标图像,确定目标图像中包含的文字对应的角点数据,角点数据用于表征多个角点的位置;基于角点数据,对目标图像中包含的文字进行识别,得到识别结果。本申请实施例可以在进行文字识别时,参考文字的角点信息来确定目标图像中包含的文字的不变特征,从而利用角点数据定位文字的形变,指导对文字识别的过程,可以提高对形变较大的文字的识别效果。

Description

文字识别方法、相关装置及存储介质
技术领域
本申请实施例涉及文字识别领域,更具体地涉及一种文字识别方法、相关装置及存储介质。
背景技术
艺术字在广告、设计、排版等领域扮演着重要角色,以其独特的风格和形态吸引人们的注意,给作品增添了艺术性和个性化。
然而,艺术字存在形变、扭曲等特点,导致传统的文字识别方法对形变较大的文字识别效果较差。
发明内容
本申请实施例提供一种文字识别方法、相关装置及存储介质,可以对目标图像中包含的文字进行识别,得到识别结果,能够利用角点数据识别文字的形变,提高了对形变较大的文字的识别效果。
第一方面,本申请实施例提供一种文字识别方法,该方法包括:获取目标图像,基于目标图像,确定目标图像中包含的文字对应的角点数据,角点数据用于表征多个角点的位置;基于角点数据,对目标图像中包含的文字进行识别,得到识别结果。
在一个实施方式中,基于角点数据,对目标图像中包含的文字进行识别,得到识别结果,包括:利用角点数据以及各角点的权重,提取目标图像的图像特征;基于目标图像的图像特征,对目标图像中包含的文字进行识别,得到识别结果。
在一个实施方式中,目标图像包含的文字存在交叠,基于目标图像,确定目标图像中包含的文字对应的角点数据,包括:基于图像分割模型处理目标图像,得到每个文字对应的图像区域;对每个文字对应的图像区域中的角点进行识别,得到目标图像中包含的文字对应的角点数据。
在一个实施方式中,基于图像分割模型处理目标图像,得到每个文字对应的图像区域,包括:将目标图像对应的文本描述和目标图像输入图像分割模型,得到每个文字对应的图像区域。
在一个实施方式中,基于角点数据,对目标图像中包含的文字进行识别,得到识别结果,包括:将角点数据、目标图像、目标图像对应的文本描述和每个文字对应的图像区域输入文字识别模型,得到识别结果。
在一个实施方式中,利用角点数据以及各角点的权重,提取目标图像的图像特征是基于神经网络模型实现的。
在一个实施方式中,神经网络模型根据以下方式得到:获取至少一个样字对应的样本图像集、以及样本图像集中的每幅样本图像中包含的样字对应的角点数据,其中,样本图像集中包括至少一个样字各自对应的至少一幅样本图像;基于至少一个样字对应的样本图像集、以及样本图像集中的每幅样本图像中包含的样字对应的角点数据,训练初始神经网络模型,得到神经网络模型。
在一个实施方式中,每个样字对应的样本图像包括正样本图像和负样本图像,基于至少一个样字对应的样本图像集、以及样本图像集中的每幅样本图像中包含的样字对应的角点数据,训练初始神经网络模型,得到神经网络模型,包括:针对每个样字,基于样字对应的样本图像集和角点数据,提取样字的正样本图像对应的图像不变特征和样字的负样本图像对应的图像变化特征;基于图像不变特征和图像变化特征,确定样字的字符损失值;如果字符损失值不满足预设收敛条件,则基于字符损失值,调整初始神经网络模型的权重参数;基于样字对调整后的初始神经网络模型进行迭代训练,直至所得到的字符损失值满足预设收敛条件,得到神经网络模型。
第二方面,本申请实施例提供一种文字识别装置,具有实现对应于上述第一方面提供的文字识别方法的功能。功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块,模块可以是软件和/或硬件。
在一个实施方式中,文字识别装置包括:获取模块,被配置为获取目标图像;角点识别模块,被配置为基于目标图像,确定目标图像中包含的文字对应的角点数据,角点数据用于表征多个角点的位置;文字识别模块,被配置为基于角点数据,对目标图像中包含的文字进行识别,得到识别结果。
第三方面,本申请实施例提供一种计算设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行计算机程序时实现第一方面所提及的方法。
第四方面,本申请实施例提供一种计算机可读存储介质,其包括指令,当其在计算机上运行时,使得计算机执行如第一方面所提及的方法。
第五方面,本申请实施例提供一种包含指令的计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行上述第一方面所提及的方法。
第六方面,本申请实施例提供一种芯片,该芯片中包括与终端设备的收发器耦合的处理器,用于执行本申请实施例第一方面所提及的技术方案。
第七方面,本申请实施例提供一种芯片系统,该芯片系统包括处理器,用于支持终端设备实现上述第一方面所涉及的功能,例如,生成或者处理上述第一方面提供的方法中所涉及的信息。
在一种可能的设计中,上述芯片系统还包括存储器,该存储器用于保存终端必需的程序指令和数据。该芯片系统可以由芯片构成,也可以包含芯片和其他分立器件。
相比于传统的文字识别方法,本申请实施例提供的文字识别方法,先确定目标图像中包含的文字对应的角点数据,然后基于角点数据,对目标图像中包含的文字进行识别,得到识别结果,而不是传统的文字识别方法中的仅仅基于目标图像进行文字识别。因此,本申请实施例提供的文字识别方法,可以在进行文字识别时,参考文字的角点信息来确定目标图像中包含的文字的不变特征,从而利用角点数据定位文字的形变,指导对文字识别的过程,可以提高对形变较大的文字的识别效果。
附图说明
通过参考附图阅读本申请实施例的详细描述,本申请实施例的目的、特征和优点将变得易于理解。
图1为本申请实施例中文字识别方法的一种文字识别系统示意图。
图2为本申请实施例的文字识别方法的一种流程示意图。
图3为申请实施例提供的一幅目标图像。
图4为申请实施例提供的一幅角点图像。
图5为本申请另一实施例提供的一种文字识别方法的流程示意图。
图6为本申请另一实施例提供的一种特征提取的流程示意图。
图7为本申请一实施例提供的一种神经网络模型的训练过程的流程示意图。
图8为本申请一实施例提供的一种文字识别装置的结构示意图。
图9为本申请一实施例提供的一种神经网络模型的训练装置的结构示意图。
图10为本申请实施例的计算设备的一种结构示意图。
图11为本申请实施例中手机的一种结构示意图。
图12为本申请实施例中服务器的一种结构示意图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象(例如第一xx和第二xx分别表示为不同的xx,其他类似),而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块,本申请实施例中所出现的模块的划分,仅仅是一种逻辑上的划分,实际应用中实现时可以有另外的划分方式,例如多个模块可以结合成或集成在另一个系统中,或一些特征可以忽略,或不执行。另外,所显示的或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,模块之间的间接耦合,通信连接可以是电性或其他类似的形式,本申请实施例中均不作限定。并且,作为分离部件说明的模块或子模块可以是也可以不是物理上的分离,可以是也可以不是物理模块,或者可以分布到多个电路模块中,可以根据实际的需要选择其中的部分或全部模块来实现本申请实施例方案的目的。
本申请实施例提供一种文字识别方法、装置及存储介质,可应用于需要对文字进行识别的场景下的文字识别系统,该文字识别系统可包括角点识别装置和文字识别装置,角点识别装置和文字识别装置可以集成部署,也可分离式部署。该角点识别装置用于基于目标图像确定所述目标图像中包含的文字对应的角点数据。该文字识别装置至少用于基于所述角点数据,对所述目标图像中包含的文字进行识别,得到识别结果。其中,角点识别装置可为基于目标图像确定所述目标图像中包含的文字对应的角点数据的应用程序,或为安装了基于目标图像确定所述目标图像中包含的文字对应的角点数据的应用程序的服务器或终端设备;文字识别装置可为基于所述角点数据和所述目标图像,对所述目标图像中包含的文字进行识别,得到识别结果的文字识别程序,所述文字识别程序例如是文字识别模型,所述文字识别装置还可为部署了文字识别模型的终端设备。
本申请实施例提供的方案涉及人工智能(ArtificialIntelligence,AI)、自然语言处理(NatureLanguageprocessing,NLP)、机器学习(MachineLearning,ML)等技术,具体通过如下实施例进行说明:
人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
自然语言处理(NatureLanguageprocessing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文字处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(MachineLearning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
在当今数字化时代,艺术字在广告、设计、排版等领域扮演着重要角色。艺术字以其独特的风格和形态吸引人们的注意,给作品增添了艺术性和个性化。艺术字通常具有自由变形、扭曲和非线性形态,使得它们的形状不再遵循传统字体的规则。艺术字的形变主要源于手工绘制、数码设计或艺术效果的添加。在印刷或排版过程中,由于介质(例如印刷设备)扭曲、角度倾斜或局部纠偏等因素,艺术字的形态可能会发生更大的变化。
传统的文字识别方法是通过光学字符识别(OpticalCharacterRecognition,OCR)模型直接对图像中的文字进行识别。由于艺术字的形变、扭曲和变形等特点,传统的文字识别技术往往难以准确捕捉艺术字的形态,从而导致艺术字识别的错误率较高。换句话说,传统的文字识别方法通常基于规则的字体和规则的布局,其主要依赖于字符的统一形态和排列方式。这种方法在正常的文本和标准字体下表现良好,但是,针对形变较大、空间尺度跨度较大的艺术字、手写字等文字识别效果较差。
相比于传统的文字识别方法,本申请实施例提供的文字识别方法,先确定目标图像中包含的文字对应的角点数据,然后基于角点数据,对目标图像中包含的文字进行识别,得到识别结果,从而可以在进行文字识别时,参考文字的角点信息,进而利用角点数据识别文字的形变,提高了对形变较大的文字的识别效果。
一些实施方式中,角点识别装置和文字识别装置分离式部署,参照图1,本申请实施例提供的文字识别方法可基于图1所示的一种文字识别系统实现。该文字识别系统可以包括服务器01和终端设备02。
该服务器01可以是角点识别装置,其中可以部署角点识别程序。
该终端设备02可以是文字识别装置,其中可以部署文字识别程序(例如,神经网络模型),例如基于机器学习的方法训练得到的神经网络模型。
该终端设备02可以将接收到的目标图像转发至服务器01。服务器01可以基于目标图像,确定目标图像中包含的文字对应的角点数据,然后将其向该终端设备02发送。终端设备02可以基于角点数据,对目标图像中包含的文字进行识别,得到识别结果。
需要说明的是,本申请实施例涉及的服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
本申请实施例涉及的终端设备,可以是指向用户提供数据连通性的设备,具有无线连接功能的手持式设备、或连接到无线调制解调器的其他处理设备。例如具有移动终端的计算机,例如,可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置,它们与无线接入网交换数据。例如,无线本地环路(WirelessLocalLoop,英文简称:WLL)站、个人数字助理(英文全称:PersonalDigitalAssistant,英文简称:PDA)等设备。
参照图2,图2为本申请实施例提供的一种文字识别方法的流程示意图。该方法可由文字识别装置执行,可应用于需要进行文字识别的文字识别场景,先基于目标图像,确定目标图像中包含的文字对应的角点数据,然后基于角点数据,对目标图像中包含的文字进行识别,得到识别结果。文字识别方法包括步骤101、102和103。
步骤101,获取目标图像。
步骤102,基于目标图像,确定目标图像中包含的文字对应的角点数据。
目标图像是包含文字的待识别图像。目标图像包含的文字可以是形变较大的文字。一些实施方式中,目标图像包含的文字可以是艺术字、手写字形变较大的文字等。参照图3,图3为申请实施例提供的一幅目标图像。图3所示的目标图像包含的文字是“KERALA”。
角点数据用于表征多个角点的位置。目标图像中包含的文字对应的角点数据可以是以角点的位置数据的集合表示,也可以是以角点图像的方式表示。参照图4,图4为申请实施例提供的一幅角点图像。角点图像包含了目标图像中包含的文字对应的角点数据。角点图像可以作为目标图像的鲁棒表示,能够保留艺术字等形变较大的字的特征。角点图像可以是一个与目标图像具有相同尺寸的图像,在角点图像中,角点位置的像素值较高,非角点位置的像素值较低,这样可以更好地保留艺术字的形态特征。
一些实施方式中,文字对应的角点数据可以是文字的左上角、左下角、右上角、右下角四个角点的角点数据,通过捕捉文字的四个角点来准确识别艺术字等文字中的形变,从而克服了传统方法的局限性,提高了文字识别的准确性和可靠性。
一些实施方式中,基于目标图像,确定目标图像中包含的文字对应的角点数据可以执行为:利用预训练的角点检测模型,对目标图像进行角点检测,得到目标图像中包含的文字对应的角点数据。预训练的角点检测模型可以是Harris角点检测模型或尺度不变特征转换(ScaleInvariantFeatureTransform,SIFT)特征点检测模型。
一些实施方式中,可以先对目标图像进行预处理,然后基于预处理之后的目标图像,确定目标图像中包含的文字对应的角点数据。预处理可以是图像去噪、图像尺寸调整和图像增强等,以提高后续的处理的准确性和鲁棒性。
步骤103,基于角点数据,对目标图像中包含的文字进行识别,得到识别结果。
基于角点数据,对目标图像中包含的文字进行识别,得到识别结果可以执行为:利用预训练的文字识别模型,基于角点数据,对目标图像中包含的文字进行识别,得到识别结果。
识别结果可以是目标图像中包含的文字。示例性地,图3所示的目标图像的识别结果可以是“KERALA”。
本申请实施例提供的文字识别方法,先获取目标图像,确定目标图像中包含的文字对应的角点数据,然后基于角点数据,对目标图像中包含的文字进行识别,得到识别结果,而不是传统的文字识别方法中的仅仅基于目标图像进行文字识别。因此,本申请实施例提供的文字识别方法,可以在进行文字识别时,参考文字的角点信息来确定目标图像中包含的文字的不变特征,从而利用角点数据定位文字的形变,指导对文字识别的过程,可以提高对形变较大的文字的识别效果。
参照图5,图5为本申请另一实施例提供的一种文字识别方法的流程示意图。在图2所示实施例基础上延伸出图5所示实施例,下面着重叙述图5所示实施例与图2所示实施例的不同之处,相同之处不再赘述。如图5所示,步骤103包括步骤501和502。
步骤501,利用角点数据以及各角点的权重,提取目标图像的图像特征。
利用角点数据以及各角点的权重,提取目标图像的图像特征,可以执行为:将角点数据和目标图像输入特征提取模型,特征提取模型即可根据角点数据以及各角点的权重,提取目标图像的图像特征。
角点对应的图像区域的图像特征提取权重大于其他图像区域的图像特征提取权重,从而可以使特征提取模型的注意力集中于文字的角点对应的图像区域。
在一些实施例中,特征提取模型为对比学习模型,训练特征提取模型所使用的损失函数包括字符对比损失函数。字符对比损失函数用于,针对每个样字,基于样字的正样本图像对应的图像不变特征和样字的负样本图像对应的图像变化特征,确定字符损失值。正样本图像对应的图像不变特征可以是正样本图像之间的不变的特征。负样本图像对应的图像变化特征可以是负样本图像之间的变化的特征。字符损失值可以是正样本图像对应的图像不变特征与负样本图像对应的图像变化特征的差异值。
字符对比损失函数通过将同一样字的不同实例映射到相邻的特征空间中,从而使得特征在特征空间中紧密聚类,增大了文字的类间距离,缩小了同一文字不同形态的字类内距离,从而增强了文字的区分能力。因此,利用字符对比损失函数训练得到的特征提取模型具有较强的文字区分能力,能够很好地识别形变较大的文字。
步骤502,基于目标图像的图像特征,对目标图像中包含的文字进行识别,得到识别结果。
基于目标图像的图像特征,对目标图像中包含的文字进行识别,得到识别结果可以执行为:利用OCR对目标图像中包含的文字进行识别,得到识别结果,还可以执行为利用预训练的文字识别模型对目标图像中包含的文字进行识别,得到识别结果。
通过利用特征提取模型处理角点数据和目标图像,得到目标图像的图像特征,然后基于目标图像的图像特征,对目标图像中包含的文字进行识别,得到识别结果,可以使特征提取模型的注意力集中于文字的角点对应的图像区域,从而提取更多的角点位置的图像特征,进而为后续进行文字识别提供角点参考,提高了文字识别的准确性。另外,角点数据可对文字的边缘起到良好的指导作用,大大提高了特征提取模型对艺术字等具有凸起部分的理解能力,模型提取的图像特征更能代表整个艺术字的特点。
此外,传统的利用网络模型直接进行文字识别的方法,对于边缘明确的目标特征表征好,对于文字的形变较大的目标图像缺乏指导学习,艺术字具有多样化的形态和风格,传统的网络模型很容易过拟合于特定的艺术样本,对新样本的泛化能力差。而本申请的特征提取模型基于角点数据和目标图像进行特征提取,可以参考角点的数据进行特征提取,不依赖于特定的艺术样本,泛化能力强。
参照图6,图6为本申请另一实施例提供的一种特征提取的流程示意图。在图5所示实施例基础上延伸出图6所示实施例,下面着重叙述图6所示实施例与图5所示实施例的不同之处,相同之处不再赘述。
在一些实施例中,目标图像包含的文字存在交叠。如图6所示,基于目标图像,确定目标图像中包含的文字对应的角点数据,可以是先基于图像分割模型处理目标图像,得到每个文字对应的图像区域,然后对每个文字对应的图像区域中的角点进行识别,得到目标图像中包含的文字对应的角点数据。
图像分割模型可以是致力于图像分割的基础模型(SegmentAnything Model,SAM)。SAM是一个提示型模型,其在1100万张图像上训练了超过10亿个掩码,实现了强大的零样本泛化。SAM能够为目标图像中存在的所有对象自动识别和生成蒙版。在预计算图像嵌入后,SAM可以立即为任何提示提供分割掩码,从而实现与模型的实时交互。
先利用图像分割模型得到文字对应的图像区域,再对文字对应的图像区域进行角点识别,能够缩小角点识别的范围,提高角点识别的准确性,为后续的文字识别提供了准确的数据基础。
在一些实施例中,基于图像分割模型处理目标图像,得到每个文字对应的图像区域,可以是将目标图像对应的文本描述和目标图像输入图像分割模型,得到文字对应的图像区域。
文本描述可以用来描述目标图像中的文字的风格、目标图像涉及到的内容等,用来作为图像分割模型的提示。示例性地,针对图3所示的目标图像,文本描述可以是:图像中的文字都是字母。
通过为图像分割模型增加文本描述,可以使图像分割模型在进行图像分割时,参考到目标图像中的文字的风格、涉及的内容等信息,从而提高图像分割的准确性。
在一些实施例中,基于角点数据,对目标图像中包含的文字进行识别,得到识别结果,可以是将角点数据、目标图像、目标图像对应的文本描述和文字对应的图像区域输入文字识别模型,得到识别结果。
文字识别模型可以是多模态识别模型,具体而言,可以是对网络模型进行多模态识别训练得到的预训练的网络模型。
通过将多模态数据(例如,角点数据、目标图像、目标图像对应的文本描述和文字对应的图像区域)数据文字识别模型,使文字识别模型可以从多个方面识别目标图像中的文字的信息,提高了识别的准确性。
在一些实施例中,特征提取模型包括角点查询模块和交叉注意力机制模块。角点查询模块和交叉注意力机制模块均可以是卷积神经网络模块。
利用特征提取模型处理角点数据和目标图像,得到目标图像的图像特征,包括:基于角点数据,利用角点查询模块,确定角点位置特征;基于角点位置特征和目标图像,利用交叉注意力机制模块,确定目标图像的图像特征。
具体地,先将角点数据输入角点查询模块,角点查询模块即可输出角点位置特征,然后将角点位置特征和目标图像输入交叉注意力机制模块,交叉注意力机制模块即可输出目标图像的图像特征。
角点查询模块用于从角点数据中提取角点的特征表示(即角点位置特征),交叉注意力机制模块用于计算文字图像与角点的特征表示之间的注意力权重,以获得更准确的注意力分布。
在一些实施例中,利用角点数据以及各角点的权重,提取目标图像的图像特征是基于神经网络模型实现的。神经网络模型可以是深度学习网络模型。
参照图7,图7为本申请一实施例提供的一种神经网络模型的训练过程的流程示意图。该方法可由神经网络模型的训练装置执行,通过模型训练得到神经网络模型。神经网络模型根据以下方式得到。
如图7所示,首先,获取至少一个样字对应的样本图像集、以及样本图像集中的每幅样本图像中包含的样字对应的角点数据。样本图像集中包括至少一个样字各自对应的至少一幅样本图像。然后,基于至少一个样字对应的样本图像集、以及样本图像集中的每幅样本图像中包含的样字对应的角点数据,训练初始神经网络模型,得到神经网络模型。
样本图像集中包括至少一个样字各自对应的至少一幅样本图像。示例性地,样本图像可以是图3所示的图像。样本图像可以是对样字进行旋转、扭曲、平移等增强操作得到的图像。至少一个样字各自对应的至少一幅样本图像可以是不同字体、不同形态的相同样字的至少一副样本图像。
一些实施例中,每个样字对应的样本图像包括正样本图像和负样本图像。正样本图像是一个样字对应的至少一幅样本图像,即针对一个样字进行旋转、扭曲、平移等增强操作得到的图像。负样本图像可以是与该一个样字不同的样字对应的至少一幅样本图像。示例性地,正样本图像是对样字“A”进行旋转、扭曲、平移等增强操作得到的图像,负样本图像可以是对样字“B”进行旋转、扭曲、平移等增强操作得到的图像。
样本图像集中的每幅样本图像中包含的样字对应的角点数据可以通过以下方法获得:利用预训练的角点检测模型,对样本图像进行角点检测,得到样本图像中包含的样字对应的角点数据。预训练的角点检测模型可以是Harris角点检测模型或尺度不变特征转换(ScaleInvariantFeatureTransform,SIFT)特征点检测模型。
基于至少一个样字对应的样本图像集、以及样本图像集中的每幅样本图像中包含的样字对应的角点数据,训练初始神经网络模型,得到神经网络模型,可以通过以下步骤实现。
如图7所示,首先,针对每个样字,基于样字对应的样本图像集和角点数据,提取样字的正样本图像对应的图像不变特征和样字的负样本图像对应的图像变化特征,然后,基于图像不变特征和图像变化特征,确定样字的字符损失值,接着,判断字符损失值是否满足预设收敛条件,如果字符损失值不满足预设收敛条件,则基于字符损失值,调整初始神经网络模型的权重参数;并基于样字对调整后的初始神经网络模型进行迭代训练,直至所得到的字符损失值满足预设收敛条件,得到神经网络模型。
一些实施例中,基于图像不变特征和图像变化特征,确定样字的字符损失值,是利用损失函数确定的。损失函数包括字符对比损失函数,字符对比损失函数用于,针对每个样字,基于样字的正样本图像对应的图像不变特征和样字的负样本图像对应的图像变化特征,确定字符损失值。
示例性地,基于至少一个样字对应的样本图像集、以及样本图像集中的每幅样本图像中包含的样字对应的角点数据,训练初始神经网络模型,得到神经网络模型可以执行为:确定至少一组正样本图像和负样本图像;基于至少一组正样本图像和负样本图像,确定至少一组正样本图像和负样本图像中包含的样字对应的角点数据;基于至少一组正样本图像和负样本图像以及至少一组正样本图像和负样本图像中包含的样字对应的角点数据,对神经网络模型进行至少一轮训练,并将训练好的神经网络模型确定为神经网络模型,神经网络模型可以是对目标图像进行特征提取的特征提取模型,在提取到图像特征后,可以将图像特征输入文字识别模型,以得到识别结果。
针对至少一轮训练中的每轮训练,在至少一组正样本图像和负样本图像中选取一组正样本图像和负样本图像;将该组正样本图像和负样本图像以及该组正样本图像和负样本图像中包含的样字对应的角点数据输入神经网络模型,得到正样本图像对应的图像不变特征和负样本图像对应的图像变化特征;利用字符对比损失函数,基于正样本图像对应的图像不变特征和负样本图像对应的图像变化特征,确定字符损失值;如果字符损失值小于或等于预设阈值,将该轮训练后的深度学习模型确定为特征提取模型。
示例性地,字符对比损失函数可以是如下公式(1)。
L(a,p,n)=max(0,d(a,p)-d(a,n)+α)(1)
其中,d(a,p)表示正样本图像对应的图像不变特征,d(a,n)表示负样本图像对应的图像变化特征,α是边界参数,a表示角点位置特征,p表示正样本图像的部分图像特征,n表示负样本图像的部分图像特征。
α可以根据实际需要设置,用于控制正样本图像对应的图像不变特征与负样本图像对应的图像变化特征之间的距离间隔。
字符对比损失函数,可以使神经网络模型学习字符的不变特征,通过将同一文字的不同实例映射到相邻的特征空间中,从而使得特征在特征空间中紧密聚类,增强了对形变较大的文字的区分能力。
以上对本申请实施例中一种文字识别方法和模型训练过程进行说明,以下对执行上述文字识别方法的文字识别装置(例如服务器)进行介绍。
参阅图8,图8为本申请一实施例提供的一种文字识别装置的结构示意图,其可应用于需要进行文字识别的场景下的服务器中,获取目标图像,基于目标图像,确定目标图像中包含的文字对应的角点数据;基于角点数据,对目标图像中包含的文字进行识别,得到识别结果。在本申请实施例中的文字识别装置能够实现对应于上述图2中所对应的实施例中所执行的文字识别方法的步骤。文字识别装置实现的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块,模块可以是软件和/或硬件。文字识别装置80可包括获取模块801、角点识别模块802和文字识别模块803,其中,角点识别模块802和文字识别模块803的功能实现可参考图2所对应的实施例中所执行的操作,此处不作赘述。
获取模块801,被配置为获取目标图像。
角点识别模块802,被配置为基于目标图像,确定目标图像中包含的文字对应的角点数据;
文字识别模块803,被配置为基于角点数据,对目标图像中包含的文字进行识别,得到识别结果。
在一些实施方式中,文字识别模块803,被进一步配置为利用角点数据以及各角点的权重,提取目标图像的图像特征;基于目标图像的图像特征,对目标图像中包含的文字进行识别,得到识别结果。在一些实施方式中,利用角点数据以及各角点的权重,提取目标图像的图像特征是基于神经网络模型实现的。
在一些实施方式中,目标图像包含的文字存在交叠,角点识别模块802,被进一步配置为基于图像分割模型处理目标图像,得到每个文字对应的图像区域;对每个文字对应的图像区域中的角点进行识别,得到目标图像中包含的文字对应的角点数据。
在一些实施方式中,角点识别模块802,被进一步配置为将目标图像对应的文本描述和目标图像输入图像分割模型,得到文字对应的图像区域。
在一些实施方式中,文字识别模块803,被进一步配置为将角点数据、目标图像、目标图像对应的文本描述和文字对应的图像区域输入文字识别模型,得到识别结果。
参阅图9,图9为本申请一实施例提供的一种神经网络模型的训练装置的结构示意图,其可应用于需要进行模型训练的场景下的服务器中。在本申请实施例中的神经网络模型的训练装置能够实现对应于上述图7中所对应的实施例中所执行的模型训练过程的步骤。神经网络模型的训练装置实现的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块,模块可以是软件和/或硬件。神经网络模型的训练装置90可包括样本确定模块901和模型确定模块902,样本确定模块901和模型确定模块902的功能实现可参考图7所对应的实施例中所执行的操作,此处不作赘述。
样本确定模块901,被配置为获取至少一个样字对应的样本图像集、以及样本图像集中的每幅样本图像中包含的样字对应的角点数据,其中,样本图像集中包括至少一个样字各自对应的至少一幅样本图像。
模型确定模块902,被配置为基于至少一个样字对应的样本图像集、以及样本图像集中的每幅样本图像中包含的样字对应的角点数据,训练初始神经网络模型,得到神经网络模型。
在一些实施方式中,每个样字对应的样本图像包括正样本图像和负样本图像。模型确定模块902,被进一步配置为针对每个样字,基于样字对应的样本图像集和角点数据,提取样字的正样本图像对应的图像不变特征和样字的负样本图像对应的图像变化特征;基于图像不变特征和图像变化特征,确定样字的字符损失值;如果字符损失值不满足预设收敛条件,则基于字符损失值,调整初始神经网络模型的权重参数;基于样字对调整后的初始神经网络模型进行迭代训练,直至所得到的字符损失值满足预设收敛条件,得到神经网络模型。
本申请实施例中,模型确定模块902,被配置为基于样本图像集中包含的样本图像以及每幅样本图像中包含的样字对应的角点数据,训练初始神经网络模型,得到神经网络模型,从而可以在使神经网络模型学习到样字的角点数据,结合角点数据和样本图像提取样本图像的特征,并使角点对应的图像区域的图像特征提取权重大于其他图像区域的图像特征提取权重,提高神经网络模型对角点对应的图像区域的注意力,为后续进行文字识别提供更准确的图像特征。
上面从模块化功能实体的角度对本申请实施例中的文字识别装置80和神经网络模型的训练装置90进行了描述,下面从硬件处理的角度分别对本申请实施例中的文字识别装置和神经网络模型的训练装置进行描述。
需要说明的是,图8所示的获取模块801、角点识别模块802和文字识别模块803对应的实体设备均可以为处理器,图9所示的样本确定模块901和模型确定模块902对应的实体设备也均可以为处理器。
图8和图9所示的装置均可以具有如图10所示的结构,当图8和图9所示的文字识别装置80和神经网络模型的训练装置90具有如图10所示的结构时,图10中的处理器能够实现前述对应该装置的装置实施例提供的获取模块801、角点识别模块802和文字识别模块803,以及样本确定模块901和模型确定模块902相同或相似的功能,图10中的存储器存储处理器执行上述文字识别方法时需要调用的计算机程序。
本申请实施例还提供了一种终端设备,如图11所示,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理(PersonalDigitalAssistant,PDA)、销售终端设备(PointofSales,POS)、车载电脑等任意终端设备,以终端设备为手机为例:
图11示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图11,手机包括:射频(RadioFrequency,RF)电路1010、存储器1020、输入单元1030、显示单元1040、传感器1050、音频电路1060、无线保真(wirelessfidelity,WiFi)模块1070、处理器1080、以及电源1090等部件。本领域技术人员可以理解,图11中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图11对手机的各个构成部件进行具体的介绍:
RF电路1010可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1080处理;另外,将设计上行的数据发送给基站。通常,RF电路1010包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(LowNoiseAmplifier,LNA)、双工器等。此外,RF电路1010还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(GlobalSystemofMobilecommunication,GSM)、通用分组无线服务(GeneralPacketRadioService,GPRS)、码分多址(CodeDivisionMultipleAccess,CDMA)、宽带码分多址(WidebandCodeDivisionMultipleAccess,WCDMA)、长期演进(LongTermEvolution,LTE)、电子邮件、短消息服务(ShortMessagingService,SMS)等。
存储器1020可用于存储软件程序以及模块,处理器1080通过运行存储在存储器1020的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器1020可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1020可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元1030可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的关键信号输入。具体地,输入单元1030可包括触控面板1031以及其他输入设备1032。触控面板1031,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1031上或在触控面板1031附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板1031可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1080,并能接收处理器1080发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1031。除了触控面板1031,输入单元1030还可以包括其他输入设备1032。具体地,其他输入设备1032可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1040可用于显示目标图像或识别结果等。显示单元1040可包括显示面板1041,可选的,可以采用液晶显示器(LiquidCrystalDisplay,LCD)、有机发光二极管(OrganicLight-EmittingDiode,OLED)等形式来配置显示面板1041。进一步的,触控面板1031可覆盖显示面板1041,当触控面板1031检测到在其上或附近的触摸操作后,传送给处理器1080以确定触摸事件的类型,随后处理器1080根据触摸事件的类型在显示面板1041上提供相应的视觉输出。虽然在图12中,触控面板1031与显示面板1041是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板1031与显示面板1041集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器1050,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1041的亮度,接近传感器可在手机移动到耳边时,关闭显示面板1041和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路1060、扬声器1061,传声器1062可提供用户与手机之间的音频接口。音频电路1060可将接收到的音频数据转换后的电信号,传输到扬声器1061,由扬声器1061转换为声音信号输出;另一方面,传声器1062将收集的声音信号转换为电信号,由音频电路1060接收后转换为音频数据,再将音频数据输出处理器1080处理后,经RF电路1010以发送给比如另一手机,或者将音频数据输出至存储器1020以便进一步处理。
Wi-Fi属于短距离无线传输技术,手机通过Wi-Fi模块1070可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图12示出了Wi-Fi模块1070,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器1080是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1020内的软件程序和/或模块,以及调用存储在存储器1020内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器1080可包括一个或多个处理单元;可选的,处理器1080可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1080中。
手机还包括给各个部件供电的电源1090(比如电池),可选的,电源可以通过电源管理系统与处理器1080逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本申请实施例中,该手机所包括的处理器1080还具有控制执行以上由文字识别装置执行的文字识别方法流程。
本申请实施例还提供了一种服务器,请参阅图12,图12是本申请实施例提供的一种服务器结构示意图,该服务器1100可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(英文全称:central processingunits,英文简称:CPU)1122(例如,一个或一个以上处理器)和存储器1132,一个或一个以上存储应用程序1142或数据1144的存储介质1130(例如一个或一个以上海量存储设备)。其中,存储器1132和存储介质1130可以是短暂存储或持久存储。存储在存储介质1130的程序可以包括一个或一个以上模块(图中未示出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1122可以设置为与存储介质1130通信,在服务器1100上执行存储介质1130中的一系列指令操作。
服务器1100还可以包括一个或一个以上电源1126,一个或一个以上有线或无线网络接口1150,一个或一个以上输入输出接口1158,和/或,一个或一个以上操作系统1141,例如WindowsServer,MacOSX,Unix,Linux,FreeBSD等等。
上述实施例中由服务器所执行的步骤可以基于该图12所示的服务器1100的结构。例如,例如上述实施例中由文字识别装置80或神经网络模型的训练装置90所执行的步骤可以基于该图12所示的服务器结构。例如,所述中央处理器1122通过调用存储器1132中的指令,执行以下操作:
获取模块801获取目标图像;通过角点识别模块802,基于目标图像,确定目标图像中包含的文字对应的角点数据;通过文字识别模块803,基于角点数据,对目标图像中包含的文字进行识别,得到识别结果。
还可以通过样本确定模块901,获取至少一个样字对应的样本图像集、以及样本图像集中的每幅样本图像中包含的样字对应的角点数据,其中,样本图像集中包括至少一个样字各自对应的至少一幅样本图像;通过模型确定模块902,基于至少一个样字对应的样本图像集、以及样本图像集中的每幅样本图像中包含的样字对应的角点数据,训练初始神经网络模型,得到神经网络模型。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请实施例所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请实施例各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidStateDisk(SSD))等。
以上对本申请实施例所提供的技术方案进行了详细介绍,本申请实施例中应用了具体个例对本申请实施例的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请实施例的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请实施例的限制。

Claims (13)

1.一种文字识别方法,其特征在于,包括:
获取目标图像;
基于所述目标图像,确定所述目标图像中包含的文字对应的角点数据,所述角点数据用于表征多个角点的位置;
基于所述角点数据,对所述目标图像中包含的文字进行识别,得到识别结果。
2.根据权利要求1所述的文字识别方法,其特征在于,所述基于所述角点数据,对所述目标图像中包含的文字进行识别,得到识别结果,包括:
利用所述角点数据以及各角点的权重,提取所述目标图像的图像特征;
基于所述目标图像的图像特征,对所述目标图像中包含的文字进行识别,得到所述识别结果。
3.根据权利要求1或2所述的文字识别方法,其特征在于,所述目标图像包含的文字存在交叠,所述基于所述目标图像,确定所述目标图像中包含的文字对应的角点数据,包括:
基于图像分割模型处理所述目标图像,得到每个所述文字对应的图像区域;
对每个所述文字对应的图像区域中的角点进行识别,得到所述目标图像中包含的文字对应的角点数据。
4.根据权利要求3所述的文字识别方法,其特征在于,所述基于图像分割模型处理所述目标图像,得到每个所述文字对应的图像区域,包括:
将所述目标图像对应的文本描述和所述目标图像输入所述图像分割模型,得到每个所述文字对应的图像区域。
5.根据权利要求4所述的文字识别方法,其特征在于,所述基于所述角点数据,对所述目标图像中包含的文字进行识别,得到识别结果,包括:
将所述角点数据、所述目标图像、所述目标图像对应的文本描述和每个所述文字对应的图像区域输入文字识别模型,得到所述识别结果。
6.根据权利要求2所述的文字识别方法,其特征在于,所述利用所述角点数据以及各角点的权重,提取所述目标图像的图像特征是基于神经网络模型实现的。
7.根据权利要求6所述的文字识别方法,其特征在于,所述神经网络模型根据以下方式得到:
获取至少一个样字对应的样本图像集、以及所述样本图像集中的每幅所述样本图像中包含的样字对应的角点数据,其中,所述样本图像集中包括所述至少一个样字各自对应的至少一幅样本图像;
基于所述至少一个样字对应的样本图像集、以及所述样本图像集中的每幅所述样本图像中包含的样字对应的角点数据,训练初始神经网络模型,得到所述神经网络模型。
8.根据权利要求7所述的文字识别方法,其特征在于,每个所述样字对应的样本图像包括正样本图像和负样本图像,
所述基于所述至少一个样字对应的样本图像集、以及所述样本图像集中的每幅所述样本图像中包含的样字对应的角点数据,训练初始神经网络模型,得到所述神经网络模型,包括:
针对每个所述样字,基于所述样字对应的样本图像集和角点数据,提取所述样字的正样本图像对应的图像不变特征和所述样字的负样本图像对应的图像变化特征;
基于所述图像不变特征和所述图像变化特征,确定所述样字的字符损失值;
如果所述字符损失值不满足预设收敛条件,则基于所述字符损失值,调整所述初始神经网络模型的权重参数;
基于所述样字对调整后的初始神经网络模型进行迭代训练,直至所得到的字符损失值满足所述预设收敛条件,得到所述神经网络模型。
9.一种文字识别装置,其特征在于,包括:
获取模块,被配置为获取目标图像;
角点识别模块,被配置为基于所述目标图像,确定所述目标图像中包含的文字对应的角点数据,所述角点数据用于表征多个角点的位置;
文字识别模块,被配置为基于所述角点数据,对所述目标图像中包含的文字进行识别,得到识别结果。
10.一种计算设备,其特征在于,其包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述的方法。
11.一种计算机可读存储介质,其特征在于,其包括指令,当其在计算机上运行时,使得所述计算机执行如权利要求1至8任一项所述的方法。
12.一种包含指令的计算机程序产品,所述计算机程序产品包括程序指令,当所述程序指令在计算机或处理器上运行时,使得所述计算机或所述处理器执行如权利要求1至8任一项所述的方法。
13.一种芯片系统,其特征在于,该芯片系统包括:
通信接口,用于输入和/或输出信息;
处理器,用于执行计算机可执行程序,使得安装有所述芯片系统的设备执行如权利要求1至8任一项所述的方法。
CN202311110188.0A 2023-08-30 2023-08-30 文字识别方法、相关装置及存储介质 Pending CN117292384A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311110188.0A CN117292384A (zh) 2023-08-30 2023-08-30 文字识别方法、相关装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311110188.0A CN117292384A (zh) 2023-08-30 2023-08-30 文字识别方法、相关装置及存储介质

Publications (1)

Publication Number Publication Date
CN117292384A true CN117292384A (zh) 2023-12-26

Family

ID=89256177

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311110188.0A Pending CN117292384A (zh) 2023-08-30 2023-08-30 文字识别方法、相关装置及存储介质

Country Status (1)

Country Link
CN (1) CN117292384A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112464798A (zh) * 2020-11-24 2021-03-09 创新奇智(合肥)科技有限公司 文本识别方法及装置、电子设备、存储介质
CN114550177A (zh) * 2022-02-25 2022-05-27 北京百度网讯科技有限公司 图像处理的方法、文本识别方法及装置
CN114863476A (zh) * 2022-04-14 2022-08-05 北京明略昭辉科技有限公司 行人重识别方法和装置、电子设备和存储介质
CN115223020A (zh) * 2022-07-20 2022-10-21 腾讯科技(深圳)有限公司 图像处理方法、装置、电子设备以及可读存储介质
CN115331150A (zh) * 2022-08-29 2022-11-11 北京达佳互联信息技术有限公司 图像识别方法、装置、电子设备、存储介质
CN116128894A (zh) * 2023-01-31 2023-05-16 马上消费金融股份有限公司 图像分割方法、装置及电子设备
CN116189208A (zh) * 2023-02-03 2023-05-30 抖音视界有限公司 用于文本识别的方法、装置、设备和介质
CN116503876A (zh) * 2023-04-24 2023-07-28 支付宝(杭州)信息技术有限公司 图像识别模型的训练方法及装置、图像识别方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112464798A (zh) * 2020-11-24 2021-03-09 创新奇智(合肥)科技有限公司 文本识别方法及装置、电子设备、存储介质
CN114550177A (zh) * 2022-02-25 2022-05-27 北京百度网讯科技有限公司 图像处理的方法、文本识别方法及装置
CN114863476A (zh) * 2022-04-14 2022-08-05 北京明略昭辉科技有限公司 行人重识别方法和装置、电子设备和存储介质
CN115223020A (zh) * 2022-07-20 2022-10-21 腾讯科技(深圳)有限公司 图像处理方法、装置、电子设备以及可读存储介质
CN115331150A (zh) * 2022-08-29 2022-11-11 北京达佳互联信息技术有限公司 图像识别方法、装置、电子设备、存储介质
CN116128894A (zh) * 2023-01-31 2023-05-16 马上消费金融股份有限公司 图像分割方法、装置及电子设备
CN116189208A (zh) * 2023-02-03 2023-05-30 抖音视界有限公司 用于文本识别的方法、装置、设备和介质
CN116503876A (zh) * 2023-04-24 2023-07-28 支付宝(杭州)信息技术有限公司 图像识别模型的训练方法及装置、图像识别方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XUDONG XIE ET AL.: "Toward Understanding WordArt: Corner-Guided Transformer for Scene Text Recognition", 《ARXIV》, 31 July 2022 (2022-07-31), pages 1 - 18 *
ZHICHAO WEI ET AL.: "Linguistic Query-Guided Mask Generation for Referring Image Segmentation", 《ARXIV》, 22 March 2023 (2023-03-22), pages 1 - 10 *

Similar Documents

Publication Publication Date Title
KR102646667B1 (ko) 이미지 영역을 찾기 위한 방법, 모델 훈련 방법 및 관련 장치
CN109670174B (zh) 一种事件识别模型的训练方法和装置
CN110704661B (zh) 一种图像分类方法和装置
CN112749252B (zh) 一种基于人工智能的文本匹配方法和相关装置
CN111159338A (zh) 一种恶意文本的检测方法、装置、电子设备及存储介质
CN112214605A (zh) 一种文本分类方法和相关装置
CN113190646A (zh) 一种用户名样本的标注方法、装置、电子设备及存储介质
CN111444905B (zh) 基于人工智能的图像识别方法和相关装置
CN114722937A (zh) 一种异常数据检测方法、装置、电子设备和存储介质
CN109992753B (zh) 一种翻译处理方法及终端设备
CN112541489A (zh) 图像检测方法、装置、移动终端及存储介质
CN116975295B (zh) 一种文本分类方法、装置及相关产品
CN111145734A (zh) 一种语音识别方法及电子设备
CN115563255A (zh) 对话文本的处理方法、装置、电子设备及存储介质
CN116071614A (zh) 样本数据处理方法、相关设备及存储介质
CN113535055B (zh) 一种基于虚拟现实播放点读物的方法、设备及存储介质
CN117292384A (zh) 文字识别方法、相关装置及存储介质
CN116259083A (zh) 一种图像质量识别模型的确定方法和相关装置
CN111723783B (zh) 一种内容识别方法和相关装置
CN113569043A (zh) 一种文本类别确定方法和相关装置
CN115841575A (zh) 关键点检测方法、装置、电子设备、存储介质和程序产品
CN117011649B (zh) 一种模型训练方法和相关装置
CN113887534B (zh) 一种对象检测模型的确定方法和相关装置
CN112733573B (zh) 表格检测方法、装置、移动终端及存储介质
CN113569082A (zh) 一种图像信息输出方法和相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination