CN115171128A - 一种象形文字识别方法、装置、设备和介质 - Google Patents
一种象形文字识别方法、装置、设备和介质 Download PDFInfo
- Publication number
- CN115171128A CN115171128A CN202210986564.1A CN202210986564A CN115171128A CN 115171128 A CN115171128 A CN 115171128A CN 202210986564 A CN202210986564 A CN 202210986564A CN 115171128 A CN115171128 A CN 115171128A
- Authority
- CN
- China
- Prior art keywords
- feature extraction
- feature
- features
- unit
- extraction unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/1918—Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/1801—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
- G06V30/18019—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by matching or filtering
- G06V30/18038—Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters
- G06V30/18048—Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters with interaction between the responses of different filters, e.g. cortical complex cells
- G06V30/18057—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19127—Extracting features by transforming the feature space, e.g. multidimensional scaling; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种象形文字识别方法、装置、设备和介质。该方法包括:将文字图片输入至识别模型中;通过所述识别模型的串接的至少两个特征提取单元对文字图片进行特征提取,得到目标特征;其中,所述特征提取单元包括混合感知映射单元和/或空间感知聚合单元;混合感知映射单元用于获取全局有效特征和全局关键位置特征;空间感知聚合单元用于获取局部关键细节特征;不同特征提取单元用于提取不同尺寸的特征;通过所述识别模型的分类层,对所述目标特征进行分类,确定所述文字图片对应的文字识别结果。通过本发明实施例能够在对文字图片进行特征提取后,提高特征提取结果的丰富性,从而提高识别模型对文字图片进行识别的准确率。
Description
技术领域
本发明涉及图像识别技术领域,尤其涉及一种象形文字识别方法、装置、设备和介质。
背景技术
象形文字具有明显的图画特点,存在难以辨识的高相似度象形文字,相较于其他文字识别任务具有更大的难度。
目前常用的深度学习识别模型大多从网络的深度或宽度层面改进模型,使网络对语义特征的提取能力大幅度增强,但在处理具有高相似度象形文字的识别任务时,识别率较低。
发明内容
本发明提供了一种象形文字识别方法、装置、设备和介质,以提高文字图片提取的特征的丰富性,提高识别模型文字识别准确率。
根据本发明的一方面,提供了一种象形文字识别方法,该方法包括:
将文字图片输入至识别模型中;
通过所述识别模型的串接的至少两个特征提取单元对文字图片进行特征提取,得到目标特征;其中,所述特征提取单元包括混合感知映射单元和/或空间感知聚合单元;混合感知映射单元用于获取全局有效特征和全局关键位置特征;空间感知聚合单元用于获取局部关键细节特征;不同特征提取单元用于提取不同尺寸的特征;
通过所述识别模型的分类层,对所述目标特征进行分类,确定所述文字图片对应的文字识别结果。
根据本发明的另一方面,提供了一种象形文字识别装置,该装置包括:
输入模块,用于将文字图片输入至识别模型中;
目标特征获取模块,用于通过所述识别模型的串接的至少两个特征提取单元对文字图片进行特征提取,得到目标特征;其中,所述特征提取单元包括混合感知映射单元和/或空间感知聚合单元;混合感知映射单元用于获取局部有效特征和局部关键细节特征;空间感知聚合单元用于获取全局关键位置特征;不同特征提取单元用于提取不同尺寸的特征;
结果确定模块,用于通过所述识别模型的分类层,对所述目标特征进行分类,确定所述文字图片对应的文字识别结果。
根据本发明的另一方面,提供了一种电子设备,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的象形文字识别方法。
根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的象形文字识别方法。
根据本发明的另一方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序在被处理器执行时实现本发明任一实施例所述的象形文字识别方法。
本发明实施例的技术方案,将文字图片输入至识别模型中,通过识别模型中串接的至少两个特征提取单元对文字图片进行特征提取,得到目标特征,不同特征提取单元用于提取不同尺寸的特征,能够获取文字图片的在不同尺寸下的特征,增加了提取的文字图片的特征的丰富性,同时,特征提取单元包括混合感知映射单元和/或空间感知聚合单元,混合感知映射单元用于获取全局有效特征和全局关键位置特征,空间感知聚合单元用于获取局部关键细节特征,使目标特征在关注全局有效特征和全局关键位置特征的同时,增加了对局部关键细节位置特征的关注,可以从全局和局部细节方面丰富特征信息,提高特征的丰富性,相比于全局关键位置特征和全局有效特征,局部关键细节特征保留了更多的细节信息,能够在文字轮廓近乎相同,针对在字形的细节方面存在微小区别的图像,有效提取细节特征,从而在通过识别模型的分类层,对目标特征进行分类,确定文字图片对应的文字识别结果时,能够提高文字识别的准确率。
应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是根据本发明实施例一提供的一种象形文字识别方法的流程图;
图1b是根据本发明实施例一提供的一种东巴象形文字与对应的文字识别结果的示意图;
图2是根据本发明实施例二提供的一种象形文字识别方法的流程图;
图3a是根据本发明实施例三提供的一种象形文字识别方法的流程图;
图3b是根据本发明实施例三提供的一种象形文字识别方法的流程图;
图4a是根据本发明实施例四提供的一种象形文字识别方法的流程图;
图4b是根据本发明实施例四提供的一种象形文字识别方法的流程图;
图5是根据本发明实施例五提供的一种象形文字识别方法的应用场景示意图;
图6是根据本发明实施例六提供的一种象形文字识别装置的结构示意图;
图7是实现本发明实施例的象形文字识别方法的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例一
图1a为本发明实施例一提供的一种象形文字识别方法的流程图,本实施例可适用于对象形文字进行识别的情况,该方法可以由象形文字识别装置来执行,该象形文字识别装置可以采用硬件和/或软件的形式实现,该象形文字识别装置可配置于电子设备中。如图1a所示,该方法包括:
S110、将文字图片输入至识别模型中。
文字图片是指包含文字内容的图片。在本申请中,文字图片中的文字为象形文字,示例性的,文字图片中的文字为东巴象形文字或埃及象形文字或甲骨文字。识别模型是指对文字图片中的文字进行识别,得到文字对应的现代标准文字的模型。识别模型可以是通过深度学习技术构建的网络模型。
S120、通过所述识别模型的串接的至少两个特征提取单元对文字图片进行特征提取,得到目标特征;其中,所述特征提取单元包括混合感知映射单元和/或空间感知聚合单元;混合感知映射单元用于获取全局有效特征和全局关键位置特征;空间感知聚合单元用于获取局部关键细节特征;不同特征提取单元用于提取不同尺寸的特征。
特征提取单元用于提取文字图片的图像特征。在识别模型中,包括至少两个特征提取单元,各特征提取单元串联,使文字图片依次经过至少两个特征提取单元,进行特征提取。特征提取单元包括混合感知映射单元和空间感知聚合单元中的至少一项。目标特征是指文字图片进行特征提取后得到的结果。不同特征提取单元提取到的图像特征的尺寸不同。
混合感知映射单元是指从不同的维度对文字图片进行特征提取的单元。示例性的,混合感知映射单元可以从通道和空间两个维度对文字图片进行特征提取,通过通道维度可以获取文字图片中前景或背景的特征,通过空间维度可以获取文字图片中文字所在位置的特征。具体的,混合感知映射单元用于获取全局有效特征和全局关键位置特征。全局有效特征是指文字图片中的前景特征。一般的,对于文字图片,前景特征为文字图片中关于文字的特征,是需要关注的有效信息,背景特征为文字图片中与文字无关的其他特征,是可以忽略的无效信息。全局关键位置特征是指文字图片中文字所在位置的特征。一般的,文字图片中除了文字所在的位置,还有不存在文字的位置,对于象形文字识别方法,需要关注的位置特征为文字所在的位置的特征,也就是关键位置特征。
空间感知聚合单元是指对输入进行聚合,并对聚合结果进行特征提取的单元。具体的,空间感知聚合单元用于获取局部关键细节特征。局部关键细节特征是指对输入进行聚合,并对聚合结果进行特征提取后得到的特征。相对于全局关键位置特征关注于文字整体的位置特征,局部关键细节特征在此基础上,关注于文字的各个组成部分的位置特征,使局部关键细节特征中的信息更加丰富。具体的,相对于全局关键位置特征,局部关键细节特征保留了更多的文字图片中的细节信息,使局部关键细节特征中的信息更加丰富。
具体的,通过识别模型中串接的至少两个特征提取单元,依次对文字图片进行特征提取,得到目标特征。
S130、通过所述识别模型的分类层,对所述目标特征进行分类,确定所述文字图片对应的文字识别结果。
分类层用于对目标特征进行分类,以确定文字图片中文字对应的现代文字的语义。在本申请中,分类层包括全局平均池化层和全连接层。文字识别结果是指将文字图片中的文字对应的现代文字的语义。具体的,文字识别结果可以通过中文进行描述,也可以通过英文进行描述,还可以通过其他现代语言的文字进行描述。示例性的,第一张文字图片的文字识别结果为水槽,第二张文字图片的文字识别结果为山脚等。
具体的,通过识别模型的分类层,使目标特征依次经过全局平均池化层和全连接层,实现目标特征的分类,确定文字图片对应的文字识别结果。通过全局平均池化层对目标特征进行降维,输入至全连接层进行分类,能够减少分类层的计算量,提高计算速度。
本发明实施例的技术方案,将文字图片输入至识别模型中,通过识别模型中串接的至少两个特征提取单元对文字图片进行特征提取,得到目标特征,不同特征提取单元用于提取不同尺寸的特征,能够获取文字图片的在不同尺寸下的特征,增加了提取的文字图片的特征的丰富性,同时,特征提取单元包括混合感知映射单元和/或空间感知聚合单元,混合感知映射单元用于获取全局有效特征和全局关键位置特征,空间感知聚合单元用于获取局部关键细节特征,使目标特征在关注全局有效特征和全局关键位置特征的同时,增加了对局部关键细节特征的关注,提高特征的丰富性,局部关键细节特征保留了更多的细节信息,能够在文字轮廓近乎相同,针对在字形的细节方面存在微小区别的图像,有效提取细节特征,从而在通过识别模型的分类层,对目标特征进行分类,确定文字图片对应的文字识别结果时,能够提高文字识别的准确率。
可选的,文字图片为东巴象形文字的图片,一张文字图片中包括至少一个东巴象形文字。
其中,东巴象形文字是一种原始的图画象形文字,主要为纳西族人民传授使用,书写东巴经文,也称东巴文。在一张文字图片中包括至少一个东巴象形文字。图1b是本发明实施例一提供的一种东巴象形文字与对应的文字识别结果的示意图。如图1b所示,第一行的8个图片分别为8个东巴象形文字的文字图片,通过象形文字识别方法进行识别后,得到的文字识别结果为第二行中各文字图片下方对应的现代标准文字。第三行的8个图片分别为8个东巴象形文字的文字图片,通过象形文字识别方法进行识别后,得到的文字识别结果为第四行中各文字图片下方对应的现代标准文字。
如图1b所示,各文字图片中的东巴象形文字,从左到右,两个文字为一组,每组东巴象形文字的文字轮廓非常相似,仅在线条弯曲程度、线条长短等方面存在细小差异,通过手工书写,容易使各组的两个东巴象形文字之间的差异性变小,增加了高相似度东巴象形文字的识别难度,导致文字识别结果的准确率下降,因此需要提取大量局部细节信息来判断东巴象形文字的细小差异。现有技术中,常用的深度学习识别模型大多从网络的深度或宽度层面改进模型,使网络对语义特征的提取能力大幅度增强,但在处理具有高相似度东巴象形文字的识别任务时,仍然面临细节特征提取不足的问题,导致识别率较低。
将东巴象形文字的图片输入至识别模型中,可以通过识别模型中串接的至少两个特征提取单元对文字图片进行特征提取,得到目标特征,不同特征提取单元用于提取不同尺寸的特征,能够获取文字图片的在不同尺寸下的特征,增加了提取的文字图片的特征的丰富性,同时,特征提取单元包括混合感知映射单元和/或空间感知聚合单元,混合感知映射单元用于获取全局有效特征和全局关键位置特征,空间感知聚合单元用于获取局部关键细节特征,使目标特征在关注全局有效特征和全局关键位置特征的同时,增加了对局部关键细节特征的关注,提高特征的丰富性,局部关键细节特征保留了更多的细节信息,能够在文字轮廓近乎相同,仅在字形的细节方面存在细小差异时,提高对细节特征的获取,从而在通过识别模型的分类层,对目标特征进行分类,确定文字图片对应的文字识别结果时,能够提高文字识别的准确率。
实施例二
图2为本发明实施例二提供的一种象形文字识别方法的流程图,本实施例在上述实施例的基础上,对所述通过所述识别模型的串接的至少两个特征提取单元对文字图片进行特征提取,得到目标特征,进行了细化。如图2所示,该方法包括:
S210、将文字图片输入至识别模型中,所述识别模型包括串接的至少两个特征提取单元;所述至少两个特征提取单元中的首个特征提取单元包括混合感知映射单元,所述至少两个特征提取单元中的其他特征提取单元包括混合感知映射单元和空间感知聚合单元。
识别模型包括的串接的特征提取单元划分成两类特征提取单元,一个是首个特征提取单元,剩余的特征提取单元为其他特征提取单元。
S220、通过所述首个特征提取单元中的混合感知映射单元对所述文字图片进行特征提取,得到所述首个特征提取单元的中间全局特征。
首个特征提取单元是指识别模型中直接对文字图片进行特征提取的特征提取单元。首个特征提取单元中包括串接的至少一个混合感知映射单元。具体的,首个特征提取单元中包括至少一个混合感知映射单元,各混合感知映射单元串联。其他特征提取单元是指识别模型中除首个特征提取单元外的特征提取单元。
其他特征提取单元包括一个空间感知聚合单元和串接的至少一个混合感知映射单元,其中,空间感知聚合单元与串接的混合感知映射单元并联。示例性的,识别模型中包括三个特征提取单元,分别为第一特征提取单元、第二特征提取单元和第三特征提取单元。其中第一特征提取单元为首个特征提取单元,第二特征提取单元和第三特征提取单元为其他特征提取单元。具体的,其他特征提取单元中的混合感知映射单元的数量为至少一个,各混合感知映射单元串联。
中间全局特征是指特征提取单元中串接的至少一个混合感知映射单元进行特征提取后得到的特征,具体是串接的混合感知映射单元中最后一个混合感知映射单元输出的特征。
具体的,针对首个特征提取单元,通过首个特征提取单元中的混合感知映射单元计算中间全局特征,首个特征提取单元中的混合感知映射单元的输入为文字图片,输出为首个特征提取单元的中间全局特征。
S230、通过所述其他特征提取单元中的混合感知映射单元对串接的前一特征提取单元的中间全局特征进行特征提取,得到所述其他特征提取单元的中间全局特征。
串接的前一特征提取单元是指与当前特征提取单元串接的前一个的特征提取单元,该串接的前一特征提取单元的输出为当前特征提取单元的输入,该当前特征提取单元的输出为串接的后一特征提取单元的输入。具体的,针对各其他特征提取单元,通过各其他特征单元中的混合感知映射单元计算其他特征提取单元的中间全局特征,各其他特征提取单元中的混合感知映射单元的输入为串接的前一特征提取单元的中间全局特征,输出为该特征提取单元的中间全局特征。
示例性的,识别模型中包括三个特征提取单元,分别为第一特征提取单元、第二特征提取单元和第三特征提取单元。其中第一特征提取单元为首个特征提取单元,第二特征提取单元和第三特征提取单元为其他特征提取单元,在第二特征提取单元计算中间全局特征时,第二特征提取单元中的混合感知映射单元的输入为第一特征提取单元的中间全局特征,输出为第二特征提取单元的中间全局特征。
S240、通过首个其他特征提取单元中的空间感知聚合单元对所述首个特征提取单元的中间全局特征进行特征提取,得到所述首个其他特征提取单元的中间局部特征。
串接的其他特征提取单元划分成两类其他特征提取单元,一个是首个其他特征提取单元,剩余的特征提取单元为除首个其他特征提取单元以外的其他特征提取单元。此外,在除首个其他特征提取单元以外的其他特征提取单元中,还区分了最后一个其他特征提取单元为末个其他特征提取单元。
首个其他特征提取单元是指其他特征提取单元中的首个特征提取单元。中间局部特征是指其他特征提取单元中的空间感知聚合单元对输入进行特征提取后得到的特征。
具体的,针对首个其他特征提取单元,通过首个其他特征提取单元中的空间感知聚合单元计算中间局部特征,首个其他特征提取单元中的空间感知聚合单元的输入为首个特征提取单元的中间全局特征,输出为首个其他特征提取单元的中间局部特征。
S250、将所述首个其他特征提取单元的中间局部特征与所述首个其他特征提取单元的中间全局特征进行融合,得到所述首个其他特征提取单元的中间融合特征。
融合是指将其他特征提取单元的中间局部特征与其他特征提取单元的中间全局特征融合成为一个特征的过程,具体的,可以通过将其他特征提取单元的中间局部特征与其他特征提取单元的中间全局特征相加、相乘或加权等方式进行融合。中间融合特征是指其他特征提取单元的中间全局特征和其他特征提取单元中间局部特征融合后得到的特征。
将中间局部特征和中间全局特征进行融合,可以将细节和整体信息添加到特征信息中,在融合后的特征存在细节信息以及整体信息,从而可以提高融合后的特征的丰富性。
具体的,将首个其他特征提取单元的中间局部特征与首个其他特征提取单元的中间全局特征进行融合,得到的融合结果确定为首个其他特征提取单元的中间融合特征。
S260、通过除首个其他特征提取单元以外的其他特征提取单元中的空间感知聚合单元,对串接的前一特征提取单元的中间融合特征进行特征提取,得到除首个其他特征提取单元以外的其他特征提取单元的中间局部特征。
除首个其他特征提取单元以外的其他特征提取单元是指其他特征提取单元中除首个其他特征提取单元以外的特征提取单元。示例性的,识别模块中包含四个特征提取单元,分别为第一特征提取单元、第二特征提取单元、第三特征提取单元和第四特征提取单元。第一特征提取单元为首个特征提取单元,第二特征提取单元为首个其他特征提取单元,第三特征提取单元和第四特征提取单元为除首个其他特征提取单元以外的其他特征提取单元。
具体的,针对除首个其他特征提取单元以外的其他特征提取单元,通过除首个其他特征提取单元以外的其他特征提取单元中的空间感知聚合单元计算中间局部特征,除首个其他特征提取单元以外的其他特征提取单元中的空间感知聚合单元的输入为串接的前一特征提取单元的中间融合特征,输出为除首个其他特征提取单元以外的其他特征提取单元的中间局部特征。
S270、将除首个其他特征提取单元以外的其他特征提取单元的中间局部特征与除首个其他特征提取单元以外的其他特征提取单元的中间全局特征进行融合,得到除首个其他特征提取单元以外的其他特征提取单元的中间融合特征。
具体的,将除首个其他特征提取单元以外的其他特征提取单元的中间局部特征与除首个其他特征提取单元以外的其他特征提取单元的中间全局特征进行融合,得到的融合结果确定为除首个其他特征提取单元以外的其他特征提取单元的中间融合特征。
S280、将末个其他特征提取单元的中间融合特征确定为目标特征。
末个其他特征提取单元是指识别模型中串接的至少两个特征提取单元中的最后一个特征提取单元。示例性的,识别模型中包括三个特征提取单元,分别为第一特征提取单元,第二特征提取单元和第三特征提取单元,第三特征提取单元为末个特征提取单元。
具体的,将末个其他特征提取单元的中间融合特征直接确定为目标特征。每个其他特征提取单元中的空间感知聚合单元对前一融合结果进行细节特征提取,并融合同一其他特征提取单元中的混合感知映射单元的全局特征,实现层层融合同一尺寸的局部特征和全局特征,最终将末个其他特征提取单元的中间融合特征直接确定为目标特征,使得目标特征的特征信息更具有丰富性。
S290、通过所述识别模型的分类层,对所述目标特征进行分类,确定所述文字图片对应的文字识别结果。
本发明实施例的技术方案,通过首个特征提取单元中混合感知映射单元对文字图片进行特征提取,得到首个特征提取单元的中间全局特征,通过其他特征提取单元中混合感知映射单元对前一特征提取单元的中间全局特征进行特征提取,得到其他特征提取单元的中间全局特征,能够获取不同尺寸的中间全局特征,提高中间全局特征提取的丰富性,为目标特征获取的准确性做基础。在对各特征提取单元的中间全局特征进行计算时,随着特征提取次数的增多,特征提取结果中的细节特征,也就是局部关键细节特征逐渐减少。对此,将中间全局特征或中间全局特征与中间局部特征融合后的中间融合特征,作为其他特征提取单元中空间感知聚合单元的输入,得到其他特征提取单元的中间融合特征,实现了将上一特征提取单元的中间全局特征或中间融合特征传递到下一特征提取单元,保留了上一特征提取单元的特征的确结果中的细节特征,能够增加目标特征中的细节特征,提高目标特征获取的准确性,从而提高识别模型的准确率。
实施例三
图3a和图3b为本发明实施例三提供的一种象形文字识别方法的流程图,本实施例在上述实施例的基础上,对所述通过所述首个特征提取单元中混合感知映射单元对所述文字图片进行特征提取,得到所述首个特征提取单元的中间全局特征,进行了细化。如图3a和图3b所示,该方法包括:
S301、将文字图片输入至识别模型中。
S302、通过所述首个特征提取单元中的混合感知映射单元的至少一个特征提取层,对所述文字图片进行特征提取,得到第一特征图;所述至少两个特征提取单元中首个特征提取单元包括混合感知映射单元,所述至少两个特征提取单元中其他特征提取单元包括混合感知映射单元和空间感知聚合单元。
特征提取层是指混合感知映射单元中用于特征提取的模块。混合感知映射单元中包括至少两个特征提取层,各特征提取层串联连接,各特征提取层得到的特征提取结果的尺寸相同。特征提取层至少包括卷积和归一化,以实现对文字图片的特征提取功能。串接的至少两个特征提取层中,除末个特征提取层外的其他特征提取层中还包括激活函数,以学习除末个特征提取层外的其他特征提取层的特征提取结果中的非线性关系。末个特征提取层是指混合感知映射单元中串联连接的特征提取层中的最后一个特征提取层。第一特征图是指文字图片经过至少两个特征提取层后,末个特征提取层的输出结果。
具体的,在首个特征提取单元中,通过混合感知映射单元中的至少两个特征提取层,对文字图片进行特征提取,将得到的特征提取结果确定为第一特征图。
S303、基于通道注意力机制对所述第一特征图进行特征提取,获取所述第一特征图的全局有效特征,其中,所述通道注意力机制用于关注所述文字图片中的前景信息,并忽略所述文字图片中的背景信息。
注意力,简单而言就是在众多信息中把注意力集中放在重要的点上,选出关键信息,而忽略其他不重要的信息。通道注意力机制简单的理解就是对不同通道赋予不同的权重,从而可以增强对关键通道的注意力。在本申请中,关键通道为前景信息对应的通道,相对于背景信息对应的通道,具有更高的权重,因此,通过注意力机制能够关注文字图片中的前景信息,忽略文字图片的背景信息。示例性的,在深度学习网络中,每一张文字图片初始会由(R,G,B)三通道表示出来,通过对(R,G,B)三通道赋予不同的权重,能够将文字图片中的前景信息和背景信息进行区分,以提高对文字图片中的前景信息的关注。
具体的,基于通道注意力机制,对第一特征图,在空间维度上通过最大池化的方式进行降维至1×1维,对降维后的特征图经过卷积提取特征,特征提取后的特征图与降维后的特征图的尺寸相同,通过激活函数学习通道维度上的非线性关系,得到第一特征图的全局有效特征。其中,在空间维度上通过最大池化的方式进行降维,相比于平均池化的方式能够更好地保留前景信息与背景信息之间的差异,为文字图片的识别提供基础。激活函数可以根据实际情况进行设置。
S304、基于空间注意力机制对所述第一特征图进行特征提取,获取所述第一特征图的全局关键位置特征,其中,所述空间注意力机制用于关注所述文字图片中文字的位置,并忽略却所述文字图片中文字不在的位置。
空间注意力机制可以理解为将文字图片中的空间信息变换到另一个空间中并保留关键空间信息,也可以理解为,通过空间注意力机制,能够将文字图片中的空间信息进行对应的空间变换,能够找到文字图片中需要被关注的位置,将关键的空间信息提取出来。在本申请中,文字图片中需要被关注的区域为存在文字的位置,对于不存在文字的位置可以忽略,因此,空间注意力机制关注文字图片中文字的位置,忽略文字图片中文字不在的位置。
具体的,基于空间注意力机制,对第一特征图,在通道维度上通过最大池化的方式进行降维至1维,通过sigmoid激活函数对降维后的特征图进行归一化,得到第一特征图的全局关键位置特征。在通道维度上通过最大池化的方式进行降维,相比于平均池化的方式能够更好地保留存在文字的位置的特征与不存在文字的位置的特征之间的差异,为文字图片的识别提供基础。
S305、将所述第一特征图、所述第一特征图的全局有效特征和所述第一特征图的全局关键位置特征进行融合,得到所述首个特征提取单元的第一融合特征。
首个特征提取单元的第一融合特征是指第一特征图、第一特征图的全局有效特征和第一特征图的全局关键位置特征融合后得到的特征。
具体的,将所述第一特征图、第一特征图的全局有效特征和第一特征图的全局关键位置特征进行融合,得到的融合结果确定为首个特征提取单元的第一融合特征。
示例性的,可以将第一特征图、第一特征图的全局有效特征和第一特征图的全局关键位置特征中处于相同位置的特征元素相乘,将得到的结果确定为首个特征提取单元的第一融合特征。
S306、根据所述第一融合特征确定所述首个特征提取单元的中间全局特征,执行步骤S307。
具体的,将第一融合特征与混合感知映射单元的输入特征进行融合,得到融合结果,通过激活函数学习相加结果的非线性关系,得到首个特征提取单元的中间全局特征。其中,首个特征提取单元中的首个混合感知映射单元的输入特征为文字图片,其他混合感知映射单元的输入特征为上一混合感知映射单元的输出结果。示例性的,可以将第一融合特征与混合感知映射单元的输入特征相加,从而实现融合。
S307、通过所述其他特征提取单元中的混合感知映射单元对串接的前一特征提取单元的中间全局特征进行特征提取,得到所述其他特征提取单元的中间全局特征。
S308、通过首个其他特征提取单元中的空间感知聚合单元对所述首个特征提取单元的中间全局特征进行特征提取,得到所述首个其他特征提取单元的中间局部特征。
S309、将所述首个其他特征提取单元的中间局部特征与所述首个其他特征提取单元的中间全局特征进行融合,得到所述首个其他特征提取单元的中间融合特征。
S310、通过除首个其他特征提取单元以外的其他特征提取单元中的空间感知聚合单元,对串接的前一特征提取单元的中间融合特征进行特征提取,得到除首个其他特征提取单元以外的其他特征提取单元的中间局部特征。
S311、将除首个其他特征提取单元以外的其他特征提取单元的中间局部特征与除首个其他特征提取单元以外的其他特征提取单元的中间全局特征进行融合,得到除首个其他特征提取单元以外的其他特征提取单元的中间融合特征。
S312、将末个其他特征提取单元的中间融合特征确定为目标特征。
S313、通过所述识别模型的分类层,对所述目标特征进行分类,确定所述文字图片对应的文字识别结果。
本发明实施例的技术方案,通过首个特征提取单元中混合感知映射单元的至少一个特征提取层,获取第一特征图,基于通道注意力机制和空间注意力机制分别对第一特征图进行特征提取,并将特征提取结果进行融合,得到首个特征提取单元的第一融合特征,将不同注意力机制得到的特征进行融合,能够增大重要特征与冗余特征之间的差异性,也就是将关注的特征进行加强,使混合感知映射单元得到的中间全局特征中包含更多的重要信息,从而提高文字识别的准确率。现有技术中,注意力机制通常使用平均池化进行降维,其中平均池化用于求取前景信息和背景信息的平均值,将降低前景信息的比重,不利于对文字图片中的文字进行识别,对此,本申请通道注意力机制和空间注意力机制中,采用最大池化的方式进行降维,可以最大程度保留前景信息以及存在文字的位置的特征,以提高文字识别的准确率。
在上述实施例的基础上,还包括:通过所述其他特征提取单元中的池化层对所述串接的前一特征提取单元的中间全局特征进行尺寸调整,更新中间全局特征,以使更新后的中间全局特征和所述其他特征提取单元的中间局部特征的尺寸相同;所述通过所述其他特征提取单元中的混合感知映射单元对串接的前一特征提取单元的中间全局特征进行特征提取,得到所述其他特征提取单元的中间全局特征,包括:通过所述其他特征提取单元中的混合感知映射单元的至少一个特征提取层,对所述更新后的中间全局特征进行特征提取,得到第二特征图;通过至少一个特征提取层,对所述更新后的中间全局特征进行特征提取,得到第二特征图;基于通道注意力机制对所述第二特征图进行特征提取,获取所述第二特征图的全局有效特征;基于空间注意力机制对所述第二特征图进行特征提取,获取所述第二特征图的全局关键位置特征;将所述第二特征图、所述第二特征图全局有效特征和所述第二特征图全局关键位置特征进行融合,得到所述其他特征提取单元的第二融合特征;根据所述第二融合特征确定所述其他特征提取单元的中间全局特征。
尺寸调整可以是对串接的前一特征提取单元的中间全局特征的尺寸进行缩小。
具体的,其他特征提取单元中,通过最大池化的方式对对串接的前一特征提取单元的中间全局特征进行尺寸调整,将尺寸调整后的特征作为更新后的中间全局特征。更新后的中间全局特征与其他特征单元的中间局部特征的尺寸相同。
第二特征图是指更新后的中间全局特征经过至少一个特征提取层后,末个特征提取层输出的结果。
在其他特征提取单元中的混合感知映射单元中,通过至少两个特征提取层,对更新后的中间全局特征进行特征提取,将末个特征提取层得到的特征提取结果确定为第二特征图。
基于通道注意力机制,对第二特征图,在空间维度上通过最大池化的方式进行降维至1×1维,对降维后的特征图经过卷积提取特征,特征提取后的特征图与降维后的特征图的尺寸相同,通过激活函数学习通道维度上的非线性关系,得到第二特征图的全局有效特征。
基于空间注意力机制,对第二特征图,在通道维度上通过最大池化的方式进行降维至1维,通过sigmoid激活函数对降维后的特征图进行归一化,得到第二特征图的全局关键位置特征。
其他特征提取单元的第二融合特征是指将第二特征图、第二特征图全局有效特征和第二特征图全局关键位置特征融合后得到的特征。
将第二融合特征与混合感知映射单元的输入特征进行融合,得到融合结果,通过激活函数学习相加结果的非线性关系,得到其他特征提取单元的中间全局特征。其中,其他特征提取单元中的首个混合感知映射单元的输入特征为对串接的前一特征提取单元的中间全局特征,其他混合感知映射单元的输入特征为上一混合感知映射单元的输出结果。示例性的,可以将第二融合特征与混合感知映射单元的输入特征相加,从而实现融合。
通过其他特征提取单元中的池化层对所述串接的前一特征提取单元的中间全局特征进行尺寸调整,更新中间全局特征,在混合感知映射单元中,通过至少两个特征提取层,对更新后的中间全局特征进行特征提取,获取第二特征图,基于通道注意力机制和空间注意力机制分别对第二特征图进行特征提取,并将特征提取结果进行融合,得到其他特征提取单元的第二融合特征,能够在串接的前一特征提取单元的中间全局特征的基础上,获取不同尺寸的中间全局特征,增加了对文字图像进行特征提取的深度,提高了识别模型对文字图像进行特征提取的能力,从而提高文字识别的准确率。
实施例四
图4a和图4b为本发明实施例四提供的一种象形文字识别方法的流程图,本实施例在上述实施例的基础上,对通过首个其他特征提取单元中空间感知聚合单元对所述首个特征提取单元的中间全局特征进行特征提取,得到所述首个其他特征提取单元的中间局部特征,进行了细化。如图4a和图4b所示,该方法包括:
S401、将文字图片输入至识别模型中。
S402、通过所述首个特征提取单元中的混合感知映射单元对所述文字图片进行特征提取,得到所述首个特征提取单元的中间全局特征;所述至少两个特征提取单元中首个特征提取单元包括混合感知映射单元,所述至少两个特征提取单元中其他特征提取单元包括混合感知映射单元和空间感知聚合单元。
S403、通过所述其他特征提取单元中的混合感知映射单元对串接的前一特征提取单元的中间全局特征进行特征提取,得到所述其他特征提取单元的中间全局特征。
S404、通过首个其他特征提取单元中的空间感知聚合单元对所述首个特征提取单元的中间全局特征进行特征提取,得到所述首个其他特征提取单元的中间局部特征。
S405、将所述首个其他特征提取单元的中间局部特征与所述首个其他特征提取单元的中间全局特征进行融合,得到所述首个其他特征提取单元的中间融合特征,执行步骤S406。
S406、通过首个其他特征提取单元中的空间感知聚合单元,基于空间注意力机制对所述首个特征提取单元的中间全局特征进行特征提取,获取所述第一局部关键细节特征。
第一局部关键细节特征是指首个其他特征提取单元中的空间感知聚合单元,基于空间注意力机制对中间全局特征进行特征提取后得到的特征。
具体的,基于空间注意力机制,首个特征提取单元的中间全局特征,在通道维度上通过最大池化的方式对首个特征提取单元的中间全局特征进行降维至1维,通过sigmoid激活函数对降维后的特征图进行归一化,得到第一特征图的全局关键位置特征。
S407、对所述第一局部关键细节特征进行尺寸调整,得到所述首个其他特征提取单元的中间局部特征,以使所述首个其他特征提取单元的中间局部特征和所述首个其他特征提取单元的中间全局特征的尺寸相同。
具体的,对第一局部关键细节特征进行尺寸调整,使首个其他特征提取单元的中间局部特征和首个其他特征提取单元的中间全局特征的尺寸相同,并将调整后的特征确定为首个其他特征提取单元的中间局部特征。其中,对第一局部关键细节特征进行尺寸调整,可以是将第一局部关键细节特征进行尺寸缩小,具体的,可以通过卷积的方式进行尺寸调整,也可以通过最大池化的方式进行尺寸缩小。
S408、将除首个其他特征提取单元以外的其他特征提取单元的中间局部特征与除首个其他特征提取单元以外的其他特征提取单元的中间全局特征进行融合,得到除首个其他特征提取单元以外的其他特征提取单元的中间融合特征。
S409、将末个其他特征提取单元的中间融合特征确定为目标特征。
S410、通过所述识别模型的分类层,对所述目标特征进行分类,确定所述文字图片对应的文字识别结果。
本发明实施例的技术方案,通过首个其他特征提取单元中的空间感知聚合单元,基于空间注意力机制对首个特征提取单元的中间全局特征进行特征提取,得到第一局部关键细节特征,对第一局部关键细节特征进行尺寸调整,得到首个其他特征提取单元的中间局部特征,实现特征尺寸统一,从而实现特征融合,能够关注首个特征提取单元的中间全局特征中的文字的位置,将文字的位置的特征强化,以提高文字识别的准确率。
在上述实施例的基础上,所述通过除首个其他特征提取单元以外的其他特征提取单元中的空间感知聚合单元,对串接的前一特征提取单元的中间融合特征进行特征提取,得到除首个其他特征提取单元以外的其他特征提取单元的中间局部特征,包括:通过除首个其他特征提取单元以外的其他特征提取单元中的空间感知聚合单元,基于空间注意力机制对所述串接的前一特征提取单元的中间融合特征进行特征提取,获取所述第二局部关键细节特征;对所述第二全局关键位置特征进行尺寸调整,得到除首个其他特征提取单元以外的其他特征提取单元的中间局部特征,以使所述除首个其他特征提取单元以外的其他特征提取单元的中间局部特征和所述除首个其他特征提取单元以外的其他特征提取单元的中间全局特征的尺寸相同。
第二局部关键细节特征是指除首个其他特征提取单元以外的其他特征提取单元中空间感知聚合单元,基于空间注意力机制对串接的前一特征提取单元的中间融合特征进行特征提取后得到的特征。
具体的,基于空间注意力机制,除首个其他特征提取单元以外的其他特征提取单元的空间感知聚合单元,在通道维度上通过最大池化的方式对串接的前一特征提取单元的中间融合特征进行降维至1维,通过sigmoid激活函数对降维后的特征图进行归一化,得到第二特征图的全局关键位置特征。
对第二局部关键细节特征进行尺寸调整,使除首个其他特征提取单元以外的其他特征提取单元的中间局部特征和除首个其他特征提取单元以外的其他特征提取单元的中间全局特征的尺寸相同,并将调整后的特征确定为除首个其他特征提取单元以外的其他特征提取单元的中间局部特征。其中,对第二局部关键细节特征进行尺寸调整,可以是对第二局部关键细节特征进行尺寸缩小,具体的,可以通过卷积的方式进行尺寸缩小,也可以通过最大池化的方式进行尺寸缩小。
通过除首个其他特征提取单元以外的其他特征提取单元中的空间感知聚合单元,基于空间注意力机制对串接的前一特征提取单元的中间融合特征进行特征提取,得到第二局部关键细节特征,对第二局部关键细节特征进行尺寸调整,得到除首个其他特征提取单元以外的其他特征提取单元的中间局部特征,实现特征尺寸统一,从而能够将串接的前一特征提取单元的中间融合特征传递到当前特征提取单元中,最大程度的保留前一特征提取单元的中间融合特征中的信息,以提高文字识别的准确率。
实施例五
图5为本发明实施例五提供的一种象形文字识别方法的应用场景示意图。如图5所示,该方法的实现过程如下:
将文字图片输入至识别模型中。
其中,文字图片为东巴象形文字的图片,一张文字图片中包括至少一个东巴象形文字。识别模型中串接有至少两个特征提取单元,首个特征提取单元包括混合感知映射单元,其他特征提取单元包括混合感知映射单元和空间感知聚合单元。混合感知映射单元用于获取全局有效特征和全局关键位置特征;空间感知聚合单元用于获取局部关键细节特征;不同特征提取单元用于提取不同尺寸的特征。
通过首个特征提取单元中的混合感知映射单元的至少一个特征提取层,对文字图片进行特征提取,得到第一特征图。
基于通道注意力机制,对第一特征图进行特征提取,获取第一特征图的全局有效特征,其中,所述通道注意力机制用于关注所述文字图片中的前景信息,并忽略所述文字图片中的背景信息。
基于空间注意力机制对第一特征图进行特征提取,获取第一特征图的全局关键位置特征,其中,所述空间注意力机制用于关注所述文字图片中文字的位置,并忽略却所述文字图片中文字不在的位置。
将第一特征图、第一特征图全局有效特征和第一特征图全局关键位置特征相乘,得到所述首个特征提取单元的第一融合特征。
根据第一融合特征确定首个特征提取单元的中间全局特征。
具体的,将第一融合特征与混合感知映射单元的输入特征相加,得到相加结果,通过激活函数学习相加结果的非线性关系,得到首个特征提取单元的中间全局特征。其中,首个特征提取单元中的首个混合感知映射单元的输入特征为文字图片,其他混合感知映射单元的输入特征为上一混合感知映射单元的输出结果。
其他特征提取单元中的池化层,通过最大池化的方式对串接的前一特征提取单元的中间全局特征进行尺寸缩小,更新中间全局特征,以使更新后的中间全局特征和其他特征提取单元的中间局部特征的尺寸相同。
通过其他特征提取单元中的混合感知映射单元中的至少一个特征提取层,对更新后的中间全局特征进行特征提取,得到第二特征图。
基于通道注意力机制对第二特征图进行特征提取,获取第二特征图的全局有效特征。
将第二特征图、第二特征图全局有效特征和第二特征图全局关键位置特征相加,得到其他特征提取单元的第二融合特征。
根据第二融合特征确定其他特征提取单元的中间全局特征。
将第二融合特征与混合感知映射单元的输入特征相加,得到相加结果,通过激活函数学习相加结果的非线性关系,得到其他特征提取单元的中间全局特征。其中,其他特征提取单元中的首个混合感知映射单元的输入特征为对串接的前一特征提取单元的中间全局特征,其他混合感知映射单元的输入特征为上一混合感知映射单元的输出结果。
通过首个其他特征提取单元中的空间感知聚合单元,基于空间注意力机制对首个特征提取单元的中间全局特征进行特征提取,获取第一局部关键细节特征。
对第一局部关键细节特征进行尺寸缩小,得到首个其他特征提取单元的中间局部特征,以使首个其他特征提取单元的中间局部特征和首个其他特征提取单元的中间全局特征的尺寸相同。
将所述首个其他特征提取单元的中间局部特征与所述首个其他特征提取单元的中间全局特征相加,得到所述首个其他特征提取单元的中间融合特征;
通过除首个其他特征提取单元以外的其他特征提取单元中的空间感知聚合单元,基于空间注意力机制对串接的前一特征提取单元的中间融合特征进行特征提取,获取第二局部关键细节特征。
对第二全局关键位置特征进行尺寸缩小,得到除首个其他特征提取单元以外的其他特征提取单元的中间局部特征,以使除首个其他特征提取单元以外的其他特征提取单元的中间局部特征和除首个其他特征提取单元以外的其他特征提取单元的中间全局特征的尺寸相同。
将除首个其他特征提取单元以外的其他特征提取单元的中间局部特征与除首个其他特征提取单元以外的其他特征提取单元的中间全局特征相加,得到除首个其他特征提取单元以外的其他特征提取单元的中间融合特征。
将末个其他特征提取单元的中间融合特征确定为目标特征。
通过所述识别模型的分类层,对所述目标特征进行分类,确定所述文字图片对应的文字识别结果。其中,分类层包括全局平均池化层和全连接层。
本发明实施例的技术方案,将文字图片输入至识别模型中,通过识别模型中串接的至少两个特征提取单元对文字图片进行特征提取,得到目标特征,不同特征提取单元用于提取不同尺寸的特征,能够获取文字图片的在不同尺寸下的特征,增加了提取的文字图片的特征的丰富性,同时,特征提取单元包括混合感知映射单元和/或空间感知聚合单元,混合感知映射单元用于获取全局有效特征和全局关键位置特征,空间感知聚合单元用于获取局部关键细节特征,使目标特征在关注全局有效特征和全局关键位置特征的同时,增加了对局部关键细节特征的关注,提高特征的丰富性,局部关键细节特征保留了更多的细节信息,能够在文字轮廓近乎相同,针对在字形的细节方面存在微小区别的图像,有效提取细节特征,从而在通过识别模型的分类层,对目标特征进行分类,确定文字图片对应的文字识别结果时,能够提高文字识别的准确率。
实施例六
图6为本发明实施例六提供的一种象形文字识别装置的结构示意图。如图3所示,该装置包括:输入模块601、目标特征获取模块602和结果确定模块603。
其中,输入模块601,用于将文字图片输入至识别模型中;
目标特征获取模块602,用于通过所述识别模型的串接的至少两个特征提取单元对文字图片进行特征提取,得到目标特征;其中,所述特征提取单元包括混合感知映射单元和/或空间感知聚合单元;混合感知映射单元用于获取局部有效特征和局部关键细节特征;空间感知聚合单元用于获取全局关键位置特征;不同特征提取单元用于提取不同尺寸的特征;
结果确定模块603,用于通过所述识别模型的分类层,对所述目标特征进行分类,确定所述文字图片对应的文字识别结果。
本发明实施例的技术方案,将文字图片输入至识别模型中,通过识别模型中串接的至少两个特征提取单元对文字图片进行特征提取,得到目标特征,不同特征提取单元用于提取不同尺寸的特征,能够获取文字图片的在不同尺寸下的特征,增加了提取的文字图片的特征的丰富性,同时,特征提取单元包括混合感知映射单元和/或空间感知聚合单元,混合感知映射单元用于获取全局有效特征和全局关键位置特征,空间感知聚合单元用于获取局部关键细节特征,使目标特征在关注全局有效特征和全局关键位置特征的同时,增加了对局部关键细节特征的关注,提高特征的丰富性,局部关键细节特征保留了更多的细节信息,能够在文字轮廓近乎相同,针对在字形的细节方面存在微小区别的图像,有效提取细节特征,从而在通过识别模型的分类层,对目标特征进行分类,确定文字图片对应的文字识别结果时,能够提高文字识别的准确率。
可选的,所述至少两个特征提取单元中首个特征提取单元包括混合感知映射单元,所述至少两个特征提取单元中其他特征提取单元包括混合感知映射单元和空间感知聚合单元;
目标特征获取模块602,包括:
第一中间全局特征确定单元,用于通过所述首个特征提取单元中的混合感知映射单元对所述文字图片进行特征提取,得到所述首个特征提取单元的中间全局特征;
第二中间全局特征确定单元,用于通过所述其他特征提取单元中的混合感知映射单元对串接的前一特征提取单元的中间全局特征进行特征提取,得到所述其他特征提取单元的中间全局特征;
第一中间局部特征确定单元,用于通过首个其他特征提取单元中空的间感知聚合单元对所述首个特征提取单元的中间全局特征进行特征提取,得到所述首个其他特征提取单元的中间局部特征;
第一中间融合特征确定单元,用于将所述首个其他特征提取单元的中间局部特征与所述首个其他特征提取单元的中间全局特征进行融合,得到所述首个其他特征提取单元的中间融合特征;
第二中间局部特征确定单元,用于通过除首个其他特征提取单元以外的其他特征提取单元中的空间感知聚合单元,对串接的前一特征提取单元的中间融合特征进行特征提取,得到除首个其他特征提取单元以外的其他特征提取单元的中间局部特征;
第二中间融合特征确定单元,用于将除首个其他特征提取单元以外的其他特征提取单元的中间局部特征与除首个其他特征提取单元以外的其他特征提取单元的中间全局特征进行融合,得到除首个其他特征提取单元以外的其他特征提取单元的中间融合特征;
目标特征获取单元将末个其他特征提取单元的中间融合特征确定为目标特征。
可选的,第一中间全局特征确定单元,包括:
第一特征图确定子单元,用于通过所述首个特征提取单元中的混合感知映射单元的至少一个特征提取层,对所述文字图片进行特征提取,得到第一特征图;
第一全局有效特征获取子单元,用于基于通道注意力机制对所述第一特征图进行特征提取,获取所述第一特征图的全局有效特征,其中,所述通道注意力机制用于关注所述文字图片中的前景信息,并忽略所述文字图片中的背景信息;
第一全局关键位置特征获取子单元,用于基于空间注意力机制对所述第一特征图进行特征提取,获取所述第一特征图的全局关键位置特征,其中,所述空间注意力机制用于关注所述文字图片中文字的位置,并忽略却所述文字图片中文字不在的位置;
第一融合特征获取子单元,用于将所述第一特征图、所述第一特征图全局有效特征和所述第一特征图全局关键位置特征进行融合,得到所述首个特征提取单元的第一融合特征;
第一中间全局特征获取子单元,用于根据所述第一融合特征确定所述首个特征提取单元的中间全局特征。
可选的,目标特征获取模块602,还包括:
尺寸调整单元,用于通过所述其他特征提取单元中的池化层对所述串接的前一特征提取单元的中间全局特征进行尺寸调整,更新中间全局特征,以使更新后的中间全局特征和所述其他特征提取单元的中间局部特征的尺寸相同;
第二中间全局特征确定单元,包括:
第二特征图获取子单元,用于通过至少一个特征提取层,对所述更新后的中间全局特征进行特征提取,得到第二特征图;
第二全局有效特征获取子单元,用于基于通道注意力机制对所述第二特征图进行特征提取,获取所述第二特征图的全局有效特征;
第二全局关键位置特征获取子单元,用于基于空间注意力机制对所述第二特征图进行特征提取,获取所述第二特征图的全局关键位置特征;
第二融合特征获取子单元,用于将所述第二特征图、所述第二特征图全局有效特征和所述第二特征图全局关键位置特征进行融合,得到所述其他特征提取单元的第二融合特征;
第二全局特征获取子单元,用于根据所述第二融合特征确定所述其他特征提取单元的中间全局特征。
可选的,第一中间局部特征确定单元,包括:
第一局部关键位置获取子单元,用于通过首个其他特征提取单元中空间感知聚合单元,基于空间注意力机制对所述首个特征提取单元的中间全局特征进行特征提取,获取所述第一局部关键细节特征;
尺寸调整子单元,用于对所述第一局部关键细节特征进行尺寸调整,得到所述首个其他特征提取单元的中间局部特征,以使所述首个其他特征提取单元的中间局部特征和所述首个其他特征提取单元的中间全局特征的尺寸相同。
可选的,第二中间局部特征确定单元,包括:
第二局部关键位置获取子单元,用于通过除首个其他特征提取单元以外的其他特征提取单元中的空间感知聚合单元,基于空间注意力机制对所述串接的前一特征提取单元的中间融合特征进行特征提取,获取所述第二局部关键细节特征;
第三尺寸调整子单元,用于对所述第二全局关键位置特征进行尺寸调整,得到所述除首个其他特征提取单元以外的其他特征提取单元的中间局部特征,以使所述除首个其他特征提取单元以外的其他特征提取单元的中间局部特征和所述除首个其他特征提取单元以外的其他特征提取单元的中间全局特征的尺寸相同。
可选的,所述文字图片为东巴象形文字的图片,一张文字图片中包括至少一个东巴象形文字。
本发明实施例所提供的象形文字识别装置可执行本发明任意实施例所提供的象形文字识别方法,具备执行方法相应的功能模块和有益效果。
实施例七
图7示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
如图7所示,电子设备10包括至少一个处理器11,以及与至少一个处理器11通信连接的存储器,如只读存储器(ROM)12、随机访问存储器(RAM)13等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序,来执行各种适当的动作和处理。在RAM 13中,还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。
电子设备10中的多个部件连接至I/O接口15,包括:输入单元16,例如键盘、鼠标等;输出单元17,例如各种类型的显示器、扬声器等;存储单元18,例如磁盘、光盘等;以及通信单元19,例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理,例如象形文字识别方法。
在一些实施例中,象形文字识别方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元18。在一些实施例中,计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时,可以执行上文描述的象形文字识别方法的一个或多个步骤。备选地,在其他实施例中,处理器11可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行象形文字识别方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS(VirtualPrivate Server,虚拟专用服务器)服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (10)
1.一种象形文字识别方法,其特征在于,包括:
将文字图片输入至识别模型中;
通过所述识别模型的串接的至少两个特征提取单元对文字图片进行特征提取,得到目标特征;其中,所述特征提取单元包括混合感知映射单元和/或空间感知聚合单元;混合感知映射单元用于获取全局有效特征和全局关键位置特征;空间感知聚合单元用于获取局部关键细节特征;不同特征提取单元用于提取不同尺寸的特征;
通过所述识别模型的分类层,对所述目标特征进行分类,确定所述文字图片对应的文字识别结果。
2.根据权利要求1所述的方法,其特征在于,所述至少两个特征提取单元中的首个特征提取单元包括混合感知映射单元,所述至少两个特征提取单元中的其他特征提取单元包括混合感知映射单元和空间感知聚合单元;
所述通过所述识别模型的串接的至少两个特征提取单元对文字图片进行特征提取,得到目标特征,包括:
通过所述首个特征提取单元中的混合感知映射单元对所述文字图片进行特征提取,得到所述首个特征提取单元的中间全局特征;
通过所述其他特征提取单元中的混合感知映射单元对串接的前一特征提取单元的中间全局特征进行特征提取,得到所述其他特征提取单元的中间全局特征;
通过首个其他特征提取单元中的空间感知聚合单元对所述首个特征提取单元的中间全局特征进行特征提取,得到所述首个其他特征提取单元的中间局部特征;
将所述首个其他特征提取单元的中间局部特征与所述首个其他特征提取单元的中间全局特征进行融合,得到所述首个其他特征提取单元的中间融合特征;
通过除首个其他特征提取单元以外的其他特征提取单元中的空间感知聚合单元,对串接的前一特征提取单元的中间融合特征进行特征提取,得到除首个其他特征提取单元以外的其他特征提取单元的中间局部特征;
将除首个其他特征提取单元以外的其他特征提取单元的中间局部特征与除首个其他特征提取单元以外的其他特征提取单元的中间全局特征进行融合,得到除首个其他特征提取单元以外的其他特征提取单元的中间融合特征;
将末个其他特征提取单元的中间融合特征确定为目标特征。
3.根据权利要求2所述的方法,其特征在于,所述通过所述首个特征提取单元中的混合感知映射单元对所述文字图片进行特征提取,得到所述首个特征提取单元的中间全局特征,包括:
通过所述首个特征提取单元中的混合感知映射单元的至少一个特征提取层,对所述文字图片进行特征提取,得到第一特征图;
基于通道注意力机制对所述第一特征图进行特征提取,获取所述第一特征图的全局有效特征,其中,所述通道注意力机制用于关注所述文字图片中的前景信息,并忽略所述文字图片中的背景信息;
基于空间注意力机制对所述第一特征图进行特征提取,获取所述第一特征图的全局关键位置特征,其中,所述空间注意力机制用于关注所述文字图片中文字的位置,并忽略却所述文字图片中文字不在的位置;
将所述第一特征图、所述第一特征图的全局有效特征和所述第一特征图的全局关键位置特征进行融合,得到所述首个特征提取单元的第一融合特征;
根据所述第一融合特征确定所述首个特征提取单元的中间全局特征。
4.根据权利要求2所述的方法,其特征在于,还包括:通过所述其他特征提取单元中的池化层对所述串接的前一特征提取单元的中间全局特征进行尺寸调整,更新中间全局特征,以使更新后的中间全局特征和所述其他特征提取单元的中间局部特征的尺寸相同;
所述通过所述其他特征提取单元中的混合感知映射单元对串接的前一特征提取单元的中间全局特征进行特征提取,得到所述其他特征提取单元的中间全局特征,包括:
通过所述其他特征提取单元中的混合感知映射单元的至少一个特征提取层,对所述更新后的中间全局特征进行特征提取,得到第二特征图;
基于通道注意力机制对所述第二特征图进行特征提取,获取所述第二特征图的全局有效特征;
基于空间注意力机制对所述第二特征图进行特征提取,获取所述第二特征图的全局关键位置特征;
将所述第二特征图、所述第二特征图全局有效特征和所述第二特征图全局关键位置特征进行融合,得到所述其他特征提取单元的第二融合特征;
根据所述第二融合特征确定所述其他特征提取单元的中间全局特征。
5.根据权利要求2所述的方法,其特征在于,所述通过所述首个其他特征提取单元中的空间感知聚合单元对所述首个特征提取单元的中间全局特征进行特征提取,得到所述首个其他特征提取单元的中间局部特征,包括:
通过所述首个其他特征提取单元中的空间感知聚合单元,基于空间注意力机制对所述首个特征提取单元的中间全局特征进行特征提取,获取所述第一局部关键细节特征;
对所述第一局部关键细节特征进行尺寸调整,得到所述首个其他特征提取单元的中间局部特征,以使所述首个其他特征提取单元的中间局部特征和所述首个其他特征提取单元的中间全局特征的尺寸相同。
6.根据权利要求2所述的方法,其特征在于,所述通过除首个其他特征提取单元以外的其他特征提取单元中的空间感知聚合单元,对串接的前一特征提取单元的中间融合特征进行特征提取,得到除首个其他特征提取单元以外的其他特征提取单元的中间局部特征,包括:
通过除首个其他特征提取单元以外的其他特征提取单元中的空间感知聚合单元,基于空间注意力机制对所述串接的前一特征提取单元的中间融合特征进行特征提取,获取所述第二局部关键细节特征;
对所述第二全局关键位置特征进行尺寸调整,得到所述除首个其他特征提取单元以外的其他特征提取单元的中间局部特征,以使所述除首个其他特征提取单元以外的其他特征提取单元的中间局部特征和所述除首个其他特征提取单元以外的其他特征提取单元的中间全局特征的尺寸相同。
7.根据权利要求1所述的方法,其特征在于,所述文字图片为东巴象形文字的图片,一张文字图片中包括至少一个东巴象形文字。
8.一种象形文字识别装置,其特征在于,包括:
输入模块,用于将文字图片输入至识别模型中;
目标特征获取模块,用于通过所述识别模型的串接的至少两个特征提取单元对文字图片进行特征提取,得到目标特征;其中,所述特征提取单元包括混合感知映射单元和/或空间感知聚合单元;混合感知映射单元用于获取局部有效特征和局部关键细节特征;空间感知聚合单元用于获取局部关键细节特征;不同特征提取单元用于提取不同尺寸的特征;
结果确定模块,用于通过所述识别模型的分类层,对所述目标特征进行分类,确定所述文字图片对应的文字识别结果。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的象形文字识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的象形文字识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210986564.1A CN115171128A (zh) | 2022-08-17 | 2022-08-17 | 一种象形文字识别方法、装置、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210986564.1A CN115171128A (zh) | 2022-08-17 | 2022-08-17 | 一种象形文字识别方法、装置、设备和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115171128A true CN115171128A (zh) | 2022-10-11 |
Family
ID=83479449
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210986564.1A Pending CN115171128A (zh) | 2022-08-17 | 2022-08-17 | 一种象形文字识别方法、装置、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115171128A (zh) |
-
2022
- 2022-08-17 CN CN202210986564.1A patent/CN115171128A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112966522B (zh) | 一种图像分类方法、装置、电子设备及存储介质 | |
CN114155543B (zh) | 神经网络训练方法、文档图像理解方法、装置和设备 | |
EP4040401A1 (en) | Image processing method and apparatus, device and storage medium | |
CN113642431B (zh) | 目标检测模型的训练方法及装置、电子设备和存储介质 | |
US11861919B2 (en) | Text recognition method and device, and electronic device | |
CN113392253B (zh) | 视觉问答模型训练及视觉问答方法、装置、设备及介质 | |
US20220406090A1 (en) | Face parsing method and related devices | |
CN113591918B (zh) | 图像处理模型的训练方法、图像处理方法、装置和设备 | |
US20240193923A1 (en) | Method of training target object detection model, method of detecting target object, electronic device and storage medium | |
EP4113376A1 (en) | Image classification model training method and apparatus, computer device, and storage medium | |
CN114429633B (zh) | 文本识别方法、模型的训练方法、装置、电子设备及介质 | |
US20240070454A1 (en) | Lightweight model training method, image processing method, electronic device, and storage medium | |
EP4123595A2 (en) | Method and apparatus of rectifying text image, training method and apparatus, electronic device, and medium | |
CN111444906B (zh) | 基于人工智能的图像识别方法和相关装置 | |
CN113887615A (zh) | 图像处理方法、装置、设备和介质 | |
CN113902010A (zh) | 分类模型的训练方法和图像分类方法、装置、设备和介质 | |
US20230245429A1 (en) | Method and apparatus for training lane line detection model, electronic device and storage medium | |
CN114332590A (zh) | 联合感知模型训练、联合感知方法、装置、设备和介质 | |
CN112784102B (zh) | 视频检索方法、装置和电子设备 | |
CN115577106B (zh) | 基于人工智能的文本分类方法、装置、设备和介质 | |
US20230186599A1 (en) | Image processing method and apparatus, device, medium and program product | |
CN114842482B (zh) | 一种图像分类方法、装置、设备和存储介质 | |
US20220382991A1 (en) | Training method and apparatus for document processing model, device, storage medium and program | |
CN114972910B (zh) | 图文识别模型的训练方法、装置、电子设备及存储介质 | |
CN115439916A (zh) | 面部识别方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |