CN113705322A - 基于门限图神经网络的手写汉字识别方法和装置 - Google Patents
基于门限图神经网络的手写汉字识别方法和装置 Download PDFInfo
- Publication number
- CN113705322A CN113705322A CN202110655846.9A CN202110655846A CN113705322A CN 113705322 A CN113705322 A CN 113705322A CN 202110655846 A CN202110655846 A CN 202110655846A CN 113705322 A CN113705322 A CN 113705322A
- Authority
- CN
- China
- Prior art keywords
- chinese character
- neural network
- matrix
- time sequence
- character recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 110
- 238000000034 method Methods 0.000 title claims abstract description 46
- 239000013598 vector Substances 0.000 claims abstract description 170
- 239000011159 matrix material Substances 0.000 claims abstract description 163
- 230000009466 transformation Effects 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 15
- 230000015654 memory Effects 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 10
- 238000010586 diagram Methods 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 4
- 230000001131 transforming effect Effects 0.000 claims description 4
- 239000000284 extract Substances 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 210000004027 cell Anatomy 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明提供一种基于门限图神经网络的手写汉字识别方法和装置,其中方法包括:确定待识别汉字的汉字节点矩阵以及空间信息关系矩阵;所述汉字节点矩阵中的各汉字节点为所述待识别汉字的书写视频中每一时刻书写位置的坐标;将所述汉字节点矩阵和所述空间信息关系矩阵输入至汉字识别模型中,得到所述汉字识别模型输出的识别结果;其中,所述汉字识别模型用于基于门限图神经网络,提取所述汉字节点矩阵对应的包含图结构信息的汉字特征向量,提取所述汉字特征向量中的时序信息,得到时序特征向量,并基于所述时序特征向量经由瓶颈网络进行手写汉字识别。本发明综合了汉字的空间结构信息和时序信息,提高了手写汉字识别的准确性。
Description
技术领域
本发明涉及手写识别技术领域,尤其涉及一种基于门限图神经网络的手写汉字识别方法和装置。
背景技术
随着信息化水平的不断提高,大量的纸质文字材料或文字图片需要被转换成可以被计算机识别并且存储的信息,为自动化的手写汉字识别技术提出了需求。由于汉字具有上下、左右等结构分布,字符类别较多,很多汉字之间结构相似,加之不同人的手写汉字之间具有很大的差异,并且存在连笔、省略等情况,因此,自动化的手写汉字识别成为一项极具挑战性的任务。
然而,大多数手写汉字识别方法仅通过利用诸如长期短期记忆网络(Long Short-Term Memory,LSTM)之类的递归神经网络在时序上对手写汉字特征序列进行建模,准确性欠佳。
发明内容
本发明提供一种基于门限图神经网络的手写汉字识别方法和装置,用以解决现有技术中手写汉字识别准确性欠佳的缺陷。
本发明提供一种基于门限图神经网络的手写汉字识别方法,包括:
确定待识别汉字的汉字节点矩阵以及空间信息关系矩阵;所述汉字节点矩阵中的各汉字节点为所述待识别汉字的书写视频中每一时刻书写位置的坐标;
将所述汉字节点矩阵和所述空间信息关系矩阵输入至汉字识别模型中,得到所述汉字识别模型输出的识别结果;
其中,所述汉字识别模型用于基于门限图神经网络,提取所述汉字节点矩阵对应的包含图结构信息的汉字特征向量,提取所述汉字特征向量中的时序信息,得到时序特征向量,并基于所述时序特征向量进行手写汉字识别。
根据本发明提供一种的基于门限图神经网络的手写汉字识别方法,所述将所述汉字节点矩阵和所述空间信息关系矩阵输入至汉字识别模型中,得到所述汉字识别模型输出的识别结果,具体包括:
将所述汉字节点矩阵和所述空间信息关系矩阵输入至所述门限图神经网络,得到所述门限图神经网络输出的所述汉字特征向量;
将所述汉字特征向量输入至所述汉字识别模型中的时序神经网络,得到所述时序神经网络输出的所述时序特征向量;
将所述时序特征向量输入至所述汉字识别模型的多层感知机,得到所述多层感知机输出的所述识别结果。
根据本发明提供的一种基于门限图神经网络的手写汉字识别方法,所述将所述汉字节点矩阵和所述空间信息关系矩阵输入至所述门限图神经网络,得到所述门限图神经网络输出的所述汉字特征向量,具体包括:
将所述汉字节点矩阵,作为初始时刻的输入向量;
将所述空间信息矩阵与当前时刻的输入向量沿特征维度拼接融合后,与上一时刻的隐藏层状态共同输入至所述门限图神经网络中的门控单元,得到所述门控单元输出的当前时刻的隐藏层状态;基于最终时刻的隐藏层状态,确定所述汉字特征向量;
其中,所述门限图神经网络包括参数共享的多时间步迭代结构。
根据本发明提供的一种基于门限图神经网络的手写汉字识别方法,所述当前时刻的输入向量为上一时刻的隐藏层状态与输入向量间的残差相加连接结果;
所述汉字特征向量为最终时刻的隐藏层状态与输入向量间的残差相加连接结果。
根据本发明提供的一种基于门限图神经网络的手写汉字识别方法,所述将所述汉字特征向量输入至所述汉字识别模型中的时序神经网络,得到所述时序神经网络输出的所述时序特征向量,具体包括:
基于全连接层,对所述汉字特征向量进行特征变换,得到变换特征向量;
基于所述时序神经网络,对所述变换特征向量进行时序信息提取,并将最终时刻输出的隐藏层状态作为所述时序特征向量。
根据本发明提供的一种基于门限图神经网络的手写汉字识别方法,所述将所述时序特征向量输入至所述汉字识别模型的多层感知机,得到所述多层感知机输出的所述识别结果,具体包括:
基于瓶颈网络,对所述时序特征向量进行变换,得到瓶颈网络处理向量;
基于所述多层感知机,对所述瓶颈网络处理向量进行汉字分类,得到所述识别结果。
根据本发明提供的一种基于门限图神经网络的手写汉字识别方法,所述空间信息关系矩阵是基于如下步骤确定的:
确定所述汉字节点矩阵中各汉字节点之间的距离;
基于各汉字节点之间的距离,经过线性变换网络以及激活层,确定所述汉字节点矩阵的邻接矩阵;
对所述汉字节点矩阵进行线性编码后,与所述邻接矩阵相乘,得到所述空间信息关系矩阵。
本发明还提供一种基于门限图神经网络的手写汉字识别装置,包括:
矩阵确定单元,用于确定待识别汉字的汉字节点矩阵以及空间信息关系矩阵;所述汉字节点矩阵中的各汉字节点为所述待识别汉字的书写视频中每一时刻书写位置的坐标;
汉字识别单元,用于将所述汉字节点矩阵和所述空间信息关系矩阵输入至汉字识别模型中,得到所述汉字识别模型输出的识别结果;
其中,所述汉字识别模型用于基于门限图神经网络,提取所述汉字节点矩阵对应的包含图结构信息的汉字特征向量,提取所述汉字特征向量中的时序信息,得到时序特征向量,并基于所述时序特征向量进行手写汉字识别。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于门限图神经网络的手写汉字识别方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于门限图神经网络的手写汉字识别方法的步骤。
本发明提供的基于门限图神经网络的手写汉字识别方法和装置,基于门限图神经网络,提取汉字节点矩阵对应的包含图结构信息的汉字特征向量,提取汉字特征向量中的时序信息,得到时序特征向量,并基于时序特征向量进行手写汉字识别,综合了汉字的空间结构信息和时序信息,提高了手写汉字识别的准确性。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的基于门限图神经网络的手写汉字识别方法的流程示意图;
图2为本发明提供的门限图神经网络的结构示意图;
图3为本发明提供的基于门限图神经网络的手写汉字识别装置的结构示意图;
图4为本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的基于门限图神经网络的手写汉字识别方法的流程示意图,如图1所示,该方法包括:
步骤110,确定待识别汉字的汉字节点矩阵以及空间信息关系矩阵;汉字节点矩阵中的各汉字节点为待识别汉字的书写视频中每一时刻书写位置的坐标;
步骤120,将汉字节点矩阵和空间信息关系矩阵输入至汉字识别模型中,得到汉字识别模型输出的识别结果;
其中,汉字识别模型用于基于门限图神经网络,提取汉字节点矩阵对应的包含图结构信息的汉字特征向量,提取汉字特征向量中的时序信息,得到时序特征向量,并基于时序特征向量进行手写汉字识别。
具体地,获取待识别汉字的书写视频。其中,书写视频中记录了待识别汉字的书写过程,包括各笔画的书写顺序等。随后,对该书写视频进行处理,计算每一时刻书写位置的坐标,从而构建得到汉字节点矩阵。其中,各个汉字节点对应书写视频中每一时刻书写位置的坐标。基于待识别汉字的汉字节点矩阵中包含的坐标信息,可以提取待识别汉字中各笔画之间的空间位置关系,从而确定待识别汉字的空间信息关系矩阵。其中,空间信息关系矩阵中即包含了待识别汉字中各笔画间的空间结构信息。
将汉字节点矩阵和空间信息关系矩阵输入至汉字识别模型中,汉字识别模型可以基于汉字节点矩阵中包含的待识别汉字的特征,以及空间信息关系矩阵中包含的待识别汉字的空间结构信息,进行手写汉字识别,利用空间结构信息对汉字进行区分,有助于提高手写汉字识别的准确性。
具体而言,汉字识别模型可以为以门限图神经网络为主体的神经网络模型。图神经网络(Graph Neural Network)是一种直接作用于图结构上的神经网络,图结构由顶点(vertical)和边(edge)两部分组成:G={V,E},GNN顶点也可称为节点(node)。根据顶点之间是否存在方向性关系,边可以是有向的,也可以是无向的。本发明实施例中采用的图结构为无向性图结构,节点为各个汉字节点,边可以为各个汉字节点间的关系,例如空间位置关系。在时刻t,每个节点(vi∈V)接收到来自临近节点的信息,并根据临近节点信息和上一时刻节点特征向量(st-1)更新其特征向量st,最后,GNN的输出ot将由St计算得出,公式如下:
其中,汉字识别模型可以基于门限图神经网络,结合空间信息关系矩阵中包含的空间结构信息,提取汉字节点矩阵对应的包含图结构信息的汉字特征向量。其中,汉字特征向量中包含融合了笔画空间结构信息的汉字特征。随后,考虑到汉字中笔画的书写顺序会影响最终识别结果的准确性,因此可以提取汉字特征向量中的时序信息,得到时序特征向量。其中,时序特征向量中不仅包含有融合了笔画空间结构信息的汉字特征,还包含各笔画的时序特征。结合时序特征向量中的空间结构信息和时序信息进行手写汉字识别,可以提高汉字识别结果的准确性。
另外,在执行步骤120之前,还可以预先训练得到汉字识别模型,具体可通过如下方式训练得到汉字识别模型:首先,收集大量样本汉字对应的样本书写视频,并标注各个样本书写视频对应的样本识别结果。基于样本汉字的样本书写视频及其样本识别结果对初始模型进行训练,从而得到汉字识别模型。
本发明实施例提供的方法,基于门限图神经网络,提取汉字节点矩阵对应的包含图结构信息的汉字特征向量,提取汉字特征向量中的时序信息,得到时序特征向量,并基于时序特征向量进行手写汉字识别,综合了汉字的空间结构信息和时序信息,提高了手写汉字识别的准确性。
基于上述实施例,步骤120具体包括:
将汉字节点矩阵和空间信息关系矩阵输入至门限图神经网络,得到门限图神经网络输出的汉字特征向量;
将汉字特征向量输入至汉字识别模型中的时序神经网络,得到时序神经网络输出的时序特征向量;
将时序特征向量输入至汉字识别模型的多层感知机,得到多层感知机输出的识别结果。
具体地,汉字识别模型包括门限图神经网络、时序神经网络和多层感知机。其中,门限图神经网络用于基于汉字节点矩阵和空间信息关系矩阵,提取汉字节点矩阵的汉字特征向量。时序神经网络用于提取汉字特征向量的时序信息,得到时序特征向量。多层感知机用于对时序特征向量进行汉字分类,得到待识别汉字的识别结果。
基于上述任一实施例,将汉字节点矩阵和空间信息关系矩阵输入至门限图神经网络,得到门限图神经网络输出的汉字特征向量,具体包括:
将汉字节点矩阵,作为初始时刻的输入向量;
将空间信息矩阵与当前时刻的输入向量沿特征维度拼接融合后,与上一时刻的隐藏层状态共同输入至门限图神经网络中的门控单元,得到门控单元输出的当前时刻的隐藏层状态;基于最终时刻的隐藏层状态,确定汉字特征向量;
其中,门限图神经网络包括参数共享的多时间步迭代结构。
具体地,门限图神经网络由多层门控单元构成。图2为本发明实施例提供的门限图神经网络的结构示意图,如图2所示,门限图神经网络可以包括三层门控单元,每层门控单元可以为GRU(Gated Recurrent Unit,门控循环单元)单元或LSTM(Lone Shot TermMemory,长短期记忆网络)单元。GRU和LSTM功能相似,都具有被称为门“gate”的内部机制,可以控制内部信息流的传输,可以进行长期记忆,解决了循环神经网络对于长序列依赖关系时出现的梯度消失问题。
GRU主要有两个门:重置门rt(reset gate)和更新门zt(update gate),更新门zt用来控制当前时刻状态ht和上一时刻状态ht-1的线性关系。重置门rt则决定着单元是否记忆上一时刻的状态。具体计算公式如下:
rt=sigm(Wrxt+Urht-1+br),
zt=sigm(Wzxt+Uzht-1+bz),
LSTM有三个门:输入门it(input gate)、遗忘门ft(forget gate)、输出门ot(output gate),输入门it决定是否更新单元状态,遗忘门ft决定应该丢弃或保留那些信息,输出门ot决定下一个隐藏状态ht(hidden state)。细胞状态ct(cell state)则为LSTM的记忆核心,决定着新信息的传输和记忆信息的累加。具体计算公式如下:
it=sigm(Wixt+Uiht-1+bi),
ft=sigm(Wfxt+Ufht-1+bf),
ot=sigm(Woxt+Uoht-1+bo),
ht=ot⊙tanh(ct),
相比LSTM,GRU所需的计算量更小、速度更快、模型更为轻便,因此本发明实施例中的门限图神经网络中可以采用GRU。
将汉字节点矩阵V,作为初始时刻的输入向量。将汉字节点矩阵V线性编码处理后与空间信息关系矩阵M融合,例如可以沿节点特征维度(dim=1)做拼接处理,然后将融合结果以及上一时刻的隐藏层状态输入至门限图神经网络中的第一层门控单元,得到第一层门控单元输出的当前时刻的隐藏层状态。其中,门控单元的隐藏层初始状态h0设置为全零矩阵。后续门控单元的处理过程同第一层门控单元类似,即将空间信息矩阵与当前时刻的输入向量的融合结果,以及上一时刻的隐藏层状态输入至当前层门控单元,得到当前层门控单元输出的当前时刻的隐藏层状态。迭代完成后,可以基于最终时刻的隐藏层状态,即最后一层门控单元输出的隐藏层状态,确定汉字特征向量。
基于上述任一实施例,当前时刻的输入向量为上一时刻的隐藏层状态与输入向量间的残差相加连接结果;
汉字特征向量为最终时刻的隐藏层状态与输入向量间的残差相加连接结果。
具体地,将上一时刻的隐藏层状态与输入向量进行残差相加连接,将残差连接结果作为当前时刻的输入向量。上述残差连接的方式可以增强深层网络的记忆能力,提升门限图神经网络的性能。类似地,汉字特征向量为最终时刻的隐藏层状态与输入向量间的残差连接结果。
基于上述任一实施例,将汉字特征向量输入至汉字识别模型中的时序神经网络,得到时序神经网络输出的时序特征向量,具体包括:
基于全连接层,对汉字特征向量进行特征变换,得到变换特征向量;
基于时序神经网络,对变换特征向量进行时序信息提取,并将最终时刻输出的隐藏层状态作为时序特征向量。
具体地,基于全连接层对汉字特征向量做特征权重分布和维度的变换,得到变换特征向量。随后,将变换特征向量输入至时序神经网络,学习加入图结构信息的变换特征向量的时间维度信息,并取最终时刻输出的隐藏层状态作为时序特征向量Vo。其中,时序神经网络可以为GRU网络。
基于上述任一实施例,将时序特征向量输入至汉字识别模型的多层感知机,得到多层感知机输出的识别结果,具体包括:
基于瓶颈网络,对时序特征向量进行变换,得到瓶颈网络处理向量;
基于多层感知机,对瓶颈网络处理向量进行汉字分类,得到识别结果。
具体地,设计Bottleneck瓶颈网络,其结构可以为BatchNormld+Dropout,以增加神经元之间的相互独立性,并加速汉字识别模型的运算速度。基于上述瓶颈网络,对时序特征向量Vo进行变换,得到瓶颈网络处理向量Vout。随后,利用多层感知机,对瓶颈网络处理向量进行汉字分类,得到待识别汉字的识别结果,即时序特征向量在各个汉字类别的概率分布Pv,从而获得手写汉字的类别归属,完成汉字识别。其中,C为汉字类别个数。其中,上述概率分布可以采用如下公式计算得到:
Bottleneck函数模块的具体实现方式为:
Vout=Bottleneck(Vo)=Dropout(LN(Vo,α,β),p)
其中,p为丢弃概率参数,在训练阶段,p可以取0.5,在测试阶段p为0。LN为层归一化,α和β分别为层归一化网络的增益系数和偏置系数,v∈VO、μv和σv分别为VO对应的均值和方差,dv为VO的维度。
Pv=softmax(fc1(fc2(Bottleneck(Vo))))
其中,fc1,fc2为全连接层,Softmax计算公式为:
基于上述任一实施例,空间信息关系矩阵是基于如下步骤确定的:
确定汉字节点矩阵中各汉字节点之间的距离;
基于各汉字节点之间的距离,经过线性变换网络以及激活层,确定汉字节点矩阵的邻接矩阵;
对汉字节点矩阵进行线性编码后,与邻接矩阵相乘,得到空间信息关系矩阵。
具体地,基于各汉字节点之间的距离,确定汉字节点矩阵的邻接矩阵。基于该邻接矩阵,可以构建图结构中各节点之间的边。此处,可以采用每个汉字节点之间的绝对距离,即各汉字节点对应坐标之间的距离,来构建邻接矩阵A,其中N为汉字节点的个数,σ为sigmoid函数,具体运算过程为:
U=W*Vdif+b
A=σ(U)
其中,Vdif为汉字节点矩阵每个节点与其他节点的空间距离关系矩阵,尺寸为N×N×dv;{W,b}为空间关系矩阵进行线性编码的参数集合,其中W为dv×1的参数向量,b为偏置向量,将空间距离关系矩阵的特征维度dv变换为1,最终得到尺寸为N×N的邻接矩阵A。
利用全连接层对汉字节点矩阵V进行encoding编码处理后,将其与邻接矩阵A相乘,同时引入Soft Attention机制,计算得到包含每个节点和周围节点的空间结构信息的空间信息关系矩阵M:
M=A·V
基于上述任一实施例,可以对汉字识别网络进行训练和测试。网络的训练和测试基于CASIA手写中文数据集——CASIAHandwritingDatabase(Chinese),训练集包括2693183个中文字符、测试集包括224590个中文字符,整个字符集包括3755类由不同人手写的中文汉字(GB2312-80一级字符)。汉字识别网络在测试集的准确率为97.4%,实现了较高的识别水平,为手写汉字的自动化识别提供了极具参考性的解决方案。
基于上述任一实施例,图3为本发明实施例提供的基于门限图神经网络的手写汉字识别装置的结构示意图,如图3所示该装置包括:矩阵确定单元310和汉字识别单元320。
其中,矩阵确定单元310用于确定待识别汉字的汉字节点矩阵以及空间信息关系矩阵;汉字节点矩阵中的各汉字节点为待识别汉字的书写视频中每一时刻书写位置的坐标;
汉字识别单元320用于将汉字节点矩阵和空间信息关系矩阵输入至汉字识别模型中,得到汉字识别模型输出的识别结果;
其中,汉字识别模型用于基于门限图神经网络,提取汉字节点矩阵对应的包含图结构信息的汉字特征向量,提取汉字特征向量中的时序信息,得到时序特征向量,并基于时序特征向量进行手写汉字识别。
本发明实施例提供的装置,基于门限图神经网络,提取汉字节点矩阵对应的包含图结构信息的汉字特征向量,提取汉字特征向量中的时序信息,得到时序特征向量,并基于时序特征向量进行手写汉字识别,综合了汉字的空间结构信息和时序信息,提高了手写汉字识别的准确性。
基于上述任一实施例,汉字识别单元320具体用于:
将汉字节点矩阵和空间信息关系矩阵输入至门限图神经网络,得到门限图神经网络输出的汉字特征向量;
将汉字特征向量输入至汉字识别模型中的时序神经网络,得到时序神经网络输出的时序特征向量;
将时序特征向量输入至汉字识别模型的多层感知机,得到多层感知机输出的识别结果。
基于上述任一实施例,将汉字节点矩阵和空间信息关系矩阵输入至门限图神经网络,得到门限图神经网络输出的汉字特征向量,具体包括:
将汉字节点矩阵,作为初始时刻的输入向量;
将空间信息矩阵与当前时刻的输入向量沿特征维度拼接融合后,与上一时刻的隐藏层状态共同输入至门限图神经网络中的门控单元,得到门控单元输出的当前时刻的隐藏层状态;基于最终时刻的隐藏层状态,确定汉字特征向量;
其中,门限图神经网络包括参数共享的多时间步迭代结构。
基于上述任一实施例,当前时刻的输入向量为上一时刻的隐藏层状态与输入向量间的残差相加连接结果;
汉字特征向量为最终时刻的隐藏层状态与输入向量间的残差相加连接结果。
基于上述任一实施例,将汉字特征向量输入至汉字识别模型中的时序神经网络,得到时序神经网络输出的时序特征向量,具体包括:
基于全连接层,对汉字特征向量进行特征变换,得到变换特征向量;
基于时序神经网络,对变换特征向量进行时序信息提取,并将最终时刻输出的隐藏层状态作为时序特征向量。
基于上述任一实施例,将时序特征向量输入至汉字识别模型的多层感知机,得到多层感知机输出的识别结果,具体包括:
基于瓶颈网络,对时序特征向量进行变换,得到瓶颈网络处理向量;
基于多层感知机,对瓶颈网络处理向量进行汉字分类,得到识别结果。
基于上述任一实施例,空间信息关系矩阵是基于如下步骤确定的:
确定汉字节点矩阵中各汉字节点之间的距离;
基于各汉字节点之间的距离,经过线性变换网络以及激活层,确定汉字节点矩阵的邻接矩阵;
对汉字节点矩阵进行线性编码后,与邻接矩阵相乘,得到空间信息关系矩阵。
图4示例了一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令,以执行基于门限图神经网络的手写汉字识别方法,该方法包括:确定待识别汉字的汉字节点矩阵以及空间信息关系矩阵;所述汉字节点矩阵中的各汉字节点为所述待识别汉字的书写视频中每一时刻书写位置的坐标;将所述汉字节点矩阵和所述空间信息关系矩阵输入至汉字识别模型中,得到所述汉字识别模型输出的识别结果;其中,所述汉字识别模型用于基于门限图神经网络,提取所述汉字节点矩阵对应的包含图结构信息的汉字特征向量,提取所述汉字特征向量中的时序信息,得到时序特征向量,并基于所述时序特征向量进行手写汉字识别。
此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的基于门限图神经网络的手写汉字识别方法,该方法包括:确定待识别汉字的汉字节点矩阵以及空间信息关系矩阵;所述汉字节点矩阵中的各汉字节点为所述待识别汉字的书写视频中每一时刻书写位置的坐标;将所述汉字节点矩阵和所述空间信息关系矩阵输入至汉字识别模型中,得到所述汉字识别模型输出的识别结果;其中,所述汉字识别模型用于基于门限图神经网络,提取所述汉字节点矩阵对应的包含图结构信息的汉字特征向量,提取所述汉字特征向量中的时序信息,得到时序特征向量,并基于所述时序特征向量进行手写汉字识别。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的基于门限图神经网络的手写汉字识别方法,该方法包括:确定待识别汉字的汉字节点矩阵以及空间信息关系矩阵;所述汉字节点矩阵中的各汉字节点为所述待识别汉字的书写视频中每一时刻书写位置的坐标;将所述汉字节点矩阵和所述空间信息关系矩阵输入至汉字识别模型中,得到所述汉字识别模型输出的识别结果;其中,所述汉字识别模型用于基于门限图神经网络,提取所述汉字节点矩阵对应的包含图结构信息的汉字特征向量,提取所述汉字特征向量中的时序信息,得到时序特征向量,并基于所述时序特征向量进行手写汉字识别。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于门限图神经网络的手写汉字识别方法,其特征在于,包括:
确定待识别汉字的汉字节点矩阵以及空间信息关系矩阵;所述汉字节点矩阵中的各汉字节点为所述待识别汉字的书写视频中每一时刻书写位置的坐标;
将所述汉字节点矩阵和所述空间信息关系矩阵输入至汉字识别模型中,得到所述汉字识别模型输出的识别结果;
其中,所述汉字识别模型用于基于门限图神经网络,提取所述汉字节点矩阵对应的包含图结构信息的汉字特征向量,提取所述汉字特征向量中的时序信息,得到时序特征向量,并基于所述时序特征向量进行手写汉字识别。
2.根据权利要求1所述的基于门限图神经网络的手写汉字识别方法,其特征在于,所述将所述汉字节点矩阵和所述空间信息关系矩阵输入至汉字识别模型中,得到所述汉字识别模型输出的识别结果,具体包括:
将所述汉字节点矩阵和所述空间信息关系矩阵输入至所述门限图神经网络,得到所述门限图神经网络输出的所述汉字特征向量;
将所述汉字特征向量输入至所述汉字识别模型中的时序神经网络,得到所述时序神经网络输出的所述时序特征向量;
将所述时序特征向量输入至所述汉字识别模型的多层感知机,得到所述多层感知机输出的所述识别结果。
3.根据权利要求2所述的基于门限图神经网络的手写汉字识别方法,其特征在于,所述将所述汉字节点矩阵和所述空间信息关系矩阵输入至所述门限图神经网络,得到所述门限图神经网络输出的所述汉字特征向量,具体包括:
将所述汉字节点矩阵,作为初始时刻的输入向量;
将所述空间信息矩阵与当前时刻的输入向量沿特征维度拼接融合后,与上一时刻的隐藏层状态共同输入至所述门限图神经网络中的门控单元,得到所述门控单元输出的当前时刻的隐藏层状态;基于最终时刻的隐藏层状态,确定所述汉字特征向量;
其中,所述门限图神经网络包括参数共享的多时间步迭代结构。
4.根据权利要求3所述的基于门限图神经网络的手写汉字识别方法,其特征在于,所述当前时刻的输入向量为上一时刻的隐藏层状态与输入向量间的残差相加连接结果;
所述汉字特征向量为最终时刻的隐藏层状态与输入向量间的残差相加连接结果。
5.根据权利要求2所述的基于门限图神经网络的手写汉字识别方法,其特征在于,所述将所述汉字特征向量输入至所述汉字识别模型中的时序神经网络,得到所述时序神经网络输出的所述时序特征向量,具体包括:
基于全连接层,对所述汉字特征向量进行特征变换,得到变换特征向量;
基于所述时序神经网络,对所述变换特征向量进行时序信息提取,并将最终时刻输出的隐藏层状态作为所述时序特征向量。
6.根据权利要求2所述的基于门限图神经网络的手写汉字识别方法,其特征在于,所述将所述时序特征向量输入至所述汉字识别模型的多层感知机,得到所述多层感知机输出的所述识别结果,具体包括:
基于瓶颈网络,对所述时序特征向量进行变换,得到瓶颈网络处理向量;
基于所述多层感知机,对所述瓶颈网络处理向量进行汉字分类,得到所述识别结果。
7.根据权利要求1至6任一项所述的基于门限图神经网络的手写汉字识别方法,其特征在于,所述空间信息关系矩阵是基于如下步骤确定的:
确定所述汉字节点矩阵中各汉字节点之间的距离;
基于各汉字节点之间的距离,经过线性变换网络以及激活层,确定所述汉字节点矩阵的邻接矩阵;
对所述汉字节点矩阵进行线性编码后,与所述邻接矩阵相乘,得到所述空间信息关系矩阵。
8.一种基于门限图神经网络的手写汉字识别装置,其特征在于,包括:
矩阵确定单元,用于确定待识别汉字的汉字节点矩阵以及空间信息关系矩阵;所述汉字节点矩阵中的各汉字节点为所述待识别汉字的书写视频中每一时刻书写位置的坐标;
汉字识别单元,用于将所述汉字节点矩阵和所述空间信息关系矩阵输入至汉字识别模型中,得到所述汉字识别模型输出的识别结果;
其中,所述汉字识别模型用于基于门限图神经网络,提取所述汉字节点矩阵对应的包含图结构信息的汉字特征向量,提取所述汉字特征向量中的时序信息,得到时序特征向量,并基于所述时序特征向量进行手写汉字识别。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述基于门限图神经网络的手写汉字识别方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于门限图神经网络的手写汉字识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110655846.9A CN113705322A (zh) | 2021-06-11 | 2021-06-11 | 基于门限图神经网络的手写汉字识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110655846.9A CN113705322A (zh) | 2021-06-11 | 2021-06-11 | 基于门限图神经网络的手写汉字识别方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113705322A true CN113705322A (zh) | 2021-11-26 |
Family
ID=78648078
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110655846.9A Pending CN113705322A (zh) | 2021-06-11 | 2021-06-11 | 基于门限图神经网络的手写汉字识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113705322A (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB1454813A (en) * | 1973-07-25 | 1976-11-03 | Optical Business Machines | Method and apparatus for recognising handwritten characters in an optical character recognition machine |
CN103728609A (zh) * | 2014-01-16 | 2014-04-16 | 中国科学院地理科学与资源研究所 | 星载多光谱红外传感器交叉辐射定标方法 |
CN106570456A (zh) * | 2016-10-13 | 2017-04-19 | 华南理工大学 | 基于全卷积递归网络的手写汉字文本识别方法 |
CN108509881A (zh) * | 2018-03-22 | 2018-09-07 | 五邑大学 | 一种无切分的脱机手写汉字文本识别方法 |
WO2019053898A1 (en) * | 2017-09-15 | 2019-03-21 | Nec Corporation | PATTERN RECOGNITION APPARATUS, PATTERN RECOGNITION METHOD, AND STORAGE MEDIUM |
CN109784249A (zh) * | 2019-01-04 | 2019-05-21 | 华南理工大学 | 一种基于变分级联信息瓶颈的置乱人脸识别方法 |
CN110211574A (zh) * | 2019-06-03 | 2019-09-06 | 哈尔滨工业大学 | 基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法 |
CN110929634A (zh) * | 2019-11-19 | 2020-03-27 | 广东工业大学 | 基于双向Tree-GRU的联机手写数学公式识别方法 |
CN111428593A (zh) * | 2020-03-12 | 2020-07-17 | 北京三快在线科技有限公司 | 一种文字识别方法、装置、电子设备及存储介质 |
CN111738169A (zh) * | 2020-06-24 | 2020-10-02 | 北方工业大学 | 一种基于端对端网络模型的手写公式识别方法 |
-
2021
- 2021-06-11 CN CN202110655846.9A patent/CN113705322A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB1454813A (en) * | 1973-07-25 | 1976-11-03 | Optical Business Machines | Method and apparatus for recognising handwritten characters in an optical character recognition machine |
CN103728609A (zh) * | 2014-01-16 | 2014-04-16 | 中国科学院地理科学与资源研究所 | 星载多光谱红外传感器交叉辐射定标方法 |
CN106570456A (zh) * | 2016-10-13 | 2017-04-19 | 华南理工大学 | 基于全卷积递归网络的手写汉字文本识别方法 |
WO2019053898A1 (en) * | 2017-09-15 | 2019-03-21 | Nec Corporation | PATTERN RECOGNITION APPARATUS, PATTERN RECOGNITION METHOD, AND STORAGE MEDIUM |
CN108509881A (zh) * | 2018-03-22 | 2018-09-07 | 五邑大学 | 一种无切分的脱机手写汉字文本识别方法 |
CN109784249A (zh) * | 2019-01-04 | 2019-05-21 | 华南理工大学 | 一种基于变分级联信息瓶颈的置乱人脸识别方法 |
CN110211574A (zh) * | 2019-06-03 | 2019-09-06 | 哈尔滨工业大学 | 基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法 |
CN110929634A (zh) * | 2019-11-19 | 2020-03-27 | 广东工业大学 | 基于双向Tree-GRU的联机手写数学公式识别方法 |
CN111428593A (zh) * | 2020-03-12 | 2020-07-17 | 北京三快在线科技有限公司 | 一种文字识别方法、装置、电子设备及存储介质 |
CN111738169A (zh) * | 2020-06-24 | 2020-10-02 | 北方工业大学 | 一种基于端对端网络模型的手写公式识别方法 |
Non-Patent Citations (2)
Title |
---|
ALIAKBARZADEH等: "Online Persian/Arabic Writer Identification using Gated Recurrent Unit Neural Network", 《MAJLESI JOURNAL OF ELECTRICAL ENGINEERING》, no. 2020, pages 73 - 79 * |
李敏: "基于深度学习的联机蒙古文手写识别系统研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 2019, pages 138 - 1314 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mukhoti et al. | Evaluating bayesian deep learning methods for semantic segmentation | |
CN111476284B (zh) | 图像识别模型训练及图像识别方法、装置、电子设备 | |
CN108549893B (zh) | 一种任意形状的场景文本端到端识别方法 | |
KR101865102B1 (ko) | 시각 문답을 위한 시스템 및 방법 | |
CN110136154B (zh) | 基于全卷积网络与形态学处理的遥感图像语义分割方法 | |
CN108734210B (zh) | 一种基于跨模态多尺度特征融合的对象检测方法 | |
CN108108751B (zh) | 一种基于卷积多特征和深度随机森林的场景识别方法 | |
CN113297975A (zh) | 表格结构识别的方法、装置、存储介质及电子设备 | |
CN111476315B (zh) | 一种基于统计相关性与图卷积技术的图像多标签识别方法 | |
CN108921877B (zh) | 一种基于宽度学习的长期目标跟踪方法 | |
CN109753897B (zh) | 基于记忆单元强化-时序动态学习的行为识别方法 | |
CN112464865A (zh) | 一种基于像素和几何混合特征的人脸表情识别方法 | |
CN110716792B (zh) | 一种目标检测器及其构建方法和应用 | |
CN112949415A (zh) | 图像处理方法、装置、设备和介质 | |
CN111931859B (zh) | 一种多标签图像识别方法和装置 | |
CN111523421A (zh) | 基于深度学习融合各种交互信息的多人行为检测方法及系统 | |
CN112364974B (zh) | 一种基于激活函数改进的YOLOv3算法 | |
CN113868448A (zh) | 一种细粒度场景级基于草图的图像检索方法及系统 | |
WO2023134402A1 (zh) | 一种基于孪生卷积神经网络的书法字识别方法 | |
JP2024513596A (ja) | 画像処理方法および装置、ならびにコンピュータ可読ストレージ媒体 | |
CN112634329A (zh) | 一种基于时空与或图的场景目标活动预测方法及装置 | |
CN110111365B (zh) | 基于深度学习的训练方法和装置以及目标跟踪方法和装置 | |
CN114495113A (zh) | 文本分类方法和文本分类模型的训练方法、装置 | |
CN112527959A (zh) | 基于无池化卷积嵌入和注意分布神经网络的新闻分类方法 | |
CN117115824A (zh) | 一种基于笔划区域分割策略的视觉文本检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |