CN112163514A - 中文繁体字识别方法及装置、可读存储介质 - Google Patents

中文繁体字识别方法及装置、可读存储介质 Download PDF

Info

Publication number
CN112163514A
CN112163514A CN202011028304.0A CN202011028304A CN112163514A CN 112163514 A CN112163514 A CN 112163514A CN 202011028304 A CN202011028304 A CN 202011028304A CN 112163514 A CN112163514 A CN 112163514A
Authority
CN
China
Prior art keywords
traditional chinese
layer
convolution
sample picture
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011028304.0A
Other languages
English (en)
Inventor
李成范
胡子荣
顾善明
丁雪海
赵俊娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN202011028304.0A priority Critical patent/CN112163514A/zh
Publication of CN112163514A publication Critical patent/CN112163514A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Multimedia (AREA)
  • Character Discrimination (AREA)

Abstract

一种中文繁体字识别方法及装置、可读存储介质,所述方法包括:获取待识别的图片;采用预设的繁体字识别神经网络模型对待识别的图片进行识别,并输出识别出的繁体字;繁体字识别神经网络模型采用如下步骤生成:获取包含多张样本图片的训练样本集;获取样本图片对应的矩阵;将样本图片的矩阵输入至初始神经网络模型的卷积网络中,获取样本图片对应的卷积特征;将样本图片对应的卷积特征输入至初始神经网络模型的循环网络层,得到繁体字的文字序列特征;将文字序列特征输入至CTC模型中,计算得到损失函数;根据损失函数对循环网络层的参数w进行调整;当训练次数达到预设次数时,得到繁体字识别神经网络模型。上述方案能够提高繁体字识别的准确度和效率。

Description

中文繁体字识别方法及装置、可读存储介质
技术领域
本发明涉及图像处理技术领域,尤其涉及一种中文繁体字识别方法及装置、可读存储介质。
背景技术
随着技术的发展,在文字识别领域,深度学习已经成为主流。相比于传统的文字识别方法,如模式匹配等,深度学习在精度和速率上得到了大大提升。
然而,现有的深度学习主要应用在简体字识别领域。将深度学习识别方法应用在繁体字识别技术领域中时,由于繁体字相比于简体字的笔画更多,需要关注的特征更多,导致现有的繁体字识别方法的精确度较低,速率较慢。
发明内容
本发明解决的技术问题是现有的繁体字识别方法的精确度较低,速率较慢。
为解决上述技术问题,本发明实施例提供一种中文繁体字识别方法,包括:获取待识别的图片;采用预设的繁体字识别神经网络模型对所述待识别的图片进行识别,并输出识别出的繁体字;所述繁体字识别神经网络模型采用如下步骤生成:获取包含多张样本图片的训练样本集,所述样本图片中包含有繁体字图片;获取样本图片对应的矩阵;将所述样本图片的矩阵输入至初始神经网络模型的卷积网络中,获取样本图片对应的卷积特征;将所述样本图片对应的卷积特征输入至所述初始神经网络模型的循环网络层,得到样本图片中繁体字的文字序列特征;将所述文字序列特征输入至CTC模型中,计算得到损失函数;根据所述损失函数对所述循环网络层的参数w进行调整;当训练次数达到预设次数时,得到所述繁体字识别神经网络模型。
可选的,所述卷积网络包括7层卷积层和4层池化层,且第一池化层设置在第一卷积层与第二卷积层之间,第二池化层设置在所述第二卷积层与第三卷积层之间,第三池化层设置在所述第四卷积层与第五卷积层之间,第四池化层设置在第六池化层与第七池化层之间;所述将所述样本图片的矩阵输入至初始神经网络模型的卷积网络中,得到样本图片对应的卷积特征,包括:将所述样本图片的矩阵输入至所述卷积网络,依次经过7层卷积层和4层池化层后,得到所述样本图片对应的卷积特征;其中,第i卷积层的输出计算公式为:N1=(n–F+2P)/S+1,其中,N1为第i层卷积层的输出,1≤i≤7;第j池化层的输出计算公式为:N2=(n–F)/S+1,其中,N2为第j层池化层的输出,1≤j≤4;F为滤波器的尺寸,P为填充值的大小,S为步长;n为前一层的输入;第j池化层的激活函数为ReLU函数,且ReLU函数表达式如下:f(x)=max(0,N2)。
可选的,所述样本图片的大小为280*32像素。
可选的,所述将所述样本图片对应的卷积特征输入至所述初始神经网络模型的循环网络层,得到样本图片中繁体字的文字序列特征包括:将所述样本图片对应的卷积特征输入至所述循环网络层;分别计算所述样本图片对应的卷积特征的正向序列特征和反向序列特征,并将所述正向序列特征与所述反向序列特征相加,将得到的和值作为所述样本图片中的繁体字的文字序列特征。
可选的,采用如下公式计算所述卷积特征的正向序列特征:s_t=f(Ux_t+W(s_t-1));采用如下公式计算所述卷积特征的反向序列特征:s_t′=f(U′x_t+W′(s_t+1)′);其中,U为所述卷积特征对应的输入序列的第一权重矩阵,W为前一正向序列特征的权重矩阵,f为所述循环网络层的隐藏层激活函数,x_t为所述卷积特征对应的输入序列,U’为所述卷积特征对应的输入序列的第二权重矩阵,W’为后一反向序列特征的权重矩阵。
可选的,采用如下公式计算所述样本图片中的繁体字的文字序列特征:y=g(Vs_t+V′s_t′);其中,y为样本图片中的繁体字的文字序列特征,V为所述循环网络层的输出层的第一权重矩阵,g为输出层激活函数,V’为所述循环网络层的输出层的第二权重矩阵。
可选的,所述将所述文字序列特征输入至CTC模型中,计算得到损失函数,包括:采用如下公式计算所述损失函数:
Figure BDA0002702825760000031
其中,x为输入的所述文字序列特征,z为所述损失函数的输出,L(S)为所述损失函数,S为x与z的集合,L(x,z)为求x与z的最大似然估计。
为解决上述技术问题,本发明实施例还提供了一种中文繁体字识别装置,包括:获取单元,用于获取待识别的图片;识别单元,用于采用预设的繁体字识别神经网络模型对所述待识别的图片进行识别;输出单元,用于输出识别出的繁体字;所述繁体字识别神经网络模型采用如下步骤生成:获取包含多张样本图片的训练样本集,所述样本图片中包含有繁体字图片;获取样本图片对应的矩阵;将所述样本图片的矩阵输入至初始神经网络模型的卷积网络中,获取样本图片对应的卷积特征;将所述样本图片对应的卷积特征输入至所述初始神经网络模型的循环网络层,得到样本图片中繁体字的文字序列特征;将所述文字序列特征输入至CTC模型中,计算得到损失函数;根据所述损失函数对所述循环网络层的参数w进行调整;当训练次数达到预设次数时,得到所述繁体字识别神经网络模型。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时执行上述所述的任一种中文繁体字识别方法的步骤。
本发明实施例还提供了另一种中文繁体字识别装置,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行上述所述的任一种中文繁体字识别方法的步骤。
与现有技术相比,本发明实施例的技术方案具有以下有益效果:
采用包含多张样本图片的训练样本集训练生成繁体字识别神经网络模型,在训练繁体字神经网络模型的过程中,由卷积网络获取样本图片对应的卷积特征,能够获取繁体字的更多特征;通过循环神经网络模型获取繁体字的文字序列特征,能够提高识别精度。因此,采用训练得到的繁体字识别神经网络模型对待识别的图片进行识别,能够提高中文繁体字识别的速度和精度。
附图说明
图1是本发明实施例一种中文繁体字识别方法的流程图;
图2是本发明实施例一种繁体字识别神经网络模型生成方法的流程图;
图3是本发明实施例一种中文繁体字识别装置的结构示意图。
具体实施方式
如上述背景技术中所述,现有的深度学习主要应用在简体字识别领域。将深度学习识别方法应用在繁体字识别技术领域中时,由于繁体字相比于简体字的笔画更多,需要关注的特征更多,导致现有的繁体字识别方法的精确度较低,速率较慢。
在本发明实施例中,采用包含多张样本图片的训练样本集训练生成繁体字识别神经网络模型,在训练繁体字神经网络模型的过程中,由卷积网络获取样本图片对应的卷积特征,能够获取繁体字的更多特征;通过循环神经网络模型获取繁体字的文字序列特征,能够提高识别精度。因此,采用训练得到的繁体字识别神经网络模型对待识别的图片进行识别,能够提高中文繁体字识别的速度和精度。
为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
本发明实施例提供了一种中文繁体字识别方法,参照图1,以下通过具体步骤进行详细说明。
步骤S101,获取待识别的图片。
在具体实施中,需要识别某些图片中是否存在中文繁体字。因此,可以将存在中文繁体字识别需求的图片作为待识别的图片。在进行中文繁体识别时,可以预先获取待识别的图片。
在实际应用中,待识别的图片可以从网络上下载,也可以由本地存储器(如U盘、移动硬盘)等承载。可以理解的是,获取待识别的图片的方式可以存在更多种,本发明实施例对此并不做限定。
在具体实施中,待识别的图片中可以包含有一个或多个中文繁体字,也可能其中并未存在无中文繁体字。
步骤S102,采用预设的繁体字识别神经网络模型对所述待识别的图片进行识别,并输出识别出的繁体字。
在具体实施中,可以预先训练得到繁体字识别神经网络模型。在获取到待识别的图片之后,可以将待识别的图片输入至繁体字识别神经网络模型中,由繁体字识别神经网络模型对输入的待识别图片进行识别。当待识别图片中存在中文繁体字时,繁体字识别神经网络模型可以输出所识别出的中文繁体字;当待识别图片中不存在中文繁体字时,繁体字识别神经网络模型可以输出“不存在中文繁体字”等提示。通过如上输出,可以使得用户获知待识别的图片中是否存在中文繁体字,以及存在的是哪些中文繁体字。
下面对本发明上述实施例中提供的繁体字识别神经网络模型的生成进行详细说明。
参照图2,给出了本发明实施例中的一种繁体字识别神经网络模型生成方法的流程图,以下通过具体步骤进行详细说明。
步骤S201,获取包含多张样本图片的训练样本集。
在具体实施中,用户可以预先获取多张样本图片,以构成训练样本集。训练样本集中的每张样本图片中,都包含有繁体字图片。也就是说,每一张样本图片中都有繁体字存在。
在具体应用中,训练样本集中的样本图片的个数可以根据具体的应用需求来确定。当训练样本集中的样本图片个数较多时,训练得到的繁体字识别神经网络模型所需的时间和计算量较大,但是得到的繁体字识别神经网络模型最终的输出结果精确度较高。反之,当训练样本集中的样本图片个数较少时,训练得到的繁体字识别神经网络模型所需的时间和计算量较小,但是得到的繁体字识别神经网络模型最终的输出结果精确度较差。
因此,可以在识别精确度和模型训练的时间、计算量之间进行均衡。
步骤S202,获取样本图片对应的矩阵。
在本发明实施例中,可以依次获取每一张样本图片对应的矩阵形式。在实际应用中可知,数字图像数据可以采用矩阵来表示。如对于灰度图像,其对应的矩阵形式中,矩阵的行对应图像的高(单位为像素),矩阵的列对应的图像的宽(单位为像素),矩阵的元素对应的图像的像素,矩阵元素的值即为像素的灰度值。
具体的,获取样本图片的矩阵形式的具体运算过程及原理可以参照现有技术,本发明实施例不做赘述。
步骤S203,将所述样本图片的矩阵输入至初始神经网络模型的卷积网络中,获取样本图片对应的卷积特征。
在具体实施中,在获取到样本图片的矩阵之后,可以将样本图片的矩阵输入至初始神经网络模型的卷积网络中,获得该样本图片对应的卷积特征。
在本发明实施例中,初始神经网络模型可以为未经过样本图片训练的神经网路模型,也即在进行样本图片训练所采用的初始的神经网络模型。在具体应用中,该初始神经网络模型的选取可以根据实际的应用场景进行选择。
在具体实施中,初始神经网络模型的卷积网络可以包括7层卷积层和4层池化层,其中:第一池化层设置在第一卷积层与第二卷积层之间,第二池化层设置在第二卷积层与第三卷积层之间,第三池化层设置在第四卷积层与第五卷积层之间,第四池化层设置在第六池化层与第七池化层之间。
也就是说,在卷积网络中,卷积层与池化层之间的排列顺序如下:第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第四卷积层、第三池化层、第五卷积层、第六卷积层、第四池化层以及第七池化层。
在具体实施中,池化层夹在连续的卷积层之间,用于压缩数据和参数的量,减少过拟合。对于输入的图像,通过池化层可以对图像进行压缩。图像经过池化层后可以最大限度地保留有用特征,且能够将图像中最重要的特征抽取出来。
将样本图片的矩阵输入至初始神经网络模型的卷积网络,依次经过上述的7层卷积层和4层池化层之后,即可得到样本图片对应的卷积特征。
在本发明实施例中,对应于第i层卷积层,其对应的输出计算公式为:N1=(n–F+2P)/S+1,其中,N1为第i层卷积层的输出,1≤i≤7;对于第j层池化层,其对应的输出计算公式为:N=(n–F)/S+1,其中,N2为第j层池化层的输出,1≤j≤4,S为步长,F为滤波器尺寸,P为填充值的大小。在上述的池化层和卷积层的输出计算公式中,n为前一层的输入。对于第j层池化层,其对应的激活函数为ReLU函数,且ReLU函数表达式如下:f(x)=max(0,N2)。
在本发明实施例中,对于第一层卷积层,其对应的输入为样本图片的矩阵。对于第一层池化层,其对应的输入为第一层卷积层的输出。对于第二层卷积层,其对应的输入为第一层池化层的输出。对于第二层池化层,其对应的输入为第二层卷积层的输出。以此类推,根据上述卷积层与池化层之间的排列顺序,前一层的输出为后一层的输入,最终样本图片的卷积特征经过第七层池化层输出。
在具体实施中,样本图片的大小可以为280*32像素。可以理解的是,在实际应用中,也可以根据具体的应用场景选择对应的样本图片的大小,本发明实施例并不对所选择的样本图片的大小进行限定。
步骤S204,将所述样本图片对应的卷积特征输入至所述初始神经网络模型的循环网络层,得到样本图片中的繁体字的文字序列特征。
在具体实施中,在得到样本图片对应的卷积特征之后,可以将样本图片对应的卷积特征输入至初始神经网络模型的循环网络层。通过初始神经网络模型的循环网络层,获取样本图片中的繁体字的文字序列特征。
在具体实施中,循环网络层可以包括输入层、隐藏层以及输出层。具体而言,将样本图片对应的卷积特征输入至初始神经网络模型的循环网络层,实质上是将样本图片对应的卷积特征输入至循环网络层的输入层。
在具体实施中,在将样本图片对应的卷积特征输入至循环网络层之后,可以分别计算样本图片对应的卷积特征的正向序列特征和反向序列特征。之后,将得到的样本图片的卷积特征的正向序列特征和反向序列特征进行相加运算,将得到的和值作为样本图片中繁体字的文字序列特征。
在具体实施中,可以将卷积网络的输出形式以如下形式输入至初始神经网络模型的循环网络层:[seq_len,batch_size,input_size],也即样本图片的卷积特征是以[seq_len,batch_size,input_size]的形式输入至循环网络层。其中,seq_len为卷积特征的序列长度,batch_size为卷积特征的批次大小,input_size为卷积特征的输入大小。
在本发明实施例中,卷积网络输出的样本图片的卷积特征为[70,1,512],其中的70表征该样本图片的卷积特征的序列长度,1表征该样本图片的卷积特征的批次,512表征该样本图片的卷积特征的大小。
在具体实施中,卷积网络输出的样本图片的卷积特征的输入序列为x_t=(x1,x2,x3,…,xT)。为了防止梯度消失,且利用前后项有用信息帮助预测,可以采用双向LSTM网络作为隐藏层,每层具有256个神经元。
在本发明实施例中,在采用双向LSTM网络作为隐藏层时,可以采用如下公式计算卷积特征的正向序列特征s_t:s_t=f(Ux_t+W(s_t-1));可以采用如下公式计算卷积特征的反向序列特征s_t′:s_t′=f(U′x_t+W′(s_t+1)′),其中,x_t为所述卷积特征对应的输入序列,U为输入序列x_t的第一权重矩阵,U’为输入序列x_t的第二权重矩阵,f为循环网络层的隐藏层激活函数,W为前一正向序列特征的权重矩阵,W’为后一反向序列特征的权重矩阵。
在本发明实施例中,循环网络层的输出层将计算得到的正向序列特征和反向序列特征进行相加,采用如下公式:y=g(Vs_t+V′s_t′),其中,V为输出层的第一权重矩阵,V’为输出层的第二权重矩阵,g为输出层激活函数,V’为所述循环网络层的输出层的第二权重矩阵。
步骤S205,将所述文字序列特征输入至CTC模型中,计算得到损失函数。
在具体实施中,在获取到繁体字的文字序列特征之后,将繁体字的文字序列特征输入到CTC(Connectionist Temporal Classification)模型中,通常输入形式为T*N,T为输入序列x_t中元素的个数,N为循环层网络层输出序列的维度向量。
在本发明实施例中,CTC模型的损失函数可以采用最大似然函数,具体如下:
Figure BDA0002702825760000081
其中,x为最大似然函数的输入,也即文字序列特征;z为最大似然函数的输出,S为x和z的集合。
步骤S206,根据所述损失函数对所述循环网络层的参数w进行调整。
在具体实施中,在得到损失函数后,可以通过得到的损失函数对循环网络层的参数w进行调整。对参数w进行调整,其目的是最小化负对数似然函数:L(x,z)=-lnp(z|x)。
在本发明实施例中,参数w可以为双向LSTM网络的参数。
步骤S207,当训练次数达到预设次数时,得到所述繁体字识别神经网络模型。
在具体实施中,当训练次数达到预设次数时,即可得到繁体字识别神经网络模型。在实际应用中,可以预先设置训练次数对应的阈值,例如预设次数为100。
在具体实施中,当繁体字识别神经网络模型训练完成后,输入待识别的图片X,即可相应得到输出Y,公式为:
Figure BDA0002702825760000091
由此可见,采用包含多张样本图片的训练样本集训练生成繁体字识别神经网络模型,在训练繁体字神经网络模型的过程中,由卷积网络获取样本图片对应的卷积特征,能够获取繁体字的更多特征;通过循环神经网络模型获取繁体字的文字序列特征,能够提高识别精度。因此,采用训练得到的繁体字识别神经网络模型对待识别的图片进行识别,能够提高中文繁体字识别的速度和精度。
参照图3,给出了本发明实施例中的一种中文繁体字识别装置30,包括:获取单元301、识别单元302以及输出单元303,其中:
获取单元301,用于获取待识别的图片;
识别单元302,用于采用预设的繁体字识别神经网络模型对所述待识别的图片进行识别;
输出单元303,用于输出识别出的繁体字;所述繁体字识别神经网络模型采用如下步骤生成:获取包含多张样本图片的训练样本集,所述样本图片中包含有繁体字图片;获取样本图片对应的矩阵;将所述样本图片的矩阵输入至初始神经网络模型的卷积网络中,获取样本图片对应的卷积特征;将所述样本图片对应的卷积特征输入至所述初始神经网络模型的循环网络层,得到样本图片中繁体字的文字序列特征;将所述文字序列特征输入至CTC模型中,计算得到损失函数;根据所述损失函数对所述循环网络层的参数w进行调整;当训练次数达到预设次数时,得到所述繁体字识别神经网络模型。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时执行上述任一实施例所述的中文繁体字识别方法的步骤。
本发明实施例还提供了另一种中文繁体字识别装置,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行上述任一实施例所述的中文繁体字识别方法的步骤。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims (10)

1.一种中文繁体字识别方法,其特征在于,包括:
获取待识别的图片;
采用预设的繁体字识别神经网络模型对所述待识别的图片进行识别,并输出识别出的繁体字;
所述繁体字识别神经网络模型采用如下步骤生成:获取包含多张样本图片的训练样本集,所述样本图片中包含有繁体字图片;获取样本图片对应的矩阵;将所述样本图片的矩阵输入至初始神经网络模型的卷积网络中,获取样本图片对应的卷积特征;将所述样本图片对应的卷积特征输入至所述初始神经网络模型的循环网络层,得到样本图片中繁体字的文字序列特征;将所述文字序列特征输入至CTC模型中,计算得到损失函数;根据所述损失函数对所述循环网络层的参数w进行调整;当训练次数达到预设次数时,得到所述繁体字识别神经网络模型。
2.根据权利要求1所述的中文繁体字识别方法,其特征在于,所述卷积网络包括7层卷积层和4层池化层,且第一池化层设置在第一卷积层与第二卷积层之间,第二池化层设置在所述第二卷积层与第三卷积层之间,第三池化层设置在所述第四卷积层与第五卷积层之间,第四池化层设置在第六池化层与第七池化层之间;
所述将所述样本图片的矩阵输入至初始神经网络模型的卷积网络中,得到样本图片对应的卷积特征,包括:将所述样本图片的矩阵输入至所述卷积网络,依次经过7层卷积层和4层池化层后,得到所述样本图片对应的卷积特征;
其中,第i卷积层的输出计算公式为:N1=(n–F+2P)/S+1,第j池化层的输出计算公式为:N2=(n–F)/S+1;
其中,N1为第i层卷积层的输出,1≤i≤7;N2为第j层池化层的输出,1≤j≤4;F为滤波器的尺寸,P为填充值的大小,S为步长;n为前一层的输入;第j池化层的激活函数为ReLU函数,且ReLU函数表达式如下:f(x)=max(0,N2)。
3.如权利要求2所述的中文繁体字识别方法,其特征在于,所述样本图片的大小为280*32像素。
4.如权利要求1所述的中文繁体字识别方法,其特征在于,所述将所述样本图片对应的卷积特征输入至所述初始神经网络模型的循环网络层,得到样本图片中繁体字的文字序列特征包括:
将所述样本图片对应的卷积特征输入至所述循环网络层;
分别计算所述样本图片对应的卷积特征的正向序列特征和反向序列特征,并将所述正向序列特征与所述反向序列特征相加,将得到的和值作为所述样本图片中的繁体字的文字序列特征。
5.如权利要求4所述的中文繁体字识别方法,其特征在于,采用如下公式计算所述卷积特征的正向序列特征:s_t=f(Ux_t+W(s_t-1));
采用如下公式计算所述卷积特征的反向序列特征:s_t′=f(U′x_t+W′(s_t+1)′);
其中,U为所述卷积特征对应的输入序列的第一权重矩阵,W为前一正向序列特征的权重矩阵,f为所述循环网络层的隐藏层激活函数,x_t为所述卷积特征对应的输入序列,U’为所述卷积特征对应的输入序列的第二权重矩阵,W’为后一反向序列特征的权重矩阵。
6.如权利要求5所述的中文繁体字识别方法,其特征在于,采用如下公式计算所述样本图片中的繁体字的文字序列特征:
y=g(Vs_t+V′s_t′);其中,y为样本图片中的繁体字的文字序列特征,V为所述循环网络层的输出层的第一权重矩阵,g为输出层激活函数,V’为所述循环网络层的输出层的第二权重矩阵。
7.如权利要求1所述的中文繁体字识别方法,其特征在于,所述将所述文字序列特征输入至CTC模型中,计算得到损失函数,包括:
采用如下公式计算所述损失函数:
Figure FDA0002702825750000021
其中,x为输入的所述文字序列特征,z为所述损失函数的输出,L(S)为所述损失函数,S为x与z的集合,L(x,z)为求x与z的最大似然估计。
8.一种中文繁体字识别装置,其特征在于,包括:
获取单元,用于获取待识别的图片;
识别单元,用于采用预设的繁体字识别神经网络模型对所述待识别的图片进行识别;
输出单元,用于输出识别出的繁体字;所述繁体字识别神经网络模型采用如下步骤生成:获取包含多张样本图片的训练样本集,所述样本图片中包含有繁体字图片;获取样本图片对应的矩阵;将所述样本图片的矩阵输入至初始神经网络模型的卷积网络中,获取样本图片对应的卷积特征;将所述样本图片对应的卷积特征输入至所述初始神经网络模型的循环网络层,得到样本图片中繁体字的文字序列特征;将所述文字序列特征输入至CTC模型中,计算得到损失函数;根据所述损失函数对所述循环网络层的参数w进行调整;当训练次数达到预设次数时,得到所述繁体字识别神经网络模型。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行权利要求1~7任一项所述的中文繁体字识别方法的步骤。
10.一种中文繁体字识别装置,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器运行所述计算机程序时执行权利要求1~7任一项所述的中文繁体字识别方法的步骤。
CN202011028304.0A 2020-09-26 2020-09-26 中文繁体字识别方法及装置、可读存储介质 Pending CN112163514A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011028304.0A CN112163514A (zh) 2020-09-26 2020-09-26 中文繁体字识别方法及装置、可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011028304.0A CN112163514A (zh) 2020-09-26 2020-09-26 中文繁体字识别方法及装置、可读存储介质

Publications (1)

Publication Number Publication Date
CN112163514A true CN112163514A (zh) 2021-01-01

Family

ID=73864114

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011028304.0A Pending CN112163514A (zh) 2020-09-26 2020-09-26 中文繁体字识别方法及装置、可读存储介质

Country Status (1)

Country Link
CN (1) CN112163514A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106295139A (zh) * 2016-07-29 2017-01-04 姹ゅ钩 一种基于深度卷积神经网络的舌体自诊健康云服务系统
CN106600577A (zh) * 2016-11-10 2017-04-26 华南理工大学 一种基于深度反卷积神经网络的细胞计数方法
CN109344391A (zh) * 2018-08-23 2019-02-15 昆明理工大学 基于神经网络的多特征融合中文新闻文本摘要生成方法
CN110321755A (zh) * 2018-03-28 2019-10-11 中移(苏州)软件技术有限公司 一种识别方法及装置
CN110992941A (zh) * 2019-10-22 2020-04-10 国网天津静海供电有限公司 一种基于语谱图的电网调度语音识别方法及装置
CN111126410A (zh) * 2019-12-31 2020-05-08 讯飞智元信息科技有限公司 字符识别方法、装置、设备及可读存储介质
CN111353432A (zh) * 2020-02-28 2020-06-30 安徽华润金蟾药业股份有限公司 一种基于卷积神经网络的金银花药材快速净选方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106295139A (zh) * 2016-07-29 2017-01-04 姹ゅ钩 一种基于深度卷积神经网络的舌体自诊健康云服务系统
CN106600577A (zh) * 2016-11-10 2017-04-26 华南理工大学 一种基于深度反卷积神经网络的细胞计数方法
CN110321755A (zh) * 2018-03-28 2019-10-11 中移(苏州)软件技术有限公司 一种识别方法及装置
CN109344391A (zh) * 2018-08-23 2019-02-15 昆明理工大学 基于神经网络的多特征融合中文新闻文本摘要生成方法
CN110992941A (zh) * 2019-10-22 2020-04-10 国网天津静海供电有限公司 一种基于语谱图的电网调度语音识别方法及装置
CN111126410A (zh) * 2019-12-31 2020-05-08 讯飞智元信息科技有限公司 字符识别方法、装置、设备及可读存储介质
CN111353432A (zh) * 2020-02-28 2020-06-30 安徽华润金蟾药业股份有限公司 一种基于卷积神经网络的金银花药材快速净选方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
朱晨光: "《机器阅读理解:算法与实践》", 北京机械工业出版社 *

Similar Documents

Publication Publication Date Title
KR102191351B1 (ko) 지식 증류법 기반 의미론적 영상 분할 방법
CN107330127B (zh) 一种基于文本图片检索的相似文本检测方法
CN112052886A (zh) 基于卷积神经网络的人体动作姿态智能估计方法及装置
CN109993102B (zh) 相似人脸检索方法、装置及存储介质
CN111091045A (zh) 一种基于时空注意力机制的手语识别方法
CN114049381A (zh) 一种融合多层语义信息的孪生交叉目标跟踪方法
CN114332578A (zh) 图像异常检测模型训练方法、图像异常检测方法和装置
CN113886626B (zh) 基于多重注意力机制的动态记忆网络模型的视觉问答方法
CN113177141A (zh) 基于语义嵌入软相似性的多标签视频哈希检索方法及设备
CN111738169A (zh) 一种基于端对端网络模型的手写公式识别方法
CN112861718A (zh) 一种轻量级特征融合人群计数方法及系统
CN108376234B (zh) 用于视频图像的情感识别系统及方法
CN113378812A (zh) 一种基于Mask R-CNN和CRNN的数字表盘识别方法
CN114996495A (zh) 一种基于多原型和迭代增强的单样本图像分割方法及装置
CN114764941A (zh) 一种表情识别方法、装置以及电子设备
CN116740362B (zh) 一种基于注意力的轻量化非对称场景语义分割方法及系统
CN113408418A (zh) 一种书法字体与文字内容同步识别方法及系统
CN113076905A (zh) 一种基于上下文交互关系的情绪识别方法
CN112528077A (zh) 基于视频嵌入的视频人脸检索方法及系统
CN110555379B (zh) 一种根据性别动态调整特征的人脸愉悦度估计方法
CN116311472A (zh) 基于多层次图卷积网络的微表情识别方法及装置
CN112163514A (zh) 中文繁体字识别方法及装置、可读存储介质
CN113609355B (zh) 一种基于动态注意力与图网络推理的视频问答系统、方法、计算机及存储介质
CN113313127B (zh) 文本图像识别方法、装置、计算机设备和存储介质
CN110826726B (zh) 目标处理方法、目标处理装置、目标处理设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination