CN108985324A - 手写字训练样本获取方法、装置、设备及介质 - Google Patents

手写字训练样本获取方法、装置、设备及介质 Download PDF

Info

Publication number
CN108985324A
CN108985324A CN201810564721.3A CN201810564721A CN108985324A CN 108985324 A CN108985324 A CN 108985324A CN 201810564721 A CN201810564721 A CN 201810564721A CN 108985324 A CN108985324 A CN 108985324A
Authority
CN
China
Prior art keywords
image
obtains
single font
identified
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201810564721.3A
Other languages
English (en)
Inventor
高梁梁
周罡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201810564721.3A priority Critical patent/CN108985324A/zh
Priority to PCT/CN2018/094233 priority patent/WO2019232852A1/zh
Publication of CN108985324A publication Critical patent/CN108985324A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开一种手写字训练样本获取方法、装置、设备及介质,该手写字训练样本获取方法包括:获取原始图像,对原始图像进行预处理,获取有效图像;采用核密度估计算法和腐蚀处理对有效图像进行处理,获取包括手写汉字的目标图像;采用垂直投影法对目标图像进行单字体切割,获取待识别单字体图像;将待识别单字体图像输入到目标手写字识别模型中进行识别,获取每一待识别单字体图像对应的识别结果;基于待识别单字体图像对应的识别结果查询语义库,获取待识别单字体图像对应的目标汉字;将待识别单字体图像和待识别单字体图像对应的目标汉字关联,获取手写字训练样本。该过程无需人工干预,提高手写训练样本的获取效率,并有效排除干扰,提高模型识别的准确率。

Description

手写字训练样本获取方法、装置、设备及介质
技术领域
本发明涉及手写字识别领域,尤其涉及一种手写字训练样本获取方法、装置、设备及介质。
背景技术
目前,手写字识别模型的训练需要大量的训练手写图片作为训练数据进行训练,但当前训练手写图片较少且需要人工进行收集并标注,需要耗费大量人力,且耗费时间。
发明内容
基于此,有必要针对上述技术问题,提供一种手写字训练样本获取方法、装置、设备及介质。
一种手写字训练样本获取方法,包括:
获取原始图像,所述原始图像包括手写汉字和背景图片;
对所述原始图像进行预处理,获取有效图像;
采用核密度估计算法和腐蚀处理对所述有效图像进行处理,去除所述背景图片,获取包括所述手写汉字的目标图像;
采用垂直投影法对所述目标图像进行单字体切割,获取待识别单字体图像;
将所述待识别单字体图像输入到目标手写字识别模型中进行识别,获取每一所述待识别单字体图像对应的识别结果;
基于所述待识别单字体图像对应的识别结果查询语义库,获取所述待识别单字体图像对应的目标汉字;
将所述待识别单字体图像和待识别单字体图像对应的目标汉字关联,获取手写字训练样本。
一种手写字训练样本获取装置,包括:
原始图像获取模块,用于获取原始图像,所述原始图像包括手写汉字和背景图片;
有效图像获取模块,用于对所述原始图像进行预处理,获取有效图像;
目标图像获取模块,用于采用核密度估计算法和腐蚀处理对所述有效图像进行处理,去除所述背景图片,获取包括所述手写汉字的目标图像;
待识别单字体图像获取模块,用于采用垂直投影法对所述目标图像进行单字体切割,获取待识别单字体图像;
识别结果获取模块,用于将所述待识别单字体图像输入到目标手写字识别模型中进行识别,获取每一所述待识别单字体图像对应的识别结果;
目标汉字获取模块,用于基于所述待识别单字体图像对应的识别结果查询语义库,获取所述待识别单字体图像对应的目标汉字;
手写字训练样本获取模块,用于将所述待识别单字体图像和待识别单字体图像对应的目标汉字关联,获取手写字训练样本。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述手写字训练样本获取方法的步骤。
一种非易失性存储介质,所述非易失性存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述手写字训练样本获取方法的步骤。
上述手写字训练样本获取方法、装置、设备及介质,服务器先获取原始图像,以便对原始图像进行预处理,获取有效图像。采用核密度估计算法对有效图像进行处理,去除背景图片,获取只包含手写汉字的图像,进一步排除干扰。采用垂直投影法对目标图像进行单字体切割,获取待识别单字体图像,容易实现。然后,服务器将待识别单字体图像输入到目标手写字识别模型中进行识别,以使待识别单字体图像具备时序性,使得目标手写字识别模型能够联系上下文进行识别,获取每一待识别单字体图像对应的识别结果,提高识别的准确率。基于待识别单字体图像对应的识别结果查询语义库,以获取待识别单字体图像对应的目标汉字。最后,将待识别单字体图像和待识别单字体图像对应的目标汉字关联,获取手写字训练样本,以便其他模型直接调用数据库中的手写训练样本进行训练,提高模型准确率,并省去人工标注的步骤,降低人工成本,以便快速获取手写字训练样本。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中手写字训练样本获取方法的一应用场景图;
图2是本发明一实施例中手写字训练样本获取方法的一流程图;
图3是图2中步骤S20的一具体流程图;
图4是图2中步骤S30的一具体流程图;
图5是图4中步骤S34的一具体流程图;
图6是本发明一实施例中手写字训练样本获取方法的另一流程图;
图7是图6中步骤S83的一具体流程图;
图8是本发明一实施例中手写字训练样本获取装置的一示意图;
图9是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的手写字训练样本获取方法,可应用在如图1的应用环境中。该手写字训练样本获取方法的应用环境包括服务器和计算机设备,其中,计算机设备通过网络与服务器进行通信,计算机设备是可与用户进行人机交互的设备,包括但不限于电脑、智能手机和平板等设备。本发明实施例提供的手写字训练样本获取方法应用于服务器。
在一个实施例中,如图2所示,提供一种手写字训练样本获取方法,该手写字训练样本获取方法包括如下步骤:
S10:获取原始图像,原始图像包括手写汉字和背景图片。
其中,原始图像是由计算机设备上的采集模块采集到的未经处理的包含手写汉字的图像。该原始图像包括手写汉字和背景图片。背景图片是原始图像中除手写汉字之外的噪声图片。噪声图片是对手写汉字造成干扰的图片。本实施例中,用户可通过计算机设备上的采集模块采集包含手写汉字的原始图像上传到服务器,以使服务器获取原始图像。该采集模块包括但不限于相机拍摄和本地上传。
S20:对原始图像进行预处理,获取有效图像。
其中,有效图像是对原始图像进行预处理后得到的排除干扰因素的图像。具体地,由于原始图像中可能包含多种干扰因素,如色彩繁多,不利于后续的识别。因此需要对原始图像进行预处理,以获取排除干扰因素的有效图像,该有效图像可以理解为原始图像排除背景图片后获取的图片。
在一个实施例中,如图3所示,步骤S20中,即对原始图像进行预处理,获取有效图像,具体包括如下步骤:
S21:对原始图像进行放大和灰度化处理,获取灰度化图像。
其中,灰度化图像是对原始图像进行放大和灰度化处理后获取的灰度化图像。该灰度化图像包括一像素值矩阵。像素值矩阵是指包含原始图像中每个像素对应的像素值的矩阵。本实施例中,服务器采用imread函数读取原始图像中每个像素的像素值,并对原始图像进行放大和灰度化处理,获取灰度化图像。imread函数是计算机语言中的一个函数,用于读取图像文件中的像素值。像素值是原始图像被数字化时由计算机赋予的值。
由于原始图像中可能包含多种颜色,而颜色本身,非常容易受到光照等因素的影响,同类的物体颜色有很多变化,所以颜色本身难以提供关键信息,因此需要对原始图像进行灰度化处理,以排除干扰,减少图像的复杂度和信息处理量。但由于原始图像中的手写汉字的尺寸较小时,若直接进行灰度化处理,会导致手写汉字的笔画的厚度过小,会被当成干扰项排除,因此为了增加文字笔画的厚度,需先将原始图像进行放大处理,再进行灰度化处理,以避免直接进行灰度化处理,导致手写汉字的笔画的厚度过小被当成干扰项排除的问题。
具体地,服务器按照如下公式对原始图像进行放大处理:x→xr,其中,x代表矩阵M中的元素,r为次数,将变化后的元素xr替换像素值矩阵M中x。
灰度化处理是将原始图像呈现出明显的黑白效果的处理。具体地,对放大后的图像进行灰度化处理包括:原始图像中的每个像素的颜色都是通过R(红)、G(绿)和B(蓝)三个分量决定的,而每个分量有0-255这256种值可取(0最暗表示黑色,255最亮表示白色)。而灰度化图像是R、G和B三个分量相同的一种特殊的彩色图像。本实施例中,服务器可直接采用imread函数读取原始图像,即可获取灰度化图像中每个像素对应的R、G和B三个分量的具体数值。
S22:对灰度化图像进行标准化处理,获取有效图像。
其中,有效图像是对灰度化图像进行标准化处理所获取的图像。标准化处理是指对灰度化图像进行标准的变换处理,使之变换为一固定标准形式的处理。具体地,由于灰度化图像中每个像素的像素值比较分散,导致数据的数量级不统一,则会影响后续模型识别的准确率,因此需要将灰度化图像进行标准化处理,以统一数据的数量级。
具体地,服务器采用标准化处理的公式对灰度化图像进行标准化处理,以避免灰度化图像中像素值较分散,导致数据的数量级不统一的问题。其中,标准化处理的公式为X是灰度化图像M的像素值,X’是有效图像的像素值,Mmin是灰度化图像M中最小的像素值,Mmax是灰度化图像M中最大的像素值。
S30:采用核密度估计算法和腐蚀处理对所述有效图像进行处理,去除背景图片,获取包括手写汉字的目标图像。
其中,核密度估计算法(kernel density estimation)是一种从数据样本本身出发研究数据分布特征,用于估计概率密度函数的非参数方法。目标图像是指采用核密度估计算法对有效图像进行处理获取只包含手写汉字的图像。其中,腐蚀处理是用于形态学中去除图像的某部分的内容的操作。具体地,服务器采用核密度估计算法和腐蚀处理对有效图像进行处理,以排除背景图片干扰,获取包括手写汉字的目标图像。
具体地,核密度估计算法的计算公式为
其中,其中,K(.)为核函数,h为像素值范围,x为要估计概率密度的像素的像素值,xi为h范围内的第i个像素值,n为h范围内的像素值x的个数,表示像素的估计概率密度。
在一个实施例中,如图4所示,步骤S30中,即述采用核密度估计算法对有效图像进行处理,获取包括手写汉字的目标图像,具体包括如下步骤:
S31:对有效图像中的像素值进行统计,获取有效图像直方图。
其中,有效图像直方图是对有效图像中的像素值进行统计所获取的直方图。直方图(Histogram)是由一系列高度不等的纵向条纹或线段表示数据分布的情况的一种统计报告图。本实施例中,有效图像直方图的横轴表示像素值,纵轴表示像素值对应的出现频率。服务器通过对有效图像中的像素值进行统计,获取有效图像直方图,以便能够直观的看到有效图像中像素值的分布情况,为后续高斯核密度估计算法进行估计提供技术支持。
S32:采用高斯核密度估计算法对有效图像直方图进行处理,获取与有效图像直方图对应的至少一个频率极大值和至少一个频率极小值。
其中,高斯核密度估计算法是指核密度估计算法中的核函数为高斯核函数的核密度估计方法。高斯核函数的公式为其中,K(x)指像素(自变量)为x的高斯核函数,x指有效图像中的像素值,e和π为常数。频率极大值指在频率分布直方图中,不同频率区间上的极大值。频率极小值指在频率分布直方图中,在同一频率区间上与频率极大值相对应的极小值。
具体地,采用高斯核密度函数估算方法对有效图像对应的频率分布直方图进行高斯平滑处理,获取该频率分布直方图对应的高斯平滑曲线。基于该高斯平滑曲线上的频率极大值和频率极小值,获取频率极大值和频率极小值对应横轴上的像素值,以便后续基于获取到的频率极大值和频率极小值对应的像素值便于对有效图像进行分层切分处理,获取分层图像。
S33:基于频率极大值和频率极小值对有效图像进行分层切分处理,获取分层图像。
其中,分层图像是基于极大值和极小值对有效图像进行分层切分处理所获取的图像。服务器先获取频率极大值和频率极小值对应的像素值,根据频率极大值对应的像素值对有效图像进行分层处理,有效图像中有多少个频率极大值,则对应的有效图像的像素值就被划分为多少类;然后以频率极小值对应的像素值作为类之间的边界值,根据类及类之间的边界,对该有效图像进行分层处理,以获取分层图像。
如有效图像中的频率极大值对应的像素值分别为14、56、96、115和157,频率极小值对应的像素值分别为25、67、103和135。根据有效图像中的频率极大值的个数可以确定该有效图像的像素值可以被分为5类,该有效图像可以被分为5层,频率极小值对应的像素值作为类之间的边界值,由于最小的像素值为0,最大的像素值为255,因此,根据类之间的边界值则可以确定以像素值为14的分层图像,该分层图像对应的像素值为[0,25);以像素值为56的分层图像,该分层图像对应的像素值为[25,67);以像素值为96的分层图像,该分层图像对应的像素值为[67,103);以像素值为115的分层图像,该分层图像对应的像素值为[103,135);以像素值为157的分层图像,该分层图像对应的像素值为[135,255]。
S34:基于分层图像,获取包括手写汉字的目标图像。
服务器在获取分层图像后,对分层图像进行二值化、腐蚀和叠加处理,以获取包括手写汉字的目标图像。其中,二值化处理是指将分层图像上的像素点的像素值设置为0(黑色)或1(白色),将整个分层图像呈现出明显的黑白效果的处理。对分层图像进行二值化处理后,对二值化处理后的分层图像进行腐蚀处理,去除背景图片部分,保留分层图像上的手写汉字部分。由于每个分层图像上的像素值是属于不同范围的像素值,因此,对分层图像进行腐蚀处理后,还需要将每个分层图像叠加,生成仅含有手写汉字的目标图像。其中,叠加处理指将分层后的仅保留有手写字部分的图像叠加成一个图像的处理过程,从而实现获取只包含手写字的目标图像的目的。本实施例中,采用imadd函数对分层图像进行叠加处理,以获取只包含手写字的目标图像。imadd函数是计算机语言中的一个函数,用于对分层图像进行叠加。
本实施例中,服务器先对原始图像进行放大和灰度化处理,获取灰度化图像,并对灰度化图像对应的像素矩阵进行极差标准化处理,获取有效图像,以缩小像素矩阵的范围。然后,服务器根据有效图像获取对应的频率分布直方图,并根据频率分布直方图获取频率极大值和频率极小值对应的像素值,从而获取分层图像。最后,服务器对分层图像进行二值化、腐蚀和叠加处理,以便对原始图像中手写汉字和背景图片进行识别,排除背景图片的干扰,获取包括手写汉字的目标图像。
在一个实施例中,如图5所示,步骤S34中,即采用核密度估计算法和腐蚀处理对有效图像进行处理,去除背景图片,获取包括手写汉字的目标图像,具体包括如下步骤:
S341:对分层图像进行二值化处理,获取二值化图像。
二值化图像指对分图像进行二值化处理获取的图像。具体地,服务器获取分层图像后,基于分层图像的采样像素值和预先选取的阈值进行比较,将采样像素值大于或等于阈值的像素值设置为1,小于阈值的像素值设置为0的过程。采样像素值是分层图像中每一像素点对应的像素值。阈值的大小会影响分层图像二值化处理的效果,阈值选取合适时,对分层图像进行二值化处理的效果较好;阈值选取不合适时,会影响分层图像二值化处理的效果。为了方便操作,简化计算过程,本实施例中的阈值是由开发人员根据经验确定。对分层图像进行二值化处理,方便后续进行腐蚀处理。
S342:对二值化图像中的像素进行检测标记,获取二值化图像对应的连通区域。
其中,连通区域是指某一特定像素周围的邻接像素所围成的区域。在二值化图像中连通区域是指其周围的邻接像素均为0,某一特定像素与邻接像素为1,例如某特定像素为0,其周围的邻接像素为1,则将邻接像素所围成的区域作为连通区域。
具体地,二值化图像对应一像素矩阵,其中包含行和列。对二值化图像中的像素进行检测标记具体包括如下过程:(1)对像素矩阵进行逐行扫描,把每一行中连续的白色像素组成一个序列称为一个团,并记下它的起点、终点以及所在的行号。(2)对于除了第一行外的所有行里的团,如果它与前一行中的所有团都没有重合区域,则给它一个新的标号;如果它仅与上一行中一个团有重合区域,则将上一行的那个团的标号赋给它;如果它与上一行的2个以上的团有重合区域,则给当前团赋一个相关联团的最小标号,并将上一行的这几个团中的标记写入等价对,说明它们属于一类。例如,若第二行中与上一行有2个团(1和2)有重合区域,则赋予该团上一行的2个团中的最小标号即1,并将上一行的这几个团中的标记写入等价对即将(1,2)记为等价对。等价对是指互相连通的两个团的标记,例如(1,2)表示标记1的团与标记2的团互相连通即为一个连通区域。本实施例中是以像素矩阵中某个特定像素相邻的8个邻接像素作为该元素的连通区域。
S343:对二值化图像对应的连通区域进行腐蚀和叠加处理,获取包括手写汉字的目标图像。
采用MATLAB中内置的imerode函数对二值化图像的连通区域进行腐蚀处理。具体地,对二值化图像对应的连通区域进行腐蚀处理包括如下步骤:首先,选取一个n×n的结构元素,本实施例中是以像素矩阵中每个元素相邻的8个元素值作为该元素的连通区域的,因此,选取的结构元素为3×3的像素矩阵。结构元素是一个n×n的像素矩阵,其中的矩阵元素包括0或1。对分层二值化图像的像素矩阵进行扫描,获取像素值为1的像素点,比较该像素点相邻的8个邻接像素是否全为1,若全为1,则保持不变;若不全为1,则像素矩阵中该像素点相邻的8个邻接像素都变为0(黑色)。该变为0部分则为分层二值化图像被腐蚀的部分。Matlab是在数学科技应用领域中数值计算方面的应用软件。
基于预先设置的手写字区域抗腐蚀能力范围对二值化图像进行筛选,对于不在手写字区域抗腐蚀能力范围内的二值化图像部分删除,获取二值化图像中在手写字区域抗腐蚀能力范围内的部分。对筛选出的符合手写字区域抗腐蚀能力范围的每个二值化图像部分对应的像素矩阵进行叠加,就可以获取到仅含有手写汉字的目标图像。其中,手写字区域抗腐蚀能力可以采用公式:计算,s1表示二值化图像中被腐蚀后的总面积,s2表示二值化图像中被腐蚀前的总面积,p为手写字区域抗腐蚀能力。
例如,预先设置的手写字区域抗腐蚀能力范围为[0.03,0.6],根据公式计算每个二值化图像被腐蚀后的总面积和二值化图像被腐蚀前的总面积的比值p。通过计算二值化图像中某区域腐蚀后的总面积和腐蚀前的总面积的比值p不在预先设置的手写字区域抗腐蚀能力范围内,则表示该区域的二值化图像是背景图像而不是手写字,需进行腐蚀处理,以去除该背景图像。若二值化图像中的某区域腐蚀后的总面积和腐蚀前的总面积的比值p在[0.03,0.6]范围内,则表示该区域的二值化图像是手写汉字,需保留。对保留下的二值化图像对应的像素矩阵进行叠加处理,获取含有手写汉字的目标图像。
步骤S331-S333中,对分层图像进行二值化处理,获取二值化图像,然后对二值化图像中的像素进行检测标记,获取二值化图像对应的连通区域,对与结构元素不完全一致的像素矩阵中的元素都变为0,元素为0的二值化图像为黑色,该黑色部分则是二值化图像被腐蚀的部分,通过计算二值化图像被腐蚀后的总面积和二值化图像被腐蚀前的总面积的比值p,判断该比值是否在预先设置的手写字区域抗腐蚀能力范围,以便去除每一分层图像中的背景图像,包括手写汉字,最后将每一分层图像进行叠加,达到获取目标图像的目的。
S40:采用垂直投影法对目标图像进行单字体切割,获取待识别单字体图像。
其中,垂直投影法是指将每一行手写汉字进行垂直方向的投影,获取垂直投影直方图的方法。垂直投影直方图是指反映目标图像在垂直方向上的像素个数。
具体地,采用垂直投影极值对目标图像进行单字体切割具体包括如下步骤:服务器对目标图像中的至少一行手写汉字逐行进行扫描,获取每一行手写汉字对应的像素值,根据每一像素值对应的垂直投影直方图,获取不同像素值对应的像素数量,按照垂直投影直方图中的极小值,对目标图像进行循环切割,获取单个字体对应的图像。可以理解地,每一个手写汉字对应的像素值是比较集中的,汉字与汉字之间的间隙对应的像素值是比较稀疏的,对应的像素值的密集程度反应在对应的垂直投影直方图中,则在垂直投影直方图中有汉字的像素值对应的像素数量比较高,没有汉字的像素值对应的像素数量比较低,通过垂直投影法能够有效对目标图像进行单字体切割,获取待识别单字体图像,实现简单,为后续进行模型识别提供技术支持。
S50:将待识别单字体图像输入到目标手写字识别模型中进行识别,获取每一待识别单字体图像对应的识别结果。
其中,目标手写字识别模型是预先训练好的用于识别手写字的模型。具体地,服务器将待识别单字体图像输入到目标手写字识别模型中进行识别,使得目标手写字识别模型能够联系上下文进行识别,获取每一待识别单字体图像对应的手写汉字,提高识别的准确率。
S60:基于所述待识别单字体图像对应的识别结果查询语义库,获取所述待识别单字体图像对应的目标汉字。
其中,语义库是预先设置的用于对识别结果进行语义分析的知识库。语义分析是对识别结果进行上下文有关性质的分析。语义库是由大量的中文句子组成。目标汉字是查询语义库后符合语义的待识别单字体图像所对应的汉字。具体地,服务器基于识别结果查询语义库,例如,假设识别结果为“我今天很开心”和“我令天很开心”,但不确定哪一个识别结果更加准确,因此需查询语义库,进一步判断哪一识别结果更加准确。通过查询语义库“我今天很开心”符合语义,则获取每一单字体图像对应的目标汉字即“我”、“今”、“天”、“很”、“开”和“心”,将识别结果为“我令天很开心”去除,以提高准确率。
S70:将待识别单字体图像和待识别单字体图像对应的目标汉字关联,获取手写字训练样本。
其中,手写字训练样本是用于进行其他模型训练的训练样本。具体地,服务器将步骤S60获取的待识别单字体图像对应的目标汉字和待识别单字体图像关联,并作为手写训练样本存储在数据库中,以便其他模型直接调用数据库中的手写训练样本进行训练,提高模型准确率。
本实施例中,用户可通过计算机设备上的采集模块采集包含手写汉字的原始图像上传到服务器,以使服务器获取原始图像。然后,服务器对原始图像进行预处理,获取排除干扰因素的有效图像。采用核密度估计算法对有效图像进行处理,去除背景图片,获取只包含手写汉字的目标图像,进一步排除干扰。采用垂直投影法对目标图像进行单字体切割,获取待识别单字体图像,容易实现。将待识别单字体图像输入到目标手写字识别模型中进行识别,以使单字体图像具备时序性,使得目标手写字识别模型能够联系上下文进行识别,获取每一待识别单字体图像对应的识别结果,提高识别的准确率。基于识别结果查询语义库,以便更精确的获取对应的目标汉字。最后,将待识别单字体图像和待识别单字体图像对应的目标汉字关联,获取手写字训练样本,以便其他模型直接调用数据库中的手写训练样本进行训练,提高模型准确率,并且该手写字训练样本获取过程无需人工编辑,省去人工标注的步骤,降低人工成本,提高手写字训练样本的获取效率。
在一个实施例中,该手写字训练样本获取方法还包括:预先训练目标手写字识别模型。如图6所示,预先训练目标手写字识别模型具体包括如下步骤:
S81:获取训练手写中文图像。
其中,训练手写中文图像是预先从开源库中采集的用于进行模型训练的样本图像。该训练手写中文图像包括中文二级字库中每一中文对应的N(N为正整数)张手写字样本。中文二级字库是按汉字的部首笔划顺序编码的非常用汉字库。具体地,采集开源库中的不同人手写的N张手写字样本,以使服务器获取训练手写中文图像,由于不同用户的书写习惯不同,因此采用N张手写字样本(即训练手写中文图像)进行训练,极大的提高了模型的泛化性。
S82:采用垂直投影法对训练手写中文图像进行单字体切割,获取训练单字体图像。
其中,垂直投影法对训练手写中文图像进行单字体切割的切割过程与步骤S40相同,为避免重复,在此不再赘述。训练单字体图像是用于输入模型进行训练的单字体图像。
S83:对训练单字体图像进行顺序标注,并将标注好的训练单字体图像输入到长短时记忆神经网络模型中进行训练,获取目标手写字识别模型。
其中,对训练单字体图像进行顺序标注的标注过程与步骤S50相同,为避免重复,在此不再赘述。长短时记忆神经网络(long-short term memory,以下简称LSTM)模型是一种时间递归神经网络模型,适合于处理和预测具有时间序列,且时间序列间隔和延迟相对较长的重要事件。LSTM模型具有时间记忆功能,因而用来处理携带时序状态的训练单字体图像。LSTM模型是具有长时记忆能力的神经网络模型中的一种,具有输入层、隐藏层和输出层这三层网络结构。其中,输入层是LSTM模型的第一层,用于接收外界信号,即负责接收训练单字体图像。输出层是LSTM模型的最后一层,用于向外界输出信号,即负责输出LSTM模型的计算结果。隐藏层是LSTM模型中除输入层和输出层之外的各层,用于对训练单字体图像进行处理,获取LSTM模型的计算结果。可以理解地,采用LSTM模型进行模型训练增加了训练单字体图像的时序性,以便根据上下文对训练单字体图像进行训练,从而提高了目标手写字识别模型的准确率。本实施例中,LSTM模型的输出层采用Softmax(回归模型)进行回归处理,用于分类输出权重矩阵。Softmax(回归模型)是一种常用于神经网络的分类函数,它将多个神经元的输出,映射到[0,1]区间内,可以理解成概率,计算起来简单方便,从而来进行多分类输出,使其输出结果更准确。
本实施例中,先获取训练手写中文图像,采用垂直投影法对训练手写中文图像进行单字体切割,获取训练单字体图像,以便对训练单字体图像进行顺序标注,以使训练单字体图像具备时序性,将标注好的训练单字体图像输入到长短时记忆神经网络模型中进行训练,根据训练单字体图像的时序性,以便根据上下文对训练单字体图像进行训练,从而提高了目标手写字识别模型的准确率。
在一个实施例中,如图7所示,步骤S83中,即将标注好的训练单字体图像输入到长短时记忆神经网络模型中进行训练,获取目标手写字识别模型,具体包括如下步骤:
S831:在长短时记忆神经网络模型的隐藏层采用第一激活函数对训练单字体图像进行计算,获取携带激活状态标识的神经元。
其中,长短时记忆神经网络模型的隐藏层中的每个神经元包括三个门,其分别为输入门、遗忘门和输出门。遗忘门决定了在神经元中所要丢弃的过去的信息。输入门决定了在神经元中所要增加的信息。输出门决定了在神经元中所要输出的信息。第一激活函数是用于激活神经元状态的函数。神经元状态决定了各个门(即输入门、遗忘门和输出门)的丢弃、增加和输出的信息。激活状态标识包括通过标识和不通过标识。本实施例中的输入门、遗忘门和输出门对应的标识分别为i、f和o。
本实施例中,具体选用Sigmoid(S型生长曲线)函数作为第一激活函数,Sigmoid函数是一个在生物学中常见的S型的函数,在信息科学中,由于其单增以及反函数单增等性质,Sigmoid函数常被用作神经网络的阈值函数,将变量映射到0,1之间。其激活函数的计算公式为其中,z表示遗忘门的输出值。
具体地,遗忘门中包括遗忘门限,通过计算每一神经元(训练单字体图像)的激活状态,以获取携带激活状态标识为通过标识的神经元。其中,采用遗忘门的计算公式ft=σ(Wf·[ht-1,xt]+bf)计算遗忘门哪些信息被接收(即只接收携带激活状态标识为通过标识的神经元),ft表示遗忘门限(即激活状态),Wf表示遗忘门的权重矩阵,bf表示遗忘门的权值偏置项,ht-1表示上一时刻神经元的输出,xt表示当前时刻的输入数据(即训练单字体图像),t表示当前时刻,t-1表示上一时刻。遗忘门中还包括遗忘门限,。通过遗忘门的计算公式对训练单字体图像进行计算会得到一个0-1区间的标量,此标量决定了神经元根据当前状态和过去状态的综合判断所接收过去信息的比例,以达到数据的降维,减少计算量,提高训练效率。
S832:在长短时记忆神经网络模型的隐藏层采用第二激活函数对携带激活状态标识的神经元进行处理,获取长短时记忆神经网络模型隐藏层的输出值。
其中,长短时记忆神经网络模型隐藏层的输出值包括输入门的输出值、输出门的输出值和神经元状态。具体地,在长短时记忆神经网络模型的隐藏层中的输入门中,采用第二激活函数携带激活状态标识为通过标识的神经元进行计算,获取隐藏层的输出值。本实施例中,由于线性模型的表达能力不够,因此采用tanh(双曲正切)函数作为输入门的激活函数(即第二激活函数),可加入非线性因素使得训练出的ASR-LSTM语音识别模型能够解决更复杂的问题。并且,激活函数tanh(双曲正切)具有收敛速度快的优点,可以节省训练时间,增加训练效率。
具体地,通过输入门的计算公式计算输入门的输出值。其中,输入门中还包括输入门限,输入门的计算公式为it=σ(Wi·[ht-1,xt]+bi),Wi为输入门的权值矩阵,it表示输入门限,bi表示输入门的偏置项,通过输入门的计算公式对训练单字体图像进行计算会得到一个0-1区间的标量(即输入门限),此标量控制了神经元根据当前状态和过去状态的综合判断所接收当前信息的比例,即接收新输入的信息的比例,以减少计算量,提高训练效率。
采用神经元状态的计算公式计算当前神经元状态;其中,Wc表示神经元状态的权重矩阵,bc表示神经元状态的偏置项,表示上一时刻的神经元状态,Ct表示当前时刻神经元状态。通过将神经元状态和遗忘门限(输入门限)进行点乘操作,以便模型只输出所需的信息,提高模型学习的效率。
最后,采用输出门的计算公式ot=σ(Wo[ht-1,xt]+bo)计算输出门中哪些信息被输出,再采用公式ht=ot*tanh(Ct)计算当前时刻神经元的输出值,其中,ot表示输出门限,Wo表示输出门的权重矩阵,bo表示输出门的偏置项,ht表示当前神经元的输出值。
S833:根据长短时记忆神经网络模型隐藏层的输出值,采用小批量梯度下降算法对长短时记忆神经网络模型的模型参数进行更新,获取目标手写字识别模型。
其中,小批量梯度下降算法是每次在更新模型参数时采用一部分样本(训练单字体图像)来进行更新,而不是采用所有样本进行更新,加快训练速率。长短时记忆神经网络模型的模型参数是指长短时记忆神经网络模型各层之间的权值和偏置。
首先,根据损失函数构建公式构建损失函数,其中,m表示选取训练样本(训练单字体图像)的数量,θ表示原始手写中文识别模型的模型参数,如Wi或bi,hθ(x)表示长短时记忆神经网络模型隐藏层的输出值,(xi(训练单字体图像),yi(真实结果))表示第i个训练样本(训练单字体图像)。通过参数更新公式对损失函数进行求偏导运算,以更新模型参数即更新各层之间的权值和偏置,将获取的更新后的各层的权值和偏置,应用到长短时记忆神经网络模型中即可获取目标手写字识别模型。具体地,参数更新公式为其中,J(θ)为损失函数,θj表示第j层长短时记忆神经网络的模型参数,hθ(x)表示长短时记忆神经网络隐藏层的输出值。
进一步地,该目标手写字识别模型中的各权值实现了目标手写字识别模型决定丢弃哪些旧信息、增加哪些新信息以及输出哪些信息的功能。在目标手写字识别模型的输出层最终会输出概率值,该概率值是指训练单字体图像识别出对应的汉字的概率,可广泛应用于手写字识别方面,以达到准确识别训练单字体图像的目的。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一个实施例中,图8示出与上述实施例中手写字训练样本获取方法一一对应的手写字训练样本获取装置的示意图。如图8所示,该手写字训练样本获取装置包括原始图像获取模块10、有效图像获取模块20、目标图像获取模块30、待识别单字体图像获取模块40、识别结果获取模块50、目标汉字获取模块60和手写字训练样本获取模块70。各功能模块详细说明如下:
原始图像获取模块10,用于获取原始图像,原始图像包括手写汉字和背景图片。
有效图像获取模块20,用于对原始图像进行预处理,获取有效图像。
目标图像获取模块30,用于采用核密度估计算法和腐蚀处理对所述有效图像进行处理,去除背景图片,获取包括手写汉字的目标图像。
待识别单字体图像获取模块40,用于采用垂直投影法对目标图像进行单字体切割,获取待识别单字体图像。
识别结果获取模块50,用于将待识别单字体图像输入到目标手写字识别模型中进行识别,获取每一待识别单字体图像对应的识别结果。
目标汉字获取模块60,用于基于待识别单字体图像对应的识别结果查询语义库,获取待识别单字体图像对应的目标汉字。
手写字训练样本获取模块70,用于将待识别单字体图像和待识别单字体图像对应的目标汉字关联,获取手写字训练样本。
具体地,有效图像获取模块20包括灰度化图像获取单元21和有效图像获取单元22。
灰度化图像获取单元21,用于对原始图像进行放大和灰度化处理,获取灰度化图像。
有效图像获取单元22,用于对灰度化图像进行标准化处理,获取有效图像,其中,标准化处理的公式为X是灰度化图像M的像素值,X’是有效图像的像素值,Mmin是灰度化图像M中最小的像素值,Mmax是灰度化图像M中最大的像素值。
具体地,目标图像获取模块30包括有效图像直方图获取单元31、频率极值获取单元32、分层图像获取单元33和目标图像获取单元34。
有效图像直方图获取单元31,用于对有效图像中的像素值进行统计,获取有效图像直方图。
频率极值获取单元32,用于采用高斯核密度估计算法对有效图像直方图进行处理,获取与有效图像直方图对应的至少一个频率极大值和至少一个频率极值获取单元,用于频率极小值。
分层图像获取单元33,用于基于频率极大值和频率极小值对有效图像进行分层切分处理,获取分层图像。
目标图像获取单元34,用于基于分层图像,获取包括手写汉字的目标图像。
具体地,目标图像获取单元34包括二值化图像获取子单元341、连通区域获取子单元342和目标图像获取子单元343。
二值化图像获取子单元341,用于对分层图像进行二值化处理,获取二值化图像。
连通区域获取子单元342,用于对二值化图像中的像素进行检测标记,获取二值化图像对应的连通区域。
目标图像获取子单元343,用于对二值化图像对应的连通区域进行腐蚀和叠加处理,获取包括手写汉字的目标图像。
具体地,该手写字训练样本获取装置还包括手写字识别模型训练模块80,用于预先训练目标手写字识别模型。
手写字识别模型训练模块80包括训练手写中文图像获取单元81、训练单字体图像获取单元82和目标手写字识别模型获取单元83。
训练手写中文图像获取单元81,用于获取训练手写中文图像。
训练单字体图像获取单元82,用于采用垂直投影法对训练手写中文图像进行单字体切割,获取训练单字体图像。
目标手写字识别模型获取单元83,用于对训练单字体图像进行顺序标注,并将标注好的训练单字体图像输入到长短时记忆神经网络模型中进行训练,获取目标手写字识别模型。
具体地,目标手写字识别模型获取单元83包括激活状态神经元获取子单元831、隐藏层输出值获取子单元832和目标识别模型获取子单元833。
激活状态神经元获取子单元831,用于在长短时记忆神经网络模型的隐藏层采用第一激活函数对单字体图像进行处理,获取携带激活状态标识的神经元。
隐藏层输出值获取子单元832,用于在长短时记忆神经网络模型的隐藏层采用第二激活函数对携带激活状态标识的神经元进行处理,获取长短时记忆神经网络模型隐藏层的输出值。
目标识别模型获取子单元833,用于根据长短时记忆神经网络模型隐藏层的输出值,采用小批量梯度下降算法对长短时记忆神经网络模型的模型参数进行更新,获取目标手写字识别模型。
关于手写字训练样本获取装置的具体限定可以参见上文中对于手写字训练样本获取方法的限定,在此不再赘述。上述手写字训练样本获取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储执行手写字训练样本获取方法过程中生成或获取的数据,如手写字训练样本。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种手写字训练样本获取方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:获取原始图像,原始图像包括手写汉字和背景图片;对原始图像进行预处理,获取有效图像;采用核密度估计算法和腐蚀处理对所述有效图像进行处理,去除背景图片,获取包括手写汉字的目标图像;采用垂直投影法对目标图像进行单字体切割,获取待识别单字体图像;将待识别单字体图像输入到目标手写字识别模型中进行识别,获取每一待识别单字体图像对应的识别结果;基于待识别单字体图像对应的识别结果查询语义库,获取待识别单字体图像对应的目标汉字;将待识别单字体图像和待识别单字体图像对应的目标汉字关联,获取手写字训练样本。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:对原始图像进行放大和灰度化处理,获取灰度化图像;对灰度化图像进行标准化处理,获取有效图像,其中,标准化处理的公式为X是灰度化图像M的像素值,X’是有效图像的像素值,Mmin是灰度化图像M中最小的像素值,Mmax是灰度化图像M中最大的像素值。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:对有效图像中的像素值进行统计,获取有效图像直方图;采用高斯核密度估计算法对有效图像直方图进行处理,获取与有效图像直方图对应的至少一个频率极大值和至少一个频率极小值;基于频率极大值和频率极小值对有效图像进行分层切分处理,获取分层图像;基于分层图像,获取包括手写汉字的目标图像。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:对分层图像进行二值化处理,获取二值化图像;对二值化图像中的像素进行检测标记,获取二值化图像对应的连通区域;对二值化图像对应的连通区域进行腐蚀和叠加处理,获取包括手写汉字的目标图像。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取训练手写中文图像;采用垂直投影法对训练手写中文图像进行单字体切割,获取训练单字体图像;对训练单字体图像进行顺序标注,并将标注好的训练单字体图像输入到长短时记忆神经网络模型中进行训练,获取目标手写字识别模型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:在长短时记忆神经网络模型的隐藏层采用第一激活函数对单字体图像进行处理,获取携带激活状态标识的神经元;在长短时记忆神经网络模型的隐藏层采用第二激活函数对携带激活状态标识的神经元进行处理,获取长短时记忆神经网络模型隐藏层的输出值;根据长短时记忆神经网络模型隐藏层的输出值,采用小批量梯度下降算法对长短时记忆神经网络模型的模型参数进行进行更新,获取目标手写字识别模型。
在一个实施例中,提供了一种非易失性存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取原始图像,原始图像包括手写汉字和背景图片;对原始图像进行预处理,获取有效图像;采用核密度估计算法和腐蚀处理对所述有效图像进行处理,去除背景图片,获取包括手写汉字的目标图像;采用垂直投影法对目标图像进行单字体切割,获取待识别单字体图像;将待识别单字体图像输入到目标手写字识别模型中进行识别,获取每一待识别单字体图像对应的识别结果;基于待识别单字体图像对应的识别结果查询语义库,获取待识别单字体图像对应的目标汉字;将待识别单字体图像和待识别单字体图像对应的目标汉字关联,获取手写字训练样本。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:对原始图像进行放大和灰度化处理,获取灰度化图像;对灰度化图像进行标准化处理,获取有效图像,其中,标准化处理的公式为X是灰度化图像M的像素值,X’是有效图像的像素值,Mmin是灰度化图像M中最小的像素值,Mmax是灰度化图像M中最大的像素值。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:对有效图像中的像素值进行统计,获取有效图像直方图;采用高斯核密度估计算法对有效图像直方图进行处理,获取与有效图像直方图对应的至少一个频率极大值和至少一个频率极小值;基于频率极大值和频率极小值对有效图像进行分层切分处理,获取分层图像;基于分层图像,获取包括手写汉字的目标图像。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:对分层图像进行二值化处理,获取二值化图像;对二值化图像中的像素进行检测标记,获取二值化图像对应的连通区域;对二值化图像对应的连通区域进行腐蚀和叠加处理,获取包括手写汉字的目标图像。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取训练手写中文图像;采用垂直投影法对训练手写中文图像进行单字体切割,获取训练单字体图像;对训练单字体图像进行顺序标注,并将标注好的训练单字体图像输入到长短时记忆神经网络模型中进行训练,获取目标手写字识别模型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:在长短时记忆神经网络模型的隐藏层采用第一激活函数对单字体图像进行处理,获取携带激活状态标识的神经元;在长短时记忆神经网络模型的隐藏层采用第二激活函数对携带激活状态标识的神经元进行处理,获取长短时记忆神经网络模型隐藏层的输出值;根据长短时记忆神经网络模型隐藏层的输出值,采用小批量梯度下降算法对长短时记忆神经网络模型的模型参数进行进行更新,获取目标手写字识别模型。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种手写字训练样本获取方法,其特征在于,包括:
获取原始图像,所述原始图像包括手写汉字和背景图片;
对所述原始图像进行预处理,获取有效图像;
采用核密度估计算法和腐蚀处理对所述有效图像进行处理,去除所述背景图片,获取包括所述手写汉字的目标图像;
采用垂直投影法对所述目标图像进行单字体切割,获取待识别单字体图像;
将所述待识别单字体图像输入到目标手写字识别模型中进行识别,获取每一所述待识别单字体图像对应的识别结果;
基于所述待识别单字体图像对应的识别结果查询语义库,获取所述待识别单字体图像对应的目标汉字;
将所述待识别单字体图像和待识别单字体图像对应的目标汉字关联,获取手写字训练样本。
2.如权利要求1所述的手写字训练样本获取方法,其特征在于,对所述原始图像进行预处理,获取有效图像,包括:
对所述原始图像进行放大和灰度化处理,获取灰度化图像;
对所述灰度化图像进行标准化处理,获取所述有效图像,其中,所述标准化处理的公式为X是所述灰度化图像M的像素值,X′是所述有效图像的像素值,Mmin是灰度化图像M中最小的像素值,Mmax是灰度化图像M中最大的像素值。
3.如权利要求1所述的手写字训练样本获取方法,其特征在于,所述采用核密度估计算法和腐蚀处理对所述有效图像进行处理,获取保留所述手写汉字的目标图像,包括:
对所述有效图像中的像素值进行统计,获取有效图像直方图;
采用高斯核密度估计算法对所述有效图像直方图进行处理,获取与有效图像直方图对应的至少一个频率极大值和至少一个频率极小值;
基于所述频率极大值和频率极小值对所述有效图像进行分层切分处理,获取分层图像;
基于所述分层图像,获取包括所述手写汉字的目标图像。
4.如权利要求3所述的手写字训练样本获取方法,其特征在于,所述基于所述分层图像,获取包括所述手写汉字的目标图像,包括:
对所述分层图像进行二值化处理,获取二值化图像;
对所述二值化图像中的像素进行检测标记,获取所述二值化图像对应的连通区域;
对所述二值化图像对应的连通区域进行腐蚀和叠加处理,获取所述包括手写汉字的目标图像。
5.如权利要求1所述的手写字训练样本获取方法,其特征在于,所述手写字训练样本获取方法还包括:预先训练所述目标手写字识别模型;
所述训练目标手写字识别模型,包括:
获取训练手写中文图像;
采用垂直投影法对所述训练手写中文图像进行单字体切割,获取训练单字体图像;
对所述训练单字体图像进行顺序标注,并将标注好的训练单字体图像输入到长短时记忆神经网络模型中进行训练,获取所述目标手写字识别模型。
6.如权利要求5所述的手写字训练样本获取方法,其特征在于,所述将标注好的训练单字体图像输入到长短时记忆神经网络模型中进行训练,获取所述目标手写字识别模型,包括:
在长短时记忆神经网络模型的隐藏层采用第一激活函数对所述单字体图像进行处理,获取携带激活状态标识的神经元;
在所述长短时记忆神经网络模型的隐藏层采用第二激活函数对所述携带激活状态标识的神经元进行处理,获取长短时记忆神经网络模型隐藏层的输出值;
根据所述长短时记忆神经网络模型隐藏层的输出值,采用小批量梯度下降算法进行对长短时记忆神经网络模型的模型参数进行更新,获取所述目标手写字识别模型。
7.一种手写字训练样本获取装置,其特征在于,包括:
原始图像获取模块,用于获取原始图像,所述原始图像包括手写汉字和背景图片;
有效图像获取模块,用于对所述原始图像进行预处理,获取有效图像;
目标图像获取模块,用于采用核密度估计算法和腐蚀处理对所述有效图像进行处理,去除所述背景图片,获取保留所述手写汉字的目标图像;
待识别单字体图像获取模块,用于采用垂直投影法对所述目标图像进行单字体切割,获取待识别单字体图像;
识别结果获取模块,用于将所述待识别单字体图像输入到目标手写字识别模型中进行识别,获取每一所述待识别单字体图像对应的识别结果;
目标汉字获取模块,用于基于所述待识别单字体图像对应的识别结果查询语义库,获取所述待识别单字体图像对应的目标汉字;
手写字训练样本获取模块,用于将所述待识别单字体图像和待识别单字体图像对应的目标汉字关联,获取手写字训练样本。
8.如权利要求7所述的手写字训练样本获取装置,其特征在于,所述目标图像获取模块包括:
有效图像直方图获取单元,用于对所述有效图像中的像素值进行统计,获取有效图像直方图;
频率极值获取单元,用于采用高斯核密度估计算法对所述有效图像直方图进行处理,获取与有效图像直方图对应的至少一个频率极大值和至少一个频率极小值;
分层图像获取单元,用于基于所述频率极大值和频率极小值对所述有效图像进行分层切分处理,获取分层图像;
目标图像获取单元,用于基于所述分层图像,获取包括所述手写汉字的目标图像。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述手写字训练样本获取方法的步骤。
10.一种非易失性存储介质,所述非易失性存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述手写字训练样本获取方法的步骤。
CN201810564721.3A 2018-06-04 2018-06-04 手写字训练样本获取方法、装置、设备及介质 Withdrawn CN108985324A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810564721.3A CN108985324A (zh) 2018-06-04 2018-06-04 手写字训练样本获取方法、装置、设备及介质
PCT/CN2018/094233 WO2019232852A1 (zh) 2018-06-04 2018-07-03 手写字训练样本获取方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810564721.3A CN108985324A (zh) 2018-06-04 2018-06-04 手写字训练样本获取方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN108985324A true CN108985324A (zh) 2018-12-11

Family

ID=64540012

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810564721.3A Withdrawn CN108985324A (zh) 2018-06-04 2018-06-04 手写字训练样本获取方法、装置、设备及介质

Country Status (2)

Country Link
CN (1) CN108985324A (zh)
WO (1) WO2019232852A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858409A (zh) * 2019-01-18 2019-06-07 深圳壹账通智能科技有限公司 手工图转换方法、装置、设备及介质
CN112287969A (zh) * 2020-09-25 2021-01-29 浪潮金融信息技术有限公司 一种文字样本采集处理方法、自助终端设备及独立模块
CN112686243A (zh) * 2020-12-29 2021-04-20 平安普惠企业管理有限公司 智能识别图片文字的方法、装置、计算机设备及存储介质
WO2023077963A1 (zh) * 2021-11-05 2023-05-11 腾讯科技(深圳)有限公司 图像文本识别方法、装置、计算机可读介质及电子设备

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111476853B (zh) * 2020-03-17 2024-05-24 西安万像电子科技有限公司 文字图像的编解码方法、设备及系统
CN112131834B (zh) * 2020-09-24 2023-12-29 云南民族大学 一种西波字体生成和识别方法
CN112307908B (zh) * 2020-10-15 2022-07-26 武汉科技大学城市学院 一种视频语义提取方法及装置
US11495039B2 (en) 2020-10-19 2022-11-08 Accenture Global Solutions Limited Processing digitized handwriting
CN113610065B (zh) * 2021-10-09 2022-05-20 北京世纪好未来教育科技有限公司 笔迹识别方法和装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7496547B2 (en) * 2005-06-02 2009-02-24 Microsoft Corporation Handwriting recognition using a comparative neural network
CN107316067B (zh) * 2017-05-27 2019-11-15 华南理工大学 一种基于惯性传感器的空中手写字符识别方法
CN107844740A (zh) * 2017-09-05 2018-03-27 中国地质调查局西安地质调查中心 一种脱机手写、印刷汉字识别方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858409A (zh) * 2019-01-18 2019-06-07 深圳壹账通智能科技有限公司 手工图转换方法、装置、设备及介质
CN112287969A (zh) * 2020-09-25 2021-01-29 浪潮金融信息技术有限公司 一种文字样本采集处理方法、自助终端设备及独立模块
CN112686243A (zh) * 2020-12-29 2021-04-20 平安普惠企业管理有限公司 智能识别图片文字的方法、装置、计算机设备及存储介质
WO2023077963A1 (zh) * 2021-11-05 2023-05-11 腾讯科技(深圳)有限公司 图像文本识别方法、装置、计算机可读介质及电子设备

Also Published As

Publication number Publication date
WO2019232852A1 (zh) 2019-12-12

Similar Documents

Publication Publication Date Title
CN108985324A (zh) 手写字训练样本获取方法、装置、设备及介质
CN108985297A (zh) 手写模型训练、手写图像识别方法、装置、设备及介质
CN109102037A (zh) 中文模型训练、中文图像识别方法、装置、设备及介质
CN109002756A (zh) 手写汉字图像识别方法、装置、计算机设备及存储介质
CN106778682B (zh) 一种卷积神经网络模型的训练方法及其设备
CN104463209B (zh) 一种基于bp神经网络的pcb板上数字代码识别方法
CN109409198A (zh) Au检测模型训练方法、au检测方法、装置、设备及介质
CN110866530A (zh) 一种字符图像识别方法、装置及电子设备
CN109766898A (zh) 图像文字识别方法、装置、计算机设备及存储介质
CN109063706A (zh) 文字模型训练方法、文字识别方法、装置、设备及介质
CN109784153A (zh) 情绪识别方法、装置、计算机设备及存储介质
CN110197107B (zh) 微表情识别方法、装置、计算机设备及存储介质
CN108764358A (zh) 一种太赫兹图像识别方法、装置、设备及可读存储介质
CN109657582A (zh) 人脸情绪的识别方法、装置、计算机设备及存储介质
CN109063720A (zh) 手写字训练样本获取方法、装置、计算机设备及存储介质
CN113761259A (zh) 一种图像处理方法、装置以及计算机设备
CN111127360A (zh) 一种基于自动编码器的灰度图像迁移学习方法
CN111627080A (zh) 基于卷积神经与条件生成对抗性网络的灰度图像上色方法
CN109508640A (zh) 一种人群情感分析方法、装置和存储介质
Tan et al. Rapid fine-grained classification of butterflies based on FCM-KM and mask R-CNN fusion
Schirrmeister et al. When less is more: Simplifying inputs aids neural network understanding
Navarro On the interaction between exemplar-based concepts and a response scaling process
CN111476367B (zh) 一种任务拆分式脉冲神经网络结构预测及网络抗干扰方法
CN111652108B (zh) 抗干扰的信号识别方法、装置、计算机设备和存储介质
Mahajan Color classification using machine learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20181211