CN107622104B - 一种文字图像识别标注方法及系统 - Google Patents

一种文字图像识别标注方法及系统 Download PDF

Info

Publication number
CN107622104B
CN107622104B CN201710813885.0A CN201710813885A CN107622104B CN 107622104 B CN107622104 B CN 107622104B CN 201710813885 A CN201710813885 A CN 201710813885A CN 107622104 B CN107622104 B CN 107622104B
Authority
CN
China
Prior art keywords
model
image
character image
neural network
distance threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201710813885.0A
Other languages
English (en)
Other versions
CN107622104A (zh
Inventor
翁彧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Minzu University of China
Original Assignee
Minzu University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Minzu University of China filed Critical Minzu University of China
Priority to CN201710813885.0A priority Critical patent/CN107622104B/zh
Publication of CN107622104A publication Critical patent/CN107622104A/zh
Application granted granted Critical
Publication of CN107622104B publication Critical patent/CN107622104B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种文字图像识别标注方法及系统,该方法或者系统首先获取原始文字图像和含有多个文字图像标注样本的数据库;其次建立拉普拉斯附加信息对抗神经网络模型,并根据所述原始文字图像和所述拉普拉斯附加信息对抗神经网络模型,生成人工合成文字图像;再对所述人工合成文字图像按照图像类别进行分类,得到特征图像,并利用含有多个文字图像标注样本的数据库与特征图像进行匹配,将与所述特征图像匹配度最高的所述文字图像标注样本的标注信息添加至所述特征图像上,实现原始文字图像自动识别标注,提高了文字图像识别标注效率。

Description

一种文字图像识别标注方法及系统
技术领域
本发明涉及图像处理领域,特别是涉及一种文字图像识别标注方法及系统。
背景技术
“水文”(水族文字)是我国目前除东巴文(纳西族文字)之外又一存活的象形文字,其传承大部分依靠特定人群口传、手抄形式,且现存水书大多字迹模糊、书品残破。截至目前全国“水书”古籍文献公藏仅有20000多册,由于年代久远,页面残缺、字迹模糊等问题普遍存在,对水书古籍的抢救性保护迫在眉睫。近年来,利用机器学习、大数据分析等先进的信息处理手段,突破古籍文献传统数字化保护方法,有效解决水书古籍文献数字化保护过程中图像清晰化处理、图像类别标注、手写文字识别等关键问题,推进我国古籍文献智能化数字化处理水平,逐步成为众多专家、学者的研究热点与探索方向。但是由于水书古籍图像数量大,且存在纹理、大小等格式不一致特点,即使采用了机器学习、大数据分析等先进的信息处理手段,在文字图像识别过程中仍然需要大量人工进行手动识别标注,工作繁琐。因此,如何提高水族文字图像识别标注效率,是图像处理领域急需解决的技术问题。
发明内容
本发明的目的是提供一种文字图像识别标注方法及系统,能够提高水族文字图像识别标注效率。
为实现上述目的,本发明提供了如下方案:
一种文字图像识别标注方法,所述文字图像识别标注方法包括:
获取原始文字图像和含有多个文字图像标注样本的数据库;
建立拉普拉斯附加信息对抗神经网络模型;
根据所述原始文字图像和所述拉普拉斯附加信息对抗神经网络模型,生成人工合成文字图像;
对所述人工合成文字图像进行处理,得到特征图像;
计算所述特征图像与所述数据库中每个所述文字图像标注样本的匹配度;
根据所述匹配度,对所述特征图像进行识别标注。
可选的,所述建立拉普拉斯附加信息对抗神经网络模型,具体包括:
建立生成模型和判别模型;
采用卷积神经网络模型训练所述生成模型和所述判别模型,并采用反向传播算法调整所述生成模型和所述判别模型的参数,得到处理后的生成模型和处理后的判别模型;
获取附加辅助数据信息;
根据所述处理后的生成模型、处理后的判别模型以及所述附加辅助数据信息,采用拉普拉斯金字塔结构,建立拉普拉斯附加信息对抗神经网络模型。
可选的,所述对所述人工合成文字图像进行处理,得到特征图像,具体包括:
根据所述人工合成文字图像,采用信息熵评估算法,确定所述人工合成文字图像的聚类簇数和距离阈值;
根据所述聚类簇数和所述距离阈值,对所述人工合成文字图像进行处理,得到特征图像。
可选的,所述根据所述聚类簇数和所述距离阈值,对所述人工合成文字图像进行处理,得到特征图像,具体包括:
根据所述距离阈值和所述卷积神经网络模型,构造线性回归模型;
根据所述线性回归模型,获取新的距离阈值;
根据所述新的距离阈值,得到新的聚类簇数;
根据所述新的聚类簇数和所述新的距离阈值,对所述人工合成文字图像进行处理,得到特征图像。
可选的,所述根据所述匹配度,对所述特征图像进行识别标注,具体包括:
将与所述特征图像匹配度最高的所述文字图像标注样本的标注信息添加至所述特征图像上,实现对所述特征图像进行识别标注。
本发明还提供了一种文字图像识别标注系统,所述文字图像识别标注系统包括:
获取模块,用于获取原始文字图像和含有多个文字图像标注样本的数据库;
建立模块,用于拉普拉斯附加信息对抗神经网络模型;
生成模块,用于根据所述原始文字图像和所述拉普拉斯附加信息对抗神经网络模型,生成人工合成文字图像;
得到模块,用于对所述人工合成文字图像进行处理,得到特征图像;
计算模块,用于计算所述特征图像与所述数据库中每个所述文字图像标注样本的匹配度;
识别标注模块,用于根据所述匹配度,对所述特征图像进行识别标注。
可选的,所述建立模块,具体包括:
生成模型和判别模型建立单元,用于建立生成模型和判别模型;
处理后的生成模型和处理后的判别模型得到单元,用于采用卷积神经网络模型训练所述生成模型和所述判别模型,并采用反向传播算法调整所述生成模型和所述判别模型的参数,得到处理后的生成模型和处理后的判别模型;
附加辅助数据信息获取单元,用于获取附加辅助数据信息;
拉普拉斯附加信息对抗神经网络模型建立单元,用于根据所述处理后的生成模型、处理后的判别模型以及所述附加辅助数据信息,采用拉普拉斯金字塔结构,建立拉普拉斯附加信息对抗神经网络模型。
可选的,所述得到模块,具体包括:
聚类簇数和距离阈值确定单元,用于根据所述人工合成文字图像,采用信息熵评估算法,确定所述人工合成文字图像的聚类簇数和距离阈值;
特征图像得到单元,用于根据所述聚类簇数和所述距离阈值,对所述人工合成文字图像进行处理,得到特征图像。
可选的,所述特征图像得到单元,具体包括:
线性回归模型构造子单元,用于根据所述距离阈值和所述卷积神经网络模型,构造线性回归模型;
新距离阈值获取子单元,用于根据所述线性回归模型,获取新的距离阈值;
新聚类簇数得到子单元,用于根据所述新的距离阈值,得到新的聚类簇数;
特征图像得到子单元,用于根据所述新的聚类簇数和所述新的距离阈值,对所述人工合成文字图像进行处理,得到特征图像。
可选的,所述识别标注模块,具体包括:
识别标注单元,用于将与所述特征图像匹配度最高的所述文字图像标注样本的标注信息添加至所述特征图像上,实现对所述特征图像进行识别标注。
根据本发明提供的具体实施例,本发明公开了以下技术效果:本发明提供了一种文字图像识别标注方法及系统,该方法或者系统首先获取原始文字图像和含有多个文字图像标注样本的数据库;其次建立拉普拉斯附加信息对抗神经网络模型,并根据所述原始文字图像和所述拉普拉斯附加信息对抗神经网络模型,生成人工合成文字图像;再对所述人工合成文字图像进行处理,得到特征图像,并利用含有多个文字图像标注样本的数据库与特征图像进行匹配,将与所述特征图像匹配度最高的所述文字图像标注样本的标注信息添加至所述特征图像上,实现原始文字图像自动识别标注,提高了文字图像识别标注效率。
另外,本发明通过建立拉普拉斯附加信息对抗神经网络模型,打破原有的数据输入单一映射关系,形成多映射关系、由粗糙到精细层次的对抗神经网络模型,并对图像进行分层次碎片化的像素级别生成、处理,可以提升图像分辨率,解决图像模糊和局部缺失的问题,为后续文字图像识别标注奠定基础。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例文字图像识别标注方法的流程示意图;
图2为本发明实施例对抗神经网络模型的结构示意图;
图3为本发明实施例拉普拉斯附加信息对抗神经网络模型的结构示意图;
图4为本发明实施例信息熵与距离阈值的关系图;
图5为本发明实施例特征图像得到过程示意图;
图6为本发明实施例文字图像识别标注系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种文字图像识别标注方法及系统,能够提高水族文字图像识别效率。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明通过对基于拉普拉斯金字塔结构的附加信息对抗神经网络模型的研究,解决了对抗神经网络模型不稳定的问题,避免了图像模糊和局部缺失,对水书古籍文字图像进行清晰化处理。
本发明通过对基于密度和信息熵的无监督文字图像聚类算法的研究,解决预先人工进行输入聚类簇数和距离阈值的问题,可以自动按照图像类别对水书文献图像进行分类,获取特征图像,减少聚类过程中人为控制的次数。
本发明通过对基于反馈聚类模型参数的卷积神经网络分类器的研究,对聚类模型的参数进行优化,得到最优的聚类模型参数,进而得到准确的特征图像,并计算所述特征图像与每个标注好的水书古籍文字图像的匹配度,将与所述特征图像匹配度最高的标注好的水书古籍文字图像的标注信息添加至所述特征图像上,实现原始文字图像自动识别标注,提高了文字图像识别标注效率。
图1为本发明实施例文字图像识别标注方法的流程示意图,如图1所示,本发明提供的文字图像识别标注方法具体包括以下步骤:
步骤101:获取原始文字图像和含有多个文字图像标注样本的数据库;
步骤102:建立拉普拉斯附加信息对抗神经网络模型;
步骤103:根据所述原始文字图像和所述拉普拉斯附加信息对抗神经网络模型,生成人工合成文字图像;
步骤104:对所述人工合成文字图像进行处理,得到特征图像;
步骤105:计算所述特征图像与所述数据库中每个所述文字图像标注样本的匹配度;
步骤106:根据所述匹配度,对所述特征图像进行识别标注。
所述步骤102包括:
步骤1021:建立生成模型和判别模型;
步骤1022:采用卷积神经网络模型训练所述生成模型和所述判别模型,并采用反向传播算法调整所述生成模型和所述判别模型的参数,得到处理后的生成模型和处理后的判别模型;
步骤1023:获取附加辅助数据信息;所述附加辅助数据信息为类别标签,例如真实图像标为1,虚假图像标为0,辅助生成模型和判别模型的附加数据同时进行训练。
步骤1024:根据所述处理后的生成模型、处理后的判别模型以及所述附加辅助数据信息,采用拉普拉斯金字塔结构,建立拉普拉斯附加信息对抗神经网络模型。
深度学习理论在人脸识别、自然语言处理等领域取得了很大进步,然而其在超分辨率图像生成与大规模手写文字标注方面仍面临新的挑战。对抗神经网络在处理32*32像素数据集,对比传统神经网络具有很好的识别效果。但是随着像素级别继续升高,将会出现生成模型的训练速度和判别模型的训练速度无法同步,导致对抗神经网络模型无法生成的问题。具体为,训练过程中,生成模型生成的高像素、多维度图像的采样信息不符合原图像分布,造成对抗神经网络不稳定,导致训练中断,整体的对抗神经网络模型无法处理水书模糊图像数据。
本发明通过采用拉普拉斯金字塔结构和附加信息来重建对抗神经网络模型,解决了原对抗神经网络稳定性差的问题。
步骤1022具体包括:
图2为本发明实施例对抗神经网络模型的结构示意图,如图2所示,对抗神经网络结构包括生成模型G和判别模型D。在生成模型G和判别模型D都采用卷积神经网络模型作为训练用的神经网络,使用反向传播算法调整生成模型G和判别模型D中的参数。
生成模型G使用一个从噪声集合pNoise(z)分布中提取的噪声向量z,在原始数据分布基础上加入随机噪声,并且根据随机噪声创建生成图像h。判别模型D会采用等概率算法,随机在来自训练数据pData(i)真实图像i和生成图像h之间进行选择,训练判别模型D。
判别模型D会根据输入的两张图像的样本,抽取图像的向量化数值进行判断,每次输出一个0到1之间的标量概率值代表来自不同图像生成模型的图像真实性表达。此标量概率值在最初训练过程中,来自于真实图像的图像数据概率值趋向于1,来自于随机噪声表达合成的生成图像数据概率值趋向于0。生成模型G和判别模型D都使用卷积神经网络进行训练,使用反向传播算法进行参数调整,生成模型G的参数调整方法为生成图像经过判别模型D的概率倾向于1,判别模型D的参数调整方法为将来自于生成模型G的图像判断概率接近0。
同时训练生成模型和判别模型的公式为:
Figure BDA0001404631360000071
其中,式中E表示期望;D表示判别模型;G表示生成模型;pData(i)表示真实图像训练数据集合;pNoise(z)表示噪声向量集合;z表示噪声向量。
步骤1024具体包括:
图3为本发明实施例拉普拉斯附加信息对抗神经网络模型的结构示意图,如图3所示,在公式(1)的基础上加入附加辅助数据信息数据l和拉普拉斯金字塔结构,作为类别标签指示器,辅助生成模型G和判别模型D的附加数据同时进行训练,以此增加对抗神经网络模型判断的稳定结构,打破原有一对一映射关系。给生成模型G提供带有标签的类别信息,令生成模型G生成的高像素、多维度图像的采样信息符合原图像分布,生成效果提升。加入辅助信息的公式为:
Figure BDA0001404631360000081
拉普拉斯附加信息对抗神经网络模型为:定义输入训练图像I,令I0=I,原始图像尺寸大小为jⅹj。将I0向下采样d(I0)会获得一张
Figure BDA0001404631360000082
图像I1,I1是作为下一层结构的输入图像。I1进行向上采样u(I0),并且进行平滑扩张,图像像素尺寸大小恢复到原始图像大小得到I0,I0即对抗神经网络的辅助信息输入图像,原始训练图像I和I0做减法,获得原始图像的高通图像h0
每一层的高通图像h0的获取根据上一层的输入数据再次进行向上采样得到。
hk=Lk(I)=Gk(I)-u(Gk+1(I))=Ik-u(Ik+1)(3);
hk=Gk(zk,u(Ik+1))(4);
式中h表示是生成图像向量,Gk是第k轮生成网络函数,u是采样函数;公式(4)是对公式(3)式的简写。
将I0作为生成模型的输入图像,加入噪声Z0输入到第一层生成模型G0,获得的图像即为生成模型产生的图像h0
Ik=u(Ik+1)+hk=u(Ik+1)+Gk(zk,u(Ik+1))(5);
第一层判别模型D0通过等概率随机挑选来自于真实数据的图像和生成模型产生的图像作为判别模型的判断依据,判别模型D0获得图像对应概率使用反向传播算法调整判别模型和生成模型的参数,调整对抗神经网络模型。然后进拉普拉斯结构的下一层对抗神经网络模型的训练。通过层层细化的对抗神经网络模型,可以进行精细到像素级别的图像调整,图像细节部分更加突出,得到超分辨率图像,获得清晰细致图像。
大规模的数据识别是深度学习在我国少数民族光学字符识别领域中亟待解决的问题。光学字符识别作为深度学习最先应用的领域之一,在卷积神经网络出现之后取得了较大的进步。但在少数民族文字识别的问题中,研究大多集中在藏文、维吾尔文、蒙古文等文种,而水文、彝文、傣文等识别较少。即使在藏文、维吾尔文和蒙古文的识别中,使用的方法大多是传统的特征提取-分类的方法,识别率也无法达到汉字或英文字符的识别率,使用深度学习进行少数民族文字识别的研究较少。尤其是水书,目前研究还主要集中在识别之前的预处理阶段。因此大规模的数据识别是深度学习在少数民族文字识别中亟待解决的问题。大规模的数据识别需要耗费大量的人力物力。
本发明首先利用已经分类的数据,采用卷积神经网络训练一个分类器,之后结合一个偏置向量对没有标记的数据进行分类,此方法有效提高大规模数据识别标注的效率。
所述步骤104包括:
步骤1041:对所述人工合成文字图像进行二值化和降维处理,得到处理后的人工合成文字图像,然后根据所述处理后的人工合成文字图像,采用信息熵评估算法,确定所述处理后的人工合成文字图像的聚类簇数和距离阈值;
步骤1042:根据所述距离阈值和所述卷积神经网络模型,构造线性回归模型;
步骤1043:根据所述线性回归模型,更新距离阈值,得到新的距离阈值;
步骤1044:根据所述新的距离阈值,得到新的聚类簇数;
步骤1045:根据所述新的聚类簇数和所述新的距离阈值,对所述处理后的人工合成文字图像进行处理,得到特征图像。
其中,步骤1041具体包括:
首先通过聚类算法对人工合成文字图像进行处理,具体为通过基于信息熵评估算法求解聚类算法中聚类簇数与距离阈值。
聚类簇中心点被具有较低局部密度的邻居点包围,且与具有更高密度的任何点有相对较大的距离。定义距离阈值为dc,水书文字图像间距离为dij,局部密度为ρi,δi是代表点i到所有样本点中满足ρj大于ρi的dij最小值。对于水书文字图像间距离dij利用马氏距离求解,对于ρi和δi满足:
Figure BDA0001404631360000101
Figure BDA0001404631360000102
其中,dc的初始化值为0,令x=dij-dc,当x<0时,则认为χ(x)=1;否则χ(x)=0。所以∑χ(x)代表点i到所有样本点满足dij小于dc的点个数总和。随着数据集的增大,ρi的离散程度会越明显,这意味着在大量数据集下分析结果有更好的效果。对于信息熵评估算法,同样可以得到点i到所有样本点中满足ρj大于ρi的dij最大值δi,即有:
Figure BDA0001404631360000103
根据点的局部密度ρ与最小距离值d,选择局部密度最大,距离值也最大的点为聚类中心,然后完成聚类划分,得到聚类簇数。当dc选择不同的值时,会得到不同样本点的局部密度ρ与最小距离值d,通过信息熵评估算法评估信息熵下降梯度值进行求解最优的dc,可以给出如下公式:
Figure BDA0001404631360000104
对于上式中,定义H为熵值,Ci代表第I个聚类的成员数,N代表总共的样本点个数。
图4为本发明实施例信息熵与距离阈值的关系图,如图4所示,在聚类的初始时刻距离阈值dc为0,此时每个成员都为单独的类,那么信息熵H为最大值,即信息量就达到最大值。随着每次距离阈值dc选择值逐渐增大,信息熵值会逐渐减小,分析在不同距离阈值dc取值下信息熵值变化剧烈程度,可以最终确定dc最优的取值,表1为信息熵、距离阈值以及簇数对应表,表1中第三簇数是在距离阈值的约束下,自动聚类生成的。即将两个点之间的距离小于距离阈值的聚到一起,归为一类,停止聚类后观测统计到聚类簇数。结合图4和表1选取信息熵变化最快所对应的距离阈值dc
表1信息熵、距离阈值以及簇数对应表
Figure BDA0001404631360000105
Figure BDA0001404631360000111
Figure BDA0001404631360000121
步骤1042具体包括:
利用基于信息熵优化的聚类算法得到的距离阈值dc优化卷积神经网络分类器结构。首先以聚类算法的距离阈值dc和卷积神经网络的训练准确率y为参数,构造线性回归模型:
Figure BDA0001404631360000122
其中wT为[w0,w1,w2,w3]表示slope参数,
Figure BDA0001404631360000123
Figure BDA0001404631360000124
其中p(ε)满足:
Figure BDA0001404631360000125
公式(9)为正态分布公式,表示ε为正态分布样本x的均值;σ表示标准差,e表示自然常数,μ表示均值。其中,含有多个文字图像标注样本的数据库作为训练卷积神经网络的数据集。且基于信息熵优化的聚类算法得到的距离阈值dc会优化卷积神经网络的训练,使得卷积神经网络对于水书文字聚类效果进一步提高。
步骤1043具体包括:根据线性回归模型,令梯度等于零求出y在其值域中的最大值,这个最大值所对应的dc即为基于密度和信息熵聚类算法中最优距离阈值dc
步骤1044具体包括:根据最优距离阈值dc和表1,得到新的聚类簇数。
步骤1045具体包括:根据所述新的聚类簇数和所述新的距离阈值,对已处理后的人工合成文字图像按照图像类别进行分类,得到特征图像。图5为本发明实施例特征图像得到过程示意图,如图5所述,标号为501或者标号为502所指代的图像为特征图像。
所述步骤106包括:
将与所述特征图像匹配度最高的所述文字图像标注样本的标注信息添加至所述特征图像上,实现对所述特征图像进行识别标注。
本发明实施例提供的文字图像识别标注方法主要针对对抗神经网络模型训练过程中,判别模型的判别要求越严苛,生成模型的梯度消失得越严重,在高像素、多维度情况下,原始对抗神经网络可控程度低,导致生成的对抗神经网络模型在训练过程中无法准确获得生成模型,造成对抗神经网络模型不具备高可用性。
本发明实施例针对抗神经网络模型不具备高可用性这一问题,在原始对抗神经网络模型中的训练数据加入附加图像数据,可以有效辅助对抗神经网络模型训练,解决在多维度数据模型训练过程中的稀疏数据造成整个对抗神经网络模型不受约束的问题。针对高像素、多维度图像进行梯度层次的碎片化处理,将高像素的图像通过层级间转化,逐步逐层达到低像素、低维度层次。辅助信息结合原始输入数据共同训练,得到稳定的拉普拉斯对抗神经网络生成模型,从而对抗神经网络模型可以产生稳定的生成模型。
本发明实施例采用一种基于信息熵评估水书文字图像聚类效果的方法,有效地解决了基于密度峰值与密度距离的聚类算法对离群点的评估问题。基于密度和信息熵的无监督文字图像聚类算法不需要预先人工进行输入聚类簇数,可以自动完成对水书文献图像的分类,得到特征图像,减少聚类过程中人为控制的次数。
本发明实施例还包括一种用于反馈聚类模型参数的卷积神经网络分类器,对聚类模型的聚类结果反馈。含有多个文字图像标注样本的数据库为基于卷积神经网络的分类器提供精确可扩展的聚类样本数据,重点解决卷积神经网络的结构连接以及最优层数的构建问题,并通过聚类算法的参数和卷积神经网络的训练准确率构造线性回归分析模型,从而计算基于反馈优化分类样本的卷积神经网络分类准确率;基于反馈优化聚类样本的卷积神经网络分类准确率,实现对水书古籍文字图像的分类,提高获取特征图像的准确度,进而利用含有多个文字图像标注样本的数据库与特征图像进行匹配,将与所述特征图像匹配度最高的所述文字图像标注样本的标注信息添加至所述特征图像上,实现原始文字图像自动识别标注,提高了文字图像识别标注效率。
为达到上述目的,本发明还提供了一种文字图像识别标注系统。
图6为本发明实施例文字图像识别标注系统的结构示意图,如图6所示,所述文字图像识别标注系统包括:
获取模块601,用于获取原始文字图像和含有多个文字图像标注样本的数据库;
建立模块602,用于拉普拉斯附加信息对抗神经网络模型;
生成模块603,用于根据所述原始文字图像和所述拉普拉斯附加信息对抗神经网络模型,生成人工合成文字图像;
得到模块604,用于对所述人工合成文字图像进行处理,得到特征图像;
计算模块605,用于计算所述特征图像与所述数据库中每个所述文字图像标注样本的匹配度;
识别标注模块606,用于根据所述匹配度,对所述特征图像进行识别标注。
所述建立模块602具体包括:
生成模型和判别模型建立单元,用于建立生成模型和判别模型;
处理后的生成模型和处理后的判别模型得到单元,用于采用卷积神经网络模型训练所述生成模型和所述判别模型,并采用反向传播算法调整所述生成模型和所述判别模型的参数,得到处理后的生成模型和处理后的判别模型;
附加辅助数据信息获取单元,用于获取附加辅助数据信息;
拉普拉斯附加信息对抗神经网络模型建立单元,用于根据所述处理后的生成模型、处理后的判别模型以及所述附加辅助数据信息,采用拉普拉斯金字塔结构,建立拉普拉斯附加信息对抗神经网络模型。
所述得到模块604具体包括:
聚类簇数和距离阈值确定单元,用于根据所述人工合成文字图像,采用信息熵评估算法,确定所述人工合成文字图像的聚类簇数和距离阈值;
特征图像得到单元,用于根据所述聚类簇数和所述距离阈值,对所述人工合成文字图像进行处理,得到特征图像。具体包括:
线性回归模型构造子单元,用于根据所述距离阈值和所述卷积神经网络模型,构造线性回归模型;
新距离阈值得到子单元,用于根据所述线性回归模型,更新距离阈值,得到新的距离阈值;
新聚类簇数得到子单元,用于根据所述新的距离阈值,得到新的聚类簇数;
特征图像得到子单元,用于根据所述新的聚类簇数和所述新的距离阈值,对所述人工合成文字图像进行处理,得到特征图像。
所述识别标注模块606具体包括:
识别标注单元,用于将与所述特征图像匹配度最高的所述文字图像标注样本的标注信息添加至所述特征图像上,实现对所述特征图像进行识别标注。
本发明提供的一种文字图像识别标注系统与现有技术相比,具有以下有益效果:
第一、现有对抗神经网络在进行图像重构的过程中存在不稳定因素,主要在于对抗神经网络训练过程中学习速率不匹配造成生成模型不稳定;缺少一定信息的图像作为生成网络训练时附加参考导致生成模型训练时间过长,生成效果较差。通过构造拉普拉斯结构的多层对抗神经网络,得到针对“水书”原始数据的图像生成模型,研究对抗神经网络中的稳定性结构,打破原有的数据输入单一映射关系,形成多映射关系的由粗糙到精细层次的对抗神经网络模型。而对抗神经网络模型针对图像进行分层次碎片化的像素级别生成处理,可以提升图像分辨率,解决图像模糊和局部缺失的问题。
第二、传统分类方法在获取图像类别时具有很好的实验效果,但是需要人工建立小型分类器对图像数据迭代类别分类训练,难以扩展到大规模数据分类过程中。针对其分类器的效率问题,采用基于密度和信息熵的无监督文字图像聚类算法对大规模数据分类进行改进,使用聚类生成的图像类别信息辅助卷积神经网络分类训练,密度和信息熵的聚类方法的迭代信息为卷积神经网络提供训练参数调整的方向,从而减少人工干预,增加图像分类效率。
第三、基于卷积神经网络的字符图像识别模型容易受到图像分类准确率和网络结构的影响。分别构建用于反馈参数的卷积神经网络和识别图像的卷积神经网络。借助反馈参数卷积神经网络优化数据集聚类簇数和调优参数,辅助识别图像卷积神经网络的训练。使用一种深层次多卷积核的卷积神经网络进行水书文字识别,提升文字识别效率,大幅度减少训练时间。
对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (4)

1.一种文字图像识别标注方法,其特征在于,所述文字图像识别标注方法包括:
获取原始文字图像和含有多个文字图像标注样本的数据库;
建立拉普拉斯附加信息对抗神经网络模型;具体包括:建立生成模型和判别模型;采用卷积神经网络模型训练所述生成模型和所述判别模型,并采用反向传播算法调整所述生成模型和所述判别模型的参数,得到处理后的生成模型和处理后的判别模型;获取附加辅助数据信息;根据所述处理后的生成模型、处理后的判别模型以及所述附加辅助数据信息,采用拉普拉斯金字塔结构,建立拉普拉斯附加信息对抗神经网络模型;
根据所述原始文字图像和所述拉普拉斯附加信息对抗神经网络模型,生成人工合成文字图像;
对所述人工合成文字图像进行处理,得到特征图像;具体包括:对所述人工合成文字图像进行二值化和降维处理,得到处理后的人工合成文字图像,然后根据所述处理后的人工合成文字图像,采用信息熵评估算法,确定所述处理后的人工合成文字图像的聚类簇数和距离阈值;利用距离阈值和卷积神经网络的训练准确率为参数,构造线性回归模型;根据线性回归模型,令梯度等于零求出训练准确率在其值域中的最大值,这个最大值所对应的距离阈值即为基于密度和信息熵聚类算法中最优距离阈值;根据最优距离阈值和信息熵、距离阈值以及簇数对应表,得到新的聚类簇数;根据新的聚类簇数和最优距离阈值,对已处理后的人工合成文字图像按照图像类别进行分类,得到特征图像;
计算所述特征图像与所述数据库中每个所述文字图像标注样本的匹配度;
根据所述匹配度,对所述特征图像进行识别标注。
2.根据权利要求1所述文字图像识别标注方法,其特征在于,所述根据所述匹配度,对所述特征图像进行识别标注,具体包括:
将与所述特征图像匹配度最高的所述文字图像标注样本的标注信息添加至所述特征图像上,实现对所述特征图像进行识别标注。
3.一种文字图像识别标注系统,其特征在于,所述文字图像识别标注系统包括:
获取模块,用于获取原始文字图像和含有多个文字图像标注样本的数据库;
建立模块,用于拉普拉斯附加信息对抗神经网络模型;具体包括:生成模型和判别模型建立单元,用于建立生成模型和判别模型;处理后的生成模型和处理后的判别模型得到单元,用于采用卷积神经网络模型训练所述生成模型和所述判别模型,并采用反向传播算法调整所述生成模型和所述判别模型的参数,得到处理后的生成模型和处理后的判别模型;附加辅助数据信息获取单元,用于获取附加辅助数据信息;拉普拉斯附加信息对抗神经网络模型建立单元,用于根据所述处理后的生成模型、处理后的判别模型以及所述附加辅助数据信息,采用拉普拉斯金字塔结构,建立拉普拉斯附加信息对抗神经网络模型;
生成模块,用于根据所述原始文字图像和所述拉普拉斯附加信息对抗神经网络模型,生成人工合成文字图像;
得到模块,用于对所述人工合成文字图像进行处理,得到特征图像;具体包括:聚类簇数和距离阈值确定单元,用于对所述人工合成文字图像进行二值化和降维处理,得到处理后的人工合成文字图像,然后根据所述处理后的人工合成文字图像,采用信息熵评估算法,确定所述处理后的人工合成文字图像的聚类簇数和距离阈值;线性回归模型构造单元,用于利用距离阈值和卷积神经网络的训练准确率为参数,构造线性回归模型;距离阈值更新单元,用于根据线性回归模型,令梯度等于零求出训练准确率在其值域中的最大值,这个最大值所对应的距离阈值即为基于密度和信息熵聚类算法中最优距离阈值;聚类簇数更新单元,用于根据最优距离阈值和信息熵、距离阈值以及簇数对应表,得到新的聚类簇数;特征图像计算单元,用于根据新的聚类簇数和最优距离阈值,对已处理后的人工合成文字图像按照图像类别进行分类,得到特征图像;
计算模块,用于计算所述特征图像与所述数据库中每个所述文字图像标注样本的匹配度;
识别标注模块,用于根据所述匹配度,对所述特征图像进行识别标注。
4.根据权利要求3所述文字图像识别标注系统,其特征在于,所述识别标注模块,具体包括:
识别标注单元,用于将与所述特征图像匹配度最高的所述文字图像标注样本的标注信息添加至所述特征图像上,实现对所述特征图像进行识别标注。
CN201710813885.0A 2017-09-11 2017-09-11 一种文字图像识别标注方法及系统 Expired - Fee Related CN107622104B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710813885.0A CN107622104B (zh) 2017-09-11 2017-09-11 一种文字图像识别标注方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710813885.0A CN107622104B (zh) 2017-09-11 2017-09-11 一种文字图像识别标注方法及系统

Publications (2)

Publication Number Publication Date
CN107622104A CN107622104A (zh) 2018-01-23
CN107622104B true CN107622104B (zh) 2020-03-06

Family

ID=61088688

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710813885.0A Expired - Fee Related CN107622104B (zh) 2017-09-11 2017-09-11 一种文字图像识别标注方法及系统

Country Status (1)

Country Link
CN (1) CN107622104B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108389137A (zh) * 2018-02-06 2018-08-10 国网山西省电力公司电力科学研究院 基于红外图谱技术的电力故障诊断预警系统
CN110135574A (zh) * 2018-02-09 2019-08-16 北京世纪好未来教育科技有限公司 神经网络训练方法、图像生成方法及计算机存储介质
CN110363189B (zh) * 2018-04-09 2021-09-24 珠海金山办公软件有限公司 一种文档内容修复方法、装置、电子设备及可读存储介质
CN108664975B (zh) * 2018-04-24 2022-03-25 新疆大学 一种维吾尔文手写字母识别方法、系统及电子设备
CN108846482A (zh) * 2018-05-30 2018-11-20 郑州云海信息技术有限公司 一种数据训练方法、装置及服务器
CN108829815B (zh) * 2018-06-12 2022-06-07 四川希氏异构医疗科技有限公司 一种医学影像图像筛选方法
CN110163230A (zh) 2018-06-15 2019-08-23 腾讯科技(深圳)有限公司 一种图像标注方法和装置
CN111242112A (zh) * 2018-11-29 2020-06-05 马上消费金融股份有限公司 一种图像处理方法、身份信息处理方法及装置
CN109657087A (zh) * 2018-11-30 2019-04-19 平安科技(深圳)有限公司 一种数据批量标注方法、装置及计算机可读存储介质
CN109656657A (zh) * 2018-12-10 2019-04-19 珠海豹趣科技有限公司 一种图像显示方法及装置
CN110135413B (zh) * 2019-05-08 2021-08-17 达闼机器人有限公司 一种字符识别图像的生成方法、电子设备和可读存储介质
CN110135583B (zh) * 2019-05-23 2020-08-21 北京地平线机器人技术研发有限公司 标注信息的生成方法、标注信息的生成装置和电子设备
CN110336947A (zh) * 2019-07-15 2019-10-15 西安邮电大学 一种基于深度学习的图像识别系统
CN110533074B (zh) * 2019-07-30 2022-03-29 华南理工大学 一种基于双深度神经网络的图片类别自动标注方法及系统
CN110544222B (zh) * 2019-09-05 2023-01-03 重庆瑞信展览有限公司 一种视觉传达图像清晰化处理方法和系统
CN110765442A (zh) * 2019-09-30 2020-02-07 奇安信科技集团股份有限公司 一种识别验证图片中验证码的方法、装置及电子设备
CN110929771B (zh) * 2019-11-15 2020-11-20 北京达佳互联信息技术有限公司 图像样本分类方法及装置、电子设备、可读存储介质
CN111063006A (zh) * 2019-12-16 2020-04-24 北京亿评网络科技有限公司 基于图像的文学作品生成方法、装置、设备及存储介质
CN111241329A (zh) * 2020-01-06 2020-06-05 北京邮电大学 基于图像检索的古文字考释方法和装置
CN111340131B (zh) * 2020-03-09 2023-07-14 北京字节跳动网络技术有限公司 图像的标注方法、装置、可读介质和电子设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107133601A (zh) * 2017-05-13 2017-09-05 五邑大学 一种基于生成式对抗网络图像超分辨率技术的行人再识别方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10198804B2 (en) * 2015-04-15 2019-02-05 Halliburton Energy Services, Inc. Method for determining fabric and upscaled properties of geological sample
CN105701502B (zh) * 2016-01-06 2020-11-10 福州大学 一种基于蒙特卡罗数据均衡的图像自动标注方法
CN106250915B (zh) * 2016-07-22 2019-08-09 福州大学 一种融合深度特征和语义邻域的自动图像标注方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107133601A (zh) * 2017-05-13 2017-09-05 五邑大学 一种基于生成式对抗网络图像超分辨率技术的行人再识别方法

Also Published As

Publication number Publication date
CN107622104A (zh) 2018-01-23

Similar Documents

Publication Publication Date Title
CN107622104B (zh) 一种文字图像识别标注方法及系统
CN109615014B (zh) 一种基于kl散度优化的3d物体数据分类系统与方法
WO2018023734A1 (zh) 一种3d图像的显著性检测方法
CN105184298B (zh) 一种快速局部约束低秩编码的图像分类方法
CN111753828B (zh) 一种基于深度卷积神经网络的自然场景水平文字检测方法
CN111126386B (zh) 场景文本识别中基于对抗学习的序列领域适应方法
Ahranjany et al. A very high accuracy handwritten character recognition system for Farsi/Arabic digits using convolutional neural networks
CN107066951B (zh) 一种人脸自发表情的识别方法及系统
CN109710804B (zh) 一种教学视频图像知识点降维分析方法
CN104834941A (zh) 基于计算机输入下的稀疏自编码的脱机手写体识别方法
Bhowmik et al. Handwritten Bangla word recognition using HOG descriptor
CN110543906B (zh) 基于Mask R-CNN模型的肤质自动识别方法
CN107220641A (zh) 一种基于深度学习的多语言文本分类方法
CN111681188B (zh) 基于结合图像像素先验和图像梯度先验的图像去模糊方法
CN107220655A (zh) 一种基于深度学习的手写、印刷文本的分类方法
Kaluri et al. A framework for sign gesture recognition using improved genetic algorithm and adaptive filter
Sampath et al. Decision tree and deep learning based probabilistic model for character recognition
Dixit et al. Object based scene representations using fisher scores of local subspace projections
CN104268507A (zh) 一种基于rgb-d图像的手语字母识别方法
Yang et al. An ensemble classification algorithm for convolutional neural network based on AdaBoost
CN106203448B (zh) 一种基于非线性尺度空间的场景分类方法
CN108229571A (zh) 基于kpca算法与深度信念网络的苹果表面病变图像识别方法
CN112507800A (zh) 一种基于通道注意力机制和轻型卷积神经网络的行人多属性协同识别方法
CN112070139A (zh) 基于bert与改进lstm的文本分类方法
Wahlberg et al. Large scale continuous dating of medieval scribes using a combined image and language model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200306

Termination date: 20210911

CF01 Termination of patent right due to non-payment of annual fee