CN113591857A - 字符图像处理方法、装置及古代汉籍图像的识别方法 - Google Patents

字符图像处理方法、装置及古代汉籍图像的识别方法 Download PDF

Info

Publication number
CN113591857A
CN113591857A CN202010366808.7A CN202010366808A CN113591857A CN 113591857 A CN113591857 A CN 113591857A CN 202010366808 A CN202010366808 A CN 202010366808A CN 113591857 A CN113591857 A CN 113591857A
Authority
CN
China
Prior art keywords
character image
single character
image
frequency
classification model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010366808.7A
Other languages
English (en)
Inventor
何梦超
王永攀
黄耀雄
杨志博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN202010366808.7A priority Critical patent/CN113591857A/zh
Publication of CN113591857A publication Critical patent/CN113591857A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

本申请公开了一种字符图像处理方法,包括:对单字字符图像执行聚类操作,获得聚类结果;根据字符出现频率,从所述聚类结果中筛选出高频单字字符图像,并将所述高频单字字符图像对应的字符作为所述高频单字字符图像的标签;根据所述高频单字字符图像以及所述高频单字字符图像的标签,获得少样本分类模型;利用所述少样本分类模型对所述单字字符图像进行识别,获得所述单字字符图像的标签;根据所述单字字符图像以及所述单字字符图像的标签,获得单字字符图像分类模型。采用上述方法,以降低古代汉籍等字符图像的标注难度。

Description

字符图像处理方法、装置及古代汉籍图像的识别方法
技术领域
本申请涉及计算机技术领域,具体涉及一种字符图像处理方法、装置、电子设备和存储设备,本申请同时涉及一种古代汉籍图像的识别方法。本申请同时涉及两种文本图像的识别方法。
背景技术
目前有大量的古代汉籍以实体或者扫描件的方式保存,这样的方式不利于古籍的保护,也不能将古籍融入信息化的场景中,比如无法进行搜索、信息抽取、知识图谱建设等等,使得古籍研究工作受限。
现有技术下,比较先进的文字识别模型基本的实现思路是:检测阶段,人工标注检测模型所需要的训练数据,以行为标注力度,使用Mask-RCNN,EAST,PixelLink等检测框架训练行检测模型;识别阶段,采用自动生成的方法生成行训练数据,使用CNN+RNN+CTC或者CNN+RNN+Attention的方法训练行识别模型。
但是,由于古籍大部分都是手写书籍,采用现有的字体去生成效果往往很不好,而字体对于识别模型的影响非常大。此外,古籍存在大量的异体字,这些异体字无法用现有的字体生成。因此,如何降低古代汉籍等字符图像的标注难度,进而获得古代汉籍等字符图像的单字字符图像分类模型成为亟待解决的技术问题。
发明内容
本申请提供一种字符图像处理方法,以降低中文古籍等字符图像的标注难度。
本申请提供一种字符图像处理方法,包括:
对单字字符图像执行聚类操作,获得聚类结果;
根据字符出现频率,从所述聚类结果中筛选出高频单字字符图像,并将所述高频单字字符图像对应的字符作为所述高频单字字符图像的标签;
根据所述高频单字字符图像以及所述高频单字字符图像的标签,获得少样本分类模型;
利用所述少样本分类模型对所述单字字符图像进行识别,获得所述单字字符图像的标签;
根据所述单字字符图像以及所述单字字符图像的标签,获得单字字符图像分类模型。
可选的,所述方法,还包括:
利用所述单字字符图像分类模型对待识别的单字字符图像进行识别,获得所述待识别的单字字符图像对应的字符。
可选的,所述方法,还包括:
获得待识别的文字集图像;
对所述待识别的文字集图像进行目标检测,获得单字字符图像。
可选的,所述对单字字符图像执行聚类操作,获得聚类结果,包括:
获取预训练的神经网络;
利用所述预训练的神经网络,获得所述单字字符图像的单字特征数据;
对所述单字特征数据执行聚类操作,获得聚类结果。
可选的,所述方法,还包括:
将所述聚类结果作为聚类簇内的伪标签;
利用所述伪标签以及所述伪标签对应的单字字符图像,对所述预训练的神经网络进行更新,获得更新后的神经网络;
利用所述更新后的神经网络,获得所述单字字符图像的单字特征数据。
可选的,所述根据字符出现频率,从所述聚类结果中筛选出高频单字字符图像,并将所述高频单字字符图像对应的字符作为所述高频单字字符图像的标签,包括:
根据字符出现频率,从所述聚类结果中筛选出高频单字字符图像;
根据专家知识对所述高频单字字符图像进行识别,获得所述高频单字字符图像对应的字符;
将所述高频单字字符图像对应的字符作为所述高频单字字符图像的标签。
可选的,所述根据所述高频单字字符图像以及所述高频单字字符图像的标签,获得少样本分类模型,包括:
构建初始少样本分类模型;
依据所述高频单字字符图像以及所述高频单字字符图像的标签,利用权重共享的孪生网络训练所述初始少样本分类模型,获得少样本分类模型。
可选的,所述利用所述少样本分类模型对所述单字字符图像进行识别,获得所述单字字符图像的标签,包括:
利用所述少样本分类模型对所述单字字符图像进行识别,获得所述单字字符图像的分类结果;
判断所述单字字符图像的分类结果是否与所述聚类结果匹配;
若匹配,则将匹配的单字字符图像的分类结果作为所述单字字符图像的标签。
可选的,所述方法,其还包括:
对所述单字字符图像的分类结果进行筛选,获得具有低置信度分类结果的单字字符图像;
根据专家知识对所述具有低置信度分类结果的单字字符图像进行识别,获得所述具有低置信度分类结果的单字字符图像对应的字符;
利用所述具有低置信度分类结果的单字字符图像对应的字符以及所述低置信度分类结果的单字字符图像,更新所述少样本分类模型。
可选的,所述根据所述单字字符图像以及所述单字字符图像的标签,获得单字字符图像分类模型,包括:
构建初始单字字符图像分类模型;
根据所述单字字符图像以及所述单字字符图像的标签,利用残差神经网络训练所述初始单字字符图像分类模型,获得单字字符图像分类模型。
本申请提供一种字符图像处理装置,包括:
聚类执行单元,用于对单字字符图像执行聚类操作,获得聚类结果;
图像筛选单元,用于根据字符出现频率,从所述聚类结果中筛选出高频单字字符图像,并将所述高频单字字符图像对应的字符作为所述高频单字字符图像的标签;
模型获得单元,用于根据所述高频单字字符图像以及所述高频单字字符图像的标签,获得少样本分类模型;
标签获得单元,用于利用所述少样本分类模型对所述单字字符图像进行识别,获得所述单字字符图像的标签;
分类模型获得单元,用于根据所述单字字符图像以及所述单字字符图像的标签,获得单字字符图像分类模型。
可选的,所述字符图像处理装置,还包括识别单元,所述识别单元用于:
利用所述字字符图像分类模型对待识别的单字字符图像进行识别,获得所述待识别的单字字符图像对应的字符。
可选的,所述字符图像处理装置,还包括检测单元,所述检测单元用于:
获得待识别的文字图像;
对所述待识别的文字图像进行目标检测,获得单字字符图像。
可选的,所述聚类执行单元,具体用于:
获取预训练的神经网络;
利用所述预训练的神经网络,获得所述单字字符图像的单字特征数据;
对所述单字特征数据执行聚类操作,获得聚类结果。
可选的,所述聚类执行单元,还用于:
将所述聚类结果作为聚类簇内的伪标签;
利用所述伪标签以及所述伪标签对应的单字字符图像,对所述预训练的神经网络进行更新,获得更新后的神经网络;
利用所述更新后的神经网络,获得所述单字字符图像的单字特征数据。
可选的,所述图像筛选单元,具体用于:
根据字符出现频率,从所述聚类结果中筛选出高频单字字符图像;
根据专家知识对所述高频单字字符图像进行识别,获得所述高频单字字符图像对应的字符;
将所述高频单字字符图像对应的字符作为所述高频单字字符图像的标签。
可选的,所述模型获得单元,具体用于:
构建初始少样本分类模型;
依据所述高频单字字符图像以及所述高频单字字符图像的标签,利用权重共享的孪生网络训练所述初始少样本分类模型,获得少样本分类模型。
可选的,所述标签获得单元,具体用于:
利用所述少样本分类模型对所述单字字符图像进行识别,获得所述单字字符图像的分类结果;
判断所述单字字符图像的分类结果是否与所述聚类结果匹配;
若匹配,则将匹配的单字字符图像的分类结果作为所述单字字符图像的标签。
可选的,所述标签获得单元,还用于:
对所述单字字符图像的分类结果进行筛选,获得具有低置信度分类结果的单字字符图像;
根据专家知识对所述具有低置信度分类结果的单字字符图像进行识别,获得所述具有低置信度分类结果的单字字符图像对应的字符;
利用所述具有低置信度分类结果的单字字符图像对应的字符以及所述低置信度分类结果的单字字符图像,更新所述少样本分类模型。
可选的,所述分类模型获得单元,具体用于:
构建初始单字字符图像分类模型;
根据所述单字字符图像以及所述单字字符图像的标签,利用残差神经网络训练所述初始单字字符图像分类模型,获得单字字符图像分类模型。
本申请提供一种电子设备,包括:
处理器;以及
存储器,用于存储数据处理方法的程序,该设备通电并通过所述处理器运行该单字符图像识别方法的程序后,执行下述步骤:
对单字字符图像执行聚类操作,获得聚类结果;
根据字符出现频率,从所述聚类结果中筛选出高频单字字符图像,并将所述高频单字字符图像对应的字符作为所述高频单字字符图像的标签;
根据所述高频单字字符图像以及所述高频单字字符图像的标签,获得少样本分类模型;
利用所述少样本分类模型对所述单字字符图像进行识别,获得所述单字字符图像的标签;
根据所述单字字符图像以及所述单字字符图像的标签,获得单字字符图像分类模型。
本申请提供一种存储设备,存储有数据处理方法的程序,该程序被处理器运行,执行下述步骤:
对单字字符图像执行聚类操作,获得聚类结果;
根据字符出现频率,从所述聚类结果中筛选出高频单字字符图像,并将所述高频单字字符图像对应的字符作为所述高频单字字符图像的标签;
根据所述高频单字字符图像以及所述高频单字字符图像的标签,获得少样本分类模型;
利用所述少样本分类模型对所述单字字符图像进行识别,获得所述单字字符图像的标签;
根据所述单字字符图像以及所述单字字符图像的标签,获得单字字符图像分类模型。
本申请还提供一种古代汉籍图像的识别方法,包括:
获得待识别的古代汉籍图像;
对所述待识别的古代汉籍图像进行目标检测,获得单字字符图像;
利用单字字符图像分类模型对所述单字字符图像进行识别,获得所述单字字符图像对应的字符,其中,所述单字字符图像分类模型根据前述的任意一项方法获得。
本申请提供一种文本图像的识别方法,包括:
获取待识别的文本图像;
利用图像识别模型,获得所述文本图像的单字字符图像;
利用单字字符图像分类模型对所述单字字符图像进行识别,获得所述单字字符图像对应的字符,其中,所述单字字符图像分类模型根据前述的任意一项方法获得;
根据所述单字字符图像对应的字符,获得所述待识别的文本图像对应的文本数据。
本申请提供一种文本图像的识别方法,包括:
获取待识别的文本图像;
基于第一识别模型,对所述文本图像进行整体识别,获取第一识别结果;
对所述文本图像进行分割,获得所述文本图像的单字字符图像;
基于第二识别模型,对所述单子字符图像进行识别,获得第二识别结果;
基于所述第一识别结果和第二识别结果,获得所述文本图像的文本数据。
与现有技术相比,本申请具有以下优点:
本申请提供一种字符图像处理方法,包括:对单字字符图像执行聚类操作,获得聚类结果;根据字符出现频率,从所述聚类结果中筛选出高频单字字符图像,并将所述高频单字字符图像对应的字符作为所述高频单字字符图像的标签;根据所述高频单字字符图像以及所述高频单字字符图像的标签,获得少样本分类模型;利用所述少样本分类模型对所述单字字符图像进行识别,获得所述单字字符图像的标签;根据所述单字字符图像以及所述单字字符图像的标签,获得单字字符图像分类模型。采用本申请提供的方法,首先通过聚类将字符图像进行了分类;然后,将所述高频单字字符图像对应的字符作为所述高频单字字符图像的标签;接着,利用所述少样本分类模型对所述单字字符图像进行识别,获得所述单字字符图像的标签,实现了以较少的人工参与获得字符图像的标注,从而降低了古代汉籍等字符图像的标注难度。
附图说明
图1是本申请第一实施例提供的一种字符图像处理的示意图。
图2是本申请第一实施例提供的一种字符图像处理方法的流程图。
图3是本申请第一实施例涉及的一种单字字符图像分类模型的生成过程的示意图。
图4是本申请第二实施例提供的一种字符图像处理装置的示意图。
图5是本申请第三实施例提供的一种电子设备的示意图。
图6是本申请第五实施例提供的一种古代汉籍图像的识别方法的流程图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施的限制。
为了更清楚地展示本申请,先对本申请第一实施例提供的字符图像处理方法的应用场景进行简单介绍。
本申请第一实施例提供的字符图像处理方法可以应用于客户端与服务端交互的场景,如图1,在需要将识别字符图像时,通常是由客户端首先与服务端建立连接,连接之后客户端发送字符图像到服务端,服务端接收到字符图像之后,服务端将字符图像输入用于从字符图像中识别出字符的单字字符图像分类模型,得到字符图像对应的字符,将字符提供给客户端,客户端接收识别出的字符。其中,所述单字分类模型采用如下方法获得:对单字字符图像执行聚类操作,获得聚类结果;根据字符出现频率,从所述聚类结果中筛选出高频单字字符图像,并将所述高频单字字符图像对应的字符作为所述高频单字字符图像的标签;根据所述高频单字字符图像以及所述高频单字字符图像的标签,获得少样本分类模型;利用所述少样本分类模型对所述单字字符图像进行识别,获得所述单字字符图像的标签;根据所述单字字符图像以及所述单字字符图像的标签,获得单字字符图像分类模型。
本申请第一实施例提供一种字符图像处理方法,下面结合图2以及图3进行说明。
如图2所示,在步骤S201中,对单字字符图像执行聚类操作,获得聚类结果。
所述数据处理方法,还包括:
获得文字图像;
对所述文字图像进行目标检测,获得单字字符图像。
所述文字图像,可以为古籍文本图像、也可以为其他类型的文本图像。如图3所示。在实际训练中,文本图像可以为一本古籍包含的文本图像。
所述单字字符图像,指只包括一个字符的图像。字符图像可以包括汉字字符图像、英文字符图像、数字字符图像等。汉字字符图像又可以包括简体中文字符图像和古代汉字图像。
古籍文本的特点是背景比较简单(基本是纯背景),都是汉字,几乎不存在数字、英文、符号,因此比较适宜做全图的单字检测。可以采用CenterNet(一种目标检测方法)进行单字字符的目标检测,CenterNet将每个字符的中心点作为目标,并同时回归出字符的宽和高。
如图3所示,通过对文本图像进行单个字符检测,可以得到文本图像包含的全部单个字符图像。
所述对单字字符图像执行聚类操作,获得聚类结果,包括:
获取预训练的神经网络;
利用所述预训练的神经网络,获得所述单字字符图像的单字特征数据;
对所述单字特征数据执行聚类操作,获得聚类结果。
所述数据处理方法,还包括:
将所述聚类结果作为聚类簇内的伪标签;
利用所述伪标签以及所述伪标签对应的单字字符图像,对所述预训练的神经网络进行更新,获得更新后的神经网络;
利用所述更新后的神经网络,获得所述单字字符图像的单字特征数据。
所述聚类操作可以采用无监督的图像聚类方法,将所有单字聚成各个不同的类。无监督的图像聚类方法有很多,本申请中可以采用聚类与深度学习相结合的方法,先用深度学习对图像特征进行提取,然后使用传统聚类的方法比如k-means,基于聚类的结果作为伪标签,利用伪标签监督深度学习更新网络的参数,这两个过程依次迭代进行。
具体的,在步骤1,预先设置一个大概的聚类的类别数,如2000,使用k-means算法将Imagenet预训练好的深度网络N提取的特征进行聚类,将聚类中心作为簇内样本的伪标签。
步骤2,利用步骤1的获取的具有伪标签的图像样本作为训练数据,更新深度网络N的参数,以提高深度网络N对当前数据的适应性。
使用步骤2中更新后的深度网络,反复交替步骤1和步骤2,直至深度网络分类损失函数值在设定轮数(如5轮)内不再下降时停止迭代。
如图2所示,在步骤S202中,根据字符出现频率,从所述聚类结果中筛选出高频单字字符图像,并将所述高频单字字符图像对应的字符作为所述高频单字字符图像的标签。
所述根据字符出现频率,从所述聚类结果中筛选出高频单字字符图像,并将所述高频单字字符图像对应的字符作为所述高频单字字符图像的标签,包括:
根据字符出现频率,从所述聚类结果中筛选出高频单字字符图像;
根据专家知识对所述高频单字字符图像进行识别,获得所述高频单字字符图像对应的字符;
将所述高频单字字符图像对应的字符作为所述高频单字字符图像的标签。
从所述聚类结果中该类中字符出现次数最多的1~5张高频单字字符图像,并利用专家知识,人工对所述高频单字字符图像进行识别,获得所述高频单字字符图像对应的字符,将识别出的所述高频单字字符图像对应的字符作为该高频单字字符图像的标签。
如图3所示,3-3,人工观察类1中“A”字符图像出现次数最多,从类1中选出5个包含字符为“A”的字符图像,并对其进行标注,对每个聚类都采用相同的方法进行标注,得到人工图像标注结果。
如图2所示,在步骤S203中,根据所述高频单字字符图像以及所述高频单字字符图像的标签,获得少样本分类模型。
所述根据所述高频单字字符图像以及所述高频单字字符图像的标签,获得少样本分类模型,包括:
构建初始少样本分类模型;
依据所述高频单字字符图像以及所述高频单字字符图像的标签,利用权重共享的孪生网络训练所述初始少样本分类模型,获得少样本分类模型。
孪生网络(Siamese network),是一种小样本分类模型。本申请提供的数据处理方法,可以利用权重共享的孪生网络训练所述初始少样本分类模型,获得少样本分类模型,从而降低了少样本分类模型的训练参数,提高了模型训练效率。由于孪生网络是现有技术,这里就不再进行详细说明了,具体可以参考相关论文。
如图2所示,在步骤S204中,利用所述少样本分类模型对所述单字字符图像进行识别,获得所述单字字符图像的标签。
所述利用所述少样本分类模型对所述单字字符图像进行识别,获得所述单字字符图像的标签,包括:
利用所述少样本分类模型对所述单字字符图像进行识别,获得所述单字字符图像的分类结果;
判断所述单字字符图像的分类结果是否与所述聚类结果匹配;
若匹配,则将匹配的单字字符图像的分类结果作为所述单字字符图像的标签。
所述数据处理方法,还包括:
对所述单字字符图像的分类结果进行筛选,获得具有低置信度分类结果的单字字符图像;
根据专家知识对所述具有低置信度分类结果的单字字符图像进行识别,获得所述具有低置信度分类结果的单字字符图像对应的字符;
利用所述具有低置信度分类结果的单字字符图像对应的字符以及所述低置信度分类结果的单字字符图像,更新所述少样本分类模型。
首先,判断所述单字字符图像的分类结果是否与所述聚类结果匹配,如果匹配,则将匹配的单字字符图像的分类结果作为所述单字字符图像的标签。如果不匹配,则将不匹配的单字字符图像重新执行步骤S201的迭代。同时,专家对分类模型给出的每一类置信度最低的单字字符图像进行标注,结合之前专家已经标注过的单字字符图像,然后继续步骤S204的迭代。
如图2所示,在步骤S205中,根据所述单字字符图像以及所述单字字符图像的标签,获得单字字符图像分类模型。
所述根据所述单字字符图像以及所述单字字符图像的标签,获得单字字符图像分类模型,包括:
构建初始单字字符图像分类模型;
根据所述单字字符图像以及所述单字字符图像的标签,利用残差神经网络训练所述初始单字字符图像分类模型,获得单字字符图像分类模型。
在获得所述单字字符图像以及所述单字字符图像的标签,将其作为训练样本,训练用于单字字符图像分类的残差网络(resnet),获得训练好的单字字符图像分类模型。
与本申请第一实施例提供的一种字符图像处理方法相对应的,本申请第二实施例还提供了一种字符图像处理装置。
如图4所示,所述装置包括:
聚类执行单元401,用于对单字字符图像执行聚类操作,获得聚类结果;
图像筛选单元402,用于根据字符出现频率,从所述聚类结果中筛选出高频单字字符图像,并将所述高频单字字符图像对应的字符作为所述高频单字字符图像的标签;
模型获得单元403,用于根据所述高频单字字符图像以及所述高频单字字符图像的标签,获得少样本分类模型;
标签获得单元404,用于利用所述少样本分类模型对所述单字字符图像进行识别,获得所述单字字符图像的标签;
分类模型获得单元405,用于根据所述单字字符图像以及所述单字字符图像的标签,获得单字字符图像分类模型。
本实施例中,所述字符图像处理装置,还包括识别单元,所述识别单元用于:
利用所述字字符图像分类模型对待识别的单字字符图像进行识别,获得所述待识别的单字字符图像对应的字符。
本实施例中,所述字符图像处理装置,还包括检测单元,所述检测单元用于:
获得待识别的文字图像;
对所述待识别的文字图像进行目标检测,获得单字字符图像。
本实施例中,所述聚类执行单元,具体用于:
获取预训练的神经网络;
利用所述预训练的神经网络,获得所述单字字符图像的单字特征数据;
对所述单字特征数据执行聚类操作,获得聚类结果。
本实施例中,所述聚类执行单元,还用于:
将所述聚类结果作为聚类簇内的伪标签;
利用所述伪标签以及所述伪标签对应的单字字符图像,对所述预训练的神经网络进行更新,获得更新后的神经网络;
利用所述更新后的神经网络,获得所述单字字符图像的单字特征数据。
本实施例中,所述图像筛选单元,具体用于:
根据字符出现频率,从所述聚类结果中筛选出高频单字字符图像;
根据专家知识对所述高频单字字符图像进行识别,获得所述高频单字字符图像对应的字符;
将所述高频单字字符图像对应的字符作为所述高频单字字符图像的标签。
本实施例中,所述模型获得单元,具体用于:
构建初始少样本分类模型;
依据所述高频单字字符图像以及所述高频单字字符图像的标签,利用权重共享的孪生网络训练所述初始少样本分类模型,获得少样本分类模型。
本实施例中,所述标签获得单元,具体用于:
利用所述少样本分类模型对所述单字字符图像进行识别,获得所述单字字符图像的分类结果;
判断所述单字字符图像的分类结果是否与所述聚类结果匹配;
若匹配,则将匹配的单字字符图像的分类结果作为所述单字字符图像的标签。
本实施例中,所述标签获得单元,还用于:
对所述单字字符图像的分类结果进行筛选,获得具有低置信度分类结果的单字字符图像;
根据专家知识对所述具有低置信度分类结果的单字字符图像进行识别,获得所述具有低置信度分类结果的单字字符图像对应的字符;
利用所述具有低置信度分类结果的单字字符图像对应的字符以及所述低置信度分类结果的单字字符图像,更新所述少样本分类模型。
本实施例中,所述分类模型获得单元,具体用于:
构建初始单字字符图像分类模型;
根据所述单字字符图像以及所述单字字符图像的标签,利用残差神经网络训练所述初始单字字符图像分类模型,获得单字字符图像分类模型。
需要说明的是,对于本申请第二实施例提供的装置的详细描述可以参考对本申请第一实施例的相关描述,这里不再赘述。
与本申请第一实施例提供的一种字符图像识别方法相对应的,本申请第三实施例还提供了一种电子设备。
如图5所示,所述电子设备,包括:
处理器501;以及
存储器502,用于存储字符图像处理方法的程序,该设备通电并通过所述处理器运行该单字符图像处理方法的程序后,执行下述步骤:
对单字字符图像执行聚类操作,获得聚类结果;
根据字符出现频率,从所述聚类结果中筛选出高频单字字符图像,并将所述高频单字字符图像对应的字符作为所述高频单字字符图像的标签;
根据所述高频单字字符图像以及所述高频单字字符图像的标签,获得少样本分类模型;
利用所述少样本分类模型对所述单字字符图像进行识别,获得所述单字字符图像的标签;
根据所述单字字符图像以及所述单字字符图像的标签,获得单字字符图像分类模型。
本实施例中,所述电子设备还执行下述步骤:
利用所述单字字符图像分类模型对待识别的单字字符图像进行识别,获得所述待识别的单字字符图像对应的字符。
本实施例中,所述电子设备还执行下述步骤:
获得待识别的文字集图像;
对所述待识别的文字集图像进行目标检测,获得单字字符图像。
本实施例中,所述对单字字符图像执行聚类操作,获得聚类结果,包括:
获取预训练的神经网络;
利用所述预训练的神经网络,获得所述单字字符图像的单字特征数据;
对所述单字特征数据执行聚类操作,获得聚类结果。
本实施例中,所述电子设备还执行下述步骤:
将所述聚类结果作为聚类簇内的伪标签;
利用所述伪标签以及所述伪标签对应的单字字符图像,对所述预训练的神经网络进行更新,获得更新后的神经网络;
利用所述更新后的神经网络,获得所述单字字符图像的单字特征数据。
本实施例中,所述根据字符出现频率,从所述聚类结果中筛选出高频单字字符图像,并将所述高频单字字符图像对应的字符作为所述高频单字字符图像的标签,包括:
根据字符出现频率,从所述聚类结果中筛选出高频单字字符图像;
根据专家知识对所述高频单字字符图像进行识别,获得所述高频单字字符图像对应的字符;
将所述高频单字字符图像对应的字符作为所述高频单字字符图像的标签。
本实施例中,所述根据所述高频单字字符图像以及所述高频单字字符图像的标签,获得少样本分类模型,包括:
构建初始少样本分类模型;
依据所述高频单字字符图像以及所述高频单字字符图像的标签,利用权重共享的孪生网络训练所述初始少样本分类模型,获得少样本分类模型。
本实施例中,所述利用所述少样本分类模型对所述单字字符图像进行识别,获得所述单字字符图像的标签,包括:
利用所述少样本分类模型对所述单字字符图像进行识别,获得所述单字字符图像的分类结果;
判断所述单字字符图像的分类结果是否与所述聚类结果匹配;
若匹配,则将匹配的单字字符图像的分类结果作为所述单字字符图像的标签。
本实施例中,所述电子设备还执行下述步骤:
对所述单字字符图像的分类结果进行筛选,获得具有低置信度分类结果的单字字符图像;
根据专家知识对所述具有低置信度分类结果的单字字符图像进行识别,获得所述具有低置信度分类结果的单字字符图像对应的字符;
利用所述具有低置信度分类结果的单字字符图像对应的字符以及所述低置信度分类结果的单字字符图像,更新所述少样本分类模型。
本实施例中,所述根据所述单字字符图像以及所述单字字符图像的标签,获得单字字符图像分类模型,包括:
构建初始单字字符图像分类模型;
根据所述单字字符图像以及所述单字字符图像的标签,利用残差神经网络训练所述初始单字字符图像分类模型,获得单字字符图像分类模型。
需要说明的是,对于本申请第三实施例提供的电子设备的详细描述可以参考对本申请第一实施例的相关描述,这里不再赘述。
与本申请第一实施例提供的一种字符图像处理方法相对应的,本申请第四实施例还提供了一种存储设备,存储有字符图像处理方法的程序,该程序被处理器运行,执行下述步骤:
对单字字符图像执行聚类操作,获得聚类结果;
根据字符出现频率,从所述聚类结果中筛选出高频单字字符图像,并将所述高频单字字符图像对应的字符作为所述高频单字字符图像的标签;
根据所述高频单字字符图像以及所述高频单字字符图像的标签,获得少样本分类模型;
利用所述少样本分类模型对所述单字字符图像进行识别,获得所述单字字符图像的标签;
根据所述单字字符图像以及所述单字字符图像的标签,获得单字字符图像分类模型。需要说明的是,对于本申请第四实施例提供的存储设备的详细描述可以参考对本申请第一实施例的相关描述,这里不再赘述。
本申请第五实施例提供一种古代汉籍图像的识别方法,请参考图6。
如图6所示,在步骤S601中,获得待识别的古代汉籍图像。
如图6所示,在步骤S602中,对所述待识别的古代汉籍图像进行目标检测,获得单字字符图像。
如图6所示,在步骤S603中,利用单字字符图像分类模型对所述单字字符图像进行识别,获得所述单字字符图像对应的字符,其中,所述单字字符图像分类模型根据本申请第一实施例提供的任意一项方法获得。
需要说明的是,对于本申请第五实施例提供的古代汉籍图像的识别方法的详细描述可以参考对本申请第一实施例的相关描述,这里不再赘述。
本申请第六实施例提供一种文本图像的识别方法,包括:
获取待识别的文本图像;
利用图像识别模型,获得所述文本图像的单字字符图像;
利用单字字符图像分类模型对所述单字字符图像进行识别,获得所述单字字符图像对应的字符,其中,所述单字字符图像分类模型根据本申请第一实施例提供的任意一项方法获得;
根据所述单字字符图像对应的字符,获得所述待识别的文本图像对应的文本数据。
本申请第六实施例提供的文本图像的识别方法可以应用于多个场景之中。例如,可以用于广告图像的识别。一些不法商家可能出于经济利益,利用形近字打擦边球,会对消费者产生误导。为了减少这种情况的发生,可以使用本实施例提供的方法,对这种广告进行识别。进而对于违规广告进行下架处理,以保护消费者的利益。
具体而言,首先获取待识别的文本图像,该文本图像可以是待识别的广告图像。然后,利用整体识别模型,例如CenterNet等图像识别模型,对所述广告图像进行目标检测,获得所述文本图像的单字字符图像;进而,利用单字字符图像分类模型对所述单字字符图像进行识别,获得所述单字字符图像对应的字符,其中,所述单字字符图像分类模型根据本申请第一实施例提供的任意一项方法获得;接着,根据所述单字字符图像对应的字符,获得所述待识别的文本图像对应的广告文本数据;最后,可以将所述广告文本数据与广告注册结构的合法广告文本数据进行对比,识别所述广告图像是否违规,并对违规的广告进行下架等后续处理。
本申请第六实施例提供的文本图像的识别方法还可以应用于做题的场景。随着手机应用的普及,越来越多的手机用户借助于手机来完成一些图像格式的题目的解答。例如,手机用户获得一份知识竞赛题目的文本图像,可以借助于手机应用,获得该知识竞赛题目的答案。
具体而言,首先获取待识别的文本图像,该文本图像可以是待识别的题目图像。然后,利用整体识别模型,例如CenterNet等图像识别模型,对所述题目图像进行目标检测,获得所述文本图像的单字字符图像;进而,利用单字字符图像分类模型对所述单字字符图像进行识别,获得所述单字字符图像对应的字符,其中,所述单字字符图像分类模型根据本申请第一实施例提供的任意一项方法获得;接着,根据所述单字字符图像对应的字符,获得待识别的文本图像对应的题目文本数据;最后,可以将所述题目文本数据作为索引,检索存储有题目及其答案的数据库,获得所述题目对应的答案,并将答案提供给手机用户。
本申请第七实施例提供一种文本图像的识别方法,包括:
获取待识别的文本图像;
基于第一识别模型,对所述文本图像进行整体识别,获取第一识别结果;
对所述文本图像进行分割,获得所述文本图像的单字字符图像;
基于第二识别模型,对所述单子字符图像进行识别,获得第二识别结果;
基于所述第一识别结果和第二识别结果,获得所述文本图像的文本数据。
例如,首先获取待识别的广告图像(即待识别的文本图像),然后基于第一识别模型,例如基于卷积神经网络,获得所述广告图像的整体特征,该整体特征可以用于判断该文本图像的类别,例如是否是广告。然后,利用CenterNet对所述文本图像进行分割,获得所述文本图像的单字字符图像。接着,基于单字字符图像分类模型,对所述单子字符图像进行识别,获得所述单子字符图像的对应字符。最后,基于所述广告图像的整体特征和所述单子字符图像的对应字符,获得所述文本图像的文本数据。
这里需要指出,本实施例中的待识别的文本图像也可以为待识别的题目图像。
本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims (16)

1.一种字符图像处理方法,其特征在于,包括:
对单字字符图像执行聚类操作,获得聚类结果;
根据字符出现频率,从所述聚类结果中筛选出高频单字字符图像,并将所述高频单字字符图像对应的字符作为所述高频单字字符图像的标签;
根据所述高频单字字符图像以及所述高频单字字符图像的标签,获得少样本分类模型;
利用所述少样本分类模型对所述单字字符图像进行识别,获得所述单字字符图像的标签;
根据所述单字字符图像以及所述单字字符图像的标签,获得单字字符图像分类模型。
2.根据权利要求1所述的方法,其特征在于,还包括:
获得待识别的单字字符图像;
利用所述单字字符图像分类模型对待识别的单字字符图像进行识别,获得所述待识别的单字字符图像对应的字符。
3.根据权利要求1所述的方法,其特征在于,还包括:
获得文字图像;
对所述文字图像进行目标检测,获得单字字符图像。
4.根据权利要求1所述的方法,其特征在于,所述对单字字符图像执行聚类操作,获得聚类结果,包括:
获取预训练的神经网络;
利用所述预训练的神经网络,获得所述单字字符图像的单字特征数据;
对所述单字特征数据执行聚类操作,获得聚类结果。
5.根据权利要求4所述的方法,其特征在于,还包括:
将所述聚类结果作为聚类簇内的伪标签;
利用所述伪标签以及所述伪标签对应的单字字符图像,对所述预训练的神经网络进行更新,获得更新后的神经网络;
利用所述更新后的神经网络,获得所述单字字符图像的单字特征数据。
6.根据权利要求1所述的方法,其特征在于,所述根据字符出现频率,从所述聚类结果中筛选出高频单字字符图像,并将所述高频单字字符图像对应的字符作为所述高频单字字符图像的标签,包括:
根据字符出现频率,从所述聚类结果中筛选出高频单字字符图像;
根据专家知识对所述高频单字字符图像进行识别,获得所述高频单字字符图像对应的字符;
将所述高频单字字符图像对应的字符作为所述高频单字字符图像的标签。
7.根据权利要求1所述的方法,其特征在于,所述根据所述高频单字字符图像以及所述高频单字字符图像的标签,获得少样本分类模型,包括:
构建初始少样本分类模型;
依据所述高频单字字符图像以及所述高频单字字符图像的标签,利用权重共享的孪生网络训练所述初始少样本分类模型,获得少样本分类模型。
8.根据权利要求1所述的方法,其特征在于,所述利用所述少样本分类模型对所述单字字符图像进行识别,获得所述单字字符图像的标签,包括:
利用所述少样本分类模型对所述单字字符图像进行识别,获得所述单字字符图像的分类结果;
判断所述单字字符图像的分类结果是否与所述聚类结果匹配;
若匹配,则将匹配的单字字符图像的分类结果作为所述单字字符图像的标签。
9.根据权利要求8所述的方法,其特征在于,还包括:
对所述单字字符图像的分类结果进行筛选,获得具有低置信度分类结果的单字字符图像;
根据专家知识对所述具有低置信度分类结果的单字字符图像进行识别,获得所述具有低置信度分类结果的单字字符图像对应的字符;
利用所述具有低置信度分类结果的单字字符图像对应的字符以及所述低置信度分类结果的单字字符图像,更新所述少样本分类模型。
10.根据权利要求1所述的方法,其特征在于,所述根据所述单字字符图像以及所述单字字符图像的标签,获得单字字符图像分类模型,包括:
构建初始单字字符图像分类模型;
根据所述单字字符图像以及所述单字字符图像的标签,利用残差神经网络训练所述初始单字字符图像分类模型,获得单字字符图像分类模型。
11.一种字符图像处理装置,其特征在于,包括:
聚类执行单元,用于对单字字符图像执行聚类操作,获得聚类结果;
图像筛选单元,用于根据字符出现频率,从所述聚类结果中筛选出高频单字字符图像,并将所述高频单字字符图像对应的字符作为所述高频单字字符图像的标签;
模型获得单元,用于根据所述高频单字字符图像以及所述高频单字字符图像的标签,获得少样本分类模型;
标签获得单元,用于利用所述少样本分类模型对所述单字字符图像进行识别,获得所述单字字符图像的标签;
分类模型获得单元,用于根据所述单字字符图像以及所述单字字符图像的标签,获得单字字符图像分类模型。
12.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储数据处理方法的程序,该设备通电并通过所述处理器运行该单字符图像识别方法的程序后,执行下述步骤:
对单字字符图像执行聚类操作,获得聚类结果;
根据字符出现频率,从所述聚类结果中筛选出高频单字字符图像,并将所述高频单字字符图像对应的字符作为所述高频单字字符图像的标签;
根据所述高频单字字符图像以及所述高频单字字符图像的标签,获得少样本分类模型;
利用所述少样本分类模型对所述单字字符图像进行识别,获得所述单字字符图像的标签;
根据所述单字字符图像以及所述单字字符图像的标签,获得单字字符图像分类模型。
13.一种存储设备,其特征在于,存储有数据处理方法的程序,该程序被处理器运行,执行下述步骤:
对单字字符图像执行聚类操作,获得聚类结果;
根据字符出现频率,从所述聚类结果中筛选出高频单字字符图像,并将所述高频单字字符图像对应的字符作为所述高频单字字符图像的标签;
根据所述高频单字字符图像以及所述高频单字字符图像的标签,获得少样本分类模型;
利用所述少样本分类模型对所述单字字符图像进行识别,获得所述单字字符图像的标签;
根据所述单字字符图像以及所述单字字符图像的标签,获得单字字符图像分类模型。
14.一种古代汉籍图像的识别方法,其特征在于,包括:
获得待识别的古代汉籍图像;
对所述待识别的古代汉籍图像进行目标检测,获得单字字符图像;
利用单字字符图像分类模型对所述单字字符图像进行识别,获得所述单字字符图像对应的字符,其中,所述单字字符图像分类模型根据权利要求1-10所述的任意一项方法获得。
15.一种文本图像的识别方法,其特征在于,包括:
获取待识别的文本图像;
利用图像识别模型,获得所述文本图像的单字字符图像;
利用单字字符图像分类模型对所述单字字符图像进行识别,获得所述单字字符图像对应的字符,其中,所述单字字符图像分类模型根据权利要求1-10所述的任意一项方法获得;
根据所述单字字符图像对应的字符,获得所述待识别的文本图像对应的文本数据。
16.一种文本图像的识别方法,其特征在于,包括:
获取待识别的文本图像;
基于第一识别模型,对所述文本图像进行整体识别,获取第一识别结果;
对所述文本图像进行分割,获得所述文本图像的单字字符图像;
基于第二识别模型,对所述单子字符图像进行识别,获得第二识别结果;
基于所述第一识别结果和第二识别结果,获得所述文本图像的文本数据。
CN202010366808.7A 2020-04-30 2020-04-30 字符图像处理方法、装置及古代汉籍图像的识别方法 Pending CN113591857A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010366808.7A CN113591857A (zh) 2020-04-30 2020-04-30 字符图像处理方法、装置及古代汉籍图像的识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010366808.7A CN113591857A (zh) 2020-04-30 2020-04-30 字符图像处理方法、装置及古代汉籍图像的识别方法

Publications (1)

Publication Number Publication Date
CN113591857A true CN113591857A (zh) 2021-11-02

Family

ID=78237567

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010366808.7A Pending CN113591857A (zh) 2020-04-30 2020-04-30 字符图像处理方法、装置及古代汉籍图像的识别方法

Country Status (1)

Country Link
CN (1) CN113591857A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113903043A (zh) * 2021-12-11 2022-01-07 绵阳职业技术学院 一种基于孪生度量模型的印刷汉字字体识别方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113903043A (zh) * 2021-12-11 2022-01-07 绵阳职业技术学院 一种基于孪生度量模型的印刷汉字字体识别方法
CN113903043B (zh) * 2021-12-11 2022-05-06 绵阳职业技术学院 一种基于孪生度量模型的印刷汉字字体识别方法

Similar Documents

Publication Publication Date Title
RU2661750C1 (ru) Распознавание символов с использованием искусственного интеллекта
CN111476284A (zh) 图像识别模型训练及图像识别方法、装置、电子设备
CN111046133A (zh) 基于图谱化知识库的问答方法、设备、存储介质及装置
CN102779140B (zh) 一种关键词获取方法及装置
WO2020118741A1 (en) Efficient and accurate named entity recognition method and apparatus
WO2017066543A1 (en) Systems and methods for automatically analyzing images
Wilkinson et al. Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections
CN114596566B (zh) 文本识别方法及相关装置
CN112364204A (zh) 视频搜索方法、装置、计算机设备及存储介质
CN112258254B (zh) 基于大数据架构的互联网广告风险监测方法及系统
CN104750791A (zh) 一种图像检索方法及装置
US20230351789A1 (en) Systems and methods for deep learning based approach for content extraction
US11983202B2 (en) Computer-implemented method for improving classification of labels and categories of a database
CN107844531B (zh) 答案输出方法、装置和计算机设备
CN112434533A (zh) 实体消歧方法、装置、电子设备及计算机可读存储介质
CN110825874A (zh) 一种中文文本分类方法和装置及计算机可读存储介质
CN114817633A (zh) 视频分类方法、装置、设备及存储介质
CN111143515B (zh) 文本匹配方法及装置
CN113591857A (zh) 字符图像处理方法、装置及古代汉籍图像的识别方法
CN115273103A (zh) 文本识别方法、装置、电子设备及存储介质
CN114780757A (zh) 短媒体标签抽取方法、装置、计算机设备和存储介质
CN114067343A (zh) 一种数据集的构建方法、模型训练方法和对应装置
CN110909737A (zh) 图片文字识别方法及系统
CN112149389A (zh) 简历信息结构化处理方法、装置、计算机设备和存储介质
CN112579774A (zh) 模型训练方法、模型训练装置及终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination