CN111738269B - 模型训练方法、图像处理方法及装置、设备、存储介质 - Google Patents

模型训练方法、图像处理方法及装置、设备、存储介质 Download PDF

Info

Publication number
CN111738269B
CN111738269B CN202010860134.6A CN202010860134A CN111738269B CN 111738269 B CN111738269 B CN 111738269B CN 202010860134 A CN202010860134 A CN 202010860134A CN 111738269 B CN111738269 B CN 111738269B
Authority
CN
China
Prior art keywords
images
image
character
character image
feature extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010860134.6A
Other languages
English (en)
Other versions
CN111738269A (zh
Inventor
秦勇
李兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yizhen Xuesi Education Technology Co Ltd
Original Assignee
Beijing Yizhen Xuesi Education Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yizhen Xuesi Education Technology Co Ltd filed Critical Beijing Yizhen Xuesi Education Technology Co Ltd
Priority to CN202010860134.6A priority Critical patent/CN111738269B/zh
Publication of CN111738269A publication Critical patent/CN111738269A/zh
Application granted granted Critical
Publication of CN111738269B publication Critical patent/CN111738269B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本申请提出一种模型训练方法、图像处理方法及装置、设备、存储介质;其中,该方法包括:获取待处理字符图像,所述待处理字符图像为不符合预设书写规则的手写体字符图像;将所述待处理字符图像输入至识别模型,得到与所述待处理字符图像对应的符合预设书写规则的第一目标字符图像;获取与所述第一目标字符图像进行相似度评估的符合预设书写规则的字符图像;将所述第一目标字符图像和与所述第一目标字符图像进行相似度评估的符合预设书写规则的字符图像输入至相似度评估模型,得到评估结果。如此,为有效实现对字符图像的相似度评估奠定了基础。

Description

模型训练方法、图像处理方法及装置、设备、存储介质
技术领域
本申请涉及一种数据处理技术,尤其涉及一种模型训练方法、图像处理方法及装置、设备、存储介质。
背景技术
字符图像相似度评估是图像相似度评估的特定问题,所谓字符图像就是指图像的内容是字符比如,数字或字母等,字符图像相似度评估在很多场景中都有非常重要的价值,如笔迹对比等;但是,现有对字符图像相似度的评估方法,尤其针对手写字符而言,研究甚少。
发明内容
本申请实施例提供一种模型训练方法、图像处理方法及装置、设备、存储介质,以解决相关技术存在的问题,技术方案如下:
第一方面,本申请实施例提供了一种相似度评估模型训练方法,包括:
获取第一训练样本,其中,第一训练样本中包含有符合预设书写规则的第一手写体字符图像;
将第一训练样本中的第一手写体字符图像进行分组处理,至少得到第一组图像和第二组图像,其中,第一组图像中包含展示字符相同的至少两个第一字符图像;第二组图像中包含展示字符不同的至少两个第二字符图像;
基于第一组图像所对应的至少两个第一字符图像,以及第二组图像所对应的至少两个第二字符图像,对相似度评估模型进行训练,以得到训练完成后的相似度评估模型;
其中,相似度评估模型用于对符合预设书写规则的手写体字符图像进行相似度评估;相似度评估模型包含有特征提取网络和度量网络,其中,特征提取网络用于对第一字符图像和第二字符图像进行特征提取,度量网络用于对特征提取后的至少两个第一字符图像或者至少两个第二字符图像进行相似度度量。
在一种实施方式中,特征提取网络至少包括卷积层,其中,特征提取网络至少利用卷积层对第一字符图像进行特征提取,以及至少利用卷积层对第二字符图像进行特征提取。
在一种实施方式中,特征提取网络还包括池化层;其中,特征提取网络依次利用卷积层和池化层对第一字符图像进行特征提取,以及依次利用卷积层和池化层对第二字符图像进行特征提取。
在一种实施方式中,度量网络包含有全连接层,其中,度量网络利用全连接层对特征提取后的至少两个第一字符图像或者至少两个第二字符图像进行相似度度量。
在一种实施方式中,还包括:
对第一组图像中两个第一字符图像的中心区域进行提取,得到两个第一中心图像,对第一组图像中两个第一字符图像进行降采样处理,得到两个第一全局图像,以利用第一中心图像和第一全局图像对相似度评估模型进行训练。
在一种实施方式中,基于第一组图像所对应的至少两个第一字符图像,对相似度评估模型进行训练,包括:
至少基于特征提取网络中的第一分支对第一组图像所对应的两个第一中心图像进行特征提取;
至少基于特征提取网络中的第二分支对第一组图像所对应的两个第一全局图像进行特征提取;
将第一分支提取得到的特征信息与第二分支提取得到的特征信息进行串联处理;
利用度量网络对串联处理后的特征信息进行相似度量,得到用于评估两个第一字符图像之间相似度的评估结果,以利用评估结果对相似度评估模型进行训练。
在一种实施方式中,还包括:
对第二组图像中两个第二字符图像的中心区域进行提取,得到两个第二中心图像,对第二组图像中两个第二字符图像进行降采样处理,得到两个第二全局图像,以利用第二中心图像和第二全局图像对相似度评估模型进行训练。
在一种实施方式中,基于第二组图像所对应的至少两个第二字符图像,对相似度评估模型进行训练,包括:
至少基于特征提取网络中的第一分支对第二组图像所对应的两个第二中心图像进行特征提取;
至少基于特征提取网络中的第二分支对第二组图像所对应的两个第二全局图像进行特征提取;
将第一分支提取得到的特征信息与第二分支提取得到的特征信息进行串联处理;
利用度量网络对串联处理后的特征信息进行相似度量,得到用于评估两个第二字符图像之间相似度的评估结果,以利用评估结果对相似度评估模型进行训练。
第二方面,本申请实施例提供了一种识别模型训练方法,包括:
获取第二训练样本,其中,第二训练样本中包含有不符合预设书写规则的第二手写体字符图像,以及第二手写体字符图像对应的标签图像,其中,标签图像为与第二手写体字符图像对应的符合预设书写规则的字符图像;
利用第二手写体字符图像以及标签图像对识别模型进行训练,以得到训练完成后的识别模型;其中,识别模型用于对不符合预设书写规则的手写体字符图像进行识别,并得到与不符合预设书写规则的手写体字符图像相对应的目标字符图像,目标字符图像符合预设书写规则。
在一种实施方式中,识别模型包括有图像生成层,其中,利用第二手写体字符图像以及标签图像对识别模型进行训练,包括:
基于图像生成层对第二手写体字符图像以及标签图像进行卷积处理后,再进行反卷积处理,得到第二手写体字符图像所对应的输出图像,以便于在标签图像的监督下基于输出图像对识别模型进行训练。
在一种实施方式中,识别模型还包括图像判别层;方法还包括:
基于判别层对输出图像与标签图像的相似度进行判断,得到判断结果,以至少基于判断结果对识别模型进行训练。
第三方面,本申请实施例提供了一种图像处理方法,包括:
获取待处理字符图像,待处理字符图像为不符合预设书写规则的手写体字符图像;
将待处理字符图像输入至识别模型,得到与待处理字符图像对应的符合预设书写规则的第一目标字符图像;
获取与第一目标字符图像进行相似度评估的符合预设书写规则的字符图像;
将第一目标字符图像和与第一目标字符图像进行相似度评估的符合预设书写规则的字符图像输入至相似度评估模型,得到评估结果;
其中,利用评估结果能够确定出待处理字符图像所显示的字符,和/或,相似度评估模型为上述各方面任一种实施方式所得到的相似度评估模型;识别模型为上述各方面任一种实施方式所得到的识别模型。
第四方面,本申请实施例提供了一种相似度评估模型训练装置,包括:
第一样本获取单元,用于获取第一训练样本,其中,第一训练样本中包含有符合预设书写规则的第一手写体字符图像;
分组处理单元,用于将第一训练样本中的第一手写体字符图像进行分组处理,至少得到第一组图像和第二组图像,其中,第一组图像中包含展示字符相同的至少两个第一字符图像;第二组图像中包含展示字符不同的至少两个第二字符图像;
相似度评估模型训练单元,用于基于第一组图像所对应的至少两个第一字符图像,以及第二组图像所对应的至少两个第二字符图像,对相似度评估模型进行训练,以得到训练完成后的相似度评估模型;
其中,相似度评估模型用于对符合预设书写规则的手写体字符图像进行相似度评估;相似度评估模型包含有特征提取网络和度量网络,其中,特征提取网络用于对第一字符图像和第二字符图像进行特征提取,度量网络用于对特征提取后的至少两个第一字符图像或者至少两个第二字符图像进行相似度度量。
在一种实施方式中,特征提取网络至少包括卷积层,其中,特征提取网络至少利用卷积层对第一字符图像进行特征提取,以及至少利用卷积层对第二字符图像进行特征提取。
在一种实施方式中,特征提取网络还包括池化层;其中,特征提取网络依次利用卷积层和池化层对第一字符图像进行特征提取,以及依次利用卷积层和池化层对第二字符图像进行特征提取。
在一种实施方式中,度量网络包含有全连接层,其中,度量网络利用全连接层对特征提取后的至少两个第一字符图像或者至少两个第二字符图像进行相似度度量。
在一种实施方式中,还包括:
第一图像处理单元,用于对第一组图像中两个第一字符图像的中心区域进行提取,得到两个第一中心图像,对第一组图像中两个第一字符图像进行降采样处理,得到两个第一全局图像,以利用第一中心图像和第一全局图像对相似度评估模型进行训练。
在一种实施方式中,相似度评估模型训练单元包括:
第一中心图像特征提取子单元,用于至少基于特征提取网络中的第一分支对第一组图像所对应的两个第一中心图像进行特征提取;
第一全局图像特征提取子单元,用于至少基于特征提取网络中的第二分支对第一组图像所对应的两个第一全局图像进行特征提取;
第一串联处理子单元,用于将第一分支提取得到的特征信息与第二分支提取得到的特征信息进行串联处理;
第一训练子单元,用于利用度量网络对串联处理后的特征信息进行相似度量,得到用于评估两个第一字符图像之间相似度的评估结果,以利用评估结果对相似度评估模型进行训练。
在一种实施方式中,还包括:
第二图像处理单元,对第二组图像中两个第二字符图像的中心区域进行提取,得到两个第二中心图像,对第二组图像中两个第二字符图像进行降采样处理,得到两个第二全局图像,以利用第二中心图像和第二全局图像对相似度评估模型进行训练。
在一种实施方式中,相似度评估模型训练单元包括:
第二中心图像特征提取子单元,用于基于特征提取网络中的第一分支对第二组图像所对应的两个第二中心图像进行特征提取;
第二全局图像特征提取子单元,用于至少基于特征提取网络中的第二分支对第二组图像所对应的两个第二全局图像进行特征提取;
第二串联处理子单元,用于将第一分支提取得到的特征信息与第二分支提取得到的特征信息进行串联处理;
第二训练子单元,用于利用度量网络对串联处理后的特征信息进行相似度量,得到用于评估两个第二字符图像之间相似度的评估结果,以利用评估结果对相似度评估模型进行训练。
第五方面,本申请实施例提供了一种识别模型训练装置,包括:
第二样本获取单元,用于获取第二训练样本,其中,第二训练样本中包含有不符合预设书写规则的第二手写体字符图像,以及第二手写体字符图像对应的标签图像,其中,标签图像为与第二手写体字符图像对应的符合预设书写规则的字符图像;
识别模型训练单元,用于利用第二手写体字符图像以及标签图像对识别模型进行训练,以得到训练完成后的识别模型;其中,识别模型用于对不符合预设书写规则的手写体字符图像进行识别,并得到与不符合预设书写规则的手写体字符图像相对应的目标字符图像,目标字符图像符合预设书写规则。
在一种实施方式中,识别模型包括有图像生成层,其中,识别模型训练单元,还用于:
基于图像生成层对第二手写体字符图像以及标签图像进行卷积处理后,再进行反卷积处理,得到第二手写体字符图像所对应的输出图像,以便于在标签图像的监督下基于输出图像对识别模型进行训练。
在一种实施方式中,识别模型还包括图像判别层;其中,识别模型训练单元,还用于:
基于判别层对输出图像与标签图像的相似度进行判断,得到判断结果,以至少基于判断结果对识别模型进行训练。
第六方面,本申请实施例提供了一种图像处理装置,包括:
待处理图像获取单元,用于获取待处理字符图像,待处理字符图像为不符合预设书写规则的手写体字符图像;
第一模型处理单元,用于将待处理字符图像输入至识别模型,得到与待处理字符图像对应的符合预设书写规则的第一目标字符图像;
待评估图像获取单元,用于获取与第一目标字符图像进行相似度评估的符合预设书写规则的字符图像;
第二模型处理单元,用于将第一目标字符图像和与第一目标字符图像进行相似度评估的符合预设书写规则的字符图像输入至相似度评估模型,得到评估结果;
其中,利用评估结果能够确定出待处理字符图像所显示的字符;相似度评估模型为上述各方面任一种实施方式中所得到的相似度评估模型;和/或,识别模型为上述各方面任一种实施方式中所得到的识别模型。
第七方面,本申请实施例提供了一种模型训练设备,包括:存储器和处理器。其中,该存储器和该处理器通过内部连接通路互相通信,该存储器用于存储指令,该处理器用于执行该存储器存储的指令,并且当该处理器执行该存储器存储的指令时,使得该处理器执行上述各方面任一种实施方式中的相似度评估模型训练方法;或者,该处理器执行上述各方面任一种实施方式中的识别模型训练方法。
第八方面,本申请实施例提供了一种图像处理设备,包括:存储器和处理器;其中,该存储器和该处理器通过内部连接通路互相通信,该存储器用于存储指令,该处理器用于执行该存储器存储的指令,并且当该处理器执行该存储器存储的指令时,使得该处理器执行上述图像处理方法。
第九方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质存储计算机程序,当计算机程序在计算机上运行时,上述各方面任一种实施方式中的方法被执行,比如,执行上述各方面任一种实施方式中的相似度评估模型训练方法,或者识别模型训练方法,或者图像处理方法。
上述技术方案中的优点或有益效果至少包括:为有效实现对字符图像的相似度评估奠定了基础,同时,也为丰富使用场景、提升用户体验奠定了基础。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本申请进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本申请公开的一些实施方式,而不应将其视为是对本申请范围的限制。
图1示出根据本申请一实施例的相似度评估模型训练方法的流程图;
图2示出根据本申请一实施例的识别模型训练方法的流程图;
图3示出根据本申请一实施例的图像处理方法的流程图;
图4示出根据本申请一实施例的一具体示例的流程示意图;
图5示出根据本发明一实施例的相似度评估模型训练装置的结构框图;
图6示出根据本发明一实施例的识别模型训练装置的结构框图;
图7示出根据本发明一实施例的图像处理装置的结构框图;
图8示出根据本发明一实施例的模型训练设备(或图像处理设备)的结构框图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本申请的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
尽管深度学习的方法已经在图像相似度评估的问题上取得了重大进展,但对于字符图像相似度的评估,比如数字字符图像相似度的评估却没有太多的方法,比如,在拍照批改数学题,或拍照搜题等人工智能应用场景中,由于书写者的笔迹与标准体之间的差距,有效识别题目答案或有效搜题的难度被放大,基于此,亟需一种字符图像相似度评估方法,来实现手写体字符图像与可能的标准字符图像进行相似度评估,进而基于相似度值来为后续判题或搜索等操作提供有力的先验知识。
图1示出根据本申请一实施例的相似度评估模型训练方法的流程图。如图1所示,该方法可以包括:
步骤S101:获取第一训练样本,其中,第一训练样本中包含有符合预设书写规则的第一手写体字符图像。
步骤S102:将第一训练样本中的第一手写体字符图像进行分组处理,至少得到第一组图像和第二组图像,其中,第一组图像中包含展示字符相同的至少两个第一字符图像;第二组图像中包含展示字符不同的至少两个第二字符图像,即分组成正负样本,为后续模型训练提供数据支持。
步骤S103:基于第一组图像所对应的至少两个第一字符图像,以及第二组图像所对应的至少两个第二字符图像,对相似度评估模型进行训练,以得到训练完成后的相似度评估模型。
其中,相似度评估模型用于对符合预设书写规则的手写体字符图像进行相似度评估;相似度评估模型包含有特征提取网络和度量网络,其中,特征提取网络用于对第一字符图像和第二字符图像进行特征提取,度量网络用于对特征提取后的至少两个第一字符图像或者至少两个第二字符图像进行相似度度量。
这样,利用相似度评估模型能够实现对两个字符图像进行相似度评估,如此,来丰富应用场景,提升用户体验。
比如,在一具体场景中,相似度评估模型能够对符合正常书写规则的手写体字符与预设字符图像(如书写体字符图像)进行相似度评估,进而来为有效识别书手写体中的字符奠定了基础,为后续判题或搜索等场景操作提供了有力的先验知识。
在一种实施方式中,特征提取网络至少包括卷积层,其中,特征提取网络至少利用卷积层对第一字符图像进行特征提取,以及至少利用卷积层对第二字符图像进行特征提取。如此,通过卷积层来丰富特征提取的维度,为提高评估结果的准确度奠定了基础。
在一种实施方式中,特征提取网络还包括池化层;其中,特征提取网络依次利用卷积层和池化层对第一字符图像进行特征提取,以及依次利用卷积层和池化层对第二字符图像进行特征提取。如此,通过卷积层和池化层来进一步地丰富特征提取的维度,为提高评估结果的准确度奠定了基础。
当然,实际应用中,特征提取网络还可以包含有归一化层,利用归一化层对特征提取后的数据进行归一化处理,以使处理后数据的符合预设数据规则。
在一种实施方式中,度量网络包含有全连接层,其中,度量网络利用全连接层对特征提取后的至少两个第一字符图像或者至少两个第二字符图像进行相似度度量。如此,通过全连接层来将特征提取后得到的局部特征进行整合处理后,来进行相似度评估,为提高评估结果的准确度奠定了基础。
在一种实施方式中,还可以采用如下方式进行模型训练,即对第一组图像中两个第一字符图像的中心区域进行提取,得到两个第一中心图像,对第一组图像中两个第一字符图像进行降采样处理,得到两个第一全局图像,以利用第一中心图像和第一全局图像对相似度评估模型进行训练。如此,最大化提取到需要进行相似度评估的两个字符图像的特征信息,为提升评估结果的准确率奠定了基础。
在一种实施方式中,在得到第一中心图像和第一全局图像后,可以采用如下方式,利用第一组图像进行模型训练,即:
至少基于特征提取网络中的第一分支对第一组图像所对应的两个第一中心图像进行特征提取;至少基于特征提取网络中的第二分支对第一组图像所对应的两个第一全局图像进行特征提取;将第一分支提取得到的特征信息与第二分支提取得到的特征信息进行串联处理;利用度量网络对串联处理后的特征信息进行相似度量,得到用于评估两个第一字符图像之间相似度的评估结果,以利用评估结果对相似度评估模型进行训练。如此,最大化提取到需要进行相似度评估的两个字符图像的特征信息,为提升评估结果的准确率奠定了基础。
这里,实际应用中,特征提取网络可以包含有多个分支,此时,只需将进行相似度评估的两个字符图像对应的中心图像和全局图像分别输入至不同的分支,即可最大化提取到需要进行相似度评估的两个字符图像的特征信息,为后续提升评估结果的准确率奠定了基础。比如,当特征提取网络存在四个分支,此时,可以将第一组图像所对应的两个第一中心同时输入至第一个分支,以及同时输入至第二个分支,同时,将第一组图像所对应的两个第一全局图像同时输入至第三个分支,和同时输入至第四个分支。这里,不同分支之间的权重不共享,如此,来最大化提取来两个第一字符图像的特征信息。
在一种实施方式中,还可以采用如下方式进行模型训练,即对第二组图像中两个第二字符图像的中心区域进行提取,得到两个第二中心图像,对第二组图像中两个第二字符图像进行降采样处理,得到两个第二全局图像,以利用第二中心图像和第二全局图像对相似度评估模型进行训练。如此,最大化提取到需要进行相似度评估的两个字符图像的特征信息,为提升评估结果的准确率奠定了基础。
在一种实施方式中,在得到第二中心图像和第二全局图像后,可以采用如下方式,利用第二组图像进行模型训练,即:
至少基于特征提取网络中的第一分支对第二组图像所对应的两个第二中心图像进行特征提取;至少基于特征提取网络中的第二分支对第二组图像所对应的两个第二全局图像进行特征提取;将第一分支提取得到的特征信息与第二分支提取得到的特征信息进行串联处理;利用度量网络对串联处理后的特征信息进行相似度量,得到用于评估两个第二字符图像之间相似度的评估结果,以利用评估结果对相似度评估模型进行训练。如此,最大化提取到需要进行相似度评估的两个字符图像的特征信息,为提升评估结果的准确率奠定了基础。
这里,需要说明的是,实际应用中,特征提取网络可以具体为卷积神经网络,包括:至少两个分支,每个分支包括多个卷积层和多个池化层,各层相互之间不共享权重;度量网络包含有一个或多个全连接层,比如,三个全连接层,其中,最后一个全连接层连接有softmax函数;这里,度量网络中还设置有目标函数,该目标函数与全连接层的最后一层连接的softmax函数相连接,比如采用交叉熵损失函数(CrossEntropyLoss),如此,利用目标函数来约束训练过程,以最终得到训练完成后的相似度评估模型。当然,特征提取网络中还可以包含有归一化层,利用归一化层对特征提取后的数据进行归一化处理,如此,使处理后数据的符合预设数据规则,为后续进行相似度评估奠定了数据基础。
这样,训练完成得到相似度评估模型,如此,便于利用训练完成后的相似度评估模型来对两个字符图像进行相似度评估,为丰富使用场景、提升用户体验奠定了基础。
在实际的小学数学拍照批改应用中,由于书写的数字字符答案被书写者涂改、勾划、涂抹等随意操作,导致数字字符极难辨识或者根本无法辨识,在这种情况下,相似度评估模型在对此种情况下的字符图像进行相似度评估时,准确度较低,但是,该相似度评估结果对于后续判题策略来说却非常关键,比如,8+1=9,8+1=是题干,9是书写者提供的答案,但是由于涂抹,无法有效将9识别出,因此,亟需一种能够对手写体字符,尤其是难以辨识的手写体字符进行识别的方法,以为后续相似度评估提供先验数据,进而,为提升相似度评估结果的准确率,以及提升后续判题结果的准确率奠定基础。
基于此,本申请方案还提供了一种极难辨识的手写字符图像相似度评估新方法。具体地,图2示出根据本申请一实施例的识别模型训练方法的流程图。如图2所示,该方法可以包括:
步骤S201:获取第二训练样本,其中,第二训练样本中包含有不符合预设书写规则的第二手写体字符图像,以及第二手写体字符图像对应的标签图像,其中,标签图像为与第二手写体字符图像对应的符合预设书写规则的字符图像。
步骤S202:利用第二手写体字符图像以及标签图像对识别模型进行训练,以得到训练完成后的识别模型;其中,识别模型用于对不符合预设书写规则的手写体字符图像进行识别,并得到与不符合预设书写规则的手写体字符图像相对应的目标字符图像,目标字符图像符合预设书写规则。
这样,为利用识别模型对手写体字符图像,比如,不符合预设书写规则的图像进行有效识别奠定了基础,同时,也降低了识别模型对待识别图像的图像要求,为丰富使用场景、提升用户体验奠定了基础。
在一种实施方式中,识别模型包括有图像生成层,此时,基于图像生成层对第二手写体字符图像以及标签图像进行卷积处理后,再进行反卷积处理,得到第二手写体字符图像所对应的输出图像,以便于在标签图像的监督下基于输出图像对识别模型进行训练。如此,为实现对不符合预设书写规则的手写体字符图像的有效识别奠定了基础。
在一种实施方式中,识别模型还包括图像判别层;此时,在得到输出图像后,将输出图像以及标签图像作为判别层的输入,进而基于判别层对输出图像与标签图像的相似度进行判断,得到判断结果,以至少基于判断结果对识别模型进行训练。如此,为提升识别结果的准确度奠定了基础。
如此,来得到训练完成后的识别模型,这里,由于该识别模型训练的样本为不符合预设书写规则的第二手写体字符图像,同时,还包含第二手写体字符图像对应的标签图像,该标签图像为与第二手写体字符图像对应的符合预设书写规则的字符图像,如此,使得训练后得到的识别模型能够对极难辨识的字符图像进行识别,进而能够为后续进行似度评估结果提供先验数据,为提升相似度评估结果的准确率,以及提升后续判题结果的准确率奠定基础。
图3示出根据本申请一实施例的识别模型训练方法的流程图。如图3所示,该方法可以包括:
步骤S301:获取待处理字符图像,待处理字符图像为不符合预设书写规则的手写体字符图像。
步骤S302:将待处理字符图像输入至识别模型,得到与待处理字符图像对应的符合预设书写规则的第一目标字符图像。
步骤S303:获取与第一目标字符图像进行相似度评估的符合预设书写规则的字符图像。
步骤S304:将第一目标字符图像和与第一目标字符图像进行相似度评估的符合预设书写规则的字符图像输入至相似度评估模型,得到评估结果。
这里,利用评估结果能够确定出待处理字符图像所显示的字符;需要说明的是,本实施例中相似度评估模型为以上实施例模型训练方法所得到的相似度评估模型;和/或,识别模型为以上模型训练方法所得到的识别模型。
比如,在一场景中,相似度评估模型为以上实施例模型训练方法所得到的相似度评估模型,识别模型可以为现有技术中任一识别模型;或者,在另一场景中,相似度评估模型为现有技术中的任一相似度评估模型,而识别模型为以上实施例模型训练方法所得到的识别模型。当然,实际应用中,为提升评估结果的准确性,本实施例中相似度评估模型为以上实施例模型训练方法所得到的相似度评估模型;以及,识别模型为以上模型训练方法所得到的识别模型。
这里,由于能够利用识别模型对待处理字符图像进行识别处理,得到符合预设书写规则的字符图像,也即第一目标字符图像,所以,为后续相似度评估提供了可靠的先验数据;而且,由于相似度评估模型所评估的字符图像为符合预设书写规则的图像,所以,使得评估结果准确率较高,进而为丰富使用场景,提升用户体验奠定了基础。
以下结合具体示例对本申请方案做进一步详细说明,具体地,本示例提供了一种字符图像相似度评估方法,该方法以MatchNet模型和2channal2stream模型为基础,并融合pix2pix模型,如此,大幅提高极难辨识的字符图像,比如手写数字字符图像相似度评估的准确率。
以下以手写数字字符图像为例对本申请方案做进行说明;具体地,为全面提升极难辨识的手写数字字符图像相似度评估准确率,将MatchNet与2channal2stream的优势完全结合起来,并在网络结构上进行了创新得到本申请方案的相似度评估模型,使其能在保证正常手写数字字符图像相似度评估效率的前提下,大幅提高正常手写数字字符图像相似度评估的准确率,同时融合pix2pix模型(作为本申请方案的识别模型),利用该pix2pix模型将极难辨识的手写数字字符图像转换成正常的手写数字字符图像,然后再利用相似度评估模型进行相似度评估,如此,在确保准确率以及评估效率的基础上,实现任意数字字符的相似度评估具体技术方案如下:
本申请方案的整体框架包含两个神经网络模型组成,一个是结合MatchNet与2channal2stream模型优势的正常数字字符图像相似度评估模型(也即以上的相似度评估模型),另一个是pix2pix模型(也即以上的识别模型)。
这里,正常数字字符图像相似度评估模型包括两部分,分别为特征提取网络和度量网络,其中,特征提取网络包括4个分支,每个分支包括5个卷积层和3个池化层,相互之间均不共享权重,度量网络包括3个全连接层(第三个全连接层后连接一个softmax函数)和目标函数,目标函数可以具体为交叉熵损失函数(CrossEntropyLoss),该正常数字字符图像相似度评估模型的输入包括为:中心图像和全局图像;具体地,将两张待评估相似度的图像(称为原图像)的中心位置裁剪出来,裁剪出来的图像为原图像1/4大小,称为中心图像,即得到两个中心图像;同时,对两张原图像进行2倍降采样,得到的图像也为原图像1/4大小,称为全局图像,即得到两个全局图像;将两个中心图像同时送入特征提取网络中的第1个分支,以及同时送入特征提取网络中的第2个分支,将两个全局图像同时送入特征提取网络第3个分支,以及同时送入特征提取网络第4个分支,以分别提取特征信息,并在经由特征提取网络中的最后一个池化层之后,将提取到的4组特征信息并联处理后输入至度量网络,并经由度量网络后得到两张待评估相似度的图像的评估结果。
这里,需要说明的是,实际应用中,分支的数量,以及各分支中卷积层和池化层的数量可以根据实际需求而设定,本申请方案对此不作限制。
实际应用中,两张待评估相似度的图像中的一张可能为正常数字字符图像,比如,为书写体数字字符图像,或者为符合预设书写规则的手写体字符图像,而另外一张图像为极难辨识的手写体字符图像,此时,若直接使用正常数字字符图像相似度评估模型进行相似度评估,评估结果的准确率较低,基于此,在检测到待进行识别的字符图像为不符合预设书写规则的手写体字符图像,如为极难辨识的字符图像,此时,可以利用pix2pix模型来进行识别,然后得到识别结果,该识别结果即为符合预设书写规则的手写体字符图像,如此,利用pix2pix模型,来实现将不符合预设书写规则的手写体字符图像转换为符合预设书写规则的字符图像,进而得到相似度评估模型的先验数据,为提升评估结果的准确率奠定了基础。
这里,该pix2pix模型以极难辨识的手写数字字符图像作为输入,输出为正常的手写数字字符图像。如此,来大幅提高极难辨识的手写数字字符图像相似度评估的准确率。如图4所示,具体流程如下:
第一步,收集大量正常手写数字字符图像组成图像对作为手写数字字符图像相似度评估模型的训练数据集。其中,将字符内容相同的两张字符图像组为匹配的一对,将字符内容不相同的两张字符图像组为不匹配的一对。
第二步,构建正常数字字符图像相似度评估模型,包括特征提取网络和度量网络,其中特征提取网络包括4个分支,每个分支包括5个卷积层和3个池化层,相互之间均不共享权重,度量网络包括3个全连接层(第三个全连接层后接了一个softmax函数)和目标函数组成,目标函数采用交叉熵损失函数(CrossEntropyLoss)。
第三步,利用第一步得到的训练数据集训练构建的正常数字字符图像相似度评估模型,具体地,将第一步得到图像对中的图像进行处理,即先将图像对中的图像(原图像)中心位置裁剪出来,裁剪出来的图像为原图像1/4大小,作为中心图像,得到两个中心图像;同时,对原图像进行2倍降采样,得到的图像也为原图像1/4大小,作为全局图像,得到两个全局图像;
第四步,将第三步得到的两张中心图像同时输入第二步构建的模型的特征提取网络中的第1分支,以及同时输入至特征提取网络中的第2个分支,以进行特征提取;同时,将两张全局图像分别输入第二步构建的模型的特征提取网络的第3个分支,以及同时输入至特征提取网络中的第4个分支,以进行特征提取,得到4组特征信息,将4组特征信息进行串联后,经过一个全连接层,得到一个表示这个分支提取到的特征信息的特征向量,将4个特征向量串联,输入至第二步构建的模型的度量网络中,得到输出结果,以根据目标函数值,通过梯度反向传播算法,优化整个模型参数,以训练构建的正常数字字符图像相似度评估模型。
第五步,收集大量极难辨识的手写数字字符图像,并为每张图像寻找一张正常手写数字字符图像作为其标签;
第六步,构建一个pix2pix模型(也即识别模型),并使用第五步得到数据集进行训练,得到一个能将极难辨识的手写数字字符图像生成正常的手写数字字符图像的生成器。所述生成器是以极难辨识的手写数字字符图像、以及该极难辨识的手写数字字符图像对应的指定的数字字符图像(也即标签图像,或称为监督标签)为训练数据,对所述生成器进行训练,以得到一个能将极难辨识的手写数字字符图像生成正常的手写数字字符图像的生成器。这里,所述指定的数字字符图像为符合预设书写规则的数字字符图像。
这里,所述pix2pix模型中除设置有生成器(也即生成层)之外,还包含有判别器(也即判别层);判别器以生成器生成的正常的手写数字字符图像和指定的数字字符图像(比如书写体数字字符图像)作为输入,归一化处理后输出为1或0,以判别该生成器得到的正常的手写数字字符图像是否真实图像;这里,实际应用中,判别器通常以KL散度或JS散度作为优化目标,来对生成器进行训练;当判别器无法区分生成器生成的手写数字字符图像与指定的数字字符图像谁为真实图像时,认为生成器与判别器达到博弈平衡,至此,完成对生成器的训练,如此,便可利用生成器生成图像,且生成的图像符合预设书写规则。
通过以上步骤即可得到训练完成后的pix2pix模型,以及正常手写数字字符图像相似度评估模型。以下即为利用训练完成后的pix2pix模型,以及正常手写数字字符图像相似度评估模型来解决实际场景中的具体应用说明。
第七步,在拍批业务过程中,遇到极难辨识的手写数字字符图像后,将其输入第六步得到的pix2pix模型,得到一张正常的手写数字字符图像,并将其对应的正常手写数字字符图像输入第四步得到的正常手写数字字符图像相似度评估模型,得到两张图像的相似度,如此,为后续判题提供一定的依据。
图5示出根据本发明一实施例的相似度评估模型训练装置的结构框图。如图5所示,该装置可以包括:
第一样本获取单元51,用于获取第一训练样本,其中,第一训练样本中包含有符合预设书写规则的第一手写体字符图像;
分组处理单元52,用于将第一训练样本中的第一手写体字符图像进行分组处理,至少得到第一组图像和第二组图像,其中,第一组图像中包含展示字符相同的至少两个第一字符图像;第二组图像中包含展示字符不同的至少两个第二字符图像;
相似度评估模型训练单元53,用于基于第一组图像所对应的至少两个第一字符图像,以及第二组图像所对应的至少两个第二字符图像,对相似度评估模型进行训练,以得到训练完成后的相似度评估模型;
其中,相似度评估模型用于对符合预设书写规则的手写体字符图像进行相似度评估;相似度评估模型包含有特征提取网络和度量网络,其中,特征提取网络用于对第一字符图像和第二字符图像进行特征提取,度量网络用于对特征提取后的至少两个第一字符图像或者至少两个第二字符图像进行相似度度量。
在一种实施方式中,特征提取网络至少包括卷积层,其中,特征提取网络至少利用卷积层对第一字符图像进行特征提取,以及至少利用卷积层对第二字符图像进行特征提取。
在一种实施方式中,特征提取网络还包括池化层;其中,特征提取网络依次利用卷积层和池化层对第一字符图像进行特征提取,以及依次利用卷积层和池化层对第二字符图像进行特征提取。
在一种实施方式中,度量网络包含有全连接层,其中,度量网络利用全连接层对特征提取后的至少两个第一字符图像或者至少两个第二字符图像进行相似度度量。
在一种实施方式中,还包括:
第一图像处理单元,用于对第一组图像中两个第一字符图像的中心区域进行提取,得到两个第一中心图像,对第一组图像中两个第一字符图像进行降采样处理,得到两个第一全局图像,以利用第一中心图像和第一全局图像对相似度评估模型进行训练。
在一种实施方式中,相似度评估模型训练单元包括:
第一中心图像特征提取子单元,用于至少基于特征提取网络中的第一分支对第一组图像所对应的两个第一中心图像进行特征提取;
第一全局图像特征提取子单元,用于至少基于特征提取网络中的第二分支对第一组图像所对应的两个第一全局图像进行特征提取;
第一串联处理子单元,用于将第一分支提取得到的特征信息与第二分支提取得到的特征信息进行串联处理;
第一训练子单元,用于利用度量网络对串联处理后的特征信息进行相似度量,得到用于评估两个第一字符图像之间相似度的评估结果,以利用评估结果对相似度评估模型进行训练。
在一种实施方式中,还包括:
第二图像处理单元,对第二组图像中两个第二字符图像的中心区域进行提取,得到两个第二中心图像,对第二组图像中两个第二字符图像进行降采样处理,得到两个第二全局图像,以利用第二中心图像和第二全局图像对相似度评估模型进行训练。
在一种实施方式中,相似度评估模型训练单元包括:
第二中心图像特征提取子单元,用于基于特征提取网络中的第一分支对第二组图像所对应的两个第二中心图像进行特征提取;
第二全局图像特征提取子单元,用于至少基于特征提取网络中的第二分支对第二组图像所对应的两个第二全局图像进行特征提取;
第二串联处理子单元,用于将第一分支提取得到的特征信息与第二分支提取得到的特征信息进行串联处理;
第二训练子单元,用于利用度量网络对串联处理后的特征信息进行相似度量,得到用于评估两个第二字符图像之间相似度的评估结果,以利用评估结果对相似度评估模型进行训练。
本发明实施例各装置中的各模块的功能可以参见上述方法中的对应描述,在此不再赘述。
图6示出根据本发明一实施例的识别模型训练装置的结构框图。如图6所示,该装置可以包括:
第二样本获取单元61,用于获取第二训练样本,其中,第二训练样本中包含有不符合预设书写规则的第二手写体字符图像,以及第二手写体字符图像对应的标签图像,其中,标签图像为与第二手写体字符图像对应的符合预设书写规则的字符图像;
识别模型训练单元62,用于利用第二手写体字符图像以及标签图像对识别模型进行训练,以得到训练完成后的识别模型;其中,识别模型用于对不符合预设书写规则的手写体字符图像进行识别,并得到与不符合预设书写规则的手写体字符图像相对应的目标字符图像,目标字符图像符合预设书写规则。
在一种实施方式中,识别模型包括有图像生成层,其中,识别模型训练单元,还用于:
基于图像生成层对第二手写体字符图像以及标签图像进行卷积处理后,再进行反卷积处理,得到第二手写体字符图像所对应的输出图像,以便于在标签图像的监督下基于输出图像对识别模型进行训练。
在一种实施方式中,识别模型还包括图像判别层;其中,识别模型训练单元,还用于:
基于判别层对输出图像与标签图像的相似度进行判断,得到判断结果,以至少基于判断结果对识别模型进行训练。
本申请实施例各装置中的各模块的功能可以参见上述方法中的对应描述,在此不再赘述。
图7示出根据本发明一实施例的图像处理装置的结构框图。如图7所示,该装置可以包括:
待处理图像获取单元71,用于获取待处理字符图像,待处理字符图像为不符合预设书写规则的手写体字符图像;
第一模型处理单元72,用于将待处理字符图像输入至识别模型,得到与待处理字符图像对应的符合预设书写规则的第一目标字符图像;
待评估图像获取单元73,用于获取与第一目标字符图像进行相似度评估的符合预设书写规则的字符图像;
第二模型处理单元74,用于将第一目标字符图像和与第一目标字符图像进行相似度评估的符合预设书写规则的字符图像输入至相似度评估模型,得到评估结果;
其中,利用评估结果能够确定出待处理字符图像所显示的字符;相似度评估模型为以上模型训练方法所得到的相似度评估模型;和/或,识别模型为以上模型训练方法所得到的识别模型。
图8示出根据本发明一实施例的模型训练设备(或图像处理设备)的结构框图,这里,该模型训练设备可以具体为识别模型训练设备,或者为识别模型训练设备,实际应用中,三个设备均可以为如图8所示结构,所以,以下将该三个设备简称为设备进行详细介绍。如图8所示,该设备包括:存储器810和处理器820,存储器810内存储有可在处理器820上运行的计算机程序。处理器820执行该计算机程序时实现上述实施例中的三种方法中任一方法。存储器810和处理器820的数量可以为一个或多个。
该设备还包括:通信接口830,用于与外界设备进行通信,进行数据交互传输。
如果存储器810、处理器820和通信接口830独立实现,则存储器810、处理器820和通信接口830可以通过总线相互连接并完成相互间的通信。该总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(PeripheralComponentInterconnect,PCI)总线或扩展工业标准体系结构(Extended IndustryStandard Architecture,EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器810、处理器820及通信接口830集成在一块芯片上,则存储器810、处理器820及通信接口830可以通过内部接口完成相互间的通信。
本发明实施例提供了一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现本申请实施例中提供的方法。
本申请实施例还提供了一种芯片,该芯片包括,包括处理器,用于从存储器中调用并运行存储器中存储的指令,使得安装有芯片的通信设备执行本申请实施例提供的三种方法中的任意一种。
本申请实施例还提供了一种芯片,包括:输入接口、输出接口、处理器和存储器,输入接口、输出接口、处理器以及存储器之间通过内部连接通路相连,处理器用于执行存储器中的代码,当代码被执行时,处理器用于执行申请实施例提供的方法。
应理解的是,上述处理器可以是中央处理器(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(digital signal processing,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现场可编程门阵列(fieldprogrammablegate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。值得说明的是,处理器可以是支持进阶精简指令集机器(advanced RISC machines,ARM)架构的处理器。
进一步地,可选的,上述存储器可以包括只读存储器和随机存取存储器,还可以包括非易失性随机存取存储器。该存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以包括只读存储器(read-onlymemory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以包括随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用。例如,静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(dynamic random access memory,DRAM) 、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data dateSDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhancedSDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(directrambus RAM,DR RAM)。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包括于本申请的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分。并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。
应理解的是,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。上述实施例方法的全部或部分步骤是可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。上述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。该存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (27)

1.一种相似度评估模型训练方法,其特征在于,包括:
获取第一训练样本,其中,所述第一训练样本中包含有符合预设书写规则的第一手写体字符图像;
将所述第一训练样本中的第一手写体字符图像进行分组处理,至少得到第一组图像和第二组图像,其中,所述第一组图像中包含展示字符相同的至少两个第一字符图像;所述第二组图像中包含展示字符不同的至少两个第二字符图像;
基于所述第一组图像所对应的至少两个第一字符图像,以及所述第二组图像所对应的至少两个第二字符图像,对相似度评估模型进行训练,以得到训练完成后的相似度评估模型;
其中,所述相似度评估模型用于对符合预设书写规则的手写体字符图像进行相似度评估;所述相似度评估模型包含有特征提取网络和度量网络,其中,所述特征提取网络用于对所述第一字符图像和所述第二字符图像进行特征提取,所述度量网络用于对特征提取后的至少两个第一字符图像或者至少两个第二字符图像进行相似度度量。
2.根据权利要求1所述的方法,其特征在于,所述特征提取网络至少包括卷积层,其中,所述特征提取网络至少利用所述卷积层对所述第一字符图像进行特征提取,以及至少利用所述卷积层对所述第二字符图像进行特征提取。
3.根据权利要求2所述的方法,其特征在于,所述特征提取网络还包括池化层;其中,所述特征提取网络依次利用所述卷积层和所述池化层对所述第一字符图像进行特征提取,以及依次利用所述卷积层和所述池化层对所述第二字符图像进行特征提取。
4.根据权利要求1所述的方法,其特征在于,所述度量网络包含有全连接层,其中,所述度量网络利用所述全连接层对特征提取后的至少两个第一字符图像或者至少两个第二字符图像进行相似度度量。
5.根据权利要求1至4任一项所述的方法,其特征在于,还包括:
对所述第一组图像中两个所述第一字符图像的中心区域进行提取,得到两个第一中心图像,对所述第一组图像中两个所述第一字符图像进行降采样处理,得到两个第一全局图像,以利用所述第一中心图像和所述第一全局图像对所述相似度评估模型进行训练。
6.根据权利要求5所述的方法,其特征在于,基于所述第一组图像所对应的至少两个第一字符图像,对相似度评估模型进行训练,包括:
至少基于所述特征提取网络中的第一分支对所述第一组图像所对应的两个第一中心图像进行特征提取;
至少基于所述特征提取网络中的第二分支对所述第一组图像所对应的两个第一全局图像进行特征提取;
将所述第一分支提取得到的特征信息与所述第二分支提取得到的特征信息进行串联处理;
利用所述度量网络对串联处理后的特征信息进行相似度量,得到用于评估两个第一字符图像之间相似度的评估结果,以利用评估结果对所述相似度评估模型进行训练。
7.根据权利要求1至4任一项所述的方法,其特征在于,还包括:
对所述第二组图像中两个所述第二字符图像的中心区域进行提取,得到两个第二中心图像,对所述第二组图像中两个所述第二字符图像进行降采样处理,得到两个第二全局图像,以利用所述第二中心图像和所述第二全局图像对所述相似度评估模型进行训练。
8.根据权利要求7所述的方法,其特征在于,基于所述第二组图像所对应的至少两个第二字符图像,对相似度评估模型进行训练,包括:
至少基于所述特征提取网络中的第一分支对所述第二组图像所对应的两个第二中心图像进行特征提取;
至少基于所述特征提取网络中的第二分支对所述第二组图像所对应的两个第二全局图像进行特征提取;
将所述第一分支提取得到的特征信息与第二分支提取得到的特征信息进行串联处理;
利用所述度量网络对串联处理后的特征信息进行相似度量,得到用于评估两个第二字符图像之间相似度的评估结果,以利用评估结果对所述相似度评估模型进行训练。
9.一种图像处理方法,其特征在于,所述方法包括:
获取待处理字符图像,所述待处理字符图像为不符合预设书写规则的手写体字符图像;
将所述待处理字符图像输入至识别模型,得到与所述待处理字符图像对应的符合预设书写规则的第一目标字符图像;
获取与所述第一目标字符图像进行相似度评估的符合预设书写规则的字符图像;
将所述第一目标字符图像和与所述第一目标字符图像进行相似度评估的符合预设书写规则的字符图像输入至相似度评估模型,得到评估结果;
其中,利用评估结果能够确定出所述待处理字符图像所显示的字符;所述相似度评估模型为权利要求1至8任一项模型训练方法所得到的模型。
10.根据权利要求9所述的方法,其特征在于,所述识别模型的模型训练步骤包括:
获取第二训练样本,其中,所述第二训练样本中包含有不符合预设书写规则的第二手写体字符图像,以及第二手写体字符图像对应的标签图像,其中,所述标签图像为与第二手写体字符图像对应的符合预设书写规则的字符图像;
利用第二手写体字符图像以及标签图像对识别模型进行训练,以得到训练完成后的识别模型;其中,所述识别模型用于对不符合预设书写规则的手写体字符图像进行识别,并得到与不符合预设书写规则的手写体字符图像相对应的目标字符图像,所述目标字符图像符合预设书写规则。
11.根据权利要求10所述的方法,其特征在于,所述识别模型包括有图像生成层,其中,所述利用第二手写体字符图像以及标签图像对识别模型进行训练,包括:
基于所述图像生成层对所述第二手写体字符图像以及标签图像进行卷积处理后,再进行反卷积处理,得到所述第二手写体字符图像所对应的输出图像,以便于在所述标签图像的监督下基于输出图像对所述识别模型进行训练。
12.根据权利要求11所述的方法,其特征在于,所述识别模型还包括图像判别层;所述方法还包括:
基于所述判别层对所述输出图像与所述标签图像的相似度进行判断,得到判断结果,以至少基于所述判断结果对所述识别模型进行训练。
13.一种相似度评估模型训练装置,其特征在于,包括:
第一样本获取单元,用于获取第一训练样本,其中,所述第一训练样本中包含有符合预设书写规则的第一手写体字符图像;
分组处理单元,用于将所述第一训练样本中的第一手写体字符图像进行分组处理,至少得到第一组图像和第二组图像,其中,所述第一组图像中包含展示字符相同的至少两个第一字符图像;所述第二组图像中包含展示字符不同的至少两个第二字符图像;
相似度评估模型训练单元,用于基于所述第一组图像所对应的至少两个第一字符图像,以及所述第二组图像所对应的至少两个第二字符图像,对相似度评估模型进行训练,以得到训练完成后的相似度评估模型;
其中,所述相似度评估模型用于对符合预设书写规则的手写体字符图像进行相似度评估;所述相似度评估模型包含有特征提取网络和度量网络,其中,所述特征提取网络用于对所述第一字符图像和所述第二字符图像进行特征提取,所述度量网络用于对特征提取后的至少两个第一字符图像或者至少两个第二字符图像进行相似度度量。
14.根据权利要求13所述的装置,其特征在于,所述特征提取网络至少包括卷积层,其中,所述特征提取网络至少利用所述卷积层对所述第一字符图像进行特征提取,以及至少利用所述卷积层对所述第二字符图像进行特征提取。
15.根据权利要求14所述的装置,其特征在于,所述特征提取网络还包括池化层;其中,所述特征提取网络依次利用所述卷积层和所述池化层对所述第一字符图像进行特征提取,以及依次利用所述卷积层和所述池化层对所述第二字符图像进行特征提取。
16.根据权利要求13所述的装置,其特征在于,所述度量网络包含有全连接层,其中,所述度量网络利用所述全连接层对特征提取后的至少两个第一字符图像或者至少两个第二字符图像进行相似度度量。
17.根据权利要求13至16任一项所述的装置,其特征在于,还包括:
第一图像处理单元,用于对所述第一组图像中两个所述第一字符图像的中心区域进行提取,得到两个第一中心图像,对所述第一组图像中两个所述第一字符图像进行降采样处理,得到两个第一全局图像,以利用所述第一中心图像和所述第一全局图像对所述相似度评估模型进行训练。
18.根据权利要求17所述的装置,其特征在于,所述相似度评估模型训练单元包括:
第一中心图像特征提取子单元,用于至少基于所述特征提取网络中的第一分支对所述第一组图像所对应的两个第一中心图像进行特征提取;
第一全局图像特征提取子单元,用于至少基于所述特征提取网络中的第二分支对所述第一组图像所对应的两个第一全局图像进行特征提取;
第一串联处理子单元,用于将所述第一分支提取得到的特征信息与所述第二分支提取得到的特征信息进行串联处理;
第一训练子单元,用于利用所述度量网络对串联处理后的特征信息进行相似度量,得到用于评估两个第一字符图像之间相似度的评估结果,以利用评估结果对所述相似度评估模型进行训练。
19.根据权利要求13至16任一项所述的装置,其特征在于,还包括:
第二图像处理单元,对所述第二组图像中两个所述第二字符图像的中心区域进行提取,得到两个第二中心图像,对所述第二组图像中两个所述第二字符图像进行降采样处理,得到两个第二全局图像,以利用所述第二中心图像和所述第二全局图像对所述相似度评估模型进行训练。
20.根据权利要求19所述的装置,其特征在于,所述相似度评估模型训练单元包括:
第二中心图像特征提取子单元,用于基于所述特征提取网络中的第一分支对所述第二组图像所对应的两个第二中心图像进行特征提取;
第二全局图像特征提取子单元,用于至少基于所述特征提取网络中的第二分支对所述第二组图像所对应的两个第二全局图像进行特征提取;
第二串联处理子单元,用于将所述第一分支提取得到的特征信息与第二分支提取得到的特征信息进行串联处理;
第二训练子单元,用于利用所述度量网络对串联处理后的特征信息进行相似度量,得到用于评估两个第二字符图像之间相似度的评估结果,以利用评估结果对所述相似度评估模型进行训练。
21.一种图像处理装置,其特征在于,包括:
待处理图像获取单元,用于获取待处理字符图像,所述待处理字符图像为不符合预设书写规则的手写体字符图像;
第一模型处理单元,用于将所述待处理字符图像输入至识别模型,得到与所述待处理字符图像对应的符合预设书写规则的第一目标字符图像;
待评估图像获取单元,用于获取与所述第一目标字符图像进行相似度评估的符合预设书写规则的字符图像;
第二模型处理单元,用于将所述第一目标字符图像和与所述第一目标字符图像进行相似度评估的符合预设书写规则的字符图像输入至相似度评估模型,得到评估结果;
其中,利用评估结果能够确定出所述待处理字符图像所显示的字符;所述相似度评估模型为权利要求1至8任一项模型训练方法所得到的模型。
22.根据权利要求21所述的装置,其特征在于,包括:
第二样本获取单元,用于获取第二训练样本,其中,所述第二训练样本中包含有不符合预设书写规则的第二手写体字符图像,以及第二手写体字符图像对应的标签图像,其中,所述标签图像为与第二手写体字符图像对应的符合预设书写规则的字符图像;
识别模型训练单元,用于利用第二手写体字符图像以及标签图像对识别模型进行训练,以得到训练完成后的识别模型;其中,所述识别模型用于对不符合预设书写规则的手写体字符图像进行识别,并得到与不符合预设书写规则的手写体字符图像相对应的目标字符图像,所述目标字符图像符合预设书写规则。
23.根据权利要求22所述的装置,其特征在于,所述识别模型包括有图像生成层,其中,所述识别模型训练单元,还用于:
基于所述图像生成层对所述第二手写体字符图像以及标签图像进行卷积处理后,再进行反卷积处理,得到所述第二手写体字符图像所对应的输出图像,以便于在所述标签图像的监督下基于输出图像对所述识别模型进行训练。
24.根据权利要求23所述的装置,其特征在于,所述识别模型还包括图像判别层;其中,所述识别模型训练单元,还用于:
基于所述判别层对所述输出图像与所述标签图像的相似度进行判断,得到判断结果,以至少基于所述判断结果对所述识别模型进行训练。
25.一种模型训练设备,其特征在于,包括:处理器和存储器,所述存储器中存储指令,所述指令由处理器加载并执行,以实现如权利要求1至8任一项所述的方法。
26.一种图像处理设备,其特征在于,包括:处理器和存储器,所述存储器中存储指令,所述指令由处理器加载并执行,以实现如权利要求9至12中任一项所述的方法。
27.一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-8中任一项所述的方法,或者,实现如权利要求9-12中任一项所述的方法。
CN202010860134.6A 2020-08-25 2020-08-25 模型训练方法、图像处理方法及装置、设备、存储介质 Active CN111738269B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010860134.6A CN111738269B (zh) 2020-08-25 2020-08-25 模型训练方法、图像处理方法及装置、设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010860134.6A CN111738269B (zh) 2020-08-25 2020-08-25 模型训练方法、图像处理方法及装置、设备、存储介质

Publications (2)

Publication Number Publication Date
CN111738269A CN111738269A (zh) 2020-10-02
CN111738269B true CN111738269B (zh) 2020-11-20

Family

ID=72658703

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010860134.6A Active CN111738269B (zh) 2020-08-25 2020-08-25 模型训练方法、图像处理方法及装置、设备、存储介质

Country Status (1)

Country Link
CN (1) CN111738269B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112633420B (zh) * 2021-03-09 2021-06-29 北京易真学思教育科技有限公司 图像相似度确定及模型训练方法、装置、设备和介质
CN112801217B (zh) * 2021-03-19 2021-07-06 北京世纪好未来教育科技有限公司 文本相似度判断方法、装置、电子设备以及可读存储介质
CN113111154B (zh) * 2021-06-11 2021-10-29 北京世纪好未来教育科技有限公司 相似度评估方法、答案搜索方法、装置、设备及介质
CN113469092B (zh) * 2021-07-13 2023-09-08 深圳思谋信息科技有限公司 字符识别模型生成方法、装置、计算机设备和存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105184226A (zh) * 2015-08-11 2015-12-23 北京新晨阳光科技有限公司 数字识别方法和装置及神经网络训练方法和装置
CN107239786B (zh) * 2016-03-29 2022-01-11 阿里巴巴集团控股有限公司 一种字符识别方法和装置
CN107516096A (zh) * 2016-06-15 2017-12-26 阿里巴巴集团控股有限公司 一种字符识别方法及装置
CN109034279B (zh) * 2018-06-04 2023-04-25 平安科技(深圳)有限公司 手写模型训练方法、手写字识别方法、装置、设备及介质
CN108764195B (zh) * 2018-06-04 2023-04-18 平安科技(深圳)有限公司 手写模型训练方法、手写字识别方法、装置、设备及介质

Also Published As

Publication number Publication date
CN111738269A (zh) 2020-10-02

Similar Documents

Publication Publication Date Title
CN111738269B (zh) 模型训练方法、图像处理方法及装置、设备、存储介质
CN111160375B (zh) 三维关键点预测及深度学习模型训练方法、装置及设备
CN111027576B (zh) 基于协同显著性生成式对抗网络的协同显著性检测方法
CN113822314B (zh) 图像数据处理方法、装置、设备以及介质
CN112016315B (zh) 模型训练、文本识别方法及装置、电子设备、存储介质
CN111738270B (zh) 模型生成方法、装置、设备和可读存储介质
US20230334893A1 (en) Method for optimizing human body posture recognition model, device and computer-readable storage medium
CN112418195A (zh) 一种人脸关键点检测方法、装置、电子设备及存储介质
US20200160119A1 (en) Sequential learning maintaining a learned concept
CN111950633A (zh) 神经网络的训练、目标检测方法及装置和存储介质
Hong et al. Selective residual learning for visual question answering
CN114241505A (zh) 化学结构图像的提取方法、装置、存储介质及电子设备
CN112819073A (zh) 分类网络训练、图像分类方法、装置和电子设备
Li et al. Findnet: Can you find me? boundary-and-texture enhancement network for camouflaged object detection
CN116912796A (zh) 一种基于新型动态级联YOLOv8的自动驾驶目标识别方法及装置
CN111666931A (zh) 基于混合卷积文字图像识别方法、装置、设备及存储介质
Shi et al. Lightweight Context-Aware Network Using Partial-Channel Transformation for Real-Time Semantic Segmentation
CN113723352A (zh) 一种文本检测方法、系统、存储介质及电子设备
CN112364828B (zh) 人脸识别方法及金融系统
CN112329735B (zh) 人脸识别模型的训练方法及在线教育系统
CN114707518B (zh) 面向语义片段的目标情感分析方法、装置、设备及介质
CN112801045B (zh) 一种文本区域检测方法、电子设备及计算机存储介质
CN113516125B (zh) 模型训练方法、使用方法、装置、设备及存储介质
CN112825143A (zh) 深度卷积神经网络压缩方法、装置、存储介质及设备
CN112990181B (zh) 文本识别的方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant