CN113569886A - 网络结构调整方法、装置和存储介质及电子设备 - Google Patents

网络结构调整方法、装置和存储介质及电子设备 Download PDF

Info

Publication number
CN113569886A
CN113569886A CN202110057636.XA CN202110057636A CN113569886A CN 113569886 A CN113569886 A CN 113569886A CN 202110057636 A CN202110057636 A CN 202110057636A CN 113569886 A CN113569886 A CN 113569886A
Authority
CN
China
Prior art keywords
network structure
character
image
structures
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110057636.XA
Other languages
English (en)
Inventor
郑重
汪翔
黄珊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110057636.XA priority Critical patent/CN113569886A/zh
Publication of CN113569886A publication Critical patent/CN113569886A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了一种人工智能场景下的网络结构调整方法、装置和存储介质及电子设备,还涉及计算机视觉技术、机械学习等技术。其中,该方法包括:在获取到用于复原字符图像的目标网络结构的情况下,对目标网络结构中包括的N层卷积结构按照M种压缩方式进行压缩,以得到P个候选网络结构;通过P个候选网络结构分别对每组样本字符图像中的第一图像进行字符复原,以得到第一图像对应的复原字符图像;依次比对每个复原字符信息与对应的已复原样本字符的字符信息,以得到复原字符信息对应的字符相似度;将目标网络结构中的N层卷积结构,替换为字符相似度达到相似度阈值的候选网络结构。本发明解决了网络结构调整准确性较差的技术问题。

Description

网络结构调整方法、装置和存储介质及电子设备
技术领域
本发明涉及计算机领域,具体而言,涉及一种网络结构调整方法、装置和存储介质及电子设备。
背景技术
在某些实际应用中,对算法模型的实时性要求较高,因此需要在尽可能保持模型准确率的条件下,对模型进行压缩加速,例如在用神经结构搜索方法对该网络进行压缩时,是对其中除了输入输出层之外的其他层,随机选择一定的通道数进行激活,得到一系列的子模型。
而在上述一系列的子模型中确定性能最好的子模型,现有技术中往往评估子模型性能采用的指标是FID距离,其计算方式是利用算法模型分别提取生成图和原始图的特征,计算特征之间Fréchet距离作为指标,距离越小,则代表生成图像质量越好。
然而在图像处理领域中,决定子模型的性能好坏并不是通过视觉质量来体现的,进而导致上述采用FID距离作为子模型的评估指标方法不能保证能够从一系列的子模型中选择出性能最好的适用于图像处理领域的子模型。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种网络结构调整方法、装置和存储介质及电子设备,以至少解决网络结构调整准确性较差的技术问题。
根据本发明实施例的一个方面,提供了一种网络结构调整方法,包括:在获取到用于复原字符图像的目标网络结构的情况下,对上述目标网络结构中包括的N层卷积结构按照M种压缩方式进行压缩,以得到P个候选网络结构,其中,上述候选网络结构中包括的卷积结构为N层,N为大于等于2的正整数,M为大于等于1的正整数,P为大于等于1的正整数;获取K组样本字符图像,其中,上述K组样本字符图像中的每组样本字符图像包括携带有待复原样本字符的第一图像和携带有已复原样本字符的第二图像,K为大于等于1的正整数;通过上述P个候选网络结构分别对上述每组样本字符图像中的上述第一图像进行字符复原,以得到上述第一图像对应的复原字符图像;在从上述复原字符图像中识别出复原字符信息的情况下,依次比对每个复原字符信息与对应的上述已复原样本字符的字符信息,以得到上述复原字符信息对应的字符相似度;将上述目标网络结构中的N层卷积结构,替换为上述字符相似度达到相似度阈值的候选网络结构。
根据本发明实施例的另一方面,还提供了一种网络结构调整装置,包括:压缩单元,用于在获取到用于复原字符图像的目标网络结构的情况下,对上述目标网络结构中包括的N层卷积结构按照M种压缩方式进行压缩,以得到P个候选网络结构,其中,上述候选网络结构中包括的卷积结构为N层,N为大于等于2的正整数,M为大于等于1的正整数,P为大于等于1的正整数;第一获取单元,用于获取K组样本字符图像,其中,上述K组样本字符图像中的每组样本字符图像包括携带有待复原样本字符的第一图像和携带有已复原样本字符的第二图像,K为大于等于1的正整数;复原单元,用于通过上述P个候选网络结构分别对上述每组样本字符图像中的上述第一图像进行字符复原,以得到上述第一图像对应的复原字符图像;比对单元,用于在从上述复原字符图像中识别出复原字符信息的情况下,依次比对每个复原字符信息与对应的上述已复原样本字符的字符信息,以得到上述复原字符信息对应的字符相似度;调整单元,用于将上述目标网络结构中的N层卷积结构,替换为上述字符相似度达到相似度阈值的候选网络结构。
根据本发明实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述网络结构调整方法。
根据本发明实施例的又一方面,还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述处理器通过计算机程序执行上述的网络结构调整方法。
在本发明实施例中,在获取到用于复原字符图像的目标网络结构的情况下,对上述目标网络结构中包括的N层卷积结构按照M种压缩方式进行压缩,以得到P个候选网络结构,其中,上述候选网络结构中包括的卷积结构为N层,N为大于等于2的正整数,M为大于等于1的正整数,P为大于等于1的正整数;获取K组样本字符图像,其中,上述K组样本字符图像中的每组样本字符图像包括携带有待复原样本字符的第一图像和携带有已复原样本字符的第二图像,K为大于等于1的正整数;通过上述P个候选网络结构分别对上述每组样本字符图像中的上述第一图像进行字符复原,以得到上述第一图像对应的复原字符图像;在从上述复原字符图像中识别出复原字符信息的情况下,依次比对每个复原字符信息与对应的上述已复原样本字符的字符信息,以得到上述复原字符信息对应的字符相似度;将上述目标网络结构中的N层卷积结构,替换为上述字符相似度达到相似度阈值的候选网络结构,在字符复原领域下的对压缩后的卷积结构评估过程中,使用字符识别信息作为评估指标,确定最佳的压缩卷积结构,以调整用于复原字符的整体网络结构,进而达到了调整后的网络结构既满足压缩需求的同时,还能保证较高的复原准确性的技术目的,从而实现了提高压缩后的网络结构的复原准确性的技术效果,进而解决了网络结构调整准确性较差的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的网络结构调整方法的应用环境的示意图;
图2是根据本发明实施例的一种可选的网络结构调整方法的流程图的示意图;
图3是根据本发明实施例的一种可选的网络结构调整方法的示意图;
图4是根据本发明实施例的另一种可选的网络结构调整方法的示意图;
图5是根据本发明实施例的另一种可选的网络结构调整方法的示意图;
图6是根据本发明实施例的另一种可选的网络结构调整方法的示意图;
图7是根据本发明实施例的一种可选的网络结构调整装置的示意图;
图8是根据本发明实施例的另一种可选的网络结构调整装置的示意图;
图9是根据本发明实施例的另一种可选的网络结构调整装置的示意图;
图10是根据本发明实施例的一种可选的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
本申请实施例提供的方案涉及人工智能的计算机视觉技术、机械学习等技术,具体通过如下实施例进行说明:
根据本发明实施例的一个方面,提供了一种网络结构调整方法,可选地,作为一种可选的实施方式,上述网络结构调整方法可以但不限于应用于如图1所示的环境中。其中,可以但不限于包括用户设备102、网络110及服务器112,其中,该用户设备102上可以但不限于包括显示器108、处理器106及存储器104。可选的,显示器108上可以但不限用于显示复原输入界面以及复原输出界面,其中,在复原输入界面上获取待复原的字符图像,在复原输出界面上显示已复原的字符图像。
具体过程可如下步骤:
步骤S102,用户设备102获取待复原的字符图像;
步骤S104-S106,用户设备102通过网络110将待复原的字符图像发送给服务器112;
步骤S108,服务器112通过处理引擎116将待复原的字符图像进行处理,从而生成目标复原结果;
步骤S110-S112,服务器112通过网络110将目标复原结果发送给用户设备102,用户设备102中的处理器106将目标复原结果处理为可显示的字符图像,并显示在显示器108中,以及将目标复原结果存储在存储器104中。
除图1示出的示例之外,上述步骤可以由用户设备102独立完成,即由用户设备102执行待复原的字符图像的处理、目标复原结果的生成等步骤,从而减轻服务器的处理压力。该用户设备102包括但不限于手持设备(如手机)、笔记本电脑、台式电脑等,本发明并不限制用户设备102的具体实现方式。
可选地,作为一种可选的实施方式,如图2所示,网络结构调整方法包括:
S202,在获取到用于复原字符图像的目标网络结构的情况下,对目标网络结构中包括的N层卷积结构按照M种压缩方式进行压缩,以得到P个候选网络结构,其中,候选网络结构中包括的卷积结构为N层,N为大于等于2的正整数,M为大于等于1的正整数,P为大于等于1的正整数;
S204,获取K组样本字符图像,其中,K组样本字符图像中的每组样本字符图像包括携带有待复原样本字符的第一图像和携带有已复原样本字符的第二图像,K为大于等于1的正整数;
S206,通过P个候选网络结构分别对每组样本字符图像中的第一图像进行字符复原,以得到第一图像对应的复原字符图像;
S208,在从复原字符图像中识别出复原字符信息的情况下,依次比对每个复原字符信息与对应的已复原样本字符的字符信息,以得到复原字符信息对应的字符相似度;
S210,将目标网络结构中的N层卷积结构,替换为字符相似度达到相似度阈值的候选网络结构。
可选地,在本实施例中,网络结构调整方法可以但不限于应用在涂抹文字复原的场景下,以在多种压缩方式得到的多种卷积结构组合的候选网络结构中,确定性能最佳的候选网络结构,并基于性能最佳的候选网络结构调整目标网络结构中的N层卷积结构,使得调整后的目标网络结构既满足压缩需求,又可保证一定的复原准确性,或者说,利用上述网络结构调整方法,可以在保证目标网络结构的复原准确率不出现明显下降的情况下,加快目标网络结果的运行速度,减少对GPU显存的需求,提升在实际应用中的速度和吞吐。
可选地,在本实施例中,目标网络结构可以但不限于为用于复原字符图像的卷积神经网络结构,其中,卷积神经网络结构可以但不限于是一类包含卷积计算且具有深度结构的前馈神经网络,例如WaveNet网络结构、UNet网络结构、LeNet-4网络结构、ZFNet网络结构、VGGNet网络结构、残差神经网络结构等。
可选的,在本实施例中,目标网络结构可以但不限于包括至少一层输入结构、至少一层输出结构,以及至少两层中间结构,其中,中间结构至少包括N层卷积结构。可选的,UNet网络结构为例说明,输入该,UNet网络结构中的输入结构的可以但不限于为3通道的彩色涂抹图像,由该,UNet网络结构中的输出结构输出的可以但不限于为3通道的复原后的彩色图像。
可选的,在本实施例中,由于在某些实际应用中,对目标网络结构的复原实时性要求较高,因此需要在尽可能保持复原准确率的条件下,对该目标网络结构中的N层卷积解构进行压缩加速,例如采用神经结构搜索(Neural Architecture Search,简称NAS)执行上述压缩加速,对其中除了输入输出层之外的其他层(例如卷积层),随机选择一定的通道数进行激活,得到一系列的卷积层组合。
进一步,为了限制卷积层组合的数目,一般条件下会限制每一层卷积结构可搜索的通道数,例如对于一个总通道数为64的卷积结构,可以选择激活(例如随机)其中的前32、48或64个通道,换言之,对N层卷积结构中的每一层卷积结构的通道数执行上述通道数选择后,获取到一种通道数组合的N层卷积结构。可选的,压缩方式可以但不限于对每一层卷积结构的通道数执行同一轮次的通道数选择,以获取新通道数组合的N层卷积结构,其中,不同压缩方式对应不同的通道数组合。
可选的,在本实施例中,假设通道数选择的类型有O种,卷积结构有N层,则对该N层卷积结构执行M种压缩方式后,可以但不限于得到O的N次幂种不同的通道数组合,此外,如果以UNet网络结构为例,其网络结构为一个对称的U形结构,并且后半部分需要拼接前半部分的通道特征,由于UNet是对称拼接的,前半部分某一层选择了某一个通道数,其对称的层自动确定为其2倍的通道数,因此可以但不限于得到O的(1/2×N)次幂种不同的通道数组合。
进一步举例说明,候选网络结构的获取场景例如图3所示,目标网络结构302中包括N层卷积结构,且每层卷积结构可进行三种类型的通道数选择(32、48、64),假设对每层卷积结构的通道数进行通道数选择,以确定每层卷积结构的当前通道数,例如第一层卷积结构3022的当前通道数为32、第二层卷积结构3024的当前通道数为48、第三层卷积结构3026的当前通道数为64,则确定当前卷积层组合的N层卷积结构,完成当前压缩方式的执行,以得到对应的候选网络结构,其中,该对应的候选网络结构由通道数为32的第一层卷积结构3022、通道数为48的第二层卷积结构3024、通道数为64的第三层卷积结构3026等构成,当前压缩方式包括对第一层卷积结构3022执行32的通道数选择、对第二层卷积结构3024执行48的通道数选择、对第三层卷积结构3026执行64的通道数选择等。
可选的,在本实施例中,每组样本字符图像包括具有对应关系的第一图像和第二图像,其中,第二图像可以但不限于为原始字符图像,第一图像可以但不限基于该原始字符图像作模糊、遮盖、涂抹等处理的字符图像,其中,第一图像可以但不限于可识别出清晰字符,第二图像可以但不限于无法识别出清晰字符,或识别出的字符信息达不到清晰阈值。
可选的,在本实施例中,复原字符信息可以但不限用于表示利用字符识别获取到出的字符识别信息,其中,字符识别可以但不限于利用文字识别(optical characterrecognition,简称OCR)技术实现,OCR文字识别可以但不限于指电子设备检查字符图像,然后用字符识别方法将形状翻译成计算机文字的过程,即,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。
需要说明的是,在文字复原领域,将目标网络模型的复原效果的好坏以OCR文字识别结果作为评估指标,确定出性能最佳的候选网络结构,以调整目标网络结构为兼顾复原实时性以及复原准确性的最佳网络结构。
可选的,在本实施例中,字符相似度可以但不限于通过文字编辑距离表示,其中,文字编辑距离可以但不限于为Levenshtein距离,是指两个字串或字符之间,由一个转成另一个所需的最小编辑操作次数,如果它们的距离越大,说明相似度越低,反之编辑距离越小,则说明相似度越低,许可的编辑操作包括将一个字符替换成另一个字符、插入一个字符、删除一个字符等。
需要说明的是,在获取到用于复原字符图像的目标网络结构的情况下,对目标网络结构中包括的N层卷积结构按照M种压缩方式进行压缩,以得到P个候选网络结构,其中,候选网络结构中包括的卷积结构为N层,N为大于等于2的正整数,M为大于等于1的正整数,P为大于等于1的正整数;获取K组样本字符图像,其中,K组样本字符图像中的每组样本字符图像包括携带有待复原样本字符的第一图像和携带有已复原样本字符的第二图像,K为大于等于1的正整数;通过P个候选网络结构分别对每组样本字符图像中的第一图像进行字符复原,以得到第一图像对应的复原字符图像;在从复原字符图像中识别出复原字符信息的情况下,依次比对每个复原字符信息与对应的已复原样本字符的字符信息,以得到复原字符信息对应的字符相似度;将目标网络结构中的N层卷积结构,替换为字符相似度达到相似度阈值的候选网络结构。
可选的,在本实施例中,因涉及到多个阶段的网络结构,可以但不限于依次训练该多个阶段的网络结构,例如先对目标网络结构进行预训练,再在调整该目标网络结构后,对调整后的目标网络结构进行二次训练,其中,预训练和二次训练的训练样本可以但不限于为相同或不同的样本字符图像,例如获取M+N张第一图像和对应的第二图像,其中,M张(一般M>20000)作为预训练的训练数据,剩下的N张(一般M>1000)作为调整目标网络结构的测试数据,而二次训练的训练数据可以根据需求自由搭配,例如将M张作为二次训练的训练数据,或将M+N张都作为二次训练的训练数据;
此外,还可以但不限于分别训练该多个阶段的网络结构,例如对目标网络结构进行训练以及对调整后的目标网络结构进行训练,或只对调整后的目标网络结构进行训练,或只对目标网络结构进行训练。此处仅为举例在此不做限定。
通过本申请提供的实施例,在获取到用于复原字符图像的目标网络结构的情况下,对目标网络结构中包括的N层卷积结构按照M种压缩方式进行压缩,以得到P个候选网络结构,其中,候选网络结构中包括的卷积结构为N层,N为大于等于2的正整数,M为大于等于1的正整数,P为大于等于1的正整数;获取K组样本字符图像,其中,K组样本字符图像中的每组样本字符图像包括携带有待复原样本字符的第一图像和携带有已复原样本字符的第二图像,K为大于等于1的正整数;通过P个候选网络结构分别对每组样本字符图像中的第一图像进行字符复原,以得到第一图像对应的复原字符图像;在从复原字符图像中识别出复原字符信息的情况下,依次比对每个复原字符信息与对应的已复原样本字符的字符信息,以得到复原字符信息对应的字符相似度;将目标网络结构中的N层卷积结构,替换为字符相似度达到相似度阈值的候选网络结构,在字符复原领域下的对压缩后的卷积结构评估过程中,使用字符识别信息作为评估指标,确定最佳的压缩卷积结构,以调整用于复原字符的整体网络结构,进而达到了调整后的网络结构既满足压缩需求的同时,还能保证较高的复原准确性的技术目的,从而实现了提高压缩后的网络结构的复原准确性的技术效果。
作为一种可选的方案,对目标网络结构中包括的N层卷积结构按照M种压缩方式进行压缩,以得到P个候选网络结构,包括:
S1,对N层卷积结构按照M种压缩方式进行压缩,以得到M个备选网络结构,其中,备选网络结构中包括的卷积结构为N层;
S2,将M个备选网络结构中目标计算量达到计算阈值的P个备选网络结构确定为P个候选网络结构,其中,目标计算量用于表示备选网络结构一次卷积的计算量。
可选的,在本实施例中,不同卷积结构对应的计算量是不同的,一般地,通道数多的卷积结构对应的计算量大,即速度慢,反之则速度快。可以但不限于采用MACs(Multiply-Accumulate Operations)为指标计算每个卷积结构的计算量。进而在实际应用中,可以根据计算量需求,确定一个阈值,而在M个备选网络结构中评估并选取P个备选网络结构作为P个候选网络结构时,只选择符合计算量或速度的网络结构。
需要说明的是,对N层卷积结构按照M种压缩方式进行压缩,以得到M个备选网络结构,其中,备选网络结构中包括的卷积结构为N层;将M个备选网络结构中目标计算量达到计算阈值的P个备选网络结构确定为P个候选网络结构,其中,目标计算量用于表示备选网络结构一次卷积的计算量。可选地,M个备选网络结构可以但不限于包括P个候选网络结构,其中,P可以但不限于小于等于M。
进一步举例说明,可选的假设以模糊图像(第一图像)和对应的原始图像(第二图像)作为训练样本(K组样本字符图像),以获取用于调整目标网络结构的候选网络结构的场景例如图4所示,具体步骤如下:
步骤S402,输入模糊图像和原始图像作为训练样本;
步骤S404,确定卷积结构及对应的搜索空间;
步骤S406,训练目标网络结构并随机激活卷积结构,以获取多个备选网络结构;
步骤S408,根据计算量初步筛选符合需求的备选网络结构为候选网络结构;
步骤S410,利用文字编辑距离评估每个候选网络结构的质量并选择最好的若干候选网络结构;
步骤S412,对候选网络结构进行微调,确定最终的候选网络结构;
步骤S414,保存微调后的候选网络结构。
通过本申请提供的实施例,对N层卷积结构按照M种压缩方式进行压缩,以得到M个备选网络结构,其中,备选网络结构中包括的卷积结构为N层;将M个备选网络结构中目标计算量达到计算阈值的P个备选网络结构确定为P个候选网络结构,其中,目标计算量用于表示备选网络结构一次卷积的计算量,达到了根据卷积结构的计算量以筛选备选网络结构的目的,实现了提高候选网络结构的获取灵活度的效果。
作为一种可选的方案,对N层卷积结构按照M种压缩方式进行压缩,以得到M个备选网络结构,包括:
对N层卷积结构中的每一层卷积结构的通道数按照M种压缩方式进行压缩,以得到M个备选网络结构,其中,每个备选网络结构对应的通道数序列皆不相同,通道数序列为由备选网络结构中的每一层卷积结构的通道数组合成的序列,通道数与目标计算量呈正相关关系。
可选地,在本实施例中,通道(channel)也可以但不限于为特征图(feature),该卷积结果可以但不限于在通道与通道之间进行交互,之后在下一层生成新的通道,其中,例如在Incept-Net网络结构中用到的1×1卷及操作。此外,通道数可以但不限取决于卷积结果配置的过滤器数量。
需要说明的是,对N层卷积结构中的每一层卷积结构的通道数按照M种压缩方式进行压缩,以得到M个备选网络结构,其中,每个备选网络结构对应的通道数序列皆不相同,通道数序列为由备选网络结构中的每一层卷积结构的通道数组合成的序列,通道数与目标计算量呈正相关关系。
进一步举例说明,对于一个总通道数为64的卷积结构,可以选择激活(例如随机)其中的前32、48或64个通道,可选的假设目标网络结构为对称的U形结构,则目标网络结构中的N层卷积结果的调整场景如图5中的(a)所示,除了输入和输出通道,其他的通道数分别为64、128、246、412、412、412、412、412、412、1024、1024、1024、1024、412、246、128,一般地,可以设定每一层卷积结构的搜索空间为其前50%、75%、100%的通道,即每一层卷积结构可以有3种通道数选择,如图5中的(b)所示,64通道的层可随机激活其前32、48、64个通道,此外由于是U形结构是对称拼接的,前半部分某一层选择了某一个通道数,其对称的层自动确定为其2倍的通道数,因此这里的可获取的候选网络结构的数目最多为3^8=6561个;
再者,在获取到全部候选网络结构的情况下,即开始对每个候选网络结构进行性能评估,且该性能评估的评估指标为根据OCR识别结果来确定的字符相似度,具体实施方式可以但不限于为:给定一个测试集(K组样本字符图像),包含多组涂抹图(第一图像)和无涂抹的原图(第二图像)。利用每个候选网络结构对涂抹图进行复原得到复原图,然后分别利用OCR算法对复原图和原始图进行文字识别,计算识别出来的文字的编辑距离,以此作为评估每个候选网络结构的性能的评估指标,其中,文字编辑距离越小,则代表生成的复原图的识别结果更接近原始图的识别结果,即复原效果好,以此为指标,选择在一定的计算量区间内编辑距离最小的若干个候选网络结构;
进一步,在获取到若干个候选网络结构之后,还可以但不不限于分别对该若干个候选网络结构中的每个候选网络结构分别进行训练,并利用文字编辑距离评估微调后的候选网络结构的性能,得到最终的候选网络结构,以替换目标网络结构中的N层卷积结构。
通过本申请提供的实施例,对N层卷积结构中的每一层卷积结构的通道数按照M种压缩方式进行压缩,以得到M个备选网络结构,其中,每个备选网络结构对应的通道数序列皆不相同,通道数序列为由备选网络结构中的每一层卷积结构的通道数组合成的序列,通道数与目标计算量呈正相关关系,达到了根据通道数以压缩网络结构的目的,实现了提高网络结构的压缩效率的效果。
作为一种可选的方案,在对目标网络结构中包括的N层卷积结构按照M种压缩方式进行压缩之前,包括:
S1,获取F组样本字符图像,其中,F组样本字符图像中的每组样本字符图像包括第一图像和第二图像,F为大于等于1的正整数;
S2,将F组样本字符图像输入初始目标网络结构,以训练得到目标网络结构。
可选地,在本实施例中,初始目标网络结构中的N层卷积结构可以但不限于按照随机的压缩方式进行压缩,也可以但不不限于不进行压缩处理。
进一步举例说明,可选的例如在对目标网络结构中包括的N层卷积结构按照M种压缩方式进行压缩,以得到M个备选网络结构后,将F组样本字符图像输入初始目标网络结构,以训练得到目标网络结构;或,可选的例如对目标网络结构中包括的N层卷积结构按照M种压缩方式进行压缩之前,将F组样本字符图像输入初始目标网络结构,以训练得到目标网络结构;或,对目标网络结构中包括的N层卷积结构按照M种压缩方式进行压缩,以得到P个候选网络结构之后,将F组样本字符图像输入初始目标网络结构,以训练得到目标网络结构。在此仅为举例,并不做限定。
需要说明的是,获取F组样本字符图像,其中,F组样本字符图像中的每组样本字符图像包括第一图像和第二图像,F为大于等于1的正整数;将F组样本字符图像输入初始目标网络结构,以训练得到目标网络结构。
进一步举例说明,可选的例如随机压缩初始目标网络结构中的N层卷积结构,并将F组样本字符图像输入随机压缩后的初始目标网络结构,以训练得到目标网络结构。
通过本申请提供的实施例,获取F组样本字符图像,其中,F组样本字符图像中的每组样本字符图像包括第一图像和第二图像,F为大于等于1的正整数;将F组样本字符图像输入初始目标网络结构,以训练得到目标网络结构,达到了灵活训练目标网络结构的目的,实现了提高目标网络结构的训练效率的效果。
作为一种可选的方案,在将F组样本字符图像输入初始目标网络结构,以训练得到目标网络结构之后,包括:
将K组样本字符图像输入目标网络结构,以训练得到训练好的目标网络结构。
可选地,在本实施例中,F组样本字符图像训练得到的目标网络结构可以但不限于为预训练,在此基础上,还可以但不限于再利用K组样本字符图像,以得到训练好的目标网络结构。换言之,在F组样本字符图像训练得到的目标网络结构的过程中,训练不够充分,需要进一步微调,而微调的方式可以但不限于为利用K组样本字符图像对已获取的候选网络结构进行二次训练,利用编辑距离评估微调后的候选网络结构的质量,得到最终的候选网络结构作为压缩后的候选网络结构。
需要说明的是,将K组样本字符图像输入目标网络结构,以训练得到训练好的目标网络结构。
通过本申请提供的实施例,将K组样本字符图像输入目标网络结构,以训练得到训练好的目标网络结构,达到了灵活训练目标网络结构的目的,实现了提高目标网络结构的训练效率的效果。
作为一种可选的方案,将K组样本字符图像输入替换后的目标网络结构,以训练得到训练好的目标网络结构,包括:
S1,重复执行以下步骤,直至得到训练好的目标网络结构:
S2,从K组样本字符图像中确定出当前样本字符图像,并确定当前目标网络结构,其中,当前样本字符图像中包括当前第一图像和当前第二图像;
S3,通过当前目标网络结构获取当前复原结果,其中,当前复原结果包括当前第一图像对应的复原字符信息;
S4,在当前复原结果未达到收敛条件的情况下,获取下一个样本字符图像作为当前样本字符图像;
S5,在当前复原结果达到收敛条件的情况下,确定当前目标网络结构为训练好的目标网络结构。
可选的,在本实施例中,可以但不限于将文字编辑距离作为收敛条件的判断依据,例如在当前复原结果指示当前第一图像对应的复原字符信息与对应的第二图像对应的复原字符信息的文字编辑距离达到距离阈值的情况下,确定收敛条件的达到。
需要说明的是,重复执行以下步骤,直至得到训练好的目标网络结构:从K组样本字符图像中确定出当前样本字符图像,并确定当前目标网络结构,其中,当前样本字符图像中包括当前第一图像和当前第二图像;通过当前目标网络结构获取当前复原结果,其中,当前复原结果包括当前第一图像对应的复原字符信息;在当前复原结果未达到收敛条件的情况下,获取下一个样本字符图像作为当前样本字符图像;在当前复原结果达到收敛条件的情况下,确定当前目标网络结构为训练好的目标网络结构。
通过本申请提供的实施例,重复执行以下步骤,直至得到训练好的目标网络结构:从K组样本字符图像中确定出当前样本字符图像,并确定当前目标网络结构,其中,当前样本字符图像中包括当前第一图像和当前第二图像;通过当前目标网络结构获取当前复原结果,其中,当前复原结果包括当前第一图像对应的复原字符信息;在当前复原结果未达到收敛条件的情况下,获取下一个样本字符图像作为当前样本字符图像;在当前复原结果达到收敛条件的情况下,确定当前目标网络结构为训练好的目标网络结构,达到了训练完整的目标网络结构的目的,实现了提高目标网络结构的训练完整性的效果。
作为一种可选的方案,比对每个复原字符信息与对应的已复原样本字符的字符信息,包括:
获取每个复原字符信息与对应的已复原样本字符的字符信息的信息差值,其中,信息差值与字符相似度呈反相关关系。
可选地,在本实施例中,信息差值可以但不限于包括文字信息差值、图形信息差值、特征信息差值、笔画信息差值等,其中,以文字信息差值为例说明,假设文字信息差值用于表示两个文字(或字符)之间的差别,则可以但不限于以文字编辑距离表示该文字信息差值。
需要说明的是,获取每个复原字符信息与对应的已复原样本字符的字符信息的信息差值,其中,信息差值与字符相似度呈反相关关系。
通过本申请提供的实施例,获取每个复原字符信息与对应的已复原样本字符的字符信息的信息差值,其中,信息差值与字符相似度呈反相关关系,达到了将字符信息之间的信息差值作为卷积结构的评估指标的目的,实现了提高获取到的卷积结构的复原准确性的效果。
作为一种可选的方案,在将目标网络结构中的N层卷积结构,替换为字符相似度达到相似度阈值的候选网络结构之后,包括:
S1,获取待复原的字符图像;
S2,将待复原的字符图像输入调整后的目标网络结构;
S3,获取调整后的目标网络结构输出的目标复原结果,其中,目标复原结果包括待复原的字符图像对应的复原字符信息。
可选地,在本实施例中,利用上述网络结构调整方法获取到的调整后的目标网络结构,可以但不限用于将待复原的字符图像进行字符复原,相比于传统的字符复原,该目标网络结构具有压缩后带来的运行速度快的优势,还保证了较高的复原准确性。
需要说明的是,获取待复原的字符图像;将待复原的字符图像输入调整后的目标网络结构;获取调整后的目标网络结构输出的目标复原结果,其中,目标复原结果包括待复原的字符图像对应的复原字符信息。
进一步举例说明,可选的基于图3所示场景,继续例如图6所示,首先获取在客户端602上触发的字符复原请求,其中,该字符复原请求用于请求复原携带的字符图像,服务器604接收该字符复原请求,并利用调整后的目标网络结构302对该字符图像进行复原处理,并将处理后得到的复原字符信息发送至客户端602,并由客户端602以图像字符的形式,显示该字符信息,例如“天气晴朗”。
通过本申请提供的实施例,获取待复原的字符图像;将待复原的字符图像输入调整后的目标网络结构;获取调整后的目标网络结构输出的目标复原结果,其中,目标复原结果包括待复原的字符图像对应的复原字符信息,达到了的目的,实现了的效果。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
根据本发明实施例的另一个方面,还提供了一种用于实施上述网络结构调整方法的网络结构调整装置。如图7所示,该装置包括:
压缩单元702,用于在获取到用于复原字符图像的目标网络结构的情况下,对目标网络结构中包括的N层卷积结构按照M种压缩方式进行压缩,以得到P个候选网络结构,其中,候选网络结构中包括的卷积结构为N层,N为大于等于2的正整数,M为大于等于1的正整数,P为大于等于1的正整数;
第一获取单元704,用于获取K组样本字符图像,其中,K组样本字符图像中的每组样本字符图像包括携带有待复原样本字符的第一图像和携带有已复原样本字符的第二图像,K为大于等于1的正整数;
复原单元706,用于通过P个候选网络结构分别对每组样本字符图像中的第一图像进行字符复原,以得到第一图像对应的复原字符图像;
比对单元708,用于在从复原字符图像中识别出复原字符信息的情况下,依次比对每个复原字符信息与对应的已复原样本字符的字符信息,以得到复原字符信息对应的字符相似度;
调整单元710,用于将目标网络结构中的N层卷积结构,替换为字符相似度达到相似度阈值的候选网络结构。
可选地,在本实施例中,网络结构调整装置可以但不限于应用在涂抹文字复原的场景下,以在多种压缩方式得到的多种卷积结构组合的候选网络结构中,确定性能最佳的候选网络结构,并基于性能最佳的候选网络结构调整目标网络结构中的N层卷积结构,使得调整后的目标网络结构既满足压缩需求,又可保证一定的复原准确性,或者说,利用上述网络结构调整装置,可以在保证目标网络结构的复原准确率不出现明显下降的情况下,加快目标网络结果的运行速度,减少对GPU显存的需求,提升在实际应用中的速度和吞吐。
可选地,在本实施例中,目标网络结构可以但不限于为用于复原字符图像的卷积神经网络结构,其中,卷积神经网络结构可以但不限于是一类包含卷积计算且具有深度结构的前馈神经网络,例如WaveNet网络结构、UNet网络结构、LeNet-5网络结构、ZFNet网络结构、VGGNet网络结构、残差神经网络结构等。
可选的,在本实施例中,目标网络结构可以但不限于包括至少一层输入结构、至少一层输出结构,以及至少两层中间结构,其中,中间结构至少包括N层卷积结构。可选的,UNet网络结构为例说明,输入该,UNet网络结构中的输入结构的可以但不限于为3通道的彩色涂抹图像,由该,UNet网络结构中的输出结构输出的可以但不限于为3通道的复原后的彩色图像。
可选的,在本实施例中,由于在某些实际应用中,对目标网络结构的复原实时性要求较高,因此需要在尽可能保持复原准确率的条件下,对该目标网络结构中的N层卷积解构进行压缩加速,例如采用神经结构搜索(Neural Architecture Search,简称NAS)执行上述压缩加速,对其中除了输入输出层之外的其他层(例如卷积层),随机选择一定的通道数进行激活,得到一系列的卷积层组合。
进一步,为了限制卷积层组合的数目,一般条件下会限制每一层卷积结构可搜索的通道数,例如对于一个总通道数为64的卷积结构,可以选择激活(例如随机)其中的前32、48或64个通道,换言之,对N层卷积结构中的每一层卷积结构的通道数执行上述通道数选择后,获取到一种通道数组合的N层卷积结构。可选的,压缩方式可以但不限于对每一层卷积结构的通道数执行同一轮次的通道数选择,以获取新通道数组合的N层卷积结构,其中,不同压缩方式对应不同的通道数组合。
可选的,在本实施例中,假设通道数选择的类型有O种,卷积结构有N层,则对该N层卷积结构执行M种压缩方式后,可以但不限于得到O的N次幂种不同的通道数组合,此外,如果以UNet网络结构为例,其网络结构为一个对称的U形结构,并且后半部分需要拼接前半部分的通道特征,由于UNet是对称拼接的,前半部分某一层选择了某一个通道数,其对称的层自动确定为其2倍的通道数,因此可以但不限于得到O的(1/2×N)次幂种不同的通道数组合。
可选的,在本实施例中,每组样本字符图像包括具有对应关系的第一图像和第二图像,其中,第二图像可以但不限于为原始字符图像,第一图像可以但不限基于该原始字符图像作模糊、遮盖、涂抹等处理的字符图像,其中,第一图像可以但不限于可识别出清晰字符,第二图像可以但不限于无法识别出清晰字符,或识别出的字符信息达不到清晰阈值。
可选的,在本实施例中,复原字符信息可以但不限用于表示利用字符识别获取到出的字符识别信息,其中,字符识别可以但不限于利用文字识别(optical characterrecognition,简称OCR)技术实现,OCR文字识别可以但不限于指电子设备检查字符图像,然后用字符识别装置将形状翻译成计算机文字的过程,即,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。
需要说明的是,在文字复原领域,将目标网络模型的复原效果的好坏以OCR文字识别结果作为评估指标,确定出性能最佳的候选网络结构,以调整目标网络结构为兼顾复原实时性以及复原准确性的最佳网络结构。
可选的,在本实施例中,字符相似度可以但不限于通过文字编辑距离表示,其中,文字编辑距离可以但不限于为Levenshtein距离,是指两个字串或字符之间,由一个转成另一个所需的最小编辑操作次数,如果它们的距离越大,说明相似度越低,反之编辑距离越小,则说明相似度越低,许可的编辑操作包括将一个字符替换成另一个字符、插入一个字符、删除一个字符等。
需要说明的是,在获取到用于复原字符图像的目标网络结构的情况下,对目标网络结构中包括的N层卷积结构按照M种压缩方式进行压缩,以得到P个候选网络结构,其中,候选网络结构中包括的卷积结构为N层,N为大于等于2的正整数,M为大于等于1的正整数,P为大于等于1的正整数;获取K组样本字符图像,其中,K组样本字符图像中的每组样本字符图像包括携带有待复原样本字符的第一图像和携带有已复原样本字符的第二图像,K为大于等于1的正整数;通过P个候选网络结构分别对每组样本字符图像中的第一图像进行字符复原,以得到第一图像对应的复原字符图像;在从复原字符图像中识别出复原字符信息的情况下,依次比对每个复原字符信息与对应的已复原样本字符的字符信息,以得到复原字符信息对应的字符相似度;将目标网络结构中的N层卷积结构,替换为字符相似度达到相似度阈值的候选网络结构。
可选的,在本实施例中,因涉及到多个阶段的网络结构,可以但不限于依次训练该多个阶段的网络结构,例如先对目标网络结构进行预训练,再在调整该目标网络结构后,对调整后的目标网络结构进行二次训练,其中,预训练和二次训练的训练样本可以但不限于为相同或不同的样本字符图像,例如获取M+N张第一图像和对应的第二图像,其中,M张(一般M>20000)作为预训练的训练数据,剩下的N张(一般M>1000)作为调整目标网络结构的测试数据,而二次训练的训练数据可以根据需求自由搭配,例如将M张作为二次训练的训练数据,或将M+N张都作为二次训练的训练数据;
此外,还可以但不限于分别训练该多个阶段的网络结构,例如对目标网络结构进行训练以及对调整后的目标网络结构进行训练,或只对调整后的目标网络结构进行训练,或只对目标网络结构进行训练。此处仅为举例在此不做限定。
具体实施例可以参考上述网络结构调整方法中所示示例,本示例中在此不再赘述。
通过本申请提供的实施例,在获取到用于复原字符图像的目标网络结构的情况下,对目标网络结构中包括的N层卷积结构按照M种压缩方式进行压缩,以得到P个候选网络结构,其中,候选网络结构中包括的卷积结构为N层,N为大于等于2的正整数,M为大于等于1的正整数,P为大于等于1的正整数;获取K组样本字符图像,其中,K组样本字符图像中的每组样本字符图像包括携带有待复原样本字符的第一图像和携带有已复原样本字符的第二图像,K为大于等于1的正整数;通过P个候选网络结构分别对每组样本字符图像中的第一图像进行字符复原,以得到第一图像对应的复原字符图像;在从复原字符图像中识别出复原字符信息的情况下,依次比对每个复原字符信息与对应的已复原样本字符的字符信息,以得到复原字符信息对应的字符相似度;将目标网络结构中的N层卷积结构,替换为字符相似度达到相似度阈值的候选网络结构,在字符复原领域下的对压缩后的卷积结构评估过程中,使用字符识别信息作为评估指标,确定最佳的压缩卷积结构,以调整用于复原字符的整体网络结构,进而达到了调整后的网络结构既满足压缩需求的同时,还能保证较高的复原准确性的技术目的,从而实现了提高压缩后的网络结构的复原准确性的技术效果。
作为一种可选的方案,如图8所示,压缩单元702,包括:
压缩模块802,用于对N层卷积结构按照M种压缩方式进行压缩,以得到M个备选网络结构,其中,备选网络结构中包括的卷积结构为N层;
第一确定模块804,用于将M个备选网络结构中目标计算量达到计算阈值的P个备选网络结构确定为P个候选网络结构,其中,目标计算量用于表示备选网络结构一次卷积的计算量。
具体实施例可以参考上述网络结构调整方法中所示示例,本示例中在此不再赘述。
作为一种可选的方案,压缩模块902,包括:
压缩子模块,用于对N层卷积结构中的每一层卷积结构的通道数按照M种压缩方式进行压缩,以得到M个备选网络结构,其中,每个备选网络结构对应的通道数序列皆不相同,通道数序列为由备选网络结构中的每一层卷积结构的通道数组合成的序列,通道数与目标计算量呈正相关关系。
具体实施例可以参考上述网络结构调整方法中所示示例,本示例中在此不再赘述。
作为一种可选的方案,如图9所示,包括:
第二获取单元902,用于在对目标网络结构中包括的N层卷积结构按照M种压缩方式进行压缩之前,获取F组样本字符图像,其中,F组样本字符图像中的每组样本字符图像包括第一图像和第二图像,F为大于等于1的正整数;
第一输入单元904,用于在对目标网络结构中包括的N层卷积结构按照M种压缩方式进行压缩之前,将F组样本字符图像输入初始目标网络结构,以训练得到目标网络结构。
具体实施例可以参考上述网络结构调整方法中所示示例,本示例中在此不再赘述。
作为一种可选的方案,包括:
第二输入单元,用于在将F组样本字符图像输入初始目标网络结构,以训练得到目标网络结构之后,将K组样本字符图像输入目标网络结构,以训练得到训练好的目标网络结构。
具体实施例可以参考上述网络结构调整方法中所示示例,本示例中在此不再赘述。
作为一种可选的方案,包括:
第二输入单元,用于在将F组样本字符图像输入初始目标网络结构,以训练得到目标网络结构之后,将K组样本字符图像输入目标网络结构,以训练得到训练好的目标网络结构。
具体实施例可以参考上述网络结构调整方法中所示示例,本示例中在此不再赘述。
作为一种可选的方案,比对单元708,包括:
第四获取模块,用于获取每个复原字符信息与对应的已复原样本字符的字符信息的信息差值,其中,信息差值与字符相似度呈反相关关系。
具体实施例可以参考上述网络结构调整方法中所示示例,本示例中在此不再赘述。
作为一种可选的方案,包括:
第三获取单元,用于在将目标网络结构中的N层卷积结构,替换为字符相似度达到相似度阈值的候选网络结构之后,获取待复原的字符图像;
第三输入单元,用于在将目标网络结构中的N层卷积结构,替换为字符相似度达到相似度阈值的候选网络结构之后,将待复原的字符图像输入调整后的目标网络结构;
第四获取单元,用于在将目标网络结构中的N层卷积结构,替换为字符相似度达到相似度阈值的候选网络结构之后,获取调整后的目标网络结构输出的目标复原结果,其中,目标复原结果包括待复原的字符图像对应的复原字符信息。
具体实施例可以参考上述网络结构调整方法中所示示例,本示例中在此不再赘述。
根据本发明实施例的又一个方面,还提供了一种用于实施上述网络结构调整方法的电子设备,如图10所示,该电子设备包括存储器1002和处理器1004,该存储器1002中存储有计算机程序,该处理器1004被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,在获取到用于复原字符图像的目标网络结构的情况下,对目标网络结构中包括的N层卷积结构按照M种压缩方式进行压缩,以得到P个候选网络结构,其中,候选网络结构中包括的卷积结构为N层,N为大于等于2的正整数,M为大于等于1的正整数,P为大于等于1的正整数;
S2,获取K组样本字符图像,其中,K组样本字符图像中的每组样本字符图像包括携带有待复原样本字符的第一图像和携带有已复原样本字符的第二图像,K为大于等于1的正整数;
S3,通过P个候选网络结构分别对每组样本字符图像中的第一图像进行字符复原,以得到第一图像对应的复原字符图像;
S4,在从复原字符图像中识别出复原字符信息的情况下,依次比对每个复原字符信息与对应的已复原样本字符的字符信息,以得到复原字符信息对应的字符相似度;
S5,将目标网络结构中的N层卷积结构,替换为字符相似度达到相似度阈值的候选网络结构。
可选地,本领域普通技术人员可以理解,图10所示的结构仅为示意,电子设备也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图10其并不对上述电子设备的结构造成限定。例如,电子设备还可包括比图10中所示更多或者更少的组件(如网络接口等),或者具有与图10所示不同的配置。
其中,存储器1002可用于存储软件程序以及模块,如本发明实施例中的网络结构调整方法和装置对应的程序指令/模块,处理器1004通过运行存储在存储器1002内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的网络结构调整方法。存储器1002可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器1002可进一步包括相对于处理器1004远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中,存储器1002具体可以但不限于用于存储样本字符图像、候选网络结构以及复原字符信息等信息。作为一种示例,如图10所示,上述存储器1002中可以但不限于包括上述网络结构调整装置中的压缩单元702、第一获取单元704、复原单元706、比对单元708及调整单元710。此外,还可以包括但不限于上述网络结构调整装置中的其他模块单元,本示例中不再赘述。
可选地,上述的传输装置1006用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置1006包括一个网络适配器(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置1006为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
此外,上述电子设备还包括:显示器1008,用于显示上述样本字符图像、候选网络结构以及复原字符信息等信息;和连接总线1010,用于连接上述电子设备中的各个模块部件。
在其他实施例中,上述终端设备或者服务器可以是一个分布式系统中的一个节点,其中,该分布式系统可以为区块链系统,该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中,节点之间可以组成点对点(Peer To Peer,简称P2P)网络,任意形式的计算设备,比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述网络结构调整方法,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,在获取到用于复原字符图像的目标网络结构的情况下,对目标网络结构中包括的N层卷积结构按照M种压缩方式进行压缩,以得到P个候选网络结构,其中,候选网络结构中包括的卷积结构为N层,N为大于等于2的正整数,M为大于等于1的正整数,P为大于等于1的正整数;
S2,获取K组样本字符图像,其中,K组样本字符图像中的每组样本字符图像包括携带有待复原样本字符的第一图像和携带有已复原样本字符的第二图像,K为大于等于1的正整数;
S3,通过P个候选网络结构分别对每组样本字符图像中的第一图像进行字符复原,以得到第一图像对应的复原字符图像;
S4,在从复原字符图像中识别出复原字符信息的情况下,依次比对每个复原字符信息与对应的已复原样本字符的字符信息,以得到复原字符信息对应的字符相似度;
S5,将目标网络结构中的N层卷积结构,替换为字符相似度达到相似度阈值的候选网络结构。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (15)

1.一种网络结构调整方法,其特征在于,包括:
在获取到用于复原字符图像的目标网络结构的情况下,对所述目标网络结构中包括的N层卷积结构按照M种压缩方式进行压缩,以得到P个候选网络结构,其中,所述候选网络结构中包括的卷积结构为N层,N为大于等于2的正整数,M为大于等于1的正整数,P为大于等于1的正整数;
获取K组样本字符图像,其中,所述K组样本字符图像中的每组样本字符图像包括携带有待复原样本字符的第一图像和携带有已复原样本字符的第二图像,K为大于等于1的正整数;
通过所述P个候选网络结构分别对所述每组样本字符图像中的所述第一图像进行字符复原,以得到所述第一图像对应的复原字符图像;
在从所述复原字符图像中识别出复原字符信息的情况下,依次比对每个复原字符信息与对应的所述已复原样本字符的字符信息,以得到所述复原字符信息对应的字符相似度;
将所述目标网络结构中的N层卷积结构,替换为所述字符相似度达到相似度阈值的候选网络结构。
2.根据权利要求1所述的方法,其特征在于,所述对所述目标网络结构中包括的N层卷积结构按照M种压缩方式进行压缩,以得到P个候选网络结构,包括:
对所述N层卷积结构按照M种压缩方式进行压缩,以得到M个备选网络结构,其中,所述备选网络结构中包括的卷积结构为N层;
将所述M个备选网络结构中目标计算量达到计算阈值的P个备选网络结构确定为所述P个候选网络结构,其中,所述目标计算量用于表示所述备选网络结构一次卷积的计算量。
3.根据权利要求2所述的方法,其特征在于,所述对所述N层卷积结构按照M种压缩方式进行压缩,以得到M个备选网络结构,包括:
对所述N层卷积结构中的每一层卷积结构的通道数按照M种压缩方式进行压缩,以得到所述M个备选网络结构,其中,每个所述备选网络结构对应的通道数序列皆不相同,所述通道数序列为由所述备选网络结构中的每一层卷积结构的通道数组合成的序列,所述通道数与所述目标计算量呈正相关关系。
4.根据权利要求1所述的方法,其特征在于,在所述对所述目标网络结构中包括的N层卷积结构按照M种压缩方式进行压缩之前,包括:
获取F组样本字符图像,其中,所述F组样本字符图像中的每组样本字符图像包括所述第一图像和第二图像,F为大于等于1的正整数;
将所述F组样本字符图像输入初始目标网络结构,以训练得到所述目标网络结构。
5.根据权利要求4所述的方法,其特征在于,在所述将所述F组样本字符图像输入初始目标网络结构,以训练得到所述目标网络结构之后,包括:
将所述K组样本字符图像输入所述目标网络结构,以训练得到训练好的目标网络结构。
6.根据权利要求5所述的方法,其特征在于,所述将所述K组样本字符图像输入替换后的目标网络结构,以训练得到训练好的目标网络结构,包括:
重复执行以下步骤,直至得到所述训练好的目标网络结构:
从所述K组样本字符图像中确定出当前样本字符图像,并确定当前目标网络结构,其中,所述当前样本字符图像中包括当前第一图像和当前第二图像;
通过所述当前目标网络结构获取当前复原结果,其中,所述当前复原结果包括所述当前第一图像对应的复原字符信息;
在所述当前复原结果未达到收敛条件的情况下,获取下一个样本字符图像作为所述当前样本字符图像;
在所述当前复原结果达到所述收敛条件的情况下,确定所述当前目标网络结构为所述训练好的目标网络结构。
7.根据权利要求1至6中任一项所述的方法,其特征在于,所述比对每个复原字符信息与对应的所述已复原样本字符的字符信息,包括:
获取所述每个复原字符信息与对应的所述已复原样本字符的字符信息的信息差值,其中,所述信息差值与所述字符相似度呈反相关关系。
8.根据权利要求1至6中任一项所述的方法,其特征在于,在所述将所述目标网络结构中的N层卷积结构,替换为所述字符相似度达到相似度阈值的候选网络结构之后,包括:
获取待复原的字符图像;
将所述待复原的字符图像输入调整后的目标网络结构;
获取所述调整后的目标网络结构输出的目标复原结果,其中,所述目标复原结果包括所述待复原的字符图像对应的复原字符信息。
9.一种网络结构调整装置,其特征在于,包括:
压缩单元,用于在获取到用于复原字符图像的目标网络结构的情况下,对所述目标网络结构中包括的N层卷积结构按照M种压缩方式进行压缩,以得到P个候选网络结构,其中,所述候选网络结构中包括的卷积结构为N层,N为大于等于2的正整数,M为大于等于1的正整数,P为大于等于1的正整数;
第一获取单元,用于获取K组样本字符图像,其中,所述K组样本字符图像中的每组样本字符图像包括携带有待复原样本字符的第一图像和携带有已复原样本字符的第二图像,K为大于等于1的正整数;
复原单元,用于通过所述P个候选网络结构分别对所述每组样本字符图像中的所述第一图像进行字符复原,以得到所述第一图像对应的复原字符图像;
比对单元,用于在从所述复原字符图像中识别出复原字符信息的情况下,依次比对每个复原字符信息与对应的所述已复原样本字符的字符信息,以得到所述复原字符信息对应的字符相似度;
调整单元,用于将所述目标网络结构中的N层卷积结构,替换为所述字符相似度达到相似度阈值的候选网络结构。
10.根据权利要求9所述的装置,其特征在于,所述压缩单元,包括:
压缩模块,用于对所述N层卷积结构按照M种压缩方式进行压缩,以得到M个备选网络结构,其中,所述备选网络结构中包括的卷积结构为N层;
第一确定模块,用于将所述M个备选网络结构中目标计算量达到计算阈值的P个备选网络结构确定为所述P个候选网络结构,其中,所述目标计算量用于表示所述备选网络结构一次卷积的计算量。
11.根据权利要求10所述的装置,其特征在于,所述压缩模块,包括:
压缩子模块,用于对所述N层卷积结构中的每一层卷积结构的通道数按照M种压缩方式进行压缩,以得到所述M个备选网络结构,其中,每个所述备选网络结构对应的通道数序列皆不相同,所述通道数序列为由所述备选网络结构中的每一层卷积结构的通道数组合成的序列,所述通道数与所述目标计算量呈正相关关系。
12.根据权利要求9所述的装置,其特征在于,包括:
第二获取单元,用于在所述对所述目标网络结构中包括的N层卷积结构按照M种压缩方式进行压缩之前,获取F组样本字符图像,其中,所述F组样本字符图像中的每组样本字符图像包括所述第一图像和第二图像,F为大于等于1的正整数;
第一输入单元,用于在所述对所述目标网络结构中包括的N层卷积结构按照M种压缩方式进行压缩之前,将所述F组样本字符图像输入初始目标网络结构,以训练得到所述目标网络结构。
13.根据权利要求12所述的装置,其特征在于,包括:
第二输入单元,用于在所述将所述F组样本字符图像输入初始目标网络结构,以训练得到所述目标网络结构之后,将所述K组样本字符图像输入所述目标网络结构,以训练得到训练好的目标网络结构。
14.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行上述权利要求1至8任一项中所述的方法。
15.一种电子设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至8任一项中所述的方法。
CN202110057636.XA 2021-01-15 2021-01-15 网络结构调整方法、装置和存储介质及电子设备 Pending CN113569886A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110057636.XA CN113569886A (zh) 2021-01-15 2021-01-15 网络结构调整方法、装置和存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110057636.XA CN113569886A (zh) 2021-01-15 2021-01-15 网络结构调整方法、装置和存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN113569886A true CN113569886A (zh) 2021-10-29

Family

ID=78160939

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110057636.XA Pending CN113569886A (zh) 2021-01-15 2021-01-15 网络结构调整方法、装置和存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN113569886A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114511853A (zh) * 2022-04-21 2022-05-17 华南理工大学 一种文字图像书写轨迹恢复效果判别方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114511853A (zh) * 2022-04-21 2022-05-17 华南理工大学 一种文字图像书写轨迹恢复效果判别方法

Similar Documents

Publication Publication Date Title
CN111368943B (zh) 图像中对象的识别方法和装置、存储介质及电子装置
CN110852256B (zh) 时序动作提名的生成方法、装置、设备及存储介质
CN114663670A (zh) 一种图像检测方法、装置、电子设备及存储介质
CN112801054B (zh) 人脸识别模型的处理方法、人脸识别方法及装置
CN113392270A (zh) 视频处理方法、装置、计算机设备以及存储介质
CN106355210B (zh) 基于深度神经元响应模式的绝缘子红外图像特征表达方法
CN113963170A (zh) 一种基于交互式特征融合的rgbd图像显著性检测方法
CN114282059A (zh) 视频检索的方法、装置、设备及存储介质
CN115131698A (zh) 视频属性确定方法、装置、设备及存储介质
CN113590854B (zh) 一种数据处理方法、设备以及计算机可读存储介质
CN115131801A (zh) 基于多模态的文档识别方法、装置、设备和存储介质
CN113569886A (zh) 网络结构调整方法、装置和存储介质及电子设备
CN111626212B (zh) 图片中对象的识别方法和装置、存储介质及电子装置
CN109190649B (zh) 一种深度学习网络模型服务器的优化方法和装置
CN113391992A (zh) 测试数据的生成方法和装置、存储介质及电子设备
CN110490876B (zh) 一种基于轻量级神经网络的图像分割方法
CN110956599A (zh) 图片处理方法和装置、存储介质及电子装置
CN112749711B (zh) 视频获取方法和装置及存储介质
CN111860222A (zh) 基于稠密-分段式帧采样的视频行为识别方法、系统、计算机设备和存储介质
CN111461091A (zh) 万能指纹生成方法和装置、存储介质及电子装置
CN111541911B (zh) 视频检测方法和装置、存储介质及电子装置
CN117351246B (zh) 一种误匹配对去除方法、系统及可读介质
CN112966569B (zh) 一种图像处理方法、装置、计算机设备及存储介质
CN113822976A (zh) 生成器的训练方法及装置、存储介质和电子装置
CN111541911A (zh) 视频检测方法和装置、存储介质及电子装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40055193

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination