CN111898373B - 手写日期样本生成方法及装置 - Google Patents
手写日期样本生成方法及装置 Download PDFInfo
- Publication number
- CN111898373B CN111898373B CN202010851946.4A CN202010851946A CN111898373B CN 111898373 B CN111898373 B CN 111898373B CN 202010851946 A CN202010851946 A CN 202010851946A CN 111898373 B CN111898373 B CN 111898373B
- Authority
- CN
- China
- Prior art keywords
- sample
- date
- handwriting
- model
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Character Discrimination (AREA)
Abstract
本申请提供一种手写日期样本生成方法及装置,所述方法包括:将获取的手写日期真实样本输入至预先构建的样本生成模型进行训练,并将训练得到的手写日期初始样本输入至预先构建的样本判别模型中进行判别,直至得到满足识别需求的手写日期中间样本;对满足识别需求的手写日期中间样本进行筛选及标注,得到手写日期样本。本申请提供的手写日期样本生成方法及装置,利用预先构建的样本生成模型及样本判别模型,能够在仅提供少量手写日期真实样本的情况下,生成满足识别需求的手写日期样本。
Description
技术领域
本申请涉及人工智能技术领域,具体的是一种手写日期样本生成方法及装置。
背景技术
随着人工智能技术的不断发展,手写日期文本识别在金融领域中的应用越发广泛。相比于对印刷体日期的识别,对手写体日期的识别任务难度更大。在建立针对手写体日期的识别模型时,需提供数量庞大且样式丰富的手写体日期样本作为训练基础。
目前,手写体日期样本的提供方式主要有:业务人员提供实际交易过程中客户所书写的日期;组织一些人员进行模拟书写;或采用一些样本生成算法直接生成。然而,它们分别具有如下缺陷:
(1)经业务人员进行样本提供是一种直接有效的方法,但业务人员提供的样本数量有限,达不到日后训练手写日期样本识别模型所适配的训练集样本数据量。此外,业务人员无法及时提供未来时间的手写日期样本,使得日后在训练手写日期样本识别模型时,其训练集样本数据中缺少未来时间的手写日期样本,影响训练效果。
(2)组织一些人员进行模拟书写也是一种有效的方法,但其投入的人力成本非常高,另外书写风格特点的多样化也受组织人数的限制,从而降低了日后在训练手写日期样本识别模型时的模型泛化性能。
(3)在利用现有的样本生成算法直接生成样本时,其生成的样本图片趋于模糊且样式非常单一,不适合手写体日期的识别场景。
因此,针对手写日期的识别场景,急需研发出一种投入成本低,能够按需提供训练样本,同时又能提高手写日期识别模型泛化性能的手写日期样本生成模型。
发明内容
针对现有技术中的问题,本申请提供一种手写日期样本生成方法及装置,利用预先构建的样本生成模型及样本判别模型,能够在仅提供少量手写日期真实样本的情况下,生成满足识别需求的手写日期样本。
为了解决上述问题中的至少一个,本申请提供以下技术方案:
第一方面,本申请提供一种手写日期样本生成方法,包括:
将获取的手写日期真实样本输入至预先构建的样本生成模型进行训练,并将训练得到的手写日期初始样本输入至预先构建的样本判别模型中进行判别,直至得到满足识别需求的手写日期中间样本;
对满足识别需求的手写日期中间样本进行筛选及标注,得到手写日期样本。
进一步地,预先构建所述样本生成模型的步骤包括:
将所述样本生成模型的向量输入预先获取的WGAN网络模型;
为所述WGAN网络模型载入断点保存及checkpoint功能;
为所述WGAN网络模型载入Attention机制。
进一步地,在所述样本判别模型的第一层引入所述Attention机制。
进一步地,所述的手写日期样本生成方法还包括:
根据训练间隔轮数对预先构建的所述样本生成模型进行断点保存。
进一步地,所述的手写日期样本生成方法还包括:
将所述手写日期样本作为增量训练样本,将已满足识别需求的所述手写日期样本对应的所述样本生成模型作为初始模型进行增量训练,得到改进后的手写日期样本。
进一步地,所述手写日期真实样本的年份与月/日分开。
进一步地,所述将训练得到手写日期初始样本输入至预先构建的样本判别模型中进行判别,直至得到满足识别需求的手写日期中间样本,包括:
利用预先构建的所述样本判别模型计算所述样本生成模型的损失函数;
根据所述损失函数判断所述手写日期中间样本是否满足识别需求。
第二方面,本申请提供一种手写日期样本生成装置包括:
样本生成单元,用于将获取的手写日期真实样本输入至预先构建的样本生成模型进行训练,并将训练得到的手写日期初始样本输入至预先构建的样本判别模型中进行判别,直至得到满足识别需求的手写日期中间样本;
筛选标注单元,对满足识别需求的手写日期中间样本进行筛选及标注,得到手写日期样本。
第三方面,本申请提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的手写日期样本生成方法的步骤。
第四方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的手写日期样本生成方法的步骤。
由上述技术方案可知,本申请提供手写日期样本生成方法及装置,利用预先构建的样本生成模型及样本判别模型,能够在仅提供少量手写日期真实样本的情况下,生成满足识别需求的手写日期样本,为日后训练手写日期样本识别模型奠定基础,使其能够在实际应用场景中识别手写日期样本。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例中的手写日期样本生成方法的流程示意图之一;
图2为本申请实施例中手写日期真实样本之一;
图3为本申请实施例中手写日期真实样本之二;
图4为本申请实施例中的合理样本;
图5为本申请实施例中的不合理样本;
图6为本申请实施例中的手写日期样本生成方法的流程示意图之二;
图7为本申请实施例中的增量训练的样本示例;
图8为本申请实施例中的样本标注示例;
图9为本申请实施例中的手写日期样本生成方法的流程示意图之三;
图10为本申请实施例中的手写日期样本生成装置的结构图;
图11为本申请实施例中的电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了能够在仅提供少量手写日期真实样本的情况下,生成满足识别需求的手写日期样本,本申请提供一种手写日期样本生成方法的具体实施方式,参见图1,所述手写日期样本生成方法包括:
S101:将获取的手写日期真实样本输入至预先构建的样本生成模型进行训练,并将训练得到的手写日期初始样本输入至预先构建的样本判别模型中进行判别,直至得到满足识别需求的手写日期中间样本。
可以理解的是,在对预先构建的样本生成模型进行训练前,需获取一些手写日期真实样本。以金融领域授权书的手写日期样本生成场景为例,业务人员可以提供大约500张授权书日期碎片作为手写日期真实样本,参见图2。标注人员可以对这500张授权书日期碎片开展标注,标注即是将年份与月/日分开,并提取出相应的数字,生成手写日期真实样本,参见图3。为保证手写日期真实样本样式的丰富性,业务人员所选择的手写日期真实样本一般可以来自于不同人群。
有了手写日期真实样本后,即可将其输入预先构建的样本生成模型进行训练,以期样本生成模型训练完成后可以生成更多的手写日期样本。样本生成模型属于生成对抗网络模型,需预先构建才能开展训练。所谓预先构建可以是预先设置模型参数,并为模型加载符合场景所需的特定功能。在本应用场景中,样本生成模型的构建包括:基础模型选择、向量设置、模型核心参数设置、模型断点保存及checkpoint功能载入、Attention机制载入等。待样本生成模型构建好后,即可对样本生成模型展开训练,同时手写日期初始样本会随样本生成模型的训练过程不断生成。
将获取的手写日期真实样本输入至预先构建的样本生成模型进行训练之后,就可以将手写日期初始样本输入至预先构建的样本判别模型中进行判别,直至得到满足识别需求的手写日期中间样本。在这个过程中,首先需对样本判别模型进行构建,即对其设置模型参数。样本判别模型的作用在于去甄别样本生成模型所生成出的手写日期初始样本是否为手写日期真实样本。如果判别模型很容易就判别出手写日期初始样本并非手写日期真实样本,则表明样本生成模型还很不成熟;反之,如果样本判别模型很难判别出手写日期初始样本是否为手写日期真实样本,则表明样本生成模型已经相对成熟。
判别过程也是判别手写日期初始样本是否满足识别需求的过程,当满足识别需求后,手写日期初始样本即可作为手写日期中间样本。手写日期中间样本应尽可能做到字符样式丰富。
S102:对满足识别需求的手写日期中间样本进行筛选及标注,得到手写日期样本。
可以理解的是,参见图4及图5,在获得了手写日期中间样本后,可以从中筛选出合理的、人工能正确标注的样本,这些样本可以是清晰的,也可以是略带模糊的,目的在于丰富样本种类。在这一步骤中,需剔除明显不合理或人工无法正确识别及标注的样本,最终得到手写日期样本,构成手写日期识别模型的数据训练集。其中,图4为合理样本的示例,图5为不合理样本的示例。
从上述描述可知,本申请提供的手写日期样本生成方法,利用预先构建的样本生成模型及样本判别模型,能够在仅提供少量手写日期真实样本的情况下,生成满足识别需求的手写日期样本,为日后训练手写日期样本识别模型奠定基础,使其能够在实际应用场景中识别手写日期样本。
参见图6,预先构建样本生成模型的步骤包括:
S201:将样本生成模型的向量输入预先获取的WGAN网络模型;
可以理解的是,基于GAN网络的生成对抗网络模型包括:CGAN、DCGAN、CoGAN、CycleGAN、GigGAN、WGAN等。经综合考虑,WGAN比较合适作为本申请实施例中手写日期样本生成场景的基础生成模型。
设向量Z为:
向量Z被输入样本生成模型后被映射为高维图像数据,其中,向量Z中的每个元素均可能对应生成的手写日期样本的某个特征。举例而言,x1可能对应手写竖线的倾斜程度,当x1为0时,手写竖线垂直,当x1大于0时,则手写竖线向右倾斜,当x1小于0时,则手写竖线向左倾斜,数值绝对值越大倾斜程度越明显。一般情况下,向量Z中的元素个数越多,则对应生成样本的特征就越多,生成样本的样式也就越丰富。考虑到样本复杂性的差异,本申请实施例将生成年份样本的向量Z中的元素个数设置为128,将生成月/日样本的向量Z中的元素个数设置为64。
此外,还需对网络中其他的核心参数进行设置。参见表1,这些核心参数包括但不限于:
表1
S202:为WGAN网络模型载入断点保存及checkpoint功能;
可以理解的是,在训练样本生成模型的过程中,如果突然遭遇系统宕机等突发事件,可以对模型训练的断点进行保存,并在重启系统后,接续上该断点,继续进行样本生成模型训练,而无需将训练过程从头开始。另外,实际应用中,可以通过设定每间隔多少训练轮数对样本生成模型进行一次保存,即通过设置参数“iteration_model”,实现每间隔一定训练轮数对样本生成模型进行一次保存的操作。通过这种操作,可以在后续进行增量训练时,根据实际需要,任意选取此前保存的样本生成模型作为增量训练的初始模型,进行增量训练。本申请一实施例中,利用Tensorflow框架为WGAN网络模型载入断点保存及checkpoint功能。需要说明的是,可以利用包括pytorch在内的任何框架载入断点保存及checkpoint功能。
S203:为WGAN网络模型载入Attention机制。
可以理解的是,在本申请实施例中,调用程序提供了对样本生成模型及对样本判别模型分别引入Attention机制的功能。调用函数GeneratorAndDiscriminator()将同时返回AttentionGenerator和AttentionDiscriminator,二者分别为引入Attention机制的样本生成模型及引入Attention机制的样本判别模型。在AttentionGenerator和AttentionDiscriminator中,可将神经网络中任意某层的输出送入Attention(),以完成模型特征的权重分配。考虑到手写日期样式的复杂性及时序性,需借助空间注意力引导机制,在图像处理特别是手写日期识别的应用场景中,将注意力集中在重要的特征点上。举例而言,一般手写横线或竖线的大小及长短的特征对识别模型训练影响较小,因此对应的权重会被缩减。从而把更高的权重给到更加重要的特征上,如横线或竖线的倾斜程度。因此,对样本生成模型引入Attention机制,可以让样本生成模型将注意力重点集中在关键而重要的信息上,如手写字符轮廓及书写风格上。
另外,在引入Attention机制时,会考虑其引入的最佳网络层位置。在本实施例的手写日期样本生成场景中,可以将样本判别模型的第一层输出送入Attention()完成对判别模型权重的重分配。Attention机制的引入可以保证生成样本的合理性,尽可能让年份以“词袋”形式生成定制化的样本,如“2021”,减少生成如“0120”的无效年份及生成非数字字符的风险。
从上述描述可知,本申请提供手写日期样本生成方法,通过设置向量,载入断点保存功能、checkpoint功能及Attention机制,促进了样本生成模型的学习能力,并增强了样本生成模型生成样本的丰富性。
一实施例中,预先构建的样本判别模型包括:N-1层卷积层及1层全连接层,一共N层。
可以理解的是,考虑到本申请所述的实施例中样本的生成场景为手写日期,字符种类有限,且图像背景较为干净,图像尺寸也较小,因此,本方案中的判别模型由浅层神经网络搭建,具体地讲,由N(N小于10)层神经网络构成,即N-1层卷积层及1层靠近输出的全连接层Affine。其中,在1-(N-3)层的卷积层中,每层包括Convolution层、ReLU层及Pooling层。(N-1)-(N-2)层的卷积层中,每层为Convolution-BatchNormalization-ReLU层。全连接层为Affine-Sotfmax层。其中,该神经网络的滤波器大小为5x5,Pooling层采用最大池化算法搭建实现。
从上述描述可知,本申请提供手写日期样本生成方法,可以通过设置神经网络参数,构建起一个判别模型,用于对样本生成模型所生成的手写日期初始样本进行判别。
一实施例中,手写日期样本生成方法还包括:
根据训练间隔轮数对预先构建的样本生成模型进行断点保存。
可以理解的是,本申请所述的实施例选择主流深度学习框架tensorflow(缩写为tf)提供模型断点保存及载入功能。借助控制语句tf.Session(),可以控制实现对ckpt模型文件的保存及加载。通常,可以利用检测语句with tf.Session()as session创建训练循环体函数。在训练循环体函数中,语句tf.train.get_checkpoint_state()会获取最新生成的ckpt模型文件,并通过执行语句session.run(),将发生断点时样本生成模型,载入ckpt模型文件,用于后续训练。当样本生成模型的训练轮数满足参数interation_model的设定值时,可以通过执行语句session.run()去执行保存语句tf.train.Saver(),以实现对ckpt模型文件的断点保存。在进行了对样本生成模型的断点保存后,可以利用checkpoint模型实现对发生断点时的样本生成模型进行重新载入,以在此基础上继续进行训练。训练间隔轮数可以视不同场景的实际情况而改变。
从上述描述可知,本申请提供手写日期样本生成方法,可以通过引入断点保存及载入功能,实现在暂停样本生成模型后,以此前最接近暂停时刻的样本生成模型作为后续样本生成模型训练的基础,继续进行样本生成模型训练。
一实施例中,所述的手写日期样本生成方法还包括:
将手写日期样本作为增量训练样本,将已满足识别需求的手写日期样本对应的样本生成模型作为初始模型进行增量训练,得到改进后的手写日期样本。
可以理解的是,经过一段时间的训练,样本生成模型已经训练得初具成果,可以生成一些手写日期样本了。但当出现新的业务场景需求时,比如需对次年的手写年份进行识别时,如果仅利用现有的样本生成模型,则无法很好地对新的业务场景进行匹配。因此,还需进行增量训练,以期得到改进后的手写日期样本,以便供给手写日期识别模型进行后续识别训练。改进后的手写日期样本包含了此例中的手写次年年份的手写日期样本。
参见图7及图8,在进行增量训练前,需对之前生成好的手写日期样本进行筛选,可以从中筛选出合理的、人工能正确标注的样本,这些样本可以是清晰的,也可以是略带模糊的。这些样本从样式上、质量上都可以具有较大差异。将这些样本作为增量训练的真实样本,可以进一步扩充样本集的丰富性。此外,在进行增量训练前,还可以再次提供少量的手写日期真实样本。将这两部分样本输入刚刚训练好的样本生成模型作为初始模型,则可进行增量训练,得到改进后的手写日期样本。
在得到改进后的手写日期样本后,可以针对其进行标注,即将年份数字与月日数字分开,并将数字与汉字分开,从而获得手写日期识别模型的数据集。
从上述描述可知,本申请提供手写日期样本生成方法,可以通过增量训练,获得调整应用场景需求后的手写日期样本。
一实施例中,可将手写日期真实样本的年份与月/日分开。原因在于,年份数字较长,月日数字较短,其识别的难度不同,侧重点也不同。对应的向量的维度也不相同。
参见图9,所述将训练得到手写日期初始样本输入至预先构建的判别模型中进行判别,直至得到满足识别需求的手写日期中间样本,包括:
S401:利用预先构建的判别模型计算所述生成模型的损失函数;
S402:根据所述损失函数判断所述手写日期中间样本是否满足识别需求。
可以理解的是,损失函数可视为衡量样本生成模型效果的指标。举例而言,当本申请实施例中的样本生成模型训练至1000轮时,样本判别模型对样本生成模型所生成的手写日期样本进行判别,判别其为手写日期真实样本的概率,并将其设为pt。本申请实施例中,在进行判别时所使用的损失函数为交叉熵误差损失函数(Cross Entropy Error),其公式为:E=-log(pt)。其中,E为损失函数,pt为样本判别模型判别手写日期样本为手写日期真实样本的概率。比如,样本生成模型训练至某轮时,样本判别模型判别手写日期样本为非手写日期真实样本的概率为0.9,则pt此时为0.1,说明样本判别模型很容易就能分辨出手写日期样本并非手写日期真实样本,间接说明样本生成模型还很不成熟。此后,如果样本生成模型继续经过不断训练,使得样本判别模型很难分辨手写日期样本是否为手写日期真实样本,即pt维持在0.5左右,具体来说是0.45~0.55之间时,则表明样本生成模型基本达到了令人满意的程度。
在达到令人满意的程度之前,需根据每次求得的损失函数值E对样本生成模型进行迭代更新,使其逐渐逼近令人满意的程度,具体方法可以参见相关现有技术。
另外,在这个过程中,样本判别模型也会利用损失函数值E对样本判别模型进行迭代更新,使其逐渐逼近令人满意的程度,具体方法可以参见相关现有技术。其迭代更新的轮数可以与样本生成模型迭代更新的轮数不同,具体可以参见表1中的参数设置。
从上述描述可知,本申请提供手写日期样本生成方法,可以通过样本判别模型,利用损失函数,对样本生成模型进行迭代更新,再通过样本判别模型判断手写日期中间样本是否满足识别需求。
参见图10,为了能够在仅提供少量手写日期真实样本的情况下,生成满足识别需求的手写日期样本,本申请提供一种手写日期样本生成装置包括:
样本生成单元1001,用于将获取的手写日期真实样本输入至预先构建的样本生成模型进行训练,并将训练得到的手写日期初始样本输入至预先构建的样本判别模型中进行判别,直至得到满足识别需求的手写日期中间样本;
筛选标注单元1002,对满足识别需求的手写日期中间样本进行筛选及标注,得到手写日期样本。
处理器(Processor)、存储器(Memory)、通信接口(Communications Interface)和总线;其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;所述通信接口用于实现所述手写日期样本生成装置与核心业务系统、用户终端以及相关数据库等相关设备之间的信息传输;该逻辑控制器可以是台式计算机、平板电脑及移动终端等,本实施例不限于此。在本实施例中,该逻辑控制器可以参照实施例中的手写日期样本生成方法的实施例,以及手写日期样本生成装置的实施例进行实施,其内容被合并于此,重复之处不再赘述。
可以理解的是,所述用户终端可以包括智能手机、平板电子设备、网络机顶盒、便携式计算机、台式电脑、个人数字助理(PDA)、车载设备、智能穿戴设备等。其中,所述智能穿戴设备可以包括智能眼镜、智能手表、智能手环等。
在实际应用中,手写日期样本生成方法的部分可以在如上述内容所述的电子设备侧执行,也可以所有的操作都在所述客户端设备中完成。具体可以根据所述客户端设备的处理能力,以及用户使用场景的限制等进行选择。本申请对此不作限定。若所有的操作都在所述客户端设备中完成,所述客户端设备还可以包括处理器。
上述的客户端设备可以具有通信模块(即通信单元),可以与远程的服务器进行通信连接,实现与所述服务器的数据传输。所述服务器可以包括任务调度中心一侧的服务器,其他的实施场景中也可以包括中间平台的服务器,例如与任务调度中心服务器有通信链接的第三方服务器平台的服务器。所述的服务器可以包括单台计算机设备,也可以包括多个服务器组成的服务器集群,或者分布式装置的服务器结构。
图11为本申请实施例的电子设备9600的系统构成的示意框图。如图11所示,该电子设备9600可以包括中央处理器9100和存储器9140;存储器9140耦合到中央处理器9100。值得注意的是,该图11是示例性的;还可以使用其他类型的结构,来补充或代替该结构,以实现电信功能或其他功能。
一实施例中,手写日期样本生成方法功能可以被集成到中央处理器9100中。其中,中央处理器9100可以被配置为进行如下控制:
S101:将获取的手写日期真实样本输入至预先构建的样本生成模型进行训练,并将训练得到的手写日期初始样本输入至预先构建的样本判别模型中进行判别,直至得到满足识别需求的手写日期中间样本。
S102:对满足识别需求的手写日期中间样本进行筛选及标注,得到手写日期样本。
从上述描述可知,本申请提供手写日期样本生成方法,利用预先构建的样本生成模型及判别模型,能够在仅提供少量手写日期真实样本的情况下,生成满足识别需求的手写日期样本,为日后训练手写日期样本识别模型奠定基础,使其能够在实际应用场景中识别手写日期样本。
在另一个实施方式中,手写日期样本生成装置可以与中央处理器9100分开配置,例如可以将手写日期样本生成装置配置为与中央处理器9100连接的芯片,通过中央处理器的控制来实现手写日期样本生成方法功能。
如图11所示,该电子设备9600还可以包括:通信模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是,电子设备9600也并不是必须要包括图11中所示的所有部件;此外,电子设备9600还可以包括图11中没有示出的部件,可以参考现有技术。
如图11所示,中央处理器9100有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。
其中,存储器9140,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序,以实现信息存储或处理等。
输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器,但并不限于此。
该存储器9140可以是固态存储器,例如,只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为EPROM等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142,该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。
存储器9140还可以包括数据存储部9143,该数据存储部9143用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。
通信模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通信模块(发送机/接收机)9110耦合到中央处理器9100,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。
基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块9110,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132,以经由扬声器9131提供音频输出,并接收来自麦克风9132的音频输入,从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器9130还耦合到中央处理器9100,从而使得可以通过麦克风9132能够在本机上录音,且使得可以通过扬声器9131来播放本机上存储的声音。
本申请的实施例还提供能够实现上述实施例中的执行主体为服务器或客户端的手写日期样本生成方法中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的执行主体为服务器或客户端的手写日期样本生成方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
S101:将获取的手写日期真实样本输入至预先构建的样本生成模型进行训练,并将训练得到的手写日期初始样本输入至预先构建的样本判别模型中进行判别,直至得到满足识别需求的手写日期中间样本。
S102:对满足识别需求的手写日期中间样本进行筛选及标注,得到手写日期样本。
从上述描述可知,本申请提供手写日期样本生成方法,利用预先构建的样本生成模型及判别模型,能够在仅提供少量手写日期真实样本的情况下,生成满足识别需求的手写日期样本,为日后训练手写日期样本识别模型奠定基础,使其能够在实际应用场景中识别手写日期样本。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (7)
1.一种手写日期样本生成方法,其特征在于,包括:
将获取的手写日期真实样本输入至预先构建的样本生成模型进行训练,并将训练得到的手写日期初始样本输入至预先构建的样本判别模型中进行判别,直至得到满足识别需求的手写日期中间样本;
对满足识别需求的手写日期中间样本进行筛选及标注,得到手写日期样本;
其中,预先构建所述样本生成模型的步骤包括:
将所述样本生成模型的向量输入预先获取的WGAN网络模型;
为所述WGAN网络模型载入断点保存及checkpoint功能;
为所述WGAN网络模型载入Attention机制;
其中,在所述样本判别模型的第一层引入所述Attention机制;
其中,所述将训练得到手写日期初始样本输入至预先构建的样本判别模型中进行判别,直至得到满足识别需求的手写日期中间样本,包括:利用预先构建的所述样本判别模型计算所述样本生成模型的损失函数;根据所述损失函数判断所述手写日期中间样本是否满足识别需求。
2.根据权利要求1所述的手写日期样本生成方法,其特征在于,还包括:
根据训练间隔轮数对预先构建的所述样本生成模型进行断点保存。
3.根据权利要求1所述的手写日期样本生成方法,其特征在于,还包括:
将所述手写日期样本作为增量训练样本,将已满足识别需求的所述手写日期样本对应的所述样本生成模型作为初始模型进行增量训练,得到改进后的手写日期样本。
4.根据权利要求1所述的手写日期样本生成方法,其特征在于,所述手写日期真实样本的年份与月/日分开。
5.一种手写日期样本生成装置,其特征在于,包括:
样本生成单元,用于将获取的手写日期真实样本输入至预先构建的样本生成模型进行训练,并将训练得到的手写日期初始样本输入至预先构建的样本判别模型中进行判别,直至得到满足识别需求的手写日期中间样本;
筛选标注单元,对满足识别需求的手写日期中间样本进行筛选及标注,得到手写日期样本;
其中,预先构建所述样本生成模型的步骤包括:
将所述样本生成模型的向量输入预先获取的WGAN网络模型;
为所述WGAN网络模型载入断点保存及checkpoint功能;
为所述WGAN网络模型载入Attention机制;
其中,在所述样本判别模型的第一层引入所述Attention机制;
其中,所述将训练得到手写日期初始样本输入至预先构建的样本判别模型中进行判别,直至得到满足识别需求的手写日期中间样本,包括:利用预先构建的所述样本判别模型计算所述样本生成模型的损失函数;根据所述损失函数判断所述手写日期中间样本是否满足识别需求。
6.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至4任一项所述的手写日期样本生成方法的步骤。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至4任一项所述的手写日期样本生成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010851946.4A CN111898373B (zh) | 2020-08-21 | 2020-08-21 | 手写日期样本生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010851946.4A CN111898373B (zh) | 2020-08-21 | 2020-08-21 | 手写日期样本生成方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111898373A CN111898373A (zh) | 2020-11-06 |
CN111898373B true CN111898373B (zh) | 2023-09-26 |
Family
ID=73230616
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010851946.4A Active CN111898373B (zh) | 2020-08-21 | 2020-08-21 | 手写日期样本生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111898373B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107392973A (zh) * | 2017-06-06 | 2017-11-24 | 中国科学院自动化研究所 | 像素级手写体汉字自动生成方法、存储设备、处理装置 |
CN108470196A (zh) * | 2018-02-01 | 2018-08-31 | 华南理工大学 | 一种基于深度卷积对抗网络模型生成手写数字的方法 |
CN110598806A (zh) * | 2019-07-29 | 2019-12-20 | 合肥工业大学 | 一种基于参数优化生成对抗网络的手写数字生成方法 |
CN110969681A (zh) * | 2019-11-29 | 2020-04-07 | 山东浪潮人工智能研究院有限公司 | 一种基于gan网络的手写体书法文字生成方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107578017B (zh) * | 2017-09-08 | 2020-11-17 | 百度在线网络技术(北京)有限公司 | 用于生成图像的方法和装置 |
-
2020
- 2020-08-21 CN CN202010851946.4A patent/CN111898373B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107392973A (zh) * | 2017-06-06 | 2017-11-24 | 中国科学院自动化研究所 | 像素级手写体汉字自动生成方法、存储设备、处理装置 |
CN108470196A (zh) * | 2018-02-01 | 2018-08-31 | 华南理工大学 | 一种基于深度卷积对抗网络模型生成手写数字的方法 |
CN110598806A (zh) * | 2019-07-29 | 2019-12-20 | 合肥工业大学 | 一种基于参数优化生成对抗网络的手写数字生成方法 |
CN110969681A (zh) * | 2019-11-29 | 2020-04-07 | 山东浪潮人工智能研究院有限公司 | 一种基于gan网络的手写体书法文字生成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111898373A (zh) | 2020-11-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110956956A (zh) | 基于策略规则的语音识别方法及装置 | |
CN106233228A (zh) | 处理内容的方法及使用该方法的电子设备 | |
CN111798244B (zh) | 交易欺诈行为监测方法及装置 | |
CN109871843A (zh) | 字符识别方法和装置、用于字符识别的装置 | |
CN111429374B (zh) | 图像中摩尔纹的消除方法及装置 | |
CN102938807A (zh) | 一种推荐联系人和消息的方法及装置 | |
CN112950640A (zh) | 视频人像分割方法、装置、电子设备及存储介质 | |
CN115269997A (zh) | 一种金融产品推荐方法及装置 | |
CN112766825A (zh) | 企业金融服务风险预测方法及装置 | |
CN113342948A (zh) | 一种智能问答方法及装置 | |
CN111048115A (zh) | 语音识别方法及装置 | |
CN111679811A (zh) | Web服务构建方法及装置 | |
CN111931852B (zh) | 目标物的定价方法及装置 | |
CN106201010A (zh) | 词库添加方法和装置 | |
CN112579773A (zh) | 风险事件分级方法及装置 | |
CN111898373B (zh) | 手写日期样本生成方法及装置 | |
CN115798458A (zh) | 分类语种识别方法及装置 | |
CN110489724A (zh) | 手写字体的合成方法、移动终端及存储介质 | |
CN112820298B (zh) | 声纹识别方法及装置 | |
CN114662452A (zh) | 去隐私化的文本标签分析方法及装置 | |
CN111913627A (zh) | 录音文件显示方法、装置及电子设备 | |
CN110931014A (zh) | 基于正则匹配规则的语音识别方法及装置 | |
CN117668673B (zh) | 转轴组件的尺寸分档方法及相关设备 | |
CN118247059A (zh) | 一种基于点击率的理财产品推荐方法及装置 | |
CN115564481A (zh) | 一种客户评论信息分析方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |