CN110781965A - 模拟样本生成方法、装置、计算机设备和存储介质 - Google Patents
模拟样本生成方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN110781965A CN110781965A CN201911029473.3A CN201911029473A CN110781965A CN 110781965 A CN110781965 A CN 110781965A CN 201911029473 A CN201911029473 A CN 201911029473A CN 110781965 A CN110781965 A CN 110781965A
- Authority
- CN
- China
- Prior art keywords
- sample
- simulation
- preset
- initial
- simulated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004088 simulation Methods 0.000 title claims abstract description 248
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000004590 computer program Methods 0.000 claims description 25
- 238000001514 detection method Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 abstract description 15
- 238000010586 diagram Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请涉及一种模拟样本生成方法、装置、计算机设备和存储介质。包括:获取待模拟样本集;对于待模拟样本集中的每一待模拟样本,将待模拟样本输入预设的模拟样本生成模型,检测待模拟样本的文本类别;根据文本类别,得到目标样本和初始模拟样本;其中,目标样本为待模拟样本的模拟目标,初始模拟样本为以目标样本为模拟目标得到的模拟样本;将初始模拟样本输入预设判别器,得到判别结果;根据判别结果,得到模拟样本。从而可以避免人工标注训练样本费时又费力的现象,还能将得到的大量符合用户要求的模拟样本作为训练数样本对相关模型进行训练,提高模型的输出性能。
Description
技术领域
本申请涉及多媒体处理技术领域,特别涉及一种模拟样本生成方法、装置、计算机设备和存储介质。
背景技术
随着互联网大数据的发展,为加快各项业务的办理流程,对各种证件或凭证进行电子识别和电子化处理得到了越来越广泛的应用。传统技术中,通常采用人工对各种证件或凭证中的标签进行标注,然后利用人工标注的样本对相应的模型进行训练,以获得相应证件或凭证的信息。
然而,采用人工进行标注得到训练样本的方法既耗时又费力,往往还会导致采用相应训练样本训练出来的模型在已有类别的样本上测试性能较好,而在未知类别的样本上测试性能明显降低。
发明内容
基于此,有必要针对上述技术问题,提供一种模拟样本生成方法、装置、计算机设备和存储介质。
一种模拟样本生成方法,所述方法包括:
获取待模拟样本集;
对于所述待模拟样本集中的每一待模拟样本,将所述待模拟样本输入预设的模拟样本生成模型,检测所述待模拟样本的文本类别;
根据所述文本类别,得到目标样本和初始模拟样本;其中,所述目标样本为所述待模拟样本的模拟目标,所述初始模拟样本为以所述目标样本为模拟目标得到的模拟样本;
将所述初始模拟样本输入预设判别器,得到判别结果;
根据所述判别结果,得到模拟样本。
在其中一个实施例中,所述根据所述文本类别,得到目标样本和初始模拟样本,包括:
根据所述文本类别,从预设的样本列表中获取所述目标样本;
根据所述待模拟样本和所述目标样本,输出所述初始模拟样本。
在其中一个实施例中,所述根据所述文本类别,从预设的样本列表中获取所述目标样本,包括:
根据所述文本类别,从所述目标样本列表中获取与所述文本类别对应的目标样本。
在其中一个实施例中,所述将所述初始模拟样本输入预设判别器,得到判别结果,包括:
将所述初始模拟样本输入所述预设判别器,判别所述初始模拟样本是否为真样本,并得到所述判别结果。
在其中一个实施例中,所述根据所述判别结果,得到模拟样本,包括:
若所述判别结果在预设邻域内,则将与所述判别结果对应的初始模拟样本确定为所述模拟样本;
若所述判别结果不在所述预设邻域内,则将所述判别结果输入所述预设的模拟样本生成模型,并根据所述判别结果返回执行所述根据所述文本类别,得到目标样本和初始模拟样本的步骤,直到所述判别结果在所述预设邻域内,则将与所述判别结果对应的初始模拟样本确定为所述模拟样本。
在其中一个实施例中,所述将所述目标样本和所述初始模拟样本输入预设判别器,得到判别结果之前,包括:
根据所述目标样本、所述初始模拟样本和预设初始判别器,得到所述预设判别器。
在其中一个实施例中,所述根据所述目标样本、所述初始模拟样本和预设初始判别器,得到所述预设判别器,包括:
将所述目标样本和所述初始模拟样本输入预设初始判别器,得到初始判别结果;
根据所述初始判别结果与预设数值,得到判别差值;
若所述判别差值大于预设阈值,则将所述判别差值输入预设的模拟样本生成模型,并返回所述将所述待模拟样本输入预设的模拟样本生成模型,检测所述待模拟样本的文本类别的步骤,直到所述判别差值小于或等于所述预设阈值,则将与所述判别差值对应的初始判别器确定为所述预设判别器。
一种模拟样本生成装置,所述装置包括:
样本获取模块,用于获取待模拟样本集;
样本检测模块,用于对于所述待模拟样本集中的每一待模拟样本,将所述待模拟样本输入预设的模拟样本生成模型,检测所述待模拟样本的文本类别;
样本输出模块,用于根据所述文本类别,得到目标样本和初始模拟样本;其中,所述目标样本为所述待模拟样本的模拟目标,所述始模拟样本集为以所述目标样本为模拟目标得到的模拟样本;
判别模块,用于将所述目标样本和所述初始模拟样本输入预设判别器,得到判别结果;
模拟样本生成模块,用于根据所述判别结果,得到模拟样本。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述方法的步骤。
上述模拟样本生成方法、装置、计算机设备和存储介质,通过预设的模拟样本生成模型,根据待模拟样本的文本类别,得到目标样本和初始模拟样本,并将目标样本和初始模拟样本输入预设判别器得到判别结果,最终根据判别结果确定出符合要求的模拟样本,可以避免人工标注训练样本费时又费力的现象,还能将得到的大量符合要求的模拟样本作为训练数样本对相关模型进行训练,提高模型的输出性能。
附图说明
图1为一个实施例中模拟样本生成方法的流程示意图;
图2为一个实施例中步骤S300的一种可实施方式的流程示意图;
图3为一个实施例中步骤S500的一种可实施方式的流程示意图;
图4为一个实施例中一种预设判别器获取方法的流程示意图;
图5为一个实施例中模拟样本生成装置的结构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
可以理解本申请中所使用的术语“第一”、“第二”等可在本文中用于描述各种条件关系,但这些条件关系不受这些术语限制。这些术语仅用于将一个条件关系与另一个条件关系区分开来。
在一个实施例中,如图1所示,提供了一种模拟样本生成方法,包括以下步骤:
步骤S100,获取待模拟样本集。
其中,待模拟样本集是由待模拟样本构成的集合。待模拟样本是指需要进行模拟而得到相应模拟结果的样本。示例地,在驾驶证、身份证或其他证件上面,一般有持有人的姓名性别等身份信息等,需要分别对其中的文本样本进行模拟,在进行模拟样本生成前需要获取待模拟样本以做准备。例如,待模拟的文本(具体是证件中包含的“姓名”中的“姓”和“名”二字,则分别输入“姓”和“名”两个字作为待模拟样本。
可选地,此处以驾驶证等证件为例进行收说明,具体应用中并不限于各种证件,还可以是各种定制的凭证等。
步骤S200,对于待模拟样本集中的每一待模拟样本,将待模拟样本输入预设的模拟样本生成模型,检测待模拟样本的文本类别。
其中,待模拟样本的文本类别是指需要模拟的文本所属的类别,其中,每一字符分属一个类别,示例地,“姓”字所属的类别可以看作一个类别,“名”字所属的类别可以看作另一个类别,也可以分别对不同的类别进行编号以区分不同文本得不同类别,例如,当模拟样本为“姓”,则确定为第一类别,当模拟样本为“名”,则确定为第二类别,将不同的文本分为不同的类别,以作区分。预设的模拟样本生成模型为能够识别和检测待模拟样本中包含的属性信息和文本类别的模型。
可选地,待模拟样本的文本类别还包括待模拟样本的属性信息,待模拟样本的属性信息是指要模拟的是何种证件或凭证,例如,需要模拟的是驾驶证、身份证还是护照等其他证件或凭证
具体地,将待模拟样本输入预设的模拟样本生成模型,对待模拟样本的文本类别进行检测得到待模拟样本的文本类别,一个待模拟样本对应一个文本类别。例如,待模拟样本为驾驶证中的“姓”,则其属性信息为驾驶证,文本类别为“姓”。
步骤S300,根据文本类别,得到目标样本和初始模拟样本;其中,目标样本为待模拟样本的模拟目标,初始模拟样本为以目标样本为模拟目标得到的模拟样本。
其中,目标样本作为模拟样本的模拟目标,一般是从已有的真实样本中获得的。例如,待模拟样本为驾驶证,文本类别为“姓”,则目标样本即为已有驾驶证中包含“姓”的样本图像信息。初始模拟样本是指以目标样本对模拟目标,根据文本类别得到的初步的模拟样本。
具体地,在将待模拟样本输入预设的模拟样本生成模型,得到待模拟样本的文本类别后,预设的模拟样本生成模型进一步根据待模拟样本的文本类别获取目标样本,并按目标样本进行学习,得到初始模拟样本。
步骤S400,将初始模拟样本输入预设判别器,得到判别结果。
其中,预设判别器可以对输入样本是否为真样本进行判别,并输出判别结果。真样本是指从真实的证件或者凭证中提取出来的图像信息。其中,目标样本是真样本,初始模拟样本为根据目标样本学习得到的模拟的假样本。
具体地,预设判别器可以对输入的初始模拟样本是否为真样本进行判别,并输出判别结果。
步骤S500,根据判别结果,得到模拟样本。
本申请中涉及到的模拟样本也可以理解为样本生成,具体样本生成技术是指通过一定的技术手段从已有样本中发现其分布规律,并产生符合其分布的新样本的技术。
具体地,若判别结果在预设邻域内,则将与判别结果对应的初始模拟样本确定为模拟样本;若判别结果不在预设邻域内,则退出,或者将判别结果返回预设的模拟样本生成模型,重新选择目标样本,并按照目标样本进行学习,直到判别结果在预设邻域内,则将与判别结果对应的初始模拟样本确定为模拟样本。
上述模拟样本生成方法,通过预设的模拟样本生成模型,根据待模拟样本的文本类别,得到目标样本和初始模拟样本,并将初始模拟样本输入预设判别器得到判别结果,最终根据判别结果确定出符合要求的模拟样本,可以避免人工标注训练样本费时又费力的现象,还能将得到的大量符合要求的模拟样本作为训练数样本对相关模型进行训练,提高模型的输出性能。
在其中一个实施例中,如图2所示,为步骤S300的一种可实施方式的流程示意图,步骤S300,根据文本类别,得到目标样本和初始模拟样本,包括:
步骤S310,根据文本类别,从预设的样本列表中获取目标样本。
可选地,根据文本类别,从目标样本列表中获取与文本类别对应的目标样本。
其中,目标样本列表中为待模拟样本要模拟的文本类别,例如“姓”、“名”、“男”、“女”等文本类别。其中,每一字符分属一个类别,每一目标样本列表中包含从同一证件类别不同证件(例如,驾驶证列表、身份证列表、护照列表等)中获得的多个目标样本,例如,从N个不同的驾驶证中获取“姓”、“名”、“男”、“女”等目标样本,至少可以得到N个“姓”、“名”、“男”、“女”等目标样本。
具体地,根据待模拟样本的文本类别,从目标样本列表中获取与文本类别对应的目标样本作为目标样本集,例如,要模拟的文本类别为“姓”,则从“姓”、“名”、“男”、“女”等列表(每一类别的目标样本列表中包括多个目标样本)中选择“姓”作为目标样本。
步骤S320,根据待模拟样本和目标样本,输出初始模拟样本。
可选地,以目标样本为模拟目标,对待模拟样本进行模拟,得到初始模拟样本。
具体地,预设的模拟样本生成模型按照目标样本进行学习,得到初始模拟样本,其中,目标样本与初始模拟样本一一对应。例如,要模拟的是驾驶证中的“姓”,则以目标样本中不同的“姓”为目标进行学习,得到对应的模拟样本,该模拟样本即为初始模拟样本。
具体地,每得到一个初始模拟样本便需要以目标样本为模拟对象进行一次学习,则得到一组对应的目标样本和初始模拟样本。在得到初始模拟样本集的过程中,一般需要的目标样本和初始模拟样本的数目非常大,例如十万,此处不做具体限定,以保证充分提取目标样本中的特征,得到与目标样本相似度较高的初始模拟样本为准。
上述实施例中,根据文本类别,从预设的样本列表中获取目标样本,并根据待模拟样本和目标样本,输出初始模拟样本,可以避免人工标注训练样本费时又费力的现象。
在其中一个实施例中,为步骤S400的一种可实施方式,步骤S400,将初始模拟样本输入预设判别器,得到判别结果,包括:
将初始模拟样本输入预设判别器,判别初始模拟样本是否为真样本,并得到判别结果。
具体地,将初始模拟样本输入预设的判别器,预设判别器对输入的样本进行判别,并输入判别结果。
上述实施例中,通过初始模拟样本是否为真样本进行判别,得到判别结果,为后续根据判别结果得到模拟效果良好的模拟样本提供基础。
在其中一个实施例中,如图3所示,为步骤S500的一种可实施方式的流程示意图,步骤S500,根据判别结果,得到模拟样本,包括:
步骤S510,若判别结果在预设邻域内,则将与判别结果对应的初始模拟样本确定为模拟样本。
具体地,理论上判别结果应该为0.5,考虑到一定的容错裕度,若判别结果在以0.5为中心的邻域内时,则认为得到的初始模拟样本与目标样本的相似度很高,可以将初始模拟样本作为训练数样本对相关模型进行训练,此时,将对应的初始模拟样本确定为模拟样本。
步骤S520,若判别结果不在预设邻域内,则将判别结果输入预设的模拟样本生成模型,并根据判别结果返回执行根据文本类别,得到目标样本和初始模拟样本的步骤,直到判别结果在预设邻域内,则将与判别结果对应的初始模拟样本确定为模拟样本。
具体地,若判别结果不在以0.5位中心的邻域内时,则认为得到的初始模拟样本与目标样本集中的目标样本的相似度很低,无法将初始模拟样本用作为训练数样本对相关模型进行训练,此时,将判别结果反馈给预设的模拟样本生成模型,并根据判别结果返回执行根据文本类别,得到目标样本和初始模拟样本的步骤,直到判别结果在预设邻域内,则将与判别结果对应的初始模拟样本确定为模拟样本。
上述实施例中,若判别结果在预设邻域内,则将与判别结果对应的初始模拟样本确定为模拟样本;若判别结果不在预设邻域内,则将判别结果输入预设的模拟样本生成模型,并根据判别结果返回执行根据文本类别,得到目标样本和初始模拟样本的步骤,直到判别结果在预设邻域内,则将与判别结果对应的初始模拟样本确定为模拟样本。可以避免人工标注训练样本费时又费力的现象,还能将得到的大量符合用户要求的模拟样本作为训练数样本对相关模型进行训练,提高模型的输出性能。
在其中一个实施例中,如图4所示,提供了一种预设判别器获取方法,包括以下步骤:
根据目标样本、初始模拟样本和预设初始判别器,得到预设判别器,并具体包括:
步骤S410',将目标样本和初始模拟样本输入预设初始判别器,得到初始判别结果。
步骤S420',根据初始判别结果与第一预设数值,得到判别差异。
步骤S430',若判别差异不在第二预设数值邻域内,则将判别差异返回预设的模拟样本生成模型,对预设的模拟样本生成模型的权重参数进行更新,得到更新后的判别差异,直到更新后的判别差异在第二预设数值邻域内,则将判别差异在第二预设数值邻域内对应的预设初始判别器确定为预设判别器。
具体地,将真实样本输入预设初始判别器,得到真实样本为真的概率是1;将假样本输入预设初始判别器,得到假样本为真的概率是0。基于这一思想,对预设初始判别器进行训练,可以得到最终的预设判别器。示例地,将目标样本输入预设初始判别器,得到的初始判别结果中的概率应该是1,但是若预设初始判别器中的参数还不够优化,初始判别结果可能会是随机的输出一个不是1的数值,而将初始模拟样本输入预设初始判别器,得到的初始判别结果中的概率应该是0,但是若预设初始判别器中的参数还不够优化,初始判别结果可能会是随机的输出一个不是0的数值,综合目标样本和初始模拟样本输入预设初始判别器得到的结果理论上应该是0.5.
具体地,比较初始判别结果与第一预设数值(当输入为目标样本时,第一预设数值为1;当输入为初始模拟样本时,第一预设数值为0),得到一个判别差异。例如,当输入为目标样本时,得到的初始判别结果为0.6,则0.6与1之间的差异为0.4。
在得到判别差异后,将该差异返回预设的模拟样本生成模型,并对预设的模拟样本生成模型的权重参数进行更新,得到更新后的判别差异,直到更新后的判别差异在第二预设数值(0.5)邻域内,则将判别差异在第二预设数值邻域内对应的预设初始判别器确定为预设判别器。
上述实施例中,通过将目标样本和初始模拟样本输入预设初始判别器,得到初始判别结果,根据初始判别结果与第一预设数值,得到判别差异,若判别差异不在第二预设数值邻域内,则将判别差异返回预设的模拟样本生成模型,对预设的模拟样本生成模型的权重参数进行更新,得到更新后的判别差异,直到更新后的判别差异在第二预设数值邻域内,则将判别差异在第二预设数值邻域内对应的预设初始判别器确定为预设判别器。可以实现应用模型自动对权重参数进行更新,避免人工标注训练样本费时又费力的现象,还为后续根据本实施例中得到的预设判别器得到的大量符合用户要求的模拟样本作为训练数样本对相关模型进行训练,提高模型的输出性能。
在一个具体的实施例中,以SRResNet(Super-Resolution GenerativeAdversarial Network,超分辨率生成对抗网络)模型作为预设的模拟样本生成模型,DCGAN(Deep Convolution Generative Adversarial Networks,深度卷积生成对抗网络)判别器作为预设的判别器为例进行说明。
输入SRResNet模型的模拟样本经过一层卷积和激活函数PReLU层得到特征图x0,接着进入16个残差块,残差块的结构为Conv–BN–PreLU–Conv–BN–Elementive_sum。其中,Elementive_sum操作是对残差块的输入特征图和第二个BN层输出的特征图进行对应像素累加。特征图x0经过16个残差块后得到特征图x1,接着x1经过一层卷积和一个BN层得到特征图x2,然后对特征图x0和x2进行Elementive_sum操作得到特征图x3,x3再经过一层卷积得到一个初始模拟样本。
其中,为判别器DCGAN的网络包括MP最大池化层,FC全连接层。输入的待判别样本(目标样本集中的目标样本和初始模拟样本集中的初始模拟样本)经过卷积和池化操作后进入全连接层,最后通过一个激活函数sigmoid层得到图片是否为真样本,其中,判别器中卷积层后的激活函数选择ReLU。
由SRResNet模型和DCGAN判别器组成的对抗学习的过程可用函数式L(G,D)=logD(y)+log(1-D(G(x))表示。SRResNet作为DCGAN的生成器G,对于生成器G来说,它的优化方向是朝着生成最逼近真实的图像,也就是使得D(G(x))的得分更高,这时候log(1-D(G(x)))的值更小,所以整个函数式L(G,D)的值是更小。对于判别器DCGAN而言,它的优化方向是朝着准确区分真实图像(目标样本)和人工生成图像(初始模拟样本),也就是让D(y)的得分更高,而让D(G(x))得分更低,从而增大了logD(y)和log(1-D(G(x)))的值,所以整个函数式L(G,D)的值是更大。对抗学习中生成器G尝试最小化损失函数L(G,D),而判别器D尝试最大化损失函数L(G,D)。
在一个实施例中,如图5所示,提供了一种模拟样本生成装置,包括:样本获取模块501、样本检测模块502、样本输出模块503、判别模块504和模拟样本生成模块505,其中:
样本获取模块501,用于获取待模拟样本集;
样本检测模块502,用于对于待模拟样本集中的每一待模拟样本,将待模拟样本输入预设的模拟样本生成模型,检测待模拟样本的文本类别;
样本输出模块503,用于根据文本类别,得到目标样本和初始模拟样本;其中,目标样本为待模拟样本的模拟目标,初始模拟样本为以目标样本为模拟目标得到的模拟样本;
判别模块504,用于将初始模拟样本输入预设判别器,得到判别结果;
模拟样本生成模块505,用于根据判别结果,得到模拟样本。
在其中一个实施例中,样本输出模块503还用于根据文本类别,从预设的样本列表中获取目标样本;根据待模拟样本和目标样本,输出初始模拟样本。
在其中一个实施例中,样本输出模块503还用于根据文本类别,从目标样本列表中获取与文本类别对应的目标样本。
在其中一个实施例中,判别模块504还用于将初始模拟样本输入预设判别器,判别初始模拟样本是否为真样本,并得到判别结果。
在其中一个实施例中,模拟样本生成模块505还用于执行若判别结果在预设邻域内,则将与判别结果对应的初始模拟样本确定为模拟样本;若判别结果不在预设邻域内,则将判别结果输入预设的模拟样本生成模型,并根据判别结果返回执行根据文本类别,得到目标样本和初始模拟样本的步骤,直到判别结果在预设邻域内,则将与判别结果对应的初始模拟样本确定为模拟样本。
在其中一个实施例中,模拟样本生成装置还包括判别器确定模块,用于根据目标样本、初始模拟样本和预设初始判别器,得到预设判别器。
在其中一个实施例中,判别器确定模块还用于将目标样本和初始模拟样本输入预设初始判别器,得到初始判别结果;根据初始判别结果与预设数值,得到判别差值;若判别差值大于预设阈值,则将判别差值输入预设的模拟样本生成模型,并返回将待模拟样本输入预设的模拟样本生成模型,检测待模拟样本的文本类别的步骤,直到判别差值小于或等于预设阈值,则将与判别差值对应的初始判别器确定为预设判别器。
关于模拟样本生成装置的具体限定可以参见上文中对于模拟样本生成方法的限定,在此不再赘述。上述模拟样本生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种模拟样本生成方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取待模拟样本集;
对于待模拟样本集中的每一待模拟样本,将待模拟样本输入预设的模拟样本生成模型,检测待模拟样本的文本类别;
根据文本类别,得到目标样本和初始模拟样本;其中,目标样本为待模拟样本的模拟目标,初始模拟样本为以目标样本为模拟目标得到的模拟样本;
将初始模拟样本输入预设判别器,得到判别结果;
根据判别结果,得到模拟样本。
在其中一个实施例中,处理器执行计算机程序时还实现以下步骤:根据文本类别,从预设的样本列表中获取目标样本;根据待模拟样本和目标样本,输出初始模拟样本。
在其中一个实施例中,处理器执行计算机程序时还实现以下步骤:根据文本类别,从目标样本列表中获取与文本类别对应的目标样本。
在其中一个实施例中,处理器执行计算机程序时还实现以下步骤:将初始模拟样本输入预设判别器,判别初始模拟样本是否为真样本,并得到判别结果。
在其中一个实施例中,处理器执行计算机程序时还实现以下步骤:若判别结果在预设邻域内,则将与判别结果对应的初始模拟样本确定为模拟样本;若判别结果不在预设邻域内,则将判别结果输入预设的模拟样本生成模型,并根据判别结果返回执行根据文本类别,得到目标样本和初始模拟样本的步骤,直到判别结果在预设邻域内,则将与判别结果对应的初始模拟样本确定为模拟样本。
在其中一个实施例中,处理器执行计算机程序时还实现以下步骤:根据目标样本、初始模拟样本和预设初始判别器,得到预设判别器。
在其中一个实施例中,处理器执行计算机程序时还实现以下步骤:将目标样本和初始模拟样本输入预设初始判别器,得到初始判别结果;根据初始判别结果与预设数值,得到判别差值;若判别差值大于预设阈值,则将判别差值输入预设的模拟样本生成模型,并返回将待模拟样本输入预设的模拟样本生成模型,检测待模拟样本的文本类别的步骤,直到判别差值小于或等于预设阈值,则将与判别差值对应的初始判别器确定为预设判别器。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取待模拟样本集;
对于待模拟样本集中的每一待模拟样本,将待模拟样本输入预设的模拟样本生成模型,检测待模拟样本的文本类别;
根据文本类别,得到目标样本和初始模拟样本;其中,目标样本为待模拟样本的模拟目标,初始模拟样本为以目标样本为模拟目标得到的模拟样本;
将初始模拟样本输入预设判别器,得到判别结果;
根据判别结果,得到模拟样本。
在其中一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据文本类别,从预设的样本列表中获取目标样本;根据待模拟样本和目标样本,输出初始模拟样本。
在其中一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据文本类别,从目标样本列表中获取与文本类别对应的目标样本。
在其中一个实施例中,计算机程序被处理器执行时还实现以下步骤:将初始模拟样本输入预设判别器,判别初始模拟样本是否为真样本,并得到判别结果。
在其中一个实施例中,计算机程序被处理器执行时还实现以下步骤:若判别结果在预设邻域内,则将与判别结果对应的初始模拟样本确定为模拟样本;若判别结果不在预设邻域内,则将判别结果输入预设的模拟样本生成模型,并根据判别结果返回执行根据文本类别,得到目标样本和初始模拟样本的步骤,直到判别结果在预设邻域内,则将与判别结果对应的初始模拟样本确定为模拟样本。
在其中一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据目标样本、初始模拟样本和预设初始判别器,得到预设判别器。
在其中一个实施例中,计算机程序被处理器执行时还实现以下步骤:将目标样本和初始模拟样本输入预设初始判别器,得到初始判别结果;根据初始判别结果与预设数值,得到判别差值;若判别差值大于预设阈值,则将判别差值输入预设的模拟样本生成模型,并返回将待模拟样本输入预设的模拟样本生成模型,检测待模拟样本的文本类别的步骤,直到判别差值小于或等于预设阈值,则将与判别差值对应的初始判别器确定为预设判别器。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种模拟样本生成方法,其特征在于,所述方法包括:
获取待模拟样本集;
对于所述待模拟样本集中的每一待模拟样本,将所述待模拟样本输入预设的模拟样本生成模型,检测所述待模拟样本的文本类别;
根据所述文本类别,得到目标样本和初始模拟样本;其中,所述目标样本为所述待模拟样本的模拟目标,所述初始模拟样本为以所述目标样本为模拟目标得到的模拟样本;
将所述初始模拟样本输入预设判别器,得到判别结果;
根据所述判别结果,得到模拟样本。
2.根据权利要求1所述的方法,其特征在于,所述根据所述文本类别,得到目标样本和初始模拟样本,包括:
根据所述文本类别,从预设的样本列表中获取所述目标样本;
根据所述待模拟样本和所述目标样本,输出所述初始模拟样本。
3.根据权利要求2所述的方法,其特征在于,所述根据所述文本类别,从预设的样本列表中获取所述目标样本,包括:
根据所述文本类别,从所述目标样本列表中获取与所述文本类别对应的目标样本。
4.根据权利要求1所述的方法,其特征在于,所述将所述初始模拟样本输入预设判别器,得到判别结果,包括:
将所述初始模拟样本输入所述预设判别器,判别所述初始模拟样本是否为真样本,并得到所述判别结果。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述根据所述判别结果,得到模拟样本,包括:
若所述判别结果在预设邻域内,则将与所述判别结果对应的初始模拟样本确定为所述模拟样本;
若所述判别结果不在所述预设邻域内,则将所述判别结果输入所述预设的模拟样本生成模型,并根据所述判别结果返回执行所述根据所述文本类别,得到目标样本和初始模拟样本的步骤,直到所述判别结果在所述预设邻域内,则将与所述判别结果对应的初始模拟样本确定为所述模拟样本。
6.根据权利要求1所述的方法,其特征在于,所述将所述目标样本和所述初始模拟样本输入预设判别器,得到判别结果之前,包括:
根据所述目标样本、所述初始模拟样本和预设初始判别器,得到所述预设判别器。
7.根据权利要求1所述的方法,其特征在于,所述根据所述目标样本、所述初始模拟样本和预设初始判别器,得到所述预设判别器,包括:
将所述目标样本和所述初始模拟样本输入预设初始判别器,得到初始判别结果;
根据所述初始判别结果与第一预设数值,得到判别差异;
若所述判别差异不在所述第二预设数值邻域内,则将所述判别差异返回所述预设的模拟样本生成模型,对所述预设的模拟样本生成模型的权重参数进行更新,得到更新后的判别差异,直到更新后的判别差异在所述第二预设数值邻域内,则将所述判别差异在所述第二预设数值邻域内对应的预设初始判别器确定为所述预设判别器。
8.一种模拟样本生成装置,其特征在于,所述装置包括:
样本获取模块,用于获取待模拟样本集;
样本检测模块,用于对于所述待模拟样本集中的每一待模拟样本,将所述待模拟样本输入预设的模拟样本生成模型,检测所述待模拟样本的文本类别;
样本输出模块,用于根据所述文本类别,得到目标样本和初始模拟样本;其中,所述目标样本为所述待模拟样本的模拟目标,所述始模拟样本集为以所述目标样本为模拟目标得到的模拟样本;
判别模块,用于将所述目标样本和所述初始模拟样本输入预设判别器,得到判别结果;
模拟样本生成模块,用于根据所述判别结果,得到模拟样本。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911029473.3A CN110781965A (zh) | 2019-10-28 | 2019-10-28 | 模拟样本生成方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911029473.3A CN110781965A (zh) | 2019-10-28 | 2019-10-28 | 模拟样本生成方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110781965A true CN110781965A (zh) | 2020-02-11 |
Family
ID=69386892
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911029473.3A Pending CN110781965A (zh) | 2019-10-28 | 2019-10-28 | 模拟样本生成方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110781965A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107273978A (zh) * | 2017-05-25 | 2017-10-20 | 清华大学 | 一种三模型博弈的产生式对抗网络模型的建立方法及装置 |
US20180336439A1 (en) * | 2017-05-18 | 2018-11-22 | Intel Corporation | Novelty detection using discriminator of generative adversarial network |
CN108961358A (zh) * | 2017-05-22 | 2018-12-07 | 阿里巴巴集团控股有限公司 | 一种获得样本图片的方法、装置及电子设备 |
CN109697694A (zh) * | 2018-12-07 | 2019-04-30 | 山东科技大学 | 基于多头注意力机制的高分辨率的图片的生成方法 |
CN110097085A (zh) * | 2019-04-03 | 2019-08-06 | 阿里巴巴集团控股有限公司 | 歌词文本生成方法、训练方法、装置、服务器及存储介质 |
-
2019
- 2019-10-28 CN CN201911029473.3A patent/CN110781965A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180336439A1 (en) * | 2017-05-18 | 2018-11-22 | Intel Corporation | Novelty detection using discriminator of generative adversarial network |
CN108961358A (zh) * | 2017-05-22 | 2018-12-07 | 阿里巴巴集团控股有限公司 | 一种获得样本图片的方法、装置及电子设备 |
CN107273978A (zh) * | 2017-05-25 | 2017-10-20 | 清华大学 | 一种三模型博弈的产生式对抗网络模型的建立方法及装置 |
CN109697694A (zh) * | 2018-12-07 | 2019-04-30 | 山东科技大学 | 基于多头注意力机制的高分辨率的图片的生成方法 |
CN110097085A (zh) * | 2019-04-03 | 2019-08-06 | 阿里巴巴集团控股有限公司 | 歌词文本生成方法、训练方法、装置、服务器及存储介质 |
Non-Patent Citations (1)
Title |
---|
杨云等: "类别信息生成式对抗网络的单图超分辨重建", 《中国图象图形学报》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109710590B (zh) | 一种错题本生成方法及装置 | |
CN112183296B (zh) | 模拟票据图像生成、票据图像识别方法和装置 | |
CN107886082B (zh) | 图像中数学公式检测方法、装置、计算机设备及存储介质 | |
CN109740040B (zh) | 验证码识别方法、装置、存储介质和计算机设备 | |
CN110569356A (zh) | 基于智能面试交互系统的面试方法、装置和计算机设备 | |
WO2022126917A1 (zh) | 基于深度学习的人脸图像评估方法、装置、设备及介质 | |
CN112949297A (zh) | 意图识别方法、装置、计算机设备和计算机可读存储介质 | |
CN112183307A (zh) | 文本识别方法、计算机设备和存储介质 | |
CN111832581A (zh) | 肺部特征识别方法、装置、计算机设备及存储介质 | |
CN111475628B (zh) | 会话数据处理方法、装置、计算机设备和存储介质 | |
CN112988997A (zh) | 智能客服的应答方法、系统、计算机设备及存储介质 | |
CN113704623A (zh) | 一种数据推荐方法、装置、设备及存储介质 | |
CN113705749A (zh) | 基于深度学习的二维码识别方法、装置、设备及存储介质 | |
CN114140670B (zh) | 基于外源特征进行模型所有权验证的方法和装置 | |
CN116956906A (zh) | 文本生成方法、装置及电子设备 | |
CN115018783A (zh) | 一种视频水印检测方法和装置、电子设备和存储介质 | |
CN113627576A (zh) | 扫码信息检测方法、装置、设备及存储介质 | |
CN113673528A (zh) | 文本处理方法、装置、电子设备和可读存储介质 | |
CN107220981A (zh) | 字符分割方法、装置、设备及存储介质 | |
CN109657710B (zh) | 数据筛选方法、装置、服务器及存储介质 | |
CN111368709A (zh) | 图片文本的识别方法、装置、设备及可读存储介质 | |
CN116225956A (zh) | 自动化测试方法、装置、计算机设备和存储介质 | |
CN110781965A (zh) | 模拟样本生成方法、装置、计算机设备和存储介质 | |
EP4184398A1 (en) | Identifying, or checking integrity of, a machine-learning classification model | |
CN117859122A (zh) | 包括用于自动化文档处理的技术的ai增强的审计平台 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200211 |
|
RJ01 | Rejection of invention patent application after publication |