CN111222517A - 测试样本生成方法、系统、计算机设备及存储介质 - Google Patents

测试样本生成方法、系统、计算机设备及存储介质 Download PDF

Info

Publication number
CN111222517A
CN111222517A CN202010045394.8A CN202010045394A CN111222517A CN 111222517 A CN111222517 A CN 111222517A CN 202010045394 A CN202010045394 A CN 202010045394A CN 111222517 A CN111222517 A CN 111222517A
Authority
CN
China
Prior art keywords
target
certificate
base map
picture
test sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010045394.8A
Other languages
English (en)
Inventor
何玉聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
OneConnect Smart Technology Co Ltd
OneConnect Financial Technology Co Ltd Shanghai
Original Assignee
OneConnect Financial Technology Co Ltd Shanghai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by OneConnect Financial Technology Co Ltd Shanghai filed Critical OneConnect Financial Technology Co Ltd Shanghai
Priority to CN202010045394.8A priority Critical patent/CN111222517A/zh
Publication of CN111222517A publication Critical patent/CN111222517A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Editing Of Facsimile Originals (AREA)

Abstract

本发明实施例提供了一种测试样本生成方法,所述方法包括:为目标证件类别配置至少一个目标证件底图,目标证件底图为未携带特征数据的证件图片;获取所述目标证件类别关联的多个目标特征;根据多个目标特征从数据库中获取多个目标特征数据集,每个目标特征数据集中包括多个目标特征对应的多个目标特征数据;根据目标证件底图和多个目标特征数据集生成多个测试样本,其中,每个测试样本包括所述目标证件底图和被加载在所述目标证件底图上的所述多个目标特征数据集中的其中一个目标特征数据集对应的多个目标特征数据。本发明实施例提供的测试样本生成方法,可以通过少量数据,自动生成大批量多个场景的符合格式要求且不涉及隐私的证件图片。

Description

测试样本生成方法、系统、计算机设备及存储介质
技术领域
本发明实施例涉及计算机数据处理领域,尤其涉及一种测试样本生成方法、系统、计算机设备及计算机可读存储介质。
背景技术
随着计算机技术的发展,将纸上内容以电子数据形式存储到本地端或云端,有效提高了工作效率。将纸上内容转化为电子数据,当下做法是:由人工将纸上内容手动输入到计算机设备中。例如,公司将新进员工的纸质毕业证上的名片内容(姓名、学校、专业、学位等)手动输入到员工档案录中。然而,这种做法的缺陷是显而易见,费时费力、容易出错,并且重复性高。
为解决上述问题提出了基于光学文字识别(OCR,Optical CharacterRecognition)技术的光学识别工具,该光学识别工具在于识别手写字符或扫描字符,对以纸质文字转化为数字化的电子信息。可预见的,光学识别工具在进行文字识别过程中可能会遇到各式各样的识别场景,为了确保该光学识别工具能够适应于该各式各样的识别场景,需要在投入使用前对该光学文字识别工具进行识别测试。本发明人目前所解决的技术中,本领域技术人员通常会收集大量的纸质材料,将该大量纸质材料转化为图片格式文件集,然后将图片格式文件集用于测试该光学识别工具的测试样本。
上述测试样本获取效率低,也难于将各式各样的测试样本收集齐全;另外,在测试样本收集过程中也可能会泄露隐私内容。
发明内容
有鉴于此,本发明实施例的目的是提供一种测试样本生成方法、系统、计算机设备及计算机可读存储介质,可以解决测试样本获取效率低、测试样本收集不齐全以及泄露隐私内容的问题。
为实现上述目的,本发明实施例提供了一种测试样本生成方法,包括以下步骤:
为目标证件类别配置至少一个目标证件底图,所述目标证件底图为未携带特征数据的证件图片;
获取所述目标证件类别关联的多个目标特征;
根据所述多个目标特征从数据库中获取多个目标特征数据集,每个目标特征数据集中包括所述多个目标特征对应的多个目标特征数据;及
根据所述目标证件底图和所述多个目标特征数据集生成多个测试样本,其中,每个测试样本包括所述目标证件底图和被加载在所述目标证件底图上的所述多个目标特征数据集中的其中一个目标特征数据集对应的多个目标特征数据。
优选地,为目标证件类别配置至少一个目标证件底图的步骤,包括:
为预先设置的多个证件类别分别配置对应的至少一个证件底图,所述多个证件类别包括所述目标证件类别;
其中,每个证件类别对应的证件为具有若干个统一版面格式的标准件。
优选地,获取所述目标证件类别关联的多个目标特征的步骤,包括:
通过图像采集装置采集目标证件类别的证件图片;
为所述证件图片的每个像素点生成坐标信息,其中,所述证件图片中的每个像素点的坐标信息与目标证件底图中相应像素点的坐标信息具有一一对应关系;
识别所述证件图片上的一组或多组文字信息,并记录每组文字信息的文字特征,所述文字特征包括在所述证件图片中的坐标信息、字体和字号;
为每组文字信息定义一目标特征,得到多个目标特征;
在每个目标特征、文字特征和目标特征字段之间建立映射关系,所述映射关系用于指示在目标证件底图中的相应坐标处填充相应目标特征字段的相应数据。
优选地,还包括:
接收用户输入的针对所述目标证件底图的坐标指示信息;及
根据所述坐标指示信息,通过预先配置的水印加载类确定各个目标特征在所述目标证件底图上的被加载位置。
优选地,根据所述目标证件底图和所述多个目标特征数据集生成多个测试样本的步骤,包括:
根据各个目标特征在所述目标证件底图上的被加载位置,通过所述水印加载类将所述各个目标特征数据集中的多个目标特征数据加载到所述目标证件底图上的相应位置处,以生成多个测试样本,其中,每个测试样本包括所述目标证件底图和被加载在所述目标证件底图上的所述多个目标特征数据集中的其中一个目标特征数据集对应的多个目标特征数据。
优选地,根据所述目标证件底图和所述多个目标特征数据集生成多个测试样本的步骤,包括:
将每个目标特征数据集中的每个目标特征数据进行数据封装操作,以得到所述每个目标特征数据集对应的目标特征封装数据集,所述目标特征封装数据集中包括被封装后的多个目标特征数据;及
根据所述目标证件底图和所述多个目标特征封装数据集生成所述多个测试样本。
优选地,根据所述目标证件底图和所述多个目标特征数据集生成多个测试样本的步骤,包括:
根据所述目标证件底图和所述多个目标特征数据集生成所述多个初级测试样本图片;及
从所述多个蒙层图片中选择所述至少一个目标蒙层图片;
将所述至少一个目标蒙层图片以不同透明度分别加载到所述多个初级样本图片中的至少一个初级样本图片上,以得到所述多个测试样本,其中,每个测试样本包括相应的初级样本图片以及被加载在该初级样本图片上的具有相应透明度的目标蒙层图片,其中,每个测试样本包括相应的初级样本图片以及被加载在该初级样本图片上的目标蒙层图片;
其中,所述多个蒙层图片根据多个预设蒙层场景确定,每个预设蒙层场景对应有所述多个蒙层图片中的至少一个蒙层图片。
为实现上述目的,本发明实施例还提供了测试样本生成系统,包括:
配置模块,用于为目标证件类别配置至少一个目标证件底图,所述目标证件底图为未携带特征数据的证件图片;
第一获取模块,用于获取所述目标证件类别关联的多个目标特征;
第二获取模块,用于根据所述多个目标特征从数据库中获取多个目标特征数据集,每个目标特征数据集中包括所述多个目标特征对应的多个目标特征数据;及
生成模块,用于根据所述目标证件底图和所述多个目标特征数据集生成多个测试样本,其中,每个测试样本包括所述目标证件底图和被加载在所述目标证件底图上的所述多个目标特征数据集中的其中一个目标特征数据集对应的多个目标特征数据。
为实现上述目的,本发明实施例还提供了一种计算机设备,所述计算机设备存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被处理器执行时实现如上所述的测试样本生成方法的步骤。
为实现上述目的,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如上所述的测试样本生成方法的步骤。
本发明实施例提供的测试样本生成方法、系统、计算机设备及计算机可读存储介质,根据目标证件底图以及数据库中的数据随机组合而成的多个目标特征数据集,可以自动生成海量的测试样本,即可以通过少量数据,自动生成大批量多个场景的符合格式要求的证件图片,无需耗费人力物力通过各个渠道获取测试样本。由于是计算机设备自动生成的非真实证件,因此也不会涉及到隐私问题。
附图说明
图1为本发明测试样本生成方法实施例一的流程图。
图2为图1中步骤S100的流程图。
图3为图1中步骤S102的流程图。
图4为图1中步骤S106的流程图。
图5为本发明测试样本生成方法实施例二的流程图。
图6为本发明测试样本生成方法实施例三的流程图。
图7为本发明测试样本生成系统实施例四的程序模块示意图。
图8为本发明计算机设备实施例五的硬件结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
以下实施例将以计算机设备2为执行主体进行示例性描述。
实施例一
参阅图1,示出了本发明实施例一之测试样本生成方法的步骤流程图。可以理解,本方法实施例中的流程图不用于对执行步骤的顺序进行限定。具体如下。
步骤S100,为目标证件类别配置至少一个目标证件底图,所述目标证件底图为未携带特征数据的证件图片。
在示例性的实施例中,如图2所示,步骤S100可以用于为多个证件类别配置多个证件底图,具体如下:
步骤S100A,根据用户需求预先设置多个证件类别;
步骤S100B,为预先配置的多个证件类别分别配置对应的至少一个证件底图,所述多个证件类别包括所述目标证件类别;
其中,每个证件类别对应的证件为具有若干个统一版面格式的标准件,示例性的,所述证件可以是身份证、律师证、驾驶证、企业营业执照、学生证、毕业证、银行卡、护照、台胞证、护照以及其它证件。
以身份证为例,姓名、身份证号等位置布局、字体、字号等,基本仅有少量几个版本对应的几个统一版面格式,因此可以作为标准件。
以银行卡为例,银行卡号、银行卡名称等在银行卡中的位置布局、字体、字号等,基本都是几种统一版面格式,因此可以作为标准件。
步骤S102,获取所述目标证件类别关联的多个目标特征。
示例性的,以所述目标证件类别对的目标证件为身份证为例,其关联的多个目标特征有:姓名、性别、民族、出生年月日、住址、公民身份证号(身份证正面);发证机关、发证日期(身份证背面)。
在示例性的实施例中,如图3所示,所述步骤S102可以包括:
步骤S102A,通过图像采集装置采集目标证件类别的证件图片,所述图像采集装置可以是摄像机、扫描仪或者携带图像采集功能的其他设备;
预先提供所述目标证件类别的一张实物证件,通过图像采集装置拍摄或扫描所述实物证件,以得到与所述实物证件对应的证件图片;
步骤S102B,为所述证件图片的每个像素点生成坐标信息,其中,所述证件图片中的每个像素点的坐标信息与目标证件底图中相应像素点的坐标信息具有一一对应关系;
步骤S102C,识别所述证件图片上的一组或多组文字信息,并记录每组文字信息的文字特征,所述文字特征包括在所述证件图片中的坐标信息、字体、字号等;
步骤S102D,为每组文字信息定义一目标特征,得到多个目标特征,所述多个目标特征包括姓名、身份证号等;
步骤S102E,在每个目标特征、文字特征和目标特征字段之间建立映射关系,所述映射关系用于指示在目标证件底图中的相应坐标处填充相应目标特征字段的相应数据。
步骤S104,根据所述多个目标特征从数据库中获取多个目标特征数据集,每个目标特征数据集中包括所述多个目标特征对应的多个目标特征数据。
示例性的,继续以所述目标证件类别对的目标证件为身份证为例,可以根据多个目标特征(姓名、性别、民族、出生年月日、住址、公民身份证号),从数据库中随机提取相应的目标特征数据,例如,从所述数据库随机提取一个名字、随机选择一个性别、随机提取一个民族名称、…、随机提取一个公民身份证号,然后将上述多个目标特征数据组合一个目标特征数据集,并以此类推可以随机得到多个目标特征数据集。不难理解,由于目标特征数据集中的多个目标特征数据都是随机组合而成,属于非真实证件信息,因此不会涉及到泄露隐私内容的问题。
需要说明的是,数据库中的也可以通过预设规则随机批量生成的,例如随机生成一批18位数字组合,作为身份证号码。所述数据库也可以由多个内部或外部子数据库构成。
步骤S106,根据所述目标证件底图和所述多个目标特征数据集生成多个测试样本,每个测试样本包括所述目标证件底图和被加载在所述目标证件底图上的所述多个目标特征数据集中的其中一个目标特征数据集对应的多个目标特征数据。
在示例性的实施例中,如图4所示,所述步骤S106可以进一步包括:
步骤S106A,将每个目标特征数据集中的每个目标特征数据进行数据封装操作,以得到所述每个目标特征数据集对应的目标特征封装数据集。
所述目标特征封装数据集中包括被封装后的多个目标特征数据。
所谓数据封装指的是将各个目标特征数据的字体、颜色、字号等属性进行固化。将各个目标特征数据的字体、颜色、字号等属性设置为不可修改状态。示例性的,继续以所述目标证件类别对的目标证件为身份证为例,通过步骤S104得到由姓名、性别等多个目标特征数据构成的目标特征数据集后,需要对个目标特征数据进行固化,如将姓名对应的字体固化为黑体…。
步骤S106B,根据所述目标证件底图和所述多个目标特征封装数据集生成所述多个测试样本。
示例性的,将各个目标特征数据以固定的文字格式加载到一个身份证底图,以生成相应的测试样本,即,加载有所述各个目标特征数据的非真实的身份证测试样本。
实施例二
参阅图5,示出了本发明实施例二之测试样本生成方法的步骤流程图。可以理解,本方法实施例中的流程图不用于对执行步骤的顺序进行限定。具体如下。
步骤S200,为目标证件类别配置至少一个目标证件底图,所述目标证件底图为未携带特征数据的证件图片。
示例性的,所述目标证件类别对应的目标证件可以是以下之一:身份证、律师证、驾驶证、企业营业执照、学生证、毕业证、银行卡、护照、台胞证、护照以及其它证件。
步骤S202,接收用户输入的针对所述目标证件底图的坐标指示信息。
示例性的,所述坐标指示信息可以是在所述目标证件底图上的相对位置信息。
步骤S204,根据所述坐标指示信息,通过预先配置的水印加载类确定各个目标特征在所述目标证件底图上的被加载位置。
水印加载(AddWaterMark)类,是编译后的字节码文件,通常包括指令、参数等。以Java类为例:在Java业务系统中,Java编译器为水印加载业务生成一个Java类文件,这种文件采用Java虚拟机(JVM)定义的Java类文件格式保存,并由Java虚拟机加载并解释执行。可以理解,本实施例中的水印加载类在于自定义一个水印加载组件,以实现水印加载功能。所述水印加载功能包括:将字符加载到指定图片中的指定位置处。
步骤S206,获取所述目标证件类别关联的多个目标特征。
示例性的,以所述目标证件类别对的目标证件为身份证为例,其关联的多个目标特征有:姓名、性别、民族、出生年月日、住址、公民身份证号(身份证正面);发证机关、发证日期(身份证背面)。
步骤S208,根据所述多个目标特征从数据库中获取多个目标特征数据集,每个目标特征数据集中包括所述多个目标特征对应的多个目标特征数据。
示例性的,继续以所述目标证件类别对的目标证件为身份证为例,可以根据多个目标特征(姓名、性别、民族、出生年月日、住址、公民身份证号),从数据库中随机提取相应的目标特征数据,例如,从所述数据库随机提取一个名字、随机选择一个性别、随机提取一个民族名称、…、随机提取一个公民身份证号,然后将上述多个目标特征数据组合一个目标特征数据集,并以此类推可以随机得到多个目标特征数据集。不难理解,由于目标特征数据集中的多个目标特征数据都是随机组合而成,属于非真实证件信息,因此不会涉及到泄露隐私内容的问题。
需要说明的是,数据库中的也可以通过预设规则随机批量生成的,例如随机生成一批18位数字组合,作为身份证号码。所述数据库也可以由多个内部或外部子数据库构成。
步骤S210,根据各个目标特征在所述目标证件底图上的被加载位置,通过所述水印加载类将所述各个目标特征数据集中的多个目标特征数据加载到所述目标证件底图上的相应位置处,以生成多个测试样本。
其中,每个测试样本包括所述目标证件底图和被加载在所述目标证件底图上的所述多个目标特征数据集中的其中一个目标特征数据集对应的多个目标特征数据。
实施例三
本实施例用于在自动生成的初级样本图片上加载各类蒙层图片,以最终得到各式各样的测试样本,有效提升了测试样本的多样性。
参阅图6,示出了本发明实施例三之测试样本生成方法的步骤流程图。可以理解,本方法实施例中的流程图不用于对执行步骤的顺序进行限定。具体如下。
步骤S300,为目标证件类别配置至少一个目标证件底图,所述目标证件底图为未携带特征数据的证件图片。
示例性的,所述目标证件类别对应的目标证件可以是以下之一:身份证、律师证、驾驶证、企业营业执照、学生证、毕业证、银行卡、护照、台胞证、护照以及其它证件。
步骤S302,获取所述目标证件类别关联的多个目标特征。
示例性的,以所述目标证件类别对的目标证件为身份证为例,其关联的多个目标特征有:姓名、性别、民族、出生年月日、住址、公民身份证号(身份证正面);发证机关、发证日期(身份证背面)。
步骤S304,根据所述多个目标特征从数据库中获取多个目标特征数据集,每个目标特征数据集中包括所述多个目标特征对应的多个目标特征数据。
示例性的,继续以所述目标证件类别对的目标证件为身份证为例,可以根据多个目标特征(姓名、性别、民族、出生年月日、住址、公民身份证号),从数据库中随机提取相应的目标特征数据,例如,从所述数据库随机提取一个名字、随机选择一个性别、随机提取一个民族名称、…、随机提取一个公民身份证号,然后将上述多个目标特征数据组合一个目标特征数据集,并以此类推可以随机得到多个目标特征数据集。不难理解,由于目标特征数据集中的多个目标特征数据都是随机组合而成,属于非真实证件信息,因此不会涉及到泄露隐私内容的问题。
步骤S306,根据所述目标证件底图和所述多个目标特征数据集生成所述多个初级测试样本图片。
其中,每个初级测试样本图片包括所述目标证件底图和被加载在所述目标证件底图上的所述多个目标特征数据集中的其中一个目标特征数据集对应的多个目标特征数据。
步骤S308,将预先配置的多个蒙层图片中的至少一个目标蒙层图片分别加载到所述多个初级样本图片中的至少一个初级样本图片上,以得到所述多个测试样本,其中,每个测试样本包括相应的初级样本图片以及被加载在该初级样本图片上的目标蒙层图片。
示例性的,可以图片结合类将目标蒙层图片加载到相应的初级样本图上。所述图片结合类,在于自定义一个图片结合组件,以实现图片结合功能。所述图片结合功能包括:将一个图片加载到另一个图片中的指定位置处。
所述多个蒙层图片根据多个预设蒙层场景确定,每个预设蒙层场景对应有所述多个蒙层图片中的至少一个蒙层图片。
所述多个预设蒙层场景可以是模糊、倾斜、噪点、摩尔纹等场景,每个预设蒙层场景可以对应有多个蒙层图片。
示例性的,以所述目标证件类别对的目标证件为身份证为例,可以得到:李四的正常身份证、李四的模糊身份证、李四的带噪点学生证、王五的带摩尔纹学生证、…。
在示例性的实施例中,步骤S308可以进一步包括:
步骤S308A,从所述多个蒙层图片中选择所述至少一个目标蒙层图片。
示例性的,可以根据用户指令选择一个或多个蒙层图片作为目标蒙层图片,可以由计算机设备2随机选择一个或多个蒙层图片作为目标蒙层图片,也基于其他规则选择一个或多个蒙层图片作为目标蒙层图片。
步骤S308B,将所述至少一个目标蒙层图片以不同透明度分别加载到所述多个初级样本图片中的至少一个初级样本图片上,以得到所述多个测试样本。
每个测试样本包括相应的初级样本图片以及被加载在该初级样本图片上的具有相应透明度的目标蒙层图片。
示例性的,将带有水渍的目标蒙层图片的透明度设置为10%、20%、…90%,将上述不同透明度的目标蒙层图片分别加载同一初级样本图片上或多个初级样本图片上。
实施例四
请继续参阅图7,示出了本发明测试样本生成系统实施例四的程序模块示意图。在本实施例中,测试样本生成系统20可以包括或被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本发明,并可实现上述测试样本生成方法。本发明实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序本身更适合于描述测试样本生成系统20在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能:
配置模块200,用于为目标证件类别配置至少一个目标证件底图,所述目标证件底图为未携带特征数据的证件图片。
第一获取模块202,用于获取所述目标证件类别关联的多个目标特征。
第二获取模块204,用于根据所述多个目标特征从数据库中获取多个目标特征数据集,每个目标特征数据集中包括所述多个目标特征对应的多个目标特征数据。
生成模块206,用于根据所述目标证件底图和所述多个目标特征数据集生成多个测试样本,其中,每个测试样本包括所述目标证件底图和被加载在所述目标证件底图上的所述多个目标特征数据集中的其中一个目标特征数据集对应的多个目标特征数据。
可选的,所述配置模块200,还用于:为预先设置的多个证件类别分别配置对应的至少一个证件底图,所述多个证件类别包括所述目标证件类别;其中,每个证件类别对应的证件为具有若干个统一版面格式的标准件。
可选的,所述第一获取模块202,还用于:通过图像采集装置采集目标证件类别的证件图片;为所述证件图片的每个像素点生成坐标信息,其中,所述证件图片中的每个像素点的坐标信息与目标证件底图中相应像素点的坐标信息具有一一对应关系;识别所述证件图片上的一组或多组文字信息,并记录每组文字信息的文字特征,所述文字特征包括在所述证件图片中的坐标信息、字体和字号;为每组文字信息定义一目标特征,得到多个目标特征;在每个目标特征、文字特征和目标特征字段之间建立映射关系,所述映射关系用于指示在目标证件底图中的相应坐标处填充相应目标特征字段的相应数据
可选的,还包括位置确定模块(未图示),用于:接收用户输入的针对所述目标证件底图的坐标指示信息;及根据所述坐标指示信息,通过预先配置的水印加载类确定各个目标特征在所述目标证件底图上的被加载位置。
可选的,所述生成模块206,用于:根据各个目标特征在所述目标证件底图上的被加载位置,通过所述水印加载类将所述各个目标特征数据集中的多个目标特征数据加载到所述目标证件底图上的相应位置处,以生成多个测试样本,其中,每个测试样本包括所述目标证件底图和被加载在所述目标证件底图上的所述多个目标特征数据集中的其中一个目标特征数据集对应的多个目标特征数据。
可选的,所述生成模块206,用于:将每个目标特征数据集中的每个目标特征数据进行数据封装操作,以得到所述每个目标特征数据集对应的目标特征封装数据集,所述目标特征封装数据集中包括被封装后的多个目标特征数据;及根据所述目标证件底图和所述多个目标特征封装数据集生成所述多个测试样本。
可选的,所述生成模块206,用于:根据所述目标证件底图和所述多个目标特征数据集生成所述多个初级测试样本图片;从所述多个蒙层图片中选择所述至少一个目标蒙层图片;将所述至少一个目标蒙层图片以不同透明度分别加载到所述多个初级样本图片中的至少一个初级样本图片上,以得到所述多个测试样本,其中,每个测试样本包括相应的初级样本图片以及被加载在该初级样本图片上的具有相应透明度的目标蒙层图片,其中,每个测试样本包括相应的初级样本图片以及被加载在该初级样本图片上的目标蒙层图片;其中,所述多个蒙层图片根据多个预设蒙层场景确定,每个预设蒙层场景对应有所述多个蒙层图片中的至少一个蒙层图片。
实施例五
参阅图8,是本发明实施例五之计算机设备的硬件架构示意图。本实施例中,所述计算机设备2是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。该计算机设备2可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图所示,所述计算机设备2至少包括,但不限于,可通过系统总线相互通信连接存储器21、处理器22、网络接口23、以及测试样本生成系统20。其中:
本实施例中,存储器21至少包括一种类型的计算机可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器21可以是计算机设备2的内部存储单元,例如该计算机设备2的硬盘或内存。在另一些实施例中,存储器21也可以是计算机设备2的外部存储设备,例如该计算机设备20上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器21还可以既包括计算机设备2的内部存储单元也包括其外部存储设备。本实施例中,存储器21通常用于存储安装于计算机设备2的操作系统和各类应用软件,例如实施例四的测试样本生成系统20的程序代码等。此外,存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器22在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备2的总体操作。本实施例中,处理器22用于运行存储器21中存储的程序代码或者处理数据,例如运行测试样本生成系统20,以实现实施例一、二或三的测试样本生成方法。
所述网络接口23可包括无线网络接口或有线网络接口,该网络接口23通常用于在所述计算机设备2与其他电子装置之间建立通信连接。例如,所述网络接口23用于通过网络将所述计算机设备2与外部终端相连,在所述计算机设备2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication,GSM)、宽带码分多址(WidebandCode Division Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
需要指出的是,图8仅示出了具有部件20-23的计算机设备2,但是应理解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。
在本实施例中,存储于存储器21中的所述测试样本生成系统20还可以被分割为一个或者多个程序模块,所述一个或者多个程序模块被存储于存储器21中,并由一个或多个处理器(本实施例为处理器22)所执行,以完成本发明。
例如,图7示出了所述实现测试样本生成系统20实施例四的程序模块示意图,该实施例中,所述基于测试样本生成系统20可以被划分为配置模块200、第一获取模块202、第二获取模块204和生成模块206。其中,本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述所述测试样本生成系统20在所述计算机设备2中的执行过程。所述程序模块200-206的具体功能在实施例四中已有详细描述,在此不再赘述。
实施例六
本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储测试样本生成系统20,被处理器执行时实现实施例一、二或三的测试样本生成方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种测试样本生成方法,其特征在于,所述方法包括:
为目标证件类别配置至少一个目标证件底图,所述目标证件底图为未携带特征数据的证件图片;
获取所述目标证件类别关联的多个目标特征;
根据所述多个目标特征从数据库中获取多个目标特征数据集,每个目标特征数据集中包括所述多个目标特征对应的多个目标特征数据;及
根据所述目标证件底图和所述多个目标特征数据集生成多个测试样本,其中,每个测试样本包括所述目标证件底图和被加载在所述目标证件底图上的所述多个目标特征数据集中的其中一个目标特征数据集对应的多个目标特征数据。
2.根据权利要求1所述的测试样本生成方法,其特征在于,为目标证件类别配置至少一个目标证件底图的步骤,包括:
为预先设置的多个证件类别分别配置对应的至少一个证件底图,所述多个证件类别包括所述目标证件类别;
其中,每个证件类别对应的证件为具有若干个统一版面格式的标准件。
3.根据权利要求1所述的测试样本生成方法,其特征在于,获取所述目标证件类别关联的多个目标特征的步骤,包括:
通过图像采集装置采集目标证件类别的证件图片;
为所述证件图片的每个像素点生成坐标信息,其中,所述证件图片中的每个像素点的坐标信息与目标证件底图中相应像素点的坐标信息具有一一对应关系;
识别所述证件图片上的一组或多组文字信息,并记录每组文字信息的文字特征,所述文字特征包括在所述证件图片中的坐标信息、字体和字号;
为每组文字信息定义一目标特征,得到多个目标特征;
在每个目标特征、文字特征和目标特征字段之间建立映射关系,所述映射关系用于指示在目标证件底图中的相应坐标处填充相应目标特征字段的相应数据。
4.根据权利要求1所述的测试样本生成方法,其特征在于,还包括:
接收用户输入的针对所述目标证件底图的坐标指示信息;及
根据所述坐标指示信息,通过预先配置的水印加载类确定各个目标特征在所述目标证件底图上的被加载位置。
5.根据权利要求4所述的测试样本生成方法,其特征在于,根据所述目标证件底图和所述多个目标特征数据集生成多个测试样本的步骤,包括:
根据各个目标特征在所述目标证件底图上的被加载位置,通过所述水印加载类将所述各个目标特征数据集中的多个目标特征数据加载到所述目标证件底图上的相应位置处,以生成多个测试样本,其中,每个测试样本包括所述目标证件底图和被加载在所述目标证件底图上的所述多个目标特征数据集中的其中一个目标特征数据集对应的多个目标特征数据。
6.根据权利要求1所述的测试样本生成方法,其特征在于,根据所述目标证件底图和所述多个目标特征数据集生成多个测试样本的步骤,包括:
将每个目标特征数据集中的每个目标特征数据进行数据封装操作,以得到所述每个目标特征数据集对应的目标特征封装数据集,所述目标特征封装数据集中包括被封装后的多个目标特征数据;及
根据所述目标证件底图和所述多个目标特征封装数据集生成所述多个测试样本。
7.根据权利要求1所述的测试样本生成方法,其特征在于,根据所述目标证件底图和所述多个目标特征数据集生成多个测试样本的步骤,包括:
根据所述目标证件底图和所述多个目标特征数据集生成所述多个初级测试样本图片;
从所述多个蒙层图片中选择所述至少一个目标蒙层图片;
将所述至少一个目标蒙层图片以不同透明度分别加载到所述多个初级样本图片中的至少一个初级样本图片上,以得到所述多个测试样本,其中,每个测试样本包括相应的初级样本图片以及被加载在该初级样本图片上的具有相应透明度的目标蒙层图片,其中,每个测试样本包括相应的初级样本图片以及被加载在该初级样本图片上的目标蒙层图片;
其中,所述多个蒙层图片根据多个预设蒙层场景确定,每个预设蒙层场景对应有所述多个蒙层图片中的至少一个蒙层图片。
8.一种测试样本生成系统,其特征在于,包括:
配置模块,用于为目标证件类别配置至少一个目标证件底图,所述目标证件底图为未携带特征数据的证件图片;
第一获取模块,用于获取所述目标证件类别关联的多个目标特征;
第二获取模块,用于根据所述多个目标特征从数据库中获取多个目标特征数据集,每个目标特征数据集中包括所述多个目标特征对应的多个目标特征数据;及
生成模块,用于根据所述目标证件底图和所述多个目标特征数据集生成多个测试样本,其中,每个测试样本包括所述目标证件底图和被加载在所述目标证件底图上的所述多个目标特征数据集中的其中一个目标特征数据集对应的多个目标特征数据。
9.一种计算机设备,所述计算机设备存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的测试样本生成方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如权利要求1至7中任一项所述的测试样本生成方法的步骤。
CN202010045394.8A 2020-01-16 2020-01-16 测试样本生成方法、系统、计算机设备及存储介质 Pending CN111222517A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010045394.8A CN111222517A (zh) 2020-01-16 2020-01-16 测试样本生成方法、系统、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010045394.8A CN111222517A (zh) 2020-01-16 2020-01-16 测试样本生成方法、系统、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN111222517A true CN111222517A (zh) 2020-06-02

Family

ID=70828249

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010045394.8A Pending CN111222517A (zh) 2020-01-16 2020-01-16 测试样本生成方法、系统、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN111222517A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114463821A (zh) * 2022-02-15 2022-05-10 平安科技(深圳)有限公司 证件数据生成方法、装置、计算机设备及存储介质
WO2022134831A1 (zh) * 2020-12-23 2022-06-30 深圳壹账通智能科技有限公司 证件图片生成方法、装置、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022134831A1 (zh) * 2020-12-23 2022-06-30 深圳壹账通智能科技有限公司 证件图片生成方法、装置、设备及存储介质
CN114463821A (zh) * 2022-02-15 2022-05-10 平安科技(深圳)有限公司 证件数据生成方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN111931784B (zh) 票据识别方法、系统、计算机设备与计算机可读存储介质
US20190034879A1 (en) Systems, methods and apparatus for form building
CN109033058B (zh) 合同文本验证方法、装置、计算机设备和存储介质
CN110675546A (zh) 发票图片识别及验真方法、系统、设备及可读存储介质
CN112712014B (zh) 表格图片结构解析方法、系统、设备和可读存储介质
CN109410073B (zh) 影像文件脱敏方法、装置、计算机设备和存储介质
CN112149390A (zh) 报告生成方法、系统、计算机设备与计算机可读存储介质
CN112036145A (zh) 财务报表的识别方法、装置、计算机设备与可读存储介质
CN112699871B (zh) 字段内容识别方法、系统、设备及计算机可读存储介质
CN111222517A (zh) 测试样本生成方法、系统、计算机设备及存储介质
CN112686015A (zh) 图表生成方法、装置、设备及存储介质
CN113704313A (zh) 基于拓扑检查的地图注记压盖自动识别方法、装置及介质
CN113779656A (zh) 一种盖章的方法、电子档案平台及计算机可读存储介质
CN112668640A (zh) 一种文本图像质量评估方法、装置、设备及介质
CN113239910B (zh) 证件识别方法、装置、设备及存储介质
CN117522094A (zh) 一种印章管理方法、平台、电子设备及存储介质
CN111178365A (zh) 图片文字的识别方法、装置、电子设备及存储介质
CN115146602A (zh) 基于模板的红外热像分析报告的批量生成方法及装置
CN114387429A (zh) 基于rpa及ai的车辆产权证处理方法、装置、设备及介质
CN110119743B (zh) 一种图片识别方法、服务器及计算机可读存储介质
CN113296785A (zh) 文档生成方法、系统、设备及可读存储介质
CN114169306A (zh) 一种生成电子回执单的方法、装置、设备及可读存储介质
CN112529700A (zh) 一种业务办理与审核方法、系统、设备及可读存储介质
CN111541828A (zh) 签章方法、装置、计算机设备和计算机可读存储介质
CN111242115A (zh) 票据采集方法、系统、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination