CN108830201A - 样例三元组的获取方法、装置、计算机设备以及存储介质 - Google Patents

样例三元组的获取方法、装置、计算机设备以及存储介质 Download PDF

Info

Publication number
CN108830201A
CN108830201A CN201810557202.4A CN201810557202A CN108830201A CN 108830201 A CN108830201 A CN 108830201A CN 201810557202 A CN201810557202 A CN 201810557202A CN 108830201 A CN108830201 A CN 108830201A
Authority
CN
China
Prior art keywords
sample
training
triple
data
people
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810557202.4A
Other languages
English (en)
Other versions
CN108830201B (zh
Inventor
赵峰
王健宗
肖京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201810557202.4A priority Critical patent/CN108830201B/zh
Priority to PCT/CN2018/095462 priority patent/WO2019227614A1/zh
Publication of CN108830201A publication Critical patent/CN108830201A/zh
Application granted granted Critical
Publication of CN108830201B publication Critical patent/CN108830201B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Collating Specific Patterns (AREA)

Abstract

本发明揭示了样例三元组的获取方法,包括:在预设的目标批次数据中筛选属于每一个指定人的所有第一样例,并将所述所有第一样例两两组合以得到每一个指定人对应的多个样例二元组;选择所述多个样例二元组中的第一样例二元组,并计算第一样例二元组中的两个第一样例之间的第一矢量距离,以及分别计算第一样例二元组中指定的目标第一样例与每一个第二样例之间的第二矢量距离;其中,所述第二样例为预设的目标批次数据中除所述第一样例之外的样例数据;根据每一个第二矢量距离与所述第一矢量距离的差量,筛选最大差量对应的第二样例;将最大差量对应的第二样例与所述第一样例二元组组成所述第一样例二元组对应的多个样例三元组。

Description

样例三元组的获取方法、装置、计算机设备以及存储介质
技术领域
本申请涉及到机器学习领域,特别是涉及到样例三元组的获取方法、装置、计算机设备以及存储介质。
背景技术
现有的样例三元组的选择是从整个训练数据中筛选的,导致样例三元组的总数量严重膨胀,其总数量的数量级跟样例数量的数量级是一个三次方的比例关系,导致现有方法获取出的样例三元组需要分批输入到网络模型中进行模型训练,但由于将每一分批的样例三元组送入训练模型中进行模型训练时,都会更改训练模型参数,使得训练模型训练时的各分批次的训练模型参量不同,使得后批次进入训练模型的样例三元组与训练模型的当前参量产生不匹配,样例三元组的效用逐渐下降。因此,从批次数量中合理获取样例三元组成为亟待解决的问题。
发明内容
本申请的主要目的为提供一种样例三元组的获取方法,旨在解决现有样例三元组的获取方法导致样例三元组的数量过于庞大影响训练模型的训练过程。
本申请提出一种样例三元组的获取方法,其特征在于,包括:
在预设的目标批次数据中筛选属于每一个指定人的所有第一样例,并将所述所有第一样例两两组合以得到每一个指定人对应的多个样例二元组;
选择所述多个样例二元组中的第一样例二元组,并计算第一样例二元组中的两个第一样例之间的第一矢量距离,以及分别计算第一样例二元组中指定的目标第一样例与每一个第二样例之间的第二矢量距离;其中,所述第二样例为预设的目标批次数据中除所述第一样例之外的样例数据;
根据每一个第二矢量距离与所述第一矢量距离的差量,筛选最大差量对应的第二样例;
将最大差量对应的第二样例与所述第一样例二元组组成所述第一样例二元组对应的多个样例三元组,从而得到所述目标批次数据中的各个指定人对应的每个样例二元组所对应的所有样例三元组。
优选地,所述在预设的目标批次数据中筛选属于每一个指定人的所有第一样例,并将所述所有第一样例两两组合以得到每一个指定人对应的多个样例二元组的步骤,包括:
将训练数据拆分成包含指定数量样例的多个批次数据;
将所述多个批次数据中的目标批次数据输入到预设训练模型中,通过预设训练模型的正向训练获取到所述每个批次数据中所述指定数量样例分别对应的矢量;
筛选所述目标批次数据中属于某一指定人的所有第一样例,并将所述第一样例进行两两组合形成多个所述样例二元组,其中第一样例包含与其对应的矢量。
优选地,所述将最大差量对应的所述第二样例与所述第一样例二元组组成所述第一样例二元组对应的多个样例三元组的步骤之后,包括:
将所述训练数据中的多个所述批次数据中所有第一样例二元组分别对应的所有样例三元组汇总成样例三元组训练集;
将所述样例三元组训练集输入以Triplet Loss为损失函数的二分类网络模型中进行模型训练。
优选地,所述第一样例和所述第二样例为说话人的话语样例,所述二分类网络模型为说话人确认网络模型;所述将所述样例三元组训练集输入以Triplet Loss为损失函数的二分类网络模型中进行模型训练的步骤,包括:
将说话人的话语样例组成的样例三元组训练集输入以Triplet Loss为损失函数的说话人确认网络模型中进行模型训练。
优选地,所述将说话人的话语样例组成的样例三元组训练集输入以Tripletloss为损失函数的说话人确认网络模型中进行模型训练的步骤之后,包括:
将待测人的话语样例输入到训练好的所述说话人确认网络模型中;
在说话人确认网络模型中计算待测人的话语样例中的第一语音特性与预注册人的第二语音特性的相似度;
判断所述相似度是否在预设阈值范围内;
若是,则判定待测人与预注册人为同一个人。
优选地,所述第一样例和所述第二样例为人脸影像的样例,所述二分类网络模型为人脸识别网络模型;所述将所述样例三元组训练集输入以Triplet Loss为损失函数的二分类网络模型中进行模型训练的步骤,包括:
将人脸影像组成的样例三元组训练集输入以Triplet Loss为损失函数的人脸识别网络模型中进行模型训练。
优选地,所述将指定数量的人脸影像的样例三元组输入以Triplet Loss为损失函数的人脸识别网络模型中进行模型训练的步骤之后,包括:
将待测人的人脸影像输入到训练好的所述人脸识别网络模型中;
在人脸识别网络模型中计算待测人的人脸影像中的第一人脸特性与预注册人的第二人脸特性的相似度;
判断所述相似度是否在预设阈值范围内;
若是,则判定待测人与预注册人为同一个人。
本申请还提供了一种样例三元组的获取装置,包括:
第一筛选模块,用于在预设的目标批次数据中筛选属于每一个指定人的所有第一样例,并将所述所有第一样例两两组合以得到每一个指定人对应的多个样例二元组;
计算模块,用于选择所述多个样例二元组中的第一样例二元组,并计算第一样例二元组中的两个第一样例之间的第一矢量距离,以及分别计算第一样例二元组中指定的目标第一样例与每一个第二样例之间的第二矢量距离;其中,所述第二样例为预设的目标批次数据中除所述第一样例之外的样例数据;
第二筛选模块,用于根据每一个第二矢量距离与所述第一矢量距离的距离差,筛选最大距离差对应的第二样例;
第一组成模块,用于将最大距离差对应的第二样例与所述样例二元组组成所述第一样例二元组对应的多个样例三元组,从而得到所述目标批次数据中的各个指定人对应的每个样例二元组所对应的所有样例三元组。
本申请还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。
本申请通过将几万或几十万数量级的整个训练数据分成包含指定数量样例的小批次数据,然后在小批次数据中获取样例三元组,避免了样例三元组数量过于庞大而导致的模型训练速度缓慢、甚至无法顺畅训练的情况,加快训练模型的训练速度,且同时限定只获取与AP对矢量距离最大的候选N组成APN,进一步减少获取样例三元组的数量,提高训练速度,同时基于与AP对矢量距离最大的候选N组成的样例三元组APN的具有更好的数据代表性,在进一步提升训练速度的同时,优化训练模型的效果,使得筛选的样例三元组在整个训练数据中具有代表性,且对训练模型的训练过程更优,表现为训练模型的参量一致性好;本申请在较小的批次数据范围内获取样例三元组,所产生的样例三元组可作为小批量随机梯度下降方法进行深度学习模型训练时的一个批量数据,一次性全部送入训练模型进行训练,避免了多次输入时训练模型参量发生改变,导致样例三元组相对于当前参量下的训练模型效用下降的情况;本申请在较小批次数据范围内获取样例三元组且只选择与AP对矢量距离最大的候选N组成APN,使得获取的样例三元组和随后使用样例三元组进行模型训练可以连续进行,避免了因为训练数据太多,导致获取样例三元组后需要额外花费计算时间对样例三元组进行分批后再送入训练模型进行训练,提高了训练速度。
附图说明
图1本申请一实施例的样例三元组的获取方法的流程示意图;
图2本申请一实施例的样例三元组的获取装置的结构示意图;
图3本申请一实施例的第一筛选模块的结构示意图;
图4本申请另一实施例的样例三元组的获取装置的结构示意图;
图5本申请一实施例的输入模块的结构示意图;
图6本申请一实施例的第一输入单元的结构示意图;
图7本申请另一实施例的输入模块的结构示意图;
图8本申请另一实施例的第二输入单元的结构示意图;
图9本申请一实施例的计算机设备的内部结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请一实施例的样例三元组的获取方法,包括:
S1:在预设的目标批次数据中筛选属于每一个指定人的所有第一样例,并将所述所有第一样例两两组合以得到每一个指定人对应的多个样例二元组。
本实施例的指定人为泛指,上述指定人的样例数据为批次数据的子集,本实施例通过定义指定人的样例数据为第一样例,以区别于批次数据中指定人之外的其他人的样例数据,此处“第一”仅为区别,不作限定。举例地,批次数据A中,包括a、b、c、d、e、f等M个人的样例数据,上述指定人可以为a、b、c、d、e、f等人中的任意一个,比如指定a为指定人,则将属于a的所有样例数据按照两两组合的方式组配二元组AP对(Anchor,Positive对),比如,属于a的所有样例数据为10个,则AP对的数量对应为C7 2;除a之外的其他人的样例数据成为样例三元组APN的候选N(Negative)。本实施例通过分别对M个人中分别属于各自的样例数据,分别进行两两组合形成每个人相对的二元组AP对,然后再筛选合适的N组成样例三元组APN,以便形成可用于训练模型训练的、具有数据代表性的样例三元组数据集合,本实施例通过在批次数据中取最少量、最具代表性的样例三元组,提高训练模型的训练速度及训练效果,提高训练模型的训练时效性以及实用性。
S2:选择所述多个样例二元组中的第一样例二元组,并计算第一样例二元组中的两个第一样例之间的第一矢量距离,以及分别计算第一样例二元组中指定的目标第一样例与每一个第二样例之间的第二矢量距离;其中,所述第二样例为预设的目标批次数据中除所述第一样例之外的样例数据。
本实施例通过定义批次数据中指定人之外的样例数据为第二样例,以区别于第一样例,此处“第二”同上述“第一”仅为区别,不作限定其他部分的“第一”、“第二”的作用相同,不赘述。本实施例的第一矢量距离为第一二元组AP对的矢量距离,第二矢量距离为第一样例二元组AP对中的A与候选N之间的矢量距离,其中A为第一样例二元组中指定的第一样例。
S3:根据每一个第二矢量距离与所述第一矢量距离的差量,筛选最大差量对应的第二样例。
本实施例对候选N的筛选条件限定为第二矢量距离AN与第一矢量距离AP相距距离最大的候选N,即通过max(si ap-si an+a,0)筛选候选N,其中,a是常量,si ap为xa和xp之间的欧式距离,si an为xa和xn之间的欧式距离;si ap计算公式为xa为Anchor对应的矢量,xp为Positive对应的矢量;si an计算过程同上,将上述公式中的xp替换为xn即可,其中xn为Negative对应的矢量。本实施例的候选N不仅满足第二矢量距离与所述第一矢量距离的距离差大于零,且在大于零的前提下,进一步优选第二矢量距离与所述第一矢量距离的差量最大的情况下对应的唯一候选N,以进一步减少样例三元组的数量,一个样例二元组对应形成一个样例三元组,进一步提高筛选候选N后组成的样例三元组APN的数据代表性,且进一步减少样例三元组APN的总数量,以提高模型训练中的训练速度和训练效果。第二矢量距离与所述第一矢量距离的差量最大,以进一步限定候选N的获取范围,只选差量最大时对应的唯一候选N,确保形成的样例三元组的总数量最小,最大化消除了样例三元组数量过分膨胀而影响模型训练的问题,且同时确保组配的样例三元组APN具有代表性,能够充分的代表训练数据数据中的全部数据分布状态,保障训练模型的有效性。本实施例优选第二矢量距离与所述第一矢量距离的差量大于零的情况下,且选择差量最大的候选N,大量缩减候选N的数量,进一步减少训练模型的数据输入量,提高模型训练速度;候选N与A或P相距最大距离,以最大化减少数据量较少情况下的数据偏差,提高筛选后的最少量的样例三元组集合在整个批次数据中的代表性,即能够充分的代表训练数据中的全部数据分布状态,确保通过较少量样例三元组训练模型中获得的训练模型的权重有效性。
S4:将最大差量对应的所述第二样例与所述第一样例二元组组成第一样例二元组对应的多个样例三元组,从而得到所述目标批次数据中的各个指定人对应的每个样例二元组所对应的所有样例三元组。
本实施例通过在批次数据中筛选合适的样例三元组作为训练模型的训练数据输入,大大减少了训练模型在训练过程中需要输入的数据量,加快了训练模型的训练速度,避免了将所有训练数据输入到训练模型中进行训练时易发生的训练缓慢或训练堵塞中断等现象。而且本申请通过只获取与AP对矢量距离最大的候选N组成APN,最大化减少获取样例三元组的数量,并同时优化样例三元组的组配合理性,减少训练数据偏差,提高样例三元组在整个训练数据中的代表性,使得输入较少的训练数据量却训练得到更具有实用性的训练模型。本实施例对批次数据中的任一指定人的样例数据进行排列组合形成AP对,并将指定人的任一AP对分别与AP对矢量距离最大的候选N组成样例三元组APN,通过对批次数据中所有人的所有AP对进行组配样例三元组APN,将批次数据优化成具有一定数量的样例三元组APN的集合,以进一步优化输入到训练模型中的训练数据组成与分布,提高训练模型的训练效果。
进一步地,上述步骤S1,包括:
S10:将训练数据拆分成包含指定数量样例的多个批次数据。
本步骤的训练数据是指常规用于深度学习训练模型的训练数据的所有数据,训练数据总量包括几万或几十万数量级。本实施例通过将几万或几十万数量的大数量级的训练数据拆分成多个小数量的批次数据,以进一步限制组合的样例三元组的数量,以提高训练模型的训练效率,节省训练模型的训练耗费时间。本实施例的指定数量兼顾了训练模型在训练时的硬件设备计算能力和训练模型性能要求的双方面因素,本实施例优选指定数量为不大于128个样例数据,使得样例三元组只能在128个样例数据的批次数据范围中进行获取,经过排列组合形成的样例三元组的数量得到有效控制,使得训练模型在训练过程中能在GPU的有限储存容量下,可保证持续有效的高速计算能力,加快训练模型的训练速度;同时由于批次数据的总数量有限,使得每个批次数据中的样例三元组的数量不会过分膨胀,使得每个批次数据中产生的样例三元组集合中的所有样例三元组,都能一次性输入到训练模型中进行模型训练,避免了大批次训练数据分多批次输入时,会导致每批次输入数据时发生的训练模型参数跟随变更,使得样例三元组对训练模型的训练效用下降的弊端,本实施例通过将大数量级的数据先分成各批次数据,批次数据中的样例数据再形成样例三元组,有效控制样例三元组的总量,使得样例三元组可一次性输入到训练模型中进行模型训练,保证了训练模型的参数稳定性,使得训练模型具有良好的应用效果,表现为等错误率最低(等错率即正确数据的错误辨识误差与错误数据的误判通过误差相等)。本实施例的批次数据中包括M个人的样例数据,每个人的样例数据为R个,M取值远小于训练数据中的总人数,比如M为30至60之间,R为20-40之间,则满足批次数据的全部样例数量不大于128,其中,R包括相同的样例数据和不同的样例数据,当R个中的样例数据均不同时更能优化样例数据的分布状态,提高训练模型的优化效果;但若某一人的不同样例数据小于R,为满足数量R的要求,可允许使用部分重复数据。
S11:将所述多个批次数据中的目标批次数据输入到预设训练模型中,通过预设训练模型的正向训练获取到所述每个批次数据中所述指定数量样例分别对应的矢量。
本实施例通过训练模型的正向训练计算各输入样例分别对应的矢量值,以便根据两个样例之间的矢量距离合理组合样例三元组,提高样例三元组的组配合理性,减小各批次数据之间的偏差,提高训练模型的训练效果,比如:提高二分类训练模型的判断准确率。
S12:筛选所述目标批次数据中属于某一指定人的所有第一样例,并将所述所有第一样例进行两两组合成多个样例二元组,其中第一样例包含与其对应的矢量。
本实施例通过将某一指定人的所有样例数据定义为第一样例,并在第一样例中指定一个为A,其他的第一样例分别为P,依次排列组合形成AP对,并根据第一样例分别对应的各矢量,获取各AP对对应的第一矢量距离AP,以便根据第一矢量距离AP,在批次数据中筛选差量最大时对应的候选N,组成样例三元组APN。
进一步地,上述步骤S4之后,包括:
S41:将所述训练数据中的所述多个批次数据中所有第一样例二元组分别对应的所有样例三元组汇总成样例三元组训练集。
本实施例先获取第一样例二元组与其对应的满足预设条件的第二样例,组成第一样例二元组对应的样例三元组集合。本实施例通过训练数据中的多个所述批次数据分别对应的第一子集汇总成样例三元组训练集,以获取从整个训练数据中优化筛选的样例三元组数据作为训练集。
S42:将所述样例三元组训练集输入以Triplet Loss为损失函数的二分类网络模型中进行模型训练。
本实施例的二分类网络模型是指只对输入数据进行‘是或否’判断的网络模型,举例地,人脸识别模型或说话人确认模型均为上述的二分类网络模型。本实施例的TripletLoss具有三个参数,则训练过程中需要同时输入三个样例数据才能完成训练模型的训练过程,因此本实施例的样例三元组APN的挑选方式对以Triplet Loss为损失函数的网络优化效果更加显著。本实施例将样例数据表示为(si,li),i=1,2,3,...N,其中si是样例数据本身,li是其对应的待测人。本实施例的Triplet Loss其具体计算方法如下:将所有样例数据(si,li)都输入到二分类网络模型中,得到各样例数据分别对应输出的矢量xi;从上述矢量xi中随机选取一个矢量作为xa,然后再随机选取另一个矢量作为xp,xa和xp应该属于同一个人;计算xa和xp之间的欧式距离si ap;设矢量xi=xi1,xi2,...,xin,则si ap计算公式为随机选取另一个矢量作为xn,xa和xn分别属于不同的人;计算xa和xn之间的欧式距离si an;则损失函数L由下面的公式计算:其中a是常量,其取值范围在0.1至0.25之间,N是选取的样例三元组的个数。
进一步地,所述第一样例和所述第二样例为说话人的话语样例,所述二分类网络模型为说话人确认网络模型;上述步骤S42,包括:
S421:将说话人的话语样例组成的样例三元组训练集输入以Triplet Loss为损失函数的说话人确认网络模型中进行模型训练。
本实施例以用于说话人确认为例,人说话时发音器官和发音习惯的差异都以复杂的形势反映在说话人的语音特征中,使得每个人的话语都带有强烈的个人色彩,本实施例通过将话语样例中的语义信息平均化,挖掘出包含在话语样例中的说话人的个性因素,强调不同人之间的语音特征的特征差异。本实施例的批次数据中M为40个人,R为30个不同语音样例,比如,正常说话状态下选择10个不同语音样例,愤怒状态下再选择10个不同语音样例,伤心状态下再选择10个不同语音样例,将指定人的语音样例与其他人的语音样例组成的样例三元组,本实施例的指定数量为128,说话人的样例三元组包括说话人的话语样例组成的样例三元组。通过训练说话人确认网络模型训练,形成提取话语样例中的语速、音质、语音波形等语音特征的提取方式,以便通过比较语音特征的相似度,对待测说话人与预注册说话人进行一对一的确认,输出待测说话人与预注册说话人是同一人或待测说话人与预注册说话人不是同一人的确认结果。本实施例通过上述方法在众多说话人的话语样例中,先分成包含指定数量说话人的批次数据,并在批次数据中筛选合适的样例三元组APN,提高说话人确认网络模型的训练速度以及训练效果,以便扩展说话人确认网络模型的应用领域,包括在金融、证券、社保、公安、军队及其他民用安全认证等行业和部门满足相应的使用需求。
进一步地,上述步骤S421,包括:
S4211:将待测人的话语样例输入到训练好的所述说话人确认网络模型中。
本实施例的待测人的话语样例包括待测人的自然语音、合成语音等包含音质等一种或多种语音特征的语音样例。举例地,合成语音包括经过去除噪音处理的话语样例、经过去噪音处理并二次排列拼接的话语样例以及去除噪音后添加了新的背景音等。合成语音中带有强烈的个人色彩的语音特征中至少一种语音特征保持不变,则可实现说话人确认。
S4212:在说话人确认网络模型中计算待测人的话语样例中的第一语音特性与预注册人的第二语音特性的第一相似度。
本实施例的待测人的话语样例中的第一语音特性与预注册人的第二语音特性的第一相似度,可通过欧式距离、马氏距离等进行判定,优选通过欧式距离进行判定。本实施例通过max(si ap-si an+a,0)筛选候选N,其中,a是常量,si ap为xa和xp之间的欧式距离,si an为xa和xn之间的欧式距离;xa为话语样例批次数据中的Anchor对应的矢量,xp为Positive对应的矢量;xn为Negative对应的矢量。通过计算第二矢量距离与所述第一矢量距离的距离差,在距离差大于零的候选N集合中,进一步优选距离差最大的候选N,即优选与指定人的语音特性差别最大的人的语音样例,以进一步提高的样例三元组APN的数据代表性,且减少样例三元组APN的总数量,以提高说话人确认网络模型训练中的训练速度和训练效果。
S4213:判断所述第一相似度是否在预设阈值范围内。
举例地,本实施例的预设范围为待测人的话语样例中的第一语音特性与预注册人的第二语音特性的欧式距离大于0.9,表示第一相似度高或判定第一语音特性对应的待测人与第二语音特性对应定的预注册人为同一个人。
S4214:若是,则判定待测人与预注册人为同一个人。
本申请另一实施例中,所述第一样例和所述第二样例为人脸影像的样例,所述二分类网络模型为人脸识别网络模型;上述步骤S421,包括:
S4215:将人脸影像组成的样例三元组训练集输入以Triplet Loss为损失函数的人脸识别网络模型中进行模型训练。
本实施例以用于人脸识别为例,样例为人脸影像,用于训练人脸识别模型,并根据人脸识别模型实现对指定待识别人的人脸影像的一对一判定,即通过便是结果为是或否,以便确定待识别人与注册人为否为同一个人。本实施例的批次数据中M为50个人,R为20个不同角度的人脸影像,比如,正面人脸影像旋转到正右侧脸影像之间选择10个不同人脸影像,正面人脸影像旋转到正左侧脸影像之间再选择10个不同人脸影像。将指定人的人脸影像与其他人的人脸影像组成的样例三元组。通过对训练人脸识别网络模型训练,形成提取人脸影像中的人脸特征的提取方式,以便通过比较人脸特征的相似度,对待测人与预注册人进行一对一的确认,输出待测人与预注册人是同一人或待测人与预注册人不是同一人的确认结果。本实施例通过上述方法在50个人的人脸影像组成的批次数据中筛选合适的样例三元组APN,提高人脸识别网络模型的训练速度以及训练效果,以便扩展人脸识别网络模型的应用领域,以便在金融、证券、社保、公安、军队及其他民用安全认证等行业和部门满足使用需求。
进一步地,上述步骤S4215之后,包括:
S4216:将待测人的人脸影像输入到训练好的所述人脸识别网络模型中。
本实施例的待测人的人脸影像包括待测人脸五官的五官特征,比如五官各自的大小、姿态、位置等。
S4217:在人脸识别网络模型中计算待测人的人脸影像中的第一人脸特征与预注册人的第二人脸特性的第二相似度。
本实施例通过筛选候选N,其中,a是常量,si ap为xa和xp之间的欧式距离,si an为xa和xn之间的欧式距离;xa为人脸影像批次数据中的Anchor对应的矢量,xp为Positive对应的矢量;xn为Negative对应的矢量。通过计算第二矢量距离与所述第一矢量距离的距离差,在距离差大于零的候选N集合中,进一步优选距离差最大的候选N,即优选与指定人的人脸特性差别最大的人的人脸影像,以进一步提高的样例三元组APN的数据代表性,且减少样例三元组APN的总数量,以提高人脸识别网络模型训练中的训练速度和训练效果。
S4218:判断所述第二相似度是否在预设阈值范围内。
本实施例的第二相似度可通过欧式距离、马氏距离等进行判定,优选通过欧式距离进行判定。举例地,本实施例的预设范围为0.8或以上,欧氏距离越大表示相似度高或判定待测人与预注册人为同一个人。
S4219:若是,则判定待测人与预注册人为同一个人。
进一步地,上述步骤S4214或步骤S4219之后,包括:
S4220:控制装配所述说话人确认网络模型的安全认证系统展示通过认证。
本实施例通过将说话人确认网络模型的确认结果,转换成与其相关联的安全认证系统的控制指令,以提高说话人确认系统的实际应用效果。举例地,说话人确认网络模型的确认待测人与预注册人为同一个人后,待测人可打开安全认证系统控制的应用平台,使应用平台处于可使用的状态。本实施例展示的通过认证的方式包括但不限于对话框文本显示和/或语音播报和/或警示铃鸣声和/或警示灯的闪光方式等。
本实施例本申请通过将几万或几十万数量级的整个训练数据分成包含指定数量样例的小批次数据,然后在小批次数据中获取样例三元组,避免了样例三元组数量过于庞大而导致的模型训练速度缓慢、甚至无法顺畅训练的情况,加快训练模型的训练速度,且同时限定只获取与AP对矢量距离最大的候选N组成APN,进一步减少获取样例三元组的数量,提高训练速度,同时基于与AP对矢量距离最大的候选N组成的样例三元组APN的具有更好的数据代表性,在进一步提升训练速度的同时,优化训练模型的效果,使得筛选的样例三元组在整个训练数据中具有代表性,且对训练模型的训练过程更优,表现为训练模型的参量一致性好;通过在较小的批次数据范围内获取样例三元组,所产生的样例三元组可作为小批量随机梯度下降方法进行深度学习模型训练时的一个批量数据,一次性全部送入训练模型进行训练,避免了多次输入时训练模型参量发生改变,导致样例三元组相对于当前参量下的训练模型效用下降的情况;在较小批次数据范围内获取样例三元组且只选择与AP对矢量距离最大的候选N组成APN,使得获取的样例三元组和随后使用样例三元组进行模型训练可以连续进行,避免了因为训练数据太多,导致获取样例三元组后需要额外花费计算时间对样例三元组进行分批后再送入训练模型进行训练,提高了训练速度。
参照图2,本申请一实施例的样例三元组的获取装置,包括:
第一筛选模块1,用于在预设的目标批次数据中筛选属于每一个指定人的所有第一样例,并将所述所有第一样例两两组合以得到每一个指定人对应的多个多个样例二元组。
本实施例的指定人为泛指,上述指定人的样例数据为批次数据的子集,本实施例通过定义指定人的样例数据为第一样例,以区别于批次数据中指定人之外的其他人的样例数据,此处“第一”仅为区别,不作限定。举例地,批次数据A中,包括a、b、c、d、e、f等M个人的样例数据,上述指定人可以为a、b、c、d、e、f等人中的任意一个,比如指定a为指定人,则将属于a的所有样例数据按照两两组合的方式组配二元组AP对(Anchor,Positive对),比如,属于a的所有样例数据为10个,则AP对的数量对应为C7 2;除a之外的其他人的样例数据成为样例三元组APN的候选N(Negative)。本实施例通过分别对M个人中分别属于各自的样例数据,分别进行两两组合形成每个人相对的二元组AP对,然后再筛选合适的N组成样例三元组APN,以便形成可用于训练模型训练的、具有数据代表性的样例三元组数据集合,提高训练模型的训练时效性以及实用性。
计算模块2,用于选择所述多个样例二元组中的第一样例二元组,并计算第一样例二元组中的两个第一样例之间的第一矢量距离,以及分别计算第一样例二元组中指定的目标第一样例与每一个第二样例之间的第二矢量距离;其中,所述第二样例为预设的目标批次数据中除所述第一样例之外的样例数据。
本实施例通过定义批次数据中某一指定人之外的样例数据为第二样例,以区别于第一样例,此处“第二”同上述“第一”仅为区别,不作限定其他部分的“第一”、“第二”的作用相同,不赘述。本实施例的第一矢量距离为第一二元组AP对的矢量距离,第二矢量距离为第一样例二元组AP对中的A与候选N之间的矢量距离,其中A为第一样例二元组中指定的第一样例。
第二筛选模块3,用于根据每一个第二矢量距离与所述第一矢量距离的差量,筛选最大差量对应的第二样例。
本实施例对候选N的筛选条件限定为第二矢量距离AN与第一矢量距离AP相距距离最大的候选N,即通过max(si ap-si an+a,0)筛选候选N,其中,a是常量,si ap为xa和xp之间的欧式距离,si an为xa和xn之间的欧式距离;si ap计算公式为xa为Anchor对应的矢量,xp为Positive对应的矢量;si an计算过程同上,将上述公式中的xp替换为xn即可,其中xn为Negative对应的矢量。本实施例的候选N不仅满足第二矢量距离与所述第一矢量距离的距离差大于零,且在大于零的前提下,进一步优选第二矢量距离与所述第一矢量距离的差量最大的情况下对应的唯一候选N,以进一步减少样例三元组的数量,一个样例二元组对应形成一个样例三元组,进一步提高筛选候选N后组成的样例三元组APN的数据代表性,且进一步减少样例三元组APN的总数量,以提高模型训练中的训练速度和训练效果。第二矢量距离与所述第一矢量距离的差量最大,以进一步限定候选N的获取范围,只选差量最大时对应的唯一候选N,确保形成的样例三元组的总数量最小,最大化消除了样例三元组数量过分膨胀而影响模型训练的问题,且同时确保组配的样例三元组APN具有代表性,能够充分的代表训练数据数据中的全部数据分布状态,保障训练模型的有效性。本实施例优选第二矢量距离与所述第一矢量距离的差量大于零的情况下,且选择差量最大的候选N,大量缩减候选N的数量,进一步减少训练模型的数据输入量,提高模型训练速度;候选N与A或P相距最大距离,以最大化减少数据量较少情况下的数据偏差,提高筛选后的最少量的样例三元组集合在整个批次数据中的代表性,即能够充分的代表训练数据中的全部数据分布状态,确保通过较少量样例三元组训练模型中获得的训练模型的权重有效性。
第一组成模块4,用于将最大差量对应的所述第二样例与所述第一样例二元组组成所述第一样例二元组对应的多个样例三元组,从而得到所述目标批次数据中的各个指定人对应的每个样例二元组所对应的所有样例三元组。
本实施例通过在批次数据中筛选合适的样例三元组作为训练模型的训练数据输入,大大减少了训练模型在训练过程中需要输入的数据量,加快了训练模型的训练速度,避免了将所有训练数据输入到训练模型中进行训练时易发生的训练缓慢或训练堵塞中断等现象。而且本申请通过只获取与AP对矢量距离最大的候选N组成APN,最大化减少获取样例三元组的数量,并同时优化样例三元组的组配合理性,减少训练数据偏差,提高样例三元组在整个训练数据中的代表性,使得输入较少的训练数据量却训练得到更具有实用性的训练模型。本实施例对批次数据中的任一指定人的样例数据进行排列组合形成AP对,并将指定人的任一AP对分别与AP对矢量距离最大的候选N组成样例三元组APN,通过对批次数据中所有人的所有AP对进行组配样例三元组APN,将批次数据优化成具有一定数量的样例三元组APN的集合,以进一步优化输入到训练模型中的训练数据组成与分布,提高训练模型的训练效果。
参照图3,上述第一筛选模块1,包括:
拆分单元10,用于将训练数据拆分成包含指定数量样例的多个批次数据。
本实施例的训练数据是指常规用于深度学习训练模型的训练数据的所有数据,训练数据总量包括几万或几十万数量级。本实施例通过将几万或几十万数量的大数量级的训练数据拆分成多个小数量的批次数据,以进一步限制组合的样例三元组的数量,以提高训练模型的训练效率,节省训练模型的训练耗费时间。本实施例的指定数量兼顾了训练模型在训练时的硬件设备计算能力和训练模型性能要求的双方面因素,本实施例优选指定数量为不大于128个样例数据,使得样例三元组只能在128个样例数据的批次数据范围中进行获取,经过排列组合形成的样例三元组的数量得到有效控制,使得训练模型在训练过程中能在GPU的有限储存容量下,可保证持续有效的高速计算能力,加快训练模型的训练速度;同时由于批次数据的总数量有限,使得每个批次数据中的样例三元组的数量不会过分膨胀,使得每个批次数据中产生的样例三元组集合中的所有样例三元组,都能一次性输入到训练模型中进行模型训练,避免了大批次训练数据分多批次输入时,会导致每批次输入数据时发生的训练模型参数跟随变更,使得样例三元组对训练模型的训练效用下降的弊端,本实施例通过将大数量级的数据先分成各批次数据,批次数据中的样例数据再形成样例三元组,有效控制样例三元组的总量,使得样例三元组可一次性输入到训练模型中进行模型训练,保证了训练模型的参数稳定性,使得训练模型具有良好的应用效果,表现为等错误率最低。本实施例的批次数据中包括M个人的样例数据,每个人的样例数据为R个,M取值远小于训练数据中的总人数,比如M为30至60之间,R为20-40之间,则满足批次数据的全部样例数量不大于128,其中,R包括相同的样例数据和不同的样例数据,当R个中的样例数据均不同时更能优化样例数据的分布状态,提高训练模型的优化效果;但若某一人的不同样例数据小于R,为满足数量R的要求,可允许使用部分重复数据。
获取单元11,用于将所述多个批次数据中的目标所述批次数据输入到预设训练模型中,通过预设训练模型的正向训练获取到所述每个批次数据中所述指定数量样例分别对应的矢量。
本实施例通过训练模型的正向训练计算各输入样例分别对应的矢量值,以便根据两个样例之间的矢量距离合理组合样例三元组,提高样例三元组的组配合理性,减小各批次数据之间的偏差,提高训练模型的训练效果,比如:提高二分类训练模型的判断准确率。
筛选单元12,用于筛选所述目标批次数据中属于某一指定人的所有第一样例,并将所述所有第一样例进行两两组合成多个样例二元组,其中第一样例包含与其对应的矢量。
本实施例通过将某一指定人的所有样例数据定义为第一样例,并在第一样例中指定一个为A,其他的第一样例分别为P,依次排列组合形成AP对,并根据第一样例分别对应的各矢量,获取各AP对对应的第一矢量距离AP,以便根据第一矢量距离AP,在批次数据中筛选差量最大时对应的候选N,组成样例三元组APN。
参照图4,本申请另一实施例的样例三元组的获取装置,包括:
汇总模块41:将所述训练数据中的多个所述批次数据分别对应的第一子集汇总成样例三元组训练集。
本实施例先获取第一样例二元组与其对应的满足预设条件的第二样例,组成第一样例二元组对应的样例三元组集合。本实施例通过训练数据中的多个所述批次数据分别对应的第一子集汇总成样例三元组训练集,以获取从整个训练数据中优化筛选的样例三元组数据作为训练集。
输入模块42,用于将所述样例三元组训练集输入以TripletLoss为损失函数的二分类网络模型中进行模型训练。
本实施例的二分类网络模型是指只对输入数据进行‘是或否’判断的网络模型,举例地,人脸识别模型或说话人确认模型均为上述的二分类网络模型。本实施例的TripletLoss具有三个参数,则训练过程中需要同时输入三个样例数据才能完成训练模型的训练过程,因此本实施例的样例三元组APN的挑选方式对以Triplet Loss为损失函数的网络优化效果更加显著。本实施例将样例数据表示为(si,li),i=1,2,3,...N,其中si是样例数据本身,li是其对应的待测人。本实施例的Triplet Loss其具体计算方法如下:将所有样例数据(si,li)都输入到二分类网络模型中,得到各样例数据分别对应输出的矢量xi;从上述矢量xi中随机选取一个矢量作为xa,然后再随机选取另一个矢量作为xp,xa和xp应该属于同一个人;计算xa和xp之间的欧式距离si ap;设矢量xi=xi1,xi2,...,xin,则si ap计算公式为随机选取另一个矢量作为xn,xa和xn分别属于不同的人;计算xa和xn之间的欧式距离si an;则损失函数L由下面的公式计算:其中a是常量,其取值范围在0.1至0.25之间,N是选取的样例三元组的个数。
参照图5,本实施例的所述第一样例和所述第二样例为说话人的话语样例,所述二分类网络模型为说话人确认网络模型;输入模块42,包括:
第一输入单元421,用于说话人的话语样例组成的样例三元组训练集输入以Triplet Loss为损失函数的说话人确认网络模型中进行模型训练。
本实施例以用于说话人确认为例,人说话时发音器官和发音习惯的差异都以复杂的形势反映在说话人的语音特征中,使得每个人的话语都带有强烈的个人色彩,本实施例通过将话语样例中的语义信息平均化,挖掘出包含在话语样例中的说话人的个性因素,强调不同人之间的语音特征的特征差异。本实施例的批次数据中M为40个人,R为30个不同语音样例,比如,正常说话状态下选择10个不同语音样例,愤怒状态下再选择10个不同语音样例,伤心状态下再选择10个不同语音样例,将指定人的语音样例与其他人的语音样例组成的样例三元组,本实施例的指定数量为128,说话人的样例三元组包括说话人的话语样例组成的样例三元组。通过训练说话人确认网络模型训练,形成提取话语样例中的语速、音质、语音波形等语音特征的提取方式,以便通过比较语音特征的相似度,对待测说话人与预注册说话人进行一对一的确认,输出待测说话人与预注册说话人是同一人或待测说话人与预注册说话人不是同一人的确认结果。本实施例通过上述方法在众多说话人的话语样例中,先分成包含指定数量说话人的批次数据,并在批次数据中筛选合适的样例三元组APN,提高说话人确认网络模型的训练速度以及训练效果,以便扩展说话人确认网络模型的应用领域,包括在金融、证券、社保、公安、军队及其他民用安全认证等行业和部门满足相应的使用需求。
参照图6,本实施例的第一输入单元421,包括:
第一输入子单元4211,用于将待测人的话语样例输入到训练好的所述说话人确认网络模型中。
本实施例的待测人的话语样例包括待测人的自然语音、合成语音等包含音质等一种或多种语音特征的语音样例。举例地,合成语音包括经过去除噪音处理的话语样例、经过去噪音处理并二次排列拼接的话语样例以及去除噪音后添加了新的背景音等。合成语音中带有强烈的个人色彩的语音特征中至少一种语音特征保持不变,则可实现说话人确认。
第一计算子单元4212,用于在说话人确认网络模型中计算待测人的话语样例中的第一语音特性与预注册人的第二语音特性的第一相似度。
本实施例的待测人的话语样例中的第一语音特性与预注册人的第二语音特性的第一相似度,可通过欧式距离、马氏距离等进行判定,优选通过欧式距离进行判定。本实施例通过筛选候选N,其中,a是常量,si ap为xa和xp之间的欧式距离,si an为xa和xn之间的欧式距离;xa为话语样例批次数据中的Anchor对应的矢量,xp为Positive对应的矢量;xn为Negative对应的矢量。通过计算第二矢量距离与所述第一矢量距离的距离差,在距离差大于零的候选N集合中,进一步优选距离差最大的候选N,即优选与指定人的语音特性差别最大的人的语音样例,以进一步提高的样例三元组APN的数据代表性,且减少样例三元组APN的总数量,以提高说话人确认网络模型训练中的训练速度和训练效果。
第一判断子单元4213,用于判断所述第一相似度是否在预设阈值范围内。
举例地,本实施例的预设范围为待测人的话语样例中的第一语音特性与预注册人的第二语音特性的欧式距离大于0.9,表示第一相似度高或判定第一语音特性对应的待测人与第二语音特性对应定的预注册人为同一个人。
第一判定子单元4214,用于若第一相似度在预设阈值范围内,则判定待测人与预注册人为同一个人。
参照图7,本申请另一实施例的所述第一样例和所述第二样例为人脸影像的样例,所述二分类网络模型为人脸识别网络模型;输入模块42,包括:
第二输入单元422,用于将人脸影像的样例三元组输入以Triplet Loss为损失函数的人脸识别网络模型中进行模型训练。
本实施例以用于人脸识别为例,样例为人脸影像,用于训练人脸识别模型,并根据人脸识别模型实现对指定待识别人的人脸影像的一对一判定,即通过便是结果为是或否,以便确定待识别人与注册人为否为同一个人。本实施例的批次数据中M为50个人,R为20个不同角度的人脸影像,比如,正面人脸影像旋转到正右侧脸影像之间选择10个不同人脸影像,正面人脸影像旋转到正左侧脸影像之间再选择10个不同人脸影像。将指定人的人脸影像与其他人的人脸影像组成的样例三元组。通过对训练人脸识别网络模型训练,形成提取人脸影像中的人脸特征的提取方式,以便通过比较人脸特征的相似度,对待测人与预注册人进行一对一的确认,输出待测人与预注册人是同一人或待测人与预注册人不是同一人的确认结果。本实施例通过上述方法在50个人的人脸影像组成的批次数据中筛选合适的样例三元组APN,提高人脸识别网络模型的训练速度以及训练效果,以便扩展人脸识别网络模型的应用领域,以便在金融、证券、社保、公安、军队及其他民用安全认证等行业和部门满足使用需求。
参照图8,本实施例的第二输入单元422,包括:
第二输入子单元4221,用于将待测人的人脸影像输入到训练好的所述人脸识别网络模型中。
本实施例的待测人的人脸影像包括待测人脸五官的五官特征,比如五官各自的大小、姿态、位置等。
第二计算子单元4222,用于在人脸识别网络模型中计算待测人的人脸影像中的第一人脸特征与预注册人的第二人脸特性的第二相似度。
本实施例通过筛选候选N,其中,a是常量,si ap为xa和xp之间的欧式距离,si an为xa和xn之间的欧式距离;xa为人脸影像批次数据中的Anchor对应的矢量,xp为Positive对应的矢量;xn为Negative对应的矢量。通过计算第二矢量距离与所述第一矢量距离的距离差,在距离差大于零的候选N集合中,进一步优选距离差最大的候选N,即优选与指定人的人脸特性差别最大的人的人脸影像,以进一步提高的样例三元组APN的数据代表性,且减少样例三元组APN的总数量,以提高人脸识别网络模型训练中的训练速度和训练效果。
第二判断子单元4223,用于判断所述第二相似度是否在预设阈值范围内。
本实施例的第二相似度可通过欧式距离、马氏距离等进行判定,优选通过欧式距离进行判定。举例地,本实施例的预设范围为0.8或以上,欧氏距离越大表示相似度高或判定待测人与预注册人为同一个人。
第二判定子单元4224,用于若第二相似度在预设阈值范围内,则判定待测人与预注册人为同一个人。
进一步地,上述第一输入单元421或第二输入单元422,包括:
控制子单元4220,用于控制装配所述说话人确认网络模型的安全认证系统展示通过认证。
本实施例通过将说话人确认网络模型的确认结果,转换成与其相关联的安全认证系统的控制指令,以提高说话人确认系统的实际应用效果。举例地,说话人确认网络模型的确认待测人与预注册人为同一个人后,待测人可打开安全认证系统控制的应用平台,使应用平台处于可使用的状态。本实施例展示的通过认证的方式包括但不限于对话框文本显示和/或语音播报和/或警示铃鸣声和/或警示灯的闪光方式等。
参照图9,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储样例三元组的获取过程需要的所有数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现样例三元组的获取方法。
上述处理器执行上述样例三元组的获取方法,包括:在预设的目标批次数据中筛选属于每一个指定人的所有第一样例,并将所述所有第一样例两两组合成以得到每一个指定人对应的多个样例二元组;选择所述多个样例二元组中的第一样例二元组,并计算第一样例二元组中的两个第一样例之间的第一矢量距离,以及分别计算第一样例二元组中指定的目标第一样例与每一个第二样例之间的第二矢量距离;其中,所述第二样例为预设的目标批次数据中除所述第一样例之外的样例数据;根据每一个第二矢量距离与所述第一矢量距离的差量,筛选最大差量对应的第二样例;将最大差量对应的所述第二样例与所述第一样例二元组组成所述第一样例二元组对应的多个样例三元组,从而得到所述目标批次数据中的各个指定人对应的每个样例二元组所对应的所有样例三元组。
上述计算机设备,通过将几万或几十万数量级的整个训练数据分成包含指定数量样例的小批次数据,然后在小批次数据中获取样例三元组,避免了样例三元组数量过于庞大而导致的模型训练速度缓慢、甚至无法顺畅训练的情况,加快训练模型的训练速度,且同时限定只获取与AP对矢量距离最大的候选N组成APN,最大化减少获取样例三元组的数量,提高训练速度,同时基于与AP对矢量距离最大的候选N组成的样例三元组APN的具有更好的数据代表性,在最大化提升训练速度的同时,优化训练模型的效果,使得筛选的样例三元组在整个训练数据中具有代表性,且对训练模型的训练过程更优,表现为训练模型的参量一致性好;通过在较小的批次数据范围内获取样例三元组,所产生的样例三元组可作为小批量随机梯度下降方法进行深度学习模型训练时的一个批量数据,一次性全部送入训练模型进行训练,避免了多次输入时训练模型参量发生改变,导致样例三元组相对于当前参量下的训练模型效用下降的情况;通过在较小批次数据范围内获取样例三元组且只选择与AP对矢量距离最大的候选N组成APN,使得获取的样例三元组和随后使用样例三元组进行模型训练可以连续进行,避免了因为训练数据太多,导致获取样例三元组后需要额外花费计算时间对样例三元组进行分批后再送入训练模型进行训练,提高了训练速度。
在一个实施例中,上述处理器在预设的目标批次数据中筛选属于每一个指定人的所有第一样例,并将所述所有第一样例两两组合以得到每一个指定人对应的多个样例二元组的步骤,包括:将训练数据拆分成包含指定数量样例的多个批次数据;将所述多个批次数据中的目标批次数据输入到预设训练模型中,通过预设训练模型的正向训练获取到所述每个批次数据中所述指定数量样例分别对应的矢量;筛选所述目标批次数据中属于某一指定人的所有第一样例,并将所述所有第一样例进行两两组合成多个样例二元组,其中第一样例包含与其对应的矢量。
在一个实施例中,上述处理器将最大差量对应的所述第二样例与所述第一样例二元组组成所述第一样例二元组对应的多个样例三元组的步骤之后,包括:将所述训练数据中的多个批次数据中所有第一样例二元组分别对应的所有样例三元组汇总成样例三元组训练集;将所述样例三元组训练集输入以Triplet Loss为损失函数的二分类网络模型中进行模型训练。
在一个实施例中,所述第一样例和所述第二样例为说话人的话语样例,所述二分类网络模型为说话人确认网络模型;上述处理器将所述样例三元组训练集输入以TripletLoss为损失函数的二分类网络模型中进行模型训练的步骤,包括:将说话人的话语样例组成的样例三元组训练集输入以Triplet Loss为损失函数的说话人确认网络模型中进行模型训练。
在一个实施例中,上述处理器将说话人的话语样例组成的样例三元组训练集输入以Triplet Loss为损失函数的说话人确认网络模型中进行模型训练的步骤,包括:将待测人的话语样例输入到训练好的所述说话人确认网络模型中;在说话人确认网络模型中计算待测人的话语样例中的第一语音特性与预注册人的第二语音特性的第一相似度;判断所述第一相似度是否在预设阈值范围内;若是,则判定待测人与预注册人为同一个人。
在一个实施例中,所述第一样例和所述第二样例为人脸影像的样例,所述二分类网络模型为人脸识别网络模型;上述处理器将所述样例三元组训练集输入以Triplet Loss为损失函数的二分类网络模型中进行模型训练的步骤,包括:将人脸影像组成的样例三元组训练集输入以Triplet Loss为损失函数的人脸识别网络模型中进行模型训练。
在一个实施例中,上述处理器将人脸影像组成的样例三元组训练集输入以Triplet Loss为损失函数的人脸识别网络模型中进行模型训练的步骤之后,包括:将待测人的人脸影像输入到训练好的所述人脸识别网络模型中;在人脸识别网络模型中计算待测人的人脸影像中的第一人脸特性与预注册人的第二人脸特性的第二相似度;判断所述第二相似度是否在预设阈值范围内;若是,则判定待测人与预注册人为同一个人。
在一个实施例中,上述处理器判定待测人与预注册人为同一个人的步骤之后,包括:控制装配所述说话人确认网络模型的安全认证系统展示通过认证。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现样例三元组的获取方法,包括:在预设的目标批次数据中筛选属于每一个指定人的所有第一样例,并将所述所有第一样例两两组合以得到每一个指定人对应的多个样例二元组;选择所述多个样例二元组中的第一样例二元组,并计算第一样例二元组中的两个第一样例之间的第一矢量距离,以及分别计算第一样例二元组中指定的目标第一样例与每一个第二样例之间的第二矢量距离;其中,所述第二样例为预设的目标批次数据中除所述第一样例之外的样例数据;根据每一个第二矢量距离与所述第一矢量距离的差量,筛选最大差量对应的第二样例;将最大差量对应的所述第二样例与所述第一样例二元组组成所述第一样例二元组对应的多个样例三元组,从而得到所述目标批次数据中的各个指定人对应的每个样例二元组所对应的所有样例三元组。
上述计算机可读存储介质,通过将几万或几十万数量级的整个训练数据分成包含指定数量样例的小批次数据,然后在小批次数据中获取样例三元组,避免了样例三元组数量过于庞大而导致的模型训练速度缓慢、甚至无法顺畅训练的情况,加快训练模型的训练速度,且同时限定只获取与AP对矢量距离最大的候选N组成APN,最大化减少获取样例三元组的数量,提高训练速度,同时基于与AP对矢量距离最大的候选N组成的样例三元组APN的具有更好的数据代表性,在最大化提升训练速度的同时,优化训练模型的效果,使得筛选的样例三元组在整个训练数据中具有代表性,且对训练模型的训练过程更优,表现为训练模型的参量一致性好;通过在较小的批次数据范围内获取样例三元组,所产生的样例三元组可作为小批量随机梯度下降方法进行深度学习模型训练时的一个批量数据,一次性全部送入训练模型进行训练,避免了多次输入时训练模型参量发生改变,导致样例三元组相对于当前参量下的训练模型效用下降的情况;通过在较小批次数据范围内获取样例三元组且只选择与AP对矢量距离最大的候选N组成APN,使得获取的样例三元组和随后使用样例三元组进行模型训练可以连续进行,避免了因为训练数据太多,导致获取样例三元组后需要额外花费计算时间对样例三元组进行分批后再送入训练模型进行训练,提高了训练速度。
在一个实施例中,上述处理器在预设的目标批次数据中筛选属于每一个指定人的所有第一样例,并将所述所有第一样例两两组合以得到每一个指定人对应的多个样例二元组的步骤,包括:将训练数据拆分成包含指定数量样例的多个批次数据;将所述多个批次数据中的目标批次数据输入到预设训练模型中,通过预设训练模型的正向训练获取到所述每个批次数据中所述指定数量样例分别对应的矢量;筛选所述目标批次数据中属于某一指定人的所有第一样例,并将所述所有第一样例进行两两组合形成多个样例二元组,其中第一样例包含与其对应的矢量。
在一个实施例中,上述处理器将最大差量对应的所述第二样例与所述第一样例二元组组成所述第一样例二元组对应的多个样例三元组的步骤之后,包括:将所述训练数据中的多个批次数据中所有第一样例二元组分别对应的所有样例三元组汇总成样例三元组训练集;将所述样例三元组训练集输入以Triplet Loss为损失函数的二分类网络模型中进行模型训练。
在一个实施例中,所述第一样例和所述第二样例为说话人的话语样例,所述二分类网络模型为说话人确认网络模型;上述处理器将所述样例三元组训练集输入以TripletLoss为损失函数的二分类网络模型中进行模型训练的步骤,包括:将说话人的话语样例组成的样例三元组训练集输入以Triplet Loss为损失函数的说话人确认网络模型中进行模型训练。
在一个实施例中,上述处理器将说话人的话语样例组成的样例三元组训练集输入以Triplet Loss为损失函数的说话人确认网络模型中进行模型训练的步骤,包括:将待测人的话语样例输入到训练好的所述说话人确认网络模型中;在说话人确认网络模型中计算待测人的话语样例中的第一语音特性与预注册人的第二语音特性的第一相似度;判断所述第一相似度是否在预设阈值范围内;若是,则判定待测人与预注册人为同一个人。
在一个实施例中,所述第一样例和所述第二样例为人脸影像的样例,所述二分类网络模型为人脸识别网络模型;上述处理器将所述样例三元组训练集输入以Triplet Loss为损失函数的二分类网络模型中进行模型训练的步骤,包括:将人脸影像组成的样例三元组训练集输入以Triplet Loss为损失函数的人脸识别网络模型中进行模型训练。
在一个实施例中,上述处理器将人脸影像组成的样例三元组训练集输入以Triplet Loss为损失函数的人脸识别网络模型中进行模型训练的步骤之后,包括:将待测人的人脸影像输入到训练好的所述人脸识别网络模型中;在人脸识别网络模型中计算待测人的人脸影像中的第一人脸特性与预注册人的第二人脸特性的第二相似度;判断所述第二相似度是否在预设阈值范围内;若是,则判定待测人与预注册人为同一个人。
在一个实施例中,上述处理器判定待测人与预注册人为同一个人的步骤之后,包括:控制装配所述说话人确认网络模型的安全认证系统展示通过认证。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种样例三元组的获取方法,其特征在于,包括:
在预设的目标批次数据中筛选属于每一个指定人的所有第一样例,并将所述所有第一样例两两组合以得到每一个指定人对应的多个样例二元组;
选择所述多个样例二元组中的第一样例二元组,并计算第一样例二元组中的两个第一样例之间的第一矢量距离,以及分别计算第一样例二元组中指定的目标第一样例与每一个第二样例之间的第二矢量距离;其中,所述第二样例为预设的目标批次数据中除所述第一样例之外的样例数据;
根据每一个第二矢量距离与所述第一矢量距离的差量,筛选最大差量对应的第二样例;
将最大差量对应的第二样例与所述第一样例二元组组成所述第一样例二元组对应的多个样例三元组,从而得到所述目标批次数据中的各个指定人对应的每个样例二元组所对应的所有样例三元组。
2.根据权利要求1所述的样例三元组的获取方法,其特征在于,所述在预设的目标批次数据中筛选属于每一个指定人的所有第一样例,并将所述所有第一样例两两组合以得到每一个指定人对应的多个样例二元组的步骤,包括:
将训练数据拆分成包含指定数量样例的多个批次数据;
将所述多个批次数据中的目标批次数据输入到预设训练模型中,通过预设训练模型的正向训练获取到所述每个批次数据中所述指定数量样例分别对应的矢量;
筛选所述目标批次数据中属于某一指定人的所有第一样例,并将所述所有第一样例进行两两组合形成多个样例二元组,其中所述第一样例包含与其对应的矢量。
3.根据权利要求1或2所述的样例三元组的获取方法,其特征在于,所述将最大差量对应的所述第二样例与所述第一样例二元组组成所述第一样例二元组对应的多个样例三元组的步骤之后,包括:
将所述训练数据中的所述多个批次数据中所有第一样例二元组分别对应的所有样例三元组汇总成样例三元组训练集;
将所述样例三元组训练集输入以Triplet Loss为损失函数的二分类网络模型中进行模型训练。
4.根据权利要求3所述的样例三元组的获取方法,其特征在于,所述第一样例和所述第二样例为说话人的话语样例,所述二分类网络模型为说话人确认网络模型;所述将所述样例三元组训练集输入以Triplet Loss为损失函数的二分类网络模型中进行模型训练的步骤,包括:
将所述说话人的话语样例组成的样例三元组训练集输入以Triplet Loss为损失函数的说话人确认网络模型中进行模型训练。
5.根据权利要求4所述的样例三元组的获取方法,其特征在于,所述将所述说话人的话语样例组成的样例三元组训练集输入以Triplet Loss为损失函数的说话人确认网络模型中进行模型训练的步骤之后,包括:
将待测人的话语样例输入到训练好的所述说话人确认网络模型中;
在所述说话人确认网络模型中计算所述待测人的话语样例中的第一语音特性与预注册人的第二语音特性的第一相似度;
判断所述第一相似度是否在预设阈值范围内;
若是,则判定所述待测人与所述预注册人为同一个人。
6.根据权利要求3所述的样例三元组的获取方法,其特征在于,所述第一样例和所述第二样例为人脸影像的样例,所述二分类网络模型为人脸识别网络模型;所述将所述样例三元组训练集输入以Triplet Loss为损失函数的二分类网络模型中进行模型训练的步骤,包括:
将所述人脸影像组成的样例三元组训练集输入以Triplet Loss为损失函数的人脸识别网络模型中进行模型训练。
7.根据权利要求6所述的样例三元组的获取方法,其特征在于,所述将所述人脸影像组成的样例三元组训练集输入以Triplet Loss为损失函数的人脸识别网络模型中进行模型训练的步骤之后,包括:
将待测人的人脸影像输入到训练好的所述人脸识别网络模型中;
在所述人脸识别网络模型中计算所述待测人的人脸影像中的第一人脸特性与预注册人的第二人脸特性的第二相似度;
判断所述第二相似度是否在预设阈值范围内;
若是,则判定所述待测人与所述预注册人为同一个人。
8.一种样例三元组的获取装置,其特征在于,包括:
第一筛选模块,用于在预设的目标批次数据中筛选属于每一个指定人的所有第一样例,并将所述所有第一样例两两组合以得到每一个指定人对应的多个多个样例二元组;
计算模块,用于选择所述多个样例二元组中的第一样例二元组,并计算第一样例二元组中的两个第一样例之间的第一矢量距离,以及分别计算第一样例二元组中指定的目标第一样例与每一个第二样例之间的第二矢量距离;其中,所述第二样例为预设的目标批次数据中除所述第一样例之外的样例数据;
第二筛选模块,用于根据每一个所述第二矢量距离与所述第一矢量距离的差量,筛选最大差量对应的第二样例;
第一组成模块,用于将最大差量对应的第二样例与所述第一样例二元组组成所述第一样例二元组对应的多个样例三元组,从而得到所述目标批次数据中的各个指定人对应的每个样例二元组所对应的所有样例三元组。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN201810557202.4A 2018-06-01 2018-06-01 样例三元组的获取方法、装置、计算机设备以及存储介质 Active CN108830201B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810557202.4A CN108830201B (zh) 2018-06-01 2018-06-01 样例三元组的获取方法、装置、计算机设备以及存储介质
PCT/CN2018/095462 WO2019227614A1 (zh) 2018-06-01 2018-07-12 样例三元组的获取方法、装置、计算机设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810557202.4A CN108830201B (zh) 2018-06-01 2018-06-01 样例三元组的获取方法、装置、计算机设备以及存储介质

Publications (2)

Publication Number Publication Date
CN108830201A true CN108830201A (zh) 2018-11-16
CN108830201B CN108830201B (zh) 2020-06-23

Family

ID=64146854

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810557202.4A Active CN108830201B (zh) 2018-06-01 2018-06-01 样例三元组的获取方法、装置、计算机设备以及存储介质

Country Status (2)

Country Link
CN (1) CN108830201B (zh)
WO (1) WO2019227614A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108417217A (zh) * 2018-01-11 2018-08-17 苏州思必驰信息科技有限公司 说话人识别网络模型训练方法、说话人识别方法及系统
CN110660484A (zh) * 2019-08-01 2020-01-07 平安科技(深圳)有限公司 骨龄预测方法、装置、介质及电子设备
CN111145761A (zh) * 2019-12-27 2020-05-12 携程计算机技术(上海)有限公司 模型训练的方法、声纹确认的方法、系统、设备及介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111325242A (zh) * 2020-02-03 2020-06-23 Oppo广东移动通信有限公司 一种图像的分类方法、终端及计算机存储介质
CN113269125B (zh) * 2021-06-10 2024-05-14 北京中科闻歌科技股份有限公司 一种人脸识别方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103548041A (zh) * 2011-06-28 2014-01-29 国际商业机器公司 用于确定主观层级聚类中的每个特征的权重的信息处理装置、方法和程序
US20160034814A1 (en) * 2014-08-01 2016-02-04 University Of Southern California Noise-boosted back propagation and deep learning neural networks
CN105389471A (zh) * 2015-11-19 2016-03-09 电子科技大学 一种机器学习训练集缩减方法
CN106096538A (zh) * 2016-06-08 2016-11-09 中国科学院自动化研究所 基于定序神经网络模型的人脸识别方法及装置
CN106682233A (zh) * 2017-01-16 2017-05-17 华侨大学 一种基于深度学习与局部特征融合的哈希图像检索方法
CN107679078A (zh) * 2017-08-29 2018-02-09 银江股份有限公司 一种基于深度学习的卡口图像车辆快速检索方法及系统
CN108417217A (zh) * 2018-01-11 2018-08-17 苏州思必驰信息科技有限公司 说话人识别网络模型训练方法、说话人识别方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7392161B2 (en) * 2004-09-24 2008-06-24 International Business Machines Corporation Identifying a state of a system using an artificial neural network generated model
US9208219B2 (en) * 2012-02-09 2015-12-08 Stroz Friedberg, LLC Similar document detection and electronic discovery
CN105740327B (zh) * 2016-01-22 2019-04-19 天津中科智能识别产业技术研究院有限公司 一种基于用户偏好的自适应采样方法
CN106484675A (zh) * 2016-09-29 2017-03-08 北京理工大学 融合分布式语义和句义特征的人物关系抽取方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103548041A (zh) * 2011-06-28 2014-01-29 国际商业机器公司 用于确定主观层级聚类中的每个特征的权重的信息处理装置、方法和程序
US20160034814A1 (en) * 2014-08-01 2016-02-04 University Of Southern California Noise-boosted back propagation and deep learning neural networks
CN105389471A (zh) * 2015-11-19 2016-03-09 电子科技大学 一种机器学习训练集缩减方法
CN106096538A (zh) * 2016-06-08 2016-11-09 中国科学院自动化研究所 基于定序神经网络模型的人脸识别方法及装置
CN106682233A (zh) * 2017-01-16 2017-05-17 华侨大学 一种基于深度学习与局部特征融合的哈希图像检索方法
CN107679078A (zh) * 2017-08-29 2018-02-09 银江股份有限公司 一种基于深度学习的卡口图像车辆快速检索方法及系统
CN108417217A (zh) * 2018-01-11 2018-08-17 苏州思必驰信息科技有限公司 说话人识别网络模型训练方法、说话人识别方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张新等: ""支持向量回归机训练集的并行预处理方法"", 《山东科技大学学报》 *
朱方等: ""一种新的支持向量机大规模训练样本集缩减策略"", 《计算机应用》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108417217A (zh) * 2018-01-11 2018-08-17 苏州思必驰信息科技有限公司 说话人识别网络模型训练方法、说话人识别方法及系统
CN110660484A (zh) * 2019-08-01 2020-01-07 平安科技(深圳)有限公司 骨龄预测方法、装置、介质及电子设备
CN111145761A (zh) * 2019-12-27 2020-05-12 携程计算机技术(上海)有限公司 模型训练的方法、声纹确认的方法、系统、设备及介质
CN111145761B (zh) * 2019-12-27 2022-05-24 携程计算机技术(上海)有限公司 模型训练的方法、声纹确认的方法、系统、设备及介质

Also Published As

Publication number Publication date
CN108830201B (zh) 2020-06-23
WO2019227614A1 (zh) 2019-12-05

Similar Documents

Publication Publication Date Title
CN108830201A (zh) 样例三元组的获取方法、装置、计算机设备以及存储介质
CN110287296A (zh) 一种问题答案选取方法、装置、计算机设备及存储介质
CN107492382A (zh) 基于神经网络的声纹信息提取方法及装置
CN106503236A (zh) 基于人工智能的问题分类方法以及装置
CN109977234A (zh) 一种基于主题关键词过滤的知识图谱补全方法
CN103678271B (zh) 一种文本校正方法及用户设备
CN108228576A (zh) 文本翻译方法及装置
CN108427665A (zh) 一种基于lstm型rnn模型的文本自动生成方法
CN108052625A (zh) 一种实体精细分类方法
CN110147833A (zh) 人像处理方法、装置、系统和可读存储介质
CN105845130A (zh) 用于语音识别的声学模型训练方法及装置
CN111104975A (zh) 一种基于广度学习的信用评估模型
CN108256473A (zh) 用于数据扩增的方法、装置和系统、计算机可读存储介质
CN110223699A (zh) 一种说话人身份确认方法、装置及存储介质
CN111091809B (zh) 一种深度特征融合的地域性口音识别方法及装置
Sparsam et al. Macroeconomics and monetary policy as autonomous domains of knowledge and power: Rational expectations, monetarism and the Federal Reserve
CN108090044A (zh) 联系方式的识别方法和装置
CN104572820B (zh) 模型的生成方法及装置、重要度获取方法及装置
CN116758379A (zh) 一种图像处理方法、装置、设备及存储介质
CN115578593B (zh) 一种使用残差注意力模块的域适应方法
CN111832787A (zh) 教师风格预测模型的训练方法及计算机存储介质
CN115080736A (zh) 一种判别式语言模型的模型调整方法及装置
CN108922542A (zh) 样例三元组的获取方法、装置、计算机设备以及存储介质
CN107315787A (zh) 用于车辆故障问答系统的数据处理方法及装置
US20230281394A1 (en) Information processing device and information processing method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant