CN108922542A - 样例三元组的获取方法、装置、计算机设备以及存储介质 - Google Patents
样例三元组的获取方法、装置、计算机设备以及存储介质 Download PDFInfo
- Publication number
- CN108922542A CN108922542A CN201810557204.3A CN201810557204A CN108922542A CN 108922542 A CN108922542 A CN 108922542A CN 201810557204 A CN201810557204 A CN 201810557204A CN 108922542 A CN108922542 A CN 108922542A
- Authority
- CN
- China
- Prior art keywords
- sample
- training
- data
- triple
- vector distance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000012216 screening Methods 0.000 claims abstract description 52
- 238000012549 training Methods 0.000 claims description 319
- 238000012795 verification Methods 0.000 claims description 51
- 241001269238 Data Species 0.000 claims description 31
- 230000006870 function Effects 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 13
- 239000000203 mixture Substances 0.000 claims description 12
- 238000010187 selection method Methods 0.000 claims 2
- 230000000694 effects Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 10
- 238000012790 confirmation Methods 0.000 description 8
- 238000009826 distribution Methods 0.000 description 8
- 230000015572 biosynthetic process Effects 0.000 description 6
- 238000013136 deep learning model Methods 0.000 description 5
- 239000003086 colorant Substances 0.000 description 4
- 230000007423 decrease Effects 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000012797 qualification Methods 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 230000000903 blocking effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/08—Use of distortion metrics or a particular distance between probe pattern and reference templates
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/32—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
- H04L9/3226—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials using a predetermined code, e.g. password, passphrase or PIN
- H04L9/3231—Biological data, e.g. fingerprint, voice or retina
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Security & Cryptography (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Game Theory and Decision Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Business, Economics & Management (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明揭示了样例三元组的获取方法,包括:在预设的目标批次数据中筛选属于每一个指定人的所有第一样例,并将所述所有第一样例两两组合以得到每一个指定人对应的多个样例二元组;选择所述多个样例二元组中的第一样例二元组,并计算第一样例二元组中的两个第一样例之间的第一矢量距离,以及分别计算第一样例二元组中指定的目标第一样例与每一个第二样例之间的第二矢量距离;其中,所述第二样例为预设的目标批次数据中除所述第一样例之外的样例数据;根据每一个第二矢量距离与所述第一矢量距离的差量,筛选满足预设条件的第二样例;将满足预设条件的第二样例与所述第一样例二元组分别组成所述第一样例二元组对应的多个样例三元组。
Description
技术领域
本申请涉及到机器学习领域,特别是涉及到样例三元组的获取方法、装置、计算机设备以及存储介质。
背景技术
现有的样例三元组的选择是从整个训练数据中筛选的,导致样例三元组的总数量严重膨胀,其总数量的数量级跟样例数量的数量级是一个三次方的比例关系,导致现有方法挑选出的样例三元组需要分批输入到网络模型中进行模型训练,但由于将每一分批的样例三元组送入训练模型中进行模型训练时,都会更改训练模型参数,使得训练模型训练时的各分批次的训练模型参量不同,使得后批次进入训练模型的样例三元组与训练模型的当前参量产生不匹配,样例三元组的效用逐渐下降。因此,从批次数量中合理挑选样例三元组成为亟待解决的问题。
发明内容
本申请的主要目的为提供一种样例三元组的获取方法,旨在解决现有样例三元组的获取方法严重影响深度学习模型在训练过程中的参量一致性。
本申请提出一种样例三元组的获取方法,包括:
在预设的目标批次数据中筛选属于每一个指定人的所有第一样例,并将所述所有第一样例两两组合以得到每一个指定人对应的成多个样例二元组;
选择所述多个样例二元组中的第一样例二元组,并计算第一样例二元组中的两个第一样例之间的第一矢量距离,以及分别计算第一样例二元组中指定的目标第一样例与每一个第二样例之间的第二矢量距离;其中,所述第二样例为预设的批次数据中除所述第一样例之外的样例数据;
根据每一个第二矢量距离与所述第一矢量距离的差量,筛选满足预设条件的第二样例;
将满足预设条件的第二样例与所述第一样例二元组分别组成所述第一样例二元组对应的多个样例三元组,从而得到所述目标批次数据中的各个指定人对应的每个样例二元组所对应的所有样例三元组。
优选地,所述在预设的目标批次数据中筛选属于每一个指定人的所有第一样例,并将所述所有第一样例两两组合以得到每一个指定人对应的多个样例二元组的步骤,包括:
将训练数据拆分成包含指定数量样例的多个批次数据;
将所述多个批次数据中的目标批次数据输入到预设训练模型中,通过预设训练模型的正向训练获取到所述每个批次数据中所述指定数量样例分别对应的矢量;
筛选所述目标批次数据中属于某一指定人的所有第一样例,并将所述所有第一样例进行两两组合形成多个样例二元组,其中第一样例包含与其对应的矢量。
优选地,所述根据每一个第二矢量距离与所述第一矢量距离的差量,筛选满足预设条件的第二样例的步骤,包括:
判断所述第二矢量距离与所述第一矢量距离的差量是否大于零;
若是,则判定满足预设条件。
优选地,所述根据每一个第二矢量距离与所述第一矢量距离的差量,筛选满足预设条件的第二样例的步骤,还包括:
判断所述第二矢量距离与所述第一矢量距离是否大于预设正值α;
若是,则判定满足预设条件。
优选地,所述将满足预设条件的第二样例与所述第一样例二元组分别组成所述第一样例二元组对应的多个样例三元组的步骤之后,包括:
将所述训练数据中的多个批次数据中所有第一样例二元组分别对应的所有样例三元组汇总成样例三元组训练集;
将所述样例三元组训练集输入以Triplet Loss为损失函数的二分类网络模型中进行模型训练。
优选地,所述第一样例和所述第二样例为说话人的话语样例,所述二分类网络模型为说话人确认网络模型;所述将所述样例三元组训练集输入以Triplet Loss为损失函数的二分类网络模型中进行模型训练的步骤,包括:
将说话人的话语样例组成的样例三元组训练集输入以Triplet Loss为损失函数的说话人确认网络模型中进行模型训练。
优选地,所述将说话人的话语样例组成的样例三元组训练集输入以Triplet Loss为损失函数的说话人确认网络模型中进行模型训练的步骤之后,包括:
将待测人的话语样例输入到训练好的所述说话人确认网络模型中;
在说话人确认网络模型中计算待测人的话语样例中的第一语音特性与预注册人的第二语音特性的相似度;
判断所述相似度是否在预设阈值范围内;
若是,则判定待测人与预注册人为同一个人。
优选地,所述判定待测人与预注册人为同一个人的步骤之后,包括:
控制装配所述说话人确认网络模型的安全认证系统展示通过认证。
本申请还提供了一种样例三元组的获取装置,包括:
第一筛选模块,用于在预设的目标批次数据中筛选属于每一个指定人的所有第一样例,并将所述所有第一样例两两组合以得到每一个指定人对应的多个样例二元组;
计算模块,用于选择所述多个样例二元组中的第一样例二元组,并计算第一样例二元组中的两个第一样例之间的第一矢量距离,以及分别计算第一样例二元组中指定的目标第一样例与每一个第二样例之间的第二矢量距离;其中,所述第二样例为预设的目标批次数据中除所述第一样例之外的样例数据;
第二筛选模块,用于根据每一个第二矢量距离与所述第一矢量距离的差量,筛选满足预设条件的第二样例;
第一组成模块,用于将满足预设条件的第二样例与所述第一样例二元组分别组成所述第一样例二元组对应的多个样例三元组,从而得到所述目标批次数据中的各个指定人对应的每个样例二元组所对应的所有样例三元组。
本申请还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。
本申请通过将几万或几十万数量级的整个训练数据分成包含指定数量样例的小批次数据,然后在小批次数据中挑选样例三元组,避免了样例三元组数量过于庞大而导致的模型训练速度缓慢、甚至无法顺畅训练的情况,加快训练模型的训练速度,且同时限定样例三元组的筛选规则,使得筛选的样例三元组在整个训练数据中的代表性更好;本申请在较小的批次数据范围内挑选样例三元组,所产生的样例三元组可作为小批量随机梯度下降方法进行深度学习模型训练时的一个批量数据,一次性全部送入训练模型进行训练,避免了多次输入时训练模型参量发生改变,导致样例三元组相对于当前参量下的训练模型效用下降的情况;本申请在较小批次数据范围内挑选样例三元组,使得挑选的样例三元组和随后使用样例三元组进行模型训练可以连续进行,避免了因为训练数据太多,导致挑选样例三元组后需要额外花费计算时间对样例三元组进行分批后再送入训练模型进行训练,提高了训练速度。
附图说明
图1本申请一实施例的样例三元组的获取方法的流程示意图;
图2本申请一实施例的样例三元组的获取装置的结构示意图;
图3本申请一实施例的第一筛选模块的结构示意图;
图4本申请一实施例的第二筛选模块的结构示意图;
图5本申请另一实施例的第二筛选模块的结构示意图;
图6本申请另一实施例的样例三元组的获取装置的结构示意图;
图7本申请一实施例的输入模块的结构示意图;
图8本申请一实施例的输入单元的结构示意图;
图9本申请一实施例的计算机设备的内部结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请一实施例的样例三元组的获取方法,包括:
S1:在预设的目标批次数据中筛选属于每一个指定人的所有第一样例,并将所述所有第一样例两两组合以得到每一个指定人对应的多个样例二元组。
本实施例的指定人为泛指,上述指定人的样例数据为批次数据的子集,本实施例通过定义指定人的样例数据为第一样例,以区别于批次数据中指定人之外的其他人的样例数据,此处“第一”仅为区别,不作限定。举例地,批次数据A中,包括a、b、c、d、e、f等M个人的样例数据,上述指定人可以为a、b、c、d、e、f等人中的任意一个,比如指定a为指定人,则将属于a的所有样例数据按照两两组合的方式组配二元组AP对(Anchor,Positive对),比如,属于a的所有样例数据为10个,则AP对的数量对应为C7 2;除a之外的其他人的样例数据成为样例三元组APN的候选N(Negative)。本实施例通过分别对M个人中分别属于各自的样例数据,分别进行两两组合形成每个人相对的二元组AP对,然后再筛选合适的N组成样例三元组APN,以便形成可用于训练模型训练的、具有数据代表性的样例三元组数据集合,提高训练模型的训练时效性以及实用性。
S2:选择多个样例二元组中的第一样例二元组,并计算第一样例二元组中的两个第一样例之间的第一矢量距离,以及分别计算第一样例二元组中指定的目标第一样例与每一个第二样例之间的第二矢量距离;其中,所述第二样例为预设的目标批次数据中除所述第一样例之外的样例数据。
本实施例通过定义批次数据中某一指定人之外的样例数据为第二样例,以区别于第一样例,此处“第二”同上述“第一”仅为区别,不作限定其他部分的“第一”、“第二”的作用相同,不赘述。本实施例的第一矢量距离为第一样例二元组AP对的矢量距离,第二矢量距离为第一样例二元组AP对中的A与候选N之间的矢量距离,其中A为第一样例二元组中指定的第一样例。
S3:根据每一个第二矢量距离与所述第一矢量距离的差量,筛选满足预设条件的第二样例。
本实施例的预设条件限定为第二矢量距离AN与第一矢量距离AP的差量大于某一值,以便合理筛选候选N,以减少筛选到的候选N的数量,降低样例三元组的数量,且同时提高样例三元组在整个训练数据中的代表性,提高训练模型的训练效果。
S4:将满足预设条件的第二样例与所述第一样例二元组分别组成所述第一样例二元组对应的多个样例三元组,从而得到所述目标批次数据中的各个指定人对应的每个样例二元组所对应的所有样例三元组。
本实施例通过在批次数据中筛选合适的样例三元组为例,通过对第一样例二元组与其对应的满足预设条件的第二样例,组成第一样例二元组对应的样例三元组集合,并将整个批次数据中所有样例二元组分别对应的样例三元组集合,汇总成批次数据对应的样例三元组大集合,作为训练模型的训练数据输入,大大减少了训练模型在训练中需要输入的数据量,加快了训练模型的训练速度,避免了将所有训练数据输入到训练模型中进行训练时易发生的训练缓慢或训练堵塞中断等现象。而且本申请通过限定第二矢量距离AN与第一矢量距离AP相距指定差量,以优化样例三元组的组配合理性,减少训练数据偏差,提高样例三元组在整个训练数据中的代表性,使得输入较少的训练数据量却训练得到更具有实用性的训练模型。本实施例对批次数据中的任一指定人的样例数据进行排列组合形成AP对,并将指定人的任一AP对分别与所有的满足预设条件的候选N组成样例三元组APN,通过对批次数据中所有人的所有AP对进行组配样例三元组APN,将批次数据优化成具有一定数量的样例三元组APN的集合,以进一步优化输入到训练模型中的训练数据组成与分布,提高训练模型的训练效果。
本实施例的样例数据包括说话人的话语样例,用于训练说话人确认模型,并根据说话人确认模型实现对指定人所说的话语进行一对一确认,以便确定当前说话人与预注册说话人为同一个人;本申请其他实施例的样例数据包括人脸影像样例,用于训练人脸识别模型,并根据人脸识别模型实现对指定待识别人的人脸影像的一对一判定,即通过分析判定结果为是或否,以便确定待识别人与预注册人是否为同一个人。
进一步地,上述步骤S1,包括:
S10:将训练数据拆分成包含指定数量样例的多个批次数据。
本步骤的训练数据是指常规用于深度学习训练模型的训练数据的所有数据,训练数据总量包括几万或几十万数量级。本实施例通过将几万或几十万数量的大数量级的训练数据拆分成多个小数量的批次数据,以进一步限制组合的样例三元组的数量,以提高训练模型的训练效率,节省训练模型的训练耗费时间。本实施例的指定数量兼顾了训练模型在训练时的硬件设备计算能力和训练模型性能要求的双方面因素,本实施例优选指定数量为不大于128个样例数据,使得样例三元组只能在128个样例数据的批次数据范围中进行获取,经过排列组合形成的样例三元组的数量得到有效控制,使得训练模型在训练过程中能在GPU的有限储存容量下,可保证持续有效的高速计算能力,加快训练模型的训练速度;同时由于批次数据的总数量有限,使得每个批次数据中的样例三元组的数量不会过分膨胀,使得每个批次数据中产生的样例三元组集合中的所有样例三元组,都能一次性输入到训练模型中进行模型训练,避免了大批次训练数据分多批次输入时,会导致每批次输入数据时发生的训练模型参数跟随变更,使得样例三元组对训练模型的训练效用下降的弊端,本实施例通过将大数量级的数据先分成各批次数据,批次数据中的样例数据再形成样例三元组,有效控制样例三元组的总量,使得样例三元组可一次性输入到训练模型中进行模型训练,保证了训练模型的参数稳定性,使得训练模型具有良好的应用效果,表现为等错误率最低(等错率即正确数据的错误辨识误差与错误数据的误判通过误差相等)。本实施例的批次数据中包括M个人的样例数据,每个人的样例数据为R个,M取值远小于训练数据中的总人数,比如M为8至32之间,R为4-8之间,则满足批次数据的全部样例数量不大于128,其中,R包括相同的样例数据和不同的样例数据,当R个中的样例数据均不同时更能优化样例数据的分布状态,提高训练模型的优化效果;但若某一人的不同样例数据小于R,为满足数量R的要求,可允许使用部分重复数据。
S11:将所述多个批次数据中的目标批次数据输入到预设训练模型中,通过预设训练模型的正向训练获取到所述每个批次数据中所述指定数量样例分别对应的矢量。
本实施例通过训练模型的正向训练计算各输入样例分别对应的矢量值,以便根据两个样例之间的矢量距离合理组合样例三元组,提高样例三元组的组配合理性,减小各批次数据之间的偏差,提高训练模型的训练效果,比如:提高二分类训练模型的判断准确率。
S12:筛选所述目标批次数据中属于某一指定人的所有第一样例,并将所述所有第一样例两两组合成多个所述样例二元组,其中第一样例包含与其对应的矢量。
本实施例通过将某一指定人的所有样例数据定义为第一样例,并在第一样例中指定一个为A,其他的第一样例分别为P,依次排列组合形成AP对,并根据第一样例分别对应的各矢量,获取各AP对对应的第一矢量距离AP,以便根据第一矢量距离AP,在批次数中筛选符合预设条件的候选N,组成样例三元组APN。
进一步地,上述步骤S3,包括:
S30:判断所述第二矢量距离与所述第一矢量距离的差量是否大于零。
本实施例中通过‘第二矢量距离AN与第一矢量距离AP的差量大于零’为预设条件,对候选N的选择进行限定,以确保组配的样例三元组APN在整个训练数据中更有代表性,能够充分的代表整个训练数据中的全部数据的分布状态,以提高训练模型的有效性。
S31:若是,则判定满足预设条件。
本实施例通过上述限定条件在批次数据中筛选候选N,以限定候选N的获取范围,确保形成的样例三元组的总数量不至于过分膨胀而影响到训练模型的训练过程。本实施例优选‘第二矢量距离AN与第一矢量距离AP的差大于零’的候选N,以确保候选N与A和/或P相距一定的矢量距离,减少批次数据之间的训练偏差,提高样例三元组在整个批次数据中的代表性,以及批次数据在整个训练数据中的代表性。同时通过将不满足预设条件的其他人的样例数据舍弃掉,进一步减少训练模型的训练数据输入量,提高训练模型的训练速度。
进一步地,本申请另一实施例的步骤S3,包括:
S32:判断所述第二矢量距离与所述第一矢量距离的差量是否大于预设正值α。
本实施例中通过‘第二矢量距离AN与第一矢量距离AP的差量大于预设正值α’的条件对候选N的选择进行限定,其中预设正值α为任意一正值参量,以进一步增加组配的样例三元组APN的数据代表性,更能够充分的代表整个训练数据中的全部数据的分布状态,进一步提高训练模型的有效性。
S33:若是,则判定满足预设条件。
本实施例通过上述限定条件在批次数据中筛选候选N,通过限定第二矢量距离AN与第一矢量距离AP的差量大于预设正值α,以进一步减小候选N的获取范围,进一步确保形成的样例三元组的总数量不至于过分膨胀而影响训练模型的训练过程。本实施例优选‘第二矢量距离AN与第一矢量距离AP的差大于预设正值α’的候选N,以增加候选N与A和/或P相距的矢量距离,进一步减少满足预设条件的候选N的数量,减少各批次数据之间的数据偏差,进一步提高形成的样例三元组集合在整个训练数据中的代表性。在同一批次数据中,根据‘第二矢量距离AN与第一矢量距离AP的差大于预设正值α’组合的样例三元组的总数量,小于根据‘第二矢量距离AN与第一矢量距离AP的差大于零’的样例三元组的总数量,本实施例进一步减少了训练模型的训练数据的输入量,进一步提高训练模型的训练速度。
进一步地,上述步骤S4之后,包括:
S41:将所述训练数据中的多个批次数据中所有第一样例二元组分别对应的所有样例三元组汇总成样例三元组训练集。
本实施例先获取第一样例二元组与其对应的满足预设条件的第二样例,组成第一样例二元组对应的样例三元组集合。本实施例通过训练数据中的多个所述批次数据分别对应的第一子集汇总成样例三元组训练集,以获取从整个训练数据中优化筛选的样例三元组数据作为训练集。
S42:将所述样例三元组训练集输入以Triplet Loss为损失函数的二分类网络模型中进行模型训练。
本实施例的二分类网络模型是指只对输入数据进行‘是或否’判断的网络模型,举例地,人脸识别模型或说话人确认模型均为上述的二分类网络模型。本实施例的TripletLoss具有三个参数,则训练过程中需要同时输入三个样例数据才能完成训练模型的训练过程,因此本实施例的样例三元组APN的挑选方式对以Triplet Loss为损失函数的网络优化效果更加显著。本实施例将样例数据表示为(si,li),i=1,2,3,...N,其中si是样例数据本身,li是其对应的待测人。本实施例的Triplet Loss其具体计算方法如下:将所有样例数据(si,li)都输入到二分类网络模型中,得到各样例数据分别对应输出的矢量xi;从上述矢量xi中随机选取一个矢量作为xa,然后再随机选取另一个矢量作为xp,xa和xp应该属于同一个人;计算xa和xp之间的欧式距离si ap;设矢量xi=xi1,xi2...,xin,则si ap计算公式为随机选取另一个矢量作为xn,xa和xn分别属于不同的人;计算xa和xn之间的欧式距离si an;则损失函数L由下面的公式计算:其中a是常量,其取值范围在0.1至0.25之间,N是选取的样例三元组的个数。
进一步地,所述第一样例和所述第二样例为说话人的话语样例,所述二分类网络模型为说话人确认网络模型;上述步骤S42,包括:
S421:将说话人的话语样例组成的样例三元组训练集输入以Triplet Loss为损失函数的说话人确认网络模型中进行模型训练。
本实施例以用于说话人确认为例,人说话时发音器官和发音习惯的差异都以复杂的形势反映在说话人的语音特征中,使得每个人的话语都带有强烈的个人色彩,本实施例通过将话语样例中的语义信息平均化,挖掘出包含在话语样例中的说话人的个性因素,强调不同人之间的语音特征的特征差异。本实施例的指定数量为128,说话人的样例三元组包括说话人的话语样例组成的样例三元组。通过训练说话人确认网络模型训练,形成提取话语样例中的语速、音质、语音波形等语音特征的提取方式,以便通过比较语音特征的相似度,对待测说话人与预注册说话人进行一对一的确认,输出待测说话人与预注册说话人是同一人或待测说话人与预注册说话人不是同一人的确认结果。本实施例通过上述方法在众多说话人的话语样例中,先分成包含指定数量说话人的批次数据,并在批次数据中筛选合适的样例三元组APN,提高说话人确认网络模型的训练速度以及训练效果,以便扩展说话人确认网络模型的应用领域,包括在金融、证券、社保、公安、军队及其他民用安全认证等行业和部门满足相应的使用需求。
进一步地,上述步骤S421,包括:
S4211:将待测人的话语样例输入到训练好的所述说话人确认网络模型中。
本实施例的待测人的话语样例包括待测人的自然语音、合成语音等包含音质等一种或多种语音特征的语音样例。举例地,合成语音包括经过去除噪音处理的话语样例或经过去噪音处理并二次排列拼接的话语样例。合成语音中带有强烈的个人色彩的语音特征中至少一种语音特征保持不变,则可实现说话人确认。
S4212:在说话人确认网络模型中计算待测人的话语样例中的第一语音特性与预注册人的第二语音特性的相似度。
本实施例的待测人的话语样例中的第一语音特性与预注册人的第二语音特性的相似度,可通过欧式距离、马氏距离等进行判定,优选通过欧式距离进行判定。
S4213:判断所述相似度是否在预设阈值范围内。
举例地,本实施例的预设范围为待测人的话语样例中的第一语音特性与预注册人的第二语音特性的欧式距离大于0.9,表示相似度高或判定第一语音特性对应的待测人与第二语音特性对应定的预注册人为同一个人。
S4214:若是,则判定待测人与预注册人为同一个人。
进一步地,上述步骤S4214之后,包括:
S4215:控制装配所述说话人确认网络模型的安全认证系统展示通过认证。
本实施例通过将说话人确认网络模型的确认结果,转换成与其相关联的安全认证系统的控制指令,以提高说话人确认系统的实际应用效果。举例地,说话人确认网络模型的确认待测人与预注册人为同一个人后,待测人可打开安全认证系统控制的应用平台,使应用平台处于可使用的状态。本实施例展示的通过认证的方式包括但不限于对话框文本显示和/或语音播报和/或警示铃鸣声和/或警示灯的闪光方式等。
本实施例通过将几万或几十万数量级的整个训练数据分成包含指定数量样例的小批次数据,然后在小批次数据中获取样例三元组,避免了样例三元组数量过于庞大而导致的模型训练速度缓慢、甚至无法顺畅训练的情况,加快训练模型的训练速度,且同时限定样例三元组的筛选规则,使得筛选的样例三元组在整个训练数据中的代表性更好;本实施例在较小的批次数据范围内获取样例三元组,所产生的样例三元组可作为小批量随机梯度下降方法进行深度学习模型训练时的一个批量数据,一次性全部送入训练模型进行训练,避免了多次输入时训练模型参量发生改变,导致样例三元组相对于当前参量下的训练模型效用下降的情况;本实施例在较小批次数据范围内获取样例三元组,使得获取的样例三元组和随后使用样例三元组进行模型训练可以连续进行,避免了因为训练数据太多,导致获取样例三元组后需要额外花费计算时间对样例三元组进行分批后再送入训练模型进行训练,后提高了训练速度。
参照图2,本申请还提供了一种样例三元组的获取装置,包括:
第一筛选模块1,用于在预设的目标批次数据中筛选属于每一个指定人的所有第一样例,并将所述所有第一样例两两组合以得到每一个指定人对应的多个样例二元组;
本实施例的指定人为泛指,上述指定人的样例数据为批次数据的子集,本实施例通过定义指定人的样例数据为第一样例,以区别于批次数据中指定人之外的其他人的样例数据,此处“第一”仅为区别,不作限定。举例地,批次数据A中,包括a、b、c、d、e、f等M个人的样例数据,上述指定人可以为a、b、c、d、e、f等人中的任意一个,比如指定a为指定人,则将属于a的所有样例数据按照两两组合的方式组配二元组AP对(Anchor,Positive对),比如,属于a的所有样例数据为10个,则AP对的数量对应为C7 2;除a之外的其他人的样例数据成为样例三元组APN的候选N(Negative)。本实施例通过分别对M个人中分别属于各自的样例数据,分别进行两两组合形成每个人相对的二元组AP对,然后再筛选合适的N组成样例三元组APN,以便形成可用于训练模型训练的、具有数据代表性的样例三元组数据集合,提高训练模型的训练时效性以及实用性。
计算模块2,用于选择多个样例二元组中的第一样例二元组,并计算第一样例二元组中的两个第一样例之间的第一矢量距离,以及分别计算第一样例二元组中指定的目标第一样例与每一个第二样例之间的第二矢量距离;其中,所述第二样例为预设的目标批次数据中除所述第一样例之外的样例数据。
本实施例通过定义批次数据中某一指定人之外的样例数据为第二样例,以区别于第一样例,此处“第二”同上述“第一”仅为区别,不作限定其他部分的“第一”、“第二”的作用相同,不赘述。本实施例的第一矢量距离为第一样例二元组AP对的矢量距离,第二矢量距离为第一样例二元组AP对中的A与候选N之间的矢量距离,其中A为第一样例二元组中指定的第一样例。
第二模块3,用于根据每一个第二矢量距离与所述第一矢量距离的差量,筛选满足预设条件的第二样例。
本实施例的预设条件限定为第二矢量距离AN与第一矢量距离AP的差量大于某一值,以便合理筛选候选N,以减少筛选到的候选N的数量,降低样例三元组的数量,且同时提高样例三元组在整个训练数据中的代表性,提高训练模型的训练效果。
第一组成模块4,用于将满足预设条件的所述第二样例与所述第一样例二元组分别组成所述第一样例二元组对应的多个样例三元组,从而得到所述目标批次数据中的各个指定人对应的每个样例二元组所对应的所有样例三元组。
本实施例通过在批次数据中筛选合适的样例三元组为例,通过对第一样例二元组与其对应的满足预设条件的第二样例,组成第一样例二元组对应的样例三元组集合,并将整个批次数据中所有样例二元组分别对应的样例三元组集合,汇总成批次数据对应的样例三元组大集合,作为训练模型的训练数据输入,大大减少了训练模型在训练中需要输入的数据量,加快了训练模型的训练速度,避免了将所有训练数据输入到训练模型中进行训练时易发生的训练缓慢或训练堵塞中断等现象。而且本申请通过限定第二矢量距离AN与第一矢量距离AP相距指定差量,以优化样例三元组的组配合理性,减少训练数据偏差,提高样例三元组在整个训练数据中的代表性,使得输入较少的训练数据量却训练得到更具有实用性的训练模型。本实施例对批次数据中的任一指定人的样例数据进行排列组合形成AP对,并将指定人的任一AP对分别与所有的满足预设条件的候选N组成样例三元组APN,通过对批次数据中所有人的所有AP对进行组配样例三元组APN,将批次数据优化成具有一定数量的样例三元组APN的集合,以进一步优化输入到训练模型中的训练数据组成与分布,提高训练模型的训练效果。
本实施例的样例数据包括说话人的话语样例,用于训练说话人确认模型,并根据说话人确认模型实现对指定人所说的话语进行一对一确认,以便确定当前说话人与预注册说话人为同一个人;本申请其他实施例的样例数据包括人脸影像样例,用于训练人脸识别模型,并根据人脸识别模型实现对指定待识别人的人脸影像的一对一判定,即通过分析判定结果为是或否,以便确定待识别人与预注册人是否为同一个人。
参照图3,上述第一筛选模块1,包括:
拆分单元10,用于将训练数据拆分成所述包含指定数量样例的多个批次数据。
本实施例的训练数据是指常规用于深度学习训练模型的训练数据的所有数据,训练数据总量包括几万或几十万数量级。本实施例通过将几万或几十万数量的大数量级的训练数据拆分成多个小数量的批次数据,以进一步限制组合的样例三元组的数量,以提高训练模型的训练效率,节省训练模型的训练耗费时间。本实施例的指定数量兼顾了训练模型在训练时的硬件设备计算能力和训练模型性能要求的双方面因素,本实施例优选指定数量为不大于128个样例数据,使得样例三元组只能在128个样例数据的批次数据范围中进行获取,经过排列组合形成的样例三元组的数量得到有效控制,使得训练模型在训练过程中能在GPU的有限储存容量下,可保证持续有效的高速计算能力,加快训练模型的训练速度;同时由于批次数据的总数量有限,使得每个批次数据中的样例三元组的数量不会过分膨胀,使得每个批次数据中产生的样例三元组集合中的所有样例三元组,都能一次性输入到训练模型中进行模型训练,避免了大批次训练数据分多批次输入时,会导致每批次输入数据时发生的训练模型参数跟随变更,使得样例三元组对训练模型的训练效用下降的弊端,本实施例通过将大数量级的数据先分成各批次数据,批次数据中的样例数据再形成样例三元组,有效控制样例三元组的总量,使得样例三元组可一次性输入到训练模型中进行模型训练,保证了训练模型的参数稳定性,使得训练模型具有良好的应用效果,表现为等错误率最低。本实施例的批次数据中包括M个人的样例数据,每个人的样例数据为R个,M取值远小于训练数据中的总人数,比如M为8至32之间,R为4-8之间,则满足批次数据的全部样例数量不大于128,其中,R包括相同的样例数据和不同的样例数据,当R个中的样例数据均不同时更能优化样例数据的分布状态,提高训练模型的优化效果;但若某一人的不同样例数据小于R,为满足数量R的要求,可允许使用部分重复数据。
获取单元11,用于将所述多个批次数据中的目标批次数据输入到预设训练模型中,通过预设训练模型的正向训练获取到所述每个批次数据中所述指定数量样例分别对应的矢量。
本实施例通过训练模型的正向训练计算各输入样例分别对应的矢量值,以便根据两个样例之间的矢量距离合理组合样例三元组,提高样例三元组的组配合理性,减小各批次数据之间的偏差,提高训练模型的训练效果,比如:提高二分类训练模型的判断准确率。
筛选单元12,用于筛选所述目标批次数据中属于某一指定人的所有第一样例,并将所述所有第一样例两两组合成多个所述样例二元组,其中第一样例包含与其对应的矢量。
本实施例通过将某一指定人的所有样例数据定义为第一样例,并在第一样例中指定一个为A,其他的第一样例分别为P,依次排列组合形成AP对,并根据第一样例分别对应的各矢量,获取各AP对对应的第一矢量距离AP,以便根据第一矢量距离AP,在批次数中筛选符合预设条件的候选N,组成样例三元组APN。
参照图4,本实施例的第二筛选模块3,包括:
第一判断单元30,用于判断所述第二矢量距离与所述第一矢量距离的差量是否大于零。
本实施例中通过‘第二矢量距离AN与第一矢量距离AP的差量大于零’为预设条件,对候选N的选择进行限定,以确保组配的样例三元组APN在整个训练数据中更有代表性,能够充分的代表整个训练数据中的全部数据的分布状态,以提高训练模型的有效性。
第一判定单元31,用于若差量大于零,则判定满足预设条件。
本实施例通过上述限定条件在批次数据中筛选候选N,以限定候选N的获取范围,确保形成的样例三元组的总数量不至于过分膨胀而影响到训练模型的训练过程。本实施例优选‘第二矢量距离AN与第一矢量距离AP的差大于零’的候选N,以确保候选N与A和/或P相距一定的矢量距离,减少批次数据之间的训练偏差,提高样例三元组在整个批次数据中的代表性,以及批次数据在整个训练数据中的代表性。同时通过将不满足预设条件的其他人的样例数据舍弃掉,进一步减少训练模型的训练数据输入量,提高训练模型的训练速度。
参照图5,本申请另一实施例的第二筛选模块3,包括:
第二判断单元32,用于判断所述第二矢量距离与所述第一矢量距离是否大于预设正值α。
本实施例中通过‘第二矢量距离AN与第一矢量距离AP的差量大于预设正值α’的条件对候选N的选择进行限定,其中预设正值α为任意一正值参量,以进一步增加组配的样例三元组APN的数据代表性,更能够充分的代表整个训练数据中的全部数据的分布状态,进一步提高训练模型的有效性。
第二判定单元33,用于若差量大于预设正值α,则判定满足预设条件。
本实施例通过上述限定条件在批次数据中筛选候选N,通过限定第二矢量距离AN与第一矢量距离AP的差量大于预设正值α,以进一步减小候选N的获取范围,进一步确保形成的样例三元组的总数量不至于过分膨胀而影响训练模型的训练过程。本实施例优选‘第二矢量距离AN与第一矢量距离AP的差大于预设正值α’的N,以增加候选N与A和/或P相距的矢量距离,进一步减少满足预设条件的候选N的数量,减少各批次数据之间的数据偏差,进一步提高形成的样例三元组集合在整个训练数据中的代表性。在同一批次数据中,根据‘第二矢量距离AN与第一矢量距离AP的差大于预设正值α’组合的样例三元组的总数量,小于根据‘第二矢量距离AN与第一矢量距离AP的差大于零’的样例三元组的总数量,本实施例进一步减少了训练模型的训练数据的输入量,进一步提高训练模型的训练速度。
参照图6,本申请另一实施例的样例三元组的获取装置,包括:
汇总模块41:将所述训练数据中的多个所述批次数据中所有第一样例二元组分别对应的所有样例三元组汇总成样例三元组训练集。
本实施例先获取第一样例二元组与其对应的满足预设条件的第二样例,组成第一样例二元组对应的样例三元组集合。本实施例通过训练数据中的多个所述批次数据分别对应的第一子集汇总成样例三元组训练集,以获取从整个训练数据中优化筛选的样例三元组数据作为训练集。
输入模块42,用于将所述样例三元组训练集输入以Triplet Loss为损失函数的二分类网络模型中进行模型训练。
本实施例的二分类网络模型是指只对输入数据进行‘是或否’判断的网络模型,举例地,人脸识别模型或说话人确认模型均为上述的二分类网络模型。本实施例的TripletLoss具有三个参数,则训练过程中需要同时输入三个样例数据才能完成训练模型的训练过程,因此本实施例的样例三元组APN的挑选方式对以Triplet Loss为损失函数的网络优化效果更加显著。本实施例将样例数据表示为(si,li),i=1,2,3,...N,其中si是样例数据本身,li是其对应的待测人。本实施例的Triplet Loss其具体计算方法如下:将所有样例数据(si,li)都输入到二分类网络模型中,得到各样例数据分别对应输出的矢量xi;从上述矢量xi中随机选取一个矢量作为xa,然后再随机选取另一个矢量作为xp,xa和xp应该属于同一个人;计算xa和xp之间的欧式距离si ap;设矢量xi=xi1,xi2...,xin,则si ap计算公式为随机选取另一个矢量作为xn,xa和xn分别属于不同的人;计算xa和xn之间的欧式距离si an;则损失函数L由下面的公式计算:其中a是常量,其取值范围在0.1至0.25之间,N是选取的样例三元组的个数。
参照图7,所述第一样例和所述第二样例为说话人的话语样例,所述二分类网络模型为说话人确认网络模型;上述的输入模块42,包括:
输入单元421,用于将说话人的话语样例组成的样例三元组训练集输入以TripletLoss为损失函数的说话人确认网络模型中进行模型训练。
本实施例以用于说话人确认为例,人说话时发音器官和发音习惯的差异都以复杂的形势反映在说话人的语音特征中,使得每个人的话语都带有强烈的个人色彩,本实施例通过将话语样例中的语义信息平均化,挖掘出包含在话语样例中的说话人的个性因素,强调不同人之间的语音特征的特征差异。本实施例的指定数量为128,说话人的样例三元组包括说话人的话语样例组成的样例三元组。通过训练说话人确认网络模型训练,形成提取话语样例中的语速、音质、语音波形等语音特征的提取方式,以便通过比较语音特征的相似度,对待测说话人与预注册说话人进行一对一的确认,输出待测说话人与预注册说话人是同一人或待测说话人与预注册说话人不是同一人的确认结果。本实施例通过上述方法在众多说话人的话语样例中,先分成包含指定数量说话人的批次数据,并在批次数据中筛选合适的样例三元组APN,提高说话人确认网络模型的训练速度以及训练效果,以便扩展说话人确认网络模型的应用领域,包括在金融、证券、社保、公安、军队及其他民用安全认证等行业和部门满足相应的使用需求。
参照图8,上述输入单元421,包括:
输入子单元4211,用于将待测人的话语样例输入到训练好的所述说话人确认网络模型中。
本实施例的待测人的话语样例包括待测人的自然语音、合成语音等包含音质等一种或多种语音特征的语音样例。举例地,合成语音包括经过去除噪音处理的话语样例或经过去噪音处理并二次排列拼接的话语样例。合成语音中带有强烈的个人色彩的语音特征中至少一种语音特征保持不变,则可实现说话人确认。
计算子单元4212,用于在说话人确认网络模型中计算待测人的话语样例中的第一语音特性与预注册人的第二语音特性的相似度。
本实施例的待测人的话语样例中的第一语音特性与预注册人的第二语音特性的相似度,可通过欧式距离、马氏距离等进行判定,优选通过欧式距离进行判定。
判断子单元4213,用于判断所述相似度是否在预设阈值范围内。
举例地,本实施例的预设范围为待测人的话语样例中的第一语音特性与预注册人的第二语音特性的欧式距离大于0.9,表示相似度高或判定第一语音特性对应的待测人与第二语音特性对应定的预注册人为同一个人。
判定子单元4214,用于若相似度在预设阈值范围内,则判定待测人与预注册人为同一个人。
进一步地,上述输入单元421,包括:
控制子单元4215,用于控制装配所述说话人确认网络模型的安全认证系统展示通过认证。
本实施例通过将说话人确认网络模型的确认结果,转换成与其相关联的安全认证系统的控制指令,以提高说话人确认系统的实际应用效果。举例地,说话人确认网络模型的确认待测人与预注册人为同一个人后,待测人可打开安全认证系统控制的应用平台,使应用平台处于可使用的状态。本实施例展示的通过认证的方式包括但不限于对话框文本显示和/或语音播报和/或警示铃鸣声和/或警示灯的闪光方式等。
参照图9,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储样例三元组的获取过程需要的所有数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现样例三元组的获取方法。
上述处理器执行上述样例三元组的获取方法,包括:在预设的目标批次数据中筛选属于每一个指定人的所有第一样例,并将所述所有第一样例两两组合以得到每一个指定人对应的多个样例二元组;选择所述多个样例二元组中的第一样例二元组,并计算第一样例二元组中的两个第一样例之间的第一矢量距离,以及分别计算第一样例二元组中指定的目标第一样例与每一个第二样例之间的第二矢量距离;其中,所述第二样例为预设的目标批次数据中除所述第一样例之外的样例数据;根据每一个第二矢量距离与所述第一矢量距离的差量,筛选满足预设条件的第二样例;将满足预设条件的第二样例与所述第一样例二元组分别组成所述第一样例二元组对应的多个样例三元组,从而得到所述目标批次数据中的各个指定人对应的每个样例二元组所对应的所有样例三元组。
上述计算机设备,通过将几万或几十万数量级的整个训练数据分成包含指定数量样例的小批次数据,然后在小批次数据中获取样例三元组,避免了样例三元组数量过于庞大而导致的模型训练速度缓慢、甚至无法顺畅训练的情况,加快训练模型的训练速度,且同时限定样例三元组的筛选规则,使得筛选的样例三元组在整个训练数据中的代表性更好;通过在较小的批次数据范围内获取样例三元组,所产生的样例三元组可作为小批量随机梯度下降方法进行深度学习模型训练时的一个批量数据,一次性全部送入训练模型进行训练,避免了多次输入时训练模型参量发生改变,导致样例三元组相对于当前参量下的训练模型效用下降的情况;通过在较小批次数据范围内获取样例三元组,使得获取的样例三元组和随后使用样例三元组进行模型训练可以连续进行,避免了因为训练数据太多,导致获取样例三元组后需要额外花费计算时间对样例三元组进行分批后再送入训练模型进行训练,后提高了训练速度。
在一个实施例中,上述处理器所述在预设的目标批次数据中筛选属于每一个指定人的所有第一样例,并将所述所有第一样例两两组合以得到每一个指定人对应的多个样例二元组的步骤,包括:将训练数据拆分成包含指定数量样例的多个批次数据;将所述多个批次数据中的目标批次数据输入到预设训练模型中,通过预设训练模型的正向训练获取到所述每个批次数据中所述指定数量样例分别对应的矢量;筛选所述目标批次数据中属于某一指定人的所有第一样例,并将所述所有第一样例进行两两组合形成多个样例二元组,其中第一样例包含与其对应的矢量。
在一个实施例中,上述处理器根据每一个第二矢量距离与所述第一矢量距离的差量,筛选满足预设条件的第二样例的步骤,包括:判断所述第二矢量距离与所述第一矢量距离的差量是否大于零;若是,则判定满足预设条件。
在一个实施例中,上述处理器根据每一个第二矢量距离与所述第一矢量距离的差量,筛选满足预设条件的第二样例的步骤,还包括:判断所述第二矢量距离与所述第一矢量距离是否大于预设正值α;若是,则判定满足预设条件。
在一个实施例中,将满足预设条件的第二样例与所述第一样例二元组分别组成所述第一样例二元组对应的多个样例三元组的步骤之后,包括:将所述训练数据中的多个所述批次数据中所有第一样例二元组分别对应的所有样例三元组汇总成样例三元组训练集;将所述样例三元组训练集输入以Triplet Loss为损失函数的二分类网络模型中进行模型训练。
在一个实施例中,所述第一样例和所述第二样例为说话人的话语样例,所述二分类网络模型为说话人确认网络模型;上述处理器将所述样例三元组训练集输入以TripletLoss为损失函数的二分类网络模型中进行模型训练的步骤,包括:将说话人的话语样例组成的样例三元组训练集输入以Triplet Loss为损失函数的说话人确认网络模型中进行模型训练。
在一个实施例中,上述处理器将说话人的话语样例组成的样例三元组训练集输入以Triplet Loss为损失函数的说话人确认网络模型中进行模型训练的步骤,包括:将待测人的话语样例输入到训练好的所述说话人确认网络模型中;在说话人确认网络模型中计算待测人的话语样例中的第一语音特性与预注册人的第二语音特性的相似度;判断所述相似度是否在预设阈值范围内;若是,则判定待测人与预注册人为同一个人。
在一个实施例中,上述处理器判定待测人与预注册人为同一个人的步骤之后,包括:控制装配所述说话人确认网络模型的安全认证系统展示通过认证。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现样例三元组的获取方法,包括:在预设的目标批次数据中筛选属于每一个指定人的所有第一样例,并将所述所有第一样例两两组合以得到每一个指定人对应的多个样例二元组;选择所述多个样例二元组中的第一样例二元组,并计算第一样例二元组中的两个第一样例之间的第一矢量距离,以及分别计算第一样例二元组中指定的目标第一样例与每一个第二样例之间的第二矢量距离;其中,所述第二样例为预设的目标批次数据中除所述第一样例之外的样例数据;根据每一个第二矢量距离与所述第一矢量距离的差量,筛选满足预设条件的第二样例;将满足预设条件的第二样例与所述第一样例二元组分别组成所述第一样例二元组对应的多个样例三元组,从而得到所述目标批次数据中的各个指定人对应的每个样例二元组所对应的所有样例三元组。
上述计算机可读存储介质,通过将几万或几十万数量级的整个训练数据分成包含指定数量样例的小批次数据,然后在小批次数据中获取样例三元组,避免了样例三元组数量过于庞大而导致的模型训练速度缓慢、甚至无法顺畅训练的情况,加快训练模型的训练速度,且同时限定样例三元组的筛选规则,使得筛选的样例三元组在整个训练数据中的代表性更好;通过在较小的批次数据范围内获取样例三元组,所产生的样例三元组可作为小批量随机梯度下降方法进行深度学习模型训练时的一个批量数据,一次性全部送入训练模型进行训练,避免了多次输入时训练模型参量发生改变,导致样例三元组相对于当前参量下的训练模型效用下降的情况;通过在较小批次数据范围内获取样例三元组,使得获取的样例三元组和随后使用样例三元组进行模型训练可以连续进行,避免了因为训练数据太多,导致获取样例三元组后需要额外花费计算时间对样例三元组进行分批后再送入训练模型进行训练,后提高了训练速度。
在一个实施例中,上述处理器在预设的目标批次数据中筛选属于每一个指定人的所有第一样例,并将所述所有第一样例两两组合以得到每一个指定人对应的多个样例二元组的步骤,包括:将训练数据拆分成包含指定数量样例的多个批次数据;将所述多个批次数据中的目标批次数据输入到预设训练模型中,通过预设训练模型的正向训练获取到所述每个批次数据中所述指定数量样例分别对应的矢量;筛选所述目标批次数据中属于某一指定人的所有第一样例,并将所述所有第一样例进行两两组合形成多个样例二元组,其中第一样例包含与其对应的矢量。
在一个实施例中,上述处理器根据每一个第二矢量距离与所述第一矢量距离的差量,筛选满足预设条件的第二样例的步骤,包括:判断所述第二矢量距离与所述第一矢量距离的差量是否大于零;若是,则判定满足预设条件。
在一个实施例中,上述处理器根据每一个第二矢量距离与所述第一矢量距离的差量,筛选满足预设条件的第二样例的步骤,还包括:判断所述第二矢量距离与所述第一矢量距离是否大于预设正值α;若是,则判定满足预设条件。
在一个实施例中,将满足预设条件的第二样例与所述第一样例二元组分别组成所述第一样例二元组对应的多个样例三元组的步骤之后,包括:将所述训练数据中的多个批次数据中所有第一样例二元组分别对应的所有样例三元组汇总成样例三元组训练集;将所述样例三元组训练集输入以Triplet Loss为损失函数的二分类网络模型中进行模型训练。
在一个实施例中,所述第一样例和所述第二样例为说话人的话语样例,所述二分类网络模型为说话人确认网络模型;上述处理器将所述样例三元组训练集输入以TripletLoss为损失函数的二分类网络模型中进行模型训练的步骤,包括:将指定数量说话人的话语样例组成的样例三元组训练集输入以Triplet Loss为损失函数的说话人确认网络模型中进行模型训练。
在一个实施例中,上述处理器将指定数量说话人的话语样例的样例三元组输入以Triplet Loss为损失函数的说话人确认网络模型中进行模型训练的步骤,包括:将待测人的话语样例输入到训练好的所述说话人确认网络模型中;在说话人确认网络模型中计算待测人的话语样例中的第一语音特性与预注册人的第二语音特性的相似度;判断所述相似度是否在预设阈值范围内;若是,则判定待测人与预注册人为同一个人。
在一个实施例中,上述处理器判定待测人与预注册人为同一个人的步骤之后,包括:控制装配所述说话人确认网络模型的安全认证系统展示通过认证。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种样例三元组的获取方法,其特征在于,包括:
在预设的目标批次数据中筛选属于每一个指定人的所有第一样例,并将所述所有第一样例两两组合以得到每一个指定人对应的多个样例二元组;
选择所述多个样例二元组中的第一样例二元组,并计算第一样例二元组中的两个第一样例之间的第一矢量距离,以及分别计算第一样例二元组中指定的目标第一样例与每一个第二样例之间的第二矢量距离;其中,所述第二样例为预设的目标批次数据中除所述第一样例之外的样例数据;
根据每一个第二矢量距离与所述第一矢量距离的差量,筛选满足预设条件的第二样例;
将满足预设条件的第二样例与所述第一样例二元组分别组成所述第一样例二元组对应的多个样例三元组,从而得到所述目标批次数据中的各个指定人对应的每个样例二元组所对应的所有样例三元组。
2.根据权利要求1所述的样例三元组的获取方法,其特征在于,所述在预设的目标批次数据中筛选属于每一个指定人的所有第一样例,并将所述所有第一样例两两组合以得到每一个指定人对应的多个样例二元组的步骤,包括:
将训练数据拆分成包含指定数量样例的多个批次数据;
将所述多个批次数据中的目标批次数据输入到预设训练模型中,通过预设训练模型的正向训练获取到所述每个批次数据中所述指定数量样例分别对应的矢量;
筛选所述目标批次数据中属于某一指定人的所有第一样例,并将所述所有第一样例进行两两组合形成多个样例二元组,其中所述第一样例包含与其对应的矢量。
3.根据权利要求1或2所述的样例三元组的获取方法,其特征在于,所述根据每一个第二矢量距离与所述第一矢量距离的差量,筛选满足预设条件的第二样例的步骤,包括:
判断所述第二矢量距离与所述第一矢量距离的差量是否大于零;
若是,则判定满足预设条件。
4.根据权利要求1或2所述的样例三元组的获取方法,其特征在于,所述根据每一个第二矢量距离与所述第一矢量距离的差量,筛选满足预设条件的第二样例的步骤,还包括:
判断所述第二矢量距离与所述第一矢量距离是否大于预设正值α;
若是,则判定满足预设条件。
5.根据权利要求2所述的样例三元组的获取方法,其特征在于,所述将满足预设条件的第二样例与所述第一样例二元组分别组成所述第一样例二元组对应的多个样例三元组的步骤之后,包括:
将所述训练数据中的所述多个批次数据中所有第一样例二元组分别对应的所有样例三元组汇总成样例三元组训练集;
将所述样例三元组训练集输入以Triplet Loss为损失函数的二分类网络模型中进行模型训练。
6.根据权利要求5所述的样例三元组的挑选方法,其特征在于,所述第一样例和所述第二样例为说话人的话语样例,所述二分类网络模型为说话人确认网络模型;所述将所述样例三元组训练集输入以Triplet Loss为损失函数的二分类网络模型中进行模型训练的步骤,包括:
将所述说话人的话语样例组成的样例三元组训练集输入以Triplet Loss为损失函数的说话人确认网络模型中进行模型训练。
7.根据权利要求6所述的样例三元组的挑选方法,其特征在于,所述将所述说话人的话语样例组成的样例三元组训练集输入以Triplet Loss为损失函数的说话人确认网络模型中进行模型训练的步骤之后,包括:
将待测人的话语样例输入到训练好的所述说话人确认网络模型中;
在所述说话人确认网络模型中计算所述待测人的话语样例中的第一语音特性与预注册人的第二语音特性的相似度;
判断所述相似度是否在预设阈值范围内;
若是,则判定所述待测人与所述预注册人为同一个人。
8.一种样例三元组的获取装置,其特征在于,包括:
第一筛选模块,用于在预选的目标批次数据中筛选属于每一个指定人的所有第一样例,并将所述所有第一样例两两组合以得到每一个指定人对应的多个样例二元组;
计算模块,用于选择所述多个样例二元组中的第一样例二元组,并计算第一样例二元组中的两个第一样例之间的第一矢量距离,以及分别计算第一样例二元组中指定的目标第一样例与每一个第二样例之间的第二矢量距离;其中,所述第二样例为预设的批次数据中除所述第一样例之外的样例数据;
第二筛选模块,用于根据每一个第二矢量距离与所述第一矢量距离的差量,筛选满足预设条件的第二样例;
第一组成模块,用于将满足预设条件的第二样例与所述第一样例二元组分别组成所述第一样例二元组对应的多个样例三元组,从而得到所述目标批次数据中的各个指定人对应的每个样例二元组所对应的所有样例三元组。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810557204.3A CN108922542B (zh) | 2018-06-01 | 2018-06-01 | 样例三元组的获取方法、装置、计算机设备以及存储介质 |
PCT/CN2018/095461 WO2019227613A1 (zh) | 2018-06-01 | 2018-07-12 | 样例三元组的获取方法、装置、计算机设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810557204.3A CN108922542B (zh) | 2018-06-01 | 2018-06-01 | 样例三元组的获取方法、装置、计算机设备以及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108922542A true CN108922542A (zh) | 2018-11-30 |
CN108922542B CN108922542B (zh) | 2023-04-28 |
Family
ID=64418876
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810557204.3A Active CN108922542B (zh) | 2018-06-01 | 2018-06-01 | 样例三元组的获取方法、装置、计算机设备以及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN108922542B (zh) |
WO (1) | WO2019227613A1 (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103548041A (zh) * | 2011-06-28 | 2014-01-29 | 国际商业机器公司 | 用于确定主观层级聚类中的每个特征的权重的信息处理装置、方法和程序 |
CN106383912A (zh) * | 2016-10-14 | 2017-02-08 | 上海谦问万答吧云计算科技有限公司 | 一种图片检索方法和装置 |
CN106845330A (zh) * | 2016-11-17 | 2017-06-13 | 北京品恩科技股份有限公司 | 一种基于深度卷积神经网络的二维人脸识别模型的训练方法 |
US20170228641A1 (en) * | 2016-02-04 | 2017-08-10 | Nec Laboratories America, Inc. | Distance metric learning with n-pair loss |
CN107577987A (zh) * | 2017-08-01 | 2018-01-12 | 广州广电卓识智能科技有限公司 | 身份认证的方法、系统和装置 |
CN108009528A (zh) * | 2017-12-26 | 2018-05-08 | 广州广电运通金融电子股份有限公司 | 基于Triplet Loss的人脸认证方法、装置、计算机设备和存储介质 |
-
2018
- 2018-06-01 CN CN201810557204.3A patent/CN108922542B/zh active Active
- 2018-07-12 WO PCT/CN2018/095461 patent/WO2019227613A1/zh active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103548041A (zh) * | 2011-06-28 | 2014-01-29 | 国际商业机器公司 | 用于确定主观层级聚类中的每个特征的权重的信息处理装置、方法和程序 |
US20170228641A1 (en) * | 2016-02-04 | 2017-08-10 | Nec Laboratories America, Inc. | Distance metric learning with n-pair loss |
CN106383912A (zh) * | 2016-10-14 | 2017-02-08 | 上海谦问万答吧云计算科技有限公司 | 一种图片检索方法和装置 |
CN106845330A (zh) * | 2016-11-17 | 2017-06-13 | 北京品恩科技股份有限公司 | 一种基于深度卷积神经网络的二维人脸识别模型的训练方法 |
CN107577987A (zh) * | 2017-08-01 | 2018-01-12 | 广州广电卓识智能科技有限公司 | 身份认证的方法、系统和装置 |
CN108009528A (zh) * | 2017-12-26 | 2018-05-08 | 广州广电运通金融电子股份有限公司 | 基于Triplet Loss的人脸认证方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2019227613A1 (zh) | 2019-12-05 |
CN108922542B (zh) | 2023-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110675288B (zh) | 智能辅助审判方法、装置、计算机设备及存储介质 | |
CN108830201A (zh) | 样例三元组的获取方法、装置、计算机设备以及存储介质 | |
CN110287296A (zh) | 一种问题答案选取方法、装置、计算机设备及存储介质 | |
CN111916111B (zh) | 带情感的智能语音外呼方法及装置、服务器、存储介质 | |
CN107492382A (zh) | 基于神经网络的声纹信息提取方法及装置 | |
CN109977234A (zh) | 一种基于主题关键词过滤的知识图谱补全方法 | |
CN110534132A (zh) | 一种基于谱图特征的并行卷积循环神经网络的语音情感识别方法 | |
CN104751842B (zh) | 深度神经网络的优化方法及系统 | |
US11282503B2 (en) | Voice conversion training method and server and computer readable storage medium | |
CN110287285A (zh) | 一种问题意图识别方法、装置、计算机设备及存储介质 | |
CN108351986A (zh) | 学习系统、学习装置、学习方法、学习程序、训练数据生成装置、训练数据生成方法、训练数据生成程序、终端装置以及阈值变更装置 | |
CN108427665A (zh) | 一种基于lstm型rnn模型的文本自动生成方法 | |
WO2021179445A1 (zh) | 基于对话状态预测的多轮对话方法、装置和计算机设备 | |
CN107808661A (zh) | 一种基于协作式批量主动学习的藏语语音语料标注方法及系统 | |
CN108021934A (zh) | 多要素识别的方法及装置 | |
CN107871496A (zh) | 语音识别方法和装置 | |
CN108205525A (zh) | 基于用户语音信息确定用户意图的方法和装置 | |
CN111091809B (zh) | 一种深度特征融合的地域性口音识别方法及装置 | |
CN108922542A (zh) | 样例三元组的获取方法、装置、计算机设备以及存储介质 | |
CN117151095A (zh) | 一种基于案情的处置预案生成方法 | |
CN104572820B (zh) | 模型的生成方法及装置、重要度获取方法及装置 | |
CN111832787A (zh) | 教师风格预测模型的训练方法及计算机存储介质 | |
CN110955606B (zh) | 一种基于随机森林的c语言源代码静态评分方法 | |
CN109308565B (zh) | 人群绩效等级识别方法、装置、存储介质及计算机设备 | |
CN112634947B (zh) | 一种动物声音情感特征集合排序识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |