CN105513597A - 声纹认证处理方法及装置 - Google Patents
声纹认证处理方法及装置 Download PDFInfo
- Publication number
- CN105513597A CN105513597A CN201511024873.7A CN201511024873A CN105513597A CN 105513597 A CN105513597 A CN 105513597A CN 201511024873 A CN201511024873 A CN 201511024873A CN 105513597 A CN105513597 A CN 105513597A
- Authority
- CN
- China
- Prior art keywords
- voiceprint
- model
- voice
- application
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/038—Vector quantisation, e.g. TwinVQ audio
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/08—Network architectures or network communication protocols for network security for authentication of entities
- H04L63/0861—Network architectures or network communication protocols for network security for authentication of entities using biometrical features, e.g. fingerprint, retina-scan
Abstract
本申请提出一种声纹认证处理方法和装置,其中,该方法包括:应用混合性别的深度神经网络DNN声纹基线系统,提取训练集中每条语音的第一特征向量;根据所述每条语音的第一特征向量以及预先标注的性别标签训练性别分类器;根据所述训练集中不同性别的语音数据,分别训练不同性别的DNN模型;根据不同性别的DNN模型以及所述训练集中不同性别的语音数据,分别训练不同性别的统一背景模型、特征向量提取模型、以及概率线性判别分析模型。建立了区分性别的声纹认证处理模型,以便提高了声纹认证的效率和准确性。
Description
技术领域
本申请涉及声纹认证技术领域,尤其涉及一种声纹认证处理方法及装置。
背景技术
随着技术的不断进步,声纹识别(VoiceprintRecognition,VPR)技术的应用领域越来越广泛。
声纹识别可以确认某段语音是否是指定的某个人所说的,例如,考勤打卡,或者银行交易时需要对用户声音进行确认。在声纹识别之前,都需要先对说话人的声纹进行建模,这就是所谓的“训练”或“学习”过程。
目前的声纹识别的训练过程是通过通用的模型进行声纹的训练和识别,准确性不高。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种声纹认证处理方法,该方法建立了区分性别的声纹认证处理模型,以便提高了声纹认证的效率和准确性。
本申请的第二个目的在于提出一种声纹认证处理装置。
为达上述目的,本申请第一方面实施例提出了一种声纹认证处理方法,包括:应用混合性别的深度神经网络DNN声纹基线系统,提取训练集中每条语音的第一特征向量;根据所述每条语音的第一特征向量以及预先标注的性别标签训练性别分类器;根据所述训练集中不同性别的语音数据,分别训练不同性别的DNN模型;根据不同性别的DNN模型以及所述训练集中不同性别的语音数据,分别训练不同性别的统一背景模型、特征向量提取模型、以及概率线性判别分析模型。
本申请实施例的声纹认证处理方法,通过应用混合性别的深度神经网络DNN声纹基线系统,提取训练集中每条语音的第一特征向量;根据所述每条语音的第一特征向量以及预先标注的性别标签训练性别分类器;根据所述训练集中不同性别的语音数据,分别训练不同性别的DNN模型;根据不同性别的DNN模型以及所述训练集中不同性别的语音数据,分别训练不同性别的统一背景模型、特征向量提取模型、以及概率线性判别分析模型。由此,建立了区分性别的声纹认证处理模型,以便提高了声纹认证的效率和准确性。
为达上述目的,本申请第二方面实施例提出了一种声纹认证处理装置,包括:提取模块,用于应用混合性别的深度神经网络DNN声纹基线系统,提取训练集中每条语音的第一特征向量;生成模块,用于根据所述每条语音的第一特征向量以及预先标注的性别标签训练性别分类器;第一训练模块,用于根据所述训练集中不同性别的语音数据,分别训练不同性别的DNN模型;第二训练模块,用于根据不同性别的DNN模型以及所述训练集中不同性别的语音数据,分别训练不同性别的统一背景模型、特征向量提取模型、以及概率线性判别分析模型。
本申请实施例的声纹认证处理装置,通过应用混合性别的深度神经网络DNN声纹基线系统,提取训练集中每条语音的第一特征向量;根据所述每条语音的第一特征向量以及预先标注的性别标签训练性别分类器;根据所述训练集中不同性别的语音数据,分别训练不同性别的DNN模型;根据不同性别的DNN模型以及所述训练集中不同性别的语音数据,分别训练不同性别的统一背景模型、特征向量提取模型、以及概率线性判别分析模型。由此,建立了区分性别的声纹认证处理模型,以便提高了声纹认证的效率和准确性。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本申请一个实施例的声纹认证处理方法的流程图;
图2为性别分类器的生成示意图;
图3为男性声纹认证处理模型生成示意图;
图4为女性声纹认证处理模型生成示意图;
图5是本申请另一个实施例的声纹认证处理方法的流程图;
图6是本申请另一个实施例的声纹认证处理方法的流程图;
图7是本申请一个实施例的声纹认证处理装置的结构示意图;
图8是本申请另一个实施例的声纹认证处理装置的结构示意图;
图9是本申请另一个实施例的声纹认证处理装置的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的声纹认证处理方法及装置。
图1是本申请一个实施例的声纹认证处理方法的流程图。
如图1所示,该声纹认证处理方法包括:
步骤101,应用混合性别的深度神经网络DNN声纹基线系统,提取训练集中每条语音的第一特征向量。
步骤102,根据所述每条语音的第一特征向量以及预先标注的性别标签训练性别分类器。
具体地,为了训练建立区分性别的声纹认证处理模型,首先需要应用混合性别的深度神经网络DNN声纹基线系统生成性别训练性别分类器,以便应用训练性别分类器识别输入声音的性别,为输入的声音分配性别标签。
图2为性别分类器的生成示意图,参见图2说明如何应用混合性别的DNN声纹基线系统生成性别分类器,具体如下:
预先设置包含多条语音的训练集,训练集中的每条语音数据都预先标注有对应的性别信息,比如,第一条语音数据对应的性别为男性数据,第二条语音数据对应的性别为女性数据。
将训练集中的每条语音数据输入混合性别的DNN声纹基线系统,应用DNN声纹基线系统对每条语音数据进行数据处理,提取与每条语音对应的第一特征向量。
进而,根据每条语音的第一特征向量,以及预先标注的每条语音的性别训练性别分类器,从而可以应用训练性别分类器识别输入声音的性别,为输入的声音分配性别标签。
步骤103,根据所述训练集中不同性别的语音数据,分别训练不同性别的DNN模型。
具体地,根据训练集中不同性别的语音数据,以及预设的深度神经网络算法分别训练不同性别的DNN模型,也就是说,分别训练男性DNN模型和女性DNN模型。
其中,男性DNN模型用于接收男性的语音数据,输出与该男性语音数据对应的后验概率,女性DNN模型用于接收女性的语音数据,输出与该女性语音数据对应的后验概率。
步骤104,根据不同性别的DNN模型以及所述训练集中不同性别的语音数据,分别训练不同性别的统一背景模型、特征向量提取模型、以及概率线性判别分析模型。
具体地,根据不同性别的DNN模型以及训练集中不同性别的语音数据,分别训练不同性别的统一背景模型、特征向量提取模型、以及概率线性判别分析模型。
其中,对各个模型的功能解释如下:
统一背景模型,用于对DNN模型输出的后验概率进行归一化处理;
特征向量提取模型,用于接收DNN模型输出的后验概率以及用户输入的语音数据,并且根据预设的算法提取语音数据的第二特征向量;
概率线性判别分析模型,用于比较用户输入的语音数据的第二特征向量与预先存储的声纹注册模板的相似度。
图3为男性声纹认证处理模型生成示意图,参见图3,具体如下:
应用男性的DNN模型对训练集中男性的语音数据进行处理输出后验概率,并对输出的后验概率进行归一化处理,训练男性声纹认证处理模型中的统一背景模型。
获取DNN模型输出的后验概率以及男性语音数据,根据预设的算法提取男性语音数据的第二特征向量,训练男性声纹认证处理模型中的特征向量提取模型。
比较男性语音数据的第二特征向量与预先存储的男性声纹注册模板的相似度,训练男性声纹认证处理模型中的概率线性判别分析模型。
图4为女性声纹认证处理模型生成示意图,参见图4,具体如下:
应用女性的DNN模型对训练集中女性的语音数据进行处理输出后验概率,并对输出的后验概率进行归一化处理,训练女性声纹认证处理模型中的统一背景模型。
获取DNN模型输出的后验概率以及女性语音数据,根据预设的算法提取女性语音数据的第二特征向量,训练女性声纹认证处理模型中的特征向量提取模型。
比较女性语音数据的第二特征向量与预先存储的女性声纹注册模板的相似度,训练女性声纹认证处理模型中的概率线性判别分析模型。
本实施例的声纹认证处理方法,应用混合性别的深度神经网络DNN声纹基线系统,提取训练集中每条语音的第一特征向量,根据所述每条语音的第一特征向量以及预先标注的性别训练性别分类器,根据所述训练集中不同性别的语音数据,分别训练不同性别的DNN模型,根据不同性别的DNN模型以及所述训练集中不同性别的语音数据,分别训练不同性别的统一背景模型、特征向量提取模型、以及概率线性判别分析模型。由此,建立了区分性别的声纹认证处理模型,以提高声纹认证的效率和准确性。
图5是本申请另一个实施例的声纹认证处理方法的流程图。
参见图5,在步骤104之后,该声纹认证处理方法还包括以下声纹注册步骤:
步骤201,接收用户发送的携带用户标识的声纹注册请求。
步骤202,获取用户发送的用于声纹注册的多条语音,提取第一条语音的第一特征信息,应用所述性别分类器获取所述第一特征信息的性别标签。
具体地,需要进行声纹认证的用户需要预先在声纹认证处理模型中进行声纹注册。首先,用户需要向声纹认证处理模型发送携带用户标识的声纹注册请求。
声纹认证处理模型接收用户发送的携带用户标识的声纹注册请求之后,向用户提示输入语音。用户向声纹认证处理模型发送用于声纹注册的多条语音。
声纹认证处理模型提取第一条语音的第一特征信息,并将第一特征信息发送给预先生成的性别分类器。性别分类器对第一特征信息进行分析,获取所述第一特征信息的性别标签,也就是第一条语音的性别标签。
步骤203,根据与所述性别标签对应的DNN模型获取每条语音的后验概率。
步骤204,根据与所述性别标签对应的统一背景模型和特征向量提取模型,分别提取每条语音的第二特征向量。
步骤205,根据与所述多条语音对应的多个第二特征向量获取所述用户的声纹注册模型。
步骤206,将所述用户标识、所述性别标签、所述声纹注册模型的对应关系存储到声纹注册数据库。
具体地,根据性别分类器返回的与第一条语音对应的性别标签,将用户输入的多条语音发送到对应性别的DNN模型中。也就是说,如果第一条语音对应的是男性语音,将多条语音发送到男性DNN模型中。如果第一条语音对应的是女性语音,将多条语音发送到女性DNN模型中。
根据与性别标签对应的DNN模型获取每条语音对应的多个后验概率。
根据与性别标签对应的统一背景模型对每个后验概率进行归一化处理,应用预先训练的特征向量提取模型根据每条语音,以及对应的归一化的后验概率,分别提取每条语音的第二特征向量。
根据与所述多条语音对应的多个第二特征向量获取所述用户的声纹注册模型,获取的方式很多,可以根据不同的应用需要进行选择,例如:
获取多个第二特征向量的平均特征向量作为所述用户的声纹注册模型。
进而,将用户请求注册的用户标识、该用户的性别标签和声纹注册模型的对应关系存储到声纹注册数据库,以便后续根据该声纹注册模型进行声纹识别。
本实施例的声纹认证处理方法,首先应用性别分类器获取用户输入的第一条语音的性别标签,根据与性别标签对应的DNN模型获取每条语音的后验概率,根据与所述性别标签对应的统一背景模型和特征向量提取模型,分别提取每条语音的第二特征向量,根据多个第二特征向量获取所述用户的声纹注册模型,将所述用户标识、所述性别标签、所述声纹注册模型的对应关系存储到声纹注册数据库。由此,实现了区分性别的声纹注册过程,以便应用区分性别的声纹认证处理模型提高了声纹认证的效率和准确性。
图6是本申请另一个实施例的声纹认证处理方法的流程图。
参见图6,该声纹认证处理方法包括:
步骤301,接收用户发送的携带用户标识的声纹识别请求。
步骤302,查询所述声纹注册数据库获取与所述用户标识对应的性别标签和声纹注册模型。
具体地,需要进行声纹识别的用户需要在声纹认证处理模型中输入用户标识,并发送携带用户标识的声纹识别请求。
对用户发送的声纹识别请求进行解析获取用户标识,查询所述声纹注册数据库获取与所述用户标识对应的性别标签和声纹注册模型,从而获取该用户的性别标签和声纹注册模型。
步骤303,获取用户发送的用于声纹识别的语音,根据与所述性别标签对应的DNN模型获取所述语音的后验概率。
具体地,获取用户发送的用于声纹识别的语音,将该语音发送到与用户的性别标签对应的DNN模型中,DNN模型对该语音进行处理,获取该语音的后验概率。
步骤304,应用与所述性别标签对应的统一背景模型和特征向量提取模型,提取所述语音的第二特征向量。
具体地,将该语音的后验概率发送给与所述性别标签对应的统一背景模型。统一背景模型对每个后验概率进行归一化处理,应用预先训练的特征向量提取模型根据该语音,以及对应的归一化的后验概率,提取该语音的第二特征向量。
步骤305,应用与所述性别标签对应的概率线性判别分析模型,比较所述语音的第二特征向量和所述声纹注册模型的相似度。
步骤306,根据所述相似度和预设的阈值向所述用户返回声纹识别结果。
具体地,将该语音的第二特征向量发送给与性别标签对应的概率线性判别分析模型中,概率线性判别分析模型比较该语音的第二特征向量和预先存储的该用户的声纹注册模型的相似度。
比较两者的相似度和预设的阈值的大小;
若获知所述相似度大于等于预设的阈值,则返回声纹识别成功;
若获知所述相似度小于预设的阈值,则返回声纹识别失败。
本实施例的声纹认证处理方法,首先查询声纹注册数据库获取与用户标识对应的性别标签和声纹注册模型;应用与性别标签对应的统一背景模型和特征向量提取模型,提取语音的第二特征向量,应用概率线性判别分析模型比较语音的第二特征向量和声纹注册模型的相似度,根据所述相似度和预设的阈值向所述用户返回声纹识别结果。由此,实现了区分性别的声纹认证过程,提高了声纹认证的效率和准确性。
为了实现上述实施例,本申请还提出一种声纹认证处理装置。
图7是本申请一个实施例的声纹认证处理装置的结构示意图。
如图7所示,该声纹认证处理装置包括:
提取模块11,用于应用混合性别的深度神经网络DNN声纹基线系统,提取训练集中每条语音的第一特征向量;
生成模块12,用于根据所述每条语音的第一特征向量以及预先标注的性别标签训练性别分类器;
第一训练模块13,用于根据所述训练集中不同性别的语音数据,分别训练不同性别的DNN模型;
第二训练模块14,用于根据不同性别的DNN模型以及所述训练集中不同性别的语音数据,分别训练不同性别的统一背景模型、特征向量提取模型、以及概率线性判别分析模型。
需要说明的是,前述对声纹认证处理方法实施例的解释说明也适用于该实施例的声纹认证处理装置,此处不再赘述。
本申请实施例的声纹认证处理装置,应用混合性别的深度神经网络DNN声纹基线系统,提取训练集中每条语音的第一特征向量,根据所述每条语音的第一特征向量以及预先标注的性别标签训练性别分类器,根据所述训练集中不同性别的语音数据,分别训练不同性别的DNN模型,根据不同性别的DNN模型以及所述训练集中不同性别的语音数据,分别训练不同性别的统一背景模型、特征向量提取模型、以及概率线性判别分析模型。由此,建立了区分性别的声纹认证处理模型,以提高声纹认证的效率和准确性。
图8是本申请另一个实施例的声纹认证处理装置的结构示意图,如图8所示,基于图7所示实施例,还包括:
第一接收模块15,用于接收用户发送的携带用户标识的声纹注册请求;
性别标注模块16,用于获取用户发送的用于声纹注册的多条语音,提取第一条语音的第一特征信息,应用所述性别分类器获取所述第一特征信息的性别标签;
第一处理模块17,用于根据与所述性别标签对应的DNN模型获取每条语音的后验概率;根据与所述性别标签对应的统一背景模型和特征向量提取模型,分别提取每条语音的第二特征向量;
获取模块18,用于根据与所述多条语音对应的多个第二特征向量获取所述用户的声纹注册模型;
注册模块19,用于将所述用户标识、所述性别标签、所述声纹注册模型的对应关系存储到声纹注册数据库。
在一个实施例中,所述获取模块18用于:
获取所述多个第二特征向量的平均特征向量作为所述用户的声纹注册模型。
需要说明的是,前述对声纹认证处理方法实施例的解释说明也适用于该实施例的声纹认证处理装置,此处不再赘述。
本申请实施例的声纹认证处理装置,首先应用性别分类器获取用户输入的第一条语音的性别标签,根据与性别标签对应的DNN模型获取每条语音的后验概率,根据与所述性别标签对应的统一背景模型和特征向量提取模型,分别提取每条语音的第二特征向量,根据多个第二特征向量获取所述用户的声纹注册模型,将所述用户标识、所述性别标签、所述声纹注册模型的对应关系存储到声纹注册数据库。由此,实现了区分性别的声纹注册过程,以便应用区分性别的声纹认证处理模型提高了声纹认证的效率和准确性。
图9是本申请另一个实施例的声纹认证处理装置的结构示意图,如图9所示,基于图8所示实施例,还包括:
第二接收模块20,用于接收用户发送的携带用户标识的声纹识别请求;
查询模块21,用于查询所述声纹注册数据库获取与所述用户标识对应的性别标签和声纹注册模型;
第二处理模块22,用于获取用户发送的用于声纹识别的语音,根据与所述性别标签对应的DNN模型获取所述语音的后验概率,应用与所述性别标签对应的统一背景模型和特征向量提取模型,提取所述语音的第二特征向量;
比较模块23,用于应用与所述性别标签对应的概率线性判别分析模型,比较所述语音的第二特征向量和所述声纹注册模型的相似度;
识别模块24,用于根据所述相似度和预设的阈值向所述用户返回声纹识别结果。
其中,所述识别模块24用于:
比较所述相似度和预设的阈值的大小;
若获知所述相似度大于等于预设的阈值,则返回声纹识别成功;
若获知所述相似度小于预设的阈值,则返回声纹识别失败。
需要说明的是,前述对声纹认证处理方法实施例的解释说明也适用于该实施例的声纹认证处理装置,此处不再赘述。
本申请实施例的声纹认证处理装置,首先查询声纹注册数据库获取与用户标识对应的性别标签和声纹注册模型;应用与性别标签对应的统一背景模型和特征向量提取模型,提取语音的第二特征向量,应用概率线性判别分析模型比较语音的第二特征向量和声纹注册模型的相似度,根据所述相似度和预设的阈值向所述用户返回声纹识别结果。由此,实现了区分性别的声纹认证过程,提高了声纹认证的效率和准确性。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种声纹认证处理方法,其特征在于,包括以下步骤:
应用混合性别的深度神经网络DNN声纹基线系统,提取训练集中每条语音的第一特征向量;
根据所述每条语音的第一特征向量以及预先标注的性别标签训练性别分类器;
根据所述训练集中不同性别的语音数据,分别训练不同性别的DNN模型;
根据不同性别的DNN模型以及所述训练集中不同性别的语音数据,分别训练不同性别的统一背景模型、特征向量提取模型、以及概率线性判别分析模型。
2.如权利要求1所述的方法,其特征在于,还包括:
接收用户发送的携带用户标识的声纹注册请求;
获取用户发送的用于声纹注册的多条语音,提取第一条语音的第一特征信息,应用所述性别分类器获取所述第一特征信息的性别标签;
根据与所述性别标签对应的DNN模型获取每条语音的后验概率;
根据与所述性别标签对应的统一背景模型和特征向量提取模型,分别提取每条语音的第二特征向量;
根据与所述多条语音对应的多个第二特征向量获取所述用户的声纹注册模型;
将所述用户标识、所述性别标签、所述声纹注册模型的对应关系存储到声纹注册数据库。
3.如权利要求2所述的方法,其特征在于,所述根据与所述多条语音对应的多个第二特征向量获取所述用户的声纹注册模型,包括:
获取所述多个第二特征向量的平均特征向量作为所述用户的声纹注册模型。
4.如权利要求2所述的方法,其特征在于,还包括:
接收用户发送的携带用户标识的声纹识别请求;
查询所述声纹注册数据库获取与所述用户标识对应的性别标签和声纹注册模型;
获取用户发送的用于声纹识别的语音,根据与所述性别标签对应的DNN模型获取所述语音的后验概率;
应用与所述性别标签对应的统一背景模型和特征向量提取模型,提取所述语音的第二特征向量;
应用与所述性别标签对应的概率线性判别分析模型,比较所述语音的第二特征向量和所述声纹注册模型的相似度;
根据所述相似度和预设的阈值向所述用户返回声纹识别结果。
5.如权利要求4所述的方法,其特征在于,所述根据所述相似度和预设的阈值向所述用户返回声纹识别结果,包括:
比较所述相似度和预设的阈值的大小;
若获知所述相似度大于等于预设的阈值,则返回声纹识别成功;
若获知所述相似度小于预设的阈值,则返回声纹识别失败。
6.一种声纹认证处理装置,其特征在于,包括:
提取模块,用于应用混合性别的深度神经网络DNN声纹基线系统,提取训练集中每条语音的第一特征向量;
生成模块,用于根据所述每条语音的第一特征向量以及预先标注的性别标签训练性别分类器;
第一训练模块,用于根据所述训练集中不同性别的语音数据,分别训练不同性别的DNN模型;
第二训练模块,用于根据不同性别的DNN模型以及所述训练集中不同性别的语音数据,分别训练不同性别的统一背景模型、特征向量提取模型、以及概率线性判别分析模型。
7.如权利要求6所述的装置,其特征在于,还包括:
第一接收模块,用于接收用户发送的携带用户标识的声纹注册请求;
性别标注模块,用于获取用户发送的用于声纹注册的多条语音,提取第一条语音的第一特征信息,应用所述性别分类器获取所述第一特征信息的性别标签;
第一处理模块,用于根据与所述性别标签对应的DNN模型获取每条语音的后验概率;根据与所述性别标签对应的统一背景模型和特征向量提取模型,分别提取每条语音的第二特征向量;
获取模块,用于根据与所述多条语音对应的多个第二特征向量获取所述用户的声纹注册模型;
注册模块,用于将所述用户标识、所述性别标签、所述声纹注册模型的对应关系存储到声纹注册数据库。
8.如权利要求7所述的装置,其特征在于,所述获取模块用于:
获取所述多个第二特征向量的平均特征向量作为所述用户的声纹注册模型。
9.如权利要求7所述的装置,其特征在于,还包括:
第二接收模块,用于接收用户发送的携带用户标识的声纹识别请求;
查询模块,用于查询所述声纹注册数据库获取与所述用户标识对应的性别标签和声纹注册模型;
第二处理模块,用于获取用户发送的用于声纹识别的语音,根据与所述性别标签对应的DNN模型获取所述语音的后验概率,应用与所述性别标签对应的统一背景模型和特征向量提取模型,提取所述语音的第二特征向量;
比较模块,用于应用与所述性别标签对应的概率线性判别分析模型,比较所述语音的第二特征向量和所述声纹注册模型的相似度;
识别模块,用于根据所述相似度和预设的阈值向所述用户返回声纹识别结果。
10.如权利要求9所述的装置,其特征在于,所述识别模块用于:
比较所述相似度和预设的阈值的大小;
若获知所述相似度大于等于预设的阈值,则返回声纹识别成功;
若获知所述相似度小于预设的阈值,则返回声纹识别失败。
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511024873.7A CN105513597B (zh) | 2015-12-30 | 2015-12-30 | 声纹认证处理方法及装置 |
KR1020177002005A KR101870093B1 (ko) | 2015-12-30 | 2016-07-04 | 성문 인증 처리 방법 및 장치 |
US15/501,292 US10685658B2 (en) | 2015-12-30 | 2016-07-04 | Method and device for processing voiceprint authentication |
EP16829225.8A EP3296991B1 (en) | 2015-12-30 | 2016-07-04 | Method and device for voiceprint authentication processing |
PCT/CN2016/088435 WO2017113680A1 (zh) | 2015-12-30 | 2016-07-04 | 声纹认证处理方法及装置 |
JP2017519504A JP6682523B2 (ja) | 2015-12-30 | 2016-07-04 | 声紋認証処理方法及び装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511024873.7A CN105513597B (zh) | 2015-12-30 | 2015-12-30 | 声纹认证处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105513597A true CN105513597A (zh) | 2016-04-20 |
CN105513597B CN105513597B (zh) | 2018-07-10 |
Family
ID=55721524
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201511024873.7A Active CN105513597B (zh) | 2015-12-30 | 2015-12-30 | 声纹认证处理方法及装置 |
Country Status (6)
Country | Link |
---|---|
US (1) | US10685658B2 (zh) |
EP (1) | EP3296991B1 (zh) |
JP (1) | JP6682523B2 (zh) |
KR (1) | KR101870093B1 (zh) |
CN (1) | CN105513597B (zh) |
WO (1) | WO2017113680A1 (zh) |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106297807A (zh) * | 2016-08-05 | 2017-01-04 | 腾讯科技(深圳)有限公司 | 训练声纹识别系统的方法和装置 |
CN106710599A (zh) * | 2016-12-02 | 2017-05-24 | 深圳撒哈拉数据科技有限公司 | 一种基于深度神经网络的特定声源检测方法与系统 |
CN106710604A (zh) * | 2016-12-07 | 2017-05-24 | 天津大学 | 提高语音可懂度的共振峰增强装置和方法 |
WO2017113680A1 (zh) * | 2015-12-30 | 2017-07-06 | 百度在线网络技术(北京)有限公司 | 声纹认证处理方法及装置 |
CN107346568A (zh) * | 2016-05-05 | 2017-11-14 | 阿里巴巴集团控股有限公司 | 一种门禁系统的认证方法和装置 |
CN107610707A (zh) * | 2016-12-15 | 2018-01-19 | 平安科技(深圳)有限公司 | 一种声纹识别方法及装置 |
CN107610709A (zh) * | 2017-08-01 | 2018-01-19 | 百度在线网络技术(北京)有限公司 | 一种训练声纹识别模型的方法及系统 |
CN107623614A (zh) * | 2017-09-19 | 2018-01-23 | 百度在线网络技术(北京)有限公司 | 用于推送信息的方法和装置 |
EP3346463A1 (en) * | 2017-01-10 | 2018-07-11 | Fujitsu Limited | Identity verification method and apparatus based on voiceprint |
CN108573698A (zh) * | 2017-03-09 | 2018-09-25 | 中国科学院声学研究所 | 一种基于性别融合信息的语音降噪方法 |
CN108694954A (zh) * | 2018-06-13 | 2018-10-23 | 广州势必可赢网络科技有限公司 | 一种性别年龄识别方法、装置、设备及可读存储介质 |
CN109036436A (zh) * | 2018-09-18 | 2018-12-18 | 广州势必可赢网络科技有限公司 | 一种声纹数据库建立方法、声纹识别方法、装置及系统 |
CN109429523A (zh) * | 2017-06-13 | 2019-03-05 | 北京嘀嘀无限科技发展有限公司 | 说话者确认方法、装置及系统 |
CN109473105A (zh) * | 2018-10-26 | 2019-03-15 | 平安科技(深圳)有限公司 | 与文本无关的声纹验证方法、装置和计算机设备 |
CN109637547A (zh) * | 2019-01-29 | 2019-04-16 | 北京猎户星空科技有限公司 | 音频数据标注方法、装置、电子设备及存储介质 |
CN109920435A (zh) * | 2019-04-09 | 2019-06-21 | 厦门快商通信息咨询有限公司 | 一种声纹识别方法及声纹识别装置 |
CN109994116A (zh) * | 2019-03-11 | 2019-07-09 | 南京邮电大学 | 一种基于会议场景小样本条件下的声纹准确识别方法 |
CN110660484A (zh) * | 2019-08-01 | 2020-01-07 | 平安科技(深圳)有限公司 | 骨龄预测方法、装置、介质及电子设备 |
CN110660399A (zh) * | 2019-11-11 | 2020-01-07 | 广州国音智能科技有限公司 | 声纹识别的训练方法、装置、终端及计算机存储介质 |
CN110797032A (zh) * | 2020-01-06 | 2020-02-14 | 深圳中创华安科技有限公司 | 一种声纹数据库建立方法及声纹识别方法 |
CN110956966A (zh) * | 2019-11-01 | 2020-04-03 | 平安科技(深圳)有限公司 | 声纹认证方法、装置、介质及电子设备 |
CN111147484A (zh) * | 2019-12-25 | 2020-05-12 | 秒针信息技术有限公司 | 账号登录方法和装置 |
CN111462760A (zh) * | 2019-01-21 | 2020-07-28 | 阿里巴巴集团控股有限公司 | 声纹识别系统、方法、装置及电子设备 |
CN111489756A (zh) * | 2020-03-31 | 2020-08-04 | 中国工商银行股份有限公司 | 一种声纹识别方法及装置 |
CN111583935A (zh) * | 2020-04-02 | 2020-08-25 | 深圳壹账通智能科技有限公司 | 贷款智能进件方法、装置及存储介质 |
CN112637428A (zh) * | 2020-12-29 | 2021-04-09 | 平安科技(深圳)有限公司 | 无效通话判断方法、装置、计算机设备及存储介质 |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9875743B2 (en) * | 2015-01-26 | 2018-01-23 | Verint Systems Ltd. | Acoustic signature building for a speaker from multiple sessions |
JP6828741B2 (ja) * | 2016-05-16 | 2021-02-10 | ソニー株式会社 | 情報処理装置 |
CN109545227B (zh) * | 2018-04-28 | 2023-05-09 | 华中师范大学 | 基于深度自编码网络的说话人性别自动识别方法及系统 |
CN108806696B (zh) * | 2018-05-08 | 2020-06-05 | 平安科技(深圳)有限公司 | 建立声纹模型的方法、装置、计算机设备和存储介质 |
JP7326033B2 (ja) * | 2018-10-05 | 2023-08-15 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 話者認識装置、話者認識方法、及び、プログラム |
CN109378006B (zh) * | 2018-12-28 | 2022-09-16 | 三星电子(中国)研发中心 | 一种跨设备声纹识别方法及系统 |
CN109378007B (zh) * | 2018-12-28 | 2022-09-13 | 浙江百应科技有限公司 | 一种基于智能语音对话实现性别识别的方法 |
US11031017B2 (en) * | 2019-01-08 | 2021-06-08 | Google Llc | Fully supervised speaker diarization |
US11289098B2 (en) | 2019-03-08 | 2022-03-29 | Samsung Electronics Co., Ltd. | Method and apparatus with speaker recognition registration |
CN113892136A (zh) | 2019-05-28 | 2022-01-04 | 日本电气株式会社 | 信号提取系统、信号提取学习方法以及信号提取学习程序 |
CN110136726A (zh) * | 2019-06-20 | 2019-08-16 | 厦门市美亚柏科信息股份有限公司 | 一种语音性别的估计方法、装置、系统及存储介质 |
CN110517698B (zh) * | 2019-09-05 | 2022-02-01 | 科大讯飞股份有限公司 | 一种声纹模型的确定方法、装置、设备及存储介质 |
CN111009262A (zh) * | 2019-12-24 | 2020-04-14 | 携程计算机技术(上海)有限公司 | 语音性别识别的方法及系统 |
CN111179942B (zh) * | 2020-01-06 | 2022-11-08 | 泰康保险集团股份有限公司 | 声纹识别方法、装置、设备及计算机可读存储介质 |
CN111241512B (zh) * | 2020-01-09 | 2022-06-17 | 珠海格力电器股份有限公司 | 留言信息播报方法、装置、电子设备及存储介质 |
CN111243607A (zh) * | 2020-03-26 | 2020-06-05 | 北京字节跳动网络技术有限公司 | 用于生成说话人信息的方法、装置、电子设备和介质 |
WO2021192719A1 (ja) * | 2020-03-27 | 2021-09-30 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 話者識別方法、話者識別装置、話者識別プログラム、性別識別モデル生成方法及び話者識別モデル生成方法 |
CN111933147B (zh) * | 2020-06-22 | 2023-02-14 | 厦门快商通科技股份有限公司 | 声纹识别方法、系统、移动终端及存储介质 |
US11522994B2 (en) | 2020-11-23 | 2022-12-06 | Bank Of America Corporation | Voice analysis platform for voiceprint tracking and anomaly detection |
US20220215834A1 (en) * | 2021-01-01 | 2022-07-07 | Jio Platforms Limited | System and method for speech to text conversion |
KR102478076B1 (ko) * | 2022-06-13 | 2022-12-15 | 주식회사 액션파워 | 음성 인식 오류 검출을 위해 학습 데이터를 생성하기 위한 방법 |
JP7335651B1 (ja) * | 2022-08-05 | 2023-08-30 | 株式会社Interior Haraguchi | 顔認証決済システムおよび顔認証決済方法 |
CN117470976B (zh) * | 2023-12-28 | 2024-03-26 | 烟台宇控软件有限公司 | 一种基于声纹特征的输电线路缺陷检测方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103971690A (zh) * | 2013-01-28 | 2014-08-06 | 腾讯科技(深圳)有限公司 | 一种声纹识别方法和装置 |
US20150127342A1 (en) * | 2013-11-04 | 2015-05-07 | Google Inc. | Speaker identification |
US20150149165A1 (en) * | 2013-11-27 | 2015-05-28 | International Business Machines Corporation | Speaker Adaptation of Neural Network Acoustic Models Using I-Vectors |
Family Cites Families (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7006605B1 (en) * | 1996-06-28 | 2006-02-28 | Ochopee Big Cypress Llc | Authenticating a caller before providing the caller with access to one or more secured resources |
US5897616A (en) * | 1997-06-11 | 1999-04-27 | International Business Machines Corporation | Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases |
US6665644B1 (en) * | 1999-08-10 | 2003-12-16 | International Business Machines Corporation | Conversational data mining |
US20030110038A1 (en) * | 2001-10-16 | 2003-06-12 | Rajeev Sharma | Multi-modal gender classification using support vector machines (SVMs) |
US7266497B2 (en) * | 2002-03-29 | 2007-09-04 | At&T Corp. | Automatic segmentation in speech synthesis |
US7620547B2 (en) * | 2002-07-25 | 2009-11-17 | Sony Deutschland Gmbh | Spoken man-machine interface with speaker identification |
US7404087B2 (en) * | 2003-12-15 | 2008-07-22 | Rsa Security Inc. | System and method for providing improved claimant authentication |
US7231019B2 (en) * | 2004-02-12 | 2007-06-12 | Microsoft Corporation | Automatic identification of telephone callers based on voice characteristics |
US20070299671A1 (en) * | 2004-03-31 | 2007-12-27 | Ruchika Kapur | Method and apparatus for analysing sound- converting sound into information |
CN101136199B (zh) * | 2006-08-30 | 2011-09-07 | 纽昂斯通讯公司 | 语音数据处理方法和设备 |
KR100864828B1 (ko) * | 2006-12-06 | 2008-10-23 | 한국전자통신연구원 | 화자의 음성 특징 정보를 이용한 화자 정보 획득 시스템 및그 방법 |
US7949526B2 (en) * | 2007-06-04 | 2011-05-24 | Microsoft Corporation | Voice aware demographic personalization |
JP2009109712A (ja) * | 2007-10-30 | 2009-05-21 | National Institute Of Information & Communication Technology | オンライン話者逐次区別システム及びそのコンピュータプログラム |
US8433669B2 (en) * | 2007-11-14 | 2013-04-30 | International Business Machines Corporation | Configuring individual classifiers with multiple operating points for cascaded classifier topologies under resource constraints |
WO2011028844A2 (en) * | 2009-09-02 | 2011-03-10 | Sri International | Method and apparatus for tailoring the output of an intelligent automated assistant to a user |
JP5214679B2 (ja) * | 2010-08-30 | 2013-06-19 | 株式会社東芝 | 学習装置、方法及びプログラム |
US8559682B2 (en) * | 2010-11-09 | 2013-10-15 | Microsoft Corporation | Building a person profile database |
US8515750B1 (en) * | 2012-06-05 | 2013-08-20 | Google Inc. | Realtime acoustic adaptation using stability measures |
US9502038B2 (en) * | 2013-01-28 | 2016-11-22 | Tencent Technology (Shenzhen) Company Limited | Method and device for voiceprint recognition |
US9336781B2 (en) * | 2013-10-17 | 2016-05-10 | Sri International | Content-aware speaker recognition |
US20150154002A1 (en) * | 2013-12-04 | 2015-06-04 | Google Inc. | User interface customization based on speaker characteristics |
US9542948B2 (en) * | 2014-04-09 | 2017-01-10 | Google Inc. | Text-dependent speaker identification |
US9564123B1 (en) * | 2014-05-12 | 2017-02-07 | Soundhound, Inc. | Method and system for building an integrated user profile |
US9792899B2 (en) * | 2014-07-15 | 2017-10-17 | International Business Machines Corporation | Dataset shift compensation in machine learning |
US9373330B2 (en) * | 2014-08-07 | 2016-06-21 | Nuance Communications, Inc. | Fast speaker recognition scoring using I-vector posteriors and probabilistic linear discriminant analysis |
US11823658B2 (en) * | 2015-02-20 | 2023-11-21 | Sri International | Trial-based calibration for audio-based identification, recognition, and detection system |
US10476872B2 (en) * | 2015-02-20 | 2019-11-12 | Sri International | Joint speaker authentication and key phrase identification |
DK3272101T3 (da) * | 2015-03-20 | 2020-03-02 | Aplcomp Oy | Audiovisuel associativ autentificeringsfremgangsmåde, tilsvarende system og apparat |
US9666183B2 (en) * | 2015-03-27 | 2017-05-30 | Qualcomm Incorporated | Deep neural net based filter prediction for audio event classification and extraction |
US9721559B2 (en) * | 2015-04-17 | 2017-08-01 | International Business Machines Corporation | Data augmentation method based on stochastic feature mapping for automatic speech recognition |
CN105513597B (zh) * | 2015-12-30 | 2018-07-10 | 百度在线网络技术(北京)有限公司 | 声纹认证处理方法及装置 |
-
2015
- 2015-12-30 CN CN201511024873.7A patent/CN105513597B/zh active Active
-
2016
- 2016-07-04 US US15/501,292 patent/US10685658B2/en active Active
- 2016-07-04 JP JP2017519504A patent/JP6682523B2/ja active Active
- 2016-07-04 WO PCT/CN2016/088435 patent/WO2017113680A1/zh active Application Filing
- 2016-07-04 EP EP16829225.8A patent/EP3296991B1/en active Active
- 2016-07-04 KR KR1020177002005A patent/KR101870093B1/ko active IP Right Grant
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103971690A (zh) * | 2013-01-28 | 2014-08-06 | 腾讯科技(深圳)有限公司 | 一种声纹识别方法和装置 |
US20150127342A1 (en) * | 2013-11-04 | 2015-05-07 | Google Inc. | Speaker identification |
US20150149165A1 (en) * | 2013-11-27 | 2015-05-28 | International Business Machines Corporation | Speaker Adaptation of Neural Network Acoustic Models Using I-Vectors |
Non-Patent Citations (6)
Title |
---|
DAVID SNYDER ET AL: "TIME DELAY DEEP NEURAL NETWORK-BASED UNIVERSAL BACKGROUND MODELS FOR SPEAKER RECOGNITION", 《AUTOMATIC SPEECH RECOGNITION AND UNDERSTANDING (ASRU), 2015 IEEE WORKSHOP ON》 * |
LANTIAN LI AND THOMAS FANG ZHENG: "GENDER-DEPENDENT FEATURE EXTRACTION FOR SPEAKER RECOGNITION", 《SIGNAL AND INFORMATION PROCESSING (CHINASIP), 2015 IEEE CHINA SUMMIT AND INTERNATIONAL CONFERENCE ON》 * |
P. KENNY ET AL: "Deep Neural Networks for extracting Baum-Welch statistics for Speaker Recognition", 《PROC. OF ODYSSEY 2014: THE SPEAKER AND LANGUAGE RECOGNITION WORKSHOP》 * |
YAN XU ET AL: "Improved i-Vector Representation for Speaker Diarization", 《CIRCUITS SYST SIGNAL PROCESS》 * |
YUN LEI ET AL: "A Deep Neural Network Speaker Verification System Targeting Microphone", 《INTERSPEECH 2014》 * |
YUN LEI ET AL: "A NOVEL SCHEME FOR SPEAKER RECOGNITION USING A PHONETICALLY-AWARE DEEP NEURAL NETWORK", 《ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), 2014 IEEE INTERNATIONAL CONFERENCE ON》 * |
Cited By (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017113680A1 (zh) * | 2015-12-30 | 2017-07-06 | 百度在线网络技术(北京)有限公司 | 声纹认证处理方法及装置 |
CN107346568A (zh) * | 2016-05-05 | 2017-11-14 | 阿里巴巴集团控股有限公司 | 一种门禁系统的认证方法和装置 |
CN106297807A (zh) * | 2016-08-05 | 2017-01-04 | 腾讯科技(深圳)有限公司 | 训练声纹识别系统的方法和装置 |
US10854207B2 (en) | 2016-08-05 | 2020-12-01 | Tencent Technology (Shenzhen) Company Limited | Method and apparatus for training voiceprint recognition system |
CN106710599A (zh) * | 2016-12-02 | 2017-05-24 | 深圳撒哈拉数据科技有限公司 | 一种基于深度神经网络的特定声源检测方法与系统 |
CN106710604A (zh) * | 2016-12-07 | 2017-05-24 | 天津大学 | 提高语音可懂度的共振峰增强装置和方法 |
CN107610707A (zh) * | 2016-12-15 | 2018-01-19 | 平安科技(深圳)有限公司 | 一种声纹识别方法及装置 |
CN108288470A (zh) * | 2017-01-10 | 2018-07-17 | 富士通株式会社 | 基于声纹的身份验证方法和装置 |
CN108288470B (zh) * | 2017-01-10 | 2021-12-21 | 富士通株式会社 | 基于声纹的身份验证方法和装置 |
US10657969B2 (en) | 2017-01-10 | 2020-05-19 | Fujitsu Limited | Identity verification method and apparatus based on voiceprint |
EP3346463A1 (en) * | 2017-01-10 | 2018-07-11 | Fujitsu Limited | Identity verification method and apparatus based on voiceprint |
CN108573698A (zh) * | 2017-03-09 | 2018-09-25 | 中国科学院声学研究所 | 一种基于性别融合信息的语音降噪方法 |
CN108573698B (zh) * | 2017-03-09 | 2021-06-08 | 中国科学院声学研究所 | 一种基于性别融合信息的语音降噪方法 |
CN109429523A (zh) * | 2017-06-13 | 2019-03-05 | 北京嘀嘀无限科技发展有限公司 | 说话者确认方法、装置及系统 |
CN107610709A (zh) * | 2017-08-01 | 2018-01-19 | 百度在线网络技术(北京)有限公司 | 一种训练声纹识别模型的方法及系统 |
CN107623614A (zh) * | 2017-09-19 | 2018-01-23 | 百度在线网络技术(北京)有限公司 | 用于推送信息的方法和装置 |
CN108694954A (zh) * | 2018-06-13 | 2018-10-23 | 广州势必可赢网络科技有限公司 | 一种性别年龄识别方法、装置、设备及可读存储介质 |
CN109036436A (zh) * | 2018-09-18 | 2018-12-18 | 广州势必可赢网络科技有限公司 | 一种声纹数据库建立方法、声纹识别方法、装置及系统 |
CN109473105A (zh) * | 2018-10-26 | 2019-03-15 | 平安科技(深圳)有限公司 | 与文本无关的声纹验证方法、装置和计算机设备 |
CN111462760B (zh) * | 2019-01-21 | 2023-09-26 | 阿里巴巴集团控股有限公司 | 声纹识别系统、方法、装置及电子设备 |
CN111462760A (zh) * | 2019-01-21 | 2020-07-28 | 阿里巴巴集团控股有限公司 | 声纹识别系统、方法、装置及电子设备 |
CN109637547A (zh) * | 2019-01-29 | 2019-04-16 | 北京猎户星空科技有限公司 | 音频数据标注方法、装置、电子设备及存储介质 |
CN109994116A (zh) * | 2019-03-11 | 2019-07-09 | 南京邮电大学 | 一种基于会议场景小样本条件下的声纹准确识别方法 |
CN109994116B (zh) * | 2019-03-11 | 2021-01-19 | 南京邮电大学 | 一种基于会议场景小样本条件下的声纹准确识别方法 |
CN109920435B (zh) * | 2019-04-09 | 2021-04-06 | 厦门快商通信息咨询有限公司 | 一种声纹识别方法及声纹识别装置 |
CN109920435A (zh) * | 2019-04-09 | 2019-06-21 | 厦门快商通信息咨询有限公司 | 一种声纹识别方法及声纹识别装置 |
CN110660484A (zh) * | 2019-08-01 | 2020-01-07 | 平安科技(深圳)有限公司 | 骨龄预测方法、装置、介质及电子设备 |
CN110956966A (zh) * | 2019-11-01 | 2020-04-03 | 平安科技(深圳)有限公司 | 声纹认证方法、装置、介质及电子设备 |
CN110956966B (zh) * | 2019-11-01 | 2023-09-19 | 平安科技(深圳)有限公司 | 声纹认证方法、装置、介质及电子设备 |
CN110660399A (zh) * | 2019-11-11 | 2020-01-07 | 广州国音智能科技有限公司 | 声纹识别的训练方法、装置、终端及计算机存储介质 |
CN111147484A (zh) * | 2019-12-25 | 2020-05-12 | 秒针信息技术有限公司 | 账号登录方法和装置 |
CN111147484B (zh) * | 2019-12-25 | 2022-06-14 | 秒针信息技术有限公司 | 账号登录方法和装置 |
CN110797032A (zh) * | 2020-01-06 | 2020-02-14 | 深圳中创华安科技有限公司 | 一种声纹数据库建立方法及声纹识别方法 |
CN111489756A (zh) * | 2020-03-31 | 2020-08-04 | 中国工商银行股份有限公司 | 一种声纹识别方法及装置 |
CN111489756B (zh) * | 2020-03-31 | 2024-03-01 | 中国工商银行股份有限公司 | 一种声纹识别方法及装置 |
CN111583935A (zh) * | 2020-04-02 | 2020-08-25 | 深圳壹账通智能科技有限公司 | 贷款智能进件方法、装置及存储介质 |
CN112637428A (zh) * | 2020-12-29 | 2021-04-09 | 平安科技(深圳)有限公司 | 无效通话判断方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP2018508799A (ja) | 2018-03-29 |
US10685658B2 (en) | 2020-06-16 |
US20180293990A1 (en) | 2018-10-11 |
EP3296991A1 (en) | 2018-03-21 |
EP3296991A4 (en) | 2018-07-25 |
JP6682523B2 (ja) | 2020-04-15 |
CN105513597B (zh) | 2018-07-10 |
KR101870093B1 (ko) | 2018-06-21 |
WO2017113680A1 (zh) | 2017-07-06 |
EP3296991B1 (en) | 2019-11-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105513597A (zh) | 声纹认证处理方法及装置 | |
CN107767869B (zh) | 用于提供语音服务的方法和装置 | |
JP6828001B2 (ja) | 音声ウェイクアップ方法及び装置 | |
CN107657017B (zh) | 用于提供语音服务的方法和装置 | |
CN102298443B (zh) | 结合视频通道的智能家居语音控制系统及其控制方法 | |
CN109117777A (zh) | 生成信息的方法和装置 | |
CN105656887A (zh) | 基于人工智能的声纹认证方法以及装置 | |
CN108305616A (zh) | 一种基于长短时特征提取的音频场景识别方法及装置 | |
CN107564531A (zh) | 基于声纹特征的会议记录方法、装置及计算机设备 | |
CN106709402A (zh) | 基于音型像特征的真人活体身份验证方法 | |
CN105096941A (zh) | 语音识别方法以及装置 | |
CN104391673A (zh) | 语音交互方法和装置 | |
CN105632487B (zh) | 一种语音识别方法和装置 | |
CN111261151B (zh) | 一种语音处理方法、装置、电子设备及存储介质 | |
WO2004088632A3 (en) | Speaker recognition using local models | |
CN110164453A (zh) | 一种多模型融合的声纹识别方法、终端、服务器及存储介质 | |
CN108933730A (zh) | 信息推送方法和装置 | |
CN103943111A (zh) | 一种身份识别的方法及装置 | |
CN111462761A (zh) | 声纹数据生成方法、装置、计算机装置及存储介质 | |
CN114007131A (zh) | 视频监控方法、装置及相关设备 | |
CN103778917A (zh) | 一种在电话满意度调查中检测身份冒充的系统与方法 | |
CN106205610B (zh) | 一种语音信息识别方法和设备 | |
CN110516083B (zh) | 相册管理方法、存储介质及电子设备 | |
CN109150538A (zh) | 一种指纹与声纹融合身份认证方法 | |
CN111667839A (zh) | 注册方法和设备、说话者识别方法和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |