CN109473105A - 与文本无关的声纹验证方法、装置和计算机设备 - Google Patents
与文本无关的声纹验证方法、装置和计算机设备 Download PDFInfo
- Publication number
- CN109473105A CN109473105A CN201811261457.2A CN201811261457A CN109473105A CN 109473105 A CN109473105 A CN 109473105A CN 201811261457 A CN201811261457 A CN 201811261457A CN 109473105 A CN109473105 A CN 109473105A
- Authority
- CN
- China
- Prior art keywords
- voice
- vocal print
- print feature
- feature
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Abstract
本申请揭示了一种与文本无关的声纹验证方法、装置和计算机设备,其中方法包括:截取待验证的语音中低于指定频率的第一语音,并利用梅尔倒谱系数提取所述第一语音的频谱特征;通过预设的基于深度神经网络训练的声纹特征提取模型提取所述频谱特征的第一声纹特征;在预设的声纹数据库中查找与所述第一声纹特征匹配的第二声纹特征;若查找到与所述第一声纹特征匹配的第二声纹特征,则判定所述待验证的语音验证通过。本申请利用基于深度神经网络训练的声纹特征提取模型来提取待验证语音的声纹特征,具有更快的提取效率,节约系统的内存和显存等,上述声纹特征提取模型可以不间断的自我学习,其提取声纹特征的准确性会保持一定的准确性。
Description
技术领域
本申请涉及到计算机领域,特别是涉及到一种与文本无关的声纹验证方 法、装置和计算机设备。
背景技术
文本无关声纹系统主要利用个体之间不同的语音声学特征(发音器官特 征和行为特征)来区分说话人。目前广泛使用的文本无关声纹系统核心有两 部分:通过高斯混合模型-通用背景模型(GMM-UBM)来提取声学特征i-vector; 通过概率线性判别(PLDA)获取声学特征i-vector之间的相似度得分。但是存 在以下缺点:(1)GMM-UBM模型性能难以优化;(2)计算步骤较多;(3) GMM-UBM模型参数较多,模型工程化占内存、显存较大。所以提供一种新 的与文本无关的声纹验证方法,是目前亟需解决的问题。
发明内容
本申请的主要目的为提供与文本无关的声纹验证方法、装置和计算机设 备,旨在解决现有技术中声纹特征提取计算步骤多、GMM-UBM模型性能难 以优化、GMM-UBM模型参数较多,模型工程化占内存、显存较大等问题。
为了实现上述发明目的,本申请提出一种与文本无关的声纹验证方法, 包括:
截取待验证的语音中低于指定频率的第一语音,并利用梅尔倒谱系数提 取所述第一语音的频谱特征;
通过预设的基于深度神经网络训练的声纹特征提取模型提取所述频谱特 征的第一声纹特征;
在预设的声纹数据库中查找与所述第一声纹特征匹配的第二声纹特征;
若查找到与所述第一声纹特征匹配的第二声纹特征,则判定所述待验证 的语音验证通过。
进一步地,所述深度神经网络的目标函数为:
其中,其中,x,y分别表示用户特征的矩阵,k为参数, 用于计算x,y之间的相似度,e为自然常数,S 为参数,T为x的矩阵转置。
进一步地,所述利用梅尔倒谱系数提取所述第一语音的频谱特征的步骤, 包括:
根据预设规则对所述第一语音进行预处理;
利用所述梅尔倒谱系数提取预处理后的第一语音的频谱特征,以用于输 入到声纹特征提取模型。
进一步地,所述通过预设的基于深度神经网络训练的声纹特征提取模型 提取所述频谱特征的第一声纹特征的步骤之前,包括:
对所述频谱特征进行均值方差归一化处理。
进一步地,所述通过预设的基于深度神经网络训练的声纹特征提取模型 提取所述频谱特征的第一声纹特征的步骤,包括:
判断所述第一语音的发音者性别;
根据所述发音者性别,调用根据对应性别的声音样本,基于所述深度神 经网络训练而得的声纹特征提取模型;
将所述第一语音输入到所述声纹特征提取模型中提取出所述第一声纹特 征。
进一步地,所述通过预设的基于深度神经网络训练的声纹特征提取模型 提取所述频谱特征的第一声纹特征的步骤之前,包括:
判断所述第一语音是否为经过变音软件处理过的声音;
如果否,则通过预设的基于深度神经网络训练的声纹特征提取模型提取 所述第一语音的第一声纹特征。
进一步地,所述声纹特征提取模型的训练方法,包括:
获取声音样本形成样本集,其中,所述样本集中包括多个人在两个不同 的指定时间段的声音样本;
将样本集按照预设比例分为训练集和测试集;
利用训练集训所述深度神经网络,得到所述声纹特征提取模型;
利用所述测试集验证所述声纹特征提取模型。
本申请还提供一种与文本无关的声纹验证装置,包括:
频谱提取单元,用于截取待验证的语音中低于指定频率的第一语音,并 利用梅尔倒谱系数提取所述第一语音的频谱特征;
声纹提取单元,用于通过预设的基于深度神经网络训练的声纹特征提取 模型提取所述频谱特征的第一声纹特征;
查找匹配单元,用于在预设的声纹数据库中查找与所述第一声纹特征匹 配的第二声纹特征;
判定单元,用于若查找到与所述第一声纹特征匹配的第二声纹特征,则 判定所述待验证的语音验证通过。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器存储 有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法 的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,其特 征在于,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请的与文本无关的声纹验证方法、装置和计算机设备,利用基于深 度神经网络训练的声纹特征提取模型来提取待验证语音的声纹特征,相对于 现有技术的通过高斯混合模型-通用背景模型(GMM-UBM)来提取声学特征 i-vector,其具有更快的提取效率,将复杂的计算步骤用神经网络计算取代, 参数少,所以更加节约系统的内存和显存等,节省系统资源。而且,上述声 纹特征提取模型可以不间断的自我学习,其提取声纹特征的准确性会保持一 定的准确性。而且本申请在提取频谱特征的时候,先将待待验证的语音中大于指定频率的声音信号过滤掉,以提高梅尔倒谱系数提取所述第一语音的频 谱特征的。准确性和效率,进一步提高声纹验证的准确性和效率。
附图说明
图1为本申请一实施例的与文本无关的声纹验证方法的流程示意图;
图2为本申请一实施例的与文本无关的声纹验证装置的结构示意框图;
图3为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步 说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及 实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例 仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请实施例提供一种与文本无关的声纹验证方法,包括步骤:
S1、截取待验证的语音中低于指定频率的第一语音,并利用梅尔倒谱系 数提取所述第一语音的频谱特征;
S2、通过预设的基于深度神经网络训练的声纹特征提取模型提取所述频 谱特征的第一声纹特征;
S3、在预设的声纹数据库中查找与所述第一声纹特征匹配的第二声纹特 征;
S4、若查找到与所述第一声纹特征匹配的第二声纹特征,则判定所述待 验证的语音验证通过。
如上述步骤S1所述,上述待验证的语音包括多种,如即时获取的语音、 预先存储的语音等。获取待验证的第一语音的方法包括多种,比如,即时获 取的语音的获取方法为:通过麦克风采集说话者的当前输出的语音,该语音 即为即时获取的语音;预先存储的语音的获取方法为:根据存储语音的路径 到其存储空间中进行复制、导入、剪切等操作即可,以得到需要的待验证语 音。上述低于指定频率,是指可以保证梅尔倒谱系数提取准确性的频率。梅 尔频率是基于人耳听觉特性提出来的,它与Hz频率成非线性对应关系。梅尔 频率倒谱系数(MFCC)则是利用它们之间的这种关系,计算得到的Hz频谱特 征,MFCC已经广泛地应用在语音识别领域。由于梅尔频率与Hz频率之间非 线性的对应关系,使得MFCC随着频率的提高,其计算精度随之下降。本实 施例中先将验证的语音中高于上述指定频率的语音过滤或删除,以提高梅尔 倒谱系数提取频谱特征的准确性,以提高后续声纹验证的准确性。
如上述步骤S2所述,神经网络是一种大致模仿人类大脑构造设计的算法, 用于识别模式。神经网络通过机器感知系统解释传感器数据,对原始输入进 行标记或聚类。神经网络所能识别的模式是包含在向量中的数值形式,因此 图像、声音、文本、时间序列等一切现实世界的数据必须转换为数值。深度 神经网络是指神经元层的层数数较多的神经网络,本申请的神经网络包括多 个NIN(Network-in-Network)层和一个池化层组成。本申请中,对于声纹的 特征提取,是一个较为复杂的过程,所以优选深度神经网络,以提高声纹特 征提取模型面对复杂问题的处理能力。上述声纹特征提取模型是通过大量的 声音样本通过上述深度神经网络训练而得,在训练过程中,声音样本一般为 成对出现,其会将标记为是同一个人的声音样本对应的声纹特征向相似度较 高的方向运算,将标记为不同人的声音样本对应的声纹特征向相似度较低的 方向运算,以不断优化上述深度神经网络的各层权重参数,最终得到上述声 纹特征提取模型。在将上述声纹特征提取模型投入使用之前,还会对其进行 测试,具体的测试过程即为通过测试集的声音样本进行测试,如果测试通过,则认为上述声纹特征提取模型可以投入使用。需要注意的是,上述声音样本 同样是不高于指定频率的声音样本。在一个实施例中,上述深度神经网络的 目标函数为:
其中,其中,x,y分别表示用户特征的矩阵,k为参数, 用于计算x,y之间的相似度,e为自然常数,S 为参数,T为x的矩阵转置。
如上述步骤S3所述,上述声纹数据库内存储有大量的第二声纹特征,以 及与第二声纹特征关联的身份信息;或者,上述声纹数据库内存储有一个或 多个等待识别身份的第二声纹特征等。上述匹配的过程即为计算第一声纹特 征与第二声纹特征相似度的过程,相似度的计算可以通过PLDA(Probabilistic LDA)模型进行计算,PLDA是一种现有技术,在此不在赘述。在其它实施 例中还可以通过欧几里得距离(Eucledian Distance)、曼哈顿距离(Manhattan Distance)、明可夫斯基距离(Minkowski distance)或者余弦相似度中一种算法进行计算相似度等。
如上述步骤S4所述,上述待验证的语音验证包括两种,即话者辨认 (SpeakerIdentification)和话者确认(Speaker Verification)。话者辨认是指判断待 验证的语音是若干人中的哪一个所说的,是“多选一”问题;而话者确认是 确认待验证的语音是否是指定的某个人所说的,是“一对一判别”问题。不 同的任务和应用会使用不同的声纹识别技术,如缩小刑侦范围时可能需要话 者辨认技术,而银行交易时则需要话者确认技术等。本申请中,如果在预设 的数据中查找到与所述第一声纹特征匹配的第二声纹特征,如果是话者辨认, 待验证的语音验证通过是指输出第二声纹特征对应的身份信息,该身份信息 即会认为是待验证的语音的话者身份,比如,警察掌握了一段犯罪嫌疑人的 录音,先通过上述声纹特征提取模型提取出一个第二声纹特征放入到声纹数 据库中,然后将多个可能是犯罪嫌疑人的第一声音输入到上述声纹特征提取 模型中提出带有身份标识的第一声纹特征,然后计算多个第一声纹特征与第 二声纹特征的相似度大于预设的像似度值,将这些与第二声纹特征的相似度 大于预设的像似度值的第一声纹特征对应的人作为犯罪嫌疑人,进而缩小犯 罪嫌疑人的范围;如果是话者确认,则待验证的语音验证通过是指待验证的语音对应的身份符合预设要求,可以办理下一步任务等,比如,用户到银行 进行取钱,当输入银行密码之后,需要声纹确定是否为本人取钱,则获取用 户的待验证的语音,并通过声纹特征提取模型计算出第一声纹特征,然后将 第一声纹特征与该用户预先存储在银行的声纹数据库中的第二声纹特征进行 相似度比较,如果相速度达到指定的阈值,则判定该用户是本人取钱等,给 予相应的取钱权限等。
在一个实施例中,上述利用梅尔倒谱系数提取所述第一语音的频谱特征 的步骤,包括:
S11、根据预设规则对所述第一语音进行预处理;
S12、利用所述梅尔倒谱系数提取预处理后的第一语音的频谱特征,以用 于输入到声纹特征提取模型。
如上述步骤S11所述,上述预设规则的预处理过程包括,首先判断第一 语音的文件的类型,具体可通过读取第一语音的文件的后缀和文件头判定文 件格式(比如wav、pcm、mp3等);将第一语音的文件类型转成预设的文件 类型,统一第一语音格式以便于后续的规整处理;将同一格式的第一语音读 入内存并规整,规整包括如降采样,将16kHz采样数据重采样为8kHz,比如 选取声道,将双声道提取左声道或右声)等。
如上述步骤S12所述,本申请使用梅尔倒谱系数(MFCC)提取上述预处 理后的第一语音的频谱特征。人耳能分辨不同人说话是因为人耳对声音频谱 的响应是非线性的,MFCC特征提取正是利用了这个原理。其过程主要分为: (1)预处理,包括分帧(不定长音频切分成固定长度小段)、预增强(加强 高频)、加窗(消除帧两端造成的信号不连续);(2)时域信号到频域信号转 换,通常采用快速傅里叶变换(FFT);(3)梅尔滤波(使用一组滤波器,计算不同频率的能量,同时设定频率上下限,屏蔽某些频率范围);(4)倒谱分 析(取对数,放大低能量处的能量差异;离散余弦变换,将信号映射到低维 空间)等。
在一个实施例中,上述通过预设的基于深度神经网络训练的声纹特征提 取模型提取所述频谱特征的第一声纹特征的步骤S2之前,包括:
S201、对所述频谱特征进行均值方差归一化处理。
如上述步骤S201所述,在实际环境中,麦克风、信道等差异造成相同音 素特征差别较大,通过均值方差归一化(Cepstrum Mean and Variance Normalization)进行特征规整,得到均值为0,方差为1的标准的频谱特征, 以提高鲁棒性。
在一个实施例中,上述通过预设的基于深度神经网络训练的声纹特征提 取模型提取所述频谱特征的第一声纹特征的步骤S2,包括:
S21、判断所述第一语音的发音者性别;
S22、根据所述发音者性别,调用根据对应性别的声音样本,基于所述深 度神经网络训练而得的声纹特征提取模型;
S23、将所述第一语音输入到所述声纹特征提取模型中提取出所述第一声 纹特征。
如上述步骤S21至S23所述,上述声纹特征提取模型包括两种,即针对 男性的声纹特征提取模型和针对女性的声纹特征提取模型,各声纹特征提取 模型是根据对应性别的声音样本通过上述深度神经网络训练而得,比如,针 对男性的声纹特征提取模型,是利用男性的声音样本训练而得。本申请先区 分待验证的语音的发音者性别,然后调用与其性别对应的声纹特征提取模型, 可以提高第一声纹特征的准确性。本申请中,区别待验证的语音的发音者性 别可以通过预设的模型进行区分,其为现有技术在此不在赘述。在其它实施例中,还可以根据年龄段的不同而设置针对不同年龄段的声纹特征提取模型, 这样可以提高声纹特征提起的准确性,比如,针对少儿年龄阶段的声纹特征 提取模型,由于其使用的样本数据基本为发育中的少儿的声音样本,所以其 训练出声纹特征提取模型,与利用针对青年年龄段的声音样本训练处的声纹 体特征提取模型的权重参数是存在不同的。
在一个实施例中,上述通过预设的基于深度神经网络训练的声纹特征提 取模型提取所述频谱特征的第一声纹特征的步骤S2之前,包括:
S202、判断所述第一语音是否为经过变音软件处理过的声音;
S203、如果否,则通过预设的基于深度神经网络训练的声纹特征提取模 型提取所述第一语音的第一声纹特征。
如上述步骤S202和S203所述,判断第一语音是否为经过变音软件处理 过的声音的方法一般为:先建立一个变音识别模型,然后将第一语音输入到 变音识别模型中进行判断。因为通过变音软件变音后的声音是机器输出的声 音,所以会具有一定的机械特征,利用该机械特征既可以判断出声音是否通 过变音软件变音处理过。上述变音识别模型的建模过程包括:获取大量的经 过变音软件变音处理后的声音数据,并利用该声音数据基于神经网络进行训 练,以得到一个变音识别模型,具体的训练过程为神经网络训练的基本过程, 在此不在赘述。
在一个实施例中,上述声纹特征提取模型的训练方法,包括:
获取声音样本形成样本集,其中,所述样本集中包括多个人在两个不同 的指定时间段的声音样本;
将样本集按照预设比例分为训练集和测试集;
利用训练集训所述深度神经网络,得到所述声纹特征提取模型;
利用所述测试集验证所述声纹特征提取模型。
本实施例中,将样本集分为训练集和测试集对深度神经网络进行训练, 以及对训练结果进行测试,是本领域的公知手段,再次不在赘述。本申请中 的特点是,有多个人的声音样本分别包括两个,而同一人的两个声音样本的 采集时间不同,比如,一个人的两个声音样本中的一个是在早晨采集,另一 个声音样本在中午采集,由于同一个人的声纹基本不变,但是也会根据其身 体状态产生略微的不同,比如人在早晨刚刚起床的时候,其发音器官相对松 弛,而在中午的时候其发音器官相对紧绷等,所以在不同的时间,同一个人 发出的声音存在细微的差别,本申请利用这个差别训练深度神经网络,使训 练出的声纹特征提取模型基本忽略掉上述的细微差别,进而提高声纹识别的 准确性。在其它实施例中,还可以在样本数据中参照同一个人的健康时候的 声音样本,以及生病时的健康样本等,以提高最终声纹识别的准确性。
本申请实施例的与文本无关的声纹验证方法,利用基于深度神经网络训 练的声纹特征提取模型来提取待验证语音的声纹特征,相对于现有技术的通 过高斯混合模型-通用背景模型(GMM-UBM)来提取声学特征i-vector,其具 有更快的提取效率,将复杂的计算步骤用神经网络计算取代,参数少,所以 更加节约系统的内存和显存等,节省系统资源。而且,上述声纹特征提取模 型可以不间断的自我学习,其提取声纹特征的准确性会保持一定的准确性。 而且本申请在提取频谱特征的时候,先将待待验证的语音中大于指定频率的声音信号过滤掉,以提高梅尔倒谱系数提取所述第一语音的频谱特征的。准 确性和效率,进一步提高声纹验证的准确性和效率。
参照图2,本申请实施例还提供一种与文本无关的声纹验证装置,包括:
频谱提取单元10,用于截取待验证的语音中低于指定频率的第一语音, 并利用梅尔倒谱系数提取所述第一语音的频谱特征;
声纹提取单元20,用于通过预设的基于深度神经网络训练的声纹特征提 取模型提取所述频谱特征的第一声纹特征;
查找匹配单元30,用于在预设的声纹数据库中查找与所述第一声纹特征 匹配的第二声纹特征;
判定单元40,用于若查找到与所述第一声纹特征匹配的第二声纹特征, 则判定所述待验证的语音验证通过。
如上述频谱提取单元10,上述待验证的语音包括多种,如即时获取的语 音、预先存储的语音等。获取待验证的第一语音的方法包括多种,比如,即 时获取的语音的获取方法为:通过麦克风采集说话者的当前输出的语音,该 语音即为即时获取的语音;预先存储的语音的获取方法为:根据存储语音的 路径到其存储空间中进行复制、导入、剪切等操作即可,以得到需要的待验 证语音。上述低于指定频率,是指可以保证梅尔倒谱系数提取准确性的频率。 梅尔频率是基于人耳听觉特性提出来的,它与Hz频率成非线性对应关系。梅尔频率倒谱系数(MFCC)则是利用它们之间的这种关系,计算得到的Hz频谱 特征,MFCC已经广泛地应用在语音识别领域。由于梅尔频率与Hz频率之间 非线性的对应关系,使得MFCC随着频率的提高,其计算精度随之下降。本 实施例中先将验证的语音中高于上述指定频率的语音过滤或删除,以提高梅 尔倒谱系数提取频谱特征的准确性,以提高后续声纹验证的准确性。
如上述声纹提取单元20,神经网络是一种大致模仿人类大脑构造设计的 算法,用于识别模式。神经网络通过机器感知系统解释传感器数据,对原始 输入进行标记或聚类。神经网络所能识别的模式是包含在向量中的数值形式, 因此图像、声音、文本、时间序列等一切现实世界的数据必须转换为数值。 深度神经网络是指神经元层的层数数较多的神经网络,本申请的神经网络包 括多个NIN(Network-in-Network)层和一个池化层组成。本申请中,对于声 纹的特征提取,是一个较为复杂的过程,所以优选深度神经网络,以提高声纹特征提取模型面对复杂问题的处理能力。上述声纹特征提取模型是通过大 量的声音样本通过上述深度神经网络训练而得,在训练过程中,声音样本一 般为成对出现,其会将标记为是同一个人的声音样本对应的声纹特征向相似 度较高的方向运算,将标记为不同人的声音样本对应的声纹特征向相似度较 低的方向运算,以不断优化上述深度神经网络的各层权重参数,最终得到上 述声纹特征提取模型。在将上述声纹特征提取模型投入使用之前,还会对其 进行测试,具体的测试过程即为通过测试集的声音样本进行测试,如果测试通过,则认为上述声纹特征提取模型可以投入使用。需要注意的是,上述声 音样本同样是不高于指定频率的声音样本。在一个实施例中,上述深度神经 网络的目标函数为:
其中,其中,x,y分别表示用户特征的矩阵,k为参数, 用于计算x,y之间的相似度,e为自然常数,S 为参数,T为x的矩阵转置。
如上述查找匹配单元30,上述声纹数据库内存储有大量的第二声纹特征, 以及与第二声纹特征关联的身份信息;或者,上述声纹数据库内存储有一个 或多个等待识别身份的第二声纹特征等。上述匹配的过程即为计算第一声纹 特征与第二声纹特征相似度的过程,相似度的计算可以通过PLDA (Probabilistic LDA)模型进行计算,PLDA是一种现有技术,在此不在赘述。 在其它实施例中还可以通过欧几里得距离(Eucledian Distance)、曼哈顿距离 (Manhattan Distance)、明可夫斯基距离(Minkowski distance)或者余弦相似度中一种算法进行计算相似度等。
如上述判定单元40,上述待验证的语音验证包括两种,即话者辨认 (SpeakerIdentification)和话者确认(Speaker Verification)。话者辨认是指判断待 验证的语音是若干人中的哪一个所说的,是“多选一”问题;而话者确认是 确认待验证的语音是否是指定的某个人所说的,是“一对一判别”问题。不 同的任务和应用会使用不同的声纹识别技术,如缩小刑侦范围时可能需要话 者辨认技术,而银行交易时则需要话者确认技术等。本申请中,如果在预设 的数据中查找到与所述第一声纹特征匹配的第二声纹特征,如果是话者辨认, 待验证的语音验证通过是指输出第二声纹特征对应的身份信息,该身份信息 即会认为是待验证的语音的话者身份,比如,警察掌握了一段犯罪嫌疑人的 录音,先通过上述声纹特征提取模型提取出一个第二声纹特征放入到声纹数 据库中,然后将多个可能是犯罪嫌疑人的第一声音输入到上述声纹特征提取 模型中提出带有身份标识的第一声纹特征,然后计算多个第一声纹特征与第 二声纹特征的相似度大于预设的像似度值,将这些与第二声纹特征的相似度 大于预设的像似度值的第一声纹特征对应的人作为犯罪嫌疑人,进而缩小犯 罪嫌疑人的范围;如果是话者确认,则待验证的语音验证通过是指待验证的语音对应的身份符合预设要求,可以办理下一步任务等,比如,用户到银行 进行取钱,当输入银行密码之后,需要声纹确定是否为本人取钱,则获取用 户的待验证的语音,并通过声纹特征提取模型计算出第一声纹特征,然后将 第一声纹特征与该用户预先存储在银行的声纹数据库中的第二声纹特征进行 相似度比较,如果相速度达到指定的阈值,则判定该用户是本人取钱等,给 予相应的取钱权限等。
在一个实施例中,上述频谱提取单元10,包括:
预处理模块,用于根据预设规则对所述第一语音进行预处理;
第一提取模块,用于利用所述梅尔倒谱系数提取预处理后的第一语音的 频谱特征,以用于输入到声纹特征提取模型。
如上述预处理模块,上述预设规则的预处理过程包括,首先判断第一语 音的文件的类型,具体可通过读取第一语音的文件的后缀和文件头判定文件 格式(比如wav、pcm、mp3等);将第一语音的文件类型转成预设的文件类 型,统一第一语音格式以便于后续的规整处理;将同一格式的第一语音读入 内存并规整,规整包括如降采样,将16kHz采样数据重采样为8kHz,比如选 取声道,将双声道提取左声道或右声)等。
如上述提取模块,使用梅尔倒谱系数(MFCC)提取上述预处理后的第一 语音的频谱特征。人耳能分辨不同人说话是因为人耳对声音频谱的响应是非 线性的,MFCC特征提取正是利用了这个原理。其过程主要分为:(1)预处 理,包括分帧(不定长音频切分成固定长度小段)、预增强(加强高频)、加 窗(消除帧两端造成的信号不连续);(2)时域信号到频域信号转换,通常采 用快速傅里叶变换(FFT);(3)梅尔滤波(使用一组滤波器,计算不同频率的能量,同时设定频率上下限,屏蔽某些频率范围);(4)倒谱分析(取对数, 放大低能量处的能量差异;离散余弦变换,将信号映射到低维空间)等。
在一个实施例中,上述与文本无关的声纹验证装置,还包括:
归一化单元,用于对所述频谱特征进行均值方差归一化处理。
在实际环境中,麦克风、信道等差异造成相同音素特征差别较大,通过 均值方差归一化(Cepstrum Mean and Variance Normalization)进行特征规整, 得到均值为0,方差为1的标准的频谱特征,以提高鲁棒性。
在一个实施例中,上述声纹提取单元,包括:
判断模块,用于判断所述第一语音的发音者性别;
调用模块,用于根据所述发音者性别,调用根据对应性别的声音样本, 基于所述深度神经网络训练而得的声纹特征提取模型;
第二提取模块,用于将所述第一语音输入到所述声纹特征提取模型中提 取出所述第一声纹特征。
在本实施例中,上述声纹特征提取模型包括两种,即针对男性的声纹特 征提取模型和针对女性的声纹特征提取模型,各声纹特征提取模型是根据对 应性别的声音样本通过上述深度神经网络训练而得,比如,针对男性的声纹 特征提取模型,是利用男性的声音样本训练而得。本申请先区分待验证的语 音的发音者性别,然后调用与其性别对应的声纹特征提取模型,可以提高第 一声纹特征的准确性。本申请中,区别待验证的语音的发音者性别可以通过 预设的模型进行区分,其为现有技术在此不在赘述。在其它实施例中,还可以根据年龄段的不同而设置针对不同年龄段的声纹特征提取模型,这样可以 提高声纹特征提起的准确性,比如,针对少儿年龄阶段的声纹特征提取模型, 由于其使用的样本数据基本为发育中的少儿的声音样本,所以其训练出声纹 特征提取模型,与利用针对青年年龄段的声音样本训练处的声纹体特征提取 模型的权重参数是存在不同的。
在一个实施例中,上述与文本无关的声纹验证装置,还包括:
变音判断单元,用于判断所述第一语音是否为经过变音软件处理过的声 音,如果否,则通过预设的基于深度神经网络训练的声纹特征提取模型提取 所述第一语音的第一声纹特征。
在本实施例中,判断第一语音是否为经过变音软件处理过的声音的方法 一般为:先建立一个变音识别模型,然后将第一语音输入到变音识别模型中 进行判断。因为通过变音软件变音后的声音是机器输出的声音,所以会具有 一定的机械特征,利用该机械特征既可以判断出声音是否通过变音软件变音 处理过。上述变音识别模型的建模过程包括:获取大量的经过变音软件变音 处理后的声音数据,并利用该声音数据基于神经网络进行训练,以得到一个 变音识别模型,具体的训练过程为神经网络训练的基本过程,在此不在赘述。
在一个实施例中,上述与文本无关的声纹验证装置,还包括:
获取单元,用于获取声音样本形成样本集,其中,所述样本集中包括多 个人在两个不同的指定时间段的声音样本;
分配单元,用于将样本集按照预设比例分为训练集和测试集;
训练单元,用于利用训练集训所述深度神经网络,得到所述声纹特征提 取模型;
验证单元,用于利用所述测试集验证所述声纹特征提取模型。
本实施例中,将样本集分为训练集和测试集对深度神经网络进行训练, 以及对训练结果进行测试,是本领域的公知手段,再次不在赘述。本申请中 的特点是,有多个人的声音样本分别包括两个,而同一人的两个声音样本的 采集时间不同,比如,一个人的两个声音样本中的一个是在早晨采集,另一 个声音样本在中午采集,由于同一个人的声纹基本不变,但是也会根据其身 体状态产生略微的不同,比如人在早晨刚刚起床的时候,其发音器官相对松 弛,而在中午的时候其发音器官相对紧绷等,所以在不同的时间,同一个人 发出的声音存在细微的差别,本申请利用这个差别训练深度神经网络,使训 练出的声纹特征提取模型基本忽略掉上述的细微差别,进而提高声纹识别的 准确性。在其它实施例中,还可以在样本数据中参照同一个人的健康时候的 声音样本,以及生病时的健康样本等,以提高最终声纹识别的准确性。
本申请实施例的与文本无关的声纹验证装置,利用基于深度神经网络训 练的声纹特征提取模型来提取待验证语音的声纹特征,相对于现有技术的通 过高斯混合模型-通用背景模型(GMM-UBM)来提取声学特征i-vector,其具 有更快的提取效率,将复杂的计算步骤用神经网络计算取代,参数少,所以 更加节约系统的内存和显存等,节省系统资源。而且,上述声纹特征提取模 型可以不间断的自我学习,其提取声纹特征的准确性会保持一定的准确性。 而且本申请在提取频谱特征的时候,先将待待验证的语音中大于指定频率的声音信号过滤掉,以提高梅尔倒谱系数提取所述第一语音的频谱特征的。准 确性和效率,进一步提高声纹验证的准确性和效率。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是 服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的 处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提 供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储 器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器 为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机 设备的数据库用于存储声纹特征提取模型等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现 一种与文本无关的声纹验证方法。
上述处理器执行上述与文本无关的声纹验证方法,包括:截取待验证的 语音中低于指定频率的第一语音,并利用梅尔倒谱系数提取所述第一语音的 频谱特征;通过预设的基于深度神经网络训练的声纹特征提取模型提取所述 频谱特征的第一声纹特征;在预设的声纹数据库中查找与所述第一声纹特征 匹配的第二声纹特征;若查找到与所述第一声纹特征匹配的第二声纹特征, 则判定所述待验证的语音验证通过。
在一个实施例中,上述深度神经网络的目标函数为:
其中,其中,x,y分别表示用户特征的矩阵,k为参数, 用于计算x,y之间的相似度,e为自然常数,S 为参数,T为x的矩阵转置。
在一个实施例中,上述利用梅尔倒谱系数提取所述第一语音的频谱特征 的步骤,包括:根据预设规则对所述第一语音进行预处理;利用所述梅尔倒 谱系数提取预处理后的第一语音的频谱特征,以用于输入到声纹特征提取模 型。
在一个实施例中,上述通过预设的基于深度神经网络训练的声纹特征提 取模型提取所述频谱特征的第一声纹特征的步骤之前,包括:对所述频谱特 征进行均值方差归一化处理。
在一个实施例中,上述通过预设的基于深度神经网络训练的声纹特征提 取模型提取所述频谱特征的第一声纹特征的步骤,包括:判断所述第一语音 的发音者性别;根据所述发音者性别,调用根据对应性别的声音样本,基于 所述深度神经网络训练而得的声纹特征提取模型;将所述第一语音输入到所 述声纹特征提取模型中提取出所述第一声纹特征。
在一个实施例中,上述通过预设的基于深度神经网络训练的声纹特征提 取模型提取所述频谱特征的第一声纹特征的步骤之前,包括:判断所述第一 语音是否为经过变音软件处理过的声音;如果否,则通过预设的基于深度神 经网络训练的声纹特征提取模型提取所述第一语音的第一声纹特征。
在一个实施例中,上述声纹特征提取模型的训练方法,包括:获取声音 样本形成样本集,其中,所述样本集中包括多个人在两个不同的指定时间段 的声音样本;将样本集按照预设比例分为训练集和测试集;利用训练集训所 述深度神经网络,得到所述声纹特征提取模型;利用所述测试集验证所述声 纹特征提取模型。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关 的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限 定。
本申请实施例的计算机设备,利用基于深度神经网络训练的声纹特征提 取模型来提取待验证语音的声纹特征,相对于现有技术的通过高斯混合模型- 通用背景模型(GMM-UBM)来提取声学特征i-vector,其具有更快的提取效率, 将复杂的计算步骤用神经网络计算取代,参数少,所以更加节约系统的内存 和显存等,节省系统资源。而且,上述声纹特征提取模型可以不间断的自我 学习,其提取声纹特征的准确性会保持一定的准确性。而且本申请在提取频 谱特征的时候,先将待待验证的语音中大于指定频率的声音信号过滤掉,以 提高梅尔倒谱系数提取所述第一语音的频谱特征的。准确性和效率,进一步 提高声纹验证的准确性和效率。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程 序,计算机程序被处理器执行时实现一种与文本无关的声纹验证方法,包括: 截取待验证的语音中低于指定频率的第一语音,并利用梅尔倒谱系数提取所 述第一语音的频谱特征;通过预设的基于深度神经网络训练的声纹特征提取 模型提取所述频谱特征的第一声纹特征;在预设的声纹数据库中查找与所述 第一声纹特征匹配的第二声纹特征;若查找到与所述第一声纹特征匹配的第 二声纹特征,则判定所述待验证的语音验证通过。
在一个实施例中,上述深度神经网络的目标函数为:
其中,其中,x,y分别表示用户特征的矩阵,k为参数, 用于计算x,y之间的相似度,e为自然常数,S 为参数,T为x的矩阵转置。
在一个实施例中,上述利用梅尔倒谱系数提取所述第一语音的频谱特征 的步骤,包括:根据预设规则对所述第一语音进行预处理;利用所述梅尔倒 谱系数提取预处理后的第一语音的频谱特征,以用于输入到声纹特征提取模 型。
上述与文本无关的声纹验证方法,利用基于深度神经网络训练的声纹特 征提取模型来提取待验证语音的声纹特征,相对于现有技术的通过高斯混合 模型-通用背景模型(GMM-UBM)来提取声学特征i-vector,其具有更快的提 取效率,将复杂的计算步骤用神经网络计算取代,参数少,所以更加节约系 统的内存和显存等,节省系统资源。而且,上述声纹特征提取模型可以不间 断的自我学习,其提取声纹特征的准确性会保持一定的准确性。而且本申请 在提取频谱特征的时候,先将待待验证的语音中大于指定频率的声音信号过滤掉,以提高梅尔倒谱系数提取所述第一语音的频谱特征的。准确性和效率, 进一步提高声纹验证的准确性和效率。
在一个实施例中,上述通过预设的基于深度神经网络训练的声纹特征提 取模型提取所述频谱特征的第一声纹特征的步骤之前,包括:对所述频谱特 征进行均值方差归一化处理。
在一个实施例中,上述通过预设的基于深度神经网络训练的声纹特征提 取模型提取所述频谱特征的第一声纹特征的步骤,包括:判断所述第一语音 的发音者性别;根据所述发音者性别,调用根据对应性别的声音样本,基于 所述深度神经网络训练而得的声纹特征提取模型;将所述第一语音输入到所 述声纹特征提取模型中提取出所述第一声纹特征。
在一个实施例中,上述通过预设的基于深度神经网络训练的声纹特征提 取模型提取所述频谱特征的第一声纹特征的步骤之前,包括:判断所述第一 语音是否为经过变音软件处理过的声音;如果否,则通过预设的基于深度神 经网络训练的声纹特征提取模型提取所述第一语音的第一声纹特征。
在一个实施例中,上述声纹特征提取模型的训练方法,包括:获取声音 样本形成样本集,其中,所述样本集中包括多个人在两个不同的指定时间段 的声音样本;将样本集按照预设比例分为训练集和测试集;利用训练集训所 述深度神经网络,得到所述声纹特征提取模型;利用所述测试集验证所述声 纹特征提取模型。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程, 是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储 于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如 上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对 存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失 性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、 电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失 性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说 明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM (DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增 强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存 储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM (DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围, 凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接 或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种与文本无关的声纹验证方法,其特征在于,包括:
截取待验证的语音中低于指定频率的第一语音,并利用梅尔倒谱系数提取所述第一语音的频谱特征;
通过预设的基于深度神经网络训练的声纹特征提取模型提取所述频谱特征的第一声纹特征;
在预设的声纹数据库中查找与所述第一声纹特征匹配的第二声纹特征;
若查找到与所述第一声纹特征匹配的第二声纹特征,则判定所述待验证的语音验证通过。
2.根据权利要求1所述的与文本无关的声纹验证方法,其特征在于,所述深度神经网络的目标函数为:
其中,其中,x,y分别表示用户特征的矩阵,k为参数, 用于计算x,y之间的相似度,e为自然常数,S为参数,T为x的矩阵转置。
3.根据权利要求2所述的与文本无关的声纹验证方法,其特征在于,所述利用梅尔倒谱系数提取所述第一语音的频谱特征的步骤,包括:
根据预设规则对所述第一语音进行预处理;
利用所述梅尔倒谱系数提取预处理后的第一语音的频谱特征,以用于输入到声纹特征提取模型。
4.根据权利要求1所述的与文本无关的声纹验证方法,其特征在于,所述通过预设的基于深度神经网络训练的声纹特征提取模型提取所述频谱特征的第一声纹特征的步骤之前,包括:
对所述频谱特征进行均值方差归一化处理。
5.根据权利要求1所述的与文本无关的声纹验证方法,其特征在于,所述通过预设的基于深度神经网络训练的声纹特征提取模型提取所述频谱特征的第一声纹特征的步骤,包括:
判断所述第一语音的发音者性别;
根据所述发音者性别,调用根据对应性别的声音样本,基于所述深度神经网络训练而得的声纹特征提取模型;
将所述第一语音输入到所述声纹特征提取模型中提取出所述第一声纹特征。
6.根据权利要求1所述的与文本无关的声纹验证方法,其特征在于,所述通过预设的基于深度神经网络训练的声纹特征提取模型提取所述频谱特征的第一声纹特征的步骤之前,包括:
判断所述第一语音是否为经过变音软件处理过的声音;
如果否,则通过预设的基于深度神经网络训练的声纹特征提取模型提取所述第一语音的第一声纹特征。
7.根据权利要求1-6中任一项所述的与文本无关的声纹验证方法,其特征在于,所述声纹特征提取模型的训练方法,包括:
获取声音样本形成样本集,其中,所述样本集中包括多个人在两个不同的指定时间段的声音样本;
将样本集按照预设比例分为训练集和测试集;
利用训练集训所述深度神经网络,得到所述声纹特征提取模型;
利用所述测试集验证所述声纹特征提取模型。
8.一种与文本无关的声纹验证装置,其特征在于,包括:
频谱提取单元,用于截取待验证的语音中低于指定频率的第一语音,并利用梅尔倒谱系数提取所述第一语音的频谱特征;
声纹提取单元,用于通过预设的基于深度神经网络训练的声纹特征提取模型提取所述频谱特征的第一声纹特征;
查找匹配单元,用于在预设的声纹数据库中查找与所述第一声纹特征匹配的第二声纹特征;
判定单元,用于若查找到与所述第一声纹特征匹配的第二声纹特征,则判定所述待验证的语音验证通过。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811261457.2A CN109473105A (zh) | 2018-10-26 | 2018-10-26 | 与文本无关的声纹验证方法、装置和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811261457.2A CN109473105A (zh) | 2018-10-26 | 2018-10-26 | 与文本无关的声纹验证方法、装置和计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109473105A true CN109473105A (zh) | 2019-03-15 |
Family
ID=65666260
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811261457.2A Pending CN109473105A (zh) | 2018-10-26 | 2018-10-26 | 与文本无关的声纹验证方法、装置和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109473105A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110797031A (zh) * | 2019-09-19 | 2020-02-14 | 厦门快商通科技股份有限公司 | 语音变音检测方法、系统、移动终端及存储介质 |
CN110956966A (zh) * | 2019-11-01 | 2020-04-03 | 平安科技(深圳)有限公司 | 声纹认证方法、装置、介质及电子设备 |
CN111444375A (zh) * | 2020-04-15 | 2020-07-24 | 厦门快商通科技股份有限公司 | 一种声纹识别的验证方法和装置以及设备 |
CN111816191A (zh) * | 2020-07-08 | 2020-10-23 | 珠海格力电器股份有限公司 | 语音处理方法、装置、系统及存储介质 |
CN111862933A (zh) * | 2020-07-20 | 2020-10-30 | 北京字节跳动网络技术有限公司 | 用于生成合成语音的方法、装置、设备和介质 |
CN112652325A (zh) * | 2020-12-15 | 2021-04-13 | 平安科技(深圳)有限公司 | 基于人工智能的远程语音调整方法及相关设备 |
CN112802482A (zh) * | 2021-04-15 | 2021-05-14 | 北京远鉴信息技术有限公司 | 一种声纹串并的识别方法、单兵系统及存储介质 |
WO2021128003A1 (zh) * | 2019-12-24 | 2021-07-01 | 广州国音智能科技有限公司 | 一种声纹同一性鉴定方法和相关装置 |
WO2022142031A1 (zh) * | 2020-12-29 | 2022-07-07 | 平安科技(深圳)有限公司 | 无效通话判断方法、装置、计算机设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105513597A (zh) * | 2015-12-30 | 2016-04-20 | 百度在线网络技术(北京)有限公司 | 声纹认证处理方法及装置 |
CN105869644A (zh) * | 2016-05-25 | 2016-08-17 | 百度在线网络技术(北京)有限公司 | 基于深度学习的声纹认证方法和装置 |
CN107068154A (zh) * | 2017-03-13 | 2017-08-18 | 平安科技(深圳)有限公司 | 基于声纹识别的身份验证的方法及系统 |
CN107527620A (zh) * | 2017-07-25 | 2017-12-29 | 平安科技(深圳)有限公司 | 电子装置、身份验证的方法及计算机可读存储介质 |
CN108564954A (zh) * | 2018-03-19 | 2018-09-21 | 平安科技(深圳)有限公司 | 深度神经网络模型、电子装置、身份验证方法和存储介质 |
-
2018
- 2018-10-26 CN CN201811261457.2A patent/CN109473105A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105513597A (zh) * | 2015-12-30 | 2016-04-20 | 百度在线网络技术(北京)有限公司 | 声纹认证处理方法及装置 |
CN105869644A (zh) * | 2016-05-25 | 2016-08-17 | 百度在线网络技术(北京)有限公司 | 基于深度学习的声纹认证方法和装置 |
CN107068154A (zh) * | 2017-03-13 | 2017-08-18 | 平安科技(深圳)有限公司 | 基于声纹识别的身份验证的方法及系统 |
CN107527620A (zh) * | 2017-07-25 | 2017-12-29 | 平安科技(深圳)有限公司 | 电子装置、身份验证的方法及计算机可读存储介质 |
CN108564954A (zh) * | 2018-03-19 | 2018-09-21 | 平安科技(深圳)有限公司 | 深度神经网络模型、电子装置、身份验证方法和存储介质 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110797031A (zh) * | 2019-09-19 | 2020-02-14 | 厦门快商通科技股份有限公司 | 语音变音检测方法、系统、移动终端及存储介质 |
CN110956966A (zh) * | 2019-11-01 | 2020-04-03 | 平安科技(深圳)有限公司 | 声纹认证方法、装置、介质及电子设备 |
CN110956966B (zh) * | 2019-11-01 | 2023-09-19 | 平安科技(深圳)有限公司 | 声纹认证方法、装置、介质及电子设备 |
WO2021128003A1 (zh) * | 2019-12-24 | 2021-07-01 | 广州国音智能科技有限公司 | 一种声纹同一性鉴定方法和相关装置 |
CN111444375A (zh) * | 2020-04-15 | 2020-07-24 | 厦门快商通科技股份有限公司 | 一种声纹识别的验证方法和装置以及设备 |
CN111816191A (zh) * | 2020-07-08 | 2020-10-23 | 珠海格力电器股份有限公司 | 语音处理方法、装置、系统及存储介质 |
CN111862933A (zh) * | 2020-07-20 | 2020-10-30 | 北京字节跳动网络技术有限公司 | 用于生成合成语音的方法、装置、设备和介质 |
CN112652325A (zh) * | 2020-12-15 | 2021-04-13 | 平安科技(深圳)有限公司 | 基于人工智能的远程语音调整方法及相关设备 |
CN112652325B (zh) * | 2020-12-15 | 2023-12-15 | 平安科技(深圳)有限公司 | 基于人工智能的远程语音调整方法及相关设备 |
WO2022142031A1 (zh) * | 2020-12-29 | 2022-07-07 | 平安科技(深圳)有限公司 | 无效通话判断方法、装置、计算机设备及存储介质 |
CN112802482A (zh) * | 2021-04-15 | 2021-05-14 | 北京远鉴信息技术有限公司 | 一种声纹串并的识别方法、单兵系统及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109473105A (zh) | 与文本无关的声纹验证方法、装置和计算机设备 | |
Tirumala et al. | Speaker identification features extraction methods: A systematic review | |
CN102509547B (zh) | 基于矢量量化的声纹识别方法及系统 | |
WO2020224114A1 (zh) | 基于残差时延网络的说话人确认方法、装置、设备及介质 | |
Aloufi et al. | Emotionless: Privacy-preserving speech analysis for voice assistants | |
CN109215665A (zh) | 一种基于3d卷积神经网络的声纹识别方法 | |
CN109346086A (zh) | 声纹识别方法、装置、计算机设备和计算机可读存储介质 | |
Hashimoto et al. | Privacy-preserving sound to degrade automatic speaker verification performance | |
Naika | An overview of automatic speaker verification system | |
CN105845143A (zh) | 基于支持向量机的说话人确认方法及其系统 | |
CN105679323B (zh) | 一种号码发现方法及系统 | |
KR100779242B1 (ko) | 음성 인식/화자 인식 통합 시스템에서의 화자 인식 방법 | |
Chauhan et al. | Speaker recognition using fusion of features with feedforward artificial neural network and support vector machine | |
KR102113879B1 (ko) | 참조 데이터베이스를 활용한 화자 음성 인식 방법 및 그 장치 | |
Saleema et al. | Voice biometrics: the promising future of authentication in the internet of things | |
KR20110079161A (ko) | 이동 단말기에서 화자 인증 방법 및 장치 | |
Londhe et al. | Extracting Behavior Identification Features for Monitoring and Managing Speech-Dependent Smart Mental Illness Healthcare Systems | |
Gupta et al. | Text dependent voice based biometric authentication system using spectrum analysis and image acquisition | |
CN113241059A (zh) | 语音唤醒方法、装置、设备及存储介质 | |
Nguyen et al. | Vietnamese speaker authentication using deep models | |
Kalaivani et al. | Modified Hidden Markov Model for Speaker Identification System | |
Muruganantham et al. | Biometric of speaker authentication using CNN | |
Tsang et al. | Speaker verification using type-2 fuzzy gaussian mixture models | |
Singh et al. | Underlying text independent speaker recognition | |
Aliyu et al. | Development of a text-dependent speaker recognition system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |