CN108877812B - 一种声纹识别方法、装置及存储介质 - Google Patents

一种声纹识别方法、装置及存储介质 Download PDF

Info

Publication number
CN108877812B
CN108877812B CN201810936422.8A CN201810936422A CN108877812B CN 108877812 B CN108877812 B CN 108877812B CN 201810936422 A CN201810936422 A CN 201810936422A CN 108877812 B CN108877812 B CN 108877812B
Authority
CN
China
Prior art keywords
voice
feature extraction
feature
dimensional
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810936422.8A
Other languages
English (en)
Other versions
CN108877812A (zh
Inventor
蔡晓东
李波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN201810936422.8A priority Critical patent/CN108877812B/zh
Publication of CN108877812A publication Critical patent/CN108877812A/zh
Application granted granted Critical
Publication of CN108877812B publication Critical patent/CN108877812B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种声纹识别方法、装置及存储介质,其方法包括根据多个人声语音样本基于特征提取网络进行模型训练,得到特征提取模型;将测试语音输入所述特征提取模型中,得到测试语音特征向量;将所述测试语音特征向量与预先建立的注册语音特征向量数据库进行匹配,根据匹配结果确定所述测试语音的注册人。本发明将人声语音样本由一维语音信息转化为二维语音信息,并进行训练,得到的特征提取网络能够快速提取特征向量,利于快速、准确的识别出注册语音与测试语音是否为同一人声。

Description

一种声纹识别方法、装置及存储介质
技术领域
本发明主要涉及声纹识别技术处理领域,具体涉及一种声纹识别方法、装置及存储介质。
背景技术
声纹识别,又称为说话人识别,是一种生物识别的技术,是从一段语音中提取分析和提取出说话人的个性特征,自动确定说话人的过程。说话人识别包括说话人确认技术和说话人辨认技术,“说话人确认”是指判断一段话是否为某人所说,为“一对一”问题,“说话人辨认”是指在n个已知样本中选择一个与未知音频样本最像的一个音频,是“多选一”问题;而目前“说话人确认”技术中,一般使用传统方法i-vector-PLDA方法,将特征提取模块和打分模块等模块分别进行训练,然后组合在一起,这种方法的弊端在于分别训练得到局部最优模型,然而将两个局部最优模型组合在一起得到的却不是全局最优,从而导致识别率不佳。
发明内容
本发明所要解决的技术问题是针对现有技术的不足,提供一种声纹识别方法、装置及存储介质。
本发明解决上述技术问题的技术方案如下:一种声纹识别方法,包括如下步骤:
根据多个人声语音样本基于特征提取网络进行模型训练,得到特征提取模型;
将测试语音输入所述特征提取模型中,得到测试语音特征向量;
将所述测试语音特征向量与预先建立的注册语音特征向量数据库进行匹配,根据匹配结果确定所述测试语音的注册人;
其中,所述预先建立的注册语音特征向量数据库为将注册人的多条注册语音输入所述特征提取模型中,得到多条注册语音特征向量的累加值,根据所述累加值得到所述多条注册语音的注册语音特征向量平均值。
本发明解决上述技术问题的另一技术方案如下:一种声纹识别装置,包括:
模型建立及训练模块,用于根据多个人声语音样本基于特征提取网络进行模型训练,得到特征提取模型;
特征提取模块,用于将测试语音输入所述特征提取模型中,得到测试语音特征向量;
处理模块,用于将所述测试语音特征向量与预先建立的注册语音特征向量数据库进行匹配,根据匹配结果确定所述测试语音的注册人;
其中,所述预先建立的注册语音特征向量数据库为将注册人的多条注册语音输入所述特征提取模型中,得到多条注册语音特征向量的累加值,根据所述累加值得到所述多条注册语音的注册语音特征向量平均值。
本发明解决上述技术问题的另一技术方案如下:一种声纹识别装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如所述方法的步骤。
本发明解决上述技术问题的另一技术方案如下:一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如所述方法的步骤。
本发明的有益效果是:通过语音样本对特征提取网络进行模型训练,得到能够提取语音特征的特征提取模型,特征提取模型作为一个全局模型,采用端到端的方法,克服了现有技术中只能优化局部最优模型、将两个局部最优模型组合在一起才能实现特征提取的缺陷,而利用特征提取模型处理注册语音和测试语音,快速获得两者的特征信息,利于快速、精确的识别出注册语音与测试语音是否为同一人声,从而提高了识别效率。
附图说明
图1为本发明一实施例提供的声纹识别方法的方法流程图;
图2为本发明另一实施例提供的声纹识别方法的方法流程图;
图3为本发明一实施例提供的声纹识别装置的模块框图;
图4为本发明一实施例提供的Inception-v4特征提取网络的结构图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
图1为本发明一实施例提供的声纹识别方法的方法流程图;
如图1所示,一种声纹识别方法,包括如下步骤:
根据多个人声语音样本基于特征提取网络进行模型训练,得到特征提取模型;
将测试语音输入所述特征提取模型中,得到测试语音特征向量;
将所述测试语音特征向量与预先建立的注册语音特征向量数据库进行匹配,根据匹配结果确定所述测试语音的注册人;
其中,所述预先建立的注册语音特征向量数据库为将注册人的多条注册语音输入所述特征提取模型中,得到多条注册语音特征向量的累加值,根据所述累加值得到所述多条注册语音的注册语音特征向量平均值。
例如,多条注册语音的注册语音特征向量为S1、S2...Sn,带入下式中得到注册语音特征向量平均值V,V=(S1+S2+...Sn)/n,n为注册语音特征向量的个数。
具体的,多条注册语音可选择一个说话人的n(n可取5-10)条语音(每条语音5-20s),输入训练好的特征提取网络中,得到n个注册语音特征向量嵌入(embedding)。
具体的,上述实施例中,构建语音样本库包含的人声语音样本均为低于10s的短语音,优选的,以4-5s为主;语音样本库中的说话人数量应不少于1000人,每个人说的句子数量应均衡,男女比例应均衡。
图2为本发明另一实施例提供的声纹识别方法的方法流程图;
可选的,作为本发明的一个实施例,如图2中示出的训练阶段,所述根据多个人声语音样本基于特征提取网络进行模型训练,得到特征提取模型包括:
构建语音样本库,所述语音样本库包括多个人声语音样本;
将所述多个人声语音样本进行预处理;
将预处理得到的多个人声语音样本由一维语音信息转化为二维语音信息;
构建特征提取网络,将所述二维语音信息输入所述特征提取网络中,得到含有二维语音信息的特征提取网络;
利用三重损失函数对所述含有二维语音信息的特征提取网络进行特征训练,得到特征提取模型。
可选的,作为本发明的一个实施例,所述利用三重损失函数对所述含有二维语音信息的特征提取网络进行特征训练,包括:
构建三元组,从所述多个人声语音样本的二维语音信息中选择第一指定人的第一人声语音样本和第二人声语音样本的二维语音信息以及第二指定人的人声语音样本的二维语音信息,作为所述三元组的三个元素;
通过所述特征提取网络提取所述三个元素的语音特征向量,得到第一指定人的第一语音特征向量
Figure BDA0001767944790000053
和第二语音特征向量
Figure BDA0001767944790000054
以及第二指定人的语音特征向量
Figure BDA0001767944790000055
利用三重损失函数缩小所述第一语音特征向量
Figure BDA00017679447900000511
和第二语音特征向量
Figure BDA00017679447900000512
之间的距离disap,以及扩大所述第一语音特征向量
Figure BDA00017679447900000513
和语音特征向量
Figure BDA00017679447900000514
之间的距离disan,且满足距离disan>距离disap,从而完成特征训练。
具体的,所述特征提取网络可为Inception-v4特征提取网络,使用三重损失函数对所述Inception-v4特征提取网络进行训练,具体为:
假定语音样本库中第一指定人的语音为
Figure BDA00017679447900000510
(Anchor),选择第一指定人的另一句语音为
Figure BDA0001767944790000057
(Positive),选择第二指定人的一句语音为
Figure BDA0001767944790000056
(Negative),由
Figure BDA0001767944790000058
构成了一个三元组,即
Figure BDA0001767944790000059
针对三元组中的每个元素,通过所述Inception-v4网络,得到三个元素的特征嵌入,分别记为:
Figure BDA00017679447900000519
三重损失函数的目的就是通过训练和学习,使得
Figure BDA00017679447900000515
Figure BDA00017679447900000516
的之间的距离(记为disap)尽可能小,而
Figure BDA00017679447900000517
Figure BDA00017679447900000518
之间的距离(记为disan)尽可能大,并且在disap与disan之间要保持一个最小间隔,如式(1)所示:
Figure BDA0001767944790000051
对应的目标函数如式(6)所示:
Figure BDA0001767944790000052
以上通过三重损失函数对Inception-v4特征提取网络进行训练,当网络收敛后,得到训练后的Inception-v4特征提取网络,每一次训练即对网络参数进行一次更新;每次训练之前需要在语音样本库中选择一定数量的三元组进行训练,具体的,本发明采用随机选择的方法,每次随机选取40个三元组送入网络进行训练,每个训练100万个三元组。
所述特征提取网络优选为Inception-v4特征提取网络,由于传统的卷积神经网络存在以下问题:(1)由于信息位置的巨大差异,为卷积操作选择合适的卷积核大小就比较困难,信息分布更全局性的图像偏好较大的卷积核,信息分布比较局部的图像偏好较小的卷积核;(2)非常深的网络容易过拟合的问题,而且将梯度更新传输到整个网络是非常复杂的;(3)简单地堆叠较大的卷积层非常消耗计算资源。
因此Inception-v4特征提取网络是为了解决这三个问题,在同一层级运行具备多个尺寸的滤波器,网络尺寸变得更宽而不是更深,因此能使得训练效率更高。
图4为本发明一实施例提供的I ncept ion-v4特征提取网络的结构图;
如图4所示,Inception-v4特征提取网络包括Input输入层、Stem预处理层、4xInception-A卷积层、Reduction-A池化层、7xInception-B卷积层、Reduction-B池化层、3xInception-C卷积层、Average Pooling平均池化层、Dropout损失层和FC全连接层;
Input输入层用于输入二维语音信息,Stem预处理层主要是用于对进入Inception-A模块前的二维语音信息进行预处理,4xInception-A卷积层应理解为4个Inception-A卷积层依次并行结构,其用于多次卷积,来防止特征表征性瓶颈问题,网络越深识别效果越好;同理,7xInception-B也应理解为7个Inception-B卷积层依次并行结构,3xInception-C卷积层也理解为3个Inception-C卷积层依次并行结构;
而4xInception-A卷积层与7xInception-B卷积层之间以及7xInception-B卷积层与3xInception-C卷积层之间,分别引入Reduction池化层起到池化作用,同样使用并行结构防止特征表征性瓶颈问题;
而Average Pooling平均池化层用于对二维语音信息进行平均池化;Dropout损失模块是随机丢弃层,防止过拟合;最后,由FC全连接层输出最终的二维语音信息的特征向量。
可选的,作为本发明的一个实施例,如图2中示出的测试阶段,所述将多个人声语音样本进行预处理,具体包括:
将所述多个人声语音样本分别裁剪成小于预设时长的短语音;
根据VAD语音活动检测方法去除多个所述短语音中的静音段。
上述实施例中,能够使进入特征提取网络的数据更精确,提取出的特征向量也更精确。
需说明的是,测试语音在输入所述特征提取模型前也需要进行预处理,预处理的方式如上述实施例所述,不再赘述。
可选的,作为本发明的一个实施例,所述将预处理得到的多个人声语音样本由一维语音信息转化为二维语音信息,具体包括:
将预处理得到的短语音分别根据预设分帧参数进行分帧处理,得到各个短语音对应的多个语句,若所述短语音中的帧数小于所述预设分帧参数,则进行补零处理直至所述短语音中的帧数等于所述预设分帧参数;
根据预设二维参数和Fbank特征提取算法对所述多个语句进行转化,得到二维语音信息。
具体为,预设分帧参数为200帧,选择人声语音样本的前200帧,根据Fbank特征提取算法进行64维特征提取,从而得到200x64的二维语音信息。若人声语音样本不足200帧,则补零处理。
上述实施例中,从一维语音信息转化为二维语音信息使数据更适应于特征提取网络,利于快速的提取特征向量,并且将数据处理为短语音的形式,能够解决传统i-vector-PLDA方法不能处理非常短的语音的问题,本发明让短语音场景下的说话人确认性能得到提升。
需说明的是,测试语音在输入所述特征提取模型前还需要将测试语音由一维语音信息转化为二维语音信息,转化方式如上述实施例所述,不再赘述;将二维语音信息输入所述特征提取模型中,得到测试语音特征向量。
可选的,作为本发明的一个实施例,所述根据匹配结果确定所述测试语音的注册人包括:
计算所述测试语音特征向量与所述注册语音特征向量平均值的欧氏距离值,如果计算得到的欧氏距离值小于或等于预设值,则得到所述测试语音属于注册人的结果。
具体的,计算欧氏距离是公式为
Figure BDA0001767944790000081
其中
Figure BDA0001767944790000082
Figure BDA0001767944790000083
分别为测试语音特征向量和注册语音特征向量平均值。
上述实施例中,将测试语音特征向量与注册语音特征向量平均值进行欧氏距离值的计算,再将计算得到的欧氏距离值与预设值比较,能够更准确的判断出是否为同一人声。
图3为本发明一实施例提供的声纹识别装置的模块框图;
可选的,作为本发明的另一个实施例,如图3所示,一种声纹识别装置,包括:
样本库构建模块,用于构建语音样本库,所述语音样本库包括多个人声语音样本;
模型建立及训练模块,用于根据多个人声语音样本基于特征提取网络进行模型训练,得到特征提取模型;
特征提取模块,用于将测试语音输入所述特征提取模型中,得到测试语音特征向量;
处理模块,用于将所述测试语音特征向量与预先建立的注册语音特征向量数据库进行匹配,根据匹配结果确定所述测试语音的注册人;
其中,所述预先建立的注册语音特征向量数据库为将注册人的多条注册语音输入所述特征提取模型中,得到多条注册语音特征向量的累加值,根据所述累加值得到所述多条注册语音的注册语音特征向量平均值。
可选的,作为本发明的一个实施例,所述模型建立及训练模块包括:
语音样本库构建单元,用于构建语音样本库,所述语音样本库包括多个人声语音样本;
预处理单元,用于将所述多个人声语音样本进行预处理;
转化单元,用于将预处理得到的多个人声语音样本由一维语音信息转化为二维语音信息;
网络构建单元,用于构建特征提取网络,将所述二维语音信息输入所述特征提取网络中,得到含有二维语音信息的特征提取网络;
训练单元,用于利用三重损失函数对所述含有二维语音信息的特征提取网络进行特征训练,得到特征提取模型。
可选的,作为本发明的一个实施例,所述训练单元具体用于:
构建三元组,从所述多个人声语音样本的二维语音信息中选择第一指定人的第一人声语音样本和第二人声语音样本的二维语音信息以及第二指定人的人声语音样本的二维语音信息,作为所述三元组的三个元素;
通过所述特征提取网络提取所述三个元素的语音特征向量,得到第一指定人的第一语音特征向量
Figure BDA0001767944790000091
和第二语音特征向量
Figure BDA0001767944790000092
以及第二指定人的语音特征向量
Figure BDA0001767944790000097
利用三重损失函数缩小所述第一语音特征向量
Figure BDA0001767944790000093
和第二语音特征向量
Figure BDA0001767944790000094
之间的距离disap,以及扩大所述第一语音特征向量
Figure BDA0001767944790000095
和语音特征向量
Figure BDA0001767944790000096
之间的距离disan,且满足距离disan>距离disap,从而完成特征训练。
可选的,作为本发明的一个实施例,所述预处理单元具体用于:
将所述多个人声语音样本分别裁剪成小于预设时长的短语音;
根据VAD语音活动检测方法去除多个所述短语音中的静音段。
可选的,作为本发明的一个实施例,所述转化单元具体用于:
将预处理得到的短语音分别根据预设分帧参数进行分帧处理,得到各个短语音对应的多个语句,若所述短语音中的帧数小于所述预设分帧参数,则进行补零处理直至所述短语音中的帧数等于所述预设分帧参数;
根据预设二维参数和Fbank特征提取算法对所述多个语句进行转化,得到二维语音信息。
可选的,作为本发明的一个实施例,所述处理模块具体用于:
计算所述测试语音特征向量与所述注册语音特征向量平均值的欧氏距离值,如果计算得到的欧氏距离值小于或等于预设值,则得到所述测试语音属于注册人的结果。
可选的,作为本发明的另一个实施例,一种声纹识别装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如所述方法的步骤。
可选的,作为本发明的另一个实施例,一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如所述方法的步骤。
本发明通过语音样本对特征提取网络进行模型训练,得到能够提取语音特征的特征提取模型,特征提取模型作为一个全局模型,采用端到端的方法,克服了现有技术中只能优化局部最优模型、将两个局部最优模型组合在一起才能实现特征提取的缺陷,而利用特征提取模型处理注册语音和测试语音,快速获得两者的特征信息,利于快速、精确的识别出注册语音与测试语音是否为同一人声,从而提高了识别效率;
从一维语音信息转化为二维语音信息使数据更适应于特征提取网络,利于快速的提取特征向量,并且将数据处理为短语音的形式,能够解决传统i-vector-PLDA方法不能处理非常短的语音的问题,本发明让短语音场景下的说话人确认性能得到提升。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (9)

1.一种声纹识别方法,其特征在于,包括如下步骤:
根据多个人声语音样本基于特征提取网络进行模型训练,得到特征提取模型;
将测试语音输入所述特征提取模型中,得到测试语音特征向量;
将所述测试语音特征向量与预先建立的注册语音特征向量数据库进行匹配,根据匹配结果确定所述测试语音的注册人;
其中,所述预先建立的注册语音特征向量数据库为将注册人的多条注册语音输入所述特征提取模型中,得到多条注册语音特征向量的累加值,根据所述累加值得到所述多条注册语音的注册语音特征向量平均值;
所述根据多个人声语音样本基于特征提取网络进行模型训练,得到特征提取模型包括:
构建语音样本库,所述语音样本库包括多个人声语音样本;
将所述多个人声语音样本进行预处理;
将预处理得到的多个人声语音样本由一维语音信息转化为二维语音信息;
构建特征提取网络,将所述二维语音信息输入所述特征提取网络中,得到含有二维语音信息的特征提取网络;
利用三重损失函数对所述含有二维语音信息的特征提取网络进行特征训练,得到特征提取模型。
2.根据权利要求1所述的声纹识别方法,其特征在于,所述利用三重损失函数对所述含有二维语音信息的特征提取网络进行特征训练,包括:
构建三元组,从所述多个人声语音样本的二维语音信息中选择第一指定人的第一人声语音样本和第二人声语音样本的二维语音信息以及第二指定人的人声语音样本的二维语音信息,作为所述三元组的三个元素;
通过所述特征提取网络提取所述三个元素的语音特征向量,得到第一指定人的第一语音特征向量
Figure FDA0002869561670000021
和第二语音特征向量
Figure FDA0002869561670000022
以及第二指定人的语音特征向量
Figure FDA0002869561670000023
利用三重损失函数缩小所述第一语音特征向量
Figure FDA0002869561670000024
和第二语音特征向量
Figure FDA0002869561670000025
之间的距离disap,以及扩大所述第一语音特征向量
Figure FDA0002869561670000026
和语音特征向量
Figure FDA0002869561670000027
之间的距离disan,且满足距离disan>距离disap,从而完成特征训练。
3.根据权利要求1所述的声纹识别方法,其特征在于,所述特征提取网络为Inception-v4特征提取网络。
4.根据权利要求1所述的声纹识别方法,其特征在于,所述将多个人声语音样本进行预处理,具体包括:
将所述多个人声语音样本分别裁剪成小于预设时长的短语音;
根据VAD语音活动检测方法去除多个所述短语音中的静音段。
5.根据权利要求1所述的声纹识别方法,其特征在于,所述将预处理得到的多个人声语音样本由一维语音信息转化为二维语音信息,具体包括:
将预处理得到的短语音分别根据预设分帧参数进行分帧处理,得到各个短语音对应的多个语句,若所述短语音中的帧数小于所述预设分帧参数,则进行补零处理直至所述短语音中的帧数等于所述预设分帧参数;
根据预设二维参数和Fbank特征提取算法对所述多个语句进行转化,得到二维语音信息。
6.根据权利要求1所述的声纹识别方法,其特征在于,所述根据匹配结果确定所述测试语音的注册人包括:
计算所述测试语音特征向量与所述注册语音特征向量平均值的欧氏距离值,如果计算得到的欧氏距离值小于或等于预设值,则得到所述测试语音属于注册人的结果。
7.一种声纹识别装置,其特征在于,包括:
模型建立及训练模块,用于根据多个人声语音样本基于特征提取网络进行模型训练,得到特征提取模型;
特征提取模块,用于将测试语音输入所述特征提取模型中,得到测试语音特征向量;
处理模块,用于将所述测试语音特征向量与预先建立的注册语音特征向量数据库进行匹配,根据匹配结果确定所述测试语音的注册人;
其中,所述预先建立的注册语音特征向量数据库为将注册人的多条注册语音输入所述特征提取模型中,得到多条注册语音特征向量的累加值,根据所述累加值得到所述多条注册语音的注册语音特征向量平均值;
所述模型建立及训练模块包括:
语音样本库构建单元,用于构建语音样本库,所述语音样本库包括多个人声语音样本;
预处理单元,用于将所述多个人声语音样本进行预处理;
转化单元,用于将预处理得到的多个人声语音样本由一维语音信息转化为二维语音信息;
网络构建单元,用于构建特征提取网络,将所述二维语音信息输入所述特征提取网络中,得到含有二维语音信息的特征提取网络;
训练单元,用于利用三重损失函数对所述含有二维语音信息的特征提取网络进行特征训练,得到特征提取模型。
8.一种声纹识别装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述方法的步骤。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述方法的步骤。
CN201810936422.8A 2018-08-16 2018-08-16 一种声纹识别方法、装置及存储介质 Active CN108877812B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810936422.8A CN108877812B (zh) 2018-08-16 2018-08-16 一种声纹识别方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810936422.8A CN108877812B (zh) 2018-08-16 2018-08-16 一种声纹识别方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN108877812A CN108877812A (zh) 2018-11-23
CN108877812B true CN108877812B (zh) 2021-04-02

Family

ID=64318296

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810936422.8A Active CN108877812B (zh) 2018-08-16 2018-08-16 一种声纹识别方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN108877812B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109346088A (zh) * 2018-12-06 2019-02-15 泰康保险集团股份有限公司 身份识别方法、装置、介质及电子设备
CN110010133A (zh) * 2019-03-06 2019-07-12 平安科技(深圳)有限公司 基于短文本的声纹检测方法、装置、设备及存储介质
CN111339969B (zh) * 2020-03-02 2023-06-20 深圳市瑞立视多媒体科技有限公司 人体姿势估计方法、装置、设备及存储介质
CN112382298B (zh) * 2020-11-17 2024-03-08 北京清微智能科技有限公司 唤醒词声纹识别方法、唤醒词声纹识别模型及其训练方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10339960B2 (en) * 2016-10-13 2019-07-02 International Business Machines Corporation Personal device for hearing degradation monitoring
CN108288470B (zh) * 2017-01-10 2021-12-21 富士通株式会社 基于声纹的身份验证方法和装置
WO2018148298A1 (en) * 2017-02-07 2018-08-16 Pindrop Security, Inc. Age compensation in biometric systems using time-interval, gender, and age
CN106683680B (zh) * 2017-03-10 2022-03-25 百度在线网络技术(北京)有限公司 说话人识别方法及装置、计算机设备及计算机可读介质
CN107146624B (zh) * 2017-04-01 2019-11-22 清华大学 一种说话人确认方法及装置
CN107731233B (zh) * 2017-11-03 2021-02-09 王华锋 一种基于rnn的声纹识别方法

Also Published As

Publication number Publication date
CN108877812A (zh) 2018-11-23

Similar Documents

Publication Publication Date Title
Gomez-Alanis et al. A light convolutional GRU-RNN deep feature extractor for ASV spoofing detection
CN108877812B (zh) 一种声纹识别方法、装置及存储介质
US10176811B2 (en) Neural network-based voiceprint information extraction method and apparatus
US10347241B1 (en) Speaker-invariant training via adversarial learning
CN105632501B (zh) 一种基于深度学习技术的自动口音分类方法及装置
CN104036774B (zh) 藏语方言识别方法及系统
CN111916111B (zh) 带情感的智能语音外呼方法及装置、服务器、存储介质
Ding et al. Autospeech: Neural architecture search for speaker recognition
CN108694949B (zh) 基于重排序超向量和残差网络的说话人识别方法及其装置
CN109256135A (zh) 一种端到端说话人确认方法、装置及存储介质
CN106683661A (zh) 基于语音的角色分离方法及装置
CN110610708A (zh) 一种基于布谷鸟搜索算法的声纹识别攻击防御方法
CN108986798B (zh) 语音数据的处理方法、装置及设备
CN111048097B (zh) 一种基于3d卷积的孪生网络声纹识别方法
CN106297769B (zh) 一种应用于语种识别的鉴别性特征提取方法
CN111091809B (zh) 一种深度特征融合的地域性口音识别方法及装置
Zheng et al. MSRANet: Learning discriminative embeddings for speaker verification via channel and spatial attention mechanism in alterable scenarios
CN110223699A (zh) 一种说话人身份确认方法、装置及存储介质
CN111462762B (zh) 一种说话人向量正则化方法、装置、电子设备和存储介质
CN115862634A (zh) 一种声纹识别方法及嵌入式装置
CN115547345A (zh) 声纹识别模型训练及相关识别方法、电子设备和存储介质
CN110858484A (zh) 一种基于声纹识别技术的语音识别方法
CN113963718A (zh) 一种基于深度学习的语音会话分割方法
CN113823294B (zh) 跨信道声纹识别方法、装置、设备和存储介质
CN112735385B (zh) 语音端点检测方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant