CN110838294B - 一种语音验证方法、装置、计算机设备及存储介质 - Google Patents
一种语音验证方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN110838294B CN110838294B CN201911105338.2A CN201911105338A CN110838294B CN 110838294 B CN110838294 B CN 110838294B CN 201911105338 A CN201911105338 A CN 201911105338A CN 110838294 B CN110838294 B CN 110838294B
- Authority
- CN
- China
- Prior art keywords
- voiceprint
- voice
- voice information
- verified
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 238000012795 verification Methods 0.000 title claims abstract description 60
- 230000001755 vocal effect Effects 0.000 claims abstract description 116
- 210000000056 organ Anatomy 0.000 claims abstract description 104
- 238000004519 manufacturing process Methods 0.000 claims abstract description 53
- 239000013598 vector Substances 0.000 claims abstract description 51
- 238000000605 extraction Methods 0.000 claims abstract description 21
- 230000006870 function Effects 0.000 claims description 74
- 230000009471 action Effects 0.000 claims description 39
- 238000012545 processing Methods 0.000 claims description 27
- 238000005311 autocorrelation function Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000012546 transfer Methods 0.000 claims description 9
- 238000009432 framing Methods 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 7
- 210000001260 vocal cord Anatomy 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241001672694 Citrus reticulata Species 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Collating Specific Patterns (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
本发明适用于计算机技术领域,提供了一种语音验证方法、装置、计算机设备及存储介质,该语音验证方法包括以下步骤:获取待验证的语音信息;基于预设的有效信息提取方法,提取所述待验证的语音信息中的有效语音信息;基于预设的线性预测函数,提取所述有效语音信息的声纹发声器官特征向量,并确定为待验证的声纹发声器官特征模型;获取至少一个预设的声纹发声器官特征对比模型,并确定与所述待验证的声纹发声器官特征模型的对数似然函数值最大的声纹发声器官特征对比模型;根据所述对数似然函数值最大的声纹发声器官特征对比模型确定语音验证结果。该语音验证方法,可以提高语音验证的准确性,以及可以适用于文本无关的声纹识别。
Description
技术领域
本发明属于计算机技术领域,尤其涉及一种语音验证方法、装置、计算机设备及存储介质。
背景技术
人的语音,包含了语义信息和说话人信息,其中包含说话人信息的成份被称作“声纹”,就像指纹一样,属于生物特征信息。通俗来讲,声纹就是指携带说话人语言特征信息的语音声波图谱的通称,在语言学界称为语图,在司法鉴定中,人们比照指纹就形象的将其称为声纹,也被称作为人的“可见语言”或“第二指纹”。利用声纹进行身份认证的方式被称为声纹识别,也称为说话人识别。
声纹识别技术是对说话人语音信号进行分析处理,并根据声音波形中反映出的说话人生理、心理和行为特征的参数,来进行说话人身份识别的一种人身同一认定的识别技术。声纹识别跟通常所说的语音识别不同,它不是识别语音信号的文字内容和意义,而是识别发出语音信号的说话人的身份,强调说话人的个性。在语音识别中,特别是对非特定人语音识别,为了提取语音信号中所包含的语义信息,应尽可能的将不同人说话的差异归一化而声纹识别技术则恰恰相反,力求通过将语音信号中的语义信息平均化,挖掘出包含在语音信号中的说话人的个性因素,强调不同人之间的特征差异。
声纹识别按照语音的内容可分为与文本相关的识别和与文本无关的识别。前者是要规定语音内容,即检查和样本中要有相同的内容。后者则不规定语音内容,可以通过可以提取任意说话内容的样本来进行鉴定。
近些年来声纹产品的研究日益扩大,声纹产品的应用也越来越广泛,但是这些声纹产品所使用的语音验证方法基本都是使用同一种语言进行注册、用同一种语言进行验证,将该类型的语音验证方法用在文本无关识别当中,准确性较差,不便于进行验证。
因此,现有语音验证方法存在准确性较差,不适用于文本无关的声纹识别等问题。
发明内容
本发明实施例的目的在于提供一种语音验证方法,旨在解决现有语音验证方法存在准确性较差,不适用于文本无关的声纹识别的问题。
本发明实施例是这样实现的,一种语音验证方法,包括以下步骤:
获取待验证的语音信息;
基于预设的有效信息提取方法,提取所述待验证的语音信息中的有效语音信息;
基于预设的线性预测函数,提取所述有效语音信息的声纹发声器官特征向量,并确定为待验证的声纹发声器官特征模型;
获取至少一个预设的声纹发声器官特征对比模型,并基于最大对数似然函数估计方法,确定所述至少一个预设的声纹发声器官特征对比模型中与所述待验证的声纹发声器官特征模型的对数似然函数值最大的声纹发声器官特征对比模型;
根据所述对数似然函数值最大的声纹发声器官特征对比模型确定语音验证结果。
本发明实施例的另一目的在于提供一种语音验证装置,其包括:
语音获取单元,用于获取待验证的语音信息;
语音处理单元,用于基于预设的有效信息提取方法,提取所述待验证的语音信息中的有效语音信息;
第一声纹特征提取单元,用于基于预设的线性预测函数,提取所述有效语音信息的声纹发声器官特征向量,并确定为待验证的声纹发声器官特征模型;
第一声纹特征匹配单元,用于获取至少一个预设的声纹发声器官特征对比模型,并基于最大对数似然函数估计方法,确定所述至少一个预设的声纹发声器官特征对比模型中与所述待验证的声纹发声器官特征模型的对数似然函数值最大的声纹发声器官特征对比模型;
验证结果判断单元,用于根据所述对数似然函数值最大的声纹发声器官特征对比模型确定语音验证结果。
本发明实施例的另一目的在于提供一种计算机设备,其包括存储器和处理器,所述的存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述的语音验证方法的步骤。
本发明实施例的另一目的在于提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行上述的语音验证方法的步骤。
本发明实施例提供的一种语音验证方法,通过先提取待验证的语音信息中的有效语音信息,然后通过提取有效语音信息的声纹发声器官特征向量,并将该声纹发声器官特征向量对事先存储的声纹发声器官特征对比模型进行对比验证,可以大大提高语音验证的准确性,以及可以适用于文本无关的声纹识别,从而可以实现使用特定语种或方言注册、用其他语种或方言进行验证的方法,以提升用户的体验和方便不同地区、不同语种使用者的使用。
附图说明
图1为本发明实施例提供的一种语音验证方法的流程图;
图2为本发明实施例提供的另一种语音验证方法的流程图;
图3为本发明实施例提供的步骤S206的流程图;
图4为本发明实施例提供的步骤S102的流程图;
图5为本发明实施例提供的步骤S401的流程图;
图6为本发明实施例提供的步骤S103的流程图;
图7为本发明实施例提供的一种语音验证装置的结构框图;
图8为本发明实施例提供的另一种语音验证装置的结构框图;
图9为本发明实施例提供的第二声纹特征提取单元的结构框图;
图10为本发明实施例提供的语音处理单元的结构框图;
图11为发明实施例提供的信息预加重模块的结构框图;
图12为发明实施例提供的第一声纹特征提取单元的结构框图;
图13为发明实施例提供的短时自相关函数图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件,但除非特别说明,这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说,在不脱离本申请的范围的情况下,可以将第一xx脚本称为第二xx脚本,且类似地,可将第二xx脚本称为第一xx脚本。
如附图1所示,图1为本发明实施例提供一种语音验证方法的流程图,其包括以下步骤:
步骤S101,获取待验证的语音信息。
步骤S102,基于预设的有效信息提取方法,提取所述待验证的语音信息中的有效语音信息。
步骤S103,基于预设的线性预测函数,提取所述有效语音信息的声纹发声器官特征向量,并确定为待验证的声纹发声器官特征模型。
步骤S104,获取至少一个预设的声纹发声器官特征对比模型,并基于最大对数似然函数估计方法,确定所述至少一个预设的声纹发声器官特征对比模型中与所述待验证的声纹发声器官特征模型的对数似然函数值最大的声纹发声器官特征对比模型。
步骤S105,根据所述对数似然函数值最大的声纹发声器官特征对比模型确定语音验证结果。
在实际应用中,上述语音验证方法可以适用于用户进行文本无关的声纹验证,其中,预设的声纹发声器官特征对比模型为用户在用指定的语种或方言进行注册时所存储的标准语音模型,该模型的生成方法与上述语音验证方法相类似,具体的,包括以下步骤:
首先,用户在注册时,通过指定的语种或方言输入标准语音信息;接着,基于上述预设的有效信息提取方法,提取标准语音信息中的有效语音信息;然后,基于上述预设的线性预测函数,提取该有效语音信息的声纹发声器官特征向量,并将其确定为标准语音模型进行储存,即可得到上述的声纹发声器官特征对比模型。由于上述语音验证方法所提取的是语音的声纹发声器官特征,其不需要考虑声纹的发生动作特征,即该语音验证方法只考虑说话人本身的特征,其不关心说话人所表达的内容,因此,通过该方法可以实现用指定语种或方言(譬如普通话)进行注册,然后用其他语种或方言(譬如英文、粤语等)进行验证的目的,其验证通过的前提只要保证是同一个人进行说话即可。
如附图2所示,作为本发明实施例的一个优选方案,在所述根据所述对数似然函数值最大的声纹发声器官特征对比模型确定语音验证结果的步骤S105之前,还包括:
步骤S206,基于短时自相关函数以及倒谱法,提取所述有效语音信息的声纹发声动作特征向量,并确定为待验证的声纹发声动作特征模型。
步骤S207,获取至少一个预设的声纹发声动作特征对比模型,并基于最大对数似然函数估计方法,确定所述至少一个预设的声纹发声动作特征对比模型中与所述待验证的声纹发声动作特征模型的对数似然函数值最大的声纹发声动作特征对比模型。
其中,步骤S105具体包括:
步骤S208,基于权重计算法,根据所述对数似然函数值最大的声纹发声器官特征对比模型以及所述对数似然函数值最大的声纹发声动作特征对比模型确定语音验证结果。
在实际应用中,该实施例提供的语音验证方法可以适用于用户进行文本相关的声纹验证,其中,预设的声纹发生动作特征对比模型为用户在用指定的语种或方言进行注册时所存储的标准语音模型,该模型的生成方法与该实施例的语音验证方法相类似,具体的,包括以下步骤:
首先,用户在注册时,通过指定的语种或方言输入标准语音信息;接着,基于上述预设的有效信息提取方法,提取标准语音信息中的有效语音信息;然后,基于上述的短时自相关函数以及倒谱法,提取有效语音信息的声纹发声动作特征向量,并将其确定为标准语音模型进行储存,即可得到上述的声纹发声动作特征对比模型。由于该实施例的语音验证方法除了需要提取语音的声纹发声器官特征,而且还需要提取语音的声纹发声动作特征,而声纹的发声动作不一样,其所表达的内容也就不一样,因此,该实施例提供的语音验证方法可以用于用户进行文本相关的声纹验证,以保证声纹验证的准确性。
如附图3所示,作为本发明实施例的另一个优选方案,所述基于短时自相关函数以及倒谱法,提取所述有效语音信息的声纹发声动作特征向量,并确定为待验证的声纹发声动作特征模型的步骤S206,具体包括:
步骤S301,基于预设的短时自相关函数,获取所述有效语音信息的基音频率。
步骤S302,基于倒谱法,提取所述有效语音信息的共振峰。
步骤S303,根据所述有效语音信息的基音频率以及所述有效语音信息的共振峰,生成所述有效语音信息的声纹发声动作特征向量,并确定为待验证的声纹发声动作特征模型。
具体的,人在说话说出不同内容时,声纹发生器官的发生动作特征也会发生相应变化,而声纹发声动作特征主要通过两个参数来表示:基音参数和共振峰参数。
其中,基音周期是发浊音时声带振动所引起的周期性运动的时间间隔,基音频率是基音周期的倒数,它代表声带振动的频率。同一个人,用不同的语调发音,其基音也发生改变。考虑到语音信号的基音频率一般都在以下,即使女高音也不超过,所以,从只保留基音的角度出发,首先用一个带宽为的低通滤波器对语音信号滤波,然后将分帧后的语音逐帧计算短时自相关函数,对于准周期函数,短时自相关函数在基音周期的各个整数倍上有很大的峰值。如附图13所示,为本发明实施例提供的短时自相关函数图,利用该短时自相关函可以估计上述有效语音信息的基音周期,如图中的T所示,将基音周期T求倒数即可获得上述有效语音信息的基音频率。
另外,共振峰是指声波在声道中传播时,与声道的不同部位在不同频率下产生共振,从而在语音信号中形成的一些能量集中区。共振峰是反映声道谐振特性的重要参数,它与声道的形状和大小密切相关,一般都是动态的。本发明实施例是采用倒谱法来提取上述有效语音信息中的共振峰。其中,倒谱系数计算公式如下:
如附图4所示,作为本发明实施例的另一个优选方案,所述基于预设的有效信息提取方法,提取所述待验证的语音信息中的有效语音信息的步骤S102,具体包括:
步骤401,基于预设的传递函数,对所述待验证的语音信息进行预加重处理,生成预加重处理后的语音信息。
步骤402,基于预设的汉明窗函数,根据预设的窗口长度对所述预加重处理后的语音信息进行分帧处理,生成分帧处理后的语音信息,即为有效语音信息。
如附图5所示,作为本发明实施例的另一个优选方案,所述待验证的语音信息包括高频信息;所述基于预设的传递函数,对所述待验证的语音信息进行预加重处理,生成预加重处理后的语音信息的步骤S401,具体包括:
步骤S501,获取所述待验证的语音信息中高频信息的时间节点。
步骤S502,基于预设的传递函数,根据所述待验证的语音信息中高频信息的时间节点以及预设的预加重系数,对所述待验证的语音信息中的高频信息进行预加重处理,生成预加重处理后的语音信息。
具体的,待验证的语音信息除了高频信息,一般还包括中频信息和低频信息,由于语音信号能量在高频处明显要小于低频和中频的能量,故不利于将所有频率的语音信息进行统一的分析和处理,即需要对语音信息中的高频信息部分进行预加重处理。其中,预加重处理过程中所使用的传递函数如下:
H(z)=1-az-1;
其中,a表示预加重系数,一般情况下,a的值可取0.95左右;z表示时间节点,H(z)表示对时刻z的预加重结果。
作为本发明实施例的另一个优选方案,因为语音信息是一种典型的非平稳信号,通常情况下,认为10~30ms这样长度的时间段中,语音信号是平稳信号,几乎所有的语音信号处理方法都是基于这个假设,所以,在对语音进行分析处理时,需要采用短时分析法,而这就需要在对语音信息进行分析以前,通过加窗来进行分帧,从而截取短时的有效语音信息。本发明实施例是利用汉明窗函数在一个有限长度的窗口对语音信号滑动加权,从而完成对语音信息分帧处理操作。其中,本发明实施例所采用的汉明窗函数如下:
其中,N表示预设的窗口长度,n为其中取的折点数,w(x)表示预设的窗口长度折点n的幅度。
如附图6所示,作为本发明实施例的另一个优选方案,所述基于预设的线性预测函数,提取所述有效语音信息的声纹发声器官特征向量,并确定为待验证的声纹发声器官特征模型的步骤S103,具体包括:
步骤S601,根据所述待验证的语音信息中的语音频率确定所述预设的线性预测函数的阶数。
步骤S602,确定所述待验证的语音信息中多个语音节点之间的相关度。
步骤S603,根据所述预设的线性预测函数的阶数以及所述多个语音节点之间的相关度,生成所述有效语音信息的声纹发声器官特征向量,并确定为待验证的声纹发声器官特征模型。
具体的,声纹发声器官特征,是指声道特性的一个参数表达。人的发声器官可以用若干段前后连接的声管进行模拟,可称为声管模型。由于发声器官不可能毫无规律地快速变化,因此语音信号是准稳定的。其中,全极点线性预测模型可以对声管模型进行很好的描述,这里信号的激励源是由肺部气流的冲击引起的,声带可以有周期振动也可以不振动,分别对应浊音和清音,而每段声管则对应一个模型的极点。可见,线性预测函数是模拟人的发声器官的,是一种基于声道特性的参数模型,因此,可以使用线性预测参数来表达人的声纹发声器官的特征。本发明实施例所采用的用作为声纹发声器官特征表达式的线性预测函数如下:
其中,p表示线性预测函数的阶数,a1,a2,…ap为常数,φn(i,k)表示在i节点时系统特征跟k节点时的相关度,k=1,2,…,p。
上述线性预测函数表示p个方程构成的方程组,未知数p代表方程的阶数,阶数的选择主要取决于上述有效语音信息的频率,可以通过上述有效语音信息的频率来确定p的大小,从而使得声纹发声器官特征的提取更加准确。譬如,当有效语音信息的频率为8kHz时,p值可取为10;当有效语音信息的频率为10kHz时,p值可取为14。
作为本发明实施例的另一个优选方案,在步骤S104中,由于事先储存好的标准语音模型中可能会有多个声纹发声器官特征对比模型,因此,在进行语音验证时,需要采用最大对数似然函数估计方法进行模式匹配,以找到多个声纹发声器官特征中与待验证的声纹发声器官特征模型最为接近的声纹发声器官特征对比模型,从而便可通过该声纹发声器官特征对比模型与待验证的声纹发声器官特征模型的最大对数似然函数值(即为相似度)来判断待验的证语音信息是否与注册时的语音信息相匹配。
同样的,在步骤S206中,由于事先储存好的标准语音模型中可能会有多个声纹发声动作特征对比模型,因此,在进行语音验证时,也需要采用与上述一样的模式匹配方法进行匹配。其中,该模式匹配的计算公式如下:
其中,n*为最大对数似然函数值,N表示N个说话人,λn为第n个说话人的高斯混合模型,即声纹发声器官特征对比模型或者声纹发声动作特征对比模型,z表示观察矢量,即为待验证的声纹发声器官特征模型或待验证的声纹发声动作特征模型。
需要说明的是,如果待验证的声纹发声器官特征模型或待验证的声纹发声动作特征模型中的各个特征矢量之间是独立的,则可通过如下计算公式进行计算:
其中,zt表示待验证的声纹发声器官特征模型或待验证的声纹发声动作特征模型中的各个特征矢量。
另外,在步骤S208中,如果用户需要进行文本相关的声纹验证,即提取的待验证声纹特征模型包括声纹发声器官特征模型和待验证的声纹发声动作特征模型,那么就需要根据预设的权重系数,来对声纹发声器官特征和声纹发声动作特征的相似度进行权重计算,以判断待验证的语音信息是否与注册时的语音信息相匹配。
如附图7所示,在本发明的一个实施例中,还提供了一种语音验证装置,其包括:
语音获取单元710,用于获取待验证的语音信息。
语音处理单元720,用于基于预设的有效信息提取方法,提取所述待验证的语音信息中的有效语音信息。
第一声纹特征提取单元730,用于基于预设的线性预测函数,提取所述有效语音信息的声纹发声器官特征向量,并确定为待验证的声纹发声器官特征模型。
第一声纹特征匹配单元740,用于获取至少一个预设的声纹发声器官特征对比模型,并基于最大对数似然函数估计方法,确定所述至少一个预设的声纹发声器官特征对比模型中与所述待验证的声纹发声器官特征模型的对数似然函数值最大的声纹发声器官特征对比模型。
验证结果判断单元750,用于根据所述对数似然函数值最大的声纹发声器官特征对比模型确定语音验证结果。
如附图8所示,作为本发明实施例的另一个优选方案,上述语音验证装置还包括:
第二声纹特征提取单元860,用于基于短时自相关函数以及倒谱法,提取所述有效语音信息的声纹发声动作特征向量,并确定为待验证的声纹发声动作特征模型。
第二声纹特征匹配单元870,用于获取至少一个预设的声纹发声动作特征对比模型,并基于最大对数似然函数估计方法,确定所述至少一个预设的声纹发声动作特征对比模型中与所述待验证的声纹发声动作特征模型的对数似然函数值最大的声纹发声动作特征对比模型。
其中,所述验证结果判断单元750在该实施例中,是用于基于权重计算法,根据所述对数似然函数值最大的声纹发声器官特征对比模型以及所述对数似然函数值最大的声纹发声动作特征对比模型确定语音验证结果。
如附图9所示,作为本发明实施例的另一个优选方案,所述第二声纹特征提取单元860包括:
基因频率获取模块961,用于基于预设的短时自相关函数,获取所述有效语音信息的基音频率。
共振峰提取模块962,用于基于倒谱法,提取所述有效语音信息的共振峰。
第二声纹特征生成模块963,用于根据所述有效语音信息的基音频率以及所述有效语音信息的共振峰,生成所述有效语音信息的声纹发声动作特征向量,并确定为待验证的声纹发声动作特征模型。
如附图10所示,作为本发明实施例的另一个优选方案,所述语音处理单元720包括:
信息预加重模块1021,用于基于预设的传递函数,对所述待验证的语音信息进行预加重处理,生成预加重处理后的语音信息。
信息分帧模块1022,用于基于预设的汉明窗函数,根据预设的窗口长度对所述预加重处理后的语音信息进行分帧处理,生成分帧处理后的语音信息,即为有效语音信息。
如附图11所示,作为本发明实施例的另一个优选方案,所述待验证的语音信息包括高频信息;所述信息预加重模块1021包括:
节点获取次模块1121,用于获取所述待验证的语音信息中高频信息的时间节点。
高频信息预加重次模块1121,用于基于预设的传递函数,根据所述待验证的语音信息中高频信息的时间节点以及预设的预加重系数,对所述待验证的语音信息中的高频信息进行预加重处理,生成预加重处理后的语音信息。
如附图12所示,作为本发明实施例的另一个优选方案,所述第一声纹特征提取单元730包括:
阶数确定模块1231,用于根据所述待验证的语音信息中的语音频率确定所述预设的线性预测函数的阶数。
相关度确定模块1232,用于确定所述待验证的语音信息中多个语音节点之间的相关度。
第一声纹特征生成模块1233,用于根据所述预设的线性预测函数的阶数以及所述多个语音节点之间的相关度,生成所述有效语音信息的声纹发声器官特征向量,并确定为待验证的声纹发声器官特征模型。
需要说明的是,上述各单元可以实现为一种计算机程序的形式,计算机程序可在计算机设备上运行,计算机设备的存储器中可存储组成各单元中各模块构成的计算机程序使得处理器执行上述语音验证方法中的各个步骤。
在本发明的一个实施例中,还提供了一种计算机设备,其包括存储器和处理器,所述的存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述语音验证方法中的各个步骤。
在本发明的一个实施例中,还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行上述语音验证方法中的各个步骤。
应该理解的是,虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (7)
1.一种语音验证方法,其特征在于,包括以下步骤:
获取待验证的语音信息;
基于预设的有效信息提取方法,提取所述待验证的语音信息中的有效语音信息;
基于预设的线性预测函数,提取所述有效语音信息的声纹发声器官特征向量,并确定为待验证的声纹发声器官特征模型;
获取至少一个预设的声纹发声器官特征对比模型,并基于最大对数似然函数估计方法,确定所述至少一个预设的声纹发声器官特征对比模型中与所述待验证的声纹发声器官特征模型的对数似然函数值最大的声纹发声器官特征对比模型;
根据所述对数似然函数值最大的声纹发声器官特征对比模型确定语音验证结果;
在所述根据所述对数似然函数值最大的声纹发声器官特征对比模型确定语音验证结果的步骤之前,还包括:
基于短时自相关函数以及倒谱法,提取所述有效语音信息的声纹发声动作特征向量,并确定为待验证的声纹发声动作特征模型;
获取至少一个预设的声纹发声动作特征对比模型,并基于最大对数似然函数估计方法,确定所述至少一个预设的声纹发声动作特征对比模型中与所述待验证的声纹发声动作特征模型的对数似然函数值最大的声纹发声动作特征对比模型;
所述根据所述对数似然函数值最大的声纹发声器官特征对比模型确定语音验证结果的步骤,具体包括:
基于权重计算法,根据所述对数似然函数值最大的声纹发声器官特征对比模型以及所述对数似然函数值最大的声纹发声动作特征对比模型确定语音验证结果;
所述基于短时自相关函数以及倒谱法,提取所述有效语音信息的声纹发声动作特征向量,并确定为待验证的声纹发声动作特征模型的步骤,具体包括:
基于预设的短时自相关函数,获取所述有效语音信息的基音频率;
基于倒谱法,提取所述有效语音信息的共振峰;
根据所述有效语音信息的基音频率以及所述有效语音信息的共振峰,生成所述有效语音信息的声纹发声动作特征向量,并确定为待验证的声纹发声动作特征模型。
2.根据权利要求1所述的一种语音验证方法,其特征在于,所述基于预设的有效信息提取方法,提取所述待验证的语音信息中的有效语音信息的步骤,具体包括:
基于预设的传递函数,对所述待验证的语音信息进行预加重处理,生成预加重处理后的语音信息;
基于预设的汉明窗函数,根据预设的窗口长度对所述预加重处理后的语音信息进行分帧处理,生成分帧处理后的语音信息,即为有效语音信息。
3.根据权利要求2所述的一种语音验证方法,其特征在于,所述待验证的语音信息包括高频信息;所述基于预设的传递函数,对所述待验证的语音信息进行预加重处理,生成预加重处理后的语音信息的步骤,具体包括:
获取所述待验证的语音信息中高频信息的时间节点;
基于预设的传递函数,根据所述待验证的语音信息中高频信息的时间节点以及预设的预加重系数,对所述待验证的语音信息中的高频信息进行预加重处理,生成预加重处理后的语音信息。
4.根据权利要求1所述的一种语音验证方法,其特征在于,所述基于预设的线性预测函数,提取所述有效语音信息的声纹发声器官特征向量,并确定为待验证的声纹发声器官特征模型的步骤,具体包括:
根据所述待验证的语音信息中的语音频率确定所述预设的线性预测函数的阶数;
确定所述待验证的语音信息中多个语音节点之间的相关度;
根据所述预设的线性预测函数的阶数以及所述多个语音节点之间的相关度,生成所述有效语音信息的声纹发声器官特征向量,并确定为待验证的声纹发声器官特征模型。
5.一种语音验证装置,其特征在于,包括:
语音获取单元,用于获取待验证的语音信息;
语音处理单元,用于基于预设的有效信息提取方法,提取所述待验证的语音信息中的有效语音信息;
第一声纹特征提取单元,用于基于预设的线性预测函数,提取所述有效语音信息的声纹发声器官特征向量,并确定为待验证的声纹发声器官特征模型;
第一声纹特征匹配单元,用于获取至少一个预设的声纹发声器官特征对比模型,并基于最大对数似然函数估计方法,确定所述至少一个预设的声纹发声器官特征对比模型中与所述待验证的声纹发声器官特征模型的对数似然函数值最大的声纹发声器官特征对比模型;
验证结果判断单元,用于根据所述对数似然函数值最大的声纹发声器官特征对比模型确定语音验证结果;
还包括:
第二声纹特征提取单元,用于基于短时自相关函数以及倒谱法,提取所述有效语音信息的声纹发声动作特征向量,并确定为待验证的声纹发声动作特征模型;
第二声纹特征匹配单元,用于获取至少一个预设的声纹发声动作特征对比模型,并基于最大对数似然函数估计方法,确定所述至少一个预设的声纹发声动作特征对比模型中与所述待验证的声纹发声动作特征模型的对数似然函数值最大的声纹发声动作特征对比模型;
所述验证结果判断单元,用于基于权重计算法,根据所述对数似然函数值最大的声纹发声器官特征对比模型以及所述对数似然函数值最大的声纹发声动作特征对比模型确定语音验证结果。
6.一种计算机设备,包括存储器和处理器,其特征在于,所述的存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1-4中任一项所述的语音验证方法的步骤。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行权利要求1-4中任一项所述的语音验证方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911105338.2A CN110838294B (zh) | 2019-11-11 | 2019-11-11 | 一种语音验证方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911105338.2A CN110838294B (zh) | 2019-11-11 | 2019-11-11 | 一种语音验证方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110838294A CN110838294A (zh) | 2020-02-25 |
CN110838294B true CN110838294B (zh) | 2022-03-04 |
Family
ID=69574990
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911105338.2A Active CN110838294B (zh) | 2019-11-11 | 2019-11-11 | 一种语音验证方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110838294B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112185344A (zh) * | 2020-09-27 | 2021-01-05 | 北京捷通华声科技股份有限公司 | 语音交互方法、装置、计算机可读存储介质和处理器 |
CN113793615B (zh) * | 2021-09-15 | 2024-02-27 | 北京百度网讯科技有限公司 | 说话人识别方法、模型训练方法、装置、设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1447278A (zh) * | 2002-11-15 | 2003-10-08 | 郑方 | 一种声纹识别方法 |
CN101051464A (zh) * | 2006-04-06 | 2007-10-10 | 株式会社东芝 | 说话人认证的注册和验证方法及装置 |
CN101923855A (zh) * | 2009-06-17 | 2010-12-22 | 复旦大学 | 文本无关的声纹识别系统 |
CN109543377A (zh) * | 2018-10-17 | 2019-03-29 | 深圳壹账通智能科技有限公司 | 身份验证方法、装置、计算机设备和存储介质 |
CN109545231A (zh) * | 2019-01-08 | 2019-03-29 | 深圳市高觉科技有限公司 | 一种便携式控制智能设备的方法 |
CN110047490A (zh) * | 2019-03-12 | 2019-07-23 | 平安科技(深圳)有限公司 | 声纹识别方法、装置、设备以及计算机可读存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105933323B (zh) * | 2016-06-01 | 2019-05-31 | 百度在线网络技术(北京)有限公司 | 声纹注册、认证方法及装置 |
-
2019
- 2019-11-11 CN CN201911105338.2A patent/CN110838294B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1447278A (zh) * | 2002-11-15 | 2003-10-08 | 郑方 | 一种声纹识别方法 |
CN101051464A (zh) * | 2006-04-06 | 2007-10-10 | 株式会社东芝 | 说话人认证的注册和验证方法及装置 |
CN101923855A (zh) * | 2009-06-17 | 2010-12-22 | 复旦大学 | 文本无关的声纹识别系统 |
CN109543377A (zh) * | 2018-10-17 | 2019-03-29 | 深圳壹账通智能科技有限公司 | 身份验证方法、装置、计算机设备和存储介质 |
CN109545231A (zh) * | 2019-01-08 | 2019-03-29 | 深圳市高觉科技有限公司 | 一种便携式控制智能设备的方法 |
CN110047490A (zh) * | 2019-03-12 | 2019-07-23 | 平安科技(深圳)有限公司 | 声纹识别方法、装置、设备以及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110838294A (zh) | 2020-02-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11322155B2 (en) | Method and apparatus for establishing voiceprint model, computer device, and storage medium | |
US8160877B1 (en) | Hierarchical real-time speaker recognition for biometric VoIP verification and targeting | |
EP3156978A1 (en) | A system and a method for secure speaker verification | |
Ajmera et al. | Text-independent speaker identification using Radon and discrete cosine transforms based features from speech spectrogram | |
TWI396184B (zh) | 一種語音辨認所有語言及用語音輸入單字的方法 | |
JP6764851B2 (ja) | 系列データ変換装置、学習装置、及びプログラム | |
Almaadeed et al. | Text-independent speaker identification using vowel formants | |
Pawar et al. | Review of various stages in speaker recognition system, performance measures and recognition toolkits | |
Sinith et al. | A novel method for text-independent speaker identification using MFCC and GMM | |
Yusnita et al. | Malaysian English accents identification using LPC and formant analysis | |
CN110838294B (zh) | 一种语音验证方法、装置、计算机设备及存储介质 | |
Nidhyananthan et al. | Language and text-independent speaker identification system using GMM | |
CN113782032B (zh) | 一种声纹识别方法及相关装置 | |
Priyadarshani et al. | Dynamic time warping based speech recognition for isolated Sinhala words | |
Yu et al. | {SMACK}: Semantically Meaningful Adversarial Audio Attack | |
Kanabur et al. | An extensive review of feature extraction techniques, challenges and trends in automatic speech recognition | |
JP2006235243A (ja) | 音響信号分析装置及び音響信号分析プログラム | |
Tsai et al. | Self-defined text-dependent wake-up-words speaker recognition system | |
Aroon et al. | Speaker recognition system using Gaussian Mixture model | |
Selvan et al. | Speaker recognition system for security applications | |
CN113539239B (zh) | 语音转换方法、装置、存储介质及电子设备 | |
Dhamyal et al. | Using self attention dnns to discover phonemic features for audio deep fake detection | |
Singh | Multimedia application for forensic automatic speaker recognition from disguised voices using MFCC feature extraction and classification techniques | |
CN114512133A (zh) | 发声对象识别方法、装置、服务器及存储介质 | |
Jagtap et al. | Speaker verification using Gaussian mixture model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |