CN110400567B - 注册声纹动态更新方法及计算机存储介质 - Google Patents
注册声纹动态更新方法及计算机存储介质 Download PDFInfo
- Publication number
- CN110400567B CN110400567B CN201910696274.1A CN201910696274A CN110400567B CN 110400567 B CN110400567 B CN 110400567B CN 201910696274 A CN201910696274 A CN 201910696274A CN 110400567 B CN110400567 B CN 110400567B
- Authority
- CN
- China
- Prior art keywords
- voiceprint
- voiceprint information
- weighting coefficient
- information
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/04—Training, enrolment or model building
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/32—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
- H04L9/3226—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials using a predetermined code, e.g. password, passphrase or PIN
- H04L9/3231—Biological data, e.g. fingerprint, voice or retina
Abstract
本发明公开了一种注册声纹动态更新方法及计算机存储介质,该方法包括:获取来自用户的语音数据并获取对应的声纹信息;当获取到第N段声纹信息时,根据N段声纹信息中每一段声纹信息的录制时间按照预设递减函数计算每一段声纹信息的时间加权系数;根据每一段声纹信息与当前存储的注册声纹模型的差异计算每一段声纹信息的匹配率加权系数;根据每一段声纹信息的时间加权系数、匹配率加权系数按照预设加权规则计算N段声纹的加权声纹模型,并将所述加权声纹模型作为新的注册声纹模型以用于对用户的验证。本发明的技术方案可实现动态更新用户注册的声纹模型,鲁棒性强,避免了由于时间变化导致用户声纹变化进而引起对用户识别正确率低等问题。
Description
技术领域
本发明涉及声纹识别技术领域,尤其涉及一种注册声纹动态更新方法及计算机存储介质。
背景技术
声纹识别技术,主要是基于语音中说话人包含的个性特征的信息,利用计算机以及各种信息识别技术,自动地实现说话人身份的确认。随着互联网的飞速发展,语音作为一种非接触性信息载体,人们可以依靠各种终端设备,随时随地的完成语音采集,并通过本地或者云端的计算来实现人机交互和说话人身份识别。
然而,用户在首次注册的声纹模型建立之后,随着用户年纪增大,身体状态的变化,用户的声纹特征也会随之而产生相应的变化。此时,若注册的声纹模型不随之更新,则往往容易造成用户的声纹不匹配,进而引起确认用户身份的误差问题。
发明内容
鉴于上述问题,本发明提供了一种注册声纹动态更新方法及计算机存储介质,通过该注册声纹动态更新方法可实现动态更新用户注册的声纹模型,鲁棒性强,避免了由于时间变化导致用户声纹变化进而引起对用户识别正确率低等问题。
本发明的一个实施方式提供一种注册声纹动态更新方法,包括:
获取来自用户的语音数据,并按照预设语音处理规则对获取的每一段语音数据进行声纹特征提取以获取对应的声纹信息;
当获取到第N段声纹信息时,根据获取的N段声纹信息中每一段声纹信息的录制时间按照预设递减函数计算每一段声纹信息的时间加权系数;其中,所述录制时间越晚,得到的所述时间加权系数越大,N为大于等于2的自然数;
根据所述N段声纹信息中的每一段声纹信息与当前存储的注册声纹模型的差异计算每一段声纹信息的匹配率加权系数;其中,所述当前存储的注册声纹模型根据获取的N-1段声纹信息确定;
根据所述N段声纹信息中每一段声纹信息的时间加权系数、匹配率加权系数按照预设加权规则计算对应的加权声纹模型,并将所述加权声纹模型作为新的所述注册声纹模型,以用于对所述用户的验证。
进一步地,在上述的注册声纹动态更新方法中,还包括:N小于等于预设阈值M,其中,M为大于2的自然数;
当获取到第M+1段声纹信息时,计算所述M+1段声纹信息中每一段声纹信息的时间加权系数和匹配率加权系数;
根据每一段声纹信息的所述时间加权系数和所述匹配率加权系数的乘积计算每一段声纹信息的总加权系数;
对所述M+1段声纹信息中每一段声纹信息的总加权系数进行大小排序,并剔除所述总加权系数最小的那一段声纹信息;
对余下的M段声纹信息重新计算每一段声纹信息的时间加权系数和匹配率加权系数;
根据所述预设加权规则计算所述余下的M段声纹信息对应的加权声纹模型,并将所述加权声纹模型作为新的所述注册声纹模型。
进一步地,在上述的注册声纹动态更新方法中,所述“根据获取的N段声纹信息中每一段声纹信息的录制时间按照预设递减函数计算每一段声纹信息的时间加权系数”包括:
对于所述N段声纹信息,以第N段声纹信息的录制时间为时间基准点,并基于所述时间基准点和各段声纹信息的录制时间按照预设递减函数确定所述N段声纹信息中各段声纹信息的时间加权;
对所述各段声纹信息的时间加权进行归一化处理以得到每一段声纹信息的时间加权系数,其中,若第i段声纹信息的时间加权系数为Ai,i=1,2,…,N,所述N段声纹信息的各时间加权系数满足:
进一步地,在上述的注册声纹动态更新方法中,所述“根据所述N段声纹信息中的每一段声纹信息与当前存储的注册声纹模型的差异计算每一段声纹信息的匹配率加权系数”包括:
在所述N段声纹信息中,利用预设匹配算法计算每一段声纹信息与当前存储的注册声纹模型的声纹特征的匹配率;其中,所述预设匹配算法包括高斯混合模型算法、神经网络模型算法、动态叶贝斯网络算法、支持向量机算法和隐马尔可夫模型算法中的至少一种;
根据所述匹配率确定每一段声纹信息的匹配率加权系数,若第i段声纹信息的匹配率加权系数为Bi,i=1,2,…,N,则所述N段声纹信息应满足:
进一步地,在上述的注册声纹动态更新方法中,所述“所述当前存储的注册声纹模型根据获取的N-1段声纹信息确定”包括:
若N=2,则将获取的首段声纹信息作为所述注册声纹模型;
若N>2,则将获取的N-1段声纹信息对应的加权声纹模型作为所述注册声纹模型。
进一步地,在上述的注册声纹动态更新方法中,所述“根据所述N段声纹信息中每一段声纹信息的时间加权系数、匹配率加权系数按照预设加权规则计算对应的加权声纹模型”包括:
在所述N段声纹信息中,若第i段声纹信息为Xi,对应的时间加权系数为Ai,对应的匹配率加权系数为Bi,i=1,2,…,N,则按照如下预设加权规则计算得到所述N段声纹信息对应的加权声纹模型:
其中,各段声纹信息的时间加权系数Ai与匹配率加权系数Bi的乘积Ai*Bi均为归一化处理后的数值。
进一步地,在上述的注册声纹动态更新方法中,所述M+1段声纹中,若第k段声纹信息的时间加权系数为A'k,匹配率加权系数记B'k,其中,k=1,2,…,M+1,则所述M+1段声纹信息的时间加权系数和匹配率加权系数的计算应分别满足:
进一步地,在上述的注册声纹动态更新方法中,基于文本相关和/或文本无关方式获取所述用户的语音数据;所述预设语音处理规则包括:
对获取的每一段语音数据进行帧划分预处理以得到对应的语音帧数据;
对所述语音帧数据进行时域或频域分析以得到基于特征参数描述的声纹信息;其中,所述特征参数包括美尔频域倒谱系数和/或线性预测系数。
本发明的另一个实施方式提供一种注册声纹动态更新方法,包括:
获取来自用户的语音数据,并按照预设语音处理规则对获取的每一段语音数据进行声纹特征提取,以获取对应的声纹信息;
每获取到一个更新周期的N段声纹信息时,根据所述N段声纹信息中每一段声纹信息的录制时间按照预设递减函数计算当前更新周期中的每一段声纹信息的时间加权系数;其中,所述录制时间越晚,得到的所述时间加权系数越大,N为大于等于2的自然数;
根据当前更新周期中的每一段声纹信息与当前存储的注册声纹模型的差异计算每一段声纹信息的匹配率加权系数;其中,所述当前存储的注册声纹模型根据上一更新周期的N段声纹信息确定;
根据所述N段声纹信息中每一段声纹信息的时间加权系数、匹配率加权系数按照预设加权规则计算当前更新周期对应的加权声纹模型,并将所述加权声纹模型作为新的所述注册声纹模型,以用于对所述用户的验证。
本发明的又一个实施方式提供一种设备终端,所述设备终端包括处理器和存储器,所述存储器用于存储计算机程序,所述处理器用于执行所述计算机程序以实施上述的注册声纹动态更新方法。
本发明的再一个实施方式提供一种计算机存储介质,其存储计算机程序,在所述计算机程序被执行时,实施根据上述的注册声纹动态更新方法。
发明的技术方案不仅考虑各声纹信息的时间因素,还结合各声纹信息的匹配率来共同确定各声纹信息的加权值,进而用于计算对应的注册声纹模型,从而使得该注册声纹模型具加合理、具有更高的鲁棒性,更加符合用户的声纹信息可能随时间而发生变化的客观规律等。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对本发明保护范围的限定。在各个附图中,类似的构成部分采用类似的编号。
图1示出了本发明实施例1的注册声纹动态更新方法的第一流程示意图;
图2示出了本发明实施例1的注册声纹动态更新方法的预设语音规则流程示意图;
图3示出了本发明实施例1的注册声纹动态更新方法的第二流程示意图;
图4示出了本发明实施例2的注册声纹动态更新方法的流程示意图;
图5示出了本发明实施例3的注册声纹动态更新装置的结构示意图;
图6示出了本发明实施例4的注册声纹动态更新装置的结构示意图。
主要元件符号说明:
100、200-注册声纹动态更新装置;10、20-声纹信息获取模块;11、21-时间加权系数计算模块;12、22-匹配率加权系数计算模块;13、23-注册声纹模型更新模块。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
在下文中,可在本发明的各种实施例中使用的术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合,并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。
此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
除非另有限定,否则在这里使用的所有术语(包括技术术语和科学术语)具有与本发明的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义,除非在本发明的各种实施例中被清楚地限定。
实施例1
请参照图1,本实施例提出一种注册声纹动态更新方法,可应用于各种支持声纹识别功能的设备终端,如手机、平板等。通过该注册声纹动态更新方法可使设备终端中用户注册的声纹模型适应用户自然状态下正常的声纹变化,保证了声纹模型对说话人识别的准确性及系统的鲁棒性等。
如图1所示,该注册声纹动态更新方法主要包括以下步骤:
步骤S10,获取来自用户的语音数据,并按照预设语音处理规则对获取的每一段语音数据进行声纹特征提取以获取对应的声纹信息。
在上述步骤S10中,对于来自用户的语音数据,可基于文本相关、文本无关等方式来录制用户的语音。其中,该文本相关是指用户所录制的内容是由系统提示的,这样在识别过程中可利用预先存储的文本信息来识别用户的声纹信息以增加识别的可靠性等,而文本无关即指录制的是用户随便说的一段话而非指定的系统提示内容。
示范性地,录制的语音数据可根据预先设定的语音时长,如设定为5秒、10秒等,进行固定时长的录制,也可以是在用户录制一段语音后再截取一定时长的数据作为上述的语音数据,在此并不作限定。
于是,在获取到用户的语音数据后,将按照预设语音规则进行声纹特征提取处理,以得到该用户的声纹信息。示范性地,如图2所示,该预设语音规则可包括以下主要子步骤:
子步骤S101,对获取的每一段语音数据进行帧划分预处理以得到对应的语音帧数据。
在上述步骤S101中,对于每一段语音数据,可将其划分成对应的语音帧以便于后续的特征参数分析,例如,各语音帧的帧长可选取为10~30ms等等。本实施例中,对每一段语音数据的帧划分预处理主要包括:对该语音数据进行采样与量化,以得到数字形式的语音信号;进行预加重处理,即对语音中的高频信号进行加强,使语音信号的频谱便于统一分析与处理;进行加窗处理,将经过预加重处理的语音信号分成特定帧长的各语音帧数据。示范性地,在对时域信号分析时,优先采用矩形窗;在对频域信号分析时,优先使用哈明窗。
子步骤S102,对所述语音帧数据进行时域或频域分析以得到基于特征参数描述的声纹信息;其中,所述特征参数包括美尔频域倒谱系数和/或线性预测系数。
对经过加窗得到的语音帧,可采用如倒谱系数、美尔频域倒谱系数(Mel-frequency cepstral coefficient,MFCC)、线性预测系数(linear predictioncoefficient,LPCC)等特征参数进行参数序列描述,得到参数化的用户声纹特征信息。
示范性地,可对数字形式的语音信号进行快速傅里叶变换(FFT)处理后,再对变换后的信号频谱作对数处理,最后对得到的对数谱进行逆傅里叶变换,从而可得到基于倒谱系数表示的语音信号特征序列。当然,若在对对数谱进行逆傅里叶变换前,先经过频谱坐标的尺度变折处理,再进行逆傅里叶变换,则可得到上述的美尔频域倒谱系数。或者,也可以采用如线性逼近方式得到上述的线性预测系数等等。可以理解,该语音信号特征序列即包含了该用户的声纹特征信息。
本实施例中,每获取到一段语音数据,可经过上述处理得到对应的声纹特征序列,即上述的声纹信息,并将其存储于声纹库中。若将一段语音数据对应的声纹信息记为X,则有声纹信息集合x={X1,…,XN},其中,i=1,…,N,N为大于等于2的自然数。
考虑到人的声纹信息会随着时间不断变化,从时间上看,录制时间越早的语音数据,往往与用户当前实际的声纹信息偏离越大;反之,录制时间越晚,则偏离越小。本实施例中,将为每一段声纹信息增加相应的时间加权系数和匹配率加权系数来动态更新该设备终端存储的注册声纹模型。可以理解,该注册声纹模型存储有用户的声纹信息,用于对用户进行身份识别验证。
步骤S11,当获取到第N段声纹信息时,根据获取的N段声纹信息中每一段声纹信息的录制时间按照预设递减函数计算每一段声纹信息的时间加权系数。其中,对于一段声纹信息,其录制时间越晚,得到的时间加权系数越大,反之,录制时间越早,得到的时间加权系数越小。
示范性地,当获取到第N段声纹信息时,以该第N段声纹信息的录制时间为时间基准点,并基于该时间基准点和各段声纹信息的录制时间按照预设递减函数确定这N段声纹信息中每一段声纹信息的时间加权。例如,若预设递减函数为f(t),第i段声纹信息的时间加权为ai,i=1,…,N,则第i段声纹信息的时间加权ai与其录制时间ti满足:ai=f(ti)。
随后,对各段声纹信息的时间加权进行归一化处理,以得到各段声纹信息的时间加权系数。可以理解,每一段声纹信息的时间加权对应于其时间加权系数,或者说,时间加权系数对应于时间加权归一化处理后的值。示范性地,对于声纹信息集合x中的第i段声纹信息Xi,其时间加权系数为Ai,i=1,…,N,N≥2,通过上述的预设递减函数计算得到对应的时间加权ai后,进行归一化处理即可得到各段声纹信息的时间加权系数,其中,该N段声纹信息的各时间加权系数满足:
下面以一预设递减函数为例进行举例说明。例如,若某一天获取到第1段声纹信息,30天后获取到第2段声纹信息,60天后获取到第3段声纹信息,该预设递减函数可为线性递减函数f(t)=b+K*t,K、b均为常数,其中,以第3段声纹信息的录制时间t3作为时间基准点,即有f(t3)=b,于是,各段声纹信息的录制时间与时间加权应满足:a1=b+K*t1,a2=b+K*t2,a3=b,其中,第1段和第2段声纹信息的录制时间分别与时间基准点t3的相对时间关系为t2=2t3,t1=3t3,即可计算得到这3段声纹信息的时间加权a1,a2和a3。随后,将这三个值进行归一化处理,以使得满足A1+A2+A3=1,从而可计算得到这3段声纹信息的时间加权系数分别为A1=1/6,A2=1/3,A3=1/2。可以理解,上述的A1、A2、A3分别对应于这3段声纹信息的时间加权a1、a2、a3归一化后计算得到的值,而一段声纹信息的时间加权越大,其时间加权系数则越大。
本实施例中,该预设递减函数可采用线性递减函数或非线性递减函数,例如,非线性递减函数具体可采用指数函数、幂函数等,具体可根据实际需求来相应设定。当然,也可根据各段声纹信息的录制时间的时间间隔的分布规律来选择相应的递减函数。
可以理解,随着声纹信息录制的数量越来越多,考虑到距离当前时间录制越早的声纹信息可能会被剔除,这样在计算时间加权系数时将导致需要不断地对保留的声纹信息进行重新排序时间。而选择递减函数作为录制时间与时间加权的关系,并选用最新声纹信息的录制时间作为时间基准点,即时间计算原点,并以此往前推,可根据各段声纹信息的录制时间相对于该时间计算原点的时间间隔计算出各段声纹信息相对于该最新声纹信息的时间加权的对应关系,进而便于计算时间加权系数以及直观上的理解等。当然,若以录制最早的声纹信息作为时间基准点,那么就各段声纹信息的时间加权与对应的录制时间就应当选择递增函数。
步骤S12,根据所述N段声纹信息中的每一段声纹信息与当前存储的注册声纹模型的差异计算每一段声纹信息的匹配率加权系数。其中,所述当前存储的注册声纹模型根据获取的N-1段声纹信息确定。
除了考虑到各声纹信息的时间关系,本实施例还考虑到各声纹信息与当前存储的注册声纹模型的差异大小即匹配率,综合更新该注册声纹模型。可以理解,若某一声纹信息与当前存储的注册声纹模型的匹配率越大,则表明与用户当前的声纹特征偏离越小,反之,匹配率越小则偏离越小。相应地,若匹配率越小,则该声纹信息的匹配率加权系数将越小,匹配率越大则匹配率加权系数越大。
在上述步骤S12中,对于当前存储的注册声纹模型,存在两种情况,分别为N=2和N>2的情况。
对于N=2的情况,即当获取到第2段声纹信息时,上述当前存储的注册声纹模型即为获取的首段声纹信息。
对于N>2的情况,此时当前存储的注册声纹模型应为获取的N-1段声纹信息对应的加权声纹模型,即上一次更新得到的加权声纹模型。例如,当获取到第3段声纹信息时,可将声纹库中的这3段声纹信息分别计算与由前2段声纹信息得到的加权声纹模型的匹配率。
本实施例中,对于该N段声纹信息,可利用预设匹配算法计算每一段声纹信息与当前存储的注册声纹模型的声纹特征的匹配率。示范性地,该预设匹配算法可包括但不限于高斯混合模型(Gaussian mixture model,GMM模型)、神经网络模型、动态叶贝斯网络(Dynamic Bayesian Network,DBN)、支持向量机(Support Vector Machine,SVM)和隐马尔可夫模型(Hidden Markov Model,HMM)等中的一种或多种组合。
于是,根据各段声纹信息与当前存储的注册声纹模型的匹配距离计算得到对应的匹配率,然后计算得到各声纹信息的匹配率加权系数。示范性地,若第i段声纹信息的匹配率加权系数为Bi,i=1,2,…,N,则该N段声纹信息中的各匹配率加权系数应满足:
示范性地,仍以上述的3段声纹信息为例,则当前存储的注册声纹模型由前2段声纹信息的加权声纹模型得到,记为则可计算得到:第1段声纹信息X1与之间的匹配率为b1,第2段声纹信息X2与之间的匹配率为b2,第3段声纹X3与之间的匹配率为b3。此时,若3段声纹信息的匹配加权率分别为B1、B2、B3,则有B1+B2+B3=1,其中, 于是分别计算得到B1、B2、B3。应当理解,上述对3段声纹信息的时间加权系数及匹配率加权系数的计算过程仅为示意举例,并不能认为是对具体计算过程的相应限定。
步骤S13,根据所述N段声纹信息中每一段声纹信息的时间加权系数、匹配率加权系数按照预设加权规则计算对应的加权声纹模型,并将所述加权声纹模型作为新的所述注册声纹模型,以用于对所述用户的验证。
其中,各段声纹信息的时间加权系数Ai与匹配率加权系数Bi的乘积Ai*Bi均为归一化处理后的数值。可以理解,乘积Ai*Bi为该段声纹信息Xi的总加权系数。
于是,将该加权声纹模型代替由N-1段声纹信息计算得到的加权声纹模型并作为新的注册声纹模型进行存储,以用于对用户进行身份验证,还将用于当获取到第N+1段声纹信息后计算该N+1段声纹信息对应的加权声纹模型。
本实施例中,该注册声纹模型的更新频率可根据实际需求来设定,而该更新频率也决定每一段新的声纹信息的录制时间。例如,若该更新频率为一个月更新一次,也可以是每半年更新一次等等。
可以理解,通过根据不断获取的新的声纹信息来对用于身份识别的注册声纹模型进行动态更新,不仅考虑各声纹信息的时间因素,还结合各声纹信息的匹配率来共同确定各声纹信息的加权值,进而用于计算对应的注册声纹模型,从而使得该注册声纹模型具加合理、具有更高的鲁棒性,更加符合用户的声纹信息可能随时间而发生变化的客观规律等。
进一步优选地,随着录制的声纹信息将越来越多,而考虑到设备终端的处理能力及存储能力等,本实施例还将给声纹信息的数量设定一预设阈值,记为M,其中,M为大于2的自然数。例如,该预设阈值M可设置在相对较大的一个数值,如10、12、15、20或30等等。
于是,如图3所示,该注册声纹动态更新方法还包括以下步骤:
步骤S14,当获取到第M+1段声纹信息时,计算所述M+1段声纹信息中每一段声纹信息的时间加权系数和匹配率加权系数。
在上述步骤S14中,对于每一段声纹信息的时间加权系数及匹配率加权系数可参考上述步骤S11-S12计算得到,不同之处仅在于,该M+1段声纹信息中,若第k段声纹信息的时间加权系数为A'k,匹配率加权系数记B'k,k=1,2,…,M+1,则该M+1段声纹信息中各段声纹信息的时间加权系数和匹配率加权系数的计算应分别满足:
步骤S15,根据每一段声纹信息的所述时间加权系数和所述匹配率加权系数的乘积计算每一段声纹信息的总加权系数。
在上述步骤S15中,对于该M+1段声纹信息,每一段声纹信息的总加权系数为时间加权系数和匹配率加权系数的乘积,即A'k*B'k,然后将每个总加权系数进行归一化处理后,执行步骤S16。
步骤S16,对所述M+1段声纹信息中每一段声纹信息的总加权系数进行大小排序,并剔除所述总加权系数最小的那一段声纹信息。
步骤S17,对余下的M段声纹信息重新计算每一段声纹信息的时间加权系数和匹配率加权系数。
在上述步骤S16中,在剔除总加权系数最小的一段声纹信息后,将余下M段声纹信息。可以理解,若某一段声纹信息的总加权系数越小,则说明其与用户当前实际的声纹特征相差越大,那么对注册声纹模型的影响也就越小。在上述步骤S17中,将对余下的这M段声纹信息重新计算各自的时间加权系数和匹配率加权系数,具体可参照上述步骤S11-S12计算得到,故在此不再详述。可以理解,此时是将这余下的M段声纹信息与当前存储的注册声纹模型即由在未接收到第M+1段声纹信息前对应的M段声纹信息计算得到的加权声纹模型进行差异计算。
步骤S18,根据所述预设加权规则计算所述余下的M段声纹信息对应的加权声纹模型,并将所述加权声纹模型作为新的所述注册声纹模型。
可以理解,通过上述步骤S14-S18可以使该设备终端中声纹库中的声纹信息始终保持为M段,当再接收到一段新的声纹信息后,可利用上述方式剔除总加权系数最小的那段声纹信息,即除去影响力最小的一段声纹信息,这样可保证设备终端中的注册声纹模型能不断地动态更新,而不过分占用该设备终端的处理资源等。
实施例2
请参照图4,本实施例提出一种注册声纹动态更新方法,可应用于各种支持声纹识别功能的设备终端,如手机、平板等。与上述实施例1的注册声纹动态更新方法的不同之处在于,本实施例进行注册声纹动态更新时是每次获取到特定数量的语音数据后才进行一次更新。
如图4所示,该注册声纹动态更新方法主要包括以下步骤:
步骤S20,获取来自用户的语音数据,并按照预设语音处理规则对获取的每一段语音数据进行声纹特征提取,以获取对应的声纹信息;
在上述步骤S20中,用户的语音数据的录制获取以及声纹特征提取过程可根据上述步骤S101和S102得到,故在此不再详述。
步骤S21,每获取到一个更新周期的N段声纹信息时,根据所述N段声纹信息中每一段声纹信息的录制时间按照预设递减函数计算当前更新周期中的每一段声纹信息的时间加权系数。其中,所述录制时间越晚,得到的所述时间加权系数越大,N为大于等于2的自然数。
本实施例中,注册声纹模型的每一次更新都需要获取到特定数量的声纹信息后才进行,例如,当N=5时,即每获取到5段声纹信息就执行一次模型更新。
在上述步骤S21中,对于某一次更新周期j的N段声纹信息,其中,j为大于等于1的自然数,若第i段语音数据对应的声纹信息为Xi,则有声纹信息集合xj={X1,…,XN},其中,i=1,…,N,N为大于等于2的自然数。对于当前更新周期内的N段声纹信息,以第N段声纹信息的录制时间为时间基准点,并基于所述时间基准点和各段声纹信息的录制时间按照预设递减函数确定所述N段声纹信息中各段声纹信息的时间加权。随后,对各段声纹信息的时间加权进行归一化处理以得到每一段声纹信息的时间加权系数,其中,若第i段声纹信息的时间加权系数为Ai,i=1,2,…,N,所述N段声纹信息的各时间加权系数满足:
可以理解,该N段声纹信息中每一段声纹信息的时间加权系数Ai可参考上述步骤S11计算得到,故在此不再详述。
本实施例中,该预设递减函数可采用线性递减函数或非线性递减函数,例如,非线性递减函数具体可采用指数函数、幂函数等,具体可根据实际需求来相应设定。当然,也可根据一个更新周期内各段声纹信息的录制时间的时间间隔的分布规律来选择相应的递减函数。
步骤S22,根据当前更新周期中的每一段声纹信息与当前存储的注册声纹模型的差异计算每一段声纹信息的匹配率加权系数。其中,所述当前存储的注册声纹模型根据上一更新周期的N段声纹信息确定。
与上述实施例1的方法不同在于,本实施例中,所述的当前存储的注册声纹模型为上一个更新周期的N段声纹信息对应的加权声纹模型。于是,根据当前更新周期的各段声纹信息与上一个更新周期对应的加权声纹模型的匹配距离计算得到对应的匹配率,然后计算当前更新周期的各声纹信息的匹配率加权系数。
在上述步骤S22中,示范性地,在当前更新周期j中,若第i段声纹信息的匹配率加权系数为Bi,i=1,2,…,N,则该N段声纹信息中的各匹配率加权系数应满足:
可以理解,该N段声纹信息中每一段声纹信息的时间加权系数Ai可参考上述步骤S12计算得到,故在此不再详述。
步骤S23,根据所述N段声纹信息中每一段声纹信息的时间加权系数、匹配率加权系数按照预设加权规则计算当前更新周期对应的加权声纹模型,并将所述加权声纹模型作为新的所述注册声纹模型,以用于对所述用户的验证。
在上述步骤S23中,对于当前更新周期j中的N段声纹信息,在分别计算得到第i段声纹信息Xi的时间加权系数Ai和匹配率加权系数Bi,i=1,…,N,于是按照如下预设加权规则计算得到当前更新周期j的N段声纹信息对应的加权声纹模型
对于上述公式,各段声纹信息的时间加权系数Ai与匹配率加权系数Bi的乘积Ai*Bi均为归一化处理后的数值。可以理解,乘积Ai*Bi为该段声纹信息Xi的总加权系数。
通过根据不断获取的新的声纹信息来对用于身份识别的注册声纹模型进行动态更新,兼顾了注册声纹模型变化的时间因素和匹配率因素,从而使得更新后的注册声纹模型具加合理、具有更高的鲁棒性,更加符合用户的声纹信息可能随时间而发生变化的客观规律等。
实施例3
请参照图5,本实施例提出一种注册声纹动态更新装置100,应用于设备终端,该注册声纹动态更新装置100包括:
声纹信息获取模块10,用于获取来自用户的语音数据,并按照预设语音处理规则对获取的每一段语音数据进行声纹特征提取以获取对应的声纹信息。
时间加权系数计算模块11,用于当获取到第N段声纹信息时,根据获取的N段声纹信息中每一段声纹信息的录制时间按照预设递减函数计算每一段声纹信息的时间加权系数;其中,所述录制时间越晚,得到的所述时间加权系数越大,N为大于等于2的自然数。
匹配率加权系数计算模块12,用于根据所述N段声纹信息中的每一段声纹信息与当前存储的注册声纹模型的差异计算每一段声纹信息的匹配率加权系数;其中,所述当前存储的注册声纹模型根据获取的N-1段声纹信息确定。
注册声纹模型更新模块13,用于根据所述N段声纹信息中每一段声纹信息的时间加权系数、匹配率加权系数按照预设加权规则计算对应的加权声纹模型,并将所述加权声纹模型作为新的所述注册声纹模型以用于对所述用户的验证。
可以理解,该注册声纹动态更新装置100对应于实施例1的注册声纹动态更新方法。实施例1中的可选项也适用于本实施例,这里不再详述。
实施例4
请参照图6,本实施例还提出一种注册声纹动态更新装置200,应用于设备终端,该注册声纹动态更新装置200包括:
声纹信息获取模块20,用于获取来自用户的语音数据,并按照预设语音处理规则对获取的每一段语音数据进行声纹特征提取,以获取对应的声纹信息。
时间加权系数计算模块21,用于每获取到一个更新周期的N段声纹信息时,根据所述N段声纹信息中每一段声纹信息的录制时间按照预设递减函数计算当前更新周期中的每一段声纹信息的时间加权系数;其中,所述录制时间越晚,得到的所述时间加权系数越大,N为大于等于2的自然数。
匹配率加权系数计算模块22,用于根据当前更新周期中的每一段声纹信息与当前存储的注册声纹模型的差异计算每一段声纹信息的匹配率加权系数;其中,所述当前存储的注册声纹模型根据上一更新周期的N段声纹信息确定。
注册声纹模型更新模块23,用于根据所述N段声纹信息中每一段声纹信息的时间加权系数、匹配率加权系数按照预设加权规则计算当前更新周期对应的加权声纹模型,并将所述加权声纹模型作为新的所述注册声纹模型,以用于对所述用户的验证。
可以理解,该注册声纹动态更新装置200对应于实施例2的注册声纹动态更新方法。实施例2中的可选项也适用于本实施例,这里不再详述。
本发明还提供了一种设备终端,该设备终端可包括但不限于手机、平板电脑、计算机等。该设备终端包括存储器和处理器,存储器可用于存储计算机程序,处理器通过运行所述计算机程序,从而使设备终端执行上述的注册声纹动态更新方法或者上述的注册声纹动态更新装置中的各个模块的功能。
存储器可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据设备终端的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
本发明还提供了一种计算机存储介质,用于储存上述设备终端中使用的所述计算机程序。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和结构图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,结构图和/或流程图中的每个方框、以及结构图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块或单元可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或更多个模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是智能手机、个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。
Claims (9)
1.一种注册声纹动态更新方法,其特征在于,包括:
获取来自用户的语音数据,并按照预设语音处理规则对获取的每一段语音数据进行声纹特征提取以获取对应的声纹信息;
当获取到第N段声纹信息时,根据获取的N段声纹信息中每一段声纹信息的录制时间按照预设递减函数计算每一段声纹信息的时间加权系数;其中,所述录制时间越晚,得到的所述时间加权系数越大,N为大于等于2的自然数;
根据所述N段声纹信息中的每一段声纹信息与当前存储的注册声纹模型的匹配率计算每一段声纹信息的匹配率加权系数,当所述匹配率越小,则所述匹配率加权系数越小,所述匹配率越大,则所述匹配率加权系数越大;其中,所述当前存储的注册声纹模型根据获取的N-1段声纹信息确定;
根据所述N段声纹信息中每一段声纹信息的时间加权系数、匹配率加权系数按照预设加权规则计算对应的加权声纹模型,并将所述加权声纹模型作为新的所述注册声纹模型,以用于对所述用户的验证;
2.根据权利要求1所述的注册声纹动态更新方法,其特征在于,还包括:N小于等于预设阈值M,其中,M为大于2的自然数;
当获取到第M+1段声纹信息时,计算所述M+1段声纹信息中每一段声纹信息的时间加权系数和匹配率加权系数;
根据每一段声纹信息的所述时间加权系数和所述匹配率加权系数的乘积计算每一段声纹信息的总加权系数;
对所述M+1段声纹信息中每一段声纹信息的总加权系数进行大小排序,并剔除所述总加权系数最小的那一段声纹信息;
对余下的M段声纹信息重新计算每一段声纹信息的时间加权系数和匹配率加权系数;
根据所述预设加权规则计算所述余下的M段声纹信息对应的加权声纹模型,并将所述加权声纹模型作为新的所述注册声纹模型。
5.根据权利要求1所述的注册声纹动态更新方法,其特征在于,所述“所述当前存储的注册声纹模型根据获取的N-1段声纹信息确定”包括:
若N=2,则将获取的首段声纹信息作为所述注册声纹模型;
若N>2,则将获取的N-1段声纹信息对应的加权声纹模型作为所述注册声纹模型。
7.根据权利要求1所述的注册声纹动态更新方法,其特征在于,基于文本相关和/或文本无关方式获取所述用户的语音数据;所述预设语音处理规则包括:
对获取的每一段语音数据进行帧划分预处理以得到对应的语音帧数据;
对所述语音帧数据进行时域或频域分析以得到基于特征参数描述的声纹信息;其中,所述特征参数包括美尔频域倒谱系数和/或线性预测系数。
8.一种注册声纹动态更新方法,其特征在于,包括:
获取来自用户的语音数据,并按照预设语音处理规则对获取的每一段语音数据进行声纹特征提取,以获取对应的声纹信息;
每获取到一个更新周期的N段声纹信息时,根据所述N段声纹信息中每一段声纹信息的录制时间按照预设递减函数计算当前更新周期中的每一段声纹信息的时间加权系数;其中,所述录制时间越晚,得到的所述时间加权系数越大,N为大于等于2的自然数;
根据当前更新周期中的每一段声纹信息与当前存储的注册声纹模型的匹配率计算每一段声纹信息的匹配率加权系数,当所述匹配率越小,则所述匹配率加权系数越小,所述匹配率越大,则所述匹配率加权系数越大;其中,所述当前存储的注册声纹模型根据上一更新周期的N段声纹信息确定;
根据所述N段声纹信息中每一段声纹信息的时间加权系数、匹配率加权系数按照预设加权规则计算当前更新周期对应的加权声纹模型,并将所述加权声纹模型作为新的所述注册声纹模型,以用于对所述用户的验证;
9.一种计算机存储介质,其特征在于,存储有计算机程序,在所述计算机程序被实施时,执行如权利要求1-8中任一项所述的注册声纹动态更新方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910696274.1A CN110400567B (zh) | 2019-07-30 | 2019-07-30 | 注册声纹动态更新方法及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910696274.1A CN110400567B (zh) | 2019-07-30 | 2019-07-30 | 注册声纹动态更新方法及计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110400567A CN110400567A (zh) | 2019-11-01 |
CN110400567B true CN110400567B (zh) | 2021-10-19 |
Family
ID=68326628
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910696274.1A Active CN110400567B (zh) | 2019-07-30 | 2019-07-30 | 注册声纹动态更新方法及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110400567B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11664033B2 (en) | 2020-06-15 | 2023-05-30 | Samsung Electronics Co., Ltd. | Electronic apparatus and controlling method thereof |
CN111862933A (zh) * | 2020-07-20 | 2020-10-30 | 北京字节跳动网络技术有限公司 | 用于生成合成语音的方法、装置、设备和介质 |
CN112118511A (zh) * | 2020-11-19 | 2020-12-22 | 北京声智科技有限公司 | 耳机降噪方法、装置、耳机及计算机可读存储介质 |
CN112331210B (zh) * | 2021-01-05 | 2021-05-18 | 太极计算机股份有限公司 | 一种语音识别装置 |
CN115699168A (zh) * | 2021-05-14 | 2023-02-03 | 华为技术有限公司 | 一种声纹管理方法及装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20040067573A (ko) * | 2003-01-24 | 2004-07-30 | 학교법인 영남학원 | 문맥독립형 화자식별방법 |
US7707032B2 (en) * | 2005-10-20 | 2010-04-27 | National Cheng Kung University | Method and system for matching speech data |
CN106782564B (zh) * | 2016-11-18 | 2018-09-11 | 百度在线网络技术(北京)有限公司 | 用于处理语音数据的方法和装置 |
CN108269575B (zh) * | 2018-01-12 | 2021-11-02 | 平安科技(深圳)有限公司 | 更新声纹数据的语音识别方法、终端装置及存储介质 |
CN108766444B (zh) * | 2018-04-09 | 2020-11-03 | 平安科技(深圳)有限公司 | 用户身份验证方法、服务器及存储介质 |
CN108734114A (zh) * | 2018-05-02 | 2018-11-02 | 浙江工业大学 | 一种结合面部和声纹的宠物识别方法 |
CN109635872B (zh) * | 2018-12-17 | 2020-08-04 | 上海观安信息技术股份有限公司 | 身份识别方法、电子设备及计算机程序产品 |
-
2019
- 2019-07-30 CN CN201910696274.1A patent/CN110400567B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110400567A (zh) | 2019-11-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110400567B (zh) | 注册声纹动态更新方法及计算机存储介质 | |
US9536525B2 (en) | Speaker indexing device and speaker indexing method | |
US20210183376A1 (en) | Speech recognition using neural networks | |
CN106683680B (zh) | 说话人识别方法及装置、计算机设备及计算机可读介质 | |
CN107680582B (zh) | 声学模型训练方法、语音识别方法、装置、设备及介质 | |
US9536547B2 (en) | Speaker change detection device and speaker change detection method | |
CN107665705B (zh) | 语音关键词识别方法、装置、设备及计算机可读存储介质 | |
US9368116B2 (en) | Speaker separation in diarization | |
US8160877B1 (en) | Hierarchical real-time speaker recognition for biometric VoIP verification and targeting | |
US9646613B2 (en) | Methods and systems for splitting a digital signal | |
CN111081279A (zh) | 语音情绪波动分析方法及装置 | |
CN110265035B (zh) | 一种基于深度学习的说话人识别方法 | |
WO2021042537A1 (zh) | 语音识别认证方法及系统 | |
US20230401338A1 (en) | Method for detecting an audio adversarial attack with respect to a voice input processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium | |
US11837236B2 (en) | Speaker recognition based on signal segments weighted by quality | |
CN112382300A (zh) | 声纹鉴定方法、模型训练方法、装置、设备及存储介质 | |
CN110570870A (zh) | 一种文本无关的声纹识别方法、装置及设备 | |
WO2019244298A1 (ja) | 属性識別装置、属性識別方法、およびプログラム記録媒体 | |
US20230069908A1 (en) | Recognition apparatus, learning apparatus, methods and programs for the same | |
CN106910494B (zh) | 一种音频识别方法和装置 | |
Pandey et al. | Cell-phone identification from audio recordings using PSD of speech-free regions | |
CN111477248B (zh) | 一种音频噪声检测方法及装置 | |
JP7107377B2 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
CN117153185B (zh) | 通话处理方法、装置、计算机设备和存储介质 | |
CN113223536B (zh) | 声纹识别方法、装置及终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |