CN104616655B - 声纹模型自动重建的方法和装置 - Google Patents

声纹模型自动重建的方法和装置 Download PDF

Info

Publication number
CN104616655B
CN104616655B CN201510061721.8A CN201510061721A CN104616655B CN 104616655 B CN104616655 B CN 104616655B CN 201510061721 A CN201510061721 A CN 201510061721A CN 104616655 B CN104616655 B CN 104616655B
Authority
CN
China
Prior art keywords
speech data
time window
time
data
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510061721.8A
Other languages
English (en)
Other versions
CN104616655A (zh
Inventor
郑方
李蓝天
邬晓钧
别凡虎
王军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing d-Ear Technologies Co., Ltd.
Original Assignee
BEIJING D-EAR TECHNOLOGIES Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING D-EAR TECHNOLOGIES Co Ltd filed Critical BEIJING D-EAR TECHNOLOGIES Co Ltd
Priority to CN201510061721.8A priority Critical patent/CN104616655B/zh
Publication of CN104616655A publication Critical patent/CN104616655A/zh
Priority to PCT/CN2015/083540 priority patent/WO2016123900A1/zh
Priority to KR1020177021342A priority patent/KR101963993B1/ko
Priority to EP15880855.0A priority patent/EP3255631B1/en
Priority to JP2017539339A priority patent/JP6502512B2/ja
Priority to US15/542,428 priority patent/US10540980B2/en
Application granted granted Critical
Publication of CN104616655B publication Critical patent/CN104616655B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/06Authentication
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/45Structures or tools for the administration of authentication
    • G06F21/46Structures or tools for the administration of authentication by designing passwords or checking the strength of passwords
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • H04L63/083Network architectures or network communication protocols for network security for authentication of entities using passwords
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • H04L63/0861Network architectures or network communication protocols for network security for authentication of entities using biometrical features, e.g. fingerprint, retina-scan

Abstract

本申请提供了一种声纹模型自动重建的方法和装置,包括:将语音数据以时间点为标签构建时变数据库,其中,所述时变数据库包括:参数化的语音数据、语音数据对应的音素和语音数据对应的音素的空间分布信息;以时间窗管道为基本单元,按照语音数据的时间顺序获取时变数据库中参数化的语音数据;确定获取的参数化的语音数据对应的音素的空间分布信息,根据确定的所述音素的空间分布信息筛选时间窗管道中的语音数据,获得筛选后的多组语音数据;使用筛选后的多组语音数据更新时间窗管道中的语音数据;使用更新后的时间窗管道中的语音数据自动重建声纹模型。从而解决了由于时间变化导致说话人模型波动,进而导致话说人识别正确率低的问题。

Description

声纹模型自动重建的方法和装置
技术领域
本申请涉及计算机及信息服务技术领域,特别是涉及一种声纹模型自动重建的方法和装置。
背景技术
说话人识别技术,又称为声纹识别技术,主要是基于语音中说话人包含的个性特征的信息,利用计算机以及各种信息识别技术,自动地实现说话人身份的确认。
近几年来,随着互联网的飞速发展,语音作为一种非接触性信息载体,人们可以依靠各种移动终端设备,例如:手机、麦克风和IP电话等,随时随地的完成语音采集,并通过网络传输和后台服务器来实现人机交互和说话人身份识别。
目前说话人识别最为主流的技术路线是GMM-UBM框架或者全变量子空间的i-vector模型。对于GMM-UBM框架采用混合高斯模型(Gaussian Mixture Model,GMM)模拟每个说话人模型及单独的通用背景模型(Universal Background Model,UBM),每个说话人的数十秒语音借助充分语音训练得到的通用背景模型(UBM),通过模型自适应的方法得到能够反映说话人自身特征的高斯混合模型(GMM),并使用GMM-UBM进行说话人身份确定。而对于i-vector模型则是预先通过最大期望EM算法迭代求得一个线性变换矩阵T,语音片段借助该线性变换矩阵训练得到对应的i-vector模型,并使用该i-vector模型进行说话人身份确定。
上述框架在进行说话人身份确定时存在以下问题:首先,从生理学角度看,说话人的生理特性和发音特性是随时间不断发生变化的。例如,声道长度的变化,基音频率的变化等。这种变化分为短期变化(一天内不同时段的变化)、中期变化(一年内的变化)、长期变化(年龄段的变化),由于时间变化的不确定性,无法得到一个稳定且鲁棒的说话人模型,从而在进行说话人身份确定时,存在说话人识别正确率低的问题,同时,如果持续性的让用户提供大量的建模语音必然会大大影响用户的使用体验。
其次,录音的通讯设备或者移动终端,由于长时间的使用也会出现设备老化、信号不稳等情况,在一定程度上影响到录音准确性和保真度。
发明内容
本申请提供一种声纹模型自动重建的方法和装置,以解决由于时间变化导致说话人模型波动,进而导致话说人识别正确率低的问题。
为了解决上述问题,本申请公开了一种声纹模型自动重建的方法,包括:
将语音数据以时间点为标签构建时变数据库,其中,所述时变数据库包括:参数化的语音数据、语音数据对应的音素和语音数据对应的音素的空间分布信息;
以时间窗管道为基本单元,按照语音数据的时间顺序获取时变数据库中参数化的语音数据,其中,所述时间窗管道包括多组语音数据;
确定获取的参数化的语音数据对应的音素的空间分布信息,根据确定的所述音素的空间分布信息筛选时间窗管道中的语音数据,获得筛选后的多组语音数据;
使用筛选后的多组语音数据更新时间窗管道中的语音数据;
使用更新后的时间窗管道中的语音数据建立时间窗管道的声纹模型。
优选地,将语音数据以时间点为标签构建时变数据库的步骤包括:
使用美尔频域倒谱系数将所述语音数据以语音数据帧为基本单位进行参数化处理,获取参数化的语音数据;
使用语音识别器识别语音数据,获得语音数据对应的音素;
根据参数化的语音数据和语音数据对应的音素构建时变数据库。
优选地,根据确定的所述音素的空间分布的信息筛选时间窗管道中的语音数据,获得筛选后的多组语音数据的步骤包括:
当新的参数化的语音数据进入时间窗管道中时,将新的参数化的语音数据的音素空间分布信息分别与时间窗管道中的原语音数据对应的音素的空间分布信息进行匹配,将匹配概率最高的时间窗管道中的原语音数据更新为新的参数化的语音数据;
根据更新结果获得筛选后的多组语音数据。
优选地,还包括:当时间窗管道中的语音数据更新频率超过一定阈值时,采用模型自适应的方式创建声纹模型。
优选地,所述时间窗管道中可容纳的语音数据的数据量为10至20段语音数据,各段语音数据可以是文本相关或文本无关。
为了解决上述问题,本申请还公开了一种声纹模型自动重建的装置,包括:
构建模块,用于将语音数据以时间点为标签构建时变数据库,其中,所述时变数据库包括:参数化的语音数据、语音数据对应的音素和语音数据对应的音素的空间分布信息;
获取模块,用于以时间窗管道为基本单元,按照语音数据的时间顺序获取时变数据库中参数化的语音数据,其中,所述时间窗管道包括多组语音数据;
确定模块,用于确定获取的参数化的语音数据对应的音素的空间分布信息,根据确定的所述音素的空间分布的信息筛选时间窗管道中的语音数据,获得筛选后的多组语音数据;
筛选模型,用于使用筛选后的多组语音数据更新时间窗管道中的语音数据;
建立模块,用于使用更新后的时间窗管道中的语音数据建立时间窗管道的声纹模型。
优选地,构建模块在将语音数据以时间点为标签构建时变数据库包括:
使用美尔频域倒谱系数将所述语音数据按照语音数据帧进行参数化处理,获取参数化的语音数据;
使用语音识别器识别语音数据,获得语音数据对应的音素;
根据参数化的语音数据和语音数据对应的音素构建时变数据库。
优选地,确定模块在根据确定的所述音素的空间分布的信息筛选时间窗管道中的语音数据,获得筛选后的多组语音数据包括:
当新的参数化的语音数据进入时间窗管道中时,将新的参数化的语音数据的音素空间分布信息分别与时间窗管道中的原语音数据对应的音素的空间分布信息进行匹配,将匹配概率最高的时间窗管道中的原语音数据更新为新的参数化的语音数据;
根据更新结果获得筛选后的多组语音数据。
优选地,还包括:当时间窗管道中的语音数据更新频率超过一定阈值时,采用模型自适应的方式创建声纹模型。
优选地,所述时间窗管道中可容纳的语音数据的数据量为10至20段语音数据,各段语音数据中的文本之间文本相关或文本无关。
与现有技术相比,本申请包括以下优点:
本申请首先,将语音数据以时间点为标签构建时变数据库,使用时变数据库存储用户各个时间段的语音数据,同时将语音数据进行语音数据帧的参数化处理,从而大大降低了时变数据库的存储成本。
其次,本申请通过以时间窗管道为基本单元,按照语音数据的时间顺序获取时变数据库中的参数化的语音数据,根据确定出的参数化的语音数据对应的音素的空间分布信息筛选时间窗管道中的语音数据,获得筛选后的多组语音数据,使用筛选后的多组语音数据更新时间窗管道中的语音数据,并使用更新后的时间窗管道中的语音数据建立时间窗管道的声纹模型,通过实时获取时间窗管道中当前用户的最新语音数据,并使用最新的语音数据生成声纹模型,保证了声纹模型对说话人识别的准确性,同时也维持了系统的鲁棒性。
附图说明
图1是本申请实施例一中的一种声纹模型自动重建的方法的流程图;
图2是本申请实施例二中的一种声纹模型自动重建的方法的流程图;
图3是本申请语音数据帧端点检测的示意图;
图4是本申请时变数据库的存储方式示意图;
图5是本申请语音信号预处理模块处理语音数据的示意图;
图6是本申请时间窗管道中的更新语音数据的示意图;
图7是本申请参数化的语音数据帧对应的音素的空间分布信息示意图;
图8是实现本申请声纹模型自动重建方法的示意图;
图9是本申请实施例三中的一种声纹模型自动重建装置的结构框图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
参照图1,示出了本申请一种声纹模型自动重建的方法,包括:
步骤101:将语音数据以时间点为标签构建时变数据库,其中,所述时变数据库包括:参数化的语音数据、语音数据对应的音素、语音数据对应的音素的空间分布信息和每个音素对应的语音数据帧,其中,语音数据对应参数化的语音数据。
合理的存储和表示时变的语音数据是整个发明实现的第一步,因此,时变数据库的设计和存储方法是至关重要的。由此本申请提出将语音数据以时间为标签构建用户的时变数据库。
步骤102:以时间窗管道为基本单元,按照语音数据的时间顺序获取时变数据库中参数化的语音数据,其中,所述时间窗管道包括多组语音数据。
时间窗管道是指根据实际情况设定合理连续时间长度的数据缓冲区,其中的语音数据用于声纹模型训练,该数据缓冲区称为时间窗管道。随着时间的推移,时间窗管道中的语音数据同步更新,使得声纹模型得以重新训练,从而实现新老声纹模型的更迭。
时间窗管道中可容纳的语音数据的数据量10至20段语音数据,根据实际情况各段语音数据可以是文本相关的,也可以是文本无关的。
根据语音内容,说话人识别可以分为文本相关(Text-Dependent)和文本无关(Text-Independent)两种方式。文本相关的说话人识别要求说话人按规定的文本内容发音。而文本无关的说话人识别则不需要事先确定语音内容。文本相关可以直接利用规定文本中的音节或者音素等语音信息,通常文本相关优于文本无关的系统,然而,在很多实际应用中无法使用特定的文本,而且人类能够不依赖说话的内容而辨别说话人。
步骤103:确定获取的参数化的语音数据对应的音素的空间分布信息,根据确定的所述音素的空间分布的信息筛选时间窗管道中的语音数据,获得筛选后的多组语音数据。
步骤104:使用筛选后的多组语音数据更新时间窗管道中的语音数据。
步骤105:使用更新后的时间窗管道中的语音数据建立时间窗管道的声纹模型。
使用建立的声纹模型对用户进行说话人识别。
通过本实施例,首先,将语音数据以时间点为标签构建时变数据库,使用时变数据库存储用户各个时间段的语音数据,同时将语音数据进行语音数据帧的参数化处理,从而大大降低了时变数据库的存储成本。
其次,本申请通过以时间窗管道为基本单元,按照语音数据的时间顺序获取时变数据库中的参数化的语音数据,根据确定出的参数化的语音数据对应的音素的空间分布信息筛选时间窗管道中的语音数据,获得筛选后的多组语音数据,使用筛选后的多组语音数据更新时间窗管道中的语音数据,并使用更新后的时间窗管道中的语音数据建立时间窗管道的声纹模型,通过实时获取时间窗管道中当前用户的最新语音数据,并使用最新的语音数据生成声纹模型,保证了声纹模型对说话人识别的准确性,同时也维持了系统的鲁棒性。
参照图2,示出了本申请实施例二中的一种声纹模型自动重建的方法的流程图。
步骤201:构建时变数据库。
在时变数据库的构建中,单纯的存储语音数据文件不仅难以组织而且还占用大量存储空间,不利于时变数据库的管理维护和持续性存储。因此,在时变数据库的前端加入语音信号预处理模块,语音信号预处理模块的作用是删除语音数据中的静音部分语音、消减噪声影响。
语音信号预处理模块对语音数据进行端点检测(Voice Activity Detection,VDA),使用基于能量的语音端点检测方法对语音数据进行端点检测,检测方法包括:以语音数据帧为单位,依次统计每帧语音数据帧中各采样点对应的能量,并将能量低于规定阈值的语音数据删除,保留能量较高且稳定的语音数据,如图3所示。
使用美尔频域倒谱系数MFCC将所述语音数据按照语音数据帧进行参数化处理,获取参数化的语音数据。
参数化处理过程中,使用公式(1),实现0阶MFCC特征到对应一阶Delta和二阶Delta特征的转换。
pFrame[i]=(2*(f2[i]-b2[i])+(f1[i]-b1[i]))/10. (1)
其中,pFrame[i]表示参数化的语音数据帧,f1[i]、f2[i]分别代表第i帧语音的前面第一帧和前面第二帧的特征值;b1[i]、b2[i]分别代表第i帧语音的后面第一帧和后面第二帧的特征值。二阶Delta则可在一阶Delta的基础上通过公式(1)迭代即可求得参数化的语音数据,以此获取语音帧的前后连续关系
使用语音识别器识别语音数据,获得语音数据对应的音素;
使用音素匹配器识别语音数据帧,获得语音数据帧对应的音素的空间分布信息。
根据参数化的语音数据、语音数据帧对应的音素的空间分布信息和语音数据对应的音素构建时变数据库。
构建的时变数据库的存储方式如图4所示,其中,语音数据与参数化的语音数据具有对应关系,语音数据与语音数据的音素也就有对应关系,通过语音数据的关系可以得到参数化的语音数据与语音数据的音素也具有相应的对应关系,并且每个音素与语音数据帧也具有相应的对应关系。本申请的时变数据库采用树形的存数结构,便于时变数据库的管理,方便查询和检错。
基于上述方法,参见图5示出了实现本方法的应用实例。以一条wav格式1Mb大小的语音数据为例。首先,对1M语音数据进行端点检测,获得稳定的语音数据,即600Kb的语音数据。其次,语音数据以帧为单位,使用美尔频域倒谱系数MFCC将语音数据按照语音数据帧进行参数化处理,获取参数化的语音数据,即参数化的语音数据为140Kb。再次,将参数化的语音数据保存至时变数据库中。由此可知,通过上次处理该1M的语音数据仅为140Kb,节省存储空间近10倍。
步骤202:以时间窗管道为基本单元,按照语音数据的时间顺序获取时变数据库中参数化的语音数据,其中,所述时间窗管道包括多组语音数据。
步骤203:确定获取的参数化的语音数据对应的音素的空间分布信息,根据确定的所述音素的空间分布的信息筛选时间窗管道中的语音数据,获得筛选后的多组语音数据。
参数图6示出了本申请时间窗管道中的更新语音数据的示意图,具体包括:
当新的参数化的语音数据601进入时间窗管道中时,将新的参数化的语音数据的音素空间分布信息分别与时间窗管道中的原语音数据对应的音素的空间分布信息602-605进行匹配,也即将新的参数化的语音数据601与原语音数据602-605分别进行匹配,经过匹配后,得出新的参数化的语音数据与原语音数据605的匹配概率最高,因此将匹配概率最高的时间窗管道中的原语音数据605更新为新的参数化的语音数据,并将时间窗管道中的原语音数据605删除,根据更新结果获得筛选后的多组语音数据。
尽管实时获取到用户最新的语音数据,但是如果不考虑音素空间的分布信息,直接使用这些语音数据进行声纹建模是不合理的。例如,对于0到9的数字说话人识别系统而言,如果不考虑数字的分布,直接将时间窗管道的语音数据用于建立声纹模型,容易出现数字模型分布不均衡的现象。如图7所示,如果仅采用包含1、3、5、8数字的参数化的语音数据帧进行模型重建,显然会逐渐导致用户模型的畸变。在用户读入0、2、4、6、7、9数字进行验证识别时,很大程度上采用重建后的模型会比重建前的模型的识别正确率低。
步骤204:使用筛选后的多组语音数据更新时间窗管道中的语音数据,也即时间窗管道中的语音数据601-604。
步骤205:使用更新后的时间窗管道中的语音数据建立时间窗管道的声纹模型。
通过本实施例,首先,将语音数据以时间点为标签构建时变数据库,使用时变数据库存储用户各个时间段的语音数据,同时将语音数据进行语音数据帧的参数化处理,从而大大降低了时变数据库的存储成本。
其次,本申请通过以时间窗管道为基本单元,按照语音数据的时间顺序获取时变数据库中的参数化的语音数据帧,根据确定出的参数化的语音数据帧对应的音素的空间分布信息筛选时间窗管道中的语音数据,获得筛选后的多组语音数据,使用筛选后的多组语音数据更新时间窗管道中的语音数据,并使用更新后的时间窗管道中的语音数据建立时间窗管道的声纹模型,通过实时获取时间窗管道中当前用户的最新语音数据,并使用最新的语音数据生成声纹模型,保证了声纹模型对说话人识别的准确性,同时也维持了系统的鲁棒性。
参照图8示出了本申请声纹模型自动重建方法的示意图,包括:实施例一和实施例二的操作步骤,具体的,包括:
步骤801:使用语音识别器识别语音数据,获得语音数据对应的音素。
步骤802:使用美尔频域倒谱系数将所述语音数据按照语音数据帧进行参数化处理,获取参数化的语音数据。
步骤803:将语音数据对应的音素和参数化的语音数据保存到时变数据库中。
在实际应用中,步骤801和步骤802可以同时进行,也可以先执行步骤801再执行步骤802,或先执行步骤802再执行步骤801,对此本申请不作具体限制。
步骤804:使用音素匹配器确定获取的参数化的语音数据对应的音素的空间分布信息,根据确定的所述音素的空间分布信息筛选时间窗管道中的语音数据,获得筛选后的多组语音数据。
步骤805:使用筛选后的多组语音数据更新时间窗管道中的语音数据。
步骤806:使用更新后的时间窗管道中的语音数据建立时间窗管道的声纹模型。
进一步的,语音数据分别经过语音识别为了最大化地实时地跟踪用户的发音状态,训练更加准确的声纹模型,当时间窗管道中的语音数据更新频率超过一定阈值时,采用模型自适应的方式创建声纹模型,即将已知的声纹模型借助少量的最新的语音数据进行模型重建。该方法的优点在于解决训练数据少的问题,能够最大程度的利用时变更新语音数据;此外,其自适应效率相比声纹模型训练运算更快,效率更高。
当时变数据库中的更新频率较快时,或者说当用户使用系统的频率较高时,在一个时间窗管道中的更新语音数据的速度较快,可以采用直接重新训练的策略,即将更新后的时间窗内的语音数据直接进行声纹建模的自动重建。该方法的优点在于避免了重复的自适应带来的模型不稳定性,并且直接重新训练得到的声纹模型也更能准确地反映用户当前的声学特性。
针对上述两种模型重建策略,根据实际情况设定时变数据库更新频率阈值。例如,假设以一个星期为一个周期,我们首先判断在以一个星期内新增时变语音的数量N,如果N达到一个时间窗的长度,那可以采用更新后的时间窗内的语音数据直接进行声纹建模的自动重建;反之,采用模型自适应的方式创建声纹模型。
基于上述方法实施例的说明,本申请还提供了相应的一种声纹模型自动重建的装置的实施例,来实现上述方法实施例所述的内容。
参见图9,示出了本申请实施例三中的一种声纹模型自动重建的装置的结构框图,具体可以包括:
构建模块901,用于将语音数据以时间点为标签构建时变数据库,其中,所述时变数据库包括:参数化的语音数据、语音数据对应的音素、和语音数据对应的音素的空间分布信息;
获取模块902,用于以时间窗管道为基本单元,按照语音数据的时间顺序获取时变数据库中参数化的语音数据,其中,所述时间窗管道包括多组语音数据;
确定模块903,用于确定获取的参数化的语音数据对应的音素的空间分布信息,根据确定的所述音素的空间分布的信息筛选时间窗管道中的语音数据,获得筛选后的多组语音数据;
筛选模块904,用于使用筛选后的多组语音数据更新时间窗管道中的语音数据;
建立模块905,用于使用更新后的时间窗管道中的语音数据建立时间窗管道的声纹模型。
优选地,构建模块在将语音数据以时间点为标签构建时变数据库包括:
使用美尔频域倒谱系数将所述语音数据按照语音数据帧进行参数化处理,获取参数化的语音数据;
使用语音识别器识别语音数据,获得语音数据对应的音素;
根据参数化的语音数据和语音数据对应的音素构建时变数据库。
优选地,确定模块在根据确定的所述音素的空间分布的信息筛选时间窗管道中的语音数据,获得筛选后的多组语音数据包括:
当新的参数化的语音数据进入时间窗管道中时,将新的参数化的语音数据的音素空间分布信息分别与时间窗管道中的原语音数据对应的音素的空间分布信息进行匹配,将匹配概率最高的时间窗管道中的原语音数据更新为新的参数化的语音数据;
根据更新结果获得筛选后的多组语音数据。
优选地,所述装置还包括:
当时间窗管道中的语音数据更新频率超过一定阈值时,采用模型自适应的方式创建声纹模型。
优选地,所述时间窗管道中可容纳的语音数据的数据量为10至20段的语音数据,根据实际情况各段语音数据可以是文本相关的,也可以是文本无关的。
综上所述,本申请实施例一种声纹模型自动重建的装置主要包括以下优点:首先,将语音数据以时间点为标签构建时变数据库,使用时变数据库存储用户各个时间段的语音数据,同时将语音数据进行语音数据帧的参数化处理,从而大大降低了时变数据库的存储成本。
其次,通过以时间窗管道为基本单元,按照语音数据的时间顺序获取时变数据库中的参数化的语音数据,根据确定出的参数化的语音数据对应的音素的空间分布信息筛选时间窗管道中的语音数据,获得筛选后的多组语音数据,使用筛选后的多组语音数据更新时间窗管道中的语音数据,并使用更新后的时间窗管道中的语音数据建立时间窗管道的声纹模型,通过实时获取时间窗管道中当前用户的最新语音数据,并使用最新的语音数据生成声纹模型,保证了声纹模型对说话人识别的准确性,同时也维持了系统的鲁棒性。
对于系统实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
以上对本申请所提供的一种声纹模型自动重建的方法和装置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种声纹模型自动重建的方法,其特征在于,包括:
将语音数据以时间点为标签构建时变数据库,其中,所述时变数据库包括:参数化的语音数据、语音数据对应的音素和语音数据对应的音素的空间分布信息;
以时间窗管道为基本单元,按照语音数据的时间顺序获取时变数据库中参数化的语音数据,其中,所述时间窗管道包括多组语音数据;
确定获取的参数化的语音数据对应的音素的空间分布信息,根据确定的所述音素的空间分布信息筛选时间窗管道中的语音数据,获得筛选后的多组语音数据;
使用筛选后的多组语音数据更新时间窗管道中的语音数据;
使用更新后的时间窗管道中的语音数据建立时间窗管道的声纹模型。
2.根据权利要求1所述的方法,其特征在于,将语音数据以时间点为标签构建时变数据库的步骤包括:
使用美尔频域倒谱系数将所述语音数据以语音数据帧为基本单位进行参数化处理,获取参数化的语音数据;
使用语音识别器识别语音数据,获得语音数据对应的音素;
根据参数化的语音数据、语音数据对应的音素和语音数据帧对应的音素的空间分布信息构建时变数据库。
3.根据权利要求1所述的方法,其特征在于,根据确定的所述音素的空间分布的信息筛选时间窗管道中的语音数据,获得筛选后的多组语音数据的步骤包括:
当新的参数化的语音数据进入时间窗管道中时,将新的参数化的语音数据的音素空间分布信息分别与时间窗管道中的原语音数据对应的音素的空间分布信息进行匹配,将匹配概率最高的时间窗管道中的原语音数据更新为新的参数化的语音数据;
根据更新结果获得筛选后的多组语音数据。
4.根据权利要求1所述的方法,其特征在于,还包括:
当时间窗管道中的语音数据更新频率超过一定阈值时,采用模型自适应的方式创建声纹模型。
5.根据权利要求1所述的方法,其特征在于,所述时间窗管道中可容纳的语音数据的数据量为10至20段语音数据,各段语音数据可以是文本相关或文本无关。
6.一种声纹模型自动重建的装置,其特征在于,包括:
构建模块,用于将语音数据以时间点为标签构建时变数据库,其中,所述时变数据库包括:参数化的语音数据、语音数据对应的音素和语音数据对应的音素的空间分布信息;
获取模块,用于以时间窗管道为基本单元,按照语音数据的时间顺序获取时变数据库中参数化的语音数据,其中,所述时间窗管道包括多组语音数据;
确定模块,用于确定获取的参数化的语音数据对应的音素的空间分布信息,根据确定的所述音素的空间分布的信息筛选时间窗管道中的语音数据,获得筛选后的多组语音数据;
筛选模块,用于使用筛选后的多组语音数据更新时间窗管道中的语音数据;
建立模块,用于使用更新后的时间窗管道中的语音数据建立时间窗管道的声纹模型。
7.根据权利要求6所述的装置,其特征在于,构建模块在将语音数据以时间点为标签构建时变数据库包括:
使用美尔频域倒谱系数将所述语音数据以语音数据帧为基本单位进行参数化处理,获取参数化的语音数据;
使用语音识别器识别语音数据,获得语音数据对应的音素;
根据参数化的语音数据、语音数据对应的音素和语音数据帧对应的音素的空间分布信息构建时变数据库。
8.根据权利要求6所述的装置,其特征在于,确定模块在根据确定的所述音素的空间分布的信息筛选时间窗管道中的语音数据,获得筛选后的多组语音数据包括:
当新的参数化的语音数据进入时间窗管道中时,将新的参数化的语音数据的音素空间分布信息分别与时间窗管道中的原语音数据对应的音素的空间分布信息进行匹配,将匹配概率最高的时间窗管道中的原语音数据更新为新的参数化的语音数据;
根据更新结果获得筛选后的多组语音数据。
9.根据权利要求6所述的装置,其特征在于,还包括:
当时间窗管道中的语音数据更新频率超过一定阈值时,采用模型自适应的方式创建声纹模型。
10.根据权利要求6所述的装置,其特征在于,所述时间窗管道中可容纳的语音数据的数据量为10至20段语音数据,各段语音数据可以是文本相关或文本无关。
CN201510061721.8A 2015-02-05 2015-02-05 声纹模型自动重建的方法和装置 Active CN104616655B (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN201510061721.8A CN104616655B (zh) 2015-02-05 2015-02-05 声纹模型自动重建的方法和装置
PCT/CN2015/083540 WO2016123900A1 (zh) 2015-02-05 2015-07-08 基于动态密码语音的具有自学习功能的身份认证系统及方法
KR1020177021342A KR101963993B1 (ko) 2015-02-05 2015-07-08 동적 패스워드 음성에 기반한 자체 학습 기능을 구비한 신분 인증 시스템 및 방법
EP15880855.0A EP3255631B1 (en) 2015-02-05 2015-07-08 Dynamic password voice based identity authentication system and method having self-learning function
JP2017539339A JP6502512B2 (ja) 2015-02-05 2015-07-08 動的パスワード音声に基づいた自己学習機能を有する身分認証システム及び方法
US15/542,428 US10540980B2 (en) 2015-02-05 2015-07-08 Dynamic security code speech-based identity authentication system and method having self-learning function

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510061721.8A CN104616655B (zh) 2015-02-05 2015-02-05 声纹模型自动重建的方法和装置

Publications (2)

Publication Number Publication Date
CN104616655A CN104616655A (zh) 2015-05-13
CN104616655B true CN104616655B (zh) 2018-01-16

Family

ID=53151076

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510061721.8A Active CN104616655B (zh) 2015-02-05 2015-02-05 声纹模型自动重建的方法和装置

Country Status (6)

Country Link
US (1) US10540980B2 (zh)
EP (1) EP3255631B1 (zh)
JP (1) JP6502512B2 (zh)
KR (1) KR101963993B1 (zh)
CN (1) CN104616655B (zh)
WO (1) WO2016123900A1 (zh)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104616655B (zh) * 2015-02-05 2018-01-16 北京得意音通技术有限责任公司 声纹模型自动重建的方法和装置
CN106782564B (zh) * 2016-11-18 2018-09-11 百度在线网络技术(北京)有限公司 用于处理语音数据的方法和装置
CN107492379B (zh) * 2017-06-30 2021-09-21 百度在线网络技术(北京)有限公司 一种声纹创建与注册方法及装置
CN107274890B (zh) * 2017-07-04 2020-06-02 清华大学 声纹谱提取方法及装置
CN107274883B (zh) * 2017-07-04 2020-06-02 清华大学 语音信号重构方法及装置
CN108257604B (zh) * 2017-12-08 2021-01-08 平安普惠企业管理有限公司 语音识别方法、终端设备及计算机可读存储介质
CN108269575B (zh) * 2018-01-12 2021-11-02 平安科技(深圳)有限公司 更新声纹数据的语音识别方法、终端装置及存储介质
CN108428455A (zh) * 2018-02-13 2018-08-21 上海爱优威软件开发有限公司 声纹特征的采集方法及系统
US10789959B2 (en) * 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
KR102079303B1 (ko) * 2018-06-15 2020-02-19 서울대학교산학협력단 기계학습을 이용한 음성 인식 OTP(One Time Password)인증 방법 및 시스템
US11935348B2 (en) * 2018-07-24 2024-03-19 Validvoice, Llc System and method for biometric access control
KR102621881B1 (ko) 2018-09-05 2024-01-05 주식회사 케이티 상담사와 상담하는 화자를 인증하는 서버 및 방법
CN110880325B (zh) * 2018-09-05 2022-06-28 华为技术有限公司 身份识别方法及设备
US11004454B1 (en) * 2018-11-06 2021-05-11 Amazon Technologies, Inc. Voice profile updating
CN109473108A (zh) * 2018-12-15 2019-03-15 深圳壹账通智能科技有限公司 基于声纹识别的身份验证方法、装置、设备及存储介质
CN109683938B (zh) * 2018-12-26 2022-08-02 思必驰科技股份有限公司 用于移动终端的声纹模型升级方法和装置
US20200220869A1 (en) * 2019-01-08 2020-07-09 Fidelity Information Services, Llc Systems and methods for contactless authentication using voice recognition
WO2020163053A1 (en) * 2019-02-06 2020-08-13 Google Llc Training machine-learned models for perceptual tasks using biometric data
KR20210054800A (ko) * 2019-11-06 2021-05-14 엘지전자 주식회사 사용자의 음성샘플 수집
CN110992932B (zh) * 2019-12-18 2022-07-26 广东睿住智能科技有限公司 一种自学习的语音控制方法、系统及存储介质
CN111091837A (zh) * 2019-12-27 2020-05-01 中国人民解放军陆军工程大学 一种基于在线学习的时变声纹认证方法及系统
CN111341325A (zh) * 2020-02-13 2020-06-26 平安科技(深圳)有限公司 声纹识别方法、装置、存储介质、电子装置
CN111341326B (zh) * 2020-02-18 2023-04-18 RealMe重庆移动通信有限公司 语音处理方法及相关产品
CN111613228A (zh) * 2020-04-15 2020-09-01 上海雷尘智能科技有限公司 一种基于声纹码的身份与内容识别系统
US11664033B2 (en) * 2020-06-15 2023-05-30 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof
CN111785284A (zh) * 2020-08-19 2020-10-16 科大讯飞股份有限公司 基于音素辅助的文本无关声纹识别方法、装置以及设备
CN112201256B (zh) * 2020-10-09 2023-09-19 深圳前海微众银行股份有限公司 声纹分割方法、装置、设备及可读存储介质
CN112951245B (zh) * 2021-03-09 2023-06-16 江苏开放大学(江苏城市职业学院) 一种融入静态分量的动态声纹特征提取方法
CN113192512B (zh) * 2021-03-25 2022-01-07 深圳市声扬科技有限公司 声纹认证方法、装置、计算机设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5687287A (en) * 1995-05-22 1997-11-11 Lucent Technologies Inc. Speaker verification method and apparatus using mixture decomposition discrimination
CN102024455A (zh) * 2009-09-10 2011-04-20 索尼株式会社 说话人识别系统及其方法
CN102238189A (zh) * 2011-08-01 2011-11-09 安徽科大讯飞信息科技股份有限公司 声纹密码认证方法及系统
CN102760434A (zh) * 2012-07-09 2012-10-31 华为终端有限公司 一种声纹特征模型更新方法及终端
CN103632667A (zh) * 2013-11-25 2014-03-12 华为技术有限公司 声学模型优化方法、装置及语音唤醒方法、装置和终端

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1020883A (ja) * 1996-07-02 1998-01-23 Fujitsu Ltd ユーザ認証装置
US6519561B1 (en) 1997-11-03 2003-02-11 T-Netix, Inc. Model adaptation of neural tree networks and other fused models for speaker verification
US6941274B1 (en) * 1997-11-28 2005-09-06 Diebold, Incorporated Automated transaction machine
JP2000172296A (ja) * 1998-12-08 2000-06-23 Matsushita Electric Ind Co Ltd 話者照合装置および電子メールシステム
KR100297833B1 (ko) * 1999-07-07 2001-11-01 윤종용 비고정 연속 숫자음을 이용한 화자 검증 시스템 및 그 방법
JP4244524B2 (ja) * 2001-02-16 2009-03-25 カシオ計算機株式会社 音声認証装置、音声認証方法、及びプログラム
US20030037004A1 (en) * 2001-08-14 2003-02-20 Chuck Buffum Dialog-based voiceprint security for business transactions
JP4440502B2 (ja) * 2001-08-31 2010-03-24 富士通株式会社 話者認証システム及び方法
JP4143541B2 (ja) * 2001-12-12 2008-09-03 インターナショナル・ビジネス・マシーンズ・コーポレーション 動作モデルを使用して非煩雑的に話者を検証するための方法及びシステム
US7064652B2 (en) * 2002-09-09 2006-06-20 Matsushita Electric Industrial Co., Ltd. Multimodal concierge for secure and convenient access to a home or building
US7222072B2 (en) * 2003-02-13 2007-05-22 Sbc Properties, L.P. Bio-phonetic multi-phrase speaker identity verification
JP4391179B2 (ja) * 2003-09-17 2009-12-24 聖一 中川 話者認識システム及び方法
JP4463526B2 (ja) * 2003-10-24 2010-05-19 株式会社ユニバーサルエンターテインメント 声紋認証システム
CN101197131B (zh) 2006-12-07 2011-03-30 积体数位股份有限公司 随机式声纹密码验证系统、随机式声纹密码锁及其产生方法
CN102404287A (zh) * 2010-09-14 2012-04-04 盛乐信息技术(上海)有限公司 用数据复用法确定声纹认证阈值的声纹认证系统及方法
US9318114B2 (en) * 2010-11-24 2016-04-19 At&T Intellectual Property I, L.P. System and method for generating challenge utterances for speaker verification
KR101284481B1 (ko) * 2011-07-15 2013-07-16 아이리텍 잉크 생체이미지 정보를 포함하는 일회용 비밀번호를 이용한 인증방법 및 장치
US10074089B1 (en) * 2012-03-01 2018-09-11 Citigroup Technology, Inc. Smart authentication and identification via voiceprints
JP6089610B2 (ja) * 2012-11-13 2017-03-08 富士通株式会社 生体認証装置、生体認証方法及び生体認証用コンピュータプログラム
SG11201504186UA (en) * 2012-12-19 2015-07-30 Visa Int Service Ass System and method for voice authentication
US8694315B1 (en) * 2013-02-05 2014-04-08 Visa International Service Association System and method for authentication using speaker verification techniques and fraud model
CN104036780B (zh) * 2013-03-05 2017-05-24 阿里巴巴集团控股有限公司 一种人机识别方法及系统
IN2013MU01148A (zh) * 2013-03-26 2015-04-24 Tata Consultancy Services Ltd
CN104219195B (zh) * 2013-05-29 2018-05-22 腾讯科技(深圳)有限公司 身份校验方法、装置及系统
US9978065B2 (en) * 2013-06-25 2018-05-22 Visa International Service Association Voice filter system
US10157272B2 (en) * 2014-02-04 2018-12-18 Qualcomm Incorporated Systems and methods for evaluating strength of an audio password
US10540979B2 (en) * 2014-04-17 2020-01-21 Qualcomm Incorporated User interface for secure access to a device using speaker verification
CN104616655B (zh) 2015-02-05 2018-01-16 北京得意音通技术有限责任公司 声纹模型自动重建的方法和装置
CN106373575B (zh) * 2015-07-23 2020-07-21 阿里巴巴集团控股有限公司 一种用户声纹模型构建方法、装置及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5687287A (en) * 1995-05-22 1997-11-11 Lucent Technologies Inc. Speaker verification method and apparatus using mixture decomposition discrimination
CN102024455A (zh) * 2009-09-10 2011-04-20 索尼株式会社 说话人识别系统及其方法
CN102238189A (zh) * 2011-08-01 2011-11-09 安徽科大讯飞信息科技股份有限公司 声纹密码认证方法及系统
CN102760434A (zh) * 2012-07-09 2012-10-31 华为终端有限公司 一种声纹特征模型更新方法及终端
CN103632667A (zh) * 2013-11-25 2014-03-12 华为技术有限公司 声学模型优化方法、装置及语音唤醒方法、装置和终端

Also Published As

Publication number Publication date
US20170365259A1 (en) 2017-12-21
KR101963993B1 (ko) 2019-03-29
JP6502512B2 (ja) 2019-04-17
EP3255631A1 (en) 2017-12-13
CN104616655A (zh) 2015-05-13
US10540980B2 (en) 2020-01-21
EP3255631A4 (en) 2018-09-19
EP3255631B1 (en) 2021-09-01
WO2016123900A1 (zh) 2016-08-11
JP2018509649A (ja) 2018-04-05
KR20170105034A (ko) 2017-09-18

Similar Documents

Publication Publication Date Title
CN104616655B (zh) 声纹模型自动重建的方法和装置
CN107680597B (zh) 语音识别方法、装置、设备以及计算机可读存储介质
CN110648658B (zh) 一种语音识别模型的生成方法、装置及电子设备
CN109767778A (zh) 一种融合Bi-LSTM和WaveNet的语音转换方法
CN103065620B (zh) 在手机上或网页上接收用户输入的文字并实时合成为个性化声音的方法
CN106611597A (zh) 基于人工智能的语音唤醒方法和装置
CN105139864B (zh) 语音识别方法和装置
CN111862942B (zh) 普通话和四川话的混合语音识别模型的训练方法及系统
CN105869624A (zh) 数字语音识别中语音解码网络的构建方法及装置
CN109754790B (zh) 一种基于混合声学模型的语音识别系统及方法
CN111433847B (zh) 语音转换的方法及训练方法、智能装置和存储介质
CN105845128A (zh) 基于动态剪枝束宽预测的语音识别效率优化方法
CN102238190A (zh) 身份认证方法及系统
CN106057192A (zh) 一种实时语音转换方法和装置
CN102306492A (zh) 基于卷积非负矩阵分解的语音转换方法
CN105702250A (zh) 语音识别方法和装置
CN105023570B (zh) 一种实现声音转换的方法及系统
CN112185363B (zh) 音频处理方法及装置
CN111508469A (zh) 一种文语转换方法及装置
CN105895081A (zh) 一种语音识别解码的方法及装置
TWI503813B (zh) 可控制語速的韻律訊息產生裝置及語速相依之階層式韻律模組
CN103559289A (zh) 语种无关的关键词检索方法及系统
WO2020062679A1 (zh) 一种基于深度学习的端到端说话人分割方法及系统
CN111933121B (zh) 一种声学模型训练方法及装置
CN114067793A (zh) 音频处理方法和装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20161129

Address after: 100084 B1005, room 1007, school building, Tsinghua University, Tsinghua Park, Beijing, Haidian District

Applicant after: Beijing d-Ear Technologies Co., Ltd.

Address before: 100084 FIT building, Tsinghua University, Beijing, Haidian District 1-303

Applicant before: Tsinghua University

GR01 Patent grant
GR01 Patent grant