CN109473107A - 一种文本半相关的声纹识别方法及系统 - Google Patents

一种文本半相关的声纹识别方法及系统 Download PDF

Info

Publication number
CN109473107A
CN109473107A CN201811468428.3A CN201811468428A CN109473107A CN 109473107 A CN109473107 A CN 109473107A CN 201811468428 A CN201811468428 A CN 201811468428A CN 109473107 A CN109473107 A CN 109473107A
Authority
CN
China
Prior art keywords
verifying
feature
section
registration
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811468428.3A
Other languages
English (en)
Other versions
CN109473107B (zh
Inventor
洪国强
肖龙源
蔡振华
李稀敏
刘晓葳
谭玉坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Kuaishangtong Technology Corp ltd
Original Assignee
Xiamen Kuaishangtong Technology Corp ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Kuaishangtong Technology Corp ltd filed Critical Xiamen Kuaishangtong Technology Corp ltd
Priority to CN201811468428.3A priority Critical patent/CN109473107B/zh
Publication of CN109473107A publication Critical patent/CN109473107A/zh
Application granted granted Critical
Publication of CN109473107B publication Critical patent/CN109473107B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase

Abstract

本发明公开了一种文本半相关的声纹识别方法及系统,所述方法包括:在注册过程中获取注册用户读几段不同的字符串的语音,对所述语音根据内容进行切分,并对切分后语音段进行特征提取;随机产生一段验证字符串,获取验证特征向量V,对验证特征向量V进行加权获取改良验证特征向量V’,根据所述一段验证字符串对应的字符获取获得注册特征向量U,计算改良后的验证特征向量V’和注册特征向量U的相似度llr判断验证用户与注册用户是否一致。采用本发明的声纹识别方法及系统具备简单可靠安全,同时充分考虑了各数字的不同识别效果,大大提高声纹识别精度。

Description

一种文本半相关的声纹识别方法及系统
技术领域
本发明涉及声纹识别技术领域,具体涉及与一串随机动态数字相关的一种文本半相关的声纹识别方法。
背景技术
在现有声纹识别中主要有两种声纹识别方式,分别为固定文本(text-dependent)声纹识别和文本无关(text-independent)声纹识别,在实际应用中,文本无关声纹识别需要很长的语音才能达到理想的识别效果,而固定文本声纹识别只要很短的一句话就能有很好的识别效果。但在实际应用中固定文本声纹识别方式由于文本内容固定,难以防止录音等情况发生,固定文本声纹识别方式存在较大的安全问题。
在声纹识别的实际应用中以动态数字串最为常见,其在注册时会给出几个随机数字串,而在验证时给出一个随机数字串用于识别,具体包含:
(1)注册步骤:获取说话人读几段不同的数字串的语音,对所述语音根据内容进行切分,即将语音内容的每个数字切成一段,并对切分后语音段进行特征提取,
(2)验证步骤:将说话人读的一段数字串语音进行切分,分别提取特征,然后将提取的特征依次串起来获取验证特征向量V;
(3)相似度判断步骤:将注册获取的不同数字的特征,根据验证给的数字串依次串起来获得注册特征向量U,通过cosine方式计算V和U的相似度。
上述声纹识别方法未考虑到各个数字的识别效果,声纹识别精度较低。
发明内容
本发明的目的在于克服现有技术问题,提出一种即提高声纹识别精度,又可以从较短语音进行声纹识别,同时可以防止录音等情况产生,确保声纹识别应用安全的文本半相关的声纹识别方法及系统,
为达成上述目的,本发明提供了文本半相关的声纹识别方法,所述方法包括如下:
步骤一,在注册过程中获取注册用户读几段不同的字符串的语音,对所述语音根据内容进行切分,并对切分后语音段进行特征提取;所述切分是将语音内容的每个字符切成一语音段;
步骤二,随机产生一段验证字符串,所述一段验证字符串包含n个字符,并获取待验证用户读的一段验证字符串语音内容,并对一段验证字符串语音内容进行切分,分别对每个字符提取的特征,并将提取的特征依次串起来获取验证特征向量V,对验证特征向量V进行加权获取改良验证特征向量V’,其中,V=[v1,v2,...,vn],V’=[C1v1,C2v2,...,Cnvn],vi为所述一段验证字符串的第i个字符的特征,Ci为所述一段验证字符串的第i个字符的特征对应的权值,
其中i、n均为正整数,n≥2,1≤i≤n;
步骤三,根据所述一段验证字符串对应的字符获取注册用户在注册过程中对应的特征,并依次即将所述一段验证字符串对应的字符特征串起来获得注册特征向量U,U=[u1,u2,..,un],其中,ui为所述一段验证字符串的第i个字符对应的注册特征;
步骤四,计算改良后的验证特征向量V’和注册特征向量U的相似度llr;
步骤五,根据所述相似度llr值的大小判断验证用户与注册用户是否一致。
可选地,所述字符串为数字串,所述一段验证数字串包含n个数字;
步骤一,在注册过程中获取注册用户读几段不同的数字串的语音,对所述语音根据内容进行切分,并对切分后语音段进行特征提取;所述切分是将语音内容的每个数字切成一语音段;
步骤二,随机产生一段验证数字串,所述一段验证数字串包含n个数字,并获取待验证用户读的一段验证数字串语音内容,并对一段验证数字串语音内容进行切分,分别对每个数字提取的特征,并将提取的特征依次串起来获取验证特征向量V,对验证特征向量V进行加权获取改良验证特征向量V’,其中,V=[v1,v2,...,vn],V’=[C1v1,C2v2,...,Cnvn],vi为所述一段验证数字串的第i个数字验证特征,Ci为所述一段验证数字串的第i个数字验证特征对应的权值;
步骤三,根据所述一段验证数字串对应的数字获取注册用户在注册过程中对应的特征,并依次即将所述一段验证数字串对应的数字特征串起来获得注册特征向量U,U=[u1,u2,..,un],其中,ui为所述一段验证数字串的第i个数字对应的注册特征。
进一步的,Ci为误识率为f的情况下,所述一段验证数字串的第i个数字单独用于声纹识别的识别率r作为所述一段验证数字串的第i个数字的验证特征对应的权值,所述一段验证数字串的第i个数字为数字“X”,所述识别率r的获取过程包括:
(1)获取m个人的数字“X”的语音段,每个人至少包含两段语音,分别提取各语音段的特征向量。
(2)构建一定数量的正负对,两个特征为同一人即正对,两个特征为不同人为负对;
正对是指注册过程输出的特征与验证过程输出的特征一致,负对是指注册过程输出的特征与验证过程输出的特征不一致,特征是从语音中提取的,如果配对的两段语音不是同一人的即为负对,为同一人的即为正对;
(3)分别对一定数量的正负对的特征向量进行打分,其中,正对的特征向量打分大于t的数量为Tg,正对的特征向量打分小于t的数量为Tl;负对的特征向量打分大于t的数量为Fg,负对的特征向量小于t的数量为Fl,计算误识率为f=Fl/(Fg+Fl);
所述打分是注册特征向量、验证特征向量进行相似度进行计算;
(4)识别率为r=Tl/(Tg+Tl),其中,所述一段验证数字串的第i个数字为数字“X”的Ci值即为确定f值时的识别率r值。
进一步的,需要说明的是,误识率的f值可根据场景需求行设定。
可选地,构建一定数量的正负对,其中一定数量为不低10000。
进一步的,在本发明优选实施例中,在步骤四中,通过余弦距离算法获取改良后的验证特征向量V’和注册特征向量U的相似度llr。
与上述文本半相关的声纹识别方法相对应的,本发明还提供了一种文本半相关的声纹识别系统,包括:
注册模块,用于提供几段不同的字符串供注册用户读取,获取注册用户读几段不同的字符串的语音,用于对语音进行切分后语音段进行特征提取;所述切分是将语音内容的每个字符切成一语音段;
验证模块,用于随机产生一段验证字符串,所述一段验证字符串包含n个字符;
验证特征模块,用于获取待验证用户读的一段验证字符串语音内容,并对一段验证字符串语音内容进行切分,分别对每个字符提取的特征,并将提取的特征依次串起来获取验证特征向量V,V=[v1,v2,...,vn],vi为所述一段验证字符串的第i个字符的特征,v1为所述一段验证字符串的第1个字符的特征,v2为所述一段验证字符串的第2个字符的特征,vn为所述一段验证字符串的第n个字符的特征,其中i、n均为正整数,n≥2,1≤i≤n;
改良模块,用于对验证特征向量V进行加权获取改良验证特征向量V’,V’=[C1v1,C2v2,...,Cnvn],Ci为所述一段验证字符串的第i个字符的特征对应的权值;
注册特征模块,用于根据所述验证模块产生的所述一段验证字符串对应的字符获取注册用户在注册过程中对应的特征,并依次即将所述一段验证字符串对应的特征串起来获得注册特征向量U,U=[u1,u2,..,un],其中,ui为所述一段验证字符串的第i个字符对应的注册特征;
判断模块,用于计算改良后的验证特征向量V’和注册特征向量U的相似度llr,,并根据所述相似度llr值的大小判断验证用户与注册用户是否一致。
可选的,上述文本半相关的声纹识别系统中,所述注册模块提供几段不同的数字串供注册用户读取,所述几段不同的数字串的语音为几段不同的数字串的语音,所述切分是将语音内容的每个数字切成一语音段;
所述验证模块随机产生一段验证数字串,所述一段验证数字串包含n个数字;
所述验证特征模块获取待验证用户读的一段验证数字串语音内容,并对一段验证数字串语音内容进行切分,分别对每个数字提取的特征,并将提取的特征依次串起来获取验证特征向量V,V=[v1,v2,...,vn],vi为所述一段验证数字串的第i个数字的特征;
改良模块,用于对验证特征向量V进行加权获取改良验证特征向量V’,V’=[C1v1,C2v2,...,Cnvn],Ci为所述一段验证数字串的第i个数字的特征对应的权值;
注册特征模块,用于根据所述验证模块产生的所述一段验证数字串对应的数字获取注册用户在注册过程中对应的特征,并依次即将所述一段验证数字串对应的特征串起来获得注册特征向量U,U=[u1,u2,..,un],其中,ui为所述一段验证数字串的第i个数字对应的注册特征。
进一步的,上述文本半相关的声纹识别系统中所述改良模块中的Ci为所述一段验证数字串的第i个数字的特征对应的权值;误识率为f的情况下,所述一段验证数字串的第i个数字单独用于声纹识别的识别率r作为所述一段验证数字串的第i个数字的验证特征对应的权值,所述一段验证数字串的第i个数字为数字“X”,改良模块中的获取识别率r包括:
获取m个人的数字“X”的语音段,每个人至少包含两段语音,分别提取各语音段的特征向量;
构建一定数量的正负对,两个特征为同一人即正对,两个特征为不同人为负对;
正对是指注册过程输出的特征与验证过程输出的特征一致,负对是指注册过程输出的特征与验证过程输出的特征不一致,特征是从语音中提取的,如果配对的两段语音不是同一人的即为负对,为同一人的即为正对;
分别对一定数量的正负对的特征向量进行打分,其中,正对的特征向量打分大于t的数量为Tg,正对的特征向量打分小于t的数量为Tl;负对的特征向量打分大于t的数量为Fg,负对的特征向量小于t的数量为Fl,计算误识率为f=Fl/(Fg+Fl);
所述打分是注册特征向量、验证特征向量进行相似度进行计算;
识别率为r=Tl/(Tg+Tl),其中,所述一段验证数字串的第i个数字为数字“X”的Ci值即为确定f值时的识别率r值。
进一步的,上述文本半相关的声纹识别系统中所述改良模块中的所述构建一定数量的正负对,其中一定数量为不低10000;误识率的f值可根据场景需求行设定。
与现有技术相比,通过本发明的文本半相关的声纹识别方法及系统,即提高声纹识别精度,又可以从较短语音进行声纹识别,同时可以防止录音等情况产生,确保声纹识别应用安全的。
附图说明
此处所说明的附图用来提供对发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本发明的实施例1文本半相关的声纹识别方法的流程步骤图;
图2为本发明的实施例3文本半相关的声纹识别系统的原理示意图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种文本半相关的声纹识别方法,如附图1所示,所述方法包括如下:
步骤S1,在注册过程中获取注册用户读几段不同的字符串的语音,对所述语音根据内容进行切分,并对切分后语音段进行特征提取;所述切分是将语音内容的每个字符切成一语音段;
步骤S2,随机产生一段验证字符串,所述一段验证字符串包含n个字符,
步骤S3,获取待验证用户读的一段验证字符串语音内容,并对一段验证字符串语音内容进行切分,分别对每个字符提取的特征,并将提取的特征依次串起来获取验证特征向量V;
步骤S4,对验证特征向量V进行加权获取改良验证特征向量V’,其中,V=[v1,v2,...,vn],V’=[C1v1,C2v2,...,Cnvn],vi为所述一段验证字符串的第i个字符的特征,Ci为所述一段验证字符串的第i个字符的特征对应的权值,即v1为所述一段验证字符串的第1个字符的特征,vi为所述一段验证字符串的第i个字符的特征,vn为所述一段验证字符串的第n个字符的特征;C1为所述一段验证字符串的第1个字符的特征对应的权值,Ci为所述一段验证字符串的第i个字符串的特征对应的权值,Cn为所述一段验证字符串的第n个字符的特征对应的权值,
其中i、n均为正整数,n≥2,1≤i≤n;
进一步的,Ci为误识率为f的情况下,第i个数字单独用于声纹识别的识别率r作为第i个数字的验证特征对应的权值。
识别率r的获取方法如下:
本发明实施例以字符Y为例,介绍字符Y验证特征对应的权值的C的获取方法,具体包括如下:
(1)获取m个人的字符Y的语音段,每个人至少包含两段语音,分别提取各语音段的特征向量。
(2)构建一定数量的正负对,两个特征为同一人即正对,两个特征为不同人为负对;为了使得结果越稳定可靠,其中一定数量为不低10000;
正对是指注册过程输出的特征与验证过程输出的特征一致,
负对是指注册过程输出的特征与验证过程输出的特征不一致,
特征是从语音中提取的,如果配对的两段语音不是同一人的即为负对,为同一人的即为正对,
(3)分别对一定数量的正负对的特征向量进行打分,其中,正对的特征向量打分大于t的数量为Tg,正对的特征向量打分小于t的数量为Tl;负对的特征向量打分大于t的数量为Fg,负对的特征向量小于t的数量为Fl,计算误识率为f=Fl/(Fg+Fl);
所述打分是注册特征向量、验证特征向量进行相似度进行计算,其中相似度计算在本发明实施例优选地为,余弦距离cosine计算,llr=cos(注册特征向量,验证特征向量),不限于这个方法,也可以使用plda,欧式距离等多种打分方法。
(4)识别率为r=Tl/(Tg+Tl),其中,字符Y的C值即为确定f值时的识别率r值,误识率的f值可根据场景需求行设定。
步骤S5,根据所述一段验证数字串对应的数字获取注册用户在注册过程中对应的特征,并依次即将所述一段验证数字串对应的数字特征串起来获得注册特征向量U,U=[u1,u2,..,un],其中,ui为所述一段验证数字串的第i个数字对应的注册特征,u1为所述一段验证数字串的第1个数字对应的注册特征,u2为所述一段验证数字串的第2个数字对应的注册特征,un为所述一段验证数字串的第n个数字对应的注册特征;
步骤S6,计算改良后的验证特征向量V’和注册特征向量U的相似度llr,即进行余弦距离cosine计算,llr=cos(U,V’);
步骤S7,根据所述相似度llr值的大小判断验证用户与注册用户是否一致。
实施例2
本发明实施例提供了一种文本半相关的声纹识别方法,如附图2所示,所述方法包括如下:
步骤一,在注册过程中获取注册用户读几段不同的字符串串的语音,对所述语音根据内容进行切分,并对切分后语音段进行特征提取;所述切分是将语音内容的每个数字切成一语音段;在本发明实施例中,优选地,所述字符串为数字串;需要说明的是,本发明字符串不限定于数字串,可以为字符串可以为数字、字母、特殊符号、汉字等。
步骤二,随机产生一段验证数字串,所述一段验证数字串包含n个数字,并获取待验证用户读的一段验证数字串语音内容,并对一段验证数字串语音内容进行切分,分别对每个数字提取的特征,并将提取的特征依次串起来获取验证特征向量V,对验证特征向量V进行加权获取改良验证特征向量V’,其中,V=[v1,v2,...,vn],V’=[C1v1,C2v2,...,Cnvn],i、n均为正整数,n≥2,1≤i≤n;
其中vi为所述一段验证数字串的第i个数字的特征,Ci为所述一段验证数字串的第i个数字的特征对应的权值,即v1为所述一段验证数字串的第1个数字的特征,v2为所述一段验证数字串的第2个数字的特征,……,vn为所述一段验证数字串的第n个数字的特征,C1为所述一段验证数字串的第1个数字的特征对应的权值,C2为所述一段验证数字的第2个数字串的特征对应的权值,……,Cn为所述一段验证数字串的第n个数字的特征对应的权值;
其中i、n均为正整数,n≥2,1≤i≤n;
进一步的,Ci为误识率为f的情况下,所述一段验证数字串的第i个数字单独用于声纹识别的识别率r作为所述一段验证数字串的第i个数字的验证特征对应的权值。
识别率r的获取方法如下:
本发明实施例以数字‘0’为例,介绍数字0验证特征对应的权值的C的获取方法,具体包括如下:
(1)获取m个人的数字‘0’的语音段,每个人至少包含两段语音,分别提取各语音段的特征向量。
(2)构建一定数量的正负对,两个特征为同一人即正对,两个特征为不同人为负对;为了使得结果越稳定可靠,其中一定数量为不低10000;
正对是指注册过程输出的特征与验证过程输出的特征一致,
负对是指注册过程输出的特征与验证过程输出的特征不一致,
特征是从语音中提取的,如果配对的两段语音不是同一人的即为负对,为同一人的即为正对
(3)分别对一定数量的正负对的特征向量进行打分,其中,正对的特征向量打分大于t的数量为Tg,正对的特征向量打分小于t的数量为Tl;负对的特征向量打分大于t的数量为Fg,负对的特征向量小于t的数量为Fl,计算误识率为f=Fl/(Fg+Fl);
所述打分是注册特征向量、验证特征向量进行相似度进行计算,其中相似度计算在本发明实施例优选地为,余弦距离cosine计算,llr=cos(注册特征向量,特征2),不限于这个方法,也可以使用plda,欧式距离等多种打分方法
(4)识别率为r=Tl/(Tg+Tl),其中,数字‘0’的C值即为确定f值时的识别率r值,误识率的f值可根据场景需求行设定。另外,识率f值由整体声纹识别的需求决定,即误识率的f值可根据场景需求行设定。
步骤三,根据所述一段验证数字串对应的数字获取注册用户在注册过程中对应的特征,并依次即将所述一段验证数字串对应的数字特征串起来获得注册特征向量U,U=[u1,u2,..,un],其中,ui为所述一段验证数字串的第i个数字对应的注册特征,u1为所述一段验证数字串的第1个数字对应的注册特征,u2为所述一段验证数字串的第2个数字对应的注册特征,un为所述一段验证数字串的第n个数字对应的注册特征;
步骤四,计算改良后的验证特征向量V’和注册特征向量U的相似度llr,即进行进行余弦距离cosine计算,llr=cos(U,V’);
步骤五,根据所述相似度llr值的大小判断验证用户与注册用户是否一致。
需要进一步说明的是,数字i对应的注册特征是指在注册用户在注册过程中获取注册用户的语音内容中数字i提取的特征;数字i对应的验证特征是指在待验证用户在验证过程中获取待验证用户语音内容中数字i提取的特征。
实施例3
另外,本发明实施例还提供了一种文本半相关的声纹识别系统,如附图2所示,所述系统包括注册模块1、验证模块2、验证特征模块4、改良模块5、注册特征模块3、判断模块6。
所述注册模块用于提供几段不同的字符串供注册用户读取,获取注册用户读几段不同的字符串的语音,用于对语音进行切分后语音段进行特征提取;所述切分是将语音内容的每个字符切成一语音段;
所述验证模块2用于随机产生一段验证字符串,所述一段验证字符串包含n个字符;
所述验证特征模块4,用于获取待验证用户读的一段验证字符串语音内容,并对一段验证字符串语音内容进行切分,分别对每个字符提取的特征,并将提取的特征依次串起来获取验证特征向量V,V=[v1,v2,...,vn],vi为所述一段验证字符串的第i个字符的特征,v1为所述一段验证字符串的第1个字符的特征,v2为所述一段验证字符串的第2个字符的特征,vn为所述一段验证字符串的第n个字符的特征,其中i、n均为正整数,n≥2,1≤i≤n;
所述改良模块5,用于对验证特征向量V进行加权获取改良验证特征向量V’,V’=[C1v1,C2v2,...,Cnvn],Ci为所述一段验证字符串的第i个字符的特征对应的权值,C1为所述一段验证字符串的第1个字符的特征对应的权值,C2为所述一段验证字符串的第2个字符串的特征对应的权值,Cn为所述一段验证字符串的第n个字符的特征对应的权值。
所述注册特征模块3用于根据所述验证模块2产生的所述一段验证字符串对应的字符获取注册用户在注册过程中对应的特征,并依次即将所述一段验证字符串对应的特征串起来获得注册特征向量U,U=[u1,u2,..,un],其中,ui为所述一段验证字符串的第i个字符对应的注册特征,u1为所述一段验证字符串的第1个字符对应的注册特征,u2为所述一段验证字符串的第2个字符对应的注册特征,un为所述一段验证字符串的第n个字符对应的注册特征;
所述判断模块6用于计算改良后的验证特征向量V’和注册特征向量U的相似度llr,,并根据所述相似度llr值的大小判断验证用户与注册用户是否一致。
在本发明实施例中,优选地,所述字符串为数字串;
所述注册模块1提供几段不同的数字串供注册用户读取,所述几段不同的数字串的语音为几段不同的数字串的语音,所述切分是将语音内容的每个数字切成一语音段;
所述验证模块2随机产生一段验证数字串,所述一段验证数字串包含n个数字;
所述验证特征模块4获取待验证用户读的一段验证数字串语音内容,并对一段验证数
字串语音内容进行切分,分别对每个数字提取的特征,并将提取的特征依次串起来获
取验证特征向量V,V=[v1,v2,...,vn],vi为所述一段验证数字串的第i个数字的特征;
改良模块5,用于对验证特征向量V进行加权获取改良验证特征向量V’,V’=[C1v1,C2v2,...,Cnvn],Ci为所述一段验证数字串的第i个数字的特征对应的权值;
注册特征模块,用于根据所述验证模块产生的所述一段验证数字串对应的数字获取注册用户在注册过程中对应的特征,并依次即将所述一段验证数字串对应的特征串起来获得注册特征向量U,U=[u1,u2,..,un],其中,ui为所述一段验证数字串的第i个数字对应的注册特征,u1为所述一段验证数字串的第1个数字对应的注册特征,u2为所述一段验证数字串的第2个数字对应的注册特征,un为所述一段验证数字串的第n个数字对应的注册特征。
改良模块5中的Ci为所述一段验证数字串的第i个数字的特征对应的权值;误识率为f的情况下,所述一段验证数字串的第i个数字单独用于声纹识别的识别率r作为所述一段验证数字串的第i个数字的验证特征对应的权值,所述一段验证数字串的第i个数字为数字“X”,改良模块中的获取识别率r包括:
获取m个人的数字“X”的语音段,每个人至少包含两段语音,分别提取各语音段的特征向量;
构建一定数量的正负对,两个特征为同一人即正对,两个特征为不同人为负对;
正对是指注册过程输出的特征与验证过程输出的特征一致,负对是指注册过程输出的特征与验证过程输出的特征不一致,特征是从语音中提取的,如果配对的两段语音不是同一人的即为负对,为同一人的即为正对;
分别对一定数量的正负对的特征向量进行打分,其中,正对的特征向量打分大于t的数量为Tg,正对的特征向量打分小于t的数量为Tl;负对的特征向量打分大于t的数量为Fg,负对的特征向量小于t的数量为Fl,计算误识率为f=Fl/(Fg+Fl);
所述打分是注册特征向量、验证特征向量进行相似度进行计算,当前相似值算法以cosine为例,则相似值越小两者越可能是同一人,反之则越不是一个人,t值实际应用中可根据精度需求设置阈值。
识别率为r=Tl/(Tg+Tl),其中,所述一段验证数字串的第i个数字为数字“X”的Ci值即为确定f值时的识别率r值。
进一步的,构建一定数量的正负对,总数量越多结果越稳定可靠,其中一定数量为不低10000。
另外,误识率f值由整体声纹识别的需求决定,即误识率的f值可根据场景需求行设定。
需要说明的是,本发明字符串不限定于数字串,以可以为字符串可以为数字、字母、特殊符号、汉字等。
以上各实施例仅用以说明本发明的技术方案,但应当理解本发明并非局限于上述实施例,通过本发明的启示,本领域技术人员结合公知或现有技术、知识所进行的修改,或者对其中部分或者全部技术特征进行等同替换也应视为在本发明的保护范围内。

Claims (10)

1.一种文本半相关的声纹识别方法,其特征在于,所述方法包括如下:
步骤一,在注册过程中获取注册用户读几段不同的字符串的语音,对所述语音根据内容进行切分,并对切分后语音段进行特征提取;所述切分是将语音内容的每个字符切成一语音段;
步骤二,随机产生一段验证字符串,所述一段验证字符串包含n个字符,并获取待验证用户读的一段验证字符串语音内容,并对一段验证字符串语音内容进行切分,分别对每个字符提取的特征,并将提取的特征依次串起来获取验证特征向量V,对验证特征向量V进行加权获取改良验证特征向量V’,其中,V=[v1,v2,...,vn],V’=[C1v1,C2v2,...,Cnvn],vi为所述一段验证字符串的第i个字符的特征,Ci为所述一段验证字符串的第i个字符的特征对应的权值,
其中i、n均为正整数,n≥2,1≤i≤n;
步骤三,根据所述一段验证字符串对应的字符获取注册用户在注册过程中对应的特征,并依次即将所述一段验证字符串对应的字符特征串起来获得注册特征向量U,U=[u1,u2,..,un],其中,ui为所述一段验证字符串的第i个字符对应的注册特征;
步骤四,计算改良后的验证特征向量V’和注册特征向量U的相似度llr;
步骤五,根据所述相似度llr值的大小判断验证用户与注册用户是否一致。
2.根据权利要求1所述的文本半相关的声纹识别方法,其特征在于,
所述字符串为数字串,所述一段验证字符串包含n个数字;
步骤一,在注册过程中获取注册用户读几段不同的数字串的语音,对所述语音根据内容进行切分,并对切分后语音段进行特征提取;所述切分是将语音内容的每个数字切成一语音段;
步骤二,随机产生一段验证数字串,所述一段验证数字串包含n个数字,并获取待验证用户读的一段验证数字串语音内容,并对一段验证数字串语音内容进行切分,分别对每个数字提取的特征,并将提取的特征依次串起来获取验证特征向量V,对验证特征向量V进行加权获取改良验证特征向量V’,其中,V=[v1,v2,...,vn],V’=[C1v1,C2v2,...,Cnvn],vi为所述一段验证数字串的第i个数字验证特征,Ci为所述一段验证数字串的第i个数字验证特征对应的权值;
步骤三,根据所述一段验证数字串对应的数字获取注册用户在注册过程中对应的特征,并依次即将所述一段验证数字串对应的数字特征串起来获得注册特征向量U,U=[u1,u2,..,un],其中,ui为所述一段验证数字串的第i个数字对应的注册特征。
3.根据权利要求2所述的文本半相关的声纹识别方法,其特征在于,
Ci为误识率为f的情况下,所述一段验证数字串的第i个数字单独用于声纹识别的识别率r作为所述一段验证数字串的第i个数字的验证特征对应的权值,所述一段验证数字串的第i个数字为数字“X”,所述识别率r的获取过程包括:
(1)获取m个人的数字“X”的语音段,每个人至少包含两段语音,分别提取各语音段的特征向量。
(2)构建一定数量的正负对,两个特征为同一人即正对,两个特征为不同人为负对;
正对是指注册过程输出的特征与验证过程输出的特征一致,负对是指注册过程输出的特征与验证过程输出的特征不一致,特征是从语音中提取的,如果配对的两段语音不是同一人的即为负对,为同一人的即为正对;
(3)分别对一定数量的正负对的特征向量进行打分,其中,正对的特征向量打分大于t的数量为Tg,正对的特征向量打分小于t的数量为Tl;负对的特征向量打分大于t的数量为Fg,负对的特征向量小于t的数量为Fl,计算误识率为f=Fl/(Fg+Fl);
所述打分是注册特征向量、验证特征向量进行相似度进行计算;
(4)识别率为r=Tl/(Tg+Tl),其中,所述一段验证数字串的第i个数字为数字“X”的Ci值即为确定f值时的识别率r值。
4.根据权利要求3所述的文本半相关的声纹识别方法,其特征在于,
误识率的f值可根据场景需求行设定。
5.根据权利要求3所述的文本半相关的声纹识别方法,其特征在于,
构建一定数量的正负对,其中一定数量为不低10000。
6.根据权利要求1或2所述的文本半相关的声纹识别方法,其特征在于,
在步骤四中,通过余弦距离算法获取改良后的验证特征向量V’和注册特征向量U的相似度llr。
7.一种文本半相关的声纹识别系统,其特征在于,包括:
注册模块,用于提供几段不同的字符串供注册用户读取,获取注册用户读几段不同的字符串的语音,用于对语音进行切分后语音段进行特征提取;所述切分是将语音内容的每个字符切成一语音段;
验证模块,用于随机产生一段验证字符串,所述一段验证字符串包含n个字符;
验证特征模块,用于获取待验证用户读的一段验证字符串语音内容,并对一段验证字符串语音内容进行切分,分别对每个字符提取的特征,并将提取的特征依次串起来获取验证特征向量V,V=[v1,v2,...,vn],vi为所述一段验证字符串的第i个字符的特征,v1为所述一段验证字符串的第1个字符的特征,v2为所述一段验证字符串的第2个字符的特征,vn为所述一段验证字符串的第n个字符的特征,其中i、n均为正整数,n≥2,1≤i≤n;
改良模块,用于对验证特征向量V进行加权获取改良验证特征向量V’,V’=[C1v1,C2v2,...,Cnvn],Ci为所述一段验证字符串的第i个字符的特征对应的权值;
注册特征模块,用于根据所述验证模块产生的所述一段验证字符串对应的字符获取注册用户在注册过程中对应的特征,并依次即将所述一段验证字符串对应的特征串起来获得注册特征向量U,U=[u1,u2,..,un],其中,ui为所述一段验证字符串的第i个字符对应的注册特征;
判断模块,用于计算改良后的验证特征向量V’和注册特征向量U的相似度llr,,并根据所述相似度llr值的大小判断验证用户与注册用户是否一致。
8.根据权利要求7所述的文本半相关的声纹识别系统,其特征在于,
所述注册模块提供几段不同的数字串供注册用户读取,所述几段不同的数字串的语音为几段不同的数字串的语音,所述切分是将语音内容的每个数字切成一语音段;
所述验证模块随机产生一段验证数字串,所述一段验证数字串包含n个数字;
所述验证特征模块获取待验证用户读的一段验证数字串语音内容,并对一段验证数字串语音内容进行切分,分别对每个数字提取的特征,并将提取的特征依次串起来获取验证特征向量V,V=[v1,v2,...,vn],vi为所述一段验证数字串的第i个数字的特征;
改良模块,用于对验证特征向量V进行加权获取改良验证特征向量V’,V’=[C1v1,C2v2,...,Cnvn],Ci为所述一段验证数字串的第i个数字的特征对应的权值;
注册特征模块,用于根据所述验证模块产生的所述一段验证数字串对应的数字获取注册用户在注册过程中对应的特征,并依次即将所述一段验证数字串对应的特征串起来获得注册特征向量U,U=[u1,u2,..,un],其中,ui为所述一段验证数字串的第i个数字对应的注册特征。
9.根据权利要求8所述的文本半相关的声纹识别系统,其特征在于,
改良模块中的Ci为所述一段验证数字串的第i个数字的特征对应的权值;误识率为f的情况下,所述一段验证数字串的第i个数字单独用于声纹识别的识别率r作为所述一段验证数字串的第i个数字的验证特征对应的权值,所述一段验证数字串的第i个数字为数字“X”,改良模块中的获取识别率r包括:
获取m个人的数字“X”的语音段,每个人至少包含两段语音,分别提取各语音段的特征向量;
构建一定数量的正负对,两个特征为同一人即正对,两个特征为不同人为负对;
正对是指注册过程输出的特征与验证过程输出的特征一致,负对是指注册过程输出的特征与验证过程输出的特征不一致,特征是从语音中提取的,如果配对的两段语音不是同一人的即为负对,为同一人的即为正对;
分别对一定数量的正负对的特征向量进行打分,其中,正对的特征向量打分大于t的数量为Tg,正对的特征向量打分小于t的数量为Tl;负对的特征向量打分大于t的数量为Fg,负对的特征向量小于t的数量为Fl,计算误识率为f=Fl/(Fg+Fl);
所述打分是注册特征向量、验证特征向量进行相似度进行计算;
识别率为r=Tl/(Tg+Tl),其中,所述一段验证数字串的第i个数字为数字“X”的Ci值即为确定f值时的识别率r值。
10.根据权利要求9所述的文本半相关的声纹识别方法,其特征在于,
构建一定数量的正负对,其中一定数量为不低10000;误识率的f值可根据场景需求行设定。
CN201811468428.3A 2018-12-03 2018-12-03 一种文本半相关的声纹识别方法及系统 Active CN109473107B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811468428.3A CN109473107B (zh) 2018-12-03 2018-12-03 一种文本半相关的声纹识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811468428.3A CN109473107B (zh) 2018-12-03 2018-12-03 一种文本半相关的声纹识别方法及系统

Publications (2)

Publication Number Publication Date
CN109473107A true CN109473107A (zh) 2019-03-15
CN109473107B CN109473107B (zh) 2020-12-22

Family

ID=65674885

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811468428.3A Active CN109473107B (zh) 2018-12-03 2018-12-03 一种文本半相关的声纹识别方法及系统

Country Status (1)

Country Link
CN (1) CN109473107B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111145758A (zh) * 2019-12-25 2020-05-12 厦门快商通科技股份有限公司 声纹识别方法、系统、移动终端及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070294083A1 (en) * 2000-03-16 2007-12-20 Bellegarda Jerome R Fast, language-independent method for user authentication by voice
CN105913850A (zh) * 2016-04-20 2016-08-31 上海交通大学 文本相关声纹密码验证方法
CN106057206A (zh) * 2016-06-01 2016-10-26 腾讯科技(深圳)有限公司 声纹模型训练方法、声纹识别方法及装置
CN106098068A (zh) * 2016-06-12 2016-11-09 腾讯科技(深圳)有限公司 一种声纹识别方法和装置
CN106531171A (zh) * 2016-10-13 2017-03-22 普强信息技术(北京)有限公司 一种动态声纹密码系统的实现方法
CN108446638A (zh) * 2018-03-21 2018-08-24 广东欧珀移动通信有限公司 身份验证方法、装置、存储介质及电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070294083A1 (en) * 2000-03-16 2007-12-20 Bellegarda Jerome R Fast, language-independent method for user authentication by voice
CN105913850A (zh) * 2016-04-20 2016-08-31 上海交通大学 文本相关声纹密码验证方法
CN106057206A (zh) * 2016-06-01 2016-10-26 腾讯科技(深圳)有限公司 声纹模型训练方法、声纹识别方法及装置
CN106098068A (zh) * 2016-06-12 2016-11-09 腾讯科技(深圳)有限公司 一种声纹识别方法和装置
CN106531171A (zh) * 2016-10-13 2017-03-22 普强信息技术(北京)有限公司 一种动态声纹密码系统的实现方法
CN108446638A (zh) * 2018-03-21 2018-08-24 广东欧珀移动通信有限公司 身份验证方法、装置、存储介质及电子设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111145758A (zh) * 2019-12-25 2020-05-12 厦门快商通科技股份有限公司 声纹识别方法、系统、移动终端及存储介质

Also Published As

Publication number Publication date
CN109473107B (zh) 2020-12-22

Similar Documents

Publication Publication Date Title
CN107104803B (zh) 一种基于数字口令与声纹联合确认的用户身份验证方法
Yu et al. Spoofing detection in automatic speaker verification systems using DNN classifiers and dynamic acoustic features
WO2017114307A1 (zh) 能够防止录音攻击的声纹认证方法、服务器、终端及系统
CN105933323B (zh) 声纹注册、认证方法及装置
CN109903774A (zh) 一种基于角度间隔损失函数的声纹识别方法
CN106448685B (zh) 一种基于音素信息的声纹认证系统及方法
CN101465123B (zh) 说话人认证的验证方法和装置以及说话人认证系统
CN106782572A (zh) 语音密码的认证方法及系统
CN1808567A (zh) 验证真人在场状态的声纹认证设备和其认证方法
CN105096121A (zh) 声纹认证方法和装置
WO2017162053A1 (zh) 一种身份认证的方法和装置
CN106709402A (zh) 基于音型像特征的真人活体身份验证方法
CN104992705B (zh) 一种英语口语自动打分方法及系统
Saquib et al. A survey on automatic speaker recognition systems
CN104158664A (zh) 一种身份认证方法及系统
CN102222502A (zh) 一种汉语随机提示声纹验证的有效方式
CN102915740B (zh) 可实现篡改定位的语音感知哈希内容认证方法
CN110390948A (zh) 一种快速语音识别的方法及系统
CN110111798A (zh) 一种识别说话人的方法及终端
CN102314877A (zh) 字符内容提示的声纹识别方法
CN111611566B (zh) 一种说话人验证系统及其重放攻击检测方法
CN109473107A (zh) 一种文本半相关的声纹识别方法及系统
CN108831484A (zh) 一种离线的且与语言种类无关的声纹识别方法及装置
CN104464738B (zh) 一种面向智能移动设备的声纹识别方法
Reza et al. An efficient online signature verification scheme using dynamic programming of string matching

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant