CN111261172B - 一种声纹识别方法和装置 - Google Patents

一种声纹识别方法和装置 Download PDF

Info

Publication number
CN111261172B
CN111261172B CN202010071165.3A CN202010071165A CN111261172B CN 111261172 B CN111261172 B CN 111261172B CN 202010071165 A CN202010071165 A CN 202010071165A CN 111261172 B CN111261172 B CN 111261172B
Authority
CN
China
Prior art keywords
voiceprint
user
voiceprint recognition
preset
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010071165.3A
Other languages
English (en)
Other versions
CN111261172A (zh
Inventor
张晴晴
罗磊
杨金富
岑吴镕
马光谦
汪洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qingshu Intelligent Technology Co ltd
Original Assignee
Beijing Aishu Wisdom Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Aishu Wisdom Technology Co ltd filed Critical Beijing Aishu Wisdom Technology Co ltd
Priority to CN202010071165.3A priority Critical patent/CN111261172B/zh
Publication of CN111261172A publication Critical patent/CN111261172A/zh
Application granted granted Critical
Publication of CN111261172B publication Critical patent/CN111261172B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies

Abstract

本发明公开一种声纹识别方法和装置,该方法包括以下步骤:从音频信号中提取用户声纹特征;对所述用户声纹特征与预设声纹特征进行典型相关分析,得到所述用户声纹特征与所述预设声纹特征之间的相关度信息;根据所述相关度信息确定声纹识别结果。本发明根据用户声纹特征与预设声纹特征之间的相关度信息,确定声纹识别结果,能够提升声纹识别的准确率。

Description

一种声纹识别方法和装置
技术领域
本发明涉及音频处理技术领域,特别涉及一种声纹识别方法和装置。
背景技术
声纹识别是根据说话人语音中所包含的独一无二的发音生理和行为特征等特征参数,自动对说话人的身份进行识别的生物识别方法。声纹识别主要采集人的语音信息,提取特有的语音特征并转化成数字符号,且将其存成特征模板,使得在应用时,将待识别语音与数据库中的模板进行匹配,从而判别说话人的身份。目前,声纹识别技术已相对成熟并被广泛应用。声纹识别系统通过用户语音确定用户ID,确认用户相应动作,执行相应指令。
现有技术在进行声纹识别时,将音频信号转换为指令,通常需要建立声学模型和语言模型,并在模型建立过程中使用梅尔频率倒谱系数、隐马尔可夫算法、前后向算法、Viterbi算法和期望最大算法。然而,现有算法的容错性太差,基本都是靠一个相似度的得分来评定两份语音特征的样本是否属于同一个人。如果样本量不够大或者样本的语音特征相似度较高,则难以做出准确判断。
发明内容
本发明提供了一种声纹识别方法和装置,以解决现有技术中的声纹识别准确性较差的缺陷。
本发明提供了一种声纹识别方法,包括以下步骤:
从音频信号中提取用户声纹特征;
对所述用户声纹特征与预设声纹特征进行典型相关分析,得到所述用户声纹特征与所述预设声纹特征之间的相关度信息;
根据所述相关度信息确定声纹识别结果。
可选地,所述相关度信息为相关度矩阵;所述根据所述相关度信息确定声纹识别结果,包括:
判断所述相关度矩阵中的最大相关度系数是否大于相似度阈值,如果是,则确定声纹识别成功;否则,确定声纹识别失败。
可选地,所述根据所述相关度信息确定声纹识别结果之后,还包括:
在声纹识别成功的情况下,根据所述最大相关度系数对所述预设声纹特征进行更新。
可选地,所述在声纹识别成功的情况下,根据所述最大相关度系数对所述预设声纹特征进行更新,包括:
在声纹识别成功的情况下,将所述预设声纹特征与第一权重的乘积与所述用户声纹特征与第二权重的乘积相加,得到更新后的预设声纹特征;
其中,所述第二权重=(1-(ρ11-θ))/2,ρ11为所述最大相关系数,θ为所述相似度阈值,所述第一权重与所述第二权重之和为1。
可选地,所述最大相关度系数位于所述相关度矩阵的第一行和第一列。
本发明还提供了一种声纹识别装置,包括:
提取模块,用于从音频信号中提取用户声纹特征;
分析模块,用于对所述用户声纹特征与预设声纹特征进行典型相关分析,得到所述用户声纹特征与所述预设声纹特征之间的相关度信息;
确定模块,用于根据所述相关度信息确定声纹识别结果。
可选地,所述相关度信息为相关度矩阵;
所述确定模块,具体用于判断所述相关度矩阵中的最大相关度系数是否大于相似度阈值,如果是,则确定声纹识别成功;否则,确定声纹识别失败。
可选地,所述的装置,还包括:
更新模块,用于在声纹识别成功的情况下,根据所述最大相关度系数对所述预设声纹特征进行更新。
可选地,所述更新模块,具体用于在声纹识别成功的情况下,将所述预设声纹特征与第一权重的乘积与所述用户声纹特征与第二权重的乘积相加,得到更新后的预设声纹特征;
其中,所述第二权重=(1-(ρ11-θ))/2,ρ11为所述最大相关系数,θ为所述相似度阈值,所述第一权重与所述第二权重之和为1。
可选地,所述最大相关度系数位于所述相关度矩阵的第一行和第一列。
本发明根据用户声纹特征与预设声纹特征之间的相关度信息,确定声纹识别结果,能够提升声纹识别的准确率。
附图说明
图1为本发明实施例中的一种声纹识别方法流程图;
图2为本发明实施例中的另一种声纹识别方法流程图;
图3为本发明实施例中的一种声纹识别装置结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种声纹识别方法,如图1所示,包括以下步骤:
步骤101,从音频信号中提取用户声纹特征。
其中,音频信号可以是用户在声纹识别平台输入的信号。例如,用户登入声纹识别平台的界面,通过朗读某些词语来描述指令,进行识别登入。
步骤102,对用户声纹特征与预设声纹特征进行典型相关分析,得到用户声纹特征与预设声纹特征之间的相关度信息。
其中,预设声纹特征可以存储在声纹识别平台所在的本地设备中,也可以存储在服务器中。例如,用户在注册时朗读一段文本,声纹识别平台提取音频信号,将音频信号的相关特征,即上述预设声纹特征,与用户注册ID绑定,存放于云服务器中。
步骤103,根据相关度信息确定声纹识别结果。
具体地,可以判断所述相关度矩阵中的最大相关度系数是否大于相似度阈值,如果是,则确定声纹识别成功;否则,确定声纹识别失败。
其中,最大相关度系数位于相关度矩阵的第一行和第一列。
本实施例中,用户用语言描述指令,声纹识别平台通过CCA(CanonicalCorrelation Analysis)识别用户ID,若检测发现与目标ID声纹不匹配,则要求用户输入密码,若密码仍然错误,则推送报警信息到指定手机或邮箱;若检测匹配,则通过语义解析执行相应指令。
本发明实施例中,根据用户声纹特征与预设声纹特征之间的相关度信息,确定声纹识别结果,能够提升声纹识别的准确率。
本发明实施例还提供了另一种声纹识别方法,如图2所示,包括以下步骤:
步骤201,从音频信号中提取用户声纹特征。
本实施例中,用户注册系统完毕后,若再次登入系统,需要完成特定语音指令(如“打开空调”)时,获得用户输入的音频信号,根据算法获得指令文本,同时获得用户声纹特征。
步骤202,对用户声纹特征与预设声纹特征进行典型相关分析,得到用户声纹特征与预设声纹特征之间的相关度矩阵。
具体地,若预设声纹特征为X=(x1,...,xn),用户声纹特征为Y=(y1,...,yn),可以通过对用户声纹特征与预设声纹特征进行典型相关分析,计算得到相关度矩阵ρ,将其第一行第一列的数定义为最大相关度系数ρ11。
本实施例中,用户第一次使用系统时,声纹识别平台要求用户朗读一段简单文本(三遍),根据获得的音频信号,提取对应特征,并将其特征放入数据库中,作为预设声纹特征。
步骤203,判断相关度矩阵中的最大相关度系数是否大于相似度阈值,如果是,则执行步骤205;否则,执行步骤204。
具体地,可以根据最大相关度系数是否大于相似度阈值,来判断输入该音频信号的用户是否与预设声纹特征绑定的目标ID匹配。若最大相关度系数大于相似度阈值,则判定用户输入的音频信号为同一ID的音频信号,即,声纹相同;否则,判定用户输入的音频信号为不同ID的音频信号,即声纹不同。
步骤204,确定声纹识别失败。
本实施例中,用户再次登入系统时,可以选择账号密码登入,也可以选择声纹登入。若声纹登入失败三次,系统要求用户使用账号密码登入;若用户账号密码登入失败三次,则要求用户使用声纹登入;若两种登入方式均失败三次,则限制其访问,并推送报警信息到指定手机或邮箱,提醒用户系统判断为非本人操作,并执行退出账户操作,提醒用户注意账户保护。若用户仍然想要登入,则需要回答特定问题与答案,并修改密码和重新朗读文本。
步骤205,确定声纹识别成功,根据最大相关度系数对预设声纹特征进行更新。
具体地,在声纹识别成功的情况下,可以将预设声纹特征与第一权重的乘积与用户声纹特征与第二权重的乘积相加,得到更新后的预设声纹特征;
其中,第二权重=(1-(ρ11-θ))/2,ρ11为所述最大相关系数,θ为步骤203中的相似度阈值,第一权重与第二权重之和为1。第一权重表示遗忘百分比,第二权重表示新知识的记忆百分比。
需要说明的是,上述计算第一权重和第二权重的公式仅为本发明的具体实现方式,但本发明的保护范围并不局限于此。对上述公式的稍作修改或简单变形,均在本发明的保护范围内。
本发明实施例中,若用户声纹特征与预设声纹特征在误差范围内符合,则确定使用者与目标ID一致,根据指令文本执行相应指令,自动更新迭代用户声纹,以更好地适应使用者特征,使得声纹识别的准确率更高。
基于上述方法,本发明实施例还提供一种声纹识别装置,如图3所示,包括:
提取模块310,用于从音频信号中提取用户声纹特征;
分析模块320,用于对所述用户声纹特征与预设声纹特征进行典型相关分析,得到所述用户声纹特征与所述预设声纹特征之间的相关度信息;
确定模块330,用于根据所述相关度信息确定声纹识别结果。
其中,所述相关度信息为相关度矩阵;
相应地,确定模块330,具体用于判断所述相关度矩阵中的最大相关度系数是否大于相似度阈值,如果是,则确定声纹识别成功;否则,确定声纹识别失败。其中,最大相关度系数位于相关度矩阵的第一行和第一列。
进一步地,上述装置,还包括:
更新模块,用于在声纹识别成功的情况下,根据所述最大相关度系数对所述预设声纹特征进行更新。
具体地,上述更新模块,具体用于在声纹识别成功的情况下,将所述预设声纹特征与第一权重的乘积与所述用户声纹特征与第二权重的乘积相加,得到更新后的预设声纹特征;
其中,所述第二权重=(1-(ρ11-θ))/2,ρ11为所述最大相关系数,θ为所述相似度阈值,所述第一权重与所述第二权重之和为1。
本发明实施例中,根据用户声纹特征与预设声纹特征之间的相关度信息,确定声纹识别结果,能够提升声纹识别的准确率。
结合本文中所公开的实施例描述的方法中的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (4)

1.一种声纹识别方法,其特征在于,包括以下步骤:
从音频信号中提取用户声纹特征;
对所述用户声纹特征与预设声纹特征进行典型相关分析,得到所述用户声纹特征与所述预设声纹特征之间的相关度信息;
根据所述相关度信息确定声纹识别结果;
所述相关度信息为相关度矩阵;所述根据所述相关度信息确定声纹识别结果,包括:
判断所述相关度矩阵中的最大相关度系数是否大于相似度阈值,如果是,则确定声纹识别成功;否则,确定声纹识别失败;
所述根据所述相关度信息确定声纹识别结果之后,还包括:
在声纹识别成功的情况下,根据所述最大相关度系数对所述预设声纹特征进行更新;
所述在声纹识别成功的情况下,根据所述最大相关度系数对所述预设声纹特征进行更新,包括:
在声纹识别成功的情况下,将所述预设声纹特征与第一权重的乘积与所述用户声纹特征与第二权重的乘积相加,得到更新后的预设声纹特征;
其中,所述第二权重=(1-(ρ11-θ))/2,ρ11为所述最大相关系数,θ为所述相似度阈值,所述第一权重与所述第二权重之和为1。
2.如权利要求1所述的方法,其特征在于,所述最大相关度系数位于所述相关度矩阵的第一行和第一列。
3.一种声纹识别装置,其特征在于,包括:
提取模块,用于从音频信号中提取用户声纹特征;
分析模块,用于对所述用户声纹特征与预设声纹特征进行典型相关分析,得到所述用户声纹特征与所述预设声纹特征之间的相关度信息;
确定模块,用于根据所述相关度信息确定声纹识别结果;
所述相关度信息为相关度矩阵;
所述确定模块,具体用于判断所述相关度矩阵中的最大相关度系数是否大于相似度阈值,如果是,则确定声纹识别成功;否则,确定声纹识别失败;
所述的装置,还包括:
更新模块,用于在声纹识别成功的情况下,根据所述最大相关度系数对所述预设声纹特征进行更新;
所述更新模块,具体用于在声纹识别成功的情况下,将所述预设声纹特征与第一权重的乘积与所述用户声纹特征与第二权重的乘积相加,得到更新后的预设声纹特征;
其中,所述第二权重=(1-(ρ11-θ))/2,ρ11为所述最大相关系数,θ为所述相似度阈值,所述第一权重与所述第二权重之和为1。
4.如权利要求3所述的装置,其特征在于,所述最大相关度系数位于所述相关度矩阵的第一行和第一列。
CN202010071165.3A 2020-01-21 2020-01-21 一种声纹识别方法和装置 Active CN111261172B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010071165.3A CN111261172B (zh) 2020-01-21 2020-01-21 一种声纹识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010071165.3A CN111261172B (zh) 2020-01-21 2020-01-21 一种声纹识别方法和装置

Publications (2)

Publication Number Publication Date
CN111261172A CN111261172A (zh) 2020-06-09
CN111261172B true CN111261172B (zh) 2023-02-10

Family

ID=70952491

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010071165.3A Active CN111261172B (zh) 2020-01-21 2020-01-21 一种声纹识别方法和装置

Country Status (1)

Country Link
CN (1) CN111261172B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112331210B (zh) * 2021-01-05 2021-05-18 太极计算机股份有限公司 一种语音识别装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101620670A (zh) * 2008-07-01 2010-01-06 邹采荣 一种应用于面部表情识别的模糊判别分析方法
CN104008370A (zh) * 2014-05-19 2014-08-27 清华大学 一种视频人脸识别方法
CN106446754A (zh) * 2015-08-11 2017-02-22 阿里巴巴集团控股有限公司 图像识别方法、度量学习方法、图像来源识别方法及装置
CN107331400A (zh) * 2017-08-25 2017-11-07 百度在线网络技术(北京)有限公司 一种声纹识别性能提升方法、装置、终端及存储介质
CN108932501A (zh) * 2018-07-13 2018-12-04 江苏大学 一种基于多核关联集成降维的人脸识别方法
CN109872728A (zh) * 2019-02-27 2019-06-11 南京邮电大学 基于核典型相关分析的语音和姿态双模态情感识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9858919B2 (en) * 2013-11-27 2018-01-02 International Business Machines Corporation Speaker adaptation of neural network acoustic models using I-vectors

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101620670A (zh) * 2008-07-01 2010-01-06 邹采荣 一种应用于面部表情识别的模糊判别分析方法
CN104008370A (zh) * 2014-05-19 2014-08-27 清华大学 一种视频人脸识别方法
CN106446754A (zh) * 2015-08-11 2017-02-22 阿里巴巴集团控股有限公司 图像识别方法、度量学习方法、图像来源识别方法及装置
CN107331400A (zh) * 2017-08-25 2017-11-07 百度在线网络技术(北京)有限公司 一种声纹识别性能提升方法、装置、终端及存储介质
CN108932501A (zh) * 2018-07-13 2018-12-04 江苏大学 一种基于多核关联集成降维的人脸识别方法
CN109872728A (zh) * 2019-02-27 2019-06-11 南京邮电大学 基于核典型相关分析的语音和姿态双模态情感识别方法

Also Published As

Publication number Publication date
CN111261172A (zh) 2020-06-09

Similar Documents

Publication Publication Date Title
JP6394709B2 (ja) 話者識別装置および話者識別用の登録音声の特徴量登録方法
CN104143326B (zh) 一种语音命令识别方法和装置
KR100655491B1 (ko) 음성인식 시스템에서의 2단계 발화 검증 방법 및 장치
WO2017197953A1 (zh) 基于声纹的身份识别方法及装置
CN109410664B (zh) 一种发音纠正方法及电子设备
US20030195739A1 (en) Grammar update system and method
US20130166296A1 (en) Method and apparatus for generating speaker-specific spoken passwords
CN108538293B (zh) 语音唤醒方法、装置及智能设备
US20120109652A1 (en) Leveraging Interaction Context to Improve Recognition Confidence Scores
US9564134B2 (en) Method and apparatus for speaker-calibrated speaker detection
US6826306B1 (en) System and method for automatic quality assurance of user enrollment in a recognition system
CN110797032B (zh) 一种声纹数据库建立方法及声纹识别方法
CN112309406A (zh) 声纹注册方法、装置和计算机可读存储介质
CN115394318A (zh) 一种音频检测方法和装置
CN111261172B (zh) 一种声纹识别方法和装置
CN109003612B (zh) 基于人工智能的语音问答验证系统及其方法
JP4143541B2 (ja) 動作モデルを使用して非煩雑的に話者を検証するための方法及びシステム
CN117351959A (zh) 基于拼音纠错的多重模型语音识别与指令召回方法及装置
JP6996627B2 (ja) 情報処理装置、制御方法、及びプログラム
CN110931020B (zh) 一种语音检测方法及装置
CN113035238B (zh) 音频评测方法、装置、电子设备和介质
JP4861941B2 (ja) 書き起こし内容確認方法、書き起こし内容確認装置、コンピュータプログラム
CN113593580A (zh) 一种声纹识别方法及装置
CN112992184B (zh) 一种发音评测方法、装置、电子设备和存储介质
CN117789706B (zh) 一种音频信息内容识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 411, 4th floor, building 4, No.44, Middle North Third Ring Road, Haidian District, Beijing 100088

Patentee after: Beijing Qingshu Intelligent Technology Co.,Ltd.

Address before: 100044 1415, 14th floor, building 1, yard 59, gaoliangqiaoxie street, Haidian District, Beijing

Patentee before: BEIJING AISHU WISDOM TECHNOLOGY CO.,LTD.