CN111261172B

CN111261172B - 一种声纹识别方法和装置

Info

Publication number: CN111261172B
Application number: CN202010071165.3A
Authority: CN
Inventors: 张晴晴; 罗磊; 杨金富; 岑吴镕; 马光谦; 汪洋
Original assignee: Beijing Aishu Wisdom Technology Co ltd
Current assignee: Beijing Qingshu Intelligent Technology Co ltd
Priority date: 2020-01-21
Filing date: 2020-01-21
Publication date: 2023-02-10
Anticipated expiration: 2040-01-21
Also published as: CN111261172A

Abstract

本发明公开一种声纹识别方法和装置，该方法包括以下步骤：从音频信号中提取用户声纹特征；对所述用户声纹特征与预设声纹特征进行典型相关分析，得到所述用户声纹特征与所述预设声纹特征之间的相关度信息；根据所述相关度信息确定声纹识别结果。本发明根据用户声纹特征与预设声纹特征之间的相关度信息，确定声纹识别结果，能够提升声纹识别的准确率。

Description

一种声纹识别方法和装置

技术领域

本发明涉及音频处理技术领域，特别涉及一种声纹识别方法和装置。

背景技术

声纹识别是根据说话人语音中所包含的独一无二的发音生理和行为特征等特征参数，自动对说话人的身份进行识别的生物识别方法。声纹识别主要采集人的语音信息，提取特有的语音特征并转化成数字符号，且将其存成特征模板，使得在应用时，将待识别语音与数据库中的模板进行匹配，从而判别说话人的身份。目前，声纹识别技术已相对成熟并被广泛应用。声纹识别系统通过用户语音确定用户ID，确认用户相应动作，执行相应指令。

现有技术在进行声纹识别时，将音频信号转换为指令，通常需要建立声学模型和语言模型，并在模型建立过程中使用梅尔频率倒谱系数、隐马尔可夫算法、前后向算法、Viterbi算法和期望最大算法。然而，现有算法的容错性太差，基本都是靠一个相似度的得分来评定两份语音特征的样本是否属于同一个人。如果样本量不够大或者样本的语音特征相似度较高，则难以做出准确判断。

发明内容

本发明提供了一种声纹识别方法和装置，以解决现有技术中的声纹识别准确性较差的缺陷。

本发明提供了一种声纹识别方法，包括以下步骤：

从音频信号中提取用户声纹特征；

对所述用户声纹特征与预设声纹特征进行典型相关分析，得到所述用户声纹特征与所述预设声纹特征之间的相关度信息；

根据所述相关度信息确定声纹识别结果。

可选地，所述相关度信息为相关度矩阵；所述根据所述相关度信息确定声纹识别结果，包括：

判断所述相关度矩阵中的最大相关度系数是否大于相似度阈值，如果是，则确定声纹识别成功；否则，确定声纹识别失败。

可选地，所述根据所述相关度信息确定声纹识别结果之后，还包括：

在声纹识别成功的情况下，根据所述最大相关度系数对所述预设声纹特征进行更新。

可选地，所述在声纹识别成功的情况下，根据所述最大相关度系数对所述预设声纹特征进行更新，包括：

在声纹识别成功的情况下，将所述预设声纹特征与第一权重的乘积与所述用户声纹特征与第二权重的乘积相加，得到更新后的预设声纹特征；

其中，所述第二权重＝(1-(ρ11-θ))/2，ρ11为所述最大相关系数，θ为所述相似度阈值，所述第一权重与所述第二权重之和为1。

可选地，所述最大相关度系数位于所述相关度矩阵的第一行和第一列。

本发明还提供了一种声纹识别装置，包括：

提取模块，用于从音频信号中提取用户声纹特征；

分析模块，用于对所述用户声纹特征与预设声纹特征进行典型相关分析，得到所述用户声纹特征与所述预设声纹特征之间的相关度信息；

确定模块，用于根据所述相关度信息确定声纹识别结果。

可选地，所述相关度信息为相关度矩阵；

所述确定模块，具体用于判断所述相关度矩阵中的最大相关度系数是否大于相似度阈值，如果是，则确定声纹识别成功；否则，确定声纹识别失败。

可选地，所述的装置，还包括：

更新模块，用于在声纹识别成功的情况下，根据所述最大相关度系数对所述预设声纹特征进行更新。

可选地，所述更新模块，具体用于在声纹识别成功的情况下，将所述预设声纹特征与第一权重的乘积与所述用户声纹特征与第二权重的乘积相加，得到更新后的预设声纹特征；

本发明根据用户声纹特征与预设声纹特征之间的相关度信息，确定声纹识别结果，能够提升声纹识别的准确率。

附图说明

图1为本发明实施例中的一种声纹识别方法流程图；

图2为本发明实施例中的另一种声纹识别方法流程图；

图3为本发明实施例中的一种声纹识别装置结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种声纹识别方法，如图1所示，包括以下步骤：

步骤101，从音频信号中提取用户声纹特征。

其中，音频信号可以是用户在声纹识别平台输入的信号。例如，用户登入声纹识别平台的界面，通过朗读某些词语来描述指令，进行识别登入。

步骤102，对用户声纹特征与预设声纹特征进行典型相关分析，得到用户声纹特征与预设声纹特征之间的相关度信息。

其中，预设声纹特征可以存储在声纹识别平台所在的本地设备中，也可以存储在服务器中。例如，用户在注册时朗读一段文本，声纹识别平台提取音频信号，将音频信号的相关特征，即上述预设声纹特征，与用户注册ID绑定，存放于云服务器中。

步骤103，根据相关度信息确定声纹识别结果。

具体地，可以判断所述相关度矩阵中的最大相关度系数是否大于相似度阈值，如果是，则确定声纹识别成功；否则，确定声纹识别失败。

其中，最大相关度系数位于相关度矩阵的第一行和第一列。

本实施例中，用户用语言描述指令，声纹识别平台通过CCA(CanonicalCorrelation Analysis)识别用户ID，若检测发现与目标ID声纹不匹配，则要求用户输入密码，若密码仍然错误，则推送报警信息到指定手机或邮箱；若检测匹配，则通过语义解析执行相应指令。

本发明实施例中，根据用户声纹特征与预设声纹特征之间的相关度信息，确定声纹识别结果，能够提升声纹识别的准确率。

本发明实施例还提供了另一种声纹识别方法，如图2所示，包括以下步骤：

步骤201，从音频信号中提取用户声纹特征。

本实施例中，用户注册系统完毕后，若再次登入系统，需要完成特定语音指令(如“打开空调”)时，获得用户输入的音频信号，根据算法获得指令文本，同时获得用户声纹特征。

步骤202，对用户声纹特征与预设声纹特征进行典型相关分析，得到用户声纹特征与预设声纹特征之间的相关度矩阵。

具体地，若预设声纹特征为X＝(x1，...，xn)，用户声纹特征为Y＝(y1，...，yn)，可以通过对用户声纹特征与预设声纹特征进行典型相关分析，计算得到相关度矩阵ρ，将其第一行第一列的数定义为最大相关度系数ρ11。

本实施例中，用户第一次使用系统时，声纹识别平台要求用户朗读一段简单文本(三遍)，根据获得的音频信号，提取对应特征，并将其特征放入数据库中，作为预设声纹特征。

步骤203，判断相关度矩阵中的最大相关度系数是否大于相似度阈值，如果是，则执行步骤205；否则，执行步骤204。

具体地，可以根据最大相关度系数是否大于相似度阈值，来判断输入该音频信号的用户是否与预设声纹特征绑定的目标ID匹配。若最大相关度系数大于相似度阈值，则判定用户输入的音频信号为同一ID的音频信号，即，声纹相同；否则，判定用户输入的音频信号为不同ID的音频信号，即声纹不同。

步骤204，确定声纹识别失败。

本实施例中，用户再次登入系统时，可以选择账号密码登入，也可以选择声纹登入。若声纹登入失败三次，系统要求用户使用账号密码登入；若用户账号密码登入失败三次，则要求用户使用声纹登入；若两种登入方式均失败三次，则限制其访问，并推送报警信息到指定手机或邮箱，提醒用户系统判断为非本人操作，并执行退出账户操作，提醒用户注意账户保护。若用户仍然想要登入，则需要回答特定问题与答案，并修改密码和重新朗读文本。

步骤205，确定声纹识别成功，根据最大相关度系数对预设声纹特征进行更新。

具体地，在声纹识别成功的情况下，可以将预设声纹特征与第一权重的乘积与用户声纹特征与第二权重的乘积相加，得到更新后的预设声纹特征；

其中，第二权重＝(1-(ρ11-θ))/2，ρ11为所述最大相关系数，θ为步骤203中的相似度阈值，第一权重与第二权重之和为1。第一权重表示遗忘百分比，第二权重表示新知识的记忆百分比。

需要说明的是，上述计算第一权重和第二权重的公式仅为本发明的具体实现方式，但本发明的保护范围并不局限于此。对上述公式的稍作修改或简单变形，均在本发明的保护范围内。

本发明实施例中，若用户声纹特征与预设声纹特征在误差范围内符合，则确定使用者与目标ID一致，根据指令文本执行相应指令，自动更新迭代用户声纹，以更好地适应使用者特征，使得声纹识别的准确率更高。

基于上述方法，本发明实施例还提供一种声纹识别装置，如图3所示，包括：

提取模块310，用于从音频信号中提取用户声纹特征；

分析模块320，用于对所述用户声纹特征与预设声纹特征进行典型相关分析，得到所述用户声纹特征与所述预设声纹特征之间的相关度信息；

确定模块330，用于根据所述相关度信息确定声纹识别结果。

其中，所述相关度信息为相关度矩阵；

相应地，确定模块330，具体用于判断所述相关度矩阵中的最大相关度系数是否大于相似度阈值，如果是，则确定声纹识别成功；否则，确定声纹识别失败。其中，最大相关度系数位于相关度矩阵的第一行和第一列。

进一步地，上述装置，还包括：

具体地，上述更新模块，具体用于在声纹识别成功的情况下，将所述预设声纹特征与第一权重的乘积与所述用户声纹特征与第二权重的乘积相加，得到更新后的预设声纹特征；

结合本文中所公开的实施例描述的方法中的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种声纹识别方法，其特征在于，包括以下步骤：

从音频信号中提取用户声纹特征；

根据所述相关度信息确定声纹识别结果；

所述相关度信息为相关度矩阵；所述根据所述相关度信息确定声纹识别结果，包括：

判断所述相关度矩阵中的最大相关度系数是否大于相似度阈值，如果是，则确定声纹识别成功；否则，确定声纹识别失败；

所述根据所述相关度信息确定声纹识别结果之后，还包括：

在声纹识别成功的情况下，根据所述最大相关度系数对所述预设声纹特征进行更新；

所述在声纹识别成功的情况下，根据所述最大相关度系数对所述预设声纹特征进行更新，包括：

2.如权利要求1所述的方法，其特征在于，所述最大相关度系数位于所述相关度矩阵的第一行和第一列。

3.一种声纹识别装置，其特征在于，包括：

提取模块，用于从音频信号中提取用户声纹特征；

确定模块，用于根据所述相关度信息确定声纹识别结果；

所述相关度信息为相关度矩阵；

所述确定模块，具体用于判断所述相关度矩阵中的最大相关度系数是否大于相似度阈值，如果是，则确定声纹识别成功；否则，确定声纹识别失败；

所述的装置，还包括：

更新模块，用于在声纹识别成功的情况下，根据所述最大相关度系数对所述预设声纹特征进行更新；

所述更新模块，具体用于在声纹识别成功的情况下，将所述预设声纹特征与第一权重的乘积与所述用户声纹特征与第二权重的乘积相加，得到更新后的预设声纹特征；

4.如权利要求3所述的装置，其特征在于，所述最大相关度系数位于所述相关度矩阵的第一行和第一列。