CN114708875A

CN114708875A - 一种音色切换方法及装置

Info

Publication number: CN114708875A
Application number: CN202210322472.3A
Authority: CN
Inventors: 吴岩; 葛温清; 张凯月; 张桂芳
Original assignee: Qingdao Haier Air Conditioner Gen Corp Ltd; Qingdao Haier Air Conditioning Electric Co Ltd; Haier Smart Home Co Ltd
Current assignee: Qingdao Haier Air Conditioner Gen Corp Ltd; Qingdao Haier Air Conditioning Electric Co Ltd; Haier Smart Home Co Ltd
Priority date: 2022-03-29
Filing date: 2022-03-29
Publication date: 2022-07-05
Also published as: WO2023185004A1

Abstract

本发明提供一种音色切换方法及装置，包括：接收目标语音指令；对所述目标语音指令进行声纹识别，获取声纹识别结果；根据所述声纹识别结果，设置应答音色模式。本发明提供的音色切换方法及装置，通过对用户的语音进行分析，利用声纹识别，可辨别不同的用户属性，并自动切换至用户所喜好的应答音色模式，实现便捷智能的语音切换。

Description

一种音色切换方法及装置

技术领域

本发明涉及人工智能技术领域，尤其涉及一种音色切换方法。

背景技术

每个不同年龄阶段的用户，喜好的语音的音色是不一样的，

当前现有的音色切换方式需要用户使用移动端打开应用程序(Application，APP)进行手动切换。

但是空调是一家多人混用，每个人在使用前都要先调一遍音色，非常的繁琐。

发明内容

本发明提供一种音色切换方法及装置，用以解决现有技术中音色切换的缺陷，实现便捷智能的音色切换。

本发明提供一种音色切换方法，包括：

接收目标语音指令；

对所述目标语音指令进行声纹识别，获取声纹识别结果；

根据所述声纹识别结果，设置应答音色模式。

根据本发明提供的一种音色切换方法，所述对所述目标语音指令进行声纹识别，获取声纹识别结果，包括：

确定所述目标语音指令的声纹特征；

将所述声纹特征与所有的录入声纹的特征进行比对；

在发送所述目标语音指令的对象为目标注册用户的情况下，在所述目标注册用户的注册信息中确定第一年龄信息；

根据所述第一年龄信息，确定所述目标注册用户的用户类别为所述声纹识别结果。

根据本发明提供的一种音色切换方法，在所述将所述声纹特征与所有的录入声纹的特征进行比对之后，还包括：

在发送所述目标语音指令的对象不为注册用户的情况下，对所述声纹特征进行年龄分析，确定发送所述目标语音指令的对象的第二年龄信息；

根据所述第二年龄信息，确定发送所述目标语音指令的对象的用户类别为所述声纹识别结果。

根据本发明提供的一种音色切换方法，在所述将所述声纹特征与所有的录入声纹的特征进行比对之前，还包括：

接收录入声纹指令；

根据所述录入声纹指令，生成录入声纹提示；

在接收到任一用户发送的声纹测试语音的情况下，确定所述任一用户的录入声纹并提取所述录入声纹的特征；

根据所述任一用户的录入声纹的特征，生成录入年龄提示；

根据所述任一用户的录入声纹的特征和录入年龄，确定所述任一用户的注册信息，并生成录入完成提示；

所述录入年龄是所述任一用户响应所述录入年龄提示后输入的。

根据本发明提供的一种音色切换方法，所述根据所述声纹识别结果，设置应答音色模式，包括：

在确定所述用户类别为儿童的情况下，将所述应答音色模式设置为儿童音色模式；

在确定所述用户类别为成人的情况下，将所述应答音色模式设置为默认音色模式；

在确定所述用户类别为老人的情况下，将所述应答音色模式设置为老人音色模式。

根据本发明提供的一种音色切换方法，所述确定所述目标语音指令的声纹特征，包括：

对所述目标语音指令进行预加重，确定预加重语音指令；

对所述预加重语音指令进行分帧，确定分帧语音指令；

对所述分帧语音指令进行加窗，获取加窗语音指令；

对所述加窗语音指令进行声纹提取，获取所述目标语音指令的声纹特征。

本发明还提供一种音色切换装置，包括：

接收单元，接收目标语音指令；

获取单元，对所述目标语音指令进行声纹识别，获取声纹识别结果；

确定单元，根据所述声纹识别结果，设置应答音色模式。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述音色切换方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述音色切换方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述音色切换方法。

本发明提供的音色切换方法及装置，通过对用户的语音进行分析，利用声纹识别，可辨别不同的用户属性，并自动切换至用户所喜好的应答音色，实现便捷智能的语音切换。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的音色切换方法的流程示意图之一；

图2是本发明提供的音色切换方法的流程示意图之二；

图3是本发明提供的音色切换装置的结构示意图；

图4是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有语音网器无法实现一台网器同时满足一家人的不同音色需求，需要用户手动去切换音色，非常麻烦。

下面结合图1至图4描述本发明的实施例所提供的音色切换方法及装置。

本发明实施例提供的音色切换方法，执行主体可以为电子设备或者电子设备中能够实现该音色切换方法的软件或功能模块或功能实体，本发明实施例中电子包括但不限于智能空调设备。需要说明的是，上述执行主体并不构成对本发明的限制。

图1是本发明提供的音色切换方法的流程示意图之一，如图1所示，包括但不限于以下步骤：

首先，在步骤S1中，接收目标语音指令。

接收用户发送的目标语音指令。

发送目标语音指令的用户可以是已录入声纹的注册用户，也可以为未录入声纹的非注册用户。

进一步地，在步骤S2中，对所述目标语音指令进行声纹识别，获取声纹识别结果。

在获取到目标语音指令之后，将该目标语音指令进行预加重、分帧和加窗等预处理，将预处理后的目标语音指令转换为声纹特征图。其中声纹特征图可以为梅尔能量谱图，梅尔能量谱图是在语谱图(对人的发声系统的一种描述)的基础上用梅尔滤波器组(模拟人的耳蜗)处理之后得到，是对人的听觉系统的描述。梅尔能量谱图能表征人能听到的声音的频率分布，是人通过声音辨别事物的深层特征，利用这种在梅尔频域的分布特性，更适合构建说话人识别系统，语音信号经过这样的转换，语音信号就变为了携带声纹信息的图像，对于单个信号，其梅尔能量谱图是黑白的，可以理解为单通道的特征图。

将声纹特征图输入至预先训练好的年龄识别神经网络模型以得到发送目标语音指令的用户的年龄信息。实现了智慧识人，变用户操控空调为空调主动为用户服务，极其的便利。

年龄识别神经网络模型经过大量的样本数据训练，样本数据包括样本用户的年龄信息和样本用户的声纹特征图，因此在输入用户的声纹特征图后就可以输出用户的年龄信息。

根据年龄信息，可以确定目标语音指令对应的用户类别，并将用户类别作为声纹识别结果。用户类别可以包括：儿童、成人和老人。

进一步地，在步骤S3中，根据所述声纹识别结果，设置应答音色模式。

根据声纹识别结果中的用户类别，得出的最适合儿童以及老人的播报语音合成(Text To Speech，TTS)音色。

本发明提供的音色切换方法，通过对用户的语音进行分析，利用声纹识别，可辨别不同的用户属性，并自动切换至用户所喜好的应答音色，实现便捷智能的语音切换。

可选地，所述确定所述目标语音指令的声纹特征，包括：

对所述目标语音指令进行预加重，确定预加重语音指令；

对所述预加重语音指令进行分帧，确定分帧语音指令；

对所述分帧语音指令进行加窗，获取加窗语音指令；

由于语音信号的平均功率谱受声门激励和口鼻辐射的影响，高频端大约在800赫兹(Hz)以上按6分贝/倍频程(dB/oct)衰减，频率越高相应的成分越小，为此要在对语音信号进行分析之前对其高频部分加以提升。可以利用数字滤波器实现目标语音指令的预加重。

以10至20毫秒(ms)为间隔将声纹信号分为若干帧，一帧为一个基本单位，实现对预加重语音指令的分帧。

采用汉明窗函数对分帧语音指令来进行窗化。

经过对目标语音指令的预加重、分帧和加窗，能够消除因为人类发声器官本身和由于采集语音信号的设备所带来的混叠、高次谐波失真、高频等等因素，对语音信号质量的影响。尽可能保证后续语音处理得到的信号更均匀、平滑，为信号参数提取提供优质的参数，提高语音处理质量。

可选地，在所述将所述声纹特征与所有的录入声纹的特征进行比对之前，还包括：

接收录入声纹指令；

根据所述录入声纹指令，生成录入声纹提示；

根据所述任一用户的录入声纹的特征，生成录入年龄提示；

智能空调在接收到录入声纹的指令之后，切换至声纹录入模式，并发出语音提示提醒用户录入声纹测试语音。

用户重复发音两次以上的声纹测试语音，每次发音后，提取该段纹测试语音的滤波器组的特征(Filter bank，Fbank)特征信息，声纹识别模型将Fbank特征信息转化为该段语音的声纹特征；最后将各次发音得到的声纹特征求平均值作为用户发出的录入声纹的特征；智能空调生成录入年龄提示，在接收到用户发送的录入年龄之后，将录入声纹和录入年龄作为用户的注册信息，并语音播报模块提示该次录入成功。

声纹识别模型是一个深度神经网络模型，由上千小时的中文语料训练而得，具有很强的抗噪性和鲁棒性。

可选地，所述对所述目标语音指令进行声纹识别，获取声纹识别结果，包括：

确定所述目标语音指令的声纹特征；

将所述声纹特征与所有的录入声纹的特征进行比对；

提取目标语音指令的Fbank特征信息，并输入至声纹识别模型，输出为目标语音指令的声纹特征，将目标语音指令的声纹特征与所有注册用户已储存的录入声纹特征进行相似度计算；若得到的最高相似度高于设置的声纹阈值，则判定该最高相似度对应的录入声纹特征用户为目标语音指令的发出用户，可以根据该用户的注册信息确定年龄信息，并生成声目标语音指令的纹识别结果；若最高相似度低于设置的声纹阈值，则确定发送所述目标语音指令的对象不为注册用户。

可选地，在所述将所述声纹特征与所有的录入声纹的特征进行比对之后，还包括：

注册制的录入声纹，以及对非注册制声纹直接识别年龄属性，均能都支持自动识别用户角色并实现音色的自动切换。

将声纹特征图输入至预先训练好的年龄识别神经网络模型以得到发送目标语音指令的用户的年龄信息，并生成声目标语音指令的纹识别结果。

可选地，所述根据所述声纹识别结果，设置应答音色模式，包括：

对于儿童来说，喜欢更活泼可爱的儿童音色；对于老人来说，听力下降，更喜欢语速更慢更清晰，声音更洪亮的老年化音色；儿童音色模式和老人音色模式分别针对儿童和老人特点专属定制的个性化音色。

在答音色模式为儿童音色模式的情况下，以儿童的音色进行语音交互和应答；在答音色模式为默认音色模式的情况下，以保持音色不变；在答音色模式为老人音色模式的情况下，以老人的音色进行语音交互和应答。

图2是本发明提供的音色切换方法的流程示意图之二，如图2所示，包括：

首先，通过语音交互，得到用户发送的目标语音指令；

进一步地，对目标语音指令进行声纹识别，在声纹识别结果显示用户为儿童的情况下，自动切换为儿童音色；在声纹识别结果显示用户为成人的情况下，保持音色不变；声纹识别结果显示用户为老人的情况下，自动切换为老人音色。

下面对本发明提供的音色切换装置进行描述，下文描述的音色切换装置与上文描述的音色切换方法可相互对应参照。

图3是本发明提供的音色切换装置的结构示意图，如图3所示，包括：

接收单元301，接收目标语音指令；

获取单元302，对所述目标语音指令进行声纹识别，获取声纹识别结果；

确定单元303，根据所述声纹识别结果，设置应答音色模式。

首先，接收单元301接收目标语音指令。

接收用户发送的目标语音指令。

进一步地，获取单元302对所述目标语音指令进行声纹识别，获取声纹识别结果。

将所述声纹特征图输入至预先训练好的年龄识别神经网络模型以得到所述目标用户的年龄信息。实现了智慧识人，变用户操控空调为空调主动为用户服务，极其的便利。

年龄识别神经网络模型经过大量的样本数据训练，样本数据包括样本用户的语音信号和样本用户的声纹特征图，因此在输入用户的声纹特征图后就可以输出用户的年龄信息。

进一步地，确定单元303根据所述声纹识别结果，设置应答音色模式。

本发明提供的音色切换装置，通过对用户的语音进行分析，利用声纹识别，可辨别不同的用户属性，并自动切换至用户所喜好的应答音色，实现便捷智能的语音切换。

图4是本发明提供的电子设备的结构示意图，如图4所示，该电子设备可以包括：处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令，以执行音色切换方法，该方法包括：接收目标语音指令；对所述目标语音指令进行声纹识别，获取声纹识别结果；根据所述声纹识别结果，设置应答音色模式。

此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的音色切换方法，该方法包括：接收目标语音指令；对所述目标语音指令进行声纹识别，获取声纹识别结果；根据所述声纹识别结果，设置应答音色模式。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的音色切换方法，该方法包括：接收目标语音指令；对所述目标语音指令进行声纹识别，获取声纹识别结果；根据所述声纹识别结果，设置应答音色模式。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种音色切换方法，其特征在于，包括：

接收目标语音指令；

对所述目标语音指令进行声纹识别，获取声纹识别结果；

根据所述声纹识别结果，设置应答音色模式。

2.根据权利要求1所述的音色切换方法，其特征在于，所述对所述目标语音指令进行声纹识别，获取声纹识别结果，包括：

确定所述目标语音指令的声纹特征；

将所述声纹特征与所有的录入声纹的特征进行比对；

3.根据权利要求2所述的音色切换方法，其特征在于，在所述将所述声纹特征与所有的录入声纹的特征进行比对之后，还包括：

4.根据权利要求2所述的音色切换方法，其特征在于，在所述将所述声纹特征与所有的录入声纹的特征进行比对之前，还包括：

接收录入声纹指令；

根据所述录入声纹指令，生成录入声纹提示；

根据所述任一用户的录入声纹的特征，生成录入年龄提示；

5.根据权利要求2或3所述的音色切换方法，其特征在于，所述根据所述声纹识别结果，设置应答音色模式，包括：

6.根据权利要求2所述的音色切换方法，其特征在于，所述确定所述目标语音指令的声纹特征，包括：

对所述目标语音指令进行预加重，确定预加重语音指令；

对所述预加重语音指令进行分帧，确定分帧语音指令；

对所述分帧语音指令进行加窗，获取加窗语音指令；

7.一种音色切换装置，其特征在于，包括：

接收单元，接收目标语音指令；

确定单元，根据所述声纹识别结果，设置应答音色模式。

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述音色切换方法。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述音色切换方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述音色切换方法。