CN110364182B

CN110364182B - 一种声音信号处理方法及装置

Info

Publication number: CN110364182B
Application number: CN201910715952.4A
Authority: CN
Inventors: 鲁霄
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2019-08-01
Filing date: 2019-08-01
Publication date: 2022-06-14
Anticipated expiration: 2039-08-01
Also published as: CN110364182A

Abstract

本发明实施例公开了一种声音信号处理方法及装置，该方法包括：根据多个歌星的声音样本生成所述多个歌星中每个歌星的声音向量，其中，任意一个歌星的声音向量为对所述任意一个歌星的声音样本的量化；接收用户输入的目标声音信号；对所述目标声音信号进行量化以得到目标声音向量；确定所述多个歌星的声音向量中与所述目标声音向量的相似度满足预设条件的N个歌星的声音向量，其中，N为大于或者等于1的正整数；输出提示信息，其中，所述提示信息用于提示所述用户适合唱所述N个歌星主唱的歌曲。采用本发明实施例，能够快速帮助用户查找适合其歌唱的歌曲。

Description

一种声音信号处理方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种声音信号处理方法及装置。

背景技术

听歌是一种非常让人享受的娱乐方式，对于一些旋律较好个歌曲，人们往往也会自己演唱，例如，独自一人清唱，或者在歌厅伴随着音乐尽情狂欢。有些人唱歌的旋律和音色能够达到与原唱难以区分的程度，而有些人唱歌却与原唱相差甚远，毫无美感可言，因此给人的整体感觉就是唱得不好。设备如何帮助用户寻找适合用户歌唱的歌曲是本领域的技术人员正在研究的技术问题。

发明内容

本发明实施例公开了一种声音信号处理方法及装置，能够快速帮助用户查找适合其歌唱的歌曲。

第一方面，本发明实施例提供了一种声音信号处理方法，该方法包括：

根据多个歌星的声音样本生成所述多个歌星中每个歌星的声音向量，其中，任意一个歌星的声音向量为对所述任意一个歌星的声音样本的量化；

接收用户输入的目标声音信号；

对所述目标声音信号进行量化以得到目标声音向量；

确定所述多个歌星的声音向量中与所述目标声音向量的相似度满足预设条件的N个歌星的声音向量，其中，N为大于或者等于1的正整数；

输出提示信息，其中，所述提示信息用于提示所述用户适合唱所述N个歌星主唱的歌曲。

在上述方法中，将用户的声音与多个歌星的声音进行比较，从而得出与用户声音相似比较高的一些歌星，然后输出提示信息以明确告知用户适合唱这些歌星的歌曲，这样用户就可以针对性的去演唱或练习这些歌星的歌曲，从而达到演唱效果尽可能地接近歌星的演唱水平，显著提升了用户的体验。

结合第一方面，在第一方面的第一种可能的实现方式中，所述提示信息包括第一信息和第二信息，其中，所述第一信息用于提示所述用户适合唱所述N个歌星主唱的歌曲；所述第二信息包含所述N个歌星主唱的歌曲信息。

结合第一方面，或者第一方面的上述任一种可能的实现方式，在第一方面的第二种可能的实现方式中，所述输出提示信息之后，还包括：

接收输入的针对目标歌曲信息的选择操作，其中，所述目标歌曲信息为所述N个歌星主唱的歌曲信息中的一项歌曲信息；

根据所述选择操作播放所述目标歌曲信息的伴奏，以供所述用户根据所述伴奏进行演唱。

结合第一方面，或者第一方面的上述任一种可能的实现方式，在第一方面的第三种可能的实现方式中

所述提示信息包括第三信息，所述第三信息用于表征所述N个歌星的声音向量分别与所述目标声音向量的相似度。

结合第一方面，或者第一方面的上述任一种可能的实现方式，在第一方面的第四种可能的实现方式中，还包括：

根据第一样本集训练得到通用背景模型UBM，其中，所述第一样本集包括多段人声信号，所述UBM用于体现人声的共有特性；

所述根据多个歌星的声音样本生成所述多个歌星中每个歌星的声音向量，包括：通过所述UBM创建第一高斯混合模型GMM，通过语音信号端点检测VAD提取多个歌星中每个歌星的声音信号内有真实语音的部分，针对所述每个歌星的声音信号内有真实语音的部分提取第一MFCC特征，所述第一MFCC特征包括一阶差分和二阶差分，所述一阶差分用于体现音频的时域特性，所述二阶差分用于体现音频的频域特性；通过所述第一GMM对基于每个歌星的声音信号得到的所述第一MFCC特征进行优化，得到所述每个歌星的声音向量；

所述对所述目标声音信号进行量化以得到目标声音向量，包括：通过所述UBM创建第二GMM，通过所述VAD提取来自所述用户的声音信号内有真实语音的部分，针对所述声音信号内有真实语音的部分提取第二MFCC特征；通过所述第二GMM对所述第二MFCC特征进行优化，得到目标声音向量。

结合第一方面，或者第一方面的上述任一种可能的实现方式，在第一方面的第五种可能的实现方式中，所述目标声音向量和所述每个歌星的声音向量均属于声纹匹配向量i-Vector，且均经过了归一化处理。

结合第一方面，或者第一方面的上述任一种可能的实现方式，在第一方面的第六种可能的实现方式中，所述确定所述多个歌星的声音向量中与所述目标声音向量的相似度满足预设条件的N个歌星的声音向量，包括：

计算所述目标声音向量与所述多个歌星中每个歌星的声音向量的余弦值；

从所述多个歌星的声音向量中选择N个歌星的声音向量，其中，所述目标声音向量与N个歌星的声音向量的余弦值均排在计算出的全部余弦值的前N位。

第二方面，本申请实施例提供一种声音信号处理装置，该装置包括：

生成单元，用于根据多个歌星的声音样本生成所述多个歌星中每个歌星的声音向量，其中，任意一个歌星的声音向量为对所述任意一个歌星的声音样本的量化；

第一接收单元，用于接收用户输入的目标声音信号；

量化单元，用于对所述目标声音信号进行量化以得到目标声音向量；

确定单元，用于确定所述多个歌星的声音向量中与所述目标声音向量的相似度满足预设条件的N个歌星的声音向量，其中，N为大于或者等于1的正整数；

输出单元，用于输出提示信息，其中，所述提示信息用于提示所述用户适合唱所述N个歌星主唱的歌曲。

在上述装置中，将用户的声音与多个歌星的声音进行比较，从而得出与用户声音相似比较高的一些歌星，然后输出提示信息以明确告知用户适合唱这些歌星的歌曲，这样用户就可以针对性的去演唱或练习这些歌星的歌曲，从而达到演唱效果尽可能地接近歌星的演唱水平，显著提升了用户的体验。

结合第二方面，在第二方面的第一种可能的实现方式中，所述提示信息包括第一信息和第二信息，其中，所述第一信息用于提示所述用户适合唱所述N个歌星主唱的歌曲；所述第二信息包含所述N个歌星主唱的歌曲信息。

结合第二方面，或者第二方面的上述任一种可能的实现方式，在第二方面的第二种可能的实现方式中，还包括：

第二接收单元，用于在所述输出单元输出提示信息之后，接收输入的针对目标歌曲信息的选择操作，其中，所述目标歌曲信息为所述N个歌星主唱的歌曲信息中的一项歌曲信息；

播放单元，用于根据所述选择操作播放所述目标歌曲信息的伴奏，以供所述用户根据所述伴奏进行演唱。

结合第二方面，或者第二方面的上述任一种可能的实现方式，在第二方面的第三种可能的实现方式中，所述提示信息包括第三信息，所述第三信息用于表征所述N个歌星的声音向量分别与所述目标声音向量的相似度。

结合第二方面，或者第二方面的上述任一种可能的实现方式，在第二方面的第四种可能的实现方式中，还包括：

训练单元，用于根据第一样本集训练得到通用背景模型UBM，其中，所述第一样本集包括多段人声信号，所述UBM用于体现人声的共有特性；

所述生成单元，用于根据多个歌星的声音样本生成所述多个歌星中每个歌星的声音向量，具体为：用于通过所述UBM创建第一高斯混合模型GMM，通过语音信号端点检测VAD提取多个歌星中每个歌星的声音信号内有真实语音的部分，针对所述每个歌星的声音信号内有真实语音的部分提取第一MFCC特征，所述第一MFCC特征包括一阶差分和二阶差分，所述一阶差分用于体现音频的时域特性，所述二阶差分用于体现音频的频域特性；通过所述第一GMM对基于每个歌星的声音信号得到的所述第一MFCC特征进行优化，得到所述每个歌星的声音向量；

所述量化单元，用于对所述目标声音信号进行量化以得到目标声音向量，具体为：用于通过所述UBM创建第二GMM，通过所述VAD提取来自所述用户的声音信号内有真实语音的部分，针对所述声音信号内有真实语音的部分提取第二MFCC特征；通过所述第二GMM对所述第二MFCC特征进行优化，得到目标声音向量。

结合第二方面，或者第二方面的上述任一种可能的实现方式，在第二方面的第五种可能的实现方式中，所述目标声音向量和所述每个歌星的声音向量均属于声纹匹配向量i-Vector，且均经过了归一化处理。

结合第二方面，或者第二方面的上述任一种可能的实现方式，在第二方面的第六种可能的实现方式中，所述确定单元，用于确定所述多个歌星的声音向量中与所述目标声音向量的相似度满足预设条件的N个歌星的声音向量，具体为：

用于计算所述目标声音向量与所述多个歌星中每个歌星的声音向量的余弦值；从所述多个歌星的声音向量中选择N个歌星的声音向量，其中，所述目标声音向量与N个歌星的声音向量的余弦值均排在计算出的全部余弦值的前N位。

第三方面，本发明实施例提供了一种声音信号处理终端，该终端包括处理器、存储器和输入接口、输出接口，所述存储器用于存储计算机程序，所述处理器用于调用所述计算机程序来执行如下操作：

通过所述输入接口(例如触摸显示屏触控组件)接收用户输入的目标声音信号；

对所述目标声音信号进行量化以得到目标声音向量；

通过输出接口(例如触摸显示屏的显示组件)输出提示信息，其中，所述提示信息用于提示所述用户适合唱所述N个歌星主唱的歌曲。

结合第三方面，在第三方面的第一种可能的实现方式中，所述提示信息包括第一信息和第二信息，其中，所述第一信息用于提示所述用户适合唱所述N个歌星主唱的歌曲；所述第二信息包含所述N个歌星主唱的歌曲信息。

结合第三方面，或者第三方面的上述任一种可能的实现方式，在第三方面的第二种可能的实现方式中，所述处理器还用于在通过所述输出接口输出提示信息之后，通过所述输入组件接收输入的针对目标歌曲信息的选择操作，其中，所述目标歌曲信息为所述N个歌星主唱的歌曲信息中的一项歌曲信息；根据所述选择操作播放所述目标歌曲信息的伴奏，以供所述用户根据所述伴奏进行演唱。

结合第三方面，或者第三方面的上述任一种可能的实现方式，在第三方面的第三种可能的实现方式中，

结合第三方面，或者第三方面的上述任一种可能的实现方式，在第三方面的第四种可能的实现方式中，所述处理器还用于：

所述根据多个歌星的声音样本生成所述多个歌星中每个歌星的声音向量，具体为：通过所述UBM创建第一高斯混合模型GMM，通过语音信号端点检测VAD提取多个歌星中每个歌星的声音信号内有真实语音的部分，针对所述每个歌星的声音信号内有真实语音的部分提取第一MFCC特征，所述第一MFCC特征包括一阶差分和二阶差分，所述一阶差分用于体现音频的时域特性，所述二阶差分用于体现音频的频域特性；通过所述第一GMM对基于每个歌星的声音信号得到的所述第一MFCC特征进行优化，得到所述每个歌星的声音向量；

所述对所述目标声音信号进行量化以得到目标声音向量，具体为：通过所述UBM创建第二GMM，通过所述VAD提取来自所述用户的声音信号内有真实语音的部分，针对所述声音信号内有真实语音的部分提取第二MFCC特征；通过所述第二GMM对所述第二MFCC特征进行优化，得到目标声音向量。

结合第三方面，或者第三方面的上述任一种可能的实现方式，在第三方面的第五种可能的实现方式中，所述目标声音向量和所述每个歌星的声音向量均属于声纹匹配向量i-Vector，且均经过了归一化处理。

结合第三方面，或者第三方面的上述任一种可能的实现方式，在第三方面的第六种可能的实现方式中，所述确定所述多个歌星的声音向量中与所述目标声音向量的相似度满足预设条件的N个歌星的声音向量，具体为：

第四方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序在处理器上运行时，实现第一方面或者第一方面的任一可能的实现方式所描述的方法。

通过实施本发明实施例，将用户的声音与多个歌星的声音进行比较，从而得出与用户声音相似比较高的一些歌星，然后输出提示信息以明确告知用户适合唱这些歌星的歌曲，这样用户就可以针对性的去演唱或练习这些歌星的歌曲，从而达到演唱效果尽可能地接近歌星的演唱水平，显著提升了用户的体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对本发明实施例或背景技术中所需要使用的附图作简单地介绍。

图1是本发明实施例提供的一种声音信号处理方法的流程示意图；

图2是本发明实施例提供的一种获取语音的场景示意图；

图3是本发明实施例提供的又一种获取语音的场景示意图；

图4是本发明实施例提供的又一种声音信号处理方法的流程示意图；

图5是本发明实施例提供的一种输出提示信息的场景示意图；

图6是本发明实施例提供的一种装置的结构示意图；

图7是本发明实施例提供的一种终端的结构示意图。

具体实施方式

下面将结合附图对本发明实施例中的技术方案进行描述。

下面将结合本申请中的附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应当理解，在本说明书和权利要求书中使用中，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

具体实现中，本申请中描述的终端包括但不限于诸如具有触摸敏感表面(例如，触摸屏显示器和/或触摸板)的移动电话、膝上型计算机或平板计算机之类的其它便携式设备。还应当理解的是，在某些实施例中，所述设备并非便携式通信设备，而是具有触摸敏感表面(例如，触摸屏显示器和/或触摸板)的台式计算机。当然，该终端也可能是车载设备(例如，汽车、自行车、电动车、飞机、船舶等)、可穿戴设备(例如智能手表(如iWatch等)、智能手环、计步器等)、智能家居设备(例如，冰箱、电视、空调、电表等)、智能机器人、唱歌的系统设备(例如，KTV中的全套歌唱设备、小型唱吧中的全套歌唱设备等等)。

可选的，该终端支持各种应用程序，例如以下中的一个或多个：绘图应用程序、演示应用程序、文字处理应用程序、网站创建应用程序、盘刻录应用程序、电子表格应用程序、游戏应用程序、电话应用程序、视频会议应用程序、电子邮件应用程序、即时消息收发应用程序、锻炼支持应用程序、照片管理应用程序、数码相机应用程序、数字摄影机应用程序、web浏览应用程序、数字音乐播放器应用程序和/或数字视频播放器应用程序。

可以在终端上执行的各种应用程序可以使用诸如触摸敏感表面的至少一个公共物理用户接口设备。可以在应用程序之间和/或相应应用程序内调整和/或改变触摸敏感表面的一个或多个功能以及终端上显示的相应信息。这样，终端的公共物理架构(例如，触摸敏感表面)可以支持具有对用户而言直观且透明的用户界面的各种应用程序。

请参见图1，图1是本发明实施例提供的一种声音信号处理方法的流程示意图，该方法包括但不限于如下步骤。

步骤S101：终端根据多个歌星的声音样本生成所述多个歌星中每个歌星的声音向量。

具体地，歌星的声音样本通常为声音信号，例如，唱歌时的音频信号、参加访谈节目时的音频信号、演讲时的应聘信号等等。由于本申请实施例中的声音信号之间存在比较的关系，因此需要通过统一的算法对声音信号进行量化，使得它们量化之后具有可比性。任意一个歌星的声音向量为对所述任意一个歌星的声音样本的量化。量化的方式有很多，下面进行举例说明以方便理解。

首先，终端根据第一样本集训练得到通用背景模型(Universal BackgroundModel，UBM)，其中，所述第一样本集包括多段人声信号，也称为背景样本，数量一般比较庞大，可以是来自几十、或几百、或几千个场景下的声音信号，且最好是掺杂了环境噪声的声音信号，之所以需要掺杂噪声是为了让UBM更好地体现人声的共性。所述UBM用于体现人声的共有特性，对于同种语言的人来说，不管是不是歌星他们的声音存在很多共性，例如，声音信号的噪声、声音信号的速度、声调的抑扬顿挫等等。虽然说不可能完全相同，但是大致的规律还是存在的。本申请通过训练该模型以获得同种语言的人的一些共性，那么后续在对各个歌星的声音信号进行训练时，就可以仅训练其中的部分特性，而与其他人共有的特性则可以直接从该UBM模型中获取，这样能够降低获取歌星大量的声音信号的成本。

然后，终端通过UBM创建第一高斯混合模型(Gaussian Mixture Model，GMM)以供后续使用。进一步地，终端通过语音信号端点检测(Voice Activity Detection，VAD)提取多个歌星中每个歌星的声音信号(可以认为是注册样本)内有真实语音的部分。具体来说，每个歌星的声音信号中或多或少都存在一些非真实语音的部分，例如，歌星演讲时中间较长的停顿、唱歌时较长的停顿等，这停顿期间的声音可以理解为噪音，而非真实语音，采用VAD可以标记真正有语音的时间点，滤去任何镜音部分，以免干扰建模效果。

接着，针对所述每个歌星的声音信号内有真实语音的部分提取第一MFCC特征，所述第一MFCC特征包括一阶差分和二阶差分，所述一阶差分用于体现音频的时域特性，所述二阶差分用于体现音频的频域特性；这样可以保证声音的特征在频域和时域都有所体现。该MFCC特征往往为多维的向量，例如60维的向量，能够反映出声音很多方面的特性。大致上看，任何一个歌星的第一MFCC能够反映该歌星各自的一些特性，不同的歌星的第一MFCC基本上是不相同的。在此基础上，通过所述第一GMM对基于每个歌星的声音信号得到的所述第一MFCC特征进行优化(也可以描述为通过第一GMM对第一MFCC进行补偿)，即可将每个歌星自身的特性与每个人共有的一些特性相结合，得到能够更全面表现该歌星的声音特性的量化值，该量化值即为每个歌星的声音向量。

可选的，所述每个歌星的声音向量均属于声纹匹配向量i-Vector，i-Vector是对复杂特征的抽象化方法，其可将多维度的声音特征降维至非常简洁的88字节大小的文件，这样对之后的匹配计算压力是一种极大的优化，能够提高计算时的响应速度。

可选的，所述每个歌星的声音信号均经过了归一化处理，例如，采用内协方差归一化(Within Class Covariance Normalization，WCCN)技术进行处理过。通过WCCN处理，可得到归一化处理后的歌星音色模型库。WCCN公式可以为：

其中，N为歌星个数，s为该N个歌星中的第s个歌星，

为第S个歌星的声音信号的向量均值；

为第s个歌星的第i个声音向量，n_s为第s个歌星的声音向量的总数量，T为向量转置。

可以理解的是，采用以上同样的方法对每个歌星的声音信号进行处理得到相应的声音向量之后，各个声音向量之间就存在可比性，与其他采用同样的处理方式得到的任何人的声音向量之间也存在可比性。

步骤S102：终端接收用户输入的目标声音信号。

可选的，用户可以启动终端的录音功能，在录音功能启动后开始对着终端说话或者唱歌，相应地，终端就可以采集到用户输入的声音信号，用户输入到终端中的声音信号可以称为目标声音信号，以在描述上与歌星的声音信号进行区分。下面结合具体场景进行举例说明，如图2所示，在一种音乐APP中，当用户启动录音功能后，即可进入到如图2所示的用户界面，以表明录音(即采集)正在进行中，在此过程中，用户可以通过触控或者声控或者其他控制方式结束录音，相应的，终端结束录音并保存已录取(即采集)的声音信号。如图3所示，在一种录音APP中，用户通过点击按钮301可以启动录音，等用户认为录音差不多之后再次点击按钮301可以结束录音，从而得到声音信号。如果该终端上的任何应用想要使用该声音信号均可以从录音APP保存录音的路径中去调用或者读取，例如，音乐APP从该路径中调用采集的用户的声音信号。

步骤S103：终端对所述目标声音信号进行量化以得到目标声音向量。

具体地，所述对所述目标声音信号进行量化以得到目标声音向量可以包括：通过所述UBM创建第二GMM，通过所述VAD提取来自所述用户的声音信号内有真实语音的部分，针对所述声音信号内有真实语音的部分提取第二MFCC特征；通过所述第二GMM对所述第二MFCC特征进行优化，得到目标声音向量；可选的，目标声音向量属于声纹匹配向量i-Vector，且经过了归一化处理。需要说明的是，这里对目标声音信号的处理(如VAD、MFCC、GMM-UBM和i-Vector提取和归一化)与前面对歌星声音信号的处理原理相同，因此不再赘述。

步骤S104：终端确定所述多个歌星的声音向量中与所述目标声音向量的相似度满足预设条件的N个歌星的声音向量。

具体地，N为大于或者等于1的正整数，N可以根据需要预先设置。

首先，相似度的计算方式有很多种，例如，可以是余弦相似度的方式。该预设条件也是可以根据业务需求预先配置好的，例如，该预设条件定义了如何根据相似度进行选择，当然，选择的时候除了要用到相似度之外还可能会用到其他信息，例如，用户的性别、年龄、肺合量等等。

可选的，所述确定所述多个歌星的声音向量中与所述目标声音向量的相似度满足预设条件的N个歌星的声音向量，包括：计算所述目标声音向量与所述多个歌星中每个歌星的声音向量的余弦值；例如，假若其中某个歌星的声音向量为w2，该用户的目标声音向量为w1，那么计算相似度S(w1，w2)的公式可以如下：

计算出与各个歌星的声音向量的相似度之后，从所述多个歌星的声音向量中选择N个歌星的声音向量，其中，所述目标声音向量与N个歌星的声音向量的余弦值均排在计算出的全部余弦值的前N位。举例来说，假若计算出萧亚轩与用户的相似度为86％、杨颖与用户的相似度为86％、蔡健雅与用户的相似度为75％、林俊杰与用户的相似度为50％、李宇春与用户的相似度为30％，而N等于3，那么最后选择的N个歌星的声音向量具体为萧亚轩、杨颖和蔡健雅的声音向量。

图4从更细节的角度对上述步骤S101-103的可能流程进行了示意。

步骤S105：终端输出提示信息，其中，所述提示信息用于提示所述用户适合唱所述N个歌星主唱的歌曲。

具体地，提示信息的呈现形式有很多，例如，可以通过语音、文字、图片、视频中的一项或者多项的形式来呈现，总而言之，用户通过该提示信息即可获知自己适合唱哪个或者哪些歌星主唱的歌曲。

在一种可选的方案中，所述提示信息包括第一信息和第二信息，其中，所述第一信息用于提示所述用户适合唱所述N个歌星主唱的歌曲；所述第二信息包含所述N个歌星主唱的歌曲信息。也即是说，该提示信息不仅告诉用户其适合唱哪个或哪些歌星的歌曲，还将其适合的歌星的歌曲信息提示出来，这样的话，用户就不用花额外的精力再去查询该合适的歌星唱过的歌曲有哪些。这里例举一个场景，假若没有这里的第二信息的话，用户根据提示信息可以获知自己适合唱萧亚轩的歌，而实际上由于该用户与萧亚轩年龄相差较大，因此即便其知道适合唱萧亚轩的歌曲，也曾无意间多次听过萧亚轩的歌曲，但是就是不知道这些歌曲是萧亚轩唱的，总而言之其就是不知道萧亚轩唱过哪些歌。这就导致用户还是无法快速找到适合唱哪一首或者哪几首歌；而有了本申请实施例中的第二信息的话，用户就可以快速获知适合唱哪些歌星的歌曲，以及适合唱的歌曲具体是哪些，无需用户花额外的精力再次去确认。

可选的，该提示信息除了包括第一信息和第二信息之外，还包括第三信息，所述第三信息用于表征所述N个歌星的声音向量分别与所述目标声音向量的相似度。例如，假若这N个歌星分别是萧亚轩、杨颖和蔡健雅，那么，该第三信息可以表征萧亚轩、杨颖和蔡健雅的声音向量分别与用户所述目标声音向量的相似度，其实质相当于表征萧亚轩、杨颖和蔡健雅的声音与用户的声音的相似度，例如，如果与萧亚轩的相似度为86％，与杨颖的相似度为86％，与蔡健雅的相似度为75％，那么，这些相似度的具体数值可以通过第三信息表达出来。这样的话，用户就可以根据该信息来综合决策到底选择哪首歌来演唱。

举例来说，如图5所示，图5中的“适合你的歌曲”、“萧亚轩”、“蔡健雅”、“杨颖”可以看做是以上描述的第一信息，用户根据这些信息就可以获知适合唱“萧亚轩”、“蔡健雅”、“杨颖”的歌曲。而“突然想起你萧亚轩”、“五百英里杨颖”、“红色高跟鞋蔡健雅”可以看做是以上描述的第二信息，用户可以看出来这些歌星具体有哪些歌曲适合用户演唱。而图中的两个“86％”和一个“75％”可以看作是以上的第三信息，根据该信息可以看出与“萧亚轩”、“蔡健雅”、“杨颖”这几个歌星的声音相似度具体是多少。

在一种可选的方案中，所述输出提示信息之后，还包括：接收输入的针对目标歌曲信息的选择操作，其中，所述目标歌曲信息为所述N个歌星主唱的歌曲信息中的一项歌曲信息；根据所述选择操作播放所述目标歌曲信息的伴奏，以供所述用户根据所述伴奏进行演唱。还是结合图5进行举例说明，在图5中“适合你的歌曲”这一栏里面，如果用户对“突然想起你萧亚轩”字样所在的区域进行点击，那么这个点击操作就可以看作是选择操作，“突然想起你”就是以上所说的目标歌曲信息；那么，相应的终端检测到该点击操作，然后播放目标歌曲信息“突然想起你”的伴奏，这样用户就可以跟着“突然想起你”的伴奏进行演唱。采用这种方式，用户不仅可以快速获知自己适合唱的歌星的歌曲，还可以立即跟随者该歌曲的节奏进行演唱，显著提升了用户体验。

在图1所描述的方法中，将用户的声音与多个歌星的声音进行比较，从而得出与用户声音相似比较高的一些歌星，然后输出提示信息以明确告知用户适合唱这些歌星的歌曲，这样用户就可以针对性的去演唱或练习这些歌星的歌曲，从而达到演唱效果尽可能地接近歌星的演唱水平，显著提升了用户的体验。

上述详细阐述了本发明实施例的方法，为了便于更好地实施本发明实施例的上述方案，相应地，下面提供了本发明实施例的装置。

请参见图6，图6是本发明实施例提供的一种装置60(例如，可以是以上描述的终端，或者终端中的相关模块)的结构示意图，该装置60可以包括：

生成单元601用于根据多个歌星的声音样本生成所述多个歌星中每个歌星的声音向量，其中，任意一个歌星的声音向量为对所述任意一个歌星的声音样本的量化；

第一接收单元602用于接收用户输入的目标声音信号；

量化单元603用于对所述目标声音信号进行量化以得到目标声音向量；

确定单元604用于确定所述多个歌星的声音向量中与所述目标声音向量的相似度满足预设条件的N个歌星的声音向量，其中，N为大于或者等于1的正整数；

输出单元605用于输出提示信息，其中，所述提示信息用于提示所述用户适合唱所述N个歌星主唱的歌曲。

在上述装置60中，将用户的声音与多个歌星的声音进行比较，从而得出与用户声音相似比较高的一些歌星，然后输出提示信息以明确告知用户适合唱这些歌星的歌曲，这样用户就可以针对性的去演唱或练习这些歌星的歌曲，从而达到演唱效果尽可能地接近歌星的演唱水平，显著提升了用户的体验。

在第一种可能的实现方式中，所述提示信息包括第一信息和第二信息，其中，所述第一信息用于提示所述用户适合唱所述N个歌星主唱的歌曲；所述第二信息包含所述N个歌星主唱的歌曲信息。

在一种可能的实现方式中，还包括：

在一种可能的实现方式中，所述提示信息包括第三信息，所述第三信息用于表征所述N个歌星的声音向量分别与所述目标声音向量的相似度。

在一种可能的实现方式中，还包括：

在一种可能的实现方式中，所述目标声音向量和所述每个歌星的声音向量均属于声纹匹配向量i-Vector，且均经过了归一化处理。

在一种可能的实现方式中，所述确定单元，用于确定所述多个歌星的声音向量中与所述目标声音向量的相似度满足预设条件的N个歌星的声音向量，具体为：

需要说明的是，在本发明实施例中，各个单元的具体实现及有益效果还可以对应参照图1所示的方法实施例的相应描述。

请参见图7，图7是本发明实施例提供的一种终端70，该终端70包括处理器701、存储器702、输入接口703和输出接口704，所述处理器701、存储器702、输入接口703和输出接口704通过总线相互连接。

存储器702包括但不限于是随机存储记忆体(random access memory，RAM)、只读存储器(read-only memory，ROM)、可擦除可编程只读存储器(erasable programmableread only memory，EPROM)、或便携式只读存储器(compact disc read-only memory，CD-ROM)，该存储器702用于相关计算机程序及数据。

输入接口703用于从终端70以外采集相应的信息，例如，该输入接口703可以是鼠标、键盘、各种传感器、触摸显示屏中的触控组件，等等。

输出接口704用于向外输出相应的信息，例如，该输出接口704可以是触摸显示屏中的显示组件，音频输出组件等等。

处理器701可以是一个或多个中央处理器(central processing unit，CPU)，在处理器701是一个CPU的情况下，CPU可以是单核CPU，也可以是多核CPU。

该设备70中的处理器701读取所述存储器702中存储的计算机程序代码，用于执行以下操作：

对所述目标声音信号进行量化以得到目标声音向量；

在一种可能的实现方式中，所述提示信息包括第一信息和第二信息，其中，所述第一信息用于提示所述用户适合唱所述N个歌星主唱的歌曲；所述第二信息包含所述N个歌星主唱的歌曲信息。

在一种可能的实现方式中，所述处理器还用于在通过所述输出接口输出提示信息之后，通过所述输入组件接收输入的针对目标歌曲信息的选择操作，其中，所述目标歌曲信息为所述N个歌星主唱的歌曲信息中的一项歌曲信息；根据所述选择操作播放所述目标歌曲信息的伴奏，以供所述用户根据所述伴奏进行演唱。

在一种可能的实现方式中，所述处理器还用于：

在一种可能的实现方式中，所述确定所述多个歌星的声音向量中与所述目标声音向量的相似度满足预设条件的N个歌星的声音向量，具体为：

需要说明的是，在本发明实施例中，各个单元的具体实现及其有益效果还可以对应参照图1所示的方法实施例的相应描述。

综上所述，通过实施本发明实施例，将用户的声音与多个歌星的声音进行比较，从而得出与用户声音相似比较高的一些歌星，然后输出提示信息以明确告知用户适合唱这些歌星的歌曲，这样用户就可以针对性的去演唱或练习这些歌星的歌曲，从而达到演唱效果尽可能地接近歌星的演唱水平，显著提升了用户的体验。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，该的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可存储程序代码的介质。

Claims

1.一种声音信号处理方法，其特征在于，包括：

根据第一样本集训练得到通用背景模型UBM，其中，所述第一样本集包括多段人声信号，所述多段人声信号掺杂了环境噪声，所述UBM用于体现人声的共有特性；

通过所述UBM创建第一高斯混合模型GMM，通过语音信号端点检测VAD提取多个歌星中每个歌星的声音信号内有真实语音的部分，针对所述每个歌星的声音信号内有真实语音的部分提取第一MFCC特征，所述第一MFCC特征包括一阶差分和二阶差分，所述一阶差分用于体现音频的时域特性，所述二阶差分用于体现音频的频域特性；通过所述第一GMM对基于每个歌星的声音信号得到的所述第一MFCC特征进行补偿，得到所述每个歌星的声音向量，其中，任意一个歌星的声音向量为对所述任意一个歌星的声音样本的量化；

接收用户输入的目标声音信号；

通过所述UBM创建第二GMM，通过所述VAD提取来自所述用户的声音信号内有真实语音的部分，针对所述声音信号内有真实语音的部分提取第二MFCC特征；通过所述第二GMM对所述第二MFCC特征进行补偿，得到目标声音向量；

根据所述多个歌星的声音向量中与所述目标声音向量的相似度和肺活量确定满足预设条件的N个歌星的声音向量，其中，N为大于或者等于1的正整数；

2.根据权利要求1所述的方法，其特征在于，所述提示信息包括第一信息和第二信息，其中，所述第一信息用于提示所述用户适合唱所述N个歌星主唱的歌曲；所述第二信息包含所述N个歌星主唱的歌曲信息。

3.根据权利要求2所述的方法，其特征在于，所述输出提示信息之后，还包括：

4.根据权利要求1-3任一项所述的方法，其特征在于，

5.根据权利要求1所述的方法，其特征在于，所述目标声音向量和所述每个歌星的声音向量均属于声纹匹配向量i-Vector，且均经过了归一化处理。

6.一种声音信号处理装置，其特征在于，包括：

训练单元，用于根据第一样本集训练得到通用背景模型UBM，其中，所述第一样本集包括多段人声信号，所述多段人声信号掺杂了环境噪声，所述UBM用于体现人声的共有特性；

生成单元，用于通过所述UBM创建第一高斯混合模型GMM，通过语音信号端点检测VAD提取多个歌星中每个歌星的声音信号内有真实语音的部分，针对所述每个歌星的声音信号内有真实语音的部分提取第一MFCC特征，所述第一MFCC特征包括一阶差分和二阶差分，所述一阶差分用于体现音频的时域特性，所述二阶差分用于体现音频的频域特性；通过所述第一GMM对基于每个歌星的声音信号得到的所述第一MFCC特征进行补偿，得到所述每个歌星的声音向量；其中，任意一个歌星的声音向量为对所述任意一个歌星的声音样本的量化；

第一接收单元，用于接收用户输入的目标声音信号；

量化单元，用于通过所述UBM创建第二GMM，通过所述VAD提取来自所述用户的声音信号内有真实语音的部分，针对所述声音信号内有真实语音的部分提取第二MFCC特征；通过所述第二GMM对所述第二MFCC特征进行补偿，得到目标声音向量；

确定单元，用于根据所述多个歌星的声音向量中与所述目标声音向量的相似度和肺活量确定满足预设条件的N个歌星的声音向量，其中，N为大于或者等于1的正整数；

7.根据权利要求6所述的装置，其特征在于，所述提示信息包括第一信息和第二信息，其中，所述第一信息用于提示所述用户适合唱所述N个歌星主唱的歌曲；所述第二信息包含所述N个歌星主唱的歌曲信息。

8.根据权利要求7所述的装置，其特征在于，还包括：

9.根据权利要求6-8任一项所述的装置，其特征在于，

10.根据权利要求6所述的装置，其特征在于，所述目标声音向量和所述每个歌星的声音向量均属于声纹匹配向量i-Vector，且均经过了归一化处理。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序在处理器上运行时，实现权利要求1-5任一项所述的方法。