CN106649643A

CN106649643A - 一种音频数据处理方法及其装置

Info

Publication number: CN106649643A
Application number: CN201611124338.3A
Authority: CN
Inventors: 赵伟峰
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2016-12-08
Filing date: 2016-12-08
Publication date: 2017-05-10
Anticipated expiration: 2036-12-08
Also published as: CN106649643B

Abstract

本发明实施例提供一种音频数据处理方法及其装置，其中方法包括：采集目标用户针对满足预设反串音乐条件的目标音乐输入的音频数据；将所述音频数据与所述目标音乐的原始音频数据进行匹配得到音准匹配结果；根据预设声音类型识别模型对所述音频数据的声音类型进行识别得到目标声音类型，所述目标声音类型为男声或女声；若所述目标声音类型与所述目标音乐的原始声音类型相反且所述音准匹配结果满足预设音准匹配条件，则输出所述目标用户的反串能力信息。本发明实施例能够丰富评分结果，进而增加趣味性，有助于提升用户的积极性。

Description

一种音频数据处理方法及其装置

技术领域

本发明涉及多媒体技术领域，具体涉及一种音频数据处理方法及其装置。

背景技术

随着互联网和多媒体技术的发展，以及用户终端(例如手机、电脑等)的普及，用户终端可为人们提供丰富多彩的娱乐性应用程序，例如视频类应用程序、音频类应用程序、游戏类应用程序等。

对于喜欢音乐的用户而言，音频类应用程序备受欢迎。根据音频类应用程序的用途，可将其分为收听类音频应用程序和演唱类音频应用程序。其中，演唱类音频应用程序主要以用户演唱歌曲及分享所演唱的歌曲为主，这类应用程序还可以对用户所演唱的歌曲进行评分，方便用户获知自己的歌唱能力。

目前，演唱类音频应用程序对用户所演唱的歌曲进行评分时，主要根据音准维度的准确度进行评分，使得评分结果较为单一。

发明内容

本发明实施例提供一种音频数据处理方法及其装置，能够丰富评分结果，进而增加趣味性，有助于提升用户的积极性。

本发明实施例第一方面提供一种音频数据处理方法，包括：

采集目标用户针对满足预设反串音乐条件的目标音乐输入的音频数据；

将所述音频数据与所述目标音乐的原始音频数据进行匹配得到音准匹配结果；

根据预设声音类型识别模型对所述音频数据的声音类型进行识别得到目标声音类型，所述目标声音类型为男声或女声；

若所述目标声音类型与所述目标音乐的原始声音类型相反且所述音准匹配结果满足预设音准匹配条件，则输出所述目标用户的反串能力信息。

其中，所述预设反串音乐条件包括预设女声音乐平均音高和预设男声音乐平均音高；若所述目标音乐的平均音高大于所述预设女声音乐平均音高且所述目标音乐的原始声音类型为女声，或小于所述预设男声音乐平均音高且所述目标音乐的原始声音类型为男声，则确定所述目标音乐满足所述预设反串音乐条件。

其中，所述预设反串音乐条件包括预设反串维度评价音乐数据库；若所述目标音乐存在于所述预设反串维度评价音乐数据库中，则确定所述目标音乐满足所述预设反串音乐条件。

其中，所述预设声音类型识别模型为将提取的预设男声音频数据的男声特征参数和预设女声音频数据的女声特征参数，通过支持向量机SVM模型训练得到的，用于识别音频数据的声音类型的模型。

其中，所述根据预设声音类型识别模型对所述音频数据的声音类型进行识别得到目标声音类型，包括：

根据所述目标音乐的歌词信息和预设选择规则从所述音频数据中选择用于识别声音类型的目标音频数据；

将所述目标音频数据与预设声音类型识别模型进行匹配得到目标声音类型。

将所述音频数据与预设声音类型识别模型进行匹配得到匹配浮点数；

若所述匹配浮点数大于第一预设浮点数，则确定目标声音类型为所述男声；若所述匹配浮点数小于第二预设浮点数，则确定目标声音类型为所述女声。

本发明实施例第二方面提供一种音频数据处理装置，包括：

音频数据采集单元，用于采集目标用户针对满足预设反串音乐条件的目标音乐输入的音频数据；

音准维度匹配单元，用于将所述音频数据与所述目标音乐的原始音频数据进行匹配得到音准匹配结果；

声音类型识别单元，用于根据预设声音类型识别模型对所述音频数据的声音类型进行识别得到目标声音类型，所述目标声音类型为男声或女声；

反串能力输出单元，用于若所述目标声音类型与所述目标音乐的原始声音类型相反且所述音准匹配结果满足预设音准匹配条件，则输出所述目标用户的反串能力信息。

本发明实施例第二方面提供的音频数据处理装置用于实现本发明实施例第一方面提供的音频数据处理方法，在此不再赘述。

在本发明实施例中，通过采集目标用户针对满足预设反串音乐条件的目标音乐输入的音频数据，并将采集的音频数据与目标音乐的原始音频数据进行匹配得到音准匹配结果，根据预设声音类型识别模型对采集的音频数据的声音类型进行识别得到目标声音类型，并在目标声音类型与目标音乐的原始声音类型相反且音准匹配结果满足预设音准匹配条件的情况下，输出目标用户的反串能力信息，从而实现对目标用户输入的音频数据的反串维度的评价，进而丰富评分结果，增加趣味性，有助于提升用户的积极性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种音频数据处理方法的流程示意图；

图2为本发明实施例提供的提取特征参数的流程示意图；

图3为本发明实施例提供的另一种音频数据处理方法的流程示意图；

图4为本发明实施例提供的又一种音频数据处理方法的流程示意图；

图5为本发明实施例提供的一种音频数据处理装置的结构示意图；

图6为本发明实施例提供的另一种音频数据处理装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

下面将对本发明实施例涉及的名称或专业术语进行介绍：

(1)反串：串，就是串角的意思。反，就是相反，男的反义词是女，女的反义词是男。现代意义上的反串是一门新生艺术，也是娱乐圈的近年来最新的流行词，是形容"男扮女装"或"女扮男装"的舞台表演艺术。在过去是指角色的客串，而现代已被广泛的用于性别、声音的反串。本发明实施例中的反串是指声音的反串，即男声唱女声或女声唱男声。

(2)音高：指各种不同高低的声音，即音的高度，音的基本特征的一种。音高指人耳对声音调子高低的主观感觉。主要取决于频率的高低与响度的大小。频率低的调子给人以低沉、厚实、粗犷的感觉；频率高的调子给人以亮丽、明亮、尖刻的感觉。通常，男声的音高低于女声的音高。

(3)乐器数字接口(Musical Instrument Digital Interface，MIDI)是一种电子乐器之间以及电子乐器与电脑之间的统一交流协议。MIDI文件是一种描述性的“音乐语言”，它将所要演奏的乐曲信息用字节进行描述。譬如在某一时刻，使用什么乐器，以什么音符开始，以什么音调结束，加以什么伴奏等等，也就是说MIDI文件本身并不包含波形数据。

(4)支持向量机(Support Vector Machine，SVM)是一个有监督的学习模型，通常用来进行模式识别、分类、以及回归分析。

本发明实施例提供一种音频数据处理方法及其装置，可以应用于对用户反串能力评价的场景中，例如，音频数据处理装置采集目标用户针对满足预设反串音乐条件的目标音乐输入的音频数据；所述音频数据处理装置将所述音频数据与所述目标音乐的原始音频数据进行匹配得到音准匹配结果；所述音频数据处理装置根据预设声音类型识别模型对所述音频数据的声音类型进行识别得到目标声音类型，所述目标声音类型为男声或女声；若所述目标声音类型与所述目标音乐的原始声音类型相反且所述音准匹配结果满足预设音准匹配条件，则所述音频数据处理装置输出所述目标用户的反串能力信息的场景。本发明实施例不仅可以从音准维度对用户输入的音频数据进行评价，还可以从反串维度对用户输入的音频数据进行评价，能够丰富评分结果，进而增加趣味性，有助于提升用户的积极性，提升用户体验。

本发明实施例中的音频数据处理装置可以为安装、运行在用户终端上的演唱类音频应用程序，例如全民K歌、唱吧等应用程序。用户终端可以包括但不限于智能手机、个人计算机、平板电脑(Pad)和便携式电脑，还可以包括智能可穿戴设备等电子设备。音频数据处理装置还可以为上述演唱类音频应用程序对应的服务器的部分或全部。

本发明实施例中的音乐可以包括歌曲、戏曲等曲类音乐，本发明实施例主要以歌曲为例进行介绍。

下面将结合附图1-附图4对本发明实施例提供的音频数据处理方法进行详细介绍。

请参见图1，为本发明实施例提供的一种音频数据处理方法的流程示意图，该方法可包括步骤101-步骤104。

101，采集目标用户针对满足预设反串音乐条件的目标音乐输入的音频数据；

目前，演唱类音频应用程序既可以为用户提供音乐的原始音频数据，也可以采集、存储用户针对某个音乐输入的音频数据。可以理解的是，音乐的原始音频数据为演唱类音频应用程序对应的服务器提供的，用于与用户输入的音频数据进行对比的参考音频数据。演唱类音频应用程序在接收到用户针对某个音乐输入的录制指令时，通过用户终端上的音频输入设备(例如麦克风、耳机等)采集、存储用户输入的音频数据，此时的存储并非永久性存储，只是对采集的音频数据进行暂时性存储，若需永久性存储，则根据用户输入的存储指令对所采集的音频数据进行永久性存储。演唱类音频应用程序在采集完用户输入的音频数据之后，可接收用户输入的针对该音频数据的分享指令，并根据分享指令将该音频数据分享至目的地。

具体的，音频数据处理装置通过用户终端上的音频输入设备采集目标用户针对满足预设反串音乐条件的目标音乐输入的音频数据。其中，所述目标用户可以为当前正在使用演唱类音频应用程序的用户，也可以为当前登录演唱类音频应用程序的用户。所述目标音乐为演唱类应用程序提供的多个音乐中的任意一个，为所述目标用户选择的将要输入音频数据的音乐。可以理解的是，所述目标音乐为所述目标用户将要录入声音的歌曲。

在一种可能实现的方式中，所述音频数据处理装置为演唱类音频应用程序，那么所述音频数据处理装置直接调用音频输入设备采集所述目标用户针对所述目标音乐输入的音频数据。在另一种可能实现的方式中，所述音频数据处理装置为演唱类音频应用程序对应的服务器的部分或全部，那么所述音频数据处理装置接收演唱类音频应用程序发送的音频数据，该音频数据为演唱类音频应用程序通过音频输入设备采集的音频数据。

对于演唱类音频应用程序提供的所有音乐中每个音乐都会有一个对应的MIDI文件，音乐以歌曲为例，该文件描述了原唱歌手演绎此歌曲的音高走势，可视化格式如下图：

其中每一行表示一个音符，第一列为音符的起始时间(单位为毫秒)，第二列为音符持续时间(单位为毫秒)，第三列为音符音高值。MIDI文件的作用有很多，例如给用户提供可视化音高参考曲线，以便用户根据音高参考曲线输入音频数据；对于用户输入的音频数据的不足之处进行修正；对用户演唱进行评价等。本发明实施例则是使用MIDI文件来对音乐的平均音高进行计算。

假设某个音乐对应的MIDI文件有n个音符，每个音符的持续时间为t_i,i∈[1,n]，每个音符的音高为p_i,i∈[1,n]，则所述音频数据处理装置根据如下公式计算该音乐的平均音高P：

在一种可能实现的方式中，基于上述平均音高的计算公式，所述音频数据处理装置计算所述目标音乐的平均音高。所述预设反串音乐条件包括预设女声音乐平均音高和预设男声音乐平均音高。所述预设女声音乐平均音高和所述预设男声音乐平均音高用于衡量用户所选的音乐是否可以作为反串维度评价的音乐，这两个的具体数值由所述音频数据处理装置设定，在此不做限定。若所述目标音乐的平均音高大于所述预设女声音乐平均音高，且所述目标音乐的原始声音类型为女声；或小于所述预设男声音乐平均音高，且所述目标音乐的原始声音类型为男声；则所述音频数据处理装置确定所述目标音乐满足所述预设反串音乐条件，即所述目标音乐可以作为反串维度评价的音乐。

在另一种可能实现的方式中，所述预设反串音乐条件包括预设反串维度评价音乐数据库，所述预设反串维度评价音乐数据库包括多首用于反串维度评价的音乐，具体的包括多首女声音乐和多首男声音乐，具体所述预设反串维度评价音乐数据库所包括的音乐数量、所述多首女声音乐的数量和所述多首男声音乐的数量由所述音频数据处理装置设定，在此不做限定。其中，所述多首女声音乐的平均音高大于第一阈值，所述多首男声音乐的平均音高小于第二阈值，所述第一阈值和所述第二阈值的大小由所述音频数据处理装置设定，在此不做限定。所述音频数据处理装置可根据上述平均音高计算公式，预先计算、获取演唱类音频应用程序提供的所有音乐中每个音乐的平均音高，并根据每个音乐的歌手标签信息将所有音乐区分为男声演唱音乐与女声演唱音乐两类，根据所述第一阈值和所述第二阈值选择出所述多首女声音乐和所述多首男声音乐。可以理解的是，所述预设反串维度评价音乐数据库包括平均音高较高的多首女声音乐和平均音高较低的多首男声音乐。若所述目标音乐存在于所述预设反串维度评价音乐数据库中，则所述音频数据处理装置确定所述目标音乐满足所述预设反串音乐条件。

可以理解的是，所述预设反串音乐条件用于衡量用户所选择的音乐是否可以用于作为反串维度评价的音乐，即并不是所有音乐均可以作为反串维度评价的音乐，根据所述预设反串音乐条件所选择的音乐有一定的难度。只要在用户所选择的音乐满足所述预设反串音乐条件时，才能继续执行后续步骤。

102，将所述音频数据与所述目标音乐的原始音频数据进行匹配得到音准匹配结果；

具体的，所述音频数据处理装置在接收到停止录制指令或所述目标用户完成输入时，将所述音频数据与所述目标音乐的原始音频数据进行匹配得到音准匹配结果。目前，演唱类音频应用程序都具备音准匹配这个功能，将用户输入的音频数据与对应的原始音频数据进行音准维度的比较，得出匹配结果。不同演唱类音频应用程序所采用的音准匹配算法可能有所不同，在本发明实施例中对具体的音准匹配算法不做限定。

在一种可能实现的方式中，所述音准匹配结果为分数，分数的取值范围可以为0～100，0～500等，具体取值范围由所述音频数据处理装置设定，在此不做限定。越接近最大值，表明用户输入的音频数据与对应的原始音频数据的匹配度越高，用户唱得越准，同时也表明噪音比较少(因为在有噪声的情况下音准提前准确度低，分数会比较低)，保障了后续对所述目标用户输入的音频数据的声音类型的识别过程中不会被噪声所影响。

在一种可能实现的方式中，所述音准匹配结果为匹配等级，例如匹配等级越高，表明用户输入的音频数据与对应的原始音频数据的匹配度越高；匹配等级越低，表明用户输入的音频数据与对应的原始音频数据的匹配度越抵；或者，匹配等级越高，表明用户输入的音频数据与对应的原始音频数据的匹配度越低；匹配等级越低，表明用户输入的音频数据与对应的原始音频数据的匹配度越高。具体匹配等级的数量与匹配形式由所述音频数据处理装置设定，在此不做限定。

在一种可能实现的方式中，所述音准匹配结果包括分数和匹配等级，根据匹配等级与分数范围之间的对应关系确定分数对应的匹配等级，具体的对应关系、匹配等级的数量、各个匹配等级对应的分数范围由所述音频数据处理装置设定，在此不做限定。

需要说明的是，执行步骤102得到的所述音准匹配结果，并不需要立即呈现给用户。演唱类音频应用程序在进行音准匹配之后，得到所述音准匹配结果，对用户输入的音频数据进行暂时存储，暂时不输出所述音准匹配结果。演唱类音频应用程序对应的服务器在进行音准匹配之后，得到所述音准匹配结果，将所述音准匹配结果发送至演唱类音频应用程序，演唱类音频应用程序暂时不输出所述音准匹配结果。

103，根据预设声音类型识别模型对所述音频数据的声音类型进行识别得到目标声音类型；

具体的，所述音频数据处理装置根据预设声音类型识别模型对所述音频数据的声音类型进行识别得到目标声音类型，所述目标声音类型为男声或女声。可以理解的是，所述音频数据处理装置根据预设声音类型识别模型识别所述音频数据为男声还是女声，也即识别所述目标用户为男还是女。

在应用本发明实施例之前，建立预设声音类型识别模型。建立所述预设声音类型识别模型的过程包括：

(1)演唱类音频应用程序的工作人员从演唱类音频应用程序对应的服务器中，选取唱得较好的且不同用户演唱的若干首男声(此时人工确定是男性唱的，对于容易混淆性别的声音不选取)清唱音频数据和若干首女声清唱音频数据。其中，若干首男声清唱音频数据的总时长与若干首女声清唱音频数据的总时长相同，以使男声与女声的训练概率相等，具体总时长由演唱类音频应用程序的工作人员设定，在此不做限定。

(2)所述音频数据处理装置根据若干首男声清唱音频数据各自对应的歌词信息和若干首女声清唱音频数据各自对应的歌词信息从若干首男声清唱音频数据和若干首女声清唱音频数据中提取有效数据，也就是将没有歌词的静音部分去掉，保留人声部分，整合得到女声语音信号和男声语音信号。

(3)所述音频数据处理装置提取特征参数，请参见图3，为本发明实施例提供的提取特征参数的流程示意图。语音信号通过图3所示流程示意图的处理得到特征参数，该特征参数可为感知线性预测(Perceptual Linear Predict ive，PLP)特征参数。PLP特征参数是一种基于听觉模型的特征参数，为13维的特征参数。上述女声语音信号和上述男声语音信号通过图3所示流程示意图的处理得到女声13维PLP特征参数和男声13维PLP特征参数。

(4)所述音频数据处理装置利用提取的女声13维PLP特征参数和男声13维PLP特征参数计算各自的一阶差分与二阶差分得到女声39维特征参数和男声39维特征参数，进行SVM模型训练，建立所述预设声音类型识别模型。其中，SVM模型训练中的核函数类型采用径向基函数(Radial basis function，RBF)，该函数是一个取值仅仅依赖于离原点距离的实值函数。

所述预设声音类型识别模型将女声的输出标识为“-1”，男声的输出标记为“1”，也就是当音频数据通过所述预设声音类型识别模型时，会输出一个“-1～1”的值，越接近“-1”则越有可能是女声；越接近“1”则越有可能是男声。

由上归纳可得，所述预设声音类型识别模型为将提取的预设男声音频数据的男声特征参数和预设女声音频数据的女声特征参数，通过SVM模型训练得到的，用于识别音频数据的声音类型的模型。其中，所述预设男声音频数据和所述预设女声音频数据即为上述步骤(2)得到的男声语音信号和女声语音信号；所述男声特征参数和所述女声特征参数即为上述步骤(3)得到的男声13维PLP特征参数和女声13维PLP特征参数，或为上述步骤(4)计算得到的男声39维特征参数和女声39维特征参数。

所述预设声音类型识别模型可以保存在演唱类音频应用程序中，也可以包括在演唱类音频应用程序对应的服务器中，即演唱类音频应用程序可以对所述目标用户输入的音频数据的声音类型进行识别，演唱类音频应用程序对应的服务器也可以对所述目标用户输入的音频数据的声音类型进行识别。

需要说明的是，步骤103可在步骤102之后执行，即在音准匹配之后对所述目标用户输入的音频数据的声音类型进行识别；步骤103也可与步骤102同时执行，即在音准匹配的过程中对所述目标用户输入的音频数据的声音类型进行识别。

104，若所述目标声音类型与所述目标音乐的原始声音类型相反且所述音准匹配结果满足预设音准匹配条件，则输出所述目标用户的反串能力信息；

具体的，在得到所述音准匹配结果和所述目标声音类型后，所述音频数据处理装置检测所述目标声音类型与所述目标音乐的原始声音类型是否相同且所述音准匹配结果是否满足音准匹配条件。

在一种可能实现的方式中，所述目标音乐的原始声音类型可根据所述目标音乐的歌手标签信息确定，若为男歌手，则所述原始声音类型为男声；若为女歌手，则所述原始声音类型为女声。

在另一种可能实现的方式中，所述目标音乐的原始声音类型可根据所述预设声音类型识别模型对所述目标音乐的原始音频数据进行识别得到。

若所述音准匹配结果为分数，则所述音准匹配条件包括预设分数阈值。若所述分数达到所述预设分数阈值，则确定所述音准匹配结果满足所述预设音准匹配条件。

若所述音准匹配结果为匹配等级，则所述音准匹配条件包括预设匹配等级。若匹配等级越高，匹配度越高，则在所述匹配等级高于所述预设匹配等级时，确定所述音准匹配结果满足所述预设音准匹配条件；若匹配等级越高，匹配度越抵，则在所述匹配等级低于所述预设匹配等级时，确定所述音准匹配结果满足所述预设音准匹配条件。

所述目标声音类型与所述目标音乐的原始声音类型相反，表明是男声唱女声或女声唱男声。所述音准匹配结果满足所述预设音准匹配条件，表明所述目标用户输入的音频数据在音高上比较准，噪音较少，比较接近所述目标音乐的原始音频数据。若所述目标声音类型与所述目标音乐的原始声音类型相反且所述音准匹配结果满足预设音准匹配条件，则所述音频数据处理装置输出所述目标用户的反串能力信息。

其中，所述反串能力信息用于标识所述目标用户具有比较强的反串能力，可以是“反串达人”、“反串强者”等称号，也可以是根据所述音准匹配结果确定的不同级别的反串能力。

所述音频数据处理装置在输出所述目标用户的反串能力信息的同时或之前，还可以输出所述音准匹配结果，以便所述目标用户了解匹配情况。

需要说明的是，本发明实施例在满足三个条件的情况下才输出目标用户的反串能力信息，这三个条件分别为目标音乐满足预设反串音乐条件，音准匹配结果满足预设音准匹配条件，目标用户输入的音频数据的声音类型与目标音乐的原始声音类型相反。

请参见图3，为本发明实施例提供的另一种音频数据处理方法的流程示意图，该方法可包括步骤301-步骤305。图3所示实施例中的步骤301、302和305的具体实现过程可参见图1所示实施例中的步骤101、102和104的具体描述，在此不再赘述。

301，采集目标用户针对满足预设反串音乐条件的目标音乐输入的音频数据；

302，将所述音频数据与所述目标音乐的原始音频数据进行匹配得到音准匹配结果；

303，根据所述目标音乐的歌词信息和预设选择规则从所述音频数据中选择用于识别声音类型的目标音频数据；

为了减少运算量，所述音频数据处理装置从所述音频数据中挑选一部分音频数据进行声音类型的识别。所述音频数据处理装置根据所述目标音乐的歌词信息和预设选择规则从所述音频数据中选择用户识别声音类型的目标音频数据。其中，所述目标音乐的歌词信息可由演唱类音频应用程序提供，或由演唱类音频应用程序对应的服务器提供。所述预设选择规则用于指示选择哪句或哪些歌词。

为了便于选择和运算，所述预设选择规则可指示选择第一句歌词，此时，所述音频数据处理装置根据所述目标音乐的歌词信息从所述音频数据中选择第一句歌词对应的音频数据作为目标音频数据。为了防止第一句歌词对应的音频数据无法识别出声音类型，所述预设选择规则可指示选择第一句和第二句歌词，在第一句无法识别出的情况下，对第二句歌词对应的音频数据进行识别。

304，将所述目标音频数据与预设声音类型识别模型进行匹配得到目标声音类型；

具体的，所述预设声音类型识别模型的描述可参见图1所示实施例中对预设声音类型识别模型的具体描述，在此不再赘述。

所述音频数据处理装置根据图3所示的提取特征参数的流程示意图提取所述目标音频数据的13维PLP特征参数，并利用该13维PLP特征参数计算一阶差分与二阶差分共39维PLP特征参数，将该39维PLP特征参数与所述预设声音类型识别模型进行匹配得到一个匹配浮点数，所述匹配浮点数为“-1～1”中的一个数。

若所述匹配浮点数大于“0.5”，则确定目标声音类型为男声；若所述匹配浮点数小于“-0.5”，则确定目标声音类型为女声。若所述匹配浮点数为“-0.5～0.5”中的一个数，则确定当前所选的所述目标音频数据无法识别出声音类型，即根据第一句歌词对应的音频数据无法识别出声音类型，此时选择第二句歌词对应的音频数据进行识别。若第二句歌词对应的音频数据还是无法识别出声音类型，则选择第三句歌词对应的音频数据进行识别，以此类推，直到匹配浮点数大于“0.5”或小于“-0.5”。若直到歌词对应的音频数据用完，匹配浮点数还为“-0.5～0.5”中的一个数，则确定所述目标用户输入的音频数据无法识别，所述音频数据处理装置便不会执行步骤305。

305，若所述目标声音类型与所述目标音乐的原始声音类型相反且所述音准匹配结果满足预设音准匹配条件，则输出所述目标用户的反串能力信息；

在本发明实施例中，从目标用户输入的音频数据中选取目标音频数据进行声音类型的识别，可减少运算量，提高运算速度。

请参见图4，为本发明实施例提供的又一种音频数据处理方法的流程示意图，该方法可包括步骤401-步骤406。图4所示实施例中的步骤401、402和406的具体实现过程可参见图1所示实施例中的步骤101、102和104的具体描述，在此不再赘述。

401，采集目标用户针对满足预设反串音乐条件的目标音乐输入的音频数据；

402，将所述音频数据与所述目标音乐的原始音频数据进行匹配得到音准匹配结果；

403，将所述音频数据与预设声音类型识别模型进行匹配得到匹配浮点数；

所述音频数据处理装置根据图3所示的提取特征参数的流程示意图提取所述音频数据的13维PLP特征参数，并利用该13维PLP特征参数计算一阶差分与二阶差分共39维PLP特征参数，将该39维PLP特征参数与所述预设声音类型识别模型进行匹配得到一个匹配浮点数，所述匹配浮点数为“-1～1”中的一个数。

404，若所述匹配浮点数大于第一预设浮点数，则确定目标声音类型为男声；

其中，所述第一预设浮点数为“0.5”，若所述匹配浮点数大于“0.5”，则确定目标声音类型为男声。

405，若所述匹配浮点数小于第二预设浮点数，则确定目标声音类型为女声；

其中，所述第一预设浮点数为“-0.5”，若所述匹配浮点数小于“-0.5”，则确定目标声音类型为女声。

406，若所述目标声音类型与所述目标音乐的原始声音类型相反且所述音准匹配结果满足预设音准匹配条件，则输出所述目标用户的反串能力信息；

在本发明实施例中，将目标用户输入的所有音频数据与预设声音类型识别模型进行匹配，能够确保声音类型识别的准确性。

请参见图5，为本发明实施例提供的一种音频数据处理装置的结构示意图。图5所示的音频数据处理装置50用于执行图1、图3和图4所示的方法，为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明图1、图3和图4所示的实施例。

图5所示的音频数据处理装置50包括音频数据采集单元501、音准维度匹配单元502、声音类型识别单元503和反串能力输出单元504。

音频数据采集单元501，用于采集目标用户针对满足预设反串音乐条件的目标音乐输入的音频数据；

具体实现中，所述音频数据采集单元501通过用户终端上的音频输入设备采集目标用户针对满足预设反串音乐条件的目标音乐输入的音频数据。

假设某个音乐对应的MIDI文件有n个音符，每个音符的持续时间为t_i,i∈[1,n]，每个音符的音高为p_i,i∈[1,n]，则根据如下公式计算该音乐的平均音高P：

在一种可能实现的方式中，基于上述平均音高的计算公式，计算所述目标音乐的平均音高。所述预设反串音乐条件包括预设女声音乐平均音高和预设男声音乐平均音高。所述预设女声音乐平均音高和所述预设男声音乐平均音高用于衡量用户所选的音乐是否可以作为反串维度评价的音乐，这两个的具体数值由所述音频数据处理装置50设定，在此不做限定。若所述目标音乐的平均音高大于所述预设女声音乐平均音高，且所述目标音乐的原始声音类型为女声；或小于所述预设男声音乐平均音高，且所述目标音乐的原始声音类型为男声；则确定所述目标音乐满足所述预设反串音乐条件，即所述目标音乐可以作为反串维度评价的音乐。

在另一种可能实现的方式中，所述预设反串音乐条件包括预设反串维度评价音乐数据库，所述预设反串维度评价音乐数据库包括多首用于反串维度评价的音乐，具体的包括多首女声音乐和多首男声音乐，具体所述预设反串维度评价音乐数据库所包括的音乐数量、所述多首女声音乐的数量和所述多首男声音乐的数量由所述音频数据处理装置50设定，在此不做限定。其中，所述多首女声音乐的平均音高大于第一阈值，所述多首男声音乐的平均音高小于第二阈值，所述第一阈值和所述第二阈值的大小由所述音频数据处理装置50设定，在此不做限定。所述音频数据处理装置50可根据上述平均音高计算公式，预先计算、获取演唱类音频应用程序提供的所有音乐中每个音乐的平均音高，并根据每个音乐的歌手标签信息将所有音乐区分为男声演唱音乐与女声演唱音乐两类，根据所述第一阈值和所述第二阈值选择出所述多首女声音乐和所述多首男声音乐。可以理解的是，所述预设反串维度评价音乐数据库包括平均音高较高的多首女声音乐和平均音高较低的多首男声音乐。若所述目标音乐存在于所述预设反串维度评价音乐数据库中，则确定所述目标音乐满足所述预设反串音乐条件。

可以理解的是，所述预设反串音乐条件用于衡量用户所选择的音乐是否可以用于作为反串维度评价的音乐，即并不是所有音乐均可以作为反串维度评价的音乐，根据所述预设反串音乐条件所选择的音乐有一定的难度。

音准维度匹配单元502，用于将所述音频数据与所述目标音乐的原始音频数据进行匹配得到音准匹配结果；

具体实现中，所述音频数据处理装置50在接收到停止录制指令或所述目标用户完成输入时，所述音准维度匹配单元502将所述音频数据与所述目标音乐的原始音频数据进行匹配得到音准匹配结果。目前，演唱类音频应用程序都具备音准匹配这个功能，将用户输入的音频数据与对应的原始音频数据进行音准维度的比较，得出匹配结果。不同演唱类音频应用程序所采用的音准匹配算法可能有所不同，在本发明实施例中对具体的音准匹配算法不做限定。

在一种可能实现的方式中，所述音准匹配结果为分数，分数的取值范围可以为0～100，0～500等，具体取值范围由所述音频数据处理装置50设定，在此不做限定。越接近最大值，表明用户输入的音频数据与对应的原始音频数据的匹配度越高，用户唱得越准，同时也表明噪音比较少(因为在有噪声的情况下音准提前准确度低，分数会比较低)，保障了后续对所述目标用户输入的音频数据的声音类型的识别过程中不会被噪声所影响。

在一种可能实现的方式中，所述音准匹配结果为匹配等级，例如匹配等级越高，表明用户输入的音频数据与对应的原始音频数据的匹配度越高；匹配等级越低，表明用户输入的音频数据与对应的原始音频数据的匹配度越抵；或者，匹配等级越高，表明用户输入的音频数据与对应的原始音频数据的匹配度越低；匹配等级越低，表明用户输入的音频数据与对应的原始音频数据的匹配度越高。具体匹配等级的数量与匹配形式由所述音频数据处理装置50设定，在此不做限定。

在一种可能实现的方式中，所述音准匹配结果包括分数和匹配等级，根据匹配等级与分数范围之间的对应关系确定分数对应的匹配等级，具体的对应关系、匹配等级的数量、各个匹配等级对应的分数范围由所述音频数据处理装置50设定，在此不做限定。

需要说明的是，所述音准维度匹配单元502得到的所述音准匹配结果，并不需要立即呈现给用户。演唱类音频应用程序在进行音准匹配之后，得到所述音准匹配结果，对用户输入的音频数据进行暂时存储，暂时不输出所述音准匹配结果。演唱类音频应用程序对应的服务器在进行音准匹配之后，得到所述音准匹配结果，将所述音准匹配结果发送至演唱类音频应用程序，演唱类音频应用程序暂时不输出所述音准匹配结果。

声音类型识别单元503，用于根据预设声音类型识别模型对所述音频数据的声音类型进行识别得到目标声音类型；

其中，所述预设声音类型识别模型为将提取的预设男声音频数据的男声特征参数和预设女声音频数据的女声特征参数，通过SVM模型训练得到的，用于识别音频数据的声音类型的模型。

在一种可能实现的方式中，所述声音类型识别单元503具体用于根据所述目标音乐的歌词信息和预设选择规则从所述音频数据中选择用于识别声音类型的目标音频数据；将所述目标音频数据与预设声音类型识别模型进行匹配得到目标声音类型。

在一种可能实现的方式中，所述声音类型识别单元503具体用于将所述音频数据与预设声音类型识别模型进行匹配得到匹配浮点数；若所述匹配浮点数大于第一预设浮点数，则确定目标声音类型为所述男声；若所述匹配浮点数小于第二预设浮点数，则确定目标声音类型为所述女声。

反串能力输出单元504，用于若所述目标声音类型与所述目标音乐的原始声音类型相反且所述音准匹配结果满足预设音准匹配条件，则输出所述目标用户的反串能力信息；

具体实现中，在得到所述音准匹配结果和所述目标声音类型后，所述音频数据处理装置50检测所述目标声音类型与所述目标音乐的原始声音类型是否相同且所述音准匹配结果是否满足音准匹配条件。

所述目标声音类型与所述目标音乐的原始声音类型相反，表明是男声唱女声或女声唱男声。所述音准匹配结果满足所述预设音准匹配条件，表明所述目标用户输入的音频数据在音高上比较准，噪音较少，比较接近所述目标音乐的原始音频数据。若所述目标声音类型与所述目标音乐的原始声音类型相反且所述音准匹配结果满足预设音准匹配条件，则所述反串能力输出单元504输出所述目标用户的反串能力信息。

所述音频数据处理装置50在所述反串能力输出单元504输出所述目标用户的反串能力信息的同时或之前，还可以输出所述音准匹配结果，以便所述目标用户了解匹配情况。

其中，上述各个单元可以是处理器或控制器，例如可以是中央处理器(CentralProcessing Unit，CPU)，通用处理器，数字信号处理器(Digital Signal Processor，DSP)，专用集成电路(Application-Specific Integrated Circuit，ASIC)，现场可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框，模块和电路。所述处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等等。

当上述各个单元为处理器时，本发明实施例所涉及的音频数据处理装置可以为图6所示的音频数据处理装置。图6所示的音频数据处理装置包括处理器601、通信接口602、存储器603和总线604。

其中，存储器603可以是一个存储装置，也可以是多个存储元件的统称，且用于存储可执行程序代码或应用程序运行装置运行所需要参数、数据等。且存储器603可以包括随机存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(non-volatilememory)，例如磁盘存储器，闪存(Flash)等。

总线604可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture，EISA)总线等。该总线604可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

其中，处理器601用于执行如下操作步骤：

其中，所述预设反串音乐条件包括预设女声音乐平均音高和预设男声音乐平均音高；若所述目标音乐的平均音高大于所述预设女声音乐平均音高，或小于所述预设男声音乐平均音高，则确定所述目标音乐满足所述预设反串音乐条件。

其中，处理器601执行根据预设声音类型识别模型对所述音频数据的声音类型进行识别得到目标声音类型时，具体执行以下步骤：

需要说明的是，对于前述的各个方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某一些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其他实施例的相关描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种音频数据处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述预设反串音乐条件包括预设女声音乐平均音高和预设男声音乐平均音高；若所述目标音乐的平均音高大于所述预设女声音乐平均音高且所述目标音乐的原始声音类型为女声，或小于所述预设男声音乐平均音高且所述目标音乐的原始声音类型为男声，则确定所述目标音乐满足所述预设反串音乐条件。

3.根据权利要求1所述的方法，其特征在于，所述预设反串音乐条件包括预设反串维度评价音乐数据库；若所述目标音乐存在于所述预设反串维度评价音乐数据库中，则确定所述目标音乐满足所述预设反串音乐条件。

4.根据权利要求1所述的方法，其特征在于，所述预设声音类型识别模型为将提取的预设男声音频数据的男声特征参数和预设女声音频数据的女声特征参数，通过支持向量机SVM模型训练得到的，用于识别音频数据的声音类型的模型。

5.根据权利要求1或4所述的方法，其特征在于，所述根据预设声音类型识别模型对所述音频数据的声音类型进行识别得到目标声音类型，包括：

6.根据权利要求1或4所述的方法，其特征在于，所述根据预设声音类型识别模型对所述音频数据的声音类型进行识别得到目标声音类型，包括：

7.一种音频数据处理装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述预设反串音乐条件包括预设女声音乐平均音高和预设男声音乐平均音高；若所述目标音乐的平均音高大于所述预设女声音乐平均音高且所述目标音乐的原始声音类型为女声，或小于所述预设男声音乐平均音高且所述目标音乐的原始声音类型为男声，则确定所述目标音乐满足所述预设反串音乐条件。

9.根据权利要求7所述的装置，其特征在于，所述预设反串音乐条件包括预设反串维度评价音乐数据库；若所述目标音乐存在于所述预设反串维度评价音乐数据库中，则确定所述目标音乐满足所述预设反串音乐条件。

10.根据权利要求7所述的装置，其特征在于，所述预设声音类型识别模型为将提取的预设男声音频数据的男声特征参数和预设女声音频数据的女声特征参数，通过支持向量机SVM模型训练得到的，用于识别音频数据的声音类型的模型。

11.根据权利要求7或10所述的装置，其特征在于，所述声音类型识别单元具体用于根据所述目标音乐的歌词信息和预设选择规则从所述音频数据中选择用于识别声音类型的目标音频数据；将所述目标音频数据与预设声音类型识别模型进行匹配得到目标声音类型。

12.根据权利要求7或10所述的装置，其特征在于，所述声音类型识别单元具体用于将所述音频数据与预设声音类型识别模型进行匹配得到匹配浮点数；若所述匹配浮点数大于第一预设浮点数，则确定目标声音类型为所述男声；若所述匹配浮点数小于第二预设浮点数，则确定目标声音类型为所述女声。