CN109920449A

CN109920449A - 节拍分析方法、音频处理方法及装置、设备、介质

Info

Publication number: CN109920449A
Application number: CN201910204694.3A
Authority: CN
Inventors: 娄帆
Original assignee: All Kinds Of Fruits Garden Guangzhou Network Technology Co Ltd
Current assignee: Bigo Technology Pte Ltd
Priority date: 2019-03-18
Filing date: 2019-03-18
Publication date: 2019-06-21
Anticipated expiration: 2039-03-18
Also published as: CN109920449B

Abstract

本发明公开了一种节拍分析方法、音频处理方法及装置、设备、介质。该节拍分析方法包括：获取用户的清唱数据；识别所述清唱数据的语音特征；根据节拍周期值对所述语音特征分组，根据分组结果确定所述清唱数据的节拍分析结果。现有技术的节拍分析所基于的音频信号特征与用户清唱时的环境噪声、用户语速、用户口音等干扰信息有关，而语音特征与环境噪声、用户语速、用户口音等干扰信息无关，因此，根据清唱数据的语音特征的分组结果进行节拍分析所得到的节拍分析结果的抗干扰性强、准确性高。

Description

节拍分析方法、音频处理方法及装置、设备、介质

技术领域

本发明实施例涉及音频处理技术领域，尤其涉及一种节拍分析方法、音频处理方法及装置、设备、介质。

背景技术

在当今的移动互联网时代，各类对音频文件进行处理的智能终端和应用程序的使用越来越广泛，在音频处理领域出现了自动检测音乐节奏、分析节拍的技术，利用这项技术可对音频进行一定的加工、美化等处理，如根据节拍的周期和强弱等规律自动添加鼓点、和声或伴奏等，对于音频加工和音乐制作具有重要的意义。

目前的节拍分析方法通常是针对具有明显节奏的音乐进行识别并划分节拍，或者要求音频内容必须是基于预设的节奏模型录制，并且是基于传统的音频信号特征，如频谱通量、子带能量、频率周期性等进行分析。然而，对于人声清唱的节拍分析，由于清唱内容不可预知、没有明显节奏，现有方法不再适用，基于音频信号特征对清唱数据进行处理时易受到噪声、语速、口音等的干扰，节拍分析效果较差。

发明内容

本发明提供了一种节拍分析方法、音频处理方法及装置、设备、介质，通过识别清唱数据的语音特征，提高节拍分析结果的准确性。

第一方面，本发明实施例提供了一种节拍分析方法，包括：

获取用户的清唱数据；

识别所述清唱数据的语音特征；

根据节拍周期值对所述语音特征分组，根据分组结果确定所述清唱数据的节拍分析结果。

第二方面，本发明实施例提供了一种音频处理方法，包括：

接收用户的音频处理请求；

根据所述音频处理请求，执行如第一方面所述的节拍分析方法，得到用户清唱数据的节拍分析结果；

根据所述节拍分析结果和所述清唱数据生成合成音频。

第三方面，本发明实施例提供了一种节拍分析装置，包括：

数据获取模块，用于获取用户的清唱数据；

特征识别模块，用于识别所述清唱数据的语音特征；

分组模块，用于根据节拍周期值对所述语音特征分组；

分析模块，用于根据分组结果确定所述清唱数据的节拍分析结果。

第四方面，本发明实施例提供了一种音频处理装置，包括：

请求接收模块，用于接收用户的音频处理请求；

节拍分析模块，用于根据所述音频处理请求，执行如权利要求1至7任一项所述的节拍分析方法，得到用户清唱数据的节拍分析结果；

音频处理模块，用于根据所述节拍分析结果和所述清唱数据生成合成音频。

第五方面，本发明实施例提供了一种设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的节拍分析方法或如第二方面所述的音频处理方法。

第六方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面所述的节拍分析方法或如第二方面所述的音频处理方法。

本发明实施例提供了一种节拍分析方法、音频处理方法及装置、设备、介质。该节拍分析方法包括：获取用户的清唱数据；识别所述清唱数据的语音特征；根据节拍周期值对所述语音特征分组，根据分组结果确定所述清唱数据的节拍分析结果。现有技术的节拍分析所基于的音频信号特征与用户清唱时的环境噪声、用户语速、用户口音等干扰信息有关，而语音特征与环境噪声、用户语速、用户口音等干扰信息无关，因此，根据清唱数据的语音特征的分组结果进行节拍分析所得到的节拍分析结果的抗干扰性强、准确性高。

附图说明

图1为本发明实施例一提供的一种节拍分析方法的流程图；

图2为本发明实施例二提供的一种节拍分析方法的流程图；

图3为本发明实施例二提供的一种节拍分析方法的原理示意图；

图4为本发明实施例三提供的一种节拍分析方法的流程图；

图5为本发明实施例三提供的一种节拍分析方法的原理示意图；

图6为本发明实施例四提供的一种节拍分析方法的流程图；

图7A为本发明实施例四中的初始直方图的示意图；

图7B为本发明实施例四中的叠加以405ms为中心高斯信号的示意图；

图7C为本发明实施例四中的叠加以105ms为中心高斯信号的示意图；

图7D为本发明实施例四中的直方图统计结果的示意图；

图7E为本发明实施例四中的变形后的直方图的示意图；

图7F为本发明实施例四中的统计结果叠加后的直方图的示意图；

图8A为本发明实施例五提供的一种音频处理方法的流程图；

图8B为本发明实施例五中的音频处理方法应用场景的示意图；

图9为本发明实施例六提供的一种节拍分析装置的结构示意图；

图10为本发明实施例七提供的一种音频处理装置的结构示意图；

图11为本发明实施例八提供的一种设备的硬件结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种节拍分析方法的流程图，本实施例可适用于对清唱音频进行节拍分析的情况。具体的，该节拍分析方法可以由节拍分析装置执行，该节拍分析装置可以通过软件和/或硬件的方式实现，并集成在设备中。进一步的，所述设备包括但不限定于：计算机、笔记本电脑以及MIDI(Musical Instrument Digital Interface，乐器数字接口)设备等电子设备。

需要说明的是，节拍分析是指分析一段音乐中强节拍和弱节拍的组合规律。对于一段清唱数据，各种有强有弱的节拍，会在长度相同的时间内，按照一定的次序反复出现，形成有规律的强弱变化，从一个强节拍到下一个强节拍之间的部分即称一小节。例如，A表示强节拍，B表示弱节拍，则一个小节可表示为“A B B”、“A B”等。本实施例通过分析清唱数据的语音特征，根据其出现的时间间隔确定节拍强弱变化的规律，从而提高节拍分析的准确率。

参考图1，该方法具体包括如下步骤：

S110、获取用户的清唱数据。

具体的，所述清唱数据为脱离伴奏(和弦、鼓点、乐器演奏等)、由人声演唱的音频数据，清唱数据可以为现有的音乐作品，也可以是用户原创的音乐。通过电脑或手机中用于节拍分析的客户端、录音笔或各类电子设备中的麦克风等可对清唱进行录音，获取清唱数据；也可从电子设备的存储器件、网络云盘、服务器等存储的数据中选择已提前录制的清唱数据进行节拍分析。

S120、识别所述清唱数据的语音特征。

具体的，识别清唱数据的语音特征，即识别清唱数据中每个演唱的字符的特征，语音特征主要为各字符的出现时刻，也可以包括各字符的音量大小、发声时长等，用于分析各字符按照一定次序或节奏反复出现所形成的规律。本实施例不限定语音特征的具体形式，其满足通过语音识别的相关技术提取得到，属于语言学相关特征、能够反映演唱字符出现时刻即可。示例性的，将语言学中的音素作为语音特征，音素是一种高度抽象的声学特征，是从语言学角度划分出来的最小语音单位。中文常用的音素集包括声母、韵母，因此对于中文的清唱数据可识别其声母/韵母的语音特征。进一步的，中文具有219个音素，移除音素中的音调后变为67个无音调音素，将无音调音素作为语音特征，可对各种风格、各种音调的清唱数据进行统一识别，提高适用性。需要说明的是，音素是对于中文的清唱数据而设定的语音特征，当针对非中文的清唱数据进行节拍分析时，也可选择其它的语音特征。

进一步的，识别到的语音特征包括音素、字符、词语等形式，对字符级别的特征进行识别更为全面，能够捕捉用户的每一个演唱字符，其运算过程较为复杂，适用于计算机等内存较大的设备；而以音素进行特征识别，能够降低运算负担，适用于在手机、平板电脑等内存较小的设备。

S130、根据节拍周期值对所述语音特征分组，根据分组结果确定所述清唱数据的节拍分析结果。

具体的，节拍周期值用于对识别到的语音特征进行分组，将清唱数据划分为多个小节，得到节拍分析结果。在获取清唱数据时，用户可选择根据预设的节奏模型或根据预设的速度进行演唱，则节拍周期值是已知的，直接用于分组即可；或在获取清唱数据时，同时获取用户输入的期望周期值，例如，用户要根据500ms为一小节的速度进行演唱，则可输入期望周期值“500ms”；对于随机的清唱数据，节拍周期值可通过分析语音特征出现的时间间隔来确定，例如，所有语音特征之间的时间间隔均为500ms，或所有时间间隔的最小公约数/最小公倍数为500ms，则可将500ms作为节拍周期值进行分组；与此同时，节拍周期值还可结合清唱速度(根据语音特征的平均时间间隔较小、中等或较大，确定清唱速度为偏慢、中等或偏快)、清唱风格(各字符的音量大小、发声时长、跳跃程度等)等来调整。

示例性的，对于一段清唱数据，依次识别到以下字符“a1a2a3a4a5a6”，其两两之间的时间间隔依次为500ms、248ms、252ms、500ms、250ms，则可将 500ms作为节拍周期值，以500ms时刻出现的语音特征为起始语音特征，则对语音特征进行分组后，得到的分组结果可能为：a1-|a2a3|a4-|a5a6|”，其中,“|”为小节之间的分隔符，a1、a2、a4和a5为各小节的第一个语音特征，通常为强节拍，在小节中占有的时长为其他字符的两倍，即如果a1、a2、a4和a5在小节中占2拍，则其他字符分别占1拍。

进一步的，节拍分析结果包括：节拍周期、强节拍和分句信息，其中，节拍周期是根据强弱节拍的变化规律确定的每个小节的长度；强节拍为每小节中的第一拍对应的语音特征；分句信息是指根据各小节之间的变化规律划分得到的不同语句。

本发明实施例一提供的一种节拍分析方法，通过识别清唱数据的语音特征，并根据节拍周期值对所述语音特征分组，根据分组结果确定所述清唱数据的节拍分析结果，利用了语言学中更高维度的语音特征。现有技术的节拍分析所基于的音频信号特征与用户清唱时的环境噪声、用户语速、用户口音等干扰信息有关，而语音特征与环境噪声、用户语速、用户口音等干扰信息无关，因此，根据语音特征的分组结果进行节拍分析，提高了抗干扰性，提高了节拍分析的准确率。

实施例二

图2为本发明实施例二提供的一种节拍分析方法的流程图。本实施例在上述实施例的基础上，对识别清唱数据的语音特征的步骤进行了具体说明，通过预先训练语音识别模型，利用语音识别模型对清唱数据的音素特征进行识别，提高语音特征识别的准确率。

参考图2，该节拍分析方法包括：

S101、获取清唱数据样本、对话数据样本、清唱语音特征和对话语音特征。

具体的，本实施例针对清唱数据与正常对话数据的差异，对语音识别模型进行训练，首先获取大量的清唱数据样本、对话数据样本，并从样本中提取出清唱语音特征和对话语音特征，所述样本可通过采集各种类型人群(如不同性别、不同年龄、专业的音乐工作者或业余者等)的清唱数据和对话数据获得，也可利用互联网中可搜集到的现成的视频、音频获取；对大量的样本进行处理，分别提取出清唱数据和对话数据的语音特征。

S102、将所述清唱数据样本和对话数据样本作为输入，将所述清唱语音特征和对话语音特征作为输出，对神经网络模型进行训练，得到语音识别模型。

具体的，针对清唱数据与正常对话数据的差异，对语音识别模型进行训练，使其能够准确地识别出清唱数据并输出其清唱语音特征，当输入的音频为对话数据样本时，无需进行节拍分析。所述语音识别模型优选为神经网络模型。

图3为本发明实施例二提供的一种节拍分析方法的原理示意图。如图3所示，将大量的清唱数据样本、对话数据样本作为神经网络模型的输入，清唱语音特征和对话语音特征作为输出，根据清唱数据和对话数据的差异，如音调变化、单字持续时长较长、语法与正常对话的不同等，对神经网络模型的参数进行调整和训练，使其学习到从清唱数据中识别语音特征的规律，最终得到语音识别模型。

需要说明的是，直接利用现有技术中基于对话数据的语音识别模型也可实现识别字符或音素，但由于对话数据不具备强弱字符的规律性，将其直接用于清唱数据的语音特征识别，会导致特征识别的准确率偏低，而利用本实施例所述的语音识别模型对音素进行识别，准确率可达到90％左右。

S103、获取用户的清唱数据。

具体的，用户可通过电脑、手机等客户端录制或导入清唱数据，也可从网络资源中下载已有的清唱数据。

S104、将所述清唱数据输入语音识别模型，得到对应的语音特征。

具体的，将清唱数据输入语音识别模型，语音识别模型根据学习到的识别规律，可识别清唱数据中各音素的出现时刻，将其作为对应的语音特征输出。如图3所示，语音识别模型的输出为清唱数据对应的语音特征(a1-a6)。

S105、将预设周期值或用户输入的期望周期值作为节拍周期值，或者根据语音特征的时间间隔确定节拍周期值。

具体的，预设周期值是指预先设定或默认的节拍周期值；期望周期值为用户输入的节拍周期值，其形式上可以为用户输入的具体数字，例如500ms，也可以为用户对预设周期值进行加减调整后得到的新的节拍周期值，用于反映用户期望的节拍周期值；或者为根据语音特征的时间间隔确定的节拍周期值，例如出现频率最高的时间间隔，或所有时间间隔的最小公约数/最小公倍数等。

S106、根据节拍周期值对所述语音特征分组，根据分组结果确定所述清唱数据的节拍分析结果。

具体的，根据节拍周期值对语音特征进行分组，将语音特征划分为多个小节，每个小节中的第一个语音特征为强节拍，从而得到语音特征的强弱节拍的变化规律。选择不同的语音特征作为起始语音特征，或根据不同的节拍周期值进行分组，都会得到多组不同的分组结果。根据用户的实际需求，或者根据分组结果中包含强节拍的个数、小节的数量等，可确定节拍分析结果(强节拍的个数越多、小节的数量越多，则规律越明显，节拍分析效果更好)。在实际应用中，根据节拍分析结果可添加对应的伴奏、鼓点等，以完成音乐的制作；也可对用户的清唱数据进行评价和打分等，本实施例的节拍分析方法可用在各种音乐相关软件中。

进一步的，将确定的节拍周期值显示给用户，用户可对节拍周期值进行调整。

具体的，可在对语音特征进行分组之前，先将节拍周期值显示给用户，用户可根据实际需求进行调整，增大节拍周期值或减小节拍周期值，再据此进行分组；也可在分组结果展示之后，用户根据最终划分节拍的效果，对节拍周期值进行调整，例如，节拍分析结果中一个小节偏长，则用户可减小节拍周期值，并以调整后的节拍周期值重新对语音特征进行分组。

本实施例的节拍分析方法，通过预先训练的语音识别模型识别清唱数据的语音特征，提高了特征识别的准确率，有利于对语音特征进行准确的分组；通过使用语音特征，提高识别过程中的抗干扰能力，并且不受演唱类型的限制，提高节拍分析的适用性和准确率；通过多种方式确定节拍周期值，得到多种分组结果，并从中确定最终的节拍分析结果，提高了节拍分析的灵活性和全面性。

实施例三

图4为本发明实施例三提供的一种节拍分析方法的原理示意图。本实施例在上述实施例的基础上，进行具体优化，对节拍周期值以及节拍分析结果的确定进行了具体描述。需要说明的是，未在本实施例中详尽描述的技术细节可参见上述任意实施例。

具体的，参考图4，该方法具体包括如下步骤：

S210、获取用户的清唱数据。

S220、将所述清唱数据输入语音识别模型，得到对应的语音特征。

具体的，将清唱数据输入语音识别模型，语音识别模型根据学习到的识别规律，可识别清唱数据中各音素的出现时刻，将其作为对应的语音特征输出，进而根据语音特征之间的时间间隔确定节拍周期值。可选的，语音特征还包括各音素的音量大小、发声时长等，以通过预判断各音素属于强节拍的概率，辅助对语音特征进行分组，音量越大、发声时长越长，则该音素越可能为强节拍。

进一步的，语音识别模型的输出还包括各音素属于强节拍的权重值。

图5为本发明实施例三提供的一种节拍分析方法的原理示意图。如图5所示，语音识别模型的输出包括音素a1-a6，还包括音素a1-a6属于强节拍的权重值。权重值越大，则该音素属于强节拍的概率越大，越有可能作为一小节中的第一拍。由于本实施例将神经网络模型作为语音识别模型，具有较高的识别精度，示例性地将各语音特征的权重值均赋值为1以简化计算。

S230、根据语音特征的时间间隔对语音特征的出现时刻进行直方图统计，得到统计结果。

具体的，根据时间间隔对识别到的语音特征进行直方图统计，所述时间间隔为任意相邻两个音素声母出现时刻的差值。直方图用于统计各时间间隔值出现的频数，如图5所示，其横坐标为时间间隔，纵坐标为该时间间隔在一段清唱数据中出现的频数，出现频数最高的一个时间间隔的值，最有可能为正确的节拍周期值，如上述实例中的500ms。

进一步的，清唱数据具有随机性，其时间间隔不一定有准确、明显的重复规律，可能时间间隔的值各不相同，或出现频数的差异很小。通过在直方图中为每个时间间隔值叠加一个对应的高斯信号，可进一步分析出最有可能为节拍周期值的时间间隔值。所述高斯信号以时间间隔值为中心、以预设数值σ为标准差，本实施例示例性地设定σ＝30。

S240、对所述统计结果检峰，将峰值对应的时间间隔作为所述节拍周期值。

具体的，对于直方图(原始直方图或叠加高斯信号的直方图)的统计结果进行检峰，峰值对应的时间间隔出现的频数最多、重复的概率越大，将其作为节拍周期值。可选的，根据统计结果可确定多个备选的节拍周期值，以向用户提供多种分组结果，用户可根据实际需求选择。

S250、根据预设的不同起始语音特征和所述节拍周期值，确定两个或两个以上的分组结果。

具体的，根据节拍周期值对语音特征进行分组，每个分组即为一个小节，各组的第一个语音特征根据起始语音特征和所述节拍周期值确定，所述起始语音特征是指在所有语音特征中选定的分组起始语音特征，起始语音特征需遍历每个语音特征。

示例性的，每个小节中的第一个语音特征与起始语音特征的时间间隔在节拍周期值的整数倍的一定误差范围内。例如，对于“a1a2a3a4a5a6”，其两两之间的时间间隔依次为500ms、248ms、252ms、500ms、250ms，将500ms作为节拍周期值对语音特征进行分组，以a1为起始语音特征，则a1作为第一个强节拍，则第二个强节拍需满足与a1的时间间隔在500ms的1倍的一定误差范围内(如500±5％，即[475,525])，则第二个强节拍为a2；第三个强节拍与a1 的时间间隔需满足在500ms的2倍的一定误差范围内，如500*2±5％，即[950,1050]，a4与a1的间隔为1000ms满足要求，因此第三个强节拍为a4；依此类推，第四个强节拍的间隔需满足在500*3±5％范围内，a5与a1的间隔为 1480ms，满足要求，因此第四个强节拍为a5，最终得到的结果为：a1-|a2a3|a4 -|a5a6|。需要说明的是，根据节拍周期值对语音特征进行分组时，以不同的语音特征为起始语音特征可能会得到不同的分组结果。

可选的，每个小节中的第一个语音特征也可不与起始语音特征比较，而与上一个分组的第一个语音特征进行比较，即通过起始语音特征确定第二个强节拍，然后根据第二个强节拍和节拍周期值确定第三个强节拍等，通过该方法也可实现分组，但由于参考点一直在变化，会造成误差累积，影响分组的准确率。

S260、计算分组结果中语音特征为强节拍的权重值之和。

具体的，在识别语音特征的过程中，根据音素的发声时长、音量大小等，为各语音特征赋一个权重值，用于表示该音素属于强节拍的概率大小。将不同的音素作为起始语音特征，得到分组结果后，计算分组结果中强节拍(每个小节中的第一拍)对应的权重值之和。例如，a1-|a2a3|a4-|a5a6|对应于6个权重值(权重值均为1)，则根据分组结果对强节拍的权重值求和，将a1、a2、 a4、a5对应的权重值求和为4。

S270、权重值之和最大的分组结果作为所述清唱数据的节拍分析结果。

具体的，将不同的音素作为起始语音特征，会得到多个分组结果，针对各分组结果，计算其强节拍对应的权重值之和，权重值之和越大，定位强节拍的正确率越高，节拍分析结果越准确。

本实施例的节拍分析方法，根据时间间隔进行直方图统计，将统计结果中峰值对应的时间间隔确定为节拍周期值，能够确定出最接近真实值的节拍周期值，提高分组的准确性；通过计算各分组结果中强节拍的权重值之和，将权重值之和最大的分组结果，即强弱节拍变化规律最明显的分组结果作为节拍分析结果，提高了节拍分析的准确率。

实施例四

图6为本发明实施例四提供的一种节拍分析方法的流程图。本实施例在上述实施例的基础上，进行具体优化，对直方图统计和确定分组结果的过程进行具体描述，为便于理解，通过实例对节拍分析方法进行说明。需要说明的是，未在本实施例中详尽描述的技术细节可参见上述任意实施例。

参考图6，本实施例的节拍分析方法，具体包括：

S1、获取用户的清唱数据并识别清唱数据的语音特征。示例性的，识别到的音素声母出现时刻分别为：[300，705，810，1096，1280，1501，1710]，单位为毫秒：ms。可选的，根据各声母的发声时长、音量大小等给各声母赋一个权重值，也可将每个字符的韵母段的平均能量等音频特征作为权重值。本实施例示例性的将权重值都赋值为1。

S2、根据语音特征的时间间隔对语音特征的出现时刻进行直方图统计。首先计算两两语音特征的时间间隔为：[405，105，286，184，221，209]，对其进行直方图统计，以判断哪个时间间隔值出现的次数最多，则最有可能被确定为节拍周期值。

S3、在初始直方图上叠加与各时间间隔对应的高斯信号。在本实例中，由于各时间间隔值都只出现了一次，因此可忽略直方图中矩形的纵坐标，使直方图初始为空(纵坐标为0)，横坐标为上述各时间间隔值。图7A为本发明实施例四中的初始直方图的示意图。在初始直方图(记为H)中叠加高斯信号，所述高斯信号以时间间隔值为中心，以σ＝30为标准差。对于第一个时间间隔，在初始直方图上叠加以405为中心的高斯信号，得到图7B所示的直方图；在图 7B的基础上叠加以105为中心的高斯信号，得到图7C所示的直方图，依次类推，最终得到图7D所示的直方图。需要说明的是，184、221、209对应的高斯信号有重合，因此在其周围区域产生了叠加。

S4、对直方图的统计结果进行检峰，将峰值对应的时间间隔作为节拍周期值。可选的，节拍周期值可以确定为215ms，也可根据波峰出现的位置，选取预设数量的节拍周期值，例如，首选为215ms，其次为184ms，多个备选的节拍周期值，可得到多种分组结果，通过计算权重值之和确定最终的节拍分析结果。

需要说明的是，根据实际情况备选的节拍周期值会受到一定的预设条件的限制，例如，通过分析大量的清唱数据样本可得到正常的清唱速度的大致范围，根据此范围可限定节拍周期值只能选取300ms-500ms内的峰值对应的时间间隔，图7C满足300ms-500ms的峰值只有一个，则确定节拍周期值405ms。

S5、根据节拍周期值对所述语音特征分组。具体的，以405ms为节拍周期值进行分组，以300ms为起始语音特征，以405的整数倍的一定误差范围进行分组，则各分组中的强节拍的位置应接近300、300+405、300+405*2、300+405*3、 300+405*4的±5％的范围内，即，第一个强节拍为300ms出现的音素，第二个强节拍为705ms，第三个强节拍应在1110±5％＝[1054.5,1165.5]的范围内，因此第三个强节拍为1096；第四个强节拍应在1515±5％＝[1439.25,1590.75]的范围内，因此第四个强节拍为1501，则得到的分组结果为：300|705810|1096 1280| 1501 1710。同理，以810ms为起始语音特征，405为节拍周期值进行分组，得到的分组结果为：300 705|810 1096 1280 1501 1710。

需要说明的是，由于以810ms为起始语音特征，405为节拍周期值分组，除810外，没有其他的语音特征与起始语音特征的时间间隔符合预设范围，因此只找到了810一个强节拍，并没有体现出明显的清唱数据的规律，分组效果不理想。

通过上述实例可以得知，以不同的起始语音特征和不同的节拍周期值进行分组，可得到多种不同的分组结果。

S6、强节拍的权重值之和最大的分组结果作为所述清唱数据的节拍分析结果。对于上述实例中的第一组分组结果300|705 810|1096 1280|1501 1710，共出现4个强节拍，将其对应的权重值(均为1)求和，得到的结果为4；对于第二组分组结果，只出现1个强节拍，权重值之和为1。由此，将第一组分组结果作为节拍分析结果，具有更强的规律性，节拍分析的准确率更高。需要说明的是，在特征识别的过程中，语音识别模型也可输出各语音特征对应的权重值，即预先分析了哪些语音特征更有可能为强节拍，因此确定分组结果时，可根据权重值之和得到最接近真实值的分组结果。

进一步的，得到分组结果后，还包括：更新节拍周期值。针对分组结果，最终的节拍周期值应为所有强节拍之间的时间间隔的平均值。例如，对于第一组分组结果，更新后的节拍周期值为(405+391+405)≈400.3ms。

进一步的，在S3的步骤中，叠加高斯信号之后，还包括：通过设定一个比例系数对直方图进行变形，以减少确定的节拍周期值与真实的周期值之间的误差。

具体的，假设真实的节拍周期值为405ms，而如图,7D所示的直方图中215ms 和185ms对应的统计值更大，这可能是由于声母并非只在某一个节拍上出现。以4/4拍为例，即每小节有4拍，假设其真实的周期值就为405ms(每小节占 405ms)，但4个节拍点上都出现了音素声母，(偶尔也会有声母出现在5/8这样的节拍点，但几率较低，不影响统计结果)，所以会造成直方图中真实周期值的 1/2、1/4处对应的统计值较高，被确定为节拍周期值。例如图7D中的184ms 或221ms对应的峰值较高，但该时间间隔值大约为真实的周期值的1/2，105ms 对应的峰值也较高，但改时间间隔大约为真实周期值的1/4，但这些时间间隔对于确定节拍周期值(理想状态下节拍周期值应确定为405ms)并没有贡献。

此时，通过设置比例系数，对直方图进行变形。假设比例系数为2，则直方图的横坐标都变成原来的2倍，并将纵坐标乘以1/2，使得高斯信号归一化(比例系数为λ，则横坐标乘以λ，纵坐标乘以1/λ，λ根据实际情况确定)。图7E 为本发明实施例四中的变形后的直方图的示意图，其中，较高的、在0-600ms 范围内的高斯信号为变化前的统计结果；较低的、在0-1200范围内的高斯信号为变化后的统计结果。通过此变形的步骤，拉长了统计结果的横坐标；然后将两个统计结果的信号叠加，得到图7F，再根据图7F确定节拍周期值。可以看出，图7F中405ms对应的峰值明显增大，使其更有可能作为备选的节拍周期值，以避免错过真实值、提高节拍分析的准确率。

需要说明的是，在上述实例中，根据比例系数进行变形、叠加之后，最终确定的首选的节拍周期值仍为221ms，405ms对应的峰值变化较小，不足以影响节拍周期值的确定，这是由于300-500ms范围内只有405ms一个时间间隔的高斯信号，与其他时间间隔的高斯信号不存在干扰。而在实际应用中，通过设定一个比例系数对直方图进行变形，能够明显地将大量的干扰信号与真实点(或最接近真实点的节拍周期值)对应的高斯信号的数值拉开差距，从而准确定位到节拍周期值，提高节拍分析的准确率。

进一步的，在清唱数据中，强节拍上有较大概率出现语音特征，并且强节拍具有时间上重复的规律，因此，通过直方图统计可确定最佳的节拍周期值；同理，也可利用其他方法代替直方图统计，例如对时间间隔进行傅里叶变换，将变换后的峰值对应的时间间隔作为节拍周期值等。

进一步的，清唱数据的节拍在一定的时间段内应具有一定的规律性，但由于用户在清唱过程中前后的清唱速度不一致，导致分组结果中的强节拍分布不均匀、规律性较差，此时，可对语音特征进行分段统计，分别得到每一段对应的节拍周期值，再进行加权平均确定节拍周期值。例如，若强节拍随时间的分布出现较大区别，前期分布较为均匀，而后期有较多缺失，当前后的差异程度超出阈值时，则通过分段统计和加权平均的方式，重新确定节拍周期值，并重新获得强节拍点位置。需要说明的是，若清唱数据较短，或识别到的所有语音特征本身的分布就极不均匀，则无需重新确定节拍周期值。

本发明实施例四提供的一种节拍分析方法，根据比例系数对统计结果进行变形，能够减少非真实周期值的干扰，提高节拍周期值确定的准确率；通过将强节拍的权重值之和最大确定节拍分析结果，能够确定出最接近真实值的节拍周期值，提高了节拍分析的准确率。

实施例五

图8A为本发明实施例五提供的一种音频处理方法的流程图。本实施例可适用于对清唱数据进行音频处理的情况。具体的，该音频处理方法可以由音频处理装置执行，该音频处理装置可以通过软件和/或硬件的方式实现，并集成在设备中。进一步的，所述设备包括但不限定于：计算机、笔记本电脑以及MIDI 设备等电子设备。

参考图8A，音频处理方法包括：

S410、接收用户的音频处理请求。

具体的，音频处理请求可以为用户登录客户端或开启音频处理的功能，也可以为开始录制、或从设备的本地内存导入、从外接设备读取或从网络资源中下载到清唱数据的音频文件，即接收音频处理请求。所述用户的音频处理请求包括清唱类型、处理类型、分组方式，其中，清唱类型可以为根据预设的节奏模型录制、随机录制和导入清唱数据；处理类型包括自动添加鼓点、添加和弦、添加和声等；分组方式包括根据预设周期值分组、根据输入的期望周期值分组、自动分组以及备选周期值的数量、节拍分析结果的数量。根据所述音频处理请求可对清唱数据进行对应的处理。

S420、根据所述音频处理请求，执行上述任意实施例所述的节拍分析方法，得到用户清唱数据的节拍分析结果。

具体的，根据所述音频处理请求，执行上述任意实施例所述的节拍分析方法，根据用户选择的分组方式可确定节拍周期值，并将对应的分组结果作为节拍分析结果，当节拍分析结果有多种时，页可分别针对每种节拍分析结果进行后续的音频处理。需要说明的是，本实施例中所采用的节拍分析方法能够减少噪声干扰，通过识别高维的语言学音素特征，增强了对各种类型、音质和各种音准的清唱数据的适用性，扩大了可节拍分析的音频范围。节拍分析结果中包含了强弱节拍的变化规律和强节拍的具体位置等，可为后续的音频处理提供必要的节奏信息。

S430、根据所述节拍分析结果和所述清唱数据生成合成音频。

具体的，根据节拍分析结果，可识别出强节拍的位置及强弱节拍变化的规律，据此可对清唱数据生成合成音频，例如添加鼓点、和弦等，合成音频与节拍分析结果相对应，即强节拍所对应的鼓点或和弦等也相对较为强烈。

图8B为本发明实施例四中的音频处理方法应用场景的示意图。如图8B所示，用户进入音频处理界面后，可选择录制、导入、或下载清唱数据等，所述清唱数据可以是现有的音乐作品，也可以为用户原创的音乐；在处理类型一栏可选择对清唱数据进行何种处理；在节拍分析一栏可设置分组方式，例如输入期望的节拍周期值，或对自动确定的节拍周期值进行增减的调整，最后可点击展示节拍分析结果，得到用户清唱数据中的节拍信息及对应的强节拍位置；根据节拍分析结果，用户可点击合成音频，则将节拍分析结果与清唱数据送至音频处理模块，根据处理类型、分组方式、节拍分析结果等，生成所述清唱数据的合成音频，经用户确认后可进行上传与分享。

本发明实施例五的音频处理方法，包括：接收用户的音频处理请求；根据所述音频处理请求，执行节拍分析方法，得到用户清唱数据的节拍分析结果；根据所述节拍分析结果和所述清唱数据生成合成音频。通过上述技术方案，提高了节拍分析的抗干扰性，提高节拍分析的准确性，并根据节拍分析结果中强弱节拍的变化规律，实现对清唱数据的自动合成处理。

实施例六

图9为本发明实施例六提供的一种节拍分析装置的结构示意图。本实施例提供的节拍分析装置包括：

数据获取模块510，用于获取用户的清唱数据；

特征识别模块520，用于识别所述清唱数据的语音特征；

分析模块530，用于根据节拍周期值对所述语音特征分组；

分析模块540，用于根据分组结果确定所述清唱数据的节拍分析结果。

本发明实施例六提供的一种节拍分析装置，通过获取用户的清唱数据；识别模块识别所述清唱数据的语音特征；根据节拍周期值对所述语音特征分组，根据分组结果确定所述清唱数据的节拍分析结果，实现了根据语言学中高维的语音特征进行节拍分析，减少音频信号的干扰，提高节拍分析的准确率。

在上述实施例的基础上，所述装置还包括：

样本获取模块，用于获取清唱数据样本、对话数据样本、清唱语音特征和对话语音特征；

训练模块，用于将所述清唱数据样本和对话数据样本作为输入，将所述清唱语音特征和对话语音特征作为输出，对神经网络模型进行训练，得到语音识别模型。

在上述实施例的基础上，所述特征识别模块520，具体用于：

将所述清唱数据输入语音识别模型，得到对应的语音特征。

进一步的，所述装置还包括：

节拍周期值确定模块，用于将预设周期值或用户输入的期望周期值作为节拍周期值，或者根据语音特征的时间间隔确定节拍周期值

进一步的，所述装置还包括：

统计模块，用于根据语音特征的时间间隔对语音特征的出现时刻进行直方图统计，得到统计结果；

检峰模块，用于对所述统计结果检峰，将峰值对应的时间间隔作为所述节拍周期值。

进一步的，所述分组模块530，具体用于：

根据预设的不同起始语音特征和所述节拍周期值，确定两个或两个以上的分组结果。

进一步的，所述分析模块540，包括：

计算单元，用于计算分组结果中语音特征为强节拍的权重值之和；

分析结果确定单元，用于将权重值之和最大的根据分组结果确定所述清唱数据的节拍分析结果。

本发明实施例六提供的节拍分析装置可以用于执行上述任意实施例提供的节拍分析方法，具备相应的功能和有益效果。

实施例七

图10为本发明实施例七提供的一种音频处理装置的结构示意图。本实施例提供的音频处理装置包括：

请求接收模块610，用于接收用户的音频处理请求；

节拍分析模块620，用于根据所述音频处理请求，执行上述任意实施例所述的节拍分析方法，得到用户清唱数据的节拍分析结果；

音频处理模块630，用于根据所述节拍分析结果和所述清唱数据生成合成音频。

本发明实施例七提供的一种音频处理装置，通过接收用户的音频处理请求；根据所述音频处理请求，执行节拍分析方法；得到用户清唱数据的节拍分析结果；根据所述节拍分析结果和所述清唱数据生成合成音频。根据语言学中的语音特征进行节拍分析，提高了节拍分析的抗干扰性，提高节拍分析的准确性。

在上述实施例的基础上，所述节拍分析模块620，包括：

数据获取模块，用于获取用户的清唱数据；

特征识别模块，用于识别所述清唱数据的语音特征；

分析模块，用于根据节拍周期值对所述语音特征分组，根据分组结果确定所述清唱数据的节拍分析结果。

本发明实施例七提供的音频处理装置可以用于执行上述任意实施例提供的音频处理方法，具备相应的功能和有益效果。

实施例八

图11为本发明实施例八提供的一种设备的硬件结构示意图。如图11所示，本实施例提供的一种设备，包括：处理器710和存储装置720。该设备中的处理器可以是一个或多个，图11中以一个处理器710为例，所述设备中的处理器 710和存储装置720可以通过总线或其他方式连接，图11中以通过总线连接为例。

所述一个或多个程序被所述一个或多个处理器710执行，使得所述一个或多个处理器实现上述实施例中任意所述的节拍分析方法或音频处理方法。

该设备中的存储装置720作为一种计算机可读存储介质，可用于存储一个或多个程序，所述程序可以是软件程序、计算机可执行程序以及模块，如本发明实施例中节拍分析方法或音频处理方法对应的程序指令/模块(例如，附图6 所示的节拍分析装置中的模块，包括：数据获取模块510、特征识别模块520、分组模块530以及分析模块540)。处理器710通过运行存储在存储装置720中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述方法实施例中的节拍分析方法或音频处理方法。

存储装置720主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据设备的使用所创建的数据等(如上述实施例中的清唱数据、语音特征等)。此外，存储装置720可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储装置720可进一步包括相对于处理器710远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

并且，当上述设备中所包括一个或者多个程序被所述一个或者多个处理器 710执行时，实现如下操作：获取用户的清唱数据；识别所述清唱数据的语音特征；根据节拍周期值对所述语音特征分组，根据分组结果确定所述清唱数据的节拍分析结果。

本实施例提出的设备与上述实施例提出的节拍分析方法或音频处理方法属于同一发明构思，未在本实施例中详尽描述的技术细节可参见上述任意实施例，并且本实施例具备与执行节拍分析方法或音频处理方法相同的有益效果。

在上述实施例的基础上，本实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被节拍分析装置或音频处理装置执行时实现本发明上述任意实施例中的节拍分析方法或音频处理方法。

当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的节拍分析方法或音频处理方法操作,还可以执行本发明任意实施例所提供的节拍分析方法或音频处理方法中的相关操作，且具备相应的功能和有益效果。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器 (Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的节拍分析方法或音频处理方法。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种节拍分析方法，其特征在于，包括：

获取用户的清唱数据；

识别所述清唱数据的语音特征；

2.根据权利要求1所述的方法，其特征在于，在获取用户的清唱数据之前，还包括：

获取清唱数据样本、对话数据样本、清唱语音特征和对话语音特征；

将所述清唱数据样本和对话数据样本作为输入，将所述清唱语音特征和对话语音特征作为输出，对神经网络模型进行训练，得到语音识别模型。

3.根据权利要求1或2所述的方法，其特征在于，所述识别所述清唱数据的语音特征，包括：

将所述清唱数据输入语音识别模型，得到对应的语音特征。

4.根据权利要求1所述的方法，其特征在于，在根据节拍周期值对所述语音特征分组之前，还包括：

将预设周期值或用户输入的期望周期值作为节拍周期值，或者根据语音特征的时间间隔确定节拍周期值。

5.根据权利要求1所述的方法，其特征在于，在根据节拍周期值对所述语音特征分组之前，还包括：

根据语音特征的时间间隔对语音特征的出现时刻进行直方图统计，得到统计结果；

对所述统计结果检峰，将峰值对应的时间间隔作为所述节拍周期值。

6.根据权利要求1所述的方法，其特征在于，所述根据节拍周期值对所述语音特征分组，包括：

7.根据权利要求6所述的方法，其特征在于，根据分组结果确定所述清唱数据的节拍分析结果，包括：

计算分组结果中语音特征为强节拍的权重值之和；

权重值之和最大的分组结果作为所述清唱数据的节拍分析结果。

8.一种音频处理方法，其特征在于，包括：

接收用户的音频处理请求；

根据所述音频处理请求，执行如权利要求1至7任一项所述的节拍分析方法，得到用户清唱数据的节拍分析结果；

根据所述节拍分析结果和所述清唱数据生成合成音频。

9.一种节拍分析装置，其特征在于，包括：

数据获取模块，用于获取用户的清唱数据；

特征识别模块，用于识别所述清唱数据的语音特征；

分组模块，用于根据节拍周期值对所述语音特征分组；

10.一种音频处理装置，其特征在于，包括：

请求接收模块，用于接收用户的音频处理请求；

11.一种设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1至7中任一项所述的节拍分析方法或权利要求8所述的音频处理方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至7中任一项所述的节拍分析方法或权利要求8所述的音频处理方法。