CN112542159B

CN112542159B - 一种数据处理方法以及设备

Info

Publication number: CN112542159B
Application number: CN202011387638.7A
Authority: CN
Inventors: 徐东
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2020-12-01
Filing date: 2020-12-01
Publication date: 2024-04-09
Anticipated expiration: 2040-12-01
Also published as: CN112542159A

Abstract

本申请实施例公开一种数据处理方法以及设备，其中方法包括如下步骤：获取目标音频数据的基频曲线，所述基频曲线包括至少一个基频有效区间，所述基频有效区间为基频曲线的基频值在目标范围的区间；对所述目标音频数据进行语音识别，以确定所述基频有效区间对应的各个音素以及各个所述音素的时间信息；若目标基频有效区间对应的音素中包括静音音素，则根据所述静音音素在所述目标基频有效区间对应的音素序列中的位置，对所述静音音素的相邻音素的时间信息进行调整，以使调整时间信息后的相邻音素覆盖所述静音音素；其中所述目标基频有效区间为所述至少一个基频有效区间中任一基频有效区间。采用本申请，可以提高音频中音素在时间上的对齐准确率。

Description

一种数据处理方法以及设备

技术领域

本申请涉及互联网技术领域，尤其涉及一种数据处理方法以及设备。

背景技术

在音乐应用领域，歌曲内容分析、歌曲细节教唱、歌声合成等业务应用功能的实现，需要使用音频(歌曲)中音素的时间信息。目前确定音素以及时间信息的主要方式为，采用现有技术获得不同时刻的音素，一般是通过自动语音识别技术(Automatic SpeechRecognition，ASR)，对输入的音频进行音素识别和对齐。但是采用现有技术，只能获得不同时间区间的粗略音素对齐结果，音素在时间上的对齐准确率较低，音素的时间信息准确度较差。

发明内容

本申请实施例提供一种数据处理方法以及设备，可以提高音频中音素在时间上的对齐准确率。

本申请实施例一方面提供了一种数据处理方法，可包括：

获取目标音频数据的基频曲线，所述基频曲线包括至少一个基频有效区间，所述基频有效区间为基频曲线的基频值在目标范围的区间；

对所述目标音频数据进行语音识别，以确定所述基频有效区间对应的各个音素以及各个所述音素的时间信息；

若目标基频有效区间对应的音素中包括静音音素，则根据所述静音音素在所述目标基频有效区间对应的音素序列中的位置，对所述静音音素的相邻音素的时间信息进行调整，以使调整时间信息后的相邻音素覆盖所述静音音素；其中所述目标基频有效区间为所述至少一个基频有效区间中任一基频有效区间。

在一种实现方式中，所述获取目标音频数据的基频曲线，包括：

采用目标频率对所述目标音频数据进行采样，得到目标音频数据的离散信号；

基于所述离散信号得到所述目标音频数据的基频值，采用基频范围对所述基频值进行预处理，根据所述预处理后的基频值生成所述目标音频数据的基频曲线。

在一种实现方式中，所述对所述目标音频数据进行语音识别，以确定所述基频有效区间对应的各个音素以及各个所述音素的时间信息，包括：

获取所述目标音频数据关联的文本数据；

依据所述关联的文本数据，使用语音识别技术对所述目标音频数据进行语音识别，以得到所述至少一个基频有效区间对应的各个音素以及各个所述音素的时间信息。

在一种实现方式中，所述数据处理方法还包括：

获取所述基频有效区间中的静音音素，确定所述静音音素在所述目标音频数据中对应的目标音频帧，获取所述目标音频帧对应的音频能量；

若所述目标音频帧的音频能量大于能量阈值，执行所述根据所述静音音素在所述目标基频有效区间的位置，对所述静音音素的相邻音素的时间信息进行调整的步骤。

在一种实现方式中，所述静音音素在所述目标基频有效区间对应的音素序列中的位置包括首个音素位置、中间音素位置或末尾音素位置。

在一种实现方式中，所述根据所述静音音素在所述目标基频有效区间的位置，对所述静音音素的相邻音素的时间信息进行调整，包括：

若所述静音音素在所述目标基频有效区间对应的音素序列中的位置为首个音素位置，将所述静音音素的后一个音素的起始时间调整至目标基频有效区间的起始时间。

若所述静音音素在所述目标基频有效区间对应的音素序列中的位置为中间音素位置，所述中间音素位置对应的音素为所述目标基频有效区间中除第一个音素和最后一个音素之外的音素，则：将所述静音音素的前一个音素的结束时间调整至所述静音音素的结束时间；或者，将所述静音音素的后一个音素的起始时间调整至所述静音音素的起始时间；或者，将所述静音音素的前一个音素的结束时间调整至所述静音音素的目标时间点，将所述静音音素的后一个音素的起始时间调整至所述静音音素的目标时间点，其中所述目标时间点为所述静音音素的起始时间至结束时间之间的任意时间点。

若所述静音音素在所述目标基频有效区间对应的音素序列中的位置为末尾音素位置，且所述目标基频有效区间为最后一个基频有效区间，则将所述静音音素的前一个音素的结束时间调整至所述目标基频有效区间的结束时间。

若所述静音音素在所述目标基频有效区间对应的音素序列中的位置为末尾音素位置，且所述目标基频有效区间不为最后一个基频有效区间，且所述目标基频有效区间的后一个基频有效区间不为静音区间；所述静音区间是区间所对应的音素全部为静音音素的基频有效区间，则将所述静音音素的前一个音素的结束时间调整至所述目标基频有效区间的结束时间。

若所述静音音素在所述目标基频有效区间对应的音素序列中的位置为末尾音素位置，且所述目标基频有效区间不为最后一个基频有效区间，且所述目标基频有效区间的后一个区间为静音区间，且所述静音区间为最后一个基频有效区间；所述静音区间是区间所对应的音素全部为静音音素的基频有效区间，则在所述静音音素之前的相邻音素中确定组合音素；其中所述组合音素是组合为一个词单元的至少一个音素；

将所述组合音素的起始时间调整至所述静音区间的起始时间，将所述组合音素的结束时间调整至所述静音区间的结束时间；以及将所述组合音素的前一个音素的结束时间调整至所述目标基频有效区间的结束时间。

若所述静音音素在所述目标基频有效区间对应的音素序列中的位置为末尾音素位置，且所述目标基频有效区间不为最后一个基频有效区间，且所述目标基频有效区间的后一个区间为静音区间，且所述静音区间不为最后一个基频有效区间；所述静音区间是区间所对应的音素全部为静音音素的基频有效区间，则将所述静音区间的后一个基频有效区间的第一个音素进行词单元转换；

若所述第一个音素可以转换为一个或多个词单元，将所述第一个音素的起始时间调整至所述静音区间的起始时间，将所述第一个音素的结束时间调整至所述静音区间的结束时间；将所述静音音素的前一个音素的结束时间调整至所述目标基频有效区间的结束时间；以及将所述静音区间的后一个基频有效区间的第二个音素的起始时间调整至所述第一个音素的起始时间；

若所述第一个音素不可以转换为一个或多个词单元，在所述静音音素之前的相邻音素中确定组合音素；其中所述组合音素是组合为一个词单元的至少一个音素；将所述组合音素的起始时间调整至所述静音区间的起始时间，将所述组合音素的结束时间调整至所述静音区间的结束时间；以及将所述组合音素的前一个音素的结束时间调整至所述目标基频有效区间的结束时间。

本申请实施例一方面提供了一种数据处理设备，可包括：

基频曲线获取单元，用于获取目标音频数据的基频曲线，所述基频曲线包括至少一个基频有效区间，所述基频有效区间为基频曲线的基频值在目标范围的区间；

音素信息获取单元，用于对所述目标音频数据进行语音识别，以确定所述基频有效区间对应的各个音素以及各个所述音素的时间信息；

音素信息调整单元，用于若目标基频有效区间对应的音素中包括静音音素，则根据所述静音音素在所述目标基频有效区间对应的音素序列中的位置，对所述静音音素的相邻音素的时间信息进行调整，以使调整时间信息后的相邻音素覆盖所述静音音素；其中所述目标基频有效区间为所述至少一个基频有效区间中任一基频有效区间。

在一种实现方式中，所述基频曲线获取单元具体用于：

在一种实现方式中，所述音素信息获取单元具体用于：

获取所述目标音频数据关联的文本数据；

在一种实现方式中，所述数据处理设备还包括：音频能量获取单元；

音频能量获取单元，用于获取所述基频有效区间中的静音音素，确定所述静音音素在所述目标音频数据中对应的目标音频帧，获取所述目标音频帧对应的音频能量；若所述目标音频帧的音频能量大于能量阈值，触发音素信息调整单元执行所述根据所述静音音素在所述目标基频有效区间的位置，对所述静音音素的相邻音素的时间信息进行调整的步骤。

在一种实现方式中，所述音素信息调整单元具体用于：

在一种实现方式中，所述音素信息调整单元具体还用于：

若所述静音音素在所述目标基频有效区间对应的音素序列中的位置为末尾音素位置，且所述目标基频有效区间不为最后一个基频有效区间，且所述目标基频有效区间的后一个区间为静音区间，且所述静音区间为最后一个基频有效区间；所述静音区间是区间所对应的音素全部为静音音素的基频有效区间，则在所述静音音素之前的相邻音素中确定组合音素；其中所述组合音素是组合为一个词单元的至少一个音素；将所述组合音素的起始时间调整至所述静音区间的起始时间，将所述组合音素的结束时间调整至所述静音区间的结束时间；将所述组合音素的前一个音素的结束时间调整至所述目标基频有效区间的结束时间。

在一种实现方式中，所述音素信息调整单元具体还用于：

若所述第一个音素可以转换为一个或多个词单元，将所述第一个音素的起始时间调整至所述静音区间的起始时间，将所述第一个音素的结束时间调整至所述静音区间的结束时间；将所述静音音素的前一个音素的结束时间调整至所述目标基频有效区间的结束时间；将所述静音区间的后一个基频有效区间的第二个音素的起始时间调整至所述第一个音素的起始时间；

若所述第一个音素不可以转换为一个或多个词单元，在所述静音音素之前的相邻音素中确定组合音素；其中所述组合音素是组合为一个词单元的至少一个音素；将所述组合音素的起始时间调整至所述静音区间的起始时间，将所述组合音素的结束时间调整至所述静音区间的结束时间；将所述组合音素的前一个音素的结束时间调整至所述目标基频有效区间的结束时间。

本申请实施例一方面提供了一种计算机可读存储介质，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行上述的方法步骤。

本申请实施例一方面提供了一种计算机设备，包括处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行上述的方法步骤。

本申请实施例一方面提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述的方法步骤。

在本申请实施例中，通过获取目标音频数据的基频曲线，对所述目标音频数据进行语音识别，以确定所述基频有效区间对应的各个音素以及各个所述音素的时间信息，若目标基频有效区间对应的音素中包括静音音素，则根据所述静音音素在所述目标基频有效区间对应的音素序列中的位置，对所述静音音素的相邻音素的时间信息进行调整，以使调整时间信息后的相邻音素覆盖所述静音音素，目标基频有效区间为至少一个基频有效区间中任一基频有效区间，通过对时间信息进行调整，可以获得不同时间区间的准确音素对齐结果，提高了音素在时间上的对齐准确率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种数据处理的系统架构图；

图2是本申请实施例提供的一种数据处理方法的流程示意图；

图3是本申请实施例提供的一种数据处理方法的流程示意图；

图4a是本申请实施例提供的一种调整音素的时间信息的举例示意图；

图4b是本申请实施例提供的一种调整音素的时间信息的举例示意图；

图4c是本申请实施例提供的一种调整音素的时间信息的举例示意图；

图4d是本申请实施例提供的一种调整音素的时间信息的举例示意图；

图4e是本申请实施例提供的一种调整音素的时间信息的举例示意图；

图4f是本申请实施例提供的一种调整音素的时间信息的举例示意图；

图5是本申请实施例提供的一种数据处理设备的结构示意图；

图6是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参见图1，是本发明实施例提供的一种数据处理的系统架构图。服务器10b通过交换机和通信总线与用户终端10a建立连接。数据库10c中存储了基频提取算法模型和自动语音识别模型。服务器10b获取目标音频数据，根据基频提取算法模型提取所述目标音频数据的基频曲线；所述基频曲线包括至少一个基频有效区间；所述基频有效区间为基频曲线的基频值在目标范围的区间；进一步服务器10b对所述目标音频数据进行语音识别，以确定所述基频有效区间对应的各个音素以及各个所述音素的时间信息，服务器10b根据所述基频有效区间调整所述时间信息，以使调整时间信息后的相邻音素覆盖所述静音音素，服务器10b可以将所述调整后的音素以及时间信息转换为携带时间信息的文本信息，将所述目标音频数据对应的携带时间信息的文本信息进行输出。其中目标音频数据可以由用户终端10a上传，或者，目标音频数据为服务器10b中预先存储的音频数据，因此该系统架构可以不包括用户终端10a。另外需要说明的是，数据库10c可以预置在服务器10b内，或者与服务器10b独立设置。

本申请实施例涉及的用户终端包括：平板电脑、智能手机、个人电脑(PC)、笔记本电脑、掌上电脑等终端设备。

请参见图2，为本申请实施例提供了一种数据处理方法的流程示意图。如图2所示，本申请实施例的所述方法可以包括以下步骤S101-步骤S103。

S101，获取目标音频数据的基频曲线。

具体的，数据处理设备获取目标音频数据，提取所述目标音频数据的基频曲线，所述基频曲线包括至少一个基频有效区间；所述基频有效区间为基频曲线的基频值在目标范围的区间。需要说明的是，目标音频数据为干声音频，干声指的是无音乐的纯人声，这样所提取的基频曲线才能纯粹反映人的发声情况，进而后续根据基频曲线对音素的时间调整结果才会更加准确。

可以理解的是，所述数据处理设备可以是图1中的服务器10b，所述目标音频数据可以是从音频库中获取的任意一个音频数据，或者是用户上传的音频数据。进一步，数据处理设备提取所述目标音频数据的基频曲线，目前，常用的基频曲线提取的方法包括自相关算法、平行处理法、倒谱法和简化逆滤波法等等，下面以自相关算法进行说明。具体的，采用目标频率对所述目标音频数据进行采样，得到目标音频数据的离散信号，对所述离散信号进行自相关处理，生成自相关函数，从所述自相关函数中提取基频值，对所述离散的基频值进行平滑处理，将不同时刻的基频值在时间轴上连接起来便生成基频值对应的曲线，基频曲线反映了干声音频的音调在时间上的变化情况。为了准确提取目标音频数据中的基频曲线，通常会设定基频范围，采用基频范围对所述基频值进行预处理，将不处于基频范围的基频值设置为0，例如，一般人的声音的基频范围在75Hz至750Hz，可以设置基频范围为75Hz至750Hz，如此处理后目标音频数据的基频值如果没有在设定的基频范围内，该基频值便会被处理为0，如果基频值为0，则根据处理后的基频值绘制基频曲线时，该基频曲线是不存在的，所以根据目标音频数据处理后的基频值所绘制出来的基频曲线可能并不连贯，而是一段一段的。连贯的一段基频曲线可以称为基频有效区间，也就是说基频曲线包括至少一个基频有效区间，所述基频有效区间为基频曲线的基频值在目标范围的曲线区间。可以理解的是，基频曲线包括的基频有效区间表示的是干声音频中有人声的时间区间。

S102，对所述目标音频数据进行语音识别，以确定所述基频有效区间对应的各个音素以及各个所述音素的时间信息。

具体的，音素是指人类语音中能够区别意义的最小声音单位，音素一般以国际音标(InternationalPhoneticAlphabet，IPA)的方式体现，IPA是一套用来标音的系统，以汉字为例，当发出“我”这个的音时，实际上是先后发出了“u”和这两个音素，对应的拼音就是“wo”，时间信息是音素的发音时间，时间信息包括起始时间和结束时间，每个音素对应一个起始时间和结束时间，获取所述目标音频数据对应的音素和所述音素对应的时间信息具体如下：数据处理设备获取所述目标音频数据的文本信息，所述文本信息包括中文或者英文等不同文字，将所述文本信息转换为与国际音标对应的音素，通过自动语音识别技术提取目标音频数据中每个音素对应的时间信息，将所述文本信息对应的音素与上述时间信息进行对齐转换生成音素对应的时间信息。需要说明的是，目标音频数据可以关联有目标文本数据，如目标音频数据为歌唱类音频数据，目标文本数据为歌曲的歌词，又如目标音频数据为朗诵类音频数据，目标文本数据为所朗诵文本。当然本申请实施例所适用的应用场景并不局限于此，还可以是音频数据与文本数据关联的其他场景。上述应用场景中识别目标音频数据的音素时，还可以输入目标音频数据关联的目标文本数据，将目标文本数据作为对照依据，以提高目标音频数据中音素的识别准确度。

S103，若目标基频有效区间对应的音素中包括静音音素，则根据所述静音音素在所述目标基频有效区间对应的音素序列中的位置，对所述静音音素的相邻音素的时间信息进行调整，以使调整时间信息后的相邻音素覆盖所述静音音素。

具体的，数据处理设备获取所述基频有效区间中的目标基频有效区间，所述目标基频有效区间为至少一个基频有效区间中的任意一个基频有效区间，获取所述目标基频有效区间对应的音素和音素对应的时间信息，所述基频有效区间中包括在时间轴上按照时间顺序排列的多个音素。时间信息包括每个音素对应的起始时间和结束时间。进一步，数据处理设备检测所述目标基频有效区间中的静音音素，所述静音音素可以存在于目标基频有效区间中的任意位置，根据所述静音音素在目标基频有效区间中所在的位置，调整所述音素的时间信息，所述目标音频数据包括至少一个基频有效区间，采用上述方法调整每个基频有效区间中音素对应的时间信息，以使调整时间信息后的相邻音素覆盖所述静音音素。

通过上述步骤对目标音频数据的音素以及音素对应的时间信息进行调整后，进一步可以将音素以及时间信息进行输出。具体的，在用户层面，可以将校准后生成的音素以及时间信息，在时间轴上以图例形式输出到用户终端上，或者将这些IPA转换为拼音的形式，便于用户阅读。同时，上述音素以及时间信息也可以直接应用在评估用户的唱功、发音等应用场景，或者间接用于歌曲内容分析、歌曲细节教唱、歌声合成等领域。具体的，在平台提供商层面，可以将校准后生成的音素以及时间信息作为数据，与标准的歌手唱的干声进行对比，以实现对用户唱功、发音等方面进行评估，并向用户反馈评估结果。

下面对音素和时间信息的具体应用进行说明，数据处理设备将音素和时间信息转换为携带时间信息的文本信息，并将文本信息进行输出。

具体的，数据处理设备将目标音频数据对应的音素转换为文本信息，将音素对应的时间信息转换为文本信息的时间信息，例如，音素“x”、分别对应的时间信息为t1、t2、t3、t4，将音素“x”、/>转换为文本信息“何时”，“何”对应的音素为/>“何”对应的时间信息为音素“x”对应的时间信息t1，“时”对应的音素为/>“时”对应的时间信息为音素/>对应的时间信息t3。最后，将目标音频数据对应的携带时间信息的文本信息进行输出，具体的，文本信息可以与目标音频数据同步输出。

请参见图3，为本申请实施例提供了一种数据处理方法的流程示意图。如图3所示，本申请实施例的所述方法可以包括以下步骤S201-步骤S204。

S201，获取目标音频数据的基频曲线。

其中，本发明实施例的步骤S201参见图2所示实施例的步骤S101的具体描述，在此不进行赘述。

S202，对所述目标音频数据进行语音识别，以确定所述基频有效区间对应的各个音素以及各个所述音素的时间信息。

其中，本发明实施例的步骤S202参见图2所示实施例的步骤S102的具体描述，在此不进行赘述。

S203，获取所述基频有效区间中的静音音素，确定所述静音音素在所述目标音频数据中对应的目标音频帧，获取所述目标音频帧对应的音频能量。若目标音频帧的音频能量大于预设的能量阈值，则执行步骤S204。

具体的，数据处理设备根据目标帧长，将所述目标音频数据转换为至少一个音频帧，获取所述至少一个音频帧中每个音频帧的音频能量，将所述每个音频帧的音频能量存储至音频能量集合。目标帧长可以预先设定，例如，目标帧长为20ms，帧重叠为50％，则将输入的目标音频数据按照下述方式切分出音频帧：0-20ms，10-30ms，20-40ms，以此类推进行切分，上述长度为20ms的目标音频数据的片段为音频帧，分别对应第1帧，第2帧，第3帧，然后计算至少一个音频帧中每个音频帧的音频能量，并存储至音频能量集合。

进一步，数据处理设备获取目标音频数据对应的基频有效区间中的静音音素，确定所述静音音素在所述目标音频数据中对应的目标音频帧，从所述音频能量集合中获取所述目标音频帧对应的音频能量，通过目标音频帧对应的音频能量判断音素对应的时间信息是否需要调整，当所述目标音频帧的音频能量大于能量阈值时，即静音音素并不是真的静音音素，则表示音素对应的时间信息需要调整，数据处理设备根据所述基频有效区间调整音素的时间信息，当所述目标音频帧的音频能量小于或等于能量阈值时，即静音音素是真的静音音素，则表示音素的时间信息不需要调整。

进一步，数据处理设备获取所述基频有效区间中的目标基频有效区间，获取所述目标基频有效区间对应的音素和音素对应的时间信息，检测所述目标基频有效区间中的静音音素。可以理解的是，所述静音音素在所述目标基频有效区间对应的音素序列中的位置包括首个音素位置、中间音素位置或末尾音素位置，目标基频有效区间为目标音频数据对应的至少一个基频有效区间中的任意一个，所述基频有效区间中包括按照时间顺序排列的多个音素，所述时间信息包括目标基频有效区间中每个音素对应的起始时间和结束时间。所述静音音素可以存在于目标基频有效区间中的任意位置，具体的，可以静音音素可以是目标基频有效区间中的第一个音素，或者是最后一个音素等等。

S204，根据所述静音音素在所述目标基频有效区间的位置，对所述静音音素的相邻音素的时间信息进行调整。

具体的，数据处理设备根据所述静音音素在所述目标基频有效区间的位置，对所述静音音素的相邻音素的时间信息进行调整，可以理解的是，静音音素的相邻音素对应的时间信息的调整与静音音素在目标基频有效区间中的位置相关，下面根据静音音素在目标基频有效区间中不同的位置关系分别进行说明：

第一种情况：若所述静音音素在所述目标基频有效区间对应的音素序列中的位置为首个音素位置，将所述静音音素的后一个音素的起始时间调整至目标基频有效区间的起始时间，以使所述静音音素的后一个音素覆盖所述静音音素。请参见图4a，为本申请实施例提供了一种调整音素的时间信息的举例示意图。如图4a所示，图中包括目标音频数据对应的波形和目标基频有效区间，以及目标基频有效区间对应的音素序列以及音素序列中每个音素对应的时间信息。目标基频有效区间中的静音音素“sil”为第一个音素，对时间信息的调整为：将所述静音音素的后一个音素(非静音音素)的起始时间t2调整至目标基频有效区间的起始时间t1，时间信息调整后，所述静音音素被静音音素的后一个音素(非静音音素)覆盖。

第二种情况：若所述静音音素在所述目标基频有效区间对应的音素序列中的位置为中间音素位置，所述中间音素位置对应的音素为所述目标基频有效区间中除第一个音素和最后一个音素之外的音素；将所述静音音素的前一个音素(非静音音素)的结束时间调整至所述静音音素的结束时间，以使所述静音音素的前一个音素(非静音音素)覆盖所述静音音素；或者，将所述静音音素的后一个音素(非静音音素)的起始时间调整至所述静音音素的起始时间，以使所述静音音素的后一个音素(非静音音素)覆盖所述静音音素；或者，将所述静音音素的前一个音素(非静音音素)的结束时间向后调整至所述静音音素的某个时间点，后一个音素(非静音音素)的起始时间向前调整至所述静音音素的某个时间点，该两个时间点前后连续，以使所述静音音素的前一个音素(非静音音素)和后一个音素(非静音音素)覆盖所述静音音素。请参见图4b，为本申请实施例提供了一种调整音素的时间信息的举例示意图。如图4b所示，图中包括目标音频数据对应的波形和目标基频有效区间，以及目标基频有效区间对应的音素序列以及音素序列中每个音素对应的时间信息。目标基频有效区间对应的音素中的静音音素“sil”在音素序列中的位置为中间音素位置，对时间信息的调整为：将所述静音音素的前一个音素的结束时间t3调整至所述静音音素的结束时间t4，或者是将所述静音音素的后一个音素的起始时间t4调整至所述静音音素的起始时间t3，或者，将所述静音音素的前一个音素的结束时间t3向后调整至所述静音音素中的任意一个ts时刻，后一个音素的起始时间t4向前调整至所述静音音素的ts时刻，即采用静音音素的前一个音素和/或后一个音素覆盖静音音素。

第三种情况：若所述静音音素在所述目标基频有效区间对应的音素序列中的位置为末尾音素位置，且所述目标基频有效区间为最后一个基频有效区间；将所述静音音素的前一个音素(非静音音素)的结束时间调整至所述目标基频有效区间的结束时间。请参见图4c，为本申请实施例提供了一种调整音素的时间信息的举例示意图。如图4c所示，图中包括目标音频数据对应的波形和目标基频有效区间，以及目标基频有效区间对应的音素序列以及音素序列中每个音素对应的时间信息。目标基频有效区间对应的音素中的静音音素“sil”为最后一个音素，且所述目标基频有效区间为目标音频数据的最后一个基频有效区间；对时间信息的调整为：将所述静音音素的前一个音素“u”的结束时间t2调整至所述目标基频有效区间的结束时间t3，调整结束后，t2-t3时间范围内的静音音素“sil”调整为音素“u”，音素“u”的时间范围调整为t1-t3。

第四种情况：若所述静音音素在所述目标基频有效区间对应的音素序列中的位置为末尾音素位置，且所述目标基频有效区间不为最后一个基频有效区间，且所述目标基频有效区间的后一个基频有效区间不为静音区间(静音区间是指所对应的音素全部为静音音素的基频有效区间)，则将所述静音音素的前一个音素(非静音音素)的结束时间调整至所述目标基频有效区间的结束时间。请参见图4d，为本申请实施例提供了一种调整音素的时间信息的举例示意图。如图4d所示，图中包括目标音频数据对应的波形和目标基频有效区间，以及目标基频有效区间对应的音素序列以及音素序列中每个音素对应的时间信息。目标基频有效区间对应的音素中的静音音素“sil”为最后一个音素，且所述目标基频有效区间之后还存在基频有效区间t3-t4，且所述基频有效区间t3-t4中存在音素和音素对时间信息的调整为：将所述静音音素“sil”的前一个音素/>的结束时间t1调整至所述目标基频有效区间的结束时间t2。

第五种情况：若所述静音音素在所述目标基频有效区间对应的音素序列中的位置为末尾音素位置，且所述目标基频有效区间不为最后一个基频有效区间，且所述目标基频有效区间的后一个区间为静音区间，且所述静音区间为最后一个基频有效区间，则在所述静音音素之前的相邻音素中确定出能够组合为一个词单元的组合音素，然后将所述组合音素的起始时间调整至所述静音区间的起始时间，将所述组合音素的结束时间调整至所述静音区间的结束时间，并且将所述组合音素的前一个音素的结束时间调整至所述目标基频有效区间的结束时间。

需要说明的是，组合音素指的是能够组合为一个词单元的音素。特殊情况下一个音素也可能生成词单元，因此组合音素也可以仅包括一个音素。另外，为了提高组合音素的识别准确度，在确定组合音素时可以结合目标音频数据关联的文本数据，即如果多个音素可以组合得到至少两种词单元，则出现在文本数据中的词单元才是准确的词单元，准确的词单元对应的组合音素才能被确定为本情况中使用的组合音素。例如，假设目标音频数据为歌曲的干声音频，四个音素“x”“i”“a”“n”可能分别组合为词单元“西”和词单元“安”，也可能一并组合为词单元“先”，此种情况下需要对照该歌曲的歌词文本，在该四个音素对应的时间附近存在的是哪个字，再确定组合音素具体应该是哪种情况。

请参见图4e，为本申请实施例提供了一种调整音素的时间信息的举例示意图。如图4e所示，图中包括目标音频数据对应的波形和目标基频有效区间，以及目标基频有效区间对应的音素序列以及音素序列中每个音素对应的时间信息。目标基频有效区间对应的音素中的静音音素“sil”为最后一个音素，且所述目标基频有效区间目标基频有效区间之后还存在静音区间t3-t4，且所述静音区间为最后一个基频有效区间，获取静音音素“sil”之前的相邻音素在音素/>中确定出能够组合为一个词单元的组合音素，具体的，可以将音素转换为文字数据，并结合目标音频数据关联的文本数据，从文本数据中确定能够组合为一个词单元的组合音素，词单元表示的是具有语义的最小单位的词，在中文语境里指单个字，在英文语境里指一个单词。具体的，音素/>对应的文字为“何时”，将“何时”中最后一个词单元“时”对应的音素/>确定为组合音素，将所述组合音素的起始时间调整至所述静音区间的起始时间t3，将所述组合音素/>的结束时间调整至所述静音区间的结束时间t4，即将组合音素/>移动至静音区间覆盖静音区间中的静音音素，同时将所述组合音素/>的前一个音素/>的结束时间调整至所述目标基频有效区间的结束时间t2，即采用音素/>覆盖目标基频有效区间中的组合音素/>和静音音素“sil”。

第六种情况：若所述静音音素在所述目标基频有效区间对应的音素序列中的位置为末尾音素位置，且所述目标基频有效区间不为最后一个基频有效区间，且所述目标基频有效区间的后一个区间为静音区间，且所述静音区间不为最后一个基频有效区间，则将所述静音区间的后一个基频有效区间的开头音素如第一个音素进行词单元转换；若所述第一个音素可以转换为一个或多个词单元，将所述第一个音素的起始时间调整至所述静音区间的起始时间，将所述第一个音素的结束时间调整至所述静音区间的结束时间；将所述静音音素的前一个音素的结束时间调整至所述目标基频有效区间的结束时间；将所述静音区间的后一个基频有效区间的第二个音素的起始时间调整至所述第一个音素的起始时间；若所述第一个音素不可以转换为一个或多个词单元，在所述静音音素之前的相邻音素中确定组合音素；其中所述组合音素是组合为一个词单元的至少一个音素；将所述组合音素的起始时间调整至所述静音区间的起始时间，将所述组合音素的结束时间调整至所述静音区间的结束时间；将所述组合音素的前一个音素的结束时间调整至所述目标基频有效区间的结束时间。

请参见图4f，为本申请实施例提供了一种调整音素的时间信息的举例示意图。如图4f所示，图中包括目标音频数据对应的波形和目标基频有效区间，以及目标基频有效区间对应的音素序列以及音素序列中每个音素对应的时间信息，目标基频有效区间对应的音素中的静音音素“sil”为最后一个音素，且所述目标基频有效区间目标基频有效区间之后还存在静音区间t3-t4，所述静音区间t3-t4之后还存在基频有效区间t5-t7，且所述基频有效区间t5-t7为最后一个基频有效区间，将所述静音区间的后一个基频有效区间的第一个音素进行词单元转换，若所述第一个音素t5-t6可以转换为一个或多个词单元，将所述第一个音素的起始时间t5调整至所述静音区间的起始时间t3，将所述第一个音素的结束时间t6调整至所述静音区间的结束时间t4，即将音素t5-t6移动至静音区间覆盖静音区间中的静音音素，将音素t5-t6的后一个音素的起始时间调整至t5，同时，将所述静音音素的前一个音素的结束时间t1调整至所述目标基频有效区间的结束时间t2，采用音素/>覆盖目标基频有效区间中静音音素“sil”。

若所述第一个音素t5-t6不可以转换一个或多个词单元，获取静音音素“sil”之前的相邻音素在音素/>中确定出能够组合为一个词单元的组合音素，具体的，音素/>对应的文字为“何时”，将“何时”中的最后一个词单元“时”对应的音素确定为组合音素，将所述组合音素/>的起始时间调整至所述静音区间的起始时间t3，将所述组合音素/>的结束时间调整至所述静音区间的结束时间t4，即将组合音素/>移动至静音区间覆盖静音区间中的静音音素，同时将所述组合音素/>的前一个音素/>的结束时间调整至所述目标基频有效区间的结束时间t2，即采用音素/>覆盖目标基频有效区间中的组合音素/>和静音音素“sil”。

请参见图5，为本申请实施例提供了一种数据处理设备的结构示意图。所述数据处理设备可以是运行于计算机设备中的一个计算机程序(包括程序代码)，例如该数据处理设备为一个应用软件；该设备可以用于执行本申请实施例提供的方法中的相应步骤。如图5所示，本申请实施例的所述数据处理设备1可以包括：基频曲线获取单元11、音素信息获取单元12、音素信息调整单元13。

基频曲线获取单元11，用于获取目标音频数据的基频曲线，所述基频曲线包括至少一个基频有效区间，所述基频有效区间为基频曲线的基频值在目标范围的区间；

音素信息获取单元12，用于对所述目标音频数据进行语音识别，以确定所述基频有效区间对应的各个音素以及各个所述音素的时间信息；

音素信息调整单元13，用于若目标基频有效区间对应的音素中包括静音音素，则根据所述静音音素在所述目标基频有效区间对应的音素序列中的位置，对所述静音音素的相邻音素的时间信息进行调整，以使调整时间信息后的相邻音素覆盖所述静音音素；其中所述目标基频有效区间为所述至少一个基频有效区间中任一基频有效区间。

所述基频曲线获取单元11具体用于：

所述音素信息获取单元12具体用于：

获取所述目标音频数据关联的文本数据；

请参见图5，本申请实施例的所述数据处理设备1可以包括：音频能量获取单元14；

音频能量获取单元14，用于获取所述基频有效区间中的静音音素，确定所述静音音素在所述目标音频数据中对应的目标音频帧，获取所述目标音频帧对应的音频能量；

若所述目标音频帧的音频能量大于能量阈值，触发音素信息调整单元13执行所述根据所述静音音素在所述目标基频有效区间的位置，对所述静音音素的相邻音素的时间信息进行调整的步骤。

其中，所述静音音素在所述目标基频有效区间对应的音素序列中的位置包括首个音素位置、中间音素位置或末尾音素位置。

其中，所述音素信息调整单元13具体用于：

其中，所述音素信息调整单元13具体还用于：

若所述静音音素在所述目标基频有效区间对应的音素序列中的位置为中间音素位置，所述中间音素位置对应的音素为所述目标基频有效区间中除第一个音素和最后一个音素之外的音素；

将所述静音音素的前一个音素的结束时间调整至所述静音音素的结束时间；

或者，将所述静音音素的后一个音素的起始时间调整至所述静音音素的起始时间；

或者，将所述静音音素的前一个音素的结束时间调整至所述静音音素的目标时间点，将所述静音音素的后一个音素的起始时间调整至所述静音音素的目标时间点，其中所述目标时间点为所述静音音素的起始时间至结束时间之间的任意时间点。

其中，所述音素信息调整单元13具体还用于：

若所述静音音素在所述目标基频有效区间对应的音素序列中的位置为末尾音素位置，且所述目标基频有效区间为最后一个基频有效区间；

将所述静音音素的前一个音素的结束时间调整至所述目标基频有效区间的结束时间。

其中，所述音素信息调整单元13具体还用于：

若所述静音音素在所述目标基频有效区间对应的音素序列中的位置为末尾音素位置，且所述目标基频有效区间不为最后一个基频有效区间，且所述目标基频有效区间的后一个基频有效区间不为静音区间；所述静音区间是区间所对应的音素全部为静音音素的基频有效区间；

其中，所述音素信息调整单元13具体还用于：

若所述静音音素在所述目标基频有效区间对应的音素序列中的位置为末尾音素位置，且所述目标基频有效区间不为最后一个基频有效区间，且所述目标基频有效区间的后一个区间为静音区间，且所述静音区间为最后一个基频有效区间；所述静音区间是区间所对应的音素全部为静音音素的基频有效区间；

在所述静音音素之前的相邻音素中确定组合音素；其中所述组合音素是组合为一个词单元的至少一个音素；

将所述组合音素的起始时间调整至所述静音区间的起始时间，将所述组合音素的结束时间调整至所述静音区间的结束时间；

将所述组合音素的前一个音素的结束时间调整至所述目标基频有效区间的结束时间。

其中，所述音素信息调整单元13具体还用于：

若所述静音音素在所述目标基频有效区间对应的音素序列中的位置为末尾音素位置，且所述目标基频有效区间不为最后一个基频有效区间，且所述目标基频有效区间的后一个区间为静音区间，且所述静音区间不为最后一个基频有效区间；所述静音区间是区间所对应的音素全部为静音音素的基频有效区间；

将所述静音区间的后一个基频有效区间的第一个音素进行词单元转换；

若所述第一个音素可以转换为一个或多个词单元，将所述第一个音素的起始时间调整至所述静音区间的起始时间，将所述第一个音素的结束时间调整至所述静音区间的结束时间；

将所述静音音素的前一个音素的结束时间调整至所述目标基频有效区间的结束时间；

将所述静音区间的后一个基频有效区间的第二个音素的起始时间调整至所述第一个音素的起始时间；

若所述第一个音素不可以转换为一个或多个词单元，在所述静音音素之前的相邻音素中确定组合音素；其中所述组合音素是组合为一个词单元的至少一个音素；

请参见图6，为本申请实施例提供了一种计算机设备的结构示意图。如图6所示，所述计算机设备1000可以包括：至少一个处理器1001，例如CPU，至少一个网络接口1004，用户接口1003，存储器1005，至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是随机存取存储器(Random Access Memory，RAM)，也可以是非易失性存储器(non-volatile memory，NVM)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图6所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及数据处理应用程序。

在图6所示的计算机设备1000中，网络接口1004可提供网络通讯功能，用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的数据处理应用程序，以实现上述图2-图4f任一个所对应实施例中对所述数据处理方法的描述，在此不再赘述。

应当理解，本申请实施例中所描述的计算机设备1000可执行前文图2-图4f任一个所对应实施例中对所述数据处理方法的描述，也可执行前文图5所对应实施例中对所述数据处理设备的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本申请实施例还提供了一种计算机可读存储介质，且所述计算机可读存储介质中存储有前文提及的数据处理设备所执行的计算机程序，且所述计算机程序包括程序指令，当所述处理器执行所述程序指令时，能够执行前文图2-图4f任一个所对应实施例中对所述数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。作为示例，程序指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行，分布在多个地点且通过通信网络互连的多个计算设备可以组成区块链系统。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述存储介质可为磁碟、光盘、NVM或RAM等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种数据处理方法，其特征在于，包括：

若目标基频有效区间对应的音素中包括静音音素，则根据所述静音音素在所述目标基频有效区间对应的音素序列中的位置，对所述静音音素的相邻音素的时间信息进行调整，以使调整时间信息后的相邻音素覆盖所述静音音素；其中所述目标基频有效区间为所述至少一个基频有效区间中任一基频有效区间，所述静音音素为sil音素。

2.根据权利要求1所述的方法，其特征在于，所述获取目标音频数据的基频曲线，包括：

3.根据权利要求1所述的方法，其特征在于，所述对所述目标音频数据进行语音识别，以确定所述基频有效区间对应的各个音素以及各个所述音素的时间信息，包括：

获取所述目标音频数据关联的文本数据；

4.根据权利要求1所述的方法，其特征在于，还包括：

5.根据权利要求1所述的方法，其特征在于，所述静音音素在所述目标基频有效区间对应的音素序列中的位置包括首个音素位置、中间音素位置或末尾音素位置。

6.根据权利要求5所述的方法，其特征在于，所述根据所述静音音素在所述目标基频有效区间的位置，对所述静音音素的相邻音素的时间信息进行调整，包括：

7.根据权利要求5所述的方法，其特征在于，所述根据所述静音音素在所述目标基频有效区间的位置，对所述静音音素的相邻音素的时间信息进行调整，包括：

若所述静音音素在所述目标基频有效区间对应的音素序列中的位置为中间音素位置，所述中间音素位置为所述目标基频有效区间中除第一个音素位置和最后一个音素位置之外的音素位置，则将所述静音音素的前一个音素的结束时间调整至所述静音音素的结束时间；或者，将所述静音音素的后一个音素的起始时间调整至所述静音音素的起始时间；或者，将所述静音音素的前一个音素的结束时间调整至所述静音音素的目标时间点，将所述静音音素的后一个音素的起始时间调整至所述静音音素的目标时间点，其中，所述目标时间点为所述静音音素的起始时间至结束时间之间的任意时间点。

8.根据权利要求5所述的方法，其特征在于，所述根据所述静音音素在所述目标基频有效区间的位置，对所述静音音素的相邻音素的时间信息进行调整，包括：

9.根据权利要求5所述的方法，其特征在于，所述根据所述静音音素在所述目标基频有效区间的位置，对所述静音音素的相邻音素的时间信息进行调整，包括：

10.根据权利要求5所述的方法，其特征在于，所述根据所述静音音素在所述目标基频有效区间的位置，对所述静音音素的相邻音素的时间信息进行调整，包括：

若所述静音音素在所述目标基频有效区间对应的音素序列中的位置为末尾音素位置，且所述目标基频有效区间不为最后一个基频有效区间，且所述目标基频有效区间的后一个区间为静音区间，且所述静音区间为最后一个基频有效区间，所述静音区间是区间所对应的音素全部为静音音素的基频有效区间，则在所述静音音素之前的相邻音素中确定组合音素；其中所述组合音素是组合为一个词单元的至少一个音素；

11.根据权利要求5所述的方法，其特征在于，所述根据所述静音音素在所述目标基频有效区间的位置，对所述静音音素的相邻音素的时间信息进行调整，包括：

若所述静音音素在所述目标基频有效区间对应的音素序列中的位置为末尾音素位置，且所述目标基频有效区间不为最后一个基频有效区间，且所述目标基频有效区间的后一个区间为静音区间，且所述静音区间不为最后一个基频有效区间，所述静音区间是区间所对应的音素全部为静音音素的基频有效区间，则将所述静音区间的后一个基频有效区间的第一个音素进行词单元转换；

12.一种数据处理设备，其特征在于，包括：

音素信息调整单元，用于若目标基频有效区间对应的音素中包括静音音素，则根据所述静音音素在所述目标基频有效区间对应的音素序列中的位置，对所述静音音素的相邻音素的时间信息进行调整，以使调整时间信息后的相邻音素覆盖所述静音音素；其中所述目标基频有效区间为所述至少一个基频有效区间中任一基频有效区间，所述静音音素为sil音素。

13.一种计算机可读存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行如权利要求1-11任一项所述的方法。

14.一种计算机设备，其特征在于，其特征在于，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如权利要求1-11任意一项的方法。