CN112906369A

CN112906369A - 一种歌词文件生成方法及装置

Info

Publication number: CN112906369A
Application number: CN202110192245.9A
Authority: CN
Inventors: 戴俊宇; 宋旭晨; 孔秋强; 王雨轩
Original assignee: Lemon Inc Cayman Island
Current assignee: Lemon Inc Cayman Island
Priority date: 2021-02-19
Filing date: 2021-02-19
Publication date: 2021-06-04
Also published as: WO2022177509A1

Abstract

本发明实施例提供了一种歌词文件生成方法及装置，涉及音频处理技术领域。该方法包括：获取歌曲的音素传播序列和歌曲的音频帧序列；音素传播序列包括歌曲的歌词文本中的文本单元对应的音素；在音频帧序列中确定与文本单元对应的音频帧；文本单元对应的音素与音频帧的音频特征是相匹配的；根据音频帧的播放时长，确定文本单元的时间信息；根据文本单元与时间信息之间的对应关系，生成歌曲的歌词文件，歌词文件，用于指示在歌曲播放到时间信息所指示的位置的情况下展示文本单元。本发明实施例用于解决歌词文件生成效率较低的问题。

Description

一种歌词文件生成方法及装置

技术领域

本发明涉及音频处理技术领域，尤其涉及一种歌词文件生成方法及装置。

背景技术

歌曲是一种将文本和曲谱相结合的艺术形式。由于歌曲能够给人们带来全方位的听觉享受，丰富人类的感情，因此歌曲已成为一种必不可少的大众娱乐方式。

目前，每天都有大量的歌曲被创作出来。对于音乐播放平台而言，这些井喷式出现的新歌曲往往只有与歌曲对应的歌词文本，想要获得与歌曲的歌词文件，还需要获得歌曲播放时每个字的显示时间，通过每个字的显示时间与文本一起生成播放平台可用的歌词文件，从而在歌曲播放过程中实时显示与音频内容对应的文本。目前业界生成歌词文件的主要方式为人工生成。即，人工获取歌曲播放时音频输出每个字的时间信息，并根据获得的时间信息手动设置与歌词文件对应的文本中各个文本的显示时间，从而生成歌曲的歌词文件。然而，这种人工生成歌词文件的方式耗时耗力，效率极低。

发明内容

有鉴于此，本发明提供了一种歌词文件生成方法及装置，用于解决现有技术中歌词文件生成效率较低的问题。

为了实现上述目的，本发明实施例提供技术方案如下：

第一方面，本发明的实施例提供一种歌词文件生成方法，包括：

获取歌曲的音素传播序列和所述歌曲的音频帧序列；所述音素传播序列包括所述歌曲的歌词文本中的文本单元对应的音素；

在所述音频帧序列中确定与所述文本单元对应的音频帧；其中，所述文本单元对应的音素与所述音频帧的音频特征是相匹配的；

根据所述音频帧的播放时长，确定所述文本单元的时间信息；

根据所述文本单元的时间信息，生成所述歌曲的歌词文件，其中，所述歌词文件，用于指示在所述歌曲播放到所述时间信息所指示的位置的情况下展示所述文本单元。

作为本发明实施例一种可选的实施方式，所述获取歌曲的音素传播序列，包括：

基于发声词典获取所述文本单元对应的音素集合；所述发声词典包括所述文本单元与音素集合的对应关系，所述文本单元对应的音素集合为所述文本单元的各个读音对应的音素组成的集合；

根据所述文本单元在所述歌曲中的读音，从所述文本单元对应的音素集合中获取所述文本单元对应的音素；

根据所述文本单元对应的音素生成所述音素传播序列。

基于发声词典获取所述文本单元对应的音素集合；所述发声词典包括所述文本单元与音素集合的对应关系，所述文本单元对应的音素集合为所述文本单元的各个读音对应的音素子集组成的集合，任一读音对应的音素子集为对该读音对应的音素中的各音素的各个发音时长进行排列组合得到的集合；

根据所述文本单元在所述歌曲中的读音，从所述文本单元对应的音素集合中获取所述文本单元的目标音素子集；

根据所述文本单元在歌曲中的发音时长，从所述文本单元的目标音素子集中获取所述文本单元对应的音素；

根据所述文本单元对应的音素生成所述音素传播序列。

基于发声词典获取所述文本单元对应的音素集合；所述发声词典包括所述文本单元与音素集合的对应关系，所述文本单元对应的音素集合为所述文本单元的各个读音对应的音素子集组成的集合，任一读音对应的音素子集为对该读音对应的音素中的各音素和各音素的转音音素进行排列组合得到的集合；

根据所述文本单元在所述歌曲中的音调转换情况，从所述文本单元的目标音素子集中获取所述文本单元对应的音素；

根据所述文本单元对应的音素生成所述音素传播序列。

作为本发明实施例一种可选的实施方式，所述获取所述歌曲的音频帧序列，包括：

基于预设采样频率和预设格式对所述歌曲的音频信号进行采样，获取所述歌曲的采样序列；

根据音频帧的时长和所述采样序列，生成所述歌曲的音频帧序列。

作为本发明实施例一种可选的实施方式，所述预设采样频率为16kHz；

所述预设格式为16位深的单声道Wave脉冲编码调制PCM格式。

作为本发明实施例一种可选的实施方式，在所述音频帧序列中确定与所述文本单元对应的音频帧之前，所述方法还包括：

对所述音频帧序列中的每个音频帧进行傅立叶变换，获取每一个音频帧的傅立叶变换频谱；

分离每一个音频帧的傅立叶变换频谱中的人声频谱和伴奏频谱，获取每一个音频帧的人声频谱；

将每一个音频帧的人声频谱转换为对应的MFCC特征，获取每个音频帧的音频特征。

作为本发明实施例一种可选的实施方式，所述在所述音频帧序列中确定与所述文本单元对应的音频帧，包括：

基于匹配模型获取各个音频特征与所述音素传播序列中的音素的匹配关系；

根据各个音频特征与所述音素传播序列中的音素的匹配关系和所述文本单元对应的音素，在所述音频帧序列中确定与所述文本单元对应的音频帧；

其中，所述匹配模型为基于训练样本对神经网络模型进行训练得到的模型，所述训练样本包括相互匹配的音频特征和音素。

作为本发明实施例一种可选的实施方式，所述基于匹配模型获取各个音频特征与所述音素传播序列中的音素的匹配关系包括：

分离每一个音频帧的傅立叶变换频谱中的人声频谱和伴奏频谱，获取每一个音频帧的伴奏频谱；

根据各个音频帧的伴奏频谱，获取所述歌曲的曲风；

获取目标匹配模型；所述目标匹配模型为与所述歌曲的曲风对应的匹配模型；

基于所述目标匹配模型获取各个音频特征与所述音素传播序列中的各个音素的匹配关系。

作为本发明实施例一种可选的实施方式，所述根据所述音频帧的播放时长，确定所述文本单元的时间信息，包括：

根据所述音频帧的播放时长以及所述音素传播序列中的各个音素与音频特征的匹配关系，获取所述音素传播序列中各个音素的时间信息；

根据所述音素传播序列中各个音素的时间信息以及所述文本单元对应的音素，确定所述文本单元的时间信息。

作为本发明实施例一种可选的实施方式，所述音素传播序列中各个音素的时间信息包括所述音素传播序列中各个音素的起始时刻和持续时长；

所述文本单元的时间信息包括所述文本单元的起始时刻和持续时长。

作为本发明实施例一种可选的实施方式，所述方法还包括：

获取置信度序列，所述置信度序列中的各个置信度用于表征各个音频特征与音素的匹配度；

基于所述置信度序列判断所述文本单元对应的音素与音频特征的匹配度是否均小于预设阈值；

若所述文本单元对应的音素与音频特征的匹配度均小于所述预设阈值，则将所述歌词文本中该文本单元之后的所有文本单元的起始时刻向前调整预设时长。

作为本发明实施例一种可选的实施方式，所述预设时长为0.3秒。

作为本发明实施例一种可选的实施方式，所述神经网络模型依次包括：预处理层、卷积层、时延神经网络层和分类输出层；

所述预处理层包括一仿射层，用于对所述训练样本中的音频特征进行升采样；

所述卷积层包括两层卷积神经网络CNN，所述两层CNN中的每一层CNN包括：一子卷积网络、一激活层以及一批标准化层；

所述时延神经网络层包括十层时延神经网络TDNN；

所述分类输出层包括：一披标准化层和一仿射层，用于对所述时延神经网络层的输出结果进行降采样后与所述训练样本的音素传播序列中的各个音素进行匹配。

作为本发明实施例一种可选的实施方式，

所述时延神经网络层的十层TDNN中，间隔为0或1或3的两层TDNN互联。

第二方面，本发明实施例提供一种歌词文件生成装置，包括：

特征获取单元，用于获取歌曲的音素传播序列和所述歌曲的音频帧序列；所述音素传播序列包括所述歌曲的歌词文本中的文本单元对应的音素；

匹配单元，用于在所述音频帧序列中确定与所述文本单元对应的音频帧；其中，所述文本单元对应的音素与所述音频帧的音频特征是相匹配的；

时间获取单元，用于根据所述音频帧的播放时长，确定所述文本单元的时间信息；

生成单元，用于根据所述文本单元的时间信息，生成所述歌曲的歌词文件，其中，所述歌词文件，用于指示在所述歌曲播放到所述时间信息所指示的位置的情况下展示所述文本单元。

作为本发明实施例一种可选的实施方式，所述特征获取单元，具体用于基于发声词典获取所述文本单元对应的音素集合；所述发声词典包括所述文本单元与音素集合的对应关系，所述文本单元对应的音素集合为所述文本单元的各个读音对应的音素组成的集合；根据所述文本单元在所述歌曲中的读音，从所述文本单元对应的音素集合中获取所述文本单元对应的音素；根据所述文本单元对应的音素生成所述音素传播序列。

作为本发明实施例一种可选的实施方式，所述特征获取单元，具体用于基于发声词典获取所述文本单元对应的音素集合；所述发声词典包括所述文本单元与音素集合的对应关系，所述文本单元对应的音素集合为所述文本单元的各个读音对应的音素子集组成的集合，任一读音对应的音素子集为对该读音对应的音素中的各音素的各个发音时长进行排列组合得到的集合；根据所述文本单元在所述歌曲中的读音，从所述文本单元对应的音素集合中获取所述文本单元的目标音素子集；根据所述文本单元在歌曲中的发音时长，从所述文本单元的目标音素子集中获取所述文本单元对应的音素；根据所述文本单元对应的音素生成所述音素传播序列。

作为本发明实施例一种可选的实施方式，所述特征获取单元，具体用于基于发声词典获取所述文本单元对应的音素集合；所述发声词典包括所述文本单元与音素集合的对应关系，所述文本单元对应的音素集合为所述文本单元的各个读音对应的音素子集组成的集合，任一读音对应的音素子集为对该读音对应的音素中的各音素和各音素的转音音素进行排列组合得到的集合；根据所述文本单元在所述歌曲中的读音，从所述文本单元对应的音素集合中获取所述文本单元的目标音素子集；根据所述文本单元在所述歌曲中的音调转换情况，从所述文本单元的目标音素子集中获取所述文本单元对应的音素；根据所述文本单元对应的音素生成所述音素传播序列。

作为本发明实施例一种可选的实施方式，所述特征获取单元，具体用于基于预设采样频率和预设格式对所述歌曲的音频信号进行采样，获取所述歌曲的采样序列；根据音频帧的时长和所述采样序列，生成所述歌曲的音频帧序列。

作为本发明实施例一种可选的实施方式，

所述预设采样频率为16kHz；

所述预设格式为16位深的单声道Wave脉冲编码调制PCM格式。

作为本发明实施例一种可选的实施方式，所述匹配单元，具体用于对所述音频帧序列中的每个音频帧进行傅立叶变换，获取每一个音频帧的傅立叶变换频谱；分离每一个音频帧的傅立叶变换频谱中的人声频谱和伴奏频谱，获取每一个音频帧的人声频谱；将每一个音频帧的人声频谱转换为对应的MFCC特征，获取每个音频帧的音频特征。

作为本发明实施例一种可选的实施方式，所述匹配单元，还用于对所述音频帧序列中的每个音频帧进行傅立叶变换，获取每一个音频帧的傅立叶变换频谱；分离每一个音频帧的傅立叶变换频谱中的人声频谱和伴奏频谱，获取每一个音频帧的伴奏频谱；根据各个音频帧的伴奏频谱，获取所述歌曲的曲风；获取目标匹配模型；基于所述目标匹配模型获取各个音频特征与所述音素传播序列中的各个音素的匹配关系；

其中，所述目标匹配模型为与所述歌曲的曲风对应的匹配模型。

作为本发明实施例一种可选的实施方式，所述时间获取单元，具体用于根据所述音频帧的播放时长以及所述音素传播序列中的各个音素与音频特征的匹配关系，获取所述音素传播序列中各个音素的时间信息；根据所述音素传播序列中各个音素的时间信息以及所述文本单元对应的音素，确定所述文本单元的时间信息。

作为本发明实施例一种可选的实施方式，所述生成单元，还用于获取置信度序列，所述置信度序列中的各个置信度用于表征各个音频特征与音素的匹配度；基于所述置信度序列判断所述文本单元对应的音素与音频特征的匹配度是否均小于预设阈值；若所述文本单元对应的音素与音频特征的匹配度均小于所述预设阈值，则将所述歌词文本中该文本单元之后的所有文本单元的起始时刻向前调整预设时长。

所述时延神经网络层包括十层时延神经网络TDNN；

作为本发明实施例一种可选的实施方式，所述时延神经网络层的十层TDNN中，间隔为0或1或3的两层TDNN互联。

第三方面，本发明实施例提供一种电子设备，包括：存储器和处理器，存储器用于存储计算机程序；处理器用于在调用计算机程序时执行第一方面或第一方面任一种可选的实施方式所述的歌词文件生成方法。

第四方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现第一方面或第一方面任一种可选的实施方式所述的歌词文件生成方法。

本发明实施例提供的歌词文件生成方法首先获取歌曲的音素传播序列和所述歌曲的音频帧序列，然后在所述音频帧序列中确定与所述文本单元对应的音频帧，在根据所述音频帧的播放时长以及文本单元对应的音频帧，确定所述文本单元的时间信息，最后根据所述文本单元的时间信息，生成所述歌曲的歌词文件，其中，所述歌词文件，用于指示在所述歌曲播放到所述时间信息所指示的位置的情况下展示所述文本单元。即，本发明实施例提供了一种能够自动生成歌曲的歌词文件的方法。相比于人工生成歌词文件，本发明实施例提供的歌词文件生成方法可以自动生成歌曲的歌词文件，因此本发明实施例可以提高歌词文件生成效率，解决现有技术中歌词文件生成效率较低的问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的歌词文件生成方法的步骤流程图之一；

图2为本发明实施例提供的发声词典的意图之一；

图3为本发明实施例提供的发声词典的意图之二；

图4为本发明实施例提供的发声词典的意图之三；

图5为本发明实施例提供的发声词典的意图之四；

图6为本发明实施例提供的音素与音频特征的匹配关系示意图；

图7为本发明实施例提供的时延神经网络层的结构示意图；

图8为本发明实施例提供的歌词文件生成方法的步骤流程图之二；

图9为本发明实施例提供的歌词文件生成方法的步骤流程图之三；

图10为本发明实施例提供的歌词文件生成装置的结构示意图；

图11为本发明实施例提供的电子设备的硬件结构示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面将对本发明的方案进行进一步描述。需要说明的是，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但本发明还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本发明的一部分实施例，而不是全部的实施例。

本发明的说明书和权利要求书中的术语“第一”和“第二”等是用于区别同步的对象，而不是用于描述对象的特定顺序。例如，第一操作和第二操作是用于区别不同的操作，而不是用于描述操作的特定顺序。

在本发明实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本发明实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。此外，在本发明实施例的描述中，除非另有说明，“多个”的含义是指两个或两个以上。

本发明实施例提供的歌词文件生成方法的执行主体可以为歌词文件生成装置。该歌词文件生成装置可以为手机、平板电脑、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、个人数字助理(personal digitalassistant，PDA)、智能手表、智能手环等终端设备，或者该终端设备还可以为其他类型的终端设备，本发明实施例对终端设备的类型不作限定。

本发明实施例提供了一种歌词文件生成方法，参照图1所示，该歌词文件生成方法包括如下步骤S11至S15：

S11、获取歌曲的音素传播序列和所述歌曲的音频帧序列。

其中，所述音素传播序列包括所述歌曲的歌词文本中的文本单元对应的音素。

本发明实施例中的歌词文本是指与歌曲的歌唱内容相对应的文本信息，其不包含歌曲的名称、作者、文本单元的时间信息等内容，文本单元是指歌词文字中的字符。

需说明的是，本发明实施例中文本单元对应的音素可以仅包括一个音素，也可以包括多个音素。例如：文本单元“爱”对应的音素仅包括1个音素“ai_4”，再例如：文本单元“心”对应的音素包括2个音素，分别为：“x”和“in_1”，再例如：文本单元“装”对应的音素包括3个音素，分别为“zh”、“u”以及“ang_1”。

以下对上述步骤S11中获取歌曲的音素传播序列的实现方式进行详细说明。

实现方式一、

上述步骤S11中获取歌曲的音素传播序列，包括如下步骤111至步骤113：

步骤111、基于发声词典(lexicon)获取所述文本单元对应的音素集合。

其中，所述发声词典包括所述文本单元与音素集合的对应关系，所述文本单元对应的音素集合为所述文本单元的各个读音对应的音素组成的集合。

示例性的，参照图2所示，图2以“重”字为例对上述步骤111的实现方式进行说明。如图2所示，“重”字对应的音素集合为读音“zhong”对应的音素“zh ong_4”和读音“chong”对应的音素“ch ong_4”组成的集合。因此对歌词文本中的“重”字，可以基于发声词典获取图2所示的音素集合。

步骤112、根据所述文本单元在所述歌曲中的读音，从所述文本单元对应的音素集合中获取所述文本单元对应的音素。

承上示例所述，“重”字对应的音素集合如图2所示，“重”字在所述歌曲中的读音为“重(chong)头再来……”，因此可以从图2所示“重”字对应的音素集合中确定“重”字对应的音素为：“zh ong_4”。

步骤113、根据所述文本单元对应的音素生成所述音素传播序列。

示例性的，以下以歌词文本“重头再来”，且歌词文本“重头再来”中的“重”字的音素为“ch ong_4”，“头”字的音素为“t ou_2”，“再”字的音素为“z ai_4”，“来”字的音素为“lai_2”为例对上述步骤113进行说明，根据所述文本单元对应的音素生成的音素传播序列为：ch>ong_4>t>ou_2>z>ai_4>l>ai_2。

实现方式二、

上述步骤S11中获取歌曲的音素传播序列，包括如下步骤121至步骤124：

步骤121、基于发声词典获取所述文本单元对应的音素集合。

其中，所述发声词典包括所述文本单元与音素集合的对应关系，所述文本单元对应的音素集合为所述文本单元的各个读音对应的音素子集组成的集合，任一读音对应的音素子集为对该读音对应的音素中的各音素的各个发音时长进行排列组合得到的集合。

示例性的，以下以各个发音时长包括3个发音时长为例对上述步骤121的实现方式进行说明。“单”字包括三个读音，分别为：“dan”“chan”“shan”，其中，读音“dan”对应的音素为“d an_1”，读音“chan”对应的音素为“d an_2”，读音“shan”对应的音素为“sh an_4”，因此如图3所示，“单”字对应的音素集和为读音“dan”对应的音素子集31、读音“chan”对应的音素子集32以及读音“shan”对应的音素子集33组成的集合。读音“dan”对应的音素子集31为音素“d an_1”、“d d an_1”、“d dd an_1”、“d an_1an_1”、“d d an_1an_1”、“d dd an_1an_1”、“d an_1an_1an_1”、“d d an_1an_1an_1”、“d dd an_1an_1an_1”组成的音素集合。读音“chan”对应的音素子集32为音素“ch an_2”、“chchan_2”、“chchch an_2”、“ch an_2an_2”、“chchan_2an_2”、“chchch an_2an_2”、“ch an_2an_2an_2”、“chchan_2an_2an_2”、“chchch an_2an_2an_2”组成的音素集合。读音“shan”对应的音素子集33为音素“sh an_4”、“shshan_4”、“shshsh an_4”、“sh an_4an_4”、“shshan_4an_4”、“shshsh an_4an_4”、“sh an_4an_4an_4”、“shshan_4an_4an_4”、“shshsh an_4an_4an_4”组成的音素集合。其中，音素的数量用于指示音素的发音时长，例如：“d”、“d d”、“d dd”分别表示音素“d”的发音时长属于第一发音时长范围、第二发音时长范围、第三发音时长范围。对歌词文本中的“重”字，可以基于发声词典获取图3所示的音素集合。

步骤122、根据所述文本单元在所述歌曲中的读音，从所述文本单元对应的音素集合中获取所述文本单元的目标音素子集。

承上示例所述，“单”字对应的音素集合如图3所示，“单”字在所述歌曲中的读音为“简单(dan)爱……”，因此可以从图3所示音素集合中确定“单”字的目标音素子集为读音“dan”对应的音素子31。

步骤123、根据所述文本单元在歌曲中的发音时长，从所述文本单元的目标音素子集中获取所述文本单元对应的音素。

承上示例所述，“单”字的目标音素子集为图3中读音“dan”对应的音素子集31，“单”字对应的音素中的音素“d”在所述歌曲中的发音时长属于第一发音时长范围，“单”字对应的音素中的音素“an_1”在所述歌曲中的发音时长属于第三发音时长范围，因此确定读音“dan”对应的音素子31中的音素“d an_1an_1an_1”为“单”字对应的音素。

步骤124、根据所述文本单元对应的音素生成所述音素传播序列。

示例性的，以下以歌词文本“简单爱”，歌词文本“简单爱”中的“简”字对应的音素为“j an_3”，“单”字对应的音素为“d an_1an_1an_1”，“爱”字对应的音素为“ai_4ai_4”为例对上述步骤S125进行说明。根据所述文本单元对应的音素生成的音素传播序列为：j>an_3>d>an_1>an_1>an_1>ai_4>ai_4。

实现方式三、

上述步骤S11中获取歌曲的音素传播序列，包括如下步骤131至步骤134：

步骤131、基于发声词典获取所述文本单元对应的音素集合。

其中，所述发声词典包括所述文本单元与音素集合的对应关系，所述文本单元对应的音素集合为所述文本单元的各个读音对应的音素子集组成的集合，任一读音对应的音素子集为对该读音对应的音素中的各音素和各因素的转音音素进行排列组合得到的集合。

示例性的，参照图4所示，图4中以“长”字为例对上述步骤131的实现方式进行说明。如图4所示，“长”字对应的音素集合为读音“chang”对应的音素子集41和读音“zhang”对应的音素子集42组成的集合，且读音“chang”对应的音素子集31为音素“ch ang_2”、“～chang_2”、“ch～ang_2”、“～ch～ang_2”组成的音素集合。读音“zhang”对应的音素子集42为音素“zh ang_2”、“～zh ang_2”、“zh～ang_2”、“～zh～ang_2”。其中，符号“～xx”用于表示音素“xx”为的转音音素，例如：“～ang_2”表示“ang_2”的转音音素。

步骤132、根据所述文本单元在所述歌曲中的读音，从所述文本单元对应的音素集合中获取所述文本单元的目标音素子集。

承上示例所述，“长”字对应的音素集合如图4所示，“长”字在所述歌曲中的读音为“天长(chang)地久”，因此可以从图4所示音素集合中确定“长”字的目标音素子集为读音“chang”对应的音素子41。

步骤133、根据所述文本单元在所述歌曲中的音调转换情况，从所述文本单元的目标音素子集中获取所述文本单元对应的音素。

承上示例所述，“长”字的目标音素子集为图4中读音“chang”对应的音素子集41，“长”字对应的音素中的音素“ch”在所述歌曲中没有音调转换，“长”字对应的音素中的音素“ang_2”在所述歌曲中具有音调转换，因此确定读音“chang”对应的音素子集41中的音素“ch～ang_2”为“长”字对应的音素。

步骤134、根据所述文本单元对应的音素生成所述音素传播序列。

示例性的，以下以歌词文本为“天长地久”、歌词文本“天长地久”中的“天”字文本音素为“t an_1”，“长”字文本音素为“ch～ang_2”，“地”字文本音素为“d i_4”，“久”字文本音素为“j～iu_3”为例对上述步骤步骤134进行说明。根据所述文本单元对应的音素生成的音素传播序列为：t>an_1>ch>～ang_2>d>i_4>j>～iu_3。

实现方式四、

上述步骤S11中获取歌曲的音素传播序列，包括如下步骤141至步骤144：

步骤141、基于发声词典获取所述文本单元对应的音素集合。

其中，所述发声词典包括所述文本单元与音素集合的对应关系，所述文本单元对应的音素集合为所述文本单元的各个读音对应的音素子集组成的集合，任一读音对应的音素子集为对该读音对应的音素中的各音素的各个发音时长以及该读音对应的音素中的各音素的转音音素的各个发音时长进行排列组合得到的集合。

示例性的，参照图5所示，图5以“的”字为例对上述步骤141的实现方式进行说明。如图5所示，“的”字对应的音素集为读音“de”对应的音素子集51和读音“di”对应的音素子集52组成的集合，且读音“de”对应的音素子集31为音素“d e_1”、“～d e_1”、“d～e_1”、“～d～e_1”、“d e_1e_1”、“d e_1e_1e_1”……等音素组成的音素集合。读音“di”对应的音素子集52为音素“d i_4”、“～d i_4”、“d～i_4”、“～d～i_4”、“d i_4i_4”、“d i_4i_4i_4”……等音素组成的音素集合。

步骤142、根据所述文本单元在所述歌曲中的读音，从所述文本单元对应的音素集合中获取所述文本单元的目标音素子集。

承上示例所述，“的”字对应的音素集合如图5所示，“的”字在所述歌曲中的读音为“我的(de)心”，因此可以从图5所示音素集合中确定“的”字的目标音素子集为读音“de”对应的音素子51。

步骤143、根据所述文本单元在歌曲中的发音时长以及音调转换情况，从所述文本单元的目标音素子集中获取所述文本单元对应的音素。

承上示例所述，“的”字的目标音素子集为图5中读音“的de”对应的音素子集51，“的”字对应的音素中的音素“d”在所述歌曲中没有音调转换且发音时长属于第一时长范围，“的”字对应的音素中的音素“e_1”在所述歌曲发音时长的为属于第二时长范围，且具有音调转换，因此确定读音“de”对应的音素子集51中的音素“d e_1～e_1”为“的”字的对应音素。

步骤144、根据所述文本单元对应的音素生成所述音素传播序列。

示例性的，以下以歌词文本“我的心”，且歌词文本“我的心”中的“我”字对应的音素为“w o_3”，“的”字对应的音素为“d e_1～e_1”，“心”字对应的音素为“x in_4～in_4～in_4”为例对上述步骤S144进行说明。歌词文本“我的心”中的所述文本单元的发音顺序依次为“我”“的”“心”，因此根据所述文本单元对应的音素生成的音素传播序列为：

w>o_3>d>e_1>～e_1>x>in_4>～in_4>～in_4。

可选的，上述步骤S11中所述获取所述歌曲的音频帧序列的实现方式包括：

可选的，所述预设采样频率为16kHz；

所述预设格式为16位深的单声道Wave脉冲编码调制(Pulse Code Modulation，PCM)格式。

示例性的，若预设采样频率为16kHz，音频帧的时长为25ms，则1秒采样次数为16000，一个音频帧的时长(25ms)内的采样次数为400次，因此可以歌曲的将采样序列中每400各采样数据作为一个音频帧，并按照音频帧按照所包含的采样数据在采样序列中的顺序依次排列，生成所述歌曲的音频帧序列。

由于本发明实施例提供的歌词文件生成方法获取音频帧序列的方式为：基于预设采样频率和预设格式对所述歌曲的音频信号进行采样，获取所述歌曲的采样序列，然后再根据音频帧的时长和所述采样序列，生成所述歌曲的音频帧序列，因此本发明实施例提供的歌词文件生成方法适用于任意音频格式的歌曲，进而提高本发明实施例提供的歌词文件生成方法的适用范围。

S12、在所述音频帧序列中确定与所述文本单元对应的音频帧。

其中，所述文本单元对应的音素与所述音频帧的音频特征是相匹配的。

可选的，在所述音频帧序列中确定与所述文本单元对应的音频帧之前，所述方法还包括：

将每一个音频帧的人声频谱转换为对应的梅尔倒频谱系数(Mel FrequencyCepstrum Coefficient，MFCC)特征，获取每个音频帧的音频特征。

可选的，在所述音频帧序列中确定与所述文本单元对应的音频帧，包括：

基于匹配模型获取各个音频特征与所述音素传播序列中的音素的匹配关系。

示例性的，各个音频特征与所述音素传播序列中的音素的匹配关系可以如图6所示，每一个音频特征均与音素传播序列中的一个音素匹配，与音素传播序列中的一个音素匹配的音频特征为一个或多个。

具体的，可以通过与上述步骤S11、S12相同或相似的方式获取训练用音素传播序列和音频特征，并手动或自动标记其中相互匹配的音频特征和音素，从而获取训练样本。

可选的，所述神经网络模型依次包括：预处理层、卷积层、时延神经网络层和分类输出层；

所述预处理层包括一仿射层(Fully Connected Layer,FC)，用于对所述训练样本中的音频特征进行升采样；

所述卷积层包括两层卷积神经网络(Convolutional Neural Networks，CNN)，所述两层CNN中的每一层CNN包括：一子卷积网络、一激活层以及一批标准化层(BatchNormalization)；

所述时延神经网络层包括十层时延神经网络(Time delay neural network，TDNN)；

通过预处理层对所述训练样本中的音频特征进行升采样可以在更细的粒度对特征进行建模，从而提升匹配模型输出结果的准确性。

可选的，所述激活层为线性整流函数(Rectified Linear Unit，ReLU)层，所述两层CNN中的每一层CNN的卷积核均为3*3。

可选的，参照图7所示，所述时延神经网络层的十层TDNN中，间隔为0或1或3的两层TDNN互联。

因此如图6所示，因为间隔为0两层TDNN互联，因此时延神经网络层的TDNN1至TDNN10依次互联，因为间隔为1两层TDNN互联，因此时延神经网络层的TDNN1和TDNN3互联，TDNN3和TDNN5互联，TDNN5和TDNN7互联，TDNN7和TDNN9互联，TDNN2和TDNN4互联，TDNN4和TDNN6互联，TDNN6和TDNN7互联，TDNN8和TDNN10互联，因为间隔为3两层TDNN互联，因此时延神经网络层的TDNN1和TDNN5互联，TDNN2和TDNN7互联，TDNN3和TDNN8互联，TDNN4和TDNN9互联，TDNN5和TDNN10互联。

由于时延神经网络层的十层TDNN中间隔为0或1或3的两层TDNN互联，因此最后一层TDNN(TDNN10)可以充分考虑音频前后约十帧之间的特征变化性，而通常情况下一个音素需要跨十帧的时长，所以采用图7所示的时延神经网络层结构可以最大程度的符合音素建模特性，得到更加准确的音素建模信息。

S13、根据所述音频帧的播放时长，确定所述文本单元的时间信息。

可选的，所述文本单元的时间信息包括所述文本单元的起始时刻和持续时长。

可选的，根据所述音频帧的播放时长，确定所述文本单元的时间信息，包括：

具体的，可以根据发生词典将音素组合翻译为文本单元，并将音素的时间信息整合为文本单元的起始时间和持续时间，然后歌词文本中的文本单元和歌词文本中的文本单元的起始时间和持续时间生成所述歌曲的歌词文件。

示例性的，某一音素与第101至第110个音频帧的音频特征匹配，一个音频帧的播放时长为25ms，则该音素的起始时刻为第101个音频帧的起始时刻2.5s，该音素的持续时长为10*25ms＝0.25s。

S14、根据所述文本单元的时间信息，生成所述歌曲的歌词文件。

其中，所述歌词文件，用于指示在所述歌曲播放到所述时间信息所指示的位置的情况下展示所述文本单元。

需要说明的是，本发明所提到的中歌词文件是指带有精准时间点信息的完整歌词文件，歌词文件的格式可以为KRC、LRC等。

作为本发明实施例上述歌词文件生成方法的扩展和细化，本发明实施例提供了另一种歌词文件生成方法，参照图8所示，该歌词文件生成方法包括：

S801、获取歌曲的音素传播序列和所述歌曲的音频帧序列。

S802、对所述音频帧序列中的每个音频帧进行傅立叶变换，获取每一个音频帧的傅立叶变换频谱。

具体的，傅立叶变换频谱可以为傅立叶变换频谱图。

S803、分离每一个音频帧的傅立叶变换频谱中的人声频谱和伴奏频谱，获取每一个音频帧的人声频谱。

S804、将每一个音频帧的人声频谱转换为对应的MFCC特征，获取每个音频帧的音频特征。

S805、基于匹配模型获取各个音频特征与所述音素传播序列中的音素的匹配关系。

S806、根据所述音频帧的播放时长以及所述音素传播序列中的各个音素与音频特征的匹配关系，获取所述音素传播序列中各个音素的时间信息。

S807、根据所述音素传播序列中各个音素的时间信息以及所述文本单元对应的音素，确定所述文本单元的时间信息。

具体的，音素的时间信息包括因素的起始时刻和持续时；长文本单元的时间信息包括文本单元的起始时刻和持续时长。任一文本单元的起始时刻为该文本单元对应的音素中第一个音素的起始时刻，任一文本单元的持续时长为该文本单元对应的音素中全部音素的持续时长之和。例如：歌词文本中某一文本单元包括两个音素，第一个音素的起始时刻为t1，持续时长为T1，第二音素的起始时刻为t2，持续时长为T2，则可以确定该文本单元的时间信息为：起始时刻为t1、持续时长为T1+T2。

S808、根据所述文本单元的时间信息，生成所述歌曲的歌词文件。

上述实施例提供的歌词文件生成为对图1所示歌词文件生成方法的扩展和细化，其实现原理与技术效果类似，此处不再赘述。

作为本发明实施例一种可选的实施方式，所述匹配模型包括分别与各个曲风对应的匹配模型。

具体的，可以在进行模型训练时，先根据曲风对训练样本进行分类，将曲风相同的训练样本归入同一训练样本组，然后分别根据各个曲风对应的训练样本组对神经网络模型进行训练，获取各个曲风对应的匹配模型，最后再融合各个曲风对应的匹配模型获取匹配模型，从而使所述匹配模型包括分别与各个曲风对应的匹配模型。

需要说明的是，各个曲风对应的匹配模型可以相互独立，也可以融合为一个综合匹配模型，在进行综合模型中进行曲风确定以及对应模型的确定。

在匹配模型包括分别与各个曲风对应的匹配模型的从基础上，作为本发明实施例上述歌词文件生成方法的扩展和细化，本发明实施例提供了另一种歌词文件生成方法，参照图9所示，该歌词文件生成方法包括：

S901、获取歌曲的音素传播序列和所述歌曲的音频帧序列。

S902、对所述音频帧序列中的每个音频帧进行傅立叶变换，获取每一个音频帧的傅立叶变换频谱。

S903、分离每一个音频帧的傅立叶变换频谱中的人声频谱和伴奏频谱，获取每一个音频帧的人声频谱以及每一个音频帧的伴奏频谱。

S904、将每一个音频帧的人声频谱转换为对应的MFCC特征，获取每个音频帧的音频特征。

S905、根据各个音频帧的伴奏频谱，获取所述歌曲的曲风。

需要说明的是的，本发明实施例中不限定S904和S905的先后顺序，可以先获取每个音频帧的音频特征，后获取所述歌曲的曲风，也可以先获取所述歌曲的曲风，在获取每个音频帧的音频特征，还可以通过进行歌曲的曲风和每个音频帧的音频特征的获取。

S906、确定目标匹配模型。

其中，所述目标匹配模型为匹配模型中与所述歌曲的曲风对应的匹配模型。

S907、基于所述目标匹配模型获取各个音频特征与所述音素传播序列中的各个音素的匹配关系。

具体的，上述步骤S906和S907的实现方式可以为：将歌曲曲风、音频帧序列中每个音频帧的音频特征以及音素传播序列输出匹配模型，由匹配模型确定目标匹配模型，然后基于所述目标匹配模型获取各个音频特征与所述音素传播序列中的各个音素的匹配关系。

S908、根据所述音频帧的播放时长以及所述音素传播序列中的各个音素与音频特征的匹配关系，获取所述音素传播序列中各个音素的时间信息。

S909、根据所述音素传播序列中各个音素的时间信息以及所述文本单元对应的音素，确定所述文本单元的时间信息。

S910、根据所述文本单元的时间信息，生成所述歌曲的歌词文件。

由于匹配模型包括分别与各个曲风对应的匹配模型，且在获取各个音频特征与所述音素传播序列中的各个音素的匹配关系时，先获取获取各个音频帧的伴奏频谱，并根据各个音频帧的伴奏频谱获取歌曲的曲风，然后再根据歌曲的曲风获取匹配模型中与所述歌曲的曲风对应的目标匹配模型，最后基于目标匹配模型获取各个音频特征与所述音素传播序列中的各个音素的匹配关系，因此上述实施例可以最大程度的利用不同曲风之间的特点，从而提升匹配模型输出结果的准确性。

作为本发明实施例一种可选的实施方式，在上述实施例的基础上，本发明实施例提供的歌词文件生成方法还包括：

若所述文本单元对应的音素对应的匹配度均小于所述预设阈值，则将所述歌词文本中该文本单元之后的所有文本单元的起始时刻向前调整预设时长。

上述实施例的原理为：若某一文本单元对应的音素的匹配度均小于所述预设阈值，则可以确定歌词文本中具有某一文本单元但不存在与该文本单元对应的音频特征，出现该问题的原因可能为歌词文本多字、歌唱过程中漏唱等原因，了保证歌词文本中的其它文本单元的时间信息的准确性，可以将歌词文本中该文本单元之后的所有文本单元的起始时刻向前调整预设的歌唱一个字的播放时长。

可选的，获取置信度序列的方式可以为：在基于匹配模型获取各个音频特征与所述音素传播序列中的音素的匹配关系的同时，获取匹配模型输出的各个音频特征与所述音素传播序列中的各个音素的匹配度。

可选的，预设阈值可以为0.2，预设时长为0.3秒。即，当歌词文本中的某一文本单元对应的音素对应的匹配度均小于0.2，则将所述歌词文本中该文本单元之后的所有文本单元的起始时刻信息向前调整0.3秒。例如：第一文本单元的起始时刻为t3，若歌词文本中的第二文本单元对应的音素对应的匹配度均小于0.2，且第二文本单元位于第一文本单元之前，则将第一文本单元的起始时刻调整为t3-0.3s。

基于同一发明构思，作为对上述方法的实现，本发明实施例还提供了一种歌词文件生成装置，该歌词文件生成装置实施例与前述方法实施例对应，为便于阅读，本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述，但应当明确，本实施例中的歌词文件生成装置能够对应实现前述方法实施例中的全部内容。

图10为本发明实施例提供的歌词文件生成装置的结构示意图，如图10所示，本实施例提供的歌词文件生成装置100包括：

特征获取单元11，用于获取歌曲的音素传播序列和所述歌曲的音频帧序列；所述音素传播序列包括所述歌曲的歌词文本中的文本单元对应的音素；

匹配单元12，用于在所述音频帧序列中确定与所述文本单元对应的音频帧；其中，所述文本单元对应的音素与所述音频帧的音频特征是相匹配的；

时间获取单元13，用于根据所述音频帧的播放时长，确定所述文本单元的时间信息；

生成单元14，用于根据所述文本单元的时间信息，生成所述歌曲的歌词文件，其中，所述歌词文件，用于指示在所述歌曲播放到所述时间信息所指示的位置的情况下展示所述文本单元。

作为本发明实施例一种可选的实施方式，所述特征获取单元11，具体用于基于发声词典获取所述文本单元对应的音素集合；所述发声词典包括所述文本单元与音素集合的对应关系，所述文本单元对应的音素集合为所述文本单元的各个读音对应的音素组成的集合；根据所述文本单元在所述歌曲中的读音，从所述文本单元对应的音素集合中获取所述文本单元对应的音素；根据所述文本单元对应的音素生成所述音素传播序列。

作为本发明实施例一种可选的实施方式，所述特征获取单元11，具体用于基于发声词典获取所述文本单元对应的音素集合；所述发声词典包括所述文本单元与音素集合的对应关系，所述文本单元对应的音素集合为所述文本单元的各个读音对应的音素子集组成的集合，任一读音对应的音素子集为对该读音对应的音素中的各音素的各个发音时长进行排列组合得到的集合；根据所述文本单元在所述歌曲中的读音，从所述文本单元对应的音素集合中获取所述文本单元的目标音素子集；根据所述文本单元在歌曲中的发音时长，从所述文本单元的目标音素子集中获取所述文本单元对应的音素；根据所述文本单元对应的音素生成所述音素传播序列。

作为本发明实施例一种可选的实施方式，所述特征获取单元11，具体用于基于发声词典获取所述文本单元对应的音素集合；所述发声词典包括所述文本单元与音素集合的对应关系，所述文本单元对应的音素集合为所述文本单元的各个读音对应的音素子集组成的集合，任一读音对应的音素子集为对该读音对应的音素中的各音素和各音素的转音音素进行排列组合得到的集合；根据所述文本单元在所述歌曲中的读音，从所述文本单元对应的音素集合中获取所述文本单元的目标音素子集；根据所述文本单元在所述歌曲中的音调转换情况，从所述文本单元的目标音素子集中获取所述文本单元对应的音素；根据所述文本单元对应的音素生成所述音素传播序列。

作为本发明实施例一种可选的实施方式，所述特征获取单元11，具体用于基于预设采样频率和预设格式对所述歌曲的音频信号进行采样，获取所述歌曲的采样序列；根据音频帧的时长和所述采样序列，生成所述歌曲的音频帧序列。

作为本发明实施例一种可选的实施方式，

所述预设采样频率为16kHz；

所述预设格式为16位深的单声道Wave脉冲编码调制PCM格式。

作为本发明实施例一种可选的实施方式，所述匹配单元12，具体用于对所述音频帧序列中的每个音频帧进行傅立叶变换，获取每一个音频帧的傅立叶变换频谱；分离每一个音频帧的傅立叶变换频谱中的人声频谱和伴奏频谱，获取每一个音频帧的人声频谱；将每一个音频帧的人声频谱转换为对应的MFCC特征，获取每个音频帧的音频特征。

作为本发明实施例一种可选的实施方式，所述匹配单元12，还用于对所述音频帧序列中的每个音频帧进行傅立叶变换，获取每一个音频帧的傅立叶变换频谱；分离每一个音频帧的傅立叶变换频谱中的人声频谱和伴奏频谱，获取每一个音频帧的伴奏频谱；根据各个音频帧的伴奏频谱，获取所述歌曲的曲风；获取目标匹配模型；基于所述目标匹配模型获取各个音频特征与所述音素传播序列中的各个音素的匹配关系；

作为本发明实施例一种可选的实施方式，所述时间获取单元13，具体用于根据所述音频帧的播放时长以及所述音素传播序列中的各个音素与音频特征的匹配关系，获取所述音素传播序列中各个音素的时间信息；根据所述音素传播序列中各个音素的时间信息以及所述文本单元对应的音素，确定所述文本单元的时间信息。

作为本发明实施例一种可选的实施方式，所述生成单元14，还用于获取置信度序列，所述置信度序列中的各个置信度用于表征各个音频特征与音素的匹配度；基于所述置信度序列判断所述文本单元对应的音素与音频特征的匹配度是否均小于预设阈值；若所述文本单元对应的音素与音频特征的匹配度均小于所述预设阈值，则将所述歌词文本中该文本单元之后的所有文本单元的起始时刻向前调整预设时长。

所述时延神经网络层包括十层时延神经网络TDNN；

本实施例提供的歌词文件生成装置可以执行上述方法实施例提供的歌词文件生成方法，其实现原理与技术效果类似，此处不再赘述。

基于同一发明构思，本发明实施例还提供了一种电子设备。图11为本发明实施例提供的电子设备的结构示意图，如图11所示，本实施例提供的电子设备包括：存储器111和处理器112，存储器111用于存储计算机程序；处理器112用于在调用计算机程序时执行上述方法实施例提供的评论显示方法中的各步骤。

具体的，存储器111可用于存储软件程序以及各种数据。存储器111可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器111可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器112是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器111中的软件程序和/或模块，以及调用存储在存储器111中的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。处理器112可包括一个或多个处理单元。

此外，应当理解的是，本发明实施例提供的电子设备还可以包括：射频单元、网络模块、音频输出单元、传感器、信号接收单元、显示器、用户接收单元、接口单元、以及电源等部件。本领域技术人员可以理解，上述描述出的电子设备的结构并不构成对电子设备的限定，电子设备可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本发明实施例中，电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。

其中，射频单元可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器112处理；另外，将上行的数据发送给基站。通常，射频单元包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元还可以通过无线通信系统与网络和其他设备通信。

电子设备通过网络模块为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元可以将射频单元或网络模块接收的或者在存储器111中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元还可以提供与电子设备执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元包括扬声器、蜂鸣器以及受话器等。

信号接收单元用于接收音频或视频信号。接收单元可以包括图形处理器(Graphics Processing Unit，GPU)和麦克风，图形处理器对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元上。经图形处理器处理后的图像帧可以存储在存储器(或其它存储介质)中或者经由射频单元或网络模块进行发送。麦克风可以接收声音，并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元发送到移动通信基站的格式输出。

电子设备还包括至少一种传感器，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板的亮度，接近传感器可在电子设备移动到耳边时，关闭显示面板和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别电子设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元用于显示由用户输入的信息或提供给用户的信息。显示单元可包括显示面板，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(OrganicLight-Emitting Diode,OLED)等形式来配置显示面板。

用户接收单元可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。具体地，用户接收单元包括触控面板以及其他输入设备。触控面板，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作)。触控面板可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器112，接收处理器112发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板。除了触控面板，用户接收单元还可以包括其他输入设备。具体地，其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板可覆盖在显示面板上，当触控面板检测到在其上或附近的触摸操作后，传送给处理器112以确定触摸事件的类型，随后处理器112根据触摸事件的类型在显示面板上提供相应的视觉输出。一般情况下，触控面板与显示面板是作为两个独立的部件来实现电子设备的输入和输出功能，但是在某些实施例中，可以将触控面板与显示面板集成而实现电子设备的输入和输出功能，具体此处不做限定。

接口单元为外部装置与电子设备连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到电子设备中的一个或多个元件或者可以用于在电子设备和外部装置之间传输数据。

电子设备还可以包括给各个部件供电的电源(比如电池)，可选的，电源可以通过电源管理系统与处理器112逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

本发明实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例提供的评论显示方法。

本领域技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。

计算机可读介质包括永久性和非永久性、可移动和非可移动存储介质。存储介质可以由任何方法或技术来实现信息存储，信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。根据本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitorymedia)，如调制的数据信号和载波。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种歌词文件生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取歌曲的音素传播序列，包括：

根据所述文本单元对应的音素生成所述音素传播序列。

3.根据权利要求1所述的方法，其特征在于，所述获取歌曲的音素传播序列，包括：

根据所述文本单元对应的音素生成所述音素传播序列。

4.根据权利要求1所述的方法，其特征在于，所述获取歌曲的音素传播序列，包括：

根据所述文本单元对应的音素生成所述音素传播序列。

5.根据权利要求1所述的方法，其特征在于，所述获取所述歌曲的音频帧序列，包括：

6.根据权利要求5所述的方法，其特征在于，

所述预设采样频率为16kHz；

所述预设格式为16位深的单声道Wave脉冲编码调制PCM格式。

7.根据权利要求1所述的方法，其特征在于，在所述音频帧序列中确定与所述文本单元对应的音频帧之前，所述方法还包括：

将每一个音频帧的人声频谱转换为对应的梅尔倒频谱系数MFCC特征，获取每个音频帧的音频特征。

8.根据权利要求1所述的方法，其特征在于，所述在所述音频帧序列中确定与所述文本单元对应的音频帧，包括：

9.根据权利要求8所述的方法，其特征在于，所述基于匹配模型获取各个音频特征与所述音素传播序列中的音素的匹配关系包括：

根据各个音频帧的伴奏频谱，获取所述歌曲的曲风；

10.根据权利要求8所述的方法，其特征在于，所述根据所述音频帧的播放时长，确定所述文本单元的时间信息，包括：

11.根据权利要求10所述的方法，其特征在于，

所述音素传播序列中各个音素的时间信息包括所述音素传播序列中各个音素的起始时刻和持续时长；

12.根据权利要求8所述的方法，其特征在于，所述方法还包括：

若所述文本单元对应的音素与音频特征的匹配度均小于所述预设阈值，则将所述歌词文本中所述文本单元之后的所有文本单元的起始时刻向前调整预设时长。

13.根据权利要求12所述的方法，其特征在于，所述预设时长为0.3秒。

14.根据权利要求8所述的方法，其特征在于，所述神经网络模型依次包括：预处理层、卷积层、时延神经网络层和分类输出层；

所述时延神经网络层包括十层时延神经网络TDNN；

15.根据权利要求14所述的方法，其特征在于，

16.一种歌词文件生成装置，其特征在于，包括：

17.一种电子设备，其特征在于，包括：存储器和处理器，存储器用于存储计算机程序；处理器用于在调用计算机程序时执行权利要求1-15任一项所述的歌词文件生成方法。

18.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，计算机程序被处理器执行时实现权利要求1-15任一项所述的歌词文件生成方法。