CN113223486A

CN113223486A - 信息处理方法、装置、电子设备及存储介质

Info

Publication number: CN113223486A
Application number: CN202110474567.2A
Authority: CN
Inventors: 张振宇; 杨润轩; 祝健
Original assignee: Beijing Smart Sound Technology Co ltd
Current assignee: Beijing Smart Sound Technology Co ltd
Priority date: 2021-04-29
Filing date: 2021-04-29
Publication date: 2021-08-06
Anticipated expiration: 2041-04-29
Also published as: CN113223486B

Abstract

本申请公开了一种信息处理方法、装置、电子设备及存储介质，具体实现方案为：获取待处理对象对应的乐谱信息；根据该乐谱信息，得到构成该待处理对象的每个字的时长边界；根据每个字的时长边界，得到构成每个字的字内部每个音素的时长；根据每个字的时长边界、及该字内部每个音素的时长进行合成处理，得到目标对象。采用本申请，可以使生成歌曲的节奏更符合乐谱上的标记信息，使得发声状态更接近歌手的自身特点，使合成的歌声更为自然。

Description

信息处理方法、装置、电子设备及存储介质

技术领域

本申请涉及语音合成技术领域，尤其涉及一种信息处理方法、装置、电子设备及存储介质。

背景技术

随着语音技术和人工智能的发展，歌曲的制作方式也越来越多样。一些音乐制作软件提供歌曲的合成功能，可以将多个音频片段拼接在一起，形成一首较为完整的歌曲作品。

对于拼接生成的歌曲作品，需要保证其整体流畅，不管在歌词、歌声还是音乐节奏方面都要衔接流畅自然，没有拼接的痕迹，因此，在拼接的过程中，需要由熟练掌握乐理知识的相关工作人员通过反复聆听、调整达到最佳的拼接效果，相关技术中，对如何借助电脑技术对歌曲进行自动的分析和拼接，并保证拼接作品的高流畅度，未存在有效的解决方案。

发明内容

本申请提供了一种信息处理方法、装置、电子设备及存储介质。

根据本申请的一方面，提供了一种信息处理方法，包括：

获取待处理对象对应的乐谱信息；

根据该乐谱信息，得到构成该待处理对象的每个字的时长边界；

根据上述每个字的时长边界，得到构成上述每个字的字内部每个音素的时长；

根据上述每个字的时长边界、及该字内部每个音素的时长进行合成处理，得到目标对象。

根据本申请的另一方面，提供了一种信息处理装置，包括：

乐谱获取模块，用于获取待处理对象对应的乐谱信息；

时长获取模块，用于根据该乐谱信息，得到构成该待处理对象的每个字的时长边界；

音素时长获取模块，用于根据上述每个字的时长边界，得到构成上述每个字的字内部每个音素的时长；

合成处理模块，用于根据上述每个字的时长边界、及该字内部每个音素的时长进行合成处理，得到目标对象。

根据本申请的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与该至少一个处理器通信连接的存储器；其中，

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行本申请任意一实施例所提供的方法。

根据本申请的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使该计算机执行本申请任意一项实施例所提供的方法。

采用本申请，可以基于演唱作品，生成符合目标歌手演唱特点和发音习惯的歌词中每个音素的目标起止时间，以实现对生成歌声每个字的时长、及字对应的所有音素的时长进行约束，使生成歌曲的节奏更符合乐谱上的标记信息，使得发声状态更接近歌手的自身特点，使合成的歌声更为自然。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请实施例的信息处理方法的流程示意图；

图2是根据本申请实施例的信息处理方法的另一流程示意图；

图3是根据本申请实施例的一神经网络结构示意图；

图4是根据本申请实施例的第一时长模型输出内容示意图；

图5是根据本申请实施例的第二时长模型输出内容示意图；

图6是根据本申请实施例的信息处理装置的组成结构示意图；

图7是根据本申请实施例的信息处理装置的另一组成结构示意图；

图8是用来实现本申请实施例的信息处理方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。本文中术语 “第一”、“第二”表示指代多个类似的技术用语并对其进行区分，并不是限定顺序的意思，或者限定只有两个的意思，例如，第一特征和第二特征，是指代有两类/两个特征，第一特征可以为一个或多个，第二特征也可以为一个或多个。

另外，为了更好的说明本申请，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本申请同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本申请的主旨。

在语音合成领域中，语音中每个字的时间边界以及每个音素的时长分配一般不做特定限制，但是在针对歌声的合成过程中，由于乐谱的存在，为了使合成歌声听感符合乐谱上的标记，需要对歌声中每个字的时长、以及字对应的所有音素的时长进行约束。其中，音素即语音中的最小单位，依据音节中的发音动作划分，一个动作构成一个音素。在确定音素的发声时长准确的前提下才能合成自然的歌声。

在合成歌曲作品时，经常使用乐谱中标记的音符起始与终止时间，作为音符所对应唱词的起始与终止时间，但是，这种做法无法解决字内部音素时长分配的问题，而且若将按照此方法截取的歌曲作品片段进行拼合，经常会有在听感上出现明显节奏误差的情况。

另外，在合成语音的过程中，还可以先提取语音对应文本的文本特征，然后利用其中的时长信息生成神经网络模型，生成发音时长信息序列，通过考虑发音时长提高了语音拼接的准确性。但是，此方法仅仅是针对普通语音内容的合成，并不适用于歌曲的合成，因为其中没有考虑乐谱限制，且没有考虑到不同人存在不同的发声状态和语言习惯的情况。

根据本申请的实施例，提供了一种信息处理方法，图1是根据本申请实施例的信息处理方法的流程示意图，该方法可以应用于信息处理装置，例如，该装置可以部署于终端或服务器或其它处理设备执行的情况下，可以获取乐谱、获取时长边界或音素时长、合成歌声等等。其中，终端可以为用户设备 (UE，User Equipment)、移动设备、蜂窝电话、无绳电话、个人数字处理 (PDA，Personal Digital Assistant)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中，该方法还可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。如图1所示，包括：

S101、获取待处理对象对应的乐谱信息。

一示例中，待处理对象包括待合成的歌声、歌曲或是演唱作品，乐谱信息包括乐谱文本信息，其中包括多种标记信息，获取待处理对象对应的乐谱信息即是获取待合成作品对应的乐谱文本。

S102、根据该乐谱信息，得到构成该待处理对象的每个字的时长边界。

一示例中，可以根据乐谱文本信息生成每个字的时长范围。

S103、根据上述每个字的时长边界，得到构成每个字的字内部每个音素的时长。

一示例中，在给定上述每个字的时长范围后，基于该时长范围生成每个音素的持续时长。

S104、根据上述每个字的时长边界、及该字内部每个音素的时长进行合成处理，得到目标对象。

一示例中，上述“目标对象”即为合成后的歌声。在将上述待合成歌声进行合成的场景中，由于歌声有对应的乐谱信息，需要使得最终合成得到的合成歌声在听感上符合乐谱信息中的标记信息，从而，需要对生成该合成歌声的每个字的时长、及字内部的所有音素的时长，基于该乐谱信息进行上述步骤中的约束，经过约束后，进行上述合成处理，最终得到与该乐谱信息相匹配的合成歌声，技术效果为该合成歌声的节奏更符合乐谱信息中的标记信息，从而该合成歌声至少在听感上与乐谱信息相匹配。

采用本实施例，基于待合成的音频及其对应的乐谱信息，预测特定歌手歌声合成中每个字的起止时间以及内部的音素起止时间，使得生成歌声的听感符合乐谱上标记的节奏信息，保证字内部的音素时间分配合理从而使得字内部听起来自然真实，使得发声状态更接近歌手的自身特点，合成的歌声更为自然。

如图2所示，上述信息处理方法还包括：

S105、根据每个人不同的发声状态、和/或语言习惯，对该目标对象进行优化，得到优化后的目标对象。

一示例中，由于不同的人，可能会存在不同的发声状态和语言习惯，比如，南、北方的地域差异，方言等等，会使得不同的人对同一个字的发音、吐字习惯等不同，而这些发音、吐字习惯等会对上述合成处理所得到的目标对象造成不同的影响，为了使得发声状态更接近不同歌手的自身特点，使合成的歌声更为自然，需要针对每个人不同的发声状态、和/或语言习惯，对该目标对象进行优化，比如，在模型训练时，对不同歌手的数据加不同的标签，这样生成时通过指定标签可以得到不同歌手的音素时长，从而，可以根据不同歌手的音素时长进行合成处理，得到优化后的目标对象，即得到优化后更流畅的合成歌声。

一示例中，上述根据该乐谱信息，得到构成该待处理对象的每个字的时长边界，具体包括：将该待处理对象，即是待合成的歌曲或歌声，输入基于该乐谱信息预先训练好的第一时长确定模型，得到每个字对应的第一目标起止时间，将该第一目标起止时间作为每个字的时长边界。

一示例中，上述将待处理对象输入第一时长确定模型，具体还可以是：提取该待处理对象的文本特征，将该文本特征输入该第一时长确定模型；根据该第一时长确定模型预测每个字对应的实际发声边界与该乐谱信息上标记时间的差值；根据该差值，得到每个字的绝对时间和持续时间，得到该第一目标起止时间。具体的，可以包括：根据第一时长确定模型预测每个字对应的持续时间和绝对时间，其中，第一时长模型进一步可以通过预测每个字对应的实际发声边界与乐谱信息上标记时间的差值来得到该每个字的绝对时间和持续时间。

一示例中，根据每个字的时长边界，得到构成每个字的字内部每个音素的时长，具体包括：将每个字的时长边界，输入基于该乐谱信息预先训练好的第二时长确定模型，得到该字内部每个音素对应的第二目标起止时间，将该第二目标起止时间作为该字内部每个音素的时长。

一示例中，上述将待处理对象输入第二时长确定模型，具体还可以是：将每个字拆解为字内部的每个音素，具体地可以通过拼音系统及拼音转音素系统将每个字拆解为字内部的每个音素；将每个字的时长边界输入该第二时长确定模型，结合该字内部的每个音素，根据该第二时长确定模型预测该字内部的每个音素对应分配的时间；确定好每个音素对应分配的时间后，可以得到指定歌手演唱时每个音素的起止时间，每个音素的起止时间即为上述第二目标起止时间，即根据该字内部的每个音素对应分配的时间，得到该第二目标起止时间。

一示例中，上述乐谱信息中包括标注信息；该标注信息至少包括：歌词标注、音符时值标注、目标歌手编号。除此之外，该标注信息还可以包括：音高标注，从而，可以根据该标注信息训练上述第一时长确定模型和上述第二时长确定模型，以生成符合目标歌手演唱特点和发音习惯的歌词中每个字及字内部每个音素的目标起止时间。

一示例中，还可以获取待合成歌声对应的文本；提取该文本的文本特征；将该文本特征导入预先建立的第一时长确定模型，生成每个字发音时长类型序列，该模型用于表征文本特征、乐谱与字发音时长类型序列之间的对应关系；根据所生成的字的发音时长类型序列和字与音素的对应关系信息，由第二时长确定模型确定特定歌手在该文本对应的音素序列中各个音素的发音时长。

本申请中，通过歌手的演唱音频、音素时间标注以及乐谱信息标注，预先训练神经网络(如第一时长确定模型及第二时长确定模型)；以采用训练后的该神经网络接受待合成乐谱信息(如歌词标注、音高标注、音符时值标注、目标歌手编号)后生成符合目标歌手演唱特点和发音习惯的歌词中每个音素的目标起止时间，其中，该每个音素的目标起止时间是由该乐谱信息生成字边界，给定字时长后生成每个音素的持续时长，及由该乐谱信息生成演唱音素时长，以实现对生成歌声每个字的时长、及字对应的所有音素的时长进行约束。使生成歌曲的节奏更符合乐谱上的标记信息，使得发声状态更接近歌手的自身特点，并且考虑了不同歌手的发音、吐字习惯等会对结果造成不同的影响，使合成的歌声更为自然。

应用示例：

应用本申请实施例一处理流程包括如下内容：

第一步，获取待处理对象对应的乐谱信息；

第二步，根据该乐谱信息，得到构成该待处理对象的每个字的时长边界；

第三步，根据每个字的时长边界，得到构成每个字的字内部每个音素的时长；

第四步，根据每个字的时长边界、及该字内部每个音素的时长进行合成处理，得到目标对象；

第五步，根据每个人不同的发声状态、和/或语言习惯，对该目标对象进行优化，得到优化后的目标对象。

其中，第一步中的待处理对象可以是待合成的歌曲或歌声，获取其对应的乐谱信息，乐谱信息可以是乐谱文本信息，其中包括标注信息，标注信息具体又包括：歌词标注、音高标注、音符时值标注、目标歌手编号中的至少一种信息。

第二步中，根据乐谱信息得到时长边界，具体地，将乐谱信息输入第一时长确定模型，就能得到每个字对应的第一目标起止时间，将该第一目标起止时间作为每个字的时长边界。

一示例中，第一时长模型通过预测每个字实际发声的边界与乐谱上标记的时间的差值来得到每个字的绝对时间和持续时间，在训练或使用之前，需要基于乐谱信息进行文本特征的提取，作为第一时长模型的输入编码。首先，对乐谱中的文本按字进行拆分，利用开源词典结合人工检查将拆分后的汉字转换成拼音，然后利用国际音标(IPA，International Phonetic Alphabet)或自建音素系统等方式将拼音转换成音素，具体地由汉字转换成音素的具体方法不做限定；将每个汉字转拼音和音素后，连同该字所对应音符的时长信息生成该字的编码向量，将所有字的编码向量拼接后可以得到模型的输入矩阵。其中每个字的具体的编码内容包括：当前字最后一个音素的独热编码；当前字的最后一个音素的属性编码；下一个字第一个音素的独热编码；下一个字第一个音素的属性编码；当前字在乐谱上标记的时长编码；下一个字在乐谱中标记的时长编码；歌手信息编码。编码完成后的矩阵作为该模型的输入。

其中，音素的独热编码为

(phoneme)，其中Onehot_k表示将数值映射为k维的独热向量,N_p代表音素系统中的音素种类总数，phoneme为当前的音素。定义的音素的属性编码包括：音素类型、发音方法、发声部位、清浊音、气流机制、是否圆唇、是否卷舌、口腔闭合状态等。定义的时长编码表示为：Onehot₇(t)，其中t的值参见公式(1)：其中T为时长，单位为秒。

第一时长模型主要基于卷积神经网络。它的一种实现参见图3。该网络的输入经过编码后的矩阵，先经过一个全连接层将输出维度和线性整流函数变换到128维。图例3中的100指代字符的长度，字符的长度在网络间中保持一致。经过卷积层、池化层、卷积层后将输出维数变换到16维。最后由卷积层输出向量，此向量的长度仍为输入字符的长度，向量中数值代表着模型预测出每个字的终止时间与谱上字所对应的音符的差值。

一示例中，训练第一时长模型的过程中，先根据乐谱中的节奏信息计算每个字的理论起始与终止时间，将该理论起始与终止时间与根据歌手音频人工标注的音素时间序列作差得到训练目标。空白及换气字段训练目标为上一个字所对应乐谱最后一个音符的终止时间与标记音素时间差。训练过程中，使用的代价函数为网络输出值与理论值的均方误差：MSE(T)＝E(T-θ)²。意义是对于无法观察的参数θ的一个估计函数T，均方误差为差值平方的期望值。

一示例中，在训练完成后，提取该待处理对象的文本特征，将该文本特征输入该第一时长确定模型，可以是乐谱上的歌词标注、音符时值标注或其余文本标注，结合歌手编号生成模型输入，由训练好的模型生成与乐谱计算时值后的差值y_diff,由差值计算每个字的起始与终止发声时间：

y_{next_char_start}＝y_{cur_cur_end}＝y_diff+y_{midi_cur_end}

上式中y_{next_char_start}代表下一个字符的起始时间，y_{cur_cur_end}代表当前字符的结束时间，y_{midi_cur_end}为乐谱上当前字所对应音符计算出的终止发声时间。基于起始和终止发生时间，可以获得每个字的绝对时间和持续时间。

基于此第一时长模型可以得到每个字的时间预测值，具体如图4所示。其中第一行是网络预测出歌手演唱该乐谱时字发声的起止时间。第二行的每一块为每个字在乐谱上计算出的起止时间。第三行为训练之前人工标注的字的起止边界。图中的“#”代表休止或演唱中的空白及换气。

第三步中，将每个字的时长边界，输入基于该乐谱信息预先训练好的第二时长确定模型，得到该字内部每个音素对应的第二目标起止时间，将该第二目标起止时间作为该字内部每个音素的时长。

一示例中，在汉语音韵学中，一个字的音节通常被分为五个部分：声母、韵头、韵腹、韵尾、声调。其中声调变化对音素时长影响极小，在此忽略不计。剩下的除韵腹一定要包含1个音素外，其余三个部分每个都包含0或1 个音素。本算法只考虑每个字对应一个音节的情况，遇到拆音字需要先拆分成多个单音字。

因为每个字中的音素时长t_音素和音节时长t_音节关系最密切，因此将其关系用函数t_音素＝a tanh ht+bt拟合，以模拟音素时长曲线先陡后缓的特性。 a、h、b为可训练的参数，其中a、b分别确定了拐点前后的斜率，h确定了拐点的位置。由于音素发音方式和特征不尽相同，每个音素分别拟合得到不同的a、b参数值，同时为了防止拐点位置不同导致音素时长曲线交叉，所有音素共用同一个h参数值。

具体地，采取以下拟合方式训练第二时长确定模型：

考虑到声母时长受韵母影响很小，所以拟合时取t＝t_音节为整个音节的时长。

韵头时长会根据音节是否存在韵尾而发生规律性变化，同时易收到声母种类的干扰，所以训练时每个韵头会根据韵尾是否存在分两种情况各自分别训练，同时取t＝t_音节-t_声母为去掉声母后的时长。

韵尾时长也会因音节是否存在韵头受到和上一项相似的影响，同时也会收到声母种类的干扰，所以采取和上一项相同的训练方式。

生成方式与上述方法类似。先通过整个音节的时长根据不同声母来计算声母时长。然后再经由去掉声母后的音节时长，根据不同韵头及韵尾是否存在来计算韵头时长，同时根据不同韵尾及韵头是否存在来计算韵尾时长。余下的时长则分配给韵腹。计算过程如列公式(2)-(7)所示：

t₀＝t_音节 (6)

一示例中，在使用训练好第二时长确定模型时，先将每个字拆解为字内部的多个音素；然后将上一步中生成的每个字的时长边界输入该第二时长确定模型，结合该字内部的每个音素，根据该第二时长确定模型预测该字内部的每个音素对应分配的时间；最后根据该字内部的每个音素对应分配的时间，得到该第二目标起止时间。每次训练结束后有必要把所有可能的音节在不同时长下测试一遍生成。在极端情况下，一旦有韵腹时长为负数的情形发生，则需要根据情况手动调整修改训练用的数据集，或采用其他方式拟合各音素时长。

基于此第一时长模型可以得到每个字中每个音素的时长，具体如图5所示，第一行是生成字在时间轴上的位置，第二行是根据字时长生成的音素时长。

一示例中，上述乐谱信息中包括标注信息；该标注信息至少包括：歌词标注、音符时值标注、目标歌手编号。除此之外，还可以包括：音高标注。根据该标注信息训练上述第一时长确定模型和上述第二时长确定模型，以生成符合目标歌手演唱特点和发音习惯的歌词中每个字及字内部每个音素的目标起止时间。

第四步中，根据每个字的时长边界、及该字内部每个音素的时长进行合成处理，得到合成后的歌曲或歌声。

第五步，根据每个人不同的发声状态、和/或语言习惯，对该目标对象进行优化，得到优化后的合成歌曲或歌声。

采用本应用示例，提高了音素时长信息的准确性，使生成歌曲的节奏更符合乐谱上的标记信息，使得发声状态更接近歌手的自身特点，使合成的歌声更为自然。

根据本申请的实施例，提供了一种信息处理装置，图6是根据本申请实施例的信息处理装置的组成结构示意图，如图6所示，包括：乐谱获取模块 61，用于获取待处理对象对应的乐谱信息；时长获取模块62，用于根据该乐谱信息，得到构成该待处理对象的每个字的时长边界；音素时长获取模块63，用于根据每个字的时长边界，得到构成每个字的字内部每个音素的时长；合成处理模块64，用于根据每个字的时长边界、及该字内部每个音素的时长进行合成处理，得到目标对象。

根据本申请的实施例，提供了一种信息处理装置，图7是根据本申请实施例的又一信息处理装置的组成结构示意图，如图7所示，该装置还包括：优化模块65，用于根据每个人不同的发声状态、和/或语言习惯，对该目标对象进行优化，得到优化后的目标对象。

一实施方式中，该时长获取模块，用于：将该待处理对象，输入基于该乐谱信息预先训练好的第一时长确定模型，得到每个字对应的第一目标起止时间，将该第一目标起止时间作为每个字的时长边界。

一实施方式中，该音素时长获取模块，用于：将该每个字的时长边界，输入基于该乐谱信息预先训练好的第二时长确定模型，得到该字内部每个音素对应的第二目标起止时间，将该第二目标起止时间作为该字内部每个音素的时长。

一实施方式中，该时长获取模块，还用于：提取该待处理对象的文本特征，将该文本特征输入该第一时长确定模型；根据该第一时长确定模型预测该每个字对应的实际发声边界与该乐谱信息上标记时间的差值；根据该差值，得到该第一目标起止时间。

一实施方式中，该音素时长获取模块，还用于：将该每个字拆解为字内部的每个音素；将该每个字的时长边界输入该第二时长确定模型，结合该字内部的每个音素，根据该第二时长确定模型预测该字内部的每个音素对应分配的时间；根据该字内部的每个音素对应分配的时间，得到该第二目标起止时间。

一实施方式中，该乐谱信息中包括标注信息，标注信息进一步包括：歌词标注、音高标注、音符时值标注、目标歌手编号中的至少一种信息。

本申请实施例各装置中的各模块的功能可以参见上述方法中的对应描述，在此不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图8所示，是用来实现本申请实施例的信息处理方法的电子设备的框图。该电子设备可以为前述部署设备或代理设备。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图8所示，该电子设备包括：一个或多个处理器801、存储器802，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示 GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/ 或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图8中以一个处理器801为例。

存储器802即为本申请所提供的非瞬时计算机可读存储介质。其中，该存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的信息处理方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的信息处理方法。

存储器802作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的信息处理方法对应的程序指令/模块(例如，附图7所示的乐谱获取模块、时长获取模块、音素时长获取模块、合成处理模块和优化模块等)。处理器801通过运行存储在存储器802中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的信息处理方法。

存储器802可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器802可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器802可选包括相对于处理器801远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

信息处理方法的电子设备，还可以包括：输入装置803和输出装置804。处理器801、存储器802、输入装置803和输出装置804可以通过总线或者其他方式连接，图8中以通过总线连接为例。

输入装置803可接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置804可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/ 或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质” 和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管) 或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种信息处理方法，其特征在于，所述方法包括：

获取待处理对象对应的乐谱信息；

根据所述乐谱信息，得到构成所述待处理对象的每个字的时长边界；

根据所述每个字的时长边界，得到构成所述每个字的字内部每个音素的时长；

根据所述每个字的时长边界、及所述字内部每个音素的时长进行合成处理，得到目标对象。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据每个人不同的发声状态、和/或语言习惯，对所述目标对象进行优化，得到优化后的目标对象。

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述乐谱信息，得到构成所述待处理对象的每个字的时长边界，包括：

将所述待处理对象，输入基于所述乐谱信息预先训练好的第一时长确定模型，得到所述每个字对应的第一目标起止时间，将所述第一目标起止时间作为所述每个字的时长边界。

4.根据权利要求3所述的方法，其特征在于，所述根据所述每个字的时长边界，得到构成所述每个字的字内部每个音素的时长，包括：

将所述每个字的时长边界，输入基于所述乐谱信息预先训练好的第二时长确定模型，得到所述字内部每个音素对应的第二目标起止时间，将所述第二目标起止时间作为所述字内部每个音素的时长。

5.根据权利要求4所述的方法，其特征在于，所述将所述待处理对象，输入基于所述乐谱信息预先训练好的第一时长确定模型，得到所述每个字对应的第一目标起止时间，包括：

提取所述待处理对象的文本特征，将所述文本特征输入所述第一时长确定模型；

根据所述第一时长确定模型预测所述每个字对应的实际发声边界与所述乐谱信息上标记时间的差值；

根据所述差值，得到所述第一目标起止时间。

6.根据权利要求4所述的方法，其特征在于，所述将所述每个字的时长边界，输入基于所述乐谱信息预先训练好的第二时长确定模型，得到所述字内部每个音素对应的第二目标起止时间，包括：

将所述每个字拆解为字内部的每个音素；

将所述每个字的时长边界输入所述第二时长确定模型，结合所述字内部的每个音素，根据所述第二时长确定模型预测所述字内部的每个音素对应分配的时间；

根据所述字内部的每个音素对应分配的时间，得到所述第二目标起止时间。

7.根据权利要求4所述的方法，其特征在于，所述乐谱信息中包括标注信息；

所述标注信息至少包括：歌词标注、音符时值标注、目标歌手编号。

8.一种信息处理装置，其特征在于，所述装置包括：

乐谱获取模块，用于获取待处理对象对应的乐谱信息；

时长获取模块，用于根据所述乐谱信息，得到构成所述待处理对象的每个字的时长边界；

音素时长获取模块，用于根据所述每个字的时长边界，得到构成所述每个字的字内部每个音素的时长；

合成处理模块，用于根据所述每个字的时长边界、及所述字内部每个音素的时长进行合成处理，得到目标对象。

9.根据权利要求8所述的装置，其特征在于，还包括：

优化模块，用于根据每个人不同的发声状态、和/或语言习惯，对所述目标对象进行优化，得到优化后的目标对象。

10.根据权利要求8或9所述的装置，其特征在于，所述时长获取模块，用于：

11.根据权利要求10所述的装置，其特征在于，所述音素时长获取模块，用于：

12.根据权利要求11所述的装置，其特征在于，所述时长获取模块，还用于：

根据所述差值，得到所述第一目标起止时间。

13.根据权利要求11所述的装置，其特征在于，所述音素时长获取模块，还用于：

将所述每个字拆解为字内部的每个音素；

14.根据权利要求11所述的装置，其特征在于，所述乐谱信息中包括标注信息；

15.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的方法。