CN113436591B

CN113436591B - 音高信息生成方法、装置、计算机设备及存储介质

Info

Publication number: CN113436591B
Application number: CN202110702789.5A
Authority: CN
Inventors: 劳振锋; 陈传艺; 孙洪文; 关迪聆
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2021-06-24
Filing date: 2021-06-24
Publication date: 2023-11-17
Anticipated expiration: 2041-06-24
Also published as: CN113436591A

Abstract

本申请关于一种音高信息生成方法、装置、计算机设备及存储介质，涉及计算机技术领域。所述方法包括：获取目标乐谱，该目标乐谱中包含曲调信息以及文字发音信息；基于曲调信息以及文字发音信息，获取目标乐谱的综合特征向量集合；对综合特征向量集合进行解码，生成目标乐谱对应的音高信息；通过上述方法使得在进行乐谱模拟演唱的过程中，充分利用了乐谱中的有效信息，提高了乐谱的信息利用率，同时，在模拟乐谱演唱时，通过引入文字发音信息，使得模拟音高更加接近人声，提高了对乐谱的模拟效果。

Description

音高信息生成方法、装置、计算机设备及存储介质

技术领域

本申请涉及计算机技术领域，特别涉及音高信息生成方法、装置、计算机设备及存储介质。

背景技术

乐谱是一种用于记录音高的文本方法，通过乐谱可以获取到音乐的演奏方式或演唱方式，随着科学技术的发展，对乐谱进行模拟演唱的需求应运而生。

在相关技术中，为了实现对乐谱的模拟演唱，通常采用对乐谱中的音符进行滤波或者正弦波变换的方式来模拟真实的音高，并基于模拟的音高来实现对乐谱的模拟演唱。

发明人在实现本申请的过程中发现，通过对音符进行滤波或者进行正弦波变换的方式来模拟真实的音高的方法，对乐谱信息的利用率较低，导致对乐谱的模拟演唱较为机械，模拟效果较差。

发明内容

本申请实施例提供了一种音高信息生成方法、装置、计算机设备及存储介质，可以提高对乐谱的模拟演唱效果，使得对乐谱的模拟演唱更加接近人声，该技术方案如下：

一方面，提供了一种音高信息生成方法，所述方法包括：

获取目标乐谱，所述目标乐谱中包含曲调信息以及文字发音信息；

基于所述曲调信息以及所述文字发音信息，获取所述目标乐谱的综合特征向量集合；所述综合特征向量集合用以表征所述曲调信息的特征以及所述文字发音信息的特征；

对所述综合特征向量集合进行解码，生成所述目标乐谱对应的音高信息。

在一种可能的实现方式中，所述基于所述曲调信息以及所述文字发音信息，获得所述目标乐谱的综合特征向量集合，包括：

提取所述目标乐谱的曲调特征向量集合；所述曲调特征向量集合是基于所述曲调信息提取的特征向量的集合；

提取所述目标乐谱的发音特征向量集合；所述发音特征向量集合是基于所述文字发音信息提取的特征向量的集合；

分别对所述曲调特征向量集合以及所述发音特征向量集合进行编码，获得编码后的所述曲调特征向量集合以及编码后的所述发音特征向量集合；

基于编码后的所述曲调特征向量集合，以及编码后的所述发音特征向量集合，获得所述目标乐谱的综合特征向量集合。

在一种可能的实现方式中，所述基于编码后的所述曲调特征向量集合，以及编码后的所述发音特征向量集合，获得所述目标乐谱的综合特征向量集合，包括：

对编码后的所述曲调特征向量集合进行帧扩展处理，获得第一向量集合；

对编码后的所述发音特征向量集合进行帧扩展处理，获得第二向量集合；

对所述第一向量集合以及所述第二向量集合进行拼接，获得所述综合特征向量集合。

在一种可能的实现方式中，所述对编码后的所述曲调特征向量集合进行帧扩展处理，获得第一向量集合，包括：

获取目标曲调对应的第一持续时长，所述目标曲调是所述曲调信息中的任意一个曲调；

基于所述第一持续时长，对目标曲调特征向量进行帧扩展处理，获得所述目标曲调特征向量对应的第一向量；所述目标曲调特征向量是编码后的所述曲调特征向量集合中，所述目标曲调对应的编码后的曲调特征向量。

在一种可能的实现方式中，所述基于所述第一持续时长，对目标曲调特征向量进行帧扩展处理，获得所述目标曲调特征向量对应的第一向量，包括：

基于所述第一持续时长，以及第一时间间隔，获取帧扩展后的所述目标曲调向量的第一帧数；

基于所述第一帧数，对所述目标曲调向量进行帧扩展处理，获得所述目标曲调特征向量对应的所述第一向量。

在一种可能的实现方式中，所述对编码后的所述发音特征向量集合进行帧扩展处理，获得第二向量集合，包括：

获取目标文字发音信息对应的第二持续时长，所述目标文字发音信息是所述文字发音信息中的任意一个文字发音；

基于所述第二持续时长，对目标发音特征向量进行帧扩展处理，获得所述目标发音特征向量对应的第二向量；所述目标发音特征向量是编码后的所述发音特征向量集合中，对应于所述目标文字发音信息的编码后的发音特征向量。

在一种可能的实现方式中，所述基于所述第二持续时长，对目标发音特征向量进行帧扩展处理，获得所述目标发音特征向量对应的第二向量，包括：

基于所述第二持续时长，以及第二时间间隔，获取帧扩展后的所述目标发音特征向量的第二帧数；

基于所述第二帧数，对所述目标发音向量进行帧扩展处理，获得所述目标发音向量对应的所述第二向量。

在一种可能的实现方式中，所述获取目标乐谱，包括：

获取原始乐谱，所述原始乐谱中包含所述曲调信息以及文字信息；

对所述文字信息进行文字发音标注，获得包含所述文字发音信息的所述目标乐谱。

在一种可能的实现方式中，所述分别对所述曲调特征向量集合以及所述发音特征向量集合进行编码，获得编码后的所述曲调特征向量集合以及编码后的所述发音特征向量集合，包括：

将所述曲调特征向量集合以及所述发音特征向量集合输入音高信息生成模型中的编码器，获得所述编码器输出的编码后的所述曲调特征向量集合以及编码后的所述发音特征向量集合；

所述对所述综合特征向量集合进行解码，生成所述目标乐谱对应的音高信息，包括：

将所述综合特征向量集合输入所述音高信息生成模型中的解码器，获得所述解码器输出的所述目标乐谱对应的所述音高信息；

其中，所述音高信息生成模型是通过样本乐谱，以及所述样本乐谱对应的音高信息标签训练生成的，所述样本乐谱包含样本曲调信息以及样本文字发音信息。

另一方面，提供了一种音高生成装置，所述装置包括：

目标乐谱获取模块，用于获取目标乐谱，所述目标乐谱中包含曲调信息以及文字发音信息；

综合特征获取模块，用于基于所述曲调信息以及所述文字发音信息，获取所述目标乐谱的综合特征向量集合；所述综合特征向量集合用以表征所述曲调信息的特征以及所述文字发音信息的特征；

音高信息生成模块，用于对所述综合特征向量集合进行解码，生成所述目标乐谱对应的音高信息。

在一种可能的实现方式中，所述综合特征获取模块，包括：

曲调特征提取子模块，用于提取所述目标乐谱的曲调特征向量集合；所述曲调特征向量集合是基于所述曲调信息提取的特征向量的集合；

发音特征提取子模块，用于提取所述目标乐谱的发音特征向量集合；所述发音特征向量集合是基于所述文字发音信息提取的特征向量的集合；

编码子模块，用于分别对所述曲调特征向量集合以及所述发音特征向量集合进行编码，获得编码后的所述曲调特征向量集合以及编码后的所述发音特征向量集合；

综合特征获取子模块，用于基于编码后的所述曲调特征向量集合，以及编码后的所述发音特征向量集合，获得所述目标乐谱的综合特征向量集合。

在一种可能的实现方式中，所述综合特征获取子模块，包括：

第一帧扩展单元，用于对编码后的所述曲调特征向量集合进行帧扩展处理，获得第一向量集合；

第二帧扩展单元，用于对编码后的所述发音特征向量集合进行帧扩展处理，获得第二向量集合；

拼接单元对所述第一向量集合以及所述第二向量集合进行拼接，获得所述综合特征向量集合。

在一种可能的实现方式中，所述第一帧扩展单元，包括：

第一持续时长获取子单元，用于获取目标曲调对应的第一持续时长，所述目标曲调是所述曲调信息中的任意一个曲调；

第一帧扩展子单元，用于基于所述第一持续时长，对目标曲调特征向量进行帧扩展处理，获得所述目标曲调特征向量对应的第一向量；所述目标曲调特征向量是编码后的所述曲调特征向量集合中，所述目标曲调对应的编码后的曲调特征向量。

在一种可能的实现方式中，所述第一帧扩展子单元，用于基于所述第一持续时长，以及第一时间间隔，获取帧扩展后的所述目标曲调向量的第一帧数；

在一种可能的实现方式中，所述第二帧扩展单元，包括：

第二持续时长获取子单元，用于获取目标文字发音信息对应的第二持续时长，所述目标文字发音信息是所述文字发音信息中的任意一个文字发音；

第二帧扩展子单元，用于基于所述第二持续时长，对目标发音特征向量进行帧扩展处理，获得所述目标发音特征向量对应的第二向量；所述目标发音特征向量是编码后的所述发音特征向量集合中，对应于所述目标文字发音信息的编码后的发音特征向量。

在一种可能的实现方式中，所述第二帧扩展子单元，用于基于所述第二持续时长，以及第二时间间隔，获取帧扩展后的所述目标发音特征向量的第二帧数；

在一种可能的实现方式中，所述目标乐谱获取模块，包括：

原始乐谱获取子模块，用于获取原始乐谱，所述原始乐谱中包含所述曲调信息以及文字信息；

预处理子模块，用于对所述原始乐谱进行预处理，获得所述目标乐谱，所述预处理包括对所述文字信息进行文字发音标注，以及对所述曲调信息进行曲调信息标注中的至少一种。

在一种可能的实现方式中，所述编码子模块，用于将所述曲调特征向量集合以及所述发音特征向量集合输入音高信息生成模型中的编码器，获得所述编码器输出的编码后的所述曲调特征向量集合以及编码后的所述发音特征向量集合；

所述音高信息生成模块，用于将所述综合特征向量集合输入所述音高信息生成模型中的解码器，获得所述解码器输出的所述目标乐谱对应的所述音高信息；

其中，所述音高信息生成模型是基于样本乐谱，以及所述样本乐谱对应的音高信息标签训练生成的，所述样本乐谱包含样本曲调信息以及样本文字发音信息。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储由至少一条计算机指令，所述至少一条计算机指令由所述处理器加载并执行以实现上述音高信息生成方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条计算机指令，所述至少计算机一条指令由处理器加载并执行以实现上述音高信息生成方法。

另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的音高信息生成方法。

本申请提供的技术方案可以包括以下有益效果：

通过获取乐谱中的曲调信息以及文字发音信息，综合曲调信息以及文字发音信息提取乐谱中的综合特征向量集合，并基于该综合特征向量集合解码获得乐谱对应的模拟音高，从而实现对乐谱的模拟演唱；在上述进行乐谱模拟演唱的过程中，充分利用了乐谱中的有效信息，提高了乐谱的信息利用率，同时，在模拟乐谱演唱时，通过引入文字发音信息，使得模拟音高更加接近人声，提高了对乐谱的模拟效果。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1示出了本申请一示例性实施例提供的音高信息生成方法对应的系统架构的示意图；

图2示出了本申请一示例性实施例提供的音高信息生成方法的流程图；

图3是根据一示例性实施例示出的一种模型训练阶段和音高信息生成阶段的框架图；

图4示出了本申请一示例性实施例提供的音高信息生成模型的训练方法的流程图；

图5示出了本申请一示例性实施例提供的音高信息生成方法的流程图；

图6示出了本申请一示例性实施例示出的音高信息生成装置的方框图；

图7示出了本申请一示例性实施例示出的音高生成过程的示意图；

图8是根据一示例性实施例示出的计算机设备的结构框图；

图9是根据一示例性实施例示出的计算机设备的结构框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

乐谱是一种包含文字信息和曲调信息的文本，用以指导歌曲演奏或者歌曲演唱，为实现对乐谱的模拟演唱，需要获取乐谱对应的音高信息，本申请实施例提供了一种音高信息获取方法，用以提高对乐谱的模拟演唱效果。图1示出了本申请一示例性实施例提供的音高信息生成方法对应的系统架构的示意图，如图1所示，该系统包括服务器110以及终端120。

其中，上述服务器110可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。

上述终端120可以是具有图像显示功能或者音频播放功能的终端设备，比如，终端120可以是智能手机、平板电脑、电子书阅读器、智能眼镜、智能手表、智能电视、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

可选的，上述系统中包含一个或者多个服务器110，以及多个终端120。本申请实施例对于服务器110和终端120的个数不做限制。

终端以及服务器通过通信网络相连。可选的，通信网络是有线网络或无线网络。

可选的，上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络，包括但不限于局域网(Local Area Network，LAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。在一些实施例中，使用包括超文本标记语言(Hyper Text Mark-up Language，HTML)、可扩展标记语言(Extensible MarkupLanguage，XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure Socket Layer，SSL)、传输层安全(Transport Layer Security，TLS)、虚拟专用网络(Virtual Private Network，VPN)、网际协议安全(Internet ProtocolSecurity，IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中，还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。本申请在此不做限制。

图2示出了本申请一示例性实施例提供的音高信息生成方法的流程图，该方法可以由计算机设备执行，该计算机设备可以实现为终端或者服务器，该终端或者服务器可以是图1所示的终端或服务器，如图2所示，该音高信息生成方法可以包括以下步骤：

步骤210，获取目标乐谱，该目标乐谱中包含曲调信息以及文字发音信息。

其中，该曲调信息可以实现为音符形式，或者，该曲调信息也可以实现为简谱形式，或者，该曲调信息还可以实现为对应于指定乐器的指法形式，用以指示该乐谱对应的歌曲的演唱旋律。

该文字发音信息用以指示当前乐谱中包含的文字信息的发音方式，对应于不同的文字信息，可以有不同的文字发音信息；该文字信息可以表现为不同语言的文字，比如中文中的汉字，英文中的英语单词，日文中的日语词汇等等。示意性的，对应于中文对应的文字发音信息可以是拼音信息，英文对应的文字发音信息可以是音标信息，日文对应的文字发音信息可以是平假名和片假名信息等。

步骤220，基于曲调信息以及文字发音信息，获取目标乐谱的综合特征向量集合。

该综合特征向量集合用以表征曲调信息的特征以及文字发音信息的特征。

步骤230，对综合特征向量集合进行解码，生成目标乐谱对应的音高信息。

基于该音高信息可以实现对目标乐谱的模拟演唱，且由于该音高信息是基于曲调信息和文字发音信息获得的综合特征向量集合获取的，因此，解码获得的音高信息更加贴近人声演唱的音高，从而使得对目标乐谱的模拟演唱效果更好。

综上所述，本申请实施例提供的音高信息生成方法，通过获取乐谱中的曲调信息以及文字发音信息，综合曲调信息以及文字发音信息提取乐谱中的综合特征向量集合，并基于该综合特征向量集合解码获得乐谱对应的模拟音高，从而实现对乐谱的模拟演唱；在上述进行乐谱模拟演唱的过程中，充分利用了乐谱中的有效信息，提高了乐谱的信息利用率，同时，在模拟乐谱演唱时，通过引入文字发音信息，使得模拟音高更加接近人声，提高了对乐谱的模拟效果。

示意性的，本申请实施例的音高信息生成方法可以应用且不限于以下场景中：

1)计算机辅助用户进行歌曲演唱的场景；

乐谱具有一定的专业性，需要一定的专业知识才能准确的进行识谱和演唱，对于非专业人员而言，基于乐谱完成演奏或演唱存在一定的困难；在这种情况下，可以利用本申请的音高信息生成方法获取当前待演唱乐谱的音高信息，以完成对当前乐谱的模拟演唱，由于在音高消息的生成过程中，综合了乐谱中的曲调信息以及文字发音信息，因此，基于该音高信息获得的模拟演唱更加贴合人声信息，从而为非专业用户提供识谱辅助或者演唱辅助。

2)虚拟人物演唱场景；

由于科学技术的发展，“虚拟偶像”应运而生，虚拟人物需要具有说话，唱歌，跳舞等一系列能力，对于唱歌这项能力而言，可以基于本申请提供的音高信息生成方法，完成虚拟人物对乐谱的演唱，由于在音高消息的生成过程中，综合了乐谱中的曲调信息以及文字发音信息，使得虚拟人物对乐谱的演唱效果更加接近与真人演唱，从而提高了虚拟人物的演唱效果。

本申请涉及的方案包括模型训练阶段和音高信息生成阶段。图3是根据一示例性实施例示出的一种模型训练阶段和音高信息生成阶段的框架图，如图3所示，在模型训练阶段，模型训练设备310，通过预先设置好的训练样本(包括样本乐谱以及样本乐谱对应的音高信息标签)，得到音高信息生成模型，该音高信息生成模型包括特征提取网络，编码器，帧扩展网络以及解码器。在音高信息生成阶段，音高信息生成设备320基于该音高信息生成模型，对输入的目标乐谱进行处理，获得目标乐谱对应的音高信息。

其中，上述模型训练设备310和音高信息生成设备320可以是计算机设备，比如，该计算机设备可以是个人电脑、服务器等固定式计算机设备，或者，该计算机设备也可以是平板电脑、电子书阅读器等移动式计算机设备。

可选的，上述模型训练设备310和音高信息生成设备320可以是同一个设备，或者，模型训练设备310和音高信息生成设备320也可以是不同的设备。并且，当模型训练设备310和音高信息生成设备320是不同的设备时，模型训练设备310和音高信息生成设备320可以是同一类型的设备，比如模型训练设备310和音高信息生成设备320可以都是服务器；或者，模型训练设备310和音高信息生成设备320也可以是不同类型的设备，比如音高信息生成设备320可以是个人电脑或者终端，而模型训练设备310可以是服务器等。本申请实施例对于模型训练设备310和音高信息生成设备320的具体类型不做限定。

图4示出了本申请一示例性实施例提供的音高信息生成模型的训练方法的流程图，该方法可以由计算机设备执行，该计算机设备可以实现为终端或服务器，该终端或服务器可以是图1所示的终端或服务器，如图4所示，该音高信息生成模型的训练方法包括以下步骤：

步骤410，获取样本乐谱集，该样本乐谱集包括至少两个样本乐谱以及该至少两个样本乐谱分别对应的音高信息标签。

其中，样本乐谱对应的音高信息标签可以是相关人员从不同演唱者对样本乐谱的演唱音频中提取的音高信息，由于不同的演唱者具有不同的演唱方式，演唱习惯或者演唱技巧，一个样本乐谱对应于一个演唱者具有一个音高信息标签，因此，当样本乐谱由不同演唱者进行演唱时，同一样本乐谱可以对应有多个不同的音高信息标签，该音高信息标签包含该样本乐谱在各个时间点上的音高信息。

样本乐谱中包含样本曲调信息以及样本文字发音信息，该样本乐谱中的样本曲调信息以及样本文字发音信息可以是基于对样本乐谱对应的原始乐谱进行预处理之后获得的，其中，该样本文字发音信息是对样本乐谱对应的原始乐谱中的文字信息进行文字发音标注之后获得的，该样本文字发音信息可以是对应于不同演唱者对样本乐谱的演唱方式进行标注的，比如，当演唱者通过闽南语对样本乐谱进行演唱，那么该样本乐谱对应的样本文字发音信息为对应于闽南语的文字发音标注。

在另一种可能的实现方式中，该样本乐谱可以是基于演唱者的演唱音频进行曲调标注和文字发音标注生成的，通过对该演唱音频进行音高信息提取，获得该样本乐谱对应的音高信息标签，在此情况下，由于对应于一个演唱音频可以获得一个样本乐谱，基于一个演唱音频可以获得一组音高信息(音高信息标签)，因此，样本乐谱与音高信息标签是一一对应的。

需要说明的是，在本申请实施例中，该样本乐谱可以是以文本或图片形式表示的乐谱，或者，该样本乐谱也可以是基于已有的音频进行曲调标注和文字发音标注之后生成的，本申请对样本乐谱的获取方式不进行限制。

步骤420，基于样本乐谱集进行训练，获得音高信息生成模型。

该音高信息生成模型可以包括特征提取网络，编码器，帧扩展网络以及解码器。该特征提取网络用于基于样本乐谱的样本曲调信息，获得样本乐谱的曲调特征向量集合，还用于基于样本乐谱的样本文字发音信息，获得样本乐谱的发音特征向量集合；该编码器用于对样本乐谱对应的曲调特征向量集合以及发音特征向量集合进行编码；该帧扩展网络用于对编码后的曲调特征向量集合，以及编码后的发音特征向量进行帧扩展处理，以获得对应于各个时间帧的曲调特征向量以及对应于各个时间帧的发音特征向量，并对帧扩展处理后的曲调特征向量集合以及帧扩展处理后的发音特征向量集合进行拼接，获得样本乐谱的综合特征向量集合；该解码器用于对综合特征向量集合进行解码，获得样本乐谱对应的预测音高信息。

其中，帧扩展处理用以指示基于各个特征向量(包括曲调特征向量以及发音特征向量)对应的时间帧，对各个特征向量进行复制，以增加特征向量的数量，强化特征向量与时间帧的对应关系；或者，该帧扩展处理用以指示按照各个特征向量对应的时间长度的时间帧数量，对各个特征向量进行复制，以使得在时间长度内得的各个时间帧均具有对应的特征向量。

由于需要使得音高信息生成模型基于样本乐谱的输出结果(即预测音高信息)与样本乐谱对应的音高信息标签相近，才可以保证音高信息生成模型在应用时生成的目标乐谱的音高信息的准确性，因此，需要在音高信息生成模型的训练过程中进行多次训练，更新音高信息生成模型中包含的各个网络(包括编码器和解码器，可选的，还可以包括特征提取网络以及帧扩展网络)中的各个参数，直至音高信息生成模型收敛。

在一种可能的实现方式中，可以基于各个样本乐谱对应的预测音高信息与各个样本乐谱对应的音高信息标签，计算损失函数值；

基于损失函数值，对音高信息生成模型进行参数更新。

综上所述，本申请实施例提供的音高信息生成模型的训练方法，通过基于样本乐谱集训练获得包含特征提取网络，编码器，帧扩展网络以及解码器的音高信息生成模型，使得在基于目标乐谱生成音高信息的过程中，可以利用该音高信息生成模型，基于目标乐谱的曲调信息和文字发音信息的综合效果获得更加接近人声的音高信息，从而提高了对乐谱的模拟效果。

图5示出了本申请一示例性实施例提供的音高信息生成方法的流程图，该方法可以由计算机设备执行，该计算机设备可以实现为终端或者服务器，该终端或者服务器可以是图1所示的终端或服务器，如图5所示，该音高信息生成方法可以包括以下步骤：

步骤510，获取目标乐谱，该目标乐谱中包含曲调信息以及文字发音信息。

在一种可能的实现方式中，该目标乐谱是基于原始乐谱生成的。

原始乐谱可以是以文本或图片表示的乐谱，因此，在获得原始乐谱之后，需要对原始乐谱进行预处理，以获得目标乐谱，该过程可以实现为：

获取原始乐谱，该原始乐谱中包含曲调信息以及文字信息；

对原始乐谱进行预处理，获得目标乐谱，该预处理包括对文字信息进行文字发音标注。

其中，当原始乐谱以文本形式存在时，对原始乐谱进行预处理的过程可以实现为：对原始乐谱中的文字信息进行文字发音标注，获得文字发音信息；目标乐谱中的曲调信息即为原始乐谱中的曲调信息。

当该原始乐谱以图片形式存在时，对原始乐谱的预处理过程可以实现为：对原始乐谱进行曲调信息识别和文字信息识别，获得曲调信息以及文字信息；对文字信息进行文字发音信息标注，获得文字发音信息；将识别获得的曲调信息获取为目标乐谱的曲调信息。

其中，该文字发音标注可以是基于实际需求标注的人声发音，示意性的，对于中文而言，同一词语或同一个字在不同地区的发音方式不同，比如，同一词语的闽南话发音与普通话发音之间存在较大的发音差距；对于英文而言，同一单词可以具有美式发音以及英式发音的区别等等，因此，在进行文字发音标注时，相关用户可以基于实际需求，对文字信息进行不同的文字发音标注。

在一种可能的实现方式中，可以人为进行文字发音标注，或者，也可以基于文字发音标注模型进行文字发音标注，该文字发音标注模型是基于样本文字信息以及样本文字信息对应的文字发音标签训练获得的机器学习模型；本申请对进行文字发音标注的方式不进行限制。

在另一种可能的实现方式中，该目标乐谱是基于原始音频生成的；在此情况下，需要对原始音频进行预处理，以获得该目标乐谱。

其中，对原始音频进行预处理的过程包括：

获取原始音频；

基于该原始音频进行曲调标注和文字发音标注，获得该目标乐谱。

步骤520，提取目标乐谱的曲调特征向量集合；该曲调特征向量集合是基于曲调信息提取的特征向量的集合。

在本申请实施例中，获取目标乐谱的综合特征向量集合，以及生成目标乐谱对应的音高信息的过程可以通过音高信息生成模型实现，其中，该音高信息生成模型是基于样本乐谱，以及样本乐谱对应的音高信息标签训练生成的，该音高信息生成模型可以包括特征提取网络，编码器，帧扩展网络以及解码器。比如，该音高信息生成模型可以是通过上述图4所示实施例中的方案训练生成的。

该曲调特征向量集合可以是音高信息生成模型中的特征提取网络对目标乐谱的曲调信息进行处理之后获得的。

步骤530，提取目标乐谱的发音特征向量集合；该发音特征向量集合是基于文字发音信息提取的特征向量的集合。

该发音特征向量集合可以是音高信息生成模型中的特征提取网络对目标乐谱的文字发音信息进行处理之后获得的。

步骤540，分别对曲调特征向量集合以及发音特征向量集合进行编码，获得编码后的曲调特征向量集合以及编码后的发音特征向量集合。

示意性的，将曲调特征向量集合以及发音特征向量集合输入音高信息生成模型中的编码器，获得编码器输出的编码后的曲调特征向量集合以及编码后的发音特征向量集合。

其中，该编码器可以实现为卷积神经网络。

步骤550，基于编码后的曲调特征向量集合，以及编码后的发音特征向量集合，获得目标乐谱的综合特征向量集合。

其中，获取目标乐谱的综合特征向量的过程可以实现为：

对编码后的曲调特征向量集合进行帧扩展处理，获得第一向量集合；

对编码后的发音特征向量集合进行帧扩展处理，获得第二向量集合；

对第一向量集合以及第二向量集合进行拼接，获得综合特征向量集合。

也就是说，该第一向量集合是指帧扩展后的曲调向量集合；该第二向量集合是指帧扩展后的发音特征向量集合。

其中，对第一向量集合以及第二向量集合进行拼接是指，将第一向量集合以及第二向量集合合并成一个向量集合，即综合特征向量集合。

在一种可能的实现方式中，在对第一向量集合以及第二向量集合进行拼接之前，可以为第一向量集合以及第二向量集合进行赋权操作，示意性的，为第一向量集合赋予第一权重，为第二向量集合赋予第二权重，也就是说，在第一向量集合乘以第一权重，第二向量集合乘以第二权重之后，对第一权重处理后的第一向量与第二权重处理后的第二权重进行拼接，获得该综合特征向量集合；其中，第一权重与第二权重可以相同，也可以不同，且第一权重的值与第二权重的值可以基于音高信息生成效果进行调节，以使得生成的音高信息更加符合需求。

或者，该第一权重的以及第二权重的值可以是在音高信息生成模型的训练过程中确定的值，也就是说，基于样本乐谱对应的预测音高信息与样本乐谱对应的音高信息标签计算获得的损失函数值，对第一权重值与第二权重值进行调节，以使得预测音高信息更加接近于音高信息标签。

以第一向量集合中的一个向量的获取过程为例，获取第一向量集合的过程可以实现为：

获取目标曲调对应的第一持续时长，该目标曲调是曲调信息中的任意一个曲调；

基于第一持续时长，对目标曲调特征向量进行帧扩展处理，获得目标曲调特征向量对应的第一向量；该目标曲调特征向量是编码后的曲调特征向量集合中，目标曲调对应的编码后的曲调特征向量。

该第一向量是目标曲调特征向量帧扩展后的曲调特征向量。

其中，基于第一持续时长，对目标曲调特征向量进行帧扩展处理，获得目标曲调特征向量对应的第一向量，包括：

基于第一持续时长，以及第一时间间隔，获取帧扩展后的目标曲调向量的第一帧数；

基于第一帧数，对目标曲调向量进行帧扩展处理，获得目标曲调特征向量对应的第一向量。

该第一时间间隔即为一个时间帧的长度，以乐谱中的曲调信息为音符信息为例，在乐谱中通常记载有音符以及该音符的持续时间，比如，一个全音符唱四拍，二分音符唱两拍，八分音符唱1/2拍，十六分音符唱1/4拍等，由于拍用以指示节奏信息，不携带时长信息，因此，需要基于节奏信息，以及指定的节拍时长，获得各个音符信息对应的第一持续时长。示意性的，假设指定的节拍时长为1s，即一拍的持续时长为1s，那么一个二分音符的持续时长为2s，一个八分音符的持续时长为0.5s。

在本申请实施例中，需要将各个音符与时间帧相对应，即各个时间帧上需要演唱哪个音符，因此，需要在获取到音符以及音符对应的持续时间后，对音符信息进行帧扩展，以使得各个时间帧与音符信息相对应，示意性的，音符信息为5，该音符信息的持续时长为100时间帧，那么对该音符信息进行帧扩展，会获得100个音符信息5，每个时间帧上对应有一个音符信息5，相适应的，该音符信息对应的曲调特征向量，也会扩展为100个。

以第二向量集合中的一个向量的获取过程为例，获取第二向量集合的过程实现为：

获取目标文字发音信息对应的第二持续时长，该目标文字发音信息是文字发音信息中的任意一个文字发音；

基于第二持续时长，对目标发音特征向量进行帧扩展处理，获得目标发音特征向量对应的第二向量；该目标发音特征向量是编码后的发音特征向量集合中，对应于目标文字发音信息的编码后的发音特征向量。

该第二向量是目标发音特征向量帧扩展后的发音特征向量。

其中，基于第二持续时长，对目标发音特征向量进行帧扩展处理，获得目标发音特征向量对应的第二向量，包括：基于第二持续时长，以及第二时间间隔，获取帧扩展后的目标发音特征向量的第二帧数；

基于第二帧数，对目标发音向量进行帧扩展处理，获得目标发音向量对应的第二向量。

其中，该第二时间间隔可以等于第一时间间隔。

对于文字发音而言，一个文字发音信息可能对应多个曲调信息，或者，一个曲调信息也可以对应多个文字发音信息，因此，目标文字发音信息的第二持续时长可以通过其与曲调信息的对应关系进行确定，示意性的，在目标乐谱中，一个文字信息对应于一个二分音符以及一个八分音符，这两个音符对应的音符信息不同，那么该文字信息对应的文字发音信息对应的第二持续时长为3/4拍对应的持续时长；对文字发音信息进行帧扩展的过程与对音符信息进行帧扩展的过程类似，最终使得每个时间帧上都有对应的文字发音信息，相适应的，每个时间帧上都有对应的发音特征向量。

步骤560，对综合特征向量集合进行解码，生成目标乐谱对应的音高信息。

利用音高信息生成模型中的解码器对综合特征向量集合进行解码，该过程包括：

将综合特征向量集合输入音高信息生成模型中的解码器，获得解码器输出的目标乐谱对应的音高信息。

该解码器可以实现为递归神经网络解码器，比如，LSTM(Long Short-TermMemory，长短期记忆网络)解码器。

图6示出了本申请一示例性实施例示出的音高信息生成装置的方框图，该音高信息生成装置包括：

目标乐谱获取模块610，用于获取目标乐谱，所述目标乐谱中包含曲调信息以及文字发音信息；

综合特征获取模块620，用于基于所述曲调信息以及所述文字发音信息，获取所述目标乐谱的综合特征向量集合；所述综合特征向量集合用以表征所述曲调信息的特征以及所述文字发音信息的特征；

音高信息生成模块630，用于对所述综合特征向量集合进行解码，生成所述目标乐谱对应的音高信息。

在一种可能的实现方式中，所述综合特征获取模块，包括：

第一帧扩展单元，用于对编码后的所述曲调特征向量集合进行帧扩展处理，获得第一向量集合，所述第一向量集合是指帧扩展后的所述曲调向量集合；

第二帧扩展单元，用于对编码后的所述发音特征向量集合进行帧扩展处理，获得第二向量集合，所述第二向量集合是指帧扩展后的所述发音特征向量集合；

在一种可能的实现方式中，所述第一帧扩展单元，包括：

在一种可能的实现方式中，所述第二帧扩展单元，包括：

在一种可能的实现方式中，所述目标乐谱获取模块，包括：

综上所述，本申请实施例提供的音高信息生成装置，通过获取乐谱中的曲调信息以及文字发音信息，综合曲调信息以及文字发音信息提取乐谱中的综合特征向量集合，并基于该综合特征向量集合解码获得乐谱对应的模拟音高，从而实现对乐谱的模拟演唱；在上述进行乐谱模拟演唱的过程中，充分利用了乐谱中的有效信息，提高了乐谱的信息利用率，同时，在模拟乐谱演唱时，通过引入文字发音信息，使得模拟音高更加接近人声，提高了对乐谱的模拟效果。

以本申请实施例提供的音高生成方法是基于音高信息生成模型实现的为例，图7示出了本申请一示例性实施例示出的音高生成过程的示意图，如图7所示，在获取到原始乐谱之后，通过对原始乐谱进行预处理获得目标乐谱，该目标乐谱中包含曲调信息以及文字发音信息，通过音高信息生成模型700中的特征提取网络701分别对曲调信息以及文字发音信息进行处理，获得曲调特征向量集合以及发音特征向量集合；通过编码器702对曲调特征向量集合以及发音特征向量集合进行编码之后，通过帧扩展网络703对编码后的曲调特征向量集合以及编码后的发音特征向量集合进行帧扩展，获得各个时间帧上对应的曲调特征向量以及发音特征向量，对帧扩展后的曲调特征向量集合以及发音特征向量集合进行拼接，获得该目标乐谱的综合特征向量集合；通过解码器704对综合特征向量集合进行解码处理，获得该目标乐谱对应的音高信息。

图8是根据一示例性实施例示出的计算机设备800的结构框图。该计算机设备800可以是图1所示的终端，比如智能手机、平板电脑或台式电脑。计算机设备800还可能被称为目标用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，计算机设备800包括有：处理器801和存储器802。

处理器801可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器801可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器801可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器801还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器802可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器802还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器802中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器801所执行以实现本申请中方法实施例提供的方法。

在一些实施例中，计算机设备800还可选包括有：外围设备接口803和至少一个外围设备。处理器801、存储器802和外围设备接口803之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口803相连。具体地，外围设备包括：射频电路804、显示屏805、摄像头组件806、音频电路807、定位组件808和电源809中的至少一种。

在一些实施例中，计算机设备800还包括有一个或多个传感器810。该一个或多个传感器810包括但不限于：加速度传感器811、陀螺仪传感器812、压力传感器813、指纹传感器814、光学传感器815以及接近传感器816。

本领域技术人员可以理解，图8中示出的结构并不构成对计算机设备800的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图9是根据一示例性实施例示出的计算机设备900的结构框图，该计算机设备可以实现为本申请上述方案中的服务器。所述计算机设备900包括中央处理单元(CentralProcessing Unit，CPU)901、包括随机存取存储器(Random Access Memory，RAM)902和只读存储器(Read-Only Memory，ROM)903的系统存储器904，以及连接系统存储器904和中央处理单元901的系统总线905。所述计算机设备900还包括用于存储操作系统909、应用程序910和其他程序模块911的大容量存储设备906。

所述大容量存储设备906通过连接到系统总线905的大容量存储控制器(未示出)连接到中央处理单元901。所述大容量存储设备906及其相关联的计算机可读介质为计算机设备900提供非易失性存储。也就是说，所述大容量存储设备906可以包括诸如硬盘或者只读光盘(Compact Disc Read-Only Memory，CD-ROM)驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读寄存器(Erasable Programmable Read Only Memory，EPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-OnlyMemory，EEPROM)闪存或其他固态存储设备，CD-ROM、数字多功能光盘(Digital VersatileDisc，DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器904和大容量存储设备906可以统称为存储器。

根据本公开的各种实施例，所述计算机设备900还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备900可以通过连接在所述系统总线905上的网络接口单元907连接到网络908，或者说，也可以使用网络接口单元907来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集存储于存储器中，中央处理单元901通过执行该至少一条指令、至少一段程序、代码集或指令集来实现上述各个实施例所示的音高信息生成方法中的全部或者部分步骤。

在一示例性实施例中，本申请还提供了一种计算机可读存储介质，用于存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述音高信息生成方法中的全部或部分步骤。例如，该计算机可读存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

在一示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述图2、图4或图5任一实施例所示方法的全部或部分步骤。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种音高信息生成方法，其特征在于，所述方法包括：

提取所述目标乐谱的曲调特征向量集合，所述曲调特征向量集合是基于所述曲调信息提取的特征向量的集合；

提取所述目标乐谱的发音特征向量集合，所述发音特征向量集合是基于所述文字发音信息提取的特征向量的集合；

对所述第一向量集合以及所述第二向量集合进行拼接，获得所述目标乐谱的综合特征向量集合，所述综合特征向量集合用以表征所述曲调信息的特征以及所述文字发音信息的特征；

2.根据权利要求1所述的方法，其特征在于，所述对编码后的所述曲调特征向量集合进行帧扩展处理，获得第一向量集合，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述第一持续时长，对目标曲调特征向量进行帧扩展处理，获得所述目标曲调特征向量对应的第一向量，包括：

基于所述第一持续时长，以及第一时间间隔，获取帧扩展后的所述目标曲调特征向量的第一帧数；

基于所述第一帧数，对所述目标曲调特征向量进行帧扩展处理，获得所述目标曲调特征向量对应的所述第一向量。

4.根据权利要求1所述的方法，其特征在于，所述对编码后的所述发音特征向量集合进行帧扩展处理，获得第二向量集合，包括：

5.根据权利要求4所述的方法，其特征在于，所述基于所述第二持续时长，对目标发音特征向量进行帧扩展处理，获得所述目标发音特征向量对应的第二向量，包括：

基于所述第二帧数，对所述目标发音特征向量进行帧扩展处理，获得所述目标发音特征向量对应的所述第二向量。

6.根据权利要求1所述的方法，其特征在于，所述获取目标乐谱，包括：

对所述原始乐谱进行预处理，获得所述目标乐谱，所述预处理包括对所述文字信息进行文字发音标注。

7.根据权利要求1所述的方法，其特征在于，所述分别对所述曲调特征向量集合以及所述发音特征向量集合进行编码，获得编码后的所述曲调特征向量集合以及编码后的所述发音特征向量集合，包括：

8.一种音高生成装置，其特征在于，所述装置包括：

综合特征获取模块，用于提取所述目标乐谱的曲调特征向量集合，所述曲调特征向量集合是基于所述曲调信息提取的特征向量的集合；提取所述目标乐谱的发音特征向量集合，所述发音特征向量集合是基于所述文字发音信息提取的特征向量的集合；分别对所述曲调特征向量集合以及所述发音特征向量集合进行编码，获得编码后的所述曲调特征向量集合以及编码后的所述发音特征向量集合；对编码后的所述曲调特征向量集合进行帧扩展处理，获得第一向量集合；对编码后的所述发音特征向量集合进行帧扩展处理，获得第二向量集合；对所述第一向量集合以及所述第二向量集合进行拼接，获得所述目标乐谱的综合特征向量集合；所述综合特征向量集合用以表征所述曲调信息的特征以及所述文字发音信息的特征；

9.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器存储有至少一条计算机指令，所述至少一条计算机指令由所述处理器加载并执行以实现如权利要求1至7任一所述的音高信息生成方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条计算机指令，所述至少一条计算机指令由处理器加载并执行以实现如权利要求1至7任一所述的音高信息生成方法。