CN113035164A

CN113035164A - 歌声生成方法和装置、电子设备及存储介质

Info

Publication number: CN113035164A
Application number: CN202110209575.4A
Authority: CN
Inventors: 徐东
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2021-02-24
Filing date: 2021-02-24
Publication date: 2021-06-25

Abstract

本申请公开一种歌声生成方法，其包括：获取用户歌唱歌曲的干声；对所述干声进行变调处理和时间平移处理以获得对应所述干声的基础和声；根据环绕和声配置确定包括至少一个空间和声的环绕和声，所述空间和声由所述基础和声作空间变换处理得到，每个所述空间和声对应于一个空间位置；混合所述干声和所述环绕和声以生成所述歌曲的歌声。本发明实施例还公开一种歌声生成装置、电子设备及存储介质。

Description

歌声生成方法和装置、电子设备及存储介质

技术领域

本申请涉及计算机技术领域，具体地涉及一种歌声生成方法和装置。本申请还涉及相关的电子设备及存储介质。

背景技术

随着计算机、尤其是移动终端、如手机的广泛普及，使得大量用户能在唱歌平台或软件、如K歌应用程序中进行唱歌。当前的唱歌平台或软件会录制用户的干声，并将其与歌曲的伴奏混合，从而获得由用户歌唱的歌曲作品。提升用户歌唱的歌曲作品水准是提高唱歌平台或软件的满意度的关键因素。这也有助于唱歌平台或软件的所有者或内容提供商获得更大的影响力和竞争力。

因此，有必要研究歌声生成技术以提升唱歌平台或软件中的用户生成内容的质量，进而提高用户对唱歌平台或软件、K歌应用程序的满意度。

本背景技术描述的内容仅为了便于了解本领域的相关技术，不视作对现有技术的承认。

发明内容

因此，本发明实施例意图提供一种歌声生成方法和装置以及相关的电子设备和存储介质，其能够有效提高唱歌平台或软件中的用户生成内容的质量，进而提高用户对唱歌平台或软件的满意度。

根据第一方面，提供一种歌声生成方法，其包括：

获取用户歌唱歌曲的干声；

对所述干声进行变调处理和时间平移处理以获得对应所述干声的基础和声；

根据环绕和声配置确定包括至少一个空间和声的环绕和声，所述空间和声由所述基础和声作空间变换处理得到，每个所述空间和声对应于一个空间位置；

混合所述干声和所述环绕和声以生成所述歌曲的歌声。

根据本发明实施例所提出的方案，通过对用户录制的干声进行处理以获得与所述干声相对应的和声，由此可以让干声和和声混合后的歌声在听感上更好听，与此同时这种混声也更为和谐匹配，提升了用户的歌唱作品的好听程度，并且有可能提升了用户歌唱作品的专业感。在一些可选的实施例中，对干声进行的处理还可以获得具有环绕感的和声，使得用户歌唱的歌声在听感上更加饱满并且具有空间感。

根据第二方面，提供一种歌声生成装置，其包括：

获取单元，配置成获取用户歌唱歌曲的干声；

第一处理单元，配置成对所述干声进行变调处理和时间平移处理以获得对应所述干声的基础和声；

第二处理单元，配置成根据环绕和声配置确定包括至少一个空间和声的环绕和声，所述空间和声由所述基础和声作空间变换处理得到，每个所述空间和声对应于一个空间位置；

混合单元，配置成混合所述干声和所述环绕和声以生成所述歌曲的歌声。

根据第三方面，提供一种电子设备，其包括：处理器和存储有计算机程序的存储器，所述处理器被配置为在运行所述计算机程序时执行任一本发明实施例的歌声生成方法。

根据第四方面，提供一种存储介质，所述存储介质存储有计算机程序，所述计算机程序配置成被运行时执行任一本发明实施例的歌声生成方法。

在本发明的多个方面提供了和声、如环绕和声的生成技术以及相关的歌声生成方法、装置、电子设备及存储介质。这些方案可以通过对广大用户录制的原始干声进行变调、时间平移、空间变换处理等，获得对应的和声、例如具有变调、时间平移和环绕感的和声，能够使得用户的歌唱作品相比于不对干声进行处理的用户歌唱作品的听感更佳，提升用户发布作品的音乐感染力，从而有助于提升用户使用的满意度。

本发明实施例的其他可选特征和技术效果一部分在下文描述，一部分可通过阅读本文而明白。

附图说明

以下，结合附图来详细说明本发明的实施例，所示出的元件不受附图所显示的比例限制，附图中相同或相似的附图标记表示相同或类似的元件，其中：

图1示出了根据本发明实施例的歌声生成方法的第一示例性流程图；

图2示出了根据本发明实施例的歌声生成方法的第二示例性流程图；

图3示出了根据本发明实施例的歌声生成方法的第三示例性流程图；

图4示出了根据本发明实施例的歌声生成方法的第四示例性流程图；

图5示出了根据本发明实施例的歌声生成方法的第五示例性流程图；

图6示出了根据本发明实施例的歌声生成方法的第六示例性流程图；

图7示出了根据本发明实施例的歌声生成方法的第七示例性流程图；

图8示出了根据本发明实施例的歌声生成方法的第八示例性流程图；

图9示出了根据本发明实施例的歌声生成方法的第九示例性流程图；

图10A和图10B示出了根据本发明实施例的用于环绕和声配置的多个基准空间和声的布局示意图；

图11示出了根据本发明实施例的用于用户实时设置环绕和声配置的示意性用户界面(UI)；

图12示出了根据本发明实施例的歌曲推荐装置的结构示意图；

图13示出了能实施本发明实施例的电子设备的示例性结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合具体实施方式和附图，对本发明做进一步详细说明。在此，本发明的示意性实施方式及其说明用于解释本发明，但并不作为对本发明的限定。

在本发明实施例中，“干声”具有在音乐领域的常规含义，通常指无音乐的纯人声。在一些实施例中，干声可以与原声互换使用。

在本发明实施例中，“变调”通常指改变声音的音调。在本发明实施例中，“升调”具有在音乐领域的常规含义，通常指将声音的音调提高，在听感上表现为频率更高、更尖锐的声音。

在本发明实施例中，“和声”为一种乐理名词，并具有在音乐领域的常规含义。在本发明的一些实施例中，和声的存在可以让声音表现出更多的信息和美感。

在本发明实施例中，“环绕(感)”具有音乐领域的常规含义，这通常指相比于单声道和双耳立体声，环绕感声音能提供位于“空间”中的声音。在本发明的一些实施例中，环绕感能够使听众感受到至少一个、优选多个空间方位的声音，例如能感受到在水平面、垂直面或其他平面的声音。由此，环绕感声音能够给人以更加真实生动的临场听音感受。

本发明实施例提供一种歌声生成方法，其可包括获取用户歌唱歌曲的干声；对所述干声进行处理以获得对应所述干声的至少一个和声，所述处理包括变调处理、时间平移处理和空间变换处理中的至少一种；混合所述干声和所述至少一个和声以生成所述歌曲的歌声。

根据本发明实施例可以提供一种歌声生成方法，其可以由计算机、优选移动终端、例如手机实施。根据本发明实施例所述的方法可以是在一台或多台计算机实施的。在一个优选实施例中，本发明实施例的方法可以是在终端、如移动终端中实施的，具体可以由终端中的应用程序(APP)实施；所述应用程序(APP)优选可以包括但不限于唱歌应用(如K歌应用或直播应用)，或者是具有唱歌(K歌或直播)功能等的应用程序，或者是其他需要处理用户歌唱的歌曲的应用程序。在进一步优选实施例中，所述方法可以在终端的后台处理，也可以部分地在云端或服务端处理，后者处理效率高，运行速度快，从而可获得相应的技术和经济优势。除非特别说明，在本文中提及的由终端设备实施的方法、步骤、特征可以包括单纯由终端实施的实施例，也可以包括部分地由服务端或云端实施的实施例。在本发明的一些实施例中，所述方法可以在通用型的计算机中实施，包括但不限于如台式或笔记本式个人计算机(PC)、手机或平板电脑；也可以在专用的计算机设备中实施，例如街头唱歌机或迷你唱吧。

在图1所示的实施例中，所述歌声生成方法可包括：

S101：获取用户歌唱歌曲的干声；

在本发明实施例中，可以通过获取用户录制的干声音频，进行后续数据的处理。

在本发明实施例中，所述获取可以呈多种形式，包括实时或非实时获取，直接或非直接获取。

在一些实施例中，所述获取可以是实时的，例如由唱歌设备、软件或应用程序实时地获取用户使用这些设备、软件或应用程序录制的歌曲(干声)。例如，用户可以利用唱歌设备、如移动终端的麦克风录取用户歌唱的干声。在一些实施例中，所述获取是非实时的，例如由用户上传其歌唱的歌曲(干声)或从磁盘导入用户歌唱的歌曲(干声)。

在一些实施例中，所述获取可以是直接获取，例如直接得到用户歌唱歌曲的干声音频，用于后续的本发明实施例的用于生成歌声的处理。在一些实施例中，所述获取可以是间接获取，例如可以对含有用户干声声音的音频、视频文件进行分离、提取、格式转换、预处理、去噪等处理后用于后续的本发明实施例的用于生成歌声的处理。

在本发明的实施例中，干声音频是指用户录制的干声波形文件。在本发明实施例中所述的干声可以采用任何可行的音频格式，而不构成本发明的限制，优选为无损编码格式，包括但不限于MP3、WAV(Waveform Audio File Format)、FLAC、OGG等。

此外，由于广大用户并未经过专业录音训练，因此可以在获取干声时，提醒用户在录制干声时需要注意避免环境噪声、伴奏等声音的干扰，或采取其他手段避免这些干扰。例如，在实际录制过程中，在一些实施例中可以在用户界面显示避免干扰的提醒或者显示让用户能够更好地避免上述干扰的录制指示；或者在一些实施例中，可以对用户的录制进行定向获取或作收音处理。

在本发明的一些实施例中，所述获取用户歌唱歌曲的干声还可包括：

a1：获取用户录制的原始干声；

a2：从获取的用户录制的原始干声中截取干声片段，作为后续处理用的(有效)干声。

在本发明的进一步的实施例中，所述截取包括从干声中截取有歌词的声音片段，获得待分析的声音对象。例如，用户上传了一个时长为4分钟的干声，如果歌词的出现时间为30秒至1分钟、以及2分钟至3分钟。可以将这两个时间段的声音片段截取出来，作为后续处理的有效干声。

S102：对所述干声进行变调处理和时间平移处理以获得对应所述干声的基础和声；

在本发明实施例中，为了获得基础和声，可以对干声进行变调处理和时间平移处理。

在一些可能的实例中，所述的升调而得的和声例如可以提高歌声的层次感。

在一些可能的实施例中，所述的时间平移的干声例如可以提高歌声的回响。

在进一步实施例中，可以先进行变调、如升调处理，再进行时间平移、如向后时间平移处理。

例如，在图2所示的实施例中，所述步骤S102，可包括：

S201：对所述干声进行升调处理，从而获得升调的和声；

在本发明实施例中，可以采用多种方式对干声进行升调处理。

在图6所示的实施例中，所述对所述干声进行升调处理，可包括：

S601：确定所述歌曲的各元素所对应的干声实际调高；

在一些实施例中，确定干声实际调高可以为确定上述的截取的干声(片段)或者说有效干声的调高。

在一些实施例中，所述元素可包括歌曲的歌词字或音符。

具体地，在图7所示的实施例中，所述确定所述歌曲的各元素所对应的干声实际调高，可包括：

S701：提取所述干声的基频分布信息；

在一些实施例中，可以获得干声在时间上的基频分布信息。

S702：通过调高分类器处理所述基频分布信息，从而获得所述干声的基准调高；

在一些实施例中，可以通过调高分类器确定干声的基准调高是基于自然大调的，例如为C大调(C Major)或其他所确定的调。在一些实施例中，干声的基准调高可以是整体的或分部段的。

在一些实施例中，调高分类器可以为各种可用的分类器，例如是基于机器学习的调高分类器。

在一些实施例中，调高分类器可以包括或者基于隐马尔科夫模型(HMM)。隐马尔科夫模型(HMM)属于动态贝叶斯网，为一种有向图模型。隐马尔科夫模型中的变量可以分为两组，一组为通常是隐藏、不可观测的状态变量，也可以称为隐变量，另一组为观测变量。在本发明的实施例中所提取的基频分布信息，即干声信号序列可以作为观测变量，基准调高可以为状态变量或由状态变量确定。

在一些实施例中，调高分类器可以包括或者基于支持向量机(SVM)。支持向量机是一类按监督学习(supervised learning)方式对数据进行二元分类的广义线性分类器(generalized linear classifier)，其决策边界是对学习样本求解的最大边距超平面(maximum-margin hyperplane)。在本发明实施例中，可以用基于支持向量机的调高分类器针对所提取的基频分布信息进行分类以获得基准调高。

在一些实施例中，调高分类器可以包括或者基于深度学习神经网络、例如CNN、RNN、GRU、LSTM等。在本发明的一些实施例中，可以基于多层神经网络的机器学期调高分类器来获取基础调高。例如，以基频分布信息作为输入，以类似于图像分类的方式用经训练好的神经网络分层处理输入，并获得指示基准调高的输出。

S703：以所述基准调高为约束，由所述歌曲的各元素所对应的基频分布信息部分获得所述干声实际调高。

在获得基准调高的情况下，可以通过分析每个元素，例如每个歌词字对应的基频信息，得到歌词字对应的实际调高(音高)。例如可以检测到某个元素对应的实际调高(音高)为C(大字组)。

在本发明实施例中，以基准调高为约束可以指元素的实际调高(音高)要符合干声的基准调高。在该实施例中，借助于基准调高的约束所获得的元素对应的实际调高能够更为准确，且便于后续的处理。作为解释而非构成限制地，由于用户歌唱的干声特色各异且水平不一，如果不在基准调高约束下而由各元素对应的基频信息部分直接获取各元素的实际调高的话，经升调后可能会放大用户某些歌唱瑕疵。

S602：设定所述歌曲的各元素所对应的实际升调值；

在本发明的实施例中，可以基于乐理规则来设定实际升调值。

在本发明的实施例中，可以基于大、小三和弦乐理来设定各元素所对应的实际升调值。例如可以根据大、小三和弦乐理来确定每个歌词字的实际升调值。在本发明的一些实施例中，基于大、小三和弦乐理设定实际升调值可以包括：基于元素、如歌词字对应的实际调高(音高)(可选地还根据基准调高)根据大、小三和弦中的位置决定是基于大三和弦还是小三和弦进行升调。例如，以元素、如歌词字对应的实际调高(音高)为根音，以此由根音至三音是大三度还是小三度来确定是大三和弦还是小三和弦，并且以根音至三音的值作为升调值。

下面表1示出了示例性的音名(未标示音高)和相应的升调(key)值。参考下表1，描述根据示例性的基于大、小三和弦乐理的升调。例如当元素的实际调高为C时，将调高C升调为E，则升4个调(key)，此时为大三和弦，以此确定升调值(+key)为4；例如当元素的实际调高为E时，将调高E升调为G，则升3个调(key)，此时为小三和弦，以此确定升调值(+key)为3。

表1示意性的音名、唱名、简谱及相应的升调值

在本发明的一些实施例中，可以设置基于大、小三和弦乐理的其他替换方案，例如针对同一元素获得两个升调值，即从根音分别至三音和至五音。

在本发明实施例中，也可以基于其他乐理来设置实际升调值，例如基于增三和弦或其他和弦。

在一些实施例中，也可以按照其他方式确定实际升调值，比如指定每个元素均升高相同的值(音调值、音高值或频率值)。

例如，可以指定每个元素均升高3个调(key)。每升一个key代表频率增大为二的1/12次幂。譬如将400Hz升3key，则增大为2的3/12次幂倍，即1.189倍，变为523Hz；若升12key，则增大为2倍。

S603：根据所述实际升调值对相应的所述干声实际调高进行升调。

在图2的实施例中，通过这种升调处理后可得到升调的和声。

S202：对所述升调的和声进行向后时间平移处理，从而获得升调且时间平移的基础和声。

在进一步的实施例中，可以进行一个或多个的时间平移、如向后时间平移处理。在一个优选的实施例中，可以实施两个的时间平移、如向后时间平移处理，从而例如时间平移的和声可分别用于左右耳。

例如，在图3所示的实施例中，所述步骤S202，可包括：

S301：以第一时长对所述升调的基础和声进行向后时间平移处理，从而获得用于左耳和右耳之一的升调且时间平移的第一基础和声；

S302：以第二时长对所述升调的基础和声进行向后时间平移处理，从而获得用于左耳和右耳中另一个的升调且时间平移的第二基础和声。

在该实施例中，所述第一时长不等于所述第二时长。在进一步的实施例中，第一时长可以小于第二时长。在一些实施例中，经第一时长时间平移的声音用于左耳和右耳之一(例如左耳)，经第二时长时间平移的声音用于左耳和右耳的另一个(例如右耳)。

在一些实例中，经升调的基础和声的某一时刻可以为t₀；例如用于左耳的经时间平移的基础和声的相应时刻则为t₁(t₁＝t₀+Δt₁)，其中第一时长为Δt₁；例如用于右耳的时间平移的基础和声的相应时刻则为t₂(t₂＝t₀+Δt₂)，其中第一时长为Δt₂；其中Δt₁<Δt₂。

在另外的实施例中，可以先进行时间平移、如向后时间平移处理，再进行变调、如升调处理。

例如，在图4所示的实施例中，所述步骤S102，可包括：

S401：对所述干声进行向后时间平移处理，从而获得时间平移的干声；

在一些实施例中，经时间平移的干声也可以称为时间平移和声。

S402：对所述时间平移的干声进行升调处理，从而获得升调且时间平移的基础和声。

在图4所示的实施例中，经时间平移的干声可以同样地进行上述参考图6和图7所示的实施例所述的变调、如升调处理。例如在图4的实施例中，在图6和图7中所述的升调处理中所述的干声为经时间平移的干声。

例如：所述对所述(时间平移的)干声进行升调处理，包括：

b1：确定所述歌曲的各元素所对应的干声实际调高；

b2：设定所述歌曲的各元素所对应的实际升调值；

b3：根据所述实际升调值对相应的所述干声实际调高进行升调。

在这些实施例中，同样可以进行一个或多个的时间平移、如向后时间平移处理。

例如，在图5所示的实施例中，所述步骤S102，具体可包括：

S501：以第一时长对所述干声进行向后时间平移处理，从而获得时间平移的第一干声；

S502：以第二时长对所述干声进行向后时间平移处理，从而获得时间平移的第二干声，其中所述第一时长不等于所述第二时长；

S503：对所述时间平移的第一干声进行升调处理，从而获得用于左耳和右耳之一的升调且时间平移的第一基础和声；

S504：对所述时间平移的第二干声进行升调处理，以获得用于左耳和右耳中另一个的升调且时间平移的第二基础和声。

类似地，在这些实施例中的第一时长可以不同于、例如小于第二时长，并且可以如前所述地分别用于左耳和右耳。本领域技术人员将明白图5所示实施例所述的第一时长可以与图3所示实施例所述的第一时长相同或不相同，这同样适用于第二时长。

在图5所示的实施例中，经时间平移的第一干声和第二干声之一或两者可以同样地进行上述参考图6和图7所示的实施例所述的变调、如升调处理。例如在图5的实施例中，在图6和图7中所述的升调处理中所述的干声可以分别为经时间平移的第一和第二干声。

例如，所述对所述时间平移的第一干声进行升调处理，包括：

c1：确定所述歌曲的各元素所对应的第一干声实际调高；

c2：设定所述歌曲的各元素所对应的实际升调值；

c3：根据所述实际升调值对相应的所述第一干声实际调高进行升调。

例如，所述对所述时间平移的第二干声进行升调处理，包括：

d1：确定所述歌曲的各元素所对应的第二干声实际调高；

d2：设定所述歌曲的各元素所对应的实际升调值；

d3：根据所述实际升调值对相应的所述第二干声实际调高进行升调。

在一些实施例中，可以仅确定第一干声或第二干声的实际调高和/或升调值，而另外的(第二或第一)干声的实际调高和/或升调值借此相应地获得。

在一些实施例中，第一干声和第二干声的升调值可以相同或不同；升调处理可以相同或不同。

在一些实施例中，所述确定所述歌曲的各元素所对应的第一干声实际调高，包括：

e1：提取所述第一干声的基频分布信息；

e2：通过调高分类器处理所述基频分布信息，从而获得所述时间平移的第一干声的基准调高；

e3：以所述基准调高为约束，由所述歌曲的各元素所对应的基频分布信息部分获得所述第一干声实际调高。

在一些实施例中，所述确定所述歌曲的各元素所对应的第二干声实际调高，包括：

f1：提取所述第二干声的基频分布信息；

f2：通过调高分类器处理所述基频分布信息，从而获得所述时间平移的第二干声的基准调高；

f3：以所述基准调高为约束，由所述歌曲的各元素所对应的基频分布信息部分获得所述第二干声实际调高。

在一些实施例中，第一干声和第二干声的实际调高的确定可以相同或不同。在一些实施例中，提取第一或第二干声的基频分布信息可以包括直接提取自身的基频信息，或者是提取或直接获取已提取的时间平移前的或者另外的(第二或第一)干声的基频信息，并可以作时间平移处理。

S103：根据环绕和声配置确定包括至少一个空间和声的环绕和声。

在一些实施例中，所述空间和声由所述基础和声作空间变换处理得到，每个所述空间和声对应于一个空间位置。

在一些可能的实例中，空间变换处理而得的空间和声例如可以使得歌声具有空间感或环绕感。

在一些实施例中，环绕和声的获得可以包括：先获得多个基准空间和声，例如带空间和声值的空间点网或带空间坐标的基准和声表；然后根据环绕和声配置选择其中至少一个、优选多个空间和声，共同作为环绕和声的至少一部分。在这些实施例中，(基准)空间和声的计算可以上传云端或服务端进行，也可以本地进行。这样的方案尤其在实时确定环绕和声配置时是有利的，因为这避免在用户实时确定环绕和声配置时的大量计算或通讯，否则这可能会影响用户体验。

例如，在图8所示的实施例中，所述步骤S103，可包括：

S801：对所述基础和声进行空间位置变换，获得分别对应多个基准空间位置的多个基准空间和声；

在一些实施例中，所述多个空间和声例如为位于基准空间位置的上述的基准空间和声。

在图9所示的实施例中，空间(位置)变换处理可包括：

S901：设立以虚拟用户人头为原点的三维空间坐标系，确定所述空间和声对应的空间位置在所述坐标系中的坐标；

S902：基于所述空间和声的空间位置坐标，利用头相关传输函数处理所述基础和声以获得所述空间和声。

在这些实施例中，可以通过头相关传输函数(Head Related TransferFunctions，HRTF)对基础和声进行处理，得到具备空间方位感的和声。

在此，参考图10A和图10B描述根据本发明的示例性实施例。在这些实施例中，可以首先将空间方位通过三维坐标系进行描述，以虚拟用户(歌唱者)1010的双耳(1014、1012)中心为原点，获得空间上各个方向的坐标。在本发明的实施例中，坐标可以是三维位置坐标或角坐标；坐标也可以作归一化处理，本发明对此不作限制。例如，正前方的坐标为(1,0,0)，正后方的坐标为(-1,0,0)，正左方的坐标为(0,1,0)，正上方的坐标为(0,0,1)。

在本发明一些实施例中，可以利用图9所示的实施例获得针对多个基准空间和声的基准位置的坐标，如呈空间点网形式。这些基准位置可以有多种布置形式，例如在一个或多个球面或在一个或多个平面(如双耳所在的水平面)中的多个位置。

参考图10A，在一个球面布局的实例中，可以包括在该球面中的双耳所在的水平圆1020中布置的基准位置，还可选地包括在球面中与双耳连线以及与水平圆1020均垂直的第一垂直面1040(前后环绕头部垂直圆)、在球面中的双耳所在的第二垂直圆1060中布置的基准位置。

在一些实施例中，可以包括在上述圆中1020、1040、1060均布的基准位置。在一些实施例中，在上述圆中均布的基准位置密度可以相同或不同，优选地，在水平圆中均布的基准位置密度大于第一和第二垂直圆，以及/或者，在第一和第二垂直圆中均布的基准位置密度相等。在一些实施例中，圆中基准位置的分布密度按照角度计算，可以为1°至90°、优选为1°至60°、优选为1°至30°、优选为1°至20°、优选为1°至10°。参考图10B，示意性示出了在水平圆1020中由左耳1014和右耳1012连线中点与相邻基准位置连线半径所形成的边1022和1024，以及由所述边1022和1024所形成的夹角1026。在所示实施例中仅示出三个夹角，其余夹角被省略。在图10所示的实施例中，在此体现为夹角1026角度的分布密度为10°，且基准位置是均布的。

在一些可选的实施例中，还可以包括在所述圆1020、1040、1060之外的其他球面区域布置的基准位置。例如，可以包括在平行于所述水平圆1020的多个水平圆中布置的基准位置。可选地，所述水平圆的间隔可以相等。可选地，所述多个水平圆的间隔可以基于第一和第二垂直圆中的例如均布的基准位置确定。例如，在一个实施例中，所述第一和第二垂直圆1040、1060中的基准位置均为均布的且布置方式相同，由此第一和第二垂直圆1040、1060中相同高度的基准位置可以确定出水平圆，由此每个高度均可以确定一个水平圆。可选地，非水平圆1020的多个水平圆中的基准位置密度可以相同或不相同。可选地，非水平圆1020的多个水平圆中各个水平圆中的基准位置可以是均布的。可选地，所述各个水平圆中的基准位置的密度可以小于或等于第一和第二垂直面。

尽管未示出，在一些实施例中，可以在一个或多个球面中分布基准位置，以及/或者，在其他空间位置还设置有基准位置。

在一些实施例中，作为在空间立体结构中分布基准位置的替代，可以在空间平面中分布基准位置。例如，仅在水平圆1020中分布基准位置，或仅在双耳所在的水平面中的多个水平圆中分布位置。在水平圆中分布的基准位置参考上述球面中的相关描述，例如也可以如图10B所示。在另外的一些实施例中，可以在第一或第二垂直面所在的平面中，如在所述平面的一个或多个圆中分布基准位置。在平面中分布基准位置的设置可以相应地参考上述的特征，在此不赘述。

针对各个空间位置，可以将其坐标代入头相关传输函数(Head Related TransferFunctions，HRTF)，例如以角坐标的形式代入。如下述公式1所示：

其中A为空间和声；B为基础和声；H为HRTF函数，α、β、γ表征三维空间的角坐标值。

头相关传输函数(Head Related Transfer Function；HRTF)用于描述声波从声源到双耳的传输过程，是一种声音定位算法。HRTF代表了头部对声音的频率、相位响应，不同的用户有着各自不同的HRTF。借助于HRTF，可以获得感知空间声音的能力，这例如可以是通过声音到达左右耳朵的时间差的耳间时间差以及声音到达左右耳朵的音量差异的耳间水平差来至少部分提供。

在一些实施例中，公式1中的所述基础和声B可以为例如前述实施例所述的基础和声，如时间平移且升调的基础和声；或者在仅进行空间变换处理或两种处理的情况下，可以为该基础和声可以为干声或者干声经时间平移的或升调后的声音。

在一些实施例中，本发明人发现，结合双耳不同时间平移的时间平移处理和利用例如头相关函数等带时间差的空间变换处理，在提供多个空间和声或环绕和声时能给声感提供更加丰富的体验，作为解释而非限制地，这可能是通过双耳的不同时间平移在空间变换处理时在不同空间位置获得了更多的时间平移变化所带来的。此时，公式1中的所述基础和声B例如可以为前述的用于左右耳之一的第一基础和声和用于左右耳另一个的第二基础和声(组合)。

在本发明的一些实施例中，所述HRTF可以为通用的HRTF。例如所述HRTF为由大量人头数据而得的平均HRTF。

在本发明的一些实施例中，所述HRTF可以为指定HRTF函数，例如可以是基于用户输入的数据或选择的人头类型而指定的HRTF。

在一些实施例中，所述HRTF可以为基于用户定制的HRTF。基于用户定制的HRTF虽然可能会有较高的设备要求，但精度亦较高。获得用户定制的HRTF的示例可以参考US10/028,070。

根据上述公式1，所确定的HRTF可以与所述基础和声进行卷积，得到各个方位的空间和声。

通过这种处理，可得到对应空间方位的空间和声。

在本发明的其他实施例中，可以采用其他可行的空间立体声变换技术，

S802：获得用户设置的空间和声数量和空间和声位置，以确定所述环绕和声配置；

在一些实施例中，确定所述环绕和声配置为实时确定，即用户实时设置环绕和声配置。

在一些实施例中，可以提供用于实时设置环绕和声配置的用户界面(UI)，由此用户可以“所见即所得”实时设置环绕和声配置。

例如参考图11，示出了在电子设备1100、如手机、个人计算机等终端中的用于实时设置环绕和声配置的用户界面(UI)。在所述用户界面中，呈现多个舞台人员位置的设置区，例如包括位于设置区中央的虚拟用户1110、即虚拟歌唱者(干声歌唱者)，例如可以通过拖拽的方式增减或移动空间和声，可呈现为添加的虚拟和声人员1120。初始可以不设置虚拟和声人员，或者位于设置区虚拟和声人员1122、1124、1126、1128的数量和空间站位可以是默认的，用户可以根据自行喜好自定义这些虚拟和声人员的实际数量和空间站位，并且可选地调节这些虚拟和声人员的和声音量1121。在所示的实施例中，还可以提供默认环绕和声配置按钮1180。

S803：基于用户设置的空间和声数量和空间和声位置，在所述多个基准空间和声中选择对应于所述空间和声数量且与所述空间和声位置一致或临近的空间和声作为所述至少一个空间和声。

在这些实时设置环绕和声配置的实施例中，当用户设定或调整环绕和声配置时，例如当用户修改了各个虚拟和声人员的空间站位，或者增加、减少虚拟和声人员之后，可获得这些由用户个性化定义的虚拟和声人员的空间位置和数量参数。

然后，根据这些参数，可以由上述确定的不同方位的(基准)空间和声中选择与用户定义的空间方位一致或临近的空间和声。在一些实施例中，还可以提供空间捕捉的功能，从而用户在拖拽虚拟和声人员时总是被捕捉到临近的基准空间和声中。

由此，基于用户设置的不同的空间位置参数，因为距离双耳中线的距离、角度不同，从而带来不同的方位、音量、时延的空间和声。环绕和声则包括这些来自不同空间方位的空间和声。

在另一些实施例中，可以设置替代方式来允许用户提供实时设置。例如，可以由用户输入坐标点、音量等参数。例如，可以以MIDI控制的类似界面来提供设置。

在另一些实施例中，还可以是非实时设置的环绕和声配置。而环绕和声则可以由用户非实时设置的环绕和声配置中直接提供。

在另外的实施例中，可以是根据环绕和声配置(包括用户(实时)设置的空间和声数量和空间和声位置)，直接计算确定或设定包括至少一个(优选为多个)空间和声的环绕和声。

例如作为图8所示实施例的替代实施例，所述步骤S103，可包括：

g1：获得用户设置的空间和声数量和空间和声位置，以确定所述环绕和声配置；

g2：对所述基础和声进行空间位置变换，直接获得对应于所述空间和声数量且对应于所述空间和声位置的所述至少一个空间和声。

在这些实施例中，所述空间和声的计算或空间变换处理可以采用本发明其他实施例所述的方法，例如上述参考HRTF所述的那些实施例，如图9至图11所示的实施例。例如，可以根据本发明实施例所述的HRTF方法直接计算由用户选定的空间位置的空间和声，而无需预先提供众多的(基准)空间位置的(基准)空间和声。

在这些实施例中，所述直接计算的方案优选可以在服务端或云端实施。

S104：混合所述干声和所述环绕和声以生成所述歌曲的歌声。

在本发明的一些实施例中，所述混合所述干声和所述环绕和声以生成所述歌曲的歌声，可包括：

h1：对混合的所述干声和所述环绕和声增加音效；

h2：对混合的所述干声和所述环绕和声增加歌曲伴奏。

可选地，所述增加音效步骤在所述增加歌曲伴奏之前。

由此，可以指通过将干声、环绕和声、伴奏进行混合，再辅以音效，获得最终的歌声。

在一些实施例中，将干声与环绕和声进行混合，可以通过一定的音量配比，保证干声为主音量，又保证环绕和声的能够起到感知效果，实现锦上添花的预期效果。例如，干声与和声的混合音量配比为0.6:0.4至0.8:0.2，优选0.7:0.3。

在一些实施例中，增加音效包括增加混响，即通过混响效果器得到有一定音效的干声。这里的音效器有很多可以选择的方式，比如通过音效插件、音效算法等方式处理，在此不赘述。

在一些实施例中，通过将歌曲的伴奏音频与处理后的人声进行合并，得到混合的歌曲歌声。

所述合并可包括但不限于，现将处理后的人声(包括干声与和声)和伴奏分别进行功率归一化，然后按照以人声为主的比例进行时域叠加，例如0.6:0.4至0.8:0.2，优选0.65:0.35或0.7:0.3。在一些示例中，功率归一化后的人声可记为vocal，功率归一化后的伴奏可记为accom，它们都是时域波形，那么合并后的歌曲的歌声可以根据下述公式2确定：

W＝0.65*vocal+0.35*accom 公式2

在本发明的一些实施例中，所述歌声生成方法还可包括：

i1：输出所生成的所述歌曲的歌声。

所述输出可以作广义解释。在一些实施例中，可以将所述歌曲歌声输出到设备、如终端存储或输出到服务端或云端存储。在一些实施例中，可以将所述歌曲歌声进行播放或者与其他文件、如多媒体文件、例如视频文件结合。

在本发明的一些实施例所述的歌声生成方法中，首先通过升调方案获得基础和声，然后通过头相关转移函数获得空间和声，最后通过用户个性化选择获得环绕和声。将环绕和声与用户干声、伴奏进行有机组合，获得最终的歌声作品。这种处理方式，相比于简单的干声，会有更加丰富、空间环绕感的立体效果，更加接近专业歌曲的录制效果，提升了用户作品的内容质量，提高了用户的满意度。

本发明的一些实施例还相应地涉及对应的歌声生成装置以及能实施相关方法步骤的计算机设备(如终端)和存储有可执行上述方法的程序的存储介质。在本发明实施例中，装置、部件、单元或模型可以由软件、硬件或软硬件结合实现。

图12示出了根据本发明示意性实施例的歌声生成装置1200，其可包括获取单元1201、第一处理单元1202、第二处理单元1203和混合单元1204。在一些实施例中，获取单元1201可配置成获取用户歌唱歌曲的干声。在一些实施例中，第一处理单元1202可配置成对所述干声进行变调处理和时间平移处理以获得对应所述干声的基础和声。在一些实施例中，第二处理单元1203可配置成根据环绕和声配置确定包括至少一个空间和声的环绕和声，所述空间和声由所述基础和声作空间变换处理得到，每个所述空间和声对应于一个空间位置。在一些实施例中，混合单元1203可配置成混合所述干声和所述环绕和声以生成所述歌曲的歌声。所述歌声生成装置1200还可以包括用于实现本发明实施例所述的歌声生成方法的步骤、子步骤的一个或多个单元或子单元。

在本发明的一些实施例中，还可以提供一种电子设备，其为计算机设备。在本发明的一些实施例中，该电子设备可包括处理器和存储有计算机程序的存储器，其中所述处理器被配置为在运行所述计算机程序时执行任一本发明实施例所述的歌声生成方法。

图13示出了一种可以实施本发明实施例的方法或实现本发明实施例的电子设备1300的示意图，在一些实施例中可以包括比图示更多或更少的电子设备。在一些实施例中，可以利用单个或多个电子设备实施。在一些实施例中，电子设备可以为终端、如移动终端、例如智能手机。

如图13所示，电子设备1100包括中央处理器(CPU)1301，其可以根据存储在只读存储器(ROM)1302中的程序和/或数据或者从存储部分1308加载到随机访问存储器(RAM)1303中的程序和/或数据而执行各种适当的操作和处理。CPU 1301可以是一个多核的处理器，也可以包含多个处理器。在一些实施例中，CPU 1301可以包含一个通用的主处理器以及一个或多个特殊的协处理器，例如图形处理器(GPU)、神经网络处理器(NPU)、数字信号处理器(DSP)等等。在RAM 1303中，还存储有电子设备1100操作所需的各种程序和数据。CPU1301、ROM 1302以及RAM 1303通过总线1304彼此相连。输入/输出(I/O)接口1305也连接至总线1304。

上述处理器与存储器共同用于执行存储在存储器中的程序，所述程序被计算机执行时能够实现上述各实施例描述的多媒体内容评估模型的训练方法、评估方法的步骤或功能。

以下部件连接至I/O接口1305：包括键盘、鼠标等的输入部分1306；包括诸如触摸显示屏、阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1307；包括硬盘等的存储部分1308；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1309。通信部分1309经由诸如因特网的网络执行通信处理。驱动器1310也根据需要连接至I/O接口1305。可拆卸介质1311，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1310上，以便于从其上读出的计算机程序根据需要被安装入存储部分1308。图13中仅示意性示出部分组件，并但电子设备1300可以包括更多或更少的部件，或者根据需要，所示的部件可以合并或分拆。

在本发明上述或下述实施例阐明的系统、装置、模块或单元，可以由计算机或其关联部件实现。根据具体情况，计算机例如可以为移动终端、智能电话、个人计算机(PC)、膝上型计算机、车载人机交互设备、个人数字助理、媒体播放器、导航设备、游戏控制台、平板电脑、可穿戴设备、智能电视、物联网系统、智能家居、工业计算机、服务器或者其组合。

在本发明的一些实施例中，还可以提供一种存储介质。在一些实施例中，所述存储介质存储有计算机程序，所述计算机程序配置成被运行时执行任一本发明实施例所述的歌声生成方法。

在本发明的实施例的存储介质包括永久性和非永久性、可移动和非可移动的可以由任何方法或技术来实现信息存储的物品。存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

在本发明的实施例的方法、程序、系统、装置等，可以在单个或多个连网的计算机中执行或实现，也可以在分布式计算环境中实践。在本说明书实施例中，在这些分布式计算环境中，可以由通过通信网络而被连接的远程处理设备来执行任务。

本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本领域技术人员可想到，上述实施例阐明的功能模块/单元或控制器以及相关方法步骤的实现，可以用软件、硬件和软/硬件结合的方式实现。

除非明确指出，根据本发明实施例记载的方法、程序的动作或步骤并不必须按照特定的顺序来执行并且仍然可以实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。尤其是，在本发明的一些实施例中，设置环绕和声配置、尤其是由用户进行的环绕和声配置(如非实时的)可以在任何声音处理步骤之前、之中或并行进行，这落入本发明的范围内。

在本文中，“第一”、“第二”是用于在同一实施例中区分不同的元件，不指代顺序或相对重要性。

在本文中，针对本发明的多个实施例进行了描述，但为简明起见，各实施例的描述并不是详尽的，各个实施例之间相同或相似的特征或部分可能会被省略。在本文中，“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”意指适用于根据本发明的至少一个实施例或示例中，而非所有实施例。上述术语并不必然意味着指代相同的实施例或示例。在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

已参考上述实施例具体示出并描述了本发明的示例性系统及方法，其仅为实施本系统及方法的最佳模式的示例。本领域的技术人员可以理解的是可以在实施本系统及/或方法时对这里描述的系统及方法的实施例做各种改变而不脱离界定在所附权利要求中的本发明的精神及范围。

Claims

1.一种歌声生成方法，其特征在于，包括：

获取用户歌唱歌曲的干声；

混合所述干声和所述环绕和声以生成所述歌曲的歌声。

2.根据权利要求1所述的歌声生成方法，其特征在于，所述对所述干声进行变调处理和时间平移处理以获得对应所述干声的基础和声，包括：

对所述干声进行升调处理，从而获得升调的和声；

对所述升调的和声进行向后时间平移处理，从而获得升调且时间平移的所述基础和声。

3.根据权利要求2所述的歌声生成方法，其特征在于，所述对所述升调的基础和声进行向后时间平移处理，从而获得升调且时间平移的基础和声，包括：

以第一时长对所述升调的基础和声进行向后时间平移处理，从而获得用于左耳和右耳之一的升调且时间平移的第一基础和声；

以第二时长对所述升调的基础和声进行向后时间平移处理，从而获得用于左耳和右耳中另一个的升调且时间平移的第二基础和声，其中所述第一时长不等于所述第二时长。

4.根据权利要求1所述的歌声生成方法，其特征在于，所述对所述干声进行变调处理和时间平移处理以获得对应所述干声的基础和声，包括：

对所述干声进行向后时间平移处理，从而获得时间平移的干声；

对所述干声进行升调处理，从而获得升调且时间平移的所述基础和声。

5.根据权利要求4所述的歌声生成方法，其特征在于，所述对所述干声进行变调处理和时间平移处理以获得对应所述干声的基础和声，包括：

以第一时长对所述干声进行向后时间平移处理，从而获得时间平移的第一干声；

以第二时长对所述干声进行向后时间平移处理，从而获得时间平移的第二干声，其中所述第一时长不等于所述第二时长；

对所述时间平移的第一干声进行升调处理，从而获得用于左耳和右耳之一的升调且时间平移的第一基础和声；

对所述时间平移的第二干声进行升调处理，以获得用于左耳和右耳中另一个的升调且时间平移的第二基础和声。

6.根据权利要求2至5中任一项所述的歌声生成方法，其特征在于，所述对所述干声进行升调处理，包括：

确定所述歌曲的各元素所对应的干声实际调高；

设定所述歌曲的各元素所对应的实际升调值；

根据所述实际升调值对相应的所述干声实际调高进行升调，

其中，所述元素包括歌曲的歌词字或音符。

7.根据权利要求6所述的歌声生成方法，其特征在于，所述确定所述歌曲的各元素所对应的干声实际调高，包括：

提取所述干声的基频分布信息；

通过调高分类器处理所述基频分布信息，从而获得所述干声的基准调高；

以所述基准调高为约束，由所述歌曲的各元素所对应的基频分布信息部分获得所述干声实际调高。

8.根据权利要求1至5中任一项所述的歌声生成方法，其特征在于，所述根据环绕和声配置确定包括至少一个空间和声的环绕和声，所述空间和声由所述基础和声作空间变换处理得到，每个所述空间和声对应于一个空间位置，包括：

对所述基础和声进行空间位置变换，获得分别对应多个基准空间位置的多个基准空间和声；

获得用户设置的空间和声数量和空间和声位置，以确定所述环绕和声配置；

基于用户设置的空间和声数量和空间和声位置，在所述多个基准空间和声中选择对应于所述空间和声数量且与所述空间和声位置一致或临近的空间和声作为所述至少一个空间和声。

9.根据权利要求1至5中任一项所述的歌声生成方法，其特征在于，所述根据环绕和声配置确定包括至少一个空间和声的环绕和声，所述空间和声由所述基础和声作空间变换处理得到，每个所述空间和声对应于一个空间位置，包括：

对所述基础和声进行空间位置变换，直接获得对应于所述空间和声数量且对应于所述空间和声位置的所述至少一个空间和声。

10.根据权利要求1至5中任一项所述的歌声生成方法，其特征在于，所述空间变换处理，包括：

设立以虚拟用户人头为原点的三维空间坐标系，确定所述空间和声对应的空间位置在所述坐标系中的坐标；

基于所述空间和声的坐标，利用头相关传输函数处理所述基础和声以获得所述空间和声。

11.根据权利要求1至5中任一项所述的歌声生成方法，其特征在于，所述混合所述干声和所述环绕和声以生成所述歌曲的歌声，包括：

对混合的所述干声和所述环绕和声增加音效；

对混合的所述干声和所述环绕和声增加歌曲伴奏。

12.根据权利要求1至5中任一项所述的歌声生成方法，其特征在于，还包括：

输出所生成的所述歌曲的歌声。

13.一种歌声生成装置，其特征在于，包括：

获取单元，配置成获取用户歌唱歌曲的干声；

14.一种电子设备，其特征在于，包括：处理器和存储有计算机程序的存储器，所述处理器被配置为在运行所述计算机程序时执行权利要求1至12中任一项所述的歌声生成方法。

15.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序配置成被运行时执行权利要求1至12中任一项所述的歌声生成方法。