CN113259701B

CN113259701B - 个性化音色的生成方法、装置及电子设备

Info

Publication number: CN113259701B
Application number: CN202110539614.7A
Authority: CN
Inventors: 王众怡; 车浩; 王芮; 张晨; 张颖; 李楠; 赵龙
Original assignee: Amusement Starcraft Beijing Technology Co ltd
Current assignee: Amusement Starcraft Beijing Technology Co ltd
Priority date: 2021-05-18
Filing date: 2021-05-18
Publication date: 2023-01-20
Anticipated expiration: 2041-05-18
Also published as: CN113259701A

Abstract

本公开关于一种个性化音色的生成方法、装置及电子设备。所述方法包括：响应于录制音频的操作，录制输入的第一音频；响应于调整音色的操作，基于所述操作所确定的音色调整内容，对所述第一音频的原始音色进行调整，获得与所述原始音色对应的个性化音色；其中，所述原始音色包括从所述第一音频中提取的用户音色；响应于保存音色的操作，保存所述原始音色与个性化音色之间的对应关系；响应于输出个性化音色的操作，从输入的第二音频中提取原始音色，并基于所述原始音色与个性化音色之间的对应关系，将所述第二音频中原始音色的音频替换为所述个性化音色。

Description

个性化音色的生成方法、装置及电子设备

技术领域

本公开涉及互联网技术领域，尤其涉及一种个性化音色的生成方法、装置及电子设备。

背景技术

在互联网中，普遍存在需要通过声音进行交互的业务。例如网络直播、视频录制、即时通讯等。

在这些需要通过声音进行交互的业务中，通常涉及陌生人之间的声音传输需求。由于用户输入的声音是用户本人的声音，容易被恶意用户基于该声音的声纹特征找到本人，因此存在隐私安全的问题。

发明内容

本公开提供一种个性化音色的生成方法、装置及电子设备，以至少解决相关技术中隐私安全的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种个性化音色的生成方法，包括：

响应于录制音频的操作，录制输入的第一音频；

响应于调整音色的操作，基于所述操作所确定的音色调整内容，对所述第一音频的原始音色进行调整，获得与所述原始音色对应的个性化音色；其中，所述原始音色包括从所述第一音频中提取的用户音色；

响应于保存音色的操作，保存所述原始音色与所述个性化音色之间的对应关系；

响应于输出个性化音色的操作，从输入的第二音频中提取原始音色，并基于所述原始音色与个性化音色之间的对应关系，将所述第二音频中原始音色的音频替换为所述个性化音色。

可选的，所述响应于调整音色的操作，基于所述操作所确定的音色调整内容，对所述第一音频的原始音色进行调整，获得与所述原始音色对应的个性化音色，包括：

响应于音色调整界面中对音色选项的操作，获取操作后所述音色选项对应的音色调整参数；

将所述第一音频的原始音色转换为基础音色参数，并将所述基础音色参数与所述音色调整参数的数值进行叠加；

将叠加后的音色参数进行音色转换，获得与所述原始音色对应的个性化音色。

可选的，所述音色选项包括音色调整的滑动条，所述滑动条的两端分别为第一音色和第二音色，所述滑动条的中间位置对应了所述原始音色。

可选的，所述方法还包括：

响应于音色调整界面中音色试听选项的操作，将所述第一音频中原始音色的音频替换为所述个性化音色后，播放所述第一音频。

可选的，在所述保存所述原始音色与所述个性化音色之间的对应关系之后，所述方法还包括：

将所述原始音色与所述个性化音色之间的对应关系添加到个性化音色选项列表；

所述响应于输出个性化音色的操作，从输入的第二音频中提取原始音色，并基于所述原始音色与个性化音色之间的对应关系，将所述第二音频中原始音色的音频替换为所述个性化音色，包括：

响应于输出个性化音色的操作，展示所述个性化音色选项列表；

在所述个性化音色选项列表中任一个性化音色选项被选中时，获取被选中的个性化音色选项对应保存的原始音色与个性化音色之间的对应关系；

从输入的第二音频中提取原始音色，基于所述原始音色与个性化音色之间的对应关系，将所述第二音频中原始音色的音频替换为所述个性化音色。

可选的，所述第二音频包括视频直播时主播输入的直播音频。

响应于音色调整界面中对音色选项的操作，获取操作后所述音色选项对应的音色风格类型；

将所述音色风格类型对应的预设音色确定为与所述原始音色对应的个性化音色。

可选的，所述音色风格类型至少包括第一音色风格和/或第二音色风格；其中，第一音色风格对应的预设音色包括卡通音色；第二音色风格对应的预设音色包括娃娃音色。

根据本公开实施例的第二方面，提供一种个性化音色的生成装置，包括：

录制单元，被配置为执行响应于录制音频的操作，录制输入的第一音频；

调整单元，被配置为执行响应于调整音色的操作，基于所述操作所确定的音色调整内容，对所述第一音频的原始音色进行调整，获取与所述原始音色对应的个性化音色；其中，所述原始音色包括从所述第一音频中提取的用户音色；

保存单元，被配置为执行响应于保存音色的操作，保存所述原始音色与所述个性化音色之间的对应关系；

输出单元，被配置为执行响应于输出个性化音色的操作，从输入的第二音频中提取原始音色，并基于所述原始音色与个性化音色之间的对应关系，将所述第二音频中原始音色的音频替换为所述个性化音色。

可选的，所述调整单元被进一步配置为执行：

将叠加后的音色参数进行音色转换，获取与所述原始音色对应的个性化音色。

可选的，所述装置还包括：

播放单元，被配置为执行响应于音色调整界面中音色试听选项的操作，将所述第一音频中原始音色的音频替换为所述个性化音色后，播放所述第一音频。

可选的，所述保存单元被进一步配置为执行：

所述输出单元被进一步配置为执行：

可选的，所述调整单元被进一步配置为执行：

根据本公开实施例的第三方面，一种个性化音色的生成电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现前述任一项所述的个性化音色的生成方法。

根据本公开实施例的第四方面，一种计算机可读存储介质，当所述计算机可读存储介质中的指令由个性化音色生成的电子设备的处理器执行时，使得个性化音色生成的电子设备能够执行前述任一项所述的个性化音色的生成方法。

根据本公开实施例的第五方面，一种计算机程序产品，包括计算机程序或指令，所述计算机程序或指令被处理器执行时实现前述任一项所述的个性化音色的生成方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

通过为用户提供个性化音色的变声功能，使得用户可以使用基于自身原始音色调整后生成的个性化音色来输出音频信息，这样输出的音频信息是以个性化音色播放的。

一方面，由于输出的音频信息并非是用户本人的原声，因此可以隐藏用户的原始音色。从而可以实现隐私安全。

另一方面，由于个性化音色是根据用户原始音色的基础上合成的，因此具有唯一性。如此实现千人千面的个性化音色。

又一方面，由于保存的是原始音色与个性化音色之间的对应关系，因此变声后只会将第二音频中的原始音色的音频转换为个性化音色的音频，并不会改变第二音频中的所有声音。这样处理后的第二音频更为自然。

再一方面，由于用户可以采用不同的个性化音色，可以大大提升所在场景中音频的播放效果，例如在直播中，主播通过个性化音色进行变声，可以提高直播内容的趣味性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种个性化音色的生成方法的流程图。

图2是根据一示例性实施例示出的直播工具提供的个性化音色生成时各个操作界面的示意图。

图3a是根据一示例性实施例示出的直播工具展示界面和个性化音色展示界面的示意图。

图3b是根据一示例性实施例示出的个性化音色展示界面和录音入口界面的示意图。

图3c是根据一示例性实施例示出的录音入口界面和录音控制界面的示意图。

图3d是根据一示例性实施例示出的录音控制界面和音色调整界面的示意图。

图3e是根据一示例性实施例示出的音色调整界面和更新后的个性化音色展示界面的示意图。

图3f是根据一示例性实施例示出的另一个音色调整界面的示意图。

图4是根据一示例性实施例示出的一种个性化音色的生成装置的框图。

图5是根据一示例性实施例示出的一种电子设备的结构图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种个性化音色的生成方法的流程图，所述方法可以应用于客户端，包括以下步骤：

步骤110，响应于录制音频的操作，录制输入的第一音频；

步骤120，响应于调整音色的操作，基于所述操作所确定的音色调整内容，对所述第一音频的原始音色进行调整，获得与所述原始音色对应的个性化音色；其中，所述原始音色包括从所述第一音频中提取的用户音色；

步骤130，响应于保存音色的操作，保存所述原始音色与所述个性化音色之间的对应关系；

步骤140，响应于输出个性化音色的操作，从输入的第二音频中提取原始音色，并基于所述原始音色与个性化音色之间的对应关系，将所述第二音频中原始音色的音频替换为所述个性化音色。

其中，所述客户端可以是指硬件上的客户端设备，例如台式计算机、膝上型计算机、平板计算机、智能手机、手持式计算机、个人数字助理(“PDA”)，或者其它任何的有线或无线处理器驱动装置。

所述客户端可以是指软件上的应用客户端，例如即时通讯类的APP、视频制作类的APP、直播类APP等。

所述客户端可以是指软硬结合的客户端，例如安装了即时通讯APP的智能手机、安装了视频制作APP的智能手机、安装了直播APP的智能手机。

一般的，用户可以在客户端上登录已有的用户账户或以游客的身份使用应用提供的服务。在使用服务过程中用户可以通过客户端设备内置或外置的音频接收装置(例如麦克风)输入音频。

在即时通讯类的APP中，用户发起语音聊天或视频聊天，也可以发送语音信息。在这个过程中用户需要通过前述音频接收装置输入音频内容。

在视频制作类的APP中，用户作为视频up主(即视频制作方)可以制作供大众观看的视频内容。在这个过程中用户可以通过前述音频接收装置输入音频内容，从而为视频内容配音或讲解。

在直播类的APP中，用户作为主播(即提供视频直播的用户)可以开启直播间，从而为直播间内的观众提供直播服务。在直播过程中，主播可以通过前述音频接收装置输入音频内容，从而为直播提供直播声音。

前述音频或音频内容可以是指包含用户说话过程中发出的声音，所述声音可以被前述音频接收装置接收从而转换为输入信号，然后可以通过音频播放装置将所述输入信息转换回声音。

在介绍完上述内容后，下面对上述步骤110至步骤140中的各步骤进行详细地说明。

步骤110，响应于录制音频的操作，录制输入的第一音频。

如前所述用户可以通过客户端设备内置或外置的音频接收装置与软件应用提供的录音功能相配合录制用户的音频。

以下以图2示出的直播工具提供的个性化音色生成时各个操作界面的示意图为例加以说明。

图2中包括直播工具展示界面1、个性化音色展示界面2、录音入口界面3、录音控制界面4、音色调整界面5、更新后的个性化音色展示界面6，并进一步结合图3a至3e进一步介绍图2中各个界面的功能和布局。需要说明的是，不管是图2还是图3a至3e都是示例性的，并不是对技术方案的具体限定；例如图中的界面布局、图标的样式、文字内容等都可以根据实际需要灵活调整。

图3a是一示例性实施例示出的直播工具展示界面和个性化音色展示界面的示意图。

以直播场景为例，在直播时主播可以打开直播软件提供的直播工具，该直播工具可以是以弹窗的方式展示的。

在图3a示出的直播工具展示界面中可以包括本说明书中个性化音色生成对应的“变声”选项，也可以包括其它的直播工具；例如图3a中示出的用于配置评论显示方式的“评论浮窗”选项，用于装饰直播间的“气氛”选项，以及对直播工具界面中展示的工具类型进行变更的“设置”选项。由于其它的直播工具并非本实施例的重点，因此不对其进行赘述。

当用户点击“变声”选项时，客户端响应于点击“变声”选项的操作，从直播工具展示界面跳转到个性化音色展示界面。

在图3a示出的个性化音色展示界面中，展示有“原声”选项、“变声”选项。其中，所述“原声”选项用于录制用户原始声音；所述“变声”选项对应了用户配置的个性化音色。通常，1个用户可以配置多个不同的个性化音色，所以界面中可以展示多个“变声”选项。

在刚跳转到个性化音色展示界面时，图3a中的“设置专属音”选项可以是隐藏的，或者不可选中的。当用户点击“原声”选项时，客户端响应于点击“原声”选项的操作，在个性化音色展示界面中显示“设置专属音”选项，或者将不可选中的“设置专属音”选项更新为可选中。

图3b是一示例性实施例示出的个性化音色展示界面和录音入口界面的示意图。

当用户点击“原声”选项时，客户端响应于点击“原声”选项的操作，在个性化音色展示界面中显示“设置专属音”选项，或者将不可选中的“设置专属音”选项更新为可选中后。另外，“原声”选项的外观也可以更新为被选中状态(如图3b所示“原声”选项的边框加粗)。

进一步的，用户可以点击“设置专属音”选项，客户端响应于点击“设置专属音”选项的操作，从个性化音色展示界面跳转到录音入口界面。

如图3b所示的录音入口界面中，展示有“录音试听”选项，以及“可根据自己的声音，调节音高，生成独一无二的专属直播音色哦！”的提示文字。

图3c是一示例性实施例示出的录音入口界面和录音控制界面的示意图。

客户端在跳转到录音入口界面后，用户可以点击“录音试听”选项，客户端响应于击“录音试听”选项的操作，从录音入口界面跳转到录音控制界面。

如图3c所示的录音控制界面中，展示有开始录音的操作选项41，在该操作选项41被触发后，用户可以说话，说话的声音将被开启的音频接收装置采集，从而得到录制的第一音频，该第一音频为采集到的用户说话的声音。

在录音过程中，该录音控制界面还可以展示“录音声波动态”的声波图像。

其中，所述操作选项41被触发的方式可以包括点击触发和持续按压。所述点击触发是指用户点击1次，即用户点击1次就可以持续录音直至第2次点击或者到达预设时长。

所述持续按压是指用户需要持续按压操作选项41，持续按压期间会持续录音，一旦松开操作选项41，就会停止录音。

图3d是一示例性实施例示出的录音控制界面和音色调整界面的示意图。

如图3d所示录音控制界面中，所述开始录音的操作选项可以预设最长的录制时长，例如图3d中所示的10秒。

一旦用户手段停止录制或者达到最长录制时长后，客户端就会自动从录音控制界面跳转到音色调整界面。其中，录音完成后，所录制的第一音频可以保存在本地，并且第一音频支持重录，重录后的第一音频将覆盖重录前的第一音频。

如图3d所示的音色调整界面中，除了展示有“录音声波动态”图像外，还包括“重录”选项，如果用户不满意本次录音效果，可以点击“重录”选项重新录制第一音频。

客户端响应于音色调整界面中重录选项的操作，重新执行步骤110。

该实施例中，通常更为清晰、没有杂音的第一音频最能反映用户的原始音色，进而可以得出更具个性化音色。为此用户可以重新跳转回录音控制界面重新录制第一音频，以录制更优质的第一音频。

步骤120：响应于调整音色的操作，基于所述操作所确定的音色调整内容，对所述第一音频的原始音色进行调整，获得与所述原始音色对应的个性化音色；其中，所述原始音色包括从所述第一音频中提取的用户音色。

其中，所述调整音色的操作可以是基于图3d中所示的音色调整界面中的音色选项实现的。

以下通过步骤A1至A3进一步介绍步骤120。

步骤A1：客户端响应于音色调整界面中对音色选项的操作，获取操作后所述音色选项对应的音色调整参数；

用户可以操作该音色选项以调整原始音色的参数。在实现时，所述音色选项对应有一个以原始音色的基础音色参数为基准的音色调整参数范围。用户通过调整音色选项，以确定需要调整的音色调整参数。

在一种实现方式中，所述音色选项包括音色调整的滑动条，所述滑动条的两端分别为第一音色和第二音色，所述滑动条的中间位置对应了所述原始音色。

以下结合图3d所示的音色调整界面对音色调整的滑动条进行介绍。图3d的音色调整界面中展示的音色选项的样式即为滑动条51，并且该音色调整界面中还展示有“左右滑动可调节不同音色”的提示文字。所述滑动条两端分别为男低音和女高音；所述滑动条的滑块默认位于所述滑动条的中间位置，所述滑动条的中间位置对应了所述原始音色。

如果用户将滑动条的滑块向左侧滑动，那么原始音色就会逐渐调整为男音色，且越往左滑动男音色的音色越低。

如果用户将滑动条的滑块向右侧滑动，那么原始音色就会逐渐调整为女音色，且越往右滑动女音色的音色越高。

需要说明的是，图3d中的音色选项的样式仅为一种示例，在实际应用时可以采用其它能够实现相同音色调整效果的样式，例如通过下拉选项确定调整参数，又例如通过数值输入框输入调整参数等。

然而不管是下拉选项还是数值输入框需要借助数值化的音色参数实现，对于没有音色参数技能的用户来说无法快速上手使用，有一定的技术门槛。而滑动条不仅具有较好的人机交互效果，而且滑动条的使用无需用户具有音色参数的相关技能，容易上手对新用户较为友好，用户体验相对较好。

步骤A2：将所述第一音频的原始音色转换为基础音色参数，并将所述基础音色参数与所述音色调整参数的数值进行叠加。

步骤A3：将叠加后的音色参数进行音色转换，获得与所述原始音色对应的个性化音色。

该实施例中，由于个性化音色是根据用户原始音色的基础上合成的，合成后的个性化音色实际上是依赖于用户的原始音色的，由于每个用户的原始音色具有唯一性，因此基于原始音色合成后的个性化音色同样具有唯一性。如此可以认为基于原始音色合成的个性化音色具有无替代性、无重复性，是独一无二的，可以实现千人千面的音色效果。

在另一种实现方式中，所述步骤120可以包括：

该实施例中，可以在音色调整界面中预设一些可供用户选择的音色风格选项。在用户点击任一音色风格选项后，就可以选中的音色风格选项对应的预设音色作为个性化音色。

例如，所述音色风格类型至少包括第一音色风格和/或第二音色风格；其中，第一音色风格对应的预设音色包括卡通音色；第二音色风格对应的预设音色包括娃娃音色。

该实施例中，可以为用户提供预设的个性化音色，减少了生成个性化音色过程中的交互次数，便于用户快速选择。

在具体应用时，通常还有试听调整后的个性化音色的需求。为此，本说明书一实施例还提供了如下内容：

客户端响应于音色调整界面中音色试听选项(图3d中的“试听”选项)的操作，将所述第一音频中原始音色的音频替换为所述个性化音色后，播放所述第一音频。

当用户点击“试听”选项时，会以调整后的个性化音色播放用户录制的声音。另外，如图3d所示，在播放声音的同时“试听”选项还会切换为播放状态的选项53。

在播放声音的过程中，如果用户点击选项53，则可以停止播放声音，并且播放状态的选项53会切换回“试听”选项。

请参考图3f所示的另一种音色调整界面的示意图。图3f与图3d中的音色调整界面不同在于，在音色调整界面中增加了一个用于试听用户原始音色的第一音频的选项52。以及滑动条样式的一些变化，但其功能相同。

当用户点击选项52时，客户端响应于音色调整界面中用于试听原始音色的选项52的操作，以所述原始音色播放第一音频。

该实施例中，用户判断是否需要重录第一音频时，可以通过点击选项52播放的原始音色的第一音频，如果用户认为第一音频存在无声、声音内容不清楚、有杂音等不利于变声的因素可以选择重录。

步骤130：响应于保存音色的操作，保存所述原始音色与所述个性化音色之间的对应关系。

如图3e所示音色调整界面中，展示有“保存专属音”选项。用户在调整原始音色后，如果对调整后的个性化音色满意，那么可以点击“保存专属音”选项以保存个性化音色。对于任何未点击“保存专属音”选项的个性化音色在退出音色调整界面后就会失效。

对于客户端来说，其响应于保存音色的操作，可以保存所述原始音色与个性化音色之间的对应关系。

在客户端保存了原始音色与个性化音色之间的对应关系之后，如图3e所示客户端就会从音色调整界面跳转到更新后的个性化音色展示界面。

图3e与图3a所示的个性化音色展示界面的差异在于，图3e中将保存的原始音色与个性化音色之间的对应关系，以“专属音”选项替换了图3a中的“变声”选项。

对应于图3e所示个性化音色展示界面中添加的“专属音”选项，本实施例中，在步骤130保存所述原始音色与个性化音色之间的对应关系之后，所述方法还包括：

将所述原始音色与个性化标音色之间的对应关系添加到个性化音色选项列表。

在本说明书的实施例中，所述个性化音色展示界面中的“专属音”以及“变声”选项可以作为个性化音色选项构建个性化音色选项列表。用户可以在展示的个性化音色选项列表中选择自己想要使用的个性化音色。

其中，个性化音色选项支持用户自定义名称，例如用户可以将“专属音”修改为“男低音”。从而可以方便用户识别并选择。

步骤140：响应于输出个性化音色的操作，从输入的第二音频中提取原始音色，并基于所述原始音色与个性化音色之间的对应关系，将所述第二音频中原始音色的音频替换为所述个性化音色。

在用户需要以个性化音色输出声音时，可以通过点击图3e所示的个性化音色展示界面展示的个性化音色选项，从而将输入的第二音频的原始音色替换为选中的个性化音色。

以下通过步骤B1至B3进一步介绍步骤140。

步骤B1：响应于输出个性化音色的操作，展示所述个性化音色选项列表；

步骤B2：在所述个性化音色选项列表中任一个性化音色选项被选中时，获取被选中的个性化音色选项对应保存的原始音色与个性化音色之间的对应关系；

步骤B3：从输入的第二音频中提取原始音色，基于所述原始音色与个性化音色之间的对应关系，将所述第二音频中原始音色的音频替换为所述个性化音色。

用户可以开启输出个性化音色，以使客户端响应于该输出个性化音色的操作，展示所述个性化音色选项列表。如前所述的，个性化音色选项列表中包括个性化音色选项，每个个性化音色选项都对应了保存的原始音色与个性化音色之间的对应关系。

用户可以从个性化音色选项列表中选择任意一个想要使用的个性化音色选项，在用户选中一个个性化音色选项后，客户端可以提示用户个性化音色设置成功，可以开始说话。

客户端会获取被选中的个性化音色选项对应保存的原始音色与个性化音色之间的对应关系，并自动将音频接收装置采集的第二音频中原始音色的音频替换为个性化音色的音频。

该实施例中，由于保存的是原始音色与个性化音色之间的对应关系，因此变声后只会将第二音频中的原始音色的音频转换为个性化音色的音频，并不会改变第二音频中的所有声音(不改变非原始音色)。这样处理后的第二音频更为自然。

例如，第二音频中即包含用户的声音，也包括非用户声音，例如播放的歌声；那么，在个性化音色输出时只会改变用户的音色，而不会将歌声也改变为个性化音色。

再例如，多个用户说话时，如果只有其中1个用户保存了个性化音色，在个性化音色输出时只会改变这1个用户的音色，而不影响其他用户的音色。

又或者，多个用户说明时，如果每个用户都保存了个性化音色，在个性化音色输出时会根据每个用户对应的个性化音色改变对应用户的音色，不会产生A用户的个性化音色被B用户使用的情况。

以视频直播为例，主播在开启直播后，可以通过直播工具提供的变声功能，选择预先保存的专属音，该专属音即为个性化音色。在主播使用任意一个专属音后，主播说话声音就会被转换为专属音。

通过上述实施例，为用户提供个性化音色的变声功能，使得用户可以使用基于自身原始音色调整后生成的个性化音色来输出音频信息，这样输出的音频信息是以个性化音色播放的。

与前述图1所示个性化音色的生成方法实施例相对应，本说明书还提供了图4所示个性化音色的生成装置的实施例。所述装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。

图4是与前述图1对应的一种个性化音色的生成装置框图。参照图4，该装置包括录制单元310，调整单元320、保存单元330和输出单元340。

录制单元310，可以被配置为执行响应于录制音频的操作，录制输入的第一音频；

调整单元320，可以被配置为执行响应于调整音色的操作，基于所述操作所确定的音色调整内容，对所述第一音频的原始音色进行调整，获取与所述原始音色对应的个性化音色；其中，所述原始音色包括从所述第一音频中提取的用户音色；

保存单元330，可以被配置为执行响应于保存音色的操作，保存所述原始音色与所述个性化音色之间的对应关系；

输出单元340，可以被配置为执行响应于输出个性化音色的操作，从输入的第二音频中提取原始音色，并基于所述原始音色与个性化音色之间的对应关系，将所述第二音频中原始音色的音频替换为所述个性化音色。

在一实施例中，所述调整单元320可以被进一步配置为执行：

在一实施例中，所述音色选项包括音色调整的滑动条，所述滑动条两端分别为第一音色和第二音色，所述滑动条的中间位置对应了所述原始音色。

在一实施例中，所述装置还包括：

在一实施例中，所述保存单元330可以被进一步配置为执行：

所述输出单元340可以被进一步配置为执行：

在一实施例中，所述第二音频可以包括视频直播时主播输入的直播音频。

在一实施例中，所述调整单元320被进一步配置为执行：

在一实施例中，所述音色风格类型至少包括第一音色风格和/或第二音色风格；其中，第一音色风格对应的预设音色包括卡通音色；第二音色风格对应的预设音色包括娃娃音色。

应用上述方案，可以为用户提供个性化音色的变声功能，使得用户可以使用基于自身原始音色调整后生成的个性化音色来输出音频信息，这样输出的音频信息是以个性化音色播放的。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

在示例性实施例中，还提供了一种个性化音色的生成电子设备，包括处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以完成上述任一实施例所述的个性化音色的生成方法。

在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，当该计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述任一实施例所述的个性化音色的生成方法。

在示例性实施例中，还提供一种计算机程序产品，包括计算机程序/指令，所述计算机程序或指令被处理器执行时完成上述任一实施例所述的个性化音色的生成方法。

图5是根据本公开的实施例示出的一种电子设备的示意框图。参照图5，电子设备400可以包括以下一个或多个组件：处理组件402，存储器404，电源组件406，多媒体组件408，音频组件410，输入/输出(I/O)的接口412，传感器组件414，以及通信组件418。上述电子设备可以采用类似的硬件架构。

处理组件402通常控制电子设备400的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件402可以包括一个或多个处理器420来执行指令，以完成上述三维虚拟形象的生成方法的全部或部分步骤。此外，处理组件402可以包括一个或多个模块，便于处理组件402和其他组件之间的交互。例如，处理组件402可以包括多媒体模块，以方便多媒体组件408和处理组件402之间的交互。

存储器404被配置为存储各种类型的数据以支持在电子设备400的操作。这些数据的示例包括用于在电子设备400上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器404可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件406为电子设备400的各种组件提供电力。电源组件406可以包括电源管理系统，一个或多个电源，及其他与为电子设备400生成、管理和分配电力相关联的组件。

多媒体组件408包括在电子设备400和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件408包括一个前置摄像头和/或后置摄像头。当电子设备400处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的或具有焦距和光学变焦能力的光学透镜系统。

音频组件410被配置为输出和/或输入音频信号。例如，音频组件410包括一个麦克风(MIC)，当电子设备400处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器404或经由通信组件418发送。在一些实施例中，音频组件410还包括一个扬声器，用于输出音频信号。

I/O接口412为处理组件402和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，选项等。这些选项可包括但不限于：主页选项、音量选项、启动选项和锁定选项。

传感器组件414包括一个或多个传感器，用于为电子设备400提供各个方面的状态评估。例如，传感器组件414可以检测到电子设备400的打开/关闭状态，组件的相对定位，例如所述组件为电子设备400的显示器和小键盘，传感器组件414还可以检测电子设备400或电子设备400一个组件的位置改变，用户与电子设备400接触的存在或不存在，电子设备400方位或加速/减速和电子设备400的温度变化。传感器组件414可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件414还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件414还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件418被配置为便于电子设备400和其他设备之间有线或无线方式的通信。电子设备400可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或4G)，或它们的组合。在一个示例性实施例中，通信组件418经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件418还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在本公开一实施例中，电子设备400可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述三维虚拟形象的生成方法。

在本公开一实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器404，上述指令可由电子设备400的处理器420执行以完成上述个性化音色的生成方法。例如，所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种个性化音色的生成方法，其特征在于，包括：

响应于录制音频的操作，录制输入的第一音频；

将所述第一音频的原始音色转换为基础音色参数，并将所述基础音色参数与所述音色调整参数的数值进行叠加；其中，所述原始音色包括从所述第一音频中提取的用户音色；

将叠加后的音色参数进行音色转换，获得与所述原始音色对应的个性化音色；

2.根据权利要求1所述的方法，其特征在于，所述音色选项包括音色调整的滑动条，所述滑动条的两端分别为第一音色和第二音色，所述滑动条的中间位置对应了所述原始音色。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，在所述保存所述原始音色与所述个性化音色之间的对应关系之后，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述第二音频包括视频直播时主播输入的直播音频。

6.根据权利要求1所述的方法，其特征在于，所述响应于调整音色的操作，基于所述操作所确定的音色调整内容，对所述第一音频的原始音色进行调整，获得与所述原始音色对应的个性化音色，包括：

7.根据权利要求6所述的方法，其特征在于，所述音色风格类型至少包括第一音色风格和/或第二音色风格；其中，第一音色风格对应的预设音色包括卡通音色；第二音色风格对应的预设音色包括娃娃音色。

8.一种个性化音色的生成装置，其特征在于，包括：

调整单元，被配置为执行响应于音色调整界面中对音色选项的操作，获取操作后所述音色选项对应的音色调整参数；将所述第一音频的原始音色转换为基础音色参数，并将所述基础音色参数与所述音色调整参数的数值进行叠加；将叠加后的音色参数进行音色转换，获得与所述原始音色对应的个性化音色；其中，所述原始音色包括从所述第一音频中提取的用户音色；

9.根据权利要求8所述的装置，其特征在于，所述音色选项包括音色调整的滑动条，所述滑动条的两端分别为第一音色和第二音色，所述滑动条的中间位置对应了所述原始音色。

10.根据权利要求8所述的装置，其特征在于，所述装置还包括：

11.根据权利要求8所述的装置，其特征在于，所述保存单元被进一步配置为执行：

所述输出单元被进一步配置为执行：

12.根据权利要求8所述的装置，其特征在于，所述第二音频包括视频直播时主播输入的直播音频。

13.根据权利要求8所述的装置，其特征在于，所述调整单元被进一步配置为执行：

14.根据权利要求13所述的装置，其特征在于，所述音色风格类型至少包括第一音色风格和/或第二音色风格；其中，第一音色风格对应的预设音色包括卡通音色；第二音色风格对应的预设音色包括娃娃音色。

15.一种个性化音色的生成的电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1-7中任一项所述的个性化音色的生成方法。

16.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由个性化音色生成的电子设备的处理器执行时，使得个性化音色生成的电子设备能够执行如权利要求1-7中任一项所述的个性化音色的生成方法。