CN112512649A

CN112512649A - 用于提供音频和视频效果的技术

Info

Publication number: CN112512649A
Application number: CN201980046539.1A
Authority: CN
Inventors: C·M·阿文达诺; S·A·拉普拉沙德
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2018-07-11
Filing date: 2019-02-26
Publication date: 2021-03-16
Anticipated expiration: 2039-02-26
Also published as: WO2020013891A1; DE112019001058T5; CN111787986A; KR20200105700A; KR102367143B1; CN111787986B; CN112512649B; WO2019168834A1

Abstract

本公开的实施方案可提供用于至少部分地基于用户的面部特征和/或语音特征特性来提供音频和/或视频效果的系统、方法和计算机可读介质。例如，可由设备记录该用户的视频和/或音频信号。可分别从该语音音频信号和该视频中提取语音音频特征和面部特征特性。该用户的该面部特征可用于修改虚拟形象的特征以模拟该用户的该面部特征特性。该提取的语音音频特征可被修改以生成经调整的音频信号，或者音频信号可由该语音音频特征合成。该经调整/合成的音频信号可模拟该虚拟形象的语音。可在该用户的设备处提供经修改的视频/音频的预览。

Description

用于提供音频和视频效果的技术

相关申请的交叉引用

本专利申请要求2018年7月11日提交的美国部分继续专利申请16/033111号的优先权，该专利申请要求2018年2月28日提交的美国非临时专利申请15/908603号的优先权，这些公开内容全文以引用方式并入本文。

背景技术

多媒体内容(诸如，表情符号)可作为消息传送通信的一部分来发送。表情符号可表示多种预定义的人、物体、动作和/或其他事物。一些消息传送应用程序允许用户从预定义的表情符号库中进行选择，这些表情符号可作为可包含其他内容(例如，其他多媒体和/或文本内容)的消息的一部分来发送。动画表情是这种其他多媒体内容中的一种类型，在动画表情中用户可选择形象(例如，玩偶)来表示其自身。动画表情可以移动，可以说话，就像用户的视频一样。动画表情使得用户能够以有趣、富有创意的方式创建个性化的表情符号版本。

发明内容

本公开的实施方案可提供用于音频和视频效果的系统、方法和计算机可读介质。例如，启用了一种用于提供音频和视频效果的方法。该方法可在至少具有相机和麦克风的电子设备处执行。该方法可包括显示虚拟形象生成界面。该方法还可包括在该虚拟形象生成界面中显示虚拟形象的第一预览内容。在一些实施方案中，该虚拟形象的该第一预览内容可对应于该相机的视场中的用户头部特写的实时预览视频帧以及相关联的头部特写外观变化。该方法还可包括在显示该虚拟形象的该第一预览内容时，检测该虚拟形象生成界面中的输入。该方法还可包括响应于检测到该虚拟形象生成界面中的输入：在记录会话期间经由相机捕获与用户头部特写相关联的视频信号，以及在记录会话期间经由麦克风捕获语音音频信号。响应于检测到该虚拟形象生成界面中的输入，并且响应于检测到该记录会话期满，该方法还可包括：将语音音频信号变换为第一组语音音频特征，该第一组语音音频特征包括语音音频信号的至少一个话音共振峰；识别与该虚拟形象相关联的预定语音音频信号的特征组；至少部分地基于该第一组语音音频特征和与该虚拟形象相关联的该预定语音音频信号的该特征组生成第二组语音音频特征，该第二组语音音频特征包括该语音音频信号的至少一个话音共振峰的经修改版本；以及至少部分地基于该第二组语音音频特征来合成经修改的语音音频信号。该方法还可包括根据该视频信号和该经修改的语音音频信号在虚拟形象生成界面中生成该虚拟形象的第二预览内容。该方法还可包括在该虚拟形象生成界面中呈现该第二预览内容。

在一些实施方案中，该第一组语音音频特征可包括语音音频信号的包络和精细结构。平滑频率包络(在本文中也称为“包络”)可表示当频率的幅值随时间变化时语音音频信号频率的幅值。除了信号的总增益或能量之外，包络还可表示人类讲话者的声道随频率变化的缓慢变化的主要共振。这些共振中的一些共振被称为“共振峰”。音频信号的精细结构可包括语音音频信号的更精细分辨率频率和/或相位中的至少一者。该精细结构可包括随时间的更长期的相关性，包括音高，其在频率上表现为非常精细的周期性结构。在一些实施方案中，将语音音频信号变换为第一组语音音频特征可包括利用短期傅里叶变换。例如，对包络的识别可利用短期傅立叶变换。在一些实施方案中，合成经修改的语音音频信号可包括利用短期傅里叶逆变换。

在一些实施方案中，公开了一种电子设备，该电子设备包括扬声器、麦克风以及与该扬声器和该麦克风通信的一个或多个处理器。在一些实施方案中，该一个或多个处理器被配置为执行操作。这些操作可包括利用该麦克风捕获对应于用户的语音音频信号。这些操作还可包括将该语音音频信号变换为第一组语音音频特征，该第一组语音音频特征包括该语音音频信号的共振峰。这些操作还可包括识别与虚拟形象相关联的预定语音音频信号的特征组。这些操作还可包括至少部分地基于该第一组语音音频特征和与该虚拟形象相关联的该预定语音音频信号的该特征组来生成第二组语音音频特征。这些操作还可包括根据该第二组语音音频特征合成经修改的语音音频信号。这些操作还可包括在该电子设备的该扬声器处呈现该经修改的语音音频信号。

在一些实施方案中，该预定语音音频信号的该特征组可以至少部分地基于该虚拟形象的类型。可至少部分地基于在该电子设备的用户界面上呈现的形象类型选择选项的用户选择来接收该虚拟形象的类型。在一些实施方案中，该第一组语音音频特征可包括该语音音频信号的共振峰，并且该第二组语音音频特征可至少部分地基于使该第一组语音音频特征的该共振峰移位而生成。在一些实施方案中，该第二组语音音频特征可通过移除共振峰、加宽频率上的共振峰宽度、添加新共振峰(例如，根据该共振峰和可能的其他共振峰的位置以及宽度)、改变与共振峰相关联的能量(例如，增益)等而生成。此类修改也可由语音音频信号的其他特征诸如音高强度以及语音的低频分量和高频分量之间的相对平衡来驱动。在一些实施方案中，生成的该第二组语音音频特征可修改该语音音频信号以模拟与该虚拟形象相关联的该预定语音音频信号。在一些实施方案中，该第一组语音音频特征可包括语音音频信号的包络和/或精细结构。该包络可表示语音音频信号随时间和频率的缓慢变化的幅值。在一些实施方案中，该包络可包括被称为“共振峰”的声道的主要共振。在一些实施方案中，第一组音频特征可附加地包括精细结构，该精细结构可表示语音音频信号的更精细分辨率频率或相位表示中的至少一者。在一些实施方案中，可至少部分地基于修改语音音频信号的相位来生成该第二组语音音频特征，其中修改该语音音频信号的该相位可使得由该第二组语音音频特征合成的该经修改的语音音频信号模拟与该虚拟形象相关联的该预定语音音频信号。

这些操作还可包括从过去信号修改生成机器学习模型以基本上匹配与该虚拟形象相关联的该预定语音音频信号，该过去信号修改与单独修改与多个用户相关联的多个语音音频信号相关联。在一些实施方案中，该机器学习模型可被配置为接收语音音频信号特征组作为输入，并且产生得到的语音音频信号特征组作为输出。这些操作还可包括向机器学习模型提供该第一组语音音频特征，该第一组语音音频特征与对应于用户的该语音音频信号相关联。这些操作还可包括从该机器学习模型获取该第二组语音音频特征，其中由该第二组语音音频特征合成的该经修改的语音音频信号可使得用户的语音音频信号基本上匹配与该虚拟形象相关联的声音信号。在一些实施方案中，该机器学习模型可利用输入语音音频信号，该输入语音音频信号发出与目标信号相同的字词，以便学习如何修改语音音频信号以更加基本上匹配目标信号。

在一些实施方案中，电子设备还包括相机，并且这些操作还包括利用该相机来捕获与该相机的视场中的面部相关联的视频信号。这些操作还可包括从视频信号中提取与该面部相关联的面部特征特性。这些操作还可包括至少部分地基于该面部特征特性和该经修改的语音音频信号来生成经调整的面部元数据。在一些实施方案中，该经修改的语音音频信号在该虚拟形象生成界面中与该虚拟形象的视觉表示一起呈现，该虚拟形象的该视觉表示至少部分地基于该经调整的面部元数据来呈现。

在一些实施方案中，公开了一种可存储计算机可执行指令的计算机可读存储介质，该计算机可执行指令当由一个或多个处理器执行时，将该一个或多个处理器配置为执行操作。这些操作可包括在虚拟形象生成界面处接收与虚拟形象相关联的选择，该虚拟形象与特定声音特性相关联。这些操作还可包括利用麦克风和该虚拟形象生成界面捕获用户的语音音频信号。这些操作还可包括将该用户的该语音音频信号变换为第一组信号特征，该第一组信号特征包括以下中的至少一者：标识该语音音频信号随时间的幅值变化的包络、该语音音频信号的频率或者该语音音频信号的相位。这些操作还可包括至少部分地基于第一组信号特征和与该虚拟形象相关联的该特定声音特性生成第二组语音音频特征。这些操作还可包括根据该第二组语音音频特征合成经修改的语音音频信号，其中该经修改的语音音频信号至少部分地基于与该虚拟形象相关联的该特定声音特性来提供该用户的该语音音频信号的内容。这些操作还可包括在扬声器处呈现该经修改的语音音频信号。

在一些实施方案中，该第二组语音音频特征至少部分地基于将相位替换为与该虚拟形象相关联的预定相位来生成。在一些实施方案中，将该用户的语音音频信号变换为第一组信号特征可利用该第一组信号特征的短期傅里叶变换，并且根据该第二组语音音频特征合成该经修改的语音音频信号可利用该第二组语音音频特征的短期傅里叶逆变换。

在一些实施方案中，这些操作还包括至少部分地基于该包络来识别该语音音频信号的共振峰以及根据窗口函数来修改该共振峰，其中根据该窗口函数来修改该共振峰可导致该共振峰变宽或收缩。

在一些实施方案中，这些操作还包括利用相机来捕获与该相机的视场中的面部相关联的视频信号。这些操作还可包括从视频信号中提取与该面部相关联的面部特征特性。这些操作还可包括至少部分地基于该面部特征特性和该经修改的语音音频信号来生成经调整的面部元数据。这些操作还可包括根据该经调整的面部元数据将该虚拟形象的视觉表示与该经修改的语音音频信号一起呈现。

在一些实施方案中，本文所述的语音修改可基于对用户语音的分析而因用户而异。该分析可部分地基于从用户语音的包络结构获取的特征。具体地，共振峰在频率上是向上移位还是向下移位可取决于用户的第一共振峰或其他共振峰的原始位置。

以下具体实施方式连同附图将提供对本公开的实质和优点的更好的理解。

附图说明

图1是根据至少一个实施方案的简化框图，该框图例示了用于提供如本文所述的音频效果技术的示例性流程。

图2是根据至少一个实施方案的另一简化框图，该框图例示了示例性虚拟形象生成界面。

图3是根据至少一个实施方案的另一简化框图，该框图例示了用于提供如本文所述的音频和/或视频效果技术的硬件和软件组件。

图4是根据至少一个实施方案的另一简化框图，该框图示出了用于提供如本文所述的音频效果的过程。

图5例示了根据至少一个实施方案的与音频信号相关联的示例性包络。

图6是根据至少一个实施方案的例示了包络修改算法的示例的流程图。

图7例示了根据至少一个实施方案的与音频信号相关联的包络的示例性修改。

图8例示了根据至少一个实施方案的与音频信号相关联的包络的另一示例性修改。

图9例示了根据至少一个实施方案的与音频信号相关联的包络的又一示例性修改。

图10是根据至少一个实施方案的流程图，该流程图例示了用于提供如本文所述的音频和视频效果技术的方法。

图11是根据至少一个实施方案的另一流程图，该流程图例示了用于提供如本文所述的音频效果技术的方法。

图12是根据至少一个实施方案的又一流程图，该流程图例示了用于提供如本文所述的音频效果技术的另一方法。

图13是根据至少一个实施方案的简化框图，该框图例示了用于提供如本文所述的音频和/或视频效果技术的计算机架构。

具体实施方式

本公开的某些实施方案涉及用于实现用于提供视频和/或音频效果(例如，已修改的和/或新合成的音频)的各种技术的设备、计算机可读介质和方法。在一些实施方案中，视频效果和音频效果可至少部分地基于记录的面部表情和(例如，用户语音的)音频特征中的一者或两者而被一起提供。在其他实施方案中，单独的音频效果可使用所捕获的音频信号(例如，用户语音)来实现，或者单独的视频效果可使用所捕获的视频来实现。在一些示例中，视频效果和/或音频效果可呈现在用户界面(UI)中，该UI被配置为显示用户的卡通表示(例如，形象或数字玩偶)。表示用户的这种形象可被认为是动画表情，因为这种形象可能看起来像大多数智能电话用户熟悉的表情符号角色；不过，这种形象可以动画方式模拟用户的实际运动。在一些实施方案中，可修改由用户提供的语音音频信号以模拟与特定形象/数字玩偶相关联的语音，并且可单独或与经修改的视频一起提供经修改的音频信号。

作为非限制性示例，可向计算设备的用户呈现用于生成动画表情(例如，具有/不具有音频的形象的视频剪辑)的UI(例如，形象生成界面)。该动画表情可能受限于预定时间量(例如，10秒、30秒等)，或者该动画表情可为不受限的。在UI中，预览区域可使用形象角色来向用户呈现其面部的实时表示。可提供各种形象角色，并且用户甚至可以能够生成或导入他们自己的形象。预览区域可被配置为提供形象的初始预览和记录的视频剪辑的预览。另外，记录的视频剪辑可(例如，在没有任何视频或音频效果的情况下)以其原始形式预览，或者可在具有音频和/或视频效果的情况下预览。在一些情况下，用户可在已记录初始视频剪辑之后选择形象。然后，根据需要，可将预览的形象从一个改成另一个，并且可对其应用相同或不同的视频效果和/或音频效果。例如，如果用户正在查看未加工的预览(例如，没有效果的原始形式)，但是用户切换了形象角色，则UI可被更新以显示视频剪辑相同但采用了新选择的形象的渲染。在预览中，看起来将像是形象角色在以用户在记录期间相同的移动方式在移动，并且在说用户在记录期间所说的内容。在一些实施方案中，可以修改由用户提供的音频信号(例如，口头短语)和/或创建新的音频信号，以模拟与所选择的形象相关联的语音中的用户音频信号的内容。因此，在一些实施方案中，预览将呈现形象角色以与用户在记录期间移动相同的方式移动，而由用户说出的字词能够以匹配或基本上匹配与形象相关联的语音的语音呈现(例如，形象可以与不同音高、深度和/或声音效果的语音相关联)。

作为具体示例，用户可经由UI选择第一形象(例如，独角兽头部)或者可最初提供的默认形象。UI将在预览区域中呈现形象(在该示例中，如果用户选择了卡通独角兽的头部，则为卡通独角兽的头部；如果用户未选择，则为默认的任何其他可用玩偶)，并且设备将(例如，使用一个或多个麦克风和/或一个或多个相机)开始捕获音频和/或视频信息。在一些情况下，初始预览屏幕仅需要视频信息。可分析视频信息，并且可提取面部特征。然后可将这些提取的面部特征实时映射到独角兽面部，使得独角兽头部的初始预览看起来像是用户头部的镜像。在一些情况下，术语“实时”用于指示响应于用户的每个运动而执行提取、映射、渲染和呈现的结果并且这些结果可基本上立即呈现。对于用户而言，看起来将像是他们正在照镜子，不同的是他们面部的图像被替换成了形象。

当用户面部在设备的相机的视线(例如，视野)中时，UI将继续呈现初始预览。在选择UI上的记录示能表示(例如，虚拟按钮)时，设备可开始捕获视频和/或音频信号(例如，用户语音的信号，另外称为“语音音频信号”)。在一些示例中，相机捕获视频并且麦克风捕获音频信号。可利用也能够捕获三维(3D)信息的特殊相机。另外，在一些示例中，可利用能够捕获视频的任何相机。视频可以其原始形式存储并且/或者可存储与该视频相关联的元数据。因此，所捕获的视频可不同于所存储的元数据。在一些实施方案中，在初始预览期间，当用户的面部被实时呈现为玩偶时，视频数据(例如，与数据相关联的元数据)可被高速缓存，同时将该视频数据映射到该玩偶并且进行呈现。然而，该数据可能根本无法永久存储，使得初始预览不可重复使用或不可恢复。

另选地，在一些示例中，一旦用户选择UI的记录示能表示，视频数据和音频数据就可被更永久地存储。音频信号和视频可被分析、处理等，以便提供本文所述的音频和视频效果。在一些示例中，可处理视频以提取面部特征(例如，面部特征特性)，并且可将那些面部特征存储为元数据以用于动画表情视频剪辑。元数据集可用指示与视频剪辑相关联的时间、日期和用户的标识符(ID)来存储。另外，可用相同或其他ID来存储音频。一旦被存储，或在一些示例中，在存储之前，系统(例如，设备的处理器)可从音频信号中提取一组语音音频特征并且从视频中提取面部特征特性。取决于当前选择的形象，该组语音音频特征可用于对平滑频率包络、幅值、音高、定时、频率、相位等进行各种修改。平滑频率包络(在本文中也称为“包络”)可表示当频率的幅值随时间变化时语音音频信号频率的幅值。除了信号的总增益或能量之外，包络还可表示人类讲话者的声道随频率变化的缓慢变化的主要共振。这些共振中的一些共振被称为“共振峰”。音频信号的精细结构可包括语音音频信号的更精细分辨率频率和/或相位中的至少一者。该精细结构可包括随时间的更长期的相关性，包括音高，其在频率上表现为非常精细的周期性结构。另外，在一些示例中，还可根据当前选择的形象调整视频元数据。在一些示例中，在预览本身期间实时提取语音音频特征和/或视频元数据。可部分地基于这些实时特征/元数据提取来调整音频信号和/或视频。

一旦至少部分地基于提取的特征/特性来调整了视频和/或音频信号，就可渲染玩偶的第二预览。可针对每个可能的玩偶执行该渲染，诸如用户滚动经过并且选择不同的玩偶，这些玩偶已根据经调整的数据渲染了。或者可在选择每个玩偶之后执行渲染。在任何情况下，一旦用户选择玩偶，就可呈现第二预览。该第二预览将回放由用户记录的视频剪辑，但该视频剪辑具有经调整的音频信号和/或视频。

以举例的方式，用户可选择独角兽形象。在由用户发起的记录会话期间，视频可由设备的相机捕获并且/或者音频信号(对应于用户语音)可由设备的麦克风捕获。如果捕获了音频信号，则可根据与该独角兽相关联的特征组、与该独角兽相关联的音频信号和/或与基于该独角兽的选择进行修改相关联的规则或逻辑来提取和修改语音音频特征(例如，该语音音频信号的包络、精细结构)。可基于这些修改来修改语音音频特征(或合成新的音频信号)。得到的音频信号可基于用户的原始音频信号，但可将语音修改成听起来更像与独角兽相关联的语音。所执行的修改对于不同的用户可能是不同的，部分地取决于用户语音的原始特征。如果用户然后选择不同的形象(例如，机器人形象)，则可以基于与该机器人形象相关联的特征组、与该机器人形象相关联的音频信号和/或与基于该机器人形象的选择进行修改相关联的规则或逻辑来修改用户的原始音频信号。因此，可修改用户的音频信号(或合成的新音频信号)，该音频信号可基于用户的原始音频信号，但是被修改以模拟与机器人形象相关联的语音。

尽管本文提供的一些示例讨论了正在与音频效果一起执行的视频效果，但应当理解，可在根本不包括视频的示例中提供相同或类似的音频效果。即，用户可选择与特定语音相关联的形象(或角色选择)。然后，用户可对着设备的麦克风说话，并且可捕获到音频信号。可提取音频信号的语音音频特征(例如，语音音频的包络、精细结构或任何合适的特性)，并且可调整所提取的语音音频特征中的至少一些语音音频特征，以便调整音频信号(或合成新信号)以更紧密地匹配(或精确地匹配)与角色相关联的语音。所执行的特定调整可取决于原始语音音频信号的特征以及它们和与期望角色相关联的语音有何不同。

图1是根据至少一个实施方案的简化框图，该框图例示了用于提供如本文所述的音频效果技术的示例性流程100。在框102处，用户104可利用设备106的麦克风来捕获音频信号(也称为语音音频信号)。在提供了内容(例如，字词、重音、变调等)的情况下，音频信号可表示用户104的语音的声波和各种语音特征。作为非限制性示例，用户104可通过在用户界面(例如，虚拟形象生成界面108)处进行的一个或多个选择进入记录会话。在记录会话期间，设备106能够以各种方式捕获用户104的音频信号。例如，用户104可在选择设备106处的特定记录选项之后对着设备106的麦克风说话。在一些示例中，可使用设备106的两个不同设备(例如，麦克风和相机)同时捕获用户104的音频信号和用户104的视频。尽管未示出，但应当理解，还可以任何合适的方式结合本文所述的音频效果来分析和利用所捕获的视频的视频元数据。以举例的方式，可分析视频元数据以识别用户104的面部表情。一旦识别，视频元数据可用于修改形象的视觉表示，使得形象看起来利用了用户的类似面部表情。

在框110处，可从音频信号中提取(例如，由声音效果引擎112)各种语音音频特征(例如，用户语音的音频特性)。以举例的方式，音频信号可被变换为包括音频信号的包络和精细结构的特征组。如上所述，“包络”表示音频信号的声波在频率上的缓慢变化的幅值。该包络随时间而演变。包络修改算法可用于提取和/或修改包括声音音频信号的主要共振的包络。下文参考图6进一步论述了包络修改算法的示例。所提取的包络可包括单独表示声音频谱的频谱峰值的一个或多个共振峰(也称为“话音共振峰”)，或者换句话讲，共振峰表示通过共振增强的音频信号的谐波音符。此类共振峰可具有人类的一般频率范围和带宽，并且可通过记录这些共振中的每个共振的中心频率和带宽来从这些共振中识别。共振可以描述为人的声道解剖结构的不同部分的几何结构与体积的函数，以及这是如何随时间变化的。形象可具有不同组的一般频率范围和带宽，这可部分地与可能与角色相关联的一般解剖结构相关，虽然一般来讲可能不存在此类直接关联。音频信号的“精细结构”(在本文中也称为“残余”)可包括音频信号的剩余结构，该剩余结构包括超出用于限定包络的建模能力的相关性。该精细结构可至少包括音频信号的声波随时间的幅值、音高和/或相位。在一些示例中，可存储所捕获的音频，并且在存储之后提取音频特征。也可在记录会话仍在进行中时完成实时提取音频特征。

在框114处，声音效果引擎112可确定已被选择的形象。在一些实施方案中，用户104可选择(例如，经由虚拟形象生成界面)特定形象(例如，对应于机器人116)。该选择可发生在框102处捕获音频信号之前和/或该选择可发生在框102处捕获音频信号之后。

以举例的方式，用户104可经由虚拟形象生成界面108的选项118选择特定形象(例如，机器人116)。用户104可在虚拟形象生成界面108处选择记录示能表示(例如，记录示能表示120)以发起记录会话并向设备106的麦克风说出“你好我是汤姆”。在一些实施方案中，该记录会话可捕获用户104的视频和音频，而在其他实施方案中，记录会话可单独捕获用户104的音频。记录会话可在用户104再次选择记录示能表示(例如，指示希望结束记录)时、选择结束记录示能表示(例如，记录示能表示可在记录时充当结束记录示能表示)时或者至少部分地基于时间段(例如，10秒、30秒等)期满而结束。在一些情况下，该时间段可以是自动预定，而在其他情况下，其可以是用户选择的(例如，从选项列表中选择或通过文本输入界面以自由形式输入)。另选地，用户104可选择记录示能表示120并且在选择选项118以选择形象之前发起记录会话。在另外的示例中，用户104可选择形象，开始记录会话，并且在记录会话结束之后，用户104可选择与初始选择的形象不同的形象。因此，声音效果引擎112可确定在记录之前、在记录结束之后的某个时刻、在选择收听记录的预览选项时或在任何合适的时间已被选择的形象。

在框122处，声音效果引擎112可根据所选择的形象来调整音频信号。作为非限制性示例，声音效果引擎112可利用所提取的音频信号的音频特征组，并且根据与所选择的形象相关联的特征组修改一个或多个特征(例如，共振峰、幅值、频率/音高、相位等)。在一些实施方案中，一个或多个特征可被替换和/或添加到音频信号的音频特征组。作为具体示例，音频信号的特征组可包括包络和/或残余特征。此类特征可对应于与音频信号的声波随时间的幅值、频率和/或相位相关联的所提取的参数。通过调整此类特征(例如，使包络的话音共振峰移位、改变共振峰的形状、修改和/或替换音频信号的相位参数、添加共振峰、反转共振峰等)，可调整音频信号(或可合成音频信号的经修改版本)。经调整(或合成)的音频信号可使得用户104的音频信号基本上匹配与形象相关联的语音。因此，在图1中示出的示例中，可将用户104的音频信号调整为听起来像与机器人形象相关联的语音。此类特征的调整可部分地取决于用户的原始特征的特性。例如，取决于用户的原始共振峰的位置、间距或形状，所述修改可添加或不添加共振峰。

在框124处，经调整的音频信号(或合成的音频信号)可以与所选择的形象一起呈现。以举例的方式，用户104可以在记录会话结束之后选择虚拟形象生成界面108的预览示能表示126。该预览示能表示可用于指示用户104希望观看记录的预览。一个选项可以是在没有任何音频(以及在一些情况下，视频)效果的情况下播放原始记录。然而，另一个选项可以是播放音频和/或视频的已修改版本。在一些实施方案中，设备106可在屏幕上呈现所选择的形象126(也称为玩偶和/或“动画表情”)。设备106还可配置有扬声器128，该扬声器可播放经调整的音频信号。

虽然在图1中提供了机器人形象以用于例示性目的，但是可以有各种不同的动物(和其他角色)形象可供用户104选择。在一些示例中，每个形象可与和该形象相关联的特定预定义语音相关联。例如，狗可发出类似狗的语音，猫可发出类似猫的语音，猪可发出类似猪的语音，机器人可发出机器人的声音等。这些形象特定的语音可以是预先记录的，或者可以与特定频率或音频特性诸如一般共振峰范围、共振峰间距、由于解剖特征(例如，大的鼻部或鼻孔)引起的额外共振等相关联。声音效果引擎112被配置为利用由用户104提供的音频信号以及与形象相关联的特征组(例如，频率和/或音频特性)来调整(例如，通过基于原始音频信号和/或形象的特征组合成新的音频信号来利用对原始音频信号的数学运算)，使得任何用户的语音可变换为听起来像所选择的形象的语音。在一些情况下，每个用户的狗语音可至少部分地基于所执行的特定音频变换以及每个用户具有不同声音特征的事实而听起来不同。在其他示例中，声音效果引擎112可被配置为修改每个用户的语音以基本上匹配狗的语音，使得每个用户的经修改的音频信号将基本上听起来像狗的语音，具有很少(如果有的话)可识别的差异。在其他实施方案中，不同用户的经修改的语音变得更像角色，同时还保留用户的基础且独特的可识别特性中的一些特性。因此，针对不同用户的狗语音可能更像狗，但针对不同用户而言却有明显的不同。

作为非限制性示例，可通过在频率标度上应用共振峰位置的向上移位或比例平移来将语音音频信号修改为更像猫。对于可能具有相对低嗓音的成人，该向上移位可能比已经具有较高音高、较高共振峰嗓音的人(例如，儿童)高得多。事实上，对于具有相对较高音高的嗓音的人，共振峰移位可能是不必要的。相比之下，为了使每个个体听起来更像大型动物(例如，表征为具有较深沉嗓音的动物，诸如熊)，儿童可能需要比具有相对较深沉嗓音的成年人更高的向下移位。在一些实施方案中，根据所选择的形象，可能通过添加共振峰(例如，鼻腔组件)达到期望效果，该共振峰可能是针对具有大卡车或鼻部的角色创建的(真实的或感知的)东西。一些形象(诸如蜥蜴、蛇或鸭)可与唇部相关联。

图2是根据至少一个实施方案的另一简化框图，该框图例示了示例性虚拟形象生成界面200(下文称为“UI 200”)。UI 200可被配置为使得用户能够根据该用户的身体和/或音频特性生成形象，如本文提供的许多示例中所讨论的。在一些示例中，在选择形象应用程序示能表示202之前，UI 200可看起来不同(例如，它可表现为标准文本(例如，短消息服务(SMS))消息传送应用程序)。形象应用程序可与结合图3讨论的视频效果引擎308和/或声音效果引擎310通信，以提出捕获、处理(例如，提取特征、运行逻辑等)和调整音频和/视频的请求。例如，当用户选择记录示能表示(例如，记录/发送视频剪辑示能表示204)时，该形象应用程序可对形象控制模块进行应用程序编程接口(API)调用(在图12中更详细地讨论)。该形象控制模块可包括视频效果引擎308和/或声音效果引擎310以开始使用适当的硬件组件捕获视频和/或音频信息。在一些示例中，记录/发送视频剪辑示能表示204可在记录会话开始之前表示为红色圆圈(或没有图2中所示的线的普通圆圈)。这样，示能表示将看起来更像标准记录按钮。在记录会话期间，记录/发送视频剪辑示能表示204的外观可改变以看起来像时钟倒计时或定时器的其他表示(例如，如果视频剪辑记录的长度有限)。然而，在其他示例中，记录/发送视频剪辑示能表示204可仅改变颜色以指示形象应用程序正在记录。如果不存在定时器或对记录长度的限制，则用户可能需要再次选择记录/发送视频剪辑示能表示204以终止记录。

在一些示例中，用户可使用形象选择示能表示206来选择形象。这可在记录形象视频剪辑之前和/或在记录形象视频剪辑之后进行。当在记录之前选择时，用户的运动和面部特性的初始预览可被呈现为所选择的形象。另外，将在呈现记录的实时预览时执行记录，其中用户的面部由所选择的形象来表示。一旦记录完成，将再次使用所选择的形象来呈现第二预览(例如，实际记录的回放)。然而，在该阶段，用户可滚动经过形象选择示能表示206以选择新的形象来查看记录预览。在一些情况下，在选择新形象时，UI将开始使用所选择的形象来预览记录。新预览可用音频/视频效果来呈现，或者按原始记录的来呈现。如上所述，关于是呈现已有效果的版本还是原始版本的确定可至少部分地基于所使用的最后回放的方法。例如，如果最后回放使用了效果，则在新形象选择之后的第一回放可使用效果。然而，如果最后回放不使用效果，则在新形象选择之后的第一回放可不使用效果。在一些示例中，用户可通过选择效果预览示能表示208来重放具有效果的形象，或者通过选择原始预览示能表示210来重放不具有效果的形象。一旦满意得到的形象视频和/或音频，用户就可使用记录/发送视频剪辑示能表示204来将消息中的得到的视频/音频发送到另一个计算设备。将使用对应于(例如，具有或不具有效果的)最后预览的格式来发送视频剪辑。在任何时间，如果用户需要，可选择删除示能表示212来删除形象视频和/或音频，并且开始或退出形象和/或消息传送应用程序。

图3是根据至少一个实施方案的另一简化框图300，该框图例示了用于提供如本文所述的音频和/或视频效果技术的硬件和软件组件。在一些示例中，可利用更多或更少的模块来至少部分地基于从用户的记录提取的音频和/或视频特征来实现音频和/或视频效果的提供。在一些示例中，设备302可配置有相机304、麦克风306和用于呈现UI(例如，图2的UI200)和形象预览(例如，记录之前的初始预览以及发送之前记录的预览)的显示屏。视频效果引擎308可被配置为管理形象的列表、处理视频特征(例如，面部特征特性)、修改视频信息、在适当时与声音效果引擎310通信并且在所有视频处理完成并且视频效果已实现(或丢弃)时渲染形象的视频312。视频信息的修改可包括调整或以其他方式编辑与视频文件相关联的元数据。这样，当(经调整或未经调整的)视频元数据用于渲染玩偶时，面部特征可被映射到该玩偶。在一些示例中，声音效果引擎310可存储音频信号和/或音频特征，执行用于确定要实现什么效果的逻辑，合成新的音频信号，修改音频信号和/或音频信号的音频特征，并且在所有音频处理完成和/或音频效果已被实现(或丢弃)时提供经修改的音频314(或新的音频信号)。

在一些示例中，一旦用户选择了记录新的形象剪辑，视频316就可由相机304捕获并且/或者音频信号318就可由麦克风306捕获。在一些情况下，视频316内可能包含多达(或多于)五十个面部特征。示例性视频特征包括但不限于表情持续时间、张开的嘴部、皱眉、微笑、眉毛向上或皱起等。另外，视频316可包括识别面部特征中的每一个面部特征的元数据(例如，指示用户面部上哪些位置移动了或在什么位置的数据点)。视频效果引擎308可被配置为从视频316提取视频特征并且/或者视频特征316可由另一系统提取并被提供至视频效果引擎308。此外，可将视频316(和/或所提取的视频特征)提供至声音效果引擎310。在视频效果引擎308处，可存储和分析与视频316相关联的元数据和/或所提取的特征。在声音效果引擎310处，当视频特征316有助于匹配对应于哪些视频特征的什么视频特征时，可将视频特征316与音频特征318进行比较(例如，查看某个音频特征和视频特征是否同时发生)。

在一些示例中，视频效果引擎308可确定什么形象已被选择。例如，视频效果引擎308可确定形象类型328(例如，机器人、猫、狗、恐龙、独角兽等)。至少部分地基于形象类型328，视频效果引擎308可提取视频元数据(或检索所提供的视频元数据)。视频效果引擎308可被配置为根据形象类型328调整视频元数据。

在一些情况下，音频信号318可被传递到声音效果引擎310。声音效果引擎310可被配置为从音频信号318提取音频特征(例如，特征组)并且/或者该特征组可由另一系统提取并提供至声音效果引擎310。特征中的示例性音频特征可包括但不限于音频信号的幅值、音高/频率、相位(例如，音量、音高、语音、共振峰、持续时间等的变化)或任何合适的音频特性。原始音频320在其被捕获时可包括未处理的音频文件。原始音频320可被传递至声音效果引擎310以用于进一步处理和潜在的(例如，最终的)修改，并且该原始音频也可被单独地存储，使得如果需要可使用原始音频。如上所述，在一些示例中，音频特征可在记录会话期间实时提取，或者在其他示例中，在记录会话完成之后实时提取。

在一些示例中，声音效果引擎310可确定什么形象已被选择。例如，声音效果引擎310可确定形象类型328(例如，机器人、猫、狗、恐龙、独角兽等)。至少部分地基于形象类型328，声音效果引擎310可检索所存储的形象音频信息338。所存储的形象音频信息338可包括描述与特定形象(例如，机器人、猫、狗、恐龙、独角兽等)相关联的语音的各种音频特性和/或与特定形象相关联的形象音频信号的特征组。在一些实施方案中，形象音频信息310可包括用于修改由用户提供的音频信号以匹配(或基本上匹配)该形象的音频信号和/或音频特性的一组规则。声音效果引擎310可被配置为根据形象音频信息338调整音频信号318和/或至少部分地基于音频信号318并且在一些情况下基于形象音频信息338来合成新的音频信号。以举例的方式，声音效果引擎310可以确定对于所选择的形象类型328要调整和/或替换音频信号318的某些特征。可结合图4至图8更详细地讨论许多调整。然而，出于说明的目的，特定形象类型可指示要对话音共振峰、音高、相位、幅值进行的修改，或者可对音频信号318和/或音频信号318的特征进行的任何合适的修改。在一些示例中，将向用户提供在打开/关闭330处使用原始音频文件的选项。如果用户选择“关闭”(例如，关闭效果)，则原始音频320可与形象的视频312(例如，对应于未改变的视频)组合来进行A/V输出332。A/V输出332可被提供给在设备302的UI上呈现的形象应用程序。如果用户选择“开启”(例如，开启效果)，则经修改的音频314可与形象的视频(例如，对应于经修改的视频)组合以生成A/V输出332。在仅执行音频效果的一些实施方案中，诸如其中不提供视频的示例，经修改的音频314可作为输出332被提供而不具有任何视频分量。

视频效果引擎308可负责至少部分地基于形象类型328的选择来提供初始形象图像。另外，视频效果引擎308负责将视频316的视频特征映射到每个形象的适当面部标记。例如，如果视频316的视频特征指示用户正在微笑，则指示微笑的元数据可被映射到所选择的形象的嘴部区域，使得该形象看起来正在形象的视频312中微笑。另外，视频效果引擎308可根据需要从声音效果引擎310接收定时变化。例如，如果声音效果引擎310(例如，基于形象类型328和形象音频信息338)确定语音效果是使音频更多地为低声语音，并且将语音修改为更多地为低声语音，则该效果改变可除了降低的音量以及其他共振峰和/或音高的改变之外，还包括减慢语音本身。因此，语音引擎可产生已修改的音频，该已修改的音频的回放速度相对于音频剪辑的原始音频文件较慢。在这种场景中，声音效果引擎310然后可根据定时变化指示视频效果引擎308，使得可适当地减慢视频文件；否则，视频和音频可能不会同步。如上所述，用户可使用设备302的形象应用程序来选择不同的形象类型。在一些示例中，声音效果引擎310提供的修改可至少部分地基于该选择而改变。类似地，选择不同的形象类型可使得视频效果引擎308以与新选择的形象类型相关联的方式修改视频316。

在一些示例中，图12的视频效果引擎308、声音效果引擎310和/或形象控制模块1236的另一模块可被配置为通过将形象的视频312和经修改的音频314或原始音频320组合成音频/视频(A/V)输出332来封装/渲染形象。A/V输出332可经由图2的UI 200来查看并且可经由设备302的扬声器来听到。在一些实施方案中，在设备302的消息传送应用程序内发起的电子消息可以被传输到其他计算设备，其中该消息包括A/V输出332。

如上所述，在一些示例中，视频效果引擎308可充当特征提取器，在这种情况下，视频316的视频特征在被发送到视频效果引擎308之前可能不存在。虽然在图3中没有以这种方式绘制，但视频效果引擎308的部分实际上可存在于相机304内。另外，在一些示例中，与视频316相关联的元数据可存储在安全容器中，并且当声音效果引擎310正在运行时，该声音效果引擎可从该容器读取元数据。类似地，声音效果引擎308可充当特征提取器，在这种情况下，音频信号318的音频特征在被发送至声音效果引擎310之前可能不存在。虽然在图3中没有以这种方式绘制，但声音效果引擎310的部分实际上可作为麦克风306的一部分存在。

图4是根据至少一个实施方案的另一简化框图，该框图示出了用于提供如本文所述的音频效果的过程400。过程400可由图3的声音效果引擎310执行。过程400可在框402处开始，在该处执行音频变换过程。在一些实施方案中，音频变换过程可包括利用短期傅立叶变换(STFT)将音频信号变换为特征组。在一些实施方案中，对音频信号应用STFT将音频信号分离(或变换)为限定共振峰形状(例如，对应于音频信号的包络)和音频信号的精细结构(例如，对应于音频信号的残余)的包络。更具体地，音频信号的时域输入的帧被变换为STFT系数的帧。此类STFT系数可重叠，其中长度为L的每个STFT窗口可跨越长度为N的两个或更多个时域输入语音帧。STFT系数的每个帧[X(1),…,X(L)]可通过首先将每个帧的系数拆分成两部分来操纵，包括：

1)包络E＝[E(1),…,E(L)]，其中E(k)为所有k的实数和正数；以及

2)残余R＝[R(1),…,R(L)]，其中X(k)＝E(k)R(k)并且R(k)通常为复数。

包络E可表示包括音频信号的一个或多个共振峰的语音相关形状结构。图5中提供了包络的图形表示500。如图5所示，共振峰1可在包络E内以频率索引F1标识，共振峰2可在包络E内以频率索引F2标识，共振峰3可在包络E内以频率索引F3标识，并且共振峰4可在包络E内以频率索引F4标识。图5的共振峰可表示声音频谱的频谱峰值，或者换句话讲，图5的共振峰可表示通过共振增强的音频信号的谐波音符。

返回图4，残余R(例如，由对语音音频信号应用STFT而确定)可包括剩余结构，该剩余结构包括超出用于限定包络E的建模能力的相关性。这可包括更精细的信息，诸如音高，其可嵌入复系数[R(1),…,R(L)]的相位中。在一些示例中，每个系数R(k)可具有幅值|R(k)|和相位“ang(R(k))”，使得：

R(k)＝|R(k)|exp(i×ang(R(k)))，其中i＝sqrt(-1)

因此，通过对音频信号(例如，图3的音频信号318)应用STFT，可生成包括包络404和残余406的特征组。

在框408处，可以确定与形象相关联的音频特征。例如，给定由用户选择的形象类型，可以从存储装置中检索出先前与该形象类型相关联的特定音频信号、音频特征组和/或规则/逻辑。形象的音频特征可以预先提取/提供并存储以供稍后检索。在一些实施方案中，可以存储形象的音频信号，并且可以从该存储的音频信号中提取该形象的音频特征。在另外的示例中，一组规则和/或逻辑可被存储并与形象相关联。通过利用与形象相关联的音频特征(存储和/或提取的特征和/或规则/逻辑)，可以对音频信号进行各种调整。这些修改中的一些修改可在下文中参考图7至图9更详细地描述。

在框410处，可确定包络特定的调整。例如，可以利用与形象相关联的音频特征和/或规则和/或逻辑来确定要对包络404进行的特定调整。因此，对于不同的用户，特定调整可以不同。在一些实施方案中，可以将包络404与和形象相关联(并且包括作为形象的音频特征)的包络进行比较，以便确定包络404与该形象的包络之间的差异。在一些实施方案中，可调整包络404以更接近地类似于该形象的包络。仅以举例的方式，可以移位、加宽或以其他方式修改包络404的一个或多个共振峰以更紧密地匹配该形象的包络。又如，一组规则和/或逻辑可以指示，对于特定形象，要对包络404进行特定共振峰修改。例如，形象可以具有针对每个共振峰的目标中心频率范围和共振峰带宽。用户可在所记录的语音中具有此类值的普遍分布。该变换然后可采用用户的语音，并且通过共振峰移位以及共振峰带宽修改使此类值的得到的分布更接近和/或符合形象的目标值。以这种方式，不同的用户也将具有针对给定形象的不同语音。

在框412处，可确定残余特定的调整。例如，可以利用与形象相关联的音频特征和/或规则和/或逻辑来确定要对残余406进行的特定调整。在一些实施方案中，可以将残余406(残余406的参数和/或系数)与和形象相关联的残余特征组进行比较，以便确定残余406与该形象的残余特征组之间的差异。在一些实施方案中，可以调整残余406的任何合适的参数和/或系数以更接近地类似于该形象的残余特征组。仅以举例的方式，可以修改(或替换)残余406的相位和/或频率和/或幅值以更紧密地匹配与该形象相关联的残余系数。又如，一组规则和/或逻辑可以指示，对于特定形象，要对残余406进行特定修改。

作为具体示例，与形象(例如，机器人形象)相关联的音频特征可包括固定频率的锯齿波。在一些实施方案中，残余406的相位可被修改和/或替换为对应于该锯齿波的相位系数。换句话讲，提供机器人类型语音的音频信号可与机器人形象相关联。可通过将短期傅立叶变换应用于与该机器人形象相关联的音频信号来将该机器人的音频信号变换为各种系数。这些系数可由C＝[C(1),…,C(L)]来表示。每个系数C(k)可包括幅值|C(k)|和相位“ang(C(k))”，使得C(k)＝|C(k)|exp(i×ang(C(k)))。在一些实施方案中，R(k)的每个相位(用户音频信号的相位)可用相位C(k)(例如，与该机器人形象相关联的音频信号的相位)替换。这可由以下等式表示：

R_new＝[R_new(1),…,R_new(L)]，其中R_new(k)＝|R(k)|exp(i×ang(C(k)))以形成：

X_new＝[X_new(1),…,X_new(L)](其中)X_new(k)＝E(k)R_new(k)

然后，X_new的逆STFT可创建经音高修改的语音的时域样本。

在一些实施方案中，用于修改用户的音频信号的规则可以是预定义的，并且/或者用于修改用户的音频信号的规则可以使用过去已经进行的机器学习技术和历史调整来学习。如果使用机器学习技术，则可以使用已经对各种用户的音频输入进行的历史调整来训练模型，以便匹配或基本上匹配与特定形象相关联的音频信号。在一些实施方案中，可使用同时的语音示例来训练模型。以举例的方式，可使用训练数据训练模型，该训练数据包括各种用户说出与目标语音相同的字词和/或短语。通过基于例如监督机器学习技术训练此类模型，模型可被配置为识别要进行的特定调整(例如，对包络和/或对残余)，以便修改音频信号以基本上匹配该形象的音频信号。因此，可以向机器学习模型提供用户的音频信号作为输入，并且可以识别要做出的必要改变，以便调整音频信号和/或合成新的音频信号，该新的音频信号将呈现用户的语音作为基本上匹配与所选择的形象相关联的语音。

作为非限制性示例，目标语音可由配音演员提供。目标语音可以是广为人知的角色，诸如深受喜爱的儿童的卡通角色。配音演员可在角色的语音中提供短语。声音样本可从多个用户收集。这些用户可提供与角色演员相同的短语，但以他们的自然语音提供。在一些实施方案中，可训练机器学习模型以修改所收集的声音样本以更接近地类似于角色的语音。在其他实施方案中，可训练机器学习模型以将声音样本转换为基本上匹配角色的语音。一旦经过训练，机器学习模型就可以用于确定特定修改(例如，对包络和/或残余的修改)，以将输入语音音频信号修改为听起来更像或基本上与目标语音(例如，卡通角色的语音)相同的声音。

在框414处，音频信号可由残余406(经修改或未修改)和包络404(经修改或未修改)合成。例如，特定形象可与对包络404的修改相关联，并且不与对残余406的修改相关联。另一形象可与要对包络404和残余406进行的修改相关联。又一形象可与仅要对残余406进行的修改相关联。因此，可合成包括经修改/未修改的残余406和经修改/未修改的包络404的音频信号。在一些实施方案中，音频输出可通过组合包络404的经修改/未修改版本和残差406的经修改/未修改版本以及应用逆STFT以将包络404的经修改/未修改版本和残差406的经修改/未修改版本变换为得到的音频信号(例如，音频输出)来合成。

在框416处，可提供对应于合成的音频信号的音频输出。该合成的音频信号可对应于上文结合图3讨论的经修改的音频314。因此，利用过程400，用户的音频信号可以被修改或用于合成更紧密地匹配(或基本上匹配)与形象相关联的音频信号(或特征组)的音频信号。

在一些实施方案中，可利用包络修改算法来修改语音音频信号的包络。图6是根据至少一个实施方案的例示了包络修改算法600的示例的流程图。包络修改算法600的操作可在图3的声音效果引擎310中执行。

包络修改算法600可开始于602处，在该处语音音频信号可被变换为短期傅里叶变换(STFT)域。为了将语音音频信号变换为STFT域，可将STFT应用于语音音频信号以将语音音频信号分离(或变换)为限定语音音频信号的共振峰形状(例如，对应于语音音频信号的包络)以及精细结构(例如，对应于语音音频信号的残余)的包络。

在604处，可计算STFT域的幅值。一旦经计算，STFT域的幅值就可用于在606处计算语音音频信号的真实倒谱。真实倒谱是将语音音频信号从两个原始信号的卷积变换为两个信号的总和的同态变换。在一些实施方案中，真实倒谱被定义为信号幅值的对数的傅里叶逆变换。

在608处，可应用窗口函数(例如，汉恩窗口、汉明窗口)来保留/隔离对应于低倒频的频谱包络信息，并且丢弃对应于高倒频的语音音频信号的精细结构。倒频率是作为时间量度的倒谱图的自变量，但在时域中不是音频信号的意义。窗口函数可以是在某个选定间隔之外为零值的数学函数。在一些实施方案中，窗口在较低的倒频率(低于最小音高倒频)下具有非零值，否则具有零值。

在610处，可通过获取窗口化真实倒谱的傅里叶逆变换的指数，将语音音频信号的包络(例如，在608处确定的包络)转换回STFT域。在612处，可将频率翘曲(或另一种修改)应用于该包络的副本。“频率翘曲”是一种变换过程，其中具有特定频率分辨率的特定频率标度上的一个频谱表示被变换为新频率标度上的另一个表示。

在614处，可通过将翘曲的包络除以未修改的包络来生成乘法掩模。该乘法掩模可以定义修改。掩模可被进一步平滑化并在幅值上受到限制，以避免或减轻重建伪影。一旦生成了掩模，就可通过在616处的乘法将其应用于STFT域中的语音音频信号以修改STFT域中的语音音频信号。

一旦使用掩模修改STFT，就可在618处将语音音频信号转换回时域。以举例的方式，可将逆STFT应用于STFT域中的信号以将信号转换回时域。

利用如图6中所述的掩模方法的一个优点是掩模可提供关于修改将对信号产生的特性和效果的见解。例如，如果掩模具有非常大的值(例如，除以非常小的数)，则可能的是重构波形将超过余量，并且可能发生剪辑，或者可能放大噪声等。又如，如果掩模规定了阶跃函数(频率或时间上的突然变化)，则修改可能无法实际实现并且可能导致伪影(例如，混叠)。这些示例指示可方便地操纵掩模(例如，尽管幅值限制、频谱-时间平滑等)以避免或减少不期望的效果。

图4和图6中提供的示例例示了可修改包络(以及在图4的情况下，残余)的多种方式。应当理解，本文所述的包络的任何修改均可通过如图4中所述的直接操纵包络、通过如图6中所述的生成限定修改的掩模然后应用该掩模或两者的组合来执行。以组合方法的示例的方式，可以进行包络“E”和残余“R”的初始直接操纵，如X_new＝E_new*R_new所示，其中E_new是新的实值包络，并且R_new是新的复值残余。基于该初始直接操纵，可计算掩模(例如，M_initial＝E_new/E)。M_initial可被进一步平滑化并且在幅值上受到限制，以避免或减轻重建伪影以生成M_final。因此，M_final的应用可提供E_new(例如，E_new＝M_final*E)。这样，可将对包络的直接操纵与掩蔽包络组合，以便提供适当的修改。尽管本文的一些示例可描述对包络的直接操纵以提供对包络的修改，但应当理解，作为另外一种选择，可通过如图4中所述的生成并应用掩模、或通过如上所述的直接操纵与掩蔽的组合来执行那些相同的示例。

图7至图9各自例示了根据至少一个实施方案的与音频信号相关联的包络的示例性修改。例如，图7例示了对包络(例如，图5的包络500)的修改，其中一个或多个共振峰被移位。原始包络E以图形方式在700A处示出，而具有移位的共振峰的经修改的包络在700B处示出。共振峰移位可引起其中音频信号的音色被修改(例如，语音被加深并且听起来更低)的声音效果，但在一些情况下，不是音频信号的实际音高。图7中示出的共振峰移位可以是预定义的(例如，共振峰应当各自向左和/或向右移位预定量，或者共振峰应当各自根据预定算法移位)。

在一些实施方案中，图7中示出的共振峰移位可利用机器学习算法来确定。以举例的方式，可以在对用户语音进行的历史修改上训练模型以修改用户的相应语音，从而匹配(或基本上匹配)形象的声音特性。在一些实施方案中，目标语音和输入语音可发出相同的字词和/或短语。因此，图7中例示的特定共振峰移位可通过将由用户(例如，图1的用户104)提供的音频信号输入到机器学习算法中来确定，该机器学习算法然后可输出要进行的共振峰特定的修改。然后可应用这些修改(例如，由图3的声音效果引擎310)以便使由用户提供的音频信号的共振峰移位。

在一些实施方案中，可使包络E的频率轴翘曲。换句话讲，可将频率索引k乘以因子Q(例如，0.5、2等)。在一些实施方案中，小于1.0的乘数可收缩共振峰(例如，将图7的共振峰向左移位)，而大于1.0的乘数可扩展共振峰(例如，将图7的共振峰向右移位)。因此，图7可示出当Q>1.0时共振峰的移位。

在一些实施方案中，类似于图7中描绘的共振峰移位可与对图4的残余406进行的相位调整相结合。例如，与外星人形象相关联的语音可通过如图7中所述的使共振峰移位以及调整音频信号的相位而从用户的音频信号生成。在一些示例中，可至少部分地基于与外星人形象相关联的锯齿波音频信号图案来调整用户的音频信号的相位。

图8例示了对包络(例如，图5的包络500)的修改，其中一个或多个共振峰被加宽。在示出的示例中，可经由带宽扩展来操纵包络404的共振峰1。以举例的方式，共振峰1(例如，原始包络500的共振峰)可与窗口(例如，汉恩窗口或汉明窗口)进行卷积。汉恩窗口或汉明窗口可为其中零值出现在某个预定间隔之外的数学函数。汉恩窗口和/或汉明窗口可用于减少傅里叶变换中的频谱泄漏。通过将共振峰802(例如，图5的共振峰1)与窗口804(例如，汉明窗口)进行卷积，可生成加宽的共振峰1，如806所示。

图9例示了对包络(例如，图5的包络500)的另一种修改。如图9中示出的对包络的修改可产生包括鼻腔效果的音频信号。鼻腔效果可主要通过包络500产生，尽管音高移位(R的相位修改)也可以帮助。尽管未示出，但音高移位可以通过将音高乘以系数z来增加音高。因此，为了模拟鼻腔发音，可以加宽形象共振峰，创建新的共振峰等。

作为非限制性示例，可通过用窄的汉明窗口对包络500进行卷积来加宽包络500的共振峰。这可不改变F1或F2。相反，用窄的汉明窗口对包络500进行卷积可加宽一个或多个共振峰的宽度。共振点(例如，F1和F2处的点)可通过搜索频谱中至少与最小阈值宽度一样宽的峰来识别。

在一些实施方案中，可确定第一共振峰的共振峰带宽。第一共振峰(例如，共振峰1)可被定义为F1周围的E(k)超过阈值的索引值跨度。这可表示为E(F1)×FactorF1，其中FactorF1<1.0。例如，FactorF1可等于0.25。这可被称为“BWF1”。类似地，可以确定第二共振峰的共振峰带宽。第二共振峰(例如，共振峰2)可被定义为F2周围的E(k)超过阈值的索引值跨度。这可表示为E(F1)×FactorF2，其中FactorF1<1.0。这可被称为“BWF2”。

在一些实施方案中，可使用被定义为EdB＝[EdB(1),…,EdB(L)](其中)EdB(k)＝20_log10(E(k))的对数包络来在对数域中操纵包络500。如果BWF1超过最小值，例如100Hz的等效值，则可通过以E(k)超过阈值E(F1)×FactorF1的中心F1周围的共振峰“驼峰”来拆分第一共振峰。在对数域中，该驼峰可通过加深谷值的乘法因子来倒置和缩放。这基本上拆分了第一共振峰，就好像频谱中的零在F1附近被插入一样。

在一些实施方案中，如果F1和F2之间的距离超过最小值(例如，500Hz的等效值)，则可在这两个共振峰(例如，共振峰1和共振峰2)之间插入新共振。例如，(非倒置的)移除的驼峰的原始形状可以被缩放并且添加在共振峰1和共振峰2之间。当利用得到的包络来合成音频信号(例如，使用逆STFT)时，得到的音频信号可包括鼻音效果。

应当理解，图7至图9仅为其中包络可修改的各种示例中的一些示例。可以设想，进行各种包络和/或残余调整以调整/产生音频信号，从而模拟与形象相关联的声音特性。又如，可以修改用户的音频信号以产生与特定形象相关联的低声效果。为了产生低声效果，包络500可按照因子Q>1.0(例如，Q＝1.1)进行拉伸。这可给我们经修改的包络E1。然后可对E1进行带宽扩展(例如，利用如上文结合图8所述的汉恩窗口或汉明窗口)以产生E2。在一些实施方案中，可利用具有600Hz至1000Hz的窗口长度的汉恩窗口，这可使得E1的共振峰的相对极端的加宽。

在一些实施方案中，可计算相对包络。E_relative＝E2/E1，其中最大值是有限的(例如，至1.0)。因此，E_relative＝[E_relative(1),…,E_relative(L)]，其中E_relative(k)<＝1.0。残余R的相位可被随机化以给出R_new。

在一些实施方案中，F1与F2之间的频率轴可被分为2个区域。可如上文相对于鼻腔效果所述计算第一共振峰带宽，并且可确定频率范围(例如，[F1_lower,F1_upper])。类似地，可针对F2计算第二共振峰带宽，并且可针对第二共振峰确定第二频率范围[F2_lower,F2_upper]。可在F1与F2之间确定两个中点，使得F_mid1＝min(F1_upper,F2_lower)，并且F_mid2＝max(F1_upper,F2_lower)。那么，F_mid2可大于或等于F_mid1。

在一些实施方案中，可调整E_relative(k)的频率以形成新的包络E_relnew，使得如果将E_relnew应用于原始包络E，则新幅值将严格小于E(F2)并且所有幅值均将随着减小的k而减小。这可在数学上被描述为交互过程，其中在索引k处的修改会影响在索引k+1处产生的修改。从频率索引k＝F_mid1下降至k＝1，我们逐渐将E_relative(k)向下驱动。最后，相对频谱E_relnew可被平滑化以抑制低频，同时放大高频，类似于“高音”增强。可针对E_relnew计算逆STFT以计算经修改的语音的新时域(例如，以合成将原始音频信号呈现为低声版本的音频输出，该低声版本匹配或基本上匹配与形象相关联的音频特性)。

图10是根据至少一个实施方案的流程图，该流程图例示了提供如本文所述的音频和视频效果技术的方法10000。方法900可在至少具有相机和麦克风的电子设备处执行。可以任何合适的顺序执行方法1000的操作。在一些实施方案中，可包括附加的操作，或者可排除方法1000的操作中的至少一个操作。

方法1000可在框1002处开始，在该处可显示虚拟形象生成界面(例如，虚拟形象生成界面200)。在一些实施方案中，该界面可由图13的视频效果引擎1342、声音效果引擎1344或形象应用模块1338提供。

在框1004处，可在虚拟形象生成界面中显示(例如，由视频效果引擎1342)虚拟形象的第一预览内容。在一些实施方案中，该虚拟形象的该第一预览内容可对应于该相机的视场中的用户头部特写的实时预览视频帧以及相关联的头部特写外观变化。

在框1006处，在显示该虚拟形象的该第一预览内容时，可在该虚拟形象生成界面中检测到输入。在至少一个实施方案中，该输入可对应于记录/发送视频剪辑选项204的选择。在一些实施方案中，该输入可以附加地或另选地对应于虚拟形象类型(例如，狗、猫、恐龙、猪等)的选择。

在框1008处，响应于检测到虚拟形象生成界面中的输入，可以在记录会话期间用相机捕获与用户头部特写相关联的视频信号。

在框1010处，响应于检测到虚拟形象生成界面中的输入，可以在记录会话期间用麦克风捕获语音音频信号。

在框1012处，响应于检测到记录会话的期满，可将语音音频信号变换(例如，由声音效果引擎1344，图1的声音效果引擎112的示例)为第一组语音音频特征。在一些实施方案中，该第一组语音音频特征可包括语音音频信号的至少一个话音共振峰。

在框1014处，响应于检测到记录会话的期满，可以确定(例如，由声音效果引擎1344)与虚拟形象相关联的预定语音音频信号的特征组。该特征组可包括语音音频信号的包络和/或精细结构。在一些实施方案中，可利用短期傅立叶变换来确定特征组。

在框1016处，响应于检测到记录会话的期满，可以至少部分地基于第一组语音音频特征和与虚拟形象相关联的预定语音音频信号的特征组来生成第二组语音音频特征。在一些实施方案中，该第二组语音音频特征可包括语音音频信号的至少一个话音共振峰的经修改版本。

在框1018处，响应于检测到记录会话的期满，可至少部分地基于第二组语音音频特征(例如，由声音效果引擎1344)合成经修改的语音音频信号。在一些实施方案中，可通过修改第一组语音音频特征、通过替换第一组语音音频特征中的至少一个语音音频特征等来合成该语音音频信号。合成经修改的语音音频信号还可包括利用短期傅里叶逆变换。

以举例的方式，机器人形象可与包括机器人语音的预定语音音频信号相关联。因此，可对语音音频信号进行特定修改以合成该语音音频信号的经修改版本，该经修改版本更紧密地(或基本上匹配)与机器人相关联的预定语音音频信号。作为非限制性示例，如上所述，可以用与机器人形象相关联的预定语音音频信号的相位系数替换第一组语音音频特征的相位系数。这仅为一个示例。每种类型的虚拟形象(例如，狗、猫、猪、恐龙、机器人、外星人等)可单独与特定预定语音音频信号相关联。猫可以是利用低声语音的相对高音高的音频信号。猪可与鼻音语音相关联。恐龙可与高幅值的深沉语音相关联。外星人语音可与对应于如上所述的锯齿波的语音相关联。这些仅为多个示例，应当理解，设想了更多或更少并且可能不同类型的形象，每个形象与该形象类型唯一的特定预定语音音频信号(或一组语音音频特征)相关联。

在框1020处，可以根据视频信号和经修改的语音音频信号在虚拟形象生成界面中生成(例如，由视频效果引擎1342)虚拟形象的第二预览内容。

在框1022处，可以在虚拟形象生成界面中呈现该第二预览内容。

图11是根据至少一个实施方案的另一流程图，该流程图例示了用于提供如本文所述的音频效果技术的方法1100。方法1100可在至少具有扬声器和麦克风的电子设备处执行。方法1100的操作可由与扬声器和麦克风通信的一个或多个处理器以任何合适的顺序执行。在一些实施方案中，可包括附加的操作，或者可排除方法1100的操作中的至少一个操作。

方法1100可在1102处开始，在该处可利用麦克风捕获对应于用户的语音音频信号。以举例的方式，该用户可选择图2的虚拟形象生成界面200的示能表示以开始捕获语音音频信号。

在1104处，可将语音音频信号变换为第一组语音音频特征。该第一组语音音频特征包括该语音音频信号的共振峰。在一些实施方案中，可利用短期傅立叶变换将语音音频信号变换为第一组语音音频特征。

在1106处，可以识别与虚拟形象相关联的预定语音音频信号的特征组(例如，由图13的声音效果引擎1344)。该特征组可包括语音音频信号的包络和/或精细结构。

在1108处，可以至少部分地基于第一组语音音频特征和与虚拟形象相关联的预定语音音频信号的特征组(例如，由声音效果引擎1344)来生成第二组语音音频特征。

在1110处，可根据该第二组语音音频特征来合成经修改的语音音频信号。在一些实施方案中，合成第二组语音音频特征可包括修改第一组语音音频特征中的至少一个语音音频特征、替换第一组语音音频特征中的至少一个语音音频特征等。

在1112处，可在电子设备的扬声器处呈现经修改的语音音频信号。

图12是根据至少一个实施方案的又一流程图，该流程图例示了用于提供如本文所述的音频效果技术的另一方法1200。方法1200可由被配置为执行存储在计算机可读存储介质上的计算机可执行指令的一个或多个处理器来执行。方法1200的操作可由与扬声器和麦克风通信的一个或多个处理器以任何合适的顺序执行。在一些实施方案中，可包括附加的操作，或者可排除方法1200的操作中的至少一个操作。

方法1200可在1202处开始，在虚拟形象生成界面处接收到与虚拟形象相关联的选择，该虚拟形象与特定声音特性相关联。

在1204处，可以利用麦克风和虚拟形象生成界面捕获用户的语音音频信号。

在1206处，可将用户的语音音频信号变换(例如，由图13的声音效果引擎1344)为第一组信号特征。在一些实施方案中，第一组信号特征可包括以下中的至少一者：标识语音音频信号随时间的幅值变化的包络、语音音频信号的频率或者语音音频信号的相位。

在1208处，可至少部分地基于第一组信号特征和与虚拟形象相关联的特定声音特性生成(例如，由声音效果引擎1344)第二组语音音频特征。

在1210处，可根据第二组语音音频特征合成(例如，由声音效果引擎1344)经修改的语音音频信号。在一些实施方案中，该经修改的语音音频信号可以至少部分地基于与虚拟形象相关联的特定声音特性来提供用户的语音音频信号的内容。

在1212处，可在扬声器处呈现经修改的语音音频信号。

图13是根据至少一个实施方案的简化框图，该框图例示了用于实现本文所述的特征的示例性架构1300。在一些示例中，具有示例性架构1300的计算设备1302(例如，图1的计算设备106)可被配置为呈现相关UI、捕获音频和视频信息、提取相关数据、执行逻辑、修改音频和视频信息并且呈现动画表情视频和/或音频。

计算设备1302可被配置为执行或以其他方式管理用于执行所述技术的应用程序或指令，这些技术诸如但不限于提供用于记录、预览和/或发送虚拟形象视频/音频剪辑的用户界面(例如，图2的用户界面200)。计算设备1302可在用户界面处(例如，利用I/O设备1304诸如触摸屏)从用户接收输入、捕获信息、处理信息，然后也利用I/O设备1304(例如，计算设备1302的扬声器)将视频和/或剪辑呈现为预览。计算设备1302可被配置为至少部分地基于从所捕获的视频中提取的面部特征和/或从所捕获的音频中提取的语音特征来修改音频和/或视频文件。

计算设备1302可为任何类型的计算设备，诸如但不限于移动电话(例如，智能电话)、平板电脑、个人数字助理(PDA)、膝上型计算机、台式计算机、瘦客户端设备、智能手表、无线耳机等。

在一种例示性配置中，计算设备1302可包括至少一个存储器1314和一个或多个处理单元(或处理器)1316。处理器1316可根据需要以硬件、计算机可执行指令或它们的组合来实现。处理器1316的计算机可执行指令或固件具体实施可包括以任何合适的编程语言编写的计算机可执行指令或机器可执行指令，以执行所描述的各种功能。

存储器1314可存储能够在处理器1316上加载和执行的程序指令以及在执行这些程序过程中所生成的数据。根据计算设备1302的配置和类型不同，存储器1314可为易失性存储器(诸如随机存取存储器(RAM))和/或非易失性存储器(诸如只读存储器(ROM)、闪存存储器等)。计算设备1302还可包括附加的可移除存储装置和/或不可移除存储装置1326，包括但不限于磁存储装置、光盘和/或磁带存储装置。磁盘驱动器及其相关联的非暂态计算机可读介质可为计算设备提供计算机可读指令、数据结构、程序模块及其他数据的非易失性存储装置。在一些具体实施中，存储器1314可包括多种不同类型的存储器，诸如静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)或ROM。虽然本文所述的易失性存储器可以被称为RAM，但是从主机和/或电源拔下后将不会保留其中所存储的数据的任何易失性存储器都是适当的。

存储器1314和附加存储装置1326为可移除或不可移除的，均为非暂态计算机可读存储介质的示例。例如，非暂态计算机可读存储介质可包括易失性或非易失性、可移除或不可移除介质，其通过任何方法或技术实现为用于存储信息诸如计算机可读指令、数据结构、程序模块或其他数据。存储器1314和附加存储装置1326两者均为非暂态计算机存储介质的示例。可存在于计算设备1302中的附加类型的计算机存储介质可包括但不限于：相变RAM(PRAM)、SRAM、DRAM、RAM、ROM、电可擦除可编程只读存储器(EEPROM)、闪存存储器或其他存储器技术、光盘只读存储器(CD-ROM)、数字视频光盘(DVD)或其他光学存储装置、磁带盒、磁带、磁盘存储装置或其他磁性存储设备或任何其他可用于存储所需信息并可被计算设备1302访问的介质。上述任意组合也应该包括在非暂态计算机可读存储介质的范围内。

另选地，计算机可读通信介质可包括计算机可读指令、程序模块或在数据信号诸如载波或其他传输手段内传输的其他数据。然而，如本文所用，计算机可读存储介质不包括计算机可读通信介质。

计算设备1302还可包含通信连接件1328，该通信连接件允许计算设备1302经由一个或多个网络与数据存储器、另一种计算设备或服务器、用户终端和/或其他设备进行通信。此类网络可包括许多不同类型的网络中的任一种或组合，诸如有线网络、互联网、无线网络、蜂窝网络、卫星网络、其他专用网络和/或公共网络或者它们的任意组合。计算设备1302还可包括I/O设备1304，诸如触摸输入设备、键盘、鼠标、笔、语音输入设备、显示器、扬声器、打印机等。

更详细地转至存储器1314的内容，存储器1314可包括操作系统1332和/或用于实现本文公开的特征的一个或多个应用程序或服务，该一个或多个应用程序或服务包括用户界面模块1334、形象控制模块1336、形象应用程序模块1338以及消息传送模块1340。存储器1314还可被配置为存储要用于产生音频和视频输出的一个或多个音频文件和视频文件。这样，计算设备1302可执行本文所述的所有操作。

在一些示例中，用户界面模块1334可以被配置为管理计算设备1302的用户界面。例如，用户界面模块1334可以呈现由计算设备1302请求的任何数量的各种UI。具体地，用户界面模块1334可被配置为呈现图2的UI 200，这使得能够实现本文所述的特征，包括与视频效果引擎1342(例如，图3的视频效果引擎308)和声音效果引擎1344(例如，图3的声音效果引擎310)通信，其共同负责捕获视频和音频信息、提取适当的面部特征和语音特征信息，以及在呈现所生成的形象视频/音频剪辑之前修改视频和音频信息，如上所述。在一些实施方案中，形象控制模块1336可以包括模型管理引擎1346，该模型管理引擎可被配置为存储或访问过去对用户的音频信号进行的历史调整/修改，以使得用户的音频信号被修改为匹配或基本上匹配与形象相关联的语音(例如，音频信号)的音频信号和/或声音特性。模型管理引擎1346可以利用各种机器学习技术(例如，监督学习技术)训练机器学习模型以识别对输入音频信号进行的修改，以便修改该音频信号以模拟与形象相关联的语音。可用对过去用户的音频信号进行的历史调整/修改来训练该机器学习模型。在一些实施方案中，可以使用输入语音音频信号来训练机器学习模型，该输入语音音频信号发出与目标音频信号相同(例如，与特定形象相关联)的字词和/或短语，以便学习如何修改语音音频信号以更加基本上匹配目标信号。因此，机器学习模型可获取用户的音频信号(或音频信号的语音音频特征)和所选择的形象作为输入，并且输出关于修改用户的音频信号以匹配或基本上匹配与形象相关联的语音所需的修改的信息。可由声音效果引擎1344利用机器学习模型的输出，以便将用户的语音(例如，音频信号)修改为听起来像与形象相关联的语音。

在一些示例中，形象控制模块1336被配置为实现上文所述的过程(例如，执行用于实现过程的指令)，而形象应用程序模块1338被配置为实现面向用户的应用程序。如上所述，形象应用程序模块1338可利用一个或多个API来请求和/或向形象控制模块1336提供信息。

在一些实施方案中，消息传送模块1340可实现可与形象控制模块1336和/或形象应用程序模块1338通信的任何独立或附加消息传送应用程序。在一些示例中，消息传送模块1340可与形象应用程序模块1338完全集成(例如，如图2的UI 200所示)，其中形象应用程序看起来是消息传送应用程序的一部分。然而，在其他示例中，当用户请求生成形象视频/音频剪辑时，消息传送应用程序1340可调用形象应用程序模块1338，并且形象应用程序模块1338可完全打开与消息传送模块1340集成的新应用程序。

计算设备1302还可配备有相机和麦克风，并且处理器1316可被配置为执行显示虚拟形象的第一预览的指令。在一些示例中，在显示虚拟形象的第一预览时，可经由用户界面模块1334呈现的虚拟形象生成界面来检测输入。在一些情况下，响应于检测到虚拟形象生成界面中的输入，形象控制模块1336可发起包括以下操作的捕获会话：经由相机捕获与该相机的视场中的面部相关联的视频信号；经由麦克风捕获与捕获到的视频信号相关联的音频信号；从捕获到的音频信号中提取音频特征特性；并且从捕获到的视频信号中提取与面部相关联的面部特征特性。另外，响应于检测到捕获会话的期满，形象控制模块1336可至少部分地基于音频特征特性和面部特征特性来生成经调整的音频信号，并且根据面部特征特性和经调整的音频信号在虚拟形象生成界面中显示虚拟形象的第二预览。

上文描述了用于提供用于至少部分地基于语音和/或面部特征特性来调整音频和/或视频内容的各种技术的例示性方法、计算机可读介质和系统。这些系统、介质和方法中的一些或全部可以但不需要至少部分地由架构和流程(诸如至少在上面的图1至图11中示出的那些架构和流程)来实现。虽然上文参考消息传送应用程序描述了许多实施方案，但应当理解，任何上述技术都可用于任何类型的应用程序(包括实时视频回放或实时视频消息传送应用程序)中。为了解释的目的，阐述了很多具体配置和细节以便提供对示例的彻底理解。但是，对本领域的技术人员也将显而易见的是，一些示例可在没有这些具体细节的情况下被实施。此外，有时省略或简化熟知的特征部以防止对本文所述的示例造成混淆。

还可在各种操作环境中实现各种实施方案，在一些情况下，操作环境可包括可用于操作许多应用程序中的任何应用程序的一个或多个用户计算机、计算设备或处理设备。用户设备或客户端设备可包括许多通用个人计算机中的任何一个，诸如运行标准操作系统的台式计算机或膝上型计算机，以及运行移动软件并能够支持多个联网协议和即时消息协议的蜂窝设备、无线设备和手持设备。此系统还可包括运行各种可商购获得的操作系统和用于目的诸如开发和数据库管理等的其他已知应用程序中的任何一者的多个工作站。这些设备还可包括其他电子设备，诸如虚拟终端、瘦客户端、游戏系统以及能够经由网络进行通信的其他设备。

大多数实施方案利用本领域技术人员熟悉的至少一个网络来支持使用各种商用协议诸如TCP/IP、OSI、FTP、UPnP、NFS、CIFS和AppleTalk中的任何协议的通信。网络可以是例如局域网、广域网、虚拟专用网络、互联网、内联网、外联网、公共交换电话网、红外网络、无线网络及其任何组合。

在利用网络服务器的实施方案中，网络服务器可运行各种服务器或中间层应用程序中的任何一者，包括HTTP服务器、FTP服务器、CGI服务器、数据服务器、Java服务器和业务应用程序服务器。一个或多个服务器还可能够响应于来自用户设备的请求而执行程序或脚本，诸如通过执行一个或多个应用程序，所述一个或多个应用程序可被实现为以任何编程语言诸如

C、C#或C++或者任何脚本语言诸如Perl、Python或TCL以及它们的组合编写的一个或多个脚本或程序。一个或多个服务器还可包括数据库服务器，包括但不限于可从

和

商购获得的那些。

环境可包括各种数据存储库和其他存储器和存储介质，如上所述。这些可驻留在各个位置，诸如在一个或多个计算机本地的存储介质上或者远离网络上的任何或全部计算机的存储介质上(和/或驻留在一个或多个计算机中)。在特定的一组实施方案中，信息可驻留在本领域技术人员熟悉的存储区域网络(SAN)中。类似地，用于执行归属于计算机、服务器或其他网络设备的功能的任何必要文件可以根据需要本地存储以及/或者远程存储。当系统包括计算机化设备时，每个此类设备可包括可经由总线电耦接的硬件元件，所述元件包括例如至少一个中央处理单元(CPU)、至少一个输入设备(例如，鼠标、键盘、控制器、触摸屏或小键盘)，以及至少一个输出设备(例如，显示设备、打印机或扬声器)。此类系统还可包括一个或多个存储设备，诸如磁盘驱动器、光存储设备和固态存储设备诸如RAM或ROM，以及可移除媒体设备、存储卡、闪存卡，等等。

此类设备还可包括如上所述的计算机可读存储介质读取器、通信设备(例如，调制解调器、网卡(无线或有线)、红外通信设备等)和工作存储器。计算机可读存储介质读取器可连接至或配置为接收表示远程、本地、固定和/或可移除的存储设备的非暂态计算机可读存储介质，以及用于临时和/或更永久地包含、存储、传输和检索计算机可读信息的存储介质。系统和各种设备通常还将包括位于至少一个工作存储器设备内的多个软件应用程序、模块、服务或其他元件，包括操作系统和应用程序，诸如客户端应用程序或浏览器。应当理解的是，另选实施方案可具有根据上文所述的许多变型形式。例如，还可使用定制硬件，和/或可在硬件、软件(包括便携式软件，诸如小应用程序)或两者中实现特定元件。此外，可使用与其他计算设备诸如网络输入/输出设备的连接。

用于包含代码或代码的部分的非暂态存储介质和计算机可读存储介质可包括本领域中已知或使用的任何适当的介质(载波等暂态介质除外)，诸如但不限于在任何方法或技术中实现的用于存储信息诸如计算机可读指令、数据结构、程序模块或其他数据的易失性和非易失性、可移除和不可移除的介质，包括RAM、ROM、电可擦除可编程只读存储器(EEPROM)、闪存存储器或其他存储器技术、CD-ROM、DVD或其他光学存储装置、磁带盒、磁带、磁盘存储装置或其他磁性存储设备，或者可用于存储所需信息并且可由系统设备访问的任何其他介质。基于本文提供的公开和教导，本领域的普通技术人员将理解实现各种实施方案的其他方式和/或方法。然而，如上所述，计算机可读存储介质不包括暂态介质诸如载波等。

如上所述，本技术的一个方面是采集和使用用户的语音和/或图像。本公开预期，在一些实例中，这些所采集的数据可包括唯一地识别或可用于联系或定位特定人员的个人信息数据。本公开认识到在本发明技术中使用此类个人信息数据可用于使用户受益。例如，个人信息数据可用于利用用户的声音行为以及用户的身体行为特性来定制动画表情。

本公开设想负责采集、分析、公开、传输、存储或其他使用此类个人信息数据的实体将遵守既定的隐私政策和/或隐私实践。具体地，此类实体应当实行并坚持使用被公认为满足或超出对维护个人信息数据的隐私性和安全性的行业或政府要求的隐私政策和实践。此类政策应该能被用户方便地访问，并应随着数据的采集和/或使用变化而被更新。来自用户的个人信息应当被收集用于实体的合法且合理的用途，并且不在这些合法使用之外共享或出售。此外，应在收到用户知情同意后进行此类采集/共享。此外，此类实体应考虑采取任何必要步骤，保卫和保障对此类个人信息数据的访问，并确保有权访问个人信息数据的其他人遵守其隐私政策和流程。另外，这种实体可使其本身经受第三方评估以证明其遵守广泛接受的隐私政策和实践。此外，应当调整政策和实践，以便采集和/或访问的特定类型的个人信息数据，并适用于包括管辖范围的具体考虑的适用法律和标准。因此，在每个国家应为不同的个人数据类型保持不同的隐私实践。

不管前述情况如何，本公开还预期用户选择性地阻止使用或访问个人信息数据的实施方案。即本公开预期可提供硬件元件和/或软件元件，以防止或阻止对此类个人信息数据的访问。例如，就声音效果引擎而言，本发明技术可被配置为在注册服务期间或之后任何时候允许用户选择“选择加入”或“选择退出”参与对个人信息数据(或其个人信息数据的一部分)的收集。又如，用户可选择不提供个人信息数据以用于自定义动画表情的目的。再如，用户可以选择限制维持个人信息的时间长度或者完全禁止用户主动提醒和/或通知。除了提供“选择加入”和“选择退出”选项外，本公开设想提供与访问或使用个人信息相关的通知。

此外，本公开的目的是应管理和处理个人信息数据以最小化无意或未经授权访问或使用的风险。一旦不再需要数据，通过限制数据收集和删除数据可最小化风险。此外，并且当适用时，数据去标识能够被用于保护用户的隐私。可在适当通过移除特定标识符、控制所存储数据的量或特异性、控制数据如何被存储和/或其他方法来促进去标识。

因此，虽然本公开广泛地覆盖了使用个人信息数据来实现一个或多个各种所公开的实施方案，但本公开还预期各种实施方案也可在无需访问此类个人信息数据的情况下被实现。

相应地，说明书和附图应被视为具有例示性的而非限制性的意义。然而，显而易见的是，在不脱离权利要求中阐述的本公开的更广泛的实质和范围的情况下，可对其进行各种修改和改变。

其他变型形式在本公开的实质内。因此，尽管所公开的技术容易受到各种修改和另选构造的影响，但是其某些例示的实施方案在附图中示出并且已经在上面详细描述。然而，应当理解，并不旨在将本公开限制于所公开的特定形式，相反，其目的在于覆盖落入由所附权利要求所限定的本公开的实质和范围内的所有修改、另选构造和等同形式。

在描述所公开的实施方案的上下文中(特别是在下面的权利要求书的上下文中)使用术语“一”、“一个”和“该”以及类似的指示词将被解释为覆盖单数和复数，除非另有说明或与上下文明显矛盾。除非另有说明，否则术语“包含”、“具有”、“包括”和“含有”应被解释为开放式术语(即，意思为“包括但不限于”)。术语“连接”被解释为即使有干预的东西，也被部分或全部地包含在内、附接或接合在一起。短语“基于”应当被理解为开放式的，并且不以任何方式进行限制，并且旨在在适当的情况下被解释或以其他方式理解为“至少部分地基于”。除非本文另有说明，否则本文中对数值范围的叙述仅仅旨在用作单独提及落入该范围内的每个单独值的简单方法，并且每个单独的值被并入说明书中，如同在本文中单独引用。本文描述的所有方法能够以任何合适的顺序执行，除非本文另有说明或以其他方式与上下文明显矛盾。除非另有声明，否则本文提供的任何和所有示例或示例性语言(例如，“诸如”)的使用仅仅旨在更好地说明本公开的实施方案，并且不会限制本公开的范围。说明书中的任何语言都不应被解释为指示任何未声明的元素对于本公开的实践是必不可少的。

除非另外特别说明，否则析取语言诸如短语“X、Y或Z中的至少一者”在上下文中被理解为通常用于呈现项目、术语等，其可以是X、Y或Z，或它们的任何组合(例如，X、Y和/或Z)。因此，此类析取语言通常不旨在并且不应该暗示某些实施方案要求X中的至少一个、Y中的至少一个或者Z中的至少一个均各自存在。另外，除非另外特别说明，否则诸如短语“X，Y和Z中的至少一者”的联合语言也应理解为意指X、Y、Z或它们的任何组合，包括“X、Y和/或Z”。

本文描述了本公开的优选实施方案，包括发明人已知的用于执行本公开的最佳模式。在阅读前面的描述之后，那些优选实施方案的变型形式对于本领域的普通技术人员来说可变得显而易见。发明人期望技术人员适当地采用此类变型形式，并且发明人旨在以不同于本文具体描述的方式来实践本公开。因此，如适用法律所允许的，本公开包括所附权利要求中记载的主题的所有修改和等同形式。此外，除非在本文中另外指出或者明显与上下文矛盾，否则本公开包含上述元素的所有可能变型形式的任何组合。

本文引用的所有参考文献，包括出版物、专利申请和专利，均据此以引用方式并入本文，正如每篇参考文献被单独且具体地指示为以引用方式并入并且在本文全文阐述。

Claims

1.一种方法，所述方法包括：

在至少具有相机和麦克风的电子设备处：

显示虚拟形象生成界面；

在所述虚拟形象生成界面中显示虚拟形象的第一预览内容，所述虚拟形象的所述第一预览内容对应于所述相机的视场中的用户头部特写的实时预览视频帧以及相关联的头部特写外观变化；

在显示所述虚拟形象的所述第一预览内容时，检测所述虚拟形象生成界面中的输入；

响应于检测到所述虚拟形象生成界面中的所述输入：

在记录会话期间，经由所述相机捕获与所述用户头部特写相关联的视频信号；

在所述记录会话期间，经由所述麦克风捕获语音音频信号；以及

响应于检测到所述记录会话期满：

将所述语音音频信号变换为第一组语音音频特征，所述第一组语音音频特征包括所述语音音频信号的至少一个话音共振峰；

识别与所述虚拟形象相关联的预定语音音频信号的特征组；

至少部分地基于所述第一组语音音频特征和与所述虚拟形象相关联的所述预定语音音频信号的所述特征组生成第二组语音音频特征，所述第二组语音音频特征包括所述语音音频信号的所述至少一个话音共振峰的经修改版本；以及

至少部分地基于所述第二组语音音频特征来合成经修改的语音音频信号；

根据所述视频信号和所述经修改的语音音频信号在所述虚拟形象生成界面中生成所述虚拟形象的第二预览内容；以及

在所述虚拟形象生成界面中呈现所述第二预览内容。

2.根据权利要求1所述的方法，其中所述第一组语音音频特征包括所述语音音频信号的包络和精细结构，所述包络表示所述语音音频信号随时间的幅值，所述精细结构包括所述语音音频信号的频率或相位中的至少一者。

3.根据权利要求1所述的方法，其中将所述语音音频信号变换为所述第一组语音音频特征包括利用短期傅里叶变换。

4.根据权利要求3所述的方法，其中合成所述经修改的语音音频信号包括利用短期傅里叶逆变换。

5.一种电子设备，所述电子设备包括：

扬声器；

麦克风；和

一个或多个处理器，所述一个或多个处理器与所述扬声器和所述麦克风通信，所述一个或多个处理器被配置为：

利用所述麦克风捕获对应于用户的语音音频信号；

将所述语音音频信号变换为第一组语音音频特征，所述第一组语音音频特征包括所述语音音频信号的共振峰；

识别与所述虚拟形象相关联的预定语音音频信号的特征组；

至少部分地基于所述第一组语音音频特征和与所述虚拟形象相关联的所述预定语音音频信号的所述特征组来生成第二组语音音频特征；

根据所述第二组语音音频特征合成经修改的语音音频信号；以及

在所述电子设备的所述扬声器处呈现所述经修改的语音音频信号。

6.根据权利要求5所述的电子设备，其中所述预定语音音频信号的所述特征组至少部分地基于所述虚拟形象的类型。

7.根据权利要求6所述的电子设备，其中至少部分地基于在所述电子设备的用户界面上呈现的形象类型选择选项的用户选择来接收所述虚拟形象的所述类型。

8.根据权利要求5所述的电子设备，其中所述第一组语音音频特征包括所述语音音频信号的共振峰，并且其中所述第二组语音音频特征至少部分地基于使所述第一组语音音频特征的所述共振峰移位而生成。

9.根据权利要求5所述的电子设备，其中生成的所述第二组语音音频特征修改所述语音音频信号以模拟与所述虚拟形象相关联的所述预定语音音频信号。

10.根据权利要求5所述的电子设备，其中所述第一组语音音频特征包括所述语音音频信号的包络和精细结构，所述包络表示所述语音音频信号随时间的幅值，所述精细结构表示所述语音音频信号的频率或相位中的至少一者。

11.根据权利要求10所述的电子设备，其中至少部分地基于修改所述语音音频信号的所述相位来生成所述第二组语音音频特征，并且其中修改所述语音音频信号的所述相位使得由所述第二组语音音频特征合成的所述经修改的语音音频信号模拟与所述虚拟形象相关联的所述预定语音音频信号。

12.根据权利要求10所述的电子设备，其中至少部分地基于根据与所述虚拟形象相关联的所述预定语音音频信号的所述特征组修改所述语音音频信号的所述幅值和所述相位来生成所述第二组语音音频特征。

13.根据权利要求5所述的电子设备，其中所述一个或多个处理器被进一步配置为：

从过去信号修改生成机器学习模型以基本上匹配与所述虚拟形象相关联的所述预定语音音频信号，所述过去信号修改与单独修改与多个用户相关联的多个语音音频信号相关联，所述机器学习模型被配置为接收语音音频信号特征组作为输入并且产生得到的语音音频信号特征组作为输出；

向所述机器学习模型提供所述第一组语音音频特征，所述第一组语音音频特征与对应于用户的所述语音音频信号相关联；以及

从所述机器学习模型获取所述第二组语音音频特征，其中由所述第二组语音音频特征合成的所述经修改的语音音频信号使得所述用户的所述语音音频信号基本上匹配与所述虚拟形象相关联的声音信号。

14.根据权利要求13所述的电子设备，其中所述电子设备还包括相机，并且其中所述一个或多个处理器被进一步配置为：

利用所述相机捕获与所述相机的视场中的面部相关联的视频信号；

从所述视频信号中提取与所述面部相关联的面部特征特性；以及

至少部分地基于所述面部特征特性和所述经修改的语音音频信号来生成经调整的面部元数据。

15.根据权利要求14所述的电子设备，其中所述经修改的语音音频信号在所述虚拟形象生成界面中与所述虚拟形象的视觉表示一起呈现，所述虚拟形象的所述视觉表示至少部分地基于所述经调整的面部元数据来呈现。

16.一种存储计算机可执行指令的计算机可读存储介质，所述计算机可执行指令当由一个或多个处理器执行时，将所述一个或多个处理器配置为执行包括以下项的操作：

在虚拟形象生成界面处接收与虚拟形象相关联的选择，所述虚拟形象与特定声音特性相关联；

利用麦克风和所述虚拟形象生成界面捕获用户的语音音频信号；

将所述用户的所述语音音频信号变换为第一组信号特征，所述第一组信号特征包括以下中的至少一者：标识所述语音音频信号随时间的幅值变化的包络、所述语音音频信号的频率或者所述语音音频信号的相位；

至少部分地基于所述第一组信号特征和与所述虚拟形象相关联的所述特定声音特性生成第二组语音音频特征；

根据所述第二组语音音频特征合成经修改的语音音频信号，其中所述经修改的语音音频信号至少部分地基于与所述虚拟形象相关联的所述特定声音特性来提供所述用户的所述语音音频信号的内容；以及

在扬声器处呈现所述经修改的语音音频信号。

17.根据权利要求16所述的计算机可读存储介质，其中所述第二组语音音频特征至少部分地基于将所述相位替换为与所述虚拟形象相关联的预定相位来生成。

18.根据权利要求16所述的计算机可读存储介质，其中将所述用户的所述语音音频信号变换为第一组信号特征利用了所述第一组信号特征的短期傅里叶变换，并且其中根据所述第二组语音音频特征合成所述经修改的语音音频信号利用了所述第二组语音音频特征的短期傅里叶逆变换。

19.根据权利要求18所述的计算机可读存储介质，其中所述一个或多个处理器被进一步配置为执行包括以下项的操作：

至少部分地基于所述包络来识别所述语音音频信号的共振峰；以及

根据窗口函数修改所述共振峰，其中根据所述窗口函数修改所述共振峰使得所述共振峰变宽或收缩。

20.根据权利要求16所述的计算机可读存储介质，其中所述一个或多个处理器被进一步配置为执行包括以下项的操作：

利用相机捕获与所述相机的视场中的面部相关联的视频信号；

从所述视频信号中提取与所述面部相关联的面部特征特性；

至少部分地基于所述面部特征特性和所述经修改的语音音频信号来生成经调整的面部元数据；以及

根据所述经调整的面部元数据将所述虚拟形象的视觉表示与所述经修改的语音音频信号一起呈现。