CN113889082A

CN113889082A - 音频处理方法及装置、电子设备及计算机可读存储介质

Info

Publication number: CN113889082A
Application number: CN202111203099.1A
Authority: CN
Inventors: 王三军
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2021-10-15
Filing date: 2021-10-15
Publication date: 2022-01-04

Abstract

本申请公开了一种音频处理方法、音频处理装置、电子设备及非易失性计算机可读存储介质。音频处理方法包括获取目标语音特征信息；及根据所述目标语音特征信息，调整音频信号，以使得所述音频信号与所述目标语音特征信息匹配。通过获取想要进行语音播报的目标语音的特征信息，然后根据目标语音特征信息来调整音频信号，使得调整后的音频信号和目标语音特征信息匹配，目标语音特征信息可以是通过任意方式获取的目标音频，从而实现个性化的音频处理，在根据调整后的音频信号进行语音播放时，实现自定义的语音播报体验，且由于音频信号并不需要提前录制，而是实时根据目标语音特征信息进行调整，使得语音播报更为灵活，语音播报体验较好。

Description

音频处理方法及装置、电子设备及计算机可读存储介质

技术领域

本申请涉及音频处理技术领域，更具体而言，涉及一种音频处理方法、音频处理装置、电子设备及非易失性计算机可读存储介质。

背景技术

目前，随着音频技术的发展，为了实现更智能的体验，语音控制方式在各自终端设备的控制中占据了重要的地位，目前的语音播报均是基于预设的语音模板(如提前播放录制好的语音包)来实现的，较为死板，语音播报的体验较差。

发明内容

本申请实施方式提供一种音频处理方法、音频处理装置、电子设备及非易失性计算机可读存储介质。

本申请实施方式的音频处理方法包括获取目标语音特征信息；及根据所述目标语音特征信息，调整音频信号，以使得所述音频信号与所述目标语音特征信息匹配。

本申请实施方式的音频处理装置包括获取模块和调整模块。所述获取模块用于获取目标语音特征信息；所述调整模块用于根据所述目标语音特征信息，调整音频信号，以使得所述音频信号与所述目标语音特征信息匹配。

本申请实施方式的电子设备包括处理器。所述处理器用于获取目标语音特征信息；及根据所述目标语音特征信息，调整音频信号，以使得所述音频信号与所述目标语音特征信息匹配。

本申请实施方式的非易失性计算机可读存储介质包含计算机程序，当所述计算机程序被一个或多个处理器执行时，使得所述处理器执行音频处理方法。所述音频处理方法包括获取目标语音特征信息；及根据所述目标语音特征信息，调整音频信号，以使得所述音频信号与所述目标语音特征信息匹配。

本申请实施方式的音频处理方法、音频处理装置、电子设备及非易失性计算机可读存储介质，通过获取想要进行语音播报的目标语音的特征信息，然后根据目标语音特征信息来调整音频信号，使得调整后的音频信号和目标语音特征信息匹配，目标语音特征信息可以是通过任意方式获取的目标音频，如录制目标对象的声音作为目标音频，从电子设备的存储器或网上获取目标对象的目标音频等，从而实现个性化的音频处理，在根据调整后的音频信号进行语音播放时，实现自定义的语音播报体验，且由于音频信号并不需要提前录制，而是实时根据目标语音特征信息进行调整，使得语音播报更为灵活，语音播报体验较好。

本申请的实施方式的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实施方式的实践了解到。

附图说明

本申请的上述和/或附加的方面和优点从结合下面附图对实施方式的描述中将变得明显和容易理解，其中：

图1是本申请某些实施方式的音频处理方法的流程示意图；

图2是本申请某些实施方式的音频处理装置的示意图；

图3是本申请某些实施方式的电子设备的平面示意图；

图4是本申请某些实施方式的音频处理方法的流程示意图；

图5是本申请某些实施方式的音频处理方法的流程示意图；

图6是本申请某些实施方式的音频处理方法的流程示意图；

图7是本申请某些实施方式的音频处理方法的场景示意图；

图8是本申请某些实施方式的音频处理方法的流程示意图；及

图9是本申请某些实施方式的非易失性计算机可读存储介质和处理器的连接状态示意图。

具体实施方式

下面详细描述本申请的实施方式，所述实施方式的示例在附图中示出，其中，相同或类似的标号自始至终表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本申请的实施方式，而不能理解为对本申请的实施方式的限制。

请参阅图1至图3，本申请实施方式提供一种音频处理方法。该音频处理方法包括步骤：

011：获取目标语音特征信息；及

013：根据目标语音特征信息，调整音频信号，以使得音频信号与目标语音特征信息匹配。

本申请实施方式提供一种音频处理装置10。音频处理装置10包括获取模块11和调整模块13。本申请实施方式的音频处理方法可应用于音频处理装置10。其中，获取模块11用于执行步骤011，调整模块13用于执行步骤013。即，获取模块11用于获取目标语音特征信息。调整模块13用于根据目标语音特征信息，调整音频信号，以使得音频信号与目标语音特征信息匹配。

本申请实施方式还提供一种电子设备100。电子设备100包括处理器20。本申请实施方式的音频处理方法可应用于电子设备100。处理器20用于执行步骤011和步骤013。即，处理器20用于获取目标语音特征信息；及根据目标语音特征信息，调整音频信号，以使得音频信号与目标语音特征信息匹配。

其中，电子设备100还包括壳体30。电子设备100可以是手机、平板电脑、显示设备、笔记本电脑、柜员机、闸机、智能手表、头显设备、游戏机等。如图3所示，本申请实施方式以电子设备100是手机为例进行说明，可以理解，电子设备100的具体形式并不限于手机。壳体30还可用于安装电子设备100的显示装置、成像装置、供电装置、通信装置等功能模块，以使壳体30为功能模块提供防尘、防摔、防水等保护。

具体地，处理器20首先获取目标语音特征信息，目标语音特征信息为目标音频信号的语音特征，目标音频信号可以是用户录制得到的音频信号、电子设备100存储的音频信号、或从网站下载的音频信号等，目标音频信号的语音播报效果即为用户想要的语音播报效果，如用户喜欢的明星的音频信号作为目标音频，用户的家人的音频信号作为目标音频等。

处理器20根据目标语音特征信息，来调整音频信号，从而使得音频信号与目标语音特征信息匹配，音频信号与目标语音特征信息匹配指的是音频信号进行语音播报时的音色和音调分别和目标音频信号的音色和音调匹配，从而使得音频信号在进行语音播报时的播报效果符合用户的需求，实现个性化的音频处理。

本申请实施方式的音频处理方法、音频处理装置10及电子设备100，通过获取想要进行语音播报的目标语音的特征信息，然后根据目标语音特征信息来调整音频信号，使得调整后的音频信号和目标语音特征信息匹配，目标语音特征信息可以是通过任意方式获取的目标音频，如录制目标对象的声音作为目标音频，从电子设备100的存储器或网上获取目标对象的目标音频等，从而实现个性化的音频处理，在根据调整后的音频信号进行语音播放时，实现自定义的语音播报体验，且由于音频信号并不需要提前录制，而是实时根据目标语音特征信息进行调整，使得语音播报更为灵活，语音播报体验较好。

请参阅图2至图4，在某些实施方式中，步骤011：获取目标语音特征信息，包括步骤：

0111：获取目标音频信号；及

0112：处理目标音频信号，以获取目标语音特征信息。

在某些实施方式中，获取模块11还用于执行步骤0111和步骤0112。即获取模块11用于获取目标音频信号；及处理目标音频信号，以获取目标语音特征信息。

在某些实施方式中，处理器20还用于执行步骤0111和步骤0112。即处理器20用于获取目标音频信号；及处理目标音频信号，以获取目标语音特征信息。

具体地，处理器20在获取目标语音特征时，可首先获取目标音频信号，目标信号可以是目标对象(如用户喜欢的明星、用户的家人等)的音频信号，然后通过对目标音频信号进行处理，以获取目标音频信号的目标语音特征信息。

在对目标音频信号进行处理以获取目标语音特征信息时，可对目标音频信号进行傅里叶变换，将目标音频信号转换为频域信号，从而得到目标音频信号的频域信息，处理器20通过对频域信息进行识别，从而得到目标语音特征信息，如目标音频信号的频率分布特征、基波和谐波的频率范围，其中，基波为频率信号中最低的频率分量，谐波为大于基波频率整数倍的分量。如此，通过对目标音频信号进行傅里叶变换，快速得到目标音频的频域信息，并根据频域信息快速确定目标语音特征信息。

请参阅图2、图3和图5，本申请实施方式的音频处理方法，步骤013：根据目标语音特征信息，调整音频信号，以使得音频信号与目标语音特征信息匹配，包括步骤：

0131：调整音频信号的基波和谐波分别至目标语音特征信息的基波范围和谐波范围内，以使得音频信号与目标语音特征信息匹配。

在某些实施方式中，调整模块13还用于执行步骤0131。即调整模块13还用于调整音频信号的基波和谐波分别至目标语音特征信息的基波范围和谐波范围内，以使得音频信号与目标语音特征信息匹配。

某些实施方式中，处理器20用于执行步骤0131。即处理器20用于调整音频信号的基波和谐波分别至目标语音特征信息的基波范围和谐波范围内，以使得音频信号与目标语音特征信息匹配。

具体地，可以理解，基波决定了语音的音调，谐波则影响着语音的音色，因此，通过分别调整音频信号的基波和谐波至目标语音特征信息的基波范围和谐波范围，使得音频信号与目标语音特征信息匹配，可使得音频信号在进行语音播报时，音调和音色与目标音频信号对应的目标对象的音调和音色基本一致，实现自定义的语音播报体验，语音播报体验较好。

请参阅图2、图3和图6，在某些实施方式中，音频处理方法还包括步骤：

0121：接收输入操作，以获取输入音频信号；

0122：基于预设的人工智能算法，识别输入音频信号的控制指令，并根据控制质量控制电子设备100执行对应的操作；

0123：根据操作的结果生成输出音频信号；及

音频信号包括输出音频信号，步骤013：根据目标语音特征信息，调整音频信号，还包括：

0132：根据目标语音特征信息，调整输出音频信号并输出。

在某些实施方式中，音频处理装置还包括处理模块12，处理模块12用于执行步骤121、步骤0122和步骤0123。调整模块13用于执行步骤0132。即处理模块12用于接收输入操作，以获取输入音频信号；基于预设的人工智能算法，识别输入音频信号的控制指令，并根据控制质量控制电子设备100执行对应的操作；根据操作的结果生成输出音频信号。调整模块13用于根据目标语音特征信息，调整输出音频信号并输出。

在某些实施方式中，电子设备100还包括麦克风40，麦克风40用于执行步骤121，处理器20用于执行步骤0122和步骤0123。即麦克风40用于接收输入操作，以获取输入音频信号；处理器20用于基于预设的人工智能算法，识别输入音频信号的控制指令，并根据控制质量控制电子设备100执行对应的操作；根据操作的结果生成输出音频信号；根据目标语音特征信息，调整输出音频信号并输出。

具体地，在对电子设备100进行语音控制时，麦克风40实时接收用户的输入操作(如语音输入)，然后将用户的语音转换为输入音频信号，然后处理器20基于预设的人工智能算法，来识别输入音频信号的控制指令，然后根据控制指令来控制电子设备100执行对应的操作。在操作完成后，则根据操作的结果产生反馈信息，从而根据反馈信息生成输出音频信号。处理器20再对输出音频信号进行处理，以根据目标语音特征信息，调整输出音频信号并输出，从而实现对用户的语音控制的语音播报。

请参阅图7，在一个例子中，用户想要控制电子设备100播放音乐，用户语音输入“播放音乐”，麦克风40根据接收的“播放音乐”的语音输入，生成输入音频信号，然后处理器20识别输入音频信号，以确定控制指令，控制指令即为控制音乐应用程序打开并播放音乐，然后处理器20根据控制指令控制电子设备100打开音乐应用程序，并播放音乐，在执行完播放音乐的操作后，即可确定执行结果为播放音乐成功，此时可根据执行结果生成输出音频信号，输出音频信号即可播报播放音乐成功的语音反馈，最后，处理器20根据目标语音特征信息来对输出音频信号进行调整，从而使得语音播报的音调和音色为用户想要听到的目标对象的音调和音色，如在播放音乐成功后，语音助手以目标对象的音调和音色语音播报“播放音乐成功”，而有时候用户的语音输入过快等导致未识别到控制指令，此时，则可生成“请再说一遍，我没听清”的输出音频信号，从而使得语音助手以目标对象的音调和音色语音播报“请再说一遍，我没听清”。

如此，语音助手能够以目标对象的音调和音色进行语音播报，实现自定义的语音播报体验，且输出音频信号并不需要提前录制，而是实时根据目标语音特征信息进行调整，使得语音播报更为灵活，语音播报体验较好。

请参阅图2、图3和图8，在某些实施方式中，步骤013：根据目标语音特征信息，调整音频信号，还包括：

0133：根据目标语音特征信息，调整输入音频信号并输出。

在某些实施方式中，调整模块13还用于执行步骤0133。即调整模块13用于根据目标语音特征信息，调整输入音频信号并输出。

在某些实施方式中，处理器20用于执行步骤0133。即处理器20用于根据目标语音特征信息，调整输入音频信号并输出。

具体地，在需要进行变声的应用场景，如语音聊天等，麦克风40实时接收用户的输入操作(如语音输入)，然后将用户的语音转换为输入音频信号，然后处理器20根据目标语音特征信息，来实时调整输入音频信号并输出，以使得用户输入的语音能够以目标对象的音调和音色进行输出，从而实现语音聊天过程中的变声，实现更丰富的语音播报体验。

请参阅图9，本申请实施方式还提供一种包含计算机程序201的非易失性计算机可读存储介质200。当计算机程序201被一个或多个处理器20执行时，使得一个或多个处理器20执行上述任一实施方式的音频处理方法。

请结合图1，例如，计算机程序201被一个或多个处理器20执行时，使得处理器20执行以下音频处理方法：

011：获取目标语音特征信息；及

请结合图4，再例如，计算机程序201被一个或多个处理器20执行时，使得处理器20执行以下音频处理方法：

0111：获取目标音频信号；及

0112：处理目标音频信号，以获取目标语音特征信息。

请结合图5，还例如，计算机程序201被一个或多个处理器20执行时，使得处理器20执行以下音频处理方法：

在本说明书的描述中，参考术语“某些实施方式”、“一个例子中”、“示例地”等的描述意指结合所述实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

尽管上面已经示出和描述了本申请的实施方式，可以理解的是，上述实施方式是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施方式进行变化、修改、替换和变型。

Claims

1.一种音频处理方法，其特征在于，所述音频处理方法包括：

获取目标语音特征信息；及

根据所述目标语音特征信息，调整音频信号，以使得所述音频信号与所述目标语音特征信息匹配。

2.根据权利要求1所述的音频处理方法，其特征在于，所述获取目标语音特征信息，包括：

获取目标音频信号；及

处理所述目标音频信号，以获取所述目标语音特征信息。

3.根据权利要求2所述的音频处理方法，其特征在于，所述目标音频信号包括用户录音得到的音频信号、电子设备存储的音频信号、或从网站下载的音频信号。

4.根据权利要求2所述的音频处理方法，其特征在于，所述处理所述目标音频，以获取所述目标语音特征信息，包括：

对所述目标音频信号进行傅里叶变换，以得到所述目标音频信号的频域信息；及

根据所述频域信息，确定所述目标语音特征信息。

5.根据权利要求1所述的音频处理方法，其特征在于，所述目标语音特征信息包括所述基波范围和谐波范围，所述根据所述目标语音特征信息，调整音频信号，以使得所述音频信号与所述目标语音特征信息匹配，包括：

调整所述音频信号的基波和谐波分别至所述基波范围和所述谐波范围内，以使得所述音频信号与所述目标语音特征信息匹配。

6.根据权利要求1所述的音频处理方法，其特征在于，还包括：

接收输入操作，以获取输入音频信号；

基于预设的人工智能算法，识别所述输入音频信号的控制指令，并根据所述控制质量控制电子设备执行对应的操作；

根据所述操作的结果生成输出音频信号；

所述音频信号包括所述输出音频信号，所述根据所述目标语音特征信息，调整音频信号，包括：

根据所述目标语音特征信息，调整所述输出音频信号并输出。

7.根据权利要求6所述的音频处理方法，其特征在于，所述音频信号包括输入音频信号，所述根据所述目标语音特征信息，调整音频信号，包括：

根据所述目标语音特征信息，调整所述输入音频信号并输出。

8.一种音频处理装置，其特征在于，包括：

获取模块，用于获取目标语音特征信息；及

调整模块，用于根据所述目标语音特征信息，调整音频信号，以使得所述音频信号与所述目标语音特征信息匹配。

9.一种电子设备，其特征在于，包括处理器，所述处理器用于获取目标语音特征信息；及根据所述目标语音特征信息，调整音频信号，以使得所述音频信号与所述目标语音特征信息匹配。

10.一种包括计算机程序的非易失性计算机可读存储介质，所述计算机程序被处理器执行时，使得所述处理器执行权利要求1-7任意一项所述的音频处理方法。