CN114630179B

CN114630179B - 音频提取方法和电子设备

Info

Publication number: CN114630179B
Application number: CN202210266536.2A
Authority: CN
Inventors: 刘诗韵
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2022-03-17
Filing date: 2022-03-17
Publication date: 2024-07-23
Anticipated expiration: 2042-03-17
Also published as: CN114630179A

Abstract

本申请公开了一种音频提取方法和电子设备，属于音频技术领域。具体方案包括：在显示第一视频的视频播放界面的情况下，接收用户对目标发声对象的第一输入；响应于所述第一输入，识别所述目标发声对象的发声特征，并根据所述发声特征从所述第一视频对应的第一音频信号中提取所述目标发声对象发出的目标音频信号。

Description

音频提取方法和电子设备

技术领域

本申请属于音频技术领域，具体涉及一种音频提取方法和电子设备。

背景技术

在用户观看视频的过程中，可能会对视频中的声音感兴趣，例如，视频中的发声对象发表了一段演讲，用户想要保存或者转发这段演讲音频。

在相关技术中，若用户想保存或者转发视频中的声音，通常需要将画面和声音一起处理。然而，若连带画面一起保存需要占用更大的存储空间，若连带画面一起转发就会给电子设备造成较大的传输压力，因此，相关技术无法满足用户对视频中声音的处理需求。

发明内容

本申请实施例的目的是提供一种音频提取方法和电子设备，能够解决相关技术无法满足用户对视频中声音的处理需求的问题。

第一方面，本申请实施例提供了一种音频提取方法，该方法包括：在显示第一视频的视频播放界面的情况下，接收用户对目标发声对象的第一输入；响应于所述第一输入，识别所述目标发声对象的发声特征，并根据所述发声特征从所述第一视频对应的第一音频信号中提取所述目标发声对象发出的目标音频信号。

第二方面，本申请实施例提供了一种音频提取装置，包括：接收模块和处理模块；所述接收模块，用于在显示第一视频的视频播放界面的情况下，接收用户对目标发声对象的第一输入；所述处理模块，用于响应于所述第一输入，识别所述目标发声对象的发声特征，并根据所述发声特征从所述第一视频对应的第一音频信号中提取所述目标发声对象发出的目标音频信号。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

第五方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方法。

第六方面，本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如第一方面所述的方法。

在本申请实施例中，在显示第一视频的视频播放界面的情况下，接收用户对目标发声对象的第一输入；响应于所述第一输入，识别所述目标发声对象的发声特征，并根据所述发声特征从所述第一视频对应的第一音频信号中提取所述目标发声对象发出的目标音频信号。通过该方案，一方面，由于可以提取第一视频中的第一音频信号，因此可以为单独处理视频中的声音提供基础，从而满足用户对视频中声音的处理需求；另一方面，由于可以根据目标发声对象的发声特征提取目标发声对象发出的目标音频信号，因此，即使第一视频中存在多个发声对象，也可以实现对单个发声对象发出的音频信号的单独处理。

附图说明

图1是本申请实施例提供的音频提取方法的流程示意图；

图2是本申请实施例提供的音频提取方法的界面示意图之一；

图3是本申请实施例提供的音频提取方法的界面示意图之二；

图4是本申请实施例提供的音频提取方法的界面示意图之三；

图5是本申请实施例提供的音频提取装置的结构示意图；

图6是本申请实施例提供的电子设备的结构示意图；

图7是本申请实施例提供的电子设备的硬件示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的音频提取方法进行详细地说明。

本申请实施例提供的音频提取方法，该音频提取方法的执行主体可以为电子设备或者电子设备中能够实现该音频提取方法的功能模块或功能实体，本申请实施例提及的电子设备包括但不限于手机、平板电脑、电脑、相机、可穿戴设备等，下面以电子设备作为执行主体为例对本申请实施例提供的音频提取方法进行说明。

如图1所示，本申请实施例提供了一种音频提取方法，该方法可以包括步骤101-步骤102：

步骤101、在显示第一视频的视频播放界面的情况下，接收用户对目标发声对象的第一输入。

可选地，上述视频播放界面中包括目标发声对象，也就是说，在电子设备播放到目标发声对象的画面时，用户可以对当前在视频播放界面中显示的目标发声对象进行第一输入。

可选地，上述第一视频可以为视频类应用程序中的视频，也可以为保存在电子设备本地的视频，还可以为其他联系人通过社交类应用程序发送的视频。对此，本申请实施例不做限定。

可选地，上述第一输入可以为触控输入、语音输入或手势输入等。例如，该触控输入可以为用户对电子设备显示的目标发声对象的点击输入或长按输入等。

可选地，上述目标发声对象可以为人物或动物，也可以为能够发出声音的物体，例如，目标发声对象可以为海浪、乐器、汽车等。

示例性地，以第一输入为长按输入、目标发声对象为人物为例。如图2所示，第一视频当前的视频播放界面中包括发声对象21、发声对象22和发声对象23为例。若用户想要获取发声对象21的音频信号，则可以对显示发声对象21的界面区域进行长按输入，相应地，电子设备可以接收用户对发声对象21的长按输入，该发声对象21即目标发声对象。

步骤102、响应于第一输入，识别目标发声对象的发声特征，并根据发声特征从第一视频对应的第一音频信号中提取目标发声对象发出的目标音频信号。

可选地，上述发声特征可以包括以下至少一项：音调、音高、旋律、节奏、信号频率、能量、过零率等。

可选地，上述目标音频信号可以包括第一视频中目标发声对象发出的连续音频信号，也可以包括第一视频中目标发声对象发出的多段不连续音频信号。

可选地，上述目标音频信号可以为第一视频中目标发声对象发出的第二音频信号中的全部音频信号，也可以为目标发声对象发出的第二音频信号中的部分音频信号。

可选地，在目标音频信号为第一视频中目标发声对象发出的第二音频信号中的部分音频信号的情况下，电子设备根据发声特征从所述第一视频对应的第一音频信号中提取所述目标发声对象发出的目标音频信号，具体可以包括：电子设备根据所述发声特征从第一音频信号中确定所述目标发声对象发出的第二音频信号；并在显示所述第二音频信号的输出进度标识的情况下，接收用户的第二输入；然后，响应于所述第二输入，从第二音频信号中提取所述目标音频信号。

可选地，上述输出进度标识上可以包括以下至少一项：至少一个选择控件、时间标识。

可选地，在输出进度标识上包括选择控件的情况下，第二输入可以为用户对输出进度标识上选择控件的拖动输入；在输出进度标识上包括目标发声对象发出的音频信号的时间标识的情况下，第二输入可以为用户对时间段的文本输入。

示例性地，以第二输入为用户对输出进度标识上选择控件的拖动输入为例。如图3所示，电子设备接收到用户对发声对象21的长按输入后，可以识别发声对象21的发声特征，然后根据发声特征从第一音频信号中确定发声对象21发出的第二音频信号；并显示该第二音频信号的输出进度标识31，该输出进度标识31可以包括突出显示的音频片段1和音频片段2，也即是说，发声对象21发出的音频信号包括音频片段1和音频片段2。之后，在显示输出进度标识31的情况下，用户可以对输出进度标识31上显示的选择控件32和选择控件33进行拖动输入，其中，选择控件32可以用于指示目标音频信号的起始输出位置，选择控件33可以用于指示目标音频信号的结束输出位置，然后，电子设备可以响应于该拖动输入，将位于选择控件32和选择控件33之间的、发声对象21发出的音频信号确定为目标音频信号。

可选地，在目标音频信号为第一视频中目标发声对象发出的第二音频信号中的全部音频信号的情况下，一种实现方式为，电子设备可以直接响应于第一输入，识别目标发声对象的发声特征，并根据发声特征从第一音频信号中提取目标发声对象发出的目标音频信号。另一种实现方式为，电子设备可以响应于第一输入，识别目标发声对象的发声特征，并根据该发声特征从第一音频信号中确定目标发声对象发出的第二音频信号，以及显示该第二音频信号对应的输出进度标识，之后，继续参考图3，若用户想要获取目标发声对象发出的第二音频信号，则可以拖动选择控件32和选择控件33，使音频片段1和音频片段2全部位于选择控件32和选择控件33之间。然后，电子设备可以响应于该拖动输入，将音频片段1和音频片段2确定为目标音频信号。

基于上述方案，由于可以通过用户第二输入的触发从目标发声对象发出的第二音频信号中提取目标音频信号，因此，可以为单独处理单个发声对象发出的部分音频信号提供基础。

可选地，在提取到目标音频信号之后，电子设备可以接收用户的第三输入；响应于所述第三输入，对所述目标音频信号执行目标处理动作；其中，所述目标处理动作包括以下至少一项：将所述目标音频信号保存到本地；将所述目标音频信号转化为文本信息；将所述目标发声对象的标识信息与所述目标音频信号相关联；向至少一个联系人转发所述目标音频信号。

可选地，上述目标发声对象的标识信息可以为目标发声对象的图像信息。例如，在目标发声对象为人物的情况下，目标发声对象的图像信息可以为目标发声对象的头像。上述目标发声对象的标识信息也可以为指示目标发声对象身份的文本信息。例如，在目标发声对象为人物的情况下，目标发声对象的文本信息可以为用户输入的目标发声对象的名字。

示例性地，如图4所示，以目标处理动作包括将目标发声对象的图像信息与目标音频信号相关联、向联系人小明转发所述目标音频信号为例。第三输入为用户对目标处理控件的触控输入，在提取到目标音频信号之后，电子设备可以显示目标处理控件，该目标处理控件对应目标处理动作。在显示目标处理控件的情况下，用户可以对目标处理控件进行点击输入，电子设备可以响应于该点击输入，将目标发声对象的图像信息41与目标音频信号相关联，并向小明转发携带该图像信息41的目标音频信号。

基于上述方案，由于可以通过第三输入的触发对目标音频信号执行目标处理动作，因此，可以满足用户对第一视频中音频信号的单独处理需求。

可选地，在上述目标处理动作包括将目标发声对象的标识信息与目标音频信号相关联的情况下，电子设备接收用户对目标发声对象的第一输入之后，还可以根据所述目标音频信号从所述第一视频中提取至少一个图像信息，一个图像信息对应所述目标音频信号中的一段音频；在输出目标段音频的情况下，将目标图像信息确定为所述目标发声对象的标识信息；其中，所述目标段音频为所述目标音频信号中的任意一段音频，所述目标图像信息为所述至少一个图像信息中与所述目标段音频对应的图像信息。

可选地，一段音频可以对应目标发声对象的一句话，或者，一段音频可以对应目标发声对象处于同一神情状态或情绪下的一段话。

示例性地，若目标音频信号中包括3段音频，分别为音频段1、音频段2和音频段3，则电子设备可以提取目标发声对象发出音频段1时的图像信息1，发出音频段2时的图像信息2，以及发出音频段3时的图像信息3，并在输出音频段1时，将图像信息1作为目标发声对象的标识信息，在输出音频段2时，将图像信息2作为目标发声对象的标识信息，在输出音频段3时，将图像信息3作为目标发声对象的标识信息。

基于上述方案，由于可以根据目标音频信号从第一视频中提取至少一个图像信息，因此，可以将目标发声对象的至少一个图像信息与目标音频信号进行关联，如此，不仅可以更加直观的确定目标发声对象的身份信息，还可以确定目标发声对象在发出目标音频信号过程中的神情变化。

可选地，电子设备可以接收用户对目标发声对象的目标部位的第一输入；并响应于第一输入，识别目标部位的发声特征，并根据发声特征从第一视频对应的第一音频信号中提取目标部位发出的目标音频信号。

具体地，由于在一个视频中，同一发声对象可以通过不同的部位发出不同的声音，例如，在目标发声对象为人物的情况下，目标发声对象通过嘴唇可以发出说话或者唱歌的声音，通过双手可以发出鼓掌的声音，通过脚可以发出高跟鞋踩地的声音，因此，用户可以对目标发声对象的目标部位进行第一输入，从而使电子设备可以根据目标部位的发声特征从第一视频对应的第一音频信号中提取目标部位发出的目标音频信号。

基于上述方案，由于可以根据目标部位的发声特征从第一视频对应的第一音频信号中提取目标部位发出的目标音频信号，因此，可以使提取的目标音频信号更加细致和精准，从而满足用户对单一音频信号的处理需求。

在本申请实施例中，一方面，由于可以提取第一视频中的第一音频信号，因此可以为单独处理视频中的声音提供基础，从而满足用户对视频中声音的处理需求；另一方面，由于可以根据目标发声对象的发声特征提取目标发声对象发出的目标音频信号，因此，即使第一视频中存在多个发声对象，也可以实现对单个发声对象发出的音频信号的单独处理。

本申请实施例提供的音频提取方法，执行主体可以为音频提取装置。本申请实施例中以音频提取装置执行音频提取方法为例，说明本申请实施例提供的音频提取装置。

如图5所示，本申请实施例还提供一种音频提取装置500，包括：接收模块501和处理模块502。所述接收模块501，用于在显示第一视频的视频播放界面的情况下，接收用户对目标发声对象的第一输入；所述处理模块502，用于响应于所述第一输入，识别所述目标发声对象的发声特征，并根据所述发声特征从所述第一视频对应的第一音频信号中提取所述目标发声对象发出的目标音频信号。

可选地，在所述目标音频信号为所述第一视频中所述目标发声对象发出的第二音频信号中的部分音频信号的情况下，所述处理模块502，具体用于根据所述发声特征从所述第一音频信号中确定所述第二音频信号；所述接收模块501，还用于在显示所述第二音频信号的输出进度标识的情况下，接收用户的第二输入；所述处理模块502，具体用于响应于所述第二输入，从所述第二音频信号中提取所述目标音频信号。

可选地，所述接收模块501，还用于接收用户的第三输入；所述处理模块502，还用于响应于所述第三输入，对所述目标音频信号执行目标处理动作；其中，所述目标处理动作包括以下至少一项：将所述目标音频信号保存到本地；将所述目标音频信号转化为文本信息；将所述目标发声对象的标识信息与所述目标音频信号相关联；向至少一个联系人转发所述目标音频信号。

可选地，在所述目标处理动作包括将所述目标发声对象的标识信息与所述目标音频信号相关联的情况下，所述接收用户对目标发声对象的第一输入之后，所述处理模块502，还用于根据所述目标音频信号从所述第一视频中提取至少一个图像信息，一个图像信息对应所述目标音频信号中的一段音频；在输出目标段音频的情况下，将目标图像信息确定为所述目标发声对象的标识信息；其中，所述目标段音频为所述目标音频信号中的任意一段音频，所述目标图像信息为所述至少一个图像信息中与所述目标段音频对应的图像信息。

可选地，所述接收模块501，具体用于接收用户对目标发声对象的目标部位的第一输入；所述处理模块502，具体用于响应于所述第一输入，识别所述目标部位的发声特征，并根据所述发声特征从所述第一视频对应的第一音频信号中提取所述目标部位发出的目标音频信号。

本申请实施例中的音频提取装置可以是电子设备，也可以是电子设备中的部件，例如集成电路或芯片。该电子设备可以是终端，也可以为除终端之外的其他设备。示例性的，电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(Mobile Internet Device，MID)、增强现实(augmented reality，AR)/虚拟现实(virtualreality，VR)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personalcomputer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，还可以为服务器、网络附属存储器(Network Attached Storage，NAS)、个人计算机(personalcomputer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的音频提取装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为iOS操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的音频提取装置能够实现图1至图4的方法实施例实现的各个过程，为避免重复，这里不再赘述。

可选地，如图6所示，本申请实施例还提供一种电子设备600，包括处理器601和存储器602，存储器602上存储有可在所述处理器601上运行的程序或指令，该程序或指令被处理器601执行时实现上述音频提取方法实施例的各个步骤，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。

图7为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备1000包括但不限于：射频单元1001、网络模块1002、音频输出单元1003、输入单元1004、传感器1005、显示单元1006、用户输入单元1007、接口单元1008、存储器1009、以及处理器1010等部件。

本领域技术人员可以理解，电子设备1000还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器1010逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图7中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，用户输入单元1007，用于在显示第一视频的视频播放界面的情况下，接收用户对目标发声对象的第一输入；处理器1010，用于响应于所述第一输入，识别所述目标发声对象的发声特征，并根据所述发声特征从所述第一视频对应的第一音频信号中提取所述目标发声对象发出的目标音频信号。

可选地，在所述目标音频信号为所述第一视频中所述目标发声对象发出的第二音频信号中的部分音频信号的情况下，处理器1010，具体用于根据所述发声特征从所述第一音频信号中确定所述第二音频信号；用户输入单元1007，还用于在显示所述第二音频信号的输出进度标识的情况下，接收用户的第二输入；处理器1010，具体用于响应于所述第二输入，从所述第二音频信号中提取所述目标音频信号。

在本申请实施例中，由于可以通过用户第二输入的触发从目标发声对象发出的第二音频信号中提取目标音频信号，因此，可以为单独处理单个发声对象发出的部分音频信号提供基础。

可选地，用户输入单元1007，还用于接收用户的第三输入；所述处理模块502，还用于响应于所述第三输入，对所述目标音频信号执行目标处理动作；其中，所述目标处理动作包括以下至少一项：将所述目标音频信号保存到本地；将所述目标音频信号转化为文本信息；将所述目标发声对象的标识信息与所述目标音频信号相关联；向至少一个联系人转发所述目标音频信号。

在本申请实施例中，由于可以通过第三输入的触发对目标音频信号执行目标处理动作，因此，可以满足用户对第一视频中音频信号的单独处理需求。

可选地，在所述目标处理动作包括将所述目标发声对象的标识信息与所述目标音频信号相关联的情况下，所述接收用户对目标发声对象的第一输入之后，处理器1010，还用于根据所述目标音频信号从所述第一视频中提取至少一个图像信息，一个图像信息对应所述目标音频信号中的一段音频；在输出目标段音频的情况下，将目标图像信息确定为所述目标发声对象的标识信息；其中，所述目标段音频为所述目标音频信号中的任意一段音频，所述目标图像信息为所述至少一个图像信息中与所述目标段音频对应的图像信息。

在本申请实施例中，由于可以根据目标音频信号从第一视频中提取至少一个图像信息，因此，可以将目标发声对象的至少一个图像信息与目标音频信号进行关联，如此，不仅可以更加直观的确定目标发声对象的身份信息，还可以确定目标发声对象在发出目标音频信号过程中的神情变化。

可选地，用户输入单元1007，具体用于接收用户对目标发声对象的目标部位的第一输入；所述处理模块502，具体用于响应于所述第一输入，识别所述目标部位的发声特征，并根据所述发声特征从所述第一视频对应的第一音频信号中提取所述目标部位发出的目标音频信号。

在本申请实施例中，由于可以根据目标部位的发声特征从第一视频对应的第一音频信号中提取目标部位发出的目标音频信号，因此，可以使提取的目标音频信号更加细致和精准，从而满足用户对单一音频信号的处理需求。

应理解的是，本申请实施例中，输入单元1004可以包括图形处理器(GraphicsProcessing Unit，GPU)10041和麦克风10042，图形处理器10041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元1006可包括显示面板10061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板10061。用户输入单元1007包括触控面板10071以及其他输入设备10072中的至少一种。触控面板10071，也称为触摸屏。触控面板10071可包括触摸检测装置和触摸控制器两个部分。其他输入设备10072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

存储器1009可用于存储软件程序以及各种数据。存储器1009可主要包括存储程序或指令的第一存储区和存储数据的第二存储区，其中，第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外，存储器1009可以包括易失性存储器或非易失性存储器，或者，存储器1009可以包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DRRAM)。本申请实施例中的存储器1009包括但不限于这些和任意其它适合类型的存储器。

处理器1010可包括一个或多个处理单元；可选的，处理器1010集成应用处理器和调制解调处理器，其中，应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作，调制解调处理器主要处理无线通信信号，如基带处理器。可以理解的是，上述调制解调处理器也可以不集成到处理器1010中。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述音频提取方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述音频提取方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如上述音频提取方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对相关技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种音频提取方法，其特征在于，包括：

在显示第一视频的视频播放界面的情况下，接收用户对目标发声对象的第一输入；

响应于所述第一输入，识别所述目标发声对象的发声特征，并根据所述发声特征从所述第一视频对应的第一音频信号中提取所述目标发声对象发出的目标音频信号；

所述接收用户对目标发声对象的第一输入，包括：

接收用户对目标发声对象的目标部位的第一输入；

所述响应于所述第一输入，识别所述目标发声对象的发声特征，并根据所述发声特征从所述第一视频对应的第一音频信号中提取所述目标发声对象发出的目标音频信号，包括：

响应于所述第一输入，识别所述目标部位的发声特征，并根据所述发声特征从所述第一视频对应的第一音频信号中提取所述目标部位发出的目标音频信号。

2.根据权利要求1所述的音频提取方法，其特征在于，在所述目标音频信号为所述第一视频中所述目标发声对象发出的第二音频信号中的部分音频信号的情况下，所述根据所述发声特征从所述第一视频对应的第一音频信号中提取所述目标发声对象发出的目标音频信号，包括：

根据所述发声特征从所述第一音频信号中确定所述第二音频信号；

在显示所述第二音频信号的输出进度标识的情况下，接收用户的第二输入；

响应于所述第二输入，从所述第二音频信号中提取所述目标音频信号。

3.根据权利要求1或2所述的音频提取方法，其特征在于，所述根据所述发声特征从所述第一视频对应的第一音频信号中提取所述目标发声对象发出的目标音频信号之后，所述方法还包括：

接收用户的第三输入；

响应于所述第三输入，对所述目标音频信号执行目标处理动作；

其中，所述目标处理动作包括以下至少一项：

将所述目标音频信号保存到本地；

将所述目标音频信号转化为文本信息；

将所述目标发声对象的标识信息与所述目标音频信号相关联；

向至少一个联系人转发所述目标音频信号。

4.根据权利要求3所述的音频提取方法，其特征在于，在所述目标处理动作包括将所述目标发声对象的标识信息与所述目标音频信号相关联的情况下，所述接收用户对目标发声对象的第一输入之后，所述方法还包括：

根据所述目标音频信号从所述第一视频中提取至少一个图像信息，一个图像信息对应所述目标音频信号中的一段音频；

在输出目标段音频的情况下，将目标图像信息确定为所述目标发声对象的标识信息；

其中，所述目标段音频为所述目标音频信号中的任意一段音频，所述目标图像信息为所述至少一个图像信息中与所述目标段音频对应的图像信息。

5.一种音频提取装置，其特征在于，包括：接收模块和处理模块；

所述接收模块，用于在显示第一视频的视频播放界面的情况下，接收用户对目标发声对象的第一输入；

所述处理模块，用于响应于所述第一输入，识别所述目标发声对象的发声特征，并根据所述发声特征从所述第一视频对应的第一音频信号中提取所述目标发声对象发出的目标音频信号；

所述接收模块，具体用于接收用户对目标发声对象的目标部位的第一输入；

所述处理模块，具体用于响应于所述第一输入，识别所述目标部位的发声特征，并根据所述发声特征从所述第一视频对应的第一音频信号中提取所述目标部位发出的目标音频信号。

6.根据权利要求5所述的音频提取装置，其特征在于，在所述目标音频信号为所述第一视频中所述目标发声对象发出的第二音频信号中的部分音频信号的情况下，所述处理模块，具体用于根据所述发声特征从所述第一音频信号中确定所述第二音频信号；

所述接收模块，还用于在显示所述第二音频信号的输出进度标识的情况下，接收用户的第二输入；

所述处理模块，具体用于响应于所述第二输入，从所述第二音频信号中提取所述目标音频信号。

7.根据权利要求5或6所述的音频提取装置，其特征在于，所述接收模块，还用于接收用户的第三输入；

所述处理模块，还用于响应于所述第三输入，对所述目标音频信号执行目标处理动作；

其中，所述目标处理动作包括以下至少一项：

将所述目标音频信号保存到本地；

将所述目标音频信号转化为文本信息；

向至少一个联系人转发所述目标音频信号。

8.根据权利要求7所述的音频提取装置，其特征在于，在所述目标处理动作包括将所述目标发声对象的标识信息与所述目标音频信号相关联的情况下，所述接收用户对目标发声对象的第一输入之后，所述处理模块，还用于根据所述目标音频信号从所述第一视频中提取至少一个图像信息，一个图像信息对应所述目标音频信号中的一段音频；在输出目标段音频的情况下，将目标图像信息确定为所述目标发声对象的标识信息；其中，所述目标段音频为所述目标音频信号中的任意一段音频，所述目标图像信息为所述至少一个图像信息中与所述目标段音频对应的图像信息。

9.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1-4任一项所述的音频提取方法。

10.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1-4任一项所述的音频提取方法。