CN114443889A

CN114443889A - 音频获取的方法、装置、电子设备及存储介质

Info

Publication number: CN114443889A
Application number: CN202111571347.8A
Authority: CN
Inventors: 崔洋洋; 王星宇
Original assignee: Youmi Technology Shenzhen Co ltd
Current assignee: Youmi Technology Shenzhen Co ltd
Priority date: 2021-12-21
Filing date: 2021-12-21
Publication date: 2022-05-06

Abstract

本申请公开了一种音频获取的方法、装置、电子设备及存储介质。本方法包括：获取目标人物的目标人脸特征信息；基于目标人脸特征信息，获取包含目标人物的目标视频片段；获取目标视频片段对应的目标音频片段；从目标音频片段中获取目标人物的说话音频片段。一方面，本方法实现了在无需人工参与的情况下自动获取目标人物的说话音频片段，提高目标人物的说话音频片段的获取效率；另一方面，本方法确定包含目标人物的目标视频片段的过程中充分利用丰富的互联网资源，进而保证了获取到的目标人物的音频说话音频片段的丰富性和多样性。

Description

音频获取的方法、装置、电子设备及存储介质

技术领域

本申请涉及音频信号处理技术领域，更具体地，涉及一种音频获取的方法、装置、电子设备及存储介质。

背景技术

随着人机语音交互技术的发展,个性化语音的生成已经成为人机语音交互场景中重要的需求，即在语音交互系统中，为用户提供语音音色的个性化定制服务。

在相关技术中，基于人工智能的语音音色转换技术往往需要预先收集指定人物的说话音频片段，比如明星、动漫人物等的说话音频片段。但是通过人工录音并标注的方式得到指定人物的说话音频片段，不仅效率低下，而且需要投入大量的人力财力。

发明内容

本申请实施例提供一种音频获取的方法、装置、电子设备及存储介质。

第一方面，本申请一些实施例提供一种音频获取的方法，该方法包括：获取目标人物的目标人脸特征信息；基于目标人脸特征信息，获取包含目标人物的目标视频片段。获取目标视频片段对应的目标音频片段，从目标音频片段中获取目标人物的说话音频片段。

第二方面，本申请一些实施例还提供一种音频获取的装置，该装置包括：目标人脸特征信息获取模块、目标视频片段获取模块、目标音频片段获取模块和说话音频片段获取模块。其中，目标人脸特征信息获取模块用于获取目标人物的目标人脸特征信息。目标视频片段获取模块用于基于目标人脸特征信息，获取包含目标人物的目标视频片段。目标音频片段获取模块用于获取目标视频片段对应的目标音频片段。说话音频片段获取模块用于从目标音频片段中获取目标人物的说话音频片段。

第三方面，本申请一些实施例还提供一种电子设备，该电子设备包括：一个或多个处理器、存储器和一个或多个应用程序。其中，一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个应用程序配置用于执行上述音频获取的方法。

第四方面，本申请实施例还提供一种计算机可读存储介质，计算机可读取存储介质中存储有计算机程序指令，计算机程序指令可被处理器调用执行上述音频获取的方法。

第五方面，本申请实施例还提供一种计算机程序产品，该计算机程序产品被执行时，实现上述音频获取的方法。

本申请实施例提出了的一种音频获取的方法、装置、电子设备及存储介质。在本方法中，基于目标人物的目标人脸特征信息确定包含目标人物的目标视频片段，接着获取该目标视频片段对应的目标音频片段，最后从该目标音频片段中提取目标人物的说话音频片段。一方面，本方法实现了在无需人工参与的情况下自动获取目标人物的说话音频片段，提高目标人物的说话音频片段的获取效率；另一方面，本方法确定包含目标人物的目标视频片段的过程中充分利用丰富的互联网资源，进而保证了获取到的目标人物的音频说话音频片段的丰富性和多样性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请第一实施例提供的一种音频获取的方法的流程示意图。

图2示出了本申请第二实施例提供的一种音频获取的方法的流程示意图。

图3示出了本申请第三实施例提供的一种音频获取的方法的流程示意图。

图4示出了本申请实施例提供的一种基于目标音频片段获取目标人物的说话音频片段的流程框图。

图5示出了本申请第四实施例提供的一种音频获取的方法的流程示意图。

图6示出了本申请第五实施例提供的一种音频获取的方法的流程示意图。

图7示出了本申请实施例提供的一种音频数据库系统的示意图。

图8示出了本申请实施例提供的一种音频获取的装置的模块框图。

图9示出了本申请实施例提供的一种电子设备的模块框图。

图10示出了本申请实施例提供的一种计算机可读存储介质的模块框图。

具体实施方式

下面详细描述本申请的实施方式，实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性地，仅用于解释本申请，而不能理解为对本申请的限制。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

为了使本技术领域的人员更好地理解本申请的方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整的描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了解决上述背景技术中存在的问题，发明人经过长期研究，提出了的一种音频获取的方法、装置、电子设备及存储介质。在本方法中，基于目标人物的目标人脸特征信息确定包含目标人物的目标视频片段，接着获取该目标视频片段对应的目标音频片段，最后从该目标音频片段中提取目标人物的说话音频片段。一方面，本方法实现了在无需人工参与的情况下自动获取目标人物的说话音频片段，提高目标人物的说话音频片段的获取效率；另一方面，本方法确定包含目标人物的目标视频片段的过程中充分利用丰富的互联网资源，进而保证了获取到的目标人物的音频说话音频片段的丰富性和多样性。

本申请实施例提供的技术方案，可以应用在语音导航、智能音箱、影视配音、虚拟偶像等等应用场景。以语音导航这一应用场景为例，电子设备基于本申请实施例提供的技术方案可以获取目标人物(比如名人明星、虚拟偶像)的说话音频片段，利用上述目标人物的说话音频片段，可以合成目标人物对应的语音导航人声，从而实现语音导航的个性化定制。

如图1所示，图1示意性地示出本申请第一实施例提供的一种音频获取的方法，本方法可以包括步骤S110至步骤S140。

步骤S110：获取目标人物的目标人脸特征信息。

目标人物的目标人脸特征信息包括但不限于人脸肤色信息、性别信息和面部特征信息。在一些实施例中，目标人物的目标人脸特征信息是基于目标人物的人脸图像确定的。电子设备获取目标人物的人脸图像，并基于该人脸图像获取目标人物的目标人脸特征信息。在本申请实施例中，目标人脸特征信息可以是向量形式的。具体地，表征目标人脸特征信息的特征向量的一个或多个维度表示目标人脸特征信息中的一项特征信息，比如，特征向量的第5至20维表示目标人脸特征信息中的面部特征信息。

作为一种实施方式，电子设备中存储有人脸特征提取算法，该人脸特征提取算法以目标人物的人脸图像作为算法输入，输出目标人物的目标人脸特征信息。人脸特征提取算法可以是基于HOG的特征提取算法、基于LBP的特征提取算法和基于卷积神经网络的特征提取算法等等，在本申请实施例中不做具体限定。目标人物的人脸图像是预先存储在电子设备中的图像，也可以是电子设备从云端实时获取的。在电子设备中预先存储目标人物的人脸图像的情况下，电子设备通过如下方式获取目标人物的目标人脸特征信息：电子设备在接收到针对人脸图像的人脸特征提取指令，通过图像传输接口接收用户输入的人脸图像，之后基于人脸特征提取算法获取人脸图像中的目标人脸特征信息。

作为另一种实施方式，在电子设备中存储有目标人物的姓名和目标人物的目标人脸特征信息之间的对应关系的第一映射表。电子设备在获取到目标人物的姓名的情况下，通过上述第一映射表，可以确定该目标人物对应的目标人脸特征信息。可选地，上述第一映射表也可以存储在与电子设备建立通讯连接的服务器中，电子设备在获取到目标人物的姓名的情况下，向服务器发送第一查询指令，并接收服务器基于第一查询指令发送的目标人物对应的目标人脸特征信息。

以语音导航这一应用场景为例，若是用户发现在语音导航系统中缺少对应的目标人物的选项，也即用户无法将语音导航人声设置成目标人物的声音的情况下，用户可以通过上传目标人物的人脸图像的方式或者是输入目标人物的姓名的方式进行语音导航人声的个性化定制。

步骤S120：基于目标人脸特征信息，获取包含目标人物的目标视频片段。

在本申请实施例中，由于目标视频片段中包含目标人物，因此目标视频片段对应的音频片段有可能包括目标人物的说话音频片段，因此可以先确定包含目标人物的目标视频片段，以使得后续步骤中可以从目标视频片段获取对应的音频片段中提取目标人物的说话音频片段。

步骤S130：获取目标视频片段对应的目标音频片段。

在本申请实施例中，目标音频片段和目标视频片段在时间轴上是一一对应的，也即目标音频片段和目标视频片段有着相同的起始时间和相同的终止时间。电子设备通过获取目标视频片段对应的时间信息，并基于该时间信息确定对应的目标音频片段。其中，目标视频片段对应的时间信息包括起始帧图像的时间戳、终止帧图像的时间戳和目标视频片段对应的视频片段时长中的至少两项。

在一些实施例中，在获取目标视频片段对应的目标音频片段之前，先通过目标人物的唇形姿态信息判断目标人物是否说话，在确定目标人物说话的情况下执行后续步骤，避免在目标音频片段目标人物在目标视频片段并未开口说话，进而出现无法提取到说话音频片段的情况发生。因此，在基于目标人脸特征信息，获取包含目标人物的目标视频片段的步骤之后，以及获取目标视频片段对应的目标音频片段的步骤之前，还包括如下步骤：获取目标视频片段中目标人物对应的唇形姿态信息。若唇形姿态信息表征目标人物处于说话状态，则执行获取目标视频片段对应的目标音频片段的步骤。

作为一种实施方式，电子设备通过内部预置的唇形姿态识别算法获取目标视频片段中目标人物对应的唇形姿态信息。具体地，唇形姿态识别算法是一种基于深度学习的姿态识别算法，例如，基于卷积神经网络的姿态识别算法，本实施例对唇形姿态识别算法的具体实现方式不做具体限定。若唇形姿态信息表征目标人物处于说话状态，电子设备则执行获取目标视频片段对应的目标音频片段的步骤；反之，若唇形姿态信息表征目标人物未处于说话状态，电子设备则舍弃对应的目标视频片段。在判断出目标视频片段中的目标人物未处于说话状态的情况下，及时将目标视频片段进行舍弃，由于不再需要执行后续步骤，可以节约电子设备的运算资源。

步骤S140：从目标音频片段中获取目标人物的说话音频片段。

作为一种实施方式，电子设备可以将目标音频片段直接作为目标人物的说话音频片段。

作为另一种实施方式，目标音频片段中包含背景音频片段和目标人物的说话音频片段，其中，背景音频片段包括但不限于环境背景声(例如，车辆鸣笛声、动物叫声等等)和非目标人物的说话声。电子设备通过内部预置的音频处理算法从目标音频片段中去除目标音频片段中的背景音频片段，进而获取目标人物的说话音频片段。具体地，电子设备通过音频处理算法获取目标人物的说话音频片段的具体实施方式在下文实施例中进行详细介绍。

本申请实施例提供了一种音频获取的方法，在本方法中，基于目标人物的目标人脸特征信息确定包含目标人物的目标视频片段，接着获取该目标视频片段对应的目标音频片段，最后从该目标音频片段中提取目标人物的说话音频片段。一方面，本方法实现了在无需人工参与的情况下自动获取目标人物的说话音频片段，提高目标人物的说话音频片段的获取效率；另一方面，本方法确定包含目标人物的目标视频片段的过程中充分利用丰富的互联网资源，进而保证了获取到的目标人物的音频说话音频片段的丰富性和多样性。

如图2所示，图2示意性地示出本申请第二实施例提供的一种音频获取的方法，在本方法中，具体介绍了一种基于目标人物的目标人脸特征信息确定包含目标人物的目标视频片段的实施方案。本方法可以包括步骤S210至步骤S270。

步骤S210：获取目标人物的目标人脸特征信息。

步骤S210的具体实施方式可以参考步骤S110中的详细说明，在此不再一一赘述。

步骤S220：从至少一个视频片段包括的帧图像中获取候选人脸特征信息。

在本申请实施例中，目标视频片段是基于至少一个视频片段确定的，至少一个视频片段可以存储于待处理视频库中。其中，待处理视频库中视频片段可以是基于网络爬虫技术获取的互联网上的视频片段、通过电子设备中的应用程序下载的视频片段、科研人员或者用户通过电子设备中的视频录取装置录取的视频片段，在本申请实施例中，对视频片段的获取来源以及视频片段的具体类型不做具体限定。

作为一种实施方式，电子设备通过内部预置的帧图像提取算法从至少一个视频片段提取至少一帧帧图像，其中，帧图像提取算法可以通过基于计算机视觉和机器学习软件库OpenCV中进行获取。电子设备在获取到至少一帧帧图像的情况下，基于人脸特征提取算法获取帧图像中人物对应的候选人脸特征信息，在本申请实施例中，候选人脸特征信息同样向量形式，且候选人脸特征信息对应的特征向量和目标人脸特征信息对应的特征向量具有相同的向量尺寸。例如，候选人脸特征信息对应的特征向量为200维向量，目标人脸特征信息对应的特征向量也为200维向量。

步骤S230：若候选人脸特征信息与目标人脸特征信息之间的相似度大于或等于预设相似度，则将帧图像确定为目标帧图像。

作为一种实施方式，电子设备通过内部预置的向量相似度计算方法计算候选人脸特征信息与目标人脸特征信息之间的相似度。具体地，向量相似度计算方法可以包括基于余弦相似度、欧氏距离、汉明距离、皮尔逊相关系数等方式计算方法。在申请实施例中不做具体限定。

若候选人脸特征信息与目标人脸特征信息之间的向量相似度大于或等于预设相似度，则将帧图像确定为目标帧图像；若候选人脸特征信息与目标人脸特征信息之间的向量相似度小于预设相似度，则帧图像不为目标帧图像。预设相似度可以由电子设备默认设置，也可以由科研人员基于人脸特征信息的匹配精度进行动态调整。若匹配精度越高，则对应的预设相似度就越大；反之，若匹配精度越低，则对应的预设相似度就越小。具体地，预设相似度可以是大于或等于60％且小于100％之间的任意百分比。

步骤S240：将包括目标帧图像的视频片段确定为候选视频片段。

电子设备在确定视频片段中的至少一帧帧图像为目标帧图像的情况下，将该视频片段确定为候选视频片段。

步骤S250：若候选视频片段包括的连续目标帧图像的数量大于或等于预设数量，则将候选视频片段确定为包含目标人物的目标视频片段。

连续目标帧图像由至少两帧目标帧图像组成，在至少两帧目标帧图像中相邻的两帧目标帧图像之间的时间间隔为预设时间间隔。其中，预设时间间隔是基于候选视频片段的帧率确定的，帧率表征该候选视频片段中每秒显示帧数。具体地，预设时间间隔也即是候选视频片段的帧率的倒数。以帧率为10为例，则该候选视频片段每秒显示10帧，则相邻的两帧之间的预设时间间隔即为0.1秒。

作为一种实施方式，电子设备基于目标帧图像的时间戳信息，确定目标帧图像是否为连续目标帧图像。具体地，电子设备依次计算相邻的两帧目标帧图像之间的时间间隔，若时间间隔大于预设时间间隔，则确定目标帧图像不是连续目标帧图像；若时间间隔等于预设时间间隔，则确定目标帧图像是连续目标帧图像。

电子设备在确定候选视频片段中的目标帧图像为连续目标帧图像的情况下，进一步确定连续目标帧图像的数量，若连续目标帧图像的数量大于或等于预设数量，则将候选视频片段确定为包含目标人物的目标视频片段；若连续目标帧图像的数量小于预设数量，则舍弃该候选视频片段。通过上述方式，可以筛选掉说话人说话时间太少的视频片段。预设数量由电子设备由电子设备默认设置，也可以由科研人员根据自身需求进行动态调整。具体地，预设数量，也即目标视频片段的帧数，和目标视频片段的时间长度之间呈正比例关系。若科研人员需要提升目标视频片段的时间长度，则提高预设数量；若科研人员需要缩短目标视频片段的时间长度，则减少预设数量。其中，预设数量可以是大于30的任意自然数。

步骤S260：获取目标视频片段对应的目标音频片段。

在本申请实施例中，目标音频片段和连续目标帧图像在时间轴上是一一对应的，也即目标音频片段和连续目标帧图像有着相同的起始时间和相同的终止时间。电子设备通过获取连续目标帧图像对应的时间信息，并基于该时间信息确定对应的目标音频片段。其中，连续目标帧图像对应的时间信息包括起始目标帧图像的时间戳、终止目标帧图像的时间戳和连续目标帧图像对应的视频片段时长中的至少两项。

步骤S270：从目标音频片段中获取目标人物的说话音频片段。

步骤S270的具体实施方式可以参考步骤S140中的详细说明，在此不再一一赘述。

本申请实施例提供了一种音频获取的方法，在该方法中，目标视频片段是基于至少一个视频片段确定的，在至少一个视频片段中的帧图像对应的候选人脸特征信息和目标人脸特征信息之间的相似度在大于或等于预设相似度的情况下，将包含帧图像的视频片段确定为候选视频片段；在候选视频片段包括的连续目标帧图像的数量大于或等于预设数量的情况下，将该候选视频片段确定为包含所述目标人物的目标视频片段，目标视频片段可以用于后续获取目标人物的说话音频片段。本申请实施例具体给出了一种目标视频片段的获取方法，保证了后续目标人物的说话音频片段获取的可靠性。

如图3所示，图3示意性地示出本申请第三实施例提供的一种音频获取的方法。在本方法中，通过对目标音频片段中的背景音频片段进行去除，进而获取目标人物的说话音频片段。具体地，本方法可以包括步骤S310至步骤S340。

步骤S310：获取目标人物的目标人脸特征信息。

步骤S320：基于目标人脸特征信息，获取包含目标人物的目标视频片段。

步骤S330：获取目标视频片段对应的目标音频片段。

步骤S310至步骤S330的具体实施方式可以参考步骤S110至步骤S130中的详细说明，在此不再一一赘述。

步骤S340：将目标音频片段中的背景音频片段去除，获取目标人物的说话音频片段。

在本实施例中，目标音频片段中包含背景音频片段和目标人物的说话音频片段。电子设备通过内部预置的音频处理算法将目标音频片段中的背景音频片段去除，获取目标人物的说话音频片段。作为一种实施方式，电子设备通过音频处理算法获取标音频片段对应的频谱图，并通过频域滤波器去除背景音频片段对应的音频信号，进而获取目标人物的说话音频片段。具体地，频谱图可以根据傅里叶变换进行获取，频域滤波器包括但不限于高斯滤波器、维纳滤波器以及巴特沃斯滤波器等等。

作为另一种实施方式，电子设备通过音频处理算法获取目标音频片段对应的第一语谱图，并通过神经网络模型获取第一语谱图中的第一时频掩码，进而确定说话音频片段的第二语谱图，通过第二语谱图获取目标人物的说话音频片段。具体地，步骤S340可以包括以下步骤S342至步骤S348。

步骤S342：获取目标音频片段的第一语谱图。

第一语谱图用于表征目标音频片段中时间和音频信号频率之间的对应关系。作为一种实施方式，电子设备通过希尔伯特变换获取目标音频片段对应的第一语谱图。

可选地，在获取第一语谱图之前，还包括对目标音频片段进行预处理操作，其中，预处理操作包括但不限于分帧操作、加窗操作等操作，在本申请实施例中不做具体限定。

步骤S344：获取第一语谱图对应的第一时频掩码。

第一时频掩码用于指示目标人物的说话音频片段对应的语谱图区域。在本申请实施例中，第一时频掩码的尺寸和第一语谱图的尺寸相同。作为一种实施方式，第一时频掩码中的每个元素由0或者1构成，其中，取值为1的元素所构成的区域与第一语谱图中对应区域的点乘结果表征目标人物的说话音频片段对应的语谱图区域，取值为0的元素所构成的区域与第一语谱图中对应区域的点乘结果表征为背景音频片段对应的语谱图区域。

在本申请实施例中，第一时频掩码是通过电子设备中的神经网络模型获取的，该神经网络模型的输入为目标音频片段，模型的输出为和目标音频片段尺寸相同的第一语谱图，示例性地，目标音频片段的尺寸为256*256，则通过神经网络模型获取到的第一时频掩码同样为256*256。具体地，神经网络模型可以是基于FCN结构的神经网络模型以及U-Net结构的神经网络模型，在本申请实施例中对神经网络模型的实现方式不做具体限定。

步骤S346：基于第一时频掩码和第一语谱图，获取第二语谱图。

作为一种实施方式，电子设备将第一时频掩码和第一语谱图进行点乘操作，将点乘操作对应的点乘结果作为第二语谱图。

示例性地，以第一语谱图为尺寸4*4的矩阵A，第一时频掩码为尺寸4*4的矩阵B₁为例。其中，矩阵

以及矩阵

则第二语谱图为尺寸4*4的矩阵B₂，且矩阵

步骤S348：基于第二语谱图，获取目标人物的说话音频片段。

作为一种实施方式，电子设备通过对第二语谱图进行希尔伯特变换，得到目标人物的说话音频信号，通过音频重建算法对说话音频信号进行信号重建，进而获取目标人物的说话音频片段。具体地，音频重建算法包括但不限于Wavenet算法、Griffin-Lim算法等算法，在本申请实施例中不做具体限定。

在其它可能的实现方式中，电子设备需要获取背景音频片段作为训练数据。背景音频片段的获取方式可以包括如下步骤：电子设备通过对第一语谱图对应的第一时频掩码，得到第二时频掩码，第二时频掩码用于指示背景音频片段对应的语谱图区域。具体地，第二时频掩码可以通过对第一时频掩码进行差分操作获得。接着，电子设备基于第二时频掩码和第一语谱图，获取第三语谱图。具体地，电子设备将第二时频掩码和第一语谱图进行点乘操作，将点乘操作对应的点乘结果作为第三语谱图。最后，电子设备基于第三语谱图，获取背景音频片段。具体地，电子设备通过对第三语谱图进行希尔伯特变换，得到背景音频信号，通过音频重建算法对背景音频信号进行信号重建，进而获取背景音频片段。

请参阅图4，图4示意性地示出了本申请实施例提供的一种基于目标音频片段获取目标人物的说话音频片段的流程框图。在图4中，电子设备通过对目标音频片段进行预处理操作，得到时域混合信号，通过对时域混合信号进行希尔伯特变换，得到语谱图，也即步骤S342中的第一语谱图。电子设备将第一语谱图作为深度神经网络的输入，得到深度神经网络的输入为人声分量时频掩码，也即步骤S344中的第一时频掩码。电子设备通过第一时频掩码得到人声语谱图，也即步骤S346中的第二语谱图。电子设备通过对第二语谱图进行希尔伯特变换，得到人声时域信号，并对人声时域信号进行语音信号重建，得到目标人物的说话音频片段。

本申请实施例提供了一种音频获取的方法，在该方法中，通过对目标音频片段中的背景音频片段进行去除，进而获取目标人物的说话音频片段。并且在本方法中提供了一种基于目标音频片段对应的第一语谱图以及神经网络模型获取目标人物的说话音频片段的方法。本方法针对性地对目标人物的说话音频片段进行自动获取，提高了说话音频片段的获取效率。

如图5所示，图5示意性地示出本申请第四实施例提供的一种音频获取的方法，本方法在获取到说话音频片段的情况下，进一步通过说话音频片段的第二声纹特征和目标人物的第一声纹特征之间的声纹相似度判断该说话音频片段是否对应于目标人物。具体地，本方法可以包括步骤S510至步骤S570。

步骤S510：获取目标人物的目标人脸特征信息。

步骤S520：基于目标人脸特征信息，获取包含目标人物的目标视频片段。

步骤S530：获取目标视频片段对应的目标音频片段。

步骤S540：从目标音频片段中获取目标人物的说话音频片段。

步骤S510至步骤S540的具体实施方式可以参考步骤S110至步骤S140中的详细说明，在此不再一一赘述。

步骤S550：获取目标人物的第一声纹特征。

声纹特征表征从音频片段中提取出来的一组声学描述参数(向量)。作为一种实施方式，电子设备中存储有目标人物的说话音频参考片段，通过对该说话音频参考片段进行声纹特征提取，进而得到目标人物的第一声纹特征。具体地，电子设备通过预置的声纹特征提取算法，从说话音频参考片段中获取目标人物的第一声纹特征。其中，声纹特征提取算法可以是基于iVector的声纹特征提取算法、基于DNN网络的声纹特征提取算法，在本申请实施例中不做具体限定。

作为另一种实施方式，在电子设备中存储有目标人物的姓名和目标人物的第一声纹特征之间对应关系的第三映射表，电子设备在获取到目标人物的姓名的情况下，通过上述第三映射表，可以确定该目标人物对应的第一声纹特征。可选地，上述第三映射表也可以存储在与电子设备建立通讯连接的服务器中，电子设备在获取到目标人物的姓名的情况下，向服务器发送第二查询指令，并接收服务器基于第二查询指令发送的目标人物对应的第一声纹特征。

步骤S560：获取说话音频片段的第二声纹特征。

作为一种实施方式，电子设备通过声纹特征提取算法对该说话音频片段进行声纹特征提取，进而得到说话音频片段的第二声纹特征。

步骤S570：若第二声纹特征和第一声纹特征之间的声纹相似度小于预设声纹相似度，则舍弃说话音频片段。

若第二声纹特征和第一声纹特征之间的声纹相似度小于预设声纹相似度，电子设备则舍弃说话音频片段；反之，若第二声纹特征和第一声纹特征之间的声纹相似度大于或等于预设声纹相似度，电子设备则保留该说话音频片段。

作为一种实施方式，第二声纹特征和第一声纹特征之间的声纹相似度可以通过向量相似度计算方法进行计算，在此不再一一赘述。预设声纹相似度可以由电子设备默认设置，科研人员也可以根据目标人物的说话音频片段的实际获取结果进行动态调整。具体地，预设声纹相似度可以是大于70％且小于100％中的任意百分比。以预设声纹相似度为80％为例，若第二声纹特征和第一声纹特征之间的声纹相似度小于80％，则舍弃该说话音频片段；反之，若第二声纹特征和第一声纹特征之间的声纹相似度大于或等于80％，则保留该说话音频片段。

在本申请实施例中，通过说话音频片段的第二声纹特征和目标人物的第一声纹特征之间的声纹相似度判断该说话音频片段是否对应于目标人物，若声纹相似度小于预设声纹相似度，则说明通过音频获取的方法获取到的说话音频片段并不对应于目标人物，在这种情况下，需要将说话音频片段进行舍弃。本方法通过说话音频片段的声纹特征判断是否对应于目标人物，可以进一步保证说话音频片段获取的准确性。

可选地，在电子设备中还设置有标准声纹相似度，标准声纹相似度用于判断说话音频片段的音频质量，标准声纹相似度大于预设声纹相似度。若第二声纹特征和第一声纹特征之间的声纹相似度大于或等于预设声纹相似度，且小于标准声纹相似度，则说明说话音频片段中还存在背景音频片段，需要对说话音频片段进行优化处理；若第二声纹特征和第一声纹特征之间的声纹相似度大于标准声纹相似度，则不需要进行任何处理。作为一种实施方式，电子设备可以通过深度残差收缩网络对说话音频片段进行优化处理。

在本申请实施例中，在说话音频片段对应于目标人物的情况下，通过标准声纹相似度来判断说话音频片段的音频质量，在第二声纹特征和第一声纹特征之间的声纹相似度小于标准声纹相似度的情况下，对说话音频片段进行优化处理，可以进一步保证说话音频片段获取的质量。

本申请实施例提供了一种音频获取的方法，在该方法中，在获取到说话音频片段的情况下，进一步通过说话音频片段的第二声纹特征和目标人物的第一声纹特征之间的声纹相似度判断该说话音频片段是否对应于目标人物。若声纹相似度小于预设声纹相似度，则说明通过音频获取的方法获取到的说话音频片段并不对应于目标人物，在这种情况下，需要将说话音频片段进行舍弃。本方法通过说话音频片段的声纹特征判断是否对应于目标人物，可以进一步保证说话音频片段获取的准确性。

如图6所示，图6示意性地示出本申请第五实施例提供的一种音频获取的方法，本方法在获取到目标人物的说话音频片段之后，还包括获取说话音频片段对应的特征标签的步骤。在将说话音频片段存储到音频数据库系统之后，用户可以通过说话音频片段对应的特征标签，能够快速查找到不同类型对应的说话音频片段。具体地，本方法可以包括步骤S610至步骤S680。

步骤S610：获取目标人物的目标人脸特征信息。

步骤S620：基于目标人脸特征信息，获取包含目标人物的目标视频片段。

步骤S630：获取目标视频片段对应的目标音频片段。

步骤S640：从目标音频片段中获取目标人物的说话音频片段。

步骤S610至步骤S640的具体实施方式可以参考步骤S110至步骤S140中的详细说明，在此不再一一赘述。

步骤S650：对说话音频片段进行音频识别处理，获取说话音频片段对应的文本信息。

作为一种实施方式，在电子设备中预置有音频识别算法，基于音频识别算法，电子设备对说话音频片段进行音频识别处理，获取说话音频片段对应的文本信息。具体地，音频识别算法可以是基于模式匹配的动态时间规整法(Dynamic Time Warping,DTW)，或者是基于统计模型的隐马尔可夫模型法(Hidden Markov Model,HMM)。

步骤S660：对文本信息进行处理，获取文本信息中的至少一个关键词。

在一些实施例中，关键词为文本信息中出现频率大于或等于预设频率的词汇。作为一种实施方式，在电子设备中预置有文本处理算法，基于文本处理算法，电子设备对文本信息进行处理，获取文本信息中的至少一个关键词。具体地，文本处理算法可以是基于词图模型的关键词提取算法、基于主题模型的关键词提取算法。在另一些实施例中，关键词是通过TF-IDF算法确定的。TF-IDF算法用于确定文本信息中每个词汇的TF指标和IDF指标，其中，TF指标表征指定词汇在当前文本信息中出现的次数，其中，指定词汇在当前文本信息中出现的次数越多，则对应的TF指标则越大。IDF指标表征指定词汇在其他文本信息中出现的次数，指定词汇在其他文本信息中出现的次数越少，则对应的IDF指标则越大。TF-IDF算法基于每个词汇的TF指标和IDF指标以及TF指标对应的第一权重和IDF指标对应的第二权重，进而确定每个词汇对应的参考指标值，参考指标值越大，则对应的词汇在当前文本信息中出现的次数越多且在其他文本信息中出现的次数越少。电子设备将每个词汇的参考指标值按照由大到小的顺序进行排序，将序列中前n位的参考指标值对应的词汇确定为关键词。其中，n为关键词的个数，n可以为大于0的任意自然数。

步骤S670：基于至少一个关键词，获取说话音频片段的特征标签。

说话音频片段的特征标签用于描述说话音频片段中文本信息对应的主题信息，例如，主题信息可以是搞笑、美食、时尚、旅游、娱乐、生活、资讯、亲子、知识、游戏、汽车、财经、运动、音乐、电影、综艺、动漫、科技、健康等信息。

作为一种实施方式，在电子设备中存储有关键词和特征标签之间对应关系的第四映射表。电子设备通过第四映射表确定至少一个关键词对应的说话音频片段的特征标签。示例性地，若获取到的关键词为“蛋糕”、“低糖”，则通过第四映射表，确定对应的说话音频片段的特征标签为“美食”；若获取到的关键词为“四驱”、“引擎”，则通过第四映射表，确定对应的说话音频片段的特征标签为“汽车”。

步骤S680：存储说话音频片段，并基于特征标签对说话音频片段进行标记。

在一些实施例中，在获取到目标人物的说话音频片段情况下，进一步将目标人物的说话音频片段储存到音频数据库系统中，在该音频数据库系统中存储有用户的ID以及该用户存储的说话音频片段。请参阅图7，图7示意性地示出了本申请实施例提供的一种音频数据库系统的示意图。在该音频数据库系统中，在获取到用户的ID和存储的说话音频片段的情况下，对用户存储的说话音频片段进行搜索和去重步骤。若音频数据库系统中存在和用户存储的说话音频片段相同的说话音频片段，则向用户发送提醒信息，该提醒信息用于提醒用户在音频数据库系统中已存在相同的说话音频片段；若音频数据库系统中不存在和用户存储的说话音频片段相同的说话音频片段，则获取用户存储的说话音频片段对应的主题，也即步骤S670中的特征标签，并基于说话音频片段对应的主题，对该说话音频片段进行存储，并基于特征标签对说话音频片段进行标记。作为一种实施方式，电子设备可以通过倒排索引方法对用户存储的说话音频片段进行搜索和去重步骤。

本申请实施例提供了一种音频获取的方法，在该方法中，在获取到目标人物的说话音频片段之后，还包括获取说话音频片段对应的特征标签的步骤。在将说话音频片段存储到音频数据库系统之后，用户可以通过说话音频片段对应的特征标签，能够快速查找到不同类型对应的说话音频片段。

请参阅图8，其示出了本申请实施例提供的一种音频获取的装置，该装置800包括：目标人脸特征信息获取模块810、目标视频片段获取模块820、目标音频片段获取模块830和说话音频片段获取模块840。其中，目标人脸特征信息获取模块810用于获取目标人物的目标人脸特征信息。目标视频片段获取模块820用于基于目标人脸特征信息，获取包含目标人物的目标视频片段。目标音频片段获取模块830用于获取目标视频片段对应的目标音频片段。说话音频片段获取模块840用于从目标音频片段中获取目标人物的说话音频片段。

在一些实施例中，目标视频片段获取模块820还用于从至少一个视频片段包括的帧图像中获取候选人脸特征信息；若候选人脸特征信息与目标人脸特征信息之间的相似度大于或等于预设相似度，则将帧图像确定为目标帧图像。将包括目标帧图像的视频片段确定为候选视频片段；若候选视频片段包括的连续目标帧图像的数量大于或等于预设数量，则将候选视频片段确定为包含目标人物的目标视频片段。

在一些实施例中，说话音频片段获取模块840还用于将目标音频片段中的背景音频片段去除，获取目标人物的说话音频片段。

在一些实施例中，说话音频片段获取模块840还用于获取目标音频片段的第一语谱图，第一语谱图用于表征目标音频片段中时间和音频信号频率之间的对应关系。获取第一语谱图对应的第一时频掩码，第一时频掩码用于指示目标人物的说话音频片段对应的语谱图区域。基于第一时频掩码和第一语谱图，获取第二语谱图。基于第二语谱图，获取目标人物的说话音频片段。

在一些实施例中，装置800还包括唇形姿态信息获取模块(图中未示出)。其中，唇形姿态信息获取模块(图中未示出)用于获取目标视频片段中目标人物对应的唇形姿态信息。目标音频片段获取模块830用于若唇形姿态信息表征目标人物处于说话状态，则执行获取目标视频片段对应的目标音频片段的步骤。

在一些实施例中，装置800还包括第一声纹特征获取模块(图中未示出)、第二声纹特征获取模块(图中未示出)和说话音频片段舍弃模块(图中未示出)。其中，第一声纹特征获取模块(图中未示出)用于获取目标人物的第一声纹特征。第二声纹特征获取模块(图中未示出)用于获取说话音频片段的第二声纹特征。说话音频片段舍弃模块(图中未示出)用于若第二声纹特征和第一声纹特征之间的声纹相似度小于预设声纹相似度，则舍弃说话音频片段。

在一些实施例中，装置800还包括文本信息获取模块(图中未示出)、关键词获取模块(图中未示出)、特征标签获取模块(图中未示出)和说话音频片段存储模块(图中未示出)。其中，文本信息获取模块(图中未示出)用于对说话音频片段进行音频识别处理，获取说话音频片段对应的文本信息。关键词获取模块(图中未示出)用于对文本信息进行处理，获取文本信息中的至少一个关键词。特征标签获取模块(图中未示出)用于基于至少一个关键词，获取说话音频片段的特征标签。说话音频片段存储模块(图中未示出)用于存储说话音频片段，并基于特征标签对说话音频片段进行标记。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，模块相互之间的耦合可以是电性，机械或其它形式的耦合。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

本申请提供了一种音频获取的装置。在本装置中，基于目标人物的目标人脸特征信息确定包含目标人物的目标视频片段，接着获取该目标视频片段对应的目标音频片段，最后从该目标音频片段中提取目标人物的说话音频片段。一方面，本装置实现了在无需人工参与的情况下自动获取目标人物的说话音频片段，提高目标人物的说话音频片段的获取效率；另一方面，本装置确定包含目标人物的目标视频片段的过程中充分利用丰富的互联网资源，进而保证了获取到的目标人物的音频说话音频片段的丰富性和多样性。

请参阅图9，其示出了本申请实施例还提供一种电子设备900，该电子设备900包括：一个或多个处理器910、存储器920和一个或多个应用程序。其中，一个或多个应用程序被存储在存储器920中并被配置为由一个或多个处理器910执行，一个或多个应用程序配置用于执行上述的实施例中所描述的方法。

处理器910可以包括一个或者多个处理核。处理器910利用各种接口和线路连接整个电池管理系统内的各种部分，通过运行或执行存储在存储器920内的指令、程序、代码集或指令集，以及调用存储在存储器920内的数据，执行电池管理系统的各种功能和处理数据。可选地，处理器910可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(ProgrammableLogic Array，PLA)中的至少一种硬件形式来实现。处理器910可集成中央处理器910(Central Processing Unit，CPU)、图像处理器910(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器910中，单独通过一块通信芯片进行实现。

存储器920可以包括随机存储器920(Random Access Memory，RAM)，也可以包括只读存储器920(Read-Only Memory)。存储器920可用于存储指令、程序、代码、代码集或指令集。存储器920可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各种方法实施例的指令等。存储数据区还可以存储电子设备图在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

请参阅图10，其示出了本申请实施例还提供一种计算机可读存储介质1000，该计算机可读存储介质1000中存储有计算机程序指令1010，计算机程序指令1010可被处理器调用以执行上述实施例中所描述的方法。

计算机可读存储介质1000可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质1000包括非易失性计算机可读存储介质(non-transitory computer-readable storage medium)。计算机可读存储介质1000具有执行上述方法中的任何方法步骤的计算机程序指令1010的存储空间。这些计算机程序指令1010可以从一个或者多个计算机程序产品中读出或者写入到一个或者多个计算机程序产品中，计算机程序指令1010可以以适当形式进行压缩。

以上，仅是本申请的较佳实施例而已，并非对本申请作任何形式上的限制，虽然本申请已以较佳实施例揭示如上，然而并非用以限定本申请，任何本领域技术人员，在不脱离本申请技术方案范围内，当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本申请技术方案内容，依据本申请的技术实质对以上实施例所作的任何简介修改、等同变化与修饰，均仍属于本申请技术方案的范围内。

Claims

1.一种音频获取的方法，其特征在于，所述方法包括：

获取目标人物的目标人脸特征信息；

基于所述目标人脸特征信息，获取包含所述目标人物的目标视频片段；

获取所述目标视频片段对应的目标音频片段；

从所述目标音频片段中获取所述目标人物的说话音频片段。

2.根据权利要求1所述的方法，其特征在于，所述基于所述目标人脸特征信息，获取包含所述目标人物的目标视频片段，包括：

从至少一个视频片段包括的帧图像中获取候选人脸特征信息；

若所述候选人脸特征信息与所述目标人脸特征信息之间的相似度大于或等于预设相似度，则将所述帧图像确定为目标帧图像；

将包括所述目标帧图像的视频片段确定为候选视频片段；

若所述候选视频片段包括的连续目标帧图像的数量大于或等于预设数量，则将所述候选视频片段确定为包含所述目标人物的目标视频片段。

3.根据权利要求1所述的方法，其特征在于，所述从所述目标音频片段中获取所述目标人物的说话音频片段，包括：

将所述目标音频片段中的背景音频片段去除，获取所述目标人物的说话音频片段。

4.根据权利要求3所述的方法，其特征在于，所述将所述目标音频片段中的背景音频片段去除，获取所述目标人物的说话音频片段，包括：

获取所述目标音频片段的第一语谱图，所述第一语谱图用于表征目标音频片段中时间和音频信号频率之间的对应关系；

获取所述第一语谱图对应的第一时频掩码，所述第一时频掩码用于指示所述目标人物的说话音频片段对应的语谱图区域；

基于所述第一时频掩码和所述第一语谱图，获取第二语谱图；

基于所述第二语谱图，获取所述目标人物的说话音频片段。

5.根据权利要求1至4任一项所述的方法，其特征在于，所述基于所述目标人脸特征信息，获取包含所述目标人物的目标视频片段之后，所述获取所述目标视频片段对应的目标音频片段之前，所述方法还包括：

获取所述目标视频片段中所述目标人物对应的唇形姿态信息；

若所述唇形姿态信息表征所述目标人物处于说话状态，则执行所述获取所述目标视频片段对应的目标音频片段的步骤。

6.根据权利要求1至4任一项所述的方法，其特征在于，所述从所述目标音频片段中获取所述目标人物的说话音频片段之后，还包括：

获取所述目标人物的第一声纹特征；

获取所述说话音频片段的第二声纹特征；

若所述第二声纹特征和所述第一声纹特征之间的声纹相似度小于预设声纹相似度，则舍弃所述说话音频片段。

7.根据权利要求1至4任一项所述的方法，其特征在于，所述从所述目标音频片段中获取所述目标人物的说话音频片段之后，还包括：

对所述说话音频片段进行音频识别处理，获取所述说话音频片段对应的文本信息；

对所述文本信息进行处理，获取所述文本信息中的至少一个关键词；

基于至少一个所述关键词，获取所述说话音频片段的特征标签；

存储所述说话音频片段，并基于所述特征标签对所述说话音频片段进行标记。

8.一种音频获取的装置，其特征在于，所述装置包括：

目标人脸特征信息获取模块，用于获取目标人物的目标人脸特征信息；

目标视频片段获取模块，用于基于所述目标人脸特征信息，获取包含所述目标人物的目标视频片段；

目标音频片段获取模块，用于获取所述目标视频片段对应的目标音频片段；

说话音频片段获取模块，用于从所述目标音频片段中获取所述目标人物的说话音频片段。

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；

一个或多个应用程序，一个或多个所述应用程序被存储在所述存储器中并被配置为由一个或多个所述处理器执行，一个或多个所述应用程序配置用于执行如权利要求1-7任一项所述的方法。

10.一种计算机可读取存储介质，其特征在于，所述计算机可读取存储介质中存储有计算机程序指令，所述计算机程序指令可被处理器调用执行如权利要求1-7任一项所述的方法。