CN117690449A

CN117690449A - 语音提取方法、装置、计算机设备和存储介质

Info

Publication number: CN117690449A
Application number: CN202311665799.1A
Authority: CN
Inventors: 王帅; 李俊杰; 王雪菲; 李海洲
Original assignee: Shenzhen Research Institute of Big Data SRIBD
Current assignee: Shenzhen Research Institute of Big Data SRIBD
Priority date: 2023-12-06
Filing date: 2023-12-06
Publication date: 2024-03-12

Abstract

本申请涉及一种语音提取方法、装置、计算机设备和存储介质。所述方法包括：获取待提取混合语音、目标对象的待处理语音特征数据、已训练的目标语音提取模型与目标线索编码模型；获取目标对象在历史时间段的历史语音数据集，将历史语音数据集输入目标线索编码模型进行特征提取得历史语音特征；将待处理语音特征数据输入目标线索编码模型进行特征提取得待处理线索特征；基于目标线索编码模型将待处理线索特征和历史语音特征融合得目标线索特征；将目标线索特征和待提取混合语音输入目标语音提取模型处理输出待提取混合语音中目标对象的目标语音，将目标语音存储至历史语音数据集。采用本方法能提高从混合语音中提取目标对象的语音的准确性。

Description

语音提取方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种语音提取方法、装置、计算机设备和存储介质。

背景技术

随着计算机技术的发展，目标对象语音提取技术得以快速发展并应用于越来越多的场景中。目前的目标对象语音提取技术通常依赖于提前注册目标对象的语音线索，然而，由于目标对象的音色在不同时间可能存在差异以及语音线索注册与使用环境的差异等方面的不稳定性，导致从混合语音中提取目标对象的语音的准确性较低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够更精准地提取目标对象语音的语音提取方法、装置、计算机设备和存储介质，提高了从混合语音中提取目标对象的语音的准确性。

第一方面，本申请提供了一种语音提取方法。所述方法包括：

获取待提取混合语音和目标对象对应的待处理语音特征数据，获取已训练的目标语音提取模型和已训练的目标线索编码模型；

获取目标对象在历史时间段对应的历史语音数据集，将历史语音数据集输入目标线索编码模型中，基于目标线索编码模型对历史语音数据集进行特征提取，得到历史语音特征；

将待处理语音特征数据输入目标线索编码模型中，基于目标线索编码模型对待处理语音特征数据进行特征提取，得到待处理线索特征；

基于目标线索编码模型将待处理线索特征和历史语音特征进行融合，得到目标线索特征；

将目标线索特征和待提取混合语音输入目标语音提取模型进行处理，输出待提取混合语音中目标对象对应的目标语音，将目标语音存储至历史语音数据集。

在其中一个实施例中，目标线索编码模型包括历史语音编码器和语音特征数据编码器；基于目标线索编码模型对历史语音数据集进行特征提取，得到历史语音特征，包括：

基于历史语音编码器对历史语音数据集进行特征提取，得到历史语音特征；

基于目标线索编码模型对待处理语音特征数据进行特征提取，得到待处理线索特征，包括：

基于语音特征数据编码器对待处理语音特征数据进行特征提取，得到待处理线索特征。

在其中一个实施例中，基于语音特征数据编码器对待处理语音特征数据进行特征提取，得到待处理线索特征包括：

当待处理语音特征数据为语音数据时，语音特征数据编码器为语音编码器，基于语音编码器对语音数据进行特征提取，得到语音特征，将语音特征作为待处理线索特征；

当待处理语音特征数据为视频数据时，视频数据为待提取混合语音对应的语音特征视频，语音特征数据编码器为视频编码器，基于视频编码器对视频数据进行特征提取，得到视频特征，将视频特征作为待处理线索特征；

当待处理线索包括语音数据和视频数据时，视频数据为待提取混合语音对应的语音特征视频，语音特征数据编码器包括语音编码器和视频编码器，基于语音编码器对语音数据进行特征提取，得到语音特征，基于视频编码器对视频数据进行特征提取，得到视频特征，将语音特征和视频特征作为待处理线索特征。

在其中一个实施例中，目标线索编码器包括特征融合层；基于目标线索编码器将待处理线索特征和历史语音特征进行融合，得到目标线索特征包括：

当待处理语音特征数据为语音数据，或者待处理语音特征数据包括语音数据和视频数据时，基于特征融合层，从语音特征中选取出第一筛选特征，从历史语音特征中选取出第二筛选特征；

基于特征融合层，将第一筛选特征和第二筛选特征进行融合，得到语音融合特征；

若待处理语音特征数据为语音数据，则将语音融合特征作为目标线索特征；若待处理语音特征数据包括语音数据和视频数据，则将语音融合特征和视频特征作为目标线索特征；若待处理语音特征数据为视频数据，则将第二筛选特征和视频特征作为目标线索特征。

在其中一个实施例中，基于特征融合层，从语音特征中选取出第一筛选特征，从历史语音特征中选取出第二筛选特征包括：

通过特征融合层，基于语音时间顺序分别设置语音特征对应的第一筛选权重，和历史时间段内各时间点对应的历史语音特征的第二筛选权重；

通过特征融合层，基于第一筛选权重，从语音特征中选取出第一筛选特征，基于历史时间段内各时间点对应的历史语音特征的第二筛选权重，从历史时间段内各时间点对应的历史语音特征中，选取出历史时间段内各时间点对应的第二筛选特征。

在其中一个实施例中，该语音提取方法还包括：

通过特征融合层，分别计算语音特征与历史时间段内各时间点对应的历史语音特征之间的相似度；

通过特征融合层，基于各相似度之间的比较结果，从历史时间段内各时间点对应的历史语音特征中，选取出历史时间段内各时间点对应的第二筛选特征，将语音特征作为第一筛选特征。

在其中一个实施例中，获取目标对象在历史时间段对应的历史语音数据集之前，还包括：

分别计算历史语音数据集中，各时间点目标对象对应的历史语音之间的相似度，将相似度不满足历史语音筛选条件的历史语音剔除；

从剔除后剩余的历史语音中，选取出目标对象在历史时间段对应的历史语音数据集。

第二方面，本申请还提供了一种语音提取装置。所述装置包括：

获取模块，用于获取待提取混合语音和目标对象对应的待处理语音特征数据，获取已训练的目标语音提取模型和已训练的目标线索编码模型；

第一提取模块，用于获取目标对象在历史时间段对应的历史语音数据集，将历史语音数据集输入目标线索编码模型中，基于目标线索编码模型对历史语音数据集进行特征提取，得到历史语音特征；

第二提取模块，用于将待处理语音特征数据输入目标线索编码模型中，基于目标线索编码模型对待处理语音特征数据进行特征提取，得到待处理线索特征；

融合模块，用于基于目标线索编码模型将待处理线索特征和历史语音特征进行融合，得到目标线索特征；

处理模块，用于将目标线索特征和待提取混合语音输入目标语音提取模型进行处理，输出待提取混合语音中目标对象对应的目标语音，将目标语音存储至历史语音数据集。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述语音提取方法、装置、计算机设备和存储介质，通过获取待提取混合语音和目标对象对应的待处理语音特征数据，获取已训练的目标语音提取模型和已训练的目标线索编码模型；获取目标对象在历史时间段对应的历史语音数据集，将历史语音数据集输入目标线索编码模型中，基于目标线索编码模型对历史语音数据集进行特征提取，得到历史语音特征；将待处理语音特征数据输入目标线索编码模型中，基于目标线索编码模型对待处理语音特征数据进行特征提取，得到待处理线索特征；基于目标线索编码模型将待处理线索特征和历史语音特征进行融合，得到目标线索特征；将目标线索特征和待提取混合语音输入目标语音提取模型进行处理，输出待提取混合语音中目标对象对应的目标语音，将目标语音存储至历史语音数据集，实现了语音提取线索的循环动态更新，较好地避免了不同时间下目标对象音色差异对语音提取准确性的影响，以及目标对象注册语音时的环境与使用语音时的环境差异对语音提取准确性的影响，使得不再需要目标对象频繁在相关的语音提取系统进行语音的注册，从而提高了从混合语音中提取目标对象相关的语音的效率的同时，较好地提高了从混合语音中提取出目标对象相关的语音的准确性。

附图说明

图1为一个实施例中语音提取方法的应用环境图；

图2为一个实施例中语音提取方法的流程示意图；

图3为一个实施例中语音提取的模型关系图；

图4为一个实施例中语音提取装置的结构框图；

图5为一个实施例中计算机设备的内部结构图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的语音提取方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他网络服务器上。服务器104用于获取待提取混合语音和目标对象对应的待处理语音特征数据，获取已训练的目标语音提取模型和已训练的目标线索编码模型；获取目标对象在历史时间段对应的历史语音数据集，将历史语音数据集输入目标线索编码模型中，基于目标线索编码模型对历史语音数据集进行特征提取，得到历史语音特征；将待处理语音特征数据输入目标线索编码模型中，基于目标线索编码模型对待处理语音特征数据进行特征提取，得到待处理线索特征；基于目标线索编码模型将待处理线索特征和历史语音特征进行融合，得到目标线索特征；将目标线索特征和待提取混合语音输入目标语音提取模型进行处理，输出待提取混合语音中目标对象对应的目标语音，将目标语音存储至历史语音数据集。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种语音提取方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤S200，获取待提取混合语音和目标对象对应的待处理语音特征数据，获取已训练的目标语音提取模型和已训练的目标线索编码模型。

其中，待提取混合语音指可能混合有目标对象相关的语音数据。目标对象指指需要提取的语音对应的语音发出者。待处理语音特征数据指与目标对象相关的数据，其在从混合语音中提取目标对象相关的语音的过程中起提取线索的作用；其包括语音数据和视频数据，语音数据可以是目标对象注册语音提取系统时采集的语音，视频数据可以是待提取混合语音对应的视频中，与目标对象相关的面部唇动视频。目标语音提取模型指用于从混合语音中提取出目标对象相关的语音的模型；不同情况下使用的目标语音提取模型是不同的，比如，当以目标对象的纯语音作为语音提取线索时，目标语音提取模块可以但不限于是ConvTasNet(Convolutional Time-domain Audio Separation Network)模型、SepFormer(Separation Transformer)模型；当以目标对象的纯视频作为语音提取线索时，目标语音提取模块可以但不限于是AV-SepFormer(Audio Visual-Separation Transformer)模型、AV-GridNet(Audio Visual-GridNet)模型；当以目标对象的音视频(即包含语音数据和视频数据)作为语音提取线索时，目标语音提取模块可以但不限于是AV-SpeakerBeam(AudioVisual-SpeakerBeam)模型。目标线索编码模型指用于筛选混合语音提取的相关线索数据以及对线索数据进行特征提取的模型，比如对是语音的线索数据或对是视频的线索数据进行特征提取；目标线索编码模型可以是卷积神经网络(Convolutional Neural Network,CNN)或者循环神经网络(Recurrent Neural Network,RNN)。

具体地，从待提取混合语音中提取出目标对象相关的语音，需要根据与目标对象相关的待提取语音特征数据作为提取线索，在进行目标对象相关的语音提取之前，需要对相关的模型进行训练，从而得到已训练的目标语音提取模型和目标线索编码模型。此外，目标语音提取模型和目标线索编码模型具体采用的模型可以根据待提取语音特征数据确定，若待提取语音特征数据只采用目标对象相关的纯语音的语音数据，则目标语音提取模型可以是ConvTasNet模型、SepFormer模型等，目标线索编码模型可以是历史语音编码器和语音编码器，具体可如图3中的(a)所示；若待提取语音特征数据只采用待提取混合语音相关的视频中与目标对象相关的唇动视频的视频数据时，则目标语音提取模型可以是AV-SepFormer模型、AV-GridNet模型等，目标线索编码模型可以是历史语音编码器和视频编码器，具体可如图3中的(b)所示；若待提取语音特征数据既采用目标对象相关的纯语音的语音数据，也采用待提取混合语音相关的视频中与目标对象相关的唇动视频的视频数据，则目标语音提取模型可以是AV-SpeakerBeam模型等，目标线索编码器可以是语音编码器与视频编码器并联构建得到的编码器以及历史语音编码器，具体可如图3中的(c)所示。

步骤S202，获取目标对象在历史时间段对应的历史语音数据集，将历史语音数据集输入目标线索编码模型中，基于目标线索编码模型对历史语音数据集进行特征提取，得到历史语音特征。

其中，历史语音数据集指从各次混合语音中提取出的目标对象相关的语音。历史语音特征指历史语音数据集中各语音数据对应的语音特征。

具体地，为减少由于时间的推移目标对象相关的语音在音色上的差异，导致最终从待提取混合语音中提取出目标对象相关的目标语音的准确性较低的影响，可以将每次从不同的待提取混合语音中提取出的目标对象相关的语音进行存储，并在进行从新的待提取混合语音中提取目标对象相关的语音时，从历史时段对应的已提取的目标对象相关的语音数据中，获取历史语音数据集，并将历史语音数据集输入目标线索编码模型中，通过目标线索编码模型对历史语音数据集中各个语音数据进行特征提取，得到可作为待提取混合语音中目标对象相关的语音的提取线索之一的历史语音特征，历史语音特征的加入有利于减少目标对象相关的语音在不同时段音色上的改变，以及目标对象注册语音时采集的环境与使用注册语音时的环境不同对最终提取结果的影响。

在一个实施例中，在获取目标对象相关的历史语音数据集时，对历史语音数据集进行筛选的方式不限于上述方式，可以根据实际需求制定历史语音数据集的筛选方式。

步骤S204，将待处理语音特征数据输入目标线索编码模型中，基于目标线索编码模型对待处理语音特征数据进行特征提取，得到待处理线索特征。

其中，待处理线索特征指待处理语音特征数据中各数据对应的特征；可用于作为从待提取混合语音中提取目标对象相关的语音的线索特征；其包括语音特征和视频特征，且可以是纯语音特征、纯视频特征或音频特征(即语音特征和视频特征)。

具体地，在从待提取混合语音中提取目标对象相关的语音时，既可以将目标对象的纯语音数据作为从待提取混合语音中提取语音的语音特征数据，也可以将待提取混合语音对应的视频中与目标对象相关的面部唇动视频数据作为待提取混合语音中提取语音的语音特征数据，或者将目标对象的纯语音数据与目标对象相关的面部唇动视频数据一并作为待提取混合语音中提取语音的语音特征数据；进而，可以基于目标线索编码模型对待处理语音特征数据进行特征提取，得到可用于作为从待提取混合语音中提取出目标对象相关的语音的线索特征之一的待处理线索特征。

步骤S206，基于目标线索编码模型将待处理线索特征和历史语音特征进行融合，得到目标线索特征。

其中，目标线索特征指包含目标对象注册采集的语音相关线索数据对应特征，以及历史收集从混合语音中提取出的目标对象的相关语音的语音特征；用于作为从待提取混合语音中提取出目标对象相关的语音的线索指引特征。

具体地，为减少不同时间目标对象语音音色以及语音采集环境与语音使用环境的差异对语音提取效果的影响，以提高从待提取混合语音中提取出目标对象相关的语音的准确性，可以将待处理线索特征和历史语音特征融合得到的目标线索特征，作为从待提取混合语音中提取出目标对象相关的语音的线索特征，为后续从待提取混合语音中提取出准确性更高的目标对象相关的语音提供数据依据。

步骤S208，将目标线索特征和待提取混合语音输入目标语音提取模型进行处理，输出待提取混合语音中目标对象对应的目标语音，将目标语音存储至历史语音数据集。

其中，目标语音指待提取混合语音中与目标对象相关的语音数据。

具体地，目标语音提取模型包括混合语音编码器和语音提取层，可以将待提取混合语音输入目标语音提取模型中，基于目标语音提取模型中的混合语音编码器对待提取混合语音进行特征提取，得到混合语音特征，再基于目标语音提取模型中的语音提取层对目标线索特征和混合语音特征进行处理，输出待提取混合语音中目标对象对应的目标语音特征。为确保随着时间的更替以及语音使用环境的改变对语音提取效果的影响，可以将从待提取混合语音中提取出的目标对象对应的目标语音存储至历史语音数据集中，从而实现语音提取线索的循环使用，无需频繁要求目标对象在语音提取系统上预先进行语音的重新注册，在提高从混合语音中提取特定对象相关语音的效率的同时，较好地提高了从混合语音中提取特定对象相关语音的准确性。

上述语音提取方法，通过获取待提取混合语音和目标对象对应的待处理语音特征数据，获取已训练的目标语音提取模型和已训练的目标线索编码模型；获取目标对象在历史时间段对应的历史语音数据集，将历史语音数据集输入目标线索编码模型中，基于目标线索编码模型对历史语音数据集进行特征提取，得到历史语音特征；将待处理语音特征数据输入目标线索编码模型中，基于目标线索编码模型对待处理语音特征数据进行特征提取，得到待处理线索特征；基于目标线索编码模型将待处理线索特征和历史语音特征进行融合，得到目标线索特征；将目标线索特征和待提取混合语音输入目标语音提取模型进行处理，输出待提取混合语音中目标对象对应的目标语音，将目标语音存储至历史语音数据集，实现了语音提取线索的循环动态更新，较好地避免了不同时间下目标对象音色差异对语音提取准确性的影响，以及目标对象注册语音时的环境与使用语音时的环境差异对语音提取准确性的影响，使得不再需要目标对象频繁在相关的语音提取系统进行语音的注册，从而提高了从混合语音中提取目标对象相关的语音的效率的同时，较好地提高了从混合语音中提取出目标对象相关的语音的准确性。

在一个实施例中，目标线索编码模型包括历史语音编码器和语音特征数据编码器，步骤S202包括：

步骤S300，基于历史语音编码器对历史语音数据集进行特征提取，得到历史语音特征。

步骤S204包括：

步骤S302，基于语音特征数据编码器对待处理语音特征数据进行特征提取，得到待处理线索特征。

其中，历史语音编码器指用于提取历史语音数据集中的各语音数据的特征的模型，可以是基于卷积神经网络CNN或者循环神经网络RNN构建得到的神经网络模型。语音特征数据编码器指用于提取目标对象相关的语音特征数据的特征的模型，语音特征数据包括语音数据和视频数据；可以是由卷积神经网络CNN或者循环神经网络RNN构建得到的神经网络模型。

具体地，在基于目标线索编码模型进行特征提取时，不同数据对应的特征提取编码器不同，可以将历史语音数据集输入历史语音编码器进行处理，输出历史语音数据集对于的历史语音特征，还可以将待处理语音特征数据输入语音特征数据编码器进行处理，输出对应的待处理线索特征，为后续步骤提取数据基础。

此外，在另一个实施例中，还可以在将历史语音数据集输入历史语音编码器之前，从历史语音数据集中的语音数据进行筛选，可以但不限于是基于各历史语音数据的时间进行权重的设置，根据设置的权重从历史语音数据集中筛选出更新的历史语音数据集，从而使得更新的历史语音数据集中各语音与当前时间目标对象对应的语音音色更为接近，有利于提高从待提取混合语音中提取目标对象相关语音的准确性。需注意的是，对于从历史语音数据集中筛选出更新的历史语音数据集的方式不限于上述的筛选方式。

上述实施例中，通过基于目标线索编码模型中的历史语音编码器对历史语音数据集进行特征提取，得到历史语音特征，基于目标线索编码模型中的语音特征数据编码器对待处理语音特征数据进行特征提取，得到待处理线索特征，从而实现多个时期下目标对象相关的语音关联特征，为最终从待提取混合语音中提取目标对象的相关语音提高了较好的线索特征，有助于提高最终从待提取混合语音中提取目标对象的相关语音的准确性。

在一个实施例中，步骤S302包括：

步骤S400，当待处理语音特征数据为语音数据时，语音特征数据编码器为语音编码器，基于语音编码器对语音数据进行特征提取，得到语音特征，将语音特征作为待处理线索特征。

步骤S402，当待处理语音特征数据为视频数据时，视频数据为待提取混合语音对应的语音特征视频，语音特征数据编码器为视频编码器，基于视频编码器对视频数据进行特征提取，得到视频特征，将视频特征作为待处理线索特征。

步骤S404，当待处理线索包括语音数据和视频数据时，视频数据为待提取混合语音对应的语音特征视频，语音特征数据编码器包括语音编码器和视频编码器，基于语音编码器对语音数据进行特征提取，得到语音特征，基于视频编码器对视频数据进行特征提取，得到视频特征，将语音特征和视频特征作为待处理线索特征。

其中，语音编码器指用于对语音数据进行语音特征提取的神经网络模型，可以是由卷积神经网络CNN或者循环神经网络RNN构建得到的神经网络模型。语音数据指目标对象在语音提取系统注册的语音。语音特征指语音数据中各语音的特征。视频数据指待提取混合语音对应的视频中与目标对象面部唇动相关的视频。视频编码器指用于对视频数据进行视频特征提取的神经网络模型，可以是由卷积神经网络CNN或者循环神经网络RNN构建得到的神经网络模型。视频特征指视频数据中各视频的特征，其包括目标对象相关的唇动特征。

具体地，待处理语音特征数据包含的内容不同，对应进行特征提取的方式也不同，若待处理语音特征数据是纯语音的语音数据，则语音特征编码器为语音编码器，基于语音编码器对语音数据进行特征提取，此时语音特征即为待处理线索特征；若待处理语音特征数据是纯视频的视频数据，则语音特征编码器是视频编码器，且视频数据是待提取混合语音对应的视频中，与目标对象相关的面部唇动视频，基于视频编码器对视频数据进行特征的提取，将提取得到的视频特征作为待处理线索特征；若待处理语音特征数据包括语音数据和视频数据，则语音特征编码器为语音编码器与视频编码器并联得到的编码器，基于语音编码器对语音数据进行特征提取得到语音特征，基于视频编码器对视频数据进行特征提取得到视频特征，将语音特征和视频特征一并作为待处理线索特征。需注意的是，待处理语音特征数据中若是包括视频数据，则视频数据都是待提取混合语音对应的视频中与目标对象的面部唇动信息相关的视频，从而有利于在从待提取混合语音中提取目标对象相关的语音时，基于视频特征中目标对象说话的唇动特征信息进行辅助判断，从而较好地提高目标对象语音提取的准确性。

上述实施例中，通过对待处理语音特征数据包含的内容进行判断，当待处理语音特征数据中包含的内容不同时，采取不同的特征提取方式，从而实现多样线索特征的提取，有利于为最终从待提取混合语音中提取目标对象相关的语音提供更有效的线索特征，在一定程度上提高了从待提取混合语音中提取目标对象的相关语音的准确性。

在一个实施例中，目标线索编码器包括特征融合层，步骤S204包括：

步骤S500，当待处理语音特征数据为语音数据，或者待处理语音特征数据包括语音数据和视频数据时，基于特征融合层，从语音特征中选取出第一筛选特征，从历史语音特征中选取出第二筛选特征。

步骤S502，基于特征融合层，将第一筛选特征和第二筛选特征进行融合，得到语音融合特征。

步骤S504，若待处理语音特征数据为语音数据，则将语音融合特征作为目标线索特征；若待处理语音特征数据包括语音数据和视频数据，则将语音融合特征和视频特征作为目标线索特征；若待处理语音特征数据为视频数据，则将第二筛选特征和视频特征作为目标线索特征。

其中，特征融合层指用于对待处理语音特征数据对应的特征以及对历史语音特征进行筛选与融合的网络层。第一筛选特征指从待处理语音特征数据相关的语音特征中筛选得到的语音特征。第二筛选特征指从历史语音特征中筛选得到的语音特征。

具体地，为进一步地获取与目标对象当前时间的音色更为接近的语音数据，可以在待处理语音特征数据是纯语音的语音数据，或者待处理语音特征数据既包含语音数据也包含视频数据时，基于特征融合层，分别从语音特征中选出第一筛选特征，以及从历史语音特征中选出第二筛选特征，在筛选过程中，可以根据语音时间的先后顺序，对语音特征和历史时段中各时间点对应的历史语音特征进行权重的设置，时间越靠近当前时间，设置的权重也就是越大，从而根据语音特征的权重从语音特征中选取出第一筛选特征，以及根据历史时段中各时间点对应的历史语音特征的权重，从历史时段的各时间点对应的历史语音特征中选取对应的第二筛选特征，时间越靠近当前时间，选取得到的语音特征也越与目标对象在当前时间的语音特征更为相近，从而使得筛选得到的第一筛选特征和第二筛选特征的准确性也更高。

进一步地，将筛选得到的第一筛选特征和第二筛选特征进行融合，得到语音融合特征，若待处理语音特征数据是纯语音的语音数据，则将语音融合特征作为目标线索特征；若待处理语音特征数据是纯视频的视频数据，则将第二筛选特征和视频特征作为目标线索特征；若待处理语音特征数据包含语音数据和视频数据，则将语音融合特征和视频特征作为目标线索特征，从而实现不管待处理语音特征数据是何种情况，都可以将各时段从混合语音中提取的目标对象的语音相关特征作为语音提取的线索特征，使得目标线索特征可以包含不同时段目标对象语音音色以及语音环境的特征信息，有助于最终目标对象语音提取的精确性。

此外，在另一实施例中，对语音特征和历史语音特征的筛选，不限于上述描述的筛选方式，具体的筛选方式可以根据实际需求进行设置。

上述实施例中，通过对语音特征和历史语音特征进行进一步的筛选，使得筛选得到的语音特征与目标对象在当前时间下的语音特征更为接近，从而进一步地确保了最终提取得到的目标对象的目标语音的准确性。

在一个实施例中，步骤S502包括：

步骤S600，通过特征融合层，基于语音时间顺序分别设置语音特征对应的第一筛选权重，和历史时间段内各时间点对应的历史语音特征的第二筛选权重。

步骤S602，通过特征融合层，基于第一筛选权重，从语音特征中选取出第一筛选特征，基于历史时间段内各时间点对应的历史语音特征的第二筛选权重，从历史时间段内各时间点对应的历史语音特征中，选取出历史时间段内各时间点对应的第二筛选特征。

其中，语音时间顺序指语音采集的先后顺序；不同时间下采集同一对象的语音，也可能存在音色等因素的差异。第一筛选权重指待处理语音特征数据相关的语音特征中各语音对应的特征的筛选权重。第二筛选权重指历史语音特征中各语音对应的特征的筛选权重；可以是历史语音特征中时间越接近当前时间的特征的第二筛选权重越大。

具体地，时间越靠近当前时间，待处理语音特征数据对应的语音通则以及历史语音特征与目标对象在当前时间下的语音特征更为接近，可以通过特征融合层基于语音时间顺序分别设置语音特征的第一筛选权重，和设置历史时间段内各时间点对应的历史语音特征的第二筛选权重，根据第一筛选权重从语音特征中筛选出第一筛选特征，以及基于各时间点的历史语音特征的第二筛选权重，从各时间点对应的历史语音特征中筛选出第二筛选特征，从而得到更能表征当前时间下目标对象的语音特色的语音特征，为后续进行目标对象相关语音的提取提供了精度更高的数据依据。

上述实施例中，通过特征融合层基于语音时间顺序对语音特征和历史语音特征设置权重，并基于设置的权重对语音特征和历史语音特征进行筛选，得到精确度更高的线索特征，从而有利于提高从待提取混合语音中提取目标对象的相关语音的准确性。

在一个实施例中，该语音提取方法还包括：

步骤S700，通过特征融合层，分别计算语音特征与历史时间段内各时间点对应的历史语音特征之间的相似度。

步骤S702，通过特征融合层，基于各相似度之间的比较结果，从历史时间段内各时间点对应的历史语音特征中，选取出历史时间段内各时间点对应的第二筛选特征，将语音特征作为第一筛选特征。

其中，相似度指不同时间的语音之间特征的相似程度。

具体地，由于历史语音数据集中也可能存在从混合语音中提取到的语音不是目标对象相关的语音的情况，以及语音特征已明确是目标对象注册时的语音对应的语音特征，为确保历史语音特征的精确性，可以将历史语音特征与语音特征进行相似度计算，也就是在对语音特征和历史语音特征筛选的过程中，还可以基于特征融合层分别计算语音特征与历史时间段内各时间点对应的历史语音特征之间的相似度，分别将相似度大于或等于预设相似度阈值的历史语音特征作为第二筛选特征，将语音特征作为第一筛选特征；还可以基于特征融合层分别计算语音特征与历史时间段内各时间点对应的历史语音特征之间的相似度，以及历史时间段内各时间点对应的历史语音特征之间的相似度，将历史时间段内各时间点对应的历史语音特征之间的相似度小于第一预设相似度阈值的历史语音特征进行剔除，然后将相似度大于或等于第二预设相似度阈值的历史语音特征作为第二筛选特征，将语音特征作为第一筛选特征，从而确保筛选到的第二筛选特征与目标对象的语音特征更为相近的同时，还可以保留目标对象在不同时段的语音对应的音色特征信息，为最终目标对象语音的提取提供精度更高的线索特征，使得最终提取出的语音的精度也更高。需注意的是，具体进行特征筛选的方式不限于上述的筛选方式。

上述实施例中，通过基于特征融合层分别计算语音特征与历史语音特征之间的相似度，根据相似度的大小对历史语音特征进行筛选，从而得到精度更高的语音特征，有利于为后续步骤提供精确度更高的线索特征，从而在一定程度上提高从待提取混合语音中提取目标对象的相关语音的准确性。

在一个实施例中，步骤S202之前，还包括：

步骤S800，分别计算历史语音数据集中，各时间点目标对象对应的历史语音之间的相似度，将相似度不满足历史语音筛选条件的历史语音剔除。

步骤S802，从剔除后剩余的历史语音中，选取出目标对象在历史时间段对应的历史语音数据集。

其中，历史语音筛选条件指用于从历史语音数据集中筛选出与目标对象的语音特征更为接近的语音数据的条件。

具体地，在对历史语音数据集进行特征提取之前，还可以进一步地对历史语音数据集中的历史语音进行筛选，由于历史语音数据集中可能存在关于目标对象错误提取的历史语音，因此可以对历史语音数据集中各历史语音进行相似度的计算，将相似度不满足历史语音筛选条件的历史语音剔除，不满足历史语音筛选条件可以是相似度小于预设相似度阈值，从而得到精度更高的历史语音数据集，并将剔除后更新的历史语音数据集作为输入目标线索编码模型中进行特征提取的历史语音数据集。对于对历史语音数据集的筛选或历史语音的剔除方式，不限于上述方式。

上述实施例中，通过在获取历史语音数据集之前，先对历史语音进行过滤，从而使得历史语音数据集中的历史语音与目标对象的真实语音更为相近，使得应用于后续步骤的数据精度更高，在一定程度上有利于目标对象语音提取的精确性。

在一个实施例中，以将目标说话人作为目标对象的语音提取为例进行描述，具体如图3所示，其中图3中的(a)和(b)中的目标说话人指目标对象，图3的(a)、(b)和(c)中的记忆单元用于存储每次从混合语音中提取出的目标对象的语音，历史语音数据集可以从记忆单元中获取。在从混合语音中提取出目标对象的语音之前，可以先确定是以目标对象的哪些数据信息作为语音提取的线索数据(即待处理语音特征数据)，若是以目标对象在目标说话人语音提取系统注册的语音作为待处理语音特征数据，则具体处理过程可如图3的(a)所示，也就是此时目标线索编码模型包括语音编码器、历史语音编码器和特征融合层，可以从记忆单元中获取目标对象在历史时间段对应的历史语音数据集，并将历史语音数据集输入目标线索编码模型中，基于目标线索编码模型中的历史语音编码器对历史语音数据集进行特征提取，得到历史语音特征；再将待处理语音特征数据输入目标线索编码模型中，基于目标线索编码模型中的语音编码器对待处理语音特征数据进行特征提取，得到待处理线索特征；再基于目标线索编码模型中的特征融合层将待处理线索特征和历史语音特征进行融合，得到目标线索特征；将图3的(a)中的混合语音作为待提取混合语音，将目标线索特征和待提取混合语音输入目标语音提取模型中，基于目标语音提取模型中的混合语音编码器对待提取混合语音进行特征提取，得到混合语音特征，基于目标语音提取模型中的语音提取层对目标线索特征和混合语音特征进行处理，输出待提取混合语音中目标对象对应的目标语音，并将目标语音存储至历史语音数据集，从而实现语音提取线索的循环动态更新。

或者，将图3的(b)中的混合语音作为待提取混合语音，若是以待提取混合语音对应的视频中与目标对象相关的唇动视频作为待处理语音特征数据，则具体处理过程可如图3的(b)所示，也就是此时目标线索编码模型包括视频编码器、历史语音编码器和特征融合层，可以从记忆单元中获取目标对象在历史时间段对应的历史语音数据集，并将历史语音数据集输入目标线索编码模型中，基于目标线索编码模型中的历史语音编码器对历史语音数据集进行特征提取，得到历史语音特征；再将待处理语音特征数据输入目标线索编码模型中，基于目标线索编码模型中的视频编码器对待处理语音特征数据进行特征提取，得到待处理线索特征；再基于目标线索编码模型中的特征融合层将待处理线索特征和历史语音特征进行融合，得到目标线索特征；将目标线索特征和待提取混合语音输入目标语音提取模型中，基于目标语音提取模型中的混合语音编码器对待提取混合语音进行特征提取，得到混合语音特征，基于目标语音提取模型中的语音提取层对目标线索特征和混合语音特征进行处理，输出待提取混合语音中目标对象对应的目标语音，并将目标语音存储至历史语音数据集。

又或者，将图3的(c)中的混合语音作为待提取混合语音，若是以待提取混合语音对应的视频中与目标对象相关的唇动视频作为待处理语音特征数据的视频数据，以及将目标说话人注册的语音作为待处理语音特征数据中的语音数据，则具体处理过程可如图3的(c)所示，也就是此时目标线索编码模型包括视频编码器、语音编码器、历史语音编码器和特征融合层，可以从记忆单元中获取目标对象在历史时间段对应的历史语音数据集，并将历史语音数据集输入目标线索编码模型中，基于目标线索编码模型中的历史语音编码器对历史语音数据集进行特征提取，得到历史语音特征；再将待处理语音特征数据输入目标线索编码模型中，基于目标线索编码模型中的视频编码器对待处理语音特征数据中的视频数据进行特征提取，得到待处理线索特征中的视频特征，基于目标线索编码模型中的语音编码器对待处理语音特征数据中的语音数据进行特征提取，得到待处理线索特征中的语音特征；再基于目标线索编码模型中的特征融合层将待处理线索特征和历史语音特征进行融合，得到目标线索特征；将目标线索特征和待提取混合语音输入目标语音提取模型中，基于目标语音提取模型中的混合语音编码器对待提取混合语音进行特征提取，得到混合语音特征，基于目标语音提取模型中的语音提取层对目标线索特征和混合语音特征进行处理，输出待提取混合语音中目标对象对应的目标语音，并将目标语音存储至历史语音数据集，从而实现不同情况下语音提取线索的循环动态更新，较好地避免了不同时间下目标对象音色差异对语音提取准确性的影响，以及目标对象注册语音时的环境与使用语音时的环境差异对语音提取准确性的影响，使得不再需要目标对象频繁在相关的语音提取系统进行语音的注册，从而提高了从混合语音中提取目标对象相关的语音的效率的同时，较好地提高了从混合语音中提取出目标对象相关的语音的准确性。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的语音提取方法的语音提取装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个语音提取装置实施例中的具体限定可以参见上文中对于语音提取方法的限定，在此不再赘述。

在一个实施例中，如图4所示，提供了一种语音提取装置，包括：获取模块400、第一提取模块402、第二提取模块404、融合模块406和处理模块408，其中：

获取模块400，用于获取待提取混合语音和目标对象对应的待处理语音特征数据，获取已训练的目标语音提取模型和已训练的目标线索编码模型。

第一提取模块402，用于获取目标对象在历史时间段对应的历史语音数据集，将历史语音数据集输入目标线索编码模型中，基于目标线索编码模型对历史语音数据集进行特征提取，得到历史语音特征。

第二提取模块404，用于将待处理语音特征数据输入目标线索编码模型中，基于目标线索编码模型对待处理语音特征数据进行特征提取，得到待处理线索特征。

融合模块406，用于基于目标线索编码模型将待处理线索特征和历史语音特征进行融合，得到目标线索特征。

处理模块408，用于将目标线索特征和待提取混合语音输入目标语音提取模型进行处理，输出待提取混合语音中目标对象对应的目标语音，将目标语音存储至历史语音数据集。

在一个实施例中，目标线索编码模型包括历史语音编码器和语音特征数据编码器；第一提取模块402还用于基于历史语音编码器对历史语音数据集进行特征提取，得到历史语音特征。第二提取模块404还用于基于语音特征数据编码器对待处理语音特征数据进行特征提取，得到待处理线索特征。

在一个实施例中，第二提取模块404还用于当待处理语音特征数据为语音数据时，语音特征数据编码器为语音编码器，基于语音编码器对语音数据进行特征提取，得到语音特征，将语音特征作为待处理线索特征；当待处理语音特征数据为视频数据时，视频数据为待提取混合语音对应的语音特征视频，语音特征数据编码器为视频编码器，基于视频编码器对视频数据进行特征提取，得到视频特征，将视频特征作为待处理线索特征；当待处理线索包括语音数据和视频数据时，视频数据为待提取混合语音对应的语音特征视频，语音特征数据编码器包括语音编码器和视频编码器，基于语音编码器对语音数据进行特征提取，得到语音特征，基于视频编码器对视频数据进行特征提取，得到视频特征，将语音特征和视频特征作为待处理线索特征。

在一个实施例中，融合模块406还用于目标线索编码器包括特征融合层；当待处理语音特征数据为语音数据，或者待处理语音特征数据包括语音数据和视频数据时，基于特征融合层，从语音特征中选取出第一筛选特征，从历史语音特征中选取出第二筛选特征；基于特征融合层，将第一筛选特征和第二筛选特征进行融合，得到语音融合特征；若待处理语音特征数据为语音数据，则将语音融合特征作为目标线索特征；若待处理语音特征数据包括语音数据和视频数据，则将语音融合特征和视频特征作为目标线索特征；若待处理语音特征数据为视频数据，则将第二筛选特征和视频特征作为目标线索特征。

在一个实施例中，融合模块406还用于通过特征融合层，基于语音时间顺序分别设置语音特征对应的第一筛选权重，和历史时间段内各时间点对应的历史语音特征的第二筛选权重；通过特征融合层，基于第一筛选权重，从语音特征中选取出第一筛选特征，基于历史时间段内各时间点对应的历史语音特征的第二筛选权重，从历史时间段内各时间点对应的历史语音特征中，选取出历史时间段内各时间点对应的第二筛选特征。

在一个实施例中，融合模块406还用于通过特征融合层，分别计算语音特征与历史时间段内各时间点对应的历史语音特征之间的相似度；通过特征融合层，基于各相似度之间的比较结果，从历史时间段内各时间点对应的历史语音特征中，选取出历史时间段内各时间点对应的第二筛选特征，将语音特征作为所述第一筛选特征。

在一个实施例中，语音提取装置还包括选取模块410，用于分别计算历史语音数据集中，各时间点目标对象对应的历史语音之间的相似度，将相似度不满足历史语音筛选条件的历史语音剔除；从剔除后剩余的历史语音中，选取出目标对象在历史时间段对应的历史语音数据集。

上述语音提取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图5所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O)和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储执行过程相关的数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音提取方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图6所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种语音提取方法。该计算机设备的显示单元用于形成视觉可见的画面，可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图5或图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种语音提取方法，其特征在于，所述方法包括：

获取所述目标对象在历史时间段对应的历史语音数据集，将所述历史语音数据集输入所述目标线索编码模型中，基于所述目标线索编码模型对所述历史语音数据集进行特征提取，得到历史语音特征；

将所述待处理语音特征数据输入所述目标线索编码模型中，基于所述目标线索编码模型对所述待处理语音特征数据进行特征提取，得到待处理线索特征；

基于所述目标线索编码模型将所述待处理线索特征和所述历史语音特征进行融合，得到目标线索特征；

将所述目标线索特征和所述待提取混合语音输入所述目标语音提取模型进行处理，输出所述待提取混合语音中所述目标对象对应的目标语音，将所述目标语音存储至所述历史语音数据集。

2.根据权利要求1所述的方法，其特征在于，所述目标线索编码模型包括历史语音编码器和语音特征数据编码器；所述基于所述目标线索编码模型对所述历史语音数据集进行特征提取，得到历史语音特征，包括：

基于所述历史语音编码器对所述历史语音数据集进行特征提取，得到所述历史语音特征；

所述基于所述目标线索编码模型对所述待处理语音特征数据进行特征提取，得到待处理线索特征，包括：

基于所述语音特征数据编码器对所述待处理语音特征数据进行特征提取，得到所述待处理线索特征。

3.根据权利要求2所述的方法，其特征在于，所述基于所述语音特征数据编码器对所述待处理语音特征数据进行特征提取，得到所述待处理线索特征包括：

当所述待处理语音特征数据为语音数据时，所述语音特征数据编码器为语音编码器，基于所述语音编码器对所述语音数据进行特征提取，得到语音特征，将所述语音特征作为所述待处理线索特征；

当所述待处理语音特征数据为视频数据时，所述视频数据为所述待提取混合语音对应的语音特征视频，所述语音特征数据编码器为视频编码器，基于所述视频编码器对所述视频数据进行特征提取，得到视频特征，将所述视频特征作为所述待处理线索特征；

当所述待处理线索包括语音数据和视频数据时，所述视频数据为所述待提取混合语音对应的语音特征视频，所述语音特征数据编码器包括语音编码器和视频编码器，基于所述语音编码器对所述语音数据进行特征提取，得到语音特征，基于所述视频编码器对所述视频数据进行特征提取，得到视频特征，将所述语音特征和所述视频特征作为所述待处理线索特征。

4.根据权利要求3所述的方法，其特征在于，所述目标线索编码器包括特征融合层；所述基于所述目标线索编码器将所述待处理线索特征和所述历史语音特征进行融合，得到目标线索特征包括：

当所述待处理语音特征数据为语音数据，或者所述待处理语音特征数据包括语音数据和视频数据时，基于所述特征融合层，从所述语音特征中选取出第一筛选特征，从所述历史语音特征中选取出第二筛选特征；

基于所述特征融合层，将所述第一筛选特征和所述第二筛选特征进行融合，得到语音融合特征；

若所述待处理语音特征数据为语音数据，则将所述语音融合特征作为所述目标线索特征；若所述待处理语音特征数据包括语音数据和视频数据，则将所述语音融合特征和所述视频特征作为所述目标线索特征；若所述待处理语音特征数据为视频数据，则将所述第二筛选特征和所述视频特征作为所述目标线索特征。

5.根据权利要求4所述的方法，其特征在于，所述基于所述特征融合层，从所述语音特征中选取出第一筛选特征，从所述历史语音特征中选取出第二筛选特征包括：

通过所述特征融合层，基于语音时间顺序分别设置所述语音特征对应的第一筛选权重，和所述历史时间段内各时间点对应的历史语音特征的第二筛选权重；

通过所述特征融合层，基于所述第一筛选权重，从所述语音特征中选取出所述第一筛选特征，基于所述历史时间段内各时间点对应的历史语音特征的第二筛选权重，从所述历史时间段内各时间点对应的历史语音特征中，选取出所述历史时间段内各时间点对应的第二筛选特征。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

通过所述特征融合层，分别计算所述语音特征与所述历史时间段内各时间点对应的历史语音特征之间的相似度；

通过所述特征融合层，基于各所述相似度之间的比较结果，从所述历史时间段内各时间点对应的历史语音特征中，选取出所述历史时间段内各时间点对应的第二筛选特征，将所述语音特征作为所述第一筛选特征。

7.根据权利要求1所述的方法，其特征在于，所述获取所述目标对象在历史时间段对应的历史语音数据集之前，还包括：

分别计算所述历史语音数据集中，各时间点所述目标对象对应的历史语音之间的相似度，将相似度不满足历史语音筛选条件的历史语音剔除；

从剔除后剩余的历史语音中，选取出所述目标对象在历史时间段对应的历史语音数据集。

8.一种语音提取装置，其特征在于，所述装置包括：

第一提取模块，用于获取所述目标对象在历史时间段对应的历史语音数据集，将所述历史语音数据集输入所述目标线索编码模型中，基于所述目标线索编码模型对所述历史语音数据集进行特征提取，得到历史语音特征；

第二提取模块，用于将所述待处理语音特征数据输入所述目标线索编码模型中，基于所述目标线索编码模型对所述待处理语音特征数据进行特征提取，得到待处理线索特征；

融合模块，用于基于所述目标线索编码模型将所述待处理线索特征和所述历史语音特征进行融合，得到目标线索特征；

处理模块，用于将所述目标线索特征和所述待提取混合语音输入所述目标语音提取模型进行处理，输出所述待提取混合语音中所述目标对象对应的目标语音，将所述目标语音存储至所述历史语音数据集。

9.一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。