CN111710327A

CN111710327A - 用于模型训练和声音数据处理的方法、装置、设备和介质

Info

Publication number: CN111710327A
Application number: CN202010537475.XA
Authority: CN
Inventors: 熊俊峰; 王洋; 刘焱
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-12
Filing date: 2020-06-12
Publication date: 2020-09-25
Anticipated expiration: 2040-06-12
Also published as: CN111710327B

Abstract

本申请公开了用于模型训练和声音数据处理的方法、装置、设备和介质，涉及语音技术和深度学习领域。模型训练方法包括获取第一声音样本和第二声音样本，第一声音样本是通过采集一段时间内的原始声音所得到的数据，第二声音样本是通过采集针对原始声音的重放声音所得到的数据。该方法还包括确定第一声音样本的第一频域数据和第二声音样本的第二频域数据。该方法还包括以第二频域数据作为输入并以第一频域数据作为目标输出，训练用于还原原始声音的第一神经网络模型。通过该方法，可以从重放声音数据快速准确的获得原始声音数据，提高了声音转换处理的效率，改进了获得原始声音的便利性，并且利用该模型可以快速准确的确定数字攻击样本的物理攻击样本。

Description

用于模型训练和声音数据处理的方法、装置、设备和介质

技术领域

本公开的实施例主要涉及数据处理领域，并且更具体地，涉及语音技术和深度学习领域的用于模型训练和声音数据处理的方法、装置、设备和介质。

背景技术

随着计算机技术的快速发展，人与机器的交互越来越多。为了便于更好的与计算设备进行交互，语音交互技术得到了快速的发展。用户发出语音命令后，计算设备通过语音识别技术来识别用户的语音。在识别完成后，执行与用户的语音命令相对应的操作。这种语音交互方式改进了人机交互的体验。然而，在语音识别过程中还存在着许多需要解决的问题。

发明内容

本公开提供了一种用于模型训练和声音数据处理的方法、装置、设备以及计算机可读存储介质。

根据本公开的第一方面，提供了一种模型训练方法。该方法包括获取第一声音样本和第二声音样本，第一声音样本是通过采集一段时间内的原始声音所得到的数据，第二声音样本是通过采集针对原始声音的重放声音所得到的数据。该方法还包括确定第一声音样本的第一频域数据和第二声音样本的第二频域数据。该方法还包括以及以第二频域数据作为输入并以第一频域数据作为目标输出，训练用于还原原始声音的第一神经网络模型。

根据本公开的第二方面，提供了一种声音数据处理方法。该方法包括确定重放声音数据的频域数据，重放声音数据是通过采集第一重放声音所得到的。该方法还包括将重放声音数据的频域数据输入通过根据第一方面的方法所训练的第一神经网络模型，以获得目标频域数据。该方法还包括确定与目标频域数据对应的原始声音数据，以得到第一重放声音的原始声音。

根据本公开的第三方面，提供了一种模型训练装置。该装置包括声音样本获取模块，被配置为获取第一声音样本和第二声音样本，第一声音样本是通过采集一段时间内的原始声音所得到的数据，第二声音样本是通过采集针对原始声音的重放声音所得到的数据；频域数据确定模块，被配置为确定第一声音样本的第一频域数据和第二声音样本的第二频域数据；以及训练模块，被配置为以第二频域数据作为输入并以第一频域数据作为目标输出，训练用于还原原始声音的第一神经网络模型。

根据本公开的第四方面，提供了一种声音数据处理装置。该装置包括第一频域数据确定模块，被配置为确定重放声音数据的频域数据，重放声音数据是通过采集第一重放声音所得到的；目标频域数据获取模块，被配置为将重放声音数据的频域数据输入通过根据第一方面的方法所训练的第一神经网络模型，以获取目标频域数据；以及原始声音数据确定模块，被配置为确定与目标频域数据对应的原始声音数据，以得到第一重放声音的原始声音。

根据本公开的第五方面，提供了一种电子设备。该电子设备包括至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行根据本公开的第一方面的方法。

根据本公开的第六方面，提供了一种电子设备。该电子设备包括至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行根据本公开的第二方面的方法。

根据本公开的第七方面，提供一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行根据本公开的第一方面的方法。

根据本公开的第八方面，提供一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行根据本公开的第二方面的方法。

根据本公开的技术解决了声音数据处理的问题，提高了声音数据处理的效率。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1示出了本公开的多个实施例能够在其中实现的环境100的示意图；

图2示出了根据本公开的一些实施例的模型训练方法200的流程图；

图3示出了本公开的多个实施例能够在其中实现的环境300的示意图；

图4示出了根据本公开的一些实施例的用于处理声音数据的方法400的流程图；

图5示出了根据本公开的一些实施例的用于获取对抗样本的过程500的示意图；

图6示出了根据本公开的一些实施例的用于获取对抗样本的方法600的流程图；

图7示出了根据本公开的一些实施例的用于获取物理对抗样本的过程700的示意图；

图8示出了根据本公开的一些实施例的模型训练装置800的框图；以及

图9示出了根据本公开的一些实施例的用于处理声音数据的装置900的框图；以及

图10示出了能够实施本公开的多个实施例的设备1000的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

随着语音技术的发展，在收集很少语音数据的条件下，可以制作任意说话内容的假语音，例如假演讲内容。这引发了语音造假问题。为了解决这种问题，产生了检测这种假语音的检测方法，叫做假语音检测技术，也称为对抗(countermeasure，CM)技术。目前较为先进的CM系统是基于深度神经网络的。

为了能够绕过CM系统，已有的方案在数据集中通过故意添加细微的干扰形成输入样本，来致使模型给出一个错误的输出。此时，该输入样本被称为对抗样本。因此，对抗样本可能用于制造绕过CM系统的对抗性假声音。

为了提高CM系统对对抗样本的抵抗能力，需要设计严谨的对抗样本鲁棒性实验，来检测CM系统的可靠程度。因此，如何生成这样的对抗样本，对于检测CM系统的安全性、鲁棒性非常重要。同时这对于通话、媒体的假声音预防检测和基于声纹识别的生物信息安全技术，也都具有重要的意义。

对抗样本可以对由CM技术形成的重放检测器形成有效的攻击。然而对抗样本通常是在计算机的数字文件(例如普通样本)上直接改动来生成的。例如，录制设备在录制信号源的信号后会得到录制信号，然后将录制信号在计算设备内进行处理得到声音样本X，为了得到对抗样本，在声音样本X上加扰动。

传统方案通常是在计算设备上直接对声音样本X增加数字扰动来获得数字对抗样本。然而，这种数字对抗样本并不能模拟真实的物理攻击。此外，由于声音在自然环境中(和录制设备的特异性)传播会出现损失，难以得到可以作为信号源的物理攻击样本。

为了至少解决上述问题，根据本公开的实施例，提出一种模型训练和声音数据处理的改进方案。在该方案中，计算设备首先获取第一声音样本和第二声音样本，第一声音样本是通过采集一段时间内的原始声音所得到的数据，第二声音样本是通过采集针对原始声音的重放声音所得到的数据。计算设备然后确定第一声音样本的第一频域数据和第二声音样本的第二频域数据。计算设备以第二频域数据作为输入并以第一频域数据作为目标输出，训练用于还原原始声音的第一神经网络模型。该第一神经网络模型可用于获得与数字对抗样本相对应的物理对抗样本。通过该方法，可以从重放声音数据快速准确的获得原始声音数据，提高了声音转换处理的效率，提高了获得原始声音的便利性，并且利用该模型可以快速准确的确定数字攻击样本的物理攻击样本。

图1示出了本公开的多个实施例能够在其中实现的环境100的示意图。该示例环境100包括计算设备106。计算设备106可以利用声音样本来训练第一神经网络模型112。该第一神经网络模型112可用于还原原始声音，即可以通过接收到的声音来确定原始声音。

计算设备106包括但不限于个人计算机、服务器计算机、手持或膝上型设备、多处理器系统、消费电子产品、小型计算机、大型计算机、包括上述系统或设备中的任意一个的分布式计算环境、云平台中的虚拟机或其他计算设备等。

在通过计算设备106训练第一神经网络模型112时，计算设备106会接收第一声音样本102，同时接收第二声音样本104。第一声音样本102是通过采集一段时间内的原始声音所得到的数据，第二声音样本104是通过采集针对原始声音的重放声音所得到的数据。在一些实施例中，该原始声音是语音。在一些实施例中，该原始声音可以是非语音的任何合适的声音。上述示例仅是用于描述本公开，而非对本公开的具体限定。

在图1中示出了计算设备106从其他设备接收第一声音样本102和第二声音样本104，其仅是示例，而非对本公开的具体限定。第一声音样本102和第二声音样本104可以被存储在计算设备106上。此外，计算设备106在训练第一神经网络模型112时还会获得其他相对应的声音样本对。

在一些实施例中，可以在播放第一声音样本102时开始记录第二声音样本，然后在第一声音样本102结束时停止记录第二声音样本104，此时第一声音样本102和第二声音样本104是内容对齐的。在一些实施例中，需要对第一声音样本102和第二声音样本104进行对齐以使得第一声音样本102和第二声音样本104对应于相同时段上的原始声音和重放声音。在一些实施例中，可以将第一声音样本102的声音的起始时记得与第二声音样本104的声音的起始时刻相对应并且两个声音样本的时长相同。上述示例仅是用于描述本公开，而非对本公开的具体限定。

计算设备106基于第一声音样本102和第二声音样本104来确定出第一频域数据108和第二频域数据110。在一些实施例中，分别对第一声音样本102和第二声音样本104进行分帧加窗处理，然后再进行包括傅立叶变换的变换操作将帧转换为频域数据块。然后将分别与第一声音样本102和第二声音样本104相对应的频域数据块按时间顺序组合成第一频域数据108和第二频域数据110。在一些实施例中，直接将第一声音样本102和第二声音样本104变换到频域以得到对应的第一频域数据108和第二频域数据110。上述示例仅是用于描述本公开，而非对本公开的具体限定。

在一些实施例中，该第一频域数据108和第二频域数据110分别对应于的第一声音样本102的第一频谱图和第二声音样本104的第二频谱图。在一些实施例中，频谱图为能量谱图。在一些实施例中，频谱图为梅尔倒频谱图。上述示例仅是用于描述本公开，而非对本公开的具体限定。

计算设备106以第一频域数据108作为输出，第二频域数据110作为输入来训练第一神经网络模型112。训练好的第一神经网络模型112能够从记录的声音获得原始声音。

通过利用第一神经网络模型，可以从重放声音数据快速准确的获得原始声音数据，提高了声音转换处理的效率，提高了获得原始声音的便利性，并且利用该模型还可以快速准确的确定出声音数据的数字攻击样本的物理攻击样本。

上面图1示出了本公开的多个实施例能够在其中实现的环境100的示意图。下面结合图2描述根据本公开的一些实施例的模型训练方法200的流程图。方法200可以由图1中的计算设备106或其它任意合适的设备来实现。

在框202处，计算设备106获取第一声音样本102和第二声音样本104，第一声音样本102是通过采集一段时间内的原始声音所得到的数据，第二声音样本104是通过采集针对原始声音的重放声音所得到的数据。第一声音样本102和第二声音样本104是具有对应关系的样本对。

在一些实施例中，在播放第一声音样本102时开始记录第二声音样本104，在结合第一声音样本102时停止记录第二声音样本。因此，第一声音样本102和第二声音样本104是内容对齐的。在一些实施例中，对第一声音样本102和第二声音样本104进行对齐操作以使第一声音样本102和第二声音样本104分别对应相同时间段上的原始声音和重放声音。例如，使得第一声音样本102的声音的起始时刻对应于第二声音样本104的声音的起始时刻，并保证两个样本的时长相同。通过上述方式，确保了声音样本数据的一致性，提高了训练模型的效率。上述示例仅是用于描述本公开，而非对本公开的具体限定。

在框204处，计算设备106确定第一声音样本102的第一频域数据108和第二声音样本104的第二频域数据110。为了对声音样本进行处理，需要对声音样本进行处理转换到频域上。

在一些实施例中，计算设备106从第一声音样本102确定一组帧，一组帧中的每个帧为第一声音样本102的一部分。一组帧中的每个帧具有相同长度。例如，第一声音样本102时长为5s，帧长可设为5ms，因此从第一声音样本102可以生成许多帧。为了保证声音的连续性，前后相邻的两个帧可以部分重叠。通过设置帧具有相同长度，使得可以确保声音样本被一致且准确地处理。接下来，计算设备106将一组帧中的每个帧变换到频域，以获得第一组频域数据块。在一些实施例中，在该变换过程中可以对帧进行加窗处理，然后利用包括傅立叶变换的操作来将帧变换到频域。然后计算设备106将第一组频域数据块依据时间顺序进行组合来生成第一频域数据108。通过将声音样本变换到频域，可以更准确的处理声音样本，提高了数据处理效率。

在一些实施例中，计算设备106将第一声音样本102变换到频域，以获得第一频域数据108。通过将声音样本直接变换到频域，加快了声音样本的处理过程，提高了处理效率。

同样，计算设备106可以与处理第一声音样本102相同的方式来处理第二声音样本104。

在框206处，计算设备106以第二频域数据110作为输入并以第一频域数据108作为目标输出，训练用于还原原始声音的第一神经网络模型112。训练好的第一神经网络模型112可以根据重放声音数据来确定原始声音数据，即可以将记录的声音还原回原始声音。

通过该方法，可以从重放声音数据快速准确的获得原始声音数据，提高了声音转换处理的效率，提高了获得原始声音的便利性，并且利用该模型可以快速准确的确定数字攻击样本的物理攻击样本。

上面结合图2描述了根据本公开的一些实施例的用于处理视频的方法200的流程图。下面结合图3详细描述使用第一神经网络模型的环境。图3示出了本公开的多个实施例能够在其中实现的环境300的示意图。

如图3所示，计算设备306可以运行由图1中的计算设备106生成的第一神经网络模型112。在一些实施例中，计算设备306和计算设备106可以是相同的计算设备。在一些实施例中，计算设备306和计算设备106是不同的计算设备。上述示例仅是用于描述本公开，而非对本公开的具体限定。

通过在计算设备306中运行第一神经网络模型112，可以确定与重放声音数据302相对应的原始声音数据304。

计算设备306包括但不限于个人计算机、服务器计算机、手持或膝上型设备、多处理器系统、消费电子产品、小型计算机、大型计算机、包括上述系统或设备中的任意一个的分布式计算环境、云平台中的虚拟机或其他计算设备等。

计算设备306接收重放声音数据302。该重放声音数据302是通过采集重放声音所得到的。重放声音数据302被计算设备306接收。计算设备306对重放声音数据302执行一系列操作，包括分帧加窗、傅里叶变换等，来将重放声音数据302转换为频域数据308。频域数据308对应于重放声音数据302的频谱图。

通过将频域数据308输入第一神经网络模型112可以确定出目标频域数据310。然后对目标频域数据310执行与获得频域数据308相反的一系列操作便可以获取到原始声音数据304，该原始声音数据304便是录制原始声音后得到的声音数据。

上面结合图3描述了本公开的多个实施例能够在其中实现的环境300的示意图。下面结合图4详细描述处理声音数据的过程。图4示出了根据本公开的一些实施例的用于处理声音数据的方法400的流程图。图4中的方法400可以图3中的计算设备306或其它任意合适的设备来执行。

如图4所示，在框402处，计算设备306获得确定重放声音数据302的频域数据308，重放声音数据302是通过采集第一重放声音所得到的。由于模拟声音传播过程的第一神经网络模型112需要输入频域数据308。因此，对重放声音数据302进行处理来获得频域数据308，例如，对重放声音数据进行分帧、加窗、傅里叶变换等一系列操作。在一些实施例中，重放声音数据302可以是使用于标识接收的声音是原始声音还是重放声音的第二神经网络模型输出错误结果的数字对抗样本。下面将结合图5和图6详细描述获得第二神经网络模型的数字对抗样本的过程。

在一些实施例中，计算设备306从重放声音数据302确定一组帧，一组帧中的每个帧为重放声音数据302的一部分。然后计算设备306将一组帧中的每个帧变换到频域，以获得一组频域数据块。接下来，计算设备306将一组频域数据块依据时间顺序进行组合来生成重放声音数据302的频域数据308。重放声音数据302的频域数据308对应于重放声音数据302的频谱图。通过上述方式，可以快速准确地把重放声音数据转换到频域，提高了数据处理效率。

在框404处，计算设备将重放声音数据302的频域数据308输入根据模型训练方法训练的第一神经网络模型112，以获得目标频域数据310。通过利用第一神经网络模型112获得的目标频域数据310为与重放声音数据302相对应的原始声音数据304的频域数据308。

在框406处，计算设备306确定与目标频域数据310对应的原始声音数据304，以得到第一重放声音的原始声音。

在一些实施例中，在重放声音数据302是使第二神经网络模型输出错误结果的数字对抗样本的情况下，得到的原始声音数据304是用于第二神经网络模型的物理对抗样本。当原始声音数据304被播放时，通过声音记录设备记录的重放声音数据302将使第二神经网络模型输出错误结果。

在一些实施例中，计算设备306将目标频域数据310划分为第三组频域数据块。在一个示例中，频域数据块的大小是预先确定的，其对应于预定时长的声音信号。然后计算设备306将第三组频域数据块变换到时域以获得一组帧，该一组帧中的每个帧为原始声音数据304的一部分，例如执行包括傅里叶逆变换的操作。计算设备306将一组帧组合起来以确定原始声音数据304。通过对目标频域数据310执行与获得频域数据相反的变换便可以快速的获得原始声音数据，提高了数据处理的效率。

通过上述方法，可以快速的获得重放声音数据的原始声音数据，并且在重放声音数据是数字攻击样本时，可以快速准确的确定物理攻击样本，这种物理攻击样本的使用可用于改进CM系统的安全性、可靠性以及对抗鲁棒性。

上面结合图4描述了根据本公开的一些实施例的用于处理声音数据的方法400的流程图。下面结合图5描述获得第二神经网络模型的对抗样本的过程。图5示出了根据本公开的一些实施例的用于获取对抗样本的过程500的示意图。

如图5所示，可以使用记录原始声音的第四声音样本502和记录重放声音的第三声音样本504来训练第二神经网络模型506。第二神经网络模型506可用于标识输入的数据是来自原始声音的还是来自重放声音。图5中示出的用于训练第二神经网络模型506的第三声音样本504和第四声音样本502仅是示例，而非对本公开的具体限定。还存在许多其他用于训练第二神经网络模型506的原始声音数据和重放声音数据。

经过训练的第二神经网络模型506将第三声音样本504标识为重放声音。如图所示，由第三声音样本504获得第二神经网络模型506的对抗样本510，即获得使第二神经网络模型506获得错误结果的数字对抗样本。通常，利用攻击算法508来处理第三声音样本504。在一些实施例中，攻击算法508可以是基于梯度的攻击算法，例如快速梯度符号法(FastGradient Sign Method)。在一些实施例中，攻击算法508可以为本领域任意合适的获得对抗样本的攻击算法，例如遗传算法。上述示例仅是用于描述本公开，而非对本公开的具体限定。

在一些实施例中，在由第三声样本504获得对抗样本510时，先将第三样本504转换为频域数据，例如通过分帧加窗和傅里叶变换等操作。然后通过利用攻击算法508来调整频域数据，当调整后的频域数据使得第二神经网络模型506给出错误的结果时，将调整后的频域数据转换成对抗样本510，例如进行与生成频域数据相反的逆变换操作。

上面结合图5描述了获得对抗样本的过程，下面结合图6详细描述获得对抗样本的方法。图6示出了根据本公开的一些实施例的用于获取对抗样本的方法600的流程图。图6中的方法600可以图3中的计算设备306或其它任意合适的设备来执行。

在框602处，计算设备306获取由第二神经网络模型506标识为重放声音数据的第三声音样本504。第三声音样本504是用于训练第二神经网络模型506的声音样本。

在框604处，计算设备306确定第三声音样本504的第三频域数据。计算设备306对第三声音样本504执行预定的操作，例如分帧加窗和傅里叶变换等操作将第三声音样本504转换为频域数据。

在框606处，计算设备306对第三频域数据进行调整以使得第二神经网络模型506输出错误结果。在对第三频域数据进行调整的过程中，计算设备306使用攻击算法508结合第二神经网络模型506来对第三频域数据进行调整。利用攻击算法508对第三频域数据进行调整的方法可以采用本领域中任何合适的方法来进行。例如，可以利用基于梯度的攻击算法和遗传算法等对第三频域数据进行调整。

在框608处，计算设备306基于经调整的第三频域数据来获得对抗样本510。计算设备306对经调整的第三频域数据进行与从声音数据获得频域数据相反的操作来获得对抗样本510，对抗样本510也可以称为数字对抗样本。

通过上述方法，可以快速的确定出可用于生成物理对抗样本的数字对抗样本，加快了样本获取的速度，提高了样本获取效率。

上面结合图6描述了根据本公开的一些实施例的用于获取对抗样本的方法600的流程图。下面结合图7描述获取物理对抗样本的一个示例。图7示出了根据本公开的一些实施例的用于获取物理对抗样本的过程700的示意图。

在图7中，首先利用中的第一声音样本102和第二声音样本104来训练第一神经网络模型112。用于训练第一神经网络模型112的第一声音样本102和第二声音样本104需要进行声间对齐操作702以确保第一声音样本102和第二声音样本104完全对应。此时第一声音样本102、第二声样本104对应于相同的原始声音内容。然后利用第一声音样本102和第二声音样本104来训练第一神经网络模型112。训练好的第一神经网络模型112可用于从重放声音数据确定原始声音数据。

第二神经网络模型506用于确定输入的声音是重放声音还是原始声音。第二神经网络模型506是通过第三声音样本504和第四声音样本502训练得到的。第四声音样本502是通过录制原始声音得到的声音信号数据，而第三声音样本504是通过录制播放的声音得到的声音数据信号。

对于由第二神经网络模型506标识为重放声音数据的第三声音样本504，通过利用攻击算法508对其进行调整以使得第二经网络模型506给出错误结果。此时，将调整后的第三声音样本504确定为对抗样本510，也称为数字对抗样本。数字对抗样本使得第二神经网络模型506给出错误结果。

然后将数字对抗样本输入第一神经网络模型112便可以获得物理对抗样本704。在该物理对抗样本704播放时录制得到的声音信号数据将使得第二神经网络模型506给出错误的结果。

通过上述方法，可以快速准确地确定出物理对抗样本，这种物理对抗样本的使用可用于改进CM系统的安全性、可靠性以及对抗鲁棒性。

图8示出了根据本公开实施例的模型训练装置800的示意性框图。如图8所示，装置800包括声音样本获取模块802，被配置为获取第一声音样本和第二声音样本，第一声音样本是通过采集一段时间内的原始声音所得到的数据，第二声音样本是通过采集针对原始声音的重放声音所得到的数据。装置800还包括频域数据确定模块804，被配置为确定第一声音样本的第一频域数据和第二声音样本的第二频域数据。装置800还包括训练模块806，被配置为以第二频域数据作为输入并以第一频域数据作为目标输出，训练用于还原原始声音的第一神经网络模型。

在一些实施例中，其中频域数据确定模块804包括第一频域数据获取模块，被配置为将第一声音样本变换到频域，以获取第一频域数据。

在一些实施例中，频域数据确定模块804包括帧确定模块，被配置为从第一声音样本确定一组帧，一组帧中的每个帧为第一声音样本的一部分；频域变换模块，被配置为将一组帧中的每个帧变换到频域，以获得第一组频域数据块；以及组合模块，被配置为将第一组频域数据块依据时间顺序进行组合来生成第一频域数据。

在一些实施例中，其中一组帧中的每个帧具有相同长度。

在一些实施例中，其中第一声音样本和第二声音样本分别对应相同时间段上的原始声音和重放声音。

图9示出了根据本公开实施例的声音数据处理装置900的示意性框图。如图9所示，装置900包括第一频域数据确定模块902，被配置为确定重放声音数据的频域数据，重放声音数据是通过采集第一重放声音所得到的。装置900还包括目标频域数据获取模块904，被配置为将重放声音数据的频域数据输入通过根据本文中前述的方法所训练的第一神经网络模型，以获取目标频域数据。装置900还包括第一原始声音数据确定模块906，被配置为确定与目标频域数据对应的原始声音数据，以得到第一重放声音的原始声音。

在一些实施例中，其中重放声音数据是使用于标识重放声音的第二神经网络模型输出错误结果的对抗样本，并且该装置900还包括声音样本获取模块，被配置为获取由第二神经网络模型标识为重放声音数据的第三声音样本；第二频域数据确定模块，被配置为确定第三声音样本的第三频域数据；调整模块，被配置为对第三频域数据进行调整以使得第二神经网络模型输出错误结果；以及对抗样本获取模块，被配置为基于经调整的第三频域数据来获取对抗样本。

在一些实施例中，第一频域数据确定模块902包括帧确定模块，被配置为从重放声音数据确定一组帧，一组帧中的每个帧为重放声音数据的一部分；频域变换模块，被配置为将一组帧中的每个帧变换到频域，以获得一组频域数据块；以及组合模块，被配置为将一组频域数据块依据时间顺序进行组合来生成重放声音数据的频域数据。

在一些实施例中，第一原始声音数据确定模块906包括划分模块，被配置为将目标频域数据划分为第三组频域数据块；时域变换模块，被配置为将第三组频域数据块变换到时域以获得一组帧，一组帧中的每个帧为原始声音数据的一部分；以及第二原始声音数据确定模块，被配置为基于一组帧来确定原始声音数据。

根据本公开的实施例，本公开还提供了一种电子设备和一种可读存储介质。

图10示出了可以用来实施本公开的实施例的电子设备1000的示意性框图。设备1000可以用于实现图1中的计算设备106和图3中的计算设备306。如图所示，设备1000包括计算单元1001，其可以根据存储在只读存储器(ROM)1002中的计算机程序指令或者从存储单元708加载到随机访问存储器(RAM)1003中的计算机程序指令，来执行各种适当的动作和处理。在RAM 1003中，还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

设备1000中的多个部件连接至I/O接口1005，包括：输入单元1006，例如键盘、鼠标等；输出单元1007，例如各种类型的显示器、扬声器等；存储单元1008，例如磁盘、光盘等；以及通信单元1009，例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理，例如方法200、400和600。例如，在一些实施例中，方法200、400和600可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时，可以执行上文描述的方法200、400和600的一个或多个步骤。备选地，在其他实施例中，计算单元1001可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法200、400和600。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种模型训练方法，包括：

获取第一声音样本和第二声音样本，所述第一声音样本是通过采集一段时间内的原始声音所得到的数据，所述第二声音样本是通过采集针对所述原始声音的重放声音所得到的数据；

确定所述第一声音样本的第一频域数据和所述第二声音样本的第二频域数据；以及

以所述第二频域数据作为输入并以所述第一频域数据作为目标输出，训练用于还原原始声音的第一神经网络模型。

2.根据权利要求1所述的方法，其中确定所述第一频域数据包括：

将所述第一声音样本变换到频域，以获得所述第一频域数据。

3.根据权利要求1所述的方法，其中确定所述第一频域数据包括：

从所述第一声音样本确定一组帧，所述一组帧中的每个帧为所述第一声音样本的一部分；

将所述一组帧中的每个帧变换到频域，以获得第一组频域数据块；以及

将所述第一组频域数据块依据时间顺序进行组合来生成第一频域数据。

4.根据权利要求1所述的方法，其中所述一组帧中的每个帧具有相同长度。

5.根据权利要求1所述的方法，其中所述第一声音样本和所述第二声音样本分别对应相同时间段上的原始声音和重放声音。

6.一种声音数据处理方法，包括：

确定重放声音数据的频域数据，所述重放声音数据是通过采集第一重放声音所得到的；

将所述重放声音数据的频域数据输入通过根据权利要求1-5中任一项所述的方法所训练的第一神经网络模型，以获得目标频域数据；以及

确定与所述目标频域数据对应的原始声音数据，以得到所述第一重放声音的原始声音。

7.根据权利要求6所述的方法，其中所述重放声音数据是使用于标识重放声音的第二神经网络模型输出错误结果的对抗样本，并且所述方法还包括：

获取由所述第二神经网络模型标识为重放声音数据的第三声音样本；

确定所述第三声音样本的第三频域数据；

对所述第三频域数据进行调整以使得所述第二神经网络模型输出错误结果；以及

基于经调整的所述第三频域数据来获得所述对抗样本。

8.根据权利要求6所述的方法，其中确定所述重放声音数据的频域数据包括：

从所述重放声音数据确定一组帧，所述一组帧中的每个帧为所述重放声音数据的一部分；

将所述一组帧中的每个帧变换到频域，以获得一组频域数据块；以及

将所述一组频域数据块依据时间顺序进行组合来生成所述重放声音数据的频域数据。

9.根据权利要求6所述的方法，其中确定所述原始声音数据包括：

将所述目标频域数据划分为第三组频域数据块；

将所述第三组频域数据块变换到时域以获得一组帧，所述一组帧中的每个帧为所述原始声音数据的一部分；以及

基于所述一组帧来确定所述原始声音数据。

10.一种模型训练装置，包括：

声音样本获取模块，被配置为获取第一声音样本和第二声音样本，所述第一声音样本是通过采集一段时间内的原始声音所得到的数据，所述第二声音样本是通过采集针对所述原始声音的重放声音所得到的数据；

频域数据确定模块，被配置为确定所述第一声音样本的第一频域数据和所述第二声音样本的第二频域数据；以及

训练模块，被配置为以所述第二频域数据作为输入并以所述第一频域数据作为目标输出，训练用于还原原始声音的第一神经网络模型。

11.根据权利要求10所述的装置，其中所述频域数据确定模块包括：

第一频域数据获取模块，被配置为将所述第一声音样本变换到频域，以获取所述第一频域数据。

12.根据权利要求10所述的装置，其中所述频域数据确定模块包括：

帧确定模块，被配置为从所述第一声音样本确定一组帧，所述一组帧中的每个帧为所述第一声音样本的一部分；

频域变换模块，被配置为将所述一组帧中的每个帧变换到频域，以获得第一组频域数据块；以及

组合模块，被配置为将所述第一组频域数据块依据时间顺序进行组合来生成第一频域数据。

13.根据权利要求10所述的装置，其中所述一组帧中的每个帧具有相同长度。

14.根据权利要求10所述的装置，其中所述第一声音样本和所述第二声音样本分别对应相同时间段上的原始声音和重放声音。

15.一种声音数据处理装置，包括：

第一频域数据确定模块，被配置为确定重放声音数据的频域数据，所述重放声音数据是通过采集第一重放声音所得到的；

目标频域数据获取模块，被配置为将所述重放声音数据的频域数据输入通过根据权利要求1-5中任一项所述的方法所训练的第一神经网络模型，以获取目标频域数据；以及

第一原始声音数据确定模块，被配置为确定与所述目标频域数据对应的原始声音数据，以得到所述第一重放声音的原始声音。

16.根据权利要求15所述的装置，其中所述重放声音数据是使用于标识重放声音的第二神经网络模型输出错误结果的对抗样本，并且所述装置还包括：

声音样本获取模块，被配置为获取由所述第二神经网络模型标识为重放声音数据的第三声音样本；

第二频域数据确定模块，被配置为确定所述第三声音样本的第三频域数据；

调整模块，被配置为对所述第三频域数据进行调整以使得所述第二神经网络模型输出错误结果；以及

对抗样本获取模块，被配置为基于经调整的所述第三频域数据来获取所述对抗样本。

17.根据权利要求15所述的装置，其中所述第一频域数据确定模块包括：

帧确定模块，被配置为从所述重放声音数据确定一组帧，所述一组帧中的每个帧为所述重放声音数据的一部分；

频域变换模块，被配置为将所述一组帧中的每个帧变换到频域，以获得一组频域数据块；以及

组合模块，被配置为将所述一组频域数据块依据时间顺序进行组合来生成所述重放声音数据的频域数据。

18.根据权利要求15所述的装置，其中所述第一原始声音数据确定模块包括：

划分模块，被配置为将所述目标频域数据划分为第三组频域数据块；

时域变换模块，被配置为将所述第三组频域数据块变换到时域以获得一组帧，所述一组帧中的每个帧为所述原始声音数据的一部分；以及

第二原始声音数据确定模块，被配置为基于所述一组帧来确定所述原始声音数据。

19.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。

20.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求6-9中任一项所述的方法。

21.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的方法。

22.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求6-9中任一项所述的方法。