CN110289010A

CN110289010A - 一种声音采集的方法、装置、设备和计算机存储介质

Info

Publication number: CN110289010A
Application number: CN201910521230.5A
Authority: CN
Inventors: 陈昌滨; 卞衍尧
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-06-17
Filing date: 2019-06-17
Publication date: 2019-09-27
Anticipated expiration: 2039-06-17
Also published as: US20200394995A1; US11295724B2; CN110289010B

Abstract

本发明提供了一种声音采集的方法、装置、设备和计算机存储介质，其中方法包括：声音采集装置播放预设的语音片段的同时，采集第一声音数据；采集用户对所述语音片段的跟读声音数据；利用声音干扰系数对所述跟读声音数据进行去干扰处理，得到第二声音数据，其中所述声音干扰系数是利用所述语音片段和所述第一声音数据确定的；利用所述第二声音数据，得到用于语音合成的训练数据。通过本发明提供的方式能够提高采集的声音数据的质量。

Description

一种声音采集的方法、装置、设备和计算机存储介质

【技术领域】

本发明涉及计算机应用技术领域，特别涉及一种声音采集的方法、装置、设备和计算机存储介质。

【背景技术】

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就被认为是现有技术。

随着人工智能技术的迅速发展，越来越多的具有语音交互功能的智能设备问世，例如智能音箱、智能电视、智能遥控等。伴随着用户个性化需求的增多，很多用户希望能够在智能设备上使用自己熟悉或喜欢的声音用于交互。例如，用户希望在与智能音箱进行语音交互时，智能音箱使用的是自己孩子的声音，或者自己的声音。这就需要预先利用智能设备采集声音数据，然后利用采集的声音数据进行模型训练，以合成个性化的声音。

现有的声音采集方式是在智能设备的屏幕上显示需要用户朗读的文本，用户点击录音按钮后，按照屏幕上的文本逐字朗读，智能设备录制用户朗读的声音数据并上传至服务器。然而现有的声音采集方式对于不识字等存在阅读障碍的用户并不适用。并且对于具有不同朗读习惯的用户，会造成采集的声音数据中对同一段文字的朗读节奏、情感、快慢等存在较大偏差，给后续模型训练造成困难。另外，为了保证看清屏幕上文字的情况下，需要与终端保持一定距离，没有拢音设备的情况下，会造成采集的声音存在较大噪声和混响等干扰。因此，现有的声音采集方式采集的声音数据质量低下。

【发明内容】

有鉴于此，本发明提供了一种声音采集的方法、装置、设备和计算机存储介质，以便于提高采集的声音数据的质量。

具体技术方案如下：

第一方面，本发明提供了一种声音采集的方法，该方法包括：

声音采集装置播放预设的语音片段的同时，采集第一声音数据；

采集用户对所述语音片段的跟读声音数据；

利用声音干扰系数对所述跟读声音数据进行去干扰处理，得到第二声音数据，其中所述声音干扰系数是利用所述语音片段和所述第一声音数据确定的；

利用所述第二声音数据，得到用于语音合成的训练数据。

根据本发明一优选实施方式，所述声音采集装置播放预设的语音片段包括：

声音采集功能启动后，所述声音采集装置自动播放预设的语音片段；或者，

声音采集功能启动后，若接收到用户触发播放的操作，则所述声音采集装置播放预设的语音片段。

根据本发明一优选实施方式，所述声音采集装置播放预设的语音片段的同时，还包括：

在与所述声音采集装置连接的有屏设备上显示所述语音片段对应的文字。

根据本发明一优选实施方式，在所述采集用户对所述语音片段的跟读声音数据之前，还包括：

所述声音采集装置通过提示音引导用户对所述语音片段进行跟读；或者，

在与所述声音采集装置连接的有屏设备上显示提示语或提示画面引导用户对所述语音片段进行跟读。

根据本发明一优选实施方式，在引导用户对所述语音片段进行跟读之前，还包括：

利用所述声音干扰系数判断当前采集环境是否符合预设要求，如果是，则继续执行所述引导用户对所述语音片段进行跟读；否则，提示用户更换采集环境。

根据本发明一优选实施方式，利用所述语音片段和所述第一声音数据确定所述声音干扰系数包括：

将所述语音片段作为参考语音，对所述第一声音数据进行噪声和混响估算，得到所述第一声音数据的噪声系数和混响延迟系数；

利用声音干扰系数对所述跟读声音数据进行去干扰处理包括：

利用所述噪声系数和混响延迟系数，对所述跟读声音数据进行噪声抑制和混响调节。

根据本发明一优选实施方式，利用所述第二声音数据，得到用于语音合成的训练数据包括：

所述声音采集装置将所述第二声音数据作为用于语音合成的训练数据上传服务器；或者，

所述声音采集装置对所述第二声音数据进行质量评分，若质量评分结果满足预设要求，则将所述第二声音数据作为用于语音合成的训练数据上传服务器。

根据本发明一优选实施方式，若所述第二声音数据的质量评分结果不满足预设要求，则播放同一条预设的语音片段以重新进行声音采集；若所述第二声音数据的质量评分结果满足预设要求，则播放下一条预设的语音片段以继续进行声音采集。

第二方面，本发明还提供了一种声音采集的装置，该装置包括：

播放单元，用于播放预设的语音片段；

采集单元，用于播放所述预设的语音片段的同时，采集第一声音数据；以及采集用户对所述语音片段的跟读声音数据；

去干扰单元，用于利用所述语音片段和所述第一声音数据，确定声音干扰系数；利用所述声音干扰系数对所述跟读声音数据进行去干扰处理，得到第二声音数据；

确定单元，用于利用所述第二声音数据，得到用于语音合成的训练数据。

根据本发明一优选实施方式，该装置还包括：

提示单元，用于在所述采集单元采集用户对所述语音片段的跟读声音数据之前，通过提示音引导用户对所述语音片段进行跟读；或者，在与所述声音采集装置连接的有屏设备上显示提示语或提示画面引导用户对所述语音片段进行跟读。

根据本发明一优选实施方式，所述提示单元在引导用户对所述语音片段进行跟读之前，还用于利用所述声音干扰系数判断当前采集环境是否符合预设要求，如果是，则继续执行所述引导用户对所述语音片段进行跟读；否则，提示用户更换采集环境。

根据本发明一优选实施方式，所述去干扰单元，具体执行：

利用所述噪声系数和混响延迟系数，对所述跟读声音数据进行噪声抑制和混响调节，得到所述第二声音数据。

根据本发明一优选实施方式，所述确定单元，具体用于：

将所述第二声音数据作为用于语音合成的训练数据上传服务器；或者，

对所述第二声音数据进行质量评分，若质量评分结果满足预设要求，则将所述第二声音数据作为用于语音合成的训练数据上传服务器。

根据本发明一优选实施方式，若所述第二声音数据的质量评分结果不满足预设要求，则所述播放单元播放同一条预设的语音片段以重新进行声音采集；若所述第二声音数据的质量评分结果满足预设要求，则所述播放单元播放下一条预设的语音片段以继续进行声音采集。

第三方面，本申请还提供了一种设备，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述的方法。

第四方面，本申请还提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如上所述的方法。

由以上技术方案可以看出，本发明提供的方法、装置、设备和计算机存储介质具备以下优点：

1)本发明采用播放语音片段后由用户跟读的方式实现声音数据的采集，即便对于不识字等存在阅读障碍的用户，也同样能够适用。

2)在跟读模式下，用户通常倾向于语音片段所采用的节奏、情感、快慢模式，有利于在声音采集过程中对于这些难以用语言描述的情感韵律特征进行控制，更利于后续的语音合成模型的训练。

3)由于用户不需要注视屏幕，录音时可以更加靠近收音设备，从而使得即便没有拢音设备也能够采集较高质量的声音数据，更容易满足语音合成对声音数据的采集要求。

4)本发明提供的方式能够对录音环境进行有效地感知，并利用感知到的环境信息确定干扰系数，从而对采集到的用户的声音数据进行去干扰处理，从而提高采集的声音数据质量。

【附图说明】

图1为可以应用本发明实施例的系统架构示意图；

图2为本发明实施例提供的方法流程图；

图3为本发明实施例提供的用于声音采集的界面示意图；

图4为本发明实施例提供的领读阶段和跟读阶段的工作示意图；

图5为本发明实施例提供的一种场景实例图；

图6为本发明实施例提供的另一种场景实例图；

图7为本发明实施例提供的声音采集装置的结构图；

图8示出了适于用来实现本发明实施方式的示例性计算机系统的框图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

图1示出了可以应用本发明实施例的用于声音采集的方法或用于声音采集的装置的示例性系统架构。

如图1所示，该系统架构可以包括终端设备101和102，网络103和服务器104。网络103用以在终端设备101、102和服务器104之间提供通信链路的介质。网络103可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101和102通过网络103与服务器104交互。终端设备101和102上可以安装有各种应用，例如语音交互应用、网页浏览器应用、通信类应用等。

终端设备101和102可以是支持语音交互的各种电子设备，可以是有屏设备，也可以是无屏设备。包括但不限于智能手机、平板电脑、智能音箱、智能电视等等。本发明所提供的声音采集装置可以设置并运行于上述终端设备101或102中。其可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块，在此不做具体限定。

例如，声音采集装置设置并运行于上述终端设备101，那么声音采集装置使用本发明实施例所采集到的声音数据可以用于语音合成的训练数据，合成的语音可以用于终端设备101的语音功能，也可以用于终端设备102的语音功能。

服务器104可以是单一服务器，也可以是是多个服务器构成的服务器群组。服务器104用于从声音采集装置获取声音数据作为训练数据进行语音合成，并对终端设备101或终端设备102的语音功能进行设置，使得终端设备101或终端设备102在与用户进行语音交互时，或者进行语音播报时，采用合成的语音。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

图2为本发明实施例提供的方法流程图，该方法由声音采集装置执行，该声音采集装置可以设置于图1中所示的终端设备101或102中。如图2中所示，该方法可以包括以下步骤：

在201中，声音采集装置播放预设的语音片段的同时，采集第一声音数据。

声音采集功能启动后，声音采集装置自动播放预设的语音片段，或者在接收到用户触发播放的操作后，播放预设的语音片段。

例如，声音采集装置设置于智能音箱中，用户可以通过按下智能音箱上的物理按钮触发声音采集功能。或者，用户可以通过预设的语音指令触发智能音箱的声音采集功能。

再例如，声音采集装置设置于手机中，通过手机对用户进行声音采集，以实现对智能音箱所使用语音的合成。那么，用户可以通过按下手机上的物理按钮触发声音采集功能，或者用户可以通过进入手机上特定应用的特定界面后触发声音采集功能，等等。

用户触发声音采集功能后，声音采集功能启动。声音采集装置可以自动播放预设的语音片段，也可以在接收到用户触发播放的操作后，播放预设的语音片段。例如，用户可以依据提示音再次在智能音箱或手机上按下物理按钮来触发播放操作。再例如，用户进入手机上特定应用的特定界面后，例如图3所示界面，通过点击“播放”控件触发播放预设的语音片段。

在本发明实施例中，播放的语音片段优选易记易读的短句，以方便不同年龄和知识层面的用户进行跟读。

本步骤为本发明实施例中的领读阶段，在领读阶段中除了播放语音片段之外，在播放语音片段的同时会进行声音数据的采集，此时采集到的声音数据称为第一声音数据(需要说明的是，本发明实施例中涉及的“第一”、“第二”等并不具备顺序、大小等含义，仅仅为了对同一名称的不同对象进行区分)，该阶段可以如图4中所示。声音采集装置中包含麦克风或麦克风阵列等收音设备，实现对声音数据的采集。在领读阶段采集到的第一声音数据中，一方面包括周围环境的一些噪音，另一方面也包括播放的语音片段经过环境反射回来的信号。

另外，在领读阶段播放语音片段时，可以在与声音采集装置连接的有屏设备上显示语音片段对应的文字。例如，声音采集装置设置于智能音箱，若智能音箱本身具有显示屏幕，可以在该智能音箱的显示屏幕上显示语音片段对应的文字，以方便用户查看。若智能音箱本身不具有屏幕，可以通过与该智能音箱建立连接的手机的屏幕显示语音片段对应的文字。其中，智能音箱与手机之间可以直接建立连接，也可以通过其他网络设备建立连接。再例如，声音采集装置设置于手机，则可以直接在该手机的屏幕上显示语音片段对应的文字，如图3所示，可以在手机显示的界面上显示“夏天要走了，秋天要来了”，以方便用户在没听清语音片段的情况下能够查看文字来进行跟读。也就是说，声音采集装置与有屏设备之间可以是内部连接，也可以是外部连接。

在202中，利用上述语音片段和第一声音数据确定声音干扰系数。

由上面所述地，在领读阶段采集到的第一声音数据中，一方面包括周围环境的一些噪音，另一方面也包括播放的语音片段经过环境反射回来的信号。因此，在本步骤中，可以将上述语音片段作为参考语音，对第一声音数据进行噪声和混响估算，得到第一声音数据的噪声系数和混响延迟系数。

在进行噪声估算时，可以采用诸如MCRA(Minima-Controlled Recursive-Averaging Algorithms，最小值控制递归平均算法)实时估算噪声系数Xn。

混响延迟(或者称为混响时间)是描述环境中混响效果的指标。在进行混响延迟系数时，可以采用诸如塞宾公式等方式，通过迭代逼近获得混响延迟系数Xd。

鉴于上述MCRA、塞宾公式等是已有较为成熟的噪声和混响估算方法，在此不做详细描述。

在203中，利用声音干扰系数判断当前采集环境是否符合预设要求，如果是，则执行204；否则，提示用户更换采集环境后，转至执行201。

具体地，可以判断步骤202中确定出的声音干扰系数取值是否满足预设要求，例如，判断噪声系数Xn是否小于预设噪声系数阈值且混响延迟系数Xd是否小于预设混响延迟系数阈值，如果是，则确定当前采集环境符合预设要求；否则确定当前采集环境不符合预设要求。在当前采集环境不符合预设要求时，可以拒绝进行本次声音数据的采集，提示用户更换采集环境。再次收到用户触发播放语音片段的操作后，执行201。

需要说明的是，本步骤为优选的步骤，并非必要的步骤。也可以不执行203直接执行后续步骤。

在204中，引导用户对语音片段进行跟读。

声音采集装置可以通过提示音引导用户对语音片段进行跟读；也可以在与声音采集装置连接的有屏设备上显示提示语或提示画面引导用户对语音片段进行跟读。

例如，声音采集装置所在的智能音箱可以通过发出“嘀嘀嘀”的提示音，或者发出“请跟读”的提示音等引导用户对语音片段进行跟读。

再例如，智能采集装置可以在手机上显示提示语或提示画面引导用户对语音片段进行跟读。

另外，在引导用户对语音片段进行跟读的同时，还可以引导用户靠近收音设备进行跟读。例如采用提示音“请靠近麦克风跟读”。

本步骤也为可选步骤，可以不引导用户对语音片段进行跟读，而在用户触发跟读功能后，直接进行跟读并执行步骤205。例如，用户点击图3所示界面中的“录音”按钮后，进入跟读阶段并开始跟读。或者，在播放语音片段后预设时间，例如2秒后，自动进入跟读阶段，并执行步骤205。

在205中，采集用户对上述语音片段的跟读声音数据。

本步骤为跟读阶段的处理，用户在跟读阶段对刚刚播放的语音片段进行跟读，即自己重复读一遍。此时采集到的跟读声音数据包括用户的声音数据和周围环境的噪声。

用户结束跟读后，可以点击预设的物理按钮或界面上的控件以结束声音采集装置对跟读声音数据的采集。例如用户可以点击界面上“结束录音”按钮以结束对跟读声音数据的采集。再例如，用户可以通过长按界面上的“录音”按钮，在长按的过程中进行跟读，跟读结束后，松开按钮触发声音采集装置结束跟读声音数据的采集。

或者用户结束跟读后，达到设定时长(例如2秒)未采集到有效的声音，声音采集装置自动结束对跟读声音数据的采集。

在206中，利用声音干扰系数对跟读声音数据进行去干扰处理，得到第二声音数据。

本步骤中，可以利用步骤202得到的噪声系数Xn和混响延迟系数Xd，对跟读声音数据进行噪声抑制和混响调节。具体可以采用已有的噪声抑制和混响调节方法，在此不做详细描述。

另外，除了本发明实施例中所提及的噪声抑制和混响调节等去干扰处理之外，还可以采用诸如去除呼吸音、吞咽音等其他去干扰处理，在此不再逐一详述。

在207中，利用第二声音数据，得到用于语音合成的训练数据。

在本步骤中，声音采集装置可以将第二声音数据作为用于语音合成的训练数据上传至服务器。为了降低质量不佳的第二声音数据对网络宽带的浪费和服务器资源的浪费，声音采集装置可以首先对第二声音数据进行质量评分，若质量评分结果满足预设要求，则将第二声音数据作为用于语音合成的训练数据上传服务器，且转至执行201，播放下一条预设的语音片段以继续进行声音采集，只是满足结束采集条件。其中，结束采集条件可以包括但不限于：播放完所有的语音片段，或者，采集到预设数量的第二声音数据。

如果质量评分结果不满足预设要求，则拒绝本次采集的第二声音数据，转至执行201，播放同一条预设的语音片段以重新进行声音采集，直至针对该语音片段完成第二声音数据的采集，或者达到预设重新采集的次数仍未完成第二声音数据的采集(连续多次采集的第二声音数据的质量评分结果均不满足预设要求)。

在对第二声音数据进行质量评分时，可以执行以下处理中的至少一种：

确定第二声音数据中的跟读内容与播放的语音片段内容的一致性程度；

确定第二声音数据的清晰程度是否符合预设的清晰要求；

确定第二声音数据的语速是否符合预设的语速要求。

下面举一个具体的应用实例：

如图5中所示，智能音箱具备与用户进行语音交互的功能，用户想要将智能音箱的语音设置为自己的声音。用户可以将手机作为声音采集装置，例如用户点击对智能音箱具备管理功能的应用，进入该应用中的语音配置界面。此时针对智能音箱进行语音合成的声音采集功能启动，显示如图3所示的界面。

用户点击界面上的“播放”按钮，播放语音片段“夏天要走了，秋天要来了”。手机播放语音片段的同时采集第一声音数据，并确定干扰系数。若干扰系数满足预设要求，则在界面上显示文字“请点击录音按钮进行跟读”。用户点击界面上的“录音按钮”，开始进行跟读。用户跟读的内容为“夏天要走了，秋天要来了”。手机采集第二声音数据，若采集的第二声音数据符合质量要求，则将本次采集的第二声音数据上传至服务器。继续点击“播放”按钮进行下一条语音片段的播放和跟读。需要说明的是，手机也可以将采集的符合质量要求的各第二声音数据先保存在本地，最后统一上传至服务器。

服务器利用手机上传的各第二声音数据作为训练数据，进行模型训练，并将训练得到的模型与智能音箱关联。后续用户在该智能音箱进行语音交互时，智能音箱利用训练得到的模型进行语音合成，并播放合成的语音。该语音采用的就是用户自己的声音。

再举一个具体的应用实例：

如图6所示，智能音箱具备与用户进行语音交互的功能，用户想要将智能音箱的语音设置为自己的声音。用户向智能音箱发出“语音设置”的语音指令。智能音箱启动声音采集功能，并播放语音片段“夏天要走了，秋天要来了”。智能音箱播放语音片段的同时采集第一声音数据，并确定干扰系数。若干扰系数满足预设要求，则播放提示音“请跟读”。用户开始进行跟读，跟读内容为“夏天要走了，秋天要来了”。智能音箱采集第二声音数据，若采集的第二声音数据符合质量要求，则将本次采集的第二声音数据上传至服务器。然后智能音箱播放下一条语音片段继续进行声音采集。

服务器利用智能音箱上传的各第二声音数据作为训练数据，进行模型训练，并将训练得到的模型与该智能音箱关联。后续用户在该智能音箱进行语音交互时，智能音箱利用训练得到的模型进行语音合成，并播放合成的语音。该语音采用的就是用户自己的声音。

下面对本发明实施例提供的装置进行详细描述。图7为本发明实施例提供的声音采集装置的结构图，如图7中所示，该装置可以包括：播放单元01、采集单元02、去干扰单元03和确定单元04，还可以包括提示单元05。各组成单元的主要功能如下：

播放单元01负责播放预设的语音片段。

声音采集功能启动后，播放单元01自动播放预设的语音片段，或者在接收到用户触发播放的操作后，播放单元01播放预设的语音片段。播放的语音片段优选易记易读的短句，以方便不同年龄和知识层面的用户进行跟读。

另外，播放单元01在播放语音片段时，可以在与声音采集装置连接的有屏设备上显示语音片段对应的文字，以方便用户查看。

采集单元02负责播放预设的语音片段的同时，采集第一声音数据；以及采集用户对语音片段的跟读声音数据。

采集单元02采集到的第一声音数据中，一方面包括周围环境的一些噪音，另一方面也包括播放的语音片段经过环境反射回来的信号。

去干扰单元03负责利用语音片段和第一声音数据，确定声音干扰系数；利用声音干扰系数对跟读声音数据进行去干扰处理，得到第二声音数据。

具体地，去干扰单元03在确定声音干扰系数时，可以将上述语音片段作为参考语音，对第一声音数据进行噪声和混响估算，得到第一声音数据的噪声系数Xn和混响延迟系数Xd。

去干扰单元03在利用声音干扰系数对跟读声音数据进行去干扰处理时，可以利用上述得到的噪声系数和混响延迟系数，对跟读声音数据进行噪声抑制和混响调节。

确定单元04负责利用第二声音数据，得到用于语音合成的训练数据。

更进一步地，提示单元05负责在采集单元02采集用户对语音片段的跟读声音数据之前，通过提示音引导用户对语音片段进行跟读；或者，在与声音采集装置连接的有屏设备上显示提示语或提示画面引导用户对语音片段进行跟读。

更进一步地，提示单元05在引导用户对语音片段进行跟读之前，还用于利用声音干扰系数判断当前采集环境是否符合预设要求，如果是，则继续执行引导用户对语音片段进行跟读；否则，提示用户更换采集环境。

例如，提示单元05可以判断噪声系数Xn是否小于预设噪声系数阈值且混响延迟系数Xd是否小于预设混响延迟系数阈值，如果是，则确定当前采集环境符合预设要求；否则确定当前采集环境不符合预设要求。

具体地，确定单元04可以将第二声音数据作为用于语音合成的训练数据上传服务器；或者，对第二声音数据进行质量评分，若质量评分结果满足预设要求，则将第二声音数据作为用于语音合成的训练数据上传服务器。

若第二声音数据的质量评分结果不满足预设要求，则播放单元01播放同一条预设的语音片段以重新进行声音采集；若第二声音数据的质量评分结果满足预设要求，则播放单元01播放下一条预设的语音片段以继续进行声音采集。

图8示出了适于用来实现本发明实施方式的示例性计算机系统的框图。图8显示的计算机系统仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图8所示，计算机系统以通用计算设备的形式表现。计算机系统的组件可以包括但不限于：一个或者多个处理器或者处理单元016，系统存储器028，连接不同系统组件(包括系统存储器028和处理单元016)的总线018。

总线018表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机系统典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器028可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)030和/或高速缓存存储器032。计算机系统可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统034可以用于读写不可移动的、非易失性磁介质(图8未显示，通常称为“硬盘驱动器”)。尽管图8中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线018相连。存储器028可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块042的程序/实用工具040，可以存储在例如存储器028中，这样的程序模块042包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块042通常执行本发明所描述的实施例中的功能和/或方法。

计算机系统也可以与一个或多个外部设备014(例如键盘、指向设备、显示器024等)通信，在本发明中，计算机系统与外部雷达设备进行通信，还可与一个或者多个使得用户能与该计算机系统交互的设备通信，和/或与使得该计算机系统能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口022进行。并且，计算机系统还可以通过网络适配器020与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器020通过总线018与计算机系统的其它模块通信。应当明白，尽管图8中未示出，可以结合计算机系统使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元016通过运行存储在系统存储器028中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的方法流程。

上述的计算机程序可以设置于计算机存储介质中，即该计算机存储介质被编码有计算机程序，该程序在被一个或多个计算机执行时，使得一个或多个计算机执行本发明上述实施例中所示的方法流程和/或装置操作。例如，被上述一个或多个处理器执行本发明实施例所提供的方法流程。

随着时间、技术的发展，介质含义越来越广泛，计算机程序的传播途径不再受限于有形介质，还可以直接从网络下载等。可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

由以上描述可以看出，本发明提供的方法、装置、设备和计算机存储介质具备以下优点：

2)在跟读模式下，用户可以并倾向于语音片段所采用的节奏、情感、快慢模式，有利于在声音采集过程中对于这些难以用语言描述的情感韵律特征进行控制，更利于后续的语音合成模型的训练。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种声音采集的方法，其特征在于，该方法包括：

采集用户对所述语音片段的跟读声音数据；

利用所述第二声音数据，得到用于语音合成的训练数据。

2.根据权利要求1所述的方法，其特征在于，所述声音采集装置播放预设的语音片段包括：

3.根据权利要求1所述的方法，其特征在于，所述声音采集装置播放预设的语音片段的同时，还包括：

4.根据权利要求1所述的方法，其特征在于，在所述采集用户对所述语音片段的跟读声音数据之前，还包括：

5.根据权利要求4所述的方法，其特征在于，在引导用户对所述语音片段进行跟读之前，还包括：

6.根据权利要求1所述的方法，其特征在于，利用所述语音片段和所述第一声音数据确定所述声音干扰系数包括：

7.根据权利要求1所述的方法，其特征在于，利用所述第二声音数据，得到用于语音合成的训练数据包括：

8.根据权利要求7所述的方法，其特征在于，若所述第二声音数据的质量评分结果不满足预设要求，则播放同一条预设的语音片段以重新进行声音采集；若所述第二声音数据的质量评分结果满足预设要求，则播放下一条预设的语音片段以继续进行声音采集。

9.一种声音采集的装置，其特征在于，该装置包括：

播放单元，用于播放预设的语音片段；

10.根据权利要求9所述的装置，其特征在于，该装置还包括：

11.根据权利要求10所述的装置，其特征在于，所述提示单元在引导用户对所述语音片段进行跟读之前，还用于利用所述声音干扰系数判断当前采集环境是否符合预设要求，如果是，则继续执行所述引导用户对所述语音片段进行跟读；否则，提示用户更换采集环境。

12.根据权利要求9所述的装置，其特征在于，所述去干扰单元，具体执行：

13.根据权利要求9所述的装置，其特征在于，所述确定单元，具体用于：

14.根据权利要求13所述的装置，其特征在于，若所述第二声音数据的质量评分结果不满足预设要求，则所述播放单元播放同一条预设的语音片段以重新进行声音采集；若所述第二声音数据的质量评分结果满足预设要求，则所述播放单元播放下一条预设的语音片段以继续进行声音采集。

15.一种设备，其特征在于，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。

16.一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-8中任一所述的方法。