CN115691467A

CN115691467A - 语音录制的方法和计算机程序产品

Info

Publication number: CN115691467A
Application number: CN202211124367.5A
Authority: CN
Inventors: 杨惠; 谢慧智; 王原野; 虞国桥; 万广鲁
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2022-09-15
Filing date: 2022-09-15
Publication date: 2023-02-03

Abstract

一种语音录制的方法、计算机程序产品，属于语音技术领域。包括：采集目标用户的录制音频，当检测到对普通话播放选项的选择操作时，获取录制音频对应的普通话录制音频。普通话录制音频和录制音频的音色相同，普通话录制音频用于训练普通话语音合成模型，普通话语音合成模型用于输出带有上述音色的普通话音频。当检测到对方言播放选项的选择操作时，获取录制音频对应的方言录制音频。方言录制音频和录制音频的音色相同，方言录制音频用于训练方言语音合成模型，方言语音合成模型用于输出带有上述音色的方言音频，方言音频的发音与方言录制音频的发音具有相同的方言口音。不限制用户录制时必须使用普通话，无论用户使用方言还行普通话均可完成录制。

Description

语音录制的方法和计算机程序产品

技术领域

本申请涉及语音技术领域，特别涉及一种语音录制的方法和计算机程序产品。

背景技术

随着语音合成技术的不断发展，应用程序的语音助手、地图的语音导航等功能开始出现。

目前，语音助手、语音导航等功能除了支持使用指定人物的音色播报外，还支持使用用户自定义音色播报。在使用用户自定义音色播报时，需要用户先在进行普通话录制，使模型学习到用户的音色，进而，模型可以在输入文本时输出用户音色的普通话音频。

然而，部分用户的普通话并不标准，甚至只会说方言，而在相关技术中仅支持普通话录制，那么，这些用户就无法使用用户自定义音色播报，导致用户体验较差。

发明内容

本申请实施例提供了一种语音录制的方法和计算机程序产品。能够不限制用户录制时的口音，无论使用方言口音录制还是普通话均能成功录制，使用户均能使用自定义音色播报，提高了用户体验，所述技术方案如下：

第一方面，提供了一种语音录制的方法，所述方法包括：

采集目标用户的录制音频；

在检测到对普通话播放选项的选择操作时，获取所述录制音频对应的普通话录制音频，其中，所述普通话录制音频和所述录制音频的音色相同，所述普通话录制音频用于训练普通话语音合成模型，所述普通话语音合成模型用于输出带有所述音色的普通话音频；

在检测到对方言播放选项的选择操作时，获取所述录制音频对应的方言录制音频，其中，所述方言录制音频和所述录制音频的音色相同，所述方言录制音频用于训练方言语音合成模型，所述方言语音合成模型用于输出带有所述音色的方言音频，所述方言音频的发音与所述方言录制音频的发音具有相同的方言口音。

在一种可能的实现方式中，所述获取所述录制音频对应的普通话录制音频，包括：

对所述录制音频进行方言口音去除，得到普通话录制音频。

在一种可能的实现方式中在所述对所述录制音频进行方言口音去除之前，所述方法还包括：

识别所述录制音频的口音类型，其中，所述口音类型包括普通话和方言口音；

所述对所述录制音频进行方言口音去除，包括：

如果所述录制音频的口音类型为方言口音，则对所述录制音频进行方言去除。

在一种可能的实现方式中所述对所述录制音频进行方言去除，得到普通话录制音频包括：

将所述录制音频输入普通话转换模型，得到普通话录制音频。

在一种可能的实现方式中所述获取所述录制音频对应的方言录制音频，包括：

对所述录制音频进行方言口音添加，得到方言录制音频。

在一种可能的实现方式中在所述对所述录制音频进行方言口音添加之前，所述方法还包括：

所述对所述录制音频进行方言口音添加，包括：

如果所述录制音频的口音类型为普通话，则对所述录制音频进行方言口音添加。

显示多个方言选项；

检测到对所述多个方言选项中的目标方言选项的选择操作，确定所述目标方言选项对应的目标方言；

所述对所述录制音频进行方言口音添加，包括：

对所述录制音频添加所述目标方言的口音。

在一种可能的实现方式中在所述对所述录制音频添加所述目标方言的口音之前，所述方法还包括：

确定所述目标方言对应的方言口音转换模型；

所述对所述录制音频添加所述目标方言的口音，得到方言录制音频，包括：

将所述录制音频输入所述方言口音转换模型，得到方言录制音频。

在一种可能的实现方式中在检测到对方言播放选项的选择操作时，所述方法还包括：

如果所述录制音频中的口音类型为方言口音的音频占比小于预设阈值，则进行方言语音补录提示；

重新采集所述目标用户的录制音频。

第二方面，提供了一种语音录制的装置，所述装置包括：

采集模块，用于采集目标用户的录制音频；

获取模块，用于在检测到对普通话播放选项的选择操作时，获取所述录制音频对应的普通话录制音频，其中，所述普通话录制音频和所述录制音频的音色相同，所述普通话录制音频用于训练普通话语音合成模型，所述普通话语音合成模型用于输出带有所述音色的普通话音频；在检测到对方言播放选项的选择操作时，获取所述录制音频对应的方言录制音频，其中，所述方言录制音频和所述录制音频的音色相同，所述方言录制音频用于训练方言语音合成模型，所述方言语音合成模型用于输出带有所述音色的方言音频，所述方言音频的发音与所述方言录制音频的发音具有相同的方言口音。

在一种可能的实现方式中，所述获取模块，用于：

对所述录制音频进行方言口音去除，得到普通话录制音频。

在一种可能的实现方式中，所述装置还包括识别模块，用于：

所述获取模块，用于：

在一种可能的实现方式中，所述获取模块，用于：

对所述录制音频进行方言口音添加，得到方言录制音频。

在一种可能的实现方式中，在所述装置还包括识别模块，用于：

所述获取模块，用于：

在一种可能的实现方式中，所述装置还包括显示模块，用于：

显示多个方言选项；

检测模块，用于检测到对所述多个方言选项中的目标方言选项的选择操作，确定所述目标方言选项对应的目标方言；

所述获取模块，用于：

对所述录制音频添加所述目标方言的口音。

在一种可能的实现方式中，获取模块，用于：

确定所述目标方言对应的方言口音转换模型；

在一种可能的实现方式中，所述装置还包括采集模块，用于：

重新采集所述目标用户的录制音频。

第三方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如上述第一方面所述的语音录制的方法所执行的操作。

第四方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如上述第一方面所述的语音录制的方法所执行的操作。

第五方面，提供了一种计算机程序产品，所述计算机程序产品中包括有计算机指令，所述计算机指令由处理器加载并执行以实现如上述第一方面所述的语音录制的方法所执行的操作。

本申请实施例提供的技术方案带来的有益效果是：

本申请实施例提供的技术方案，在用户想要使用自定义语音功能前，终端可以采集用户的录制音频，与相关技术中不同的是，本申请中不限定用户必须使用普通话进行录制，用户使用方言录制或者使用普通话录制均可。在采集到用户的录制音频之后，用户可以根据自己的实际需求，选择使用普通话进行语音播放，还是使用方言进行语音播放。

在用户选择使用普通话播放的情况下，终端获取录制音频对应的普通话录制音频，该普通话录制音频和用户的录制音频的音色相同，该普通话录制音频用于训练普通话语音合成模型，训练得到的普通话语音合成模型用于输出带有用户的音色的普通话音频。在此情况下，即使用户使用方言口音录制，最终也会得到对应的普通话录制音频。通过上述处理用户便实现了将自定义语音设置为带有自己音色的普通话语音，在后续语音播报中，用户听到的便是带有自己音色的普通话语音。

在用户选择使用方言播放的情况下，终端获取录制音频对应的方言录制音频，该方言录制音频和用户的录制音频的音色相同，该普通话录制音频用于训练普通话语音合成模型，训练得到的普通话语音合成模型用于输出带有用户的音色的普通话音频。在此情况下，用户便实现了将自定义语音设置为带有自己音色的方言语音，在后续语音播报中，用户听到的便是带有自己音色的方言语音。

通过本申请实施例提供的方案，无论用户是否能够说普通话，均能完成语音录制，进而实现自定义语音，提高了用户体验。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种语音录制的方法流程图；

图2是本申请实施例提供的一种语音录制的方法流程图；

图3是本申请实施例提供的一种语音录制的方法流程图；

图4是本申请实施例提供的一种语音录制的装置结构示意图；

图5是本申请实施例提供的一种终端的结构示意图；

图6是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请实施例提供了一种语音录制的方法，该方法可以应用于应用程序的语音助手、地图的语音导航等场景下。其中，语音助手可以为外卖平台的骑手端的语音助手，该语音助手可以对派单信息、订单配送信息等进行播报。

在本申请实施例提供的语音录制的方法中，在用户想要使用自定义语音功能前，终端可以采集用户的录制音频，与相关技术中不同的是，本申请中不限定用户必须使用普通话进行录制，用户使用带有方言的口音或者普通话进行录制均可。在采集到用户的录制音频之后，用户可以根据自己的实际需求，选择使用普通话进行语音播放，还是使用方言进行语音播放。

在用户选择使用方言播放的情况下，终端获取录制音频对应的方言录制音频，该方言录制音频和用户的录制音频的音色相同，该普通话录制音频用于训练普通话语音合成模型，训练得到的普通话语音合成模型用于输出带有用户的音色的普通话音频。在此情况下，用户便实现了将自定义语音设置为带有自己音素的方言语音，后续语音播报中，用户听到的便是带有自己音色的方言语音。

本申请实施例提供的语音录制的方法可以由终端实现，也可以由终端和服务器配合实现。其中，终端可以为手机、平板电脑等。

下面结合附图对本申请实施例提供的语音录制的方法进行说明。参见图1，该方法的处理流程可以包括如下步骤：

步骤101、采集目标用户的录制音频。

在实施中，终端可以安装有目标应用程序，目标应用程序具有语音助手、语音导航等可以语音播报的功能模块。用户在目标应用程序中登录目标账户。进而，用户可以在目标应用程序中设置自定义语音。

以语音助手为例，自定义语音是指由用户自己定义语音助手进行语音播报时所使用的语音。例如，通过自定义语音用户可以将语音助手进行语音播报时所使用的语音设置为具有自己的音色的普通话语音，或具体自己的音色以及自己的方言口音的语音，又或者，具有自己的音色以及指定方言口音的语音。

根据目标应用程序的UI(User Interface，用户界面)设计不同，用户进行自定义语音的设置方式也可以不同，下面示例性的列举一种可能的自定义语音的设置方式。

用户可以在目标应用程序中选择自定义语音选项，进而，目标应用程序显示自定义语音界面。其中，选择方式可以为点击、滑动、长按等，本申请实施例对此不做限定。

在自定义语音界面可以显示有语音录制开始选项。用户选择该语音录制开始选项，进而，终端可以获取到语音录制指令。然后，终端显示录制文本，并同时开始采集目标用户的录制音频。其中，目标用户可以为目标账户的注册用户，也可以为注册用户的亲人、朋友等。

终端采集录制音频的方式可以包括：使用内置麦克风采集、使用外置音频采集设备采集。其中，外置音频设备可以包括有线耳机、无线耳机等。

在一种可能的实现中，终端还可以在显示录制文本后，进行录制准备提示。其中，录制提示可以为文字形式，也可以为语音形式，录制准备提示用于提示用户准备朗读终端显示的录制文本。

在一种可能的实现中，为了使目标用户可以更加顺利的朗读录制文本，终端可以在开始显示录制文本的第一时长后，进行录制开始提示，并开始采集目标用户的录制音频。其中，录制开始提示可以为文字形式、也可以为语音形式，录制开始提示用于提示目标用户开始朗读终端显示的录制文本，第一时长可以由技术人员根据实际需求预先设置，例如3s(秒)。

此外，录制文本可以包括多个句子，例如，录制文本包括有20个句子。每个句子单独显示，在显示每个句子时，还可以同时显示下一句选项。目标用户在朗读完一个句子后，可以选择下一句选项，则终端开始显示下一个句子。这样，终端可以分别获取到目标用户朗读每个句子的录制音频段。即，上述录制音频中包括多个录制音频段，每个录制音频段对应录制文本中的一个句子。

步骤102、检测对普通话播放选项或者方言播放选项的选择操作。

在实施中，在目标用户朗读完录制文本后，终端停止采集目标用户的录制音频。

终端判断目标用户朗读完录制文本的方式有多种。例如，在显示录制文本中最后一个句子的同时，显示录制完成选项，目标用户在朗读完录制文本的最后一个句子后，可以选择录制完成选项。然后，终端可以获取到录制完成指令，以确定目标用户朗读完录制文本。

在停止采集目标用户的录制音频后，自定义语音界面可以显示普通话播放选项和方言播放选项，用户可以根据自己的需求，选择普通话播放选项或者方言播放选项。终端可以检测用户对普通话播放选项和方言播放选项的选择操作。

例如，用户如果想要使用带有自己音色的普通话语音进行播报的话，则可以选择普通话播放选项。又例如，用户如果想要使用带有自己音色的方言语音进行播报的话，则可以选择方言播放选项。

此外，对于普通话播放选项和方言播放选项的具体显示形式，本申请实施例不做限定。

在一种可能的实现中，为了使后续的语音合成模型训练的效果更好，在检测到用户对普通话播放选项或方言播放选项的选择操作后，还可以对录制音频进行ASR(Automatic Speech Recognition，自动语音识别)检测。具体的，可以对录制音频中的每个录制音频段进行ASR检测。ASR检测可以由终端执行，也可以由服务器执行。

在由服务器执行ASR检测的情况下，终端需要将录制音频发送给服务器，服务器在接收到录制音频后，对录制音频中的每个录制音频段进行ASR检测，并在检测完成后，向终端返回检测结果。如果录制音频中的各录制音频段均检测通过的话，服务器可以向终端返回检测通过消息。如果存在第一录制音频段的ASR检测未通过，向终端发送ASR检测未通过消息，ASR检测未通过消息中携带第一录制音频段的顺序标识。其中，第一录制音频段的顺序标识用于指示第一录制音频段对应的句子在录制文本中的顺序。进而，终端在接收到录制未通过消息后，可以确定第一录制音频段在录制文本中对应的第一句子。

在由终端执行的情况下，终端可以对录制音频中的每个录制音频段进行ASR检测，如果存在第一录制音频段的ASR检测未通过，则确定第一录制音频段在录制文本中对应的句子。

在存在第一录制音频段的ASR检测未通过的情况下，终端可以通过目标应用程序进行语音重录提示。其中，语音重录提示可以为文字形式，也可以为语音形式，语音重录提示用于提示用户需要重新朗读录制文本。

在进行语音重录提示后，终端显示第一句子，并重新采集目标用户朗读第一句子的重录音频段。将录制音频中的第一录制音频段替换为重录音频段。

下面对ASR检测的处理进行说明：

将录制音频段输入语音识别模型，得到录制音频段对应的识别文本。将识别文本和录制文本中该录制音频段对应的句子进行比较，如果不一致，则确定该录制音频段ASR检测未通过。如果一致，则确定该录制音频段的ASR检测通过。其中，语音识别模型可以为TDNN(Time-Delay Neural Network，时延神经网络)模型。此外，该语音识别模型可以为通用语音识别模型，通用语音识别模型对于方言音频和普通话音频均可以较为准确的识别。

步骤103、当检测到对普通话播放选项的选择操作时，获取录制音频对应的普通话录制音频。

在实施中，当用户选择普通话播放选项时，终端可以检测到用户对普通话播放选项的选择操作。进而，可以对录制音频进行方言口音去除，得到对应的普通话录制音频。执行对录制音频进行方言口音去除，得到对应的普通话录制音频的处理可以由终端实现，也可以由服务器实现。

在由终端实现的情况下，对于录制音频中的每个录制音频段，终端将该录制音频段输入预先训练的普通话口音转换模型，得到对应的普通话录制音频段。普通话录制音频段的集合便可以称为普通话录制音频。需要说明的是，在存在重新录制的情况下，录制音频中的录制音频段包括重录音频段。

在由服务器实现的情况下，终端将录制音频发送至服务器，对于录制音频中的每个录制音频段，服务器将该录制音频段输入预先训练的普通话口音转换模型，得到对应的普通话录制音频段。普通话录制音频段的集合便可以称为普通话录制音频。然后，服务器再将普通话录制发送给终端。

其中，普通话口音转换模型可以为PPG-AC(phonetic posteriorgram to accentconversion，语音后验图口音转换)模型。PPG-AC模型包括PPG-Mel(phoneticposteriorgram-Mel Frequency Cepstrum Coefficient，语音后验图转梅尔频率倒谱系数)模型和Mel-Mel(Mel Frequency Cepstrum Coefficient-Mel Frequency CepstrumCoefficient，梅尔频率倒谱系数转梅尔频率倒谱系数)模型两部分。其中，PPG-Mel模型用于生成训练样本对，该训练样本用于训练Mel-Mel模型。训练后的Mel-Mel模型可以在输入方言音频的情况下，输出相应的普通话音频，且输出的普通话音频保留输入的方言音频的音色。相应的，上述处理中“将该录制音频段输入预先训练的普通话口音转换模型，得到对应的普通话录制音频段”的具体可以为：提取该录制音频段的Mel特征，然后将提取的Mel特征输入预先训练的Mel-Mel模型，得到输出Mel特征，再根据输出Mel特征，得到对应的普通话录制音频段，该普通话录制音频段保留了录制音频段的音色(即目标用户的音色)。

下面对PPG-AC模型的训练进行说明：

步骤一，对PPG-Mel模型进行训练。具体的，先获取用于训练的方言音频样本，其中，用于训练的方言音频样本的音色相同，为了便于描述，将用于训练的方言音频样本的音色称为样本音色。然后，提取方言音频样本的PPG特征和方言音频样本的第一Mel特征，将相同方言音频样本的PPG特征和第一Mel特征作为一个训练样本对，在一个训练样本对中PPG特征作为输入样本，第一Mel特征作为输出样本。根据得到的训练样本对，训练PPG-Mel模型。

步骤二，先获取用于训练的普通话音频样本，其中，每个普通话音频样本对应步骤一中的一个方言音频样本，相对应的普通话音频样本和方言音频样本对应的文本相同，也即是，相对应的普通话音频样本和方言音频样本所说的话是相同的。然后，提取普通话音频样本的第二Mel特征，将提取的第二Mel特征输入训练好的PPG-Mel模型，得到音色为样本音色的普通话音频样本的第三Mel特征。

步骤三，将方言音频样本的第一Mel特征作为输入样本，将方言音频样本对应的普通话音频样本的第三Mel作为输出样本。根据输入样本和输出样本，训练Mel-Mel模型。训练完成的Mel-Mel模型可以实现在保留音色的前提下去除方言口音。

在一种可能的实现中，如图2所示，在检测到对普通话播放选项的选择操作后，终端还可以执行如下处理：

步骤1031、对录制音频进行口音类型识别。

步骤1032、如果识别录制音频中各录制音频段的口音类型均为普通话，则在上述步骤103中直接将录制音频作为普通话录制音频即可。

步骤1033、如果识别到录制音频中存在口音类型为方言口音的录制音频段，则可以对录制音频中的方言口音进行去除，得到对应的普通话录制音频。

具体的，步骤1033的具体处理可以和上述步骤103中方言口音去除的处理相同，在此不再赘述。

步骤104、根据普通话录制音频，对初始语音合成模型进行训练，得到目标账户对应的普通话语音合成模型。

在实施中，由于训练样本较少，对初始语音合成模型进行训练可以由终端实现，也可以由服务器实现。训练方法可以如下：

依次根据每个普通话录制音频段和录制文本中对应的句子，训练初始语音合成模型。直到使用所有普通话录制音频段对初始语音合成模型训练完成后，便可以得到目标账户对应的普通话语音合成模型。

下面对根据普通话录制音频段和录制文本，训练初始语音合成模型进行说明：

在上述ASR检测时，将录制音频段输入语音识别模型后，除了可以得到识别文本以外，还可以得到识别文本中每个字对应的音素、以及每个音素在录制音频段中的发音时长。其中，音素为最小发音单元，也可以称为建模单元，每个声母、韵母均为一个音素。

此外，如果普通话录制音频是经过方言口音去除得到的，或经过重录后得到，那么，在得到普通话录制音频后，要将普通话录制音频中的每个普通话录制音频段输入语音识别模型，得到对应的识别文本、识别文本中每个字对应的音素、以及每个音素在普通话录制音频段中的发音时长。

在训练初始语音合成模型时，对于每个普通话录制音频段对应的识别文本，以该识别文本中每个字对应的音素和每个音素在普通话录制音频段中的发音时长作为输入样本，以对应的普通话录制音频段为输出样本。然后，使用输入样本和输出样本训练初始语音合成模型，调整初始语音合成模型中的参数，得到目标账户对应的普通话语音合成模型。

训练得到的目标账户对应的普通话语音合成模型可以在输入任意文本对应的音素时，输出相应的普通话音频，该普通话音频的音色与目标用户的音色相同。

此外，需要说明的是，在此情况下使用的初始语音合成模型是经过预训练的初始普通话语音合成模型。

另外，如果由服务器对初始语音合成模型进行训练的话，终端可以向服务器发送普通话语音合成模型训练请求，以指示服务器训练初始语音合成模型，得到普通话语音合成模型。服务器得到目标账户的普通话语音合成模型后，可以将普通话语音合成模型和目标账户的账户标识对应存储，并向终端发送训练完成消息。也可以将目标账户的普通话语音合成模型直接发送给终端。

步骤105、当检测到对方言播放选项的选择操作时，获取录制音频对应的方言录制音频。

在实施中，由于用户选择了方言播放选项，那么，用户很可能是使用方言口音进行的录制。在此情况下，可以直接将录制音频作为方言录制音频，相应的，每个录制音频段可以称为方言录制音频段。

在一种可能的实现中，在步骤105中，终端当检测到对方言播放选项的选择操作时，为了使后续训练得到的方言语音合成模型更加准确，终端还可以对获取到的录制音频进行口音类型检测，如果检测到录制音频中口音类型为方言口音的录制音频段占比少于预设阈值，则进行方言语音补录提示。其中，方言语音补录提示可以为文字形式，也可以为语音形式，方言语音补录提示用于指示目标用户使用方言口音重新朗读录制文本。预设阈值可以由技术人员根据实际需求进行设置，例如，百分之八十。

具体的，可以分别对录制音频中每个录制音频段进行口音类型检测，确定每个录制音频段的口音类型为普通话还是方言口音。然后，将口音类型为方言口音的录制音频段的段数除以录制音频段的总段数，得到方言音频占比。在方言音频占比小于预设阈值的情况下，进行方言语音补录提示，同时重新显示被识别为普通话音频的录制音频段所对应的句子。进而，终端重新采集这些句子对应的录制音频段，并使用重新采集的录制音频段替换上一次采集的相应句子对应的录制音频段，得到重新采集的录制音频。并将重新采集的录制音频作为方言录制音频段。

在又一种可能的实现中，考虑到有些用户只会说普通话，但是想要使用方言语音播报，在此情况下，如图3所示，终端在检测到对方言播放选项的选择操作后，还可以执行如下处理：

步骤1051、对录制音频进行口音类型识别。

步骤1052、如果识别录制音频中各录制音频段的口音类型均为方言口音，则在上述步骤105中直接将录制音频作为方言录制音频即可。

步骤1053、如果识别到录制音频中各录制音频段的口音类型均为普通话，则可以对录制音频添加目标方言口音，得到方言录制音频。

具体的，终端可以显示多个方言选项，以供用户选择。其中，方言选项可以包括晋方言选项、吴方言选项、闽方言选项、客家方言选项、粤方言选项、湘方言选项、赣方言选项、徽方言选项等。用户可以根据自己的需求，选择其中一个方言选项。终端在检测到用户对目标方言选项的选择操作，确定目标方言选项对应的目标方言，并对录制音频添加目标方言口音，得到对应的方言录制音频。具体的，可以将录制音频和目标方言的标识发送至服务器，由服务器获取目标方言对应的方言口音转换模型，并将录制音频中的各录制音频段输入方言口音转换模型，得到每个录制音频段对应的方言录制音频段，这些方言录制音频段的集合便可以称为方言录制音频。其中，方言口音转换模型可以为预先训练的PPG模型。

步骤106、根据方言录制音频，对初始语音合成模型进行训练，得到目标账户对应的方言语音合成模型。

在上述ASR检测时，将录制音频段输入语音识别模型后，除了可以得到识别文本以外，还可以得到识别文本中每个字对应的音素、以及每个音素在录制音频段中的发音时长。

此外，如果方言录制音频是经过方言口音添加得到的，或者经过重录(或补录)后得到的，那么，在得到方言录制音频后，要将方言录制音频中的每个方言录制音频段输入语音识别模型，得到对应的识别文本、识别文本中每个字对应的音素、以及每个音素在方言录制音频段中的发音时长。

对于每个方言录制音频段对应的识别文本，以该识别文本中每个字对应的音素和每个音频在方言录制音频段中的发音时长作为输入样本，以方言录制音频段为输出样本。然后，使用输入样本和输出样本训练初始语音合成模型，调整初始语音合成模型中的参数，得到目标账户对应的方言语音合成模型。

目标账户对应的方言语音合成模型可以在输入任意文本对应的音素时，输出相应的方言音频，该方言音频的音色与目标用户的音色相同，且方言音频具有方言录制音频的方言口音。

此外，需要说明的是，在此情况下使用的初始语音合成模型是经过预训练的初始方言语音合成模型。

另外，如果由服务器对初始语音合成模型进行训练的话，终端可以向服务器发送方言语音合成模型训练请求，以指示服务器训练初始语音合成模型，得到方言语音合成模型。服务器得到目标账户的方言语音合成模型后，可以将方言语音合成模型和目标账户的账户标识对应存储，并向终端发送训练完成消息。也可以将目标账户的方言语音合成模型直接发送给终端。

终端在接收到训练完成消息或接收到方言语音合成模型后，可以进行自定义语音设置成功提示。

以目标应用程序为外卖平台的骑手客户端为例，在用户完成自定义语音设置后，用户的骑手客户端中的语音助手便可以使用用户自定义的语音进行播报。根据训练完成的普通话语音合成模型或者方言语音合成模型的存储位置不同，语音播报时的处理也可以不同，下面针对不同的存储位置进行说明：

在训练完成的普通话语音合成模型或者方言语音合成模型存储在服务器的情况下：

以待播报文本为派单信息为例。当目标账户的骑手有新的派单时，服务器可以获取派单信息的文本，作为待播报文本。然后，服务器可以获取待播报文本的音素序列。其中，音素序列包括待播报文本中每个字的音素。同时，服务器还可以确定存储的目标账户对应的语音合成模型。然后，将音素序列输入目标账户对应的语音合成模型，得到对应的待播放音频。

服务器在获取到待播放音频后，向目标账户登录的终端发送待播放音频。终端接收到待播放音频后，播放该待播放音频。例如，目标用户选择的方言语音播放，待播报文本为派单信息，那么，此时终端可以使用带有目标用户的音色和目标用户的方言口音的音频播报该派单信息。又例如，目标用户选择的普通话言语音播放，待播报文本为派单信息，终端可以使用带有目标用户的音色的普通话音频播报该派单信息。

在训练完成的普通话语音合成模型或者方言语音合成模型存储在终端的情况下：

以待播报文本为派单信息为例。当目标账户的骑手有新的派单时，服务器可以获取派单信息的文本，作为待播报文本。然后，服务器将待播报文本发送给登录目标账户的终端。终端接收到待播报文本后，获取待播报文本的音素序列。将音素序列输入语音合成模型，得到对应的待播放音频。然后，终端播放该待播放音频。

其中，语音合成模型为普通话语音合成模型或者方言语音合成模型。

在语音合成模型为方言语音合成模型的情况下，待播放音频的音色为目标用户的音色，且待播放音频的发音具有用户想要的方言口音(也即是方言录制音频的方言口音)。在语音合成模型为普通话语音合成模型的情况下，待播放音频的音色为目标用户的音色，且待播放音频的发音为普通话。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

采用本申请实施例提供的语音录制的方法，可以在语音播报时，保留用户音色的同时，根据用户需求，使用普通话或者用户想要的方言口音(目标用户的方言口音或者用户指定的方言口音)对待播报文本进行播报，可以满足用户在语音播报时自定义语音的需求，使得语音播报更加多样化、个性化。

基于相同的技术构思，本申请实施例还提供了一种语音录制的装置，所述装置应用于终端，参见图4，装置包括采集模块210、获取模块220，其中：

采集模块210，用于采集目标用户的录制音频；

获取模块220，用于在检测到对普通话播放选项的选择操作时，获取所述录制音频对应的普通话录制音频，其中，所述普通话录制音频和所述录制音频的音色相同，所述普通话录制音频用于训练普通话语音合成模型，所述普通话语音合成模型用于输出带有所述音色的普通话音频；在检测到对方言播放选项的选择操作时，获取所述录制音频对应的方言录制音频，其中，所述方言录制音频和所述录制音频的音色相同，所述方言录制音频用于训练方言语音合成模型，所述方言语音合成模型用于输出带有所述音色的方言音频，所述方言音频的发音与所述方言录制音频的发音具有相同的方言口音。

在一种可能的实现方式中，所述获取模块220，用于：

对所述录制音频进行方言口音去除，得到普通话录制音频。

在一种可能的实现方式中，所述装置还包括识别模块220，用于：

所述获取模块220，用于：

在一种可能的实现方式中，所述获取模块220，用于：

对所述录制音频进行方言口音添加，得到方言录制音频。

所述获取模块220，用于：

显示多个方言选项；

所述获取模块220，用于：

对所述录制音频添加所述目标方言的口音。

在一种可能的实现方式中，获取模块220，用于：

确定所述目标方言对应的方言口音转换模型；

重新采集所述目标用户的录制音频。

需要说明的是：上述实施例提供的语音录制的装置在语音录制时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将终端或服务器的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的语音录制的装置与语音录制的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图5示出了本申请一个示例性实施例提供的电子设备600的结构框图。该电子设备600可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器(Moving PictureExperts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(MovingPicture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。电子设备600还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，电子设备600包括有：处理器601和存储器602。

处理器601可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器601可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器601可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器601还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器602可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器602中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器601所执行以实现本申请中方法实施例提供的语音播放的方法。

在一些实施例中，电子设备600还可选包括有：外围设备接口603和至少一个外围设备。处理器601、存储器602和外围设备接口603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口603相连。具体地，外围设备包括：射频电路604、显示屏605、摄像头组件606、音频电路607、定位组件608和电源609中的至少一种。

外围设备接口603可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器601和存储器602。在一些实施例中，处理器601、存储器602和外围设备接口603被集成在同一芯片或电路板上；在一些其他实施例中，处理器601、存储器602和外围设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路604用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路604将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路604包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路604可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路604还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏605用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏605是触摸显示屏时，显示屏605还具有采集在显示屏605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器601进行处理。此时，显示屏605还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏605可以为一个，设置在电子设备600的前面板；在另一些实施例中，显示屏605可以为至少两个，分别设置在电子设备600的不同表面或呈折叠设计；在另一些实施例中，显示屏605可以是柔性显示屏，设置在电子设备600的弯曲表面上或折叠面上。甚至，显示屏605还可以设置成非矩形的不规则图形，也即异形屏。显示屏605可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件606用于采集图像或视频。可选地，摄像头组件606包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件606还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器601进行处理，或者输入至射频电路604以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在电子设备600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器601或射频电路604的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路607还可以包括耳机插孔。

定位组件608用于定位电子设备600的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件608可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源609用于为电子设备600中的各个组件进行供电。电源609可以是交流电、直流电、一次性电池或可充电电池。当电源609包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，电子设备600还包括有一个或多个传感器610。该一个或多个传感器610包括但不限于：加速度传感器611、陀螺仪传感器612、压力传感器613、指纹传感器614、光学传感器615以及接近传感器616。

加速度传感器611可以检测以电子设备600建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器611可以用于检测重力加速度在三个坐标轴上的分量。处理器601可以根据加速度传感器611采集的重力加速度信号，控制显示屏605以横向视图或纵向视图进行用户界面的显示。加速度传感器611还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器612可以检测电子设备600的机体方向及转动角度，陀螺仪传感器612可以与加速度传感器611协同采集用户对电子设备600的3D动作。处理器601根据陀螺仪传感器612采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器613可以设置在电子设备600的侧边框和/或显示屏605的下层。当压力传感器613设置在电子设备600的侧边框时，可以检测用户对电子设备600的握持信号，由处理器601根据压力传感器613采集的握持信号进行左右手识别或快捷操作。当压力传感器613设置在显示屏605的下层时，由处理器601根据用户对显示屏605的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器614用于采集用户的指纹，由处理器601根据指纹传感器614采集到的指纹识别用户的身份，或者，由指纹传感器614根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器601授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器614可以被设置在电子设备600的正面、背面或侧面。当电子设备600上设置有物理按键或厂商Logo时，指纹传感器614可以与物理按键或厂商Logo集成在一起。

光学传感器615用于采集环境光强度。在一个实施例中，处理器601可以根据光学传感器615采集的环境光强度，控制显示屏605的显示亮度。具体地，当环境光强度较高时，调高显示屏605的显示亮度；当环境光强度较低时，调低显示屏605的显示亮度。在另一个实施例中，处理器601还可以根据光学传感器615采集的环境光强度，动态调整摄像头组件606的拍摄参数。

接近传感器616，也称距离传感器，通常设置在电子设备600的前面板。接近传感器616用于采集用户与电子设备600的正面之间的距离。在一个实施例中，当接近传感器616检测到用户与电子设备600的正面之间的距离逐渐变小时，由处理器601控制显示屏605从亮屏状态切换为息屏状态；当接近传感器616检测到用户与电子设备600的正面之间的距离逐渐变大时，由处理器601控制显示屏605从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图6中示出的结构并不构成对电子设备600的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图6是本申请实施例提供的一种服务器的结构示意图，该服务器700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上CPU(central processing units，处理器)701和一个或一个以上的存储器702，其中，所述存储器702中存储有至少一条指令，所述至少一条指令由所述处理器701加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述实施例中语音录制的方法。该计算机可读存储介质可以是非暂态的。例如，所述计算机可读存储介质可以是ROM(Read-Only Memory，只读存储器)、RAM(Random Access Memory，随机存取存储器)、CD-ROM(Compact Disc Read-Only Memory，光盘只读存储器)、磁带、软盘和光数据存储设备等。

需要说明的是，本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号(包括但不限于用户终端与其他设备之间传输的信号等)，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本申请中涉及到的目标用户的录制音频都是在充分授权的情况下获取的。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种语音录制的方法，其特征在于，所述方法包括：

采集目标用户的录制音频；

当检测到对普通话播放选项的选择操作时，获取所述录制音频对应的普通话录制音频，其中，所述普通话录制音频和所述录制音频的音色相同，所述普通话录制音频用于训练普通话语音合成模型，所述普通话语音合成模型用于输出带有所述音色的普通话音频；

当检测到对方言播放选项的选择操作时，获取所述录制音频对应的方言录制音频，其中，所述方言录制音频和所述录制音频的音色相同，所述方言录制音频用于训练方言语音合成模型，所述方言语音合成模型用于输出带有所述音色的方言音频，所述方言音频的发音与所述方言录制音频的发音具有相同的方言口音。

2.根据权利要求1所述的方法，其特征在于，所述获取所述录制音频对应的普通话录制音频，包括：

对所述录制音频进行方言口音去除，得到普通话录制音频。

3.根据权利要求2所述的方法，其特征在于，在所述对所述录制音频进行方言口音去除之前，所述方法还包括：

所述对所述录制音频进行方言口音去除，包括：

4.根据权利要求2或3所述的方法，其特征在于，所述对所述录制音频进行方言去除，得到普通话录制音频包括：

5.根据权利要求1所述的方法，其特征在于，所述获取所述录制音频对应的方言录制音频，包括：

对所述录制音频进行方言口音添加，得到方言录制音频。

6.根据权利要求5所述的方法，其特征在于，在所述对所述录制音频进行方言口音添加之前，所述方法还包括：

所述对所述录制音频进行方言口音添加，包括：

7.根据权利要求6所述的方法，其特征在于，在所述对所述录制音频进行方言口音添加之前，所述方法还包括：

显示多个方言选项；

所述对所述录制音频进行方言口音添加，包括：

对所述录制音频添加所述目标方言的口音。

8.根据权利要求7所述的方法，其特征在于，在所述对所述录制音频添加所述目标方言的口音之前，所述方法还包括：

确定所述目标方言对应的方言口音转换模型；

9.根据权利要求1所述的方法，其特征在于，当检测到对方言播放选项的选择操作时，所述方法还包括：

如果所述录制音频中口音类型为方言口音的音频占比小于预设阈值，则进行方言语音补录提示；

重新采集所述目标用户的录制音频。

10.一种计算机程序产品，其特征在于，所述计算机程序产品中包括计算机指令，所述计算机指令由处理器加载并执行以实现如权利要求1至权利要9中任一项所述的语音录制的方法所执行的操作。