CN113742517A

CN113742517A - 语音包的生成方法、装置、电子设备和存储介质

Info

Publication number: CN113742517A
Application number: CN202110921313.0A
Authority: CN
Inventors: 彭博; 李超; 高聪; 高占杰; 李云峰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-08-11
Filing date: 2021-08-11
Publication date: 2021-12-03
Anticipated expiration: 2041-08-11
Also published as: CN113742517B; US20220390230A1; JP2022088682A

Abstract

本公开提供了语音包的生成方法、装置、电子设备和存储介质，涉及计算机技术领域，尤其涉及语音技术、自然语言处理等人工智能领域。具体实现方案为：响应于获取到任一录制模式选择控件被触发，根据任一录制模式选择控件的类型，确定待展示文本的数量及语音录制条件；根据语音录制条件，获取与数量匹配的语音数据；将语音数据发送给服务器；获取服务器利用语音数据生成的语音包。该方法可以基于不同录制模式下录制的语音数据生成语音包，提高了语音包生成方式的多样化。

Description

语音包的生成方法、装置、电子设备和存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及语音技术、自然语言处理等人工智能领域，具体涉及语音包的生成方法、装置、电子设备和存储介质。

背景技术

随着计算机技术的发展，出现了利用语音合成技术在计算机应用产品中提供不同发音人的语音播报功能。例如，在地图类产品中，可以基于用户录制的音频数据，生成语音包，在进行语音导航时，可以利用用户的语音包进行导航语音播报。

因此，如何提高语音包多样化的生成方式是亟待解决的问题。

发明内容

本公开提供了一种语音包的生成方法、装置、电子设备和存储介质。

根据本公开的一方面，提供了一种语音包的生成方法，包括：

响应于获取到任一录制模式选择控件被触发，根据所述任一录制模式选择控件的类型，确定待展示文本的数量及语音录制条件；

根据所述语音录制条件，获取与所述数量匹配的语音数据；

将所述语音数据发送给服务器；

获取所述服务器利用所述语音数据生成的语音包。

根据本公开的另一方面，提供了一种语音包的生成装置，包括：

第一确定模块，用于响应于获取到任一录制模式选择控件被触发，根据所述任一录制模式选择控件的类型，确定待展示文本的数量及语音录制条件；

第一获取模块，用于根据所述语音录制条件，获取与所述数量匹配的语音数据；

第一发送模块，用于将所述语音数据发送给服务器；

第二获取模块，用于获取所述服务器利用所述语音数据生成的语音包根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述实施例所述的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据上述实施例所述的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据上述实施例所述的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1为本公开实施例提供的一种语音包的生成方法的流程示意图；

图2为本公开实施例提供的另一种语音包的生成方法的流程示意图；

图3为本公开实施例提供的一种录制模式选择界面的示意图；

图4为本公开实施例提供的一种语音包的生成过程示意图；

图5为本公开实施例提供的一种语音包的生成装置的结构示意图；

图6是用来实现本公开实施例的语音包的生成方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

下面参考附图描述本公开实施例的语音包的生成方法、装置、电子设备和存储介质。

人工智能是研究使用计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术领域也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术包括计算机视觉技术、语音识别技术、自然语言处理技术以及深度学习、大数据处理技术、知识图谱技术等几大方向。

语音技术是指在计算机领域中的关键技术有自动语音识别技术和语音合成技术。

NLP(Natural Language Processing，自然语言处理)是计算机科学领域与人工智能领域中的一个重要方向，NLP研究的内容包括但不限于如下分支领域：文本分类、信息抽取、自动摘要、智能问答、话题推荐、机器翻译、主题词识别、知识库构建、深度文本表示、命名实体识别、文本生成、文本分析(词法、句法、语法等)、语音识别与合成等。

图1为本公开实施例提供的一种语音包的生成方法的流程示意图。

本公开实施例的语音包的生成方法，可以由本公开实施例提供的语音包的生成装置执行，该装置可以配置于电子设备中，通过基于不同录制模式下录制的语音数据生成语音包，提高语音包生成方式的多样化。

如图1所示，该语音包的生成方法包括：

步骤101，响应于获取到任一录制模式选择控件被触发，根据任一录制模式选择控件的类型，确定待展示文本的数量及语音录制条件。

本公开中，电子设备上的一些应用程序可以提供语音包生成功能，比如，地图类应用程序、旅游类应用程序等。用户打开应用程序，并触发相应的控件后，电子设备可以显示录制模式选择控件，或者用户也可以在应用程序中通过搜索查找所需的录制模式。

本公开中，不同的录制模对应的待展示文本的数量及语音录制条件不同。在用户触发电子设备上显示的任一录制模式选择控件时，电子设备响应于获取到任一录制模式选择控件被触发，可以根据任一录制模式选择控件的类型，及每种类型对应的待展示文本的数量和语音录制条件，确定任一录制模式选择控件对应的待展示文本的数量和语音录制条件。

其中，待展示文本是指用户录制语音数据时需要朗读的文本，语音录制条件可以是指在录制模式下，录制的语音数据需要满足的条件。

步骤102，根据语音录制条件，获取与数量匹配的语音数据。

在确定待展示文本的数量及语音录制条件后，可以根据语音录制条件，获取与待展示文本的数量匹配的语音数据。比如，待展示文本的数量为9，可以根据语音录制条件，获取与待展示文本对应的9条语音数据。

本公开的技术方案中，所涉及的用户语音数据的获取、存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

步骤103，将语音数据发送给服务器。

在获取与待展示文本的数量匹配的语音数据后，可以将获取的语音数据发送给服务器，由服务器利用用户录制的语音数据生成语音包。

在生成语音包时，服务器可以利用语音数据训练模型。当模型训练完成后，可以根据模型学习到的声学特征，生成语音包。

步骤104，获取服务器利用语音数据生成的语音包。

服务器可以将基于用户录入的语音数据生成的语音包，发送给电子设备，从而电子设备可以获取服务器利用语音数据生成的语音包。

比如，当用户触发了某录制模式选择控件后，电子设备可以确定与该录制模式对应的待展示文本的数量为9及相应的语音录制条件录制的9条语音数据均符合质量要求，根据语音录制条件，基于界面上展示的待展示文本，获取用户录制的9条语音数据，并将录制的9条语音数据发送给服务器。

服务器可以基于9条语音数据，对语音合成模型进行训练，以生成语音包。在训练时，可以将9条语音数据分别进行切分，以获取每个语音数据的多个语音切片，将获取的语音切片输入风格标签网络，以获取每个语音切片对应的风格标签向量，之后将每个语音切片的风格标签输入至声学模型，以使声学模型可以学习得到用户的声学特征，从而可以基于学习到的声学特征生成语音包。

电子设备获取语音包后，可以基于语音包提供与用户发音相同的语音播报功能。比如，在地图类产品中，可以基于用户录制的音频数据，生成语音包，在进行语音导航时，可以利用用户的语音包进行导航语音播报。又如，在旅游类产品中，可以基于用户录制语音数据生成的语音包，进行景点介绍。

本公开实施例中，通过响应于获取到任一录制模式选择控件被触发，根据任一录制模式选择控件的类型，确定待展示文本的数量及语音录制条件；根据语音录制条件，获取与数量匹配的语音数据；将语音数据发送给服务器；获取服务器利用语音数据生成的语音包。由此，可以基于不同录制模式下录制的语音数据生成语音包，提高了语音包生成方式的多样化。

为了提高语音包的质量，在本公开的一个实施例中，可以使得获取的每条语音数据均符合质量要求，以利用符合质量要求的语音数据获取语音包。下面结合图2进行说明，图2为本公开实施例提供的另一种语音包的生成方法的流程示意图。

如图2所示，该语音包的生成方法包括：

步骤201，显示录制模式选择界面，其中，选择界面中包含多个录制模式选择控件。

本公开中，电子设备上的一些应用程序可以提供语音包生成功能，在用户打开应用程序，并触发相应的控件后，电子设备可以显示录制模式选择界面。其中，录制模式选择界面中可以包括多个录制模式选择控件。

图3为本公开实施例提供的一种录制模式选择界面的示意图。图3中，录制模式选择界面中可以包括极速模式选择控件、经典模式选择控件、卡通模式选择控件等。

本公开中，通过录制模式选择界面，提供多种录制模式选择控件，方便用户选择所需的录制模式。

步骤202，响应于获取到任一录制模式选择控件被触发，根据任一录制模式选择控件的类型，确定待展示文本的数量及语音录制条件。

本公开中，不同的录制模式对应的待展示文本的数量及语音录制条件不同。比如，图3中，极速模式对应的待展示文本的数量可以为a1-a2,相应的语音录制条件可以是录制的语音数据均符合质量要求；经典模式对应的待展示文本的数量为a3-a4，相应的语音录制条件可以是录制的语音数据中90％以上的语音数据符合质量要求；卡通模式对应的待展示文本的数量可以为a5-a6，相应的语音录制条件可以是录制的语音数据80％以上的语音数据符合质量要求。其中，极速模式对应的待展示文本的数量可以小于经典模式，经典模式对应的待展示文本的数量可以小于卡通模式。

本公开中，当用户触发录制模式选择界面上任一录制模式选择控件时，电子设备响应于获取到任一录制模式选择控件被触发，可以根据任一录制模式选择控件的类型，及每种类型对应的待展示文本的数量和语音录制条件，确定任一录制模式选择控件对应的待展示文本的数量和语音录制条件。

假设图3所示的极速模式对应的待展示文本的数量为9，经典模式对应的待展示文本的数量为20。若用户触发了图3所示选择界面上第一个录制模式选择控件，电子设备可以根据该录制模式选择控件的类型为极速类型，确定待展示文本的数量为9句，相应的语音录制条件可以是录制的9条语音数据均符合质量要求。又如，当用户触发经典模式选择控件时，可以确定待展示文本的数量为20句，相应的语音录制条件可以是录制的20条语音数据中有17条以上符合质量要求。

需要说明的是，上述不同录制模式下待展示文本的数量及语音录制条件仅是示例，可以根据实际需要设置，本公开对此不作限定。

步骤203，在录制界面上展示待展示文本。

本公开中，每种录制模式可以具有对应的待展示文本，在确定被选中的录制模式后，可以从服务器获取被选中的录制模式对应的待展示文本，并在录制界面上展示一条待展示文本。

或者，在展示待展示文本的同时，也可以播放待展示文本对应的音频，以便于用户基于音频进行跟读。

步骤204，获取用户根据待展示文本录制的语音数据。

本公开中，用户可以对展示的待展示文本进行朗读，电子设备录制用户的语音数据，从而可以获取用户根据待展示文本录制的语音数据。

步骤205，在语音数据符合质量要求的情况下，展示下一条待展示文本，直至录制与数量匹配的语音数据。

为了提高用户录制的语音数据的质量，本公开中，在获取用户录制的语音数据后，可以对获取的语音数据进行语音质量检测，在语音数据符合质量要求的情况下，展示下一条待展示文本，以使用户根据展示的下一条待展示文本录制语音数据，直至录制与待展示文本的数量匹配的语音数据。

也就是说，在当前录制的语音数据符合质量要求的情况下，展示下一条待展示文本，从而使得用户录制的每条语音数据均符合质量要求。

本公开中，在对语音数据进行语音质量检测时，可以检测语音数据的音量是否满足音量要求、语音数据对应的文本内容与待展示文本是否一致、语音数据的停顿是否符合停顿要求、语音数据中每个字的发音是否符合发音要求、语音数据的语速是否满足语速要求、语音数据的信噪比是否不小于预设阈值、语音数据的似然值是否大于预设分数等。

相应地，符合质量要求可以包括以下至少一项：语音数据的音量满足音量要求、语音数据对应的文本内容与待展示文本一致、语音数据的停顿符合停顿要求、语音数据中每个字的发音符合发音要求、语音数据的语速满足语速要求、语音数据的信噪比不小于预设阈值、语音数据的似然值大于预设分数等。由此，在语音数据符合质量要求的情况下，录制下一条语音数据，从而保证录制的每条语音数据符合质量要求。

步骤206，将语音数据发送给服务器。

本公开中，步骤206与上述步骤103类似，故在此不再赘述。

步骤207，获取服务器利用语音数据生成的语音包。

本公开中，服务器可以将基于用户录入的语音数据生成的语音包，发送给电子设备，从而电子设备可以获取服务器利用语音数据生成的语音包。

以图3中所示的录制模式选择界面为例，假设极速模式对应的待展示文本的数量为9，经典模式对应的待展示文本的数量为20。当用户触发了极速模式选择控件后，可以确定待展示文本的数量为9及相应的语音录制条件录制的9条语音数据均符合质量要求，根据语音录制条件，基于界面上展示的待展示文本，获取用户录制的9条语音数据，并将录制的9条语音数据发送给服务器。

服务器可以基于9条语音数据，对语音合成模型进行训练，以生成语音包。在训练时，可以将9条语音数据分别进行切分，以获取每个语音数据的多个语音切片，将获取的语音切片输入风格标签网络，以获取每个语音切片对应的风格标签向量，之后将每个语音切片的风格标签输入至声学模型，以使声学模型可以学习得到用户的声学特征，从而可以基于学习到的声学特征生成语音包。通过这种方式，用户仅需要录制9句话即可生成个性化语音包，相比经典模式的20句话，降低了用户录制句数、减少用户录制所花时间及录制完等待时长。

本公开实施例中，在根据语音录制条件，获取与数量匹配的语音数据时，可以通过在录制界面上展示待展示文本，获取用户根据待展示文本录制的语音数据，并在语音数据符合质量要求的情况下，展示下一条待展示文本，直至录制与数量匹配的语音数据。由此，在语音数据符合质量要求的情况下，录制下一条语音数据，从而保证录制的每条语音数据均符合质量要求，利用这些语音数据生成语音包，提高了语音包的质量。

在本公开的一个实施例中，在语音数据不符合质量要求的情况下，可以根据语音数据的检测结果，确定录音调整提示信息，并展示录音调整提示信息，以使用户根据录音调整提示信息调整录制方式，根据展示的待展示文本重新录制语音数据。

在获取重新录制的语音数据后，对重新录制的语音数据进行语音质量检测，在重新录制的语音数据符合质量要求的情况下，展示下一条文本数据，直至录制与待展示文本的数量匹配的语音数据。

在重新录制的语音数据不符合质量要求的情况下，可以根据重新录制的语音数据的检测结果，确定录音调整提示信息并展示，以使用户根据录音调整提示信息调整录制方式，根据当前展示的待展示文本重新录制语音数据，直至重新录制的语音数据满足质量要求。由此，在用户录制的某个文本的语音数据不符合质量要求的情况下，确定并展示录音调整提示信息，直至获取该文本符合质量要求的语音数据。

比如，当前展示的是第2个文本，获取用户录制的该文本的语音数据，经过检测语音数据的音量小于预设音量范围，根据该检测结果，可以确定录音调整提示信息为“请提高音量”，用户基于该录音调整提示信息，调整音量，重新朗读第2个文本，以获取用户重新录制的语音数据，并对重新录制的语音数据进行语音质量检测，确定重新录制的语音数据是否符合质量要求。

本公开实施例中，还可以在语音数据不符合质量要求的情况下，根据语音数据的检测结果，确定录音调整提示信息，并展示录音调整提示信息，获取用户根据待展示文本重新录制的语音数据。由此，在录制的语音数据不符合质量要求的情况下，向用户展示录音调整提示信息，以使用户根据录音调整提示信息重新录制语音数据，从而在保证录制的语音数据符合质量要求的情况下，减少了用户录制语音数据的时间。

在实际应用中，如果电子设备当前所处环境比较嘈杂，在这种环境录制的音频数据，会包含噪音，导致音频数据的质量较差。

基于此，在本公开的一个实施例中，在根据语音录制条件，获取与待展示文本的数量匹配的语音数据之前，还可以获取当前环境内的音频数据，并获取音频数据的分贝，在音频数据的分贝小于分贝阈值的情况下，可以确定当前环境比较安静，可以确定当前环境满足预设环境条件，可以在当前环境中录制音频数据。从而，可以保证在当前环境满足预设环境条件下录制语音数据，减少了用户录制的语音数据中包含的噪声，提高了语音数据的质量。

在音频数据的分贝大于或等于分贝阈值的情况下，可以确定环境提示信息，比如“当前环境噪音较大，请到安静环境录制”。由此，用户可以根据该提示信息，移至安静环境，或者如果当前在播放音乐，可以停止播放音乐等，以在符合要求的录制环境中录制语音数据。

在实际应用中，用户与电子设备间的距离过近，会录入喷麦声，导致合成效果出现大量的刺耳噪声，如果距离过远，会使得录制的语音数据的音量比较低。

基于此，在本公开的一个实施例中，在根据语音录制条件，获取与待展示文本的数量匹配的语音数据之前，还可以获取用户与电子设备之间的距离，以判断距离是否满足要求。

本公开中，在录制语音数据之前，可以向电子设备上的测距装置发送测距指令，以使测距装置根据测距指令测量用户与电子设备之间的距离，并获取测量装置测量的用户与电子设备之间的距离。

比如，向电子设备中的红外装置发送测距指令，红外装置可以通过发射红外线测量用户与电子设备之间的距离。

在获取用户与电子设备之间的距离后，判断距离是否在预设距离范围内。在用户与电子设备之间的距离未在预设距离范围内的情况下，生成距离调整信息，并展示距离调整信息，以使用户根据距离调整提示信息调整与电子之间的距离，直至用户与电子设备之间的距离在预设距离范围内。

比如，预设距离范围为10到20厘米，如果用户与手机之间的距离为8厘米，这时可以生成距离将调整提示信息“距离太近，请调整与手机间的距离”，用户可以根据该提示信息调整与手机之间的距离，直至距离在10到20厘米的范围内。

在用户与电子设备之间的距离在预设距离范围内的情况下，可以根据语音录制条件，获取与待展示文本的数量匹配的语音数据，并将录制的语音数据发送至服务器，以及从服务器获取语音包。

本公开实施例中，在根据语音录制条件，获取与待展示文本的数量匹配的语音数据之前，通过判断用户与电子设备之间的距离是否满足要求，如果未满足要求，生成距离调整提示信息，以使用户根据距离调整提示信息，调整与电子设备之间的距离，从而保证在用户与电子设备之间的距离满足要求的情况下，录制语音数据，提高了语音数据的质量。

为了进一步说明上述实施例，下面结合图4进行说明，图4为本公开实施例提供的一种语音包的生成过程示意图。

图4的语音包的生成过程，以图3中所示的极速模式为例，用户触发了录制模式选择界面中的极速模式选择控件，根据该控件类型，确定待展示的文本数量为9，语音录制条件为9条语音数据均满足质量要求。

如图4所示，该语音包的生成过程包括：

步骤401，对当前环境进行检测，并确定当前环境符合预设环境条件。

步骤402，展示第i条文本(i从0开始)。

步骤403，播放第i条语音，以使用户跟读。其中，第i条语音为第i条文本对应的语音。

步骤404，对录制的第i条语音数据进行语音质量检测。

步骤405，判断第i条语音数据是否合格。如果合格，则执行步骤406，如果不合格，则执行步骤407。

步骤406，建议用户调整录音方式。

步骤407，判断i是否大于或等于9。如果是，则执行步骤410，如果否，则执行步骤408。

步骤408，获取用户对第i条文本的触发操作。

步骤409，i＝i+1。

步骤410，对录制的语音数据进行语音增强处理。

本公开中，可以对录制的每条语音数据进行语音增强处理，以减少语音数据中的噪声，提高语音数据的质量。

步骤411，将语音增强后的语音数据发送给服务器，以使服务器利用语音增强后的语音数据进行模型训练，得到语音包。

图4所示的语音包的生成方法用户录制9条语音数据即可生成语音包，相比使用20句话，降低了用户录制句数，录制时间相对较短，操作步骤简单，用户录完后等待时间相对较短。

为了实现上述实施例，本公开实施例还提出一种语音包的生成装置。图5为本公开实施例提供的一种语音包的生成装置的结构示意图。

如图5所示，该语音包的生成装置500，包括：

第一确定模块510，用于响应于获取到任一录制模式选择控件被触发，根据任一录制模式选择控件的类型，确定待展示文本的数量及语音录制条件；

第一获取模块520，用于根据语音录制条件，获取与数量匹配的语音数据；

第一发送模块530，用于将语音数据发送给服务器；

第二获取模块540，用于获取服务器利用语音数据生成的语音包。

在本公开实施例一种可能的实现方式中，第一获取模块520，用于：

在录制界面上展示待展示文本；

获取用户根据待展示文本录制的语音数据；

在语音数据符合质量要求的情况下，展示下一条待展示文本，直至录制与数量匹配的语音数据。

在本公开实施例一种可能的实现方式中，该装置还可以包括：

第二确定模块，用于在语音数据不符合质量要求的情况下，根据语音数据的检测结果，确定录音调整提示信息；

第一展示模块，用于展示录音调整提示信息；

第一获取模块520，还用于用户根据待展示文本重新录制的语音数据。

在本公开实施例一种可能的实现方式中，符合质量要求包括以下至少一项：语音数据的音量满足音量要求、语音数据对应的文本内容与待展示文本一致、语音数据的停顿符合停顿要求、语音数据中每个字的发音符合发音要求、语音数据的语速满足语速要求、语音数据的信噪比不小于预设阈值。

第三获取模块，用于获取当前环境内的音频数据；

第三确定模块，用于在音频数据的分贝小于分贝阈值的情况下，确定当前环境满足预设环境条件。

在本公开实施例一种可能的实现方式中，该装置可以包括：

第二发送模块，用于向电子设备上的测距装置发送测距指令；

第四获取模块，用于获取测距装置根据测量指令测量的用户与电子设备之间的距离；

生成模块，用于在距离未在预设距离范围内的情况下，生成距离调整提示信息；

第二展示模块，用于展示距离调整提示信息，直至距离在预设距离范围内。

在本公开实施例一种可能的实现方式中，该装置可以包括：

显示模块，用于显示录制模式选择界面，其中，选择界面中包含多个录制模式选择控件。

需要说明的是，前述语音包的生成方法实施例的解释说明，也适用于该实施例的语音包的生成装置，故在此不再赘述。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，设备600包括计算单元601，其可以根据存储在ROM(Read-OnlyMemory，只读存储器)602中的计算机程序或者从存储单元608加载到RAM(Random AccessMemory，随机访问/存取存储器)603中的计算机程序，来执行各种适当的动作和处理。在RAM603中，还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。I/O(Input/Output，输入/输出)接口605也连接至总线604。

设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于CPU(Central Processing Unit，中央处理单元)、GPU(Graphic Processing Units，图形处理单元)、各种专用的AI(Artificial Intelligence，人工智能)计算芯片、各种运行机器学习模型算法的计算单元、DSP(Digital SignalProcessor，数字信号处理器)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如语音包的生成方法。例如，在一些实施例中，语音包的生成方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时，可以执行上文描述的语音包的生成方法的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行语音包的生成方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、FPGA(Field Programmable Gate Array，现场可编程门阵列)、ASIC(Application-Specific Integrated Circuit，专用集成电路)、ASSP(Application Specific StandardProduct，专用标准产品)、SOC(System On Chip，芯片上系统的系统)、CPLD(ComplexProgrammable Logic Device，复杂可编程逻辑设备)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、RAM、ROM、EPROM(Electrically Programmable Read-Only-Memory，可擦除可编程只读存储器)或快闪存储器、光纤、CD-ROM(Compact Disc Read-Only Memory，便捷式紧凑盘只读存储器)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(Cathode-Ray Tube，阴极射线管)或者LCD(Liquid Crystal Display，液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：LAN(LocalArea Network，局域网)、WAN(Wide Area Network，广域网)、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(VirtualPrivate Server，虚拟专用服务器)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

根据本公开的实施例，本公开还提供了一种计算机程序产品，当计算机程序产品中的指令处理器执行时，执行本公开上述实施例提出的语音包的生成方法。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种语音包的生成方法，包括：

根据所述语音录制条件，获取与所述数量匹配的语音数据；

将所述语音数据发送给服务器；

获取所述服务器利用所述语音数据生成的语音包。

2.如权利要求1所述的方法，其中，所述根据所述语音录制条件，获取与所述数量匹配的语音数据，包括：

在录制界面上展示待展示文本；

获取用户根据所述待展示文本录制的语音数据；

在所述语音数据符合质量要求的情况下，展示下一条待展示文本，直至录制与所述数量匹配的语音数据。

3.如权利要求2所述的方法，还包括：

在所述语音数据不符合质量要求的情况下，根据所述语音数据的检测结果，确定录音调整提示信息；

展示所述录音调整提示信息；

获取所述用户根据所述待展示文本重新录制的语音数据。

4.如权利要求2所述的方法，其中，所述符合质量要求包括以下至少一项：所述语音数据的音量满足音量要求、所述语音数据对应的文本内容与所述待展示文本一致、所述语音数据的停顿符合停顿要求、所述语音数据中每个字的发音符合发音要求、所述语音数据的语速满足语速要求、所述语音数据的信噪比不小于预设阈值。

5.如权利要求1所述的方法，其中，在所述根据所述语音录制条件，获取与所述数量匹配的语音数据之前，还包括：

获取当前环境内的音频数据；

在所述音频数据的分贝小于分贝阈值的情况下，确定所述当前环境满足预设环境条件。

6.如权利要求1所述的方法，其中，在所述根据所述语音录制条件，获取与所述数量匹配的语音数据之前，还包括：

向电子设备上的测距装置发送测距指令；

获取所述测距装置根据所述测量指令测量的用户与所述电子设备之间的距离；

在所述距离未在预设距离范围内的情况下，生成距离调整提示信息；

展示所述距离调整提示信息，直至所述距离在所述预设距离范围内。

7.如权利要求1-6任一所述的方法，其中，在所述响应于获取到任一录制模式选择控件被触发，根据所述任一录制模式选择控件的类型，确定待展示文本的数量及语音录制条件之前，还包括：

显示录制模式选择界面，其中，所述选择界面中包含多个录制模式选择控件。

8.一种语音包的生成装置，包括：

第一发送模块，用于将所述语音数据发送给服务器；

第二获取模块，用于获取所述服务器利用所述语音数据生成的语音包。

9.如权利要求8所述的装置，其中，所述第一获取模块，用于：

在录制界面上展示待展示文本；

获取用户根据所述待展示文本录制的语音数据；

10.如权利要求9所述的装置，还包括：

第二确定模块，用于在所述语音数据不符合质量要求的情况下，根据所述语音数据的检测结果，确定录音调整提示信息；

第一展示模块，用于展示所述录音调整提示信息；

所述第一获取模块，还用于所述用户根据所述待展示文本重新录制的语音数据。

11.如权利要求9所述的装置，其中，所述符合质量要求包括以下至少一项：所述语音数据的音量满足音量要求、所述语音数据对应的文本内容与所述待展示文本一致、所述语音数据的停顿符合停顿要求、所述语音数据中每个字的发音符合发音要求、所述语音数据的语速满足语速要求、所述语音数据的信噪比不小于预设阈值。

12.如权利要求8所述的装置，还包括：

第三获取模块，用于获取当前环境内的音频数据；

第三确定模块，用于在所述音频数据的分贝小于分贝阈值的情况下，确定所述当前环境满足预设环境条件。

13.如权利要求8所述的装置，还包括：

第四获取模块，用于获取所述测距装置根据所述测量指令测量的用户与所述电子设备之间的距离；

生成模块，用于在所述距离未在预设距离范围内的情况下，生成距离调整提示信息；

第二展示模块，用于展示所述距离调整提示信息，直至所述距离在所述预设距离范围内。

14.如权利要求8-13任一所述的装置，还包括：

显示模块，用于显示录制模式选择界面，其中，所述选择界面中包含多个录制模式选择控件。

15.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。

17.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的方法。