CN110148430B

CN110148430B - 音频的录制方法和装置、存储介质及电子装置

Info

Publication number: CN110148430B
Application number: CN201910363805.5A
Authority: CN
Inventors: 雷璐; 史景慧; 袁世培; 郭青云; 方芳; 陈威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2020-08-11
Anticipated expiration: 2039-04-30
Also published as: CN110148430A

Abstract

本发明公开了一种音频的录制方法和装置、存储介质及电子装置。其中，该方法包括：在使用目标帐号登录的第一客户端上检测到对第一客户端上显示的第一按钮执行了第一操作的情况下，在第一客户端上启动目标对话任务，其中，目标对话任务被设置为由至少两个对象共同执行，至少两个对象包括：与目标帐号对应的目标对象，与第一按钮对应的第一对象；在第一客户端上显示目标对话任务中的第一对话信息，并在第一客户端上对第一对象语音输入的第二对话信息进行录制，得到第一音频数据；在第一客户端上显示目标对话任务中的第三对话信息，并在第一客户端上对目标对象语音输入的第四对话信息进行录制，得到第二音频数据。

Description

音频的录制方法和装置、存储介质及电子装置

技术领域

本发明涉及计算机领域，具体而言，涉及一种音频的录制方法和装置、存储介质及电子装置。

背景技术

相关技术中，一些应用中具有提供有口语对话功能，通过在客户端上提供特定场景下的一段对话，由用户根据对话内容进行音频录制，以方便用户进行口语练习。

上述口语对话功能可以包括单人模式和双人模式。在单人模式下，由用户自己完成单角色对话，逐句录制音频内容，读完对话任务中的整段对话；在双人模式下，用户跟机器配合完成对话任务，一人一句，第一遍对话完成后，互换角色，再完成对方的对话句子。

然而，对于上述音频的录制方法，由用户个人完成音频录制，录制方式单一，用户没有代入感，导致用户体验差。

发明内容

本发明实施例提供了一种音频的录制方法和装置、存储介质及电子装置，以至少解决相关技术中的音频录制方法由于录制方式单一造成的用户体验差的技术问题。

根据本发明实施例的一个方面，提供了一种音频的录制方法，包括：在使用目标帐号登录的第一客户端上检测到对第一客户端上显示的第一按钮执行了第一操作的情况下，在第一客户端上启动目标对话任务，其中，目标对话任务被设置为由至少两个对象共同执行，至少两个对象包括：与目标帐号对应的目标对象，与第一按钮对应的第一对象；在第一客户端上显示目标对话任务中的第一对话信息，并在第一客户端上对第一对象语音输入的第二对话信息进行录制，得到第一音频数据；在第一客户端上显示目标对话任务中的第三对话信息，并在第一客户端上对目标对象语音输入的第四对话信息进行录制，得到第二音频数据，其中，与目标对象执行目标对话任务对应的音频数据包括第二音频数据。

根据本发明实施例的另一方面，还提供了一种音频的录制装置，包括：第一启动单元，用于在使用目标帐号登录的第一客户端上检测到对第一客户端上显示的第一按钮执行了第一操作的情况下，在第一客户端上启动目标对话任务，其中，目标对话任务被设置为由至少两个对象共同执行，至少两个对象包括：与目标帐号对应的目标对象，与第一按钮对应的第一对象；第一录制单元，用于在第一客户端上显示目标对话任务中的第一对话信息，并在第一客户端上对第一对象语音输入的第二对话信息进行录制，得到第一音频数据；第二录制单元，用于在第一客户端上显示目标对话任务中的第三对话信息，并在第一客户端上对目标对象语音输入的第四对话信息进行录制，得到第二音频数据，其中，与目标对象执行目标对话任务对应的音频数据包括第二音频数据。

根据本发明实施例的又一方面，还提供了一种存储介质，上述存储介质存储有计算机程序，上述计算机程序被设置为运行时执行上述的方法。

根据本发明实施例的另一方面，还提供了一种电子装置，包括存储器、处理器，上述存储器中存储有计算机程序，上述处理器被设置为通过上述计算机程序执行上述的方法。

在本发明实施例中，采用多个对象对目标对话任务中的对话信息分别进行录制的方式，通过在使用目标帐号登录的第一客户端上检测到对第一客户端上显示的第一按钮执行了第一操作的情况下，在第一客户端上启动目标对话任务，其中，目标对话任务被设置为由至少两个对象共同执行，至少两个对象包括：与目标帐号对应的目标对象，与第一按钮对应的第一对象；在第一客户端上显示目标对话任务中的第一对话信息，并在第一客户端上对第一对象语音输入的第二对话信息进行录制，得到第一音频数据；在第一客户端上显示目标对话任务中的第三对话信息，并在第一客户端上对目标对象语音输入的第四对话信息进行录制，得到第二音频数据，其中，与目标对象执行目标对话任务对应的音频数据包括第二音频数据，达到了在目标对话任务的录制过程中，目标对象可以与其他对象进行交互，配合完成对话的目的，从而实现了丰富音频录制方式、提高用户体验的技术效果，进而解决了相关技术中的音频录制方法由于录制方式单一造成的用户体验差的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种音频的录制方法的应用环境的示意图；

图2是根据本发明实施例的一种可选的音频的录制方法的流程示意图；

图3是相关技术中提供的一种音频的录制方法的示意图；

图4是相关技术中提供的另一种音频的录制方法的示意图；

图5是根据本发明实施例的一种可选的音频的录制方法的示意图；

图6是根据本发明实施例的另一种可选的音频的录制方法的示意图；

图7是根据本发明实施例的又一种可选的音频的录制方法的示意图；

图8是根据本发明实施例的又一种可选的音频的录制方法的示意图；

图9是根据本发明实施例的又一种可选的音频的录制方法的示意图；

图10是根据本发明实施例的又一种可选的音频的录制方法的示意图；

图11是根据本发明实施例的又一种可选的音频的录制方法的示意图；

图12是根据本发明实施例的又一种可选的音频的录制方法的示意图；

图13是根据本发明实施例的又一种可选的音频的录制方法的示意图；

图14是根据本发明实施例的又一种可选的音频的录制方法的示意图；

图15是根据本发明实施例的另一种可选的音频的录制方法的流程示意图；

图16是根据本发明实施例的一种可选的音频的录制装置的结构示意图；

图17是根据本发明实施例的一种可选的电子装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本发明实施例中，提供了一种上述音频的录制方法的实施例。作为一种可选的实施方式，该音频的录制方法可以但不限于应用于如图1所示的应用环境中。

如图1所示，终端102(第一客户端)通过网络104与服务器106相连。终端102上运行有第一客户端，第一客户端使用目标帐号登录，在第一客户端上显示有第一按钮。

在第一客户端上检测到对第一按钮执行了第一操作的情况下，终端102可以在第一客户端上启动目标对话任务，其中，目标对话任务被设置为由至少两个对象共同执行，至少两个对象包括：与目标帐号对应的目标对象，与第一按钮对应的第一对象。在第一客户端上显示目标对话任务中的第一对话信息，并在第一客户端上对第一对象语音输入的第二对话信息进行录制，得到第一音频数据；在第一客户端上显示目标对话任务中的第三对话信息，并在第一客户端上对目标对象语音输入的第四对话信息进行录制，得到第二音频数据，其中，与目标对象执行目标对话任务对应的音频数据包括第二音频数据。

在得到第二音频数据之后，可以通过网络104将第二音频数据发送给服务器106，由服务器106保存与目标对象执行目标对话任务对应的音频数据，并根据与目标对象执行目标对话任务对应的音频数据对目标对象完成目标对话任务的情况进行评测。

可选地，在本实施例中，上述终端可以包括但不限于以下至少之一：手机、平板电脑、笔记本电脑、台式PC机、及用于运行对战游戏的硬件设备。上述网络可以包括但不限于以下至少之一：有线网络和/或无线网络，上述有线网络可以包括但不限于以下至少之一：广域网、城域网、局域网。上述无线网络可以包括但不限于：蓝牙、WIFI及其他实现无线通信的网络，上述服务器可以包括但不限于：目标应用的后台服务器，和/或，用于对目标对话任务执行情况进行评测的服务器。上述只是一种示例，本实施例对此不做任何限定。

根据本发明实施例的一方面，提供了一种音频的录制方法，该音频的录制方法可以应用于如图1所示的终端102中，如图2所示，该方法包括：

S202，在使用目标帐号登录的第一客户端上检测到对第一客户端上显示的第一按钮执行了第一操作的情况下，在第一客户端上启动目标对话任务，其中，目标对话任务被设置为由至少两个对象共同执行，至少两个对象包括：与目标帐号对应的目标对象，与第一按钮对应的第一对象；

S204，在第一客户端上显示目标对话任务中的第一对话信息，并在第一客户端上对第一对象语音输入的第二对话信息进行录制，得到第一音频数据；

S206，在第一客户端上显示目标对话任务中的第三对话信息，并在第一客户端上对目标对象语音输入的第四对话信息进行录制，得到第二音频数据，其中，与目标对象执行目标对话任务对应的音频数据包括第二音频数据。

可选地，在本实施例中，上述音频的录制方法可以但不限于：对话任务的执行过程中，其中，上述对话任务使用的是目标语言(例如，英语、汉语、韩语、日语等各种语种的对话任务)，可以使用上述音频的录制方法获取到目标对象对目标对话任务的完成情况。上述仅是一种示例，本实施例中对此不做任何限定。

相关技术中，使用客户端完成口语对话任务主要是单人逐句朗读(单人模式)或是人机对话(双人模式)。如图3所示，在单人模式下，用户自己完成对话，一句一句录制音频内容。如图4所示，在双人模式下，用户跟机器共同完成对话，一人一句，第一遍对话完成后，互换角色，再完成对方的对话句子。对于上述方案，用户只能跟机器配合完成对话，口语对话模式单一。

而在本实施例中，通过在使用目标帐号登录的第一客户端上检测到对第一客户端上显示的第一按钮执行了第一操作的情况下，在第一客户端上启动目标对话任务，其中，目标对话任务被设置为由至少两个对象共同执行，至少两个对象包括：与目标帐号对应的目标对象，与第一按钮对应的第一对象；在第一客户端上显示目标对话任务中的第一对话信息，并在第一客户端上对第一对象语音输入的第二对话信息进行录制，得到第一音频数据；在第一客户端上显示目标对话任务中的第三对话信息，并在第一客户端上对目标对象语音输入的第四对话信息进行录制，得到第二音频数据，其中，与目标对象执行目标对话任务对应的音频数据包括第二音频数据，解决了相关技术中的音频录制方法由于录制方式单一造成的用户体验差的技术问题。丰富了音频录制方式，提高了用户体验。

下面结合图2对本发明实施例中的音频的录制方法进行说明。

在步骤S202中，在使用目标帐号登录的第一客户端上检测到对第一客户端上显示的第一按钮执行了第一操作的情况下，在第一客户端上启动目标对话任务，其中，目标对话任务被设置为由至少两个对象共同执行，至少两个对象包括：与目标帐号对应的目标对象，与第一按钮对应的第一对象。

该第一客户端为目标应用的客户端，目标应用可以提供有口语对话功能。上述口语对话功能可以适用于不同国家语言的口语对话(例如，英语、汉语、韩语、日语等各种语种的口语对话)。

上述目标应用可以为目标群组中的对象提供不同类型的对象任务。该目标群组中可以包括特定对象，上述特定对象可以包括但不限于以下之一：同一班级的同学，选择了相同属性标签的对象，具有相同测评属性的对象(例如，口语等级属于同一等级的对象)。

在使用目标帐号登录的第一客户端上，可以提供多个对话任务，上述多个对话任务可以是多个情景对话，例如，“如何问路”，“打招呼”，“吃饭”等。用户(目标对象或者其他使用者)可以从多个对话任务中选择一个或多个对话任务作为目标对象的待执行对话任务。

对于各个待执行对话任务，第一客户端上可以提供多种功能，上述多个功能可以包括但不限于以下至少之一：练习功能(第一模式，也称为练习模式)、评测功能(第二模式，也称为评测模式，挑战模式)。

在第一客户端上显示待执行任务列表和练习模式和评测模式的入口的方式可以有多种。

例如，在第一客户端的界面上显示有待执行任务列表(包含一个或多个待执行任务)，以及练习模式和评测模式的入口(例如，通过不同的按钮分别标识两种模式的入口)。

又例如，在第一客户端的一个界面上显示有待执行任务列表，在选择其中的一个待执行任务之后(例如，对某一待执行任务执行选取操作)，在跳转到的界面中显示有练习模式和评测模式的入口。

再例如，在第一客户端的一个界面上显示有练习模式和评测模式的入口，在选择其中一个模式之后，在跳转到的界面中显示有待执行任务列表。

用户可以从待执行任务列表中选择出一个待执行任务作为目标对话任务，或者由第一客户端从待执行任务列表中自动选择一个待执行任务作为目标对话任务。在检测到对用于标识练习模式的按钮执行的第一目标操作(例如，点击操作)，跳转至与目标对话任务对应的练习模式的界面；在检测到对用于标识评测模式的按钮执行的第二目标操作(例如，点击操作)，跳转至与目标对话任务对应的评测模式的界面。

在上述练习模式下，可以在客户端上逐句显示待执行对话任务的对话信息，并通过客户端播放各句对话信息的发音(与各句的会话信息对应的音频数据)，该发音可以由AI(Artificial Intelligence，人工智能)机器自动合成，或者由特定人物录制生成。

在各句发音完成之后，可以预留预定长度的练习时间(特定时长，或者，由用户控制练习时长)，由用户重复各句对话信息的发音(跟读，也可以以双方对话的形式进行练习)。在练习时间内，客户端可以对用户语音输入的对话信息进行录制，并根据各句对话信息对录制的与各句对话信息对应的语音数据进行分析(例如，将录制的语音数据发送到评测服务器进行评分，由评测服务器提供分析结果)，以便辅助用户进行正确的发音。

在评测模式下，可以在第一客户端上显示目标对话任务的对话信息，由目标对象和其他对象共同执行目标对话任务。

在进入评测模式之后、在第一客户端上启动目标对话任务之前，可以在客户端上显示多个按钮，其中，多个按钮中的每个按钮对应于被设置为允许与目标帐号共同执行目标对话任务的一个对象。上述对象可以包括但不限于：第一类对话对象、第二类对话对象、第三类对话对象和第四类对象，其中，

(1)第一类对话对象为可以与目标对象进行现场对话的对象(例如，目标对象的爸爸、妈妈、朋友、同学、老师等)。在目标对话任务执行的过程中，第一类对话对象与目标对象可以使用相同的客户端进行会话信息录制，共同执行目标对象任务。

(2)第二类对话对象为可以与目标对象进行实时在线对话的对象(例如，目标对象的同学、老师、网友等在目标应用中具有帐号的对象)。在目标对话任务执行的过程中，第二类对话对象与目标对象可以使用不同的客户端实时在线进行会话信息录制，共同执行目标对象任务。

(3)第三类对话对象可以为已完成目标对话任务的对象(可获取到与目标对话任务对应的音频数据的对象，例如，同学、老师、网友等)，或者，已完成目标对话任务，且完成目标对话任务的评分高于目标分数阈值的对象，其中，目标对话任务可以是在第一模式(练习模式)下完成的，也可以是在第二模式(测评模式，调整模式)下完成的；

(4)第四类对话对象可以为能够合成与目标对话任务的对话信息对应的音频数据的对象，例如，AI机器。

可选地，在第一客户端上显示的多个按钮中，对应于各类对话对象的按钮可以有一个或多个。与第一类对话对象对应的按钮可以包括第一按钮。

在第一客户端上启动的目标对话任务被设置为由至少两个对象共同执行，上述至少两个对象至少包括：与目标帐号对应的目标对象，一个属于上述各类对话对象之一的其他对象。为了能够至少通过与目标对象进行现场对话来执行目标对话，上述其他对象包括一个属于第一类对话对象。

上述多个按钮中与第一类对话对象对应的按钮可以有一个或多个。在与第一类对话对象对应的按钮(第一类按钮)的数量为一个的情况下，可以在客户端上不区别各个第一类对话对象(例如，在第一按钮上显示“现场对话”)；在与第一类对象对应的按钮(第一类按钮)的数量为多个的情况下，可以在客户端上不同的第一类按钮上显示不同的信息，以区分各个第一类对话对象(例如，“爸爸”、“妈妈”、“老师”、“同学”等，而“同学”又可以按照姓名区分为不同的同学)。

在检测到对第一客户端上显示的(第一类按钮中的)第一按钮执行了第一操作(选择操作，如，点击选取、滑动选取、语音选取等)的情况下，在第一客户端上启动目标对话任务，第一按钮对应的第一对象可以属于第一类对话对象，该第一类对话对象是可以与目标对象进行现场对话的对象。

例如，如图5所示，在客户端上提供了两个待执行对话任务“如何问路”和“打招呼”。用户可以选择或者由客户端自动选择进入的对话。对于选择的对话，可以通过点击“跟读练习”进入练习模式，也可以点击“开始挑战”进入挑战模式(评测模式)。用户点击“开始挑战”进入挑战模式，即可以选择角色进行对话，角色种类有：AI机器(第四类对话对象)、爸爸、妈妈(第一类对话对象)、同学或网友(第三类对话对象，可以是在跟读模式或挑战模式下，当前对话分数大于85分的符合条件的同学)。在选择角色“爸爸”或者“妈妈”之后，点击“进入对话”，即选择跟身边人配合完成对话。

在启动目标对话任务之后，可以在第一客户端显示各对话方的信息，并通过第一客户端分别对目标对象和第一对象语音输入进行录制。

在步骤S204中，在第一客户端上显示目标对话任务中的第一对话信息，并在第一客户端上对第一对象语音输入的第二对话信息进行录制，得到第一音频数据。

目标对话任务可以有至少两个对话方，每个对话方分别与至少两个对象对应。在目标对话任务的一次执行开始时，可以在第一客户端上显示至少两个对象与至少两个对话方的对应关系。第一客户端至少用于与目标对象对应的对话方的语音输入，和与第一对象对应的对话方的语音输入。对于目标对象的语音输入，录制得到的音频数据可以作为与目标对象执行目标对话任务对应的音频数据的全部或者部分。

可选地，可以执行至少两遍目标对话任务，更换与目标对象对应的对话方，从而可以获取到目标对象针对目标对话任务的全部对话信息的语音输入，得到与目标对象执行目标对话任务对应的全部音频数据。

在启动目标对话任务之后，可以在第一客户端上逐句显示目标对话任务的对话信息，并在客户端上提示当前对话信息的对话方。

在第一客户端上显示目标对话任务中的第一对话信息可以是当前与第一对象对应的对话方的对话信息。在显示第一对话信息的同时，可以在第一客户端上对第一对象语音输入的第二对话信息进行录制，得到第一音频数据。

启动第二对话信息的录制可以是在显示第一对话信息之后自动执行的，也可以是在检测到对第一客户端执行的第一特定操作(例如，点击第一特定按钮、点击客户端上的第一特定区域等)之后执行的；结束第二对话信息的录制可以是在预定时间内未检测到对话信息的输入之后自动执行的，也可以是在检测到对第一客户端执行的第二特定操作(例如，点击第二特定按钮、点击第一客户端上的第二特定区域等)之后执行的。

在第一对象的待执行任务包括目标对话任务的情况下，可以将第一音频数据作为第一对象执行目标对话任务的音频数据。与第一对象执行目标对话任务对应的音频数据包括第一音频数据。

通过多个对象使用一个客户端同时执行目标对话任务，可以节省多个对象执行目标对话任务所需的资源(例如，时间、设备等)，提高目标对话任务的执行效率。

在步骤S206中，在第一客户端上显示目标对话任务中的第三对话信息，并在第一客户端上对目标对象语音输入的第四对话信息进行录制，得到第二音频数据，其中，与目标对象执行目标对话任务对应的音频数据包括第二音频数据。

在第一客户端上显示目标对话任务中的第三对话信息可以是当前与目标对象对应的对话方的对话信息。在显示第三对话信息的同时，可以在第一客户端上对目标对象语音输入的第四对话信息进行录制，得到第二音频数据。

启动第四对话信息的录制可以是在显示第三对话信息之后自动执行的，也可以是在检测到对第一客户端执行的第一特定操作(例如，点击第一特定按钮、点击客户端上的特定区域等)之后执行的；结束第四对话信息的录制可以是在预定时间内未检测到对话信息输入之后自动执行的，也可以是在检测到对第一客户端执行的第二特定操作(例如，点击第二特定按钮、点击第一客户端上的第二特定区域等)之后执行的。

需要说明的是，由于对象语音输入内容的不确定性，第一对话信息和第二对话信息可以相同，也可以不同，第三对话信息和第四对话信息可以相同，也可以不同。

可选地，在第一客户端上对目标对象语音输入的第四对话信息进行录制，得到第二音频数据可以包括：通过第一客户端调用运行第一客户端的目标终端上的录音部件对目标对象语音输入的第四对话信息进行录制；检测到对第一客户端执行的目标操作，其中，该目标操作用于指示第四对话信息已录制完成；响应目标操作，结束对第四对话信息的录制，得到第二音频数据。

可以调用运行第一客户端的目标终端上的录音部件(麦克风)对目标对象语音输入的第四对话信息进行录制，并在检测到对第一客户端执行的、用于指示第四对话信息已录制完成的目标操作(例如，点击特定按钮或区域、执行目标滑动操作等)之后，结束对第四对话信息的录制，得到第二音频数据。

可选地，在本实施例中，在第一客户端上对目标对象语音输入的第四对话信息进行录制，得到第二音频数据可以包括：在第一客户端上对目标对象语音输入的第四对话信息进行录制，得到候选音频数据；提取出候选音频数据的音频特征；在提取出的音频特征与用于标识目标对象的目标音频特征不匹配的情况下，通过第一客户端发出提示信息，其中，提示信息用于提示重新对第三对话信息进行录制；或者，在提取出的音频特征与用于标识目标对象的目标音频特征匹配的情况下，将候选音频数据确定为第二音频数据。

由于可能混淆目标对象所对应的对话方(例如，用户看错对话方)，导致在第一客户端上对语音输入的第四对话信息进行录制，实际上录制的并不是目标对象的语音输入的情况。第一客户端可以对录制得到的候选音频数据进行分析，确定该候选音频数据是否由目标对象输入，从而提高语音录制的准确性。

例如，可以预存目标对象的音频特征(目标音频特征，音频特征可以用于表征不同的对象的音频特征)，并对录制的候选音频数据进行分析，提取出该候选音频数据的音频特征，将提取出的音频特征与目标音频特征进行比较。在两者匹配的情况下，确定候选音频数据为第二音频数据。在两者不匹配的情况下，可以通过第一客户端发出提示信息(语音提示或文字提示)，来提示需要目标对象重新录制第三对话信息。

又例如，可以对录制的候选音频数据进行分析，提取出该候选音频数据的音频特征(用于表征不同年龄段或者性别的音频特征)，确定候选音频数据所对应的年龄段或者性别，并与目标对象的属性信息进行比较。在两者匹配的情况下，确定候选音频数据为第二音频数据。在两者不匹配的情况下，可以通过第一客户端发出提示信息(语音提示或文字提示)，来提示需要目标对象重新录制第三对话信息。

可选地，也可以是在第一客户端上显示对应于第一对象和目标对象的不同的按钮，在进行不同对象语音输入的对话信息的录制时，可以点击不同的按钮，以区分当前语音输入的对象。并在第一客户端上显示的最新的对话信息所属的对话方与当前被点击的按钮所对应的对话方不同时，在第一客户端上显示提示信息，以提示更换当前进行语音输入的对象。

需要说明的是，步骤S204和步骤S206的执行顺序是可以互换的，即可以先执行步骤S206，然后再执行S204。步骤S204和步骤S206可以是交替执行的，即，以轮询的方式执行步骤S204和步骤S206。

例如，当图5中选择的角色包括爸爸或妈妈(第一对象)时，需要至少两人实时配合完成对话，每个角色都需要进行录音。如图6所示(图6中示出的对话任务是由两个对象完成的：用户以及爸爸或妈妈，多个对象与此是类似的)，首先可以由被选择的角色爸爸或者妈妈开始朗读第一对话信息，读完后点击结束，然后该用户(目标对象)开始朗读第二对话信息，完成一遍后交换角色，用户先朗读(第一对话信息)，爸爸或妈妈再进行朗读(第二对话信息)，最后进入完成页给出结果。

在进入目标对话任务之后，可以在客户端的界面上显示执行目标对话任务需要的对话方的个数。并提示选择共同执行目标对话任务的对象。

用户(目标对象)或者其他人帮助用户选择的共同执行目标对话任务的对象可以包括第一对象(共同执行目标对象任务的至少两个对象可以包括目标对象和第一对象)。

除了第一对象和目标对象之外，共同执行目标对象任务的至少两个对象还可以包括其他对象，上述其他对象属于上述第一类对话对象、第二类对话对象、第三类对话对象和第四类对话对象中至少一种。

作为一种可选的实施方式，上述其他对象可以属于上述第一类对话对象。可选地，在启动目标对话任务之前，在第一客户端上检测到对第一客户端上显示的第一按钮执行的第一操作和第四按钮执行的第四操作，其中，至少两个对象还包括：与第四按钮对应的第四对象；在启动目标对话任务之后，在第一客户端上显示目标对话任务中的第七对话信息，并在第一客户端上对第四对象语音输入的第八对话信息进行录制，得到第四音频数据。

第四按钮的选择方式与第一按钮的选择方式是类似的，第七对话信息的显示方式与第一对话信息和第三对话信息的显示方式是类似的，第八对话信息的录制方式与第二对话信息和第四对话信息的录制方式是类似的。在此不做赘述。

例如，如图7所示，目标对话任务为“如何问路”，该对话任务有三个对话方，可以选择两个对象作为其他两个对话方，用户选择了“爸爸”和“妈妈”，并点击“进入对话”启动目标对话任务。在跳转的界面上显示选择的对象与对话方的对应关系，并分别显示各对话方的对话信息并分别进行语音输入的录制。在一遍对话录制完成之后，更换对象与对话方的对应关系，重新进行录制。直到目标对象将所有对话方的对话信息均录制一遍，则目标对话任务执行完毕。

作为另一种可选的实施方式，上述其他对象可以属于上述第二类对话对象。可选地，在启动目标对话任务之前，可以在第一客户端上检测到对第一客户端上显示的第一按钮执行的第一操作和第五按钮执行的第五操作，其中，至少两个对象还包括：与第五按钮对应的第五对象；在启动目标对话任务之后，在第一客户端上显示目标对话任务中的第九对话信息，并接收由第二客户端对第五对象的语音输入进行录制的、用于表示第九对话信息的第五音频数据；在第一客户端上播放第五音频数据。

第五按钮的选择方式与第一按钮的选择方式是类似的，第九对话信息的显示方式与第一对话信息和第三对话信息的显示方式是类似的，第五音频数据的录制方式与第一音频数据和第二音频数据的录制方式是类似的。在此不做赘述。

与上述使用同一客户端执行目标对话任务的方式的区别在于：目标对话任务的执行是通过两个客户端之间的交互完成的。在第一客户端上检测到对第一客户端上显示的第一按钮执行的第一操作和第五按钮执行的第五操作之后，可以通过网络建立第一客户端和使用第五对象的帐号登录的第二客户端之间的连接。负责目标对话任务执行的服务器(目标服务器)可以向使用第五对象的帐号登录的第二客户端发送通知消息，以通知第五对象被设置为与目标对象(或者，目标对象和第一对象)共同执行目标对话任务。

在进行目标对话任务的过程中，在第一客户端上显示的目标对话任务中的第一对话信息和第二对话信息可以同步显示在第二客户端的界面上，得到第一音频数据和第二音频数据之后，可以将得到第一音频数据和第二音频数据(例如，通过网络经由目标服务器)发送给第二客户端进行播放。

在第一客户端上显示的目标对话任务中的第九对话信息同样也显示在第二客户端上，并在第二客户端上提示第五对象(第五对象对应的用户)根据第九对话信息进行语音输入，对第五对象输入的对话信息(第十对话信息)进行录制，得到第五音频数据，并将得到的第五音频数据通过网络发送给(例如，通过网络经由目标服务器)发送给第一客户端进行播放。在接收到第五音频数据之后，可以在第一客户端上播放第五音频数据。

可选地，在本实施例中，为了确定出第二类对话对象，以便在第一客户端上显示出与第二类对话对象对应的按钮，以供用户选择，可以在第一客户端上检测到对第一客户端上显示的第一按钮执行的第一操作和第五按钮执行的是第五操作之前，向第二服务器发送第二请求消息，其中，第二请求消息用于请求获取用于表示第二类对象的第二目标信息，第二类对象为当前在线的对象，第二类对象包括第五对象；接收第二服务器返回的第二响应消息，其中，第二响应消息中携带有第二目标信息；在第一客户端上显示多个按钮，其中，多个按钮包括第一按钮以及对应于第二类对象的按钮。

第二服务器中维护有允许被设置为共同执行对话任务的在线对象的第一对象列表。在检测对第二模式的入口执行的选择操作之后，第一客户端可以向第二服务发送该第二请求消息，已请求当前在线的对象(第二类对象)。

第二服务器在接收到第二请求消息之后，可以直接将第二目标信息发送给第一客户端，或者，向上述第一对象列表中的各对象发送请求消息(第三请求消息)，并接收各对象返回的响应消息(第三响应消息，携带有是否同意的指示)，以确定各对象是否同意与目标对象(目标对象和第一对象)公共执行目标对话任务。第二服务器将对话列表中回复同意的对象的信息返回给第一客户端。

在接收到第二目标信息之后，可以在第一客户端上显示多个按钮，其中，多个按钮包括第一按钮以及对应于第二类对象的按钮。对应于第二类对象的按钮包括第五按钮。

例如，如图8所示，目标对话任务为“如何问路”，该对话任务有三个对话方，可以选择两个对象作为其他两个对话方，用户选择了“爸爸”和在线同学“张三”，并点击“进入对话”启动目标对话任务。在跳转的界面上显示选择的对象与对话方的对应关系，并分别显示各对话方的对话信息并分别用户和“爸爸”的语音输入进行录制，并在显示对话方3的对话信息时播放张三通过另一个客户端录制的音频数据。在一遍对话录制完成之后，更换对象与对话方的对应关系，重新进行录制。直到目标对象将所有对话方的对话信息均录制一遍，则目标对话任务执行完毕。

作为又一种可选的实施方式，上述其他对象可以属于上述第三类对话对象。可选地，在启动目标对话任务之前，在第一客户端上检测到对第一客户端上显示的第一按钮执行的第一操作和第三按钮执行的第三操作，其中，至少两个对象还包括：与第三按钮对应的第三对象；获取与第三按钮对应的第三音频数据，其中，第三音频数据为第二对象执行目标对话任务所录制的音频数据；在启动目标对话任务之后，在第一客户端上显示目标对话任务中的第六对话信息，并在第一客户端上播放第三音频数据中用于表示第六对话信息的第二音频片段。

第三按钮的选择方式与第一按钮的选择方式是类似的。第三对象执行目标对话任务录制的第三音频数据可以是在第一模式下或者第二模式下录制的，第三音频数据的方式可以是由第二对象在单人模式下录制的，也可以是在人机模式下录制的，还可以是按照本实施例中所提供的音频的录制方式进行录制的。

与仅由第一对象和目标对象使用同一客户端执行目标对话任务的方式的区别在于：目标对话任务的一个对话方已执行目标对话任务的第三对象。在检测到对与该第三对象对应的第三按钮执行的第三操作的情况下，可以首先从存储有第三音频数据的存储服务器中获取第三音频数据。该第三音频数据可以包括多个音频片段，分别对应目标对话任务的各对话信息。

在启动所述目标对话任务之后，对于与第三对象对应的对话方的对话信息(第六对话信息)，在第一客户端上显示目标对话任务中的第六对话信息，从第三音频数据中获取与第六对话信息对应的第二音频片段，并在第一客户端上播放获取的第二音频片段。

可选地，在本实施例中，为了确定出第一类对话对象，以便在第一客户端上显示出与第一类对话对象对应的按钮，以供用户选择，可以在第一客户端上检测到对第一客户端上显示的第一按钮执行的第一操作和第三按钮执行的是第三操作之前，可以向第一服务器发送第一请求消息，其中，第一请求消息用于请求获取用于表示第一类对象的第一目标信息，第一类对象为已完成目标对话任务的对象，第一类对象包括第三对象；接收第一服务器返回的第一响应消息，其中，第一响应消息中携带有第一目标信息；在第一客户端上显示多个按钮，其中，多个按钮包括第一按钮以及对应于第一类对象的按钮。

第二服务器中维护有已完成目标对话任务的对象的第二对象列表。在检测对第二模式的入口执行的选择操作之后，第一客户端可以向第一服务发送该第一请求消息，已请求已完成目标对话任务的对象(第一类对象)。

第一服务器在接收到第一请求消息之后，可以将保存的第一目标信息发送给第一客户端。

可选地，第一目标信息用于表示的第一类对象还可以是已完成目标对象任务、且完成目标对话任务的评分高于预定的分数阈值(例如，高于85分)的对象。

在接收到第一请求消息之后，第一服务器会筛选出符合条件的对象(例如，同学)提供给用户选择，用户选择后将会与该对象共同完成对话，因为此时系统已经有该对象完成目标对话任务的音频资料，因此，该对象可以与目标对象共同执行目标对话任务。

在接收到第一目标信息之后，可以在第一客户端上显示多个按钮，其中，多个按钮包括第一按钮以及对应于第一类对象的按钮。对应于第二类对象的按钮包括第三按钮。

例如，如图9所示，目标对话任务为“如何问路”，该对话任务有三个对话方，可以选择两个对象作为其他两个对话方，用户选择了“爸爸”和已录制同学“王小明”，并点击“进入对话”启动目标对话任务。在跳转的界面上显示选择的对象与对话方的对应关系，分别显示各对话方的对话信息，分别对用户和“爸爸”的语音输入进行录制，并在显示对话方3的对话信息时播放王小明已录制的音频数据。在一遍对话录制完成之后，更换对象与对话方的对应关系，重新进行录制。直到目标对象将所有对话方的对话信息均录制一遍，则目标对话任务执行完毕。

作为又一种可选的实施方式，上述其他对象可以属于上述第四类对话对象。可选地，在启动目标对话任务之前，在第一客户端上检测到对第一客户端上显示的第一按钮执行的第一操作和第二按钮执行的第二操作，其中，至少两个对象还包括：与第二按钮对应的第二对象；在启动目标对话任务之后，在第一客户端上显示目标对话任务中的第五对话信息，并在第一客户端上播放使用目标模型合成的第一音频片段，其中，目标模型用于将输入的第五对话信息合成为第一音频片段。

第二按钮的选择方式与第一按钮的选择方式是类似的，在此不做赘述。

与仅由第一对象和目标对象使用同一客户端执行目标对话任务的方式的区别在于：目标对话任务的一个对话方为AI机器(使用目标模式进行音频合成的网络设备)。在检测到对与该第二对象对应的第二按钮执行的第二操作的情况下，在启动所述目标对话任务之后，对于与第二对象对应的对话方的对话信息(第五对话信息)，在第一客户端上显示目标对话任务中的第五对话信息，并在第一客户端上播放使用目标模型将输入的第五对话信息合成为的第一音频片段。

上述合成的过程可以是在启动目标对话任务之前执行的，每个待执行对话业务的对话内容是确定的，因此，可以使用目标模型预先合成各个待执行对话业务的音频数据并保存。对于预先保存的、与各个待执行对话业务对应的音频数据的使用方式与前述第三音频数据类似的，在此不做赘述。

可选地，第一音频片段可以是在目标对话任务的执行过程中实时合成的。在检测到当前对话信息(第五对话信息)或者当前对话信息的下一个对话信息(第五对话信息)是与第二对象对应的对话信息的情况下，将第五对话信息输入到目标模型中(位于运行第一客户端的终端或者服务器)，由目标模型合成与第五对话信息对应的第一音频片段，并将合成的第一音频片段进行播放。

例如，如图10所示，目标对话任务为“如何问路”，该对话任务有三个对话方，可以选择两个对象作为其他两个对话方，用户选择了“爸爸”和AI机器，并点击“进入对话”启动目标对话任务。在跳转的界面上显示选择的对象与对话方的对应关系，分别显示各对话方的对话信息，分别对用户和“爸爸”的语音输入进行录制，并在显示对话方3的对话信息时播放AI机器合成的音频数据。在一遍对话录制完成之后，更换对象与对话方的对应关系，重新进行录制。直到目标对象将所有对话方的对话信息均录制一遍，则目标对话任务执行完毕。

可选地，在检测到有对话信息在对话过程中录音失败，可以通过第一客户端发出提示信息，提示用户需要重读。

可选地，共同执行目标对话任务的对象可以是目标对象与第二类对话对象、第三类对话对象和第四类对话对象中的其中一个。在目标对话任务执行过程中，各类对话对象执行目标对话任务的方式与前述是类似的(共同执行目标对话任务的对象可以包括前述各类对话对象中的至少一个，作为一个对话方各类对话对象执行目标对话任务的方式与前述类似)。

例如，当图5中选择的角色为“我的同学”中的其中一个(第二类对象)时，则用户选择了与符合条件的同学配合完成对话(用户选择与第三类对话对象共同执行目标对话任务)。首先后台会筛选出符合条件的同学提供给用户选择，用户选择后将会与该同学共同完成对话，因为此时系统已经有该同学的音频资料。进入对话后，首先播放同学的一句，结束后，会自动进入用户对话的时间，朗读完成后点击结束，继续开始播放该同学的下一句录音。如图11所示，第一遍的对话完成后，会提示用户交换角色，第二遍对话时用户先朗读对话，之后机器在播放录音，结束后进入结果页。如图11所示，如果有句子在对话过程中录音失败，会提示用户需要重新录制。

又例如，当图5中选择的角色为AI机器时(用户选择与第四类对话对象共同执行目标对话任务)，如图12所示，进入目标对话任务后，首先机器开始发音，机器发音时用户不需要朗读，机器对话结束后，会自动进入用户对话的时间，对话朗读后点击结束，机器继续开始下一句。第一遍的对话完成后，会提示用户交换角色，第二遍对话时用户先读，之后机器再读，结束后进入结果页。

可选地，在本实施例中，在第一客户端上对目标对象语音输入的第四对话信息进行录制，得到第二音频数据之后，可以通过第一客户端将第二音频数据发送给第三服务器，其中，第三服务器用于根据第三对话信息对第二音频数据进行评测，得到第二音频数据的评测结果；通过第一客户端显示第三服务器返回的评测结果。

在目标对象完成一次对话信息的语音输入或者完成目标对话任务的全部对话信息的语音输入之后，可以将录制的音频数据发送给第三服务器，由第三服务器根据对话信息对目标对象输入的音频数据进行评测，得到该音频数据的评测结果，并将评测结果返回给第一客户端。第三服务器可以接收到目标对话任务的全部对话信息的录音数据之后，将全部的评测结果同时发送给第一客户端，也可以在完成一次对话信息的评测之后，将该对话信息的评测结果发送给第一客户端。

在用户与其他角色共同执行目标对话任务(完成口语对话)之后，第三服务器(评测服务器)会帮用户进行智能语音评测，从完整度、流利度、准确度等多个维度评估用户发音的好坏，给出对话得分。

同时，通过对音素的颜色标注提示，使用不同的颜色标注发音正确的音素对应的字母或字母组合，漏读音素对应的字母或字母组合，以及问题发音音素对应的字母或字母组合，并将完整的评测结果发送给第一客户端。

在第一客户端上，目标对话任务执行完成之后，可以显示对目标对话任务的评测结果，给出每句话的评分结果，点击每个单词会进入词汇详解页，提供个性化讲解。

例如，如图13所示，客户端上显示有测评服务器对用户语音输入的对话的评测结果，包括了发音正确的音素、漏读音素以及问题发音音素。图14示出了点击一个单词(例如，“Head”)，进入该单词的详解页，包括发音辅导和相关词汇的推荐学习内容。

通过本发明实施例，通过在使用目标帐号登录的第一客户端上检测到对第一客户端上显示的第一按钮执行了第一操作的情况下，在第一客户端上启动目标对话任务，其中，目标对话任务被设置为由至少两个对象共同执行，至少两个对象包括：与目标帐号对应的目标对象，与第一按钮对应的第一对象；在第一客户端上显示目标对话任务中的第一对话信息，并在第一客户端上对第一对象语音输入的第二对话信息进行录制，得到第一音频数据；在第一客户端上显示目标对话任务中的第三对话信息，并在第一客户端上对目标对象语音输入的第四对话信息进行录制，得到第二音频数据，其中，与目标对象执行目标对话任务对应的音频数据包括第二音频数据，解决了相关技术中的音频录制方法由于录制方式单一造成的用户体验差的技术问题，丰富了音频录制方式，提高了用户体验。

作为一种可选的技术方案，在启动所述目标对话任务之前，上述方法还包括：

S1，在第一客户端上检测到对第一客户端上显示的第一按钮执行的第一操作和第二按钮执行的第二操作，其中，至少两个对象还包括：与第二按钮对应的第二对象；

在启动目标对话任务之后，上述方法还包括：

S2，在第一客户端上显示目标对话任务中的第五对话信息，并在第一客户端上播放使用目标模型合成的第一音频片段，其中，目标模型用于将输入的第五对话信息合成为第一音频片段。

通过本发明实施例，通过目标对象、第一对象和第二对象(对应于目标模型)公共执行目标对话任务，实现了混合机器和线下对象的对话模式，提高了目标对话任务执行的灵活性和执行方式的多样性。

S1，在第一客户端上检测到对第一客户端上显示的第一按钮执行的第一操作和第三按钮执行的第三操作，其中，至少两个对象还包括：与第三按钮对应的第三对象；

S2，获取与第三按钮对应的第三音频数据，其中，第三音频数据为第三对象执行目标对话任务所录制的音频数据；

在启动目标对话任务之后，上述方法还包括：

S3，在第一客户端上显示目标对话任务中的第六对话信息，并在第一客户端上播放第三音频数据中用于表示第六对话信息的第二音频片段。

通过本发明实施例，通过目标对象、第一对象和第三对象(已执行目标对话任务并录制了音频数据的对象)共同执行目标对话任务，实现了混合线上和线下对象的对话模式，提高了目标对话任务执行的灵活性和执行方式的多样性。

可选地，在第一客户端上检测到对第一客户端上显示的第一按钮执行的第一操作和第三按钮执行的第三操作之前，上述方法还包括：

S1，向第一服务器发送第一请求消息，其中，第一请求消息用于请求获取用于表示第一类对象的第一目标信息，第一类对象为已完成目标对话任务的对象，第一类对象包括第三对象；

S2，接收第一服务器返回的第一响应消息，其中，第一响应消息中携带有第一目标信息；

S3，在第一客户端上显示多个按钮，其中，多个按钮包括第一按钮以及对应于第一类对象的按钮。

通过本发明实施例，通过向第一服务器请求用于表示已完成目标对话任务的一个或多个对象的第一目标信息，可以便于在第一客户端上显示第三对象的信息，提高了第三对象选择的便捷性。

S1，在第一客户端上检测到对第一客户端上显示的第一按钮执行的第一操作和第四按钮执行的第四操作，其中，至少两个对象还包括：与第四按钮对应的第四对象；

在启动目标对话任务之后，上述方法还包括：

S2，在第一客户端上显示目标对话任务中的第七对话信息，并在第一客户端上对第四对象语音输入的第八对话信息进行录制，得到第四音频数据。

通过本发明实施例，通过目标对象、第一对象和第四对象(可现场与目标对象对话完成目标对话任务的对象)共同执行目标对话任务，实现了多个线下对象的对话模式，提高了目标对话任务执行的灵活性和执行方式的多样性。

S1，在第一客户端上检测到对第一客户端上显示的第一按钮执行的第一操作和第五按钮执行的第五操作，其中，至少两个对象还包括：与第五按钮对应的第五对象；

在启动目标对话任务之后，上述方法还包括：

S2，在第一客户端上显示目标对话任务中的第九对话信息，并接收由第二客户端对第五对象的语音输入进行录制的、用于表示第九对话信息的第五音频数据；在第一客户端上播放第五音频数据。

通过本发明实施例，通过目标对象、第一对象和第五对象(在线与目标对象共同完成目标对话任务的对象)共同执行目标对话任务，实现了混合线上和线下对象的对话模式，提高了目标对话任务执行的灵活性和执行方式的多样性。

可选地，在第一客户端上检测到对第一客户端上显示的第一按钮执行的第一操作和第五按钮执行的是第五操作之前，上述方法还包括：

S1，向第二服务器发送第二请求消息，其中，第二请求消息用于请求获取用于表示第二类对象的第二目标信息，第二类对象为当前在线的对象，第二类对象包括第五对象；

S2，接收第二服务器返回的第二响应消息，其中，第二响应消息中携带有第二目标信息；

S3，在第一客户端上显示多个按钮，其中，多个按钮包括第一按钮以及对应于第二类对象的按钮。

通过本发明实施例，通过向第二服务器请求用于表示当前在线的一个或多个对象的第二目标信息，可以便于在第一客户端上显示第五对象的信息，提高了第五对象选择的便捷性。

作为一种可选的技术方案，在第一客户端上对目标对象语音输入的第四对话信息进行录制，得到第二音频数据包括：

S1，在第一客户端上对目标对象语音输入的第四对话信息进行录制，得到候选音频数据；

S2，提取出候选音频数据的音频特征；

S3，在提取出的音频特征与用于标识目标对象的目标音频特征不匹配的情况下，通过第一客户端发出提示信息，其中，提示信息用于提示重新对第三对话信息进行录制；或者，

S4，在提取出的音频特征与用于标识目标对象的目标音频特征匹配的情况下，将候选音频数据确定为第二音频数据。

通过本发明实施例，通过将候选音频数据的音频特征与目标对象的目标音频特征进行匹配，避免了录制出错误的音频数据，提高了音频数据录制的准确性。

作为一种可选的技术方案，在第一客户端上对目标对象语音输入的第四对话信息进行录制，得到第二音频数据之后，上述方法还包括：

S1，通过第一客户端将第二音频数据发送给第三服务器，其中，第三服务器用于根据第三对话信息对第二音频数据进行评测，得到第二音频数据的评测结果；

S2，通过第一客户端显示第三服务器返回的评测结果。

通过本发明实施例，通过根据第三对话信息对第二音频数据进行评测，可以确定出目标对象执行目标对话任务的能力，便于为目标对象提供个性化的服务。

下面结合具体示例对本发明实施例中的音频的录制方法进行说明。

相关技术中的音频录制方法存在的以下问题：

(1)口语对话模式单一：现有方案只支持单人逐句朗读或是人机对话，场景单一，无法和他人互动配合；

(2)用户体验差：跟机器配合对话，没有真实环境的模拟，枯燥乏味；

(3)脱离真实对话场景：真实的口语对话场景一般会跟身边的爸爸妈妈或者其他网友、同学共同完成一段对话，现有方案无法满足这个需求。

在本示例中提出了一种多角色多模型的智能口语对话模型，可以根据用户的选择需求匹配不同角色与其完成口语对话任务，用于解决用户在完成情景对话任务时，在不同场景下与不同角色产生英文对话的需求。

上述场景可以包括但不限于以下三种：

(1)跟机器配合完成对话任务；

(2)跟其他已存在录音内容的网友用户合作完成对话任务；

(3)跟身边的人实时配合，多人现场完成对话任务。

在本示例中，用户可以根据需要选择期望对话的对象，该对象可以是其他网友、同校或同班同学、爸爸或妈妈，一人一句多人配合进行口语对话，共同完成对话任务。

本示例中所提供的音频的录制方法，在接收到用户指令后(即，用户选择想要合作对话的角色后)，客户端从CDN拉取符合条件的所有音频资源，采用不同模型开始智能匹配，如果是实时与身边人配合跟读，客户端会开始采集用户的录音信息，根据对话中的句子显示次序，顺次播放对应音频或以次录制用户发音，并向评测服务器发送用户语音音频，进行语音评测，加权量化后给出学生对话得分，返回给客户端，客户端根据评测结果，给出个性化的改进建议。

本示例中所提供的音频的录制方法可以提供以下功能：

(1)丰富的对话角色：用户可以选择全国符合条件的网友或是同校、同班同学，进行口语对话练习，也可以在家中跟身边的爸爸妈妈或其他人实时配合完成对话任务；同时用户也可以单人逐句朗读(进入跟读练习模式中)，或进行人机对话。

(2)提供可筛选的网友音频：在选择与全国其他网友或同学进行对话练习时，可以收听这些角色的录音音频，筛选合适的高质量音频进行对话练习；

(3)提供评分结果和个性化的改进建议：跟读结束后，每句话会从准确度、流利度、完整度等多方面进行智能语音评测，并给出针对性改正意见，点击每个单词可以进入单词的详情辅导页面。

如图15所示，本示例中所提供的音频的录制方法可以包括以下步骤：

S1～S2，学生进入作业详情页，客户端向后台请求当前班级作业完成状态。

S3，返回筛选出的优秀学生的音频url。

后台查询当前已经完成作业的学生的音频数据，筛选出优秀学生的音频数据(已进行筛选，筛选的条件为：分数85分以上)，并将查询到的音频数据的url返回给客户端。

S4，客户端显示可选择的角色。

客户端根据完成作业的学生显示可供选择的对话角色。

默认选择角色为机器发音(AI机器)，也可根据需要选择其他对话角色，包括爸爸、妈妈和已经完成该对话的其他同学，用户选择后，点击进入对话。对于机器发音，可以提供多个机器发音供选择，如女生音色、男生音色、成人男音色和成人女音色等。

S5～S7，学生选择一个角色，客户端从CDN(Content Delivery Network，内容分发网络的服务器)拉取该角色的所有音频资源。

S8，客户端根据对话中句子显示次序，顺次播放对应音频。

S9～S10，客户端录制学生发音并向评测服务器发送学生跟读音频。

S11～S12，评测服务器利用事先训练出来的评测模型，从完整度，流利度，准确度等多个维度评估学生发音的好坏，加权量化后给出学生跟读得分，返回给客户端。

S13，客户端根据评测结果，给出个性化的改进建议。

S14，客户端将评测结果和音频存储到服务器。

可以重复执行步骤S9至S14，直到对话中所有句子评测结束。

其中，多角色口语对话是指：人与机器、人与身边其他用户、或其他网友等多个角色进行智能口语对话互动，对话中有角色分工，用户跟他人(一个人或多人)配合完成对话；

多模型口语对话是指：当用户选择不同角色进行智能口语对话互动时，所对应的语音评测模型会根据角色不同而替换为相对应的模型。

口语对话任务是指：一段对话以一问一答的句子展现，比如问路的场景下总共有10句话，以一问一答的形式呈现，用户需要完成该10句话的语音对话，即完成任务。

通过本示例的上述技术方案，用户可以根据需要选择不同角色完成对话练习，且角色可以拓展为一个或多个人同时进行，满足用户在真实场景中练习口语对话的需求。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的又一方面，还提供了一种用于实施上述音频的录制方法的音频的录制装置。如图16所示，该装置包括：

(1)第一启动单元1602，用于在使用目标帐号登录的第一客户端上检测到对第一客户端上显示的第一按钮执行了第一操作的情况下，在第一客户端上启动目标对话任务，其中，目标对话任务被设置为由至少两个对象共同执行，至少两个对象包括：与目标帐号对应的目标对象，与第一按钮对应的第一对象；

(2)第一录制单元1604，用于在第一客户端上显示目标对话任务中的第一对话信息，并在第一客户端上对第一对象语音输入的第二对话信息进行录制，得到第一音频数据；

(3)第二录制单元1606，用于在第一客户端上显示目标对话任务中的第三对话信息，并在第一客户端上对目标对象语音输入的第四对话信息进行录制，得到第二音频数据，其中，与目标对象执行目标对话任务对应的音频数据包括第二音频数据。

可选地，在本实施例中，上述音频的录制装置可以但不限于：对话任务的执行过程中，其中，上述对话任务使用的是目标语言，可以使用上述音频的录制方法获取到目标对象对目标对话任务的完成情况。上述仅是一种示例，本实施例中对此不做任何限定。

可选地，在本实施例中，第一启动单元1602可以用于执行上述步骤S202，第一录制单元1604可以用于执行上述步骤S204，第二录制单元1606可以用于执行上述步骤S206。

在本实施例中，通过在使用目标帐号登录的第一客户端上检测到对第一客户端上显示的第一按钮执行了第一操作的情况下，在第一客户端上启动目标对话任务，其中，目标对话任务被设置为由至少两个对象共同执行，至少两个对象包括：与目标帐号对应的目标对象，与第一按钮对应的第一对象；在第一客户端上显示目标对话任务中的第一对话信息，并在第一客户端上对第一对象语音输入的第二对话信息进行录制，得到第一音频数据；在第一客户端上显示目标对话任务中的第三对话信息，并在第一客户端上对目标对象语音输入的第四对话信息进行录制，得到第二音频数据，其中，与目标对象执行目标对话任务对应的音频数据包括第二音频数据，解决了相关技术中的音频录制方法由于录制方式单一造成的用户体验差的技术问题。丰富了音频录制方式，提高了用户体验。

作为一种可选的技术方案，上述装置还包括：

(1)第一检测单元，用于在启动所述目标对话任务之前，在第一客户端上检测到对第一客户端上显示的第一按钮执行的第一操作和第二按钮执行的第二操作，其中，至少两个对象还包括：与第二按钮对应的第二对象；

(2)第一播放单元，用于在启动目标对话任务之后，在第一客户端上显示目标对话任务中的第五对话信息，并在第一客户端上播放使用目标模型合成的第一音频片段，其中，目标模型用于将输入的第五对话信息合成为第一音频片段。

作为一种可选的技术方案，上述装置还包括：

(1)第二检测单元，用于在启动所述目标对话任务之前，在第一客户端上检测到对第一客户端上显示的第一按钮执行的第一操作和第三按钮执行的第三操作，其中，至少两个对象还包括：与第三按钮对应的第三对象；

(2)获取单元，用于获取与第三按钮对应的第三音频数据，其中，第三音频数据为第三对象执行目标对话任务所录制的音频数据；

(3)第二播放单元，用于在启动目标对话任务之后，在第一客户端上显示目标对话任务中的第六对话信息，并在第一客户端上播放第三音频数据中用于表示第六对话信息的第二音频片段。

可选地，上述装置还包括：

(1)第一发送单元，用于在第一客户端上检测到对第一客户端上显示的第一按钮执行的第一操作和第三按钮执行的第三操作之前，向第一服务器发送第一请求消息，其中，第一请求消息用于请求获取用于表示第一类对象的第一目标信息，第一类对象为已完成目标对话任务的对象，第一类对象包括第三对象；

(2)第一接收单元，用于接收第一服务器返回的第一响应消息，其中，第一响应消息中携带有第一目标信息；

(3)第一显示单元，用于在第一客户端上显示多个按钮，其中，多个按钮包括第一按钮以及对应于第一类对象的按钮。

作为一种可选的技术方案，上述装置还包括：

(1)第三检测单元，用于在启动所述目标对话任务之前，在第一客户端上检测到对第一客户端上显示的第一按钮执行的第一操作和第四按钮执行的第四操作，其中，至少两个对象还包括：与第四按钮对应的第四对象；

(2)第三录制单元，用于在启动目标对话任务之后，在第一客户端上显示目标对话任务中的第七对话信息，并在第一客户端上对第四对象语音输入的第八对话信息进行录制，得到第四音频数据。

作为一种可选的技术方案，上述装置还包括：

(1)第四检测单元，用于在启动所述目标对话任务之前，在第一客户端上检测到对第一客户端上显示的第一按钮执行的第一操作和第五按钮执行的第五操作，其中，至少两个对象还包括：与第五按钮对应的第五对象；

(2)第二接收单元，用于在启动目标对话任务之后，在第一客户端上显示目标对话任务中的第九对话信息，并接收由第二客户端对第五对象的语音输入进行录制的、用于表示第九对话信息的第五音频数据；

(3)第三播放单元，用于在第一客户端上播放第五音频数据。

可选地，上述装置还包括：

(1)第二发送单元，用于在第一客户端上检测到对第一客户端上显示的第一按钮执行的第一操作和第五按钮执行的是第五操作之前，向第二服务器发送第二请求消息，其中，第二请求消息用于请求获取用于表示第二类对象的第二目标信息，第二类对象为当前在线的对象，第二类对象包括第五对象；

(2)第三接收单元，用于接收第二服务器返回的第二响应消息，其中，第二响应消息中携带有第二目标信息；

(3)第二显示单元，用于在第一客户端上显示多个按钮，其中，多个按钮包括第一按钮以及对应于第二类对象的按钮。

作为一种可选的技术方案，第二录制单元1606包括：

(1)录制模块，用于在第一客户端上对目标对象语音输入的第四对话信息进行录制，得到候选音频数据；

(2)提取模块，用于提取出候选音频数据的音频特征；

(3)提示模块，用于在提取出的音频特征与用于标识目标对象的目标音频特征不匹配的情况下，通过第一客户端发出提示信息，其中，提示信息用于提示重新对第三对话信息进行录制；或者，

(4)确定模块，用于在提取出的音频特征与用于标识目标对象的目标音频特征匹配的情况下，将候选音频数据确定为第二音频数据。

作为一种可选的技术方案，上述装置还包括：

(1)发送单元，用于在第一客户端上对目标对象语音输入的第四对话信息进行录制，得到第二音频数据之后，通过第一客户端将第二音频数据发送给第三服务器，其中，第三服务器用于根据第三对话信息对第二音频数据进行评测，得到第二音频数据的评测结果；

(2)显示单元，用于通过第一客户端显示第三服务器返回的评测结果。

根据本发明实施例，还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以位于网络中的网络设备。上述网络设备可以是服务器或者终端。上述存储介质被设置为存储有用于执行上述音频的录制方法的程序代码。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：

S1，在使用目标帐号登录的第一客户端上检测到对第一客户端上显示的第一按钮执行了第一操作的情况下，在第一客户端上启动目标对话任务，其中，目标对话任务被设置为由至少两个对象共同执行，至少两个对象包括：与目标帐号对应的目标对象，与第一按钮对应的第一对象；

S2，在第一客户端上显示目标对话任务中的第一对话信息，并在第一客户端上对第一对象语音输入的第二对话信息进行录制，得到第一音频数据；

S3，在第一客户端上显示目标对话任务中的第三对话信息，并在第一客户端上对目标对象语音输入的第四对话信息进行录制，得到第二音频数据，其中，与目标对象执行目标对话任务对应的音频数据包括第二音频数据。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

根据本发明实施例，还提供了一种用于实施上述音频的录制方法的电子装置，可选地，在本实施例中，上述电子装置可以位于网络中的网络设备。如图17所示，该电子装置包括：一个或多个(图中仅示出一个)处理器1702、存储器1704、以及传输装置1706。该存储器中存储有计算机程序，该处理器被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

本领域普通技术人员可以理解，图17所示的结构仅为示意，电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及MID(Mobile InternetDevices，移动互联网设备)、PAD等终端设备。图17其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图17中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图17所示不同的配置。

其中，存储器1704可用于存储软件程序以及模块，如本发明实施例中的音频的录制方法对应的程序指令/模块，处理器1702通过运行存储在存储器1704内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的音频的录制方法。存储器1704可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1704可进一步包括相对于处理器1702远程设置的存储器，这些远程存储器可以通过网络连接至处理器1702。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

上述的传输装置1706用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置1706包括一个NIC(NetworkInterface Controller，网络适配器)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1706为RF(Radio Frequency，射频)模块，其用于通过无线方式与互联网进行通讯。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种音频的录制方法，其特征在于，包括：

在使用目标帐号登录的第一客户端上检测到对所述第一客户端上显示的第一按钮执行了第一操作的情况下，在所述第一客户端上启动目标对话任务，其中，所述目标对话任务被设置为由至少两个对象共同执行，所述至少两个对象包括：与所述目标帐号对应的目标对象，与所述第一按钮对应的第一对象；

在所述第一客户端上显示所述目标对话任务中的第一对话信息，并在所述第一客户端上对所述第一对象语音输入的第二对话信息进行录制，得到第一音频数据；

在所述第一客户端上显示所述目标对话任务中的第三对话信息，并在所述第一客户端上对所述目标对象语音输入的第四对话信息进行录制，得到第二音频数据，其中，与所述目标对象执行所述目标对话任务对应的音频数据包括所述第二音频数据；

其中，与所述第一按钮对应的第一对象包括多个种类对话对象。

2.根据权利要求1所述的方法，其特征在于，

在启动所述目标对话任务之前，所述方法还包括：在所述第一客户端上检测到对所述第一客户端上显示的所述第一按钮执行的所述第一操作和第二按钮执行的第二操作，其中，所述至少两个对象还包括：与所述第二按钮对应的第二对象；

在启动所述目标对话任务之后，所述方法还包括：在所述第一客户端上显示所述目标对话任务中的第五对话信息，并在所述第一客户端上播放使用目标模型合成的第一音频片段，其中，所述目标模型用于将输入的所述第五对话信息合成为所述第一音频片段。

3.根据权利要求1所述的方法，其特征在于，

在启动所述目标对话任务之前，所述方法还包括：在所述第一客户端上检测到对所述第一客户端上显示的所述第一按钮执行的所述第一操作和第三按钮执行的第三操作，其中，所述至少两个对象还包括：与所述第三按钮对应的第三对象；获取与所述第三按钮对应的第三音频数据，其中，所述第三音频数据为所述第三对象执行所述目标对话任务所录制的音频数据；

在启动所述目标对话任务之后，所述方法还包括：在所述第一客户端上显示所述目标对话任务中的第六对话信息，并在所述第一客户端上播放所述第三音频数据中用于表示所述第六对话信息的第二音频片段。

4.根据权利要求3所述的方法，其特征在于，在所述第一客户端上检测到对所述第一客户端上显示的所述第一按钮执行的所述第一操作和所述第三按钮执行的所述第三操作之前，所述方法还包括：

向第一服务器发送第一请求消息，其中，所述第一请求消息用于请求获取用于表示第一类对象的第一目标信息，所述第一类对象为已完成所述目标对话任务的对象，所述第一类对象包括所述第三对象；

接收所述第一服务器返回的第一响应消息，其中，所述第一响应消息中携带有所述第一目标信息；

在所述第一客户端上显示多个按钮，其中，所述多个按钮包括所述第一按钮以及对应于所述第一类对象的按钮。

5.根据权利要求1所述的方法，其特征在于，

在启动所述目标对话任务之前，所述方法还包括：在所述第一客户端上检测到对所述第一客户端上显示的所述第一按钮执行的所述第一操作和第四按钮执行的第四操作，其中，所述至少两个对象还包括：与所述第四按钮对应的第四对象；

在启动所述目标对话任务之后，所述方法还包括：在所述第一客户端上显示所述目标对话任务中的第七对话信息，并在所述第一客户端上对所述第四对象语音输入的第八对话信息进行录制，得到第四音频数据。

6.根据权利要求1所述的方法，其特征在于，

在启动所述目标对话任务之前，所述方法还包括：在所述第一客户端上检测到对所述第一客户端上显示的所述第一按钮执行的所述第一操作和第五按钮执行的第五操作，其中，所述至少两个对象还包括：与所述第五按钮对应的第五对象；

在启动所述目标对话任务之后，所述方法还包括：在所述第一客户端上显示所述目标对话任务中的第九对话信息，并接收由第二客户端对所述第五对象的语音输入进行录制的、用于表示所述第九对话信息的第五音频数据；在所述第一客户端上播放所述第五音频数据。

7.根据权利要求6所述的方法，其特征在于，在所述第一客户端上检测到对所述第一客户端上显示的所述第一按钮执行的所述第一操作和所述第五按钮执行的是第五操作之前，所述方法还包括：

向第二服务器发送第二请求消息，其中，所述第二请求消息用于请求获取用于表示第二类对象的第二目标信息，所述第二类对象为当前在线的对象，所述第二类对象包括所述第五对象；

接收所述第二服务器返回的第二响应消息，其中，所述第二响应消息中携带有所述第二目标信息；

在所述第一客户端上显示多个按钮，其中，所述多个按钮包括所述第一按钮以及对应于所述第二类对象的按钮。

8.根据权利要求1所述的方法，其特征在于，在所述第一客户端上对所述目标对象语音输入的所述第四对话信息进行录制，得到所述第二音频数据包括：

在所述第一客户端上对所述目标对象语音输入的所述第四对话信息进行录制，得到候选音频数据；

提取出所述候选音频数据的音频特征；

在提取出的所述音频特征与用于标识所述目标对象的目标音频特征不匹配的情况下，通过所述第一客户端发出提示信息，其中，所述提示信息用于提示重新对所述第三对话信息进行录制；

在提取出的所述音频特征与用于标识所述目标对象的目标音频特征匹配的情况下，将所述候选音频数据确定为所述第二音频数据。

9.根据权利要求1至8中任一项所述的方法，其特征在于，在所述第一客户端上对所述目标对象语音输入的所述第四对话信息进行录制，得到第二音频数据之后，所述方法还包括：

通过所述第一客户端将所述第二音频数据发送给第三服务器，其中，所述第三服务器用于根据所述第三对话信息对所述第二音频数据进行评测，得到所述第二音频数据的评测结果；

通过所述第一客户端显示所述第三服务器返回的所述评测结果。

10.一种音频的录制装置，其特征在于，包括：

第一启动单元，用于在使用目标帐号登录的第一客户端上检测到对所述第一客户端上显示的第一按钮执行了第一操作的情况下，在所述第一客户端上启动目标对话任务，其中，所述目标对话任务被设置为由至少两个对象共同执行，所述至少两个对象包括：与所述目标帐号对应的目标对象，与所述第一按钮对应的第一对象；

第一录制单元，用于在所述第一客户端上显示所述目标对话任务中的第一对话信息，并在所述第一客户端上对所述第一对象语音输入的第二对话信息进行录制，得到第一音频数据；

第二录制单元，用于在所述第一客户端上显示所述目标对话任务中的第三对话信息，并在所述第一客户端上对所述目标对象语音输入的第四对话信息进行录制，得到第二音频数据，其中，与所述目标对象执行所述目标对话任务对应的音频数据包括所述第二音频数据；

11.根据权利要求10所述的装置，其特征在于，所述装置还包括：

第一检测单元，用于在启动所述目标对话任务之前，在所述第一客户端上检测到对所述第一客户端上显示的所述第一按钮执行的所述第一操作和第二按钮执行的第二操作，其中，所述至少两个对象还包括：与所述第二按钮对应的第二对象；

第一播放单元，用于在所述第一客户端上显示所述目标对话任务中的第五对话信息，并在所述第一客户端上播放使用目标模型合成的第一音频片段，其中，所述目标模型用于将输入的所述第五对话信息合成为所述第一音频片段。

12.根据权利要求10所述的装置，其特征在于，所述装置还包括：

第二检测单元，用于在启动所述目标对话任务之前，在所述第一客户端上检测到对所述第一客户端上显示的所述第一按钮执行的所述第一操作和第三按钮执行的第三操作，其中，所述至少两个对象还包括：与所述第三按钮对应的第三对象；

获取单元，用于获取与所述第三按钮对应的第三音频数据，其中，所述第三音频数据为所述第二对象执行所述目标对话任务所录制的音频数据；

第二播放单元，用于在启动所述目标对话任务之后，在所述第一客户端上显示所述目标对话任务中的第六对话信息，并在所述第一客户端上播放所述第三音频数据中用于表示所述第六对话信息的第二音频片段。

13.根据权利要求10至12中任一项所述的装置，其特征在于，所述装置还包括：

发送单元，用于在所述第一客户端上对所述目标对象语音输入的所述第四对话信息进行录制，得到第二音频数据之后，通过所述第一客户端将所述第二音频数据发送给第三服务器，其中，所述第三服务器用于根据所述第三对话信息对所述第二音频数据进行评测，得到所述第二音频数据的评测结果；

显示单元，用于通过所述第一客户端显示所述第三服务器返回的所述评测结果。

14.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至9任一项中所述的方法。

15.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至9任一项中所述的方法。