CN113140210A

CN113140210A - 音频批改方法、装置、电子设备和存储介质

Info

Publication number: CN113140210A
Application number: CN202110488535.8A
Authority: CN
Inventors: 赵高攀; 王奇
Original assignee: Wuhan Yuexuebang Network Technology Co Ltd
Current assignee: Wuhan Yuexuebang Network Technology Co Ltd
Priority date: 2021-04-30
Filing date: 2021-04-30
Publication date: 2021-07-20
Anticipated expiration: 2041-04-30
Also published as: CN113140210B

Abstract

本申请提供一种音频批改方法、装置、电子设备和存储介质，本申请的音频批改方法包括：确定待批改材料；获取针对与待批改材料相对应的至少一个参考材料的至少一个参考音频批改数据；每一个参考材料中的题目信息与待批改材料中的题目信息一致，且答题者信息与待批改材料中的答题者信息不一致；对至少一个参考音频批改数据进行变音合成处理，生成指定音色的目标音频批改数据，并基于目标音频批改数据，对待批改材料进行语音批改。故本申请通过实现针对同一待批改材料所产生音频的资源共享，并可以对共享的音频进行变音合成处理，从而提高了效率，使得批改结果更加多元。

Description

音频批改方法、装置、电子设备和存储介质

技术领域

本申请涉及信息处理技术领域，具体而言，涉及一种音频批改方法、装置、电子设备和存储介质。

背景技术

在线教育即E-Learning，是通过应用信息科技和互联网技术进行内容传播和快速学习的方法。在现有技术中，老师都是自己录音进行批改作业，在作业体量很大的情况下，批改时间很长，效率较低。

发明内容

本申请的目的在于提供一种音频批改方法、装置、电子设备和存储介质，用以实现针对同一待批改材料(题目一致、答题者不同)所产生音频的资源共享，并可以对共享的音频进行变音合成处理，以供其他教师参考，提高了批改效率，还能补充批改思路。

第一方面，本申请提供一种音频批改方法，包括：

确定待批改材料；

获取针对与待批改材料相对应的至少一个参考材料的至少一个参考音频批改数据；每一个参考材料中的题目信息与待批改材料中的题目信息一致，且答题者信息与待批改材料中的答题者信息不一致；

对至少一个参考音频批改数据进行变音合成处理，生成指定音色的目标音频批改数据，并基于目标音频批改数据，对待批改材料进行语音批改。

于一实施例中，获取针对与待批改材料相对应的至少一个参考材料的至少一个参考音频批改数据，包括：

根据用户的变音合成指令，发送音频调取指令至预设终端，其中音频调取指令包括待批改材料的标识信息以及用户指定的参考人员；

接收预设终端根据音频调取指令所返回的至少一个参考音频批改数据。

根据用户的变音合成指令，生成音频调取指令，其中音频调取指令包括待批改材料的标识信息和用户指定的参考人员；

根据音频调取指令，从预设的共享音频数据库中选取至少一个参考音频批改数据。

于一实施例中，对至少一个参考音频批改数据进行变音合成处理，生成指定音色的目标音频批改数据，包括：

对至少一个参考音频批改数据分别进行语音识别，得到至少一个文本数据；

对至少一个文本数据进行文本合成处理，生成目标文本数据；

根据预存音源数据资料，对目标文本数据进行语音合成处理，生成指定音色的目标音频批改数据。

于一实施例中，当参考音频批改数据为多个时，文本数据为多个；对至少一个文本数据进行文本合成处理，生成目标文本数据包括：根据用户的文本合成指令，将多个文本数据合成用户指定的一个目标文本数据。

于一实施例中，当参考音频批改数据为一个时，文本数据为一个；对至少一个文本数据进行文本合成处理，生成目标文本数据包括：对文本数据进行文本生成处理，得到多个相似文本数据；根据用户的第一选择指令，从多个相似文本数据选出用户指定的一个目标文本数据。

于一实施例中，根据预存音源数据资料，对目标文本数据进行语音合成处理，得到目标音频批改数据，包括：根据预存音源数据资料，对目标文本数据进行多次语音合成处理，得到多个源语音批改数据；从多个源语音批改数据选出一条目标音频批改数据。

于一实施例中，从多个源语音批改数据选出一条目标音频批改数据，包括：将多个源语音批改数据输入打分模型；利用打分模型，对源语音批改数据进行源语音批改数据与预存音源数据资料的相似度分析；根据相似度分析结果，确定目标音频批改数据。

于一实施例中，将多个源语音批改数据输入打分模型之前，还包括：获取音频样本集合，音频样本集合标注了多个音频样本之间的相似度等级；利用音频样本集合对神经网络模型进行训练，得到打分模型。

于一实施例中，音频批改方法还包括：允许目标音频批改数据被获取。

其中，允许目标音频批改数据被获取包括，将目标音频批改数据发送至服务端、存储在共享音频数据库、或者在接收到指令时，将目标音频批改数据发送至其他终端或者服务端。

第二方面，本申请提供一种音频批改装置，包括：

确定模块，用于确定待批改材料；

获取模块，用于获取针对与待批改材料相对应的至少一个参考材料的至少一个参考音频批改数据；每一个参考材料中的题目信息与待批改材料中的题目信息一致，且答题者信息与待批改材料中的答题者信息不一致；

批改模块，用于对至少一个参考音频批改数据进行变音合成处理，生成指定音色的目标音频批改数据，并基于目标音频批改数据，对待批改材料进行语音批改。

于一实施例中，获取模块用于：根据用户的变音合成指令，发送音频调取指令至预设终端，其中音频调取指令包括待批改材料的标识信息以及用户指定的参考人员；

于一实施例中，获取模块还用于：根据用户的变音合成指令，生成音频调取指令，其中音频调取指令包括待批改材料的标识信息和用户指定的参考人员；

于一实施例中，批改模块用于：对至少一个参考音频批改数据分别进行语音识别，得到至少一个文本数据；

于一实施例中，当参考音频批改数据为多个时，文本数据为多个；批改模块还用于：根据用户的文本合成指令，将多个文本数据合成用户指定的一个目标文本数据。

于一实施例中，当参考音频批改数据为一个时，文本数据为一个；批改模块还用于：对文本数据进行文本生成处理，得到多个相似文本数据；根据用户的第一选择指令，从多个相似文本数据选出用户指定的一个目标文本数据。

于一实施例中，批改模块还用于：根据预存音源数据资料，对目标文本数据进行多次语音合成处理，得到多个源语音批改数据；从多个源语音批改数据选出一条目标音频批改数据。

于一实施例中，批改模块还用于：将多个源语音批改数据输入打分模型；利用打分模型，对源语音批改数据进行源语音批改数据与预存音源数据资料的相似度分析；根据相似度分析结果，确定目标音频批改数据。

于一实施例中，批改模块还用于：获取音频样本集合，音频样本集合标注了多个音频样本之间的相似度等级；利用音频样本集合对神经网络模型进行训练，得到打分模型。

于一实施例中，音频批改装置还包括：允许模块，用于允许目标音频批改数据被获取。

第三方面，本申请提供一种电子设备，包括：存储器，用以存储计算机程序；处理器，用以执行如前述实施方式中任一项的方法。

第四方面，本申请提供一种非暂态电子设备可读存储介质，包括：程序，当其藉由电子设备运行时，使得电子设备执行前述实施方式中任一项的方法。

本申请提供的音频批改方法、装置、电子设备和存储介质，通过实现针对同一待批改材料(题目一致、答题者不同)所产生音频的资源共享，并可以对共享的音频进行变音合成处理，以供其他教师参考，提高了批改效率，还能补充批改思路。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请一实施例示出的电子设备的结构示意图。

图2为本申请一实施例的音频批改方法的应用场景示意图。

图3a为本申请一实施例的音频批改方法的流程示意图。

图3b为本申请一实施例示出的图3a中步骤S120的细节示意图。

图3c为本申请一实施例示出的图3a中步骤S120的细节示意图。

图4为本申请一实施例的音频批改方法的流程示意图。

图5为本申请图4对应实施例的方法步骤示意图。

图6为本申请一实施例示出的图5对应实施例中步骤S270的细节流程示意图。

图7为本申请图6对应实施例的方法步骤示意图。

图8为本申请一实施例示出的图6中步骤S271的细节流程示意图。

图9为本申请一实施例的音频批改方法的流程示意图。

图10为本申请一实施例示出的音频批改装置的结构示意图。

图标：100-电子设备；101-总线；102-存储器；103-处理器；200-音频批改装置；210-确定模块；220-获取模块；230-批改模块；240-允许模块；300-在线教育系统；310-服务端；320-学生客户端；330-带课老师客户端；340-其他老师客户端；

具体实施方式

在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，并不表示排列序号，也不能理解为指示或暗示相对重要性。

在本申请的描述中，术语“包括”、“包含”等表示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其他特征、步骤、操作、元素、组件和/或其集合的存在或添加。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

请参照图1，其为本申请一实施例示出的电子设备100的结构示意图。电子设备100包括：至少一个处理器103和存储器102，图1中以一个处理器103为例。处理器103和存储器102通过总线101连接，存储器102存储有可被处理器103执行的指令，指令被处理器103执行，以使电子设备100可执行下述的实施例中方法的全部或部分流程，以实现针对同一待批改材料(题目一致、答题者不同)所产生音频的资源共享，并可以对共享的音频进行变音合成处理。

于一实施例中，处理器103可以是通用处理器103，包括但不限于中央处理器103(Central Processing Unit，CPU)、网络处理器103(Network Processor，NP)等，还可以是数字信号处理器103(Digital Signal Processor，DSP)、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、现成可编程门阵列(Field Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器103可以是微处理器103或者该处理器103也可以是任何常规的处理器103等，处理器103是电子设备100的控制中心，利用各种接口和线路连接整个电子设备100的各个部分。处理器103可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。

于一实施例中，存储器102可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，包括但不限于，随机存取存储器102(Random Access Memory，RAM)，只读存储器102(Read Only Memory，ROM)，静态随机存取存储器102(Static Random AccessMemory，简称SRAM)，可编程只读存储器102(Programmable Read-Only Memory，PROM)，可擦除只读存储器102(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器102(Electric Erasable Programmable Read-Only Memory，EEPROM)。

电子设备100可以是手机、笔记本电脑、台式计算机、或者多台计算机组成的运算系统等设备。电子设备100还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。例如电子设备100还包括用于人机交互的输入输出设备。

请参照图2，其为本申请一实施例的音频批改方法的应用场景示意图。该应用场景是在线教育系统300，在线教育系统300包括多个客户端和一个服务端310，客户端可以是主机、手机、平板电脑等用户终端；服务端310可以是终端、服务器、服务器集群或云计算中心。图1中的电子设备100可以是指在线教育系统300中的客户端和也可以是指在线教育系统300中的服务端310。

其中基于对象的不同，多个客户端可以区分为学生客户端320和老师客户端，再基于老师与学生之间的关系，将老师客户端区分为带课老师客户端330和其他老师客户端340。由于应用场景中存在多个班级，多个科目、多次课程和多次作业，划分老师客户端可能具有多种不同形式。例如，根据班级划分，一个班级对应一个老师；也可以是根据科目和班级划分，也可以是根据课程和班级划分，还可以是根据作业划分。其中将老师客户端区分为带课老师客户端330和其他老师客户端340，是根据使用者的职能以及学生客户端320的使用者划分的，并不是一成不变的。

本实施例中，将学生客户端320的使用者称作A学生，带课老师客户端330的使用者称作A老师，其他老师客户端340的使用者称作B老师。A老师负责批改A学生第一科目的作业，B老师可以是其他班级的负责第一科目的老师。

于一操作过程中，学生客户端320进行操作1，将待批改的作业发送给服务端310，服务端310接收作业，服务端310可以同时接收多个学生客户端320发送的作业，并进行存储。

服务端310接着根据预设的规则进行操作2，将不同学生作业分发到不同的老师，其中A学生的作业发送给A老师的带课老师客户端330，其他学生的作业分发到其他老师客户端340。

此时A老师可以选择对A学生的作业直接语音批改，带课老师客户端330进行操作3，将A老师的录音发送给服务端310，服务端310接收后进行操作7，将该录音发送给学生客户端320，学生客户端320接收后，A学生可以进行播放和学习。B老师也可以自己的学生作业直接语音批改，其他老师客户端340的操作与带课老师客户端330的操作相似或者相同。

再者，A老师也可以在带课老师客户端330上选择变音批改服务，服务端310进行操作4，将其他老师客户端340所发送的语音批改录音发送给带课老师客户端330，进行语音共享，带课老师客户端330在接收到共享的语音批改录音后，进行操作5，对该语音批改录音进行变音合成处理，对应学生的作业自动补充变音生成的具有A老师音色的语音评论，之后带课老师客户端330进行操作6，将变音合成处理后的语音评论发送给服务端310，服务端310接收后进行操作7，将该录音发送给学生客户端320，A学生可以进行播放和学习。B老师也可以自己的学生作业直接语音批改。

其中，A老师选择的服务可以是在带课老师客户端330的提示下进行的，例如带课老师客户端330可以生成提示框，提示A老师选择直接语音批改服务还是变音批改服务，带课老师客户端330可以将A老师的选择信息发送给服务端310。

服务端310的操作4语音共享可以是自动的，也可以是在带课接收老师客户端发送的指令后进行的。例如，在服务端310接收了带课老师客户端330所发送的老师选择了变音批改服务的信息后，服务端310再进行操作4。

其中，老师客户端还可以生成提示框，提示老师选择该录音是否进行共享，并向服务端310发送该信息。

服务端310的操作7发送作业，可以是自动的，也可以是接收老师客户端发送的指令后进行的，例如：可以在变音批改服务和直接语音批改服务都完成后，带课老师客户端330生成提示框，提示A老师选择发送哪个版本的语音评论；也可以在变音批改服务和直接语音批改服务任一服务完成后，带课老师客户端330生成提示框，提示A老师选择是否发送该版本的语音评论。

操作5变音合成处理可以是在带课客户端进行的，也可以是在服务端310进行的。

本实施例通过实现针对同一待批改材料(题目一致、答题者不同)所产生音频的资源共享，并可以对共享的音频进行变音合成处理，形成具有自身音色的语音评论，并将经过变音合成处理的语音评论自动发送给学生，从而提高了老师批改作业的效率和质量，使得老师可以更加适应高强度批改作业练习情况，使得在线教育系统300的服务更加个性化，更加具有专属性，增强了增强老师与学生之间的亲和力。

于一其他的实施例中，语音共享除了实时共享以外，还可以是在服务端310或者带课老师客户端330建立一个共享音频数据库，共享音频数据库中的数据是预先存储进去的，收录了至少一个用户针对待批改材料的多个参考音频批改数据，A老师可以事先通过设定选取指定金牌老师等规则，从共享音频数据库中选取至少一条要进行变音合成处理的参考音频。

其中，当选取的要进行变音合成处理的参考音频的数量是多个时，多个参考音频分别生成多个批改文本，用户将多个批改文本进行合成，得到一个批改文本后，最后进行变音的方案。

当选取的要进行变音合成处理的参考音频的数量是一个时，一个参考音频生成一个批改文本，用户利用NLP(Natural Language Processing，自然语言处理)文字生成技术得到包含更多批改文本的候选集，再从候选集中选取其中一个文本，最后进行变音的方案。

请参照图3a，其为本申请一实施例的音频批改方法的流程示意图。该方法可由图1所示的电子设备100作为带课老师客户端330来执行，或者应用于图2所示应用场景中，以实现针对同一待批改材料(题目一致、答题者不同)所产生音频的资源共享，并可以对共享的音频进行变音合成处理。该方法包括如下步骤：步骤S110-S140。

步骤S110：确定待批改材料。

本步骤中的待批改材料为需要进行变音合成的待批改材料，为学生客户端320发送给带课老师客户端330，可以是A老师带教的某一学生的作业。

于一实施例中，带课老师客户端330生成提示框以提示A老师是否对该待批改材料选取进行变音合成服务，接收A老师的选择指令，当A老师的选择指令为是时，收集并确定该待批改材料的标识信息，待批改材料的标识信息包括：题目信息和答题者信息，例如：卷号标识、题号标识、作业号标识、作业编码标识和/或答题者标识等。

步骤S120：获取针对与待批改材料相对应的至少一个参考材料的至少一个参考音频批改数据。

本步骤中的参考材料可以是其他老师所带教的其他学生的作业。参考材料的标识信息包括：题目信息和答题者信息，例如：卷号标识、题号标识、作业号标识、作业编码标识和/或答题者标识。

其中待批改材料与参考材料对应指的是：每一个参考材料中的题目信息与待批改材料中的题目信息一致，且答题者信息与待批改材料中的答题者信息不一致。待批改材料与参考材料是否对应可以通过比对待批改材料的标识信息与参考材料的标识信息得到。

本步骤的参考音频批改数据是为了给带课老师客户端330的使用者A老师一定的参考。为了使参考音频批改数据具有一定的参考价值，则参考音频批改数据需是指其他班级的老师针对同一待批改材料(题目一致、答题者不同)所录制的语音评论。例如，三班的老师A在批改三班学生2号的作业时，可以参考二班的老师B针对二班的学生1～10号的同一作业的语音批改信息，以及，可以参考一班老师C针对三班学生15～28号的同一作业的语音批改信息。当然，还可以参考他自己(即三班的老师A)针对三班的其他学生(除学生2号)的同一作业的语音批改信息。

本步骤的参考音频批改数据可以是带课老师客户端330发起请求主动获取的，也可是由服务端310自动发送而带课老师客户端330被动接收的。本步骤的参考音频批改数据可以是首先由其他老师客户端340发送给服务端310，再由服务端310实时转发给带课老师客户端330的。

本步骤的参考音频批改数据还可以是从预设的共享音频数据库根据预设规则或者用户指令调取的。

步骤S130：对至少一个参考音频批改数据进行变音合成处理，生成指定音色的目标音频批改数据，并基于目标音频批改数据，对待批改材料进行语音批改。

本步骤中的指定音色可以是带课老师客户端330的A老师的音色，也可以是A老师选择的其他人物的音色。在本步骤中通过对参考音频批改数据进行变音合成处理，形成具有特色的语音评论，使得在线教育系统300的服务更加个性化，且提高了老师批改作业的效率和质量。

通过上述方式，使得老师在批改作业时，可以参考其他老师的语音批改信息，将多种语音批改信息融合在一起，使得自己的批改更灵活、更多元、更高效。由于在批改的过程中参考了其他老师的批改，还可以从多维度进行批改和补充，最终呈现给学生的批改信息就更全面、更多元、更有效果。

于一实施例中，步骤S130具体包括：对至少一个参考音频批改数据分别进行语音识别，得到至少一个文本数据；对至少一个文本数据进行文本合成处理，生成目标文本数据；根据预存音源数据资料，对目标文本数据进行语音合成处理，生成指定音色的目标音频批改数据。

本步骤先将参考音频批改数据转换成文本数据，再将文本数据转换成指定音色的目标音频批改数据，从而可以改变参考音频批改数据的音色。该方案不仅可以应用于在线教育系统300中，也可以应用于其他需要改变声音音色的场景。

其中，预存的音频数据资料可以存储在服务端310，也可以存储在带课老师客户端330。预存的音频数据资料可以包括多个人的音频数据资料，在进行变音合成处理之前，可以提示用户，让用户进行选取。

步骤S140：允许目标音频批改数据被获取。

本步骤中被获取的情况可以是将目标音频批改数据发送给服务端310后，服务端310可以自动将目标音频批改数据发送给对应的学生客户端320。本步骤也可以在带课老师客户端330接收到A老师的指令后进行。

本步骤中被获取的情况可以是将目标音频批改数据存储在共享音频数据库。其中，共享音频数据库可为物理服务器上的存储空间，也可为云存储空间，对此不做赘述。

本步骤中被获取的情况可以是在接收到指令时，将目标音频批改数据发送至其他终端(对应的学生客户端320或者其他老师客户端340)。

于一其他的实施例中，步骤S110-S130可以由服务端310执行，当服务端310执行步骤S110-S130，预存的音频数据资料可以存储在服务端310，也可以存储在带课老师客户端330。

请参照图3b，其为本申请一实施例示出的图3a中步骤S120的细节示意图。步骤S120包括如下步骤：步骤S121-S122。步骤S121-S122可以由带课老师客户端330执行。

步骤S121：根据用户的变音合成指令，发送音频调取指令至预设终端。

本步骤中用户的变音合成指令包括步骤S110中确定的待批改材料的标识信息、用户账号信息以及用户指定的参考人员。音频调取指令包括待批改材料的标识信息和用户指定的参考人员。

其中，关于用户指定的参考人员可以是预存的，与用户账号信息绑定的，也可以是用户在步骤S110中重新输入的，还可以是根据用户进行智能大数据推送的。

本步骤中预设终端可以是服务端310，也可以是其他老师客户端340。其中，当预设终端是其他老师客户端340时，预设终端包括根据用户指定的参考人员确定的一个或者多个终端。

步骤S122：接收预设终端根据音频调取指令所返回的至少一个参考音频批改数据。

本步骤中，预设终端实时返回参考音频批改数据可以是一个或者多个。

于一其他的实施例中，在步骤S122之后，步骤S120还可以包括以下步骤：步骤S123。步骤S123可以由带课老师客户端330执行。

步骤S123：根据用户的音频选择指令，从至少一个参考音频批改数据中进行选取。

本步骤的音频选择指令是用户在听取步骤S122中的参考音频批改数据后选取的。本实施例中，带课老师客户端330生成提示框以提示A老师选取一个或者多个音频用作后续变音合成处理的参考，再接收A老师的音频选择指令，接着带课老师客户端330根据用户的音频选择指令进行选择。

于一其他的实施例中，步骤S121-S123可以由服务端310执行，其中，当服务端310执行步骤S123时，带课老师客户端330生成提示框以提示A老师选取一个或者多个音频用作后续变音合成处理的参考，再接收A老师的音频选择指令，带课老师客户端330将用户的音频选择指令发送给服务端310，服务端310根据用户的第一选择指令进行选择。

请参照图3c，其为本申请一实施例示出的图3a中步骤S120的细节示意图。步骤S120包括如下步骤：步骤S124-S125。步骤S124-S125可以由带课老师客户端330执行。

步骤S124：根据用户的变音合成指令，生成音频调取指令。

本步骤中用户的变音合成指令包括步骤S110中确定的待批改材料的标识信息、用户账号信息以及用户指定的参考人员。音频调取指令包括待批改材料的标识信息和用户指定的参考人员。其中，关于用户指定的参考人员可以是预存的，与用户账号信息绑定的，也可以是用户在步骤S110中重新输入的，还可以是根据用户进行智能大数据推送的。其中音频调取指令包括待批改材料的标识信息和用户指定的参考人员。

步骤S125：根据音频调取指令，从预设的共享音频数据库中选取至少一个参考音频批改数据。

本步骤中共享音频数据库中的数据是预先存储进去的，收录了至少一个用户针对待批改材料的多个参考音频批改数据。

共享音频数据库的建立过程可以是：当用户进行直接语音批改或者变音批改服务后，获取用户批改录音；根据用户事先建立的规则或者实时输入的指令，判断用户批改录音是否进行共享，若是，则将该用户批改录音存储至共享音频数据库中，并记录用户批改录音所针对的作业信息和用户信息；若否，则不存储，并结束流程。

于一其他的实施例中，在步骤S122之后，步骤S120还可以包括以下步骤：步骤S126。步骤S126可以由带课老师客户端330执行。

步骤S126：根据用户的音频选择指令，从至少一个参考音频批改数据中进行选取。详细参见上述实施例中对步骤S126的描述。

于一其他的实施例中，步骤S124-S126可以由服务端310执行。

请参照图4，其为本申请一实施例的音频批改方法的流程示意图。请参照图5，其为本申请图4对应实施例的方法步骤示意图。该方法可由图1所示的电子设备100作为带课老师客户端330来执行，或者应用于图2所示的应用场景中，以实现针对同一待批改材料(题目一致、答题者不同)所产生音频的资源共享，并可以对共享的音频进行变音合成处理。该方法包括如下步骤：步骤S210-S270。其中，本实施例中，步骤S220获取的参考音频批改数据个数为一个。

步骤S210：确定待批改材料。详细参见上述实施例中对步骤S110的描述。

步骤S220：获取针对与待批改材料相对应的至少一个参考材料的至少一个参考音频批改数据。详细参见上述实施例中对步骤S120的描述。

步骤S230：对一个参考音频批改数据进行语音识别，得到一个文本数据。

步骤S220获取的参考音频批改数据为一个，语音识别得到的文本数据为一个。

本步骤主要采用语音识别技术，在本步骤中可以在在特征提取之前，先对目标音频批改数据进行前端处理，部分消除噪声带来的影响，使处理后的信号更能反映语音的本质特征，提高语音识别的准确性。

步骤S240：对文本数据进行文本生成处理，得到多个相似文本数据。

本步骤主要采用NLP(Natural Language Processing，自然语言处理)文字生成技术，为语义合成提供了更多的语音合成的候选集，扩大用户的选择范围，使得最终的目标文本数据更为贴合待批改材料，极大提升了语音合成的容错性，解决了单一文本数据进行后续语音合成，合成效果差，造成用户无法使用变音合成服务的问题。

本步骤具体采用了Seq2Seq生成模型，Seq2Seq生成模型是一种循环神经网络的变种，可以通过一段文字生成另一段文字。

本步骤的Seq2Seq生成模型在使用前可以提前进行训练，具体训练过程可以是：获取老师批改文字样本集合，老师批改文字样本集合通过人工标注了多个批改文字样本之间的相似度等级，再利用该老师批改文字样本集合对Seq2Seq生成模型进行训练，得到训练好的具备生成文字相近评语能力的Seq2Seq生成模型。

本步骤的多个相似文本数据可以包括或者不包括步骤S230得到的初始的文本数据。

例如：如图5所示，当文本数据是“宝贝书写很规格奥，做题要注意单位和利润率的求法，期待宝贝的进步”，则Seq2Seq生成模型生成的相似文本数据可以是“宝贝书写很规格奥，做题要注意单位和利润率的求法，期待宝贝的进步”、“宝贝书写非常规范.同时要注意单位和利润率的求法，加油”和“宝贝太棒了，单位和利润率的求法再多注意点就更好了”。

步骤S250：根据用户的第一选择指令，从多个相似文本数据选出用户指定的一个目标文本数据。

本步骤的第一选择指令是用户在读取步骤S240中的多个相似文本数据后选取的。

于一实施例中，带课老师客户端330生成提示框以提示A老师选取目标文本数据，再接收A老师的第一选择指令，接着带课老师客户端330根据用户的第一选择指令，将用户选中的相似文本数据作为目标文本数据。

步骤S260：根据预存音源数据资料，对目标文本数据进行多次语音合成处理，得到多个源语音批改数据。

本步骤的语音识别技术可以采用传统机器学习基于特定流程路线的，也可以采用深度学习基于端到端的模型。于一实施例中，采用语音合成系统，语音合成系统包括前端模块和后端模块，前端模块主要是对输入文本进行分析，提取后端模块所需要的语言学信息，后端模块根据前端分析结果，通过一定的方法生成语音波形。这种，语音合成系统为端到端合成系统，向语音合成系统直接输入文本后，就可以直接输出音频波形，从而降低了对语言学知识的要求，加快了语音合成速率。

本步骤的预存音源数据资料可以是用户事先存储在客户端或者服务端310中，并可以跟登陆信息绑定。当用户登陆客户端后，客户端或者服务端310可以根据该登陆信息相互连接，并调取登陆信息对应的预存音源数据资料。

步骤S270：从多个源语音批改数据选出一条目标音频批改数据。

如图5所示，在上述步骤S260和步骤S270中，首先通过对目标文本数据进行多次语音合成处理，得到多个源语音批改数据，再从多个源语音批改数据选出一条合成效果最优的音频，作为目标音频批改数据推给带课老师批改端即批改端。故本实施例通过多次语音合成后进行筛选，可以提高目标音频批改数据的语音质量，从而可以使得用户得到较为真实接近的语音评论，从而可以提升批改效果和体验。

步骤S270的选取可以是人工选取，也可以是机器自动选取的。

于一实施例中，带课老师客户端330生成提示框以提示A老师选取目标音频批改数据，再接收A老师的选择指令，接着带课老师客户端330根据用户的选择指令，将用户选中的源语音批改数据作为目标音频批改数据。之后，带课老师客户端330将该目标音频批改数据发送给服务端310，服务端310可以自动将目标音频批改数据发送给对应的学生客户端320。

于一实施例中，带课老师客户端330采用模型自动选取合成效果最优的源语音批改数据作为目标音频批改数据。本步骤之后，带课老师客户端330可以生成提示框以提示A老师确认是否发送该目标音频批改数据，当A老师选择是时，则带课老师客户端330将该目标音频批改数据发送给服务端310，服务端310可以自动将目标音频批改数据发送给对应的学生客户端320。

于一其他的实施例中，可以根据预存音源数据资料，对目标文本数据进行一次语音合成处理，就将该一次语音合成的语音数据，作为目标音频批改数据发送给服务端310。如此操作，可以省略筛选步骤，加快批改速率。

于一其他的实施例中，当得到步骤S250的目标文本数据时，A老师可以直接将该目标文本数据念一遍并进行录制，得到语音数据，并将其作为目标音频批改数据发送给服务端310。如此操作，可以省略语音合成和筛选步骤，加快批改速率。

本方法还包括：带课老师客户端330生成提示框以提示A老师选取服务形式，再根据A老师的选择指令，引导A老师进行操作。其中服务形式可以包括A老师直接录音的直接语音批改服务，A老师接收参考音频批改数据后直接录音的资源共享批改服务，以及A老师接收参考音频批改数据后进行变音合成处理的变音合成批改服务。

于一其他的实施例中，步骤S210-S270可以由服务端310执行。

请参照图6，其为本申请一实施例示出的图5对应实施例中步骤S270的细节流程示意图。请参照图7，其为本申请图6对应实施例的方法步骤示意图。步骤S270可以包括如下步骤：步骤S271-S272，步骤S271-S272可以由带课老师客户端330执行。

步骤S271：将多个源语音批改数据输入打分模型。

步骤S272：利用打分模型，对源语音批改数据进行源语音批改数据与预存音源数据资料的相似度分析。

步骤S273：根据相似度分析结果，确定目标音频批改数据。

本实施例可以根据打分模型分析源语音批改数据与预存音源数据资料的相似度，并对其进行打分，来评估语音合成的效果，进而在多个源语音批改数据中，选择合成效果最优，最接近预存音源数据资料的批改音频作为目标音频批改数据，并推荐给用户。

如图7所示，打分模型可以实行5个得分等级，5级最好，1级最差。打分模型确定源语音批改数据所属的得分等级，选取等级最高的源语音批改数据作为目标音频批改数据。

于一实施例中，当步骤S260生成的多个源语音批改数据中，当有5级的源语音批改数据，则直接选取5级的源语音批改数据作为目标音频批改数据；当没有5级的源语音批改数据时，返回到步骤S260中，继续生成多个源语音批改数据，直至生成多个源语音批改数据包含5级的源语音批改数据。

于一实施例中，当步骤S260生成的多个源语音批改数据中，当有5级的源语音批改数据，则直接选取5级的源语音批改数据作为目标音频批改数据；当没有5级的源语音批改数据时，则继续判断是否有4级的源语音批改数据，若有，则选取4级的源语音批改数据作为目标音频批改数据，若无，则继续判断是否有3级的源语音批改数据，依次类推。

于一其他的实施例中，步骤S271-S273可以由服务端310执行。

请参照图8，其为本申请一实施例示出的图6中步骤S271的细节流程示意图。步骤S271之前，本申请实施例提供的方法还包括如下步骤：步骤S2711-S2712，步骤S2711-S2712可以由带课老师客户端330执行。

步骤S2711：获取音频样本集合，音频样本集合标注了多个音频样本之间的相似度等级。

步骤S2712：利用音频样本集合对神经网络模型进行训练，得到打分模型。

打分模型可以提前训练得到，上述步骤S2712和S2712为打分模型具体训练过程。其中，音频样本集合的标注可以是人工标注，通过人工标记大量数据，基于标注数据，训练通用分类模型，从而得到训练好的打分模型，之后可以通过打分模型进行确定源语音批改数据所属的等级。

于一其他的实施例中，步骤S2711-S2712可以由服务端310执行。

请参照图9，其为本申请一实施例的音频批改方法的流程示意图。该方法可由图1所示的电子设备100作为带课老师客户端330来执行，或者应用于图2所示的应用场景中，以实现针对同一待批改材料(题目一致、答题者不同)所产生音频的资源共享，并可以对共享的音频进行变音合成处理。该方法包括如下步骤：步骤S310-S370。其中，本实施例中，步骤S320获取的参考音频批改数据个数为多个。

步骤S310：确定待批改材料。详细参见上述实施例中对步骤S110的描述。

步骤S320：获取针对与待批改材料相对应的至少一个参考材料的至少一个参考音频批改数据。详细参见上述实施例中对步骤S120的描述。

步骤S330：对多个参考音频批改数据分别进行语音识别，得到多个文本数据。

本步骤主要采用语音识别技术，步骤S330获取的参考音频批改数据为多个，语音识别得到的文本数据为多个，为语义合成提供了更多的语音合成的候选集，扩大用户的选择范围。

步骤S340：根据用户的文本合成指令，将多个文本数据合成用户指定的一个目标文本数据。

本步骤的文本合成指令为用户输入的，将步骤S330获得的多个文本数据进行合成，得到最为适合的目标文本数据，以使得最终的目标文本数据更为贴合待批改材料。

步骤S350：根据预存音源数据资料，对目标文本数据进行多次语音合成处理，得到多个源语音批改数据。详细参见上述实施例中对步骤S260的描述。

步骤S360：从多个源语音批改数据选出一条目标音频批改数据。详细参见上述实施例中对步骤S270的描述。

于一其他的实施例中，步骤S310-S360可以由服务端310执行。

请参照图10，其为本申请一实施例示出的音频批改装置200的结构示意图。该装置可应用于图1所示的电子设备100，包括：确定模块210、获取模块220、批改模块230和允许模块240。各个模块的原理关系如下：

确定模块210，用于确定待批改材料；

获取模块220，用于获取针对与待批改材料相对应的至少一个参考材料的至少一个参考音频批改数据；每一个参考材料中的题目信息与待批改材料中的题目信息一致，且答题者信息与待批改材料中的答题者信息不一致；

批改模块230，用于对至少一个参考音频批改数据进行变音合成处理，生成指定音色的目标音频批改数据，并基于目标音频批改数据，对待批改材料进行语音批改。

于一实施例中，获取模块220用于：根据用户的变音合成指令，发送音频调取指令至预设终端，其中音频调取指令包括待批改材料的标识信息以及用户指定的参考人员；

于一实施例中，获取模块220还用于：根据用户的变音合成指令，生成音频调取指令，其中音频调取指令包括待批改材料的标识信息和用户指定的参考人员；

于一实施例中，批改模块230用于：对至少一个参考音频批改数据分别进行语音识别，得到至少一个文本数据；

于一实施例中，当参考音频批改数据为多个时，文本数据为多个；批改模块230还用于：根据用户的文本合成指令，将多个文本数据合成用户指定的一个目标文本数据。

于一实施例中，当参考音频批改数据为一个时，文本数据为一个；批改模块230还用于：对文本数据进行文本生成处理，得到多个相似文本数据；根据用户的第一选择指令，从多个相似文本数据选出用户指定的一个目标文本数据。

于一实施例中，批改模块230还用于：根据预存音源数据资料，对目标文本数据进行多次语音合成处理，得到多个源语音批改数据；从多个源语音批改数据选出一条目标音频批改数据。

于一实施例中，批改模块230还用于：将多个源语音批改数据输入打分模型；利用打分模型，对源语音批改数据进行源语音批改数据与预存音源数据资料的相似度分析；根据相似度分析结果，确定目标音频批改数据。

于一实施例中，批改模块230还用于：获取音频样本集合，音频样本集合标注了多个音频样本之间的相似度等级；利用音频样本集合对神经网络模型进行训练，得到打分模型。

于一实施例中，音频批改装置200还包括：允许模块240，用于允许目标音频批改数据被获取。

上述音频批改装置200的详细描述，请参见上述实施例中相关方法步骤的描述。

本申请实施例还提供了一种非暂态电子设备100可读存储介质，包括：程序，当其在电子设备100上运行时，使得电子设备100可执行上述实施例中方法的全部或部分流程。其中，存储介质可为磁盘、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random Access Memory，RAM)、快闪存储器102(Flash Memory)、硬盘(Hard DiskDrive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等。存储介质还可以包括上述种类的存储器102的组合。

在本申请所提供的几个实施例中，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。

在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。以上仅为本申请的优选实施例而已，仅用于说明本申请的技术方案，并不用于限制本申请。对于本技术领域的普通技术人员而言，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

需要说明的是，在不冲突的情况下，本申请中的实施例中的特征可以相互结合。以上仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种音频批改方法，其特征在于，包括：

确定待批改材料；

获取针对与所述待批改材料相对应的至少一个参考材料的至少一个参考音频批改数据；每一个参考材料中的题目信息与所述待批改材料中的题目信息一致、且答题者信息与所述待批改材料中的答题者信息不一致；

对所述至少一个参考音频批改数据进行变音合成处理，生成指定音色的目标音频批改数据，并基于所述目标音频批改数据，对所述待批改材料进行语音批改。

2.根据权利要求1所述的方法，其特征在于，所述获取针对与所述待批改材料相对应的至少一个参考材料的至少一个参考音频批改数据，包括：

根据用户的变音合成指令，发送音频调取指令至预设终端，其中所述音频调取指令包括待批改材料的标识信息以及所述用户指定的参考人员；

接收所述预设终端根据所述音频调取指令所返回的至少一个参考音频批改数据。

3.根据权利要求1所述的方法，其特征在于，所述获取针对与所述待批改材料相对应的至少一个参考材料的至少一个参考音频批改数据，包括：

根据用户的变音合成指令，生成音频调取指令，其中所述音频调取指令包括待批改材料的标识信息和用户指定的参考人员；

根据所述音频调取指令，从预设的共享音频数据库中选取至少一个参考音频批改数据。

4.根据权利要求1所述的方法，其特征在于，所述对所述至少一个参考音频批改数据进行变音合成处理，生成指定音色的目标音频批改数据，包括：

对所述至少一个文本数据进行文本合成处理，生成目标文本数据；

5.根据权利要求4所述的方法，其特征在于，当所述参考音频批改数据为多个时，所述文本数据为多个；所述对所述至少一个文本数据进行文本合成处理，生成目标文本数据包括：

根据用户的文本合成指令，将多个所述文本数据合成用户指定的一个目标文本数据。

6.根据权利要求4所述的方法，其特征在于，当所述参考音频批改数据为一个时，所述文本数据为一个；所述对所述至少一个文本数据进行文本合成处理，生成目标文本数据包括：

对所述文本数据进行文本生成处理，得到多个相似文本数据；

根据用户的第一选择指令，从多个所述相似文本数据选出用户指定的一个目标文本数据。

7.根据权利要求4所述的方法，其特征在于，所述根据预存音源数据资料，对目标文本数据进行语音合成处理，得到目标音频批改数据，包括：

根据预存音源数据资料，对目标文本数据进行多次语音合成处理，得到多个源语音批改数据；

从多个所述源语音批改数据选出一条目标音频批改数据。

8.根据权利要求7所述的方法，其特征在于，所述从多个所述源语音批改数据选出一条目标音频批改数据，包括：

将多个所述源语音批改数据输入打分模型；

利用所述打分模型，对所述源语音批改数据进行所述源语音批改数据与所述预存音源数据资料的相似度分析；

根据所述相似度分析结果，确定所述目标音频批改数据。

9.根据权利要求8所述的方法，其特征在于，所述将多个所述源语音批改数据输入打分模型之前，还包括：

获取音频样本集合，所述音频样本集合标注了多个音频样本之间的相似度等级；

利用所述音频样本集合对神经网络模型进行训练，得到所述打分模型。

10.根据权利要求1至9任一项所述的方法，其特征在于，还包括：

允许所述目标音频批改数据被获取。

11.一种音频批改装置，其特征在于，包括：

确定模块，用于确定待批改材料；

获取模块，用于获取针对与所述待批改材料相对应的至少一个参考材料的至少一个参考音频批改数据；每一个参考材料中的题目信息与所述待批改材料中的题目信息一致，且答题者信息与所述待批改材料中的答题者信息不一致；

批改模块，用于对所述至少一个参考音频批改数据进行变音合成处理，生成指定音色的目标音频批改数据，并基于所述目标音频批改数据，对所述待批改材料进行语音批改。

12.一种电子设备，其特征在于，包括：

存储器，用以存储计算机程序；

处理器，用以执行如权利要求1至10中任一项所述的方法。

13.一种非暂态电子设备可读存储介质，其特征在于，包括：程序，当其由电子设备运行时，使得所述电子设备执行权利要求1至10中任一项所述的方法。