CN112634862A

CN112634862A - 一种信息交互方法、装置、可读存储介质和电子设备

Info

Publication number: CN112634862A
Application number: CN202011506819.7A
Authority: CN
Inventors: 徐培来; 陈昌儒; 包英泽; 杨惠; 吴雨璇
Original assignee: Beijing Dami Technology Co Ltd
Current assignee: Beijing Dami Technology Co Ltd
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2021-04-09
Anticipated expiration: 2040-12-18
Also published as: CN112634862B

Abstract

本发明实施例提供了一种信息交互方法、装置、存储介质和电子设备。本发明实施例的技术方案通过获取文本信息以及与文本信息对应的跟读音频流，根据文本信息对应的标准音素确定跟读音频流中的错误音素，根据错误音素确定纠正信息，将纠正信息发送给跟读者。由此，本发明实施例的技术方案能够根据跟读者的语言水平输出纠正信息。

Description

一种信息交互方法、装置、可读存储介质和电子设备

技术领域

本发明涉及计算机领域，具体涉及一种信息交互方法、装置、可读存储介质和电子设备。

背景技术

现有技术通常能够提供口语发音纠错功能以帮助学生练习发音。现有技术提供的口语发音纠错功能是预先录制好标准音频，将标准音频与跟读者(受试者或学生)的发音音频进行对比，实现口语发音纠错。

然而，不同受试者的发音水平、错误位置等各不相同。现有技术通过将录制好的标准音频输出到受试者的学习终端上，不能实现定制化的口语发音纠错功能，影响受试者的发音学习。

发明内容

有鉴于此,为了根据受试者本人的发音语速和错误位置进行口语发音纠错，本发明实施例提供一种信息交互方法、装置、存储介质和电子设备。

第一方面，本发明实施例提供一种信息交互方法，包括：

获取文本信息以及跟读音频流，所述跟读音频流为跟读者根据所述文本信息发音的音频流；

根据所述文本信息确定所述跟读音频流中的错误音素；

根据所述错误音素确定纠正信息；

输出所述纠正信息。

优选地，所述根据所述文本信息确定所述跟读音频流中的错误音素方法包括：

获取所述文本信息对应的标准音素集合；

获取所述跟读音频流对应的跟读音素集合；

将所述跟读音素集合与所述标准音素集合进行比较，获得所述跟读音频流中的错误音素。

优选地，所述根据所述错误音素确定纠正信息包括：

根据所述错误音素确定所述目标音素，所述目标音素表征所述文本信息在对应位置的标准发音；

根据所述目标音素在所述文本信息中的对应关系，确定与目标音素对应的纠正信息。

优选地，所述纠正信息包括纠正文本；

所述输出所述纠正信息包括：

将所述纠正文本输入语音合成模型，合成为教读发音；

输出所述教读发音。

优选地，所述将所述纠正文本输入语音合成模型，合成为教读发音包括：

将所述跟读音频流输入语速预测模型，预测出所述跟读者的语速特征；

将所述语速特征和所述纠正文本输入语音合成模型，合成为教读发音。

根据指定时长和所述纠正文本输入语音合成模型，合成为教读发音；

其中，所述指定时长大于跟读者的发音时长。

优选地，所述合成为教读发音还包括:

获取指定的发音标签，根据所述发音标签，在合成教读发音时调整与所述错误音素对应的目标音素在所述教读发音中的发音强度。

优选地，所述输出所述纠正信息还包括：

获取教读发音的时间戳，根据教读发音的时间戳排列教学人物的动画帧，合成为教学视频；

输出所述教学视频。

优选地，所述输出所述纠正信息还包括：

渲染所述纠正文本以确定详细信息；

输出渲染后的所述纠正文本。

优选地，所述输出所述纠正信息还包括：

确定所述跟读音频流的分值；

输出所述跟读音频流的分值。

第二方面，本发明实施例提供一种信息交互装置，包括：

接收模块，用于获取文本信息以及跟读音频流，所述跟读音频流为跟读者根据所述文本信息发音的音频流；

评测模块,用于根据所述文本信息确定所述跟读音频流中的错误音素；

纠错模块，用于根据所述错误音素确定纠正信息；

输出模块，用于输出所述纠正信息。

第三方面，本发明实施例提供一种计算机可读存储介质，用于存储计算机程序指令，所述计算机程序指令在被处理器执行时实现上述任一项所述的方法。

第四方面，本发明实施例提供一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如上述任一项所述的方法。

本发明实施例的技术方案通过获取文本信息以及与文本信息对应的跟读音频流，根据文本信息对应的标准音素确定错误音素，根据错误音素确定纠正信息，将纠正信息输出给跟读者。由此，本发明实施例的技术方案能够根据跟读者的语言水平和错误位置输出纠正信息。

附图说明

通过以下参照附图对本发明实施例的描述，本发明的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1是本发明实施例的一种在线教学场景的实施环境示意图；

图2是本发明实施例的学习终端上接收纠正信息的示意图；

图3是本发明实施例的信息交互方法的流程图；

图4是本发明实施的服务器获取跟读音频流的示意图；

图5是本发明实施例确定跟读音频流中错误音素的流程图；

图6是本发明实施例输出纠正信息的流程图；

图7是本发明实施例合成教读发音的流程图；

图8是本发明又一实施例输出教学视频、分值和详细信息的流程图；

图9是本发明又一实施例的学习终端显示教学视频、分值和详细信息的示意图；

图10是本发明实施例信息交互装置的示意图；

图11是本发明实施例的教学输出模块的示意图；

图12是本发明又一实施的教学输出模块的示意图；

图13是本发明实施例信息交互系统的流程图；

图14是本发明实施例的电子设备的示意图。

具体实施方式

以下基于实施例对本发明进行描述，但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质，公知的方法、过程、流程、元件和电路并没有详细叙述。

此外，本领域普通技术人员应当理解，在此提供的附图都是为了说明的目的，并且附图不一定是按比例绘制的。

除非上下文明确要求，否则在说明书的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

在本发明的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

图1是本发明实施例的一种在线教学场景的实施环境示意图。

参照图1，本发明实施例的在线教学场景包括学习终端10、网络30和服务器20。

学习终端10可以是手机、平板电脑、多媒体播放器、可穿戴设备、个人计算机等电子设备。服务器30可以是一台服务器、也可以是服务器集群，还可以是云服务器。学习终端10通过网络30能够与服务器20通信连接。网络30可以是有线网络也可以是无线网络。

本发明实施例的跟读者通常是有语言学习需求的学生。跟读者通过学习终端10能够与服务器20进行信息交互，从而进行语言学习。本发明实施例对教学语言不做限定，可以为英语，也可以是其他语言。例如，德语、法语日语、中文(包括拼音和方言)等。

具体地，服务器20通过网络30发送跟读任务到学习终端10上。跟读任务为语言学习的任务。以英语学习为例，服务器发送的跟读任务可以为针对文章或对话的跟读任务。跟读者通过学习终端10接收到跟读任务。随后，学习终端10提取跟读任务中的文本信息。学习终端10将文本信息进行显示。跟读者根据学习终端10显示的文本信息进行跟读。学习终端10通过音频处理装置(例如麦克风)收集跟读者的跟读语音。学习终端将收集到的跟读语音采样后处理为跟读音频流。学习终端10将文本信息和与文本信息对应的跟读音频流发送到服务器20。服务器20找出跟读音频流中的错误位置，并根据错误位置生成纠正信息。服务器20将纠正信息发送到学习终端10。跟读者通过学习终端10收到纠正信息，通过纠正信息获得教学指导，所述纠正信息是根据跟读者的语速和错误位置生成的。由此，跟读者能够纠正自己的发音。为了准确识别跟读音频流的错误位置，本发明实施例的错误位置为音素级别的错误位置。其中，音素(Phone)是根据语音的自然属性划分出来的最小发音单位。

在现有技术中，服务器20能够根据跟读音频流找出其中的错误位置，并生成纠正信息。但是，现有技术的纠正信息是固定的。也即，现有技术预先录制与文本信息对应的标准音频并保存在服务器上。现有技术检测到错误位置后根据错误位置找到预先保存的标准音频，将预先保存的标准音频发送到学习终端10。

也就是说，现有技术发给所有跟读者的标准音频是预先录制的。由此，现有技术不能根据跟读者的实际语速和错误位置生成与跟读者语言能力适应的纠正信息。具体而言，跟读者不同，他们之间的语言能力各不相同。例如，跟读者A的语速较慢，跟读者B的语速较快。现有技术只能将预先录制好的标准音频发送到跟读者的学习终端10。现有技术不能根据跟读者A和跟读者B之间的差异发送与其语言能力水平适应的纠正信息。

由此，本发明实施例提供一种信息交互方法，本发明实施例的技术方案根据跟读者的实际语言水平(语速)和错误位置发送适应的纠正信息。

图2是本发明实施例的学习终端上接收纠正信息的示意图。

在一个具体的例子中，本发明实施例的技术方案应用于图1所示的实施环境。具体地，参照图2，跟读者通过学习终端10接收跟读任务。学习终端10根据跟读任务提取文本信息。以文本信息是“I eat an apple”为例，跟读者根据文本信息进行跟读。

学习终端10收集与文本信息I eat an apple对应的跟读语音。学习终端10将跟读语音经采样后处理为跟读音频流。学习终端10将文本信息和与文本信息对应的跟读音频流发送到服务器20。服务器20收到文本信息和对应的跟读音频流，经测评，跟读者读错了其中apple的发音，其他发音正确。服务器20将apple对应的标准音素合成为教读发音，所述教读发音的语速特征和跟读者的语速特征相适应。服务器20将所述教读发音发送到学习终端10。由此，跟读者能够接收到与本人语速特征和错误位置相适应的纠正信息。

本发明实施例的技术方案，跟读者通过学习终端10能够接收到与本人语速特征相适应的纠正信息。跟读者的实际语言能力不同，接收到的纠正信息不同。也即，服务器20是根据跟读者的错误位置生成与跟读者语速相适应的纠正信息，将纠正信息发送到学习终端10。由此，跟读者收到与本人实际语言能力相适应的纠正信息。

图3是本发明实施例的信息交互方法的流程图。

参照图3，本发明实施例的信息交互方法运行于服务器20，包括步骤100-步骤400。

步骤100，获取文本信息以及跟读音频流，所述跟读音频流为跟读者根据所述文本信息发音的音频流。

以在线英语学习场景为例，为了帮助学生练习口语，服务器20预先将跟读任务发送到学习终端10。例如，服务器20将一篇课文发送到学习终端10。学习终端10根据跟读任务提取文本信息。以文本信息是I eat an apple为例，跟读者通过学习终端10收到文本信息，跟读者根据学习终端10上展示文本信息进行跟读产生跟读语音。学习终端10通过麦克风收集跟读语音并将跟读语音转换为跟读音频流。学习终端10通过网络将跟读音频流发送到服务器20。

参照图4，服务器20获取文本信息以及与文本信息对应的跟读音频流。图4中的跟读音频流仅仅是使用图像的方式来表示服务器20获得的跟读音频流，实际上，服务器20会以二进制的方式保存跟读音频流。具体地，跟读音频流可以是WAV格式的音频文件。WAV(Windows Media Audio，媒体文件)是微软公司开发的一种声音文件格式,也叫波形声音文件。为了存储和运算方便，跟读音频流也可以是其他格式的音频文件。

也即当跟读者完成I eat an apple的跟读时，服务器20获取的文本信息为I eatan apple；以及与“I eat an apple”对应的跟读音频流。在本发明实施例中，文本信息可以是句子，也可以是单词，还可以是短语。

步骤200，根据所述文本信息确定所述跟读音频流中的错误音素。

对于文本信息“I eat an apple”，不同的跟读者通过学习终端10上传到服务器20的跟读音频流是不同。不同跟读者发音错误位置也可能不同。例如，有的跟读者可能会将I读错，有的跟读者可能会将eat读错，有的跟读者可能会将apple读错。对于多音节的文本信息，跟读者发音错误的位置的具体音素也可能不同。例如，有的跟读者会将apple中的与a对应的发音读错，而其他跟读者可能会将apple中与p对应的发音读错。由于跟读者在跟读音频流中可能存在发音错误，为了帮助跟读者改进口语发音，服务器20根据文本信息确定所述跟读音频流中的错误音素。

图5是本发明实施例确定跟读音频流中错误音素的流程图。

参照图5，步骤200包括3个子步骤，分别是步骤210-230。

步骤210，获取所述文本信息对应的标准音素集合。

结合图4，获取与文本信息对应的标准音素集合。也即，服务器20将文本信息I eatan apple转换为对应的标准音素集合。

步骤220，获取所述跟读音频流对应的跟读音素集合。

结合图4，获取跟读者的跟读音频流，并将跟读音频流转换为跟读音素集合。在一种可选的实现方式中，可以通过训练好的语音模型将跟读音频流转换为跟读音素集合。

步骤230，将所述跟读音素集合与所述标准音素集合进行比较，获得所述跟读音频流中的错误音素。

具体地，将跟读音素集合和标准音素集合中对应的音素进行比较，当跟读音素集合和标准音素集合对应位置的音素不一致时，获得跟读音频流中的错误音素。

例如，在线英语学习场景中，跟读者将I eat an apple中的单词apple读错。本发明实施例为了准确识别跟读音频流的错误位置，本发明实施例的错误位置为音素级别的错误位置。具体地，跟读者将单词apple中的一部分音素读错，例如，跟读者将字母a对应的音素读错。

参见表1。

表1将跟读音素集合和标准音素集合中对应的音素进行比较

通过对比跟读音素集合和标准音素集合，获得跟读音素集合中的错误音素。例如，表1中跟读音素集合中跟读者将apple这个单词中的

读成了a：。

如表1所示，错误音素为ɑ：，与错误音素对应的单词为apple。

步骤300，根据所述错误音素确定纠正信息。

在本发明实施例中，所述纠正信息包括纠正文本。

获取与错误音素对应的单词apple，将apple确定为纠正文本。

步骤400，输出所述纠正信息。

图6是本发明实施例输出纠正信息的流程图。

参照图6，在本发明实施例中，步骤400包括2个子步骤，分别是步骤410和步骤420。

步骤410，将所述纠正文本输入语音合成模型，合成为教读发音。

可选地，通过Speaker Embedding(语音嵌入)将纠正文本合成为教读发音。在另一种可选的实现方式中，也可以通Speaker Encoding(语音编码)将纠正文本合成为教读发音。

为了根据跟读者的实际语言水平发送合适的纠正信息，将纠正文本合成为教读时，需要预先获取语速特征，从而合成与跟读者语言水平适应的教读发音。

在本发明实施例中，语速特征是根据跟读者的语速特征获得的。首先获得跟读者的语速特征，随后根据跟读者的语速特征合成教读发音。例如，跟读者A的语速较慢，跟读者B的语速较快。对于跟读者A，预先获得跟读者A的语速特征。对于跟读者B，预先获得跟读者B的语速特征。根据跟读者的语速特征合成教读发音。从而，能够根据不同跟读者的语音能力生成与跟读者语言能力适应的纠正信息。

优选地，本发明实施例的语速特征是通过神经网络预测获得的。具体地，本发明实施例通过语速预测模型预测出跟读者的语速特征，根据所述语速特征合成教读发音。其中，语速预测模型是训练好的神经网络。

本发明实施例除了合成与跟读者语言水平适应的教读发音，还会根据跟读者读错的位置和错误音素生成具有不同重读、慢读特点的教读发音。为了提供慢读特点的教读发音，具体地，本发明实施例生成教读发音后获取跟读者的跟读音频流，将跟读音频流和教读发音对比，当跟读音频流与教读发音不匹配时，调整教读发音的语速特征。可以将教读发音的语速特征逐渐调慢，从而使得跟读者容易跟读。为了生成带有重读特点的教读发音，具体地，本发明实施例获取指定的发音标签，根据所述发音标签，在合成教读发音时调整与所述错误音素对应的目标音素在所述教读发音中的发音强度。

图7是本发明实施例合成教读发音的流程图。

在一种可选的实现方式中，慢读特点的教读发音可以预先获取语速特征获得。根据语速特征将纠正文本合成教读发音，具体地，参照图7。步骤410包括两个子步骤，分别是步骤411和步骤412。

步骤411，将所述跟读音频流输入语速预测模型，预测出所述跟读者的语速特征。

具体地，将所述跟读音频流输入语速预测模型，预测出所述跟读者的语速特征。

步骤412，通过语音合成模型，合成教读发音。

具体地，将所述语速特征和所述纠正文本输入语音合成模型，合成为教读发音。

例如，跟读者A的语速较慢，跟读者A将apple的发音读错。根据语速预测模型预测出跟读者A的语速特征为第一语速，在合成教读发音时，以第一语速合成教读发音。跟读者B的语速较快，跟读者B将apple的发音读错。根据语速预测模型预测出跟读者B的语速特征为第二语速，在合成教读发音时，以第二语速合成教读发音。也即，对于不同的跟读者，合成的教读发音的语速不同。

本发明实施例，通过将跟读音频流输入语速预测模型，预测出所述跟读者的语速特征，将所述语速特征和所述纠正文本输入语音合成模型，合成为教读发音，由此，本发明实施例能够根据跟读者的语速特征合成教读发音。

在本发明的其他实施例中，语速特征可以通过指定时长获得。在一种可选的实现方式中，预先获取指定时长。将指定时长和所述纠正文本输入语音合成模型，合成为教读发音。其中，所述指定时长大于跟读者的发音时长。具体地，可以由服务器20计算出指定时长，所述指定时长大于跟读者的发音时长。例如跟读者A朗读apple的发音时长为250毫秒，获取A朗读apple的发音时长。服务器20根据预定的比例将计算指定时长。例如，发音时长为250毫秒，按照1.5的比例，服务器20计算的指定时长为375毫秒。从而在合成apple的教读发音时将apple的教读发音合成为375毫秒。需要指出的时，跟读者A朗读的单词不同，发音时长有可能不同。例如，跟读者A朗读的另一单词的发音时长为400毫秒，那么服务器20根据1.5的比例，计算出的指定时长为600毫秒。另一个朗读者B朗读apple的发音时长为200毫秒，按照1.5的比例，服务器20计算的指定时长为300毫秒，从而在合成apple的教读发音时将apple的教读发音合成为300毫秒。由此，本发明实施例能够根据跟读者的发音时长的比例获得指定时长，根据指定时长合成教读发音，从而根据不同跟读者的语速生成适应的教读发音。

在一种可选的实现方式中，重读特点的教读发音可以通过预先获取指定发音标签和标准发音标签获得。根据指定发音标签和标准发音标签将纠正文本合成为教读发音。具体地，获取指定的发音标签。指定发音标签是根据错误音素创建的。例如，跟读者将apple中字母a的发音读错。跟读者将其读成了a：，那么，a：为错误音素，与错误音素对应的目标音素为

，纠正文本为apple。为了在教读发音中强调读错的位置，在教读发音中加重目标音素的发音，从而提示跟读者读错的位置。首先根据错误音素的位置创建指定发音标签，随后，根据指定发音标签将纠正文本合成教读发音。由此在合成教读发音时，能够根据指定发音标签将目标音素的发音加重。进而，能够起到强调的作用。

具体地，可以通过与步骤411并列的步骤413实现。应理解，步骤411与步骤413没有执行的先后顺序，可以先执行步骤411，也可以先执行步骤413。

步骤413：根据错误音素获取指定发音标签。

具体地，获取错误音素，根据错误音素在纠正文本中的位置获取指定发音标签。获取标准发音标签。标准的发音标签可以通过现有技术中的词典获得。

例如，跟读者将apple中的a读错。将apple确定为纠正文本后，标准音素、指定发音标签、标签发音标签参照表2：

表2

也即，根据纠正文本获取标准音素，根据标准发音标签和/或指定发音标签合成教读发音。如果标准发音标签和指定发音标签的位置相同，即可按标准发音标签合成教读发音，也可以按指定发音标签合成教读发音。如果标准发音标签和指定发音标签的位置不相同，即要按标准发音标签也要按指定发音标签合成教读发音。

本发明实施例通过获取发音标签，能够将目标音素的发音加重。也就是说，本发明实施例能够根据指定发音标签调整教读发音的重度音节，由此本发明实施例在合成教读发音时，能够将错误音素对应的目标音素在所述教读发音中的发音强度加重，由此，提到强调和提示的作用。

步骤420，输出所述教读发音。

具体地，输出与跟读者的语速特征相适应的教读发音。并且在教读发音中根据发音标签将目标音素重读，从而起到强调的作用。

本发明实施例通过获取文本信息以及与文本信息对应的跟读音频流，根据文本信息对应的标准音素确定错误音素，获取与错误音素对应的目标音素，根据错误音素确定纠正信息，将纠正信息合成教读发音，所述教读发音按跟读者的语速特征合成，在教读发音中对目标音素重读，从而能够输出与跟读者语速特征相适应的教读发音，并在教读发音中对目标音素重读，从而起到强调和提示的作用。由此，本发明实施例能够根据跟读者的语言水平，输出个性化的教读发音。

在本发明又一实施例中，为了帮助跟读者改进发音，纠正信息还包括教学视频、分值和详细信息。

图8是本发明又一实施例输出教学视频、分值和详细信息的流程图。

具体地，步骤400还包括6个子步骤。分别是步骤430-步骤480。

步骤430，获取教读发音的时间戳，根据教读发音的时间戳排列教学人物的动画帧，合成为教学视频。

具体地获取教读发音的时间戳：T1、T2、T3……，获取教学人物的动画帧，动画帧包括图像信息和时间信息。根据教读发音的时间戳排列动画帧的时间信息，从而将教学人物的动画帧合成为教学视频。在教学视频中，教学人物的口型与教读发音的进度相对应。也就是说，通过教读发音的时间戳驱动教学人物的口型，从而形成教学视频。

步骤440，渲染所述纠正文本以确定详细信息。

具体地，获取纠正文本和与纠正文本对应的音标，对纠正文本和与纠正文本对应的音标进行渲染。例如，跟读者将I eat an apple中的apple读错，具体地，将字母a的发音读错为a:。那么详细信息为apple，和正确的音频

。

步骤450，确定所述跟读音频流的分值。

获取跟读音频的似然分数值。

步骤460，输出渲染后的所述纠正文本。

具体地，以加重显示，颜色区分，阴影显示，或者填充显示的方式输出渲染后的详细信息。

步骤470，输出所述跟读音频流的分值。

具体地，以百分制表示，也可以用十分制表示，还可以以百分比形式表示分值。将分值以具体的数值、文字(例如“太棒了”、“完美”、“好”等)或者转换成图像进行显示。

步骤480，输出所述教学视频。

具体地，输出包括教学人物的教学视频。

本发明实施例的技术方案通过输出教学视频、分值和详细信息，跟读者能够以直观的方式获得纠正文本，从而提高跟读者学习语言的效率。

图9是本发明又一实施例学习终端10显示教学视频、分值和详细信息的示意图。

为了帮助跟读者改进发音，在本发明又一实施例的学习终端10上显示教学视频、分值和详细信息。

具体地，教学视频是根据教学人物的动画帧合成的。例如，根据教读发音的时间戳排列教学人物的动画帧。在每一个动画帧中，教学人物的口型跟随教读发音对应变化。从而，在学习终端10上以直观的视频形式展示正确读音的发音口型，供跟读者学习。教学人物可以是虚拟教师的动画形象，也可以为真人老师的形象。

分值是根据GOP(Goodness of pronunciation,发音优度)算法获得的。GOP算法的将根据音频流与标准音频强制对齐得到的似然分值，利用似然分数值作为发音质量的好坏。本发明又一实施例的分值可以用百分制表示，也可以用十分制表示，还可以以百分比形式表示。分值可以是具体的数值也可以是文字(例如“太棒了”、“完美”、“好”等)还可以是图像。

详细信息是错误音素对应的音标和单词进行渲染。例如，跟读者将apple中的a的读音读错。将单词apple进行渲染。给出apple对应的音标，在音标中将字母a对应的正确发音

进行渲染。渲染的方式可以是加重显示，颜色区分，阴影显示，或者填充显示等。

本发明实施例又一实施例通过在学习终端10上显示教学视频、分值和详细信息，跟读者能够获得直观的纠正信息。本发明又一实施是在本发明实施例的基础上，将步骤400增加子步骤获得的。

图10是本发明实施例信息交互装置的示意图。

参照图10，本发明实施例的信息交互装置设置在如图1所示的服务器20上，包括：接收模块210、测评模块220、纠错模块230和教学输出模块240。

接收模块210用于获取文本信息以及跟读音频流，所述跟读音频流为跟读者根据所述文本信息发音的音频流。

测评模块220用于根据所述文本信息确定所述跟读音频流中的错误音素。

纠错模块230用于根据所述错误音素确定纠正信息。

教学输出模块240输出所述纠正信息。

图11是本发明实施例的教学输出模块的示意图。

本发明实施例的教学输出模块240包括：纠正文本获取模块241、和教读发音输出模块244。其中，教读发音输出模块244包括语音预测模块242、教读发音合成模块243。

纠正文本获取模块241用于获取纠正文本。

教读发音输出模块244用于输出所述教读发音。

语音预测模块242用于将所述跟读音频流输入语速预测模型，预测出所述跟读者的语速特征。

教读发音合成模块243用于将所述语速特征和所述纠正文本输入语音合成模型，合成为教读发音。

图12是本发明又一实施的教学输出模块的示意图。

本发明又一实施例的教学输出模块是在本发明实施的基础上增加模块获得的。本发明又一实施例的教学输出模块240包括纠正文本获取模块241和教读发音输出模块243。其中，教读发音合成模块243还包括动画生成模块247和教学视频输出模块248。纠正文本获取模块241还包括分值获取模块249、分值输出模块250、渲染模块245和教学详细信息输出模块246。

分值获取模块249用于获取跟读音频的似然分数值。分值输出模块250用于输出所述跟读音频流的分值。具体地，以百分制表示，也可以用十分制表示，还可以以百分比形式表示分值。将分值以具体的数值、文字(例如“太棒了”、“完美”、“好”等)或者转换成图像进行显示。

渲染模块245用于获取纠正文本和与纠正文本对应的音标，对纠正文本和与纠正文本对应的音标进行渲染。例如，跟读者将I eat an apple中的apple读错，具体地，将字母a的发音读错为a:。那么详细信息为apple，和正确的音频

。教学详细信息输出模块246用于输出渲染后的所述纠正文本。具体地，以加重显示，颜色区分，阴影显示，或者填充显示的方式输出渲染后的详细信息。

动画生成模块247获取教读发音的时间戳，根据教读发音的时间戳排列教学人物的动画帧，合成为教学视频。教学视频输出模块248用于输出包括教学人物的教学视频。

图13是本发明实施例信息交互系统的流程图。

参照图13，本发明实施例的信息交互系统的实施环境如图1所示。

本发明实施例信息交互系统的流程图包括如下步骤：

步骤1000，服务器20发送跟读任务到学习终端10。具体地，服务器20根据跟读者的学习进度，将跟读任务发送到学习终端10。

步骤1100，学习终端10提取跟读任务中的文本信息。具体地，学习终端10收到跟读任务，提取出跟读任务中的文本信息。

步骤1200，学习终端10显示文本信息。具体地，学习终端10通过显示装置显示文本信息。跟读者通过显示装置查看文本信息。

步骤1300，学习终端10收集跟读语音。具体地，学习终端10通过音频处理装置对跟读语音采样后处理为跟读音频流。

步骤1400，学习终端10将文本信息和与文本信息对应的跟读音频流发送到服务器20。

步骤1500，服务器20获取文本信息以及跟读音频流，所述跟读音频流为跟读者根据所述文本信息发音的音频流。

步骤1600，服务器20根据所述文本信息确定所述跟读音频流中的错误音素。

步骤1700，服务器20根据所述错误音素确定纠正信息。所述纠正信息包括纠正文本。

步骤1800，服务器20根据纠正信息包括纠正文本，将纠正文本输入语音合成模块合成教读发音。具体地，将所述纠正文本输入语音合成模型，合成为教读发音，具体地，将所述跟读音频流输入语速预测模型，预测出所述跟读者的语速特征。将所述语速特征和所述纠正文本输入语音合成模型，合成为教读发音。输出所述教读发音。

步骤1900，服务器20将教读发音发送到学习终端10。

步骤2000，学习终端10输出教读发音。具体地，学习终端10通过音频输出装置输出教读发音。

图14是本发明实施例的电子设备的示意图。

如图14所示的电子设备14包括通用的硬件结构，其至少包括处理器141和存储器142。处理器141和存储器142通过总线143连接。存储器142适于存储处理器141可执行的指令或程序。处理器141可以是独立的微处理器，也可以是一个或者多个微处理器集合。由此，处理器141通过执行存储器142所存储的指令，从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其它装置的控制。总线143将上述多个组件连接在一起，同时将上述组件连接到显示控制器144和显示装置以及输入/输出(I/O)装置145。输入/输出(I/O)装置145可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地，输入/输出装置145通过输入/输出(I/O)控制器146与系统相连。

本领域的技术人员应明白，本申请的实施例可提供方法、装置(设备)或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品。

本申请是参照根据本申请实施例的方法、装置(设备)和计算机程序产品的流程图来描述的。应理解可由计算机程序指令实现流程图中的每一流程。

这些计算机程序指令可以存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现流程图一个流程或多个流程中指定的功能。

也可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程中指定的功能的装置。

本发明的另一实施例涉及一种非易失性可读存储介质，用于存储计算机可读程序，所述计算机可读程序用于供计算机执行上述部分或全部方法的实施例。

即，本领域技术人员可以理解，实现上述实施例的方法中的全部或部分步骤是可以通过程序来指定相关的硬件来完成，该程序存储在一个可读存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各实施例所述方法的全部或部分步骤。而前述的可读存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种信息交互方法，其特征在于，所述方法包括：

根据所述文本信息确定所述跟读音频流中的错误音素；

根据所述错误音素确定纠正信息；

输出所述纠正信息。

2.根据权利要求1所述的信息交互方法，其特征在于，所述根据所述文本信息确定所述跟读音频流中的错误音素方法包括：

获取所述文本信息对应的标准音素集合；

获取所述跟读音频流对应的跟读音素集合；

3.根据权利要求1所述的信息交互方法，其特征在于，所述根据所述错误音素确定纠正信息包括：

4.根据权利要求1所述的信息交互方法，其特征在于，所述纠正信息包括纠正文本；

所述输出所述纠正信息包括：

将所述纠正文本输入语音合成模型，合成为教读发音；

输出所述教读发音。

5.根据权利要求4所述的信息交互方法，其特征在于，所述将所述纠正文本输入语音合成模型，合成为教读发音包括：

6.根据权利要求4所述的信息交互方法，其特征在于，所述将所述纠正文本输入语音合成模型，合成为教读发音包括：

其中，所述指定时长大于跟读者的发音时长。

7.根据权利要求5或6所述的信息交互方法，其特征在于，所述合成为教读发音还包括:

8.根据权利要求4所述的信息交互方法，其特征在于，所述输出所述纠正信息还包括：

输出所述教学视频。

9.根据权利要求4所述的信息交互方法，其特征在于，所述输出所述纠正信息还包括：

渲染所述纠正文本以确定详细信息；

输出渲染后的所述纠正文本。

10.根据权利要求4所述的信息交互方法，其特征在于，所述输出所述纠正信息还包括：

确定所述跟读音频流的分值；

输出所述跟读音频流的分值。

11.一种信息交互装置，其特征在于，所述装置包括：

纠错模块，用于根据所述错误音素确定纠正信息；

教学输出模块，用于输出所述纠正信息。

12.一种计算机可读存储介质，用于存储计算机程序指令，其特征在于，所述计算机程序指令在被处理器执行时实现如权利要求1-10中任一项所述的方法。

13.一种电子设备，包括存储器和处理器，其特征在于，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-10中任一项所述的方法。