CN106293347B

CN106293347B - 一种人机交互的学习方法及装置、用户终端

Info

Publication number: CN106293347B
Application number: CN201610673858.3A
Authority: CN
Inventors: 罗小芳
Original assignee: Guangdong Genius Technology Co Ltd
Current assignee: Guangdong Genius Technology Co Ltd
Priority date: 2016-08-16
Filing date: 2016-08-16
Publication date: 2019-11-12
Anticipated expiration: 2036-08-16
Also published as: CN106293347A

Abstract

本发明实施例涉及人机交互技术领域，公开了一种人机交互的学习方法及装置、用户终端，该方法包括：检测用户输入的配音指令，并根据该配音指令，输出配音操作界面，该配音操作界面输出有待配音视频，当检测到针对该待配音视频的播放指令时，根据该播放指令播放预先确定出的该待配音视频的第一视频片段，当检测到针对该第一视频片段的录音指令时，根据该录音指令获取用户输入的语音信息，将获取到的语音信息加载到该第一视频片段的音轨的相应时间轴处得到第二视频片段，并播放该第二视频片段。实施本发明实施例能够提高用户的学习效果及学习积极性，进而提高用户的粘稠度。

Description

一种人机交互的学习方法及装置、用户终端

技术领域

本发明涉及人机交互技术领域，具体涉及一种人机交互的学习方法及装置、用户终端。

背景技术

随着互联网技术的快速发展，市场上出现了大量的学习类用户终端，如点读机等，这类用户终端能够通过动漫点读的方式支持视频动画的播放，进而使用户进行语言学习，例如，用户可以手动点击用户终端上的播放图标来控制用户终端播放相应的视频动画。在实践中发现，当前的用户终端只能够使用户通过手与用户终端的屏幕进行交互，学习方式比较单一，降低了用户的学习效果以及学习积极性，进而降低了用户的粘稠度。

发明内容

本发明实施例公开了一种人机交互的学习方法及装置、用户终端，能够提高用户的学习效果及学习积极性，进而提高用户的粘稠度。

本发明实施例第一方面公开了一种人机交互的学习方法，所述方法包括：

检测用户输入的配音指令，并根据所述配音指令输出配音操作界面，所述配音操作界面输出有待配音视频；

当检测到针对所述待配音视频的播放指令时，根据所述播放指令播放预先确定出的所述待配音视频的第一视频片段；

当检测到针对所述第一视频片段的录音指令时，根据所述录音指令获取用户输入的语音信息，将所述用户输入的语音信息加载到所述第一视频片段的音轨的相应时间轴处得到第二视频片段，并播放所述第二视频片段。

作为一种可选的实施方式，在本发明实施例第一方面中，所述当检测到针对所述第一视频片段的录音指令时，根据所述录音指令获取用户输入的语音信息，包括：

当检测到针对所述第一视频片段的录音指令时，根据所述录音指令播放所述第一视频片段；

在播放所述第一视频片段的过程中且需要用户输入语音信息时，对所述第一视频片段执行语音消音操作，输出语音输入提示消息，并获取用户输入的语音信息。

作为一种可选的实施方式，在本发明实施例第一方面中，所述根据所述录音指令获取用户输入的语音信息之后，所述将所述用户输入的语音信息加载到所述第一视频片段的音轨的相应时间轴处得到第二视频片段之前，所述方法还包括：

提取所述第一视频片段中语音信息的第一特征参数以及所述用户输入的语音信息的第二特征参数；

判断所述第二特征参数是否与所述第一特征参数相匹配，当所述第二特征参数与所述第一特征参数相匹配时，触发执行所述将所述用户输入的语音信息加载到所述第一视频片段的音轨的相应时间轴处得到第二视频片段的操作。

作为一种可选的实施方式，在本发明实施例第一方面中，所述当检测到针对所述待配音视频的播放指令时，根据所述播放指令播放预先确定出的所述待配音视频的第一视频片段之前，所述方法还包括：

根据所述待配音视频的音轨确定所述待配音视频中的语音信息段，并根据所述语音信息段将所述待配音视频划分成多个视频片段；

将用户从所述多个视频片段中选择的其中一个视频片段确定为第一视频片段。

确定所述待配音视频中能够输出语音信息的多个虚拟角色；

输出所述多个虚拟角色供用户选择，并将用户从输出的所述多个虚拟角色中选择的其中一个虚拟角色确定为用户需要配音的虚拟角色；

从所述待配音视频中确定出所述其中一个虚拟角色输出语音信息的多个视频片段，并将所述多个视频片段中最早出现在所述待配音视频中的视频片段确定为第一视频片段。

本发明实施例第二方面公开了一种人机交互的学习装置，所述装置包括检测单元、输出单元、播放单元、获取单元以及加载单元，其中：

所述检测单元，用于检测用户输入的配音指令；

所述输出单元，用于根据所述配音指令输出配音操作界面，所述配音操作界面输出有待配音视频；

所述播放单元，用于当检测到针对所述待配音视频的播放指令时，根据所述播放指令播放预先确定出的所述待配音视频的第一视频片段；

所述获取单元，用于当检测到针对所述第一视频片段的录音指令时，根据所述录音指令获取用户输入的语音信息；

所述加载单元，用于将所述用户输入的语音信息加载到所述第一视频片段的音轨的相应时间轴处得到第二视频片段；

所述播放单元，还用于播放所述第二视频片段。

作为一种可选的实施方式，在本发明实施例第二方面中，所述获取单元包括播放子单元、消音子单元、输出子单元以及获取子单元，其中：

所述播放子单元，用于当检测到针对所述第一视频片段的录音指令时，根据所述录音指令播放所述第一视频片段；

所述消音子单元，用于在播放所述第一视频片段的过程中且需要用户输入语音信息时，对所述第一视频片段执行语音消音操作；

所述输出子单元，用于输出语音输入提示消息；

所述获取子单元，用于获取用户输入的语音信息。

作为一种可选的实施方式，在本发明实施例第二方面中，所述装置还包括提取单元以及判断单元，其中：

所述提取单元，用于在所述获取单元根据所述录音指令获取用户输入的语音信息之后以及在所述加载单元将所述用户输入的语音信息加载到所述第一视频片段的音轨的相应时间轴处得到第二视频片段之前，提取所述第一视频片段中语音信息的第一特征参数以及所述用户输入的语音信息的第二特征参数；

所述判断单元，用于判断所述第二特征参数是否与所述第一特征参数相匹配，当所述第二特征参数与所述第一特征参数相匹配时，触发所述加载单元执行所述将所述用户输入的语音信息加载到所述第一视频片段的音轨的相应时间轴处得到第二视频片段的操作。

作为一种可选的实施方式，在本发明实施例第二方面中，所述装置还包括第一确定单元以及划分单元，其中：

所述第一确定单元，用于在所述播放单元根据所述播放指令播放预先确定出的所述待配音视频的第一视频片段之前，根据所述待配音视频的音轨确定所述待配音视频中的语音信息段；

所述划分单元，用于根据所述语音信息段将所述待配音视频划分成多个视频片段；

所述第一确定单元，还用于将用户从所述多个视频片段中选择的其中一个视频片段确定为所述第一视频片段。

作为一种可选的实施方式，在本发明实施例第二方面中，所述装置还包括第二确定单元，其中：

所述第二确定单元，用于在所述播放单元根据所述播放指令播放预先确定出的所述待配音视频的第一视频片段之前，确定所述待配音视频中能够输出语音信息的多个虚拟角色；

所述输出单元，还用于输出所述多个虚拟角色供用户选择；

所述第二确定单元，还用于将用户从输出的所述多个虚拟角色中选择的其中一个虚拟角色确定为用户需要配音的虚拟角色，从所述待配音视频中确定出所述其中一个虚拟角色输出语音信息的多个视频片段，并将所述多个视频片段中最早出现在所述待配音视频中的视频片段确定为所述第一视频片段。

本发明实施例第三方面公开了一种用户终端，所述用户终端包括本发明实施例第二方面公开的人机交互的学习装置。

与现有技术相比，本发明实施例具有以下有益效果：

本发明实施例中，检测用户输入的配音指令，并根据该配音指令，输出配音操作界面，该配音操作界面输出有待配音视频，当检测到针对该待配音视频的播放指令时，根据该播放指令播放预先确定出的该待配音视频的第一视频片段，当检测到针对该第一视频片段的录音指令时，根据该录音指令获取用户输入的语音信息，将获取到的语音信息加载到该第一视频片段的音轨的相应时间轴处得到第二视频片段，并播放该第二视频片段。可见，实施本发明实施例能够通过在播放视频时允许用户模拟视频对话的方式进行趣味性的观看学习，增加了用户与用户终端间的交互学习方式，提高了用户的学习效果及学习积极性，进而提高了用户的粘稠度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例公开的一种人机交互的学习方法的流程示意图；

图2是本发明实施例公开的另一种人机交互的学习方法的流程示意图；

图3是本发明实施例公开的一种人机交互的学习装置的结构示意图；

图4是本发明实施例公开的另一种人机交互的学习装置的结构示意图；

图5是本发明实施例公开的又一种人机交互的学习装置的结构示意图；

图6是本发明实施例公开的又一种人机交互的学习装置的结构示意图；

图7是本发明实施例公开的一种用户终端的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种人机交互的学习方法及装置、用户终端，能够通过在播放视频时允许用户模拟视频对话的方式进行趣味性的观看学习，增加了用户与用户终端间的交互学习方式，提高了用户的学习效果及学习积极性，进而提高了用户的粘稠度。以下分别进行详细说明。

实施例一

请参阅图1，图1是本发明实施例公开的一种人机交互的学习方法的流程示意图。其中，图1所示的人机交互的学习方法可以应用于智能手机(Android手机、iOS手机等)、平板电脑、学习机、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)等用户终端中，本发明实施例不做限定。如图1所示，该人机交互的学习方法可以包括以下操作：

101、用户终端检测用户输入的配音指令，并根据该配音指令输出配音操作界面，该配音操作界面输出有待配音视频。

本发明实施例中，当用户终端根据用户的学习需求播放视频时，用户终端在视频播放界面播放视频的同时输出配音操作图标，用户终端可以通过检测用户针对该配音操作图标的触摸操作或点击操作来检测用户输入的配音指令，且当检测到用户输入的配音指令时，用户终端当前播放的视频即为待配音视频。

102、当检测到针对上述待配音视频的播放指令时，用户终端根据该播放指令播放预先确定出的上述待配音视频的第一视频片段。

本发明实施例中，该第一视频片段可以是根据用户选择的待配音视频中的虚拟角色确定的，也可以是根据上述待配音视频中的语音信息段决定的，还可以是由用户设置的配音时长决定的，本发明实施例不做限定。

本发明实施例中，可选的，在播放上述待配音视频的第一视频片段的同时，用户终端可以输出该第一视频片段中语音信息的文本信息供用户参考。

103、当检测到针对上述第一视频片段的录音指令时，用户终端根据该录音指令获取用户输入的语音信息。

本发明实施例中，针对上述第一视频片段的录音指令可以是在用户终端播放完上述第一视频片段之后检测到的，也可以是在用户终端播放上述第一视频片段的过程中检测到的，本发明实施例不做限定。

104、用户终端将上述用户输入的语音信息加载到上述第一视频片段的音轨的相应时间轴处得到第二视频片段，并播放该第二视频片段。

本发明实施例中，该第二视频片段又可以称为第一视频片段的配音视频片段。

在一个可选的实施例中，当检测到针对上述第一视频片段的录音指令时，用户终端根据该录音指令获取用户输入的语音信息可以包括：

当检测到针对上述第一视频片段的录音指令时，根据该录音指令播放该第一视频片段；

在播放该第一视频片段的过程中且需要用户输入语音信息时，对上述第一视频片段执行语音消音操作，输出语音输入提示消息，并获取用户输入的语音信息。

在该可选的实施例中，该语音输入提示消息用于提示用户输入相应的语音信息，可选的，该语音输入提示消息可以包括用户需要输入的语音信息的文本信息，其中，该文本信息为上述第一视频片段中语音信息的文本信息，即用户终端允许用户边观看上述第一视频片段边录音，这样更能够吸引用户的注意力并达到很好的配音效果。当上述第一视频片段播放至有语音信息输出的位置时，用户终端对即将输出的上述第一视频片段中的语音信息执行消音操作，提示用户进行录音并获取用户输入的语音信息，以完成针对上述第一视频片段的配音操作，当上述第一视频片段中需要配音的视频片段播放完毕时，用户终端恢复针对上述第一视频片段的语音信息的输出。

举例来说，假设上述待配音视频是时长为一分钟的对话练习视频，且第一视频片段的时长为15秒，以及该第一视频片段在第5-9秒时会输出语音信息，当检测到针对该第一视频片段的录音指令时，用户终端从该第一视频片段的起始播放位置开始正常播放该第一视频片段，当播放至该第一视频片段的第5秒时，用户终端对该第一视频片段在第5秒至第9秒需要输出的语音信息执行消音操作，并在播放至该第一视频片段的第5秒时或第5秒之前输出语音输入提示消息，以便用户做好录音准备，且用户终端在消音播放该第一视频片段的第5秒至第9秒的视频内容的同时获取用户输入的语音信息，并将该语音信息加载到第一视频片段的音轨的第5秒至第9秒的时间轴处，以完成对该第一视频片段的配音。

需要说明的是，用户终端在检测到针对上述第一视频片段的录音指令时，也可以直接输出语音输入提示消息，该语音输入提示消息用于提示用户输入语音信息，且该语音输入提示消息包括用户需要输入的语音信息的文本信息，以便用户直接根据文本信息里的文本内容输入语音信息，当获取到用户输入的语音信息之后，用户终端直接将获取到的语音信息加载到上述第一视频片段的音轨的相应时间轴处，以完成针对上述第一视频片段的配音。

需要说明的是，用户终端在获取用户输入的语音信息的同时会对获取到的语音信息执行降噪处理，以减少其它声音带来的噪声干扰，提高了配音的效果。

本发明实施例中，以上述待配音视频为动漫视频为例，当用户终端在播放该动漫视频时检测到用户针对“去配音”操作图标或“配音”操作图标的触摸操作或点击操作时，用户终端跳转至配音操作界面，当检测到用户点击播放按钮时，用户终端以单句播放的方式播放动漫视频，同时在配音操作界面输出与单句语音对应的文本，当单句播放完毕后且检测到用户点击录音按钮时，用户终端获取用户输入的语音信息，并将获取到的语音信息加载到音轨的相应时间轴处，以完成对该单句语音的配音，在配音完成后，用户终端可以根据用户的需求对配音后的动漫视频进行播放、重新输入语音信息或者存储配音后的动漫视频等操作，当整个动漫视频配音完毕后，用户终端可以根据用户的需求整体播放配音后的动漫视频，以供用户整体观看自身的配音效果。

可见，实施图1所描述的人机交互的学习方法能够通过在播放视频时允许用户模拟视频对话的方式进行趣味性的观看学习，增加了用户与用户终端间的交互学习方式，提高了用户的学习效果及学习积极性，进而提高了用户的粘稠度。

实施例二

请参阅图2，图2是本发明实施例公开的另一种人机交互的学习方法的流程示意图。其中，图2所示的人机交互的学习方法可以应用于智能手机(Android手机、iOS手机等)、平板电脑、学习机、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)等用户终端中，本发明实施例不做限定。如图2所示，该人机交互的学习方法可以包括以下操作：

201、检测用户输入的配音指令，并根据该配音指令输出配音操作界面，该配音操作界面输出有待配音视频。

202、确定上述待配音视频中的第一视频片段。

作为一种可选的实施方式，确定上述待配音视频中的第一视频片段可以包括：

根据上述待配音视频的音轨确定上述待配音视频中的语音信息段，并根据确定出的语音信息段将上述待配音视频划分成多个视频片段并输出供用户选择，即一个语音信息段对应一个视频片段；

将用户从多个视频片段中选择的其中一个视频片段确定为第一视频片段。

作为另一种可选的实施方式，确定上述待配音视频中的第一视频片段也可以包括：

确定上述待配音视频中能够输出语音信息的多个虚拟角色；

输出该多个虚拟角色供用户选择，并将用户从输出的该多个虚拟角色中选择的其中一个虚拟角色确定为用户需要配音的虚拟角色；

从上述待配音视频中确定出该其中一个虚拟角色输出语音信息的多个视频片段，并将多个视频片段中最早出现在上述待配音视频中的视频片段确定为第一视频片段，或者将用户从该多个视频片段中选择出的其中一个视频片段确定为第一视频片段。

203、当检测到针对上述待配音视频的播放指令时，根据该播放指令播放上述第一视频片段。

204、当检测到针对上述第一视频片段的录音指令时，根据该录音指令获取用户输入的语音信息。

205、提取上述第一视频片段中语音信息的第一特征参数以及上述用户输入的语音信息的第二特征参数。

本发明实施例中，语音信息的特征参数(第一特征参数及第二特征参数)可以包括该语音信息的时长、该语音信息对应的文本信息、该语音信息的音调序列以及该语音信息的语速中的至少一种。

206、判断上述第二特征参数是否与上述第一特征参数相匹配。

本发明实施例中，当步骤206的判断结果为是时，确定用户输入的语音信息正确并触发执行步骤207；当步骤206的判断结果为否时，确定用户输入的语音信息错误并触发执行步骤208。

可选的，当语音信息的特征参数包括该语音信息的时长、该语音信息对应的文本信息、该语音信息的音调序列以及该语音信息的语速时，判断上述第二特征参数是否与上述第一特征参数相匹配可以包括：

判断用户输入的语音信息的文本信息是否与第一视频片段中语音信息的文本信息完全相同，当判断结果为是时，判断用户输入的语音信息的时长与上述第一视频片段中语音信息的时长差是否在预设时长内，当时长差在预设时长内时，判断用户输入的语音信息的音调序列与上述第一视频片段中语音信息的音调序列的匹配率是否大于等于预设匹配率，当大于等于预设匹配率时，判断用户输入的语音信息的语速是否与上述第一视频片段中语音信息的语速处于相同的语速范围内，当处于相同的语速范围内时，确定上述第二特征参数与上述第一特征参数相匹配。

207、将上述用户输入的语音信息加载到上述第一视频片段的音轨的相应时间轴处得到第二视频片段，并播放该第二视频片段。

208、提示用户输入的语音信息与上述第一视频片段中的语音信息不匹配，并提示用户重新输入语音信息。

本发明实施例中，在执行完毕步骤208之后，可以重新触发执行步骤204。

可见，实施图2所描述的人机交互的学习方法能够通过在播放视频时允许用户模拟视频对话的方式进行趣味性的观看学习，且能够保证用户输入的语音信息与视频中的语音信息相匹配，提高了用户语言学习的准确性，增加了用户与用户终端间的交互学习方式，提高了用户的学习效果及学习积极性，进而提高了用户的粘稠度。

实施例三

请参阅图3，图3是本发明实施例公开的一种人机交互的学习装置的结构示意图。其中，图3所示的人机交互的学习装置300可以安装在智能手机(Android手机、iOS手机等)、平板电脑、学习机、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)等用户终端中，本发明实施例不做限定。如图3所示，该人机交互的学习装置300可以包括检测单元301、输出单元302、播放单元303、获取单元304以及加载单元305，其中：

检测单元301用于检测用户输入的配音指令。

输出单元302用于根据检测单元301检测到的配音指令输出配音操作界面，该配音操作界面输出有待配音视频。

播放单元303用于当检测单元301检测到针对上述待配音视频的播放指令时，根据该播放指令播放预先确定出的上述待配音视频的第一视频片段。

获取单元304用于当检测单元301检测到针对上述第一视频片段的录音指令时，根据该录音指令获取用户输入的语音信息。

加载单元305用于将获取单元304获取到的用户输入的语音信息加载到上述第一视频片段的音轨的相应时间轴处得到第二视频片段。

播放单元303还用于播放加载单元305得到的上述第二视频片段。

可见，实施图3所描述的人机交互的学习装置300能够通过在播放视频时允许用户模拟视频对话的方式进行趣味性的观看学习，增加了用户与用户终端间的交互学习方式，提高了用户的学习效果及学习积极性，进而提高了用户的粘稠度。

在一个可选的实施例中，获取单元304可以包括播放子单元3041、消音子单元3042、输出子单元3043以及获取子单元3044，进一步可选的，该人机交互的学习装置300还可以包括提取单元306以及判断单元307，此时，该人机交互的学习装置300的结构可以如图4所示，图4是本发明实施例公开的另一种人机交互的学习装置的结构示意图。其中：

播放子单元3041用于当检测单元301检测到针对上述第一视频片段的录音指令时，根据该录音指令播放上述第一视频片段。

消音子单元3042用于在播放子单元3041播放上述第一视频片段的过程中且需要用户输入语音信息时，对上述第一视频片段执行语音消音操作。

本发明实施例中，消音子单元3042对上述第一视频片段执行语音消音操作的同时触发输出子单元3043以及获取子单元3044执行相应的操作。

输出子单元3043用于输出语音输入提示消息，该语音输入提示消息用于提示用户输入相应的语音信息，可选的，该语音输入提示消息可以包括用户需要输入的语音信息的文本信息，其中，该文本信息为上述第一视频片段中语音信息的文本信息。

获取子单元3044用于在需要用户输入语音信息的时间段内，获取用户输入的语音信息。

提取单元306用于在获取单元304根据上述录音指令获取用户输入的语音信息之后以及在加载单元305将获取单元304获取到的用户输入的语音信息加载到上述第一视频片段的音轨的相应时间轴处得到第二视频片段之前，提取上述第一视频片段中语音信息的第一特征参数以及上述用户输入的语音信息的第二特征参数。

判断单元307用于判断提取单元306提取到的第二特征参数是否与第一特征参数相匹配，当第二特征参数与第一特征参数相匹配时，触发加载单元305执行上述将获取单元304获取到的用户输入的语音信息加载到上述第一视频片段的音轨的相应时间轴处得到第二视频片段的操作。

可见，实施图4所描述的人机交互的学习装置300能够通过在播放视频时允许用户模拟视频对话的方式进行趣味性的观看学习，且能够保证用户输入的语音信息与视频中的语音信息相匹配，提高了用户语言学习的准确性，增加了用户与用户终端间的交互学习方式，提高了用户的学习效果及学习积极性，进而提高了用户的粘稠度。

在另一个可选的实施例中，该人机交互的学习装置300还可以包括第一确定单元308以及划分单元309，此时，该人机交互的学习装置300的结构可以如图5所示，图5是本发明实施例公开的又一种人机交互的学习装置的结构示意图。其中：

第一确定单元308用于在播放单元303根据播放指令播放预先确定出的上述待配音视频的第一视频片段之前，根据上述待配音视频的音轨确定待配音视频中的语音信息段。

划分单元309用于根据第一确定单元308确定出的语音信息段将上述待配音视频划分成多个视频片段。

输出单元302还可以用于输出划分单元309划分得到的多个视频片段。

第一确定单元308还可以用于将用户从输出单元302输出的上述多个视频片段中选择的其中一个视频片段确定为第一视频片段。

在又一个可选的实施例中，该人机交互的学习装置300还可以包括第二确定单元310，此时，该人机交互的学习装置300的结构可以如图6所示，图6是本发明实施例公开的又一种人机交互的学习装置的结构示意图。其中：

第二确定单元310用于在播放单元303根据播放指令播放预先确定出的上述待配音视频的第一视频片段之前，确定上述待配音视频中能够输出语音信息的多个虚拟角色。

输出单元302还可以用户输出上述多个虚拟角色供用户选择。

第二确定单元310还用于将用户从输出的上述多个虚拟角色中选择的其中一个虚拟角色确定为用户需要配音的虚拟角色，从上述待配音视频中确定出该其中一个虚拟角色输出语音信息的多个视频片段，并将该多个视频片段中最早出现在上述待配音视频中的视频片段确定为第一视频片段。

可见，实施图6所描述的人机交互的学习装置300能够通过在播放视频时允许用户模拟视频对话的方式进行趣味性的观看学习，且能够提供视频中的虚拟角色供用户选择配音，个性化强且趣味性高，增加了用户与用户终端间的交互学习方式，提高了用户的学习效果及学习积极性，进而提高了用户的粘稠度。

实施例四

请参阅图7，图7是本发明实施例公开的一种用户终端的结构示意图。如图7所示，该用户终端可以包括图3至图6所描述的任意一个人机交互的学习装置。其中，实施图7所描述的用户终端能够通过在播放视频时允许用户模拟视频对话的方式进行趣味性的观看学习，且能够保证用户输入的语音信息与视频中的语音信息相匹配以及能够提供视频中的虚拟角色供用户选择配音，个性化强且趣味性高，提高了用户语言学习的准确性，增加了用户与用户终端间的交互学习方式，提高了用户的学习效果及学习积极性，进而提高了用户的粘稠度。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质包括只读存储器(Read-Only Memory，ROM)、随机存储器(Random Access Memory，RAM)、可编程只读存储器(Programmable Read-only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory，OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

以上对本发明实施例公开的一种人机交互的学习方法及装置、用户终端进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种人机交互的学习方法，其特征在于，所述方法包括：

当检测到针对所述第一视频片段的录音指令时，根据所述录音指令获取用户输入的语音信息，提取所述第一视频片段中语音信息的第一特征参数以及所述用户输入的语音信息的第二特征参数；判断所述第二特征参数是否与所述第一特征参数相匹配，当所述第二特征参数与所述第一特征参数相匹配时，将所述用户输入的语音信息加载到所述第一视频片段的音轨的相应时间轴处得到第二视频片段，并播放所述第二视频片段；

所述判断所述第二特征参数是否与所述第一特征参数相匹配包括：判断用户输入的语音信息的文本信息是否与第一视频片段中语音信息的文本信息完全相同，当判断结果为是时，判断用户输入的语音信息的时长与所述第一视频片段中语音信息的时长差是否在预设时长内，当时长差在预设时长内时，判断用户输入的语音信息的音调序列与所述第一视频片段中语音信息的音调序列的匹配率是否大于等于预设匹配率，当大于等于预设匹配率时，判断用户输入的语音信息的语速是否与所述第一视频片段中语音信息的语速处于相同的语速范围内，当处于相同的语速范围内时，确定所述第二特征参数与所述第一特征参数相匹配。

2.根据权利要求1所述的方法，其特征在于，所述当检测到针对所述第一视频片段的录音指令时，根据所述录音指令获取用户输入的语音信息，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述当检测到针对所述待配音视频的播放指令时，根据所述播放指令播放预先确定出的所述待配音视频的第一视频片段之前，所述方法还包括：

4.根据权利要求1或2所述的方法，其特征在于，所述当检测到针对所述待配音视频的播放指令时，根据所述播放指令播放预先确定出的所述待配音视频的第一视频片段之前，所述方法还包括：

确定所述待配音视频中能够输出语音信息的多个虚拟角色；

5.一种人机交互的学习装置，其特征在于，所述装置包括检测单元、输出单元、播放单元、获取单元、提取单元、判断单元以及加载单元，其中：

所述检测单元，用于检测用户输入的配音指令；

所述播放单元，还用于播放所述第二视频片段；

所述判断单元，用于判断所述第二特征参数是否与所述第一特征参数相匹配，当所述第二特征参数与所述第一特征参数相匹配时，触发所述加载单元执行所述将所述用户输入的语音信息加载到所述第一视频片段的音轨的相应时间轴处得到第二视频片段的操作；

6.根据权利要求5所述的装置，其特征在于，所述获取单元包括播放子单元、消音子单元、输出子单元以及获取子单元，其中：

所述输出子单元，用于输出语音输入提示消息；

所述获取子单元，用于获取用户输入的语音信息。

7.根据权利要求5或6所述的装置，其特征在于，所述装置还包括第一确定单元以及划分单元，其中：

8.根据权利要求5或6所述的装置，其特征在于，所述装置还包括第二确定单元，其中：

所述输出单元，还用于输出所述多个虚拟角色供用户选择；

9.一种用户终端，其特征在于，所述用户终端包括如权利要求5-8任一项所述的人机交互的学习装置。