CN107403011B

CN107403011B - 虚拟现实环境语言学习实现方法和自动录音控制方法

Info

Publication number: CN107403011B
Application number: CN201710644676.8A
Authority: CN
Inventors: 龚嵩杰
Original assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Current assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Priority date: 2017-08-01
Filing date: 2017-08-01
Publication date: 2020-08-07
Anticipated expiration: 2037-08-01
Also published as: CN107403011A

Abstract

本发明提供一种虚拟现实环境语言学习实现方法，包括：步骤a：进入虚拟现实场景，场景包括至少一个用户、和/或至少一个虚拟人物；步骤b：用户和场景中的其他人员，按预设对话内容和预设的角色发言，直至对话内容结束。基于本发明的方法，在VR场景中，用户可以面对面与虚拟人物或其他用户进行交流，增强了虚拟现实语言学习和交流的参与感和观感，有效提升用户体验，提升语言学习效果。

Description

虚拟现实环境语言学习实现方法和自动录音控制方法

技术领域

本发明涉及计算机领域，特别涉及一种虚拟现实环境语言学习实现方法，和该实现方法所涉及的一种自动录音控制方法。

背景技术

虚拟现实(Virtual Reality，简称VR)技术综合了计算机图形技术、计算机仿真技术、传感器技术、显示技术等多种科学技术，在多维信息空间上创建一个虚拟信息环境，能使用户具有身临其境的沉浸感，具有与环境完善的交互作用能力。

当前VR的使用是行业热点，而依靠智能手机的沉浸式体验也受到越来越多的关注，伴随着越来越多高清屏幕手机，例如4K屏手机的有望推出，VR将进一步加速发展。目前的体验式语言学习的方式包括：寻找国外友人或其他爱好者一起交流，但涉及一个问题：不方便。如果一个人自己学习，比如复读机，一边听一边录，接着进行对比；或手机APP，一边听一边模仿，打分等；或者看视频，学习某一个场景下的语言使用方式，虽然很方便，但可能容易分心，或只能处理听、录、看，不能形成一种直接地互动，这样会大大地减弱了语言学习的效果。

针对上述问题，特别是结合VR环境的语言学习方法，目前尚未提出有效的解决方案。

发明内容

本发明提供一种VR环境语言学习实现方法，和该方法所涉及的一种自动录音控制方法，通过改善对话方式，提升VR环境语言学习体验。

本发明提供一种VR环境语言学习实现方法，包括

步骤a：进入虚拟现实场景应用程序中，场景包括至少一个用户、和/或至少一个虚拟人物；

步骤b：用户和场景中的其他人员，按预设对话内容和预设的角色发言，直至对话内容结束；

其他人员包括场景中的其他用户或虚拟人物；当发言对象为用户时，用户按承担的角色自动控制地录入相应的语音信息；当发言对象为虚拟人物时，虚拟人物按承担的角色调用并播放对话内容中角色发言所对应的原始录音，原始录音为应用程序保存的对话内容的标准录音；

其中，自动控制地录入相应的语音信息，至少包括：

步骤300：进入录音状态，记录用户的语音数据并缓存；

步骤301：实时检测用户语音缓存数据中非静音特征，若检测到非静音特征，则执行步骤302，否则返回步骤300；

步骤302：获取用户语音缓存数据中的非静音特征的时长t₁，根据所述时长t₁，确定首部片段语音的提取时长t’₂和尾部片段语音的提取时长为t’₃，满足t₁≥t’₂+t’₃；

步骤303：分别提取原始录音和用户语音缓存数据中t₁时长的首尾部片段语音，首部片段语音的提取时长为t’₂，尾部片段语音的提取时长为t’₃；

步骤304：比较原始录音和用户缓存语音数据中首尾部片段语音属性的相似度，若相似度均大于第一预设值，则结束当前录音，并保存缓存语音数据，否则返回步骤300。

本发明还提供一种自动录音控制方法，包括

步骤300：进入录音状态，记录用户的语音数据并缓存；

本发明基于VR系统，提供一种VR场景的语言学习实现方法，把VR场景中当前用户所见到、所发生的事设置成双语或多语状态，方便用户面对面与虚拟人物或其他用户进行交流，增强了虚拟现实语言学习和交流的参与感和观感，有效提升用户学习外语的兴趣和体验，让用户深入其中，提升学习效果。通过提取语音片断属性的方式，自动判断用户输入语音是否结束，可以流畅地执行用户与虚拟人物之间的对话，且操作更简便，改善了VR场景的对话方式。

附图说明

图1为本发明VR环境语言学习实现方法第一实施例流程图；

图2为本发明图1双人对话模式的一个实施例；

图3为本发明VR场景的第一实施例；

图4为本发明VR场景的第二实施例；

图5为本发明修正声音频率的示意图；

图6为本发明自动录音控制方法的第一实施例的流程图；

图7为本发明图6首尾部片段语音提取时间示意图；

图8为本发明首尾部片段语音属性示意图；

图9为本发明自动录音控制方法的第二实施例的流程图；

图10为本发明VR环境语言学习实现方法的第二实施例流程图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

图1给出一种VR环境语言学习实现方法包括：

Sa(或步骤a)：进入虚拟现实场景应用程序，场景中至少包括一个用户、和/或至少一个虚拟人物。

虚拟现实场景为预先开发的用于语言学习的VR场景语言学习应用程序，为了实现双人对话或多人对话，进入虚拟现实场景的用户(当前用户)，可以选择与同时处于VR场景中的其他用户或者VR场景开发的虚拟人物进行对话，即用户可以与其他用户对话，也可以与虚拟人物进行对话。

用户可以通过VR场景语言学习应用程序的设置菜单设置VR场景使用的通话语言和显示语言，通话语言和显示语言可以是世界常用语言，当前用户可以选择一种语言作为通话语言，选择一种或多种语言作为显示语言，其中VR场景默认的通话语言为英文，默认的显示语言英文、和/或中文。

进入VR场景后，用户发起对话，可以由当前用户发起，或其他用户发起的对话邀请当前用户参加。

可选地，本申请以组建对话组的方式，选定对话对象。发起对话的用户自主选择其他用户或虚拟人物组建对话组，进一步选择对话组的对话内容，以及对话组成员在对话内容中所承担的角色。如果对话组成员为虚拟人物和一个用户，可以由用户分配对话组成员在对话内容中所承担的角色，或当用户选择自己的角色后，VR场景自由分配其他成员的角色。如果对话组的成员还包括其他用户，则用户各自选择自身的角色，剩余的角色由系统自动分配或由具备角色分配权利的用户分配。

需要说明的是，在本申请中可以先组建对话组，再选定对话内容，再分配角色；或者先选定对话内容，再组建对话组，再分配角色。本申请对组建对话组、选定对话内容、分配角色的方法不做限定，可以通过预设指令、或操作菜单、或其他VR场景的预设操作。

另一方面，本申请也不限定用户发起对话的方式，可以通过输入预设的指令发起对话，或通过预设的菜单发起对话。

图2为一种双人对话模式实施例的流程图，步骤Sa还包括：

当用户通过VR输入控制定位到场景中的对象时，VR场景识别并判断对象属性，如果对象是虚拟人物，则执行步骤Sa1，如果对象是虚拟物体，则执行步骤Sa2。

举例说明：VR输入控制可以通过佩戴VR眼镜实现，VR眼镜通过移动光标定位对象，其他VR输入控制设备也可以用于定位对象，如体感外设、语音识别设备、或触控板等。

Sa1(步骤a1)：VR场景显示虚拟人物关联的对话内容菜单和对话内容中的角色，供用户进行选择；用户通过菜单选定对话内容，和对话内容中的用户角色后，虚拟人物自动担任对话内容中另一个角色，执行步骤b。

如图3所述，对话内容菜单包括双人对话模式和多人对话模式，“对话信息”中除“多人对话模式外”的其他对话内容默认为双人对话模式。

当用户选定双人对话模式的对话内容后，VR场景会进一步显示选定对话内容中的角色，供用户选择，当用户选定角色后，虚拟人物自动担任对话内容中的另一角色。

当用户选定多人对话模式时，VR场景可以进一步显示多人对话模式的对话内容，供用户选择；或显示组建对话组的菜单，用户可以邀请其他虚拟人物或其他用户加入对话组，待对话内容和对话组确定后，具有角色分配权的用户分配对话组成员在对话内容中所承担角色。

Sa2(步骤a2)：VR场景显示使用预设的语言(显示语言)显示虚拟物体的名称标签；如果虚拟物体是进入另一个虚拟场景的入口，在显示名称标签的同时提示进入新场景信息。

如图4所示，当用户定位的对象为虚拟物体时，使用预设的显示语言显示虚拟物体的名称标签，利用三维虚拟物体的名称标签学外语单词，可以充分发挥右脑的形象思维及记忆优势，运用照相记忆能力把将枯燥的单词转变为图像来记忆，提高外语学习兴趣。

如果虚拟物体是进入另一个VR场景的入口，在显示名称标签的同时提示进入新VR场景信息，方便用户切换VR场景。

在本申请的语言学习实现方法中，步骤a1进一步包括：

当用户通过VR输入控制定位到VR场景中的虚拟人物时，用户录入语音信息，VR场景分析并获取用户语音信息的关键字，虚拟人物根据关键字，调用并播放相应的原始录音，原始录音为VR场景保持的标准对话录音。

该模式为智能对话模式，不受对话内容的限定，用户可以自由发言，虚拟人物根据用户发言内容，智能回答。

在VR场景中，当前用户也可以与其他用户进行对话，此时对话模式为自由对话模式，VR场景实时转播用户输入语音。

Sb(步骤b)：用户与场景中的其他人员按预设的对话内容和预设的角色发言，直至对话内容结束。

其他人员包括场景中的其他用户或虚拟人物；当发言对象为用户时，用户按承担的角色自动控制地录入相应的语音信息；当发言对象为虚拟人物时，虚拟人物按承担的角色调用并播放对话内容中角色发言所对应的原始录音，原始录音为应用程序保存的预设对话内容的标准录音。

如果涉及对话组，则用户与场景中的其他人员组建成对话组，对话组成员按选定的对话内容和所承担的角色交替发言，直至对话内容结束。

在VR场景中，用户可以通过输入预设的指令启动对话，或通过预设的菜单启动对话。对话启动后，一个对话组成员发言完成后，即切换到另一对话组成员的发言状态。

本发明基于VR系统，提供一种VR场景的语言学习实现方法，把VR场景中的当前用户所见到、所发生的事设置成双语或多语状态，可以面对面与虚拟人物或其他用户进行交流，增强了虚拟现实参与感和观感，有效提升用户体验，让用户深入其中，提升语言学习效果。

由于VR场景是一个三维空间，对话组成员可能位于VR场景的不同位置，或对话组成员可能还可能具有各自的移动速度，因此为了增强当前用户的视听空间感受，在图1的步骤b中，在对话时，当前用户聆听其他人员发言时，基于多普勒效应原理，修正其他人员发言的声音频率f。

f为原始录音或用户录入语音的频率，修正后的声音频率为f′＝γf，将发言按修正后的频率f’播放，γ值与发言成员和用户之间的距离成反比。

下面给出γ值的一种取值方式，当发言成员和用户的距离越来越小时，γ值大于1，当发言成员和用户的距离越来越大时，γ值小于1。

或者

如图5所示，在VR场景中，获取当前用户移动速度v_o，处于发言状态的其他人员(发言人员)的移动速度v_s，发言成员和当前用户之间的连线与v_s之间的夹角为α，发言成员和当前用户之间的连线与v_o之间的夹角为β，v为声音在空气中的传播速度，修正后的声音频率为

在上述公式

中，当发言人员相对当前用户向当前用户运动，即发言人员与当前人员越来越近时，公式中分母用“-”，分子用“+”；相反，当发言人员相对当前用户向越来越远时，公式中分母用“+”，分子用“-”。

在步骤b中，自动控制地录入相应的语音信息，如图6所示，包括：

步骤300(S300)：进入录音状态；进一步地，在步骤300中，VR场景可以以预设的声音或提示框，提示用户开始录音；记录用户输入的语音数据并缓存，启动步骤301。

步骤301：实时检测用户语音缓存数据中非静音特征，若检测到非静音特征，则执行步骤302，否则返回步骤300。

步骤302：获取用户缓存语音数据中的非静音特征的时长t₁，根据时长t₁，确定首部片段语音的提取时长t’₂和尾部片段语音的提取时长为t’₃，满足t₁≥t’₂+t’₃，t’₃和t’₂取值设定后，执行步骤303。

进一步地，步骤302，还包括，若t₁≥t₂+t₃，令t’₃＝t₃，t’₂＝t₂；若t₁<t₂+t₃，令t’₃＝pt₁，t’₂＝(1-p)t₁，0<p≤1；t₂为首部片段语音的标准提取时长，t₃为尾部片段语音的标准提取时长。

缓存语音数据的非静音特征的时长t₁，包括缓存语音数据非静音特征开始的时刻至缓存数据中的最后非静音特征结束时刻。如图7所示，如果t₁的时长较长，大于等于首尾部片段语音的标准提取时长之和(t₂+t₃)，则按标准提取时长提取首尾部片段语音；如果t₁的时长较短，小于首尾部片段语音的标准提取时长之和(t₂+t₃)，则将t₁按p:(1-p)的比例进行分割，分别作为首尾部片段语音的提取时长。如此，可自动设定首尾部片段的提取时间，适应长短句的不同时长的比较需求。

步骤303：分别提取原始录音和用户语音缓存数据中t₁时长的首尾部片段语音，首部片段语音的提取时长为t’₂，尾部片段语音的提取时长为t’₃。

步骤304：比较原始录音和用户缓存语音数据中首尾部片段语音属性的相似度，若相似度均大于第一预设值，则结束录音，并保存缓存语音数据，否则返回步骤300。

本申请采用循环比对首尾部片段语音属性，可以实现自动录音控制，无需手动控制录音，智能程度较高，可明显提升用户体验，节省用户操作，同时首尾部片段的提取时间自动设定，可以适应长短句的不同时长的需求。

在步骤304中，语音属性可以时域语音特征，如时间VS声音幅度(图8)，或时间VS频率，或其他时域特征，或频域特征。

语音属性的声学特征，可以采用有线性预测编码、梅尔频率倒谱系数、梅尔标度滤波器组进行解析和提取。

因为语言学习的目标是与专业或标准的语音越接近越好，本申请的自动录音控制方法是基于语音的特征来检测语音输入是否结束，因专业而确保其准确性。

图8为原始录音的首尾片段语音属性(801+802)，和用户录入语音首尾片段语音属性(803+804)的示例图，4个小图的横坐标为时间，纵坐标为响度幅值。从图8可知，两者的波形基本相似，进一步说明了基于首尾片段语音属性判断语音输入是否结束的可行性和科学性。

需要说明的是，本申请的自动录音控制方法不仅可用于本申请的VR场景语言学习实现方法中，也可以应用于其他领域，如手机终端或其他终端的APP或软件中。

在本申请的自动录音控制方法中，在任意情况下，用户输入第一预设的指令，开启或重新开启录音；在任意情况下，用户输入第二预设的指令，退出录音步骤。如此用户可以自主控制录音步骤，当用户想放弃本次录音时，可以先退出录音，此时强制退出，不保存当前录音数据，之后再重新启动录音，用户又可以重新录入语音。

在步骤300中，在用户录入相应的语音信息之前，可以向用户(或用户通过VR输入控制)播放用户发言内容所对应的原始录音，供用户学习，或向用户显示用户发言所对应的原始文本信息。

在本申请的自动录音控制方法中，除了步骤302至步骤304判断的方法外，还可以通过比对文本信息判断语音输入是否结束，即步骤302至304可替换为步骤302’和304’。

步骤302’：解析用户语音数据，将用户语音数据转换为用户输入文本。

步骤304’：比较用户输入文本与原始录音所对应的原始文本的相似度，若相似度大于第二预设值，则结束录音，否则则返回步骤300。

举例说明：

原始录音对应的文本为：Could you please introduce yourself？

当用户录入的语音解析的文本为：Could you please introduce yourself？

通过文本比对，两者完全一致，则可判断对话用户语音输入结束。

进一步地，在步骤304’中，在结束录音之前，还包括，执行步骤309。

步骤309：通过比较用户输入文本与原始文本，检测并输出用户输入文本错误。

又或者，如图9所示，同时步骤302采用比较首尾片段语言属性的方法和比较文本的方法进行判断，并将两个方法的判断结果反馈给步骤304，步骤304对两个方案的判断结果进行或运算或与运算，如果运算结果为Y，则结束录音，否则返回步骤300。

在本申请的自动录音控制方法中，t₂为2～4秒，t₃为2～4秒，第一预设值为80％～100％，第二预设值为60～100％，p值不做限定，可依据实际评测或实验结果选定。

在本申请的语言学习实现方法中，在进入虚拟现实场景后，在任意情况下，用户输入预设指令触发录像线程，或开始录制视频，或暂停录制视频，或停止录制视频，或保存录制视频。录像线程与其他线程并行运行。

当前用户可以将对话录制成视频，然后以第三者的角度来观看。就像观看一个视频，只是其中的一个主人公是自己。增加录像功能，一方面方便用户检验自身的口语发音，同时基于VR场景录制小电影，可提升用户体验感，增强VR体验乐趣。

图10为本申请VR场景语言学习实现方法的一个具体实施例的流程图，该实施例为双人对话模式，多人对话模式与双人对话模式基本相同，差异仅在于组建多人对话组。该实施例包括以下步骤：

S901：设置VR场景的通话语言和显示语言，可以通过VR场景中的设置界面进行语言设置；

S902：当VR眼镜光标移动VR场景中的虚拟对象时，读取虚拟对象存在数据库中的标签；

S903：读取标签，为了提高效率，标签用数字或字母代替，并提前加载进内存。基于标签，判断虚拟对象是虚拟人物还是虚拟物体，如果虚拟对象为虚拟物体，执行S904，如果虚拟对象为虚拟人物，执行S905；

S904：当前光标指向虚拟物体时，VR场景自动显示虚拟物体的标签，标签名称包括多种显示语言名称；

S905：当前光标指向虚拟人物时，除了显示虚拟人物的基本信息外，还会显示该人物所关联的对话信息，可供当前用户与该虚拟人物进行(面对面)对话交流；

S906：用户选择对话内容；

S907：用户选择角色，当用户选取了角色A，虚拟人物自动承担对话内容的另一个角色B；

S908：同时角色B的语音即开始加载进内存，用于和当前用户进行对话；

S909：角色A的文本信息也开始加载进内存，用于和VR用户录入的语句进行比对，判断用户发言是否结束；

S911：调用对话内容的第一句录音；

S912：基于用户和虚拟人物的位置和速度，实时修正虚拟人物的录音的播放频率，并以修正后的频率播放录音；

S913：开始录音；

S914：确定用户录音数据的首尾片段提取时间；

S915：提取用户录音和原始录音的语音片头和片尾的码流数据，进行特征分析，若相似度大于第一预设值，则执行步骤S916；

S916：解析用户录音数据并转换为文本，和原始录音的文本进行特征比对；

S917：若S916的比对结果符合预期，则用户发言结束，否则返回步骤S913；

S918：判断对话是否结束，若否，则执行步骤S919；

S919：调用角色B的下一句对话，并返回步骤S912。

以上所述仅为本发明的较佳实施例而已，并不用以限定本发明的包含范围，凡在本发明技术方案的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种虚拟现实场景环境语言学习实现方法，其特征在于，至少包括以下步骤：

步骤a：进入虚拟现实场景应用程序中，所述场景包括至少一个用户和至少一个虚拟人物；

步骤b：所述用户和所述场景中的其他人员，按预设对话内容和预设的角色发言，直至所述对话内容结束；

所述其他人员包括所述场景中的其他用户或虚拟人物；当发言对象为用户时，用户按承担的角色自动控制地录入相应的语音信息；当所述发言对象为虚拟人物时，所述虚拟人物按承担的角色调用并播放所述对话内容中角色发言所对应的原始录音，所述原始录音为所述应用程序保存的所述对话内容的标准录音；

其中，所述自动控制地录入相应的语音信息，至少包括：

步骤300：进入录音状态，记录用户的语音数据并缓存；

步骤303：分别提取原始录音和所述用户语音缓存数据中t₁时长的首尾部片段语音，所述首部片段语音的提取时长为t’₂，所述尾部片段语音的提取时长为t’₃；

步骤304：比较所述原始录音和所述用户缓存语音数据中首尾部片段语音属性的相似度，若相似度均大于第一预设值，则结束当前录音，并保存所述缓存语音数据，否则返回步骤300。

2.根据权利要求1所述的方法，其特征在于，所述步骤302，还包括若t₁≥t₂+t₃，令t’₃＝t₃，t’₂＝t₂；若t₁<t₂+t₃，令t’₃＝pt₁，t’₂＝(1-p)t₁，0<p≤1；所述t₂为首部片段语音的标准提取时长，所述t₃为尾部片段语音的标准提取时长。

3.根据权利要求1所述的方法，其特征在于，所述步骤b，还包括，当其他人员发言时，修正所述发言的声音播放频率f为f'：f'＝γf，

其中，f为原始录音或用户录入语音的频率，所述γ值与所述其他人员和所述用户之间的距离成反比。

4.根据权利要求3所述的方法，其特征在于，当所述其他人员和所述用户的距离越来越小时，所述γ值大于1；当所述发言成员和所述用户的距离越来越大时，所述γ值小于1。

5.根据权利要求4所述的方法，其特征在于，当所述其他人员和所述用户的距离越来越小时，

当所述发言成员和所述用户的距离越来越大时，

其中，v_o为所述用户移动速度，v_s为所述其他人员的移动速度，所述其他人员和所述用户之间的连线与所述v_s之间的夹角为α，所述其他人员和所述用户之间的连线与所述v_o之间的夹角为β，v为声音在空气中的传播速度。

6.根据权利要求1所述的方法，其特征在于，

所述步骤302进一步包括：将所述用户缓存语音数据转换为用户输入文本，比较所述用户输入文本与所述原始录音所对应的原始文本的相似度，如果所述相似度大于第二预设值，则记录第一比较结果；

所述步骤304进一步包括，如果首尾部片段语音特征相似度均大于第一预设值，则记录第二比较结果；并将该第二比较结果、所述第一比较结果进行或运算或与运算，根据运算结果确定是否结束当前录音。

7.根据权利要求1所述的方法，其特征在于，在所述用户录入相应的语音信息之前，播放用户发言内容所对应的原始录音，和/或显示所述用户发言所对应的原始文本信息。

8.根据权利要求1所述的方法，其特征在于，所述步骤a还包括：

当用户通过虚拟现实场景应用程序输入控制定位到所述虚拟现实场景中的对象时，

步骤a1，如果所述对象是虚拟人物，则所述场景使用预设的语言显示所述虚拟人物关联的对话内容菜单和所述对话内容中的角色，供用户进行选择；用户通过菜单选定对话内容，和所述对话内容中的用户角色后，所述虚拟人物担任所述对话内容中的其他角色，

步骤a2，如果所述对象是虚拟物体，则所述场景使用预设的语言显示所述虚拟物体的名称标签；如果所述虚拟物体是进入另一个虚拟场景的入口，在显示所述名称标签的同时提示进入新场景信息。

9.根据权利要求8所述的方法，其特征在于，所述步骤a1进一步包括：

当用户通过VR输入控制定位到所述虚拟现实场景中的虚拟人物时，用户录入语音信息，所述场景分析并获取所述用户语音信息的关键字，所述虚拟人物根据所述关键字，调用并播放相应的原始录音。

10.一种自动录音控制方法，其特征在于，至少包括：

步骤300：进入录音状态；记录用户的语音数据并缓存；

11.根据权利要求10所述的方法，其特征在于，所述步骤302，还包括若t₁≥t₂+t₃，令t’₃＝t₃，t’₂＝t₂；若t₁<t₂+t₃，令t’₃＝pt₁，t’₂＝(1-p)t₁，0<p≤1；所述t₂为首部片段语音的标准提取时长，所述t₃为尾部片段语音的标准提取时长。

12.根据权利要求11所述的方法，其特征在于，所述步骤302进一步包括：

将所述用户缓存语音数据转换为用户输入文本，

比较所述用户输入文本与所述原始录音所对应的原始文本的相似度，如果所述相似度大于第二预设值，则记录第一比较结果；

13.根据权利要求12所述的方法，其特征在于，所述t₂为2～4秒，所述t₃为2～4秒，所述第一预设值为80％～100％，所述第二预设值为70～100％。