CN205451551U

CN205451551U - 一种语音识别驱动的增强现实人机交互视频语言学习系统

Info

Publication number: CN205451551U
Application number: CN201620002874.5U
Authority: CN
Inventors: 肖锦栋
Original assignee: Individual
Current assignee: Individual
Priority date: 2016-01-05
Filing date: 2016-01-05
Publication date: 2016-08-10
Anticipated expiration: 2026-01-05

Abstract

本实用新型属于语音识别、虚拟现实技术领域，具体涉及一种语音识别的三维视频播放设备;具体技术方案为：一种语音识别驱动的增强现实人机交互视频语言学习系统，语音录入设备的输出端口与该学习系统的语音识别模块的输入端口进行信号传输，语音识别模块的信号输出端与音频匹配模块的输入端口进行信号传输，音频匹配模块的输出端口与视频情节调度模块的输入端口进行信号传输，视频情节调度模块的输出端口与视频演进设备进行信号传输，学习者参与到三维视频情节之中，学习者扮演视频情节的角色，通过语音识别的技术，录入学习者的语音输入，以语音输入作为事件驱动，来驱动三维视频情节的演进，而三维视频情节则是应用了增强现实或虚拟现实的技术。

Description

一种语音识别驱动的增强现实人机交互视频语言学习系统

技术领域

本实用新型属于语音识别、虚拟现实（增强现实）技术领域，具体涉及一种语音识别的三维视频播放设备。

背景技术

目前，进行语言口语学习的方法是通过音频播放器、视频播放器，比如MP3播放器、平板电脑、手机、电视视频等，进行听、跟读等方法。目前，在语言学习上，比如在中文，外文（英文、法文、……等等），关于听说读的学习方法主要：阅读书籍、听音频，看视频。这种传统的学习方法在互动性、趣味性、以及实效性不够，体验感不强。

实用新型内容

为解决现有技术存在的技术问题，本实用新型提供了一种全新的学习系统，利用语音系统进行识别，将识别后的语音匹配视频来进行三维视频播放，趣味感强。

为实现上述目的，本实用新型所采用的技术方案为：一种语音识别驱动的增强现实人机交互视频语言学习系统，包括语音录入设备，语音录入设备的输出端口与该学习系统的语音识别模块的输入端口进行信号传输，语音识别模块内置有预设音频文件，语音识别模块的信号输出端与音频匹配模块的输入端口进行信号传输，音频匹配模块的输出端口与视频情节调度模块的输入端口进行信号传输，视频情节调度模块的输出端口与视频演进设备进行信号传输。语音识别模块对语音的识别比较结果驱动视频演进设备的情节演进，语音比较结果由音频匹配度阈值比较器来判定。

所述语音录入设备与语音识别模块之间连有时间基准调度模块，时间基准调度模块用以判定视频情节执行的起始时间，从而调度到正确的视频情节。起始时间判定以音频匹配阈值比较器的结果作为依据。

所述语音识别模块与音频匹配模块之间连有阙值比较器，阈值比较器是时间基准调度模块的起始时间判定依据的执行机构，也是视频演进设备进行情节演进调度的驱动机构。

本实用新型的工作原理：本实用新型让学习者参与到三维（3D）视频情节之中，学习者扮演视频情节的角色。通过语音识别的技术，录入学习者的语音输入，以语音输入作为事件驱动，来驱动三维视频情节的演进，而三维视频情节则是应用了增强现实或虚拟现实的技术，使得学习者有更深刻的学习体验。

三维视频情节由软件技术开发，模拟生成三维动态效果。

本实用新型的作用：让学习者身临其境参与到故事情节中，使得学习者对故事情节有更切身的感受，对所学习的语言知识有更直观的理解、更深刻的印象，就像是学习者自己亲身经历过一样，从而更快地、更好地掌握语言知识，获得语言能力。

虚拟现实技术（VirtualReality,简称VR），是一种可以创建和体验虚拟世界的计算机仿真系统。它利用计算机生成一种模拟环境，是一种多源信息融合的交互式的三维动态视景和实体行为的系统仿真，使用户沉浸在该环境中并得到亲身体验。

增强现实，是一种实时的计算机摄影影像的位置及角度并加上相应图像的技术，这种技术的目标是在屏幕上把虚拟世界套在现实世界并进行互动。这种技术最早于1990年提出。随着随身电子产品运算能力的提升，增强现实的用途越来越广。

语音识别技术，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。

本实用新型的主要目的是增强了语言学习过程中学习的主动性、互动性、趣味型，提高了学习的体验感。增强了学习的效果，尤其是口语的效果。

附图说明

图1为本实用新型的系统控控制图。

图2为本实用新型的工作原理图。

具体实施方式

为了使本实用新型所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本实用新型进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本实用新型，并不用于限定本实用新型。

如图1-2所示，一种语音识别驱动的增强现实人机交互视频语言学习系统，包括语音录入设备，语音录入设备的输出端口与语音识别模块的输入端口进行信号传输，语音识别模块内置有预设音频文件，语音识别模块的信号输出端与音频匹配模块的输入端口进行信号传输，音频匹配模块的输出端口与视频情节调度模块的输入端口进行信号传输，视频情节调度模块的输出端口与视频演进设备进行信号传输。

语音录入设备用于录入学习者的语音。本设备主要录入学习者口头表达所学习语言的话音。录入设备可以是麦克风等话音设备，或者是平板电脑、手机等数字设备内置的语音录入设备。

预设音频文件包括所学习语言及情节设计的背景音乐或者其他角色发出的声音。

语音录入设备与语音识别模块之间连有时间基准调度模块，时间基准调度模块是语音比较的时间基准：比较的时间基准以某情节开始录音为准，相应的预存音频文件也是同样的时间基准。

语音识别模块内设匹配度阈值：由于语音识别准确度的问题。为了保证情节演进的流畅性，语音识别阈值可以设置为0%到100%之间的任何一个值。一般地，根据需要，设置在60%到100%内，以保证语言学习的效果。

语音识别模块与音频匹配模块之间连有阙值比较器，阙值比较器利用现有的语音识别技术将录入的语音与预存音频文件进行比较，来确定语音录入匹配度是否达到要求。根据语音识别的匹配度来确定是否驱动视频情节继续演进。

三维视频情节由软件技术开发，模拟生成三维动态效果。

本实用新型的创新之处主要在以下几点：

一、语音识别驱动的增强现实（虚拟现实）在语言学习上的应用。

二、以语音识别的匹配度来驱动视频情节是否演进。

三、语音识别比较过程中的匹配度阈值预设，以保证视频情节演进的流畅性。

四、情节背景音抵消：在语言的学习过程中，由于情节演进过程中，动画情节本身也会发出声音，比如背景音乐、其他角色发出的声音等，但不限于此。这些情节背景音也会和学习者语音一起被录入，这就带来了对学习者语音录入的音频干扰。为了消除情节背景音的干扰，学习者语音录入与预存音频文件的比较要包含对录入背景音和预存背景音的比较。

以上所述仅为本实用新型的较佳实施例而已，并不用以限制本实用新型，凡在本实用新型的精神和原则之内所作的任何修改、等同替换和改进等，均应包在本实用新型范围内。

Claims

1.一种语音识别驱动的增强现实人机交互视频语言学习系统，其特征在于，包括语音录入设备，语音录入设备的输出端口与该学习系统的语音识别模块的输入端口进行信号传输，语音识别模块内置有预设音频文件，所述语音识别模块与音频匹配模块之间连有阙值比较器，

音频匹配模块的输出端口与视频情节调度模块的输入端口进行信号传输，视频情节调度模块的输出端口与视频演进设备进行信号传输。

2.根据权利要求1所述的一种语音识别驱动的增强现实人机交互视频语言学习系统，其特征在于，所述语音录入设备与语音识别模块之间连有时间基准调度模块。