具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种,但是不排除包含至少一种的情况。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
应当理解,尽管在本发明实施例中可能采用术语第一、第二、第三等来描述XXX,但这些XXX不应限于这些术语。这些术语仅用来将XXX区分开。例如,在不脱离本发明实施例范围的情况下,第一XXX也可以被称为第二XXX,类似地,第二XXX也可以被称为第一XXX。
取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。
进一步值得说明的是,本发明各实施例中各步骤之间的顺序是可以调整的,不是必须按照以下举例的顺序执行。
本发明实施例提供的一种虚拟现实语言教学交互方法,可以应用于虚拟现实设备,该虚拟现实设备可以为单/双目虚拟现实眼镜、以及各种形态的头戴设备。具体地,本实施例提供的方法还可以应用于运行在虚拟现实设备上的虚拟现实交互装置,该交互装置可以为语言教学软件,还可以为电子词典软件、翻译软件等相关软件的功能插件。
如图1所示,本发明实施例提供的一种虚拟现实语言教学交互方法,包括如下步骤:
S101:展示预先生成的虚拟场景,虚拟场景中包括虚拟交互者和多个物体。
实际应用中,展示预先生成的虚拟场景,可以为语言学习者建立一个对话情景,进而有助于引导学习语言的用户的思路,更容易使得用户主动通过所学习语言讲出自己的想法。需要说明的是,预先生成的虚拟场景并不唯一,虚拟场景可以包括现实世界中的任意场景,例如教室、商场、游乐场、办公室等等。在用户开始学习语言时,可以响应于用户的选择展示虚拟现实设备中的任一场景;在未接收到用户的选择时可以随机展示虚拟现实设备中的任一场景、或者可以设置默认场景进行展示。相应于虚拟场景的不同,物体的种类也可以有所不同,例如,在办公室中,物体可以包括打印机、计算机、电话、办公桌、日光灯、咖啡机、回形针、传真机等等;在商场场景中,物体可以包括各种商品、柜台、展示商品的展示柜、置物架等等。
可选地,当根据用户选择展示虚拟场景后,若虚拟现实设备中没有存储用户所选场景,则显示“该场景未开放”,并在设备所存储的场景中选择一个场景进行推荐。例如,若用户说我想去图书馆,而此时设备中并未存储图书馆的虚拟场景,此时可以输出“图书馆目前还没有开放,去书店逛逛怎么样?”的信息,并在接收到用户的确认指令后,切换至书店的虚拟场景。
可选地,若用户结束浏览某一个非默认的虚拟场景时,可切换至默认虚拟场景。例如,当用户结束浏览商场的虚拟场景,则展示默认场景家的虚拟场景。
可选地,虚拟交互者可以为虚拟机器人,虚拟机器人可以体现为任意形态,例如可以为真实的人的形态、还可以为某一卡通人物的形态、当然还可以为动物的形态。
展示虚拟空间后,用户会根据自己的意愿选择其中的某一个物体,以便针对所选中物体通过所学习语言与机器进行交互,达到语言学习的目的。本实施例中,用户选择物体的方式不唯一,例如,用户可以通过与虚拟现实设备相通信的手柄选择,或者用户可以通过语音选择,再如,用户可以通过手指直接指向某一物体以示选择该物体。
可选地,为了使用户知晓自己期望选择的物体是否被选中、或者为了防止用户遗忘自己所选择的物体,在用户选择虚拟场景中某一物体后,可以将该物体至于选中状态。具体地,将物体至于选中状态的方式可以包括:将该物体的颜色标亮、或者使该物体闪烁等等。
S102:若接受到用户对上述多个物体的选择操作,则控制虚拟交互者以预设语言输出与被选择的物体对应的发音语音,以供用户跟读发音语音。
当用户选择某一物体后,可以通过虚拟交互者输出与该物体相应的语音。举例而言,若用户通过虚拟现实设备学习英语,并且选中教室虚拟场景中的黑板,则虚拟交互者发出“黑板”的英文单词,如此用户可以进行跟读。
S103:若接收到用户的输入语音,则控制虚拟交互者以预设语言输出与输入语言相关的反馈语音。
本实施例中的输入语音可以为用户跟读发音语音所发出的。当然,还可以为询问某一问题、查询某一相关信息所发出的,例如发音语音可以为“今天的天气如何”等,以时间用户与虚拟交互者之间的聊天交互。
本实施例中向用户展示虚拟场景,以使得用户基于所展示虚拟场景中的物体自主选择交互内容,进而提高了语言教学过程中虚拟现实设备的智能程度,以更好地对语言的教学提供帮助。进一步地,本实施例中接收用户发出的输入语音,进而完成与用户的交互。
为了进一步提高语言教学过程中虚拟现实设备的智能程度,可选地,如图2(a)所示,步骤S103可通过以下步骤实现:
S201:接收用户的输入语音。
S202:通过识别上述输入语音与发音语音的相似度,确定用户是否在跟读发音语音,若用户在跟读发音语音,则执行步骤S203。
可以理解到的是,当输出被选择物体对应的预设语言的发音语音后,用户可能跟读上述发音语音,因此会接收到用户的输入语音;当然,还存在很大的可能用户并没有跟读发音语音,而是通过预设语言(即所学习语言)讲出自己的其他意愿。因此可以根据输入语音与发音语音的相似度来判定用户是否在跟读。
可以理解到的是,本实施例中输入语音与发音语音的相似度,指的是识别输入语音与发音语音语义内容的相似度,以鉴别输入语音的语义内容与发音语音的语义内容是否一致,而不是识别两语音的发音者、发音方式的异同。具体地,可以通过语音识别算法识别输入语音。
若输入语音与发音语音的相似度高于判定数值,则认定用户在跟读发音语音,否则用户未跟读发音语音。
S203:根据相似度控制虚拟交互者输出对应的反馈语音。
可选地,若相似度大于或等于预设阈值,则认为用户的输入语音与发音语音相似度非常高,控制虚拟交互者输出预设表扬语音;若相似度小于预设阈值,说明用户在模仿跟读发音语音但是模仿得不太准确,则控制虚拟交互者重新输出发音语音。需要说明的是,预设阈值的数值高于步骤S202中的判定数值。
若用户没有跟读发音语音,则如图2(b)所示,执行以下步骤,以对输入语音进行进一步识别,以进一步增加交互的智能程度。
S204:确定输入语音对应的物体与被选择的物体是否一致,若与被选择的物体不一致,则执行步骤S205,若与被选择的物体一致则执行步骤S206。
在实际情况下,在图1所示实施例步骤S102中输出发音语音后,用户可能并未跟读发音语音,而是通过语音与虚拟设备进行其他交互。举例而言,若通过预设语言输出电灯的发音语音后,用户使用预设语言发出“点亮电灯”的语音;再如,输出预设语言对应的电灯的发音语音后,用户针对虚拟场景中除电灯以外的其他物体发出语音信号。
因此在一可选实施例中,若根据相似度确定出用户没有跟读发音语音,即输入语音与发音语音的相似度不高于判定数值,则确定输入语音对应的物体与被选择的物体是否一致。可选地,确定输入语音对应的物体与被选择的物体是否一致的方式可以为:根据所接收到的输入语音通过语音识别算法识别出该语音对应的物体,将所识别出的物体与被选择的物体进行比对,进而得出结果。当然,在某些可选应用场景中,根据本轮对话中用户的输入语音可能并不能明确确定出输入语音所对应的物体。例如,本轮输入语音为“点亮它”,此时,可以根据多轮对话算法,结合前几轮对话内容进行识别。通过多轮对话算法,虚拟交互者可以根据对话的语言环境、对话所涉及的虚拟场景中的物体对用户发出的反馈语音进行应答。可选地,若用户当前浏览商场的虚拟场景,且当前选中的物体为“奶酪”,则用户可以通过预设语言向虚拟交互者询问“这个东西多少钱?”“什么牌子的好用?”“如何使用它?”等等,如此,通过多轮对话算法,即使用户在询问奶酪价钱等问题时不提及奶酪,虚拟交互者依然可以根据对话情景通过预设语言对问题进行回答。
进一步地,若输入语音对应物体与被选择的物体不一致,则说明用户对虚拟场景中除被选择物体以外的其他物体发出信息,因此执行S205。
S205:获取与输入语音对应的反馈语音,并输出反馈语音。
举例而言,若被选择物体为电灯,而用户的输入语音为“屋顶上的东西是什么”,则输入语音所对应的物体为屋顶上的物体,进而输出屋顶上的物体的反馈语音,该反馈语音可以为屋顶上物体的名称、功能介绍等。
进一步地,为了进一步增加交互的智能程度,帮助用户更好地学习语言,针对各虚拟场景中的不同物体,可以预先设定向用户提出的问题,形成预设问题库,如此当用户选中某一物体时,可以根据所选定虚拟场景、所选择的物体调取问题并以预设语言输出,进而引导用户使用预设语言对所提出问题进行回答,进而提高用户针对预设语言的听说能力。例如,在商场场景中用户选中物体为奶酪,则可询问用户“你喜欢奶酪吗?”、“你打算买多少?”、“你要用奶酪来做什么?”等问题。当用户回答上述问题后,接收回答并可以根据多轮对话算法对用户的回答进行识别,进而决定下一步的对话内容,例如,当用户回答“我用奶酪来做披萨”,则可以继续询问“你一般会怎么做披萨?”、“你一般什么时候会做披萨?”等问题。
进一步地,在接收到用户的回答后,可以根据用户的发音、语法进行评分,以使用户知晓自己的发音情况。当评分过低时,以正确的语法、发音输出用户想要回答的内容,以做纠正。
S206:识别输入语音是否为对应于动作命令的语音,若是,则执行步骤S207,否则执行S208。
S207:控制虚拟交互者执行与输入语音对应的动作。
S208:获取与输入语音对应的反馈语音,并输出反馈语音。
若输入语音对应物体与被选择的物体一致,则说明用户针对被选择物体发出语音,进一步识别输入语音是否为对应于动作命令的语音,若是动作命令,则说明用户希望针对被选择物体执行某一操作,例如点亮电灯、拉上窗帘等,进而控制虚拟交互者执行与输入语音对应的动作,例如,控制虚拟交互者去拉上窗帘。若不是动作命令。则说明用户可能希望得到针对被选择物体的其他信息,例如针对被选择物体的介绍等,进而获取与输入语音对应的介绍并输出。
本实施例中,在图1所示实施例基础上,接收用户发出的输入语音,并根据输入语音判定用户是否在跟读图1实施例输出的发音语音,且在确定出用户跟读发音语音的情况下向用户反馈跟读的准确性,因此,进一步提高了用户与虚拟现实设备的交互程度,进而进一步提高了语言教学中虚拟现实设备的智能程度。
相应于上述方法实施例,如图3所示,本发明实施例还提供了一种虚拟现实语言教学交互装置,包括:
展示模块310,用于展示预先生成的虚拟场景,所述虚拟场景中包括虚拟交互者和多个物体;
第一响应模块320,用于若接收到用户对所述多个物体的选择操作,则控制所述虚拟交互者以预设语言输出与被选择的物体对应的发音语音,以供所述用户跟读所述发音语音;
第二响应模块330,若接收到所述用户的输入语音,则控制所述虚拟交互者以预设语言输出与所述输入语言相关的反馈语音。
可见,本实施例中向用户展示虚拟场景,以使得用户基于所展示虚拟场景中的物体自主选择交互内容,进而提高了语言教学过程中虚拟现实设备的智能程度,以更好地对语言的教学提供帮助。
可选地,所述装置还包括:设置模块340,具体用于:
在控制所述虚拟交互者以预设语言输出与被选择的物体对应的发音语音之前,将所述被选择的物体置为选中状态。
可选地,所述第二响应模块330,包括:
接收子模块331,用于接收所述用户的输入语音;
确定子模块332,用于通过识别所述输入语音与所述发音语音的相似度,确定所述用户是否在跟读所述发音语音;
反馈子模块333,用于若所述用户在跟读所述发音语音,则根据所述相似度控制所述虚拟交互者输出对应的反馈语音。
可选地,所述反馈子模块333,包括:
第一输出子模块3331,用于若所述相似度大于或等于预设阈值,则控制所述虚拟交互者输出预设表扬语音;
第二输出子模块3332,用于若所述相似度小于预设阈值,则控制所述虚拟交互者重新输出所述发音语音。
可选地,所述装置还包括第一处理模块370,包括:
确定子模块371,用于若所述用户没有跟读所述发音语音,则确定所述输入语音对应的物体与所述被选择的物体是否一致;
第一输出子模块372,用于若与所述被选择的物体不一致,则获取与所述输入语音对应的反馈语音,并输出所述反馈语音。
可选地,所述装置还包括:
调取子模块373,用于在触发第一输出子模块372之后,根据所述虚拟场景以及所述被选择的物体,从预设问题库调取问题,通过所述虚拟交互者以预设语言输出;
第一识别子模块374,用于接收所述用户针对所述问题的答案并进行识别。
可选地,所述装置还包括第二处理模块380,包括:
第二识别子模块381,用于若与所述被选择的物体一致,则识别所述输入语音是否为对应于动作命令的语音;
第二输出子模块382,用于若所述输入语音是对应于动作命令的语音,则控制所述虚拟交互者执行与所述输入语音对应的动作;
第三输出子模块383,用于若所述输入语音不对应于动作命令的语音,则获取与所述输入语音对应的反馈语音,并输出所述反馈语音。
需要说明的是,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得较为简单,相关之处参见方法实施例的部分说明即可。
如图4所示,本发明实施例还提供一种虚拟现实设备,包括存储器410和处理器420;
所述存储器410用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器420执行时实现本发明实施例提供的虚拟现实语言教学交互方法。
该电子设备可以为用户终端设备,可选地,本实施例中的虚拟现实设备还可以包括:通信接口430,用于实现虚拟现实设备与其他设备、通信网络间的通信。
本发明一些实施例提供的虚拟现实设备可以为虚拟现实领域的头戴显示设备,具体可以为外接式头戴显示设备或者一体式头戴显示设备,其中外接式头戴显示设备需要与外部处理系统(例如计算机处理系统)配合使用。
图5示出了一些实施例中头戴显示设备500的内部配置结构示意图。
显示单元501可以包括显示面板,显示面板设置在头戴显示设备500上面向用户面部的侧表面,可以为一整块面板、或者为分别对应用户左眼和右眼的左面板和右面板。显示面板可以为电致发光(EL)元件、液晶显示器或具有类似结构的微型显示器、或者视网膜可直接显示或类似的激光扫描式显示器。
虚拟图像光学单元502以放大方式拍摄显示单元501所显示的图像,并允许用户按放大的虚拟图像观察所显示的图像。作为输出到显示单元501上的显示图像,可以是从内容再现设备(蓝光光碟或DVD播放器)或流媒体服务器提供的虚拟场景的图像、或者使用外部相机510拍摄的现实场景的图像。一些实施例中,虚拟图像光学单元502可以包括透镜单元,例如球面透镜、非球面透镜、菲涅尔透镜等。
输入操作单元503包括至少一个用来执行输入操作的操作部件,例如按键、按钮、开关或者其他具有类似功能的部件,通过操作部件接收用户指令,并且向控制单元507输出指令。
状态信息获取单元504用于获取穿戴头戴显示设备500的用户的状态信息。状态信息获取单元504可以包括各种类型的传感器,用于自身检测状态信息,并可以通过通信单元505从外部设备(例如智能手机、腕表和用户穿戴的其它多功能终端)获取状态信息。状态信息获取单元504可以获取用户的头部的位置信息和/或姿态信息。状态信息获取单元504可以包括陀螺仪传感器、加速度传感器、全球定位系统(GPS)传感器、地磁传感器、多普勒效应传感器、红外传感器、射频场强度传感器中的一个或者多个。此外,状态信息获取单元504获取穿戴头戴显示设备500的用户的状态信息,例如获取例如用户的操作状态(用户是否穿戴头戴显示设备500)、用户的动作状态(诸如静止、行走、跑动和诸如此类的移动状态,手或指尖的姿势、眼睛的开或闭状态、视线方向、瞳孔尺寸)、精神状态(用户是否沉浸在观察所显示的图像以及诸如此类的),甚至生理状态。
通信单元505执行与外部装置的通信处理、调制和解调处理、以及通信信号的编码和解码处理。另外,控制单元507可以从通信单元505向外部装置发送传输数据。通信方式可以是有线或者无线形式,例如移动高清链接(MHL)或通用串行总线(USB)、高清多媒体接口(HDMI)、无线保真(Wi-Fi)、蓝牙通信或低功耗蓝牙通信,以及IEEE802.11s标准的网状网络等。另外,通信单元505可以是根据宽带码分多址(W-CDMA)、长期演进(LTE)和类似标准操作的蜂窝无线收发器。
一些实施例中,头戴显示设备500还可以包括存储单元,存储单元506是配置为具有固态驱动器(SSD)等的大容量存储设备。一些实施例中,存储单元506可以存储应用程序或各种类型的数据。例如,用户使用头戴显示设备500观看的内容可以存储在存储单元506中。
一些实施例中,头戴显示设备500还可以包括控制单元,控制单元507可以包括计算机处理单元(CPU)或者其他具有类似功能的设备。一些实施例中,控制单元507可以用于执行存储单元506存储的应用程序,或者控制单元507还可以用于执行本申请一些实施例公开的方法、功能和操作的电路。
图像处理单元508用于执行信号处理,比如与从控制单元507输出的图像信号相关的图像质量校正,以及将其分辨率转换为根据显示单元501的屏幕的分辨率。然后,显示驱动单元509依次选择显示单元501的每行像素,并逐行依次扫描显示单元501的每行像素,因而提供基于经信号处理的图像信号的像素信号。
一些实施例中,头戴显示设备500还可以包括外部相机。外部相机510可以设置在头戴显示设备500主体前表面,外部相机510可以为一个或者多个。外部相机510可以获取三维信息,并且也可以用作距离传感器。另外,探测来自物体的反射信号的位置灵敏探测器(PSD)或者其他类型的距离传感器可以与外部相机510一起使用。外部相机510和距离传感器可以用于检测穿戴头戴显示设备500的用户的身体位置、姿态和形状。另外,一定条件下用户可以通过外部相机510直接观看或者预览现实场景。
一些实施例中,头戴显示设备500还可以包括声音处理单元,声音处理单元511可以执行从控制单元507输出的声音信号的声音质量校正或声音放大,以及输入声音信号的信号处理等。然后,声音输入/输出单元512在声音处理后向外部输出声音以及输入来自麦克风的声音。
需要说明的是,图5中虚线框示出的结构或部件可以独立于头戴显示设备500之外,例如可以设置在外部处理系统(例如计算机系统)中与头戴显示设备500配合使用;或者,虚线框示出的结构或部件可以设置在头戴显示设备500内部或者表面上。
本发明实施例还提供一种存储有计算机程序的计算机可读存储介质,所述计算机程序使计算机执行时实现本发明实施例提供的虚拟现实语言教学交互方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。