CN112735393B

CN112735393B - 一种ar/mr设备语音识别的方法和装置及系统

Info

Publication number: CN112735393B
Application number: CN202011587781.0A
Authority: CN
Inventors: 黄石磊; 刘轶; 王昕�
Original assignee: PKU-HKUST SHENZHEN-HONGKONG INSTITUTION; Peking University Shenzhen Graduate School
Current assignee: PKU-HKUST SHENZHEN-HONGKONG INSTITUTION; Peking University Shenzhen Graduate School
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2023-11-24
Anticipated expiration: 2040-12-29
Also published as: CN112735393A

Abstract

本发明公开了一种AR/MR设备语音识别的方法和装置及系统。所述方法包括：在AR/MR设备的虚拟视场中显示一投射屏幕和一虚拟屏幕，投射屏幕是将智能手持设备的显示屏幕投射到虚拟视场中形成的；在智能手持设备的显示屏幕上显示一语音识别功能界面；根据用户在智能手持设备语音识别功能界面的操作，进行语音录入和语音识别，将识别出的多个候选结果显示在虚拟屏幕上，对多个候选结果进行选择和确认。本发明利用AR/MR更加方面、更加清晰的显示语音识别的多个候选结果，不会影响智能手持设备本身的应用界面；通过语音识别功能界面进行触摸滑动，可以更加方便直观的选择候选结果，提高了操作便捷性，可以实现手不离设备的操作和单手操作。

Description

一种AR/MR设备语音识别的方法和装置及系统

技术领域

本发明涉及语音识别技术领域，具体涉及一种AR/MR设备语音识别的方法和装置及系统。

背景技术

语音识别(Speech Recognition)技术，也被称为自动语音识别(AutomaticSpeech Recognition，ASR)，其目标是将语音中的内容(Content)转换为计算机可读的输入，例如按键、二进制编码或者字符序列(text)，并进行相应的操作。

语音识别的主流技术已从基于隐马尔科夫模型(Hidden Markov Model,HMM)，转换到基于深度神经网络(Deep Neural Network/DNN)的语音识别系统。在语音识别任务中，一般需要声学模型(Acoustic Model)和语言模型(Language Model)。当前语音识别逐渐转向WFST(weighted finaite-state transducer，加权有限状态转换器)+深度神经网络的框架。

语音识别交互的时候，可能会有识别错误，而且会存在模糊识别，因此，一般识别结果会包括若干个候选，如何方便的选择候选是很重要的。现有的多候选主要有两种形式。

第一种是以选择列表形式显示多个候选，并覆盖当前视图。该方式在小屏幕得智能设备上经常出现。这里多个候选的意思是，根据语音输入的内容，依照一定的算法，得到一些结果(也称为候选或者候选结果)，这里每个结果至少包含两部分内容，一个是识别内容(文字)，另一部分是一种得分，这个得分可以用于给结果排序，得分较高的排列到前面，当然也可以得分较低的在前面。

一个例子是：通过语音导航说出“上海浦东机场”，语音识别后显示多个候选，例如，“上海浦东国际机场”、“上海浦东国际机场2号航站楼”、“上海国际机场地铁站”等，用户点击相应的识别结果，进行操作。

另一个例子是：假设用户真实的语音是“拨号给刘先生”，语音识别系统返回的多个候选可能包括：候选1：{“拨号给刘先生”，0.8}；候选2：{“拨号给刘先胜”，0.6}；候选3：{“剥好给刘先生”0.4}。

第二种是纯语音方式，理论上不需要视图，语音识别结果为多个可能候选。

一个例子是：假设用户真实的语音是“拨号给刘先生”，语音识别系统用语音反馈：“找到多个识别结果，请按照序号选择：一、拨号给刘先生13512345678；二拨号给刘险胜13811111111”。用户再次使用语音确认所需操作到底是一还是二。

现有多候选的主要缺陷在于：

1.如果是视图(选择列表)的多候选，主要问题在于候选项较多时，会遮挡原有应用的界面；同时，如果候选项较多可能，屏幕可能容纳不下或者会字体太小；以及，有时候需要另一只手帮忙点击。

2.如果是纯语音提示的形式，用户不太容易记住候选，一般不方便反复听，太多候选用户容易忘记。

发明内容

本发明主要解决的技术在于，提供一种AR/MR设备语音识别的方法，该方法以AR/MR方式显示多个候选结果，并提供更好的候选结果选择方式，用以避免候选结果遮挡应用界面，提高操作便捷性。本发明还提供相应的装置及系统。

为解决上述技术问题，本发明采用的技术方案如下。

第一方面，提供一种AR/MR设备语音识别的方法，应用于语音识别系统，该系统包括相互通信的AR/MR设备和智能手持设备；所述方法包括：在所述AR/MR设备的虚拟视场中显示一投射屏幕和一虚拟屏幕，所述投射屏幕是将所述智能手持设备的显示屏幕投射到所述虚拟视场中形成的，所述虚拟屏幕跟随所述投射屏幕移动；在所述虚拟视场中显示的所述投射屏幕，实际上是智能手持设备的显示屏幕透过AR/MR设备所得的视图，投射屏幕的显示内容与智能手持设备的显示屏幕上的视图内容是同步的，且投射屏幕在虚拟视场中的位置反映智能手持设备的实际空间位置；在所述智能手持设备的显示屏幕上显示一语音识别功能界面，所述显示屏幕上划分有用于显示应用界面的主要区域和用于显示所述语音识别功能界面的局部区域；在所述智能手持设备的显示屏幕并不显示语音识别的候选结果，而只是局部显示一个供用户触摸操作的语音识别功能界面，因此不会遮挡绝大部分应用的视图内容；在所述虚拟视场中根据需要显示语音识别的候选结果列表；根据用户在智能手持设备上的语音识别功能界面的触摸操作，进行语音录入和语音识别，将识别出的多个候选结果显示在所述虚拟屏幕上；以及，根据用户在智能手持设备上的语音识别功能界面的滑动操作，虚拟视场中语音识别的候选结果进对这个滑动操作做出反馈；以及在智能手持设备上对所述虚拟屏幕上显示的多个候选结果进行选择和确认。注意到上述过程是智能手持设备和虚拟视场中的视图是根据用户操作关联动作的。所述跟随是指位置上的跟随，即，虚拟屏幕跟随投射屏幕的位置移动而移动。

一种可能的实现方式中，所述语音识别功能界面包括位于中间的区域B以及分别位于区域B两边的区域A和区域C，区域B设有触点J1，区域C设有位于中间的触点J2和位于触点J2两侧的触点J3与触点J5，区域A设有位于触点J3一侧的触点J4以及位于触点J5一侧的触点J6；所述根据用户在语音识别功能界面的触摸操作，进行语音录入和语音识别，包括：当用户的手指触摸触点J1时启动语音录入和语音识别，当用户的手指从触点J1滑动到触点J2时结束语音录入，等待获取识别结果；所述根据用户在语音识别功能界面的滑动操作，对所述虚拟屏幕上显示的多个候选结果进行选择和确认，包括：当用户的手指从触点J2向触点J3方向滑动或者从触点J2向触点J5方向滑动时，在识别出的多个候选结果中切换选择不同的候选结果，当用户的手指从触点J3滑动到触点J4或者从触点J5滑动到触点J6时对当前选中的候选结果进行确认。

一种可能的实现方式中，所述方法还包括：当用户的手指从触点J4或者触点J6滑动到触点J1时，重新启动语音录入和语音识别；当用户的手指暂时离开区域C时，所述虚拟屏幕持续显示多个候选结果；当用户的手指从所述语音识别功能界面滑动至应用界面时，放弃当前识别出的多个候选结果；当用户的手指滑动至应用界面超过预设时长或者用户的手指在应用界面进行操作时，不再显示所述语音识别功能界面。

一种可能的实现方式中，所述将识别出的多个候选结果显示在所述虚拟屏幕上具体为：在所述虚拟屏幕上以多候选菜单方式显示多个候选结果，将得分最高的候选结果置于多候选菜单的中间位置，将其它候选结果按照得分高低分别置于多候选菜单的两边位置。

一种可能的实现方式中，所述方法还包括：对当前选中的候选结果进行语音提示。

本发明第二方面，提供一种AR/MR设备语音识别的装置，应用于语音识别系统，该系统包括相互通信的AR/MR设备和智能手持设备；所述装置包括：第一显示模块、第二显示模块和语音识别模块；第一显示模块，用于在所述AR/MR设备的虚拟视场中显示一投射屏幕和一虚拟屏幕，所述投射屏幕是将所述智能手持设备的显示屏幕投射到所述虚拟视场中形成的，所述虚拟屏幕跟随所述投射屏幕移动；还用于将所述语音识别模块识别出的多个候选结果显示在所述虚拟屏幕上；第二显示模块，用于在所述智能手持设备的显示屏幕上显示一语音识别功能界面，所述显示屏幕上划分有用于显示应用界面的主要区域和用于显示所述语音识别功能界面的局部区域；语音识别模块，用于根据用户在智能手持设备上的语音识别功能界面的触摸操作，进行语音录入和语音识别，识别出多个候选结果；以及，根据用户在智能手持设备上的语音识别功能界面的滑动操作，对所述虚拟屏幕上显示的多个候选结果进行选择和确认。

在一种可能的实现方式中，所述语音识别功能界面包括位于中间的区域B以及分别位于区域B两边的区域A和区域C，区域B设有触点J1，区域C设有位于中间的触点J2和位于触点J2两侧的触点J3与触点J5，区域A设有位于触点J3一侧的触点J4以及位于触点J5一侧的触点J6；所述语音识别模块具体用于：当用户的手指触摸触点J1时启动语音录入和语音识别，当用户的手指从触点J1滑动到触点J2时结束语音录入，等待获取识别结果；以及，当用户的手指从触点J2向触点J3方向滑动或者从触点J2向触点J5方向滑动时，在识别出的多个候选结果中切换选择不同的候选结果，当用户的手指从触点J3滑动到触点J4或者从触点J5滑动到触点J6时对当前选中的候选结果进行确认。

在一种可能的实现方式中，所述语音识别模块还用于：当用户的手指从触点J4或者触点J6滑动到触点J1时，重新启动语音录入和语音识别；当用户的手指暂时离开区域C时，所述虚拟屏幕持续显示多个候选结果；当用户的手指从所述语音识别功能界面滑动至应用界面时，放弃当前识别出的多个候选结果；当用户的手指滑动至应用界面超过预设时长或者用户的手指在应用界面进行操作时，不再显示所述语音识别功能界面。

在一种可能的实现方式中，所述第一显示模块具体用于：在所述虚拟屏幕上以多候选菜单方式显示多个候选结果，将得分最高的候选结果置于多候选菜单的中间位置，将其它候选结果按照得分高低分别置于多候选菜单的两边位置。

本发明第三方面，提供一种语音识别系统，该系统包括相互通信的AR/MR设备和智能手持设备；所述AR/MR设备，用于在所述AR/MR设备的虚拟视场中显示一投射屏幕和一虚拟屏幕，所述投射屏幕是将所述智能手持设备的显示屏幕投射到所述虚拟视场中形成的，所述虚拟屏幕跟随所述投射屏幕移动；所述智能手持设备，用于在其显示屏幕上显示一语音识别功能界面，所述显示屏幕上划分有用于显示应用界面的主要区域和用于显示所述语音识别功能界面的局部区域；以及，根据用户在智能手持设备上的语音识别功能界面的触摸操作，进行语音录入和语音识别，识别出多个候选结果；所述AR/MR设备，还用于将识别出的多个候选结果显示在所述虚拟屏幕上；所述智能手持设备，还用于根据用户智能手持设备上的在语音识别功能界面的滑动操作，对所述虚拟屏幕上显示的多个候选结果进行选择和确认。

本发明通过采用以上技术方案，取得的技术效果如下：在AR/MR场景中，虚拟视场面积很大，可以结合智能手持设备的显示屏幕，通过虚拟屏幕方便的显示多个候选结果，然后结合智能手持设备的可触控的显示屏幕，可以更好的显示候选结果，更好的选择候选结果，实现“手不离设备”的操作。

主要优点包括：1.利用AR/MR更加方面的显示语音识别的多个候选结果，而不会影响智能手持设备本身的应用界面；2.通过AR/MR可以显示更多的内容，字体更大，更加清晰方便；3.通过在语音识别功能界面进行触摸滑动，可以更加方便直观的选择候选结果；4.提高了操作便捷性，用户可以单手操作。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例和现有技术描述中所需要使用的附图作简单地介绍。

图1是本发明实施例提供的一种AR/MR设备语音识别的方法的流程图；

图2是本发明实施例提供中AR/MR设备的虚拟视场的示意图；

图3是本发明实施例提供中智能手持设备的显示屏幕的示意图；

图4是本发明实施例提供中语音识别功能界面中设置的触点的示意图；

图5是本发明实施例提供中AR/MR设备的虚拟视场的另一示意图；

图6是本发明实施例提供中多候选菜单的示意图；

图7是本发明实施例提供中从多候选菜单选中某个候选的示意图；

图8是本发明实施例提供中从多候选菜单确认某个候选的示意图；

图9是本发明实施例提供的一种AR/MR设备语音识别装置的结构图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

为便于理解，首先对本发明涉及的重要概念说明如下。

增强现实(Augmented Reality，AR)，是一种实时计算摄影机影像位置及角度，并辅以相应图像的技术。这种技术可以通过全息投影，在镜片的显示屏幕中将虚拟世界与现实世界叠加，操作者可以通过设备互动。

混合现实(Mix reality，MR)，指的是结合真实和虚拟世界创造了新的环境和可视化三维世界，物理实体和数字对象共存、并实时相互作用，以用来模拟真实物体，是虚拟现实技术的进一步发展。

下面结合具体实施例介绍本发明的技术方案。

请参考图1，本发明的一个实施例，提供一种AR/MR设备语音识别的方法，该方法应用于语音识别系统。所述系统包括相互通信的AR/MR设备和智能手持设备。所述AR/MR设备例如可以是AR/MR眼镜。所述智能手持设备例如可以是智能手机。所述AR/MR设备和智能手持设备可以通过现有的通信技术例如WiFi、蓝牙、移动通信网络等都实现相互通信连接。

如图1所示，所述方法包括以下步骤：

S1、在所述AR/MR设备的虚拟视场中显示一投射屏幕和一虚拟屏幕，所述投射屏幕是将所述智能手持设备的显示屏幕投射到所述虚拟视场中形成的，所述虚拟屏幕跟随所述投射屏幕移动。

如图2所示，所述虚拟视场300是用户通过AR/MR设备可以看到的显示界面。该虚拟视场300中可以显示真实场景，也可以在真实场景上叠加虚拟场景。本发明实施例中，首先将智能手持设备的显示屏幕投射到该虚拟视场300中，形成一投射屏幕100。该投射屏幕100实际上是智能手持设备的显示屏幕透过AR/MR设备所得的视图，投射屏幕100的显示内容与智能手持设备的显示屏幕上的显示内容是同步的，且投射屏幕100在虚拟视场中的位置反映智能手持设备的实际空间位置，随着智能手持设备的空间位置变动，投射屏幕100在虚拟视场中的位置相应变动。本发明还在虚拟视场300中叠加一个虚拟屏幕200。该虚拟屏幕200跟随所述投射屏幕100的移动而移动，且虚拟屏幕200不会遮挡住投射屏幕100。

其中，可采用现有技术的图像/视频中的目标识别算法，结合AR/MR设备的摄像头，来识别判断智能手持设备的位置，实现对投射屏幕100位置的确定。

S2、在所述智能手持设备的显示屏幕上显示一语音识别功能界面，所述显示屏幕上划分有用于显示应用界面的主要区域和用于显示所述语音识别功能界面的局部区域。

如图3所示，是智能手持设备的显示屏幕100的示意图。该显示屏幕100可划分为两个部分，即，用于显示原有应用界面的主要区域D和用于显示所述语音识别功能界面的局部区域。该局部区域可进一步划分为三个小的区域，包括：位于中间的区域B以及分别位于区域B两边的区域A和区域C。区域A、B、C是一个整体，根据原有应用视图或者智能手持设备系统调用显示。区域A、B、C内分别设置不同的触控焦点(简称触点或焦点)，供用户通过触摸这些触点进行语音识别操作，且仅用于语音识别操作。区域D中则为原有应用或者系统的功能界面，本文中称为应用界面。

具体应用中，用于显示所述语音识别功能界面的局部区域可位于所述显示屏幕的一角，例如右下角。其中，区域C由第一圆弧线段和显示屏幕的边围合而成，区域A由第一圆弧线段和第二圆弧线段以及显示屏幕的边围合而成，区域B是位于第一圆弧线段中间位置的圆形区域。所述的区域A、区域B和区域C整体上是一般人的单手(例如右手)握持智能设备的情况下，大拇指(右手)所能触控的范围，这样就可以单手完成有关操作。可选的，如果用户习惯左手操作，这个显示区域可以进行左右反转，使得用户可以左手单手操作。

需要说明的是，该语音识别功能界面，仅供用户进行触控操作，而不用来显示通过语音识别技术识别出的候选结果。

S3、根据用户在智能手持设备上的语音识别功能界面的触摸操作，进行语音录入和语音识别，将识别出的多个候选结果显示在所述虚拟屏幕上。

用户通过在语音识别功能界面对触点进行的触摸操作，启动或结束语音录入。智能手持设备对用户输入的语音进行语音识别，识别结果可包括多个候选结果(或简称候选)。与现有技术中将多个候选叠加在应用界面上方不同的是，本发明方法将识别出的多个候选结果显示在所述AR/VR设备显示的虚拟屏幕上，该虚拟屏幕位于投射屏幕的附近且跟随移动，且不会覆盖或遮挡投射屏幕上的应用界面，即区域D。且虚拟屏幕可以设置的比投射屏幕更大，以显示较多的候选结果，而不用调小字体。

S4、根据用户在智能手持设备上的语音识别功能界面的滑动操作，对所述虚拟屏幕上显示的多个候选结果进行选择和确认。

智能手持设备可以根据用户在语音识别功能界面的滑动操作，对所述虚拟屏幕上显示的多个候选结果进行轮换选择，随着用户手指的滑动选择框在多个结果之间依次切换，当选中某个候选结果之后可通过预设的滑动操作进行确认。

可选的，一些实施例中，所述语音识别功能界面中设置触点的方式如图4所示，包括：区域B设有触点J1，区域C设有位于中间的触点J2和位于触点J2两侧的触点J3与触点J5，区域A设有位于触点J3一侧的触点J4以及位于触点J5一侧的触点J6。即，J1位于区域B，J2/J3/J5位于区域C，J4/J6位于区域A。

其中，各触点的逻辑功能可定义如下：

触点J1：设于区域B，主要用于启动语音录入和语音识别；当用户手指离开区域B，结束语音录入和语音识别；

触点J2：从触点J1滑动到触点J2表示当前语音输入结束，等待获取识别结果；识别出的多个候选结果显示于虚拟屏幕；

触点J3：从触点J2滑向触点J3，以及从触点J2滑向触点J5，表示从当前的候选结果(第一候选)到其他候选结果的选择；其中触点J2滑向触点J3的距离不同，表示不同的候选结果；

触点J4：从触点J3到触点J4，表示选中某个候选结果，并确认；从触点J4到触点J1，表示重新开始录音和语音采集；

触点J5：其逻辑功能和触点J3一样，只是位置不同，对应的候选结果不同；

触点J6：其逻辑功能和触点J4一样，只是位置不同，对应的候选结果不同。

用户可通过触摸触点或者在触点之间滑动，来执行不同的操作。

例如包括：

当用户的手指触摸触点J1时启动语音录入和语音识别，当用户的手指从触点J1滑动到触点J2时结束语音录入，等待获取识别结果；

当用户的手指从触点J2向触点J3方向滑动或者从触点J2向触点J5方向滑动时，在识别出的多个候选结果中切换选择不同的候选结果；

当用户的手指从触点J3滑动到触点J4或者从触点J5滑动到触点J6时对当前选中的候选结果进行确认。

进一步的，还可以包括：

当用户的手指从触点J4或者触点J6滑动到触点J1时，重新启动语音录入和语音识别；

当用户的手指暂时离开区域C时，所述虚拟屏幕持续显示多个候选结果；

当用户的手指从所述语音识别功能界面滑动至应用界面时，放弃当前识别出的多个候选结果；

当用户的手指滑动至应用界面超过预设时长或者用户的手指在应用界面进行操作时，不再显示所述语音识别功能界面。

可选的，一些实施例中，可以将识别出的多个候选结果，以多候选菜单方式显示在所述虚拟屏幕，其中，可以将得分最高的候选结果置于多候选菜单的中间位置，将其它候选结果按照得分高低分别置于多候选菜单的两边位置。

可选的，一些实施例中，在将识别出的多个候选结果显示在所述虚拟屏幕上之后，还可以对当前选中的候选结果进行语音提示。

以上，对本发明方法进行了简要说明。下面，进一步说明本发明方法的操作流程，包括以下步骤：

Step 1，用户使用智能手持设备上某个APP的过程中，当需要进行语音录入时，可通过APP或者系统某个界面菜单，呼唤出一个语音识别功能界面。例如，可以通过某个按键(实体按键或者虚拟按键)启动语音录入，或者，也可以通过语音唤醒启动语音录入。

智能手持设备的显示屏幕如图3所示，包括用于显示该APP原有应用界面的主要区域D和用于显示所述语音识别功能界面的局部区域。该局部区域进一步包括：位于中间的区域B以及分别位于区域B两边的区域A和区域C。

Step 2，用户的手指触碰区域B的触点J1时，系统开始语音录入，并启动语音识别处理。

Step 3,用户开始说话，系统开始进行实时语音识别。检测语音录入是否结束，例如，使用VAD(Voice Activity Detection，语音活动检测)检测到语音活动结束，或者，检测到用户的手指接触点离开区域B，则结束语音识别。其中，语音识别可采用现有技术。

Step 4，如果用户的手指触碰屏幕的触点由J1滑动到J2，则语音识别结束，系统反馈识别出的多个候选结果，并在AR/VR设备的虚拟屏幕200中显示识别出的多个候选结果。

虚拟屏幕200是在AR/VR眼镜上显示，并且和智能手持设备投射到虚拟视场中的投射屏幕100相连且跟随移动。如果用户手持设备移动，则通过目标识别智能手持设备(这里是使用已有技术)，进行相应的显示，也就是VR眼镜上的虚拟屏幕和智能手持设备的投射屏幕是“跟随的”，如图2和图5所示。

Step 5，显示多候选菜单，如图6所示。

从图6中可以看出：左边是虚拟屏幕200的一个示意图，其中H1，H2,…是识别结果所包括的多个候选，对应手指滑动区域C中的位置为J2到J3，以及J2到J4，等。右边是语音识别功能界面的对应的功能示意图。

其中H1是第一候选，H2是第二候选，H3是第三候选，以此类推。

其中H1是位于虚拟屏幕的中间位置，对应手指滑动的位置为触点J2。

其中H2、H4、H6……依次从H1往上排列；

其中H3、H5、H7……依次从H1往下排列；

可选的，也可以是H2、H4、H6往下排列和H3、H5、H7向上排列，即，可以交换顺序；这样做的好好处是，如果用户选择的不是H1，那么对用户来说手指需要移动的平均距离会减少。也就是平均来看(如果考虑每个候选是用户选择的概率不同，这个平均是加权平均)，某个候选位置(H1)到H_i的距离，因为是上下交错排列的，比排列在同一侧(只有向上或者只有向下排列)要短。

H1……H_n根据事先设定的候选个数N确定。

从J5、J2到J3的轨迹上(注意J5，J3并不是这个弧线的端点，而是其中的一个位置)，按照H1……H_n的位置划分为具体的线段位置(P1……P_n)，这样当手指的触点，位于P_i的位置，那么对应显示选项H_i高亮，表示选中(其中i为1…N之间的一个数)，如图7所示。

可选的，当用户选中H_i时，可以语音提示所选内容，也就是系统通过语音读出这个候选内容。

Step6，用户选择候选。

用户手指的触点在P1……P_n之间滑动(可以反复来回滑动)，对应显示选项H1……H_n高亮，当用户认为H_j为他需要的候选(其中j为1…N之间的一个数)，例如J3就是P_j，用户从P_j(也就是J3)向区域A滑动到触点J4，则表示用户确定候选H_j为他所要的结果，如图8所示。然后转入步骤Step 10，系统根据用户选定的结果H_j进行相应操作。

Step7，用户如果发现所有候选结果都不是他想要的结果，可以向区域D滑动，放弃当前的多个候选结果。

Step8，用户在Step6过程中，如果不小心手指离开了区域C，则系统可以仍然保持当前视图，防止用户误操作。

用户手指如果再次按到区域C，根据所处的位置为P_k，则高亮户选H_k(其中k为1…N之间的一个数)，用户可以继续选择并进行后续操作。

用户如果再次按到区域A，则放弃当前操作，并重新开始语音识别的语音输入工作，系统转入Step2。

Step 10，系统根据用户选择的候选结果，进行进一步的操作，该操作基于系统原有的功能，例如地图输入、拨号等。用户此时可以松开触点。

Step 11，用户触点再次回到区域B，也就是触点J1，按下J1，开始Step2。

Step 12，用户也可以选择结束语音录入，进入其他功能，此时语音识别功能界面可以消失不再显示，虚拟屏幕也可以消失不再显示。

下面，结合一个具体的实施例，进一步描述本发明方法的操作流程：

2.1用户通过APP或者系统某个界面菜单呼唤出一个语音识别功能菜单，例如，在本实施例中为语音拨号操作。

Step 1，用户使用拨号APP过程中，需要进行语音录入。用户可通过一个语音识别按键启动语音识别功能，在智能手持终端上显示视图3。

2.2用户按下区域B开始语音录入，并显示语音识别结果。

Step 2，用户按下区域B的触点J1，系统开始接受语音录入，并进行语音识别处理。此时用户的手指触碰屏幕的触点J1。

Step 3,用户开始说话，系统开始进行语音识别。

例如，用户说出“拨号给王先生”。

检测语音录入是否结束，例如，检测到用户的接触点离开区域B(对应触点J1)，滑向区域C(对应触点J2)，则表示语音录入结束。

Step 4，系统反馈识别出的多个候选结果并显示在虚拟屏幕。

语音识别模块反馈多个候选结果及其得分，例如：

H1：拨号给王先生 0.9；

H2:拨号给王先胜 0.8；

H3：拨号给王贤 0.4；

H4：拨号给王西安 0.3；

H5：拨号给王胜 0.1。

此实例中为5个候选H1至H5，实际可以多于5个或者少于5个。

其中，每个候选得分不显示，实际系统显示内容为:

H1：拨号给王先生；

H2:拨号给王先胜；

H3：拨号给王贤；

H4：拨号给王西安；

H5：拨号给王胜。

多个候选是显示于AR/MR眼镜上的虚拟屏幕，且和智能手持设备的投射屏幕相跟随。如果智能手持设备移动，则通过目标识别智能手持设备(这里是使用已有技术)，进行相应的显示，也就是VR/MR眼镜上的虚拟屏幕和智能手持设备的投射屏幕是“跟随的”。此时用户的手指触碰屏幕的触点J2。

3.4显示多候选菜单和选中确认。

Step 5，多候选菜单如图6所示，此图中：左边是区域5的一个示意图，其中H1，H2,…是识别结果的多个候选，对应手指滑动区域C中的位置为J2到J3，以及J2到J4。右边是语音识别功能界面的对应的功能示意图。

其中H1是位于虚拟屏幕的中间，对应手指滑动的位置为触点J2。

其中H2，H4，H6……依次从H1往上排列；

其中H3，H5，H7……依次从H1往下排列；

具体排列可以为：

H4：拨号给王西安；

H2:拨号给王先胜；

H1：拨号给王先生；

H3：拨号给王贤；

H5：拨号给王胜。

可选的，也可以是H2/H4/H6往下和H3/H5/H7向上排列，即，可以交换顺序。

此实例中的候选个数N为5。

可选的，可以在每个候选的显示项中增加其他信息，以便于用户区分这些信息的差别，例如增加手机号码，显示为：“拨号给王先生135 12345678”。

从J5、J2到J3的轨迹上(注意J5，J3并不是这个弧线的端点，而是其中的一个位置)，按照H1……H_n的位置划分为具体的线段位置(P1.。。P_n)，这样当手的触点，位于P_i的位置，那么对应显示选项H_i高亮，表示选中(其中i为1…N之间的一个数)，如图7所示。

此实例中，用户手指滑动到P2位置，对应显示H2高亮提示(也可以进行字体颜色变化或者字体变大)；并且，当用户选中H2，并停留超过0.3秒，语音提示所选内容(也就是系统念出来这个候选内容)。

Step6，用户选择候选。

用户的触点在P1……P5之间滑动(可以反复来回滑动)，对应显示选项H1……H5高亮，当用户认为H2为他需要的候选。用户从P2(也就是J3)向区域A滑动到J4，则表示用户确定候选H2为他所要的结果，如图8所示。系统根据用户选定的结果H2进行相应操作，转入步骤Step10。

Step7，用户如果发现所有结果都不是他想要的结果，可以向区域D滑动，此时此次识别结果都取消，虚拟屏幕这个显示消失。

Step8用户在Step6过程中，不小心手离开了区域C，那么系统仍然保持视图，防止用户误操作。

如果用户再次按到区域C，根据所处的位置为P3，则高亮显示候选H3，用户可以继续选择并进行后续操作。

如果用户再次按到区域A，则放弃当前操作，并重新开始语音识别的语音输入工作，系统转入Step2。

Step 10，系统根据用户选择的输入结果，进行进一步的操作，本实施例中就是开始拨号。用户此时可以松开触点。

Step 11，用户触点再次回到区域B，也就是触点，按下J1，开始Step2。

以上，结合具体实施例对本发明方法进行了详细描述。

请参考图9，本发明的一个实施例，还提供一种AR/MR设备语音识别的装置，应用于语音识别系统，该系统包括相互通信的AR/MR设备和智能手持设备；所述装置包括：第一显示模块91、第二显示模块92和语音识别模块93；

第一显示模块91，用于在所述AR/MR设备的虚拟视场中显示一投射屏幕和一虚拟屏幕，所述投射屏幕是将所述智能手持设备的显示屏幕投射到所述虚拟视场中形成的，所述虚拟屏幕跟随所述投射屏幕移动；还用于将所述语音识别模块识别出的多个候选结果显示在所述虚拟屏幕上；

第二显示模块92，用于在所述智能手持设备的显示屏幕上显示一语音识别功能界面，所述显示屏幕上划分有用于显示应用界面的主要区域和用于显示所述语音识别功能界面的局部区域；

语音识别模块93，用于根据用户在智能手持设备上的语音识别功能界面的触摸操作，进行语音录入和语音识别，识别出多个候选结果；以及，根据用户在智能手持设备上的语音识别功能界面的滑动操作，对所述虚拟屏幕上显示的多个候选结果进行选择和确认。

一些实施例中，所述语音识别功能界面包括位于中间的区域B以及分别位于区域B两边的区域A和区域C，区域B设有触点J1，区域C设有位于中间的触点J2和位于触点J2两侧的触点J3与触点J5，区域A设有位于触点J3一侧的触点J4以及位于触点J5一侧的触点J6；

所述语音识别模块93具体用于：当用户的手指触摸触点J1时启动语音录入和语音识别，当用户的手指从触点J1滑动到触点J2时结束语音录入，等待获取识别结果；以及，当用户的手指从触点J2向触点J3方向滑动或者从触点J2向触点J5方向滑动时，在识别出的多个候选结果中切换选择不同的候选结果，当用户的手指从触点J3滑动到触点J4或者从触点J5滑动到触点J6时对当前选中的候选结果进行确认。

一些实施例中，所述语音识别模块83还用于：当用户的手指从触点J4或者触点J6滑动到触点J1时，重新启动语音录入和语音识别；当用户的手指暂时离开区域C时，所述虚拟屏幕持续显示多个候选结果；当用户的手指从所述语音识别功能界面滑动至应用界面时，放弃当前识别出的多个候选结果；当用户的手指滑动至应用界面超过预设时长或者用户的手指在应用界面进行操作时，不再显示所述语音识别功能界面。

一些实施例中，所述第一显示模块91具体用于：在所述虚拟屏幕上以多候选菜单方式显示多个候选结果，将得分最高的候选结果置于多候选菜单的中间位置，将其它候选结果按照得分高低分别置于多候选菜单的两边位置。

一些实施例中，所述语音识别模块93还用于：对当前选中的候选结果进行语音提示。

本发明的一个实施例，还提供一种语音识别系统，该系统包括相互通信的AR/MR设备和智能手持设备；其中，

所述AR/MR设备，用于在所述AR/MR设备的虚拟视场中显示一投射屏幕和一虚拟屏幕，所述投射屏幕是将所述智能手持设备的显示屏幕投射到所述虚拟视场中形成的，所述虚拟屏幕跟随所述投射屏幕移动；

所述智能手持设备，用于在其显示屏幕上显示一语音识别功能界面，所述显示屏幕上划分有用于显示应用界面的主要区域和用于显示所述语音识别功能界面的局部区域；根据用户在智能手持设备上的语音识别功能界面的触摸操作，进行语音录入和语音识别，识别出多个候选结果；

所述AR/MR设备，还用于将识别出的多个候选结果显示在所述虚拟屏幕上；

所述智能手持设备，还用于根据用户在智能手持设备上的语音识别功能界面的滑动操作，对所述虚拟屏幕上显示的多个候选结果进行选择和确认。

其中，所述AR/MR设备例如可以是AR眼镜或MR眼镜，所述智能手持设备例如可以是智能手机。

综上，本发明公开了一种AR/MR设备语音识别的方法和装置及系统。本发明通过采用以上技术方案，取得的技术效果如下：在AR/MR场景中，虚拟视场面积很大，可以结合智能手持设备的显示屏幕，通过虚拟屏幕方便的显示多个候选结果，然后结合智能手持设备的可触控的显示屏幕，可以更好的显示候选结果，更好的选择候选结果，实现“手不离设备”的操作。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其它实施例的相关描述。

上述实施例仅用以说明本发明的技术方案，而非对其限制；本领域的普通技术人员应当理解：其依然可以对上述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种AR/MR设备语音识别的方法，其特征在于，应用于语音识别系统，该系统包括相互通信的AR/MR设备和智能手持设备；所述方法包括：

在所述AR/MR设备的虚拟视场中显示一投射屏幕和一虚拟屏幕，所述投射屏幕是将所述智能手持设备的显示屏幕投射到所述虚拟视场中形成的，所述虚拟屏幕跟随所述投射屏幕移动；

在所述智能手持设备的显示屏幕上显示一语音识别功能界面，所述显示屏幕上划分有用于显示应用界面的主要区域和用于显示所述语音识别功能界面的局部区域；其中，所述语音识别功能界面包括位于中间的区域B以及分别位于区域B两边的区域A和区域C，区域B设有触点J1，区域C设有位于中间的触点J2和位于触点J2两侧的触点J3与触点J5，区域A设有位于触点J3一侧的触点J4以及位于触点J5一侧的触点J6；所述区域A、区域B和区域C为单手握持智能手持设备时，大拇指所能触控的范围；

根据用户在智能手持设备上的语音识别功能界面的触摸操作，进行语音录入和语音识别，将识别出的多个候选结果显示在所述虚拟屏幕上；所述根据用户在语音识别功能界面的触摸操作，进行语音录入和语音识别，包括：当用户的手指触摸触点J1时启动语音录入和语音识别，当用户的手指从触点J1滑动到触点J2时结束语音录入，等待获取识别结果；

以及，根据用户在智能手持设备上的语音识别功能界面的滑动操作，对所述虚拟屏幕上显示的多个候选结果进行选择和确认；所述根据用户在语音识别功能界面的滑动操作，对所述虚拟屏幕上显示的多个候选结果进行选择和确认，包括：当用户的手指从触点J2向触点J3方向滑动或者从触点J2向触点J5方向滑动时，在识别出的多个候选结果中切换选择不同的候选结果，当用户的手指从触点J3滑动到触点J4或者从触点J5滑动到触点J6时对当前选中的候选结果进行确认。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述将识别出的多个候选结果显示在所述虚拟屏幕上具体为：在所述虚拟屏幕上以多候选菜单方式显示多个候选结果，将得分最高的候选结果置于多候选菜单的中间位置，将其它候选结果按照得分高低分别置于多候选菜单的两边位置。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：对当前选中的候选结果进行语音提示。

5.一种AR/MR设备语音识别的装置，其特征在于，应用于语音识别系统，该系统包括相互通信的AR/MR设备和智能手持设备；所述装置包括：第一显示模块、第二显示模块和语音识别模块；

第一显示模块，用于在所述AR/MR设备的虚拟视场中显示一投射屏幕和一虚拟屏幕，所述投射屏幕是将所述智能手持设备的显示屏幕投射到所述虚拟视场中形成的，所述虚拟屏幕跟随所述投射屏幕移动；还用于将所述语音识别模块识别出的多个候选结果显示在所述虚拟屏幕上；

第二显示模块，用于在所述智能手持设备的显示屏幕上显示一语音识别功能界面，所述显示屏幕上划分有用于显示应用界面的主要区域和用于显示所述语音识别功能界面的局部区域；所述语音识别功能界面包括位于中间的区域B以及分别位于区域B两边的区域A和区域C，区域B设有触点J1，区域C设有位于中间的触点J2和位于触点J2两侧的触点J3与触点J5，区域A设有位于触点J3一侧的触点J4以及位于触点J5一侧的触点J6；所述区域A、区域B和区域C为单手握持智能手持设备时，大拇指所能触控的范围；

语音识别模块，用于根据用户在智能手持设备上的语音识别功能界面的触摸操作，进行语音录入和语音识别，识别出多个候选结果；以及，根据用户在智能手持设备上的语音识别功能界面的滑动操作，对所述虚拟屏幕上显示的多个候选结果进行选择和确认；

其中，所述语音识别模块具体用于：当用户的手指触摸触点J1时启动语音录入和语音识别，当用户的手指从触点J1滑动到触点J2时结束语音录入，等待获取识别结果；以及，当用户的手指从触点J2向触点J3方向滑动或者从触点J2向触点J5方向滑动时，在识别出的多个候选结果中切换选择不同的候选结果，当用户的手指从触点J3滑动到触点J4或者从触点J5滑动到触点J6时对当前选中的候选结果进行确认。

6.根据权利要求5所述的装置，其特征在于，所述语音识别模块还用于：当用户的手指从触点J4或者触点J6滑动到触点J1时，重新启动语音录入和语音识别；当用户的手指暂时离开区域C时，所述虚拟屏幕持续显示多个候选结果；当用户的手指从所述语音识别功能界面滑动至应用界面时，放弃当前识别出的多个候选结果；当用户的手指滑动至应用界面超过预设时长或者用户的手指在应用界面进行操作时，不再显示所述语音识别功能界面。

7.根据权利要求5所述的装置，其特征在于，所述第一显示模块具体用于：在所述虚拟屏幕上以多候选菜单方式显示多个候选结果，将得分最高的候选结果置于多候选菜单的中间位置，将其它候选结果按照得分高低分别置于多候选菜单的两边位置。

8.一种语音识别系统，其特征在于，该系统包括相互通信的AR/MR设备和智能手持设备；

所述智能手持设备，用于在其显示屏幕上显示一语音识别功能界面，所述显示屏幕上划分有用于显示应用界面的主要区域和用于显示所述语音识别功能界面的局部区域；以及，根据用户在智能手持设备上的语音识别功能界面的触摸操作，进行语音录入和语音识别，识别出多个候选结果；其中，所述语音识别功能界面包括位于中间的区域B以及分别位于区域B两边的区域A和区域C，区域B设有触点J1，区域C设有位于中间的触点J2和位于触点J2两侧的触点J3与触点J5，区域A设有位于触点J3一侧的触点J4以及位于触点J5一侧的触点J6；所述区域A、区域B和区域C为单手握持智能手持设备时，大拇指所能触控的范围；

所述根据用户在语音识别功能界面的触摸操作，进行语音录入和语音识别，包括：当用户的手指触摸触点J1时启动语音录入和语音识别，当用户的手指从触点J1滑动到触点J2时结束语音录入，等待获取识别结果；

所述智能手持设备，还用于根据用户在智能手持设备上的语音识别功能界面的滑动操作，对所述虚拟屏幕上显示的多个候选结果进行选择和确认；所述根据用户在语音识别功能界面的滑动操作，对所述虚拟屏幕上显示的多个候选结果进行选择和确认，包括：当用户的手指从触点J2向触点J3方向滑动或者从触点J2向触点J5方向滑动时，在识别出的多个候选结果中切换选择不同的候选结果，当用户的手指从触点J3滑动到触点J4或者从触点J5滑动到触点J6时对当前选中的候选结果进行确认。