CN116048270A

CN116048270A - 基于视觉和听觉检测的细粒度呼吸交互的方法

Info

Publication number: CN116048270A
Application number: CN202310070781.0A
Authority: CN
Inventors: 冯桂焕; 陈宇轩; 金逸; 曾昭宁; 陈峙宇
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2023-01-29
Filing date: 2023-01-29
Publication date: 2023-05-02

Abstract

本发明公开了基于视觉和听觉检测的细粒度呼吸交互的方法,包括以下步骤：基于呼吸类型获取呼吸参数，构建交互词汇的呼吸输入方法；基于所述交互词汇的呼吸输入方法，设计呼吸向量表征呼吸交互动作的若干种特征参数，并将所述若干种特征参数获取呼吸强度、呼吸方向、是否吸气、呼吸时间、呼吸频率、表情信息和音量信息；构建视觉和听觉双通道检测模型，输入所述表情信息和所述音量信息，完成呼吸检测。本发明基于图像和语音相结合的方式，实现了包括呼吸动作气流强度、呼吸气流方向，呼吸气流类型等多种呼吸动作特征参数的识别。

Description

基于视觉和听觉检测的细粒度呼吸交互的方法

技术领域

本发明属于呼吸检测技术领域，尤其涉及基于视觉和听觉检测的细粒度呼吸交互的方法。

背景技术

呼吸是人类最自然的生理活动之一，呼吸被认为是影响物理世界和虚拟环境的替代控制机制。但是目前在VR场景中已有的交互方式主要集中于眼神交互，手势交互，语音交互等等。现有的少量呼吸相关研究，往往将其作为VR游戏交互过程中的一种生理状态指标、用户体验影响因素，或者将特定的呼吸动作作为手势等其他输入方式的附加输入通道，将吹气作为“选择确定”输入动作，其作为单独输入通道的潜力尚未被充分挖掘。随着传感器技术的发展，进一步识别主动呼吸动作的类型(吹气或吸气)、强弱、方向等参数成为了可能，更多呼吸参数的引入，有可能进一步提升呼吸交互通道的交互输入能力，从而使其能够胜任复杂用户界面操控的需求，同时，对一些不便使用手势交互的特定场景或特殊人群来说，呼吸交互可能会成为一种更为有效的交互输入方式。

通过嘴部肌肉的动作，人可以对吹气或吸气的气流方向、流速、持续时间等参数进行一定程度的控制。而目前的呼吸交互应用研究，主要是基于麦克风、震动传感器、摄像机等某一类传感器，获得呼吸声音强度、呼吸动作频率、面部朝向等信息。而呼吸气流的方向等参数，由于难以通过单一类型的光学、震动传感器直接获取，目前仍缺少相应的研究。

通过将面部表情识别技术与音频识别技术相结合，可以监测用户嘴部的精细动作及呼吸气流的声学特征，从而可以分析更为精细的呼吸气流方向、呼吸状态参数，进一步增加呼吸动作的输入词汇空间，从而提升其交互界面操控能力。

将呼吸过程中的面部信息和音频信息结合起来，提出了视觉和听觉双通道的呼吸检测技术。使用了面部追踪器来捕捉呼吸过程中的面部表情，来判断用户此时的呼吸方向和呼吸状态。同时，还使用了麦克风来捕捉呼吸过程中的音频信息，来检测呼吸强度大小，并结合面部识别判断呼吸方向以及呼吸状态。根据这些检测到的参数，设计了两种以呼吸作为独立交互输入通道的呼吸交互应用系统，证明了呼吸作为独立交互输入方式的可行性。

发明内容

本发明的目的在于提出基于视觉和听觉检测的细粒度呼吸交互的方法，基于图像和语音相结合的方式，实现了包括呼吸动作气流强度、呼吸气流方向，呼吸气流类型等多种呼吸动作特征参数的识别；综合利用呼吸动作的多种特征参数，实现了VR场景下典型交互界面的呼吸交互操控。

为实现上述目的，本发明提供了基于视觉和听觉检测的细粒度呼吸交互的方法，包括以下步骤：

基于呼吸类型获取呼吸参数，构建交互词汇的呼吸输入方法；

基于所述交互词汇的呼吸输入方法，设计呼吸向量表征呼吸交互动作的若干种特征参数，并将所述若干种特征参数获取呼吸强度、呼吸方向、是否吸气、呼吸时间、呼吸频率、表情信息和音量信息；

构建视觉和听觉双通道检测模型，输入所述表情信息和所述音量信息，完成呼吸检测。

可选的，所述呼吸类型包括呼气和吸气，当人在呼气时，呼气的强度有大有小，呼吸的时间有长有短，呼气的方向是多样的，并且通过一段时间的呼气次数计算呼气频率；当人们在吸气时，吸气的强度、呼吸的时间和呼吸的频率也发生变化。

可选的，设计呼吸向量表征呼吸交互动作的若干种特征参数，并将所述若干种特征参数获取呼吸强度、呼吸方向、是否吸气、呼吸时间和呼吸频率的方法包括：定义呼吸过程中的信息，呼吸强度为变量m，m是一种连续的模拟量；呼吸方向为变量d，d是一种离散的方向变量；是否吸气为变量i，i是一种bool型变量；呼吸时间为变量t；呼吸频率为变量f；使用的双通道检测方式的输入变量分别为表情信息e和音量信息v。

可选的，所述呼吸向量将用户界面的交互设计过程转化为将呼吸向量到用户界面的操作动作词汇向量映射过程。

可选的，所述呼吸向量包括呼吸方向分量、呼吸强度分量、呼吸时间和吸气状态；所述呼吸方向分量映射到用户界面的方向性的操作分量，用作饼型菜单的方向选择；所述呼吸强度分量映射到用户界面动作词汇向量的速度变化控制分量，用作滚动菜单的滚动速度；所述呼吸时间用作界面元素的放大或缩小操作；所述吸气状态用作特定界面输入状态的触发开关。

可选的，构建视觉和听觉双通道检测模型，输入所述表情信息和所述音量信息，完成呼吸检测的方法包括：

首先设计一种呼吸动作为交互输入方式的交互系统BreathUI；

构建视觉和听觉双通道检测模型，输入所述表情信息和所述音量信息，采用领夹式麦克风接收音频信息，使用HTC Vive面部追踪器检测面部表情的变化，通过嘴唇、下巴、牙齿、舌头和脸颊上的38个跟踪点捕捉面部动作；

结合所述情信息和所述音量信息，基于所述交互系统BreathUI检测用户的呼吸类型，判断出用户是呼气还是吸气；

检测到是吸气时，同时识别此时的吸气强度，当检测到是呼气时，系统还需要判断用户当前的呼吸方向并检测此时的吹气强度。

可选的，呼吸类型判断具体包括：基于呼吸时两颊的凹陷情况作为呼吸类别的判定依据，结合麦克风的音量来检测呼吸动作的发生，当音量达到预设阈值时，将判定用户此时在做呼吸动作；调节各个方向呼吸判定的音量阈值后，将呼吸方向映射到交互界面中代替传统方向操作的组件。

可选的，呼吸方向识别具体包括：当用户做出不同方向的吹气动作时，facialTracker会返回面部相应追踪点位的数值，基于相关数值进行分类，判断出用户的吹气方向。

可选的，呼吸强度检测具体包括：使用麦克风来接受用户吹气或吸气时的音量信息，音量信息不光判断用户此时是否在吹气或吸气，映射为呼吸强度；BreathUI中利用呼吸强度值的变化来进行菜单滚动速度、界面缩放程度的控制。

本发明技术效果：本发明公开了基于视觉和听觉检测的细粒度呼吸交互的方法，提出将呼吸作为独立的交互通道，实现了一种听觉和视觉融合的双通道呼吸检测技术。基于图像和语音相结合的方式，实现了包括呼吸动作气流强度、呼吸气流方向，呼吸气流类型等多种呼吸动作特征参数的识别。本发明设计了一种以呼吸动作为交互输入手段的用户界面系统，综合利用呼吸动作的多种特征参数，实现了VR场景下典型交互界面的呼吸交互操控。基于用户界面系统，用户实验，研究了利用呼吸气流强度、呼吸气流方向以及呼吸气流类型进行用户界面操作时的效能，验证了以呼吸动作作为主要交互输入通道的可行性，并对未来可能的呼吸交互应用形态进行了探索。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明实施例呼吸特性参数的向量描述示意图：

图2为本发明实施例BreathUI的检测流程示意图；

图3为本发明实施例用户呼吸方向识别示意图；

图4为系统给出右侧的目标小球(b)用户吹中右侧的小球(a)示意图；

图5为预实验中每个方向的准确率(左)和吹气次数(右)示意图；

图6为饼型菜单选择“1/2”示意图；

图7为使用呼吸控制滑动菜单示意图；

图8为用户实验1的量化结果，平均任务完成时间(左)和平均错误率(右)示意图；

图9为用户实验2的量化结果：平均任务完成时间(左)和平均菜单滚动次数(右)示意图；

图10为用户实验1的问卷访谈结果；

图11为用户实验2的问卷访谈结果；

图12为本发明实施例基于视觉和听觉检测的细粒度呼吸交互的方法的流程示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

如图1-12所示，本实施例中提供基于视觉和听觉检测的细粒度呼吸交互的方法，包括以下步骤：

VR中的呼吸，对于VR中的对呼吸交互场景中相关研究主要分为两种，将其作为交互过程中的一种生理状态指标参数或环境影响因素。

其中大多数研究者将呼吸动作作为一种生理状态指标参数，通过传感器、呼吸监测机器或麦克风识别VR用户的呼吸参数，并且使用这些参数来研究用户在VR中的其他交互行为对用户生理状态的影响，如Marieke van Rooij等人在使用VR游戏治疗儿童焦虑症时，可以监测儿童的呼吸频率以及其他生理信息来辅助判断治疗效果。Adler等人研究了VR中的视呼吸冲突，表明了BOI(Body Ownership illusion)会对呼吸知觉产生影响。

而少部分的研究者将呼吸动作作为一种环境影响因素，通过在VR场景中模拟呼吸动作对真实环境的影响，来增强游戏的趣味性或真实感体验。如Joan Sol Roo等人开发的inner garden VR辅助正念系统，用户在呼气吸气时会升高或降低场景内的海平面。lorianSoyka等人开发了一个VR水下世界，让用户跟随水下世界中的水母的起伏调整呼吸节奏。Martijn J.L.Kors等人设计了一款名为《ABTJ》的混合显示游戏，让玩家扮演一个逃离战乱国家的难民，配置了一个包含气味扩散器和呼吸传感器的面具，用于带给用户嗅觉上的感官体验和判定用户是否能潜行成功。

而在非VR场景中，少部分研究将呼吸单项参数(如吹气与否)作为手势等其他输入方式的附加输入通道，如文献将“吹气与否”作为“点击选择”的输入动作。目前，缺乏综合利用呼吸的频率、强度、方向等各项参数完成复杂交互任务，以呼吸交互为核心的界面交互技术研究。

呼吸交互通道的参数，研究者对于呼吸过程参数的探究大多集中在呼吸强度、呼吸时间、呼吸频率等。Sra等人的工作，在持续时间、强度和频率方面区分了五种形式的吹气。并将这五种吹气模式映射到游戏当中作为操作元素。Joe Marshall等人通过呼吸来控制一个骑乘设施的旋转，吸气使其顺时针旋转，呼气使其逆时针旋转，旋转的速度由呼吸的速度决定。Harris J等人设计了一个通过听觉反馈促进慢呼吸的系统，用户的呼吸频率与目标速率越接近，播放音乐的质量就会越高。Bingham等人开发了一款辅助治疗囊性纤维化的电子游戏，用户通过呼吸来控制一个绿色圆圈，吸气使其向下，呼气使其向上，呼吸流量影响其移动的距离。

而对于呼吸方向这个参数，目前的研究还不是很充分，Kim J-H,Lee J使用用户和移动设备之间的位置和角度来计算呼吸的方向。Shwetak N.Patel and Gregory D.Abowd使用笔记本电脑自带的麦克风识别用户向电脑屏幕吹气的位置，向目标短促有力地吹气可以起到“点击选择”的作用。但是这种吹气方向是基于头部的转动而改变的，而基于嘴部动作而基于面部表情变化的吹气方向目前尚未相关研究。

呼吸交互通道的参数的识别，目前传统的呼吸识别方式大都是通过震动传感器来识别呼吸的强度时间等等参数，Koichi Kuzume等人使用piezo film sensor阵列来检测呼气信号，使用骨传导麦克风检测牙齿接触的声音信号，实现了一种残疾人输入设备，使用呼气和牙齿接触声音信号的hands free交互界面。John Desnoyers-Stewart等人使用Biosignalsplux piezoelectric breathing sensor around diaphragm(隔膜周围的Biosignalssplux压电呼吸传感器)检测胸腹部的起隆从而控制虚拟水母大小。Misha Sra等人通过佩戴呼吸检测带Zephyr biostrap来检测呼吸参数。Markus Tatzgern等人使用自研的AirRes面罩增强了虚拟体验，并有可能通过增强对危险的感知或提高训练模拟中的情境意识来为应用程序创建更身临其境的场景，或者通过提供额外的物理刺激来进行心理治疗。Corbishley等人提出了一种微型呼吸探测系统，利用安置在颈部的麦克风来监听气流的声音信号。美国佐治亚理工学院开发了一款RVSM(Rader sensing of heartbeat andrespiration)系统，可以在10m以上的距离监听人类的心跳和呼吸信号。

除了传统的震动传感器的呼吸检测方式，D.Shao等人还探索出了一种摄像机光学检测方式，由于在呼吸时肩部在垂直方向上会有小幅度的运动，于是他们在肩部图像上选择一小块区域，分析其随时间的移动，由此可以监测心率、脉搏传递时间和呼吸模式等重要生理信号用于疾病诊断和治疗过程。但是目前光学检测呼吸的方式没有基于面部检测进行呼吸动作气流方向检测的相关研究。

APPROACH

设计空间

以往的呼吸交互研究主要利用呼吸动作的某一项参数，作为一种辅助的输入通道，未充分挖掘呼吸的作为独立的交互输入通道的能力。

通过综合利用呼吸的射线方向、平面方向、呼吸强度、持续时间等参数，可以构建出具有丰富交互词汇的呼吸输入方法。

首先呼吸类型中可以分为呼气和吸气两种类型，当人在呼气时，呼气的强度有大有小，呼吸的时间有长有短，呼气的方向也可以是多样的，并且可以通过一段时间的呼气次数计算呼气频率；相反，当人们在吸气时，强度、时间、频率同呼气一样是存在变化的。

为了更清晰地描述呼吸交互过程中的各个信息检测方式以及用途，设计了一种呼吸向量，用以表征呼吸交互动作的各种特征参数。首先，定义呼吸过程中的信息，呼吸强度(breath magnitude)为变量m，m是一种连续的模拟量；呼吸方向(breath direction)为变量d，d是一种离散的方向变量；是否吸气(inhalation)为变量i，i是一种bool型变量；呼吸时间(breath time)为变量t；呼吸频率(breath frequency)为变量f。其次，所使用的双通道检测方式需要的输入变量分别是表情信息(expression)e和音量信息(volume)v。

如图1所示，表情信息和音量信息通过的双通道检测方式可以检测出呼吸的强度、方向等信息，将这些信息整合成一个一维的向量，形成一个呼吸的词汇空间，可用于执行相应的交互操作。这样的每一次呼吸过程都能够以向量的形式进行描述，从而便于后续的呼吸交互动作的特征描述及数据处理。

BreathUI

基于呼吸向量的描述方式，可以将用户界面的交互设计过程转化为将呼吸向量到用户界面的操作动作词汇向量映射过程。呼吸方向分量可以映射到用户界面的方向性的操作分量，用作饼型菜单的方向选择。呼吸强度分量可以映射到用户界面动作词汇向量的速度变化控制分量，用作滚动菜单的滚动速度。呼吸时间可以用作界面元素的放大或缩小操作。吸气状态可以用作特定界面输入状态的触发开关，等等。

基于这种方式，设计了一种呼吸动作为主要交互输入方式的交互系统—BreathUI。BreathUI是一种基于呼吸交互系统的操作UI，用户可以仅通过呼吸进行一些传统的界面操作例如菜单项的选择等等。其主要的呼吸交互动作识别及处理过程如图2所示。在用户进行一次呼吸后，呼吸交互系统首先会检测到用户的呼吸状态是呼气还是吸气，系统检测到是吸气时，会同时识别此时的吸气强度，当检测到是呼气时，系统还需要判断用户当前的呼吸方向，同样要检测此时的吹气强度。

基于视觉与语音的呼吸检测

将详细介绍VisaudiBreath，这是一种双通道呼吸检测方法，用于识别呼吸的方向、强度和类型。使用领夹式麦克风接收音频信息，使用HTC Vive面部追踪器检测面部表情的变化，可以通过嘴唇、下巴、牙齿、舌头和脸颊上的38个跟踪点捕捉面部动作。

呼吸类型判定

在本发明中，基于主动呼吸动作的整体气体流向，将呼吸划分为吹气和吸气两种类型。已有工作对于呼吸类型的判定大多依赖音频信息，但是吸气时声音相对吹气更小，增大了检测难度。在BreathUI中，主要基于呼吸时两颊的凹陷情况作为呼吸类别的判定依据，这样即使背景音嘈杂的环境下也能够对两种呼吸进行判定，从而可以获得更好的鲁棒性。

然而表情变化可能并不一定伴随着呼吸的实际动作。考虑到通常吸气或呼气时都会发出声音，所以结合麦克风的音量来检测呼吸动作的发生，当音量达到一定阈值时，系统将判定用户此时在做呼吸动作。调节各个方向呼吸判定的音量阈值后，可以将呼吸方向映射到交互界面中代替传统方向操作的组件。

呼吸方向的识别

在进行呼气或吸气动作时，嘴部的气体流主要是在嘴部前方的锥形区域内流动。通过嘴部口型可以在该锥形区域内对气体的流向进行一定程度的控制。目前的呼吸气流方向的研究基本都采用嘴部正前方作为固定的吹气或吸气方向，实际上是使用的头部朝向替代了呼吸动作的气流方向，称之为基于头部的呼吸方向。基于这种方法，交互操作需要通过在VR中多次转动头部的位置来完成。而且它只适用于交互对象固定在VR环境中，不随头部移动的场景。

本发明对呼吸方向的识别是基于视觉和听觉特征的，可以实现对呼吸方向更细粒度的识别，从而大大增加了呼吸交互的词汇空间。称其为基于表情的呼吸方向。

如图3所示，当用户做出不同方向的吹气动作时，facial Tracker会返回面部相应追踪点位的数值，基于相关数值进行分类，就可以判断出用户的吹气方向。

呼吸强度检测

呼吸强度天然地可以作为一种连续的交互模拟量进行输入。使用麦克风来接受用户吹气或吸气时的音量信息，音量信息不光可以判断用户此时是否在吹气或吸气，还可以映射为呼吸强度。BreathUI中利用呼吸强度值的变化来进行菜单滚动速度、界面缩放程度的控制。

用户实验

在这一章中，验证了基于面部和听觉检测的呼吸检测技术，并探讨了在VR应用中利用breathUI作为输入模式的能力。特别是将呼吸方向、强度和类型应用于菜单控制的能力，以及与不同类型菜单的交互能力。

该实验采用了HTC Vive Pro Eye HMD作为VR实验设备。面部表情识别是基于HTCVive Facial Tracker。使用Sudotack领夹式麦克风来捕捉呼吸的声音。

参与者是校园里的12名大学生。他们平均有0.8年使用VR设备的经验，从0到4年不等，但没有在VR中进行呼吸交互的经验。

设置了两种常用的菜单形式，即饼状菜单和滑动菜单，以探索呼吸交互在不同类型菜单上的控制能力，并将饼状菜单上的呼吸控制与使用操纵杆的控制进行比较，这就是用户实验一。同时，在用户实验一之前，进行了一个简单的预实验，以验证所提出的检测方法在确定呼吸方向方面的性能。

将12名参与者随机平均分为四组，实验顺序采用拉丁方实验设计方法，在四组之间随机平衡。

在预实验中，参与者被要求在不同的方向(即上、下、左、右、左上、右上、左下、右下)通过吹气尽可能快而准确地击中八个目标。系统将随机显示八个方向的任何目标，并以红色显示(b)。在给定的时间内(6s)，参与者可以吹气数次。当目标被击中时，球变成绿色，新的目标立即出现(a)。否则，6秒后会出现一个新的目标。每个参与者在八个不同的方向有八个任务。每个方向的目标将以随机方式出现，而且只出现一次。每个任务的击打次数和命中率将被记录下来。

图5(左)显示了参与者通过吹气击中目标的概率。可以发现，上、下、左、右四个方向的命中率要比其余四个方向高很多。图5(右)显示了每个方向的平均吹气次数。可以看出，左、右两个方向的吹气次数最少，平均只需要1.5次左右。上和下两个方向基本上都需要第二次机会。其余四个方向几乎每次都需要第二次以上的机会。

这可能是由于日常人们通常不会向斜方向吹气，所以很难做到斜吹的动作，导致面部表情识别不准确。因此，在实验一的饼状菜单设计中，只选择了四个方向。上、下、左、右。

这个实验是为了验证呼吸交互对饼状菜单的控制能力。菜单选择是VR应用中的一项基本输入任务。菜单的类型是多种多样的，由于呼吸交互的独特方向性特征，饼状菜单非常适用于作为呼吸交互的界面。

根据预实验的实验结果，将饼状菜单设计成三层，每层有四个子菜单。菜单内容被设计成理工科学生熟悉的数字分类任务，如图6所示。

使用呼吸交互系统时，参与者通过向不同方向吹气来触发下一层菜单。目标可能出现在三层中的任何一层。如果通过吹气选择了目标菜单，该任务就被认为是成功的。如果选择不正确，可以通过吸气动作取消，并返回到前一个菜单。每个参与者必须使用呼吸交互和操纵杆完成八个菜单选择任务。

使用操纵杆时，参与者用从操纵杆顶部发射的射线瞄准目标菜单，然后扣动扳机按钮进行菜单选择，并用操纵杆上的一个侧面按钮撤销。参与者完成任务的时间和无效交互的数量被记录下来。

在用户实验2中，与传统的滑动菜单相比，设计了两种基于呼吸的滑动菜单的交互方式，即Gale和Gust。Gale指的是一种强烈的、持续的吹气模式，类似于吹蛋糕时使用的吹气。Gust指的是从口中吹出的短暂但强烈的气流，类似于吹走物体上的灰尘。

在GALE模式下，菜单滚动的速度与呼吸的强度成正比。呼吸越强烈，菜单滚动的速度就越快。一旦吹气动作停止，菜单也停止滚动。在GUST模式下，菜单的初始移动速度取决于吹气的强度，然后减慢，直到停止。这里，滑动菜单被设计成2层。第一层有11个菜单项，每个菜单项对应10个第二层的菜单(图7)。与实验1类似，用户可以通过向四个方向吹气(上下左右)来向上和向下滚动菜单，回到上一层或下一层。每个参与者都被随机分配了五个菜单选择的任务。

由于呼吸交互选择菜单的任务对大多数参与者来说太过陌生，而且也想分析呼吸交互性能随着熟练程度的提高而提高的情况，所以每个实验进行了两次，间隔时间为2天。在两次实验中，完成全部任务的平均时间约为20分钟(M1＝20.67分钟，σ1＝9.60分钟)。经过熟练之后，平均时间大约为17分半(M2＝17.75分钟，σ2＝8.08分钟)。可以认为，第一次实验反映的是第一次体验呼吸交互时的表现，第二次实验是相对熟练后的表现。

用配对t检验(P<.05)来分析两个实验中的平均完成时间和实验二中的菜单滚动次数。采用Wilcoxon秩和检验(P<.05)来分析用户实验一中的错误率。

图8显示了用户实验1的数据。在第1次实验中，呼吸交互(m＝105.21s,σ＝30.74s)和基于操纵杆的交互(m＝72.67s,σ＝14.61s)在平均任务完成时间上有显著差异(T(11)＝4.74，P<0.005)。同样地，使用呼吸的错误率(m＝12.38％)明显高于使用操纵杆的错误率(m＝4.52％)(P<.05)。在第二次实验中，呼吸交互明显减少了任务完成时间(m＝68.11s,σ＝9.70s)和错误率(m＝5.36％)。使用操纵杆的完成时间(m＝64.29s,σ＝10.09s)和错误率(m＝3.90％)几乎相同，时间(T(11)＝2.10，P>.05)和错误率(P>.05)的差异不大。

可以看出，本发明中的呼吸交互在熟练之后，无论是效率还是准确度，都与传统的操作方法不相上下。

图9展示了用户研究二中的平均完成时间和菜单栏上下滑动的平均次数。可以发现，在两种不同的滚动模式下，两个实验都有明显的变化，这与用户实验1相似。关于任务完成时间，Gale模式比Gust模式(m＝168.17s,σ＝60.96s)花费的时间明显(T(11)＝5.012,P<0.005)要短(m＝119.41s，σ＝52.07)。使用Gale模式的滚动次数(m＝31.42,σ＝10.66s)也明显少于使用Gust模式的滚动次数(m＝44.83,σ＝11.25s)(T(11)＝5.90，P<.005)。

两种模式的任务完成时间(m_gale＝70.49s,σ＝16.70s)(m_gust＝124.09s,σ＝26.60)和滚动次数(m_gale＝22.83,σ＝8.71)(m_gust＝39.75,σ＝7.92)都随着他们对呼吸交互的熟悉而减少。然而，它们之间存在着明显的差距(T_gale(11)＝6.99,P<.005)和(T_gust(11)＝6.58,P<.005)。总之，在与滑动菜单交互时，Gale比Gust表现得更好。这可能是由于在Gale模式下，菜单滚动的停止更容易控制，而不是像Gust那样无法预测光标的最终位置。

在第二次实验之后，以调查问卷的形式调查了参与者对呼吸交互设计的主观感受。这些问题显示在左边。每个问题都有两个条形柱，分别对应呼吸交互和操纵杆交互。每个条形柱都表明了各位参与者对于每个问题的李克特量表的选择。每个问题的uncorrected p-value在右边。p前的"*"表示统计学上的显著性，p<0.05。使用Wilcoxon秩和检验(P<.05)来分析问卷结果，详细数据见图10。

关于用户实验1，参与者将呼吸交互的可学性(Q1)评价认为与操纵杆相似。然而，在易用性方面(Q2)，参与者明显感到呼吸交互不容易使用。这可能是由于操纵杆的操作方式更类似于WIMP的方法，而呼吸交互对他们来说是相对陌生的(Q3)。

在满意度方面(Q5,Q7)，虽然从客观数据来看，熟练后使用呼吸交互系统的效率和错误率与操纵杆没有明显区别，但大多数参与者认为呼吸交互更快、更自然。这可能是因为饼状菜单和呼吸交互在选择方向的任务中具有更好的适应性。

同时，也注意到，由于反复或长时间的不规则吹气，用户在第一次实验中会有明显的眩晕感(Q6)。

关于用户实验2，参与者认为两种滚动模式在可学性和易用性方面是相似的(Q9,Q10)。然而，客观数据和主观满意度(Q12)都表明，GALE比GUST更好。特别是，大多数人都认为GUST模式使用起来更累人，更晕(Q14)。这也从反面证明了在使用呼吸滚动浏览菜单时，GALE模式优于GUST模式。

至于头晕的问题，认为是由于在一定时间内高频率地使用呼吸交互系统来完成交互任务造成的。在日常应用场景中，这种高密度的交互是很少见的，所以眩晕感可以得到有效控制。

另一个值得注意的现象是，在第一个实验中，参与者普遍有强烈的眩晕感。然而，在第二次实验中，眩晕感并不明显，这说明当参与者习惯了呼吸交互后，使用体验得到了极大的改善。

在本发明中，提出将呼吸作为独立的交互通道，构建了呼吸通道相关的参数向量。同时，实现了一种听觉和视觉融合的双通道呼吸检测技术--VisaudiBreath。为了验证VisudiBreath的可行性，设计并实现了一个VR原型BreathUI，探索了使用呼吸方向、强度和类型来控制饼状菜单和滑动菜单的可行性和效率。

实验结果表明，呼吸交互可以用作独立的交互输入通道来完成常规界面菜单的操控，在饼型菜单场景下可以获得与操纵杆相当的效率。在滚动菜单场景下，菜单滚动速度与呼吸强度实时匹配的Gale模式有更好的表现。问卷访谈结果表明，使用呼吸进行界面交互具有较高的新颖性及用户接受度。

目前，本发明中的呼吸检测方法是比较简单。事实上，每个人在呼吸时都有不同的嘴部动作。此外，facial tracker对嘴部的细微变化不够敏感，相信随着硬件设备和检测算法的发展，呼吸交互在VR中会有更广阔的应用前景。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.基于视觉和听觉检测的细粒度呼吸交互的方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于视觉和听觉检测的细粒度呼吸交互的方法，其特征在于，所述呼吸类型包括呼气和吸气，当人在呼气时，呼气的强度有大有小，呼吸的时间有长有短，呼气的方向是多样的，并且通过一段时间的呼气次数计算呼气频率；当人们在吸气时，吸气的强度、呼吸的时间和呼吸的频率也发生变化。

3.如权利要求1所述的基于视觉和听觉检测的细粒度呼吸交互的方法，其特征在于，设计呼吸向量表征呼吸交互动作的若干种特征参数，并将所述若干种特征参数获取呼吸强度、呼吸方向、是否吸气、呼吸时间和呼吸频率的方法包括：定义呼吸过程中的信息，呼吸强度为变量m，m是一种连续的模拟量；呼吸方向为变量d，d是一种离散的方向变量；是否吸气为变量i，i是一种bool型变量；呼吸时间为变量t；呼吸频率为变量f；使用的双通道检测方式的输入变量分别为表情信息e和音量信息v。

4.如权利要求1所述的基于视觉和听觉检测的细粒度呼吸交互的方法，其特征在于，所述呼吸向量将用户界面的交互设计过程转化为将呼吸向量到用户界面的操作动作词汇向量映射过程。

5.如权利要求4所述的基于视觉和听觉检测的细粒度呼吸交互的方法，其特征在于，所述呼吸向量包括呼吸方向分量、呼吸强度分量、呼吸时间和吸气状态；所述呼吸方向分量映射到用户界面的方向性的操作分量，用作饼型菜单的方向选择；所述呼吸强度分量映射到用户界面动作词汇向量的速度变化控制分量，用作滚动菜单的滚动速度；所述呼吸时间用作界面元素的放大或缩小操作；所述吸气状态用作特定界面输入状态的触发开关。

6.如权利要求1所述的基于视觉和听觉检测的细粒度呼吸交互的方法，其特征在于，构建视觉和听觉双通道检测模型，输入所述表情信息和所述音量信息，完成呼吸检测的方法包括：

首先设计一种呼吸动作为交互输入方式的交互系统BreathUI；

7.如权利要求6所述的基于视觉和听觉检测的细粒度呼吸交互的方法，其特征在于，呼吸类型判断具体包括：基于呼吸时两颊的凹陷情况作为呼吸类别的判定依据，结合麦克风的音量来检测呼吸动作的发生，当音量达到预设阈值时，将判定用户此时在做呼吸动作；调节各个方向呼吸判定的音量阈值后，将呼吸方向映射到交互界面中代替传统方向操作的组件。

8.如权利要求6所述的基于视觉和听觉检测的细粒度呼吸交互的方法，其特征在于，呼吸方向识别具体包括：当用户做出不同方向的吹气动作时，facial Tracker会返回面部相应追踪点位的数值，基于相关数值进行分类，判断出用户的吹气方向。

9.如权利要求6所述的基于视觉和听觉检测的细粒度呼吸交互的方法，其特征在于，呼吸强度检测具体包括：使用麦克风来接受用户吹气或吸气时的音量信息，音量信息不光判断用户此时是否在吹气或吸气，映射为呼吸强度；BreathUI中利用呼吸强度值的变化来进行菜单滚动速度、界面缩放程度的控制。