CN116095548A

CN116095548A - 一种交互耳机及其系统

Info

Publication number: CN116095548A
Application number: CN202211452780.4A
Authority: CN
Inventors: 闫野; 张亚坤; 袁昊; 印二威; 谢良; 张敬; 白晓伟; 陈伟; 赵少楷
Original assignee: National Defense Technology Innovation Institute PLA Academy of Military Science
Current assignee: National Defense Technology Innovation Institute PLA Academy of Military Science
Priority date: 2022-11-21
Filing date: 2022-11-21
Publication date: 2023-05-09

Abstract

本发明属于人机交互和语音识别领域，具体涉及一种交互耳机及其系统。本发明的交互耳机系统，在保障头戴式耳机使用的便携度的同时，实现了日常使用或高噪声、高机动场景下的特种语音识别，音、视频通话，以及身心状态监测等功能。基于单体头戴式耳机，通过高度集成的系统架构及软硬件设计，实现了智能的远程音频交互、远程视频交互、远程生理信息交互等多媒体融合功能，该耳机可应用于医学与康复工程中发声障碍患者的视听交流、健康监测；高噪声或隐蔽私密的军事作战、应急救援等场景中的远程通讯、实况监测；也可用于其他日常视听通信。

Description

一种交互耳机及其系统

技术领域

本发明属于人机交互和语音识别领域，具体涉及一种交互耳机及其系统。

背景技术

耳机作为以音频为核心承载的远程信息交互工具，有着成熟的基线技术和广泛的应用需求。在日常应用中，受益于通常场景稳定、噪声可控、环境因素干扰小等，已有能成熟实现基本功能的系统设计。在军事作战、应急救援、野外探险、医学康复等特殊场景下，或是应对户外远足、近海航行、自驾旅游等特殊需求，由于传统的气导音频通路，因高噪声干扰、强隐蔽需要、发声者健康状况等原因无法充分地对语音信息的表征，甚至彻底丧失了表征能力。因此，需要在基于日常应用的耳机系统基础上，一方面进行抗噪与拾音设计，另一方面融入多模态信息如唇语、肌肉电信号、骨传导音频来协同建模，以保证耳机在特殊场景下的使用效果。目前已有相关的耳机系统，可以在满足基本通信需求的基础上，兼具一定的主动降噪设计与智能定向拾音，也有基于多模态融合理念给出了多模式的解决方案，即用户可以根据实际情境，选择用不同的模态组合来拾取语音信息。

但是，无论是面向特殊应用场景，还是应对日常特殊需求，当前的耳机系统，仍然存在两个方面的不足：一是多模态融合方法简单，主要表现在面对极端复杂环境下的外扰呈现低鲁棒性，适用的语音模型范围小，应用延展性低；二是智能交互程度不足，主要表现在功能单一，集成度低，模块利用率不高，无法在兼顾使用便携性、穿戴友好性的同时，承担多元需求与任务等。

所述第一点不足，多模态融合方法简单，主要表现在面对极端复杂环境下的外扰呈现低鲁棒性，适用的语音模型范围小，应用延展性低，具体来说：当前的耳机系统，在应对气导模态通路受阻而启用多模态融合时，其系统主要是通过多模式切换的手段，实质只是停留在模态之间的替代、补偿，以实现简单的识别任务，系统的集成度和智能化不足；在方法上则没有从耳机应用的实际需求出发考量，简单继承了传统的识别任务的理念，基于特征拼接或决策拣选给出字级或词级的分类结果，对多源信息的价值利用率低，在面向极端复杂环境中的随机噪声和外部干扰时鲁棒性不足，同时模型适用范围局限，泛化能力低，尤其重要的是在真正实现向语音的合成上的设计是缺乏的。

所述第二点不足，智能交互程度不足，主要表现在功能单一，集成度低，模块利用率不高，无法在兼顾使用便携性、穿戴友好性的同时，承担多元需求与任务，具体来说：在实际的通信需求中，音频固然是最核心的信息承载，但是引入更多维的信息互联能够让交流的双方或多方都能够有更好的体验。这样的多维信息，如视频通话，使得各终端可以看到彼此脸部画面以及所处场景，是从视觉信息维度对交互度的升级；又如借助传感技术，各终端可以看到实时了解彼此的身心指征，是从生理信息维度对交互度的升级。同时，类似的多维信息的引入，不仅是给予用户更好的交互体验，也是特战、救援、探险等应用场景中必要的功能，在群体通信中可以帮助主控端实时了解个体的健康状况，以作出相应的判断和决策。现有的耳机系统，仅关注基础功能，即音频信息的交互，无法实现类似上述的面向多媒体交互的功能；而若脱离耳机系统，单独配置如摄像头系统，多传感系统来承担上述功能，则会大大降低面向移动应用场景中的穿戴友好性和使用便携性。因此，在以音频信息作为主导交互模态的耳机系统上，设计集成多媒体交互功能的智能系统，提供多功能和便携性兼备的解决方案，是当前的耳机系统设计中缺乏的。

发明内容

基于现有技术仍存在的缺陷，本发明旨在设计一种兼有高度集成性和良好便携性的交互耳机及其系统。该耳机可应用于医学与康复工程中发声障碍患者的视听交流、健康监测；高噪声或隐蔽私密的军事作战、应急救援等场景中的远程通讯、实况监测；也可用于其他日常视听通信。

为实现上述技术目的，本发明采用的技术方案如下：

一种交互耳机系统，包括感知模块、运算模块、通信模块和展示模块；

感知模块，用于获取各种模态的信息；所述感知模块包括音频信息感知单元和视觉信息感知单元；

运算模块，用于对所述各种模态的信息进行处理，得到处理结果；所述运算模块包括音频信息处理单元、视觉信息处理单元和生理信息处理单元；

通信模块，用于将运算模块的处理结果传输给其他终端；接收来自其他终端的信息，并发送给展示模块；

展示模块，用于呈现听觉信息和视觉信息；所述展示模块包括扬声器和增强现实眼镜。

进一步地，所述感知模块的音频信息感知单元包括麦克风和骨传导信号传感器；

所述视觉信息感知单元包括第一视觉感知单元、第二视觉感知单元、第三视觉感知单元；所述第一视觉感知单元获取用户面部图像，所述第二视觉感知单元获取场景图像，所述第三视觉感知单元获取用户的眼动图像。

进一步地，由所述麦克风获取气导音频信号、第一视觉信息感知单元获取唇部图像信号，以及由骨传导信号传感器获取骨传导信号，获取的信号经音频信息处理单元运算，识别为特定短语和指令，并同时合成清晰的音频，实现音频交互；

由视觉感知单元一获取用户面部图像，由视觉感知单元二获取场景图像，所述获取的面部图像和场景图像经视觉信息处理单元处理，实现常规视频通话或三维沉浸式视频通话；

由视觉感知单元一获取用户面部图像，由视觉感知单元三获取眼动图像，所述获取的面部图像和眼动图像经生理信息处理单元运算，获得用户的心率，并识别用户的情绪类型，实现对用户身心状态的监测。

进一步地，所述音频信息处理单元在安静、稳定的环境中，直接将气导音频作为拾音的目标模态，经传统的耳机系统转换传输，实现音频交互；

在高噪声、高机动的复杂场景下，音频信息处理单元将唇部图像信号和骨传导信号作为拾音的目标模态，依骨导-唇读融合-合成的方法，以实现模态信息融合的音频交互；

所述骨导-唇读融合-合成的方法为：

采集用户语音输入时同步获取的骨传导语音信号和唇部运动图像信号；

基于所述骨传导语音信号和唇部运动图像信号确定时间域和空间域的单模态数据特征；

基于所确定的时间域和空间域的单模态数据特征，应用融入跨模态注意力机制的生成对抗网络以及梅尔语谱图融合方法，获得的模态协同特征表达；

基于所获得的模态协同特征表达，一方面应用已训练的后端分类神经网络模型，输出特定短语和指令；另一方面应用人声合成模型，获得音频波形。

进一步地，所述视觉信息处理单元包括常规计算单元和三维沉浸计算单元，视觉信息处理单元的计算分为常规模式和三维沉浸模式；

常规模式下，实现常规的基于二维图像的视频通话；常规计算单元对面部图像的畸变进行校正，理想的像素点坐标(x，y)和畸变的像素点坐标(x_d，y_d)有如下关系

x_d＝x+x[k₁(x²+y²)+k₂(x²+y²)²]

y_d＝y+y[k₁(x²+y²)+k₂(x²+y²)²]

其中k₁、k₂为径向畸变系数，使用张正友标定方法计算出径向畸变系数后，依据上式的关系，可通过反畸变计算由畸变像素点求解出理想像素点(x，y)，即可获得校正后的图像，实现基于二维图像的视频通话；

三维沉浸模式下，常规模式下的计算单元仍然工作，对图像的畸变先进行校正，校正后的图像再经过三维沉浸计算单元处理后，对人像进行实时三维重构，实现三维沉浸式视频通话。

进一步地，其特征在于，所述三维沉浸模式计算包括：

采用结构光系统对用户的面部进行三维扫描，通过调节光照情况，获得某一光照强度区间和光照角度区间下，用户静态无表情的立体轮廓特征，(u，v)代表不同的强度区间和照射角度；

V_(u，v)＝{X₁，Y₁，Z₁，X₂，Y₂，Z₂，……，X_n，Y_n，Z_n}∈R³ⁿ

回归得映射关系Z_i＝αX_i+βY_i，i＝1，2，......，n

同时获取不同基本表情类别(包括生气、厌恶、恐惧、悲伤、期待、快乐、惊讶、信任等)下的用户二维面部特征点数据V_j，j为表情类别下标；

V_j＝{x₁，y₁，x₂，y₂，……，x_n，y_n}∈R²ⁿ

可获得扩展三维面部特征数据为V_j-e；

z_i＝αx_i+βy_i，i＝1，2，……，n

V_j-e＝{x₁，y₁，z₁，x₂，y₂，z₂，……，x_n，y_n，z_n}∈R³ⁿ

将静态无表情的立体轮廓特征与扩展三维面部特征数据随机组合构成形状基向量S，具体如下：

r^(j-e)～Bernoulli(p)

V_j-e′＝r^(j-e)*V_j-e

S_(u，v)＝V_(u，u)+W_j-eV_j-e

(式中符号上方的波浪线无特殊意义，仅为与前文区分)；

r是以一个概率为p的伯努利分布随机生成的n个0或1。随后与V_j-e相乘，来随机舍去或留下一部分扩展三维面部特征向量，再与每一个扩展三维面部特征向量的权重相乘，随后加上静态无表情的立体轮廓特征；W_j-e是每一组三维向量的权重。

同时对用户的面部进行三维扫描，获得的用户静态无表情的纹理特征T_(u，u)，

T_(u，v)＝{R₁，G₁，B₁，R₂，G₂，B₂，……，R_n，G_n，B_n}∈R³ⁿ

R、G、B代表颜色分量；

将上述数据矩阵S_(u，v)和T_(u，v)通过主成分分析降维，分别获得形状特征和纹理特征的两个主成分分析模型：

分别为两个形状特征和纹理特征的均值，

V_S＝[v_s1，v_s2，v_s3，……，v_sm]∈R^3n*m，V_T＝[v_t1，v_t2，v_t3，……，v_tm]∈R^3n*m _，V_S、V_T分别是形状特征S_(u，v)和纹理特征T_(u，v)经主成分分析得到的m个主成分，σ∈R^m表示标准差；据此得到三维人脸模型包括形状模型和颜色模型如下，将两个模型叠加即可获得最终的建模结果I；

形状模型：

纹理模型：

三维重建模型：I＝S+T

其中λ_i和ρ_i分别表示形状参数和纹理参数；

将获得的基向量组的形状和纹理主成分分析模型M_S、M_T依被扫描的用户进行标注后存储，得到人脸基础模型数据库；

三维沉浸模式下，调用相应的人脸基础模型数据，实时识别由视觉感知单元一获取的二维面部图像的关键特征参数，该组特征参数的选取与前述建立的用户二维面部特征点数据V_j时一致，基于上述先验的模型，即可获得相应的形状参数λ_i；

再选择受光照条件影响的关键特征点，采用双线性插值法，求解出受光照条件约束的纹理参数ρ_i；

基于实时获取的人脸基向量组，以及形状参数和纹理参数，运用上述三维重建模型，将二维面部图像实时映射为三维人脸图像；

进一步地，所述生理信息处理单元基于第一视觉感知单元获取的用户面部图像进行处理，采用远程光电容积脉搏波描记法测量用户的心率；将心率测量结果传输给展示模块。

进一步地，所述生理信息处理单元对第一视觉感知单元获取的面部图像以及第二视觉感知单元获取的眼动信息进行处理；

对于面部图像，首先进行人脸对齐，归一化预处理，通过卷积神经网络CNN和长短记忆网络LSTM，提取面部图像特征以及时序信息，再将得到的深度特征，经浅层分类器输出多分类结果R₀；所述面部图像特征包括面部特征点以及面部微表情的时空域特征和光流特征等；

对于眼动信息，获取眼动特征，所述眼动特征包括瞳孔直径、注视偏差、注视持续时间、扫视持续时间、扫视幅度、眨眼持续时间和眨眼频率；其中对瞳孔直径信息进行主成分分析，并对特征信息进行平滑及归一化处理，通过基于受限玻尔兹曼机的自动编码器，对各类眼动特征进行依权重编码，提取出高阶特征表达，并经浅层分类器输出多分类结果R₁；

上述的多分类结果即识别出的不同的情绪类别，如生气、厌恶、恐惧、悲伤、期待、快乐、惊讶和信任等；

通过上述的方法处理得到初步情绪识别结果R₀、R₁；同时，将两通路的特征进行特征层融合，即对前述面部图像特征以及眼动特征进行归一化、拼接，再经后端分类器输出情绪识别结果R₂；对初步情绪识别结果R₀、R₁以及融合情绪识别结果R₂进行决策层融合，以获得最终可信的情绪识别结果R。

本发明还提供一种交互耳机，包括上述的交互耳机系统；所述交互耳机系统包括麦克风、骨传导传感器、面部摄像头、扬声器和增强现实眼镜；

所述增强现实眼镜的外侧设置有场景摄像头，增强现实眼镜的内侧设置有微距摄像头。

进一步地，所述面部摄像头作为第一视觉信息感知单元，实时捕获用户的面部图像；所述场景摄像头作为第二视觉信息感知单元，实时捕获场景图像；所述微距摄像头作为第三视觉信息感知单元，实时捕获用户的眼动信息。

相比于现有技术，本发明具有如下有益效果：

一方面本发明通过嫁接光学捕捉模组，融入骨导-唇读融合-合成系统架构，建立模态信息深度融合机制下的语音合成解决方案，以此来解决现有耳机系统采用的多模态融合方法简单，在复杂环境摄动下适用度低、泛化性差、应用延展性低等技术问题；

另一方面复用集成的光学捕捉模组，同时使用增强现实眼镜，在语音通信的同时，实现常规视频通话或三维沉浸式视频通话，远程身心状态监测等功能，以扩展耳机系统的功能，提升用户的交互体验，满足特殊场景对用户实时状况、身心指征进行实时监测的切要需求，以解决传统耳机系统功能单一，智能交互程度不足，因而无法胜任所述特殊场景需求的技术问题。

本发明的交互耳机系统，在保障头戴式耳机使用的便携度的同时，实现了日常使用或高噪声、高机动场景下的特种语音识别，音、视频通话，以及身心状态监测等功能。基于单体头戴式耳机，通过高度集成的系统架构及软硬件设计，实现了智能的远程音频交互、远程视频交互、远程生理信息交互等多媒体融合功能。

附图说明

图1为交互耳机系统的整体框架图；

图2为展示模块示所呈现内容的示例图；

图3为音频信息的处理流程图；

图4为梅尔语谱图区域划分示意图；

图5为对梅尔语谱图中低频区域进行二次分区示意图；

图6为基于骨传导信号和唇部图像融合的语音合成方法流程图；

图7为视觉信息的处理流程图；

图8为生理信息的处理流程图。

具体实施方式

为了更清楚地说明本发明实施例的技术方案，下面将结合附图对本发明实施例作具体的介绍，显而易见地，下面的描述仅仅涉及本发明的一些实施例，并非对本发明的限制。

一种交互耳机系统，包括感知模块、运算模块、通信模块和展示模块，整体构架如图1所示；

感知模块：对用户释放的信息以及现场环境信息进行多维感知，感知模块包括音频信息感知单元和视觉信息感知单元，感知模块将获取的各模态的信息传输给运算模块；

模态在计算机人机交互领域，是指数据的存在形式，比如文本、音频、图像、视频等不同的文件格式为不同模态。本发明设涉及的模态主要包括音频、图像和视频。

感知模块的音频信息感知单元包括麦克风和骨传导信号传感器；

感知模块的视觉信息感知单元包括第一视觉感知单元、第二视觉感知单元、第三视觉感知单元；第一视觉感知单元获取用户面部图像，第二视觉感知单元获取场景图像，第三视觉感知单元获取用户的眼动图像。

运算模块：接受感知模块传输来的信息，进行对信息数据进行计算处理，给出相应的处理结果，将处理结果传输给展示模块和通信模块；

运算模块包括音频信息处理单元、视觉信息处理单元和生理信息处理单元；

运算模块还包括用于控制整个系统的主控单元以及用于存储信息的存储单兀；

运算模块是系统功能实现的核心模块，采用搭载高算力嵌入式神经网络处理器的系统级芯片，通过部署神经网络模型，设置上述的处理单元，分别针对音频信息、视觉信息、生理信息进行识别计算。

具体的，由麦克风获取的气导音频信号、第一视觉信息感知单元获取的唇部图像信号，以及骨传导信号传感器获取的骨传导信号，三种信号经音频信息处理单元运算，识别为特定短语和指令，并同时合成清晰的音频，实现音频交互；

具体的，由第一视觉感知单元获取的面部图像，以及由第二视觉感知单元获取的场景图像，经视觉信息处理单元运算，实现视频通话；

具体的，由第一视觉感知单元获取的面部图像，以及由第三视觉感知单元获取的眼动图像，经生理信息处理单元运算，获得用户的心率，并识别用户的情绪类型，实现对用户身心状态的监测。

通信模块：接收运算模块的计算结果，传输给其他终端；并接收来自其他终端的信息，并发送给展示模块；

展示模块：以扬声器和增强现实眼镜作为展示模块，分别呈现听觉信息和视觉信息。

其他终端的音频经通信模块传输到本终端的展示模块，并通过扬声器播放。增强现实眼镜通过蓝牙或无线网络等通讯方式接受自通信模块传输的来源于其他终端的信息，同时接收来自本终端运算模块中生理信息处理单元传输的计算结果。

可选的，视频通话中，展示模块显示的信息主要有对话人面部视频或所处环境视频，同时将对方终端生理信息处理单元计算的身心指征(包括对话人当前情绪状况和心率)，以及本终端生理信息处理单元计算的身心指征(包括自己的当前情绪状况和心率)呈现在画面中。

可选的，对话人的面部视频，以及所处环境视频，分别默认为用户可见的主画面以及小窗画面，用户可通过语音指令或眼神注视等方式，切换主画面与小窗画面。

可选的，对话人的身心指征默认悬浮呈现在主画面特定位置，用户可以通过语音指令或眼神注视的方式，将其切换为本人的身心指征。

展示模块所呈现信息的一种示例如图2所示。

音频信息的处理流程如图3所示，音频交互功能的具体实现方法如下：

在安静、稳定的环境中，由于气导音频没有受到较大的干扰，音频信息处理单元可直接将气导音频作为拾音的目标模态，经传统的耳机系统转换传输后，即可实现音频交互的功能；

而在高噪声、高机动的复杂场景下，气导通路会受阻，因此音频信息处理单元将唇部图像信号和骨传导信号作为拾音的目标模态，依骨导-唇读融合-合成的方法，以实现模态信息融合的语音识别、语音合成；

所述骨导-唇读融合-合成的方法包括步骤：

S1、采集用户语音输入时同步获取的骨传导语音信号和唇部运动图像信号；

S2、基于所述骨传导语音信号和唇部运动图像信号确定时间域和空间域的单模态数据特征；

S3、基于所确定的时间域和空间域的单模态数据特征，应用融入跨模态注意力机制的生成对抗网络以及梅尔语谱图融合方法，建立语音模型，获得的模态协同特征表达；

应用梅尔语谱图的时频分区图像融合方法，建立语音模型，获得对共性信息的模态协同特征表达；

S4、基于所获得的模态协同特征表达，一方面应用已训练的后端分类神经网络模型，识别为特定短语和指令输出；另一方面应用人声合成模型，获得音频波形。

下面对上述步骤S2、S3、S4各环节作详细阐述：

步骤S2具体包括：

步骤S21、获取骨传导信号后，进行处理(特征提取)，获得基于骨传导信号的梅尔语谱图Mel-BC；

骨传导信号采用现有的处理技术，即进行预加重、加窗、分帧、短时傅里叶变换(Short-time Fourier Transform，STFT)、获取功率谱、应用谱减法进行降噪处理、运用梅尔滤波器组、获取梅尔语谱图(Mel-Spectrogram)并提取梅尔倒谱系数(Mel FrequencyCepstrum Coefficient，MFCC)；所获得的梅尔语谱图Mel-BC将作为后述基于语谱图合成中的输入通路之一；

步骤S22、获取唇部运动图像的序列帧图片，进行运动检测，将序列帧图片数据流输入到前端神经网络模型，提取出唇部图像特征F_v；此处的前端神经网络模型具体可采用VGG19或Resnet-50卷积神经网络模型。

由此得到了两方面的单模态数据特征。

步骤S3具体包括：

步骤S31、对骨传导信号进行盲增强，用传统的信号处理技术还原出一定的高频分量；具体为：

首先对骨传导信号进行基于谱包络转换的盲增强，对其高频分量进行初步的粗粒度填补(即初步扩展)。盲增强，即仅依赖于存留的中低频信号来恢复出高频分量。基于谱包络转换的盲增强，是利用预训练模型，通过将骨传导信号的谱包络特征映射到气导信号的谱包络特征，再与原始激励信号卷积计算后即可得到扩充了估计高频分量的完整信号。基于此信号，重复上述提取骨传导信号数据特征的方法，获取相应梅尔倒谱系数，作为本环节的骨传导信号的特征表示Fb；

步骤S32、将经过盲增强的骨传导信号和唇部运动图像信号，进行基于跨模态注意力机制的协同表征，并输入到已训练的生成对抗网络中，经过多次迭代，生成出基于模态融合的梅尔语谱图Mel-Vba；具体为：

首先围绕常用的中文短句、文本指令、逻辑指令，基于生成对抗网络(GenerativeAdversarial Nets)，训练语音模型，构建从短句命令等与相应梅尔语谱图之间的映射关系。所述的生成对抗网络的训练，可以视为对生成器(Generator)和分类器(Discriminator)的分别训练。其中，生成器基于待处理特征生成仿真图片，在本设计中的待处理特征特指基于唇部运动图像和骨传导信号的协同特征，生成真实可靠的梅尔语谱图，以供后续与骨传导信号通路的梅尔语谱图Mel-BC融合并据此合成语音。而分类器则可根据生成器输出的仿真图片，给出与先验真实图片的一致性评价。如基于协同特征生成的梅尔语谱图，经过分类器判别可知两类结果：一是无条件结果，即该梅尔语谱图真实与否，二是条件结果，如与语句A的先验真实梅尔语谱图的相似度为K₁，与语句B的先验真实梅尔语谱图的相似度为K₂，与语句C的先验真实梅尔语谱图的相似度为K₃等。

同时，为了得到高真实度、高准确性的生成梅尔语谱图，本方案要求输入到生成对抗网络中(也即是生成器的输入)的特征尽可能包含两个模态的有效信息，为此本实施例引入了跨模态注意力机制对输入特征进行协同表达，在骨导信号特征和唇部运动图像信号特征之间据权重优选出有效的信息表达，剔除掉次要的信息。模态是指数据的存在形式，比如文本、音频、图像、视频等不同的文件格式为不同模态，跨模态任务能够通过对不同模态之间数据的关联和联系进行研究，从而很好地整合和处理两个模态的信息。

应用跨模态注意力机制的协同表达方法如下：

分别为查询向量，键向量，值向量。将骨传导信号原始特征经过合并语音表示的频谱维度和通道维度的扁平化算子计算，与查询向量相乘得到

将唇部图像原始特征分别和键向量和值向量相乘，得到

此后依据以下公式进行权重计算；

再将得到的F与唇部图像原始特征F_v进行Concat拼接，即得到所需要的特征表达。

另一方面，不能认为仅通过一次生成器获得的梅尔语谱图，即可在无条件结果和条件结果上都有满意的表现，其真实度和准确度总有提升的空间。为此本实施例引入迭代机制，设置多个阶次的生成器和分类器，由分类器的评价结果来引导迭代的进行，并通过跨模态注意力机制不断更新各个阶次生成器的输入特征，渐次提高特征纯度，从而提升生成梅尔语谱图的真实性，并确保准确的映射关系，使得后续梅尔语谱图向语音波形的转化更具可实现性。

下面将具体阐述本发明设计的基于骨导-唇读注意力机制的生成对抗网络模型Vba-GAN(Visual-Bone Conducted Attentional GAN)：

步骤S321：基于唇部运动图像信号提取的特征表示记为F_v，作为原初输入I₀；

步骤S322：原初输入I₀与基于骨传导信号提取的特征表示F_b进行一次基于跨模态注意力机制的协同编码(Visual-Bone Conducted Attention)；

步骤S323：将经过一次跨模态注意力机制的协同编码后的权重特征F_a1与原初输入I₀拼接组成融合特征F_c1输入到当前阶次生成器GE₁中，获得生成特征F_ml，同时生成当前阶次的梅尔语谱图IM₁；

步骤S324：将当前阶次的梅尔语谱图输入到当前阶次分类器D₁，如果判断的无条件结果为真值且判断的条件结果中存在与某一个语句相似度K_h高于一定阈值(本实施例设置为90％)，且与剩余语句的最高相似度K_s低于一定阈值(本实施例设置为3％)，认为当前阶次生成的梅尔语谱图为可用梅尔语谱图；

步骤S325：如果不满足步骤S324所述的判断条件，则将生成的当前阶次特征表达为F_m1作为的步骤S321中的原初输入I₀，依照步骤S322，S323，S324，S325所述进行循环迭代，凡所涉及的F_a1、F_c1、F_m1、GE₁、IM₁、D₁的下标加1；

步骤S326：直至S234中的判断条件满足，结束迭代，输出当前阶次生成的可用梅尔语谱图，由此获得基于生成对抗网络和跨模态注意力机制的协同编码的梅尔语谱图Mel-Vba。

特别说明的是，由于迭代机制的使用需要，应配置多个阶次的生成器与分类器，对此有两种方案：一是每一个阶次可为相同的生成器、分类器；二是在预训练阶段就根据不同的细粒度层级，独立训练各阶次的生成器、分类器，虽然此方案会增加算力消耗的，但可进一步提升各阶次生成、分类的准确性。在设计模型时应依据现实需要权衡选择具体的方案。

通过上述步骤得到了基于骨传导信号的梅尔语谱图Mel-BC，以及基于生成对抗网络和跨模态注意力机制协同编码的梅尔语谱图Mel-Vba。由于两个通路的梅尔语谱图对于语音信息的表征有各自的优势，因此还需要通过步骤S33将两个通路的梅尔语谱图进一步融合，获得最终输入给人声合成模型的终态梅尔语谱图Mel-U1t，使得对原始语音的描述全面而真实。

步骤S33：将基于模态融合的梅尔语谱图Mel-Vba与步骤S21中获得的基于原初骨传导信号的梅尔语谱图Mel-BC进行梅尔语谱图融合，获得终态梅尔语谱图Mel-Ult。

梅尔语谱图的融合分为缄默场景和高噪声场景两种情况，下面分别进行详细描述；

在缄默场景中，情况较为简单，人并没有产生相当的声音激励，骨导传感器感知到的信号丰富度低，故此忽略基于骨传导信号的梅尔语谱图Mel-BC，在全频段采用Mel-Vba直接作为终态梅尔语谱图Mel-Ult，即：

Mel-Ult＝1*Mel-Vba+0*Me1-BC

在高噪声场景中，即人确实产生了相当的声音激励，只是气导语音受到噪声干扰而失效。在这种情况下，本实施例对梅尔语谱图采用时频分区的图像融合方法，核心理念是根据梅尔语谱图的本质特征，从时域和频域两个维度，对梅尔语谱图进行局部区域划分，使得终态梅尔语谱图Mel-Ult的各个局部区域保留来自Mel-BC和Mel-Vba相应局部区域的最优表征。对梅尔语谱图的区域划分示意图参见图4。

梅尔语谱图的横轴是时间，纵轴是频率，颜色的深浅则代表相应频率分量在特定时刻的强弱(幅度)。为了方便计算，将其转化为灰度图像，其幅度可以用0(黑色)至255(白色)一维线性化值P来刻画。由于白色能量最高，黑色能量最低，为了方便用数值大小直接对应能量大小，记某一个时刻、某一个频率的幅度为：

A(t，h)＝P

第一，从频率维度来进行分区并融合，其目的是确定终态梅尔语谱图的高频段。首先给定一个截止频率z，将梅尔语谱图根据截止频率z划分为高频分区H0和中低频分区L。这是因为骨传导信号有着高频分量衰减严重消失，通常可以认为是截止频率以上的分量完全消失。因此在截止频率以上的高频分区内容，需要用基于生成对抗网络和跨模态注意力机制协同编码的梅尔语谱图Mel-Vba来填补。而截止频率，又与骨传导信号的传递通路所经过的人体介质强相关，即可认为骨导传感器的放置位置确定后，截止频率也可相应确定，本实施例中骨导传感器设定放置位置在脸颊处，截止频率约在3KHZ，即z＝3：

Mel(H₀)＝Mel(Clip|FRQ＞3KHZ)

Mel(L)＝Mel(Clip|O＜FRQ＜＝3KHZ)

将Mel-BC在高频分区H0的部分除去，用梅尔语谱图Mel-Vba的高频分区H0进行填补；从而，终态梅尔语谱图的高频分区可确定为：

Mel-Ult(H0)＝1*Mel-Vba(H0)+0*Mel-BC(H0)

第二，从时域维度来进行分区并融合，其目的是确定终态梅尔语谱图的中低频段。在中低频段，骨传导信号有着较准确的时频分布，但是幅度均有轻微的衰减。同时由于原初的声音激励未经过口腔、唇间、鼻腔等区域，依赖于此类区域摩擦、爆破的辅音音节会丢失。因此需要做的是在中低频段骨传导信号的时频分布的基础上，合理增强相应区域的幅度，并特别要恢复出辅音音节相应区域的幅度。

针对幅度衰减，需要合理增强相应区域的幅度，首先计算Mel-BC中低频区域的幅度分布，认为：

在Mel-BC(L)中，如果某一时刻、某一频率下的幅度大于一定阈值x，但又小于一定阈值y(即在一定区间内)，则判定该处是音频信息准确的时频分布点，但其幅度有一定的衰减，则以Mel-Vba(L)同一时频点的幅度对其做合理增强；否则，则不做增强；本实施例中x＝30，y＝80，从而终态梅尔语谱图的中低频区域的幅度分布可确定为：

A(t，h)|Mel-Ult(L)＝1*A(t，h)|Mel-Vba(L)(30＜A(t，h)|Mel-BC＜80)

A(t，h)|Mel-Ult(L)＝1*A(t，h)|Mel-BC(L)(其他)

在此基础上，针对辅音音节丢失的情况，需要进一步从时域维度，依时间分辨率，对中低频区域进行二次分区为n个等时长小区域，如图5所示，

由于每一次发声均为一个指令短句，故可以认为所关注的Mel-BC(L)语谱图，其在时域上应有一段不间断的幅度分布。因此，当考察任一个小区域时，当其前后小邻域均有一定的幅度分布时，该区域也应有一定的幅度分布。而若该区域没有幅度分布，则判定是出现了辅音音节缺失的情况，需要用Mel-Vba(L)相应区域来补充。具体过程为：首先对Mel-BC(L)的各小区域进行幅度的积分计算，计算出小区域Mel-BC(L_i)内的幅度总和A(L_i)，其时域维度上下限为T_i0至T_ie，频率维度上下限为0至截止频率z，即0至3KHZ：

当A(L_i-1)和A(L_i+1)均大于一定阈值p(对于首区域仅考虑A(L_i+1)，对于尾区域仅考虑A(L_i-1))，而A(L_i)小于一定阈值q时，用Mel-Vba(L)对对应小区域进行填补：

Mel-Ult(L_i)＝1*Mel-Vba(L_i) (A(L_i)＜q&&A(L_i-1)＞p&&A(L_i+1)＞p)

Mel-Ult(L_i)＝1*Mel-BC(L_i) (其他)

从而，高噪声场景中终态梅尔语谱图的中低频分区可确定为：

从而，高噪声情况下的终态梅尔语谱图可以确定为：

Mel-Ult＝Mel-Ult(H₀)+Mel-Ult(L)。

由此就获得缄默场景和高噪声场景两种情况下基于梅尔语谱图融合的终态梅尔语谱图Mel-Ult。

以上阐述了本发明提供的针对梅尔语谱图的时频分区图像融合方法，整体流程如图6所示；从时域和频域两个维度对梅尔语谱图进行区域划分，根据模态的时频分布特性，分别进行图像融合，以获得对原始模态信息，在梅尔语谱图的呈现形式下，更丰富全面的信息编码。在本发明中是将基于骨传导信号的单模态梅尔语谱图，以及基于骨传导信号和唇部运动图像信号两个模态信息融合的梅尔语谱图，进行图像层面的拼接融合；而在其他应用实例中，上述方法也可延伸至对来源于其他信息模态的梅尔语谱图进行相应处理。

步骤S4主要包括：

基于所获得的模态协同特征表达，即梅尔语谱图Mel-Ult，应用预训练的后端分类神经网络模型，可以根据预训练目标被相应识别，在本实施例中目标为特定的短句、文本指令、逻辑指令等；

如图6所示，基于图像融合后的终态梅尔语谱图Mel-Ult，通过后处理网络，转化为线性频谱图。其中后处理网络采用成熟的1-D Convolution Bank+Highway Network+Bidirectional GRU架构。将获得的线性频谱图输入成熟的基于Griffin-Lim算法的声码器，即可以转化为语音波形，实现语音合成。

本发明的语音合成由于引入了骨传导信号，其包含了发声者的发音特质(语气，节奏、音色等)，因此合成的语音对发声者的还原度高；同时，通过在合成时调用对注册用户的预训练模型，能进一步使合成的语音保留发声者本身的音质。

可选的，在另外的实施例中，在得到基于骨传导信号、唇部运动图像信号确定时间域和空间域的单模态数据特征后，经Transformer模型的编解码，进行基于多头注意力机制(Multi-head attention)的模态内及模态间的特征融合与权重分配，构建基于特征融合的多模态信息；基于语言分类模型，将多模态信息映射为文本信息，再经如Tacotron等TTS(Text to speech)文本向语音的转换模型，合成音频信息。由于文本结果丧失了原创音频特质，如需进一步在合成语音中实现对发音人发声特质、语气、节奏、音色等的保留，需要在既有TTS模型中融入骨传导信号的特征表达。

可选的，在另外的实施例中，在所述的基于骨传导信号、唇部运动图像信号确定时间域和空间域的单模态数据特征后，独立输入深度神经网络及后段模型，完成向文本的映射分类，将输出两通道文本结果进行决策层的筛选融合。将经决策层融合筛选出的最终文本信息，再经如Tacotron等TTS(Text to speech)文本向语音的转换模型，合成音频信息。由于文本结果丧失了原创音频特质，如需进一步在合成语音中实现对发音人发声特质、语气、节奏、音色等的保留，需要在既有TTS模型中融入骨传导信号的特征表达。

骨导-唇读融合-合成的核心架构包括数据采集单元、特征提取单元、编码单元，语音合成单元和交互单元：

通过数据采集单元，采集用户语音输入时同步获取的骨传导语音信号、唇部运动图像信号，发送至特征提取单元；

通过特征提取单元，对接收到的所述骨传导语音信号、唇部运动图像信号数据分别进行预处理及特征提取，确定时间域和空间域的单模态数据特征，发送至编码单元；

通过编码单元，基于接收到的时间域和空间域的单模态数据特征，应用融入跨模态注意力机制的生成对抗网络以及梅尔语谱图融合方法，建立语音模型，获得模态协同特征表达，发送至语音合成单元；

通过语音合成单元，根据所述模态协同特征表达，使用后处理网络及声码器，同时结合前期用户注册时预置的由用户示例音频中获取的音色、韵律、停顿习惯等特征，合成具有个性化音色的语音波形，发送至交互单元；

通过交互单元，将合成的语音结果进行质量评价，并经既有通讯通道进行后续传输。质量评价，包括：客观指标评价，计算生成语音波形的ESTOI(Extended short-timeobjective intelligibility)与PESQ(Perceptual evaluation of speech qual北y)，以评价其可理解度和感知质量，评分低于一定阈值视为不可用语音；主观指标评价，反馈给说话人自己，由其感知后确认，信息是否准确，音频是否清晰，在应用场景下可设置选择按键，人为介入确认是否使用该音频输出。

视觉信息处理单元的作用是基于感知模块获取的面部图像以及场景图像，经处理运算，最终实现高质量的视频通话效果，实现视频交互，视觉信息的处理流程如图7所示。视频交互功能的具体实现方法如下：

视觉信息处理单元包括常规计算单元和三维沉浸计算单元，视觉信息处理单元分为常规模式和三维沉浸模式，用户根据场景需求，可通过物理按键切换两种模式。

切换为常规模式时，三维沉浸模式计算单元进入休眠状态以降低功耗，系统实现常规的基于二维图像的视频通话；由于摄像头的制程精度或组装工艺会导致原始图像的畸变，即成像后各像素点的坐标位置与理想投射的坐标位置不一致。对此，常规计算单元对面部图像的畸变进行校正，以提升用户在视频通话中的观感，同时也确保传输信息的真实性与准确性。在本实施例中，拍摄面部图像的是近焦摄像头，由其引入的主要畸变形式为径向畸变中的桶形畸变，即一种沿着透镜半径分布的畸变形式，光轴中心的畸变率为0，随着透镜半径向边缘移动，畸变逐渐增加；且光轴中心的放大率大于边缘区域的放大率。理想的像素点坐标(x，y)和畸变的像素点坐标(x_d，y_d)有如下关系：

x_d＝x+x[k₁(x²+y²)+k₂(x²+y²)²]

y_d＝y+y[k₁(x²+y²)+k₂(x²+y²)²]

其中k₁、k₂为径向畸变系数，使用张正友标定方法计算出径向畸变系数后，依据上式的关系，可通过反畸变计算由畸变像素点求解出理想像素点(x，y)，即可获得校正后的图像；对原始的视频中的图像流依据上述过程进行校正处理，即可获得常规模式下的视频输出。将该视频输出和第二视觉感知单元获取的场景图像，发送给通信模块，传输给对方终端，即可实现常规模式下的视频交互功能。

三维沉浸模式下，常规计算单元仍然工作，按照上述方法对图像流先进行畸变校正，再经过三维沉浸计算单元处理后，对人像进行实时三维重构，实现三维沉浸式视频通话。

三维沉浸模式的实现采用在三维人脸建模中经典的三维可变形人脸模型3DMM(3DMorphable models)方法，其基本理念就是将三维空间中的人脸模型视为是一组正交人脸基向量的加权组合。在本实施例中，通过视觉感知单元一获取的二维面部图像，建构出基于用户脸部基本特征，又结合实时面部表情的三维人脸模型，基于用户的可信人脸数据来建立正交人脸基向量组。具体的三维沉浸计算包括：

首先采用结构光系统对用户的面部进行三维扫描，通过调节光照情况，获得某一光照强度区间和光照角度区间下，用户静态的无表情的立体轮廓特征，(u，v)代表不同的强度区间和照射角度；

回归得映射关系Z_i＝αXi+βY_i，i＝1，2，…，n

V_j＝{x₁，y₁，x₂，y₂，……，x_n，y_n}∈R²ⁿ

可获得扩展三维面部特征数据为V_j-e；

z_i＝αx_i+βy_i，i＝1，2，……，n

将静态无表情的立体轮廓特征与扩展三维面部特征数据随机组合构成形状基向量S，其中组合原理借鉴Dropout的相关思想，具体如下：

r^(j-e)～Bernoulli(p)

V_j-e′＝r^(j-e)*V_j-e

S_(u，v)＝V_(u，v)+W_j-eV_j-e

(式中符号上方的波浪线无特殊意义，仅为与前文区分)；

r是以一个概率为p的伯努利分布随机生成的n个0或1。随后与V_j-e相乘，来随机舍去或留下一部分扩展三维面部特征向量，再与每一个扩展三维面部特征向量的权重相乘，随后加上静态无表情的立体轮廓特征；W_j-e是每一组三维向量的权重；

同时对用户的面部进行三维扫描，获得的用户静态无表情的纹理特征T_(u，v)，

T_(u.v)＝{R₁，G₁，B₁，R₂，G₂，B₂，……，R_n，G_n，B_n}∈R³ⁿ

R、G、B代表颜色分量；

将上述数据矩阵S_(u，v)和T_(u，v₎通过主成分分析降维，分别获得形状特征和纹理特征的两个主成分分析模型：

分别为两个形状特征和纹理特征的均值，

V_S＝[v_s1，v_s2，v_s3，……，v_sm]∈R^3n*m，V_T＝[v_t1，v_t2，v_t3，……，v_tm]∈R^3n*m，V_S、V_T分别是形状特征S_(u，v)和纹理特征T_(u，v)经主成分分析得到的m个主成分，σ∈R^m表示标准差；据此可以得到三维人脸模型包括形状模型和颜色模型如下，将两个模型叠加即可获得最终的建模结果I(三维重建模型)；

形状模型：

纹理模型：

三维重建模型：I＝S+T

其中λ_i和ρ_i分别表示形状参数和纹理参数；

三维沉浸模式下，调用相应的人脸基础模型数据，实时识别由第一视觉感知单元获取的二维面部图像的关键特征参数，该组特征参数的选取与前述建立的用户二维面部特征点数据V_j时一致，基于上述先验的模型，即可获得相应的形状参数λ_i；

另一方面，额外选择受光照条件影响的关键特征点，采用双线性插值法，求解出受光照条件约束的纹理参数ρ_i；

基于可信的人脸基向量组，即实时获取的人脸基向量组(包括形状基向量S和纹理(色彩)基向量T，可以看作是初始的S和T)，以及形状参数和纹理参数，运用前述三维重建模型，即可实现二维面部图像向三维人脸图像的实时映射。将重建的三维人脸图像流，以及由第二视觉感知单元获取的当前环境图像序列，发送给通信模块，传输给其他终端后呈现，即可实现三维沉浸模式下的视频交互功能。

生理信息的处理流程如图8所示；生理信息处理单元的工作方法如下：

生理信息处理单元基于第一视觉感知单元获取的用户面部图像，采用远程光电容积脉搏波描记法(rPPG，即remote photoplethysmographic)测量用户的心率；将心率测量结果传输给展示模块。

远程光电容积脉搏波描记法：是指通过摄像头等传感器来捕捉由心动周期造成的皮肤颜色周期性变化的技术。

由于心脏跳动带来的血液流动会在人体皮肤组织的微血管中形成周期性的变化，从而对光的吸收和反射也有一个周期性的信号，通过摄像头采集人脸图像可以分析这种周期性的信号变化，从而监测心率的变化。本实施例的具体方法为，框取获得的面部图像的特定感兴趣区域ROI(Region of Interest)；计算框定区域内RGB三通道的空间均值；对三通道空间均值采用低通滤波、盲源分离等以获得包含心率信息的分量；对该分量应用快速傅立叶变换，以估算出相应的频率F，可以将心率计算为60*F。将心率计算结果传输给展示模块，通过增强现实眼镜，可以让用户实时看到自己的心率状况；同时将心率计算结果发送给通信模块，后传输给其他终端，可以让对方或主控端远程监测用户的心率状况。

生理信息处理单元对第一视觉感知单元获取的面部图像，以及视觉感知单元二获取的眼动信息进行处理；

对于面部图像，首先进行人脸对齐，归一化预处理，一方面关注常规的68个面部关键特征点，如眼睛、鼻尖、嘴角、眉毛等，以实现对面部全局基本信息的表征；另一方面，由于微表情对情绪更真实的表征有着不可忽视的作用，也关注那些持续时间仅为1/25至1/5秒的微表情运动，如眉毛压低，脸颊上升，下巴降低，眼睑下垂等不易被察觉的变化，关注其时空域特征和光流特征等，以获得其信息的动态表征。通过卷积神经网络CNN和长短记忆网络LSTM，实现对图像特征(微表情特征)以及时序信息的提取，再将学习得到的深度特征，经浅层分类器(如支持向量机SVM)输出多分类结果R₀；

对于眼动信息，获取眼动特征，所述眼动特征包括瞳孔直径、注视偏差、注视持续时间、扫视持续时间、扫视幅度、眨眼持续时间和眨眼频率；其中对瞳孔直径信息进行主成分分析，并对特征信息进行平滑及归一化处理，通过基于受限玻尔兹曼机的自动编码器，对各类眼动特征进行依权重编码，提取出高阶特征表达，并经浅层分类器(如支持向量机SVM)输出多分类结果R₁；

多分类结果即识别出的不同的情绪类别。本实施例初步关注生气、厌恶、恐惧、悲伤、期待、快乐、惊讶、信任等8种基本情绪，也可延伸至更细粒度的情绪类别。

通过上述的方法处理得到初步情绪识别结果R₀、R₁；同时将两通路的特征进行特征层融合，即对前述面部图像微表情特征以及眼动特征进行归一化、拼接，再经后端分类器输出结果R₂；对初步情绪识别结果R₀、R₁以及融合情绪识别结果R₂进行决策层融合，决策层融合是基于贝叶斯决策融合方法，基于R₀、R₁、R₂不同分类结果的置信度，计算出最终优选的结论，以获得最终可信的情绪识别结果R。

将最终获得的可信情绪识别结果R，发送给展示模块，呈现在用户视野特定区域，可以让用户看到自己的情绪识别结果，进行准确与否的确认，并可作为参考。在本实施例中，考虑到需要客观地让通话对方或主控者了解到用户的情绪状况，因此无论用户确认自己的情绪识别结果是否准确，都同时将可信情绪识别结果，发送给通信模块，经后续传输给对方终端，即可生理信息的显示交互功能。通过设计耳机交互系统，实现基于头戴式便携耳机的集成音频、视频、生理信息的多媒体通信交互。

总的来说，采用上述的技术方案，在日常环境及复杂环境(高噪声、高机动)中，本发明能通过对音频、唇图、骨传导等多模态信息的感知处理，完成对语音信息的识别、合成与传输；另通过通信模块和小型扬声器接收对方语音，实现高质量的实时语音通话，达到人与人，人与主控端的以语音为载体的信息交互。通过对视频图像的处理，完成对人脸图像的实时畸变校正，以及对人脸的实时三维建模，完成对视觉信息的优化、重构与传输；另通过通信模块和增强现实眼镜接收对方视频，实现高质量、三维沉浸式的实时视频通话，达到人与人，人与主控端的以视频为载体的信息交互。通过对视频图像的处理，还可提取其中所含的包含生理信息的特征，计算获取用户的实时心率、情绪类别等身心指征，完成对相关身心特征基于显示设备的呈现和基于通信设备的传输；另通过通信模块和增强现实眼镜接收对方身心指征，实现准确、便捷的身心状态监测，达到人与人，人与主控端的以生理指征为载体的信息交互。

本发明还提供了一种交互耳机，包括上述的交互耳机系统；即包括了麦克风、骨传导传感器、面部摄像头、扬声器和增强现实眼镜；

麦克风通过可调节咪棒的固定，置于用户嘴部一定距离处，感知用户发声时的气导音频，骨传导音频传感器，贴服于用户颊部表面皮肤，感知用户在高噪声下发声时产生的骨传导信号；

通过可调节咪棒固定面部摄像头，置于用户面部一定距离处，面部摄像头作为第一视觉信息感知单元，实时捕获用户的面部图像；其中可同时包含用于唇语识别的嘴唇区域局部图像、用于视频通话和身心监测的全局图像及特定区域局部图像，根据处理需要相应框取。

增强现实眼镜的外侧设置有场景摄像头，场景摄像头作为第二视觉信息感知单元，实时捕获用户所面临的场景图像；增强现实眼镜的内侧设置有微距摄像头，微距摄像头作为第三视觉信息感知单元，实时捕获用户的眼动信息。

上述仅为本发明的优选实施例而已，并不对本发明起到任何限制作用。任何所属技术领域的技术人员，在不脱离本发明的技术方案的范围内，对本发明揭露的技术方案和技术内容做任何形式的等同替换或修改等变动，均属未脱离本发明的技术方案的内容，仍属于本发明的保护范围之内。

Claims

1.一种交互耳机系统，其特征在于，包括：

展示模块，用于呈现听觉信息和视觉信息。

2.根据权利要求1所述的一种交互耳机系统，其特征在于，所述感知模块的音频信息感知单元包括麦克风和骨传导信号传感器；

3.根据权利要求2所述的一种交互耳机系统，其特征在于，

由所述麦克风获取气导音频信号、由第一视觉信息感知单元获取唇部图像信号，以及由骨传导信号传感器获取骨传导信号，所述获取的信号经音频信息处理单元处理，输出特定短语和指令，并合成音频；

由第一视觉感知单元获取用户面部图像，由第二视觉感知单元获取场景图像，所述获取的面部图像和场景图像经视觉信息处理单元处理，实现常规视频通话或三维沉浸式视频通话；

由第一视觉感知单元获取的用户面部图像，由第三视觉感知单元获取的眼动图像，所述获取的面部图像和眼动图像经生理信息处理单元处理，获得用户的心率以及用户的情绪类型。

4.根据权利要求3所述的一种交互耳机系统，其特征在于，所述音频信息处理单元将气导音频作为拾音的目标模态，将气导音频进行转换传输，实现音频交互；

或者，音频信息处理单元将唇部图像信号和骨传导信号作为拾音的目标模态，依骨导-唇读融合-合成的方法，实现模态信息融合的音频交互；

所述骨导-唇读融合-合成的方法包括：

基于所获得的模态协同特征表达，应用已训练的后端分类神经网络模型，输出特定短语和指令；应用人声合成模型，获得音频波形。

5.根据权利要求3所述的一种交互耳机系统，其特征在于，所述视觉信息处理单元包括常规计算单元和三维沉浸计算单元，视觉信息处理单元的计算分为常规模式和三维沉浸模式；

常规模式下，常规计算单元对面部图像的畸变进行校正，理想的像素点坐标(x，y)和畸变的像素点坐标(x_d，y_d)有如下关系

x_d＝x+x[k₁(x²+y²)+k₂(x²+y²)²]

y_d＝y+y[k₁(x²+y²)+k₂(x²+y²)²]

其中k₁、k₂为径向畸变系数，使用张正友标定方法计算出径向畸变系数后，依据上式的关系，通过反畸变计算由畸变像素点(x_d，y_d)求解出理想像素点(x，y)，获得校正后的图像，实现基于二维图像的视频通话；

三维沉浸模式下，常规计算单元仍然工作，对图像的畸变先进行校正，校正后的图像再经过三维沉浸计算单元处理，对人像进行实时三维重构，实现三维沉浸式视频通话。

6.根据权利要求5所述的一种交互耳机系统，其特征在于，所述三维沉浸模式计算包括：

回归得映射关系Z_i＝αX_i+βY_i，i＝1，2，......，n

同时获取不同表情类别下的用户二维面部特征点数据V_j，j为表情类别下标；

V_j＝{x₁，y₁，x₂，y₂，……，x_n，y_n}∈R²ⁿ

可获得扩展三维面部特征数据为V_j-e；

z_i＝αx_i+βy_i，i＝1，2，……，n

r^(j-e)～Bernoulli(p)

V_j-e′＝r^(j-e)*V_j-e

S_(u，v)＝V_(u，v)+W_j-eV_j-e

分别为两个形状特征和纹理特征的均值，

V_S＝[v_s1，v_s2，v_s3，……，v_sm]∈R^3n*m，V_T＝[v_t1，v_t2，v_t3，……，v_tm]∈R^3n*m，V_S、V_T分别是形状特征S_(u，v)和纹理特征T_(u，v)经主成分分析得到的m个主成分，σ∈R^m表示标准差；据此得到三维人脸模型包括形状模型和颜色模型如下，将两个模型叠加获得最终的建模结果I；

形状模型：

纹理模型：

三维重建模型：I＝S+T

其中λ_i和ρ_i分别表示形状参数和纹理参数；

将获得的主成分分析模型M_S、M_T依被扫描的用户进行标注后存储，得到人脸基础模型数据库；

三维沉浸模式下，调用相应的人脸基础模型数据，实时识别由视觉感知单元一获取的二维面部图像的关键特征参数，该组特征参数的选取与前述建立用户二维面部特征点数据V_j时一致，基于上述先验的模型，即可获得相应的形状参数λ_i；

基于实时获取的人脸基向量组，以及形状参数和纹理参数，运用上述三维重建模型，将二维面部图像实时映射为三维人脸图像。

7.根据权利要求1所述的一种交互耳机系统，其特征在于，所述生理信息处理单元基于第一视觉感知单元获取的用户面部图像，采用远程光电容积脉搏波描记法测量用户的心率；将心率测量结果传输给展示模块。

8.根据权利要求1所述的一种交互耳机系统，其特征在于，所述生理信息处理单元对第一视觉感知单元获取的面部图像以及第二视觉感知单元获取的眼动信息进行处理；

对于面部图像，首先进行人脸对齐，归一化预处理，通过卷积神经网络CNN和长短记忆网络LSTM，提取面部图像特征以及时序信息，再将得到的深度特征经浅层分类器输出多分类结果R₀；所述面部图像特征包括面部特征点以及面部微表情的时空域特征和光流特征；

对于眼动信息，获取眼动特征，所述眼动特征包括瞳孔直径、注视偏差、注视持续时间、扫视持续时间、扫视幅度、眨眼持续时间和眨眼频率；其中对瞳孔直径信息进行主成分分析，并对特征进行平滑及归一化处理，通过基于受限玻尔兹曼机的自动编码器，对各类眼动特征进行依权重编码，提取出高阶特征表达，并经浅层分类器输出多分类结果R₁；

同时，对面部图像特征以及眼动特征进行归一化、拼接，再经后端分类器输出情绪识别结果R₂；对初步情绪识别结果R₀、R₁以及融合情绪识别结果R₂进行决策层融合，以获得最终的情绪识别结果R。

9.一种交互耳机，其特征在于，包括权利要求1-8任一项所述的交互耳机系统；所述交互耳机系统包括麦克风、骨传导传感器、面部摄像头、扬声器和增强现实眼镜；

所述增强现实眼镜的外侧设置有场景摄像头，所述增强现实眼镜的内侧设置有微距摄像头。

10.根据权利要求9所述的一种交互耳机，其特征在于，所述面部摄像头作为第一视觉信息感知单元，实时捕获用户的面部图像；所述场景摄像头作为第二视觉信息感知单元，实时捕获场景图像；所述微距摄像头作为第三视觉信息感知单元，实时捕获用户的眼动信息。