CN107894836A

CN107894836A - 基于手势和语音识别的遥感图像处理与展示的人机交互方法

Info

Publication number: CN107894836A
Application number: CN201711173262.8A
Authority: CN
Inventors: 刘扬; 郑逢斌; 杨舒帆; 赵虎
Original assignee: Henan University
Current assignee: Henan University
Priority date: 2017-11-22
Filing date: 2017-11-22
Publication date: 2018-04-10
Anticipated expiration: 2037-11-22
Also published as: CN107894836B

Abstract

一种基于手势和语音识别的遥感图像处理与展示的人机交互方法，包括：交互信息获取，用户身份认证，交互信息识别，交互流程生成与处理，以及遥感图像处理与展示。本方法通过Kinect阵列基于深度学习方法获取用户人脸和声纹身份信息，在数字地球上利用手势识别和语音识别构造交互命令，依据遥感知识图谱和交互上下文生成交互流程，并调用遥感图像处理服务进行处理，实现遥感图像处理与展示的智能化人机交互。本发明采用多模态的用户身份信息，可防止其他无关人员的语音和肢体在交互过程的干扰；采用手势和语音智能化交互控制，能有效提升系统交互效率和展示效果，从而有利于遥感图像软件系统的处理与展示的人性化操作。

Description

基于手势和语音识别的遥感图像处理与展示的人机交互方法

技术领域

本发明涉及一种遥感图像处理与展示的人机交互技术，特别是基于语音和手势识别的遥感图像处理与展示的人机交互方法。

背景技术

随着高分辨率对地观测系统的发展，遥感图像处理和展示应用需要日益激增。现有的遥感图像处理和展示方法，一般采用字符命令界面或者图形用户界面，用户通过键盘和鼠标进行操作，不利于用户现场处理过程演示和执行结果可视化展示。

基于深度学习和认知计算在手势识别、语音识别等应用的发展使得人机交互呈现人性化、自然化的趋势。将手势识别和语音识别用于遥感图像处理与展示系统，可在用户进行演讲、演示和实时操控时，获得更为自然的交互体验和理想的展示效果。

发明内容

本发明的目的在于提供一种基于语音和手势识别的遥感图像处理与展示的人机交互方法。它能够克服己有技术的不足，将手势识别和语音识别用于遥感图像处理与展示系统，可在用户进行演讲、演示和实时操控时，获得更为自然的交互体验和理想的展示效果，能有效地解决现有遥感图像处理系统的在展示控制时存在的人机交互问题。

其解决方案是：本发明采用智能用户界面，提供一种基于手势和语音的遥感图像处理与展示的人机交互方法，该方法包括如下步骤：

步骤S1：交互信息获取，通过Kinect阵列获取交互用户的身份和交互的音视频信息；

步骤S2：用户身份认证，根据步骤S1采集的人脸和声纹信息，利用深度学习进行人脸识别和声纹识别，实现交互用户身份的认证识别，并记录下交互用户的身份ID；

步骤S3：交互信息识别，对通过身份认证的用户所发出的语音和手势，利用基于深度学习方法分别进行处理和识别，形成人机交互的命令及参数；

步骤S4：交互流程生成与处理，由遥感知识图谱和交互上下文，将交互命令、交互参数以及由交互选择的数据共同生成图像处理流程的实例，并依据处理流程实施处理。

步骤S5：遥感图像处理与展示，遥感图像处理和展示由若干组件化的相对独立的程序模块共同构成，具体包括用于遥感图像处理的预处理服务模块和后处理服务模块，以及数字地球的遥感图像三维展示服务模块和平面展示服务模块。

所述步骤S1的交互信息获取的方法，由以下步骤实现：

步骤S11：由Kinect阵列的RGB-D摄像头捕获用户的交互视频，并从交互视频提取用户的人脸信息和手势控制交互信息；

步骤S12：由Kinect的麦克风阵列(4Mic)录取用户的交互音频，并从交互音频提取用户的声纹信息和语音交互控制信息；从而获取交互用户的身份信息和交互命令的音视频信息。

所述步骤S2的用户身份认证方法，由以下步骤实现：

步骤S21：利用深度学习提取交互用户的人脸特征，并与用户注册时所采集的人脸身份信息进行比对和认证；

步骤S22：利用深度学习提取交互用户的声纹特征，并与用户注册时所采集的声纹身份信息进行比对和认证；

步骤S23：若人脸认证和声纹认证均成功识别，则通过用户登录，并允许进行下一步操作，并记录下交互用户的身份。

所述步骤S3的交互信息识别方法，由以下步骤实现：

步骤S31利用基于深度学习的声纹识别和语音识别算法，分别从交互音频里提取交互用户的声纹信息和语音命令；

步骤S32利用基于深度学习的人脸识别和手势识别算法，分别从交互视频里提取交互用户的人脸信息和手势命令；

步骤S33如果交互者声纹或人脸属于登录用户的身份，则根据语音识别结果和手势识别结果生成交互命令和命令参数，并允许执行后续的步骤S4处理。

所述步骤S4的交互流程生成与处理方法，由以下步骤实现：

步骤S41根据步骤S3识别出遥感图像处理命令和交互上下文，检索遥感知识图谱，检查执行图像处理命令所需输入参数及数据是否完备；

步骤S42在数字地球上提示用户从遥感图像库中选择待处理遥感数据，处理方法和参数,以及处理后的遥感图像数据描述；

步骤S43待交互信息收集完毕，则根据交互命令和上下文生成相应处理流程描述，构造流程处理任务；同时调用遥感图像处理服务，并对该流程处理任务的状态、执行和等待信息进行控制和管理。

所述步骤S5的遥感图像处理与展示方法，由以下步骤实现：

步骤S51根据步骤S4交互流程描述，选择遥感图像预处理或后处理服务，调用服务方法实现遥感图像处理，并将处理过程和结果实时反馈给流程处理的任务监控；

步骤S52根据步骤S4交互流程描述，在数字地球上展示待处理遥感图像，遥感图像处理中间结果，以及生成最终图像的多分辨率金字塔和分层切片，从而实现遥感图像的智能化处理和可视化展示。

本发明采用上述技术方案，通过Kinect阵列基于深度学习获取用户人脸和声纹身份信息，用人脸、声纹对用户交互身份进行甄别，在数字地球上利用手势识别和语音识别构造交互命令，依据遥感知识图谱和交互上下文生成交互流程，并调用遥感图像处理服务进行处理，实现遥感图像处理与展示的智能化人机交互。采用多模态的用户身份信息，可防止其他未登录人员的语音和肢体信息对交互流程的干扰；采用手势和语音的智能化交互控制，能有效提升系统交互效率和展示效果，从而有利于遥感软件展示系统的人性化操作。

附图说明

图1为基于手势和语音识别的遥感图像处理与展示的人机交互方法流程图。

图2为用户身份认证和交互信息的生成流程图。

图3为遥感图像处理与展示的人机交互处理流程图。

具体实施方式

为了使本发明的目的及优点更加清晰，以下结合实施例对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

下面结合附图详细描述本发明的具体实施方式。

如图1所示，本发明涉及的一种基于语音和手势识别的遥感图像处理与展示的人机交互方法，其步骤包括：交互信息获取、用户身份认证、交互信息识别、交互流程生成与处理和遥感图像处理与展示。

图1和图2，提供面向遥感图像处理与展示应用系统的用户身份认证和交互信息的生成流程，包括如下步骤：

上述步骤S1的交互信息获取，由以下步骤实现：

步骤S11：由Kinect阵列的RGB-D摄像头捕获用户的交互视频U_v，并从U_v中检测用户的人脸图像信息Im_f和提取交互手势控制图像Ic_h；

步骤S12：由Kinect的麦克风阵列(4Mic)录取用户的交互音频U_a，并从U_a中检测说话人音频Au_v和提取交互语音控制音频Ac_s。

步骤S2：用户身份认证，根据步骤S1采集的人脸图像Im_f和声纹信息Au_v，利用深度学习调用人脸识别和声纹识别算法，实现交互用户身份的认证识别，并记录下交互用户的身份ID；

上述步骤S2的用户身份认证，由以下步骤实现：

步骤S21：利用人脸深度神经网络(DNN_f)提取从人脸图像Im_f中提取交互用户的人脸特征FF_f，并与用户注册时所采集的人脸特征FF_R进行身份比对，认证出用户人脸身份ID_f，即：

步骤S22：利用深度神经网络(DNN_v)提取从声纹信息Au_v中提取交互用户的声纹特征FS_v，并与用户注册时所采集的声纹特征FS_R进行身份比对，认证出用户声纹身份ID_v，即：

步骤S23：若人脸认证和声纹认证均成功识别，则通过用户登录，允许可进行下一步操作，并记录下交互用户的身份ID_r，即：

步骤S3：交互信息识别，对通过身份认证的用户ID_r所发出的语音控制音频Ac_s和手势控制图像Ic_h，利用基于深度学习方法分别进行处理和识别，形成人机交互的命令IC_c及参数R_f；

上述步骤S3所述的交互信息识别，由以下步骤实现：

步骤S31，基于深度学习的声纹识别和语音识别算法，分别从交互音频U_a里提取交互用户的声纹信息ID_v和语音命令IC_s，即：

其中语音命令IC_s主要用于替代鼠标控制，在系统中选择图像处理算法，参数设置，以及按钮执行等功能，系统具体定义如下语音命令：

图像预处理命令：“几何校正”、“辐射校正”、“图像配准”、“图像融合”等；

图像后处理命令：“道路提取”、“油库检测”、“机场检测”、“舰船检测”、“舰船识别”等；

数字地球命令：“ROI标注”、“ROI导航”、“距离测量”、“卫星轨道仿真”、“遥感图像检索”等。

其中所有的命令都对应相应的图像处理和展示服务。

步骤S32，基于深度学习的人脸识别和手势识别算法，分别从交互视频U_v里提取交互用户的人脸信息ID_f和手势命令IC_h，即：

其中手势命令IC_h主要用于在数字地球上从遥感图像库选择待处理数据，具体定义如下手势命令：

数字地球摄像机的位置移动命令描述：右手紧握代表手势的开始，握紧之后移动右手视角随手移动，松开握紧的手表示手势结束；

数字地球摄像机的视角放大命令描述：两手平放并握紧，两手之间的距离变大视角也随之变大，两手松开代表手势结束；

数字地球摄像机的视角缩小命令描述：两手平放并握紧，两手之间的距离缩小视角也随之缩小，两手松开代表手势结束。

步骤S33，如果交互者声纹或人脸属于登录用户的身份ID_R，即：

进一步根据语音命令IC_s或手势命令IC_h、命令参数列表Ref、待处理图像IM_rs,生成交互命令IC_c，并允许执行步骤S4操作，即：

图1和图3，提供了遥感图像处理与展示的人机交互处理流程，包括如下步骤：

步骤S4：交互流程生成与处理，由交互上下文STC,遥感知识图谱KG和语音命令IC_c共同生成图像处理流程的任务描述IPD，并依据流程IPD实施流程处理；

上述步骤S4所述的交互流程生成与处理，由以下步骤实现：

步骤S41，根据步骤S3识别出遥感图像处理命令IC_c和描述当前交互命令的上下文STC，检索遥感知识图谱KG=<IC_c, IC_pre, Ref_cur>，查询执行图像处理命令IC_c所需输入参数列表Ref_cur及待处理图像IM_rs的完备性；

步骤S42，在数字地球上提示用户从遥感图像库中选择待处理图像IM_rs，图像处理方法，算法参数列表Ref_cur，以及处理后的图像数据描述IP_rs；

步骤S43，待全部交互信息收集完毕，则根据交互命令IC_c和上下文STC生成相应处理流程描述序列IPD=<IC_c1, IC_c2, …, IC_cn>。生成流程处理任务Task，同时调用遥感图像处理服务，并对该流程处理任务的等待、执行等状态进行管理。

步骤S5：遥感图像处理与展示，遥感图像处理和展示由若干组件化的相对独立的程序模块共同构成，具体包括用于遥感图像处理的预处理服务RIS_p和后处理服务RIS_a，以及数字地球的遥感图像的三维展示服务IPS₃和平面展示服务IPS₂；

上述步骤S5所述的遥感图像处理与展示，由以下步骤实现：

步骤S51，根据交互流程描述IPD，选择遥感图像预处理RIS_p或后处理服务RIS_a，调用服务方法实现遥感图像处理，并将处理过程和结果实时反馈给流程处理的任务监控Task；

步骤S52，根据交互流程描述IPD，在数字地球上调用三维展示服务IPS₃和平面展示服务IPS₂，展示待处理遥感图像IM_rs，遥感图像处理中间结果，以及生成最终图像的多分辨率金字塔和分层切片，从而实现遥感图像的智能化处理和可视化展示。

Claims

1.一种基于手势和语音识别的遥感图像处理与展示的人机交互方法，其特征在于，包括以下步骤：

步骤S4：交互流程生成与处理，由遥感知识图谱和交互上下文，将交互命令、交互参数以及由交互选择的数据共同生成图像处理流程的实例，并依据处理流程实施处理；

2.根据权利要求1所述的基于手势和语音识别的遥感图像处理与展示的人机交互方法，其特征在于，所述步骤S1的交互信息获取的具体方法，包括以下步骤：

步骤S12：由Kinect的麦克风阵列(4Mic)录取用户的交互音频，并从交互音频提取用户的声纹信息和语音交互控制信息。

3.根据权利要求1所述的基于手势识别和语音识别的遥感图像处理与展示的人机交互方法，其特征在于，所述步骤S2的用户身份认证的具体方法，包括以下步骤：

4.根据权利要求1所述的基于手势和语音识别的遥感图像处理与展示的人机交互方法，其特征在于，所述步骤S3的交互信息识别的具体方法，包括以下步骤：

步骤S31，基于深度学习的声纹识别和语音识别算法，分别从交互音频里提取交互用户的声纹信息和语音命令；

步骤S32，基于深度学习的人脸识别和手势识别算法，分别从交互视频里提取交互用户的人脸信息和手势命令；

步骤S33，如果交互者声纹或人脸属于登录用户的身份，则根据语音识别结果和手势识别结果生成交互命令和命令参数，并允许执行后续的步骤S4处理。

5.根据权利要求1所述的基于手势和语音识别的遥感图像处理与展示的人机交互方法，其特征在于，所述步骤S4的交互流程生成与处理的具体方法，包括以下步骤：

步骤S41，根据步骤S3识别出遥感图像处理命令和交互上下文，检索遥感知识图谱，检查执行图像处理命令所需输入参数及数据是否完备；

步骤S42，在数字地球上提示用户从遥感图像库中选择待处理遥感数据，处理方法和参数,以及处理后的遥感图像数据描述；

步骤S43，待交互信息收集完毕，则根据交互命令和上下文生成相应处理流程描述，构造流程处理任务；同时调用遥感图像处理服务，并对该流程处理任务的状态、执行和等待信息进行控制和管理。

6.根据权利要求1所述的基于手势和语音识别的遥感图像处理与展示的人机交互方法，其特征在于，所述步骤S5的遥感图像处理与展示的具体方法，包括以下步骤：

步骤S51，根据步骤S4交互流程描述，选择遥感图像预处理或后处理服务，调用服务方法实现遥感图像处理，并将处理过程和结果实时反馈给流程处理的任务监控；

步骤S52，根据步骤S4交互流程描述，在数字地球上展示待处理遥感图像，遥感图像处理中间结果，以及生成最终图像的多分辨率金字塔和分层切片，从而实现遥感图像的智能化处理和可视化展示。