CN111402885A

CN111402885A - 一种基于语音和空气成像技术的交互方法及其系统

Info

Publication number: CN111402885A
Application number: CN202010320500.9A
Authority: CN
Inventors: 朱绍卿; 朱敏
Original assignee: Beijing New Universal Science & Technology Co ltd
Current assignee: Beijing New Universal Science & Technology Co ltd
Priority date: 2020-04-22
Filing date: 2020-04-22
Publication date: 2020-07-10

Abstract

本发明公开了一种基于语音和空气成像技术的交互方法及其系统，该交互方法包括：获取用户下达的指令，所述指令包括：语音指令或手势指令；其中，所述手势指令为用户通过空气屏下达的手势操作指令；判断获取的指令是否为语音指令，若是，则将获取的语音指令与系统指令数据库中的指令进行匹配，并将匹配结果生成语音指令信号；若否，则将获取的手势操作指令进行识别，并将识别结果生成手势指令信号。在本方案中，首先获取用户下达的指令，然后再判断该指令的种类，接着再对该种指令进行相应的处理以得到其对应的指令信号，以实现了非接触式的且集成了语音和空气成像技术的人机指令交互，从而为用户提供了更加迅速、便捷的指令下达方式。

Description

一种基于语音和空气成像技术的交互方法及其系统

技术领域

本发明涉及人工智能和人机交互技术领域，特别涉及一种基于语音和空气成像技术的交互方法及其系统。

背景技术

随着近年来语音技术和空气成像技术的蓬勃发展，人机交互的方式已经逐渐从接触式的鼠标、按钮等操作，向着减少接触、增加交互便捷性和交互效率的方向演变。然而，针对指挥中心这个应用场景，许多指挥中心仍保留着传统的接触操作方式，这无疑将继续带来交互设备磨损快、维修勤和交互方式复杂、效率低存在公共卫生风险等诸多问题。同时，广泛应用于指挥中心的大屏显示这种单一的二维平面显示方式，由于其信息呈现方式不能达到最直观、最立体的缺点，已渐渐不能满足一些指挥中心的信息呈现需求。此外，针对指挥中心这一应用方向，市场上基于语音的交互系统尚有，基于空气成像技术的交互系统则很少，而现存的基于这两种维度的交互系统又是相互割裂的。

发明内容

有鉴于此，本发明提供了一种基于语音和空气成像技术的交互方法，能够实现了非接触式的且集成了语音和空气成像技术的人机指令交互，从而为用户提供了更加迅速、便捷的指令下达方式。

为实现上述目的，本发明提供如下技术方案：

一种基于语音和空气成像技术的交互方法，包括：

获取用户下达的指令，所述指令包括：语音指令或手势指令；其中，所述手势指令为用户通过空气屏下达的手势操作指令；

判断获取的指令是否为语音指令，若是，则将获取的语音指令与系统指令数据库中的指令进行匹配，并将匹配结果生成语音指令信号；若否，则将获取的手势操作指令进行识别，并将识别结果生成手势指令信号。

优选地，所述将获取的语音指令与系统指令数据库中的指令进行匹配，并将匹配结果生成语音指令信号，包括：

将获取的语音指令与系统指令数据库中的指令进行比对和匹配，当匹配程度达到阈值时，则识别出获取的语音指令，并将识别结果输出为语音指令信号。

优选地，所述将获取的手势操作指令进行识别，并将识别结果生成手势指令信号，包括：

将获取的手势操作指令的空间坐标进行运算，然后将运算后得出的手势运动轨迹或手指触碰点与空气屏的空间位置进行比对，再分析识别出手势操作指令所代表的操作指令，并将识别结果输出为手势指令信号。

优选地，在所述获取用户下达的指令之前，还包括：

生成用于待用户进行下达手势操作指令的空气屏。

优选地，在所述并将匹配结果生成语音指令信号之后，还包括：

将语音指令信号进行语音播报，以待用户进行确认；

或，在所述并将识别结果生成手势指令信号之后，还包括：

将手势指令信号进行语音播报，以待用户进行确认。

一种基于语音和空气成像技术的交互系统，包括：语音交互模块、空气成像交互模块和交互信息处理模块；

所述语音交互模块包括：语音指令采集模块，用于采集用户下达的语音指令；所述交互信息处理模块包括：语音交互指令处理模块，用于将采集到的语音指令与系统指令数据库中的指令进行匹配，并将匹配结果生成语音指令信号；

所述空气成像交互模块包括：深度感知摄像模块，用于获取用户通过空气屏下达的手势操作指令；所述交互信息处理模块还包括：空气成像交互指令处理模块，用于将获取的手势操作指令进行识别，并将识别结果生成手势指令信号。

优选地，所述语音交互指令处理模块包括：语音指令匹配模块，用于将获取的语音指令与所述系统指令数据库中的指令进行比对和匹配，当匹配程度达到阈值时，则识别出获取的语音指令，并将识别结果输出为语音指令信号。

优选地，所述空气成像交互指令处理模块包括：手势识别模块，用于将获取的手势操作指令的空间坐标进行运算，然后将运算后得出的手势运动轨迹或手指触碰点与所述空气屏的空间位置进行比对，再分析识别出手势操作指令所代表的操作指令，并将识别结果输出为手势指令信号。

优选地，所述空气成像交互模块还包括：成像硬件模块，用于生成用于待用户进行下达手势操作指令的空气屏。

优选地，所述语音交互模块还包括：语音播报模块，用于将所述语音指令信号或所述手势指令信号进行播报。

从上述的技术方案可以看出，本发明提供的基于语音和空气成像技术的交互方法中，首先获取用户下达的指令，然后再判断该指令的种类，接着再对该种指令进行相应的处理以得到其对应的指令信号，即为实现了非接触式的且集成了语音和空气成像技术的人机指令交互，从而为用户提供了更加迅速、便捷的指令下达方式。

本发明还提供了一种与上述方法对应的基于语音和空气成像技术的交互系统，其有益效果，具体可以参照前面方法的有益效果，在此不再赘述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于语音和空气成像技术的交互方法的流程图；

图2为本发明实施例提供的用户下达指令后的方法流程图；

图3为本发明实施例提供的空气成像交互指令处理模块的处理流程图；

图4为本发明实施例提供的语音交互指令处理模块的处理流程图；

图5为本发明实施例提供的基于语音和空气成像技术的交互系统的模块图；

图6为本发明实施例提供的成像硬件模块的构成图；

图7为本发明实施例提供的深度感知摄像模块的构成图；

图8为本发明实施例提供的交互信号处理模块的构成图；

图9为本发明实施例提供的基于语音和空气成像技术的交互系统的结构示意图。

其中，100为语音交互模块，110为语音指令采集模块，120为语音播报模块，200为空气成像交互模块，210为深度感知摄像模块，211为深度感知摄像头，220为成像硬件模块，221为显示屏，222为光学平板透镜，223为空气屏，300为交互信号处理模块，310为语音交互指令处理模块，311为语音指令匹配模块，312为系统指令数据库，320为空气成像交互指令处理模块，321为手势识别模块，400为信息监测模块，410为重要信息筛选模块，420为信息监测报告生成模块，500为展示柜。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的基于语音和空气成像技术的交互方法，如图1所示，包括：

需要说明的是，获取的语音指令是指获取语音指令的音频信息；系统指令数据库为用于预先录入并存储好的所有系统允许的指令的数据库。本方案可实现完全非接触形式的人机交互，特别适合于指挥中心(有些指挥中心仍保留着传统的接触操作方式)的应用场景。当然，也可以运用在控制中心、智能办公桌显示屏、会议室、沙盘展示中。

从上述的技术方案可以看出，本发明实施例提供的基于语音和空气成像技术的交互方法中，首先获取用户下达的指令，然后再判断该指令的种类，接着再对该种指令进行相应的处理以得到其对应的指令信号，即为实现了非接触式的且集成了语音和空气成像技术的人机指令交互，从而为用户提供了更加迅速、便捷的指令下达方式。

在本方案的另一实施例中，所述将获取的语音指令与系统指令数据库中的指令进行匹配，并将匹配结果生成语音指令信号，包括：

将获取的语音指令与系统指令数据库中的指令进行比对和匹配，当匹配程度达到阈值时，则识别出获取的语音指令，并将识别结果输出为语音指令信号。即为本方案通过将语音指令与系统指令数据库中的指令进行比对和匹配，以便于从其数据库中识别出匹配度与语音指令相近的指令数据，从而有助于实现了语音指令的人机交互。

在本方案的另一实施例中，所述将获取的手势操作指令进行识别，并将识别结果生成手势指令信号，包括：

将获取的手势操作指令的空间坐标进行运算，然后将运算后得出的手势运动轨迹或手指触碰点与空气屏的空间位置进行比对，再分析识别出手势操作指令所代表的操作指令，即为通过分析、识别出特定手势(手势操作指令)所代表的具体指令(操作指令)，并将识别结果输出为手势指令信号，从而有助于实现了手势指令信号的人机交互。

在本方案中，在所述获取用户下达的指令之前，还包括：

生成用于待用户进行下达手势操作指令的空气屏，以此为用户提供了可进行手势操作的“空气中的操作界面”，以便有助于实现了手势操作指令的非接触式交互；而且，监测信息还可投射至空气屏，再配合监测信息的语音播报，可实现监测信息的多维显示，从而给予用户一种更加直观、立体的信息呈现方式。

具体地，所述生成用于待用户进行下达手势操作指令的空气屏，包括：

将显示屏的显示内容通过透镜投射到透镜另一侧的空气中形成空气屏。即为通过空气成像的方式实现了空气屏的生成。这种成像方式可以直接在用户面前成像，无需其它承载介质，不受空间场地限制，可真正实现全方位空中成像和零接触操作。

为了进一步优化上述的技术方案，在所述并将匹配结果生成语音指令信号之后，还包括：

将语音指令信号进行语音播报，以待用户进行确认；

或，在所述并将识别结果生成手势指令信号之后，还包括：

将手势指令信号进行语音播报，以待用户进行确认。即为当生成语音指令信号或手势指令信号时，通过扬声器对其进行语音播报，以此提醒操作人员对该指令进行二次确认，防止操作人员因疏忽可能导致的指令下达错误。当然，每当生成信息监测报告时，也会通过扬声器对其进行语音播报，以此提醒操作人员对信息监测报告的每个信息进行二次确认，以防信息监测报告的生成存在错误，从而有助于提升了系统交互的准确性。

本发明实施例还提供了一种基于语音和空气成像技术的交互系统，如图5所示，包括：语音交互模块100、空气成像交互模块200和交互信息处理模块300；

语音交互模块100包括：语音指令采集模块110，用于采集用户下达的语音指令；交互信息处理模块300包括：语音交互指令处理模块310，用于将采集到的语音指令与系统指令数据库312中的指令进行匹配，并将匹配结果生成语音指令信号；

空气成像交互模块200包括：深度感知摄像模块210，用于获取用户通过空气屏223下达的手势操作指令；交互信息处理模块300包括：空气成像交互指令处理模块320，用于将获取的手势操作指令进行识别，并将识别结果生成手势指令信号。在本方案中，首先通过语音指令采集模块110或深度感知摄像模块210获取对应的指令，然后再通过相应的交互指令处理模块对该指令进行处理，以便于得到该指令对应的指令信号，即为实现了非接触式的且集成了语音和空气成像技术的人机指令交互，从而为用户提供了更加迅速、便捷的指令下达方式。

在本方案中，如图8所示，语音交互指令处理模块310包括：语音指令匹配模块311，用于将获取的语音指令与系统指令数据库中的指令进行比对和匹配，当匹配程度达到阈值时，则识别出获取的语音指令，并将识别结果输出为语音指令信号。即为通过语音指令匹配模块311，将语音指令与系统指令数据库中的指令进行比对和匹配，以便于从其数据库中识别出匹配度与语音指令相近的指令数据，从而有助于实现了语音指令的人机交互。

具体地，如图8所示，空气成像交互指令处理模块320包括：手势识别模块321，用于将获取的手势操作指令的空间坐标进行运算，然后将运算后得出的手势运动轨迹或手指触碰点与空气屏的空间位置进行比对，再分析识别出手势操作指令所代表的操作指令，并将识别结果输出为手势指令信号，从而有助于实现了手势指令信号的人机交互。

为了进一步优化上述的技术方案，如图5所示，语音交互模块100还包括：语音播报模块120，用于将语音指令信号或手势指令信号进行播报，以此提醒操作人员对该指令进行二次确认，防止操作人员因疏忽可能导致的指令下达错误。

在本方案中，如图6所示，空气成像交互模块200还包括：成像硬件模块220，用于生成用于待用户进行下达手势操作指令的空气屏223，以此为用户提供了可进行手势操作的“空气中的操作界面”，以便有助于实现了手势操作指令的非接触式交互。

下面结合具体实施例对本方案作进一步介绍：

本发明提供了一种基于语音和空气成像技术的指挥中心用交互系统。这种基于语音和空气成像技术的指挥中心用交互系统系统，包括：空气成像交互模块，语音交互模块，信息监测模块，交互信息处理模块。

所述空气成像交互模块包括：光学平板结构(即为负折射率的光学平板透镜222)和显示屏组成的成像硬件模块，及捕捉对空气成像的手势操作的深度感知摄像头模块。

光学平板结构(负折射率平板透镜)，用于将显示屏的内容在透镜另一侧生成清晰的像，可根据不同场景和视觉习惯，空中成像可随安装位置而变化，无需其他载体介质，不受空间场地限制，真正全方位空中成像。

显示屏，用于显示操作界面、信息监测报告等多种信息。

空气屏，显示屏上的画面经由光学平板结构投射到空气中形成三维空气屏，以此提供给用户可进行操作的“空气中的操作界面”。由此可见，空气成像交互模块可以直接在用户面前成像，无需其他承载介质，不受空间场地限制，真正实现全方位空中成像和零接触操作。

所述交互处理模块包括：

空气成像交互指令处理模块，用于对捕捉结果进行识别；

语音交互指令处理模块，用于对输入该模块的语音指令采集结果进行匹配比对，生成并运行语音指令；

该系统还包括一套展示柜500(如图9所示)，光学平板结构在展示柜500的上平面或前平面上(根据客户对于生成的空气屏为水平还是竖直而改变)。其中空气成像交互模块中的深度感知摄像模块、成像硬件模块中的显示屏、语音交互模块、交互信号处理模块、信息监测模块共同集成在展示柜500中。

本发明提供的系统可广泛应用于指挥中心大屏显示，也可以运用在控制中心、智能办公桌显示屏、会议室、沙盘展示中。根据不同的场景，定制化屏幕形状及组合方式，实现各种成像形式。

本发明旨在将语音空气成像技术相结合，在指挥中心这一应用场景下，实现便捷、迅速的指令下达，立体多维的信息呈现。

如图5所示，一种基于语音和空气成像技术的指挥中心用交互系统，包括：

空气成像交互模块200，用于实现空气屏的生成进行信息和交互界面的显示并获取用户在空气屏上下达的指令；

语音交互模块100，用于获取并识别用户下达的语音指令，同时对信息监测报告进行语音播报；

交互信号处理模块300，用于处理上述两个模块获取到的用户下达的指令；

信息监测模块400，用于对指挥中心待监测的信息进行筛选，并根据筛选结果生成信息监测报告。

所述空气成像交互模块200包括：

成像硬件模块220，用于生成待用户进行指令下达的空气屏；

深度感知摄像模块210，用于获取用户在上述空气屏223上下达的手势交互指令。

进一步地，如图6所示，成像硬件模块220包括：显示屏221、光学平板结构(即为光学平板透镜222)、空气屏223组成。

具体地，当系统开启时，显示屏首先显示指挥中心的指令下达操作界面或信息监测报告等。该显示屏显示的内容，经由光学平板结构(负折射率平板透镜)在光学平板结构另一侧的空气中形成空气屏以待指挥中心的操作人员操作。

作为优选地，为使监测信息的呈现更为直观和立体，在光学平板结构另一侧形成的空气屏可生成为三维的立体像。

结合图2的部分内容和图7所示，当用户对所述空气屏223进行手势操作时，深度感知摄像模块210中的深度感知摄像头211将捕捉到用户的手势动作，并将捕捉结果输入所述交互信号处理模块300中进行下一步处理。

所述语音交互模块100包括：

语音指令采集模块110，用于采集用户下达的语音指令；

语音播报模块120，用于播报信息监测报告及语音二次确认所下达的指令。

具体地，结合2的部分内容和的部分内容，在系统开启状态下，当指挥中心的操作人员下达语音指令时，语音采集模块110将采集到该语音指令的音频信号，并将采集结果输入所述交互信号处理模块300中进行下一步的处理。

进一步地，每当信息监测模块生成了信息监测报告或交互信号处理模块已经输出了一个处理后的指令时，语音播报模块均会对该信息监测报告或该经过处理的指令通过扬声器进行语音播报，以此提醒操作人员信息监测报告中的每个信息或对该指令进行二次确认，防止操作人员因疏忽可能导致的指令下达错误。

所述交互信号处理模块包括：

空气成像交互指令处理模块，用于对捕捉结果进行识别；

语音交互指令处理模块，用于对输入该模块的语音指令采集结果进行匹配、比对，生成语音指令。

进一步地，如图4所示，所述空气成像交互指令处理模块310内置手势识别模块311。

具体地，结合图3及图2的部分内容，上述的空气成像技术交互模块将已被捕捉的操作人员手势指令输入所述空气成像交互指令处理模块320中，经过手势识别模块321，对输入的手势指令捕捉结果的空间坐标进行运算，并将运算后得出的手势运动轨迹或手指触碰点与生成的空气屏的空间位置进行比对，从而分析、识别出特定手势所代表的具体指令。随后所述空气成像交互指令处理模块320将最终的处理结果输出为指令信号，并将该指令输入语音播报模块120以待操作人员进行二次确认。

如图4所示，所述语音交互指令处理模块310包括：

系统指令数据库312，用于预先录入并存储好的所有系统允许的指令的数据库；

语音指令匹配模块311，用于将语音指令采集结果与系统指令数据库312中的指令进行匹配并输出。

具体地，结合图4及图2的部分内容，上述的语音指令采集模块110将采集结果即语音指令音频信息输入所述语音交互指令处理模块310，通过语音指令匹配模块311，将采集结果与系统指令数据库312中的指令进行比对和匹配，当匹配程度达到阈值时，即识别出了语音指令，随后所述的语音交互指令处理模块便310将最终的处理结果输出为指令信号，并将该指令输入语音播报模块120以待操作人员进行二次确认。

所述信息监测模块400包括：

重要信息筛选模块410，用于对系统监测的所有信息按重要性程度进行降序排列，并筛选出重要性程度高的监测信息；

信息监测报告生成模块420，用于根据筛选结果，生成重要监测信息的信息监测报告。

具体地，由于指挥中心通常需要监测众多的信息项，因此，所述重要信息筛选协议规定了哪些信息项为重要信息项的规则。据此规则，重要信息筛选协议将对所有监测到的信息项进行重要性程度降序排列，并截取重要性程度高的前排信息项输入所属的信息监测报告生成模块中，该模块将依据输入的筛选结果，对这些重要性程度高的信息项按报告形式进行整合，生成一份信息监测报告，随后该信息监测报告将输入显示屏221中及语音播报模块120中进行呈现。

综上所述，本发明基于语音和空气成像技术，通过各模块的集成以构建完整系统，在指挥中心这个应用场景下实现完全非接触形式的人机交互。该系统包括：语音交互模块，用于获取用户语音信号和输出语音信息；交互信号处理模块，用于根据用户的语音指令或针对空气屏交互界面做出的操作指令进行数据处理，同时将处理结果传递到空气成像交互模块中及语音交互模块中；空气成像交互模块，通过空气成像方式显示画面并实现在空气屏上进行操作；信息监测模块，用于生成待解决的问题项及重要提示信息。语音交互模块包括：语音指令采集模块、语音播报模块和系统控制命令数据库。空气成像模块包括：成像硬件模块和深度感知摄像模块。信息监测模块包括：重要信息筛选模块和信息监测报告生成模块。交互信号处理模块包括：空气成像交互指令处理模块和语音交互指令处理模块。本系统应用于指挥中心场景下，提供给用户更加迅速、便捷的指令下达方式，同时，针对指挥中心需要监测的信息，通过空气屏、语音相结合的多维呈现方式，给予用户一种更加直观、立体的信息获取方法。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于语音和空气成像技术的交互方法，其特征在于，包括：

判断获取的指令是否为语音指令，若是，则将获取的语音指令与系统指令数据库中的指令进行匹配，并根据匹配结果生成语音指令信号；若否，则将获取的手势操作指令进行识别，并根据识别结果生成手势指令信号。

2.根据权利要求1所述的基于语音和空气成像技术的交互方法，其特征在于，所述将获取的语音指令与系统指令数据库中的指令进行匹配，并将匹配结果生成语音指令信号，包括：

3.根据权利要求1所述的基于语音和空气成像技术的交互方法，其特征在于，所述将获取的手势操作指令进行识别，并将识别结果生成手势指令信号，包括：

4.根据权利要求1所述的基于语音和空气成像技术的交互方法，其特征在于，在所述获取用户下达的指令之前，还包括：

生成用于待用户进行下达手势操作指令的空气屏。

5.根据权利要求1所述的基于语音和空气成像技术的交互方法，其特征在于，在所述并将匹配结果生成语音指令信号之后，还包括：

将语音指令信号进行语音播报，以待用户进行确认；

或，在所述并将识别结果生成手势指令信号之后，还包括：

将手势指令信号进行语音播报，以待用户进行确认。

6.一种基于语音和空气成像技术的交互系统，其特征在于，包括：语音交互模块(100)、空气成像交互模块(200)和交互信息处理模块(300)；

所述语音交互模块(100)包括：语音指令采集模块(110)，用于采集用户下达的语音指令；所述交互信息处理模块(300)包括：语音交互指令处理模块(310)，用于将采集到的语音指令与系统指令数据库(312)中的指令进行匹配，并将匹配结果生成语音指令信号；

所述空气成像交互模块(200)包括：深度感知摄像模块(210)，用于获取用户通过空气屏(223)下达的手势操作指令；所述交互信息处理模块(300)还包括：空气成像交互指令处理模块(320)，用于将获取的手势操作指令进行识别，并将识别结果生成手势指令信号。

7.根据权利要求6所述的基于语音和空气成像技术的交互系统，其特征在于，所述语音交互指令处理模块(310)包括：语音指令匹配模块(311)，用于将获取的语音指令与所述系统指令数据库(312)中的指令进行比对和匹配，当匹配程度达到阈值时，则识别出获取的语音指令，并将识别结果输出为语音指令信号。

8.根据权利要求6所述的基于语音和空气成像技术的交互系统，其特征在于，所述空气成像交互指令处理模块(320)包括：手势识别模块(321)，用于将获取的手势操作指令的空间坐标进行运算，然后将运算后得出的手势运动轨迹或手指触碰点与所述空气屏的空间位置进行比对，再分析识别出手势操作指令所代表的操作指令，并将识别结果输出为手势指令信号。

9.根据权利要求6所述的基于语音和空气成像技术的交互系统，其特征在于，所述空气成像交互模块(200)还包括：成像硬件模块(220)，用于生成用于待用户进行下达手势操作指令的空气屏(223)。

10.根据权利要求6所述的基于语音和空气成像技术的交互系统，其特征在于，所述语音交互模块(100)还包括：语音播报模块(120)，用于将所述语音指令信号或所述手势指令信号进行播报。