CN111091838A - 一种面向飞行器控制的开放式语音交互平台 - Google Patents
一种面向飞行器控制的开放式语音交互平台 Download PDFInfo
- Publication number
- CN111091838A CN111091838A CN201911348507.5A CN201911348507A CN111091838A CN 111091838 A CN111091838 A CN 111091838A CN 201911348507 A CN201911348507 A CN 201911348507A CN 111091838 A CN111091838 A CN 111091838A
- Authority
- CN
- China
- Prior art keywords
- control
- module
- voice
- voice interaction
- aircraft
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 48
- 238000012545 processing Methods 0.000 claims abstract description 24
- 230000002452 interceptive effect Effects 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 238000012937 correction Methods 0.000 claims description 3
- 238000007726 management method Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 11
- 238000012544 monitoring process Methods 0.000 description 7
- 238000000034 method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000013515 script Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请属于航空航天技术领域,特别涉及一种面向飞行器控制的开放式语音交互平台,包括:语音采集设备,用于获取操作人员的语音信息;语音交互模块,用于对语音信息进行识别处理,获取命令词及语义数据;控制模块,用于根据识别处理后的语音信息生成对应业务的操作控制指令;集成控制框架模块,设置有与业务范围相关的多个组件单元,其中,任意一个业务均可以通过一个或一个以上的组件单元协作完成,集成控制框架模块能够响应于所述控制模块发送的操作控制指令,适配数量和类型相对应的组件单元来协作完成所述操作控制指令。本申请的面向飞行器控制的开放式语音交互平台,能够提供友好的人机交互方式,减少操作环节,提升系统的服务精准程度。
Description
技术领域
本申请属于航空航天技术领域,特别涉及一种面向飞行器控制的开放式语音交互平台。
背景技术
飞行器系统操作流程复杂,高效的人机交互方式可以大幅度提升操作员的任务执行效率。但是,飞行器交互界面实现功能较多,界面显示资源有限,很多功能实现是在二级界面或隐藏界面,部分参数及功能处于操作员的有效视野之外。
发明内容
为了解决上述技术问题至少之一,本申请提供了一种面向飞行器控制的开放式语音交互平台。
本申请公开了一种面向飞行器控制的开放式语音交互平台,包括:
语音采集设备,用于获取操作人员的语音信息;
语音交互模块,用于对所述语音信息进行识别处理,获取命令词及语义数据;
控制模块,用于根据识别处理后的语音信息生成对应业务的操作控制指令;
集成控制框架模块,设置有与业务范围相关的多个组件单元,其中,任意一个业务均可以通过一个或一个以上的组件单元协作完成,所述集成控制框架模块能够响应于所述控制模块发送的操作控制指令,适配数量和类型相对应的组件单元来协作完成所述操作控制指令。
根据本申请的至少一个实施方式,所述语音交互模块包括:
识别处理单元,用于对所述语音信息进行降噪处理,以及根据预先设定的操作人员的声纹数据,对降噪处理后的语音信息进行声纹识别处理;
声纹数据库,用于存储所述声纹数据。
根据本申请的至少一个实施方式,所述语音交互模块还包括:
特征提取单元,用于从声纹识别处理后的语音信息中,提取与任务相关的可以理解的关键字数据;
自然语言理解单元,用于从所述关键字数据中提取控制模块能够理解的命令词及语义数据。
根据本申请的至少一个实施方式,所述语音交互模块还包括:
对话管理模块,用于将多次提取的所述关键字数据的语义逻辑进行解耦,获取对话意图和领域意图,提取集成控制框架模块能够理解的命令词及语义数据。
根据本申请的至少一个实施方式,所述对话管理模块还用于根据场景对所述命令词及语义数据进行解析和校准。
根据本申请的至少一个实施方式,所述控制模块包括控制指令发送单元、枚举值输入单元、界面操作控制单元、组合命令输入单元以及聊天对话单元。
根据本申请的至少一个实施方式,所述对话意图包括命令、问询、查找、纠正、打断。
本申请至少存在以下有益技术效果:
本申请的面向飞行器控制的开放式语音交互平台,能够提供友好的人机交互方式,减少操作环节,提升系统的服务精准程度,并且,可以实现多轮对话,可以实现多功能并行控制。
附图说明
图1是本申请面向飞行器控制的开放式语音交互平台结构图;
图2是本申请面向飞行器控制的开放式语音交互平台逻辑架构图。
具体实施方式
为使本申请实施的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行更加详细的描述。在附图中,自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。所描述的实施例是本申请一部分实施例,而不是全部的实施例。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。下面结合附图对本申请的实施例进行详细说明。
本发明的目的是提供一种支持多用户的、开放性的语音交互平台,实现多功能并行控制,提升“人在环”操控效率。面向不通的无人操作平台,地面控制类的PC机(linux\windows)、便携式前端(ios和andriod)以及实时的机载系统(VxWorks)等,提供跨平台的私有云服务系统,实现集成化的飞行器指制语音交互服务私有云平台,实现多用户在线并行服务。
其中,语音交互是目前众多人机交互手段中使用较频繁的一种,是对指向型交互(杆舵、鼠标、键盘等)的一种补充,特点是开放性好,提供了一种可直达、贯穿式的控制方式,最大程度减小中间的操作环节。同时,在高动态高实时的运行环境中,语音交互可以更大程度地快捷提供辅助服务,包括动作提示、处置方式、信息播报等功能。
下面结合附图1和图2对本申请的面向飞行器控制的开放式语音交互平台做进一步详细说明。
如图1所示,本申请公的面向飞行器控制的开放式语音交互平台,可以由语音采集设备、高速网络交换机、高性能服务器、嵌入式语音服务模组、面向多平台的软件开发工具包、面向飞行器控制的语音交互数据库(涵盖声纹管理、语音识别、自然语义理解、语音合成、对话管理)组成。
在开放式语音交互平台上,需要兼顾考虑现有飞行器系统的人机交互架构,不改变现有的业务功能,通过提供底层的集成控制框架,建立各类功能服务接口,语音交互平台将用户的自然语言进行逻辑拆解,并通过多种对话引擎,提炼出与系统业务符合的命令词及语义输入,再利用集成控制框架调用相应组件提供用户服务。
具体地,如图2所示,语音采集设备用于获取操作人员的语音信息,可以采用双麦克语音采集设备,利用麦克风阵列的空间和时间特性进行降噪,抑制噪声,提升信噪比,在实时操作系统(VxWorks)中,不考虑SDK开发的适用性,提供嵌入式语音服务模组,完成在平台私有云语音交互的全部服务。
语音交互模块用于对所述语音信息进行识别处理,获取命令词及语义数据。
具体地,语音交互模块可以包括识别处理单元、声纹库、特征提取单元、自然语言理解单元等。
识别处理单元用于对所述语音信息进行降噪处理,以及根据预先设定的操作人员的声纹数据,对降噪处理后的语音信息进行声纹识别处理;其中,可以预先构建用户声纹数据库,用于存储所述声纹数据,提升使用的安全性,并在多人协同工作环境下,提供单一用户的语音对话服务。
特征提取单元用于根据指控站涉及的全部任务集,从对声纹识别处理后的语音信息中,提取与任务相关的可以理解的关键字数据,用于自然语言理解中的逻辑组成。
自然语言理解单元用于从所述关键字数据中提取控制模块能够理解的命令词及语义数据;具体地,自然语言理解(NLU)是将语义从自然声音中提取出来,并根据系统提供给用户的各种业务服务及用户语言变化,直接或通过对话管理的方式来提取出系统理解的命令词及语义的问题输入。
进一步地,语音交互模块还可以包括对话管理模块,用于将多次提取的所述关键字数据的语义逻辑进行解耦,获取对话意图和领域意图,提取集成控制框架模块能够理解的命令词及语义数据;还用于所述对话管理模块还用于根据场景对所述命令词及语义数据进行解析和校准。
具体地,通过对话管理模块,使得特征提取及自然语言理解可以满足单轮对话的系统需求,在高阈值的检查条件下,需要多轮对话进行需求的进一步确认。对话管理可以基于脚本语言、问答引擎及聊天管理的手段,将用户自然语言的语义逻辑进行解耦,获取对话意图(命令、问询、查找、纠正、打断)和领域意图(业务服务内容),从对话中选取适用的命令词和抽取语义文本,并根据场景(飞机所处的状态、操作员贴近的命令词)进行解析和校准,减少在飞行过程中高烈度对抗带来的不确定性。
控制模块用于根据识别处理后的语音信息生成对应业务的操作控制指令。具体地,指控站的所有业务范围均可以由图2中所示的5种控制方式来实现,包括控制指令发送、枚举值输入、界面操作控制、组合命令输入、聊天对话,用户自然语言经过对话管理后提取出“命令词+语义文本”形式来实现5种控制。
集成控制框架模块设置有与业务范围相关的多个组件单元,其中,任意一个业务均可以通过一个或一个以上的组件单元协作完成,集成控制框架模块能够响应于所述控制模块发送的操作控制指令,适配数量和类型相对应的组件单元来协作完成所述操作控制指令。
其中,集成控制框架主要基于指控站系统架构对所有的软件组件的功能进行整合,形成强大的业务服务“池”,定义任何一种业务范围都可以通过多个组件协作完成,中间的控制指令由语音抽取的5种控制模式来完成,进行实现的用户自然语言到业务范围的“槽”通信。对人一席控多机的制空型无人机指控站,可以将飞行监控、任务监控、链路监控、任务规划、数据接入与共享等功能整合成各种业务服务,用于语音调度和使用,达到用户贯穿式控制、同步控制、界面定制和智能化交互的目的。
综上,采用了本申请上述方案主要实现语音交互在线服务,相比目前飞行器的命令词识别控制,具备以下几点优点:
1)语音交互可以实现多轮对话,提供友好的人机交互方式,提升系统的服务精准程度;
2)拓展控制范围,减少操作环节。可以拓展操作员实现一控多飞行器,将飞行监控、任务监控、链路监控、任务规划等功能整合,隐藏界面及二级界面较多,大部分参数及功能将处于操作员的有效视野之外,语音交互功能通过对话管理,牵引出操作员的控制需求,采用贯穿式的直接控制手段,实现贯穿式的直接控制命令;
3)实现多功能并行控制,提升“人在环”效率:在多功能的并行控制场景下,面对高烈度高实时性运行环境,整合飞行器指控的功能服务,打破原有软件与组件平台架构,构建集成服务一体化平台,实现飞行、任务、链路监控的一体化同步控制,利用语音交互与专家数据库,针对特定场景下,提供定向服务;
4)语音交互定制界面,实现扁平化显示:梳理多飞行器并行控制流程,建立起降、巡航、侦察、任务等多个场景下的脚本,根据语音交互自定义定制显示对应的用户界面,将该场景下重点关注的参数重组并在界面显示,提升操作友好性;
5)面对多种服务终端,可以满足各类运行系统,兼容多种平台,可以开放各类标准接口。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (7)
1.一种面向飞行器控制的开放式语音交互平台,其特征在于,包括:
语音采集设备,用于获取操作人员的语音信息;
语音交互模块,用于对所述语音信息进行识别处理,获取命令词及语义数据;
控制模块,用于根据识别处理后的语音信息生成对应业务的操作控制指令;
集成控制框架模块,设置有与业务范围相关的多个组件单元,其中,任意一个业务均可以通过一个或一个以上的组件单元协作完成,所述集成控制框架模块能够响应于所述控制模块发送的操作控制指令,适配数量和类型相对应的组件单元来协作完成所述操作控制指令。
2.根据权利要求1所述的面向飞行器控制的开放式语音交互平台,其特征在于,所述语音交互模块包括:
识别处理单元,用于对所述语音信息进行降噪处理,以及根据预先设定的操作人员的声纹数据,对降噪处理后的语音信息进行声纹识别处理;
声纹数据库,用于存储所述声纹数据。
3.根据权利要求2所述的面向飞行器控制的开放式语音交互平台,其特征在于,所述语音交互模块还包括:
特征提取单元,用于从声纹识别处理后的语音信息中,提取与任务相关的可以理解的关键字数据;
自然语言理解单元,用于从所述关键字数据中提取控制模块能够理解的命令词及语义数据。
4.根据权利要求3所述的面向飞行器控制的开放式语音交互平台,其特征在于,所述语音交互模块还包括:
对话管理模块,用于将多次提取的所述关键字数据的语义逻辑进行解耦,获取对话意图和领域意图,提取集成控制框架模块能够理解的命令词及语义数据。
5.根据权利要求4所述的面向飞行器控制的开放式语音交互平台,其特征在于,所述对话管理模块还用于根据场景对所述命令词及语义数据进行解析和校准。
6.根据权利要求5所述的面向飞行器控制的开放式语音交互平台,其特征在于,所述控制模块包括控制指令发送单元、枚举值输入单元、界面操作控制单元、组合命令输入单元以及聊天对话单元。
7.根据权利要求5所述的面向飞行器控制的开放式语音交互平台,其特征在于,所述对话意图包括命令、问询、查找、纠正、打断。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911348507.5A CN111091838A (zh) | 2019-12-24 | 2019-12-24 | 一种面向飞行器控制的开放式语音交互平台 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911348507.5A CN111091838A (zh) | 2019-12-24 | 2019-12-24 | 一种面向飞行器控制的开放式语音交互平台 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111091838A true CN111091838A (zh) | 2020-05-01 |
Family
ID=70396739
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911348507.5A Pending CN111091838A (zh) | 2019-12-24 | 2019-12-24 | 一种面向飞行器控制的开放式语音交互平台 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111091838A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113066499A (zh) * | 2021-03-12 | 2021-07-02 | 四川大学 | 一种陆空通话说话人身份识别方法及装置 |
CN114779931A (zh) * | 2022-04-12 | 2022-07-22 | 兰州空间技术物理研究所 | 一种宇航用人机交互平台 |
WO2023230902A1 (zh) * | 2022-05-31 | 2023-12-07 | 西门子股份公司 | 人机交互方法、装置、电子设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105679322A (zh) * | 2016-03-29 | 2016-06-15 | 普宙飞行器科技(深圳)有限公司 | 一种基于机载语音操控的无人机系统及控制方法 |
CN107562755A (zh) * | 2016-06-30 | 2018-01-09 | 深圳市多尼卡电子技术有限公司 | 飞行数据的管理方法及系统 |
CN108172221A (zh) * | 2016-12-07 | 2018-06-15 | 广州亿航智能技术有限公司 | 基于智能终端的操控飞行器的方法和装置 |
CN110491381A (zh) * | 2019-08-02 | 2019-11-22 | 合肥佳讯科技有限公司 | 一种无人飞行器语音交互系统及其语音交互方法 |
-
2019
- 2019-12-24 CN CN201911348507.5A patent/CN111091838A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105679322A (zh) * | 2016-03-29 | 2016-06-15 | 普宙飞行器科技(深圳)有限公司 | 一种基于机载语音操控的无人机系统及控制方法 |
CN107562755A (zh) * | 2016-06-30 | 2018-01-09 | 深圳市多尼卡电子技术有限公司 | 飞行数据的管理方法及系统 |
CN108172221A (zh) * | 2016-12-07 | 2018-06-15 | 广州亿航智能技术有限公司 | 基于智能终端的操控飞行器的方法和装置 |
CN110491381A (zh) * | 2019-08-02 | 2019-11-22 | 合肥佳讯科技有限公司 | 一种无人飞行器语音交互系统及其语音交互方法 |
Non-Patent Citations (1)
Title |
---|
刘立辉等: ""机载任务系统语音交互技术应用研究"" * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113066499A (zh) * | 2021-03-12 | 2021-07-02 | 四川大学 | 一种陆空通话说话人身份识别方法及装置 |
CN113066499B (zh) * | 2021-03-12 | 2022-06-03 | 四川大学 | 一种陆空通话说话人身份识别方法及装置 |
CN114779931A (zh) * | 2022-04-12 | 2022-07-22 | 兰州空间技术物理研究所 | 一种宇航用人机交互平台 |
WO2023230902A1 (zh) * | 2022-05-31 | 2023-12-07 | 西门子股份公司 | 人机交互方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111091838A (zh) | 一种面向飞行器控制的开放式语音交互平台 | |
CN105549497B (zh) | 支持pc控制的多旋翼无人飞行器控制系统 | |
CN109429522A (zh) | 语音交互方法、装置及系统 | |
CN110767220A (zh) | 一种智能语音助手的交互方法、装置、设备及存储介质 | |
CN103312850B (zh) | 一种手机自动化测试系统及工作方法 | |
CN111768780B (zh) | 语音控制方法、信息处理方法、车辆和服务器 | |
CN103985382A (zh) | 一种基于语音识别技术的电网调度辅助交互方法 | |
US11348583B2 (en) | Data processing method and apparatus for intelligent device, and storage medium | |
CN104836925A (zh) | 咨询系统及方法 | |
US11829358B2 (en) | Systems and methods for natural language queries | |
CN109360568A (zh) | 无人机语音控制方法、系统及计算机可读存储介质 | |
CN110992955A (zh) | 一种智能设备的语音操作方法、装置、设备及存储介质 | |
CN103591947B (zh) | 移动终端的语音后台导航方法及移动终端 | |
CN110491381A (zh) | 一种无人飞行器语音交互系统及其语音交互方法 | |
CN111597808A (zh) | 仪表盘绘制处理方法、装置、电子设备和存储介质 | |
CN110033764A (zh) | 无人机的语音控制方法、装置、系统及可读存储介质 | |
CN110428830A (zh) | 一种基于正则表达式的空管指令意图识别方法 | |
CN111210825A (zh) | 一种增强地空通话管制员情景意识感知的方法与装置 | |
CN111008309A (zh) | 查询方法及装置 | |
CN114004074A (zh) | 一种用于态势感知增强的显示系统综合验证系统 | |
CN109491510A (zh) | 一种无人机控制方法、装置、设备及存储介质 | |
CN117112065B (zh) | 大模型插件调用方法、装置、设备及介质 | |
Zhang et al. | Research on spectrum sensing system based on composite neural network | |
CN110232918B (zh) | 一种无人机地面控制站语音控制系统及控制方法 | |
CN105376416A (zh) | 一种通话终端的控制方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200501 |