CN117636851A - 一种机载语音交互功能自动分流方法及装置 - Google Patents
一种机载语音交互功能自动分流方法及装置 Download PDFInfo
- Publication number
- CN117636851A CN117636851A CN202311660062.0A CN202311660062A CN117636851A CN 117636851 A CN117636851 A CN 117636851A CN 202311660062 A CN202311660062 A CN 202311660062A CN 117636851 A CN117636851 A CN 117636851A
- Authority
- CN
- China
- Prior art keywords
- voice
- instruction
- module
- transcription unit
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 230000003993 interaction Effects 0.000 title claims abstract description 20
- 238000013518 transcription Methods 0.000 claims abstract description 62
- 230000035897 transcription Effects 0.000 claims abstract description 62
- 238000002372 labelling Methods 0.000 claims description 11
- 230000002452 interceptive effect Effects 0.000 claims description 5
- 238000000605 extraction Methods 0.000 description 4
- 101100545272 Caenorhabditis elegans zif-1 gene Proteins 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本申请属于飞机设计技术领域,特别涉及一种机载语音交互功能自动分流方法及装置。该方法包括步骤S1、基于语音识别请求,开始采集音频;步骤S2、将采集的音频同时发送给设置在指令识别模块及智能问答模块的语音转写单元;步骤S3、通过各语音转写单元进行文字转写;步骤S4、对转写单元转写的文字进行语义理解;步骤S5、基于语义理解结果进行指令匹配;步骤S6、当匹配到预存的指令后,根据指令代码区分采集的音频对应于机载语音控制指令或者是机载实时状态查询指令,并交由控制系统的相应模块执行,当未匹配到预存的指令后,对转写单元转写的文字在问答数据库中进行答案搜索。本申请为飞行员提供便捷,减轻飞行员的操纵负担。
Description
技术领域
本申请属于飞机设计技术领域,特别涉及一种机载语音交互功能自动分流方法及装置。
背景技术
飞行员在驾驶飞机飞行时,会通过语音和飞机进行交互,目前语音交互功能仅支持控制指令的识别,语音交互功能的单一性导致语音人机交互效率低。若增加语音交互功能,按现有技术,飞行员首先需要手动选择自己的语音属于那种功能,再进行语音输入,这种设计方法会增加飞行员的操作负担,同时会降低语音交互的便捷性。
发明内容
为了解决上述问题,本申请提供了一种机载语音交互功能自动分流方法及装置,通过自动分流设计,在保证语音交互便捷性的前提下,增加语音交互的功能。
本申请第一方面提供了一种机载语音交互功能自动分流方法,主要包括:
步骤S1、基于语音识别请求,开始采集音频;
步骤S2、将采集的音频同时发送给设置在指令识别模块的第一语音转写单元,及设置在智能问答模块的第二语音转写单元;
步骤S3、通过第一语音转写单元进行文字转写,并进行缓存,同时通过第二语音转写单元进行文字转写;
步骤S4、对第二语音转写单元转写的文字进行语义理解;
步骤S5、基于语义理解结果进行指令匹配;
步骤S6、当匹配到预存的指令后,根据指令代码区分采集的音频对应于机载语音控制指令或者是机载实时状态查询指令,并交由控制系统的相应模块执行,当未匹配到预存的指令后,获取缓存的由第一语音转写单元转写的文字,并在预存的问答数据库中进行答案搜索。
优选地是,在步骤S4进一步包括:
步骤S41、获取基于预设的标准指令库所形成的词语标签;
步骤S42、获取通过同义词匹配形成覆盖标准指令库中指令的组合句式;
步骤S43、对转写的文字中的每一个字词元素进行所述词语标签的标注;
步骤S44、将标注的多个词语标签组合,并匹配组合句式,形成语义理解结果。
优选地是,步骤S6中,通过指令的id首位来确定采集的音频对应于机载语音控制指令或者是机载实时状态查询指令。
本申请第二方面提供了一种机载语音交互功能自动分流装置,主要包括:
音频采集模块,用于基于语音识别请求,开始采集音频;
第一分流模块,用于将采集的音频同时发送给设置在指令识别模块的第一语音转写单元,及设置在智能问答模块的第二语音转写单元;
第一语音转写单元,用于对音频进行文字转写,并进行缓存;
第二语音转写单元,用于对音频进行文字转写;
语义理解模块,用于对第二语音转写单元转写的文字进行语义理解;
指令匹配模块,用于基于语义理解结果进行指令匹配;
第二分流模块,用于当匹配到预存的指令后,根据指令代码区分采集的音频对应于机载语音控制指令或者是机载实时状态查询指令,并交由控制系统的相应模块执行;
问答匹配模块,用于当未匹配到预存的指令后,获取缓存的由第一语音转写单元转写的文字,并在预存的问答数据库中进行答案搜索。
优选地是,所述语义理解模块包括:
词语标签获取单元,用于获取基于预设的标准指令库所形成的词语标签;
组合句式获取单元,用于获取通过同义词匹配形成覆盖标准指令库中指令的组合句式;
标注单元,用于对转写的文字中的每一个字词元素进行所述词语标签的标注;
组合句式匹配单元,用于将标注的多个词语标签组合,并匹配组合句式,形成语义理解结果。
优选地是,通过指令的id首位来确定采集的音频对应于机载语音控制指令或者是机载实时状态查询指令。
本申请为飞行员提供便捷,减轻飞行员的操纵负担。
附图说明
图1为本申请机载语音交互功能自动分流方法的一优选实施例的流程图。
具体实施方式
为使本申请实施的目的、技术方案和优点更加清楚,下面将结合本申请实施方式中的附图,对本申请实施方式中的技术方案进行更加详细的描述。在附图中,自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。所描述的实施方式是本申请一部分实施方式,而不是全部的实施方式。下面通过参考附图描述的实施方式是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。基于本申请中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本申请保护的范围。下面结合附图对本申请的实施方式进行详细说明。
本申请第一方面提供了一种机载语音交互功能自动分流方法,如图1所示,主要包括:
步骤S1、基于语音识别请求,开始采集音频。
步骤S2、将采集的音频同时发送给设置在指令识别模块的第一语音转写单元,及设置在智能问答模块的第二语音转写单元。
步骤S3、通过第一语音转写单元进行文字转写,并进行缓存,同时通过第二语音转写单元进行文字转写。
步骤S4、对第二语音转写单元转写的文字进行语义理解。
步骤S5、基于语义理解结果进行指令匹配。
步骤S6、当匹配到预存的指令后,根据指令代码区分采集的音频对应于机载语音控制指令或者是机载实时状态查询指令,并交由控制系统的相应模块执行,当未匹配到预存的指令后,获取缓存的由第一语音转写单元转写的文字,并在预存的问答数据库中进行答案搜索。
本申请在步骤S3中,第一语音转写单元进行文字转写后发送给机载控制系统,由机载控制系统缓存,等等后续步骤S4及步骤S5对第二语音转写单元进行文字转写后的内容处理的结果,并在步骤S6中仲裁是否使用缓存数据。
本申请实际上提供了三种功能,分别为机载语音控制、智能问答和机载实时状态查询,机载语音控制和机载实时状态查询功能的实现需要提前定义标准指令库,标准指令库中包含机载系统能通过语音识别并执行的多条标准指令,智能问答需要设计问题库,问题库中的问题是机载系统可以回答的。
机载语音控制功能是用语音来对飞机进行部分功能操控,如输入语音“打开自动飞行”、“增大量程”等。智能问答功能是用语音对自己想了解的一些关于装备等知识进行提问,并得到系统的回答,该功能的语音指令如“F-22飞机的最大飞行速度是多少”、“F-35飞机翼展是多少”等。机载实时状态查询功能,是用语音询问飞机的实时状态,如“剩余油量多少”、“目前飞行高度是多少”等。
在一些可选实施方式中,在步骤S4进一步包括:
步骤S41、获取基于预设的标准指令库所形成的词语标签;
步骤S42、获取通过同义词匹配形成覆盖标准指令库中指令的组合句式;
步骤S43、对转写的文字中的每一个字词元素进行所述词语标签的标注;
步骤S44、将标注的多个词语标签组合,并匹配组合句式,形成语义理解结果。
该实施例中,步骤S41用于获取到定义的标签句式,定义标签句式是指将标准指令库中组成每条指令的词语进行定义,例如假定标准指令库中有“打开自动飞行”、“增大量程”、“剩余油量”、“飞行高度”四条指令。则定义标签为:
标签1:“打开”;
标签2:“自动飞行”;
标签3:“增大”;
标签4:“量程”;
标签5:“剩余”;
标签6:“油量”;
标签7:“飞行”;
标签8:“高度”。
步骤S42用于获取生成的组合句式,生成组合句式是将标签句式中特定格式的词及同义词组合成句子的形式。如上述实施例终稿,将标签1和标签2组合成句式,并加入部分同义词形成“打开”“自动飞行”、“开启”“自动飞行”。
词语标签及组合句式事先设计好,并预存在数据库中的,在执行步骤S4的语义理解时直接调用,当系统收到飞行员的语音并转写为文本后,在步骤S43中进行语义抽取,即对飞行员输入的一个序列(也可叫一句话)的每一个元素(也可叫一个词)标注一个标签,该过程也叫作序列标注,实现该过程的方法为:对文本进行语义槽的标注,然后通过统计模型的训练得到这个标注序列的概率分布,对于新的文本能够根据模型进行序列预测,得到想要的语义槽抽取。
举例来说,当飞行员语音输入“我要打开自动飞行”,经文字转写后,语义抽取过程为:
我(无)要(无)打(打开)开(打开)自(自动飞行)动(自动飞行)飞(自动飞行)行(自动飞行)。其中括号里的内容为标签。
最后,在步骤S44中将语义抽取中标注的标签输出,其格式为语音文本->标签。对上述语音输入“我要打开自动飞行”,标签输出结果为:
我要->无;
打开->“打开”;
自动飞行->“自动飞行”。
之后在步骤S5中,输入的语句通过语义理解获得标签后,将该语句的标签组合起来,与标签库中的条目进行比对,标签库是根据标准指令库设计的,包含指令和对应的指令id,每一条指令都会对应一个id。示例如下:
打开自动飞行->id:1001;
增大量程->id:1002;
剩余油量->id:2001;
飞行高度->id:2002。
输出的标签组合为"打开""自动飞行",可匹配id:1001。
最后,在步骤S6中,根据匹配结果进一步分流,例如在一些可选实施方式中,步骤S6中,通过指令的id首位来确定采集的音频对应于机载语音控制指令或者是机载实时状态查询指令。
举例来说,机载语音控制指令的id首位为1,机载实时状态查询指令的id首位为2。若标签组合后与标签库比对成功,根据指令id的首位,则可确定其为机载语音控制指令或机载实时状态查询指令。有ID匹配的情况下,控制系统可以直接根据指令id控制相应的机载设备工作,同时释放缓存的由第一语音转写单元转写的文字内容,上述实施例中,由于id首位为1,判断为机载语音控制指令,由机载自动飞行设备执行相应指令
当无指令匹配时,则将无指令ID信息返回给控制系统,控制系统将缓存的由第一语音转写单元转写的文字内容送给问答数据库进行答案搜索。
本申请支持的功能包含机载语音控制、智能问答和机载实时状态查询三种功能,在该方法下,飞行员不需要功能选择操作,同时不需要唤醒词,飞行员只需直接说出自己的具体需求,飞机系统就可以将语音送到对应的功能模块并执行相应操作。该自动分流设计方法可以解决多功能语音分流问题,使在保证语音交互便捷性的前提下,增加语音交互的功能,为飞行员提供便捷,减轻飞行员的操纵负担。
本申请第二方面提供了一种与上述方法对应的机载语音交互功能自动分流装置,主要包括:
音频采集模块,用于基于语音识别请求,开始采集音频;
第一分流模块,用于将采集的音频同时发送给设置在指令识别模块的第一语音转写单元,及设置在智能问答模块的第二语音转写单元;
第一语音转写单元,用于对音频进行文字转写,并进行缓存;
第二语音转写单元,用于对音频进行文字转写;
语义理解模块,用于对第二语音转写单元转写的文字进行语义理解;
指令匹配模块,用于基于语义理解结果进行指令匹配;
第二分流模块,用于当匹配到预存的指令后,根据指令代码区分采集的音频对应于机载语音控制指令或者是机载实时状态查询指令,并交由控制系统的相应模块执行;
问答匹配模块,用于当未匹配到预存的指令后,获取缓存的由第一语音转写单元转写的文字,并在预存的问答数据库中进行答案搜索。
在一些可选实施方式中,所述语义理解模块包括:
词语标签获取单元,用于获取基于预设的标准指令库所形成的词语标签;
组合句式获取单元,用于获取通过同义词匹配形成覆盖标准指令库中指令的组合句式;
标注单元,用于对转写的文字中的每一个字词元素进行所述词语标签的标注;
组合句式匹配单元,用于将标注的多个词语标签组合,并匹配组合句式,形成语义理解结果。
在一些可选实施方式中,通过指令的id首位来确定采集的音频对应于机载语音控制指令或者是机载实时状态查询指令。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (6)
1.一种机载语音交互功能自动分流方法,其特征在于,包括:
步骤S1、基于语音识别请求,开始采集音频;
步骤S2、将采集的音频同时发送给设置在指令识别模块的第一语音转写单元,及设置在智能问答模块的第二语音转写单元;
步骤S3、通过第一语音转写单元进行文字转写,并进行缓存,同时通过第二语音转写单元进行文字转写;
步骤S4、对第二语音转写单元转写的文字进行语义理解;
步骤S5、基于语义理解结果进行指令匹配;
步骤S6、当匹配到预存的指令后,根据指令代码区分采集的音频对应于机载语音控制指令或者是机载实时状态查询指令,并交由控制系统的相应模块执行,当未匹配到预存的指令后,获取缓存的由第一语音转写单元转写的文字,并在预存的问答数据库中进行答案搜索。
2.如权利要求1所述的机载语音交互功能自动分流方法,其特征在于,在步骤S4进一步包括:
步骤S41、获取基于预设的标准指令库所形成的词语标签;
步骤S42、获取通过同义词匹配形成覆盖标准指令库中指令的组合句式;
步骤S43、对转写的文字中的每一个字词元素进行所述词语标签的标注;
步骤S44、将标注的多个词语标签组合,并匹配组合句式,形成语义理解结果。
3.如权利要求1所述的机载语音交互功能自动分流方法,其特征在于,步骤S6中,通过指令的id首位来确定采集的音频对应于机载语音控制指令或者是机载实时状态查询指令。
4.一种机载语音交互功能自动分流装置,其特征在于,包括:
音频采集模块,用于基于语音识别请求,开始采集音频;
第一分流模块,用于将采集的音频同时发送给设置在指令识别模块的第一语音转写单元,及设置在智能问答模块的第二语音转写单元;
第一语音转写单元,用于对音频进行文字转写,并进行缓存;
第二语音转写单元,用于对音频进行文字转写;
语义理解模块,用于对第二语音转写单元转写的文字进行语义理解;
指令匹配模块,用于基于语义理解结果进行指令匹配;
第二分流模块,用于当匹配到预存的指令后,根据指令代码区分采集的音频对应于机载语音控制指令或者是机载实时状态查询指令,并交由控制系统的相应模块执行;
问答匹配模块,用于当未匹配到预存的指令后,获取缓存的由第一语音转写单元转写的文字,并在预存的问答数据库中进行答案搜索。
5.如权利要求4所述的机载语音交互功能自动分流装置,其特征在于,所述语义理解模块包括:
词语标签获取单元,用于获取基于预设的标准指令库所形成的词语标签;
组合句式获取单元,用于获取通过同义词匹配形成覆盖标准指令库中指令的组合句式;
标注单元,用于对转写的文字中的每一个字词元素进行所述词语标签的标注;
组合句式匹配单元,用于将标注的多个词语标签组合,并匹配组合句式,形成语义理解结果。
6.如权利要求4所述的机载语音交互功能自动分流装置,其特征在于,通过指令的id首位来确定采集的音频对应于机载语音控制指令或者是机载实时状态查询指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311660062.0A CN117636851A (zh) | 2023-12-05 | 2023-12-05 | 一种机载语音交互功能自动分流方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311660062.0A CN117636851A (zh) | 2023-12-05 | 2023-12-05 | 一种机载语音交互功能自动分流方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117636851A true CN117636851A (zh) | 2024-03-01 |
Family
ID=90019741
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311660062.0A Pending CN117636851A (zh) | 2023-12-05 | 2023-12-05 | 一种机载语音交互功能自动分流方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117636851A (zh) |
-
2023
- 2023-12-05 CN CN202311660062.0A patent/CN117636851A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2021360822B2 (en) | System and/or method for semantic parsing of air traffic control audio | |
US11900817B2 (en) | Aircraft speech recognition systems and methods | |
US7606715B1 (en) | Avionics system for providing commands based on aircraft state | |
CN106910376B (zh) | 一种空中交通运行管制指令监控方法与系统 | |
US11289094B2 (en) | System and method for assisting pilot through clearance playback | |
US20020156629A1 (en) | Bi-directional natural language system for interfacing with multiple back-end applications | |
CN110444201A (zh) | 飞行器的语音识别系统和方法 | |
US9432611B1 (en) | Voice radio tuning | |
US6983248B1 (en) | Methods and apparatus for recognized word registration in accordance with speech recognition | |
US11676496B2 (en) | Methods and systems for querying for parameter retrieval | |
CN111210825A (zh) | 一种增强地空通话管制员情景意识感知的方法与装置 | |
CN110111792A (zh) | 空中交通管制自动指挥系统 | |
CN115470796A (zh) | 一种面向空管模拟培训的文本指令生成方法及设备 | |
US20220267023A1 (en) | Methods and systems for efficiently briefing past cockpit conversations | |
CN111091838A (zh) | 一种面向飞行器控制的开放式语音交互平台 | |
CN117636851A (zh) | 一种机载语音交互功能自动分流方法及装置 | |
CN106653015A (zh) | 一种机器人语音识别方法及装置 | |
US11955016B2 (en) | Interface system for flight deck communications | |
Williamson et al. | Commercial speech recognition technology in the military domain: Results of two recent research efforts | |
WO2022063288A1 (zh) | 一种机上信息辅助系统和方法 | |
Bollmann et al. | Automatic speech recognition in noise polluted cockpit environments for monitoring the approach briefing in commercial aviation | |
EP3855428B1 (en) | Aircraft speech recognition systems and methods | |
CN114664301A (zh) | 一种模拟训练设备交互控制方法、装置及系统 | |
US20220388630A1 (en) | Speech recognition methods and systems with contextual keyword mapping | |
Pavlinović et al. | First steps in designing air traffic control communication language technology system—Compiling spoken corpus of radiotelephony communication |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Zhang Shaoqing Inventor after: Sun Jiaqi Inventor after: Wang Yue Inventor after: Yao Lijun Inventor after: Pang Bo Inventor after: Sun Xi Inventor before: Sun Jiaqi Inventor before: Wang Yue Inventor before: Yao Lijun Inventor before: Pang Bo Inventor before: Sun Xi |