CN113270097B - 无人机械控制方法、电台语音指令转换方法及装置 - Google Patents

无人机械控制方法、电台语音指令转换方法及装置 Download PDF

Info

Publication number
CN113270097B
CN113270097B CN202110537721.6A CN202110537721A CN113270097B CN 113270097 B CN113270097 B CN 113270097B CN 202110537721 A CN202110537721 A CN 202110537721A CN 113270097 B CN113270097 B CN 113270097B
Authority
CN
China
Prior art keywords
voice
radio station
network
frequency spectrum
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110537721.6A
Other languages
English (en)
Other versions
CN113270097A (zh
Inventor
陈英爽
鲍捷
吕春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CHENGDU FOURIER ELECTRONIC TECHNOLOGY CO LTD
Shenzhen SDG Information Co Ltd
Original Assignee
CHENGDU FOURIER ELECTRONIC TECHNOLOGY CO LTD
Shenzhen SDG Information Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CHENGDU FOURIER ELECTRONIC TECHNOLOGY CO LTD, Shenzhen SDG Information Co Ltd filed Critical CHENGDU FOURIER ELECTRONIC TECHNOLOGY CO LTD
Priority to CN202110537721.6A priority Critical patent/CN113270097B/zh
Publication of CN113270097A publication Critical patent/CN113270097A/zh
Application granted granted Critical
Publication of CN113270097B publication Critical patent/CN113270097B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

一种无人机械控制方法、电台语音指令转换方法及装置,控制方法包括:通过远场的无线发射电台将麦克风或对讲机采集的电台语音指令信息发送,对接收的电台语音指令进行去噪增强处理,获得增益语音指令频谱;对增益语音指令频谱进行语音信道转换,获得到非电台语音指令;对非电台语音指令进行语音识别,获得文字控制指令;文字控制指令,用于控制无人机械。实现利用远场无线电台传输的电台语音指令,通过接收、去噪增强、信道转换、识别获得可以用于控制无人机械的文字控制指令,以方便对无人机械的控制,使用方便,直接通过语音控制、交互性更强。

Description

无人机械控制方法、电台语音指令转换方法及装置
技术领域
本发明涉及无人机械控制与语音转换识别技术领域,尤其涉及一种无人机械控制方法、电台语音指令转换方法及装置。
背景技术
随着科技进步及智能技术的发展,各类无人机械越来越多的被开发出来应用到各领域,比如无人机、无人车、无人船等。目前对于无人机械的控制主要有三种方式:
方式1:采用手柄控制,这种方式只能做一些简单的控制,例如:上下前后左右控制,而无法使用复杂指令进行控制、也无法实现一对多控制;
方式2:通过键盘输入指令控制,这种方式携带和使用均不方便,且在使用手柄控制时候无法使用键盘控制;
方式3:通过可视化界面控制、把所有功能做成管理软件,但是开发成本大、使用的学习成本大,且使用手柄控制时候无法使用可视化界面控制。
上述这些方式均不能灵活方便的对无人机械进行控制。
发明内容
针对上述现有技术不足,本申请提供一种无人机械控制方法、电台语音指令转换方法及装置,应用于无人机械,实现利用远场无线电台传输的电台语音指令,通过接收、去噪增强、信道转换、识别获得可以用于控制无人机械的文字控制指令,以方便对无人机械的控制,使用方便,直接通过语音控制、交互性更强。
为了实现本发明的目的,拟采用以下方案:
一种电台语音指令转换方法,应用于无人机械,包括:
对接收的由远场无线电台发送的电台语音指令进行去噪增强处理,获得增益语音指令频谱;
对增益语音指令频谱进行语音信道转换,获得到非电台语音指令;
对非电台语音指令进行语音识别,获得文字控制指令;文字控制指令,用于控制无人机械。
进一步,由远场无线电台发送的电台语音指令,是在远场处通过麦克风或对讲机采集的、并由远场无线电台发送的电台语音指令。
进一步,去噪增强处理,包括:
将接收的由远场无线电台发送的电台语音指令按预设时间间隔长度分隔成N个小块;N为整数,等于电台语音指令的时长÷预设时间间隔长度;
对小块分别进行短时傅里叶变换处理,获得N个第一频谱;
将N个第一频谱分别输入语音去噪增强网络中进行处理,获得N个去噪增强频谱;
将N个去噪增强频谱组合成一个完整的增益语音指令频谱。
进一步,语音去噪增强网络,包括7层CNN网络、1层LSTM网络、2层DNN网络;
第一频谱具有第一预设频谱宽度;
通过语音去噪增强网络对每个第一频谱进行处理的步骤包括:
通过7层CNN网络对一个第一频谱进行去噪增强处理,获得多个具有第一预设频谱宽度的第二频谱;
通过1层LSTM网络对多个第二频谱进行去噪增强处理,获得一个具有第二预设频谱宽度的第三频谱;
通过2层DNN网络对一个第三频谱进行去噪增强处理,获得一个去噪增强频谱,去噪增强频谱具有第一预设频谱宽度。
进一步,对增益语音指令频谱进行语音信道转换,是将增益语音指令频谱输入信道转换网络进行信道转换,以获得到非电台语音指令;信道转换网络,包括3层残差网络;
进行信道转换的步骤包括:
通过第1层残差网络对输入第1层残差网络的增益语音指令频谱进行处理,输出多个具有第一预设频谱宽度的第一转换音频;
通过第2层残差网络对输入第2层残差网络的增益语音指令频谱、第一转换音频进行结合处理,输出多个具有第一预设频谱宽度的第二转换音频;
通过第3层残差网络对输入第3层残差网络的增益语音指令频谱、第一转换音频、第二转换音频进行结合处理,输出一个具有第一预设频谱宽度的非电台语音指令。
进一步,对非电台语音指令进行语音识别,获得文字控制指令,包括:
判断非电台语音指令的时间长度与第一预设时间长度的大小:
若非电台语音指令的时间长度小于第一预设时间长度,则对非电台语音指令进行补0操作,以使非电台语音指令的时间长度与第一预设时间长度匹配,然后输入语音识别网络进行语音识别;
若非电台语音指令的时间长度等于第一预设时间长度,则直接输入语音识别网络进行语音识别;
若非电台语音指令的时间长度大于第一预设时间长度,则对非电台语音指令进行切割,切割为若干与第一预设时间长度匹配的第一非电台语音指令块,以及至多一个小于第一预设时间长度的第二非电台语音指令块,将第二非电台语音指令块进行补0操作,以使第二非电台语音指令块与第一预设时间长度匹配,然后将第一非电台语音指令块以及补0操作后的第二非电台语音指令块输入语音识别网络进行语音识别。
进一步,语音识别网络,包括5层CNN网络、1层BLSTM网络、2层DNN网络、CTC解码网络;语音识别网络进行语音识别的步骤包括:
通过5层CNN网络对输入的语音识别网络的非电台语音指令,或第一非电台语音指令块与第二非电台语音指令块进行特征提取处理,获得具有第二预设时间长度和第三预设频谱宽度的第一识别频谱块;
通过1层BLSTM网络对第一识别频谱块进行特征提取处理,获得具有第二预设时间长度和第四预设频谱宽度的第二识别频谱块;
通过第1层DNN网络对第二识别频谱块进行特征提取,获得具有第一长度和第一宽度的特征向量;
通过第2层DNN网络对特征向量进行分类,获得具有第一长度和第二宽度的文字识别结果;
通过CTC解码网络对文字识别结果进行转换,输出大于等于0个汉字,以获得文字控制指令。
一种电台语音指令转换装置,设于无人机械,包括:
语音去噪增强模块,用于对接收的由远场无线电台发送的电台语音指令进行去噪增强处理,获得增益语音指令频谱;
语音信道转换模块,用于对增益语音指令频谱进行语音信道转换,获得到非电台语音指令;
语音识别模块,用于对非电台语音指令进行语音识别,获得文字控制指令,文字控制指令,用于控制无人机械。
一种无人机械控制方法,其特征在于,包括:
通过远场的无线发射电台将麦克风或对讲机采集的电台语音指令信息发送;
通过设于无人机械的无线接收电台接收无线发射电台发送的电台语音指令;
通过设于无人机械的语音去噪增强模块对电台语音指令进行去噪增强处理,获得增益语音指令频谱;
通过设于无人机械的语音信道转换模块对增益语音指令频谱进行语音信道转换,获得到非电台语音指令;
通过设于无人机械的语音识别模块对非电台语音指令进行语音识别,获得文字控制指令;
根据文字控制指令控制无人机械。
本发明的有益效果:
1、可以将远场电台无线发送的电台语音控制指令转换为用于控制无人机械的文字指令,能够方便对无人机械进行远程控制,使用方便,实现了直接通过语音控制、交互性跟强。
2、采用基于神经网络的方式进行去噪增强处理、信道转换处理以及语音识别处理,可以确保语音控制的识别效果精准有效,使识别获得的文字指令能够正确表达传输语音指令者的控制意愿。
3、现有的识别模型主要采样训练加噪音方式来处理噪音问题,对于信噪比大于0db以为语音,识别率较高能到97%,但对于信噪比小于0db的语音,识别率较低,低于70%;本发明采用分割小块,并进行短时傅里叶变换,然后利用7层CNN网络+1层LSTM网络+2层DNN网络的方式对电台语音指令进行去噪增强,能让提高信噪比(-6,0)db的语音,snr增益11.705db、PESQ(0.5~4.5)值增加1.054、STOI(0~1)值增加0.145、识别率提升17%。
4、采用轻量化的3层残差网络,逐层转换,且每层的输入,都采集前面每层的输出,一并进行结合处理,解决了无线电台采集语音的信道与非电台语音,如麦克风、对讲机、手机等采集的信道差距问题,可以转换得到处于非电台信道的语音信息,且对于信噪比(-6,0)db的电台语音,能提高3%识别率。
5、在对信道转换后的语音进行识别时,首先对频谱块进行预设大小的分切后再送入到识别网络,可以提高识别效率和识别效果;特别的,语音识别采用轻量化的5层CNN+1层BLSTM+2层DNN+CTC解码,实现对输入的频谱块的特征提取,获得特征向量,并获得文字识别结果,进一步获得文字控制指令,对于信噪比大于-6db的电台语音识别率大于90%,8秒的语音数据,识别时间gpu小于50ms,cpu小于80ms。
6、通过本方案的应用,可实现通过语音编号实现一对多不同任务控制,例如:01左转,02右转;还可以进行复杂指令控制控制,例如:左转5米、停车;也可以配合手柄同时进行多任务超控无人机械设备。
附图说明
本文描述的附图只是为了说明所选实施例,而不是所有可能的实施方案,更不是意图限制本发明的范围。
图1示出了本申请实施例的电台语音指令转换方法流程图。
图2示出了本申请实施例的应用场景。
图3示出了本申请实施例的去噪增强方法流程图。
图4示出了本申请实施例的去噪增强网络的处理流程。
图5示出了本申请实施例的信道转换方法流程图。
图6示出了本申请实施例的语音识别方法流程图。
图7示出了本申请实施例的电台语音指令转换装置结构框图。
图8示出了本申请实施例的无人机械控制方法流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面结合附图对本发明的实施方式进行详细说明,但本发明所描述的实施例是本发明一部分实施例,而不是全部的实施例。
实施例一
本申请实例的一个方面,提供一种电台语音指令转换方法,其应用于无人机械。如图1所示,本实例的电台语音指令转换方法,包括如下步骤:
S100:语音增强去噪处理:对接收的由远场无线电台发送的电台语音指令进行去噪增强处理,获得增益语音指令频谱。
S200:语音信道转换:对增益语音指令频谱进行语音信道转换,获得到非电台语音指令。
S300:语音识别:对非电台语音指令进行语音识别,获得文字控制指令。
文字控制指令,用于控制无人机械。
具体的,本实例的应用场景,如图2所示:
首先需要进行语音指令的采集,具体的,在远场处通过麦克风或对讲机采集语音指令,然后并通过无线发射电台发送采集的语音指令。
在无人机械一端,通过无人机械的无线接收电台,接收语音指令,并进行vad处理,得到语音流。
然后进行入去噪增强环节,按照如图3所示的流程进行去噪增强处理:
S110:先将得到的语音流,按照预设时间间隔长度分隔成N个小块;N为整数,等于电台语音指令的时长÷预设时间间隔长度。具体的,在本实例中,按1秒的长度进行分割小块。
S120:然后通过对小块分别进行短时傅里叶变换处理,获得N个第一频谱,例如N*101*257,N即为数量,101即为1秒的长度,257即为频谱块的高度或宽度。
S130:将N个第一频谱分别输入语音去噪增强网络中进行处理,获得N个去噪增强频谱。
S140:将N个去噪增强频谱组合成一个完整的增益语音指令频谱。
其中,本实例所采用的语音去噪增强网络,包括7层CNN网络、1层LSTM网络、2层DNN网络。
第一频谱具有第一预设频谱宽度257,将每个第一频谱1*101*257分别输入到语音去噪增强网络进行处理,如图4所示:
S131:首先,通过7层CNN网络对一个第一频谱1*101*257进行去噪增强处理,获得多个具有第一预设频谱宽度的第二频谱,例如8,*101*257;
S132:然后,通过1层LSTM网络对8,*101*257进行去噪增强处理,获得一个具有第二预设频谱宽度的第三频谱,例如1*101*400;
S133:通过2层DNN网络对1*101*400进行去噪增强处理,获得一个去噪增强频谱,去噪增强频谱具有第一预设频谱宽度,即去噪增强频谱为1*101*257。
去噪增强完成后,能让提高信噪比(-6,0)db的语音,snr增益11.705db、PESQ(0.5~4.5)值增加1.054、STOI(0~1)值增加0.145、识别率提升17%,进入信道转换环节。语音去噪增强后,得到的N秒个101*257的频谱;把这N秒的频谱相连,得到一个N*257的频谱,用于做信道转换。
由于无线电台采集语音的信道与麦克风和手机采集的信道差距巨大,本实例采用一个信道转换网络,信道转换网络包括轻量化的3层残差网络。
如图5所示,信道转换的步骤为:
第1层残差网络,输入1*N*257,输出32*N*257;
第2层残差网络,输入32*N*257+1*N*257,输出32*N*257;
第3层残差网络,输入32*N*257+32*N*257+1*N*257,输出1*N*257;
N表示去噪增强后的语音长度。
通过信道转换网络获得N*257的非电台语音指令。
信道转换后,进入到语音识别环节:
S310:首先,需要对输入语音识别网络的频谱块大小进行判断:
(1)若非电台语音指令N*257频谱的时间长度N小于第一预设时间长度800,则对N*257频谱进行补0操作,以使N与800匹配,然后输入语音识别网络进行语音识别;
(2)若非电台语音指令N*257频谱的时间长度N等于第一预设时间长度800,则直接输入语音识别网络进行语音识别;
(3)若非电台语音指令N*257频谱的时间长度N大于第一预设时间长度800,则对N*257频谱进行切割,切割为若干与第一预设时间长度800匹配的第一非电台语音指令块,即若干800*257的频谱块,以及至多一个小于第一预设时间长度800的第二非电台语音指令块;然后将第二非电台语音指令块进行补0操作,以使第二非电台语音指令块与第一预设时间长度800匹配,然后将第一非电台语音指令块以及补0操作后的第二非电台语音指令块输入语音识别网络进行语音识别。
从而,使得送入语音识别网络的频谱块,均满足800*257的时间长度和频谱宽度参数,以便于识别网络高效、精准识别。
S320:通过语音识别网络对输入的语音识别网络的非电台语音指令,或第一非电台语音指令块与第二非电台语音指令块,进行语音识别。
具体的,本实例的语音识别网络包括5层CNN网络、1层BLSTM网络、2层DNN网络、CTC解码网络。
语音识别网络进行语音识别的步骤,如图6所示,包括步骤:
S321:通过5层CNN网络对输入的语音识别网络的非电台语音指令,或第一非电台语音指令块与第二非电台语音指令块,即都是800*257的频谱块,进行特征提取处理,获得具有第二预设时间长度和第三预设频谱宽度的第一识别频谱块,200*1024;
S322:通过1层BLSTM网络对第一识别频谱块进行特征提取处理,获得具有第二预设时间长度和第四预设频谱宽度的第二识别频谱块,200*512;
S323:通过第1层DNN网络对第二识别频谱块进行特征提取,获得具有第一长度和第一宽度的特征向量,100*128;
S324:通过第2层DNN网络对特征向量进行分类,获得具有第一长度和第二宽度的文字识别结果,200*1452的块识别结果,1452表示常用汉字个数;
S325:通过CTC解码网络对文字识别结果进行转换,输入为100*1452的结果,输出为0至98个汉字,以获得文字控制指令。
实施例二
本申请实例的另一个方面,提供一种电台语音指令转换装置,设于无人机械。
如图7所示,本实例电台语音指令转换装置的包括:依次连接的语音去噪增强模块、语音信道转换模块、语音识别模块。语音去噪增强模块连接无人机械的无线接收电台。
无线接收电台用于接收在远场处通过麦克风或对讲机采集并通过无线发射电台发送的语音指令,并进行vad处理,得到语音流。
应用场景,如图2所示,语音去噪增强模块对接收的由远场无线电台发送的电台语音指令进行去噪增强处理,具体是对经过vad处理的语音流进行去噪增强处理,以获得增益语音指令频谱。语音信道转换模块对增益语音指令频谱进行语音信道转换,获得到非电台语音指令。语音识别模块对非电台语音指令进行语音识别,获得文字控制指令。
获得的文字控制指令可以用于控制无人机械。
具体的,语音去噪增强模块进行去噪增强处理的步骤,如图2所示,
语音去噪增强模块先将得到的语音流,按照预设时间间隔长度分隔成N个小块;N为整数,等于电台语音指令的时长÷预设时间间隔长度。具体的,在本实例中,按1秒的长度进行分割小块。
语音去噪增强模块通过对小块分别进行短时傅里叶变换处理,获得N个第一频谱,例如N*101*257,N即为数量,101即为1秒的长度,257即为频谱块的高度或宽度。
语音去噪增强模块进一步将N个第一频谱分别输入语音去噪增强网络中进行处理,获得N个去噪增强频谱。
语音去噪增强模块进一步将N个去噪增强频谱组合成一个完整的增益语音指令频谱。
其中,语音去噪增强模块中所采用的语音去噪增强网络,包括7层CNN网络、1层LSTM网络、2层DNN网络。
第一频谱具有第一预设频谱宽度257,将每个第一频谱1*101*257分别输入到语音去噪增强网络进行处理,如图4所示。
语音去噪增强模块完成去噪增强后,得到的N秒个101*257的频谱;把这N秒的频谱相连,得到一个N*257的频谱,输入语音信道转换模块。
由于无线电台采集语音的信道与麦克风和手机采集的信道差距巨大,本实例语音信道转换模块的采用一个信道转换网络,信道转换网络包括轻量化的3层残差网络。
如图5所示,语音信道转换模块进行信道转换的步骤为:
第1层残差网络,输入1*N*257,输出32*N*257;
第2层残差网络,输入32*N*257+1*N*257,输出32*N*257;
第3层残差网络,输入32*N*257+32*N*257+1*N*257,输出1*N*257;
N表示去噪增强后的语音长度。
通过信道转换网络获得N*257的非电台语音指令。
语音信道转换模块完成信道转换后,进入到语音识别模块。
语音识别模块首先对输入语音识别网络的频谱块大小进行判断:
(1)若非电台语音指令N*257频谱的时间长度N小于第一预设时间长度800,则对N*257频谱进行补0操作,以使N与800匹配,然后输入语音识别模块的语音识别网络进行语音识别;
(2)若非电台语音指令N*257频谱的时间长度N等于第一预设时间长度800,则直接输入语音识别网络进行语音识别;
(3)若非电台语音指令N*257频谱的时间长度N大于第一预设时间长度800,则对N*257频谱进行切割,切割为若干与第一预设时间长度800匹配的第一非电台语音指令块,即若干800*257的频谱块,以及至多一个小于第一预设时间长度800的第二非电台语音指令块;然后将第二非电台语音指令块进行补0操作,以使第二非电台语音指令块与第一预设时间长度800匹配,然后将第一非电台语音指令块以及补0操作后的第二非电台语音指令块输入语音识别网络进行语音识别。
从而,使得送入语音识别网络的频谱块,均满足800*257的时间长度和频谱宽度参数,以便于识别网络高效、精准识别。
具体的,语音识别模块的语音识别网络包括5层CNN网络、1层BLSTM网络、2层DNN网络、CTC解码网络。
语音识别模块的语音识别网络进行语音识别的步骤,如图6所示:
S321:通过5层CNN网络对输入的语音识别网络的非电台语音指令,或第一非电台语音指令块与第二非电台语音指令块,即都是800*257的频谱块,进行特征提取处理,获得具有第二预设时间长度和第三预设频谱宽度的第一识别频谱块,200*1024;
S322:通过1层BLSTM网络对第一识别频谱块进行特征提取处理,获得具有第二预设时间长度和第四预设频谱宽度的第二识别频谱块,200*512;
S323:通过第1层DNN网络对第二识别频谱块进行特征提取,获得具有第一长度和第一宽度的特征向量,100*128;
S324:通过第2层DNN网络对特征向量进行分类,获得具有第一长度和第二宽度的文字识别结果,200*1452的块识别结果,1452表示常用汉字个数;
S325:通过CTC解码网络对文字识别结果进行转换,输入为100*1452的结果,输出为0至98个汉字,以获得文字控制指令。
对于信噪比大于-6db的电台语音识别率大于90%,8秒的语音数据,识别时间gpu小于50ms,cpu小于80ms。
实施例三
本申请实例的另一个方面,提供一种电子设备,包括:至少一个处理器和存储器;其中,存储器存储有计算机执行指令;在至少一个处理器执行存储器存储的计算机执行指令时,使得至少一个处理器执行如实施例一的电台语音指令转换方法。
实施例四
本申请实例的另一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,在计算机程序被处理器运行时控制存储介质所在设备执行如实施例一的电台语音指令转换方法。
实施例五
本申请实例的另一个方面,提供一种无人机械控制方法。如图8所示,本实例无人机械控制方法的包括如下步骤:
通过远场的无线发射电台将麦克风或对讲机采集的电台语音指令信息发送;
通过设于无人机械的无线接收电台接收无线发射电台发送的电台语音指令;
通过设于无人机械的语音去噪增强模块对电台语音指令进行去噪增强处理,获得增益语音指令频谱;
通过设于无人机械的语音信道转换模块对增益语音指令频谱进行语音信道转换,获得到非电台语音指令;
通过设于无人机械的语音识别模块对非电台语音指令进行语音识别,获得文字控制指令;
根据文字控制指令控制无人机械。
具体的,图2视出了本实例控制方法的应用场景。
通过麦克风或者对讲机采集语音,并通过无线发射电台发送语音。
在远场通过无人机械的无线接收电台收集到语音,进行vad处理,得到语音流。
语音去噪增强模块采用如图3所示的方式进行去噪增强处理,把得到的语音流,按照1秒的长度,分割成小块,通过短时傅里叶变换得到频谱、然后把频谱放入去噪增强网络中进行处理。然后把模型输出的频谱组合成一个完成完整语音的频谱。
其中,采用的去噪增强网络及其处理过程,如图4所示。
语音去噪增强后,得到的N秒个101*257的频谱。把这N秒的频谱相连,得到一个N*257的频谱,用于做信道转换。
由于无线电台采集语音的信道与麦克风和手机采集的信道差距巨大。语音信道转换模块采用一个信道转换网络,采用轻量化的3层残差网络进行信道转换处理,如图5所示:
第一层,输入1*N*257,输出32*N*257
第二层,输入第一层输出的32*N*257+输入信道转换网络的1*N*257,输出32*N*257;
第三层,输入第一层输出的32*N*257+第二层输出的32*N*257+输入信道转换网络的1*N*257,输出1*N*257。
N表示去噪增强后的语音长度。
语音识别模块的输入为N*257的频谱,如果N小于800,填入0至补够800*257的输入层;如果大于800,分切换800*257的频谱块,其中切下来小于800的,则补够;然后送入5层CNN+1层BLSTM+2层DNN+CTC解码,按照如图6所示处理流程,得到200*1452的块识别结果,1452表示汉字的种类,然后然经过ctc解码,得到中文输出,获得文字控制指令。
根据获得的文字控制指令,对无人机械进行控制。
通过本实例,可以实现从远场电台无线发送电台语音控制指令,通过转换为用于控制无人机械的文字指令,能够方便对无人机械进行远程控制,使用方便,实现了直接通过语音控制、交互性跟强。
以上仅为本发明的优选实施例,并不表示是唯一的或是限制本发明。本领域技术人员应理解,在不脱离本发明的范围情况下,对本发明进行的各种改变或同等替换,均属于本发明保护的范围。

Claims (9)

1.一种电台语音指令转换方法,其特征在于,应用于无人机械,包括:
对接收的由远场无线电台发送的电台语音指令进行去噪增强处理,获得增益语音指令频谱;
对所述增益语音指令频谱进行语音信道转换,获得到非电台语音指令;
对所述非电台语音指令进行语音识别,获得文字控制指令;所述文字控制指令,用于控制所述无人机械;
其中,对所述增益语音指令频谱进行语音信道转换,是将所述增益语音指令频谱输入信道转换网络进行信道转换,以获得到非电台语音指令;所述信道转换网络,包括3层残差网络;
进行信道转换的步骤包括:
通过第1层残差网络对输入第1层残差网络的增益语音指令频谱进行处理,输出多个具有第一预设频谱宽度的第一转换音频;
通过第2层残差网络对输入第2层残差网络的增益语音指令频谱、第一转换音频进行结合处理,输出多个具有第一预设频谱宽度的第二转换音频;
通过第3层残差网络对输入第3层残差网络的增益语音指令频谱、第一转换音频、第二转换音频进行结合处理,输出一个具有第一预设频谱宽度的非电台语音指令。
2.根据权利要求1所述的电台语音指令转换方法,其特征在于,去噪增强处理,包括:
将接收的由远场无线电台发送的电台语音指令按预设时间间隔长度分隔成N个小块;N为整数,N等于所述电台语音指令的时长÷预设时间间隔长度;
对所述小块分别进行短时傅里叶变换处理,获得N个第一频谱;
将所述N个第一频谱分别输入语音去噪增强网络中进行处理,获得N个去噪增强频谱;
将所述N个去噪增强频谱组合成一个完整的增益语音指令频谱。
3.根据权利要求2所述的电台语音指令转换方法,其特征在于,所述语音去噪增强网络,包括7层CNN网络、1层LSTM网络、2层DNN网络;
所述第一频谱具有第一预设频谱宽度;
通过所述语音去噪增强网络对每个第一频谱进行处理的步骤包括:
通过7层CNN网络对一个第一频谱进行去噪增强处理,获得多个具有第一预设频谱宽度的第二频谱;
通过1层LSTM网络对所述多个第二频谱进行去噪增强处理,获得一个具有第二预设频谱宽度的第三频谱;
通过2层DNN网络对所述一个第三频谱进行去噪增强处理,获得一个去噪增强频谱,所述去噪增强频谱具有第一预设频谱宽度。
4.根据权利要求1所述的电台语音指令转换方法,其特征在于,对所述非电台语音指令进行语音识别,获得文字控制指令,包括:
判断所述非电台语音指令的时间长度与第一预设时间长度的大小:
若所述非电台语音指令的时间长度小于所述第一预设时间长度,则对所述非电台语音指令进行补0操作,以使所述非电台语音指令的时间长度与所述第一预设时间长度匹配,然后输入语音识别网络进行语音识别;
若所述非电台语音指令的时间长度等于所述第一预设时间长度,则直接输入语音识别网络进行语音识别;
若所述非电台语音指令的时间长度大于所述第一预设时间长度,则对所述非电台语音指令进行切割,切割为若干与所述第一预设时间长度匹配的第一非电台语音指令块,以及至多一个小于所述第一预设时间长度的第二非电台语音指令块,将所述第二非电台语音指令块进行补0操作,以使所述第二非电台语音指令块与所述第一预设时间长度匹配,然后将所述第一非电台语音指令块以及补0操作后的所述第二非电台语音指令块输入语音识别网络进行语音识别。
5.根据权利要求4所述的电台语音指令转换方法,其特征在于,所述语音识别网络,包括5层CNN网络、1层BLSTM网络、2层DNN网络、CTC解码网络;所述语音识别网络进行语音识别的步骤包括:
通过5层CNN网络对输入的所述语音识别网络的所述非电台语音指令,或所述第一非电台语音指令块与所述第二非电台语音指令块进行特征提取处理,获得具有第二预设时间长度和第三预设频谱宽度的第一识别频谱块;
通过1层BLSTM网络对所述第一识别频谱块进行特征提取处理,获得具有第二预设时间长度和第四预设频谱宽度的第二识别频谱块;
通过第1层DNN网络对所述第二识别频谱块进行特征提取,获得具有第一长度和第一宽度的特征向量;
通过第2层DNN网络对所述特征向量进行分类,获得具有第一长度和第二宽度的文字识别结果;
通过CTC解码网络对所述文字识别结果进行转换,输出大于等于0个汉字,获得文字控制指令。
6.一种电台语音指令转换装置,其特征在于,设于无人机械,包括:
语音去噪增强模块,用于对接收的由远场无线电台发送的电台语音指令进行去噪增强处理,获得增益语音指令频谱;
语音信道转换模块,用于将所述增益语音指令频谱输入信道转换网络进行信道转换,获得到非电台语音指令;其中,所述信道转换网络,包括3层残差网络;语音信道转换模块用于通过第1层残差网络对输入第1层残差网络的增益语音指令频谱进行处理,输出多个具有第一预设频谱宽度的第一转换音频;并用于通过第2层残差网络对输入第2层残差网络的增益语音指令频谱、第一转换音频进行结合处理,输出多个具有第一预设频谱宽度的第二转换音频;并用于通过第3层残差网络对输入第3层残差网络的增益语音指令频谱、第一转换音频、第二转换音频进行结合处理,输出一个具有第一预设频谱宽度的非电台语音指令;
语音识别模块,用于对所述非电台语音指令进行语音识别,获得文字控制指令;所述文字控制指令,用于控制所述无人机械。
7.一种无人机械控制方法,其特征在于,包括:
通过远场的无线发射电台将麦克风或对讲机采集的电台语音指令信息发送;
通过设于无人机械的无线接收电台接收无线发射电台发送的电台语音指令;
通过设于无人机械的语音去噪增强模块对所述电台语音指令进行去噪增强处理,获得增益语音指令频谱;
通过设于无人机械的语音信道转换模块对所述增益语音指令频谱输入信道转换网络进行信道转换,获得到非电台语音指令;其中,所述信道转换网络,包括3层残差网络;通过第1层残差网络对输入第1层残差网络的增益语音指令频谱进行处理,输出多个具有第一预设频谱宽度的第一转换音频;通过第2层残差网络对输入第2层残差网络的增益语音指令频谱、第一转换音频进行结合处理,输出多个具有第一预设频谱宽度的第二转换音频;通过第3层残差网络对输入第3层残差网络的增益语音指令频谱、第一转换音频、第二转换音频进行结合处理,输出一个具有第一预设频谱宽度的非电台语音指令;
通过设于无人机械的语音识别模块对所述非电台语音指令进行语音识别,获得文字控制指令;
根据所述文字控制指令控制所述无人机械。
8.一种电子设备,包括:至少一个处理器和存储器;其中,所述存储器存储有计算机执行指令;其特征在于,在所述至少一个处理器执行所述存储器存储的计算机执行指令时,使得所述至少一个处理器执行如权利要求1~5中任意一项所述的电台语音指令转换方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,在所述计算机程序被处理器运行时控制所述存储介质所在设备执行如权利要求1~5中任意一项所述的电台语音指令转换方法。
CN202110537721.6A 2021-05-18 2021-05-18 无人机械控制方法、电台语音指令转换方法及装置 Active CN113270097B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110537721.6A CN113270097B (zh) 2021-05-18 2021-05-18 无人机械控制方法、电台语音指令转换方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110537721.6A CN113270097B (zh) 2021-05-18 2021-05-18 无人机械控制方法、电台语音指令转换方法及装置

Publications (2)

Publication Number Publication Date
CN113270097A CN113270097A (zh) 2021-08-17
CN113270097B true CN113270097B (zh) 2022-05-17

Family

ID=77231379

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110537721.6A Active CN113270097B (zh) 2021-05-18 2021-05-18 无人机械控制方法、电台语音指令转换方法及装置

Country Status (1)

Country Link
CN (1) CN113270097B (zh)

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000324043A (ja) * 1999-05-13 2000-11-24 Hitachi Ltd ダウンロード方法及びソフトウェア無線システム
WO2006107732A1 (en) * 2005-04-01 2006-10-12 Plant Equipment, Inc. Internet protocol radio dispatch system and method
CN102982801A (zh) * 2012-11-12 2013-03-20 中国科学院自动化研究所 一种用于鲁棒语音识别的语音特征提取方法
CN108447482A (zh) * 2018-05-17 2018-08-24 上海埃威航空电子有限公司 一种无人机语音通信控制系统
CN109215674A (zh) * 2018-08-10 2019-01-15 上海大学 实时语音增强方法
CN109427328A (zh) * 2017-08-28 2019-03-05 中国科学院声学研究所 一种基于滤波网络声学模型的多通道语音识别方法
CN109767759A (zh) * 2019-02-14 2019-05-17 重庆邮电大学 基于改进型cldnn结构的端到端语音识别方法
CN110335609A (zh) * 2019-06-26 2019-10-15 四川大学 一种基于语音识别的地空通话数据分析方法及系统
CN110970046A (zh) * 2019-11-29 2020-04-07 北京搜狗科技发展有限公司 一种音频数据处理的方法及装置、电子设备、存储介质
CN110970044A (zh) * 2019-11-27 2020-04-07 武汉大学 一种面向语音识别的语音增强方法
CN111009235A (zh) * 2019-11-20 2020-04-14 武汉水象电子科技有限公司 一种基于cldnn+ctc声学模型的语音识别方法
CN111343285A (zh) * 2020-03-31 2020-06-26 深圳市特发信息股份有限公司 一种强化学习与图像智能识别的电力在线监测系统
CN111696567A (zh) * 2020-06-12 2020-09-22 苏州思必驰信息科技有限公司 用于远场通话的噪声估计方法及系统
CN111862944A (zh) * 2019-04-30 2020-10-30 北京嘀嘀无限科技发展有限公司 语音识别装置、方法、电子设备和计算机可读存储介质
CN112017681A (zh) * 2020-09-07 2020-12-01 苏州思必驰信息科技有限公司 定向语音的增强方法及系统
CN112185352A (zh) * 2020-08-31 2021-01-05 华为技术有限公司 语音识别方法、装置及电子设备
CN113270089A (zh) * 2021-05-18 2021-08-17 成都傅立叶电子科技有限公司 语音重采样方法及装置
CN113315527A (zh) * 2020-02-26 2021-08-27 三星电子株式会社 用于信道编码中的解码操作的解码装置和解码方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100484116C (zh) * 2004-09-16 2009-04-29 西安电子科技大学 Ofdm通信系统及降低峰均功率比的方法
CN101944976A (zh) * 2010-10-11 2011-01-12 复旦大学 一种基于格雷映射的优化网格编码调制系统编码设计方法

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000324043A (ja) * 1999-05-13 2000-11-24 Hitachi Ltd ダウンロード方法及びソフトウェア無線システム
WO2006107732A1 (en) * 2005-04-01 2006-10-12 Plant Equipment, Inc. Internet protocol radio dispatch system and method
CN102982801A (zh) * 2012-11-12 2013-03-20 中国科学院自动化研究所 一种用于鲁棒语音识别的语音特征提取方法
CN109427328A (zh) * 2017-08-28 2019-03-05 中国科学院声学研究所 一种基于滤波网络声学模型的多通道语音识别方法
CN108447482A (zh) * 2018-05-17 2018-08-24 上海埃威航空电子有限公司 一种无人机语音通信控制系统
CN109215674A (zh) * 2018-08-10 2019-01-15 上海大学 实时语音增强方法
CN109767759A (zh) * 2019-02-14 2019-05-17 重庆邮电大学 基于改进型cldnn结构的端到端语音识别方法
CN111862944A (zh) * 2019-04-30 2020-10-30 北京嘀嘀无限科技发展有限公司 语音识别装置、方法、电子设备和计算机可读存储介质
CN110335609A (zh) * 2019-06-26 2019-10-15 四川大学 一种基于语音识别的地空通话数据分析方法及系统
CN111009235A (zh) * 2019-11-20 2020-04-14 武汉水象电子科技有限公司 一种基于cldnn+ctc声学模型的语音识别方法
CN110970044A (zh) * 2019-11-27 2020-04-07 武汉大学 一种面向语音识别的语音增强方法
CN110970046A (zh) * 2019-11-29 2020-04-07 北京搜狗科技发展有限公司 一种音频数据处理的方法及装置、电子设备、存储介质
CN113315527A (zh) * 2020-02-26 2021-08-27 三星电子株式会社 用于信道编码中的解码操作的解码装置和解码方法
CN111343285A (zh) * 2020-03-31 2020-06-26 深圳市特发信息股份有限公司 一种强化学习与图像智能识别的电力在线监测系统
CN111696567A (zh) * 2020-06-12 2020-09-22 苏州思必驰信息科技有限公司 用于远场通话的噪声估计方法及系统
CN112185352A (zh) * 2020-08-31 2021-01-05 华为技术有限公司 语音识别方法、装置及电子设备
CN112017681A (zh) * 2020-09-07 2020-12-01 苏州思必驰信息科技有限公司 定向语音的增强方法及系统
CN113270089A (zh) * 2021-05-18 2021-08-17 成都傅立叶电子科技有限公司 语音重采样方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"("All Metadata":radio station) AND ("All Metadata":channel change) AND ("All Metadata":neural network) AND ("All Metadata":residual)";Sarika M. Potdar;《2013 Sixth International Conference on Contemporary Computing》;20130810;全文 *
"短波跳频电台的信号识别技术研究";张迎;《中国优秀硕士学位论文全文数据库(信息科技辑)》;20200215;全文 *

Also Published As

Publication number Publication date
CN113270097A (zh) 2021-08-17

Similar Documents

Publication Publication Date Title
US11620983B2 (en) Speech recognition method, device, and computer-readable storage medium
US20210043190A1 (en) Speech recognition method and apparatus, and method and apparatus for training speech recognition model
US9542938B2 (en) Scene recognition method, device and mobile terminal based on ambient sound
DE112017003563T5 (de) Verfahren und system einer automatischen spracherkennung unter verwendung a-posteriori-vertrauenspunktzahlen
CN110837842A (zh) 一种视频质量评估的方法、模型训练的方法及装置
CN111145736B (zh) 语音识别方法及相关设备
CN112562742B (zh) 语音处理方法和装置
CN115062143A (zh) 语音识别与分类方法、装置、设备、冰箱及存储介质
CN113555032B (zh) 多说话人场景识别及网络训练方法、装置
CN109215666A (zh) 智能支架、音频信号的传输方法、人机交互的方法及终端
CN112102846A (zh) 音频处理方法、装置、电子设备以及存储介质
CN113270097B (zh) 无人机械控制方法、电台语音指令转换方法及装置
Han et al. Semantic-aware speech to text transmission with redundancy removal
CN114822578A (zh) 语音降噪方法、装置、设备及存储介质
CN116580290B (zh) 无人机的识别方法、装置及存储介质
CN106782527A (zh) 一种智能电动汽车语音控制系统及方法
CN106228975A (zh) 一种移动终端的语音识别系统及方法
Zhang et al. Research on spectrum sensing system based on composite neural network
US20230186943A1 (en) Voice activity detection method and apparatus, and storage medium
CN113936680B (zh) 基于多尺度信息感知卷积神经网络的单通道语音增强方法
CN113643706B (zh) 语音识别方法、装置、电子设备及存储介质
CN107316644A (zh) 用于信息交互的方法及装置
CN113270089A (zh) 语音重采样方法及装置
CN117238275B (zh) 基于常识推理的语音合成模型训练方法、装置及合成方法
CN115798497B (zh) 一种时延估计系统及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant