CN106898350A - 一种基于深度学习的智能工业机器人语音交互与控制方法 - Google Patents

一种基于深度学习的智能工业机器人语音交互与控制方法 Download PDF

Info

Publication number
CN106898350A
CN106898350A CN201710027763.9A CN201710027763A CN106898350A CN 106898350 A CN106898350 A CN 106898350A CN 201710027763 A CN201710027763 A CN 201710027763A CN 106898350 A CN106898350 A CN 106898350A
Authority
CN
China
Prior art keywords
input
output
layer
convolution
neural networks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710027763.9A
Other languages
English (en)
Inventor
李莹莹
肖南峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201710027763.9A priority Critical patent/CN106898350A/zh
Publication of CN106898350A publication Critical patent/CN106898350A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise

Abstract

本发明公开了一种基于深度学习的智能工业机器人语音交互与控制方法,包括步骤:1)语音转化为语谱图,通过FFT方法将原始语音转化为一张可以作为输入的图像;2)对整句语音建模,将语谱图作为输入对卷积神经网络进行无监督的训练;3)将卷积神经网络的输出序列O与标签T进行比较,通过BP算法对卷积神经网络进行有监督的调整;4)将特定的文本信息作为控制指令输入给机器人。本发明将语音识别技术与工业机器人相结合,改变了传统的生产方式,减轻了工人劳动强度,提高劳动生产率,促进了工业技术向智能化方向发展。

Description

一种基于深度学习的智能工业机器人语音交互与控制方法
技术领域
本发明涉及深度学习及工业机器人语音控制的技术领域,尤其是指一种基于深度学习的智能工业机器人语音交互与控制方法。
背景技术
一直以来,语音作为人类特有的能力,是人与其他动物最本质的区别,也是人类之间交流以及获取外界信息资源的最重要的工具和渠道。21世纪是信息技术蓬勃发展的时代,语音识别技术作为这个洪流中人机交互分支的一个重要组成,是人机交互的重要接口,使得人类和机器的交互更加自动化、智能化,实现了让机器听得懂人类语言的主要途径,推动了人工智能的发展。因此,将语音识别技术和机器人控制技术相结合,更体现了技术自动化和智能化。在我国,机器人被应用到很多领域,而且随着语音识别技术在机器人控制中的应用,机器人的应用领域在不断扩大。例如,将语音识别技术与工业机器人相结合,改变了传统的生产方式,减轻工人劳动强度,提高劳动生产率,促进了工业技术向智能化方向发展。
目前,国内外关于基于语音识别的机器人控制技术的研究已经很多了。例如,国内有白琳在基于语音识别的机器人控制技术的研究中对语音特征参数提取方法进行了改进,将传统的MFCC特征参数与共振峰参数相结合,提出了新的语音特征参数提取方法;国外,有美国、日本、德国等对智能服务机器人控制技术进行研究。
近年来,随着深度学习热潮的再次涌起,基于深度神经网络的语音识别系统的研究随之火热,目前最好的语音识别系统采用双向长短时记忆网络(LSTM,Long Short TermMemory),但是这以系统训练复杂度高、解码时间长,在工业的实时识别系统中难以广泛应用,尤其是在工厂巨大噪音的环境下更加难以识别。因此需要一种基于深度学习的智能工业机器人语音交互与控制方法,使得机器人能在嘈杂的作业环境中准确识别人类语音命令。
发明内容
本发明的目的在于克服现有技术的不足,提出了一种基于深度学习的智能工业机器人语音交互与控制方法,该方法考虑了工厂中嘈杂的作业环境问题,减少了语音系统训练的复杂度和时间,实现了更好的语音交互与机器人控制。
为实现上述目的,本发明所提供的技术方案为:一种基于深度学习的智能工业机器人语音交互与控制方法,包括以下步骤:
1)将语音转化为语谱图,通过短时傅里叶变换FFT方法将原始语音转化为一张能够作为输入的图像,具体是:利用短时傅里叶变换FFT方法对原始语音信号的每一帧进行处理,通过时间抽取算法和频率抽取算法得到由时域和频域两个维度组成的语谱图,其中,在频率抽取过程中,对不需要的频率进行压缩处理,从而降低噪音影响;
2)对整句语音建模,将由步骤1)得到的语谱图作为特征图输入到一个由多个卷积层组成的神经网络中,这里的卷积层与全连接层不同,它是非全连接层,非全连接是指后一层的输出与前一层的部分输入相关,而全连接则是认为后一层的输出与前一层的全部输入都相关,其中,每个卷积层都包括卷积、非线性变换和下采样三个阶段,具体如下:
2.1)卷积阶段:假设n1是输入语音信号的帧数,n2和n3分别对应每一帧特征图的时域维度和频域维度,即有n1个n2×n3大小的二维特征图组成的三维数组,将每个输入特征图记为xi,卷积后的结果y也是一个三维数组,每个输出特征图记为yj,链接xi和yj的权重记为wij,则
其中,*表示二维离散卷积运算符,bj是偏置项;
2.2)非线性阶段:将卷积阶段输出的特征y作为输入,进行非线性变换R=h(y),采用收敛速度较快的不饱和非线性函数ReLU,具体函数公式为:
R=max(0,y)
2.3)下采样阶段:采用最大池化的操作,依据定义的邻域窗口大小计算特定范围内的数据最值PM
将上述的卷积层进行三次堆叠,前一层的输出作为后一层的输入,组成卷积神经网络,其中,最后一个卷积层的下采样阶段输出的特征图与一个全连接层相连接,得到输出序列O;
3)将卷积神经网络的输出序列O与标签T进行比较,这里的标签T指的是预定义在网络中的命令,用于与网络识别的命令做比较,比较结果所得的误差E大于预设阈值时,用反向传播BP算法对网络权值进行调整,直至E小于预设阈值时就认为收敛,训练结束,输出文本信息结果;
4)将步骤3)输出的文本信息结果作为控制命令,机器人接收到特定的命令后,做出相应的动作。
本发明与现有技术相比,具有以下优点与有益效果:
1、本发明将语音识别技术与工业机器人相结合,改变了传统的生产方式,促进了工业技术向智能化方向发展。
2、减轻了工人劳动强度,提高劳动生产率。
3、可以远程控制机器人在危险环境下作业,也可以近距离控制机器人。
4、可以使机器人在工厂嘈杂的环境下对人类语音进行准确地识别,并根据相应的识别命令进行作业。
附图说明
图1为本发明方法的逻辑流程示意图。
图2为卷积层的三个阶段。
图3为非线性函数ReLU形态图。
图4为本发明使用的卷积神经网络框架图。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
如图1所示,本实施例所述的基于深度学习的智能工业机器人语音交互与控制方法,包括以下步骤:
1)将语音转化为语谱图,通过短时傅里叶变换FFT方法将原始语音转化为一张能够作为输入的图像,具体是:利用短时傅里叶变换FFT方法对原始语音信号的每一帧进行处理,通过时间抽取算法和频率抽取算法得到由时域和频域两个维度组成的语谱图,其中,在频率抽取过程中,对不需要的频率进行压缩处理,从而降低噪音影响。
2)对整句语音建模,将由步骤1)得到的语谱图作为特征图输入到一个由多个卷积层组成的神经网络中,这里的卷积层与全连接层不同,它是非全连接层,非全连接是指后一层的输出与前一层的部分输入相关,而全连接则是认为后一层的输出与前一层的全部输入都相关;如图2所示,每个卷积层都包括卷积、非线性变换和下采样三个阶段,具体如下:
2.1)卷积阶段:假设原始语音中有n1个音节,则输入语音信号的帧数就是n1个,n2和n3分别对应每一帧特征图的时域维度和频域维度,具体维度大小根据FFT变换后决定,即有n1个n2×n3大小的二维特征图组成的三维数组,将每个输入特征图记为xi,卷积后的结果y也是一个三维数组,每个输出特征图记为yj,链接xi和yj的权重记为wij,则
其中,*表示二维离散卷积运算符,bj是偏置项;
2.2)非线性阶段:将卷积阶段输出的特征y作为输入,进行非线性变换R=h(y),本发明采用收敛速度较快的不饱和非线性函数ReLU,如图3所示,具体函数公式为:
R=max(0,y)
2.3)下采样阶段:本发明采用最大池化的操作,依据定义的邻域窗口大小计算特定范围内的数据最值PM
将第一个卷积神经网络的输出结果图像作为第二个卷积神经网络的输入,同样经历三个阶段,输出结果再输入到第三个卷积神经网络中,经历三个阶段后得到卷积网络的输出结果,该结果与一个全连接层相连接,最后得到最终的输出序列O,如图4所示。
3)将卷积神经网络的输出序列O与标签T进行比较,这里的标签T指的是预定义在网络中的命令,用于与网络识别的命令做比较,比较结果所得的误差E大于预设阈值时,用反向传播BP算法对网络权值进行调整,直至E小于预设阈值时就认为收敛,训练结束,输出信息文本作为最终识别结果,即控制命令。其中,预定义的命令标签有十个,分别是:抓、握、推、拉、插、按、夹、捏、剪、切、敲、打、采、挖、撕、拽、磨、削、刨、挫等。
4)将步骤3)得到的文本信息结果作为控制命令,机器人接收到特定的命令后,做出相应的动作。本实例将前三个步骤用到的卷积神经网络用于Linux Ubuntu 16.04系统安装的Robot Operating System(ROS)的kinetic版本上,一个talker节点将步骤3)得到的最终命令文本信息结果作为消息发布给ROS Master,并由一个机器人控制节点listener作为消息接收者来接收这个消息,从而对机器人进行相应的控制。
具体如下所示:当用户通过语音设备下达指令后,如指令“抓”,该语音信号的语谱图通过卷积神经网络的识别,与命令标签T中的“抓”比较,产生误差小于阈值,则将“抓”作为文本信息输出,该文本信息被发布到ROS Master中,由一个机器人控制节点listener作为消息接收者来接收这个消息,通过选择机制,最终将消息解释为动作并控制机器人做出“抓”的反应;当用户通过语音设备下达的指令与命令标签T中的不相符,如指令“揉”,则通过卷积神经网络识别后不将结果作为文本信息输出,相应的机器人也不做任何反应;当用户下达命令时使用友好的语句,如“请抓”,其识别与控制过程与指令“抓”类似,区别在于语音识别结果只将“抓”与命令标签T中的“抓”作比较,忽略“请”字。
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。

Claims (1)

1.一种基于深度学习的智能工业机器人语音交互与控制方法,其特征在于,包括以下步骤:
1)将语音转化为语谱图,通过短时傅里叶变换FFT方法将原始语音转化为一张能够作为输入的图像,具体是:利用短时傅里叶变换FFT方法对原始语音信号的每一帧进行处理,通过时间抽取算法和频率抽取算法得到由时域和频域两个维度组成的语谱图,其中,在频率抽取过程中,对不需要的频率进行压缩处理,从而降低噪音影响;
2)对整句语音建模,将由步骤1)得到的语谱图作为特征图输入到一个由多个卷积层组成的神经网络中,这里的卷积层与全连接层不同,它是非全连接层,非全连接是指后一层的输出与前一层的部分输入相关,而全连接则是认为后一层的输出与前一层的全部输入都相关,其中,每个卷积层都包括卷积、非线性变换和下采样三个阶段,具体如下:
2.1)卷积阶段:假设n1是输入语音信号的帧数,n2和n3分别对应每一帧特征图的时域维度和频域维度,即有n1个n2×n3大小的二维特征图组成的三维数组,将每个输入特征图记为xi,卷积后的结果y也是一个三维数组,每个输出特征图记为yj,链接xi和yj的权重记为wij,则
y j = b j + Σ i w i j * x i
其中,*表示二维离散卷积运算符,bj是偏置项;
2.2)非线性阶段:将卷积阶段输出的特征y作为输入,进行非线性变换R=h(y),采用收敛速度较快的不饱和非线性函数ReLU,具体函数公式为:
R=max(0,y)
2.3)下采样阶段:采用最大池化的操作,依据定义的邻域窗口大小计算特定范围内的数据最值PM
将上述的卷积层进行三次堆叠,前一层的输出作为后一层的输入,组成卷积神经网络,其中,最后一个卷积层的下采样阶段输出的特征图与一个全连接层相连接,得到输出序列O;
3)将卷积神经网络的输出序列O与标签T进行比较,这里的标签T指的是预定义在网络中的命令,用于与网络识别的命令做比较,比较结果所得的误差E大于预设阈值时,用反向传播BP算法对网络权值进行调整,直至E小于预设阈值时就认为收敛,训练结束,输出文本信息结果;
4)将步骤3)输出的文本信息结果作为控制命令,机器人接收到特定的命令后,做出相应的动作。
CN201710027763.9A 2017-01-16 2017-01-16 一种基于深度学习的智能工业机器人语音交互与控制方法 Pending CN106898350A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710027763.9A CN106898350A (zh) 2017-01-16 2017-01-16 一种基于深度学习的智能工业机器人语音交互与控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710027763.9A CN106898350A (zh) 2017-01-16 2017-01-16 一种基于深度学习的智能工业机器人语音交互与控制方法

Publications (1)

Publication Number Publication Date
CN106898350A true CN106898350A (zh) 2017-06-27

Family

ID=59198498

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710027763.9A Pending CN106898350A (zh) 2017-01-16 2017-01-16 一种基于深度学习的智能工业机器人语音交互与控制方法

Country Status (1)

Country Link
CN (1) CN106898350A (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107451528A (zh) * 2017-07-04 2017-12-08 山东师范大学 基于深度学习的地表覆盖图片自动识别方法及系统
CN107728142A (zh) * 2017-09-18 2018-02-23 西安电子科技大学 基于二维卷积网络的雷达高分辨距离像目标识别方法
CN107832844A (zh) * 2017-10-30 2018-03-23 上海寒武纪信息科技有限公司 一种信息处理方法及相关产品
CN107863111A (zh) * 2017-11-17 2018-03-30 合肥工业大学 面向交互的语音语料处理方法及装置
CN107945791A (zh) * 2017-12-05 2018-04-20 华南理工大学 一种基于深度学习目标检测的语音识别方法
CN108417206A (zh) * 2018-02-27 2018-08-17 四川云淞源科技有限公司 基于大数据的信息高速处理方法
CN109192192A (zh) * 2018-08-10 2019-01-11 北京猎户星空科技有限公司 一种语种识别方法、装置、翻译机、介质和设备
CN109448733A (zh) * 2019-01-07 2019-03-08 广州势必可赢网络科技有限公司 一种语谱图生成方法、系统及相关装置
CN109448746A (zh) * 2018-09-28 2019-03-08 百度在线网络技术(北京)有限公司 语音降噪方法及装置
CN109676621A (zh) * 2019-01-04 2019-04-26 中船第九设计研究院工程有限公司 一种基于ros机器人操作系统的人机语音交互方法
CN110111810A (zh) * 2019-04-29 2019-08-09 华院数据技术(上海)有限公司 基于卷积神经网络的语音人格预测方法
CN110534123A (zh) * 2019-07-22 2019-12-03 中国科学院自动化研究所 语音增强方法、装置、存储介质、电子设备
CN110705525A (zh) * 2019-10-24 2020-01-17 北京建筑大学 一种诊断滚动轴承故障的方法及装置
CN110752973A (zh) * 2018-07-24 2020-02-04 Tcl集团股份有限公司 一种终端设备的控制方法、装置和终端设备
CN111563588A (zh) * 2019-02-13 2020-08-21 西门子股份公司 编码场景和任务相关学习信息及传输到可传输神经网络层
CN112651313A (zh) * 2020-12-17 2021-04-13 国网上海市电力公司 一种设备铭牌双重智能化识别方法、存储介质及终端
CN111563588B (zh) * 2019-02-13 2024-04-30 西门子股份公司 编码场景和任务相关学习信息及传输到可传输神经网络层

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1797543A (zh) * 2004-12-23 2006-07-05 上海电气自动化设计研究所有限公司 具有语音指令识别能力的工业机器人的装置及方法
CN104078039A (zh) * 2013-03-27 2014-10-01 广东工业大学 基于隐马尔科夫模型的家用服务机器人语音识别系统
CN105931633A (zh) * 2016-05-30 2016-09-07 深圳市鼎盛智能科技有限公司 语音识别的方法及系统
CN106094635A (zh) * 2016-07-04 2016-11-09 周英 一种可实现语音交互的工业机器人系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1797543A (zh) * 2004-12-23 2006-07-05 上海电气自动化设计研究所有限公司 具有语音指令识别能力的工业机器人的装置及方法
CN104078039A (zh) * 2013-03-27 2014-10-01 广东工业大学 基于隐马尔科夫模型的家用服务机器人语音识别系统
CN105931633A (zh) * 2016-05-30 2016-09-07 深圳市鼎盛智能科技有限公司 语音识别的方法及系统
CN106094635A (zh) * 2016-07-04 2016-11-09 周英 一种可实现语音交互的工业机器人系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
D.C.COSTA: ""Speech and Phoneme Segmentation Under Noisy Environment Through Spectrogram Image Analysis"", 《2012 IEEE INTERNATIONAL CONFERENCE ON SYSTEMS, MAN, AND CYBERNETICS》 *
LECUN Y: ""Deep learning"", 《NATURE》 *
ZHENGWEI HUANG: ""Speech Emotion Recognition Using CNN"", 《ACM》 *
胡青: ""基于卷积神经网络分类的说话人识别算法"", 《信息网络安全》 *
郑云飞: ""深度卷积神经网络在图像分割中的应用"", 《军事通信技术》 *

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107451528B (zh) * 2017-07-04 2019-11-12 山东师范大学 基于深度学习的地表覆盖图片自动识别方法及系统
CN107451528A (zh) * 2017-07-04 2017-12-08 山东师范大学 基于深度学习的地表覆盖图片自动识别方法及系统
CN107728142A (zh) * 2017-09-18 2018-02-23 西安电子科技大学 基于二维卷积网络的雷达高分辨距离像目标识别方法
CN107728142B (zh) * 2017-09-18 2021-04-27 西安电子科技大学 基于二维卷积网络的雷达高分辨距离像目标识别方法
US11922132B2 (en) 2017-10-30 2024-03-05 Shanghai Cambricon Information Technology Co., Ltd. Information processing method and terminal device
CN107832844A (zh) * 2017-10-30 2018-03-23 上海寒武纪信息科技有限公司 一种信息处理方法及相关产品
US11762631B2 (en) 2017-10-30 2023-09-19 Shanghai Cambricon Information Technology Co., Ltd. Information processing method and terminal device
CN107863111A (zh) * 2017-11-17 2018-03-30 合肥工业大学 面向交互的语音语料处理方法及装置
CN107945791B (zh) * 2017-12-05 2021-07-20 华南理工大学 一种基于深度学习目标检测的语音识别方法
CN107945791A (zh) * 2017-12-05 2018-04-20 华南理工大学 一种基于深度学习目标检测的语音识别方法
CN108417206A (zh) * 2018-02-27 2018-08-17 四川云淞源科技有限公司 基于大数据的信息高速处理方法
CN110752973A (zh) * 2018-07-24 2020-02-04 Tcl集团股份有限公司 一种终端设备的控制方法、装置和终端设备
CN110752973B (zh) * 2018-07-24 2020-12-25 Tcl科技集团股份有限公司 一种终端设备的控制方法、装置和终端设备
CN109192192A (zh) * 2018-08-10 2019-01-11 北京猎户星空科技有限公司 一种语种识别方法、装置、翻译机、介质和设备
CN109448746B (zh) * 2018-09-28 2020-03-24 百度在线网络技术(北京)有限公司 语音降噪方法及装置
CN109448746A (zh) * 2018-09-28 2019-03-08 百度在线网络技术(北京)有限公司 语音降噪方法及装置
CN109676621A (zh) * 2019-01-04 2019-04-26 中船第九设计研究院工程有限公司 一种基于ros机器人操作系统的人机语音交互方法
CN109448733A (zh) * 2019-01-07 2019-03-08 广州势必可赢网络科技有限公司 一种语谱图生成方法、系统及相关装置
CN111563588A (zh) * 2019-02-13 2020-08-21 西门子股份公司 编码场景和任务相关学习信息及传输到可传输神经网络层
CN111563588B (zh) * 2019-02-13 2024-04-30 西门子股份公司 编码场景和任务相关学习信息及传输到可传输神经网络层
CN110111810B (zh) * 2019-04-29 2020-12-18 华院数据技术(上海)有限公司 基于卷积神经网络的语音人格预测方法
CN110111810A (zh) * 2019-04-29 2019-08-09 华院数据技术(上海)有限公司 基于卷积神经网络的语音人格预测方法
CN110534123A (zh) * 2019-07-22 2019-12-03 中国科学院自动化研究所 语音增强方法、装置、存储介质、电子设备
CN110705525A (zh) * 2019-10-24 2020-01-17 北京建筑大学 一种诊断滚动轴承故障的方法及装置
CN112651313A (zh) * 2020-12-17 2021-04-13 国网上海市电力公司 一种设备铭牌双重智能化识别方法、存储介质及终端

Similar Documents

Publication Publication Date Title
CN106898350A (zh) 一种基于深度学习的智能工业机器人语音交互与控制方法
CN105744434B (zh) 一种基于手势识别的智能音箱控制方法及系统
US11948552B2 (en) Speech processing method, apparatus, electronic device, and computer-readable storage medium
CN109357749A (zh) 一种基于dnn算法的电力设备音频信号分析方法
CN109036467B (zh) 基于tf-lstm的cffd提取方法、语音情感识别方法及系统
CN106448654A (zh) 一种机器人语音识别系统及其工作方法
CN102890930B (zh) 基于hmm/sofmnn混合模型的语音情感识别方法
CN106919977B (zh) 一种前馈序列记忆神经网络及其构建方法和系统
CN109427328B (zh) 一种基于滤波网络声学模型的多通道语音识别方法
US20220253700A1 (en) Audio signal time sequence processing method, apparatus and system based on neural network, and computer-readable storage medium
US20200380954A1 (en) Training method of hybrid frequency acoustic recognition model, and speech recognition method
CN109767769A (zh) 一种语音识别方法、装置、存储介质及空调
CN105488466A (zh) 一种深层神经网络和水声目标声纹特征提取方法
CN108650202B (zh) 一种信号调制模式识别方法及装置
CN111341319B (zh) 一种基于局部纹理特征的音频场景识别方法及系统
CN112735482B (zh) 基于联合深度神经网络的端点检测方法及系统
CN115602152B (zh) 一种基于多阶段注意力网络的语音增强方法
CN109559755A (zh) 一种基于dnn噪声分类的语音增强方法
CN106653020A (zh) 一种基于深度学习的智慧视听设备多业务控制方法及系统
Wang Research and design of smart home speech recognition system based on deep learning
CN110415697A (zh) 一种基于深度学习的车载语音控制方法及其系统
CN115249479A (zh) 基于brnn的电网调度复杂语音识别方法、系统及终端
CN114387997A (zh) 一种基于深度学习的语音情感识别方法
Jin et al. Speech separation and emotion recognition for multi-speaker scenarios
CN111681649B (zh) 语音识别方法、交互系统及包括该系统的成绩管理系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170627