CN112289309A - 一种基于深度学习的机器人语音控制方法 - Google Patents
一种基于深度学习的机器人语音控制方法 Download PDFInfo
- Publication number
- CN112289309A CN112289309A CN202011196439.8A CN202011196439A CN112289309A CN 112289309 A CN112289309 A CN 112289309A CN 202011196439 A CN202011196439 A CN 202011196439A CN 112289309 A CN112289309 A CN 112289309A
- Authority
- CN
- China
- Prior art keywords
- voice
- robot
- matrix
- deep learning
- lstm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000013135 deep learning Methods 0.000 title claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 25
- 238000000605 extraction Methods 0.000 claims abstract description 9
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 7
- 239000011159 matrix material Substances 0.000 claims description 32
- 230000008569 process Effects 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000004891 communication Methods 0.000 claims description 4
- 238000000354 decomposition reaction Methods 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 2
- 230000003247 decreasing effect Effects 0.000 claims description 2
- 238000005457 optimization Methods 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 230000008034 disappearance Effects 0.000 claims 1
- 230000007547 defect Effects 0.000 abstract description 4
- 230000003993 interaction Effects 0.000 abstract description 3
- 238000013145 classification model Methods 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- Manipulator (AREA)
Abstract
本发明一种基于深度学习的机器人语音控制方法依据卷积神经网络(CNN)、长短期记忆模型(LSTM)、时序分类模型(CTC)相结合的一种新的语音识别模型,搭建CNN‑LSTM‑CTC声学模型,通过SMFCC算法完成语音输入信号的特征提取,利用新的混合声学模型提取更深层的特征,经LSTM网络对语音数据进行时序特征提取,再经CTC算法完成对语音信号的训练和识别。本发明一种基于深度学习的机器人语音控制方法能够有效地改善传统方法中训练时间短和识别准确率低的缺点,使得人机交互更加高效便捷。
Description
技术领域
本发明属于人工智能技术领域,具体涉及一种基于深度学习的机器人语音控制方法。
背景技术
近些年来,机器人智能水平的提高和语音识别技术研究取得重大突破,机器人语音控制技术已经成为科技发展最前沿的领域之一。
随着不同功能的移动机器人被广泛应用到各个领域中,键盘和手柄等传统的控制方式已经难以满足人与机器人协同工作的需求,人们迫切需要一种高效方便的方法实现人机交互,机器人语音控制技术能够让机器人对人的语音内容进行识别,并按照人的指令完成指定任务。
机器人语音控制可分为几个过程:语音信号的预处理、特征参数提取、语音信号的识别与控制。其中,基于神经网络的语音识别方法是目前最热门的语音识别方法之一,该方法通过建立语音信号的声学模型,有效地改善了传统方法中训练时间短和识别准确率低的缺点。目前,国内在这方面尚无十分成熟的技术。
发明内容
本发明的目的是提供一种基于深度学习的机器人语音控制方法,该方法简化了基于GMM-HMM的混合声学模型,加强了对相邻语音帧之间的联系。
本发明所采用的技术方案是一种基于深度学习的机器人语音控制方法,具体步骤如下:
步骤1:利用SMFCC算法提取语音信号的特征;
步骤2:应用CNN网络提取更加深层的语音特征;
步骤3:经池化层处理后的语音数据送入LSTM网络进行时序特征提取;
步骤4:判断误差值是否满足预先设置的阀值,或声学模型优化的迭代次数是否已达到预设值;
若是,则训练结束输出权值;
若否,返回步骤3继续训练。
步骤5:利用CTC算法对LSTM各个节点的输出权值进行自动对齐,完成语音信号的训练和识别。
步骤6:使用python编写语音控制机器人的代码,通过ROS的通信机制将各个模块串接,完成语音控制机器人过程。
本发明的特点还在于:
步骤1中提取特征参数的具体过程为:
步骤1.1:对输入的语音信号进行预处理;
步骤1.2:对S矩阵A进行奇异值分解(SVD)计算,经降噪处理后,得到矩阵B;
步骤1.3:对矩阵B求取统计值得到2N维的统计值向量C;
步骤1.4:通过Mel滤波器组以及求对数能量,得到离散余弦变换(DCT)倒谱,经DCT倒谱得到75维的SMFCC特征。
步骤1.1中对输入的语音信号x(n)进行预处理,对一帧语音信号进行S变换,得到S矩阵A:
对语音信号x(t)进行S变换:
g(τ,f)为高斯函数:
式(1)中,τ参数为高斯窗函数中心点,f为频率。
步骤1.2中对矩阵A进行奇异值分解(SVD)计算,通过奇异值取舍对S矩阵进行降噪,得到矩阵B:
若A为一个信号矩阵,那么A的奇异值按递减的顺序排列为σ1,σ2,...,σi,...,σt,且σ1≥σ2≥...≥σi≥...≥σt。将S矩阵中对角元素相邻的前一项减后一项得到k,K={k1,k2,...,ki,...,kt-1}。
若ki为最大,则确定该位置为S矩阵奇异值阈值位置,并将以后的值置零,通过式(4)得到矩阵B。
设A为m×n矩阵,秩为r(r<n),则存在m×n的正交阵U和n×n的正交阵V,使得:
A=UDVT (3)
步骤1.3中分别对矩阵B的行列向量求取统计值,得到2N维向量C,即同时对语音信号的频域、时域进行处理。
步骤1.4中将向量C通过Mel滤波器组以及对数能量,求离散余弦变换(DCT)倒谱,得到SMFCC特征。
对数能量进行离散余弦变换(DCT),得到语音信号特征,公式如下:
式(4)中,M表示特征维数,计算每帧语音命令信号的特征分布。
步骤3的具体过程为:
步骤3.1:通过LSTM中的三个门对输入信息进行筛选,提高识别精度;
步骤3.2:通过Dropout层防止神经网络在训练过程中过拟合。
步骤3.1中LSTM中的输入门、忘记门和输出门对输入信息和上一时刻的信息进行筛选,有效防止神经网络在训练过程中发生梯度消失的问题,从而提高识别精度。it、ft、ct、ot为各个门的基本单元,该网络的输出计算公式如下所示:
步骤3.2中Dropout层以一定比例让LSTM网络中的一些隐含层的输出权重在训练中停止更新,保存到下次迭代过程时再被激活,有效防止了神经网络训练过程中的过拟合现象。
步骤5的具体过程为:
步骤5.1:经过CTC算法预测的序列结果与经LSTM进行时序特征提取的输出权重进行自动对齐;
步骤5.2:CTC算法引入blank,每个预测的分类对应语音数据被标记;
步骤5.1中CTC算法作为损失函数只需一个输入序列和一个输出序列即可训练,并直接输出序列预测的概率,与经LSTM输出的权重自动对齐。
步骤5.2中CTC算法自身引入的blank,每个预测的分类对应一整段语音数据的一个尖峰,其余位置被标记为blank,完成对语音信号的训练和识别。
步骤6的具体过程为:
步骤6.1:通过Python编写的control.py将深度学习网络输出的语音文本通过消息发布;
步骤6.2:把检测到的语音文本与语音库中的文本信息进行匹配,并发布该消息到命令相关的节点;
步骤6.3:经匹配和处理后,系统判断机器人的执行命令,并发布该消息到移动相关的节点;
步骤6.4:机器人接收到命令,实现语音控制机器人的运动。
本发明的有益效果是,本发明是一种基于深度学习的机器人语音控制方法,能够有效地改善传统方法中训练时间短和识别准确率低的缺点,简化基于GMM-HMM的混合声学模型,加强对相邻语音帧之间的联系。
附图说明
图1是本发明一种基于深度学习的机器人语音控制方法的特征提取流程图;
图2是本发明一种基于深度学习的机器人语音控制方法的训练流程图;
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明一种基于深度学习的机器人语音控制方法,通过SMFCC方法提取语音信号特征具体包括如下步骤:
如图1所示,具体步骤如下:
步骤1:利用SMFCC算法提取语音信号的特征,主要步骤如下:
步骤1.1:对输入的语音信号进行预处理;
步骤1.2:对S矩阵A进行奇异值分解(SVD)计算,经降噪处理后,得到矩阵B;
步骤1.3:对矩阵B求取统计值得到2N维的统计值向量C;
步骤1.4:通过Mel滤波器组以及求对数能量,得到离散余弦变换(DCT)倒谱,经DCT倒谱得到75维的SMFCC特征。
如图2所示,具体步骤如下:
步骤2:应用CNN网络提取更加深层的语音特征;
步骤3:经池化层处理后的语音数据送入LSTM网络进行时序特征提取,主要步骤如下:
步骤3.1:通过LSTM中的三个门对输入信息进行筛选,提高识别精度;
步骤3.2:通过Dropout层防止神经网络在训练过程中过拟合。
步骤5:利用CTC算法对LSTM各个节点的输出权值进行自动对齐,完成语音信号的训练和识别;
步骤5.1:经过CTC算法预测的序列结果与经LSTM进行时序特征提取的输出权重进行自动对齐;
步骤5.2:CTC算法引入blank,每个预测的分类对应语音数据被标记。
步骤6:使用python编写语音控制机器人的代码,通过ROS的通信机制将各个模块串接,完成语音控制机器人过程;
步骤6.1:通过Python编写的control.py将深度学习网络输出的语音文本通过消息发布;
步骤6.2:把检测到的语音文本与语音库中的文本信息进行匹配,并发布该消息到命令相关的节点;
步骤6.3:经匹配和处理后,系统判断机器人的执行命令,并发布该消息到移动相关的节点;
步骤6.4:机器人接收到命令,实现语音控制机器人的运动。
本发明一种基于深度学习的机器人语音控制方法依据卷积神经网络(CNN)、长短期记忆模型(LSTM)、时序分类模型(CTC)相结合的一种新的语音识别模型,搭建CNN-LSTM-CTC声学模型,完成对语音信号的TEOGFCC特征参数提取,利用新的混合声学模型提取更深层的特征,经LSTM网络对语音数据进行时序特征提取,再经CTC算法完成对语音信号的训练和识别。本发明一种基于深度学习的机器人语音控制方法能够有效地改善传统方法中训练时间短和识别准确率低的缺点,使得人机交互更加高效便捷。
Claims (7)
1.一种基于深度学习的机器人语音控制方法,其特征在于,具体包括如下步骤:
步骤1:利用SMFCC算法提取语音信号的特征;
步骤2:应用CNN网络提取更加深层的语音特征;
步骤3:经池化层处理后的语音数据送入LSTM网络进行时序特征提取;
步骤4:判断误差值是否满足预先设置的阀值,或声学模型优化的迭代次数是否已达到预设值;
若是,则训练结束输出权值;
若否,返回步骤3继续训练;
步骤5:利用CTC算法对LSTM各个节点的输出权值进行自动对齐,完成语音信号的训练和识别;
步骤6:使用python编写语音控制机器人的代码,通过ROS的通信机制将各个模块串接,完成语音控制机器人过程。
2.根据权利要求1所述的一种基于深度学习的机器人语音控制方法,其特征在于:
步骤1.1中对输入的语音信号x(n)进行预处理,对一帧语音信号进行S变换,得到S矩阵A:
对语音信号x(t)进行S变换:
g(τ,f)为高斯函数:
式(1)中,τ参数为高斯窗函数中心点,f为频率。
步骤1.2中对矩阵A进行奇异值分解(SVD)计算,通过奇异值取舍对S矩阵进行降噪,得到矩阵B:
若A为一个信号矩阵,那么A的奇异值按递减的顺序排列为σ1,σ2,...,σi,...,σt,且σ1≥σ2≥...≥σi≥...≥σt。将S矩阵中对角元素相邻的前一项减后一项得到k,K={k1,k2,...,ki,...,kt-1};
若ki为最大,则确定该位置为S矩阵奇异值阈值位置,并将以后的值置零,通过式(4)得到矩阵B;
设A为m×n矩阵,秩为r(r<n),则存在m×n的正交阵U和n×n的正交阵V,使得:
A=UDVT (3)
步骤1.3中分别对矩阵B的行列向量求取统计值,得到2N维向量C,即同时对语音信号的频域、时域进行处理;
步骤1.4中将向量C通过Mel滤波器组以及对数能量,求离散余弦变换(DCT)倒谱,得到SMFCC特征;
对数能量进行离散余弦变换(DCT),得到语音信号特征,公式如下:
式(4)中,M表示特征维数,计算每帧语音命令信号的特征分布。
3.根据权利要求2所述的一种基于深度学习的机器人语音控制方法,本发明的特点还在于,步骤3中利用LSTM网络在对语音数据进行时序特征提取的过程中,通过输入门、忘记门和输出门对上一时刻的语音信息进行筛选,有效地防止出现梯度消失的现象,从而提高识别精度。
步骤3.1中LSTM中的输入门、忘记门和输出门对输入信息和上一时刻的信息进行筛选,有效防止神经网络在训练过程中发生梯度消失的问题,从而提高识别精度。it、ft、ct、ot为各个门的基本单元,该网络的输出计算公式如下所示:
步骤3.2中Dropout层以一定比例让LSTM网络中的一些隐含层的输出权重在训练中停止更新,保存到下次迭代过程时再被激活,有效防止了神经网络训练过程中的过拟合现象。
4.根据权利要求3所述的一种基于深度学习的机器人语音控制方法,其特征还在于:利用CTC算法代替LSTM-HMM混合声学模型中的HMM模型,使得经LSTM网络的输出权重不需再强制对齐,即可完成对语音信号的训练和识别。
步骤5.1中CTC算法作为损失函数只需一个输入序列和一个输出序列即可训练,并直接输出序列预测的概率,与经LSTM输出的权重自动对齐。
步骤5.2中CTC算法自身引入的blank,每个预测的分类对应一整段语音数据的一个尖峰,其余位置被标记为blank,完成对语音信号的训练和识别。
5.根据权利要求4所述的一种深度学习的机器人语音控制方法,其特征在于:基于ROS系统利用Python语言编写语音控制机器人的代码,并通过ROS中的通信机制将各个模块串接起来,完成语音控制机器人过程。
6.根据权利要求5所述的一种深度学习的机器人语音控制方法,其特征在于:步骤6的具体过程为:
步骤6.1:通过Python编写的control.py将深度学习网络输出的语音文本通过消息发布;
步骤6.2:把检测到的语音文本与语音库中的文本信息进行匹配,并发布该消息到命令相关的节点;
步骤6.3:经匹配和处理后,系统判断机器人的执行命令,并发布该消息到移动相关的节点;
步骤6.4:机器人接收到命令,实现语音控制机器人的运动。
7.根据权利要求1所述的一种基于深度学习的机器人语音控制方法,硬件平台由计算机、Turtlebot移动机器人平台构成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011196439.8A CN112289309A (zh) | 2020-10-30 | 2020-10-30 | 一种基于深度学习的机器人语音控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011196439.8A CN112289309A (zh) | 2020-10-30 | 2020-10-30 | 一种基于深度学习的机器人语音控制方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112289309A true CN112289309A (zh) | 2021-01-29 |
Family
ID=74354197
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011196439.8A Pending CN112289309A (zh) | 2020-10-30 | 2020-10-30 | 一种基于深度学习的机器人语音控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112289309A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022169417A1 (zh) * | 2021-02-07 | 2022-08-11 | 脸萌有限公司 | 语音相似度确定方法及设备、程序产品 |
CN116759061A (zh) * | 2023-08-17 | 2023-09-15 | 简阳市人民医院 | 一种基于个人需求的体检项目推荐系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106847279A (zh) * | 2017-01-10 | 2017-06-13 | 西安电子科技大学 | 基于机器人操作系统ros的人机交互方法 |
CN109767759A (zh) * | 2019-02-14 | 2019-05-17 | 重庆邮电大学 | 基于改进型cldnn结构的端到端语音识别方法 |
CN111009235A (zh) * | 2019-11-20 | 2020-04-14 | 武汉水象电子科技有限公司 | 一种基于cldnn+ctc声学模型的语音识别方法 |
-
2020
- 2020-10-30 CN CN202011196439.8A patent/CN112289309A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106847279A (zh) * | 2017-01-10 | 2017-06-13 | 西安电子科技大学 | 基于机器人操作系统ros的人机交互方法 |
CN109767759A (zh) * | 2019-02-14 | 2019-05-17 | 重庆邮电大学 | 基于改进型cldnn结构的端到端语音识别方法 |
CN111009235A (zh) * | 2019-11-20 | 2020-04-14 | 武汉水象电子科技有限公司 | 一种基于cldnn+ctc声学模型的语音识别方法 |
Non-Patent Citations (1)
Title |
---|
汪海彬等: "SMFCC:一种新的语音信号特征提取方法", 计算机应用, vol. 36, no. 06, pages 1736 - 1738 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022169417A1 (zh) * | 2021-02-07 | 2022-08-11 | 脸萌有限公司 | 语音相似度确定方法及设备、程序产品 |
CN116759061A (zh) * | 2023-08-17 | 2023-09-15 | 简阳市人民医院 | 一种基于个人需求的体检项目推荐系统 |
CN116759061B (zh) * | 2023-08-17 | 2023-10-27 | 简阳市人民医院 | 一种基于个人需求的体检项目推荐系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gelly et al. | Optimization of RNN-based speech activity detection | |
CN109767759B (zh) | 一种应用到端到端语音识别的cldnn结构的建立方法 | |
Deng et al. | Ensemble deep learning for speech recognition | |
Mohamed et al. | Phone recognition using restricted boltzmann machines | |
CN110164452A (zh) | 一种声纹识别的方法、模型训练的方法以及服务器 | |
CN110609891A (zh) | 一种基于上下文感知图神经网络的视觉对话生成方法 | |
CN110188343A (zh) | 基于融合注意力网络的多模态情感识别方法 | |
CN110990543A (zh) | 智能对话的生成方法、装置、计算机设备及计算机存储介质 | |
EP0623914B1 (en) | Speaker independent isolated word recognition system using neural networks | |
Casanueva et al. | Knowledge transfer between speakers for personalised dialogue management | |
CN112435673A (zh) | 一种模型训练方法及电子终端 | |
CN112289309A (zh) | 一种基于深度学习的机器人语音控制方法 | |
CN111477220B (zh) | 一种面向家居口语环境的神经网络语音识别方法及系统 | |
CN109545227A (zh) | 基于深度自编码网络的说话人性别自动识别方法及系统 | |
CN110634476B (zh) | 一种快速搭建鲁棒性声学模型的方法及系统 | |
Wang et al. | Complex dynamic neurons improved spiking transformer network for efficient automatic speech recognition | |
CN110751260A (zh) | 电子设备、任务处理的方法以及训练神经网络的方法 | |
CN111401261B (zh) | 基于gan-cnn框架的机器人手势识别方法 | |
CN109637526A (zh) | 基于个人身份特征的dnn声学模型的自适应方法 | |
CN116227560A (zh) | 基于DTW-former的时间序列预测模型及方法 | |
CN108228732A (zh) | 语言存储方法和语言对话系统 | |
CN114091652A (zh) | 脉冲神经网络模型训练方法、处理芯片以及电子设备 | |
CN116863920A (zh) | 基于双流自监督网络的语音识别方法、装置、设备及介质 | |
CN110717022A (zh) | 一种机器人对话生成方法、装置、可读存储介质及机器人 | |
CN115796029A (zh) | 基于显式及隐式特征解耦的nl2sql方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210129 |
|
RJ01 | Rejection of invention patent application after publication |