CN108847238B - 一种服务机器人语音识别方法 - Google Patents

一种服务机器人语音识别方法 Download PDF

Info

Publication number
CN108847238B
CN108847238B CN201810886913.6A CN201810886913A CN108847238B CN 108847238 B CN108847238 B CN 108847238B CN 201810886913 A CN201810886913 A CN 201810886913A CN 108847238 B CN108847238 B CN 108847238B
Authority
CN
China
Prior art keywords
text
sound
voice
value
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810886913.6A
Other languages
English (en)
Other versions
CN108847238A (zh
Inventor
王斐
刘鑫
丁鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN201810886913.6A priority Critical patent/CN108847238B/zh
Publication of CN108847238A publication Critical patent/CN108847238A/zh
Application granted granted Critical
Publication of CN108847238B publication Critical patent/CN108847238B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Manipulator (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于语音识别领域,公开了一种服务机器人语音识别方法。本发明的语音对话系统利用语音分离和文本处理,提高了语音对话系统的性能。主要包括以下方面:一、服务机器人语音识别系统在传统语音识别系统的基础上加入了声源分离环节解决了系统对混合声音流的识别问题,二、服务机器人语音识别系统在传统语音识别系统的基础上加入了文本筛选环节解决了系统对“无意义”文本的滤除问题,改善机器人的错误应答率。实验证明服务机器人语音识别系统较传统语音识别系统对混合声音的识别率有很大的提升,对文本的误应答有明显的改善。

Description

一种服务机器人语音识别方法
技术领域
本发明属于语音识别领域,涉及一种服务机器人语音识别方法。
背景技术
语音识别就是让机器能够听懂人说的话,其根本目的是研究一种具有听觉功能的机器,使机器能直接接受人的语音,理解人的意图并做出相应的反应。目前针对语音识别提出了很多算法,但是这些研究基本上都是基于较为纯净的语音环境,一旦环境中有噪声干扰或存在其他人的声音,语音识别就会受到严重影响。因为大多数语音识别的语音识别系统基本上都是在无干扰、无噪声和无混响的“纯净”环境中搭建而成。而实现环境中不可避免地存在干扰和噪声,包括其他人的声音和回声等,这些噪声使语音识别系统的性能大大降低甚至瘫痪。已有的信号去噪、参数去噪和抗噪识别等方法都有一定的局限。如果能实现干扰、噪声和语音的自动分离,即在识别前就获得较为纯净的语音,可以彻底解决噪声环境下的识别问题。
近年来的声源分离、声纹识别等技术的飞速发展为干扰、噪声和语音的分离提供了可能。另外现存的人机对话系统对请求文本没有丝毫的鉴别能力,它仅仅是通过请求文本去得到应答文本,希望搭建一个可以对请求文本进行过滤的人机对话系统。它可以滤除一些无意义的请求文本,改善机器人的错误应答率。
发明内容
针对现有人机对话系统的不足,本发明提出将声源分离和文本处理等方法应用于人机对话系统,以解决人机对话系统对混合声音流束手无策的问题和对垃圾文本误响应的问题。
提出一种服务机器人语音识别系统。服务机器人语音识别系统在传统的语音识别系统的基础上加入了声源分离环节,解决了系统对混合声音流的识别问题,加入了文本筛选环节,解决了系统对“无意义”文本的滤除问题,改善机器人的错误应答率。首先,对机器人听到的声音进行卡尔曼滤波,去除声音当中环境噪声的成分;然后,使用的RNN声源分离模型对经过卡尔曼滤波之后的混合声音流进行声源分离处理,得到纯净声音流;其次,将该纯净声音流送入语音识别系统,得到相应的文本;最后,用SVM模型实现的文本筛选判断经过语音识别得到的文本是否合格或值得机器人应答,使得机器人只对通过SVM模型判断合格的文本进行应答。
实验证明服务机器人语音识别系统较传统语音识别系统对混合声音的识别率有很大的提升,对文本的误应答率有明显的改善。
本发明具体方案实现如下:
一种服务机器人语音识别方法,包括如下步骤:
步骤1、收集数据,获取机器人多个服务对象的纯净声音流和混合声音流;
步骤2、对语音数据进行标签化,将不同对象的纯净声音流和混合声音流分别设置不同标签;
步骤3、搭建RNN神经网络、设定网络结构;该网络有四层,由输入层、两个隐含层、输出层构成。网络结构如图1所示,其中输入层节点个数为i,隐含层节点个数为h,输出层节点个数为o。该循环神经网络(RNN)的输入输出特征是短时傅里叶变换后的能量谱,有两个隐藏层且隐藏层的激活函数选择RELU函数,损失函数定义为:
Figure GDA0003762421590000021
Figure GDA0003762421590000022
表示RNN模型在时刻t的输出,y1t、y2t。。。则为t时刻的纯净人声,γ12、γ13。。。为给定的常数项;
损失函数中第一项的平方误差
Figure GDA0003762421590000023
的目的是让分离后的声音流
Figure GDA0003762421590000031
与纯净的声音流y1t、y2t。。。越来与接近,损失函数中第二项平方误差
Figure GDA0003762421590000032
的目的是分离后的声音流
Figure GDA0003762421590000033
包含更少的纯净声音流y2t、y3t。。。,损失函数中的第三个平方误差
Figure GDA0003762421590000034
的目的是分离后的声音流
Figure GDA0003762421590000035
包含更少的纯净声音流y1t、y3t。。。
步骤4、对多个服务对象的纯净声音流和混合声音流进行短时傅里叶变换处理,并输入到RNN网络进行训练,具体步骤如下:
步骤4.1、初始化RNN神经网络参数,如果初始权值向量处在误差曲面的一个相对平缓的区域的时候,网络训练的收敛速度可能会异常缓慢。所以设定网络的连接权值和阈值初始化在[-0.30,+0.30]之间的随机值;并设定权值的学习速率为[0,1]范围之间的点值;
步骤4.2、根据k-1时刻对混合声音做短时傅里叶变换处理后得到的振幅谱作为输入数据,由输入层到隐含层节点的权值和隐藏层之间的权值,得到输出层的输出值,并将输出值
Figure GDA0003762421590000036
与期望值y比较,算出损失函数,进而更新k时刻输入层到隐含层节点的权值和隐藏层之间的权值,以及RNN基本单元之间的权值;
步骤4.3、设置停止训练的总误差阈值,判断获得的预测值的总误差是否大于设置的总误差阈值,若是,则根据总误差值,调整隐含层节点到输出层节点的区间权值,输入层节点到隐含层节点的区间权值,以及RNN基本单元之间的权值,否则,完成RNN神经网络的训练;
步骤5、利用训练好的RNN神经网络完成对多个对象的混合声音流的语音分离工作。
进一步地,上述的服务机器人语音识别方法,还包括利用SVM模型实现文本滤除,具体包括如下步骤:
步骤1、收集数据,获得人机对话的文本素材;
步骤2、对文本数据进行标签化,分为正、负两种样本,正样本为正常文本;负样本为插入语文本;
步骤3、对环境中的声音进行监听,如果没有声音则监听继续,否则对声音进行截取,声音截取的方法采用基于短时能量和短时过零率的声音端点检测方法;
步骤4、对截取到的声音进行语音识别,得到该段声音的对应文本;
步骤5、搭建SVM模型对文本数据进行二分类,具体步骤如下:
步骤5.1、对全部训练文档进行分词,分词方法采用jieba分词方法;
步骤5.2、分别统计正、负样本中出现的词语及其频率,然后过滤,剔除停用词和单字词;
步骤5.3、分别统计正、负样本中出现词语的词频,并取其中的若干个频率最高的词汇作为这一类别的高频词集;
步骤5.4、去除正、负样本中都出现的高频词,合并正负样本的高频词,得到总高频词集,即特征集合;
步骤5.5、将特征集合映射到词向量集合,利用该词向量集合训练SVM,得到训练模型;
步骤6、利用训练好的SVM完成对人机对话文本的输出值预测,如果SVM的预测值是正常文本,则对其进行响应,否则,放弃响应。
本发明的有益效果为,充分利用当下日臻成熟的深度学习声源分离和文本处理方法,将语音识别系统改造成具有声源分离和文本滤除功能服务机器人语音识别系统。服务机器人语音识别系统较传统语音识别系统对混合语音流的识别有很大改善,在小样本的测试下,服务机器人语音识别系统对混合语音流的识别率由36%提高至98%。采用SVM实现的文本筛选环节对文本的筛选能力也有根本性的提升。由原来的对文本完全没有筛选能力到实现98.8%的精确率。
附图说明
图1为RNN神经网络结构示意图。
图2为RNN神经网络基本单元展开图。
图3为RNN神经网络解决声源分离原理图。
图4为带噪声的原始声音。
图5为经过卡尔曼滤波之后的声音。
图6为人与人机对话系统之间的一次语音交互的流程图。
具体实施方式
为更好理解本发明的技术方案,以下通过具体实例并结合附图说明本发明的实施方法。
RNN实现对混合声音流的分离工作:
以两种声音的混合为例。首先机器人对环境进行声音监听,如果没有声音,则监听继续,否则对环境中的声音进行截取,本系统采取的截取的方法是基于短时能量和短时过零率的声音端点检测;如果此时甲乙两个人同时说话,并被机器人听到时,机器人听到的则是甲乙两个人的混合声音流,然后将这种抓取到的混合声音进行卡尔曼滤波(卡尔曼滤波效果如图4所示),并送入RNN声源分离网络模型,得到经过声源分离之后的纯净声音流;其次,将得到的纯净声音流输入到语音识别网络,从而得到相应的文字内容;最后利用SVM模型对得到的识别文字进行插入语滤除,判断这段文字是否值得系统响应,如果合格,则对该段语音进行响应,否则将该段声音视为噪声,放弃响应。语音识别系统的识别过程如图5所示。
SVM实现对人机对话中无意义文本的滤除:
将人机日常对话文本记录下来共得到文本素材1000个(正常文本和“无意义”文本两种各占比50%);将这1000条人机对话文本从1到1000编号,其中,编号1-800的为训练文本,编号801-1000的为测试文本。
Figure GDA0003762421590000061
用SVM模型搭建插入语文本筛选环节。运用由Python实现SVM进行训练测试,得到人机对话文本的真实值与SVM判别值对比表,其中,“1”表示正常文本,“0”表示垃圾文本,如下表所示:
Figure GDA0003762421590000062
如表所示,服务机器人语音识别系统只对经过SVM模型实现的文本筛选环节判定为1的人机对话文本进行回答、响应。经过实验验证,服务机器人语音识别系统由原来的对文本完全没有筛选能力到实现对人机对话文本的98.8%的精确率。总之,在人机对话过程中,服务机器人语音识别系统可以滤除一些无意义的请求文本,改善人机对话过程中的错误应答率。

Claims (1)

1.一种服务机器人语音识别方法,其特征在于,包括如下步骤:
步骤1、收集数据,获取机器人多个服务对象的纯净声音流和混合声音流;
步骤2、对语音数据进行标签化,将不同对象的纯净声音流和混合声音流分别设置不同标签;
步骤3、搭建RNN神经网络、设定网络结构;该网络有四层,由输入层、两个隐含层、输出层构成,其中输入层节点个数为i,隐含层节点个数为h,输出层节点个数为o;该循环神经网络(RNN)的输入输出特征是短时傅里叶变换后的能量谱,有两个隐藏层且隐藏层的激活函数选择RELU函数,损失函数定义为:
Figure FDA0003762421580000011
Figure FDA0003762421580000012
Figure FDA0003762421580000013
…表示RNN模型在时刻t的输出,y1t、y2t…为t时刻的纯净人声,γ12、γ13…为给定的常数项;
步骤4、对多个服务对象的纯净声音流和混合声音流进行短时傅里叶变换处理,并输入到RNN网络进行训练,具体步骤如下:
步骤4.1、初始化RNN神经网络参数,设定网络的连接权值和阈值初始化为[-0.30,+0.30]之间的随机值;并设定权值的学习速率为[0,1]范围之间的点值;
步骤4.2、根据k-1时刻对混合声音做短时傅里叶变换处理后得到的能量谱作为输入数据,由输入层到隐含层节点的权值和隐藏层之间的权值,得到输出层的输出值,并将输出值
Figure FDA0003762421580000014
与期望值y比较,算出损失函数,进而更新k时刻输入层到隐含层节点的权值和隐藏层之间的权值,以及RNN基本单元之间的权值;
步骤4.3、设置停止训练的总误差阈值,判断获得的预测值的总误差是否大于设置的总误差阈值,若是,则根据总误差值,调整隐含层节点到输出层节点的区间权值,输入层节点到隐含层节点的区间权值,以及RNN基本单元之间的权值,否则,完成RNN神经网络的训练;
步骤5、利用训练好的RNN神经网络完成对多个对象的混合声音流的语音分离工作;
还包括利用SVM模型实现文本滤除,具体包括如下步骤:
步骤1、收集数据,获得人机对话的文本素材;
步骤2、对文本数据进行标签化,分为正、负两种样本,正样本为正常文本;负样本为插入语文本;
步骤3、对环境中的声音进行监听,如果没有声音则监听继续,否则对声音进行截取,声音截取的方法采用基于短时能量和短时过零率的声音端点检测方法;
步骤4、对截取到的声音进行语音识别,得到该段声音的对应文本;
步骤5、搭建SVM模型对文本数据进行二分类,具体步骤如下:
步骤5.1、对全部训练文档进行分词,分词方法采用jieba分词方法;
步骤5.2、分别统计正、负样本中出现的词语及其频率,然后过滤,剔除停用词和单字词;
步骤5.3、分别统计正、负样本中出现词语的词频,并取其中的若干个频率最高的词汇作为这一类别的高频词集;
步骤5.4、去除正、负样本中都出现的高频词,合并正负样本的高频词,得到总高频词集,即特征集合;
步骤5.5、将特征集合映射到词向量集合,利用该词向量集合训练SVM,得到训练模型;
步骤6、利用训练好的SVM完成对人机对话文本的输出值预测,如果SVM的预测值是正常文本,则对其进行响应,否则,放弃响应。
CN201810886913.6A 2018-08-06 2018-08-06 一种服务机器人语音识别方法 Active CN108847238B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810886913.6A CN108847238B (zh) 2018-08-06 2018-08-06 一种服务机器人语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810886913.6A CN108847238B (zh) 2018-08-06 2018-08-06 一种服务机器人语音识别方法

Publications (2)

Publication Number Publication Date
CN108847238A CN108847238A (zh) 2018-11-20
CN108847238B true CN108847238B (zh) 2022-09-16

Family

ID=64192736

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810886913.6A Active CN108847238B (zh) 2018-08-06 2018-08-06 一种服务机器人语音识别方法

Country Status (1)

Country Link
CN (1) CN108847238B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109658920B (zh) * 2018-12-18 2020-10-09 百度在线网络技术(北京)有限公司 用于生成模型的方法和装置
CN109801644B (zh) 2018-12-20 2021-03-09 北京达佳互联信息技术有限公司 混合声音信号的分离方法、装置、电子设备和可读介质
CN109920414A (zh) * 2019-01-17 2019-06-21 平安城市建设科技(深圳)有限公司 人机问答方法、装置、设备和存储介质
CN109920415A (zh) * 2019-01-17 2019-06-21 平安城市建设科技(深圳)有限公司 基于语音识别的人机问答方法、装置、设备和存储介质
CN110134952B (zh) * 2019-04-29 2020-03-31 华南师范大学 一种错误文本拒识方法、装置及存储介质
CN110246512B (zh) * 2019-05-30 2023-05-26 平安科技(深圳)有限公司 声音分离方法、装置及计算机可读存储介质
CN110491406B (zh) * 2019-09-25 2020-07-31 电子科技大学 一种多模块抑制不同种类噪声的双噪声语音增强方法
CN111341341B (zh) * 2020-02-11 2021-08-17 腾讯科技(深圳)有限公司 音频分离网络的训练方法、音频分离方法、装置及介质
CN111464701B (zh) * 2020-03-12 2021-05-07 云知声智能科技股份有限公司 一种对机器人外呼电话系统进行模拟多轮测试方法及装置
CN111405122B (zh) * 2020-03-18 2021-09-24 苏州科达科技股份有限公司 音频通话测试方法、装置及存储介质
CN111611566B (zh) * 2020-05-12 2023-09-05 珠海造极智能生物科技有限公司 一种说话人验证系统及其重放攻击检测方法
CN111883175B (zh) * 2020-06-09 2022-06-07 河北悦舒诚信息科技有限公司 一种基于声纹库的油站服务质量提升方法
CN112508121B (zh) * 2020-12-22 2024-03-22 南京大学 一种工业机器人感知外界的方法和系统
CN115762513A (zh) * 2022-11-03 2023-03-07 深圳市品声科技有限公司 一种语音控制的分体式的无线音频通讯方法及系统

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103336766B (zh) * 2013-07-04 2016-12-28 微梦创科网络科技(中国)有限公司 短文本垃圾识别以及建模方法和装置
US20160189730A1 (en) * 2014-12-30 2016-06-30 Iflytek Co., Ltd. Speech separation method and system
US9818431B2 (en) * 2015-12-21 2017-11-14 Microsoft Technoloogy Licensing, LLC Multi-speaker speech separation
EP3469584B1 (en) * 2016-06-14 2023-04-19 The Trustees of Columbia University in the City of New York Neural decoding of attentional selection in multi-speaker environments
RU2635257C1 (ru) * 2016-07-28 2017-11-09 Общество с ограниченной ответственностью "Аби Продакшн" Сентиментный анализ на уровне аспектов и создание отчетов с использованием методов машинного обучения
CN109062404B (zh) * 2018-07-20 2020-03-24 东北大学 一种应用于智能儿童早教机的交互系统及方法
CN110164469B (zh) * 2018-08-09 2023-03-10 腾讯科技(深圳)有限公司 一种多人语音的分离方法和装置
CN109801644B (zh) * 2018-12-20 2021-03-09 北京达佳互联信息技术有限公司 混合声音信号的分离方法、装置、电子设备和可读介质

Also Published As

Publication number Publication date
CN108847238A (zh) 2018-11-20

Similar Documents

Publication Publication Date Title
CN108847238B (zh) 一种服务机器人语音识别方法
CN109800700B (zh) 一种基于深度学习的水下声信号目标分类识别方法
CN103489454B (zh) 基于波形形态特征聚类的语音端点检测方法
CN109767785A (zh) 基于卷积神经网络的环境噪声识别分类方法
CN110120227A (zh) 一种深度堆叠残差网络的语音分离方法
CN103065629A (zh) 一种仿人机器人的语音识别系统
CN105206270A (zh) 一种组合pca和rbm的孤立数字语音识别分类系统及方法
CN101366078A (zh) 从单音音频信号分离音频信源的神经网络分类器
CN112017682B (zh) 一种单通道语音同时降噪和去混响系统
CN108922513A (zh) 语音区分方法、装置、计算机设备及存储介质
CN105225672B (zh) 融合基频信息的双麦克风定向噪音抑制的系统及方法
CN110197665A (zh) 一种用于公安刑侦监听的语音分离与跟踪方法
CN110544482B (zh) 一种单通道语音分离系统
Maheswari et al. A hybrid model of neural network approach for speaker independent word recognition
CN107785028A (zh) 基于信号自相关的语音降噪方法及装置
CN110189746A (zh) 一种应用于地空通信的话音识别方法
CN109036470A (zh) 语音区分方法、装置、计算机设备及存储介质
Hou et al. Domain adversarial training for speech enhancement
Zhu et al. A comparison of handcrafted, parameterized, and learnable features for speech separation
CN206781702U (zh) 一种基于量子神经网络的语音识别汽车防盗系统
CN112927723A (zh) 基于深度神经网络的高性能抗噪语音情感识别方法
WO2023070874A1 (zh) 一种声纹识别方法
Jayanth et al. Speaker Identification based on GFCC using GMM-UBM
Xiang et al. Speech enhancement via generative adversarial LSTM networks
CN113470652A (zh) 一种基于工业互联网的语音识别及处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant