CN113838455A - 一种具有语音降噪功能的鼠标 - Google Patents

一种具有语音降噪功能的鼠标 Download PDF

Info

Publication number
CN113838455A
CN113838455A CN202111039117.7A CN202111039117A CN113838455A CN 113838455 A CN113838455 A CN 113838455A CN 202111039117 A CN202111039117 A CN 202111039117A CN 113838455 A CN113838455 A CN 113838455A
Authority
CN
China
Prior art keywords
voice
module
noise
matrix
mouse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111039117.7A
Other languages
English (en)
Inventor
马冰
马升
朱国正
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Madao Information Technology Co ltd
Original Assignee
Hefei Madao Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Madao Information Technology Co ltd filed Critical Hefei Madao Information Technology Co ltd
Priority to CN202111039117.7A priority Critical patent/CN113838455A/zh
Publication of CN113838455A publication Critical patent/CN113838455A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/033Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明涉及语音降噪识别,具体涉及一种具有语音降噪功能的鼠标,包括设于鼠标内部的控制器,以及用于采集用户语音的语音采集模块,控制器通过语音增强单元对含噪语音进行语音增强,控制器通过降噪识别单元对增强后的语音进行语音识别,语音增强单元对含噪语音进行语音特征提取,并基于提取语音特征得到掩码,结合掩码及含噪语音进行解码,得到增强语音;降噪识别单元对增强语音提取特征向量矩阵,并基于训练好的级联卷积神经网络对增强语音进行语音识别,得到语音识别结果;本发明提供的技术方案能够有效克服现有技术所存在的与鼠标进行语音交互时语音识别准确率较低的缺陷。

Description

一种具有语音降噪功能的鼠标
技术领域
本发明涉及语音降噪识别,具体涉及一种具有语音降噪功能的鼠标。
背景技术
鼠标发明到现在已经有几十年历史,其作为一种计算机的人机交互设备被广泛应用。当前,鼠标的基本功能是用来控制光标移动,以及实现一些简单的按键功能,例如左键、右键、滚轮等,严重制约了鼠标的人机交互能力,所以人们开始设计一些具备更多功能的鼠标。
具备语音识别功能的鼠标具有较高的实用价值,在很多发明专利中也有相关设计方案,概括起来主要有三大类:一是利用语音识别技术来实现鼠标的功能,解决一些残疾人无法手动操作鼠标的问题,该方案不是扩展鼠标的使用功能,而是一种替代鼠标的操作方式;二是在鼠标上集成语音识别处理模块,依赖鼠标上的语音识别处理模块实现语音识别,从而达到语音控制鼠标的目的,受到语音识别处理模块本身计算能力的限制,在识别准确率方面都受到严重制约,这也严重影响了语音交互效果;三是利用语音识别技术与其它交互技术融合来解决人机交互问题。
从上述三种使得鼠标具备语音识别功能的技术方案来看,限制与鼠标之间语音交互的主要因素在于语音识别的准确率。受到语音识别模块本身算力以及外部噪声干扰的影响,与鼠标进行语音交互的效果较差,如何有效提高语音识别的准确率是当前在鼠标语音交互方面亟待解决的技术问题。
发明内容
(一)解决的技术问题
针对现有技术所存在的上述缺点,本发明提供了一种具有语音降噪功能的鼠标,能够有效克服现有技术所存在的与鼠标进行语音交互时语音识别准确率较低的缺陷。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
一种具有语音降噪功能的鼠标,包括设于鼠标内部的控制器,以及用于采集用户语音的语音采集模块,所述控制器通过语音增强单元对含噪语音进行语音增强,所述控制器通过降噪识别单元对增强后的语音进行语音识别;
所述语音增强单元对含噪语音进行语音特征提取,并基于提取语音特征得到掩码,结合掩码及含噪语音进行解码,得到增强语音;所述降噪识别单元对增强语音提取特征向量矩阵,并基于训练好的级联卷积神经网络对增强语音进行语音识别,得到语音识别结果。
优选地,所述语音增强单元包括第一特征提取模块、子带分割模块、掩码生成模型训练模块、掩码生成模块和语音解码模块;
第一特征提取模块,提取含噪语音中的语音特征;
子带分割模块,将含噪语音的频域划分为多个子带;
掩码生成模型训练模块,构建用于对频域划分为多个子带的含噪语音生成掩码的掩码生成模型,并对掩码生成模型进行模型训练;
掩码生成模块,将提取的语音特征输入训练好的掩码生成模型,以得到代表各子带增益的多维掩码;
语音解码模块,利用时域解码器对多维掩码、含噪语音进行解码,得到增强语音。
优选地,所述语音解码模块将多维掩码、含噪语音输入时域解码器,利用时域解码器对含噪语音在不同子带上对应的掩码进行滤波,得到增强语音。
优选地,所述时域解码器为IIR带通滤波器或FIR滤波器。
优选地,所述第一特征提取模块对含噪语音进行预加重、分帧、加窗以及短时傅里叶变换得到语音特征。
优选地,所述降噪识别单元包括第二特征提取模块、高维特征矩阵生成模块、噪声判断模块、噪声分类模块、分类系数矩阵生成模块、特征矩阵生成模块和语音识别模块;
第二特征提取模块,用于对增强语音进行特征提取,得到包含噪声的特征向量矩阵;
高维特征矩阵生成模块,将特征向量矩阵输入级联卷积神经网络,得到高维特征矩阵;
噪声判断模块,基于高维特征矩阵在全连接层判断是否为噪声;
噪声分类模块,基于高维特征矩阵在全连接层根据噪声分类标准判断噪声种类;
分类系数矩阵生成模块,根据噪声种类和预设各种类噪声的分类系数矩阵,得到特征向量矩阵对应的分类系数矩阵;
特征矩阵生成模块,对噪声种类和特征向量矩阵对应的分类系数矩阵进行运算,得到特征向量矩阵对应的特征矩阵;
语音识别模块,将特征向量矩阵对应的分类系数矩阵、特征矩阵输入级联卷积神经网络进行语音识别,得到语音识别结果。
优选地,所述高维特征矩阵生成模块将特征向量矩阵输入第一级卷积神经网络,所述第一级卷积神经网络利用不同尺寸的卷积核对特征向量矩阵进行一维卷积,得到高维特征矩阵。
优选地,所述语音识别模块将特征向量矩阵对应的分类系数矩阵、特征矩阵输入第二级卷积神经网络,得到特征向量矩阵对应的音频概率,所述语音识别模块使用解码图对最大音频概率对应的音频进行解码,得到语音识别结果。
优选地,所述第一级卷积神经网络、第二级卷积神经网络中均包含有残差网络,所述第二级卷积神经网络为包含注意力机制的卷积神经网络。
优选地,所述第二特征提取模块对增强语音进行预加重、分帧、傅里叶变换以及FBANK特征提取,得到包含噪声的特征向量矩阵。
(三)有益效果
与现有技术相比,本发明所提供的一种具有语音降噪功能的鼠标,首先利用语音增强单元对含噪语音进行语音特征提取,并基于提取语音特征得到掩码,结合掩码及含噪语音进行解码,得到增强语音,能够对含噪语音进行初步降噪;通过降噪识别单元对增强语音提取特征向量矩阵,并基于训练好的级联卷积神经网络对增强语音进行语音识别,能够在语音识别过程中对增强语音进行再次降噪,通过两次降噪能够有效滤除用户语音中的噪声,从而有效提升语音识别的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的系统示意图;
图2为本发明中降噪识别单元对增强语音进行语音识别的流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种具有语音降噪功能的鼠标,如图1和图2所示,包括设于鼠标内部的控制器,以及用于采集用户语音的语音采集模块,控制器通过语音增强单元对含噪语音进行语音增强,控制器通过降噪识别单元对增强后的语音进行语音识别。
语音增强单元对含噪语音进行语音特征提取,并基于提取语音特征得到掩码,结合掩码及含噪语音进行解码,得到增强语音。
语音增强单元包括第一特征提取模块、子带分割模块、掩码生成模型训练模块、掩码生成模块和语音解码模块;
第一特征提取模块,提取含噪语音中的语音特征;
子带分割模块,将含噪语音的频域划分为多个子带;
掩码生成模型训练模块,构建用于对频域划分为多个子带的含噪语音生成掩码的掩码生成模型,并对掩码生成模型进行模型训练;
掩码生成模块,将提取的语音特征输入训练好的掩码生成模型,以得到代表各子带增益的多维掩码;
语音解码模块,利用时域解码器对多维掩码、含噪语音进行解码,得到增强语音。
其中,第一特征提取模块对含噪语音进行预加重、分帧、加窗以及短时傅里叶变换得到语音特征。
其中,语音解码模块将多维掩码、含噪语音输入时域解码器,利用时域解码器对含噪语音在不同子带上对应的掩码进行滤波,得到增强语音,语音解码模块所采用的时域解码器为IIR带通滤波器或FIR滤波器。
本申请技术方案中,语音增强单元首先提取含噪语音中的语音特征,并将含噪语音的频域划分为多个子带;同时构建用于对频域划分为多个子带的含噪语音生成掩码的掩码生成模型,并对掩码生成模型进行模型训练;再将提取的语音特征输入训练好的掩码生成模型,得到代表各子带增益的多维掩码;最后利用时域解码器对多维掩码、含噪语音进行解码,得到增强语音,实现了对含噪语音的初步降噪。
降噪识别单元对增强语音提取特征向量矩阵,并基于训练好的级联卷积神经网络对增强语音进行语音识别,得到语音识别结果。如图2所示,为降噪识别单元对增强语音进行语音识别的流程示意图。
降噪识别单元包括第二特征提取模块、高维特征矩阵生成模块、噪声判断模块、噪声分类模块、分类系数矩阵生成模块、特征矩阵生成模块和语音识别模块;
第二特征提取模块,用于对增强语音进行特征提取,得到包含噪声的特征向量矩阵;
高维特征矩阵生成模块,将特征向量矩阵输入级联卷积神经网络,得到高维特征矩阵;
噪声判断模块,基于高维特征矩阵在全连接层判断是否为噪声;
噪声分类模块,基于高维特征矩阵在全连接层根据噪声分类标准判断噪声种类;
分类系数矩阵生成模块,根据噪声种类和预设各种类噪声的分类系数矩阵,得到特征向量矩阵对应的分类系数矩阵;
特征矩阵生成模块,对噪声种类和特征向量矩阵对应的分类系数矩阵进行运算,得到特征向量矩阵对应的特征矩阵;
语音识别模块,将特征向量矩阵对应的分类系数矩阵、特征矩阵输入级联卷积神经网络进行语音识别,得到语音识别结果。
其中,第二特征提取模块对增强语音进行预加重、分帧、傅里叶变换以及FBANK特征提取,得到包含噪声的特征向量矩阵。
其中,高维特征矩阵生成模块将特征向量矩阵输入第一级卷积神经网络,第一级卷积神经网络利用不同尺寸的卷积核对特征向量矩阵进行一维卷积,得到高维特征矩阵。
其中,语音识别模块将特征向量矩阵对应的分类系数矩阵、特征矩阵输入第二级卷积神经网络,得到特征向量矩阵对应的音频概率,语音识别模块使用解码图对最大音频概率对应的音频进行解码,得到语音识别结果。
第一级卷积神经网络、第二级卷积神经网络中均包含有残差网络,第二级卷积神经网络为包含注意力机制的卷积神经网络。
本申请技术方案中,降噪识别单元通过对增强语音进行特征提取,得到包含噪声的特征向量矩阵,并且依据特征向量矩阵得到高维特征矩阵,再利用高维特征矩阵判断噪声种类,同时后续得到的分类系数矩阵、特征矩阵中均包含噪声信息,从而能够在语音识别过程中对增强语音进行再次降噪,通过两次降噪能够有效滤除用户语音中的噪声,有效提升语音识别的准确率。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不会使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种具有语音降噪功能的鼠标,其特征在于:包括设于鼠标内部的控制器,以及用于采集用户语音的语音采集模块,所述控制器通过语音增强单元对含噪语音进行语音增强,所述控制器通过降噪识别单元对增强后的语音进行语音识别;
所述语音增强单元对含噪语音进行语音特征提取,并基于提取语音特征得到掩码,结合掩码及含噪语音进行解码,得到增强语音;所述降噪识别单元对增强语音提取特征向量矩阵,并基于训练好的级联卷积神经网络对增强语音进行语音识别,得到语音识别结果。
2.根据权利要求1所述的具有语音降噪功能的鼠标,其特征在于:所述语音增强单元包括第一特征提取模块、子带分割模块、掩码生成模型训练模块、掩码生成模块和语音解码模块;
第一特征提取模块,提取含噪语音中的语音特征;
子带分割模块,将含噪语音的频域划分为多个子带;
掩码生成模型训练模块,构建用于对频域划分为多个子带的含噪语音生成掩码的掩码生成模型,并对掩码生成模型进行模型训练;
掩码生成模块,将提取的语音特征输入训练好的掩码生成模型,以得到代表各子带增益的多维掩码;
语音解码模块,利用时域解码器对多维掩码、含噪语音进行解码,得到增强语音。
3.根据权利要求2所述的具有语音降噪功能的鼠标,其特征在于:所述语音解码模块将多维掩码、含噪语音输入时域解码器,利用时域解码器对含噪语音在不同子带上对应的掩码进行滤波,得到增强语音。
4.根据权利要求3所述的具有语音降噪功能的鼠标,其特征在于:所述时域解码器为IIR带通滤波器或FIR滤波器。
5.根据权利要求2或3所述的具有语音降噪功能的鼠标,其特征在于:所述第一特征提取模块对含噪语音进行预加重、分帧、加窗以及短时傅里叶变换得到语音特征。
6.根据权利要求1所述的具有语音降噪功能的鼠标,其特征在于:所述降噪识别单元包括第二特征提取模块、高维特征矩阵生成模块、噪声判断模块、噪声分类模块、分类系数矩阵生成模块、特征矩阵生成模块和语音识别模块;
第二特征提取模块,用于对增强语音进行特征提取,得到包含噪声的特征向量矩阵;
高维特征矩阵生成模块,将特征向量矩阵输入级联卷积神经网络,得到高维特征矩阵;
噪声判断模块,基于高维特征矩阵在全连接层判断是否为噪声;
噪声分类模块,基于高维特征矩阵在全连接层根据噪声分类标准判断噪声种类;
分类系数矩阵生成模块,根据噪声种类和预设各种类噪声的分类系数矩阵,得到特征向量矩阵对应的分类系数矩阵;
特征矩阵生成模块,对噪声种类和特征向量矩阵对应的分类系数矩阵进行运算,得到特征向量矩阵对应的特征矩阵;
语音识别模块,将特征向量矩阵对应的分类系数矩阵、特征矩阵输入级联卷积神经网络进行语音识别,得到语音识别结果。
7.根据权利要求6所述的具有语音降噪功能的鼠标,其特征在于:所述高维特征矩阵生成模块将特征向量矩阵输入第一级卷积神经网络,所述第一级卷积神经网络利用不同尺寸的卷积核对特征向量矩阵进行一维卷积,得到高维特征矩阵。
8.根据权利要求7所述的具有语音降噪功能的鼠标,其特征在于:所述语音识别模块将特征向量矩阵对应的分类系数矩阵、特征矩阵输入第二级卷积神经网络,得到特征向量矩阵对应的音频概率,所述语音识别模块使用解码图对最大音频概率对应的音频进行解码,得到语音识别结果。
9.根据权利要求8所述的具有语音降噪功能的鼠标,其特征在于:所述第一级卷积神经网络、第二级卷积神经网络中均包含有残差网络,所述第二级卷积神经网络为包含注意力机制的卷积神经网络。
10.根据权利要求6-9中任意一项所述的具有语音降噪功能的鼠标,其特征在于:所述第二特征提取模块对增强语音进行预加重、分帧、傅里叶变换以及FBANK特征提取,得到包含噪声的特征向量矩阵。
CN202111039117.7A 2021-09-06 2021-09-06 一种具有语音降噪功能的鼠标 Pending CN113838455A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111039117.7A CN113838455A (zh) 2021-09-06 2021-09-06 一种具有语音降噪功能的鼠标

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111039117.7A CN113838455A (zh) 2021-09-06 2021-09-06 一种具有语音降噪功能的鼠标

Publications (1)

Publication Number Publication Date
CN113838455A true CN113838455A (zh) 2021-12-24

Family

ID=78962291

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111039117.7A Pending CN113838455A (zh) 2021-09-06 2021-09-06 一种具有语音降噪功能的鼠标

Country Status (1)

Country Link
CN (1) CN113838455A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118098237A (zh) * 2024-04-24 2024-05-28 武汉攀升鼎承科技有限公司 智能语音鼠标的控制方法及智能语音鼠标

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108615535A (zh) * 2018-05-07 2018-10-02 腾讯科技(深圳)有限公司 语音增强方法、装置、智能语音设备和计算机设备
CN111326168A (zh) * 2020-03-25 2020-06-23 合肥讯飞数码科技有限公司 语音分离方法、装置、电子设备和存储介质
CN113096682A (zh) * 2021-03-20 2021-07-09 杭州知存智能科技有限公司 基于掩码时域解码器的实时语音降噪方法和装置
CN113113041A (zh) * 2021-04-29 2021-07-13 电子科技大学 一种基于时频跨域特征选择的语音分离方法
CN113205803A (zh) * 2021-04-22 2021-08-03 上海顺久电子科技有限公司 一种具有自适应降噪能力的语音识别方法及装置
US20210272573A1 (en) * 2020-02-29 2021-09-02 Robert Bosch Gmbh System for end-to-end speech separation using squeeze and excitation dilated convolutional neural networks

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108615535A (zh) * 2018-05-07 2018-10-02 腾讯科技(深圳)有限公司 语音增强方法、装置、智能语音设备和计算机设备
US20210272573A1 (en) * 2020-02-29 2021-09-02 Robert Bosch Gmbh System for end-to-end speech separation using squeeze and excitation dilated convolutional neural networks
CN111326168A (zh) * 2020-03-25 2020-06-23 合肥讯飞数码科技有限公司 语音分离方法、装置、电子设备和存储介质
CN113096682A (zh) * 2021-03-20 2021-07-09 杭州知存智能科技有限公司 基于掩码时域解码器的实时语音降噪方法和装置
CN113205803A (zh) * 2021-04-22 2021-08-03 上海顺久电子科技有限公司 一种具有自适应降噪能力的语音识别方法及装置
CN113113041A (zh) * 2021-04-29 2021-07-13 电子科技大学 一种基于时频跨域特征选择的语音分离方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118098237A (zh) * 2024-04-24 2024-05-28 武汉攀升鼎承科技有限公司 智能语音鼠标的控制方法及智能语音鼠标

Similar Documents

Publication Publication Date Title
CN106486130B (zh) 噪声消除、语音识别方法及装置
CN106971741B (zh) 实时将语音进行分离的语音降噪的方法及系统
Xiang et al. A nested u-net with self-attention and dense connectivity for monaural speech enhancement
Xiao et al. Normalization of the speech modulation spectra for robust speech recognition
Zezario et al. Self-supervised denoising autoencoder with linear regression decoder for speech enhancement
WO2022141868A1 (zh) 一种提取语音特征的方法、装置、终端及存储介质
Gupta et al. Robust speech recognition using wavelet coefficient features
CN113077798B (zh) 一种居家老人呼救设备
Do et al. Speech source separation using variational autoencoder and bandpass filter
Min et al. Mask estimate through Itakura-Saito nonnegative RPCA for speech enhancement
Li et al. Deeplabv3+ vision transformer for visual bird sound denoising
Chao et al. Cross-domain single-channel speech enhancement model with bi-projection fusion module for noise-robust ASR
WO2021127990A1 (zh) 一种基于语音降噪的声纹识别方法和相关装置
CN110428841B (zh) 一种基于不定长均值的声纹动态特征提取方法
CN114360571A (zh) 基于参考的语音增强方法
Li et al. Improving speech recognition on noisy speech via speech enhancement with multi-discriminators CycleGAN
CN111681649B (zh) 语音识别方法、交互系统及包括该系统的成绩管理系统
CN113838455A (zh) 一种具有语音降噪功能的鼠标
CN113571074B (zh) 基于多波段结构时域音频分离网络的语音增强方法及装置
Hussain et al. A novel temporal attentive-pooling based convolutional recurrent architecture for acoustic signal enhancement
Wang et al. Robust speech recognition from ratio masks
CN115394310A (zh) 一种基于神经网络的背景人声去除方法及系统
TWI749547B (zh) 應用深度學習的語音增強系統
CN114822561A (zh) 一种声纹的特征提取方法及装置
Srinivasan et al. A supervised learning approach to uncertainty decoding for robust speech recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination