CN113838455A - 一种具有语音降噪功能的鼠标 - Google Patents
一种具有语音降噪功能的鼠标 Download PDFInfo
- Publication number
- CN113838455A CN113838455A CN202111039117.7A CN202111039117A CN113838455A CN 113838455 A CN113838455 A CN 113838455A CN 202111039117 A CN202111039117 A CN 202111039117A CN 113838455 A CN113838455 A CN 113838455A
- Authority
- CN
- China
- Prior art keywords
- voice
- module
- noise
- matrix
- mouse
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000011159 matrix material Substances 0.000 claims abstract description 98
- 230000009467 reduction Effects 0.000 claims abstract description 39
- 238000000605 extraction Methods 0.000 claims abstract description 23
- 238000013528 artificial neural network Methods 0.000 claims abstract description 11
- 238000013527 convolutional neural network Methods 0.000 claims description 21
- 238000012549 training Methods 0.000 claims description 10
- 239000000284 extract Substances 0.000 claims description 7
- 238000009432 framing Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 3
- 230000003993 interaction Effects 0.000 abstract description 10
- 230000007547 defect Effects 0.000 abstract description 3
- 241000699666 Mus <mouse, genus> Species 0.000 description 23
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000000034 method Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 241000699670 Mus sp. Species 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/03—Arrangements for converting the position or the displacement of a member into a coded form
- G06F3/033—Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明涉及语音降噪识别,具体涉及一种具有语音降噪功能的鼠标,包括设于鼠标内部的控制器,以及用于采集用户语音的语音采集模块,控制器通过语音增强单元对含噪语音进行语音增强,控制器通过降噪识别单元对增强后的语音进行语音识别,语音增强单元对含噪语音进行语音特征提取,并基于提取语音特征得到掩码,结合掩码及含噪语音进行解码,得到增强语音;降噪识别单元对增强语音提取特征向量矩阵,并基于训练好的级联卷积神经网络对增强语音进行语音识别,得到语音识别结果;本发明提供的技术方案能够有效克服现有技术所存在的与鼠标进行语音交互时语音识别准确率较低的缺陷。
Description
技术领域
本发明涉及语音降噪识别,具体涉及一种具有语音降噪功能的鼠标。
背景技术
鼠标发明到现在已经有几十年历史,其作为一种计算机的人机交互设备被广泛应用。当前,鼠标的基本功能是用来控制光标移动,以及实现一些简单的按键功能,例如左键、右键、滚轮等,严重制约了鼠标的人机交互能力,所以人们开始设计一些具备更多功能的鼠标。
具备语音识别功能的鼠标具有较高的实用价值,在很多发明专利中也有相关设计方案,概括起来主要有三大类:一是利用语音识别技术来实现鼠标的功能,解决一些残疾人无法手动操作鼠标的问题,该方案不是扩展鼠标的使用功能,而是一种替代鼠标的操作方式;二是在鼠标上集成语音识别处理模块,依赖鼠标上的语音识别处理模块实现语音识别,从而达到语音控制鼠标的目的,受到语音识别处理模块本身计算能力的限制,在识别准确率方面都受到严重制约,这也严重影响了语音交互效果;三是利用语音识别技术与其它交互技术融合来解决人机交互问题。
从上述三种使得鼠标具备语音识别功能的技术方案来看,限制与鼠标之间语音交互的主要因素在于语音识别的准确率。受到语音识别模块本身算力以及外部噪声干扰的影响,与鼠标进行语音交互的效果较差,如何有效提高语音识别的准确率是当前在鼠标语音交互方面亟待解决的技术问题。
发明内容
(一)解决的技术问题
针对现有技术所存在的上述缺点,本发明提供了一种具有语音降噪功能的鼠标,能够有效克服现有技术所存在的与鼠标进行语音交互时语音识别准确率较低的缺陷。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
一种具有语音降噪功能的鼠标,包括设于鼠标内部的控制器,以及用于采集用户语音的语音采集模块,所述控制器通过语音增强单元对含噪语音进行语音增强,所述控制器通过降噪识别单元对增强后的语音进行语音识别;
所述语音增强单元对含噪语音进行语音特征提取,并基于提取语音特征得到掩码,结合掩码及含噪语音进行解码,得到增强语音;所述降噪识别单元对增强语音提取特征向量矩阵,并基于训练好的级联卷积神经网络对增强语音进行语音识别,得到语音识别结果。
优选地,所述语音增强单元包括第一特征提取模块、子带分割模块、掩码生成模型训练模块、掩码生成模块和语音解码模块;
第一特征提取模块,提取含噪语音中的语音特征;
子带分割模块,将含噪语音的频域划分为多个子带;
掩码生成模型训练模块,构建用于对频域划分为多个子带的含噪语音生成掩码的掩码生成模型,并对掩码生成模型进行模型训练;
掩码生成模块,将提取的语音特征输入训练好的掩码生成模型,以得到代表各子带增益的多维掩码;
语音解码模块,利用时域解码器对多维掩码、含噪语音进行解码,得到增强语音。
优选地,所述语音解码模块将多维掩码、含噪语音输入时域解码器,利用时域解码器对含噪语音在不同子带上对应的掩码进行滤波,得到增强语音。
优选地,所述时域解码器为IIR带通滤波器或FIR滤波器。
优选地,所述第一特征提取模块对含噪语音进行预加重、分帧、加窗以及短时傅里叶变换得到语音特征。
优选地,所述降噪识别单元包括第二特征提取模块、高维特征矩阵生成模块、噪声判断模块、噪声分类模块、分类系数矩阵生成模块、特征矩阵生成模块和语音识别模块;
第二特征提取模块,用于对增强语音进行特征提取,得到包含噪声的特征向量矩阵;
高维特征矩阵生成模块,将特征向量矩阵输入级联卷积神经网络,得到高维特征矩阵;
噪声判断模块,基于高维特征矩阵在全连接层判断是否为噪声;
噪声分类模块,基于高维特征矩阵在全连接层根据噪声分类标准判断噪声种类;
分类系数矩阵生成模块,根据噪声种类和预设各种类噪声的分类系数矩阵,得到特征向量矩阵对应的分类系数矩阵;
特征矩阵生成模块,对噪声种类和特征向量矩阵对应的分类系数矩阵进行运算,得到特征向量矩阵对应的特征矩阵;
语音识别模块,将特征向量矩阵对应的分类系数矩阵、特征矩阵输入级联卷积神经网络进行语音识别,得到语音识别结果。
优选地,所述高维特征矩阵生成模块将特征向量矩阵输入第一级卷积神经网络,所述第一级卷积神经网络利用不同尺寸的卷积核对特征向量矩阵进行一维卷积,得到高维特征矩阵。
优选地,所述语音识别模块将特征向量矩阵对应的分类系数矩阵、特征矩阵输入第二级卷积神经网络,得到特征向量矩阵对应的音频概率,所述语音识别模块使用解码图对最大音频概率对应的音频进行解码,得到语音识别结果。
优选地,所述第一级卷积神经网络、第二级卷积神经网络中均包含有残差网络,所述第二级卷积神经网络为包含注意力机制的卷积神经网络。
优选地,所述第二特征提取模块对增强语音进行预加重、分帧、傅里叶变换以及FBANK特征提取,得到包含噪声的特征向量矩阵。
(三)有益效果
与现有技术相比,本发明所提供的一种具有语音降噪功能的鼠标,首先利用语音增强单元对含噪语音进行语音特征提取,并基于提取语音特征得到掩码,结合掩码及含噪语音进行解码,得到增强语音,能够对含噪语音进行初步降噪;通过降噪识别单元对增强语音提取特征向量矩阵,并基于训练好的级联卷积神经网络对增强语音进行语音识别,能够在语音识别过程中对增强语音进行再次降噪,通过两次降噪能够有效滤除用户语音中的噪声,从而有效提升语音识别的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的系统示意图;
图2为本发明中降噪识别单元对增强语音进行语音识别的流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种具有语音降噪功能的鼠标,如图1和图2所示,包括设于鼠标内部的控制器,以及用于采集用户语音的语音采集模块,控制器通过语音增强单元对含噪语音进行语音增强,控制器通过降噪识别单元对增强后的语音进行语音识别。
语音增强单元对含噪语音进行语音特征提取,并基于提取语音特征得到掩码,结合掩码及含噪语音进行解码,得到增强语音。
语音增强单元包括第一特征提取模块、子带分割模块、掩码生成模型训练模块、掩码生成模块和语音解码模块;
第一特征提取模块,提取含噪语音中的语音特征;
子带分割模块,将含噪语音的频域划分为多个子带;
掩码生成模型训练模块,构建用于对频域划分为多个子带的含噪语音生成掩码的掩码生成模型,并对掩码生成模型进行模型训练;
掩码生成模块,将提取的语音特征输入训练好的掩码生成模型,以得到代表各子带增益的多维掩码;
语音解码模块,利用时域解码器对多维掩码、含噪语音进行解码,得到增强语音。
其中,第一特征提取模块对含噪语音进行预加重、分帧、加窗以及短时傅里叶变换得到语音特征。
其中,语音解码模块将多维掩码、含噪语音输入时域解码器,利用时域解码器对含噪语音在不同子带上对应的掩码进行滤波,得到增强语音,语音解码模块所采用的时域解码器为IIR带通滤波器或FIR滤波器。
本申请技术方案中,语音增强单元首先提取含噪语音中的语音特征,并将含噪语音的频域划分为多个子带;同时构建用于对频域划分为多个子带的含噪语音生成掩码的掩码生成模型,并对掩码生成模型进行模型训练;再将提取的语音特征输入训练好的掩码生成模型,得到代表各子带增益的多维掩码;最后利用时域解码器对多维掩码、含噪语音进行解码,得到增强语音,实现了对含噪语音的初步降噪。
降噪识别单元对增强语音提取特征向量矩阵,并基于训练好的级联卷积神经网络对增强语音进行语音识别,得到语音识别结果。如图2所示,为降噪识别单元对增强语音进行语音识别的流程示意图。
降噪识别单元包括第二特征提取模块、高维特征矩阵生成模块、噪声判断模块、噪声分类模块、分类系数矩阵生成模块、特征矩阵生成模块和语音识别模块;
第二特征提取模块,用于对增强语音进行特征提取,得到包含噪声的特征向量矩阵;
高维特征矩阵生成模块,将特征向量矩阵输入级联卷积神经网络,得到高维特征矩阵;
噪声判断模块,基于高维特征矩阵在全连接层判断是否为噪声;
噪声分类模块,基于高维特征矩阵在全连接层根据噪声分类标准判断噪声种类;
分类系数矩阵生成模块,根据噪声种类和预设各种类噪声的分类系数矩阵,得到特征向量矩阵对应的分类系数矩阵;
特征矩阵生成模块,对噪声种类和特征向量矩阵对应的分类系数矩阵进行运算,得到特征向量矩阵对应的特征矩阵;
语音识别模块,将特征向量矩阵对应的分类系数矩阵、特征矩阵输入级联卷积神经网络进行语音识别,得到语音识别结果。
其中,第二特征提取模块对增强语音进行预加重、分帧、傅里叶变换以及FBANK特征提取,得到包含噪声的特征向量矩阵。
其中,高维特征矩阵生成模块将特征向量矩阵输入第一级卷积神经网络,第一级卷积神经网络利用不同尺寸的卷积核对特征向量矩阵进行一维卷积,得到高维特征矩阵。
其中,语音识别模块将特征向量矩阵对应的分类系数矩阵、特征矩阵输入第二级卷积神经网络,得到特征向量矩阵对应的音频概率,语音识别模块使用解码图对最大音频概率对应的音频进行解码,得到语音识别结果。
第一级卷积神经网络、第二级卷积神经网络中均包含有残差网络,第二级卷积神经网络为包含注意力机制的卷积神经网络。
本申请技术方案中,降噪识别单元通过对增强语音进行特征提取,得到包含噪声的特征向量矩阵,并且依据特征向量矩阵得到高维特征矩阵,再利用高维特征矩阵判断噪声种类,同时后续得到的分类系数矩阵、特征矩阵中均包含噪声信息,从而能够在语音识别过程中对增强语音进行再次降噪,通过两次降噪能够有效滤除用户语音中的噪声,有效提升语音识别的准确率。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不会使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种具有语音降噪功能的鼠标,其特征在于:包括设于鼠标内部的控制器,以及用于采集用户语音的语音采集模块,所述控制器通过语音增强单元对含噪语音进行语音增强,所述控制器通过降噪识别单元对增强后的语音进行语音识别;
所述语音增强单元对含噪语音进行语音特征提取,并基于提取语音特征得到掩码,结合掩码及含噪语音进行解码,得到增强语音;所述降噪识别单元对增强语音提取特征向量矩阵,并基于训练好的级联卷积神经网络对增强语音进行语音识别,得到语音识别结果。
2.根据权利要求1所述的具有语音降噪功能的鼠标,其特征在于:所述语音增强单元包括第一特征提取模块、子带分割模块、掩码生成模型训练模块、掩码生成模块和语音解码模块;
第一特征提取模块,提取含噪语音中的语音特征;
子带分割模块,将含噪语音的频域划分为多个子带;
掩码生成模型训练模块,构建用于对频域划分为多个子带的含噪语音生成掩码的掩码生成模型,并对掩码生成模型进行模型训练;
掩码生成模块,将提取的语音特征输入训练好的掩码生成模型,以得到代表各子带增益的多维掩码;
语音解码模块,利用时域解码器对多维掩码、含噪语音进行解码,得到增强语音。
3.根据权利要求2所述的具有语音降噪功能的鼠标,其特征在于:所述语音解码模块将多维掩码、含噪语音输入时域解码器,利用时域解码器对含噪语音在不同子带上对应的掩码进行滤波,得到增强语音。
4.根据权利要求3所述的具有语音降噪功能的鼠标,其特征在于:所述时域解码器为IIR带通滤波器或FIR滤波器。
5.根据权利要求2或3所述的具有语音降噪功能的鼠标,其特征在于:所述第一特征提取模块对含噪语音进行预加重、分帧、加窗以及短时傅里叶变换得到语音特征。
6.根据权利要求1所述的具有语音降噪功能的鼠标,其特征在于:所述降噪识别单元包括第二特征提取模块、高维特征矩阵生成模块、噪声判断模块、噪声分类模块、分类系数矩阵生成模块、特征矩阵生成模块和语音识别模块;
第二特征提取模块,用于对增强语音进行特征提取,得到包含噪声的特征向量矩阵;
高维特征矩阵生成模块,将特征向量矩阵输入级联卷积神经网络,得到高维特征矩阵;
噪声判断模块,基于高维特征矩阵在全连接层判断是否为噪声;
噪声分类模块,基于高维特征矩阵在全连接层根据噪声分类标准判断噪声种类;
分类系数矩阵生成模块,根据噪声种类和预设各种类噪声的分类系数矩阵,得到特征向量矩阵对应的分类系数矩阵;
特征矩阵生成模块,对噪声种类和特征向量矩阵对应的分类系数矩阵进行运算,得到特征向量矩阵对应的特征矩阵;
语音识别模块,将特征向量矩阵对应的分类系数矩阵、特征矩阵输入级联卷积神经网络进行语音识别,得到语音识别结果。
7.根据权利要求6所述的具有语音降噪功能的鼠标,其特征在于:所述高维特征矩阵生成模块将特征向量矩阵输入第一级卷积神经网络,所述第一级卷积神经网络利用不同尺寸的卷积核对特征向量矩阵进行一维卷积,得到高维特征矩阵。
8.根据权利要求7所述的具有语音降噪功能的鼠标,其特征在于:所述语音识别模块将特征向量矩阵对应的分类系数矩阵、特征矩阵输入第二级卷积神经网络,得到特征向量矩阵对应的音频概率,所述语音识别模块使用解码图对最大音频概率对应的音频进行解码,得到语音识别结果。
9.根据权利要求8所述的具有语音降噪功能的鼠标,其特征在于:所述第一级卷积神经网络、第二级卷积神经网络中均包含有残差网络,所述第二级卷积神经网络为包含注意力机制的卷积神经网络。
10.根据权利要求6-9中任意一项所述的具有语音降噪功能的鼠标,其特征在于:所述第二特征提取模块对增强语音进行预加重、分帧、傅里叶变换以及FBANK特征提取,得到包含噪声的特征向量矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111039117.7A CN113838455A (zh) | 2021-09-06 | 2021-09-06 | 一种具有语音降噪功能的鼠标 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111039117.7A CN113838455A (zh) | 2021-09-06 | 2021-09-06 | 一种具有语音降噪功能的鼠标 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113838455A true CN113838455A (zh) | 2021-12-24 |
Family
ID=78962291
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111039117.7A Pending CN113838455A (zh) | 2021-09-06 | 2021-09-06 | 一种具有语音降噪功能的鼠标 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113838455A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118098237A (zh) * | 2024-04-24 | 2024-05-28 | 武汉攀升鼎承科技有限公司 | 智能语音鼠标的控制方法及智能语音鼠标 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108615535A (zh) * | 2018-05-07 | 2018-10-02 | 腾讯科技(深圳)有限公司 | 语音增强方法、装置、智能语音设备和计算机设备 |
CN111326168A (zh) * | 2020-03-25 | 2020-06-23 | 合肥讯飞数码科技有限公司 | 语音分离方法、装置、电子设备和存储介质 |
CN113096682A (zh) * | 2021-03-20 | 2021-07-09 | 杭州知存智能科技有限公司 | 基于掩码时域解码器的实时语音降噪方法和装置 |
CN113113041A (zh) * | 2021-04-29 | 2021-07-13 | 电子科技大学 | 一种基于时频跨域特征选择的语音分离方法 |
CN113205803A (zh) * | 2021-04-22 | 2021-08-03 | 上海顺久电子科技有限公司 | 一种具有自适应降噪能力的语音识别方法及装置 |
US20210272573A1 (en) * | 2020-02-29 | 2021-09-02 | Robert Bosch Gmbh | System for end-to-end speech separation using squeeze and excitation dilated convolutional neural networks |
-
2021
- 2021-09-06 CN CN202111039117.7A patent/CN113838455A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108615535A (zh) * | 2018-05-07 | 2018-10-02 | 腾讯科技(深圳)有限公司 | 语音增强方法、装置、智能语音设备和计算机设备 |
US20210272573A1 (en) * | 2020-02-29 | 2021-09-02 | Robert Bosch Gmbh | System for end-to-end speech separation using squeeze and excitation dilated convolutional neural networks |
CN111326168A (zh) * | 2020-03-25 | 2020-06-23 | 合肥讯飞数码科技有限公司 | 语音分离方法、装置、电子设备和存储介质 |
CN113096682A (zh) * | 2021-03-20 | 2021-07-09 | 杭州知存智能科技有限公司 | 基于掩码时域解码器的实时语音降噪方法和装置 |
CN113205803A (zh) * | 2021-04-22 | 2021-08-03 | 上海顺久电子科技有限公司 | 一种具有自适应降噪能力的语音识别方法及装置 |
CN113113041A (zh) * | 2021-04-29 | 2021-07-13 | 电子科技大学 | 一种基于时频跨域特征选择的语音分离方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118098237A (zh) * | 2024-04-24 | 2024-05-28 | 武汉攀升鼎承科技有限公司 | 智能语音鼠标的控制方法及智能语音鼠标 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106486130B (zh) | 噪声消除、语音识别方法及装置 | |
CN106971741B (zh) | 实时将语音进行分离的语音降噪的方法及系统 | |
Xiang et al. | A nested u-net with self-attention and dense connectivity for monaural speech enhancement | |
Xiao et al. | Normalization of the speech modulation spectra for robust speech recognition | |
Zezario et al. | Self-supervised denoising autoencoder with linear regression decoder for speech enhancement | |
WO2022141868A1 (zh) | 一种提取语音特征的方法、装置、终端及存储介质 | |
Gupta et al. | Robust speech recognition using wavelet coefficient features | |
CN113077798B (zh) | 一种居家老人呼救设备 | |
Do et al. | Speech source separation using variational autoencoder and bandpass filter | |
Min et al. | Mask estimate through Itakura-Saito nonnegative RPCA for speech enhancement | |
Li et al. | Deeplabv3+ vision transformer for visual bird sound denoising | |
Chao et al. | Cross-domain single-channel speech enhancement model with bi-projection fusion module for noise-robust ASR | |
WO2021127990A1 (zh) | 一种基于语音降噪的声纹识别方法和相关装置 | |
CN110428841B (zh) | 一种基于不定长均值的声纹动态特征提取方法 | |
CN114360571A (zh) | 基于参考的语音增强方法 | |
Li et al. | Improving speech recognition on noisy speech via speech enhancement with multi-discriminators CycleGAN | |
CN111681649B (zh) | 语音识别方法、交互系统及包括该系统的成绩管理系统 | |
CN113838455A (zh) | 一种具有语音降噪功能的鼠标 | |
CN113571074B (zh) | 基于多波段结构时域音频分离网络的语音增强方法及装置 | |
Hussain et al. | A novel temporal attentive-pooling based convolutional recurrent architecture for acoustic signal enhancement | |
Wang et al. | Robust speech recognition from ratio masks | |
CN115394310A (zh) | 一种基于神经网络的背景人声去除方法及系统 | |
TWI749547B (zh) | 應用深度學習的語音增強系統 | |
CN114822561A (zh) | 一种声纹的特征提取方法及装置 | |
Srinivasan et al. | A supervised learning approach to uncertainty decoding for robust speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |