CN111862978A - 一种基于改进mfcc系数的语音唤醒方法及系统 - Google Patents
一种基于改进mfcc系数的语音唤醒方法及系统 Download PDFInfo
- Publication number
- CN111862978A CN111862978A CN202010748944.2A CN202010748944A CN111862978A CN 111862978 A CN111862978 A CN 111862978A CN 202010748944 A CN202010748944 A CN 202010748944A CN 111862978 A CN111862978 A CN 111862978A
- Authority
- CN
- China
- Prior art keywords
- mfcc
- voice
- coefficient
- mel
- voice signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 239000011159 matrix material Substances 0.000 claims abstract description 12
- 238000001228 spectrum Methods 0.000 claims description 35
- 238000004458 analytical method Methods 0.000 claims description 14
- 238000001914 filtration Methods 0.000 claims description 8
- 238000009432 framing Methods 0.000 claims description 8
- 239000008186 active pharmaceutical agent Substances 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 5
- 238000003780 insertion Methods 0.000 claims description 2
- 230000037431 insertion Effects 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 abstract description 5
- 238000013527 convolutional neural network Methods 0.000 abstract description 2
- 238000001514 detection method Methods 0.000 description 5
- 230000009466 transformation Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000037007 arousal Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Abstract
本发明涉及一种基于改进MFCC系数的语音唤醒方法及系统,所述方法包括:获取连续的语音信号;对所述语音信号进行预加重;对预加重后的语音信号加入带有代表能量信息的MFCC第0个系数,得到FBE‑MFCC;将由FBE‑MFCC特征值组成的矩阵输入到DSCNN网络通过卷积核进行卷积,得到语音唤醒识别率。本发明中的基于改进MFCC系数的算法与深度可分离卷积神经网络DSCNN的硬件结构电路相结合,对一个词或者两个词来进行语音唤醒的检测。与传统的MFCC计算(不考虑第0系数)相比较,系统对于一个词/两个词的准确识别率大大提高。
Description
技术领域
本发明涉及语音唤醒领域,特别是涉及一种基于改进MFCC系数的语音唤醒方法及系统。
背景技术
MFCC电路用于语音系统中进行语音特征提取。通常,传统的MFCC计算不考虑第0系数,因为它被认为有些不可靠。传统MFCC计算过程中只保留DCT变换后的去除MFCC(0)的前13个系数。实际上第0个系数可以看作是被分析信号中每个频带的平均能量的集合。在倒谱的基础上加入能量信息作为模型特征可以提高系统性能。
MFCC(0)即频带能量(FBE)信息,无论语音环境是高质量的还是不利的,都有必要将其包含在MFCC中,称之为FBE-MFCC,以区别于传统的MFCC。考虑滤波器是否重叠会有很大的区别,重叠滤波器总是能达到较高的命中率。
我们将基于改进MFCC系数的算法与深度可分离卷积神经网络(DSCNN)的硬件结构电路相结合,然后对一个词或者两个词来进行语音唤醒的检测。与传统的MFCC计算(不考虑第0系数)相比较,系统对于一个词/两个词的准确识别率有所提高。
发明内容
本发明的目的是提供一种基于改进MFCC系数的语音唤醒方法及系统,能够提高词的识别率,降低误检率。
为实现上述目的,本发明提供了如下方案:
一种基于改进MFCC系数的语音唤醒方法,所述方法包括:
获取连续的语音信号;
对所述语音信号进行预加重;
对预加重后的语音信号加入带有代表能量信息的MFCC第0个系数,得到FBE-MFCC;
将由FBE-MFCC特征值组成的矩阵输入到DSCNN网络通过卷积核进行卷积,得到语音唤醒识别率。
可选的,对所述语音信号进行预加重具体包括:
采用高通滤波器对所述语音信号进行滤波;
对滤波后的语音信号进行分帧;
对分帧后的语音信号乘以汉明窗;
对乘以汉明窗后的语音信号通过快速傅里叶变换得到信号在频域上的频谱;
将所述频谱通过Mel滤波器组得到Mel谱;
对所述Mel谱进行倒谱分析,得到Mel频率倒谱系数MFCC。
可选的,对所述Mel谱进行倒谱分析,得到Mel频率倒谱系数MFCC具体包括:
对Mel谱取对数,通过离散余弦DCT变换,取DCT后得到的系数作为MFCC系数。
可选的,所述DSCNN网络包括4层,分别为Conv、DS卷积、Pooling以及FC。
本发明另外提供一种基于改进MFCC系数的语音唤醒系统,所述系统包括:
语音信号获取模块,用于获取连续的语音信号;
预加重模块,用于对所述语音信号进行预加重;
0系数插入模块,用于对预加重后的语音信号加入带有代表能量信息的MFCC第0个系数,得到FBE-MFCC;
语音唤醒识别率确定模块,用于将由FBE-MFCC特征值组成的矩阵输入到DSCNN网络通过卷积核进行卷积,得到语音唤醒识别率。
可选的,所述预加重模块具体包括:
滤波单元,用于采用高通滤波器对所述语音信号进行滤波;
分帧单元,用于对滤波后的语音信号进行分帧;
计算单元,用于对分帧后的语音信号乘以汉明窗;
傅里叶变换单元,用于对乘以汉明窗后的语音信号通过快速傅里叶变换得到信号在频域上的频谱;
Mel谱确定单元,用于将所述频谱通过Mel滤波器组得到Mel谱;
倒谱分析单元,用于对所述Mel谱进行倒谱分析,得到Mel频率倒谱系数MFCC。
可选的,所述倒谱分析单元具体包括:
对Mel谱取对数,通过离散余弦DCT变换,取DCT后得到的系数作为MFCC系数。
可选的,所述DSCNN网络包括4层,分别为Conv、DS卷积、Pooling以及FC。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明通过获取连续的语音信号;对所述语音信号进行预加重;对预加重后的语音信号加入带有代表能量信息的MFCC第0个系数,得到FBE-MFCC;将由FBE-MFCC特征值组成的矩阵输入到DSCNN网络通过卷积核进行卷积,得到语音唤醒识别率。本发明与传统的不保留MFCC(0)相比,具有低功耗,低计算的特点,FBE较好的原因是FBE包含了多个频段的能量信息。对于高质量的环境(例如与863数据库相似的环境),FBE-MFCC和DSCNN的组合是最好的,语音唤醒的检测发现对于一个词/两个词的识别率显著提高,内存和逻辑的功耗显著降低。我们运算在30min语音时长下得到由填充词、两个关键字和白噪声组成的1200个单词随机串联而成的假拒绝率(FRR)和虚警率(FAR)显示误检目标数量所占比例显著下降。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例基于改进MFCC系数的语音唤醒方法流程图;
图2为本发明实施例基于改进MFCC系数的语音唤醒结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于改进MFCC系数的语音唤醒方法及系统,能够提高词的识别率,降低误检率。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明实施例一种基于改进MFCC系数的语音唤醒方法流程图,如图1所示,所述方法包括:
步骤101:获取连续的语音信号。
步骤102:对所述语音信号进行预加重。
具体包括:
步骤1021:采用高通滤波器对所述语音信号进行滤波。
其中,滤波是将语音信号通过一个高通滤波器提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱。
步骤1022:对滤波后的语音信号进行分帧。
将输入的N个信号点集合在一起,称为帧,N的值一般为256,相邻两帧要有一定的重叠区域。
步骤1023:对分帧后的语音信号乘以汉明窗。
即,加窗。将分好的每一帧信号乘上汉明窗W(n)。
n为对应的帧数,N为帧的大小,a取0.46。W(n,a)的物理含义是为了增加帧左端和右端的连续性。
步骤1024:对乘以汉明窗后的语音信号通过快速傅里叶变换得到信号在频域上的频谱。
因为在频域上更易于观察信号的特性。
步骤1025:将所述频谱通过Mel滤波器组得到Mel谱。
通过Mel频谱,将线形的自然频谱转换为体现人类听觉特性的Mel频谱。
步骤1026:对所述Mel谱进行倒谱分析,得到Mel频率倒谱系数MFCC。
步骤103:对预加重后的语音信号加入带有代表能量信息的MFCC第0个系数,得到FBE-MFCC。
在Mel频谱上面进行倒谱分析(取对数,做逆变换,实际逆变换一般是通过离散余弦(DCT forDiscrete Cosine Transform)变换来实现,取DCT后得到的系数作为MFCC系数,这里保留第0个系数),获得Mel频率倒谱系数MFCC,这个MFCC就是这帧语音的特征;(倒谱分析,获得MFCC作为语音特征)。
研究表明,频谱与能量都携带有语音信号的信息,因此在倒谱的基础上加入带有代表能量信息的MFCC第0个系数作为模型特征可以提高系统性能。第0个系数可以看作是被分析信号中每个频带的平均能量(FBE)的集合。将保留第0个系数(MFCC(0))的MFCC命名为FBE-MFCC。
步骤104:将由FBE-MFCC特征值组成的矩阵输入到DSCNN网络通过卷积核进行卷积,得到语音唤醒识别率。
这里,将上一步得到的由FBE-MFCC特征值组成的矩阵输入到DSCNN网络通过卷积核进行卷积,卷积核为一个n*n的矩阵,两个矩阵进行卷积计算得到的全新的矩阵,全新矩阵与FBE-MFCC特征值组成的矩阵相比发生了变化,这些变化是为了更加突出语音特征的提取,具体变化由我们通过改变卷积核来决定。将DSCNN提取的特征值通过汇编语言在计算机上进行程序运行,最终可以得到语音唤醒识别率。DSCNN网络包括4层(Conv、DS卷积、Pooling以及FC),其中DS卷积(DSC)层通过一个单独的2D滤波器将从MFCC电路输入的映射特征值在网络的每个信道中进行卷积,然后使用逐点卷积(DSCPW)。每个深度层之后是批量标准化和符号激活。将DSCNN网络通过硬件结构实现,它由控制有限状态机(FSM)、处理单元(PE)阵列、五个存储块和一个映射模块组成。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (8)
1.一种基于改进MFCC系数的语音唤醒方法,其特征在于,所述方法包括:
获取连续的语音信号;
对所述语音信号进行预加重;
对预加重后的语音信号加入带有代表能量信息的MFCC第0个系数,得到FBE-MFCC;
将由FBE-MFCC特征值组成的矩阵输入到DSCNN网络通过卷积核进行卷积,得到语音唤醒识别率。
2.根据权利要求1所述的基于改进MFCC系数的语音唤醒方法,其特征在于,对所述语音信号进行预加重具体包括:
采用高通滤波器对所述语音信号进行滤波;
对滤波后的语音信号进行分帧;
对分帧后的语音信号乘以汉明窗;
对乘以汉明窗后的语音信号通过快速傅里叶变换得到信号在频域上的频谱;
将所述频谱通过Mel滤波器组得到Mel谱;
对所述Mel谱进行倒谱分析,得到Mel频率倒谱系数MFCC。
3.根据权利要求2所述的基于改进MFCC系数的语音唤醒方法,其特征在于,对所述Mel谱进行倒谱分析,得到Mel频率倒谱系数MFCC具体包括:
对Mel谱取对数,通过离散余弦DCT变换,取DCT后得到的系数作为MFCC系数。
4.根据权利要求1所述的基于改进MFCC系数的语音唤醒方法,其特征在于,所述DSCNN网络包括4层,分别为Conv、DS卷积、Pooling以及FC。
5.一种基于改进MFCC系数的语音唤醒系统,其特征在于,所述系统包括:
语音信号获取模块,用于获取连续的语音信号;
预加重模块,用于对所述语音信号进行预加重;
0系数插入模块,用于对预加重后的语音信号加入带有代表能量信息的MFCC第0个系数,得到FBE-MFCC;
语音唤醒识别率确定模块,用于将由FBE-MFCC特征值组成的矩阵输入到DSCNN网络通过卷积核进行卷积,得到语音唤醒识别率。
6.根据权利要求5所述的基于改进MFCC系数的语音唤醒系统,其特征在于,所述预加重模块具体包括:
滤波单元,用于采用高通滤波器对所述语音信号进行滤波;
分帧单元,用于对滤波后的语音信号进行分帧;
计算单元,用于对分帧后的语音信号乘以汉明窗;
傅里叶变换单元,用于对乘以汉明窗后的语音信号通过快速傅里叶变换得到信号在频域上的频谱;
Mel谱确定单元,用于将所述频谱通过Mel滤波器组得到Mel谱;
倒谱分析单元,用于对所述Mel谱进行倒谱分析,得到Mel频率倒谱系数MFCC。
7.根据权利要求5所述的基于改进MFCC系数的语音唤醒系统,其特征在于,所述倒谱分析单元具体包括:
对Mel谱取对数,通过离散余弦DCT变换,取DCT后得到的系数作为MFCC系数。
8.根据权利要求5所述的基于改进MFCC系数的语音唤醒系统,其特征在于,所述DSCNN网络包括4层,分别为Conv、DS卷积、Pooling以及FC。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010748944.2A CN111862978A (zh) | 2020-07-30 | 2020-07-30 | 一种基于改进mfcc系数的语音唤醒方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010748944.2A CN111862978A (zh) | 2020-07-30 | 2020-07-30 | 一种基于改进mfcc系数的语音唤醒方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111862978A true CN111862978A (zh) | 2020-10-30 |
Family
ID=72946215
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010748944.2A Pending CN111862978A (zh) | 2020-07-30 | 2020-07-30 | 一种基于改进mfcc系数的语音唤醒方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111862978A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111933111A (zh) * | 2020-08-12 | 2020-11-13 | 北京猎户星空科技有限公司 | 语音唤醒方法、装置、电子设备和存储介质 |
CN113782009A (zh) * | 2021-11-10 | 2021-12-10 | 中科南京智能技术研究院 | 一种基于Savitzky-Golay滤波器平滑方法的语音唤醒系统 |
CN115472177A (zh) * | 2021-06-11 | 2022-12-13 | 瑞昱半导体股份有限公司 | 用于梅尔频率倒谱系数的实现的优化方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108847244A (zh) * | 2018-08-22 | 2018-11-20 | 华东计算技术研究所(中国电子科技集团公司第三十二研究所) | 基于mfcc和改进bp神经网络的声纹识别方法及系统 |
-
2020
- 2020-07-30 CN CN202010748944.2A patent/CN111862978A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108847244A (zh) * | 2018-08-22 | 2018-11-20 | 华东计算技术研究所(中国电子科技集团公司第三十二研究所) | 基于mfcc和改进bp神经网络的声纹识别方法及系统 |
Non-Patent Citations (3)
Title |
---|
WEIWEI SHAN等: ""14.1 A 510nW 0.41V Low-Memory Low-Computation Keyword-Spotting Chip Using Serial FFT-Based MFCC and Binarized Depthwise Separable Convolutional Neural Network in 28nm CMOS"", 2020 IEEE INTERNATIONAL SOLID-STATE CIRCUITS CONFERENCE, pages 230 - 231 * |
张雪英 等著: "语音与音频编码", 西安电子科技大学出版社, pages: 26 * |
郑方 等: ""Comparison of Different Implementations of MFCC"", JOURNAL OF COMPUTER SCIENCE AND TECHNOLOGY, vol. 16, no. 6, pages 583 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111933111A (zh) * | 2020-08-12 | 2020-11-13 | 北京猎户星空科技有限公司 | 语音唤醒方法、装置、电子设备和存储介质 |
CN115472177A (zh) * | 2021-06-11 | 2022-12-13 | 瑞昱半导体股份有限公司 | 用于梅尔频率倒谱系数的实现的优化方法 |
CN113782009A (zh) * | 2021-11-10 | 2021-12-10 | 中科南京智能技术研究院 | 一种基于Savitzky-Golay滤波器平滑方法的语音唤醒系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108369813B (zh) | 特定声音识别方法、设备和存储介质 | |
CN107610715B (zh) | 一种基于多种声音特征的相似度计算方法 | |
CN111862978A (zh) | 一种基于改进mfcc系数的语音唤醒方法及系统 | |
CN113724712B (zh) | 一种基于多特征融合和组合模型的鸟声识别方法 | |
CN110880329B (zh) | 一种音频识别方法及设备、存储介质 | |
CN113012720B (zh) | 谱减法降噪下多语音特征融合的抑郁症检测方法 | |
CN110033756B (zh) | 语种识别方法、装置、电子设备及存储介质 | |
CN104706321A (zh) | 一种基于改进的mfcc的心音类型识别方法 | |
WO2018166316A1 (zh) | 融合多种端到端神经网络结构的说话人感冒症状识别方法 | |
CN109147798B (zh) | 语音识别方法、装置、电子设备及可读存储介质 | |
CN110111769B (zh) | 一种电子耳蜗控制方法、装置、可读存储介质及电子耳蜗 | |
CN109658943B (zh) | 一种音频噪声的检测方法、装置、存储介质和移动终端 | |
CN110570871A (zh) | 一种基于TristouNet的声纹识别方法、装置及设备 | |
Hidayat et al. | A Modified MFCC for Improved Wavelet-Based Denoising on Robust Speech Recognition. | |
CN115035887A (zh) | 语音信号的处理方法、装置、设备及介质 | |
CN118121192A (zh) | 一种基于时频域融合的听觉注意检测方法及其系统 | |
CN112397090A (zh) | 一种基于fpga的实时声音分类方法及系统 | |
CN111933140A (zh) | 检测耳机佩戴者的语音的方法、装置及存储介质 | |
CN111785262A (zh) | 一种基于残差网络及融合特征的说话人年龄性别分类方法 | |
CN110931024A (zh) | 基于音频的圈养大熊猫自然交配结果的预测方法及系统 | |
CN113571074B (zh) | 基于多波段结构时域音频分离网络的语音增强方法及装置 | |
CN111192569B (zh) | 双麦语音特征提取方法、装置、计算机设备和存储介质 | |
CN115881142A (zh) | 一种骨导语音编码模型的训练方法、装置及存储介质 | |
CN115881112A (zh) | 一种基于频谱图的特征替换和掩蔽的语音识别数据增强方法 | |
CN113707172B (zh) | 稀疏正交网络的单通道语音分离方法、系统、计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 5 / F, building 1, Qilin artificial intelligence Industrial Park, 266 Chuangyan Road, Jiangning District, Nanjing City, Jiangsu Province Applicant after: Zhongke Nanjing Intelligent Technology Research Institute Address before: 5 / F, building 1, Qilin artificial intelligence Industrial Park, 266 Chuangyan Road, Jiangning District, Nanjing City, Jiangsu Province Applicant before: Nanjing Institute of intelligent technology, Institute of microelectronics, Chinese Academy of Sciences |
|
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201030 |