CN115565547A - 一种基于深度神经网络的异常心音识别方法 - Google Patents
一种基于深度神经网络的异常心音识别方法 Download PDFInfo
- Publication number
- CN115565547A CN115565547A CN202211047069.0A CN202211047069A CN115565547A CN 115565547 A CN115565547 A CN 115565547A CN 202211047069 A CN202211047069 A CN 202211047069A CN 115565547 A CN115565547 A CN 115565547A
- Authority
- CN
- China
- Prior art keywords
- heart sound
- model
- ecapa
- tdnn
- wav2vec
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 24
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 19
- 230000005236 sound signal Effects 0.000 claims description 15
- 238000013527 convolutional neural network Methods 0.000 claims description 11
- 239000013598 vector Substances 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 238000009432 framing Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 3
- 239000012634 fragment Substances 0.000 description 2
- 239000011664 nicotinic acid Substances 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 241001672694 Citrus reticulata Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/66—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Public Health (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Epidemiology (AREA)
- Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
Abstract
本发明涉及数据处理技术领域,具体涉及一种基于深度神经网络的异常心音识别方法,构建ECAPA‑TDNN模型和wav2vec模型;使用心音数据集训练更新ECAPA‑TDNN模型和wav2vec模型的网络参数,得到ECAPA‑TDNN心音识别模型和wav2vec心音识别模型;采集待识别心音数据集;将待识别心音数据集分割为2s的音频片段;将音频片段输入wav2vec心音识别模型进行识别,得到第一结果组;提取音频片段的fbank特征送入ECAPA‑TDNN心音识别模型,得到第二结果组;设置阈值,并基于阈值对第一结果组和第二结果组进行异常判断,得到最终结果,提高了识别得到的分类结果的可信度,提高了准确率,解决了现有的心音识别方法对心音的识别的准确率较差的问题。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于深度神经网络的异常心音识别方法。
背景技术
传统心音识别,一般分为三个部分:心音预处理、心音分段、心音分类。由于心音是由电子仪器采集得来。在采集的过程中受到环境因素,设备因素的影响,导致部分采集来的数据噪音大,不可用,所以在传统心音识别往往需要对心音数据做预处理,预处理一般是指对心音信号判定心音数据是否可用。
传统的心音识别使用提取MFCC特征—音频特征作为分类特征,而众所周知,MFCC特征是针对语音信号,符合语音发声的仿生特征,在语音方向取得了很好的效果,但是心音和语音信号虽然都是声音,但发声机制,声音采集设备都不同,MFCC特征并不是很适合心音识别。
发明内容
本发明的目的在于提供一种基于深度神经网络的异常心音识别方法,旨在解决现有的心音识别方法对心音的识别的准确率较差的问题。
为实现上述目的,本发明提供了一种基于深度神经网络的异常心音识别方法,包括以下步骤:
构建ECAPA-TDNN模型和wav2vec模型;
使用心音数据集训练更新所述ECAPA-TDNN模型和所述wav2vec模型的网络参数,得到ECAPA-TDNN心音识别模型和wav2vec心音识别模型;
采集待识别心音数据集;
将所述待识别心音数据集分割为2s的音频片段;
将所述音频片段输入所述wav2vec心音识别模型进行识别,得到第一结果组;
提取所述音频片段的fbank特征送入所述ECAPA-TDNN心音识别模型,得到第二结果组;
设置阈值,并基于所述阈值对所述第一结果组和所述第二结果组进行异常判断,得到最终结果。
其中,所述wav2vec模型包括卷积神经网络层、Transformer模型和全连接层。
所述ECAPA-TDNN模型包括卷积神经网络层、Attentive Statistics Pooling层、SE-Res2Block层和全连接层。
其中,所述使用心音数据集训练更新所述所述wav2vec模型的网络参数,得到wav2vec心音识别模型的具体方式为:
对心音数据进行分割,得到一维音频信号;
将所述一维音频信号输入所述卷积神经网络层得到潜在心音特征;
将所述潜在心音特征输入所述Transformer模型进行特征提取,得到提取特征;
将所述提取特征输入所述全连接层进行softmax分类,得到分类结果;
基于所述分类结果利用损失函数通过反向传播更新网络参数,得到心音识别模型。
其中,所述使用心音数据集训练更新所述ECAPA-TDNN模型的网络参数,得到ECAPA-TDNN心音识别模型的具体方式为:
将心音数据分割为2s的音频片段,并对每个音频片段以25ms窗长,10ms窗移进行分帧提取Fbank特征;
通过卷积神经网络层对所述Fbank特征进行一维卷积操作,得到潜在音频特征;
通过SE-Res2Block层将所述潜在音频特征进行多层SE-Res2Block特征融合,提取全局信息;
对所述全局信息再次进行一维卷积运算,得到最终全局信息;
通过Attentive Statistics Pooling层将所述最终全局信息压缩为3072维的向量;
通过全连接层对所述向量进行softmax分类,得到分类结果;
基于所述分类结果利用损失函数通过反向传播更新网络参数,得到ECAPA-TDNN心音识别模型。
其中,所述损失函数为交叉熵损失函数。
其中,所述设置阈值,并基于所述阈值对所述第一结果组和所述第二结果组进行异常判断,得到最终结果的具体方式为:
将阈值设置为0.8;
若所述分类结果组中,假设基于wav2vec模型的分类结果中心音正常的个数为a1,分类结果中心音异常的个数为b1,基于ECAPA-TDNN的模型分类结果中心音正常的个数为a2,分类结果为心音异常的个数为不b2,若a1+a2/a1+b1+a2+b2大于等于0.8,则认定为心音正常,若b1+b2/a1+b1+a2+b2大于等于0.8则判定为异常,否则认定为音频无效。
本发明的一种基于深度神经网络的异常心音识别方法,构建ECAPA-TDNN模型和wav2vec模型;使用心音数据集训练更新ECAPA-TDNN模型和wav2vec模型的网络参数,得到ECAPA-TDNN心音识别模型和wav2vec心音识别模型;采集待识别心音数据集;将待识别心音数据集分割为2s的音频片段;将音频片段输入wav2vec心音识别模型进行识别,得到第一结果组;提取音频片段的fbank特征送入ECAPA-TDNN心音识别模型,得到第二结果组;设置阈值,并基于阈值对第一结果组和第二结果组进行异常判断,得到最终结果,提高了识别得到的分类结果的可信度,提高了准确率,解决了现有的心音识别方法对心音的识别的准确率较差的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的一种基于深度神经网络的异常心音识别方法的流程图。
图2是自监督模型的结构图。
图3是自监督模型的CNN模块结构图。
图4是自监督模型的Transformer模块的结构图。
图5是全连接层的结构图。
图6是ECAPA-TDNN的结构图。
图7是SE-ResNet的结构图。
图8是ECAPA-TDNN的SE-Res2Block的结构图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
请参阅图1至图8,本发明提供一种基于深度神经网络的异常心音识别方法,包括以下步骤:
S1构建ECAPA-TDNN模型和wav2vec模型;
具体的,所述自监督训练模型(wav2vec 2.0)包括卷积神经网络层(CNN网络层)、Transformer模型和全连接层。
所述ECAPA-TDNN模型包括卷积神经网络层、Attentive Statistics Pooling层、SE-Res2Block层和全连接层。
基于wav2vec模型:
所述将所述潜在心音特征输入所述Transformer模型,利用transformer内部的自注意力机制进行特征提取,提取的特征将包含上下文信息。
基于ECAPA-TDNN模型:
ECAPA-TDNN模型Attentive Statistics Pooling模块将注意力机制引入池化统计当中,SE-Res2Block模块也给数据每个通道进行了scale操作,从而使特征具有全局信息。
S2使用心音数据集训练更新所述ECAPA-TDNN模型和所述wav2vec模型的网络参数,得到ECAPA-TDNN心音识别模型和wav2vec心音识别模型;
具体的,使用心音数据集来fine-tune(微调)所述预训练模型,缓解数据集小的压力,同时针对心音数据集缺乏的问题。
所述使用心音数据集训练更新所述所述wav2vec模型的网络参数,得到wav2vec心音识别模型的具体方式为:
S211对心音数据进行分割,得到一维音频信号;
具体的,设置窗长为2s,窗移为0.8s,将心音数据集分割为2s的音频片段,得到一维音频信号。分割为2s片段:心音信号为连续信号,但是经设备采集的过程中,会将信号进行抽样,假设采样率为16000,即1s的心音信号可以采样到16000个点。我们通常用到的数据格式,mp3,flac,opus等音频格式,读出来的都是采样后的数据,时间上离散的点,2s的音频对应为32000个点,利用python自带的包librosa将音频数据读出来,只要每次区设置窗长为32000,窗移为6400,每次都能取到32000数据点,即为2s。
S212将所述一维音频信号输入所述卷积神经网络层得到潜在心音特征;
S213将所述潜在心音特征输入所述Transformer模型进行特征提取,得到提取特征;
具体的,Transformer模型提取特征的能力是很强大的,Wav2vec 2.0中就是采用了transformer来提取特征,且由于transformer的self-attention的全局注意力机制,使得提取的特征表征能力更为强大。Wav2vec 2.0还引入了乘积量化,将无限的特征表达空间坍缩为有限的离散空间,让特征的鲁棒性更强。
具体的,将所述一维音频信号经过mask后送入transformer模块。
S214将所述提取特征输入所述全连接层进行softmax分类,得到分类结果;
S215基于所述分类结果利用损失函数通过反向传播更新网络参数,得到心音识别模型。
所述使用心音数据集训练更新所述ECAPA-TDNN模型的网络参数,得到ECAPA-TDNN心音识别模型的具体方式为:
S221将心音数据分割为2s的音频片段,并对每个音频片段以25ms窗长,10ms窗移进行分帧提取Fbank特征;
具体的,MFCC特征是针对语音信号,符合语音发声的仿生特征,在语音方向取得了很好的效果,但是心音和语音信号虽然都是声音,但发声机制,声音采集设备都不同,音频特征并不是很适合心音识别.所以取Fbank特征作为模型的输入特征,这样就可以保留等多原始音频的信息来给模型学习。
S212通过卷积神经网络层对所述Fbank特征进行一维卷积操作,得到潜在音频特征;
S213通过SE-Res2Block层将所述潜在音频特征进行多层SE-Res2Block特征融合,提取全局信息;
S214对所述全局信息再次进行一维卷积运算,得到最终全局信息;
S215通过Attentive Statistics Pooling层将所述最终全局信息压缩为3072维的向量;
S216通过全连接层对所述向量进行softmax分类,得到分类结果;
S217基于所述分类结果利用损失函数通过反向传播更新网络参数,得到ECAPA-TDNN心音识别模型。
损失函数Loss:即L
其中,yi表示样本i的lable,正类为1,负类为0;
pi表示样本i预测为正类的概率;
N表示样本数。
具体的,训练时损失函数使用cross entropy,通过反向传播更新网络参数。
S3采集待识别心音数据集;
S4将所述待识别心音数据集分割为2s的音频片段;
具体的,将所述待识别心音数据集分割为2s的音频片段为特征1,对2s音频片段取Fbank特征为特征2;
S5将所述音频片段输入所述wav2vec心音识别模型进行识别,得到第一结果组;
S6提取所述音频片段的fbank特征送入所述ECAPA-TDNN心音识别模型,得到第二结果组。
S7设置阈值,并基于所述阈值对所述第一结果组和所述第二结果组进行异常判断,得到最终结果。
具体方式为:
S71将阈值设置为0.8;
若所述分类结果组中,假设基于wav2vec模型的分类结果中心音正常的个数为a1,分类结果中心音异常的个数为b1,基于ECAPA-TDNN的模型分类结果中心音正常的个数为a2,分类结果为心音异常的个数为不b2;若a1+a2/a1+b1+a2+b2大于等于0.8,则认定为心音正常,若b1+b2/a1+b1+a2+b2大于等于0.8则判定为异常,否则认定为音频无效。
有益效果:
心音信号和其他的声音信号相比具有规律性和独特性,心音信号为周期信号,一次心跳的起始到下一次心跳的起始为一次完整的心跳周期,一个心跳周期一般为0.8s左右,而采集的心音音频时长一般为20s,综合考虑既要能保留心音周期信性特征又不会使得数据量过大,所以取2s为分割时长,实现了数据10倍的扩充。
Tansformer算法具有强大的特征提取的能力,在深度学习各个领域都取得明显的提升效果,在语音识别领域,针对方言的语音识别:如粤语、四川话等,也是存在数据集小的问题,引入自监督训练的技术,在表现好的普通话模型方言数据来fine-tune模型,可以取得不错的效果,由此产生灵感,心音信号和语音信号同属于声音信号,具有一些共性特征,所以采用wav2vec2.0在大量语音数据下训练模型,后续加入心音数据来fine-tune模型,可以提升模型的识别准确率。
以上所揭露的仅为本发明一种基于深度神经网络的异常心音识别方法较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。
Claims (6)
1.一种基于深度神经网络的异常心音识别方法,其特征在于,包括以下步骤:
构建ECAPA-TDNN模型和wav2vec模型;
使用心音数据集训练更新所述ECAPA-TDNN模型和所述wav2vec模型的网络参数,得到ECAPA-TDNN心音识别模型和wav2vec心音识别模型;
采集待识别心音数据集;
将所述待识别心音数据集分割为2s的音频片段;
将所述音频片段输入所述wav2vec心音识别模型进行识别,得到第一结果组;
提取所述音频片段的fbank特征送入所述ECAPA-TDNN心音识别模型,得到第二结果组;
设置阈值,并基于所述阈值对所述第一结果组和所述第二结果组进行异常判断,得到最终结果。
2.如权利要求1所述的基于深度神经网络的异常心音识别方法,其特征在于,
所述wav2vec模型包括卷积神经网络层、Transformer模型和全连接层。
所述ECAPA-TDNN模型包括卷积神经网络层、Attentive Statistics Pooling层、SE-Res2Block层和全连接层。
3.如权利要求2所述的基于深度神经网络的异常心音识别方法,其特征在于,
所述使用心音数据集训练更新所述所述wav2vec模型的网络参数,得到wav2vec心音识别模型的具体方式为:
对心音数据进行分割,得到一维音频信号;
将所述一维音频信号输入所述卷积神经网络层得到潜在心音特征;
将所述潜在心音特征输入所述Transformer模型再次进行特征提取,得到提取特征;
将所述提取特征输入所述全连接层进行softmax分类,得到分类结果;
基于所述分类结果利用损失函数通过反向传播更新网络参数,得到心音识别模型。
4.如权利要求3所述的基于深度神经网络的异常心音识别方法,其特征在于,
所述使用心音数据集训练更新所述ECAPA-TDNN模型的网络参数,得到ECAPA-TDNN心音识别模型的具体方式为:
将心音数据分割为2s的音频片段,并对每个音频片段以25ms窗长,10ms窗移进行分帧提取Fbank特征;
通过卷积神经网络层对所述Fbank特征进行一维卷积操作,得到潜在音频特征;
通过SE-Res2Block层将所述潜在音频特征进行多层SE-Res2Block特征融合,提取全局信息;
对所述全局信息再次进行一维卷积运算,得到最终全局信息;
通过Attentive Statistics Pooling层将所述最终全局信息压缩为3072维的向量;
通过全连接层对所述向量进行softmax分类,得到分类结果;
基于所述分类结果利用损失函数通过反向传播更新网络参数,得到ECAPA-TDNN心音识别模型。
5.如权利要求4所述的基于深度神经网络的异常心音识别方法,其特征在于,
所述损失函数为交叉熵损失函数。
6.如权利要求5所述的基于深度神经网络的异常心音识别方法,其特征在于,
所述设置阈值,并基于所述阈值对所述第一结果组和所述第二结果组进行异常判断,得到最终结果的具体方式为:
将阈值设置为0.8;
若所述分类结果组中,假设基于wav2vec模型的分类结果中心音正常的个数为a1,分类结果中心音异常的个数为b1,基于ECAPA-TDNN的模型分类结果中心音正常的个数为a2,分类结果为心音异常的个数为不b2,若a1+a2/a1+b1+a2+b2大于等于0.8,则认定为心音正常,若b1+b2/a1+b1+a2+b2大于等于0.8则判定为异常,否则认定为音频无效。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211047069.0A CN115565547A (zh) | 2022-08-30 | 2022-08-30 | 一种基于深度神经网络的异常心音识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211047069.0A CN115565547A (zh) | 2022-08-30 | 2022-08-30 | 一种基于深度神经网络的异常心音识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115565547A true CN115565547A (zh) | 2023-01-03 |
Family
ID=84739541
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211047069.0A Pending CN115565547A (zh) | 2022-08-30 | 2022-08-30 | 一种基于深度神经网络的异常心音识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115565547A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116168727A (zh) * | 2023-04-26 | 2023-05-26 | 智洋创新科技股份有限公司 | 一种变压器异常声音检测方法、系统、设备及存储介质 |
-
2022
- 2022-08-30 CN CN202211047069.0A patent/CN115565547A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116168727A (zh) * | 2023-04-26 | 2023-05-26 | 智洋创新科技股份有限公司 | 一种变压器异常声音检测方法、系统、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110827801B (zh) | 一种基于人工智能的自动语音识别方法及系统 | |
CN109817213B (zh) | 用于自适应语种进行语音识别的方法、装置及设备 | |
CN110222719B (zh) | 一种基于多帧音视频融合网络的人物识别方法及系统 | |
CN103871424A (zh) | 一种基于贝叶斯信息准则的线上说话人聚类分析方法 | |
CN111951796A (zh) | 语音识别方法及装置、电子设备、存储介质 | |
CN111489763A (zh) | 一种基于gmm模型的复杂环境下说话人识别自适应方法 | |
CN115565547A (zh) | 一种基于深度神经网络的异常心音识别方法 | |
Esposito et al. | Text independent methods for speech segmentation | |
CN108735230B (zh) | 基于混合音频的背景音乐识别方法、装置及设备 | |
CN115249479A (zh) | 基于brnn的电网调度复杂语音识别方法、系统及终端 | |
CN109817223A (zh) | 基于音频指纹的音素标记方法及装置 | |
CN111179972A (zh) | 一种基于深度学习的人声检测算法 | |
CN114626424B (zh) | 一种基于数据增强的无声语音识别方法及装置 | |
CN111259188A (zh) | 一种基于seq2seq网络的歌词对齐方法及系统 | |
CN112397059B (zh) | 一种语音流畅度检测方法及装置 | |
CN113257226B (zh) | 一种基于gfcc的改进特征参数的语种识别方法 | |
Zhang et al. | Advancements in whispered speech detection for interactive/speech systems | |
CN113160796B (zh) | 一种广播音频的语种识别方法、装置、设备及存储介质 | |
CN115910034A (zh) | 基于深度学习的语音语种识别方法及系统 | |
CN113689885A (zh) | 基于语音信号处理的智能辅助引导系统 | |
CN113628639A (zh) | 一种基于多头注意力机制的语音情感识别方法 | |
CN113470620A (zh) | 一种语音识别方法 | |
CN113327590A (zh) | 一种语音识别方法 | |
CN112233667B (zh) | 基于深度学习的同期声识别方法 | |
CN112908358B (zh) | 一种开放式的语音评测方法和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |