CN106952649A - 基于卷积神经网络和频谱图的说话人识别方法 - Google Patents
基于卷积神经网络和频谱图的说话人识别方法 Download PDFInfo
- Publication number
- CN106952649A CN106952649A CN201710336940.1A CN201710336940A CN106952649A CN 106952649 A CN106952649 A CN 106952649A CN 201710336940 A CN201710336940 A CN 201710336940A CN 106952649 A CN106952649 A CN 106952649A
- Authority
- CN
- China
- Prior art keywords
- spectrogram
- data
- speaker
- sampled
- test
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 17
- 230000007935 neutral effect Effects 0.000 claims abstract description 10
- 238000012360 testing method Methods 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 11
- 230000009466 transformation Effects 0.000 claims description 8
- 238000013135 deep learning Methods 0.000 claims description 6
- 238000001228 spectrum Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 4
- 230000003213 activating effect Effects 0.000 claims description 2
- 230000001149 cognitive effect Effects 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 238000005070 sampling Methods 0.000 claims description 2
- 238000013519 translation Methods 0.000 claims description 2
- 230000006399 behavior Effects 0.000 claims 1
- 238000003672 processing method Methods 0.000 abstract description 2
- 230000005236 sound signal Effects 0.000 abstract 2
- 238000013528 artificial neural network Methods 0.000 abstract 1
- 230000003595 spectral effect Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003475 lamination Methods 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000035479 physiological effects, processes and functions Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于卷积神经网络和频谱图的说话人识别方法,依次包括以下步骤:首先,采集每一位说话人音频信号;然后,将音频信号转换成频谱图;其次,将图片作为输入层,经过AlexNet训练这个神经网络;再次使用反向传播算法逐层调整神经网络各层的权值和偏置;最后得到神经网络参数,对说话人进行分类。该方法从卷积神经网络的处理方法来快速的识别说话人。
Description
技术领域
本发明属于语音识别技术领域,本发明涉及一种基于卷积神经网络的说话人识别方法。
背景技术
随着信息技术的发展,高科技以数字化的形式融入了我们的生活,带来了很多的便利,同样又促进了数字化生活的发展。识别技术也发生了巨大的变化,由传统的密码验证方式,更多的转换为数字证书和生物认证识别等新兴技术。尤其是生物识别技术,由于它是利用人体自身所固有的生理或行为特征作为识别依据来进行个体验证的方法,克服了传统认证手段易于丢失、遗忘,易被仿造盗用等缺点,越来越受到国内外研究者的广泛关注。
目前说话人识别的研究面临着很多问题需要解决,在复杂的环境中检测效果较差,无法把我们想要的东西提取出来如何将有效的信息更加准确的提取出来是面临最主要的挑战。说话人识别分为说话人辨认和说话人确认两种。由于说话人识别技术受到环境和不同个体的说话方式等的影响较大,研究人员提出很多解决方法。典型的说话人识别系统包括预处理、特征提取、识别模型匹配三个过程。预处理包括端点检测、分帧、加窗等。特征提取是提取出符合当前说话人语音规律的特征,好的特征参数直接决定了系统的性能。常见的特征参数包括MFCC(Mel Frequency Cepstrum Coefficient)、LPC(LinearPrediction Coefficient)以及LPCC(Linear Prediction Cepstrum Coefficient)等。其中以MFCC最为经典,它充分考虑到人耳听觉特性。
在说话人识别方向,目前有很多方法被提出用于提高识别效率。目前的方法是将GMM模型聚成一类,再根据每类中说话人语音为每一类训练一个GMM模型,GMM的思想认为任何一个说话人的语音特征参数是由一个个高斯函数加权产生的,该模型简单有效且抗噪能力强,被广泛应用于文本无关说话人识别。考虑到实际训练语音较短,为每个说话人单独训练一个GMM模型较困难。在人工智能时代,能否将人工智能应用在说话人识别,因此,寻找一种高效的说话人识别算法,具有重要的新颖性、创造性和实用价值。
发明内容
基于卷积神经网络实现说话人识别的思路是将说话人音频均匀划分为若干个大的频谱图,每个频谱图携带了自身说话人的频率信息,将这些频率信息转化为频谱图。
本发明是将这些音频文件转为频谱图通过卷积神经网络来提取特征以及分类识别。
本发明提出的方法,将时域信号转化为频域信号并灵活使用了卷积神经网络来处理频域信号。本发明也具有一定的实际应用价值:一是作为深度学习算法的实际应用平台辅助教学;二是在当前深度学习的领域,实现说话人的识别,从而使用卷积神经网络来处理语音信号;三是由于本发明使用硬件成本资源较少以及计算简单快捷,易于实现。
本发明主要由说话人语音信号和卷积神经组成。说话人语音是由说话人说的0-9数字构成,卷积神经网络是改进的AlexNet网络实现。
基于卷积神经网络的说话人识别包括两个阶段:
语音信号转频域阶段:为了体现信号随时间的频谱情况,采用短时傅里叶变换处理。短时傅里叶变换又称为滑动窗傅里叶变换,就是用一个短的窗函数和信号滑动相乘,对每一个窗函数截取区间的数据进行傅里叶变换:其中w(k,τ)是一个长度为N的窗函数,X(w,τ)是一个二维函数,表示中心点位于τ的加窗声音的傅里叶变换,通过上述公式将声音信号转换为对应的某种灰度级的点来表征,这就是信号处理中的语谱图。
首先得到该语音信号的采样频率16kHZ以及傅立叶函数点数1024,再设计该语音信号的窗长1024,步长512加窗重叠点数512,通过Matlab短时傅立叶变换,最后通过log取对数,绘制频谱图,详细流程图如图7所示。
深度学习识别阶段:得到绘制的频谱图以后,把频谱图按照4:1的比例分为训练数据集和测试数据集。分好数据集后,将数据集的图片生成caffe框架所需要的数据格式LEVELDB形式的数据,为提高模型的准确率,又生成了均值文件放入训练数据中,下一步设计网络结构,在原有AlexNet的基础上增加dropout以及BatchNormalization来提高识别正确率。根据设计好的网络模型,训练神经网络来识别说话人。
在卷积神经网络中,卷积层的每一个卷积核作用于整个图像中,对输入图像进行卷积操作。卷积结果构成了输入图像的特征图,提取出图像的局部特征。每一个卷积滤波器共享相同的参数,包括相同的权重矩阵和偏置项。
神经网络的结构中也有降采样层,降采样层是一种非线性降采样方法。考虑到卷积层输出的特征图仍然包含大量数据,若直接训练,则很难训练出一个有效的分类器。通过降采样操作,将特征数据大大减少,并且其对旋转、尺度和缩放具有不变性,同时还减少了计算的复杂度。降采样方法是一种高效的降低数据维度的采样方法。在图像识别中,降采样的操作分为两类:最大值和平均值。降采样模板取2×2,即取2X2大小图像块的四个像素值中的最大值或平均值为降采样后的像素值。经过降采样后,图像的大小变为原来的1/4,将其存于其他片块最大值的矩阵中,并放弃激活映射图中所在的其他信息。仅保留图像中与各特征相关性最大的位置,这些最大值一起构成了较低维度的空间,达到了降维的作用。减少模型参数,防止过拟合,提高模型的平移不变形。能够更好的训练这个模型。
与此同时,又增加了Dropout层以及BatchNormalization层。它们是减少过拟合,减少不同神经元之间的依赖。有些中间输出,在给定的训练集上,可能发生只依赖某些神经元的情况,这就会造成对训练集的过拟合。而随机关掉一些神经元,可以让更多神经元参与到最终的输出当中,去获取最终较好的预测。
附图说明
图1为基于卷积神经网络的说话人识别的过程。
图2为原始输入说话人A说的数字0的频谱图像1
图3为原始输入说话人B说的数字0的频谱图像2
图4为原始输入说话人C说的数字0的频谱图像3
图5为测试图像得到的结果
图6为原始网络测试得到的结果
图7为生成频谱图的流程图
具体实施方式
下面结合附图及具体实施例对本发明作进一步的描述。
说话人音频数据集是有24个说话人分别朗读了0-9数字,对说话人音频数据集进行以下操作。
S1生成频谱图操作:
步骤1:通过读取声音信号得到采样频率、左右声道。
步骤2:将这些数据存放在数组中并计算长度。
步骤3:对分频数据进行加窗处理,其中重叠比例为50%,保存数据
步骤4:对分频的数据进行傅里叶变换
步骤5:通过数组展示频谱图。
S2深度学习阶段操作:
步骤1:将音频文件的语音信号通过代码转化为频谱图;
步骤2:拿到这些频谱图后,运行GenerateTrainAndTest.m将频谱图分为训练集和测试集,其中训练集占80%,测试集占20%;
步骤3:运行readImage.py将数据集生成列表文件也就是生成带有label的train.txt文件
步骤4:运行readImage.py将数据集生成列表文件也就是生成带有label的test.txt文件
步骤5:利用步骤3、4的txt文件将图片通过bat命令生成LEVELDB数据。
步骤6:AlexNet网络需要计算图像的均值,通过mean.bat计算得到image_mean.binaryproto文件;
步骤7:利用AlexNet网络,利用训练好的模型进行初始化,将output类别改为24类。进一步训练网络;
步骤8:通过train.bat训练网络;
步骤9:通过caffemodel来微调网络模型;
步骤10:通过test.bat来测试网络的分类效果,效果如图5所示。
步骤11:测试网络对单张图像进行分类测试,输出top-5,概率最大的前5类的类别标签及概率;
通过将语音信号转化为频域信号,然后让神经网络来识别频域信号,进而实现对说话人的识别,实验结果如图5所示。
由实验结果可知,说话人在基于修改的AlexNet网络结构的时候,可以有非常好的结果。在毫无修改的AlexNet网络结构的情况下,实验结果不是很好。
综上所述,基于深度学习的说话人识别,通过将语音信号转化为频谱图。进而通过神经网络得到分类结果,从而达到识别的效果。大大简化了传统方法的时间以及正确率,进而从神经网络的处理方法解决了说话人识别问题。因此可以认为本发明有非常高的应用价值。
最后应说明的是:以上实施例仅用以说明本发明而并非限制本发明所描述的技术方案;因此,尽管本说明书参照上述的各个实施例对本发明已进行了详细的说明,但是,本领域的普通技术人员应当理解,仍然可以对本发明进行修改或等同替换;而一切不脱离本发明的精神和范围的技术方案及其改进,均应涵盖在本发明的权利要求范围当中。
Claims (2)
1.基于卷积神经网络和频谱图的说话人识别方法,其特征在于:基于卷积神经网络的说话人识别包括两个阶段:
语音信号转频域阶段:为了体现信号随时间的频谱情况,采用短时傅里叶变换处理;短时傅里叶变换又称为滑动窗傅里叶变换,就是用一个短的窗函数和信号滑动相乘,对每一个窗函数截取区间的数据进行傅里叶变换:其中w(k,τ)是一个长度为N的窗函数,X(w,τ)是一个二维函数,表示中心点位于τ的加窗声音的傅里叶变换,通过上述公式将声音信号转换为对应的某种灰度级的点来表征,这就是信号处理中的语谱图;
首先得到该语音信号的采样频率16kHZ以及傅立叶函数点数1024,再设计该语音信号的窗长1024,步长512加窗重叠点数512,通过Matlab短时傅立叶变换,最后通过log取对数,绘制频谱图;
深度学习识别阶段:得到绘制的频谱图以后,把频谱图按照4:1的比例分为训练数据集和测试数据集;分好数据集后,将数据集的图片生成caffe框架所需要的数据格式LEVELDB形式的数据,为提高模型的准确率,又生成了均值文件放入训练数据中,下一步设计网络结构,在原有AlexNet的基础上增加dropout以及BatchNormalization来提高识别正确率;根据设计好的网络模型,训练神经网络来识别说话人;
在卷积神经网络中,卷积层的每一个卷积核作用于整个图像中,对输入图像进行卷积操作;卷积结果构成了输入图像的特征图,提取出图像的局部特征;每一个卷积滤波器共享相同的参数,包括相同的权重矩阵和偏置项;
神经网络的结构中也有降采样层,降采样层是一种非线性降采样方法;考虑到卷积层输出的特征图仍然包含大量数据,若直接训练,则很难训练出一个有效的分类器;通过降采样操作,将特征数据大大减少,并且其对旋转、尺度和缩放具有不变性,同时还减少了计算的复杂度;降采样方法是一种高效的降低数据维度的采样方法;在图像识别中,降采样的操作分为两类:最大值和平均值;降采样模板取2×2,即取2X2大小图像块的四个像素值中的最大值或平均值为降采样后的像素值;经过降采样后,图像的大小变为原来的1/4,将其存于其他片块最大值的矩阵中,并放弃激活映射图中所在的其他信息;仅保留图像中与各特征相关性最大的位置,这些最大值一起构成了较低维度的空间,达到了降维的作用;
减少模型参数,防止过拟合,提高模型的平移不变形;能够更好的训练这个模型。
2.根据权利要求1所述的基于卷积神经网络和频谱图的说话人识别方法,其特征在于:
说话人音频数据集是有24个说话人分别朗读了0-9数字,对说话人音频数据集进行以下操作;
S1生成频谱图操作:
步骤1:通过读取声音信号得到采样频率、左右声道;
步骤2:将这些数据存放在数组中并计算长度;
步骤3:对分频数据进行加窗处理,其中重叠比例为50%,保存数据
步骤4:对分频的数据进行傅里叶变换
步骤5:通过数组展示频谱图;
S2深度学习阶段操作:
步骤1:将音频文件的语音信号通过代码转化为频谱图;
步骤2:拿到这些频谱图后,运行GenerateTrainAndTest.m将频谱图分为训练集和测试集,其中训练集占80%,测试集占20%;
步骤3:运行readImage.py将数据集生成列表文件也就是生成带有label的train.txt文件
步骤4:运行readImage.py将数据集生成列表文件也就是生成带有label的test.txt文件
步骤5:利用步骤3、4的txt文件将图片通过bat命令生成LEVELDB数据;
步骤6:AlexNet网络需要计算图像的均值,通过mean.bat计算得到image_mean.binaryproto文件;
步骤7:利用AlexNet网络,利用训练好的模型进行初始化,将output类别改为24类;进一步训练网络;
步骤8:通过train.bat训练网络;
步骤9:通过caffemodel来微调网络模型;
步骤10:通过test.bat来测试网络的分类效果;
步骤11:测试网络对单张图像进行分类测试,输出top-5,概率最大的前5类的类别标签及概率;
通过将语音信号转化为频域信号,然后让神经网络来识别频域信号,进而实现对说话人的识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710336940.1A CN106952649A (zh) | 2017-05-14 | 2017-05-14 | 基于卷积神经网络和频谱图的说话人识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710336940.1A CN106952649A (zh) | 2017-05-14 | 2017-05-14 | 基于卷积神经网络和频谱图的说话人识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106952649A true CN106952649A (zh) | 2017-07-14 |
Family
ID=59478598
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710336940.1A Pending CN106952649A (zh) | 2017-05-14 | 2017-05-14 | 基于卷积神经网络和频谱图的说话人识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106952649A (zh) |
Cited By (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107464568A (zh) * | 2017-09-25 | 2017-12-12 | 四川长虹电器股份有限公司 | 基于三维卷积神经网络文本无关的说话人识别方法及系统 |
CN107578775A (zh) * | 2017-09-07 | 2018-01-12 | 四川大学 | 一种基于深度神经网络的多任务语音分类方法 |
CN107680601A (zh) * | 2017-10-18 | 2018-02-09 | 深圳势必可赢科技有限公司 | 一种基于语谱图和音素检索的身份同一性检验方法及装置 |
CN107705806A (zh) * | 2017-08-22 | 2018-02-16 | 北京联合大学 | 一种使用谱图和深卷积神经网络进行语音情感识别的方法 |
CN107731233A (zh) * | 2017-11-03 | 2018-02-23 | 王华锋 | 一种基于rnn的声纹识别方法 |
CN107818366A (zh) * | 2017-10-25 | 2018-03-20 | 成都力创昆仑网络科技有限公司 | 一种基于卷积神经网络的肺音分类方法、系统及用途 |
CN108010514A (zh) * | 2017-11-20 | 2018-05-08 | 四川大学 | 一种基于深度神经网络的语音分类方法 |
CN108461092A (zh) * | 2018-03-07 | 2018-08-28 | 燕山大学 | 一种对帕金森病语音分析的方法 |
CN108806698A (zh) * | 2018-03-15 | 2018-11-13 | 中山大学 | 一种基于卷积神经网络的伪装语音识别方法 |
CN108899037A (zh) * | 2018-07-05 | 2018-11-27 | 平安科技(深圳)有限公司 | 动物声纹特征提取方法、装置及电子设备 |
CN108932950A (zh) * | 2018-05-18 | 2018-12-04 | 华南师范大学 | 一种基于标签扩增与多频谱图融合的声音场景识别方法 |
CN109086888A (zh) * | 2018-09-05 | 2018-12-25 | 北京机械设备研究所 | 基于声音识别的汽车发动机故障判定方法及其装置 |
CN109243466A (zh) * | 2018-11-12 | 2019-01-18 | 成都傅立叶电子科技有限公司 | 一种声纹鉴权训练方法及系统 |
CN109272988A (zh) * | 2018-09-30 | 2019-01-25 | 江南大学 | 基于多路卷积神经网络的语音识别方法 |
CN109274621A (zh) * | 2018-09-30 | 2019-01-25 | 中国人民解放军战略支援部队信息工程大学 | 基于深度残差网络的通信协议信号识别方法 |
CN109285539A (zh) * | 2018-11-28 | 2019-01-29 | 中国电子科技集团公司第四十七研究所 | 一种基于神经网络的声音识别方法 |
CN109448746A (zh) * | 2018-09-28 | 2019-03-08 | 百度在线网络技术(北京)有限公司 | 语音降噪方法及装置 |
CN109448732A (zh) * | 2018-12-27 | 2019-03-08 | 科大讯飞股份有限公司 | 一种数字串语音处理方法及装置 |
CN109525787A (zh) * | 2018-12-13 | 2019-03-26 | 南京邮电大学 | 面向直播场景的实时字幕翻译及系统实现方法 |
CN109524014A (zh) * | 2018-11-29 | 2019-03-26 | 辽宁工业大学 | 一种基于深度卷积神经网络的声纹识别分析方法 |
CN109633289A (zh) * | 2018-12-28 | 2019-04-16 | 集美大学 | 一种基于倒谱和卷积神经网络的电磁红信息检测方法 |
CN109657739A (zh) * | 2019-01-09 | 2019-04-19 | 西北大学 | 一种基于高频声波短时傅里叶变换的手写字母识别方法 |
CN109959889A (zh) * | 2017-12-25 | 2019-07-02 | 通用电气公司 | 磁共振成像系统冷头工作状态的监测方法和系统 |
WO2019179036A1 (zh) * | 2018-03-19 | 2019-09-26 | 平安科技(深圳)有限公司 | 深度神经网络模型、电子装置、身份验证方法和存储介质 |
CN110363148A (zh) * | 2019-07-16 | 2019-10-22 | 中用科技有限公司 | 一种人脸声纹特征融合验证的方法 |
CN110459225A (zh) * | 2019-08-14 | 2019-11-15 | 南京邮电大学 | 一种基于cnn融合特征的说话人辨认系统 |
CN110503128A (zh) * | 2018-05-18 | 2019-11-26 | 百度(美国)有限责任公司 | 使用卷积生成对抗网络进行波形合成的谱图 |
CN110517666A (zh) * | 2019-01-29 | 2019-11-29 | 腾讯科技(深圳)有限公司 | 音频识别方法、系统、机器设备和计算机可读介质 |
WO2020062679A1 (zh) * | 2018-09-30 | 2020-04-02 | 厦门快商通信息技术有限公司 | 一种基于深度学习的端到端说话人分割方法及系统 |
CN111201569A (zh) * | 2017-10-25 | 2020-05-26 | 三星电子株式会社 | 电子装置及其控制方法 |
CN111274989A (zh) * | 2020-02-11 | 2020-06-12 | 中国科学院上海微系统与信息技术研究所 | 一种基于深度学习的野外车辆识别方法 |
CN111402919A (zh) * | 2019-12-12 | 2020-07-10 | 南京邮电大学 | 一种基于多尺度多视图的戏曲唱腔风格识别方法 |
CN111402927A (zh) * | 2019-08-23 | 2020-07-10 | 南京邮电大学 | 基于分段语谱图和双重Attention的语音情感识别方法 |
CN111414832A (zh) * | 2020-03-16 | 2020-07-14 | 中国科学院水生生物研究所 | 一种基于鲸豚类低频水声信号的实时在线识别分类系统 |
CN111667836A (zh) * | 2020-06-19 | 2020-09-15 | 南京大学 | 基于深度学习的文本无关多标号说话人识别方法 |
CN108831485B (zh) * | 2018-06-11 | 2021-04-23 | 东北师范大学 | 基于语谱图统计特征的说话人识别方法 |
CN115359497A (zh) * | 2022-10-14 | 2022-11-18 | 景臣科技(南通)有限公司 | 一种呼叫中心监控报警方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104008751A (zh) * | 2014-06-18 | 2014-08-27 | 周婷婷 | 一种基于bp神经网络的说话人识别方法 |
CN104616664A (zh) * | 2015-02-02 | 2015-05-13 | 合肥工业大学 | 一种基于声谱图显著性检测的音频识别方法 |
US20150255062A1 (en) * | 2013-03-25 | 2015-09-10 | Gerald Bradley PENN | System and method for applying a convolutional neural network to speech recognition |
US20160099010A1 (en) * | 2014-10-03 | 2016-04-07 | Google Inc. | Convolutional, long short-term memory, fully connected deep neural networks |
CN105895110A (zh) * | 2016-06-30 | 2016-08-24 | 北京奇艺世纪科技有限公司 | 一种音频文件的分类方法及装置 |
CN106546892A (zh) * | 2016-11-10 | 2017-03-29 | 华乘电气科技(上海)股份有限公司 | 基于深度学习的局部放电超声音频识别方法及系统 |
-
2017
- 2017-05-14 CN CN201710336940.1A patent/CN106952649A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150255062A1 (en) * | 2013-03-25 | 2015-09-10 | Gerald Bradley PENN | System and method for applying a convolutional neural network to speech recognition |
CN104008751A (zh) * | 2014-06-18 | 2014-08-27 | 周婷婷 | 一种基于bp神经网络的说话人识别方法 |
US20160099010A1 (en) * | 2014-10-03 | 2016-04-07 | Google Inc. | Convolutional, long short-term memory, fully connected deep neural networks |
CN104616664A (zh) * | 2015-02-02 | 2015-05-13 | 合肥工业大学 | 一种基于声谱图显著性检测的音频识别方法 |
CN105895110A (zh) * | 2016-06-30 | 2016-08-24 | 北京奇艺世纪科技有限公司 | 一种音频文件的分类方法及装置 |
CN106546892A (zh) * | 2016-11-10 | 2017-03-29 | 华乘电气科技(上海)股份有限公司 | 基于深度学习的局部放电超声音频识别方法及系统 |
Non-Patent Citations (3)
Title |
---|
ABDUL MALIK BADSHAH等: "Speech Emotion Recognition from Spectrograms with Deep Convolutional Neural Network", 《PROCEEDINGS OF 2017 INTERNATIONAL CONFERENCE ON PLATFORM TECHNOLOGY AND SERVICE》 * |
周飞燕: "卷积神经网络研究综述", 《计算机学报》 * |
胡青等: "基于卷积神经网络分类的说话人识别算法", 《信息网络安全》 * |
Cited By (51)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107705806A (zh) * | 2017-08-22 | 2018-02-16 | 北京联合大学 | 一种使用谱图和深卷积神经网络进行语音情感识别的方法 |
CN107578775B (zh) * | 2017-09-07 | 2021-02-12 | 四川大学 | 一种基于深度神经网络的多分类语音方法 |
CN107578775A (zh) * | 2017-09-07 | 2018-01-12 | 四川大学 | 一种基于深度神经网络的多任务语音分类方法 |
CN107464568A (zh) * | 2017-09-25 | 2017-12-12 | 四川长虹电器股份有限公司 | 基于三维卷积神经网络文本无关的说话人识别方法及系统 |
CN107464568B (zh) * | 2017-09-25 | 2020-06-30 | 四川长虹电器股份有限公司 | 基于三维卷积神经网络文本无关的说话人识别方法及系统 |
CN107680601A (zh) * | 2017-10-18 | 2018-02-09 | 深圳势必可赢科技有限公司 | 一种基于语谱图和音素检索的身份同一性检验方法及装置 |
CN107818366A (zh) * | 2017-10-25 | 2018-03-20 | 成都力创昆仑网络科技有限公司 | 一种基于卷积神经网络的肺音分类方法、系统及用途 |
CN111201569A (zh) * | 2017-10-25 | 2020-05-26 | 三星电子株式会社 | 电子装置及其控制方法 |
CN111201569B (zh) * | 2017-10-25 | 2023-10-20 | 三星电子株式会社 | 电子装置及其控制方法 |
CN107731233A (zh) * | 2017-11-03 | 2018-02-23 | 王华锋 | 一种基于rnn的声纹识别方法 |
CN108010514B (zh) * | 2017-11-20 | 2021-09-10 | 四川大学 | 一种基于深度神经网络的语音分类方法 |
CN108010514A (zh) * | 2017-11-20 | 2018-05-08 | 四川大学 | 一种基于深度神经网络的语音分类方法 |
CN109959889A (zh) * | 2017-12-25 | 2019-07-02 | 通用电气公司 | 磁共振成像系统冷头工作状态的监测方法和系统 |
CN108461092B (zh) * | 2018-03-07 | 2022-03-08 | 燕山大学 | 一种对帕金森病语音分析的方法 |
CN108461092A (zh) * | 2018-03-07 | 2018-08-28 | 燕山大学 | 一种对帕金森病语音分析的方法 |
CN108806698A (zh) * | 2018-03-15 | 2018-11-13 | 中山大学 | 一种基于卷积神经网络的伪装语音识别方法 |
WO2019179036A1 (zh) * | 2018-03-19 | 2019-09-26 | 平安科技(深圳)有限公司 | 深度神经网络模型、电子装置、身份验证方法和存储介质 |
CN108932950A (zh) * | 2018-05-18 | 2018-12-04 | 华南师范大学 | 一种基于标签扩增与多频谱图融合的声音场景识别方法 |
CN110503128A (zh) * | 2018-05-18 | 2019-11-26 | 百度(美国)有限责任公司 | 使用卷积生成对抗网络进行波形合成的谱图 |
CN108831485B (zh) * | 2018-06-11 | 2021-04-23 | 东北师范大学 | 基于语谱图统计特征的说话人识别方法 |
CN108899037B (zh) * | 2018-07-05 | 2024-01-26 | 平安科技(深圳)有限公司 | 动物声纹特征提取方法、装置及电子设备 |
CN108899037A (zh) * | 2018-07-05 | 2018-11-27 | 平安科技(深圳)有限公司 | 动物声纹特征提取方法、装置及电子设备 |
CN109086888A (zh) * | 2018-09-05 | 2018-12-25 | 北京机械设备研究所 | 基于声音识别的汽车发动机故障判定方法及其装置 |
CN109448746B (zh) * | 2018-09-28 | 2020-03-24 | 百度在线网络技术(北京)有限公司 | 语音降噪方法及装置 |
CN109448746A (zh) * | 2018-09-28 | 2019-03-08 | 百度在线网络技术(北京)有限公司 | 语音降噪方法及装置 |
CN109274621A (zh) * | 2018-09-30 | 2019-01-25 | 中国人民解放军战略支援部队信息工程大学 | 基于深度残差网络的通信协议信号识别方法 |
CN109272988B (zh) * | 2018-09-30 | 2022-05-24 | 江南大学 | 基于多路卷积神经网络的语音识别方法 |
WO2020062679A1 (zh) * | 2018-09-30 | 2020-04-02 | 厦门快商通信息技术有限公司 | 一种基于深度学习的端到端说话人分割方法及系统 |
CN109272988A (zh) * | 2018-09-30 | 2019-01-25 | 江南大学 | 基于多路卷积神经网络的语音识别方法 |
CN109243466A (zh) * | 2018-11-12 | 2019-01-18 | 成都傅立叶电子科技有限公司 | 一种声纹鉴权训练方法及系统 |
CN109285539B (zh) * | 2018-11-28 | 2022-07-05 | 中国电子科技集团公司第四十七研究所 | 一种基于神经网络的声音识别方法 |
CN109285539A (zh) * | 2018-11-28 | 2019-01-29 | 中国电子科技集团公司第四十七研究所 | 一种基于神经网络的声音识别方法 |
CN109524014A (zh) * | 2018-11-29 | 2019-03-26 | 辽宁工业大学 | 一种基于深度卷积神经网络的声纹识别分析方法 |
CN109525787A (zh) * | 2018-12-13 | 2019-03-26 | 南京邮电大学 | 面向直播场景的实时字幕翻译及系统实现方法 |
CN109525787B (zh) * | 2018-12-13 | 2021-03-16 | 南京邮电大学 | 面向直播场景的实时字幕翻译及系统实现方法 |
CN109448732A (zh) * | 2018-12-27 | 2019-03-08 | 科大讯飞股份有限公司 | 一种数字串语音处理方法及装置 |
CN109448732B (zh) * | 2018-12-27 | 2021-06-08 | 科大讯飞股份有限公司 | 一种数字串语音处理方法及装置 |
CN109633289A (zh) * | 2018-12-28 | 2019-04-16 | 集美大学 | 一种基于倒谱和卷积神经网络的电磁红信息检测方法 |
CN109657739B (zh) * | 2019-01-09 | 2023-03-24 | 西北大学 | 一种基于高频声波短时傅里叶变换的手写字母识别方法 |
CN109657739A (zh) * | 2019-01-09 | 2019-04-19 | 西北大学 | 一种基于高频声波短时傅里叶变换的手写字母识别方法 |
CN110517666B (zh) * | 2019-01-29 | 2021-03-02 | 腾讯科技(深圳)有限公司 | 音频识别方法、系统、机器设备和计算机可读介质 |
CN110517666A (zh) * | 2019-01-29 | 2019-11-29 | 腾讯科技(深圳)有限公司 | 音频识别方法、系统、机器设备和计算机可读介质 |
CN110363148A (zh) * | 2019-07-16 | 2019-10-22 | 中用科技有限公司 | 一种人脸声纹特征融合验证的方法 |
CN110459225B (zh) * | 2019-08-14 | 2022-03-22 | 南京邮电大学 | 一种基于cnn融合特征的说话人辨认系统 |
CN110459225A (zh) * | 2019-08-14 | 2019-11-15 | 南京邮电大学 | 一种基于cnn融合特征的说话人辨认系统 |
CN111402927A (zh) * | 2019-08-23 | 2020-07-10 | 南京邮电大学 | 基于分段语谱图和双重Attention的语音情感识别方法 |
CN111402919A (zh) * | 2019-12-12 | 2020-07-10 | 南京邮电大学 | 一种基于多尺度多视图的戏曲唱腔风格识别方法 |
CN111274989A (zh) * | 2020-02-11 | 2020-06-12 | 中国科学院上海微系统与信息技术研究所 | 一种基于深度学习的野外车辆识别方法 |
CN111414832A (zh) * | 2020-03-16 | 2020-07-14 | 中国科学院水生生物研究所 | 一种基于鲸豚类低频水声信号的实时在线识别分类系统 |
CN111667836A (zh) * | 2020-06-19 | 2020-09-15 | 南京大学 | 基于深度学习的文本无关多标号说话人识别方法 |
CN115359497A (zh) * | 2022-10-14 | 2022-11-18 | 景臣科技(南通)有限公司 | 一种呼叫中心监控报警方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106952649A (zh) | 基于卷积神经网络和频谱图的说话人识别方法 | |
CN104732978B (zh) | 基于联合深度学习的文本相关的说话人识别方法 | |
CN102509547B (zh) | 基于矢量量化的声纹识别方法及系统 | |
CN109559736B (zh) | 一种基于对抗网络的电影演员自动配音方法 | |
CN110289003A (zh) | 一种声纹识别的方法、模型训练的方法以及服务器 | |
CN109637545B (zh) | 基于一维卷积非对称双向长短时记忆网络的声纹识别方法 | |
CN108231067A (zh) | 基于卷积神经网络与随机森林分类的声音场景识别方法 | |
CN112562741B (zh) | 一种基于点积自注意力卷积神经网络的歌声检测方法 | |
CN107393554A (zh) | 一种声场景分类中融合类间标准差的特征提取方法 | |
Chakravarty et al. | Spoof detection using sequentially integrated image and audio features | |
Cheng et al. | DNN-based speech enhancement with self-attention on feature dimension | |
Sun et al. | A novel convolutional neural network voiceprint recognition method based on improved pooling method and dropout idea | |
Zheng et al. | MSRANet: Learning discriminative embeddings for speaker verification via channel and spatial attention mechanism in alterable scenarios | |
Singh | A text independent speaker identification system using ANN, RNN, and CNN classification technique | |
Saritha et al. | Deep Learning-Based End-to-End Speaker Identification Using Time–Frequency Representation of Speech Signal | |
Anjali et al. | Infant cry classification using transfer learning | |
Wang et al. | Revealing the processing history of pitch-shifted voice using CNNs | |
Jiang et al. | Research on voiceprint recognition of camouflage voice based on deep belief network | |
Yue et al. | Equilibrium optimizer for emotion classification from english speech signals | |
Sailor et al. | Unsupervised Representation Learning Using Convolutional Restricted Boltzmann Machine for Spoof Speech Detection. | |
Mishra et al. | Speech emotion classification using feature-level and classifier-level fusion | |
Returi et al. | An artificial neural networks model by using wavelet analysis for speaker recognition | |
Wu et al. | Audio-based expansion learning for aerial target recognition | |
Jiang et al. | A Speech Emotion Recognition Method Based on Improved Residual Network | |
Alex et al. | Performance analysis of SOFM based reduced complexity feature extraction methods with back propagation neural network for multilingual digit recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170714 |