CN113223507B - 基于双输入互干扰卷积神经网络的异常语音识别方法 - Google Patents
基于双输入互干扰卷积神经网络的异常语音识别方法 Download PDFInfo
- Publication number
- CN113223507B CN113223507B CN202110439720.8A CN202110439720A CN113223507B CN 113223507 B CN113223507 B CN 113223507B CN 202110439720 A CN202110439720 A CN 202110439720A CN 113223507 B CN113223507 B CN 113223507B
- Authority
- CN
- China
- Prior art keywords
- unit
- convolution
- neural network
- convolutional neural
- mutual interference
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 26
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 23
- 238000000034 method Methods 0.000 title claims abstract description 19
- 238000000605 extraction Methods 0.000 claims abstract description 16
- 230000004927 fusion Effects 0.000 claims abstract description 12
- 230000011218 segmentation Effects 0.000 claims abstract description 9
- 238000007499 fusion processing Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 24
- 210000002569 neuron Anatomy 0.000 claims description 18
- 230000004913 activation Effects 0.000 claims description 9
- 238000009795 derivation Methods 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 238000012546 transfer Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 2
- 230000035945 sensitivity Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 208000000697 Vocal Cord Dysfunction Diseases 0.000 description 1
- 208000013154 Vocal cord disease Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Biology (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Probability & Statistics with Applications (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Abstract
本发明提供的一种于双输入互干扰卷积神经网络的异常语音识别方法,包括:S1.采集语音信号,并对语音信号进行分割预处理得到语音样本;S2.构建双输入互干扰卷积神经网络,所述双输入互干扰卷积神经网络包括第一卷积单元、第二卷积单元、特征融合单元、全连接单元以及分类输出单元;所述第一卷积单元具有5层卷积核,第二卷积单元具有7层卷积核,所述第一卷积单元和第二卷积单元输入相同的语音样本,所述第一卷积单元和第二卷积单元向特征融合单元输出特征提取结果,所述特征融合单元对特征提取结果进行融合处理并输出至全连接单元分类输出单元;分类输出单元根据全连接单元输出的处理后的特征提取结果进行分类识别输出异常语音,通过本发明,能够对人体发出的语音信号中的异常语音进行准确识别,从而确保识别精度,而且灵敏度高。
Description
技术领域
本发明涉及一种语音识别方法,尤其涉及一种基于双输入互干扰卷积神经网络的异常语音识别方法。
背景技术
咽喉疾病将导致声带功能障碍,从而引起发出的语音出现异常,那么如何实现人体发出的语音信号的异常识别则存在极大的难点。
现有技术中,对于异常语音信号的识别采用如下方式:基于音位谱的异常语音识别,基于相互信息、假邻居分数和Lyapunov谱的度量方法来进行识别,但是,这些方法识别的准确性差,虽然现有技术中还提出了基于计算机进行升学分析,但是,其准确性、灵敏度都比较差。
因此,为了解决上述技术问题,亟需提出一种新的技术手段。
发明内容
有鉴于此,本发明的目的是提供一种基于双输入互干扰卷积神经网络的异常语音识别方法,能够对人体发出的语音信号中的异常语音进行准确识别,从而确保识别精度,而且灵敏度高。
本发明提供的一种于双输入互干扰卷积神经网络的异常语音识别方法,包括以下步骤:
S1.采集语音信号,并对语音信号进行分割预处理得到语音样本;
S2.构建双输入互干扰卷积神经网络,所述双输入互干扰卷积神经网络包括第一卷积单元、第二卷积单元、特征融合单元、全连接单元以及分类输出单元;
所述第一卷积单元具有5层卷积核,第二卷积单元具有7层卷积核,所述第一卷积单元和第二卷积单元输入相同的语音样本,所述第一卷积单元和第二卷积单元向特征融合单元输出特征提取结果,所述特征融合单元对特征提取结果进行融合处理并输出至全连接单元分类输出单元;分类输出单元根据全连接单元输出的处理后的特征提取结果进行分类识别输出异常语音。
进一步,步骤S1中,对语音信号进行分割预处理包括:
确定语音信号的最大可分割样本数量m:
确定每个语音样本的数据:
data(i)=Raw_data(s(λ,i));
其中,Raw_data表示原始语音数据,data(i)表示某一原始语音信号分割后产生的第i个样本,s(λ,i)表示区间在[(i-1)λL,(i-1)λL+L]上所有点的集合。
进一步,步骤S2中,对双输入互干扰卷积神经网络采用如下方法进行训练:
构建损失函数:
确定第l层的损失误差χl:
构建卷积单元的最大池转换函数:
对最大池转换函数进行求导:
构建卷积池化部分的反向传播函数:
构建反转误差矩阵:
其中,rot180表示将卷积内核反转180度,Wl表示l卷积层中的权重。
对权重和偏置值进行迭代更新:
按照上述步骤,调整权重和偏置值,使得损失误差达到设定值,则完成对双输入互干扰卷积神经网络的训练。
进一步,步骤S2中,分类输出单元采用如下分类函数进行分类处理:
其中,zj表示第j个输出逻辑神经元的值。t(zj)表示分类函数输出的预测概率值,zk表示第k个输出逻辑神经元的值。
本发明的有益效果:通过本发明,能够对人体发出的语音信号中的异常语音进行准确识别,从而确保识别精度,而且灵敏度高。
附图说明
下面结合附图和实施例对本发明作进一步描述:
图1为本发明的流程图。
图2为本发明的双输入互干扰卷积神经网络结构示意图。
具体实施方式
以下结合说明书附图对本发明做出进一步详细说明:
本发明提供的一种于双输入互干扰卷积神经网络的异常语音识别方法,包括以下步骤:
S1.采集语音信号,并对语音信号进行分割预处理得到语音样本;
S2.构建双输入互干扰卷积神经网络,所述双输入互干扰卷积神经网络包括第一卷积单元、第二卷积单元、特征融合单元、全连接单元以及分类输出单元;
所述第一卷积单元具有5层卷积核,第二卷积单元具有7层卷积核,所述第一卷积单元和第二卷积单元输入相同的语音样本,所述第一卷积单元和第二卷积单元向特征融合单元输出特征提取结果,所述特征融合单元对特征提取结果进行融合处理并输出至全连接单元分类输出单元;分类输出单元根据全连接单元输出的处理后的特征提取结果进行分类识别输出异常语音,通过本发明,能够对人体发出的语音信号中的异常语音进行准确识别,从而确保识别精度,而且灵敏度高。
本实施例中,步骤S1中,对语音信号进行分割预处理包括:
确定语音信号的最大可分割样本数量m:
确定每个语音样本的数据:
data(i)=Raw_data(s(λ,i));
其中,Raw_data表示原始语音数据,data(i)表示某一原始语音信号分割后产生的第i个样本,s(λ,i)表示区间在[(i-1)λL,(i-1)λL+L]上所有点的集合,通过上述方法,能够获取准确的语音信号样本,从而有效确保最终异常语音识别结果的准确性。
本实施例中,步骤S2中,对双输入互干扰卷积神经网络采用如下方法进行训练:
构建损失函数:
确定第l层的损失误差χl:
构建卷积单元的最大池转换函数:
对最大池转换函数进行求导:
构建卷积池化部分的反向传播函数:
构建反转误差矩阵:
其中,rot180表示将卷积内核反转180度,Wl表示l卷积层中的权重。
对权重和偏置值进行迭代更新:
按照上述步骤,调整权重和偏置值,使得损失误差达到设定值,则完成对双输入互干扰卷积神经网络的训练。
,步骤S2中,分类输出单元采用如下分类函数进行分类处理:
其中,zj表示第j个输出逻辑神经元的值。t(zj)表示分类函数输出的预测概率值,zk表示第k个输出逻辑神经元的值。通过上述方法,能够确保准确的异常语音识别结果。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (4)
1.一种基于双输入互干扰卷积神经网络的异常语音识别方法,其特征在于:包括以下步骤:
S1.采集语音信号,并对语音信号进行分割预处理得到语音样本;
S2.构建双输入互干扰卷积神经网络,所述双输入互干扰卷积神经网络包括第一卷积单元、第二卷积单元、特征融合单元、全连接单元以及分类输出单元;
所述第一卷积单元具有5层卷积核,第二卷积单元具有7层卷积核,所述第一卷积单元和第二卷积单元输入相同的语音样本,所述第一卷积单元和第二卷积单元向特征融合单元输出特征提取结果,所述特征融合单元对特征提取结果进行融合处理并输出至全连接单元;分类输出单元根据全连接单元输出的处理后的特征提取结果进行分类识别输出异常语音。
3.根据权利要求1所述基于双输入互干扰卷积神经网络的异常语音识别方法,其特征在于:步骤S2中,对双输入互干扰卷积神经网络采用如下方法进行训练:
构建损失函数:
确定第l层的损失误差χl:
构建卷积单元的最大池转换函数:
对最大池转换函数进行求导:
构建卷积池化部分的反向传播函数:
构建反转误差矩阵:
其中,rot180表示将卷积内核反转180度,Wl表示l卷积层中的权重;
对权重和偏置值进行迭代更新:
按照上述步骤,调整权重和偏置值,使得损失误差达到设定值,则完成对双输入互干扰卷积神经网络的训练。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110401606 | 2021-04-14 | ||
CN2021104016066 | 2021-04-14 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113223507A CN113223507A (zh) | 2021-08-06 |
CN113223507B true CN113223507B (zh) | 2022-06-24 |
Family
ID=77088816
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110439720.8A Expired - Fee Related CN113223507B (zh) | 2021-04-14 | 2021-04-23 | 基于双输入互干扰卷积神经网络的异常语音识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113223507B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107393542A (zh) * | 2017-06-28 | 2017-11-24 | 北京林业大学 | 一种基于双通道神经网络的鸟类物种识别方法 |
CN109473120A (zh) * | 2018-11-14 | 2019-03-15 | 辽宁工程技术大学 | 一种基于卷积神经网络的异常声音信号识别方法 |
CN109599129A (zh) * | 2018-11-13 | 2019-04-09 | 杭州电子科技大学 | 基于注意力机制和卷积神经网络的语音抑郁症识别方法 |
WO2019225801A1 (ko) * | 2018-05-23 | 2019-11-28 | 한국과학기술원 | 사용자의 음성 신호를 기반으로 감정, 나이 및 성별을 동시에 인식하는 방법 및 시스템 |
CN111370027A (zh) * | 2020-03-02 | 2020-07-03 | 乐鑫信息科技(上海)股份有限公司 | 一种离线嵌入式异常声音检测系统和方法 |
CN111933188A (zh) * | 2020-09-14 | 2020-11-13 | 电子科技大学 | 一种基于卷积神经网络的声音事件检测方法 |
CN112349297A (zh) * | 2020-11-10 | 2021-02-09 | 西安工程大学 | 一种基于麦克风阵列的抑郁症检测方法 |
CN112466290A (zh) * | 2021-02-02 | 2021-03-09 | 鹏城实验室 | 异常声音检测模型的训练方法、装置和计算机存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106920545B (zh) * | 2017-03-21 | 2020-07-28 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音特征提取方法和装置 |
KR20180115599A (ko) * | 2017-04-13 | 2018-10-23 | 인하대학교 산학협력단 | 발화 개선을 위한 두경부 물리 특성 기반의 가이드 및 피드백 시스템 |
-
2021
- 2021-04-23 CN CN202110439720.8A patent/CN113223507B/zh not_active Expired - Fee Related
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107393542A (zh) * | 2017-06-28 | 2017-11-24 | 北京林业大学 | 一种基于双通道神经网络的鸟类物种识别方法 |
WO2019225801A1 (ko) * | 2018-05-23 | 2019-11-28 | 한국과학기술원 | 사용자의 음성 신호를 기반으로 감정, 나이 및 성별을 동시에 인식하는 방법 및 시스템 |
CN109599129A (zh) * | 2018-11-13 | 2019-04-09 | 杭州电子科技大学 | 基于注意力机制和卷积神经网络的语音抑郁症识别方法 |
CN109473120A (zh) * | 2018-11-14 | 2019-03-15 | 辽宁工程技术大学 | 一种基于卷积神经网络的异常声音信号识别方法 |
CN111370027A (zh) * | 2020-03-02 | 2020-07-03 | 乐鑫信息科技(上海)股份有限公司 | 一种离线嵌入式异常声音检测系统和方法 |
CN111933188A (zh) * | 2020-09-14 | 2020-11-13 | 电子科技大学 | 一种基于卷积神经网络的声音事件检测方法 |
CN112349297A (zh) * | 2020-11-10 | 2021-02-09 | 西安工程大学 | 一种基于麦克风阵列的抑郁症检测方法 |
CN112466290A (zh) * | 2021-02-02 | 2021-03-09 | 鹏城实验室 | 异常声音检测模型的训练方法、装置和计算机存储介质 |
Non-Patent Citations (2)
Title |
---|
Heart sounds classification using a novel 1-D convolutional neural network with extremely low parameter consumption;Xiao Bin;《Neurocomputing》;20200607;153-159 * |
基于卷积神经网络的异常音频事件检测的研究;胡涛;《中国优秀硕士学位论文全文数据库》;20180815(第8期);I136-102 * |
Also Published As
Publication number | Publication date |
---|---|
CN113223507A (zh) | 2021-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110807365B (zh) | 一种基于gru与一维cnn神经网络融合的水下目标识别方法 | |
Chen et al. | K-means clustering-based kernel canonical correlation analysis for multimodal emotion recognition in human–robot interaction | |
CN110399850A (zh) | 一种基于深度神经网络的连续手语识别方法 | |
CN108694346B (zh) | 一种基于两级cnn的船舶辐射噪声信号识别方法 | |
CN116564355A (zh) | 一种基于自注意力机制融合的多模态情感识别方法、系统、设备及介质 | |
CN111128178A (zh) | 一种基于面部表情分析的语音识别方法 | |
CN114141366B (zh) | 基于语音多任务学习的脑卒中康复评估辅助分析方法 | |
CN115312033A (zh) | 基于人工智能的语音情感识别方法、装置、设备及介质 | |
CN111145145A (zh) | 一种基于MobileNets的图像表面缺陷检测方法 | |
Chinmayi et al. | Emotion Classification Using Deep Learning | |
CN116842460A (zh) | 基于注意力机制与残差神经网络的咳嗽关联疾病识别方法和系统 | |
CN116978408B (zh) | 基于语音预训练模型的抑郁症检测方法及系统 | |
CN118136005A (zh) | 语音识别方法、装置、电子设备及存储介质 | |
CN113851148A (zh) | 一种基于迁移学习和多损失动态调整的跨库语音情感识别方法 | |
CN113223507B (zh) | 基于双输入互干扰卷积神经网络的异常语音识别方法 | |
CN117576012A (zh) | 一种基于不平衡眼底图像数据的疾病预测方法 | |
CN116432664A (zh) | 一种高质量数据扩增的对话意图分类方法及系统 | |
Semerjian et al. | White blood cells classification using built-in customizable trained convolutional neural network | |
Aggarwal et al. | Application of genetically optimized neural networks for hindi speech recognition system | |
CN114818789A (zh) | 一种基于数据增强的船舶辐射噪声识别方法 | |
Gui et al. | End-to-end asr-enhanced neural network for alzheimer’s disease diagnosis | |
Barkur et al. | EnsembleWave: an ensembled approach for automatic speech emotion recognition | |
Pedalanka et al. | An Enhanced Deep Neural Network-Based Approach for Speaker Recognition Using Triumvirate Euphemism Strategy | |
CN118098288B (zh) | 一种基于自学习标签校正的弱监督语音抑郁症检测方法 | |
CN114757970B (zh) | 一种基于样本平衡的多层级回归目标跟踪方法和跟踪系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220624 |
|
CF01 | Termination of patent right due to non-payment of annual fee |