CN111554325B - 一种嗓音识别方法及系统 - Google Patents
一种嗓音识别方法及系统 Download PDFInfo
- Publication number
- CN111554325B CN111554325B CN202010385515.3A CN202010385515A CN111554325B CN 111554325 B CN111554325 B CN 111554325B CN 202010385515 A CN202010385515 A CN 202010385515A CN 111554325 B CN111554325 B CN 111554325B
- Authority
- CN
- China
- Prior art keywords
- voice
- acoustic
- voice signal
- characteristic parameter
- acoustic characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000002159 abnormal effect Effects 0.000 claims abstract description 71
- 230000004927 fusion Effects 0.000 claims abstract description 54
- 238000013145 classification model Methods 0.000 claims abstract description 22
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 13
- 230000001755 vocal effect Effects 0.000 claims description 21
- 238000005457 optimization Methods 0.000 claims description 17
- 238000001228 spectrum Methods 0.000 claims description 7
- 238000007477 logistic regression Methods 0.000 claims description 6
- 230000001575 pathological effect Effects 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 201000008197 Laryngitis Diseases 0.000 description 1
- 206010033799 Paralysis Diseases 0.000 description 1
- 206010047675 Vocal cord polyp Diseases 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 208000014515 polyp of vocal cord Diseases 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 210000002416 recurrent laryngeal nerve Anatomy 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/66—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/48—Other medical applications
- A61B5/4803—Speech analysis specially adapted for diagnostic purposes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Public Health (AREA)
- General Health & Medical Sciences (AREA)
- Pathology (AREA)
- Biomedical Technology (AREA)
- Heart & Thoracic Surgery (AREA)
- Medical Informatics (AREA)
- Molecular Biology (AREA)
- Surgery (AREA)
- Animal Behavior & Ethology (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Veterinary Medicine (AREA)
- Epidemiology (AREA)
- Telephonic Communication Services (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种嗓音识别方法及系统。该方法包括:获取嗓音数据库;根据嗓音数据库中的所有嗓音信号,得到所有嗓音信号的一维线性特征参数;对所有嗓音信号进行小波包分解;得到所有嗓音信号的多维分层非线性特征参数;采用降维方法,根据所有嗓音信号的一维线性特征参数,得到所有嗓音信号的优化融合特征;根据所有嗓音信号的优化融合特征和多分类支持向量机构建正常嗓音和非正常嗓音的分类模型;获取用户的待识别嗓音信号;根据待识别嗓音信号,得到待识别嗓音信号的优化融合特征;利用分类模型对待识别嗓音信号的优化融合特征进行分类,得到分类结果。本发明所提供一种嗓音识别方法及系统,解决现有技术中嗓音识别准确性低的问题。
Description
技术领域
本发明涉及嗓音识别领域,特别是涉及一种嗓音识别方法及系统。
背景技术
据调查显示约25%的世界人口是“职业用嗓过度者”。因为一些特定的职业迫使从事者说话的声音要超过正常水平,例如,歌手、演员、律师、教师等。而日复一日的过度用嗓会造成他们的声带受损,直接影响到嗓音质量,进而给生活和工作带来不便。并且不同的人的嗓音也不同,通过嗓音进行电话拨入银行、数据库服务、购物、语音邮件以及进入保密的装置,并且还可以通过嗓音识别出非正常的嗓音。
国内外主要使用电子计算机及频谱分析仪采集、分析、统计嗓音声样,对嗓音进行声学分析。国内已有的嗓音医学相关系统为国产USSA语音频谱分析系统,但上述系统、软件价格昂贵,且受于时间和环境的限制,不能随时随地方便快捷对嗓音信号进行分析评估。
而通过主观听觉进行嗓音识别,带有主观判断,个人意识过强,造成嗓音识别准确性低。
发明内容
本发明的目的是提供一种嗓音识别方法及系统,解决现有技术中嗓音识别准确性低的问题。
为实现上述目的,本发明提供了如下方案:
一种嗓音识别方法,包括:
获取嗓音数据库;所述嗓音数据库包括正常嗓音数据和非正常嗓音数据;所述正常嗓音数据和所述非正常嗓音数据均包括多个嗓音信号,所述正常嗓音数据和所述非正常嗓音数据均包括多个嗓音级别;不同的嗓音级别对应的嗓音质量不同;
根据所述嗓音数据库中的所有嗓音信号,得到所述嗓音数据库中的所有嗓音信号的一维线性特征参数;所述一维线性特征参数包括谐噪比、基频微扰、振幅微扰、基频标准差、倒谱峰值突出、频谱平坦度和基音幅值;
对所述嗓音数据库中的所有嗓音信号进行小波包分解;得到所述嗓音数据库中的所有嗓音信号的多维分层非线性特征参数;所述多维分层非线性特征参数包括:复杂度、Hurst指数、Teager能量算子、样本熵和模糊熵;
采用降维方法,根据所述嗓音数据库中的所有嗓音信号的一维线性特征参数和多维分层非线性特征参数,得到所述嗓音数据库中的所有嗓音信号的优化融合特征;
根据所述嗓音数据库中的所有嗓音信号的优化融合特征和多分类支持向量机构建正常嗓音和非正常嗓音的分类模型;
获取用户的待识别嗓音信号;
根据所述待识别嗓音信号,得到所述待识别嗓音信号的优化融合特征;
利用所述分类模型对所述待识别嗓音信号的优化融合特征进行分类,得到所述待识别嗓音信号的分类结果;所述待识别嗓音信号的分类结果为正常嗓音或非正常嗓音。
可选的,所述根据所述待识别嗓音信号,得到所述待识别嗓音信号的优化融合特征,具体包括:
根据所述待识别嗓音信号,得到所述待识别嗓音信号的一维线性特征参数;
对所述待识别嗓音信号进行小波包分解,得到所述待识别嗓音信号的多维分层非线性特征参数;
根据所述待识别嗓音信号的一维线性特征参数和所述待识别嗓音信号的多维分层非线性特征参数,采用降维方法,得到所述待识别嗓音信号的优化融合特征。
可选的,所述利用所述分类模型对所述待识别嗓音信号的优化融合特征进行分类,得到所述待识别嗓音信号的分类结果,之后还包括:
当所述待识别嗓音信号的分类结果为正常嗓音时,获取所述嗓音数据库中正常嗓音数据的第一嗓音级别对应的每个嗓音信号的多个第一声学特征参数,得到所述嗓音数据库的第一声学特征参数集合;多个所述第一声学特征参数分别为频带宽度、音域、第一共振峰、第三共振峰和基频;所述第一嗓音级别为所述正常嗓音数据中质量最高的级别;
计算所述嗓音数据库的第一声学特征参数集合中每个第一声学特征参数的平均区间;
获取所述待识别嗓音信号的多个第一声学特征参数,得到所述待识别嗓音信号的第一声学特征参数集合;
获取所述待识别嗓音信号的第一声学特征参数集合中符合要求的第一声学特征参数的个数;所述符合要求的第一声学特征参数为处于对应的平均区间内的第一声学特征参数;
若所述待识别嗓音信号的第一声学特征参数集合中符合要求的第一声学特征参数的个数小于3,则将所述待识别嗓音信号确定为普通嗓音信号;
若所述待识别嗓音信号的第一声学特征参数集合中符合要求的第一声学特征参数的个数不小于3,则将所述待识别嗓音信号确定为优质嗓音信号。
可选的,所述利用所述分类模型对所述待识别嗓音信号的优化融合特征进行分类,得到所述待识别嗓音信号的分类结果,之后还包括:
当所述待识别嗓音信号的分类结果为非正常嗓音信号时,获得所述嗓音数据库中非正常嗓音数据的嗓音级别;
获取所述嗓音数据库中非正常嗓音数据的每一嗓音级别对应的每个嗓音信号的多个第二声学特征参数,得到所述嗓音数据库的第二声学特征参数集合;多个所述第二声学特征参数分别为基频微扰、振幅微扰、谐噪比、倒谱峰值突出、Hurst指数、Teager能量算子、样本熵。模糊熵、L-Z复杂度、开放熵、闭合熵和速度熵;
计算所述嗓音数据库的第二声学特征参数集合中每个第二声学特征参数与对应嗓音级别的第一斯皮尔曼相关系数;
判断所述第二声学特征参数集合中的第二声学特征参数对应的第一斯皮尔曼相关系数是否大于第一设定阈值;
若所述第二声学特征参数集合中的第二声学特征参数对应的第一斯皮尔曼相关系数是大于第一设定阈值,则保留第一斯皮尔曼相关系数对应的第二声学特征参数;
若所述第二声学特征参数集合中的第二声学特征参数对应的第一斯皮尔曼相关系数是不大于第一设定阈值,则剔除第一斯皮尔曼相关系数对应的第二声学特征参数;
获得所有保留的第二声学特征参数,得到第三声学特征参数集合;
计算所述第三声学特征参数集合中第i个第二声学特征参数和第j个第二声学特征参数的斯皮尔曼相关系数,得到第二斯皮尔曼相关系数;i不等于j,所述第i个第二声学特征参数对应的第一斯皮尔曼相关系数大于所述第j个第二声学特征参数对应的第一斯皮尔曼相关系数;
判断所述第三声学特征参数集合中第i个第二声学特征参数和第j个第二声学特征参数对应的第二斯皮尔曼相关系数是否大于第二设定阈值;
若所述第三声学特征参数集合中第i个第二声学特征参数和第j个第二声学特征参数对应的第二斯皮尔曼相关系数是大于第二设定阈值,则保留第i个第二声学特征参数,剔除第j个第二声学特征参数;
若所述第三声学特征参数集合中第i个第二声学特征参数和第j个第二声学特征参数对应的第二斯皮尔曼相关系数是不大于第二设定阈值,则保留第i个第二声学特征参数和第j个第二声学特征参数;
获得所有保留的第二声学特征参数,得到第四声学特征参数集合;
采用应用逻辑回归分析,根据所述第四声学特征参数集合,确定非正常嗓音等级划分的客观公式标准;
利用所述非正常嗓音等级划分的客观公式标准对所述待识别嗓音信号进行等级划分。
一种嗓音识别系统,包括:
数据库获取模块,用于获取嗓音数据库;所述嗓音数据库包括正常嗓音数据和非正常嗓音数据;所述正常嗓音数据和所述非正常嗓音数据均包括多个嗓音信号,所述正常嗓音数据和所述非正常嗓音数据均包括多个嗓音级别;不同的嗓音级别对应的嗓音质量不同;
一维线性特征参数确定模块,用于根据所述嗓音数据库中的所有嗓音信号,得到所述嗓音数据库中的所有嗓音信号的一维线性特征参数;所述一维线性特征参数包括谐噪比、基频微扰、振幅微扰、基频标准差、倒谱峰值突出、频谱平坦度和基音幅值;
多维分层非线性特征参数确定模块,用于对所述嗓音数据库中的所有嗓音信号进行小波包分解;得到所述嗓音数据库中的所有嗓音信号的多维分层非线性特征参数;所述多维分层非线性特征参数包括:复杂度、Hurst指数、Teager能量算子、样本熵和模糊熵;
第一优化融合特征确定模块,用于采用降维方法,根据所述嗓音数据库中的所有嗓音信号的一维线性特征参数和多维分层非线性特征参数,得到所述嗓音数据库中的所有嗓音信号的优化融合特征;
分类模型构建模块,用于根据所述嗓音数据库中的所有嗓音信号的优化融合特征和多分类支持向量机构建正常嗓音和非正常嗓音的分类模型;
待识别嗓音信号获取模块,用于获取用户的待识别嗓音信号;
第二优化融合特征确定模块,用于根据所述待识别嗓音信号,得到所述待识别嗓音信号的优化融合特征;
分类结果确定模块,用于利用所述分类模型对所述待识别嗓音信号的优化融合特征进行分类,得到所述待识别嗓音信号的分类结果;所述待识别嗓音信号的分类结果为正常嗓音或非正常嗓音。
可选的,所述第二优化融合特征具体包括:
一维线性特征参数确定单元,用于根据所述待识别嗓音信号,得到所述待识别嗓音信号的一维线性特征参数;
多维分层非线性特征参数确定单元,用于对所述待识别嗓音信号进行小波包分解,得到所述待识别嗓音信号的多维分层非线性特征参数;
第二优化融合特征确定单元,用于根据所述待识别嗓音信号的一维线性特征参数和所述待识别嗓音信号的多维分层非线性特征参数,采用降维方法,得到所述待识别嗓音信号的优化融合特征。
可选的,还包括:
正常嗓音数据的第一声学特征参数集合确定模块,用于当所述待识别嗓音信号的分类结果为正常嗓音时,获取所述嗓音数据库中正常嗓音数据的第一嗓音级别对应的每个嗓音信号的多个第一声学特征参数,得到所述嗓音数据库的第一声学特征参数集合;多个所述第一声学特征参数分别为频带宽度、音域、第一共振峰、第三共振峰和基频;所述第一嗓音级别为所述正常嗓音数据中质量最高的级别;
平均区间确定模块,用于计算所述嗓音数据库的第一声学特征参数集合中每个第一声学特征参数的平均区间;
待识别嗓音信号的第一声学特征参数集合确定模块,用于获取所述待识别嗓音信号的多个第一声学特征参数,得到所述待识别嗓音信号的第一声学特征参数集合;
符合要求的第一声学特征参数个数确定模块,用于获取所述待识别嗓音信号的第一声学特征参数集合中符合要求的第一声学特征参数的个数;所述符合要求的第一声学特征参数为处于对应的平均区间内的第一声学特征参数;
普通嗓音信号确定模块,用于若所述待识别嗓音信号的第一声学特征参数集合中符合要求的第一声学特征参数的个数小于3,则将所述待识别嗓音信号确定为普通嗓音信号;
优质嗓音信号确定模块,用于若所述待识别嗓音信号的第一声学特征参数集合中符合要求的第一声学特征参数的个数不小于3,则将所述待识别嗓音信号确定为优质嗓音信号。
可选的,还包括:
非正常嗓音数据的嗓音级别获取模块,用于当所述待识别嗓音信号的分类结果为非正常嗓音信号时,获得所述嗓音数据库中非正常嗓音数据的嗓音级别;
第二声学特征参数集合确定模块,用于获取所述嗓音数据库中非正常嗓音数据的每一嗓音级别对应的每个嗓音信号的多个第二声学特征参数,得到所述嗓音数据库的第二声学特征参数集合;多个所述第二声学特征参数分别为基频微扰、振幅微扰、谐噪比、倒谱峰值突出、Hurst指数、Teager能量算子、样本熵。模糊熵、L-Z复杂度、开放熵、闭合熵和速度熵;
第一斯皮尔曼相关系数确定模块,用于计算所述嗓音数据库的第二声学特征参数集合中每个第二声学特征参数与对应嗓音级别的第一斯皮尔曼相关系数;
第一判断模块,用于判断所述第二声学特征参数集合中的第二声学特征参数对应的第一斯皮尔曼相关系数是否大于第一设定阈值;
第一保留模块,用于若所述第二声学特征参数集合中的第二声学特征参数对应的第一斯皮尔曼相关系数是大于第一设定阈值,则保留第一斯皮尔曼相关系数对应的第二声学特征参数;
第一剔除模块,用于若所述第二声学特征参数集合中的第二声学特征参数对应的第一斯皮尔曼相关系数是不大于第一设定阈值,则剔除第一斯皮尔曼相关系数对应的第二声学特征参数;
第三声学特征参数集合确定模块,用于获得所有保留的第二声学特征参数,得到第三声学特征参数集合;
第二斯皮尔曼相关系数确定模块,用于计算所述第三声学特征参数集合中第i个第二声学特征参数和第j个第二声学特征参数的斯皮尔曼相关系数,得到第二斯皮尔曼相关系数;i不等于j,所述第i个第二声学特征参数对应的第一斯皮尔曼相关系数大于所述第j个第二声学特征参数对应的第一斯皮尔曼相关系数;
第二判断模块,用于判断所述第三声学特征参数集合中第i个第二声学特征参数和第j个第二声学特征参数对应的第二斯皮尔曼相关系数是否大于第二设定阈值;
第二剔除模块,用于若所述第三声学特征参数集合中第i个第二声学特征参数和第j个第二声学特征参数对应的第二斯皮尔曼相关系数是大于第二设定阈值,则保留第i个第二声学特征参数,剔除第j个第二声学特征参数;
第二保留模块,用于若所述第三声学特征参数集合中第i个第二声学特征参数和第j个第二声学特征参数对应的第二斯皮尔曼相关系数是不大于第二设定阈值,则保留第i个第二声学特征参数和第j个第二声学特征参数;
第四声学特征参数集合确定模块,用于获得所有保留的第二声学特征参数,得到第四声学特征参数集合;
客观公式标准确定模块,用于采用应用逻辑回归分析,根据所述第四声学特征参数集合,确定非正常嗓音等级划分的客观公式标准;
等级划分模块,用于利用所述非正常嗓音等级划分的客观公式标准对所述待识别嗓音信号进行等级划分。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明所提供的一种嗓音识别方法及系统,利用数字处理技术建立正常嗓音和非正常嗓音的分类模型,通过正常嗓音和非正常嗓音的分类模型对待识别的嗓音信号进行分类,实现了嗓音的识别。并且本发明是一种分侵入性的分析技术,快速地、准确地实现对嗓音信号的识别。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明所提供的一种嗓音识别方法流程示意图;
图2为本发明所提供的一种嗓音识别系统结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种嗓音识别方法及系统,解决现有技术中嗓音识别准确性低的问题。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明所提供的一种嗓音识别方法流程示意图,如图1所示,本发明所提供的一种嗓音识别方法,包括:
S101,获取嗓音数据库。所述嗓音数据库包括正常嗓音数据和非正常嗓音数据;所述正常嗓音数据和所述非正常嗓音数据均包括多个嗓音信号,所述正常嗓音数据和所述非正常嗓音数据均包括多个嗓音级别;不同的嗓音级别对应的嗓音质量不同。
S102,根据所述嗓音数据库中的所有嗓音信号,得到所述嗓音数据库中的所有嗓音信号的一维线性特征参数;所述一维线性特征参数包括谐噪比、基频微扰、振幅微扰、基频标准差、倒谱峰值突出、频谱平坦度和基音幅值。
S103,对所述嗓音数据库中的所有嗓音信号进行小波包分解;得到所述嗓音数据库中的所有嗓音信号的多维分层非线性特征参数;所述多维分层非线性特征参数包括:复杂度、Hurst指数、Teager能量算子、样本熵和模糊熵。
S104,采用降维方法,根据所述嗓音数据库中的所有嗓音信号的一维线性特征参数和多维分层非线性特征参数,得到所述嗓音数据库中的所有嗓音信号的优化融合特征。
S105,根据所述嗓音数据库中的所有嗓音信号的优化融合特征和多分类支持向量机构建正常嗓音和非正常嗓音的分类模型。
S106,获取用户的待识别嗓音信号。
所述用户的待识别嗓音信号由嗓音采集装置进行采集。嗓音采集装置包括内置录音软件和扬声器话筒。嗓音采集时,用户以正常声调发音元音a(时长3s,话筒距离嘴唇10-15cm,且话筒位于嘴唇斜方45°),话筒将采集到的嗓音传送到采样率50KHZ、采样精度16bits的Cool Edit录音软件中。再通过扬声器回播采集到的嗓音,当确认录制内容无误、整个录音持续时间段内有声音后,采集嗓音将以wav格式保存,。
S107,根据所述待识别嗓音信号,得到所述待识别嗓音信号的优化融合特征。
根据所述待识别嗓音信号,得到所述待识别嗓音信号的一维线性特征参数。
对所述待识别嗓音信号进行小波包分解,得到所述待识别嗓音信号的多维分层非线性特征参数。
根据所述待识别嗓音信号的一维线性特征参数和所述待识别嗓音信号的多维分层非线性特征参数,采用降维方法,得到所述待识别嗓音信号的优化融合特征。
S108,利用所述分类模型对所述待识别嗓音信号的优化融合特征进行分类,得到所述待识别嗓音信号的分类结果;所述待识别嗓音信号的分类结果为正常嗓音或非正常嗓音。
根据所述待识别嗓音信号的分类结果还可以识别出病理嗓音。即通过分类结果可以识别出喉炎、声带息肉、喉返神经麻痹等疾病,
进一步的,所述待识别嗓音信号的分类结果通过医生确认无误后,将嗓音样本与各项信息(用户的年龄及性别等)共同保存在嗓音库中,扩大嗓音库的样本数量;确认有误,则以医生的评价为准,再将修改采集到的嗓音的分类结果保存数据库中。
在S108之后,为了进一步的提高多嗓音的识别精度,对分类之后的嗓音进行等级的划分。
当所述待识别嗓音信号的分类结果为正常嗓音时,获取所述嗓音数据库中正常嗓音数据的第一嗓音级别对应的每个嗓音信号的多个第一声学特征参数,得到所述嗓音数据库的第一声学特征参数集合。多个所述第一声学特征参数分别为频带宽度、音域、第一共振峰、第三共振峰和基频;所述第一嗓音级别为所述正常嗓音数据中质量最高的级别。
计算所述嗓音数据库的第一声学特征参数集合中每个第一声学特征参数的平均区间。
获取所述待识别嗓音信号的多个第一声学特征参数,得到所述待识别嗓音信号的第一声学特征参数集合。
获取所述待识别嗓音信号的第一声学特征参数集合中符合要求的第一声学特征参数的个数;所述符合要求的第一声学特征参数为处于对应的平均区间内的第一声学特征参数。
若所述待识别嗓音信号的第一声学特征参数集合中符合要求的第一声学特征参数的个数小于3,则将所述待识别嗓音信号确定为普通嗓音信号。
若所述待识别嗓音信号的第一声学特征参数集合中符合要求的第一声学特征参数的个数不小于3,则将所述待识别嗓音信号确定为优质嗓音信号。
当所述待识别嗓音信号的分类结果为非正常嗓音信号时,获得所述嗓音数据库中非正常嗓音数据的嗓音级别。
非正常嗓音数据的嗓音级别是由耳鼻喉科相关专家医师们对数据库中非正常嗓音数据进行嗓音听感知评估得到的结果。
获取所述嗓音数据库中非正常嗓音数据的每一嗓音级别对应的每个嗓音信号的多个第二声学特征参数,得到所述嗓音数据库的第二声学特征参数集合。多个所述第二声学特征参数分别为基频微扰、振幅微扰、谐噪比、倒谱峰值突出、Hurst指数、Teager能量算子、样本熵。模糊熵、L-Z复杂度、开放熵、闭合熵和速度熵。
计算所述嗓音数据库的第二声学特征参数集合中每个第二声学特征参数与对应嗓音级别的第一斯皮尔曼相关系数。
判断所述第二声学特征参数集合中的第二声学特征参数对应的第一斯皮尔曼相关系数是否大于第一设定阈值。
若所述第二声学特征参数集合中的第二声学特征参数对应的第一斯皮尔曼相关系数是大于第一设定阈值,则保留第一斯皮尔曼相关系数对应的第二声学特征参数。
若所述第二声学特征参数集合中的第二声学特征参数对应的第一斯皮尔曼相关系数是不大于第一设定阈值,则剔除第一斯皮尔曼相关系数对应的第二声学特征参数。
获得所有保留的第二声学特征参数,得到第三声学特征参数集合。
计算所述第三声学特征参数集合中第i个第二声学特征参数和第j个第二声学特征参数的斯皮尔曼相关系数,得到第二斯皮尔曼相关系数;i不等于j,所述第i个第二声学特征参数对应的第一斯皮尔曼相关系数大于所述第j个第二声学特征参数对应的第一斯皮尔曼相关系数。
判断所述第三声学特征参数集合中第i个第二声学特征参数和第j个第二声学特征参数对应的第二斯皮尔曼相关系数是否大于第二设定阈值。
若所述第三声学特征参数集合中第i个第二声学特征参数和第j个第二声学特征参数对应的第二斯皮尔曼相关系数是大于第二设定阈值,则保留第i个第二声学特征参数,剔除第j个第二声学特征参数。
若所述第三声学特征参数集合中第i个第二声学特征参数和第j个第二声学特征参数对应的第二斯皮尔曼相关系数是不大于第二设定阈值,则保留第i个第二声学特征参数和第j个第二声学特征参数。
获得所有保留的第二声学特征参数,得到第四声学特征参数集合。
采用应用逻辑回归分析,根据所述第四声学特征参数集合,确定非正常嗓音等级划分的客观公式标准。
利用所述非正常嗓音等级划分的客观公式标准对所述待识别嗓音信号进行等级划分。
当非正常嗓音为病理嗓音时,可以通过利用所述非正常嗓音等级划分的客观公式标准识别病理嗓音的具体病理情况。
为了进一步加强对用户嗓音信号的管理,对划分等级之后嗓音信号进行显示和保存。并更新用户信息与嗓音划分结果的数据库。
对应本发明所提供的一种嗓音识别方法,本发明还提供一种嗓音识别系统,如图2所示,本发明所提供一种嗓音识别系统包括:数据库获取模块201、一维线性特征参数确定模块202、多维分层非线性特征参数确定模块203、第一优化融合特征确定模块204、分类模型构建模块205、待识别嗓音信号获取模块206、第二优化融合特征确定模块207和分类结果确定模块208。
数据库获取模块201用于获取嗓音数据库。所述嗓音数据库包括正常嗓音数据和非正常嗓音数据;所述正常嗓音数据和所述非正常嗓音数据均包括多个嗓音信号,所述正常嗓音数据和所述非正常嗓音数据均包括多个嗓音级别;不同的嗓音级别对应的嗓音质量不同。
一维线性特征参数确定模块202用于根据所述嗓音数据库中的所有嗓音信号,得到所述嗓音数据库中的所有嗓音信号的一维线性特征参数;所述一维线性特征参数包括谐噪比、基频微扰、振幅微扰、基频标准差、倒谱峰值突出、频谱平坦度和基音幅值。
多维分层非线性特征参数确定模块203用于对所述嗓音数据库中的所有嗓音信号进行小波包分解;得到所述嗓音数据库中的所有嗓音信号的多维分层非线性特征参数;所述多维分层非线性特征参数包括:复杂度、Hurst指数、Teager能量算子、样本熵和模糊熵。
第一优化融合特征确定模块204用于采用降维方法,根据所述嗓音数据库中的所有嗓音信号的一维线性特征参数和多维分层非线性特征参数,得到所述嗓音数据库中的所有嗓音信号的优化融合特征。
分类模型构建模块205用于根据所述嗓音数据库中的所有嗓音信号的优化融合特征和多分类支持向量机构建正常嗓音和非正常嗓音的分类模型。
待识别嗓音信号获取模块206用于获取用户的待识别嗓音信号。
第二优化融合特征确定模块207用于根据所述待识别嗓音信号,得到所述待识别嗓音信号的优化融合特征。
分类结果确定模块208用于利用所述分类模型对所述待识别嗓音信号的优化融合特征进行分类,得到所述待识别嗓音信号的分类结果;所述待识别嗓音信号的分类结果为正常嗓音或非正常嗓音。
所述第二优化融合特征207具体包括:一维线性特征参数确定单元、多维分层非线性特征参数确定单元和第二优化融合特征确定单元。
一维线性特征参数确定单元用于根据所述待识别嗓音信号,得到所述待识别嗓音信号的一维线性特征参数。
多维分层非线性特征参数确定单元用于对所述待识别嗓音信号进行小波包分解,得到所述待识别嗓音信号的多维分层非线性特征参数。
第二优化融合特征确定单元用于根据所述待识别嗓音信号的一维线性特征参数和所述待识别嗓音信号的多维分层非线性特征参数,采用降维方法,得到所述待识别嗓音信号的优化融合特征。
本发明所提供的一种嗓音识别系统还包括:正常嗓音数据的第一声学特征参数集合确定模块、平均区间确定模块、待识别嗓音信号的第一声学特征参数集合确定模块、符合要求的第一声学特征参数个数确定模块、普通嗓音信号确定模块和优质嗓音信号确定模块。
正常嗓音数据的第一声学特征参数集合确定模块用于当所述待识别嗓音信号的分类结果为正常嗓音时,获取所述嗓音数据库中正常嗓音数据的第一嗓音级别对应的每个嗓音信号的多个第一声学特征参数,得到所述嗓音数据库的第一声学特征参数集合。多个所述第一声学特征参数分别为频带宽度、音域、第一共振峰、第三共振峰和基频;所述第一嗓音级别为所述正常嗓音数据中质量最高的级别。
平均区间确定模块用于计算所述嗓音数据库的第一声学特征参数集合中每个第一声学特征参数的平均区间。
待识别嗓音信号的第一声学特征参数集合确定模块用于获取所述待识别嗓音信号的多个第一声学特征参数,得到所述待识别嗓音信号的第一声学特征参数集合。
符合要求的第一声学特征参数个数确定模块用于获取所述待识别嗓音信号的第一声学特征参数集合中符合要求的第一声学特征参数的个数。所述符合要求的第一声学特征参数为处于对应的平均区间内的第一声学特征参数。
普通嗓音信号确定模块用于若所述待识别嗓音信号的第一声学特征参数集合中符合要求的第一声学特征参数的个数小于3,则将所述待识别嗓音信号确定为普通嗓音信号。
优质嗓音信号确定模块用于若所述待识别嗓音信号的第一声学特征参数集合中符合要求的第一声学特征参数的个数不小于3,则将所述待识别嗓音信号确定为优质嗓音信号。
本发明所提供的一种嗓音识别系统还包括:非正常嗓音数据的嗓音级别获取模块、第二声学特征参数集合确定模块、第一斯皮尔曼相关系数确定模块、第一判断模块、第一保留模块、第一剔除模块、第三声学特征参数集合确定模块、第二斯皮尔曼相关系数确定模块、第二判断模块、第二剔除模块、第二保留模块、第四声学特征参数集合确定模块、客观公式标准确定模块和等级划分模块。
非正常嗓音数据的嗓音级别获取模块,用于当所述待识别嗓音信号的分类结果为非正常嗓音信号时,获得所述嗓音数据库中非正常嗓音数据的嗓音级别。
第二声学特征参数集合确定模块,用于获取所述嗓音数据库中非正常嗓音数据的每一嗓音级别对应的每个嗓音信号的多个第二声学特征参数,得到所述嗓音数据库的第二声学特征参数集合;多个所述第二声学特征参数分别为基频微扰、振幅微扰、谐噪比、倒谱峰值突出、Hurst指数、Teager能量算子、样本熵。模糊熵、L-Z复杂度、开放熵、闭合熵和速度熵。
第一斯皮尔曼相关系数确定模块用于计算所述嗓音数据库的第二声学特征参数集合中每个第二声学特征参数与对应嗓音级别的第一斯皮尔曼相关系数。
第一判断模块用于判断所述第二声学特征参数集合中的第二声学特征参数对应的第一斯皮尔曼相关系数是否大于第一设定阈值。
第一保留模块用于若所述第二声学特征参数集合中的第二声学特征参数对应的第一斯皮尔曼相关系数是大于第一设定阈值,则保留第一斯皮尔曼相关系数对应的第二声学特征参数。
第一剔除模块用于若所述第二声学特征参数集合中的第二声学特征参数对应的第一斯皮尔曼相关系数是不大于第一设定阈值,则剔除第一斯皮尔曼相关系数对应的第二声学特征参数。
第三声学特征参数集合确定模块用于获得所有保留的第二声学特征参数,得到第三声学特征参数集合。
第二斯皮尔曼相关系数确定模块用于计算所述第三声学特征参数集合中第i个第二声学特征参数和第j个第二声学特征参数的斯皮尔曼相关系数,得到第二斯皮尔曼相关系数。i不等于j,所述第i个第二声学特征参数对应的第一斯皮尔曼相关系数大于所述第j个第二声学特征参数对应的第一斯皮尔曼相关系数。
第二判断模块用于判断所述第三声学特征参数集合中第i个第二声学特征参数和第j个第二声学特征参数对应的第二斯皮尔曼相关系数是否大于第二设定阈值。
第二剔除模块用于若所述第三声学特征参数集合中第i个第二声学特征参数和第j个第二声学特征参数对应的第二斯皮尔曼相关系数是大于第二设定阈值,则保留第i个第二声学特征参数,剔除第j个第二声学特征参数。
第二保留模块用于若所述第三声学特征参数集合中第i个第二声学特征参数和第j个第二声学特征参数对应的第二斯皮尔曼相关系数是不大于第二设定阈值,则保留第i个第二声学特征参数和第j个第二声学特征参数。
第四声学特征参数集合确定模块用于获得所有保留的第二声学特征参数,得到第四声学特征参数集合。
客观公式标准确定模块用于采用应用逻辑回归分析,根据所述第四声学特征参数集合,确定非正常嗓音等级划分的客观公式标准。
等级划分模块用于利用所述非正常嗓音等级划分的客观公式标准对所述待识别嗓音信号进行等级划分。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (6)
1.一种嗓音识别方法,其特征在于,包括:
获取嗓音数据库;所述嗓音数据库包括正常嗓音数据和非正常嗓音数据;所述正常嗓音数据和所述非正常嗓音数据均包括多个嗓音信号,所述正常嗓音数据和所述非正常嗓音数据均包括多个嗓音级别;不同的嗓音级别对应的嗓音质量不同;
根据所述嗓音数据库中的所有嗓音信号,得到所述嗓音数据库中的所有嗓音信号的一维线性特征参数;所述一维线性特征参数包括谐噪比、基频微扰、振幅微扰、基频标准差、倒谱峰值突出、频谱平坦度和基音幅值;
对所述嗓音数据库中的所有嗓音信号进行小波包分解;得到所述嗓音数据库中的所有嗓音信号的多维分层非线性特征参数;所述多维分层非线性特征参数包括:复杂度、Hurst指数、Teager能量算子、样本熵和模糊熵;
采用降维方法,根据所述嗓音数据库中的所有嗓音信号的一维线性特征参数和多维分层非线性特征参数,得到所述嗓音数据库中的所有嗓音信号的优化融合特征;
根据所述嗓音数据库中的所有嗓音信号的优化融合特征和多分类支持向量机构建正常嗓音和非正常嗓音的分类模型;
获取用户的待识别嗓音信号;
根据所述待识别嗓音信号,得到所述待识别嗓音信号的优化融合特征;
利用所述分类模型对所述待识别嗓音信号的优化融合特征进行分类,得到所述待识别嗓音信号的分类结果;所述待识别嗓音信号的分类结果为正常嗓音或非正常嗓音;
所述利用所述分类模型对所述待识别嗓音信号的优化融合特征进行分类,得到所述待识别嗓音信号的分类结果,之后还包括:
当所述待识别嗓音信号的分类结果为正常嗓音时,获取所述嗓音数据库中正常嗓音数据的第一嗓音级别对应的每个嗓音信号的多个第一声学特征参数,得到所述嗓音数据库的第一声学特征参数集合;多个所述第一声学特征参数分别为频带宽度、音域、第一共振峰、第三共振峰和基频;所述第一嗓音级别为所述正常嗓音数据中质量最高的级别;
计算所述嗓音数据库的第一声学特征参数集合中每个第一声学特征参数的平均区间;
获取所述待识别嗓音信号的多个第一声学特征参数,得到所述待识别嗓音信号的第一声学特征参数集合;
获取所述待识别嗓音信号的第一声学特征参数集合中符合要求的第一声学特征参数的个数;所述符合要求的第一声学特征参数为处于对应的平均区间内的第一声学特征参数;
若所述待识别嗓音信号的第一声学特征参数集合中符合要求的第一声学特征参数的个数小于3,则将所述待识别嗓音信号确定为普通嗓音信号;
若所述待识别嗓音信号的第一声学特征参数集合中符合要求的第一声学特征参数的个数不小于3,则将所述待识别嗓音信号确定为优质嗓音信号。
2.根据权利要求1所述的一种嗓音识别方法,其特征在于,所述根据所述待识别嗓音信号,得到所述待识别嗓音信号的优化融合特征,具体包括:
根据所述待识别嗓音信号,得到所述待识别嗓音信号的一维线性特征参数;
对所述待识别嗓音信号进行小波包分解,得到所述待识别嗓音信号的多维分层非线性特征参数;
根据所述待识别嗓音信号的一维线性特征参数和所述待识别嗓音信号的多维分层非线性特征参数,采用降维方法,得到所述待识别嗓音信号的优化融合特征。
3.根据权利要求1所述的一种嗓音识别方法,其特征在于,所述利用所述分类模型对所述待识别嗓音信号的优化融合特征进行分类,得到所述待识别嗓音信号的分类结果,之后还包括:
当所述待识别嗓音信号的分类结果为非正常嗓音信号时,获得所述嗓音数据库中非正常嗓音数据的嗓音级别;
获取所述嗓音数据库中非正常嗓音数据的每一嗓音级别对应的每个嗓音信号的多个第二声学特征参数,得到所述嗓音数据库的第二声学特征参数集合;多个所述第二声学特征参数分别为基频微扰、振幅微扰、谐噪比、倒谱峰值突出、Hurst指数、Teager能量算子、样本熵、 模糊熵、L-Z复杂度、开放熵、闭合熵和速度熵;
计算所述嗓音数据库的第二声学特征参数集合中每个第二声学特征参数与对应嗓音级别的第一斯皮尔曼相关系数;
判断所述第二声学特征参数集合中的第二声学特征参数对应的第一斯皮尔曼相关系数是否大于第一设定阈值;
若所述第二声学特征参数集合中的第二声学特征参数对应的第一斯皮尔曼相关系数是大于第一设定阈值,则保留第一斯皮尔曼相关系数对应的第二声学特征参数;
若所述第二声学特征参数集合中的第二声学特征参数对应的第一斯皮尔曼相关系数是不大于第一设定阈值,则剔除第一斯皮尔曼相关系数对应的第二声学特征参数;
获得所有保留的第二声学特征参数,得到第三声学特征参数集合;
计算所述第三声学特征参数集合中第i个第二声学特征参数和第j个第二声学特征参数的斯皮尔曼相关系数,得到第二斯皮尔曼相关系数;i不等于j,所述第i个第二声学特征参数对应的第一斯皮尔曼相关系数大于所述第j个第二声学特征参数对应的第一斯皮尔曼相关系数;
判断所述第三声学特征参数集合中第i个第二声学特征参数和第j个第二声学特征参数对应的第二斯皮尔曼相关系数是否大于第二设定阈值;
若所述第三声学特征参数集合中第i个第二声学特征参数和第j个第二声学特征参数对应的第二斯皮尔曼相关系数是大于第二设定阈值,则保留第i个第二声学特征参数,剔除第j个第二声学特征参数;
若所述第三声学特征参数集合中第i个第二声学特征参数和第j个第二声学特征参数对应的第二斯皮尔曼相关系数是不大于第二设定阈值,则保留第i个第二声学特征参数和第j个第二声学特征参数;
获得所有保留的第二声学特征参数,得到第四声学特征参数集合;
采用应用逻辑回归分析,根据所述第四声学特征参数集合,确定非正常嗓音等级划分的客观公式标准;
利用所述非正常嗓音等级划分的客观公式标准对所述待识别嗓音信号进行等级划分。
4.一种嗓音识别系统,其特征在于,包括:
数据库获取模块,用于获取嗓音数据库;所述嗓音数据库包括正常嗓音数据和非正常嗓音数据;所述正常嗓音数据和所述非正常嗓音数据均包括多个嗓音信号,所述正常嗓音数据和所述非正常嗓音数据均包括多个嗓音级别;不同的嗓音级别对应的嗓音质量不同;
一维线性特征参数确定模块,用于根据所述嗓音数据库中的所有嗓音信号,得到所述嗓音数据库中的所有嗓音信号的一维线性特征参数;所述一维线性特征参数包括谐噪比、基频微扰、振幅微扰、基频标准差、倒谱峰值突出、频谱平坦度和基音幅值;
多维分层非线性特征参数确定模块,用于对所述嗓音数据库中的所有嗓音信号进行小波包分解;得到所述嗓音数据库中的所有嗓音信号的多维分层非线性特征参数;所述多维分层非线性特征参数包括:复杂度、Hurst指数、Teager能量算子、样本熵和模糊熵;
第一优化融合特征确定模块,用于采用降维方法,根据所述嗓音数据库中的所有嗓音信号的一维线性特征参数和多维分层非线性特征参数,得到所述嗓音数据库中的所有嗓音信号的优化融合特征;
分类模型构建模块,用于根据所述嗓音数据库中的所有嗓音信号的优化融合特征和多分类支持向量机构建正常嗓音和非正常嗓音的分类模型;
待识别嗓音信号获取模块,用于获取用户的待识别嗓音信号;
第二优化融合特征确定模块,用于根据所述待识别嗓音信号,得到所述待识别嗓音信号的优化融合特征;
分类结果确定模块,用于利用所述分类模型对所述待识别嗓音信号的优化融合特征进行分类,得到所述待识别嗓音信号的分类结果;所述待识别嗓音信号的分类结果为正常嗓音或非正常嗓音;
正常嗓音数据的第一声学特征参数集合确定模块,用于当所述待识别嗓音信号的分类结果为正常嗓音时,获取所述嗓音数据库中正常嗓音数据的第一嗓音级别对应的每个嗓音信号的多个第一声学特征参数,得到所述嗓音数据库的第一声学特征参数集合;多个所述第一声学特征参数分别为频带宽度、音域、第一共振峰、第三共振峰和基频;所述第一嗓音级别为所述正常嗓音数据中质量最高的级别;
平均区间确定模块,用于计算所述嗓音数据库的第一声学特征参数集合中每个第一声学特征参数的平均区间;
待识别嗓音信号的第一声学特征参数集合确定模块,用于获取所述待识别嗓音信号的多个第一声学特征参数,得到所述待识别嗓音信号的第一声学特征参数集合;
符合要求的第一声学特征参数个数确定模块,用于获取所述待识别嗓音信号的第一声学特征参数集合中符合要求的第一声学特征参数的个数;所述符合要求的第一声学特征参数为处于对应的平均区间内的第一声学特征参数;
普通嗓音信号确定模块,用于若所述待识别嗓音信号的第一声学特征参数集合中符合要求的第一声学特征参数的个数小于3,则将所述待识别嗓音信号确定为普通嗓音信号;
优质嗓音信号确定模块,用于若所述待识别嗓音信号的第一声学特征参数集合中符合要求的第一声学特征参数的个数不小于3,则将所述待识别嗓音信号确定为优质嗓音信号。
5.根据权利要求4所述的一种嗓音识别系统,其特征在于,所述第二优化融合特征具体包括:
一维线性特征参数确定单元,用于根据所述待识别嗓音信号,得到所述待识别嗓音信号的一维线性特征参数;
多维分层非线性特征参数确定单元,用于对所述待识别嗓音信号进行小波包分解,得到所述待识别嗓音信号的多维分层非线性特征参数;
第二优化融合特征确定单元,用于根据所述待识别嗓音信号的一维线性特征参数和所述待识别嗓音信号的多维分层非线性特征参数,采用降维方法,得到所述待识别嗓音信号的优化融合特征。
6.根据权利要求4所述的一种嗓音识别系统,其特征在于,还包括:
非正常嗓音数据的嗓音级别获取模块,用于当所述待识别嗓音信号的分类结果为非正常嗓音信号时,获得所述嗓音数据库中非正常嗓音数据的嗓音级别;
第二声学特征参数集合确定模块,用于获取所述嗓音数据库中非正常嗓音数据的每一嗓音级别对应的每个嗓音信号的多个第二声学特征参数,得到所述嗓音数据库的第二声学特征参数集合;多个所述第二声学特征参数分别为基频微扰、振幅微扰、谐噪比、倒谱峰值突出、Hurst指数、Teager能量算子、样本熵、 模糊熵、L-Z复杂度、开放熵、闭合熵和速度熵;
第一斯皮尔曼相关系数确定模块,用于计算所述嗓音数据库的第二声学特征参数集合中每个第二声学特征参数与对应嗓音级别的第一斯皮尔曼相关系数;
第一判断模块,用于判断所述第二声学特征参数集合中的第二声学特征参数对应的第一斯皮尔曼相关系数是否大于第一设定阈值;
第一保留模块,用于若所述第二声学特征参数集合中的第二声学特征参数对应的第一斯皮尔曼相关系数是大于第一设定阈值,则保留第一斯皮尔曼相关系数对应的第二声学特征参数;
第一剔除模块,用于若所述第二声学特征参数集合中的第二声学特征参数对应的第一斯皮尔曼相关系数是不大于第一设定阈值,则剔除第一斯皮尔曼相关系数对应的第二声学特征参数;
第三声学特征参数集合确定模块,用于获得所有保留的第二声学特征参数,得到第三声学特征参数集合;
第二斯皮尔曼相关系数确定模块,用于计算所述第三声学特征参数集合中第i个第二声学特征参数和第j个第二声学特征参数的斯皮尔曼相关系数,得到第二斯皮尔曼相关系数;i不等于j,所述第i个第二声学特征参数对应的第一斯皮尔曼相关系数大于所述第j个第二声学特征参数对应的第一斯皮尔曼相关系数;
第二判断模块,用于判断所述第三声学特征参数集合中第i个第二声学特征参数和第j个第二声学特征参数对应的第二斯皮尔曼相关系数是否大于第二设定阈值;
第二剔除模块,用于若所述第三声学特征参数集合中第i个第二声学特征参数和第j个第二声学特征参数对应的第二斯皮尔曼相关系数是大于第二设定阈值,则保留第i个第二声学特征参数,剔除第j个第二声学特征参数;
第二保留模块,用于若所述第三声学特征参数集合中第i个第二声学特征参数和第j个第二声学特征参数对应的第二斯皮尔曼相关系数是不大于第二设定阈值,则保留第i个第二声学特征参数和第j个第二声学特征参数;
第四声学特征参数集合确定模块,用于获得所有保留的第二声学特征参数,得到第四声学特征参数集合;
客观公式标准确定模块,用于采用应用逻辑回归分析,根据所述第四声学特征参数集合,确定非正常嗓音等级划分的客观公式标准;
等级划分模块,用于利用所述非正常嗓音等级划分的客观公式标准对所述待识别嗓音信号进行等级划分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010385515.3A CN111554325B (zh) | 2020-05-09 | 2020-05-09 | 一种嗓音识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010385515.3A CN111554325B (zh) | 2020-05-09 | 2020-05-09 | 一种嗓音识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111554325A CN111554325A (zh) | 2020-08-18 |
CN111554325B true CN111554325B (zh) | 2023-03-24 |
Family
ID=72004507
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010385515.3A Active CN111554325B (zh) | 2020-05-09 | 2020-05-09 | 一种嗓音识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111554325B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113870903A (zh) * | 2021-09-28 | 2021-12-31 | 平安科技(深圳)有限公司 | 病理语音的识别方法、装置、设备及存储介质 |
CN117409819A (zh) * | 2023-12-15 | 2024-01-16 | 北京大学第三医院(北京大学第三临床医学院) | 一种基于人工智能的人体嗓音检测分析方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2492204A1 (en) * | 2004-07-26 | 2006-01-26 | Iucf-Hyu (Industry University Cooperation Foundation-Hanyang University) | Similar speaking recognition method and system using linear and nonlinear feature extraction |
CN103093759A (zh) * | 2013-01-16 | 2013-05-08 | 东北大学 | 一种基于移动终端的嗓音检测评估装置及方法 |
CN103258545A (zh) * | 2012-12-20 | 2013-08-21 | 苏州大学 | 一种病理嗓音细分方法 |
CN103730130A (zh) * | 2013-12-20 | 2014-04-16 | 中国科学院深圳先进技术研究院 | 一种病理嗓音的检测方法和系统 |
CN106297768A (zh) * | 2015-05-11 | 2017-01-04 | 苏州大学 | 一种语音识别方法 |
-
2020
- 2020-05-09 CN CN202010385515.3A patent/CN111554325B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2492204A1 (en) * | 2004-07-26 | 2006-01-26 | Iucf-Hyu (Industry University Cooperation Foundation-Hanyang University) | Similar speaking recognition method and system using linear and nonlinear feature extraction |
CN103258545A (zh) * | 2012-12-20 | 2013-08-21 | 苏州大学 | 一种病理嗓音细分方法 |
CN103093759A (zh) * | 2013-01-16 | 2013-05-08 | 东北大学 | 一种基于移动终端的嗓音检测评估装置及方法 |
CN103730130A (zh) * | 2013-12-20 | 2014-04-16 | 中国科学院深圳先进技术研究院 | 一种病理嗓音的检测方法和系统 |
CN106297768A (zh) * | 2015-05-11 | 2017-01-04 | 苏州大学 | 一种语音识别方法 |
Non-Patent Citations (1)
Title |
---|
有效特征参数分类正常与病理语音;郭乐乐,曹辉,李涛;《声学技术》;20191031;第38卷(第5期);554-559 * |
Also Published As
Publication number | Publication date |
---|---|
CN111554325A (zh) | 2020-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109599093A (zh) | 智能质检的关键词检测方法、装置、设备及可读存储介质 | |
CN111951824A (zh) | 一种基于声音判别抑郁症的检测方法 | |
CN111554325B (zh) | 一种嗓音识别方法及系统 | |
CN101023469A (zh) | 数字滤波方法和装置 | |
Feng et al. | Nonintrusive objective measurement of speech intelligibility: A review of methodology | |
CN110136696B (zh) | 音频数据的监控处理方法和系统 | |
US20060200346A1 (en) | Speech quality measurement based on classification estimation | |
CN110070888A (zh) | 一种基于卷积神经网络的帕金森语音识别方法 | |
CN107134277A (zh) | 一种基于gmm模型的语音激活检测方法 | |
CN115346561B (zh) | 基于语音特征的抑郁情绪评估预测方法及系统 | |
CN113823293A (zh) | 一种基于语音增强的说话人识别方法及系统 | |
CN117294985A (zh) | 一种tws蓝牙耳机控制方法 | |
CN108919962B (zh) | 基于脑机数据集中处理的辅助钢琴训练方法 | |
CN110136746A (zh) | 一种基于融合特征的加性噪声环境下手机来源识别方法 | |
CN117672517A (zh) | 一种用于老人日常记录与智能监护的方法及装置 | |
Vacher et al. | Speech and sound use in a remote monitoring system for health care | |
CN117524259A (zh) | 音频处理方法及系统 | |
Sztahó et al. | Automatic classification of emotions in spontaneous speech | |
CN116746886A (zh) | 一种通过音色音调的健康分析方法及设备 | |
Waghmare et al. | Development of isolated marathi words emotional speech database | |
CN110299133A (zh) | 基于关键字判定非法广播的方法 | |
CN112233693B (zh) | 一种音质评估方法、装置和设备 | |
Ancel et al. | Relating Acoustic Measures to Listener Ratings of Children's Productions of Word-Initial/ɹ/and/w | |
US20050004792A1 (en) | Speech characteristic extraction method speech charateristic extraction device speech recognition method and speech recognition device | |
CN114496221B (zh) | 基于闭环语音链和深度学习的抑郁症自动诊断系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |