CN111554325A - 一种嗓音识别方法及系统 - Google Patents

一种嗓音识别方法及系统 Download PDF

Info

Publication number
CN111554325A
CN111554325A CN202010385515.3A CN202010385515A CN111554325A CN 111554325 A CN111554325 A CN 111554325A CN 202010385515 A CN202010385515 A CN 202010385515A CN 111554325 A CN111554325 A CN 111554325A
Authority
CN
China
Prior art keywords
voice
acoustic
voice signal
characteristic parameter
acoustic characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010385515.3A
Other languages
English (en)
Other versions
CN111554325B (zh
Inventor
曹辉
武倩文
秦驰杰
曹娜
彭玥
孟文婷
范翔
彭瑞
石宇
陈文韬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shaanxi Normal University
Original Assignee
Shaanxi Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shaanxi Normal University filed Critical Shaanxi Normal University
Priority to CN202010385515.3A priority Critical patent/CN111554325B/zh
Publication of CN111554325A publication Critical patent/CN111554325A/zh
Application granted granted Critical
Publication of CN111554325B publication Critical patent/CN111554325B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/66Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/48Other medical applications
    • A61B5/4803Speech analysis specially adapted for diagnostic purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Molecular Biology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Surgery (AREA)
  • Veterinary Medicine (AREA)
  • Pathology (AREA)
  • Medical Informatics (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Epidemiology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明涉及一种嗓音识别方法及系统。该方法包括:获取嗓音数据库;根据嗓音数据库中的所有嗓音信号,得到所有嗓音信号的一维线性特征参数;对所有嗓音信号进行小波包分解;得到所有嗓音信号的多维分层非线性特征参数;采用降维方法,根据所有嗓音信号的一维线性特征参数,得到所有嗓音信号的优化融合特征;根据所有嗓音信号的优化融合特征和多分类支持向量机构建正常嗓音和非正常嗓音的分类模型;获取用户的待识别嗓音信号;根据待识别嗓音信号,得到待识别嗓音信号的优化融合特征;利用分类模型对待识别嗓音信号的优化融合特征进行分类,得到分类结果。本发明所提供一种嗓音识别方法及系统,解决现有技术中嗓音识别准确性低的问题。

Description

一种嗓音识别方法及系统
技术领域
本发明涉及嗓音识别领域,特别是涉及一种嗓音识别方法及系统。
背景技术
据调查显示约25%的世界人口是“职业用嗓过度者”。因为一些特定的职业迫使从事者说话的声音要超过正常水平,例如,歌手、演员、律师、教师等。而日复一日的过度用嗓会造成他们的声带受损,直接影响到嗓音质量,进而给生活和工作带来不便。并且不同的人的嗓音也不同,通过嗓音进行电话拨入银行、数据库服务、购物、语音邮件以及进入保密的装置,并且还可以通过嗓音识别出非正常的嗓音。
国内外主要使用电子计算机及频谱分析仪采集、分析、统计嗓音声样,对嗓音进行声学分析。国内已有的嗓音医学相关系统为国产USSA语音频谱分析系统,但上述系统、软件价格昂贵,且受于时间和环境的限制,不能随时随地方便快捷对嗓音信号进行分析评估。
而通过主观听觉进行嗓音识别,带有主观判断,个人意识过强,造成嗓音识别准确性低。
发明内容
本发明的目的是提供一种嗓音识别方法及系统,解决现有技术中嗓音识别准确性低的问题。
为实现上述目的,本发明提供了如下方案:
一种嗓音识别方法,包括:
获取嗓音数据库;所述嗓音数据库包括正常嗓音数据和非正常嗓音数据;所述正常嗓音数据和所述非正常嗓音数据均包括多个嗓音信号,所述正常嗓音数据和所述非正常嗓音数据均包括多个嗓音级别;不同的嗓音级别对应的嗓音质量不同;
根据所述嗓音数据库中的所有嗓音信号,得到所述嗓音数据库中的所有嗓音信号的一维线性特征参数;所述一维线性特征参数包括谐噪比、基频微扰、振幅微扰、基频标准差、倒谱峰值突出、频谱平坦度和基音幅值;
对所述嗓音数据库中的所有嗓音信号进行小波包分解;得到所述嗓音数据库中的所有嗓音信号的多维分层非线性特征参数;所述多维分层非线性特征参数包括:复杂度、Hurst指数、Teager能量算子、样本熵和模糊熵;
采用降维方法,根据所述嗓音数据库中的所有嗓音信号的一维线性特征参数和多维分层非线性特征参数,得到所述嗓音数据库中的所有嗓音信号的优化融合特征;
根据所述嗓音数据库中的所有嗓音信号的优化融合特征和多分类支持向量机构建正常嗓音和非正常嗓音的分类模型;
获取用户的待识别嗓音信号;
根据所述待识别嗓音信号,得到所述待识别嗓音信号的优化融合特征;
利用所述分类模型对所述待识别嗓音信号的优化融合特征进行分类,得到所述待识别嗓音信号的分类结果;所述待识别嗓音信号的分类结果为正常嗓音或非正常嗓音。
可选的,所述根据所述待识别嗓音信号,得到所述待识别嗓音信号的优化融合特征,具体包括:
根据所述待识别嗓音信号,得到所述待识别嗓音信号的一维线性特征参数;
对所述待识别嗓音信号进行小波包分解,得到所述待识别嗓音信号的多维分层非线性特征参数;
根据所述待识别嗓音信号的一维线性特征参数和所述待识别嗓音信号的多维分层非线性特征参数,采用降维方法,得到所述待识别嗓音信号的优化融合特征。
可选的,所述利用所述分类模型对所述待识别嗓音信号的优化融合特征进行分类,得到所述待识别嗓音信号的分类结果,之后还包括:
当所述待识别嗓音信号的分类结果为正常嗓音时,获取所述嗓音数据库中正常嗓音数据的第一嗓音级别对应的每个嗓音信号的多个第一声学特征参数,得到所述嗓音数据库的第一声学特征参数集合;多个所述第一声学特征参数分别为频带宽度、音域、第一共振峰、第三共振峰和基频;所述第一嗓音级别为所述正常嗓音数据中质量最高的级别;
计算所述嗓音数据库的第一声学特征参数集合中每个第一声学特征参数的平均区间;
获取所述待识别嗓音信号的多个第一声学特征参数,得到所述待识别嗓音信号的第一声学特征参数集合;
获取所述待识别嗓音信号的第一声学特征参数集合中符合要求的第一声学特征参数的个数;所述符合要求的第一声学特征参数为处于对应的平均区间内的第一声学特征参数;
若所述待识别嗓音信号的第一声学特征参数集合中符合要求的第一声学特征参数的个数小于3,则将所述待识别嗓音信号确定为普通嗓音信号;
若所述待识别嗓音信号的第一声学特征参数集合中符合要求的第一声学特征参数的个数不小于3,则将所述待识别嗓音信号确定为优质嗓音信号。
可选的,所述利用所述分类模型对所述待识别嗓音信号的优化融合特征进行分类,得到所述待识别嗓音信号的分类结果,之后还包括:
当所述待识别嗓音信号的分类结果为非正常嗓音信号时,获得所述嗓音数据库中非正常嗓音数据的嗓音级别;
获取所述嗓音数据库中非正常嗓音数据的每一嗓音级别对应的每个嗓音信号的多个第二声学特征参数,得到所述嗓音数据库的第二声学特征参数集合;多个所述第二声学特征参数分别为基频微扰、振幅微扰、谐噪比、倒谱峰值突出、Hurst指数、Teager能量算子、样本熵。模糊熵、L-Z复杂度、开放熵、闭合熵和速度熵;
计算所述嗓音数据库的第二声学特征参数集合中每个第二声学特征参数与对应嗓音级别的第一斯皮尔曼相关系数;
判断所述第二声学特征参数集合中的第二声学特征参数对应的第一斯皮尔曼相关系数是否大于第一设定阈值;
若所述第二声学特征参数集合中的第二声学特征参数对应的第一斯皮尔曼相关系数是大于第一设定阈值,则保留第一斯皮尔曼相关系数对应的第二声学特征参数;
若所述第二声学特征参数集合中的第二声学特征参数对应的第一斯皮尔曼相关系数是不大于第一设定阈值,则剔除第一斯皮尔曼相关系数对应的第二声学特征参数;
获得所有保留的第二声学特征参数,得到第三声学特征参数集合;
计算所述第三声学特征参数集合中第i个第二声学特征参数和第j个第二声学特征参数的斯皮尔曼相关系数,得到第二斯皮尔曼相关系数;i不等于j,所述第i个第二声学特征参数对应的第一斯皮尔曼相关系数大于所述第j个第二声学特征参数对应的第一斯皮尔曼相关系数;
判断所述第三声学特征参数集合中第i个第二声学特征参数和第j个第二声学特征参数对应的第二斯皮尔曼相关系数是否大于第二设定阈值;
若所述第三声学特征参数集合中第i个第二声学特征参数和第j个第二声学特征参数对应的第二斯皮尔曼相关系数是大于第二设定阈值,则保留第i个第二声学特征参数,剔除第j个第二声学特征参数;
若所述第三声学特征参数集合中第i个第二声学特征参数和第j个第二声学特征参数对应的第二斯皮尔曼相关系数是不大于第二设定阈值,则保留第i个第二声学特征参数和第j个第二声学特征参数;
获得所有保留的第二声学特征参数,得到第四声学特征参数集合;
采用应用逻辑回归分析,根据所述第四声学特征参数集合,确定非正常嗓音等级划分的客观公式标准;
利用所述非正常嗓音等级划分的客观公式标准对所述待识别嗓音信号进行等级划分。
一种嗓音识别系统,包括:
数据库获取模块,用于获取嗓音数据库;所述嗓音数据库包括正常嗓音数据和非正常嗓音数据;所述正常嗓音数据和所述非正常嗓音数据均包括多个嗓音信号,所述正常嗓音数据和所述非正常嗓音数据均包括多个嗓音级别;不同的嗓音级别对应的嗓音质量不同;
一维线性特征参数确定模块,用于根据所述嗓音数据库中的所有嗓音信号,得到所述嗓音数据库中的所有嗓音信号的一维线性特征参数;所述一维线性特征参数包括谐噪比、基频微扰、振幅微扰、基频标准差、倒谱峰值突出、频谱平坦度和基音幅值;
多维分层非线性特征参数确定模块,用于对所述嗓音数据库中的所有嗓音信号进行小波包分解;得到所述嗓音数据库中的所有嗓音信号的多维分层非线性特征参数;所述多维分层非线性特征参数包括:复杂度、Hurst指数、Teager能量算子、样本熵和模糊熵;
第一优化融合特征确定模块,用于采用降维方法,根据所述嗓音数据库中的所有嗓音信号的一维线性特征参数和多维分层非线性特征参数,得到所述嗓音数据库中的所有嗓音信号的优化融合特征;
分类模型构建模块,用于根据所述嗓音数据库中的所有嗓音信号的优化融合特征和多分类支持向量机构建正常嗓音和非正常嗓音的分类模型;
待识别嗓音信号获取模块,用于获取用户的待识别嗓音信号;
第二优化融合特征确定模块,用于根据所述待识别嗓音信号,得到所述待识别嗓音信号的优化融合特征;
分类结果确定模块,用于利用所述分类模型对所述待识别嗓音信号的优化融合特征进行分类,得到所述待识别嗓音信号的分类结果;所述待识别嗓音信号的分类结果为正常嗓音或非正常嗓音。
可选的,所述第二优化融合特征具体包括:
一维线性特征参数确定单元,用于根据所述待识别嗓音信号,得到所述待识别嗓音信号的一维线性特征参数;
多维分层非线性特征参数确定单元,用于对所述待识别嗓音信号进行小波包分解,得到所述待识别嗓音信号的多维分层非线性特征参数;
第二优化融合特征确定单元,用于根据所述待识别嗓音信号的一维线性特征参数和所述待识别嗓音信号的多维分层非线性特征参数,采用降维方法,得到所述待识别嗓音信号的优化融合特征。
可选的,还包括:
正常嗓音数据的第一声学特征参数集合确定模块,用于当所述待识别嗓音信号的分类结果为正常嗓音时,获取所述嗓音数据库中正常嗓音数据的第一嗓音级别对应的每个嗓音信号的多个第一声学特征参数,得到所述嗓音数据库的第一声学特征参数集合;多个所述第一声学特征参数分别为频带宽度、音域、第一共振峰、第三共振峰和基频;所述第一嗓音级别为所述正常嗓音数据中质量最高的级别;
平均区间确定模块,用于计算所述嗓音数据库的第一声学特征参数集合中每个第一声学特征参数的平均区间;
待识别嗓音信号的第一声学特征参数集合确定模块,用于获取所述待识别嗓音信号的多个第一声学特征参数,得到所述待识别嗓音信号的第一声学特征参数集合;
符合要求的第一声学特征参数个数确定模块,用于获取所述待识别嗓音信号的第一声学特征参数集合中符合要求的第一声学特征参数的个数;所述符合要求的第一声学特征参数为处于对应的平均区间内的第一声学特征参数;
普通嗓音信号确定模块,用于若所述待识别嗓音信号的第一声学特征参数集合中符合要求的第一声学特征参数的个数小于3,则将所述待识别嗓音信号确定为普通嗓音信号;
优质嗓音信号确定模块,用于若所述待识别嗓音信号的第一声学特征参数集合中符合要求的第一声学特征参数的个数不小于3,则将所述待识别嗓音信号确定为优质嗓音信号。
可选的,还包括:
非正常嗓音数据的嗓音级别获取模块,用于当所述待识别嗓音信号的分类结果为非正常嗓音信号时,获得所述嗓音数据库中非正常嗓音数据的嗓音级别;
第二声学特征参数集合确定模块,用于获取所述嗓音数据库中非正常嗓音数据的每一嗓音级别对应的每个嗓音信号的多个第二声学特征参数,得到所述嗓音数据库的第二声学特征参数集合;多个所述第二声学特征参数分别为基频微扰、振幅微扰、谐噪比、倒谱峰值突出、Hurst指数、Teager能量算子、样本熵。模糊熵、L-Z复杂度、开放熵、闭合熵和速度熵;
第一斯皮尔曼相关系数确定模块,用于计算所述嗓音数据库的第二声学特征参数集合中每个第二声学特征参数与对应嗓音级别的第一斯皮尔曼相关系数;
第一判断模块,用于判断所述第二声学特征参数集合中的第二声学特征参数对应的第一斯皮尔曼相关系数是否大于第一设定阈值;
第一保留模块,用于若所述第二声学特征参数集合中的第二声学特征参数对应的第一斯皮尔曼相关系数是大于第一设定阈值,则保留第一斯皮尔曼相关系数对应的第二声学特征参数;
第一剔除模块,用于若所述第二声学特征参数集合中的第二声学特征参数对应的第一斯皮尔曼相关系数是不大于第一设定阈值,则剔除第一斯皮尔曼相关系数对应的第二声学特征参数;
第三声学特征参数集合确定模块,用于获得所有保留的第二声学特征参数,得到第三声学特征参数集合;
第二斯皮尔曼相关系数确定模块,用于计算所述第三声学特征参数集合中第i个第二声学特征参数和第j个第二声学特征参数的斯皮尔曼相关系数,得到第二斯皮尔曼相关系数;i不等于j,所述第i个第二声学特征参数对应的第一斯皮尔曼相关系数大于所述第j个第二声学特征参数对应的第一斯皮尔曼相关系数;
第二判断模块,用于判断所述第三声学特征参数集合中第i个第二声学特征参数和第j个第二声学特征参数对应的第二斯皮尔曼相关系数是否大于第二设定阈值;
第二剔除模块,用于若所述第三声学特征参数集合中第i个第二声学特征参数和第j个第二声学特征参数对应的第二斯皮尔曼相关系数是大于第二设定阈值,则保留第i个第二声学特征参数,剔除第j个第二声学特征参数;
第二保留模块,用于若所述第三声学特征参数集合中第i个第二声学特征参数和第j个第二声学特征参数对应的第二斯皮尔曼相关系数是不大于第二设定阈值,则保留第i个第二声学特征参数和第j个第二声学特征参数;
第四声学特征参数集合确定模块,用于获得所有保留的第二声学特征参数,得到第四声学特征参数集合;
客观公式标准确定模块,用于采用应用逻辑回归分析,根据所述第四声学特征参数集合,确定非正常嗓音等级划分的客观公式标准;
等级划分模块,用于利用所述非正常嗓音等级划分的客观公式标准对所述待识别嗓音信号进行等级划分。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明所提供的一种嗓音识别方法及系统,利用数字处理技术建立正常嗓音和非正常嗓音的分类模型,通过正常嗓音和非正常嗓音的分类模型对待识别的嗓音信号进行分类,实现了嗓音的识别。并且本发明是一种分侵入性的分析技术,快速地、准确地实现对嗓音信号的识别。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明所提供的一种嗓音识别方法流程示意图;
图2为本发明所提供的一种嗓音识别系统结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种嗓音识别方法及系统,解决现有技术中嗓音识别准确性低的问题。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明所提供的一种嗓音识别方法流程示意图,如图1所示,本发明所提供的一种嗓音识别方法,包括:
S101,获取嗓音数据库。所述嗓音数据库包括正常嗓音数据和非正常嗓音数据;所述正常嗓音数据和所述非正常嗓音数据均包括多个嗓音信号,所述正常嗓音数据和所述非正常嗓音数据均包括多个嗓音级别;不同的嗓音级别对应的嗓音质量不同。
S102,根据所述嗓音数据库中的所有嗓音信号,得到所述嗓音数据库中的所有嗓音信号的一维线性特征参数;所述一维线性特征参数包括谐噪比、基频微扰、振幅微扰、基频标准差、倒谱峰值突出、频谱平坦度和基音幅值。
S103,对所述嗓音数据库中的所有嗓音信号进行小波包分解;得到所述嗓音数据库中的所有嗓音信号的多维分层非线性特征参数;所述多维分层非线性特征参数包括:复杂度、Hurst指数、Teager能量算子、样本熵和模糊熵。
S104,采用降维方法,根据所述嗓音数据库中的所有嗓音信号的一维线性特征参数和多维分层非线性特征参数,得到所述嗓音数据库中的所有嗓音信号的优化融合特征。
S105,根据所述嗓音数据库中的所有嗓音信号的优化融合特征和多分类支持向量机构建正常嗓音和非正常嗓音的分类模型。
S106,获取用户的待识别嗓音信号。
所述用户的待识别嗓音信号由嗓音采集装置进行采集。嗓音采集装置包括内置录音软件和扬声器话筒。嗓音采集时,用户以正常声调发音元音a(时长3s,话筒距离嘴唇10-15cm,且话筒位于嘴唇斜方45°),话筒将采集到的嗓音传送到采样率50KHZ、采样精度16bits的Cool Edit录音软件中。再通过扬声器回播采集到的嗓音,当确认录制内容无误、整个录音持续时间段内有声音后,采集嗓音将以wav格式保存,。
S107,根据所述待识别嗓音信号,得到所述待识别嗓音信号的优化融合特征。
根据所述待识别嗓音信号,得到所述待识别嗓音信号的一维线性特征参数。
对所述待识别嗓音信号进行小波包分解,得到所述待识别嗓音信号的多维分层非线性特征参数。
根据所述待识别嗓音信号的一维线性特征参数和所述待识别嗓音信号的多维分层非线性特征参数,采用降维方法,得到所述待识别嗓音信号的优化融合特征。
S108,利用所述分类模型对所述待识别嗓音信号的优化融合特征进行分类,得到所述待识别嗓音信号的分类结果;所述待识别嗓音信号的分类结果为正常嗓音或非正常嗓音。
根据所述待识别嗓音信号的分类结果还可以识别出病理嗓音。即通过分类结果可以识别出喉炎、声带息肉、喉返神经麻痹等疾病,
进一步的,所述待识别嗓音信号的分类结果通过医生确认无误后,将嗓音样本与各项信息(用户的年龄及性别等)共同保存在嗓音库中,扩大嗓音库的样本数量;确认有误,则以医生的评价为准,再将修改采集到的嗓音的分类结果保存数据库中。
在S108之后,为了进一步的提高多嗓音的识别精度,对分类之后的嗓音进行等级的划分。
当所述待识别嗓音信号的分类结果为正常嗓音时,获取所述嗓音数据库中正常嗓音数据的第一嗓音级别对应的每个嗓音信号的多个第一声学特征参数,得到所述嗓音数据库的第一声学特征参数集合。多个所述第一声学特征参数分别为频带宽度、音域、第一共振峰、第三共振峰和基频;所述第一嗓音级别为所述正常嗓音数据中质量最高的级别。
计算所述嗓音数据库的第一声学特征参数集合中每个第一声学特征参数的平均区间。
获取所述待识别嗓音信号的多个第一声学特征参数,得到所述待识别嗓音信号的第一声学特征参数集合。
获取所述待识别嗓音信号的第一声学特征参数集合中符合要求的第一声学特征参数的个数;所述符合要求的第一声学特征参数为处于对应的平均区间内的第一声学特征参数。
若所述待识别嗓音信号的第一声学特征参数集合中符合要求的第一声学特征参数的个数小于3,则将所述待识别嗓音信号确定为普通嗓音信号。
若所述待识别嗓音信号的第一声学特征参数集合中符合要求的第一声学特征参数的个数不小于3,则将所述待识别嗓音信号确定为优质嗓音信号。
当所述待识别嗓音信号的分类结果为非正常嗓音信号时,获得所述嗓音数据库中非正常嗓音数据的嗓音级别。
非正常嗓音数据的嗓音级别是由耳鼻喉科相关专家医师们对数据库中非正常嗓音数据进行嗓音听感知评估得到的结果。
获取所述嗓音数据库中非正常嗓音数据的每一嗓音级别对应的每个嗓音信号的多个第二声学特征参数,得到所述嗓音数据库的第二声学特征参数集合。多个所述第二声学特征参数分别为基频微扰、振幅微扰、谐噪比、倒谱峰值突出、Hurst指数、Teager能量算子、样本熵。模糊熵、L-Z复杂度、开放熵、闭合熵和速度熵。
计算所述嗓音数据库的第二声学特征参数集合中每个第二声学特征参数与对应嗓音级别的第一斯皮尔曼相关系数。
判断所述第二声学特征参数集合中的第二声学特征参数对应的第一斯皮尔曼相关系数是否大于第一设定阈值。
若所述第二声学特征参数集合中的第二声学特征参数对应的第一斯皮尔曼相关系数是大于第一设定阈值,则保留第一斯皮尔曼相关系数对应的第二声学特征参数。
若所述第二声学特征参数集合中的第二声学特征参数对应的第一斯皮尔曼相关系数是不大于第一设定阈值,则剔除第一斯皮尔曼相关系数对应的第二声学特征参数。
获得所有保留的第二声学特征参数,得到第三声学特征参数集合。
计算所述第三声学特征参数集合中第i个第二声学特征参数和第j个第二声学特征参数的斯皮尔曼相关系数,得到第二斯皮尔曼相关系数;i不等于j,所述第i个第二声学特征参数对应的第一斯皮尔曼相关系数大于所述第j个第二声学特征参数对应的第一斯皮尔曼相关系数。
判断所述第三声学特征参数集合中第i个第二声学特征参数和第j个第二声学特征参数对应的第二斯皮尔曼相关系数是否大于第二设定阈值。
若所述第三声学特征参数集合中第i个第二声学特征参数和第j个第二声学特征参数对应的第二斯皮尔曼相关系数是大于第二设定阈值,则保留第i个第二声学特征参数,剔除第j个第二声学特征参数。
若所述第三声学特征参数集合中第i个第二声学特征参数和第j个第二声学特征参数对应的第二斯皮尔曼相关系数是不大于第二设定阈值,则保留第i个第二声学特征参数和第j个第二声学特征参数。
获得所有保留的第二声学特征参数,得到第四声学特征参数集合。
采用应用逻辑回归分析,根据所述第四声学特征参数集合,确定非正常嗓音等级划分的客观公式标准。
利用所述非正常嗓音等级划分的客观公式标准对所述待识别嗓音信号进行等级划分。
当非正常嗓音为病理嗓音时,可以通过利用所述非正常嗓音等级划分的客观公式标准识别病理嗓音的具体病理情况。
为了进一步加强对用户嗓音信号的管理,对划分等级之后嗓音信号进行显示和保存。并更新用户信息与嗓音划分结果的数据库。
对应本发明所提供的一种嗓音识别方法,本发明还提供一种嗓音识别系统,如图2所示,本发明所提供一种嗓音识别系统包括:数据库获取模块201、一维线性特征参数确定模块202、多维分层非线性特征参数确定模块203、第一优化融合特征确定模块204、分类模型构建模块205、待识别嗓音信号获取模块206、第二优化融合特征确定模块207和分类结果确定模块208。
数据库获取模块201用于获取嗓音数据库。所述嗓音数据库包括正常嗓音数据和非正常嗓音数据;所述正常嗓音数据和所述非正常嗓音数据均包括多个嗓音信号,所述正常嗓音数据和所述非正常嗓音数据均包括多个嗓音级别;不同的嗓音级别对应的嗓音质量不同。
一维线性特征参数确定模块202用于根据所述嗓音数据库中的所有嗓音信号,得到所述嗓音数据库中的所有嗓音信号的一维线性特征参数;所述一维线性特征参数包括谐噪比、基频微扰、振幅微扰、基频标准差、倒谱峰值突出、频谱平坦度和基音幅值。
多维分层非线性特征参数确定模块203用于对所述嗓音数据库中的所有嗓音信号进行小波包分解;得到所述嗓音数据库中的所有嗓音信号的多维分层非线性特征参数;所述多维分层非线性特征参数包括:复杂度、Hurst指数、Teager能量算子、样本熵和模糊熵。
第一优化融合特征确定模块204用于采用降维方法,根据所述嗓音数据库中的所有嗓音信号的一维线性特征参数和多维分层非线性特征参数,得到所述嗓音数据库中的所有嗓音信号的优化融合特征。
分类模型构建模块205用于根据所述嗓音数据库中的所有嗓音信号的优化融合特征和多分类支持向量机构建正常嗓音和非正常嗓音的分类模型。
待识别嗓音信号获取模块206用于获取用户的待识别嗓音信号。
第二优化融合特征确定模块207用于根据所述待识别嗓音信号,得到所述待识别嗓音信号的优化融合特征。
分类结果确定模块208用于利用所述分类模型对所述待识别嗓音信号的优化融合特征进行分类,得到所述待识别嗓音信号的分类结果;所述待识别嗓音信号的分类结果为正常嗓音或非正常嗓音。
所述第二优化融合特征207具体包括:一维线性特征参数确定单元、多维分层非线性特征参数确定单元和第二优化融合特征确定单元。
一维线性特征参数确定单元用于根据所述待识别嗓音信号,得到所述待识别嗓音信号的一维线性特征参数。
多维分层非线性特征参数确定单元用于对所述待识别嗓音信号进行小波包分解,得到所述待识别嗓音信号的多维分层非线性特征参数。
第二优化融合特征确定单元用于根据所述待识别嗓音信号的一维线性特征参数和所述待识别嗓音信号的多维分层非线性特征参数,采用降维方法,得到所述待识别嗓音信号的优化融合特征。
本发明所提供的一种嗓音识别系统还包括:正常嗓音数据的第一声学特征参数集合确定模块、平均区间确定模块、待识别嗓音信号的第一声学特征参数集合确定模块、符合要求的第一声学特征参数个数确定模块、普通嗓音信号确定模块和优质嗓音信号确定模块。
正常嗓音数据的第一声学特征参数集合确定模块用于当所述待识别嗓音信号的分类结果为正常嗓音时,获取所述嗓音数据库中正常嗓音数据的第一嗓音级别对应的每个嗓音信号的多个第一声学特征参数,得到所述嗓音数据库的第一声学特征参数集合。多个所述第一声学特征参数分别为频带宽度、音域、第一共振峰、第三共振峰和基频;所述第一嗓音级别为所述正常嗓音数据中质量最高的级别。
平均区间确定模块用于计算所述嗓音数据库的第一声学特征参数集合中每个第一声学特征参数的平均区间。
待识别嗓音信号的第一声学特征参数集合确定模块用于获取所述待识别嗓音信号的多个第一声学特征参数,得到所述待识别嗓音信号的第一声学特征参数集合。
符合要求的第一声学特征参数个数确定模块用于获取所述待识别嗓音信号的第一声学特征参数集合中符合要求的第一声学特征参数的个数。所述符合要求的第一声学特征参数为处于对应的平均区间内的第一声学特征参数。
普通嗓音信号确定模块用于若所述待识别嗓音信号的第一声学特征参数集合中符合要求的第一声学特征参数的个数小于3,则将所述待识别嗓音信号确定为普通嗓音信号。
优质嗓音信号确定模块用于若所述待识别嗓音信号的第一声学特征参数集合中符合要求的第一声学特征参数的个数不小于3,则将所述待识别嗓音信号确定为优质嗓音信号。
本发明所提供的一种嗓音识别系统还包括:非正常嗓音数据的嗓音级别获取模块、第二声学特征参数集合确定模块、第一斯皮尔曼相关系数确定模块、第一判断模块、第一保留模块、第一剔除模块、第三声学特征参数集合确定模块、第二斯皮尔曼相关系数确定模块、第二判断模块、第二剔除模块、第二保留模块、第四声学特征参数集合确定模块、客观公式标准确定模块和等级划分模块。
非正常嗓音数据的嗓音级别获取模块,用于当所述待识别嗓音信号的分类结果为非正常嗓音信号时,获得所述嗓音数据库中非正常嗓音数据的嗓音级别。
第二声学特征参数集合确定模块,用于获取所述嗓音数据库中非正常嗓音数据的每一嗓音级别对应的每个嗓音信号的多个第二声学特征参数,得到所述嗓音数据库的第二声学特征参数集合;多个所述第二声学特征参数分别为基频微扰、振幅微扰、谐噪比、倒谱峰值突出、Hurst指数、Teager能量算子、样本熵。模糊熵、L-Z复杂度、开放熵、闭合熵和速度熵。
第一斯皮尔曼相关系数确定模块用于计算所述嗓音数据库的第二声学特征参数集合中每个第二声学特征参数与对应嗓音级别的第一斯皮尔曼相关系数。
第一判断模块用于判断所述第二声学特征参数集合中的第二声学特征参数对应的第一斯皮尔曼相关系数是否大于第一设定阈值。
第一保留模块用于若所述第二声学特征参数集合中的第二声学特征参数对应的第一斯皮尔曼相关系数是大于第一设定阈值,则保留第一斯皮尔曼相关系数对应的第二声学特征参数。
第一剔除模块用于若所述第二声学特征参数集合中的第二声学特征参数对应的第一斯皮尔曼相关系数是不大于第一设定阈值,则剔除第一斯皮尔曼相关系数对应的第二声学特征参数。
第三声学特征参数集合确定模块用于获得所有保留的第二声学特征参数,得到第三声学特征参数集合。
第二斯皮尔曼相关系数确定模块用于计算所述第三声学特征参数集合中第i个第二声学特征参数和第j个第二声学特征参数的斯皮尔曼相关系数,得到第二斯皮尔曼相关系数。i不等于j,所述第i个第二声学特征参数对应的第一斯皮尔曼相关系数大于所述第j个第二声学特征参数对应的第一斯皮尔曼相关系数。
第二判断模块用于判断所述第三声学特征参数集合中第i个第二声学特征参数和第j个第二声学特征参数对应的第二斯皮尔曼相关系数是否大于第二设定阈值。
第二剔除模块用于若所述第三声学特征参数集合中第i个第二声学特征参数和第j个第二声学特征参数对应的第二斯皮尔曼相关系数是大于第二设定阈值,则保留第i个第二声学特征参数,剔除第j个第二声学特征参数。
第二保留模块用于若所述第三声学特征参数集合中第i个第二声学特征参数和第j个第二声学特征参数对应的第二斯皮尔曼相关系数是不大于第二设定阈值,则保留第i个第二声学特征参数和第j个第二声学特征参数。
第四声学特征参数集合确定模块用于获得所有保留的第二声学特征参数,得到第四声学特征参数集合。
客观公式标准确定模块用于采用应用逻辑回归分析,根据所述第四声学特征参数集合,确定非正常嗓音等级划分的客观公式标准。
等级划分模块用于利用所述非正常嗓音等级划分的客观公式标准对所述待识别嗓音信号进行等级划分。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种嗓音识别方法,其特征在于,包括:
获取嗓音数据库;所述嗓音数据库包括正常嗓音数据和非正常嗓音数据;所述正常嗓音数据和所述非正常嗓音数据均包括多个嗓音信号,所述正常嗓音数据和所述非正常嗓音数据均包括多个嗓音级别;不同的嗓音级别对应的嗓音质量不同;
根据所述嗓音数据库中的所有嗓音信号,得到所述嗓音数据库中的所有嗓音信号的一维线性特征参数;所述一维线性特征参数包括谐噪比、基频微扰、振幅微扰、基频标准差、倒谱峰值突出、频谱平坦度和基音幅值;
对所述嗓音数据库中的所有嗓音信号进行小波包分解;得到所述嗓音数据库中的所有嗓音信号的多维分层非线性特征参数;所述多维分层非线性特征参数包括:复杂度、Hurst指数、Teager能量算子、样本熵和模糊熵;
采用降维方法,根据所述嗓音数据库中的所有嗓音信号的一维线性特征参数和多维分层非线性特征参数,得到所述嗓音数据库中的所有嗓音信号的优化融合特征;
根据所述嗓音数据库中的所有嗓音信号的优化融合特征和多分类支持向量机构建正常嗓音和非正常嗓音的分类模型;
获取用户的待识别嗓音信号;
根据所述待识别嗓音信号,得到所述待识别嗓音信号的优化融合特征;
利用所述分类模型对所述待识别嗓音信号的优化融合特征进行分类,得到所述待识别嗓音信号的分类结果;所述待识别嗓音信号的分类结果为正常嗓音或非正常嗓音。
2.根据权利要求1所述的一种嗓音识别方法,其特征在于,所述根据所述待识别嗓音信号,得到所述待识别嗓音信号的优化融合特征,具体包括:
根据所述待识别嗓音信号,得到所述待识别嗓音信号的一维线性特征参数;
对所述待识别嗓音信号进行小波包分解,得到所述待识别嗓音信号的多维分层非线性特征参数;
根据所述待识别嗓音信号的一维线性特征参数和所述待识别嗓音信号的多维分层非线性特征参数,采用降维方法,得到所述待识别嗓音信号的优化融合特征。
3.根据权利要求1所述的一种嗓音识别方法,其特征在于,所述利用所述分类模型对所述待识别嗓音信号的优化融合特征进行分类,得到所述待识别嗓音信号的分类结果,之后还包括:
当所述待识别嗓音信号的分类结果为正常嗓音时,获取所述嗓音数据库中正常嗓音数据的第一嗓音级别对应的每个嗓音信号的多个第一声学特征参数,得到所述嗓音数据库的第一声学特征参数集合;多个所述第一声学特征参数分别为频带宽度、音域、第一共振峰、第三共振峰和基频;所述第一嗓音级别为所述正常嗓音数据中质量最高的级别;
计算所述嗓音数据库的第一声学特征参数集合中每个第一声学特征参数的平均区间;
获取所述待识别嗓音信号的多个第一声学特征参数,得到所述待识别嗓音信号的第一声学特征参数集合;
获取所述待识别嗓音信号的第一声学特征参数集合中符合要求的第一声学特征参数的个数;所述符合要求的第一声学特征参数为处于对应的平均区间内的第一声学特征参数;
若所述待识别嗓音信号的第一声学特征参数集合中符合要求的第一声学特征参数的个数小于3,则将所述待识别嗓音信号确定为普通嗓音信号;
若所述待识别嗓音信号的第一声学特征参数集合中符合要求的第一声学特征参数的个数不小于3,则将所述待识别嗓音信号确定为优质嗓音信号。
4.根据权利要求1所述的一种嗓音识别方法,其特征在于,所述利用所述分类模型对所述待识别嗓音信号的优化融合特征进行分类,得到所述待识别嗓音信号的分类结果,之后还包括:
当所述待识别嗓音信号的分类结果为非正常嗓音信号时,获得所述嗓音数据库中非正常嗓音数据的嗓音级别;
获取所述嗓音数据库中非正常嗓音数据的每一嗓音级别对应的每个嗓音信号的多个第二声学特征参数,得到所述嗓音数据库的第二声学特征参数集合;多个所述第二声学特征参数分别为基频微扰、振幅微扰、谐噪比、倒谱峰值突出、Hurst指数、Teager能量算子、样本熵。模糊熵、L-Z复杂度、开放熵、闭合熵和速度熵;
计算所述嗓音数据库的第二声学特征参数集合中每个第二声学特征参数与对应嗓音级别的第一斯皮尔曼相关系数;
判断所述第二声学特征参数集合中的第二声学特征参数对应的第一斯皮尔曼相关系数是否大于第一设定阈值;
若所述第二声学特征参数集合中的第二声学特征参数对应的第一斯皮尔曼相关系数是大于第一设定阈值,则保留第一斯皮尔曼相关系数对应的第二声学特征参数;
若所述第二声学特征参数集合中的第二声学特征参数对应的第一斯皮尔曼相关系数是不大于第一设定阈值,则剔除第一斯皮尔曼相关系数对应的第二声学特征参数;
获得所有保留的第二声学特征参数,得到第三声学特征参数集合;
计算所述第三声学特征参数集合中第i个第二声学特征参数和第j个第二声学特征参数的斯皮尔曼相关系数,得到第二斯皮尔曼相关系数;i不等于j,所述第i个第二声学特征参数对应的第一斯皮尔曼相关系数大于所述第j个第二声学特征参数对应的第一斯皮尔曼相关系数;
判断所述第三声学特征参数集合中第i个第二声学特征参数和第j个第二声学特征参数对应的第二斯皮尔曼相关系数是否大于第二设定阈值;
若所述第三声学特征参数集合中第i个第二声学特征参数和第j个第二声学特征参数对应的第二斯皮尔曼相关系数是大于第二设定阈值,则保留第i个第二声学特征参数,剔除第j个第二声学特征参数;
若所述第三声学特征参数集合中第i个第二声学特征参数和第j个第二声学特征参数对应的第二斯皮尔曼相关系数是不大于第二设定阈值,则保留第i个第二声学特征参数和第j个第二声学特征参数;
获得所有保留的第二声学特征参数,得到第四声学特征参数集合;
采用应用逻辑回归分析,根据所述第四声学特征参数集合,确定非正常嗓音等级划分的客观公式标准;
利用所述非正常嗓音等级划分的客观公式标准对所述待识别嗓音信号进行等级划分。
5.一种嗓音识别系统,其特征在于,包括:
数据库获取模块,用于获取嗓音数据库;所述嗓音数据库包括正常嗓音数据和非正常嗓音数据;所述正常嗓音数据和所述非正常嗓音数据均包括多个嗓音信号,所述正常嗓音数据和所述非正常嗓音数据均包括多个嗓音级别;不同的嗓音级别对应的嗓音质量不同;
一维线性特征参数确定模块,用于根据所述嗓音数据库中的所有嗓音信号,得到所述嗓音数据库中的所有嗓音信号的一维线性特征参数;所述一维线性特征参数包括谐噪比、基频微扰、振幅微扰、基频标准差、倒谱峰值突出、频谱平坦度和基音幅值;
多维分层非线性特征参数确定模块,用于对所述嗓音数据库中的所有嗓音信号进行小波包分解;得到所述嗓音数据库中的所有嗓音信号的多维分层非线性特征参数;所述多维分层非线性特征参数包括:复杂度、Hurst指数、Teager能量算子、样本熵和模糊熵;
第一优化融合特征确定模块,用于采用降维方法,根据所述嗓音数据库中的所有嗓音信号的一维线性特征参数和多维分层非线性特征参数,得到所述嗓音数据库中的所有嗓音信号的优化融合特征;
分类模型构建模块,用于根据所述嗓音数据库中的所有嗓音信号的优化融合特征和多分类支持向量机构建正常嗓音和非正常嗓音的分类模型;
待识别嗓音信号获取模块,用于获取用户的待识别嗓音信号;
第二优化融合特征确定模块,用于根据所述待识别嗓音信号,得到所述待识别嗓音信号的优化融合特征;
分类结果确定模块,用于利用所述分类模型对所述待识别嗓音信号的优化融合特征进行分类,得到所述待识别嗓音信号的分类结果;所述待识别嗓音信号的分类结果为正常嗓音或非正常嗓音。
6.根据权利要求5所述的一种嗓音识别系统,其特征在于,所述第二优化融合特征具体包括:
一维线性特征参数确定单元,用于根据所述待识别嗓音信号,得到所述待识别嗓音信号的一维线性特征参数;
多维分层非线性特征参数确定单元,用于对所述待识别嗓音信号进行小波包分解,得到所述待识别嗓音信号的多维分层非线性特征参数;
第二优化融合特征确定单元,用于根据所述待识别嗓音信号的一维线性特征参数和所述待识别嗓音信号的多维分层非线性特征参数,采用降维方法,得到所述待识别嗓音信号的优化融合特征。
7.根据权利要求5所述的一种嗓音识别系统,其特征在于,还包括:
正常嗓音数据的第一声学特征参数集合确定模块,用于当所述待识别嗓音信号的分类结果为正常嗓音时,获取所述嗓音数据库中正常嗓音数据的第一嗓音级别对应的每个嗓音信号的多个第一声学特征参数,得到所述嗓音数据库的第一声学特征参数集合;多个所述第一声学特征参数分别为频带宽度、音域、第一共振峰、第三共振峰和基频;所述第一嗓音级别为所述正常嗓音数据中质量最高的级别;
平均区间确定模块,用于计算所述嗓音数据库的第一声学特征参数集合中每个第一声学特征参数的平均区间;
待识别嗓音信号的第一声学特征参数集合确定模块,用于获取所述待识别嗓音信号的多个第一声学特征参数,得到所述待识别嗓音信号的第一声学特征参数集合;
符合要求的第一声学特征参数个数确定模块,用于获取所述待识别嗓音信号的第一声学特征参数集合中符合要求的第一声学特征参数的个数;所述符合要求的第一声学特征参数为处于对应的平均区间内的第一声学特征参数;
普通嗓音信号确定模块,用于若所述待识别嗓音信号的第一声学特征参数集合中符合要求的第一声学特征参数的个数小于3,则将所述待识别嗓音信号确定为普通嗓音信号;
优质嗓音信号确定模块,用于若所述待识别嗓音信号的第一声学特征参数集合中符合要求的第一声学特征参数的个数不小于3,则将所述待识别嗓音信号确定为优质嗓音信号。
8.根据权利要求5所述的一种嗓音识别系统,其特征在于,还包括:
非正常嗓音数据的嗓音级别获取模块,用于当所述待识别嗓音信号的分类结果为非正常嗓音信号时,获得所述嗓音数据库中非正常嗓音数据的嗓音级别;
第二声学特征参数集合确定模块,用于获取所述嗓音数据库中非正常嗓音数据的每一嗓音级别对应的每个嗓音信号的多个第二声学特征参数,得到所述嗓音数据库的第二声学特征参数集合;多个所述第二声学特征参数分别为基频微扰、振幅微扰、谐噪比、倒谱峰值突出、Hurst指数、Teager能量算子、样本熵。模糊熵、L-Z复杂度、开放熵、闭合熵和速度熵;
第一斯皮尔曼相关系数确定模块,用于计算所述嗓音数据库的第二声学特征参数集合中每个第二声学特征参数与对应嗓音级别的第一斯皮尔曼相关系数;
第一判断模块,用于判断所述第二声学特征参数集合中的第二声学特征参数对应的第一斯皮尔曼相关系数是否大于第一设定阈值;
第一保留模块,用于若所述第二声学特征参数集合中的第二声学特征参数对应的第一斯皮尔曼相关系数是大于第一设定阈值,则保留第一斯皮尔曼相关系数对应的第二声学特征参数;
第一剔除模块,用于若所述第二声学特征参数集合中的第二声学特征参数对应的第一斯皮尔曼相关系数是不大于第一设定阈值,则剔除第一斯皮尔曼相关系数对应的第二声学特征参数;
第三声学特征参数集合确定模块,用于获得所有保留的第二声学特征参数,得到第三声学特征参数集合;
第二斯皮尔曼相关系数确定模块,用于计算所述第三声学特征参数集合中第i个第二声学特征参数和第j个第二声学特征参数的斯皮尔曼相关系数,得到第二斯皮尔曼相关系数;i不等于j,所述第i个第二声学特征参数对应的第一斯皮尔曼相关系数大于所述第j个第二声学特征参数对应的第一斯皮尔曼相关系数;
第二判断模块,用于判断所述第三声学特征参数集合中第i个第二声学特征参数和第j个第二声学特征参数对应的第二斯皮尔曼相关系数是否大于第二设定阈值;
第二剔除模块,用于若所述第三声学特征参数集合中第i个第二声学特征参数和第j个第二声学特征参数对应的第二斯皮尔曼相关系数是大于第二设定阈值,则保留第i个第二声学特征参数,剔除第j个第二声学特征参数;
第二保留模块,用于若所述第三声学特征参数集合中第i个第二声学特征参数和第j个第二声学特征参数对应的第二斯皮尔曼相关系数是不大于第二设定阈值,则保留第i个第二声学特征参数和第j个第二声学特征参数;
第四声学特征参数集合确定模块,用于获得所有保留的第二声学特征参数,得到第四声学特征参数集合;
客观公式标准确定模块,用于采用应用逻辑回归分析,根据所述第四声学特征参数集合,确定非正常嗓音等级划分的客观公式标准;
等级划分模块,用于利用所述非正常嗓音等级划分的客观公式标准对所述待识别嗓音信号进行等级划分。
CN202010385515.3A 2020-05-09 2020-05-09 一种嗓音识别方法及系统 Active CN111554325B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010385515.3A CN111554325B (zh) 2020-05-09 2020-05-09 一种嗓音识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010385515.3A CN111554325B (zh) 2020-05-09 2020-05-09 一种嗓音识别方法及系统

Publications (2)

Publication Number Publication Date
CN111554325A true CN111554325A (zh) 2020-08-18
CN111554325B CN111554325B (zh) 2023-03-24

Family

ID=72004507

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010385515.3A Active CN111554325B (zh) 2020-05-09 2020-05-09 一种嗓音识别方法及系统

Country Status (1)

Country Link
CN (1) CN111554325B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113870903A (zh) * 2021-09-28 2021-12-31 平安科技(深圳)有限公司 病理语音的识别方法、装置、设备及存储介质
CN117409819A (zh) * 2023-12-15 2024-01-16 北京大学第三医院(北京大学第三临床医学院) 一种基于人工智能的人体嗓音检测分析方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2492204A1 (en) * 2004-07-26 2006-01-26 Iucf-Hyu (Industry University Cooperation Foundation-Hanyang University) Similar speaking recognition method and system using linear and nonlinear feature extraction
CN103093759A (zh) * 2013-01-16 2013-05-08 东北大学 一种基于移动终端的嗓音检测评估装置及方法
CN103258545A (zh) * 2012-12-20 2013-08-21 苏州大学 一种病理嗓音细分方法
CN103730130A (zh) * 2013-12-20 2014-04-16 中国科学院深圳先进技术研究院 一种病理嗓音的检测方法和系统
CN106297768A (zh) * 2015-05-11 2017-01-04 苏州大学 一种语音识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2492204A1 (en) * 2004-07-26 2006-01-26 Iucf-Hyu (Industry University Cooperation Foundation-Hanyang University) Similar speaking recognition method and system using linear and nonlinear feature extraction
CN103258545A (zh) * 2012-12-20 2013-08-21 苏州大学 一种病理嗓音细分方法
CN103093759A (zh) * 2013-01-16 2013-05-08 东北大学 一种基于移动终端的嗓音检测评估装置及方法
CN103730130A (zh) * 2013-12-20 2014-04-16 中国科学院深圳先进技术研究院 一种病理嗓音的检测方法和系统
CN106297768A (zh) * 2015-05-11 2017-01-04 苏州大学 一种语音识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郭乐乐,曹辉,李涛: "有效特征参数分类正常与病理语音", 《声学技术》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113870903A (zh) * 2021-09-28 2021-12-31 平安科技(深圳)有限公司 病理语音的识别方法、装置、设备及存储介质
CN117409819A (zh) * 2023-12-15 2024-01-16 北京大学第三医院(北京大学第三临床医学院) 一种基于人工智能的人体嗓音检测分析方法

Also Published As

Publication number Publication date
CN111554325B (zh) 2023-03-24

Similar Documents

Publication Publication Date Title
Eskenazi et al. Acoustic correlates of vocal quality
Henríquez et al. Characterization of healthy and pathological voice through measures based on nonlinear dynamics
CN102930866B (zh) 一种用于口语练习的学生朗读作业的评判方法
US8423369B2 (en) Conversational speech analysis method, and conversational speech analyzer
EP1569422B1 (en) Method and apparatus for multi-sensory speech enhancement on a mobile device
CN111951824A (zh) 一种基于声音判别抑郁症的检测方法
CN111554325B (zh) 一种嗓音识别方法及系统
JPWO2006011405A1 (ja) デジタルフィルタリング方法、デジタルフィルタ装置、デジタルフィルタプログラム及びコンピュータで読み取り可能な記録媒体並びに記録した機器
US20060200346A1 (en) Speech quality measurement based on classification estimation
Feng et al. Nonintrusive objective measurement of speech intelligibility: A review of methodology
CN110070888A (zh) 一种基于卷积神经网络的帕金森语音识别方法
CN115346561B (zh) 基于语音特征的抑郁情绪评估预测方法及系统
CN117294985A (zh) 一种tws蓝牙耳机控制方法
CN108919962B (zh) 基于脑机数据集中处理的辅助钢琴训练方法
CN110827980A (zh) 一种基于声学指标的构音障碍分级评估方法
CN117041847B (zh) 用于助听器中自适应传声器匹配方法及系统
CN110136746A (zh) 一种基于融合特征的加性噪声环境下手机来源识别方法
Vacher et al. Speech and sound use in a remote monitoring system for health care
CN113709291A (zh) 音频处理方法、装置、电子设备及可读存储介质
Sztahó et al. Automatic classification of emotions in spontaneous speech
CN116746886A (zh) 一种通过音色音调的健康分析方法及设备
CN112233693B (zh) 一种音质评估方法、装置和设备
US7418385B2 (en) Voice detection device
US20050004792A1 (en) Speech characteristic extraction method speech charateristic extraction device speech recognition method and speech recognition device
Audhkhasi et al. Two-scale auditory feature based non-intrusive speech quality evaluation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant