CN111554325A

CN111554325A - 一种嗓音识别方法及系统

Info

Publication number: CN111554325A
Application number: CN202010385515.3A
Authority: CN
Inventors: 曹辉; 武倩文; 秦驰杰; 曹娜; 彭玥; 孟文婷; 范翔; 彭瑞; 石宇; 陈文韬
Original assignee: Shaanxi Normal University
Current assignee: Shaanxi Normal University
Priority date: 2020-05-09
Filing date: 2020-05-09
Publication date: 2020-08-18
Anticipated expiration: 2040-05-09
Also published as: CN111554325B

Abstract

本发明涉及一种嗓音识别方法及系统。该方法包括：获取嗓音数据库；根据嗓音数据库中的所有嗓音信号，得到所有嗓音信号的一维线性特征参数；对所有嗓音信号进行小波包分解；得到所有嗓音信号的多维分层非线性特征参数；采用降维方法，根据所有嗓音信号的一维线性特征参数，得到所有嗓音信号的优化融合特征；根据所有嗓音信号的优化融合特征和多分类支持向量机构建正常嗓音和非正常嗓音的分类模型；获取用户的待识别嗓音信号；根据待识别嗓音信号，得到待识别嗓音信号的优化融合特征；利用分类模型对待识别嗓音信号的优化融合特征进行分类，得到分类结果。本发明所提供一种嗓音识别方法及系统，解决现有技术中嗓音识别准确性低的问题。

Description

一种嗓音识别方法及系统

技术领域

本发明涉及嗓音识别领域，特别是涉及一种嗓音识别方法及系统。

背景技术

据调查显示约25％的世界人口是“职业用嗓过度者”。因为一些特定的职业迫使从事者说话的声音要超过正常水平，例如，歌手、演员、律师、教师等。而日复一日的过度用嗓会造成他们的声带受损，直接影响到嗓音质量，进而给生活和工作带来不便。并且不同的人的嗓音也不同，通过嗓音进行电话拨入银行、数据库服务、购物、语音邮件以及进入保密的装置，并且还可以通过嗓音识别出非正常的嗓音。

国内外主要使用电子计算机及频谱分析仪采集、分析、统计嗓音声样，对嗓音进行声学分析。国内已有的嗓音医学相关系统为国产USSA语音频谱分析系统，但上述系统、软件价格昂贵，且受于时间和环境的限制，不能随时随地方便快捷对嗓音信号进行分析评估。

而通过主观听觉进行嗓音识别，带有主观判断，个人意识过强，造成嗓音识别准确性低。

发明内容

本发明的目的是提供一种嗓音识别方法及系统，解决现有技术中嗓音识别准确性低的问题。

为实现上述目的，本发明提供了如下方案：

一种嗓音识别方法，包括：

获取嗓音数据库；所述嗓音数据库包括正常嗓音数据和非正常嗓音数据；所述正常嗓音数据和所述非正常嗓音数据均包括多个嗓音信号，所述正常嗓音数据和所述非正常嗓音数据均包括多个嗓音级别；不同的嗓音级别对应的嗓音质量不同；

根据所述嗓音数据库中的所有嗓音信号，得到所述嗓音数据库中的所有嗓音信号的一维线性特征参数；所述一维线性特征参数包括谐噪比、基频微扰、振幅微扰、基频标准差、倒谱峰值突出、频谱平坦度和基音幅值；

对所述嗓音数据库中的所有嗓音信号进行小波包分解；得到所述嗓音数据库中的所有嗓音信号的多维分层非线性特征参数；所述多维分层非线性特征参数包括：复杂度、Hurst指数、Teager能量算子、样本熵和模糊熵；

采用降维方法，根据所述嗓音数据库中的所有嗓音信号的一维线性特征参数和多维分层非线性特征参数，得到所述嗓音数据库中的所有嗓音信号的优化融合特征；

根据所述嗓音数据库中的所有嗓音信号的优化融合特征和多分类支持向量机构建正常嗓音和非正常嗓音的分类模型；

获取用户的待识别嗓音信号；

根据所述待识别嗓音信号，得到所述待识别嗓音信号的优化融合特征；

利用所述分类模型对所述待识别嗓音信号的优化融合特征进行分类，得到所述待识别嗓音信号的分类结果；所述待识别嗓音信号的分类结果为正常嗓音或非正常嗓音。

可选的，所述根据所述待识别嗓音信号，得到所述待识别嗓音信号的优化融合特征，具体包括：

根据所述待识别嗓音信号，得到所述待识别嗓音信号的一维线性特征参数；

对所述待识别嗓音信号进行小波包分解，得到所述待识别嗓音信号的多维分层非线性特征参数；

根据所述待识别嗓音信号的一维线性特征参数和所述待识别嗓音信号的多维分层非线性特征参数，采用降维方法，得到所述待识别嗓音信号的优化融合特征。

可选的，所述利用所述分类模型对所述待识别嗓音信号的优化融合特征进行分类，得到所述待识别嗓音信号的分类结果，之后还包括：

当所述待识别嗓音信号的分类结果为正常嗓音时，获取所述嗓音数据库中正常嗓音数据的第一嗓音级别对应的每个嗓音信号的多个第一声学特征参数，得到所述嗓音数据库的第一声学特征参数集合；多个所述第一声学特征参数分别为频带宽度、音域、第一共振峰、第三共振峰和基频；所述第一嗓音级别为所述正常嗓音数据中质量最高的级别；

计算所述嗓音数据库的第一声学特征参数集合中每个第一声学特征参数的平均区间；

获取所述待识别嗓音信号的多个第一声学特征参数，得到所述待识别嗓音信号的第一声学特征参数集合；

获取所述待识别嗓音信号的第一声学特征参数集合中符合要求的第一声学特征参数的个数；所述符合要求的第一声学特征参数为处于对应的平均区间内的第一声学特征参数；

若所述待识别嗓音信号的第一声学特征参数集合中符合要求的第一声学特征参数的个数小于3，则将所述待识别嗓音信号确定为普通嗓音信号；

若所述待识别嗓音信号的第一声学特征参数集合中符合要求的第一声学特征参数的个数不小于3，则将所述待识别嗓音信号确定为优质嗓音信号。

当所述待识别嗓音信号的分类结果为非正常嗓音信号时，获得所述嗓音数据库中非正常嗓音数据的嗓音级别；

获取所述嗓音数据库中非正常嗓音数据的每一嗓音级别对应的每个嗓音信号的多个第二声学特征参数，得到所述嗓音数据库的第二声学特征参数集合；多个所述第二声学特征参数分别为基频微扰、振幅微扰、谐噪比、倒谱峰值突出、Hurst指数、Teager能量算子、样本熵。模糊熵、L-Z复杂度、开放熵、闭合熵和速度熵；

计算所述嗓音数据库的第二声学特征参数集合中每个第二声学特征参数与对应嗓音级别的第一斯皮尔曼相关系数；

判断所述第二声学特征参数集合中的第二声学特征参数对应的第一斯皮尔曼相关系数是否大于第一设定阈值；

若所述第二声学特征参数集合中的第二声学特征参数对应的第一斯皮尔曼相关系数是大于第一设定阈值，则保留第一斯皮尔曼相关系数对应的第二声学特征参数；

若所述第二声学特征参数集合中的第二声学特征参数对应的第一斯皮尔曼相关系数是不大于第一设定阈值，则剔除第一斯皮尔曼相关系数对应的第二声学特征参数；

获得所有保留的第二声学特征参数，得到第三声学特征参数集合；

计算所述第三声学特征参数集合中第i个第二声学特征参数和第j个第二声学特征参数的斯皮尔曼相关系数，得到第二斯皮尔曼相关系数；i不等于j，所述第i个第二声学特征参数对应的第一斯皮尔曼相关系数大于所述第j个第二声学特征参数对应的第一斯皮尔曼相关系数；

判断所述第三声学特征参数集合中第i个第二声学特征参数和第j个第二声学特征参数对应的第二斯皮尔曼相关系数是否大于第二设定阈值；

若所述第三声学特征参数集合中第i个第二声学特征参数和第j个第二声学特征参数对应的第二斯皮尔曼相关系数是大于第二设定阈值，则保留第i个第二声学特征参数，剔除第j个第二声学特征参数；

若所述第三声学特征参数集合中第i个第二声学特征参数和第j个第二声学特征参数对应的第二斯皮尔曼相关系数是不大于第二设定阈值，则保留第i个第二声学特征参数和第j个第二声学特征参数；

获得所有保留的第二声学特征参数，得到第四声学特征参数集合；

采用应用逻辑回归分析，根据所述第四声学特征参数集合，确定非正常嗓音等级划分的客观公式标准；

利用所述非正常嗓音等级划分的客观公式标准对所述待识别嗓音信号进行等级划分。

一种嗓音识别系统，包括：

数据库获取模块，用于获取嗓音数据库；所述嗓音数据库包括正常嗓音数据和非正常嗓音数据；所述正常嗓音数据和所述非正常嗓音数据均包括多个嗓音信号，所述正常嗓音数据和所述非正常嗓音数据均包括多个嗓音级别；不同的嗓音级别对应的嗓音质量不同；

一维线性特征参数确定模块，用于根据所述嗓音数据库中的所有嗓音信号，得到所述嗓音数据库中的所有嗓音信号的一维线性特征参数；所述一维线性特征参数包括谐噪比、基频微扰、振幅微扰、基频标准差、倒谱峰值突出、频谱平坦度和基音幅值；

多维分层非线性特征参数确定模块，用于对所述嗓音数据库中的所有嗓音信号进行小波包分解；得到所述嗓音数据库中的所有嗓音信号的多维分层非线性特征参数；所述多维分层非线性特征参数包括：复杂度、Hurst指数、Teager能量算子、样本熵和模糊熵；

第一优化融合特征确定模块，用于采用降维方法，根据所述嗓音数据库中的所有嗓音信号的一维线性特征参数和多维分层非线性特征参数，得到所述嗓音数据库中的所有嗓音信号的优化融合特征；

分类模型构建模块，用于根据所述嗓音数据库中的所有嗓音信号的优化融合特征和多分类支持向量机构建正常嗓音和非正常嗓音的分类模型；

待识别嗓音信号获取模块，用于获取用户的待识别嗓音信号；

第二优化融合特征确定模块，用于根据所述待识别嗓音信号，得到所述待识别嗓音信号的优化融合特征；

分类结果确定模块，用于利用所述分类模型对所述待识别嗓音信号的优化融合特征进行分类，得到所述待识别嗓音信号的分类结果；所述待识别嗓音信号的分类结果为正常嗓音或非正常嗓音。

可选的，所述第二优化融合特征具体包括：

一维线性特征参数确定单元，用于根据所述待识别嗓音信号，得到所述待识别嗓音信号的一维线性特征参数；

多维分层非线性特征参数确定单元，用于对所述待识别嗓音信号进行小波包分解，得到所述待识别嗓音信号的多维分层非线性特征参数；

第二优化融合特征确定单元，用于根据所述待识别嗓音信号的一维线性特征参数和所述待识别嗓音信号的多维分层非线性特征参数，采用降维方法，得到所述待识别嗓音信号的优化融合特征。

可选的，还包括：

正常嗓音数据的第一声学特征参数集合确定模块，用于当所述待识别嗓音信号的分类结果为正常嗓音时，获取所述嗓音数据库中正常嗓音数据的第一嗓音级别对应的每个嗓音信号的多个第一声学特征参数，得到所述嗓音数据库的第一声学特征参数集合；多个所述第一声学特征参数分别为频带宽度、音域、第一共振峰、第三共振峰和基频；所述第一嗓音级别为所述正常嗓音数据中质量最高的级别；

平均区间确定模块，用于计算所述嗓音数据库的第一声学特征参数集合中每个第一声学特征参数的平均区间；

待识别嗓音信号的第一声学特征参数集合确定模块，用于获取所述待识别嗓音信号的多个第一声学特征参数，得到所述待识别嗓音信号的第一声学特征参数集合；

符合要求的第一声学特征参数个数确定模块，用于获取所述待识别嗓音信号的第一声学特征参数集合中符合要求的第一声学特征参数的个数；所述符合要求的第一声学特征参数为处于对应的平均区间内的第一声学特征参数；

普通嗓音信号确定模块，用于若所述待识别嗓音信号的第一声学特征参数集合中符合要求的第一声学特征参数的个数小于3，则将所述待识别嗓音信号确定为普通嗓音信号；

优质嗓音信号确定模块，用于若所述待识别嗓音信号的第一声学特征参数集合中符合要求的第一声学特征参数的个数不小于3，则将所述待识别嗓音信号确定为优质嗓音信号。

可选的，还包括：

非正常嗓音数据的嗓音级别获取模块，用于当所述待识别嗓音信号的分类结果为非正常嗓音信号时，获得所述嗓音数据库中非正常嗓音数据的嗓音级别；

第二声学特征参数集合确定模块，用于获取所述嗓音数据库中非正常嗓音数据的每一嗓音级别对应的每个嗓音信号的多个第二声学特征参数，得到所述嗓音数据库的第二声学特征参数集合；多个所述第二声学特征参数分别为基频微扰、振幅微扰、谐噪比、倒谱峰值突出、Hurst指数、Teager能量算子、样本熵。模糊熵、L-Z复杂度、开放熵、闭合熵和速度熵；

第一斯皮尔曼相关系数确定模块，用于计算所述嗓音数据库的第二声学特征参数集合中每个第二声学特征参数与对应嗓音级别的第一斯皮尔曼相关系数；

第一判断模块，用于判断所述第二声学特征参数集合中的第二声学特征参数对应的第一斯皮尔曼相关系数是否大于第一设定阈值；

第一保留模块，用于若所述第二声学特征参数集合中的第二声学特征参数对应的第一斯皮尔曼相关系数是大于第一设定阈值，则保留第一斯皮尔曼相关系数对应的第二声学特征参数；

第一剔除模块，用于若所述第二声学特征参数集合中的第二声学特征参数对应的第一斯皮尔曼相关系数是不大于第一设定阈值，则剔除第一斯皮尔曼相关系数对应的第二声学特征参数；

第三声学特征参数集合确定模块，用于获得所有保留的第二声学特征参数，得到第三声学特征参数集合；

第二斯皮尔曼相关系数确定模块，用于计算所述第三声学特征参数集合中第i个第二声学特征参数和第j个第二声学特征参数的斯皮尔曼相关系数，得到第二斯皮尔曼相关系数；i不等于j，所述第i个第二声学特征参数对应的第一斯皮尔曼相关系数大于所述第j个第二声学特征参数对应的第一斯皮尔曼相关系数；

第二判断模块，用于判断所述第三声学特征参数集合中第i个第二声学特征参数和第j个第二声学特征参数对应的第二斯皮尔曼相关系数是否大于第二设定阈值；

第二剔除模块，用于若所述第三声学特征参数集合中第i个第二声学特征参数和第j个第二声学特征参数对应的第二斯皮尔曼相关系数是大于第二设定阈值，则保留第i个第二声学特征参数，剔除第j个第二声学特征参数；

第二保留模块，用于若所述第三声学特征参数集合中第i个第二声学特征参数和第j个第二声学特征参数对应的第二斯皮尔曼相关系数是不大于第二设定阈值，则保留第i个第二声学特征参数和第j个第二声学特征参数；

第四声学特征参数集合确定模块，用于获得所有保留的第二声学特征参数，得到第四声学特征参数集合；

客观公式标准确定模块，用于采用应用逻辑回归分析，根据所述第四声学特征参数集合，确定非正常嗓音等级划分的客观公式标准；

等级划分模块，用于利用所述非正常嗓音等级划分的客观公式标准对所述待识别嗓音信号进行等级划分。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明所提供的一种嗓音识别方法及系统，利用数字处理技术建立正常嗓音和非正常嗓音的分类模型，通过正常嗓音和非正常嗓音的分类模型对待识别的嗓音信号进行分类，实现了嗓音的识别。并且本发明是一种分侵入性的分析技术，快速地、准确地实现对嗓音信号的识别。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明所提供的一种嗓音识别方法流程示意图；

图2为本发明所提供的一种嗓音识别系统结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明所提供的一种嗓音识别方法流程示意图，如图1所示，本发明所提供的一种嗓音识别方法，包括：

S101，获取嗓音数据库。所述嗓音数据库包括正常嗓音数据和非正常嗓音数据；所述正常嗓音数据和所述非正常嗓音数据均包括多个嗓音信号，所述正常嗓音数据和所述非正常嗓音数据均包括多个嗓音级别；不同的嗓音级别对应的嗓音质量不同。

S102，根据所述嗓音数据库中的所有嗓音信号，得到所述嗓音数据库中的所有嗓音信号的一维线性特征参数；所述一维线性特征参数包括谐噪比、基频微扰、振幅微扰、基频标准差、倒谱峰值突出、频谱平坦度和基音幅值。

S103，对所述嗓音数据库中的所有嗓音信号进行小波包分解；得到所述嗓音数据库中的所有嗓音信号的多维分层非线性特征参数；所述多维分层非线性特征参数包括：复杂度、Hurst指数、Teager能量算子、样本熵和模糊熵。

S104，采用降维方法，根据所述嗓音数据库中的所有嗓音信号的一维线性特征参数和多维分层非线性特征参数，得到所述嗓音数据库中的所有嗓音信号的优化融合特征。

S105，根据所述嗓音数据库中的所有嗓音信号的优化融合特征和多分类支持向量机构建正常嗓音和非正常嗓音的分类模型。

S106，获取用户的待识别嗓音信号。

所述用户的待识别嗓音信号由嗓音采集装置进行采集。嗓音采集装置包括内置录音软件和扬声器话筒。嗓音采集时，用户以正常声调发音元音a(时长3s，话筒距离嘴唇10-15cm，且话筒位于嘴唇斜方45°)，话筒将采集到的嗓音传送到采样率50KHZ、采样精度16bits的Cool Edit录音软件中。再通过扬声器回播采集到的嗓音，当确认录制内容无误、整个录音持续时间段内有声音后，采集嗓音将以wav格式保存，。

S107，根据所述待识别嗓音信号，得到所述待识别嗓音信号的优化融合特征。

根据所述待识别嗓音信号，得到所述待识别嗓音信号的一维线性特征参数。

对所述待识别嗓音信号进行小波包分解，得到所述待识别嗓音信号的多维分层非线性特征参数。

S108，利用所述分类模型对所述待识别嗓音信号的优化融合特征进行分类，得到所述待识别嗓音信号的分类结果；所述待识别嗓音信号的分类结果为正常嗓音或非正常嗓音。

根据所述待识别嗓音信号的分类结果还可以识别出病理嗓音。即通过分类结果可以识别出喉炎、声带息肉、喉返神经麻痹等疾病，

进一步的，所述待识别嗓音信号的分类结果通过医生确认无误后，将嗓音样本与各项信息(用户的年龄及性别等)共同保存在嗓音库中，扩大嗓音库的样本数量；确认有误，则以医生的评价为准，再将修改采集到的嗓音的分类结果保存数据库中。

在S108之后，为了进一步的提高多嗓音的识别精度，对分类之后的嗓音进行等级的划分。

当所述待识别嗓音信号的分类结果为正常嗓音时，获取所述嗓音数据库中正常嗓音数据的第一嗓音级别对应的每个嗓音信号的多个第一声学特征参数，得到所述嗓音数据库的第一声学特征参数集合。多个所述第一声学特征参数分别为频带宽度、音域、第一共振峰、第三共振峰和基频；所述第一嗓音级别为所述正常嗓音数据中质量最高的级别。

计算所述嗓音数据库的第一声学特征参数集合中每个第一声学特征参数的平均区间。

获取所述待识别嗓音信号的多个第一声学特征参数，得到所述待识别嗓音信号的第一声学特征参数集合。

获取所述待识别嗓音信号的第一声学特征参数集合中符合要求的第一声学特征参数的个数；所述符合要求的第一声学特征参数为处于对应的平均区间内的第一声学特征参数。

若所述待识别嗓音信号的第一声学特征参数集合中符合要求的第一声学特征参数的个数小于3，则将所述待识别嗓音信号确定为普通嗓音信号。

当所述待识别嗓音信号的分类结果为非正常嗓音信号时，获得所述嗓音数据库中非正常嗓音数据的嗓音级别。

非正常嗓音数据的嗓音级别是由耳鼻喉科相关专家医师们对数据库中非正常嗓音数据进行嗓音听感知评估得到的结果。

获取所述嗓音数据库中非正常嗓音数据的每一嗓音级别对应的每个嗓音信号的多个第二声学特征参数，得到所述嗓音数据库的第二声学特征参数集合。多个所述第二声学特征参数分别为基频微扰、振幅微扰、谐噪比、倒谱峰值突出、Hurst指数、Teager能量算子、样本熵。模糊熵、L-Z复杂度、开放熵、闭合熵和速度熵。

计算所述嗓音数据库的第二声学特征参数集合中每个第二声学特征参数与对应嗓音级别的第一斯皮尔曼相关系数。

判断所述第二声学特征参数集合中的第二声学特征参数对应的第一斯皮尔曼相关系数是否大于第一设定阈值。

若所述第二声学特征参数集合中的第二声学特征参数对应的第一斯皮尔曼相关系数是大于第一设定阈值，则保留第一斯皮尔曼相关系数对应的第二声学特征参数。

若所述第二声学特征参数集合中的第二声学特征参数对应的第一斯皮尔曼相关系数是不大于第一设定阈值，则剔除第一斯皮尔曼相关系数对应的第二声学特征参数。

获得所有保留的第二声学特征参数，得到第三声学特征参数集合。

计算所述第三声学特征参数集合中第i个第二声学特征参数和第j个第二声学特征参数的斯皮尔曼相关系数，得到第二斯皮尔曼相关系数；i不等于j，所述第i个第二声学特征参数对应的第一斯皮尔曼相关系数大于所述第j个第二声学特征参数对应的第一斯皮尔曼相关系数。

判断所述第三声学特征参数集合中第i个第二声学特征参数和第j个第二声学特征参数对应的第二斯皮尔曼相关系数是否大于第二设定阈值。

若所述第三声学特征参数集合中第i个第二声学特征参数和第j个第二声学特征参数对应的第二斯皮尔曼相关系数是大于第二设定阈值，则保留第i个第二声学特征参数，剔除第j个第二声学特征参数。

若所述第三声学特征参数集合中第i个第二声学特征参数和第j个第二声学特征参数对应的第二斯皮尔曼相关系数是不大于第二设定阈值，则保留第i个第二声学特征参数和第j个第二声学特征参数。

获得所有保留的第二声学特征参数，得到第四声学特征参数集合。

采用应用逻辑回归分析，根据所述第四声学特征参数集合，确定非正常嗓音等级划分的客观公式标准。

当非正常嗓音为病理嗓音时，可以通过利用所述非正常嗓音等级划分的客观公式标准识别病理嗓音的具体病理情况。

为了进一步加强对用户嗓音信号的管理，对划分等级之后嗓音信号进行显示和保存。并更新用户信息与嗓音划分结果的数据库。

对应本发明所提供的一种嗓音识别方法，本发明还提供一种嗓音识别系统，如图2所示，本发明所提供一种嗓音识别系统包括：数据库获取模块201、一维线性特征参数确定模块202、多维分层非线性特征参数确定模块203、第一优化融合特征确定模块204、分类模型构建模块205、待识别嗓音信号获取模块206、第二优化融合特征确定模块207和分类结果确定模块208。

数据库获取模块201用于获取嗓音数据库。所述嗓音数据库包括正常嗓音数据和非正常嗓音数据；所述正常嗓音数据和所述非正常嗓音数据均包括多个嗓音信号，所述正常嗓音数据和所述非正常嗓音数据均包括多个嗓音级别；不同的嗓音级别对应的嗓音质量不同。

一维线性特征参数确定模块202用于根据所述嗓音数据库中的所有嗓音信号，得到所述嗓音数据库中的所有嗓音信号的一维线性特征参数；所述一维线性特征参数包括谐噪比、基频微扰、振幅微扰、基频标准差、倒谱峰值突出、频谱平坦度和基音幅值。

多维分层非线性特征参数确定模块203用于对所述嗓音数据库中的所有嗓音信号进行小波包分解；得到所述嗓音数据库中的所有嗓音信号的多维分层非线性特征参数；所述多维分层非线性特征参数包括：复杂度、Hurst指数、Teager能量算子、样本熵和模糊熵。

第一优化融合特征确定模块204用于采用降维方法，根据所述嗓音数据库中的所有嗓音信号的一维线性特征参数和多维分层非线性特征参数，得到所述嗓音数据库中的所有嗓音信号的优化融合特征。

分类模型构建模块205用于根据所述嗓音数据库中的所有嗓音信号的优化融合特征和多分类支持向量机构建正常嗓音和非正常嗓音的分类模型。

待识别嗓音信号获取模块206用于获取用户的待识别嗓音信号。

第二优化融合特征确定模块207用于根据所述待识别嗓音信号，得到所述待识别嗓音信号的优化融合特征。

分类结果确定模块208用于利用所述分类模型对所述待识别嗓音信号的优化融合特征进行分类，得到所述待识别嗓音信号的分类结果；所述待识别嗓音信号的分类结果为正常嗓音或非正常嗓音。

所述第二优化融合特征207具体包括：一维线性特征参数确定单元、多维分层非线性特征参数确定单元和第二优化融合特征确定单元。

一维线性特征参数确定单元用于根据所述待识别嗓音信号，得到所述待识别嗓音信号的一维线性特征参数。

多维分层非线性特征参数确定单元用于对所述待识别嗓音信号进行小波包分解，得到所述待识别嗓音信号的多维分层非线性特征参数。

第二优化融合特征确定单元用于根据所述待识别嗓音信号的一维线性特征参数和所述待识别嗓音信号的多维分层非线性特征参数，采用降维方法，得到所述待识别嗓音信号的优化融合特征。

本发明所提供的一种嗓音识别系统还包括：正常嗓音数据的第一声学特征参数集合确定模块、平均区间确定模块、待识别嗓音信号的第一声学特征参数集合确定模块、符合要求的第一声学特征参数个数确定模块、普通嗓音信号确定模块和优质嗓音信号确定模块。

正常嗓音数据的第一声学特征参数集合确定模块用于当所述待识别嗓音信号的分类结果为正常嗓音时，获取所述嗓音数据库中正常嗓音数据的第一嗓音级别对应的每个嗓音信号的多个第一声学特征参数，得到所述嗓音数据库的第一声学特征参数集合。多个所述第一声学特征参数分别为频带宽度、音域、第一共振峰、第三共振峰和基频；所述第一嗓音级别为所述正常嗓音数据中质量最高的级别。

平均区间确定模块用于计算所述嗓音数据库的第一声学特征参数集合中每个第一声学特征参数的平均区间。

待识别嗓音信号的第一声学特征参数集合确定模块用于获取所述待识别嗓音信号的多个第一声学特征参数，得到所述待识别嗓音信号的第一声学特征参数集合。

符合要求的第一声学特征参数个数确定模块用于获取所述待识别嗓音信号的第一声学特征参数集合中符合要求的第一声学特征参数的个数。所述符合要求的第一声学特征参数为处于对应的平均区间内的第一声学特征参数。

普通嗓音信号确定模块用于若所述待识别嗓音信号的第一声学特征参数集合中符合要求的第一声学特征参数的个数小于3，则将所述待识别嗓音信号确定为普通嗓音信号。

优质嗓音信号确定模块用于若所述待识别嗓音信号的第一声学特征参数集合中符合要求的第一声学特征参数的个数不小于3，则将所述待识别嗓音信号确定为优质嗓音信号。

本发明所提供的一种嗓音识别系统还包括：非正常嗓音数据的嗓音级别获取模块、第二声学特征参数集合确定模块、第一斯皮尔曼相关系数确定模块、第一判断模块、第一保留模块、第一剔除模块、第三声学特征参数集合确定模块、第二斯皮尔曼相关系数确定模块、第二判断模块、第二剔除模块、第二保留模块、第四声学特征参数集合确定模块、客观公式标准确定模块和等级划分模块。

非正常嗓音数据的嗓音级别获取模块，用于当所述待识别嗓音信号的分类结果为非正常嗓音信号时，获得所述嗓音数据库中非正常嗓音数据的嗓音级别。

第二声学特征参数集合确定模块，用于获取所述嗓音数据库中非正常嗓音数据的每一嗓音级别对应的每个嗓音信号的多个第二声学特征参数，得到所述嗓音数据库的第二声学特征参数集合；多个所述第二声学特征参数分别为基频微扰、振幅微扰、谐噪比、倒谱峰值突出、Hurst指数、Teager能量算子、样本熵。模糊熵、L-Z复杂度、开放熵、闭合熵和速度熵。

第一斯皮尔曼相关系数确定模块用于计算所述嗓音数据库的第二声学特征参数集合中每个第二声学特征参数与对应嗓音级别的第一斯皮尔曼相关系数。

第一判断模块用于判断所述第二声学特征参数集合中的第二声学特征参数对应的第一斯皮尔曼相关系数是否大于第一设定阈值。

第一保留模块用于若所述第二声学特征参数集合中的第二声学特征参数对应的第一斯皮尔曼相关系数是大于第一设定阈值，则保留第一斯皮尔曼相关系数对应的第二声学特征参数。

第一剔除模块用于若所述第二声学特征参数集合中的第二声学特征参数对应的第一斯皮尔曼相关系数是不大于第一设定阈值，则剔除第一斯皮尔曼相关系数对应的第二声学特征参数。

第三声学特征参数集合确定模块用于获得所有保留的第二声学特征参数，得到第三声学特征参数集合。

第二斯皮尔曼相关系数确定模块用于计算所述第三声学特征参数集合中第i个第二声学特征参数和第j个第二声学特征参数的斯皮尔曼相关系数，得到第二斯皮尔曼相关系数。i不等于j，所述第i个第二声学特征参数对应的第一斯皮尔曼相关系数大于所述第j个第二声学特征参数对应的第一斯皮尔曼相关系数。

第二判断模块用于判断所述第三声学特征参数集合中第i个第二声学特征参数和第j个第二声学特征参数对应的第二斯皮尔曼相关系数是否大于第二设定阈值。

第二剔除模块用于若所述第三声学特征参数集合中第i个第二声学特征参数和第j个第二声学特征参数对应的第二斯皮尔曼相关系数是大于第二设定阈值，则保留第i个第二声学特征参数，剔除第j个第二声学特征参数。

第二保留模块用于若所述第三声学特征参数集合中第i个第二声学特征参数和第j个第二声学特征参数对应的第二斯皮尔曼相关系数是不大于第二设定阈值，则保留第i个第二声学特征参数和第j个第二声学特征参数。

第四声学特征参数集合确定模块用于获得所有保留的第二声学特征参数，得到第四声学特征参数集合。

客观公式标准确定模块用于采用应用逻辑回归分析，根据所述第四声学特征参数集合，确定非正常嗓音等级划分的客观公式标准。

等级划分模块用于利用所述非正常嗓音等级划分的客观公式标准对所述待识别嗓音信号进行等级划分。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种嗓音识别方法，其特征在于，包括：

获取用户的待识别嗓音信号；

2.根据权利要求1所述的一种嗓音识别方法，其特征在于，所述根据所述待识别嗓音信号，得到所述待识别嗓音信号的优化融合特征，具体包括：

3.根据权利要求1所述的一种嗓音识别方法，其特征在于，所述利用所述分类模型对所述待识别嗓音信号的优化融合特征进行分类，得到所述待识别嗓音信号的分类结果，之后还包括：

4.根据权利要求1所述的一种嗓音识别方法，其特征在于，所述利用所述分类模型对所述待识别嗓音信号的优化融合特征进行分类，得到所述待识别嗓音信号的分类结果，之后还包括：

5.一种嗓音识别系统，其特征在于，包括：

6.根据权利要求5所述的一种嗓音识别系统，其特征在于，所述第二优化融合特征具体包括：

7.根据权利要求5所述的一种嗓音识别系统，其特征在于，还包括：

8.根据权利要求5所述的一种嗓音识别系统，其特征在于，还包括：