CN117409819A

CN117409819A - 一种基于人工智能的人体嗓音检测分析方法

Info

Publication number: CN117409819A
Application number: CN202311723639.8A
Authority: CN
Inventors: 闫燕; 杜晨; 李金红; 李涛
Original assignee: Peking University Third Hospital Peking University Third Clinical Medical College
Current assignee: Peking University Third Hospital Peking University Third Clinical Medical College
Priority date: 2023-12-15
Filing date: 2023-12-15
Publication date: 2024-01-16

Abstract

本发明公开了一种基于人工智能的人体嗓音检测分析方法，该方法包括S1嗓音数据的采集和预处理；S2、采集数据划分为训练数据集、验证数据集和测试数据集；S3、训练数据集及其标识信息构建复合前馈神经网络模型，输出为不同标识信息对于人体嗓音输出特征量；S4、验证数据集与复合前馈神经网络模型输出比较判断是否匹配，不断更新完善该复合前馈神经网络模型；S5、将测试数据集作为S4步获得的复合前馈神经网络模型输入参数进行测试，从测试嗓音输出特征获得测试嗓音和最佳标识相应最佳特征之间的差异性，从而确定该嗓音的缺陷。本申请的方法实现了对不同人群的嗓音数据进行定量准确分析，并为特定嗓音的形成提出训练针对性。

Description

一种基于人工智能的人体嗓音检测分析方法

技术领域

本发明人工智能和大数据结合医学实施应用的交叉技术领域，其将大数据、人工智能、神经网络与人体声学特征实现了融合，具有来说就是一种基于大数据和人工智能实现人体声音分析检测方法。

背景技术

发声是正常人从诞生之日起就具备的一项基本能力。随着年龄的增长，每个人的发声特征都会发生变化，特别是处于疾病状态时，人体的声音通常会发生比较大的变化。从人群来划分，男性和女性在声音的特征上必然有着显著区别；对某些特定职业的人群，发声也是其职业的一种标志，如，歌唱演员、播音节目主持人等。

如果不考虑每个人个体成长所造成的嗓音变化，通常由于创伤、生理疾病、心理疾病以及医源性病因都会导致声音的变化，这种变化可能出现在各年龄层的人群中，尤其是日常生活中需要语言沟通较多的人群，例如教师、医生、广播员、演员、律师、电话销售员、急救人员、警察等如果声音发声变化将对个人生活造成影响。由于上述各行业，其声音都有着自身的特征，很多期望从属该行业的人群也可能会根据需要进行特定声音的训练以达到特定发声的目的，例如，如果想成为高音、低音歌唱家就必须坚持进行特定的声音训练。在现有的声音训练过程中，通常是通过反复听说来进行听觉上的鉴别来判断训练和声音改变效果的，这种方法具有极大的不确定性，无法定量准确获知发声和标准声音之间的差别，从而导致练习过程进入错误的方向而造成精力上的耗费。

此外，声音从自然物理学角度来分析，其本质就是振动所形成的波。波从数学上最终的决定参数就是振幅，周期，频率，相位，波长等一些列特征参数。因此，不同人群发出的声音不同必然在可以通过这些参数上予以区别和表征，这种声波的表征方式更参数化、准确定量化。人体发声参数化通常可以通过音频采集设备进行收集和分析，这些采集到的音频数据通过数字化，就可以进行对比其差别和影响。随着大数据分析和获取技术的发展，如何将该技术与不同人群的发声相结合，通过数据的分析和检测获得对声音效果影响的各个参数，并根据这些参数来提出特定的训练目标是大数据分析和医学发展的一个重要研究方向。

发明内容

本申请为了实现对不同人群的嗓音数据进行定量准确分析，并为后续特定嗓音的形成提出训练针对性。本申请就是结合嗓音大数据，构建神经网络模型分析获得不同嗓音特征所对应的声音参数特征，从而为特征嗓音和声音参数之间构建起关联。

实现上述发明目的，本申请采用的技术方案为：一种基于人工智能的人体嗓音检测分析方法，该方法包括如下步骤：

S1、人体嗓音数据的采集和预处理；每条嗓音数据根据但不限于年龄、性别、职业进行标识；该嗓音数据预处理所获取的音频参数包括但不限于线性参数、非线性参数、复合参数；其中的线性参数包括但不限于基频、频率微扰、振幅微扰、信噪比、谐噪比；非线性参数包括但不限于频谱收敛比、发散率ROD、非线性频谱能量差比、嗓音类型分布图；复合参数包括但不限于嗓音障碍严重程度指数、嗓音障碍倒谱指数、声学嗓音质量指数和声学呼吸指数；

S2、将S1步的数据划分为训练数据集、验证数据集和测试数据集；这里的训练数据集、验证数据集和测试数据集是动态变化的数据集，根据后续步骤的复合模型训练过程来进行动态改变；

S3、根据S2步中的训练数据集及其标识信息构建复合前馈神经网络模型，该神经网络模型的输出为不同标识信息对于人体嗓音输出特征量；该输出特征量与嗓音的频率参数相对应匹配；

S4、将验证数据集与S3步的复合前馈神经网络模型输出进行比较判断是否匹配，不断更新和扩展训练数据集中的数据完善该复合前馈神经网络模型；

S5、将测试数据集作为S4步获得的复合前馈神经网络模型输入参数进行测试，从测试嗓音输出特征获得测试嗓音和最佳标识相应最佳特征之间的差异性，从而确定该嗓音的缺陷。

上述整个S1-S4步的复合前馈神经网络模型在输入一条嗓音信息后都进行一次网络学习和更新。

该复合前馈神经网络模型在测试使用中仅需输入测试嗓音数据而不再进行标识。

该复合型前馈神经网络应用于人体嗓音检测和分析，根据输出特征量获得特点嗓音特点训练对象和目标。

本申请的技术方案，充分利用了人体嗓音输入的大数据，通过数据训练构建复合前馈神经网络模型，该神经网络模型可以嗓音参数进行分析获的影响嗓音各个状态的特征参数，通过参数比对以明确如果需要获得特点的嗓音特点进行有效训练的特征参数。该方法的神经网络模型提供了一种嗓音检测和分析的特征模型方式，其借助大数据和物理参数给出了生物学特征的判断和分析方法。

附图说明

图1为本申请符合神经网络模型的拓扑结构图；

具体实施方式

为进一步阐述本发明为达成预定发明目的所采取的技术手段及结果，以下以较佳实施例，对依据本发明申请的具体实施方式、技术方案及特征，详细说明如后。下述说明中的多个实施例中的特定特征、结构、或特点可由任何合适形式组合。

本申请公开了一种基于大数据和人工智能实现人体声音分析检测方法，该方法的核心在于首先通过人体嗓音数据的获取，借助人工智能神经网络构建模型；其过程为：S1人体嗓音数据的采集和预处理，每条嗓音数据根据但不限于年龄、性别、职业进行标识；如图1所示，人体嗓音采集原始数据为x₁,x₂…,X_k,…,X_n，每条原始声音信息经过数据的预处理后又是由一系列特征参数构成的向量矩阵来标志，例如x₁中向量矩阵为{x₁₁,x₁₂,……x_1p},这里的下标p标识特征向量的个数，特征向量是但不限于线性参数中的基频、频率微扰、振幅微扰、信噪比、谐噪比；非线性参数中的频谱收敛比、发散率ROD、非线性频谱能量差比、嗓音类型分布图，复合参数中的嗓音障碍严重程度指数、嗓音障碍倒谱指数、声学嗓音质量指数和声学呼吸指数，并且该向量可以根据数据预处理获得的参数进行长度的扩展，该向量实际标志了该输入嗓音数据的物理参数特征，每条采集的嗓音数据还包括对该采集者信息予以标识的标识向量X_1s，标识向量中的包括了但不现有性别、年龄，性别等信息；经过上述第一步嗓音数据采集和预处理后，每条嗓音数据实际是由相互关联信息向量、音频物理特征向量构成。S2、将S1步的数据划分为训练数据集、验证数据集和测试数据集；这里的训练数据集、验证数据集和测试数据集是动态变化的数据集，根据后续步骤的复合模型训练过程来进行动态改变。如图1所示，将X1…Xn的数据作为训练数据，作为复合前馈型神经网络的训练数据，该网络包括了输入层、隐藏层、输出层，这里给出了三个隐藏层的模型，每个隐藏层各个节点都与下一个隐藏层的所有节点相互关联，假设l层共有M个节点，l+1层共有N个节点，w _nm ^l是第l层第m个节点到第l+1层第n个节点的权重，b _n ^l+1是第l+1层第n个节点的偏置,f _n ^l+1是第l+1层第n个节点的激活函数，则:。本申请的方案中采用标准的sigmoid(x)为激活函数，/>。为了找到最为合适的每层权重和偏置，需要选择合适的损失函数，本申请的复合前馈神经网络模型中，分别采用均方误差函数MSE和交叉熵CE误差函数，其表达式分别为：

这的n表示类别数量、y _i表示第i个类别的真实标签、第i个类别的预测概率值。上述复合前馈型神经网络经过每层计算后根据其误差函数获得最佳的权重和偏置，最终确定每个隐含层的参数，经过模型训练后，输出为标准各个标识对应频谱的最佳人体嗓音输出特征量。上述训练集数据完成训练后，利用验证集数据进行模型判断和验证，如果偏差较大，测扩展训练数据集继续进行多次训练直至与验证集数据集的符合度满足要求。本申请还利用验证数据集中的嗓音数据输入模型进行模型验证和测试，如果测试仍然有偏差，则继续重复上述过程。经过上述训练数据、测试数据，验证数据的多轮模型学习验证后获得最终的复合前馈型神经网络模型。利用该模型输入任意嗓音数据，通过模型输出给出嗓音输出特征与最佳标识相应最佳特征之间的差异性，从而获得该嗓音数据的缺陷物理参数。

任何经过测试和检验的嗓音数据都可以作为一条用于进行训练、测试、验证的数据扩展用于模型构建的嗓音数据库；并且该嗓音数据库在完成检查分析后自动进行一次模型学习过程，从而保证该模型始终处于动态更新中，提升模型的准确性。

以上所述，仅为本发明较佳的具体实施方式；但本发明的保护范围并不局限于此。任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其改进构思加以等同替换或改变，都应涵盖在本发明的保护范围内。

Claims

1.一种基于人工智能的人体嗓音检测分析方法，其特征在于，该方法包括如下步骤：

S1、人体嗓音数据的采集和预处理；每条嗓音数据根据但不限于年龄、性别、职业进行标识；

S2、将S1步的数据划分为训练数据集、验证数据集和测试数据集；

S3、根据S2步中的训练数据集及其标识信息构建复合前馈神经网络模型，该神经网络模型的输出为不同标识信息对于人体嗓音输出特征量；

2.根据权利要求1所述的基于人工智能的人体嗓音检测分析方法，其特征在于，S1步的嗓音数据预处理所获取的音频参数包括但不限于线性参数、非线性参数、复合参数。

3.根据权利要求2所述的基于人工智能的人体嗓音检测分析方法，其特征在于，线性参数包括但不限于基频、频率微扰、振幅微扰、信噪比、谐噪比；非线性参数包括但不限于频谱收敛比、发散率ROD、非线性频谱能量差比、嗓音类型分布图；复合参数包括但不限于嗓音障碍严重程度指数、嗓音障碍倒谱指数、声学嗓音质量指数和声学呼吸指数。

4.根据权利要求1所述的基于人工智能的人体嗓音检测分析方法，其特征在于，S2步中的训练数据集、验证数据集和测试数据集是动态变化的数据集，根据步骤S3和S4的复合模型训练过程来变化。

5.根据权利要求1所述的基于人工智能的人体嗓音检测分析方法，其特征在于，S3步训练后的复合前馈神经网络模型的输出特征量与嗓音的频率参数相对应匹配。

6.根据权利要求1所述的基于人工智能的人体嗓音检测分析方法，其特征在于，S1-S4步的复合前馈神经网络模型在输入一条嗓音信息后都进行一次网络学习和更新。

7.根据权利要求1所述的基于人工智能的人体嗓音检测分析方法，其特征在于，该复合前馈神经网络模型在测试使用中仅需输入测试嗓音数据而不在进行标识。

8.根据权利要求1-7任意权利要求所述的基于人工智能的人体嗓音检测分析方法，其特征在于，该复合型前馈神经网络应用于人体嗓音检测和分析，根据输出特征量获得特点嗓音特点训练对象和目标。