发明内容
本发明提供一种嗓音状态分类方法、装置、电子设备和存储介质,用以解决现有技术中依靠医生主观评估嗓音状态,导致无法准确且稳定进行嗓音状态分类的缺陷。
本发明提供一种嗓音状态分类方法,包括:
确定待分类音频的各声音参数的参数值;
将各声音参数的参数值定位到嗓音状态分类网格中,得到所述待分类音频的嗓音状态;
所述嗓音状态分类网格是基于各候选嗓音状态对应样本音频的各声音参数的样本参数值,在声音参数坐标系中进行网格划分得到的,所述声音参数坐标系是以各声音参数为坐标轴建立。
根据本发明提供的一种嗓音状态分类方法,所述嗓音状态分类网格是基于如下步骤确定的:
将各声音参数中的每两种声音参数作为两个坐标轴建立对应平面,基于各平面构建声音坐标系;
基于所述样本音频的各声音参数对应的样本参数值,在所述声音参数坐标系中建立网格点;
基于各网格点对应的嗓音状态,在所述声音参数坐标系中的平面中进行网格划分。
根据本发明提供的一种嗓音状态分类方法,所述基于各网格点对应的嗓音状态,在所述声音参数坐标系中进行网格划分,包括:
从对应相同候选嗓音状态的网格点中分别选取最大横坐标、最小横坐标、最大纵坐标以及最小纵坐标对应的网格点作为网格划分点,并基于所述网格划分点进行网格划分。
根据本发明提供的一种嗓音状态分类方法,所述将各声音参数的参数值定位到嗓音状态分类网格中,得到所述待分类音频的嗓音状态,包括:
将各声音参数的参数值定位到嗓音状态分类网格,得到各声音参数的参数值对应的各投影点所处网格;
基于各投影点的位置坐标,以及各投影点所处网格的中心位置坐标,确定各投影点的残差向量;
基于各残差向量,确定所述待分类音频的嗓音状态。
根据本发明提供的一种嗓音状态分类方法,所述基于各残差向量,确定所述待分类音频的嗓音状态,包括:
将各残差向量按照由小到大的顺序进行排序,选取排序在前的预设数量的残差向量对应的网格点作为候选分类点,并以各候选分类点对应的嗓音状态作为所述待分类音频的嗓音状态。
根据本发明提供的一种嗓音状态分类方法,在得到所述待分类音频的嗓音状态之后,还包括:
确定所述待分类音频的嗓音状态的校正结果;
基于所述校正结果和待分类音频的各声音参数的参数值,更新所述嗓音状态分类网格。
根据本发明提供的一种嗓音状态分类方法,所述待分类音频包含预设比例的元音音频。
根据本发明提供的一种嗓音状态分类方法,所述声音参数包括基频、振幅微扰、基频微扰以及噪声与谐音比值中的任意多种。
本发明还提供一种嗓音状态分类装置,包括:
参数确定单元,用于确定待分类音频的各声音参数的参数值;
状态分类单元,用于将各声音参数的参数值定位到嗓音状态分类网格中,得到所述待分类音频的嗓音状态;
所述嗓音状态分类网格是基于各候选嗓音状态对应样本音频的各声音参数的样本参数值,在声音参数坐标系中进行网格划分得到的,所述声音参数坐标系是以各声音参数为坐标轴建立。
本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述嗓音状态分类方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述嗓音状态分类方法的步骤。
本发明提供的嗓音状态分类方法、装置、电子设备和存储介质,基于待分类音频的各声音参数的参数值定位到嗓音状态分类网格中,从而能够自动且准确得到待分类音频的嗓音状态,避免了传统方法中依靠医生主观评估嗓音状态导致误诊的问题,提高了嗓音状态分类的准确性和稳定性。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
每个人的嗓音包含音色、音调、大小等多维度,但疾病因素可能会导致嗓音音色、音调、大小等出现变化,甚至对嗓音造成损害。例如若喉部嗓音疾病(如单侧声带麻痹)不及时进行治疗,可能会导致嗓音的不可逆损伤。
目前主要根据医生根据自身的专业知识和经验,靠听力对患者嗓音进行判断是否存在喉部疾病。然而,通过医生主观判断是否有声带麻痹等喉部疾病,需要患者到医院就诊才能进行评估确认,患者无法自行判断,且该方法受医生自身情况(如专业知识水平、专业经验、听力水平、注意力等)的影响,无法准确且稳定得出嗓音分类评估结果。
对此,本申请提供一种嗓音状态分类方法。图1是本发明提供的嗓音状态分类方法的流程示意图,如图1所示,该方法包括:
步骤110、确定待分类音频的各声音参数的参数值。
具体地,待分类音频即需要进行嗓音状态分类的音频,待分类音频可以是用户朗读某个词汇的音频,也可以是用户朗读某个句子的音频,用户在录制待分类音频的时发音的具体内容可以根据用户的嗓音状态进行选择。例如,若用户的嗓音嘶哑,此时用户无法清晰读出过长句子,因此采集尽量简短词汇或话语的音频作为待分类音频;若用户的嗓音正常,为了提高分类的准确率,此时可以采集若干个组合词汇或句子音频作为待分类音频。
声音参数指用于表征病理嗓音特征的参数,即区分正常嗓音与病理嗓音的参数,如基频微扰、振幅微扰等。在获取待分类音频之后,可以确定待分类音频的各声音参数的参数值,从而通过参数值定量表征对应嗓音的状态。其中,声音参数的参数值可以通过将待分类音频输入声音处理程序(如多维嗓音处理程序Multi-Dimensional VOICE Program)进行解码获取,也可以通过语音识别声学模型进行解码获取。
步骤120、将各声音参数的参数值定位到嗓音状态分类网格中,得到待分类音频的嗓音状态;
嗓音状态分类网格是基于各候选嗓音状态对应样本音频的各声音参数的样本参数值,在声音参数坐标系中进行网格划分得到的,声音参数坐标系是以各声音参数为坐标轴建立。
具体地,嗓音状态分类网格中划分了多个网格,各网格有对应的声音参数的参数值区域,不同的参数值区域均存在对应的候选嗓音状态,因此若各声音参数的参数值位于某网格的参数值区域,则表明待分类音频的嗓音状态与该网格对应的候选嗓音状态相同,而嗓音状态分类网格中各网格对应的候选嗓音状态是已知的,基于此可以获取待分类音频的嗓音状态,其中待分类音频的嗓音状态可以为正常嗓音,也可以为病理嗓音(疾病嗓音可以包括扁桃体炎嗓音、单侧声带麻痹嗓音等)。基于嗓音状态分类网格可以客观且准确得到待分类音频的嗓音状态,从而避免传统方法中依靠医生的主观判断嗓音状态导致不准确的问题,嗓音状态的分类不受医生主观因素的影响,具有较好的鲁棒性。
在执行步骤120之前,还可以预先建立得到嗓音状态分类网格,具体可以通过执行如下步骤实现:首先基于各候选嗓音状态对应样本音频的各声音参数,建立声音参数坐标系,然后在声音参数坐标系中进行网格划分,得到嗓音状态分类网格。此处,候选嗓音状态可以包括各类喉部疾病对应的嗓音状态,以及正常的嗓音状态,在确定各个候选嗓音状态后,可以基于各候选嗓音状态收集对应的样本音频,并获取对应样本音频的各声音参数的样本参数值,基于样本参数值及其对应的候选嗓音状态在声音参数坐标系中进行网格划分,得到嗓音状态分类网格。需要说明的是,由于声音参数可以为多种,则声音参数坐标系可以是由不同平面的直角坐标系(直角坐标系以声音参数作为坐标轴)构成,基于不同样本参数值可以在声音坐标系中确定对应的网格点。在建立声音坐标系后,由于各网格点对应的候选嗓音状态是已知的,则可以将具有相同候选嗓音状态的网格点划分在同一个网格,进而完成网格划分。
本发明实施例提供的嗓音状态分类方法,基于待分类音频的各声音参数的参数值定位到嗓音状态分类网格中,从而能够自动且准确得到待分类音频的嗓音状态,避免了传统方法中依靠医生主观评估嗓音状态导致误诊的问题,提高了嗓音状态分类的准确性和稳定性,此外由于嗓音状态分类网格是基于对声音坐标系进行网格划分得到的可视化网格,从而可以直观显示各网格对应的候选嗓音状态,以及容易根据各网格确定待分类音频的嗓音状态,具有可解释性。
基于上述实施例,如图2所示,嗓音状态分类网格的确定方法包括如下步骤:
步骤210、将各声音参数中的每两种声音参数作为两个坐标轴建立对应平面,基于各平面构建声音坐标系。
具体地,由于反映嗓音状态的声音参数数量较多(通常声音参数可以包括三十多种),为了能够简便且直观反映不同候选嗓音状态对应的样本音频的声音参数的参数值分布,本发明实施例将各声音参数中的每两种声音参数作为两个坐标轴建立对应平面后,基于各平面构建声音坐标系。
举例来说,样本音频的声音参数包括基频(Fo)、基频微扰(shimmer)、振幅微扰(jitter)和噪声与谐音比值(NHR),本发明实施例首先选取两种声音参数如基频和基频微扰建立平面,即基频作为X轴,基频微扰作为Y轴,以X轴和Y轴构成一个平面;然后再选取剩下的两种声音参数振幅微扰和噪声与谐音比值建立新的平面,即振幅微扰作为W轴,噪声与谐音比值作为Z轴,以W轴和Z轴构成一个新的平面。依次类推,若声音参数的数量为30~40个,则可以构建15~20个平面,基于15~20个平面构建声音坐标系。
由此可见,本发明实施例将各声音参数中的每两种声音参数作为两个坐标轴建立对应平面,从而可以通过各个平面分别反映每两种声音参数与嗓音状态之间的关系,还可以直观表达各声音参数之间的关系。例如,若上述W轴和Z轴构成的平面中,网格点对应的参数值呈现如下规律:当振幅微扰值增大时,噪声与谐音比值也增大,从而可以说明振幅微扰和噪声与谐音比值成正比。
步骤220、基于样本音频的各声音参数对应的样本参数值,在声音参数坐标系中建立网格点。
具体地,在根据步骤210建立声音坐标系后,以样本音频的各声音参数对应的样本参数值为坐标,在声音参数坐标系的不同平面上可以确定对应的网格点。举例来说,样本参数值包括基频Fo=a,基频微扰shimmer=b,振幅微扰jitter=c,噪声与谐音比值NHR=d,则以(a,b)在上述X轴与Y轴构成的平面中确定网格点M,以(c、d)在上述Z轴与W轴构成的平面中确定网格点N。
步骤230、基于各网格点对应的嗓音状态,在声音参数坐标系中的平面中进行网格划分。
具体地,不同嗓音状态对应的样本参数值不同,即不同嗓音状态对应的网格点分布不同,而网格划分的目的是将属于同一嗓音状态的网格点划分至同一网格。因此,本发明实施例以各网格点对应的嗓音状态作为网格划分依据,将属于同一嗓音状态的网格点划分至相同的网格,实现网格划分。
可以理解的是,本发明实施例可以基于同一网格的所有网格点,设置三角形区域作为该网格划分后的区域;也可以基于同一网格的所有网格点的极值坐标确定一个方形区域作为该网格划分后的区域,本发明实施例对此不作具体限定。
本发明实施例提供的嗓音状态分类方法,基于各声音参数中的每两种声音参数作为两个坐标轴建立对应平面,基于各平面构建声音坐标系,并对声音坐标系进行网格划分得到嗓音状态分类网格,从而可以简便且直观反映不同候选嗓音状态对应的样本音频的声音参数的参数值分布,进而准确分析各声音参数对嗓音状态的影响。
基于上述任一实施例,步骤230具体包括:
从对应相同候选嗓音状态的网格点中分别选取最大横坐标、最小横坐标、最大纵坐标以及最小纵坐标对应的网格点作为网格划分点,并基于网格划分点进行网格划分。
具体地,在对声音参数坐标系中的各平面进行网格划分后,各平面中划分后的每个网格均对应一种嗓音状态,若待分类音频的声音参数的参数值位于某个网格对应的参数值范围内,则表明待分类音频的嗓音状态与该网格的嗓音状态相同。因此,本发明实施例从对应相同候选嗓音状态的网格点中选取极值坐标(即最大横坐标、最小横坐标、最大纵坐标以及最小纵坐标)对应的四个网格点作为网格划分点,并以四个网格划分点确定的方形区域作为划分后的网格区域,从而使得该网格区域内的参数值对应的嗓音状态相同。
举例来说,对应相同候选嗓音状态的网格点中,最大横坐标的网格点为A,最小横坐标的网格点为B,最大纵坐标的网格点为C,最小纵坐标的网格点为D,则以A、B、C以及D四个点作为顶点构建区域作为该网格的划分区域。
本发明实施例提供的嗓音状态分类方法,从对应相同候选嗓音状态的网格点中选取极值坐标对应的网格点作为网格划分点,实现对网格的划分,从而可以基于嗓音状态分类网格准确获取待分类音频的嗓音状态。
基于上述任一实施例,如图3所示,步骤120具体包括:
步骤121、将各声音参数的参数值定位到嗓音状态分类网格,得到各声音参数的参数值对应的各投影点所处网格。
具体地,嗓音状态分类网格中各网格对应不同的候选嗓音状态,若声音参数的参数值对应的投影点位于某一网格内,则表明该声音参数对应的嗓音状态与该网格的嗓音状态相似度较高。
由此可见,本发明实施例基于各声音参数的参数值对应的各投影点的位置,确定投影点所属网格,从而能够根据不同的声音参数准确确定其对应的嗓音状态。
步骤122、基于各投影点的位置坐标,以及各投影点所处网格的中心位置坐标,确定各投影点的残差向量。
具体地,为了进一步定量表示各投影点对应的嗓音状态与所述网格嗓音状态的相似度,本发明实施例基于各投影点的位置坐标,以及各投影点所处网格的中心位置坐标,确定各投影点的残差向量。其中,残差向量用于表征投影点对应的嗓音状态与所处网格嗓音状态的相似程度,即残差向量越小,表明投影点与中心位置的距离越近,投影点对应的嗓音状态与所处网格嗓音状态的相似程度越高。
步骤123、基于各残差向量,确定待分类音频的嗓音状态。
需要说明的是,嗓音状态分类网格包括多个平面,即基于各声音参数的参数值定位到嗓音状态分类网格,会在不同平面上各得到一个声音参数的参数值对应的投影点,从而基于投影点的位置坐标也会得到多个残差向量,每个残差向量用于表征各投影点与对应网格嗓音状态的相似程度。残差向量值越大,表明投影点与中心位置的距离越远,即投影点对应的嗓音状态与该网格对应的嗓音状态相同的置信度越低。
由于每个投影点对应的嗓音状态不同,为了准确获取最终待分类音频的嗓音状态,本发明实施例可以将最小残差向量对应的嗓音状态作为待分类音频的嗓音状态,也可以选取满足预设条件的多个残差向量对应的嗓音状态作为待分类音频的嗓音状态,本发明实施例对此不作具体限定。
由此可见,本发明实施例提供的嗓音状态分类方法,基于各投影点的位置坐标,以及各投影点所处网格的中心位置坐标,确定各投影点的残差向量,并基于各投影点的残差向量,可以准确确定待分类音频的嗓音状态。
基于上述任一实施例,步骤123具体包括:
将各残差向量按照由小到大的顺序进行排序,选取排序在前的预设数量的残差向量对应的网格点作为候选分类点,并以各候选分类点对应的嗓音状态作为待分类音频的嗓音状态。
在本发明实施例中,需要说明的是,残差向量越大,表明对应网格点的嗓音状态与所处网格的嗓音状态相同的置信度越低,进而表示以所述网格的嗓音状态作为待分类音频的嗓音状态的置信度较低。因此,本发明实施例为了获取置信度较高的待分类音频的嗓音状态,将将各残差向量按照由小到大的顺序进行排序,选取排序在前的预设数量的残差向量对应的网格点作为候选分类点,如选取最小的三个残差向量对应的网格点作为候选分类网格点,并以各候选分类点对应的嗓音状态作为待分类音频的嗓音状态。
由此可见,本发明实施例提供的嗓音状态分类方法,由于残差向量取值大小可以表征所处网格的嗓音状态作为待分类音频嗓音状态的置信度,从而基于残差向量可以确定置信度较高的待分类音频的嗓音状态。
基于上述任一实施例,在执行步骤120之后,如图4所示,还包括更新嗓音状态分类网格方法,该方法包括如下步骤:
步骤410、确定待分类音频的嗓音状态的校正结果。
具体地,基于嗓音状态分类网格可能会得到待分类音频的多个嗓音状态,而多个嗓音状态的存在会导致无法得到唯一、准确的分类结果,若要进一步确定待分类音频的嗓音状态,需要对基于嗓音状态分类网格得到的待分类音频的嗓音状态进行校正,从而得到校正结果。此处的校正结果可以是专业人员例如医生,通过查看待分类音频的各声音参数,或者通过聆听待分类音频,从步骤120得到的多个嗓音状态中选取出的一个嗓音状态。
步骤420、基于校正结果和待分类音频的各声音参数的参数值,更新嗓音状态分类网格。
具体地,待分类音频的各声音参数的参数值以及对应的校正结果,可以作为样本音频的各声音参数的参数值以及对应的候选嗓音状态,采用上述嗓音状态分类网格确定方法,更新嗓音状态分类网格,从而能够进一步细化声音参数坐标系中的网格划分,从而准确得到待测音频的嗓音状态。
由此可见,本发明实施例提供的嗓音状态分类方法,以边学习边采集的方式,基于待测音频嗓音状态的校正结果和待分类音频的各声音参数的参数值,更新嗓音状态分类网格,从而能够提高嗓音状态分类的准确度。
基于上述任一实施例,待分类音频包含预设比例的元音音频。
具体地,由于元音元素在嗓音分析时的敏感性较高,因此本发明实施例所采集的待测音频包含预设比例的元音音频,从而保证能够准确提取出反映嗓音状态的声音参数的参数值。目前多采用[i]音与[a]音进行元音音频的采集,同时为了避免单个元音在基频微扰(jitter)、振幅微扰(shimmer)、噪声与谐音比值(NHR)以及基频(Fo)上因选取元音不同导致信息变化不明显,最后使得对部分声音采集点的信息采集失误,可以通过采集包含多个元音的音频。
例如,在录制待分类音频时,可以通过指导用户以自然语调发特定的长元音,然后读取一段指定的文字。该段文字可以包含有丰富且活跃的辅音,如可以选择重复读“三十三”等类似的文字,以获得更为完全的声音信息采集,或者可以根据用户实际的嗓音状态(如是否嘶哑,失声等),若用户的嗓音状态较差,则可以有选择性的收集大量包含[a]和[i]读音的简短词汇,然后从中筛选出元音音标含量在60%以上的词汇或者句子,将其选择为指定文字。此外,在采集用户的待分类音频之前,可以先由软件平台进行标准普通话示读,然后引导用户进行跟读,跟读的文字不需要连贯,可以从预先编写的词库中直接随机抽取十到十五个词组进行组合测试。其中,随机抽取的词为元音及辅音细节丰富的词汇,如三十三、撩人、惊世骇俗等,从而可以根据待分类音频获取准确的声音参数对应的参数值。
可以理解的是,为了使采集的待测音频更稳定,可以在采集音频前,让用户进行短时发声训练,发音要求平稳(如以舒适发音为标准),可以通过重复采集多次音频声样,取声样中平稳的部分作为待分类的音频。
如图5所示,在编写音频词库时,首先采集单词及句子建立文本库,然后对文本库中的单词和句子进行音标拆分,并计算单词和句子中的元音含量,随之对单词和句子进行随机组合,生成一段元音含量在预设比例(如60%)的单词和句子的组合,作为高元音含量的文本,最后对该高元音含量的文本进行标识,从而在采集用户待分类的音频时可以从音频词库中选取该高元音含量的文本,以供用户跟读。
基于上述任一实施例,声音参数包括基频、振幅微扰、基频微扰以及噪声与谐音比值中的任意多种。
具体地,声音参数通过多维嗓音处理程序进行解码,可以得到多个声音参数,其中对嗓音分析敏感度较高的参数包括:基频、振幅微扰、基频微扰以及噪声与谐音比值。作为优选,声音参数的种类可以达到三十多个。
其中,基频(Fo)是声带做周期性运动的频率,表示一秒内声带振动的次数。一般来说正常男性的基频在130Hz左右,正常女性的基频在250Hz左右,正常儿童的基频在340Hz左右,基频主要是由声带振动的速率决定的。声带振动部分的长度,声带组织的张力以及声带质量的大小决定基频的三大因素。当声带的振动部分越短,基频越大,音调越高。当声带组织的张力增高时,环甲肌的运动增加,造成声带组织紧张,基频增加,音调增高。当声带质量增加时,基频减小,音调降低。该参数具有特殊的重要性,因为其它参数的计算是基于基频获取的。
振幅微扰(shimmer)是指测量信号最大程度的改变,通常持续发音元音的能量是恒定的,而在病理嗓音的情况下会发生变化。
基频微扰(jitter)是指嗓音信号周期随时间变化的微小变异等。基频微扰是指基音频率的变化率,用于度量指定的周期与其相邻的前几个周期,或后几个周期的差异量。通常持续发元音的能量是恒定的,而在病理嗓音的情况下会发生变化。
噪声与谐音比值(NHR),该值越大说明噪声成分越多,越小说明谐音成分越多。噪音/谐音比是嘶哑的一个客观指标,可以用于发现疾病、判定疗效。
需要说明的是,Jitter值与NHR值成正比,shimmer值亦与NHR大致成正比。相对正常的声音而言,由于声带振动的不规则性,病理嗓音的噪声与谐波的比率较高。
基于上述任一实施例,图6为本发明提供的又一嗓音状态分类方法的流程示意图,如图6所示,该方法包括:
首先,获取待分类的音频,此处待分类的音频可以通过从音频词库中选取一段元音音频含量为预设比例的文本供用户跟读,进而采集用户的音频作为待分类的音频。
然后,对待分类的音频进行特征提取,获取待分类音频的声音参数的参数值,其中声音参数包括基频、振幅微扰、基频微扰以及噪声与谐音比值中的任意多种。
接着,将各声音参数的参数值定位到嗓音状态分类网格中,获取各声音参数与定位网格中心位置对应声音参数值的残差向量,用于表征待分类音频的嗓音状态与对应网格嗓音状态的相似度。
随后,根据各残差向量,对待分类音频的异常情况进行分析,具体将残差向量按照由小到大进行排序,选取排序在前的预设数量的残差向量对应的嗓音状态作为待分类音频的嗓音状态,并就该嗓音状态向用户推荐相关医生及科室,以供用户选择对应的科室医生,从而完成喉部疾病线上预检分诊。
最后,在医生确认用户待分类音频嗓音状态后,根据待分类音频嗓音状态及其对应的声音参数值更新嗓音状态分类网格。
下面对本发明提供的嗓音状态分类装置进行描述,下文描述的嗓音状态分类装置与上文描述的嗓音状态分类方法可相互对应参照。
基于上述任一实施例,如图7所示,嗓音状态分类装置包括参数确定单元710和状态分类单元720;
其中,参数确定单元710用于确定待分类音频的各声音参数的参数值;
状态分类单元720用于将各声音参数的参数值定位到嗓音状态分类网格中,得到所述待分类音频的嗓音状态;
所述嗓音状态分类网格是基于各候选嗓音状态对应样本音频的各声音参数的样本参数值,在声音参数坐标系中进行网格划分得到的,所述声音参数坐标系是以各声音参数为坐标轴建立。
本发明提供的嗓音状态分类装置,基于待分类音频的各声音参数的参数值定位到嗓音状态分类网格中,从而能够自动且准确得到待分类音频的嗓音状态,避免了传统方法中依靠医生主观评估嗓音状态导致误诊的问题,提高了嗓音状态分类的准确性和稳定性。
基于上述任一实施例,该装置还包括分类网格建立单元,用于确定嗓音状态分类网格,其中分类网格建立单元包括:
坐标系建立子单元,用于将各声音参数中的每两种声音参数作为两个坐标轴建立对应平面,基于各平面构建声音坐标系;
网格点建立子单元,用于基于所述样本音频的各声音参数对应的样本参数值,在所述声音参数坐标系中建立网格点;
网格划分子单元,用于基于各网格点对应的嗓音状态,在所述声音参数坐标系中的平面中进行网格划分。
基于上述任一实施例,网格划分子单元具体用于:
从对应相同候选嗓音状态的网格点中分别选取最大横坐标、最小横坐标、最大纵坐标以及最小纵坐标对应的网格点作为网格划分点,并基于所述网格划分点进行网格划分。
基于上述任一实施例,状态分类单元720包括:
投影子单元,用于将各声音参数的参数值定位到嗓音状态分类网格,得到各声音参数的参数值对应的各投影点所处网格;
计算子单元,用于基于各投影点的位置坐标,以及各投影点所处网格的中心位置坐标,确定各投影点的残差向量;
分类子单元,用于基于各残差向量,确定所述待分类音频的嗓音状态。
基于上述任一实施例,分类子单元,具体用于:
将各残差向量按照由小到大的顺序进行排序,选取排序在前的预设数量的残差向量对应的网格点作为候选分类点,并以各候选分类点对应的嗓音状态作为所述待分类音频的嗓音状态。
基于上述任一实施例,该装置还包括更新网格单元,用于在得到所述待分类音频的嗓音状态之后,更新所述嗓音状态分类网格,其中更新网格单元包括:
校正子单元,用于确定所述待分类音频的嗓音状态的校正结果;
更新子单元,用于基于所述校正结果和待分类音频的各声音参数的参数值,更新所述嗓音状态分类网格。
基于上述任一实施例,所述待分类音频包含预设比例的元音音频。
基于上述任一实施例,所述声音参数包括基频、振幅微扰、基频微扰以及噪声与谐音比值中的任意多种。
图8是本申请提供的电子设备的结构示意图,如图8所示,该电子设备可以包括:处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行嗓音状态分类方法,该方法包括:确定待分类音频的各声音参数的参数值;将各声音参数的参数值定位到嗓音状态分类网格中,得到所述待分类音频的嗓音状态;所述嗓音状态分类网格是基于各候选嗓音状态对应样本音频的各声音参数的样本参数值,在声音参数坐标系中进行网格划分得到的,所述声音参数坐标系是以各声音参数为坐标轴建立。
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的嗓音状态分类方法,该方法包括:确定待分类音频的各声音参数的参数值;将各声音参数的参数值定位到嗓音状态分类网格中,得到所述待分类音频的嗓音状态;所述嗓音状态分类网格是基于各候选嗓音状态对应样本音频的各声音参数的样本参数值,在声音参数坐标系中进行网格划分得到的,所述声音参数坐标系是以各声音参数为坐标轴建立。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的嗓音状态分类方法,该方法包括:确定待分类音频的各声音参数的参数值;将各声音参数的参数值定位到嗓音状态分类网格中,得到所述待分类音频的嗓音状态;所述嗓音状态分类网格是基于各候选嗓音状态对应样本音频的各声音参数的样本参数值,在声音参数坐标系中进行网格划分得到的,所述声音参数坐标系是以各声音参数为坐标轴建立。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。