CN113327614B - 语音评测方法、装置、设备及存储介质 - Google Patents
语音评测方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113327614B CN113327614B CN202110881650.1A CN202110881650A CN113327614B CN 113327614 B CN113327614 B CN 113327614B CN 202110881650 A CN202110881650 A CN 202110881650A CN 113327614 B CN113327614 B CN 113327614B
- Authority
- CN
- China
- Prior art keywords
- audio
- prosody
- level
- frame
- detected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 116
- 230000033764 rhythmic process Effects 0.000 claims abstract description 90
- 238000000034 method Methods 0.000 claims abstract description 46
- 238000012549 training Methods 0.000 claims description 67
- 239000000523 sample Substances 0.000 claims description 34
- 230000008569 process Effects 0.000 claims description 14
- 239000013074 reference sample Substances 0.000 claims description 14
- 238000000638 solvent extraction Methods 0.000 claims description 4
- 230000008451 emotion Effects 0.000 abstract description 45
- 238000012545 processing Methods 0.000 description 21
- 238000013145 classification model Methods 0.000 description 16
- 238000010606 normalization Methods 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 230000008859 change Effects 0.000 description 6
- 206010008132 Cerebral thrombosis Diseases 0.000 description 4
- 201000001429 Intracranial Thrombosis Diseases 0.000 description 4
- 230000037433 frameshift Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 208000034656 Contusions Diseases 0.000 description 2
- 230000009519 contusion Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000000241 respiratory effect Effects 0.000 description 2
- 238000009423 ventilation Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- General Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Child & Adolescent Psychology (AREA)
- Machine Translation (AREA)
Abstract
本公开提供了一种语音评测方法、装置、设备及存储介质,方法包括:获取待测音频、与待测音频对应的参考文本、以及与参考文本对应的基准音频;获取参考文本的各个韵律层级;获取待测音频的各个音频帧的待测帧基频,得到分别对应于各个韵律层级的各个层级待测帧基频,获取基准音频的各个音频帧的基准帧基频,得到分别对应于各个韵律层级的各个层级基准帧基频;根据同位置的同一韵律层级中的相互对应的各个层级待测帧基频和各个层级基准帧基频,获取各个韵律层级的层级韵律相似度;根据层级韵律相似度和待测音频的各个韵律层级的权重,获取待测音频与基准音频的音频相似度。本公开所提供的语音评测方法,可以实现对于语音的情感测评。
Description
技术领域
本公开实施例涉及计算机领域,尤其涉及一种语音评测方法、装置、设备及存储介质。
背景技术
随着计算机技术和深度学习的发展,计算机辅助发音训练成为当前研究热点之一,从英文学习中的单词背诵,到中文朗读训练,计算机辅助发音训练系统可以更方便、高效的帮助学生进行口语学习。
语音评测是让机器听懂人的发音,并及时给出反馈或打分,依此评价发音人的发音好坏,现有技术中的语音评测多是基于发音正确与否的评测,根据发音是否正确,反馈一个得分,对发音质量进行评测,用于纠正发音,但是,围绕情感度评测的朗诵评测也属于语音评测的一种,朗诵者要把作品的思想情感准确的表达出来,不仅需要发音正确、理解作品的内在含义,还需要有抑扬顿挫的情感度,这样才能充分表现作品的思想情感。
因此,如何实现对于语音的情感测评,成为亟待解决的技术问题。
发明内容
本公开实施例解决的技术问题是提供一种语音评测方法、装置、设备及存储介质,以实现对于语音的情感测评。
为解决上述问题,本公开实施例提供一种语音评测方法,包括:
获取待测音频、与所述待测音频对应的参考文本、以及与所述参考文本对应的基准音频;
获取所述参考文本的各个韵律层级;
获取所述待测音频的各个音频帧的待测帧基频,得到分别对应于各个所述韵律层级的各个层级待测帧基频,获取所述基准音频的各个音频帧的基准帧基频,得到分别对应于各个所述韵律层级的各个层级基准帧基频;
根据同位置的同一韵律层级中的相互对应的所述各个层级待测帧基频和所述各个层级基准帧基频,获取各个所述韵律层级的层级韵律相似度;
根据所述层级韵律相似度和所述待测音频的各个韵律层级的权重,获取所述待测音频与所述基准音频的音频相似度。
为解决上述问题,本公开实施例还提供一种语音评测装置,包括:
基础获取单元,适于获取待测音频、与所述待测音频对应的参考文本、以及与所述参考文本对应的基准音频;
韵律层级获取单元,适于获取所述参考文本的各个韵律层级;
基频获取单元,适于获取所述待测音频的各个音频帧的待测帧基频,得到分别对应于各个所述韵律层级的各个层级待测帧基频,获取所述基准音频的各个音频帧的基准帧基频,得到分别对应于各个所述韵律层级的各个层级基准帧基频;
层级韵律相似度获取单元,适于根据同位置的同一韵律层级中的相互对应的所述各个层级待测帧基频和所述各个层级基准帧基频,获取各个所述韵律层级的层级韵律相似度;
音频相似度获取单元,适于根据所述层级韵律相似度和所述待测音频的各个韵律层级的权重,获取所述待测音频与所述基准音频的音频相似度。
为解决上述问题,本公开实施例还提供一种电子设备,包括:处理器,以及存储程序的存储器,其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行如前述的语音评测方法。
为解决上述问题,本公开实施例还提供一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行如前述的语音评测方法。
与现有技术相比,本公开的技术方案具有以下优点:
本公开实施例所提供的语音评测方法,在进行语音评测时,首先获取待测音频、与所述待测音频对应的参考文本、以及与所述参考文本对应的基准音频;然后获取所述参考文本的各个韵律层级;接着获取所述待测音频的各个音频帧的待测帧基频,得到分别对应于各个所述韵律层级的各个层级待测帧基频,获取所述基准音频的各个音频帧的基准帧基频,得到分别对应于各个所述韵律层级的各个层级基准帧基频;根据同位置的同一韵律层级中的相互对应的所述各个层级待测帧基频和所述各个层级基准帧基频,获取各个所述韵律层级的层级韵律相似度;最后根据所述层级韵律相似度和所述待测音频的各个韵律层级的权重,获取所述待测音频与所述基准音频的音频相似度。可以看出,本公开实施例所提供的语音评测方法,通过同位置的同一韵律层级中的相互对应的待测音频的各个层级待测帧基频,结合对应于同一韵律层级的基准音频的各个层级基准帧基频,获取各个韵律层级的层级韵律相似度;进而根据层级韵律相似度和待测音频的各个韵律层级的权重,获取待测音频与基准音频的音频相似度,利用了待测音频不同韵律层级基频所表现的抑扬顿挫的语调,与基准音频不同韵律层级基频所表现的抑扬顿挫语调相比较,可以实现对于待测音频的语调的评测,进而可以实现对于待测音频的情感的测评,并且在语调比较的时候,区分了不同的韵律层级、结合了不同韵律层级的权重进行测评,可以提高对于待测音频的情感的测评的准确性。
附图说明
图1是本公开实施例所提供的语音评测方法一流程示意图;
图2是本公开实施例所提供的语音评测方法的韵律层级划分模型的训练步骤示意图;
图3是本公开实施例所提供的语音评测方法的音频相似度获取流程图;
图4是本公开实施例所提供的语音评测装置的一框图;
图5是本公开实施例提供设备的一种可选硬件设备架构。
具体实施方式
现有技术中的语音评测多是基于发音正确与否的评测,根据发音是否正确,反馈一个得分,对发音质量进行评测,用于纠正发音,并未涉及语音的情感测评。
为了实现对于语音的情感测评,本公开实施例提供了一种语音评测方法、装置、设备及存储介质,其中,语音评测方法包括:
获取待测音频、与所述待测音频对应的参考文本、以及与所述参考文本对应的基准音频;
获取所述参考文本的各个韵律层级;
获取所述待测音频的各个音频帧的待测帧基频,得到分别对应于各个所述韵律层级的各个层级待测帧基频,获取所述基准音频的各个音频帧的基准帧基频,得到分别对应于各个所述韵律层级的各个层级基准帧基频;
根据同位置的同一韵律层级中的相互对应的所述各个层级待测帧基频和所述各个层级基准帧基频,获取各个所述韵律层级的层级韵律相似度;
根据所述层级韵律相似度和所述待测音频的各个韵律层级的权重,获取所述待测音频与所述基准音频的音频相似度。
可以看出,本公开实施例所提供的一种语音评测方法,在进行语音评测时,首先获取待测音频、与所述待测音频对应的参考文本、以及与所述参考文本对应的基准音频;然后获取所述参考文本的各个韵律层级;接着获取所述待测音频的各个音频帧的待测帧基频,得到分别对应于各个所述韵律层级的各个层级待测帧基频,获取所述基准音频的各个音频帧的基准帧基频,得到分别对应于各个所述韵律层级的各个层级基准帧基频;根据同位置的同一韵律层级中的相互对应的所述各个层级待测帧基频和所述各个层级基准帧基频,获取各个所述韵律层级的层级韵律相似度;最后根据所述层级韵律相似度和所述待测音频的各个韵律层级的权重,获取所述待测音频与所述基准音频的音频相似度。
这样,本公开实施例所提供的语音评测方法,通过同位置的同一韵律层级中的相互对应的待测音频的各个层级待测帧基频,结合对应于同一韵律层级的基准音频的各个层级基准帧基频,获取各个韵律层级的层级韵律相似度;进而根据层级韵律相似度和待测音频的各个韵律层级的权重,获取待测音频与基准音频的音频相似度,利用了待测音频不同韵律层级基频所表现的抑扬顿挫的语调,与基准音频不同韵律层级基频所表现的抑扬顿挫语调相比较,可以实现对于待测音频的语调的评测,进而可以实现对于待测音频的情感的测评,并且在语调比较的时候,区分了不同的韵律层级、结合了不同韵律层级的权重进行测评,可以提高对于待测音频的情感的测评的准确性。
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
请参考图1,图1是本公开实施例所提供的语音评测方法的一流程示意图。
如图中所示,本公开实施例所提供的语音评测方法包括以下步骤:
步骤S10:获取待测音频、与所述待测音频对应的参考文本、以及与所述参考文本对应的基准音频。
容易理解的是,为了实现对于语音的情感测评,首先要获取待测音频和待测音频所对应的文本,所述待测音频和待测音频所对应的文本可以是学生朗读音频和对应的文本,也可以是其他朗读者的朗读音频和对应的文本。
当然,为了实现对于待测音频的情感测评,还需要获取所述参考文本对应的基准音频,基准音频可以为专业朗读教师、专业播音员等专业人士的标准朗读音频,这样可以通过对基准音频与待测音频的比较,获得对于待测音频情感测评的结果。
可以看出,在本公开所提供语音评测方法中,并不对待测音频和待测音频所对应的文本的来源做特殊的限制,这就意味着,可以方便地利用本公开提供的语音评测方法对任一待测音频进行语音评测,并得到评测结果,使得本公开所提供语音评测方法的应用场景更加广泛,并不仅仅局限于对学生朗读语音的评测上。
步骤S11:获取所述参考文本的各个韵律层级。
语音的节奏是表达语音情感的一部分,韵律层级可以很好的表现语音的节奏,因此,获取参考文本的各个韵律层级,可以使得本公开所提供的语音评测方法实现在语音节奏的基础上对于待测音频语调的评测,进而可以实现对于待测音频的情感的测评,提高对待测音频情感测评的准确性。
得到参考文本后,就可以基于参考文本确定各个韵律层级,由于参考文本同时对应于待测音频和基准音频,因此,只需要获取参考文本的韵律层级即可。
在一种具体实施方式中,所述获取所述参考文本的各个韵律层级的步骤可以包括:
获取所述参考文本的各个韵律层级的层级类别和停顿位置,所述层级类别包括韵律词层、韵律短语层、语调短语层和语句层。
对于参考文本,确定出各个需要停顿的停顿位置,以及每个停顿位置的层级类别。
具体地,韵律层级可以包括四种不同的类别:韵律词层、韵律短语层、语调短语层和语句层,其中:
韵律词层:表示基本韵律单元,在韵律词内部不能停顿,在韵律词边界处停顿不是必须的,在无标记的情况下,音系词与构词法的词是相同的,在有些情况下可能比词大些。
韵律短语层:多个韵律词组合,对应一次完整的韵律表达(不换气),韵律短语由一个或多个韵律词组成,通常认为韵律短语的长度是7个音节(一个字为一个音节),变化长度为2个音节,这与呼吸群的长度相当,韵律短语具有相对稳定的短语调模式和短语重音配置模式。
语调短语层:语调短语是最长的音系成分,一般长于韵律短语,在语法上,相当于较长的短语或较短的语句,语调短语有特定的语调模式,它可能通过一些方式与句法或篇章结构相联系。
语句层:一般以标点符号划分。
为方便结合案例进行描述,其中,#1表示韵律词层;#2表示韵律短语层;#3表示语调短语层;#4表示语句层。
韵律层级可以很好的表现语音的节奏,获取了参考文本的层级类别和停顿位置,可以为待测语音实现语调测评提供基础,并且韵律层级的各个层级类别的设置,涵盖语音层级的各个方面,可以更加准确的实现对于待测语音的情感测评。
在一种具体实施方式中,可以利用韵律层级划分模型,获取所述参考文本的各个韵律层级的层级类别和停顿位置。
韵律层级划分模型为预先训练完成的模型,将参考文本输入韵律层级划分模型,得到的模型输出即为所述参考文本的各个韵律层级的层级类别和停顿位置。
为方便对前述方案理解,现结合具体的案例进行说明,例如:
将下列例句输入到韵律层级划分模型,韵律层级划分模型对它们进行韵律层级划分,输出的结果如下:
输入:
例1:李某的网站很快被警方查封。
例2:儿童医院,嘟嘟和爸爸在一起。
例3:经检查,老人有轻微的脑血栓。
输出:
例1:李某的#1网站#3很快#2被警方#1查封#4。
例2:儿童#1医院#3,嘟嘟#1和爸爸#2在一起#4。
例3:经检查#3,老人有#1轻微的#2脑血栓#4。
这样,通过韵律层级划分模型对句子的韵律层级的划分,可以得到句子的韵律层级的类别以及停顿位置,例如:
例1中:李某的#1【李某的后面停顿,韵律层级为#1韵律词层】网站#3【网站后面停顿,韵律层级为#3语调短语层】很快#2【很快后面停顿,韵律层级为#2韵律短语层】被警方#1【警方后面停顿,韵律层级为#1韵律词层】查封#4。【句号后面停顿,韵律层级为#4语句层】。
在具体的实施方式中,本公开实施例所提供的语音评测方法中的韵律层级划分模型可以通过以下方式训练,请参考图2,图2为本公开实施例所提供的语音评测方法的韵律层级划分模型的训练步骤示意图。
如图中所示,韵律层级划分模型可以通过以下步骤训练,包括:
步骤S20:获取样本文本训练集,所述样本文本训练集包括相互对应的待测样本文本和基准样本文本,所述基准样本文本标注有各个基准韵律层级。
为了训练韵律层级划分模型,需要获取样本文本训练集,样本文本训练集包括相互对应的待测样本文本和基准样本文本,所述基准样本文本标注有各个基准韵律层级,并且满足预定的质量要求,可以根据这些满足质量要求的基准样本文本的基准韵律层级,来预测待测样本文本的预测韵律层级。
步骤S21:利用所述韵律层级划分模型,根据所述待测样本文本,获取所述待测样本文本的预测韵律层级。
根据待测样本文本,韵律层级划分模型会获得初步的待测样本文本的预测韵律层级。
步骤S22:根据所述预测韵律层级和所述基准韵律层级,确定所述待测样本文本的第一损失。
韵律层级划分模型会根据基准样本文本的基准韵律层级来计算待测样本文本的第一损失,此时获取的待测文本的预测韵律层级并不完善,需要根据待测文本的第一损失来判断获取的预测韵律层级的质量。
步骤S23:第一损失是否满足预定阈值,如果是,执行步骤S25,如果否,执行步骤S24。
利用第一损失来判断上述预测韵律层级的质量,如果第一损失不满足预定的阈值,则执行步骤S24,直至第一损失阈值满足预定的阈值,则执行步骤S25。
步骤S24:调整所述韵律层级划分模型的参数。
按照第一损失阈值,根据满足预定质量要求的基准样本文本的基准韵律层级,来调整韵律层级划分模型的参数,使得韵律层级划分模型按照新的模型参数来获得新的待测样本文本的预测韵律层级,使得新的预测韵律层级更加完善。
步骤S25:得到训练完成的韵律层级划分模型。
通过上述步骤的训练,得到训练完成的韵律层级划分模型。
可见,通过韵律层级划分模型对参考文本进行韵律层级划分,得到了参考文本对应的各个韵律层级的类别和各个所述韵律层级的停顿位置,也就相应得到了参考文本准确的节奏变化,同时,韵律层级划分模型在训练过程中满足预定的质量要求,所以,也可以确保得到高质量的参考文本对应的各个韵律层级的类别和各个所述韵律层级的停顿位置,进而,可以高质量的把握参考文本节奏的变化,从而为实现对于语音的情感测评提供基础。
步骤S12:获取所述待测音频的各个音频帧的待测帧基频,得到分别对应于各个所述韵律层级的各个层级待测帧基频,获取所述基准音频的各个音频帧的基准帧基频,得到分别对应于各个所述韵律层级的各个层级基准帧基频。
在得到高质量的参考文本对应的各个韵律层级的类别和各个所述韵律层级的停顿位置的基础上,提取对应于所述各个韵律层级的各个层级待测帧基频和各个层级基准帧基频,使得所获取的各个层级待测帧基频和各个层级基准帧基频,不仅能够表现待测音频和基准音频的节奏,还能够表现待测音频和基准音频抑扬顿挫的语调,可以提高对待测音频情感测评的准确性。
具体地,可以首先获取待测音频的各个音频帧,然后提取各个音频帧的待测帧基频,根据待测帧基频以及与待测帧基频对应的音频帧的韵律层级,就可以确定待测帧基频的韵律层级,从而可以得到各个层级待测帧基频,相应地,对于基准音频也进行相同的处理,得到各个韵律层级的层级基准帧基频。
也可以首先确定各个音频帧所对应的参考文本的韵律层级,然后再提取各个音频帧的待测帧基频,最终确定待测帧基频的韵律层级,并得到各个层级待测帧基频。
在一种具体的实施例中,可以在利用已训练完成的韵律层级划分模型对参考文本进行韵律层级划分,得到了参考文本对应的各个韵律层级的类别和各个所述韵律层级的停顿位置后,可以利用已训练完成的强制对齐模型或其它模型确定所述待测音频的各个音频帧的韵律层级。
本公开以强制对齐模型为例,说明确定各个音频帧的韵律层级。
根据韵律层级划分模型对参考文本进行韵律层级划分,得到参考文本对应的各个韵律层级的类别和各个所述韵律层级的停顿位置;
结合强制对齐模型判断参考文本停顿处对应的待测音频和基准音频的停顿时间点,根据各个不同韵律层级的停顿时间点,确定各个不同韵律层级的待测音频的各个音频帧,和基准音频的各个音频帧。
上述强制对齐模型可以通过以下步骤训练:
1)、获取训练文本和所述训练文本对应的训练音频,所述训练文本的各个文字标注有与其对应的训练用标准音频帧。
为了训练强制对齐模型,需要获取训练文本和所述训练文本对应的训练音频,所述训练文本的各个文字标注有与其对应的训练用标准音频帧,具体地,所述训练用标准音频帧与文字的对应关系可以通过人工标注的方式获取。
2)、通过所述强制对齐模型,根据所述训练文本和与所述训练文本对应的训练音频,获取与各个所述文字对应的预测音频帧。
强制对齐模型会根据训练文本和与所述训练文本对应的训练音频,获取与各个所述文字对应的预测音频帧,但此时获取的与文字对应的预测音频帧可能与训练用标准音频帧之间存在差别,需要进一步调整。
3)、根据各个对应于同一个文字的所述预测音频帧和各个所述训练用标准音频帧,获取第二损失并根据所述第二损失调整所述强制对齐模型的参数,直至所述第二损失满足预定的阈值,得到训练完成的强制对齐模型。
根据各个对应于同一个文字的所述预测音频帧和所述训练用标准音频帧,获取第二损失,如果第二损失不满足预定的阈值,则根据第二损失来调整所述强制对齐模型的参数,重新获取预测音频帧,直至第二损失满足预定的阈值,即对应于同一个文字的预测音频帧和训练用标准音频帧的相似度满足要求,得到训练完成的强制对齐模型。
在一种具体实施方式中,为了提高所获取的层级待测帧基频和层级基准帧基频的准确性,所述获取所述待测音频的各个音频帧的待测帧基频,得到分别对应于各个所述韵律层级的各个层级待测帧基频,获取所述基准音频的各个音频帧的基准帧基频,得到分别对应于各个所述韵律层级的各个层级基准帧基频的步骤可以包括:
提取所述待测音频的各个音频帧的待测帧原始基频,提取所述基准音频的各个音频帧的基准帧原始基频。
至少对所述待测帧原始基频和所述基准帧原始基频进行归一化处理,得到各个所述待测帧基频和各个所述基准帧基频。
根据各个所述待测帧基频,得到分别对应于各个所述韵律层级的各个层级待测帧基频,根据各个所述基准帧基频,得到分别对应于各个所述韵律层级的各个层级基准帧基频。
在具体的实施例中,可以采用以下归一化公式做归一化处理:
最值归一化:把所有数据映射到0-1之间:
提取到各个不同韵律层级的待测音频的各个音频帧的待测帧原始基频,和基准音频的各个音频帧的基准帧原始基频之后,至少对所述待测帧原始基频和所述基准帧原始基频进行归一化处理,得到各个所述待测帧基频和各个所述基准帧基频,结合已经确定的待测音频帧和基准音频帧的韵律层级,得到分别对应于各个所述韵律层级的各个层级待测帧基频和得到分别对应于各个所述韵律层级的各个层级基准帧基频。
这样,通过对待测帧原始基频和基准帧原始基频进行归一化处理,可以避免所得到的待测帧原始基频或基准帧原始基频过高或者过低,使得得到的所述待测帧基频和所述基准帧基频更加合理,提高语音评测的准确性。
在另一种具体实施方式中,为了进一步提高语音评测的准确性,本公开实施例所提供的语音评测方法的至少对所述待测帧原始基频和所述基准帧原始基频进行归一化处理,得到各个所述待测帧基频和各个所述基准帧基频的步骤可以包括:
对所述待测帧原始基频和所述基准帧原始基频进行归一化处理,得到待测帧归一化基频和基准帧归一化基频。
根据所述待测帧归一化基频进行曲线拟合,得到待测帧拟合曲线,根据所述基准帧归一化基频进行曲线拟合,得到基准帧拟合曲线。
根据所述待测帧拟合曲线获取各个所述待测帧基频,根据所述基准帧拟合曲线获取各个所述基准帧基频。
获取到所述待测帧原始基频和所述基准帧原始基频之后,为保证所述待测帧基频和所述基准帧基频的高质量,要对所述待测帧原始基频和所述基准帧原始基频做进一步的处理,除了对所述待测帧原始基频和所述基准帧原始基频进行归一化处理,去掉所述待测帧原始基频和所述基准帧原始基频中过高或者过低的原始基频,还可以进一步进行曲线拟合,具体为:
对所述待测帧归一化基频进行曲线拟合,得到待测帧拟合曲线;
对所述基准帧归一化基频进行曲线拟合,得到基准帧拟合曲线。
在具体的实施例中,可以采用以下三次多项式进行曲线拟合:
具体过程为:根据所述待测音频和基准音频不同韵律层级的各个待测帧归一化基频和基准帧归一化基频,分别获取相应的各个待测帧归一化基频值和基准帧归一化基频值,代入上述三次多项式,得到分别对应于所述待测音频的各个待测帧拟合曲线和对应于所述基准音频的各个基准帧拟合曲线。
然后,根据所述待测帧拟合曲线获取各个所述待测帧基频,根据所述基准帧拟合曲线获取各个所述基准帧基频。
为了获取层级待测帧基频和层级基准帧基频,还需要进行进一步运算,具体可以为:
根据所述待测帧基频以及音频帧对应的韵律层级,获取各个所述层级待测帧基频,根据所述基准帧基频以及音频帧对应的韵律层级,获取各个所述层级基准帧基频。
通过曲线拟合,可以进一步对待测帧归一化基频和基准帧归一化基频进行调整,使得得到的待测帧基频和基准帧基频的准确性更高,也可以方便的从曲线中看到待测帧归一化基频和基准帧归一化基频的变化趋势,从而可以进一步提高对待测语音进行评测的准确性。
进一步地,本公开实施例所提供的语音评测方法,为了方便获取对应于同一韵律层级的待测帧基频和基准帧基频,所述根据所述待测帧拟合曲线获取各个所述待测帧基频,根据所述基准帧拟合曲线获取各个所述基准帧基频的步骤可以包括:
对所述待测帧拟合曲线和所述基准帧拟合曲线进行动态规整处理,得到时长相同的规整待测帧拟合曲线和规整基准帧拟合曲线;
根据所述规整待测帧拟合曲线和所述规整基准帧拟合曲线,获取相互对应的各个所述待测帧基频和各个所述基准帧基频。
由于待测音频和基准音频在同一韵律层级上的持续时间不尽相同,为保持时长一致,用于后续的相似度计算,所以要对待测音频的待测帧拟合曲线和基准音频的基准帧拟合曲线进行动态规整处理,得到待测音频和基准音频同一位置同一韵律层级中时长相同的规整待测帧拟合曲线和规整基准帧拟合曲线。
在具体的实施例中,可以采用动态规整算法DTW,得到待测音频和基准音频同一位置同一韵律层级中时长相同的规整待测帧拟合曲线和规整基准帧拟合曲线。
然后根据所述待测音频和基准音频同一位置同一韵律层级中时长相同的规整待测帧拟合曲线和规整基准帧拟合曲线,获取同一位置同一韵律层级中的各个所述待测帧基频和各个所述基准帧基频。
然后基于具体的韵律层级,就可以得到与各个韵律层级对应的各个所述层级待测帧基频和各个所述层级基准帧基频。
可见,在上述过程中,对所述待测帧拟合曲线和所述基准帧拟合曲线进行了进一步的动态规整处理,使得待测音频和基准音频在同一位置同一韵律层级中的持续时间保持一致,并在此基础上获取了分别与各个韵律层级对应的同一位置同一韵律层级中的各个所述待测帧基频和各个所述基准帧基频,使得相互对应的各个所述待测帧基频和各个所述基准帧基频的获取更为方便、更为准确,进一步使得利用各个所述层级待测帧基频和各个所述层级基准帧基频得到的相似度计算的结果更加准确,也使得对待测音频的评测更加准确。
请继续参考图1,本公开实施例所提供的语音评测方法还包括:
步骤S13:根据同位置的同一韵律层级中的相互对应的所述各个层级待测帧基频和所述各个层级基准帧基频,获取各个所述韵律层级的层级韵律相似度;
在获取了分别与各个韵律层级对应的同一位置同一韵律层级中的各个所述层级待测帧基频和各个所述层级基准帧基频后,根据各个所述层级待测帧基频和各个所述层级基准帧基频获取各个所述韵律层级的层级韵律相似度。
在具体的实施例中,可以采用以下公式进行各个所述韵律层级的层级韵律相似度计算:
N:表示待测音频各个层级待测帧基频序列中基频的总数、与待测音频相对应的同位置的同一韵律层级中基准音频的各个层级基准帧基频序列中基频的总数。
结合上文中的案例:
例1:李某的#1网站#3很快#2被警方#1查封#4。
可知,例1中包含两个#1韵律词层,“李某的#1”和“被警方#1”,因此,经过层级相似度计算,可以得到两个#1韵律词层的层级韵律相似度:可以用R11,和R12来表示;同理,可以计算出#2韵律短语层,#3语调短语层,#4语句层的相应的各个韵律层级相似度。
各个不同的韵律层级很好的表现了待测音频和基准音频的节奏,在此基础上获得的不同韵律层级的层级韵律相似度可以为获取音频相似度提供基础,使得语音评测结果更为准确。
步骤S14:根据所述层级韵律相似度和所述待测音频的各个韵律层级的权重,获取所述待测音频与所述基准音频的音频相似度。
在所述层级韵律相似度的基础上进一步结合各个韵律层级的权重,使得所获取的所述待测音频与所述基准音频的音频相似度更为准确,也进而提高了对待测音频的情感测评的准确性。
具体的,各个所述韵律层级的权重的获取步骤包括:
获取与各个所述韵律层级对应的所述待测音频的音素的层级音频帧数,以及所述待测音频的全部音素的整体音频帧数;
根据所述层级音频帧数与所述整体音频帧数,获取所述待测音频的各个所述韵律层级的权重。
为方便对上述方案的理解,现继续结合上文中的案例进行说明,例如:
将下列例句输入到韵律层级划分模型,韵律层级划分模型对它们进行韵律层级划分,输出的结果如下:
输入:
例1:李某的网站很快被警方查封。
输出:
例1:李某的#1网站#3很快#2被警方#1查封#4。
这样,通过韵律层级划分模型对句子的韵律层级的划分,可以得到句子的韵律层级的类别以及停顿位置:
例1中:李某的#1【李某的后面停顿,韵律层级为#1韵律词层】网站#3【网站后面停顿,韵律层级为#3语调短语层】很快#2【很快后面停顿,韵律层级为#2韵律短语层】被警方#1【警方后面停顿,韵律层级为#1韵律词层】查封#4。【句号后面停顿,韵律层级为#4语句层】。
在得到句子的韵律层级的类别以及停顿位置之后,继续结合强制对齐模型确定待测音频中的每一个语音帧属于待测音频中哪一字的哪一个音素,即得到待测音频中每个字的每个音素所对应的语音帧的数量,以及待测音频全部文本的每个音素对应的全部语音帧的数量,因为语音帧有固定窗长和帧移(一般为25ms窗长,10ms帧移),进而可以得到每个音素所持续的时长信息。
结合前述案例,经过强制对齐模型强制对齐可知:
例1中:李某的#1网站#3很快#2被警方#1查封#4。包含两个#1韵律词层:
“李某的”:T(l) 表示“李”中的声母占用的语音帧的数量,例如为1帧;T (i) 表示“李”中的韵母占用的语音帧的数量,例如为2帧;因此在“李某的”中,“李”字占用的语音帧的总数量为3帧;T(m) 表示“某”中的声母占用的语音帧的数量,例如为2帧;T (ou) 表示“某”中的韵母占用的语音帧的数量,例如为3帧;因此在“李某的”中,“某”字占用的语音帧的总数量为5帧;T(d) 表示“的”中的声母占用的语音帧的数量,例如为2帧;T (e) 表示“的”中的韵母占用的语音帧的数量,例如为1帧;因此在“李某的”中,“的”字占用的语音帧的总数量为3帧;因此,“李某的”总共占用的语音帧数量为:
同理,“被警方”总共占用的语音帧数量为以下公式计算得到的总帧数:
相应的,可以得到例句“李某的#1网站#3很快#2被警方#1查封#4。”所占用的所有的语音帧数量,可以用T0 来表示。
综上所述:#1韵律词层的韵律层级权重为:
同理,可以计算得出#2韵律短语层,#3语调短语层,#4语句层的相应的各个韵律层级权重。
可见,在待测音频的音素的采集过程中,根据待测音频的不同的韵律层级来获取待测音频每个字中的每个音素所对应的音频帧数,可以使得根据待测音频所对应的音素而获取的各个韵律层级的权重更为准确。
另一方面,由于音素中的清音没有相对应的基频值,为了简化韵律层级的权重的获取过程,所述待测音频的音素的层级音频帧数包括所述待测音频的浊音音素的层级音频帧数,所述待测音频的全部音素的整体音频帧数包括所述待测音频的全部浊音音素的整体音频帧数。
如上述案例中:
这样,清音所对应的语音帧的数量未包括在总的语音帧数量里面,使得获取各个韵律层级的权重的过程更为简便,同时还可以提高准确性。
得到层级韵律相似度和所述待测音频的各个韵律层级的权重后,就可以获取音频相似度,实现对待测音频的评价,在具体的实施例中,所述根据所述层级韵律相似度和所述待测音频的各个所述韵律层级的权重,获取所述待测音频与所述基准音频的音频相似度的步骤包括:
根据对应于同一所述韵律层级的所述层级韵律相似度和所述韵律层级的权重,获取各个韵律层级的调整层级韵律相似度;
根据同一类别的各个所述韵律层级的调整层级韵律相似度,获取各个韵律层级类别的层级类别韵律相似度;根据所述各个层级类别韵律相似度获取所述音频相似度。
请参考图3,图3为本公开实施例所提供的语音评测方法的音频相似度获取流程图:
步骤S140:根据对应于同一所述韵律层级的所述层级韵律相似度和所述韵律层级的权重,获取各个韵律层级的调整层级韵律相似度。
为方便对上述方案的理解,现继续结合上文中的案例进行说明:
例1:李某的#1网站#3很快#2被警方#1查封#4。
两个#1韵律词层分别为:“李某的#1”和“被警方#1”,两个#1韵律词层的层级韵律相似度用R11,和R12来表示,两个#1韵律词层的韵律层级权重为:
根据对应于同一所述韵律层级的所述层级韵律相似度和所述韵律层级的权重,获取的各个韵律层级的调整层级韵律相似度为:
同理,可以获取#2韵律短语层,#3语调短语层,#4语句层的相应的各个韵律层级调整层级韵律相似度。
步骤S141:根据同一类别的各个所述韵律层级的调整层级韵律相似度,获取各个韵律层级类别的层级类别韵律相似度。
如果参考文本的韵律层级中,每个类别的韵律层级的数量均为一个,那么根据各个韵律层级的调整层级韵律相似度就可以作为各个韵律层级类别的层级类别韵律相似度,如果类别的韵律层级的数量不止一个,那么可以根据同一类别的各个所述韵律层级的调整层级韵律相似度,获取各个韵律层级类别的层级类别韵律相似度。
在一种具体实施方式中,可以通过获取平均值的方式,获取层级类别韵律相似度,具体的步骤包括:
根据同一类别的各个所述韵律层级的调整层级韵律相似度,获取各个所述调整层级韵律相似度的平均值,得到所述层级类别韵律相似度。
请继续参考上述案例:
例1:李某的#1网站#3很快#2被警方#1查封#4。
两个#1韵律词层分别为:“李某的#1”和“被警方#1”,各个韵律层级的调整层级韵律相似度为:
对应的所述层级类别韵律相似度即为:
C1即为#1韵律词层的层级类别韵律相似度,同理可以获得#2韵律短语层,#3语调短语层,#4语句层的相应的各个韵律层级的层级类别韵律相似度C2、C3、C4。
可见,根据同一类别的各个所述韵律层级的调整层级韵律相似度,获取各个所述调整层级韵律相似度的平均值,得到所述层级类别韵律相似度,可以根据所述层级类别韵律相似度继续获取音频相似度,进而根据音频相似度对待测语音进行全面的测评。
步骤S142:根据所述各个层级类别韵律相似度获取所述音频相似度。
继续参考上述案例:
C1为#1韵律词层的层级类别韵律相似度。
C2为#2韵律短语层的层级类别韵律相似度。
C3为#3语调短语层的层级类别韵律相似度。
C4为#4语句层的层级类别韵律相似度。
假设待测音频中包含M1个#1韵律词层,M2个#2韵律短语层,M3个#3语调短语层,M4个语句层,所述待测音频的音频相似度为:
层级类别韵律相似度可以避免某一韵律层级数量过多对情感测评准确性的影响,层级韵律相似度和韵律层级的权重相结合后,使得所获取的各个韵律层级的调整层级韵律相似度更为准确,相应的使待测音频的音频相似度更为准确,从而提高待测音频情感测评的准确性。
综上所述,可见,本公开实施例所提供的语音评测方法,通过同位置的同一韵律层级中的相互对应的待测音频的各个层级待测帧基频,结合对应于同一韵律层级的基准音频的各个层级基准帧基频,获取各个韵律层级的层级韵律相似度;进而根据层级韵律相似度和待测音频的各个韵律层级的权重,获取待测音频与基准音频的音频相似度,利用了待测音频不同韵律层级基频所表现的抑扬顿挫的语调,与基准音频不同韵律层级基频所表现的抑扬顿挫语调相比较,可以实现对于待测音频的语调的评测,进而可以实现对于待测音频的情感的测评,并且在语调比较的时候,区分了不同的韵律层级、结合了不同韵律层级的权重进行测评,可以提高对于待测音频的情感的测评的准确性。
下面对本公开实施例提供的语音评测装置进行介绍,下文描述的语音评测装置可以认为是,电子设备(如:PC)为分别实现本公开实施例提供的语音评测方法所需设置的功能模块架构。下文描述的语音评测装置的内容,可分别与上文描述的语音评测方法的内容相互对应参照。
图4是本公开实施例所提供的语音评测装置的一框图,该语音评测装置即可应用于客户端,也可应用于服务器端,参考图4,该语音评测装置可以包括:
基础获取单元40,适于获取待测音频、与所述待测音频对应的参考文本、以及与所述参考文本对应的基准音频。
韵律层级获取单元41,适于获取所述参考文本的各个韵律层级。
基频获取单元42,适于获取所述待测音频的各个音频帧的待测帧基频,得到分别对应于各个所述韵律层级的各个层级待测帧基频,获取所述基准音频的各个音频帧的基准帧基频,得到分别对应于各个所述韵律层级的各个层级基准帧基频。
层级韵律相似度获取单元43,适于根据同位置的同一韵律层级中的相互对应的所述各个层级待测帧基频和所述各个层级基准帧基频,获取各个所述韵律层级的层级韵律相似度。
音频相似度获取单元44,适于根据所述层级韵律相似度和所述待测音频的各个韵律层级的权重,获取所述待测音频与所述基准音频的音频相似度。
可以看出,本公开实施例所提供的一种语音评测装置,在语音评测时,首先基础获取单元40,获取待测音频、与所述待测音频对应的参考文本、以及与所述参考文本对应的基准音频;然后韵律层级获取单元41,获取所述参考文本的各个韵律层级;接着基频获取单元42,获取所述待测音频的各个音频帧的待测帧基频,得到分别对应于各个所述韵律层级的各个层级待测帧基频,获取所述基准音频的各个音频帧的基准帧基频,得到分别对应于各个所述韵律层级的各个层级基准帧基频;层级韵律相似度获取单元43,根据同位置的同一韵律层级中的相互对应的所述各个层级待测帧基频和所述各个层级基准帧基频,获取各个所述韵律层级的层级韵律相似度;最后音频相似度获取单元44,根据所述层级韵律相似度和所述待测音频的各个韵律层级的权重,获取所述待测音频与所述基准音频的音频相似度。
这样,本公开实施例所提供的语音评测装置,通过同位置的同一韵律层级中的相互对应的待测音频的各个层级待测帧基频,结合对应于同一韵律层级的基准音频的各个层级基准帧基频,获取各个韵律层级的层级韵律相似度;进而根据层级韵律相似度和待测音频的各个韵律层级的权重,获取待测音频与基准音频的音频相似度,利用了待测音频不同韵律层级基频所表现的抑扬顿挫的语调,与基准音频不同韵律层级基频所表现的抑扬顿挫语调相比较,可以实现对于待测音频的语调的评测,进而可以实现对于待测音频的情感的测评,并且在语调比较的时候,区分了不同的韵律层级、结合了不同韵律层级的权重进行测评,可以提高对于待测音频的情感的测评的准确性。
为了进行语音评测,基础获取单元40:适于获取待测音频、与所述待测音频对应的参考文本、以及与所述参考文本对应的基准音频。
容易理解的是,为了实现对于语音的情感测评,首先要获取待测音频和待测音频所对应的文本,所述待测音频和待测音频所对应的文本可以是学生朗读音频和对应的文本,也可以是其他朗读者的朗读音频和对应的文本。
当然,为了实现对于待测音频的情感测评,还需要获取所述参考文本对应的基准音频,基准音频可以为专业朗读教师、专业播音员等专业人士的标准朗读音频,这样可以通过对基准音频与待测音频的比较,获得对于待测音频情感测评的结果。
可以看出,在本公开所提供语音评测方法中,并不对待测音频和待测音频所对应的文本的来源做特殊的限制,这就意味着,可以方便地利用本公开提供的语音评测方法对任一待测音频进行语音评测,并得到评测结果,使得本公开所提供语音评测方法的应用场景更加广泛,并不仅仅局限于对学生朗读语音的评测上。
韵律层级获取单元41:适于获取所述参考文本的各个韵律层级。
语音的节奏是表达语音情感的一部分,韵律层级可以很好的表现语音的节奏,因此,获取参考文本的各个韵律层级,可以使得本公开所提供的语音评测方法实现在语音节奏的基础上对于待测音频语调的评测,进而可以实现对于待测音频的情感的测评,提高对待测音频情感测评的准确性。
得到参考文本后,就可以基于参考文本确定各个韵律层级,由于参考文本同时对应于待测音频和基准音频,因此,只需要获取参考文本的韵律层级即可。
在一种具体实施方式中,所述获取所述参考文本的各个韵律层级的步骤可以包括:
第一韵律层级处理单元,适于获取所述参考文本的各个韵律层级的层级类别和停顿位置,所述层级类别包括韵律词层、韵律短语层、语调短语层和语句层。
对于参考文本,确定出各个需要停顿的停顿位置,以及每个停顿位置的层级类别。
具体地,韵律层级可以包括四种不同的类别:韵律词层、韵律短语层、语调短语层和语句层,其中:
韵律词层:表示基本韵律单元,在韵律词内部不能停顿,在韵律词边界处停顿不是必须的,在无标记的情况下,音系词与构词法的词是相同的,在有些情况下可能比词大些。
韵律短语层:多个韵律词组合,对应一次完整的韵律表达(不换气),韵律短语由一个或多个韵律词组成,通常认为韵律短语的长度是7个音节(一个字为一个音节),变化长度为2个音节,这与呼吸群的长度相当,韵律短语具有相对稳定的短语调模式和短语重音配置模式。
语调短语层:语调短语是最长的音系成分,一般长于韵律短语,在语法上,相当于较长的短语或较短的语句,语调短语有特定的语调模式,它可能通过一些方式与句法或篇章结构相联系。
语句层:一般以标点符号划分。
为方便结合案例进行描述,其中,#1表示韵律词层;#2表示韵律短语层;#3表示语调短语层;#4表示语句层。
韵律层级可以很好的表现语音的节奏,获取了参考文本的层级类别和停顿位置,可以为待测语音实现语调测评提供基础,并且韵律层级的各个层级类别的设置,涵盖语音层级的各个方面,可以更加准确的实现对于待测语音的情感测评。
在一种具体实施方式中,第二韵律层级处理单元,适于利用韵律层级划分模型,获取所述参考文本的各个韵律层级的层级类别和停顿位置,训练韵律层级划分模型。
韵律层级划分模型为预先训练完成的模型,将参考文本输入韵律层级划分模型,得到的模型输出即为所述参考文本的各个韵律层级的层级类别和停顿位置。
为方便对前述方案理解,现结合具体的案例进行说明,例如:
将下列例句输入到韵律层级划分模型,韵律层级划分模型对它们进行韵律层级划分,输出的结果如下:
输入:
例1:李某的网站很快被警方查封。
例2:儿童医院,嘟嘟和爸爸在一起。
例3:经检查,老人有轻微的脑血栓。
输出:
例1:李某的#1网站#3很快#2被警方#1查封#4。
例2:儿童#1医院#3,嘟嘟#1和爸爸#2在一起#4。
例3:经检查#3,老人有#1轻微的#2脑血栓#4。
这样,通过韵律层级划分模型对句子的韵律层级的划分,可以得到句子的韵律层级的类别以及停顿位置,例如:
例1中:李某的#1【李某的后面停顿,韵律层级为#1韵律词层】网站#3【网站后面停顿,韵律层级为#3语调短语层】很快#2【很快后面停顿,韵律层级为#2韵律短语层】被警方#1【警方后面停顿,韵律层级为#1韵律词层】查封#4。【句号后面停顿,韵律层级为#4语句层】。
在具体的实施方式中,本公开实施例所提供的语音评测方法中的韵律层级划分模型可以通过以下方式训练,请参考图2,图2为本公开实施例所提供的语音评测方法的韵律层级划分模型的训练步骤示意图。
如图中所示,韵律层级划分模型可以通过以下步骤训练,包括:
步骤S20:获取样本文本训练集,所述样本文本训练集包括相互对应的待测样本文本和基准样本文本,所述基准样本文本标注有各个基准韵律层级。
为了训练韵律层级划分模型,需要获取样本文本训练集,样本文本训练集包括相互对应的待测样本文本和基准样本文本,所述基准样本文本标注有各个基准韵律层级,并且满足预定的质量要求,可以根据这些满足质量要求的基准样本文本的基准韵律层级,来预测待测样本文本的预测韵律层级。
步骤S21:利用所述韵律层级划分模型,根据所述待测样本文本,获取所述待测样本文本的预测韵律层级。
根据待测样本文本,韵律层级划分模型会获得初步的待测样本文本的预测韵律层级。
步骤S22:根据所述预测韵律层级和所述基准韵律层级,确定所述待测样本文本的第一损失。
韵律层级划分模型会根据基准样本文本的基准韵律层级来计算待测样本文本的第一损失,此时获取的待测文本的预测韵律层级并不完善,需要根据待测文本的第一损失来判断获取的预测韵律层级的质量。
步骤S23:第一损失是否满足预定阈值,如果是,执行步骤S25,如果否,执行步骤S24。
利用第一损失来判断上述预测韵律层级的质量,如果第一损失不满足预定的阈值,则执行步骤S24,直至第一损失阈值满足预定的阈值,则执行步骤S25。
步骤S24:调整所述韵律层级划分模型的参数。
按照第一损失阈值,根据满足预定质量要求的基准样本文本的基准韵律层级,来调整韵律层级划分模型的参数,使得韵律层级划分模型按照新的模型参数来获得新的待测样本文本的预测韵律层级,使得新的预测韵律层级更加完善。
步骤S25:得到训练完成的韵律层级划分模型。
通过上述步骤的训练,得到训练完成的韵律层级划分模型。
可见,通过韵律层级划分模型对参考文本进行韵律层级划分,得到了参考文本对应的各个韵律层级的类别和各个所述韵律层级的停顿位置,也就相应得到了参考文本准确的节奏变化,同时,韵律层级划分模型在训练过程中满足预定的质量要求,所以,也可以确保得到高质量的参考文本对应的各个韵律层级的类别和各个所述韵律层级的停顿位置,进而,可以高质量的把握参考文本节奏的变化,从而为实现对于语音的情感测评提供基础。
基频获取单元,适于获取所述待测音频的各个音频帧的待测帧基频,得到分别对应于各个所述韵律层级的各个层级待测帧基频,获取所述基准音频的各个音频帧的基准帧基频,得到分别对应于各个所述韵律层级的各个层级基准帧基频。
在得到高质量的参考文本对应的各个韵律层级的类别和各个所述韵律层级的停顿位置的基础上,提取对应于所述各个韵律层级的各个层级待测帧基频和各个层级基准帧基频,使得所获取的各个层级待测帧基频和各个层级基准帧基频,不仅能够表现待测音频和基准音频的节奏,还能够表现待测音频和基准音频抑扬顿挫的语调,可以提高对待测音频情感测评的准确性。
具体地,可以首先获取待测音频的各个音频帧,然后提取各个音频帧的待测帧基频,根据待测帧基频以及与待测帧基频对应的音频帧的韵律层级,就可以确定待测帧基频的韵律层级,从而可以得到各个层级待测帧基频,相应地,对于基准音频也进行相同的处理,得到各个韵律层级的层级基准帧基频。
也可以首先确定各个音频帧所对应的参考文本的韵律层级,然后再提取各个音频帧的待测帧基频,最终确定待测帧基频的韵律层级,并得到各个层级待测帧基频。
在一种具体的实施例中,可以在利用已训练完成的韵律层级划分模型对参考文本进行韵律层级划分,得到了参考文本对应的各个韵律层级的类别和各个所述韵律层级的停顿位置后,可以利用已训练完成的强制对齐模型或其它模型确定所述待测音频的各个音频帧的韵律层级。
本公开以强制对齐模型为例,说明确定各个音频帧的韵律层级。
根据韵律层级划分模型对参考文本进行韵律层级划分,得到参考文本对应的各个韵律层级的类别和各个所述韵律层级的停顿位置;
结合强制对齐模型判断参考文本停顿处对应的待测音频和基准音频的停顿时间点,根据各个不同韵律层级的停顿时间点,确定各个不同韵律层级的待测音频的各个音频帧,和基准音频的各个音频帧。
上述强制对齐模型可以通过以下步骤训练:
1)、获取训练文本和所述训练文本对应的训练音频,所述训练文本的各个文字标注有与其对应的训练用标准音频帧。
为了训练强制对齐模型,需要获取训练文本和所述训练文本对应的训练音频,所述训练文本的各个文字标注有与其对应的训练用标准音频帧,具体地,所述训练用标准音频帧与文字的对应关系可以通过人工标注的方式获取。
2)、通过所述强制对齐模型,根据所述训练文本和与所述训练文本对应的训练音频,获取与各个所述文字对应的预测音频帧。
强制对齐模型会根据训练文本和与所述训练文本对应的训练音频,获取与各个所述文字对应的预测音频帧,但此时获取的与文字对应的预测音频帧可能与训练用标准音频帧之间存在差别,需要进一步调整。
3)、根据各个对应于同一个文字的所述预测音频帧和各个所述训练用标准音频帧,获取第二损失并根据所述第二损失调整所述强制对齐模型的参数,直至所述第二损失满足预定的阈值,得到训练完成的强制对齐模型。
根据各个对应于同一个文字的所述预测音频帧和所述训练用标准音频帧,获取第二损失,如果第二损失不满足预定的阈值,则根据第二损失来调整所述强制对齐模型的参数,重新获取预测音频帧,直至第二损失满足预定的阈值,即对应于同一个文字的预测音频帧和训练用标准音频帧的相似度满足要求,得到训练完成的强制对齐模型。
在一种具体实施方式中,为了提高所获取的层级待测帧基频和层级基准帧基频的准确性,所述获取所述待测音频的各个音频帧的待测帧基频,得到分别对应于各个所述韵律层级的各个层级待测帧基频,获取所述基准音频的各个音频帧的基准帧基频,得到分别对应于各个所述韵律层级的各个层级基准帧基频的步骤可以包括:
第一基频处理单元,适于提取所述待测音频的各个音频帧的待测帧原始基频,提取所述基准音频的各个音频帧的基准帧原始基频;至少对所述待测帧原始基频和所述基准帧原始基频进行归一化处理,得到各个所述待测帧基频和各个所述基准帧基频;根据各个所述待测帧基频,得到分别对应于各个所述韵律层级的各个层级待测帧基频,根据各个所述基准帧基频,得到分别对应于各个所述韵律层级的各个层级基准帧基频。
在具体的实施例中,可以采用以下归一化公式做归一化处理:
最值归一化:把所有数据映射到0-1之间:
提取到各个不同韵律层级的待测音频的各个音频帧的待测帧原始基频,和基准音频的各个音频帧的基准帧原始基频之后,至少对所述待测帧原始基频和所述基准帧原始基频进行归一化处理,得到各个所述待测帧基频和各个所述基准帧基频,结合已经确定的待测音频帧和基准音频帧的韵律层级,得到分别对应于各个所述韵律层级的各个层级待测帧基频和得到分别对应于各个所述韵律层级的各个层级基准帧基频。
这样,通过对待测帧原始基频和基准帧原始基频进行归一化处理,可以避免所得到的待测帧原始基频或基准帧原始基频过高或者过低,使得得到的所述待测帧基频和所述基准帧基频更加合理,提高语音评测的准确性。
在另一种具体实施方式中,为了进一步提高语音评测的准确性,本公开实施例所提供的语音评测方法的至少对所述待测帧原始基频和所述基准帧原始基频进行归一化处理,得到各个所述待测帧基频和各个所述基准帧基频的步骤可以包括:
第二基频处理单元,适于对所述待测帧原始基频和所述基准帧原始基频进行归一化处理,得到待测帧归一化基频和基准帧归一化基频;根据所述待测帧归一化基频进行曲线拟合,得到待测帧拟合曲线,根据所述基准帧归一化基频进行曲线拟合,得到基准帧拟合曲线;根据所述待测帧拟合曲线获取各个所述待测帧基频,根据所述基准帧拟合曲线获取各个所述基准帧基频。
获取到所述待测帧原始基频和所述基准帧原始基频之后,为保证所述待测帧基频和所述基准帧基频的高质量,要对所述待测帧原始基频和所述基准帧原始基频做进一步的处理,除了对所述待测帧原始基频和所述基准帧原始基频进行归一化处理,去掉所述待测帧原始基频和所述基准帧原始基频中过高或者过低的原始基频,还可以进一步进行曲线拟合,具体为:
对所述待测帧归一化基频进行曲线拟合,得到待测帧拟合曲线;
对所述基准帧归一化基频进行曲线拟合,得到基准帧拟合曲线。
在具体的实施例中,可以采用以下三次多项式进行曲线拟合:
具体过程为:根据所述待测音频和基准音频不同韵律层级的各个待测帧归一化基频和基准帧归一化基频,分别获取相应的各个待测帧归一化基频值和基准帧归一化基频值,代入上述三次多项式,得到分别对应于所述待测音频的各个待测帧拟合曲线和对应于所述基准音频的各个基准帧拟合曲线。
然后,根据所述待测帧拟合曲线获取各个所述待测帧基频,根据所述基准帧拟合曲线获取各个所述基准帧基频。
为了获取层级待测帧基频和层级基准帧基频,还需要进行进一步运算,具体可以为:
根据所述待测帧基频以及音频帧对应的韵律层级,获取各个所述层级待测帧基频,根据所述基准帧基频以及音频帧对应的韵律层级,获取各个所述层级基准帧基频。
通过曲线拟合,可以进一步对待测帧归一化基频和基准帧归一化基频进行调整,使得得到的待测帧基频和基准帧基频的准确性更高,也可以方便的从曲线中看到待测帧归一化基频和基准帧归一化基频的变化趋势,从而可以进一步提高对待测语音进行评测的准确性。
进一步地,本公开实施例所提供的语音评测方法,为了方便获取对应于同一韵律层级的待测帧基频和基准帧基频,所述根据所述待测帧拟合曲线获取各个所述待测帧基频,根据所述基准帧拟合曲线获取各个所述基准帧基频的步骤可以包括:
动态规整单元,适于对所述待测帧拟合曲线和所述基准帧拟合曲线进行动态规整处理,得到时长相同的规整待测帧拟合曲线和规整基准帧拟合曲线;根据所述规整待测帧拟合曲线和所述规整基准帧拟合曲线,获取相互对应的各个所述待测帧基频和各个所述基准帧基频。
由于待测音频和基准音频在同一韵律层级上的持续时间不尽相同,为保持时长一致,用于后续的相似度计算,所以要对待测音频的待测帧拟合曲线和基准音频的基准帧拟合曲线进行动态规整处理,得到待测音频和基准音频同一位置同一韵律层级中时长相同的规整待测帧拟合曲线和规整基准帧拟合曲线。
在具体的实施例中,可以采用动态规整算法DTW,得到待测音频和基准音频同一位置同一韵律层级中时长相同的规整待测帧拟合曲线和规整基准帧拟合曲线。
然后根据所述待测音频和基准音频同一位置同一韵律层级中时长相同的规整待测帧拟合曲线和规整基准帧拟合曲线,获取同一位置同一韵律层级中的各个所述待测帧基频和各个所述基准帧基频。
然后基于具体的韵律层级,就可以得到与各个韵律层级对应的各个所述层级待测帧基频和各个所述层级基准帧基频。
可见,在上述过程中,对所述待测帧拟合曲线和所述基准帧拟合曲线进行了进一步的动态规整处理,使得待测音频和基准音频在同一位置同一韵律层级中的持续时间保持一致,并在此基础上获取了分别与各个韵律层级对应的同一位置同一韵律层级中的各个所述待测帧基频和各个所述基准帧基频,使得相互对应的各个所述待测帧基频和各个所述基准帧基频的获取更为方便、更为准确,进一步使得利用各个所述层级待测帧基频和各个所述层级基准帧基频得到的相似度计算的结果更加准确,也使得对待测音频的评测更加准确。
请继续参考图1,本公开实施例所提供的语音评测方法还包括:
层级韵律相似度获取单元,适于根据同位置的同一韵律层级中的相互对应的所述各个层级待测帧基频和所述各个层级基准帧基频,获取各个所述韵律层级的层级韵律相似度;
在获取了分别与各个韵律层级对应的同一位置同一韵律层级中的各个所述层级待测帧基频和各个所述层级基准帧基频后,根据各个所述层级待测帧基频和各个所述层级基准帧基频获取各个所述韵律层级的层级韵律相似度。
在具体的实施例中,可以采用以下公式进行各个所述韵律层级的层级韵律相似度计算:
N:表示待测音频各个层级待测帧基频序列中基频的总数、与待测音频相对应的同位置的同一韵律层级中基准音频的各个层级基准帧基频序列中基频的总数。
结合上文中的案例:
例1:李某的#1网站#3很快#2被警方#1查封#4。
可知,例1中包含两个#1韵律词层,“李某的#1”和“被警方#1”,因此,经过层级相似度计算,可以得到两个#1韵律词层的层级韵律相似度:可以用R11,和R12来表示;同理,可以计算出#2韵律短语层,#3语调短语层,#4语句层的相应的各个韵律层级相似度。
各个不同的韵律层级很好的表现了待测音频和基准音频的节奏,在此基础上获得的不同韵律层级的层级韵律相似度可以为获取音频相似度提供基础,使得语音评测结果更为准确。
音频相似度获取单元,适于根据所述层级韵律相似度和所述待测音频的各个韵律层级的权重,获取所述待测音频与所述基准音频的音频相似度。
在所述层级韵律相似度的基础上进一步结合各个韵律层级的权重,使得所获取的所述待测音频与所述基准音频的音频相似度更为准确,也进而提高了对待测音频的情感测评的准确性。
具体的,韵律层级的权重获取单元,适于获取与各个所述韵律层级对应的所述待测音频的音素的层级音频帧数,以及所述待测音频的全部音素的整体音频帧数;根据所述层级音频帧数与所述整体音频帧数,获取所述待测音频的各个所述韵律层级的权重;所述待测音频的音素的层级音频帧数包括所述待测音频的浊音音素的层级音频帧数,所述待测音频的全部音素的整体音频帧数包括所述待测音频的全部浊音音素的整体音频帧数。
各个所述韵律层级的权重的获取步骤包括:
获取与各个所述韵律层级对应的所述待测音频的音素的层级音频帧数,以及所述待测音频的全部音素的整体音频帧数;
根据所述层级音频帧数与所述整体音频帧数,获取所述待测音频的各个所述韵律层级的权重。
为方便对上述方案的理解,现继续结合上文中的案例进行说明,例如:
将下列例句输入到韵律层级划分模型,韵律层级划分模型对它们进行韵律层级划分,输出的结果如下:
输入:
例1:李某的网站很快被警方查封。
输出:
例1:李某的#1网站#3很快#2被警方#1查封#4。
这样,通过韵律层级划分模型对句子的韵律层级的划分,可以得到句子的韵律层级的类别以及停顿位置:
例1中:李某的#1【李某的后面停顿,韵律层级为#1韵律词层】网站#3【网站后面停顿,韵律层级为#3语调短语层】很快#2【很快后面停顿,韵律层级为#2韵律短语层】被警方#1【警方后面停顿,韵律层级为#1韵律词层】查封#4。【句号后面停顿,韵律层级为#4语句层】。
在得到句子的韵律层级的类别以及停顿位置之后,继续结合强制对齐模型确定待测音频中的每一个语音帧属于待测音频中哪一字的哪一个音素,即得到待测音频中每个字的每个音素所对应的语音帧的数量,以及待测音频全部文本的每个音素对应的全部语音帧的数量,因为语音帧有固定窗长和帧移(一般为25ms窗长,10ms帧移),进而可以得到每个音素所持续的时长信息。
结合前述案例,经过强制对齐模型强制对齐可知:
例1中:李某的#1网站#3很快#2被警方#1查封#4。包含两个#1韵律词层:
“李某的”:T(l) 表示“李”中的声母占用的语音帧的数量,例如为1帧;T (i) 表示“李”中的韵母占用的语音帧的数量,例如为2帧;因此在“李某的”中,“李”字占用的语音帧的总数量为3帧;T(m) 表示“某”中的声母占用的语音帧的数量,例如为2帧;T (ou) 表示“某”中的韵母占用的语音帧的数量,例如为3帧;因此在“李某的”中,“某”字占用的语音帧的总数量为5帧;T(d) 表示“的”中的声母占用的语音帧的数量,例如为2帧;T (e) 表示“的”中的韵母占用的语音帧的数量,例如为1帧;因此在“李某的”中,“的”字占用的语音帧的总数量为3帧;因此,“李某的”总共占用的语音帧数量为:
同理,“被警方”总共占用的语音帧数量为以下公式计算得到的总帧数:
相应的,可以得到例句“李某的#1网站#3很快#2被警方#1查封#4。”所占用的所有的语音帧数量,可以用T0 来表示。
综上所述:#1韵律词层的韵律层级权重为:
同理,可以计算得出#2韵律短语层,#3语调短语层,#4语句层的相应的各个韵律层级权重。
可见,在待测音频的音素的采集过程中,根据待测音频的不同的韵律层级来获取待测音频每个字中的每个音素所对应的音频帧数,可以使得根据待测音频所对应的音素而获取的各个韵律层级的权重更为准确。
另一方面,由于音素中的清音没有相对应的基频值,为了简化韵律层级的权重的获取过程,所述待测音频的音素的层级音频帧数包括所述待测音频的浊音音素的层级音频帧数,所述待测音频的全部音素的整体音频帧数包括所述待测音频的全部浊音音素的整体音频帧数。
如上述案例中:
这样,清音所对应的语音帧的数量未包括在总的语音帧数量里面,使得获取各个韵律层级的权重的过程更为简便,同时还可以提高准确性。
得到层级韵律相似度和所述待测音频的各个韵律层级的权重后,就可以获取音频相似度,实现对待测音频的评价,在具体的实施例中,音频相似度获取单元,适于根据对应于同一所述韵律层级的所述层级韵律相似度和所述韵律层级的权重,获取各个韵律层级的调整层级韵律相似度;根据同一类别的各个所述韵律层级的调整层级韵律相似度,获取各个韵律层级类别的层级类别韵律相似度;根据所述各个层级类别韵律相似度获取所述音频相似度。
所述根据同一类别的各个所述韵律层级的调整层级韵律相似度,获取各个韵律层级类别的层级类别韵律相似度的步骤包括:根据同一类别的各个所述韵律层级的调整层级韵律相似度,获取各个所述调整层级韵律相似度的平均值,得到所述层级类别韵律相似度。
所述根据所述层级韵律相似度和所述待测音频的各个所述韵律层级的权重,获取所述待测音频与所述基准音频的音频相似度的步骤包括:
根据对应于同一所述韵律层级的所述层级韵律相似度和所述韵律层级的权重,获取各个韵律层级的调整层级韵律相似度;
根据同一类别的各个所述韵律层级的调整层级韵律相似度,获取各个韵律层级类别的层级类别韵律相似度;根据所述各个层级类别韵律相似度获取所述音频相似度。
请参考图3,图3为本公开实施例所提供的语音评测方法的音频相似度获取流程图:
步骤S140:根据对应于同一所述韵律层级的所述层级韵律相似度和所述韵律层级的权重,获取各个韵律层级的调整层级韵律相似度。
为方便对上述方案的理解,现继续结合上文中的案例进行说明:
例1:李某的#1网站#3很快#2被警方#1查封#4。
两个#1韵律词层分别为:“李某的#1”和“被警方#1”,两个#1韵律词层的层级韵律相似度用R11,和R12来表示,两个#1韵律词层的韵律层级权重为:
根据对应于同一所述韵律层级的所述层级韵律相似度和所述韵律层级的权重,获取的各个韵律层级的调整层级韵律相似度为:
同理,可以获取#2韵律短语层,#3语调短语层,#4语句层的相应的各个韵律层级调整层级韵律相似度。
步骤S141:根据同一类别的各个所述韵律层级的调整层级韵律相似度,获取各个韵律层级类别的层级类别韵律相似度。
如果参考文本的韵律层级中,每个类别的韵律层级的数量均为一个,那么根据各个韵律层级的调整层级韵律相似度就可以作为各个韵律层级类别的层级类别韵律相似度,如果类别的韵律层级的数量不止一个,那么可以根据同一类别的各个所述韵律层级的调整层级韵律相似度,获取各个韵律层级类别的层级类别韵律相似度。
在一种具体实施方式中,可以通过获取平均值的方式,获取层级类别韵律相似度,具体的步骤包括:
根据同一类别的各个所述韵律层级的调整层级韵律相似度,获取各个所述调整层级韵律相似度的平均值,得到所述层级类别韵律相似度。
请继续参考上述案例:
例1:李某的#1网站#3很快#2被警方#1查封#4。
两个#1韵律词层分别为:“李某的#1”和“被警方#1”,各个韵律层级的调整层级韵律相似度为:
对应的所述层级类别韵律相似度即为:
C1即为#1韵律词层的层级类别韵律相似度,同理可以获得#2韵律短语层,#3语调短语层,#4语句层的相应的各个韵律层级的层级类别韵律相似度C2、C3、C4。
可见,根据同一类别的各个所述韵律层级的调整层级韵律相似度,获取各个所述调整层级韵律相似度的平均值,得到所述层级类别韵律相似度,可以根据所述层级类别韵律相似度继续获取音频相似度,进而根据音频相似度对待测语音进行全面的测评。
步骤S142:根据所述各个层级类别韵律相似度获取所述音频相似度。
继续参考上述案例:
C1为#1韵律词层的层级类别韵律相似度。
C2为#2韵律短语层的层级类别韵律相似度。
C3为#3语调短语层的层级类别韵律相似度。
C4为#4语句层的层级类别韵律相似度。
假设待测音频中包含M1个#1韵律词层,M2个#2韵律短语层,M3个#3语调短语层,M4个语句层,所述待测音频的音频相似度为:
层级类别韵律相似度可以避免某一韵律层级数量过多对情感测评准确性的影响,层级韵律相似度和韵律层级的权重相结合后,使得所获取的各个韵律层级的调整层级韵律相似度更为准确,相应的使待测音频的音频相似度更为准确,从而提高待测音频情感测评的准确性。
综上所述,可见,本公开实施例所提供的语音评测方法,通过同位置的同一韵律层级中的相互对应的待测音频的各个层级待测帧基频,结合对应于同一韵律层级的基准音频的各个层级基准帧基频,获取各个韵律层级的层级韵律相似度;进而根据层级韵律相似度和待测音频的各个韵律层级的权重,获取待测音频与基准音频的音频相似度,利用了待测音频不同韵律层级基频所表现的抑扬顿挫的语调,与基准音频不同韵律层级基频所表现的抑扬顿挫语调相比较,可以实现对于待测音频的语调的评测,进而可以实现对于待测音频的情感的测评,并且在语调比较的时候,区分了不同的韵律层级、结合了不同韵律层级的权重进行测评,可以提高对于待测音频的情感的测评的准确性。
本公开示例性实施例还提供一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序,所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开实施例的方法。
本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。
本公开示例性实施例所提供的非瞬时计算机可读存储介质所存储的计算机可执行指令,在语音评测时,首先获取待测音频、与所述待测音频对应的参考文本、以及与所述参考文本对应的基准音频;然后获取所述参考文本的各个韵律层级;接着获取所述待测音频的各个音频帧的待测帧基频,得到分别对应于各个所述韵律层级的各个层级待测帧基频,获取所述基准音频的各个音频帧的基准帧基频,得到分别对应于各个所述韵律层级的各个层级基准帧基频;根据同位置的同一韵律层级中的相互对应的所述各个层级待测帧基频和所述各个层级基准帧基频,获取各个所述韵律层级的层级韵律相似度;最后根据所述层级韵律相似度和所述待测音频的各个韵律层级的权重,获取所述待测音频与所述基准音频的音频相似度。可以看出,本公开实施例所提供的语音评测方法,通过同位置的同一韵律层级中的相互对应的待测音频的各个层级待测帧基频,结合对应于同一韵律层级的基准音频的各个层级基准帧基频,获取各个韵律层级的层级韵律相似度;进而根据层级韵律相似度和待测音频的各个韵律层级的权重,获取待测音频与基准音频的音频相似度,利用了待测音频不同韵律层级基频所表现的抑扬顿挫的语调,与基准音频不同韵律层级基频所表现的抑扬顿挫语调相比较,可以实现对于待测音频的语调的评测,进而可以实现对于待测音频的情感的测评,并且在语调比较的时候,区分了不同的韵律层级、结合了不同韵律层级的权重进行测评,可以提高对于待测音频的情感的测评的准确性。
参考图5,现将描述可以作为本公开的服务器或客户端的电子设备800的结构框图,其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图5所示,电子设备800包括计算单元801,其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序,来执行各种适当的动作和处理。在RAM 803中,还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
电子设备800中的多个部件连接至I/O接口805,包括:输入单元806、输出单元807、存储单元808以及通信单元809。输入单元806可以是能向电子设备800输入信息的任何类型的设备,输入单元806可以接收输入的数字或字符信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元807可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元804可以包括但不限于磁盘、光盘。通信单元809允许电子设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。
计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理。例如,在一些实施例中,方法S10-S14可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由ROM802和/或通信单元809而被载入和/或安装到电子设备800上。在一些实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行方法S10-S14。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
如本公开使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本公开。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其他实施例中实现。因此,本公开将不会被限制于本文所示的这些实施例,而是符合与本文所公开的原理和新颖特点相一致的最宽的范围。
虽然本公开实施例披露如上,但本公开并非限定于此。任何本领域技术人员,在不脱离本公开的精神和范围内,均可作各种变动与修改,因此本公开的保护范围应当以权利要求所限定的范围为准。
Claims (13)
1.一种语音评测方法,其特征在于,包括:
获取待测音频、与所述待测音频对应的参考文本、以及与所述参考文本对应的基准音频;
获取所述参考文本的各个韵律层级;
获取所述待测音频的各个音频帧的待测帧基频,得到分别对应于各个所述韵律层级的各个层级待测帧基频,获取所述基准音频的各个音频帧的基准帧基频,得到分别对应于各个所述韵律层级的各个层级基准帧基频;
根据同位置的同一韵律层级中的相互对应的各个所述层级待测帧基频和各个所述层级基准帧基频,获取各个所述韵律层级的层级韵律相似度;
根据所述层级韵律相似度和所述待测音频的各个韵律层级的权重,获取所述待测音频与所述基准音频的音频相似度;
所述获取所述待测音频的各个音频帧的待测帧基频,得到分别对应于各个所述韵律层级的各个层级待测帧基频,获取所述基准音频的各个音频帧的基准帧基频,得到分别对应于各个所述韵律层级的各个层级基准帧基频的步骤包括:
提取所述待测音频的各个音频帧的待测帧原始基频,提取所述基准音频的各个音频帧的基准帧原始基频;
至少对所述待测帧原始基频和所述基准帧原始基频进行归一化处理,得到各个所述待测帧基频和各个所述基准帧基频;
根据各个所述待测帧基频,得到分别对应于各个所述韵律层级的各个层级待测帧基频,根据各个所述基准帧基频,得到分别对应于各个所述韵律层级的各个层级基准帧基频。
2.如权利要求1所述的语音评测方法,其特征在于,各个所述韵律层级的权重的获取步骤包括:
获取与各个所述韵律层级对应的所述待测音频的音素的层级音频帧数,以及所述待测音频的全部音素的整体音频帧数;
根据所述层级音频帧数与所述整体音频帧数,获取所述待测音频的各个所述韵律层级的权重。
3.如权利要求2所述的语音评测方法,其特征在于,所述待测音频的音素的层级音频帧数包括所述待测音频的浊音音素的层级音频帧数,所述待测音频的全部音素的整体音频帧数包括所述待测音频的全部浊音音素的整体音频帧数。
4.如权利要求1所述的语音评测方法,其特征在于,所述根据所述层级韵律相似度和所述待测音频的各个所述韵律层级的权重,获取所述待测音频与所述基准音频的音频相似度的步骤包括:
根据对应于同一所述韵律层级的所述层级韵律相似度和所述韵律层级的权重,获取各个韵律层级的调整层级韵律相似度;
根据同一类别的各个所述韵律层级的调整层级韵律相似度,获取各个韵律层级类别的层级类别韵律相似度;
根据各个所述层级类别韵律相似度获取所述音频相似度。
5.如权利要求4所述的语音评测方法,其特征在于,所述根据同一类别的各个所述韵律层级的调整层级韵律相似度,获取各个韵律层级类别的层级类别韵律相似度的步骤包括:
根据同一类别的各个所述韵律层级的调整层级韵律相似度,获取各个所述调整层级韵律相似度的平均值,得到所述层级类别韵律相似度。
6.如权利要求1-5任一项所述的语音评测方法,其特征在于,所述至少对所述待测帧原始基频和所述基准帧原始基频进行归一化处理,得到各个所述待测帧基频和各个所述基准帧基频的步骤包括:
对所述待测帧原始基频和所述基准帧原始基频进行归一化处理,得到待测帧归一化基频和基准帧归一化基频;
根据所述待测帧归一化基频进行曲线拟合,得到待测帧拟合曲线,根据所述基准帧归一化基频进行曲线拟合,得到基准帧拟合曲线;
根据所述待测帧拟合曲线获取各个所述待测帧基频,根据所述基准帧拟合曲线获取各个所述基准帧基频。
7.如权利要求6所述的语音评测方法,其特征在于,所述根据所述待测帧拟合曲线获取各个所述待测帧基频,根据所述基准帧拟合曲线获取各个所述基准帧基频的步骤包括:
对所述待测帧拟合曲线和所述基准帧拟合曲线进行动态规整处理,得到时长相同的规整待测帧拟合曲线和规整基准帧拟合曲线;
根据所述规整待测帧拟合曲线和所述规整基准帧拟合曲线,获取相互对应的各个所述待测帧基频和各个所述基准帧基频。
8.如权利要求1-5任一项所述的语音评测方法,其特征在于,所述获取所述参考文本的各个韵律层级的步骤包括:
获取所述参考文本的各个韵律层级的层级类别和停顿位置,所述层级类别包括韵律词层、韵律短语层、语调短语层和语句层。
9.如权利要求8所述的语音评测方法,其特征在于,所述获取所述参考文本的各个韵律层级的层级类别和停顿位置的步骤包括:
利用韵律层级划分模型,获取所述参考文本的各个韵律层级的层级类别和停顿位置,所述韵律层级划分模型的训练过程包括:
获取样本文本训练集,所述样本文本训练集包括相互对应的待测样本文本和基准样本文本,所述基准样本文本标注有各个基准韵律层级;
利用所述韵律层级划分模型,根据所述待测样本文本,获取所述待测样本文本的预测韵律层级,根据所述预测韵律层级和所述基准韵律层级,确定所述待测样本文本的第一损失,并根据所述待测样本文本的第一损失调整所述韵律层级划分模型的参数,直至所述待测样本文本的第一损失满足预定的阈值,得到训练完成的韵律层级划分模型。
10.一种语音评测装置,其特征在于,包括:
基础获取单元,适于获取待测音频、与所述待测音频对应的参考文本、以及与所述参考文本对应的基准音频;
韵律层级获取单元,适于获取所述参考文本的各个韵律层级;
基频获取单元,适于获取所述待测音频的各个音频帧的待测帧基频,得到分别对应于各个所述韵律层级的各个层级待测帧基频,获取所述基准音频的各个音频帧的基准帧基频,得到分别对应于各个所述韵律层级的各个层级基准帧基频;
层级韵律相似度获取单元,适于根据同位置的同一韵律层级中的相互对应的各个所述层级待测帧基频和各个所述层级基准帧基频,获取各个所述韵律层级的层级韵律相似度;
音频相似度获取单元,适于根据所述层级韵律相似度和所述待测音频的各个韵律层级的权重,获取所述待测音频与所述基准音频的音频相似度;
所述基频获取单元,适于获取所述待测音频的各个音频帧的待测帧基频,得到分别对应于各个所述韵律层级的各个层级待测帧基频,获取所述基准音频的各个音频帧的基准帧基频,得到分别对应于各个所述韵律层级的各个层级基准帧基频包括:
提取所述待测音频的各个音频帧的待测帧原始基频,提取所述基准音频的各个音频帧的基准帧原始基频;
至少对所述待测帧原始基频和所述基准帧原始基频进行归一化处理,得到各个所述待测帧基频和各个所述基准帧基频;
根据各个所述待测帧基频,得到分别对应于各个所述韵律层级的各个层级待测帧基频,根据各个所述基准帧基频,得到分别对应于各个所述韵律层级的各个层级基准帧基频。
11.如权利要求10所述的语音评测装置,其特征在于,还包括:
韵律层级的权重获取单元,适于获取与各个所述韵律层级对应的所述待测音频的音素的层级音频帧数,以及所述待测音频的全部音素的整体音频帧数;根据所述层级音频帧数与所述整体音频帧数,获取所述待测音频的各个所述韵律层级的权重;所述待测音频的音素的层级音频帧数包括所述待测音频的浊音音素的层级音频帧数,所述待测音频的全部音素的整体音频帧数包括所述待测音频的全部浊音音素的整体音频帧数;
音频相似度获取单元,适于根据对应于同一所述韵律层级的所述层级韵律相似度和所述韵律层级的权重,获取各个韵律层级的调整层级韵律相似度;根据同一类别的各个所述韵律层级的调整层级韵律相似度,获取各个韵律层级类别的层级类别韵律相似度;根据各个所述层级类别韵律相似度获取所述音频相似度;
所述根据同一类别的各个所述韵律层级的调整层级韵律相似度,获取各个韵律层级类别的层级类别韵律相似度的步骤包括:根据同一类别的各个所述韵律层级的调整层级韵律相似度,获取各个所述调整层级韵律相似度的平均值,得到所述层级类别韵律相似度。
12.一种电子设备,包括:
处理器,以及存储程序的存储器,其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-9中任一项所述的方法。
13.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-9中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110881650.1A CN113327614B (zh) | 2021-08-02 | 2021-08-02 | 语音评测方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110881650.1A CN113327614B (zh) | 2021-08-02 | 2021-08-02 | 语音评测方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113327614A CN113327614A (zh) | 2021-08-31 |
CN113327614B true CN113327614B (zh) | 2021-11-02 |
Family
ID=77426709
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110881650.1A Active CN113327614B (zh) | 2021-08-02 | 2021-08-02 | 语音评测方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113327614B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112786004A (zh) * | 2020-12-30 | 2021-05-11 | 科大讯飞股份有限公司 | 语音合成方法以及电子设备、存储装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3587048B2 (ja) * | 1998-03-02 | 2004-11-10 | 株式会社日立製作所 | 韻律制御方法及び音声合成装置 |
CN105185374B (zh) * | 2015-09-11 | 2017-03-29 | 百度在线网络技术(北京)有限公司 | 韵律层级标注方法和装置 |
CN105529023B (zh) * | 2016-01-25 | 2019-09-03 | 百度在线网络技术(北京)有限公司 | 语音合成方法和装置 |
CN112967736A (zh) * | 2021-03-02 | 2021-06-15 | 厦门快商通科技股份有限公司 | 发音质量检测方法、系统、移动终端及存储介质 |
CN113096638B (zh) * | 2021-06-09 | 2021-09-07 | 北京世纪好未来教育科技有限公司 | 语音合成模型训练方法、语音合成方法及装置 |
-
2021
- 2021-08-02 CN CN202110881650.1A patent/CN113327614B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112786004A (zh) * | 2020-12-30 | 2021-05-11 | 科大讯飞股份有限公司 | 语音合成方法以及电子设备、存储装置 |
Non-Patent Citations (1)
Title |
---|
面向汉语统计参数语音合成的标注生成方法;郝东亮等;《计算机工程与应用》;20161001(第19期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113327614A (zh) | 2021-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7280386B2 (ja) | 多言語音声合成およびクロスランゲージボイスクローニング | |
US11450313B2 (en) | Determining phonetic relationships | |
WO2021012503A1 (zh) | 歌曲生成方法、装置、计算机设备及存储介质 | |
US11810471B2 (en) | Computer implemented method and apparatus for recognition of speech patterns and feedback | |
CN109767752A (zh) | 一种基于注意力机制的语音合成方法及装置 | |
CN108231062B (zh) | 一种语音翻译方法及装置 | |
US20200184958A1 (en) | System and method for detection and correction of incorrectly pronounced words | |
CN112397056B (zh) | 语音评测方法及计算机存储介质 | |
CN103985392A (zh) | 音素级的低功耗的口语评价与缺陷诊断方法 | |
US12100382B2 (en) | Text-to-speech using duration prediction | |
WO2023279976A1 (zh) | 语音合成方法、装置、设备及存储介质 | |
Proença et al. | Automatic evaluation of reading aloud performance in children | |
US20180197535A1 (en) | Systems and Methods for Human Speech Training | |
US11538474B2 (en) | Electronic device and method for controlling the electronic device thereof | |
CN113327615B (zh) | 语音评测方法、装置、设备及存储介质 | |
CN117690456A (zh) | 一种基于神经网络的小语种口语智能训练方法、系统及设备 | |
Kashani et al. | Sequential use of spectral models to reduce deletion and insertion errors in vowel detection | |
CN113327614B (zh) | 语音评测方法、装置、设备及存储介质 | |
Shufang | Design of an automatic english pronunciation error correction system based on radio magnetic pronunciation recording devices | |
CN113053409B (zh) | 音频测评方法及装置 | |
CN114155829A (zh) | 语音合成方法、装置、可读存储介质及电子设备 | |
CN113506563A (zh) | 一种发音识别的方法、装置及电子设备 | |
US20220270503A1 (en) | Pronunciation assessment with dynamic feedback | |
Yarra et al. | Automatic native language identification using novel acoustic and prosodic feature selection strategies | |
JP7039637B2 (ja) | 情報処理装置、情報処理方法、情報処理システム、情報処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |