CN113299278B - 一种声学模型性能评估的方法、装置和电子设备 - Google Patents

一种声学模型性能评估的方法、装置和电子设备 Download PDF

Info

Publication number
CN113299278B
CN113299278B CN202110553971.9A CN202110553971A CN113299278B CN 113299278 B CN113299278 B CN 113299278B CN 202110553971 A CN202110553971 A CN 202110553971A CN 113299278 B CN113299278 B CN 113299278B
Authority
CN
China
Prior art keywords
voice
determining
test set
average
acoustic model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110553971.9A
Other languages
English (en)
Other versions
CN113299278A (zh
Inventor
陈昌儒
吴雨璇
杨惠
徐培来
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dami Technology Co Ltd
Original Assignee
Beijing Dami Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dami Technology Co Ltd filed Critical Beijing Dami Technology Co Ltd
Priority to CN202110553971.9A priority Critical patent/CN113299278B/zh
Publication of CN113299278A publication Critical patent/CN113299278A/zh
Application granted granted Critical
Publication of CN113299278B publication Critical patent/CN113299278B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明实施例公开了一种声学模型性能评估的方法、装置和电子设备。本发明实施例通过获取语音测试集,其中,所述语音测试集中包括至少一条语音;根据语音评测模型确定出所述语音测试集的平均GOP、平均字错误率WER和相关性数值;根据所述平均GOP、平均字错误率WER和相关性数值对所述语音评测模型中的声学模型进行性能评估,确定所述声学模型的性能。通过上述方法,通过所述平均GOP、平均字错误率WER和相关性数值可以准确的对声学模型的性能进行评估,进而可以选择出性能较佳的声学模型。

Description

一种声学模型性能评估的方法、装置和电子设备
技术领域
本发明涉及计算机技术领域,具体涉及一种声学模型性能评估的方法、装置和电子设备。
背景技术
随着互联网技术的发展,在线教学的应用越来越广泛,在线教学过程中语音测评也参与到了在线教学的互动环节中,尤其是在线语言教学中,口语发音是教学中的核心环节,课上的口语发音学习以及课后的口语发音练习,均需要对大量的口语发音进行语音评测,将语音测评结果作为学习效果的反馈。
现有技术中,语音评测算法是一种按照参考文本发音后,对发音质量进行打分的算法,语音评测算法涉及的主要模型包含声学模型、语音模型和打分模型三个部分,语音评测算法是基于GOP为主要的声学特征来评测发音的好坏,而GOP是根据声学模型计算得到的,因此,声学模型的性能直接影响到语音评测的结果。
综上所述,如何对声学模型的性能进行评估,进而选择出性能较佳的声学模型,是目前需要解决的问题。
发明内容
有鉴于此,本发明实施例提供了一种声学模型性能评估的方法、装置和电子设备,准确的对声学模型的性能进行评估,进而可以选择出性能较佳的声学模型。
第一方面,本发明实施例提供了一种声学模型性能评估的方法,该方法包括:获取语音测试集,其中,所述语音测试集中包括至少一条语音;根据语音评测模型确定出所述语音测试集的平均GOP、平均字错误率WER和相关性数值;根据所述平均GOP、平均字错误率WER和相关性数值对所述语音评测模型中的声学模型进行性能评估,确定所述声学模型的性能。
优选地,所述根据语音评测模型确定出所述语音测试集的平均GOP,具体包括:
根据语音评测模型确定出所述语音测试集中每条语音的GOP;
根据所述语音测试集中每条语音的GOP确定出所述语音测试集的平均GOP。
优选地,所述根据语音评测模型确定出所述语音测试集中每条语音的GOP,具体包括:
根据所述语音评测模型中的声学模型确定每条语音中每一帧的似然概率;
根据所述每一帧的似然概率确定出所述每条语音的GOP。
优选地,所述根据语音评测模型确定出所述语音测试集的平均字错误率WER,具体包括:
根据语音评测模型确定出所述语音测试集中每条语音的字错误率WER;
根据所述语音测试集中每条语音的字错误率WER确定出所述语音测试集的平均字错误率WER。
优选地,所述根据语音评测模型确定出所述语音测试集中每条语音的字错误率WER,具体包括:
根据所述语音评测模型中的语音模型确定每条语音的文本信息;
根据所述文本信息与所述每条语音的标准文本信息确定所述每条语音的字错误率WER。
优选地,所述根据语音评测模型确定出所述语音测试集的相关性数值,具体包括:
根据语音评测模型确定出所述语音测试集中每条语音的打分;
根据所述语音测试集中每条语音的打分与预先获取所述每条语音的专家打分确定出所述语音测试集的相关性数值。
优选地,所述根据语音评测模型确定出所述语音测试集中每条语音的打分,具体包括:
根据所述语音评测模型中的打分模型确定所述语音测试集中每条语音的打分。
优选地,所述根据所述语音测试集中每条语音的打分与预先获取所述每条语音的专家打分确定出所述语音测试集的相关性数值,具体包括:
确定所述语音测试集中与预先获取的专家打分相同的语音的第一数量;
将所述第一数量与所述语音测试集中全部语音的数量的比值确定为所述语音测试集的相关性数值。
优选地,所述根据所述平均GOP、平均字错误率WER和相关性数值对所述语音评测模型中的声学模型进行性能评估,确定所述声学模型的性能,具体包括:
确定所述平均GOP对应的预先设定的第一权重、所述平均字错误率WER对应的预先设定的第二权重和所述相关性数值对应的预先设定的第三权重;
根据所述平均GOP与所述第一权重、所述平均字错误率WER与所述第二权重、所述相关性数值与所述第三权重确定所述声学模型的性能分数;
根据所述性能分数确定确定所述声学模型的性能。
优选地,所述根据所述平均GOP、平均字错误率WER和相关性数值对所述语音评测模型中的声学模型进行性能评估,确定所述声学模型的性能,具体还包括:
确定所述声学模型的实时率,其中,所述实时率为所述声学模型处理语音的效率;
根据所述平均GOP、平均字错误率WER、相关性数值以及所述实时率对所述语音评测模型中的声学模型进行性能评估,确定所述声学模型的性能。
优选地,所述确定所述声学模型的实时率,具体包括:
确定所述声学模型处理单条语音的实时率;或者,
确定所述声学模型处理并发语音的实时率。
第二方面,本发明实施例提供了一种声学模型性能评估的装置,该装置包括:
获取单元,用于获取语音测试集,其中,所述语音测试集中包括至少一条语音;
确定单元,用于根据语音评测模型确定出所述语音测试集的平均GOP、平均字错误率WER和相关性数值;
评估单元,用于根据所述平均GOP、平均字错误率WER和相关性数值对所述语音评测模型中的声学模型进行性能评估,确定所述声学模型的性能。
优选地,所述确定单元具体用于:
根据语音评测模型确定出所述语音测试集中每条语音的GOP;
根据所述语音测试集中每条语音的GOP确定出所述语音测试集的平均GOP。
优选地,所述确定单元具体用于:
根据所述语音评测模型中的声学模型确定每条语音中每一帧的似然概率;
根据所述每一帧的似然概率确定出所述每条语音的GOP。
优选地,所述确定单元具体用于:
根据语音评测模型确定出所述语音测试集中每条语音的字错误率WER;
根据所述语音测试集中每条语音的字错误率WER确定出所述语音测试集的平均字错误率WER。
优选地,所述确定单元具体用于:
根据所述语音评测模型中的语音模型确定每条语音的文本信息;
根据所述文本信息与所述每条语音的标准文本信息确定所述每条语音的字错误率WER。
优选地,所述确定单元具体用于:
根据语音评测模型确定出所述语音测试集中每条语音的打分;
根据所述语音测试集中每条语音的打分与预先获取所述每条语音的专家打分确定出所述语音测试集的相关性数值。
优选地,所述确定单元具体用于:
根据所述语音评测模型中的打分模型确定所述语音测试集中每条语音的打分。
优选地,所述确定单元具体用于:
确定所述语音测试集中与预先获取的专家打分相同的语音的第一数量;
将所述第一数量与所述语音测试集中全部语音的数量的比值确定为所述语音测试集的相关性数值。
优选地,所述评估单元具体用于:
确定所述平均GOP对应的预先设定的第一权重、所述平均字错误率WER对应的预先设定的第二权重和所述相关性数值对应的预先设定的第三权重;
根据所述平均GOP与所述第一权重、所述平均字错误率WER与所述第二权重、所述相关性数值与所述第三权重确定所述声学模型的性能分数;
根据所述性能分数确定确定所述声学模型的性能。
优选地,所述确定单元具体还用于:
确定所述声学模型的实时率,其中,所述实时率为所述声学模型处理语音的效率;
所述评估单元具体还用于:根据所述平均GOP、平均字错误率WER、相关性数值以及所述实时率对所述语音评测模型中的声学模型进行性能评估,确定所述声学模型的性能。
优选地,所述确定单元具体用于:确定所述声学模型处理单条语音的实时率;或者,
确定所述声学模型处理并发语音的实时率。
第三方面,本发明实施例提供了一种计算机可读存储介质,其上存
储计算机程序指令,所述计算机程序指令在被处理器执行时实现如第一方面或第一方面任一种可能中任一项所述的方法。
第四方面,本发明实施例提供了一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面或第一方面任一种可能中任一项所述的方法。
本发明实施例通过获取语音测试集,其中,所述语音测试集中包括至少一条语音;根据语音评测模型确定出所述语音测试集的平均GOP、平均字错误率WER和相关性数值;根据所述平均GOP、平均字错误率WER和相关性数值对所述语音评测模型中的声学模型进行性能评估,确定所述声学模型的性能。通过上述方法,通过所述平均GOP、平均字错误率WER和相关性数值可以准确的对声学模型的性能进行评估,进而可以选择出性能较佳的声学模型。
附图说明
通过以下参照附图对本发明实施例的描述,本发明的上述以及其它目的、特征和优点将更为清楚,在附图中:
图1是本发明实施例的一种声学模型性能评估的方法流程图;
图2是本发明实施例的一种声学模型性能评估的方法流程图;
图3是本发明实施例的一种声学模型性能评估的方法流程图;
图4是本发明实施例的一种声学模型性能评估的方法流程图;
图5是本发明实施例的一种数据处理流程图;
图6是本发明实施例的一种声学模型性能评估的方法流程图;
图7是本发明实施例的一种声学模型性能评估的装置示意图;
图8是本发明实施例的电子设备的示意图。
具体实施方式
以下基于实施例对本发明公开进行描述,但是本发明公开并不仅仅限于这些实施例。在下文对本发明公开的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明公开。为了避免混淆本发明公开的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。
此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
除非上下文明确要求,否则整个申请文件中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
在本发明公开的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明公开的描述中,除非另有说明,“多个”的含义是两个或两个以上。
语音评测算法是一种按照参考文本发音后,对发音质量进行打分的算法,语音评测算法涉及的主要模型包含声学模型、语音模型和打分模型三个部分,具体的,按照参考文本发音后,计算机利用声学模型作强制对齐,提取表征发音质量的评分特征,通过打分模型基于所述评分特征对发音质量进行评分,通过语音评测算法得到的机器打分通常是百分制分数(即最高分为100分,最低分为0分),语音评测算法是根据特定标准和算法实现,具有很强的客观性。语音评测算法是基于GOP为主要的声学特征来评测发音的好坏,而GOP是根据声学模型计算得到的,因此,声学模型的性能直接影响到语音评测的结果。因此,如何对声学模型的性能进行评估,进而选择出性能较佳的声学模型,是目前需要解决的问题。
本发明实施例中,通过所述平均GOP、平均字错误率WER和相关性数值可以准确的对声学模型的性能进行评估,进而可以选择出性能较佳的声学模型。
本发明实施例中,图1是本发明第一实施例的一种声学模型性能评估的方法流程图。如图1所示,具体包括如下步骤:
步骤S100、获取语音测试集,其中,所述语音测试集中包括至少一条语音。
具体的,所述语音测试集可以包括两个语音测试子集,其中,一个语音测试子集为质量较好的语音测试子集,另一个语音测试子集为质量较差的语音测试子集。在确定质量较好的语音测试子集时,首先获取多个历史语音wav,分别通过语音评测模型确定每个历史语音的打分,确定打分大于设定数值的历史语音,例如,打分大于90分的历史语音,确定为候选历史语音,然后通过语音测评模型中的语音识别模型确定出每条历史wav的文本识别结果,在上述候选历史语音中确定出文本识别结果与标准文本相同的历史语音,将上述文本识别结果与标准文本相同的历史语音组成质量较好的语音测试子集;并且,在上述质量较好的语音测试子集中每个标准文本对应的历史语音不超过设定数量,例如,每个标准文本对应的历史语音不超过5条或10条。基于类似的处理办法,在确定质量较差的语音测试子集时,首先获取多个历史语音wav,分别通过语音评测模型确定每个历史语音的打分,确定打分小于设定数值的历史语音,例如,打分小于20分的历史语音,确定为候选历史语音,然后通过语音测评模型中的语音识别模型确定出每条历史wav的文本识别结果,在上述候选历史语音中确定出文本识别结果与标准文本不一致的比例较高的历史语音,例如,文本识别结果与标准文本不一致的比例高于90%,将上述文本识别结果与标准文本不一致的比例较高的历史语音组成质量较差的语音测试子集;并且,在上述质量较差的语音测试子集中每个标准文本对应的历史语音不超过设定数量,例如,每个标准文本对应的历史语音不超过5条或10条。
本发明实施例中,构建语音测试集的目的在于,当替换语音评测模型中的声学模型之后,若质量较好的语音测试子集的平均GOP(Goodness of Pronunciation,好的发音)的值更高,并且质量较好的语音测试子集的平均GOP的值更低,说明替换的声学模型的性能较之前的声学模型的性能更好。若质量较好的语音测试子集的平均GOP的值更低,并且质量较好的语音测试子集的平均GOP的值更高,说明替换的声学模型的性能较之前的声学模型的性能更差。
步骤S101、根据语音评测模型确定出所述语音测试集的平均GOP、平均字错误率WER和相关性数值。
具体的,对上述步骤S101中确定平均GOP、平均字错误率WER和相关性数值分别通过以下三个具体实施例进行说明。
具体实施例一、所述根据语音评测模型确定出所述语音测试集的平均GOP。
具体的过程如图2所示,包括以下步骤:
步骤S200、根据语音评测模型确定出所述语音测试集中每条语音的GOP。
其中,根据所述语音评测模型中的声学模型确定每条语音中每一帧的似然概率;根据所述每一帧的似然概率确定出所述每条语音的GOP。
具体的,通过声学模型把语音与对应的标准文本信息进行强制对齐,确定每一帧的似然概率,进一步的确定每条语音wav的第一似然分数值,已经没有标准文本信息的情况下估计的第二似然分数值,将第一似然分数值与第二似然分数值进行比较,确定似然比,根据所述似然比确定每条语音的GOP,GOP也可以称为目标发音特征,GOP的公式如下:
Figure SMS_1
其中,
Figure SMS_2
为目标发音特征,/>
Figure SMS_3
表示音素p发音成对应发音段的概率,/>
Figure SMS_4
表示因素p出现的概率,/>
Figure SMS_5
表示为音素q发音成对应发音段的概率,/>
Figure SMS_6
为音素q出现的概率,Q表示所有音素,NF(p)表示音素p的帧数。
具体的,在数据处理的角度,根据声学模型生成解码图文件(HCLG.fst),将HCLG.fst、声学模型和决策树tree更新至到语音测评服务的代码中,将语音测试集至设定的格式(例如,调用的代码+端口+wav地址+wav文本的格式),启动语音评测服务,得到每条语音wav中每个音素的GOP分数,然后求得每条语音wav中各个音素GOP分数的平均分,即得到每条wav的GOP分数。其中,所述语音评测服务通过语音测评模型实现的。
步骤S201、根据所述语音测试集中每条语音的GOP确定出所述语音测试集的平均GOP。
具体的,假设选择语音测试集中质量较好的语音测试子集,所述语音测试子集中包括10条语音wav,通过上述步骤S200确定出每条语音的GOP分数,进而确定出10条语音wav的平均GOP分数。
假设,存在10个声学模型,每个声学模型都按上述方式进行处理,则每个声学模型都对应一个平均GOP分数,具体如表1所示:
Figure SMS_7
其中,上述表1中的平均GOP分数是归一化处理后的百分之分数。
进一步的,不同的测试集,同样的声学模型得到的平均GOP分数也不同,在此不再举例,具体根据实际情况确定。
具体实施例二、所述根据语音评测模型确定出所述语音测试集的平均字错误率WER。
具体的过程如图3所示,包括以下步骤:
步骤S300、根据语音评测模型确定出所述语音测试集中每条语音的字错误率WER。
具体的,根据所述语音评测模型中的语音模型确定每条语音的文本信息;根据所述文本信息与所述每条语音的标准文本信息确定所述每条语音的字错误率WER。
本发明实施例中,为了使识别出来的每条语音的文本信息与标准文本信息保持一致,需要进行替换、删除或者插入某些词,这些插入、替换或删除的字/词的总个数,除以标准文本信息中字/词的总个数的百分比,即为字/词错误率WER。具体公式如下:
Figure SMS_8
其中,S表示替换字/词数目,D表示删除字/词数目,I表示插入字/词数目,N表示总字/词数目。
步骤S301、根据所述语音测试集中每条语音的字错误率WER确定出所述语音测试集的平均字错误率WER。
具体的,假设选择语音测试集中质量较好的语音测试子集,所述语音测试子集中包括10条语音wav,通过上述步骤S200确定出每条语音的字错误率WER,进而确定出10条语音wav的平均字错误率WER。
可选的,也可以选择质量较差的语音测试子集,对此不做限定。
具体实施例三、所述根据语音评测模型确定出所述语音测试集的相关性数值。
具体的过程如图4所示,包括以下步骤:
步骤S400、根据语音评测模型确定出所述语音测试集中每条语音的打分。
具体的,根据所述语音评测模型中的打分模型确定所述语音测试集中每条语音的打分。
步骤S401、根据所述语音测试集中每条语音的打分与预先获取所述每条语音的专家打分确定出所述语音测试集的相关性数值。
具体的,确定所述语音测试集中与预先获取的专家打分相同的语音的第一数量;将所述第一数量与所述语音测试集中全部语音的数量的比值确定为所述语音测试集的相关性数值。
举例说明,假设语音测试集存在1000条语音,其中,800条语音通过打分模型得到的打分与专家打分相同,则所述语音测试集的相关性数值等于800/1000=0.8。
本发明实施例中,计算相关性时,采用皮尔森系数进行计算,也可以采用其他计算方式,本发明实施例对其不做限定。
步骤S102、根据所述平均GOP、平均字错误率WER和相关性数值对所述语音评测模型中的声学模型进行性能评估,确定所述声学模型的性能。
具体的,确定所述平均GOP对应的预先设定的第一权重、所述平均字错误率WER对应的预先设定的第二权重和所述相关性数值对应的预先设定的第三权重;根据所述平均GOP与所述第一权重、所述平均字错误率WER与所述第二权重、所述相关性数值与所述第三权重确定所述声学模型的性能分数;根据所述性能分数确定确定所述声学模型的性能。
举例说明,假设第一权重为0.6,第二权重为0.2,第三权重为0.2,平均GOP、平均字错误率WER和相关性都是百分制数值,非百分制数据值的先进行百分制转换,然后得到所述平均GOP与所述第一权重的第一乘积、所述平均字错误率WER与所述第二权重的第二乘积、所述相关性数值与所述第三权重的第三乘积,将上述第一乘积、第二乘积和第三乘积相加,确定出的和值为所述声学模型的性能分数。
可选的,根据所述性能分数判断所述声学模型的性能,也可以根据不同声学模型对应的分数将不同的声学模型的性能进行比较,性能分数较高的声学模型的性能较好,声学模型较低的声学模型性能较差。
本发明实施例中,所述相关性实际上表征的是语音评测模型整体性能的好坏,用相关性评价声学模型的好坏具有一定的误差,但声学模型的好坏会应该还有语音测评模型的整体性能,语音评测的流程如下图5所示。具体流程如下:输入语音,对输入的语音进行特征提取,将提取到的特征输入到声学模型中,得到似然概率,将似然概率与语言属入到语音模型中,输出WER,然后计算评测特征,所述评测特征包括但不限于GOP、WER等,将所述评测特征输入到打分模型中,输出语音的打分,通过打分进行相关性计算;其中,声学模型作为最耗时且最重要的部分,对后续的语音评测模型整体性能具有直接的影响。因此,可以保持语音模型和打分模型不变的前提下,通过改变声学模型,查看相关性的变化,从而得到对声学模型的评价。并且通过平均GOP、平均字错误率WER和相关性数值共同对声学模型的性能进行判断,可以提高判断的准确性。
本发明实施例中,除了上述平均GOP、平均字错误率WER和相关性数值对所述语音评测模型中的声学模型进行性能评估之外,影响声学模型性能的指标还包括所述声学模型的实时率,具体的处理步骤如图6所示:
步骤S600、确定所述声学模型的实时率,其中,所述实时率为所述声学模型处理语音的效率。
具体的,确定所述声学模型处理单条语音的实时率;或者,确定所述声学模型处理并发语音的实时率。
本发明实施例中,计算单条语音的实时率和计算并发语音的实时率的测试流程如下:首先进入语音评测服务,修改更新声学模型、决策树tree 以及基于声学模型生成的解码图文件HCLG.fst,(解码图);然后准备压测文本列表,需包含语音wav的地址(具体的,通过wav的地址获取wav)和标准文本信息,接着运行计算程序,得到全部语音测试集合通过声学模型进行处理所需要的时间,并计算实时率RT。例如,1000条wav,语音的总时长为50分钟,处理上述1000条语音的总耗时为5分钟,则实时率=总耗时/总时长,即100ms。
步骤S601、根据所述平均GOP、平均字错误率WER、相关性数值以及所述实时率对所述语音评测模型中的声学模型进行性能评估,确定所述声学模型的性能。
具体的,可以在实时率满足一定条件的情况下,再通过三个指标确定声学模型的性能。例如,三个声学模型,其中两个的实时率较好,第三个的实时率较差,首先确定第三个声学模型的性能较差,然后在通过平均GOP、平均字错误率WER和相关性数值进一步确定第一个声学模型和第二个声学模型之间的关系。
本发明实时率中,声学模型的可以采用多种网络结构,例如,卷积神经网络(Convolutional Neural Networks,CNN),深度神经网络(Deep Neural Networks,DNN)、CNN+时延神经网络(TDNN)+ 长短期记忆神经网络(Lstm)的组合等等,经过验证,当选择CNN+TDNN+Lstm网络结构时,声学模型的实时性得到了较大的提升,因此可以采用CNN+TDNN+Lstm网络结构。
本发明实施例中,在语音测试集选择的过程中,也可以适度增加变速变音量以及含噪声数据,可一定程度上提高声学模型的性能和鲁棒。
图7是本发明实施例的一种声学模型性能评估的装置示意图。如图7所示,本实施例的装置包括获取单元701、确定单元702和评估单元703。
其中,获取单元701,用于获取语音测试集,其中,所述语音测试集中包括至少一条语音;确定单元702,用于根据语音评测模型确定出所述语音测试集的平均GOP、平均字错误率WER和相关性数值;评估单元703,用于根据所述平均GOP、平均字错误率WER和相关性数值对所述语音评测模型中的声学模型进行性能评估,确定所述声学模型的性能。
通过上述方法,获取语音测试集,其中,所述语音测试集中包括至少一条语音;根据语音评测模型确定出所述语音测试集的平均GOP、平均字错误率WER和相关性数值;根据所述平均GOP、平均字错误率WER和相关性数值对所述语音评测模型中的声学模型进行性能评估,确定所述声学模型的性能。通过上述方法,通过所述平均GOP、平均字错误率WER和相关性数值可以准确的对声学模型的性能进行评估,进而可以选择出性能较佳的声学模型。
图8是本发明实施例的电子设备的示意图。图8所示的电子设备为通用声学模型性能评估装置,其包括通用的计算机硬件结构,其至少包括处理器81和存储器82。处理器81和存储器82通过总线83连接。存储器82适于存储处理器81可执行的指令或程序。处理器81可以是独立的微处理器,也可以是一个或者多个微处理器集合。由此,处理器81通过执行存储器82所存储的指令,从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其它装置的控制。总线83将上述多个组件连接在一起,同时将上述组件连接到显示控制器84和显示装置以及输入/输出(I/O)装置85。输入/输出(I/O)装置85可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地,输入/输出装置85通过输入/输出(I/O)控制器86与系统相连。
如本领域技术人员将意识到的,本发明实施例的各个方面可以被实现为系统、方法或计算机程序产品。因此,本发明实施例的各个方面可以采取如下形式:完全硬件实施方式、完全软件实施方式(包括固件、常驻软件、微代码等)或者在本文中通常可以都称为“电路”、“模块”或“系统”的将软件方面与硬件方面相结合的实施方式。此外,本发明实施例的各个方面可以采取如下形式:在一个或多个计算机可读介质中实现的计算机程序产品,计算机可读介质具有在其上实现的计算机可读程序代码。
可以利用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是如(但不限于)电子的、磁的、光学的、电磁的、红外的或半导体系统、设备或装置,或者前述的任意适当的组合。计算机可读存储介质的更具体的示例(非穷尽列举)将包括以下各项:具有一根或多根电线的电气连接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪速存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光存储装置、磁存储装置或前述的任意适当的组合。在本发明实施例的上下文中,计算机可读存储介质可以为能够包含或存储由指令执行系统、设备或装置使用的程序或结合指令执行系统、设备或装置使用的程序的任意有形介质。
计算机可读信号介质可以包括传播的数据信号,所述传播的数据信号具有在其中如在基带中或作为载波的一部分实现的计算机可读程序代码。这样的传播的信号可以采用多种形式中的任何形式,包括但不限于:电磁的、光学的或其任何适当的组合。计算机可读信号介质可以是以下任意计算机可读介质:不是计算机可读存储介质,并且可以对由指令执行系统、设备或装置使用的或结合指令执行系统、设备或装置使用的程序进行通信、传播或传输。
可以使用包括但不限于无线、有线、光纤电缆、RF等或前述的任意适当组合的任意合适的介质来传送实现在计算机可读介质上的程序代码。
用于执行针对本发明实施例各方面的操作的计算机程序代码可以以一种或多种编程语言的任意组合来编写,所述编程语言包括:面向对象的编程语言如Java、Smalltalk、C++等;以及常规过程编程语言如“C”编程语言或类似的编程语言。程序代码可以作为独立软件包完全地在用户计算机上、部分地在用户计算机上执行;部分地在用户计算机上且部分地在远程计算机上执行;或者完全地在远程计算机或服务器上执行。在后一种情况下,可以将远程计算机通过包括局域网(LAN)或广域网(WAN)的任意类型的网络连接至用户计算机,或者可以与外部计算机进行连接(例如通过使用因特网服务供应商的因特网)。
上述根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图图例和/或框图描述了本发明实施例的各个方面。将要理解的是,流程图图例和/或框图的每个块以及流程图图例和/或框图中的块的组合可以由计算机程序指令来实现。这些计算机程序指令可以被提供至通用计算机、专用计算机或其它可编程数据处理设备的处理器,以产生机器,使得(经由计算机或其它可编程数据处理设备的处理器执行的)指令创建用于实现流程图和/或框图块或块中指定的功能/动作的装置。
还可以将这些计算机程序指令存储在可以指导计算机、其它可编程数据处理设备或其它装置以特定方式运行的计算机可读介质中,使得在计算机可读介质中存储的指令产生包括实现在流程图和/或框图块或块中指定的功能/动作的指令的制品。
计算机程序指令还可以被加载至计算机、其它可编程数据处理设备或其它装置上,以使在计算机、其它可编程设备或其它装置上执行一系列可操作步骤来产生计算机实现的过程,使得在计算机或其它可编程设备上执行的指令提供用于实现在流程图和/或框图块或块中指定的功能/动作的过程。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (13)

1.一种声学模型性能评估的方法,其特征在于,该方法包括:
获取语音测试集,其中,所述语音测试集中包括至少一条语音;
根据语音评测模型确定出所述语音测试集的平均GOP、平均字错误率WER和相关性数值,其中,所述平均GOP为所述语音测试集中每条语音的GOP的平均值,所述平均字错误率WER为所述语音测试集中每条语音的WER的平均值,所述相关性数值根据所述语音测试集中每条语音的打分确定;
根据所述平均GOP、平均字错误率WER和相关性数值对所述语音评测模型中的声学模型进行性能评估,确定所述声学模型的性能;
其中,所述根据所述平均GOP、平均字错误率WER和相关性数值对所述语音评测模型中的声学模型进行性能评估,确定所述声学模型的性能,具体包括:
确定所述平均GOP对应的预先设定的第一权重、所述平均字错误率WER对应的预先设定的第二权重和所述相关性数值对应的预先设定的第三权重;
根据所述平均GOP与所述第一权重、所述平均字错误率WER与所述第二权重、所述相关性数值与所述第三权重确定所述声学模型的性能分数;
根据所述性能分数确定所述声学模型的性能。
2.权利要求1所述的方法,其特征在于,所述根据语音评测模型确定出所述语音测试集的平均GOP,具体包括:
根据语音评测模型确定出所述语音测试集中每条语音的GOP;
根据所述语音测试集中每条语音的GOP确定出所述语音测试集的平均GOP。
3.权利要求2所述的方法,其特征在于,所述根据语音评测模型确定出所述语音测试集中每条语音的GOP,具体包括:
根据所述语音评测模型中的声学模型确定每条语音中每一帧的似然概率;
根据所述每一帧的似然概率确定出所述每条语音的GOP。
4.权利要求1所述的方法,其特征在于,所述根据语音评测模型确定出所述语音测试集的平均字错误率WER,具体包括:
根据语音评测模型确定出所述语音测试集中每条语音的字错误率WER;
根据所述语音测试集中每条语音的字错误率WER确定出所述语音测试集的平均字错误率WER。
5.权利要求4所述的方法,其特征在于,所述根据语音评测模型确定出所述语音测试集中每条语音的字错误率WER,具体包括:
根据所述语音评测模型中的语音模型确定每条语音的文本信息;
根据所述文本信息与所述每条语音的标准文本信息确定所述每条语音的字错误率WER。
6.权利要求1所述的方法,其特征在于,所述根据语音评测模型确定出所述语音测试集的相关性数值,具体包括:
根据语音评测模型确定出所述语音测试集中每条语音的打分;
根据所述语音测试集中每条语音的打分与预先获取所述每条语音的专家打分确定出所述语音测试集的相关性数值。
7.权利要求6所述的方法,其特征在于,所述根据语音评测模型确定出所述语音测试集中每条语音的打分,具体包括:
根据所述语音评测模型中的打分模型确定所述语音测试集中每条语音的打分。
8.权利要求6所述的方法,其特征在于,所述根据所述语音测试集中每条语音的打分与预先获取所述每条语音的专家打分确定出所述语音测试集的相关性数值,具体包括:
确定所述语音测试集中与预先获取的专家打分相同的语音的第一数量;
将所述第一数量与所述语音测试集中全部语音的数量的比值确定为所述语音测试集的相关性数值。
9.权利要求1所述的方法,其特征在于,所述根据所述平均GOP、平均字错误率WER和相关性数值对所述语音评测模型中的声学模型进行性能评估,确定所述声学模型的性能,具体还包括:
确定所述声学模型的实时率,其中,所述实时率为所述声学模型处理语音的效率;
根据所述平均GOP、平均字错误率WER、相关性数值以及所述实时率对所述语音评测模型中的声学模型进行性能评估,确定所述声学模型的性能。
10.权利要求1所述的方法,其特征在于,所述确定所述声学模型的实时率,具体包括:
确定所述声学模型处理单条语音的实时率;或者,
确定所述声学模型处理并发语音的实时率。
11.一种声学模型性能评估的装置,其特征在于,该装置包括:
获取单元,用于获取语音测试集,其中,所述语音测试集中包括至少一条语音;
确定单元,用于根据语音评测模型确定出所述语音测试集的平均GOP、平均字错误率WER和相关性数值,其中,所述平均GOP为所述语音测试集中每条语音的GOP的平均值,所述平均字错误率WER为所述语音测试集中每条语音的WER的平均值,所述相关性数值根据所述语音测试集中每条语音的打分确定;
评估单元,用于根据所述平均GOP、平均字错误率WER和相关性数值对所述语音评测模型中的声学模型进行性能评估,确定所述声学模型的性能;
其中,所述评估单元具体用于:
确定所述平均GOP对应的预先设定的第一权重、所述平均字错误率WER对应的预先设定的第二权重和所述相关性数值对应的预先设定的第三权重;
根据所述平均GOP与所述第一权重、所述平均字错误率WER与所述第二权重、所述相关性数值与所述第三权重确定所述声学模型的性能分数;
根据所述性能分数确定所述声学模型的性能。
12.一种计算机可读存储介质,其上存储计算机程序指令,其特征在于,所述计算机程序指令在被处理器执行时实现如权利要求1-10中任一项所述的方法。
13.一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-10任一项所述的方法。
CN202110553971.9A 2021-05-20 2021-05-20 一种声学模型性能评估的方法、装置和电子设备 Active CN113299278B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110553971.9A CN113299278B (zh) 2021-05-20 2021-05-20 一种声学模型性能评估的方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110553971.9A CN113299278B (zh) 2021-05-20 2021-05-20 一种声学模型性能评估的方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN113299278A CN113299278A (zh) 2021-08-24
CN113299278B true CN113299278B (zh) 2023-06-13

Family

ID=77323274

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110553971.9A Active CN113299278B (zh) 2021-05-20 2021-05-20 一种声学模型性能评估的方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN113299278B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113782059B (zh) * 2021-09-24 2024-03-22 苏州声通信息科技有限公司 乐器音频评测方法及装置、非瞬时性存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101727903B (zh) * 2008-10-29 2011-10-19 中国科学院自动化研究所 基于多特征和多系统融合的发音质量评估和错误检测方法
US8392190B2 (en) * 2008-12-01 2013-03-05 Educational Testing Service Systems and methods for assessment of non-native spontaneous speech
US11568761B2 (en) * 2017-09-26 2023-01-31 Nippon Telegraph And Telephone Corporation Pronunciation error detection apparatus, pronunciation error detection method and program
CN108364634A (zh) * 2018-03-05 2018-08-03 苏州声通信息科技有限公司 基于深度神经网络后验概率算法的口语发音评测方法
CN109545243B (zh) * 2019-01-23 2022-09-02 北京猎户星空科技有限公司 发音质量评价方法、装置、电子设备及存储介质
CN110782921B (zh) * 2019-09-19 2023-09-22 腾讯科技(深圳)有限公司 语音测评方法和装置、存储介质及电子装置
CN110648690B (zh) * 2019-09-26 2020-12-15 广州三人行壹佰教育科技有限公司 一种音频评测方法及服务器
CN110930988B (zh) * 2019-12-13 2020-10-20 广州三人行壹佰教育科技有限公司 一种音素评分的确定方法及系统
CN112562723B (zh) * 2020-11-30 2022-08-19 腾讯科技(深圳)有限公司 发音准确度确定方法、装置、存储介质和电子设备

Also Published As

Publication number Publication date
CN113299278A (zh) 2021-08-24

Similar Documents

Publication Publication Date Title
CN106683680B (zh) 说话人识别方法及装置、计算机设备及计算机可读介质
WO2021174757A1 (zh) 语音情绪识别方法、装置、电子设备及计算机可读存储介质
JP5459214B2 (ja) 言語モデル作成装置、言語モデル作成方法、音声認識装置、音声認識方法、プログラム、および記録媒体
CN103559881B (zh) 语种无关的关键词识别方法及系统
EP2410514A2 (en) Speaker authentication
US9601110B2 (en) Unsupervised training method for an N-gram language model based upon recognition reliability
US20100114572A1 (en) Speaker selecting device, speaker adaptive model creating device, speaker selecting method, speaker selecting program, and speaker adaptive model making program
JP2012037619A (ja) 話者適応化装置、話者適応化方法および話者適応化用プログラム
CN110853628A (zh) 一种模型训练方法、装置、电子设备及存储介质
US9905224B2 (en) System and method for automatic language model generation
US11183180B2 (en) Speech recognition apparatus, speech recognition method, and a recording medium performing a suppression process for categories of noise
US20130191129A1 (en) Information Processing Device, Large Vocabulary Continuous Speech Recognition Method, and Program
US11082369B1 (en) Domain-specific chatbot utterance collection
US20110161084A1 (en) Apparatus, method and system for generating threshold for utterance verification
JP6875819B2 (ja) 音響モデル入力データの正規化装置及び方法と、音声認識装置
JP2020187340A (ja) 音声認識方法及び装置
CN111326177B (zh) 一种语音评测方法、电子设备及计算机可读存储介质
CN113299278B (zh) 一种声学模型性能评估的方法、装置和电子设备
CN114783424A (zh) 文本语料筛选方法、装置、设备及存储介质
CN111554270B (zh) 训练样本筛选方法及电子设备
CN110708619B (zh) 一种智能设备的词向量训练方法及装置
CN114141236B (zh) 语言模型更新方法、装置、电子设备及存储介质
KR101892736B1 (ko) 실시간 단어별 지속시간 모델링을 이용한 발화검증 장치 및 방법
CN111048098B (zh) 语音校正系统及语音校正方法
CN114678040B (zh) 语音一致性检测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant