CN117238321A

CN117238321A - 语音综合评估方法、装置、设备及存储介质

Info

Publication number: CN117238321A
Application number: CN202311464948.8A
Authority: CN
Inventors: 卢隆庆; 傅海峰; 张国勋; 刘朗
Original assignee: Shenzhen Miaoyu Education Technology Co ltd
Current assignee: Shenzhen Miaoyu Education Technology Co ltd
Priority date: 2023-11-07
Filing date: 2023-11-07
Publication date: 2023-12-15

Abstract

本发明涉及数据处理技术领域，公开了一种语音综合评估方法、装置、设备及存储介质。所述语音综合评估方法包括：获取待评估的多种目标语音；基于各个所述目标语音分别对应的评估模式，通过语音评估API对各个所述目标语音进行评估，得到各个目标语音在对应的评估模式下的各项评估分值；对各个目标语音在对应的评估模式下的所述各项评估分值进行加权计算，得到各个目标语音在对应的评估模式下的评估结果；将所述评估结果所关联的目标语音传输至云端服务器；其中，所述云端服务器用于存储所述评估结果所关联的目标语音，以及利用物联网通信技术将存储的所述目标语音传输至语言评估平台。

Description

语音综合评估方法、装置、设备及存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种语音综合评估方法、装置、设备及存储介质。

背景技术

当前语音识别和测评领域正迅速发展，随着智能设备的普及以及人工智能技术的不断进步，人们越来越注重提高自己的语言表达能力和发音准确度。然而，在现有的技术中，多数语音识别和测评系统并未采用综合性和准确度兼备的评价方法，通过简单的识别和评分很难有效参考和改进学习者的发音能力。

具体技术问题如下：

传统语音测评方法中对时间得分、字数得分、关键字得分的综合性不足，可能导致评估结果的不准确。

在背诵场景中，缺乏一种能有效衡量语音质量的评估方法，以提高学习者对背诵内容的准确理解。

在讲解场景中，传统评价方法没有提供对普通话发音得分以及关键字得分的足够关注，因此在实际应用中可能效果不佳。

因此，有必要采用一种综合性较强的语音评价方法充分解决这些技术问题。

发明内容

本发明提供了一种语音综合评估方法、装置、设备及存储介质，用于解决上述提到的技术问题。

本发明第一方面提供了一种语音综合评估方法，所述语音综合评估方法包括：

获取待评估的多种目标语音；基于各个所述目标语音分别对应的评估模式，通过语音评估API对各个所述目标语音进行评估，得到各个目标语音在对应的评估模式下的各项评估分值；对各个目标语音在对应的评估模式下的所述各项评估分值进行加权计算，得到各个目标语音在对应的评估模式下的评估结果；将所述评估结果所关联的目标语音传输至云端服务器；其中，所述云端服务器用于存储所述评估结果所关联的目标语音，以及利用物联网通信技术将存储的所述目标语音传输至语言评估平台。

可选的，在本发明第一方面的第一种实现方式中，所述基于各个所述目标语音分别对应的评估模式，通过语音评估API对各个所述目标语音进行评估，包括：

在语音讲解模式，通过语音评估API对目标语音进行文字转换，并根据设定的打分规则，对所述目标语音进行时长、字数、普通话发音和关键字得分的评估；

在语言测评模式和语言背诵模式，通过语音评估 API 对目标语音进行完整度分、流畅度分、声韵分和调型分的评估。

可选的，在本发明第一方面的第二种实现方式中，所述对目标语音进行流畅度分的评估，包括：

针对目标语音进行解码识别，得到语言识别结果；

根据识别结果统计出语音识别结果中每个音素对应的帧数，得到音素总个数以及所有音素的持续时间；

利用统计的音素总个数与所有音素的持续时间的比值得到语速特征，

根据所述语速特征对所述目标语音的流畅度分进行评估。

可选的，在本发明第一方面的第三种实现方式中，所述对目标语音进行普通话发音的评估包括：

针对目标语音进行解码识别，得到识别结果；

将识别结果与正确文本进行强制对齐，计算每个音素的强制对齐得分；

构建单音素解码模型并解码每个音素，计算每个音素的最大似然得分；

利用强制对齐得分与最大似然得分的差值得到发音准确度方向的特征；

根据所述发音准确度方向的特征对所述目标语音的普通话发音进行评估。

可选的，在本发明第一方面的第四种实现方式中，所述对目标语音进行完整度分的评估，包括：

针对所述目标语音进行解码识别，得到识别结果；

分别求出识别结果中的每一个句子和标准答案中的每一个句子的语法结构相似度得分，取识别结果中每一个句子语法结构相似度得分最大值作为这个句子的语法结构相似度得分；

通过对识别结果中每一个句子语法结构相似度得分加权平均计算目标语音和标准答案之间的语法结构相似度特征；

根据所述语法结构相似度特征对对目标语音进行完整度分的评估。

可选的，在本发明第一方面的第五种实现方式中，所述利用物联网通信技术将存储的所述目标语音传输至语言评估平台，包括：

将所述目标语音进行编码和封装，转换为物联网通信协议支持的格式，得到符合传输要求的数据包；

根据TCP 网络协议将所述数据包以无线传输的方式传输至语言评估平台。

本发明第二方面提供了一种语音综合评估装置，所述语音综合评估装置包括：

获取模块，用于获取待评估的多种目标语音；

第一评估模块，用于基于各个所述目标语音分别对应的评估模式，通过语音评估API对各个所述目标语音进行评估，得到各个目标语音在对应的评估模式下的各项评估分值；

第二评估模块，用于对各个目标语音在对应的评估模式下的所述各项评估分值进行加权计算，得到各个目标语音在对应的评估模式下的评估结果；

传输模块，用于将所述评估结果所关联的目标语音传输至云端服务器；其中，所述云端服务器用于存储所述评估结果所关联的目标语音，以及利用物联网通信技术将存储的所述目标语音传输至语言评估平台。

本发明第三方面提供了一种语音综合评估设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述语音综合评估设备执行上述的语音综合评估方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的语音综合评估方法。

本发明提供的技术方案中，有益效果：本发明提供一种语音综合评估方法、装置、设备及存储介质，通过获取待评估的多种目标语音；并基于各个所述目标语音分别对应的评估模式，通过语音评估API对各个所述目标语音进行评估，得到各个目标语音在对应的评估模式下的各项评估分值；再对各个目标语音在对应的评估模式下的所述各项评估分值进行加权计算，得到各个目标语音在对应的评估模式下的评估结果；最后将所述评估结果所关联的目标语音传输至云端服务器；其中，所述云端服务器用于存储所述评估结果所关联的目标语音，以及利用物联网通信技术将存储的所述目标语音传输至语言评估平台。本发明通过考虑时间得分、字数得分、关键字得分和普通话发音得分，提高了测评质量，并且利用语音评估API对背诵内容进行评估，帮助学习者更好地掌握内容，同时满足了测评、背诵和讲解等不同需求，实现高度自定义评估。

附图说明

图1为本发明实施例中语音综合评估方法的一个实施例示意图；

图2为本发明实施例中语音综合评估装置的一个实施例示意图。

具体实施方式

本发明实施例提供了一种语音综合评估方法、装置、设备及存储介质。本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中语音综合评估方法的一个实施例包括：

步骤101、获取待评估的多种目标语音；

具体的，所述多种目标语言包括待测评语音、待背诵语音、讲解内容的语音。

首先，本实施例通过语音合成技术来收集合成多种所述目标语言，集体的语言合成技术的步骤如下：

a. 参数化语音合成：通过收集大量的语音数据，训练模型以学习并预测文本和语音参数之间的关系，从而生成目标语音。 b. 非参数化语音合成：这种方法涉及从现有语音库中选择适当的音素片段拼接生成目标语音，例如使用语音合成标记语言（SSML）。

在合成目标语音后，通过语者特征提取方法对用户的特征进行分析：如下是本发明实施例采用的语者特征提取方法：

a. 基于GMM（高斯混合模型）的语者特征提取：这种方法通过训练GMM来建立独立的语者模型并进行聚类分析。b. 基于深度学习的语者特征提取：这种方法利用深度学习技术（如CNN、RNN等）来学习和提取更高层次的语者特征。

在获取到目标语音以及提取到用户的特征后，再对目标语音进行转换：

本发明实施例主要采取如下方法对目标语音进行转换，包括：

a. 基于频谱映射的语音转换：这种方法涉及将源发音者的语音频谱模式映射到目标发声者的语音频谱模式上。 b. 基于深度学习的语音转换：例如使用sequence-to-sequence模型进行端到端的语音转换。

针对语音转换过程中遇到的问题，例如目标语音的多语言和多发音问题，本发明实施例采用如下方法进行解决： a. 使用发音字典：为每种语言和方言创建详细的发音字典，以在语音合成过程中生成准确的发音。 b. 在线发音学习和适应：使用在线学习技术使模型能够实时地学习和适应新的语言和发音样式。

在得到多种目标语音后，将建立语音样本数据库，以收集大量语音样本，确保再次获取的目标语音的多样性，其中，主要运用的方法包括：a. 创建多样性声音数据库：可以从各种不同的来源（如广播、讲座、电话、音频书籍等）收集大量语音样本，并确保样本的多样性。 b. 数据花式增强：使用数据增强技术（如音量调整、添加噪声、调整语速等），使数据库中的语音样本更具代表性。

最后，通过人工智能和深度学习的算法对目标语音的语音特征进行提取，训练对应的算法模型，其中，本发明实施例主要通过如下方法实现： a. 利用卷积神经网络（CNN）进行语音特征提取，以捕捉上下文相关信息。 b. 使用长短时记忆网络（LSTM）和循环神经网络（RNN）进行时序信息建模，从而提高目标语音的流畅性和连贯性。

可以理解的是，本发明的执行主体可以为语音综合评估装置，还可以是终端或者服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

102、基于各个所述目标语音分别对应的评估模式，通过语音评估API对各个所述目标语音进行评估，得到各个目标语音在对应的评估模式下的各项评估分值；

具体的，对于读背诵产生的目标语音的评估模式，利用语音评估API中的语音测评接口进行打分，根据所述接口返回的参数中的各项评估分值，进行分别的权重打分。

在用户读背诵产生的目标语音的评估模式下，各项评估分值类型包括：完整度分（integrity_score）、流畅度分（fluency_score）、声韵分（phone_score）、调型分（tone_score），满分100。

在用户讲解产生的目标语音的评估模式下，各项评估分值类型有：时间得分（占比25%），字数得分（占比10%），关键字得分（45%），根据读声韵分从而获得的普通话发音得分（占比20%）。

103、对各个目标语音在对应的评估模式下的所述各项评估分值进行加权计算，得到各个目标语音在对应的评估模式下的评估结果；

具体的，在用户读背诵产生的目标语音的评估模式下，评估结果的自定义分的计算方式如下：

读自定义分 = 流畅度*0.4+ 完整度*0.4 + 声韵*0.1+ 调型*0.1；

背自定义分 = 流畅度*0.1+ 完整度*0.5 + 声韵*0.2+ 调型*0.2；

诵自定义分 = 流畅度*0.4+ 完整度*0.5 + 声韵*0.05+ 调型*0.05；

在用户讲解产生的目标语音的评估模式下，评估结果的自定义分的计算方式如下：

时间得分：在规定字数的±80%得满分,多或少于±80%的5%(规定字数的5%)扣一分；如未达到规定字数的30%，给予5分的最低分；如未作答则得0分。

字数得分:在规定时间的±80%得满分，多或少于±80%的10%(规定字数的10%)扣一分；如未达到规定字数的30%，给予3分的最低分；如未作答则得0分。

普通话发音得分：如读未做，给予最低得分10分，反之读声韵分*20%，如不超过10则给10分。

关键字得分：清声妙语会设定一些关键字选项，在语音识别的文本中查找,从而进行相应的打分，关键字分为主题关键字(占比讲整体总分15%)、内容关键字（占比25%）、顺序关键字（占比5%）。

<1>主题关键字:只有一个关键词的，作答包含关键词得满分；有多个关键词，作答包含其中任何一个，得5分。每多答对一个加（关键词个数-1）/10分；无关键词的情况下：5分+(时间得分+字数得分)/35*10。

<2>内容关键字:只有一个关键词的，作答包含关键词得满分；有多个关键词，作答包含其中任何一个，得10分。每多答对一个加（关键词个数-1）/15分；无关键词的情况下：10分+(时间得分+字数得分)/35*15。

<3>顺序关键字:有设定关键词并答出关键词，且顺序没错，满分；无关键词的情况下2分+(时间得分+字数得分)/35*3。

104、将所述评估结果所关联的目标语音传输至云端服务器；其中，所述云端服务器用于存储所述评估结果所关联的目标语音，以及利用物联网通信技术将存储的所述目标语音传输至语言评估平台。

具体的，在这个步骤中，目标语音经过评估后将被传输至云端服务器。云端服务器负责存储这些评估结果关联的目标语音，并利用物联网（IoT）通信技术将存储的目标语音传输至语言评估平台。在这个过程中，本发明实施例运用了如下的方法以实现目标语音的传输和存储，首先，使用无损压缩算法（如FLAC、ALAC等）以保留音频文件的原始质量。在传输过程中，采用安全加密传输，包括： a. 身份验证：使用双向认证技术确保数据发送和接收方的身份，避免非法访问和操作。 b. 数据完整性验证：利用数字签名和摘要算法确保传输数据未遭到篡改。

为了能随时调用语音样本，需要进行实时语音转写，本发明实施例主要采用如下的技术实现： a. 自动语音识别（ASR）技术：运用深度学习模型将目标语音实时转换为可以查找和处理的文本。 b. 实时语音翻译技术：如有必要，可以同时将目标语音实时翻译成其他语言，以方便全球范围内的评估和操作。

最后，采用智能调度与缓存目标语音，本发明实施例通过如下实施方法，包括：

a. 基于人工智能的调度算法：利用神经网络和强化学习等AI技术为评估任务动态分配资源，使云端服务器能够更高效地处理大量的目标语音。 b. 分布式存储与缓存：采用分布式存储技术，跨多个数据中心存储和缓存目标语音，进一步提高数据传输速度和降低延迟。

本发明实施例中，有益效果：本发明提供一种语音综合评估方法，通过获取待评估的多种目标语音；并基于各个所述目标语音分别对应的评估模式，通过语音评估API对各个所述目标语音进行评估，得到各个目标语音在对应的评估模式下的各项评估分值；再对各个目标语音在对应的评估模式下的所述各项评估分值进行加权计算，得到各个目标语音在对应的评估模式下的评估结果；最后将所述评估结果所关联的目标语音传输至云端服务器；其中，所述云端服务器用于存储所述评估结果所关联的目标语音，以及利用物联网通信技术将存储的所述目标语音传输至语言评估平台。本发明通过考虑时间得分、字数得分、关键字得分和普通话发音得分，提高了测评质量，并且利用语音评估API对背诵内容进行评估，帮助学习者更好地掌握内容，同时满足了测评、背诵和讲解等不同需求，实现高度自定义评估。

本发明实施例中语音综合评估方法的另一个实施例包括：

所述基于各个所述目标语音分别对应的评估模式，通过语音评估API对各个所述目标语音进行评估，包括：

本发明实施例中语音综合评估方法的另一个实施例包括：

所述对目标语音进行流畅度分的评估，包括：

针对目标语音进行解码识别，得到语言识别结果；

根据所述语速特征对所述目标语音的流畅度分进行评估。

本发明实施例的有益效果：本发明实施例通过对目标语音进行解码识别，获得语言识别结果，并依据识别结果统计出每个音素对应的帧数，得到音素总个数和所有音素的持续时间。通过计算音素总个数与所有音素持续时间的比值，得到语速特征，从而能更有效地评估目标语音的流畅度分。本发明分析语速特征实现了更准确地评估目标语音的流畅度，使得评估结果更符合实际表现，并且降低了手动评估的工作量和评估所需的时间。

本发明实施例中语音综合评估方法的另一个实施例包括：

所述对目标语音进行普通话发音的评估包括：

针对目标语音进行解码识别，得到识别结果；

本发明实施例的有益效果：本发明实施例通过解码识别、强制对齐得分计算、单音素解码模型构建和最大似然得分计算等步骤。根据强制对齐得分与最大似然得分的差值，得到发音准确度方向的特征，实现对目标语音普通话发音的评估。本发明实施例有效地评估目标语音普通话发音的正确与否，提高了评估结果的准确性，并且降低了手动评估过程中的工作量和所需时间。

本发明实施例中语音综合评估方法的另一个实施例包括：

所述对目标语音进行完整度分的评估，包括：

针对所述目标语音进行解码识别，得到识别结果；

本发明实施例的有益效果：本发明实施例通过解码识别、计算语法结构相似度得分、加权平均计算语法结构相似度特征等步骤。基于识别结果和标准答案中的句子计算语法结构相似度得分，并通过加权平均计算得到语法结构相似度特征，实现对目标语音的完整度分进行评估。本发明实施例实现了更准确地评估目标语音和标准答案之间的语法结构相似度，从而提高完整度评估的准确性。

本发明实施例中语音综合评估方法的另一个实施例包括：

所述利用物联网通信技术将存储的所述目标语音传输至语言评估平台，包括：

上面对本发明实施例中语音综合评估方法进行了描述，下面对本发明实施例中语音综合评估装置进行描述，请参阅图2，本发明实施例中语音综合评估装置1一个实施例包括：

获取模块11，用于获取待评估的多种目标语音；

第一评估模块12，用于基于各个所述目标语音分别对应的评估模式，通过语音评估API对各个所述目标语音进行评估，得到各个目标语音在对应的评估模式下的各项评估分值；

第二评估模块13，用于对各个目标语音在对应的评估模式下的所述各项评估分值进行加权计算，得到各个目标语音在对应的评估模式下的评估结果；

传输模块14，用于将所述评估结果所关联的目标语音传输至云端服务器；其中，所述云端服务器用于存储所述评估结果所关联的目标语音，以及利用物联网通信技术将存储的所述目标语音传输至语言评估平台。

本发明还提供一种语音综合评估设备，所述语音综合评估设备包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例中的所述语音综合评估方法的步骤。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述语音综合评估方法的步骤。

有益效果：本发明提供一种语音综合评估方法、装置、设备及存储介质，通过获取待评估的多种目标语音；并基于各个所述目标语音分别对应的评估模式，通过语音评估API对各个所述目标语音进行评估，得到各个目标语音在对应的评估模式下的各项评估分值；再对各个目标语音在对应的评估模式下的所述各项评估分值进行加权计算，得到各个目标语音在对应的评估模式下的评估结果；最后将所述评估结果所关联的目标语音传输至云端服务器；其中，所述云端服务器用于存储所述评估结果所关联的目标语音，以及利用物联网通信技术将存储的所述目标语音传输至语言评估平台。本发明通过考虑时间得分、字数得分、关键字得分和普通话发音得分，提高了测评质量，并且利用语音评估API对背诵内容进行评估，帮助学习者更好地掌握内容，同时满足了测评、背诵和讲解等不同需求，实现高度自定义评估。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（read-only memory，ROM）、随机存取存储器（randomaccess memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音综合评估方法，应用于语言评估平台，其特征在于，包括：

获取待评估的多种目标语音；

基于各个所述目标语音分别对应的评估模式，通过语音评估API对各个所述目标语音进行评估，得到各个目标语音在对应的评估模式下的各项评估分值；

对各个目标语音在对应的评估模式下的所述各项评估分值进行加权计算，得到各个目标语音在对应的评估模式下的评估结果；

将所述评估结果所关联的目标语音传输至云端服务器；其中，所述云端服务器用于存储所述评估结果所关联的目标语音，以及利用物联网通信技术将存储的所述目标语音传输至语言评估平台。

2.根据权利要求1所述的方法，其特征在于，所述基于各个所述目标语音分别对应的评估模式，通过语音评估API对各个所述目标语音进行评估，包括：

3.根据权利要求2所述的方法，其特征在于，所述对目标语音进行流畅度分的评估，包括：

针对目标语音进行解码识别，得到语言识别结果；

根据所述语速特征对所述目标语音的流畅度分进行评估。

4.根据权利要求2所述的方法，其特征在于，所述对目标语音进行普通话发音的评估包括：

针对目标语音进行解码识别，得到识别结果；

5.根据权利要求2所述的方法，其特征在于，所述对目标语音进行完整度分的评估，包括：

针对所述目标语音进行解码识别，得到识别结果；

根据所述语法结构相似度特征对目标语音进行完整度分的评估。

6.根据权利要求1所述的方法，其特征在于，所述利用物联网通信技术将存储的所述目标语音传输至语言评估平台，包括：

7.一种语音综合评估装置，其特征在于，所述语音综合评估装置包括：

获取模块，用于获取待评估的多种目标语音；

8.一种语音综合评估设备，其特征在于，所述语音综合评估设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述语音综合评估设备执行如权利要求1-6中任一项所述的语音综合评估方法。

9.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-6中任一项所述的语音综合评估方法。