CN109147761B

CN109147761B - 一种基于批量语音识别和tts文本合成的测试方法

Info

Publication number: CN109147761B
Application number: CN201810900486.2A
Authority: CN
Inventors: 廖志梁; 陶亮; 王道宁; 张亚东; 马立民
Original assignee: Beijing E Credence Information Technology Co ltd
Current assignee: Beijing E Credence Information Technology Co ltd
Priority date: 2018-08-09
Filing date: 2018-08-09
Publication date: 2022-05-13
Anticipated expiration: 2038-08-09
Also published as: CN109147761A

Abstract

本发明公开了基于批量语音识别和TTS文本合成的测试方法，通过在待测智能终端中建立软件环境并自动运行测试APP，完成待测智能终端上ASR功能测试和TTS功能测试，并在TTS功能测试后再进行ASR反向语音识别功能测试，最终形成明确、可靠的比对结果，为后期改进和提高待测智能终端中的智能语音系统提供帮助。其测试方式整合了语音识别和文本合成从送测试数据到结果统计的整个流程，覆盖了语音识别和TTS文本合成的多场景测试，提高了语音识别测试速度和测试范围，确保了后期智能终端语音识别使用环境的适用性和可靠性，测试过程灵活，可随时随地对各种智能终端进行智能语音控制系统测试。

Description

一种基于批量语音识别和TTS文本合成的测试方法

技术领域

本发明涉及一种语音识别测试方法，特别涉及一种以智能终端为目标，基于批量语音识别和TTS文本合成的测试方法，属于智能终端控制领域。

背景技术

随着语音技术的成熟，很多通过语音进行控制的智能终端开始出现在我们的生活中，如智能音箱、智能手机语音助手、智能家电、智能玩具、智能汽车等，此类产品基于语音进行设备控制，使得使用过程更为方便，体验上更具有优势。

目前，关于智能终端主要采用自动语音识别技术（ASR）进行语音到文字的测试，或者采用文本合成技术（TTS）进行文字到语音的测试，测试过程相对单一，测试范围主要局限在现有产品的标准功能测试上，测试目标简单，测试形式匮乏，在简单环境中语音识别的准确性和可靠性还可满足使用要求，但随着使用环境复杂化，语音识别过程受到较大考验，给多场景环境下智能终端使用的安全性带来较大隐患。

于是，设计一套完整的测试手段，形成覆盖多场景、大批量语音识别和TTS文本合成的测试方法，就成为本发明想要解决的问题。

发明内容

鉴于上述现有情况和不足，本发明旨在提供一种将自动语音识别技术和TTS文本合成技术有效整合、从送测试数据到结果统计进行全程控制的基于批量语音识别和TTS文本合成的测试方法，以提高语音识别测试速度，形成覆盖多场景的测试范围，保证测试结果的可靠性和稳定性。

本发明是通过以下技术方案来实现的：

一种基于批量语音识别和TTS文本合成的测试方法，具体步骤包括：

步骤1、通过PC或云端启动测试脚本，根据待测智能终端选择要测试的功能，包括ASR功能或TTS功能。

步骤2、推送PC或云端已配置好的系统配置文件和集成了ASR及TTS技术的测试APP到待测智能终端。

步骤3、自动启动待测智能终端上的测试APP，根据系统配置文件调配测试ASR功能或TTS功能相关支持文件并存储在待测智能终端中，测试ASR功能支持文件包括识别语音信息、标准文本和语音识别模式，语音识别模式包括识别和唤醒两种模式；测试TTS功能支持文件包括TTS合成文本信息、TTS前端模型和TTS后端模型。

步骤4、如测试ASR功能：识别语音信息根据语音识别模式对获取的语音数据进行分割，并分段送入测试APP识别，根据识别或者唤醒模式，获取识别或唤醒结果，并将识别或唤醒结果保存到待测智能终端中。如测试TTS功能：根据TTS文本信息、TTS前端模型和TTS后端模型将待测文本信息送入进行合成，如文本合成成功，获取文本合成语音保存到待测智能终端中,然后将文本合成语音再进行ASR语音识别，获取语音识别后的ASR语音识别结果并保存到待测智能终端中；如文本合成失败，保存文本合成时的参数信息及合成失败的目标文本，再继续合成下一条数据，直至全部文本合成完成。

步骤5、PC或云端自动获取步骤4中存储在待测智能终端中的结果；或，通过PC或云端手动获取步骤4中存储在待测智能终端中的结果，并保存到PC或云端，与相应的标准文本或待测文本信息进行结果比对，包括测试ASR功能结果比对：如为识别模式，通过标准文本格式判断语音是长语音还是短语音，然后将识别结果与标准文本进行比对，获取本次识别结果的字错误率、句错误率或者词错误率，形成比对结果。如为唤醒模式，判断是正常唤醒还是误唤醒，计算正常唤醒下的唤醒率或者误唤醒下的误唤醒率，形成计算后的比对结果。还包括测试TTS功能结果比对：将待测文本信息与经TTS文本合成、再经ASR语音识别后的结果进行比对，形成不同内容的比对结果。

最后，将比对结果按照测试文件名加时间的方式保存在PC或云端，完成待测智能终端批量语音识别和TTS文本合成的测试过程。

所述步骤4中保存到待测智能终端的识别结果包括：当前进行识别的语音文件路径加文件名、语音开始识别时间、语音结束识别时间和语音识别结果。

所述步骤4中保存到待测智能终端的唤醒结果包括：当前进行识别的语音文件路径加文件名、语音开始唤醒时间、语音结束唤醒时间、语音唤醒结果、第几次唤醒和唤醒个数统计。

本发明所述一种基于批量语音识别和TTS文本合成的测试方法的有益效果包括：

1、将批量语音识别和TTS文本合成技术相整合，从以往简单的、相对独立的语音识别或TTS文本合成技术对智能终端的测试，转变为既可以进行单独语音识别技术测试，又可在TTS文本合成测试基础上再进行反向语音识别的验证测试，提高了测试的准确性，扩大了测试覆盖的范围；

2、整合了语音识别和文本合成从送测试数据到结果统计的整个流程，覆盖了语音识别和TTS文本合成的多场景的测试，提高了语音识别测试速度和测试范围，确保了后期智能终端语音识别使用环境的适用性和可靠性；

3、测试过程采用PC或云端进行控制，整个过程自动完成，可实现有线或无线方式下近程或远程测试，操控简单、使用方便，测试灵活；

4、本测试方法测试过程相对独立，不受外界软、硬件条件限制，可随时针对智能手机、智能玩具、智能家电、智能汽车等含有智能语音控制系统的设备进行全面语音测试。

具体实施方式

下面以云端测试智能手机中智能语音系统为例，对本发明所述一种基于批量语音识别和TTS文本合成的测试方法作进一步的详细描述：

本发明所述的一种基于批量语音识别和TTS文本合成的测试方法，具体步骤包括：

步骤1、通过云端启动测试脚本，根据待测智能手机上的序列号选择要测试的功能，包括ASR功能或TTS功能。

步骤2、推送云端已配置好的系统配置文件和集成了ASR及TTS技术的测试APP到待测智能手机中。

该方式避免了对待测手机软、硬环境的依赖，直接通过已配置好的系统文件和测试APP在待测智能手机中建立测试环境，实现了远程、随时随地的测试过程。

步骤3、安装完系统配置文件和测试APP的待测智能手机自动启动测试APP，根据系统配置文件调配测试ASR功能或TTS功能相关支持文件并存储在待测智能手机中。其中，测试ASR功能支持文件包括识别语音信息、标准文本和语音识别模式，语音识别模式又包括识别和唤醒两种模式。测试TTS功能支持文件包括TTS合成文本信息、TTS前端模型和TTS后端模型。

识别语音信息为原始录制的用于语音识别的待测语音信息，通过模拟多场景、多环境条件下原始录制待测语音信息，形成对待测智能手机全面、复杂环境下的模拟语音测试，使测试过程更逼真、更可靠。

标准文本是基于待测语音信息制作的标准文字型文件，是待测智能手机语音识别后进行校对的依据。

语音识别模式包括识别和唤醒两种模式，根据不同的模式，进行相应的测试过程，完成测试中可能的正常识别、正常唤醒或误唤醒的识别判断。

而TTS合成文本信息则用于提供待测文字的文本信息，为TTS测试过程提供准备。

步骤4、具体功能测试

如测试ASR功能：识别语音信息根据语音识别模式对获取的语音数据进行分割，并分段送入测试APP识别，根据识别或者唤醒模式，获取识别或唤醒结果，并将识别或唤醒结果保存到待测智能手机中。其中，识别结果中包括当前进行识别的语音文件路径加文件名、语音开始识别时间、语音结束识别时间和语音识别结果。唤醒结果中包括当前进行识别的语音文件路径加文件名、语音开始唤醒时间、语音结束唤醒时间、语音唤醒结果、第几次唤醒和唤醒个数统计。

如测试TTS功能：根据TTS文本信息、TTS前端模型和TTS后端模型将待测文本信息送入进行合成，如文本合成成功，获取文本合成语音保存到待测智能手机中,然后将文本合成语音再进行ASR语音识别，获取语音识别后的ASR语音识别结果并保存到待测智能手机中；如文本合成失败，保存文本合成时的参数信息及合成失败的目标文本，再继续合成下一条数据，直至全部文本合成完成。

步骤5、云端自动获取存储在待测智能手机中的结果并保存到云端，与相应的标准文本或待测文本信息进行结果比对，包括：

测试ASR功能结果比对：

如为识别模式，通过标准文本格式判断语音是长语音还是短语音，然后将识别结果与标准文本进行比对，获取本次识别结果的字错误率、句错误率或者词错误率，形成比对结果。其中，字错误率、句错误率或词错误率是待测语音信息中特定识别阈值下的百分比。

如为唤醒模式，判断是正常唤醒还是误唤醒，计算特定阈值下正常唤醒的唤醒率，即正常唤醒次数/总唤醒次数*100%，或者特定阈值下误唤醒的误唤醒率，即误唤醒次数/待测语音信息时间长度，形成计算后的比对结果。

测试TTS功能结果比对：将待测文本信息与经TTS文本合成、再经ASR语音识别后的结果进行比对，形成不同内容的比对结果，为后期不同内容的识别过程改进提供帮助。

步骤6、将比对结果按照测试文件名加时间的方式保存在云端，完成待测智能手机批量语音识别和TTS文本合成的测试过程。

通过比对结果的保存和调用，可以明确待测智能手机智能语音系统在语音识别和TTS文本合成测试过程中存在的问题和不足，为后期改进和提高提供准确依据。

Claims

1.一种基于批量语音识别和TTS文本合成的测试方法，其特征在于，具体步骤包括：

步骤1、通过PC或云端启动测试脚本，根据待测智能终端选择要测试的功能，包括ASR功能或TTS功能；

步骤2、推送PC或云端已配置好的系统配置文件和集成了ASR及TTS技术的测试APP到待测智能终端；

步骤3、自动启动待测智能终端上的测试APP，根据系统配置文件调配测试ASR功能或TTS功能相关支持文件并存储在待测智能终端中，测试ASR功能支持文件包括识别语音信息、标准文本和语音识别模式，语音识别模式包括识别和唤醒两种模式；测试TTS功能支持文件包括TTS合成文本信息、TTS前端模型和TTS后端模型；

步骤4、如测试ASR功能：识别语音信息根据语音识别模式对获取的语音数据进行分割，并分段送入测试APP识别，根据识别或者唤醒模式，获取识别或唤醒结果，并将识别或唤醒结果保存到待测智能终端中；

如测试TTS功能：根据TTS文本信息、TTS前端模型和TTS后端模型将待测文本信息送入进行合成，如文本合成成功，获取文本合成语音保存到待测智能终端中,然后将文本合成语音再进行ASR语音识别，获取语音识别后的ASR语音识别结果并保存到待测智能终端中；如文本合成失败，保存文本合成时的参数信息及合成失败的目标文本，再继续合成下一条数据，直至全部文本合成完成；

步骤5、PC或云端自动获取步骤4中存储在待测智能终端中的结果；或，通过PC或云端手动获取步骤4中存储在待测智能终端中的结果，并保存到PC或云端，与相应的标准文本或待测文本信息进行结果比对，包括：

测试ASR功能结果比对：

如为识别模式，通过标准文本格式判断语音是长语音还是短语音，然后将识别结果与标准文本进行比对，获取本次识别结果的字错误率、句错误率或者词错误率，形成比对结果；

如为唤醒模式，判断是正常唤醒还是误唤醒，计算正常唤醒下的唤醒率或者误唤醒下的误唤醒率，形成计算后的比对结果；

测试TTS功能结果比对：

将待测文本信息与经TTS文本合成、再经ASR语音识别后的结果进行比对，形成不同内容的比对结果；

2.根据权利要求1所述的一种基于批量语音识别和TTS文本合成的测试方法，其特征在于，所述步骤4中保存到待测智能终端的识别结果包括：当前进行识别的语音文件路径加文件名、语音开始识别时间、语音结束识别时间和语音识别结果。

3.根据权利要求1所述的一种基于批量语音识别和TTS文本合成的测试方法，其特征在于，所述步骤4中保存到待测智能终端的唤醒结果包括：当前进行识别的语音文件路径加文件名、语音开始唤醒时间、语音结束唤醒时间、语音唤醒结果、第几次唤醒和唤醒个数统计。