CN109147761B - 一种基于批量语音识别和tts文本合成的测试方法 - Google Patents
一种基于批量语音识别和tts文本合成的测试方法 Download PDFInfo
- Publication number
- CN109147761B CN109147761B CN201810900486.2A CN201810900486A CN109147761B CN 109147761 B CN109147761 B CN 109147761B CN 201810900486 A CN201810900486 A CN 201810900486A CN 109147761 B CN109147761 B CN 109147761B
- Authority
- CN
- China
- Prior art keywords
- voice
- recognition
- tts
- tested
- test
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 56
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 56
- 238000010998 test method Methods 0.000 title claims abstract description 14
- 238000012360 testing method Methods 0.000 claims abstract description 86
- 238000000034 method Methods 0.000 claims abstract description 21
- 238000005516 engineering process Methods 0.000 claims description 13
- 230000002708 enhancing effect Effects 0.000 abstract 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000004886 process control Methods 0.000 description 1
- 230000001915 proofreading effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/34—Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Theoretical Computer Science (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了基于批量语音识别和TTS文本合成的测试方法,通过在待测智能终端中建立软件环境并自动运行测试APP,完成待测智能终端上ASR功能测试和TTS功能测试,并在TTS功能测试后再进行ASR反向语音识别功能测试,最终形成明确、可靠的比对结果,为后期改进和提高待测智能终端中的智能语音系统提供帮助。其测试方式整合了语音识别和文本合成从送测试数据到结果统计的整个流程,覆盖了语音识别和TTS文本合成的多场景测试,提高了语音识别测试速度和测试范围,确保了后期智能终端语音识别使用环境的适用性和可靠性,测试过程灵活,可随时随地对各种智能终端进行智能语音控制系统测试。
Description
技术领域
本发明涉及一种语音识别测试方法,特别涉及一种以智能终端为目标,基于批量语音识别和TTS文本合成的测试方法,属于智能终端控制领域。
背景技术
随着语音技术的成熟,很多通过语音进行控制的智能终端开始出现在我们的生活中,如智能音箱、智能手机语音助手、智能家电、智能玩具、智能汽车等,此类产品基于语音进行设备控制,使得使用过程更为方便,体验上更具有优势。
目前,关于智能终端主要采用自动语音识别技术(ASR)进行语音到文字的测试,或者采用文本合成技术(TTS)进行文字到语音的测试,测试过程相对单一,测试范围主要局限在现有产品的标准功能测试上,测试目标简单,测试形式匮乏,在简单环境中语音识别的准确性和可靠性还可满足使用要求,但随着使用环境复杂化,语音识别过程受到较大考验,给多场景环境下智能终端使用的安全性带来较大隐患。
于是,设计一套完整的测试手段,形成覆盖多场景、大批量语音识别和TTS文本合成的测试方法,就成为本发明想要解决的问题。
发明内容
鉴于上述现有情况和不足,本发明旨在提供一种将自动语音识别技术和TTS文本合成技术有效整合、从送测试数据到结果统计进行全程控制的基于批量语音识别和TTS文本合成的测试方法,以提高语音识别测试速度,形成覆盖多场景的测试范围,保证测试结果的可靠性和稳定性。
本发明是通过以下技术方案来实现的:
一种基于批量语音识别和TTS文本合成的测试方法,具体步骤包括:
步骤1、通过PC或云端启动测试脚本,根据待测智能终端选择要测试的功能,包括ASR功能或TTS功能。
步骤2、推送PC或云端已配置好的系统配置文件和集成了ASR及TTS技术的测试APP到待测智能终端。
步骤3、自动启动待测智能终端上的测试APP,根据系统配置文件调配测试ASR功能或TTS功能相关支持文件并存储在待测智能终端中,测试ASR功能支持文件包括识别语音信息、标准文本和语音识别模式,语音识别模式包括识别和唤醒两种模式;测试TTS功能支持文件包括TTS合成文本信息、TTS前端模型和TTS后端模型。
步骤4、如测试ASR功能:识别语音信息根据语音识别模式对获取的语音数据进行分割,并分段送入测试APP识别,根据识别或者唤醒模式,获取识别或唤醒结果,并将识别或唤醒结果保存到待测智能终端中。如测试TTS功能:根据TTS文本信息、TTS前端模型和TTS后端模型将待测文本信息送入进行合成,如文本合成成功,获取文本合成语音保存到待测智能终端中,然后将文本合成语音再进行ASR语音识别,获取语音识别后的ASR语音识别结果并保存到待测智能终端中;如文本合成失败,保存文本合成时的参数信息及合成失败的目标文本,再继续合成下一条数据,直至全部文本合成完成。
步骤5、PC或云端自动获取步骤4中存储在待测智能终端中的结果;或,通过PC或云端手动获取步骤4中存储在待测智能终端中的结果,并保存到PC或云端,与相应的标准文本或待测文本信息进行结果比对,包括测试ASR功能结果比对:如为识别模式,通过标准文本格式判断语音是长语音还是短语音,然后将识别结果与标准文本进行比对,获取本次识别结果的字错误率、句错误率或者词错误率,形成比对结果。如为唤醒模式,判断是正常唤醒还是误唤醒,计算正常唤醒下的唤醒率或者误唤醒下的误唤醒率,形成计算后的比对结果。还包括测试TTS功能结果比对:将待测文本信息与经TTS文本合成、再经ASR语音识别后的结果进行比对,形成不同内容的比对结果。
最后,将比对结果按照测试文件名加时间的方式保存在PC或云端,完成待测智能终端批量语音识别和TTS文本合成的测试过程。
所述步骤4中保存到待测智能终端的识别结果包括:当前进行识别的语音文件路径加文件名、语音开始识别时间、语音结束识别时间和语音识别结果。
所述步骤4中保存到待测智能终端的唤醒结果包括:当前进行识别的语音文件路径加文件名、语音开始唤醒时间、语音结束唤醒时间、语音唤醒结果、第几次唤醒和唤醒个数统计。
本发明所述一种基于批量语音识别和TTS文本合成的测试方法的有益效果包括:
1、将批量语音识别和TTS文本合成技术相整合,从以往简单的、相对独立的语音识别或TTS文本合成技术对智能终端的测试,转变为既可以进行单独语音识别技术测试,又可在TTS文本合成测试基础上再进行反向语音识别的验证测试,提高了测试的准确性,扩大了测试覆盖的范围;
2、整合了语音识别和文本合成从送测试数据到结果统计的整个流程,覆盖了语音识别和TTS文本合成的多场景的测试,提高了语音识别测试速度和测试范围,确保了后期智能终端语音识别使用环境的适用性和可靠性;
3、测试过程采用PC或云端进行控制,整个过程自动完成,可实现有线或无线方式下近程或远程测试,操控简单、使用方便,测试灵活;
4、本测试方法测试过程相对独立,不受外界软、硬件条件限制,可随时针对智能手机、智能玩具、智能家电、智能汽车等含有智能语音控制系统的设备进行全面语音测试。
具体实施方式
下面以云端测试智能手机中智能语音系统为例,对本发明所述一种基于批量语音识别和TTS文本合成的测试方法作进一步的详细描述:
本发明所述的一种基于批量语音识别和TTS文本合成的测试方法,具体步骤包括:
步骤1、通过云端启动测试脚本,根据待测智能手机上的序列号选择要测试的功能,包括ASR功能或TTS功能。
步骤2、推送云端已配置好的系统配置文件和集成了ASR及TTS技术的测试APP到待测智能手机中。
该方式避免了对待测手机软、硬环境的依赖,直接通过已配置好的系统文件和测试APP在待测智能手机中建立测试环境,实现了远程、随时随地的测试过程。
步骤3、安装完系统配置文件和测试APP的待测智能手机自动启动测试APP,根据系统配置文件调配测试ASR功能或TTS功能相关支持文件并存储在待测智能手机中。其中,测试ASR功能支持文件包括识别语音信息、标准文本和语音识别模式,语音识别模式又包括识别和唤醒两种模式。测试TTS功能支持文件包括TTS合成文本信息、TTS前端模型和TTS后端模型。
识别语音信息为原始录制的用于语音识别的待测语音信息,通过模拟多场景、多环境条件下原始录制待测语音信息,形成对待测智能手机全面、复杂环境下的模拟语音测试,使测试过程更逼真、更可靠。
标准文本是基于待测语音信息制作的标准文字型文件,是待测智能手机语音识别后进行校对的依据。
语音识别模式包括识别和唤醒两种模式,根据不同的模式,进行相应的测试过程,完成测试中可能的正常识别、正常唤醒或误唤醒的识别判断。
而TTS合成文本信息则用于提供待测文字的文本信息,为TTS测试过程提供准备。
步骤4、具体功能测试
如测试ASR功能:识别语音信息根据语音识别模式对获取的语音数据进行分割,并分段送入测试APP识别,根据识别或者唤醒模式,获取识别或唤醒结果,并将识别或唤醒结果保存到待测智能手机中。其中,识别结果中包括当前进行识别的语音文件路径加文件名、语音开始识别时间、语音结束识别时间和语音识别结果。唤醒结果中包括当前进行识别的语音文件路径加文件名、语音开始唤醒时间、语音结束唤醒时间、语音唤醒结果、第几次唤醒和唤醒个数统计。
如测试TTS功能:根据TTS文本信息、TTS前端模型和TTS后端模型将待测文本信息送入进行合成,如文本合成成功,获取文本合成语音保存到待测智能手机中,然后将文本合成语音再进行ASR语音识别,获取语音识别后的ASR语音识别结果并保存到待测智能手机中;如文本合成失败,保存文本合成时的参数信息及合成失败的目标文本,再继续合成下一条数据,直至全部文本合成完成。
步骤5、云端自动获取存储在待测智能手机中的结果并保存到云端,与相应的标准文本或待测文本信息进行结果比对,包括:
测试ASR功能结果比对:
如为识别模式,通过标准文本格式判断语音是长语音还是短语音,然后将识别结果与标准文本进行比对,获取本次识别结果的字错误率、句错误率或者词错误率,形成比对结果。其中,字错误率、句错误率或词错误率是待测语音信息中特定识别阈值下的百分比。
如为唤醒模式,判断是正常唤醒还是误唤醒,计算特定阈值下正常唤醒的唤醒率,即正常唤醒次数/总唤醒次数*100%,或者特定阈值下误唤醒的误唤醒率,即误唤醒次数/待测语音信息时间长度,形成计算后的比对结果。
测试TTS功能结果比对:将待测文本信息与经TTS文本合成、再经ASR语音识别后的结果进行比对,形成不同内容的比对结果,为后期不同内容的识别过程改进提供帮助。
步骤6、将比对结果按照测试文件名加时间的方式保存在云端,完成待测智能手机批量语音识别和TTS文本合成的测试过程。
通过比对结果的保存和调用,可以明确待测智能手机智能语音系统在语音识别和TTS文本合成测试过程中存在的问题和不足,为后期改进和提高提供准确依据。
Claims (3)
1.一种基于批量语音识别和TTS文本合成的测试方法,其特征在于,具体步骤包括:
步骤1、通过PC或云端启动测试脚本,根据待测智能终端选择要测试的功能,包括ASR功能或TTS功能;
步骤2、推送PC或云端已配置好的系统配置文件和集成了ASR及TTS技术的测试APP到待测智能终端;
步骤3、自动启动待测智能终端上的测试APP,根据系统配置文件调配测试ASR功能或TTS功能相关支持文件并存储在待测智能终端中,测试ASR功能支持文件包括识别语音信息、标准文本和语音识别模式,语音识别模式包括识别和唤醒两种模式;测试TTS功能支持文件包括TTS合成文本信息、TTS前端模型和TTS后端模型;
步骤4、如测试ASR功能:识别语音信息根据语音识别模式对获取的语音数据进行分割,并分段送入测试APP识别,根据识别或者唤醒模式,获取识别或唤醒结果,并将识别或唤醒结果保存到待测智能终端中;
如测试TTS功能:根据TTS文本信息、TTS前端模型和TTS后端模型将待测文本信息送入进行合成,如文本合成成功,获取文本合成语音保存到待测智能终端中,然后将文本合成语音再进行ASR语音识别,获取语音识别后的ASR语音识别结果并保存到待测智能终端中;如文本合成失败,保存文本合成时的参数信息及合成失败的目标文本,再继续合成下一条数据,直至全部文本合成完成;
步骤5、PC或云端自动获取步骤4中存储在待测智能终端中的结果;或,通过PC或云端手动获取步骤4中存储在待测智能终端中的结果,并保存到PC或云端,与相应的标准文本或待测文本信息进行结果比对,包括:
测试ASR功能结果比对:
如为识别模式,通过标准文本格式判断语音是长语音还是短语音,然后将识别结果与标准文本进行比对,获取本次识别结果的字错误率、句错误率或者词错误率,形成比对结果;
如为唤醒模式,判断是正常唤醒还是误唤醒,计算正常唤醒下的唤醒率或者误唤醒下的误唤醒率,形成计算后的比对结果;
测试TTS功能结果比对:
将待测文本信息与经TTS文本合成、再经ASR语音识别后的结果进行比对,形成不同内容的比对结果;
最后,将比对结果按照测试文件名加时间的方式保存在PC或云端,完成待测智能终端批量语音识别和TTS文本合成的测试过程。
2.根据权利要求1所述的一种基于批量语音识别和TTS文本合成的测试方法,其特征在于,所述步骤4中保存到待测智能终端的识别结果包括:当前进行识别的语音文件路径加文件名、语音开始识别时间、语音结束识别时间和语音识别结果。
3.根据权利要求1所述的一种基于批量语音识别和TTS文本合成的测试方法,其特征在于,所述步骤4中保存到待测智能终端的唤醒结果包括:当前进行识别的语音文件路径加文件名、语音开始唤醒时间、语音结束唤醒时间、语音唤醒结果、第几次唤醒和唤醒个数统计。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810900486.2A CN109147761B (zh) | 2018-08-09 | 2018-08-09 | 一种基于批量语音识别和tts文本合成的测试方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810900486.2A CN109147761B (zh) | 2018-08-09 | 2018-08-09 | 一种基于批量语音识别和tts文本合成的测试方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109147761A CN109147761A (zh) | 2019-01-04 |
CN109147761B true CN109147761B (zh) | 2022-05-13 |
Family
ID=64792400
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810900486.2A Active CN109147761B (zh) | 2018-08-09 | 2018-08-09 | 一种基于批量语音识别和tts文本合成的测试方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109147761B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110838285A (zh) * | 2019-11-20 | 2020-02-25 | 青岛海尔科技有限公司 | 终端语音测试的系统、方法及装置 |
CN111341296B (zh) * | 2020-02-17 | 2023-12-12 | 智达诚远科技有限公司 | 一种语音控制的响应测试方法、测试机和存储介质 |
CN111739512A (zh) * | 2020-06-18 | 2020-10-02 | 中汽院智能网联科技有限公司 | 一种基于实车的语音唤醒率测试方法、系统、设备及介质 |
CN112365883B (zh) * | 2020-10-29 | 2023-12-26 | 安徽江淮汽车集团股份有限公司 | 座舱系统语音识别测试方法、装置、设备及存储介质 |
CN112071305A (zh) * | 2020-11-16 | 2020-12-11 | 成都启英泰伦科技有限公司 | 一种本地离线智能语音批量识别模组及方法 |
CN113223559A (zh) * | 2021-05-07 | 2021-08-06 | 北京有竹居网络技术有限公司 | 一种合成语音的评测方法、装置和设备 |
CN113409826B (zh) * | 2021-08-04 | 2023-09-19 | 美的集团(上海)有限公司 | 一种tts系统性能测试方法、装置、设备及介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SE9301886L (sv) * | 1993-06-02 | 1994-12-03 | Televerket | Förfarande för utvärdering av talkvalitet vid talsyntes |
US20130080172A1 (en) * | 2011-09-22 | 2013-03-28 | General Motors Llc | Objective evaluation of synthesized speech attributes |
CN103578463B (zh) * | 2012-07-27 | 2017-12-01 | 腾讯科技(深圳)有限公司 | 自动化测试方法及测试装置 |
WO2015058386A1 (en) * | 2013-10-24 | 2015-04-30 | Bayerische Motoren Werke Aktiengesellschaft | System and method for text-to-speech performance evaluation |
CN107516510B (zh) * | 2017-07-05 | 2020-12-18 | 百度在线网络技术(北京)有限公司 | 一种智能设备自动化语音测试方法及装置 |
-
2018
- 2018-08-09 CN CN201810900486.2A patent/CN109147761B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN109147761A (zh) | 2019-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109147761B (zh) | 一种基于批量语音识别和tts文本合成的测试方法 | |
CN109326305B (zh) | 一种批量测试语音识别和文本合成的方法和测试系统 | |
US10380992B2 (en) | Natural language generation based on user speech style | |
US20200227049A1 (en) | Method, apparatus and device for waking up voice interaction device, and storage medium | |
CN102930866B (zh) | 一种用于口语练习的学生朗读作业的评判方法 | |
US20180074661A1 (en) | Preferred emoji identification and generation | |
CN208044735U (zh) | 智能交互式充电桩和智能交互式充电系统 | |
CN103714815A (zh) | 语音控制方法及其设备 | |
CN105632484A (zh) | 语音合成数据库停顿信息自动标注方法及系统 | |
CN102862587B (zh) | 一种铁路车机联控语音分析方法和设备 | |
US11580953B2 (en) | Method for providing speech and intelligent computing device controlling speech providing apparatus | |
CN109637536B (zh) | 一种自动化识别语义准确性的方法及装置 | |
CN111081254B (zh) | 一种语音识别方法和装置 | |
CN105609105A (zh) | 语音识别系统和语音识别方法 | |
CN104299612A (zh) | 模仿音相似度的检测方法和装置 | |
CN111261139A (zh) | 文字拟人化播报方法及系统 | |
CN104882142A (zh) | 基于obd接口的车载设备的语音控制方法及装置 | |
CN113643704A (zh) | 车机语音系统的测试方法、上位机、系统和存储介质 | |
CN105788609B (zh) | 多路音源的关联方法和装置及评定方法和系统 | |
CN110164448A (zh) | 语音处理方法及装置、存储介质、语音处理系统 | |
CN110858479A (zh) | 语音识别模型更新方法、装置、存储介质及电子设备 | |
CN109949813A (zh) | 一种将语音转换为文字的方法、装置及系统 | |
CN108717851B (zh) | 一种语音识别方法及装置 | |
CN103745614A (zh) | 一种车辆实现自动报站的方法及系统 | |
CN111048068A (zh) | 语音唤醒方法、装置、系统及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Liao Zhiliang Inventor after: Tao Liang Inventor after: Wang Daoning Inventor after: Zhang Yadong Inventor after: Ma Limin Inventor before: Ma Yongfei Inventor before: Wang Daoning Inventor before: Ma Limin |
|
GR01 | Patent grant | ||
GR01 | Patent grant |