CN113035236A - 语音合成数据的质检方法以及装置 - Google Patents
语音合成数据的质检方法以及装置 Download PDFInfo
- Publication number
- CN113035236A CN113035236A CN202110562516.5A CN202110562516A CN113035236A CN 113035236 A CN113035236 A CN 113035236A CN 202110562516 A CN202110562516 A CN 202110562516A CN 113035236 A CN113035236 A CN 113035236A
- Authority
- CN
- China
- Prior art keywords
- model
- judging
- target audio
- sentence
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 44
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 44
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000007689 inspection Methods 0.000 title abstract description 31
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 6
- 238000005516 engineering process Methods 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 19
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000003908 quality control method Methods 0.000 claims 2
- 238000011156 evaluation Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000013441 quality evaluation Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000001308 synthesis method Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本申请公开了一种语音合成数据的质检方法以及装置,属于语音合成领域,质检方法包括:根据原始文本,使用不同的语音合成方式合成多条目标音频;通过ASR模型对多条目标音频进行识别,得到各自的识别文本;在识别文本与原始文本不一致的情况下,判断识别文本对应的目标音频不合格;在识别文本与原始文本一致的情况下,判断识别文本对应的目标音频初步合格;通过端到端的判别模型输出每个初步合格的目标音频的对齐后的音素的概率值;根据音素的概率值进行音素的发音打分;通过回归模型将音素的得分转化为相应的句子的得分;在句子的得分高于阈值的情况下,判断句子对应的目标音频合格,并将得分最高的句子对应的目标音频判断为最佳音频。
Description
技术领域
本申请属于语音合成技术领域,具体涉及一种语音合成数据的质检方法以及装置。
背景技术
语音合成是一种将文本转换为语音的技术,即将给定文字按需求转换为语音进行输出。在竞争日趋激烈的市场环境对运用语音合成技术提供服务时提出了更高的要求,即合成的语音达到真人发声的效果。具体来说,第一点合成的语音不能缺字或多字,第二点合成的语音发音不能出现音素缺失或音素发音错误,第三点合成的语音虽然整体正确但存在缺陷。如何保证语音合成系统在广泛场景下都能得到高质量的合成语音是一项具有挑战的任务。
此外随着硬件设备、算力和用于语音合成建模数据质量提升,语音合成技术也从传统的前端和后端两个模块结合,发展到了端到端的语音合成。目前关于语音合成效果的评判,通常采用专家级评测MOS(Mean Opinion Scores)或者普通用户评测ABX,即专家对合成的音频打分或普通用户对比不同语音合成系统对同一段文字的合成效果。
发明人发现现有技术当前至少存在以下问题:即时使用先进的端到端的语音合成技术,加专家级或普通用户级的评测,也不能百分百保证通过评测的语音合成系统合成的语音质量,即可能存在听感上漏字、发音缺失、发音错误或者发音正确但不符合人的听感的现象。采用人工质检效率低下,并且难以保证质检的质量。
发明内容
本申请实施例的目的是提供一种语音合成数据的质检方法和装置,能够解决目前对于语音合成数据采用人工质检时效率低下,并且难以保证质检质量的问题。同时克服传统发音质量评价特征提取过程复杂的问题,并提高所得评分与发音的相关性。
为了解决上述技术问题,本申请是这样实现的:
第一方面,本申请实施例提供了一种语音合成数据的质检方法,包括:
根据原始文本,使用不同的语音合成方式合成多条目标音频;
通过ASR模型对多条所述目标音频进行识别,得到各自的识别文本;
在所述识别文本与所述原始文本不一致的情况下,判断所述识别文本对应的所述目标音频不合格;
在所述识别文本与所述原始文本一致的情况下,判断所述识别文本对应的所述目标音频初步合格;
通过端到端的判别模型输出每个初步合格的所述目标音频的对齐后的音素的概率值;
根据所述音素的概率值进行所述音素的发音打分;
通过回归模型将所述音素的得分转化为相应的句子的得分;
在所述句子的得分高于阈值的情况下,判断所述句子对应的所述目标音频合格,并将得分最高的所述句子对应的所述目标音频判断为最佳音频。
进一步地,所述ASR模型包括:声学模型、语音模型以及词典,其中,所述声学模型采用真人语音以及合成语音进行共同训练得到,所述语音模型通过通用语言模型与各领域模型进行插值得到。
进一步地,所述判别模型采用CTC+Attention相结合的技术训练得到。
进一步地,所述方法还包括:
在所述句子的得分低于所述阈值的情况下,记录所述目标音频出现的音素级以及句子级的错误信息;
根据所述错误信息,定期更新所述判别模型。
进一步地,所述判别模型采用seq2seg技术或者transformer技术训练得到。
进一步地,所述回归模型采用XGBoost技术或者RNN技术训练得到。
第二方面,本申请实施例提供了一种语言合成数据的质检装置,包括:
合成模块,用于根据原始文本,使用不同的语音合成方式合成多条目标音频;
识别模块,用于通过ASR模型对多条所述目标音频进行识别,得到各自的识别文本;
第一判断模块,用于在所述识别文本与所述原始文本不一致的情况下,判断所述识别文本对应的所述目标音频不合格;
第二判断模块,用于在所述识别文本与所述原始文本一致的情况下,判断所述识别文本对应的所述目标音频初步合格;
判别模块,用于通过端到端的判别模型输出每个初步合格的所述目标音频的对齐后的音素的概率值;
打分模块,用于根据所述音素的概率值进行所述音素的发音打分;
转化模块,用于通过回归模型将所述音素的得分转化为相应的句子的得分;
第三判断模块,用于在所述句子的得分高于阈值的情况下,判断所述句子对应的所述目标音频合格,并将得分最高的所述句子对应的所述目标音频判断为最佳音频。
进一步地,所述ASR模型包括:声学模型、语音模型以及词典,其中,所述声学模型采用真人语音以及合成语音进行共同训练得到,所述语音模型通过通用语言模型与各领域模型进行插值得到。
进一步地,所述判别模型采用CTC+Attention相结合的技术训练得到。
进一步地,所述装置还包括:
记录模块,用于在所述句子的得分低于所述阈值的情况下,记录所述目标音频出现的音素级以及句子级的错误信息;
更新模块,用于根据所述错误信息,定期更新所述判别模型。
进一步地,所述判别模型采用seq2seg技术或者transformer技术训练得到。
进一步地,所述回归模型采用XGBoost技术或者RNN技术训练得到。
在本申请实施例中,通过第一阶段的比对以及第二阶段的打分自动化地对语音合成数据进行评价,快速确定最优的语音合成数据,提高了质检效率以及质检的准确性。
附图说明
图1是本申请实施例提供的一种语音合成数据的质检方法的流程示意图;
图2是本申请实施例提供的一种语音合成数据的质检装置的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例、参照附图做进一步说明。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的语音合成数据的质检方法进行详细地说明。
实施例一
参照图1,示出了本申请实施例提供的一种语音合成数据的质检方法的流程示意图。
语音合成数据的质检方法包括:
S101:根据原始文本,使用不同的语音合成方式合成多条目标音频。
其中,原始文本是为了测试各种语音合成方式提供的测试文本,是已知的文本。
可以理解的是,不同的合成方式可以是由不同的语音合成系统提供的合成方法,即采用不同的语音合成系统合成多条目标音频。
S102:通过ASR模型对多条目标音频进行识别,得到各自的识别文本。
其中,ASR模型包括:声学模型、语音模型以及词典,其中,声学模型采用真人语音以及合成语音进行共同训练得到,语音模型通过通用语言模型与各领域模型进行插值得到。
S103:在识别文本与原始文本不一致的情况下,判断识别文本对应的目标音频不合格。
需要说明的是,经过第一阶段的筛选判断,对于不合格的目标音频,将不进入后续步骤。
S104:在识别文本与原始文本一致的情况下,判断识别文本对应的目标音频初步合格。
需要说明的是,经过第一阶段的筛选判断,对于初步合格的目标音频,将进一步地进入到后续步骤中。
第一阶段可以初步筛选出识别文本与原始文本一致的合成音频,可以有效避免错误的音频进入下游步骤,进一步地提供质检效率。
S105:通过端到端的判别模型输出每个初步合格的目标音频的对齐后的音素的概率值。
其中,判别模型采用CTC+Attention相结合的技术训练得到。
采用CTC+Attention相结合的技术,不需要预先对数据做对齐,即可实现端到端的训练,该模型的输出为目标文本的每一个音素的后验概率值(0~1范围),根据该值可直接根据设定的阈值判断该音素的发音好坏,从而达到简化发音质量评价流程。
进一步地,判别模型还可以采用seq2seg技术或者transformer技术训练得到。
假设通过第一阶段筛选出符合要求的合成音频有3条,这3条合成音频均通过判别模型输出对应的音素级的概率值。
S106:根据音素的概率值进行音素的发音打分。
需要说明的是,此处的分数是音素的分数,其中,一个句子可以由多个音素组成。
S107:通过回归模型将音素的得分转化为相应的句子的得分。
其中,回归模型采用XGBoost技术或者RNN技术训练得到。
S108:在句子的得分高于阈值的情况下,判断句子对应的目标音频合格,并将得分最高的句子对应的目标音频判断为最佳音频。
可选地,合成音频数据的质检方法还包括:
S109:在句子的得分低于阈值的情况下,记录目标音频出现的音素级以及句子级的错误信息。
S110:根据错误信息,定期更新判别模型。
通过对于错误信息的更新,可以进一步提高质检的准确度,同时也提高语音合成系统的合成准确度。
在本申请实施例中,通过第一阶段的比对以及第二阶段的打分自动化地对语音合成数据进行评价,快速确定最优的语音合成数据,提高了质检效率以及质检的准确性。
实施例二
参照图2,示出了本申请实施例提供的一种语音合成数据的质检装置的结构示意图。质检装置20包括:
合成模块201,用于根据原始文本,使用不同的语音合成方式合成多条目标音频。
识别模块202,用于通过ASR模型对多条目标音频进行识别,得到各自的识别文本。
第一判断模块203,用于在识别文本与原始文本不一致的情况下,判断识别文本对应的目标音频不合格。
第二判断模块204,用于在识别文本与原始文本一致的情况下,判断识别文本对应的目标音频初步合格。
判别模块205,用于通过端到端的判别模型输出每个初步合格的目标音频的对齐后的音素的概率值。
打分模块206,用于根据音素的概率值进行音素的发音打分。
转化模块207,用于通过回归模型将音素的得分转化为相应的句子的得分。
第三判断模块208,用于在句子的得分高于阈值的情况下,判断句子对应的目标音频合格,并将得分最高的句子对应的目标音频判断为最佳音频。
进一步地,ASR模型包括:声学模型、语音模型以及词典,其中,声学模型采用真人语音以及合成语音进行共同训练得到,语音模型通过通用语言模型与各领域模型进行插值得到。
进一步地,判别模型采用CTC+Attention相结合的技术训练得到。
进一步地,质检装置20还包括:
记录模块209,用于在句子的得分低于阈值的情况下,记录目标音频出现的音素级以及句子级的错误信息;
更新模块210,用于根据错误信息,定期更新判别模型。
进一步地,判别模型采用seq2seg技术或者transformer技术训练得到。
进一步地,回归模型采用XGBoost技术或者RNN技术训练得到。本申请实施例提供的语音合成数据的质检装置20能够实现上述方法实施例中实现的各个过程,为避免重复,这里不再赘述。
在本申请实施例中,通过第一阶段的比对以及第二阶段的打分自动化地对语音合成数据进行评价,快速确定最优的语音合成数据,提高了质检效率以及质检的准确性。
本申请实施例中的虚拟装置可以是装置,也可以是终端中的部件、集成电路、或芯片。
以上所述仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
Claims (12)
1.一种语音合成数据的质检方法,其特征在于,包括:
根据原始文本,使用不同的语音合成方式合成多条目标音频;
通过ASR模型对多条所述目标音频进行识别,得到各自的识别文本;
在所述识别文本与所述原始文本不一致的情况下,判断所述识别文本对应的所述目标音频不合格;
在所述识别文本与所述原始文本一致的情况下,判断所述识别文本对应的所述目标音频初步合格;
通过端到端的判别模型输出每个初步合格的所述目标音频的对齐后的音素的概率值;
根据所述音素的概率值进行所述音素的发音打分;
通过回归模型将所述音素的得分转化为相应的句子的得分;
在所述句子的得分高于阈值的情况下,判断所述句子对应的所述目标音频合格,并将得分最高的所述句子对应的所述目标音频判断为最佳音频。
2.根据权利要求1所述的方法,其特征在于,所述ASR模型包括:声学模型、语音模型以及词典,其中,所述声学模型采用真人语音以及合成语音进行共同训练得到,所述语音模型通过通用语言模型与各领域模型进行插值得到。
3.根据权利要求1所述的方法,其特征在于,所述判别模型采用CTC+Attention相结合的技术训练得到。
4.根据权利要求1所述的方法,其特征在于,还包括:
在所述句子的得分低于所述阈值的情况下,记录所述目标音频出现的音素级以及句子级的错误信息;
根据所述错误信息,定期更新所述判别模型。
5.根据权利要求1所述的方法,其特征在于,所述判别模型采用seq2seg技术或者transformer技术训练得到。
6.根据权利要求1所述的方法,其特征在于,所述回归模型采用XGBoost技术或者RNN技术训练得到。
7.一种语音合成数据的质检装置,其特征在于,包括:
合成模块,用于根据原始文本,使用不同的语音合成方式合成多条目标音频;
识别模块,用于通过ASR模型对多条所述目标音频进行识别,得到各自的识别文本;
第一判断模块,用于在所述识别文本与所述原始文本不一致的情况下,判断所述识别文本对应的所述目标音频不合格;
第二判断模块,用于在所述识别文本与所述原始文本一致的情况下,判断所述识别文本对应的所述目标音频初步合格;
判别模块,用于通过端到端的判别模型输出每个初步合格的所述目标音频的对齐后的音素的概率值;
打分模块,用于根据所述音素的概率值进行所述音素的发音打分;
转化模块,用于通过回归模型将所述音素的得分转化为相应的句子的得分;
第三判断模块,用于在所述句子的得分高于阈值的情况下,判断所述句子对应的所述目标音频合格,并将得分最高的所述句子对应的所述目标音频判断为最佳音频。
8.根据权利要求7所述的装置,其特征在于,所述ASR模型包括:声学模型、语音模型以及词典,其中,所述声学模型采用真人语音以及合成语音进行共同训练得到,所述语音模型通过通用语言模型与各领域模型进行插值得到。
9.根据权利要求7所述的装置,其特征在于,所述判别模型采用CTC+Attention相结合的技术训练得到。
10.根据权利要求7所述的装置,其特征在于,还包括:
记录模块,用于在所述句子的得分低于所述阈值的情况下,记录所述目标音频出现的音素级以及句子级的错误信息;
更新模块,用于根据所述错误信息,定期更新所述判别模型。
11.根据权利要求7所述的装置,其特征在于,所述判别模型采用seq2seg技术或者transformer技术训练得到。
12.根据权利要求7所述的装置,其特征在于,所述回归模型采用XGBoost技术或者RNN技术训练得到。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110562516.5A CN113035236B (zh) | 2021-05-24 | 2021-05-24 | 语音合成数据的质检方法以及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110562516.5A CN113035236B (zh) | 2021-05-24 | 2021-05-24 | 语音合成数据的质检方法以及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113035236A true CN113035236A (zh) | 2021-06-25 |
CN113035236B CN113035236B (zh) | 2021-08-27 |
Family
ID=76455695
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110562516.5A Active CN113035236B (zh) | 2021-05-24 | 2021-05-24 | 语音合成数据的质检方法以及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113035236B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113763918A (zh) * | 2021-08-18 | 2021-12-07 | 单百通 | 文本语音转化方法、装置、电子设备及可读存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103065626A (zh) * | 2012-12-20 | 2013-04-24 | 中国科学院声学研究所 | 英语口语考试系统中的朗读题自动评分方法和设备 |
WO2016209924A1 (en) * | 2015-06-26 | 2016-12-29 | Amazon Technologies, Inc. | Input speech quality matching |
CN109599093A (zh) * | 2018-10-26 | 2019-04-09 | 北京中关村科金技术有限公司 | 智能质检的关键词检测方法、装置、设备及可读存储介质 |
CN111341298A (zh) * | 2020-03-24 | 2020-06-26 | 黄艳伟 | 一种语音识别算法评分方法 |
US10708425B1 (en) * | 2015-06-29 | 2020-07-07 | State Farm Mutual Automobile Insurance Company | Voice and speech recognition for call center feedback and quality assurance |
CN112037773A (zh) * | 2020-11-05 | 2020-12-04 | 北京淇瑀信息科技有限公司 | 一种n最优口语语义识别方法、装置及电子设备 |
CN112037819A (zh) * | 2020-09-03 | 2020-12-04 | 阳光保险集团股份有限公司 | 一种基于语义的语音质检方法和装置 |
-
2021
- 2021-05-24 CN CN202110562516.5A patent/CN113035236B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103065626A (zh) * | 2012-12-20 | 2013-04-24 | 中国科学院声学研究所 | 英语口语考试系统中的朗读题自动评分方法和设备 |
WO2016209924A1 (en) * | 2015-06-26 | 2016-12-29 | Amazon Technologies, Inc. | Input speech quality matching |
US10708425B1 (en) * | 2015-06-29 | 2020-07-07 | State Farm Mutual Automobile Insurance Company | Voice and speech recognition for call center feedback and quality assurance |
CN109599093A (zh) * | 2018-10-26 | 2019-04-09 | 北京中关村科金技术有限公司 | 智能质检的关键词检测方法、装置、设备及可读存储介质 |
CN111341298A (zh) * | 2020-03-24 | 2020-06-26 | 黄艳伟 | 一种语音识别算法评分方法 |
CN112037819A (zh) * | 2020-09-03 | 2020-12-04 | 阳光保险集团股份有限公司 | 一种基于语义的语音质检方法和装置 |
CN112037773A (zh) * | 2020-11-05 | 2020-12-04 | 北京淇瑀信息科技有限公司 | 一种n最优口语语义识别方法、装置及电子设备 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113763918A (zh) * | 2021-08-18 | 2021-12-07 | 单百通 | 文本语音转化方法、装置、电子设备及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113035236B (zh) | 2021-08-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109599093B (zh) | 智能质检的关键词检测方法、装置、设备及可读存储介质 | |
CN107680582B (zh) | 声学模型训练方法、语音识别方法、装置、设备及介质 | |
Shobaki et al. | The OGI kids’ speech corpus and recognizers | |
CN100536532C (zh) | 自动加配字幕的方法和系统 | |
CN113470662A (zh) | 生成和使用用于关键词检出系统的文本到语音数据和语音识别系统中的说话者适配 | |
CN106782603B (zh) | 智能语音评测方法及系统 | |
CN103177733B (zh) | 汉语普通话儿化音发音质量评测方法与系统 | |
Yu et al. | Word-level emphasis modelling in HMM-based speech synthesis | |
CN110415725B (zh) | 使用第一语言数据评估第二语言发音质量的方法及系统 | |
CN109243460A (zh) | 一种自动生成基于地方方言的讯或询问笔录的方法 | |
Qian et al. | A two-pass framework of mispronunciation detection and diagnosis for computer-aided pronunciation training | |
CN113793593B (zh) | 适用于语音识别模型的训练数据生成方法及设备 | |
Nagano et al. | Data augmentation based on vowel stretch for improving children's speech recognition | |
CN113035236B (zh) | 语音合成数据的质检方法以及装置 | |
CN111599339A (zh) | 具有高自然度的语音拼接合成方法、系统、设备及介质 | |
Hinterleitner | Quality of Synthetic Speech | |
Liu et al. | An ASR-free fluency scoring approach with self-supervised learning | |
CN112185357A (zh) | 一种同时识别人声和非人声的装置及方法 | |
Ping | English speech recognition method based on hmm technology | |
Martinčić-Ipšić et al. | Croatian large vocabulary automatic speech recognition | |
CN114863914A (zh) | 构建端到端语音评测模型的深度学习方法 | |
Zheng | [Retracted] An Analysis and Research on Chinese College Students’ Psychological Barriers in Oral English Output from a Cross‐Cultural Perspective | |
Hinterleitner et al. | Comparison of approaches for instrumentally predicting the quality of text-to-speech systems: Data from Blizzard Challenges 2008 and 2009 | |
Babykutty et al. | Development of multilingual phonetic engine for four Indian languages | |
Li | Automatic Evaluation System of Spoken English for Multi Person Dialogue in English Teaching based on Multi Feature Fusion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder |
Address after: 411, 4th floor, building 4, No.44, Middle North Third Ring Road, Haidian District, Beijing 100088 Patentee after: Beijing Qingshu Intelligent Technology Co.,Ltd. Address before: 411, 4th floor, building 4, No.44, Middle North Third Ring Road, Haidian District, Beijing 100088 Patentee before: BEIJING AISHU WISDOM TECHNOLOGY CO.,LTD. |
|
CP01 | Change in the name or title of a patent holder |