CN112562636B - 一种语音合成纠错的方法和装置 - Google Patents
一种语音合成纠错的方法和装置 Download PDFInfo
- Publication number
- CN112562636B CN112562636B CN202011402089.6A CN202011402089A CN112562636B CN 112562636 B CN112562636 B CN 112562636B CN 202011402089 A CN202011402089 A CN 202011402089A CN 112562636 B CN112562636 B CN 112562636B
- Authority
- CN
- China
- Prior art keywords
- pronunciation
- phoneme sequence
- phoneme
- synthesized
- target entry
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 45
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 45
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000012937 correction Methods 0.000 title claims abstract description 27
- 230000002194 synthesizing effect Effects 0.000 claims description 16
- 230000004044 response Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000012790 confirmation Methods 0.000 claims description 3
- 230000002452 interceptive effect Effects 0.000 claims description 3
- 230000002085 persistent effect Effects 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 239000002355 dual-layer Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/086—Detection of language
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/69—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种语音合成纠错的方法和装置,该方法包括:获取用户录入的需要纠正读音的目标词条的参考读音;预测所述目标词条的至少一个音素序列;根据所述参考读音,计算每个所述至少一个音素序列的声学置信度;根据声学置信度最高的音素序列纠正所述目标词条的读音。本发明中,当需要纠正词条读音时,用户仅需要读出词条的正确读音,即可根据该正确读音自动给出声学置信度最高的音素序列,从而对语音合成系统合成的读音进行纠正,大大降低了用户纠正语音合成系统多音字读音的成本,解决用户在纠错过程中“会说不会标”的问题。
Description
技术领域
本发明涉及语音识别领域,具体涉及一种语音合成纠错的方法和装置。
背景技术
当前语音合成系统的发音多是根据词典和字表来确定的,当合成语音出现多音字读音错误时,往往需要用户通过更新词典中词条的注音来进行纠正,纠正时需要用户手动标注音标,对用户在语言方面的专业性有一定要求,特别是当纠正的语种为方言时,对专业性要求更高。
发明内容
本发明提供一种语音合成纠错的方法和装置,能够解决提高对于语音合成后出现的发音错误予以正音的便捷性的技术问题。
本发明解决上述技术问题的技术方案如下:
第一方面,本发明提供一种语音合成纠错的方法,包括:
获取用户录入的需要纠正读音的目标词条的参考读音;
预测所述目标词条的至少一个音素序列;
根据所述参考读音,计算每个所述至少一个音素序列的声学置信度;
根据声学置信度最高的音素序列纠正所述目标词条的读音。
本发明的有益效果是:当需要纠正词条读音时,用户仅需要读出词条的正确读音,即可根据该正确读音自动给出声学置信度最高的音素序列,从而对语音合成系统合成的读音进行纠正,大大降低了用户纠正语音合成系统多音字读音的成本,解决用户在纠错过程中“会说不会标”的问题。
进一步,所述预测所述目标词条的至少一个音素序列,具体包括:
通过内置的字典,获取所述目标词条中每个单字的全部读音;
将每个单字的全部读音排列组合,形成音素序列。
上述进一步方案的有益效果是:通过获取多音字的全部读音进行排列组合,自动形成所有可能的音素序列。
进一步,所述根据所述参考读音,计算每个所述至少一个音素序列的声学置信度,具体包括:
通过声学模型确定每一帧所述参考读音对应的所述音素序列中的音素和后验概率;
根据每一帧参考读音的后验概率,确定所述音素序列中每个音素的后验概率;
根据所述音素序列中每个音素的后验概率,确定所述音素序列的后验概率,作为所述音素序列的声学置信度。
上述进一步方案的有益效果是:通过将参考读音输入声学模型,进一步计算出了每个音素序列的声学置信度。
进一步,所述根据声学置信度最高的音素序列纠正所述目标词条的读音,具体包括:
使用语音合成引擎合成所述声学置信度最高的音素序列的合成读音并播放;
响应于用户确认所述合成读音正确,将所述目标词条和所述合成读音更新到语音合成系统的注音词典中。
上述进一步方案的有益效果是:便于用户根据听到的合成读音来确认其是否正确,从而完成读音纠正。
第二方面,本发明提供一种语音合成纠错的装置,包括:
获取模块,用于获取用户录入的需要纠正读音的目标词条的参考读音;
预测模块,用于预测所述目标词条的至少一个音素序列;
计算模块,用于根据所述参考读音,计算每个所述至少一个音素序列的声学置信度;
纠正模块,用于根据声学置信度最高的音素序列纠正所述目标词条的读音。
进一步,所述预测模块,具体包括:
获取单元,用于通过内置的字典,获取所述目标词条中每个单字的全部读音;
形成单元,用于将每个单字的全部读音排列组合,形成音素序列。
进一步,所述计算模块,具体包括:
第一确定单元,用于通过声学模型确定每一帧所述参考读音对应的所述音素序列中的音素和后验概率;
第二确定单元,用于根据每一帧参考读音的后验概率,确定所述音素序列中每个音素的后验概率;
第三确定单元,用于根据所述音素序列中每个音素的后验概率,确定所述音素序列的后验概率,作为所述音素序列的声学置信度。
进一步,所述纠正模块,具体包括:
合成单元,用于使用语音合成引擎合成所述声学置信度最高的音素序列的合成读音并播放;
更新单元,用于响应于用户确认所述合成读音正确,将所述目标词条和所述合成读音更新到语音合成系统的注音词典中。
第三方面,本发明提供一种终端设备,包括:
处理器;以及
存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行上述的方法。
第四方面,本发明提供一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行上述的方法。
附图说明
图1为本发明实施例提供的一种语音合成纠错的方法的流程图;
图2为本发明实施例提供的一种语音合成纠错的方法的业务流程图;
图3为本发明实施例提供的一种语音合成纠错的装置的结构图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
图1为本发明实施例提供的一种语音合成纠错的方法的流程图,如图1所示,该方法包括:
S1、获取用户录入的需要纠正读音的目标词条的参考读音;
具体的,本发明实施例中,如图2所示,用户首先在交互界面输入待合成的文本,语音合成系统根据文本合成对应的语音并播放给用户,由于可能存在多音字,尤其是方言等具有地方特色发音等情形,语音合成系统合成的语音会存在读音错误的情况,当用户发现文本中的某个词条或短语的语音中存在读音错误时,可在交互界面中选中该词条或短语,然后通过麦克风等语音录入设备录入该词条或短语的正确读音作为参考读音。
S2、预测所述目标词条的至少一个音素序列;
具体的,本发明实施例中,可由语音合成系统通过查询内置的字典,获取目标词条中每个单字的读音,然后将每个单字可能的读音排列组合,从而得到至少一个音素序列。
S3、根据所述参考读音,计算每个所述至少一个音素序列的声学置信度;
具体的,如图2所示,该步骤中,采用语音识别引擎根据录入的参考读音,预测出输入的文本序列中每个字(音节)的声学置信度打分。特别的,对于多音字要输出所有可能读音的声学相似度置信度打分。
S4、根据声学置信度最高的音素序列纠正所述目标词条的读音。
具体的,如图2所示,语音合成系统输出声学置信度最高的音素序列,合成对应的语音,用户确认发音正确后,即可将词条及其对应的注音更新到语音合成系统的注音词典中,并进行动态加载,完成发音的纠正和更新。
本发明实施例提供的一种语音合成纠错的方法,当需要纠正词条读音时,用户仅需要读出词条的正确读音,即可根据该正确读音自动给出声学置信度最高的音素序列,从而对语音合成系统合成的读音进行纠正,大大降低了用户纠正语音合成系统多音字读音的成本,解决用户在纠错过程中“会说不会标”的问题。
可选地,步骤S2具体包括:
S21、通过内置的字典,获取所述目标词条中每个单字的全部读音;
S22、将每个单字的全部读音排列组合,形成音素序列。
该实施例通过获取多音字的全部读音进行排列组合,自动形成所有可能的音素序列。
可选地,步骤S3具体包括:
S31、通过声学模型确定每一帧所述参考读音对应的所述音素序列中的音素和后验概率;
S32、根据每一帧参考读音的后验概率,确定所述音素序列中每个音素的后验概率;
S33、根据所述音素序列中每个音素的后验概率,确定所述音素序列的后验概率,作为所述音素序列的声学置信度。
具体的,在语音识别引擎中,每一个音素都会对应一个声学模型,这个模型是使用不同语音中发音相同的音素通过统计方法训练得到的。
该实施例中,为了将每一帧语音对应到音素的声学模型上,即得到每一帧语音与对应音素的映射关系,需要首先将语音和每一个音素序列进行强制对齐。具体的,首先通过提取每一帧语音的声学特征,得到声学特征序列,然后通过计算语音的声学特征和音素的声学模型的后验概率来得到当前帧语音对应到哪个音素。
在完成了强制对齐,得到了每一帧语音对应的音素之后,同时也得到了每一帧语音和它对应的音素的后验概率,这样通过音素对应语音帧的后验概率做加权求和,就可以得到每一个音素的后验概率。
根据之前计算的每个音素的后验概率,可以加权求和得到对应音素序列的后验概率。最后取后验概率最高的音素序列作为预测结果输出。
举例说明如下:用户用上海话输入一段的语音,语音长度共60帧,其对应的文本是【一个人】,按照上海话的音系标注音素序列,由于多音字的存在,那么对应的可能音素序列是【iIk55 eek55 n inT23】(简称序列一)或者【iIk55 eek55 z eenT23】(简称序列二)。强制对齐时,分别计算每一帧语音和序列一、序列二之间的音素对应关系。比如,第1~10帧语音对应的是序列一中的音素【iIk55】,其中,第一帧语音对应的后验概率是80%,第二帧语音对应的后延概率是95%,以此类推。在加权求和时,最简单的一种方法是算术平均数,比如,音素【eek55】对应的是第11到第15帧语音,它们的后验概率分别是95%、96%、95%、96%、95.5%,那这个音素对应的语音段的后验概率就是95.5%。通过单个音素的后延概率计算整个序列的后验概率的方法也是同理。假设最后算出来序列一的后验概率是85%,序列二的后验概率是65%,那么,序列一就是置信度更高的音素序列。
本实施例中,通过将参考读音输入声学模型,进一步计算出了每个音素序列的声学置信度。
可选地,步骤S4具体包括:
S41、使用语音合成引擎合成所述声学置信度最高的音素序列的合成读音并播放;
S42、响应于用户确认所述合成读音正确,将所述目标词条和所述合成读音更新到语音合成系统的注音词典中。
本实施例中,语音合成系统输出声学置信度最高的音素序列,合成对应的语音,用户确认发音正确后,即可将词条及其对应的注音更新到语音合成系统的注音词典中,并进行动态加载,完成发音的纠正和更新。
下面通过一个具体实例对本发明实施例的进行具体说明:
1、上海话合成系统中输入合成文本为:【一个人去旅行】,其中【一个人】的正确读音为【iIk55 eek55 n-inT23】,而合成系统将该文本的发音预测成了【iIk55 eek55 z-eenT23】,即【一个人】出现了发音错误。
2、用户在图形界面中选中【一个人】这个词条。
3、用户将【一个人】这个词条的正确发音读出来,系统收集并存储用户的语音。
4、合成系统预测出可能的音素序列,分别是【iIk55 eek55 n inT23】和【iIk55eek55 z eenT23】。
5、识别引擎预测出这段语音对于两个音素序列的置信度打分,并挑选置信度高的序列作为预测输出,比如【iIk55 eek55 n inT23】的置信度是95%,【iIk55 eek55 zeenT23】的置信度是65%,那就认为【iIk55 eek55 n inT23】是正确的读音。
6、使用上一步中输出的音素序列为句子重新注音,并合成语音给用户进行确认。
7、用户确认通过后,将该词条及其发音加入到注音词典,并加载到合成系统中,这样下一次合成的时候就可以正确播报了。
图3为本发明实施例提供的一种语音合成纠错的装置的结构图,该装置的各个模块的功能原理已在上述方法实施例中进行了对应说明,以下不再赘述。
如图3所示,该装置包括:
获取模块,用于获取用户录入的需要纠正读音的目标词条的参考读音;
预测模块,用于预测所述目标词条的至少一个音素序列;
计算模块,用于根据所述参考读音,计算每个所述至少一个音素序列的声学置信度;
纠正模块,用于根据声学置信度最高的音素序列纠正所述目标词条的读音。
进一步,所述预测模块,具体包括:
获取单元,用于通过内置的字典,获取所述目标词条中每个单字的全部读音;
形成单元,用于将每个单字的全部读音排列组合,形成音素序列。
进一步,所述计算模块,具体包括:
第一确定单元,用于通过声学模型确定每一帧所述参考读音对应的所述音素序列中的音素和后验概率;
第二确定单元,用于根据每一帧参考读音的后验概率,确定所述音素序列中每个音素的后验概率;
第三确定单元,用于根据所述音素序列中每个音素的后验概率,确定所述音素序列的后验概率,作为所述音素序列的声学置信度。
进一步,所述纠正模块,具体包括:
合成单元,用于使用语音合成引擎合成所述声学置信度最高的音素序列的合成读音并播放;
更新单元,用于响应于用户确认所述合成读音正确,将所述目标词条和所述合成读音更新到语音合成系统的注音词典中。
本发明实施例还提供一种终端设备,包括:
处理器;以及
存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行上述的方法。
其中,处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括各种类型的存储单元,例如系统内存、只读存储器(ROM),和永久存储装置。其中,ROM可以存储处理器或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中,永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中,永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备,例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外,存储器可以包括任意计算机可读存储媒介的组合,包括各种类型的半导体存储芯片(DRAM,SRAM,SDRAM,闪存,可编程只读存储器),磁盘和/或光盘也可以采用。在一些实施方式中,存储器可以包括可读和/或写的可移除的存储设备,例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM,双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。
本发明实施例还提供一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行上述的方法。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (6)
1.一种语音合成纠错的方法,其特征在于,包括:
在交互界面输入待合成的文本,语音合成系统根据所述待合成的文本合成对应的需要纠正语音,获取用户录入的需要纠正读音的目标词条的参考读音;
预测所述目标词条的至少一个音素序列;
根据所述参考读音,计算每个所述至少一个音素序列的声学置信度;
其中,所述根据所述参考读音,计算每个所述至少一个音素序列的声学置信度,具体包括:通过声学模型确定每一帧所述参考读音对应的所述音素序列中的音素和后验概率;根据每一帧参考读音的后验概率,确定所述音素序列中每个音素的后验概率;根据所述音素序列中每个音素的后验概率,确定所述音素序列的后验概率,作为所述音素序列的声学置信度;
根据声学置信度最高的音素序列纠正所述目标词条的读音;
所述根据声学置信度最高的音素序列纠正所述目标词条的读音,具体包括:
使用语音合成引擎合成所述声学置信度最高的音素序列的合成读音并播放;响应于用户确认所述合成读音正确,将所述目标词条和所述合成读音更新到语音合成系统的注音词典中。
2.根据权利要求1所述的语音合成纠错的方法,其特征在于,所述预测所述目标词条的至少一个音素序列,具体包括:
通过内置的字典,获取所述目标词条中每个单字的全部读音;
将每个单字的全部读音排列组合,形成音素序列。
3.一种语音合成纠错的装置,其特征在于,包括:
获取模块,用于在交互界面输入待合成的文本,语音合成系统根据所述待合成的文本合成对应的需要纠正语音,获取用户录入的需要纠正读音的目标词条的参考读音;
预测模块,用于预测所述目标词条的至少一个音素序列;
计算模块,用于根据所述参考读音,计算每个所述至少一个音素序列的声学置信度;
其中,所述计算模块,具体包括:第一确定单元,用于通过声学模型确定每一帧所述参考读音对应的所述音素序列中的音素和后验概率;第二确定单元,用于根据每一帧参考读音的后验概率,确定所述音素序列中每个音素的后验概率;第三确定单元,用于根据所述音素序列中每个音素的后验概率,确定所述音素序列的后验概率,作为所述音素序列的声学置信度;
纠正模块,用于根据声学置信度最高的音素序列纠正所述目标词条的读音;
所述纠正模块,具体包括:
合成单元,用于使用语音合成引擎合成所述声学置信度最高的音素序列的合成读音并播放;更新单元,用于响应于用户确认所述合成读音正确,将所述目标词条和所述合成读音更新到语音合成系统的注音词典中。
4.根据权利要求3所述的语音合成纠错的装置,其特征在于,所述预测模块,具体包括:
获取单元,用于通过内置的字典,获取所述目标词条中每个单字的全部读音;
形成单元,用于将每个单字的全部读音排列组合,形成音素序列。
5.一种终端设备,其特征在于,包括:
处理器;以及
存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求1或2所述的方法。
6.一种非暂时性机器可读存储介质,其上存储有可执行代码,其特征在于,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1或2所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011402089.6A CN112562636B (zh) | 2020-12-03 | 2020-12-03 | 一种语音合成纠错的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011402089.6A CN112562636B (zh) | 2020-12-03 | 2020-12-03 | 一种语音合成纠错的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112562636A CN112562636A (zh) | 2021-03-26 |
CN112562636B true CN112562636B (zh) | 2024-07-05 |
Family
ID=75048342
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011402089.6A Active CN112562636B (zh) | 2020-12-03 | 2020-12-03 | 一种语音合成纠错的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112562636B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111640452A (zh) * | 2019-03-01 | 2020-09-08 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6233553B1 (en) * | 1998-09-04 | 2001-05-15 | Matsushita Electric Industrial Co., Ltd. | Method and system for automatically determining phonetic transcriptions associated with spelled words |
JP2007024960A (ja) * | 2005-07-12 | 2007-02-01 | Internatl Business Mach Corp <Ibm> | システム、プログラムおよび制御方法 |
JP4704254B2 (ja) * | 2006-03-16 | 2011-06-15 | 三菱電機株式会社 | 読み修正装置 |
CN106935239A (zh) * | 2015-12-29 | 2017-07-07 | 阿里巴巴集团控股有限公司 | 一种发音词典的构建方法及装置 |
WO2019065263A1 (ja) * | 2017-09-26 | 2019-04-04 | 日本電信電話株式会社 | 発音誤り検出装置、発音誤り検出方法、プログラム |
CN109166569B (zh) * | 2018-07-25 | 2020-01-31 | 北京海天瑞声科技股份有限公司 | 音素误标注的检测方法和装置 |
US11043213B2 (en) * | 2018-12-07 | 2021-06-22 | Soundhound, Inc. | System and method for detection and correction of incorrectly pronounced words |
CN109545244A (zh) * | 2019-01-29 | 2019-03-29 | 北京猎户星空科技有限公司 | 语音评测方法、装置、电子设备及存储介质 |
CN110782921B (zh) * | 2019-09-19 | 2023-09-22 | 腾讯科技(深圳)有限公司 | 语音测评方法和装置、存储介质及电子装置 |
CN111145724B (zh) * | 2019-12-31 | 2022-08-19 | 出门问问信息科技有限公司 | 一种多音字标注方法、装置以及计算机可读存储介质 |
-
2020
- 2020-12-03 CN CN202011402089.6A patent/CN112562636B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111640452A (zh) * | 2019-03-01 | 2020-09-08 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112562636A (zh) | 2021-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7280382B2 (ja) | 数字列のエンドツーエンド自動音声認識 | |
US11270687B2 (en) | Phoneme-based contextualization for cross-lingual speech recognition in end-to-end models | |
US8886534B2 (en) | Speech recognition apparatus, speech recognition method, and speech recognition robot | |
JP3232289B2 (ja) | 記号挿入装置およびその方法 | |
US7996209B2 (en) | Method and system of generating and detecting confusing phones of pronunciation | |
JP3782943B2 (ja) | 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体 | |
US8296141B2 (en) | System and method for discriminative pronunciation modeling for voice search | |
US7840399B2 (en) | Method, device, and computer program product for multi-lingual speech recognition | |
WO2019065263A1 (ja) | 発音誤り検出装置、発音誤り検出方法、プログラム | |
CN111402862B (zh) | 语音识别方法、装置、存储介质及设备 | |
WO2011096015A1 (ja) | 認識辞書作成装置及び音声認識装置 | |
US9484019B2 (en) | System and method for discriminative pronunciation modeling for voice search | |
CN113362817B (zh) | 声音识别纠错装置、声音识别纠错方法以及声音识别纠错程序 | |
CN112216284B (zh) | 训练数据更新方法及系统、语音识别方法及系统、设备 | |
CN111326177B (zh) | 一种语音评测方法、电子设备及计算机可读存储介质 | |
US11495245B2 (en) | Urgency level estimation apparatus, urgency level estimation method, and program | |
CN112562636B (zh) | 一种语音合成纠错的方法和装置 | |
JP3911178B2 (ja) | 音声認識辞書作成装置および音声認識辞書作成方法、音声認識装置、携帯端末器、音声認識システム、音声認識辞書作成プログラム、並びに、プログラム記録媒体 | |
JP2004251998A (ja) | 対話理解装置 | |
CN115148225A (zh) | 语调评分方法、语调评分系统、计算设备及存储介质 | |
JP6625961B2 (ja) | 発音辞書及び音響モデル生成装置、音声認識装置、方法及びプログラム | |
US20230037541A1 (en) | Method and system for synthesizing speeches by scoring speeches | |
JP4981076B2 (ja) | 発音辞書修正装置、音声認識装置、およびコンピュータプログラム | |
CN118098290A (zh) | 朗读评测方法、装置、设备、存储介质及计算机程序产品 | |
JP2020042174A (ja) | 語学学習支援装置、その方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |