CN114842830A - 基于语音评测的语音合成训练方法、装置和计算机设备 - Google Patents
基于语音评测的语音合成训练方法、装置和计算机设备 Download PDFInfo
- Publication number
- CN114842830A CN114842830A CN202210471417.0A CN202210471417A CN114842830A CN 114842830 A CN114842830 A CN 114842830A CN 202210471417 A CN202210471417 A CN 202210471417A CN 114842830 A CN114842830 A CN 114842830A
- Authority
- CN
- China
- Prior art keywords
- audio data
- speech
- training
- speech synthesis
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 114
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 109
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 109
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000011156 evaluation Methods 0.000 title claims abstract description 41
- 238000013210 evaluation model Methods 0.000 claims abstract description 17
- 238000012545 processing Methods 0.000 claims abstract description 16
- 238000004590 computer program Methods 0.000 claims description 15
- 230000002194 synthesizing effect Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 8
- 238000010586 diagram Methods 0.000 description 19
- 230000008569 process Effects 0.000 description 4
- 230000000644 propagated effect Effects 0.000 description 3
- 239000002699 waste material Substances 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明属于语音合成领域,提供一种基于语音评测的语音合成训练方法,包括:获取候选训练语料,通过语音评测模型处理候选训练语料中各音频数据,获取各音频数据的置信度,并根据各音频数据的置信度,从候选训练语料中确定目标音频数据,所述目标音频数据用于训练语音合成模型,这样可以快速准确的从候选训练语料中获取发音准确的目标音频,基于该目标音频训练的语音合成模型更加稳定,基于该语音合成模型转化出的音频更加准确,即该音频的声音质量更加稳定,使得用户使用该音频时体验效果更佳。
Description
技术领域
本发明属于语音合成领域,更具体地涉及一种基于语音评测的语音合成训练方法、装置和计算机设备。
背景技术
随着互联网的快速发展,语音合成技术越来越受用户喜爱。通过语音合成技术可以将文本转换成音频,该音频可以被应用到各种业务场景,例如,新闻播报、英语听写、汉字听写、广告宣传等业务场景。目前,通过语音合成技术,基于训练语料可以训练得到语音合成模型,利用该语音合成模型可以将文本转成音频。
但是,发明人在实现本发明的发明构思时发现相关技术中至少存在一下技术问题:由于训练语料中存在部分发音不准确的语料,从而导致基于上述语音合成模型转化出的音频发音不够准确,即该音频的声音质量不够稳定,使得用户在使用该音频时体验效果不佳。
因此,有必要提供一种基于语音评测的语音合成训练方法,以解决上述问题。
发明内容
(一)要解决的技术问题
本发明旨在解决因部分发音不准确的语料,导致基于语音合成模型转化出的音频发音不够准确的技术问题。
(二)技术方案
为解决上述技术问题,本发明的一方面提出一种基于语音评测的语音合成训练方法,包括:获取候选训练语料;通过语音评测模型处理所述候选训练语料中各音频数据,获取各音频数据的置信度;根据各音频数据的置信度,从候选训练语料中确定目标音频数据,所述目标音频数据用于训练语音合成模型。
根据本发明的优选实施方式,通过所述语音评测模型处理所述候选训练语料中各音频数据,获取各音频数据的置信度包括:从各音频数据中提取各字符的发音特征,并计算各字符的发音特征的置信度;根据各字符的发音特征的置信度,计算各音频数据的置信度。
根据本发明的优选实施方式,根据各音频数据的置信度,从候选训练语料中确定目标音频数据包括:判断各音频数据的置信度是否大于预设阈值;如果一音频数据的置信度大于所述预设阈值,确定该音频数据为目标音频数据。
根据本发明的优选实施方式,该方法还包括:获取所述目标音频数据的标注文本;基于所述目标音频数据和该目标音频数据的标注文本训练所述语音合成模型。
根据本发明的优选实施方式,该方法还包括:获取待转换文本;将所述待转换文本输入至所述语音合成模型,获取所述待转换文本的音素特征;基于所述待转换文本的音素特征和预设音色特征,合成目标语音。
本发明第二方面提出了一种基于语音评测的语音合成训练装置,包括:第一获取模块,用于获取候选训练语料;语料分析模块,用于通过语音评测模型处理所述候选训练语料中各音频数据,获取各音频数据的置信度;确定模块,用于根据各音频数据的置信度,从候选训练语料中确定目标音频数据,所述目标音频数据用于训练语音合成模型。
本发明第三方面提出一种计算机设备,包括处理器和存储器,所述存储器用于存储计算机可执行程序,当所述计算机程序被所述处理器执行时,所述处理器执行上述任一项所述的一种基于语音评测的语音合成训练方法。
本发明第四方面提出一种计算机程序产品,存储有计算机可执行程序,所述计算机可执行程序被执行时,实现上述任一项所述的一种基于语音评测的语音合成训练方法。
(三)有益效果
与现有技术相比,本发明获取候选训练语料,通过语音评测模型处理候选训练语料中各音频数据,获取各音频数据的置信度,并根据各音频数据的置信度,从候选训练语料中确定目标音频数据,所述目标音频数据用于训练语音合成模型,这样可以快速准确的从候选训练语料中获取发音准确的目标音频,基于该目标音频训练的语音合成模型更加稳定,基于该语音合成模型转化出的音频更加准确,即该音频的声音质量更加稳定,使得用户使用该音频时体验效果更佳。
附图说明
图1示出了可以应用本发明实施例的技术方案的示例性系统架构的示意图;
图2是本发明的实施例的基于语音评测的语音合成训练方法的一示例的流程图;
图3是本发明的实施例的基于语音评测的语音合成训练方法的另一示例的流程图;
图4是本发明的实施例的基于语音评测的语音合成训练方法的另一示例的流程图;
图5是本发明的实施例的基于语音评测的语音合成训练方法的另一示例的流程图;
图6是本发明的实施例的基于语音评测的语音合成训练方法的另一示例的流程图;
图7是本发明的实施例的基于语音评测的语音合成训练装置的一示例的示意图;
图8是本发明的实施例的基于语音评测的语音合成训练装置的另一示例的示意图;
图9是本发明的实施例的基于语音评测的语音合成训练装置的另一示例的示意图;
图10是本发明的一个实施例的计算机设备的结构示意图;
图11是本发明的一个实施例的计算机程序产品的示意图。
具体实施方式
在对于具体实施例的介绍过程中,对结构、性能、效果或者其他特征的细节描述是为了使本领域的技术人员对实施例能够充分理解。但是,并不排除本领域技术人员可以在特定情况下,以不含有上述结构、性能、效果或者其他特征的技术方案来实施本发明。
附图中的流程图仅是一种示例性的流程演示,不代表本发明的方案中必须包括流程图中的所有的内容、操作和步骤,也不代表必须按照图中所显示的的顺序执行。例如,流程图中有的操作/步骤可以分解,有的操作/步骤可以合并或部分合并,等等,在不脱离本发明的发明主旨的情况下,流程图中显示的执行顺序可以根据实际情况改变。
附图中的框图一般表示的是功能实体,并不一定必然与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理单元装置和/或微控制器装置中实现这些功能实体。
各附图中相同的附图标记表示相同或类似的元件、组件或部分,因而下文中可能省略了对相同或类似的元件、组件或部分的重复描述。还应理解,虽然本文中可能使用第一、第二、第三等表示编号的定语来描述各种器件、元件、组件或部分,但是这些器件、元件、组件或部分不应受这些定语的限制。也就是说,这些定语仅是用来将一者与另一者区分。例如,第一器件亦可称为第二器件,但不偏离本发明实质的技术方案。此外,术语“和/或”、“及/或”是指包括所列出项目中的任一个或多个的所有组合。
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。
图1示出了可以应用本发明实施例的技术方案的示例性系统架构的示意图。
如图1所示,系统架构100可以包括用户终端101、102、103中的一种或多种,网络104和服务器105。网络104用以在用户终端101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
应该理解,图1中的用户终端、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的用户终端、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。
用户可以使用用户终端101、102、103通过网络104与服务器105交互,以接收或发送消息等。用户终端101、102、103可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、便携式计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器。例如服务器105可以实时获取用户终端103(也可以是用户终端101或102)的候选训练语料,通过语音评测模型处理候选训练语料中各音频数据,获取各音频数据的置信度,并根据各音频数据的置信度,从候选训练语料中确定目标音频数据,所述目标音频数据用于训练语音合成模型,这样可以快速准确的从候选训练语料中获取发音准确的目标音频,基于该目标音频训练的语音合成模型更加稳定,基于该语音合成模型转化出的音频更加准确,即该音频的声音质量更加稳定,使得用户使用该音频时体验效果更佳。
在一些实施例中,本发明实施例所提供的基于语音评测的语音合成训练方法一般由服务器105执行,相应地,基于语音评测的语音合成训练装置一般设置于服务器105中。在另一些实施例中,某些终端可以具有与服务器相似的功能从而执行本方法。因此,本发明实施例所提供的基于语音评测的语音合成训练方法不限定在服务器端执行。
图2是本发明的实施例的基于语音评测的语音合成训练方法的一示例的流程图。
如图2所示,基于语音评测的语音合成训练方法包括步骤S210~步骤S230。
在步骤S210中,获取候选训练语料。
在步骤S220中,通过语音评测模型处理所述候选训练语料中各音频数据,获取各音频数据的置信度。
在步骤S230中,根据各音频数据的置信度,从候选训练语料中确定目标音频数据,所述目标音频数据用于训练语音合成模型。
该方法可以获取候选训练语料,通过语音评测模型处理候选训练语料中各音频数据,获取各音频数据的置信度,并根据各音频数据的置信度,从候选训练语料中确定目标音频数据,所述目标音频数据用于训练语音合成模型,这样可以快速准确的从候选训练语料中获取发音准确的目标音频,基于该目标音频训练的语音合成模型更加稳定,基于该语音合成模型转化出的音频更加准确,即该音频的声音质量更加稳定,使得用户使用该音频时体验效果更佳。
在本发明的一些实施例中,上述候选训练语料可以是根据实际业务场景事先录制的。例如,不同的发音员基于预设文本阅读时录制的。
在本发明的一些实施例中,上述语音评测模型可以用于评测候选训练语料中音频的发音是否准确。例如,将候选训练语料中的音频输入上述语音评测模型,可以获取到各音频中每个字符的评分,基于每个字符的评分可以确定出各音频的置信度。
在本发明的一些实施例中,根据候选训练语料中各音频的置信度可以筛选出发音准确的目标音频和发音不准确的废弃音频。例如,将音频的置信度大于预设阈值的音频确定为发音准确的目标音频。将音频的置信度小于等于预设阈值的音频确定为发音不准确的废弃音频。在本实施例中,根据各音频的置信度,可以从候选训练语料中删除发音不准确的废弃音频,并基于发音准确的目标音频训练语音合成模型。
图3是本发明的实施例的基于语音评测的语音合成训练方法的另一示例的流程图。
如图3所示,上述步骤S220具体可以包括步骤S310~步骤S320。
在步骤S310中,从各音频数据中提取各字符的发音特征,并计算各字符的发音特征的置信度。
在步骤S320中,根据各字符的发音特征的置信度,计算各音频数据的置信度。
该方法可以从各音频数据中提取各字符的发音特征,并计算各字符的发音特征的置信度,并根据各字符的发音特征的置信度,计算各音频数据的置信度,这样可以快速准确的判断出各音频的字符的发音质量,便于后续根据各音频数据的置信度从候选训练语料中删除发音不准确的音频。
在本发明的一些实施例中,从各音频数据中提取各字符的发音特征,并计算各字符的发音特征的置信度。例如,将各音频数据输入到语音评测模型,该语音评测模型可以从各音频数据中提取各字符的发音特征,并基于各字符的发音特征对各字符进行打分,各字符的分数可以作为各字符的发音特征的置信度。在本实施例中,根据各字符的分数可以判断出各音频的发音质量。
在本发明的一些实施例中,上述发音特征可以指中文字符的声韵母,也可以指英文字符的英语音标。具体地,从各音频数据中提取中文字符的声韵母,并基于各中文字符的声韵母对各中文字符进行打分。或者,从各音频数据中提取英文字符的英语音标,并基于各英文字符的英语音标对各英语字符进行打分。采用上述方式可以对候选训练语料中的各音频数据的各语种的字符进行打分,并基于该分数从候选训练语料中筛选发音准确的音频数据,然后,基于该发音准确的音频数据训练语音合成模型。
在本发明的一些实施例中,根据各字符的发音特征的置信度,计算各音频数据的置信度。例如,基于各字符的发音特征的置信度求平均数,得到各音频数据的置信度。根据各音频数据的置信度可以判断各音频的发音质量。
图4是本发明的实施例的基于语音评测的语音合成训练方法的另一示例的流程图。
如图4所示,上述步骤S230具体可以包括步骤S410~步骤S420。
在步骤S410中,判断各音频数据的置信度是否大于预设阈值。
在步骤S420中,如果一音频数据的置信度大于所述预设阈值,确定该音频数据为目标音频数据。
该方法可以判断各音频数据的置信度是否大于预设阈值,如果一音频数据的置信度大于所述预设阈值,确定该音频数据为目标音频数据,这样可以快速准确的从候选训练语料中确定出发音准确的目标音频数据,基于该目标音频数据训练的语音合成模型更加稳定。
在本发明的一些实施例中,上述预设阈值可以根据实际业务场景进行设置。
在本发明的一些实施例中,如果一音频数据的置信度大于所述预设阈值,确定该音频数据为目标音频数据。例如,当候选训练语料中的音频的置信度大于预设阈值时,可以将该音频作为发音准确的音频,用于训练语音合成模型。
在本发明的一些实施例中,如果一音频数据的置信度小于等于所述预设阈值,确定该音频数据为废弃音频数据。例如,当候选训练语料中的音频的置信度小于等于预设阈值时,将该音频确定为发音不准确的音频,并从候选训练语料中删除该音频。
图5是本发明的实施例的基于语音评测的语音合成训练方法的另一示例的流程图。
如图5所示,上述方法还可以包括步骤S510~步骤S520。
在步骤S510中,获取所述目标音频数据的标注文本。
在步骤S520中,基于所述目标音频数据和该目标音频数据的标注文本训练所述语音合成模型。
该方法可以基目标音频数据和该目标音频数据的标注文本训练所述语音合成模型,以此方式可以提高语音合成模型产出音频的准确度,以使得音频的发音质量更加准确。
在本发明的一些实施例中,上述目标音频数据的标注文本可以是发音员录音时阅读的预设文本,该预设文本可以根据实际业务场景进行设置。例如,预设文本可以是新闻播报、英语听写、汉字听写、广告宣传等业务场景的相关文本。
图6是本发明的实施例的基于语音评测的语音合成训练方法的另一示例的流程图。
如图6所示,上述方法还可以包括步骤S610~步骤S630。
在步骤S610中,获取待转换文本。
在步骤S620中,将所述待转换文本输入至所述语音合成模型,获取所述待转换文本的音素特征。
在步骤S630中,基于所述待转换文本的音素特征和预设音色特征,合成目标语音。
该方法基于目标音频数据训练得到的语音合成模型可以将待转换文本转化为音频,以此方式可以获取到高发音质量的音频。例如,将待转换文本输入至该语音合成模型,获取待转换文本的音素特征,并基于待转换文本的音素特征和预设音色特征,合成目标语音,即高发音质量的音频。
在本发明的一些实施例中,上述音素特征可以是字符的声韵母,预设音色特征可以是发音员的音色。
图7是本发明的实施例的基于语音评测的语音合成训练装置的一示例的示意图。
如图7所示,基于语音评测的语音合成训练装置700包括第一获取模块710、语料分析模块720和确定模块730。
具体地,第一获取模块710,用于获取候选训练语料。
语料分析模块720,用于通过语音评测模型处理所述候选训练语料中各音频数据,获取各音频数据的置信度。
确定模块730,用于根据各音频数据的置信度,从候选训练语料中确定目标音频数据,所述目标音频数据用于训练语音合成模型。
该基于语音评测的语音合成训练装置700可以获取候选训练语料,通过语音评测模型处理候选训练语料中各音频数据,获取各音频数据的置信度,并根据各音频数据的置信度,从候选训练语料中确定目标音频数据,所述目标音频数据用于训练语音合成模型,这样可以快速准确的从候选训练语料中获取发音准确的目标音频,基于该目标音频训练的语音合成模型更加稳定,基于该语音合成模型转化出的音频更加准确,即该音频的声音质量更加稳定,使得用户使用该音频时体验效果更佳。
根据本发明的实施例,该基于语音评测的语音合成训练装置700可以用于实现图2实施例描述的基于语音评测的语音合成训练方法。
根据本发明的优选实施方式,上述语料分析模块720被配置为:从各音频数据中提取各字符的发音特征,并计算各字符的发音特征的置信度;根据各字符的发音特征的置信度,计算各音频数据的置信度。
根据本发明的优选实施方式,上述确定模块730被配置为:判断各音频数据的置信度是否大于预设阈值;如果一音频数据的置信度大于所述预设阈值,确定该音频数据为目标音频数据。
图8是本发明的实施例的基于语音评测的语音合成训练装置的一示例的示意图。
如图8所示,基于语音评测的语音合成训练装置700包括第二获取模块740和训练模块750。
具体地,第二获取模块740,用于获取所述目标音频数据的标注文本。
训练模块750,用于基于所述目标音频数据和该目标音频数据的标注文本训练所述语音合成模型。
该基于语音评测的语音合成训练装置700可以基目标音频数据和该目标音频数据的标注文本训练所述语音合成模型,以此方式可以提高语音合成模型产出音频的准确度,以使得音频的发音质量更加准确。
根据本发明的实施例,该基于语音评测的语音合成训练装置700可以用于实现图5实施例描述的基于语音评测的语音合成训练方法。
图9是本发明的实施例的基于语音评测的语音合成训练装置的一示例的示意图。
如图9所示,基于语音评测的语音合成训练装置700包括第三获取模块760、文本处理模块770和语音合成模块780。
具体地,第三获取模块760,用于获取待转换文本。
文本处理模块770,用于将所述待转换文本输入至所述语音合成模型,获取所述待转换文本的音素特征。
语音合成模块780,基于所述待转换文本的音素特征和预设音色特征,合成目标语音。
该基于语音评测的语音合成训练装置700可以基于目标音频数据训练得到的语音合成模型可以将待转换文本转化为音频,以此方式可以获取到高发音质量的音频。例如,将待转换文本输入至该语音合成模型,获取待转换文本的音素特征,并基于待转换文本的音素特征和预设音色特征,合成目标语音,即高发音质量的音频。
根据本发明的实施例,该基于语音评测的语音合成训练装置700可以用于实现图6实施例描述的基于语音评测的语音合成训练方法
由于本发明的示例实施例的基于语音评测的语音合成训练装置800的各个模块可以用于实现上述2~图6描述的基于语音评测的语音合成训练方法的示例实施例的步骤,因此对于本发明装置实施例中未披露的细节,请参照本发明上述的基于语音评测的语音合成训练方法的实施例。
可以理解的是,基于语音评测的语音合成训练装置700包括第一获取模块710、语料分析模块720、确定模块730、第二获取模块740、训练模块750、第三获取模块760、文本处理模块770和语音合成模块780可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本发明的实施例,基于语音评测的语音合成训练装置700包括第一获取模块710、语料分析模块720、确定模块730、第二获取模块740、训练模块750、第三获取模块760、文本处理模块770和语音合成模块780中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以以对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式的适当组合来实现。或者,基于语音评测的语音合成训练装置700包括第一获取模块710、语料分析模块720、确定模块730、第二获取模块740、训练模块750、第三获取模块760、文本处理模块770和语音合成模块780中的至少一个可以至少被部分地实现为计算机程序模块,当该程序被计算机运行时,可以执行相应模块的功能。
下面描述本发明的计算机设备实施例,该计算机设备可以视为对于上述本发明的方法和装置实施例的具体实体实施方式。对于本发明计算机设备实施例中描述的细节,应视为对于上述方法或装置实施例的补充;对于在本发明计算机设备实施例中未披露的细节,可以参照上述方法或装置实施例来实现。
图10是本发明的一个实施例的计算机设备的结构示意图,该计算机设备包括处理器和存储器,所述存储器用于存储计算机可执行程序,当所述计算机程序被所述处理器执行时,所述处理器执行实施例中任一项所述的方法,包括但不限于图2的方法。
如图10所示,计算机设备以通用计算设备的形式表现。其中处理器可以是一个,也可以是多个并且协同工作。本发明也不排除进行分布式处理,即处理器可以分散在不同的实体设备中。本发明的计算机设备并不限于单一实体,也可以是多个实体设备的总和。
所述存储器存储有计算机可执行程序,通常是机器可读的代码。所述计算机可读程序可以被所述处理器执行,以使得计算机设备能够执行本发明的方法,或者方法中的至少部分步骤。
所述存储器包括易失性存储器,例如随机存取存储单元(RAM)和/或高速缓存存储单元,还可以是非易失性存储器,如只读存储单元(ROM)。
可选地,该实施例中,计算机设备还包括有I/O接口,其用于计算机设备与外部的设备进行数据交换。I/O接口可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
应当理解,图10显示的计算机设备仅仅是本发明的一个示例,本发明的计算机设备中还可以包括上述示例中未示出的元件或组件。例如,有些计算机设备中还包括有显示屏等显示单元,有些计算机设备还包括人机交互元件,例如按扭、键盘等。只要该计算机设备能够执行存储器中的计算机可读程序以实现本发明方法或方法的至少部分步骤,均可认为是本发明所涵盖的计算机设备。
图11是本发明的一个实施例的计算机程序产品的示意图。如图11所示,计算机程序产品中存储有计算机可执行程序,所述计算机可执行程序被执行时,实现本发明上述方法。所述计算机程序产品可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。所述计算机程序产品可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。所述计算机程序产品上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
通过以上对实施方式的描述,本领域的技术人员易于理解,本发明可以由能够执行特定计算机程序的硬件来实现,例如本发明的系统,以及系统中包含的电子处理单元、服务器、客户端、手机、控制单元、处理器等。本发明也可以由执行本发明的方法的计算机软件来实现,例如由微处理器、电子控制单元,客户端、服务器端等执行的控制软件来实现。但需要说明的是,执行本发明的方法的计算机软件并不限于由一个或特定个的硬件实体中执行,其也可以是由不特定具体硬件的以分布式的方式来实现。对于计算机软件,软件产品可以存储在一个计算机可读的存储介质(可以是CD-ROM,U盘,移动硬盘等)中,也可以分布式存储于网络上,只要其能使得计算机设备执行根据本发明的方法。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,本发明不与任何特定计算机、虚拟装置或者计算机设备固有相关,各种通用装置也可以实现本发明。以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于语音评测的语音合成训练方法,其特征在于,包括:
获取候选训练语料;
通过语音评测模型处理所述候选训练语料中各音频数据,获取各音频数据的置信度;
根据各音频数据的置信度,从候选训练语料中确定目标音频数据,所述目标音频数据用于训练语音合成模型。
2.根据权利要求1所述的基于语音评测的语音合成训练方法,其特征在于,通过所述语音评测模型处理所述候选训练语料中各音频数据,获取各音频数据的置信度包括:
从各音频数据中提取各字符的发音特征,并计算各字符的发音特征的置信度;
根据各字符的发音特征的置信度,计算各音频数据的置信度。
3.根据权利要求1所述的基于语音评测的语音合成训练方法,其特征在于,根据各音频数据的置信度,从候选训练语料中确定目标音频数据包括:
判断各音频数据的置信度是否大于预设阈值;
如果一音频数据的置信度大于所述预设阈值,确定该音频数据为目标音频数据。
4.根据权利要求1所述的基于语音评测的语音合成训练方法,该方法还包括:
获取所述目标音频数据的标注文本;
基于所述目标音频数据和该目标音频数据的标注文本训练所述语音合成模型。
5.根据权利要求1所述的基于语音评测的语音合成训练方法,该方法还包括:
获取待转换文本;
将所述待转换文本输入至所述语音合成模型,获取所述待转换文本的音素特征;
基于所述待转换文本的音素特征和预设音色特征,合成目标语音。
6.一种基于语音评测的语音合成训练装置,其特征在于,包括:
第一获取模块,用于获取候选训练语料;
语料分析模块,用于通过语音评测模型处理所述候选训练语料中各音频数据,获取各音频数据的置信度;
确定模块,用于根据各音频数据的置信度,从候选训练语料中确定目标音频数据,所述目标音频数据用于训练语音合成模型。
7.根据权利要求6所述的基于语音评测的语音合成训练装置,其特征在于,所述语料分析模块被配置为:
从各音频数据中提取各字符的发音特征,并计算各字符的发音特征的置信度;
根据各字符的发音特征的置信度,计算各音频数据的置信度。
8.根据权利要求6所述的基于语音评测的语音合成训练装置,其特征在于,所述确定模块被配置为:
判断各音频数据的置信度是否大于预设阈值;
如果一音频数据的置信度大于所述预设阈值,确定该音频数据为目标音频数据。
9.一种计算机设备,包括处理器和存储器,所述存储器用于存储计算机可执行程序,其特征在于,当所述计算机程序被所述处理器执行时,所述处理器执行如权利要求1-5中任一项所述的基于文本数据确定目标用户的方法。
10.一种计算机程序产品,包括计算机程序/指令,其特征在于,所述计算机程序/指令当被处理器执行时,实现权利要求1-5中任一项所述的基于文本数据确定目标用户的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210471417.0A CN114842830A (zh) | 2022-04-28 | 2022-04-28 | 基于语音评测的语音合成训练方法、装置和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210471417.0A CN114842830A (zh) | 2022-04-28 | 2022-04-28 | 基于语音评测的语音合成训练方法、装置和计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114842830A true CN114842830A (zh) | 2022-08-02 |
Family
ID=82567267
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210471417.0A Pending CN114842830A (zh) | 2022-04-28 | 2022-04-28 | 基于语音评测的语音合成训练方法、装置和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114842830A (zh) |
-
2022
- 2022-04-28 CN CN202210471417.0A patent/CN114842830A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7122341B2 (ja) | 翻訳品質を評価するための方法と装置 | |
US20240021202A1 (en) | Method and apparatus for recognizing voice, electronic device and medium | |
US20200184948A1 (en) | Speech playing method, an intelligent device, and computer readable storage medium | |
CN110197655B (zh) | 用于合成语音的方法和装置 | |
US20220092276A1 (en) | Multimodal translation method, apparatus, electronic device and computer-readable storage medium | |
CN109256133A (zh) | 一种语音交互方法、装置、设备及存储介质 | |
CN109754783A (zh) | 用于确定音频语句的边界的方法和装置 | |
CN112309365A (zh) | 语音合成模型的训练方法、装置、存储介质以及电子设备 | |
Graham et al. | Evaluating OpenAI's Whisper ASR: Performance analysis across diverse accents and speaker traits | |
CN113409761B (zh) | 语音合成方法、装置、电子设备以及计算机可读存储介质 | |
CN114842830A (zh) | 基于语音评测的语音合成训练方法、装置和计算机设备 | |
CN116229935A (zh) | 语音合成方法、装置、电子设备及计算机可读介质 | |
CN111966803B (zh) | 对话模拟方法、装置、存储介质及电子设备 | |
CN113221514A (zh) | 文本处理方法、装置、电子设备和存储介质 | |
CN113851106A (zh) | 音频播放方法、装置、电子设备和可读存储介质 | |
US20200243092A1 (en) | Information processing device, information processing system, and computer program product | |
CN113240447A (zh) | 广告推送方法、装置、存储介质以及服务器 | |
JP2021128632A (ja) | 情報処理装置及び情報処理方法 | |
CN115312062A (zh) | 基于端云一体识别语音信号的方法、系统和计算机设备 | |
CN115312059A (zh) | 基于自动机的前缀树处理语音信号的方法、装置和设备 | |
CN115116429A (zh) | 中英文混合识别方法、装置和计算机设备 | |
CN115312076A (zh) | 短语语音信号识别方法、装置和计算机设备 | |
JP7409475B2 (ja) | 発話終端検出装置、制御方法、及びプログラム | |
CN114822492B (zh) | 语音合成方法及装置、电子设备、计算机可读存储介质 | |
CN113763921B (zh) | 用于纠正文本的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |