CN109817198B - 语音合成方法、装置及存储介质 - Google Patents
语音合成方法、装置及存储介质 Download PDFInfo
- Publication number
- CN109817198B CN109817198B CN201910168234.XA CN201910168234A CN109817198B CN 109817198 B CN109817198 B CN 109817198B CN 201910168234 A CN201910168234 A CN 201910168234A CN 109817198 B CN109817198 B CN 109817198B
- Authority
- CN
- China
- Prior art keywords
- data
- text
- audio data
- audio
- pairs
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种语音合成方法、装置及存储介质,语音合成方法包括对采集的初始音频数据进行重采样处理,获取重采样音频数据;对重采样音频数据进行切割处理,获取若干种切割音频数据;对每一种切割音频数据进行文本识别处理,获取每一种切割音频数据对应的若干个文本数据,得到若干对文本音频对;对所有文本音频对进行识别比较处理,获取正确的文本音频对;对正确的文本音频对进行特征提取处理,获取训练语料参数;通过预设的深度神经网络模型对训练语料参数进行训练,生成多维度的训练语料数据;该方法能够省去人工文本标注工作,有效地提高工作效率和文本音频对的识别准确率。
Description
技术领域
本发明涉及语音技术领域,尤其涉及一种语音合成方法、装置及存储介质。
背景技术
TTS(text-to-speech)技术是语音合成技术的一种,是一种输入语言文字数据,将其转换为语音的技术。随着近年人工智能技术的发展,端到端的TTS技术在深度学习的框架下发展趋向成熟,基于深度学习的端到端TTS模型主要有以谷歌为代表的Tacotron系列与以百度为代表的Deep Voice系列。端到端模型的优点是可以直接从长语音中训练,不需要繁杂的人工修正工作,然而,这种模型仍需进行人工的文本标注工作获取正确的<文本,音频>对;同时在合成具有发音人单个发音特点的语音时需要发音人的音频数据通常达数小时或数十小时,这样,在构建多发音特点的语音合成时则需要大量的录制成本。
发明内容
本发明的目的是提供一种语音合成方法、装置及存储介质,在进行语音训练时可以省去人工文本标注工作以及在合成多发音特点的语音时减少音频数据的录制成本。
本发明实施例提供了一种语音合成方法,包括:
随机选取所述多维度的训练语料数据中若干个训练语料数据,并计算选取的若干个训练语料数据与所述多维度的训练语料数据的t-SNE距离;
选取t-SNE距离最小的训练语料数据作为语音合成的发音特点参数;
获取待合成文本数据,并将所述待合成文本数据和所述发音特点参数进行语音合成处理,得到待合成文本数据对应的语音合成结果。
其中,获取所述多维度的训练语料数据的方法,包括:
对采集的初始音频数据进行重采样处理,获取重采样音频数据;
对所述重采样音频数据进行切割处理,获取若干种切割音频数据;
对每一种切割音频数据进行文本识别处理,获取每一种切割音频数据对应的若干个文本数据,得到若干对文本音频对;其中,所述文本数据包括中文文本数据和英文文本数据;
对所有文本音频对进行识别比较处理,获取正确的文本音频对;
对所述正确的文本音频对进行特征提取处理,获取训练语料参数;
通过预设的深度神经网络模型对所述训练语料参数进行训练,生成多维度的训练语料数据;其中,一个维度的训练语料数据对应发音人的一个发音特点信息。
优选地,所述对采集的初始音频数据进行重采样处理,获取重采样音频数据,具体包括:
对采样率高的初始音频数据进行下采样处理,获取第一采样音频数据;
对采样率低的初始音频数据进行上采样处理,获取第二采样音频数据;
其中,所述第一采样音频数据和所述第二采样音频数据的采样率一致。
优选地,所述对所述重采样音频数据进行切割处理,获取若干种切割音频数据,具体包括:
通过预设若干种参数的音频分割器,对所述重采样音频数据进行切割处理,获取相对应的若干种切割音频数据。
优选地,所述对每一种切割音频数据进行文本识别处理,获取每一种切割音频数据对应的若干个文本数据,得到若干对文本音频对;其中,所述文本数据包括中文文本数据和英文文本数据;具体包括:
通过预设若干种参数的语音识别器,对每一种切割音频数据进行文本识别处理,获取每一种切割音频数据对应的若干个文本数据。
优选地,所述对所有文本音频对进行识别比较处理,获取正确的文本音频对,具体包括:
通过pypinyin包将同一切割音频数据的所有中文文本数据转化为拼音文本数据,并判断所述拼音文本数据是否相同,若相同,则对应的切割音频数据的文本音频对识别准确;
通过英文单词音素表对同一切割音频数据的所有英文文本数据进行查询并判断所述英文文本数据的音素是否相同,若相同,则对应的切割音频数据的英文音频对识别准确。
本发明实施例还提供了一种语音合成装置,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述的语音合成方法。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述的语音合成方法。
相对于现有技术,本发明提供的一种语音合成方法的有益效果在于:
本发明实施例提供的一种语音合成方法,通过对初始音频数据进行切割、文本识别和文本音频对识别比较处理,获取正确的文本音频对,能够省去人工文本标注工作,有效地提高工作效率和文本音频对的识别准确率。
本发明实施例提供的一种语音合成方法,通过在经过语音训练获取的多维度的训练语料数据中随机选取若干个训练语料数据,并通过计算选取的若干个训练语料数据与所述多维度的训练语料数据的t-SNE距离确定语音合成的发音特点参数,从而根据待合成文本数据和发音特点参数进行语音合成处理,得到待合成文本数据对应的语音合成结果,有效地减少音频数据的录制成本以及额外训练成本。
附图说明
图1是本发明实施例提供的一种获取所述多维度的训练语料数据的方法的流程示意图;
图2是本发明实施例提供的一种语音合成方法的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1,其是本发明实施例提供的一种获取所述多维度的训练语料数据的方法的流程示意图,包括:
S101:对采集的初始音频数据进行重采样处理,获取重采样音频数据;
S102:对所述重采样音频数据进行切割处理,获取若干种切割音频数据;
S103:对每一种切割音频数据进行文本识别处理,获取每一种切割音频数据对应的若干个文本数据,得到若干对文本音频对;其中,所述文本数据包括中文文本数据和英文文本数据;
S104:对所有文本音频对进行识别比较处理,获取正确的文本音频对;
S105:对所述正确的文本音频对进行特征提取处理,获取训练语料参数;
S106:通过预设的深度神经网络模型对所述训练语料参数进行训练,生成多维度的训练语料数据;其中,一个维度的训练语料数据对应发音人的一个发音特点信息。
在本实施例中,通过对初始音频数据进行切割、文本识别和文本音频对识别比较处理,获取正确的文本音频对,能够省去人工文本标注工作,有效地提高工作效率和文本音频对的识别准确率。
在一种可选的实施例中,S101:对采集的初始音频数据进行重采样处理,获取重采样音频数据,具体包括:
对采样率高的初始音频数据进行下采样处理,获取第一采样音频数据;
对采样率低的初始音频数据进行上采样处理,获取第二采样音频数据;
其中,所述第一采样音频数据和所述第二采样音频数据的采样率一致。
在本实施例中,主要是通过重采样器将不同采样率的初始音频数据重新采样为统一采样率的音频数据。
在一种可选的实施例中,S102:对所述重采样音频数据进行切割处理,获取若干种切割音频数据,具体包括:
通过预设若干种参数的音频分割器,对所述重采样音频数据进行切割处理,获取相对应的若干种切割音频数据。
在本实施例中,例如使用了m种预设参数的音频分割器对重采样音频数据进行切割处理,这样可得到不同切割参数的m种切割音频数据,其中由于音频分割器预设的参数不同,得到的切割音频数据的平均时长也会不一样,这样会扩增训练数据,降低训练成本。其中音频分割器预设参数有hop_length、win_length、threshold、min_duration等参数,通过预设这4个参数不同的值,得到的切割音频数据平均时长不同,如1秒、2秒...4秒等切割,首先对重采样音频数据进行STFT(短时傅里叶变换)处理,STFT(短时傅里叶变换)处理所需的参数为hop_length与win_length,这两个参数决定了STFT(短时傅里叶变换)处理的精度,进行STFT(短时傅里叶变换)之后,得到win_length长度的切割音频数据片段的STFT系数,再计算每段win_length长度的STFT系数的dB值,设定threshold,若dB值低于设定threshold,则认为该段切割音频数据是静默语音;按hop_length对win_length长度的切割音频数据片段进行推移并重复上述计算dB值。min_duration是低于设定threshold的语音最少持续长度,如一段语音中有0.3秒dB值低于设定threshold,而设定的min_duration为0.5秒,则不对其进行分割,反之,若设定的min_duration为0.2秒,则对其进行分割。显然,对于这四种参数的设定不同,分割器会进行不同的分割,导致平均时长不同。
同时,音频分割器在对重采样音频数据进行切割时,会记录每段切割音频数据对应的初始音频数据位置,在后续操作中如果需要使用初始音频数据作为训练数据时,方便调出来使用,同时为语音合成提供更好的训练数据,提高语音合成效果。
在一种可选的实施例中,S103:对每一种切割音频数据进行文本识别处理,获取每一种切割音频数据对应的若干个文本数据,得到若干对文本音频对;其中,所述文本数据包括中文文本数据和英文文本数据,具体包括:
通过预设若干种参数的语音识别器,对每一种切割音频数据进行文本识别处理,获取每一种切割音频数据对应的若干个文本数据。
在本实施例中,通过预设若干种参数的语音识别器对切割音频数据进行文本识别处理,主要是为了获取同一切割音频数据的若干个文本数据,得到若干对文本音频对,使用多个语音识别器有效地降低文本音频对的误判率,且不需要人工标注,降低数据获取成本。
在一种可选的实施例中,S104:对所有文本音频对进行识别比较处理,获取正确的文本音频对,具体包括:
通过pypinyin包将同一切割音频数据的所有中文文本数据转化为拼音文本数据,并判断所述拼音文本数据是否相同,若相同,则对应的切割音频数据的文本音频对识别准确;
通过英文单词音素表对同一切割音频数据的所有英文文本数据进行查询并判断所述英文文本数据的音素是否相同,若相同,则对应的切割音频数据的英文音频对识别准确。
在本实施例中,一般获取的初始音频数据可以为中文初始音频数据和英文初始音频数据,故在文本识别时,语音识别器输出的文本数据可能存在中文文本数据和英文文本数据,在文本音频对识别比较处理过程中,只有当同一切割音频数据对应的文本数据全部一致时,才可认为语音识别器输出的文本数据准确。
在一种可选的实施例中,S105:对所述正确的文本音频对进行特征提取处理,获取训练语料参数。
在本实施例中,所述训练语料参数包括发音人的音素、频谱、语速、发音人ID等等,其中,音素主要是根据文本音频对中的文本数据进行特征提取,频谱主要是对文本音频对中的音频进行STFT方法计算得出,所述频谱可以为梅尔频谱或线性频谱。
在一种可选的实施例中,S106:通过预设的深度神经网络模型对所述训练语料参数进行训练,生成多维度的训练语料数据;其中,一个维度的训练语料数据对应发音人的一个发音特点信息。
在本实施例中,所述预设的深度神经网络模型主要包括编码器模块,解码器模块和发音特点控制模块,组成的深度神经网络经过训练后,发音特点控制模块将会学习出多维度的训练语料数据。
请参阅图2,其是本发明实施例提供的语音合成方法的流程示意图,所述语音合成方法,包括:
S201:随机选取所述多维度的训练语料数据中若干个训练语料数据,并计算选取的若干个训练语料数据与所述多维度的训练语料数据的t-SNE距离;
S202:选取t-SNE距离最小的训练语料数据作为语音合成的发音特点参数;
S203:获取待合成文本数据,并将所述待合成文本数据和发音特点参数进行语音合成处理,得到待合成文本数据对应的语音合成结果。
在本实施例中,通过在经过语音训练获取的多维度的训练语料数据中随机选取若干个训练语料数据,并通过计算选取的若干个训练语料数据与所述多维度的训练语料数据的t-SNE距离确定语音合成的发音特点参数,从而根据待合成文本数据和发音特点参数进行语音合成处理,得到待合成文本数据对应的语音合成结果,有效地减少音频数据的录制成本以及额外训练成本。其中t-SNE是一种用于降维的机器学习算法;将所述待合成文本数据和发音特点参数进行语音合成处理,主要是通过语音合成器进行语音合成处理,可选Griffin-Lim合成器或WaveGlow合成器。
本发明实施例还提供了一种语音合成装置,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述的语音合成方法。
示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述语音合成装置中的执行过程。
所述语音合成装置可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述语音合成装置可包括,但不仅限于,处理器、存储器,还可以包括输入输出设备、网络接入设备、总线等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述语音合成装置的控制中心,利用各种接口和线路连接整个语音合成装置的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述语音合成装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
其中,所述语音合成装置集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述的语音合成方法。
相对于现有技术,本发明提供的一种语音合成方法的有益效果在于:
本发明实施例提供的一种语音合成方法,通过对初始音频数据进行切割、文本识别和文本音频对识别比较处理,获取正确的文本音频对,能够省去人工文本标注工作,有效地提高工作效率和文本音频对的识别准确率。通过在经过语音训练获取的多维度的训练语料数据中随机选取若干个训练语料数据,并通过计算选取的若干个训练语料数据与所述多维度的训练语料数据的t-SNE距离确定语音合成的发音特点参数,从而根据待合成文本数据和发音特点参数进行语音合成处理,得到待合成文本数据对应的语音合成结果,有效地减少音频数据的录制成本以及额外训练成本。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (7)
1.一种语音合成方法,其特征在于,包括:
随机选取多维度的训练语料数据中若干个训练语料数据,并计算选取的若干个训练语料数据与所述多维度的训练语料数据的t-SNE距离;
选取t-SNE距离最小的训练语料数据作为语音合成的发音特点参数;
获取待合成文本数据,并将所述待合成文本数据和所述发音特点参数进行语音合成处理,得到待合成文本数据对应的语音合成结果;
其中,获取所述多维度的训练语料数据的方法,包括:
对采集的初始音频数据进行重采样处理,获取重采样音频数据;
对所述重采样音频数据进行切割处理,获取若干种切割音频数据;
对每一种切割音频数据进行文本识别处理,获取每一种切割音频数据对应的若干个文本数据,得到若干对文本音频对;其中,所述文本数据包括中文文本数据和英文文本数据;
对所有文本音频对进行识别比较处理,获取正确的文本音频对;
对所述正确的文本音频对进行特征提取处理,获取训练语料参数;
通过预设的深度神经网络模型对所述训练语料参数进行训练,生成多维度的训练语料数据;其中,一个维度的训练语料数据对应发音人的一个发音特点信息。
2.如权利要求1所述的语音合成方法,其特征在于,所述对采集的初始音频数据进行重采样处理,获取重采样音频数据,具体包括:
对采样率高的初始音频数据进行下采样处理,获取第一采样音频数据;
对采样率低的初始音频数据进行上采样处理,获取第二采样音频数据;
其中,所述第一采样音频数据和所述第二采样音频数据的采样率一致。
3.如权利要求1所述的语音合成方法,其特征在于,所述对所述重采样音频数据进行切割处理,获取若干种切割音频数据,具体包括:
通过预设若干种参数的音频分割器,对所述重采样音频数据进行切割处理,获取相对应的若干种切割音频数据。
4.如权利要求1所述的语音合成方法,其特征在于,所述对每一种切割音频数据进行文本识别处理,获取每一种切割音频数据对应的若干个文本数据,得到若干对文本音频对;其中,所述文本数据包括中文文本数据和英文文本数据;具体包括:
通过预设若干种参数的语音识别器,对每一种切割音频数据进行文本识别处理,获取每一种切割音频数据对应的若干个文本数据。
5.如权利要求1所述的语音合成方法,其特征在于,所述对所有文本音频对进行识别比较处理,获取正确的文本音频对,具体包括:
通过pypinyin包将同一切割音频数据的所有中文文本数据转化为拼音文本数据,并判断所述拼音文本数据是否相同,若相同,则对应的切割音频数据的文本音频对识别准确;
通过英文单词音素表对同一切割音频数据的所有英文文本数据进行查询并判断所述英文文本数据的音素是否相同,若相同,则对应的切割音频数据的英文音频对识别准确。
6.一种语音合成装置,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至5中任意一项所述的语音合成方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至5中任意一项所述的语音合成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910168234.XA CN109817198B (zh) | 2019-03-06 | 2019-03-06 | 语音合成方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910168234.XA CN109817198B (zh) | 2019-03-06 | 2019-03-06 | 语音合成方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109817198A CN109817198A (zh) | 2019-05-28 |
CN109817198B true CN109817198B (zh) | 2021-03-02 |
Family
ID=66608239
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910168234.XA Active CN109817198B (zh) | 2019-03-06 | 2019-03-06 | 语音合成方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109817198B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109979429A (zh) * | 2019-05-29 | 2019-07-05 | 南京硅基智能科技有限公司 | 一种tts的方法及系统 |
CN110288980A (zh) * | 2019-06-17 | 2019-09-27 | 平安科技(深圳)有限公司 | 语音识别方法、模型的训练方法、装置、设备及存储介质 |
CN112242134A (zh) * | 2019-07-01 | 2021-01-19 | 北京邮电大学 | 语音合成方法及装置 |
CN110390928B (zh) * | 2019-08-07 | 2022-01-11 | 广州多益网络股份有限公司 | 一种自动拓增语料的语音合成模型训练方法和系统 |
CN111316352B (zh) * | 2019-12-24 | 2023-10-10 | 深圳市优必选科技股份有限公司 | 语音合成方法、装置、计算机设备和存储介质 |
CN111145719B (zh) * | 2019-12-31 | 2022-04-05 | 北京太极华保科技股份有限公司 | 将中英混合及语气标签化的数据标注方法及装置 |
CN111402867B (zh) * | 2020-04-21 | 2021-01-22 | 北京字节跳动网络技术有限公司 | 混合采样率声学模型训练方法、装置及电子设备 |
CN112116903A (zh) * | 2020-08-17 | 2020-12-22 | 北京大米科技有限公司 | 语音合成模型的生成方法、装置、存储介质及电子设备 |
CN112133277B (zh) * | 2020-11-20 | 2021-02-26 | 北京猿力未来科技有限公司 | 样本生成方法及装置 |
CN112652291B (zh) * | 2020-12-15 | 2024-04-05 | 携程旅游网络技术(上海)有限公司 | 基于神经网络的语音合成方法、系统、设备及存储介质 |
CN113362800A (zh) * | 2021-06-02 | 2021-09-07 | 深圳云知声信息技术有限公司 | 用于语音合成语料库的建立方法、装置、设备和介质 |
CN113744724A (zh) * | 2021-08-30 | 2021-12-03 | 苏州浪潮智能科技有限公司 | 一种语音转换方法、装置、设备及存储介质 |
CN116030789B (zh) * | 2022-12-28 | 2024-01-26 | 南京硅基智能科技有限公司 | 一种生成语音合成训练数据的方法和装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1453037A3 (en) * | 2003-02-28 | 2006-05-17 | Samsung Electronics Co., Ltd. | Method of setting optimum-partitioned classified neural network and method and apparatus for automatic labeling using optimum-partitioned classified neural network |
CN102982809A (zh) * | 2012-12-11 | 2013-03-20 | 中国科学技术大学 | 一种说话人声音转换方法 |
CN103474069A (zh) * | 2013-09-12 | 2013-12-25 | 中国科学院计算技术研究所 | 用于融合多个语音识别系统的识别结果的方法及系统 |
CN106997767A (zh) * | 2017-03-24 | 2017-08-01 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音处理方法及装置 |
CN107657947A (zh) * | 2017-09-20 | 2018-02-02 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音处理方法及其装置 |
CN109243468A (zh) * | 2018-11-14 | 2019-01-18 | 北京羽扇智信息科技有限公司 | 语音识别方法、装置、电子设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101727902B (zh) * | 2008-10-29 | 2011-08-10 | 中国科学院自动化研究所 | 一种对语调进行评估的方法 |
-
2019
- 2019-03-06 CN CN201910168234.XA patent/CN109817198B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1453037A3 (en) * | 2003-02-28 | 2006-05-17 | Samsung Electronics Co., Ltd. | Method of setting optimum-partitioned classified neural network and method and apparatus for automatic labeling using optimum-partitioned classified neural network |
CN102982809A (zh) * | 2012-12-11 | 2013-03-20 | 中国科学技术大学 | 一种说话人声音转换方法 |
CN103474069A (zh) * | 2013-09-12 | 2013-12-25 | 中国科学院计算技术研究所 | 用于融合多个语音识别系统的识别结果的方法及系统 |
CN106997767A (zh) * | 2017-03-24 | 2017-08-01 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音处理方法及装置 |
CN107657947A (zh) * | 2017-09-20 | 2018-02-02 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音处理方法及其装置 |
CN109243468A (zh) * | 2018-11-14 | 2019-01-18 | 北京羽扇智信息科技有限公司 | 语音识别方法、装置、电子设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
语音合成音库自动标注方法研究;杨辰雨;《中国博士学位论文全文数据库 信息科技辑》;20141015(第10期);第I136-31页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109817198A (zh) | 2019-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109817198B (zh) | 语音合成方法、装置及存储介质 | |
US10586533B2 (en) | Method and device for recognizing speech based on Chinese-English mixed dictionary | |
CN109389968B (zh) | 基于双音节混搭的波形拼接方法、装置、设备及存储介质 | |
CN110675855B (zh) | 一种语音识别方法、电子设备及计算机可读存储介质 | |
US20180322867A1 (en) | Method and device for recognizing speech based on chinese-english mixed dictionary | |
EP3504709B1 (en) | Determining phonetic relationships | |
US11158302B1 (en) | Accent detection method and accent detection device, and non-transitory storage medium | |
US20120065961A1 (en) | Speech model generating apparatus, speech synthesis apparatus, speech model generating program product, speech synthesis program product, speech model generating method, and speech synthesis method | |
CN111696557A (zh) | 语音识别结果的校准方法、装置、设备及存储介质 | |
WO2014183373A1 (en) | Systems and methods for voice identification | |
CN107093422B (zh) | 一种语音识别方法和语音识别系统 | |
CN111128116B (zh) | 一种语音处理方法、装置、计算设备及存储介质 | |
Boothalingam et al. | Development and evaluation of unit selection and HMM-based speech synthesis systems for Tamil | |
CN111883137A (zh) | 基于语音识别的文本处理方法及装置 | |
CN113327576B (zh) | 语音合成方法、装置、设备及存储介质 | |
CN112908308B (zh) | 一种音频处理方法、装置、设备及介质 | |
US20110218802A1 (en) | Continuous Speech Recognition | |
CN112686041B (zh) | 一种拼音标注方法及装置 | |
US10446133B2 (en) | Multi-stream spectral representation for statistical parametric speech synthesis | |
US20100305948A1 (en) | Phoneme Model for Speech Recognition | |
CN109559752B (zh) | 语音识别方法和装置 | |
CN114512118A (zh) | 基于声音语谱图的智能分句方法、计算机装置及存储介质 | |
KR102051235B1 (ko) | 스피치 합성에서 푸어 얼라인먼트를 제거하기 위한 아웃라이어 식별 시스템 및 방법 | |
CN114783424A (zh) | 文本语料筛选方法、装置、设备及存储介质 | |
CN113658599A (zh) | 基于语音识别的会议记录生成方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |