CN102592594A - 基于统计参数模型的增量式语音在线合成方法 - Google Patents
基于统计参数模型的增量式语音在线合成方法 Download PDFInfo
- Publication number
- CN102592594A CN102592594A CN2012100576093A CN201210057609A CN102592594A CN 102592594 A CN102592594 A CN 102592594A CN 2012100576093 A CN2012100576093 A CN 2012100576093A CN 201210057609 A CN201210057609 A CN 201210057609A CN 102592594 A CN102592594 A CN 102592594A
- Authority
- CN
- China
- Prior art keywords
- segmentation
- parameter
- model
- speech
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种基于统计参数模型的增量式语音在线合成方法,其步骤包括:文本分析,获得用户输入合成文本对应的模型状态集参数序列;状态序列分段,寻找声学模型状态序列的最佳分段位置,并依照分段位置对状态级参数序列进行切分;将分段后的各个状态级参数序列片段,依照文本顺序以流水线方式依次进行参数生成、语音合成和音频播放/传输,在线输出连续的合成语音。本发明所述的基于统计参数模型的增量式语音在线合成方法,缩短了合成一段文本语音并播放或传输所需的时间延迟,并可以根据实际需要非常灵活地改变合成速度,同时其最大程度地控制了分段造成的动态信息损失,保证了合成语音的质量。
Description
技术领域
本发明涉及了语音技术领域,尤其涉及了一种基于统计参数模型的增量式语音在线合成方法。
背景技术
基于统计参数模型的语音合成方法是目前主流的语音合成技术之一。基于统计参数模型的语音合成方法[A. Black, Statistical parametric speech synthesis, 2007],首先需要对语音信号进行参数化分析,一般包括表征激励信息的基音频率参数及非周期成分和表征声道滤波器谱特征的频谱参数,然后对分析所得的参数进行统计建模,统计模型一般采用隐马尔科夫模型(HMM)。在合成时利用训练的模型进行相关声学参数的预测,最终通过参数合成器还原语音信号。这种方法的自动化程度较高,可以在不需要人工干预的情况下,自动快速地构建合成系统,而且对于不同发音人、不同发音风格、甚至不同发音语种的依赖性非常小,并且能够取得较好的合成语音的流畅度和自然度。
但是由于在传统基于HMM语音合成中,参与模型训练的声学参数要同时结合前后帧参数之间的动态关联信息,因此HMM一般是针对待合成的整段或整句进行建模,导致在实际应用中一般需要等到整个句子完全生成后,才能进行下一步的播放或传送;如果对合成文本进行随机地分段,每次只生成一小段语音,合成语音的质量则会有较大下降,这使得传统基于HMM的语音合成无法适用于实时性要求较高的在线应用。
对于这一问题,目前国内外研究的技术解决方案较少,主要方法是强制捆绑若干音素模型序列来分段合成语音[T. Dutoit, A Streaming Architecture for Statistical Parametric Speech Synthesis, 2011],捆绑音素的数目是人为设定的,不够灵活,且对合成质量有较大影响。国内外尚未有相关专利涉及这一问题。本发明针对传统HMM语音合成中的这一问题,提出依据模型参数方差阈值对合成内容进行合理分段的方法,增量式地生成合成语音。本发明提出的分段准则较为灵活,可以调整合成速度,并最大程度保证最终合成语音的质量没有下降。
发明内容
本发明主要是针对现有技术的不足,提供了一种实时性强、质量更好的基于统计参数模型的增量式语音在线合成方法。
为了实现上述目的,本发明提供以下技术方案:
一种基于统计参数模型的增量式语音在线合成方法,包括:文本分析,获得用户输入合成文本对应的整段模型序列参数;状态序列分段,寻找声学模型状态序列的最佳分段位置,并根据分段位置对状态序列进行切分;将分段后的各个状态级参数序列片段,依照文本顺序以流水线方式依次进行参数生成、语音合成和音频播放/传输三个步骤,并在线输出连续的合成语音。
作为本发明的一优选实施例,所述状态序列分段包括以下步骤:
第一级模型序列分组,根据合成文本中的标点符号,将各个声学特征模型序列切分成对应的组;
第二级模型状态序列分段,确定声学模型状态序列的分段位置,对经过标点符号分组后的每组模型序列,确定谱特征模型中动态特征参数的方差小于给定阈值的状态位置为候选状态分段位置;
声学模型状态序列分段,根据预设的分段数从候选状态分段位置中选择最优分段位置,将该组中各声学特征的模型状态序列切分为对应的状态序列片段流。
作为本发明的一优选实施例,所述的各种声学特征包括基频特征、谱特征和非周期能量成分特征。
作为本发明的一优选实施例,所述的谱特征模型中动态特征参数的方差根据下式来计算:
作为本发明的一优选实施例,参数生成、语音合成和音频播放/传输三个步骤具体包括:
参数生成,按最大似然参数生成准则,生成每段声学模型状态序列对应的语音参数序列,并利用上一段语音参数序列的段尾部分数据对当前分段生成的语音参数序列的段首部分进行平滑处理;
语音合成,将当前分段的语音参数序列送入参数化语音合成滤波器中合成出当前分段对应的语音信号;
音频播放/传输,将当前分段生成的语音信号进行播放或传输,同时生成后续分段的语音参数和语音信号。
作为本发明的一优选实施例,分段边界处的语音参数平滑处理通过利用前一段段尾语音参数对当前段段首若干帧声学特征的静态参数按维进行插值操作来完成。
作为本发明的一优选实施例,通过分段数目和方差阈值两个参数来调控合成延迟和合成质量之间的平衡。
作为本发明的一优选实施例,对分段后的声学模型状态序列片段流进行后处理:如果当前状态序列片段的时长大于前一状态序列片段时长的设定倍数,则合并当前片段和前一片段。
从上述技术方案可以看出,所述基于统计参数模型的增量式语音在线合成方法,通过提出能够保证合成质量的模型序列分段方法,克服了传统合成语音的局限性;并进一步提出流水线的工作方式,结合段间参数平滑处理,提高了文语转换的实时性;另外,其可以根据实际需要非常灵活地改变合成的速度,同时其最大程度地控制了分段造成的动态信息损失,保证了合成语音的质量。
附图说明
图1是本发明所述的增量式的基于统计参数模型的语音在线合成系统的工作流程图;
图2是本发明所述模型状态序列分段方法的工作流程图;
图3是本发明所述参数生成、语音合成、音频播放/传输流水线的工作流程图。
具体实施方式
下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
参阅图1、图2和图3,图1是本发明所述的增量式的基于统计参数模型的语音在线合成系统的工作流程图;图2是本发明所述模型序列分段方法的工作流程图;图3是本发明所述参数生成、语音合成、音频播放/传输流水线的工作流程图。
一种基于统计参数模型的增量式语音在线合成方法,其包括:文本分析,获得用户输入合成文本对应的整段模型序列参数;状态序列分段,寻找声学模型状态序列的最佳分段位置,并根据分段位置对状态序列进行切分;将分段后的各个状态级参数序列片段,依照文本顺序以流水线方式依次进行参数生成、语音合成和音频播放/传输三个步骤,并在线输出连续的合成语音。
为了保证以流水线方式增量合成语音的质量,对分段后的声学模型状态序列片段流进行后处理:如果当前状态序列片段的时长大于前一状态序列片段时长的设定倍数,则合并当前片段和前一片段。所述对分段后的状态序列的后处理,具体是按从前向后的顺序扫描模型状态序列,判断当前分段与前一分段的长度之差,若长度之差大于前一分段的倍,也就是说前一分段较当前分段过短,本分段模型状态序列合成所需时间将超过前一分段的播放时间,则将本分段模型序列与前一分段合并,作为新的模型序列分段。根据统计的实时率,的优选取值为9。
所述的各种声学特征包括基频特征、谱特征和非周期能量成分特征。
所述基于统计参数模型的增量式语音在线合成方法的具体步骤包括:首先,对输入的文本进行文本分析,得到每个目标音素的上下文环境描述信息,然后将这些信息输入模型聚类决策树,得到每个目标音素对应的谱特征、基频特征和非周期成分特征的模型和模型状态参数,其中,模型状态参数包括各特征参数的均值和方差。
所述基于统计参数模型的增量式语音在线合成方法的模型采用了隐马尔科夫模型,模型参数包括静态、动态特征的参数均值和参数方差,其中动态特征用来表征前后帧参数变化的关联信息。
其次,所述状态序列分段包括以下步骤:
第一步,第一级模型序列分组,根据合成文本中的标点符号,将各个声学特征模型序列切分成对应的组;
第二步,第二级模型状态序列分段,确定声学模型状态序列的分段位置,对经过标点符号分组后的每组模型序列,确定谱特征模型中动态特征参数的方差小于给定阈值的状态位置为候选状态分段位置;
参数包括静态特征与动态特征,静态特征是指从语音信号中提出的各种声学特征参数,而动态特征是指用来表示前后帧的静态特征参数之间关系的动态信息,包括静态特征的一阶差分和二阶差分;某时刻的模型参数方差是指一个维对角矩阵,其中后维子对角矩阵是动态特征的参数方差,并用矩阵范数计算其大小,其中是静态特征的维数。
先设定谱特征的动态方差阈值,再对谱特征模型序列所有时刻的动态特征参数方差进行扫描,某时刻的动态特征参数方差是一个维对角矩阵, 为时刻对应模型状态上第维谱特征的第阶动态特征的方差参数。动态特征参数的方差大小的计算式为
记录上式的结果小于设定阈值,即的位置,并将所有分组分段位置记录为,且,其中是分组位置的数目,是分组位置的数目。设置分组位置对应动态特征参数方差为0。对上述分段位置根据其动态特征参数方差由大到小进行排序,作为候选状态分段位置。
第三步,声学模型状态序列分段,根据预设的分段数从候选状态分段位置中选择最优分段位置,将该组中各声学特征的模型状态序列切分为对应的状态序列片段流。
确定分段位置参考的声学特征是谱特征,选取谱特征动态方差最小的位置作为状态序列分段位置是基于如下两点分析:
(A)根据最大似然参数生成准则[K. Tokuda, Speech parameter generation from hmm using dynamic features, 1995],预测语音特征参数向量序列的计算式为
其中
(B)选取动态特征的方差较小的位置,可以使分段造成的动态特性损失控制在较小的范围内;对于每段模型状态序列,在后续参数生成步骤中,实际需要将段首帧和段末帧的动态参数方差置零;另一方面,窗函数中静态特征部分通过单位矩阵刻画,因此分段无需考虑静态参数方差。
所述分段过程采用了动态特征的方差阈值作为准则,其是一种非常灵活的分段方法,可以根据实际应用场景对合成速度的需要,机动地调整方差阈值。所设方差阈值越大,则状态序列分段越多,合成速度越快;反之,方差阈值越小,合成速度则越慢;另外,本发明对合成内容在谱特征模型状态序列动态方差最小的位置进行切分,最大程度上控制了分段造成的动态信息损失,保证了合成语音的质量。
所述的进行参数生成、语音合成和音频播放/传输,包括以下步骤:
第一步,参数生成,按最大似然参数生成准则,生成每段声学模型状态序列对应的语音参数序列,并对当前分段生成的语音参数序列的段首部分,与上一段的语音参数序列的段尾部分一起进行平滑处理;
第二步,语音合成,将当前分段的语音参数序列送入参数化语音合成滤波器中合成出当前分段对应的语音;
所述参数化语音合成滤波器的选择取决于所采用的谱特征类型和是否支持非周期能量成分特征;若当前段对应合成文本顺序的最后一段,则无需进行下一分段的参数生成与平滑处理。
第三步,音频播放/传输,将当前分段生成的语音进行播放或传输,同时生成后续分段的语音参数和语音信号。
(1) 第分段参数生成
平滑处理只需对段首若干帧进行,可以依照(4)式迭代计算下去。
若参数生成当前段为第一段,则不需进行段首参数平滑。
对第分段的参数,包括分段的基频参数,谱参数和非周期能量成分参数送入参数化语音合成滤波器中合成出当前分段对应的音频。参数化语音合成滤波器的选择取决于所采用的谱特征类型和是否支持非周期能量成分特征。比如,若谱特征采用的是MCEP特征,则可以用梅尔对数谱估计(MLSA)滤波器;若谱特征采用的是MGC或MGC-LSP特征,则可以采用梅尔广义对数谱估计(MGLSA)滤波器;若谱特征采用的是LPC或LSP特征,则可以采用全极点滤波器;另外STRAIGHT分析合成器可以支持非周期能量成分的使用。
(3) 第分段音频播放/传输
在流形式工作中,在第分段播放/传输完成前、第分段语音合成完成后,需等待至第分段播放/传输完成,再开始第分段的播放/传输;在第分段语音合成完成前、第分段参数生成完成后,需等待至在第分段语音合成完成,再开始第分段的语音合成。
此外,基于以上各步骤,在具体实施例中,本发明可以进一步调整设定谱特征动态参数的方差阈值,以灵活调控合成的速度。具体地,当对合成速度或合成实时性要求较高时,可提高设定的阈值,以取得更多的分段,若分段数目已达设定上限,则适当提高该上限;相反地,若对合成速度要求较低,则可降低设定的阈值,以保证更好的合成质量。
假设在具体实施例中,总分段数为并最终生成了连续播放的语音。若用来代表在每个步骤每个分段所需要的时间,其中 分别代表参数生成、语音合成和音频播放三个阶段,为合成语音的播放时间 。传统的合成方法中,总耗时为
由于在实际的语音合成中,统计到一般语音合成的实时率为0.1,也即是说,例如一段常速播放需要10秒的语音,其整个合成流程需要的时间为1秒左右。因此对于本发明的流水线工作模式部分,第分段参数生成和第分段语音合成两个步骤的时间均远小于第分段音频播放的时间,即
因而采用本发明所需的总时间为
(7)
所述基于统计参数模型的增量式语音在线合成方法,通过提出能够保证合成质量的模型序列分段方法,克服了传统合成语音的局限性;并进一步提出流水线的工作方式,结合段间参数平滑处理,提高了文语转换的实时性;另外,其可以根据实际并且非常灵活的改变合成的速度,同时其最大程度地控制了分段造成的动态信息损失,保证了合成语音的质量。
以上所述,仅为本发明优选实施例的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本领域的技术人员在本发明所揭露的技术范围内,可不经过创造性劳动想到的变化或替换,都应涵盖在本发明的保护范围之内。
Claims (8)
1.一种基于统计参数模型的增量式语音在线合成方法,其特征在于,包括:
文本分析,获得用户输入合成文本对应的整段模型序列参数;
状态序列分段,寻找声学模型状态序列的最佳分段位置,并根据分段位置对状态序列进行切分;
将分段后的各个状态级参数序列片段,依照文本顺序以流水线方式依次进行参数生成、语音合成和音频播放/传输三个步骤,并在线输出连续的合成语音。
2.根据权利要求1所述的基于统计参数模型的增量式语音在线合成方法,其特征在于,所述状态序列分段包括以下步骤:
第一级模型序列分组,根据合成文本中的标点符号,将各个声学特征模型序列切分成对应的组;
第二级模型状态序列分段,确定声学模型状态序列的分段位置,对经过标点符号分组后的每组模型序列,确定谱特征模型中动态特征参数的方差小于给定阈值的状态位置为候选状态分段位置;
声学模型状态序列分段,根据预设的分段数从候选状态分段位置中选择最优分段位置,将该组中各声学特征的模型状态序列切分为对应的状态序列片段流。
3.根据权利要求2所述的基于统计参数模型的增量式语音在线合成方法,其特征在于,所述的各种声学特征包括基频特征、谱特征和非周期能量成分特征。
5.根据权利要求1所述的基于统计参数模型的增量式语音在线合成方法,其特征在于,参数生成、语音合成和音频播放/传输三个步骤具体包括:
参数生成,按最大似然参数生成准则,生成每段声学模型状态序列对应的语音参数序列,并利用上一段语音参数序列的段尾部分数据对当前分段生成的语音参数序列的段首部分进行平滑处理;
语音合成,将当前分段的语音参数序列送入参数化语音合成滤波器中合成出当前分段对应的语音信号;
音频播放/传输,将当前分段生成的语音信号进行播放或传输,同时生成后续分段的语音参数和语音信号。
6.根据权利要求5所述的基于统计参数模型的增量式语音在线合成方法,其特征在于,分段边界处的语音参数平滑处理通过利用前一段段尾语音参数对当前段段首若干帧声学特征的静态参数按维进行插值操作来完成。
7.根据权利要求1所述的基于统计参数模型的增量式语音在线合成方法,其特征在于,通过分段数目和方差阈值两个参数来调控合成延迟和合成质量之间的平衡。
8.根据权利要求1所述的增量式的基于统计参数模型的语音在线合成方法,其特征在于,对分段后的声学模型状态序列片段流进行后处理:如果当前状态序列片段的时长大于前一状态序列片段时长的设定倍数,则合并当前片段和前一片段。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012100576093A CN102592594A (zh) | 2012-04-06 | 2012-04-06 | 基于统计参数模型的增量式语音在线合成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012100576093A CN102592594A (zh) | 2012-04-06 | 2012-04-06 | 基于统计参数模型的增量式语音在线合成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102592594A true CN102592594A (zh) | 2012-07-18 |
Family
ID=46481135
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2012100576093A Pending CN102592594A (zh) | 2012-04-06 | 2012-04-06 | 基于统计参数模型的增量式语音在线合成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102592594A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103474067A (zh) * | 2013-08-19 | 2013-12-25 | 安徽科大讯飞信息科技股份有限公司 | 语音信号传输方法及系统 |
CN107871495A (zh) * | 2016-09-27 | 2018-04-03 | 晨星半导体股份有限公司 | 文字转语音方法及系统 |
CN107924678A (zh) * | 2015-09-16 | 2018-04-17 | 株式会社东芝 | 语音合成装置、语音合成方法、语音合成程序、语音合成模型学习装置、语音合成模型学习方法以及语音合成模型学习程序 |
CN107919113A (zh) * | 2016-10-07 | 2018-04-17 | 卡西欧计算机株式会社 | 乐音再生装置、电子乐器、乐音再生方法以及记录介质 |
CN108364656A (zh) * | 2018-03-08 | 2018-08-03 | 北京得意音通技术有限责任公司 | 一种用于语音重放检测的特征提取方法及装置 |
CN110428812A (zh) * | 2019-07-30 | 2019-11-08 | 天津大学 | 基于动态时间规划根据语音信息合成舌超声视频的方法 |
CN111081216A (zh) * | 2019-12-26 | 2020-04-28 | 上海优扬新媒信息技术有限公司 | 一种音频合成方法、装置、服务器及存储介质 |
CN112750418A (zh) * | 2020-12-28 | 2021-05-04 | 苏州思必驰信息科技有限公司 | 音频或音频链接的生成方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20010047260A1 (en) * | 2000-05-17 | 2001-11-29 | Walker David L. | Method and system for delivering text-to-speech in a real time telephony environment |
CN1956056A (zh) * | 2006-10-16 | 2007-05-02 | 同济大学 | 语音合成装置、语音合成方法以及gps语音导航系统 |
CN101276583A (zh) * | 2007-03-29 | 2008-10-01 | 株式会社东芝 | 语音合成系统和语音合成方法 |
CN101859564A (zh) * | 2009-04-08 | 2010-10-13 | 北京闻言科技有限公司 | 一种听电子书的方法 |
-
2012
- 2012-04-06 CN CN2012100576093A patent/CN102592594A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20010047260A1 (en) * | 2000-05-17 | 2001-11-29 | Walker David L. | Method and system for delivering text-to-speech in a real time telephony environment |
CN1956056A (zh) * | 2006-10-16 | 2007-05-02 | 同济大学 | 语音合成装置、语音合成方法以及gps语音导航系统 |
CN101276583A (zh) * | 2007-03-29 | 2008-10-01 | 株式会社东芝 | 语音合成系统和语音合成方法 |
CN101859564A (zh) * | 2009-04-08 | 2010-10-13 | 北京闻言科技有限公司 | 一种听电子书的方法 |
Non-Patent Citations (1)
Title |
---|
MARIA ASTRINAKI: "sHTS : A Streaming Architecture for Statistical Parametric Speech Synthesis", 《INTERNATIONAL WORKSHOP ON PERFORMATIVE SPEECH AND SINGING SYNTHESIS》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103474067B (zh) * | 2013-08-19 | 2016-08-24 | 科大讯飞股份有限公司 | 语音信号传输方法及系统 |
CN103474067A (zh) * | 2013-08-19 | 2013-12-25 | 安徽科大讯飞信息科技股份有限公司 | 语音信号传输方法及系统 |
CN107924678B (zh) * | 2015-09-16 | 2021-12-17 | 株式会社东芝 | 语音合成装置、语音合成方法及存储介质 |
CN107924678A (zh) * | 2015-09-16 | 2018-04-17 | 株式会社东芝 | 语音合成装置、语音合成方法、语音合成程序、语音合成模型学习装置、语音合成模型学习方法以及语音合成模型学习程序 |
CN113724685B (zh) * | 2015-09-16 | 2024-04-02 | 株式会社东芝 | 语音合成模型学习装置、语音合成模型学习方法及存储介质 |
US11423874B2 (en) | 2015-09-16 | 2022-08-23 | Kabushiki Kaisha Toshiba | Speech synthesis statistical model training device, speech synthesis statistical model training method, and computer program product |
CN113724685A (zh) * | 2015-09-16 | 2021-11-30 | 株式会社东芝 | 语音合成模型学习装置、语音合成模型学习方法及存储介质 |
CN107871495A (zh) * | 2016-09-27 | 2018-04-03 | 晨星半导体股份有限公司 | 文字转语音方法及系统 |
CN107919113A (zh) * | 2016-10-07 | 2018-04-17 | 卡西欧计算机株式会社 | 乐音再生装置、电子乐器、乐音再生方法以及记录介质 |
CN108364656A (zh) * | 2018-03-08 | 2018-08-03 | 北京得意音通技术有限责任公司 | 一种用于语音重放检测的特征提取方法及装置 |
CN108364656B (zh) * | 2018-03-08 | 2021-03-09 | 北京得意音通技术有限责任公司 | 一种用于语音重放检测的特征提取方法及装置 |
CN110428812A (zh) * | 2019-07-30 | 2019-11-08 | 天津大学 | 基于动态时间规划根据语音信息合成舌超声视频的方法 |
CN110428812B (zh) * | 2019-07-30 | 2022-04-05 | 天津大学 | 基于动态时间规划根据语音信息合成舌超声视频的方法 |
CN111081216A (zh) * | 2019-12-26 | 2020-04-28 | 上海优扬新媒信息技术有限公司 | 一种音频合成方法、装置、服务器及存储介质 |
CN112750418A (zh) * | 2020-12-28 | 2021-05-04 | 苏州思必驰信息科技有限公司 | 音频或音频链接的生成方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102592594A (zh) | 基于统计参数模型的增量式语音在线合成方法 | |
US11115541B2 (en) | Post-teleconference playback using non-destructive audio transport | |
JP6538128B2 (ja) | オーディオ・オブジェクトを含むオーディオ・シーンの効率的な符号化 | |
WO2022048405A1 (zh) | 基于文本的虚拟对象动画生成方法及装置、存储介质、终端 | |
CN111048064B (zh) | 基于单说话人语音合成数据集的声音克隆方法及装置 | |
US7526351B2 (en) | Variable speed playback of digital audio | |
CN112334973B (zh) | 用于创建基于对象的音频内容的方法和系统 | |
CN1653521B (zh) | 用于音频代码转换中的自适应码本音调滞后计算的方法 | |
CN102436807A (zh) | 自动生成重读音节语音的方法和系统 | |
WO2022203699A1 (en) | Unsupervised parallel tacotron non-autoregressive and controllable text-to-speech | |
CA2662564A1 (en) | Recognition of speech in editable audio streams | |
JP2011028230A (ja) | 歌唱合成用データベース生成装置、およびピッチカーブ生成装置 | |
US20240161730A1 (en) | Parallel Tacotron Non-Autoregressive and Controllable TTS | |
CN101064103A (zh) | 基于音节韵律约束关系的汉语语音合成方法及系统 | |
WO2022042159A1 (zh) | 延迟控制方法和装置 | |
US20150170670A1 (en) | Audio signal processing apparatus | |
US20240087558A1 (en) | Methods and systems for modifying speech generated by a text-to-speech synthesiser | |
CN101887719A (zh) | 语音合成方法、系统及具有语音合成功能的移动终端设备 | |
CN104916282A (zh) | 一种语音合成的方法和装置 | |
CN113870833A (zh) | 语音合成相关系统、方法、装置及设备 | |
CN113707126B (zh) | 一种基于嵌入式系统的端到端语音合成网络 | |
CN115762521A (zh) | 一种关键词识别方法及相关装置 | |
JP5268731B2 (ja) | 音声合成装置、方法およびプログラム | |
US11195511B2 (en) | Method and system for creating object-based audio content | |
CN110335583A (zh) | 一种带隔断标识的复合文件生成及解析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20120718 |