CN102592594A - 基于统计参数模型的增量式语音在线合成方法 - Google Patents

基于统计参数模型的增量式语音在线合成方法 Download PDF

Info

Publication number
CN102592594A
CN102592594A CN2012100576093A CN201210057609A CN102592594A CN 102592594 A CN102592594 A CN 102592594A CN 2012100576093 A CN2012100576093 A CN 2012100576093A CN 201210057609 A CN201210057609 A CN 201210057609A CN 102592594 A CN102592594 A CN 102592594A
Authority
CN
China
Prior art keywords
segmentation
parameter
model
speech
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012100576093A
Other languages
English (en)
Inventor
俞凯
王欢良
钱诗君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Speech Information Technology Co Ltd
Original Assignee
Suzhou Speech Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Speech Information Technology Co Ltd filed Critical Suzhou Speech Information Technology Co Ltd
Priority to CN2012100576093A priority Critical patent/CN102592594A/zh
Publication of CN102592594A publication Critical patent/CN102592594A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种基于统计参数模型的增量式语音在线合成方法,其步骤包括:文本分析,获得用户输入合成文本对应的模型状态集参数序列;状态序列分段,寻找声学模型状态序列的最佳分段位置,并依照分段位置对状态级参数序列进行切分;将分段后的各个状态级参数序列片段,依照文本顺序以流水线方式依次进行参数生成、语音合成和音频播放/传输,在线输出连续的合成语音。本发明所述的基于统计参数模型的增量式语音在线合成方法,缩短了合成一段文本语音并播放或传输所需的时间延迟,并可以根据实际需要非常灵活地改变合成速度,同时其最大程度地控制了分段造成的动态信息损失,保证了合成语音的质量。

Description

基于统计参数模型的增量式语音在线合成方法
技术领域
本发明涉及了语音技术领域,尤其涉及了一种基于统计参数模型的增量式语音在线合成方法。
背景技术
基于统计参数模型的语音合成方法是目前主流的语音合成技术之一。基于统计参数模型的语音合成方法[A. Black, Statistical parametric speech synthesis, 2007],首先需要对语音信号进行参数化分析,一般包括表征激励信息的基音频率参数及非周期成分和表征声道滤波器谱特征的频谱参数,然后对分析所得的参数进行统计建模,统计模型一般采用隐马尔科夫模型(HMM)。在合成时利用训练的模型进行相关声学参数的预测,最终通过参数合成器还原语音信号。这种方法的自动化程度较高,可以在不需要人工干预的情况下,自动快速地构建合成系统,而且对于不同发音人、不同发音风格、甚至不同发音语种的依赖性非常小,并且能够取得较好的合成语音的流畅度和自然度。
但是由于在传统基于HMM语音合成中,参与模型训练的声学参数要同时结合前后帧参数之间的动态关联信息,因此HMM一般是针对待合成的整段或整句进行建模,导致在实际应用中一般需要等到整个句子完全生成后,才能进行下一步的播放或传送;如果对合成文本进行随机地分段,每次只生成一小段语音,合成语音的质量则会有较大下降,这使得传统基于HMM的语音合成无法适用于实时性要求较高的在线应用。
对于这一问题,目前国内外研究的技术解决方案较少,主要方法是强制捆绑若干音素模型序列来分段合成语音[T. Dutoit, A Streaming Architecture for Statistical Parametric Speech Synthesis, 2011],捆绑音素的数目是人为设定的,不够灵活,且对合成质量有较大影响。国内外尚未有相关专利涉及这一问题。本发明针对传统HMM语音合成中的这一问题,提出依据模型参数方差阈值对合成内容进行合理分段的方法,增量式地生成合成语音。本发明提出的分段准则较为灵活,可以调整合成速度,并最大程度保证最终合成语音的质量没有下降。
发明内容
本发明主要是针对现有技术的不足,提供了一种实时性强、质量更好的基于统计参数模型的增量式语音在线合成方法。
为了实现上述目的,本发明提供以下技术方案:
一种基于统计参数模型的增量式语音在线合成方法,包括:文本分析,获得用户输入合成文本对应的整段模型序列参数;状态序列分段,寻找声学模型状态序列的最佳分段位置,并根据分段位置对状态序列进行切分;将分段后的各个状态级参数序列片段,依照文本顺序以流水线方式依次进行参数生成、语音合成和音频播放/传输三个步骤,并在线输出连续的合成语音。
作为本发明的一优选实施例,所述状态序列分段包括以下步骤:
第一级模型序列分组,根据合成文本中的标点符号,将各个声学特征模型序列切分成对应的组;
第二级模型状态序列分段,确定声学模型状态序列的分段位置,对经过标点符号分组后的每组模型序列,确定谱特征模型中动态特征参数的方差小于给定阈值的状态位置为候选状态分段位置;
声学模型状态序列分段,根据预设的分段数从候选状态分段位置中选择最优分段位置,将该组中各声学特征的模型状态序列切分为对应的状态序列片段流。
作为本发明的一优选实施例,所述的各种声学特征包括基频特征、谱特征和非周期能量成分特征。
作为本发明的一优选实施例,所述的谱特征模型中动态特征参数的方差根据下式来计算:
Figure 2012100576093100002DEST_PATH_IMAGE001
其中,
Figure 147523DEST_PATH_IMAGE002
Figure 337196DEST_PATH_IMAGE004
时刻对应模型状态上第
Figure 2012100576093100002DEST_PATH_IMAGE005
维谱特征的第
Figure 299336DEST_PATH_IMAGE006
阶动态特征的方差参数,
Figure 2012100576093100002DEST_PATH_IMAGE007
为特征总维数。
作为本发明的一优选实施例,参数生成、语音合成和音频播放/传输三个步骤具体包括:
参数生成,按最大似然参数生成准则,生成每段声学模型状态序列对应的语音参数序列,并利用上一段语音参数序列的段尾部分数据对当前分段生成的语音参数序列的段首部分进行平滑处理;
语音合成,将当前分段的语音参数序列送入参数化语音合成滤波器中合成出当前分段对应的语音信号;
音频播放/传输,将当前分段生成的语音信号进行播放或传输,同时生成后续分段的语音参数和语音信号。
作为本发明的一优选实施例,分段边界处的语音参数平滑处理通过利用前一段段尾语音参数对当前段段首若干帧声学特征的静态参数按维进行插值操作来完成。
作为本发明的一优选实施例,通过分段数目和方差阈值两个参数来调控合成延迟和合成质量之间的平衡。
作为本发明的一优选实施例,对分段后的声学模型状态序列片段流进行后处理:如果当前状态序列片段的时长大于前一状态序列片段时长的设定倍数,则合并当前片段和前一片段。
从上述技术方案可以看出,所述基于统计参数模型的增量式语音在线合成方法,通过提出能够保证合成质量的模型序列分段方法,克服了传统合成语音的局限性;并进一步提出流水线的工作方式,结合段间参数平滑处理,提高了文语转换的实时性;另外,其可以根据实际需要非常灵活地改变合成的速度,同时其最大程度地控制了分段造成的动态信息损失,保证了合成语音的质量。
附图说明
图1是本发明所述的增量式的基于统计参数模型的语音在线合成系统的工作流程图;
图2是本发明所述模型状态序列分段方法的工作流程图;
图3是本发明所述参数生成、语音合成、音频播放/传输流水线的工作流程图。
具体实施方式
下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
参阅图1、图2和图3,图1是本发明所述的增量式的基于统计参数模型的语音在线合成系统的工作流程图;图2是本发明所述模型序列分段方法的工作流程图;图3是本发明所述参数生成、语音合成、音频播放/传输流水线的工作流程图。
一种基于统计参数模型的增量式语音在线合成方法,其包括:文本分析,获得用户输入合成文本对应的整段模型序列参数;状态序列分段,寻找声学模型状态序列的最佳分段位置,并根据分段位置对状态序列进行切分;将分段后的各个状态级参数序列片段,依照文本顺序以流水线方式依次进行参数生成、语音合成和音频播放/传输三个步骤,并在线输出连续的合成语音。
为了保证以流水线方式增量合成语音的质量,对分段后的声学模型状态序列片段流进行后处理:如果当前状态序列片段的时长大于前一状态序列片段时长的设定倍数,则合并当前片段和前一片段。所述对分段后的状态序列的后处理,具体是按从前向后的顺序扫描模型状态序列,判断当前分段与前一分段的长度之差,若长度之差大于前一分段的
Figure 927763DEST_PATH_IMAGE008
倍,也就是说前一分段较当前分段过短,本分段模型状态序列合成所需时间将超过前一分段的播放时间,则将本分段模型序列与前一分段合并,作为新的模型序列分段。根据统计的实时率,
Figure 291749DEST_PATH_IMAGE008
的优选取值为9。
所述的各种声学特征包括基频特征、谱特征和非周期能量成分特征。
所述基于统计参数模型的增量式语音在线合成方法的具体步骤包括:首先,对输入的文本进行文本分析,得到每个目标音素的上下文环境描述信息,然后将这些信息输入模型聚类决策树,得到每个目标音素对应的谱特征、基频特征和非周期成分特征的模型和模型状态参数,其中,模型状态参数包括各特征参数的均值和方差。
所述基于统计参数模型的增量式语音在线合成方法的模型采用了隐马尔科夫模型,模型参数包括静态、动态特征的参数均值和参数方差,其中动态特征用来表征前后帧参数变化的关联信息。
其次,所述状态序列分段包括以下步骤: 
第一步,第一级模型序列分组,根据合成文本中的标点符号,将各个声学特征模型序列切分成对应的组;
第二步,第二级模型状态序列分段,确定声学模型状态序列的分段位置,对经过标点符号分组后的每组模型序列,确定谱特征模型中动态特征参数的方差小于给定阈值的状态位置为候选状态分段位置;
参数包括静态特征与动态特征,静态特征是指从语音信号中提出的各种声学特征参数,而动态特征是指用来表示前后帧的静态特征参数之间关系的动态信息,包括静态特征的一阶差分和二阶差分;某时刻的模型参数方差是指一个
Figure 2012100576093100002DEST_PATH_IMAGE009
维对角矩阵,其中后维子对角矩阵是动态特征的参数方差,并用矩阵范数计算其大小,其中是静态特征的维数。
先设定谱特征的动态方差阈值
Figure 2012100576093100002DEST_PATH_IMAGE011
,再对谱特征模型序列所有时刻的动态特征参数方差进行扫描,某
Figure 533877DEST_PATH_IMAGE004
时刻的动态特征参数方差是一个
Figure 486790DEST_PATH_IMAGE010
维对角矩阵
Figure 283844DEST_PATH_IMAGE012
, 
Figure 954997DEST_PATH_IMAGE002
Figure 128489DEST_PATH_IMAGE004
时刻对应模型状态上第
Figure 201488DEST_PATH_IMAGE005
维谱特征的第阶动态特征的方差参数。动态特征参数的方差大小的计算式为
Figure 327893DEST_PATH_IMAGE001
                   (1)
记录上式的结果小于设定阈值,即的位置,并将所有分组分段位置记录为,且
Figure DEST_PATH_IMAGE015
,其中是分组位置的数目,
Figure DEST_PATH_IMAGE017
是分组位置的数目。设置分组位置对应动态特征参数方差为0。对上述分段位置根据其动态特征参数方差由大到小进行排序,作为候选状态分段位置。
第三步,声学模型状态序列分段,根据预设的分段数从候选状态分段位置中选择最优分段位置,将该组中各声学特征的模型状态序列切分为对应的状态序列片段流。
确定分段位置参考的声学特征是谱特征,选取谱特征动态方差最小的位置作为状态序列分段位置是基于如下两点分析:
(A)根据最大似然参数生成准则[K. Tokuda, Speech parameter generation from hmm using dynamic features, 1995],预测语音特征参数向量序列的计算式为
Figure 230492DEST_PATH_IMAGE018
                    (2)
其中
Figure 876237DEST_PATH_IMAGE020
Figure DEST_PATH_IMAGE021
Figure 188270DEST_PATH_IMAGE022
分别是模型状态序列中第
Figure DEST_PATH_IMAGE023
个的方差和均值,而
Figure 235861DEST_PATH_IMAGE024
是表征前后帧关系动态信息的窗函数,具有如下形式
Figure DEST_PATH_IMAGE025
其中是用来表示前后帧参数动态关联信息的系数,通常选取的一组系数为 
Figure 740977DEST_PATH_IMAGE028
Figure DEST_PATH_IMAGE029
。因此,对整段模型序列进行切分,将损失分段处的动态信息。
(B)选取动态特征的方差较小的位置,可以使分段造成的动态特性损失控制在较小的范围内;对于每段模型状态序列,在后续参数生成步骤中,实际需要将段首帧和段末帧的动态参数方差置零;另一方面,窗函数
Figure 856701DEST_PATH_IMAGE024
中静态特征部分通过单位矩阵刻画,因此分段无需考虑静态参数方差。
所述分段过程采用了动态特征的方差阈值作为准则,其是一种非常灵活的分段方法,可以根据实际应用场景对合成速度的需要,机动地调整方差阈值。所设方差阈值越大,则状态序列分段越多,合成速度越快;反之,方差阈值越小,合成速度则越慢;另外,本发明对合成内容在谱特征模型状态序列动态方差最小的位置进行切分,最大程度上控制了分段造成的动态信息损失,保证了合成语音的质量。
所述的进行参数生成、语音合成和音频播放/传输,包括以下步骤:
第一步,参数生成,按最大似然参数生成准则,生成每段声学模型状态序列对应的语音参数序列,并对当前分段生成的语音参数序列的段首部分,与上一段的语音参数序列的段尾部分一起进行平滑处理;
第二步,语音合成,将当前分段的语音参数序列送入参数化语音合成滤波器中合成出当前分段对应的语音;
所述参数化语音合成滤波器的选择取决于所采用的谱特征类型和是否支持非周期能量成分特征;若当前段对应合成文本顺序的最后一段,则无需进行下一分段的参数生成与平滑处理。
第三步,音频播放/传输,将当前分段生成的语音进行播放或传输,同时生成后续分段的语音参数和语音信号。
设在某时刻,第
Figure 696481DEST_PATH_IMAGE030
分段正在进行参数生成,第
Figure DEST_PATH_IMAGE031
分段正在进行语音合成,第分段正在进行音频播放/传输,这三者是同时进行的。
(1)     第分段参数生成
根据最大似然参数生成准则,预测第
Figure 451313DEST_PATH_IMAGE030
分段语音特征参数向量序列为
Figure 207916DEST_PATH_IMAGE032
                (3)
Figure 859478DEST_PATH_IMAGE030
分段语音特征参数生成后,将第
Figure 967111DEST_PATH_IMAGE030
分段段首与第
Figure 362320DEST_PATH_IMAGE031
分段段尾作段间参数平滑处理。平滑处理过程如下:
    记第
Figure 911113DEST_PATH_IMAGE031
分段的最末两帧的第d维谱参数分别为
Figure DEST_PATH_IMAGE033
Figure 61472DEST_PATH_IMAGE034
,第
Figure 390822DEST_PATH_IMAGE030
分段生成的前
Figure 589722DEST_PATH_IMAGE036
帧第d维谱特征参数为
Figure DEST_PATH_IMAGE037
,经过平滑后的对应参数为
 
Figure 55339DEST_PATH_IMAGE038
              (4)
平滑处理只需对段首若干帧进行,可以依照(4)式迭代计算下去。
    若参数生成当前段为第一段,则不需进行段首参数平滑。
(2)     第
Figure 376598DEST_PATH_IMAGE031
分段语音合成
对第分段的参数,包括分段的基频参数,谱参数和非周期能量成分参数送入参数化语音合成滤波器中合成出当前分段对应的音频。参数化语音合成滤波器的选择取决于所采用的谱特征类型和是否支持非周期能量成分特征。比如,若谱特征采用的是MCEP特征,则可以用梅尔对数谱估计(MLSA)滤波器;若谱特征采用的是MGC或MGC-LSP特征,则可以采用梅尔广义对数谱估计(MGLSA)滤波器;若谱特征采用的是LPC或LSP特征,则可以采用全极点滤波器;另外STRAIGHT分析合成器可以支持非周期能量成分的使用。
(3)     第分段音频播放/传输
将合成完的第
Figure 453642DEST_PATH_IMAGE023
分段的音频通过特定播放设备进行播放,或通过特定传输工具进行传输。
在流形式工作中,在第
Figure 945803DEST_PATH_IMAGE023
分段播放/传输完成前、第分段语音合成完成后,需等待至第分段播放/传输完成,再开始第
Figure 168340DEST_PATH_IMAGE031
分段的播放/传输;在第分段语音合成完成前、第
Figure 294745DEST_PATH_IMAGE030
分段参数生成完成后,需等待至在第分段语音合成完成,再开始第
Figure 933854DEST_PATH_IMAGE030
分段的语音合成。
此外,基于以上各步骤,在具体实施例中,本发明可以进一步调整设定谱特征动态参数的方差阈值
Figure 439921DEST_PATH_IMAGE011
,以灵活调控合成的速度。具体地,当对合成速度或合成实时性要求较高时,可提高设定的阈值
Figure 718456DEST_PATH_IMAGE011
,以取得更多的分段,若分段数目已达设定上限,则适当提高该上限;相反地,若对合成速度要求较低,则可降低设定的阈值,以保证更好的合成质量。
假设在具体实施例中,总分段数为
Figure DEST_PATH_IMAGE039
并最终生成了连续播放的语音。若用
Figure 663278DEST_PATH_IMAGE040
来代表在每个步骤每个分段所需要的时间,其中
Figure DEST_PATH_IMAGE041
 分别代表参数生成、语音合成和音频播放三个阶段,
Figure 163833DEST_PATH_IMAGE042
为合成语音的播放时间 。传统的合成方法中,总耗时为
Figure DEST_PATH_IMAGE043
                   (5)
由于在实际的语音合成中,统计到一般语音合成的实时率为0.1,也即是说,例如一段常速播放需要10秒的语音,其整个合成流程需要的时间为1秒左右。因此对于本发明的流水线工作模式部分,第分段参数生成和第
Figure 668950DEST_PATH_IMAGE031
分段语音合成两个步骤的时间均远小于第
Figure 89567DEST_PATH_IMAGE023
分段音频播放的时间,即
Figure 624453DEST_PATH_IMAGE044
                       (6)
因而采用本发明所需的总时间为
       (7)
其中为分段算法所耗费的时间,而这一耗时事实上是非常小的。因此,本发明可节省的时间为
Figure DEST_PATH_IMAGE047
,即将语音合成的时间节约了约
Figure 522188DEST_PATH_IMAGE039
倍,用户只需等待第一分段合成完便可以开始播放或传输整段语音的音频。
所述基于统计参数模型的增量式语音在线合成方法,通过提出能够保证合成质量的模型序列分段方法,克服了传统合成语音的局限性;并进一步提出流水线的工作方式,结合段间参数平滑处理,提高了文语转换的实时性;另外,其可以根据实际并且非常灵活的改变合成的速度,同时其最大程度地控制了分段造成的动态信息损失,保证了合成语音的质量。
以上所述,仅为本发明优选实施例的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本领域的技术人员在本发明所揭露的技术范围内,可不经过创造性劳动想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (8)

1.一种基于统计参数模型的增量式语音在线合成方法,其特征在于,包括:
文本分析,获得用户输入合成文本对应的整段模型序列参数;
状态序列分段,寻找声学模型状态序列的最佳分段位置,并根据分段位置对状态序列进行切分;
将分段后的各个状态级参数序列片段,依照文本顺序以流水线方式依次进行参数生成、语音合成和音频播放/传输三个步骤,并在线输出连续的合成语音。
2.根据权利要求1所述的基于统计参数模型的增量式语音在线合成方法,其特征在于,所述状态序列分段包括以下步骤:
第一级模型序列分组,根据合成文本中的标点符号,将各个声学特征模型序列切分成对应的组;
第二级模型状态序列分段,确定声学模型状态序列的分段位置,对经过标点符号分组后的每组模型序列,确定谱特征模型中动态特征参数的方差小于给定阈值的状态位置为候选状态分段位置;
声学模型状态序列分段,根据预设的分段数从候选状态分段位置中选择最优分段位置,将该组中各声学特征的模型状态序列切分为对应的状态序列片段流。
3.根据权利要求2所述的基于统计参数模型的增量式语音在线合成方法,其特征在于,所述的各种声学特征包括基频特征、谱特征和非周期能量成分特征。
4.根据权利要求2所述的增量式的基于统计参数模型的语音在线合成方法,其特征在于,所述的谱特征模型中动态特征参数的方差可根据下式来计算:
其中,
Figure 2012100576093100001DEST_PATH_IMAGE004
时刻对应模型状态上第
Figure 2012100576093100001DEST_PATH_IMAGE008
维谱特征的第
Figure 2012100576093100001DEST_PATH_IMAGE010
阶动态特征的方差参数,
Figure 2012100576093100001DEST_PATH_IMAGE012
为特征总维数。
5.根据权利要求1所述的基于统计参数模型的增量式语音在线合成方法,其特征在于,参数生成、语音合成和音频播放/传输三个步骤具体包括:
参数生成,按最大似然参数生成准则,生成每段声学模型状态序列对应的语音参数序列,并利用上一段语音参数序列的段尾部分数据对当前分段生成的语音参数序列的段首部分进行平滑处理;
语音合成,将当前分段的语音参数序列送入参数化语音合成滤波器中合成出当前分段对应的语音信号;
音频播放/传输,将当前分段生成的语音信号进行播放或传输,同时生成后续分段的语音参数和语音信号。
6.根据权利要求5所述的基于统计参数模型的增量式语音在线合成方法,其特征在于,分段边界处的语音参数平滑处理通过利用前一段段尾语音参数对当前段段首若干帧声学特征的静态参数按维进行插值操作来完成。
7.根据权利要求1所述的基于统计参数模型的增量式语音在线合成方法,其特征在于,通过分段数目和方差阈值两个参数来调控合成延迟和合成质量之间的平衡。
8.根据权利要求1所述的增量式的基于统计参数模型的语音在线合成方法,其特征在于,对分段后的声学模型状态序列片段流进行后处理:如果当前状态序列片段的时长大于前一状态序列片段时长的设定倍数,则合并当前片段和前一片段。
CN2012100576093A 2012-04-06 2012-04-06 基于统计参数模型的增量式语音在线合成方法 Pending CN102592594A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012100576093A CN102592594A (zh) 2012-04-06 2012-04-06 基于统计参数模型的增量式语音在线合成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012100576093A CN102592594A (zh) 2012-04-06 2012-04-06 基于统计参数模型的增量式语音在线合成方法

Publications (1)

Publication Number Publication Date
CN102592594A true CN102592594A (zh) 2012-07-18

Family

ID=46481135

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012100576093A Pending CN102592594A (zh) 2012-04-06 2012-04-06 基于统计参数模型的增量式语音在线合成方法

Country Status (1)

Country Link
CN (1) CN102592594A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103474067A (zh) * 2013-08-19 2013-12-25 安徽科大讯飞信息科技股份有限公司 语音信号传输方法及系统
CN107871495A (zh) * 2016-09-27 2018-04-03 晨星半导体股份有限公司 文字转语音方法及系统
CN107924678A (zh) * 2015-09-16 2018-04-17 株式会社东芝 语音合成装置、语音合成方法、语音合成程序、语音合成模型学习装置、语音合成模型学习方法以及语音合成模型学习程序
CN107919113A (zh) * 2016-10-07 2018-04-17 卡西欧计算机株式会社 乐音再生装置、电子乐器、乐音再生方法以及记录介质
CN108364656A (zh) * 2018-03-08 2018-08-03 北京得意音通技术有限责任公司 一种用于语音重放检测的特征提取方法及装置
CN110428812A (zh) * 2019-07-30 2019-11-08 天津大学 基于动态时间规划根据语音信息合成舌超声视频的方法
CN111081216A (zh) * 2019-12-26 2020-04-28 上海优扬新媒信息技术有限公司 一种音频合成方法、装置、服务器及存储介质
CN112750418A (zh) * 2020-12-28 2021-05-04 苏州思必驰信息科技有限公司 音频或音频链接的生成方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010047260A1 (en) * 2000-05-17 2001-11-29 Walker David L. Method and system for delivering text-to-speech in a real time telephony environment
CN1956056A (zh) * 2006-10-16 2007-05-02 同济大学 语音合成装置、语音合成方法以及gps语音导航系统
CN101276583A (zh) * 2007-03-29 2008-10-01 株式会社东芝 语音合成系统和语音合成方法
CN101859564A (zh) * 2009-04-08 2010-10-13 北京闻言科技有限公司 一种听电子书的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010047260A1 (en) * 2000-05-17 2001-11-29 Walker David L. Method and system for delivering text-to-speech in a real time telephony environment
CN1956056A (zh) * 2006-10-16 2007-05-02 同济大学 语音合成装置、语音合成方法以及gps语音导航系统
CN101276583A (zh) * 2007-03-29 2008-10-01 株式会社东芝 语音合成系统和语音合成方法
CN101859564A (zh) * 2009-04-08 2010-10-13 北京闻言科技有限公司 一种听电子书的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MARIA ASTRINAKI: "sHTS : A Streaming Architecture for Statistical Parametric Speech Synthesis", 《INTERNATIONAL WORKSHOP ON PERFORMATIVE SPEECH AND SINGING SYNTHESIS》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103474067B (zh) * 2013-08-19 2016-08-24 科大讯飞股份有限公司 语音信号传输方法及系统
CN103474067A (zh) * 2013-08-19 2013-12-25 安徽科大讯飞信息科技股份有限公司 语音信号传输方法及系统
CN107924678B (zh) * 2015-09-16 2021-12-17 株式会社东芝 语音合成装置、语音合成方法及存储介质
CN107924678A (zh) * 2015-09-16 2018-04-17 株式会社东芝 语音合成装置、语音合成方法、语音合成程序、语音合成模型学习装置、语音合成模型学习方法以及语音合成模型学习程序
CN113724685B (zh) * 2015-09-16 2024-04-02 株式会社东芝 语音合成模型学习装置、语音合成模型学习方法及存储介质
US11423874B2 (en) 2015-09-16 2022-08-23 Kabushiki Kaisha Toshiba Speech synthesis statistical model training device, speech synthesis statistical model training method, and computer program product
CN113724685A (zh) * 2015-09-16 2021-11-30 株式会社东芝 语音合成模型学习装置、语音合成模型学习方法及存储介质
CN107871495A (zh) * 2016-09-27 2018-04-03 晨星半导体股份有限公司 文字转语音方法及系统
CN107919113A (zh) * 2016-10-07 2018-04-17 卡西欧计算机株式会社 乐音再生装置、电子乐器、乐音再生方法以及记录介质
CN108364656A (zh) * 2018-03-08 2018-08-03 北京得意音通技术有限责任公司 一种用于语音重放检测的特征提取方法及装置
CN108364656B (zh) * 2018-03-08 2021-03-09 北京得意音通技术有限责任公司 一种用于语音重放检测的特征提取方法及装置
CN110428812A (zh) * 2019-07-30 2019-11-08 天津大学 基于动态时间规划根据语音信息合成舌超声视频的方法
CN110428812B (zh) * 2019-07-30 2022-04-05 天津大学 基于动态时间规划根据语音信息合成舌超声视频的方法
CN111081216A (zh) * 2019-12-26 2020-04-28 上海优扬新媒信息技术有限公司 一种音频合成方法、装置、服务器及存储介质
CN112750418A (zh) * 2020-12-28 2021-05-04 苏州思必驰信息科技有限公司 音频或音频链接的生成方法及系统

Similar Documents

Publication Publication Date Title
CN102592594A (zh) 基于统计参数模型的增量式语音在线合成方法
US11115541B2 (en) Post-teleconference playback using non-destructive audio transport
JP6538128B2 (ja) オーディオ・オブジェクトを含むオーディオ・シーンの効率的な符号化
WO2022048405A1 (zh) 基于文本的虚拟对象动画生成方法及装置、存储介质、终端
CN111048064B (zh) 基于单说话人语音合成数据集的声音克隆方法及装置
US7526351B2 (en) Variable speed playback of digital audio
CN112334973B (zh) 用于创建基于对象的音频内容的方法和系统
CN1653521B (zh) 用于音频代码转换中的自适应码本音调滞后计算的方法
CN102436807A (zh) 自动生成重读音节语音的方法和系统
WO2022203699A1 (en) Unsupervised parallel tacotron non-autoregressive and controllable text-to-speech
CA2662564A1 (en) Recognition of speech in editable audio streams
JP2011028230A (ja) 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
US20240161730A1 (en) Parallel Tacotron Non-Autoregressive and Controllable TTS
CN101064103A (zh) 基于音节韵律约束关系的汉语语音合成方法及系统
WO2022042159A1 (zh) 延迟控制方法和装置
US20150170670A1 (en) Audio signal processing apparatus
US20240087558A1 (en) Methods and systems for modifying speech generated by a text-to-speech synthesiser
CN101887719A (zh) 语音合成方法、系统及具有语音合成功能的移动终端设备
CN104916282A (zh) 一种语音合成的方法和装置
CN113870833A (zh) 语音合成相关系统、方法、装置及设备
CN113707126B (zh) 一种基于嵌入式系统的端到端语音合成网络
CN115762521A (zh) 一种关键词识别方法及相关装置
JP5268731B2 (ja) 音声合成装置、方法およびプログラム
US11195511B2 (en) Method and system for creating object-based audio content
CN110335583A (zh) 一种带隔断标识的复合文件生成及解析方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20120718