CN1158641C - 衔接语音合成系统中单元重叠区的辨识 - Google Patents

衔接语音合成系统中单元重叠区的辨识 Download PDF

Info

Publication number
CN1158641C
CN1158641C CNB001037595A CN00103759A CN1158641C CN 1158641 C CN1158641 C CN 1158641C CN B001037595 A CNB001037595 A CN B001037595A CN 00103759 A CN00103759 A CN 00103759A CN 1158641 C CN1158641 C CN 1158641C
Authority
CN
China
Prior art keywords
statistical model
time series
track region
model
vowel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB001037595A
Other languages
English (en)
Other versions
CN1266257A (zh
Inventor
尼古拉斯·基布雷
��Ƥ��ѷ
史蒂夫·皮尔逊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of CN1266257A publication Critical patent/CN1266257A/zh
Application granted granted Critical
Publication of CN1158641C publication Critical patent/CN1158641C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules

Abstract

自对应于包含相同元音的不同声音单元的时间序列数据中提取语音信号参数。使用该提取的参数来训练一个统计模型,例如一个隐藏马尔可夫模型,它具有一个用于分别为一个元音的核心轨迹区及围绕它的过渡元素建模的数据结构。由埋嵌重估价来训练模型以便自动地确定用于辨识核心轨迹区的最佳地对准的模型。核心轨迹区的边界用于为以后的声音单元衔接划分出重叠区。

Description

衔接语音合成系统中单元重叠区的辨识
技术领域
本发明涉及衔接语音合成系统。具体地,本发明涉及一种在衔接语音单元时用于辨识合适边界区的系统和方法。该系统应用一个利用语音单元模型的语音单元数据库。
背景技术
当今存在不同形式的衔接语音合成系统,它们的不同点在于如何存储和处理衔接语音单元。这些形式包括时域波形表示,频域表示(例如共振峰表示或线性预测编码LPC表示)或它们的某些组合。
不论语音单元形式如何,衔接合成是通过在每个单元边界处辨识合适边界区而完成的。其中这些单元都是平滑地重叠以合成新声音单元,包括词和词组。衔接合成系统中的语音单元通常是双音素或半音节。在这种情况下,它们的重叠区是中间音素。例如词″tool″可用从词″tooth″和″fool″中导出的单元′tu′和′ul′组成。需要决定的是在语音单元中应存储多少源词,及当放在一起时它们应重叠多少。
在以前的衔接“文本-语音”(TTS)系统中,采用了一系列方法以确定重叠区。在这类系统的设计中,考虑三个因素:
·无缝衔接:语音单元的重叠应该在一个单元与下一个单元之间提供足够平滑的过渡,从而听不到突变。听众觉察不到他们所听到的语音是由语音片断组合而成。
·无失真过渡:语音单元的重叠不应产生任何它自己的失真。单元应如此混合以使其结果与非重叠语音没有差别。
·最小系统负载:对合成器的计算和/或存储要求应该尽可能地小。
在现有系统中,在这些目标之间采取折中办法。没有一个系统对所有三个目标都最佳。按照现有方案对这些目标采取的折中措施可分为两组。第一组中考虑它们是采取短还是长重叠区。短重叠可快如单个闭塞促音,而长重叠可包括整个音素群。第二选择涉及该重叠区是一致的还是可以随上下文变化。在前一种情况下,无论前后单元是什么,每个声音单元的相同部分都与前和后单元重叠。在后一种情况下,决定于相邻单元,每次使用单元时所用部分都改变。
长重叠的优点是单元间的过渡更加无缝,因有更多时间衔接好单元间的细小差别。然而长重叠易于产生失真。失真产生于不同信号的混合。
短重叠的优点是失真最小。使用短重叠较易保证重叠部分的很好匹配。短重叠区可近似地表征为瞬时状态(不同于动态改变的状态)。然而短重叠牺牲了长重叠系统中的无缝衔接。
现在还没有系统能够同时具有长重叠技术的无缝性和短重叠技术的低失真。某些现代系统尝试使用可变重叠区以使失真最小而同时保留长重叠的优点。然而这类系统完全依靠于计算上昂贵的处理,因而使它们在很多应用中不实际。
发明内容
本发明采用一种统计模型技术来辨识声音单元中的核心轨迹区,然后使用这些区以便辨识最佳重叠边界。在现有优选实施例中,使用隐藏马尔可夫模型以得出时间序列数据的统计模型,它们在每个声音单元的音素区中构成并通过训练或埋嵌重估价而最佳地对准。
在优选实施例中,认为每个声音单元的最初和最后音素由三部分组成:核心轨迹,核心区前的过渡元素和核心区后的过渡元素。建模过程最佳地辨识这三个元素,以使核心轨迹区在所研究的音素中都相对地一致。
辨识核心轨迹区后,该核心区的起始和结束边界用于划分重叠区,以便随后用于衔接合成。
现有优选实施例采用一个统计模型,它所具有的数据结构分别用于为一个元音的核心轨迹区,核心轨迹区前的一个第一过渡元素和核心轨迹区后的一个第二过渡元素建模。可使用该数据结构将对应于在衔接过程中不再使用的声音单元部分的声音单元数据部分消除掉。
本发明具有一系列优点和用途。它可用作一个基础,供自动构作衔接语音合成系统的语音单元数据库之用。该自动技术既可改进所得合成语音质量,又可在数据库收集过程中节省相当数量的劳动。
附图说明
可参照以下说明和附图来更全面地理解本发明,其目的和优点。
图1是用于理解衔接语音合成技术的框图;
图2是用于阐述如何根据本发明构成语音单元的框图;
图3是用于阐述使用本发明语音单元数据库的衔接语音合成过程的框图。
具体实施方式
为更好地理解本发明所用技术,应对衔接合成有一基本了解。图1用一个例子阐述衔接合成过程,该例子中将来自两个不同词的声音单元(在此例子中是音节)衔接起来以便形成第三个词。更具体地,来自词“suffice”和“tight”的声音单元组合而合成新词“fight”。
参照图1,优选地在音节边界上提取来自词“suffice”和“tight”的时间序列数据以确定声音单元10和12。在此情况下,在14处声音单元10又进一步划分以便分出衔接所需有关部分。
在16处将声音单元对准以便由相应部分18和20确定一个重叠区。在对准后,在22处将时间序列数据合并以合成新词。
本发明具体地与重叠区16有关,及具体地与优化部分18和20有关以使自一个声音单元至另一个的过渡是无缝的和无失真的。
本发明通过一个自动过程来达到最佳重叠,该过程寻找元音内的核心轨迹区,其中语音信号采取一个动态模式,后者对于相同音素的不同例子是相对地稳定的。
图2显示用于开发这些最佳重叠区的过程。提供了一个语音单元数据库30。该数据库可能包含对应于组成衔接合成系统的不同声音单元的时间序列数据。在本优选实施例中,自所讲的词的例子中提取声音单元,它们然后在音节边界处划分。在图2中图形地阐述了两个语音单元32和34。声音单元32是自词“tight”中提取的而声音单元34是自词“suffice”中提取的。
数据库30中存储的时间序列数据首先在36处参数化。一般而言,可采用任何合适的方法学将声音单元参数化。本优选实施例通过每个声音单元中音素区的共振峰分析而实行参数化。共振峰分析包含提取语音共振峰频率(优选实施例提取共振峰频率F1,F2和F3)。如果需要,也可将RMS信号电平参数化。
虽然现在推荐共振峰分析,但也可使用其他参数化形式。例如,可使用一个过程例如线性预测编码(LPC)来辨识和提取合适的特征参数,从而提取语音特征。
在提取合适的参数以表示每个声音单元的音素区后,构成一个模型以表示如38处所阐述的每个单元的音素区。本优选实施例使用隐藏马尔可夫模型于此用途。一般而言,可以使用任何用于表示时变或动态特性的合适统计模型。例如可使用递归式神经网络模型。
本优选实施例在将音素区建模时将它分为三个个别的中间区。这些区在40处阐述,它包括核心轨迹区42,核心区前的过渡元素44和核心区后的过渡元素46。优选实施例为这些三个区中的每一个使用个别的隐藏马尔可夫模型。可为核心区前的过渡元素44和核心区后的过渡元素46使用三态模型,而可为核心轨迹区42使用四或五态模型(图2中阐述五个状态)。使用更多数目的状态将有助于保证随后的过程会收敛于一个一致的非零的核心轨迹。
初始语音模型40可使用平均初始值。此后在48处完成这些模型的埋嵌重估价。事实上,重估价包含训练过程,其中将模型优化以便很好地表示时间序列数据内的递归序列。核心轨迹区42及核心区前的和核心区后的过渡元素都如此设计以使训练过程能根据通过数据库30提供的实际数据为每个音素区构成一致的模型。在这方面,核心区表示元音的核心,及核心区前的和核心区后的过渡元素表示对现有音素是特定的一个元音和它之前和之后的声音的各方面。例如,在自词“tight”中提取的声音单元32中核心区前的过渡元素表示由区前子音‘t’给予元音‘ay’的特色变化。
该训练过程自然地收敛于最佳地对准的模型。为了解为何如此,应知道语音单元30的数据库包含每个元音声音的至少两个,最好更多个例子。例如,在“tight”和“Suffice”两者中发现的元音声音‘ay’由图2中声音单元32和34所表示。埋嵌重估价过程或训练过程使用这些‘ay’的多个例子来训练初始语音模型40及从而生成最佳地对准的语音模型50。对于所有‘ay’声音的例子都一致的时间序列数据部分表示内核或核心轨迹区。如50处所阐述的,该系统分别地训练区前过渡和区后过渡元素。当然这些会随着元音之前和之后的声音的不同而不同。
一旦将模型训练以生成最佳地对准的模型,即确认核心轨迹区两侧边界以便确定用于衔接合成的重叠边界位置。因此在步52中使用最佳地对准的模型以确定重叠边界。图2阐述叠加在由词“Suffice”和“tight”导出的声音单元的共振峰额率数据之上的重叠边界A和B。
在参数数据中(在此情况下是共振峰频率数据中)辨识出重叠边界后,该系统即在步54处标记该时间序列数据以便在时间序列数据中划分重叠边界。如果需要,标记的数据可存于数据库30中以备以后衔接语音合成之用。
作为例子,图形地表示为一个重叠样板56的重叠边界区叠加在词“suffice”的时间序列数据的图形表示之上。具体地由括号58所示,样板56在后一个音节“…fice”中对准。当此声音单元用于衔接语音时,可消除前导部分62,同时该核心轨迹区64(由边界A和B划分)用作平滑转换或衔接区。
在一定实施例中,可能需要调整重叠区的持续时间以完成衔接合成。此过程阐述于图3中。输入文本70被分析,及如步72中所阐述的,自数据库30中选择合适的语音单元。例如,如词“fight”是输入文本,则系统可能选择先前存储的自词“tight”和“suffice”中提取的语音单元。
相应语音单元的核心轨迹区可能不必要跨越同样长的时间。因此在步74处可扩展或收缩相应的核心轨迹区以使它们的持续时间匹配。在图3中核心轨迹区64a扩展至64b。声音单元B可以类似地改变。图3阐述了核心轨迹区64c收缩为区64d,以使两块相应区具有相同持续时间。
一旦调整持续时间使它们匹配,在步76处即合并来自语音单元的数据以在78处形成新衔接的词。
依上所述,可看出本发明提供一种自动化手段,用于为衔接语音合成系统构成语音单元数据库。通过划分出核心轨迹区,该系统提供一个无缝,无失真的重叠。这些重叠区可以有利地扩展或收缩至一个公共固定尺寸,从而简化衔接过程。利用统计建模过程,该核心轨迹区表示语音信号的一部分,其中声学语音特性跟随于一个动态模式之后,该动态模式对于相同音素的不同例子是相对地稳定的。此稳定性能提供一个无缝无失真的过渡。
根据本发明原理生成的语音单元可以容易地存储于一个数据库内以备以后提取和衔接而对计算机处理系统增加最小负担。因此该系统对于开发处理能力有限的语音合成产品和应用是十分理想的。此外,用于生成声音单元的自动化过程可以很大地减少在构作特定用途语音单元数据库中例如特定词汇或开发多语言合成系统中所需的时间和劳动。
虽然本发明已经在其现有优选形式中说明过,但可在不背离由所附权利要求书所规定的本发明实质的情况下作出改变。

Claims (15)

1.一种用于辨识用于衔接语音合成的单元重叠区的方法,包括:
确定一个统计模型以表示语音的时变特性;
提供多个对应于包含相同元音的不同声音单元的时间序列数据;
自所述时间序列数据中提取语音信号参数并使用所述参数来训练所述统计模型;
使用所述训练的统计模型以便辨识所述时间序列数据中的一个递归序列并将所述递归序列与所述元音的一个核心轨迹区关联起来;
使用所述递归序列为衔接语音合成划分出单元重叠区。
2.权利要求1的方法,其中所述统计模型是一个隐藏马尔可夫模型。
3.权利要求1的方法,其中所述统计模型是一个递归式神经网络。
4.权利要求1的方法,其中所述语音信号参数是内藏语音共振峰。
5.权利要求1的方法,其中所述统计模型具有一个用于分别为一个元音的核心轨迹区和围绕所述核心轨迹区的过渡元素建模的数据结构。
6.权利要求1的方法,其中训练所述模型的步骤由埋嵌重估价来完成以便在由所述时间序列数据所表示的整个数据集上生成一个用于对准的收敛模型。
7.权利要求1的方法,其中所述统计模型具有一个用于分别为一个元音的核心轨迹区和所述核心轨迹区前的第一过渡元素和所述核心轨迹区后的第二过渡元素建模的数据结构;及
使用所述数据结构以消除掉对应于所述第一和第二过渡元素中之一的所述时间序列数据中的一部分。
8.一种用于完成衔接语音合成的方法,包括:
确定一个统计模型以便表示语音的时变特性;
提供多个对应于包含相同元音的不同声音单元的时间序列数据;
自所述时间序列数据中提取语音信号参数并使用所述参数来训练所述统计模型;
使用所述训练的统计模型以辨识所述时间序列数据中的一个递归序列并将所述递归序列与所述元音的一个核心轨迹区关联起来;
使用所述递归序列为每一个所述声音单元中划分出一个单元重叠区;
根据所述声音单元的相应的单元重叠区把来自所述不同声音单元中的两个的所述时间序列数据重叠和合并,以便衔接地合成一个新声音单元。
9.权利要求8的方法还包括以下步骤:在完成所述合并步骤之前选择性地改变所述单元重叠区中的至少一个的持续时间以便与所述单元重叠区中的另一个的持续时间相匹配。
10.权利要求8的方法,其中所述统计模型是一个隐藏马尔可夫模型。
11.权利要求8的方法,其中所述统计模型是一个递归式神经网络。
12.权利要求8的方法,其中所述语音信号参数是内藏语音共振峰。
13.权利要求8的方法,其中所述统计模型具有一个用于分别为一个元音的核心轨迹区和围绕所述核心轨迹区的过渡元素建模的数据结构。
14.权利要求8的方法,其中训练所述模型的步骤由埋嵌重估价来完成以便在由所述时间序列数据所表示的整个数据集上生成一个用于对准的收敛模型。
15.权利要求8的方法,其中所述统计模型具有一个用于分别为一个元音的核心轨迹区和所述核心轨迹区前的第一过渡元素和所述核心轨迹区后的第二过渡元素建模的数据结构;及
使用所述数据结构以消除掉对应于所述第一和第二过渡元素中之一的所述时间序列数据的一部分。
CNB001037595A 1999-03-09 2000-03-09 衔接语音合成系统中单元重叠区的辨识 Expired - Fee Related CN1158641C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/264,981 1999-03-09
US09/264,981 US6202049B1 (en) 1999-03-09 1999-03-09 Identification of unit overlap regions for concatenative speech synthesis system

Publications (2)

Publication Number Publication Date
CN1266257A CN1266257A (zh) 2000-09-13
CN1158641C true CN1158641C (zh) 2004-07-21

Family

ID=23008465

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB001037595A Expired - Fee Related CN1158641C (zh) 1999-03-09 2000-03-09 衔接语音合成系统中单元重叠区的辨识

Country Status (7)

Country Link
US (1) US6202049B1 (zh)
EP (1) EP1035537B1 (zh)
JP (1) JP3588302B2 (zh)
CN (1) CN1158641C (zh)
DE (1) DE60004420T2 (zh)
ES (1) ES2204455T3 (zh)
TW (1) TW466470B (zh)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7369994B1 (en) 1999-04-30 2008-05-06 At&T Corp. Methods and apparatus for rapid acoustic unit selection from a large speech corpus
JP2001034282A (ja) * 1999-07-21 2001-02-09 Konami Co Ltd 音声合成方法、音声合成のための辞書構築方法、音声合成装置、並びに音声合成プログラムを記録したコンピュータ読み取り可能な媒体
US7266497B2 (en) 2002-03-29 2007-09-04 At&T Corp. Automatic segmentation in speech synthesis
EP1860645A3 (en) * 2002-03-29 2008-09-03 AT&T Corp. Automatic segmentation in speech synthesis
JP4510631B2 (ja) * 2002-09-17 2010-07-28 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声波形の連結を用いる音声合成
US7280967B2 (en) * 2003-07-30 2007-10-09 International Business Machines Corporation Method for detecting misaligned phonetic units for a concatenative text-to-speech voice
US8583439B1 (en) * 2004-01-12 2013-11-12 Verizon Services Corp. Enhanced interface for use with speech recognition
US20070219799A1 (en) * 2005-12-30 2007-09-20 Inci Ozkaragoz Text to speech synthesis system using syllables as concatenative units
US9053753B2 (en) * 2006-11-09 2015-06-09 Broadcom Corporation Method and system for a flexible multiplexer and mixer
CN101178896B (zh) * 2007-12-06 2012-03-28 安徽科大讯飞信息科技股份有限公司 基于声学统计模型的单元挑选语音合成方法
KR101214402B1 (ko) * 2008-05-30 2012-12-21 노키아 코포레이션 개선된 스피치 합성을 제공하는 방법, 장치 및 컴퓨터 프로그램 제품
US8315871B2 (en) * 2009-06-04 2012-11-20 Microsoft Corporation Hidden Markov model based text to speech systems employing rope-jumping algorithm
US8473431B1 (en) 2010-05-14 2013-06-25 Google Inc. Predictive analytic modeling platform
US8438122B1 (en) 2010-05-14 2013-05-07 Google Inc. Predictive analytic modeling platform
JP5699496B2 (ja) * 2010-09-06 2015-04-08 ヤマハ株式会社 音合成用確率モデル生成装置、特徴量軌跡生成装置およびプログラム
US8533222B2 (en) * 2011-01-26 2013-09-10 Google Inc. Updateable predictive analytical modeling
US8595154B2 (en) 2011-01-26 2013-11-26 Google Inc. Dynamic predictive modeling platform
US8533224B2 (en) 2011-05-04 2013-09-10 Google Inc. Assessing accuracy of trained predictive models
US8489632B1 (en) * 2011-06-28 2013-07-16 Google Inc. Predictive model training management
JP5888013B2 (ja) 2012-01-25 2016-03-16 富士通株式会社 ニューラルネットワーク設計方法、プログラム及びデジタルアナログフィッティング方法
JP6524674B2 (ja) * 2015-01-22 2019-06-05 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム
KR102284238B1 (ko) * 2015-05-28 2021-07-30 미쓰비시덴키 가부시키가이샤 입력 표시 장치, 입력 표시 방법, 및 프로그램
CN106611604B (zh) * 2015-10-23 2020-04-14 中国科学院声学研究所 一种基于深度神经网络的自动语音叠音检测方法
KR102313028B1 (ko) * 2015-10-29 2021-10-13 삼성에스디에스 주식회사 음성 인식 시스템 및 방법
CN111081231B (zh) 2016-03-23 2023-09-05 谷歌有限责任公司 用于多声道语音识别的自适应音频增强
EP3436989A4 (en) * 2016-03-31 2019-11-20 Maluuba Inc. METHOD AND SYSTEM FOR PROCESSING AN INQUIRY INQUIRY
EP3794512A1 (en) 2018-05-14 2021-03-24 Quantum-Si Incorporated Systems and methods for unifying statistical models for different data modalities
MX2020012899A (es) * 2018-05-30 2021-02-26 Quantum Si Inc Metodos y aparato para la prediccion multimodal utilizando un modelo estadistico entrenado.

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5400434A (en) * 1990-09-04 1995-03-21 Matsushita Electric Industrial Co., Ltd. Voice source for synthetic speech system
KR940002854B1 (ko) * 1991-11-06 1994-04-04 한국전기통신공사 음성 합성시스팀의 음성단편 코딩 및 그의 피치조절 방법과 그의 유성음 합성장치
US5349645A (en) * 1991-12-31 1994-09-20 Matsushita Electric Industrial Co., Ltd. Word hypothesizer for continuous speech decoding using stressed-vowel centered bidirectional tree searches
US5490234A (en) * 1993-01-21 1996-02-06 Apple Computer, Inc. Waveform blending technique for text-to-speech system
US5751907A (en) 1995-08-16 1998-05-12 Lucent Technologies Inc. Speech synthesizer having an acoustic element database
US5684925A (en) * 1995-09-08 1997-11-04 Matsushita Electric Industrial Co., Ltd. Speech representation by feature-based word prototypes comprising phoneme targets having reliable high similarity
US5913193A (en) * 1996-04-30 1999-06-15 Microsoft Corporation Method and system of runtime acoustic unit selection for speech synthesis

Also Published As

Publication number Publication date
CN1266257A (zh) 2000-09-13
EP1035537A2 (en) 2000-09-13
JP3588302B2 (ja) 2004-11-10
US6202049B1 (en) 2001-03-13
ES2204455T3 (es) 2004-05-01
JP2000310997A (ja) 2000-11-07
EP1035537B1 (en) 2003-08-13
TW466470B (en) 2001-12-01
DE60004420D1 (de) 2003-09-18
DE60004420T2 (de) 2004-06-09
EP1035537A3 (en) 2002-04-17

Similar Documents

Publication Publication Date Title
CN1158641C (zh) 衔接语音合成系统中单元重叠区的辨识
CA2545873C (en) Text-to-speech method and system, computer program product therefor
USRE39336E1 (en) Formant-based speech synthesizer employing demi-syllable concatenation with independent cross fade in the filter parameter and source domains
DE602005002706T2 (de) Verfahren und System für die Umsetzung von Text-zu-Sprache
EP1221693B1 (en) Prosody template matching for text-to-speech systems
Yi Natural-sounding speech synthesis using variable-length units
CN101064104A (zh) 基于语音转换的情感语音生成方法
JPH1195783A (ja) 音声情報処理方法
US20020065653A1 (en) Method and system for the automatic amendment of speech recognition vocabularies
EP1058235B1 (de) Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese
CN109036376A (zh) 一种闽南语语音合成方法
CN106297766B (zh) 语音合成方法及系统
CA2317231C (en) Process for implementing a speech recognizer, the related recognizer and process for speech recognition
JP4005360B2 (ja) 合成すべき音声応答の基本周波数の時間特性を定めるための方法
CN1217808A (zh) 自动语音识别
JP3281281B2 (ja) 音声合成方法及び装置
CN105719641A (zh) 用于波形拼接语音合成的选音方法和装置
Sečujski et al. An overview of the AlfaNum text-to-speech synthesis system
US9905218B2 (en) Method and apparatus for exemplary diphone synthesizer
EP1589524A1 (en) Method and device for speech synthesis
CN1162836C (zh) 确定一系列声音模块以合成调性语言的语言信号的方法
EP1640968A1 (en) Method and device for speech synthesis
JPS5842099A (ja) 音声合成方式
JP2017090856A (ja) 音声作成装置、方法、及びプログラム、音声データベース作成装置
Meron Applying fallback to prosodic unit selection from a small imitation database

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C19 Lapse of patent right due to non-payment of the annual fee
CF01 Termination of patent right due to non-payment of annual fee