JP2787179B2 - 音声合成システムの音声合成方法 - Google Patents

音声合成システムの音声合成方法

Info

Publication number
JP2787179B2
JP2787179B2 JP4297000A JP29700092A JP2787179B2 JP 2787179 B2 JP2787179 B2 JP 2787179B2 JP 4297000 A JP4297000 A JP 4297000A JP 29700092 A JP29700092 A JP 29700092A JP 2787179 B2 JP2787179 B2 JP 2787179B2
Authority
JP
Japan
Prior art keywords
pitch
signal
pitch pulse
waveform
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP4297000A
Other languages
English (en)
Other versions
JPH06110498A (ja
Inventor
鐘樂 李
▲傭▼奎 朴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KANKOKU DENKI TSUSHIN KOSHA
Original Assignee
KANKOKU DENKI TSUSHIN KOSHA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KANKOKU DENKI TSUSHIN KOSHA filed Critical KANKOKU DENKI TSUSHIN KOSHA
Publication of JPH06110498A publication Critical patent/JPH06110498A/ja
Application granted granted Critical
Publication of JP2787179B2 publication Critical patent/JP2787179B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は音声合成システム(sp
eech synthesis system)とその
合成方法に関するもので、特に、合成音(synthe
sizedspeech)の音声を顕著に改善すること
ができるようにする音声断片コーディングおよびピッチ
調節方法に関するものである。
【0002】
【従来の技術】文字列(text)を音声に変換するこ
とにより無制限の語彙を合成できるようにする無制限の
音声合成システム(text−to−speech s
ynthesis system)を実現させるための
音声合成方式には数通りがあるが、その中で実現が容易
で最も普遍的に用いている方法は人の音声を採取(sa
mpling)して半音節(demisyllabl
e)とかダイフォン(diphone)のような音声単
位に分割して得た短い音声断片(speech seg
ment)等をコーディングしてメモリに貯蔵してか
ら、文字列が入力されるとそれを発音記号(phone
tic transcription)に変えた後、そ
れに合う音声断片等をメモリから順次取出して再生(d
ecoding)させることにより入力文字列(inp
ut text)に該当する音声の合成をなす音声断片
合成(segmental synthesis)方式
である。別称として連鎖合成(synthesis−b
y−concatenation)方式ともいう。
【0003】
【発明が解決しようとする課題】このような音声断片合
成方式において合成音の音質を左右する最も重要な1つ
の要素は音声断片のコーディング方法である。既存の音
声断片合成方法のための音声合成システムにおいて音声
断片を貯蔵するための音声コーディング(speech
coding)方式は音質が悪いボコーディング(v
ocoding)方式を主に用いているが、これが合成
音声の音質を劣化させる最も重要な原因の1つになって
いる。
【0004】以下、従来の音声断片コーディング方法に
対して簡略に考察してみることにする。
【0005】音声コーディング方法は音質の良い波形コ
ーディング(waveform coding)方式と
音質が悪いボコーディング方式とに大別することができ
る。波形コーディング方式は音声波形(speech
waveform)をそのまま伝達しようとする方法で
あるため、ピッチ周波数と持続時間(duratio
n)を変化させることが極めて難しく、音声合成時に抑
揚と発生速度等を調節することができないだけでなく、
音声断片間を円滑に接続(concatenatio
n)させることができなくて根本的に音声断片のコーデ
ィング用に適さない。
【0006】これに比べて、分析−合成方式(anal
ysis−synthesis method)とも称
されるボコーディング方式を用いる場合にはピッチパタ
ーン(pitch pattern)と音声断片の持続
時間を任意に変化させることができ、スペクトル包絡
(spectral envelope)推定パラメー
タ(estimation parameter)の内
挿によって音声断片間を円滑に接続させることができて
無制限の音声合成用コーディング手段として適している
ため、現在、ほとんど大部分の音声合成システムに線形
予測コーディング(Linear Predictiv
e Coding: LPC)またはホルマントボコー
ディング(formant vocoding)等のボ
コーディング方式が採用されている。しかし、ボコーデ
ィング方式により音声をコーディングする場合には再生
される音声の音質が悪いため、貯蔵された音声断片をデ
コーディングして連鎖(concatenation)
させることにより合成される合成音もこれらボコーディ
ング方式が有する音質の限界以上に良い音質を有するこ
とはできない。
【0007】ボコーディング方式が有する音質の限界を
克服するため、励起信号として用いられるインパルス列
(impuls train)をより少ない人為的な波
形に代える方法が用いられた。その1つはインパルスの
代わりにそれよりも尖鋭度(peakiness)が低
い波形、たとえば、三角波とか半円波または声門パルス
(glottal pulse)に類似した波形を用い
るものであった。他の1つは、逆フィルタリング(in
verse filtering)によって得られた残
余信号のピッチパルス等の中のいずれか1つ、またはい
くつかを標準ピッチパルス(sample pitch
pulse)に選定して、1つの標準パルスを全時間
または相当長い時間の区間にわたってインパルスの代わ
りに用いるものであった。しかし、インパルスを他の波
形の励起パルスに取り替えようとする従来の方法では音
質を改善させることができず、単にわずかに改善させる
ことができたのみで自然音に近い音質を有する合成音を
得ることができなかった。
【0008】本発明は、音質は良いがピッチ調節が不可
能な波形コーティング方式とピッチ調節は可能であるが
音質の悪いボコーディング方式の長所を結合させて得ら
れ、音質が良くピッチ調節を可能にする新たな音声合成
方法を提供することによって人間の発声と同程度の自然
性と明瞭性(intelligibility)とを有
する高音質の音声を合成することに目的がある。
【0009】
【作用】本発明の特徴は原音声(original s
peech)中の有声音区間の信号を各声門パルス(g
lottal pulse)によって作られる1周期分
の音声波形に該当する単位波形(wavelet)等に
分解し、それらを各々コーディングして貯蔵するコーデ
ィング方式の周期波形分解方式(periodic w
aveform decomposition met
hod)と、貯蔵された単位波形等の中から配置させよ
うとする位置に最も近い単位波形を選択してデコーディ
ングし、それらを互いに重ね合わせることによって原音
声の音質をそのまま保持しながらも音声断片の持続時間
とピッチ周波数を任意に調節することができるようにす
る波形合成方式の時間歪曲式単位波形再配置方式(ti
mewarping−based wavelet r
elocation method)を用いることにあ
る。
【0010】
【実施例】以下、添付の図面を参照して本発明を詳細に
説明することにする。
【0011】音声断片合成方式の無制限音声合成システ
ムの一般的な構造は図1に示されたように、音声学的前
処理サブシステム(phonetic preproc
essing subsystem)1、韻律発生サブ
システム(prosodics generation
subsystem)2、そして音声断片組合せサブ
システム(speech segment conca
tenation subsystem)3という3つ
のサブシステムで構成される。すなわち、キーボード、
コンピュータ、または、他のあるシステムから無制限音
声合成システムに文字列が入力されると音声学的前処理
サブシステム1は、その構文を分析した後に音韻変動規
則(phonetic recoding rule)
を適用して文字列を発音記号(phonetic tr
anscriptive symbol)の列(str
ing)に変えるが、韻律発生サブシステム2は、それ
に適当な抑揚と強勢をつけることができるように構文分
析情報(syntactic analysis da
ta)を利用して抑揚パターン情報(intonati
on pattern data)および強勢パターン
情報(stresspattern data)を発生
させ音声断片組合せサブシステム3に供給する。音韻発
生サブシステム2はさらにまた各音素の持続時間に関係
する情報を音声断片組合せサブシステム3に供給する。
これら3つの韻律情報は発音記号列とは別途に音声断片
組合せサブシステム3に伝えられるが、概して、発音記
号列内に挿入されて音声断片組合せサブシステム3に送
出される。音声断片組合せサブシステム3では発音記号
列に基づいて適当な音声断片をメモリ(図示省略)から
順次に取出して再生させることにより連続の音声を作り
出す。この時、音声断片組合せサブシステム3は韻律情
報によって各音声断片のエネルギー(強度)と持続時
間、そしてピッチ周期を調節することにより韻律発生サ
ブシステム2が意図した抑揚、強弱および発声速度を有
する合成音声を作り出すことができるようになる。
【0012】本発明は、このような音声断片組合せサブ
システム3において音声断片を貯蔵するためのコーディ
ング方法を改善することにより既存のコーディング方法
による合成音声に比べて音質が顕著に改善されるように
することが目的である。
【0013】以下、音声断片組合せサブシステム3の動
作を図2に示した内部構成図によって説明することにす
る。
【0014】音声断片組合せサブシステム3に発音記号
列と韻律情報が入力されると音声断片選定部4は、その
発声記号列を音声に合成するのに必要な音声断片等を順
次に選定するようになるが、その結果、選定された音声
断片等の記号(index)が出力され音声断片貯蔵部
5に入力される。
【0015】音声断片貯蔵部5には音声断片等が後述す
る本発明による方法でコーディングされメモリに貯蔵さ
れているが、音声断片選択部4から選定された音声断片
の記号が入力されると音声断片貯蔵部5は当該音声断片
情報を取出し、それが有声音または有声摩擦音であれば
有声音合成部6に無声音であれば無声音合成部7に各々
伝送して合成される。その結果、作られたデジタル合成
音声信号はD−A変換器(図示省略)とアナログ低域通
過フィルタ(図示省略)、そしてアナログ増幅機(図示
省略)で構成されたD−A変換部8に送出されてアナロ
グ信号に変換されることにより、所望の合成音声が得ら
れるようになっている。有声音合成部6と無声音合成部
7は音声断片等を連鎖させる際、韻律情報を利用して音
声断片の持続時間と強度そしてピッチ周波数を適切に調
節することによって合成音声が図1の韻律発生サブシス
テム2によって意図された韻律を有するようになる。
【0016】音声断片貯蔵部5に貯蔵される音声断片を
用意する過程は次のとおりである。まず、使用する合成
単位を決定する。合成単位としては音素、変異音(al
lophone)、ダイフォン、音節、半音節、CV
C、VCV、CV、VC単位(ここで、Cは子音、Vは
母音音素を示す)またはこれらの混合使用等があるが、
この中で音声断片合成方式の音声合成システムで、現
在、最も多く採用されている合成単位はダイフォンと半
音節である。その合成単位の集合をなす元素の各々に該
当する音声断片を人が実際に発音した音声サンプルから
分割(segmentation)する。したがって、
合成単位集合の元素の数と音声断片の個数は等しくな
る。たとえば、英語において半音節を合成単位に選択す
る場合、半音節の種類は約1000種類であるので音声
断片の数も約1000個となる。一般的に、このような
音声断片は無声音および有声音区間別に再び分割して得
た無声(unvoiced)および有声音声断片(vo
iced speech segment)を基本的な
合成単位に用いる。
【0017】無声音声断片は図2の無声音合成部7で再
生されるが、無声音の再生時には人為的な白色ランダム
雑音信号を合成フィルタの励起信号として用いても再生
された音声の音質が劣化しないことが知られている。そ
れで、無声音声断片のコーディングと再生においては白
色雑音を励起信号として用いる既存のボコーディング方
式をそのまま用いるとよい。たとえば、無声音合成時に
は乱数発生アルゴリズムによって白色雑音信号を発生さ
せ励起信号として用いるか、予め発生させて得た白色雑
音信号をメモリに貯蔵させてから合成時に取り出して用
いるか、または実際の音声の無声音区間を逆スペクトル
包絡フィルタ(inverse spectral e
nvelope filter)(図示省略)でフィル
タリングして得た残余信号をメモリに貯蔵させておいて
から合成時に取出して用いる方法の中のいずれの方法も
用いることができる。もしも無声音声断片の持続時間を
変化させる必要がないとすれば無声音部分をPCM(p
ulse Code Modulation)とかAD
PCM(Adaptive Differential
PCM)のような波形コーディング方法によってコー
ディングして貯蔵してから合成時にデコーディングして
そのまま用いる極めて簡単なコーディング方法も用いら
れる。
【0018】本発明は合成音の音質を左右する有声音声
断片のコーディングと合成方法に関するものでその機能
を遂行する図2中の音声断片貯蔵部5と有声音合成部6
に対して重点的に説明することにする。
【0019】音声断片貯蔵部5のメモリ(図示省略)内
に貯蔵されている音声断片等の中で有声音声断片等は本
発明による周期波形分解方式によって予めピッチ周期別
成分である単位波形等に分解され貯蔵されている。有声
音合成部6は時間歪曲式単位波形の再配置方式によって
その単位波形等を適切に選定および配置することによっ
て所望のピッチと持続時間を有する音声を合成する。こ
れらの方式の原理を添付の図面によって説明することに
する。
【0020】有声音声s(n)は声帯で発生する周期的
な声門波(glottal wave)が口腔と咽頭腔
そして鼻腔でなる音響学的声道フィルタ(vocal
tract filter)V(f)を通じながらフィ
ルタリングされることによって作られた周期的信号であ
る(ここで声道フィルタV(f)には唇輻射現象による
周波数特性が包含されたものと考える)。そのスペクト
ルS(f)は周波数fに対して速く変化する微細構造と
徐々に変化するスペクトル包絡を特徴とするが、前者は
有声音声信号の周期性に基づくものであり、後者は音声
パルスのスペクトルと声道フィルタの周波数特性を反映
する。有声音声のスペクトルS(f)はピッチ周波数F
O の整数倍毎に存在する高周波成分によるインパルス列
形態の微細構造がスペクトル包絡関数H(f)により変
調された形態を取っている。したがって、有声音s
(n)はそれのスペクトル包絡関数H(f)と同一な周
波数応答特性を有する時変フィルタにそれと同一な周期
と平坦なスペクトル包絡を有する周期的ピッチパルス列
信号(periodic pitch pulse t
rain signal)e(n)が入力されたときの
出力信号であるとみられる。これを時間領域(time
domain)からみると、有声音s(n)はフィル
タH(f)のインパルス応答h(n)と周期的ピッチパ
ルス列信号e(n)とのコンボリューションである。こ
のような時変フィルタの周波数応答特性のH(f)は有
声音s(n)のスペクトル包絡関数に該当するため、こ
の時変フィルタをスペクトル包絡フィルタ(または合成
フィルタとも称する)という。図3(a)は声門波形
(glottal waveform)の3周期分信号
を示す。声門波形を構成する声門パルス等の波形は互い
に類似であるが全く同一ではなく、隣接の声門パルス間
の時間間隔も概略同じであるが全く同一でないのが普通
である。前述のように図3(c)の有声音声波形s
(n)は図3(a)に示された声門波形g(n)が声道
フィルタV(f)によってフィルタリングされることで
生成される。声門波形g(n)は時間的に互いに区分さ
れる声門パルスg1(n)、g2(n)、g3(n)等
でなっており、それらが声道フィルタV(f)によって
各々フィルタリングされると図3(b)に示されたよう
な単位波形s1(n)、s2(n)、s3(n)等が作
られる。図3(c)の音声波形s(n)はこれら単位波
形等が重ね合わされることで形成されたものである。も
しも、有声音声波形s(n)を分解して、それを構成す
る単位波形等を求め出し得るとすればそれらを貯蔵して
から合成時にそれらの強度とそれらの間の時間間隔を変
えることによって所望の任意のアクセントと抑揚を有す
る音声を合成することができるというのが本発明の基本
概念である。
【0021】図3(c)に示されるように有声音声波形
s(n)は時間領域で互いに重複される単位波形等が重
ね合わされて作られたものであるために音声波形s
(n)からそれを構成する単位波形等を容易に再び分離
することはできない。各周期分の波形等が時間領域で互
いに重ね合わされないようにするためには、それらはエ
ネルギーが1つの時点に集中された尖鋭な波形にならな
ければならない。このような波形の尖鋭さは周波数領域
で平坦なスペクトル包絡を有することを意味する。有声
音声波形s(n)が与えられた時、それのスペクトルS
(f)の包絡(envelope)を推定し、その包絡
関数H(f)の逆数を周波数特性とある逆スペクトル包
絡フィルタ1/H(f)に入力させると図3(f)に示
したようなスペクトル包絡が平坦な周期的ピッチパルス
列信号e(n)を出力で得ることができる。図3(f)
に示されるように周期的ピッチパルス列信号e(n)を
構成する各周期分のピッチパルス波形等は時間領域で互
いに重ね合わされないので分離し出すことができる。分
離された1周期分ピッチパルス信号e1(n)、e2
(n)等は略平坦なスペクトルを有するので、これらを
スペクトルフィルタH(f)に、さらに入力させて元の
スペクトルを有するようにすると図3(b)に示された
単位波形s1(n)、s2(n)等を各々求めることが
できるというのが周期波形分解方式の原理である。
【0022】図7は有声音声断片を単位波形等に分解す
る本発明による周期波形分解方式のブロック線図で、ア
ナログ形態の有声音声信号または楽器音信号を低域通過
フィルタにより帯域制限し、A−D変換させることで得
られたデジタル信号s(n)を数ビットずつまとめてP
CMコードフォーマットでディスク等に貯蔵させてから
取り出して処理する。周期波形分解方式による単位波形
を用意する過程の始めの段階は周期的信号s(n)をそ
れのスペクトル包絡関数H(f)の時間領域の関数のイ
ンパルス応答h(n)と周期が同じく平坦なスペクトル
包絡を有する周期的ピッチパルス列信号e(n)にデコ
ンボリューションさせるブライドデコンボリューション
(blind deconvolution)である。
【0023】前述のように、ブライドデコンボリューシ
ョンを遂行するためにはs(n)からそのスペクトル包
絡関数H(f)を推定するスペクトル推定技法が必須的
である。
【0024】既存のスペクトル推定技法は分析区間の長
さによって、ブロック別分析法、ピッチ周期式分析法、
そして順次的分析法の3つに大きく分類することができ
る。ブロック別分析法は音声信号を10〜20ms程度
の一定持続時間のブロック等に分割して各ブロック内に
存在する一定個数の音声サンプルに対して分析を行なう
方法で、ブロック当り1つのセット(10〜16個程
度)ずつのスペクトル包絡パラメータを求める方法であ
るが、準同形分析法とブロック単位の線形予測分析法が
代表的である。ピッチ同期式分析法(pitch−sy
nchronous analysis metho
d)は図3(c)のようにピッチ周期を単位に分割され
た各周期分音声信号に対して分析を行なって周期当り1
つのセットずつのスペクトル包絡パラメータを得る方法
であるが、合成による分析法とかピッチ同期式線形予測
分析法が代表的である。順次的分析法(sequent
ialanalysis method)は各音声サン
プル毎にスペクトル包絡パラメータを得る方法である
が、適応濾波法(adaptive filterin
g)の一種の回帰最小自乗法(Recursive L
east Squares)等が代表的である。
【0025】図3(d)に、代表的な順次的分析法によ
って求められたスペクトル包絡パラメータセットの14
個の反射係数k1、k2、……、k14の中の始めの4
個の時間的変化を例示した。この図面からわかるように
スペクトル包絡パラメータ等の値は調音器官の連続的な
動きによって継続して変化する。これはスペクトル包絡
フィルタのインパルス応答h(n)が継続的に変わるこ
とを意味する。ここでは説明の便宜上から1周期の区間
内ではh(n)が変わらないものと仮定して図3(e)
に示したように第1、第2、第3周期区間のh(n)を
順次にh(n)1、h(n)2、h(n)3で各々示す
ことにする。
【0026】準同形分析法(homomorphic
analysis method)によって求められる
パラメータのケップストラム(cepstrum)CL
(i)、回帰最小自乗法または線形予測分析法により求
められるパラメータの予測係数集合{ai}または反射
係数集合{ki}またはそれの変形の対数面積比(Lo
g Area Ratio)、線スペクトル対(Lin
e SpectrumPair)等、各種のスペクトル
推定技法によって得られるスペクトル包絡パラメータ等
は、それらによりスペクトル包絡フィルタの周波数特性
H(f)とかインパルス応答h(n)を作り出すことが
できるためH(f)とかh(n)と同一に扱える。した
がって、以後からはインパルス応答までも包含してスペ
クトル包絡パラメータ(または、声道パラメータとも言
う)と称することにする。
【0027】図8ないし図12は、ブライドデコンボリ
ューションの具体的な方法等を例示している。
【0028】図8は線形予測分析法または回帰最小自乗
法によるブライドデコンボリューション方法を示す。図
3(c)のような有声音声波形s(n)が与えられると
前述の線形予測または回帰最小自乗法を利用してスペク
トル包絡フィルタの周波数特性H(f)またはインパル
ス応答h(n)を表わすスペクトル包絡パラメータ等の
予測係数等{a1、a2、……aN}または反射係数等
{k1、k2、……、kN}を求める。予測の次数N
は、普通10〜16程度で十分である。これらのスペク
トル包絡パラメータ等を利用するとスペクトル包絡フィ
ルタの周波数特性H(f)の逆数1/H(f)を周波数
特性として有する逆スペクトル包絡フィルタ(簡略に逆
フィルタとも言う)を容易に構成することができる。線
形予測分析法またはRLS技法で線形予測誤差フィルタ
とも称されるこの逆スペクトル包絡フィルタに有声音声
波形s(n)を入力させると予測誤差信号または残余信
号と称される平坦なスペクトル包絡を有する図3(f)
のような形態の周期的ピッチパルス列信号を出力するこ
とができる。
【0029】図9および図10に示された方法は、準同
形分析法を利用したブラインドデコンボリューション方
法であるが、図9にキューパランシー分割(quefr
ency division)による方法を、図10に
逆フィルタリングによる方法を各々示した。
【0030】まず、図9に対して説明すると次のとおり
である。有声音声信号s(n)に10〜20ms程度の
持続時間を有するハミング窓関数(Hamming W
indow function)のような両端減衰形窓
関数(tapered window functio
n)を掛けて1ブロックの分析用音声サンプルを得て、
それを図11のようにDFT(Discrete Fo
urier Transform)、複素対数関数(c
omplex logarithm)、逆DFTに引継
がれる一連の準同形(homomorphic pro
cessing)過程を通じてケップストラム列(ce
pstral sequence)C(i)を得ること
になる。ケップストラムC(i)は時間に類似な単位の
キュパランシーに対する関数であるが、原点を中心に位
置する低いキュパランシーケップストラム(low−q
uefrency cepstrum)CL(i)は有
声音声s(n)のスペクトル包絡を示し、高いキュパラ
ンシーケップストラム(high−quefrency
cepstrum)CH(i)は周期的ピッチパルス
列信号e(n)を示すが、これらはキュパランシー領域
で互いに分離され得る。すなわち、ケップストラムC
(i)に低いキュパランシー窓関数(low−quef
rency window)と高いキュパランシー窓関
数(high−quefrency window)を
掛けることによってCL(i)とCH(i)を各々求め
ることができる。これらを図12のような過程で各々逆
準同形処理(inverse homomorphic
processing)することによってインパルス
応答h(n)とピッチパルス列信号e(n)を得る。こ
の場合に、CH(i)を逆準同形処理するとピッチパル
ス列信号e(n)が直ちに求められず時間窓関数w
(n)が掛けられた1ブロックのピッチパルス列信号が
求められるので、w(n)の逆数に該当する逆時間窓関
数1/w(n)を再び掛けてe(n)を得る。
【0031】図10の方法は図9と同じであるが、た
だ、周期的ピッチパルス列信号e(n)を求める過程に
おいて、CH(i)の代わりにCL(i)を利用する点
が異なる。すなわち、CL(i)の負数を取ってなされ
た−CL(i)を準同形処理をするとh(n)の周波数
特性H(f)の逆数の1/H(f)に該当するインパル
ス応答をh−1(n)が得られる性質を利用して逆スペ
クトル包絡フィルタ、すなわちh−1(n)をインパル
ス応答とするFIR(finite−duration
impulse response)フィルタを構成
し、それに窓関数が掛けられない原音声信号s(n)を
入力させることによって出力で周期的ピッチパルス列信
号e(n)が得る方法である。
【0032】この方法は図8と根本的に同じ逆フィルタ
リング方法で、差異点は図10の準同形分析では逆スペ
クトル包絡フィルタのインパルス応答h−1(n)を求
めて逆スペクトル包絡フィルタ1/H(f)を構成する
のに比べて図8では線形予測分析法によって求めた予測
係数{ai}または反射係数{ki}で直接に逆スペク
トル包絡フィルタ1/H(f)を構成することができる
点である。
【0033】準同形分析法によるブラインドデコンボリ
ューションにおいては、前述のように、スペクトル包絡
パラメータとしてインパルス応答h(n)を用いること
もでき、図9および図10に点線で示したように低いキ
ュパランシーケップストラムCL(i)を用いることも
できる。インパルス応答{h(0)、h(1)、……、
h(N−1)}を用いる際はNが90〜120程度でパ
ラメータの数が非常に多いのに比べてケップストラム
{CL(−N)、CL(−N+1)、……、0、……、
CL(N)}を用いる際にはNが25〜30程度でパラ
メータの数は50〜60個に減る。
【0034】以上のように図8ないし図12の過程によ
って有声音声波形s(n)はスペクトル包絡フィルタの
インパルス応答h(n)と周期的ピッチパルス列信号e
(n)にデコンボリューションされる。
【0035】図7のブラインドデコンボリューション過
程によってピッチパルス列信号とスペクトルパラメータ
等を得られると、次に、エポック検出アルゴリズム(e
poch detection algorithm)
のような時間領域でのピッチパルス位置検出アルゴリズ
ムを利用して周期的にピッチパルス列信号e(n)とか
音声波形s(n)からピッチパルス等の位置P1、P2
等を求める。その次に図3(f)に例示したもののよう
にピッチパルスが1周期区間当り1つずつ包含されるよ
うにピッチパルス列信号e(n)を周期的分割(per
iodic segmentation)することによ
り図4(b)、図4(e)、および図5(b)に示した
e1(n)、e2(n)、e3(n)のようなピッチパ
ルス信号等を得る。切断位置は各ピッチパルス等の間の
中点または各ピッチパルスの前方に一定時間になる時点
に定めてもよいが、図3(a)および図3(f)を比較
してわかるようにピッチパルス等の時間的位置は声門パ
ルス等の終端部分に一致するので、図3(f)の点線で
示したように各ピッチパルスの後側に一定時間になる時
間を選択する方がよい。しかし、聴覚上からもっとも大
きい効果を与えるのはピッチパルスであるので、どの場
合でも実際に合成音の音質においては別に差異がない。
【0036】このような方法で得られたピッチパルス信
号等e1(n)、e2(n)、e3(n)等をその周期
区間の間のインパルス応答の図3(e)のh1(n)、
h2(n)、h3(n)と、各々、さらにコンボリュー
ションさせると図4(c)、図4(f)、および図5
(c)等のように目的とした単位波形等が得られる。こ
のようなコンボリューションは実際には図7でのように
スペクトル包絡パラメータをフィルタ係数で用いるスペ
クトル包絡フィルタH(f)に各ピッチパルス信号を入
力させて行なうのが便利である。たとえば、線形予測分
析法でのようにスペクトル包絡パラメータとして線形予
測係数とか反射係数または線スペクトル対を使用する場
合には、これらを直接フィルタ係数とするIIR(in
finite−duration impulse r
esponse)フィルタを構成する。準同形分析法の
ようにインパルス応答をスペクトル包絡パラメータで使
用する場合にはインパルス応答をタップ係数にするFI
Rフィルタを構成する。スペクトル包絡パラメータが対
数面積比またはケップストラムであれば、それらを直接
フィルタ係数にする合成フィルタを構成することができ
ないので反射係数およびインパルス応答に各々再び変更
した後、IIRおよびFIRフィルタの係数を使用すれ
ばよい。このように構成されたスペクトル包絡フィルタ
に1周期分のピッチパルス信号を入力させながらフィル
タ係数をピッチパルス信号の各サンプルのような瞬間に
該当するスペクトル包絡パラメータのように変化させる
と、その周期分の単位波形が出力される。
【0037】このような理由のために各周期分のピッチ
パルス信号を得るためe(n)を切断したのと同一な時
点でスペクトル包絡パラメータ等の時間関数波形(ti
mefunction waveform)等を切り取
る。たとえば、順次的分析法の場合、図3(d)に例示
したのと同じスペクトル包絡パラメータ等の時間関数等
k1(n)、k2(n)等から図4(b)に示した始め
の周期分のピッチパルス信号e1(n)と同じ時間区間
に該当するスペクトル包絡のパラメータ等を切り取って
図4(a)の実践のような始めの周期分スペクトル包絡
パラメータ等k1(n)1、k2(n)1等を得る。図
4(d)および図5(a)に実線で示した第2および第
3周期分スペクトル包絡パラメータ等も同じ方法で得る
ことができる。図7にスペクトルパラメータとして代表
的に、反射係数等k1、k2、……、kNとインパルス
応答h(0)、h(1)、……、h(N−1)を表示し
たが、これらが時間に対する関数という点を強調するた
めに各々k1(n)、k2(n)、……、kN(n)お
よびh(0、n)、h(1、n)、……、h(N−1、
n)で表記した。ケップストラムCL(i)がスペクト
ル包絡パラメータとして用いられる場合には同じくCL
(i、n)で表記される。ピッチ同期式分析法とかブロ
ック別分析法の場合には順次的分析法の場合とは異な
り、スペクトル包絡パラメータ等の時間関数が求められ
ず分析区間に対して一定のスペクトル包絡パラメータ値
等が求められるのでそれらでもってまずスペクトル包絡
パラメータの時間関数を作った後、その時間関数を周期
的に分割して1周期分のスペクトル包絡パラメータ等を
作るべきであるが実際には時間関数を構成する代わりに
次のように処理するのが便利である。すなわち、ピッチ
同期式分析法の場合には図17の鎖線のように各ピッチ
周期区間に対して一定の値を有する1セットずつのスペ
クトル包絡パラメータ等が対応するため、この場合には
周期的分割をしても変化がなく、したがって、バッファ
に貯蔵される1周期分のスペクトル包絡パラメータは時
間関数ではなく時間に関係のない常数になる。また、ブ
ロック別分析方法の場合にはブロック当り1セットの一
定なスペクトル包絡パラメータ値等が求められるので、
1ブロックに属するすべての1周期分のスペクトル包絡
パラメータ等、たとえば、k1(n)1、k1(n)
2、……、k1(n)Nの値は時間に無関係の常数であ
るだけでなくすべて同一な値になる(ここで、k1
(n)jはj番目の周期区間のk1の時間関数を意味
し、Nはブロックに属するピッチ周期区間の数を表示す
る)。ただ、ブロック境界にかかっているピッチパルス
信号に対応するスペクトル包絡パラメータとしては、そ
のピッチパルス信号上のブロック間の境界時点を基準に
して、その前および後の信号分に対して各々前および後
のブロックのスペクトル包絡パラメータ値を用いるべき
であることを留意しなければならない。
【0038】図4(c)でみるように単位波形の持続時
間は必ずしも1周期と同じではない。したがって、周期
的分割で得られた1周期長のピッチパルス信号とスペク
トル包絡パラメータ等をスペクトル包絡フィルタに印加
する前に、それらに持続時間が単位波形の有効持続時間
以上になるようにするため、図7に示した零サンプル追
加(zero appending)とパラメータ延長
(parametertrailing)過程が必要で
ある。零サンプル追加過程は1周期分のピッチパルス信
号の後に零の値を有するサンプル等を追加して全体の持
続時間を必要な長さになるようにすることである。パラ
メータ延長過程は1周期分のスペクトル包絡パラメータ
の後に、その次の周期分スペクトル包絡パラメータの前
部分を追加して全体の持続時間を必要な長さになるよう
にすることであるが、終わりの値を繰返すとか、その次
の周期分のスペクトル包絡パラメータの初めの値を繰返
して追加する簡単な方法を用いても合成音の音質は別に
劣化しない。
【0039】スペクトル包絡フィルタによって作られる
単位波形の有効持続時間はスペクトル包絡パラメータ等
の値によって左右され予め推定し難い。しかし、ほとん
どの場合、単位波形の有効持続時間は男子の音声の場合
にはピッチパルス位置から後方に2周期、子供および女
子の音声の場合には3周期にみると実用上から差支えが
ないので、ピッチパルスの直後で周期的分割をする場
合、零サンプル追加によって作られる延長されたピッチ
パルス信号とパラメータ延長によって作られる延長され
たスペクトル包絡パラメータの持続時間が男子および女
子の音声に対して各々3および4周期の長さになるよう
に定めるのが便利である。図4(a)に周期的分割で得
られた始めの周期区分(a−b)のスペクトル包絡パラ
メータの次に点線で示されたその次の2周期区間(b−
d)のスペクトル包絡パラメータを追加して作られた3
周期区間(a−d)の始めの周期分の延長されたスペク
トル包絡パラメータを例示した。また、図4(b)に周
期的分割で得られた始めの周期区間(a−b)のピッチ
パルス信号の次の2周期区間(b−d)に零サンプル等
を追加して得られた3周期区間(a−d)の始めの周期
分の延長されたピッチパルス信号を例示した。
【0040】上記のような場合に、零サンプル追加とパ
ラメータ延長以前のピッチパルス信号とスペクトル包絡
パラメータの持続時間は1周期であるのに比べて零サン
プル追加とパラメータ延長以後の持続時間は3または4
周期に増加することになるので、図7でのようにその中
間にバッファを置いて周期的に分割して得られたピッチ
パルス信号とスペクトル包絡パラメータを、一応、バッ
ファに貯蔵してから取り出して用いることによって時間
的緩衝になるようにした。
【0041】図7で、零サンプル追加とパラメータ延長
によって延長されたピッチパルス信号と延長されたスペ
クトル包絡パラメータが得られたら、最終的にスペクト
ル包絡フィルタH(f)に図4(b)の区間(a−h)
のような延長の初めの周期分のピッチパルス信号を入力
させながら、それに同期的に係数等を図4(a)の区間
(a−d)のような延長された始めの周期分スペクトル
包絡パラメータのように変化させると図4(c)の区間
(a−d)のような3周期区間長さの初めの周期分であ
る単位波形信号s1(n)を得ることができる。2番目
および3番目の周期分の単位波形信号s2(n)、s3
(n)も同じ方法で得ることができる。以上に説明した
ように、図7の過程によって結果的に有声音声波形s
(n)は、それを構成する単位波形等に分解される。明
白に、分解されて得られた図4(c)、図4(f)およ
び図5(c)の単位波形等を元の時点に再び配置させる
と図3(b)のようになり、それらを重ね合わせると図
3(c)のような原音声波形s(n)がさらに作られ
る。もし、図4(c)、図4(f)および図5(c)の
各単位波形を図6(a)に示したように相互間の間隔を
変化させて再配置して後に重ね合わせると、図6(b)
のように他のピッチパターンを有する音声波形が得られ
るのである。このように、分解されて得られた単位波形
等の時間間隔を適切に変化させると任意の所望のピッチ
パターン、すなわち、抑揚を有する音声を合成すること
ができるようになる。また、単位波形等のエネルギーを
適切に変化させると任意の所望の強勢パターンを有する
音声を合成することができる。
【0042】図2の音声断片貯蔵部5には図7のような
方法によって、ピッチパルスの個数くらいの単位波形等
に分解された状態の各有声音声断片が図13のようなフ
ォーマットで貯蔵されているが、このようなものを音声
断片情報という。音声断片情報の前部分のヘッダフィー
ルドには音声断片においての重要時点等の境界地点等B
1、B2、……BLと各単位波形を合成する時、用いら
れた各ピッチパルス信号のピッチパルス位置等、P1、
P2、……、PMが貯蔵されるが、初めのピッチパルス
信号e1(n)の初めのサンプル位置を零にして、その
各時点等に該当するサンプル数が記録される。境界時点
は音声断片を便宜上から数個の小断片(subsegm
ent)等に分割してみるときに生じるそれらの間の境
界点の時間的位置である。たとえば、前後に子音を有す
る母音は緩い発声速度では中間部分の正常状態区間(s
teady−state interval)と、その
前後に位置する2個の遷移区間(transition
al interval)に区分され得るため3個の小
断片になっているとみることができるが、音声断片ヘッ
ダフィールドには各小断片の終点3個が境界時点として
貯蔵される。しかし、速い発声速度で採取した場合には
遷移区間が1つの時点になって母音の音声断片は2個の
小断片になっているとみられ得るので2個の境界時点が
ヘッダ情報内に貯蔵されることになる。
【0043】音声断片情報の後部分の単位波形コードフ
ィールドには各周期に該当する単位波形を波形コーディ
ングして得られるコード等の波形コード等を貯蔵する。
単位波形等はPCMのような簡単な波形コーディング方
法でコーディングしてもよいが短期的および長期的相関
性を持つため、ピッチ予測ループ(pitch−pre
dictive loop)を有するADPCMとか適
応予測コーディング(Adaptive Predic
tive Coding)またはデジタル方式の適応デ
ルタ変調(Adaptive Delta Modul
ation)方法等を利用して効率的に波形コーディン
グすると貯蔵に必要なメモリ量を相当減らすことができ
る。分解されて得られた単位波形等を波形コーディング
し、そのコード等を貯蔵してから合成時にデコーディン
グして再配置および重ね合わせて合成音を作る。このよ
うな方法を波形コード貯蔵方式(waveform c
ode storage method)という。
【0044】ピッチパルス信号とそれに対応するスペク
トル包絡パラメータ等は単位波形を作ることができる材
料等であるので単位波形と同一なものとして取り扱うこ
とができる。したがって、それらを各々コーディングし
て得られた波源コード等を貯蔵してから合成時にデコー
ディングして得られたピッチパルス信号とスペクトル包
絡パラメータ等により単位波形等を作った後、それらを
再配置および重ね合わせて合成音を作る方法も可能であ
る。このような方式を波源コード貯蔵方式という。この
方式は図7において出力で得られる単位波形等の代わり
にバッファ等に貯蔵されたピッチパルス信号等とスペク
トル包絡パラメータ等を各々同じ周期区間のもの同士が
組み合わされて音声断片貯蔵部5に貯蔵するのと同じで
ある。
【0045】したがって、波源コード貯蔵方式では図7
のバッファの次の処理過程等、すなわちパラメータ延長
と零サンプル追加過程、そして、合成フィルタH(f)
によるフィルタリング過程を図15の波形組立て部13
の中で処理しなければならない。
【0046】波源コード貯蔵方式の場合に音声断片情報
のフォーマットは図14および図13と同じであるが単
位波形コードフィールドの内容だけが異なる。すなわ
ち、図13での各周期分の単位波形が貯蔵される位置に
単位波形の代わりにその単位波形を合成するのに必要な
ピッチパルス信号とスペクトル包絡パラメータ等をコー
ディングして貯蔵する。
【0047】スペクトル包絡パラメータ等は既存のスペ
クトル包絡パラメータの量子化(quantizati
on)方法によってコーディングされ単位波形コードフ
ィールドに貯蔵される。このとき、スペクトル包絡パラ
メータを適当な方法で変形させて量子化するとコーディ
ングを効率的にすることができる。たとえば、予測係数
は線スペクトル対とパラメータに変形させ、反射係数は
対数面積比に変形させて量子化するのがよい。また、イ
ンパルス応答は隣接サンプル相互間および隣接インパル
ス応答間との相関性が大きいので差分式コーディング方
法で波形コーディングすると貯蔵に必要なデータ量を大
きく減らすことができる。ケップストラムパラメータの
場合にも変形してデータ量を相当減らすことができるコ
ーディング方法が知られている。
【0048】一方、ピッチパルス信号等は適当な波形コ
ーディング方法によってコーディングされ、そのコード
が単位波形コードフィールドに貯蔵される。ピッチパル
ス信号等は、短期的相関性(short−term c
orrelation)はほとんど有しないが相互間に
大きい長期的相関性(long−term corre
lation)を有するのでピッチ予測ループを有する
ピッチ予測式適応PCMコーディングのような波形コー
ディング方法を用いると、貯蔵に必要なメモリ量をサン
プル当り3ビット程度に減らしても高音質の合成音を得
ることができる。ピッチ予測器の予測係数は自己相関法
によってピッチ周期毎に求めた値であり得ることもで
き、一定な値であり得ることもできる。コーディングの
初めの段階でコーディングするピッチパルス信号をサン
プル当り平均エネルギーの平方根Gで割って規準化する
ことでピッチ予測効果を上げることができる。デコーデ
ィングは有声音合成部6で行なわれるが、デコーディン
グの最終段階でさらにGを掛けてピッチパルス信号を元
の大きさに復元させるとよい。
【0049】図14ではスペクトル包絡パラメータとし
て14個の反射係数を用いる線形予測分析法を採用した
場合の音声断片情報を例示した。線形予測分析の分析区
間がピッチ周期であると1ピッチパルス信号に対して1
4個ずつの反射係数が対応し貯蔵される。分析区間が一
定の長さブロックであると1ブロック内の多くのピッチ
パルスに対する反射係数はすべて同じ値になるので単位
波形コードの貯蔵に必要なメモリ量が少なくなる。この
場合には前述のように両ブロックの境界にかかっている
ピッチパルス信号に対しては、その信号のサンプルがそ
の境界点の前または後にあるかによって合成時に各々前
または後のブロックの反射計数等を適用しなければなら
ないのでヘッダフィールド(header fiel
d)にブロック間境界点等の位置を追加して貯蔵しなけ
ればならない。もしも回帰最少自乗法のような順次的分
析法を用いたとすれば図3(d)に示したように反射係
数k1、k2、……、k14は時間変数(time i
ndex)nの連続関数になってこれら時間関数k1
(n)、k2(n)、……、k14(n)を貯蔵するた
めには多くのメモリーが要求される。図3(a)ないし
図6(e)の場合を例に挙げると単位波形コードフィー
ルドの初めの周期分を図4(a)および図4(b)の区
間(a−b)、第2周期分を図4(d)および図4
(e)の区間(b−c)、第3周期分を図5(a)およ
び図5(b)の区間(c−d)の波形等が単位波形コー
ドフィールドに貯蔵される。
【0050】波形コード貯蔵方式と波源コード貯蔵方式
は根本的に同じ方式で実際に、波形コード貯蔵方式で単
位波形等を適応予測コーディング(APC)のような効
率的な波形コーディング方式によってコーディングした
ときに得られる波形コードは波源コード貯蔵方式で得ら
れる波源コードと内容上でほとんど等しくなる。波形コ
ード貯蔵方式での波形コードと波源コード貯蔵方式での
波源コードを一括して単位波形コード(wavelet
code)と称する。
【0051】図15は本発明による有声音合成部6の内
部構成図である。音声断片貯蔵部5から受けた音声断片
情報中の単位波形コードフィールドに貯蔵された単位波
形コード等はデコーディング部9によってそれらをコー
ディングしたときの逆過程でデコーディングされる。波
形コード貯蔵方式での波形コードがデコーディングされ
得られた単位波形信号(wavelet signa
l)等、または波源コード貯蔵方式での波源コードがデ
コーディングされ得られたピッチパルス信号等とそれら
と組合わされたスペクトル包絡パラメータ等を単位波形
情報(wavelet information)と称
するが、波形組立て部13に供給される。一方、音声断
片情報中のヘッダフィールドに貯蔵されたヘッダ情報
(header information)は持続時間
調節部10、ピッチ調節部11に入力される。
【0052】図15の持続時間調節部10は韻律情報中
の持続時間情報と音声断片ヘッダ情報に包含された境界
時点等を入力で受け、それらを利用して時間歪曲情報
(time warping informatio
n)を作って波形組立て部13、ピッチ調節部11、そ
してエネルギー調節部12に提供する。音声断片の全体
の持続時間が長くなるか、短くなるとその音声断片を構
成する小断片等の持続時間もそれによって長くなるか短
くなるが、その伸長または収縮の比率は各小断片の性格
によって異なる。たとえば、前後に子音を有する母音の
場合には両側の遷移区間に対して中心にある正常状態区
間の持続時間の変化率が一層大きい。持続時間調節部1
0は貯蔵された元の音声断片の持続時間BLと持続時間
情報が指示して合成される音声断片の持続時間を比較し
て元の各小断片の持続時間に対応する合成される小断片
の持続時間をそれらの変化比率とか持続時間の規則によ
り求めることによって合成音の境界時点等を求める。元
の境界時点等B1、B2等と、それに対応して組まれた
合成音の境界時点等B1、B2等を合わせたものを時間
歪曲情報というが、図16および図17の場合を例に挙
げると時間歪曲情報は{(B1、B′1)、(B1、
B′2)、(B2、B′3)、(B3、B′3)、(B
4、B′4)}のように表現され得る。
【0053】図15のピッチ調節部11の機能は合成音
が抑揚パターン情報が指示するとおりの抑揚パターンを
有するようにピッチパルス位置情報(pitch pu
lse position information)
を作って波形組立て部13とエネルギー調節部12に提
供するものである。ピッチ調節部11は音素別目標ピッ
チ周波数値等の抑揚パターン情報を入力で受けてこれら
を円滑に連結することによって時間に対するピッチ周波
数の連続的変化を示すピッチ輪郭関数(pitch c
ontour)を発生させる。ピッチ調節部11は阻害
音(obstruent)による微細抑揚(micro
intonation)現象をピッチ輪郭関数に反映
させることもできるが、この場合、ピッチ輪郭関数は阻
害音音素と隣接した他の音素との境界点でピッチ周波数
値が時間に対して急激に変わる不連続関数になる。この
ピッチ輪郭関数から音声断片の初めのピッチパルス位置
でのピッチ周波数を求め、その逆数を取ってピッチ周期
を求め、その周期程度進行した後の時点をピッチパルス
位置に定め、その時点でのピッチ周波数から再びピッチ
周期を求め、次のピッチパルス位置を求める過程を繰返
すと合成音のピッチパルス等の位置をすべて求めること
ができる。音声断片の初めのピッチパルス位置は合成音
声の連続される一連の有声音声断片等の内、初めの音声
断片においては初めのサンプルまたはその付近に選定す
るとよく、その次の音声断片からはそれ以前の音声断片
の最終ピッチパルスの次のピッチパルス位置に該当する
時点に定められる。ピッチ調節部11は、このようにし
て求められた合成音のピッチパルスの位置等P′1、
P′2等と音声断片ヘッダ情報の中に包含された元のピ
ッチパルス位置P1、P2等を共にまとめて波形組立て
部13とエネルギー調節部12に送るが、これをピッチ
パルス位置情報という。図16および図17の場合を例
に挙げるとピッチパルス位置情報は{(P1、P2、…
…、P9)、(P′1、P′2、……、P′8)}のよ
うに表現され得る。
【0054】図15のエネルギー調節部12は強勢パタ
ーン情報が指示するとおりの強勢パターンを合成音が有
するように利得情報を作って波形組立て部13に提供す
る。エネルギー調節部12は音素別目標振幅値のような
強勢パターン情報を入力で受けてこれらを円滑に連結す
ることで、時間に対する振幅の連続的な変化をエネルギ
ー輪郭関数(energy contour)を発生さ
せる。各音素別エネルギーの相対的差異を反映するため
音声断片等は貯蔵時に音声断片の種類による相対的エネ
ルギーを有するように予め規準化されていると仮定す
る。たとえば、母音においては開母音(low vow
el)である程単位時間当りのエネルギーが大きく、鼻
音は母音に比べて単位時間当りエネルギーが半分ほどし
かならない。また、破裂音(plosive)の閉鎖区
間(closure interval)のエネルギー
は甚だ弱い。したがって、これらを音声断片として貯蔵
するとき、このような相対的エネルギーを有するように
予めエネルギーを調節した後にコーディングしなければ
ならない。この場合、エネルギー調節部12で作られた
エネルギー輪郭関数は合成される波形に掛ける利得とな
る。エネルギー調節部12はエネルギー輪郭関数とピッ
チパルス位置情報を利用して各合成音ピッチパルス位置
P′1、P′2等での利得値等G1、G2等を求めて波
形組立て部13に供給するが、それを利得情報という。
図16および図17の場合を例に挙げると利得情報は
{(P′1、G1)、(P′2、G2)、……、(P′
8、G8)}のように表現することができる。
【0055】図15の波形組立て部13は前述の単位波
形情報、時間歪曲情報、ピッチパルス位置情報そして利
得情報を入力で受けて最終的に有声音声信号を作り出す
役割を果たす。波形組立て部13はデコーディング部9
から受けた単位波形情報を利用して韻律情報が指示した
とおりの抑揚パターン、強勢パターンそして持続時間を
有する音声を作らなければならない。このとき、ある単
位波形は繰返され、ある単位波形は省略されることもあ
る。韻律情報内に包含された持続時間情報、抑揚パター
ン情報、そして強勢パターン情報は互いに独立的な指示
情報等であるのに比べて単位波形情報を有して波形を合
成することではその3通りの情報の相互間に関連性があ
るため、それらを総合して取扱わなければならない。波
形組立てにおいて最も重要な問題の1つは合成音の各ピ
ッチパルス位置に配置する単位波形として、どのような
単位波形を選択するかということであるが、適切な単位
波形を選択して配置しないと良い音質の合成音を得るこ
とができない。
【0056】次に、音声断片貯蔵部5から受ける音声断
片情報を利用して合成音を合成するときに良い音質を得
ることができる単位波形再配置方法の本発明による時間
歪曲式単位波形再配置方式を利用した波形組立て部13
の動作を説明することにする。
【0057】波形組立て部13の有声音波形の合成過程
は時間歪曲関数(time warping func
tion)を利用する単位波形の再配置段階と配置され
た単位波形等を重ね合わせる段階の2段階からなる。
【0058】すなわち、波形コード貯蔵方式の場合には
単位波形情報として入力された単位波形信号等の中で合
成音のピッチパルス位置に最も適合するものを選定して
配置し、利得調整した後、それらを重ね合わせすること
で合成音を作る。波源コード貯蔵方式では単位波形情報
としてピッチパルス信号等とそれに対応する各周期分の
スペクトル包絡パラメータ等を入力される。この場合に
は2通りの合成音組立方法が可能である。第1の方法は
単位波形情報が図7のバッファの右側部分に該当する過
程、すなわち前述のパラメータ延長と零サンプル追加を
各々行なって作られた3周期区間長さのスペクトル包絡
パラメータとピッチパルス信号を合成フィルタに印加し
て各単位波形を得、その単位波形等により前述の波形コ
ード貯蔵方式と同一な過程で合成音を組立てる方法であ
るが、この方法は基本的に波形コード貯蔵方式での合成
音組立てと同一であるので別途の説明を省略することに
する。第2の方法はピッチパルス信号等の中で合成音の
ピッチパルス位置に最も適したものを選定して配置し、
利得を調整した後、それらを互いに重ね合わせることで
平坦なスペクトル包絡を有するが、元の周期的ピッチパ
ルス列信号と異なるピッチパターンを有する合成ピッチ
パルス列信号(synthetic pitch pu
lse train signal)または合成励起信
号(synthetic excitation si
gnal)を作り、それを構成する各ピッチパルス信号
にスペクトル包絡パラメータ等を対応させて作る合成ス
ペクトル包絡パラメータ(synthetic spe
ctral envelopeparameter)等
を作り、その合成励起信号と合成スペクトル包絡パラメ
ータ等を合成フィルタに印加して合成音を作る方法であ
る。この2つの方法は合成音組立てにおいて合成フィル
タと重ね合わせ過程間の順序だけ替えられているだけで
根本的には同一な方法である。
【0059】これら合成組立て方法を図16および図1
7によって説明することにする。この単位波形再配置方
法は基本的に波形コード貯蔵方式の場合でも波源コード
貯蔵方式の場合でも同じく適用されるので2方式での合
成音波形組立て過程を図16および図17によって同時
に説明することにする。
【0060】図16は元の音声断片と合成しようとする
音声断片間の対応関係を例示した。点線で表示された元
の境界時点等B1、B2等と合成音の境界時点等B′
1、B′2等、そして鎖線で表示されたそれらの間の対
応関係は持続時間調節部10から受けた時間歪曲情報に
包含されている。また実線で表示された元のピッチパル
ス位置等P1、P2等と合成音のピッチパルス位置等
P′1、P′2等はピッチ調整部11から受けたピッチ
パルス位置情報内に包含されている。図16および図1
7の例示図では説明の便宜上から元の音声のピッチ周期
と合成音のピッチ周期が各々一定であり後者は前者の
1.5倍であると仮定した。
【0061】波形組立て部13は、まず、元の境界時点
等と合成音の境界時点等、そして、それらの間の対応関
係を利用した図17に例示したもののような時間歪曲関
数を構成する。時間歪曲関数の横軸は元の音声断片上の
時間tを、縦軸は合成された音声断片上の時間t′を示
す。図16の場合を例にあげると元の音声断片の第1お
よび終りの小断片は2/3倍と2倍に各々縮小および伸
張されるべきであるので、これらの対応関係は図17の
時間歪曲関数で傾きが各々2/3と2の線分で示され
る。また、第2の小断片は持続時間の変化がないので時
間歪曲関数で傾きが1の線分で示される。合成される音
声断片の第2の小断片は元の音声断片の境界時点B1が
繰返されて発生するものであり、反対に元の音声断片の
第3の小断片は合成される音声断片の1つの境界時点
B′3に変わったものである。このような場合、これら
の対応関係は時間歪曲関数では各々垂直と水平線分で表
わされる。時間歪曲関数はこのように元の音声断片の境
界時点と、それに対応して合成される音声断片の境界時
点等を1つの点に表わし、それらの間を直線で連結する
ことによって得られる。場合によっては、この点等の間
を円滑な曲線で連結して小断片間の対応関係を実際と近
いように表現することもできる。
【0062】波形コード貯蔵方式の場合、波形組立て部
13は合成音ピッチパルス位置に該当する元の時点を時
間歪曲関数を利用して求め、それに最も近いピッチパル
ス位置を有する単位波形を求めて合成音ピッチパルス位
置に配置する。
【0063】その次の段階で、波形組立て部13は再配
置された各単位波形信号に、そのピッチパルス位置に該
当する利得を利得情報で求めた掛けた後、利得調整され
たこれら単位波形信号等を単に加算して重ね合わせるこ
とによって最終的に所望の合成音を得る。図6(b)
に、図4(c)、図4(f)および図5(c)の単位波
形等が図6(a)のように再配置された場合、このよう
な重ね合わせ過程によって作られた合成音声を例示し
た。
【0064】波源コード貯蔵方式の場合でも同じく波形
組立て部13は合成音ピッチパルス位置に該当する元の
時点を時間歪曲関数を利用して求め、それに最も近いピ
ッチパルス位置を有するピッチパルス信号を求め、その
合成音ピッチパルス位置に配置する。合成された音声断
片の各ピッチパルス位置に、このような方法によって配
置された元のピッチパルス信号または単位波形の番号を
図16および図17に例示した。この図面で見るように
元の音声断片を構成する単位波形の中で、あるものは小
断片の収縮によって脱落し、あるものは小断片の伸張に
よって繰返し使用されることもある。図16および図1
7で各周期分ピッチパルス信号は各ピッチパルスの直後
で切断して得られたものと仮定した。
【0065】波形コード貯蔵方式での単位波形等の重ね
合わせは波形コード貯蔵方式ではピッチパルス信号の重
ね合わせに該当する。したがって、波形コード貯蔵方式
の場合に波形組立て部13は配置された各ピッチパルス
信号のピッチパルス位置に該当する利得を利得情報で求
め、各ピッチパルス信号に掛けた後、利得調節されたこ
れらピッチパルス信号等を重ね合わせることによって、
合成励起信号を作る。しかし、この場合にはピッチパル
スにエネルギーが集中されているので一定な利得をピッ
チパルス信号に掛けて重ね合わせる代りに、まず、ピッ
チパルス信号を重ね合わせて利得調節がなされない合成
励起信号を作り、それにエネルギー調節部12で発生さ
れたエネルギー輪郭関数を掛けて利得調整された合成励
起信号を得ることもできる。図6(c)に、このような
過程によって図4(b)、図4(e)および図5(b)
のピッチパルス信号等をピッチパターンが図6(a)の
場合と同じように再配置したとき得られた合成励起信号
を示した。
【0066】波源コード貯蔵方式の場合に波形組立て部
13は、また、合成スペクトル包絡パラメータを作らね
ばならないが、図16に例示した時間軸圧縮および伸張
(temporal compression and
expansion)方法と図17に例示した同期的
対応(synchronous correspond
ence)方法の2通りが可能である。もしも、スペク
トル包絡パラメータ等が時間に対する連続関数であり音
声スペクトルの包絡をそのままに表現すると、図16に
例示したように元のスペクトル包絡パラメータを小断片
ごとに時間的に圧縮または伸張させることによって合成
スペクトル包絡パラメータを得ることができる。図16
で、順次的分析法で求めたスペクトル包絡パラメータと
それをA、B、C等のような数個の点を連結した線分に
近似させてコーディングした場合のスペクトル包絡パラ
メータを各々破線と実線で示した。後者の場合には時間
軸圧縮および伸張の結果、各点の時間的位置だけ変わり
点A、B、C等が点A′、B′、C′等のようになるの
で、時間軸圧縮および伸張方法を使用する場合には、こ
のような線分コーディング方式が、特に適している。し
かし、ブロック別分析法またはピッチ同期式分析法を使
う場合には、スペクトル合致性が悪いとかスペクトル包
絡パラメータの時間的変化が不連続的であるので時間軸
圧縮および伸張方法を用いては良い合成音質を得ること
ができなく、図17に例示したようにピッチパルス信号
別にスペクトル包絡パラメータを対応させて組立てる同
期的対応方法を用いるのがよい。すなわち、波形コード
貯蔵方式での1単位波形は波源コード貯蔵方式では同じ
ピッチ周期区間のピッチパルス信号とスペクトル包絡パ
ラメータ等に該当するので、配置された各ピッチパルス
信号と同一な周期区間に該当する1周期分のスペクトル
包絡パラメータをそのピッチパルス信号に同期的に配置
することによって、合成スペクトル包絡パラメータを作
る。図17にブロック別分析法とピッチ同期式分析法で
得られたスペクトル包絡パラメータ中の1つのk1に対
して代表的にこのような方法によって組立てられた合成
スペクトル包絡パラメータk′1を各々実線と破線で例
示した。図16に示した順次的分析法によって求められ
たスペクトル包絡パラメータに対しても、もちろん、図
17のような方法で合成スペクトル包絡パラメータを組
立てることができるが、たとえば、各周期分ピッチパル
ス信号等が図6(c)のように配置されたとすると、各
周期分スペクトル包絡パラメータ等は、そのピッチパル
ス信号等に対応され図6(d)のように配置されること
になる。
【0067】波源コード貯蔵方式においては合成励起信
号と合成スペクトル包絡パラメータの組立て時に合成音
のピッチ周期が元のピッチ周期より長い場合には図16
および図17に斜線で表わしたように隣接の2ピッチ周
期区間の間には空白区間が生じ、合成音のピッチ周期が
元のピッチ周期よりも短い場合には隣接の2ピッチ周期
区間が重なる重複区間が生じる。図6(c)および図6
(d)に重複区間(f−b)空白区間(g−h)を例示
した。前述のように再配置されたピッチパルス信号等は
重複時に重ね合わされねばならない。しかし、これらに
対応して再配置されたスペクトル包絡パラメータ等は重
複時に重ね合わされる代わりに2つの値の平均値をとる
ことが合理的である。したがって、空白区間と重複区間
を考慮した合成励起信号と合成スペクトル包絡パラメー
タの組立て方法は次のとおりである。
【0068】合成励起信号の組立て時に空白区間には零
サンプル(zero sample)等を挿入すればよ
い。有声摩擦音の場合には空白区間に高域通過フィルタ
リングされた雑音信号を挿入すると、より一層自然な音
を合成できるものである。重複区間には重複されたピッ
チパルス信号等を配置された状態でそのまま加えるとよ
い。このような加算方式は煩雑であるため実際には重複
区間で重複された2つのピッチパルス信号中のいずれか
一方の信号だけを選択する切捨て方式(truncat
ion method)を用いるのが簡便であり、合成
音の音質も別の劣化されない。図6(c)では空白区間
(g−h)には零サンプル等で満たした重複区間(f−
b)では前方のピッチパルス信号を選択した。すなわ
ち、重複が発生する場合、各ピッチパルス信号の重ね合
う前方の区間の分を捨てたが、前述のように同じくこの
方法はピッチパルス等の直前で切断してピッチパルス信
号等を作り、合成時に重複されるとピッチパルス信号の
後方の重複区間分を切捨てる方法に比べて物理的に一層
意味がある。しかし、実際に合成音の音質において両者
間に大差はない。
【0069】合成スペクトル包絡パラメータの組立て時
に空白区間には前周期分スペクトル包絡パラメータの終
了時点の値から後の周期分スペクトル包絡パラメータの
初めの時点の値に直線的に変るように作った値等で満た
して、重複区間には重複された2つのスペクトル包絡パ
ラメータの平均を求める内挿法を利用して時間に対して
直線的に加わる加重値を持って前の周期分のスペクトル
包絡パラメータ値から後の周期分のスペクトル包絡パラ
メータの値に徐々に移行するようにするのが理想的であ
る。しかし、このような方式等は煩雑であるので、音質
の劣化がそれほど大きくなくより簡便な次の方法等を用
いることができる。すなわち、空白区間のスペクトル包
絡パラメータとして図17の例のように前の周期分のス
ペクトル包絡パラメータの終りの時点の値を反復させて
用いるか、後の周期分のスペクトル包絡パラメータの初
めの時点の値を反復させて用いるか、その2つのスペク
トル包絡パラメータ値の平均値を用いるか、空白区間の
中点を境界にして前後に各々前および後の周期分スペク
トル包絡パラメータの終りおよび初めの時点の値を繰返
させて用いるかをすればよい。また、重複区間でのスペ
クトル包絡パラメータとしては単純に選択されたいずれ
か一方のピッチパルスに対応させる部分を選択するとよ
い。図6(d)では重複区間(f−b)で合成励起信号
として前の周期区間のピッチパルス信号を選択したので
合成スペクトル包絡パラメータとして前の周期区間の値
を選択した。図17と図6(d)の空白区間(g−h)
では前の周期区間の終りでのスペクトル包絡パラメータ
値を繰返して使用した。もちろん、スペクトル包絡パラ
メータが時間に対する連続関数である図6(d)の場合
には空白区間の間の前の周期区間の終端値または後の周
期区間の初めの値を繰返し使用する方法または2つの値
を直線的に変化させ使用する方法のすべてが同じ結果に
なる。
【0070】合成励起信号と合成スペクトル包絡パラメ
ータ等がすべて組立てられると波形組立て部13は通常
隣接の音声断片間にスペクトル包絡パラメータの変化が
円滑になるように組立てられた合成スペクトル包絡パラ
メータの両端部分を内挿法を利用して円滑化させる。以
上のように組立てられた合成励起信号と合成スペクトル
包絡パラメータ等が波形組立て部内の合成フィルタに各
々励起信号とフィルタ係数として入力されると所望の合
成音声が最終的に合成フィルタから出力される。図6
(c)に図4(b)、図4(e)および図5(b)のピ
ッチパルス信号等を図6(a)とピッチパターンを同じ
ように再配置したときに得られた合成励起信号を、図6
(d)にその合成励起信号に図4(a)、図4(d)お
よび図5(a)の1周期分のスペクトル包絡パラメータ
等を対応させて作られた合成スペクトル包絡パラメータ
等を例示した。図6(d)のように変化する反射係数等
をフィルタ係数にする時変合成フィルタを構成し、それ
に図6(c)のような合成励起信号を入力すると図6
(a)の合成音とほぼ等しい図6(e)の合成音が作ら
れる。
【0071】ここで、波形コード貯蔵方式と波源コード
貯蔵方式を比較してみると、2つの方式は、原理的には
同じであるとみることができるが、ただ接続性が悪い音
声断片等を互いに連鎖させるとき、後者においては内挿
法によって貯蔵されたスペクトル包絡パラメータを円滑
化させることで円滑に連結された音を合成することがで
きるが、前者ではそれが不可能な点が差異点である。ま
た、波源コード貯蔵方式は単位波形当り1周期長の波形
だけ貯蔵するとすむので波形コード貯蔵方式に比べてメ
モリが少なくてすみ、有声音合成部6の機能と前述の無
声音合成部7の機能を統合しやすいという長所を有す
る。準同形分析法を使用する場合、波形コード貯蔵方式
ではスペクトル包絡パラメータとしてケップストラムま
たはインパルス応答を使用することができるが波源コー
ド貯蔵方式では一定な合成スペクトル包絡パラメータの
値を有する区間の持続時間が不均一になるのでブロック
単位の計算を必要とするケップストラムを使用すること
が事実上から不可能である。本発明による波源コード貯
蔵方式は1周期分のピッチパルスを励起パルスとして使
用するが、それとそれに対応する1周期分のスペクトル
包絡パラメータが合わされて各周期分の単位波形を作る
という点で単位インパルスを一定なピッチパルスに代え
ようとする既存の標準ピッチパルス励起方式とは異な
る。
【0072】
【発明の効果】本発明は音声断片合成方式の無制限の音
声合成システムの音声断片コーディングおよび再生用に
適している。また、本発明は音素、半音節、ダイフォ
ン、小断片等、音声を構成する任意の音声単位の全体的
および部分的持続時間とピッチパターンを独立的に自由
に変化させ得る方法であるため、声楽音声合成システム
とか、音声の抑揚パターンを変化させずに発声速度を一
定比率で元の速度より速くまたは遅く変化させる音声速
度変換システムにも用いることができ、予め貯蔵された
標準音声断片(template speech se
gment)等の持続時間とピッチを変化させ音声を伝
送するフォネティックボコーダ(phonetic v
ocoder)またはセグメントボコーダ(segme
nt vocoder)のような低伝送率音声コーディ
ングシステムにも用いることができる。本発明のまた1
つの用途はサンプリング方式の電子楽器のような楽器音
合成システムである。既存のサンプリング方式電子楽器
においては、その電子楽器の音域内のほとんどすべての
音をデジタル方式で波形コーディングして貯蔵してから
キーボード等から要求があったとき、再生するため楽器
音の貯蔵に必要なメモリ量が多いという短所があった。
しかし、本発明による周期波形分解および単位波形再配
置方式を利用すると、ただ、数種類のピッチの音だけを
サンプリングし、多くの他のピッチの音等を合成するこ
とができるため、貯蔵に必要なメモリ量を大幅に減らす
ことができる。楽器音は典型的に開始部(attac
k)と持続部(sustain)そして減衰部(dec
ay)の3つの部分で構成されている。これら3つの部
分の間には、もちろん、持続部内でも部分的にスペクト
ル包絡が徐々に変るため音色もこれによって変る。した
がって、スペクトル変化が大きいこれらのうちの適当な
点等を境界時点として、楽器音断片(musicals
ound segment)を前述の周期波形分解方式
によってコーディングして貯蔵してからキーボード等か
ら要求が発生したとき、前述の時間歪曲式再配置方式に
よって音を合成すると所望の任意のピッチを有する楽器
音を合成することができる。ただ、楽器音を線形予測分
析法でデコンボリューションする場合にはスペクトル包
絡が正確に求められず、ピッチパルスが尖鋭にならない
傾向があるので、サンプリング周波数をあげるとか、ピ
ッチ同期式分析法を用いることが望ましい。
【0073】本発明の原理は音声合成だけでなく楽器音
とか声楽音声等の音声に類似した性質を有する音の合成
とか低伝送率音声コーディングまたは音声速度変換等に
もそのまま利用することができる。
【図面の簡単な説明】
【図1】音声断片組合せ方式の無制限音声構成システム
の構成図である。
【図2】音声断片組合せサブシステムの構成図である。
【図3】本発明による周期波形分解および単位波形再配
置方式を説明するための第1の波形図である。
【図4】本発明による周期波形分解および単位波形再配
置方式を説明するための第2の波形図である。
【図5】本発明による周期波形分解および単位波形再配
置方式を説明するための第3の波形図である。
【図6】本発明による周期波形分解および単位波形再配
置方式を説明するための第4の波形図である。
【図7】本発明による周期波形分解方法を説明するため
のブロック図である。
【図8】ブラインドデコンボリューション過程を説明す
るための第1のブロック図である。
【図9】ブラインドデコンボリューション過程を説明す
るための第2のブロック図である。
【図10】ブラインドデコンボリューション過程を説明
するための第3のブロック図である。
【図11】ブラインドデコンボリューション過程を説明
するための第4のブロック図である。
【図12】ブラインドデコンボリューション過程を説明
するための第5のブロック図である。
【図13】音声断片貯蔵部に貯蔵される有声音声断片情
報のコードフォーマットを説明する第1の図である。
【図14】音声断片貯蔵部に貯蔵される有声音声断片情
報のコードフォーマットを説明する第2の図である。
【図15】本発明による有声音合成部の構成図である。
【図16】本発明による持続時間およびピッチ調節方法
を説明するための第1の例示図である。
【図17】本発明による持続時間およびピッチ調節方法
を説明するための第2の例示図である。
【符号の説明】
1 音声学的前処理サブシステム 2 韻律発生サブシステム 3 音声断片組合せサブシステム 4 音声断片選定部 5 音声断片貯蔵部 6 有声音合成部 7 無声音合成部 8 D−A変換部 9 デコーディング部 10 持続時間調節部 11 ピッチ調節部 12 エネルギー調節部 13 波形組立て部
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 昭51−104202(JP,A) 特開 昭58−43498(JP,A) 特開 昭58−196597(JP,A) 特開 昭57−144600(JP,A) 特開 昭56−60499(JP,A) 特開 昭57−10200(JP,A) 特開 昭57−17997(JP,A) (58)調査した分野(Int.Cl.6,DB名) G10L 9/00

Claims (3)

    (57)【特許請求の範囲】
  1. 【請求項1】 有声音声信号を含む周期的または準周期
    的なデジタル信号をスペクトル推定技法を用いて分析し
    て、各分析時間区間におけるスペクトル包絡を表わすス
    ペクトル包絡パラメータを求める第1ステップと、 前記デジタル信号を前記スペクトル包絡パラメータが表
    わすインパルス応答と、平坦なスペクトル包絡を有する
    周期的または準周期的なピッチパルス列信号とにデコン
    ボリューションさせる第2ステップと、 各周期ごとにピッチパルスが1つずつ包含されるよう
    に、前記ピッチパルス列信号を周期的に分割して得られ
    た各1周期分のピッチパルス信号の後に零サンプルを追
    加して作る励起信号と、前記励起信号と同一な時間区間
    での前記スペクトル包絡パラメータに該当するインパル
    ス応答とをさらにコンボリューションさせることにより
    作られる各周期分の単位波形を各々波形コーディングし
    てメモリに貯蔵する第3ステップと、 合成時に前記単位波形をデコーディングして所望のピッ
    チパターンを有するように適切な時点に各々再配置さ
    せ、再配置された単位波形を重ね合せて音を作る第4ス
    テップとを含み、 持続時間とピッチ周波数の調整が可能でありながら原音
    にほとんど等しい高音質の音を合成できるようにするこ
    とを特徴とする音声合成システムの音声合成方法。
  2. 【請求項2】 有声音声信号を含む周期的または準周期
    的なデジタル信号をスペクトル推定技法を用いて分析し
    て、各分析時間区間におけるスペクトル包絡を表わすス
    ペクトル包絡パラメータを求める第1ステップと、 前記デジタル信号を前記スペクトル包絡パラメータが表
    わすインパルス応答と、平坦なスペクトル包絡を有する
    周期的または準周期的なピッチパルス列信号とにデコン
    ボリューションさせる第2ステップと、 各周期ごとにピッチパルスが1つずつ包含されるよう
    に、前記ピッチパルス列信号を周期的に分割して得られ
    た各1周期分のピッチパルス信号を生成する第3ステッ
    プと、 前記分割して得られた各1周期分のピッチパルス信号を
    波形コーディングした第1情報と、前記第1情報に同一
    な時間区間の各1周期分のスペクトル包絡パラメータま
    たは前記各1周期分のスペクトル包絡パラメータに該当
    するインパルス応答をコーディングした第2情報とを組
    合せてともにメモリに貯蔵する第4ステップと、 合成時に、前記第1および第2情報をデコーディングし
    て得られた各1周期分のピッチパルス信号の後に零サン
    プルを追加して作った励起信号と、前記励起信号に同一
    な時間区間でのスペクトル包絡パラメータに該当するイ
    ンパルス応答とさらにコンボリューションさせることで
    作られる各周期分の単位波形を所望のピッチパターンを
    有するように適切な時点に各々再配置させ、再配置させ
    た単位波形を重ね合せて音を作る第5ステップとを含
    み、 持続時間とピッチ周波数の調整が可能でありながら原音
    にほとんど等しい高音質の音を合成できるようにするこ
    とを特徴とする音声合成システムの音声合成方法。
  3. 【請求項3】 有声音声信号を含む周期的または準周期
    的なデジタル信号をスペクトル推定技法を用いて分析し
    て、各分析時間区間におけるスペクトル包絡を表わすス
    ペクトル包絡パラメータを求める第1ステップと、 前記デジタル信号を前記スペクトル包絡パラメータが表
    わすインパルス応答と、平坦なスペクトル包絡を有する
    周期的または準周期的なピッチパルス列信号とにデコン
    ボリューションさせる第2ステップと、 各周期ごとにピッチパルスが1つずつ包含されるよう
    に、前記ピッチパルス列信号を周期的に分割して得られ
    た各1周期分のピッチパルス信号を生成する第3ステッ
    プと、 前記分割して得られた各1周期分のピッチパルス信号を
    波形コーディングした第1情報と、前記第1情報に同一
    な時間区間の各1周期分のスペクトル包絡パラメータま
    たは前記各1周期分のスペクトル包絡パラメータに該当
    するインパルス応答をコーディングした第2情報とを組
    合せてともにメモリに貯蔵する第4ステップと、 合成時に、前記第1情報をデコーディングして得た各1
    周期分のピッチパルス信号を所望のピッチパターンを有
    するように適切な時点に配置させ、所望のピッチ周期が
    元のピッチ周期よりも長いときに生じる空白区間は零サ
    ンプルで満たし、所望のピッチ周期が元のピッチ周期よ
    り短いとき生じる重複区間ではそれらの値を加算させる
    ことにより作られた合成励起信号と、前記第2情報をデ
    コーディングして得た各1周期分のスペクトル包絡パラ
    メータをそれに対応する前記ピッチパルス信号と同一の
    時間区間に配置させ、前記空白区間は、前記空白区間の
    前および後のスペクトル包絡パラメータの値を円滑に連
    結した値で満たし、前記重複区間では、重複させるスペ
    クトル包絡パラメータの平均値を用いることにより作ら
    れた合成スペクトル包絡パラメータに該当するインパル
    ス応答とをコンボリューションさせて音を作る第5ステ
    ップとを含み、 持続時間とピッチ周波数の調整が可能でありながら原音
    にほとんど等しい高音質の音を合成できるようにするこ
    とを特徴とする音声合成システムの音声合成方法。
JP4297000A 1991-11-06 1992-11-06 音声合成システムの音声合成方法 Expired - Fee Related JP2787179B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1019910019617A KR940002854B1 (ko) 1991-11-06 1991-11-06 음성 합성시스팀의 음성단편 코딩 및 그의 피치조절 방법과 그의 유성음 합성장치
KR19617 1991-11-06

Publications (2)

Publication Number Publication Date
JPH06110498A JPH06110498A (ja) 1994-04-22
JP2787179B2 true JP2787179B2 (ja) 1998-08-13

Family

ID=19322321

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4297000A Expired - Fee Related JP2787179B2 (ja) 1991-11-06 1992-11-06 音声合成システムの音声合成方法

Country Status (17)

Country Link
US (1) US5617507A (ja)
JP (1) JP2787179B2 (ja)
KR (1) KR940002854B1 (ja)
AT (1) AT400646B (ja)
BE (1) BE1005622A3 (ja)
CA (1) CA2081693A1 (ja)
DE (1) DE4237563C2 (ja)
DK (1) DK134192A (ja)
ES (1) ES2037623B1 (ja)
FR (1) FR2683367B1 (ja)
GB (1) GB2261350B (ja)
GR (1) GR1002157B (ja)
IT (1) IT1258235B (ja)
LU (1) LU88189A1 (ja)
NL (1) NL9201941A (ja)
PT (1) PT101037A (ja)
SE (1) SE9203230L (ja)

Families Citing this family (221)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4227826C2 (de) * 1991-08-23 1999-07-22 Hitachi Ltd Digitales Verarbeitungsgerät für akustische Signale
CA2119397C (en) * 1993-03-19 2007-10-02 Kim E.A. Silverman Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation
US5704000A (en) * 1994-11-10 1997-12-30 Hughes Electronics Robust pitch estimation method and device for telephone speech
US5864812A (en) * 1994-12-06 1999-01-26 Matsushita Electric Industrial Co., Ltd. Speech synthesizing method and apparatus for combining natural speech segments and synthesized speech segments
US5592585A (en) * 1995-01-26 1997-01-07 Lernout & Hauspie Speech Products N.C. Method for electronically generating a spoken message
AU707489B2 (en) * 1995-04-12 1999-07-08 British Telecommunications Public Limited Company Waveform speech synthesis
DE19538852A1 (de) * 1995-06-30 1997-01-02 Deutsche Telekom Ag Verfahren und Anordnung zur Klassifizierung von Sprachsignalen
US6591240B1 (en) * 1995-09-26 2003-07-08 Nippon Telegraph And Telephone Corporation Speech signal modification and concatenation method by gradually changing speech parameters
US5781881A (en) * 1995-10-19 1998-07-14 Deutsche Telekom Ag Variable-subframe-length speech-coding classes derived from wavelet-transform parameters
US6240384B1 (en) * 1995-12-04 2001-05-29 Kabushiki Kaisha Toshiba Speech synthesis method
DE19610019C2 (de) * 1996-03-14 1999-10-28 Data Software Gmbh G Digitales Sprachsyntheseverfahren
US5822370A (en) * 1996-04-16 1998-10-13 Aura Systems, Inc. Compression/decompression for preservation of high fidelity speech quality at low bandwidth
DE69629667T2 (de) * 1996-06-07 2004-06-24 Hewlett-Packard Co. (N.D.Ges.D.Staates Delaware), Palo Alto Sprachsegmentierung
JP3242331B2 (ja) * 1996-09-20 2001-12-25 松下電器産業株式会社 Vcv波形接続音声のピッチ変換方法及び音声合成装置
JPH10149199A (ja) * 1996-11-19 1998-06-02 Sony Corp 音声符号化方法、音声復号化方法、音声符号化装置、音声復号化装置、電話装置、ピッチ変換方法及び媒体
US5933805A (en) * 1996-12-13 1999-08-03 Intel Corporation Retaining prosody during speech analysis for later playback
DE69836454T2 (de) * 1997-02-10 2007-10-04 Koninklijke Philips Electronics N.V. Kommunikationsnetzwerk zur übertragung von sprachsignalen
JPH10260692A (ja) * 1997-03-18 1998-09-29 Toshiba Corp 音声の認識合成符号化/復号化方法及び音声符号化/復号化システム
KR100269255B1 (ko) * 1997-11-28 2000-10-16 정선종 유성음 신호에서 성문 닫힘 구간 신호의 가변에의한 피치 수정방법
DE69809525T2 (de) * 1997-04-18 2003-07-10 Koninkl Philips Electronics Nv Verfahren und system zum kodieren von menschlicher sprache und zum späteren abspielen
US5973252A (en) * 1997-10-27 1999-10-26 Auburn Audio Technologies, Inc. Pitch detection and intonation correction apparatus and method
US6064960A (en) 1997-12-18 2000-05-16 Apple Computer, Inc. Method and apparatus for improved duration modeling of phonemes
US6012025A (en) * 1998-01-28 2000-01-04 Nokia Mobile Phones Limited Audio coding method and apparatus using backward adaptive prediction
US6073094A (en) * 1998-06-02 2000-06-06 Motorola Voice compression by phoneme recognition and communication of phoneme indexes and voice features
US6199042B1 (en) * 1998-06-19 2001-03-06 L&H Applications Usa, Inc. Reading system
AU1608100A (en) * 1998-11-09 2000-05-29 Datascope Investment Corp. Improved method for compression of a pulse train
US6253182B1 (en) * 1998-11-24 2001-06-26 Microsoft Corporation Method and apparatus for speech synthesis with efficient spectral smoothing
AUPP829899A0 (en) * 1999-01-27 1999-02-18 Motorola Australia Pty Ltd Method and apparatus for time-warping a digitised waveform to have an approximately fixed period
US6202049B1 (en) * 1999-03-09 2001-03-13 Matsushita Electric Industrial Co., Ltd. Identification of unit overlap regions for concatenative speech synthesis system
JP3730435B2 (ja) * 1999-03-26 2006-01-05 株式会社東芝 波形信号解析装置
SE9903223L (sv) * 1999-09-09 2001-05-08 Ericsson Telefon Ab L M Förfarande och anordning i telekommunikationssystem
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US7346488B2 (en) * 2000-07-10 2008-03-18 Fujitsu Limited Automatic translator and computer-readable storage medium having automatic translation program recorded thereon
EP1319227B1 (en) * 2000-09-15 2007-03-14 Lernout & Hauspie Speech Products N.V. Fast waveform synchronization for concatenation and time-scale modification of speech
US6952669B2 (en) * 2001-01-12 2005-10-04 Telecompression Technologies, Inc. Variable rate speech data compression
US7177810B2 (en) * 2001-04-10 2007-02-13 Sri International Method and apparatus for performing prosody-based endpointing of a speech signal
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
US20030135374A1 (en) * 2002-01-16 2003-07-17 Hardwick John C. Speech synthesizer
AT6920U1 (de) 2002-02-14 2004-05-25 Sail Labs Technology Ag Verfahren zur erzeugung natürlicher sprache in computer-dialogsystemen
GB0209770D0 (en) * 2002-04-29 2002-06-05 Mindweavers Ltd Synthetic speech sound
JP3973530B2 (ja) * 2002-10-10 2007-09-12 裕 力丸 補聴器、訓練装置、ゲーム装置、および音出力装置
US20040073428A1 (en) * 2002-10-10 2004-04-15 Igor Zlokarnik Apparatus, methods, and programming for speech synthesis via bit manipulations of compressed database
KR100486734B1 (ko) * 2003-02-25 2005-05-03 삼성전자주식회사 음성 합성 방법 및 장치
JP4256189B2 (ja) * 2003-03-28 2009-04-22 株式会社ケンウッド 音声信号圧縮装置、音声信号圧縮方法及びプログラム
US9165478B2 (en) * 2003-04-18 2015-10-20 International Business Machines Corporation System and method to enable blind people to have access to information printed on a physical document
US7487092B2 (en) * 2003-10-17 2009-02-03 International Business Machines Corporation Interactive debugging and tuning method for CTTS voice building
US20060073452A1 (en) * 2004-01-13 2006-04-06 Posit Science Corporation Method for enhancing memory and cognition in aging adults
US20070111173A1 (en) * 2004-01-13 2007-05-17 Posit Science Corporation Method for modulating listener attention toward synthetic formant transition cues in speech stimuli for training
US20060177805A1 (en) * 2004-01-13 2006-08-10 Posit Science Corporation Method for enhancing memory and cognition in aging adults
US20060051727A1 (en) * 2004-01-13 2006-03-09 Posit Science Corporation Method for enhancing memory and cognition in aging adults
US20050175972A1 (en) * 2004-01-13 2005-08-11 Neuroscience Solutions Corporation Method for enhancing memory and cognition in aging adults
US20060105307A1 (en) * 2004-01-13 2006-05-18 Posit Science Corporation Method for enhancing memory and cognition in aging adults
US8210851B2 (en) * 2004-01-13 2012-07-03 Posit Science Corporation Method for modulating listener attention toward synthetic formant transition cues in speech stimuli for training
US20070065789A1 (en) * 2004-01-13 2007-03-22 Posit Science Corporation Method for enhancing memory and cognition in aging adults
US20060074678A1 (en) * 2004-09-29 2006-04-06 Matsushita Electric Industrial Co., Ltd. Prosody generation for text-to-speech synthesis based on micro-prosodic data
DE602005023503D1 (de) * 2004-10-28 2010-10-21 Panasonic Corp Skalierbare codierungsvorrichtung, skalierbare decodierungsvorrichtung und verfahren dafür
US20060259303A1 (en) * 2005-05-12 2006-11-16 Raimo Bakis Systems and methods for pitch smoothing for text-to-speech synthesis
US20070011009A1 (en) * 2005-07-08 2007-01-11 Nokia Corporation Supporting a concatenative text-to-speech synthesis
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
TWI277947B (en) * 2005-09-14 2007-04-01 Delta Electronics Inc Interactive speech correcting method
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
US20070134635A1 (en) * 2005-12-13 2007-06-14 Posit Science Corporation Cognitive training using formant frequency sweeps
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
CN101578659B (zh) * 2007-05-14 2012-01-18 松下电器产业株式会社 音质转换装置及音质转换方法
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8620662B2 (en) 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8583418B2 (en) 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US8862252B2 (en) 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8457965B2 (en) * 2009-10-06 2013-06-04 Rothenberg Enterprises Method for the correction of measured values of vowel nasalance
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US8600743B2 (en) 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US8965768B2 (en) * 2010-08-06 2015-02-24 At&T Intellectual Property I, L.P. System and method for automatic detection of abnormal stress patterns in unit selection synthesis
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
WO2013019562A2 (en) * 2011-07-29 2013-02-07 Dts Llc. Adaptive voice intelligibility processor
US8620646B2 (en) * 2011-08-08 2013-12-31 The Intellisis Corporation System and method for tracking sound pitch across an audio signal using harmonic envelope
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US10019994B2 (en) 2012-06-08 2018-07-10 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8744854B1 (en) 2012-09-24 2014-06-03 Chengjun Julian Chen System and method for voice transformation
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
US8886539B2 (en) * 2012-12-03 2014-11-11 Chengjun Julian Chen Prosody generation using syllable-centered polynomial representation of pitch contours
BR112015018905B1 (pt) 2013-02-07 2022-02-22 Apple Inc Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico
US9302179B1 (en) 2013-03-07 2016-04-05 Posit Science Corporation Neuroplasticity games for addiction
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
KR102057795B1 (ko) 2013-03-15 2019-12-19 애플 인크. 콘텍스트-민감성 방해 처리
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US9922642B2 (en) 2013-03-15 2018-03-20 Apple Inc. Training an at least partial voice command system
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
KR102014665B1 (ko) 2013-03-15 2019-08-26 애플 인크. 지능형 디지털 어시스턴트에 의한 사용자 트레이닝
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3937002A1 (en) 2013-06-09 2022-01-12 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
EP3008964B1 (en) 2013-06-13 2019-09-25 Apple Inc. System and method for emergency calls initiated by voice command
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
PL3696812T3 (pl) 2014-05-01 2021-09-27 Nippon Telegraph And Telephone Corporation Koder, dekoder, sposób kodowania, sposób dekodowania, program kodujący, program dekodujący i nośnik rejestrujący
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
CN107924678B (zh) * 2015-09-16 2021-12-17 株式会社东芝 语音合成装置、语音合成方法及存储介质
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10083682B2 (en) * 2015-10-06 2018-09-25 Yamaha Corporation Content data generating device, content data generating method, sound signal generating device and sound signal generating method
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
JP6962268B2 (ja) * 2018-05-10 2021-11-05 日本電信電話株式会社 ピッチ強調装置、その方法、およびプログラム
CN111370002B (zh) * 2020-02-14 2022-08-19 平安科技(深圳)有限公司 语音训练样本的获取方法、装置、计算机设备和存储介质
US11848005B2 (en) * 2022-04-28 2023-12-19 Meaning.Team, Inc Voice attribute conversion using speech to speech

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3700815A (en) * 1971-04-20 1972-10-24 Bell Telephone Labor Inc Automatic speaker verification by non-linear time alignment of acoustic parameters
JPS51104202A (en) * 1975-03-12 1976-09-14 Hitachi Ltd Onseigoseinotameno sohensakuseisochi
JPS5660499A (en) * 1979-10-22 1981-05-25 Casio Computer Co Ltd Audible sounddsource circuit for voice synthesizer
JPS5710200A (en) * 1980-06-20 1982-01-19 Matsushita Electric Ind Co Ltd Voice synthesizer
JPS5717997A (en) * 1980-07-07 1982-01-29 Matsushita Electric Ind Co Ltd Voice synthesizer
JPS57144600A (en) * 1981-03-03 1982-09-07 Nippon Electric Co Voice synthesizer
JPS5843498A (ja) * 1981-09-09 1983-03-14 沖電気工業株式会社 音声合成装置
JPS58196597A (ja) * 1982-05-13 1983-11-16 日本電気株式会社 音声合成装置
JPS6050600A (ja) * 1983-08-31 1985-03-20 株式会社東芝 規則合成方式
FR2553555B1 (fr) * 1983-10-14 1986-04-11 Texas Instruments France Procede de codage de la parole et dispositif pour sa mise en oeuvre
WO1986003873A1 (en) * 1984-12-20 1986-07-03 Gte Laboratories Incorporated Method and apparatus for encoding speech
JPH0632020B2 (ja) * 1986-03-25 1994-04-27 インタ−ナシヨナル ビジネス マシ−ンズ コ−ポレ−シヨン 音声合成方法および装置
FR2636163B1 (fr) * 1988-09-02 1991-07-05 Hamon Christian Procede et dispositif de synthese de la parole par addition-recouvrement de formes d'onde
DE69022237T2 (de) * 1990-10-16 1996-05-02 Ibm Sprachsyntheseeinrichtung nach dem phonetischen Hidden-Markov-Modell.

Also Published As

Publication number Publication date
FR2683367B1 (fr) 1997-04-25
SE9203230L (sv) 1993-05-07
PT101037A (pt) 1994-07-29
AT400646B (de) 1996-02-26
GB2261350B (en) 1995-08-09
ES2037623R (ja) 1996-08-16
BE1005622A3 (fr) 1993-11-23
DK134192A (da) 1993-08-18
DE4237563C2 (de) 1996-03-28
SE9203230D0 (sv) 1992-11-02
GR1002157B (en) 1996-02-22
US5617507A (en) 1997-04-01
GB2261350A (en) 1993-05-12
NL9201941A (nl) 1993-06-01
IT1258235B (it) 1996-02-22
JPH06110498A (ja) 1994-04-22
ITMI922538A1 (it) 1994-05-05
GB9222756D0 (en) 1992-12-09
LU88189A1 (fr) 1993-04-15
ATA219292A (de) 1995-06-15
ES2037623B1 (es) 1997-03-01
ES2037623A2 (es) 1993-06-16
CA2081693A1 (en) 1993-05-07
GR920100488A (el) 1993-07-30
KR940002854B1 (ko) 1994-04-04
DK134192D0 (da) 1992-11-04
DE4237563A1 (ja) 1993-05-19
ITMI922538A0 (it) 1992-11-05
FR2683367A1 (fr) 1993-05-07

Similar Documents

Publication Publication Date Title
JP2787179B2 (ja) 音声合成システムの音声合成方法
RU2439721C2 (ru) Аудиокодер для кодирования аудиосигнала, имеющего импульсоподобную и стационарную составляющие, способы кодирования, декодер, способ декодирования и кодированный аудиосигнал
Childers et al. Speech synthesis by glottal excited linear prediction
EP0995190B1 (en) Audio coding based on determining a noise contribution from a phase change
Moulines et al. Time-domain and frequency-domain techniques for prosodic modification of speech
EP0380572A1 (en) SPEECH SYNTHESIS FROM SEGMENTS OF DIGITAL COARTICULATED VOICE SIGNALS.
JPH031200A (ja) 規則型音声合成装置
NZ243731A (en) Synthesising human speech
JP2612868B2 (ja) 音声の発声速度変換方法
JPH0641557A (ja) 音声合成のための方法および装置
US20020072909A1 (en) Method and apparatus for producing natural sounding pitch contours in a speech synthesizer
JP2904279B2 (ja) 音声合成方法および装置
Agiomyrgiannakis et al. ARX-LF-based source-filter methods for voice modification and transformation
Islam Interpolation of linear prediction coefficients for speech coding
Pfitzinger Unsupervised speech morphing between utterances of any speakers
WO2004027753A1 (en) Method of synthesis for a steady sound signal
JP2583883B2 (ja) 音声分析装置および音声合成装置
McCree Low-bit-rate speech coding
Fries Hybrid time-and frequency-domain speech synthesis with extended glottal source generation
Lavner et al. Voice morphing using 3D waveform interpolation surfaces and lossless tube area functions
JP3368949B2 (ja) 音声分析合成装置
JPH02160300A (ja) 音声符号化方式
Makhoul et al. Adaptive preprocessing for linear predictive speech compression systems
Singh et al. Removal of spectral discontinuity in concatenated speech waveform
JPH0836397A (ja) 音声合成装置

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19980407

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090605

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090605

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100605

Year of fee payment: 12

LAPS Cancellation because of no payment of annual fees