JP6047922B2 - 音声合成装置および音声合成方法 - Google Patents

音声合成装置および音声合成方法 Download PDF

Info

Publication number
JP6047922B2
JP6047922B2 JP2012110358A JP2012110358A JP6047922B2 JP 6047922 B2 JP6047922 B2 JP 6047922B2 JP 2012110358 A JP2012110358 A JP 2012110358A JP 2012110358 A JP2012110358 A JP 2012110358A JP 6047922 B2 JP6047922 B2 JP 6047922B2
Authority
JP
Japan
Prior art keywords
segment
data
phoneme
speech
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012110358A
Other languages
English (en)
Other versions
JP2013011862A (ja
Inventor
慶二郎 才野
慶二郎 才野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2012110358A priority Critical patent/JP6047922B2/ja
Priority to US13/485,303 priority patent/US9230537B2/en
Priority to EP12170129.6A priority patent/EP2530672B1/en
Priority to CN201210179123.7A priority patent/CN102810310B/zh
Publication of JP2013011862A publication Critical patent/JP2013011862A/ja
Application granted granted Critical
Publication of JP6047922B2 publication Critical patent/JP6047922B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/043Time compression or expansion by changing speed
    • G10L21/045Time compression or expansion by changing speed using thinning out or insertion of a waveform
    • G10L21/049Time compression or expansion by changing speed using thinning out or insertion of a waveform characterised by the interconnection of waveforms
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、複数の音声素片の連結で発話音や歌唱音等の音声を合成する技術に関する。
複数の音声素片を相互に連結することで所望の音声を合成する素片接続型の音声合成技術では、音声素片を目標の時間長に伸縮する必要がある。特許文献1には、複数種の音声素片を定常部と過渡部とに分類し、音声素片の時間長を定常部と過渡部とで個別に調整する構成が開示されている。例えば過渡部と比較して定常部を大きく伸縮させる。
特開平7−129193号公報
特許文献1の技術では、定常部または過渡部に分類された1個の音声素片の範囲内では一定の伸縮率で時間長が調整される。しかし、実際の発音では、1個の音声素片(音素)の範囲内でも区間毎に伸長の度合が相違するという傾向がある。したがって、特許文献1の技術では、音声素片を伸長した場合に聴感的に不自然な音声(すなわち現実の発声音から乖離した音声)が合成される可能性がある。以上の事情を考慮して、本発明は、音声素片を伸長した場合でも聴感的に自然な音声を合成することを目的とする。
以上の課題を解決するために本発明が採用する手段を説明する。なお、本発明の理解を容易にするために、以下の説明では、本発明の要素と後述の実施形態の要素との対応を括弧書で付記するが、本発明の範囲を実施形態の例示に限定する趣旨ではない。
本発明の第1態様に係る音声合成装置は、相異なる音素に対応する複数の音素区間(例えば音素区間S1および音素区間S2)を含む音声素片を各々が示す複数の音声素片データを利用して音声信号を生成する装置であって、第1音声素片(例えば音声素片V1)のうち子音の音素に対応する末尾の音素区間と第2音声素片(例えば音声素片V2)のうち子音の音素に対応する先頭の音素区間とを相互に連結した対象区間(例えば対象区間WA)のうち中央部の伸長率が当該対象区間内の先頭部および末尾部の各々の伸長率と比較して高くなるように対象区間を伸長する伸長処理を実行することで、目標の時間長にわたる調整区間(例えば調整区間WB)の合成素片データ(例えば合成素片データDB)を生成する素片調整手段(例えば素片調整部26)と、素片調整手段が生成した合成素片データから音声信号を生成する音声合成手段(例えば音声合成部28)とを具備する。以上の構成では、1個の子音の音素に対応する対象区間の内部で伸長率が変化するから、1個の音声素片の範囲内で伸縮率が一定値に維持される特許文献1の技術と比較して聴感的に自然な音声を合成できるという利点がある。
本発明の好適な態様において、音声素片データは、時間軸上の各フレームに対応する複数の単位データを含み、素片調整手段は、対象区間の先頭部(例えば先頭部σ1)に対応する複数の単位データの時系列と、対象区間の中点(例えば時点tAc)に対応する単位データを反復した複数の単位データの時系列と、対象区間の末尾部(例えば末尾部σ2)に対応する複数の単位データの時系列とを配列した合成素片データを生成する。以上の態様では、対象区間の先頭部に対応する複数の単位データの時系列と対象区間の末尾部に対応する複数の単位データの時系列とが調整区間の各フレームの単位データとして適用されるから、例えば先頭部や末尾部も伸長される構成と比較して伸長処理が簡素化されるという利点がある。以上の態様に係る対象区間の伸長は、対象区間が有声子音の音素に対応する場合に特に好適である。
本発明の好適な態様において、有声子音のフレームの単位データは、音声のスペクトルの包絡線における形状の特徴を指定する包絡形状データと、音声のスペクトルを示すスペクトルデータとを含み、素片調整手段は、対象区間が有声子音の音素に対応する場合に、対象区間の中点の前後の単位データの包絡形状データを補間した包絡形状データと、中点の直前または直後の単位データのスペクトルデータとを含む単位データを、対象区間の中点に対応する単位データとして生成する。以上の態様では、対象区間の中点の前後の単位データの包絡形状データの補間で生成された包絡形状データが伸長後の単位データに含まれるから、対象区間の中点の音声成分を適切に伸長した自然な音声を合成できるという利点がある。
本発明の好適な態様において、音声素片データは、時間軸上の各フレームに対応する複数の単位データを含み、素片調整手段は、対象区間の各フレームの単位データを調整区間の各フレームの単位データとして順次に選択することで合成素片データを生成し、調整区間内の各フレームに対応する対象区間内のフレームが調整区間内での時間経過に対して推移する速度(例えば進行速度ν)は、調整区間の中点(例えば中点tBc)に前方から接近するほど低下し、かつ、調整区間の中点から後方に離間するほど上昇する。以上の態様に係る対象区間の伸長は、対象区間が無声子音の音素に対応する場合に特に好適である。
本発明の好適な態様において、無声音のフレームの単位データは、音声のスペクトルを示すスペクトルデータを含み、素片調整手段は、対象区間が無声子音の音素に対応する場合に、対象区間内のフレームの単位データのスペクトルデータが示すスペクトルの包絡線(例えば包絡線ENV)に応じて所定の雑音成分(例えば雑音成分μ)を調整したスペクトルのスペクトルデータを含む単位データを調整区間内の単位データとして生成する。例えば、素片調整手段が、対象区間内の各フレームの単位データを順次に選択し、選択した各単位データのスペクトルデータが示すスペクトルの包絡線に応じて雑音成分を調整することで調整区間内の単位データを生成する構成(例えば第2実施形態)や、素片調整手段が、対象区間内の特定のフレーム(例えば対象区間の中点に対応する1個のフレーム)に対応する単位データのスペクトルデータが示すスペクトルの包絡線に応じて雑音成分を調整することで調整区間内の各単位データを生成する構成(例えば第3実施形態)が好適である。以上の態様では、対象区間の単位データが示すスペクトルの包絡線に応じて雑音成分(典型的には白色雑音)を調整したスペクトルの単位データが生成されるから、対象区間内の1個のフレームが調整区間内の複数のフレームにわたって反復される場合でも、音響特性がフレーム毎に変化する自然な音声を合成することが可能である。
ところで、実際に発声された音素の伸長の態様は音素の種別に応じて区々である。しかし、特許文献1の技術では、定常部と過渡部との間で伸長率を相違させるに過ぎないから、音素の種別によっては自然な音声を合成できない可能性がある。以上の事情を考慮して、本発明の第2態様に係る音声合成装置は、相異なる音素に対応する複数の音声素片データを利用して音声信号を生成する装置であって、音声素片データが示す音素を伸長する素片調整手段とを具備し、素片調整手段は、音声素片データが示す音素の種別に応じて伸長の方法を相違させる。以上の態様では、伸長対象となる音素の種別に応じて伸長の方法が選定されるから、特許文献1の技術と比較して自然な音声を合成することが可能である。
例えば、第1態様と第2態様とを併合した構成の好適例において、音声素片の末尾に位置するとともに声道の一時的な変形により発音される第1種別(例えば種別C1aや種別C1b)の子音の音素に対応する音素区間(例えば音素区間S2)は、声道の変形の直前の準備過程(例えば準備過程pA1や準備過程pB1)を含み、音声素片の先頭に位置するとともに第1種別の子音の音素に対応する音素区間(例えば音素区間S1)は、声道の一時的な変形で当該音素が発音される発音過程(例えば発音過程pA2や発音過程pB2)を含み、音声素片の末尾に位置するとともに定常的に持続可能な第2種別(例えば第2種別C2)の子音の音素に対応する音素区間は、当該音素の発音が開始する過程(例えば前方部pC1)を含み、音声素片の先頭に位置するとともに第2種別の子音の音素に対応する音素区間は、当該音素の発音が終了する過程(例えば後方部pC2)を含み、素片調整手段は、対象区間に対応する音素が第1種別に属する子音の音素である場合、第1音声素片の末尾の音素区間と第2音声素片の先頭の音素区間との間に中間区間を挿入することで調整区間の合成素片データを生成し、対象区間に対応する音素が第2種別に属する子音の音素である場合、伸長処理の実行で合成素片データを生成する。以上の態様では、第1態様と同様の効果が実現されるほか、声道の一時的な変形により発音される第1種別の音素を適切に伸長することが可能である。
例えば、素片調整手段は、対象区間に対応する子音の音素が、第1種別の音素のうち準備過程(例えば準備過程pA1)にて気流が停止する音素(例えば破裂音や破擦音)である場合、無音区間を中間区間として挿入する。また、素片調整手段は、対象区間に対応する子音の音素が、第1種別の音素のうち準備過程(例えば準備過程pB1)にて通気により発音が維持される音素(例えば流音や鼻音)である場合、第1音声素片または第2音声素片の特定の区間を複数回にわたって反復した区間を中間区間として挿入する。具体的には、第1音声素片の末尾の区間を複数回にわたって反復した区間を中間区間として挿入する構成や、第2音声素片の先頭の区間を複数回にわたって反復した区間を中間区間として挿入する構成が好適である。
以上の各態様に係る音声合成装置は、音声合成に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)で実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働でも実現される。本発明のプログラム(例えばプログラムPGM)は、相異なる音素に対応する複数の音素区間を含む音声素片を各々が示す複数の音声素片データを利用して音声信号を生成するために、コンピュータに、第1音声素片のうち子音の音素に対応する末尾の音素区間と第2音声素片のうち子音の音素に対応する先頭の音素区間とを相互に連結した対象区間のうち中央部の伸長率が先頭部および末尾部の各々の伸長率と比較して高くなるように対象区間を伸長する伸長処理を実行することで、目標の時間長にわたる調整区間の合成素片データを生成する素片調整処理と、素片調整処理で生成した合成素片データから音声信号を生成する音声合成処理とを実行させる。以上のプログラムによれば、本発明の音声合成装置と同様の作用および効果が実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。
本発明の第1実施形態に係る音声合成装置のブロック図である。 記憶装置に格納された素片群の模式図である。 音素の種別を示す図表である。 破裂音や破擦音の時間波形と音声素片各音素区間との関係を示す模式図である。 流音や鼻音の時間波形と音声素片の各音素区間との関係を示す模式図である。 摩擦音や半母音の時間波形と音声素片各音素区間との関係を示す模式図である。 音声素片の選択および合成時間長の設定の説明図である。 対象区間の伸長の説明図である。 素片調整部が子音の音素を伸長する動作のフローチャートである。 第1挿入処理の説明図である。 第2挿入処理の説明図である。 伸長処理の説明図である。 伸長処理の内容を示すフローチャートである。 有声音の音素に対する伸長処理の説明図である。 有声音の音素に対する伸長処理の説明図である。 無声音の音素に対する伸長処理の説明図である。 第2実施形態における無声音の音素に対する伸長処理の説明図である。
<A:第1実施形態>
図1は、本発明の第1実施形態に係る音声合成装置100のブロック図である。音声合成装置100は、発話音や歌唱音等の音声を素片接続型の音声合成処理で生成する信号処理装置であり、図1に示すように、演算処理装置12と記憶装置14と放音装置16とを具備するコンピュータシステムで実現される。
演算処理装置12(CPU)は、記憶装置14に格納されたプログラムPGMの実行で、合成音の波形を表す音声信号VOUTを生成するための複数の機能(素片選択部22,音素長設定部24,素片調整部26,音声合成部28)を実現する。なお、演算処理装置12の各機能を複数の集積回路に分散した構成や、専用の電子回路(DSP)が一部の機能を実現する構成も採用され得る。放音装置16(例えばヘッドホンやスピーカ)は、演算処理装置12が生成した音声信号VOUTに応じた音波を放射する。
記憶装置14は、演算処理装置12が実行するプログラムPGMや演算処理装置12が使用する各種のデータ(素片群GA,合成情報GB)を記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置14として採用される。
記憶装置14に格納される素片群GAは、図2に示すように、相異なる音声素片Vに対応する複数の音声素片データDAの集合(音声合成ライブラリ)である。図2に示すように、第1実施形態における1個の音声素片Vは、相異なる音素に対応する2個の音素区間S(S1,S2)を連結したダイフォン(音素連鎖)である。音素区間S1は、音声素片Vの始点を含む区間である。音素区間S2は、音声素片Vの終点を含む区間であり、音素区間S1に後続する。なお、以下では便宜的に無音を1個の音素として説明する。
図2に示すように、各音声素片データDAは、分類情報DCと複数の単位データUAの時系列とを含んで構成される。分類情報DCは、音声素片Vのうち音素区間S1および音素区間S2の各々に対応する音素の分類(以下「音素分類」という)を指定する。例えば図3に示すように、母音(/a/,/i/,/u/),破裂音(/t/,/k/,/p/),破擦音(/ts/),鼻音(/m/,/n/),流音(/r/),摩擦音(/s/,/f/),半母音(/w/,/y/)等の音素分類が分類情報DCで指定される。1個の音声素片Vの音声素片データDAに含まれる複数の単位データUAの各々は、その音声素片V(音素区間S1および音素区間S2)を時間軸上で区分した各フレームの音声のスペクトルを規定する。有声音の音素(母音または有声子音)に対応する単位データUAと無声音(無声子音)に対応する単位データUAとは、以下に詳述するように内容が相違する。
有声音の音素に対応する1個の単位データUAは、図2に示すように、包絡形状データRとスペクトルデータQとを含んで構成される。包絡形状データRは、音声のスペクトルの包絡線(音色)の形状的な特徴を示す複数の変数で構成される。第1実施形態の包絡形状データRは、例えば励起波形エンベロープr1と胸部レゾナンスr2と声道レゾナンスr3と差分スペクトルr4とを含むEpR(Excitation plus Resonance)パラメータであり、公知のSMS(Spectral Modeling Synthesis)分析で生成される。なお、EpRパラメータやSMS分析については、例えば特許第3711880号公報や特開2007−226174号公報にも開示されている。
励起波形エンベロープ(Excitation Curve)r1は、声帯振動のスペクトルの包絡線を近似する変数である。胸部レゾナンス(Chest Resonance)r2は、胸部共鳴特性を近似する所定個のレゾナンス(帯域通過フィルタ)の帯域幅と中心周波数と振幅値とを指定する。声道レゾナンス(Vocal Tract Resonance)r3は、声道共鳴特性を近似する複数のレゾナンスの各々について帯域幅と中心周波数と振幅値とを指定する。差分スペクトルr4は、励起波形エンベロープr1と胸部レゾナンスr2と声道レゾナンスr3とで近似されるスペクトルと音声のスペクトルとの差分(誤差)を意味する。
無声音の音素に対応する1個の単位データUAはスペクトルデータQを含んで構成される。無声音の単位データUAに包絡形状データRは含まれない。有声音および無声音の双方の単位データUAに含まれるスペクトルデータQは、音声のスペクトルを示すデータであり、具体的には、周波数軸上の複数の周波数の各々における強度(パワー,振幅値)の系列で構成される。
図3に示すように、各音素分類に属する子音の音素は、調音方法に応じて第1種別C1(C1a,C1b)と第2種別C2とに区分される。第1種別C1の音素は、所定の準備状態から声道を一時的に変形させることで発音される。第1種別C1は、種別C1aと種別C1bとに区分される。種別C1aの音素は、発音前の準備状態で口腔および鼻腔の双方の通気が完全に停止する音素である。具体的には破裂音(/t/,/k/,/p/)や破擦音(/ts/)が種別C1aに属する。種別C1bの音素は、準備状態で通気は制約されるが口腔の一部や鼻腔を介した通気により準備状態でも発音が維持される音素である。具体的には、鼻音(/m/,/n/)や流音(/r/)が種別C1bに属する。他方、第2種別C2の音素は、定常的な発音が持続され得る音素である。具体的には摩擦音(/s/,/f/)や半母音(/w/,/y/)が第2種別C2に属する。
図4から図6の各々の部分(A)には、各種別(C1a,C1b,C2)の音素の時間波形が例示されている。種別C1aの音素(例えば破裂音/t/)は、図4の部分(A)に示すように、時間軸上で準備過程pA1と発音過程pA2とに区分される。準備過程pA1は、音素の発音に備えて声道を閉鎖する過程である。声道の閉鎖で通気が停止するから、準備過程pA1では略無音の状態となる。他方、発音過程pA2は、準備過程pA1から声道を一時的かつ急速に変形させて気流を解放することで音素が実際に発音される過程である。具体的には、準備過程pA1で声道の上流側に圧縮された空気が、発音過程pA2では、例えば舌先で上顎を弾く動作により一気に解放される。
図4の部分(B)に示すように、音声素片Vの末尾の音素区間S2が種別C1aの音素に対応する場合、その音素区間S2は音素の準備過程pA1を含む。また、図4の部分(C)に示すように、音声素片Vのうち種別C1aの音素に対応する先頭の音素区間S1はその音素の発音過程pA2を含む。すなわち、図4の部分(B)の音素区間S2に図4の部分(C)の音素区間S1を後続させることで種別C1aの音素(破裂音/t/)が合成される。
図5の部分(A)に示す通り、種別C1bの音素(例えば鼻音/n/)は、時間軸上で準備過程pB1と発音過程pB2とに区分される。準備過程pB1は、音素の発音に備えて声道の通気を制限する過程である。種別C1bの音素の準備過程pB1は、声門からの通気は制約されるものの口腔の一部や鼻腔を介した通気により発音が維持される点で、通気の停止により略無音に維持される種別C1aの音素の準備過程pA1とは相違する。他方、発音過程pB2は、発音過程pA2と同様に、準備過程pB1から声道を一時的かつ急速に変形させることで音素を実際に発音する過程である。図5の部分(B)に示すように、種別C1bの音素の準備過程pB1は音声素片Vの末尾の音素区間S2に含まれ、種別C1bの音素の発音過程pB2は音声素片Vの先頭の音素区間S1に含まれる。
第2種別C2の音素(例えば摩擦音/s/)は、図6の部分(A)に示すように、時間軸上で前方部pC1と後方部pC2とに区分される。前方部pC1は、その音素の発音が開始して定常的な持続状態に遷移する過程であり、後方部pC2は、定常的な持続状態からその音素の発音が終了する過程である。図6の部分(B)に示すように、前方部pC1は音声素片Vの末尾の音素区間S2に含まれ、後方部pC2は音声素片Vの先頭の音素区間S1に含まれる。特定の発声者の音声から以上の条件を満たすように各音声素片Vが抽出されて各音素区間Sが画定されたうえで音声素片V毎の音声素片データDAが作成される。
図1に示すように、記憶装置14には、合成音を時系列に指定する合成情報(スコアデータ)GBが記憶される。合成情報GBは、合成音の発音文字X1と発音期間X2とピッチX3とを例えば音符毎に時系列に指定する。発音文字X1は、例えば歌唱音を合成する場合の歌詞の文字列であり、発音期間X2は、例えば発音の開始時刻と継続長とで指定される。合成情報GBは、例えば各種の入力機器に対する利用者からの指示に応じて生成されて記憶装置14に格納される。なお、他の通信端末から通信網を介して受信された合成情報GBや可搬型の記録媒体から転送された合成情報GBを音声信号VOUTの生成に使用することも可能である。
図1の素片選択部22は、合成情報GBが時系列に指定する各発音文字X1に対応した音声素片Vを素片群GAから順次に選択する。例えば図7に示すように、「go straight」という文字列が合成情報GBの発音文字X1として指定された場合、素片選択部22は、[Sil-gh],[gh-@U],[@U-s],[s-t],[t-r],[r-eI],[eI-t],[t-Sil]という8個の音声素片Vを選択する。なお、各音素の記号は、SAMPA(Speech Assessment Methods Phonetic Alphabet)に準拠している。なお、X-SAMPA(eXtended - SAMPA)でも同様の表記である。なお、図7の記号「Sil」は無音(Silence)を意味する。
図1の音素長設定部24は、素片選択部22が順次に選択する音声素片Vの各音素区間S(S1,S2)について、音声信号VOUTの合成に適用されるときの時間長(以下「合成時間長」という)Tを可変に設定する。各音素区間Sの合成時間長Tは、合成情報GBが時系列に指定する発音期間X2に応じて選定される。具体的には、音素長設定部24は、図7に示すように、発音文字X1を構成する主要な母音の音素(図7の斜体字の音素)の始点がその発音文字X1の発音期間X2の始点に合致し、かつ、相前後する音素区間Sが時間軸上に隙間なく配列するように、各音素区間Sの合成時間長T(T(Sil),T(gh),T(@U),……)を設定する。
図1の素片調整部26は、素片選択部22が選択した音声素片Vの各音素区間Sを、その音素区間Sについて音素長設定部24が設定した合成時間長Tに応じて伸縮する。例えば図8に示すように、素片選択部22が音声素片V1と音声素片V2とを選択した場合、素片調整部26は、音声素片V1のうち1個の音素に対応する末尾の音素区間S2と、音声素片V2のうちその音素に対応する先頭の音素区間S1とを連結した時間長LAの区間(以下「対象区間」という)WAを目標の時間長LBにわたる区間(以下「調整区間」という)WBに伸縮し、伸縮後の調整区間WBの音声を示す合成素片データDBを生成する。なお、図8では対象区間WAを伸長する場合(LA<LB)が例示されている。調整区間WBの時間長LBは、音声素片V1の音素区間S2の合成時間長Tと音声素片V2の音素区間S1の合成時間長Tとの合計である。図8に示すように、素片調整部26が生成する合成素片データDBは、調整区間WBの時間長LBに応じた個数(N個)の単位データUBの時系列である。図7および図8に示す通り、音声素片V1の音素区間S2と直後の音声素片V2の音素区間S1との組毎(すなわち音素毎)に1個の合成素片データDBが生成される。
図1の音声合成部28は、素片調整部26が音素毎に生成する合成素片データDBを利用して音声信号VOUTを生成する。具体的には、音声合成部28は、各合成素片データDBを構成する各単位データUBが示すスペクトルを時間波形に変換したうえで相互に連結し、合成情報GBのピッチX3に応じて音高を調整することで音声信号VOUTを生成する。
図9は、素片調整部26が子音の音素を伸長して合成素片データDBを生成する処理のフローチャートである。図9の処理は、1個の子音の音素(以下「対象音素」という)について素片選択部22による音声素片Vの選択と音素長設定部24による合成時間長Tの設定とが実行されるたびに開始される。図8の例示のように、音声素片V1のうち対象音素に対応する音素区間S2と音声素片V2のうち対象音素に対応する音素区間S1とで構成される時間長LAの対象区間WAを時間長LBの調整区間WBに伸長することで合成素片データDB(調整区間WBの各フレームに対応するN個の単位データUBの時系列)を生成する場合を以下では想定する。
図9の処理を開始すると、素片調整部26は、対象音素が種別C1aに属するか否かを判定する(SA1)。具体的には、音声素片V1の音声素片データDAの分類情報DCが対象音素の音素区間S2について示す音素分類が、種別C1aに属する所定の分類(破裂音や破擦音)に該当するか否かに応じて素片調整部26は処理SA1の判定を実行する。対象音素が種別C1aに属する場合(SA1:YES)、素片調整部26は、第1挿入処理の実行で調整区間WBの合成素片データDBを生成する(SA2)。
第1挿入処理は、図10に示すように、音声素片V1の末尾の音素区間S2と直後の音声素片V2の先頭の音素区間S1との間に中間区間MAを挿入することで対象区間WAを時間長LBの調整区間WBに伸長する処理である。図4を参照して説明した通り、種別C1aの音素に対応する音素区間S2には略無音の準備過程pA1が含まれる。そこで、素片調整部26は、処理SA2の第1挿入処理において、無音を示す複数の単位データUAの時系列を中間区間MAとして挿入する。すなわち、処理SA2の第1挿入処理で生成される合成素片データDBは、図10に示すように、音声素片V1の音素区間S2の各単位データUAと中間区間(無音区間)MAの各単位データUAと音声素片V2の音素区間S1の各単位データUAとを順番に配列したN個の単位データUBの時系列で構成される。
対象音素が種別C1aに属さない場合(SA1:NO)、素片調整部26は、対象音素が種別C1b(流音,鼻音)に属するか否かを判定する(SA3)。処理SA3の判定の方法は処理SA1と同様である。対象音素が種別C1bに属する場合(SA3:YES)、素片調整部26は、第2挿入処理の実行で調整区間WBの合成素片データDBを生成する(SA4)。
第2挿入処理は、図11に示すように、音声素片V1の末尾の音素区間S2と直後の音声素片V2の先頭の音素区間S1との間に中間区間MBを挿入することで対象区間WAを時間長LBの調整区間WBに伸長する処理である。図5を参照して説明した通り、種別C1bの音素に対応する音素区間S2には、口腔の一部や鼻腔を介した発音を維持する準備過程pB1が含まれる。そこで、素片調整部26は、処理SA4の第2挿入処理において、音声素片V1の最後尾のフレームの単位データUA(図11の斜線部)を反復的に配列した複数の単位データUAの時系列を中間区間MBとして挿入する。したがって、処理SA4の第2挿入処理で生成される合成素片データDBは、音声素片V1の音素区間S2の各単位データUAとその音素区間S2の最後尾の単位データUAの複数個と音声素片V2の音素区間S1の各単位データUAとを順番に配列したN個の単位データUBの時系列で構成される。
以上に説明した通り、対象音素が第1種別C1(C1a,C1b)に属する場合、素片調整部26は、音声素片V1の末尾の音素区間S2と音声素片V2の先頭の音素区間S1との間に中間区間M(MA,MB)を挿入することで調整区間WBの合成素片データDBを生成する。なお、種別C1aに属する音素のうち準備過程pA1(音声素片V1の音素区間S2)の最後尾のフレームは略無音であるから、対象音素が種別C1aに属する場合に、処理SA4と同様に、音素区間S2の最後尾のフレームの単位データUAの時系列を中間区間MBとして挿入する第2挿入処理を実行することも可能である。
対象音素が第2種別C2に属する場合(SA1:NO,SA3:NO)、素片調整部26は、対象音素の対象区間WAのうち時間軸方向における中央部の伸長率が対象区間WAの先頭部および末尾部の各々の伸長率と比較して高くなる(より伸長する)ように対象区間WAを伸長する伸長処理を実行することで時間長LBの調整区間WBの合成素片データDBを生成する(SA5)。
図12は、処理SA5の伸長処理による伸長後の調整区間WB(横軸)と伸長前の対象区間WA(縦軸)との時間的な対応関係を示すグラフである。調整区間WB内の各フレームに対応する対象区間WA内の各時点が黒点で表記されている。図12に軌跡z1(破線)および軌跡z2(実線)として図示される通り、調整区間WB内の各フレームは対象区間WA内の1個の時点に対応する。具体的には、調整区間WBの始点tBsのフレームは対象区間WAの始点tAsのフレームに対応し、調整区間WBの終点tBeのフレームは対象区間WAの終点tAeのフレームに対応する。また、調整区間WBの中点tBcのフレームは対象区間WAの中点tAcのフレームに対応する。調整区間WB内の各フレームに対応する単位データUAは、対象区間WA内でそのフレームに対応する時点の単位データUAに応じて生成される。
調整区間WB内での所定の単位時間に対応する対象区間WA内の時間長(時間軸上の距離)を以下では進行速度νと表記する。すなわち、進行速度νは、調整区間WB内の各フレームに対応する対象区間WA内のフレームが調整区間WB内での時間経過に対して推移する速度である。したがって、進行速度νが1である区間(例えば調整区間WBの先頭部や末尾部)では対象区間WA内の各フレームと調整区間WB内の各フレームとが1対1に対応し、進行速度νが0である区間(例えば調整区間WB内の中央部)では調整区間WB内の複数のフレームが対象区間WA内の1個のフレームに対応する(すなわち調整区間WB内での時間経過に対して対象区間WA内のフレームが推移しない)。
図12には、調整区間WB内における進行速度νの時間的な変化を示すグラフが併記されている。図12に示すように、素片調整部26は、調整区間WBの始点tBsから中点tBcにかけて進行速度νが1から0に減少し、かつ、中点tBcから調整区間WBの終点tBeにかけて進行速度νが0から1に増加するように、調整区間WB内の各フレームと対象区間WA内の各フレームとを対応させる。
具体的には、進行速度νは、調整区間WBの始点tBsから途中の時点tB1まで1に維持され、時点tB1から経時的に減少して調整区間WBの中点tBcで0に到達する。中点tBc以降は、始点tBsから中点tBcまでの区間を中点tBcに関して時間軸方向に線対称に反転した軌跡で進行速度νは変化する。進行速度νが以上のように増減する結果、前述の通り、対象音素の対象区間WAのうち時間軸方向における中央部の伸長率が対象区間WAの先頭部および末尾部の各々の伸長率と比較して高くなるように対象区間WAが伸長される。
図12に示すように、進行速度νの変化率(傾き)は、時点tB1と中点tBcとの途中の時点tB2で変化(低下)する。時点tB2は、始点tBsから対象区間WAの半分の時間長(LA/2)が経過する時点に相当する。時点tB1は、時点tB2から時間長α・(LA/2)だけ手前の時点である。変数αは、0以上かつ1以下の範囲内で選定される。調整区間WBの中点tBcと対象区間WAの中点tAcとを相互に対応させるためには、図12の三角形γ1と三角形γ2とが同面積となる必要がある。時点tB1での進行速度νREFは、以上の条件を充足するように変数αに応じて選定される。
図12から理解される通り、変数αが1に近付くほど、調整区間WB内で進行速度νが低下し始める時点tB1が始点tBsに近付く。すなわち、変数αを1に設定した場合には調整区間WBの始点tBsから進行速度νが低下し、変数αを0に設定した場合(tB1=tB2)には、時点tB2にて進行速度νが1から0に不連続に変化する。すなわち、変数αは、対象区間WAのうち伸長の対象となる区間の広狭を決定する数値(例えば変数αが1に近いほど対象区間WAの全体が均等に伸長される)である。図12に破線で図示された軌跡z1は、変数αを0に設定した場合における調整区間WBと対象区間WAとの対応であり、実線で図示された軌跡z2は、変数αを0と1との間の数値(例えば0.75)に設定した場合における調整区間WBと対象区間WAとの対応である。
図13は、図9の処理SA5で実行される伸長処理のフローチャートである。伸長処理を開始すると、素片調整部26は、対象音素が有声音であるか否か(図9の処理が子音を対象として実行されることを考慮すると、対象音素が有声子音であるか否か)を判定する(SB1)。対象音素が有声音である場合(SB1:YES)、素片調整部26は、調整区間WBと対象区間WAとが軌跡z1の関係を満たすように対象区間WAを伸長することで調整区間WBの合成素片データDBを生成する(SB2)。処理SB2の具体例を以下に詳述する。
まず、図14に示す通り、対象区間WAが奇数個((2K+1)個)のフレームFA[1]〜FA[2K+1]で構成される場合を想定する。図14では、対象区間WAが7個のフレームFA[1]〜FA[7]で構成された場合(K=3)が例示されている。対象区間WAは、中点の時点tAcに対応する1個のフレームFA[K+1]と、時点tAcの前方のK個のフレームFA[1]〜FA[K]で構成される先頭部σ1と、時点tAcの後方のK個のフレームFA[K+2]〜FA[2K+1]で構成される末尾部σ2とに区分される。素片調整部26は、対象素片の(2K+1)個の単位データUAのうち先頭部σ1のK個のフレームFA[1]〜FA[K]の単位データUAの時系列と、中点tAcに対応するフレームFA[K+1]の単位データUAを複数回にわたり反復した時系列と、末尾部σ2のK個のフレームFA[K+2]〜FA[2K+1]の単位データUAの時系列とを順番に配列したN個の単位データUBの時系列(フレームFB[1]〜FB[N])を合成素片データDBとして生成する。
次に、図15に示すように、対象区間WAが偶数個(2K個)のフレームFA[1]〜FA[2K]で構成される場合を想定する。図15では、対象区間WAが6個のフレームFA[1]〜FA[6]で構成された場合(K=3)が例示されている。偶数個のフレームFAで構成される対象区間WAは、K個のフレームFA[1]〜FA[K]で構成される先頭部σ1とK個のフレームFA[K+1]〜FA[2K]で構成される末尾部σ2とに区分され、対象区間WAの中点tAcに対応するフレームFA[K+0.5]は存在しない。そこで、素片調整部26は、中点tAcの直前のフレームFA[K]の単位データUAと直後のフレームFA[K+1]の単位データUAとを利用して、対象区間WAの中点tAcのフレームFA[K+0.5]に対応する単位データUAを生成する。
前述の通り、有声音の単位データUAは、包絡形状データRとスペクトルデータQとを含んで構成される。包絡形状データRについてはフレーム間で変数(r1〜r4)毎の補間が可能である。他方、スペクトルデータQが示すスペクトルはフレーム毎に刻々と変化するから、スペクトルデータQをフレーム間で補間した場合には補間前のスペクトルから特性が乖離したスペクトルが算定される可能性がある。すなわち、スペクトルデータQについては適切な補間が困難である。
以上の事情を考慮して、第1実施形態の素片調整部26は、対象区間WAの中点tAcのフレームFA[K+0.5]における単位データUAの包絡形状データRを、直前のフレームFA[K]と直後のフレームFA[K+1]との間で包絡形状データRの各変数(r1〜r4)を補間することで算定する。例えば図15の例示では、フレームFA[3.5]の単位データUAの包絡形状データRは、フレームFA[3]の包絡形状データRとフレームFA[4]の包絡形状データとの補間により生成される。包絡形状データRの補間には例えば直線補間等の各種の補間処理が任意に採用される。
また、素片調整部26は、対象区間WAの中点tAcの直後のフレームFA[K+1]の単位データUAのスペクトルデータQ(または直前のフレームFA[K]のスペクトルデータQ)を、対象区間WAの中点tAcに対応するフレームFA[K+0.5]における単位データUAのスペクトルデータQとして流用する。例えば図15の例示では、フレームFA[4](またはフレームFA[3])の単位データUAのスペクトルデータQがフレームFA[3.5]のスペクトルデータQとして選択される。以上の説明から理解されるように、素片調整部26が生成する合成素片データDBは、対象素片の2K個の単位データUAのうち先頭部σ1のK個のフレームFA[1]〜FA[K]の単位データUAの時系列と、補間により生成されたフレームFA[K+0.5]の単位データUAを複数回にわたり反復した時系列と、末尾部σ2のK個のフレームFA[K+1]〜FA[2K]の単位データUAの時系列とを順番に配列したN個の単位データUB(フレームFB[1]〜FB[N])で構成される。
他方、対象音素が無声音である場合(SB1:NO)、素片調整部26は、調整区間WBと対象区間WAとが軌跡z2の関係を満たすように対象区間WAを伸長することで調整区間WBの合成素片データDBを生成する(SB3)。前述の通り、無声音の単位データUAは、スペクトルデータQを含んで構成されて包絡形状データRを含まない。素片調整部26は、対象区間WAを構成する複数のフレームのうち調整区間WB内の各フレームに対して軌跡z2に最も近い関係にあるフレームの単位データUAを調整区間WBのN個のフレームの各々の単位データUBとして選択することで、N個の単位データUBで構成される合成素片データDBを生成する。
図16には、調整区間WBの任意の1個のフレームFB[n]に対応する対象区間WA内の時点tAnが図示されている。調整区間WBのフレームFB[n]に対して軌跡z2の関係を満たす時点tAnのフレームが対象区間WA内に存在しない場合、素片調整部26は、単位データUAの補間を実行せずに、対象区間WA内の時点tAnに最も近いフレームFAの単位データUAを、調整区間WBのフレームFB[n]の単位データUBとして選択する。すなわち、対象区間WA内で時点tAnの直前のフレームFA[m]および直後のフレームFA[m+1]のうち時点tAnに近いフレームFAの単位データUAが合成素片データDBのフレームFB[n]の単位データUBとして選択される。したがって、調整区間WB内の各フレームと対象区間WA内の各フレームとの対応関係は、軌跡z2に沿う折線で表現される軌跡z2aの関係となる。
以上に説明した通り、第1実施形態では、1個の子音の音素に対応する対象区間WAの内部で伸長率が変化するから、1個の音声素片の範囲内では伸縮率が一定値に維持される特許文献1の構成と比較して聴感的に自然な音声を合成することが可能である。
また、第1実施形態では、子音の音素の種別(C1a,C1b,C2)に応じて伸長の方法が変更されるから、音素毎の特徴(特に受聴者が音素を識別するうえで重要な区間)を過度に変化させることなく各音素を伸長できるという利点がある。
例えば、種別C1aの音素(破裂音や破擦音)については準備過程pA1と発音過程pA2との間に無音の中間区間MAが挿入されるから、受聴者が音素を識別するうえで特に重要な発音過程pA2の特性を殆ど変化させずに対象区間WAを伸長できるという利点がある。同様に、種別C1bの音素(流音や鼻音)については準備過程pB1の最後のフレームを反復した中間区間MBが準備過程pB1と発音過程pB2との間に挿入されるから、音素の識別にとって特に重要な発音過程pB2の特性を殆ど変化させずに対象区間WAを伸長できるという利点がある。第2種別C2の音素(摩擦音や半母音)については、対象区間WAの中央部の伸長率が先頭部や末尾部の伸長率と比較して高くなるように対象区間WAが伸長されるから、受聴者が音素を識別するうえで特に重要な先頭部や末尾部の特性を過度に変化させずに対象区間WAを伸長することが可能である。
また、第2種別C2の音素の伸長処理では、補間演算が困難なスペクトルデータQについては音声素片データDA内の単位データUAのスペクトルデータQが合成素片データDBに適用される一方、包絡形状データRについては対象区間WA内の中点tAcの前後のフレームを対象とした補間で算定された包絡形状データRが合成素片データDBの単位データUBに含められる。したがって、包絡形状データRの補間を実行しない構成と比較して聴感的に自然な音声を合成できるという利点がある。
なお、有声子音の音素を伸長する方法としては、例えば調整区間WB内の各フレームの包絡形状データRについては軌跡z1に沿うように補間により算定し、スペクトルデータQについては軌跡z2に沿うように音声素片データDから選択するという方法(以下「対比例」という)も想定され得る。しかし、対比例の方法では、包絡形状データRとスペクトルデータQとで特性が乖離し、合成音が聴感的に不自然な特性となる可能性がある。第1実施形態では、包絡形状データRおよびスペクトルデータQの双方が軌跡z2に沿うように合成素片データDBの各単位データが生成されるから、対比例と比較して聴感的に自然な音声を合成できるという利点がある。ただし、対比例を本発明の範囲から除外する趣旨ではない。
<B:第2実施形態>
本発明の第2実施形態を以下に説明する。なお、以下に例示する各形態において作用や機能が第1実施形態と同等である要素については、以上の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
第1実施形態では、対象音素が無声音である場合に、対象区間WAを構成する複数のフレームのうち調整区間WB内の各フレームに対して軌跡z2aの関係を満たすフレームの単位データUAを選択した。第1実施形態の構成では、対象区間WA内の1個のフレームの単位データUAが調整区間WB内の複数のフレーム(図16の反復区間τ)にわたって反復的に選択され得る。しかし、1個の単位データUAが反復された合成素片データDBで生成される合成音は、人工的で不自然な音声となる可能性がある。第2実施形態は、1個の単位データUAの反復に起因した合成音の不自然さを低減するための形態である。
図17は、第2実施形態における素片調整部26の動作の説明図である。対象音素が無声音である場合(SB1:NO)、素片調整部26は、調整区間WB内のN個のフレームの各々(FB[n])の各々について以下の処理を実行することで、各フレームに対応するN個の単位データUBを生成する。
まず、素片調整部26は、対象区間WAの複数のフレームFAのうち調整区間WB内の1個のフレームFB[n]に対応する時点tAnに最も近いフレームFAを第1実施形態と同様に選択し、図17に示すように、選択したフレームFAの単位データUAのスペクトルデータQが示すスペクトルの包絡線ENVを算定する。そして、素片調整部26は、時間軸上で乱数的に刻々と変化する所定の雑音成分μを包絡線ENVに応じて調整した音声成分のスペクトルqを算定する。周波数軸上の広範囲にわたって強度が略均一に維持された白色雑音が雑音成分μとして好適である。スペクトルqは、例えば、雑音成分μのスペクトルに包絡線ENVを乗算することで算定される。素片調整部26は、スペクトルqを示すスペクトルデータQを含む単位データUAを、調整区間WB内のフレームFB[n]の単位データUBとして生成する。
以上に説明した通り、第2実施形態では、対象音素が無声子音である場合に、対象区間WAの単位データUAで規定されるスペクトルの周波数特性(包絡線ENV)を雑音成分μに付加することで合成素片データDBの単位データUBが生成される。雑音成分μの各周波数での強度は時間軸上で乱数的に刻々と変化するから、対象区間WA内の1個の単位データUAが調整区間WB内の複数のフレームにわたって反復的に選択された場合でも、合成音の特性は経時的(フレーム毎)に刻々と変化する。したがって、第2実施形態によれば、第1実施形態と同様の効果に加えて、1個の単位データUAの反復に起因した合成音の不自然さを第1実施形態と比較して低減できるという利点がある。
<C:第3実施形態>
第2実施形態でも説明した通り、無声子音については対象区間WA内の1個の単位データUAが調整区間WB内の複数のフレームにわたって反復され得る。他方、無声子音の各フレームは基本的には無声音であるが、有声音のフレームが混在する可能性もある。そして、無声子音の音素の合成音において有声音のフレームが反復された場合には、非常に耳障りな周期性の雑音(ビー音)が発音されるという問題がある。第3実施形態は、以上の問題を解決するための形態である。
第3実施形態の素片調整部26は、調整区間WBのうち軌跡z2にて対象区間WA内の1個のフレームに連続して対応する反復区間τ内の各フレームについて、対象区間WA内の中点tAcに対応するフレームの単位データUAを選択する。そして、素片調整部26は、対象区間WAの中点tAcに対応する1個の単位データUAのスペクトルデータQが示すスペクトルの包絡線ENVを算定し、所定の雑音成分μを包絡線ENVに応じて調整したスペクトルのスペクトルデータQを含む単位データUAを、調整区間WBのうち反復区間τ内の各フレームの単位データUBとして生成する。すなわち、反復区間τ内の複数のフレームについてスペクトルの包絡線ENVは共通する。なお、対象区間WAの中点tAcに対応する単位データUAを包絡線ENVの算定元として選定したのは、対象区間WAの中点tAcの近傍で無声子音の発音が安定し易い(無声音である可能性が高い)という傾向があるからである。
第3実施形態においても第1実施形態と同様の効果が実現される。また、第3実施形態では、対象区間WA内の1個の単位データUA(特に中点tAcに対応する単位データUA)から特定される包絡線ENVを利用して反復区間τ内の各フレームの単位データUBが生成されるから、無声子音の音素の合成音において有声音のフレームが反復される可能性が低減される。したがって、有声音のフレームの反復に起因した周期性の雑音の発生を抑制できるという利点がある。
<D:変形例>
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様を適宜に併合することも可能である。
(1)前述の各実施形態では、子音の音素の種別(C1a,C1b,C2)に応じて対象区間WAの伸長の方法を相違させたが、各種別の音素の対象区間WAを共通の方法で伸長することも可能である。例えば、対象区間WAの中央部の伸長率が先頭部および末尾部の伸長率と比較して高くなるように対象区間WAを伸長する伸長処理(図9の処理SA5)を、種別C1aや種別C1bの音素の対象区間WAの伸長に適用することも可能である。
(2)図9の処理SA5で実行される伸長処理の方法は適宜に変更される。例えば、対象音素が有声音である場合(SB1:YES)に、調整区間WBの各フレームと対象区間WAの各フレームとが軌跡z2の関係を満たすように対象区間WAを伸長することも可能である。調整区間WB内の各フレームの単位データUBのうち包絡形状データRは、対象区間WA内の各単位データUAをフレーム間で補間することにより生成され、単位データUB内のスペクトルデータQとしては、対象区間WA内の単位データUAのスペクトルデータQが選択される。また、対象音素が無声音である場合(SB1:NO)に、調整区間WBの各フレームと対象区間WAの各フレームとが軌跡z1の関係を満たすように対象区間WAを伸長することも可能である。
(3)前述の各形態の第2挿入処理では、音声素片V1の最後尾のフレームの単位データUA(図11の斜線部)を反復的に配列することで中間区間MBを生成したが、第2挿入処理で中間区間MBの生成に使用される単位データUAの時間軸上の位置(フレーム)は適宜に変更される。例えば、音声素片V2の先頭のフレームの単位データUAを反復的に配列することで中間区間MBを生成することも可能である。以上の例示から理解されるように、第2挿入処理は、音声素片V1または音声素片V2の特定の区間(音声素片V1の最後尾のフレームや音声素片V2の先頭のフレーム)を複数回にわたって反復した区間を中間区間として挿入する処理として包括される。
(4)第2実施形態では、対象区間WA内から選択した1個の単位データUが示すスペクトルの包絡線ENVを雑音成分μの調整に適用したが、フレーム間の補間で算定された包絡線ENVに応じて雑音成分μを調整することも可能である。例えば、図16を参照して説明したように、調整区間WBのフレームFB[n]に対して軌跡z1の関係を満たす時点tAnのフレームが対象区間WA内に存在しない場合に、時点tAnの直前のフレームFA[m]の単位データUAが示すスペクトルの包絡線ENV[m]と、直後のフレームFA[m+1]の単位データUAが示すスペクトルの包絡線ENV[m+1]とを補間することで時点tAnの包絡線ENVを生成し、補間後の包絡線ENVに応じて第2実施形態と同様に雑音成分μを調整する。
(5)音声素片データDAや合成素片データDBの形式は任意である。例えば、前述の各実施形態では、音声素片Vの各フレームのスペクトルを示す単位データUの時系列を音声素片データDAとして使用したが、例えば音声素片Vの時間軸上のサンプル系列を音声素片データDAとして使用することも可能である。
(6)前述の各形態では、素片群GAを記憶する記憶装置14が音声合成装置100に搭載された構成を例示したが、音声合成装置100とは独立した外部装置(例えばサーバ装置)が素片群GAを保持する構成も採用される。音声合成装置100(素片選択部22)は、例えば通信網を介して外部装置から音声素片V(音声素片データDA)を取得して音声信号VOUTを生成する。同様に、音声合成装置100から独立した外部装置に合成情報GBを保持することも可能である。以上の説明から理解されるように、音声素片データDAや合成情報GBを記憶する要素(前述の各形態における記憶装置14)は音声合成装置100の必須の要素ではない。
100……音声合成装置、12……演算処理装置、14……記憶装置、16……放音装置、22……素片選択部、24……音素長設定部、26……素片調整部、28……音声合成部。

Claims (7)

  1. 相異なる音素に対応する複数の音素区間を含む音声素片を各々が示す複数の音声素片データを利用して音声信号を生成する装置であって、
    第1音声素片のうち子音の音素に対応する末尾の音素区間と第2音声素片のうち前記子音の音素に対応する先頭の音素区間とを相互に連結した対象区間のうち中央部の伸長率が当該対象区間内の先頭部および末尾部の各々の伸長率と比較して高くなるように前記対象区間を伸長する伸長処理を実行することで、目標の時間長にわたる調整区間の合成素片データを生成する素片調整手段と、
    前記素片調整手段が生成した合成素片データから音声信号を生成する音声合成手段とを具備し、
    前記音声素片データは、時間軸上の各フレームに対応する複数の単位データを含み、
    前記素片調整手段は、前記対象区間が有声子音の音素に対応する場合に、前記対象区間の前記先頭部に対応する複数の単位データの時系列と、前記対象区間の中点に対応する単位データを反復した複数の単位データの時系列と、前記対象区間の前記末尾部に対応する複数の単位データの時系列とを配列した前記合成素片データを生成する
    音声合成装置。
  2. 前記有声子音のフレームの単位データは、音声のスペクトルの包絡線における形状の特徴を指定する包絡形状データと、音声のスペクトルを示すスペクトルデータとを含み、
    前記素片調整手段は、前記対象区間が有声子音の音素に対応する場合に、前記対象区間の中点の前後の単位データの前記包絡形状データを補間した包絡形状データと、前記中点の直前または直後の単位データのスペクトルデータとを含む単位データを、前記対象区間の前記中点に対応する単位データとして生成する
    請求項の音声合成装置。
  3. 前記素片調整手段は、前記対象区間が無声子音の音素に対応する場合に、前記対象区間の各フレームの単位データを前記調整区間の各フレームの単位データとして順次に選択することで前記合成素片データを生成し、
    前記調整区間内の各フレームに対応する前記対象区間内のフレームが前記調整区間内での時間経過に対して推移する速度は、前記調整区間の中点に前方から接近するほど低下し、かつ、前記調整区間の中点から後方に離間するほど上昇する
    請求項1または請求項2の音声合成装置。
  4. 相異なる音素に対応する複数の音素区間を含む音声素片を各々が示す複数の音声素片データを利用して音声信号を生成する装置であって、
    第1音声素片のうち子音の音素に対応する末尾の音素区間と第2音声素片のうち前記子音の音素に対応する先頭の音素区間とを相互に連結した対象区間のうち中央部の伸長率が当該対象区間内の先頭部および末尾部の各々の伸長率と比較して高くなるように前記対象区間を伸長する伸長処理を実行することで、目標の時間長にわたる調整区間の合成素片データを生成する素片調整手段と、
    前記素片調整手段が生成した合成素片データから音声信号を生成する音声合成手段とを具備し、
    前記音声素片データは、時間軸上の各フレームに対応する複数の単位データを含み、
    前記素片調整手段は、前記対象区間が無声子音の音素に対応する場合に、前記対象区間の各フレームの単位データを前記調整区間の各フレームの単位データとして順次に選択することで前記合成素片データを生成し、
    前記調整区間内の各フレームに対応する前記対象区間内のフレームが前記調整区間内での時間経過に対して推移する速度は、前記調整区間の中点に前方から接近するほど低下し、かつ、前記調整区間の中点から後方に離間するほど上昇する
    音声合成装置。
  5. 無声音のフレームの単位データは、音声のスペクトルを示すスペクトルデータを含み、
    前記素片調整手段は、前記対象区間が無声子音の音素に対応する場合に、前記対象区間内のフレームの単位データのスペクトルデータが示すスペクトルの包絡線に応じて所定の雑音成分を調整したスペクトルのスペクトルデータを含む単位データを前記調整区間内の単位データとして生成する
    請求項3または請求項4の音声合成装置。
  6. 相異なる音素に対応する複数の音素区間を含む音声素片を各々が示す複数の音声素片データを利用して音声信号を生成するために、コンピュータが、
    第1音声素片のうち子音の音素に対応する末尾の音素区間と第2音声素片のうち前記子音の音素に対応する先頭の音素区間とを相互に連結した対象区間のうち中央部の伸長率が当該対象区間内の先頭部および末尾部の各々の伸長率と比較して高くなるように前記対象区間を伸長する伸長処理を実行することで、目標の時間長にわたる調整区間の合成素片データを生成し、
    前記生成した合成素片データから音声信号を生成する方法であって、
    前記音声素片データは、時間軸上の各フレームに対応する複数の単位データを含み、
    前記合成素片データの生成では、前記対象区間が有声子音の音素に対応する場合に、前記対象区間の前記先頭部に対応する複数の単位データの時系列と、前記対象区間の中点に対応する単位データを反復した複数の単位データの時系列と、前記対象区間の前記末尾部に対応する複数の単位データの時系列とを配列した前記合成素片データを生成する
    音声合成方法。
  7. 相異なる音素に対応する複数の音素区間を含む音声素片を各々が示す複数の音声素片データを利用して音声信号を生成するために、コンピュータが、
    第1音声素片のうち子音の音素に対応する末尾の音素区間と第2音声素片のうち前記子音の音素に対応する先頭の音素区間とを相互に連結した対象区間のうち中央部の伸長率が当該対象区間内の先頭部および末尾部の各々の伸長率と比較して高くなるように前記対象区間を伸長する伸長処理を実行することで、目標の時間長にわたる調整区間の合成素片データを生成し、
    前記生成した合成素片データから音声信号を生成する方法であって、
    前記音声素片データは、時間軸上の各フレームに対応する複数の単位データを含み、
    前記合成素片データの生成では、前記対象区間が無声子音の音素に対応する場合に、前記対象区間の各フレームの単位データを前記調整区間の各フレームの単位データとして順次に選択することで前記合成素片データを生成し、
    前記調整区間内の各フレームに対応する前記対象区間内のフレームが前記調整区間内での時間経過に対して推移する速度は、前記調整区間の中点に前方から接近するほど低下し、かつ、前記調整区間の中点から後方に離間するほど上昇する
    音声合成方法。
JP2012110358A 2011-06-01 2012-05-14 音声合成装置および音声合成方法 Expired - Fee Related JP6047922B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2012110358A JP6047922B2 (ja) 2011-06-01 2012-05-14 音声合成装置および音声合成方法
US13/485,303 US9230537B2 (en) 2011-06-01 2012-05-31 Voice synthesis apparatus using a plurality of phonetic piece data
EP12170129.6A EP2530672B1 (en) 2011-06-01 2012-05-31 Apparatus and program for synthesising a voice signal
CN201210179123.7A CN102810310B (zh) 2011-06-01 2012-06-01 语音合成设备

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2011123770 2011-06-01
JP2011123770 2011-06-01
JP2012110358A JP6047922B2 (ja) 2011-06-01 2012-05-14 音声合成装置および音声合成方法

Publications (2)

Publication Number Publication Date
JP2013011862A JP2013011862A (ja) 2013-01-17
JP6047922B2 true JP6047922B2 (ja) 2016-12-21

Family

ID=46397008

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012110358A Expired - Fee Related JP6047922B2 (ja) 2011-06-01 2012-05-14 音声合成装置および音声合成方法

Country Status (4)

Country Link
US (1) US9230537B2 (ja)
EP (1) EP2530672B1 (ja)
JP (1) JP6047922B2 (ja)
CN (1) CN102810310B (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5817854B2 (ja) * 2013-02-22 2015-11-18 ヤマハ株式会社 音声合成装置およびプログラム
KR102323393B1 (ko) 2015-01-12 2021-11-09 삼성전자주식회사 디바이스 및 상기 디바이스의 제어 방법
JP6569246B2 (ja) * 2015-03-05 2019-09-04 ヤマハ株式会社 音声合成用データ編集装置
JP6561499B2 (ja) * 2015-03-05 2019-08-21 ヤマハ株式会社 音声合成装置および音声合成方法
JP6728755B2 (ja) * 2015-03-25 2020-07-22 ヤマハ株式会社 歌唱音発音装置
CN111402858B (zh) * 2020-02-27 2024-05-03 平安科技(深圳)有限公司 一种歌声合成方法、装置、计算机设备及存储介质
US11302301B2 (en) * 2020-03-03 2022-04-12 Tencent America LLC Learnable speed control for speech synthesis

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4128737A (en) * 1976-08-16 1978-12-05 Federal Screw Works Voice synthesizer
US4214125A (en) * 1977-01-21 1980-07-22 Forrest S. Mozer Method and apparatus for speech synthesizing
US4470150A (en) * 1982-03-18 1984-09-04 Federal Screw Works Voice synthesizer with automatic pitch and speech rate modulation
US4586193A (en) * 1982-12-08 1986-04-29 Harris Corporation Formant-based speech synthesizer
JPS62245298A (ja) * 1986-04-18 1987-10-26 株式会社リコー 音声規則合成方式
US4852170A (en) * 1986-12-18 1989-07-25 R & D Associates Real time computer speech recognition system
US5163110A (en) * 1990-08-13 1992-11-10 First Byte Pitch control in artificial speech
DE69228211T2 (de) * 1991-08-09 1999-07-08 Koninklijke Philips Electronics N.V., Eindhoven Verfahren und Apparat zur Handhabung von Höhe und Dauer eines physikalischen Audiosignals
US5384893A (en) * 1992-09-23 1995-01-24 Emerson & Stern Associates, Inc. Method and apparatus for speech synthesis based on prosodic analysis
US5463715A (en) * 1992-12-30 1995-10-31 Innovation Technologies Method and apparatus for speech generation from phonetic codes
JPH06332492A (ja) * 1993-05-19 1994-12-02 Matsushita Electric Ind Co Ltd 音声検出方法および検出装置
JPH07129193A (ja) 1993-10-28 1995-05-19 Sony Corp 音声出力装置
SE516521C2 (sv) * 1993-11-25 2002-01-22 Telia Ab Anordning och förfarande vid talsyntes
US5703311A (en) * 1995-08-03 1997-12-30 Yamaha Corporation Electronic musical apparatus for synthesizing vocal sounds using format sound synthesis techniques
US6240384B1 (en) * 1995-12-04 2001-05-29 Kabushiki Kaisha Toshiba Speech synthesis method
DE19610019C2 (de) 1996-03-14 1999-10-28 Data Software Gmbh G Digitales Sprachsyntheseverfahren
US6088674A (en) * 1996-12-04 2000-07-11 Justsystem Corp. Synthesizing a voice by developing meter patterns in the direction of a time axis according to velocity and pitch of a voice
US6304846B1 (en) * 1997-10-22 2001-10-16 Texas Instruments Incorporated Singing voice synthesis
US6081780A (en) * 1998-04-28 2000-06-27 International Business Machines Corporation TTS and prosody based authoring system
DE19861167A1 (de) * 1998-08-19 2000-06-15 Christoph Buskies Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten sowie Vorrichtungen zur Bereitstellung koartikulationsgerecht konkatenierter Audiodaten
JP2000305582A (ja) * 1999-04-23 2000-11-02 Oki Electric Ind Co Ltd 音声合成装置
JP2001117576A (ja) * 1999-10-15 2001-04-27 Pioneer Electronic Corp 音声合成方法
JP3879402B2 (ja) * 2000-12-28 2007-02-14 ヤマハ株式会社 歌唱合成方法と装置及び記録媒体
JP4067762B2 (ja) * 2000-12-28 2008-03-26 ヤマハ株式会社 歌唱合成装置
GB0031840D0 (en) * 2000-12-29 2001-02-14 Nissen John C D Audio-tactile communication system
JP3711880B2 (ja) 2001-03-09 2005-11-02 ヤマハ株式会社 音声分析及び合成装置、方法、プログラム
JP3838039B2 (ja) * 2001-03-09 2006-10-25 ヤマハ株式会社 音声合成装置
JP4680429B2 (ja) * 2001-06-26 2011-05-11 Okiセミコンダクタ株式会社 テキスト音声変換装置における高速読上げ制御方法
JP3963141B2 (ja) * 2002-03-22 2007-08-22 ヤマハ株式会社 歌唱合成装置、歌唱合成用プログラム及び歌唱合成用プログラムを記録したコンピュータで読み取り可能な記録媒体
US7529672B2 (en) * 2002-09-17 2009-05-05 Koninklijke Philips Electronics N.V. Speech synthesis using concatenation of speech waveforms
JP5175422B2 (ja) * 2002-09-17 2013-04-03 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声合成における時間幅を制御する方法
GB0304630D0 (en) * 2003-02-28 2003-04-02 Dublin Inst Of Technology The A voice playback system
JP2007226174A (ja) 2006-06-21 2007-09-06 Yamaha Corp 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム
JP5029167B2 (ja) * 2007-06-25 2012-09-19 富士通株式会社 音声読み上げのための装置、プログラム及び方法
JP5046211B2 (ja) * 2008-02-05 2012-10-10 独立行政法人産業技術総合研究所 音楽音響信号と歌詞の時間的対応付けを自動で行うシステム及び方法
US20120150544A1 (en) * 2009-08-25 2012-06-14 Mcloughlin Ian Vince Method and system for reconstructing speech from an input signal comprising whispers
WO2011052412A1 (ja) * 2009-10-28 2011-05-05 日本電気株式会社 音声認識システム、音声認識要求装置、音声認識方法、音声認識用プログラムおよび記録媒体

Also Published As

Publication number Publication date
JP2013011862A (ja) 2013-01-17
CN102810310B (zh) 2014-10-22
EP2530672B1 (en) 2015-01-14
US9230537B2 (en) 2016-01-05
EP2530672A3 (en) 2014-01-01
CN102810310A (zh) 2012-12-05
EP2530672A2 (en) 2012-12-05
US20120310651A1 (en) 2012-12-06

Similar Documents

Publication Publication Date Title
JP6047922B2 (ja) 音声合成装置および音声合成方法
JP6024191B2 (ja) 音声合成装置および音声合成方法
EP2980786B1 (en) Voice analysis method and device, voice synthesis method and device and medium storing voice analysis program
JP4469883B2 (ja) 音声合成方法及びその装置
JP2006030575A (ja) 音声合成装置およびプログラム
JP2005004104A (ja) 規則音声合成装置及び規則音声合成方法
JP5935545B2 (ja) 音声合成装置
JP5914996B2 (ja) 音声合成装置およびプログラム
JP5175422B2 (ja) 音声合成における時間幅を制御する方法
JP6413220B2 (ja) 合成情報管理装置
JP6011039B2 (ja) 音声合成装置および音声合成方法
JP6047952B2 (ja) 音声合成装置および音声合成方法
JP2987089B2 (ja) 音声素片作成方法および音声合成方法とその装置
JP2008299266A (ja) 音声合成装置および音声合成方法
JP4305022B2 (ja) データ作成装置、プログラム及び楽音合成装置
JP3515268B2 (ja) 音声合成装置
JP5982942B2 (ja) 音声合成装置
JPH056191A (ja) 音声合成装置
JPH0836397A (ja) 音声合成装置
JP2003288095A (ja) 音声合成装置、音声合成方法並びに音声合成用プログラム及びこのプログラムを記録したコンピュータで読み取り可能な記録媒体
JP6286946B2 (ja) 音声合成装置および音声合成方法
JP5915264B2 (ja) 音声合成装置
JPH1078795A (ja) 音声合成装置
JPS63285596A (ja) 音声合成における発話速度変更方式
JPH03203800A (ja) 音声合成方式

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20150410

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150421

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160407

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160412

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160531

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161025

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161107

R151 Written notification of patent or utility model registration

Ref document number: 6047922

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees