JP5914996B2 - 音声合成装置およびプログラム - Google Patents

音声合成装置およびプログラム Download PDF

Info

Publication number
JP5914996B2
JP5914996B2 JP2011127123A JP2011127123A JP5914996B2 JP 5914996 B2 JP5914996 B2 JP 5914996B2 JP 2011127123 A JP2011127123 A JP 2011127123A JP 2011127123 A JP2011127123 A JP 2011127123A JP 5914996 B2 JP5914996 B2 JP 5914996B2
Authority
JP
Japan
Prior art keywords
phoneme
speech
section
segment
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011127123A
Other languages
English (en)
Other versions
JP2012252303A (ja
Inventor
慶二郎 才野
慶二郎 才野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2011127123A priority Critical patent/JP5914996B2/ja
Publication of JP2012252303A publication Critical patent/JP2012252303A/ja
Application granted granted Critical
Publication of JP5914996B2 publication Critical patent/JP5914996B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、複数の音声素片の連結で発話音や歌唱音等の音声を合成する技術に関する。
複数の音声素片を相互に連結することで所望の音声を合成する素片接続型の音声合成技術が従来から提案されている。例えば特許文献1には、利用者が指定した発音期間の時間長に応じて各音声素片(韻律小素片)を時間軸方向に伸縮して相互に連結することで所望の継続長の音声を合成する技術が開示されている。
特開2003−108176号公報
しかし、特許文献1の技術では、発音速度(単位時間あたりの音素数)が高い合成音を生成するために各音声素片を時間軸方向に過度に収縮した場合に、実際に人間が発音時に口を変形させ得る速度を上回る速度で発音されたような不自然な音声が合成される可能性がある。また、人間が実際に早口で発音する場合には1個の音素の明瞭な発音が完了する以前に直後の音素の発音が開始される(すなわち音素の一部が省略される)という傾向がある。しかし、特許文献1の技術では、音声素片を収縮した場合でも各音素は始点から終点までの全体にわたり発音されるから、合成音は聴覚的に不自然な音声となる。例えば、1個の音素の発音を短い周期で反復する場合(例えば「わわわわ……」と発音する場合)、実際には各回の発音で口が完全に開く以前に次の発音が開始するが、特許文献1の技術では発音毎に口を完全に開いたような不自然な音声が生成される。以上の事情を考慮して、本発明は、発音速度が高い自然な音声を合成することを目的とする。
以上の課題を解決するために本発明が採用する手段を説明する。なお、本発明の理解を容易にするために、以下の説明では、本発明の要素と後述の実施形態の要素との対応を括弧書で付記するが、本発明の範囲を実施形態の例示に限定する趣旨ではない。
本発明の音声合成装置は、相異なる音素に対応する複数の音素区間(例えば音素区間S)を含む音声素片を順次に選択する素片選択手段(例えば素片選択部22)と、素片選択手段が選択した音声素片の各音素区間について合成時間長(例えば合成時間長T)を可変に設定する音素長設定手段(例えば音素長設定部24)と、素片選択手段が選択した音声素片の各音素区間のうち音素長設定手段が設定した合成時間長の対象区間(例えば対象区間W)音声波形を相互に連結して音声信号を生成する音声合成手段(例えば音声合成部26)とを具備する。以上の構成では、各音声素片の音素区間のうち音素長設定手段が設定した合成時間長にわたる対象区間の音声波形を相互に連結して音声信号が生成される。音声素片を伸縮して音声信号の合成に適用する構成と比較して自然な音声を合成することが可能である。また、音声素片の音素区間毎に対象区間が選定されるから、音声素片の全体として音声信号の生成に適用される区間を選定する構成と比較すると、例えば各音素のなかで重要な区間(例えば受聴者が音素を識別するうえで重要な区間)を音素区間毎に個別に対象区間として選定して自然な音声を合成できるという利点がある。
本発明の好適な態様において、音声素片の先頭に位置するとともに声道の閉鎖後の一時的な変形により発音される第1種別の音素に対応する音素区間(例えば第1種別C1の音素に対応する音素区間S1)は、第1種別の音素が発音される過程(例えば後方部pB)を含み、音声素片の末尾に位置するとともに第1種別の音素に対応する音素区間(例えば第1種別C1の音素に対応する音素区間S2)は、第1種別の音素が発音される直前の準備過程(例えば前方部pAの準備過程pA2)を含み、音声合成手段は、音声素片の先頭の音素区間が第1種別の音素に対応する場合に、その音素区間のうち始点から後方の合成時間長にわたる区間を対象区間として選定し(例えば図9の部分(A))、音声素片の末尾の音素区間が第1種別の音素に対応する場合に、その音素区間のうち始点から後方の合成時間長にわたる区間を対象区間として選定する(例えば図9の部分(C))。以上の態様では、第1種別の音素が発音される過程のうち前方側の区間が対象区間に優先的に包含され、第1種別の音素の準備過程のうち前方の区間(直前の音素の影響が顕著となる区間)が対象区間に優先的に包含される。したがって、第1種別の音素のうち例えば受聴者がその音素を認識するうえで重要な箇所を維持しながら音声信号を生成できるという利点がある。第1種別の音素は、典型的には発音が時間的に持続され難い音素である。例えば破裂音や破擦音等の音素が第1種別に区分される。
本発明の好適な態様において、音声素片の先頭に位置するとともに第1種別とは相違する第2種別の音素に対応する音素区間(例えば第2種別C2の音素に対応する音素区間S1)は、当該第2種別の音素が後続の音素に変化する過程(例えば後方部qB)を含み、音声素片の末尾に位置するとともに第2種別の音素に対応する音素区間(例えば第2種別C2の音素に対応する音素区間S2)は、直前の音素が当該第2種別の音素に変化する過程(例えば前方部qA)を含み、音声合成手段は、音声素片の先頭の音素区間が第2種別の音素に対応する場合に、その音素区間のうち終点から前方の合成時間長にわたる区間を対象区間として選定し、音声素片の末尾の音素区間が第2種別の音素に対応する場合に、その音素区間のうち始点から後方の合成時間長にわたる区間を対象区間として選定する。以上の態様では、第2種別の音素が後続の音素に変化する過程のうち後方側の区間が対象区間に優先的に包含され、直前の音素が第2種別の音素に変化する過程のうち前方側の区間が対象区間に優先的に包含される。したがって、第2種別の音素のうち例えば受聴者がその音素の前後の遷移を認識するうえで重要な箇所を維持しながら音声信号を生成できるという利点がある。なお、第2種別の音素は、典型的には発音が持続され得る音素である。例えば、声道の形状が定常的に維持された状態で発音される母音,半母音および摩擦音等の音素や、口腔の一部や鼻腔を介した通気により発音を維持したまま声道を部分的に閉鎖した準備状態から声道を一時的かつ急速に変形させることで発音される流音や鼻音等の音素が第2種別に区分される。
以上の各態様に係る音声合成装置は、音声合成に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)で実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働でも実現される。本発明のプログラム(例えばプログラムPGM)は、コンピュータを、相異なる音素に対応する複数の音素区間を含む音声素片を順次に選択する素片選択手段、素片選択手段が選択した音声素片の各音素区間について合成時間長を可変に設定する音素長設定手段、および、素片選択手段が選択した音声素片の各音素区間のうち音素長設定手段が設定した合成時間長の対象区間音声波形を相互に連結して音声信号を生成する音声合成手段として機能させる。以上のプログラムによれば、本発明の音声合成装置と同様の作用および効果が実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。
本発明の第1実施形態に係る音声合成装置のブロック図である。 記憶装置に格納された素片群の模式図である。 音声素片の模式図である。 音素分類および音素種別の関係を示す図表である。 第1種別の音素の説明図である。 第2種別の音素の説明図である。 音声素片の選択および合成時間長の設定の説明図である。 対象区間の単位データを抽出する処理のフローチャートである。 対象区間を選定する動作の説明図である。 音声素片を連結する動作の具体例の説明図である。
図1は、本発明のひとつの実施形態に係る音声合成装置100のブロック図である。音声合成装置100は、発話音や歌唱音等の音声を素片接続型の音声合成処理で生成する信号処理装置であり、図1に示すように、演算処理装置12と記憶装置14と放音装置16とを具備するコンピュータシステムで実現される。
演算処理装置12(CPU)は、記憶装置14に格納されたプログラムPGMの実行で、合成音の波形を表す音声信号VOUTを生成するための複数の機能(素片選択部22,音素長設定部24,音声合成部26)を実現する。なお、演算処理装置12の各機能を複数の集積回路に分散した構成や、専用の電子回路(DSP)が一部の機能を実現する構成も採用され得る。放音装置16(例えばヘッドホンやスピーカ)は、演算処理装置12が生成した音声信号VOUTに応じた音波を放射する。記憶装置14は、演算処理装置12が実行するプログラムPGMや演算処理装置12が使用する各種のデータ(素片群GA,合成情報GB)を記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置14として採用される。
記憶装置14に格納される素片群GAは、図2に示すように、複数の音声素片Vの各々に対応する音声素片データDAおよび音素分類データDBの集合(音声合成ライブラリ)である。図3に示すように、1個の音声素片Vは、相異なる音素に対応する2個の音素区間S(S1,S2)を連結したダイフォン(音素連鎖)である。音素区間S1は、音声素片Vの始点を含む時間長L1の区間であり、音素区間S2は、音声素片Vの終点を含む時間長L2の区間である。音素区間S2は音素区間S1に後続する。音素区間S1の時間長L1や音素区間S2の時間長L2は音声素片V毎に個別に決定される。なお、以下では便宜的に、無音を1個の音素として説明する。
図2の音声素片データDAは、音声素片Vの時間波形を指定するデータである。図2に示すように、1個の音声素片Vに対応する音声素片データDAは、その音声素片V(音素区間S1および音素区間S2)を時間軸上で区分した各フレームに対応する複数の単位データUの時系列で構成される。各単位データUは、1個のフレーム内の音声のスペクトルを規定する。例えば音声のスペクトルの形状の特徴を示す複数の変数(励起波形エンベロープ,胸部レゾナンス,声道レゾナンス,差分スペクトル)を含むEpR(Excitation plus Resonance)パラメータが単位データUとして好適である。なお、EpRパラメータについては例えば特許第3711880号公報に開示されている。また、周波数毎の強度(すなわちスペクトル)を示すスペクトルデータを単位データUとして採用することも可能である。図2に示すように、音声素片Vのうち音素区間S1に対応する複数の単位データUの時系列を音素区間データQ1と表記し、音声素片Vのうち音素区間S2に対応する複数の単位データUの時系列を音素区間データQ2と表記する。
図2の音素分類データDBは、音声素片Vのうち音素区間S1および音素区間S2の各々に対応する音素の分類を指定する。音素分類データDBが示す音素分類は、音素の調音方法に応じた分類である。例えば、日本語の音素を想定すると、図4に示すように、母音(/a/,/i/,/u/),半母音(/w/),摩擦音(/s/,/f/),流音(/r/),鼻音(/m/,/n/),破裂音(/t/,/k/,/p/),破擦音(/ts/)等の音素分類を音素分類データDBは指定する。ただし、音声素片Vが示す音声の言語は日本語に限定されない。
図4に示すように、各音素分類に属する音素は、調音方法に応じて第1種別C1と第2種別C2とに区分される。第1種別C1の音素は、発音が時間的に持続され難い音素であり、典型的には、声道が完全に閉鎖された初期的な準備状態から声道を一時的かつ急速に変形させることで発音される。具体的には、音素分類データDBが示す複数の音素分類のうち、破裂音および破擦音等が第1種別C1に区分される。他方、第2種別C2の音素は、発音が持続され得る音素である。具体的には、音素分類データDBが示す複数の音素分類のうち、声道の形状が定常的に維持された状態で発音される母音,半母音および摩擦音等の音素と、口腔の一部や鼻腔を介した通気により発音を維持したまま声道を部分的に閉鎖した準備状態から声道を一時的かつ急速に変形させることで発音される流音や鼻音等の音素とが、第2種別C2に区分される。
1個の音声素片Vの音素区間S1および音素区間S2の各々は、第1種別C1および第2種別C2の何れかの音素に対応する。例えば図5の部分(A)には、音素区間S1が第1種別C1の音素(破裂音/t/)に対応する音声素片Vが例示され、図5の部分(B)には、音素区間S2が第1種別C1の音素に対応する音声素片Vが例示されている。なお、図5の部分(A)の音素区間S2および図5の部分(B)の音素区間S1の音素は任意である。また、図6の部分(A)には、音素区間S1が第2種別C2の音素(母音/a/)に対応する音声素片Vが例示され、図6の部分(B)には、音素区間S2が第2種別C2の音素に対応する音声素片Vが例示されている。図6の部分(A)の音素区間S2および図6の部分(B)の音素区間S1の音素は任意である。なお、図5および図6では、音声素片Vの各音素の波形の一例が便宜的に図示されているが、実際の各音素の波形は前後の音素に応じて多様に変化する。
図5の部分(C)に示すように、第1種別C1の音素(例えば破裂音/t/)は、時間軸上で前方部pAと後方部pBとに区分される。前方部pAは、その音素の直前に発音された他の音素が減衰していく余韻過程pA1と、実際に音素(破裂音/t/)が発音される直前の準備過程pA2とを含む。準備過程pA2は、音素の発音が可能な状態に声道を準備する過程(例えば声道を舌で閉鎖または収縮する過程)である。なお、余韻過程pA1が存在しない場合もある。他方、後方部pBは、準備過程pA2から声道を一時的かつ急速に変形させることで音素が実際に発音される過程(例えば準備過程pA2で声道の上流側に圧縮された空気を一気に解放する過程)である。
図5の部分(A)に示すように、音声素片Vのうち第1種別C1の音素に対応する音素区間S1は、その音素の後方部pBを含む。他方、図5の部分(B)に示すように、音声素片Vのうち第1種別C1の音素に対応する音素区間S2は、その音素の前方部pAを含む。すなわち、図5の部分(B)に例示された音声素片Vの末尾側の音素区間S2に図5の部分(A)の音素区間S1を後続させることで第1種別C1の音素(破裂音/t/)が再現される。
他方、図6の部分(C)に示すように、第2種別C2の音素(例えば母音/a/)は、前方部qAと後方部qBとを含む。前方部qAは、直前の他の音素からその音素に変化していく過程(例えば口を開けていく過程)であり、後方部qBは、その音素が後続の他の音素に変化していく過程(例えば口を閉じていく過程)である。なお、第2種別C2の音素のうち流音/r/や鼻音/m/等の音素については、声道が部分的に閉鎖された準備状態から声道を一時的かつ急速に変形させる過程(例えば舌先で上顎を弾く過程)が前方部qAの始点側に含まれる。
図6の部分(A)に示すように、音声素片Vのうち第2種別C2の音素に対応する音素区間S1は、その音素の後方部qBを含む。他方、図6の部分(B)に示すように、音声素片Vのうち第2種別C2の音素に対応する音素区間S2は、その音素の前方部qAを含む。特定の発声者による発声音から以上の条件を満たすように各音声素片Vが抽出されて各音素区間Sが画定されたうえで音声素片V毎の音声素片データDA(音素区間データQ1および音素区間データQ2)が作成される。
図1に示すように、記憶装置14には、合成音を時系列に指定する合成情報(スコアデータ)GBが記憶される。合成情報GBは、合成音の発音文字X1と発音期間X2とピッチX3とを例えば音符毎に時系列に指定する。発音文字X1は、例えば歌唱音を合成する場合の歌詞の文字列であり、発音期間X2は、例えば発音の開始時刻と継続長とで指定される。合成情報GBは、例えば各種の入力機器に対する利用者からの指示に応じて生成されて記憶装置14に格納される。なお、他の通信端末から通信網を介して受信された合成情報GBや可搬型の記録媒体から転送された合成情報GBを音声信号VOUTの生成に使用することも可能である。
図1の素片選択部22は、合成情報GBが時系列に指定する各発音文字X1に対応する音声素片Vを素片群GAから順次に選択する。例えば図7に示すように、「go straight」という発音文字X1が指定された場合、素片選択部22は、[Sil-gh],[gh-@U],[@U-s],[s-t],[t-r],[r-eI],[eI-t],[t-Sil]という音声素片Vを選択する。なお、各音素の記号は、SAMPA(Speech Assessment Methods Phonetic Alphabet)に準拠している。なお、記号「Sil」は無音(Silence)を意味する。
図1の音素長設定部24は、素片選択部22が順次に選択する音声素片Vの各音素区間S(S1,S2)について、音声信号VOUTの合成に適用される場合の時間長(以下「合成時間長」という)Tを可変に設定する。各音素区間Sの合成時間長Tは、合成情報GBが時系列に指定する発音期間X2に応じて選定される。具体的には、音素長設定部24は、図7に示すように、発音文字X1を構成する主要な母音の音素(図7の斜体字の音素)の始点がその発音文字X1の発音期間X2の始点に合致し、かつ、相前後する音素区間Sが時間軸上に隙間なく配列するように、各音素区間Sの合成時間長T(T(Sil),T(gh),T(@U),……)を設定する。
図1の音声合成部26は、素片選択部22が順次に選択する音声素片Vを相互に連結することで音声信号VOUTを生成する。具体的には、音声合成部26は、素片選択部22が選択した音声素片Vの各音素区間S(S1,S2)の音素区間データQ(Q1,Q2)から、その音素区間Sについて音素長設定部24が設定した合成時間長Tにわたる単位データUの時系列を生成し、各単位データUが示すスペクトルを時間波形に変換したうえで相互に連結するとともに合成情報GBのピッチX3に調整することで音声信号VOUTを生成する。
例えば、各音素区間Sについて設定された合成時間長Tがその音素区間Sの初期的な時間長L(L1,L2)と比較して長い場合(すなわち音声素片Vの収録時と比較して発音速度を低下させる場合)、その音素区間Sに対応する音素区間データQが合成時間長Tに伸長されたうえで音声信号VOUTの生成に適用される。音素区間データQの伸長には公知の方法(例えば合成時間長T内の各時点の単位データUを周囲の単位データUから補間する方法)が任意に採用される。
他方、各音素区間Sについて設定された合成時間長Tがその音素区間Sの初期的な時間長L(L1,L2)と比較して短い場合(すなわち音声素片Vの収録時と比較して発音速度を上昇させる場合)、素片選択部22が選択した音声素片Vの各音素区間S(S1,S2)のうち音素長設定部24がその音素区間Sに設定した合成時間長Tの区間(以下「対象区間」という)Wについて音声素片データDAが示す音声を相互に連結することで音声信号VOUTが生成される。具体的には、音声合成部26は、各音素区間Sの音素区間データQ(Q1,Q2)から合成時間長Tにわたる対象区間W内の単位データUの時系列を抽出し、各単位データUから特定される時間波形を相互に連結することで音声信号VOUTを生成する。すなわち、音素区間データQのうち合成時間長Tにわたる対象区間W内の単位データUの時系列が内容や順番が変更されることなく抽出されて音声信号VOUTの生成に利用される。
図8は、発音速度を上昇させる場合に音声合成部26が音素区間データQから対象区間W内の単位データUを抽出する動作のフローチャートである。図8の処理は、音素長設定部24により設定された合成時間長Tが初期的な時間長L(L1,L2)を下回る音素区間S毎に順次に実行される。
図8の処理を開始すると、音声合成部26は、処理対象となる1個の音素区間(以下「注目音素区間」という)Sが音声素片Vの先頭側の音素区間S1に該当するか否かを判定する(SA1)。処理SA1の判定結果が肯定である場合、音声合成部26は、注目音素区間Sの音素が第1種別C1に属するか否かを判定する(SA2)。具体的には、注目音素区間Sに対応する音素分類データDBで指定される音素分類が、第1種別C1に属する所定の分類(破裂音,破擦音等)に該当するか否かに応じて、音声合成部26は処理SA2の判定を実行する。
図5の部分(A)を参照して説明した通り、音声素片Vのうち第1種別C1の音素に対応する音素区間S1にはその音素の後方部pBが含まれる。第1種別C1の音素の後方部pBのうち音素の発音が実際に発音される時点を含む前方の区間は、その音素の特徴が受聴者に顕著に認識される区間(すなわち受聴者が音素を識別するうえで重要な区間)である。そこで、注目音素区間Sが音声素片Vの先頭の音素区間S1であり(SA1:YES)、かつ、第1種別C1の音素に対応する場合(SA2:YES)、音声合成部26は、図9の部分(A)に示すように、注目音素区間S(後方部pB)のうちの前方の区間を優先的に対象区間Wとして選定する(SA3)。具体的には、注目音素区間Sの始点を起点として後方の合成時間長Tにわたる区間が対象区間Wとして選定される。
また、図6の部分(A)を参照して説明した通り、音声素片Vのうち第2種別C2の音素に対応する音素区間S1にはその音素の後方部qBが含まれる。第2種別C2の音素の後方部qBのうち直後の音素の影響が顕著となる後方の区間は、受聴者が音素の遷移を知覚するうえで特に重要な区間である。そこで、注目音素区間Sが音声素片Vの先頭の音素区間S1であり(SA1:YES)、かつ、第2種別C2の音素に対応する場合(SA2:NO)、音声合成部26は、図9の部分(B)に示すように、注目音素区間S(後方部qB)のうちの後方の区間を優先的に対象区間Wとして選定する(SA4)。具体的には、注目音素区間Sの終点を起点として前方(手前側)の合計時間長Tにわたる区間が対象区間Wとして選定される。
他方、注目音素区間Sが音声素片Vの末尾の音素区間S2に該当する場合(SA1:NO)、音声合成部26は、以下に詳述する通り、注目音素区間Sの音素種別(C1,C2)に関わらず、その注目音素区間Sのうちの前方の区間を優先的に対象区間Wとして選定する(SA3)。
図5の部分(B)を参照して説明した通り、音声素片Vのうち第1種別C1の音素に対応する音素区間S2にはその音素の前方部pAが含まれる。第1種別C1の音素の前方部pAのうち後方に位置する準備過程pA2は、大部分が無音であり、受聴者による音素の識別には殆ど影響しない。そこで、注目音素区間Sが音声素片Vの末尾の音素区間S2であり(SA1:NO)、かつ、第1種別C1の音素に対応する場合、音声合成部26は、図9の部分(C)に示すように、注目音素区間S(前方部pA)のうち始点を起点として後方の合成時間長Tにわたる区間を対象区間Wとして選定する(SA3)。すなわち、第1種別C1の音素のうち直前の音素の影響が顕著となる余韻過程pA1は優先的に対象区間Wに包含される。
また、図6の部分(B)を参照して説明した通り、音声素片Vのうち第2種別C2の音素に対応する音素区間S2にはその音素の前方部qAが含まれる。第2種別C2の音素のうち母音や半母音や摩擦音等の音素の前方部qAのなかでは、直前の音素の影響が顕著となる前方の区間が、音素の遷移を聴覚的に識別するうえで特に重要である。また、第2種別C2の音素のうち流音や鼻音等の音素の前方部qAのなかでは、準備状態から声道が変形する過程を含む前方の区間が聴覚的な識別のうえで特に重要である。以上の傾向を考慮して、注目音素区間Sが音声素片Vの末尾の音素区間S2であり(SA1:NO)、かつ、第2種別C2の音素に対応する場合、音声合成部26は、図9の部分(D)に示すように、注目音素区間S(前方部qA)のうち始点を起点として後方の合成時間長Tにわたる区間を対象区間Wとして選定する(SA3)。
以上の手順で注目音素区間Sの対象区間Wを選定すると、音声合成部26は、注目音素区間Sの音素区間データQ(Q1,Q2)から対象区間W内の単位データUの時系列を抽出する(SA5)。前述の通り、処理SA5で抽出された各単位データUが音声信号VOUTの生成に適用される。他方、注目音素区間Sの音素区間データQのうち対象区間Wの外側の各単位データUは、音声信号VOUTの生成に使用されることなく破棄される。
図10は、図9の処理で音素区間Sの対象区間W毎に抽出された単位データUから音声信号VOUTを生成する動作の説明図である。「saka」という発音文字X1に対応する3個の音声素片V([s-a],[a-k],[k-a])を素片選択部22が選択した場合が図10では例示されている。
図10に示すように、第1番目の音声素片V[s-a]のうち第2種別C2の音素/a/に対応する末尾の音素区間S2については(SA1:NO)、その音素区間S2の始点を含む合成時間長T(a1)の対象区間Wが選定される(SA3)。また、第2番目の音声素片V[a-k]のうち第2種別C2の音素/a/に対応する先頭の音素区間S1(SA1:YES,SA2:NO)についてはその音素区間S1の終点を含む合成時間長T(a2)の対象区間Wが選定され(SA4)、音声素片V[a-k]のうち第1種別C1の音素/k/に対応する末尾の音素区間S2(SA1:NO)については、その音素区間S2の始点を含む合成時間長T(k1)の対象区間Wが選定される(SA3)。第3番目の音声素片V[k-a]のうち第1種別C1の音素/k/に対応する先頭の音素区間S1(SA1:YES,SA2:YES)については、その音素区間S1の始点を含む合成時間長T(k2)の対象区間Wが選定される(SA3)。以上のように選定された対象区間W内の各単位データUが時間軸上で相互に直接的に連結されることで音声信号VOUTが生成される。
以上に説明したように、本実施形態では、音素区間Sの音素区間データQのうち対象区間W内の単位データが抽出されて音声信号VOUTの生成に利用され、対象区間W以外の単位データは音声信号VOUTの生成に利用されずに削除される。音声信号VOUTの生成に利用される各単位データUの内容や配列は抽出元の音素区間データQの単位データUと同様であるから、本実施形態によれば、合成情報GBで高い発音速度が指定された場合でも自然な音声を合成することが可能である。具体的には、実際の発音時に人間が口を変形させ得る速度を上回る速度で発音されたような音声や、発音速度が高いにも関わらず発音毎に口を完全に開いたような音声が生成される可能性を低減して、自然な音声を合成することができる。
また、本実施形態では、音声素片Vの音素区間S毎に対象区間Wが選定されるから、例えば音声素片Vの全体のうち例えば始点から後方の所定長にわたる区間を合成に適用する構成や、音声素片Vの全体のうち例えば終点から前方の所定長にわたる区間を合成に適用する構成と比較すると、各音素のなかで重要な区間(例えば受聴者が音素を識別するうえで重要な区間)を音素区間S毎に個別に選定して自然な音声を合成できるという利点がある。
例えば本実施形態では、音声素片Vの先頭に位置するとともに第1種別C1の音素に対応する音素区間S1(後方部pB)については、図9の部分(A)のように、その音素が実際に発音される時点を含む先頭側の区間が対象区間Wとして選定される。他方、音声素片Vの末尾に位置するとともに第1種別C1の音素に対応する音素区間S2(前方部pA)については、図9の部分(C)のように、準備過程pA2の部分的な削除で対象区間Wが選定される。したがって、第1種別C1の音素のうち受聴者がその音素を認識するうえで重要な箇所を維持しながら各音声素片Vを短縮できるという利点がある。
第2種別C2の音素についても同様であり、音素区間S1(後方部qB)については図9の部分(B)のように末尾側の区間が対象区間Wとして選定され、音素区間S2(前方部qA)については図9の部分(D)のように先頭側の区間が対象区間Wとして選定される。したがって、第2種別C2の音素のうち受聴者がその音素を認識するうえで重要な箇所を維持しながら各音声素片Vを短縮できるという利点がある。
<変形例>
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様を適宜に併合することも可能である。
(1)前述の実施形態では、注目音素区間Sが音素区間S1に該当するか否かの判定(SA1)と、注目音素区間Sが第1種別C1の音素に対応するか否かの判定(SA2)との結果に応じて、注目音素区間Sにおける対象区間Wの位置(先頭側/末尾側)を決定したが、音素区間Sの先頭側の区間および末尾側の区間の何れを対象区間Wとして選定すべきかを示す情報を音声素片データDAに付加し、この情報に基づいて対象区間Wの位置(先頭側/末尾側)を決定することも可能である。
(2)音声素片データDAの形式は任意である。例えば、前述の実施形態では、音声素片Vの各フレームのスペクトルを示す単位データUの時系列を音声素片データDAとして使用したが、例えば音声素片Vの時間軸上のサンプル系列を音声素片データDAとして使用することも可能である。音声素片Vのサンプル系列を音声素片データDAとした場合、音声素片データDAのうち対象区間W内の各サンプルが音声信号VOUTの生成に適用され、残余のサンプルは破棄される。
(3)各音素区間Sの合成時間長Tを設定する方法は適宜に変更される。例えば、合成時間長Tの設定に適用する伸縮率(伸縮前の各音素区間Sの時間長Lに対する倍率)を母音の音素と子音の音素とで相違させることも可能である。例えば、母音の音素の伸縮率が子音の音素の伸縮率よりも高い数値に設定される。また、第1種別C1の音素のうち前方部pAに対応する音素区間S2と後方部pBに対応する音素区間S1とで伸縮率を相違させた構成も好適である。具体的には、前方部pAに対応する音素区間S2の伸縮率が後方部pBに対応する音素区間S1の伸縮率よりも高い数値(より大きく伸縮させる数値)に設定される。
(4)以上の説明ではダイフォンを例示したが、音声素片を構成する音素(音素区間S)の個数は任意である。例えば3個の音素区間Sを含むトライフォンを音声素片として利用する構成でも、前述の実施形態と同様に、素片選択部22が選択した音声素片の3個の音素区間Sの各々について、音素の種別(C1/C2)に応じた位置に対象区間Wを選定することが可能である。なお、2個のダイフォンを連結して1個のトライフォンを構成する場合(例えば2個のダイフォン[a-s]および[s-e]の連結で1個のトライフォン[a-s-e]を形成する場合)、前方のダイフォンの2個の音素区間Sと後方のダイフォンの2個の音素区間Sとの合計4個の音素区間Sが1個のトライフォンに含まれる。
100……音声合成装置、12……演算処理装置、14……記憶装置、16……放音装置、22……素片選択部、24……音素長設定部、26……音声合成部。

Claims (2)

  1. 相異なる音素に対応する複数の音素区間を含む音声素片を順次に選択する素片選択手段と、
    前記素片選択手段が選択した音声素片の各音素区間について合成時間長を可変に設定する音素長設定手段と、
    前記素片選択手段が選択した音声素片の各音素区間のうち前記音素長設定手段が設定した合成時間長の対象区間の音声波形を相互に連結して音声信号を生成する音声合成手段とを具備し、
    音声素片の先頭に位置するとともに声道の閉鎖後の一時的な変形により発音される第1種別の音素に対応する音素区間は、前記第1種別の音素が発音される過程を含み、音声素片の末尾に位置するとともに前記第1種別の音素に対応する音素区間は、当該音素の直前の音素が減衰する余韻過程と、当該余韻過程に後続する過程であって前記第1種別の音素が発音される直前の準備過程を含み、
    前記音声合成手段は、音声素片の先頭の音素区間が前記第1種別の音素に対応する場合に、その音素区間のうち始点から後方の前記合成時間長にわたる区間を前記対象区間として選定し、音声素片の末尾の音素区間が前記第1種別の音素に対応する場合に、その音素区間のうち始点から後方の前記合成時間長にわたる区間であって前記余韻過程を含む区間を前記対象区間として選定する
    音声合成装置。
  2. コンピュータを、
    相異なる音素に対応する複数の音素区間を含む音声素片を順次に選択する素片選択手段、
    前記素片選択手段が選択した音声素片の各音素区間について合成時間長を可変に設定する音素長設定手段、および、
    前記素片選択手段が選択した音声素片の各音素区間のうち前記音素長設定手段が設定した合成時間長の対象区間の音声波形を相互に連結して音声信号を生成する音声合成手段
    として機能させるプログラムであって、
    音声素片の先頭に位置するとともに声道の閉鎖後の一時的な変形により発音される第1種別の音素に対応する音素区間は、前記第1種別の音素が発音される過程を含み、音声素片の末尾に位置するとともに前記第1種別の音素に対応する音素区間は、当該音素の直前の音素が減衰する余韻過程と、当該余韻過程に後続する過程であって前記第1種別の音素が発音される直前の準備過程を含み、
    前記音声合成手段は、音声素片の先頭の音素区間が前記第1種別の音素に対応する場合に、その音素区間のうち始点から後方の前記合成時間長にわたる区間を前記対象区間として選定し、音声素片の末尾の音素区間が前記第1種別の音素に対応する場合に、その音素区間のうち始点から後方の前記合成時間長にわたる区間であって前記余韻過程を含む区間を前記対象区間として選定する
    プログラム。
JP2011127123A 2011-06-07 2011-06-07 音声合成装置およびプログラム Expired - Fee Related JP5914996B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011127123A JP5914996B2 (ja) 2011-06-07 2011-06-07 音声合成装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011127123A JP5914996B2 (ja) 2011-06-07 2011-06-07 音声合成装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2012252303A JP2012252303A (ja) 2012-12-20
JP5914996B2 true JP5914996B2 (ja) 2016-05-11

Family

ID=47525144

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011127123A Expired - Fee Related JP5914996B2 (ja) 2011-06-07 2011-06-07 音声合成装置およびプログラム

Country Status (1)

Country Link
JP (1) JP5914996B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112420015A (zh) * 2020-11-18 2021-02-26 腾讯音乐娱乐科技(深圳)有限公司 一种音频合成方法、装置、设备及计算机可读存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63199399A (ja) * 1987-02-16 1988-08-17 キヤノン株式会社 音声合成装置
JP3086333B2 (ja) * 1992-07-06 2000-09-11 富士通株式会社 音声合成装置及び音声合成方法
JPH08166798A (ja) * 1994-12-15 1996-06-25 Fujitsu Ltd 音素辞書作成装置および方法
DE19610019C2 (de) * 1996-03-14 1999-10-28 Data Software Gmbh G Digitales Sprachsyntheseverfahren
JP4265501B2 (ja) * 2004-07-15 2009-05-20 ヤマハ株式会社 音声合成装置およびプログラム
JP4241762B2 (ja) * 2006-05-18 2009-03-18 株式会社東芝 音声合成装置、その方法、及びプログラム
JP5029168B2 (ja) * 2007-06-25 2012-09-19 富士通株式会社 音声読み上げのための装置、プログラム及び方法

Also Published As

Publication number Publication date
JP2012252303A (ja) 2012-12-20

Similar Documents

Publication Publication Date Title
JP3361066B2 (ja) 音声合成方法および装置
JP4265501B2 (ja) 音声合成装置およびプログラム
JP6047922B2 (ja) 音声合成装置および音声合成方法
JP5648347B2 (ja) 音声合成装置
JP5914996B2 (ja) 音声合成装置およびプログラム
JP6413220B2 (ja) 合成情報管理装置
JP5360489B2 (ja) 音素符号変換装置および音声合成装置
JP5935545B2 (ja) 音声合成装置
JPH0247700A (ja) 音声合成方法および装置
US7912708B2 (en) Method for controlling duration in speech synthesis
JP5560769B2 (ja) 音素符号変換装置および音声合成装置
JP5471138B2 (ja) 音素符号変換装置および音声合成装置
JP2987089B2 (ja) 音声素片作成方法および音声合成方法とその装置
JP6047952B2 (ja) 音声合成装置および音声合成方法
JP5982942B2 (ja) 音声合成装置
JP6331470B2 (ja) ブレス音設定装置およびブレス音設定方法
JP6435791B2 (ja) 表示制御装置および表示制御方法
JPH07152396A (ja) 音声合成装置
JP2013238664A (ja) 音声素片切出装置
JP5481958B2 (ja) 音素符号変換装置および音声合成装置
JP5481957B2 (ja) 音声合成装置
JP2004294795A (ja) 楽音合成制御データ、該データを記録した記録媒体、データ作成装置、プログラム及び楽音合成装置
JP2011100055A (ja) 音声合成装置
JP2015079063A (ja) 合成情報管理装置
JPH03296100A (ja) 音声合成装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140421

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141218

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150113

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150305

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20150410

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150901

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151021

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160308

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160321

R151 Written notification of patent or utility model registration

Ref document number: 5914996

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees