JP5574344B2 - 1モデル音声認識合成に基づく音声合成装置、音声合成方法および音声合成プログラム - Google Patents

1モデル音声認識合成に基づく音声合成装置、音声合成方法および音声合成プログラム Download PDF

Info

Publication number
JP5574344B2
JP5574344B2 JP2011503812A JP2011503812A JP5574344B2 JP 5574344 B2 JP5574344 B2 JP 5574344B2 JP 2011503812 A JP2011503812 A JP 2011503812A JP 2011503812 A JP2011503812 A JP 2011503812A JP 5574344 B2 JP5574344 B2 JP 5574344B2
Authority
JP
Japan
Prior art keywords
speech
unit
articulation
feature
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011503812A
Other languages
English (en)
Other versions
JPWO2010104040A1 (ja
Inventor
恒雄 新田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyohashi University of Technology NUC
Original Assignee
Toyohashi University of Technology NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyohashi University of Technology NUC filed Critical Toyohashi University of Technology NUC
Priority to JP2011503812A priority Critical patent/JP5574344B2/ja
Publication of JPWO2010104040A1 publication Critical patent/JPWO2010104040A1/ja
Application granted granted Critical
Publication of JP5574344B2 publication Critical patent/JP5574344B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrically Operated Instructional Devices (AREA)

Description

本発明は、1モデル音声認識合成に基づく音声合成装置、1モデル音声認識合成に基づく音声合成方法および1モデル音声認識合成に基づく音声合成プログラムに関する。より詳細には、音声発話から調音特徴を抽出し、音声認識に供することのできる調音運動に係る状態遷移モデルを構築するとともに、同じ調音運動の状態遷移モデルを用いて音声を合成する1モデル音声認識合成に基づく音声合成装置、音声合成方法および音声合成プログラムに関する。なお、1モデルとは、音声認識と音声合成の双方に共通の(すなわち1つの)状態遷移モデルを使用することを意味する。
音声入出力を用いたユーザインタフェースとして音声認識技術と音声合成技術の二つが知られている。音声認識技術では、周波数スペクトルなどの特徴分析処理結果をもとに、音素・音節・単語などを認識単位とするパターン認識処理を行うことが一般に行われてきた。これは、人間の聴覚神経系がスペクトル分析能力を持ち、スペクトル時系列に対して大脳で高次言語処理が行われるという推測に基づいている。これまでに開発された音声認識装置は、スペクトル時系列からなる音響特徴を基に単語もしくは単語列の分類を行うものであった。
次に音声合成技術では、主に波形接続方式とボコーダ方式が利用されている。波形接続方式は、音素等を単位とする波形素片を基にこれらを接続して音声を生成する。またボコーダ方式は、人間の音声生成における調音運動を模擬した方式であり、発声器官の動作情報と声帯振動などの音源情報を分離して利用する。具体的には、音声から発声器官の動きすなわち調音運動を反映するパラメータをPARCOR分析等により抽出し、これらのスペクトル包絡情報からなる素片を接続するとともに、励振源にピッチパルスもしくは雑音系列を加えて音声を生成する。
このように、現在の音声認識および音声合成は異なる二つのシステムとして実現されている。これに対して近年の脳研究から、人間は音響信号としての音声ではなく、調音運動としての音声を知覚しているとする仮説が有力視されつつある(非特許文献1参照)。
人間の脳における音声言語の処理に関しては、まず発話の際に調音器官の筋肉の動きを支配するブローカ野が深く関わることが1861年にフランスのP.P.Brocaによって発見された。この部分が損傷すると、発話の流暢性が失われるブローカ失語(運動失語)が観測されるため、主に音声生成システムを担うと考えられた。続いて、発話内容の理解に関わるウェルニッケ野が、1884年にドイツのC.Wernickeによって発見された。この部分の疾患では、流暢ではあるが誤りだらけの文を発話するウェルニッケ失語(感覚失語)が観測されるため、主に音声理解システムに関わる部位と考えられた。このように人間の場合には、発話器官と聴覚器官の二つが存在し、さらに上記したように二つの脳部位の異なる働きが観測されたこともあり、2−system説が優勢とされた。先に説明した音声合成におけるボコーダも、1928年にH.Dudleyが最初に装置化した際には、脳からの調音指令を図に示し、発声器官の動きを帯域フィルター群で抽出し、同時に音源を抽出して伝送する装置を真空管回路で実現している。このボコーダの考えは、その後、1969年にF.ItakuraとB.Atalによって線形予測符号化(Linear Predictive Coding:LPC)として完成され、現在の音声通信の基礎となっている。
その後、1976年にH.McGurkによりマクガーク効果が発見された。これは、例えば画面上に/ga/と発話している映像を表示し、同時にスピーカから/ba/という音声を呈示すると、/da/もしくは/ga/と判断したという実験で、人間の音声発話と理解が脳では調音運動を担う1−systemによって処理されているという説を支持するものであった。人間の音声生成と理解は1−systemか2−systemかという論争は、その後も長く続いたが、近年になってfMRI等により脳研究が大きく進展し、現在までの知見によると、音声の発話と理解にはブローカ野とウェルニッケ野の連携を含む大域的な処理機構が関係しているとされ、1−system説が優勢になっている。近年は、調音運動に関する指令を正確に抽出する研究が音声認識の分野で盛んな一方、調音指令からの音声合成に関してfMRI等による観測が行われている段階である。
このように、1−system説が有力になりつつあるが、こうしたシステムを実用化する上で障害が多々ある。実現に最も近いシステムとして、隠れマルコフモデル(Hidden Markov Model;以下、HMMと記述する場合がある)合成がある(非特許文献2参照)。
この方式は、音声認識で現在標準的に用いられているHMMを応用するもので、システムの動作を図1に示す。図に記載のないHMMの学習部は、スペクトルパラメータ列(ここではメルケプストラム(Mel Frequency Cepstrum Coefficient;以下、MFCCと記述する場合がある)を使用)およびピッチパラメータを多空間上の確立分布に基づいたHMMによってBaum−Welchアルゴリズムを用いて学習する。その際、特定話者のスペクトラム列を表現したHMM101に対して、これを連続学習する際に得られるトレリスなどから状態継続長分布を構成する。合成部では、テキストが入力され、テキスト解析によって韻律情報を付与した後、状態継続長分布を元にHMMの各状態を連続し、得られるスペクトルおよびピッチから生成される励振波形をMLSA(Mel Log:メル対数)合成フィルタ102に通して合成音声波形を得る。
一方、人間は幼児の時から、親の音声波形という極少ない人間の声のみを聴取することで、その他、不特定多数の人間の音声を聞き取ることができる。この事実は、人間の脳が音声を調音運動という不変的な特徴パターンに変換して聴いていることを示唆する。
柏野牧夫、音声知覚の運動理論をめぐって、日本音響学会誌、Vol.62,No.5,pp.391−396(2006年(平成18年)) 徳田恵一、隠れマルコフモデルの音声合成への応用、電子情報通信学会技術研究報告、SP99−61,No.255,pp.47−54(2008年(平成20年)) 福田隆、新田恒雄、"OrthogonalizedDistinctive Phonetic Feature Extraction for Noise-robust Automatic Speech Recognition"、電子情報通信学会英文論文誌、Vol.E87−D,No.5,pp.1110−1118(2004年(平成16年) M.R.Schroeder、B.S.Atal、Code-Excited Linear Prediction(CELP) : High-quality speech at very low bit rates、Proc.ICASSP’85,25−1−1,pp.937−940(1985) F.J.Charpentier、M.G.Stella、"Diphone synthesis using an overlap-add Technique for speech waveforms concatenation"、Proc.IEEE-ICASSP’83,pp.1328−1311(1986) 板橋秀一編、音声工学、森北出版(1973年(平成48年))pp.6−10(2.1.1.音声・音素・音節(表2.2 日本語の弁別素性) 坂和正敏、田中雅博、ニューロコンピューティング入門、森北出版(1997年(平成9年))
上記非特許文献2に開示される方式は、特定話者の音声スペクトル情報から作成した特定話者HMMで合成部を構成するため、高品質音声を実現するには、特定話者の多大な音声データを必要とするという欠点がある。また、このHMMを音声認識で利用する場合、特定話者の音声で設計したHMMのため、その話者以外の多数話者に対して低い音声認識結果しか得られないものであった。
本発明は、上記の問題点を解消するためになされたものであり、不特定話者に対する高い音声認識性能と特定個人に対する明瞭な音声合成という、これまでの方式では相反する機能を実現する1モデル音声認識合成に基づく音声合成装置、音声合成方法および音声合成プログラムを提供することを目的とする。
上述の問題点を解決するために、請求項1に係る発明の音声合成装置では、調音特徴を調音運動の状態遷移モデルとして予め記憶する音素単位調音運動記憶部と、前記状態遷移モデルを参照しつつ音声認識を行う音声認識部と、前記状態遷移モデルから最適調音系列を取得しつつ音声合成を行う音声合成部とを備えた1モデル音声認識合成に基づく音声合成装置であって、前記状態遷移モデルは、音素ごとの弁別的特徴の有無によって把握される弁別的音素特徴について発声器官の動作に基づく調音特徴を話者不変量として入力特徴とする調音運動の状態遷移モデルであり、音声認識部は、特定話者の音声を取得する音声取得手段と、前記音声取得手段にて取得された音声の調音特徴を抽出する調音特徴抽出手段と、前記調音特徴抽出手段にて抽出された調音特徴を記憶手段に記憶する第1の記憶制御手段と、前記調音特徴の記憶手段から読み出された調音特徴時系列データと前記状態遷移モデルとを比較し、特定話者の音声に対する最適音声単位系列を識別する最適音声単位系列識別手段を含み、前記調音特徴抽出手段は、音声のデジタル信号を周波数分析する分析フィルタと、分析フィルタが出力する時間−周波数特徴系列から、弁別的音素特徴を抽出する弁別的音素特徴抽出部とを備え、音声合成部は、前記最適音声単位系列から話者不変量とみなすことができる前記状態遷移モデルを参照しつつ特定話者に固有の調音運動に関する最適状態系列を推定し調音特徴系列を生成する最適調音特徴系列生成手段と、前記最適調音特徴系列生成手段にて生成された最適調音特徴系列データを記憶手段に記憶する第2の記憶制御手段と、前記最適調音特徴系列データの記憶手段から読み出された調音特徴系列データを音声合成パラメータ系列に変換する音声合成パラメータ系列変換手段と、前記音声合成パラメータ系列変換手段にて変換された音声合成パラメータ系列を記憶手段に記憶する第3の記憶制御手段と、前記音声合成パラメータ系列の記憶手段から読み出された音声合成パラメータと駆動音源信号から音声を合成する手段とを含むことを特徴としている。
ここで、弁別的音素特徴とは、調音特徴の表現方法の一つであり、調音特徴としては、子音と母音とに分け、子音のうちの調音位置および調音方法で分類される。例えば、音素/b/と/p/では「有声/無声」という調音方法の区別が、また、音素/b/と/d/では「口唇/歯茎」という調音位置の区別が弁別的特徴に当たる。なお、調音位置とは、唇、歯茎、硬口蓋、軟口蓋、声門などがあり、調音方法とは、破裂、摩擦、破擦、弾音、鼻音、半母音などがある。
また、請求項2に係る発明の音声合成装置では、前記音素単位調音運動記憶部は、調音運動を表現した隠れマルコフモデル(HMM)の係数セットが記憶され、前記音声認識部の最適音声単位系列識別手段および前記音声合成部の最適調音特徴系列生成手段から参照可能であることを特徴としている。
また、請求項3に係る音声合成装置では、前記状態遷移モデルが、多数話者音声を用いて作成されるとともに、前記調音特徴系列データを音声合成パラメータ系列に変換する手段を、特定話者の音声のみ、もしくは不特定話者で作成した前記調音特徴系列データを音声合成パラメータ系列に変換する手段を、特定話者の音声で適応学習して作成されることを特徴としている。
また、請求項4に係る発明の音声合成装置では、前記音声合成パラメータと駆動音源信号から音声を合成する手段において、駆動音源符号帳を設けるとともに、音声合成パラメータと駆動音源符号から合成された音声を元の学習音声と比較して最適な駆動音源を選択する手段と、前記選択された駆動音源符号を対応する調音運動の状態遷移モデルに登録する手段を備えたことを特徴としている。
請求項5に係る発明の音声合成方法では、調音特徴を調音運動の状態遷移モデルとして予め記憶する音素単位調音運動記憶部と、前記状態遷移モデルを参照しつつ音声認識を行う音声認識部と、前記状態遷移モデルから最適調音系列を取得しつつ音声合成を行う音声合成部とを備えた1モデル音声認識合成に基づく音声合成方法であって、前記状態遷移モデルは、音素ごとの弁別的特徴の有無によって把握される弁別的音素特徴について発声器官の動作に基づく調音特徴を話者不変量として入力特徴とする調音運動の状態遷移モデルであり、音声認識部は、特定話者の音声を取得する音声取得ステップと、前記音声取得ステップにて取得された音声の調音特徴を抽出する調音特徴抽出ステップと、前記調音特徴抽出ステップにて抽出された調音特徴を記憶手段に記憶する第1の記憶制御ステップと、前記調音特徴の記憶手段から読み出された調音特徴時系列データと前記状態遷移モデルとを比較し、特定話者の音声に対する最適音声単位系列を識別する最適音声単位系列識別ステップを含み、前記調音特徴抽出ステップは、音声のデジタル信号を周波数分析する分析ステップと、分析結果の時間−周波数特徴系列から弁別的音素特徴を抽出する弁別的音素特徴抽出ステップとを備え、音声合成部は、前記最適音声単位系列から話者不変量とみなすことができる前記状態遷移モデルを参照しつつ特定話者に固有の調音運動に関する最適状態系列を推定し調音特徴系列を生成する最適調音特徴系列生成ステップと、前記最適調音特徴系列生成ステップにて生成された最適調音特徴系列データを記憶手段に記憶する第2の記憶制御ステップと、前記最適調音特徴系列データの記憶手段から読み出された調音特徴系列データを音声合成パラメータ系列に変換する音声合成パラメータ系列変換ステップと、前記音声合成パラメータ系列変換ステップにて変換された音声合成パラメータ系列を記憶手段に記憶する第3の記憶制御ステップと、前記音声合成パラメータ系列の記憶手段から読み出された音声合成パラメータと駆動音源信号から音声を合成するステップとを含むことを特徴としている。
ここで、弁別的音素特徴とは、調音特徴の表現方法の一つであり、調音特徴としては、子音と母音とに分け、子音のうちの調音位置および調音方法で分類される。例えば、音素/b/と/p/では「有声/無声」という調音方法の区別が、また、音素/b/と/d/では「口唇/歯茎」という調音位置の区別が弁別的特徴に当たる。なお、調音位置とは、唇、歯茎、硬口蓋、軟口蓋、声門などがあり、調音方法とは、破裂、摩擦、破擦、弾音、鼻音、半母音などがある。
また、請求項6に係る発明の音声合成方法では、前記音素単位調音運動記憶部は、調音運動を表現した隠れマルコフモデル(HMM)の係数セットが記憶され、前記音声認識部の最適音声単位系列識別ステップおよび前記音声合成部の最適調音特徴系列生成ステップにおいて参照可能であることを特徴としている。
また、請求項7に係る発明の音声合成方法では、前記状態遷移モデルが、多数話者音声を用いて作成されるとともに、前記調音特徴系列データを音声合成パラメータ系列に変換するステップを、特定話者の音声のみ、もしくは不特定話者で作成した前記調音特徴系列データを音声合成パラメータ系列に変換するステップを、特定話者の音声で適応学習して作成されることを特徴としている。
また、請求項8に係る発明の音声合成方法では、前記音声合成パラメータと駆動音源信号から音声を合成するステップにおいて、駆動音源符号帳を設けるとともに、音声合成パラメータと駆動音源符号から合成された音声を元の学習音声と比較して最適な駆動音源を選択するステップと、前記選択された駆動音源符号を対応する調音運動の状態遷移モデルに登録するステップを備えたことを特徴としている。
請求項9に係る発明の音声合成プログラムでは、請求項1ないし4のいずれかに記載の音声合成装置の各処理手段としてコンピュータを駆動させている。
また、請求項10に係る発明の音声合成プログラムでは、請求項5ないし8のいずれかに記載の音声合成方法の各処理ステップとしてコンピュータを駆動させている。
請求項1に係る発明の音声合成装置は、従来のHMM合成装置が使用していた特定話者の「スペクトルに基づく情報」と異なり、「調音運動に基づく情報」を抽出してHMM合成装置を構成する。このため、HMM合成の部分を調音運動という話者に対して基本的に不変なパラメータから構成するため、HMM部分に関して個々の話者の学習音声データが不要もしくは極少量で済むという利点がある。また、音声を生成するには、調音運動を特定話者の発話器官の運動に変換する必要があるが、この部分は少量の音声データで実現できる。すなわち、特定話者の音声は、調音運動の状態遷移モデルを話者不変量と見做して話者に共通なモデルで表現するとともに、特定話者の発音器官に依存する部分を音声合成パラメータ系列変換時に限定して処理すればよいため、両者を分離して把握することができる。このように、音声合成を、話者不変量と見做すことのできる発話器官への調音動作指令部分(調音運動の状態遷移モデルおよび音素単位調音運動記憶部)と、個人毎に異なる発話器官とその動作に係わる部分(最適音声単位系列識別手段および最適調音特徴系列生成手段)に分離したことにより、個人の発話器官の特性に合わせた高品質な音声合成装置を少量の音声データから実現することができる。
特に、従来の音声スペクトル由来の特徴を使用する音声認識では、話者や発話時の文脈または周囲の騒音等によって、スペクトルが大きく変動してしまうため、音響的な尤度を求める際に使用するHMMの設計に多くの音声データを必要としていた。これに対し、調音特徴をHMMへの入力特徴とする場合、少ない学習話者でも十分な音素認識性能を得ることができ、かつHMMの混合分布数も少なくて済むという利点を有する。※
また、音声分析結果の時間−周波数特徴系列から弁別的音素特徴を高い精度で抽出する調音特徴抽出部が構成されたことにより、調音運動を表現する弁別特徴をHMMへの入力特徴とすることが可能になり、話者1名という極めて少ない音声データ学習でも、十分な音素認識性能を得ることができる。
請求項2に係る発明の音声合成装置は、音素単位調音運動記憶部に調音運動を表現したHMMの係数セットが記憶されていることから、これを参照する最適音声単位系列識別手段および最適調音特徴系列生成手段では、話者に対して基本的に不変なパラメータにより音声認識処理および音声合成処理が実現される。
請求項3に係る発明の音声合成装置は、従来のHMM合成装置が使用していた「特定話者のスペクトルに基づく情報」ではなく、「不特定多数話者の調音運動に基づく情報」を抽出してHMM合成装置を構成するものである。これにより、上記発明の効果に加えて、HMM合成の部分を話者に対し共通化することができ、個々の話者はHMM部分に関して学習音声データが原則不要にできるという利点がある。また、音声合成を、発話器官への調音動作指令部分と、個人毎に異なる発話器官とその動作に係わる部分に分離し、かつ前者を多数話者の調音特徴データを使用して、話者に対しより不変な調音動作指令として構成したことにより、個人の発話器官の特性に合わせた高品質音声合成と、高い音声認識性能の双方を達成することができる。
また、個人の音声に適応した合成音を少ないデータで得られることを可能にするため、高い音素認識性能の実現と相俟って、音声対話で問題となっている未知語に、人間同士が行っていると同様の対応を可能にする。すなわち、未知語が出現した際、未知語部分に対応する調音特徴系列を利用し、問い返しの確認発話を容易に合成することができる。
請求項4に係る発明の音声合成装置は、合成音の音質に大きな影響を与える駆動音源信号に、音声通信で広く利用されているCELP(Code Excited Linear Prediction)の閉ループ学習の考え方(非特許文献4参照)と、同じく波形合成に広く利用されているPSOLA(Pitch Synchronous Overlap and Add)の技術(非特許文献5参照)を導入することにより、上記発明の効果に加えて、最適な駆動音源符号を選択して対応する調音運動の状態遷移モデルに登録し、これを参照しつつ音声合成することによって高品質音声を得ることができる。
請求項5に係る発明の音声合成方法は、従来のHMM合成方法が使用していた特定話者の「スペクトルに基づく情報」と異なり、「調音運動に基づく情報」を抽出してHMM合成方法を構成する。このため、HMM合成の部分を調音運動という話者に対して基本的に不変なパラメータから構成するため、個々の話者はHMM部分に関して学習音声データが不要もしくは極少量で済むという利点がある。また、音声を生成するには、調音運動を特定話者の発話器官の運動に変換する必要があるが、この部分は少量の音声データで実現できる。話者の音声は調音運動の状態遷移モデルとして話者不変量と見做し、特定話者の発話動作は音声合成パラメータ系列に変換されることから、両者を分離して把握することができる。このように、音声合成を、話者不変量と見做すことのできる発話器官への調音動作指令部分(調音運動の状態遷移モデルおよび音素単位調音運動記憶部)と、個人毎に異なる発話器官とその動作に係わる部分(最適音声単位系列識別ステップおよび最適調音特徴系列生成ステップ)に分離したことにより、個人の発話器官の特性に合わせた高品質な音声合成方法を実現することができる。
特に、従来の音声スペクトル由来の特徴を使用する音声認識では、話者や発話時の文脈または周囲の騒音等によって、スペクトルが大きく変動してしまうため、音響的な尤度を求める際に使用するHMMの設計に多くの音声データを必要としていた。これに対し、調音特徴をHMMへの入力特徴とする場合、少ない学習話者でも十分な音素認識性能を得ることができ、かつHMMの混合分布数も少なくて済むという利点を有する。
また、分析ステップから得た時間−周波数特徴系列から、弁別的音素特徴を高い精度で抽出する弁別的音素特徴抽出ステップが構成されたことにより、調音運動を表現する弁別特徴をHMMへの入力特徴とすることが可能になり、話者1名という極めて少ない音声データ学習でも十分な音素認識性能を得ることができる。
請求項6に係る発明の音声合成方法は、音素単位調音運動記憶部に調音運動を表現したHMMの係数セットが記憶されていることから、これを参照する最適音声単位系列識別ステップおよび最適調音特徴系列生成ステップでは、話者に対して基本的に不変なパラメータにより音声認識処理および音声合成処理が実現される。
請求項7に係る発明の音声合成方法は、従来のHMM合成方法が使用していた「特定話者のスペクトルに基づく情報」ではなく、「不特定多数話者の調音運動に基づく情報」を抽出してHMM合成方法を構成するものである。これにより、上記発明の効果に加えて、HMM合成の部分を話者に対し共通化することができ、個々の話者はHMM部分に関して学習音声データが原則不要にできるという利点がある。また、音声合成を、発話器官への調音動作指令部分と、個人毎に異なる発話器官とその動作に係わる部分に分離し、かつ前者を多数話者の調音特徴データを使用して、話者に対しより不変な調音動作指令として構成したことにより、個人の発話器官の特性に合わせた高品質音声合成と、高い音声認識性能の双方を達成することができる。
また、個人の音声に適応した合成音を少ないデータで得られることを可能にするため、高い音素認識性能の実現と相俟って、音声対話で問題となっている未知語能に、人間同士が
行っていると同様の対応を可能にする。すなわち、未知語が出現した際、未知語部分に対応する調音特徴系列を利用し、問い返しの確認発話を容易に合成することができる。
請求項8に係る発明の音声合成方法は、合成音の音質に大きな影響を与える駆動音源信号に、音声通信で広く利用されているCELPの閉ループ学習の考え方(非特許文献4参照)と、同じく波形合成に広く利用されているPSOLAの技術(非特許文献5参照)を導入することにより、最適な駆動音源符号を選択して対応する調音運動の状態遷移モデルに登録し、これを参照しつつ音声合成することによって高品質音声を得ることができる。
請求項9に係る発明の音声合成プログラムは、請求項1ないし4のいずれかに記載の音声合成処理手段としてコンピュータを駆動させることが可能となるから、請求項1ないし4に係る発明の効果を奏することができる。
請求項10に係る発明の音声合成プログラムは、請求項5ないし8のいずれかに記載の音声合成方法の各処理ステップとしてコンピュータを駆動させることが可能となるから、請求項5ないし8に係る発明の効果を奏することができる。
特定話者のスペクトル情報に基づくHMM音声合成処理を示す模式図である。 音声合成装置の電気的構成を示す模式図である。 調音特徴を表す弁別的音素特徴の一例を示す図である。 MFCC特徴と調音特徴を用いた際の音素認識性能を比較した図である。 音声合成装置にて実行される音声合成処理を示す機能ブロック図である。 調音特徴抽出部の機能詳細を示すブロック図である。 弁別的音素特徴抽出部にて得られる調音特徴の一例を示す図である。 調音特徴に基づくHMM音声合成の動作を説明する図である。 音声合成で利用する駆動音源符号帳からの符号選択を説明する図である。 音声合成部で用いた音源波形を原音声の残差としての音源波形と比較した図である。 音声合成部で生成された合成音声のスペクトル包絡と原音声のスペクトル包絡を比較した図である。 音声合成部で生成された合成音声波形と原音声を比較した図である。 1モデル音声認識合成システムの構成例を示した図である。
以下、本明の音声合成装置および音声合成方法の実施の形態について、図面を参照して説明する。なお、これらの図面は、本発明が採用しうる技術的特徴を説明するために用い
られるものであり、記載されている装置の構成、各種処理のフローなどは、特に特定的な記載がない限り、それのみに限定する趣旨ではなく、単なる説明例である。
はじめに、図2を参照し、音声合成装置1の電気的構成について説明する。図2は、音声合成装置1の電気的構成を示している。この図に示すように、音声合成装置1は、中央演算処理装置11、入力装置12、出力装置13、記憶装置14および外部記憶装置15から構成されている。
中央演算処理装置11は、数値演算・制御などの処理を行うために設けられており、本実施の形態において説明する処理手順に従って演算・処理を行う。例えばCPU等が使用可能である。入力装置12は、マイクロホンやキーボード等で構成され、利用者が発声した音声やキー入力された文字列が入力される。出力装置13は、ディスプレイやスピーカ等で構成され、音声合成結果、あるいは音声合成結果を処理することによって得られた情報が出力される。記憶装置14は、中央演算処理装置11によって実行される処理手順(音声合成プログラム)や、その処理に必要な一時データが格納される。例えば、ROM(リード・オンリー・メモリ)やRAM(ランダム・アクセス・メモリ)が使用可能である。
また、外部記憶装置15は、音声合成処理に使用される調音特徴系列セット、調音特徴抽出処理に使用されるニューラルネットの重み係数セット、調音特徴系列データから音声合成パラメータ系列への変換処理に使用されるニューラルネットの重み係数セット、調音運動のHMM状態遷移モデルセット、最適調音特徴系列データ、音声認識処理に必要なモデル、入力された音声のデータ、音声合成パラメータ系列データ、駆動音源用符号帳セット、解析結果データ等を記憶するために設けられている。例えば、ハードディスクドライブ(HDD)が使用可能である。そして、これらは、互いにデータの送受信が可能なように、バス22を介して電気的に接続されている。
なお、本発明の音声合成装置1のハードウエア構成は、図2に示す構成に限定されるものではない。従って、インターネット等の通信ネットワークと接続する通信I/Fを備えていても構わない。
また、本実施の形態では、音声合成装置1および音声合成プログラムは他のシステムから独立した構成を有しているが、本発明はこの構成に限定されるものではない。従って、他の装置の一部として組込まれた構成や、他のプログラムの一部として組込まれた構成とすることも可能である。また、その場合における入力は、上述の他の装置やプログラムを介して間接的に行われることになる。
次に、外部記憶装置15に記憶されている記憶データについて説明する。記憶データは各領域に区分されて外部記憶装置15に記憶されており、図2に示すように、調音特徴が記憶されている調音特徴記憶領域16、隠れマルコフモデルが記憶されている隠れマルコフモデル記憶領域17、最適調音特徴系列が記憶されている最適調音特徴系列記憶領域18、入力された音声が記憶される入力音声記憶領域19、音声合成パラメータが記憶される音声合成パラメータ記憶領域20、合成された音声が記憶される合成音声記憶領域21、処理後のデータが記憶される処理結果記憶領域22、各処理時に使用される係数が記憶されている係数記憶領域23、およびその他の領域が設けられている。
調音特徴記憶領域16には、音声の弁別的特徴系列が記憶されている。弁別特徴は、調音に関わる構造的な特徴を基に音素(音韻)を分類するために提案されたもので、有声性/非有声性/連続性/半母音性/破裂性/摩擦性/破擦性/舌端性/鼻音性/高舌性/低舌性/(舌の盛上る位置が)前方性/後方性/・・・;(Distinctive Fe
ature:DF)などがある。また、音声から弁別的特徴などの調音特徴を直接抽出する方法も、ニューラルネットワークを利用する手法など多く提案されている(非特許文献6参照)。
隠れマルコフモデル記憶領域17には、中央演算処理装置11において音声認識や音声合成が行われる場合に参照される隠れマルコフモデルが記憶されている。最適調音特徴系列記憶領域18には、中央演算処理装置11において隠れマルコフモデルを参照して探索した結果の最適な調音特徴系列が記憶されている。入力音声記憶領域19には、入力装置12を介して入力された音声データが記憶される。音声合成パラメータ記憶領域20には、中央演算処理装置11においてニューラルネットの重み係数(係数記憶領域23)を参照して計算された結果の音声合成パラメータが記憶されている。合成音声記憶領域21には、中央演算処理11において音声合成パラメータ20と係数記憶領域23上の駆動音源用符号帳セットを参照して計算された結果の合成音声データが記憶される。処理結果記憶領域22には、中央演算処理装置11において実行される各種処理の結果得られたデータが記憶される。係数記憶領域23には、調音特徴抽出のためのニューラルネットの重み係数セット、調音特徴系列データから音声合成パラメータへの変換処理に使用されるニューラルネットの重み係数セット、および音声合成に使用される駆動音源用符号帳セットが記憶される。なお、これらのデータの詳細は後述する。
ここで、調音特徴記憶領域16に記憶されている弁別的特徴系列に使用される弁別的音素特徴について詳述する。日本語の音素を例として、その弁別的音素特徴(Distinctive Phonemic Feature;以下、DPFと記述する場合がある)を図3に示す。ここで、弁別的音素特徴とは、調音特徴の表現方法の一つである。図は、縦欄が弁別的特徴を示しており、横欄が個々の音素を示している。図中(+)は各音素についての弁別的特徴を有していることを意味し、(−)はその特徴を有しないことを意味する。なお、日本語以外の言語について弁別的音素特徴を把握する場合には、これらの弁別的特徴および音素に加えて、当該言語に特有の弁別的特徴または音素についても考慮されることとなる。
そして、この表から一つの音素を生成する際に必要な発声器官の動作を知ることができる。図3のうちnil(高/低)は、高舌性/低舌性のどちらにも属さない音素に対して弁別特徴を割り当て、nil(前/後)は、(舌の盛上る位置が)前方性/後方性のどちらにも属さない音素に対して弁別特徴を割り当てるためのものであり、新たに追加した特徴であることを示す。このように、音素間のバランスをとることで、音声認識性能が向上することが知られている。
なお、調音特徴の表現としては、国際音声記号(International Phonetic Alphabet;以下、IPAと称する)として広く使用されている表に記載されたものを用いてもよい。このIPAの表は、子音と母音の表に分かれ、子音では、調音位置および調音方法で分類されている。調音位置とは、唇、歯茎、硬口蓋、軟口蓋、声門などであり、調音方法とは破裂、摩擦、破擦、弾音、鼻音、半母音などである。また、それぞれについて有声と無声がある。例えば、/p/は、子音で、無声音、唇音、破裂音に分類される。一方、母音では、舌が最も盛上る場所および舌と口蓋との空間の広さで分類されている。舌が最も盛上る場所は、前(前舌)、後(後舌)または中(中舌)に区別され、舌と口蓋との空間の広さは、狭、半狭、半広または広に区分される。例えば、/i/は、前舌母音で狭母音(せまぼいん)である。IPAを使用する場合は、図3に示した弁別特徴の表と同様に、調音特徴のある個所(/p/を例にとると、子音、無声音、唇音、破裂音の個所)が+となり、それ以外では−となる。
従来の音声スペクトル由来の特徴を使用する音声認識では、話者や発話時の文脈、周囲
騒音等によってスペクトルが大きく変動してしまうため、音響的な尤度を求める際に使用するHMMの設計に多くの音声データを必要としていた。近年のHMMに基づく音声認識装置では、音声スペクトルを入力特徴として使用し、個々のベクトル要素の変動を複数の正規分布から表現する。なお、実際に多用される音声スペクトルは、音声スペクトルを聴覚特性に合わせて周波数をメル尺度化するとともに、スペクトルの対数値を離散コサイン変換(DCT)したメルケプストラム(MFCC)が使用される。また、複数の正規分布は混合分布と呼ばれ、この数は前述した様々な変形に対処するため、近年では60〜70の分布を使用するものが現れている。このように、厖大なメモリと演算が必要になった原因は、音声中に隠された変数を特定せずに、音素や単語を分類しようとした結果といえる。これに対し、調音特徴を用いると、HMMの混合数を数個程度で済ませることができる(非特許文献3参照)。
そこで、図4にMFCCを用いて音素単位のHMMを学習した際の音素認識性能と、調音特徴(具体的には弁別特徴(DPF、後述)を使用)をHMMへの入力特徴とした場合の音素認識性能とを比較したグラフを示す。この図において、横軸はHMMを表現する際に必要とした分布の混合数(左から1、2、4、8、16)を示しており、混合数が増加するほど認識に必要な演算量も増加している。混合数毎に示した棒グラフは、HMM学習に用いた男性話者の数を示し、それぞれの混合数毎に左から1名、2名、4名、8名、33名で×印は100名である。この時の変化を折れ線グラフで示す(破線がMFCCで、実線がDPFを示す)。この図から明らかなとおり、従来法では、学習人数を増やすほど、音素認識性能も向上するが、HMMの分布混合数を増やさないと性能は飽和していくことがわかる。このように、従来のMFCCを特徴パラメータとする音声認識は、高い音素認識を達成するために、多くの話者データを必要とするとともに、認識に必要とされる演算量も膨大であった。これに対し、DPFを使用した場合では、図からも明らかなとおり、少ない学習話者(1名)でも十分な音素認識性能を示しており、また、HMMの混合分布数も少なくて済むことが明らかである。音声認識では、話者の違いのほかに、騒音の重畳等があるため、これらに対してHMMの混合数を上げる必要はあるものの、図示のように、少なくとも話者に対しては調音特徴が不変量であることを理解することができる。そこで、このような不変量の調音特徴を調音運動の状態遷移モデル(HMM)として記憶させ、音声認識および音声合成において共通に参照可能にしているのである。
次に、音声合成装置1にて実行される音声認識処理および音声合成処理について、図5〜図12を参照して説明する。図5は、音声合成装置1にて実行される音声認識および音声合成の処理を示す機能ブロック図である。この図に示すように、音声合成装置1において実行される音声認識処理および音声合成処理に必要な機能ブロックとして、入力部201、A/D変換部202、調音特徴抽出部210、音声認識部220、最適調音特徴・音声合成パラメータ変換部(図では、最適調音特徴系列(右矢印)音声合成パラメータ変換部と記載している)230、音声合成部240、D/A変換部206、出力部205、調音特徴計算用記憶部207、音素単位調音運動記憶部225および音声合成用記憶部235が設けられている。
調音特徴計算用記憶部207には、音声分析のための各種係数セット2071、調音特徴計算のためのニューラルネット重み係数セット等が記憶されている。音素単位調音運動記憶部225には、調音運動を表現したHMMモデルの係数セット2251が記憶され、ここに記憶されている係数セット2251は、音声認識部220、および、最適調音特徴系列・音声合成パラメータ変換部230より参照可能な状態となっている。音声合成用記憶部235には、最適調音特徴系列・音声合成パラメータ変換部230の計算結果である音声合成パラメータセット2351と、駆動音源符号帳2352が記憶されている。そして、音声合成部240は、音声合成パラメータ(声道形状の変化に相当)を係数とするデジタルフィルタを構成し、駆動音源符号帳2352から読み出された駆動音源入力により
音声を合成する。合成音声はD/A変換部206を経て、出力部205に送られ、スピーカから音声を送出する。
入力部201は、外部から入力される音声を受け付け、アナログ電気信号に変換するために設けられている。A/D変換部202は、入力部201にて受け付けられたアナログ信号をデジタル信号に変換するために設けられている。調音特徴抽出部210は、音声認識のために必要となる所定の特徴量を抽出するために設けられ、また、分析フィルタにより抽出された特徴量の時系列データから、調音特徴の時系列データ(以下、「調音特徴系列」という)を抽出するために設けられている。音声認識部220は、調音特徴抽出部210より得られる調音特徴系列から、音声に含まれる音素・音節・単語などを探索するために設けられている。この探索の際には、音素単位調音運動記憶部225の調音運動モデル係数セット2251が参照される。出力部205は、音声認識部220において探索された結果の音素・音節・単語(列)を出力すると同時に、後述する合成音声を出力するために設けられている。
音声認識処理では、入力部201から入力された未知の音声がA/D変換部202を通して離散化され、デジタル信号に変換される。そして、変換されたデジタル信号は、調音特徴抽出部210に出力される。デジタル信号から調音特徴を抽出する調音特徴抽出部210は、図6に示すように、分析フィルタ211、局所特徴抽出部212および弁別的(音素)特徴抽出部213から構成されている。
分析フィルタ211では、はじめに、A/D変換部202にて変換されたデジタル信号がフーリエ分析(窓幅24〜32msecのハミング窓使用)される。次いで、24チャンネル程度の帯域通過フィルタに通されて周波数成分が抽出される。これにより、5〜10msec間隔の音声スペクトル系列および音声パワー系列が抽出される。そして、得られた音声スペクトル系列および音声パワー系列は、局所特徴抽出部212に対して出力される。
局所特徴抽出部212では、時間軸微分特徴抽出部2121および周波数軸微分特徴抽出部2122により、時間軸方向および周波数方向の微分特徴が抽出される。また、図示していないが、別途音声パワー系列の時間軸微分特徴が計算される。これらの微分特徴(以下、「局所特徴」という)の抽出にあたっては、ノイズ変動などの影響を抑えるため線形回帰演算が用いられる。抽出された局所特徴は、弁別的音素特徴抽出部213に出力される。なお、弁別的音素特徴抽出部213に出力されるデータとしては、上述の局所特徴以外にも、性能は若干劣るが、音声スペクトル、あるいは音声スペクトルを直交化したケプストラム(実際には周波数軸をメル尺度化して求めるメルケプストラムが用いられる)を使用してもよい。
弁別的音素特徴抽出部213では、局所特徴抽出部212にて抽出された局所特徴に基づき、調音特徴系列が抽出される。弁別的音素特徴抽出部213は、二段のニューラルネットワーク2131,2132で構成されている。
この弁別的音素特徴抽出部213を構成するニューラルネットワークは、図6に示されているように、初段の第一多層ニューラルネット2131と、次段の第二多層ニューラルネット2132との二段から構成される。第一多層ニューラルネット2131では、音声スペクトル系列および音声パワー系列より求めた局所特徴間の相関から、調音特徴系列を抽出する。また、第二多層ニューラルネット2132では、調音特徴系列が持つ文脈情報、すなわちフレーム間の相互依存関係から意味のある部分空間を抽出し、精度の高い調音特徴系列を求める。
弁別的音素特徴抽出部213にて算出された調音特徴抽出結果の一例を図7に示す。この図は、「人工衛星」の日本語読みである「jinkoese」という発話に対して求められた調音特徴抽出結果を示している。このように、二段のニューラルネットワーク2131,2132により抽出された調音特徴は、高い精度であることが理解される。
なお、調音特徴系列を求めるニューラルネットワークの構成は、図6にて示した二段構成のほかに、性能を犠牲にすることとなるが一段構成とすることも可能である(非特許文献3参照)。個々のニューラルネットワークは階層構造を持っており、入力層と出力層を除く隠れ層を1から2層持っている(これを多層ニューラルネットワークという)。また、出力層や隠れ層から入力層にフィードバックする構造を持ついわゆるリカレントニューラルネットワークが利用されることもある。調音特徴抽出に対する性能という点で比較すると、其々のニューラルネットワークにおいて算出された結果にそれほど大きな差はない。これらのニューラルネットワークは、非特許文献7に示される重み係数の学習を通して調音特徴抽出器として機能する(非特許文献7参照)。
また、弁別的音素特徴抽出部213のニューラルネットワークでの学習は、入力層に音声の局所特徴データを加え、出力層には、音声の調音特徴を教師信号として与えることで行われる。
このように、調音特徴抽出部210によって抽出された調音特徴系列は、音声認識部220に出力され、音素単位調音運動記憶部225の調音運動モデル係数セット2251を参照しつつ最適音声単位系列が得られると同時に、後述の音声合成パラメータによる音声合成に使用され、調音特徴系列を個人に特化した音声に合成される(図5参照)。
以上が音声認識部に関する説明である。上記説明において、入力部201が音声合成装置にかかる発明の音声取得手段に相当し、調音特徴抽出部210が調音特徴抽出手段に相当する。また、音声認識部220が最適音声単位系列識別手段に相当し、中央演算処理装置11が各記憶制御手段に、外部記憶装置15が各記憶手段に相当する。そして、音素単位調音運動記憶部225が音素単位調音運動記憶部に相当し、これに記憶されている不特定話者の調音特徴に基づくHMMが、調音運動の状態遷移モデルに相当する。さらに、これらの機能に基づいて処理されるステップは、音声合成方法にかかる発明の音声認識部における各ステップに相当する。
次に、調音特徴に基づくHMM音声合成の動作について説明する。図5において示したように、音声合成処理では、最適調音特徴系列・音声合成パラメータ変換部230が、音素単位調音運動記憶部225に記憶されている調音運動を表現したHMMモデルの係数セット2251を参照しつつ、音声合成パラメータを生成し、音声合成部240に出力する。なお、合成の対象となるデータは、入力部201で入力されたテキストデータ(または音声データ)が使用される。
図8は、HMM音声合成における最適調音特徴系列・音声合成パラメータ変換部230の動作説明図である。この図に示すように、不特定話者の調音特徴に基づくHMMから、Viterbiパス上の最適調音特徴系列が与えられると、次に時刻tを挟んで前後の計3フレームの調音特徴を3層ニューラルネットワークに入力し、対応するPARCOR係数を教師データとして、調音特徴系列・音声合成パラメータ(ここではPARCOR係数)変換部230が構成されている。
HMMは、複数の定常信号源間を状態遷移することで、非定常な時系列信号を表現する確率モデルで、音声のように様々な要因で変動する時系列の表現に適している。出力確率分布としては、多次元正規分布の重み付き和で表わされる多次元正規混合分布が用いられ
ることが多く、本実施形態も同様である。これによって、話者や前後環境に起因する複雑な変動を細かくモデル化することが可能である。
すなわち、HMMのモデルパラメータλの学習は、与えられた学習のベクトル系列Oに対して、観測尤度Ρ(O|λ)を最大にするλを求める形で数1に示すように定式化されている。
Figure 0005574344
なお、このλは、EM(Expectation Maximization)アルゴリズムに基づいて導出できる。
音素の初期モデルは、学習用音声データに音素ラベルが付与されていれば、セグメンタルk−means法によって得ることができる。また、音素境界が与えられていない場合には、ラベルが付与された少量のデータから初期モデルを作成し、その後、音素境界の付与されていない大量の音素データを使用して連結学習を行うことができる。音声認識では、未知のベクトル系列Oが観測されたとき、それがどのモデルλから生成されたかを推定する(Ρ(O|λ))。これはベイズの判定式から求めることができる。
次に、音声合成について説明する。音声合成の場合は、あるモデルλが最も高い確率で生成するパラメータ時系列を与える問題になる。連続出力分布型HMMλが与えられたとき、λから長さTの出力ベクトル系列(数2参照)を生成するため、尤度最大の意味で最適な音声パラメータ列を求めると、数3に示す式を得る。
Figure 0005574344
Figure 0005574344
さらに、ここでは、問題を簡単化するため、混合分布サブステートに分解した上でViterbiパス上の確率を示すと、数4の式となり、この式において、Oに関して最大化する。
Figure 0005574344
なお、oは、数5に示す静的特徴cのみを考慮する場合、個々のフレームでの出力は、前後のフレームでの出力とは独立に、そのフレームに対応する分布の平均となるため、ある状態から次の状態に遷移する部分でスペクトルに不連続が生じる。
Figure 0005574344
このような不連続を回避するために、出力パラメータに動的特徴を導入することが行われる。
図8において図示される駆動音源は、学習音声データにより、HMM学習を行う際、調音特徴系列と駆動音源符号のマルチストリームで作成する。この際、図9に示すように、CELPの符号帳選択で使用される閉ループ学習アルゴリズムを適用することで、誤差最小の(残差)素片を選択し、同時に対応する調音運動の状態に駆動音源符号を登録することにより、高音質の合成音声を得ることができる。すなわち、全ての駆動音源を合成フィ
ルタ(PARCOR合成フィルタ)に通して得られる音声波形を元の波形と比較し、誤差の少ない駆動音源符号を選択する。駆動音源符号帳は、学習音声データからクラスタリングにより代表素片を登録するとともに、登録符号帳を木構造化することにより、コンパクトで効率のよい符号帳を構成できる。
以上が音声合成部に関する説明である。上記説明において、最適調音特徴系列・音声合成パラメータ変換部230のうち、HMMの係数セット2251を参照して最適調音特徴系列を取得する部分(図8参照)が、音声合成装置にかかる本発明の最適調音特徴系列生成手段に相当し、PARCOR係数変換部が音声合成パラメータ系列変換手段に相当する。また、音声合成部(PARCOR合成フィルタ)240が、音声合成パラメータと駆動音源信号から音声を合成する手段に相当する。なお、中央演算処理装置11が各記憶制御手段に、外部記憶装置15が各記憶手段にそれぞれ相当し、音素単位調音運動記憶部225が音素単位調音運動記憶部に相当し、これに記憶されている不特定話者の調音特徴に基づくHMMが、調音運動の状態遷移モデルに相当する点は、音声認識装置の場合と同様である。さらに、これらの機能に基づいて処理されるステップは、音声合成方法にかかる発明の音声合成部における各ステップに相当する。
本実施形態のように駆動音源符号帳から作成された音源波形と元の波形とを比較した。図10のうち(a)は原音声から抽出した残差の音源波形、(b)は従来用いられていたパルス列と雑音から近似した音声波形、(c)は本実施形態の駆動音源符号帳から作成した音源波形を示している。音源符号帳から作成した音源波形は、原音声をPARCOR分析した際の残差波形に近いことが分かる。
また、本実施形態による合成音声と原音声のPARCOR分析した際のスペクトラムを比較した。図11のうち(a)は原音声のスペクトラムを示し、(b)は音声から求めた調音特徴により調音特徴系列を音声合成パラメータ(PARCOR係数列)に変換した合成音声のスペクトラムを示し、(c)は、本実施形態の合成音声(HMM/DPF・PARCOR分析)のスペクトラムを示す。図11の(a)と(c)を比較して明らかなとおり、本実施形態の合成音声は、HMMのスムージングにより、高域のスペクトルが平滑されているが、比較的少ない学習音声データによって十分に元の音声スペクトル形状を保っていることが分かる。また、(b)のスペクトラムも(c)に近似しており、音声認識結果を確認する際のトークバックなどにおいて、入力音声の調音特徴抽出結果を知る際に利用することができる。
さらに、合成音声波形を比較した。図12のうち(a)は原音声波形、(b)はパルス列と雑音から近似した音源波形を用いて合成した音声波形、(c)および(d)は駆動音源符号帳を用いて合成した際の音声波形である。なお、(c)は特定話者の駆動音源符号帳によるものであり、(d)は不特定話者の駆動音源符号帳によるものである。この図から明らかなとおり、(c)と(d)は元の音声に近い波形を得ている。ただし、(d)は不特定多数の話者の音声から駆動音源符号帳を作成しており、特定話者の音声(調音特徴を抽出し、音声合成パラメータ変換の多層ニューラルネット学習に用いた話者)のみから作成した符号帳の場合(c)と比較すれば、(d)に若干の劣化が見られる。従って、特定話者にチューニングさせる処理が必要となる。そこで、多量の不特定多数の話者音声から作成した符号帳に、少量の特定話者音声を符号帳に含めて学習することで、音質を改善することができる。また、同時に調音特徴を音声合成パラメータに変換する多層ニューラルネットについても、多量の不特定話者音声に対して、利用者となる特定話者音声を少量学習することで、変換精度を向上させることができる。
以上の説明では、音声を取得し、調音特徴系列を抽出し、HMMの調音運動モデルから、最適調音系列を取得し、さらに音声合成パラメータに変換して、合成音声を出力した。
しかし、本発明は、こうした利用に限られるものではなく、キーボードから入力された漢字かな混じり文に対しても、通常の音声合成器が行っているように、かな系列に変換した後、音声記号を取得すれば、調音特徴としての弁別的音素特徴は、容易に分かるようにかな文字と一対一に対応しており、かな文字・調音特徴系列の変換を通して、音声を容易に合成することができる。
図13は、第1に、キーボードからのテキスト入力によって音声を合成する利用形態、第2に、音声から音声認識を経て認識結果のテキストをディスプレイに表示するとともに、認識結果を再合成して音声で認識する利用形態、第3に、調音特徴抽出部40からの出力(抽出された調音特徴)を調音特徴・声道パラメータ変換部43で変換して音声確認を行う利用形態(図のパス47)が可能である。
第1の利用形態では、図13のテキスト−音素変換部46において、図示されない単語辞書を利用し、テキストを音素系列に変換する。単語辞書中には、単語表記項目毎に「読み、品詞、アクセント」が格納されており、テキストは最初に単語辞書を参照して形態素(単語)に分割され、続いて単語の読みから音素系列とアクセント位置、および文全体のイントネーションなどが決定される。音素と韻律の系列は、調音特徴・声道パラメータ変換部43に送られ、音素単位の格納された話者共通の調音モデル42、すなわちHMMの各状態から調音特徴と音源の素片が読み出される(図8および図9参照)。続いて、調音特徴はPARCOR係数などの音道パラメータに変換され、これと駆動音源(残差信号)が音声合成部45に送られ、合成音声に変換される。
第2の利用形態では、音声認識された結果のテキストを出力するとともに、キー操作されたテキストと同様に処理されることとなるから、第1の利用形態と同じく認識結果のテキスト(単語もしくは文(単語列))から、上記第1の利用形態と同じ処理過程を経て合成音声を利用者に返すことになる。
第3の利用形態では、前記したように、調音特徴がパス47(図13)で示すように与えられているため、調音特徴・声道パラメータ変換部43を経由して、声道パラメータが得られる。音声合成器に必要なもう一方の音源信号については、図示されていない残差信号計算部(音声をPARCOR分析した際の残差を計算する)で、入力音声から残差信号が抽出され、上記声道パラメータと共に音声合成部45に送られて合成音声が得られる。この第3の利用形態では、コンピュータが利用者の音声が、正しい調音動作として抽出されたか否かを知ることができるため、利用者が音声認識処理の誤判定に関する情報を得ることができるほか、積極的な利用として発音訓練(特に外国語の発音訓練)などへ応用できるというメリットがある。
1 音声合成装置
11 中央演算処理装置
12 入力装置
13 出力装置
14 記憶装置
15 外部記憶装置
201 入力部
202 A/D変換部
205 出力部
206 D/A変換部
207 調音特徴計算用記憶部
210 調音特徴抽出部
211 分析フィルタ
212 局所特徴抽出部
213 弁別的音素特徴抽出部
220 音声認識部
230 最適調音特徴系列・音声合成パラメータ変換部
235 音声合成用記憶部
240 音声合成部

Claims (10)

  1. 調音特徴を調音運動の状態遷移モデルとして予め記憶する音素単位調音運動記憶部と、前記状態遷移モデルを参照しつつ音声認識を行う音声認識部と、前記状態遷移モデルから最適調音系列を取得しつつ音声合成を行う音声合成部とを備えた1モデル音声認識合成に基づく音声合成装置であって、
    前記状態遷移モデルは、音素ごとの弁別的特徴の有無によって把握される弁別的音素特徴について発声器官の動作に基づく調音特徴を話者不変量として入力特徴とする調音運動の状態遷移モデルであり、
    音声認識部は、特定話者の音声を取得する音声取得手段と、前記音声取得手段にて取得された音声の調音特徴を抽出する調音特徴抽出手段と、前記調音特徴抽出手段にて抽出された調音特徴を記憶手段に記憶する第1の記憶制御手段と、前記調音特徴の記憶手段から読み出された調音特徴時系列データと前記状態遷移モデルとを比較し、特定話者の音声に対する最適音声単位系列を識別する最適音声単位系列識別手段を含み、
    前記調音特徴抽出手段は、音声のデジタル信号を周波数分析する分析フィルタと、分析フィルタが出力する時間−周波数特徴系列から、弁別的音素特徴を抽出する弁別的音素特徴抽出部とを備え、
    音声合成部は、前記最適音声単位系列から話者不変量とみなすことができる前記状態遷移モデルを参照しつつ特定話者に固有の調音運動に関する最適状態系列を推定し調音特徴系列を生成する最適調音特徴系列生成手段と、前記最適調音特徴系列生成手段にて生成された最適調音特徴系列データを記憶手段に記憶する第2の記憶制御手段と、前記最適調音特徴系列データの記憶手段から読み出された調音特徴系列データを音声合成パラメータ系列に変換する音声合成パラメータ系列変換手段と、前記音声合成パラメータ系列変換手段にて変換された音声合成パラメータ系列を記憶手段に記憶する第3の記憶制御手段と、前記音声合成パラメータ系列の記憶手段から読み出された音声合成パラメータと駆動音源信号から音声を合成する手段とを含むことを特徴とする音声合成装置。
  2. 前記音素単位調音運動記憶部は、調音運動を表現した隠れマルコフモデル(HMM)の係数セットが記憶され、前記音声認識部の最適音声単位系列識別手段および前記音声合成部の最適調音特徴系列生成手段から参照可能であることを特徴とする請求項1記載の音声合成装置。
  3. 前記状態遷移モデルが、多数話者音声を用いて作成されるとともに、前記調音特徴系列データを音声合成パラメータ系列に変換する手段を、特定話者の音声のみ、もしくは不特定話者で作成した前記調音特徴系列データを音声合成パラメータ系列に変換する手段を、特定話者の音声で適応学習して作成されることを特徴とする請求項1または2に記載の音声合成装置。
  4. 前記音声合成パラメータと駆動音源信号から音声を合成する手段において、駆動音源符号帳を設けるとともに、音声合成パラメータと駆動音源符号から合成された音声を元の学習音声と比較して最適な駆動音源を選択する手段と、前記選択された駆動音源符号を対応する調音運動の状態遷移モデルに登録する手段を備えたことを特徴とする請求項1ないし3のいずれかに記載の音声合成装置。
  5. 調音特徴を調音運動の状態遷移モデルとして予め記憶する音素単位調音運動記憶部と、前記状態遷移モデルを参照しつつ音声認識を行う音声認識部と、前記状態遷移モデルから最適調音系列を取得しつつ音声合成を行う音声合成部とを備えた1モデル音声認識合成に基づく音声合成方法であって、
    前記状態遷移モデルは、音素ごとの弁別的特徴の有無によって把握される弁別的音素特徴について発声器官の動作に基づく調音特徴を話者不変量として入力特徴とする調音運動の状態遷移モデルであり、
    音声認識部は、特定話者の音声を取得する音声取得ステップと、前記音声取得ステップにて取得された音声の調音特徴を抽出する調音特徴抽出ステップと、前記調音特徴抽出ステップにて抽出された調音特徴を記憶手段に記憶する第1の記憶制御ステップと、前記調音特徴の記憶手段から読み出された調音特徴時系列データと前記状態遷移モデルとを比較し、特定話者の音声に対する最適音声単位系列を識別する最適音声単位系列識別ステップを含み、
    前記調音特徴抽出ステップは、音声のデジタル信号を周波数分析する分析ステップと、分析結果の時間−周波数特徴系列から弁別的音素特徴を抽出する弁別的音素特徴抽出ステップとを備え、
    音声合成部は、前記最適音声単位系列から話者不変量とみなすことができる前記状態遷移モデルを参照しつつ特定話者に固有の調音運動に関する最適状態系列を推定し調音特徴系列を生成する最適調音特徴系列生成ステップと、前記最適調音特徴系列生成ステップにて生成された最適調音特徴系列データを記憶手段に記憶する第2の記憶制御ステップと、前記最適調音特徴系列データの記憶手段から読み出された調音特徴系列データを音声合成パラメータ系列に変換する音声合成パラメータ系列変換ステップと、前記音声合成パラメータ系列変換ステップにて変換された音声合成パラメータ系列を記憶手段に記憶する第3の記憶制御ステップと、前記音声合成パラメータ系列の記憶手段から読み出された音声合成パラメータと駆動音源信号から音声を合成するステップとを含むことを特徴とする音声合成方法。
  6. 前記音素単位調音運動記憶部は、調音運動を表現した隠れマルコフモデル(HMM)の係数セットが記憶され、前記音声認識部の最適音声単位系列識別ステップおよび前記音声合成部の最適調音特徴系列生成ステップにおいて参照可能であることを特徴とする請求項5記載の音声合成方法。
  7. 前記状態遷移モデルが、多数話者音声を用いて作成されるとともに、前記調音特徴系列データを音声合成パラメータ系列に変換するステップを、特定話者の音声のみ、もしくは不特定話者で作成した前記調音特徴系列データを音声合成パラメータ系列に変換するステップを、特定話者の音声で適応学習して作成されることを特徴とする請求項5または6に記載の音声合成方法。
  8. 前記音声合成パラメータと駆動音源信号から音声を合成するステップにおいて、駆動音源符号帳を設けるとともに、音声合成パラメータと駆動音源符号から合成された音声を元の学習音声と比較して最適な駆動音源を選択するステップと、前記選択された駆動音源符号を対応する調音運動の状態遷移モデルに登録するステップを備えたことを特徴とする請求項5ないし7のいずれかに記載の音声合成方法。
  9. 請求項1ないし4のいずれかに記載の音声合成装置の各処理手段としてコンピュータを駆動させるための音声合成プログラム。
  10. 請求項5ないし8のいずれかに記載の音声合成方法の各処理ステップとしてコンピュータを駆動させるための音声合成プログラム。
JP2011503812A 2009-03-09 2010-03-08 1モデル音声認識合成に基づく音声合成装置、音声合成方法および音声合成プログラム Expired - Fee Related JP5574344B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011503812A JP5574344B2 (ja) 2009-03-09 2010-03-08 1モデル音声認識合成に基づく音声合成装置、音声合成方法および音声合成プログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2009055784 2009-03-09
JP2009055784 2009-03-09
PCT/JP2010/053802 WO2010104040A1 (ja) 2009-03-09 2010-03-08 1モデル音声認識合成に基づく音声合成装置、音声合成方法および音声合成プログラム
JP2011503812A JP5574344B2 (ja) 2009-03-09 2010-03-08 1モデル音声認識合成に基づく音声合成装置、音声合成方法および音声合成プログラム

Publications (2)

Publication Number Publication Date
JPWO2010104040A1 JPWO2010104040A1 (ja) 2012-09-13
JP5574344B2 true JP5574344B2 (ja) 2014-08-20

Family

ID=42728329

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011503812A Expired - Fee Related JP5574344B2 (ja) 2009-03-09 2010-03-08 1モデル音声認識合成に基づく音声合成装置、音声合成方法および音声合成プログラム

Country Status (2)

Country Link
JP (1) JP5574344B2 (ja)
WO (1) WO2010104040A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2505400B (en) * 2012-07-18 2015-01-07 Toshiba Res Europ Ltd A speech processing system
JP7274184B2 (ja) * 2019-01-11 2023-05-16 ネイバー コーポレーション 話者適応型モデルを実現して合成音声信号を生成するニューラルボコーダおよびニューラルボコーダの訓練方法
KR102479899B1 (ko) * 2019-07-30 2022-12-21 주식회사 케이티 음성 합성 서비스를 제공하는 서버, 단말 및 방법
CN110751940B (zh) * 2019-09-16 2021-06-11 百度在线网络技术(北京)有限公司 一种生成语音包的方法、装置、设备和计算机存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000066694A (ja) * 1998-08-21 2000-03-03 Sanyo Electric Co Ltd 音声合成装置および音声合成方法
JP2002351791A (ja) * 2001-05-30 2002-12-06 Mitsubishi Electric Corp 電子メール通信装置、電子メール通信方法および電子メール通信プログラム
JP2003271182A (ja) * 2002-03-18 2003-09-25 Toshiba Corp 音響モデル作成装置及び音響モデル作成方法
JP2004012584A (ja) * 2002-06-04 2004-01-15 Nippon Telegr & Teleph Corp <Ntt> 音声認識用情報作成方法、音響モデル作成方法、音声認識方法、音声合成用情報作成方法、音声合成方法及びそれらの装置、並びにプログラム及びそのプログラムを記録した記録媒体

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000066694A (ja) * 1998-08-21 2000-03-03 Sanyo Electric Co Ltd 音声合成装置および音声合成方法
JP2002351791A (ja) * 2001-05-30 2002-12-06 Mitsubishi Electric Corp 電子メール通信装置、電子メール通信方法および電子メール通信プログラム
JP2003271182A (ja) * 2002-03-18 2003-09-25 Toshiba Corp 音響モデル作成装置及び音響モデル作成方法
JP2004012584A (ja) * 2002-06-04 2004-01-15 Nippon Telegr & Teleph Corp <Ntt> 音声認識用情報作成方法、音響モデル作成方法、音声認識方法、音声合成用情報作成方法、音声合成方法及びそれらの装置、並びにプログラム及びそのプログラムを記録した記録媒体

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CSNG200000694004; 広井順他: '"HMMに基づいた極低ビットレート音声符号化"' 電子情報通信学会技術研究報告 Vol.98,No.264, 199809, pp.39-44 *
CSNG200001149007; 徳田恵一: '"隠れマルコフモデルの音声合成への応用"' 電子情報通信学会技術研究報告 Vol.99,No.255, 199908, pp.47-54 *
JPN6013037532; 徳田恵一: '"隠れマルコフモデルの音声合成への応用"' 電子情報通信学会技術研究報告 Vol.99,No.255, 199908, pp.47-54 *
JPN6013037535; 広井順他: '"HMMに基づいた極低ビットレート音声符号化"' 電子情報通信学会技術研究報告 Vol.98,No.264, 199809, pp.39-44 *

Also Published As

Publication number Publication date
WO2010104040A1 (ja) 2010-09-16
JPWO2010104040A1 (ja) 2012-09-13

Similar Documents

Publication Publication Date Title
JP7500020B2 (ja) 多言語テキスト音声合成方法
US11990118B2 (en) Text-to-speech (TTS) processing
Tokuda et al. Speech synthesis based on hidden Markov models
US11410684B1 (en) Text-to-speech (TTS) processing with transfer of vocal characteristics
Donovan Trainable speech synthesis
US10692484B1 (en) Text-to-speech (TTS) processing
US11763797B2 (en) Text-to-speech (TTS) processing
US20100057435A1 (en) System and method for speech-to-speech translation
US10699695B1 (en) Text-to-speech (TTS) processing
CN117678013A (zh) 使用合成的训练数据的两级文本到语音系统
JP5574344B2 (ja) 1モデル音声認識合成に基づく音声合成装置、音声合成方法および音声合成プログラム
Zhang et al. A prosodic mandarin text-to-speech system based on tacotron
JPH05197398A (ja) 音響単位の集合をコンパクトに表現する方法ならびに連鎖的テキスト−音声シンセサイザシステム
Ipsic et al. Croatian HMM-based speech synthesis
Sawada et al. The nitech text-to-speech system for the blizzard challenge 2016
Lee et al. A segmental speech coder based on a concatenative TTS
Mullah A comparative study of different text-to-speech synthesis techniques
Takaki et al. Overview of NIT HMM-based speech synthesis system for Blizzard Challenge 2012
Ronanki et al. The CSTR entry to the Blizzard Challenge 2017
Huckvale 14 An Introduction to Phonetic Technology
Eshghi et al. Phoneme Embeddings on Predicting Fundamental Frequency Pattern for Electrolaryngeal Speech
Cai et al. The DKU Speech Synthesis System for 2019 Blizzard Challenge
Achanta Multilingual Text-to-Speech Synthesis using Sequence-to-Sequence Neural Networks
Hirose Modeling of fundamental frequency contours for HMM-based speech synthesis: Representation of fundamental frequency contours for statistical speech synthesis
Phan et al. Extracting MFCC, F0 feature in Vietnamese HMM-based speech synthesis

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130730

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130927

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140401

R155 Notification before disposition of declining of application

Free format text: JAPANESE INTERMEDIATE CODE: R155

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140624

R150 Certificate of patent or registration of utility model

Ref document number: 5574344

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees