JP2009251199A

JP2009251199A - 音声合成装置、方法及びプログラム

Info

Publication number: JP2009251199A
Application number: JP2008097726A
Authority: JP
Inventors: Tsutomu Kaneyasu; 勉兼安
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2008-04-04
Filing date: 2008-04-04
Publication date: 2009-10-29
Anticipated expiration: 2028-04-04
Also published as: JP5040778B2

Abstract

【課題】無声音声と口唇画像とから有音音声を合成する際に、発話者が意図する抑揚を合成音声に反映させる。
【解決手段】本発明は、発話者の無声音声と撮像口唇画像とが同期して入力され、有音音声を合成する音声合成装置に関する。映像信号分析手段は、入力口唇画像から有声音の母音情報を抽出し、母音発声時の口唇の開閉大きさと、予め設定した基準大きさとの比率をピッチ比率として抽出する。音声信号分析手段は、入力無声音声と、映像信号分析手段が抽出した母音に対応する無声母音の音響モデルとから、子音情報を抽出し、音素列と単語を対応付けた内蔵する辞書と、どの単語の並びであるかを計算する言語モデルとから、テキスト情報を抽出し、入力無声音声のパワー変化から発声全体の継続時間長を抽出する。音声合成手段は、上述の両分析手段によって抽出された各種情報から、抑揚を付与した有音音声を合成する。
【選択図】図１

Description

本発明は音声合成装置、方法及びプログラムに関し、特に、無声音声と口唇画像から音声を合成するものに関する。

会議中や公共交通機関の利用中など、発話側が通常の音声を発声することが困難な環境にある場合に、電話装置等を利用して通話する際に、発話者は無声音（いわゆるひそひそ声）のみによる発話を行うことがある。

このような状況で発声された音声による発話内容を捉える従来技術として、特許文献１に記載の技術がある。この技術は、電話機等の電子機器を介した通話において、無声音のみにて発話する場合に、発話時の音声情報と口唇の動画像情報を利用して、通常の有声音及び無声音を含む発声を行った場合に想定される音声を合成するものである。
特開２００６−２７６４７０

しかしながら、特許文献１の記載技術は、無声音声と口唇画像とから文字情報を認識して音声を合成するものであるため、イントネーションがない音声が合成されるものであった。若しくは、文字情報（テキスト列）を解析して、イントネーション（音の長さと高さ）を付与するものであった。言い換えると、発話者が、イントネーションである音の長さと高さを制御できないものであった。そのため、感情などを正確に伝達することができない恐れがある。

そのため、無声音声と口唇画像とから有音音声を合成する場合においても、発話者が意図するイントネーションを合成音声に反映させることができる音声合成装置、方法及びプログラムが望まれている。

第１の本発明は、音声捕捉装置が捕捉した発話者からの無声音声と撮像装置が撮像した発話者の口唇画像とが同期して入力され、入力された無声音声及び口唇画像を処理して、発話者が意図した有音音声を合成する音声合成装置において、（１）入力された口唇画像から有声音の母音に関する情報を抽出すると共に、母音を発声している口唇の開閉の大きさを検出し、予め設定した正常発声の口唇の開閉の大きさとの比率をピッチ比率として抽出する映像信号分析手段と、（２）第１に、入力された無声音声と、上記映像信号分析手段によって抽出された母音に対応する、無声母音から構築された音響モデルとから、子音に関する情報を抽出し、第２に、音素列と単語を対応付けた内蔵する辞書と、どの単語の並びであるかを計算する言語モデルとから、認識されたテキスト情報を抽出し、第３に、上記無声音声のパワーを検出することで発声全体の継続時間長を抽出する音声信号分析手段と、（３）上記音声信号分析手段によって抽出された子音に関する情報、テキスト情報及び全体継続長と、上記映像信号分析手段によって抽出された有声音の母音に関する情報及びピッチ比率とから、イントネーションを付与した有音音声を合成する音声合成手段とを有することを特徴とする。

第２の本発明は、音声捕捉装置が捕捉した発話者からの無声音声と撮像装置が撮像した発話者の口唇画像とが同期して入力され、入力された無声音声及び口唇画像を処理して、発話者が意図した有音音声を合成する音声合成方法において、映像信号分析手段、音声信号分析手段及び音声合成手段を備え、（１）上記映像信号分析手段は、入力された口唇画像から有声音の母音に関する情報を抽出すると共に、母音を発声している口唇の開閉の大きさを検出し、予め設定した正常発声の口唇の開閉の大きさとの比率をピッチ比率として抽出し、（２）上記音声信号分析手段は、第１に、入力された無声音声と、上記映像信号分析手段によって抽出された母音に対応する、無声母音から構築された音響モデルとから、子音に関する情報を抽出し、第２に、音素列と単語を対応付けた内蔵する辞書と、どの単語の並びであるかを計算する言語モデルとから、認識されたテキスト情報を抽出し、第３に、上記無声音声のパワーを検出することで発声全体の継続時間長を抽出し、（３）上記音声合成手段は、上記音声信号分析手段によって抽出された子音に関する情報、テキスト情報及び全体継続長と、上記映像信号分析手段によって抽出された有声音の母音に関する情報及びピッチ比率とから、イントネーションを付与した有音音声を合成することを特徴とする。

第３の本発明は、音声捕捉装置が捕捉した発話者からの無声音声と撮像装置が撮像した発話者の口唇画像とが同期して入力され、入力された無声音声及び口唇画像を処理して、発話者が意図した有音音声を合成するための音声合成プログラムであって、コンピュータを、（１）入力された口唇画像から有声音の母音に関する情報を抽出すると共に、母音を発声している口唇の開閉の大きさを検出し、予め設定した正常発声の口唇の開閉の大きさとの比率をピッチ比率として抽出する映像信号分析手段と、（２）第１に、入力された無声音声と、上記映像信号分析手段によって抽出された母音に対応する、無声母音から構築された音響モデルとから、子音に関する情報を抽出し、第２に、音素列と単語を対応付けた内蔵する辞書と、どの単語の並びであるかを計算する言語モデルとから、認識されたテキスト情報を抽出し、第３に、上記無声音声のパワーを検出することで発声全体の継続時間長を抽出する音声信号分析手段と、（３）上記音声信号分析手段によって抽出された子音に関する情報、テキスト情報及び全体継続長と、上記映像信号分析手段によって抽出された有声音の母音に関する情報及びピッチ比率とから、イントネーションを付与した有音音声を合成する音声合成手段として機能させることを特徴とする。

本発明によれば、無声音声と口唇画像とから有音音声を合成する場合においても、発話者が意図するイントネーションを合成音声に反映させることができるようになる。

（Ａ）主たる実施形態
以下、本発明による音声合成装置、方法及びプログラムの一実施形態を、図面を参照しながら詳述する。

（Ａ−１）実施形態の構成
図１は、実施形態に係る音声合成装置の機能的構成を示すブロック図である。

図１において、実施形態の音声合成装置０００には、マイクロフォン００１やビデオカメラ００２が接続されて用いられる。例えば、マイクロフォン００１やビデオカメラ００２が携帯電話に設けられているものであり、音声合成装置０００は、携帯電話に搭載されたものであっても、携帯電話網のキャリアの装置に設けられたものであって良い。

音声合成装置０００は、１個のＩＣチップとして実現されているものであっても良く、ディスクリート部品などを組み立てて構成されたものであっても良く、ＣＰＵが音声合成プログラムを実行することで実現するものであっても良いが、機能的には、図１に示す構成を有する。

音声合成装置０００は、音声信号分析器００３、映像信号分析器００４及び音声信号合成器００５を有する。

マイクロフォン００１は、発話者の音声（ここでは、無声音声（いわゆるひそひそ声））を入力するためのものである。ビデオカメラ００２は、発話者が音声を発するときの口唇の様子を撮影するものである。マイクロフォン００１が捕捉した無声音声２０１と、ビデオカメラ００２が得た口唇画像２０２とは、同期して、音声合成装置０００に入力される。例えば、マイクロフォン００１もビデオカメラ００２も、出力にタイムスタンプを挿入することで同期をとることができる。

音声信号分析器００３は、マイクロフォン００１から入力された無声音声２０１についての情報、主に子音に関する情報２０３を抽出するものである。この実施形態の音声信号分析器００３は、映像信号分析器００４で抽出された、通常の有声音を含む発声の際に想定される母音の情報２０５が入力され、この抽出母音に対応する、無声母音で構築された音響モデルを選択し、その音響モデルを適用し、マイクロフォン００１から入力された無声音声２０１についての情報、主に子音に関する情報２０３を抽出するものである。例えば、特開２００３−１５６７９号公報に記載の方法を適用することができる。

因みに、通常の有声音を含む発声音声における母音や子音（の信号波形）と、無声音声２０１での母音や子音（の信号波形）とは異なっている。しかし、口唇の動きは、通常の有声音を含む発声でも、無声音声でも同様である。

また、音声信号分析器００３は、音素列と単語とを対応付ける辞書と、どの単語の並びであるかを計算する言語モデルを用い、テキスト２０７の情報を抽出することができる。

さらに、音声信号分析器００３は、映像信号分析器００４へ音素環境を付加した母音情報（例えばＣＶＣ、ＣＶ）２０８を送信するものである。ここで、音素環境とは母音情報（いわゆるＶ）の前後音素（いわゆるＣ（子音））のことである。

さらにまた、音声信号分析器００３は継続長検出器１０１を備えている。継続長検出器１０１は、無声音声のパワー（の変化）を検出することで、発声全体の継続時間長（全体継続長）２０４を抽出するものである。

ここで、一定のフレーム間で求めたパワー平均値がパワーに関する閾値より大きくなった場合、発声開始であると判定する。また、パワーに関する閾値より小さくなった場合、発声終了であると判定する。その際、パワーに関する閾値より小さくなるまでの時間長が、無音時間長に関する閾値を越えることも発声終了の判定に必要とする。無音時間長に関する閾値を越えない場合、文中（ひそひそ話中）に生じるポーズとして扱う。

実施形態の映像信号分析器００４は、カメラ００２で撮像された口唇画像２０２から、主に、通常の有声音を含む発声の際に想定される母音に関する情報２０５を抽出するものである。抽出された母音情報２０５は、上述のように、音声信号分析器００３に与えられる。特開２００４−２７１６２０号公報や特開２０００−６８８８２号公報には口唇画像から文字を認識する技術を開示しているが、母音の抽出にもこれらの開示技術を流用可能である。

また、映像信号分析器００４はピッチ検出器１０２を備えている。ピッチ検出器１０２は、母音を発声している口唇の開閉の大きさを検出し、予め設定した正常発声の口唇の開閉の大きさとの比率（ピッチ比率）２０６を抽出する。このピッチ比率２０６は、音声信号合成器００５に与えられ、音声信号合成器００５で、比率差が存在する箇所の母音に、比率に応じたピッチ修正処理が施される。

映像信号分析器００４は、音素環境を付加した母音情報２０８を知っている必要があるため、音声信号分析器００３から与えられるようになされている。すなわち、ピッチ比率に応じたピッチ修正処理を施す際に、母音の前の音素が有声子音ならば後続母音のピッチ比率と同じと判定する必要があると共に、母音の前の音素が無声子音ならばピッチなしと判定する必要があるためである。

なお、映像信号分析器００４は、音声信号分析器００３から与えられた音素環境を付加した母音情報２０８を音声信号合成器００５に与えるようになされている。

音声信号合成器００５は、特許文献１記載の音声信号合成器と同様に、音声信号分析器００３と映像信号分析器００４から送信されてきた情報から通常の有声音を含む発声の際に想定される音声を合成するものである。

音声信号合成器００５による合成方式としては、第１に、テキスト解析部１０４と、韻律推定部１０５と、韻律データベース（韻律ＤＢ）１０８と、合成処理部１０３とを用いるいわゆる統計量ベース音声合成方式を適用でき、第２に、テキスト解析部１０４と、韻律推定部１０５と、韻律データベース１０８と、素片選択部１０６と、音声データベース（音声ＤＢ）１０９と、素片接続部１０７とを用いるいわゆるコーパスベース音声合成方式を適用可能である。

なお、音声信号合成器００５に、両方式の実行構成を搭載し、いずれを適用するかを利用者に選択させるようにしても良い。また、音声信号合成器００５が一方の方式にのみ対応できるものであっても良い。

テキスト解析部１０４は、音声信号分析器００３から送信されたテキスト情報２０７に対して、形態素解析、係り受け解析を行い、音素列、アクセント記号等に変換するものである。

テキスト解析部１０４が行う形態素解析、係り受け解析等では、音声信号分析器００３と映像信号分析器００４から送信された、子音情報２０３と音素環境を付加した母音情報２０８とから音素列を生成し、テキスト解析部１０４で生成された音素列と等しくなる、解析情報の候補を用いることとする。

韻律データベース１０８は、音素持続時間（音の長さ）、基本周波数（音の高さＦ０）、母音中心のパワー（音の大きさ）等の特徴量を統計的モデルで保持しているものである。

韻律推定部１０５は、音素記号、アクセント記号列、及び、形態素解析結果から得られる入力テキストの品詞情報などに基づいて、韻律データベース１０８をアクセスし、各特徴量を推定すると共に、発声の全体継続長とピッチ比率とを用いて、イントネーションを制御した各特徴量を求めるものである。

素片選択部１０６は、推定された音素持続時間、基本周波数、母音中心のパワー等に最も近く、かつ、音声ＤＢ１０９に蓄積されている合成単位（音素片）のデータを接続したときの歪みが最も小さくなる合成単位の組み合わせを動的計画法を用いて選択するものである。

素片接続部１０７は、選択された音素片の組み合わせに従って、音素片の接続を行うことによって音声を生成するものである。

合成処理部１０３は、韻律推定部１０５で推定した特徴量から、ＭＬＳＡ（ｍｅｌ−ｌｏｇａｒｉｔｈｍｉｃｓｐｅｃｔｒａｌａｐｐｒｏｘｉｍａｔｉｏｎ）合成フィルタなどを用いることで音声を生成するものである。

（Ａ−２）実施形態の動作
次に、上述した構成を有する実施形態の音声合成装置の動作（実施形態の音声合成方法）を、図面を参照しながら詳述する。

音声信号分析器００３は、映像信号分析器００４から送信された母音情報２０５に対応する、無声母音で構築された音響モデルを選択し、マイクロフォン００１から入力された無声音声２０１から、主に子音に関する情報２０３を抽出し、さらに、辞書と言語モデルを用いることでテキスト情報２０７を抽出する。

そして、音声信号分析器００３は、映像信号分析器００４へ音素環境を付加した母音情報２０８を送信する。

また、音声信号分析器００３における継続長検出器１０１は、無声音声２０１のパワーを監視することにより、発声全体の継続時間長２０４を抽出し、音声信号合成器００５へ送信する。

一方、映像信号分析器００４にはカメラ００２で撮像された口唇画像２０２が入力され、映像信号分析器００４は、入力された口唇画像２０２から、主に、通常の有声音を含む発声の際に想定される母音に関する情報２０５を抽出し、抽出した母音情報２０５を音声信号分析器００３に送信する。

また、映像信号分析器００４におけるピッチ検出器１０２は、母音を発声している口唇の開閉の大きさを検出し、予め設定した正常発声の口唇の開閉の大きさとの比率であるピッチ比率２０６を抽出し、音声信号合成器００５に送信する。

音声信号合成器００５（の韻律推定部１０５）は、比率差が存在する箇所の母音に、比率に応じたピッチ修正処理を施す。ここで、有声子音のピッチは、有声子音の継続長が母音に比べ短く、ピッチ変化も母音に大きく影響することもあるので、後続の母音のピッチ比率と同じにすることとする。

ピッチの検出方法として、例えば、以下の２通りの検出方法のいずれかを適用可能である。

まず、第１のピッチ検出方法を、図２を参照しながら説明する。

口唇の追跡すべき点を上下左右Ｐ１〜Ｐ４に設定する。また、予め各母音の口唇形状を定めておく。これにより、カメラ００２が撮像した口唇形状であって、映像信号分析器００４の抽出により母音の種類が特定された口唇形状(口唇開口形状)と、映像信号分析器００４に予め設定されたデフォルトの口唇形状との間で、各追跡点についての距離ｄ１〜ｄ４を求めることができる。この距離を求める際には、例えば、両口唇形状の形状重心を一致させて行う。又は、口唇形状の横方向に最も大きな距離をとる方向の中心同士を、両口唇形状で合わせて距離を求める。

母音（の種類）毎に距離差を求めたい箇所（追跡点）を設定し、距離差Ｄを求める。例えば、母音「い」に関して、左右の点Ｐ２、Ｐ４だけに注目すると、距離差Ｄとして、Ｄ＝ｄ２＋ｄ４を求めることができる。

距離差Ｄと、予め設定されている上下の閾値α、βとの比較により、ピッチ比率を求める。例えば、以下の判定基準を適用することができる。

Ｄ＞＝α に対応するピッチ比率は２
β＜Ｄ＜α に対応するピッチ比率は１
Ｄ＜＝β に対応するピッチ比率は０．５
次に、第２のピッチ検出方法を、図３を参照しながら説明する。

第２のピッチ検出方法は、各母音を１種類の大きさにするのではなく、口唇形状の大きさに応じて、新たな母音として検出する方法である。

例えば、「い」を１母音とするのではなく、主として口唇形状の大きさに応じて、３種類に分け、「い」について３種類の母音のいずれかと検出する。

今まで１種類で考えていた母音について、複数種類の代表的な口唇画像を予め設定しておく。図３は、今まで１種類で考えていた「い」について、大きさが異なる３種類の代表的な口唇画像「い１」、「い２」、「い３」を設定していることを表している。

カメラ００２から入力された口唇画像は、代表的な口唇画像と各々比較され、より近い代表的な口唇画像が選択される。ここでの比較方法として、例えば、複数の階層型自己組織化マップ（ＨＳＯＭ）が並んだ、教師なしニューラルネットワークモデルであるハイパーコラムモデル（ＨＣＭ）を用いることが可能である。各代表的な口唇画像とピッチ比率とは、予め対応付けられており、これにより、ピッチ比率を求めることができる。例えば、入力口唇画像に近い代表的口唇画像が「い１」、「い２」、「い３」であれば、以下のようにピッチ比率を定める。

代表的口唇画像が「い２」であればピッチ比率は２
代表的口唇画像が「い１」であればピッチ比率は１
代表的口唇画像が「い３」であればピッチ比率は０．５
音声信号合成器００５は、テキスト解析部１０４、韻律データベース１０８を利用した韻律推定部１０５、合成処理部１０３の順で音声合成処理を行う。又は、音声信号合成器００５は、テキスト解析部１０４、韻律データベース１０８を利用した韻律推定部１０５、音声データベース１０９を利用した素片選択部１０６、素片接続部１０７の順で音声合成処理を行う。

ここで、韻律推定部１０５は、上述したように、テキスト解析部１０４が得た音素列、アクセント記号列、及び、形態素解析結果より得られる入力テキストの品詞情報から、音素持続時間（音の長さ）、基本周波数（音の高さＦ０）、母音中心のパワー（音の大きさ）等の特徴量を統計的モデルで保持している韻律データベース１０８を用いて、各特徴量を推定する。

この実施形態の場合、韻律推定部１０５は、自己が推定した全体継続長（発音させたいテキストを音素列に変えた、各音素の音素持続時間の合成の長さ）と、音声信号分析器００３から送信された全体継続長２０４とから、（１）式に従って発話速度比率ρを求める。

そして、求めた発話速度比率ρを（２）式に適用し、状態ｑｋ（対象としている音素に対して、隠れマルコフモデルで表した際の信号源である）についての音素持続時間（音の長さ）ｄ_ｑｋを推定し直す。

（２）式におけるｍ_ｑｋとσ^２ _ｑｋとはそれぞれ、状態ｑｋについての音素持続時間（音の長さ）の分布をガウス分布に従うとした場合における平均及び分散である。これらの平均及び分散は、予め計測されて、韻律推定部１０５に格納されているものである。

さらに、この実施形態の場合、韻律推定部１０５は、映像信号分析器００４によって抽出されたピッチ比率２０６を用いて、比率差が存在する箇所の母音に、比率に応じたピッチ修正処理を施す。

以下、ピッチ修正方法を詳述する。例えば、口唇の開閉の大きさに応じた制御をおおまかに行うため、ピッチ比率を３種類とした場合を説明する（図２、図３参照）。

この実施形態の場合、特徴量を統計的モデルで保持している韻律データベース１０８に、図４に示すように、ピッチ比率に応じた複数のモデルの韻律データベース（１０８ａ〜１０８ｃ）を予め用意しておく。

例えば、ピッチ比率２は、全体平均ピッチが２５０Ｈｚである音声で構築された韻律データベース１０８ａに対応し、ピッチ比率１は、全体平均ピッチが２００Ｈｚである音声で構築された韻律データベース１０８ｂに対応し、ピッチ比率０．５は、全体平均ピッチが１５０Ｈｚである音声で構築された韻律データベース１０８ｃに対応するようにする。

合成するテキストの音素列が「ａｒａｙｕ」であって、その母音部分に対応する検出されたピッチ比率が「２ − ０．５ − ０．５」とした場合、子音のピッチ比率として、当該子音の次の母音のピッチ比率をそのまま適用する。上述したように、有声子音のピッチは、有声子音の継続長が母音に比べ短く、ピッチ変化も母音に大きく影響することもあるので、後続の母音のピッチ比率と同じにすることとしたためである。これにより、音素列「ａｒａｙｕ」のピッチ比率列「２ − ０．５ − ０．５ − ０．５ − ０．５」が得られる。そして、各ピッチ比率に対応したモデル（韻律データベース）を用いることにより、通常（点線）のピッチ形状と異なる、実線のピッチ形状を実現するようにピッチ形状を制御（修正）する。ピッチ比率列「２ − ０．５ − ０．５ − ０．５ − ０．５」の変化を緩やかに実現するように、ピッチ形状を制御（修正）する。

また、ピッチ修正処理の別の方法としては、比率差が存在する箇所の母音のピッチ列に対して、予め定めたフィルタを適用する。例えば、ピッチ比率が「２ − ０．５ − ０．５」と続いた場合、予め格納されている図５に示すようなピッチ形状を、通常ピッチに掛け合わせてピッチを修正する。

以上のようにして、音声合成を可能とする特徴量が得られた後の音声合成方法は、既存の音声合成方法（統計量ベース音声合成方式やコーパスベース音声合成方式）を適用することができる。

（Ａ−３）実施形態の効果
上記実施形態によれば、発話者が、通常の音声を発声することが困難でひそひそ声でしか発声できない状況でも、口唇形状の開閉の大きさなどを変化させることにより、合成音声に自己が意図したイントネーションを付与することができる。言い換えると、発話者は、ひそひそ声の発話であっても、イントネーション（音の長さと高さ）を制御することができる。その結果、発話者の感情などを聴取者に正確に伝達することが可能となる。

（Ｂ）他の実施形態
上記実施形態では合成音声の処理に言及しなかったが、直ちに、発音出力しても良く、また、外部装置へ送信しても良く、さらには、記録媒体に記録するようにしても良い。

上記実施形態では、ピッチ比率が３種類の場合を例として示したが、ピッチ比率の種類は３種類に限定されず、２種類でも４種類以上であっても良い。同様に、個数を挙げた他のパラメータなどについても、挙げた個数以外を適用するようにしても良い。例えば、図２に示した追跡点も４個に限定されるものではない。

上記実施形態では、音声合成装置０００を構成する音声信号分析器００３、映像信号分析器００４及び音声信号合成器００５が全て、物理的に同一の装置に搭載されている場合を示したが、これら要素が物理的に別な装置に搭載されていても良い。例えば、音声信号分析器００３及び映像信号分析器００４が携帯電話に搭載され、音声信号合成器００５が、携帯電話網のキャリア側の装置に搭載されていても良い。さらには、各要請要素内の一部を他の装置に搭載するようにしても良い。例えば、音声信号合成器００５におけるテキスト解析部だけを他の装置に搭載するようにしても良い。

実施形態に係る音声合成装置の機能的構成を示すブロック図である。実施形態におけるピッチ検出器の第１のピッチ検出方法の説明図である。実施形態におけるピッチ検出器の第２のピッチ検出方法の説明図である。実施形態における韻律推定部のピッチ修正方法の説明図である。実施形態における韻律推定部のピッチ修正に適用するフィルタを示す説明図である。

符号の説明

０００…音声合成装置、００１…マイクロフォン、００２…ビデオカメラ、００３…音声信号分析器、００４…映像信号分析器、００５…音声信号合成器、１０３…合成処理部、１０４…テキスト解析部、１０５…韻律推定部、１０６…素片選択部、１０７…素片接続部、１０８…韻律データベース（韻律ＤＢ）、１０９…音声データベース（音声ＤＢ）。

Claims

音声捕捉装置が捕捉した発話者からの無声音声と撮像装置が撮像した発話者の口唇画像とが同期して入力され、入力された無声音声及び口唇画像を処理して、発話者が意図した有音音声を合成する音声合成装置において、
入力された口唇画像から有声音の母音に関する情報を抽出すると共に、母音を発声している口唇の開閉の大きさを検出し、予め設定した正常発声の口唇の開閉の大きさとの比率をピッチ比率として抽出する映像信号分析手段と、
第１に、入力された無声音声と、上記映像信号分析手段によって抽出された母音に対応する、無声母音から構築された音響モデルとから、子音に関する情報を抽出し、第２に、音素列と単語を対応付けた内蔵する辞書と、どの単語の並びであるかを計算する言語モデルとから、認識されたテキスト情報を抽出し、第３に、上記無声音声のパワーを検出することで発声全体の継続時間長を抽出する音声信号分析手段と、
上記音声信号分析手段によって抽出された子音に関する情報、テキスト情報及び全体継続長と、上記映像信号分析手段によって抽出された有声音の母音に関する情報及びピッチ比率とから、イントネーションを付与した有音音声を合成する音声合成手段と
を有することを特徴とする音声合成装置。
上記音声合成手段は、テキスト情報を解析して音素列、アクセント記号列及び形態素の品詞を得て、これら情報に対し、統計的モデルで構築されたモデルを適用して継続時間長を推定し、上記音声信号分析手段が抽出した発声全体の継続時間長と、自己が推定した継続時間長とから求まる比率を用い、上記モデルから求まる継続時間長を修正し、合成された有音音声の発声速度を調整することを特徴とする請求項１に記載の音声合成装置。
上記音声合成手段は、上記映像信号分析手段によって抽出されたピッチ比率を用いて、比率差が存在する箇所の母音に、比率に応じたピッチ修正処理を施して、合成された有音音声のピッチを調整することを特徴とする請求項１又は２に記載の音声合成装置。
音声捕捉装置が捕捉した発話者からの無声音声と撮像装置が撮像した発話者の口唇画像とが同期して入力され、入力された無声音声及び口唇画像を処理して、発話者が意図した有音音声を合成する音声合成方法において、
映像信号分析手段、音声信号分析手段及び音声合成手段を備え、
上記映像信号分析手段は、入力された口唇画像から有声音の母音に関する情報を抽出すると共に、母音を発声している口唇の開閉の大きさを検出し、予め設定した正常発声の口唇の開閉の大きさとの比率をピッチ比率として抽出し、
上記音声信号分析手段は、第１に、入力された無声音声と、上記映像信号分析手段によって抽出された母音に対応する、無声母音から構築された音響モデルとから、子音に関する情報を抽出し、第２に、音素列と単語を対応付けた内蔵する辞書と、どの単語の並びであるかを計算する言語モデルとから、認識されたテキスト情報を抽出し、第３に、上記無声音声のパワーを検出することで発声全体の継続時間長を抽出し、
上記音声合成手段は、上記音声信号分析手段によって抽出された子音に関する情報、テキスト情報及び全体継続長と、上記映像信号分析手段によって抽出された有声音の母音に関する情報及びピッチ比率とから、イントネーションを付与した有音音声を合成する
ことを特徴とする音声合成方法。
音声捕捉装置が捕捉した発話者からの無声音声と撮像装置が撮像した発話者の口唇画像とが同期して入力され、入力された無声音声及び口唇画像を処理して、発話者が意図した有音音声を合成するための音声合成プログラムであって、
コンピュータを、
入力された口唇画像から有声音の母音に関する情報を抽出すると共に、母音を発声している口唇の開閉の大きさを検出し、予め設定した正常発声の口唇の開閉の大きさとの比率をピッチ比率として抽出する映像信号分析手段と、
第１に、入力された無声音声と、上記映像信号分析手段によって抽出された母音に対応する、無声母音から構築された音響モデルとから、子音に関する情報を抽出し、第２に、音素列と単語を対応付けた内蔵する辞書と、どの単語の並びであるかを計算する言語モデルとから、認識されたテキスト情報を抽出し、第３に、上記無声音声のパワーを検出することで発声全体の継続時間長を抽出する音声信号分析手段と、
上記音声信号分析手段によって抽出された子音に関する情報、テキスト情報及び全体継続長と、上記映像信号分析手段によって抽出された有声音の母音に関する情報及びピッチ比率とから、イントネーションを付与した有音音声を合成する音声合成手段と
して機能させることを特徴とする音声合成プログラム。