JP2000311077A

JP2000311077A - 音声情報入力装置

Info

Publication number: JP2000311077A
Application number: JP11120944A
Authority: JP
Inventors: Hirotaro Furuta; 大太郎古田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1999-04-28
Filing date: 1999-04-28
Publication date: 2000-11-07

Abstract

(57)【要約】【課題】騒音などの外部音声の有無にかかわらず、話
者が発声した有効な会話音声を選択的かつ漏れなく入力
する音声情報入力装置を提供する。【解決手段】話者が発声した会話音声を含む音声を表
す音声情報として入力する音声入力手段１１１と、話者
の口唇に近接して配置され、話者が音声を発声する際の
口唇の形状パターンを表す口話画像を入力する口話画像
入力手段１１２と、口話画像を受け取り、話者の口唇の
形状パターンに対応する音声を認識して、音声を表す音
声情報を認識結果として送出する口話パターン認識手段
１１３と、音声入力手段１１１からの音声情報と口話パ
ターン認識手段１１３による認識結果とを比較する比較
手段１１４と、比較手段１１４による比較結果に応じ
て、音声入力手段１１１からの音声情報と口話パターン
認識手段１１３による認識結果とのいずれかを入力音声
情報として選択する選択手段１１５とを備える。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、話者の口の付近に
受話部を備え、話者によって発声された音声を音声情報
として入力する音声情報入力装置に関するものである。
携帯電話などの普及に伴い、利用者が音声通信サービス
を利用する環境は著しく多様化しており、例えば、電車
の中や都市部の雑踏の中など騒音の多い環境において
も、自由に音声情報を入力して送信することが求められ
ている。このためには、外部音声の有無にかかわらず、
話者によって発声された音声を表す音声情報を選択的か
つ正確に入力するための技術が必要である。

【０００２】

【従来の技術】従来の音声情報入力装置の例として、携
帯電話などに用いられている音声符号化処理部について
説明する。従来の携帯電話では、図７に示すように、話
者によって発声された音声は、受話部４０１に備えられ
たマイクによって集音され、音声符号化処理部４１０に
そのまま入力されており、この音声符号化処理部４１０
によって得られた符号化音声情報がそのまま送信されて
いた。

【０００３】この音声符号化処理部４１０は、例えば、
帯域圧縮符号化方式の１つであるＣＥＬＰ(Code Exited
Linear Prediction）技術を適用して、サンプリングさ
れた入力音声を符号化する構成となっている。図７に示
した音声符号化処理部４１０において、駆動波形テーブ
ル４１１は、声道モデルを駆動するための相異なる複数
の駆動波形を保持しており、駆動波形探索部４１２から
の動波形を音声合成部４１３に送出する構成となってい
る。

【０００４】一方、図７に示した声道パラメータ分析部
４１４は、入力音声を分析して声道モデルを示す声道パ
ラメータを求め、音声合成部４１３に送出する構成とな
っている。この音声合成部４１３は、駆動波形との入力
に応じて、上述した声道パラメータで示される声道モデ
ルをこの駆動波形によって駆動して合成音声を生成し、
誤差測定部４１５による合成音声と入力音声との誤差測
定処理に供する構成となっている。

【０００５】この誤差測定部４１５によって得られた合
成音声と入力音声との誤差に基づいて、駆動波形探索部
４１２は、最も誤差を小さくする最適駆動波形を探索す
る構成となっており、この最適駆動波形を示す駆動波形
番号と上述した声道パラメータとからなる音声情報を後
段の送信処理に供することにより、音声情報の送信に要
する帯域を圧縮していた。

【０００６】また、このようにして符号化された音声情
報の送受信装置に、エコーキャンセラや誤り訂正技術な
どを適用することにより、符号化音声情報を正確に伝達
するシステムが実現されている。

【０００７】

【発明が解決しようとする課題】ところで、従来の音声
符号化処理部４１０は、上述したように、受話部４０１
で捉えられた音声をそのまま受け取っており、話者が発
声した有効な会話音声と外部から混入した雑音とを全く
区別していなかった。

【０００８】このように、話者によって発声された有効
な会話音声と周囲の騒音とが同等に扱われているため
に、電車の中や雑踏、工場のように、騒音の多い環境で
は、騒音のために話者の会話音声がかき消されてしまう
場合があり、会話音声の全てを入力することはできなか
った。本発明は、騒音などの外部音声の有無にかかわら
ず、話者が発声した有効な会話音声を選択的かつ漏れな
く入力する音声情報入力装置を提供することを目的とす
る。

【０００９】

【課題を解決するための手段】図１に、本発明の原理ブ
ロック図を示す。請求項１の発明は、話者が発声した会
話音声を含む音声を収集し、音声を表す音声情報として
入力する音声入力手段１１１と、話者の口唇に近接して
配置され、話者が音声を発声する際の口唇の形状パター
ンを表す口話画像を入力する口話画像入力手段１１２
と、口話画像を受け取り、話者の口唇の形状パターンに
対応する音声を認識して、音声を表す音声情報を認識結
果として送出する口話パターン認識手段１１３と、音声
入力手段１１１によって入力された音声情報と口話パタ
ーン認識手段１１３による認識結果とを比較する比較手
段１１４と、比較手段１１４による比較結果に応じて、
音声入力手段１１１によって入力された音声情報と口話
パターン認識手段１１３による認識結果とのいずれかを
選択し、入力音声情報として後段の処理手段に送出する
選択手段１１５とを備えたことを特徴とする。

【００１０】請求項１の発明は、口話画像入力手段１１
２を介して受け取った口話画像に基づいて、口話パター
ン認識手段１１３が動作することにより、話者の口唇の
形状パターンに対応する会話音声を認識し、この会話音
声に対応する音声情報と音声入力手段１１１によって入
力された音声情報とともに、比較手段１１４および選択
手段１１５の処理に供することにより、音声入力手段１
１１を介して入力された音声情報の一部に代えて、口話
画像に基づいて得られた音声情報の該当する部分を後段
の処理手段に音声情報として入力することができる。

【００１１】これにより、例えば、音声入力手段１１１
を介して入力された音声においては、周囲の音声によっ
て話者による会話音声が消されていた場合などに、口話
画像に基づいて得られた音声によって、欠けた部分の音
声情報を補うことができる。請求項２の発明は、請求項
１に記載の音声情報入力装置において、口話画像の入力
に応じて、話者の口唇の動きを検出する動き検出手段１
１６を備え、選択手段１１５は、動き検出手段１１６に
よる検出結果と比較手段１１４による比較結果とに応じ
て、入力音声情報を選択する構成であることを特徴とす
る。

【００１２】請求項２の発明は、動き検出手段１１６に
より、口唇の動きの有無に基づいて、会話音声の発声の
有無を判定することができるので、この検出結果に応じ
て選択手段１１５が動作することにより、会話音声に対
応する音声情報のみを選択的に入力することが可能とな
る。請求項３の発明は、請求項１に記載の音声情報入力
装置において、音声入力手段１１１は、話者によって発
声された音声を適切なサンプリング周期でサンプリング
するサンプリング手段１２１と、サンプリング手段１２
１によってサンプリングされた音声の入力に応じて音声
の特徴評価処理を行い、音声の特徴を表すパラメータを
音声情報として出力する特徴評価手段１２２とを備えた
構成であり、口話パターン認識手段１１３は、入力が予
想される音声それぞれについて、標準的な発音がなされ
る際の口唇の形状パターンを口話テンプレートとして保
持するテンプレート保持手段１２３と、口話テンプレー
トそれぞれに対応して、該当する音声の特徴を表すパラ
メータを保持するパラメータ保持手段１２４と、入力さ
れた口話画像とテンプレート保持手段１２３に保持され
た口話テンプレートそれぞれとの類似度を求め、最も類
似度の高い口話テンプレートを探索する探索手段１２５
と、探索手段１２５による探索結果に基づいて、パラメ
ータ保持手段１２４から該当する口話テンプレートに対
応するパラメータを検索し、口話画像に対応する認識結
果として出力する検索手段１２６とを備えた構成である
ことを特徴とする。

【００１３】請求項３の発明は、音声入力手段１１１に
備えられたサンプリング手段１２１および特徴評価手段
１２２と、口話パターン認識手段１１３に備えられた探
索手段１２５および検索手段１２６とが、それぞれ動作
することにより、入力音声の特徴を表すパラメータと口
話画像に対応する音声の特徴を表すパラメータとがそれ
ぞれ得ることができる。

【００１４】したがって、比較手段１１４は、これらの
パラメータを相互に比較することにより、入力音声と口
話画像に対応する音声とが一致しているか否かを判定す
ることが可能となり、比較手段１１４の構成を簡略化す
ることができる。

【００１５】

【発明の実施の形態】以下、図面に基づいて、本発明の
実施形態について詳細に説明する。

【００１６】図２に、本発明の音声入力装置の実施形態
を示す。図２に示した音声情報入力装置において、画像
入力部２０１は、請求項１で述べた口話画像入力手段１
１２に相当するものであり、例えば、受話部４０１に備
えられたマイクに近接してＣＣＤ撮像素子を配置するこ
とにより、このＣＣＤ素子によって話者の口唇の動きを
表す動画像を捉え、この動画像を動画像処理部２１１を
介して口話音声作成処理部２１２の処理に供する構成と
なっている。

【００１７】一方、受話部４０１によって捉えられた入
力音声は、遅延回路２０２およびセレクタ２０３を介し
て音声符号化処理部４１０に入力されている。この音声
符号化処理部４１０は、タイミング制御部２０４からの
指示に応じて、遅延回路２０２を介して受け取った入力
音声に対して従来と同等の符号化処理を行い、得られた
駆動波形番号をセレクタ２０５を介して送出し、入力音
声の特徴を示すパラメータとして後段の処理に供する構
成となっている。

【００１８】図２に示した動画像処理部２１１におい
て、画像サンプリング部２１３は、タイミング制御部２
０４からの指示に応じて、画像入力部２０１によって捉
えられた動画像をサンプリングし、パターン抽出部２１
４の処理に供する構成となっている。このパターン抽出
部２１４は、画像サンプリング部２１３からサンプリン
グ画像を受け取り、このサンプリング画像に捉えられた
話者の口唇の形状を示す口話パターンを切り出して、口
話音声作成処理部２１２の処理に供する構成となってい
る。

【００１９】この口話音声作成処理部２１２は、請求項
１で述べた口話パターン認識手段１１３に相当するもの
であり、パターン抽出部２１４から受け取った口話パタ
ーンに基づいて、該当する口唇の形状によって発声され
る音声を認識し、対応する駆動波形番号を上述したセレ
クタ２０５を介して後段の処理に供する構成となってい
る。

【００２０】また、図２において、一致判定部２０６
は、この口話音声作成処理部２１２によって得られた駆
動波形番号と音声符号化処理部４１０によって得られた
駆動波形番号とを比較し、これらが一致しているか否か
を示す判定結果を出力する構成となっており、上述した
２つのセレクタ２０３、２０５は、この判定結果に応じ
て、選択動作を行う構成となっている。

【００２１】図２に示した口話音声作成処理部２１２に
おいて、口話テンプレートデータベース２２１は、入力
が予想される各音声を発声する際の口唇の典型的な形状
を示す口話テンプレートに対応して、該当する音声を出
力するために声道モデルに入力すべき駆動波形を示す駆
動波形番号を登録しており、類似度算出部２２２は、上
述した口話パターンと各口話テンプレートとの類似度を
求める構成となっている。

【００２２】例えば、口話テンプレートデータベース２
２１に、図３に示すように、各音声に対応する口唇の形
状を表すモデルを作成するためのポリゴンデータを口話
テンプレートとして登録しておき、類似度算出部２２２
は、口話パターンと口話テンプレートに基づいて作成し
たモデルとの類似度を算出する構成とすればよい。この
とき、各音声に対応する口話テンプレートとして、様々
な特徴を持つ口唇モデルに対応するポリゴンデータを登
録しておけば、話者に口唇の形状の特徴に柔軟に対応し
て、正確な認識を行うことができる。

【００２３】また、この口話音声作成処理部２１２にお
いて、最適テンプレート検出部２２３は、各口話テンプ
レートについて得られた類似度に基づいて、最も類似度
の高い口話テンプレートを検出し、得られた最適テンプ
レートに対応して口話テンプレートデータベース２２１
に保持された駆動波形番号を波形番号保持部２２４に保
持する構成となっている。

【００２４】上述したように、口話テンプレートデータ
ベース２２１に口話テンプレートとこれに適応する駆動
波形番号との組み合わせを登録する構成とすることによ
り、この口話テンプレートデータベース２２１により、
請求項３で述べたテンプレート保持手段１２３およびパ
ラメータ保持手段１２４の機能を併せて実現することが
できる。

【００２５】したがって、上述したように、口話パター
ンの入力に応じて、類似度算出部２２２と最適テンプレ
ート検出部２２３とが動作することにより、請求項３で
述べた探索手段１２５および検索手段１２６の機能を併
せて実現し、入力された口話パターンに基づいて、話者
が発声した音声を認識し、該当する音声を声道モデルを
用いて再現するためのパラメータである駆動波形番号を
得て、波形番号保持部２２４を介して、セレクタ２０５
に送出することができる。

【００２６】また、図２に示した音声データベース２２
５は、口話テンプレートデータベース２２１に登録され
た各口話テンプレートに対応して、該当する口唇の形状
から発声される音声を表す音声情報を格納する構成とな
っており、口話音声変換部２２６は、上述した最適テン
プレートに対応する音声情報に基づいて、適切な音声を
生成し、セレクタ２０３を介して音声符号化処理部４１
０に送出する構成となっている。

【００２７】一方、図２に示した動画像処理部２１１に
おいて、動き検出部２１５は、請求項２で述べた動き検
出手段１１６に相当するものであり、例えば、各サンプ
リング画像から抽出された口話パターンの変化を検出す
ることにより、話者の口唇の動きを検出し、この検出結
果を上述した音声符号化処理部４１０および口話音声作
成処理部２１２に備えられた波形番号保持部２２４に送
出する構成となっている。

【００２８】ここで、上述した動き検出部２１５と口話
音声作成処理部２１２とは、独立に動作可能であり、ま
た、これらの各部と音声符号化処理部４１０ともまた、
独立に動作可能である。したがって、遅延回路２０２に
よって、口話音声作成処理２１２による処理に要する時
間を考慮した遅延を入力音声に与えるとともに、タイミ
ング制御部２０４により、画像サンプリング処理部２１
３、口話音声作成処理部２１２および音声符号化処理部
４１０それぞれの動作タイミング調整することにより、
入力音声に対応して得られる駆動波形番号と、この音声
が発声されたときの口話画像に対応する駆動波形番号と
を同期してセレクタ２０５に入力することが可能であ
る。

【００２９】例えば、図４(ａ)，(ｂ)に示すように、口
話音声作成処理部２１２と動き検出部２１５とが、サン
プリング画像の入力に応じて並行して動作する構成と
し、これらの各部による口話画像に関する処理動作と並
行して、図５(ａ)に示すように、音声符号化処理部４１
０が、遅延回路２０２を介して受け取った音声入力に応
じてサンプリング手段１２１および特徴評価手段１２２
として動作し、後述するように、タイミング制御部２０
４からの指示に応じて、口話画像に対応する駆動波形番
号と入力音声に対応する駆動波形番号とをセレクタ２０
５に入力する構成とすればよい。

【００３０】例えば、話者が音声「あ」、「い」、
「う」、「え」を発声してから、一時発声を停止した後
に、再び音声「お」を発声したときに、図２に示した動
画像処理部２１１のサンプリング処理部２１３およびパ
ターン抽出部２１４が動作することにより、図６(ａ)に
示すように、音声「あ」、「い」、「う」、「え」、
「お」に対応する口話パターン（図６(ａ)において、符
号で示した「あ」、「い」、「う」、「え」、「お」）
とともに、話者が発声を停止している無音区間に対応す
る口話パターン（図６(ａ)において、符号「無」で示し
た）が抽出され（図４に示したステップ３０１、３０
２）、口話音声作成処理部２１２の処理に供される。

【００３１】これらの口話パターンの入力に応じて、類
似度算出部２２２および最適テンプレート検出部２２３
により、口話テンプレートデータベース２２１において
最適テンプレートを探索する処理が行われ（ステップ３
０３）、得られた最適テンプレートに対応する駆動波形
番号が波形番号保持部２２４に保持される。一方、上述
した処理と並行して、図４(ｂ)に示したステップ３１１
における口話画像の入力に応じて、動き検出部２１５
（図２参照）が動作し（ステップ３１２）、図６(ａ)に
おいて、符号「あ」、「い」、「う」、「え」、「お」
で示された口話パターンについては、話者の口唇に動き
がある旨の検出結果がそれぞれ送出される（ステップ３
１３）。

【００３２】このように、話者の口唇に動きがある旨の
検出結果が得られた場合は、図４(ａ)に示した各口話パ
ターンについての処理において、ステップ３０５の肯定
判定となる。この場合に、波形番号保持部２２４は、最
適テンプレート検出部２２３から受け取った駆動波形番
号をそのまま保持し、タイミング制御部２０４からの指
示に応じて、この駆動波形番号をセレクタ２０５に送出
（ステップ３０６）し、その後、該当する口話パターン
に関する口話音声作成処理を終了すればよい。

【００３３】一方、図６(ａ)において、符号「無」で示
した口話パターンについては、動き検出部２１５によ
り、話者の口唇に動きがない旨の検出結果が得られ、そ
の旨が波形番号保持部２２４に送出され、これに応じ
て、図４(ａ)に示したステップ３０５の否定判定とな
る。この場合に、波形番号保持部２２４は、自身が保持
していた駆動波形番号を削除し（ステップ３０７）、そ
の後、ステップ３０６に進み、タイミング制御部２０２
からの指示に応じて無音状態を表す情報として送出し、
該当する口話パターンについての口話音声作成処理を終
了すればよい。

【００３４】上述した口話画像に関する処理と並行し
て、図２に示した受話部４０１からの入力音声（図６
(ｃ)参照）に関する処理が実行される。初期状態におい
ては、図２に示したセレクタ２０３により、遅延回路２
０２によって遅延された音声（図６(ｄ)参照）が選択的
に音声符号化処理部４１０に入力され（図５(ａ)に示し
たステップ３２１）、これに応じて、従来と同等の音声
符号化処理が行われて（ステップ３２２）、得られた駆
動波形番号が音声符号化処理部４１０内部に保持され
る。

【００３５】例えば、図６(ｄ)において斜線を付して示
した区間で、話者による音声が雑音によってかき消され
てしまった場合に、この区間に対応するサンプリング周
期（図６において、サンプリング周期３から５として示
す）における入力音声に応じて、音声符号化処理部４１
０によってこれらの入力音声の特徴を示すパラメータと
して得られる駆動波形番号は、当然ながら、雑音を符号
化して得られた無効な駆動波形番号となっている（図６
(ｅ)参照）。

【００３６】一方、話者が発声した音声「あ」、「い」
に対応するサンプリング周期１、２とその後の音声
「お」に対応するサンプリング周期６のように、良好な
入力音声が得られた場合は、この入力音声を音声符号化
処理部４１０によってそのまま符号化することにより、
音声「あ」、「い」および音声「お」に対応する駆動波
形番号が得られる（図６(ｅ)参照）。

【００３７】このようにして、各サンプリング周期に対
応する駆動波形番号を得た後に、音声符号化処理部４１
０は、図５(ａ)に示すように、図２に示した動き検出部
２１５による検出結果の入力を受け（ステップ３２
３）、該当するサンプリング周期において、話者の口唇
に動きがあったか否かを判定する（ステップ３２４）。
図６(ａ)に示したように、サンプリング周期１〜４とサ
ンプリング周期６については、話者の口唇に動きがある
旨の検出結果が入力されるので、これに応じて、音声符
号化処理部４１０は、ステップ３２４の肯定判定とし
て、ステップ３２５に進み、タイミング制御部２０４か
らの指示に応じて、ステップ３２２で得た駆動波形番号
をセレクタ２０５に送出した後に、このサンプリング周
期の入力音声に関する符号化処理を終了すればよい。

【００３８】一方、サンプリング周期５においては、話
者の口唇の動きが検出されなかった旨の検出結果が入力
されるので、これに応じて、音声符号化処理部４１０
は、ステップ３２４の否定判定として、内部的に保持し
た駆動波形を削除し（ステップ３２６）、その後、ステ
ップ３２５に進んで無音状態を情報を出力し、このサン
プリング周期の入力音声に関する符号化処理を終了すれ
ばよい。

【００３９】したがって、この場合は、図６(ｆ)に示す
ように、サンプリング周期１〜４およびサンプリング周
期６については、音声符号化処理部４１０における従来
の符号化処理よって得られた駆動波形番号が、雑音に相
当するものも含めてセレクタ２０５に送出され、サンプ
リング周期５については、雑音に相当する駆動波形番号
に代えて、無音状態を示す情報が送出される。

【００４０】このようにして、入力音声に対応する駆動
波形番号と口話画像に対応する駆動波形番号とを求めた
場合は、図５(ｂ)に示すように、ステップ３３１、３３
２において２組の駆動波形番号を一致判定部２０６（図
２参照）に入力し、この一致判定部２０６が動作するこ
とにより（ステップ３３３）、請求項１で述べた比較手
段１１４の機能を実現し、入力音声と口話画像を認識し
て得られた音声とが一致しているか否かを判定すること
ができる。

【００４１】この場合は、入力音声と口話画像を認識し
て得られた音声とを比較する処理を駆動波形番号の比較
処理に置き換えることができるので、一致判定部２０６
の構成を単純化し、例えば、単に数値を比較する比較器
を用いて構成することができる。ところで、２組の駆動
波形番号が一致した場合には、上述したステップ３３３
の肯定判定として、一致判定部２０６は、請求項１で述
べた選択手段１１５に相当するセレクタ２０５を介して
入力音声から得られた駆動波形番号を選択的に出力し
（ステップ３３４）、このサンプリング周期についての
処理を終了すればよい。

【００４２】一方、２組の駆動波形番号が不一致である
場合（ステップ３３３の否定判定）に、一致判定部２０
６は、セレクタ２０５を介して口話画像から得られた駆
動波形番号を選択的に出力し（ステップ３３５）、この
サンプリング周期についての処理を終了すればよい。例
えば、各サンプリング周期において、図６(ｂ)、(ｆ)に
示した２組の駆動波形番号が入力されると、サンプリン
グ周期１、２においては、一致判定部２０６により、２
組の駆動波形番号が一致する旨の判定結果が得られるの
で、一致判定部２０６およびセレクタ２０５の動作によ
り、入力音声を音声符号化処理部４１０によって符号化
して得られた符号化結果がそのまま出力される（図６
(ｇ)参照）。

【００４３】一方、図６(ｂ)、(ｆ)から分かるように、
サンプリング周期３、４においては、雑音のために話者
が発声した音声がかき消されてしまったために、２組の
駆動波形番号は一致しない。このように、周囲から紛れ
込んだ雑音のために、本来入力されるべき話者の音声が
入力音声として得られなかった場合に、一致判定部２０
６およびセレクタ２０５の動作により、口話画像から得
られた駆動波形番号を符号化結果として選択して出力す
ることにより（図６(ｇ)参照）、話者の口唇の形状から
読み取った音声を示す音声情報によって、入力音声を補
完することが可能となる。

【００４４】これにより、周囲の雑音の有無にかかわら
ず、話者が発声した音声を正確に漏れなく入力し、後段
の処理に供することができる。ここで、特に、携帯電話
システムのような音声通信システムでは、受け手側とな
る人間により無意識的な類推処理が行われるので、前後
の音声に基づいて補完した部分の不自然さが緩和される
と期待できる。

【００４５】したがって、上述した音声情報入力装置
は、このような音声通信システムにおいて特に有用であ
り、利用者が、周囲の環境に左右されることなく、自由
に音声を入力して送信可能とすることができる。更に、
一致判定部２０６からの指示に応じてセレクタ２０３が
動作し、入力音声に代えて、口話音声作成処理部２１２
の口話音声変換部２２６によって得られた合成音声を音
声符号化処理部４１０に入力すれば、上述した駆動波形
番号とともに、口話画像に基づいて得られた認識結果に
対応する声道パラメータを符号化結果として送出するこ
とが可能である。

【００４６】

【発明の効果】以上に説明したように、請求項１の発明
によれば、話者の口唇の形状から求めた音声情報によっ
て、入力音声を補完することが可能となるので、周囲の
騒音にかかわらず、話者の音声に対応する音声情報を選
択的かつ漏れなく入力することができる。

【００４７】また、請求項２の発明によれば、話者の口
唇の動きの有無に応じて、入力音声情報を選択すること
により、話者の口唇の動きを伴わない無効な雑音音声を
排除することができる。一方、請求項３の発明によれ
ば、音声入力手段において、入力音声の特徴を表すパラ
メータを求めるとともに、口話パターン認識手段におい
て、口話画像に対応する音声の特徴を表すパラメータを
求め、これらのパラメータを一致判定処理に供する構成
とすることにより、比較手段の構成を簡略化することが
できる。

【図面の簡単な説明】

【図１】本発明の原理ブロック図である。

【図２】本発明の音声情報入力装置の実施形態を示す図
である。

【図３】口話テンプレートの例を示す図である。

【図４】口話画像処理動作を表す流れ図である。

【図５】音声符号化処理動作および入力選択処理動作を
表す流れ図である。

【図６】音声情報入力処理動作を表すタイミング図であ
る。

【図７】音声符号化処理部の構成例を示す図である。

【符号の説明】

１１１音声入力手段１１２口話画像入力手段１１３口話パターン認識手段１１４比較手段１１５選択手段１１６動き検出手段１２１音声サンプリング手段１２２特徴評価手段１２３テンプレート保持手段１２４パラメータ保持手段１２５探索手段１２６検索手段２０１画像入力部２０２遅延回路２０３、２０５セレクタ２０４タイミング制御部２０６一致判定部２１１動画像処理部２１２口話音声作成処理部２１３画像サンプリング部２１４パターン抽出部２１５動き検出部２２１口話テンプレートデータベース２２２類似度算出部２２３最適テンプレート検出部２２４波形番号保持部２２５音声データベース２２６口話音声変換部４０１受話部４１０音声符号化処理部４１１駆動波形テーブル４１２駆動波形探索部４１３音声合成部４１４声道パラメータ分析部４１５誤差測定部

Claims

【特許請求の範囲】

【請求項１】話者が発声した会話音声を含む音声を収
集し、前記音声を表す音声情報として入力する音声入力
手段と、前記話者の口唇に近接して配置され、前記話者が音声を
発声する際の口唇の形状パターンを表す口話画像を入力
する口話画像入力手段と、前記口話画像を受け取り、前記話者の口唇の形状パター
ンに対応する音声を認識して、前記音声を表す音声情報
を認識結果として送出する口話パターン認識手段と、前記音声入力手段によって入力された音声情報と前記口
話パターン認識手段による認識結果とを比較する比較手
段と、前記比較手段による比較結果に応じて、前記音声入力手
段によって入力された音声情報と前記口話パターン認識
手段による認識結果とのいずれかを選択し、入力音声情
報として後段の処理手段に送出する選択手段とを備えた
ことを特徴とする音声情報入力装置。
【請求項２】請求項１に記載の音声情報入力装置にお
いて、前記口話画像の入力に応じて、前記話者の口唇の動きを
検出する動き検出手段を備え、選択手段は、前記動き検出手段による検出結果と前記比
較手段による比較結果とに応じて、入力音声情報を選択
する構成であることを特徴とする音声情報入力装置。
【請求項３】請求項１に記載の音声情報入力装置にお
いて、音声入力手段は、話者によって発声された音声を適切なサンプリング周期
でサンプリングするサンプリング手段と、前記サンプリング手段によってサンプリングされた音声
の入力に応じて前記音声の特徴評価処理を行い、前記音
声の特徴を表すパラメータを音声情報として出力する特
徴評価手段とを備えた構成であり、口話パターン認識手段は、入力が予想される音声それぞれについて、標準的な発音
がなされる際の口唇の形状パターンを口話テンプレート
として保持するテンプレート保持手段と、前記口話テンプレートそれぞれに対応して、該当する音
声の特徴を表すパラメータを保持するパラメータ保持手
段と、入力された口話画像と前記テンプレート保持手段に保持
された口話テンプレートそれぞれとの類似度を求め、最
も類似度の高い口話テンプレートを探索する探索手段
と、前記探索手段による探索結果に基づいて、前記パラメー
タ保持手段から該当する口話テンプレートに対応するパ
ラメータを検索し、口話画像に対応する認識結果として
出力する検索手段とを備えた構成であることを特徴とす
る音声情報入力装置。