JPH0612483A

JPH0612483A - 音声入力方法及び装置

Info

Publication number: JPH0612483A
Application number: JP4169580A
Authority: JP
Inventors: Tomoji Komata; 智司小俣; Hiroshi Matsuoka; 宏松岡
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1992-06-26
Filing date: 1992-06-26
Publication date: 1994-01-21

Abstract

(57)【要約】【目的】本発明の目的は、話者の発声音量の大きさに
かかわらず正確に発声音を認識する音声入力方法及び装
置を提供することにある。【構成】人間の発声を認識して文字列を生成する音声
入力方法であって、少なくとも発声者の唇の形状あるい
は唇及び顎の形状から発声音を認識し、唇の形状変化あ
るいは唇及び顎の形状変化から発声単語を認識すること
を特徴とする。形状及び形状変化は、唇及び顎を含む領
域の画像あるいは唇周囲の筋電位波形から抽出される。
また、唇の形状あるいは唇及び顎の形状からの発声音の
認識、唇の形状変化あるいは唇及び顎の形状変化からの
発声単語の認識が学習可能なニューラルネットワークに
よって行われる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声ワープロ，ワーク
ステーシヨンの入力装置，自動翻訳電話，発声障害者の
ためのインタフエース，難聴者のための読唇装置など、
音声情報を扱うインタフエースを有する音声入力装置に
関するものである。

【０００２】

【従来の技術】従来、上記分野で広く利用される音声入
力インタフエースは、概略的には図６のように、情報獲
得部１５と情報認識部１６と主情報処理部１７とからな
る。情報獲得部１５にはマイクロフォン２６などの音声
情報を電気信号に変換する装置を用い、入力される音声
波形２５を対応する電気信号２７に変換して、情報認識
部１６に入力する。情報認識部１６では音韻抽出部３５
で音韻を抽出し、抽出された音韻データ３６を音韻認識
部３７で認識して、音韻コード３８を主情報処理部１７
に出力する。主情報処理部１７では、言語処理部４５で
入力された音韻コード３８から文字列，文章あるいはテ
キスト４６を再生して出力する。

【０００３】

【発明が解決しようとしている課題】しかしながら、従
来の方式では、マイクロフォンに良好なＳ／Ｎ比で確実
に情報を入力するためには、ある程度の音量が必要であ
る。このため、音声入力装置の使用者はある程度の大声
で発声し、周囲の人々にとつてはうるさく、周辺からみ
ると独り言を大声で言っているようで無気味であるとい
つた問題がある。また、周囲の雑音（特に話し声）の大
きい場所では、クロストークの問題も発生してさらにＳ
／Ｎ比が低下するため、オフイス等に音声入力装置を並
べて設置することは困難である。

【０００４】本発明は、前記従来の欠点を除去し、話者
の発声音量の大きさにかかわらず正確に発声音を認識す
る音声入力方法及び装置を提供する。

【０００５】

【課題を解決するための手段】この課題を解決するため
に、本発明の音声入力方法は、人間の発声を認識して文
字列を生成する音声入力方法であって、少なくとも発声
者の唇の形状から発声音を認識する。ここで、前記唇の
形状は唇及び顎を含む領域の画像から抽出される。ま
た、前記唇の形状は唇周囲の筋電位波形から抽出され
る。更に、顎の形状も考慮に入れる。ここで、前記唇及
び顎の形状は唇及び顎を含む領域の画像から抽出され
る。また、前記唇及び顎の形状は唇周囲の筋電位波形か
ら抽出される。前記唇の形状あるいは唇及び顎の形状か
らニューラルネットワークによって発声音を認識するこ
とが好ましい。

【０００６】また、本発明の音声入力方法は、人間の発
声を認識して文字列を生成する音声入力方法であって、
少なくとも発声者の唇の形状の変化から発声単語を認識
する。ここで、前記唇の形状の変化は唇及び顎を含む領
域の画像から抽出される。また、前記唇の形状の変化は
唇周囲の筋電位波形から抽出される。更に、顎の形状の
変化も考慮に入れる。ここで、前記唇及び顎の形状の変
化は唇及び顎を含む領域の画像から抽出される。また、
前記唇及び顎の形状の変化は唇周囲の筋電位波形から抽
出される。また、前記唇の形状あるいは唇及び顎の形状
の変化からニューラルネットワークによって発声単語を
認識することが好ましい。

【０００７】また、本発明の音声入力装置は、人間の発
声を認識して文字列を生成する音声入力装置であって、
発声者の少なくとも唇を含む領域の画像を入力する画像
入力手段と、該画像から唇の形状を抽出する形状抽出手
段と、該唇の形状から発声音を認識する発声音認識手段
とを備える。ここで、前記発声音認識手段は学習可能な
ニューラルネットワークを含むことが好ましい。

【０００８】また、本発明の音声入力装置は、人間の発
声を認識して文字列を生成する音声入力装置であって、
発声者の少なくとも唇と顎とを含む領域の画像を入力す
る画像入力手段と、該画像から唇及び顎の形状を抽出す
る形状抽出手段と、該唇及び顎の形状から発声音を認識
する発声音認識手段とを備える。ここで、前記発声音認
識手段は学習可能なニューラルネットワークを含むこと
が好ましい。

【０００９】また、本発明の音声入力装置は、人間の発
声を認識して文字列を生成する音声入力装置であって、
発声者の少なくとも唇を含む領域の画像を入力する画像
入力手段と、該画像から唇の形状の変化を抽出する形状
変化抽出手段と、該唇の形状の変化から発声単語を認識
する発声単語認識手段とを備える。ここで、前記発声単
語認識手段は学習可能なニューラルネットワークを含む
ことが好ましい。

【００１０】また、本発明の音声入力装置は、人間の発
声を認識して文字列を生成する音声入力装置であって、
発声者の少なくとも唇と顎とを含む領域の画像を入力す
る画像入力手段と、該画像から唇及び顎の形状変化を抽
出する形状変化抽出手段と、該唇及び顎の形状変化から
発声単語を認識する発声単語認識手段とを備える。ここ
で、前記発声単語認識手段は学習可能なニューラルネッ
トワークを含むことが好ましい。

【００１１】また、本発明の音声入力装置は、人間の発
声を認識して文字列を生成する音声入力装置であって、
発声者の唇周辺の筋電位を入力する筋電位入力手段と、
該筋電位から唇の形状を抽出する形状抽出手段と、該唇
の形状から発声音を認識する発声音認識手段とを備え
る。ここで、前記発声音認識手段は学習可能なニューラ
ルネットワークを含むことが好ましい。

【００１２】また、本発明の音声入力装置は、人間の発
声を認識して文字列を生成する音声入力装置であって、
発声者の唇周辺の筋電位を入力する筋電位入力手段と、
該筋電位から唇の形状の変化を抽出する形状変化抽出手
段と、該唇の形状変化から発声単語を認識する発声単語
認識手段とを備える。ここで、前記発声単語認識手段は
学習可能なニューラルネットワークを含むことが好まし
い。

【００１３】

【作用】かかる構成によれば、入力情報として口唇及び
顎の形状情報あるいは形状変化を利用することで、音声
波形を使用しないですむため、無音あるいは小音声で入
力の可能な音声入力方法及び装置が可能となつた。

【００１４】

【実施例】まず、図４に従って、人間の発声のメカニズ
ムを考察する。図４に示すように、人間は声道５５（声
帯５０から口唇５６に至るまでの腔）を舌と顔の筋肉を
動かすことで調整することによって調音を行なってい
る。そして、この筋肉の動きに伴って口唇及び顎の形状
が変化する。そこで、この口唇及び顎の形状，その動き
あるいは動きに伴なう筋電位を知ることにより、無声あ
るいは小音量でも音声を推定することが可能となる。こ
れを利用する音声入力装置の数例を以下に説明する。

【００１５】（実施例１）図１を用いて実施例１の音声
入力装置の原理，構成と動作を説明する。本実施例は音
声タイプライタの入力インタフエースに用いた例であ
る。１は口唇及び顎の形状を得るための情報獲得部、２
は口唇及び顎の形状情報を処理して発声された単語を抽
出する情報認識部、３は抽出された単語（文字列）を用
いて言語処理を行ない文章の作成・保存・印刷などを行
なう主情報処理部である。

【００１６】情報獲得部１において、口唇及び顎の形状
１１はＣＣＤカメラ１２などにより２次元画像データと
して入力される。入力は口唇及び顎が確実に捕えられる
ように目の下あたりから咽のあたりまでの範囲で行なっ
た。

【００１７】得られた画像データ１３を適当な時間間隔
でサンプリングし、情報認識部２の形状解析部２１によ
り口唇及び顎の輪郭の解析を行なう。形状解析の方法は
種々あるが、ここでは、簡単な方法としてエッジ強調な
どの画像処理後、２値化して形状を求める方法を採用し
た。解析結果１６×１６（＝２５６）画素のマトリツク
スで構成される２値データ２２として出力した。

【００１８】得られた口唇及び顎の輪郭のみを抽出した
２値画像データ２２を、予め学習済みのニユーラルネッ
ト２３の入力セルに入力し、出力２４として文字列を得
る。ニユーラルネット２３は、図５に示すように一般の
３層構成で、２５６個の入力セル６５と１２８個の中間
ユニット６６と２０３個の出力セル６７とからなる。各
入力セル６５は１つの画素の信号に対応し、出力セル６
７は２９個ずつのグループ６９が１つの文字に対応し、
本実施例では７文字からなる単語６０を順次出力する。
出力の１文字に対応する２９個のグループ６９は、アル
フアベット２６個と、句読点１個と、単語の境界に当た
る信号の立ち上がりと立ち下がりのそれぞれ１個とに対
応する。学習はバックプロパゲーション法を用いた。

【００１９】ニユーラルネット出力２４として得られた
文字列は、いわゆるワードプロセッサである言語処理部
３１に入力され、文章作成・保存等の処理を行い文章３
２として表示・印刷が行なわれる。

【００２０】現在、口唇及び顎の輪郭パターンと発声単
語との関係をアルゴリズミックに記述することはできて
いないが、本実施例では、図５のようなニユーラルネッ
トの学習を用いたことにより、対応付けアルゴリズムの
記述なしに口唇及び顎の輪郭パターンと発声単語との対
応づけが可能となつた。

【００２１】（実施例２）図２は実施例２の音声入力装
置の構成図である。口唇及び顎の形状情報から発声され
た単語を推定するのに、形状の変化の情報をも用いるこ
とは有効である。そこで、本実施例では形状情報の解像
度を落して、変わりに変化の情報を単語推定に用いた。
実施例１と同様に、４は口唇及び顎の形状情報を得るた
めの情報獲得部、５は口唇及び顎の形状情報を処理して
発声された単語を抽出する情報認識部、６は抽出された
単語（文字列）を用いて言語処理を行ない文章の作成・
保存・印刷などを行なう主情報処理部である。

【００２２】図２の情報獲得部４の構成及び動作と形状
解析部５１までの構成及び動作は、実施例１の図１の情
報獲得部１と形状解析部２１までと全く同様である。た
だし、本実施例では画像サンプリングを実施例１の８倍
速い時間で行ない、画像データは口唇及び顎の輪郭周辺
の３２ポイントを２値データ５２として出力する。

【００２３】得られた口唇及び顎の輪郭のみを抽出した
２値画像データ５２を、予め学習済みのニユーラルネッ
ト５３の入力セルに順次入力し、出力５４として文字列
を得る。ニユーラルネット５３は図５に示す実施例１と
同様の構成のものを用いた。ただし、入力５２は３２個
づつ８つのグループに分割して用い、入力セル７０から
順次３２個づつ入力し、１サンプルタイム前に入力され
た値は近接する３２個の入力セルグループ６８にシフト
させる。このとき、同様に全ての３２個の入力グループ
の値を右隣の３２個の入力グループの値として順次シフ
トさせる（最も右のグループの過去の値は捨てる）。学
習時は、古いほうから第４番目（図５の右から第４番
目）のグループの入力が、古いほうから第４番目（図５
の左から第４番目）の出力グループに対応するようにし
た。言語処理部６１以降の動作は実施例１と同様であ
る。

【００２４】（実施例３）図３は実施例２の音声入力装
置の構成図である。本実施例は口唇及び顎の輪郭の解析
に、ニユーラルネットではない画像処理方法を利用した
例である。

【００２５】図３の情報獲得部７の構成及び動作と形状
解析部８１までの構成及び動作は、実施例１の図１の情
報獲得部１と形状解析部２１までと全く同様である。。

【００２６】形状解析部８１で得らたれ１６×１６（＝
２５６）画素の２値輪郭データ８２を、単語照合部８３
で予め用意した形状−音韻マップと照合し、対応する文
字コード８４を出力する。形状−音韻マップとしては発
声学で調べられている唇の形状と調音との関係を基本と
して利用し、更に顎の形状も含めた１６×１６画素対単
語のマップを作成して用いた。輪郭データ８２とマップ
との照合には種々の方法があるが、ここでは簡単に輪郭
データ８２とマップに用意したすべての形状データとの
相関をとり、最も相関の高いものに対応するマップの音
韻の表現する単語を出力文字コード８４とした。言語処
理部９１以降の動作は実施例１と同様である。

【００２７】（実施例４）発声に伴う唇の動きによる筋
電位の発生を検出することによっても、音声の識別を行
うことができる。実施例４はこの観点からの音声入力例
例である。

【００２８】図７において、１１０は口唇及び顎の形状
を得るための情報獲得部、１２０は口唇及び顎の形状情
報を処理して発声された単語を抽出する情報認識部、１
３０は抽出された単語（文字列）を用いて言語処理を行
ない文章の作成・保存・印刷などを行なう主情報処理部
である。

【００２９】口唇周囲の筋電位波形１１１は、良く知ら
れた方法によりマルチ電極１１２などにより顔表皮下か
ら測定する。測定は口唇周囲の１０種類の表情筋に対し
て各１６個所づつ行なった。

【００３０】得られた筋電位波形１１３から、簡単のた
め波形前処理部１２１により特徴抽出を行なう。特徴抽
出の方法は種々あるが、ここでは、もっとも簡単な方法
として振幅のしきい値を設けて２値化する方法を採用し
た。

【００３１】得られた時系列の２値パターン１２２を、
予め学習済みのニューラルネット１２３の入力セルに入
力し、出力１２４として文字列を得る。ニューラルネッ
ト１２３は図１０に示す一般の３層構成のものが使用で
きる。図１０を参照して説明すれば、セルは１６０個の
入力セル６０５、８０個の中間ユニット６０６、２０３
個の出力セル６０７とからなる。各入力セルは１つの電
極の信号に対応し（１種類の表情筋から１６個の電極出
力信号が得られる）、出力セルは２９個づつのグループ
６０９が１つの文字に対応し、本実施例では７文字から
なる単語６００を順次出力する。出力の１文字に対応す
る２９個の出力セルのグループ６０９は、アルファベッ
ト２６個と、句読点１個と、単語の境界に当たる信号の
立ち上がりと立ち下がりのそれぞれ１個とに対応する。
学習はバックプロパゲーション法を用いた。

【００３２】ニューラルネット出力１２４として得られ
た文字列は、いわゆるワードプロセッサである言語処理
部１３１に入力し、文章作成・保存等の処理を行ない文
章１３２として表示・印刷等を行なう。現在、口唇周辺
の筋電位パターンと発声単語との関係をアルゴリズミッ
クに記述することはできていないが、本実施例では、図
１０のようなニューラルネットを用いたことにより、単
にある時点の筋電位パターンだけでなく、時間的に前後
のパターンをも考慮した口唇周辺の筋電位パターンと発
声単語との対応づけが可能となった。

【００３３】（実施例５）図８は実施例５の音声入力装
置の構成図である。本実施例では、口唇周囲の筋肉の動
きから発声単語を認識する。動きを計測する方法とし
て、対象画像のオプティカルフローを解析する方法が知
られている（例えば、Horn-Schunk のグラディエント
法：“Determining opticalflow ” Artificial Intell
ignec,17,pp185-203,0981 ）。本実施例では、口唇周囲
の筋肉の動きの測定にオプティカルフローを用いる。

【００３４】実施例４と同様に、１４０は口唇周囲の筋
電位波形を得るための情報獲得部、１５０は筋電位波形
を処理して発声された単語を抽出する情報認識部、１６
０は抽出された単語（文字列）を用いて言語処理を行な
い文章の作成・保存・印刷などを行なう主情報処理部で
ある。

【００３５】情報獲得部１４０において、口唇周囲の動
き１４１はＣＣＤカメラ１４２等により動画像データと
して測定する。

【００３６】得られた入力画像１４３をもとに、Horn-S
chunk の方法により各点の動きベクトルを推定する処理
をオプティカルフローの計算部１５１で行なう。そし
て、表情筋のうち特に口輪筋，頬筋に注目し、また口唇
の開閉等の動きを見るための上唇，下唇に注目し、それ
ぞれの部分に対応するオプティカルフローの平均速度成
分（ｕ，ｖ）を要素とする８次元のベクトルｘを抽出す
る。このｘを予め学習サンプルに対する主成分分析から
直交化した特徴ベクトルに変換する。簡単のため、口の
開閉と唇の伸縮に対応すると考えられる第１，第２固有
ベクトルにのみ注目して得られる２つの特徴量１５２を
２つの時系列波形として出力させた。

【００３７】単語認識部１５３では、時系列波形１５２
のゼロクロス点の間を１つのセグメントとし、予め学習
したセグメント辞書との照合を行なうことにより、単語
認識を行ない、推定された単語１５４を出力する。照合
は良く知られた種々のマッチング法のどれを使用しても
よいが、本実施例では入力から得られた２つの特徴量１
５２と辞書の２つの特徴量それぞれの差をもとに計算さ
れる重み付き２乗誤差が最小となる単語列を推定結果と
する照合を採用した。言語処理部１６１以降の動作は実
施例１と同様である。

【００３８】（実施例６）図９は実施例６の音声入力装
置の構成図である。実施例５と同様に口唇の動きをオプ
ティカルフローを用いて計測する装置であるが、実施例
５では簡単化のため特徴量を２つに集約したことにより
単語の認識率が若干悪くなっている。そこで、本実施例
では、情報認識部にニューラルネットを用い認識率の改
善を計った。ニューラルネットとしては、図１０に示す
実施例４と同様の構成のものを示した。

【００３９】図９の情報獲得部１７０の構成及び動作と
オプティカルフローの計算部１８１までの構成及び動作
は、実施例５を示す図８の情報獲得部１４０とオプティ
カルフローの計算部１５１までと全く同様である。

【００４０】オプティカルフローの計算部１８１で得ら
れた８次元の特徴ベクトルｘの８つの要素１８２を適当
な時間間隔でサンプリングし、ニューラルネット１８３
の１６０個の入力セルのうち、図１０の入力グループ７
００に順次８入力づつ入力する。１つ前にサンプルされ
た値は近接する８つの入力セル（入力グループ６０８）
にシフトさせる。このとき、同様にすべての８つの入力
グループの値を右隣の８つの入力グループの値として順
次シフトさせる（最も右のグループの過去の値は捨て
る）。

【００４１】ニューラルネットの使い方として、注目す
るオプティカルフローの部位を８０個所に増やし、得ら
れる特徴ベクトルの次元を１６０に増やし、各要素の値
出力を同時にニューラルネットの入力セルに結線する方
法も可能である。

【００４２】予めバックプロパゲーション法で学習させ
てあるニューラルネット１８３は、実施例４と同様に文
字列１８４を順次出力する。学習時は、古いほうから第
１０番目（図１０の右から第１０番目）のグループの入
力が、古いほうから第４番目（図１０の左から第４番
目）の出力グループに対応する様にした。以降の動作
は、実施例４，実施例５と同様である。本実施例により
認識率が改善された。

【００４３】尚、本発明は、複数の機器から構成される
システムに適用しても、１つの機器から成る装置に適用
しても良い。また、本発明はシステム或は装置にプログ
ラムを供給することによつて達成される場合にも適用で
きることは言うまでもない。

【００４４】

【発明の効果】以上説明したように、本発明により、話
者の発声音量の大きさにかかわらず正確に発声音を認識
する音声入力方法及び装置を提供できる。すなわち、音
声波形を使用しない、すなわち無音あるいは小音声で入
力の可能な音声入力方法及び装置が実現した。この方法
及び装置により、周囲に対する騒音源とならず、また周
囲の雑音に邪魔されずに音声入力が行なえる。このこと
により、快適なオフイス環境が提供され得る。

【図面の簡単な説明】

【図１】本発明の実施例１の音声入力装置の構成を示す
図である。

【図２】本発明の実施例２の音声入力装置の構成を示す
図である。

【図３】本発明の実施例３の音声入力装置の構成を示す
図である。

【図４】人間の音声発声に関わる器官を説明する図であ
る。

【図５】実施例１，２で用いたニユーラルネットの構成
を説明するための図である。

【図６】従来の音声入力装置の構成を説明する図であ
る。

【図７】本発明の実施例４の音声入力装置の構成を示す
図である。

【図８】本発明の実施例５の音声入力装置の構成を示す
図である。

【図９】本発明の実施例６の音声入力装置の構成を示す
図である。

【図１０】実施例４，６で用いたニユーラルネットの構
成を説明するための図である。

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁵ 識別記号庁内整理番号ＦＩ技術表示箇所Ｇ１０Ｌ 9/00 ３０１Ｃ 7627−5Ｈ 9/10 ３０１Ｃ 7627−5Ｈ

Claims

【特許請求の範囲】

【請求項１】人間の発声を認識して文字列を生成する
音声入力方法であって、少なくとも発声者の唇の形状から発声音を認識すること
を特徴とする音声入力方法。
【請求項２】前記唇の形状は唇及び顎を含む領域の画
像から抽出されることを特徴とする請求項１記載の音声
入力方法。
【請求項３】前記唇の形状は唇周囲の筋電位波形から
抽出されることを特徴とする請求項１記載の音声入力方
法。
【請求項４】更に顎の形状も考慮に入れることを特徴
とする請求項１記載の音声入力方法。
【請求項５】前記唇及び顎の形状は唇及び顎を含む領
域の画像から抽出されることを特徴とする請求項４記載
の音声入力方法。
【請求項６】前記唇及び顎の形状は唇周囲の筋電位波
形から抽出されることを特徴とする請求項４記載の音声
入力方法。
【請求項７】前記唇の形状あるいは唇及び顎の形状か
らニューラルネットワークによって発声音を認識するこ
とを特徴とする請求項１または４記載の音声入力方法。
【請求項８】人間の発声を認識して文字列を生成する
音声入力方法であって、少なくとも発声者の唇の形状の変化から発声単語を認識
することを特徴とする音声入力方法。
【請求項９】前記唇の形状の変化は唇及び顎を含む領
域の画像から抽出されることを特徴とする請求項８記載
の音声入力方法。
【請求項１０】前記唇の形状の変化は唇周囲の筋電位
波形から抽出されることを特徴とする請求項８記載の音
声入力方法。
【請求項１１】更に顎の形状の変化も考慮に入れるこ
とを特徴とする請求項８記載の音声入力方法。
【請求項１２】前記唇及び顎の形状の変化は唇及び顎
を含む領域の画像から抽出されることを特徴とする請求
項１１記載の音声入力方法。
【請求項１３】前記唇及び顎の形状の変化は唇周囲の
筋電位波形から抽出されることを特徴とする請求項１１
記載の音声入力方法。
【請求項１４】前記唇の形状あるいは唇及び顎の形状
の変化からニューラルネットワークによって発声単語を
認識することを特徴とする請求項８または１１記載の音
声入力方法。
【請求項１５】人間の発声を認識して文字列を生成す
る音声入力装置であって、発声者の少なくとも唇を含む領域の画像を入力する画像
入力手段と、該画像から唇の形状を抽出する形状抽出手段と、該唇の形状から発声音を認識する発声音認識手段とを備
えることを特徴とする音声入力装置。
【請求項１６】前記発声音認識手段は学習可能なニュ
ーラルネットワークを含むことを特徴とする請求項１５
記載の音声入力装置。
【請求項１７】人間の発声を認識して文字列を生成す
る音声入力装置であって、発声者の少なくとも唇と顎とを含む領域の画像を入力す
る画像入力手段と、該画像から唇及び顎の形状を抽出する形状抽出手段と、該唇及び顎の形状から発声音を認識する発声音認識手段
とを備えることを特徴とする音声入力装置。
【請求項１８】前記発声音認識手段は学習可能なニュ
ーラルネットワークを含むことを特徴とする請求項１７
記載の音声入力装置。
【請求項１９】人間の発声を認識して文字列を生成す
る音声入力装置であって、発声者の少なくとも唇を含む領域の画像を入力する画像
入力手段と、該画像から唇の形状の変化を抽出する形状変化抽出手段
と、該唇の形状の変化から発声単語を認識する発声単語認識
手段とを備えることを特徴とする音声入力装置。
【請求項２０】前記発声単語認識手段は学習可能なニ
ューラルネットワークを含むことを特徴とする請求項１
９記載の音声入力装置。
【請求項２１】人間の発声を認識して文字列を生成す
る音声入力装置であって、発声者の少なくとも唇と顎とを含む領域の画像を入力す
る画像入力手段と、該画像から唇及び顎の形状変化を抽出する形状変化抽出
手段と、該唇及び顎の形状変化から発声単語を認識する発声単語
認識手段とを備えることを特徴とする音声入力装置。
【請求項２２】前記発声単語認識手段は学習可能なニ
ューラルネットワークを含むことを特徴とする請求項２
１記載の音声入力装置。
【請求項２３】人間の発声を認識して文字列を生成す
る音声入力装置であって、発声者の唇周辺の筋電位を入力する筋電位入力手段と、該筋電位から唇の形状を抽出する形状抽出手段と、該唇の形状から発声音を認識する発声音認識手段とを備
えることを特徴とする音声入力装置。
【請求項２４】前記発声音認識手段は学習可能なニュ
ーラルネットワークを含むことを特徴とする請求項２３
記載の音声入力装置。
【請求項２５】人間の発声を認識して文字列を生成す
る音声入力装置であって、発声者の唇周辺の筋電位を入力する筋電位入力手段と、該筋電位から唇の形状の変化を抽出する形状変化抽出手
段と、該唇の形状変化から発声単語を認識する発声単語認識手
段とを備えることを特徴とする音声入力装置。
【請求項２６】前記発声単語認識手段は学習可能なニ
ューラルネットワークを含むことを特徴とする請求項２
５記載の音声入力装置。