JPH0612483A - 音声入力方法及び装置 - Google Patents

音声入力方法及び装置

Info

Publication number
JPH0612483A
JPH0612483A JP4169580A JP16958092A JPH0612483A JP H0612483 A JPH0612483 A JP H0612483A JP 4169580 A JP4169580 A JP 4169580A JP 16958092 A JP16958092 A JP 16958092A JP H0612483 A JPH0612483 A JP H0612483A
Authority
JP
Japan
Prior art keywords
lips
shape
voice input
input device
lip
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP4169580A
Other languages
English (en)
Inventor
Tomoji Komata
智司 小俣
Hiroshi Matsuoka
宏 松岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP4169580A priority Critical patent/JPH0612483A/ja
Publication of JPH0612483A publication Critical patent/JPH0612483A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Abstract

(57)【要約】 【目的】 本発明の目的は、話者の発声音量の大きさに
かかわらず正確に発声音を認識する音声入力方法及び装
置を提供することにある。 【構成】 人間の発声を認識して文字列を生成する音声
入力方法であって、少なくとも発声者の唇の形状あるい
は唇及び顎の形状から発声音を認識し、唇の形状変化あ
るいは唇及び顎の形状変化から発声単語を認識すること
を特徴とする。形状及び形状変化は、唇及び顎を含む領
域の画像あるいは唇周囲の筋電位波形から抽出される。
また、唇の形状あるいは唇及び顎の形状からの発声音の
認識、唇の形状変化あるいは唇及び顎の形状変化からの
発声単語の認識が学習可能なニューラルネットワークに
よって行われる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音声ワープロ,ワーク
ステーシヨンの入力装置,自動翻訳電話,発声障害者の
ためのインタフエース,難聴者のための読唇装置など、
音声情報を扱うインタフエースを有する音声入力装置に
関するものである。
【0002】
【従来の技術】従来、上記分野で広く利用される音声入
力インタフエースは、概略的には図6のように、情報獲
得部15と情報認識部16と主情報処理部17とからな
る。情報獲得部15にはマイクロフォン26などの音声
情報を電気信号に変換する装置を用い、入力される音声
波形25を対応する電気信号27に変換して、情報認識
部16に入力する。情報認識部16では音韻抽出部35
で音韻を抽出し、抽出された音韻データ36を音韻認識
部37で認識して、音韻コード38を主情報処理部17
に出力する。主情報処理部17では、言語処理部45で
入力された音韻コード38から文字列,文章あるいはテ
キスト46を再生して出力する。
【0003】
【発明が解決しようとしている課題】しかしながら、従
来の方式では、マイクロフォンに良好なS/N比で確実
に情報を入力するためには、ある程度の音量が必要であ
る。このため、音声入力装置の使用者はある程度の大声
で発声し、周囲の人々にとつてはうるさく、周辺からみ
ると独り言を大声で言っているようで無気味であるとい
つた問題がある。また、周囲の雑音(特に話し声)の大
きい場所では、クロストークの問題も発生してさらにS
/N比が低下するため、オフイス等に音声入力装置を並
べて設置することは困難である。
【0004】本発明は、前記従来の欠点を除去し、話者
の発声音量の大きさにかかわらず正確に発声音を認識す
る音声入力方法及び装置を提供する。
【0005】
【課題を解決するための手段】この課題を解決するため
に、本発明の音声入力方法は、人間の発声を認識して文
字列を生成する音声入力方法であって、少なくとも発声
者の唇の形状から発声音を認識する。ここで、前記唇の
形状は唇及び顎を含む領域の画像から抽出される。ま
た、前記唇の形状は唇周囲の筋電位波形から抽出され
る。更に、顎の形状も考慮に入れる。ここで、前記唇及
び顎の形状は唇及び顎を含む領域の画像から抽出され
る。また、前記唇及び顎の形状は唇周囲の筋電位波形か
ら抽出される。前記唇の形状あるいは唇及び顎の形状か
らニューラルネットワークによって発声音を認識するこ
とが好ましい。
【0006】また、本発明の音声入力方法は、人間の発
声を認識して文字列を生成する音声入力方法であって、
少なくとも発声者の唇の形状の変化から発声単語を認識
する。ここで、前記唇の形状の変化は唇及び顎を含む領
域の画像から抽出される。また、前記唇の形状の変化は
唇周囲の筋電位波形から抽出される。更に、顎の形状の
変化も考慮に入れる。ここで、前記唇及び顎の形状の変
化は唇及び顎を含む領域の画像から抽出される。また、
前記唇及び顎の形状の変化は唇周囲の筋電位波形から抽
出される。また、前記唇の形状あるいは唇及び顎の形状
の変化からニューラルネットワークによって発声単語を
認識することが好ましい。
【0007】また、本発明の音声入力装置は、人間の発
声を認識して文字列を生成する音声入力装置であって、
発声者の少なくとも唇を含む領域の画像を入力する画像
入力手段と、該画像から唇の形状を抽出する形状抽出手
段と、該唇の形状から発声音を認識する発声音認識手段
とを備える。ここで、前記発声音認識手段は学習可能な
ニューラルネットワークを含むことが好ましい。
【0008】また、本発明の音声入力装置は、人間の発
声を認識して文字列を生成する音声入力装置であって、
発声者の少なくとも唇と顎とを含む領域の画像を入力す
る画像入力手段と、該画像から唇及び顎の形状を抽出す
る形状抽出手段と、該唇及び顎の形状から発声音を認識
する発声音認識手段とを備える。ここで、前記発声音認
識手段は学習可能なニューラルネットワークを含むこと
が好ましい。
【0009】また、本発明の音声入力装置は、人間の発
声を認識して文字列を生成する音声入力装置であって、
発声者の少なくとも唇を含む領域の画像を入力する画像
入力手段と、該画像から唇の形状の変化を抽出する形状
変化抽出手段と、該唇の形状の変化から発声単語を認識
する発声単語認識手段とを備える。ここで、前記発声単
語認識手段は学習可能なニューラルネットワークを含む
ことが好ましい。
【0010】また、本発明の音声入力装置は、人間の発
声を認識して文字列を生成する音声入力装置であって、
発声者の少なくとも唇と顎とを含む領域の画像を入力す
る画像入力手段と、該画像から唇及び顎の形状変化を抽
出する形状変化抽出手段と、該唇及び顎の形状変化から
発声単語を認識する発声単語認識手段とを備える。ここ
で、前記発声単語認識手段は学習可能なニューラルネッ
トワークを含むことが好ましい。
【0011】また、本発明の音声入力装置は、人間の発
声を認識して文字列を生成する音声入力装置であって、
発声者の唇周辺の筋電位を入力する筋電位入力手段と、
該筋電位から唇の形状を抽出する形状抽出手段と、該唇
の形状から発声音を認識する発声音認識手段とを備え
る。ここで、前記発声音認識手段は学習可能なニューラ
ルネットワークを含むことが好ましい。
【0012】また、本発明の音声入力装置は、人間の発
声を認識して文字列を生成する音声入力装置であって、
発声者の唇周辺の筋電位を入力する筋電位入力手段と、
該筋電位から唇の形状の変化を抽出する形状変化抽出手
段と、該唇の形状変化から発声単語を認識する発声単語
認識手段とを備える。ここで、前記発声単語認識手段は
学習可能なニューラルネットワークを含むことが好まし
い。
【0013】
【作用】かかる構成によれば、入力情報として口唇及び
顎の形状情報あるいは形状変化を利用することで、音声
波形を使用しないですむため、無音あるいは小音声で入
力の可能な音声入力方法及び装置が可能となつた。
【0014】
【実施例】まず、図4に従って、人間の発声のメカニズ
ムを考察する。図4に示すように、人間は声道55(声
帯50から口唇56に至るまでの腔)を舌と顔の筋肉を
動かすことで調整することによって調音を行なってい
る。そして、この筋肉の動きに伴って口唇及び顎の形状
が変化する。そこで、この口唇及び顎の形状,その動き
あるいは動きに伴なう筋電位を知ることにより、無声あ
るいは小音量でも音声を推定することが可能となる。こ
れを利用する音声入力装置の数例を以下に説明する。
【0015】(実施例1)図1を用いて実施例1の音声
入力装置の原理,構成と動作を説明する。本実施例は音
声タイプライタの入力インタフエースに用いた例であ
る。1は口唇及び顎の形状を得るための情報獲得部、2
は口唇及び顎の形状情報を処理して発声された単語を抽
出する情報認識部、3は抽出された単語(文字列)を用
いて言語処理を行ない文章の作成・保存・印刷などを行
なう主情報処理部である。
【0016】情報獲得部1において、口唇及び顎の形状
11はCCDカメラ12などにより2次元画像データと
して入力される。入力は口唇及び顎が確実に捕えられる
ように目の下あたりから咽のあたりまでの範囲で行なっ
た。
【0017】得られた画像データ13を適当な時間間隔
でサンプリングし、情報認識部2の形状解析部21によ
り口唇及び顎の輪郭の解析を行なう。形状解析の方法は
種々あるが、ここでは、簡単な方法としてエッジ強調な
どの画像処理後、2値化して形状を求める方法を採用し
た。解析結果16×16(=256)画素のマトリツク
スで構成される2値データ22として出力した。
【0018】得られた口唇及び顎の輪郭のみを抽出した
2値画像データ22を、予め学習済みのニユーラルネッ
ト23の入力セルに入力し、出力24として文字列を得
る。ニユーラルネット23は、図5に示すように一般の
3層構成で、256個の入力セル65と128個の中間
ユニット66と203個の出力セル67とからなる。各
入力セル65は1つの画素の信号に対応し、出力セル6
7は29個ずつのグループ69が1つの文字に対応し、
本実施例では7文字からなる単語60を順次出力する。
出力の1文字に対応する29個のグループ69は、アル
フアベット26個と、句読点1個と、単語の境界に当た
る信号の立ち上がりと立ち下がりのそれぞれ1個とに対
応する。学習はバックプロパゲーション法を用いた。
【0019】ニユーラルネット出力24として得られた
文字列は、いわゆるワードプロセッサである言語処理部
31に入力され、文章作成・保存等の処理を行い文章3
2として表示・印刷が行なわれる。
【0020】現在、口唇及び顎の輪郭パターンと発声単
語との関係をアルゴリズミックに記述することはできて
いないが、本実施例では、図5のようなニユーラルネッ
トの学習を用いたことにより、対応付けアルゴリズムの
記述なしに口唇及び顎の輪郭パターンと発声単語との対
応づけが可能となつた。
【0021】(実施例2)図2は実施例2の音声入力装
置の構成図である。口唇及び顎の形状情報から発声され
た単語を推定するのに、形状の変化の情報をも用いるこ
とは有効である。そこで、本実施例では形状情報の解像
度を落して、変わりに変化の情報を単語推定に用いた。
実施例1と同様に、4は口唇及び顎の形状情報を得るた
めの情報獲得部、5は口唇及び顎の形状情報を処理して
発声された単語を抽出する情報認識部、6は抽出された
単語(文字列)を用いて言語処理を行ない文章の作成・
保存・印刷などを行なう主情報処理部である。
【0022】図2の情報獲得部4の構成及び動作と形状
解析部51までの構成及び動作は、実施例1の図1の情
報獲得部1と形状解析部21までと全く同様である。た
だし、本実施例では画像サンプリングを実施例1の8倍
速い時間で行ない、画像データは口唇及び顎の輪郭周辺
の32ポイントを2値データ52として出力する。
【0023】得られた口唇及び顎の輪郭のみを抽出した
2値画像データ52を、予め学習済みのニユーラルネッ
ト53の入力セルに順次入力し、出力54として文字列
を得る。ニユーラルネット53は図5に示す実施例1と
同様の構成のものを用いた。ただし、入力52は32個
づつ8つのグループに分割して用い、入力セル70から
順次32個づつ入力し、1サンプルタイム前に入力され
た値は近接する32個の入力セルグループ68にシフト
させる。このとき、同様に全ての32個の入力グループ
の値を右隣の32個の入力グループの値として順次シフ
トさせる(最も右のグループの過去の値は捨てる)。学
習時は、古いほうから第4番目(図5の右から第4番
目)のグループの入力が、古いほうから第4番目(図5
の左から第4番目)の出力グループに対応するようにし
た。言語処理部61以降の動作は実施例1と同様であ
る。
【0024】(実施例3)図3は実施例2の音声入力装
置の構成図である。本実施例は口唇及び顎の輪郭の解析
に、ニユーラルネットではない画像処理方法を利用した
例である。
【0025】図3の情報獲得部7の構成及び動作と形状
解析部81までの構成及び動作は、実施例1の図1の情
報獲得部1と形状解析部21までと全く同様である。。
【0026】形状解析部81で得らたれ16×16(=
256)画素の2値輪郭データ82を、単語照合部83
で予め用意した形状−音韻マップと照合し、対応する文
字コード84を出力する。形状−音韻マップとしては発
声学で調べられている唇の形状と調音との関係を基本と
して利用し、更に顎の形状も含めた16×16画素対単
語のマップを作成して用いた。輪郭データ82とマップ
との照合には種々の方法があるが、ここでは簡単に輪郭
データ82とマップに用意したすべての形状データとの
相関をとり、最も相関の高いものに対応するマップの音
韻の表現する単語を出力文字コード84とした。言語処
理部91以降の動作は実施例1と同様である。
【0027】(実施例4)発声に伴う唇の動きによる筋
電位の発生を検出することによっても、音声の識別を行
うことができる。実施例4はこの観点からの音声入力例
例である。
【0028】図7において、110は口唇及び顎の形状
を得るための情報獲得部、120は口唇及び顎の形状情
報を処理して発声された単語を抽出する情報認識部、1
30は抽出された単語(文字列)を用いて言語処理を行
ない文章の作成・保存・印刷などを行なう主情報処理部
である。
【0029】口唇周囲の筋電位波形111は、良く知ら
れた方法によりマルチ電極112などにより顔表皮下か
ら測定する。測定は口唇周囲の10種類の表情筋に対し
て各16個所づつ行なった。
【0030】得られた筋電位波形113から、簡単のた
め波形前処理部121により特徴抽出を行なう。特徴抽
出の方法は種々あるが、ここでは、もっとも簡単な方法
として振幅のしきい値を設けて2値化する方法を採用し
た。
【0031】得られた時系列の2値パターン122を、
予め学習済みのニューラルネット123の入力セルに入
力し、出力124として文字列を得る。ニューラルネッ
ト123は図10に示す一般の3層構成のものが使用で
きる。図10を参照して説明すれば、セルは160個の
入力セル605、80個の中間ユニット606、203
個の出力セル607とからなる。各入力セルは1つの電
極の信号に対応し(1種類の表情筋から16個の電極出
力信号が得られる)、出力セルは29個づつのグループ
609が1つの文字に対応し、本実施例では7文字から
なる単語600を順次出力する。出力の1文字に対応す
る29個の出力セルのグループ609は、アルファベッ
ト26個と、句読点1個と、単語の境界に当たる信号の
立ち上がりと立ち下がりのそれぞれ1個とに対応する。
学習はバックプロパゲーション法を用いた。
【0032】ニューラルネット出力124として得られ
た文字列は、いわゆるワードプロセッサである言語処理
部131に入力し、文章作成・保存等の処理を行ない文
章132として表示・印刷等を行なう。現在、口唇周辺
の筋電位パターンと発声単語との関係をアルゴリズミッ
クに記述することはできていないが、本実施例では、図
10のようなニューラルネットを用いたことにより、単
にある時点の筋電位パターンだけでなく、時間的に前後
のパターンをも考慮した口唇周辺の筋電位パターンと発
声単語との対応づけが可能となった。
【0033】(実施例5)図8は実施例5の音声入力装
置の構成図である。本実施例では、口唇周囲の筋肉の動
きから発声単語を認識する。動きを計測する方法とし
て、対象画像のオプティカルフローを解析する方法が知
られている(例えば、Horn-Schunk のグラディエント
法:“Determining opticalflow ” Artificial Intell
ignec,17,pp185-203,0981 )。本実施例では、口唇周囲
の筋肉の動きの測定にオプティカルフローを用いる。
【0034】実施例4と同様に、140は口唇周囲の筋
電位波形を得るための情報獲得部、150は筋電位波形
を処理して発声された単語を抽出する情報認識部、16
0は抽出された単語(文字列)を用いて言語処理を行な
い文章の作成・保存・印刷などを行なう主情報処理部で
ある。
【0035】情報獲得部140において、口唇周囲の動
き141はCCDカメラ142等により動画像データと
して測定する。
【0036】得られた入力画像143をもとに、Horn-S
chunk の方法により各点の動きベクトルを推定する処理
をオプティカルフローの計算部151で行なう。そし
て、表情筋のうち特に口輪筋,頬筋に注目し、また口唇
の開閉等の動きを見るための上唇,下唇に注目し、それ
ぞれの部分に対応するオプティカルフローの平均速度成
分(u,v)を要素とする8次元のベクトルxを抽出す
る。このxを予め学習サンプルに対する主成分分析から
直交化した特徴ベクトルに変換する。簡単のため、口の
開閉と唇の伸縮に対応すると考えられる第1,第2固有
ベクトルにのみ注目して得られる2つの特徴量152を
2つの時系列波形として出力させた。
【0037】単語認識部153では、時系列波形152
のゼロクロス点の間を1つのセグメントとし、予め学習
したセグメント辞書との照合を行なうことにより、単語
認識を行ない、推定された単語154を出力する。照合
は良く知られた種々のマッチング法のどれを使用しても
よいが、本実施例では入力から得られた2つの特徴量1
52と辞書の2つの特徴量それぞれの差をもとに計算さ
れる重み付き2乗誤差が最小となる単語列を推定結果と
する照合を採用した。言語処理部161以降の動作は実
施例1と同様である。
【0038】(実施例6)図9は実施例6の音声入力装
置の構成図である。実施例5と同様に口唇の動きをオプ
ティカルフローを用いて計測する装置であるが、実施例
5では簡単化のため特徴量を2つに集約したことにより
単語の認識率が若干悪くなっている。そこで、本実施例
では、情報認識部にニューラルネットを用い認識率の改
善を計った。ニューラルネットとしては、図10に示す
実施例4と同様の構成のものを示した。
【0039】図9の情報獲得部170の構成及び動作と
オプティカルフローの計算部181までの構成及び動作
は、実施例5を示す図8の情報獲得部140とオプティ
カルフローの計算部151までと全く同様である。
【0040】オプティカルフローの計算部181で得ら
れた8次元の特徴ベクトルxの8つの要素182を適当
な時間間隔でサンプリングし、ニューラルネット183
の160個の入力セルのうち、図10の入力グループ7
00に順次8入力づつ入力する。1つ前にサンプルされ
た値は近接する8つの入力セル(入力グループ608)
にシフトさせる。このとき、同様にすべての8つの入力
グループの値を右隣の8つの入力グループの値として順
次シフトさせる(最も右のグループの過去の値は捨て
る)。
【0041】ニューラルネットの使い方として、注目す
るオプティカルフローの部位を80個所に増やし、得ら
れる特徴ベクトルの次元を160に増やし、各要素の値
出力を同時にニューラルネットの入力セルに結線する方
法も可能である。
【0042】予めバックプロパゲーション法で学習させ
てあるニューラルネット183は、実施例4と同様に文
字列184を順次出力する。学習時は、古いほうから第
10番目(図10の右から第10番目)のグループの入
力が、古いほうから第4番目(図10の左から第4番
目)の出力グループに対応する様にした。以降の動作
は、実施例4,実施例5と同様である。本実施例により
認識率が改善された。
【0043】尚、本発明は、複数の機器から構成される
システムに適用しても、1つの機器から成る装置に適用
しても良い。また、本発明はシステム或は装置にプログ
ラムを供給することによつて達成される場合にも適用で
きることは言うまでもない。
【0044】
【発明の効果】以上説明したように、本発明により、話
者の発声音量の大きさにかかわらず正確に発声音を認識
する音声入力方法及び装置を提供できる。すなわち、音
声波形を使用しない、すなわち無音あるいは小音声で入
力の可能な音声入力方法及び装置が実現した。この方法
及び装置により、周囲に対する騒音源とならず、また周
囲の雑音に邪魔されずに音声入力が行なえる。このこと
により、快適なオフイス環境が提供され得る。
【図面の簡単な説明】
【図1】本発明の実施例1の音声入力装置の構成を示す
図である。
【図2】本発明の実施例2の音声入力装置の構成を示す
図である。
【図3】本発明の実施例3の音声入力装置の構成を示す
図である。
【図4】人間の音声発声に関わる器官を説明する図であ
る。
【図5】実施例1,2で用いたニユーラルネットの構成
を説明するための図である。
【図6】従来の音声入力装置の構成を説明する図であ
る。
【図7】本発明の実施例4の音声入力装置の構成を示す
図である。
【図8】本発明の実施例5の音声入力装置の構成を示す
図である。
【図9】本発明の実施例6の音声入力装置の構成を示す
図である。
【図10】実施例4,6で用いたニユーラルネットの構
成を説明するための図である。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.5 識別記号 庁内整理番号 FI 技術表示箇所 G10L 9/00 301 C 7627−5H 9/10 301 C 7627−5H

Claims (26)

    【特許請求の範囲】
  1. 【請求項1】 人間の発声を認識して文字列を生成する
    音声入力方法であって、 少なくとも発声者の唇の形状から発声音を認識すること
    を特徴とする音声入力方法。
  2. 【請求項2】 前記唇の形状は唇及び顎を含む領域の画
    像から抽出されることを特徴とする請求項1記載の音声
    入力方法。
  3. 【請求項3】 前記唇の形状は唇周囲の筋電位波形から
    抽出されることを特徴とする請求項1記載の音声入力方
    法。
  4. 【請求項4】 更に顎の形状も考慮に入れることを特徴
    とする請求項1記載の音声入力方法。
  5. 【請求項5】 前記唇及び顎の形状は唇及び顎を含む領
    域の画像から抽出されることを特徴とする請求項4記載
    の音声入力方法。
  6. 【請求項6】 前記唇及び顎の形状は唇周囲の筋電位波
    形から抽出されることを特徴とする請求項4記載の音声
    入力方法。
  7. 【請求項7】 前記唇の形状あるいは唇及び顎の形状か
    らニューラルネットワークによって発声音を認識するこ
    とを特徴とする請求項1または4記載の音声入力方法。
  8. 【請求項8】 人間の発声を認識して文字列を生成する
    音声入力方法であって、 少なくとも発声者の唇の形状の変化から発声単語を認識
    することを特徴とする音声入力方法。
  9. 【請求項9】 前記唇の形状の変化は唇及び顎を含む領
    域の画像から抽出されることを特徴とする請求項8記載
    の音声入力方法。
  10. 【請求項10】 前記唇の形状の変化は唇周囲の筋電位
    波形から抽出されることを特徴とする請求項8記載の音
    声入力方法。
  11. 【請求項11】 更に顎の形状の変化も考慮に入れるこ
    とを特徴とする請求項8記載の音声入力方法。
  12. 【請求項12】 前記唇及び顎の形状の変化は唇及び顎
    を含む領域の画像から抽出されることを特徴とする請求
    項11記載の音声入力方法。
  13. 【請求項13】 前記唇及び顎の形状の変化は唇周囲の
    筋電位波形から抽出されることを特徴とする請求項11
    記載の音声入力方法。
  14. 【請求項14】 前記唇の形状あるいは唇及び顎の形状
    の変化からニューラルネットワークによって発声単語を
    認識することを特徴とする請求項8または11記載の音
    声入力方法。
  15. 【請求項15】 人間の発声を認識して文字列を生成す
    る音声入力装置であって、 発声者の少なくとも唇を含む領域の画像を入力する画像
    入力手段と、 該画像から唇の形状を抽出する形状抽出手段と、 該唇の形状から発声音を認識する発声音認識手段とを備
    えることを特徴とする音声入力装置。
  16. 【請求項16】 前記発声音認識手段は学習可能なニュ
    ーラルネットワークを含むことを特徴とする請求項15
    記載の音声入力装置。
  17. 【請求項17】 人間の発声を認識して文字列を生成す
    る音声入力装置であって、 発声者の少なくとも唇と顎とを含む領域の画像を入力す
    る画像入力手段と、 該画像から唇及び顎の形状を抽出する形状抽出手段と、 該唇及び顎の形状から発声音を認識する発声音認識手段
    とを備えることを特徴とする音声入力装置。
  18. 【請求項18】 前記発声音認識手段は学習可能なニュ
    ーラルネットワークを含むことを特徴とする請求項17
    記載の音声入力装置。
  19. 【請求項19】 人間の発声を認識して文字列を生成す
    る音声入力装置であって、 発声者の少なくとも唇を含む領域の画像を入力する画像
    入力手段と、 該画像から唇の形状の変化を抽出する形状変化抽出手段
    と、 該唇の形状の変化から発声単語を認識する発声単語認識
    手段とを備えることを特徴とする音声入力装置。
  20. 【請求項20】 前記発声単語認識手段は学習可能なニ
    ューラルネットワークを含むことを特徴とする請求項1
    9記載の音声入力装置。
  21. 【請求項21】 人間の発声を認識して文字列を生成す
    る音声入力装置であって、 発声者の少なくとも唇と顎とを含む領域の画像を入力す
    る画像入力手段と、 該画像から唇及び顎の形状変化を抽出する形状変化抽出
    手段と、 該唇及び顎の形状変化から発声単語を認識する発声単語
    認識手段とを備えることを特徴とする音声入力装置。
  22. 【請求項22】 前記発声単語認識手段は学習可能なニ
    ューラルネットワークを含むことを特徴とする請求項2
    1記載の音声入力装置。
  23. 【請求項23】 人間の発声を認識して文字列を生成す
    る音声入力装置であって、 発声者の唇周辺の筋電位を入力する筋電位入力手段と、 該筋電位から唇の形状を抽出する形状抽出手段と、 該唇の形状から発声音を認識する発声音認識手段とを備
    えることを特徴とする音声入力装置。
  24. 【請求項24】 前記発声音認識手段は学習可能なニュ
    ーラルネットワークを含むことを特徴とする請求項23
    記載の音声入力装置。
  25. 【請求項25】 人間の発声を認識して文字列を生成す
    る音声入力装置であって、 発声者の唇周辺の筋電位を入力する筋電位入力手段と、 該筋電位から唇の形状の変化を抽出する形状変化抽出手
    段と、 該唇の形状変化から発声単語を認識する発声単語認識手
    段とを備えることを特徴とする音声入力装置。
  26. 【請求項26】 前記発声単語認識手段は学習可能なニ
    ューラルネットワークを含むことを特徴とする請求項2
    5記載の音声入力装置。
JP4169580A 1992-06-26 1992-06-26 音声入力方法及び装置 Withdrawn JPH0612483A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4169580A JPH0612483A (ja) 1992-06-26 1992-06-26 音声入力方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4169580A JPH0612483A (ja) 1992-06-26 1992-06-26 音声入力方法及び装置

Publications (1)

Publication Number Publication Date
JPH0612483A true JPH0612483A (ja) 1994-01-21

Family

ID=15889117

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4169580A Withdrawn JPH0612483A (ja) 1992-06-26 1992-06-26 音声入力方法及び装置

Country Status (1)

Country Link
JP (1) JPH0612483A (ja)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09224922A (ja) * 1996-02-27 1997-09-02 Nec Corp 体感入力装置
JPH1091789A (ja) * 1996-09-11 1998-04-10 Oki Electric Ind Co Ltd 単語認識装置
JP2000057325A (ja) * 1998-08-17 2000-02-25 Fuji Xerox Co Ltd 音声検出装置
US6249763B1 (en) 1997-11-17 2001-06-19 International Business Machines Corporation Speech recognition apparatus and method
US6272466B1 (en) 1997-03-04 2001-08-07 Fuji Xerox Co., Ltd Speech detection apparatus using specularly reflected light
JP2002358089A (ja) * 2001-06-01 2002-12-13 Denso Corp 音声処理装置及び音声処理方法
EP1517298A1 (en) * 2003-09-19 2005-03-23 NTT DoCoMo, Inc. Speaking period detection based on electromyography
JP2006026088A (ja) * 2004-07-15 2006-02-02 Sony Corp 信号処理装置及び信号処理方法、並びに機械装置
JP2006079456A (ja) * 2004-09-10 2006-03-23 Nippon Signal Co Ltd:The 発話識別方法及びこれを用いたパスワード照合装置
US7369991B2 (en) 2002-03-04 2008-05-06 Ntt Docomo, Inc. Speech recognition system, speech recognition method, speech synthesis system, speech synthesis method, and program product having increased accuracy
JP2008233438A (ja) * 2007-03-20 2008-10-02 National Institute Of Advanced Industrial & Technology 筋電位信号による音声認識装置
US7433718B2 (en) 2002-06-19 2008-10-07 Ntt Docomo, Inc. Mobile terminal capable of measuring a biological signal
US7480616B2 (en) 2002-02-28 2009-01-20 Ntt Docomo, Inc. Information recognition device and information recognition method
WO2020208926A1 (ja) * 2019-04-08 2020-10-15 ソニー株式会社 信号処理装置、信号処理方法及びプログラム

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09224922A (ja) * 1996-02-27 1997-09-02 Nec Corp 体感入力装置
JPH1091789A (ja) * 1996-09-11 1998-04-10 Oki Electric Ind Co Ltd 単語認識装置
US6272466B1 (en) 1997-03-04 2001-08-07 Fuji Xerox Co., Ltd Speech detection apparatus using specularly reflected light
US6249763B1 (en) 1997-11-17 2001-06-19 International Business Machines Corporation Speech recognition apparatus and method
JP2000057325A (ja) * 1998-08-17 2000-02-25 Fuji Xerox Co Ltd 音声検出装置
US6343269B1 (en) 1998-08-17 2002-01-29 Fuji Xerox Co., Ltd. Speech detection apparatus in which standard pattern is adopted in accordance with speech mode
JP2002358089A (ja) * 2001-06-01 2002-12-13 Denso Corp 音声処理装置及び音声処理方法
US7480616B2 (en) 2002-02-28 2009-01-20 Ntt Docomo, Inc. Information recognition device and information recognition method
US7369991B2 (en) 2002-03-04 2008-05-06 Ntt Docomo, Inc. Speech recognition system, speech recognition method, speech synthesis system, speech synthesis method, and program product having increased accuracy
US7680666B2 (en) 2002-03-04 2010-03-16 Ntt Docomo, Inc. Speech recognition system, speech recognition method, speech synthesis system, speech synthesis method, and program product
US7433718B2 (en) 2002-06-19 2008-10-07 Ntt Docomo, Inc. Mobile terminal capable of measuring a biological signal
CN100361197C (zh) * 2003-09-19 2008-01-09 株式会社Ntt都科摩 说话时段检测设备及方法、语音识别处理设备
US7627470B2 (en) 2003-09-19 2009-12-01 Ntt Docomo, Inc. Speaking period detection device, voice recognition processing device, transmission system, signal level control device and speaking period detection method
EP1517298A1 (en) * 2003-09-19 2005-03-23 NTT DoCoMo, Inc. Speaking period detection based on electromyography
JP2006026088A (ja) * 2004-07-15 2006-02-02 Sony Corp 信号処理装置及び信号処理方法、並びに機械装置
JP4661115B2 (ja) * 2004-07-15 2011-03-30 ソニー株式会社 信号処理装置及び信号処理方法、並びに機械装置
JP2006079456A (ja) * 2004-09-10 2006-03-23 Nippon Signal Co Ltd:The 発話識別方法及びこれを用いたパスワード照合装置
JP4553667B2 (ja) * 2004-09-10 2010-09-29 日本信号株式会社 発話識別方法及びこれを用いたパスワード照合装置
JP2008233438A (ja) * 2007-03-20 2008-10-02 National Institute Of Advanced Industrial & Technology 筋電位信号による音声認識装置
WO2020208926A1 (ja) * 2019-04-08 2020-10-15 ソニー株式会社 信号処理装置、信号処理方法及びプログラム

Similar Documents

Publication Publication Date Title
Luettin Visual speech and speaker recognition
US7680666B2 (en) Speech recognition system, speech recognition method, speech synthesis system, speech synthesis method, and program product
Potamianos et al. Recent advances in the automatic recognition of audiovisual speech
WO2019214047A1 (zh) 建立声纹模型的方法、装置、计算机设备和存储介质
US20040006468A1 (en) Automatic pronunciation scoring for language learning
EP0549265A2 (en) Neural network-based speech token recognition system and method
KR101785500B1 (ko) 근육 조합 최적화를 통한 안면근육 표면근전도 신호기반 단모음인식 방법
JPH0612483A (ja) 音声入力方法及び装置
Cole et al. Speaker-independent recognition of spoken English letters
Jackson et al. Statistical identification of articulation constraints in the production of speech
Grewal et al. Isolated word recognition system for English language
Jeyalakshmi et al. Efficient speech recognition system for hearing impaired children in classical Tamil language
Yousfi et al. Holy Qur'an speech recognition system Imaalah checking rule for warsh recitation
Yousfi et al. Isolated Iqlab checking rules based on speech recognition system
Yu Computer-aided english pronunciation accuracy detection based on lip action recognition algorithm
Hase et al. Speech Recognition: A Concise Significance
Singh et al. Features and techniques for speaker recognition
CN112329581A (zh) 基于中文发音视觉特点的唇语识别方法
Yau et al. Classification of voiceless speech using facial muscle activity and vision based techniques
Vyas et al. Improving the computational complexity and word recognition rate for dysarthria speech using robust frame selection algorithm
Goecke A stereo vision lip tracking algorithm and subsequent statistical analyses of the audio-video correlation in Australian English
CN111063371B (zh) 一种基于语谱图时间差分的语音音节数估计方法
Thandil et al. Automatic speech recognition system for utterances in Malayalam language
JP2655903B2 (ja) 音声認識装置
JP2574557B2 (ja) 音声認識方法

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 19990831