JPH09134194A - 読話のための画像認識システム - Google Patents
読話のための画像認識システムInfo
- Publication number
- JPH09134194A JPH09134194A JP8209422A JP20942296A JPH09134194A JP H09134194 A JPH09134194 A JP H09134194A JP 8209422 A JP8209422 A JP 8209422A JP 20942296 A JP20942296 A JP 20942296A JP H09134194 A JPH09134194 A JP H09134194A
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- camera
- image information
- reading
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/26—Devices for calling a subscriber
- H04M1/27—Devices whereby a plurality of signals may be stored simultaneously
- H04M1/271—Devices whereby a plurality of signals may be stored simultaneously controlled by voice recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/02—Constructional features of telephone sets
- H04M1/22—Illumination; Arrangements for improving the visibility of characters on dials
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2250/00—Details of telephonic subscriber devices
- H04M2250/52—Details of telephonic subscriber devices including functional features of a camera
Abstract
くの語彙についてより多くの人に適用できる音声認識を
行うこと。 【解決手段】 送話器104、カメラ101、データ通
信路103、及び認識処理論理回路を備える認識実行シ
ステムである。カメラ101は、送話器ハウジング10
5に取り付けられて読話のための少なくとも一つの顔の
特徴に対応する画像情報を得る。得られるであろう顔の
特徴は、舌の位置、歯の隙間、及び唇の丸くふくらむ出
っ張り等である。このような画像情報は、データ通信路
103を介して認識処理論理回路に送信され、画像情報
の読話認識に供される。したがって、音響情報に基づく
音声認識を補強するように画像情報に基づく読話認識を
用いることで、認識精度を維持したまま、より多くの語
彙についてより多くの人に適用できる音声認識を行うこ
とができるようになる。
Description
係り、特に、映像音声認識のために顔の特徴の抽出を行
う技術に関する。
は、話者のアクセント、性別、話す速度、発音の明瞭さ
の程度、聴覚上の騒雑音として存在している全てのもの
の等の障害を超えて、人間が理解するように音声を認識
することである。このような音声認識の代表的なアプロ
ーチとしては、変化率が音素要素を表現するノード(ス
テート)間のリンク中で符号化される隠れマルコフモデ
ル、ニューラルネットワークによる方法、複合的な特別
の目的を持った音韻的、辞書的及び文法的な基礎を持つ
サブシステムが結合して協働し、音声認識のスコアを最
大限にする「ブラックボード」の方法等がある。しか
し、これらの各アプローチをシステム化した音声認識に
関する近年のシステムでは、コンピュータによる発話文
書間変換や自動翻訳等の応用分野で求められる数多くの
要求を満たすのに必要な正確さ及び強健さが共に十分で
はない。
いレベルの言語情報を認識処理に含めることに多くの研
究が集中している。これに対し、人工的な音声認識シス
テムに合理的に組み入れることができる情報予測や制約
といったものも、音声認識の正確さを高める方向に働
く。例えば、人間は、聴覚で捕えた音声の理解を増すた
めに、音響信号以外の情報、例えば視覚的な情報を利用
することがあり、このような予測情報も音声認識の認識
率を高める。これは、聴覚が害された人が視覚的な情報
を活用して音声を正しく理解することがしばしば見受け
られることからも明かであろう。このような視覚情報を
利用した音声認識としては、 (a)Dodd,B. and Campbell,R.(eds.), 「目によるヒ
アリング:読唇の真理(Hearing by Eye : The Psycholo
gy of Lipreading)」,N.J.,Lawrence Erlbaum Press(19
87) (b)DeFilippo,C.L. and Sims,D.G.(eds.),「読話に
関する新たな意見(New Reflections on Speechreadin
g)」, special issue of The Volta Review 90(5),(198
8) を参照されたい。
を認識する読唇、読話では、音節及び音素について直接
的な情報が得られる。話す速度、話者の性別、話者の同
一性、背景の雑音から音声を分離するための微妙な情報
も同様に得られる。このため、音声情報が多くの雑音に
よって崩れてしまう周知の「カクテルパーティー効果」
が生じていても、話者の顔を見ることができる場合には
その人の話の内容がより明瞭になる。これは、音声認識
に際して人間が視覚情報を用いることの強力な証拠とな
ろう。
記述されている。 (a)Petajan, E.D., 他,「音声認識を高めるための進
歩した自動読唇システム(An Improved Automatic Lipre
ading System to Enhance Speech Recognition)」,ACM
SIGCHI-88, 19-25(1988); (b)Pentland,A., 他,「読唇:発声単語の自動視覚認
識(Lip Reading : Automatic Visual Recognition of S
poken Words)」,Proc. Image Understanding andMachin
e Vision, Optical Society of America, June 12-14(1
984) (c)Yuhas,B.P., 他, 「ニューラルネットワークを使
用する音響及び視覚発話信号の統合(Integration of Ac
oustic and Visual Speech Signals Using Neural Netw
orks)」, Nov.1989, IEEE Communications Magazine(19
89) Petajan,他は、視覚認識のためのラベル付けされた発声
及び標準的な距離の分類を予め格納した辞書に合わせた
言葉の生成の間、話者の顔の映像(画素)を使用するこ
とを記述している。Pentland, 他は、口を映すビデオ画
素映像から上唇、下唇、及び口の二箇所の角部の速度を
見積もるための光学的な流れの技術を記述している。そ
して、彼らは、3又は4桁の句について、構成要素分析
及び最小距離分類の原理を使用する。Yuhas, 他 は、異
なるレベルの音響的雑音が存在している中で最良の認識
を得るための視覚的及び音響的原因についての関連する
重みを調整するためのフリーパラメータを伴うコントロ
ーラと共に、母音認識のための口の輪郭の静的な映像を
使用するニューラルネットワークのトレーニングについ
て論じている。
のがある。 (a)米国特許4,975,960,1990年12月
4日発行,「電子的な顔の追跡及び検出システム及び自
動化された音声認識のための方法及び装置(Electronic
Facial Tracking and Detection System and Method an
d Apparatus forAutomated Speech Recognition)」(Pe
ntajen) (b)D.Stork, V.Prasad, G.Wolff,「読話の人間及び
機械学習(Human and Machine Learning of Speechreadi
ng)」, the Computational Learning and NeuralLearni
ng Workshop, Provincetown, Mass.に提出, September,
1993 (c)Stork, Wolff, and Levine, 「向上した音声認識
のためのニューラルネットワーク読唇システム(Neural
Network Lipreading System for Improved Speech Reco
gnition) 」, IJCNN Int'l Joint Conf. on Neural Net
works, IEEE(NewYork, NY), 1992, pgs.289-95 vol.2 (d)P.Silsbee & A.Borik,「自動読唇(Automatic Lip
reading)」,30th Int'lBiomedical Sciences Instrumen
tation Symposium, vol.29, pgs.415-422(1993)
術については、例えば電話システムが大きな市場シェア
を占めている。その一例として、株や商品の販売会社に
おける電話注文による自動取引システムがある。これ
は、電話で話す顧客の音声を認識し、その指示に基づい
て株や商品を自動売買するような電話システムである。
このようなシステムでは、周囲の雑音に対して、個々の
人が話した情報が正確かつ高い信頼性で録音、再生され
ることが最も重要であり、現在ではある程度の成功を収
めている。
ム等の電話システムが音声認識の認識率について成功を
収めているとしても、そのようなシステムではほんの僅
かばかりの語彙を利用できるに過ぎないし、利用できる
話者も限定されてしまう、という問題をがある。
読話のための画像認識システムであり、送話器ハウジン
グに収納された送話器と、送話器ハウジングに取り付け
られて読話のための少なくとも一つの顔の特徴に対応す
る画像情報を得るカメラと、このカメラに接続されてカ
メラから出力された画像情報を送信するデータ通信路
と、このデータ通信路に接続されて画像情報に基づく読
話認識を実行する認識処理論理回路とを備える。したが
って、音響情報を送信する送話器にカメラが取り付けら
れているため、送話器を使用する話者の顔がカメラに映
し出され、読話のための顔の特徴に対応する画像情報が
得られる。そこで、この画像情報がデータ通信路を介し
て認識処理論理回路に送信され、画像情報に基づく読話
認識が実行される。
やヘッドセットによって構成され、カメラは、例えば、
デジタルカメラによって構成されている。カメラにより
得られる画像情報は、例えば、使用者の舌の位置、唇の
丸くふくらむ出っ張り、あごの位置である。あごの位置
は、例えば、歯の隙間に基づく。
取り付けられて使用者の口元を照らす光源や赤外線光源
を更に含んでいても良く、赤外線光源を含む場合、カメ
ラは赤外線反応カメラや光学カメラによって構成され
る。
読話認識を実行する認識処理論理回路で処理されるデー
タを得るシステムであり、送話器と、この送話器に組み
合わされて読話のための少なくとも一つの顔の特徴に対
応する画像情報を得るカメラと、このカメラに接続され
てカメラから出力された画像情報を認識処理論理回路に
送信するデータ通信路とを備える。したがって、音響情
報を送信する送話器にカメラが取り付けられているた
め、送話器を使用する話者の顔がカメラに映し出され、
読話のための顔の特徴に対応する画像情報が得られる。
そこで、この画像情報がデータ通信路を介して認識処理
論理回路に送信され、画像情報に基づく読話認識が実行
される。
は、例えば、あごの位置であり、これは歯の隙間に基づ
く。カメラは、例えば、デジタルカメラによって構成さ
れている。
取り付けられて使用者の口元を照らす光源や赤外線光源
を更に含んでいても良く、赤外線光源を含む場合、カメ
ラは赤外線反応カメラや赤外線光学反応カメラによって
構成される。
いて説明する。
ドセット100の一例を示す。ハンドセット100は、
カメラ101及び照明光源102を備える。カメラ10
1及び照明光源102は、ハンドセット100の送話器
104の部分に対応するハウジング105(送話器ハウ
ジングを兼ねる)に取り付けられている。照明光源10
2は、使用者(図示せず)が電話で話をしている間、使
用者の口元を照明する。照明される領域は、カメラ10
1によって撮影される。カメラ101によって撮影され
た映像データは、データ通信路103経由で認識処理シ
ステムに送信され、認識を受ける。
電話機のハンドセットによって構成されている。もっと
も、ハンドセットではなく、電話機のヘットセットとし
て形成されていても良い。
接的に取り付けられ、映像による音声認識に用いられる
であろう情報を得るために、顔の特徴を抽出する映像デ
ータを獲得する。カメラ101は、小型のデジタルカメ
ラによって構成されている。このようなカメラ101
は、赤外線(IR)反応カメラ又は光学的カメラ(又は
赤外線光学反応カメラ)である。
よって構成されており、話者の口元を照明する。もっと
も、存在している光(例えば、周辺光等)が話者の口元
を照明するにの十分である場合には、照明光源102を
作動させなくても良い。
めに画像情報を局所的な場所に送信する広い帯域幅(例
えば、映像)のデータ通信路によって構成されている。
このようなデータ通信路103は、また、ハンドセット
100の送話器104に取り付けられたカメラ101に
よって撮影された画像データを、通信ネットワークやそ
れ自体が認識を受けるシステムに送信するよう構成され
ていても良い。
より送信される映像(及び音響)データは、少なくとも
一つの認識アルゴリズムを受ける。認識は、ハンドセッ
ト100で受信された映像及び音響双方のデータについ
て実行され、これにより、より正確な認識結果を得る。
る。カメラ101は、0.5〜5cm程度の幅を持ってい
る。読話のために使用する必要な顔の特徴を得るため
に、カメラ101は、得られる映像データが真正面から
の眺めとならないようにハンドセット100に位置決め
されている。つまり、カメラ101は、話者の真正面の
眺めに対してある角度をなす位置から話者の口元を撮影
する。カメラ101の位置決めは、舌の位置(for/la/,
/ta/,他 )及び唇の丸くふくらむ出っ張り(for/oo)を
得ることができる真正面からの眺めに対してある角度を
なす位置でなされる。ここでいう「ある角度」は、個々
の使用者の顔の形状や個々の使用者がハンドセット10
0を耳に当てる角度等(特徴)に依存する。したがっ
て、それらの特徴の検出、抽出が可能であるため、認識
率の向上が期待できる。さらに、カメラ101の位置
は、話者の歯の隙間を撮影することを許容するような位
置でもある。これは、あごの位置を映像から直接検出す
ることは非常に困難である反面、あごの位置は歯の隙間
から確実に推察されるためである。したがって、本実施
の形態のシステムは、舌の位置、唇の丸くふくらむ出っ
張り、及び歯の隙間を使用して読話を実行する。もっと
も、本発明は、それらの三つの特徴を使用するものには
限定されず、他の顔の特徴を使用するようなものとして
構成されていても良い。但し、使用可能な顔の特徴は、
話者の口元に対するカメラ101の位置決め及び配置に
より限定される。
力データは、データ通信路103を経由して読話認識を
実行する認識処理論理回路としての認識処理サブシステ
ムに送信される。認識処理サブシステムは、数多くある
周知のパターンマッチング技術を用いてパターンマッチ
ングを実行する。例えば、認識処理サブシステムは、時
間正規化(DTW:Dynamic Time Warping)パターン認
識、隠れマルコフ・モデル(HMM:Hidden Markov Mo
del )パターン認識、時間遅延ニューラル・ネットワー
ク(TDNN:Time Delay Neural Network )パターン
マッチング、その他の認識処理技術を用いてパターンマ
ッチングを実行する。
と協力して音声認識を実行する。この方法では、読話認
識は音声認識の正確さを高めるように動作する。
範的な読話認識システムのブロック図である。この認識
システムは、システムバス201、中央処理装置(CP
U)202、及びシステムメモリ203を中心として構
成されている。認識される話者の口元は、照明光源10
2(図1参照)か、あるいは、オフィス環境で普通に得
られるような通常の周辺光により照明される。映像は、
例えば図1のカメラ101のような標準的なデジタルカ
メラであるビデオカメラ205によって記録され、出力
されたラスタスキャン映像は、アナログデジタル変換器
(ADC)204に送信される。このADC204で
は、システムメモリ203に格納する標準化及び量子化
されたラスタイメージ(フレーム)を生成する。ラスタ
スキャンされた映像フレームのシーケンスは、ビデオカ
メラ205及びADC204によって処理され、話者に
よる一又はそれ以上の発話を表現する。
ームを生成する。ADC204によって変換された後の
各フレームは、640×480画素のアレイとなり、各
画素は、ADC204により標準化された各点で映像の
強度(輝度又はグレースケール)を表現する8ビットの
数となる。各フレームの二つ組みのフィールドでは冗長
度が高いために、フィールドは一つ置きに処分される。
レームは、空間周波数フィルタ206及び時間周波数フ
ィルタ207によって前処理される。空間周波数フィル
タ206は、空間周波数ノイズを減少させるためにスム
ージング動作又は低域通過濾過動作を実行し、映像の輪
郭をはっきりさせるためにエッジ強調動作を実行する。
空間周波数濾過された映像は、また、三つのシーケンシ
ャルフレームの幅で円滑化、すなわち、時間周波数フィ
ルタ207の低域通過フィルタを用いる時間周波数スム
ージングがなされる。濾過動作が第一の又は組み合わせ
のスムージングとして実行されるか、エッジシャープニ
ングが単一の濾過動作として実行される。空間周波数濾
過及び時間周波数濾過は、周知の技術である。システム
メモリ203には濾過された映像が格納される。
処理に使用される映像のサイズを縮小すること、すなわ
ち、発音された発話情報を含む関心領域(ROI)だけ
を保つことが望まれる。ROIは、口の開きに集中す
る。
フレーム間で静止(固定)している傾向が強く、連続的
なフレーム間の変化は口元(ROI)に多い。明るい画
素は、後続するフレーム間の大きな変化の点、すなわ
ち、口を連想する画素でありそうなものを表現してい
る。
作用によって限定される。マスクは、グレースケールの
閾値によって作成される。マスクを使用し、空間周波数
領域は、顔の特徴が得られた場所から特定される。この
領域は、三つの時空間座標によって定義される長方形領
域又は重心領域よりなる。各フレームのために、二つの
空間座標だけが使用されることに留意されたい。格納さ
れた映像に対応する領域が取り入れられ、これによっ
て、ROIによって限定された範囲に含まれている映像
画素だけが格納される。
ROIの収集した一揃えは、時間指数の関数nとしてy
軸のある地点でグレースケールから切り取られる。それ
は、顔の特徴の抽出のために使用されるかもしれない一
揃えのきっかけを形成するために用いられる情報であ
る。以前に確定された顔の特徴の抽出は、特徴抽出ユニ
ット209によって実行される。
に従い動作するCPU202によってパターン認識が実
行される。DTWの場合、参照辞書に数多くの周知の参
照パターンが格納されている。DTW処理の間、未知
(入力映像)パターンと参照パターンとの間のマッチン
グをとるために、未知パターンが辞書の参照パターンと
比較される。未知パターンの各ポイントは、各参照パタ
ーンの各ポイントと比較され、左から右にラティス(格
子形データ)を横切って走る点のラティス又はアレイの
幅でコスト関数が生成される。コストというのは、未知
パターンと参照パターンとの間の距離である。DTW処
理の目標は、各参照パターンのための格子形データを横
切って最も低いコストのパスを探し当て、未知パターン
に最もマッチするパターンを探し当てるために、参照パ
ターンのそれぞれのパスを比較することである。最もマ
ッチするパターンは、読話認識の結果としてシステムか
ら出力される。
機のハンドセット(又はヘッドセット)に直接据え付け
られているカメラを使用し、読話認識に用いるための顔
の特徴を得る。そして、音響情報に基づく音声認識を補
強するように画像情報に基づく読話認識を用いること
で、認識精度を維持したまま、より多くの語彙について
より多くの人に適用できる音声認識を行うことができる
ようになる。
ムで使用するための音声音響認識とともに実行されるか
もしれないことに留意されたい。このような場合、音声
データは、また、音声データが映像データとは全く違っ
たものとして受信され濾過されることを除き、上記と類
似の方法で認識される。映像及び音声データの双方は、
後の認識結果の収集のために時間が切り取られても良
い。このような場合、認識結果は、得られた映像及び音
声データと最もマッチする顔の特徴と音声の特徴との双
方を備える参照パターンである。
者の話を録音・再生することを目標とするようなものに
有効に利用されるであろう。そのような適用対象の例と
しては、株取引のような金融取引、例えば会社の購買部
等に設置される電話注文の自動録音等が含まれる。
供できるということである。なぜなら、単一の電話機は
概して同一の話者に繰り返し使用され、読話認識システ
ムがトレーニングされれば信頼性が高まるからである。
更に、本発明の別の優位点は、認識アルゴリズムは話者
の話の長期間に渡る変化を良く追跡することができるに
違いないということである。
びその後に続く認識を実行するために必要な構成要素と
して、読話システム、デジタルカメラ、並びに広帯域な
通信及びプロトコルというような通常のものを用いるこ
とができる、ということである。
本発明の多くの変更や修正が明かになることは疑いない
であろうし、図面として示し説明した特定の態様は、発
明内容の限定を意図したものではない。実施の態様は特
許請求の範囲を限定することを意図したものではない。
の顔の特徴に対応する画像情報を得るカメラを送話器に
据付け、カメラから出力される画像情報に基づいて読話
認識を実行できるようにしたので、音響情報に基づく音
声認識を補強するように画像情報に基づく読話認識を用
いることで、認識精度を維持したまま、より多くの語彙
についてより多くの人に適用できる音声認識を行うこと
ができる。
セット(送話器)の外観斜視図を示す。
ムのブロック図を示す。
Claims (2)
- 【請求項1】 送話器ハウジングに収納された送話器
と、 前記送話器ハウジングに取り付けられ、読話のための少
なくとも一つの顔の特徴に対応する画像情報を得るカメ
ラと、 このカメラに接続され、そのカメラから出力された画像
情報を送信するデータ通信路と、 このデータ通信路に接続され、画像情報に基づく読話認
識を実行する認識処理論理回路と、 を備えることを特徴とする読話のための画像認識システ
ム。 - 【請求項2】 画像情報に基づく読話認識を実行する認
識処理論理回路で処理されるデータを得るシステムであ
って、 送話器と、 この送話器に組み合わされ、読話のための少なくとも一
つの顔の特徴に対応する画像情報を得るカメラと、 このカメラに接続され、そのカメラから出力された画像
情報を前記認識処理論理回路に送信するデータ通信路
と、 を備えることを特徴とする読話のための画像認識システ
ム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/516,090 US5806036A (en) | 1995-08-17 | 1995-08-17 | Speechreading using facial feature parameters from a non-direct frontal view of the speaker |
US08/516,090 | 1995-08-17 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH09134194A true JPH09134194A (ja) | 1997-05-20 |
Family
ID=24054098
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP8209422A Pending JPH09134194A (ja) | 1995-08-17 | 1996-08-08 | 読話のための画像認識システム |
Country Status (2)
Country | Link |
---|---|
US (1) | US5806036A (ja) |
JP (1) | JPH09134194A (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1998056209A3 (en) * | 1997-06-02 | 1999-03-11 | Marie Lapalme | Video-assisted apparatus for hearing impaired persons |
JP2000057325A (ja) * | 1998-08-17 | 2000-02-25 | Fuji Xerox Co Ltd | 音声検出装置 |
JP2002135376A (ja) * | 2000-10-20 | 2002-05-10 | Kunihiko Koike | 無声入力通信装置 |
KR20020057046A (ko) * | 2000-12-30 | 2002-07-11 | 구자홍 | 무선 단말기의 음성인식 방법 |
JP2003189000A (ja) * | 2001-12-14 | 2003-07-04 | Matsushita Electric Works Ltd | 通話システム |
US6611803B1 (en) | 1998-12-17 | 2003-08-26 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for retrieving a video and audio scene using an index generated by speech recognition |
JP2006268563A (ja) * | 2005-03-24 | 2006-10-05 | Ricoh Co Ltd | 個人認証装置、個人認証処理方法、そのためのプログラム及び記録媒体 |
US7365766B1 (en) | 2000-08-21 | 2008-04-29 | Marie Lapalme | Video-assisted apparatus for hearing impaired persons |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6567779B1 (en) | 1997-08-05 | 2003-05-20 | At&T Corp. | Method and system for aligning natural and synthetic video to speech synthesis |
US7366670B1 (en) | 1997-08-05 | 2008-04-29 | At&T Corp. | Method and system for aligning natural and synthetic video to speech synthesis |
US6317716B1 (en) * | 1997-09-19 | 2001-11-13 | Massachusetts Institute Of Technology | Automatic cueing of speech |
US6185529B1 (en) * | 1998-09-14 | 2001-02-06 | International Business Machines Corporation | Speech recognition aided by lateral profile image |
SE9902229L (sv) * | 1999-06-07 | 2001-02-05 | Ericsson Telefon Ab L M | Apparatus and method of controlling a voice controlled operation |
US6594629B1 (en) * | 1999-08-06 | 2003-07-15 | International Business Machines Corporation | Methods and apparatus for audio-visual speech detection and recognition |
US6707921B2 (en) * | 2001-11-26 | 2004-03-16 | Hewlett-Packard Development Company, Lp. | Use of mouth position and mouth movement to filter noise from speech in a hearing aid |
US20030171932A1 (en) * | 2002-03-07 | 2003-09-11 | Biing-Hwang Juang | Speech recognition |
US20050071166A1 (en) * | 2003-09-29 | 2005-03-31 | International Business Machines Corporation | Apparatus for the collection of data for performing automatic speech recognition |
US20080317264A1 (en) * | 2005-12-21 | 2008-12-25 | Jordan Wynnychuk | Device and Method for Capturing Vocal Sound and Mouth Region Images |
US8271262B1 (en) * | 2008-09-22 | 2012-09-18 | ISC8 Inc. | Portable lip reading sensor system |
US20100079573A1 (en) * | 2008-09-26 | 2010-04-01 | Maycel Isaac | System and method for video telephony by converting facial motion to text |
JP5911796B2 (ja) * | 2009-04-30 | 2016-04-27 | サムスン エレクトロニクス カンパニー リミテッド | マルチモーダル情報を用いるユーザ意図推論装置及び方法 |
US8996382B2 (en) * | 2010-10-14 | 2015-03-31 | Guy L. McClung, III | Lips blockers, headsets and systems |
US8676574B2 (en) | 2010-11-10 | 2014-03-18 | Sony Computer Entertainment Inc. | Method for tone/intonation recognition using auditory attention cues |
US8756061B2 (en) | 2011-04-01 | 2014-06-17 | Sony Computer Entertainment Inc. | Speech syllable/vowel/phone boundary detection using auditory attention cues |
US20120259638A1 (en) * | 2011-04-08 | 2012-10-11 | Sony Computer Entertainment Inc. | Apparatus and method for determining relevance of input speech |
US9263044B1 (en) * | 2012-06-27 | 2016-02-16 | Amazon Technologies, Inc. | Noise reduction based on mouth area movement recognition |
US9020822B2 (en) | 2012-10-19 | 2015-04-28 | Sony Computer Entertainment Inc. | Emotion recognition using auditory attention cues extracted from users voice |
US9031293B2 (en) | 2012-10-19 | 2015-05-12 | Sony Computer Entertainment Inc. | Multi-modal sensor based emotion recognition and emotional interface |
US9672811B2 (en) | 2012-11-29 | 2017-06-06 | Sony Interactive Entertainment Inc. | Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection |
US10964326B2 (en) * | 2016-02-16 | 2021-03-30 | Carnegie Mellon University, A Pennsylvania Non-Profit Corporation | System and method for audio-visual speech recognition |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06208451A (ja) * | 1992-11-02 | 1994-07-26 | Matsushita Electric Ind Co Ltd | 音声入力装置 |
JPH07296154A (ja) * | 1994-04-27 | 1995-11-10 | Oki Electric Ind Co Ltd | 画像データ認識装置 |
JPH08187368A (ja) * | 1994-05-13 | 1996-07-23 | Matsushita Electric Ind Co Ltd | ゲーム装置、入力装置、音声選択装置、音声認識装置及び音声反応装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5175793A (en) * | 1989-02-01 | 1992-12-29 | Sharp Kabushiki Kaisha | Recognition apparatus using articulation positions for recognizing a voice |
US5586215A (en) * | 1992-05-26 | 1996-12-17 | Ricoh Corporation | Neural network acoustic and visual speech recognition system |
US5473726A (en) * | 1993-07-06 | 1995-12-05 | The United States Of America As Represented By The Secretary Of The Air Force | Audio and amplitude modulated photo data collection for speech recognition |
US5586171A (en) * | 1994-07-07 | 1996-12-17 | Bell Atlantic Network Services, Inc. | Selection of a voice recognition data base responsive to video data |
-
1995
- 1995-08-17 US US08/516,090 patent/US5806036A/en not_active Expired - Lifetime
-
1996
- 1996-08-08 JP JP8209422A patent/JPH09134194A/ja active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06208451A (ja) * | 1992-11-02 | 1994-07-26 | Matsushita Electric Ind Co Ltd | 音声入力装置 |
JPH07296154A (ja) * | 1994-04-27 | 1995-11-10 | Oki Electric Ind Co Ltd | 画像データ認識装置 |
JPH08187368A (ja) * | 1994-05-13 | 1996-07-23 | Matsushita Electric Ind Co Ltd | ゲーム装置、入力装置、音声選択装置、音声認識装置及び音声反応装置 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1998056209A3 (en) * | 1997-06-02 | 1999-03-11 | Marie Lapalme | Video-assisted apparatus for hearing impaired persons |
JP2000057325A (ja) * | 1998-08-17 | 2000-02-25 | Fuji Xerox Co Ltd | 音声検出装置 |
US6611803B1 (en) | 1998-12-17 | 2003-08-26 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for retrieving a video and audio scene using an index generated by speech recognition |
US7365766B1 (en) | 2000-08-21 | 2008-04-29 | Marie Lapalme | Video-assisted apparatus for hearing impaired persons |
JP2002135376A (ja) * | 2000-10-20 | 2002-05-10 | Kunihiko Koike | 無声入力通信装置 |
KR20020057046A (ko) * | 2000-12-30 | 2002-07-11 | 구자홍 | 무선 단말기의 음성인식 방법 |
JP2003189000A (ja) * | 2001-12-14 | 2003-07-04 | Matsushita Electric Works Ltd | 通話システム |
JP2006268563A (ja) * | 2005-03-24 | 2006-10-05 | Ricoh Co Ltd | 個人認証装置、個人認証処理方法、そのためのプログラム及び記録媒体 |
JP4730812B2 (ja) * | 2005-03-24 | 2011-07-20 | 株式会社リコー | 個人認証装置、個人認証処理方法、そのためのプログラム及び記録媒体 |
Also Published As
Publication number | Publication date |
---|---|
US5806036A (en) | 1998-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH09134194A (ja) | 読話のための画像認識システム | |
Silsbee et al. | Computer lipreading for improved accuracy in automatic speech recognition | |
Duchnowski et al. | See me, hear me: integrating automatic speech recognition and lip-reading. | |
KR100307730B1 (ko) | 측면 프로파일 영상에 의해 지원되는 음성 인식 시스템 및 방법 | |
Oviatt et al. | Predicting hyperarticulate speech during human-computer error resolution | |
Girin et al. | Audio-visual enhancement of speech in noise | |
US8725507B2 (en) | Systems and methods for synthesis of motion for animation of virtual heads/characters via voice processing in portable devices | |
US5884267A (en) | Automated speech alignment for image synthesis | |
US7676372B1 (en) | Prosthetic hearing device that transforms a detected speech into a speech of a speech form assistive in understanding the semantic meaning in the detected speech | |
US20040068410A1 (en) | Method and apparatus for providing an animated display with translated speech | |
US20040186718A1 (en) | Coupled hidden markov model (CHMM) for continuous audiovisual speech recognition | |
Scanlon et al. | Feature analysis for automatic speechreading | |
JP2003255993A (ja) | 音声認識システム、音声認識方法、音声認識プログラム、音声合成システム、音声合成方法、音声合成プログラム | |
Kaynak et al. | Analysis of lip geometric features for audio-visual speech recognition | |
Beskow et al. | Synface–a talking head telephone for the hearing-impaired | |
JP2010256391A (ja) | 音声情報処理装置 | |
Huang et al. | Audio-visual speech recognition using an infrared headset | |
Abel et al. | Cognitively inspired audiovisual speech filtering: towards an intelligent, fuzzy based, multimodal, two-stage speech enhancement system | |
KR20140093459A (ko) | 자동 통역 방법 | |
Lewis et al. | Audio-visual speech recognition using red exclusion and neural networks | |
JPH0728488A (ja) | 情報処理方法及び装置 | |
CN114466179A (zh) | 语音与图像同步性的衡量方法及装置 | |
Kratt et al. | Large vocabulary audio-visual speech recognition using the Janus speech recognition toolkit | |
Goecke | A stereo vision lip tracking algorithm and subsequent statistical analyses of the audio-video correlation in Australian English | |
CN111310530B (zh) | 手语与语音转换的方法、装置、存储介质和终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20041029 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20041110 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050111 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20050621 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20050620 |