JPH09134194A - 読話のための画像認識システム - Google Patents

読話のための画像認識システム

Info

Publication number
JPH09134194A
JPH09134194A JP8209422A JP20942296A JPH09134194A JP H09134194 A JPH09134194 A JP H09134194A JP 8209422 A JP8209422 A JP 8209422A JP 20942296 A JP20942296 A JP 20942296A JP H09134194 A JPH09134194 A JP H09134194A
Authority
JP
Japan
Prior art keywords
recognition
camera
image information
reading
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8209422A
Other languages
English (en)
Inventor
Jii Sutooku Deibitsudo
ジー ストーク デイビッド
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Publication of JPH09134194A publication Critical patent/JPH09134194A/ja
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/26Devices for calling a subscriber
    • H04M1/27Devices whereby a plurality of signals may be stored simultaneously
    • H04M1/271Devices whereby a plurality of signals may be stored simultaneously controlled by voice recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/02Constructional features of telephone sets
    • H04M1/22Illumination; Arrangements for improving the visibility of characters on dials
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/52Details of telephonic subscriber devices including functional features of a camera

Abstract

(57)【要約】 【課題】 音声認識の認識精度を維持したまま、より多
くの語彙についてより多くの人に適用できる音声認識を
行うこと。 【解決手段】 送話器104、カメラ101、データ通
信路103、及び認識処理論理回路を備える認識実行シ
ステムである。カメラ101は、送話器ハウジング10
5に取り付けられて読話のための少なくとも一つの顔の
特徴に対応する画像情報を得る。得られるであろう顔の
特徴は、舌の位置、歯の隙間、及び唇の丸くふくらむ出
っ張り等である。このような画像情報は、データ通信路
103を介して認識処理論理回路に送信され、画像情報
の読話認識に供される。したがって、音響情報に基づく
音声認識を補強するように画像情報に基づく読話認識を
用いることで、認識精度を維持したまま、より多くの語
彙についてより多くの人に適用できる音声認識を行うこ
とができるようになる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識の分野に
係り、特に、映像音声認識のために顔の特徴の抽出を行
う技術に関する。
【0002】
【従来の技術】自動的又は機械的な音声認識の最終目標
は、話者のアクセント、性別、話す速度、発音の明瞭さ
の程度、聴覚上の騒雑音として存在している全てのもの
の等の障害を超えて、人間が理解するように音声を認識
することである。このような音声認識の代表的なアプロ
ーチとしては、変化率が音素要素を表現するノード(ス
テート)間のリンク中で符号化される隠れマルコフモデ
ル、ニューラルネットワークによる方法、複合的な特別
の目的を持った音韻的、辞書的及び文法的な基礎を持つ
サブシステムが結合して協働し、音声認識のスコアを最
大限にする「ブラックボード」の方法等がある。しか
し、これらの各アプローチをシステム化した音声認識に
関する近年のシステムでは、コンピュータによる発話文
書間変換や自動翻訳等の応用分野で求められる数多くの
要求を満たすのに必要な正確さ及び強健さが共に十分で
はない。
【0003】従来、文法及び構文上のデータのような高
いレベルの言語情報を認識処理に含めることに多くの研
究が集中している。これに対し、人工的な音声認識シス
テムに合理的に組み入れることができる情報予測や制約
といったものも、音声認識の正確さを高める方向に働
く。例えば、人間は、聴覚で捕えた音声の理解を増すた
めに、音響信号以外の情報、例えば視覚的な情報を利用
することがあり、このような予測情報も音声認識の認識
率を高める。これは、聴覚が害された人が視覚的な情報
を活用して音声を正しく理解することがしばしば見受け
られることからも明かであろう。このような視覚情報を
利用した音声認識としては、 (a)Dodd,B. and Campbell,R.(eds.), 「目によるヒ
アリング:読唇の真理(Hearing by Eye : The Psycholo
gy of Lipreading)」,N.J.,Lawrence Erlbaum Press(19
87) (b)DeFilippo,C.L. and Sims,D.G.(eds.),「読話に
関する新たな意見(New Reflections on Speechreadin
g)」, special issue of The Volta Review 90(5),(198
8) を参照されたい。
【0004】話をしている人の視覚的情報に基づき音声
を認識する読唇、読話では、音節及び音素について直接
的な情報が得られる。話す速度、話者の性別、話者の同
一性、背景の雑音から音声を分離するための微妙な情報
も同様に得られる。このため、音声情報が多くの雑音に
よって崩れてしまう周知の「カクテルパーティー効果」
が生じていても、話者の顔を見ることができる場合には
その人の話の内容がより明瞭になる。これは、音声認識
に際して人間が視覚情報を用いることの強力な証拠とな
ろう。
【0005】近年、以下のような多くの読話システムが
記述されている。 (a)Petajan, E.D., 他,「音声認識を高めるための進
歩した自動読唇システム(An Improved Automatic Lipre
ading System to Enhance Speech Recognition)」,ACM
SIGCHI-88, 19-25(1988); (b)Pentland,A., 他,「読唇:発声単語の自動視覚認
識(Lip Reading : Automatic Visual Recognition of S
poken Words)」,Proc. Image Understanding andMachin
e Vision, Optical Society of America, June 12-14(1
984) (c)Yuhas,B.P., 他, 「ニューラルネットワークを使
用する音響及び視覚発話信号の統合(Integration of Ac
oustic and Visual Speech Signals Using Neural Netw
orks)」, Nov.1989, IEEE Communications Magazine(19
89) Petajan,他は、視覚認識のためのラベル付けされた発声
及び標準的な距離の分類を予め格納した辞書に合わせた
言葉の生成の間、話者の顔の映像(画素)を使用するこ
とを記述している。Pentland, 他は、口を映すビデオ画
素映像から上唇、下唇、及び口の二箇所の角部の速度を
見積もるための光学的な流れの技術を記述している。そ
して、彼らは、3又は4桁の句について、構成要素分析
及び最小距離分類の原理を使用する。Yuhas, 他 は、異
なるレベルの音響的雑音が存在している中で最良の認識
を得るための視覚的及び音響的原因についての関連する
重みを調整するためのフリーパラメータを伴うコントロ
ーラと共に、母音認識のための口の輪郭の静的な映像を
使用するニューラルネットワークのトレーニングについ
て論じている。
【0006】他の典型的な読話システムとして、次のも
のがある。 (a)米国特許4,975,960,1990年12月
4日発行,「電子的な顔の追跡及び検出システム及び自
動化された音声認識のための方法及び装置(Electronic
Facial Tracking and Detection System and Method an
d Apparatus forAutomated Speech Recognition)」(Pe
ntajen) (b)D.Stork, V.Prasad, G.Wolff,「読話の人間及び
機械学習(Human and Machine Learning of Speechreadi
ng)」, the Computational Learning and NeuralLearni
ng Workshop, Provincetown, Mass.に提出, September,
1993 (c)Stork, Wolff, and Levine, 「向上した音声認識
のためのニューラルネットワーク読唇システム(Neural
Network Lipreading System for Improved Speech Reco
gnition) 」, IJCNN Int'l Joint Conf. on Neural Net
works, IEEE(NewYork, NY), 1992, pgs.289-95 vol.2 (d)P.Silsbee & A.Borik,「自動読唇(Automatic Lip
reading)」,30th Int'lBiomedical Sciences Instrumen
tation Symposium, vol.29, pgs.415-422(1993)
【0007】
【発明が解決しようとする課題】自動音声認識の適用技
術については、例えば電話システムが大きな市場シェア
を占めている。その一例として、株や商品の販売会社に
おける電話注文による自動取引システムがある。これ
は、電話で話す顧客の音声を認識し、その指示に基づい
て株や商品を自動売買するような電話システムである。
このようなシステムでは、周囲の雑音に対して、個々の
人が話した情報が正確かつ高い信頼性で録音、再生され
ることが最も重要であり、現在ではある程度の成功を収
めている。
【0008】ところが、電話注文による自動取引システ
ム等の電話システムが音声認識の認識率について成功を
収めているとしても、そのようなシステムではほんの僅
かばかりの語彙を利用できるに過ぎないし、利用できる
話者も限定されてしまう、という問題をがある。
【0009】
【課題を解決するための手段】請求項1記載の発明は、
読話のための画像認識システムであり、送話器ハウジン
グに収納された送話器と、送話器ハウジングに取り付け
られて読話のための少なくとも一つの顔の特徴に対応す
る画像情報を得るカメラと、このカメラに接続されてカ
メラから出力された画像情報を送信するデータ通信路
と、このデータ通信路に接続されて画像情報に基づく読
話認識を実行する認識処理論理回路とを備える。したが
って、音響情報を送信する送話器にカメラが取り付けら
れているため、送話器を使用する話者の顔がカメラに映
し出され、読話のための顔の特徴に対応する画像情報が
得られる。そこで、この画像情報がデータ通信路を介し
て認識処理論理回路に送信され、画像情報に基づく読話
認識が実行される。
【0010】ここで、送話器は、例えば、ハンドセット
やヘッドセットによって構成され、カメラは、例えば、
デジタルカメラによって構成されている。カメラにより
得られる画像情報は、例えば、使用者の舌の位置、唇の
丸くふくらむ出っ張り、あごの位置である。あごの位置
は、例えば、歯の隙間に基づく。
【0011】また、請求項1記載の発明は、電話装置に
取り付けられて使用者の口元を照らす光源や赤外線光源
を更に含んでいても良く、赤外線光源を含む場合、カメ
ラは赤外線反応カメラや光学カメラによって構成され
る。
【0012】請求項2記載の発明は、画像情報に基づく
読話認識を実行する認識処理論理回路で処理されるデー
タを得るシステムであり、送話器と、この送話器に組み
合わされて読話のための少なくとも一つの顔の特徴に対
応する画像情報を得るカメラと、このカメラに接続され
てカメラから出力された画像情報を認識処理論理回路に
送信するデータ通信路とを備える。したがって、音響情
報を送信する送話器にカメラが取り付けられているた
め、送話器を使用する話者の顔がカメラに映し出され、
読話のための顔の特徴に対応する画像情報が得られる。
そこで、この画像情報がデータ通信路を介して認識処理
論理回路に送信され、画像情報に基づく読話認識が実行
される。
【0013】ここで、カメラにより得られる画像情報
は、例えば、あごの位置であり、これは歯の隙間に基づ
く。カメラは、例えば、デジタルカメラによって構成さ
れている。
【0014】また、請求項2記載の発明は、電話装置に
取り付けられて使用者の口元を照らす光源や赤外線光源
を更に含んでいても良く、赤外線光源を含む場合、カメ
ラは赤外線反応カメラや赤外線光学反応カメラによって
構成される。
【0015】
【発明の実施の形態】本発明の実施の形態を図面に基づ
いて説明する。
【0016】〔システムの概略〕図1は、電話機のハン
ドセット100の一例を示す。ハンドセット100は、
カメラ101及び照明光源102を備える。カメラ10
1及び照明光源102は、ハンドセット100の送話器
104の部分に対応するハウジング105(送話器ハウ
ジングを兼ねる)に取り付けられている。照明光源10
2は、使用者(図示せず)が電話で話をしている間、使
用者の口元を照明する。照明される領域は、カメラ10
1によって撮影される。カメラ101によって撮影され
た映像データは、データ通信路103経由で認識処理シ
ステムに送信され、認識を受ける。
【0017】電話機のハンドセット100は、標準形の
電話機のハンドセットによって構成されている。もっと
も、ハンドセットではなく、電話機のヘットセットとし
て形成されていても良い。
【0018】カメラ101は、ハンドセット100に直
接的に取り付けられ、映像による音声認識に用いられる
であろう情報を得るために、顔の特徴を抽出する映像デ
ータを獲得する。カメラ101は、小型のデジタルカメ
ラによって構成されている。このようなカメラ101
は、赤外線(IR)反応カメラ又は光学的カメラ(又は
赤外線光学反応カメラ)である。
【0019】照明光源102は、赤外線(IR)光源に
よって構成されており、話者の口元を照明する。もっと
も、存在している光(例えば、周辺光等)が話者の口元
を照明するにの十分である場合には、照明光源102を
作動させなくても良い。
【0020】データ通信路103は、処理及び分類のた
めに画像情報を局所的な場所に送信する広い帯域幅(例
えば、映像)のデータ通信路によって構成されている。
このようなデータ通信路103は、また、ハンドセット
100の送話器104に取り付けられたカメラ101に
よって撮影された画像データを、通信ネットワークやそ
れ自体が認識を受けるシステムに送信するよう構成され
ていても良い。
【0021】本実施の形態では、データ通信路103に
より送信される映像(及び音響)データは、少なくとも
一つの認識アルゴリズムを受ける。認識は、ハンドセッ
ト100で受信された映像及び音響双方のデータについ
て実行され、これにより、より正確な認識結果を得る。
【0022】カメラ101の位置決めは非常に重要であ
る。カメラ101は、0.5〜5cm程度の幅を持ってい
る。読話のために使用する必要な顔の特徴を得るため
に、カメラ101は、得られる映像データが真正面から
の眺めとならないようにハンドセット100に位置決め
されている。つまり、カメラ101は、話者の真正面の
眺めに対してある角度をなす位置から話者の口元を撮影
する。カメラ101の位置決めは、舌の位置(for/la/,
/ta/,他 )及び唇の丸くふくらむ出っ張り(for/oo)を
得ることができる真正面からの眺めに対してある角度を
なす位置でなされる。ここでいう「ある角度」は、個々
の使用者の顔の形状や個々の使用者がハンドセット10
0を耳に当てる角度等(特徴)に依存する。したがっ
て、それらの特徴の検出、抽出が可能であるため、認識
率の向上が期待できる。さらに、カメラ101の位置
は、話者の歯の隙間を撮影することを許容するような位
置でもある。これは、あごの位置を映像から直接検出す
ることは非常に困難である反面、あごの位置は歯の隙間
から確実に推察されるためである。したがって、本実施
の形態のシステムは、舌の位置、唇の丸くふくらむ出っ
張り、及び歯の隙間を使用して読話を実行する。もっと
も、本発明は、それらの三つの特徴を使用するものには
限定されず、他の顔の特徴を使用するようなものとして
構成されていても良い。但し、使用可能な顔の特徴は、
話者の口元に対するカメラ101の位置決め及び配置に
より限定される。
【0023】〔システムの詳細〕カメラ101からの入
力データは、データ通信路103を経由して読話認識を
実行する認識処理論理回路としての認識処理サブシステ
ムに送信される。認識処理サブシステムは、数多くある
周知のパターンマッチング技術を用いてパターンマッチ
ングを実行する。例えば、認識処理サブシステムは、時
間正規化(DTW:Dynamic Time Warping)パターン認
識、隠れマルコフ・モデル(HMM:Hidden Markov Mo
del )パターン認識、時間遅延ニューラル・ネットワー
ク(TDNN:Time Delay Neural Network )パターン
マッチング、その他の認識処理技術を用いてパターンマ
ッチングを実行する。
【0024】認識処理サブシステムは、また、読話認識
と協力して音声認識を実行する。この方法では、読話認
識は音声認識の正確さを高めるように動作する。
【0025】図2は、図1に示す入力装置を使用する模
範的な読話認識システムのブロック図である。この認識
システムは、システムバス201、中央処理装置(CP
U)202、及びシステムメモリ203を中心として構
成されている。認識される話者の口元は、照明光源10
2(図1参照)か、あるいは、オフィス環境で普通に得
られるような通常の周辺光により照明される。映像は、
例えば図1のカメラ101のような標準的なデジタルカ
メラであるビデオカメラ205によって記録され、出力
されたラスタスキャン映像は、アナログデジタル変換器
(ADC)204に送信される。このADC204で
は、システムメモリ203に格納する標準化及び量子化
されたラスタイメージ(フレーム)を生成する。ラスタ
スキャンされた映像フレームのシーケンスは、ビデオカ
メラ205及びADC204によって処理され、話者に
よる一又はそれ以上の発話を表現する。
【0026】ビデオカメラ205は、1秒間に30フレ
ームを生成する。ADC204によって変換された後の
各フレームは、640×480画素のアレイとなり、各
画素は、ADC204により標準化された各点で映像の
強度(輝度又はグレースケール)を表現する8ビットの
数となる。各フレームの二つ組みのフィールドでは冗長
度が高いために、フィールドは一つ置きに処分される。
【0027】システムメモリ203に格納された画素フ
レームは、空間周波数フィルタ206及び時間周波数フ
ィルタ207によって前処理される。空間周波数フィル
タ206は、空間周波数ノイズを減少させるためにスム
ージング動作又は低域通過濾過動作を実行し、映像の輪
郭をはっきりさせるためにエッジ強調動作を実行する。
空間周波数濾過された映像は、また、三つのシーケンシ
ャルフレームの幅で円滑化、すなわち、時間周波数フィ
ルタ207の低域通過フィルタを用いる時間周波数スム
ージングがなされる。濾過動作が第一の又は組み合わせ
のスムージングとして実行されるか、エッジシャープニ
ングが単一の濾過動作として実行される。空間周波数濾
過及び時間周波数濾過は、周知の技術である。システム
メモリ203には濾過された映像が格納される。
【0028】濾過された映像が得られたなら、後続する
処理に使用される映像のサイズを縮小すること、すなわ
ち、発音された発話情報を含む関心領域(ROI)だけ
を保つことが望まれる。ROIは、口の開きに集中す
る。
【0029】口元以外の顔の部分は、口の動きに比べて
フレーム間で静止(固定)している傾向が強く、連続的
なフレーム間の変化は口元(ROI)に多い。明るい画
素は、後続するフレーム間の大きな変化の点、すなわ
ち、口を連想する画素でありそうなものを表現してい
る。
【0030】ROIは、映像データに適用されるマスク
作用によって限定される。マスクは、グレースケールの
閾値によって作成される。マスクを使用し、空間周波数
領域は、顔の特徴が得られた場所から特定される。この
領域は、三つの時空間座標によって定義される長方形領
域又は重心領域よりなる。各フレームのために、二つの
空間座標だけが使用されることに留意されたい。格納さ
れた映像に対応する領域が取り入れられ、これによっ
て、ROIによって限定された範囲に含まれている映像
画素だけが格納される。
【0031】そして、与えられた発話に関連付けられる
ROIの収集した一揃えは、時間指数の関数nとしてy
軸のある地点でグレースケールから切り取られる。それ
は、顔の特徴の抽出のために使用されるかもしれない一
揃えのきっかけを形成するために用いられる情報であ
る。以前に確定された顔の特徴の抽出は、特徴抽出ユニ
ット209によって実行される。
【0032】顔の特徴が抽出されたなら、ソフトウエア
に従い動作するCPU202によってパターン認識が実
行される。DTWの場合、参照辞書に数多くの周知の参
照パターンが格納されている。DTW処理の間、未知
(入力映像)パターンと参照パターンとの間のマッチン
グをとるために、未知パターンが辞書の参照パターンと
比較される。未知パターンの各ポイントは、各参照パタ
ーンの各ポイントと比較され、左から右にラティス(格
子形データ)を横切って走る点のラティス又はアレイの
幅でコスト関数が生成される。コストというのは、未知
パターンと参照パターンとの間の距離である。DTW処
理の目標は、各参照パターンのための格子形データを横
切って最も低いコストのパスを探し当て、未知パターン
に最もマッチするパターンを探し当てるために、参照パ
ターンのそれぞれのパスを比較することである。最もマ
ッチするパターンは、読話認識の結果としてシステムか
ら出力される。
【0033】以上述べた通り、本実施の形態では、電話
機のハンドセット(又はヘッドセット)に直接据え付け
られているカメラを使用し、読話認識に用いるための顔
の特徴を得る。そして、音響情報に基づく音声認識を補
強するように画像情報に基づく読話認識を用いること
で、認識精度を維持したまま、より多くの語彙について
より多くの人に適用できる音声認識を行うことができる
ようになる。
【0034】ここで、読話認識は、例えば、放送システ
ムで使用するための音声音響認識とともに実行されるか
もしれないことに留意されたい。このような場合、音声
データは、また、音声データが映像データとは全く違っ
たものとして受信され濾過されることを除き、上記と類
似の方法で認識される。映像及び音声データの双方は、
後の認識結果の収集のために時間が切り取られても良
い。このような場合、認識結果は、得られた映像及び音
声データと最もマッチする顔の特徴と音声の特徴との双
方を備える参照パターンである。
【0035】本発明は、(対話よりもむしろ)単一の話
者の話を録音・再生することを目標とするようなものに
有効に利用されるであろう。そのような適用対象の例と
しては、株取引のような金融取引、例えば会社の購買部
等に設置される電話注文の自動録音等が含まれる。
【0036】本発明の優位点の一つは、確かな取引を提
供できるということである。なぜなら、単一の電話機は
概して同一の話者に繰り返し使用され、読話認識システ
ムがトレーニングされれば信頼性が高まるからである。
更に、本発明の別の優位点は、認識アルゴリズムは話者
の話の長期間に渡る変化を良く追跡することができるに
違いないということである。
【0037】本発明の別の優位点は、顔の特徴の撮影及
びその後に続く認識を実行するために必要な構成要素と
して、読話システム、デジタルカメラ、並びに広帯域な
通信及びプロトコルというような通常のものを用いるこ
とができる、ということである。
【0038】上述の記述を読んだ後の当業者にとって、
本発明の多くの変更や修正が明かになることは疑いない
であろうし、図面として示し説明した特定の態様は、発
明内容の限定を意図したものではない。実施の態様は特
許請求の範囲を限定することを意図したものではない。
【0039】
【発明の効果】本発明は、読話のための少なくとも一つ
の顔の特徴に対応する画像情報を得るカメラを送話器に
据付け、カメラから出力される画像情報に基づいて読話
認識を実行できるようにしたので、音響情報に基づく音
声認識を補強するように画像情報に基づく読話認識を用
いることで、認識精度を維持したまま、より多くの語彙
についてより多くの人に適用できる音声認識を行うこと
ができる。
【図面の簡単な説明】
【図1】本発明の実施の一形態として、電話機のハンド
セット(送話器)の外観斜視図を示す。
【図2】本発明の実施の一形態として、画像認識システ
ムのブロック図を示す。
【符号の説明】
105 送話器ハウジング 104 送話器 101,205 カメラ 103 データ通信路

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 送話器ハウジングに収納された送話器
    と、 前記送話器ハウジングに取り付けられ、読話のための少
    なくとも一つの顔の特徴に対応する画像情報を得るカメ
    ラと、 このカメラに接続され、そのカメラから出力された画像
    情報を送信するデータ通信路と、 このデータ通信路に接続され、画像情報に基づく読話認
    識を実行する認識処理論理回路と、 を備えることを特徴とする読話のための画像認識システ
    ム。
  2. 【請求項2】 画像情報に基づく読話認識を実行する認
    識処理論理回路で処理されるデータを得るシステムであ
    って、 送話器と、 この送話器に組み合わされ、読話のための少なくとも一
    つの顔の特徴に対応する画像情報を得るカメラと、 このカメラに接続され、そのカメラから出力された画像
    情報を前記認識処理論理回路に送信するデータ通信路
    と、 を備えることを特徴とする読話のための画像認識システ
    ム。
JP8209422A 1995-08-17 1996-08-08 読話のための画像認識システム Pending JPH09134194A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/516,090 US5806036A (en) 1995-08-17 1995-08-17 Speechreading using facial feature parameters from a non-direct frontal view of the speaker
US08/516,090 1995-08-17

Publications (1)

Publication Number Publication Date
JPH09134194A true JPH09134194A (ja) 1997-05-20

Family

ID=24054098

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8209422A Pending JPH09134194A (ja) 1995-08-17 1996-08-08 読話のための画像認識システム

Country Status (2)

Country Link
US (1) US5806036A (ja)
JP (1) JPH09134194A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998056209A3 (en) * 1997-06-02 1999-03-11 Marie Lapalme Video-assisted apparatus for hearing impaired persons
JP2000057325A (ja) * 1998-08-17 2000-02-25 Fuji Xerox Co Ltd 音声検出装置
JP2002135376A (ja) * 2000-10-20 2002-05-10 Kunihiko Koike 無声入力通信装置
KR20020057046A (ko) * 2000-12-30 2002-07-11 구자홍 무선 단말기의 음성인식 방법
JP2003189000A (ja) * 2001-12-14 2003-07-04 Matsushita Electric Works Ltd 通話システム
US6611803B1 (en) 1998-12-17 2003-08-26 Matsushita Electric Industrial Co., Ltd. Method and apparatus for retrieving a video and audio scene using an index generated by speech recognition
JP2006268563A (ja) * 2005-03-24 2006-10-05 Ricoh Co Ltd 個人認証装置、個人認証処理方法、そのためのプログラム及び記録媒体
US7365766B1 (en) 2000-08-21 2008-04-29 Marie Lapalme Video-assisted apparatus for hearing impaired persons

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6567779B1 (en) 1997-08-05 2003-05-20 At&T Corp. Method and system for aligning natural and synthetic video to speech synthesis
US7366670B1 (en) 1997-08-05 2008-04-29 At&T Corp. Method and system for aligning natural and synthetic video to speech synthesis
US6317716B1 (en) * 1997-09-19 2001-11-13 Massachusetts Institute Of Technology Automatic cueing of speech
US6185529B1 (en) * 1998-09-14 2001-02-06 International Business Machines Corporation Speech recognition aided by lateral profile image
SE9902229L (sv) * 1999-06-07 2001-02-05 Ericsson Telefon Ab L M Apparatus and method of controlling a voice controlled operation
US6594629B1 (en) * 1999-08-06 2003-07-15 International Business Machines Corporation Methods and apparatus for audio-visual speech detection and recognition
US6707921B2 (en) * 2001-11-26 2004-03-16 Hewlett-Packard Development Company, Lp. Use of mouth position and mouth movement to filter noise from speech in a hearing aid
US20030171932A1 (en) * 2002-03-07 2003-09-11 Biing-Hwang Juang Speech recognition
US20050071166A1 (en) * 2003-09-29 2005-03-31 International Business Machines Corporation Apparatus for the collection of data for performing automatic speech recognition
US20080317264A1 (en) * 2005-12-21 2008-12-25 Jordan Wynnychuk Device and Method for Capturing Vocal Sound and Mouth Region Images
US8271262B1 (en) * 2008-09-22 2012-09-18 ISC8 Inc. Portable lip reading sensor system
US20100079573A1 (en) * 2008-09-26 2010-04-01 Maycel Isaac System and method for video telephony by converting facial motion to text
JP5911796B2 (ja) * 2009-04-30 2016-04-27 サムスン エレクトロニクス カンパニー リミテッド マルチモーダル情報を用いるユーザ意図推論装置及び方法
US8996382B2 (en) * 2010-10-14 2015-03-31 Guy L. McClung, III Lips blockers, headsets and systems
US8676574B2 (en) 2010-11-10 2014-03-18 Sony Computer Entertainment Inc. Method for tone/intonation recognition using auditory attention cues
US8756061B2 (en) 2011-04-01 2014-06-17 Sony Computer Entertainment Inc. Speech syllable/vowel/phone boundary detection using auditory attention cues
US20120259638A1 (en) * 2011-04-08 2012-10-11 Sony Computer Entertainment Inc. Apparatus and method for determining relevance of input speech
US9263044B1 (en) * 2012-06-27 2016-02-16 Amazon Technologies, Inc. Noise reduction based on mouth area movement recognition
US9020822B2 (en) 2012-10-19 2015-04-28 Sony Computer Entertainment Inc. Emotion recognition using auditory attention cues extracted from users voice
US9031293B2 (en) 2012-10-19 2015-05-12 Sony Computer Entertainment Inc. Multi-modal sensor based emotion recognition and emotional interface
US9672811B2 (en) 2012-11-29 2017-06-06 Sony Interactive Entertainment Inc. Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection
US10964326B2 (en) * 2016-02-16 2021-03-30 Carnegie Mellon University, A Pennsylvania Non-Profit Corporation System and method for audio-visual speech recognition

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06208451A (ja) * 1992-11-02 1994-07-26 Matsushita Electric Ind Co Ltd 音声入力装置
JPH07296154A (ja) * 1994-04-27 1995-11-10 Oki Electric Ind Co Ltd 画像データ認識装置
JPH08187368A (ja) * 1994-05-13 1996-07-23 Matsushita Electric Ind Co Ltd ゲーム装置、入力装置、音声選択装置、音声認識装置及び音声反応装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5175793A (en) * 1989-02-01 1992-12-29 Sharp Kabushiki Kaisha Recognition apparatus using articulation positions for recognizing a voice
US5586215A (en) * 1992-05-26 1996-12-17 Ricoh Corporation Neural network acoustic and visual speech recognition system
US5473726A (en) * 1993-07-06 1995-12-05 The United States Of America As Represented By The Secretary Of The Air Force Audio and amplitude modulated photo data collection for speech recognition
US5586171A (en) * 1994-07-07 1996-12-17 Bell Atlantic Network Services, Inc. Selection of a voice recognition data base responsive to video data

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06208451A (ja) * 1992-11-02 1994-07-26 Matsushita Electric Ind Co Ltd 音声入力装置
JPH07296154A (ja) * 1994-04-27 1995-11-10 Oki Electric Ind Co Ltd 画像データ認識装置
JPH08187368A (ja) * 1994-05-13 1996-07-23 Matsushita Electric Ind Co Ltd ゲーム装置、入力装置、音声選択装置、音声認識装置及び音声反応装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998056209A3 (en) * 1997-06-02 1999-03-11 Marie Lapalme Video-assisted apparatus for hearing impaired persons
JP2000057325A (ja) * 1998-08-17 2000-02-25 Fuji Xerox Co Ltd 音声検出装置
US6611803B1 (en) 1998-12-17 2003-08-26 Matsushita Electric Industrial Co., Ltd. Method and apparatus for retrieving a video and audio scene using an index generated by speech recognition
US7365766B1 (en) 2000-08-21 2008-04-29 Marie Lapalme Video-assisted apparatus for hearing impaired persons
JP2002135376A (ja) * 2000-10-20 2002-05-10 Kunihiko Koike 無声入力通信装置
KR20020057046A (ko) * 2000-12-30 2002-07-11 구자홍 무선 단말기의 음성인식 방법
JP2003189000A (ja) * 2001-12-14 2003-07-04 Matsushita Electric Works Ltd 通話システム
JP2006268563A (ja) * 2005-03-24 2006-10-05 Ricoh Co Ltd 個人認証装置、個人認証処理方法、そのためのプログラム及び記録媒体
JP4730812B2 (ja) * 2005-03-24 2011-07-20 株式会社リコー 個人認証装置、個人認証処理方法、そのためのプログラム及び記録媒体

Also Published As

Publication number Publication date
US5806036A (en) 1998-09-08

Similar Documents

Publication Publication Date Title
JPH09134194A (ja) 読話のための画像認識システム
Silsbee et al. Computer lipreading for improved accuracy in automatic speech recognition
Duchnowski et al. See me, hear me: integrating automatic speech recognition and lip-reading.
KR100307730B1 (ko) 측면 프로파일 영상에 의해 지원되는 음성 인식 시스템 및 방법
Oviatt et al. Predicting hyperarticulate speech during human-computer error resolution
Girin et al. Audio-visual enhancement of speech in noise
US8725507B2 (en) Systems and methods for synthesis of motion for animation of virtual heads/characters via voice processing in portable devices
US5884267A (en) Automated speech alignment for image synthesis
US7676372B1 (en) Prosthetic hearing device that transforms a detected speech into a speech of a speech form assistive in understanding the semantic meaning in the detected speech
US20040068410A1 (en) Method and apparatus for providing an animated display with translated speech
US20040186718A1 (en) Coupled hidden markov model (CHMM) for continuous audiovisual speech recognition
Scanlon et al. Feature analysis for automatic speechreading
JP2003255993A (ja) 音声認識システム、音声認識方法、音声認識プログラム、音声合成システム、音声合成方法、音声合成プログラム
Kaynak et al. Analysis of lip geometric features for audio-visual speech recognition
Beskow et al. Synface–a talking head telephone for the hearing-impaired
JP2010256391A (ja) 音声情報処理装置
Huang et al. Audio-visual speech recognition using an infrared headset
Abel et al. Cognitively inspired audiovisual speech filtering: towards an intelligent, fuzzy based, multimodal, two-stage speech enhancement system
KR20140093459A (ko) 자동 통역 방법
Lewis et al. Audio-visual speech recognition using red exclusion and neural networks
JPH0728488A (ja) 情報処理方法及び装置
CN114466179A (zh) 语音与图像同步性的衡量方法及装置
Kratt et al. Large vocabulary audio-visual speech recognition using the Janus speech recognition toolkit
Goecke A stereo vision lip tracking algorithm and subsequent statistical analyses of the audio-video correlation in Australian English
CN111310530B (zh) 手语与语音转换的方法、装置、存储介质和终端设备

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20041029

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050111

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050621

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20050620