JPH09134194A

JPH09134194A - 読話のための画像認識システム

Info

Publication number: JPH09134194A
Application number: JP8209422A
Authority: JP
Inventors: Jii Sutooku Deibitsudo; ジーストークデイビッド
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1995-08-17
Filing date: 1996-08-08
Publication date: 1997-05-20
Also published as: US5806036A

Abstract

(57)【要約】【課題】音声認識の認識精度を維持したまま、より多
くの語彙についてより多くの人に適用できる音声認識を
行うこと。【解決手段】送話器１０４、カメラ１０１、データ通
信路１０３、及び認識処理論理回路を備える認識実行シ
ステムである。カメラ１０１は、送話器ハウジング１０
５に取り付けられて読話のための少なくとも一つの顔の
特徴に対応する画像情報を得る。得られるであろう顔の
特徴は、舌の位置、歯の隙間、及び唇の丸くふくらむ出
っ張り等である。このような画像情報は、データ通信路
１０３を介して認識処理論理回路に送信され、画像情報
の読話認識に供される。したがって、音響情報に基づく
音声認識を補強するように画像情報に基づく読話認識を
用いることで、認識精度を維持したまま、より多くの語
彙についてより多くの人に適用できる音声認識を行うこ
とができるようになる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識の分野に
係り、特に、映像音声認識のために顔の特徴の抽出を行
う技術に関する。

【０００２】

【従来の技術】自動的又は機械的な音声認識の最終目標
は、話者のアクセント、性別、話す速度、発音の明瞭さ
の程度、聴覚上の騒雑音として存在している全てのもの
の等の障害を超えて、人間が理解するように音声を認識
することである。このような音声認識の代表的なアプロ
ーチとしては、変化率が音素要素を表現するノード（ス
テート）間のリンク中で符号化される隠れマルコフモデ
ル、ニューラルネットワークによる方法、複合的な特別
の目的を持った音韻的、辞書的及び文法的な基礎を持つ
サブシステムが結合して協働し、音声認識のスコアを最
大限にする「ブラックボード」の方法等がある。しか
し、これらの各アプローチをシステム化した音声認識に
関する近年のシステムでは、コンピュータによる発話文
書間変換や自動翻訳等の応用分野で求められる数多くの
要求を満たすのに必要な正確さ及び強健さが共に十分で
はない。

【０００３】従来、文法及び構文上のデータのような高
いレベルの言語情報を認識処理に含めることに多くの研
究が集中している。これに対し、人工的な音声認識シス
テムに合理的に組み入れることができる情報予測や制約
といったものも、音声認識の正確さを高める方向に働
く。例えば、人間は、聴覚で捕えた音声の理解を増すた
めに、音響信号以外の情報、例えば視覚的な情報を利用
することがあり、このような予測情報も音声認識の認識
率を高める。これは、聴覚が害された人が視覚的な情報
を活用して音声を正しく理解することがしばしば見受け
られることからも明かであろう。このような視覚情報を
利用した音声認識としては、（ａ）Dodd,B. and Campbell,R.(eds.), 「目によるヒ
アリング：読唇の真理(Hearing by Eye : The Psycholo
gy of Lipreading)」,N.J.,Lawrence Erlbaum Press(19
87) （ｂ）DeFilippo,C.L. and Sims,D.G.(eds.),「読話に
関する新たな意見(New Reflections on Speechreadin
g)」, special issue of The Volta Review 90(5),(198
8) を参照されたい。

【０００４】話をしている人の視覚的情報に基づき音声
を認識する読唇、読話では、音節及び音素について直接
的な情報が得られる。話す速度、話者の性別、話者の同
一性、背景の雑音から音声を分離するための微妙な情報
も同様に得られる。このため、音声情報が多くの雑音に
よって崩れてしまう周知の「カクテルパーティー効果」
が生じていても、話者の顔を見ることができる場合には
その人の話の内容がより明瞭になる。これは、音声認識
に際して人間が視覚情報を用いることの強力な証拠とな
ろう。

【０００５】近年、以下のような多くの読話システムが
記述されている。（ａ）Petajan, E.D., 他,「音声認識を高めるための進
歩した自動読唇システム(An Improved Automatic Lipre
ading System to Enhance Speech Recognition)」,ACM
SIGCHI-88, 19-25(1988); （ｂ）Pentland,A., 他,「読唇：発声単語の自動視覚認
識(Lip Reading : Automatic Visual Recognition of S
poken Words)」,Proc. Image Understanding andMachin
e Vision, Optical Society of America, June 12-14(1
984) （ｃ）Yuhas,B.P., 他, 「ニューラルネットワークを使
用する音響及び視覚発話信号の統合(Integration of Ac
oustic and Visual Speech Signals Using Neural Netw
orks)」, Nov.1989, IEEE Communications Magazine(19
89) Petajan,他は、視覚認識のためのラベル付けされた発声
及び標準的な距離の分類を予め格納した辞書に合わせた
言葉の生成の間、話者の顔の映像（画素）を使用するこ
とを記述している。Pentland, 他は、口を映すビデオ画
素映像から上唇、下唇、及び口の二箇所の角部の速度を
見積もるための光学的な流れの技術を記述している。そ
して、彼らは、３又は４桁の句について、構成要素分析
及び最小距離分類の原理を使用する。Yuhas, 他は、異
なるレベルの音響的雑音が存在している中で最良の認識
を得るための視覚的及び音響的原因についての関連する
重みを調整するためのフリーパラメータを伴うコントロ
ーラと共に、母音認識のための口の輪郭の静的な映像を
使用するニューラルネットワークのトレーニングについ
て論じている。

【０００６】他の典型的な読話システムとして、次のも
のがある。（ａ）米国特許４，９７５，９６０，１９９０年１２月
４日発行,「電子的な顔の追跡及び検出システム及び自
動化された音声認識のための方法及び装置(Electronic
Facial Tracking and Detection System and Method an
d Apparatus forAutomated Speech Recognition)」（Pe
ntajen）（ｂ）D.Stork, V.Prasad, G.Wolff,「読話の人間及び
機械学習(Human and Machine Learning of Speechreadi
ng)」, the Computational Learning and NeuralLearni
ng Workshop, Provincetown, Mass.に提出, September,
1993 （ｃ）Stork, Wolff, and Levine, 「向上した音声認識
のためのニューラルネットワーク読唇システム(Neural
Network Lipreading System for Improved Speech Reco
gnition) 」, IJCNN Int'l Joint Conf. on Neural Net
works, IEEE(NewYork, NY), 1992, pgs.289-95 vol.2 （ｄ）P.Silsbee & A.Borik,「自動読唇(Automatic Lip
reading)」,30th Int'lBiomedical Sciences Instrumen
tation Symposium, vol.29, pgs.415-422(1993)

【０００７】

【発明が解決しようとする課題】自動音声認識の適用技
術については、例えば電話システムが大きな市場シェア
を占めている。その一例として、株や商品の販売会社に
おける電話注文による自動取引システムがある。これ
は、電話で話す顧客の音声を認識し、その指示に基づい
て株や商品を自動売買するような電話システムである。
このようなシステムでは、周囲の雑音に対して、個々の
人が話した情報が正確かつ高い信頼性で録音、再生され
ることが最も重要であり、現在ではある程度の成功を収
めている。

【０００８】ところが、電話注文による自動取引システ
ム等の電話システムが音声認識の認識率について成功を
収めているとしても、そのようなシステムではほんの僅
かばかりの語彙を利用できるに過ぎないし、利用できる
話者も限定されてしまう、という問題をがある。

【０００９】

【課題を解決するための手段】請求項１記載の発明は、
読話のための画像認識システムであり、送話器ハウジン
グに収納された送話器と、送話器ハウジングに取り付け
られて読話のための少なくとも一つの顔の特徴に対応す
る画像情報を得るカメラと、このカメラに接続されてカ
メラから出力された画像情報を送信するデータ通信路
と、このデータ通信路に接続されて画像情報に基づく読
話認識を実行する認識処理論理回路とを備える。したが
って、音響情報を送信する送話器にカメラが取り付けら
れているため、送話器を使用する話者の顔がカメラに映
し出され、読話のための顔の特徴に対応する画像情報が
得られる。そこで、この画像情報がデータ通信路を介し
て認識処理論理回路に送信され、画像情報に基づく読話
認識が実行される。

【００１０】ここで、送話器は、例えば、ハンドセット
やヘッドセットによって構成され、カメラは、例えば、
デジタルカメラによって構成されている。カメラにより
得られる画像情報は、例えば、使用者の舌の位置、唇の
丸くふくらむ出っ張り、あごの位置である。あごの位置
は、例えば、歯の隙間に基づく。

【００１１】また、請求項１記載の発明は、電話装置に
取り付けられて使用者の口元を照らす光源や赤外線光源
を更に含んでいても良く、赤外線光源を含む場合、カメ
ラは赤外線反応カメラや光学カメラによって構成され
る。

【００１２】請求項２記載の発明は、画像情報に基づく
読話認識を実行する認識処理論理回路で処理されるデー
タを得るシステムであり、送話器と、この送話器に組み
合わされて読話のための少なくとも一つの顔の特徴に対
応する画像情報を得るカメラと、このカメラに接続され
てカメラから出力された画像情報を認識処理論理回路に
送信するデータ通信路とを備える。したがって、音響情
報を送信する送話器にカメラが取り付けられているた
め、送話器を使用する話者の顔がカメラに映し出され、
読話のための顔の特徴に対応する画像情報が得られる。
そこで、この画像情報がデータ通信路を介して認識処理
論理回路に送信され、画像情報に基づく読話認識が実行
される。

【００１３】ここで、カメラにより得られる画像情報
は、例えば、あごの位置であり、これは歯の隙間に基づ
く。カメラは、例えば、デジタルカメラによって構成さ
れている。

【００１４】また、請求項２記載の発明は、電話装置に
取り付けられて使用者の口元を照らす光源や赤外線光源
を更に含んでいても良く、赤外線光源を含む場合、カメ
ラは赤外線反応カメラや赤外線光学反応カメラによって
構成される。

【００１５】

【発明の実施の形態】本発明の実施の形態を図面に基づ
いて説明する。

【００１６】〔システムの概略〕図１は、電話機のハン
ドセット１００の一例を示す。ハンドセット１００は、
カメラ１０１及び照明光源１０２を備える。カメラ１０
１及び照明光源１０２は、ハンドセット１００の送話器
１０４の部分に対応するハウジング１０５（送話器ハウ
ジングを兼ねる）に取り付けられている。照明光源１０
２は、使用者（図示せず）が電話で話をしている間、使
用者の口元を照明する。照明される領域は、カメラ１０
１によって撮影される。カメラ１０１によって撮影され
た映像データは、データ通信路１０３経由で認識処理シ
ステムに送信され、認識を受ける。

【００１７】電話機のハンドセット１００は、標準形の
電話機のハンドセットによって構成されている。もっと
も、ハンドセットではなく、電話機のヘットセットとし
て形成されていても良い。

【００１８】カメラ１０１は、ハンドセット１００に直
接的に取り付けられ、映像による音声認識に用いられる
であろう情報を得るために、顔の特徴を抽出する映像デ
ータを獲得する。カメラ１０１は、小型のデジタルカメ
ラによって構成されている。このようなカメラ１０１
は、赤外線（ＩＲ）反応カメラ又は光学的カメラ（又は
赤外線光学反応カメラ）である。

【００１９】照明光源１０２は、赤外線（ＩＲ）光源に
よって構成されており、話者の口元を照明する。もっと
も、存在している光（例えば、周辺光等）が話者の口元
を照明するにの十分である場合には、照明光源１０２を
作動させなくても良い。

【００２０】データ通信路１０３は、処理及び分類のた
めに画像情報を局所的な場所に送信する広い帯域幅（例
えば、映像）のデータ通信路によって構成されている。
このようなデータ通信路１０３は、また、ハンドセット
１００の送話器１０４に取り付けられたカメラ１０１に
よって撮影された画像データを、通信ネットワークやそ
れ自体が認識を受けるシステムに送信するよう構成され
ていても良い。

【００２１】本実施の形態では、データ通信路１０３に
より送信される映像（及び音響）データは、少なくとも
一つの認識アルゴリズムを受ける。認識は、ハンドセッ
ト１００で受信された映像及び音響双方のデータについ
て実行され、これにより、より正確な認識結果を得る。

【００２２】カメラ１０１の位置決めは非常に重要であ
る。カメラ１０１は、０．５〜５cm程度の幅を持ってい
る。読話のために使用する必要な顔の特徴を得るため
に、カメラ１０１は、得られる映像データが真正面から
の眺めとならないようにハンドセット１００に位置決め
されている。つまり、カメラ１０１は、話者の真正面の
眺めに対してある角度をなす位置から話者の口元を撮影
する。カメラ１０１の位置決めは、舌の位置（for/la/,
/ta/,他）及び唇の丸くふくらむ出っ張り（for/oo）を
得ることができる真正面からの眺めに対してある角度を
なす位置でなされる。ここでいう「ある角度」は、個々
の使用者の顔の形状や個々の使用者がハンドセット１０
０を耳に当てる角度等（特徴）に依存する。したがっ
て、それらの特徴の検出、抽出が可能であるため、認識
率の向上が期待できる。さらに、カメラ１０１の位置
は、話者の歯の隙間を撮影することを許容するような位
置でもある。これは、あごの位置を映像から直接検出す
ることは非常に困難である反面、あごの位置は歯の隙間
から確実に推察されるためである。したがって、本実施
の形態のシステムは、舌の位置、唇の丸くふくらむ出っ
張り、及び歯の隙間を使用して読話を実行する。もっと
も、本発明は、それらの三つの特徴を使用するものには
限定されず、他の顔の特徴を使用するようなものとして
構成されていても良い。但し、使用可能な顔の特徴は、
話者の口元に対するカメラ１０１の位置決め及び配置に
より限定される。

【００２３】〔システムの詳細〕カメラ１０１からの入
力データは、データ通信路１０３を経由して読話認識を
実行する認識処理論理回路としての認識処理サブシステ
ムに送信される。認識処理サブシステムは、数多くある
周知のパターンマッチング技術を用いてパターンマッチ
ングを実行する。例えば、認識処理サブシステムは、時
間正規化（ＤＴＷ：Dynamic Time Warping）パターン認
識、隠れマルコフ・モデル（ＨＭＭ：Hidden Markov Mo
del ）パターン認識、時間遅延ニューラル・ネットワー
ク（ＴＤＮＮ：Time Delay Neural Network ）パターン
マッチング、その他の認識処理技術を用いてパターンマ
ッチングを実行する。

【００２４】認識処理サブシステムは、また、読話認識
と協力して音声認識を実行する。この方法では、読話認
識は音声認識の正確さを高めるように動作する。

【００２５】図２は、図１に示す入力装置を使用する模
範的な読話認識システムのブロック図である。この認識
システムは、システムバス２０１、中央処理装置（ＣＰ
Ｕ）２０２、及びシステムメモリ２０３を中心として構
成されている。認識される話者の口元は、照明光源１０
２（図１参照）か、あるいは、オフィス環境で普通に得
られるような通常の周辺光により照明される。映像は、
例えば図１のカメラ１０１のような標準的なデジタルカ
メラであるビデオカメラ２０５によって記録され、出力
されたラスタスキャン映像は、アナログデジタル変換器
（ＡＤＣ）２０４に送信される。このＡＤＣ２０４で
は、システムメモリ２０３に格納する標準化及び量子化
されたラスタイメージ（フレーム）を生成する。ラスタ
スキャンされた映像フレームのシーケンスは、ビデオカ
メラ２０５及びＡＤＣ２０４によって処理され、話者に
よる一又はそれ以上の発話を表現する。

【００２６】ビデオカメラ２０５は、１秒間に３０フレ
ームを生成する。ＡＤＣ２０４によって変換された後の
各フレームは、６４０×４８０画素のアレイとなり、各
画素は、ＡＤＣ２０４により標準化された各点で映像の
強度（輝度又はグレースケール）を表現する８ビットの
数となる。各フレームの二つ組みのフィールドでは冗長
度が高いために、フィールドは一つ置きに処分される。

【００２７】システムメモリ２０３に格納された画素フ
レームは、空間周波数フィルタ２０６及び時間周波数フ
ィルタ２０７によって前処理される。空間周波数フィル
タ２０６は、空間周波数ノイズを減少させるためにスム
ージング動作又は低域通過濾過動作を実行し、映像の輪
郭をはっきりさせるためにエッジ強調動作を実行する。
空間周波数濾過された映像は、また、三つのシーケンシ
ャルフレームの幅で円滑化、すなわち、時間周波数フィ
ルタ２０７の低域通過フィルタを用いる時間周波数スム
ージングがなされる。濾過動作が第一の又は組み合わせ
のスムージングとして実行されるか、エッジシャープニ
ングが単一の濾過動作として実行される。空間周波数濾
過及び時間周波数濾過は、周知の技術である。システム
メモリ２０３には濾過された映像が格納される。

【００２８】濾過された映像が得られたなら、後続する
処理に使用される映像のサイズを縮小すること、すなわ
ち、発音された発話情報を含む関心領域（ＲＯＩ）だけ
を保つことが望まれる。ＲＯＩは、口の開きに集中す
る。

【００２９】口元以外の顔の部分は、口の動きに比べて
フレーム間で静止（固定）している傾向が強く、連続的
なフレーム間の変化は口元（ＲＯＩ）に多い。明るい画
素は、後続するフレーム間の大きな変化の点、すなわ
ち、口を連想する画素でありそうなものを表現してい
る。

【００３０】ＲＯＩは、映像データに適用されるマスク
作用によって限定される。マスクは、グレースケールの
閾値によって作成される。マスクを使用し、空間周波数
領域は、顔の特徴が得られた場所から特定される。この
領域は、三つの時空間座標によって定義される長方形領
域又は重心領域よりなる。各フレームのために、二つの
空間座標だけが使用されることに留意されたい。格納さ
れた映像に対応する領域が取り入れられ、これによっ
て、ＲＯＩによって限定された範囲に含まれている映像
画素だけが格納される。

【００３１】そして、与えられた発話に関連付けられる
ＲＯＩの収集した一揃えは、時間指数の関数ｎとしてｙ
軸のある地点でグレースケールから切り取られる。それ
は、顔の特徴の抽出のために使用されるかもしれない一
揃えのきっかけを形成するために用いられる情報であ
る。以前に確定された顔の特徴の抽出は、特徴抽出ユニ
ット２０９によって実行される。

【００３２】顔の特徴が抽出されたなら、ソフトウエア
に従い動作するＣＰＵ２０２によってパターン認識が実
行される。ＤＴＷの場合、参照辞書に数多くの周知の参
照パターンが格納されている。ＤＴＷ処理の間、未知
（入力映像）パターンと参照パターンとの間のマッチン
グをとるために、未知パターンが辞書の参照パターンと
比較される。未知パターンの各ポイントは、各参照パタ
ーンの各ポイントと比較され、左から右にラティス（格
子形データ）を横切って走る点のラティス又はアレイの
幅でコスト関数が生成される。コストというのは、未知
パターンと参照パターンとの間の距離である。ＤＴＷ処
理の目標は、各参照パターンのための格子形データを横
切って最も低いコストのパスを探し当て、未知パターン
に最もマッチするパターンを探し当てるために、参照パ
ターンのそれぞれのパスを比較することである。最もマ
ッチするパターンは、読話認識の結果としてシステムか
ら出力される。

【００３３】以上述べた通り、本実施の形態では、電話
機のハンドセット（又はヘッドセット）に直接据え付け
られているカメラを使用し、読話認識に用いるための顔
の特徴を得る。そして、音響情報に基づく音声認識を補
強するように画像情報に基づく読話認識を用いること
で、認識精度を維持したまま、より多くの語彙について
より多くの人に適用できる音声認識を行うことができる
ようになる。

【００３４】ここで、読話認識は、例えば、放送システ
ムで使用するための音声音響認識とともに実行されるか
もしれないことに留意されたい。このような場合、音声
データは、また、音声データが映像データとは全く違っ
たものとして受信され濾過されることを除き、上記と類
似の方法で認識される。映像及び音声データの双方は、
後の認識結果の収集のために時間が切り取られても良
い。このような場合、認識結果は、得られた映像及び音
声データと最もマッチする顔の特徴と音声の特徴との双
方を備える参照パターンである。

【００３５】本発明は、（対話よりもむしろ）単一の話
者の話を録音・再生することを目標とするようなものに
有効に利用されるであろう。そのような適用対象の例と
しては、株取引のような金融取引、例えば会社の購買部
等に設置される電話注文の自動録音等が含まれる。

【００３６】本発明の優位点の一つは、確かな取引を提
供できるということである。なぜなら、単一の電話機は
概して同一の話者に繰り返し使用され、読話認識システ
ムがトレーニングされれば信頼性が高まるからである。
更に、本発明の別の優位点は、認識アルゴリズムは話者
の話の長期間に渡る変化を良く追跡することができるに
違いないということである。

【００３７】本発明の別の優位点は、顔の特徴の撮影及
びその後に続く認識を実行するために必要な構成要素と
して、読話システム、デジタルカメラ、並びに広帯域な
通信及びプロトコルというような通常のものを用いるこ
とができる、ということである。

【００３８】上述の記述を読んだ後の当業者にとって、
本発明の多くの変更や修正が明かになることは疑いない
であろうし、図面として示し説明した特定の態様は、発
明内容の限定を意図したものではない。実施の態様は特
許請求の範囲を限定することを意図したものではない。

【００３９】

【発明の効果】本発明は、読話のための少なくとも一つ
の顔の特徴に対応する画像情報を得るカメラを送話器に
据付け、カメラから出力される画像情報に基づいて読話
認識を実行できるようにしたので、音響情報に基づく音
声認識を補強するように画像情報に基づく読話認識を用
いることで、認識精度を維持したまま、より多くの語彙
についてより多くの人に適用できる音声認識を行うこと
ができる。

【図面の簡単な説明】

【図１】本発明の実施の一形態として、電話機のハンド
セット（送話器）の外観斜視図を示す。

【図２】本発明の実施の一形態として、画像認識システ
ムのブロック図を示す。

【符号の説明】

１０５送話器ハウジング１０４送話器１０１，２０５カメラ１０３データ通信路

Claims

【特許請求の範囲】

【請求項１】送話器ハウジングに収納された送話器
と、前記送話器ハウジングに取り付けられ、読話のための少
なくとも一つの顔の特徴に対応する画像情報を得るカメ
ラと、このカメラに接続され、そのカメラから出力された画像
情報を送信するデータ通信路と、このデータ通信路に接続され、画像情報に基づく読話認
識を実行する認識処理論理回路と、を備えることを特徴とする読話のための画像認識システ
ム。
【請求項２】画像情報に基づく読話認識を実行する認
識処理論理回路で処理されるデータを得るシステムであ
って、送話器と、この送話器に組み合わされ、読話のための少なくとも一
つの顔の特徴に対応する画像情報を得るカメラと、このカメラに接続され、そのカメラから出力された画像
情報を前記認識処理論理回路に送信するデータ通信路
と、を備えることを特徴とする読話のための画像認識システ
ム。