JPH11219421A - 画像認識装置及び画像認識装置方法 - Google Patents
画像認識装置及び画像認識装置方法Info
- Publication number
- JPH11219421A JPH11219421A JP10019871A JP1987198A JPH11219421A JP H11219421 A JPH11219421 A JP H11219421A JP 10019871 A JP10019871 A JP 10019871A JP 1987198 A JP1987198 A JP 1987198A JP H11219421 A JPH11219421 A JP H11219421A
- Authority
- JP
- Japan
- Prior art keywords
- image
- recognition
- unit
- face
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
認識可能な画像認識装置を提供すること。 【解決手段】 対象物体に対する距離画像ストリームを
取得するための画像取得部と、前記画像取得部により取
得された距離画像ストリームから口腔部分を抽出する口
腔部抽出部と、前記口腔部抽出部により抽出された口腔
部分の距離画像ストリームに基づいて、口唇の形状およ
び口唇の動きの少なくとも一方を認識するための画像認
識部とを具備したことを特徴とする。
Description
に基づいて画像の形状および/または動きを認識する画
像認識装置及び画像認識方法に関する。
て読唇したり、顔の向き、表情などを判別するような画
像処理を行う場合、まず、CCDカメラなどの撮像装置
を用いて、人間の口唇周辺や顔部などを撮影し、その画
像から背景などの余計な部分を取り除き、口唇部のみ、
顔のみなど認識したい対象のみを切り出すという前処理
を行う。そして、その処理後の画像を用いることで、形
状や動きなどの認識を行っていた。
理部分について説明する。
ら取得したい対象物の部分のみを切り出す処理におい
て、対象物とそれ以外の部分との間の何らかの相違点を
手掛かりとして対象物の切り出しが行われていた。この
手掛かりとして、色相の変化を利用する方法、差分画像
を利用する方法、マーカーなどを利用する方法、クロマ
キーを利用する方法などが用いられていた。これらにつ
いて、人物の映っている画像から、口唇部分のみを切り
出す場合を例として説明する。
分はほぼ均一に赤色をしており、周りの肌の部分はほぼ
均一に肌色をしている、という色相(画素値)の急激な
変化を利用することで、口唇部のみを判別し、切り出し
を行っていた。
て、肌や口唇の部分に影ができるなどして、色相が変化
してしまうなど、通常と異なる色相を示す環境下では、
巧く、確実に抽出することが出来なくなるといったよう
な問題点があった。また、口唇の形状を安定的に得るた
めに、特定の色の口紅を用いることで、色相変化を強調
したりしなければならない場合もあった。
をしている際には、顔の中で、口唇の部分のみが動いて
いるということを利用して、現在のフレームと、次のフ
レームとの差分画像を取ることによって、動いている部
分を取得し、それを口唇の部分とする、ということが行
われていた。
いるような環境下では、口唇以外の不必要な部分も抽出
してしまう、口唇が動いていないときには抽出できな
い、というように、環境や条件に著しく依存してしま
い、常に、確実に口唇の部分のみを抽出するのは大変困
難であった。
に幾つかのマーカーを貼って特徴点とし、その特徴点の
動きをもとに、口唇部を抽出していた。
を貼らなくてはならないため、使える環境が限られてい
るなどの問題があった。
青色など、人物の顔にあまり現れないような色のスクリ
ーンの前に人物が配置し、カメラなどで得た画像から青
色を取り除くことで、顔の部分のみを抽出していた。
るため、特定の状況でのみしか用いることができない、
口唇のような顔の内部の一部分のみの抽出ができない、
などというような問題があった。
した画像から取得したい対象物の部分のみを確実に切り
出す処理は、大変困難なものであった。
象物の形状、動きなどの認識を行う部分について説明す
る。
元情報しか含んでいない。これは、従来の撮像装置では
3次元形状を取得することは困難であり、3次元形状を
取得するような撮像装置があっても、それらは、動きの
様なリアルタイムの認識に適していなかったからであ
る。また、そのような3次元形状の撮像装置は、大変高
価で、気軽に用いることができないという問題もあっ
た。そのため、従来の画像処理では、2次元情報のみを
用いて、人間の顔や口唇の形状、動きといった、本来は
3次元的ものを、なんとか認識しようと努力していた。
元情報として用いていたため、必要な情報が欠落してし
まい、様々な工夫はしているものの、簡単な形状や動き
の認識のみしか行えないといったように、どうしても無
理があった。
みを切り出すという作業を確実に行うことは大変困難で
あるため、この切り出しの不確実さも、認識率を下げる
要因に大きく関わっていた。
対象物の抽出方法にも、画像の認識方法にも、様々な問
題点があった。
カメラで撮影した画像から取得したい対象物の部分のみ
を確実に切り出す処理は大変困難なものであり、それが
画像認識の認識率の低下の要因となっていた。
て画像を2次元情報として取得していたため、3次元形
状や3次元的動きの認識を2次元情報のみから行うしか
なく、簡単な形状、動きの認識しか行うことができない
という問題があった。
のであり、人間の顔や口唇の形状や動きを高速かつ高精
度に認識可能な画像認識装置及び画像認識装置方法を提
供することを目的とする。
係る画像認識装置は、対象物体に対する距離画像を取得
するための画像取得手段と、前記画像取得手段により取
得された距離画像から口腔部分を抽出する口腔部抽出手
段と、前記口腔部抽出手段により抽出された口腔部分の
距離画像に基づいて、口唇の形状を認識するための画像
認識手段とを具備したことを特徴とする。
は、対象物体に対する距離画像ストリーム(距離画像の
動画像)を取得するための画像取得手段と、前記画像取
得手段により取得された距離画像ストリーム(距離画像
の動画像)から口腔部分を抽出する口腔部抽出手段と、
前記口腔部抽出手段により抽出された口腔部分の距離画
像ストリームに基づいて、口唇の形状および口唇の動き
の少なくとも一方を認識するための画像認識手段とを具
備したことを特徴とする。
像から必要とする部分を抽出し、抽出した部分の距離画
像に基づいて認識処理を行うので、話者の口唇認識(例
えば、口腔部の形状、動きや、発言内容の認識など)等
を高速かつ高精度に行うことができる。
は、対象物体に対する距離画像を取得するための画像取
得手段と、前記画像取得手段により取得された距離画像
から顔部分を抽出する顔部抽出手段と、前記顔部抽出手
段により抽出された顔部分の距離画像に基づいて、顔の
形状を認識するための画像認識手段とを具備したことを
特徴とする。
は、対象物体に対する距離画像ストリーム(距離画像の
動画像)を取得するための画像取得手段と、前記画像取
得手段により取得された距離画像ストリーム(距離画像
の動画像)から顔部分を抽出する顔部抽出手段と、前記
顔部抽出手段により抽出された顔部分の距離画像ストリ
ームに基づいて、顔の形状および顔の動きの少なくとも
一方を認識するための画像認識手段とを具備したことを
特徴とする。
像から必要とする部分を抽出し、抽出した部分の距離画
像に基づいて認識処理を行うので、話者の顔部認識(例
えば、顔部の形状、動きの認識など)等を高速かつ高精
度に行うことができる。
4のいずれか1項に係る画像認識装置において、前記画
像認識手段により得られた前記形状の情報または前記動
きの情報に基づいて、話者の顔の向きを識別するための
方向識別手段をさらに具備したことを特徴とする。
認識装置において、前記画像認識手段により認識された
口唇の形状もしくは口唇の動きに基づいて、話者の顔の
向きを識別するための方向識別手段をさらに具備したこ
とを特徴とする。
認識装置において、前記画像取得手段により取得された
顔の形状もしくは顔の動きに基づいて、話者の顔の向き
を識別するための方向識別手段をさらに具備したことを
特徴とする。
2に係る画像認識装置において、前記画像取得手段によ
り取得された距離画像から顔部分を抽出する顔部抽出手
段と、前記顔部抽出手段により抽出された顔部分の距離
画像に基づいて、話者の顔の向きを識別するための方向
識別手段とをさらに具備したことを特徴とする。
顔部認識等と伴に、話者の向いている方向の識別をする
ことができる。
たは6に係る画像認識装置において、入力された音声を
認識するための音声認識手段と、前記画像認識手段によ
る認識結果に基づいて話者の会話の開始が検出された場
合に前記音声認識手段による音声認識を開始させる制御
と前記画像認識手段による認識結果に基づいて話者の会
話の終了が検出された場合に前記音声認識手段による音
声認識を終了させる制御の少なくとも一方の制御を行う
制御手段とをさらに具備したことを特徴とする。
は6に係る画像認識装置において、入力された音声を認
識するための音声認識手段と、前記方向識別手段による
識別結果が正面である場合に前記音声認識手段による音
声認識を開始させる制御と前記方向識別手段による識別
結果が正面でない場合に前記音声認識手段による音声認
識を終了させる制御の少なくとも一方の制御を行う制御
手段とをさらに具備したことを特徴とする。
顔部認識等と伴に、口唇認識結果あるいは話者の向いて
いる方向に応じた音声認識の制御を行うことができる。
2、6または7に係る画像認識装置において、所定の出
力形態(音声、画像、あるいは他の形態、あるいは複数
の形態を組み合わせたもの)により所定の情報を呈示す
るための情報呈示手段と、前記画像認識手段による認識
結果に基づいて話者の会話の開始と終了の少なくとも一
方の検出を行い、該検出結果に応じて、前記情報呈示手
段による情報呈示を開始させる制御と前記情報呈示手段
による情報呈示を終了させる制御と前記情報呈示手段に
より行われている情報呈示に用られている出力形態の少
なくとも一部の変更を行う制御のうち少なくとも1つの
制御を行う制御手段とをさらに具備したことを特徴とす
る。
6または8に係る画像認識装置において、所定の出力形
態(音声、画像、あるいは他の形態、あるいは複数の形
態を組み合わせたもの)により所定の情報を呈示するた
めの情報呈示手段と、前記方向識別手段による識別結果
に係る向きと正面方向との関係に応じて、前記情報呈示
手段による情報呈示を開始させる制御と前記情報呈示手
段による情報呈示を終了させる制御と前記情報呈示手段
により行われている情報呈示に用られている出力形態の
少なくとも一部の変更を行う制御のうち少なくとも1つ
の制御を行う制御手段とをさらに具備したことを特徴と
する。
顔部認識等と伴に、口唇認識結果や話者の向いている方
向に応じた情報呈示の制御を行うことができる。
6または請求項6に係る画像認識装置において、入力さ
れた音声を認識するための音声認識手段と、前記画像認
識手段による認識結果に基づいて話者の会話(話者の行
為実施)の開始を検出し、該会話の開始が検出された場
合に前記音声認識手段による音声認識を開始させる音声
認識開始手段とをさらに具備したことを特徴とする。
6、請求項6または発明13に係る画像認識装置におい
て、入力された音声を認識するための音声認識手段と、
前記画像認識手段による認識結果に基づいて話者の会話
(話者の行為実施)の終了を検出し、該会話の終了が検
出された場合に前記音声認識手段による音声認識を終了
させる音声認識終了手段とをさらに具備したことを特徴
とする。
または請求項6に係る画像認識装置において、入力され
た音声を認識するための音声認識手段と、前記方向識別
手段による識別結果が正面(話者の行為実施)である場
合に、前記音声認識手段による音声認識を開始させる音
声認識開始手段とをさらに具備したことを特徴とする。
7、請求項6または発明15に係る画像認識装置におい
て、入力された音声を認識するための音声認識手段と、
前記方向識別手段による識別結果が正面(話者の行為実
施)でない場合に、前記音声認識手段による音声認識を
終了させる音声認識終了手段とをさらに具備したことを
特徴とする。
6、請求項6、発明13または発明14に係る画像認識
装置において、所定の出力形態(音声、画像、あるいは
他の形態、あるいは複数の形態を組み合わせたもの)に
より所定の情報を呈示するための情報呈示手段と、前記
画像認識手段による認識結果に基づいて話者の会話(話
者の行為実施)の開始を検出し、該会話の開始が検出さ
れた場合に前記情報呈示手段による情報呈示を開始させ
る情報呈示開始手段とをさらに具備したことを特徴とす
る。
6、請求項6、発明13、発明14または発明18に係
る画像認識装置において、所定の出力形態(音声、画
像、あるいは他の形態、あるいは複数の形態を組み合わ
せたもの)により所定の情報を呈示するための情報呈示
手段と、前記画像認識手段による認識結果に基づいて話
者の会話(話者の行為実施)の終了を検出し、該終了が
検出された場合に前記情報呈示手段による情報呈示を終
了させる情報呈示終了手段とをさらに具備したことを特
徴とする。
7、請求項6、発明15または発明16に係る画像認識
装置において、所定の出力形態(音声、画像、あるいは
他の形態、あるいは複数の形態を組み合わせたもの)に
より所定の情報を呈示するための情報呈示手段と、前記
方向識別手段による識別結果が正面(話者の行為実施)
である場合に、前記情報呈示手段による情報呈示を開始
させる情報呈示開始手段とをさらに具備したことを特徴
とする。
7、請求項6、発明15、発明16または発明20に係
る画像認識装置において、所定の出力形態(音声、画
像、あるいは他の形態、あるいは複数の形態を組み合わ
せたもの)により所定の情報を呈示するための情報呈示
手段と、前記方向識別手段による識別結果が正面(話者
の行為実施)でない場合に、前記情報呈示手段による情
報呈示を終了させる情報呈示終了手段とをさらに具備し
たことを特徴とする。
6、請求項6、発明13、発明14、発明17または発
明18に係る画像認識装置において、所定の出力形態
(音声、画像、あるいは他の形態、あるいは複数の形態
を組み合わせたもの)により所定の情報を呈示するため
の情報呈示手段と、前記画像認識手段による認識結果に
基づいて話者の会話(話者の行為実施)の開始を検出
し、該会話の開始が検出された場合に、前記情報呈示手
段による情報呈示をそれまでとは異なる出力形態による
情報呈示に切り替える情報呈示切り替え手段とをさらに
具備したことを特徴とする。
6、請求項6、発明13、発明14、発明17、発明1
8または発明21に係る画像認識装置において、所定の
出力形態(音声、画像、あるいは他の形態、あるいは複
数の形態を組み合わせたもの)により所定の情報を呈示
するための情報呈示手段と、前記画像認識手段による認
識結果に基づいて話者の会話(話者の行為実施)の終了
を検出し、該会話の終了が検出された場合に、前記情報
呈示手段による情報呈示をそれまでとは異なる出力形態
による情報呈示に切り替える情報呈示切り替え手段とを
さらに具備したことを特徴とする。
7、請求項6、発明15、発明16、発明19または発
明20に係る画像認識装置において、所定の出力形態
(音声、画像、あるいは他の形態、あるいは複数の形態
を組み合わせたもの)により所定の情報を呈示するため
の情報呈示手段と、前記方向識別手段による識別結果が
正面(話者の行為実施)となった場合に、前記情報呈示
手段による情報呈示をそれまでとは異なる出力形態によ
る情報呈示に切り替える情報呈示切り替え手段とをさら
に具備したことを特徴とする。
7、請求項6、発明15、発明16、発明19、発明2
0または発明23に係る画像認識装置において、所定の
出力形態(音声、画像、あるいは他の形態、あるいは複
数の形態を組み合わせたもの)により所定の情報を呈示
するための情報呈示手段と、前記情報呈示手段による情
報呈示中に前記方向識別手段による識別結果が正面(話
者の行為実施)でなくなった場合に、前記情報呈示手段
による情報呈示をそれまでとは異なる出力形態による情
報呈示のみに切り替える情報呈示切り替え手段とをさら
に具備したことを特徴とする。
いし10のいずれか1項に係る画像認識装置において、
得られた所定の情報を通信するための通信手段をさらに
具備したことを特徴とする。
を外部の装置に与えることができる。
像認識装置において、前記画像認識手段により認識され
た口唇の形状の情報もしくは口唇の動きの情報を通信す
るための通信手段をさらに具備したことを特徴とする。
像認識装置において、前記画像認識手段により認識され
た顔の形状の情報もしくは顔の動きの情報を通信するた
めの通信手段をさらに具備したことを特徴とする。
または請求項6に係る画像認識装置において、前記方向
識別手段により識別された話者の顔の向きの情報を通信
するための通信手段をさらに具備したことを特徴とす
る。
8、発明9、発明10または発明11に係る画像認識装
置において、前記音声認識手段による認識結果を通信す
るための通信手段をさらに具備したことを特徴とする。
明12、発明13、発明14、発明15、発明16、発
明17、発明18または発明19に係る画像認識装置に
おいて、前記情報呈示手段により呈示された情報を通信
するための通信手段をさらに具備したことを特徴とす
る。
手段を省き、対象物体に対する距離画像を外部から与え
るようにした構成も成立する。
方法は、与えられた、対象物体に対する距離画像から、
口腔部分を抽出し、抽出された口腔部分の距離画像に基
づいて、口唇の形状を認識することを特徴とする。
方法は、与えられた、対象物体に対する距離画像ストリ
ームから、口腔部分を抽出し、抽出された口腔部分の距
離画像ストリームに基づいて、口唇の形状および口唇の
動きの少なくとも一方を認識することを特徴とする。
タに、与えられた対象物体に対する距離画像から口腔部
分を抽出させ、抽出された口腔部分の距離画像に基づい
て口唇の形状を認識させるための手順を含むプログラム
を記録したコンピュータ読取り可能な記録媒体を要旨と
する。
タに、与えられた対象物体に対する距離画像ストリーム
から口腔部分を抽出させ、抽出された口腔部分の距離画
像ストリームに基づいて口唇の形状および口唇の動きの
少なくとも一方を認識させるための手順を含むプログラ
ムを記録したコンピュータ読取り可能な記録媒体を要旨
とする。
としても成立し、方法に係る本発明は装置に係る発明と
しても成立する。
ンピュータに当該発明に相当する手順を実行させるため
の(あるいはコンピュータを当該発明に相当する手段と
して機能させるための、あるいはコンピュータに当該発
明に相当する機能を実現させるための)プログラムを記
録したコンピュータ読取り可能な記録媒体としても成立
する。
実施の形態を説明する。
実施形態について説明する。
像認識装置の全体構成図である。
トリームを取得するための画像取得部1と、画像取得部
1で取得された顔の全部または一部の距離画像ストリー
ムから、口腔部分のみを抽出する口腔部抽出部2と、抽
出された口腔部の距離画像ストリームから、口唇の形状
および/または口唇の動きを認識する画像認識部3とか
ら構成される。
人間の顔の全部または一部を、その3次元形状を反映し
た奥行き値を持つ画像(以下、距離画像と呼ぶ)として
所定時間毎(例えば1/60秒毎など)に取得するもの
である(例えば特願平9−299648の画像取得方法
を用いて実現することができる)。画像取得部1は概略
的には、例えば、対象物体に光を照射し、対象物体から
の反射光の空間的な強度分布を抽出し、その各画素の強
度値を奥行きあるいは距離を示す値に変換することによ
り、距離画像を生成する。この画像取得部1を用いて顔
を撮像することで、顔の全部または一部分の、距離画像
による動画像(以下、距離画像ストリームと呼ぶ)を得
ることができる。なお、画像取得部1の詳細については
後述する。
の距離画像(距離画像ストリーム中の1フレーム分)の
例を示す。距離画像は、奥行き情報を有する3次元画像
で、例えば、x軸(横)方向64画素、y軸(縦)方向
64画素、z軸(奥行き)方向256階調の画像になっ
ている。図2は、距離画像の距離値すなわちz軸方向の
階調をグレースケールで表現したものである。距離画像
においては、色が白に近いほど距離が近く、黒に近くな
るほど距離が遠い。また、色が完全に黒のところは、画
像がない、あるいはあっても遠方でないのと同じである
ことを示している。例えば、図2は、口唇部が白く、そ
の内側の口腔部が黒くなっている様子を示すものであ
る。
はこれを収容した筐体は、本画像認識装置の目的等に応
じて適宜設置するばよい。例えば本画像認識装置が表示
装置を持つものである場合、この表示装置に対して対象
物体となる人間の顔が正面を向いたときに、当該受光面
に対しても正面を向いた形になるように当該画像認識装
置の筐体に設ける。
取得された顔の全部または一部の距離画像ストリームか
ら、口腔部のみを抽出するものである。
合、その局所的な形状は人によって様々であるし、同じ
人でも状況によって様々な形状をしている。しかし、大
局的には、「口唇部が少し凸形状をしており、その内側
の口腔部が大きく凹形状をしている」という、人や状況
に依らず一意に定まる特徴がある。
像を、図4は口唇を開いている場合の顔の距離画像を、
それぞれ、立体的に示したものである。図3および図4
を見ると、上述したような口腔部の3次元的特徴がはっ
きりと見て取れることが分かる。
利用すれば、顔の距離画像ストリームから、口腔部のみ
を抽出した距離画像ストリームを構成することは容易で
ある。
腔部を抽出するのかを具体的に説明する。
(以下、原画像とも呼ぶ)は、顔の3次元的形状を表し
ている。この距離画像の2階微分画像を求めることで、
原画像における傾き変化の様子を知ることができる。こ
れを用いれば、原画像のエッジ部分を抽出することがで
きる。なお、ここでエッジと言うのは、顔と背景との境
界や、口唇と肌との境界のように、傾きの変化がある部
分のことである。
一例を示す。
したガウスラプラシアンフィルタを原画像に施す(ステ
ップS100)。
プS101)。このとき、例えば、注目画素の4近傍の
画素値が正である点をゼロクロス点とすればよい。
ようなSobelオペレータ(図中(a)がX方向に対
応し、(b)がY方向に対応する)を施し、その画素の
強度を求める(ステップS102)。
構成点であるとみなす(ステップS103)。
分のみを抽出することができる。
て、ガウスラプラシアンフィルタ、Sobelオペレー
タを用いる方法について説明したが、これに限定される
ものではなく、ハフ変換を用いる方法など、別の手法を
用いて実現しても良い。
で、顔の距離画像から、エッジ部分のみを抽出すること
ができる。さらに、このエッジ情報と、口唇の形状(ル
ープ状(穴)のエッジを持つもののなかで、一番大きな
ものなど)の情報を用いることで、口唇部のエッジのみ
を抽出することができる。
とに、エッジの抽出を行っているため、従来の2次元画
像から色相の変化などを利用してエッジを抽出する方法
と比べて、エッジの誤認識(余分なエッジの抽出)をす
ることがなく、確実に口腔部のみを切り出すことが可能
である。これは、3次元形状は実際のエッジに深く関係
しているのに対し、色相変化を用いる方法は色相が異な
る部分をエッジと見なして判断する一手段ではあるが、
決定的なものではないからである。
ら、口唇部のみの距離画像ストリームを取得することが
できる。
部を抽出する方法として、傾きの変化を利用する方法に
ついて説明したが、これに限定されるものではない。例
えば、口腔部の「窪み」という幾何学的な形状(奥行き
Z値が一定値以下)を利用して、閾値を設けることで
「窪み」部分を抽出してもよいし、幾何学的推論を行う
ことによって抽出しても良い。また、口腔部の「窪み」
状のテンプレートをあらかじめ用意しておいて、それと
のパターンマッチングを取ることで求めてもよい。ま
た、距離情報を用いてバンドパスフィルタによるフィル
タリング処理を行うことでもエッジを取ることができ
る。他の3次元形状を利用して抽出する方法でも構わな
い。
抽出された口腔部の距離画像ストリームをもとに、口唇
の形状および/または動きを認識するものである。
る。
といった様々なテンプレートを予め用意しておき、それ
らと口腔部抽出部2で得られた口唇の形状とを比較し
て、類似度を計算し、類似度の最も高いものを認識結果
として採用するという、テンプレートマッチングなどを
用いて、認識を行う。
マッチングの処理の流れの一例を示す。
像)を、テンプレートの方向、サイズに合わせて正規化
する(ステップS200)。
ら、原画像と比較すべきテンプレートkを選択する(ス
テップS201)。
距離を計算する(ステップS202)。ハミング距離
(H)は、例えば、H=Σi Σj |d(i,j)−tk
(i,j)|により計算する。ここで、i、jはそれぞ
れ各画素のx、y座標、d(i,j)は原画像の座標
(i,j)での距離値、tk (i,j)はテンプレート
kの座標(i,j)での距離値である。
方法を説明したが、ハミング距離の導出は、これに限定
されるものではなく、他の計算式を用いても良い。
て行うため、全てのテンプレートについて、上述のハミ
ング距離の計算が終了しているか判定する(ステップS
203)。
テンプレートがあれば、ステップS201に戻る。
ハミング距離の計算が終了したら、それらを比較し、最
も値の小さなテンプレートを見つける。そして、このテ
ンプレートの表現している内容を認識結果とする(ステ
ップS204)。例えば、この選ばれたテンプレート
が、「た」を発音している際の口唇形状であったなら
ば、原画像の距離画像の発音(口唇形状)は「た」であ
ったと認識する。
る、全ての距離画像に対して、順次行うことによって、
話者の発話内容の認識が行われる。
に、口唇形状から話者の発話内容を認識すること(認識
対象となった者が現実には音声を出さず、実際に話すと
きと同じように口唇を動した場合に得られた距離画像に
基づく認識を含む)を口唇認識と呼ぶ。
る。
「口を開け閉めしている」、「あくびをしている」とい
ったような、動きを表すテンプレートの列(動きを各フ
レームに分割し、それぞれを1つのテンプレートとし
て、一連の動きのテンプレートをまとめたもの)を用意
しておき、上述したものと同様に、距離画像ストリーム
に含まれる全ての距離画像に対して、前記テンプレート
の列と順次テンプレートマッチングを行うことで、動き
に対する口唇認識を行うこともできる。
果は、従来の画像認識と異なり、実際の口唇の3次元形
状を利用することによって、認識を行った結果である。
従来は、通常のビデオカメラの画像などから抽出した2
次元的な口唇形状を用いて認識していたため、口唇の平
面的な動きのみから認識を行うしかなかったが、この方
法では、上述の通り、3次元の情報を用いることが可能
であるため、従来よりも、より多くの情報を用いて認識
することが可能である。そこで、正面から見たときの口
唇形状がほぼ同じで、口唇の奥行き方向の形状が異なっ
ているというような、従来なら認識が不可能であった場
合も、本実施形態の画像認識装置を用いることで認識す
ることが可能となっている。また、識別する手掛かりが
増えているため、従来よりも、認識率も高くなり、誤認
識し難いという利点もある。
のハミング距離を求めることで、原画像とテンプレート
の類似度を計算する方法について説明したが、類似度の
計算は、これに限定されるものではない。DPマッチン
グ法、KL変換法などを用いて求める方法、原画像をフ
ーリエ変換し、フーリエ変換後の画像について相関関係
を求めることで、類似度を計算する方法など、あらゆる
方法を用いることができる。
ームから、口唇の形状、動きを認識する方法として、テ
ンプレートマッチングを行う方法について説明したが、
これに限定されるものではなく、例えば、口唇の形状か
ら、筋肉の動きを求めて、その形状変化を手掛かりとし
て、筋肉モデルから発音内容を類推する、などのように
他の方法で認識を行ってもよい。
距離画像を用いることで、あまり計算コストをかけず
に、容易に、口唇部を抽出することが可能となる。さら
に、口唇認識に関しても、抽出した口唇部の3次元形状
の情報を用いることにより、従来方法では、判別に難し
かった(誤認識が多かった)ような形状に関する認識
や、従来では不可能であったような形状に関する認識が
可能になる。
果、口唇の動きの認識結果、あるいは口唇の形状の認識
結果と口唇の動きの認識結果を組み合わせたものは、そ
の後の種々の処理に供することができる。なお、画像認
識部3に、口唇の形状と動きの認識の両方の機能を設け
るか、いずれか一方を設けるかは、システムの目的等に
応じて適宜設計することが可能である。
ず、種々変形して実施することができる。以下では、本
実施形態のいくつかの変形例を示す。
部2の代わりに、画像取得部1で所得された距離画像ス
トリームから顔部分のみを抽出するための顔部抽出部を
具備してもよい。
氏、というように人物の顔形状のテンプレートを用意し
ておき、それらを用いて顔部抽出部5で抽出された顔部
の距離画像とのマッチングを行うことで、本実施形態の
画像認識装置で撮像された人物が誰であるのかを認識す
ることができる。
識装置(または少なくとも画像取得部1の発光素子と受
光素子の部分)を、自動ドアの近くなどに置き、そこを
通る人物の顔を認識することで、特定の人物と認識した
ときのみドアを開ける、といったような、簡単なセキュ
リティチェックに使うことが可能である。
は、医療面でも重病者の看護に有効である。従来、病室
や在宅看護者の家庭などにいる患者が何か異常をきたし
た場合には、枕元にある押しボタン式のブザーで、看護
婦や医者に知らせていた。しかし、押しボタン式のブザ
ーでは、患者が弱っていた場合に、ボタンを押す余裕が
無いことが多く、危険であった。このような場所に第1
の実施形態の画像認識装置を置くことで、病気で弱って
いて、あまり声を出せないような場合でも、病人のわず
かな声と、微妙な口唇の動きから、病人が何か伝えたい
ということを判別することが可能である。
がない病人が口唇を動かしたら、病状が急変した可能性
がある。このような場合には、口唇の動きを何らかの音
に変換して、警報音代わりに用いることができ、それに
より医者や看護婦が病室や在宅看護者の家庭に駆け付け
るような方策をとることができる。
口唇認識の結果をそのまま音声に変換し呈示する、また
は、結果に応じて何らかの音を呈示するを音呈示部4を
設ける。
するように、上記の第1の実施形態の変形例2の構成
(図8)に、さらに顔部のみの距離画像ストリームを抽
出するための顔部抽出部5を付加して、顔の3次元形状
情報を用いることで、例えば、顔を上下に振っているな
どというように、顔のゼスチャーの認識を行ったり、笑
っている、怒っている、困っているなどというように、
表情の認識を行うことが可能である。
く:顔を上下に数回振る、拒む:顔を左右に数回振る、
喜ぶ:大きく口があく、目が細くなる、驚く:目を見開
く、などというようにゼスチャーや表情などを得るため
のテンプレートを用意しておき、それらを用いてテンプ
レートマッチングを行うことで、顔のゼスチャーや表情
の認識を行う。
の動きを音声変換する際に、変換する音声の種類やピッ
チなどを変えることも可能である。
の場合は犬のなき声、否定の場合はニワトリの鳴き声、
喜んでいる場合は猫のなき声というように変化させるこ
ともできる。このようにすることで、例えば、子供に、
英語の単語発生などを楽しく飽きないように勉強できる
ようにすることが可能となる。
実施形態について説明する。本実施形態では、第1の実
施形態と相違する部分を中心に説明する。
画像認識装置の全体構成図である。
像認識装置は、第1の実施形態の画像認識装置の構成に
対して、画像認識部3で得られた口唇の形状もしくは動
きの認識結果をもとに、話者の顔の向いている方向を識
別するための方向識別部6が追加された構成になってい
る。
時に、話者がどちらの方向を向いて話しているかを認識
することができる。
た口唇の形状もしくは動きの認識結果をもとに、話者の
顔の向いている方向を識別する。その際、口唇の3次元
形状を利用することで、話者の顔の向きを計算する。
める具体的な方法の一例について、図11に示す処理の
流れ図を用いて説明する。
えば座標値(i、j))を選択する(ステップS30
0)。
ば座標値(i−1、j))を選択する(ステップS30
1)。
図、(b)は傾きベクトルgとこれに直交する法線ベク
トルpを説明するための図)のように、選択した画素Y
(例えば座標値(i−1、j))との距離値の差d
(i、j)−d(i−1、j)をもとに、この2画素間
の傾きベクトルgを求める(ステップ302)。
テップS302で得られた傾きベクトルgと直行する法
線ベクトルpを求める(ステップS303)。
線ベクトルの計算が終了したか判別する(ステップS3
04)。
たら、ステップS301に戻る。全てについて終了して
いたら、この法線ベクトルの平均P=Σpを計算し、画
素Xの法線ベクトルPとする(ステップS305)。
いて行ったかどうか判定する(ステップS306)。行
っていなかったら、ステップS300に戻る。
算が終了したら、各画素の法線ベクトルの平均Plip =
Σpを計算し、これを口唇の法線ベクトルとする(ステ
ップS307)。
下対称形状であるため、口唇の法線ベクトルと顔の法線
ベクトルの方向は、おおむね一致する。そのため、ステ
ップS307で得られたPlip が顔の法線ベクトルとな
る。つまり、法線ベクトルPlip を顔の向きとして話者
の向いている方向を識別することができる。
得る一手段として、距離画像から口唇の法線ベクトルを
計算する方法について説明したが、これに限定されるも
のではなく、口唇の大きさの比率や形状の変化から口唇
の向いている方向を類推するなど、他の方法を用いても
構わない。
どちらの方向を向いて、どのような話をしているのかも
しくはどのような口唇の動きをしているのかなどを、同
時に認識することが可能である。
ず、種々変形して実施することができる。以下では、本
実施形態のいくつかの変形例を示す。
うに、口腔部抽出部2の代わりに、画像取得部1で取得
された顔の全部または一部の距離画像ストリームから顔
部のみを抽出するための顔部抽出部5を置いても良い。
この場合、画像認識部3には、顔部抽出部5で抽出され
た顔部の距離画像ストリームが入力される。
く:顔を上下に数回振る、拒む:顔を左右に数回振る、
喜ぶ:大きく口があく、目が細くなる、驚く:目を見開
く、などというようにゼスチャーや表情などを得るため
のテンプレートを用意しておき、それらを用いて、入力
された顔部の距離画像ストリームとのテンプレートマッ
チングを行うことで、頷いているなどのゼスチャーや、
喜んでいる、驚いている、困っているなどの表情変化な
どを認識することが可能である。
た顔部の形状、動きの認識結果をもとに、話者の顔の向
いている方向を識別する。
が、どちらの方向を向いて、どのような顔の動作(ゼス
チャー、表情変化など)をしているのかを認識すること
ができる。
の実施形態では、画像認識部3の認識結果をもとに、前
記方向識別部6で話者の向いている方向を識別したが、
図14のように、画像取得部1で取得された顔の距離画
像ストリーム(これには、背景などが含まれる)から顔
の部分のみを抽出するための顔部抽出部5を新たに追加
し、顔部抽出部5で抽出された顔の距離画像ストリーム
をもとに、方向識別部6で話者の向いている方向を識別
するようにしても良い。この場合、方向識別部6では、
顔部抽出部5で抽出された顔の距離画像ストリームか
ら、顔の法線方向(例えば、顔を構成する画素の法線方
向の平均)を計算することにより、話者の向いている方
向を得る。
は、口唇の向いている方向から、顔の向いている方向を
得ていたが、直接、顔の向いている方向を得ることがで
きるため、より細かく、微妙な顔の向きを得ることが可
能である。
実施形態について説明する。本実施形態では、第2の実
施形態と相違する部分を中心に説明する。
画像認識装置の全体構成図である。
像認識装置は、第2の実施形態の画像認識装置の構成も
しくはその変形例の構成に対して、話者の発言内容を認
識する音声認識部7と、方向識別部6で得られた話者の
顔の向いている方向をもとに、音声認識部7に、音声認
識の開始を指示するための音声認識開始部8が追加され
た構成になっている。
じて、音声認識を行うことができる。
装置を用いて入力された音声の内容を認識するものであ
る。音声認識部7では、種々の認識手法を用いることが
可能である。例えば、隠れマルコフモデルなどを用いて
実現してもよい。音声認識を行うことで、話者の会話の
内容を認識することができる。
る。
れた結果をもとに、音声認識部7に、音声認識を開始す
るように指示を出すものである。ここでは、例えば、話
者が(本実施形態の画像認識装置に対して(すなわち画
像取得部1の受光素子の部分に対して;以下、同様))
正面を向いたとき、話者の行為が開始されたとみなし、
この時点で、音声認識の開始の指示を音声認識部7に送
る。
動作に応じて、音声認識を開始することが可能である。
例えば、話者が(本実施形態の画像認識装置に対して)
正面を向いたときに音声認識を開始することができる。
による口唇認識(読唇)の結果も得られるため、音声認
識と口唇認識(読唇)を同時に行うことが可能となり、
これら2つの認識の結果を総合的に用いることにより、
話者の会話内容について、より高い認識率を持つ認識結
果を得ることができる。
である。例えば、工事現場などの雑音が多く声を聞き取
りにくいような場所では、音声認識だけの場合、認識率
が低下するし、場合によっては全然認識できなくなった
りするが、第3の実施形態のように、口唇認識も同時に
行えば、口唇認識は雑音に影響されないので、認識率は
低下することはなく、全体的に高い認識率を維持するこ
とができる。また、図書館のような静寂で大きな声を出
せない場所でも、音声認識だけでは、微少の音声で認識
を行なわねばならないため、認識率の低下が考えられる
が、同様の理由で、口唇認識も同時に行えば、全体的に
高い認識率を維持することができる。
来の音声認識では、複数の音声が同時に入力されてしま
い、認識対象を判別することが困難だったが、本実施形
態の場合、2人のうち、例えば、本実施形態の画像認識
装置に対して正面を向いている人の方のみを認識すると
いうように、認識対象を判別することも容易であるし、
口唇認識も同時に行っているので、その情報を用いて認
識対象を判別することもできる。
ず、種々変形して実施することができる。以下では、本
実施形態のいくつかの変形例を示す。
形態では、音声認識部7、音声認識開始部8を置き、方
向識別部6で得られた結果をもとに、音声認識を開始す
る例について説明したが、これに限定されるものではな
く、音声認識に限らず、他のどのような認識手段でも良
い。
形態では、話者の顔の向いている向きに応じて、音声認
識の開始の指示に用いる例を示したが、図16に示すよ
うに、音声認識開始部8の代わりに、音声認識部7に音
声認識の終了を指示するための音声認識終了部9を置
き、音声認識の終了の指示に用いても良い。
認識を終了することが可能である。例えば、話者が(本
実施形態の画像認識装置に対して)顔を背けたときに音
声認識を終了することができる。
9を設け、音声認識の開始と終了の両方の指示に用いて
もよい。
6で話者の顔の向いている方向を得て、それを音声認識
の開始の指示に用いるのではなく、図17に示すよう
に、画像認識部3で得られた認識結果から、会話の始ま
りにおける口唇の動き出しを検出し、それをもとに音声
認識部7に音声認識の開始を指示するための新たな音声
認識開始部8を置いても良い。
部3で得られた口唇認識の結果から、口唇の動作が始ま
る点(言葉を話し始める際、口唇が微妙に動き始める点
で、この時点では、まだ発音は始まっていない)を求
め、その時点で、音声認識部7に音声認識の開始を指示
する。
部8の代わりに、口唇の動作が終了する点を検出する音
声認識終了部9を置き、音声認識の終了の指示に用いて
も良い。
開始部8に加えて、口唇の動作が終了する点を検出する
音声認識終了部9を置き、音声認識の開始と終了の両方
の指示に用いても良い。
出をおこなうための計算に時間がかかるため、このよう
なリアルタイム処理に口唇の動きだしの検出を用いるこ
とは困難であったが、本実施形態の画像認識装置では、
第1の実施形態で説明したように、あまり計算コストを
必要とせずに口唇部の抽出が可能であるため、このよう
な口唇の動きだしの検出を十分にリアルタイムに行うこ
とができる。
実施形態について説明する。本実施形態では、第1の実
施形態と相違する部分を中心に説明する。
画像認識装置の全体構成図である。
像認識装置は、第2の実施形態の画像認識装置の構成に
対して、各種の情報の提示を行う情報呈示部10と、方
向識別部6で得られた話者の顔の向いている方向をもと
に情報呈示の開始を情報呈示部10に指示するための情
報呈示開始部11が追加された構成になっている。
じて、各種の情報呈示を行うことができる。
かの情報を提示するものである。情報呈示部10は、デ
ィスプレー(画像、文字などを呈示)、スピーカー(音
を呈示)、フォースフィードバック装置(感触を呈示)
などの少なくとも1つの情報呈示装置を具備しており、
それを通して対象者に情報を提示することができる。
る。
施形態における音声認識開始部8と同様の役割をするも
ので、方向識別部6で得られた結果をもとに、情報呈示
部10に、情報呈示の開始の指示を出すものである。
て、情報呈示を開始することが可能である。例えば、話
者が(本実施形態の画像認識装置に対して)正面を向い
たときに、それを話者の行為開始とみなし、情報呈示を
開始することができる。
唇)の結果も得られているため、話者の会話の内容に応
じて、情報呈示を開始することも可能である。
ず、種々変形して実施することができる。以下では、本
実施形態のいくつかの変形例を示す。
形態の変形例2の場合と同様に、情報呈示開始部11に
代えてあるいは情報呈示開始部11に加えて、情報呈示
終了部を置き、呈示終了の指示をしても良い。
形態の変形例3の場合と同様に、画像認識部3で得られ
た認識結果から、会話の始まりにおける口唇の動き出し
を検出し、それをもとに情報呈示部10に情報呈示の開
始を指示するための新たな情報呈示開始部11を置いて
も良い。
呈示の方法として音声合成を用いて、口唇の形状、動き
の認識結果をもとに、その認識内容を音声合成で提供す
ることで、喉の病気などで言葉が話せない場合でも、口
パク(音声は出さずに、実際話しているように口唇を動
かす)をするだけで、音声合成により、本実施形態の画
像認識装置に代わりに話させるなどというような、いわ
ゆる、音声同期(リップシンク)が可能である。
合と同様に、本変形例の情報呈示開始部11に代えてあ
るいは情報呈示開始部11に加えて、情報呈示終了部を
置き、呈示終了の指示をしても良い。
すように、情報呈示開始部11の代わりに、呈示する情
報の種類を切り替えるための情報呈示切り替え部12を
置き、話者の向いている方向によって、情報呈示の形態
を切り替えるようにしても良い。
(1)異なる情報呈示の形態を追加する、(2)複数の
情報呈示の形態を提供している場合に、少なくとも1つ
の情報呈示の形態を中止する、(3)1または複数の情
報呈示の形態を提供している場合に、一部または全てを
異なる情報呈示の形態に変更する(情報呈示の形態数が
変化する場合を含む)、などが考えられる。
の画像認識装置の方を)向いていないときには、音声の
みの情報呈示を行っていて、話者の顔が向いたときに
は、情報呈示切り替え部12を用いて、音声のみの呈示
から、音声に加えて、画像などの複合メディアを用いた
情報呈示に切り替える、などということが可能である。
示物の説明を行うのに、通常は音声で説明文を読み上げ
ておいて、見学者が展示物の方を見て(あるいは、さら
に何か話すと)、展示物の横に置いておいたディスプレ
ーで説明ビデオの上映が始まる、といったように用いる
ことができる。
形態に、第3の実施形態で説明した音声認識部、音声認
識開始部、音声認識終了部などを組み合わせることによ
り、話者の生の音声と情報呈示部10で生成した画像情
報を組み合わせて呈示することが可能となる。
の距離画像ストリームを用いて、情報呈示部10でその
形状を3次元CG合成を行い、それに、音声認識部で取
得した話者の生の音声を組み合わせることで、話者の生
の声と音声同期(リップシンク)して口唇が動く3次元
CGを提供することができる。
実施形態について説明する。
第2、第3、あるいは第4の実施形態の画像認識装置や
それらの種々の変形例の構成それぞれにおいて、外部と
の通信を行う通信部(図示せず)を追加したものであ
る。
4の実施形態やその変形例で得られた所望の情報を外部
に通信することができる。
などの通信路を用いて外部に通信するもので、これが加
えられることで、例えば、第1の実施形態では、口唇認
識の結果を、第2の実施形態では、口唇認識の結果およ
び話者の向いている方向を、第3の実施形態では、口唇
認識および音声認識の結果を、第4の実施形態では、口
唇認識の結果および呈示された情報を、それぞれ通信す
ることが可能である。
像認識装置で得られた結果(第1の実施形態を基にした
ものでは、口唇認識結果、第2の実施形態を基にしたも
のでは、話者方向と口唇認識結果、第3の実施形態を基
にしたものでは、口唇および音声認識結果、第4の実施
形態を基にしたものでは、口唇認識結果および呈示情
報)を、インターネットなどを通して通信することが可
能である。
合、話者の生の声と音声同期(リップシンク)して口唇
が動く3次元CGが得られるが、先に顔の口唇部以外の
部分を通信先の相手に送っておき、話者の発言ととも
に、上記3次元CGの口唇部だけを通信部を用いてリア
ルタイムに送り、通信先で、あらかじめ送っておいた顔
と合成することで、通信路に負荷をかけずに(つまり通
信路をボトルネックとせずに)、3次元CGの音声同期
(リップシンク)を行うことができる。これは、通信路
に速度のボトルネックが生じやすいインターネットなど
で、音声とCGといった比較的大きなデータを用いてリ
アルタイム処理する際に大変有効である。
取得部1の構成について詳しく説明する。
す。この画像取得部1は、対象物体に光を照射するため
の発光部101、対象物体からの反射光を画像として抽
出するための反射光抽出部102、画像化された反射光
の情報をもとに距離画像を生成するための距離画像生成
部103、これらの各部の動作タイミングを制御するタ
イミング制御部104を用いて構成される。
ング制御部104によって生成されるタイミング信号に
従って時間的に強度変動する光を発光する。発光部10
1が発した光は、発光部101の発光素子の前方にある
対象物体により反射された後に、反射光抽出部102の
受光面に入射する。
なるにつれ大幅に減少する。物体の表面が一様に光を散
乱する場合、反射光画像1画素あたりの受光量は物体ま
での距離の2乗に反比例して小さくなる。従って、当該
受光面の前に物体が存在する場合、背景からの反射光は
ほぼ無視できるくらいに小さくなり、物体のみからの反
射光画像を得ることができる。
が存在する場合、その顔からの反射光画像が得られる。
このとき、反射光画像の各画素値は、その画素に対応す
る単位受光部で受光した反射光の量を表す。反射光量
は、物体の性質(光を鏡面反射する、散乱する、吸収す
る、など)、物体の向き、物体の距離、などに影響され
るが、物体全体が一様に光を散乱する物体である場合、
その反射光量は物体までの距離と密接な関係を持つ。顔
などはこのような性質を持つため、顔を対象物体とした
場合の反射光画像は、顔の3次元形状、顔の距離、顔の
傾き(部分的に距離が異なる)、などを反映する。
列した、光の量を検出する受光素子を持ち、発光部10
1が発した光の対象物体による反射光の空間的な強度分
布を抽出する。この反射光の空間的な強度分布は、画像
として捉えることができるので、以下では反射光画像と
呼ぶ。
おいては、一般的に、発光部101の光の対象物体によ
る反射光だけでなく、照明光や太陽光などの外光も同時
に受光することが想定される。そこで、本構成例の反射
光抽出部102では、発光部101が発光しているとき
に受光した光の量と、発光部101が発光していないと
きに受光した光の量の差を取ることによって、発光部1
01からの光の対象物体による反射光の成分だけを取り
出すようにしている。この受光のタイミングも、タイミ
ング制御部104によって制御される。
た外光補正後の反射光画像の各画素に対応する反射光量
(アナログ信号)が必要に応じて増幅された後にA/D
変換され、これによってデジタル化された反射光画像が
得られる。
02によって得られた反射光画像の各画素の受光量の値
(デジタルデータ)を距離の値に変換することによっ
て、距離画像(例えば、64画素×64画素、256階
調の画像)を生成する。
い一構成例を示す。
体106に反射して、レンズ等の受光光学系107によ
り、反射光抽出部102の受光面上に結像する。
分布、すなわち反射光画像を検出する。反射光抽出部1
02は、各画素(単位受光部)ごとに設けられた第1の
受光部121および第2の受光部122、ならびに全画
素について1つ(または一纏まりの複数画素ごとにまた
は各画素ごとに)設けられた差分演算部123を用いて
構成される。
は、異なるタイミングで受光を行う。そして、第1の受
光部121が受光しているときに発光部101が発光
し、第2の受光部122が受光しているときには発光部
101は発光しないように、タイミング制御部104が
これらの動作タイミングを制御する。これにより、第1
の受光部121が発光部101からの光の物体による反
射光とそれ以外の太陽光、照明光などの外光を受光す
る。一方、第2の受光部122は外光のみを受光する。
両者が受光するタイミングは異なっているが近いので、
この間における外光の変動や対象物体の変位は無視でき
る。
光部121で受光した像と第2の受光部122で受光し
た像の差分をとれば、対象物体による反射光の成分だけ
が抽出される。1つの差分演算部123が複数の画素で
共用される場合には、シーケンシャルに差分が演算され
る。
よび第2の受光部122の実際の構成については種々の
ものが考えられる。例えば、第1の受光部121および
第2の受光部122のそれぞれに受光素子を設けるので
はなく、単位受光部ごとに、光電変換素子(例えばフォ
トダイオード)を1つ設けて第1の受光部121と第2
の受光部122で兼用するとともに、受光量に対応する
電荷量を蓄積する電荷蓄積素子(例えばコンデンサ)を
第1の受光部121および第2の受光部122のそれぞ
れのために2つ設ける方法が考えられる。
02は、反射光画像の各画素の反射光量を外光補正を行
った後に出力する。なお、ここでは、各画素の反射光量
をシーケンシャルに出力するものとする。
1によって増幅され、A/D変換器132によってデジ
タルデータに変換された後、メモリ133に画像データ
として蓄えられる。そして、しかるべきタイミングでこ
のメモリより蓄積されたデータが読み出され、距離画像
生成部103に与えられる。
102により得られた反射光画像をもとに距離画像を生
成する。例えば、反射光画像の各画素の反射光量を、そ
れぞれ、所定の階調(例えば、256階調)のデジタル
データに変換する。なお、この変換にあたっては、例え
ば、(1)受光素子における受光量が対象物体までの距
離に対して非線形性を持つ(対象物体までの距離の2乗
に反比例する)という非線形要因に対する補正を行う処
理、あるいは(2)各画素に対応する受光素子の特性の
ばらつきや非線形性を補正する処理、あるいは(3)背
景やノイズを除去する処理(例えば、基準値以下の受光
量を持つ画素の階調を0にする)、などといった処理を
適宜行ってもよい。
離情報を高い分解能で求められることが望ましい。この
場合、アンプ131として対数アンプを用いると望まし
い。受光面での受光量は対象物体までの距離の2乗に反
比例するが、対数アンプを用いると、その出力は距離に
反比例するようになる。このようにすることで、ダイナ
ミックレンジを有効に使うことができる。
発光によって全画素について反射光が得られるものとす
ると、タイミング制御部104の制御によって、発光→
第1の受光部による受光→発光なしに第2の受光部によ
る受光→差分演算→デジタル化→距離画像の生成(もし
くは発光なしに第2の受光部による受光→発光→第1の
受光部による受光→差分演算→デジタル化→距離画像の
生成)といった一連の処理が進められ、これによって1
枚の距離画像が得られる。また、この一連の処理を繰り
返し行う(例えば、1/60秒ごとに行う)ことによっ
て、距離画像ストリームを得ることができる。
い、近赤外光を発光するようにするのが好ましい。この
ようにすれば、光が照射されても人間には光が見えない
ため、眩しさを感じさせないようにすることができる。
また、この場合に、受光光学系には、近赤外光通過フィ
ルタを設けると好ましい。このフィルタは、発光波長で
ある近赤外光を通過し、可視光、遠赤外光を遮断するの
で、外光の多くをカットすることができる。ただし、人
間の目に眩しくない条件であれば(例えば、発光量がそ
れほど大きくない、人間の目には直接入射しないような
光学系となっている、など)、可視光を用いても構わな
い。また、電磁波や超音波などを用いる方法も考えられ
る。
1の発光の有無の相違による2種類の受光量の差分をア
ナログ信号の状態で取ったが、2種類の受光量をそれぞ
れデジタル化した後に差分を取るようにする方法もあ
る。
した筐体は、本画像認識装置の目的等に応じて適宜設置
するばよい。例えば本画像認識装置が表示装置を持つも
のである場合、この表示装置に対して対象物体となる人
間の顔が正面を向いたときに、当該受光面に対しても正
面を向いた形になるように当該画像認識装置の筐体に設
ける。
適宜組み合わせて実施することが可能である。
いはそれらを適宜組み合わせたものでは、距離画像スト
リームから形状および/または動きを認識し、あるいは
さらにその認識結果をもとに種々の処理を行うものであ
ったが、距離画像から形状を認識し、あるいはさらにそ
の認識結果をもとに種々の処理を行うように構成した実
施形態も可能である。
いはそれらを適宜組み合わせたものは、画像取得部1も
しくはそのうちの反射光画像を抽出する部分を省き、与
えられた距離画像もしくはそのストリームに基づいて、
もしくは与えられた反射光画像もしくはそのストリーム
から距離画像もしくはそのストリームを生成し、生成し
た距離画像もしくはそのストリームに基づいて、形状お
よび/または動きを認識し、あるいはさらにその認識結
果をもとに種々の処理を行うような装置として構成する
ことも可能である。
トウェアとしても実現可能である。また、上記した各手
順あるいは手段をコンピュータに実行させるためのプロ
グラムを記録した機械読取り可能な媒体として実施する
こともできる。
るものではなく、その技術的範囲において種々変形して
実施することができる。
画像から必要とする部分を抽出し、抽出した部分の距離
画像に基づいて認識処理を行うので、人間の顔や口唇の
形状や動きを高速かつ高精度に認識することができる。
構成例を概略的に示す図
ローチャート
認識装置の構成例を概略的に示す図
認識装置の構成例を概略的に示す図
の構成例を概略的に示す図
れを示すフローチャート
像認識装置の構成例を概略的に示す図
像認識装置の構成例を概略的に示す図
の構成例を概略的に示す図
像認識装置の構成例を概略的に示す図
像認識装置の構成例を概略的に示す図
の構成例を概略的に示す図
像認識装置の構成例を概略的に示す図
Claims (15)
- 【請求項1】対象物体に対する距離画像を取得するため
の画像取得手段と、 前記画像取得手段により取得された距離画像から口腔部
分を抽出する口腔部抽出手段と、 前記口腔部抽出手段により抽出された口腔部分の距離画
像に基づいて、口唇の形状を認識するための画像認識手
段とを具備したことを特徴とする画像認識装置。 - 【請求項2】対象物体に対する距離画像ストリームを取
得するための画像取得手段と、 前記画像取得手段により取得された距離画像ストリーム
から口腔部分を抽出する口腔部抽出手段と、 前記口腔部抽出手段により抽出された口腔部分の距離画
像ストリームに基づいて、口唇の形状および口唇の動き
の少なくとも一方を認識するための画像認識手段とを具
備したことを特徴とする画像認識装置。 - 【請求項3】対象物体に対する距離画像を取得するため
の画像取得手段と、 前記画像取得手段により取得された距離画像から顔部分
を抽出する顔部抽出手段と、 前記顔部抽出手段により抽出された顔部分の距離画像に
基づいて、顔の形状を認識するための画像認識手段とを
具備したことを特徴とする画像認識装置。 - 【請求項4】対象物体に対する距離画像ストリームを取
得するための画像取得手段と、 前記画像取得手段により取得された距離画像ストリーム
から顔部分を抽出する顔部抽出手段と、 前記顔部抽出手段により抽出された顔部分の距離画像ス
トリームに基づいて、顔の形状および顔の動きの少なく
とも一方を認識するための画像認識手段とを具備したこ
とを特徴とする画像認識装置。 - 【請求項5】前記画像認識手段により得られた前記形状
の情報または前記動きの情報に基づいて、話者の顔の向
きを識別するための方向識別手段をさらに具備したこと
を特徴とする請求項1ないし4のいずれか1項に記載の
画像認識装置。 - 【請求項6】前記画像取得手段により取得された距離画
像から顔部分を抽出する顔部抽出手段と、 前記顔部抽出手段により抽出された顔部分の距離画像に
基づいて、話者の顔の向きを識別するための方向識別手
段とをさらに具備したことを特徴とする請求項1または
2に記載の画像認識装置。 - 【請求項7】入力された音声を認識するための音声認識
手段と、 前記画像認識手段による認識結果に基づいて話者の会話
の開始が検出された場合に前記音声認識手段による音声
認識を開始させる制御と前記画像認識手段による認識結
果に基づいて話者の会話の終了が検出された場合に前記
音声認識手段による音声認識を終了させる制御の少なく
とも一方の制御を行う制御手段とをさらに具備したこと
を特徴とする請求項1、2または6に記載の画像認識装
置。 - 【請求項8】入力された音声を認識するための音声認識
手段と、 前記方向識別手段による識別結果が正面である場合に前
記音声認識手段による音声認識を開始させる制御と前記
方向識別手段による識別結果が正面でない場合に前記音
声認識手段による音声認識を終了させる制御の少なくと
も一方の制御を行う制御手段とをさらに具備したことを
特徴とする請求項5または6に記載の画像認識装置。 - 【請求項9】所定の出力形態により所定の情報を呈示す
るための情報呈示手段と、 前記画像認識手段による認識結果に基づいて話者の会話
の開始と終了の少なくとも一方の検出を行い、該検出結
果に応じて、前記情報呈示手段による情報呈示を開始さ
せる制御と前記情報呈示手段による情報呈示を終了させ
る制御と前記情報呈示手段により行われている情報呈示
に用られている出力形態の少なくとも一部の変更を行う
制御のうち少なくとも1つの制御を行う制御手段とをさ
らに具備したことを特徴とする請求項1、2、6または
7に記載の画像認識装置。 - 【請求項10】所定の出力形態により所定の情報を呈示
するための情報呈示手段と、 前記方向識別手段による識別結果に係る向きと正面方向
との関係に応じて、前記情報呈示手段による情報呈示を
開始させる制御と前記情報呈示手段による情報呈示を終
了させる制御と前記情報呈示手段により行われている情
報呈示に用られている出力形態の少なくとも一部の変更
を行う制御のうち少なくとも1つの制御を行う制御手段
とをさらに具備したことを特徴とする請求項5、6また
は8に記載の画像認識装置。 - 【請求項11】得られた所定の情報を通信するための通
信手段をさらに具備したことを特徴とする請求項1ない
し10のいずれか1項に記載の画像認識装置。 - 【請求項12】与えられた、対象物体に対する距離画像
から、口腔部分を抽出し、 抽出された口腔部分の距離画像に基づいて、口唇の形状
を認識することを特徴とする画像認識方法。 - 【請求項13】与えられた、対象物体に対する距離画像
ストリームから、口腔部分を抽出し、 抽出された口腔部分の距離画像ストリームに基づいて、
口唇の形状および口唇の動きの少なくとも一方を認識す
ることを特徴とする画像認識方法。 - 【請求項14】コンピュータに、与えられた対象物体に
対する距離画像から口腔部分を抽出させ、抽出された口
腔部分の距離画像に基づいて口唇の形状を認識させるた
めの手順を含むプログラムを記録したコンピュータ読取
り可能な記録媒体。 - 【請求項15】コンピュータに、与えられた対象物体に
対する距離画像ストリームから口腔部分を抽出させ、抽
出された口腔部分の距離画像ストリームに基づいて口唇
の形状および口唇の動きの少なくとも一方を認識させる
ための手順を含むプログラムを記録したコンピュータ読
取り可能な記録媒体。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP01987198A JP3688879B2 (ja) | 1998-01-30 | 1998-01-30 | 画像認識装置、画像認識方法及びその記録媒体 |
US09/241,078 US6504944B2 (en) | 1998-01-30 | 1999-02-01 | Image recognition apparatus and method |
US10/282,143 US6690815B2 (en) | 1998-01-30 | 2002-10-29 | Image recognition apparatus and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP01987198A JP3688879B2 (ja) | 1998-01-30 | 1998-01-30 | 画像認識装置、画像認識方法及びその記録媒体 |
Related Child Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004360240A Division JP4160554B2 (ja) | 2004-12-13 | 2004-12-13 | 画像認識装置及び画像認識装置方法 |
JP2005120390A Division JP2005276230A (ja) | 2005-04-18 | 2005-04-18 | 画像認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH11219421A true JPH11219421A (ja) | 1999-08-10 |
JP3688879B2 JP3688879B2 (ja) | 2005-08-31 |
Family
ID=12011286
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP01987198A Expired - Fee Related JP3688879B2 (ja) | 1998-01-30 | 1998-01-30 | 画像認識装置、画像認識方法及びその記録媒体 |
Country Status (2)
Country | Link |
---|---|
US (2) | US6504944B2 (ja) |
JP (1) | JP3688879B2 (ja) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1102210A2 (en) * | 1999-11-16 | 2001-05-23 | Fuji Photo Film Co., Ltd. | Image processing apparatus, image processing method and recording medium |
JP2003280677A (ja) * | 2002-03-12 | 2003-10-02 | Matsushita Electric Ind Co Ltd | 口形状ライブラリを作成するための分解方法 |
JP2004509362A (ja) * | 2000-07-19 | 2004-03-25 | アリフコム | 電子的信号からノイズを除去するための方法および装置 |
JP2004259114A (ja) * | 2003-02-27 | 2004-09-16 | Seiko Epson Corp | 物体識別方法および物体識別装置、並びに物体識別プログラム |
JP2004348429A (ja) * | 2003-05-22 | 2004-12-09 | Hitachi Information Technology Co Ltd | 端末装置及び端末装置の制御プログラム |
JP2006065683A (ja) * | 2004-08-27 | 2006-03-09 | Kyocera Communication Systems Co Ltd | アバタ通信システム |
KR100680278B1 (ko) | 2005-12-28 | 2007-02-07 | 고려대학교 산학협력단 | 입술모양 추출방법 및 그 장치 |
JP2007142957A (ja) * | 2005-11-21 | 2007-06-07 | National Institute Of Information & Communication Technology | 遠隔対話方法及び装置 |
JP2008287340A (ja) * | 2007-05-15 | 2008-11-27 | Tokai Univ | 発話内容識別装置及び個人識別装置 |
JP2009188684A (ja) * | 2008-02-05 | 2009-08-20 | Panasonic Electric Works Co Ltd | 撮像装置 |
US7752445B2 (en) | 2004-02-27 | 2010-07-06 | International Business Machines Corporation | System and method for authentication of a hardware token |
US7894637B2 (en) | 2004-05-21 | 2011-02-22 | Asahi Kasei Corporation | Device, program, and method for classifying behavior content of an object person |
JP2014191239A (ja) * | 2013-03-27 | 2014-10-06 | Brother Ind Ltd | 音声認識装置及び音声認識プログラム |
JP2016193022A (ja) * | 2015-03-31 | 2016-11-17 | 株式会社エクォス・リサーチ | 脈波検出装置、及び脈波検出プログラム |
JP2019060921A (ja) * | 2017-09-25 | 2019-04-18 | 富士ゼロックス株式会社 | 情報処理装置、及びプログラム |
WO2020079918A1 (ja) * | 2018-10-18 | 2020-04-23 | ソニー株式会社 | 情報処理装置及び情報処理方法 |
KR20200083155A (ko) * | 2018-12-28 | 2020-07-08 | 바이두 유에스에이 엘엘씨 | 시각 기반의 메커니즘을 기반으로 스마트 표시 장치의 음성 명령을 활성화하는 방법 및 시스템 |
JP2021117049A (ja) * | 2020-01-23 | 2021-08-10 | 国立大学法人電気通信大学 | 口腔認識装置 |
Families Citing this family (56)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6765608B1 (en) * | 1999-03-09 | 2004-07-20 | Minolta Co., Ltd. | Image processing apparatus and system executing predetermined image processing on image data shot by camera, and image recording medium recorded with image processing program |
JP2000350123A (ja) | 1999-06-04 | 2000-12-15 | Fuji Photo Film Co Ltd | 画像選択装置、カメラ、画像選択方法及び記録媒体 |
RU2160467C1 (ru) * | 1999-07-08 | 2000-12-10 | Яхно Владимир Григорьевич | Способ адаптивного распознавания информационных образов и система для его осуществления |
US6941323B1 (en) * | 1999-08-09 | 2005-09-06 | Almen Laboratories, Inc. | System and method for image comparison and retrieval by enhancing, defining, and parameterizing objects in images |
SG91841A1 (en) * | 1999-11-03 | 2002-10-15 | Kent Ridge Digital Labs | Face direction estimation using a single gray-level image |
US7106887B2 (en) * | 2000-04-13 | 2006-09-12 | Fuji Photo Film Co., Ltd. | Image processing method using conditions corresponding to an identified person |
US6754373B1 (en) * | 2000-07-14 | 2004-06-22 | International Business Machines Corporation | System and method for microphone activation using visual speech cues |
TWI222029B (en) * | 2001-12-04 | 2004-10-11 | Desun Technology Co Ltd | Two-in-one image display/image capture apparatus and the method thereof and identification system using the same |
AU2002362085A1 (en) * | 2001-12-07 | 2003-07-09 | Canesta Inc. | User interface for electronic devices |
US7340077B2 (en) * | 2002-02-15 | 2008-03-04 | Canesta, Inc. | Gesture recognition system using depth perceptive sensors |
US10242255B2 (en) | 2002-02-15 | 2019-03-26 | Microsoft Technology Licensing, Llc | Gesture recognition system using depth perceptive sensors |
US7003139B2 (en) * | 2002-02-19 | 2006-02-21 | Eastman Kodak Company | Method for using facial expression to determine affective information in an imaging system |
WO2003073359A2 (en) * | 2002-02-26 | 2003-09-04 | Canesta, Inc. | Method and apparatus for recognizing objects |
US20030171930A1 (en) * | 2002-03-07 | 2003-09-11 | Junqua Jean-Claude | Computer telephony system to access secure resources |
US7151530B2 (en) | 2002-08-20 | 2006-12-19 | Canesta, Inc. | System and method for determining an input selected by a user through a virtual interface |
US7526120B2 (en) * | 2002-09-11 | 2009-04-28 | Canesta, Inc. | System and method for providing intelligent airbag deployment |
US20040066500A1 (en) * | 2002-10-02 | 2004-04-08 | Gokturk Salih Burak | Occupancy detection and measurement system and method |
WO2004047426A2 (en) * | 2002-11-15 | 2004-06-03 | Esc Entertainment, A California Corporation | Reality-based light environment for digital imaging in motion pictures |
US7421097B2 (en) * | 2003-05-27 | 2008-09-02 | Honeywell International Inc. | Face identification verification using 3 dimensional modeling |
US7068815B2 (en) * | 2003-06-13 | 2006-06-27 | Sarnoff Corporation | Method and apparatus for ground detection and removal in vision systems |
JP2005100176A (ja) * | 2003-09-25 | 2005-04-14 | Sony Corp | 画像処理装置およびその方法 |
US7439074B2 (en) * | 2003-09-30 | 2008-10-21 | Hoa Duc Nguyen | Method of analysis of alcohol by mass spectrometry |
GB2414589A (en) * | 2004-04-29 | 2005-11-30 | Brian Vincent Conway | Ultrasonic recognition system |
CN101258963A (zh) * | 2004-10-22 | 2008-09-10 | 株式会社资生堂 | 嘴唇的分类方法,化妆方法,分类图谱及化妆用器具 |
US8009871B2 (en) | 2005-02-08 | 2011-08-30 | Microsoft Corporation | Method and system to segment depth images and to detect shapes in three-dimensionally acquired data |
JP2006259900A (ja) * | 2005-03-15 | 2006-09-28 | Omron Corp | 画像処理システム、画像処理装置および方法、記録媒体、並びにプログラム |
US20070055523A1 (en) * | 2005-08-25 | 2007-03-08 | Yang George L | Pronunciation training system |
US7420472B2 (en) * | 2005-10-16 | 2008-09-02 | Bao Tran | Patient monitoring apparatus |
US7733224B2 (en) | 2006-06-30 | 2010-06-08 | Bao Tran | Mesh network personal emergency response appliance |
WO2007071025A1 (en) * | 2005-12-21 | 2007-06-28 | Jimmy Proximity Inc. | Device and method for capturing vocal sound and mouth region images |
JP2007233871A (ja) * | 2006-03-02 | 2007-09-13 | Fuji Xerox Co Ltd | 画像処理装置、コンピュータの制御方法及びプログラム |
WO2007142227A1 (ja) * | 2006-06-07 | 2007-12-13 | Nec Corporation | 画像方向判定装置、画像方向判定方法、および画像方向判定用プログラム |
US20090124863A1 (en) * | 2007-11-08 | 2009-05-14 | General Electric Company | Method and system for recording patient-status |
KR101558553B1 (ko) * | 2009-02-18 | 2015-10-08 | 삼성전자 주식회사 | 아바타 얼굴 표정 제어장치 |
US8452599B2 (en) * | 2009-06-10 | 2013-05-28 | Toyota Motor Engineering & Manufacturing North America, Inc. | Method and system for extracting messages |
US8269616B2 (en) * | 2009-07-16 | 2012-09-18 | Toyota Motor Engineering & Manufacturing North America, Inc. | Method and system for detecting gaps between objects |
US8337160B2 (en) * | 2009-10-19 | 2012-12-25 | Toyota Motor Engineering & Manufacturing North America, Inc. | High efficiency turbine system |
US8175617B2 (en) | 2009-10-28 | 2012-05-08 | Digimarc Corporation | Sensor-based mobile search, related methods and systems |
US8237792B2 (en) | 2009-12-18 | 2012-08-07 | Toyota Motor Engineering & Manufacturing North America, Inc. | Method and system for describing and organizing image data |
JP5843207B2 (ja) * | 2010-03-19 | 2016-01-13 | ディジマーク コーポレイション | 直観的コンピューティング方法及びシステム |
US8424621B2 (en) | 2010-07-23 | 2013-04-23 | Toyota Motor Engineering & Manufacturing North America, Inc. | Omni traction wheel system and methods of operating the same |
KR101760345B1 (ko) * | 2010-12-23 | 2017-07-21 | 삼성전자주식회사 | 동영상 촬영 방법 및 동영상 촬영 장치 |
CN102637071A (zh) * | 2011-02-09 | 2012-08-15 | 英华达(上海)电子有限公司 | 应用于多媒体输入设备的多媒体输入方法 |
US8869115B2 (en) | 2011-11-23 | 2014-10-21 | General Electric Company | Systems and methods for emotive software usability |
US9159321B2 (en) * | 2012-02-27 | 2015-10-13 | Hong Kong Baptist University | Lip-password based speaker verification system |
CN104428832B (zh) * | 2012-07-09 | 2018-06-26 | Lg电子株式会社 | 语音识别装置及其方法 |
KR101992676B1 (ko) | 2012-07-26 | 2019-06-25 | 삼성전자주식회사 | 영상 인식을 이용하여 음성 인식을 하는 방법 및 장치 |
US10296808B2 (en) * | 2013-03-21 | 2019-05-21 | Koninklijke Philips N.V. | Method and X-ray system for computer aided detection of structures in X-ray images |
KR20150003573A (ko) * | 2013-07-01 | 2015-01-09 | 한국전자통신연구원 | 영상 패턴 검출 방법 및 그 장치 |
TW201504839A (zh) * | 2013-07-19 | 2015-02-01 | Quanta Comp Inc | 可攜式電子裝置及互動式人臉登入方法 |
JP2015089059A (ja) * | 2013-11-01 | 2015-05-07 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
US9311639B2 (en) | 2014-02-11 | 2016-04-12 | Digimarc Corporation | Methods, apparatus and arrangements for device to device communication |
US9875352B2 (en) * | 2015-10-02 | 2018-01-23 | International Business Machines Corporation | Oral authentication management |
US10764643B2 (en) * | 2016-06-15 | 2020-09-01 | Opentv, Inc. | Context driven content rewind |
CN108322608B (zh) * | 2018-01-30 | 2019-11-19 | 维沃移动通信有限公司 | 一种屏幕亮灭控制方法、移动终端 |
CN114842846B (zh) * | 2022-04-21 | 2024-10-11 | 歌尔股份有限公司 | 头戴设备的控制方法、装置及计算机可读存储介质 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6338993A (ja) * | 1986-08-04 | 1988-02-19 | 松下電器産業株式会社 | 音声区間検出装置 |
JPS6331478B2 (ja) * | 1982-10-25 | 1988-06-23 | Fujisawa Pharmaceutical Co | |
JPH0475639A (ja) * | 1990-07-19 | 1992-03-10 | A T R Tsushin Syst Kenkyusho:Kk | 顔画像モデル生成装置 |
JPH04242106A (ja) * | 1991-01-16 | 1992-08-28 | Nippondenso Co Ltd | 顔の認識装置 |
JPH05215531A (ja) * | 1992-02-07 | 1993-08-24 | Nippon Telegr & Teleph Corp <Ntt> | 3次元物体の識別処理方法 |
JPH07287756A (ja) * | 1994-02-23 | 1995-10-31 | Matsushita Electric Works Ltd | 物体認識方法 |
JPH07334299A (ja) * | 1994-04-13 | 1995-12-22 | Toshiba Corp | 情報入力装置 |
JPH0875418A (ja) * | 1994-09-02 | 1996-03-22 | Nippon Telegr & Teleph Corp <Ntt> | 物体の自動認識方法および自動認識装置 |
JPH08187368A (ja) * | 1994-05-13 | 1996-07-23 | Matsushita Electric Ind Co Ltd | ゲーム装置、入力装置、音声選択装置、音声認識装置及び音声反応装置 |
JPH0981309A (ja) * | 1995-09-13 | 1997-03-28 | Toshiba Corp | 入力装置 |
JPH09198082A (ja) * | 1996-01-12 | 1997-07-31 | Oki Electric Ind Co Ltd | 音声認識装置 |
JPH09277184A (ja) * | 1996-04-15 | 1997-10-28 | Ricoh Co Ltd | 画像処理方法 |
JPH09325019A (ja) * | 1996-06-05 | 1997-12-16 | Minolta Co Ltd | 3次元計測装置 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4260229A (en) * | 1978-01-23 | 1981-04-07 | Bloomstein Richard W | Creating visual images of lip movements |
JPS62239231A (ja) * | 1986-04-10 | 1987-10-20 | Kiyarii Rabo:Kk | 口唇画像入力による音声認識方法 |
US5586215A (en) * | 1992-05-26 | 1996-12-17 | Ricoh Corporation | Neural network acoustic and visual speech recognition system |
US5608839A (en) * | 1994-03-18 | 1997-03-04 | Lucent Technologies Inc. | Sound-synchronized video system |
US5835616A (en) * | 1994-02-18 | 1998-11-10 | University Of Central Florida | Face detection using templates |
US6471420B1 (en) * | 1994-05-13 | 2002-10-29 | Matsushita Electric Industrial Co., Ltd. | Voice selection apparatus voice response apparatus, and game apparatus using word tables from which selected words are output as voice selections |
US5625704A (en) * | 1994-11-10 | 1997-04-29 | Ricoh Corporation | Speaker recognition using spatiotemporal cues |
US5715325A (en) * | 1995-08-30 | 1998-02-03 | Siemens Corporate Research, Inc. | Apparatus and method for detecting a face in a video image |
US6028960A (en) * | 1996-09-20 | 2000-02-22 | Lucent Technologies Inc. | Face feature analysis for automatic lipreading and character animation |
US6014625A (en) * | 1996-12-30 | 2000-01-11 | Daewoo Electronics Co., Ltd | Method and apparatus for producing lip-movement parameters in a three-dimensional-lip-model |
JP3512992B2 (ja) | 1997-01-07 | 2004-03-31 | 株式会社東芝 | 画像処理装置および画像処理方法 |
-
1998
- 1998-01-30 JP JP01987198A patent/JP3688879B2/ja not_active Expired - Fee Related
-
1999
- 1999-02-01 US US09/241,078 patent/US6504944B2/en not_active Expired - Lifetime
-
2002
- 2002-10-29 US US10/282,143 patent/US6690815B2/en not_active Expired - Lifetime
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6331478B2 (ja) * | 1982-10-25 | 1988-06-23 | Fujisawa Pharmaceutical Co | |
JPS6338993A (ja) * | 1986-08-04 | 1988-02-19 | 松下電器産業株式会社 | 音声区間検出装置 |
JPH0475639A (ja) * | 1990-07-19 | 1992-03-10 | A T R Tsushin Syst Kenkyusho:Kk | 顔画像モデル生成装置 |
JPH04242106A (ja) * | 1991-01-16 | 1992-08-28 | Nippondenso Co Ltd | 顔の認識装置 |
JPH05215531A (ja) * | 1992-02-07 | 1993-08-24 | Nippon Telegr & Teleph Corp <Ntt> | 3次元物体の識別処理方法 |
JPH07287756A (ja) * | 1994-02-23 | 1995-10-31 | Matsushita Electric Works Ltd | 物体認識方法 |
JPH07334299A (ja) * | 1994-04-13 | 1995-12-22 | Toshiba Corp | 情報入力装置 |
JPH08187368A (ja) * | 1994-05-13 | 1996-07-23 | Matsushita Electric Ind Co Ltd | ゲーム装置、入力装置、音声選択装置、音声認識装置及び音声反応装置 |
JPH0875418A (ja) * | 1994-09-02 | 1996-03-22 | Nippon Telegr & Teleph Corp <Ntt> | 物体の自動認識方法および自動認識装置 |
JPH0981309A (ja) * | 1995-09-13 | 1997-03-28 | Toshiba Corp | 入力装置 |
JPH09198082A (ja) * | 1996-01-12 | 1997-07-31 | Oki Electric Ind Co Ltd | 音声認識装置 |
JPH09277184A (ja) * | 1996-04-15 | 1997-10-28 | Ricoh Co Ltd | 画像処理方法 |
JPH09325019A (ja) * | 1996-06-05 | 1997-12-16 | Minolta Co Ltd | 3次元計測装置 |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7570281B1 (en) | 1999-11-16 | 2009-08-04 | Fujifilm Corporation | Image processing apparatus and method for detecting a main subject to be photographed |
EP1102210A3 (en) * | 1999-11-16 | 2005-12-14 | Fuji Photo Film Co., Ltd. | Image processing apparatus, image processing method and recording medium |
EP1102210A2 (en) * | 1999-11-16 | 2001-05-23 | Fuji Photo Film Co., Ltd. | Image processing apparatus, image processing method and recording medium |
EP1968012A3 (en) * | 1999-11-16 | 2008-12-03 | FUJIFILM Corporation | Image processing apparatus, image processing method and recording medium |
JP2004509362A (ja) * | 2000-07-19 | 2004-03-25 | アリフコム | 電子的信号からノイズを除去するための方法および装置 |
JP2003280677A (ja) * | 2002-03-12 | 2003-10-02 | Matsushita Electric Ind Co Ltd | 口形状ライブラリを作成するための分解方法 |
JP2004259114A (ja) * | 2003-02-27 | 2004-09-16 | Seiko Epson Corp | 物体識別方法および物体識別装置、並びに物体識別プログラム |
JP2004348429A (ja) * | 2003-05-22 | 2004-12-09 | Hitachi Information Technology Co Ltd | 端末装置及び端末装置の制御プログラム |
US8271781B2 (en) | 2004-02-27 | 2012-09-18 | International Business Machines Corporation | System and method for authentication of a hardware token |
US7752445B2 (en) | 2004-02-27 | 2010-07-06 | International Business Machines Corporation | System and method for authentication of a hardware token |
US7894637B2 (en) | 2004-05-21 | 2011-02-22 | Asahi Kasei Corporation | Device, program, and method for classifying behavior content of an object person |
JP2006065683A (ja) * | 2004-08-27 | 2006-03-09 | Kyocera Communication Systems Co Ltd | アバタ通信システム |
JP2007142957A (ja) * | 2005-11-21 | 2007-06-07 | National Institute Of Information & Communication Technology | 遠隔対話方法及び装置 |
KR100680278B1 (ko) | 2005-12-28 | 2007-02-07 | 고려대학교 산학협력단 | 입술모양 추출방법 및 그 장치 |
JP2008287340A (ja) * | 2007-05-15 | 2008-11-27 | Tokai Univ | 発話内容識別装置及び個人識別装置 |
JP2009188684A (ja) * | 2008-02-05 | 2009-08-20 | Panasonic Electric Works Co Ltd | 撮像装置 |
JP2014191239A (ja) * | 2013-03-27 | 2014-10-06 | Brother Ind Ltd | 音声認識装置及び音声認識プログラム |
JP2016193022A (ja) * | 2015-03-31 | 2016-11-17 | 株式会社エクォス・リサーチ | 脈波検出装置、及び脈波検出プログラム |
JP2019060921A (ja) * | 2017-09-25 | 2019-04-18 | 富士ゼロックス株式会社 | 情報処理装置、及びプログラム |
WO2020079918A1 (ja) * | 2018-10-18 | 2020-04-23 | ソニー株式会社 | 情報処理装置及び情報処理方法 |
KR20200083155A (ko) * | 2018-12-28 | 2020-07-08 | 바이두 유에스에이 엘엘씨 | 시각 기반의 메커니즘을 기반으로 스마트 표시 장치의 음성 명령을 활성화하는 방법 및 시스템 |
JP2020109463A (ja) * | 2018-12-28 | 2020-07-16 | バイドゥ ユーエスエー エルエルシーBaidu USA LLC | 視覚ベースのメカニズムに基づくスマート表示装置の音声コマンドによる起動方法及びシステム |
US11151993B2 (en) | 2018-12-28 | 2021-10-19 | Baidu Usa Llc | Activating voice commands of a smart display device based on a vision-based mechanism |
JP2021117049A (ja) * | 2020-01-23 | 2021-08-10 | 国立大学法人電気通信大学 | 口腔認識装置 |
Also Published As
Publication number | Publication date |
---|---|
US20030048930A1 (en) | 2003-03-13 |
US6504944B2 (en) | 2003-01-07 |
US6690815B2 (en) | 2004-02-10 |
JP3688879B2 (ja) | 2005-08-31 |
US20020126879A1 (en) | 2002-09-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3688879B2 (ja) | 画像認識装置、画像認識方法及びその記録媒体 | |
US6185529B1 (en) | Speech recognition aided by lateral profile image | |
JP5323770B2 (ja) | ユーザ指示取得装置、ユーザ指示取得プログラムおよびテレビ受像機 | |
US6272466B1 (en) | Speech detection apparatus using specularly reflected light | |
KR101187600B1 (ko) | 스테레오 카메라 기반의 3차원 실시간 입술 특징점 추출을 이용한 음성 인식 장치 및 음성 인식 방법 | |
CN109558788B (zh) | 静默语音输入辨识方法、计算装置和计算机可读介质 | |
JP2003216955A (ja) | ジェスチャ認識方法、ジェスチャ認識装置、対話装置及びジェスチャ認識プログラムを記録した記録媒体 | |
JP2005276230A (ja) | 画像認識装置 | |
CN111414785A (zh) | 身分辨识系统及身分辨识方法 | |
JP7370050B2 (ja) | 読唇装置及び読唇方法 | |
Kumar et al. | A novel approach for Morse code detection from eye blinks and decoding using OpenCV | |
KR101480816B1 (ko) | 입술 영상에서 추출된 다수의 입술 움직임 특징을 이용한 시각적 음성인식 시스템 | |
JP4160554B2 (ja) | 画像認識装置及び画像認識装置方法 | |
CN112287909A (zh) | 一种随机生成检测点和交互要素的双随机活体检测方法 | |
KR102012719B1 (ko) | 전방위 영상 기반 화상회의 발언자 인식 장치 및 방법 | |
CN112567455A (zh) | 使用深度信息净化声音的方法和系统以及计算机可读介质 | |
JP2011210118A (ja) | 顔画像合成装置 | |
JP2023117068A (ja) | 音声認識装置、音声認識方法、音声認識プログラム、音声認識システム | |
Talea et al. | Automatic combined lip segmentation in color images | |
JP5276454B2 (ja) | 表情測定方法、表情測定プログラムならびに表情測定装置 | |
JP2787612B2 (ja) | 顔画像モデル生成装置 | |
JPH10149447A (ja) | ジェスチャー認識方法および装置 | |
JP2004252511A (ja) | 顔向き推定方法 | |
JPH1026999A (ja) | 手話翻訳装置 | |
KR20170052082A (ko) | 적외선 검출 기반 음성인식 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20040604 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040608 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040809 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20041012 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20041213 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20050215 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050418 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20050516 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050607 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050609 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090617 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090617 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100617 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100617 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110617 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120617 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120617 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130617 Year of fee payment: 8 |
|
LAPS | Cancellation because of no payment of annual fees |