JP2001051772A - 話者顔面位置検出装置および話者口唇部開閉検出装置 - Google Patents

話者顔面位置検出装置および話者口唇部開閉検出装置

Info

Publication number
JP2001051772A
JP2001051772A JP22753899A JP22753899A JP2001051772A JP 2001051772 A JP2001051772 A JP 2001051772A JP 22753899 A JP22753899 A JP 22753899A JP 22753899 A JP22753899 A JP 22753899A JP 2001051772 A JP2001051772 A JP 2001051772A
Authority
JP
Japan
Prior art keywords
light
speaker
handset
lip
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP22753899A
Other languages
English (en)
Inventor
Moritoshi Ando
護俊 安藤
Koji Oka
浩司 岡
Yasuyuki Nakada
康之 中田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP22753899A priority Critical patent/JP2001051772A/ja
Publication of JP2001051772A publication Critical patent/JP2001051772A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Position Input By Displaying (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

(57)【要約】 【課題】 案内サービスシステムなどに好適な、ハンド
セットを保持した話者の顔面位置を比較的容易に検出す
る装置と話者の会話時の口唇部の開閉状態をその移動に
追随して常時検出する装置を提供する。 【解決手段】 話者の保持したハンドセットに反射素子
あるい発光素子を付加し、素子からの光を顔面と共に撮
像し、撮像信号を差分検出処理して素子光信号を得てハ
ンドセットの保持方向を検出し、それより顔面の位置・
向きを検出する。また話者の口唇部への光照射と撮像と
を、口唇部の移動に応じて照射光源と撮像素子の向きを
駆動し、常時口唇部の撮像観察が可能状態とし、口唇部
への光照射による反射光撮像信号を画像処理すること
で、口唇部の開閉状態を検出する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、公衆向けのビデオ
案内サービスシステムなどに用いるのに好適である、利
用者である話者の顔面の位置を検出する装置と、かつそ
の話者の会話を的確に捉えるための話者の口唇部の開閉
状態を検出する装置に関する。
【0002】
【従来の技術】近年、デパート・駅・展示場など多数の
人が集まるところで行われている各種案内サービスを自
動化する動きが活発化している。その背景として、この
様な情報サービスは従来案内者などの人による対応が一
般的であったが、人件費の高騰、サービスする情報量の
増大などにより、人的対応では限界にきている事情があ
った。これら各種案内サービスを自動化し、これまで以
上に広範な情報提供を行い、より高度なサービスを提供
しようとする動向となってきた。
【0003】自動案内サービスは、質問者の質問内容を
情報処理システムとして理解し、その回答を自動的に応
答することで成り立っているが、設置される場所などに
応じて質問内容が限定されるのが普通である。たとえ
ば、展示場の場合、展示品の内容、その展示品の展示場
所や食堂などの配置、閲覧のための道順に関する質問な
どが大多数であると考えられる。したがって、こういっ
たサービスが行われる場面を想定して限定された範囲の
内容の自動応答システムが構築される。自動応答の実施
方法として、質問者に見やすい位置に設置されたディス
プレイ上へ文字を表示することや音声での応答をするこ
とばかりでなく、ディスプレイ上へ地図などをグラフィ
ック表示したり、ビデオなどによる動画情報の表示をす
ることなどで一層のサービス向上が図られてきている。
【0004】このような自動案内サービスシステムの一
例として、自動応答サービスシステムの一つである、ビ
デオカメラとその送受信装置を備えたビデオコールセン
タシステムの構成模式図を図1に示す。
【0005】質問者への対応拠点で展示場などに設置さ
れるサービスシステム100において、質問者(話者)
1は例えば音声入出力装置(例えばハンドセット)2を
用いて質問を発することで音声入力し、同時にビデオカ
メラ4を介して質問者(話者)1の顔面画像が自動的に
取得される。入力音声や取得ビデオ画像は通信回線を経
由して、他の場所に設置され、複数のサービスシステム
を統括・制御するセンタシステム200に送られる。セ
ンタシステム200には、サービスシステム100から
伝送される各種データを認識処理するための認識部20
1があり、ここでは入力音声のデータ処理をおこなう音
声認識、ビデオ画像信号から質問者の顔面位置や向きな
どの判断する姿勢計測、さらに顔面情報などから質問者
の個性(性別・年齢・人種など)の判定をおこなう個人
認定などの処理がおこなわれる場合もある。認識部20
1で認識処理されたデータは、応答作成部202におい
て内容理解処理がおこなわれ、質問内容やその他の認識
に応じて送出すべき応答内容の決定がなされる。この結
果に基づき出力部203で音声データやビデオデータな
どが作成され、通信回線を介して質問が発生したサービ
スシステム100に送出されてハンドセット2やスピー
カ(図示せず)での音声やディスプレイ3での表示よっ
て質問への回答がなされる。
【0006】これら一連の応答処理をおこなうとき、質
問者(話者)の姿勢(具体的には話者の顔面の向き)を
判断することが重要となる。通常、質問者(話者)1が
ハンドセット2を持って質問を発するとき、回答内容が
表示されるディスプレイ3の正面にほぼ正対すること、
従って結果として質問者(話者)をほぼ正面からとらえ
る様に配したビデオカメラ4にほぼ正対することが期待
される。これにより的確な質問者(話者)の顔面画像情
報を取得でき、性別や年齢に応じた対応や、さらに外国
人であると認識されればそれに応じた回答方法を講じる
ことも可能となり、サービス性を格段に向上できること
となる。
【0007】しかし、ハンドセット2を持った質問者
(話者)1は、しばしば、必ずしもそのような正対姿勢
をとるとは限らない。例えば、質問者(話者)1が横向
きの姿勢で音声入力を発した場合、正しくディスプレイ
3に正対するように注意を促す必要があろうし、また発
した言葉が質問ではなくて隣人との会話であるケースも
考えられ、その場合は応答の必要は無い。また、質問者
(話者)1の顔面が前後左右などにしばしば振れている
場合などでは、操作上の問題から戸惑っていることが想
定され、適切なガイダンスを行う必要がある。これらに
対処できるサービスシステムとするためには、質問者
(話者)の顔面の位置を検出し、あるいは追尾して、状
況を把握することが必要不可欠となっている。
【0008】従来、こういった質問者(話者)の顔面の
位置や方向を計測する方法として、顔面をカラービデオ
カメラで撮影し、顔面内の色の分布から判断する試み
や、顔面撮影画像から、髪の毛、目、口、鼻などの顔の
部位を検出して顔面の位置・方向を判断する方法が提案
されている。
【0009】一方、質問者(話者)1の質問がなされる
サービスシステム100が設置されている場所は雑踏の
中などが多いことから、かなり大きな定常的な(バック
グラウンド的な)騒音(ノイズ)が、質問者(話者)1
の音声が入力される音声入力装置3に混入する場合があ
る。このため認識部201での音声認識の処理において
誤った情報を受け取る可能性が高く、話者の音声部分を
正しく分離して音声認識することが必要となる。
【0010】ノイズ中の音声認識率の向上方法に関して
は、従来より多くの提案がなされているが、その一つに
発声区間の検出をおこなって、その発声区間の時間帯に
おける信号のみ認識用の入力とし、音声が発せられてい
ない時間帯(すなわちバックグラウンドのノイズのみ発
生している時間帯)は入力を遮断することで認識率の向
上を図る方法が知られている。発声区間の時間帯の信号
にもバックグラウンドのノイズは重畳しているが、非発
声区間でのノイズで差をとれば、発声された音声の信号
を取り出すことは容易に行うことができる。
【0011】したがって、発声区間の検出の方法が重要
となるが、その有力な方法として基本的に口唇の開閉を
検出して音声区間の特定を行う方法がある。これに関す
る従来技術として、例えば、正面の顔の中心線における
色分布から唇の輪郭を自動検出して口唇の開閉を判定す
る方法(情報処理学会論文誌、Vol.39、No.1
2、pp.3232〜記載の論文)や、YIQ表色系を
用いた口の輪郭検出方法(電気学会論文誌D、Vol.
119、No.1、pp.37〜記載の論文)がある。
また、ハンドセットの送話部(音声入力部)に取り付け
たLEDからの光を口唇に照射してその反射光をフォト
トランジスタで受光し、その受光電力の信号から口唇の
動きを認識し、それより発声区間を検出して音声認識率
向上に適用する装置が、特開平8−76792に開示さ
れている。
【0012】
【発明が解決しようとする課題】しかしながら、先ず、
顔面の位置・方向を認識する方法に関し、前記の顔面内
の色分布で判断する方法は、現実では質問者個々の顔色
の個性に起因した誤判定が生じやすいという問題があ
る。
【0013】また顔の部位検出による方法は、例えばそ
の検出と判定処理のために、高速に行う計算処理量が莫
大になることから、サービスシステムあるいはセンタシ
ステムに設置されるコンピュータなどの計算処理装置へ
の負荷が大きく、装置全体が高価となり実用的とはいえ
ない。
【0014】音声入出力装置としては、従来より片手で
持つ送受話器であるハンドセットや頭にかける送受話器
であるヘッドセットが用いられる。後者のヘッドセット
は、装着時に時間がかかることから短時間の質問応答に
は煩わしく、上記のような案内サービスなどの用途には
ハンドセットの方が望ましい。すなわち、質問者(話
者)にとってこのようなサービスを受ける場合、従来か
ら使用することにストレスを感じなく、電話で会話する
のと同様な方式であるハンドセットを用いて質問を行う
ときに、質問者(話者)の顔面位置(顔の向き)を、従
来の方法より容易かつ正確に検出できる装置が必要とな
る。
【0015】図2は質問者(話者)1がハンドセット2
を手50で保持して、図示されていないディスプレイ面
およびビテオカメラなどの撮像手段がある正面に正対
し、会話をする状態を模式的に示す。ハンドセット2の
受話部は質問者(話者)1の耳に接触され、送話部は口
の付近に近づけられる。このとき、質問者(話者)1の
顔面が背骨を中心に回転が行なわれたとき、つまり横向
きになった場合、保持されたハンドセット2は耳に接触
されたまま一体となって同様に回転する。したがって、
ハンドセット2の動きの状況を的確に捉えられれば、質
問者(話者)の顔面の動き、つまり正対状況か否かを判
断することができることになる。その判断手段として、
例えば、ハンドセット2の動きをビデオカメラなどで撮
像したのち特徴抽出などの画像処理を施して見出す方法
が考えられるが、これは前記の顔面自体の特徴抽出の方
法と変わらず、実現するためには困難を伴う。
【0016】このように、質問者(話者)がハンドセッ
トを使用して通話・応答をする際に、保持されたハンド
セットの位置(向き)を判断することを通じて質問者
(話者)の顔面の位置(向き)を正しく検出する装置
を、比較的安価な方法で提供することが本発明の一つの
目的である。
【0017】一方、上記の様にハンドセットを使用して
通話・応答する状況などにおいて、外部ノイズがある中
で有効に質問者(話者)の音声を抽出して音声認識をす
るために、音声区間の検出用の口唇開閉判定を実現する
装置に関する前記のような従来の方法は、いずれも十分
なものとは言えない。正面の顔の中心線での色分布から
唇の輪郭を自動検出し、口唇の開閉を判定する方法は、
顔の正面においては自動色抽出がおこなえ、口唇の開閉
を判断できるものの、例えば顔が若干でも横向きにな
り、中心線がずれた場合の対応が困難なことなどから多
様な使用状況下での適用は限定される。また、YIQ表
色系を用いた口の輪郭検出方法では、照明条件や質問者
(話者)の個人差などの僅かな違いによって口の輪郭の
検出位置が変動する場合が生じる。そして、ハンドセッ
トの送話部(音声入力部)に取り付けたLEDからの光
を口唇に照射してその反射光をフォトトランジスタで受
光して行う方法については、まずハンドセットにあるL
EDと照射する口唇の相対的な位置関係が、ハンドセッ
トを保持する状況や顔の動きなどによって変化すること
は避けられない。このため口唇からの反射光の光量が変
化してしまうことから誤差が発生し、顔とそれらの位置
関係を固定しなくてはならないという問題がある。
【0018】これらから、本発明の別の目的は、比較的
容易で、かつ質問者(話者)の顔の相対位置の変化に対
応可能で音声区間の検出が的確におこなえるような、口
唇の開閉状態を検出できる装置を提供することにある。
【0019】
【課題を解決するための手段】本発明は、上記の目的を
達成するために提案されたものである。
【0020】提案された具体的な手段は、話者顔面位置
検出装置を、話者の通話用のハンドセットと、前記ハン
ドセットに付加した光反射素子と、前記光反射素子へ光
を照射する光照射手段と、前記話者の通話時の少なくと
も顔面および前記ハンドセットを含む領域の画像と、前
記光反射素子の反射光から得られる画像とを重畳して画
像記録する顔面撮像手段と、前記顔面撮像手段で得た撮
像信号から前記ハンドセットの保持位置を導出するハン
ドセット位置算出手段とを備えることを特徴とする構成
とするものである。
【0021】そして、この話者顔面位置検出装置を、前
記光照射手段は照射光点滅装置を有し、前記ハンドセッ
ト位置算出手段は撮像信号から反射光の成分のみを検出
する差分検出装置を有することを特徴とする構成とする
ものである。
【0022】また、話者顔面位置検出装置を、話者の通
話用のハンドセットと、前記ハンドセットに付加した発
光素子と、前記話者の通話時の少なくとも顔面および前
記ハンドセットを含む領域の画像と、前記発光素子の光
から得られる画像とを重畳して画像記録する顔面撮像手
段と、前記顔面撮像手段で得た撮像信号から前記ハンド
セットの保持位置を導出するハンドセット位置算出手段
とを備えることを特徴とする構成とするものである。
【0023】そして、この話者顔面位置検出装置を、前
記発光素子は発光点滅装置を有し、ハンドセット位置算
出手段は撮像信号から前記発光素子光の成分のみを検出
する差分検出装置を有することを特徴とする構成とする
ものである。
【0024】また、話者口唇開閉検出装置を、話者の口
唇部へ光を照射する光照射用光源を有する口唇部光照射
手段と、前記口唇部光照射手段により光照射された前記
口唇部を画像記録する口唇部用撮像素子を有する口唇部
撮像手段と、前記口唇部撮像手段で得た撮像信号から前
記口唇部の開閉状態を判別する口唇部開閉判別処理手段
と、前記口唇部の位置を検出する位置検出用撮像素子を
有する口唇部位置検出手段と、前記口唇部位置検出手段
で得た位置情報に基づき、前記光照射用光源の光照射方
向を所定方向に設定駆動する光源方向駆動手段と前記口
唇部用撮像素子の画像記録方向を所定方向に設定駆動す
る口唇部用撮像素子方向駆動手段とを備えることを特徴
とする構成とするものである。
【0025】そして、前記話者顔面位置検出装置を、前
記話者口唇部開閉検出装置を備えることを特徴とする構
成とするものである。
【0026】
【発明の実施の形態】〔実施例1〕本発明の第1実施例
である、反射光を用いた話者顔面位置検出装置の構成を
図3に示す。前述のサービスシステム内において、質問
者である話者1は図示されていない手でハンドセット2
を保持して、ディスプレイ3に向かい合う。ディスプレ
イ3側にある光源5からハンドセット2方向に光が照射
される。ハンドセット2に貼付などによって付加された
光反射テープ10などの光反射素子で先の照射光が反射
し、この反射光と話者1の顔面を重畳して画像記録する
ビデオカメラ4などのカメラがディスプレイ3側近傍
に、話者1方向に向けて配されている。また、この実施
例においては、人がサービスシステムに近づいたか否か
を感知する近接センサ6が具備されている。
【0027】図4に本実施例における、光反射素子であ
って容易に付加することのできる光反射テープ10を貼
付したハンドセット2の構成を模式的に示す。ハンドセ
ット2の、手で保持する部分以外の場所に光反射テープ
を貼付するが、ハンドセット2の構成面部分に応じて、
テープの形状や数を変える必要がある。本図の構成で
は、ハンドセット2を左手で保持して受話部2Rを左耳
にあて、送話部2Tを口唇近傍に置き、ディスプレイ
(図3のディスプレイ3)方向に向かい対話態勢に入っ
たとき、ディスプレイ側に正対するハンドセット2の構
成面(正面部2Sとする)の、保持手に覆われない受話
部2R近傍と送話部2T近傍それぞれに、円盤形の光反
射テープが一つ宛貼付される。その面に略直交する面
(即ちハンドセットの背面、背面部2Bとする)の側で
同じく受話部2R近傍と送話部2T近傍それぞれに、円
盤形の光反射テープが二つ宛貼付されている。なお、本
図ではハンドセット2を左手で保持する例を示している
が、勿論右手で保持する場合もある。この場合のハンド
セット2の正面部2Sとする部位は、左手保持の場合と
背面部を介して反対側のハンドセット2の構成面とな
る。従って、ハンドセット2の背面部2Bを挟んだ二つ
の側面(即ち左手保持、右手保持の各正面部)にそれぞ
れ光反射テープが上記の様に貼付されることが望まし
い。
【0028】このように、正面部2Sと背面部2Bとは
同じ形状の光反射テープを数を変えて貼付しているが、
それぞれに貼付する光反射テープの形状を変えても良
い。それらの形状は任意であるが、本例の円盤形の他に
例えば三角板形、四角板形など、後にのべる反射光測定
時に形状認識を行い易い形状を選ぶ方が得策である。光
反射テープの素材としては、図4に例示しているよう
に、(a)細かなガラス球反射材を封入したテープ、
(b)小さなコーナーキューブを並べて構成したテー
プ、(c)蛍光材を塗布したテープなどを使用すること
ができる。光反射素子として本発明の構成に使用できる
ものであれば、以上に述べたテープ素材に限られず、ま
た例えばガラス片や金属片の付加や塗装面などの適用も
可能であって、本例のような光反射テープに適用が限定
されるものでもない。
【0029】さて、図3の装置構成により、サービスシ
ステムの作動概要と話者顔面位置検出装置の作動手順に
ついて以下に述べる。話者1がサービスシステムに近づ
くと近接センサ6が作動して人の来場を感知する。これ
により、サービスシステムは稼働開始し、来場者に対し
サービスシステムは例えば図示されていないスピーカで
この装置の利用目的・利用方法などを音声で告知し、告
知された位置に設置されたハンドセットを取り上げるこ
とを促す。来場者すなわち質問者(話者)1がハンドセ
ット2を取り上げると、図示されていないハンドセット
設置部にあるフックが移動してハンドセットが取り上げ
られたことをシステムは感知し、話者との応答開始の作
動状態に入る。その作動の一つは、ビデオカメラ4によ
る、蛍光灯などの室内照明下でのハンドセット2を保持
した話者1の顔面を中心としたその周辺の撮像開始であ
る。
【0030】次いで、話者1の顔面位置検出、すなわち
話者1に保持されたハンドセット2の位置検出の作動状
態に入る。先ずハンドセット2の方向に向けて照射光L
が光源5から発せられるが、このための光源5は、高速
な光点滅照射が可能な半導体発光ダイオード(LED)
が推奨される。点滅照射光はハンドセット2に貼付され
た光反射テープ10からの反射光Rとなって、先の顔面
撮像を行っているものと同一のビデオカメラ4で検知さ
れる。従って、室内光で照明された顔面を中心に撮像さ
れたビデオ画像と点滅反射光のビデオ画像とは重畳した
撮像データとなって取得される。このときビデオカメラ
4の点滅反射光検知のタイムフレームと光源5の照射光
の点滅を同期させることにより、以下に説明する方法
で、室内光による顔面像とそれに重畳した照射光の有無
による差分画像、つまり点滅反射光のみのビデオ画像を
分離して差分検出することができる。
【0031】すなわち、本検出方法はノイズである(室
内光で照明された)顔面像とLED反射光が重畳した光
検出信号波形分から、LED反射光シグナル分を分離検
出することに相当する。図5に検出のサンプリングタイ
ミングと光検出信号との関係を示す。同図の上側に示す
波形図はLEDを発光させるための駆動電力のタイミン
グ波形であり、LED駆動電力強度HのレベルでLED
が発光していることを示す。下側に示す波形図はビデオ
カメラのCCD素子などの光デテクタの光検出信号波形
である。この波形には蛍光灯室内照明で顔面を撮像した
ときの50Hz周期で変化する光量と、それにLED発
光と同じ周期でLED反射光であるパルス状の光検出信
号が重畳している。サンプリング制御回路を用いてLE
Dの非発光時の光検出信号レベルを検知し、発光時の光
検出信号レベルとの差分を検出することでLED反射光
シグナル分を分離できる。
【0032】図6にこのための、上記サンプリング制御
回路の構成図を示す。光照射用のLED6−1を駆動す
るLED駆動回路6−2は、タイミング発生器6−3で
発光時間を制御される。他方LED反射光成分と室内光
による顔面撮像光成分の重畳光は光デテクタ(カメラ)
6−4で受光信号化され、増幅器6−5を通してタイミ
ング発生器6−3で制御されたサンプルホールド回路/
閾値印加回路6−6に入力される。この出力と増幅器6
−5の出力は比較器6−7に入力され、差分結果が出力
される。この制御回路の動作は、図5の下側の図の光検
出波形において示す様に、サンプルホールド回路(図6
の6−6)によって、サンプルホールドタンミングで規
定されたサンプルホールド検出値を保持する。これに一
定の付加値を閾値印加回路(図6の6−6)によって与
えて閾値とし、これとLED反射光信号値とを比較する
ことによって、室内光撮像信号成分などのノイズを除去
した信号を得ることができる。
【0033】さて、上記の方法で点滅反射光のみのビデ
オ画像を分離して差分検出した反射光の検出状態例を模
式的に表したものを図7に示す。図7の(a)はサービ
スシステムが設置されている場所での室内照明(蛍光灯
などによる通常の照明)で、質問者(話者)の顔をビデ
オカメラにより撮像した状態である室内光画像を模式的
に示す。一方(b)は、LED照射光を発光したときの
撮像画像であり、ハンドセットに貼付された二個の光反
射テープからの二個のスポット状の反射光(反射スポッ
ト7−1)が先の室内光像の顔と共に観察されることを
示す。ここでシステムが稼働開始して、差分検出を行っ
た状態を模式的に示したものが、同図の(c)と(d)
であり、(c)は、質問者(話者)がハンドセットを保
持してカメラ方向の正面に正対した状態であることが、
当初ハンドセット正面部に二個の光反射テープを貼付
し、ここで二個の反射スポットが観察されていることか
ら知ることができる。他方(d)は話者が側面を向いた
状態であり、この場合はハンドセット背面部の四個の光
反射テープからの四個の反射スポットが観察されること
から判る。このようにして、ハンドセットのスポット観
察により、これを保持した話者の顔面の位置・方向を検
出することが基本的に可能となる。
【0034】以上は典型的な差分検出の状態の例、すな
わちLEDで照射された光反射テープからの反射光スポ
ットのみが強い強度で観察され、それ以外の反射光やカ
メラへの入射光などのノイズが無い状態の例を示した
が、実際に観察される差分検出の光反射像にはしばしば
多くのノイズが含まれるため、これを除去して正しい光
反射スポットのみを取り出す抽出処理を行う必要があ
る。図8はノイズの含まれる差分検出後の光反射像の信
号から、必要な反射光スポットのみを抽出する方法を模
式的に示す。図8の(a)は、差分検出後の検出光信号
の状態の例を示し、特にこの例の様に細線状や小ドット
状で明度の低い(検出信号レベルの低い)ノイズパター
ンが通常多く含まれる。これらのパターンについては、
そのパターンを含む小画素数領域を指定し、その内部で
反射信号所在画素数が一定画素数以下のものは排除する
といった周知の方法の電子的なフィルタを適用して除去
する。(b)はノイズ除去後の結果を示す。ここで図示
した様に残存するパターンを個別に識別するため、個々
に1、2、3などと電子的にラベリング(番号付け)処
理を行う。次いで(c)においてラベリングされた各パ
ターンについて、周知の方法を用いて面積・周囲長など
の計測を行って形状認識処理を実施する。本例の場合は
抽出対象の反射光スポットは円盤形である事から、1と
ラベリングされたパターンは円盤形では無くまた面積が
大きいことから除去され、(d)に示す様に適合パター
ンのみが抽出される。その後、抽出スポットの相互の間
隔などを測定してハンドセットに貼付された反射素子か
らの反射スポットに合致するものであることを確認し、
スポット数の測定によるハンドセットの方向(二個の場
合は話者は正対しており、四個の場合は横向きでハンド
セットを保持していること)を判定する。またスポット
中心を結んだ直線と上下の垂線との角度が一定程度以上
の場合のときは、質問者(話者)がハンドセットを大き
く傾けている保持していることが考えられ、注意を促す
ことなどの対処をとることで判定の確度が向上する。以
上に述べた処理を行う反射光による顔面位置検出システ
ムの構成例を、図9に示す。光を照射するLED9−1
はドライバ9−2により駆動され、これはコントローラ
9−3で発光するタイミングが制御される。反射光はビ
デオカメラ9−4によって撮像され、画像記録装置9−
5に蓄積される。画像記録データは発光のタイミング情
報により、発光時と非発光時の画像記録データそれぞれ
から差分検知装置9−6を介して差分検知画像が常時観
察されるようにする。差分検知データは位置・方向判定
処理装置によりハンドセットの方向が判定され、結果が
出力される。この結果は、ビデオコールセンタの認識部
のデータとして応答作成部での対応処理に適用される。
【0035】〔実施例2〕本発明の第二の実施例であ
り、ハンドセットに付加する光反射素子の他の構成例で
ある、光反射テープと方向性透過膜の併用による構成を
図10に示す。実施例1と同様に、図中(a)に示した
ハンドセット2に、正面部2Sと背面部2Bに同形の光
反射素子10−1が数を変えて付加されるが、その各光
反射素子10−1は(b)に示した様な構成とする。す
なわち下部の光反射材(例えば光反射テープ)10−2
上に光の反射方向を制限する方向性透過膜10−3を配
する。この膜は図示した様に薄い透過膜の中に黒色の膜
からなる仕切板を面に垂直に多数配置したもので,透過
光は仕切板に略平行に入射した光に限定されることにな
る。(c)に光反射テープの反射率(イ)、方向性透過
膜の透過率(ロ)、そしてそれらを組合せたときの総合
反射率特性(ハ)の各光入射角度依存性を模式的に示
す。これから明らかのように、本構成の光反射素子を適
用することで光の入射角度が反射面に略垂直なもののみ
反射することとなる。したがって、これを実施例1のシ
ステム構成に適用したとき、ハンドセットの正対面とは
異なる面での反射素子からの反射光(すなわち斜め反射
光)を同時にカメラで撮像することが大幅に減少し、実
施例1で記述したように抽出された反射光スポットはほ
ぼ正対するハンドセット面における反射素子からのもの
に限定され、ハンドセットの方向を判定することがより
容易となる。
【0036】〔実施例3〕本発明の第三の実施例であ
り、ハンドセットに付加する光反射素子の別の構成例で
ある。図11に本実施例のハンドセット側面への光反射
素子の配置例を示す。ハンドセット2の側面A(左手保
持正面部)2S−Aに付加する側面Aの光反射素子11
−1と、側面B(右手保持正面部)2S−Bに付加する
側面Bの光反射素子11−2の形状をそれぞれ変えて設
置する。本例では例えば側面Aには円盤形の光反射テー
プを貼付し、側面Bには三角板形の光反射テープを貼付
する。このとき光反射素子はそれぞれ質問者(話者)の
握り手で隠されない領域、例えば受話部2R、送話部2
T近傍に設置する。あるいは、本図の様に互いに異なる
形状の光反射素子を受話部2Rから送話部2Tにわたっ
て、定められた間隔で複数個配置する。このことによ
り、特にハンドセット2の中央部の設置光反射素子が質
問者(話者)の握り手で隠された状況になった場合で
も、何れかの光反射素子が露呈することが期待でき、光
反射スポットを観測することができることとなる。本図
ではそれぞれ異なる形状の6個宛の光反射素子(光反射
テープ)が両側面に配されている例を示すが、その数と
間隔と光反射素子の大きさはビデオカメラの配置などの
観測系との兼ね合いで適宜定めれば良い。
【0037】カメラの撮像面と話者顔面とが正対するよ
うに配置したとき、通常、話者に保持されたハンドセッ
ト2は、受話部2Rは耳に、送話部2Tは口唇部周辺と
なり、従ってハンドセット2の長手方向の中心線は話者
の背骨の軸とは平行していない。すなわち保持正面部
(2S−Aないし2S−B)の面はカメラ撮像面とは正
対せず、受話部2Rは後方で送話部2Tは前方の傾斜し
た面の撮像となる。よって保持正面部に上記の様に複数
個が定められた間隔で付加された光反射素子(11−1
ないし11−2)の撮影画像は、ハンドセット長手方向
に圧縮されたものとなる。その場合は配置光反射素子の
間隔と大きさは、例えば長手方向に引き延ばす様に配列
して観察し易さの点を考慮して選択する必要がある。ま
た、本図には図示されていないが、ハンドセットの背面
2Bには側面A、Bとは異なる形状の光反射素子(例え
ば四角板形の光反射テープなど)を付加することで、背
面と側面とを区別しての判定するのに適用可能であるこ
とは勿論である。
【0038】本構成によって光反射素子を付加したハン
ドセットを用いることにより、実施例1と同様に、質問
者(話者)によって保持されたハンドセットの反射光か
ら検出される反射光スポット形状の認識を通じて、ハン
ドセットの側面Aまたは側面Bまたは背面を検出してい
るかの判定が可能となる。つまり、質問者(話者)がハ
ンドセットを左手で保持してカメラ方向に正対している
か、右手で保持して正対しているか、あるいは左右の横
を向いているかの顔面位置の判定が行える。その状況を
図12に模式的に示す。(a)は質問者(話者)1がハ
ンドセット2を左手で保持しており、側面A(左手保持
正面部)2S−Aに付加された円盤形の光反射素子が観
察され、(b)は右手で保持し側面B(右手保持正面
部)2S−Bがに三角板形の光反射素子が観察される。
従って、以上のことから、観察される光反射スポットの
形状から、観察面内における質問者(話者)の顔がその
スポットの左方向にあるか右方向にあるかを判断するこ
とも可能となる。
【0039】また、隣り合う二個の光反射スポットが観
察されその間隔と種類が測定されると、隣り合う光反射
素子の間隔とカメラ倍率が既知である事から、カメラと
顔面との凡その距離を算出することができる。他方撮像
される質問者(話者)の顔面の大きさ(縦・横の幅)を
平均的なものに仮定すれば、顔面の横幅の凡その中央線
位置に関し、観察スポットの左もしくは右の方向を(ス
ポットの種類などで)特定し、かつレンズ倍率から顔横
幅中央線と光反射素子との間の距離が推定可能である。
顔面の縦幅の中央線位置は、ハンドセットの両端の光反
射スポットが観察されれば、ほぼそれらスポットの中央
と見られ、受話器近傍の隣り合う二つの光反射スポット
が観察された場合は、耳の位置が略判定できることか
ら、レンズ倍率に応じて下方の位置にある中央線位置が
推定され、送話部近傍の隣り合う二つの光反射スポット
が観察されれば、口の位置の概略判定から上方にある中
央線位置が推定される。以上の信号処理で、質問者(話
者)の凡その顔面中心位置が判定されることから、ビデ
オカメラの中心をその顔面中心位置に常時追尾させ、か
つその倍率を話者顔面をカメラフレーム内に納めるよう
に設定することで、いわゆる撮像追尾(トラッキング)
システムが、周知の技術を適用して構成可能となる。
【0040】〔実施例4〕本発明の第四の実施例であ
り、ハンドセットに複数の発光素子(ハンドセット光
源)を付加して行う実施例である。図13に、ビデオコ
ールセンタシステムのサービスシステムに設置するのに
適した、ハンドセット光源を用いる話者顔面位置検出装
置の構成例を模式的に示す。本構成は、図3で示した第
一の実施例である、反射光を用いた話者顔面位置検出装
置の構成における光源と光反射素子との組合せ構成の代
わりに、ハンドセット光源20が付加されたものであ
る。図13において質問者(話者)1の保持するハンド
セット2には、ハンドセット正面部2S(ハンドセット
の背面部2Bを挟む二面の一方で、話者がハンドセット
2で会話する様に耳元と口元に受話部2Rと送話部2T
をそれぞれ近づけてディスプレイ3に正対したとき、デ
ィスプレイ3の面に向かうハンドセット2の面)で手で
握られない部分、すなわち受話部2R近傍と送話部2T
近傍のそれぞれに、必要に応じて高速点滅するハンドセ
ット光源20がそれぞれ装着される。この光源20への
電力供給や点滅制御などは図示はされていないハンドセ
ット2に付属するコードを介して行うことができる。質
問者(話者)1は、同システムのディスプレイ3に正対
して質問等を行い、ディスプレイ3の上部などに設置さ
れたビデオカメラ4によって、質問者(話者)1の顔面
およびハンドセット2を含むその周辺が、ハンドセット
光源20からの光と重畳されて撮像される。
【0041】従って、先の実施例1で詳述した装置と同
様な装置構成を行うことで、差分検出の方法を適用して
ハンドセット光源20の発光スポットのみを検出し、ハ
ンドセット2の位置・向きを判断するという機能を実現
することができる。
【0042】ハンドセット光源20として例えば半導体
発光素子(LED)などが適用でき、正面部2Sの受話
部2R、送話部2Tあるいはその全長にわたって配置す
る位置、数、大きさ、形状、などを適宜変えて付加する
ことや、図には示されていない背面部2Bの面にこの正
面部2Sと差異が判断できる様な別種に構成された光源
を付加すること、またこの正面部2Sとは背面部2Bを
介して反対側にある別の正面部にも別種の構成の光源を
付加することなどにより、それぞれの差分検出を実施し
て得た発光スポットやその列の特徴を検出することで、
実施例1ないし実施例3において示されたものと同様な
効果を実現することが可能となる。すなわち、ハンドセ
ット2の向きの判定から質問者(話者)1がビデオカメ
ラすなわちディスプレイに正対しているか横向きかの判
定、ハンドセット2の二つの正面部の何れが正対してい
るかの判定から質問者(話者)1の左手保持か右手保持
かの判定、さらにスポット配列の間隔などからハンドセ
ット(即ち顔面)とカメラ間の距離の計測などが同様な
装置を適用して行うことが可能となる。またビデオカメ
ラ4をカラービデオカメラとすることで、ハンドセット
光源20からの発光スポットの色を判断できる機能が追
加可能となることから、上記のハンドセット光源20の
色も種々変えて構成できるという多様性が増し、より多
種の構成方法が取り得ることになる。例えば、二つの正
面部に別の発光色を持つLEDを設置すれば、検出され
た発光スポット色から容易にどちらの正面部かが判り、
左手持ちか右手もちが判別できる。また受話部と送話部
近傍にそれぞれ異なった発光色のLEDを取り付けれ
ば、検出された発光スポットの色とその位置関係から、
仮に誤ってハンドセットが上下を逆に保持されてもこれ
を判断でき注意を促すことなども可能となる。
【0043】これらに用いるのに適した、発光の方向を
制限したハンドセット光源20の構成例を図14に示
す。LED14−1の発光面の前面に方向性透過膜14
−2を付加する。この膜14−2は前述の第二の実施例
で適用し図10中で示した方向性透過膜10−3と同様
なものであって、広角度に発光するLED光をこれによ
り、例えば図14中で、光の横方向(X方向とする)の
広がりを制限して透過させ、縦方向(Y方向とする)は
そのまま透過させる。この状況を図14に模式的に示し
ており、LED14−1の光は、点線で示した方向性透
過膜の無いときのX方向放射角度特性の様に放射される
が、X方向の透過制限用の方向性透過膜14−2によ
り、実線で示したX方向放射角度特性の様に放射角度が
制限される。他方Y方向に関しては、実線で示したY方
向放射角度特性の様に光角度に放射されたままの状態と
なる。この様に構成したハンドセット光源を、図13の
装置構成図におけるハンドセット光源20に用いる。こ
のとき透過制限された横方向(X方向)と、質問者(話
者)1の背骨を軸とした顔面の横回転方向を一致させ
る。質問者(話者)1がハンドセット2を保持して顔面
を回転(すなわち、横向などを)したとき、僅かな回転
角でもビデオカメラ4で受光する光源20からの光が角
度制限を受けて受光できないこととなる。従って、ハン
ドセット光源20によって質問者(話者)1がビデオカ
メラ4に向かって正対しているか否かを判定する顔面位
置の検出感度を向上することができる。
【0044】また、ハンドセット光源の配置構成上、発
光面積の大きなLED光源を使用する場合に適した光源
の構成例を図15に示す。LED15−1の発光面の前
にフレネルレンズ15−2を配置して口径の大きな光束
とする。さらにこのレンズ15−2の前に先に述べたも
のと同様な方向性透過膜15−3を配する。本構成によ
って、容易かつコンパクトに口径が大きく、発光の方向
を制限された発光スポットを得ることができる。
【0045】〔実施例5〕本発明の第五の実施例であ
り、前記のようなサービスシステムに適している、音声
を的確に認識するために装備される質問者(話者)の口
唇の開閉を検出するための装置の実施例である。図16
に話者口唇部開閉状態検出装置の基本構成を説明するた
めの図を示す。サービスシステムなどにおいて、質問者
(話者)1はディスプレイ3に向かっており、ディスプ
レイ3の上部に質問者の顔面を撮像できるようにカラー
ビデオカメラ16−1が配されている。このカメラは図
示されている様に、話者の顔面に対して撮像方向を所定
方向に定めるべく、パン(左右回転)とチルト(上下回
転)の二軸の回転(即ちγとδの回転軸)駆動が可能で
ある。また顔面の口唇部方向を照射する口唇部照射用光
源16−2が所定の顔面前方に配されており、図示され
ている様に顔面に対して、同様に光源照射方向を所定方
向に定められる様に、パンとチルトの二軸の回転(即ち
αとβの回転軸)駆動が可能である。
【0046】この構成によっておこなう、話者の口唇部
開閉検出装置のシステム機能ブロック図を図17に示
す。全体システムとしてのフローは以下の様におこなわ
れる。すなわち、位置検出用撮像素子(図16のカラー
ビデオカメラ16−1に相当)を有する口唇部位置検出
部17−1によって、撮像データをもとに先ず話者の顔
面部の認識と更にそれを経由して話者の口唇部の位置を
検出する。この位置データは、一方は光源方向駆動部1
7−2に入力され、光源の照射方向を口唇部の方向に駆
動する。所定の方向に定まった後、光源を有する口唇部
光照射部17−3(図16の口唇部照射用光源16−2
に相当)にて口唇部を光照射する。ここで口唇部が正し
く光照射されたか否かを照射位置検出部17−4で検出
し、照射位置と口唇部とが合致しないときは、結果を光
源方向駆動部17−2にフィードバックして光源方向を
再駆動する。口唇部位置検出部17−1で得た位置デー
タは、他方、撮像方向駆動部17−5に入力される。こ
こで口唇部を撮像するための撮像素子(図16において
は、カラービデオカメラ16−1とし、先の口唇部位置
検出部の撮像素子と同一のものを適用しているが、後述
するように装置構成の上から、それぞれが別に装備され
ていてもよい。)は撮像方向を所定の方向に駆動され
る。所定方向に定まった後、前述の撮像素子を有する口
唇部用撮像部17−6にて口唇部を撮像する。ここで撮
像位置検出部17−7により、撮像位置と口唇部との一
致性を検出し、一致していない場合は、再度撮像方向駆
動部17−5を駆動して両者を一致せしめる。以上の処
理の後、口唇部に正確に光照射され、かつその部分の撮
像が実施される状況下において、口唇部開閉判別部17
−8で撮像データのデータ処理を介して口唇部の開閉状
況を判別する。
【0047】以上の様に、口唇部の移動に合わせて常時
これへの光照射方向と撮像方向とを駆動制御するとい
う、言わばアクティブセンシング方式による口唇部開閉
検出装置が提供される。
【0048】次に、上記の各機能ブロックの実施方法に
ついて詳述する。
【0049】(口唇部位置検出部)本検出部では、カラ
ーカメラなどの撮像素子を用いて話者の顔面を認識し、
顔面画像の中から口唇の位置を検出する。話者のカラー
画像から顔面や口唇部を切り出すには、色抽出処理を用
いる。この方法を説明するために、図18に、撮像画像
と各部分の座標の関係を説明する図を示す。本図に話者
像18−3を撮像した撮像画像18−1を示し、ここに
おいて、画像図面横・縦方向をそれぞれi軸・j軸方向
とし、撮像画像内の位置座標を(i,j)で表す。この
とき座標(i,j)の赤成分(R)・緑成分(G)・青
成分(B)の階調値を、それぞれ、R(i,j)、G
(i,j)、B(i,j)とする。肌色を表す各成分の
上限と下限を、Rmax 、Rmin 、Gmax 、Gmin 、B
max 、Bminとすると、顔面領域を表す座標i(n=
1,2,・・・,m)、j(n=1,2,・・・,n)
は、次の式を全て満たす数列iface、jfaceで与えられ
る。
【0050】Rmin <R(iface, face)<Rmaxmin <G(iface, face)<Gmaxmin <B(iface, face)<Bmax ここで顔面領域を矩形で近似したとき、そのときの座標
i,jの上限、下限は、図18に示すように次の式で表
すことができる。
【0051】iface-max =max(iface) iface-min =min(iface) jface-max =max(jface) jface-min =min(jface) ただし、関数max()・min()は、かっこ内の数
列中の最大値・最小値を与える。
【0052】口唇部は、上式で切り出した顔面の矩形領
域である、 iface-min <i<iface-maxface-min <j<jface-max で囲まれた範囲から、唇の色を表す色成分を用い、上記
と同様な方法で顔面画像部から切り出しを行えばよい。
上記は、RGB表色系を用いて行う例を示したがこれ以
外の表色系(例えば、YIQ表色系)を用いてもよい。
【0053】求めた口唇の領域を表す数列を、ilip
lip 、口唇部矩形領域の上限・下限をilip-max 、i
lip-min 、jlip-max 、jlip-min とするとき、口唇の
中心(ic,c )は次式で算出される。
【0054】 ic =(ilip-max +ilip-min )/2 jc =(jlip-max +jlip-min )/2 すなわち、図18の(iC,C )で示す、口唇の中心を
求めることができる。
【0055】従来方法は、口の開閉状態を判定するため
に、この色抽出処理によって口の輪郭を求める必要があ
り、そのため照明などの影響を受けて輪郭を正しく得る
ことが困難であった。本方法においての色抽出処理に関
しては、口唇の中心位置が求まればよいので、そういっ
た影響は低減できる。
【0056】(口唇部光照射部)口唇部を光照射するた
めの照射光源であり、これには複数個のLEDや、光強
度が安全基準に合致する半導体レーザを用いたライン・
ジェネレータやエキスパンダによる拡散光素子などを利
用することができる。
【0057】(照射位置検出部)上記の照射光源からの
口唇部方向への光は、検出開始の初期状態では必ずしも
口唇部に照射されていない。そこで照射位置検出部で撮
像された画像内での照射光の位置を検出する必要があ
る。
【0058】図18において撮像画像を白黒で表現した
とき、座標(i,j)の階調値をBW(i,j)とす
る。照明光の光強度が撮像画像の背景の光強度と区別で
きるだけの所定光強度を有する形状の画像は、背景と区
別できる画像成分の下限をBW min とすると、次の式を
満たす数列ilight 、jlight で与えられる。
【0059】BWmin <BW(ilight ,jlight ) 照射光の画像を矩形で近似したとき、座標値i,jの上
限・下限は次のようになる。
【0060】ilight-max =max(ilight ) ilight-min =min(ilight ) jlight-max =max(jlight ) jlight-min =min(jlight ) ただし、関数max()、min()はかっこ内の数列
中の最大値、最小値を与える。このとき図18で示すよ
うに、照射光の画像の中心位置(iL ,jL )は次式で
算出される。
【0061】 iL =(ilight-max +ilight-min )/2 jL =(jlight-max +jlight-min )/2 以上のように、照射位置が撮像画像内で特定される。従
ってこの座標値を後述の光源方向駆動部に与えること
で、光源照射位置と口唇部(中心)とを合致させること
が可能となる。
【0062】(光源方向駆動部)口唇部を光照射するた
めの光源を所定方向に向けるための駆動部の構成例を図
19に示す。同図(a)は基台部19−4に駆動機構1
9−3を付加し、その上部に光源19−1とマイク19
−2が一体で構成されている筐体を配する。駆動機構1
9−3により、図示されている様に、光源19−1はパ
ン・チルトの回転動作可能(図示のごとくα方向・β方
向の回転可能)としている。本構成では話者の口唇部の
移動に追随して光源が口唇部を照射するとともにマイク
の集音方向も口唇部の方向に合わすことが可能となる。
同図(b)は、ハンドセット19−5の送話部にマイク
19−6の他に光源19−7を組み込んだ場合であり、
この光源19−7は超小型モータなどによりパン・チル
ト方向の回転動作を行って、口唇部に追随する。この様
なハンドセットなどへの搭載に適した、光源と駆動系を
超小型に構成する別の方法の例を、同図(c)に示す。
これはLSIと同様なパッケージ基板19−10の上に
搭載されたマイクロスキャナ素子である。本素子には発
光素子19−8とマイクロマシン技術で形成された回転
ミラー19−9が組み込まれており、ミラーの回転角度
によりレーザ光などの入射光が反射して所定の方向に光
照射する。同じく超小型構成方法の例を同図(d)に示
す。これはマイクロスキャンミラーを用いた例であり、
ハンドセット19−11の送話部側に延長基台部19−
12を設け、その上部に超小型に形成されたミラーを高
速周期運動でスキャンニングするマイクロスキャンミラ
ー19−13を配置する。近傍に配置されたレーザ19
−14などからの光はこのマイクロスキャンミラー19
−13に入射し、一定角度範囲のスキャンニングにより
反射光となって話者の口唇部に投射される。ミラーが高
速スキャンを行うため、この反射光は、図示されたよう
な近傍に搭載された撮像素子19−15(例えば、超小
型CCDカメラや二次元PSDセンサなど)によって、
線状の投射光として検出される。このとき、図示されて
いる様に、レーザ19−14を複数個配置し、個々のレ
ーザとミラー19−13を適切に配置すると、同図
(e)に模式的に示した様に、反射光19−18を話者
19−16の口唇部19−17に縦の縞状の光として照
射することができる。この様に実施することで、話者1
9−16の顔面が左右にずれても縞状の反射光19−1
8のいずれかが口唇部19−17を照射し、後述する口
唇部の開閉判別を行うことができる。以上のように、特
に(c)や(d)で示した照射用の光源の構成例は小型
化が容易であり、ハンドセットに搭載する用途に適して
いるといえる。
【0063】次に、口唇部位置検出部で求めた口唇の中
心位置(ic , c )と、照射位置検出部で求めた照射
光の画像の中心位置(iL ,jL )から、光源の照射方
向を話者の口唇に合わせるための方法について述べる。
図19(a)において、光源19−1の照射方向に関
し、図示した様に左右方向の回転角をα、上下方向の回
転角をβとする。光源19−1を話者の口唇部へ向ける
ための目標回転角をαD、βD とし、これを決定する。
光源の必要回転角度αrot 、βrot は、口唇の中心位置
と照射光の画像の中心位置の偏差を用いて、次の式で与
えられる。
【0064】αrot =a・(ic −iL ) βrot =b・(jc −jL ) ただし、a,bは予め与えられた撮像画面上の画素と回
転角との変換係数であり、この係数は、例えば光源を回
転角1度分だけ回転させたときに画面上で照射光の画像
が何画素分移動したかを計測することで算出できる。
【0065】現在に位置する光源の配置角度をα
current 、βcurrent とすると、目標回転角αD 、βD
は、 αD =αcurrent +αrot βD =βcurrent +βrot のように算出される。同図で示した他の例(b)、
(c)の場合も同様な方法で回転角を算出可能である。
【0066】(撮像位置検出部)ビデオカメラ・CCD
カメラなどの撮像素子からなる口唇部用撮像部として
は、先に図16で図示し、口唇部位置検出部用として説
明したカラービデオカメラ16−1を、使用することが
できる。この撮像部の撮像方向を所定の方向に向けるた
めの駆動機構としては、複数の小型モータなどを用いて
同図に示した二つの回転軸を中心に回転させるようにす
ることで容易に実現可能である。また図19(d)にお
いて図示した口唇部用の撮像素子19−15は、特にハ
ンドセットなどに取り付けるのに適した搭載構成を意図
したものであり、同様に図示していない複数の超小型モ
ータなどを利用してこの撮像素子を二つの回転軸を中心
に回転させて撮像方向を所定方向に向けることが可能で
ある。よって、本発明の実施における口唇部撮像に関す
るポイントは、撮像位置検出部の実施方法、すなわち口
唇部の撮影画像が常に取得画像のフレーム内の一定位置
に有る様に撮像素子の方向を駆動制御する方法にある。
これに関し以下に、図20の口唇部用撮像素子の撮像位
置検出方法の説明図を用いて述べる。同図(a)は口唇
部用の撮像素子(ビデオカメラ)20−1を示し、図示
されていない駆動部によって左右・上下に撮像方向が回
転する。左右方向の回転角をγ、上下方向の回転角をδ
としたとき、所定の像を得るための目標回転角γD 、δ
D を求める。同図(b)において、話者像20−3を撮
像した撮像画像20−1を示し、ここにおいて、画像図
面横・縦方向をそれぞれi軸・j軸方向とし、撮像画像
内の位置座標を(i,j)で表す。撮像画像20−2は
(1,1)から(n,m)の位置座標を持つものとす
る。話者像20−3の口唇部の中心位置(iC ,jC
は先に述べた口唇部位置検出部で求められている。話者
の顔面像における確定位置である口唇部の中心位置と、
撮像画像内の所定の位置(iT ,jT )とを一致させる
ことで、所期の目的を達成できる。例えば、 (iT ,jT )=(m/2,2n/3) つまり、i方向では撮像画面中心、j方向では撮像画面
の下方から1/3の位置を所定位置とする。(a)にお
いて、撮像素子の必要回転角度γrot 、δrot は以上よ
り次式で与えられる。
【0067】γrot =c・(m/2 − iC ) δrot =d・(2n/3 − jC ) ただし、c,dは先に述べた光源の回転を駆動する場合
と同様に、予め与えられた撮像画面上の画素と回転角と
の変換係数であり、この係数は、例えば撮像素子を回転
角1度分だけ回転させたときに画面上で照射光の画像が
何画素分移動したかを計測することで算出できる。
【0068】現在に位置する撮像素子の配置角度をγ
current 、δcurrent とすると、目標回転角αD 、βD
は、 γD =γcurrent +γrot δD =δcurrent +δrot のように算出される。この算出結果を基に回転駆動を与
えることで、同図(c)に示す様に、所定位置に話者の
口唇部の中心を合致させることができる。
【0069】(口唇部開閉判別部)口唇部開閉判別部で
は、口唇部に光照射された反射光をカラービデオカメラ
などの撮像素子を有する口唇部撮像部で取得し、この取
得画像を周知の2値化処理などの画像処理を行うことに
よって、口唇部の開閉状態の検知や開閉量の算出を行
う。図21に、話者1に対する照射用光源21−2と口
唇部用撮像素子(ビデオカメラ)21−1との配置に関
する関係を模式的に示す。光源21−1は話者1の口唇
部を正面方向から照射するように、口唇部正面に配置す
るのが望ましい。他方、撮像素子21−1の配置位置は
口唇部の正面に配置して撮像することは、かえって好ま
しく無い。なぜなら、そうすることによって、唇からの
反射光と共に、歯や舌からの反射光が取得画像に入力さ
れ、これらがノイズとなって口唇部の開閉検出を行うと
きの支障要因となるためである。したがって、撮像素子
の配置位置は、話者が口を開いたときに、上唇と下唇の
間隙を観察でき、かつ口腔や舌・歯に対してある程度の
角度をもって行う、斜めからの観察が必要である。すな
わち、口唇部の中心を足として立てた垂線を含んだ顔面
の垂直面上において、口唇部中心を共通として、この垂
線に適切な二つの角度を持つ直線で挟まれた領域に撮像
素子を配置することが、必要条件となる。この様子を図
21の撮像素子の配置領域21−3に示す。この二つの
角度は、一般に口唇の上下方向と左右方向(すなわち、
前記の顔面の口唇部に立てた垂直面の方向)により値が
異なる。適切な配置を行うことで、唇・歯・舌の凹凸の
関係から、歯や舌からの反射光を唇からの反射光と分離
できる。
【0070】図22に実施取得した撮像画像の例を示
す。(a)は一つのレーザ光で縦のライン状に話者の口
唇部を走査している状態を示しており、図19の(d)
ないし(e)で示した実施例で、レーザ光源が一個の場
合に相当する。また図22(b)は、口唇部にLED光
を照射した状態例を示している。これらの取得画像を周
知の画像処理方法で2値化処理し反射光を抽出すると、
(a)は(c)に、(b)は(d)の様な画像となる。
これらの画像を、第一の実施例で述べたラベリング処理
と同様の処理を適用して話者の唇に相当する領域の抽出
と、その領域の間の間隔を算出することにより、話者の
口唇部の開閉状態・開閉量などを判断することができ
る。この開閉判断処理は次の様に行うことができる。
【0071】撮像画像内の位置座標を、前述と同様に
(i,j)とし、(j座標の方向は、上唇から下唇の方
向に増加となる。図20(b)参照))上記のラベリン
グ処理で求めた上唇領域と下唇領域を矩形で近似する。
それぞれの上下端の座標を次の様に定める。
【0072】上唇:juplip-max 、juplip-min 下唇:jlowlip-max、jlowlip-min このとき、開閉量Lsplit は、 Lsplit =jlowlip-min−juplip-max のように求めることができる。口唇部が開いている状態
と閉じている状態を分離するしきい値を、Lthとする
と、 Lsplit >Lth ならば、口唇部が開いている状態 Lsplit ≦Lth ならば、口唇部が閉じている状態 と、判別できる。
【0073】また、この方法で求めた語句の開閉量の時
系列パターンLsplit (t)を、予め辞書データとして
システムに格納しておき、話者が発生したときの口唇の
開閉の状況と先の時系列パターンLsplit (t)とを比
較して、一致性を判定することにより、話者読唇機能を
もたせることもできる。
【0074】
【発明の効果】以上の説明から明かなように、本発明の
話者顔面位置検出装置は、ビデオ案内サービスシステム
などに使用するのに適し、このサービスを利用する質問
者に違和感を与えることなく、ハンドセットを保持した
状態で質問者の顔面位置を容易に捉えることが可能とな
る装置を提供する。このことから、質問者の顔面の状況
(表情や個性など)を把握できることを通して、案内シ
ステムのサービスの向上に寄与できる。さらに、本発明
が提供する装置は従来の顔面の位置を検出する装置に比
べ、検出精度の向上ができ、システムを構成する上で装
置の負荷が軽減されコストも抑えることができるといっ
た特徴も有する。
【0075】また、本発明の話者口唇部開閉検出装置
は、ビデオ案内サービスシステムなど背景ノイズの多い
設置状況の中で質問者の音声を的確に認識するために、
質問者の口唇部の開閉状態を的確に判定できる装置を提
供する。この装置により、質問者の開口時のみに質問者
の音声の認識システムへの入力を可能とし、音声認識処
理における認識率を向上することができる。本発明が提
供する装置は従来の口唇部の開閉を判定する装置に比
べ、顔面の照明状態にも大きな影響を受けることが無
く、また質問者の顔面の振れ、すなわち口唇部の移動に
も追随して開閉状態を検出できるといった特徴を持つ。
【0076】さらに、本発明の話者口唇部開閉検出装置
は、本発明の話者顔面位置検出装置に用いるビデオカメ
ラなどの撮像素子を共通して利用でき、また顔面位置検
出装置のハンドセットにも組み込み可能な装置として構
成が可能であることなどから、前記のビデオ案内サービ
スなどに本発明の両装置を共に組み入れることで、シス
テムを構成する上で、特にコストを大きく削減できると
いった効果を発揮する。
【図面の簡単な説明】
【図1】 ビデオコールセンタシステム
【図2】 ハンドセットを手持での会話状況
【図3】 本発明を反射光を用いた話者顔面位置検出装
置の構成
【図4】 本発明の光反射テープ貼付ハンドセットの構
成と光反射テープのの素材例
【図5】 サンプリングのタイミングと光検出信号
【図6】 サンプリング制御回路の構成
【図7】 差分検出による反射光検出状態の例
【図8】 反射光スポットの抽出方式
【図9】 反射光による顔面位置検出システムの構成
【図10】 本発明の光反射テープと方向性透過膜の併
用構成の例
【図11】 ハンドセット側面への光反射素子の配置例
【図12】 光反射素子の形状とハンドセット保持方向
【図13】 本発明のハンドセット光源を用いた話者顔
面位置検出装置の構成
【図14】 本発明の発光方向を制御したハンドセット
光源の構成
【図15】 大発光面積・発光方向制限のハンドセット
光源の構成
【図16】 本発明の話者口唇部開閉検出装置の基本構
【図17】 口唇部開閉検出装置のシステム機能構成
【図18】 撮像画像の各部の座標を説明する図
【図19】 光源方向駆動部の構成例
【図20】 口唇部用撮像素子の撮像位置検出方法
【図21】 口唇部用撮像素子の配置
【図22】 口唇部撮像素子による取得画像例
【符号の説明】
1 質問者(話者) 2 音声入力装置(ハンドセット) 3 ディスプレイ 4 ビデオカメラ 5 光源 6 近接センサ 10 光反射テープ 20 ハンドセット光源
───────────────────────────────────────────────────── フロントページの続き (72)発明者 中田 康之 神奈川県川崎市中原区上小田中4丁目1番 1号 富士通株式会社内 Fターム(参考) 5B087 AA00 AE00 BC05 BC12 BC13 BC19 BC32 DJ01

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 話者の通話用のハンドセットと、 前記ハンドセットに付加した光反射素子と、 前記光反射素子へ光を照射する光照射手段と、 前記話者の通話時の少なくとも顔面および前記ハンドセ
    ットを含む領域の画像と、前記光反射素子の反射光から
    得られる画像とを重畳して画像記録する顔面撮像手段
    と、 前記顔面撮像手段で得た撮像信号から前記ハンドセット
    の保持位置を導出するハンドセット位置算出手段とを備
    えることを特徴とする話者顔面位置検出装置。
  2. 【請求項2】 前記光照射手段は照射光点滅装置を有
    し、前記ハンドセット位置算出手段は撮像信号から反射
    光の成分のみを検出する差分検出装置を有することを特
    徴とする請求項1記載の話者顔面位置検出装置。
  3. 【請求項3】 話者の通話用のハンドセットと、 前記ハンドセットに付加した発光素子と、 前記話者の通話時の少なくとも顔面および前記ハンドセ
    ットを含む領域の画像と、前記発光素子の光から得られ
    る画像とを重畳して画像記録する顔面撮像手段と、 前記顔面撮像手段で得た撮像信号から前記ハンドセット
    の保持位置を導出するハンドセット位置算出手段とを備
    えることを特徴とする話者顔面位置検出装置。
  4. 【請求項4】 前記発光素子は発光点滅装置を有し、ハ
    ンドセット位置算出手段は撮像信号から前記発光素子光
    の成分のみを検出する差分検出装置を有することを特徴
    とする請求項3記載の話者顔面位置検出装置。
  5. 【請求項5】 話者の口唇部へ光を照射する光照射用光
    源を有する口唇部光照射手段と、 前記口唇部光照射手段により光照射された前記口唇部を
    画像記録する口唇部用撮像素子を有する口唇部撮像手段
    と、 前記口唇部撮像手段で得た撮像信号から前記口唇部の開
    閉状態を判別する口唇部開閉判別処理手段と、前記口唇
    部の位置を検出する位置検出用撮像素子を有する口唇部
    位置検出手段と、 前記口唇部位置検出手段で得た位置情報に基づき、前記
    光照射用光源の光照射方向を所定方向に設定駆動する光
    源方向駆動手段と前記口唇部用撮像素子の画像記録方向
    を所定方向に設定駆動する口唇部用撮像素子方向駆動手
    段とを備えることを特徴とする話者口唇部開閉検出装
    置。
  6. 【請求項6】 請求項5記載の話者口唇部開閉検出装置
    を備えることを特徴とする請求項1ないし4記載の話者
    顔面位置検出装置。
JP22753899A 1999-08-11 1999-08-11 話者顔面位置検出装置および話者口唇部開閉検出装置 Withdrawn JP2001051772A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP22753899A JP2001051772A (ja) 1999-08-11 1999-08-11 話者顔面位置検出装置および話者口唇部開閉検出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP22753899A JP2001051772A (ja) 1999-08-11 1999-08-11 話者顔面位置検出装置および話者口唇部開閉検出装置

Publications (1)

Publication Number Publication Date
JP2001051772A true JP2001051772A (ja) 2001-02-23

Family

ID=16862480

Family Applications (1)

Application Number Title Priority Date Filing Date
JP22753899A Withdrawn JP2001051772A (ja) 1999-08-11 1999-08-11 話者顔面位置検出装置および話者口唇部開閉検出装置

Country Status (1)

Country Link
JP (1) JP2001051772A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005516263A (ja) * 2002-01-30 2005-06-02 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声認識システムのための音声アクティビティのオーディオビジュアル検出
JP2005158057A (ja) * 2003-11-04 2005-06-16 Shinsedai Kk 描画装置、操作物、描画システム、描画プログラム、及び描画方法
JP2006259900A (ja) * 2005-03-15 2006-09-28 Omron Corp 画像処理システム、画像処理装置および方法、記録媒体、並びにプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005516263A (ja) * 2002-01-30 2005-06-02 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声認識システムのための音声アクティビティのオーディオビジュアル検出
JP4681810B2 (ja) * 2002-01-30 2011-05-11 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声認識システムのための音声アクティビティのオーディオビジュアル検出
JP2005158057A (ja) * 2003-11-04 2005-06-16 Shinsedai Kk 描画装置、操作物、描画システム、描画プログラム、及び描画方法
JP4747334B2 (ja) * 2003-11-04 2011-08-17 新世代株式会社 描画装置、操作物、描画システム、描画プログラム、及び描画方法
JP2006259900A (ja) * 2005-03-15 2006-09-28 Omron Corp 画像処理システム、画像処理装置および方法、記録媒体、並びにプログラム

Similar Documents

Publication Publication Date Title
EP1608157B1 (en) Method and system for reducing effects of undesired signals in an infrared imaging system
EP3449337B1 (en) Eye-tracking enabled wearable devices
US9830513B2 (en) Systems and methods for panning a display of a wearable device
US20170316264A1 (en) Eye-tracking enabled wearable devices
US6272466B1 (en) Speech detection apparatus using specularly reflected light
EP2120183B1 (en) Method and system for cancellation of ambient light using light frequency
US6299306B1 (en) Method and apparatus for positioning subjects using a holographic optical element
US20070195012A1 (en) Image display apparatus and method for displaying image
US20060104454A1 (en) Method for selectively picking up a sound signal
JPH01195499A (ja) 音声入力装置
JP4627052B2 (ja) 画像に連携した音声出力方法および装置
JP2000112496A (ja) ビデオ・イメ―ジ及びビデオ・デ―タの獲得装置及び方法
JP2000083930A (ja) アイリスを用いた個人識別装置
JP6870709B2 (ja) 情報読取装置
CN106650561A (zh) 指纹影像撷取装置及其指纹影像撷取模块
EP2744206A1 (en) Image projection device with microphone for proximity detection
JP2017123505A (ja) コンテンツ再生装置、コンテンツ再生方法及びプログラム
JP2000187499A (ja) 音声入力装置及び音声入力方法
JP2001051772A (ja) 話者顔面位置検出装置および話者口唇部開閉検出装置
JP6904624B1 (ja) クラブヘッド計測用マークおよび画像処理装置
WO2004088979A1 (ja) 撮影装置、撮影方法、およびコンピュータプログラム
US7652824B2 (en) System and/or method for combining images
JP2005236421A (ja) 画像表示システム
JP4055893B2 (ja) 記入ガイダンスシステム
JP3342810B2 (ja) 虹彩画像取得装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20061107