JPH11174948A

JPH11174948A - 手動作認識装置

Info

Publication number: JPH11174948A
Application number: JP26783298A
Authority: JP
Inventors: Hideaki Matsuo; 英明松尾; Yuji Takada; 雄二高田; Mitsutaka Tejima; 光隆手嶋; Kazuyuki Imagawa; 和幸今川; San Ro; 山呂; Seiji Inoki; 誠二猪木
Original assignee: Communications Research Laboratory; Matsushita Electric Industrial Co Ltd
Current assignee: Communications Research Laboratory; Panasonic Holdings Corp
Priority date: 1997-09-26
Filing date: 1998-09-22
Publication date: 1999-07-02

Abstract

(57)【要約】【課題】利用者に何らの用具を装着させることなく、
高速かつ正確に手動作を認識することのできる手動作認
識装置を提供することである。【解決手段】利用者の動作は、撮影装置１によって立
体的に撮影された後、画像記憶装置２に記憶される。特
徴画像抽出装置３は、画像記憶装置２から読み出した立
体画像データの色を、色変換テーブル作成装置１３が作
成した色変換テーブルによって変換することにより、利
用者の特徴画像を、各チャネルに分解して出力する。空
間位置計算装置４は、特徴画像抽出装置４から出力され
る特徴画像の視差を利用して、利用者の各特徴部分の空
間位置を計算する。領域分割装置５は、利用者の周辺空
間を空間領域コードによって規定する。手動作検出装置
６は、利用者の手が空間領域コードに関連してどのよう
に動くかを検出する。検出された手動作に基づき、まず
カテゴリが検出され、次に、カテゴリ内の手話単語が特
定される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、手動作認識装置に
関し、より特定的には、手動作を自動的に認識すること
のできる手動作認識装置に関する。

【０００２】

【従来の技術】従来、例えば手話のための手動作を認識
する方法として、いくつかの方法が知られている。第１
の方法は、体に付けたセンサの動きを感知することによ
って、体の動きを測定する方法である（例えば、「手振
り認識方法と応用」電子情報通信学会論文誌Ｄ−２Ｖｏ
ｌ．Ｊ７３−Ｄ−２Ｎｏ．１２１９９０高橋友一他、特
開平８−１１５４０８号公報参照）。また、第２の方法
は、複数の色を彩色した手袋をはめた手をカメラで撮影
し、色情報によって手の輪郭情報を抽出することによ
り、指の動きを測定する方法である（例えば、「色情報
による手形状認識に関する考察」電子情報通信学会技術
研究報告ＰＲＵ９４−５２、３９−４３ページ吉野和芳
他参照）。さらに、第３の方法は、体に装着した光ファ
イバから発せられる光の量の変化を感知することによ
り、指形状の変化を測定する方法である（特開平８−１
１５４０８号公報参照）。

【０００３】

【発明が解決しようとする課題】しかしながら、上記第
１〜第３の方法は、いずれも体にセンサ、手袋、光ファ
イバ等の用具を装着する必要があるため、利用者に不快
感を与えると共に、利用者の動きを制約してしまう。ま
た、従来は、予め特定の人間から得た体の各部の絶対座
標値を使用して認識を行っているため、実際に利用する
者の体の大きさの違いや、動作中の体の揺れ等によっ
て、認識結果に誤りが生じる。なお、複数の利用者につ
いて、体の各部の座標値を登録しておくことも考えられ
るが、このような方法では、利用者の数に比例して登録
データの量が膨大になってしまうという問題点がある。
また、従来は、測定した手の動きと辞書に登録された手
動作単語に対応する手の動きとを、１単語毎に逐一照合
して認識を行うようにしているため、認識すべき単語数
が多くなるにつれて、認識時間が指数関数的に増加する
という問題点もあった。

【０００４】それ故に、本発明の目的は、利用者が何ら
の用具を装着することなく、手動作を認識し翻訳するこ
とのできる手動作認識装置を提供することである。ま
た、本発明の他の目的は、利用者の体の大きさの違い
や、動作中の体の揺れなどがあっても手動作を誤りなく
正確に認識し翻訳することのできる手動作認識装置を提
供することである。また、本発明のさらに他の目的は、
認識すべき単語数が増加しても、短時間で認識・翻訳処
理が行える手動作認識装置を提供することである。

【０００５】

【課題を解決するための手段および発明の効果】第１の
発明は、利用者が行う手動作を認識するための手動作認
識装置であって、少なくとも２台のカメラを有し、利用
者を立体的に撮影する撮影手段と、撮影手段から出力さ
れる利用者の立体画像データを任意のサンプリング間隔
で記憶する画像記憶手段と、画像記憶手段から立体画像
データを順番に取り出し、各立体画像データから利用者
の人体的特徴を示す特徴画像を抽出して複数のチャネル
に分解して出力する特徴画像抽出手段と、特徴画像抽出
手段から出力される特徴画像が有する視差に基づき、利
用者の人体各部の３次元空間位置を検出する空間位置計
算手段と、特徴画像抽出手段から出力される特徴画像が
有する視差に基づき、利用者の周囲を取り巻く空間を利
用者の体に対応付けられた複数の領域に分割する領域分
割手段と、空間位置計算手段で計算された人体各部の３
次元空間位置の内、利用者の手に相当する３次元空間位
置が領域分割手段で分割された領域に関連してどのよう
に動くかを検出する手動作検出手段と、手動作検出手段
で検出された手の動きに基づき、対応する手動作単語を
判定する手動作単語判定手段と、手動作単語判定手段の
判定結果を、オペレータが認識可能な態様で出力する出
力手段とを備えている。

【０００６】上記のように、第１の発明によれば、利用
者を撮影して得た立体画像データから人体各部の特徴を
抽出すると共に、立体画像データが有する視差を利用し
て手動作の３次元的な動きを検出し、この検出結果に基
づいて手動作単語を認識するようにしているので、利用
者に対して何らの用具を装着することなく、非接触で手
動作の認識が行える。また、利用者の周囲を取り巻く空
間を利用者の体に対応付けられた複数の領域に分割し、
利用者の手の３次元空間位置が分割された領域に関連し
てどのように動くかを検出するようにしているので、利
用者の体の大きさにかかわらず、また利用者の体の揺れ
にかかわらず、常に利用者の体に即した認識が行え、認
識精度を大幅に向上できる。

【０００７】第２の発明は、第１の発明において、特徴
画像抽出手段は、立体画像データを構成する各画素の色
情報に基づいて、特徴画像を各チャネル別に出力するこ
とを特徴とする。

【０００８】第３の発明は、第２の発明において、特徴
画像抽出手段は、オペレータによって指定された抽出し
たい色と出力させたくない色とに基づいて、チャネル別
に色変換テーブルを設定し、立体画像データを構成する
各画素の色情報を色変換テーブルによって変換し、色変
換テーブルによって変換された値を予め定める閾値で弁
別することにより、各チャネル別に特徴画像を出力する
ことを特徴とする。

【０００９】第４の発明は、第１の発明において、領域
分割手段は、空間位置計算手段で計算された人体各部の
３次元空間位置に基づいて、特徴画像に現れない人体部
分の位置を推定し、当該推定した位置に基づいて、利用
者の周囲を取り巻く空間をさらに細かい領域に分割する
ことを特徴とする。

【００１０】上記のように、第４の発明によれば、特徴
画像に現れない人体部分の位置を推定し、推定した位置
に基づいて、利用者の周囲を取り巻く空間をさらに細か
い領域に分割するようにしているので、より精度の高い
認識が行える。

【００１１】第５の発明は、第１の発明において、領域
分割手段は、時間的に隣接する特徴画像の差分値を計算
し、当該差分値が予め定めた閾値以上になった場合にの
み、領域分割を行うことを特徴とする。

【００１２】上記のように、第５の発明によれば、時間
的に隣接する特徴画像の差分値が予め定めた閾値以上に
なった場合にのみ領域分割を行うようにしているので、
領域分割のための計算負荷を軽減できる。

【００１３】第６の発明は、第１の発明において、領域
分割手段は、利用者の体を中心として前後に広がる空間
を複数の層に分割し、さらに各層を複数の領域に分割す
ることを特徴とする。

【００１４】第７の発明は、第６の発明において、領域
分割手段は、層間で領域分割数を異ならせることを特徴
とする。

【００１５】第８の発明は、第７の発明において、領域
分割手段は、利用者の体から見て後方の層から前方の層
に行くに従って、領域分割数を少なくすることを特徴と
する。

【００１６】第９の発明は、第１の発明において、認識
の対象となる複数の手動作単語は、予め複数のカテゴリ
に分類されており、手動作単語判定手段は、各カテゴリ
について、それぞれのカテゴリに属する手動作単語に共
通する動作的特徴が予め登録されているカテゴリ辞書
と、各手動作単語のさらに詳しい動作的特徴が各カテゴ
リ別に格納されている単語辞書と、手動作検出手段で検
出された手の動きがどのカテゴリに属するかを、カテゴ
リ辞書の中から検出するカテゴリ検出手段と、手動作検
出手段で検出された手の動きがカテゴリ検出手段によっ
て検出されたカテゴリに属する手動作単語のどれに対応
するかを認識する単語認識手段とを含んでいる。

【００１７】上記のように、第９の発明によれば、手動
作単語の判定を階層的に行っているので、従来のように
全単語に対する類似度をしらみつぶしに計算する場合に
比べて、短時間で認識が行える。

【００１８】第１０の発明は、第９の発明において、単
語認識手段は、カテゴリ検出手段によって検出されたカ
テゴリに属する手動作単語の内、手動作検出手段で検出
された手の動きと最も類似度の高い１つの手動作単語を
認識結果として出力することを特徴とする。

【００１９】第１１の発明は、第９の発明において、単
語認識手段は、カテゴリ検出手段によって検出されたカ
テゴリに属する手動作単語の内、手動作検出手段で検出
された手の動きと一定の閾値以上の類似度を持つ１また
は複数の手動作単語を認識結果として出力することを特
徴とする。

【００２０】第１２の発明は、第１の発明において、利
用者に対し、手動作を開始するタイミングを通知するた
めの動作開始通知手段をさらに備えている。

【００２１】上記のように、第１２の発明によれば、利
用者に対して手動作を開始するタイミングを通知するこ
とができるので、利用者がとまどうことがない。

【００２２】第１３の発明は、第１の発明において、手
動作検出手段は、動きの開始点と終了点との間で検出し
た３次元空間位置を示すサンプリング点の内、動きの方
向が大きく変化するサンプリング点を制御点として抽出
し、これら開始点、終了点および制御点を用いて、利用
者の手の動きを表現することを特徴とする。

【００２３】上記のように、第１３の発明によれば、動
きの開始点と終了点との間に存在する複数のサンプリン
グ点の内、動きの方向が大きく変化するサンプリング点
を制御点として抽出し、これら開始点、終了点および制
御点を用いて、利用者の手の動きを表現するようにして
いるので、全サンプリング点を用いて利用者の手の動き
を表現する場合に比べて、利用者の手の動きを簡単に表
現でき、結果として手動作単語の判定も迅速に行える。

【００２４】第１４の発明は、第１３の発明において、
手動作検出手段は、開始点と終了点との間に存在するサ
ンプリング点であって、これら開始点および終了点を結
んだ直線に対して最大距離を有し、かつ予め定めた閾値
以上の距離を有するサンプリング点と、開始点と隣接す
る制御点との間に存在するサンプリング点であって、こ
れら開始点および隣接する制御点を結んだ直線に対して
最大距離を有し、かつ予め定めた閾値以上の距離を有す
るサンプリング点と、終了点と隣接する制御点との間に
存在するサンプリング点であって、これら終了点および
を隣接する制御点を結んだ直線に対して最大距離を有
し、かつ予め定めた閾値以上の距離を有するサンプリン
グ点と、隣接する２つの制御点の間に存在するサンプリ
ング点であって、これら２つの制御点を結んだ直線に対
して最大距離を有し、かつ予め定めた閾値以上の距離を
有するサンプリング点とを検出し、これら検出したサン
プリング点を制御点とすることを特徴とする。

【００２５】上記のように、第１４の発明によれば、予
め定めた閾値を用いて制御点を抽出するようにしている
ので、当該閾値を変えることにより、動きの表現精度を
自由に変更することができる。

【００２６】第１５の発明は、第１４の発明において、
手動作検出手段は、複数の閾値を用いて、階層的に制御
点を検出することにより、利用者の手の動きを階層的に
表現し、手動作単語判定手段は、手動作検出手段によっ
て階層的に表現された利用者の手の動きに基づいて、階
層的に対応する手動作単語を特定することを特徴とす
る。

【００２７】上記のように、第１５の発明によれば、手
動作単語の判定を階層的に行っているので、従来のよう
に全単語に対する類似度をしらみつぶしに計算する場合
に比べて、短時間で認識が行える。

【００２８】

【発明の実施の形態】（第１の実施形態）図１は、本発
明の第１の実施形態に係る手話認識装置の構成を示すブ
ロック図である。図１において、本実施形態の手話認識
装置は、撮影装置１と、画像記憶装置２と、特徴画像抽
出装置３と、空間位置計算装置４と、領域分割装置５
と、手動作検出装置６と、カテゴリ検出装置８と、単語
認識装置９と、カテゴリ辞書１０と、単語辞書１１と、
出力装置１２と、色変換テーブル作成装置１３と備えて
いる。

【００２９】撮影装置１は、複数台のテレビカメラを含
み、利用者の動作を立体的に撮影する。画像記憶装置２
は、撮影装置１から出力される立体画像データを複数フ
レーム分記憶する。色変換テーブル作成装置１３は、画
像記憶装置２に格納された複数フレーム分の立体画像デ
ータの内、オペレータによって選択された代表画像上で
指定される画素の色に基づき、第１〜第３チャネルそれ
ぞれに対応する３つの色変換テーブルを作成する。特徴
画像抽出装置３は、画像記憶装置２から順番に立体画像
データを読み出すと共に、読み出した立体画像データを
構成する各画素の色データを、色変換テーブル作成装置
１３によって作成された色変換テーブルによって変換す
ることにより、利用者の人体的特徴を示す立体的な特徴
画像を抽出し、第１〜第３チャネルに分解して出力す
る。

【００３０】空間位置計算装置４は、特徴画像抽出装置
４からチャネル毎に出力される立体画像の視差を利用し
て、各チャネルに含まれるブロブ（１つの塊として把握
される画像）の３次元空間位置を計算する。領域分割装
置５は、特徴画像抽出装置３から出力される立体的な特
徴画像と、空間位置計算装置４で計算された各ブロブの
３次元空間位置とに基づいて、人体の周辺を取り巻く３
次元空間を分割すると共に、分割したそれぞれの領域を
規定するための空間領域コードを作成する。手動作検出
装置６は、特徴画像抽出装置４から出力される立体画像
と、空間位置計算装置４で計算されたブロブの３次元空
間位置と、領域分割装置５で作成された空間領域コード
とに基づき、手に対応するブロブが、領域分割装置５で
作成された空間領域コードに関連して空間上でどのよう
に動くかを検出する。

【００３１】カテゴリ辞書１０には、手話動作のカテゴ
リ（相互に類似する手話動作を集めたグループ）別に、
各カテゴリの特徴が登録されている。カテゴリ検出装置
８は、手動作検出装置６によって検出された手話動作の
特徴が、カテゴリ辞書１０に含まれているカテゴリの内
のいずれのカテゴリに属するかを検出する。単語辞書１
１には、各カテゴリに属する手話単語の動作の特徴が登
録されている。単語認識装置９は、手動作検出装置６に
よって検出された手話動作の特徴が、カテゴリ検出装置
８によって検出されたカテゴリに属する手話単語の内、
いずれの手話単語に該当するかを検出する。出力装置１
２は、単語認識装置９の検出結果を、画像、文字、音声
等の形態で出力する。

【００３２】図２および図３は、図１に示す実施形態の
動作を示すフローチャートである。以下、これら図２お
よび図３を参照して、上記実施形態の動作について説明
する。

【００３３】まず、撮影装置１による撮影が開始される
（ステップＳ１）。これによって、撮影装置１に含まれ
る左右２台のテレビカメラが、利用者の上半身を、異な
る角度から立体的に撮影する。撮影装置１から出力され
る立体画像データは、画像記憶装置２内に適当なサンプ
リング周期で格納される。画像記憶装置２は、標準では
ＮＴＳＣの規格である１／３０秒のサンプリング間隔で
立体画像データを記憶するが、サンプリング周期を変更
することにより、他のサンプリング間隔（例えば、１／
１０秒もしくは１／５秒間隔）で立体画像データを記憶
することも可能である。図４に示すように、画像記憶装
置２に記憶された立体画像データの各フレームには、時
系列的に連続番号（ＩＭＧ１，ＩＭＧ２，…）が付され
る。

【００３４】次に、色変換テーブル作成装置１３は、そ
の内部に設けられたテーブル設定フラグ（図示せず）が
セットされているか否かを判断する（ステップＳ２）。
後述するように、このテーブル設定フラグは、色変換テ
ーブルが設定されたときにセットされる（ステップＳ１
１参照）。当初、色変換テーブルは設定されていないの
で、テーブル設定フラグはリセット状態であり、ステッ
プＳ３に進む。ステップＳ３において、オペレータは、
画像記憶装置２に格納された複数フレーム分の立体画像
データの中から、図５に示すように、任意の１フレーム
の画像データを、特徴抽出のための代表画像として選定
する。ここで、撮影装置１から出力された画像データ
は、画像記憶装置２に記憶される一方で、図示しない表
示装置に表示される。オペレータは、当該表示装置の表
示内容を見ながら適当なタイミングで選定指示を色変換
テーブル作成装置１３に与えることにより、代表画像が
特定されることになる。そして、色変換テーブル作成装
置１３は、オペレータによって選定された代表画像の画
像データを、画像記憶装置２から読み取る。その後、色
変換テーブル作成装置１３は、色変換テーブルの設定処
理を行う（ステップＳ４〜Ｓ１１）。以下、このステッ
プＳ４〜Ｓ１１の処理について詳細に説明する。

【００３５】色変換テーブル作成装置１３は、図６に示
すような色変換テーブル１３１を３チャネル分内蔵して
いる。この色変換テーブル１３１には、ＲＧＢ色空間内
の全ての色位置に対応して変換値が設定される。ここ
で、本実施形態は、ＲＧＢそれぞれを８ビット（０〜２
５５）で表現しているため、色変換テーブル１３１は、
１６７７７２１６（＝２５６×２５６×２５６）色のそ
れぞれに対応する変換値を有していれば良いことにな
る。しかしながら、このような構成ではデータ量が膨大
になるため、実際は、ＲＧＢ色空間を粗く区切ったいく
つかのメッシュに分割し、メッシュ単位で変換値を持つ
ことになる。変換値は、０〜２５５のいずれかである。
すなわち、色変換テーブル１３１は、入力信号としてど
のようなＲＧＢ値が与えられたとしても、当該ＲＧＢ値
を０〜２５５のいずれかの値に変換する。すなわち、色
変換テーブル１３１は、オペレータによって指定される
特定の色のみを、第１〜第３チャネルに出力させるため
に用いられる。

【００３６】以下には、目や頭髪などの黒色に近い色を
第１チャネルに出力し、顔や手などの肌色を第２チャネ
ルに出力し、服装などのように体全体を占める色を第３
チャネルに出力することとして説明を行う。通常のテレ
ビカメラではＲＧＢ信号を出力するが、ここでは第１チ
ャネルをＲ信号に第２チャネルをＧ信号に第３チャネル
をＢ信号に対応させることとして説明を行う。実際に
は、第１チャネルをＧ，Ｂ信号に対応させることも可能
である。

【００３７】まず、オペレータは、出力チャネルとして
第１チャネルを指定する。その後、オペレータは、第１
チャネルに取り出したい色を指定する（ステップＳ
４）。この場合、オペレータは、図示しない表示装置に
表示されている代表画像（図５）の中の頭髪の部分ａ、
目の部分ｂを、マウス等のポインティングデバイスを用
いて指定する。このように、オペレータが指定する箇所
は、１箇所とは限らず、複数箇所であっても良い。応じ
て、色変換テーブル作成装置１３は、指定された部分
ａ，ｂの色を表すＲＧＢ値を、第１チャネルに取り出し
たい色と判断し、第１チャネル用の色変換テーブル１３
１（図６参照）の対応の色空間領域に最大値“２５５”
を設定する。なお、このとき取得する色情報に関して
は、ＨＳＩ系，ＹＵＶ，ＹＩＱのいずれであっても良
い。次に、オペレータは、第１チャネルに出力させたく
ない色を指定する（ステップＳ５）。この場合、オペレ
ータは、代表画像（図５）の中の服の部分ｃ，ｅ、顔の
部分ｄを、マウス等を用いて指定する。このときもオペ
レータは、複数箇所を指定可能である。応じて、色変換
テーブル作成装置１３は、指定された部分ｃ，ｄ，ｅの
色を表すＲＧＢ値を、第１チャネルに出力させたくない
色と判断し、第１チャネル用の色変換テーブル１３１内
の対応する色空間領域に最小値“０”を設定する。次
に、色変換テーブル作成装置１３は、そのとき指定され
ている出力チャネルが第１チャネルであることを判断し
（ステップＳ６）、ステップＳ４で指定された色とステ
ップＳ５で指定された色との間で所定の補間演算を行う
ことにより、ステップＳ４およびＳ５で指定されていな
い色についての変換値を計算し、計算で求めたそれぞれ
の変換値を第１チャネル用の色変換テーブル１３１内の
対応する色空間領域に設定する（ステップＳ７）。

【００３８】ここで、上記ステップＳ７で行われる所定
の補間演算としては、例えば、１９９５年テレビジョン
学会年次大会「色空間の変形を用いた色彩調整方式」池
田淳他に記載された、色空間の変形演算を用いることが
できる。以下、この変形演算について説明する。

【００３９】今、ｉ＝１，２，…ｎとし、ＲＧＢ座標系
における色彩調整前の指定色を、Ｓｉ＝（ｒｉ，ｇｉ，ｂｉ）とし、第１チャネルの抽出したい色に関しては調整後の
色を、Ｓｉ₀ ’＝（２５５，０，０）とし、第１チャネルの抽出したくない色に関しては調整
後の色を、Ｓｉ₁ ’＝（０，０，０）とし、調整量をＭｉとすると、次式（１）が成り立つ。Ｍｉ＝Ｓｉ’−Ｓｉ＝Ｓ’（Ｓｉ）−Ｓｉ＝Ｍ（Ｓｉ） …（１）

【００４０】上式（１）を境界条件として、指定点Ｓｉ
からの距離を用いた以下の関数式（２）を解くことで、
任意の色Ｓ＝（ｒ，ｇ，ｂ）に対する調整後の色Ｓ’＝
（ａ，０，０）［ａ＝０〜２５５］を決定する。Ｍ（Ｓ）＝ｆ（｜Ｓ−Ｓｉ｜，…｜Ｓ−Ｓｎ｜） …（２）

【００４１】上式（２）を解く方法については、様々な
方法が考えられる。例えば、任意の色と抽出したい色と
の最小距離を、Ｓｉ₀ ＝ｍｉｎ（｜Ｓｉ₀ ’−Ｓ｜）とし、任意の色と抽出したくない色との最小距離を、Ｓｉ₁ ＝ｍｉｎ（｜Ｓｉ₁ ’−Ｓ｜）としたときに、調整後の色Ｓ’＝（Ａ，０，０）は、次
式（３）のように求めることができる。ただし、Ａ＝０
〜２５５である。Ａ＝（２５５×Ｓｉ₁ ）／（Ｓｉ₀ −Ｓｉ₁ ） …（３）なお、上式（３）は、線形補間によって式（２）を解く
方法であるが、非線形補間によって式（２）を解くこと
も可能である。

【００４２】次に、オペレータは、出力チャネルとして
第２チャネルを指定し、第２チャネルに取り出したい色
と出力させたくない色とを指定する（ステップＳ４およ
びＳ５）。この場合、オペレータは、第２チャネルに取
り出したい色として、選択された代表画像（図５）の中
の顔の部分ｄをマウス等を用いて指定する。また、オペ
レータは、第２チャネルに出力させたくない色として、
顔以外の部分をマウス等を用いて指定する。応じて、色
変換テーブル作成装置１３は、第２チャネル用の色変換
テーブル１３１（図６参照）の対応の色空間領域に、最
大値“２５５”および最小値“０”を設定する。次に、
色変換テーブル作成装置１３は、そのとき指定されてい
る出力チャネルが第２チャネルであることを判断し（ス
テップＳ８）、ステップＳ４で指定された色とステップ
Ｓ５で指定された色との間で所定の補間演算を行うこと
により、ステップＳ４およびＳ５で指定されていない色
についての変換値を計算し、計算で求めたそれぞれの変
換値を第２チャネル用の色変換テーブル１３１の対応す
る色空間領域に設定する（ステップＳ９）。

【００４３】次に、オペレータは、出力チャネルとして
第３チャネルを指定し、第３チャネルに取り出したい色
と出力させたくない色とを指定する（ステップＳ４およ
びＳ５）。この場合、オペレータは、第３チャネルに取
り出したい色として、代表画像（図５）の中の服の部分
ｃ，ｅをマウス等を用いて指定する。また、オペレータ
は、第３チャネルに出力させたくない色として、服以外
の部分（例えば、背景の部分）をマウス等を用いて指定
する。応じて、色変換テーブル作成装置１３は、第３チ
ャネル用の色変換テーブル１３１（図６参照）の対応の
色空間領域に、最大値“２５５”および最小値“０”を
設定する。次に、色変換テーブル作成装置１３は、その
とき指定されている出力チャネルが第３チャネルである
ことを判断し（ステップＳ８）、ステップＳ４で指定さ
れた色とステップＳ５で指定された色との間で所定の補
間演算を行うことにより、ステップＳ４およびＳ５で指
定されていない色についての変換値を計算し、計算で求
めたそれぞれの値を第３チャネル用の色変換テーブル１
３１の対応する色空間領域に設定する（ステップＳ１
０）。最後に、色変換テーブル作成装置１３は、テーブ
ル設定フラグをセットし（ステップＳ１１）、色変換テ
ーブル１３１の設定処理を終了する。

【００４４】次に、特徴画像抽出装置３は、画像記憶装
置２から読み出した立体画像データに含まれる各画素
を、色変換テーブル作成装置１３によって作成された３
つの色変換テーブル１３１を用いて変換する。さらに、
特徴画像抽出装置３は、変換値が予め定めた閾値以上に
達するもののみを出力する。これによって、そのときの
利用者の人体的特徴を示す立体的な特徴画像（図７参
照）が、第１〜第３チャネルに分解して出力される（ス
テップＳ１２）。図７（ａ）は、第１チャネルに出力さ
れる特徴画像を示しており、ブロブ（１つの塊として把
握される画像）として、頭髪に対応するブロブ７１と、
眉毛に対応するブロブ７２および７３と、目に対応する
ブロブ７４および７５とを含んでいる。図７（ｂ）は、
第２チャネルに出力される特徴画像を示しており、顔に
対応するブロブ７６と、手に対応するブロブ７７および
７８とを含んでいる。図７（ｃ）は、第３チャネルに出
力される特徴画像であり、体全体の輪郭に対応するブロ
ブ７９を含んでいる。

【００４５】次に、空間位置計算装置４は、図７
（ａ）、（ｂ）、（ｃ）に示した第１〜第３チャネルの
各特徴画像に含まれるブロブの画像上での重心位置を求
める（ステップＳ１３）。ここで、図８を参照して、右
手に相当するブロブの重心位置の求め方について説明す
る。まず、対象となるブロブの外接矩形を求め、この外
接矩形において対角する頂点α，βの座標を、それぞ
れ、（Ｘ_st，Ｙ_st），（Ｘ_end，Ｙ_end ）とする。な
お、座標原点は、図７に示すように、画像の左上にある
ものとする。今、図８のブロブの画像上での重心Ｇの座
標を（Ｘ_g ，Ｙ_g ）とすると、Ｘ_g およびＹ_g は、それ
ぞれ次式（４）および（５）によって求められる。Ｘ_g ＝（Ｘ_st＋Ｙ_end ）／２ …（４）Ｙ_g ＝（Ｙ_st＋Ｙ_end ）／２ …（５）なお、他のブロブについても上記と同様の方法で重心位
置が求められる。

【００４６】次に、空間位置計算装置４は、第１〜第３
チャネルにおける各ブロブの３次元空間位置を計算する
（ステップＳ１４）。今、左右で対応するブロブであっ
て、撮影装置１内の右カメラで撮影されたブロブの重心
位置をＧ_R ＝（Ｘ_gR，Ｙ_gR）とし、左カメラで撮影され
たブロブの重心位置をＧ_L ＝（Ｘ_gL，Ｙ_gL）とすると、
空間位置計算装置４は、次式（６）〜（８）を用いて当
該ブロブの３次元空間位置（Ｘｗ，Ｙｗ，Ｚｗ）を計算
する。Ｘｗ＝｛（Ｘ_gL＋Ｘ_gR）／２｝×｛ｄ／（Ｘ_gL−Ｘ_gR）｝ …（６）Ｙｗ＝｛ｄ／（Ｘ_gL−Ｘ_gR）｝×Ｙ_gL …（７）Ｚｗ＝ｆ×｛ｄ／（Ｘ_gL−Ｘ_gR）｝ …（８）ただし、上式（６）〜（８）において、ｄは左右のカメ
ラ間の距離を示し、ｆは焦点距離を示す。上式（６）〜
（８）から分かるように、空間位置計算装置４は、特徴
画像抽出装置３から出力される特徴画像が有する視差を
利用して、各ブロブの３次元空間位置を計算している。
空間位置計算装置４は、上記ステップＳ１４で計算した
ブロブの３次元空間位置を、図９に示すような３次元空
間位置テーブルに登録する。

【００４７】なお、上記では、左右のカメラが水平に置
かれた状態で撮影を行った場合の計算方法について示し
たが、左右のカメラの設置位置は任意で良く、左右のカ
メラの設置位置関係に応じて、上式（６）〜（８）は変
更される。

【００４８】次に、領域分割装置５は、図７（ｃ）に示
す第３チャネルの特徴画像から、図１０に示すような体
の外形線を抽出する（ステップＳ１５）。次に、領域分
割装置５は、抽出した外形線から人体的特徴を表す代表
線（図１１参照）を検出する（ステップＳ１６）。図１
１において、線ＨＵＬは、Ｘ軸に平行でかつ人物の外形
線の最上端と接する線であって、体の頭頂部を表してい
る。また、線ＦＲＬおよびＦＬＬは、それぞれ、Ｙ軸に
平行でかつ人物の外形線の上部（上１／３の部分）にお
ける右端および左端と接する線であって、顔の右側およ
び左側を表している。ここで、線ＦＲＬを垂直に延ば
し、外形線と交わった点をｆｒｌｐ（Ｘｆ，Ｙｆ）とす
る。また、画像の左側から探索を行い、最初に外形線と
交わる点をｔｅｍｐｐ（Ｘｔ，Ｙｔ）とする。そして、
点ｆｒｌｐから点ｔｅｍｐｐ迄、外形線を探索し、曲率
が最大の点を右肩を表す点ｓｈｐとする。線ＳＵＬは、
Ｘ軸に平行でかつ点ｓｈｐを通る線である。また、線Ｓ
ＨＲＬは、Ｙ軸に平行でかつ点ｓｈｐを通る線である。
また、線ＭＣＬは、Ｙ軸に平行で、かつ線ＦＲＬと線Ｆ
ＬＬとの間の１／２の位置にある線であり、体の中心軸
を表している。また、線ＳＨＬＬは、線ＭＣＬを中心と
して線ＳＨＲＬに対称な線である。また、線ＥＲＬは、
線ＳＨＲＬを中心として線ＭＣＬと対称な線である。ま
た、線ＥＬＬは、線ＭＣＬを中心として線ＥＲＬと対称
な線である。また、線ＮＥＬは、Ｘ軸に平行で、かつ線
ＳＵＬと線ＨＵＬとの間の３／４の位置にある線であ
る。また、線ＢＭＬは、Ｘ軸に平行でありかつ線ＳＵＬ
と画像の下端部と間の１／２の位置にある線である。

【００４９】次に、領域分割装置５は、代表線同士の交
点０〜２１を求める（図１２参照）。次に、領域分割装
置５は、右カメラからの画像と左カメラからの画像との
間で同じ交点番号を有する点を左右の対応点とし、空間
位置計算装置４の場合と同様に視差を利用して、各交点
０〜２１についての３次元空間位置を計算する（ステッ
プＳ１７）。例えば、交点番号０について考えてみる
と、右カメラからの画像上での座標値を（Ｘ_R0，
Ｙ_R0）、左カメラからの画像上での座標値を（Ｘ_L0，Ｙ
_L0）とすると、領域分割装置５は、当該座標値を前述の
式（６）〜（８）に代入することにより、その３次元空
間位置を計算する。他の交点についても上記と同様にそ
の３次元空間位置が計算される。次に、領域分割装置５
は、上記ステップＳ１７の計算結果に基づいて、図１３
に示すような第１ワールドの空間領域コード（０〜２
４）を定義する。また、領域分割装置５は、第１ワール
ドから線ＭＣＬと線ＳＨＲＬとの間の距離だけ人物より
も前方までの領域を、第２ワールドの空間領域コード
（２５〜４９）と定義し、さらに前方にある領域を第３
ワールドの空間領域コード（５０〜７４）と定義する。
図１４は、領域分割装置５によって定義される第１〜第
３ワールドの位置関係を視覚的に示している。次に、領
域分割装置５は、定義したそれぞれの空間領域コードお
よびそれらを規定するための各交点の３次元座標値を、
空間領域コードテーブル（図示せず）に格納する（ステ
ップＳ１８）。このことにより、利用者自身の各部位
（顔、首、胸、腹、顔の横等）に応じた領域の分割が可
能となり、空間領域コードが利用者自身の各部位との対
応付けを示すことになる。

【００５０】ここで、領域分割装置５は、より好ましく
は、空間位置計算装置４から頭髪および目に相当するブ
ロブの３次元空間位置を入力し、これら頭髪および目の
位置関係から顔を構成する他の要素（鼻、口、耳など）
の位置を推定し、推定した他の要素の位置に基づいて、
空間領域（すなわち、図１３の空間領域コード（１１）
に相当する空間領域）をより細かく分割するようにして
も良い。この場合、領域分割装置５は、頭髪および目に
対する鼻、口、耳などの一般的な位置関係を予め登録し
ており、頭髪および目に相当するブロブの３次元空間位
置が入力されたとき、予め登録された鼻、口、耳などの
位置関係に基づいて、鼻、口、耳などがそのとき３次元
空間上で占めるおおよそ位置を推定する。そして、領域
分割装置５は、推定した鼻、口、耳などの３次元空間上
での位置に基づいて、より細かく空間を分割すると共
に、それらを規定するための空間領域コードを定義す
る。

【００５１】また、領域分割装置５は、あるチャネル
（例えば、第３チャネル）において、時間的に隣接する
画像の差分値を計算し、当該差分値が予め定めた閾値以
上になった場合にのみ、ステップＳ１８に示す空間領域
コードを作成するようにしても良い。この場合、利用者
が大きく動いたときにのみ空間領域コードが作成される
ことになるので、領域分割装置５の計算負荷が軽減され
る。また、領域分割装置５は、図１５に示すように、第
１ワールド、第２ワールド、第３ワールドと行くに従っ
て、すなわち利用者よりも前方のワールドに行くに従っ
て、空間領域コードを荒く定義するようにしても良い。

【００５２】次に、手動作検出装置６は、第２チャネル
で求めたブロブの中で手の大きさに該当するブロブを手
であると特定し、図９の３次元空間位置テーブルに登録
されている対応するブロブの３次元空間位置が、ステッ
プＳ１８で作成した空間領域コード（図１３参照）の
内、どの空間領域コードに属しているかを判定する（ス
テップＳ１９）。このときの判定結果は、図１６に示す
ような領域遷移テーブルに登録される。なお、図１６の
領域遷移テーブルは、一例として、「葉書」を意味する
手話動作を行なった場合の登録データを格納している。
ここで、第２チャネルにおけるあるブロブの面積をＬ
ａ、面積の最小閾値をＴＨ_SM、最大閾値をＴＨ_BGとする
と、手動作検出装置６は、次式（９）の条件を満たすブ
ロブを手であると判定し、次式（１０）の条件を満たす
ブロブを手以外のブロブであると判定する。Ｌａ＞ＴＨ_SM でかつＬａ＜ＴＨ_BG …（９）Ｌａ＜ＴＨ_SM でかつＬａ＞ＴＨ_BG …（１０）上式（９）および（１０）によって、図７（ｂ）に示す
ブロブ７７および７８が手に対応するブロブであると判
定され、さらに右手、左手が特定される。

【００５３】次に、手動作検出装置６は、手に相当する
ブロブの動きが予め定める一定時間以上停止したか否か
を判断する（ステップＳ２０）。当該ブロブの動きが継
続している場合、ステップＳ１２〜Ｓ１９の動作が繰り
返される。これによって、図１６に示す領域遷移テーブ
ルに、当該ブロブが属する空間領域コードが時系列的に
登録されていく。従って、領域遷移テーブルを見れば、
手が利用者の体に対してどのように動いていくかが分か
る。

【００５４】一方、手に相当するブロブの動きが予め定
める一定時間以上停止した場合、すなわち一単語に相当
する手話動作が終了した場合、手動作検出装置６は、領
域遷移テーブル（図１６参照）に登録された空間領域コ
ードを解析し、そのときの手の動きを構成要素に分解す
ると共に、その特徴を検出する（ステップＳ２１）。図
１６の領域遷移テーブルに格納された空間領域コードか
らは、以下のような特徴が検出される。右手の特徴「動きコード」右→下→左「動作開始位置コード」３６「動作終了位置コード」３８「両手の位置関係」体に対して線対称「指示特定部位」 × 「手形状」Ｎｏ．４左手の特徴「動きコード」左→右下→右「動作開始位置コード」３６「動作終了位置コード」１３「両手の位置関係」体に対して線対称「指示特定部位」 × 「手形状」Ｎｏ．４ここで、「指示特定部位」とは、一連の動きの中で手が
指示した体の特定の部位を示すものである。なお、×は
いずれの部位も指示していないことを表している。ま
た、「手形状」とは、予め定められた複数の手形状のパ
ターンの内、いずれの形状に類似しているかを示すもの
である。図１７は、予め定められた手形状の一例を示し
ている。図１７（ａ）は、「ひ」に対応する手形状であ
り、その形状番号はＮｏ．４である。また、図１７
（ｂ）は、「て」に対応する手形状であり、その形状番
号はＮｏ．２である。

【００５５】ここで、図１８に示すフローチャートおよ
び図１９に示す手の移動軌跡を参照して、上記ステップ
Ｓ２１で実行される動きコードの検出動作についてより
詳細に説明する。

【００５６】今、図１９（ａ）に示すように、動作の開
始点をＳＴ（ｘｓ，ｙｓ，ｚｓ）、動作の終了点をＥＮ
Ｄ（ｘｅ，ｙｅ，ｚｅ）とする。手動作検出装置６は、
まず、開始点ＳＴと終了点ＥＮＤとを結んだ直線Ｌ１を
求める（ステップＳ１０１）。次に、手動作検出装置６
は、各サンプリング点ｎ１〜ｎ９から直線Ｌ１に降ろし
た垂線を求め、各垂線の長さｄ１〜ｄ９をそれぞれ求め
る（ステップＳ１０２）。図２０に示す一般化されたモ
デルを参照すると、任意のサンプリング点ｎから直線Ｌ
に降ろした垂線ｄの長さは、次式（１１）で求められ
る。ただし、次式（１１）において、変数ｔは、次式
（１２）で与えられる。

【数１】従って、上記ステップＳ１０２では、上式（１１）を用
いて各サンプリング点ｎ１〜ｎ９から直線Ｌ１に降ろし
た垂線の長さを求めることになる。

【００５７】次に、手動作検出装置６は、垂線の長さが
最大となるサンプリング点を制御候補点とする（ステッ
プＳ１０３）。ここでは、サンプリング点ｎ３が直線Ｌ
１に対して最大距離ｄ３を持ち、制御候補点となる。次
に、手動作検出装置６は、最大距離ｄ３が予め定める閾
値ＴＨＣ以上であるか否かを判断する（ステップＳ１０
４）。最大距離ｄ３が予め定める閾値ＴＨＣ以上の値で
あるとき、手動作検出装置６は、この点ｎ３を制御点と
定義する（ステップＳ１０５）。ここでは、最大距離ｄ
３が閾値ＴＨＣ以上のため、サンプリング点ｎ３を制御
点ｃ１と定義する。

【００５８】次に、手動作検出装置６は、開始点ＳＴと
終了点ＥＮＤとの間で新たな制御点を検出する（ステッ
プＳ１０６）。この新たな制御点の検出動作は、開始点
ＳＴと終了点ＥＮＤとの間に新たな制御点が検出されな
くなるまで（ステップＳ１０７）、繰り返し続けられ
る。

【００５９】すなわち、手動作検出装置は、図１９
（ｂ）に示すように、開始点ＳＴと制御点ｃ１とを結ん
だ直線Ｌ２、および制御点ｃ１と終了点ＥＮＤとを結ん
だ直線Ｌ３を求め、開始点ＳＴと制御点ｃ１との間に存
在する各サンプリング点ｎ１〜ｎ２と直線Ｌ２との距
離、制御点ｃ１と終了点ＥＮＤとの間に存在するサンプ
リング点ｎ４〜ｎ９と直線Ｌ３との距離を、それぞれ前
述の式（１１）を用いて計算する。開始点ＳＴと制御点
ｃ１と間では、サンプリング点ｎ２が直線Ｌ２に対して
最大距離ｄ２を持ち制御候補点となる。しかし、この距
離ｄ２が閾値ＴＨＣより小さいため、サンプリング点ｎ
２は制御点として定義されない。ゆえに、開始点ＳＴと
制御点ｃ１との間には、制御点は存在しない。一方、制
御点ｃ１と終了点ＥＮＤとの間では、サンプリング点ｎ
８が直線Ｌ３に対して最大距離ｄ８を持ち制御候補点と
なる。そして、この距離ｄ８が閾値ＴＨＣ以上の値であ
るため、サンプリング点ｎ８が制御点ｃ２と定義され
る。

【００６０】次に、手動作検出装置６は、図１９（ｃ）
に示すように、制御点ｃ１と制御点ｃ２とを結んだ直線
Ｌ４を求め、その間に存在する各サンプリング点ｎ４〜
ｎ７と直線Ｌ４との距離を、前述の式（１１）を用い計
算する。ここでは、サンプリング点ｎ７が最大距離ｄ７
を持ち制御候補点となる。しかし、距離ｄ７が閾値ＴＨ
Ｃより短いため、サンプリング点ｎ７は制御点として定
義されない。ゆえに、制御点ｃ１と制御点ｃ２との間に
は、制御点は存在しない。また、手動作検出装置６は、
図１９（ｃ）に示すように、制御点ｃ２と終了点ＥＮＤ
とを結んだ直線をＬ５を求め、その間に存在するサンプ
リング点ｎ９と直線Ｌ５との距離ｄ９を、前述の式（１
１）を用いて計算する。このとき、サンプリング点ｎ９
は制御候補点となるが、当該距離ｄ９が閾値ＴＨＣより
短いため、制御点としては定義されない。ゆえに、制御
点ｃ２と終了点ＥＮＤとの間には制御点が存在しない。
つまり、開始点ＳＴから終了点ＥＮＤに至る手の動きの
中で、制御点は制御点ｃ１，ｃ２の２つである。

【００６１】次に、手動作検出装置６は、開始点、制御
点、終了点を用いて動きコードを作成する（ステップＳ
１０８）。すなわち、図１９に示される手の軌跡の場合
は、ＳＴ→ｃ１，ｃ１→ｃ２，ｃ２→ＥＮＤの動きに分
解することができ、図２１に示された動きコードの一覧
テーブル（手動作検出装置６内に格納されている）を参
照すると、ＳＴ→ｃ１は［１．右］に、ｃ１→ｃ２は
［４．下］に、ｃ２→ＥＮＤは［２．左］に、それぞれ
対応することになる。従って、このときの動きコード
は、「右→下→左」となる。

【００６２】次に、カテゴリ検出装置８は、上記ステッ
プＳ１９において手動作検出装置６が検出した手話動作
の特徴が、カテゴリ辞書１０内に登録されているカテゴ
リの内、どのカテゴリに属するかを判定する（ステップ
Ｓ２２）。ここで、カテゴリとは、動作が類似する複数
の手話動作を集めたグループであり、本装置で認識の対
象となる複数の手話動作は、予め複数のカテゴリに分類
されている。カテゴリ辞書１０には、各カテゴリにおけ
る手動作の特徴が予め登録されている。本実施形態で
は、カテゴリ辞書１０には、一例として、カテゴリ１〜
７の特徴が登録されているものとする。カテゴリ１は、
最初は両手が接近し、それぞれが左右対称な動きをする
手動作である。カテゴリ２は、両手が一定以上の間隔を
保ちつつそれぞれが独自の動きをする手動作である。カ
テゴリ３は、両手が接触もしくは連結し、それぞれが同
じ動きをする手動作である。カテゴリ４は、一方の手が
静止し、他方の手が一方の手の一定領域内で動く手動作
である。カテゴリ５は、一方の手が停止し、他方の手が
一定領域以上の間隔の場所から、停止している手に接近
して接触する手動作である。カテゴリ６は、両手で行う
上記以外の手動作である。カテゴリ７は、片手のみを使
用する手動作である。

【００６３】ここで、図１６の領域遷移テーブルに登録
された空間領域コードの変化および３次元座標位置を解
析すると、最初は両手が接触し、その後は両手が体に垂
直な中心線を中心としてほぼ左右対称に動き、最終的に
は両手が再び接近していることが分かる。このような動
作は、カテゴリ辞書１０内に登録されたカテゴリ１の特
徴に合致する。

【００６４】単語辞書１１には、各カテゴリに属する手
話単語のさらに詳しい動作的特徴が、各カテゴリ別に格
納されている。図２２は、カテゴリ１に属する手話単語
の一例を示している。なお、上記の条件を満たす手話単
語は、図２２に示した以外にもあるが、ここでは説明の
簡素化のため、同様な条件を満たす３つの手話単語、す
なわち「葉書」「全部」「ほとんど」がカテゴリ１に属
しているものとする。図２３に示すように、単語辞書１
１には、カテゴリ１に属する３つの手話単語についての
動作的特徴を示す情報が登録されている。すなわち、単
語辞書１１には、「動きコード」「動作開始位置コー
ド」「動作終了位置コード」「指示特定部位」「両手の
位置関係」「手形状」などの情報が登録されている。

【００６５】単語認識装置９は、カテゴリ検出装置８が
検出したカテゴリに属する手話単語の動作的特徴情報
を、単語辞書１１から読み出す（ステップＳ２３）。次
に、単語認識装置９は、ステップＳ２１で検出された手
話動作の特徴と、ステップＳ２３で読み出した手話単語
の特徴情報とを比較し、各手話単語について一致度を計
算する（ステップＳ２４）。

【００６６】このとき、「動作開始位置コード」および
「動作終了位置コード」については、図２４に示すよう
に、ステップＳ１９で検出された空間位置コードと単語
辞書１１に登録されている空間領域コードとが完全に一
致する場合は類似度が１００％となり、３次元的に近接
する場合は、その近接度に応じた類似度が与えられる。
例えば、図１６に示すように、ステップＳ１９で検出さ
れた左手の動作終了位置コードは“１３”であるが、図
２３に示す「葉書」についての左手の動作終了位置コー
ドは“３８”である。この場合、図２４に示すように、
空間位置コード“３８”に対する空間位置コード“１
３”の類似度は、８９％となる。なお、図２４に示した
類似度は、一例に過ぎず、任意に変更が可能なことを指
摘しておく。また、図２４に示されていない空間位置コ
ード、すなわち空間位置コード“３８”に対して空間的
に離れている空間位置コードについては、より低い類似
度（例えば、２０％の類似度）が与えられる。

【００６７】また、「動きコード」については、単語辞
書１１に登録されている動きコードを基準動きコードと
した場合、当該基準動きコードを中心軸とした四角錐の
稜線（四角錐の側面において、平面が交差して生じる
線）に相当する４つの動きコードが、当該基準動きコー
ドの近傍コードとみなされる。そして、これら４つの近
傍コードに対して所定の類似度（例えば、９０％の類似
度）が与えられている。その他の動きコードについて
は、より低い類似度（例えば、２０％の類似度）が与え
られる。図２５は、基準動きコードに対する近傍コード
のリストを格納した動き近傍コードテーブルの一部を示
している。また、図２６に、下方向への基準動きコード
（実線で示している）に対する４つの近傍コード（点線
で示している）を視覚的に示しておく。単語認識装置９
は、図２５の近傍コードテーブルを参照することによ
り、実際に検出された動きコードが単語辞書１１に登録
されている基準動きコードの近傍コードであるか否かを
判断する。

【００６８】空間領域コードが図１６に示すような状態
で遷移した場合であって、前述のステップＳ１８で手動
作検出装置６が行った解析結果を、単語辞書１１に登録
されている手話単語「葉書」の特徴と比較すると、左手
の「動作終了位置コード」が「１３」である点および左
手の２番目の「動きコード」が「右下」である点以外
は、全て手話単語「葉書」の特徴と一致している。その
ため、この場合の類似度は、８０．１％（＝８９％×９
０％）となる。この類似度は、カテゴリ１に属する他の
手話単語「全部」「ほとんど」についての類似度よりも
高い。そのため、単語認識装置９は、検出した手話動作
が「葉書」であると特定する（ステップ２５）。なお、
他の手話単語に対する類似度のほうが高い場合は、最も
類似度の高い手話単語を認識結果とする。

【００６９】次に、出力装置１２は、単語認識装置９で
特定された手話単語「葉書」を、音声、文字、画像のい
ずれかもしくは任意の組み合わせで出力する（ステップ
Ｓ２６）。これによって、オペレータは、認識結果を知
ることができる。

【００７０】次に、特徴画像抽出装置３は、オペレータ
から認識動作を終了する旨の指示があったか否かを判断
し（ステップＳ２７）、指示がない場合は、再びステッ
プＳ１２の動作を行う。以後、ステップＳ１３〜Ｓ２６
の動作が繰り返される。一方、オペレータからの終了指
示があった場合、色変換テーブル作成装置１３は、テー
ブル設定フラグをリセットする（ステップＳ２８）。そ
の後、図１に示す手話認識装置は、動作を終了する。

【００７１】なお、上記第１の実施形態において、単語
認識装置９は、最も一致度の高い手話単語を認識結果と
して出力するが、これに代えて予め定めた閾値以上の類
似度を有する１または複数の手話単語を認識結果として
出力するようにしても良い。

【００７２】（第２の実施形態）上記第１の実施形態で
は、手動作の動きコードを一義的に検出するようにして
いるが、この動きコードを階層的に検出し、この階層的
に検出された動きコードに基づいて、手話単語の認識を
階層的に行うような他の実施形態を、第２の実施形態と
して以下に説明する。

【００７３】図２７は、本発明の第２の実施形態に係る
手話認識装置の構成を示すブロック図である。なお、本
実施形態の構成および動作は、以下の点を除いて図１に
示す第１の実施形態と同様であり、相当する部分には同
一の参照番号を付し、その説明を省略する。

【００７４】図２８は、第２の実施形態において、手動
作検出装置６０で実行される動きコード検出動作を示し
たフローチャートである。ここでは、一例として、図２
９および図３０に示す手の軌跡に基づいて、手動作検出
装置６０による動きコード検出動作を説明する。

【００７５】最初に、手動作検出装置６０は、低分解能
閾値ＴＨＣ１に基づいて、動きコードを検出する（ステ
ップＳ２０１）。このとき、手動作検出装置６０は、図
１８に示したアルゴリズムを用いて動きコードを検出す
る。すなわち、手動作検出装置６０は、図２９（ａ）に
示すように、開始点ＳＴと終了点ＥＮＤとを結ぶ直線Ｌ
１を求め、この直線Ｌ１と各サンプリング点ｎ１〜ｎ４
との間の距離ｄ１〜ｄ４を、前述の式（１１）を用いて
計算する。ここでは、直線Ｌ１に対して最大距離ｄ３を
有するサンプリング点ｎ３を制御候補点とする。次に、
手動作検出装置６０は、最大距離ｄ３と低分解能閾値Ｔ
ＨＣ１とを比較する。ここでは、最大距離ｄ３よりも低
分解能閾値ＴＨＣ１の方が大きいため、サンプリング点
ｎ３は制御点とならない。従って、図２９（ｂ）に示す
ように、低分解能閾値ＴＨＣ１を用いたときに制御点は
存在しないことになる。

【００７６】次に、手動作検出装置６０は、低分解能閾
値ＴＨＣ１を用いて検出した図２９（ｂ）で示される手
の軌跡を、ＳＴ→ＥＮＤとして表し、図２１の動きコー
ドの一覧テーブルから、動きコードを「下」と定義す
る。

【００７７】次に、手動作検出装置６０は、高分解能閾
値ＴＨＣ２に基づいて、動きコードを検出する（ステッ
プＳ２０２）。このとき、手動作検出装置６０は、図１
８に示したアルゴリズムを用いて動きコードを検出す
る。なお、高分解能閾値ＴＨＣ２の値は、低分解能閾値
ＴＨＣ１の値よりも小さく選ばれている。すなわち、手
動作検出装置６０は、図３０（ａ）に示すように、開始
点ＳＴと終了点ＥＮＤとを結ぶ直線Ｌ１を求め、この直
線Ｌ１と各サンプリング点ｎ１〜ｎ４との間の距離ｄ１
〜ｄ４を、前述の式（１１）を用いて計算する。このと
き、最大距離ｄ３は距離閾値ＴＨＣ２よりも大きいた
め、サンプリング点ｎ３は制御点ｃ１として検出され
る。同様に、手動作検出装置６０は、図３０（ｂ）に示
すように、開始点ＳＴと制御点ｃ１との間で、さらに制
御点ｃ１と終了点ＥＮＤとの間で新たな制御点を検出す
る。ここでは、図３０（ｃ）に示すように、開始点ＳＴ
と制御点ｃ１との間で新たな制御点ｃ２が検出されてい
る。従って、高解像度閾値ＴＨＣ２を用いた場合、制御
点は、ｃ１，ｃ２の２つになる。

【００７８】次に、手動作検出装置６０は、高解像度閾
値ＴＨＣ２を用いて検出した図３０（ｃ）で示される手
の軌跡を、ＳＴ→ｃ２，ｃ２→ｃ１，ｃ１→ＥＮＤとし
て表し、図２１の動きコードの一覧テーブルから、動き
コードを「右下→左下→右下」と定義する。

【００７９】次に、カテゴリ検出装置８０は、低解像度
閾値ＴＨＣ１を用いて検出した動きコード「下」を用い
て、対応するカテゴリを選択する。ここでは、図３１の
「書く」、「さわやか」の両方が認識対象候補として選
択される。

【００８０】次に、単語認識装置９０は、高解像度閾値
ＴＨＣ２を用いて検出した動きコード「右下→左下→右
下」を用いて、対応する単語を選択する。ここでは、図
３１の手動作「書く」という単語が選択される。

【００８１】このように、動き検出の解像度が異なる複
数の閾値を持つことにより、最初に大きな動きについて
絞り込みをおこない、後に詳細な動きによって動作を特
定することができる。

【００８２】なお、ＴＨＣ１＞ＴＨＣ２の関係が成り立
てば、低解像度閾値ＴＨＣ１と高解像度閾値ＴＨＣ２
は、任意の値に選ぶことが可能であり、さらには閾値を
３つ以上持つことも可能である。

【００８３】（第３の実施形態）図３２は、本発明の第
３の実施形態に係る手話認識装置の構成を示すブロック
図である。図３２において、本実施形態の手話認識装置
は、撮影装置１と画像記憶装置２との間に動作開始通知
装置１４が追加されている。その他の構成は、図１に示
す第１の実施形態と同様であり、相当する部分には同一
の参照番号を付し、その説明を省略する。この動作開始
通知装置１４は、通常は撮影装置１から出力される画像
フレームをゲートしており、画像記憶装置２に対する画
像フレームの供給を禁止している。オペレータによって
認識動作の開始指示が与えられると、動作開始通知装置
１４は、光，音声または映像等によって、認識動作を開
始するタイミングを利用者に知らしめる。これによっ
て、利用者は、適切なタイミングで手話動作を開始する
ことができる。また、動作開始通知装置１４は、オペレ
ータからの上記開始指示に応答して、撮影装置１から出
力される画像フレームを画像記憶装置２に供給する。こ
れによって、画像記憶装置２に画像フレームが蓄積さ
れ、手話動作の認識処理が開始する。

【００８４】以上説明した各実施形態は、機能ブロック
図の形態で説明されているが、図３３に示すように、上
記各実施形態をコンピュータ装置を用いたソフト制御に
よって実現することもできる。図３３において、本コン
ピュータ装置は、撮影装置１と、画像記憶装置２と、Ｃ
ＰＵ２１と、ＲＡＭ２２と、プログラム記憶装置２３
と、入力装置２４と、表示装置２５とを備えている。プ
ログラム記憶装置２３には、図２および図３のフローチ
ャートに示されるような処理を実現するためのプログラ
ムデータが格納されている。ＣＰＵ２１は、このプログ
ラムデータに従って、図２および図３に示す動作を実行
する。ＲＡＭ２２は、ＣＰＵ２１の処理中に発生する作
業データを記憶する。入力装置２４は、キーボードやマ
ウス等を含み、オペレータの操作に応じて、種々の指示
ないしデータをＣＰＵ２１に入力する。なお、撮影装置
１および画像記憶装置２は、図１に示す撮影装置１およ
び画像記憶装置２と同様の構成である。

【００８５】ここで、プログラム記憶装置２３へプログ
ラムデータを格納する方法としては、種々の方法があ
る。第１は、プログラムデータを格納した記録媒体（フ
ロッピーディスク、ＣＤ−ＲＯＭ、ＤＶＤ等）から当該
プログラムデータを読み取ってプログラム記憶装置２３
に格納する方法である。第２は、オンライン通信で伝送
されてくるプログラムデータを受信してプログラム記憶
装置２３に格納する方法である。第３は、本装置の出荷
時にプログラムデータを予めプログラム記憶装置２３に
格納しておく方法である。

【００８６】以上説明した実施例は、いずれも手話を認
識する装置として構成されているが、本発明は、手話の
認識のみならず、何らかの意味を持つ手動作の認識に広
く適用が可能である。

【図面の簡単な説明】

【図１】本発明の第１の実施形態に係る手話認識装置の
構成を示すブロック図である。

【図２】図１の手話認識装置の動作の前半部分を示すフ
ローチャートである。

【図３】図１の手話認識装置の動作の後半部分を示すフ
ローチャートである。

【図４】図１の画像記憶装置２に記憶される画像フレー
ムの一例を示す図である。

【図５】図１の色変換テーブル作成装置１３に格納され
る代表画像の一例を示す図である。

【図６】図１の色変換テーブル作成装置１３が内蔵する
色変換テーブルを示す図である。

【図７】図１の特徴画像抽出装置３からチャネル別に出
力される特徴画像の一例を示す図である。

【図８】ブロブの重心位置を計算する方法を説明するた
めの図である。

【図９】図１の空間位置計算装置４によって計算された
ブロブの３次元空間位置が登録される３次元空間位置テ
ーブルの構成を示す図である。

【図１０】第３チャネルに出力される特徴画像から抽出
された体の輪郭形状を示す図である。

【図１１】図１０の輪郭形状に対して規定された人体的
特徴を示す代表線を示した図である。

【図１２】図１１で示す代表線によって分割された空間
領域を示す図である。

【図１３】図１の領域分割装置５によって規定される空
間領域コードを示した図である。

【図１４】３次元空間における第１〜第３ワールドの位
置関係を視覚的に示した図である。

【図１５】第１〜第３ワールドにおける空間領域コード
の他の規定例を示した図である。

【図１６】利用者が「葉書」に相当する手話動作を行っ
たとき、手対応するブロブが属する空間領域コードの時
間的変化状態を登録する領域遷移テーブルを示す図であ
る。

【図１７】手形状の一例を示す図である。

【図１８】本発明の第１の実施形態における動きコード
の検出動作を示すフローチャートである。

【図１９】本発明の第１の実施形態における制御点検出
動作を説明するための手の移動軌跡の一例を示した図で
ある。

【図２０】直線に対するサンプリング点の距離を一般的
に表した模式図である。

【図２１】動きコードを特定する際に参照される動きコ
ードの一覧テーブルを示した図である。

【図２２】第１カテゴリに属する手話動作の一例を示す
図である。

【図２３】図１の単語辞書１１に登録される、第１カテ
ゴリに属する手話単語の特徴情報の一例を示す図であ
る。

【図２４】単語辞書１１に登録された「動作開始位置コ
ード」および「動作終了位置コード」について、それと
３次元的に近接する空間領域コードに対して与えられた
類似度を示す図である。

【図２５】単語辞書１１に登録された基準動きコードに
対する近傍コードのリストを格納した動き近傍コードテ
ーブルの一部を示す図である。

【図２６】下方向への基準動きコード（実線で示してい
る）に対する４つの近傍コード（点線で示している）を
視覚的に示した図である。

【図２７】本発明の第２の実施形態に係る手話認識装置
の構成を示すブロック図である。

【図２８】本発明の第２の実施形態において、手動作検
出装置で実行される動きコード検出動作を示したフロー
チャートである。

【図２９】本発明の第２の実施形態において、低解像度
閾値ＴＨＣ１を用いて制御点を検出する際の動作を説明
するための手の移動軌跡の一例を示した図である。

【図３０】本発明の第２の実施形態において、高解像度
閾値ＴＨＣ２を用いて制御点を検出する際の動作を説明
するための手の移動軌跡の一例を示した図である。

【図３１】本発明の第２の実施形態において、階層的に
検出された動きコードを用いて実行される階層的な単語
認識動作を説明するための図である。

【図３２】本発明の第３の実施形態に係る手話認識装置
の構成を示すブロック図である。

【図３３】コンピュータ装置を用いたソフト制御によっ
て実現される、本発明の第３の実施形態に係る手話認識
装置の構成を示すブロック図である。

【符号の説明】

１…撮影装置２…画像記憶装置３…特徴画像抽出装置４…空間位置計算装置５…領域分割装置６，６０…手動作検出装置８，８０…カテゴリ検出装置９，９０…単語認識装置１０…カテゴリ辞書１１…単語辞書１２…出力装置１３…色変換テーブル作成装置１４…動作開始通知装置２１…ＣＰＵ２２…ＲＡＭ２３…プログラム記憶装置２４…入力装置２５…表示装置

───────────────────────────────────────────────────── フロントページの続き (72)発明者手嶋光隆大阪府門真市大字門真1006番地松下電器産業株式会社内 (72)発明者今川和幸大阪府門真市大字門真1006番地松下電器産業株式会社内 (72)発明者呂山東京都小金井市貫井北町４丁目２番１号郵政省通信総合研究所内 (72)発明者猪木誠二東京都小金井市貫井北町４丁目２番１号郵政省通信総合研究所内

Claims

【特許請求の範囲】

【請求項１】利用者が行う手動作を認識するための手
動作認識装置であって、少なくとも２台のカメラを有し、利用者を立体的に撮影
する撮影手段と、前記撮影手段から出力される利用者の立体画像データを
任意のサンプリング間隔で記憶する画像記憶手段と、前記画像記憶手段から立体画像データを順番に取り出
し、各立体画像データから利用者の人体的特徴を示す特
徴画像を抽出して複数のチャネルに分解して出力する特
徴画像抽出手段と、前記特徴画像抽出手段から出力される特徴画像が有する
視差に基づき、利用者の人体各部の３次元空間位置を検
出する空間位置計算手段と、前記特徴画像抽出手段から出力される特徴画像が有する
視差に基づき、利用者の周囲を取り巻く空間を利用者の
体に対応付けられた複数の領域に分割する領域分割手段
と、前記空間位置計算手段で計算された人体各部の３次元空
間位置の内、利用者の手に相当する３次元空間位置が前
記領域分割手段で分割された領域に関連してどのように
動くかを検出する手動作検出手段と、前記手動作検出手段で検出された手の動きに基づき、対
応する手動作単語を判定する手動作単語判定手段と、前記手動作単語判定手段の判定結果を、オペレータが認
識可能な態様で出力する出力手段とを備える、手動作認
識装置。
【請求項２】前記特徴画像抽出手段は、前記立体画像
データを構成する各画素の色情報に基づいて、前記特徴
画像を各チャネル別に出力することを特徴とする、請求
項１に記載の手動作認識装置。
【請求項３】前記特徴画像抽出手段は、オペレータによって指定された抽出したい色と出力させ
たくない色とに基づいて、前記チャネル別に色変換テー
ブルを設定し、前記立体画像データを構成する各画素の色情報を前記色
変換テーブルによって変換し、前記色変換テーブルによって変換された値を予め定める
閾値で弁別することにより、各チャネル別に前記特徴画
像を出力することを特徴とする、請求項２に記載の手動
作認識装置。
【請求項４】前記領域分割手段は、前記空間位置計算
手段で計算された人体各部の３次元空間位置に基づい
て、前記特徴画像に現れない人体部分の位置を推定し、
当該推定した位置に基づいて、利用者の周囲を取り巻く
空間をさらに細かい領域に分割することを特徴とする、
請求項１に記載の手動作認識装置。
【請求項５】前記領域分割手段は、時間的に隣接する
前記特徴画像の差分値を計算し、当該差分値が予め定め
た閾値以上になった場合にのみ、領域分割を行うことを
特徴とする、請求項１に記載の手動作認識装置。
【請求項６】前記領域分割手段は、利用者の体を中心
として前後に広がる空間を複数の層に分割し、さらに各
層を複数の領域に分割することを特徴とする、請求項１
に記載の手動作認識装置。
【請求項７】前記領域分割手段は、前記層間で領域分
割数を異ならせることを特徴とする、請求項６に記載の
手動作認識装置。
【請求項８】前記領域分割手段は、利用者の体から見
て後方の層から前方の層に行くに従って、領域分割数を
少なくすることを特徴とする、請求項７に記載の手動作
認識装置。
【請求項９】認識の対象となる複数の手動作単語は、
予め複数のカテゴリに分類されており、前記手動作単語判定手段は、各前記カテゴリについて、それぞれのカテゴリに属する
手動作単語に共通する動作的特徴が予め登録されている
カテゴリ辞書と、各手動作単語のさらに詳しい動作的特徴が各前記カテゴ
リ別に格納されている単語辞書と、前記手動作検出手段で検出された手の動きがどのカテゴ
リに属するかを、前記カテゴリ辞書の中から検出するカ
テゴリ検出手段と、前記手動作検出手段で検出された手の動きが前記カテゴ
リ検出手段によって検出されたカテゴリに属する手動作
単語のどれに対応するかを認識する単語認識手段とを含
む、請求項１に記載の手動作認識装置。
【請求項１０】前記単語認識手段は、前記カテゴリ検
出手段によって検出されたカテゴリに属する手動作単語
の内、前記手動作検出手段で検出された手の動きと最も
類似度の高い１つの手動作単語を認識結果として出力す
る、請求項９に記載の手動作認識装置。
【請求項１１】前記単語認識手段は、前記カテゴリ検
出手段によって検出されたカテゴリに属する手動作単語
の内、前記手動作検出手段で検出された手の動きと一定
の閾値以上の類似度を持つ１または複数の手動作単語を
認識結果として出力する、請求項９に記載の手動作認識
装置。
【請求項１２】利用者に対し、手動作を開始するタイ
ミングを通知するための動作開始通知手段をさらに備え
る、請求項１に記載の手動作認識装置。
【請求項１３】前記手動作検出手段は、動きの開始点
と終了点との間で検出した３次元空間位置を示すサンプ
リング点の内、動きの方向が大きく変化するサンプリン
グ点を制御点として抽出し、これら開始点、終了点およ
び制御点を用いて、利用者の手の動きを表現することを
特徴とする、請求項１に記載の手動作認識装置。
【請求項１４】前記手動作検出手段は、前記開始点と前記終了点との間に存在するサンプリング
点であって、これら開始点および終了点を結んだ直線に
対して最大距離を有し、かつ予め定めた閾値以上の距離
を有するサンプリング点と、前記開始点と隣接する制御点との間に存在するサンプリ
ング点であって、これら開始点および隣接する制御点を
結んだ直線に対して最大距離を有し、かつ予め定めた閾
値以上の距離を有するサンプリング点と、前記終了点と隣接する制御点との間に存在するサンプリ
ング点であって、これら終了点およびを隣接する制御点
を結んだ直線に対して最大距離を有し、かつ予め定めた
閾値以上の距離を有するサンプリング点と、隣接する２つの制御点の間に存在するサンプリング点で
あって、これら２つの制御点を結んだ直線に対して最大
距離を有し、かつ予め定めた閾値以上の距離を有するサ
ンプリング点とを検出し、これら検出したサンプリング点を前記制御点とすること
を特徴とする、請求項１３に記載の手動作認識装置。
【請求項１５】前記手動作検出手段は、複数の閾値を
用いて、階層的に前記制御点を検出することにより、利
用者の手の動きを階層的に表現し、前記手動作単語判定手段は、前記手動作検出手段によっ
て階層的に表現された利用者の手の動きに基づいて、階
層的に対応する手動作単語を特定することを特徴とす
る、請求項１４に記載の手動作認識装置。