JPH0728488A

JPH0728488A - 情報処理方法及び装置

Info

Publication number: JPH0728488A
Application number: JP5153630A
Authority: JP
Inventors: Yasuhiro Komori; 康弘小森; Toshiaki Fukada; 俊明深田; Mitsuru Otsuka; 充大塚; Yasunori Ohora; 恭則大洞; Minoru Fujita; 稔藤田; Masaaki Yamada; 雅章山田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1993-06-24
Filing date: 1993-06-24
Publication date: 1995-01-31

Abstract

(57)【要約】【目的】音声認識を行う際に、音声情報のみを入力
し、音声情報のみから認識を行うのではなく、発声者を
撮像して得た画像情報から発声者の性別や年齢を識別し
て認識の補助データとしたり、口の位置からマイクを移
動して安定した音声情報を得ること。【構成】画像入力部（５１）、画像特徴抽出部（５
３）この情報を対応させる音声認識部（５５）。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声認識或いは認識を
行う音声を入力する際に、発声者の状態を考慮して処理
を行う情報処理方法及び装置に関するものである。

【０００２】

【従来の技術】人間と人間の間で行われる情報交換手段
の中でも最も自然に使われるのが音声である。一方、計
算機の飛躍的な進歩により、計算機は数値計算のみなら
様々な情報を扱えるように進歩してきている。そこで、
音声を人間と計算機の情報交換手段として用いた要求が
ある。

【０００３】しかしながら、従来の音声認識を行う装置
では、発声者から取得する情報は音声情報だけであっ
た。

【０００４】

【目的】本発明は、発声者の音声情報の他に、発声者自
身を撮像することによって発声者の性別・年齢・表情と
いった個人情報を得、その情報に対応した応答をするこ
とにより、より人間らしい自然な対話を可能とすること
を目的とする。

【０００５】本発明は、発声者を撮像した画像情報から
発声者の身長、口の位置、顔の向き等の情報を得て、音
声情報を入力する為のマイクロフォンをその情報に合わ
せて位置・方向制御することにより、発声者の体格に対
応したマイク位置となり、明瞭で安定した音声入力を得
ることを目的とする。

【０００６】本発明は、発声者を撮像した画像情報を解
析して得られる情報により発声者が認識すべき音声を発
声したタイミングを測り、音声認識の開始を制御するこ
とで、発声者や他の人が例えばスイッチ等で認識開始を
指示する等の余計な動作を省略することを目的とする。

【０００７】本発明は、発声者の発声部分と、音声入力
手段との距離を一定に保つように制御することにより、
安定した音声情報を得ることを目的とする。

【０００８】

【実施例】図１に、本発明を実施する装置の厚生を示す
ブロック図である。

【０００９】図１において、１は例えばカメラ等の画像
を入力する画像入力装置、２は例えばマイクロフォンの
ような音声を入力する音声入力装置、ＣＰＵ３はＲＯＭ
４に格納されているプログラムに従って装置の制御を行
う中央処理装置、ＲＯＭ４は後述するフローチャートの
処理のプログラムを格納し、また、予め用意される固定
データや音声の認識に用いる音声辞書を格納するリード
オンリーメモリ、ＲＡＭ５は処理途中で生じるデータの
格納等のワーキングメモリとして使用されるランダムア
クセスメモリ、６はＣＲＴやＬＣＤ等の画像データを表
示し得る表示装置や、或いはＬＥＤ等の簡単な情報表示
手段よりなる表示部、７は音声の認識結果や各種データ
の、例えばホストコンピュータといった外部装置へのイ
ンターフェイス、８は各部のデータを送るためのバスで
ある。

【００１０】（実施例１）図２は本発明の実施例を示す
フローチャートである。

【００１１】まずステップ１１において、カメラ等の画
像入力装置１により発声者の全体像を撮像する。次にス
テップ１２において、入力された画像を画像処理し、発
声者の口の位置、顔の向き、性別、年齢、表情等の特徴
量を抽出する。ステップ１３ではステップ１２で特徴量
の抽出が終了したかどうかの判定を行い、終了していな
い場合には、ステップ１４において抽出できていない特
徴量に応じて画像入力装置１を制御する。この操作を繰
り返し、すべての特徴量が抽出できた場合は、まずステ
ップ１５により発声者の口の位置、顔の向きを利用し
て、マイクロホン等の音声入力装置２の位置・方向を制
御し、最適な位置で音声入力が行えるよう移動する。

【００１２】図２に音声入力装置制御の一例の概念図を
示す。図３において１はカメラ等の画像入力装置、２は
マイクロホン等の音声入力装置である。また、図３
（ａ）〜（ｄ）はそれぞれ、（ａ）発声者の身長が高い
場合、（ｂ）低い場合、（ｃ）顔が上を向いている場
合、（ｄ）顔が下を向いている場合の音声入力装置２の
位置・方向制御例を表す。

【００１３】次にステップ１６では、ステップ１２で抽
出した発声者の年齢、性別、表情等の特徴量を利用した
機械による問いかけが行われ、この機械による応答の制
御が行われる。例えば、音声による問いかけの場合に
は、発声者が男性の場合は女性による問いかけを行った
り、老人の場合にはゆっくりしたスピードで問いかけを
行ったり、子供の場合には平易な言葉で問いかけを行っ
たりするする。また、表示部６に文字を表示することに
よる文字の問いかけの場合には老人には大きな字で表示
したり、子供の場合には漢字を少なくしたり、平仮名で
読みをふったりした表示を行う。これらの問いかけに対
してステップ１７で音声入力が行われ、ステップ１８で
入力音声の分析が行われる。この音声分析の際、ステッ
プ１２で抽出した特徴量に従って、例えば男性、女性で
分析次数等の分析条件を変えることにより、最適な音声
の特徴量を抽出することが可能となる。次にステップ１
８で抽出された音声の特徴を利用してステップ１９にお
いて音声認識を行う。この際も画像特徴量を利用した認
識を行うことにより、高精度な認識が可能となる。例え
ば、ＤＰマッチングに基づいた音声認識アルゴリズムの
場合、性別、年齢によって参照パタンを変更することが
可能である。また、ＨＭＭに基づいた音声認識アルゴリ
ズムの場合も、性別、年齢を利用して混合分布の重みを
変更することが可能である。最後にステップ２０におい
て、認識結果に応じた出力を行う。この場合、ステップ
１６と同様に発声者の年齢、性別、表情等を利用した出
力方法を行う。なお、ここでいう性別とは、男性、女性
の必ずしも２値をとる必要はなく、どれくらい男性らし
い、女性らしいという尤度で与えてやればよい。

【００１４】また、本実施例では、画像特徴量を音声入
力を行う前にすべての画像情報を抽出しているが、必ず
しも、全ての特徴量を抽出する必要はない。例えば、音
声入力を行う前には、マイクロホンの位置合わせができ
ていればよいため、性別、年齢等の特徴量は抽出する必
要がない。また逆に、音声分析、認識を行う際には身長
や口の位置といった特徴量を抽出する必要がない。すな
わち、必要に応じて画像入力装置を制御し、必要な画像
特徴量を抽出するという構成で実現することもできる。

【００１５】また、本実施例では、画像情報を音声入力
装置制御部、応答部、音声分析部、音声認識部、認識結
果出力部、全てに利用した場合である。しかし、これは
あくまでも本発明の一実施例であって、必ずしも画像情
報をこれら全てに利用しなくてもよく、一つあるいはい
くつかの組み合わせとして実現することもできる。

【００１６】また、対話型音声認識システムに限らず、
音声、文字、画像等を用いた応答システムのみ利用する
こともできる。この応答システムの一実施例として、音
声規則合成による音声応答装置制御を行う際のフローチ
ャートを図４に示す。

【００１７】以下、図３のフローチャートの処理を順を
おって説明する。

【００１８】まずステップ２１において、カメラ等の画
像入力装置１により発声者の全体像を撮像する。次にス
テップ２２において、入力された画像を画像処理し、性
別、年齢、表情等の特徴量を抽出する。ステップ２３で
はステップ２２で特徴量の抽出が終了したかどうかの判
定を行い、終了していない場合には、ステップ２４にお
いて抽出できていない特徴量に応じて画像入力装置１を
制御する。この操作を繰り返し、全ての特徴量が抽出で
きた場合、ステップ２５において発声者の性別、年齢、
表情等の画像特徴量を利用して、機械の応答文をＲＯＭ
４に格納されているデータベース２６の応答文データベ
ースあるいは機械による自動文生成等により決定する。
次にステップ２７において、応答文をデータベース２８
の辞書を用いて文解析し、解析結果をデータベース２８
の音声データベースに格納されている音声特徴パラメー
タを用いて音声合成する。最後にステップ２９において
音声出力を行う。

【００１９】（実施例２）を以下、図面を参照して音声
入力者を撮像して得た画像情報を解析することにより、
音声入力者の向いている方向を判断して音声認識の開始
タイミングを制御する例を詳細に説明する。

【００２０】図５は、本発明の一実施例に係る音声認識
装置の機能構成を示すブロック図である。同図におい
て、５１は物体を撮像してその画像を入力するカメラ等
の画像入力装置１による画像入力部、５２は入力された
画像から画像特徴部分を抽出する画像特徴抽出部、５３
は音声を入力するマイクロフォン等の音声入力装置２に
よる音声入力部、５４は入力された音声から音声特徴部
分を抽出する音声特徴抽出部、５５は抽出された音声特
徴かせ音声を認識する音声認識部である。尚、画像特徴
抽出部５３、音声特徴抽出部５４、音声認識部５５はＣ
ＰＵ３により実行される。

【００２１】図６は、本実施例に係る音声認識装置にお
ける音声認識開始処理を示すフローチャートである。

【００２２】図７、図８は、本実施例に係る音声認識装
置における、音声入力者と音声入力部の位置関係及び音
声入力者の画像特徴を例示したものである。

【００２３】これらの図を参照しながら本発明の一実施
例の動作を説明する。

【００２４】まず、ステップＳ３１で、画像入力部５１
において、撮像された画像が入力される。ステップＳ３
２で、画像特徴抽出部５３において、入力された画像の
画像特徴が抽出される。ステップＳ３３で、ステップＳ
３２で抽出された画像特徴が図７に示すように、音声入
力者が音声入力部の正面を向いていない画像特徴である
と判定とれた場合は、ステップＳ３１に戻って処理が続
けられる。ステップＳ３３で、図８に示すように、音声
入力者が音声入力部の正面を向いている画像特徴である
と判断された場合は、ステップＳ３４で、画像特徴抽出
部から音声認識部へ音声開始の指示が出される。ステッ
プＳ３５で、音声入力部５１より音声が入力される。ス
テップＳ３６で、音声特徴抽出部５３において、入力さ
れた音声の音声特徴が抽出される。ステップＳ３７で、
音声認識部５５において音声認識が行われる。

【００２５】図９は、本実施例において、更に音声入力
者動作指示を行い得るようにした音声認識装置の機能構
成を示すブロック図である。同図において、６０は音声
入力者が音声入力部の正面を向くように指示を出す音声
入力者動作指示部である。

【００２６】図１０は、音声入力者指示部６０より音声
入力者に指示を出す処理のフローチャートである。

【００２７】ステップＳ３３で、図７に示すように、音
声入力者が音声入力部の正面を向いていない画像特徴で
あると判定された場合は、ステップＳ４０で、音声入力
者動作指示部において、音声入力者が音声入力部の正面
を向くように音声等を用いて指示が出される。その後、
ステップＳ３８に戻って処理が続けられる。

【００２８】尚、本実施例では、音声入力者の顔の画像
で説明したが顔全体ではなく、口や目の画像等、あるい
は音声入力者の全体像でも良い。

【００２９】尚、本実施例では、音声入力者動作指示
は、音声ではなく、画面に表示して行っても良い。

【００３０】（実施例３）本実施例では、音声認識に発
声者を撮像した画像情報を補助データとして用いる際
の、音声入力装置と画像入力装置との位置関係を調整す
ることにより、入力する音声情報と画像情報との安定し
た関係を保つ装置について説明する。

【００３１】まず、図１１は検出したマイクと口の位置
関係からマイク位置を正しい位置に動かすことにより、
マイクと口との位置関係を一定に保つ例である。

【００３２】図１１の音声認識装置１００において、発
話者の口と音声入力部（マイク）４００の位置関係を画
像入力部（カメラ）３００より取り込み、取り込んだ画
像情報から画像特徴抽出部１０３で特徴抽出を行い、マ
イクと口の位置検出部１０４でその位置関係を検出し、
位置修正指示部１０５で修正する指示を出し、位置関係
出力部５００で発話者に音声や表示を用いてマイクと口
の位置を修正させる出力をする。また、位置修正指示部
１０５の指示にしたがって、マイク位置修正部１０６
は、マイク位置を自動的に正しい位置に動かす。以上の
ことにより、発話者は音声認識を行う際、音声入力部４
００と口の位置関係が一定に保たれ、音声特徴抽出部１
０１において、安定な音声情報の抽出が可能になり、音
声認識部１０２において高い性能で音声認識結果７００
を得る。

【００３３】以上のように本実施例によれば、口とマイ
クの位置関係が一定に保たれ、音声認識を行うため、音
声情報が安定的に入力できることが保証される。

【００３４】次に、図１２はマイクに発信器をつけ、画
像入力部につけた受信器によって画像入力部からのマイ
クの相対位置を判断し、その方向に画像入力部を向ける
ことにより、画像入力部は常にマイクの近くにある口を
撮像できるようにした例である。

【００３５】図１２に示す音声認識装置１００は、音声
入力部４００とそれに取りつけたマイクの位置（口の位
置付近）の情報を出す発信器４０１、及び、画像入力部
３００とそれに発信器情報を受信する受信器３０１を持
ち、音声入力部（マイク）４００に向かって発声する
時、マイクに口をかなり近付けて話せば、マイクに取り
付けた発信器４０１が発信した信号を受信器３０１で受
信し、この結果をもとに発信位置検出装置１０９では口
の位置を推定し、カメラの制御装置１１０にて、カメラ
３００の方向及び焦点を口に合わせる。音声認識は、人
間がマイクに向かって発話し、音声入力装置４００で音
声の特徴を取り込み、音声特徴抽出器１０１で抽出し、
口の形の画像情報は、画像入力部３００により得られ、
それぞれの特徴（音声情報、画像情報）をそれぞれの特
徴抽出器、音声特徴抽出部３００、画像特徴抽出部１０
１を用いて抽出し、それら情報を音声認識部１０２にお
くり、音声認識結果７００を得ることを特徴としてい
る。

【００３６】以上のように本実施例によれば、口の形の
画像を、音声認識を行うための画像情報を安定的に入力
できることが保証される。

【００３７】尚、図では、カメラを１台の例を記してあ
るが、複数台のカメラを用いて、それらのカメラを選択
的に用いる、または、複数台用いることにより、画像情
報を取り込む方法も考えられる。その場合、マイクの影
で画像情報を取り込めなくなることを防ぎ、より有効な
音声情報と画像情報を用いた高性能な音声認識が実現で
きることになる。

【００３８】さらに、発信器・受信器のかわりに、マイ
クに印（例えば、ライトのような光るもの）を取り付
け、その記し付近をカメラで狙うようにすることも可能
である。

【００３９】さらに、そのライトがマイクの方向に対し
て灯りをあてるようになっていれば、人間が発声する場
合にその灯りが口に当たり、その灯りにカメラの焦点を
当てることにより、口の画像を取り込むことを可能にす
る。この方法によれば、暗いところでも口のまわりは明
るくなり、安定でしかも簡単に口の形の画像情報を取り
入れることが可能になる。

【００４０】（実施例４）本実施例では、音声認識に発
声者を撮像した画像情報を補助データとして用いる際
に、音声入力装置と画像入力装置を一体化することによ
り、入力する音声情報と画像情報を安定化させる装置に
ついて説明する。

【００４１】まず、図１３はマイクとカメラを一体化し
た基本的な装置の構成図である。

【００４２】図１３に示す音声認識装置１００は、音声
入力部２０２と画像入力部２０１を一体化したマイク・
カメラ一体型入力装置２００により構成され、人間がマ
イク２０２に向かって発話する時、口の形の画像を容易
に安定して画像入力部２０１により得られ、それぞれの
特徴（音声情報、画像情報）をそれぞれの特徴抽出部、
音声特徴抽出部１０１、画像特徴抽出部１０３を用いて
抽出し、それら情報を音声認識部１０２におくり、音声
認識結果７００を得ることを特徴としている。

【００４３】以上のように本実施例によれば、口の形の
画像を音声認識を行うための付加的な情報を安定的に入
力できることが保証される。

【００４４】カメラに加えたマイクにライトのような光
を当てる装置を取り付け、そのあかりに向かってカメラ
で狙うようにすることも可能である。このようにすれ
ば、人間が発声する場合にその灯りで口に当たり、その
灯りにカメラの焦点を当てることにより、口の画像を取
り込むことを可能にする。さらに、この方法によれば、
暗いところでも口のまわりは明るくなり、安定でしかも
簡単に口の形の画像情報を取り入れることが可能にな
る。

【００４５】次に、図１４はカメラが撮像した画像情報
を出力する手段を設けることにより、発話者がその画像
を見て正しい位置に移動できるようにした例である。

【００４６】図１４の音声認識装置１００において、画
像入力部（カメラ）２０１と音声入力部（マイク）２０
２を一体化した入力装置２００により構成され、画像入
力部（カメラ）２０１により入力された口の画像が出力
装置６００により発話者に口位置を示し、６００′のよ
うに口が出力装置の真中にないときは、発話者がみずか
ら、口の位置や入力装置（マイク）２００の位置を６０
０″のように口が出力装置の真中に来るように指示をだ
す。６００″の位置で発声された音声は、音声入力部
（マイク）２０２により取り込まれ、音声特徴抽出部１
０１により特徴抽出が行われ、音声認識部１０２によ
り、音声認識結果７００を出力する。

【００４７】以上のように本実施例によればマイクに向
かって発話する時、発話者は口の位置を容易に修正する
ことができ、安定した音声情報を認識装置に取り込むこ
とを可能にする。

【００４８】次に、図１５は発話者への口の位置の修正
を促す情報を出力する手段と、マイクの位置を修正する
手段とを設けた例である。

【００４９】図１５の音声認識装置１００において、音
声入力部（マイク）２０２と画像入力部（カメラ）２０
１を一体化した入力装置２００を用いて、音声情報と画
像情報を取り込み装置において、取り込んだ画像情報か
ら画像特徴抽出部１０３で特徴抽出を行い、口の位置検
出部１０８で口の位置の検出を行い、口の位置修正指示
部１０７で修正する指示を出し、出力部６００で発話者
に口の位置の表示や音声などによりマイクと口の位置を
修正させる出力をする。また、位置修正指示部１０７の
指示にしたがって、マイク位置修正部１０６は、マイク
位置を自動的に正しい位置に動かす。以上のことによ
り、発話者は音声認識を行う際、音声入力部２０２と口
の位置関係が一定に保たれ、音声特徴抽出部１０１にお
いて、安定な音声情報の抽出が可能になり、さらに、画
像特徴抽出部１０３においても安定な画像情報が抽出で
き、音声認識部１０２において高い性能で音声認識結果
７００を得ることが可能になる。

【００５０】画像入力部（カメラ）２０１により入力さ
れた口の画像が出力装置６００により発話者に口位置を
示し、６００′のように口が出力装置の真中にないとき
は、発話者がみずから、口の位置や入力装置（マイク）
２００の位置を６００″のように口が出力装置の真中に
来るように修正するように指示をだす。

【００５１】以上のように本実施例によれば、口とマイ
クの位置関係が一定に保たれ、音声情報および画像情報
を安定して入力できる。

【００５２】

【発明の効果】本発明によれば、発声者自身を撮像して
得た画像情報より、発声者の性別・年齢・表情といった
個人情報を得て、この情報に対応した応答をすることに
より、より自然で人間的な機械と人との対話を実現する
ものである。

【００５３】本発明によれば、発声者を撮像して得た画
像情報より、発声者の身長、口の位置、顔の向き等の情
報を得て、この情報に対応してマイクロフォンの位置・
方向を発声者に適するよう制御することにより、明瞭で
安定した音声入力を可能とする。

【００５４】本発明によれば、発声者を撮像して得た画
像情報より、認識すべき音声を発声者が発声するタイミ
ングを測り、音声認識の開始を制御することにより、音
声認識開始の指示操作を省略し得る。

【００５５】本発明によれば、発声者の発声部分と、音
声入力手段との距離を一定に保つように制御することに
より、安定した音声情報を得られる。

【図面の簡単な説明】

【図１】本実施例の装置の構成を示すブロック図。

【図２】実施例１のフローチャート（１）。

【図３】カメラとマイクと発声者の位置関係例示図。

【図４】実施例１のフローチャート（２）。

【図５】実施例２の機能構成図（１）。

【図６】実施例２のフローチャート（１）。

【図７】発声者が横を向いている時の画像特徴例示図。

【図８】発声者が正面を向いている時の画像特徴例示
図。

【図９】実施例２の機能構成図（２）。

【図１０】実施例２のフローチャート（２）。

【図１１】実施例３の機能構成図（１）。

【図１２】実施例３の機能構成図（２）。

【図１３】実施例４の機能構成図（１）。

【図１４】実施例４の機能構成図（２）。

【図１５】実施例４の機能構成図（３）。

───────────────────────────────────────────────────── フロントページの続き (72)発明者大洞恭則東京都大田区下丸子３丁目30番２号キヤノン株式会社内 (72)発明者藤田稔東京都大田区下丸子３丁目30番２号キヤノン株式会社内 (72)発明者山田雅章東京都大田区下丸子３丁目30番２号キヤノン株式会社内

Claims

【特許請求の範囲】

【請求項１】画像情報を入力し、前記入力した画像情報から画像特徴部分を抽出し、前記抽出した画像特徴部分を分析し、前記分析して得た情報に対応して出力情報応答部を制御
することを特徴とする情報処理方法。
【請求項２】前記分析して得る情報は、発声者の性別
情報とすることを特徴とする請求項１に記載の情報処理
方法。
【請求項３】前記分析して得る情報は、発声者の年令
情報とすることを特徴とする請求項１に記載の情報処理
方法。
【請求項４】前記分析して得る情報は、発声者の表情
情報とすることを特徴とする請求項１に記載の情報処理
方法。
【請求項５】画像情報を入力し、前記入力した画像情報から画像特徴部分を抽出し、前記抽出した画像特徴部分を分析し、前記分析して得た情報に対応して、音声入力装置の位置
を制御することを特徴とする情報処理方法。
【請求項６】前記分析して得る情報は、発声者の体格
情報とすることを特徴とする請求項５に記載の情報処理
方法。
【請求項７】画像情報を入力し、前記入力した画像情報から画像特徴部分を抽出し、前記抽出した画像特徴部分を分析し、前記分析して得た情報により、入力した音声情報の認識
のを開始を制御することを特徴とする情報処理方法。
【請求項８】前記分析は、前記入力した画像情報から
発声者が正面を向いた画像情報を識別するよう分析する
ことを特徴とする請求項７に記載の情報処理方法。
【請求項９】画像情報を入力し、前記入力した画像情報から画像特徴部分を抽出し、前記抽出した画像特徴部分を分析し、前記分析して得た情報により、発声者位置修正の指示を
出力することを特徴とする情報処理方法。
【請求項１０】前記分析して得る情報は、発声者の口
の位置情報であることを特徴とする請求項９に記載の情
報処理方法。
【請求項１１】画像情報を入力する画像入力手段と、前記入力した画像情報から画像特徴部分を抽出する抽出
手段と、前記抽出した画像特徴部分を分析する分析手段と、前記分析して得た情報に対応して出力情報応答部を制御
する制御手段とを有することを特徴とする情報処理装
置。
【請求項１２】前記分析手段は、発声者の性別情報を
分析して得ることを特徴とする請求項１１に記載の情報
処理装置。
【請求項１３】前記分析手段は、発声者の年令情報を
分析して得ることを特徴とする請求項１１に記載の情報
処理装置。
【請求項１４】前記分析手段は、発声者の表情情報を
分析して得ることを特徴する請求項１１に記載の情報処
理装置。
【請求項１５】画像情報を入力する画像入力手段と、前記入力した画像情報から画像特徴部分を抽出する抽出
手段と、前記抽出した画像特徴部分を分析する分析手段と、前記分析して得た情報に対応して、音声入力装置の位置
を制御する制御手段とを有することを特徴とする情報処
理装置。
【請求項１６】前記分析手段は、発声者の体格情報を
分析して得ることを特徴とする請求項１５に記載の情報
処理装置。
【請求項１７】画像情報を入力する画像入力手段と、前記入力した画像情報から画像特徴部分を抽出する抽出
手段と、前記抽出した画像特徴部分を分析する分析手段と、前記分析して得た情報により、入力した音声情報の認識
を開始を制御する制御手段とを有することを特徴とする
情報処理装置。
【請求項１８】前記分析手段は、前記入力した画像情
報から発声者が正面を向いた画像情報を識別するよう分
析することを特徴とする請求項１７に記載の情報処理装
置。
【請求項１９】画像情報を入力する画像入力手段と、前記入力した画像情報から画像特徴部分を抽出する抽出
手段と、前記抽出した画像特徴部分を分析する分析手段と、前記分析して得た情報により、発声者位置修正の指示を
出力する出力手段とを有することを特徴とする情報処理
装置。
【請求項２０】前記分析手段は、発声者の口の位置情
報を分析することを特徴とする請求項１９に記載の情報
処理装置。
【請求項２１】発信器を有する音声入力手段と、受信器を有する画像入力手段と、前記発信器の情報に基づき前記画像入力手段を制御する
制御手段を有することを特徴とする情報処理装置。
【請求項２２】画像情報を入力する画像入力部と、音
声情報を入力する音声情報入力部とを有する入力手段
と、前記画像入力部より入力した画像情報を出力する出力手
段とを有することを特徴とする情報処理装置。