JPH0728488A - 情報処理方法及び装置 - Google Patents

情報処理方法及び装置

Info

Publication number
JPH0728488A
JPH0728488A JP5153630A JP15363093A JPH0728488A JP H0728488 A JPH0728488 A JP H0728488A JP 5153630 A JP5153630 A JP 5153630A JP 15363093 A JP15363093 A JP 15363093A JP H0728488 A JPH0728488 A JP H0728488A
Authority
JP
Japan
Prior art keywords
information
image
input
speaker
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP5153630A
Other languages
English (en)
Inventor
Yasuhiro Komori
康弘 小森
Toshiaki Fukada
俊明 深田
Mitsuru Otsuka
充 大塚
Yasunori Ohora
恭則 大洞
Minoru Fujita
稔 藤田
Masaaki Yamada
雅章 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP5153630A priority Critical patent/JPH0728488A/ja
Publication of JPH0728488A publication Critical patent/JPH0728488A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Image Processing (AREA)

Abstract

(57)【要約】 【目的】 音声認識を行う際に、音声情報のみを入力
し、音声情報のみから認識を行うのではなく、発声者を
撮像して得た画像情報から発声者の性別や年齢を識別し
て認識の補助データとしたり、口の位置からマイクを移
動して安定した音声情報を得ること。 【構成】 画像入力部(51)、画像特徴抽出部(5
3)この情報を対応させる音声認識部(55)。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音声認識或いは認識を
行う音声を入力する際に、発声者の状態を考慮して処理
を行う情報処理方法及び装置に関するものである。
【0002】
【従来の技術】人間と人間の間で行われる情報交換手段
の中でも最も自然に使われるのが音声である。一方、計
算機の飛躍的な進歩により、計算機は数値計算のみなら
様々な情報を扱えるように進歩してきている。そこで、
音声を人間と計算機の情報交換手段として用いた要求が
ある。
【0003】しかしながら、従来の音声認識を行う装置
では、発声者から取得する情報は音声情報だけであっ
た。
【0004】
【目的】本発明は、発声者の音声情報の他に、発声者自
身を撮像することによって発声者の性別・年齢・表情と
いった個人情報を得、その情報に対応した応答をするこ
とにより、より人間らしい自然な対話を可能とすること
を目的とする。
【0005】本発明は、発声者を撮像した画像情報から
発声者の身長、口の位置、顔の向き等の情報を得て、音
声情報を入力する為のマイクロフォンをその情報に合わ
せて位置・方向制御することにより、発声者の体格に対
応したマイク位置となり、明瞭で安定した音声入力を得
ることを目的とする。
【0006】本発明は、発声者を撮像した画像情報を解
析して得られる情報により発声者が認識すべき音声を発
声したタイミングを測り、音声認識の開始を制御するこ
とで、発声者や他の人が例えばスイッチ等で認識開始を
指示する等の余計な動作を省略することを目的とする。
【0007】本発明は、発声者の発声部分と、音声入力
手段との距離を一定に保つように制御することにより、
安定した音声情報を得ることを目的とする。
【0008】
【実施例】図1に、本発明を実施する装置の厚生を示す
ブロック図である。
【0009】図1において、1は例えばカメラ等の画像
を入力する画像入力装置、2は例えばマイクロフォンの
ような音声を入力する音声入力装置、CPU3はROM
4に格納されているプログラムに従って装置の制御を行
う中央処理装置、ROM4は後述するフローチャートの
処理のプログラムを格納し、また、予め用意される固定
データや音声の認識に用いる音声辞書を格納するリード
オンリーメモリ、RAM5は処理途中で生じるデータの
格納等のワーキングメモリとして使用されるランダムア
クセスメモリ、6はCRTやLCD等の画像データを表
示し得る表示装置や、或いはLED等の簡単な情報表示
手段よりなる表示部、7は音声の認識結果や各種データ
の、例えばホストコンピュータといった外部装置へのイ
ンターフェイス、8は各部のデータを送るためのバスで
ある。
【0010】(実施例1)図2は本発明の実施例を示す
フローチャートである。
【0011】まずステップ11において、カメラ等の画
像入力装置1により発声者の全体像を撮像する。次にス
テップ12において、入力された画像を画像処理し、発
声者の口の位置、顔の向き、性別、年齢、表情等の特徴
量を抽出する。ステップ13ではステップ12で特徴量
の抽出が終了したかどうかの判定を行い、終了していな
い場合には、ステップ14において抽出できていない特
徴量に応じて画像入力装置1を制御する。この操作を繰
り返し、すべての特徴量が抽出できた場合は、まずステ
ップ15により発声者の口の位置、顔の向きを利用し
て、マイクロホン等の音声入力装置2の位置・方向を制
御し、最適な位置で音声入力が行えるよう移動する。
【0012】図2に音声入力装置制御の一例の概念図を
示す。図3において1はカメラ等の画像入力装置、2は
マイクロホン等の音声入力装置である。また、図3
(a)〜(d)はそれぞれ、(a)発声者の身長が高い
場合、(b)低い場合、(c)顔が上を向いている場
合、(d)顔が下を向いている場合の音声入力装置2の
位置・方向制御例を表す。
【0013】次にステップ16では、ステップ12で抽
出した発声者の年齢、性別、表情等の特徴量を利用した
機械による問いかけが行われ、この機械による応答の制
御が行われる。例えば、音声による問いかけの場合に
は、発声者が男性の場合は女性による問いかけを行った
り、老人の場合にはゆっくりしたスピードで問いかけを
行ったり、子供の場合には平易な言葉で問いかけを行っ
たりするする。また、表示部6に文字を表示することに
よる文字の問いかけの場合には老人には大きな字で表示
したり、子供の場合には漢字を少なくしたり、平仮名で
読みをふったりした表示を行う。これらの問いかけに対
してステップ17で音声入力が行われ、ステップ18で
入力音声の分析が行われる。この音声分析の際、ステッ
プ12で抽出した特徴量に従って、例えば男性、女性で
分析次数等の分析条件を変えることにより、最適な音声
の特徴量を抽出することが可能となる。次にステップ1
8で抽出された音声の特徴を利用してステップ19にお
いて音声認識を行う。この際も画像特徴量を利用した認
識を行うことにより、高精度な認識が可能となる。例え
ば、DPマッチングに基づいた音声認識アルゴリズムの
場合、性別、年齢によって参照パタンを変更することが
可能である。また、HMMに基づいた音声認識アルゴリ
ズムの場合も、性別、年齢を利用して混合分布の重みを
変更することが可能である。最後にステップ20におい
て、認識結果に応じた出力を行う。この場合、ステップ
16と同様に発声者の年齢、性別、表情等を利用した出
力方法を行う。なお、ここでいう性別とは、男性、女性
の必ずしも2値をとる必要はなく、どれくらい男性らし
い、女性らしいという尤度で与えてやればよい。
【0014】また、本実施例では、画像特徴量を音声入
力を行う前にすべての画像情報を抽出しているが、必ず
しも、全ての特徴量を抽出する必要はない。例えば、音
声入力を行う前には、マイクロホンの位置合わせができ
ていればよいため、性別、年齢等の特徴量は抽出する必
要がない。また逆に、音声分析、認識を行う際には身長
や口の位置といった特徴量を抽出する必要がない。すな
わち、必要に応じて画像入力装置を制御し、必要な画像
特徴量を抽出するという構成で実現することもできる。
【0015】また、本実施例では、画像情報を音声入力
装置制御部、応答部、音声分析部、音声認識部、認識結
果出力部、全てに利用した場合である。しかし、これは
あくまでも本発明の一実施例であって、必ずしも画像情
報をこれら全てに利用しなくてもよく、一つあるいはい
くつかの組み合わせとして実現することもできる。
【0016】また、対話型音声認識システムに限らず、
音声、文字、画像等を用いた応答システムのみ利用する
こともできる。この応答システムの一実施例として、音
声規則合成による音声応答装置制御を行う際のフローチ
ャートを図4に示す。
【0017】以下、図3のフローチャートの処理を順を
おって説明する。
【0018】まずステップ21において、カメラ等の画
像入力装置1により発声者の全体像を撮像する。次にス
テップ22において、入力された画像を画像処理し、性
別、年齢、表情等の特徴量を抽出する。ステップ23で
はステップ22で特徴量の抽出が終了したかどうかの判
定を行い、終了していない場合には、ステップ24にお
いて抽出できていない特徴量に応じて画像入力装置1を
制御する。この操作を繰り返し、全ての特徴量が抽出で
きた場合、ステップ25において発声者の性別、年齢、
表情等の画像特徴量を利用して、機械の応答文をROM
4に格納されているデータベース26の応答文データベ
ースあるいは機械による自動文生成等により決定する。
次にステップ27において、応答文をデータベース28
の辞書を用いて文解析し、解析結果をデータベース28
の音声データベースに格納されている音声特徴パラメー
タを用いて音声合成する。最後にステップ29において
音声出力を行う。
【0019】(実施例2)を以下、図面を参照して音声
入力者を撮像して得た画像情報を解析することにより、
音声入力者の向いている方向を判断して音声認識の開始
タイミングを制御する例を詳細に説明する。
【0020】図5は、本発明の一実施例に係る音声認識
装置の機能構成を示すブロック図である。同図におい
て、51は物体を撮像してその画像を入力するカメラ等
の画像入力装置1による画像入力部、52は入力された
画像から画像特徴部分を抽出する画像特徴抽出部、53
は音声を入力するマイクロフォン等の音声入力装置2に
よる音声入力部、54は入力された音声から音声特徴部
分を抽出する音声特徴抽出部、55は抽出された音声特
徴かせ音声を認識する音声認識部である。尚、画像特徴
抽出部53、音声特徴抽出部54、音声認識部55はC
PU3により実行される。
【0021】図6は、本実施例に係る音声認識装置にお
ける音声認識開始処理を示すフローチャートである。
【0022】図7、図8は、本実施例に係る音声認識装
置における、音声入力者と音声入力部の位置関係及び音
声入力者の画像特徴を例示したものである。
【0023】これらの図を参照しながら本発明の一実施
例の動作を説明する。
【0024】まず、ステップS31で、画像入力部51
において、撮像された画像が入力される。ステップS3
2で、画像特徴抽出部53において、入力された画像の
画像特徴が抽出される。ステップS33で、ステップS
32で抽出された画像特徴が図7に示すように、音声入
力者が音声入力部の正面を向いていない画像特徴である
と判定とれた場合は、ステップS31に戻って処理が続
けられる。ステップS33で、図8に示すように、音声
入力者が音声入力部の正面を向いている画像特徴である
と判断された場合は、ステップS34で、画像特徴抽出
部から音声認識部へ音声開始の指示が出される。ステッ
プS35で、音声入力部51より音声が入力される。ス
テップS36で、音声特徴抽出部53において、入力さ
れた音声の音声特徴が抽出される。ステップS37で、
音声認識部55において音声認識が行われる。
【0025】図9は、本実施例において、更に音声入力
者動作指示を行い得るようにした音声認識装置の機能構
成を示すブロック図である。同図において、60は音声
入力者が音声入力部の正面を向くように指示を出す音声
入力者動作指示部である。
【0026】図10は、音声入力者指示部60より音声
入力者に指示を出す処理のフローチャートである。
【0027】ステップS33で、図7に示すように、音
声入力者が音声入力部の正面を向いていない画像特徴で
あると判定された場合は、ステップS40で、音声入力
者動作指示部において、音声入力者が音声入力部の正面
を向くように音声等を用いて指示が出される。その後、
ステップS38に戻って処理が続けられる。
【0028】尚、本実施例では、音声入力者の顔の画像
で説明したが顔全体ではなく、口や目の画像等、あるい
は音声入力者の全体像でも良い。
【0029】尚、本実施例では、音声入力者動作指示
は、音声ではなく、画面に表示して行っても良い。
【0030】(実施例3)本実施例では、音声認識に発
声者を撮像した画像情報を補助データとして用いる際
の、音声入力装置と画像入力装置との位置関係を調整す
ることにより、入力する音声情報と画像情報との安定し
た関係を保つ装置について説明する。
【0031】まず、図11は検出したマイクと口の位置
関係からマイク位置を正しい位置に動かすことにより、
マイクと口との位置関係を一定に保つ例である。
【0032】図11の音声認識装置100において、発
話者の口と音声入力部(マイク)400の位置関係を画
像入力部(カメラ)300より取り込み、取り込んだ画
像情報から画像特徴抽出部103で特徴抽出を行い、マ
イクと口の位置検出部104でその位置関係を検出し、
位置修正指示部105で修正する指示を出し、位置関係
出力部500で発話者に音声や表示を用いてマイクと口
の位置を修正させる出力をする。また、位置修正指示部
105の指示にしたがって、マイク位置修正部106
は、マイク位置を自動的に正しい位置に動かす。以上の
ことにより、発話者は音声認識を行う際、音声入力部4
00と口の位置関係が一定に保たれ、音声特徴抽出部1
01において、安定な音声情報の抽出が可能になり、音
声認識部102において高い性能で音声認識結果700
を得る。
【0033】以上のように本実施例によれば、口とマイ
クの位置関係が一定に保たれ、音声認識を行うため、音
声情報が安定的に入力できることが保証される。
【0034】次に、図12はマイクに発信器をつけ、画
像入力部につけた受信器によって画像入力部からのマイ
クの相対位置を判断し、その方向に画像入力部を向ける
ことにより、画像入力部は常にマイクの近くにある口を
撮像できるようにした例である。
【0035】図12に示す音声認識装置100は、音声
入力部400とそれに取りつけたマイクの位置(口の位
置付近)の情報を出す発信器401、及び、画像入力部
300とそれに発信器情報を受信する受信器301を持
ち、音声入力部(マイク)400に向かって発声する
時、マイクに口をかなり近付けて話せば、マイクに取り
付けた発信器401が発信した信号を受信器301で受
信し、この結果をもとに発信位置検出装置109では口
の位置を推定し、カメラの制御装置110にて、カメラ
300の方向及び焦点を口に合わせる。音声認識は、人
間がマイクに向かって発話し、音声入力装置400で音
声の特徴を取り込み、音声特徴抽出器101で抽出し、
口の形の画像情報は、画像入力部300により得られ、
それぞれの特徴(音声情報、画像情報)をそれぞれの特
徴抽出器、音声特徴抽出部300、画像特徴抽出部10
1を用いて抽出し、それら情報を音声認識部102にお
くり、音声認識結果700を得ることを特徴としてい
る。
【0036】以上のように本実施例によれば、口の形の
画像を、音声認識を行うための画像情報を安定的に入力
できることが保証される。
【0037】尚、図では、カメラを1台の例を記してあ
るが、複数台のカメラを用いて、それらのカメラを選択
的に用いる、または、複数台用いることにより、画像情
報を取り込む方法も考えられる。その場合、マイクの影
で画像情報を取り込めなくなることを防ぎ、より有効な
音声情報と画像情報を用いた高性能な音声認識が実現で
きることになる。
【0038】さらに、発信器・受信器のかわりに、マイ
クに印(例えば、ライトのような光るもの)を取り付
け、その記し付近をカメラで狙うようにすることも可能
である。
【0039】さらに、そのライトがマイクの方向に対し
て灯りをあてるようになっていれば、人間が発声する場
合にその灯りが口に当たり、その灯りにカメラの焦点を
当てることにより、口の画像を取り込むことを可能にす
る。この方法によれば、暗いところでも口のまわりは明
るくなり、安定でしかも簡単に口の形の画像情報を取り
入れることが可能になる。
【0040】(実施例4)本実施例では、音声認識に発
声者を撮像した画像情報を補助データとして用いる際
に、音声入力装置と画像入力装置を一体化することによ
り、入力する音声情報と画像情報を安定化させる装置に
ついて説明する。
【0041】まず、図13はマイクとカメラを一体化し
た基本的な装置の構成図である。
【0042】図13に示す音声認識装置100は、音声
入力部202と画像入力部201を一体化したマイク・
カメラ一体型入力装置200により構成され、人間がマ
イク202に向かって発話する時、口の形の画像を容易
に安定して画像入力部201により得られ、それぞれの
特徴(音声情報、画像情報)をそれぞれの特徴抽出部、
音声特徴抽出部101、画像特徴抽出部103を用いて
抽出し、それら情報を音声認識部102におくり、音声
認識結果700を得ることを特徴としている。
【0043】以上のように本実施例によれば、口の形の
画像を音声認識を行うための付加的な情報を安定的に入
力できることが保証される。
【0044】カメラに加えたマイクにライトのような光
を当てる装置を取り付け、そのあかりに向かってカメラ
で狙うようにすることも可能である。このようにすれ
ば、人間が発声する場合にその灯りで口に当たり、その
灯りにカメラの焦点を当てることにより、口の画像を取
り込むことを可能にする。さらに、この方法によれば、
暗いところでも口のまわりは明るくなり、安定でしかも
簡単に口の形の画像情報を取り入れることが可能にな
る。
【0045】次に、図14はカメラが撮像した画像情報
を出力する手段を設けることにより、発話者がその画像
を見て正しい位置に移動できるようにした例である。
【0046】図14の音声認識装置100において、画
像入力部(カメラ)201と音声入力部(マイク)20
2を一体化した入力装置200により構成され、画像入
力部(カメラ)201により入力された口の画像が出力
装置600により発話者に口位置を示し、600′のよ
うに口が出力装置の真中にないときは、発話者がみずか
ら、口の位置や入力装置(マイク)200の位置を60
0″のように口が出力装置の真中に来るように指示をだ
す。600″の位置で発声された音声は、音声入力部
(マイク)202により取り込まれ、音声特徴抽出部1
01により特徴抽出が行われ、音声認識部102によ
り、音声認識結果700を出力する。
【0047】以上のように本実施例によればマイクに向
かって発話する時、発話者は口の位置を容易に修正する
ことができ、安定した音声情報を認識装置に取り込むこ
とを可能にする。
【0048】次に、図15は発話者への口の位置の修正
を促す情報を出力する手段と、マイクの位置を修正する
手段とを設けた例である。
【0049】図15の音声認識装置100において、音
声入力部(マイク)202と画像入力部(カメラ)20
1を一体化した入力装置200を用いて、音声情報と画
像情報を取り込み装置において、取り込んだ画像情報か
ら画像特徴抽出部103で特徴抽出を行い、口の位置検
出部108で口の位置の検出を行い、口の位置修正指示
部107で修正する指示を出し、出力部600で発話者
に口の位置の表示や音声などによりマイクと口の位置を
修正させる出力をする。また、位置修正指示部107の
指示にしたがって、マイク位置修正部106は、マイク
位置を自動的に正しい位置に動かす。以上のことによ
り、発話者は音声認識を行う際、音声入力部202と口
の位置関係が一定に保たれ、音声特徴抽出部101にお
いて、安定な音声情報の抽出が可能になり、さらに、画
像特徴抽出部103においても安定な画像情報が抽出で
き、音声認識部102において高い性能で音声認識結果
700を得ることが可能になる。
【0050】画像入力部(カメラ)201により入力さ
れた口の画像が出力装置600により発話者に口位置を
示し、600′のように口が出力装置の真中にないとき
は、発話者がみずから、口の位置や入力装置(マイク)
200の位置を600″のように口が出力装置の真中に
来るように修正するように指示をだす。
【0051】以上のように本実施例によれば、口とマイ
クの位置関係が一定に保たれ、音声情報および画像情報
を安定して入力できる。
【0052】
【発明の効果】本発明によれば、発声者自身を撮像して
得た画像情報より、発声者の性別・年齢・表情といった
個人情報を得て、この情報に対応した応答をすることに
より、より自然で人間的な機械と人との対話を実現する
ものである。
【0053】本発明によれば、発声者を撮像して得た画
像情報より、発声者の身長、口の位置、顔の向き等の情
報を得て、この情報に対応してマイクロフォンの位置・
方向を発声者に適するよう制御することにより、明瞭で
安定した音声入力を可能とする。
【0054】本発明によれば、発声者を撮像して得た画
像情報より、認識すべき音声を発声者が発声するタイミ
ングを測り、音声認識の開始を制御することにより、音
声認識開始の指示操作を省略し得る。
【0055】本発明によれば、発声者の発声部分と、音
声入力手段との距離を一定に保つように制御することに
より、安定した音声情報を得られる。
【図面の簡単な説明】
【図1】本実施例の装置の構成を示すブロック図。
【図2】実施例1のフローチャート(1)。
【図3】カメラとマイクと発声者の位置関係例示図。
【図4】実施例1のフローチャート(2)。
【図5】実施例2の機能構成図(1)。
【図6】実施例2のフローチャート(1)。
【図7】発声者が横を向いている時の画像特徴例示図。
【図8】発声者が正面を向いている時の画像特徴例示
図。
【図9】実施例2の機能構成図(2)。
【図10】実施例2のフローチャート(2)。
【図11】実施例3の機能構成図(1)。
【図12】実施例3の機能構成図(2)。
【図13】実施例4の機能構成図(1)。
【図14】実施例4の機能構成図(2)。
【図15】実施例4の機能構成図(3)。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 大洞 恭則 東京都大田区下丸子3丁目30番2号キヤノ ン株式会社内 (72)発明者 藤田 稔 東京都大田区下丸子3丁目30番2号キヤノ ン株式会社内 (72)発明者 山田 雅章 東京都大田区下丸子3丁目30番2号キヤノ ン株式会社内

Claims (22)

    【特許請求の範囲】
  1. 【請求項1】 画像情報を入力し、 前記入力した画像情報から画像特徴部分を抽出し、 前記抽出した画像特徴部分を分析し、 前記分析して得た情報に対応して出力情報応答部を制御
    することを特徴とする情報処理方法。
  2. 【請求項2】 前記分析して得る情報は、発声者の性別
    情報とすることを特徴とする請求項1に記載の情報処理
    方法。
  3. 【請求項3】 前記分析して得る情報は、発声者の年令
    情報とすることを特徴とする請求項1に記載の情報処理
    方法。
  4. 【請求項4】 前記分析して得る情報は、発声者の表情
    情報とすることを特徴とする請求項1に記載の情報処理
    方法。
  5. 【請求項5】 画像情報を入力し、 前記入力した画像情報から画像特徴部分を抽出し、 前記抽出した画像特徴部分を分析し、 前記分析して得た情報に対応して、音声入力装置の位置
    を制御することを特徴とする情報処理方法。
  6. 【請求項6】 前記分析して得る情報は、発声者の体格
    情報とすることを特徴とする請求項5に記載の情報処理
    方法。
  7. 【請求項7】 画像情報を入力し、 前記入力した画像情報から画像特徴部分を抽出し、 前記抽出した画像特徴部分を分析し、 前記分析して得た情報により、入力した音声情報の認識
    のを開始を制御することを特徴とする情報処理方法。
  8. 【請求項8】 前記分析は、前記入力した画像情報から
    発声者が正面を向いた画像情報を識別するよう分析する
    ことを特徴とする請求項7に記載の情報処理方法。
  9. 【請求項9】 画像情報を入力し、 前記入力した画像情報から画像特徴部分を抽出し、 前記抽出した画像特徴部分を分析し、 前記分析して得た情報により、発声者位置修正の指示を
    出力することを特徴とする情報処理方法。
  10. 【請求項10】 前記分析して得る情報は、発声者の口
    の位置情報であることを特徴とする請求項9に記載の情
    報処理方法。
  11. 【請求項11】 画像情報を入力する画像入力手段と、 前記入力した画像情報から画像特徴部分を抽出する抽出
    手段と、 前記抽出した画像特徴部分を分析する分析手段と、 前記分析して得た情報に対応して出力情報応答部を制御
    する制御手段とを有することを特徴とする情報処理装
    置。
  12. 【請求項12】 前記分析手段は、発声者の性別情報を
    分析して得ることを特徴とする請求項11に記載の情報
    処理装置。
  13. 【請求項13】 前記分析手段は、発声者の年令情報を
    分析して得ることを特徴とする請求項11に記載の情報
    処理装置。
  14. 【請求項14】 前記分析手段は、発声者の表情情報を
    分析して得ることを特徴する請求項11に記載の情報処
    理装置。
  15. 【請求項15】 画像情報を入力する画像入力手段と、 前記入力した画像情報から画像特徴部分を抽出する抽出
    手段と、 前記抽出した画像特徴部分を分析する分析手段と、 前記分析して得た情報に対応して、音声入力装置の位置
    を制御する制御手段とを有することを特徴とする情報処
    理装置。
  16. 【請求項16】 前記分析手段は、発声者の体格情報を
    分析して得ることを特徴とする請求項15に記載の情報
    処理装置。
  17. 【請求項17】 画像情報を入力する画像入力手段と、 前記入力した画像情報から画像特徴部分を抽出する抽出
    手段と、 前記抽出した画像特徴部分を分析する分析手段と、 前記分析して得た情報により、入力した音声情報の認識
    を開始を制御する制御手段とを有することを特徴とする
    情報処理装置。
  18. 【請求項18】 前記分析手段は、前記入力した画像情
    報から発声者が正面を向いた画像情報を識別するよう分
    析することを特徴とする請求項17に記載の情報処理装
    置。
  19. 【請求項19】 画像情報を入力する画像入力手段と、 前記入力した画像情報から画像特徴部分を抽出する抽出
    手段と、 前記抽出した画像特徴部分を分析する分析手段と、 前記分析して得た情報により、発声者位置修正の指示を
    出力する出力手段とを有することを特徴とする情報処理
    装置。
  20. 【請求項20】 前記分析手段は、発声者の口の位置情
    報を分析することを特徴とする請求項19に記載の情報
    処理装置。
  21. 【請求項21】 発信器を有する音声入力手段と、 受信器を有する画像入力手段と、 前記発信器の情報に基づき前記画像入力手段を制御する
    制御手段を有することを特徴とする情報処理装置。
  22. 【請求項22】 画像情報を入力する画像入力部と、音
    声情報を入力する音声情報入力部とを有する入力手段
    と、 前記画像入力部より入力した画像情報を出力する出力手
    段とを有することを特徴とする情報処理装置。
JP5153630A 1993-06-24 1993-06-24 情報処理方法及び装置 Withdrawn JPH0728488A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5153630A JPH0728488A (ja) 1993-06-24 1993-06-24 情報処理方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5153630A JPH0728488A (ja) 1993-06-24 1993-06-24 情報処理方法及び装置

Publications (1)

Publication Number Publication Date
JPH0728488A true JPH0728488A (ja) 1995-01-31

Family

ID=15566706

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5153630A Withdrawn JPH0728488A (ja) 1993-06-24 1993-06-24 情報処理方法及び装置

Country Status (1)

Country Link
JP (1) JPH0728488A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004534290A (ja) * 2001-03-08 2004-11-11 シュムエル ルヴィン, アクセスの自動制御のための方法および装置
WO2006112198A1 (ja) * 2005-03-30 2006-10-26 Pioneer Corporation 音声認識装置、音声認識方法、音声認識プログラム、および記録媒体
JP2007142957A (ja) * 2005-11-21 2007-06-07 National Institute Of Information & Communication Technology 遠隔対話方法及び装置
JP2010251916A (ja) * 2009-04-13 2010-11-04 Nec Casio Mobile Communications Ltd 音データ処理装置、及び、プログラム
US20120013750A1 (en) * 2010-07-16 2012-01-19 Gn Netcom A/S Sound Optimization Via Camera
WO2013170802A1 (zh) * 2012-10-09 2013-11-21 中兴通讯股份有限公司 一种提高移动终端通话音质的方法及装置
CN111033611A (zh) * 2017-03-23 2020-04-17 乔伊森安全系统收购有限责任公司 使嘴部图像与输入指令关联的系统和方法
CN113984105A (zh) * 2020-07-27 2022-01-28 丰田自动车株式会社 控制系统、控制方法以及计算机可读取的记录介质
JP2023117120A (ja) * 2022-02-10 2023-08-23 フジテック株式会社 エレベータ用の音声認識システム

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004534290A (ja) * 2001-03-08 2004-11-11 シュムエル ルヴィン, アクセスの自動制御のための方法および装置
WO2006112198A1 (ja) * 2005-03-30 2006-10-26 Pioneer Corporation 音声認識装置、音声認識方法、音声認識プログラム、および記録媒体
JPWO2006112198A1 (ja) * 2005-03-30 2008-12-04 パイオニア株式会社 音声認識装置、音声認識方法、音声認識プログラム、および記録媒体
JP4682198B2 (ja) * 2005-03-30 2011-05-11 パイオニア株式会社 音声認識装置、音声認識方法、音声認識プログラム、および記録媒体
JP2007142957A (ja) * 2005-11-21 2007-06-07 National Institute Of Information & Communication Technology 遠隔対話方法及び装置
JP2010251916A (ja) * 2009-04-13 2010-11-04 Nec Casio Mobile Communications Ltd 音データ処理装置、及び、プログラム
US20120013750A1 (en) * 2010-07-16 2012-01-19 Gn Netcom A/S Sound Optimization Via Camera
WO2013170802A1 (zh) * 2012-10-09 2013-11-21 中兴通讯股份有限公司 一种提高移动终端通话音质的方法及装置
CN103716446A (zh) * 2012-10-09 2014-04-09 中兴通讯股份有限公司 一种提高移动终端通话音质的方法及装置
CN111033611A (zh) * 2017-03-23 2020-04-17 乔伊森安全系统收购有限责任公司 使嘴部图像与输入指令关联的系统和方法
CN113984105A (zh) * 2020-07-27 2022-01-28 丰田自动车株式会社 控制系统、控制方法以及计算机可读取的记录介质
JP2023117120A (ja) * 2022-02-10 2023-08-23 フジテック株式会社 エレベータ用の音声認識システム

Similar Documents

Publication Publication Date Title
JP4294853B2 (ja) 操作指示装置
JP4087400B2 (ja) 音声対話翻訳装置、音声対話翻訳方法および音声対話翻訳プログラム
JP5666219B2 (ja) 眼鏡型表示装置及び翻訳システム
CN106157956A (zh) 语音识别的方法及装置
US5806036A (en) Speechreading using facial feature parameters from a non-direct frontal view of the speaker
JP2002251234A (ja) 複数のセンサによるヒューマンインタフェースシステム
US20180158450A1 (en) Speech recognition apparatus and speech recognition method
KR20010062767A (ko) 정보 처리 장치, 정보 처리 방법 및 저장 매체
JP2003520528A (ja) 多様式的ビデオ目標捕捉及び再指向システム及び方法
KR20080057030A (ko) 이모티콘을 이용한 화상통화장치 및 방법
KR20080050994A (ko) 제스처/음성 융합 인식 시스템 및 방법
JP2003216955A (ja) ジェスチャ認識方法、ジェスチャ認識装置、対話装置及びジェスチャ認識プログラムを記録した記録媒体
JP2016224554A (ja) 眼前装着型表示装置
CN107003823A (zh) 头戴式显示系统和头戴式显示装置
US20200342896A1 (en) Conference support device, conference support system, and conference support program
JPH0728488A (ja) 情報処理方法及び装置
WO2017086108A1 (ja) 情報提示装置、情報提示方法、プログラム、情報処理装置及び案内ロボット制御システム
JP2007272534A (ja) 省略語補完装置、省略語補完方法、及びプログラム
US11900931B2 (en) Information processing apparatus and information processing method
CN113822187A (zh) 手语翻译、客服、通信方法、设备和可读介质
JP2002006874A (ja) 音声処理装置、動画像処理装置、音声・動画像処理装置及び音声・動画像処理プログラムを記録した記録媒体
JPH02183371A (ja) 自動通訳装置
JP2010191530A (ja) 国籍判定装置、方法およびプログラム
WO2023193803A1 (zh) 音量控制方法、装置、存储介质和电子设备
JP2017182261A (ja) 情報処理装置、情報処理方法、およびプログラム

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20000905