JP4849303B2 - 行動指針決定装置及びコンピュータプログラム - Google Patents

行動指針決定装置及びコンピュータプログラム Download PDF

Info

Publication number
JP4849303B2
JP4849303B2 JP2005243656A JP2005243656A JP4849303B2 JP 4849303 B2 JP4849303 B2 JP 4849303B2 JP 2005243656 A JP2005243656 A JP 2005243656A JP 2005243656 A JP2005243656 A JP 2005243656A JP 4849303 B2 JP4849303 B2 JP 4849303B2
Authority
JP
Japan
Prior art keywords
action
model
skin color
guideline
feature information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005243656A
Other languages
English (en)
Other versions
JP2007058615A5 (ja
JP2007058615A (ja
Inventor
ニック・キャンベル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2005243656A priority Critical patent/JP4849303B2/ja
Priority to US11/990,191 priority patent/US7984010B2/en
Priority to PCT/JP2005/019080 priority patent/WO2007023576A1/ja
Priority to EP05795653A priority patent/EP1936545A1/en
Publication of JP2007058615A publication Critical patent/JP2007058615A/ja
Publication of JP2007058615A5 publication Critical patent/JP2007058615A5/ja
Application granted granted Critical
Publication of JP4849303B2 publication Critical patent/JP4849303B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Automation & Control Theory (AREA)
  • Image Analysis (AREA)

Description

この発明は、音声と画像とから周囲の状況を推定し、それに従って行動指針を決定する装置に関し、特に、人間の音声に関する非言語的情報と、画像から得られる人間の動きに関する情報とを有効に利用して周囲の状況に対する適切な行動を行なうための行動指針を決定するための行動指針決定装置及びコンピュータプログラムに関する。
近年、生活の更なる簡便性のために家庭用電機製品等のオートメーション化が進んでいる。例えば、人が部屋に入った事に反応して点灯する照明、人が前に立った事に反応して蓋が開く電動式の便座等がある。こうした技術により、人々の生活はますます便利なものになっている。
これらの他に、ユーザの操作なしに所定の処理を行なうテレビジョン受像機システムも存在する。このようなテレビジョン受像機として、特許文献1に記載のものがある。特許文献1に記載のテレビジョン受像機は、ユーザの視聴履歴を蓄積しておき、ユーザがその番組の放送時間帯と同じ時間帯に別の番組を見ている事が判明すると、同じ時間帯に好みの番組が別チャンネルで放送されている事をユーザに通知する。この事により、ユーザは当該好みの番組を見逃す事なく確実に視聴できる。
この様な技術をさらに進歩させると、ユーザの視聴履歴に基づき、ユーザの視聴パターンに従って決定される時間に、ユーザの視聴パターンに適合したチャンネルに合わせて自動的に電源の投入又は切断をする自動制御テレビジョン受像機が考えられる。
例えば月曜日から金曜日まで毎日夜10時から11時まで決まったチャンネルの番組を見るユーザがいるものとする。通常のテレビジョン受像機であれば、ユーザは番組を見るために電源を入れて、チャンネルを合わせなければならない。しかし、自動制御テレビジョン受像機の場合には、ユーザの過去の番組視聴歴から「月曜日〜金曜日の夜10時〜11時には○チャンネルを見る」という情報が自動的に得られる。そして、その視聴履歴を元にしてテレビジョン受像機の電源を自動的に入れたり切ったりできる上に、チャンネル合わせも自動的に行なう事ができる。それゆえ、例えば火曜日の夜10時にユーザがいつも見ている番組を見るために、自らテレビジョン受像機の電源を入れて該当チャンネルに合わせる必要はない。毎週火曜日の夜の10時になれば、テレビジョン受像機の電源が自動的に入り、チャンネルが該当チャンネルに自動的に合わされるからである。
特開2005−039681
この様に、自動制御テレビジョン受像機においては、ユーザの視聴パターンに合わせて、自動的にテレビジョン受像機がついたり消えたりする。それゆえ、ユーザが習慣的に見る事にしている番組を見逃す可能性は格段に減ると思われる。しかし、視聴パターンのみでテレビジョン受像機の電源のオンオフを行なうと、場合によっては様々な問題が生じる。
例えば、部屋の中にいる人間が緊急かつ深刻な会話をしている最中に、テレビジョン受像機の電源が入ると、結局、すぐにテレビジョン受像機の電源が切られる事になる可能性が高い。このような場合には、再度テレビジョン受像機を切るという作業を無駄に行なわなければならない。さらに、会話に加わっていた人の気分を害するという可能性も考えられる。これは、テレビジョン受像機が、部屋の中の雰囲気を感じ取る事ができないために起こる問題である。
場の雰囲気と無関係に会話をさえぎる形で何らかの行動をするために、会話に加わっていた人間の気分を害するという状況が考えられるのは、自動制御テレビジョン受像機の使用時に限定されない。これは、例えば多くの人間のいる場で何らかのサービスをするロボットの場合にも起こり得る。
例えば、大勢の人間が集まっている場で、皆が楽しめる様に自律的に行動するロボットを考える。このロボットは例えば、誰とも会話せずに孤立している人間を見つけると、話しかけるという機能を持っているとする。しかし、ある参加者が孤立しているか否かを判定する際に、単に会話をしているか否かのみを参考にすると問題が生じる。
具体的には、例として3人の人間が会話をしている場面を想定する。このうち2名が対話を行なっていて3人目の人間は言葉を発さずに、傍らに立っているだけであるとする。このとき、3人目の人間が会話に参加せずに孤立していると判定したロボットがその人間に話しかけると、不都合が生じる場合がある。なぜならば、その人間は積極的に対話の輪には入っていない様に見えたとしても、対話している2人の会話を聞いているかもしれないからである。
複数人が会話をしている際にはこのような状況は一般によく見られる。つまり、グループ中の一部の人間のみが対話を行ない、その他の人間は明確な言語を発せず、一見会話に加わっていない様に見えるが、そのような人間でも確かに話を聞いており、会話に参加しているという状況である。
このような状況は一般的であるにも関わらず、ロボットがこの状況に適切に対応できず、いわば無頓着にその場に介入してしまうとすれば、それは問題である。一方、人間の場合には、種々の情報から判断してそのような行動をとるべきかつつしむべきかについて、適切な判断を行なう事ができる。人間と係わり合いを持つロボットについても、そのような能力を備える事が望ましい。しかも、人間との係わり合いを持つという観点から、こうした能力は、リアルタイムの動作に適用される事が望ましい。
そこで、本発明は、その場の空気を読んで、どのような動作をすべきかを適切に判断して行動指針を決定する事ができる行動指針決定装置及びコンピュータプログラムを提供する事を目的とする。
この発明の他の目的は、その場の人間の間の空気を読んで、どのような動作をすべきかを適切に判断して行動指針を決定する事ができる行動指針決定装置及びコンピュータプログラムを提供する事である。
この発明の他の目的は、その場の人間の間の空気を読んで、どのような動作をすべきかを適切に、かつリアルタイムで判断して行動指針を決定する事ができる行動指針決定装置及びコンピュータプログラムを提供する事である。
本発明の第1の局面に係る行動指針決定装置は、人間が存在する可能性のある場において、周囲の状況から、とるべき行動の指針を決定するための行動指針決定装置であって、周囲の画像から抽出される人間の動きに関する所定の特徴情報の時系列と、とるべき行動の指針との関係を予め学習した行動指針決定モデルを格納するためのモデル格納手段と、周囲の動画像から所定の特徴情報の時系列を作成し、モデル格納手段に格納された行動指針決定モデルを参照する事により、とるべき行動の指針を決定するためのモデル参照手段とを含む。
この行動指針決定装置によると、人間の動きから抽出される所定の特徴量の時系列によってモデルを参照する事により、予め学習されたルールに従って、とるべき行動指針を決定する。それゆえ、自動制御により動作する装置が、人間の動きを参照して行動指針を決定し、それに従い動作を行なう事ができる。従って、その場の雰囲気に応じた適切な行動をとる事ができ、場に相応しくない行動をとったり、無駄な動作を行ったりする事が防止できる。その結果、その場の空気を読んで、どのような動作をすべきかを適切に判断して行動指針を決定する事ができる行動指針決定装置を提供できる。
好ましくは、モデル参照手段は、動画像の各フレームから肌色の部分を検出するための肌色検出手段と、動画像に対し、肌色検出手段によって検出された肌色の部分の中で、同一人物の顔と手との組合せを識別し、各組合せについて、顔と手とをトラッキングするためのトラッキング手段と、トラッキング手段によりトラッキングされた各人物の顔及び手の動きから、所定の特徴情報をフレームごとに作成し、複数フレームに対する所定の特徴情報を用い、モデル格納手段に格納された行動指針決定モデルを参照する事により、行動の指針を決定するための手段とを含む。
この行動指針決定装置によると、トラッキングされた各人の顔及び手の動きを参照し、とるべき行動指針を決定するための特徴情報を抽出する事ができる。ある人の感情、発話時の意図、会話への参加状況などは、顔及び手の位置を時系列に追う事で得られるそれらの動きから推測できる。ある人物のそのときの感情、発話意図、会話への参加状況などを考慮して行動指針を決定できる。その結果、その場の人間の間の空気を読んで、どのような動作をすべきかを適切に判断して行動指針を決定する事ができる行動指針決定装置を提供できる。
さらに好ましくは、行動指針決定装置は、人間の顔と手との動きに関する動き予測モデルを格納するための動き予測モデル格納手段をさらに含み、トラッキング手段は、動画像に対し、肌色検出手段によって検出された肌色の部分の中で、同一人物の顔と手との組合せを識別するための手段と、識別するための手段により識別された各組合せについて、動き予測モデル格納手段に格納された動き予測モデルに基づいて予測される、当該組合せに含まれる顔と手との動きに基づいて顔と手とをトラッキングするための手段とを含む。
この行動指針決定装置によると、動き予測モデルに基づいて予測される組合せに含まれる顔と手との動きを参照して顔と手とをトラッキングする。予測に従ってトラッキングを行なう事により、適切で迅速なトラッキング処理が行なわれる様になる。その結果、その場の人間の間の空気を読んで、どのような動作をすべきかを適切に、かつリアルタイムで判断して行動指針を決定する事ができる行動指針決定装置を提供できる。
さらに好ましくは、行動指針決定装置はさらに、肌色検出手段により検出されたトラッキングするための手段によりトラッキングされた顔の各々の向いている方向を検出するための顔方向検出手段を含み、所定の特徴情報は、各フレームにおける各組合せの顔の位置及び向きと、手の位置とを示す情報を含む。
この行動指針決定装置によると、顔の向いている方向を検出する事ができる。言葉を発していない人物がいても、顔の向きからも会話に加わっているか否かを判定できる。また、それらの時系列情報によって、顔の上下動(うなづき)、左右への往復運動(かぶりをふる事)など、各人の感情、判断などを表わす情報が得られる。従って、その場の人間の間の空気を読んで、どのような動作をすべきかを適切に、かつリアルタイムで判断して行動指針を決定する事ができる行動指針決定装置を提供できる。
さらに好ましくは、行動指針決定モデルは、周囲の画像から抽出される人間の動きに関する所定の特徴情報と、周囲の音声から得られる非言語的音声情報に基づいて作成される所定の音響特徴情報とを統合した画像・音声統合型の特徴情報の時系列と、とるべき行動の指針との関係を予め学習した音声統合型の行動指針決定モデルを含み、モデル参照手段は、周囲の動画像及び音声から画像・音声統合型の特徴情報を作成し、画像・音声統合型の特徴情報の時系列を用いてモデル格納手段に格納された音声統合型の行動指針決定モデルを参照する事により、とるべき行動の指針を決定するための画像・音声統合型モデル参照手段を含む。
この行動指針決定装置によると、モデルを参照し、人間の動きと周囲の音声とを参照してとるべき行動指針を決定できる。動きだけではなく、音声も統合する事により、周囲の状況を判断するための情報がより多くなる。また、音声と動きとを統合する事により、動きのみから、又は音声のみからは得られなかった情報も得られる。従って、周囲の状況に関し、より適切な判断を行なう事ができる。その結果、その場の人間の間の空気を読んで、どのような動作をすべきかを適切に、かつリアルタイムで判断して行動指針を決定する事ができる行動指針決定装置を提供できる。
さらに好ましくは、周囲の音声は、マイクロフォンで受音され、音声信号に変換され、所定の音響特徴情報は、音声信号に基づいて推定される、発話の有無を示す情報、及び音声信号に基づいて推定される発話の持続時間、の任意の組合せを含む。
この行動指針決定装置によると、音響特徴情報は、上記した任意の情報の組合せからなっている。発話の有無、発話の持続時間などは、その場で会話が行われているか否か、行なわれているとしてそれが活発か否か、等を表わす。それゆえ、それらの情報を適切に組合せる事により、その場の雰囲気を的確にとらえる事ができる。その結果、その場の人間の間の空気を読んで、どのような動作をすべきかを適切に、かつリアルタイムで判断して行動指針を決定する事ができる行動指針決定装置を提供できる。
さらに好ましくは、周囲の音声は、指向性を有する複数のマイクロフォンで別々に受音されて複数の音声信号に変換され、所定の音響特徴情報は、複数の音声信号に基づいて推定される発話方位を示す情報、複数の音声信号に基づいて推定される、各方位における発話の有無を示す情報、及び複数の音声信号に基づいて推定される、各方位における発話の持続時間、の任意の組合せを含む。
この行動指針決定装置によると、音声の生じた方向である発話方位、各発話方位で発話があったか否か、又は各発話方位での発話時間を音響特徴量の要素の一つとして得る事ができる。これらと画像情報とを総合する事で、その場にいる複数人の発話状況を区別する事ができる。その結果、複数人が存在する場の空気を読んで、どのような動作をすべきかを適切に、かつリアルタイムで判断して行動指針を決定する事ができる行動指針決定装置を提供できる。
さらに好ましくは、画像・音声統合型の特徴情報は、発話者別に推定される発話の有無を示す情報、発話者別に推定される発話の持続時間、発話者別に推定される発話音声の大きさ、及び周囲の人間の間に、所定の関係があると推定されるか否かに関する情報、の任意の組合せを含む。
この行動指針決定装置によると、その場にいる人間に関し、各発話者の発話に関する情報と、発話者間の関係に関する情報とを用いて行動指針を決定できる。それゆえ、音声のみもしくは動きのみから特徴情報を抽出するよりも広い範囲の特徴情報を得る事ができる。その結果、行動指針決定をさらに適切に行なう事ができる。
本発明の第2の局面に係る行動指針決定装置は、人間が存在する可能性のある場において、周囲の状況から、とるべき行動の指針を決定するための行動指針決定装置であって、周囲の音声から抽出される人間の発する音声に関する所定の音響特徴情報の時系列と、とるべき行動の指針との関係を予め学習した行動指針決定モデルを格納するためのモデル格納手段と、周囲の音声から所定の音響特徴情報の時系列を作成し、モデル格納手段に格納された行動指針決定モデルを参照する事により、とるべき行動の指針を決定するためのモデル参照手段とを含む。
この行動指針決定装置によると、モデルを参照し、周囲の音声を参照してとるべき行動指針を決定する情報を抽出する事ができる。それゆえ、自動制御により動作する装置が、音を参照して行動指針を決定し、それに従い動作を行なう事ができる。その結果、その場にいる人間の気分を害する事がなくなったり、自動制御にあたって無駄な動作を省く事ができる様になったりする。
好ましくは、周囲の音声は、マイクロフォンで受音して音声信号に変換され、所定の音響特徴情報は、単数の音声信号に基づいて推定される、発話の有無を示す情報、及び単数の音声信号に基づいて推定される発話の持続時間、の任意の組合せを含む。
この行動指針決定装置によると、音響特徴情報は、任意の情報の組合せからなっている。それゆえ、それらの情報を適切に組合せる事により、必要な行動指針決定情報を得る事ができる。その結果、適切な行動指針に基づいて、装置の自動制御がされる。
さらに好ましくは、周囲の音声は、指向性を有する複数のマイクロフォンで別々に受音されて複数の音声信号に変換され、所定の音響特徴情報は、複数の音声信号に基づいて推定される発話方位を示す情報、複数の音声信号に基づいて推定される、発話の有無を示す情報、及び複数の音声信号に基づいて推定される発話の持続時間、の任意の組合せを含む。
この行動指針決定装置によると、音声の生じた方向である発話方位を音響特徴量の要素の一つとして得る事ができる。それゆえ、発話方位を参照して複数人の音響情報を区別する事ができる。その結果、複数人の反応を適切に予測して行動指針を決定する事ができる。
本発明の第3の局面に係るコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを上記したいずれかの行動指針決定装置として動作させるものである。
以下、図面を参照し、本発明の実施の形態を説明する。本実施の形態は、視聴履歴に基づいて電源のオンオフやチャンネル合わせを制御するテレビジョン受像機において、周囲の状況から得られる非言語音声情報及び動き情報に基づいて、ユーザの視聴パターンにあった番組の放送時に、電源を自動的にオンするか否かに関する行動指針を決定する装置に関するものである。
<構成>
図1に、本実施の形態に係る自動制御テレビジョン受像機に搭載された行動指針決定装置42と自動制御テレビジョン受像機システムとについての機能ブロック図を示す。
図1を参照して、このテレビジョン受像機システムは、図には示さないテレビジョン受像機本体に取付けられたスイッチ又はリモートコントロールパネルを用いたユーザの操作に応じて、ユーザの視聴履歴を取得する視聴履歴取得部30と、視聴履歴の取得に使用するための時間情報をカウントするタイマ32と、視聴履歴取得部30によって取得された視聴履歴を記憶するための視聴履歴記憶部34と、視聴履歴記憶部34に記憶された視聴履歴からユーザの視聴パターンを学習するための視聴パターン学習部36と、視聴パターン学習部36で学習された視聴パターンを記憶するための視聴パターン記憶部38と、視聴パターン記憶部38に記憶された視聴パターンを参照してテレビジョン受像機のチャンネル合わせをするための信号及び電源のオン又はオフを制御する信号を出力するためのテレビ制御信号出力部40とを含む。
このテレビジョン受像機システムはさらに、テレビジョン受像機のある部屋の全景を撮影できるよう設置されたカメラ44と、テレビジョン受像機のある部屋の音声がどの方向から生じたのかが明確になるような方法で収録できる指向性のある複数のマイクロフォン46と、カメラ44で録画された画像とマイクロフォン46で収録された音とを使用して、当該テレビジョン受像機の設置してある部屋の中にいる人が発する音声に付随する非言語音声情報と、人物の頭部及び両手の動きに関する情報とを同期させ両者の関係を抽出して、人間の反応を予測して、テレビジョン受像機の電源をオンすべきか否かに関する行動指針を示す情報を抽出する行動指針決定装置42とを含む。
ここで、非言語音声情報とは、人間の発する音声のうちから話の内容に関する情報を除いたものである。つまり、音声の生じている方位である発話方位、音声の有無、音声の継続している時間の長短といったものである。
図2に、行動指針決定装置42の詳細を示す。図2を参照して、この行動指針決定装置42は、カメラ44によって録画された部屋の全景の画像をフレーム単位で格納する画像格納部60と、画像格納部60に格納された画像の各フレームから肌色の部分をかたまりでかつリアルタイムで検出する肌色検出部62と、肌色検出部62によって検出された肌色のかたまりの中で、一般的に上位にあり大きいものを顔とし下位にあり小さいものを手として区別し、それぞれに予め決められたルールに則って識別番号を付与する肌色部位区別部64と、人間の顔と手との動きに関する動き予測モデルを格納するための動き予測モデル格納部68と、動き予測モデル格納部68に格納された動き予測モデルを用い、肌色部位区別部64によって区別され識別番号を付与された顔及び手の動きを1フレームずつトラッキングする肌色部位トラッキング部66とを含む。
ここで、肌色を検出するとは、人間の皮膚の色であると考えられる肌色を、画像の他の部分から分離する処理を行なう事である。この処理を行なう事によって、肌色の部分がいくつかのかたまりとして画像の他の部分から区別される。一般的に、1人の人間の画像に対してこの処理を行なうと、顔の部分が一つの肌色のかたまり、両手の部分が二つの肌色のかたまりとして検出される。
この行動指針決定装置42はさらに、マイクロフォン46によって収録された、部屋で生じる様々な音声をフレーム化して格納するための音声格納部70と、音声格納部70に格納された音声から、人間の発する音の有無、音声の生じた方位、及び、音声が継続する時間の長短に関する音響特徴情報をフレームごとに抽出処理するための音声関連処理部72と、音声関連処理部72で処理された音声関連の情報と肌色部位トラッキング部66でトラッキング処理された動作情報とを同期させ、所定時間ごとに一組のデータとしてフレーム化して画像・音声の特徴情報を統合するための音声−動作統合部74とを含む。
行動指針決定装置42はさらに、画像・音声統合型の特徴情報ととるべき行動の指針との関係を予め学習したマッチング用モデルを格納するためのマッチング用モデル格納部78と、音声−動作統合部74によりフレーム化された画像・音声統合型の特徴情報を、所定フレームだけ先入れ先出し方式で一時的に蓄積するためのバッファ80と、バッファ80によって蓄積された動作・音声情報のうち、最新の複数フレーム分を使用して、マッチング用モデル格納部78に格納されたモデルを参照する事により、周囲の人間により発生する音声及び画像から得られた顔及び手の動きに関する情報を用い、発話内容に依存せずに場の状況について判断し、それに従ってテレビジョン受像機の電源をオンすべきかすべきでないかという行動に関する行動指針をYES/NOの形で決定し、テレビジョン受像機に与えるためのモデル参照部76とを含む。
図3に、カメラ44で撮影された画像の一例を示す。図3を参照して、この例は、部屋の中にいる人が会話をするためにテーブルについている場合を撮影した例である。この撮影にあたっては、テーブルの中央に全方位カメラを設置している。このカメラの解像度はそれほど高くないので、個々の人物の視線の動きを明らかにする事はできない。しかし、上記図2の説明で触れた様に、後の肌色部位トラッキング部66での処理では顔及び手の動きを明らかにする必要があるのみで、視線の動きを明らかにする必要はない。それゆえ、この程度の解像度を持つカメラで撮影された映像で十分である。
図4に、肌色検出部62で肌色検出処理をされた画像の一例を示す。図4を参照して、この例では一人の人物を例にとって説明する。ここで、肌色の領域90は顔を示し、肌色の領域92は左手、肌色の領域94は右手をそれぞれ示す。この例からわかる様に、一般的に顔は手よりも上位にあり、かつ、大きい事が多い。また、顔は一つであるのに対し、一般的に手は二つある。そこでこの上下関係と大小関係と数的関係とを用いて肌色部位区別部64での部位区別処理が行なわれる。
図5に、マッチング用モデル格納部78に格納されるマッチング用モデルを作成する際に使用される手動ラベリングの方法の一例を示す。図5を参照して、まず、セクション100は音声関連情報への手動ラベリング結果を示すものである。枠の種類が6種類あるのは、会話への参加者が6人いるからである。aは参加者A、bは参加者B、cは参加者C、dは参加者D、eは参加者E、及び、fは参加者Fをそれぞれ表わす。A〜Fの詳細については後述する。図中に示された他のアルファベットは、音声関連情報の種類を示す。ここで使用されているアルファベットが具体的に何を示しているのかについては後述する。
次に、セクション102は動作情報を得るために参照される会話の様子を録画した画像である。この画像を参照しながら次に述べる動作の手動でのトラッキングを行なう。
セクション104はこの手動でのトラッキング結果を示すものである。枠が6種類あるのは、セクション100同様、会話への参加者がA〜Fの6人いるためである。図中に示された他のアルファベットは、音声関連情報の種類を示す。ここで使用されているアルファベットが具体的に何を示しているのかについては後述する。
図6に、セクション100(図5参照)で示された音声関連情報への手動ラベリング結果を参加者ごとに経時的に配列したものを示す。図6を参照して、ここでの会話への参加者110は、A、B、C、D、E、Fの計6名である。
セクション116では参加者の性別を示す。ここで、アルファベットmは男性、fは女性をそれぞれ表わす。これによると、Aは男性、Bは女性、Cは男性、Dは女性、Eは女性、Fは男性である事がわかる。
また、セクション118は参加者の年代を示す。ここで、sは年長者、jは年少者、mはその中間の年代をそれぞれ表わす。これによると、Aは年長者、Bは年少者、Cは年少者、Dは中間の年代、Eは年長者、Fは中間の年代である事がわかる。
さらに、セクション120は参加者の使用する言語を示す。ここで、jは日本語、eは英語をそれぞれ表わす。これによると、A〜Eは日本語を使用して、Fは英語を使用する事がわかる。
さらに、列112は、発話開始時間からの経過時間を秒で示したものである。
セクション114は、音声関連情報を手動でラベリングした結果を示すものである。ここで、yは肯定、pは会話に加わっている人の一部による局所的な会話、tは通訳もしくは説明、wは笑い声をそれぞれ示す。また、図中の縦の棒線は発話中、横の棒線は沈黙を、それぞれ示す。つまり、縦の棒線が続いているとその人物が話し続けている事がわかる。また、横の棒線が続いていると、沈黙し続けている事がわかる。セクション114中の6列の記号の並びは、参加者6名の発話情報をそれぞれ示している。例えば、参加者Bの発話時間3315秒から3341秒までを見ると、3315秒で肯定する事を表わす音声を発した後、3316秒で一旦黙り、その後3317秒から3341秒まで話し続け、最後の3341秒では笑い声をあげているという事がわかる。
図7に、セクション104(図5参照)で示された動作情報への手動ラベリング結果を参加者ごとに経時的に配列したものを示す。
図7を参照して、ここでの会話への参加者は図6と同一人物であるA〜Fの6名である。
列130は発話時間を秒で示したものである。
セクション132は参加者の顔の動きを示すものである。アルファベットuは上、dは下、rは右、lは左に顔を動かした事をそれぞれ示す。
セクション134は参加者の手の動きを示すものである。アルファベットrは右手、lは左手、bは両手を動かす事をそれぞれ表わす。
図7に示されたセクション132の6列もセクション134の6列も、図6のセクション114同様、参加者6名の動作情報をそれぞれ示す。例えば、セクション132と134とを参照すると、参加者Bは発話時間3314〜3317秒では顔を右に向けながら両手を動かしているが、3318〜3319秒では顔を左に向けながら左手を動かしているという事がわかる。
これら図7で示される顔の動き、手の動き、及び、図6で示される非言語音声情報とを同期させて、発話内容に依存しない音声−動作情報を得る事ができる。そして、この音声−動作情報から本発明の実施の一形態である自動制御テレビジョン受像機システムを制御するためのモデルを構築する事ができる。例えば、ある非言語音声情報及び動作がある場合に、部外者が会話に割込むのが適切か否かを判定するモデルを考える。このモデル作成にあたっては、会話中に、適宜部外者を会話に割込ませてそのときに会話に加わっている人の各々がどう感じたか、つまり、会話に割込まれて不快だったかという事をリサーチする必要がある。そして、このリサーチ結果を、既に得られている音声−動作情報に付与し、そうした情報を集積し、集積された情報によって、さらに何らかの機械学習を行なう事により、会話がなされている場の雰囲気がいかなるものであれば部外者が口を挟んでもよいかを判定するためのモデルを作成する事ができる。このモデルが、実際の会話の場で、自動制御テレビジョン受像機が会話に口を挟む、つまり会話中に電源を入れても良いか否かを判定する際に参照される。
このモデルに使用されるものとしては、ニューラルネットワーク、HMM(Hidden Markov Model)、SVM(Support Vector Machine)及び、MLP(Multi Layered Perceptron)等が考えられる。
<動作>
図1を参照して、まずユーザが、図には示さないテレビジョン受像機本体に取付けられたスイッチ又はリモートコントロールパネルを用いて、ある番組を見るためにテレビジョン受像機の電源を入れたりチャンネルを変えたりする。
次に、電源が入れられ、チャンネルが決定された事に応じて、視聴履歴取得部30が、そのチャンネル番号とそのチャンネルに決定されたときの日時を含む視聴履歴を取得する。この視聴履歴の取得には、チャンネルが決定されたときの日時が、何月何日の何時何分であるかを計測するためのタイマ32での計測結果を使用する。この視聴履歴取得処理は、その後、ユーザが別のチャンネルの番組を見るためにチャンネルを変えたときにも同様に行なわれる。そして、ユーザがテレビジョン受像機を見終わって、テレビジョン受像機の電源を切ると、その電源が切られた時点での日時も視聴履歴に関する情報として同様に取得される。この視聴履歴の取得により、何月何日何時何分からいつまで何チャンネルの番組が選択されていたかという事が、明らかになる。
視聴履歴取得部30によって取得された、視聴履歴は視聴履歴記憶部34に記憶され蓄積される。この視聴履歴記憶部34に記憶された視聴履歴から、視聴パターン学習部36が、ユーザの視聴パターンを学習する。ここで視聴パターンとは、具体的には、ユーザが週に5回月曜日〜金曜日の決まった時間、又は、週に1回日曜日に決まったチャンネルで放映される番組を視聴するという様なパターンの事である。この視聴パターン学習部36によって学習された視聴パターンを、視聴パターン記憶部38が記憶する。
視聴パターン記憶部38に記憶された視聴パターンとタイマ32でのカウント結果とを参照して、テレビ制御信号出力部40がテレビジョン受像機の電源を入れてチャンネルを合わせる。つまり、ユーザの視聴パターンに一致する日時に視聴パターンに一致するチャンネルに合わせて、自動的にテレビジョン受像機の電源が入れられる。
テレビジョン受像機の電源が入れられる際に、カメラ44によって撮影された映像とマイクロフォン46によって収録された音声とを使用して行動指針決定装置42で決定された行動指針決定情報が参照される。
カメラ44は、本発明の一実施の形態であるテレビジョン受像機が置いてある部屋の全景が撮影できる様な位置に設置されている。一例として、天井に全方位カメラを設置するという様な方法が考えられる。
マイクロフォン46で録音された音はカメラ44で撮影された画像と一致する様なものである必要がある。つまり、同じ場の音と画像とをそれぞれカメラとマイクロフォンで収録する必要がある。それゆえ、マイクロフォン46はカメラ44に近い場所に設置されるのが望ましい。一例として、上述した様に天井に取付けられた全方位カメラの周囲を囲む様にマイクロフォンを配置する事が考えられる。
図2を参照して、まず、カメラ44によって撮影された画像が、毎秒15フレームでフレーム化され、画像格納部60に格納される。各フレームに対し、肌色検出部62で、格納された画像から肌色領域をリアルタイムで検出する。
次に、肌色部位区別部64で、肌色検出部62で画像の他の部分から分離された肌色領域の種類を区別する。具体的には、肌色領域の中から、どの領域が顔でどの領域が手であるかを区別する。一般的に、肌色のかたまりのうちで、上位にあり比較的大きい部分が顔、下位にあり比較的小さい部分が手であると考えられる。それゆえ、肌色のかたまりの上下関係、大小関係を比較する事によりこの部位区別処理を行なう。
次に、肌色部位トラッキング部66で、肌色部位区別部64により顔と手に区別された肌色領域を領域ごとにトラッキングする。すなわち、あるフレームで検出された肌色領域と、次のフレームで検出された肌色領域との間に対応関係を付ける処理を、各フレームの肌色領域に関する情報が与えられるたびに繰返す。肌色部位トラッキング部66での処理にあたっては、予め人間の様々な動作を集積したデータから作成された動き予測モデルを参照する。このデータモデルを格納するのが、動き予測モデル格納部68である。肌色部位トラッキング部66でトラッキングした結果、次のフレームでの顔及び手が存在する可能性の高い位置が、動き予測モデルにより予測される。
このような動き予測モデルを利用する事によって、ある程度、次に続く動作の予測がつく様になるので、肌色部位トラッキング部66での処理を速く行なう事ができる。例えば、ある人物の動作をトラッキングしている最中に、手が家具の陰に隠れてカメラ44の視野から外れてしまった場合を考える。動き予測モデルを参照する事ができれば、この様にトラッキングが不完全にしか行なわれない場合にも、トラッキング対象の顔及び手の位置がある程度予測できる。また、トラッキング結果と動き予測モデルとの比較を行なう事により、トラッキング結果の明らかな誤りを検出し、トラッキングの精度を上げる事もできる。
この様に肌色部位トラッキング部66でのトラッキング処理によって得られた動作を使用して音声−動作統合部74でのマッチング処理を行なう。その処理の詳細については後述する。
一方、マイクロフォン46によって収録された音声は、フレーム化されて音声格納部70に格納される。音声関連処理部72は、音声格納部70に格納された音声から、所定の音響特徴情報を抽出する。
具体的には、音声関連処理部72は、その音声が部屋のどの方角から聞こえてきたか、つまり発話方位を明らかにする。マイクロフォン46は指向性のあるマイクロフォンなので、このマイクロフォンから得られる複数の音声信号のレベルを比較する事により、収録された音声の発話方位を明らかにする事ができる。その方位を、予め決められた規則に従ってラベリングする。例えば、ある方位を基点として、そこから時計回りに何度ずれた場所で音声が生じたかを明らかにし、その角度を各音声に対しラベリングする。
音声関連処理部72は、音声の有無に関する情報も処理する。例えば、いずれかの方向で何らかの音声が生じているときは音声有無情報として「1」をラベリングし、どの方位でも何の音声も生じていないときは「0」とラベリングする。
さらに、音声関連処理部72は、音声の長短に関する情報も処理する。例えば、何らかの音声が継続している間、上記の音声の有無に関する処理で当該フレームに音声有無情報として「1」というラベルが付される。音声情報の各フレームには時間情報も含まれている。そこで、音声有無情報としてラベル「1」が付されているフレームの継続時間を計測する事により、音声の長短についての情報も得られる。
これら発話方位、音声の有無、及び音声の長短についての情報である音響特徴情報を統合する事によって、どの方位から音声が生じているかが明らかになる。さらに、その方位で生じた音声の継続時間も明らかになる。
この音響特徴情報と、肌色部位トラッキング部66から得られた画像に関する情報とを音声−動作統合部74で同期させるとともに統合する。この統合処理の際には、それぞれの情報に含まれている時間情報を参照し、音響と動作情報との間の関係を調べる。例えば、まず、動作情報から、画面に写っている発話者の数と、その位置とが判る。この情報と、音声の方位とを比較する事により、どの発話者が発話しているかを推定できる。また、誰かが発話を開始した後、その発話者とは異なる互いに隣接する別の二人の一方が、その発話に少し遅れる形で小さな声で発話する場合、その二人の内の一方が他方に発話者の話の内容を説明しているという状況が推測できる。
また、ある人が発話しているときに、他の者の顔の動きから、発話者の話に同意しているか否かがわかる。発話者の発話のリズムに合わせて他の人が発する短い音が規則的に入っていたとすれば、誰かが相槌を打っているという事が推定できる。また、同様に発話のリズムに合わせて他の人の頭部が規則的に上下に動いていれば、頷いているという事が推定できる。さらに、ある人の顔が話者の方を向いていれば、上記のような音声から推測される相槌及び頭部の上下動から推測される頷きがなくとも、その人は話を聞いているという事が推測できる。顔の向きから他に推測する事のできる事の例としては、ある人が何の音声も発せずに、他の複数のある人に交互に顔を向けているとすれば、顔を向けられている複数の人が会話の主導権を握っているという事がわかる。以上の例の様に、発話者に対して他の人が明確な返事を返していなかったとしても、このような非言語的な情報から、誰が会話に参加していて誰が参加していないかという事が比較的容易に推測できる。
音声−動作統合部74は、この様に、音響特徴情報と動作情報とを統合して処理する事により得られる情報を生成し、音響特徴情報及び動作情報に付加して、一定時間間隔ごとにフレーム化し、バッファ80に出力する。以下、音響特徴情報、動作情報、それらを統合して得られる情報を音声・動作統合情報と呼ぶ。
バッファ80は、音声−動作統合部74から出力された音声・動作統合情報を先入れ先出し方式で所定フレーム分だけ記憶する。モデル参照部76は、バッファ80に記憶された音声・動作統合情報のフレームの時系列のうち、最新の所定フレーム数のフレームを読出し、これらフレームのデータを入力としてマッチング用モデル格納部78に格納されたマッチング用モデルを参照し、マッチング用モデルの出力を得る。この出力が、現時点でテレビジョン受像機の電源をオンしてよいか否かに関する行動指針となる。すなわち、マッチング用モデルの出力は、電源をオンしてよい事を示す値と、そうでない事を示す値とのいずれか一方をとる。
マッチング用モデルは、予め複数人の会話の様子を録画及び録音したものを用いて作成したモデルである。ここでは、マッチング用モデルとして、複数人からなるグループ内で何らかの会話がなされているときに、話の途中で部外者が口を挟める状況であるか否かを判定するというモデルを想定する。このモデルを、テレビジョン受像機のオンしてよいかどうかの行動指針の決定にも使用できる。
まず、会話の最中には、誰かが何かの話をし、それについてグループの他の人が相槌を打ったり、頷いたり、笑い声を立てたりといった反応をするのが一般的である。このような、会話の内容には踏込まない音声情報である非言語音声情報及び動作情報は、それぞれマイクロフォンとカメラとによって収録された音声と画像とから得る事ができる。
ここで必要とされる情報は、具体的には、音の有無、音の方位、音の長短、顔の動き、手の動き、及びそれらの大きさ等である。これらの情報は場を読むための情報を作成するための要素となる。この様な要素の具体例を実際に会話の場を録音及び録画して、学習のためのデータを作成し集積する事によりモデル学習用の集積データを得る。そして、この具体例の各々について部外者に会話に割込まれてもよいか否かに関する実際の答えを参加者から得る。そして、その答えを各学習用データに付する。具体的には例えば、部外者が会話に割込んで良い場合には「1」及び、悪い場合には「0」という様に各学習用データに正解情報を付する。そして、この学習用データを用いた機械学習によりモデルの学習を行なう。
この様な処理により、いかなる会話の流れであれば部外者が口を挟んでもよいか否かを判定する、つまり、人間の反応を予測して行動指針を決定するためのモデルを作成する事ができる。
マッチング用モデル格納部78に格納されたモデルを使用して、モデル参照部76で、テレビ制御信号出力部40へ出力するための行動指針決定情報をマッチング処理により作成する。この処理は、音声−動作統合部74で同期させた非言語音声情報及び動作とマッチング用モデルとを使用して行なわれる。具体的には、音声−動作統合部74で同期させた非言語音声情報及び動作情報からなる所定フレーム数のデータを入力としてマッチング用モデル格納部78により格納されたモデルを参照し、その出力を得る。この出力がテレビの電源をオンしてよいか否かに関する行動指針となる。この行動指針を示す信号はテレビ制御信号出力部40に与えられる。
会話がさえぎられてもよい状況であれば、テレビ制御信号出力部40が、視聴パターン通りのチャンネルに合わせテレビジョン受像機の電源を入れるための信号を出力する。一方、会話がさえぎられると不都合な状況であれば、テレビ制御信号出力部40は何の信号も出力しない。
この様に、会話がさえぎられると不都合な状況であればその部屋にあるテレビジョン受像機の電源が入らないので、部屋にいる人が会話をさえぎられて不愉快な思いをする事はない。また、会話を続けるために自動的に入った電源を再び手動で切る手間が省けるという利点もある。また会話をさえぎってもよいような場合には、テレビジョン受像機の電源が自動的に入り、視聴履歴に従って選ばれた番組のチャンネルが選択される。従って、好みの番組を見逃すというおそれが少なくなる。
なお、図1における自動制御テレビジョン受像機システムは、本発明の一実施の形態に係る行動指針決定装置42を搭載したシステムの一例である。行動指針決定装置42は、本実施の形態に係る自動制御テレビジョン受像機システムのみならず、議事の進行に直接関係のない会話を記録しない様にする事が可能な自動議事録システム、討論会の様子を撮影するために、次に発話したいという態度を示す発話者に向けてレンズを自動的に移動させるカメラシステム、及び人間に話しかける必要のある機能を持つロボット等、音情報と動作とに反応して自動で動く様々な装置の制御のために搭載する事ができる。
また、本発明に係る行動指針決定装置の構成は、上記実施の形態で示したものには限定されない。例えば、マッチング用モデル格納部78に格納されるモデルへの入力として使用されるデータ形式に応じ、図2に示したもの以外の構成を採用する事ができる。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内でのすべての変更を含む。
本発明の一実施の形態に係る行動指針決定装置と自動制御テレビジョン受像機システムの機能をブロック図形式で示した図である。 行動指針決定装置の詳細をブロック図形式で示した図である。 カメラで撮影された画像の一例を示す図である。 肌色検出部で肌色検出処理された画像の一例を示す図である。 マッチング用モデル格納部に格納されるマッチング用モデル作成の際に使用される手動ラベリングの方法の一例を示す図である。 音声関連情報への手動ラベリング結果を参加者ごとに経時的に配列したものを示す図である。 動作情報への手動ラベリング結果を参加者ごとに経時的に配列したものを示す図である。
符号の説明
42 行動指針決定装置
62 肌色検出部
64 肌色部位区別部
66 肌色部位トラッキング部
68 動き予測モデル格納部
74 音声−動作統合部
76 モデル参照部
78 マッチング用モデル格納部

Claims (5)

  1. 人間が存在する可能性のある場において、周囲の状況から、とるべき行動の指針を決定するための行動指針決定装置であって、
    周囲の画像から抽出される人間の動きに関する所定の特徴情報の時系列と、とるべき行動の指針との関係を予め学習した行動指針決定モデルを格納するためのモデル格納手段と、
    周囲の動画像から前記所定の特徴情報の時系列を作成し、前記モデル格納手段に格納された行動指針決定モデルを参照する事により、とるべき行動の指針を決定するためのモデル参照手段とを含み、
    前記モデル参照手段は、
    前記動画像の各フレームから肌色の部分を検出するための肌色検出手段と、
    前記動画像に対し、前記肌色検出手段によって検出された肌色の部分の中で、同一人物の顔と手との組合せを識別し、各組合せについて、顔と手とをトラッキングするためのトラッキング手段と、
    前記トラッキング手段によりトラッキングされた各人物の顔及び手の動きから、前記所定の特徴情報をフレームごとに作成し、複数フレームに対する前記所定の特徴情報を用い、前記モデル格納手段に格納された前記行動指針決定モデルを参照する事により、行動の指針を決定するための手段とを含む、行動指針決定装置。
  2. 前記行動指針決定装置は、人間の顔と手との動きに関する動き予測モデルを格納するための動き予測モデル格納手段をさらに含み、
    前記トラッキング手段は、
    前記動画像に対し、前記肌色検出手段によって検出された肌色の部分の中で、同一人物の顔と手との組合せを識別するための手段と、
    前記識別するための手段により識別された各組合せについて、前記動き予測モデル格納手段に格納された動作モデルに基づいて予測される、当該組合せに含まれる顔と手との動きに基づいて顔と手とをトラッキングするための手段とを含む、請求項に記載の行動指針決定装置。
  3. 人間が存在する可能性のある場において、周囲の状況から、とるべき行動の指針を決定するための行動指針決定装置であって、
    周囲の画像から抽出される人間の動きに関する所定の特徴情報の時系列と、とるべき行動の指針との関係を予め学習した行動指針決定モデルを格納するためのモデル格納手段と、
    周囲の動画像から前記所定の特徴情報の時系列を作成し、前記モデル格納手段に格納された行動指針決定モデルを参照する事により、とるべき行動の指針を決定するためのモデル参照手段とを含み、
    前記行動指針決定モデルは、周囲の画像から抽出される人間の動作に関する前記所定の特徴情報と、周囲の音声から得られる非言語的音声情報に基づいて作成される所定の音響特徴情報とを統合した画像・音声統合型の特徴情報の時系列と、とるべき行動の指針との関係を予め学習した音声統合型の行動指針決定モデルを含み、
    前記モデル参照手段は、
    前記動画像の各フレームから肌色の部分を検出するための肌色検出手段と、
    前記動画像に対し、前記肌色検出手段によって検出された肌色の部分の中で、同一人物の顔と手との組合せを識別し、各組合せについて、顔と手とをトラッキングするためのトラッキング手段と、
    前記トラッキング手段によりトラッキングされた各人物の顔及び手の動き、並びに、前記音声から、前記所定の特徴情報をフレームごとに作成し、複数フレームに対する前記所定の特徴情報を用い、前記モデル格納手段に格納された前記音声統合型の行動指針決定モデルを参照する事により、行動の指針を決定するための画像・音声統合型モデル参照手段を含む、行動指針決定装置。
  4. 前記周囲の音声は、マイクロフォンで受音され、音声信号に変換され、
    前記所定の音響特徴情報は、
    前記音声信号に基づいて推定される、発話の有無を示す情報、及び
    前記音声信号に基づいて推定される発話の持続時間、
    の任意の組合せを含む、請求項に記載の行動指針決定装置。
  5. コンピュータにより実行されると、当該コンピュータを請求項1〜請求項のいずれかに記載の行動指針決定装置として動作させる、コンピュータプログラム。
JP2005243656A 2005-08-25 2005-08-25 行動指針決定装置及びコンピュータプログラム Expired - Fee Related JP4849303B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2005243656A JP4849303B2 (ja) 2005-08-25 2005-08-25 行動指針決定装置及びコンピュータプログラム
US11/990,191 US7984010B2 (en) 2005-08-25 2005-10-18 Action agenda determining apparatus
PCT/JP2005/019080 WO2007023576A1 (ja) 2005-08-25 2005-10-18 行動指針決定装置
EP05795653A EP1936545A1 (en) 2005-08-25 2005-10-18 Action guideline decision device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005243656A JP4849303B2 (ja) 2005-08-25 2005-08-25 行動指針決定装置及びコンピュータプログラム

Publications (3)

Publication Number Publication Date
JP2007058615A JP2007058615A (ja) 2007-03-08
JP2007058615A5 JP2007058615A5 (ja) 2008-05-15
JP4849303B2 true JP4849303B2 (ja) 2012-01-11

Family

ID=37771334

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005243656A Expired - Fee Related JP4849303B2 (ja) 2005-08-25 2005-08-25 行動指針決定装置及びコンピュータプログラム

Country Status (4)

Country Link
US (1) US7984010B2 (ja)
EP (1) EP1936545A1 (ja)
JP (1) JP4849303B2 (ja)
WO (1) WO2007023576A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5072714B2 (ja) * 2008-05-28 2012-11-14 三洋電機株式会社 音声記録装置及び音声再生装置
US8218033B2 (en) 2007-09-10 2012-07-10 Sanyo Electric Co., Ltd. Sound corrector, sound recording device, sound reproducing device, and sound correcting method
KR20120072009A (ko) * 2010-12-23 2012-07-03 한국전자통신연구원 다중 사용자의 인터렉션 인식 장치 및 방법
US8837796B1 (en) * 2013-06-27 2014-09-16 Healthcare Content Solutions, Inc. Systems and methods for monitoring a dermatologic condition
KR102487669B1 (ko) * 2017-09-29 2023-01-13 현대자동차주식회사 대화 시스템, 이를 포함하는 차량 및 대화 처리 방법
JP6937659B2 (ja) * 2017-10-19 2021-09-22 株式会社日立製作所 ソフトウェアテスト装置および方法
CN109919087B (zh) * 2019-03-06 2022-03-08 腾讯科技(深圳)有限公司 一种视频分类的方法、模型训练的方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001154681A (ja) * 1999-11-30 2001-06-08 Sony Corp 音声処理装置および音声処理方法、並びに記録媒体
US20030033266A1 (en) 2001-08-10 2003-02-13 Schott Wade F. Apparatus and method for problem solving using intelligent agents
JP2005039681A (ja) 2003-07-18 2005-02-10 Sharp Corp テレビジョン受像機
JP4479194B2 (ja) * 2003-08-29 2010-06-09 富士ゼロックス株式会社 動作識別装置、及び対象物の姿勢識別装置
JP4214227B2 (ja) * 2004-01-28 2009-01-28 独立行政法人産業技術総合研究所 ユーザモデリング方法、ユーザモデリング装置、ユーザモデリングプログラムおよびユーザモデリングプログラムを記録したコンピュータ読取可能な記憶媒体

Also Published As

Publication number Publication date
US20100138380A1 (en) 2010-06-03
JP2007058615A (ja) 2007-03-08
US7984010B2 (en) 2011-07-19
WO2007023576A1 (ja) 2007-03-01
EP1936545A1 (en) 2008-06-25

Similar Documents

Publication Publication Date Title
US20220377467A1 (en) Hearing aid systems and mehods
US11979716B2 (en) Selectively conditioning audio signals based on an audioprint of an object
JP4849303B2 (ja) 行動指針決定装置及びコンピュータプログラム
US20230045237A1 (en) Wearable apparatus for active substitution
US20070120966A1 (en) Speaker predicting apparatus, speaker predicting method, and program product for predicting speaker
EP1277342A1 (en) Method and apparatus for tracking moving objects using combined video and audio information in video conferencing and other applications
US11875571B2 (en) Smart hearing assistance in monitored property
JP7342928B2 (ja) 会議支援装置、会議支援方法、会議支援システム、および会議支援プログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080327

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080327

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110628

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110809

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110913

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111005

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141028

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees