JP2007147762A

JP2007147762A - 発話者予測装置および発話者予測方法

Info

Publication number: JP2007147762A
Application number: JP2005339201A
Authority: JP
Inventors: Kazumasa Murai; 和昌村井
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2005-11-24
Filing date: 2005-11-24
Publication date: 2007-06-14
Also published as: US7907165B2; US20070120966A1

Abstract

【課題】発話者が実際に話す前に発話者を予測できる発話予測装置を提供する。
【解決手段】複数の人物の中から発話者を予測する発話者予測装置１１０であって、前記人物を撮像した画像の特徴から発話に先立って生起する画像の特徴を学習する学習部１１２３と、学習部１１２３による学習結果を用いて前記人物を撮像した画像の特徴から前記人物のうち発話を開始する発話者を予測する予測部１１２４とを有する。学習部１１２３は、前記人物を撮像した画像の特徴から該画像の特徴が発生したときに前記撮像した人物が発話をする確率を求め、該確率を用いて前記発話に先立って生起する画像の特徴を学習する。本発明によれば、発話に先立って生起する画像の特徴を学習することにより、学習した先例に基づいて発話者が実際に発話を開始する前に発話者を予測できる。
【選択図】図２

Description

本発明は、発話予測装置および発話予測方法に関する。

近年、通信回線の高速化・大容量化に伴い、遠隔地の複数の地点間を結んで、画像信号および音声信号を授受することにより、会議を開催することが可能な、いわゆるテレビ会議システムの重要性が増加している。このようなテレビ会議システムは、遠隔地点間の人間の移動を伴わないため、コストから見て有利な上に、単なる音声による交信に比べて、授受できる情報量が各段に増加するために、コミュニケーション手段として利用価値が高い。

一方で、非特許文献１には、画像中からの実時間での顔検出に関連する技術が開示されているもののテレビ会議システムへの具体的応用については開示がない。しかし、一般には、上述したようなテレビ会議システムは、その名の示すとおり、交信相手方の会議室内の風景のうち限定された領域が、交信の受け手側のテレビ画面に表示されるに過ぎない。言いかえると、テレビ会議の開催される複数の会議室のうちの一方に複数の参加者がいる場合には、通常は、この一方の会議室内で、発言中の参加者の画像や音声を選択的に他方の会議室側に送信することが必要である。

従来、このように一方の会議室内での発言者を特定し、この発言者の画像および音声を選択的に送信する作業を行うためには、この一方側の会議室において、発言者を撮影するカメラの撮影方向やカメラの切換え、音声を集音するマイクの切換え等を行うためのオペレータが必要であった。同様に、他方側にも複数の参加者がいる場合は、この他方側の会議室においても同様の操作を行うオペレータが必要になる。

つまり、円滑にテレビ会議を実行するために、このように別途オペレータが必要であるとすると、上述したテレビ会議のコスト上の優位性がそがれてしまうという問題点がある。また、このオペレータ自身もある程度習熟していないと、発言者の音声を拾うのが遅れて、通信の受け手の側で音声が聞き取りにくくなり、カメラの切換えが間に合わなくなるなど、会議が円滑に行われなくなるという問題がある。

さらに、このように、複数の参加者がいる場合に、発言者を特定して、その発言者に対して選択的にカメラを向けたり、あるいは、複数のカメラで同時に撮影中の画像から、発言者を撮影しているカメラに切換えたり、あるいは、音声を拾うマイクを切換えるという作業自体は、このようなテレビ会議の場合に限定されるものではなく、たとえば、１つの会場で開催され、複数の発言者が参加する会議の画像を収録する場合にも、同様に必要となる処理である。このようなことから、撮影中の画像情報に基づいて発言者を特定して選択的に画像を撮影することが可能なテレビ会議システムが提案されている（特許文献１参照）。この技術は、会議参加者の顔画像を抽出し、当該顔画像中の口唇部分の動きを捕捉して発話の前駆動作を検出することにより、発話を開始しようとする参加者を発話者として特定するというものである。

特開２００４−１１８３１４号公報村井和昌、中村哲著「マルチモーダル音声認識のための顔検出」、情報処理学会音声言語情報処理研究会Ｖｏｌ．２００２，Ｎｏ．１０．ｐｐ．３９−４４，２００２２００２年２月１日

しかしながら、特許文献１では、発話の前駆動作を検出しており、現在の画像処理技術では発明の前駆動作を検出するのに多くの時間が必要となり、発話の前駆動作が検出できたときには、発話者による発話がすでにはじまってしまっており、発話者が実際に話す前に発話を検出することができなかった。

そこで、本発明は、上記問題点に鑑みてなされたもので、発話者が実際に話す前に発話者を予測できる発話予測装置および発話予測方法を提供することを目的とする。

上記課題を解決するために、本発明は、複数の人物の中から発話者を予測する発話者予測装置であって、前記人物の発話を検出する発話検出部と、前記人物を撮像した画像から画像の特徴を抽出する特徴抽出部と、前記画像の特徴から前記発話検出部で検出された発話に先立って生起する画像の特徴を学習する学習部と、前記学習部による学習結果を用いて前記人物を撮像した画像の特徴から前記人物のうち発話を開始する発話者を予測する予測部とを有する。本発明によれば、発話に先立って生起する画像の特徴を学習することにより、学習した先例に基づいて発話者が実際に発話を開始する前に発話者を予測できる。

熟練したオペレータは、スムーズに切り替えなどを行うために、会議内容や、参加者の微妙な動き、予兆などから次の発言者をある程度は予測していると想定される。予兆には個人差があるので、適応的に予測しているので、本発明は、その点を自動で行おうというものである。会議内容や話の流れを画像から汲み取ることは現実的ではないが、発話する前に口を開ける、前の発話者や周囲の人の様子を伺う動作（視線や顔向き）、挙手、周囲の人の視線が集まるなど、画像的に取得できる情報がある。これらの情報を、使用しながら学習し、学習結果に基づいて予測するということがこの発明のポイントである。

また、発言する前には画像から観察できる前兆がある。この前兆は、人によって差が少ないものと、人によって差が多いものがある。人によって差が少ないものには、発話の前駆動作がある。人によって差が多いものとしては、発言権を奪取するために構える動作としての癖がある。この癖は他の人の発言中では高頻度に観察される。発話の前駆動作を用いた発話の予知については、上述した特許文献１により提案されている。本発明によれば、発明の前駆動作のみならず、人によって差が多い発言権を取得するために構える動作を検出することができるため、従来よりも高精度に発話者を認識することができる。

前記学習部は、前記人物を撮像した画像の特徴から前記人物の事象を特定し、該人物の事象を用いて発話に先立って生起する事象を学習する。本発明によれば、画像の特徴から人物の癖などの事象を特定し、発話の前の癖を学習した先例に基づいて発話を開始する発話者を予測できる。

前記学習部は、前記人物を撮像した画像の特徴から該画像の特徴が発生したときに前記撮像した人物が発話をする確率を求め、該確率を用いて前記発話に先立って生起する画像の特徴を学習する。本発明によれば、画像の特徴が発生したときに撮像した人物が発話をする確率を用いて発話に先立って生起する画像の特徴を学習できる。前記発話検出部は、前記人物を撮像した画像および前記人物から検出した音声のうち少なくとも一方に基づいて前記人物の発話を検出する。前記特徴抽出部は、前記人物を撮像した画像データをフーリエ変換することにより前記画像の特徴を抽出する。本発明の発話者予測装置は、前記人物を撮像する複数の撮像部をさらに有する。

前記学習部は、前記人物から検出した音声の特徴から発話に先立って生起する音声の特徴をさらに学習し、前記予測部は、前記学習部による学習結果を用いて前記人物を撮像した画像の特徴および前記人物から検出した音声の特徴から前記人物のうち発話を開始する発話者を予測するとよい。本発明によれば、発話に先立って生起する画像の特徴と音声の特徴を学習することにより、学習した先例に基づいて発話を開始する発話者をさらに高精度に予測できる。

本発明は、複数の人物の中から発話者を予測する発話者予測装置であって、前記人物の発話を検出する発話検出部と、前記人物の音声から音声の特徴を抽出する特徴抽出部と、前記音声の特徴から前記発話検出部で検出した発話に先立って生起する音声の特徴を学習する学習部と、前記学習部による学習結果を用いて前記人物から検出した音声の特徴から前記人物のうち発話を開始する発話者を予測する予測部とを有する。本発明によれば、発話に先立って生起する音声の特徴を学習することにより、学習した先例に基づいて発話者が実際に発話を開始する前に発話者を予測できる。本発明の発話者予測装置は、前記予測部により予測された発話者の画像および音声の少なくとも一方を選択的に取得する制御部をさらに有する。本発明によれば、発話者が事前に分かるのでカメラワークや音声収音を自動化できる。

本発明は、複数の人物の中から発話者を予測する発話者予測方法であって、前記人物の発話を検出する発話検出工程と、前記人物を撮像した画像から画像の特徴を抽出する特徴抽出工程と、前記画像の特徴から前記発話検出工程で検出された発話に先立って生起する画像の特徴を学習する学習工程と、前記学習工程による学習結果を用いて前記人物を撮像した画像の特徴から前記人物のうち発話を開始する発話者を予測する予測工程とを有する。本発明によれば、発話に先立って生起する画像の特徴を学習することにより、学習した先例に基づいて発話者が実際に発話を開始する前に発話者を予測できる。

前記学習工程は、前記人物を撮像した画像の特徴から前記人物の事象を特定し、該人物の事象を用いて発話に先立って生起する事象を学習する。本発明によれば、画像の特徴から人物の癖などの事象を特定し、発話の前の癖を学習した先例に基づいて発話を開始する発話者を予測できる。前記学習工程は、前記人物を撮像した画像の特徴から該画像の特徴が発生したときに前記撮像した人物が発話をする確率を求め、該確率を用いて前記発話に先立って生起する画像の特徴を学習する。本発明によれば、画像の特徴が発生したときに撮像した人物が発話をする確率を用いて発話に先立って生起する画像の特徴を学習できる。

前記学習工程は、前記人物から検出した音声の特徴から発話に先立って生起する音声の特徴をさらに学習し、前記予測工程は、前記学習結果を用いて前記人物を撮像した画像の特徴および前記人物から検出した音声の特徴から前記人物のうち発話を開始する発話者を予測する。本発明によれば、発話に先立って生起する画像の特徴と音声の特徴を学習することにより、学習した先例に基づいて発話者が発話を開始する発話者をさらに高精度に予測できる。

本発明は、複数の人物の中から発話者を予測する発話者予測方法であって、前記人物の発話を検出する発話検出工程と、前記人物の音声から音声の特徴を抽出する特徴抽出工程と、前記音声の特徴から前記発話検出工程で検出した発話に先立って生起する音声の特徴を学習する学習工程と、前記学習工程による学習結果を用いて前記人物から検出した音声の特徴から前記人物のうち発話を開始する発話者を予測する予測工程とを有する。本発明によれば、発話に先立って生起する音声の特徴を学習することにより、学習した先例に基づいて発話者が実際に発話を開始する前に発話者を予測できる。

本発明によれば、発話者が実際に話す前に発話者を予測できる発話予測装置および発話予測方法を提供することができる。

以下、本発明を実施するための最良の形態について説明する。図１は、本発明に係るテレビ会議システム１０００の構成を説明するための概念図である。図１に示したテレビ会議システム１０００においては、２つの会議室１００と会議室２００との間で、インターネットなどの公衆回線網３００により、通信を行っているものとする。

ここで、会議を開催する会議室の数は、より多くてもよいが、以下の説明では、説明を簡略化するために、２つの会議室を結んで、テレビ会議が行われているものとする。また、２つの会議室をつないで通信を行う回線は、公衆回線網３００での通信をそのまま用いてもよいし、必要に応じて、公衆回線網３００上で実現される仮想プライベートネットワーク（ＶＰＮ：ＶｉｒｔｕａｌＰｒｉｖａｔｅＮｅｔｗｏｒｋ）のような通信の秘密を保護可能なシステムを用いてもよい。さらには、公衆回線網３００の代わりに専用回線を用いてもよい。

会議室１００には、たとえば、２人の会議参加者（人物）２および４がいるものとする。参加者２および４の各々に対応して、小型カメラ１０２とマイク１０４が設けられている。小型カメラ１０２は、参加者を撮像する撮像部であり、参加者１人に対して複数個設けられているのが好ましい。マイク１０４は参加者の音声を検出する検出部として機能する。また、会議室１００内の風景を撮影するために、撮影方向等を制御信号に応じて可変できるカメラ１０６が設けられてもよい。さらに、会議室１００には、テレビ１２０および発話者予測装置１１０が設けられている。テレビ１２０は、他方の会議室２００内の参加者６および８の画像を表示し、かつ、参加者６および８の音声を出力するためのものである。

発話者予測装置１１０は、参加者のうちの発話者を特定して、参加者を撮影する小型カメラ１０２や音声を集音するマイク１０４について、発話者に対応するものを選択する制御を行うものである。発話者予測装置１１０は、特定した発話者が、相手方の会議室２００内のテレビにおいて表示される画像上でも特定可能なように伝送する画像を加工する。なお、会議室２００にも、特に人数は限定されないが、上述したとおり、たとえば、２人の参加者６および８がおり、かつ、会議室１００と同様のシステムが設けられているものとする。

発話者予測装置１１０は、会議の期間中、人物を撮像した画像の特徴から発話に先立って生起する画像の特徴を学習し、この学習結果を用いて人物を撮像した画像の特徴から人物のうち発話を開始する発話者を予測する。このようにして、発話に先立って生起する画像の特徴を学習することにより、学習した先例に基づいて発話者が実際に発話を開始する前に発話者を予測し、画像の切換えやマイク１０４の切換えを行う。

図２は、本発明の発話者予測装置１１０の構成を説明するための概略ブロック図である。図２においては、図１に示した構成のうち、参加者２に対応する部分を抜き出して示す。発話者予測装置１１０は、参加者２の画像を撮影するための小型カメラ１０２からの画像信号と、参加者２に対応して設けられるマイク１０４からの音声信号を受取る。

発話者予測装置１１０は、公衆回線網３００を介して会議室２００から伝送される画像信号および音声信号を受取り、テレビ１２０により、対応する画像を表示し、対応する音声を出力する。発話者予測装置１１０は、参加者２および４を撮影した画像と参加者２および４の音声を受取り、会議室２００の参加者６および８が、発言者の画像および音声を特定できるように加工した上で、公衆回線網３００を介して会議室２００に伝送する。なお、以下で説明する学習の精度をよくするため参加者２を撮影する小型カメラ１０２、マイク１０４は参加者一人に対して複数個設けられているのが好ましい。

以下、発話者予測装置１１０の構成を具体的に説明する。発話者予測装置１１０は、データ入出力部１１０２、発話者抽出部１１２０、データ記憶部１１３０、制御部１１４０およびデータ通信部１１５０を有する。データ入出力部１１０２は、小型カメラ１０２、マイク１０４およびテレビ１２０との間でデータの授受を行うためのものである。発話者抽出部１１２０は、小型カメラ１０２からのデータに基づいて、発話者を特定するための演算を行う。データ記憶部１１３０は、発話者予測装置１１０の行う処理を特定するためのプログラム、話者認識や学習に用いる各種データが格納されている。

制御部１１４０は、データ記憶部１１３０に格納されたプログラムに従って、発話者予測装置１１０の動作を制御し、かつ、伝送する画像等を発言者の画像および音声を特定できるように加工するためのものである。データ通信部１１５０は、加工された画像および音声データを公衆回線網３００に伝送し、かつ公衆回線網３００を介して会議室２００から伝送される画像信号および音声信号を受取るためのものである。

発話者抽出部１１２０は、発話検出部としての発話者検出部１１２１、特徴抽出部１１２２、学習部１１２３および予測部１１２４を有する。発話者検出部１１２１は、参加者２を撮像した画像または参加者２から検出した音声に基づいて発話を検出する。さらに発話者検出部１１２１は、話者認識技術を用いて発話者を特定する。特徴抽出部１１２２は、参加者２を撮像した画像から画像の特徴を抽出する。このとき、特徴抽出部１１２２は、参加者２を撮像した画像データをフーリエ変換することにより画像の特徴を抽出する。また、特徴抽出部１１２２は、参加者２から検出した音声から音声の特徴を抽出する。このとき、例えば、特徴抽出部１１２２は、参加者２から検出した音声画像データをフーリエ変換することにより音声の特徴を抽出する。

学習部１１２３は、参加者２を撮像した画像の特徴から発話に先立って生起する画像の特徴を学習する。より詳細には、学習部１１２３は、式（１）を用いて、参加者２を撮像した画像の特徴から該画像の特徴Ｙが発生したときに撮像した参加者２が発話Ｘをする確率Ｐを求め、この確率Ｐを用いて発話に先立って生起する画像の特徴を学習する。
Ｐ（Ｘ｜Ｙ）・・・（１）
ここで、（１）式はＹが起きたときのＸの起こる確率Ｐを表わしている。

なお、学習部１１２３は、参加者２を撮像した画像の特徴から参加者２の癖（事象）を特定し、この参加者２の癖を用いて発話に先立って発生する癖を学習するようにしてもよい。画像から検知できる癖の例としては、口を薄開きにする（息を吸い込む）、口に力を入れて強く閉じる、口を開けて待つ、瞬きをする、笑窪ができる、首をかしげる、挙手する、起立する、口角が上がる（下がる）左右対称／非対称、視線が泳ぐ・発話中の人を睨む、他に、舌打ちなど、音で観察されるものもある。また、学習部１１２３は、多変量解析やニューラルネットワークを用いて学習を行う。

予測部１１２４は、学習部１１２３による学習結果を用いて参加者２を撮像した画像の特徴から参加者２のうち発話を開始する発話者を予測する。なお、学習部１１２３は、参加者２から検出した音声の特徴から発話に先立って生起する音声の特徴をさらに学習し、予測部１１２４は、学習部１１２３による学習結果を用いて参加者２を撮像した画像の特徴および参加者２から検出した音声の特徴から参加者２のうち発話を開始する発話者を予測してもよい。

上述したとおり、公衆回線網３００を介して会議室２００に伝送される画像は、会議室２００の参加者６および８が、会議室１００の参加者２および４のうち、発話者の画像および音声を特定できるように加工される。そのような加工方法としては、第１には、画面上に発話中の参加者のみが表示されるように、伝送される画像信号は、少なくとも発話期間中は、小型カメラ１０２で撮影された画像信号のうち、一方の参加者に対応する画像信号に完全に切換えることも可能である。

この場合、会議室２００に対して伝送される音声信号は、参加者２の発話中は、参加者２に対応するマイク１０４からの信号に基づいて生成される。誰も発話をしていないときには、たとえば、会議室１００の全体の音声を集音しているマイク（図示せず）からの音声信号を伝送することとしてもよい。また、画像については、一度発話を開始した発話者、たとえば参加者２の画像が、会議室２００のテレビの画面一杯に表示され、参加者２の発話が終了後も、他の参加者４が発話を開始するまでは、参加者２の画像が表示されつづける、という制御を行うことも可能である。

図３は、制御部１１４０が、会議室２００へ伝送する画像に対して行う第２の加工方法を説明するための概念図である。図３においては、会議室２００に伝送される画像信号に対応する画像表示を示している。このような第２の加工方法としては、参加者２および４の画像は、常に、会議室２００に対して伝送されるものの、１つの画面中において、発言中の参加者、たとえば、参加者２の画像が、発言をしていない他の参加者４の画像よりも大きく表示されるように加工する。ここで、音声信号の切換えについては、第１の加工方法と同様とすることができる。

この場合、伝送される画像については、一度発言を開始した参加者２の画像は、その発言中は、会議室２００のテレビの画面において相対的に大きく表示され、参加者２の発言が終了後は、他の参加者４と同じ大きさで表示される。なお、会議室１００の参加者２および４のうち、発話者の画像を特定できるのであれば、上述した第１および第２の加工方法に限定されるものではない。たとえば、表示される画面中に発話者表示領域が予め規定されており、会議室１００の参加者全員の画像が、常に、他の会議室２００のテレビの画面の上記発話者表示領域以外の領域に表示されていて、参加者うちのいずれかが発話を開始すると、この発話者の画像は、上記発話者表示領域に移動して表示されることとしてもよい。

次に、画像の特徴と音声の特徴を用いた場合の発話者予測装置の学習と動作の例について説明する。図４は発話者予測装置の動作例１のフローチャートである。ステップＳ１１で、発話者検出部１１２１は、参加者を撮像した画像または参加者から検出した音声に基づいて発話を検出する。ステップＳ１２で、さらに発話者検出部１１２１は、話者認識技術を用いて発話者を特定する。ステップＳ１３で、特徴抽出部１１２２は、参加者を撮像した画像から画像の特徴を抽出する。このとき、例えば、特徴抽出部１１２２は、参加者を撮像した画像データをフーリエ変換することにより画像の特徴を抽出する。

ステップＳ１４で、特徴抽出部１１２２は、参加者から検出した音声から音声の特徴を抽出する。このとき、例えば、特徴抽出部１１２２は、参加者から検出した音声画像データをフーリエ変換することにより音声の特徴を抽出する。ステップＳ１５で、学習部１１２３は、発話者とこの発話者を撮像した画像の特徴から発話に先立って生起する画像の特徴を学習する。このとき、学習部１１２３は、参加者を撮像した画像の特徴から該画像の特徴が発生したときに撮像した参加者が発話をする確率を求め、該確率を用いて発話に先立って生起する画像の特徴を学習する。

ステップＳ１６で、さらに、学習部１１２３は、発話者から検出した音声の特徴から発話に先立って生起する音声の特徴をさらに学習する。このとき、学習部１１２３は、参加者から検出した音声の特徴から該音声の特徴が発生したときに参加者が発話をする確率を求め、この確率を用いて発話に先立って生起する音声の特徴を学習する。学習部１１２３は、すべての参加者に対して上記学習を行う。ステップＳ１７で、予測部１１２４は、学習部１１２３による学習結果を用いて参加者を撮像した画像の特徴および参加者から検出した音声の特徴から会議参加者のうち発話を開始する発話者を予測する。ステップＳ１８で、制御部１１４０は、予測部１１２４により予測された発話者の画像および音声を選択的に取得するよう制御を行う。これにより、発話者が事前に分かるのでカメラワークや音声収音を自動化できる。

動作例１によれば、発話に先立って生起する画像の特徴や音声の特徴を学習することにより、学習した先例に基づいて発話者が実際に発話を開始する前に発話者を予測できる。なお、発話者予測装置の動作例１では、画像の特徴と音声の特徴を共に用いる場合の例について説明したが、画像の特徴だけを用いてもよい。

次に、音声の特徴だけを用いて学習を行った場合の例について説明する。図５は発話者予測装置の動作例２のフローチャートである。ステップＳ２１で、発話者検出部１１２１は、参加者を撮像した画像または参加者から検出した音声に基づいて発話を検出する。ステップＳ２２で、さらに発話者検出部１１２１は、話者認識技術を用いて発話者を特定する。ステップＳ２３で、特徴抽出部１１２２は、参加者から検出した音声の特徴を抽出する。例えば、特徴抽出部１１２２は、参加者から検出した音声データをフーリエ変換することにより音声の特徴を抽出する。なお、音声の特徴量を抽出する方法は、フーリエ変換以外の方法を用いてもよい。

ステップＳ２４で、学習部１１２３は、発話に先立って生起する音声の特徴を学習する。このとき、学習部１１２３は、参加者の音声の特徴から該音声の特徴が発生したときにその参加者が発話をする確率を求め、該確率を用いて発話に先立って生起する音声の特徴を学習する。学習部１１２３はすべての参加者に対して上記学習を行う。ステップＳ２５で、予測部１１２４は、学習部１１２３による学習結果を用いて参加者から検出した音声の特徴から参加者のうち発話を開始する発話者を予測する。

ステップＳ２６で、制御部１１４０は、予測部１１２４により予測された発話者の画像および音声を選択的に取得するよう制御を行う。これにより、発話者が事前に分かるのでカメラワークや音声収音を自動化できる。以上、動作例２によれば、発話に先立って生起する音声の特徴を学習することにより、学習した先例に基づいて発話者が実際に発話を開始する前に発話者を予測できる。

上記動作例１および２では、画像の特徴や音声の特徴を直接用いて発話者を予測するようにしたが、次に説明する動作例３では、画像の特徴や音声の特徴から発話者の癖（事象）を特定し、この癖を用いて発話者を予測するものである。なお、動作例３では、画像の特徴だけを用いた例について説明するが、動作例１と同様に音声の特徴を用いるようにしてもよい。

図６は発話者予測装置の動作例３のフローチャートである。ステップＳ３１で、発話者検出部１１２１は、参加者を撮像した画像または参加者から検出した音声に基づいて発話を検出する。ステップＳ３２で、さらに発話者検出部１１２１は、話者認識技術を用いて発話者を特定する。ステップＳ３３で、特徴抽出部１１２２は、参加者を撮像した画像から画像の特徴を抽出する。このとき、例えば、特徴抽出部１１２２は、参加者を撮像した画像データをフーリエ変換することにより画像の特徴を抽出する。

ステップＳ３４で、学習部１１２３は、特徴抽出部１１２２が抽出した画像の特徴から参加者の癖を特定する。そして、ステップＳ３５で、学習部１１２３は、この参加者の癖を用いて発話に先立って発生する癖を学習する。このとき、学習部１１２３は、参加者の癖からこの癖が発生したときにこの参加者が発話をする確率を求め、該確率を用いて発話に先立って生起する癖を学習する。学習部１１２３は、すべての参加者に対して上記学習を行う。

ステップＳ３６で、予測部１１２４は、学習部１１２３による学習結果を用いて参加者を撮像した画像の特徴から参加者のうち発話を開始する発話者を予測する。ステップＳ３７で、制御部１１４０は、予測部１１２４により予測された発話者の画像および音声を選択的に取得するよう制御を行う。これにより、発話者が事前に分かるのでカメラワークや音声収音を自動化できる。動作例３によれば、発話に先立って行う癖を学習することにより、学習した先例に基づいて発話者が実際に発話を開始する前に発話者を予測できる。

上記各実施例で説明した通り、学習した先例に基づいて発話者が実際に発話を開始する前に発話者を予測できるため、より早いタイミングで発話者の特定と、画像、音声の切換えを行うことが可能である。また、一方の会議室内の複数の参加者のうち、これから発話しようとする参加者を特定して、他の会議室へ伝送する画像および音声の切換えを行うテレビ会議システムとして、本発明を説明した。しかしながら、本発明の発話者予測装置１１０はこのような場合に限定されることなく、１つの会場で開催され、複数の発言者が参加する会議の画像を収録する場合に、音声や画像を発言者に応じて切換える際にも適用可能なものである。

なお、発話者検出部１１２１に、音源を推定する機能を付加して、画像中の特徴が生起する位置と関連付けるとよい。これにより、たとえば、口の位置や、顔の位置を推定することが出来るようになる。発話に先立って生起する事象は、発話準備のために口を開ける行為（口をあけるので開口部が少し暗くなる、オプティカルフローで上下に分かれる動きが検出できる、フーリエ変換した値で所定の特徴が観測できるなど）が観測できる。顔領域の重心位置により顔を上げるなどの動作が観測できる。また肌色領域の重心位置により挙手などの動作が観測できる。肌色領域のオプティカルフローにより口を開ける動作が観測できる。

過去に、画像中から顔を検出し、顔の中から口の位置を推定し、動きを検出することにより発話を予測・検出するという研究がなされている（非特許文献１）。この方法では、すべてが正しく認識・検出されなければ機能しない。また、そのために照明条件やカメラと顔の位置関係などについて、適切に設定する必要がある。この手法では学習は不要だが、現実的に機能させることは非常に困難である。これに対し、上記本発明では、誤認識であろうとも、事象がおきて関連付けできれば何でも良いという立場なので、実現は容易である。学習が必要という課題があるが、使っているうちに機能するようになるという枠組みなので、利用者が操作したり、明示的に学習をさせるという段取りは不要である。

口を開ける動作を、「口を開ける」と認識しなくても、歯が見えて明るくなったり、口が開いて暗くなったりするという容易に検出できる画像上の特徴と、発話が関連付けできれば、画像の認識技術が稚拙でも適用可能となる。多くは、音源である口の位置や、周囲に画像的な特徴が現れる。発話の音源位置情報と、画像上の特徴を関連付けすることにより、学習が簡単になったり、制度が向上したりすると想定される。マイクロホンアレーを使うことにより音源を推定できるが、顔画像認識や、口の認識により精度を高めたり、計算量を低減させたり、頑強性を高めることも可能である。

また、次の発言者に視線が集中するという事象を画像から認識することは非常に高度な認識技術が必要となり、また、証明条件なども考慮する必要があるが、上述したように、その場で学習を行うことが前提となるので、その場の照明条件、その場の人の配置やカメラとの位置関係で、たまたま生起する画像上の特徴、（たとえば、ＡさんがＢさんのほうを向くと、画像上は髪の毛の部分が多くなって暗くなる）などは、単純な方法で認識できる可能性がある。

また、Ａさんの頭の位置（Ａさんの頭と認識しなくても、画像の特定の位置の状態）が暗くなった後でＢさんが発話したという状況が観測された場合、それ以降、同じ状況が発生した場合にＢさんが発話する可能性が高いと考えることができる。同じような状況の積（確率の積）をとることにより、予測が可能になる。画像情報は複数のカメラを用いて取得する場合も想定される。同様に、挙手して発話する場合にも、画像の特徴（その場の照明や着衣、背景色）により、色相や明度が変化した場所の近くで発話が起きる可能性が高いなどの状況も容易に観測することが可能で、それを含めて、次に声が出るという確率を求めることができる。

予測が失敗しても、実際の発話が検出されたらその方向にカメラを向ける機能を持つことが可能であるので、致命的な副作用は想定されない。実際の会議では、発言が途絶えてしまって、誰かの発言を待つ状態になることがある。この場合、発言しようとする人がいれば、その方向にカメラ（撮影画像）が動くので、発言を促す効果も期待される。この場合、誤認識であっても、誰かの発言を促すことになれば会議をスムーズに継続させることも可能とる。誤認識であっても、大きな副作用がないことや、副次的な効果が得られる場合がある。

以上本発明の好ましい実施例について詳述したが、本発明は係る特定の実施例に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。

本発明に係るテレビ会議システムの構成を説明するための概念図である。本発明の発話者予測装置の構成を説明するための概略ブロック図である。制御部が遠隔の会議室へ伝送する画像に対して行う第２の加工方法を説明するための概念図である。本発明の発話者予測装置の動作例１のフローチャートである。本発明の発話者予測装置の動作例２のフローチャートである。本発明の発話者予測装置の動作例３のフローチャートである。

符号の説明

１０００テレビ会議システム
１００、２００会議室
１０２小型カメラ
１０４マイク
１０６カメラ
１１０発話者予測装置
１２０テレビ
１１０２データ入出力部
１１２０発話者抽出部
１１２１発話者検出部
１１２２特徴抽出部
１１２３学習部
１１２４予測部

Claims

複数の人物の中から発話者を予測する発話者予測装置であって、
前記人物の発話を検出する発話検出部と、
前記人物を撮像した画像から画像の特徴を抽出する特徴抽出部と、
前記画像の特徴から前記発話検出部で検出された発話に先立って生起する画像の特徴を学習する学習部と、
前記学習部による学習結果を用いて前記人物を撮像した画像の特徴から前記人物のうち発話を開始する発話者を予測する予測部と
を有することを特徴とする発話者予測装置。
前記学習部は、前記人物を撮像した画像の特徴から前記人物の事象を特定し、該人物の事象を用いて発話に先立って生起する事象を学習することを特徴とすることを特徴とする請求項１に記載の発話者予測装置。
前記学習部は、前記人物を撮像した画像の特徴から該画像の特徴が発生したときに前記撮像した人物が発話をする確率を求め、該確率を用いて前記発話に先立って生起する画像の特徴を学習することを特徴とする請求項１に記載の発話者予測装置。
前記発話検出部は、前記人物を撮像した画像および前記人物から検出した音声のうち少なくとも一方に基づいて前記人物の発話を検出することを特徴とする請求項１に記載の発話者予測装置。
前記特徴抽出部は、前記人物を撮像した画像データをフーリエ変換することにより前記画像の特徴を抽出することを特徴とする請求項１に記載の発話者予測装置。
前記人物を撮像する複数の撮像部をさらに有することを特徴とする請求項１から請求項５のいずれか一項に記載の発話者予測装置。
前記学習部は、前記人物から検出した音声の特徴から発話に先立って生起する音声の特徴をさらに学習し、
前記予測部は、前記学習部による学習結果を用いて前記人物を撮像した画像の特徴および前記人物から検出した音声の特徴から前記人物のうち発話を開始する発話者を予測することを特徴とする請求項１に記載の発話者予測装置。
複数の人物の中から発話者を予測する発話者予測装置であって、
前記人物の発話を検出する発話検出部と、
前記人物の音声から音声の特徴を抽出する特徴抽出部と、
前記音声の特徴から前記発話検出部で検出した発話に先立って生起する音声の特徴を学習する学習部と、
前記学習部による学習結果を用いて前記人物から検出した音声の特徴から前記人物のうち発話を開始する発話者を予測する予測部と
を有することを特徴とする発話者予測装置。
前記予測部により予測された発話者の画像および音声の少なくとも一方を選択的に取得する制御部をさらに有することを特徴とする請求項１から請求項８のいずれか一項に記載の発話者予測装置。
複数の人物の中から発話者を予測する発話者予測方法であって、
前記人物の発話を検出する発話検出工程と、
前記人物を撮像した画像から画像の特徴を抽出する特徴抽出工程と、
前記画像の特徴から前記発話検出工程で検出された発話に先立って生起する画像の特徴を学習する学習工程と、
前記学習工程による学習結果を用いて前記人物を撮像した画像の特徴から前記人物のうち発話を開始する発話者を予測する予測工程と
を有することを特徴とする発話者予測方法。
前記学習工程は、前記人物を撮像した画像の特徴から前記人物の事象を特定し、該人物の事象を用いて発話に先立って生起する事象を学習することを特徴とすることを特徴とする請求項１０に記載の発話者予測方法。
前記学習工程は、前記人物を撮像した画像の特徴から該画像の特徴が発生したときに前記撮像した人物が発話をする確率を求め、該確率を用いて前記発話に先立って生起する画像の特徴を学習することを特徴とする請求項１０に記載の発話者予測方法。
前記学習工程は、前記人物から検出した音声の特徴から発話に先立って生起する音声の特徴をさらに学習し、
前記予測工程は、前記学習結果を用いて前記人物を撮像した画像の特徴および前記人物から検出した音声の特徴から前記人物のうち発話を開始する発話者を予測することを特徴とする請求項１０に記載の発話者予測方法。
複数の人物の中から発話者を予測する発話者予測方法であって、
前記人物の発話を検出する発話検出工程と、
前記人物の音声から音声の特徴を抽出する特徴抽出工程と、
前記音声の特徴から前記発話検出工程で検出した発話に先立って生起する音声の特徴を学習する学習工程と、
前記学習工程による学習結果を用いて前記人物から検出した音声の特徴から前記人物のうち発話を開始する発話者を予測する予測工程と
を有することを特徴とする発話者予測方法。