JP2007147762A - 発話者予測装置および発話者予測方法 - Google Patents

発話者予測装置および発話者予測方法 Download PDF

Info

Publication number
JP2007147762A
JP2007147762A JP2005339201A JP2005339201A JP2007147762A JP 2007147762 A JP2007147762 A JP 2007147762A JP 2005339201 A JP2005339201 A JP 2005339201A JP 2005339201 A JP2005339201 A JP 2005339201A JP 2007147762 A JP2007147762 A JP 2007147762A
Authority
JP
Japan
Prior art keywords
speaker
person
utterance
image
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005339201A
Other languages
English (en)
Inventor
Kazumasa Murai
和昌 村井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2005339201A priority Critical patent/JP2007147762A/ja
Priority to US11/449,674 priority patent/US7907165B2/en
Publication of JP2007147762A publication Critical patent/JP2007147762A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals

Abstract

【課題】 発話者が実際に話す前に発話者を予測できる発話予測装置を提供する。
【解決手段】 複数の人物の中から発話者を予測する発話者予測装置110であって、前記人物を撮像した画像の特徴から発話に先立って生起する画像の特徴を学習する学習部1123と、学習部1123による学習結果を用いて前記人物を撮像した画像の特徴から前記人物のうち発話を開始する発話者を予測する予測部1124とを有する。学習部1123は、前記人物を撮像した画像の特徴から該画像の特徴が発生したときに前記撮像した人物が発話をする確率を求め、該確率を用いて前記発話に先立って生起する画像の特徴を学習する。本発明によれば、発話に先立って生起する画像の特徴を学習することにより、学習した先例に基づいて発話者が実際に発話を開始する前に発話者を予測できる。
【選択図】 図2

Description

本発明は、発話予測装置および発話予測方法に関する。
近年、通信回線の高速化・大容量化に伴い、遠隔地の複数の地点間を結んで、画像信号および音声信号を授受することにより、会議を開催することが可能な、いわゆるテレビ会議システムの重要性が増加している。このようなテレビ会議システムは、遠隔地点間の人間の移動を伴わないため、コストから見て有利な上に、単なる音声による交信に比べて、授受できる情報量が各段に増加するために、コミュニケーション手段として利用価値が高い。
一方で、非特許文献1には、画像中からの実時間での顔検出に関連する技術が開示されているもののテレビ会議システムへの具体的応用については開示がない。しかし、一般には、上述したようなテレビ会議システムは、その名の示すとおり、交信相手方の会議室内の風景のうち限定された領域が、交信の受け手側のテレビ画面に表示されるに過ぎない。言いかえると、テレビ会議の開催される複数の会議室のうちの一方に複数の参加者がいる場合には、通常は、この一方の会議室内で、発言中の参加者の画像や音声を選択的に他方の会議室側に送信することが必要である。
従来、このように一方の会議室内での発言者を特定し、この発言者の画像および音声を選択的に送信する作業を行うためには、この一方側の会議室において、発言者を撮影するカメラの撮影方向やカメラの切換え、音声を集音するマイクの切換え等を行うためのオペレータが必要であった。同様に、他方側にも複数の参加者がいる場合は、この他方側の会議室においても同様の操作を行うオペレータが必要になる。
つまり、円滑にテレビ会議を実行するために、このように別途オペレータが必要であるとすると、上述したテレビ会議のコスト上の優位性がそがれてしまうという問題点がある。また、このオペレータ自身もある程度習熟していないと、発言者の音声を拾うのが遅れて、通信の受け手の側で音声が聞き取りにくくなり、カメラの切換えが間に合わなくなるなど、会議が円滑に行われなくなるという問題がある。
さらに、このように、複数の参加者がいる場合に、発言者を特定して、その発言者に対して選択的にカメラを向けたり、あるいは、複数のカメラで同時に撮影中の画像から、発言者を撮影しているカメラに切換えたり、あるいは、音声を拾うマイクを切換えるという作業自体は、このようなテレビ会議の場合に限定されるものではなく、たとえば、1つの会場で開催され、複数の発言者が参加する会議の画像を収録する場合にも、同様に必要となる処理である。このようなことから、撮影中の画像情報に基づいて発言者を特定して選択的に画像を撮影することが可能なテレビ会議システムが提案されている(特許文献1参照)。この技術は、会議参加者の顔画像を抽出し、当該顔画像中の口唇部分の動きを捕捉して発話の前駆動作を検出することにより、発話を開始しようとする参加者を発話者として特定するというものである。
特開2004−118314号公報 村井和昌、中村哲著「マルチモーダル音声認識のための顔検出」、情報処理学会 音声言語情報処理研究会 Vol.2002, No.10.pp.39−44, 2002 2002年2月1日
しかしながら、特許文献1では、発話の前駆動作を検出しており、現在の画像処理技術では発明の前駆動作を検出するのに多くの時間が必要となり、発話の前駆動作が検出できたときには、発話者による発話がすでにはじまってしまっており、発話者が実際に話す前に発話を検出することができなかった。
そこで、本発明は、上記問題点に鑑みてなされたもので、発話者が実際に話す前に発話者を予測できる発話予測装置および発話予測方法を提供することを目的とする。
上記課題を解決するために、本発明は、複数の人物の中から発話者を予測する発話者予測装置であって、前記人物の発話を検出する発話検出部と、前記人物を撮像した画像から画像の特徴を抽出する特徴抽出部と、前記画像の特徴から前記発話検出部で検出された発話に先立って生起する画像の特徴を学習する学習部と、前記学習部による学習結果を用いて前記人物を撮像した画像の特徴から前記人物のうち発話を開始する発話者を予測する予測部とを有する。本発明によれば、発話に先立って生起する画像の特徴を学習することにより、学習した先例に基づいて発話者が実際に発話を開始する前に発話者を予測できる。
熟練したオペレータは、スムーズに切り替えなどを行うために、会議内容や、参加者の微妙な動き、予兆などから次の発言者をある程度は予測していると想定される。予兆には個人差があるので、適応的に予測しているので、本発明は、その点を自動で行おうというものである。会議内容や話の流れを画像から汲み取ることは現実的ではないが、発話する前に口を開ける、前の発話者や周囲の人の様子を伺う動作(視線や顔向き)、挙手、周囲の人の視線が集まるなど、画像的に取得できる情報がある。これらの情報を、使用しながら学習し、学習結果に基づいて予測するということがこの発明のポイントである。
また、発言する前には画像から観察できる前兆がある。この前兆は、人によって差が少ないものと、人によって差が多いものがある。人によって差が少ないものには、発話の前駆動作がある。人によって差が多いものとしては、発言権を奪取するために構える動作としての癖がある。この癖は他の人の発言中では高頻度に観察される。発話の前駆動作を用いた発話の予知については、上述した特許文献1により提案されている。本発明によれば、発明の前駆動作のみならず、人によって差が多い発言権を取得するために構える動作を検出することができるため、従来よりも高精度に発話者を認識することができる。
前記学習部は、前記人物を撮像した画像の特徴から前記人物の事象を特定し、該人物の事象を用いて発話に先立って生起する事象を学習する。本発明によれば、画像の特徴から人物の癖などの事象を特定し、発話の前の癖を学習した先例に基づいて発話を開始する発話者を予測できる。
前記学習部は、前記人物を撮像した画像の特徴から該画像の特徴が発生したときに前記撮像した人物が発話をする確率を求め、該確率を用いて前記発話に先立って生起する画像の特徴を学習する。本発明によれば、画像の特徴が発生したときに撮像した人物が発話をする確率を用いて発話に先立って生起する画像の特徴を学習できる。前記発話検出部は、前記人物を撮像した画像および前記人物から検出した音声のうち少なくとも一方に基づいて前記人物の発話を検出する。前記特徴抽出部は、前記人物を撮像した画像データをフーリエ変換することにより前記画像の特徴を抽出する。本発明の発話者予測装置は、前記人物を撮像する複数の撮像部をさらに有する。
前記学習部は、前記人物から検出した音声の特徴から発話に先立って生起する音声の特徴をさらに学習し、前記予測部は、前記学習部による学習結果を用いて前記人物を撮像した画像の特徴および前記人物から検出した音声の特徴から前記人物のうち発話を開始する発話者を予測するとよい。本発明によれば、発話に先立って生起する画像の特徴と音声の特徴を学習することにより、学習した先例に基づいて発話を開始する発話者をさらに高精度に予測できる。
本発明は、複数の人物の中から発話者を予測する発話者予測装置であって、前記人物の発話を検出する発話検出部と、前記人物の音声から音声の特徴を抽出する特徴抽出部と、前記音声の特徴から前記発話検出部で検出した発話に先立って生起する音声の特徴を学習する学習部と、前記学習部による学習結果を用いて前記人物から検出した音声の特徴から前記人物のうち発話を開始する発話者を予測する予測部とを有する。本発明によれば、発話に先立って生起する音声の特徴を学習することにより、学習した先例に基づいて発話者が実際に発話を開始する前に発話者を予測できる。本発明の発話者予測装置は、前記予測部により予測された発話者の画像および音声の少なくとも一方を選択的に取得する制御部をさらに有する。本発明によれば、発話者が事前に分かるのでカメラワークや音声収音を自動化できる。
本発明は、複数の人物の中から発話者を予測する発話者予測方法であって、前記人物の発話を検出する発話検出工程と、前記人物を撮像した画像から画像の特徴を抽出する特徴抽出工程と、前記画像の特徴から前記発話検出工程で検出された発話に先立って生起する画像の特徴を学習する学習工程と、前記学習工程による学習結果を用いて前記人物を撮像した画像の特徴から前記人物のうち発話を開始する発話者を予測する予測工程とを有する。本発明によれば、発話に先立って生起する画像の特徴を学習することにより、学習した先例に基づいて発話者が実際に発話を開始する前に発話者を予測できる。
前記学習工程は、前記人物を撮像した画像の特徴から前記人物の事象を特定し、該人物の事象を用いて発話に先立って生起する事象を学習する。本発明によれば、画像の特徴から人物の癖などの事象を特定し、発話の前の癖を学習した先例に基づいて発話を開始する発話者を予測できる。前記学習工程は、前記人物を撮像した画像の特徴から該画像の特徴が発生したときに前記撮像した人物が発話をする確率を求め、該確率を用いて前記発話に先立って生起する画像の特徴を学習する。本発明によれば、画像の特徴が発生したときに撮像した人物が発話をする確率を用いて発話に先立って生起する画像の特徴を学習できる。
前記学習工程は、前記人物から検出した音声の特徴から発話に先立って生起する音声の特徴をさらに学習し、前記予測工程は、前記学習結果を用いて前記人物を撮像した画像の特徴および前記人物から検出した音声の特徴から前記人物のうち発話を開始する発話者を予測する。本発明によれば、発話に先立って生起する画像の特徴と音声の特徴を学習することにより、学習した先例に基づいて発話者が発話を開始する発話者をさらに高精度に予測できる。
本発明は、複数の人物の中から発話者を予測する発話者予測方法であって、前記人物の発話を検出する発話検出工程と、前記人物の音声から音声の特徴を抽出する特徴抽出工程と、前記音声の特徴から前記発話検出工程で検出した発話に先立って生起する音声の特徴を学習する学習工程と、前記学習工程による学習結果を用いて前記人物から検出した音声の特徴から前記人物のうち発話を開始する発話者を予測する予測工程とを有する。本発明によれば、発話に先立って生起する音声の特徴を学習することにより、学習した先例に基づいて発話者が実際に発話を開始する前に発話者を予測できる。
本発明によれば、発話者が実際に話す前に発話者を予測できる発話予測装置および発話予測方法を提供することができる。
以下、本発明を実施するための最良の形態について説明する。図1は、本発明に係るテレビ会議システム1000の構成を説明するための概念図である。図1に示したテレビ会議システム1000においては、2つの会議室100と会議室200との間で、インターネットなどの公衆回線網300により、通信を行っているものとする。
ここで、会議を開催する会議室の数は、より多くてもよいが、以下の説明では、説明を簡略化するために、2つの会議室を結んで、テレビ会議が行われているものとする。また、2つの会議室をつないで通信を行う回線は、公衆回線網300での通信をそのまま用いてもよいし、必要に応じて、公衆回線網300上で実現される仮想プライベートネットワーク(VPN:Virtual Private Network)のような通信の秘密を保護可能なシステムを用いてもよい。さらには、公衆回線網300の代わりに専用回線を用いてもよい。
会議室100には、たとえば、2人の会議参加者(人物)2および4がいるものとする。参加者2および4の各々に対応して、小型カメラ102とマイク104が設けられている。小型カメラ102は、参加者を撮像する撮像部であり、参加者1人に対して複数個設けられているのが好ましい。マイク104は参加者の音声を検出する検出部として機能する。また、会議室100内の風景を撮影するために、撮影方向等を制御信号に応じて可変できるカメラ106が設けられてもよい。さらに、会議室100には、テレビ120および発話者予測装置110が設けられている。テレビ120は、他方の会議室200内の参加者6および8の画像を表示し、かつ、参加者6および8の音声を出力するためのものである。
発話者予測装置110は、参加者のうちの発話者を特定して、参加者を撮影する小型カメラ102や音声を集音するマイク104について、発話者に対応するものを選択する制御を行うものである。発話者予測装置110は、特定した発話者が、相手方の会議室200内のテレビにおいて表示される画像上でも特定可能なように伝送する画像を加工する。なお、会議室200にも、特に人数は限定されないが、上述したとおり、たとえば、2人の参加者6および8がおり、かつ、会議室100と同様のシステムが設けられているものとする。
発話者予測装置110は、会議の期間中、人物を撮像した画像の特徴から発話に先立って生起する画像の特徴を学習し、この学習結果を用いて人物を撮像した画像の特徴から人物のうち発話を開始する発話者を予測する。このようにして、発話に先立って生起する画像の特徴を学習することにより、学習した先例に基づいて発話者が実際に発話を開始する前に発話者を予測し、画像の切換えやマイク104の切換えを行う。
図2は、本発明の発話者予測装置110の構成を説明するための概略ブロック図である。図2においては、図1に示した構成のうち、参加者2に対応する部分を抜き出して示す。発話者予測装置110は、参加者2の画像を撮影するための小型カメラ102からの画像信号と、参加者2に対応して設けられるマイク104からの音声信号を受取る。
発話者予測装置110は、公衆回線網300を介して会議室200から伝送される画像信号および音声信号を受取り、テレビ120により、対応する画像を表示し、対応する音声を出力する。発話者予測装置110は、参加者2および4を撮影した画像と参加者2および4の音声を受取り、会議室200の参加者6および8が、発言者の画像および音声を特定できるように加工した上で、公衆回線網300を介して会議室200に伝送する。なお、以下で説明する学習の精度をよくするため参加者2を撮影する小型カメラ102、マイク104は参加者一人に対して複数個設けられているのが好ましい。
以下、発話者予測装置110の構成を具体的に説明する。発話者予測装置110は、データ入出力部1102、発話者抽出部1120、データ記憶部1130、制御部1140およびデータ通信部1150を有する。データ入出力部1102は、小型カメラ102、マイク104およびテレビ120との間でデータの授受を行うためのものである。発話者抽出部1120は、小型カメラ102からのデータに基づいて、発話者を特定するための演算を行う。データ記憶部1130は、発話者予測装置110の行う処理を特定するためのプログラム、話者認識や学習に用いる各種データが格納されている。
制御部1140は、データ記憶部1130に格納されたプログラムに従って、発話者予測装置110の動作を制御し、かつ、伝送する画像等を発言者の画像および音声を特定できるように加工するためのものである。データ通信部1150は、加工された画像および音声データを公衆回線網300に伝送し、かつ公衆回線網300を介して会議室200から伝送される画像信号および音声信号を受取るためのものである。
発話者抽出部1120は、発話検出部としての発話者検出部1121、特徴抽出部1122、学習部1123および予測部1124を有する。発話者検出部1121は、参加者2を撮像した画像または参加者2から検出した音声に基づいて発話を検出する。さらに発話者検出部1121は、話者認識技術を用いて発話者を特定する。特徴抽出部1122は、参加者2を撮像した画像から画像の特徴を抽出する。このとき、特徴抽出部1122は、参加者2を撮像した画像データをフーリエ変換することにより画像の特徴を抽出する。また、特徴抽出部1122は、参加者2から検出した音声から音声の特徴を抽出する。このとき、例えば、特徴抽出部1122は、参加者2から検出した音声画像データをフーリエ変換することにより音声の特徴を抽出する。
学習部1123は、参加者2を撮像した画像の特徴から発話に先立って生起する画像の特徴を学習する。より詳細には、学習部1123は、式(1)を用いて、参加者2を撮像した画像の特徴から該画像の特徴Yが発生したときに撮像した参加者2が発話Xをする確率Pを求め、この確率Pを用いて発話に先立って生起する画像の特徴を学習する。
P(X|Y)・・・(1)
ここで、(1)式はYが起きたときのXの起こる確率Pを表わしている。
なお、学習部1123は、参加者2を撮像した画像の特徴から参加者2の癖(事象)を特定し、この参加者2の癖を用いて発話に先立って発生する癖を学習するようにしてもよい。画像から検知できる癖の例としては、口を薄開きにする(息を吸い込む)、口に力を入れて強く閉じる、口を開けて待つ、瞬きをする、笑窪ができる、首をかしげる、挙手する、起立する、口角が上がる(下がる)左右対称/非対称、視線が泳ぐ・発話中の人を睨む、他に、舌打ちなど、音で観察されるものもある。また、学習部1123は、多変量解析やニューラルネットワークを用いて学習を行う。
予測部1124は、学習部1123による学習結果を用いて参加者2を撮像した画像の特徴から参加者2のうち発話を開始する発話者を予測する。なお、学習部1123は、参加者2から検出した音声の特徴から発話に先立って生起する音声の特徴をさらに学習し、予測部1124は、学習部1123による学習結果を用いて参加者2を撮像した画像の特徴および参加者2から検出した音声の特徴から参加者2のうち発話を開始する発話者を予測してもよい。
上述したとおり、公衆回線網300を介して会議室200に伝送される画像は、会議室200の参加者6および8が、会議室100の参加者2および4のうち、発話者の画像および音声を特定できるように加工される。そのような加工方法としては、第1には、画面上に発話中の参加者のみが表示されるように、伝送される画像信号は、少なくとも発話期間中は、小型カメラ102で撮影された画像信号のうち、一方の参加者に対応する画像信号に完全に切換えることも可能である。
この場合、会議室200に対して伝送される音声信号は、参加者2の発話中は、参加者2に対応するマイク104からの信号に基づいて生成される。誰も発話をしていないときには、たとえば、会議室100の全体の音声を集音しているマイク(図示せず)からの音声信号を伝送することとしてもよい。また、画像については、一度発話を開始した発話者、たとえば参加者2の画像が、会議室200のテレビの画面一杯に表示され、参加者2の発話が終了後も、他の参加者4が発話を開始するまでは、参加者2の画像が表示されつづける、という制御を行うことも可能である。
図3は、制御部1140が、会議室200へ伝送する画像に対して行う第2の加工方法を説明するための概念図である。図3においては、会議室200に伝送される画像信号に対応する画像表示を示している。このような第2の加工方法としては、参加者2および4の画像は、常に、会議室200に対して伝送されるものの、1つの画面中において、発言中の参加者、たとえば、参加者2の画像が、発言をしていない他の参加者4の画像よりも大きく表示されるように加工する。ここで、音声信号の切換えについては、第1の加工方法と同様とすることができる。
この場合、伝送される画像については、一度発言を開始した参加者2の画像は、その発言中は、会議室200のテレビの画面において相対的に大きく表示され、参加者2の発言が終了後は、他の参加者4と同じ大きさで表示される。なお、会議室100の参加者2および4のうち、発話者の画像を特定できるのであれば、上述した第1および第2の加工方法に限定されるものではない。たとえば、表示される画面中に発話者表示領域が予め規定されており、会議室100の参加者全員の画像が、常に、他の会議室200のテレビの画面の上記発話者表示領域以外の領域に表示されていて、参加者うちのいずれかが発話を開始すると、この発話者の画像は、上記発話者表示領域に移動して表示されることとしてもよい。
次に、画像の特徴と音声の特徴を用いた場合の発話者予測装置の学習と動作の例について説明する。図4は発話者予測装置の動作例1のフローチャートである。ステップS11で、発話者検出部1121は、参加者を撮像した画像または参加者から検出した音声に基づいて発話を検出する。ステップS12で、さらに発話者検出部1121は、話者認識技術を用いて発話者を特定する。ステップS13で、特徴抽出部1122は、参加者を撮像した画像から画像の特徴を抽出する。このとき、例えば、特徴抽出部1122は、参加者を撮像した画像データをフーリエ変換することにより画像の特徴を抽出する。
ステップS14で、特徴抽出部1122は、参加者から検出した音声から音声の特徴を抽出する。このとき、例えば、特徴抽出部1122は、参加者から検出した音声画像データをフーリエ変換することにより音声の特徴を抽出する。ステップS15で、学習部1123は、発話者とこの発話者を撮像した画像の特徴から発話に先立って生起する画像の特徴を学習する。このとき、学習部1123は、参加者を撮像した画像の特徴から該画像の特徴が発生したときに撮像した参加者が発話をする確率を求め、該確率を用いて発話に先立って生起する画像の特徴を学習する。
ステップS16で、さらに、学習部1123は、発話者から検出した音声の特徴から発話に先立って生起する音声の特徴をさらに学習する。このとき、学習部1123は、参加者から検出した音声の特徴から該音声の特徴が発生したときに参加者が発話をする確率を求め、この確率を用いて発話に先立って生起する音声の特徴を学習する。学習部1123は、すべての参加者に対して上記学習を行う。ステップS17で、予測部1124は、学習部1123による学習結果を用いて参加者を撮像した画像の特徴および参加者から検出した音声の特徴から会議参加者のうち発話を開始する発話者を予測する。ステップS18で、制御部1140は、予測部1124により予測された発話者の画像および音声を選択的に取得するよう制御を行う。これにより、発話者が事前に分かるのでカメラワークや音声収音を自動化できる。
動作例1によれば、発話に先立って生起する画像の特徴や音声の特徴を学習することにより、学習した先例に基づいて発話者が実際に発話を開始する前に発話者を予測できる。なお、発話者予測装置の動作例1では、画像の特徴と音声の特徴を共に用いる場合の例について説明したが、画像の特徴だけを用いてもよい。
次に、音声の特徴だけを用いて学習を行った場合の例について説明する。図5は発話者予測装置の動作例2のフローチャートである。ステップS21で、発話者検出部1121は、参加者を撮像した画像または参加者から検出した音声に基づいて発話を検出する。ステップS22で、さらに発話者検出部1121は、話者認識技術を用いて発話者を特定する。ステップS23で、特徴抽出部1122は、参加者から検出した音声の特徴を抽出する。例えば、特徴抽出部1122は、参加者から検出した音声データをフーリエ変換することにより音声の特徴を抽出する。なお、音声の特徴量を抽出する方法は、フーリエ変換以外の方法を用いてもよい。
ステップS24で、学習部1123は、発話に先立って生起する音声の特徴を学習する。このとき、学習部1123は、参加者の音声の特徴から該音声の特徴が発生したときにその参加者が発話をする確率を求め、該確率を用いて発話に先立って生起する音声の特徴を学習する。学習部1123はすべての参加者に対して上記学習を行う。ステップS25で、予測部1124は、学習部1123による学習結果を用いて参加者から検出した音声の特徴から参加者のうち発話を開始する発話者を予測する。
ステップS26で、制御部1140は、予測部1124により予測された発話者の画像および音声を選択的に取得するよう制御を行う。これにより、発話者が事前に分かるのでカメラワークや音声収音を自動化できる。以上、動作例2によれば、発話に先立って生起する音声の特徴を学習することにより、学習した先例に基づいて発話者が実際に発話を開始する前に発話者を予測できる。
上記動作例1および2では、画像の特徴や音声の特徴を直接用いて発話者を予測するようにしたが、次に説明する動作例3では、画像の特徴や音声の特徴から発話者の癖(事象)を特定し、この癖を用いて発話者を予測するものである。なお、動作例3では、画像の特徴だけを用いた例について説明するが、動作例1と同様に音声の特徴を用いるようにしてもよい。
図6は発話者予測装置の動作例3のフローチャートである。ステップS31で、発話者検出部1121は、参加者を撮像した画像または参加者から検出した音声に基づいて発話を検出する。ステップS32で、さらに発話者検出部1121は、話者認識技術を用いて発話者を特定する。ステップS33で、特徴抽出部1122は、参加者を撮像した画像から画像の特徴を抽出する。このとき、例えば、特徴抽出部1122は、参加者を撮像した画像データをフーリエ変換することにより画像の特徴を抽出する。
ステップS34で、学習部1123は、特徴抽出部1122が抽出した画像の特徴から参加者の癖を特定する。そして、ステップS35で、学習部1123は、この参加者の癖を用いて発話に先立って発生する癖を学習する。このとき、学習部1123は、参加者の癖からこの癖が発生したときにこの参加者が発話をする確率を求め、該確率を用いて発話に先立って生起する癖を学習する。学習部1123は、すべての参加者に対して上記学習を行う。
ステップS36で、予測部1124は、学習部1123による学習結果を用いて参加者を撮像した画像の特徴から参加者のうち発話を開始する発話者を予測する。ステップS37で、制御部1140は、予測部1124により予測された発話者の画像および音声を選択的に取得するよう制御を行う。これにより、発話者が事前に分かるのでカメラワークや音声収音を自動化できる。動作例3によれば、発話に先立って行う癖を学習することにより、学習した先例に基づいて発話者が実際に発話を開始する前に発話者を予測できる。
上記各実施例で説明した通り、学習した先例に基づいて発話者が実際に発話を開始する前に発話者を予測できるため、より早いタイミングで発話者の特定と、画像、音声の切換えを行うことが可能である。また、一方の会議室内の複数の参加者のうち、これから発話しようとする参加者を特定して、他の会議室へ伝送する画像および音声の切換えを行うテレビ会議システムとして、本発明を説明した。しかしながら、本発明の発話者予測装置110はこのような場合に限定されることなく、1つの会場で開催され、複数の発言者が参加する会議の画像を収録する場合に、音声や画像を発言者に応じて切換える際にも適用可能なものである。
なお、発話者検出部1121に、音源を推定する機能を付加して、画像中の特徴が生起する位置と関連付けるとよい。これにより、たとえば、口の位置や、顔の位置を推定することが出来るようになる。発話に先立って生起する事象は、発話準備のために口を開ける行為(口をあけるので開口部が少し暗くなる、オプティカルフローで上下に分かれる動きが検出できる、フーリエ変換した値で所定の特徴が観測できるなど)が観測できる。顔領域の重心位置により顔を上げるなどの動作が観測できる。また肌色領域の重心位置により挙手などの動作が観測できる。肌色領域のオプティカルフローにより口を開ける動作が観測できる。
過去に、画像中から顔を検出し、顔の中から口の位置を推定し、動きを検出することにより発話を予測・検出するという研究がなされている(非特許文献1)。この方法では、すべてが正しく認識・検出されなければ機能しない。また、そのために照明条件やカメラと顔の位置関係などについて、適切に設定する必要がある。この手法では学習は不要だが、現実的に機能させることは非常に困難である。これに対し、上記本発明では、誤認識であろうとも、事象がおきて関連付けできれば何でも良いという立場なので、実現は容易である。学習が必要という課題があるが、使っているうちに機能するようになるという枠組みなので、利用者が操作したり、明示的に学習をさせるという段取りは不要である。
口を開ける動作を、「口を開ける」と認識しなくても、歯が見えて明るくなったり、口が開いて暗くなったりするという容易に検出できる画像上の特徴と、発話が関連付けできれば、画像の認識技術が稚拙でも適用可能となる。多くは、音源である口の位置や、周囲に画像的な特徴が現れる。発話の音源位置情報と、画像上の特徴を関連付けすることにより、学習が簡単になったり、制度が向上したりすると想定される。マイクロホンアレーを使うことにより音源を推定できるが、顔画像認識や、口の認識により精度を高めたり、計算量を低減させたり、頑強性を高めることも可能である。
また、次の発言者に視線が集中するという事象を画像から認識することは非常に高度な認識技術が必要となり、また、証明条件なども考慮する必要があるが、上述したように、その場で学習を行うことが前提となるので、その場の照明条件、その場の人の配置やカメラとの位置関係で、たまたま生起する画像上の特徴、(たとえば、AさんがBさんのほうを向くと、画像上は髪の毛の部分が多くなって暗くなる)などは、単純な方法で認識できる可能性がある。
また、Aさんの頭の位置(Aさんの頭と認識しなくても、画像の特定の位置の状態)が暗くなった後でBさんが発話したという状況が観測された場合、それ以降、同じ状況が発生した場合にBさんが発話する可能性が高いと考えることができる。同じような状況の積(確率の積)をとることにより、予測が可能になる。画像情報は複数のカメラを用いて取得する場合も想定される。同様に、挙手して発話する場合にも、画像の特徴(その場の照明や着衣、背景色)により、色相や明度が変化した場所の近くで発話が起きる可能性が高いなどの状況も容易に観測することが可能で、それを含めて、次に声が出るという確率を求めることができる。
予測が失敗しても、実際の発話が検出されたらその方向にカメラを向ける機能を持つことが可能であるので、致命的な副作用は想定されない。実際の会議では、発言が途絶えてしまって、誰かの発言を待つ状態になることがある。この場合、発言しようとする人がいれば、その方向にカメラ(撮影画像)が動くので、発言を促す効果も期待される。この場合、誤認識であっても、誰かの発言を促すことになれば会議をスムーズに継続させることも可能とる。誤認識であっても、大きな副作用がないことや、副次的な効果が得られる場合がある。
以上本発明の好ましい実施例について詳述したが、本発明は係る特定の実施例に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。
本発明に係るテレビ会議システムの構成を説明するための概念図である。 本発明の発話者予測装置の構成を説明するための概略ブロック図である。 制御部が遠隔の会議室へ伝送する画像に対して行う第2の加工方法を説明するための概念図である。 本発明の発話者予測装置の動作例1のフローチャートである。 本発明の発話者予測装置の動作例2のフローチャートである。 本発明の発話者予測装置の動作例3のフローチャートである。
符号の説明
1000 テレビ会議システム
100、200 会議室
102 小型カメラ
104 マイク
106 カメラ
110 発話者予測装置
120 テレビ
1102 データ入出力部
1120 発話者抽出部
1121 発話者検出部
1122 特徴抽出部
1123 学習部
1124 予測部

Claims (14)

  1. 複数の人物の中から発話者を予測する発話者予測装置であって、
    前記人物の発話を検出する発話検出部と、
    前記人物を撮像した画像から画像の特徴を抽出する特徴抽出部と、
    前記画像の特徴から前記発話検出部で検出された発話に先立って生起する画像の特徴を学習する学習部と、
    前記学習部による学習結果を用いて前記人物を撮像した画像の特徴から前記人物のうち発話を開始する発話者を予測する予測部と
    を有することを特徴とする発話者予測装置。
  2. 前記学習部は、前記人物を撮像した画像の特徴から前記人物の事象を特定し、該人物の事象を用いて発話に先立って生起する事象を学習することを特徴とすることを特徴とする請求項1に記載の発話者予測装置。
  3. 前記学習部は、前記人物を撮像した画像の特徴から該画像の特徴が発生したときに前記撮像した人物が発話をする確率を求め、該確率を用いて前記発話に先立って生起する画像の特徴を学習することを特徴とする請求項1に記載の発話者予測装置。
  4. 前記発話検出部は、前記人物を撮像した画像および前記人物から検出した音声のうち少なくとも一方に基づいて前記人物の発話を検出することを特徴とする請求項1に記載の発話者予測装置。
  5. 前記特徴抽出部は、前記人物を撮像した画像データをフーリエ変換することにより前記画像の特徴を抽出することを特徴とする請求項1に記載の発話者予測装置。
  6. 前記人物を撮像する複数の撮像部をさらに有することを特徴とする請求項1から請求項5のいずれか一項に記載の発話者予測装置。
  7. 前記学習部は、前記人物から検出した音声の特徴から発話に先立って生起する音声の特徴をさらに学習し、
    前記予測部は、前記学習部による学習結果を用いて前記人物を撮像した画像の特徴および前記人物から検出した音声の特徴から前記人物のうち発話を開始する発話者を予測することを特徴とする請求項1に記載の発話者予測装置。
  8. 複数の人物の中から発話者を予測する発話者予測装置であって、
    前記人物の発話を検出する発話検出部と、
    前記人物の音声から音声の特徴を抽出する特徴抽出部と、
    前記音声の特徴から前記発話検出部で検出した発話に先立って生起する音声の特徴を学習する学習部と、
    前記学習部による学習結果を用いて前記人物から検出した音声の特徴から前記人物のうち発話を開始する発話者を予測する予測部と
    を有することを特徴とする発話者予測装置。
  9. 前記予測部により予測された発話者の画像および音声の少なくとも一方を選択的に取得する制御部をさらに有することを特徴とする請求項1から請求項8のいずれか一項に記載の発話者予測装置。
  10. 複数の人物の中から発話者を予測する発話者予測方法であって、
    前記人物の発話を検出する発話検出工程と、
    前記人物を撮像した画像から画像の特徴を抽出する特徴抽出工程と、
    前記画像の特徴から前記発話検出工程で検出された発話に先立って生起する画像の特徴を学習する学習工程と、
    前記学習工程による学習結果を用いて前記人物を撮像した画像の特徴から前記人物のうち発話を開始する発話者を予測する予測工程と
    を有することを特徴とする発話者予測方法。
  11. 前記学習工程は、前記人物を撮像した画像の特徴から前記人物の事象を特定し、該人物の事象を用いて発話に先立って生起する事象を学習することを特徴とすることを特徴とする請求項10に記載の発話者予測方法。
  12. 前記学習工程は、前記人物を撮像した画像の特徴から該画像の特徴が発生したときに前記撮像した人物が発話をする確率を求め、該確率を用いて前記発話に先立って生起する画像の特徴を学習することを特徴とする請求項10に記載の発話者予測方法。
  13. 前記学習工程は、前記人物から検出した音声の特徴から発話に先立って生起する音声の特徴をさらに学習し、
    前記予測工程は、前記学習結果を用いて前記人物を撮像した画像の特徴および前記人物から検出した音声の特徴から前記人物のうち発話を開始する発話者を予測することを特徴とする請求項10に記載の発話者予測方法。
  14. 複数の人物の中から発話者を予測する発話者予測方法であって、
    前記人物の発話を検出する発話検出工程と、
    前記人物の音声から音声の特徴を抽出する特徴抽出工程と、
    前記音声の特徴から前記発話検出工程で検出した発話に先立って生起する音声の特徴を学習する学習工程と、
    前記学習工程による学習結果を用いて前記人物から検出した音声の特徴から前記人物のうち発話を開始する発話者を予測する予測工程と
    を有することを特徴とする発話者予測方法。
JP2005339201A 2005-11-24 2005-11-24 発話者予測装置および発話者予測方法 Pending JP2007147762A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2005339201A JP2007147762A (ja) 2005-11-24 2005-11-24 発話者予測装置および発話者予測方法
US11/449,674 US7907165B2 (en) 2005-11-24 2006-06-09 Speaker predicting apparatus, speaker predicting method, and program product for predicting speaker

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005339201A JP2007147762A (ja) 2005-11-24 2005-11-24 発話者予測装置および発話者予測方法

Publications (1)

Publication Number Publication Date
JP2007147762A true JP2007147762A (ja) 2007-06-14

Family

ID=38087028

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005339201A Pending JP2007147762A (ja) 2005-11-24 2005-11-24 発話者予測装置および発話者予測方法

Country Status (2)

Country Link
US (1) US7907165B2 (ja)
JP (1) JP2007147762A (ja)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011520387A (ja) * 2008-05-06 2011-07-14 マイクロソフト コーポレーション マルチメディア会議イベントのメディアコンテンツを管理する技術
JP2013162525A (ja) * 2012-02-07 2013-08-19 Google Inc 通信システムにおける音声レベルを変化させるための制御システムおよび制御方法
CN104933669A (zh) * 2009-10-16 2015-09-23 日本电气株式会社 人物服装特征提取装置及方法
JP2016092601A (ja) * 2014-11-05 2016-05-23 日本電信電話株式会社 推定装置、推定方法、およびプログラム
JP2016111426A (ja) * 2014-12-03 2016-06-20 日本電信電話株式会社 推定装置、推定方法、およびプログラム
JP2017117161A (ja) * 2015-12-24 2017-06-29 日本電信電話株式会社 コミュニケーションスキル評価システム、コミュニケーションスキル評価装置及びコミュニケーションスキル評価プログラム
JP2017118364A (ja) * 2015-12-24 2017-06-29 日本電信電話株式会社 コミュニケーションシステム、コミュニケーション装置およびコミュニケーションプログラム
JP2017116747A (ja) * 2015-12-24 2017-06-29 日本電信電話株式会社 音声処理システム、音声処理装置および音声処理プログラム
JP2018077791A (ja) * 2016-11-11 2018-05-17 日本電信電話株式会社 推定方法及び推定システム
JP2019208215A (ja) * 2019-06-20 2019-12-05 日本電信電話株式会社 推定装置、推定方法、およびプログラム
JP2020072457A (ja) * 2018-11-02 2020-05-07 ソニー株式会社 映像処理装置、映像処理方法、およびプログラム
JP2022139436A (ja) * 2021-03-12 2022-09-26 Necプラットフォームズ株式会社 会議支援装置、会議支援システム、会議支援方法、およびプログラム
WO2023084570A1 (ja) * 2021-11-09 2023-05-19 日本電信電話株式会社 発話推定装置、発話推定方法及び発話推定プログラム

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8253774B2 (en) * 2009-03-30 2012-08-28 Microsoft Corporation Ambulatory presence features
WO2013058728A1 (en) * 2011-10-17 2013-04-25 Nuance Communications, Inc. Speech signal enhancement using visual information
WO2016032383A1 (en) * 2014-08-29 2016-03-03 Telefonaktiebolaget L M Ericsson (Publ) Sharing of multimedia content
US20170186446A1 (en) * 2015-12-24 2017-06-29 Michal Wosk Mouth proximity detection
US10454877B2 (en) 2016-04-29 2019-10-22 Cisco Technology, Inc. Interoperability between data plane learning endpoints and control plane learning endpoints in overlay networks
US10091070B2 (en) 2016-06-01 2018-10-02 Cisco Technology, Inc. System and method of using a machine learning algorithm to meet SLA requirements
US10963813B2 (en) 2017-04-28 2021-03-30 Cisco Technology, Inc. Data sovereignty compliant machine learning
US10477148B2 (en) * 2017-06-23 2019-11-12 Cisco Technology, Inc. Speaker anticipation
US10608901B2 (en) 2017-07-12 2020-03-31 Cisco Technology, Inc. System and method for applying machine learning algorithms to compute health scores for workload scheduling
US10091348B1 (en) 2017-07-25 2018-10-02 Cisco Technology, Inc. Predictive model for voice/video over IP calls
JP2019139387A (ja) * 2018-02-07 2019-08-22 日本電信電話株式会社 推定装置、推定方法、およびプログラム
JP6916130B2 (ja) * 2018-03-02 2021-08-11 株式会社日立製作所 話者推定方法および話者推定装置
KR102453084B1 (ko) * 2018-04-17 2022-10-12 삼성전자주식회사 전자 장치 및 그 제어 방법
US10867067B2 (en) 2018-06-07 2020-12-15 Cisco Technology, Inc. Hybrid cognitive system for AI/ML data privacy
US10446170B1 (en) 2018-06-19 2019-10-15 Cisco Technology, Inc. Noise mitigation using machine learning
KR20210038537A (ko) * 2018-07-24 2021-04-07 소니 주식회사 정보 처리 장치 및 방법, 그리고 프로그램
JP7351642B2 (ja) * 2019-06-05 2023-09-27 シャープ株式会社 音声処理システム、会議システム、音声処理方法、及び音声処理プログラム
CN110660102B (zh) * 2019-06-17 2020-10-27 腾讯科技(深圳)有限公司 基于人工智能的说话人识别方法及装置、系统
CN113327286B (zh) * 2021-05-10 2023-05-19 中国地质大学(武汉) 一种360度全方位的说话人视觉空间定位方法
US20230260520A1 (en) * 2022-02-15 2023-08-17 Gong.Io Ltd Method for uniquely identifying participants in a recorded streaming teleconference
US20230283740A1 (en) * 2022-03-03 2023-09-07 International Business Machines Corporation Front-end clipping using visual cues

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010052928A1 (en) * 2000-05-22 2001-12-20 Kazuyuki Imagawa Image communication terminal
US6894714B2 (en) * 2000-12-05 2005-05-17 Koninklijke Philips Electronics N.V. Method and apparatus for predicting events in video conferencing and other applications
JP2004118314A (ja) 2002-09-24 2004-04-15 Advanced Telecommunication Research Institute International 発話者検出システムおよびそれを用いたテレビ会議システム

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011520387A (ja) * 2008-05-06 2011-07-14 マイクロソフト コーポレーション マルチメディア会議イベントのメディアコンテンツを管理する技術
CN104933669A (zh) * 2009-10-16 2015-09-23 日本电气株式会社 人物服装特征提取装置及方法
JP2013162525A (ja) * 2012-02-07 2013-08-19 Google Inc 通信システムにおける音声レベルを変化させるための制御システムおよび制御方法
JP2016092601A (ja) * 2014-11-05 2016-05-23 日本電信電話株式会社 推定装置、推定方法、およびプログラム
JP2016111426A (ja) * 2014-12-03 2016-06-20 日本電信電話株式会社 推定装置、推定方法、およびプログラム
JP2017118364A (ja) * 2015-12-24 2017-06-29 日本電信電話株式会社 コミュニケーションシステム、コミュニケーション装置およびコミュニケーションプログラム
JP2017117161A (ja) * 2015-12-24 2017-06-29 日本電信電話株式会社 コミュニケーションスキル評価システム、コミュニケーションスキル評価装置及びコミュニケーションスキル評価プログラム
JP2017116747A (ja) * 2015-12-24 2017-06-29 日本電信電話株式会社 音声処理システム、音声処理装置および音声処理プログラム
JP2018077791A (ja) * 2016-11-11 2018-05-17 日本電信電話株式会社 推定方法及び推定システム
JP2020072457A (ja) * 2018-11-02 2020-05-07 ソニー株式会社 映像処理装置、映像処理方法、およびプログラム
JP2019208215A (ja) * 2019-06-20 2019-12-05 日本電信電話株式会社 推定装置、推定方法、およびプログラム
JP2022139436A (ja) * 2021-03-12 2022-09-26 Necプラットフォームズ株式会社 会議支援装置、会議支援システム、会議支援方法、およびプログラム
WO2023084570A1 (ja) * 2021-11-09 2023-05-19 日本電信電話株式会社 発話推定装置、発話推定方法及び発話推定プログラム

Also Published As

Publication number Publication date
US7907165B2 (en) 2011-03-15
US20070120966A1 (en) 2007-05-31

Similar Documents

Publication Publication Date Title
JP2007147762A (ja) 発話者予測装置および発話者予測方法
EP3855731B1 (en) Context based target framing in a teleconferencing environment
JP5323770B2 (ja) ユーザ指示取得装置、ユーザ指示取得プログラムおよびテレビ受像機
JP6464449B2 (ja) 音源分離装置、及び音源分離方法
US10083710B2 (en) Voice control system, voice control method, and computer readable medium
JP2006287749A (ja) 撮像装置、及びその制御方法
WO2019206186A1 (zh) 唇语识别方法及其装置、增强现实设备以及存储介质
JP2004118314A (ja) 発話者検出システムおよびそれを用いたテレビ会議システム
US7984010B2 (en) Action agenda determining apparatus
JPH05122689A (ja) テレビ会議システム
WO2016201765A1 (zh) 一种录音控制方法和装置
JP2007142957A (ja) 遠隔対話方法及び装置
CN112567455A (zh) 使用深度信息净化声音的方法和系统以及计算机可读介质
JP2021033573A (ja) 情報処理装置、情報処理方法、およびプログラム
KR20140093459A (ko) 자동 통역 방법
KR20160122869A (ko) 로봇 팔을 이용한 언어 변환이 가능한 장치
CN115988164A (zh) 一种会议室多媒体控制方法、系统及计算机设备
JP6859641B2 (ja) 評価システム、情報処理装置およびプログラム
JP2004248125A (ja) 映像切り替え装置、映像切り替え方法、この方法のプログラムおよびこのプログラムを記録した記録媒体
CN113676693A (zh) 画面呈现方法、视频会议系统及可读存储介质
JP2009060220A (ja) コミュニケーションシステム及びコミュニケーションプログラム
WO2023106350A1 (ja) 記録媒体、遠隔会議実行方法、及び遠隔会議実行装置
EP4102825A1 (en) Image-capturing device, image-capturing method, and program
KR102484913B1 (ko) 독순술용 헤드셋
JP2018063352A (ja) フレーム選択装置、フレーム選択方法及びプログラム