JP2004248125A

JP2004248125A - 映像切り替え装置、映像切り替え方法、この方法のプログラムおよびこのプログラムを記録した記録媒体

Info

Publication number: JP2004248125A
Application number: JP2003037727A
Authority: JP
Inventors: Kashu Takemae; 嘉修竹前; Kazuhiro Otsuka; 和弘大塚; Naoki Takegawa; 直樹武川
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2003-02-17
Filing date: 2003-02-17
Publication date: 2004-09-02

Abstract

【課題】複数の人物の対面対話における、対話参加者の態度、または、その態度の表出方向性を、第３者に対して、分かりやすく伝達できるようにする。
【解決手段】「映像データ獲得手段」１は複数のカメラを用いて各人物の映像データを獲得し、「音声データ獲得手段」２は複数のマイクなどを用いて各人物の音声データを獲得し、「ノンバーバル情報獲得手段」３は画像センサなどを用いて各人物の視線や頭の向き、頭部動作、発話区間などのノンバーバル情報を獲得する。
「映像切り替え手段」４は各人物のノンバーバル情報を利用して、複数の映像データを切り替えて一本の映像データに編集し、「映像音声合成手段」５は獲得した各人物の音声データと映像データを合成し、音声を含む一画面の映像を出力する。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、複数のカメラから得られる複数の映像を自動的に一画面の映像に編集する映像編集技術、並びに、人物の視線や顔の向きなどを計測する技術の応用に関するものである。
【０００２】
【従来の技術】
従来、複数の人物が会議をしている場面において、複数のカメラ、または、パンやズームなどの機能を持つ能動カメラを用いて、複数の人物映像を自動的に切り替える方法が提案されている（例えば、非特許文献１、または非特許文献２参照）。
【０００３】
非特許文献１では、各人物の音声に基づいて、話者の交替に伴い、話者が単独で映っている人物映像に切り替える方法を提案している。
【０００４】
また、非特許文献２では、テレビ討論番組におけるショットの種類とショットの持続時間を分析し、その分析結果に基づいて、発話者の人・物映像を中心とした切り替え方法を提案している。これは、話者交替、または、ショットの持続時間超過に対して、分析結果から得られたそれぞれの遷移確率行列により次のショットの種類とショット持続時間を決定する方法である。
【０００５】
これらの方法は、話者の把握し易さ、表情などの分かりやすさ、及び、映像に対する注意の保持の効果などがあるといわれる。
【０００６】
また、画像センサ、または磁気センサなどを用いて、人物の視線や顔の向きなどを計測する技術がある。これらは、ヒューマンインタフェース、あるいは、認知科学や心理学の分析ツールとして利用されている。
【０００７】
【非特許文献１】
井上智雄、岡田謙一、松下温：“テレビ会議における映像表現の利用とその影響”、情処論，Ｖｏｌ．４０，Ｎｏ．１０，ｐｐ．３７５３−３７６１，１９９９
【０００８】
【非特許文献２】
井上智雄、岡田謙一、松下温：“テレビ番組のカメラワークの知識に基づいたＴＶ会議システム”、情処論、Ｖｏｌ．３７，Ｎｏ．１１，ｐｐ．２０９５−２１０３，１９９６
【０００９】
【発明が解決しようとする課題】
しかしながら、前述のような従来の映像切り替え技術に基づいて編集された映像では話者を中心とした映像切り替えであるため、その場にいない第３者は、言葉には表れない聞き手の態度、例えば、「首を傾ける」という動作から読み取れる、発話者に対する「否定」の態度を読み取ることは難しい。
【００１０】
また、複数の人物による対面対話をその場にいない第３者が理解するためには、誰が誰に対して表出した態度かという「態度の表出方向性」を把握することが重要となるが、従来の映像切り替え技術を適用した映像では、このような情報を伝達することは困難であった。
【００１１】
本発明は、テレビ会議や映像アーカイブなどで利用されている上述したような従来技術の有する欠点を解決し、その場にいない第３者に対して、対話参加者の態度（特に「同意・否定」）、または、その「態度の表出方向性」などを分かりやすく伝達するための映像切り替え装置、方法、プログラムおよび記録媒体を提供することを目的とする。
【００１２】
【課題を解決するための手段】
上記の課題を解決するため、本発明は、複数の人物の対面対話において、複数の人物に実環境に設置した複数のカメラを用いて、各人物の映像データを獲得する「映像データ獲得手段」と、複数のマイクなどを用いて、各人物の音声データを獲得する「音声データ獲得手段」と、画像センサ、又は、磁気センサなどを用いて、各人物の視線や頭の向き、頭部動作、発話区間などのノンバーバル情報を獲得する「ノンバーバル情報獲得手段」と、前記「ノンバーバル情報獲得手段」により獲得された各人物のノンバーバル情報を利用して、前記「映像データ獲得手段」で獲得した複数の映像データを切り替えて一本の映像データに編集する「映像切り替え手段」と、前記「音声データ獲得手段」により獲得した各人物の音声データ、及び、前記「映像切り替え手段」により獲得した映像データを合成する「映像音声合成手段」を備えるもので、以下の映像切り替え装置、方法、プログラムおよび記録媒体を特徴とする。
【００１３】
（装置の発明）
（１）複数の人物による対面対話の映像を切り替えて一画面の映像に編集するための映像切り替え装置であって、
実環境に設置した複数のカメラを用いて、各人物の映像データを獲得する「映像データ獲得手段」と、
一つ、または、複数のマイクを用いて、各人物の音声データを獲得する「音声データ獲得手段」と、
少なくとも各人物の視線、顔の向き、頭部動作、発話の有無を含むノンバーバル情報を獲得する「ノンバーバル情報獲得手段」と、
前記「ノンバーバル情報獲得手段」により獲得された各人物のノンバーバル情報を利用して、前記「映像データ獲得手段」で獲得した複数の映像データを切り替えて一画面の映像データに編集する「映像切り替え手段」と、
前記「音声データ獲得手段」により獲得した各人物の音声データ、及び、前記「映像切り替え手段」により獲得した映像データを合成し、音声を含む映像データとする「映像音声合成手段」を備えたことを特徴とする。
【００１４】
（２）前記「映像切り替え手段」は、対話中の各時刻において、各人物がそれぞれ視線を向けている相手をもとに、各人物の視線が、ある人物に最も集まっている場合、そのときは、その人物が単独で撮影されたショットを選択する手段を備えたことを特徴とする。
【００１５】
（３）前記「映像切り替え手段」は、対話中の各時刻において、各人物がそれぞれ顔を向けている相手をもとに、各人物の顔の向きが、ある人物に最も集まっている場合、そのときは、その人物が単独で撮影されたショットを選択する手段を備えたことを特徴とする。
【００１６】
（４）前記「映像切り替え手段」は、対話中の各時点において、
ある人物が「うなずく」「首を傾ける」「首を横に振る」などの頭部動作を行っている場合は、その人物が単独で撮影されたショットを選択し、
複数の人物が同時に頭部動作を行っている場合は、その複数の人物を同時に撮影したショットを選択する手段を備えたことを特徴とする。
【００１７】
（５）前記「映像切り替え手段」は、まず、頭部動作を伴う人物が単独で撮影されたショットを選択し、次に、その人物の頭部動作開始時の視線により、その人物の態度が表出されている発言者を特定し、頭部動作を伴う人物のショットに先行する部分に、発言者の発話時に発言者が単独で撮影されたショットを選択する手段を備えたことを特徴とする。
【００１８】
（方法の発明）
（６）複数の人物による対面対話の映像を切り替えて一画面の映像に編集するための映像切り替え方法であって、
実環境に設置した複数のカメラを用いて、各人物の映像データを獲得する「映像データ獲得過程」と、
一つ、または、複数のマイクを用いて、各人物の音声データを獲得する「音声データ獲得過程」と、
少なくとも各人物の視線、顔の向き、頭部動作、発話の有無を含むノンバーバル情報を獲得する「ノンバーバル情報獲得過程」と、
前記「ノンバーバル情報獲得過程」により獲得された各人物のノンバーバル情報を利用して、前記「映像データ獲得過程」で獲得した複数の映像データを切り替えて一画面の映像データに編集する「映像切り替え過程」と、
前記「音声データ獲得過程」により獲得した各人物の音声データ、及び、前記「映像切り替え過程」により獲得した映像データを合成し、音声を含む映像データとする「映像音声合成過程」を備えたことを特徴とする。
【００１９】
（７）前記「映像切り替え過程」は、対話中の各時刻において、各人物がそれぞれ視線を向けている相手をもとに、各人物の視線が、ある人物に最も集まっている場合、そのときは、その人物が単独で撮影されたショットを選択する過程を備えたことを特徴とする。
【００２０】
（８）前記「映像切り替え過程」は、対話中の各時刻において、各人物がそれぞれ顔を向けている相手をもとに、各人物の顔の向きが、ある人物に最も集まっている場合、そのときは、その人物が単独で撮影されたショットを選択する過程を備えたことを特徴とする。
【００２１】
（９）前記「映像切り替え過程」は、対話中の各時点において、
ある人物が「うなずく」「首を傾ける」「首を横に振る」などの頭部動作を行っている場合は、その人物が単独で撮影されたショットを選択し、
複数の人物が同時に頭部動作を行っている場合は、その複数の人物を同時に撮影したショットを選択する過程を備えたことを特徴とする。
【００２２】
（１０）前記「映像切り替え過程」は、まず、頭部動作を伴う人物が単独で撮影されたショットを選択し、次に、その人物の頭部動作開始時の視線により、その人物の態度が表出されている発言者を特定し、頭部動作を伴う人物のショットに先行する部分に、発言者の発話時に発言者が単独で撮影されたショットを選択する過程を備えたことを特徴とする。
【００２３】
（プログラムの発明）
（１１）上記の（６）〜（１０）のいずれか１項に記載の映像切り替え方法を、コンピュータプログラムで記載してそれを実行可能にしたことを特徴とする。
【００２４】
（記録媒体の発明）
（１２）上記の（６）〜（１０）のいずれか１項に記載の映像切り替え方法を、コンピュータで実行可能に記載したプログラムを記録したことを特徴とする。
【００２５】
【発明の実施の形態】
以下、図面を用いて本発明の実施の形態を詳細に説明する。なお、ここでは一例として、３人の対面対話における一形態を説明するが、本発明は４人以上の対面対話においても同様に有効である。
【００２６】
図１は、本発明の一実施形態に関する映像切り替え装置の構成図である。この図において、１は映像データ獲得手段、２は音声データ獲得手段、３はノンバーバル情報獲得手段、４は映像切り替え手段、５は映像音声合成手段である。
【００２７】
図２は、屋内環境に設置した複数のカメラの配置例を示す図である。
【００２８】
図３は、本発明の一実施形態における、図２に示した複数のカメラで取得する人物の映像を説明する図であり、（ａ）には人物Ａのバストショット、（ｂ）には人物Ｂのバストショット、（ｃ）には人物Ｃのバストショットの例を示す。なお、バストショットとは各人物の胸から上の部分を撮影した画像のことである。図３の（ｄ）には人物ＡとＢのツーショット、（ｅ）には人物ＢとＣのツーショットの例を示す。なお、ツーショットとは２人の人物を同時に撮影した画像のことである。図３の（ｆ）には全体ショットの例を示し、この全体ショットとは３人の人物を同時に撮影した画像のことである。
【００２９】
図４は、視線を利用した映像切り替えについて説明する図であり、選択される人物の映像Ａ，Ｂ，Ｃでの視線の向きを矢印で示す。図５は、顔の向きを利用した映像切り替えについて説明する図であり、選択される人物の映像Ａ，Ｂ，Ｃの顔の向きを三角印で示す。図６は、視線、頭部動作、発話の有無を利用した映像切り替えについて説明する図である。
【００３０】
以下、本実施形態における映像切り替え方法を図７に従って具体的に説明する。
【００３１】
（Ｓ１）「映像データ獲得手段」１により、一例として、図２に示した複数のカメラを用いて、図３に示した各人物の映像を撮影し、記憶装置（ハードディスクなど）に記録する。なお、本発明は、各カメラの配置、姿勢、個数などについては、図２に示した以外のものを選んでも、同様に実現可能である。
【００３２】
（Ｓ２）「音声データ獲得手段」２により、一例として、各人物に装着したピンマイクを用いて、対話中の各人物の音声データを取得し、記憶装置（ハードディスクなど）に記録する。なお、本発明は、屋内に設置した単一のマイク、または、マイクロフォンアレイなどを用いても、同様に実現可能である。
【００３３】
（Ｓ３）「ノンバーバル情報獲得手段」３により、一般的な磁気センサや画像センサなどを用いて、対話中の各時点における、各人物の顔及び視線の向き、頭部動作、発話の有無を検出する。一例として、磁気センサを用いて顔の向きを計測する場合を説明するが、上記以外のセンサを用いても実現可能である。
【００３４】
この「ノンバーバル情報獲得手段」３は、例えば、磁気センサを各人物の頭部に装着し、対話中の各時刻における、各人物の頭部位置、顔の向きを計測する。計測した各人物の頭部位置、顔の向きを利用して、各人物がそれぞれ顔を向けている相手を決定し、その結果を言己慮装置（ハードディスク、メモリ等）に記録する。
【００３５】
一例として、非接触で連続的に視線を計測できる視線計測装置を用いて視線の向きを計測する場合を説明するが、上記以外の視線計測装置を用いても実現可能である。対話中の各時刻における、各人物の眼球位置、視線の向きを計測する。計測した各人物の眼球位置、視線の向きを利用して、各人物がそれぞれ視線を向けている相手を決定し、その結果を記憶装置（ハードディスク、メモリ等）に記録する。
【００３６】
一例として、画像処理を用いて頭部動作を認識する方法を説明するが、上記以外の方法でも実現可能である。各人物の頭部を撮影した入力画像に対して、色情報を用いて頭部領域を抽出する。その領域に対して、オプティカルフローを求める。さらにその頭部領域を４分割し、領域ごとにオプティカルフローの平均値を特徴量として用いる。これらの特徴を用いることにより、「うなずく」「首を傾ける」「首を横に振る」「静止状態」の４種類に識別できる。この識別結果を、記憶装置（ハードディスク、メモリ等）に記録する。
【００３７】
一例として、前記、「音声データ獲得手段」２で獲得した各人物の音声データを用いた場合を説明するが、上記以外でも実現可能である。各人物の音声データのパワーを算出し、経験的な閾値に基づいて、各人物の有声区間と無声区間を検出し、その結果を記憶装置（ハードディスク、メモリ等）に記録する。
【００３８】
なお、本発明は、前記、「映像データ獲得手段」１で獲得した映像データ、及び、前記、「音声データ獲得手段」２で獲得した音声データを用いて、人間の聴視により検出することも同様に実現可能である。
【００３９】
上記の視線測定装置としては、例えば、参考文献「大野健彦、武川直樹、吉川厚：“眼球モデルに基づく視線測定システム−視線入力デバイスの実現に向けて”、情処研報２００１−ＨＩ−９３，ｐｐ．４７−５４，２００１」を利用することができる。
【００４０】
また、頭部動作の認識方法としては、例えば、参考文献「江尻康、松坂要佐、小林哲則：“対話中における頭部ジェスチャの認識”、信学技報ＰＲＭＵ２００２−６１，ｐｐ．３１−３６，２００２」を利用することができる。
【００４１】
（Ｓ４）「映像切り替え手段」４により、各人物の視線の向き、顔の向き、頭部動作、発話の有無のうち、単一、あるいは、複数の情報を利用して映像を切り替える。「映像データ獲得手段」１により獲得した映像に対して、映像切り替え規則を適用する。
【００４２】
映像切り替え規則の一例として、各人物の視線に基づいた規則を説明する。対話中の各時刻において、各人物がそれぞれ視線を向けている相手をもとに、各人物の視線が、ある人物に最も集まっている場合、そのときは、その人物のバストショットを選択する。それ以外の場合は、各人物を同時に撮影した全体ショットを選択し、その結果を記憶装置（ハードディスク、メモリ等）に記録する。
【００４３】
例えば、図４に示したように、３人の対面対話では、人物Ｂと人物Ｃの視線は人物Ａに向いているため、人物Ａのバストショットが選択される。対話参加者の中で、直接、対話に参与していない参加者が、その視線を動かすことにより、対話中の発話者と聞き手の様子を交互に観察するため、映像には、発話者と聞き手が交互に現れる。したがって、上述のような規則を適用した映像は、第３者に対して、対話参加者の「態度の表出方向性」を分かりやすく伝達できる。
【００４４】
映像切り替え規則の一例として、各人物の顔の向きに基づいた規則を説明する。対話中の各時刻において、各人物がそれぞれ顔を向けている相手をもとに、各人物の顔の向きが、ある人物に最も集まっている場合、そのときは、その人物のバストショットを選択する。それ以外の場合は、各人物を同時に撮影した全体ショットを選択し、その結果を記憶装置（ハードディスク、メモリ等）に記録する。
【００４５】
例えば、図５に示したように、３人の対面対話では、人物Ａと人物Ｃの顔は人物Ｂに向いているため、人物Ｂのバストショットが選択される。対話参加者の中で、直接、対話に参与していない参加者が、その顔を動かすことにより、対話中の発話者と聞き手の様子を交互に観察するため、映像には、発話者と聞き手が交互に現れる。したがって、上述のような規則を適用した映像は、第３者に対して、対話参加者の「態度の表出方向性」を分かりやすく伝達できる。
【００４６】
映像切り替え規則の一例として、各人物の頭部動作に基づいた規則を説明する。頭部動作とは、「うなずく」「首を傾ける」「首を横に振る」などの動作のことを指す。対話中の各時点において、ある人物が頭部動作を行っている場合、そのときは、その人物のバストショットを選択する。それ以外の場合は、各人物を同時に撮影した全体ショットを選択し、その結果を記憶装置（ハードディスク、メモリ等）に出力する。ただし、複数の人物が同時に頭部動作を行っている場合は、その複数の人物を同時に撮影したショットを選択する。例えば、人物Ａと人物Ｂが同時にうなずいた場合は、その２人の人物を同時に撮影したツーショットを選択する。人物の「同意・否定」め「態度」と「うなずく」「首を傾ける」「首を横に振る」などの頭部動作と相関があるため、そのような人物の動作をよく映した映像は、第３者に対して、該人物の「同意・否定」などの態度を分かりやすく伝達できる。
【００４７】
映像切り替え規則の一例として、各人物の視線、頭部動作、発話の有無のうち、複数の情報を利用した規則を説明する。まず、頭部動作を伴う人物のバストショットを選択する。次に、その人物の頭部動作開始時の視線により、その人物の態度が表出されている発言者を特定し、頭部動作を伴う人物のバストショットに先行する部分に、発言者の発話時に発言者のバストショットを選択する。それ以外の場合は、各人物を同時に撮影した全体ショットを選択する。それらの結果を記憶装置（ハードディスク）に記録する。
【００４８】
図６を用いて具体的に説明する。まず、頭部動作を伴う人物Ｃのバストショットを選択する。次に、頭部動作開始時に人物Ｃが視線を向けている人物Ｂを発言者として特定し、人物Ｃのバストショットに先行する部分に、人物Ｂのバストショットを選択する。それ以外の場合は、３人を同時に撮影した全体ショットを選択する。対話中の対話参加者の視線方向から、その人物の態度が表出されている相手を特定できるため、上述のような規則を適用した映像は、第３者に対して、対話参加者の「態度の表出方向性」を分かりやすく伝達できる。この効果は、被験者１１人に対する映像評価実験により確認された。
【００４９】
この「態度の表出方向性」の実験として、切り替え規則の異なる２つの映像を提示し、予め被験者が映像から感じた「態度」に対し、「態度の表出方向性」の分かりやすさを７段階（±３）の一対比較法により評価した。被験者は討論の参加者１１人である。被験者には映像を提示する前に、特定の対話参加者の「態度の表出方向性」について評価するように指示した。この実験結果は、下記の表が得られ、規則１が「態度の表出方向性」の伝達に適していることが分かった。対話参加者の視線方向がその態度を表出する相手を表すため、視線を用いた規則１は「態度の表出方向性」が分かりやすく伝達されたと考えられる。
【００５０】
【表１】

【００５１】
（Ｓ５）「映像音声合成手段」５により、前記「音声データ獲得手段」２で獲得した各人物の音声データと前記「映像切り替え手段」４により編集された一画面の映像データを入力として、音声を含む一画面の映像として合成する。その結果をディスプレイ等の出力装置に出力する。
【００５２】
なお、本発明は、図７に示した方法の一部又は全部の処理機能をプログラムとして構成してコンピュータに実行させることができる。また、コンピュータでその各部の処理機能を実現するためのプログラム、あるいはコンピュータにその処理手順を実行させるためのプログラムを、そのコンピュータが読み取り可能な記録媒体、例えば、フレキシブルディスク、ＭＯ、ＲＯＭ、メモリカード、ＣＤ、ＤＶＤ、リムーバブルディスクなどに記録して、保存したり、提供したりすることが可能であり、また、インターネットのような通信ネットワークを介して配布したりすることが可能である。
【００５３】
【発明の効果】
以上、説明したように、本発明は、複数のカメラから得られる映像を自動的に一画面の映像に編集する映像編集技術、並びに、人物の視線や顔の向きなどを計測する技術の応用により、複数の人物の対面対話における、対話参加者の態度（特に「同意・否定」）、または、その「態度の表出方向性」を、その場にいない第３者に対して、分かりやすく伝達するための映像切り替えができる。
【図面の簡単な説明】
【図１】本発明の実施形態を示す映像切り替え装置の構成図。
【図２】実施形態における屋内環境に設置した複数のカメラの配置例。
【図３】実施形態における複数のカメラで取得する人物の映像例。
【図４】実施形態における視線を利用した映像切り替えの例。
【図５】実施形態における顔の向きを利用した映像切り替えの例。
【図６】実施形態における頭部動作、視線、発話の有無を用いた映像切り替えの例。
【図７】本発明の実施形態を示す映像切り替え方法の手順図。
【符号の説明】
１…映像データ獲得手段
２…音声データ獲得手段
３…ノンバーバル情報獲得手段
４…映像切り替え手段
５…映像音声合成手段

Claims

複数の人物による対面対話の映像を切り替えて一画面の映像に編集するための映像切り替え装置であって、
実環境に設置した複数のカメラを用いて、各人物の映像データを獲得する「映像データ獲得手段」と、
一つ、または、複数のマイクを用いて、各人物の音声データを獲得する「音声データ獲得手段」と、
少なくとも各人物の視線、顔の向き、頭部動作、発話の有無を含むノンバーバル情報を獲得する「ノンバーバル情報獲得手段」と、
前記「ノンバーバル情報獲得手段」により獲得された各人物のノンバーバル情報を利用して、前記「映像データ獲得手段」で獲得した複数の映像データを切り替えて一画面の映像データに編集する「映像切り替え手段」と、
前記「音声データ獲得手段」により獲得した各人物の音声データ、及び、前記「映像切り替え手段」により獲得した映像データを合成し、音声を含む映像データとする「映像音声合成手段」を備えたことを特徴とする映像切り替え装置。
前記「映像切り替え手段」は、対話中の各時刻において、各人物がそれぞれ視線を向けている相手をもとに、各人物の視線が、ある人物に最も集まっている場合、そのときは、その人物が単独で撮影されたショットを選択する手段を備えたことを特徴とする請求項１記載の映像切り替え装置。
前記「映像切り替え手段」は、対話中の各時刻において、各人物がそれぞれ顔を向けている相手をもとに、各人物の顔の向きが、ある人物に最も集まっている場合、そのときは、その人物が単独で撮影されたショットを選択する手段を備えたことを特徴とする請求項１記載の映像切り替え装置。
前記「映像切り替え手段」は、対話中の各時点において、
ある人物が「うなずく」「首を傾ける」「首を横に振る」などの頭部動作を行っている場合は、その人物が単独で撮影されたショットを選択し、
複数の人物が同時に頭部動作を行っている場合は、その複数の人物を同時に撮影したショットを選択する手段を備えたことを特徴とする請求項１記載の映像切り替え装置。
前記「映像切り替え手段」は、まず、頭部動作を伴う人物が単独で撮影されたショットを選択し、次に、その人物の頭部動作開始時の視線により、その人物の態度が表出されている発言者を特定し、頭部動作を伴う人物のショットに先行する部分に、発言者の発話時に発言者が単独で撮影されたショットを選択する手段を備えたことを特徴とする請求項１記載の映像切り替え装置。
複数の人物による対面対話の映像を切り替えて一画面の映像に編集するための映像切り替え方法であって、
実環境に設置した複数のカメラを用いて、各人物の映像データを獲得する「映像データ獲得過程」と、
一つ、または、複数のマイクを用いて、各人物の音声データを獲得する「音声データ獲得過程」と、
少なくとも各人物の視線、顔の向き、頭部動作、発話の有無を含むノンバーバル情報を獲得する「ノンバーバル情報獲得過程」と、
前記「ノンバーバル情報獲得過程」により獲得された各人物のノンバーバル情報を利用して、前記「映像データ獲得過程」で獲得した複数の映像データを切り替えて一画面の映像データに編集する「映像切り替え過程」と、
前記「音声データ獲得過程」により獲得した各人物の音声データ、及び、前記「映像切り替え過程」により獲得した映像データを合成し、音声を含む映像データとする「映像音声合成過程」を備えたことを特徴とする映像切り替え方法。
前記「映像切り替え過程」は、対話中の各時刻において、各人物がそれぞれ視線を向けている相手をもとに、各人物の視線が、ある人物に最も集まっている場合、そのときは、その人物が単独で撮影されたショットを選択する過程を備えたことを特徴とする請求項１記載の映像切り替え方法。
前記「映像切り替え過程」は、対話中の各時刻において、各人物がそれぞれ顔を向けている相手をもとに、各人物の顔の向きが、ある人物に最も集まっている場合、そのときは、その人物が単独で撮影されたショットを選択する過程を備えたことを特徴とする請求項１記載の映像切り替え方法。
前記「映像切り替え過程」は、対話中の各時点において、
ある人物が「うなずく」「首を傾ける」「首を横に振る」などの頭部動作を行っている場合は、その人物が単独で撮影されたショットを選択し、
複数の人物が同時に頭部動作を行っている場合は、その複数の人物を同時に撮影したショットを選択する過程を備えたことを特徴とする請求項１記載の映像切り替え方法。
前記「映像切り替え過程」は、まず、頭部動作を伴う人物が単独で撮影されたショットを選択し、次に、その人物の頭部動作開始時の視線により、その人物の態度が表出されている発言者を特定し、頭部動作を伴う人物のショットに先行する部分に、発言者の発話時に発言者が単独で撮影されたショットを選択する過程を備えたことを特徴とする請求項１記載の映像切り替え方法。
上記の請求項６〜１０のいずれか１項に記載の映像切り替え方法を、コンピュータプログラムで記載してそれを実行可能にしたことを特徴とするプログラム。
上記の請求項６〜１０のいずれか１項に記載の映像切り替え方法を、コンピュータで実行可能に記載したプログラムを記録したことを特徴とする記録媒体。