JP2004248125A - 映像切り替え装置、映像切り替え方法、この方法のプログラムおよびこのプログラムを記録した記録媒体 - Google Patents

映像切り替え装置、映像切り替え方法、この方法のプログラムおよびこのプログラムを記録した記録媒体 Download PDF

Info

Publication number
JP2004248125A
JP2004248125A JP2003037727A JP2003037727A JP2004248125A JP 2004248125 A JP2004248125 A JP 2004248125A JP 2003037727 A JP2003037727 A JP 2003037727A JP 2003037727 A JP2003037727 A JP 2003037727A JP 2004248125 A JP2004248125 A JP 2004248125A
Authority
JP
Japan
Prior art keywords
person
video
shot
video data
video switching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003037727A
Other languages
English (en)
Inventor
Kashu Takemae
嘉修 竹前
Kazuhiro Otsuka
和弘 大塚
Naoki Takegawa
直樹 武川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2003037727A priority Critical patent/JP2004248125A/ja
Publication of JP2004248125A publication Critical patent/JP2004248125A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】複数の人物の対面対話における、対話参加者の態度、または、その態度の表出方向性を、第3者に対して、分かりやすく伝達できるようにする。
【解決手段】「映像データ獲得手段」1は複数のカメラを用いて各人物の映像データを獲得し、「音声データ獲得手段」2は複数のマイクなどを用いて各人物の音声データを獲得し、「ノンバーバル情報獲得手段」3は画像センサなどを用いて各人物の視線や頭の向き、頭部動作、発話区間などのノンバーバル情報を獲得する。
「映像切り替え手段」4は各人物のノンバーバル情報を利用して、複数の映像データを切り替えて一本の映像データに編集し、「映像音声合成手段」5は獲得した各人物の音声データと映像データを合成し、音声を含む一画面の映像を出力する。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は、複数のカメラから得られる複数の映像を自動的に一画面の映像に編集する映像編集技術、並びに、人物の視線や顔の向きなどを計測する技術の応用に関するものである。
【0002】
【従来の技術】
従来、複数の人物が会議をしている場面において、複数のカメラ、または、パンやズームなどの機能を持つ能動カメラを用いて、複数の人物映像を自動的に切り替える方法が提案されている(例えば、非特許文献1、または非特許文献2参照)。
【0003】
非特許文献1では、各人物の音声に基づいて、話者の交替に伴い、話者が単独で映っている人物映像に切り替える方法を提案している。
【0004】
また、非特許文献2では、テレビ討論番組におけるショットの種類とショットの持続時間を分析し、その分析結果に基づいて、発話者の人・物映像を中心とした切り替え方法を提案している。これは、話者交替、または、ショットの持続時間超過に対して、分析結果から得られたそれぞれの遷移確率行列により次のショットの種類とショット持続時間を決定する方法である。
【0005】
これらの方法は、話者の把握し易さ、表情などの分かりやすさ、及び、映像に対する注意の保持の効果などがあるといわれる。
【0006】
また、画像センサ、または磁気センサなどを用いて、人物の視線や顔の向きなどを計測する技術がある。これらは、ヒューマンインタフェース、あるいは、認知科学や心理学の分析ツールとして利用されている。
【0007】
【非特許文献1】
井上智雄、岡田謙一、松下温:“テレビ会議における映像表現の利用とその影響”、情処論,Vol.40,No.10,pp.3753−3761,1999
【0008】
【非特許文献2】
井上智雄、岡田謙一、松下温:“テレビ番組のカメラワークの知識に基づいたTV会議システム”、情処論、Vol.37,No.11,pp.2095−2103,1996
【0009】
【発明が解決しようとする課題】
しかしながら、前述のような従来の映像切り替え技術に基づいて編集された映像では話者を中心とした映像切り替えであるため、その場にいない第3者は、言葉には表れない聞き手の態度、例えば、「首を傾ける」という動作から読み取れる、発話者に対する「否定」の態度を読み取ることは難しい。
【0010】
また、複数の人物による対面対話をその場にいない第3者が理解するためには、誰が誰に対して表出した態度かという「態度の表出方向性」を把握することが重要となるが、従来の映像切り替え技術を適用した映像では、このような情報を伝達することは困難であった。
【0011】
本発明は、テレビ会議や映像アーカイブなどで利用されている上述したような従来技術の有する欠点を解決し、その場にいない第3者に対して、対話参加者の態度(特に「同意・否定」)、または、その「態度の表出方向性」などを分かりやすく伝達するための映像切り替え装置、方法、プログラムおよび記録媒体を提供することを目的とする。
【0012】
【課題を解決するための手段】
上記の課題を解決するため、本発明は、複数の人物の対面対話において、複数の人物に実環境に設置した複数のカメラを用いて、各人物の映像データを獲得する「映像データ獲得手段」と、複数のマイクなどを用いて、各人物の音声データを獲得する「音声データ獲得手段」と、画像センサ、又は、磁気センサなどを用いて、各人物の視線や頭の向き、頭部動作、発話区間などのノンバーバル情報を獲得する「ノンバーバル情報獲得手段」と、前記「ノンバーバル情報獲得手段」により獲得された各人物のノンバーバル情報を利用して、前記「映像データ獲得手段」で獲得した複数の映像データを切り替えて一本の映像データに編集する「映像切り替え手段」と、前記「音声データ獲得手段」により獲得した各人物の音声データ、及び、前記「映像切り替え手段」により獲得した映像データを合成する「映像音声合成手段」を備えるもので、以下の映像切り替え装置、方法、プログラムおよび記録媒体を特徴とする。
【0013】
(装置の発明)
(1)複数の人物による対面対話の映像を切り替えて一画面の映像に編集するための映像切り替え装置であって、
実環境に設置した複数のカメラを用いて、各人物の映像データを獲得する「映像データ獲得手段」と、
一つ、または、複数のマイクを用いて、各人物の音声データを獲得する「音声データ獲得手段」と、
少なくとも各人物の視線、顔の向き、頭部動作、発話の有無を含むノンバーバル情報を獲得する「ノンバーバル情報獲得手段」と、
前記「ノンバーバル情報獲得手段」により獲得された各人物のノンバーバル情報を利用して、前記「映像データ獲得手段」で獲得した複数の映像データを切り替えて一画面の映像データに編集する「映像切り替え手段」と、
前記「音声データ獲得手段」により獲得した各人物の音声データ、及び、前記「映像切り替え手段」により獲得した映像データを合成し、音声を含む映像データとする「映像音声合成手段」を備えたことを特徴とする。
【0014】
(2)前記「映像切り替え手段」は、対話中の各時刻において、各人物がそれぞれ視線を向けている相手をもとに、各人物の視線が、ある人物に最も集まっている場合、そのときは、その人物が単独で撮影されたショットを選択する手段を備えたことを特徴とする。
【0015】
(3)前記「映像切り替え手段」は、対話中の各時刻において、各人物がそれぞれ顔を向けている相手をもとに、各人物の顔の向きが、ある人物に最も集まっている場合、そのときは、その人物が単独で撮影されたショットを選択する手段を備えたことを特徴とする。
【0016】
(4)前記「映像切り替え手段」は、対話中の各時点において、
ある人物が「うなずく」「首を傾ける」「首を横に振る」などの頭部動作を行っている場合は、その人物が単独で撮影されたショットを選択し、
複数の人物が同時に頭部動作を行っている場合は、その複数の人物を同時に撮影したショットを選択する手段を備えたことを特徴とする。
【0017】
(5)前記「映像切り替え手段」は、まず、頭部動作を伴う人物が単独で撮影されたショットを選択し、次に、その人物の頭部動作開始時の視線により、その人物の態度が表出されている発言者を特定し、頭部動作を伴う人物のショットに先行する部分に、発言者の発話時に発言者が単独で撮影されたショットを選択する手段を備えたことを特徴とする。
【0018】
(方法の発明)
(6)複数の人物による対面対話の映像を切り替えて一画面の映像に編集するための映像切り替え方法であって、
実環境に設置した複数のカメラを用いて、各人物の映像データを獲得する「映像データ獲得過程」と、
一つ、または、複数のマイクを用いて、各人物の音声データを獲得する「音声データ獲得過程」と、
少なくとも各人物の視線、顔の向き、頭部動作、発話の有無を含むノンバーバル情報を獲得する「ノンバーバル情報獲得過程」と、
前記「ノンバーバル情報獲得過程」により獲得された各人物のノンバーバル情報を利用して、前記「映像データ獲得過程」で獲得した複数の映像データを切り替えて一画面の映像データに編集する「映像切り替え過程」と、
前記「音声データ獲得過程」により獲得した各人物の音声データ、及び、前記「映像切り替え過程」により獲得した映像データを合成し、音声を含む映像データとする「映像音声合成過程」を備えたことを特徴とする。
【0019】
(7)前記「映像切り替え過程」は、対話中の各時刻において、各人物がそれぞれ視線を向けている相手をもとに、各人物の視線が、ある人物に最も集まっている場合、そのときは、その人物が単独で撮影されたショットを選択する過程を備えたことを特徴とする。
【0020】
(8)前記「映像切り替え過程」は、対話中の各時刻において、各人物がそれぞれ顔を向けている相手をもとに、各人物の顔の向きが、ある人物に最も集まっている場合、そのときは、その人物が単独で撮影されたショットを選択する過程を備えたことを特徴とする。
【0021】
(9)前記「映像切り替え過程」は、対話中の各時点において、
ある人物が「うなずく」「首を傾ける」「首を横に振る」などの頭部動作を行っている場合は、その人物が単独で撮影されたショットを選択し、
複数の人物が同時に頭部動作を行っている場合は、その複数の人物を同時に撮影したショットを選択する過程を備えたことを特徴とする。
【0022】
(10)前記「映像切り替え過程」は、まず、頭部動作を伴う人物が単独で撮影されたショットを選択し、次に、その人物の頭部動作開始時の視線により、その人物の態度が表出されている発言者を特定し、頭部動作を伴う人物のショットに先行する部分に、発言者の発話時に発言者が単独で撮影されたショットを選択する過程を備えたことを特徴とする。
【0023】
(プログラムの発明)
(11)上記の(6)〜(10)のいずれか1項に記載の映像切り替え方法を、コンピュータプログラムで記載してそれを実行可能にしたことを特徴とする。
【0024】
(記録媒体の発明)
(12)上記の(6)〜(10)のいずれか1項に記載の映像切り替え方法を、コンピュータで実行可能に記載したプログラムを記録したことを特徴とする。
【0025】
【発明の実施の形態】
以下、図面を用いて本発明の実施の形態を詳細に説明する。なお、ここでは一例として、3人の対面対話における一形態を説明するが、本発明は4人以上の対面対話においても同様に有効である。
【0026】
図1は、本発明の一実施形態に関する映像切り替え装置の構成図である。この図において、1は映像データ獲得手段、2は音声データ獲得手段、3はノンバーバル情報獲得手段、4は映像切り替え手段、5は映像音声合成手段である。
【0027】
図2は、屋内環境に設置した複数のカメラの配置例を示す図である。
【0028】
図3は、本発明の一実施形態における、図2に示した複数のカメラで取得する人物の映像を説明する図であり、(a)には人物Aのバストショット、(b)には人物Bのバストショット、(c)には人物Cのバストショットの例を示す。なお、バストショットとは各人物の胸から上の部分を撮影した画像のことである。図3の(d)には人物AとBのツーショット、(e)には人物BとCのツーショットの例を示す。なお、ツーショットとは2人の人物を同時に撮影した画像のことである。図3の(f)には全体ショットの例を示し、この全体ショットとは3人の人物を同時に撮影した画像のことである。
【0029】
図4は、視線を利用した映像切り替えについて説明する図であり、選択される人物の映像A,B,Cでの視線の向きを矢印で示す。図5は、顔の向きを利用した映像切り替えについて説明する図であり、選択される人物の映像A,B,Cの顔の向きを三角印で示す。図6は、視線、頭部動作、発話の有無を利用した映像切り替えについて説明する図である。
【0030】
以下、本実施形態における映像切り替え方法を図7に従って具体的に説明する。
【0031】
(S1)「映像データ獲得手段」1により、一例として、図2に示した複数のカメラを用いて、図3に示した各人物の映像を撮影し、記憶装置(ハードディスクなど)に記録する。なお、本発明は、各カメラの配置、姿勢、個数などについては、図2に示した以外のものを選んでも、同様に実現可能である。
【0032】
(S2)「音声データ獲得手段」2により、一例として、各人物に装着したピンマイクを用いて、対話中の各人物の音声データを取得し、記憶装置(ハードディスクなど)に記録する。なお、本発明は、屋内に設置した単一のマイク、または、マイクロフォンアレイなどを用いても、同様に実現可能である。
【0033】
(S3)「ノンバーバル情報獲得手段」3により、一般的な磁気センサや画像センサなどを用いて、対話中の各時点における、各人物の顔及び視線の向き、頭部動作、発話の有無を検出する。一例として、磁気センサを用いて顔の向きを計測する場合を説明するが、上記以外のセンサを用いても実現可能である。
【0034】
この「ノンバーバル情報獲得手段」3は、例えば、磁気センサを各人物の頭部に装着し、対話中の各時刻における、各人物の頭部位置、顔の向きを計測する。計測した各人物の頭部位置、顔の向きを利用して、各人物がそれぞれ顔を向けている相手を決定し、その結果を言己慮装置(ハードディスク、メモリ等)に記録する。
【0035】
一例として、非接触で連続的に視線を計測できる視線計測装置を用いて視線の向きを計測する場合を説明するが、上記以外の視線計測装置を用いても実現可能である。対話中の各時刻における、各人物の眼球位置、視線の向きを計測する。計測した各人物の眼球位置、視線の向きを利用して、各人物がそれぞれ視線を向けている相手を決定し、その結果を記憶装置(ハードディスク、メモリ等)に記録する。
【0036】
一例として、画像処理を用いて頭部動作を認識する方法を説明するが、上記以外の方法でも実現可能である。各人物の頭部を撮影した入力画像に対して、色情報を用いて頭部領域を抽出する。その領域に対して、オプティカルフローを求める。さらにその頭部領域を4分割し、領域ごとにオプティカルフローの平均値を特徴量として用いる。これらの特徴を用いることにより、「うなずく」「首を傾ける」「首を横に振る」「静止状態」の4種類に識別できる。この識別結果を、記憶装置(ハードディスク、メモリ等)に記録する。
【0037】
一例として、前記、「音声データ獲得手段」2で獲得した各人物の音声データを用いた場合を説明するが、上記以外でも実現可能である。各人物の音声データのパワーを算出し、経験的な閾値に基づいて、各人物の有声区間と無声区間を検出し、その結果を記憶装置(ハードディスク、メモリ等)に記録する。
【0038】
なお、本発明は、前記、「映像データ獲得手段」1で獲得した映像データ、及び、前記、「音声データ獲得手段」2で獲得した音声データを用いて、人間の聴視により検出することも同様に実現可能である。
【0039】
上記の視線測定装置としては、例えば、参考文献「大野健彦、武川直樹、吉川厚:“眼球モデルに基づく視線測定システム−視線入力デバイスの実現に向けて”、情処研報2001−HI−93,pp.47−54,2001」を利用することができる。
【0040】
また、頭部動作の認識方法としては、例えば、参考文献「江尻康、松坂要佐、小林哲則:“対話中における頭部ジェスチャの認識”、信学技報PRMU2002−61,pp.31−36,2002」を利用することができる。
【0041】
(S4)「映像切り替え手段」4により、各人物の視線の向き、顔の向き、頭部動作、発話の有無のうち、単一、あるいは、複数の情報を利用して映像を切り替える。「映像データ獲得手段」1により獲得した映像に対して、映像切り替え規則を適用する。
【0042】
映像切り替え規則の一例として、各人物の視線に基づいた規則を説明する。対話中の各時刻において、各人物がそれぞれ視線を向けている相手をもとに、各人物の視線が、ある人物に最も集まっている場合、そのときは、その人物のバストショットを選択する。それ以外の場合は、各人物を同時に撮影した全体ショットを選択し、その結果を記憶装置(ハードディスク、メモリ等)に記録する。
【0043】
例えば、図4に示したように、3人の対面対話では、人物Bと人物Cの視線は人物Aに向いているため、人物Aのバストショットが選択される。対話参加者の中で、直接、対話に参与していない参加者が、その視線を動かすことにより、対話中の発話者と聞き手の様子を交互に観察するため、映像には、発話者と聞き手が交互に現れる。したがって、上述のような規則を適用した映像は、第3者に対して、対話参加者の「態度の表出方向性」を分かりやすく伝達できる。
【0044】
映像切り替え規則の一例として、各人物の顔の向きに基づいた規則を説明する。対話中の各時刻において、各人物がそれぞれ顔を向けている相手をもとに、各人物の顔の向きが、ある人物に最も集まっている場合、そのときは、その人物のバストショットを選択する。それ以外の場合は、各人物を同時に撮影した全体ショットを選択し、その結果を記憶装置(ハードディスク、メモリ等)に記録する。
【0045】
例えば、図5に示したように、3人の対面対話では、人物Aと人物Cの顔は人物Bに向いているため、人物Bのバストショットが選択される。対話参加者の中で、直接、対話に参与していない参加者が、その顔を動かすことにより、対話中の発話者と聞き手の様子を交互に観察するため、映像には、発話者と聞き手が交互に現れる。したがって、上述のような規則を適用した映像は、第3者に対して、対話参加者の「態度の表出方向性」を分かりやすく伝達できる。
【0046】
映像切り替え規則の一例として、各人物の頭部動作に基づいた規則を説明する。頭部動作とは、「うなずく」「首を傾ける」「首を横に振る」などの動作のことを指す。対話中の各時点において、ある人物が頭部動作を行っている場合、そのときは、その人物のバストショットを選択する。それ以外の場合は、各人物を同時に撮影した全体ショットを選択し、その結果を記憶装置(ハードディスク、メモリ等)に出力する。ただし、複数の人物が同時に頭部動作を行っている場合は、その複数の人物を同時に撮影したショットを選択する。例えば、人物Aと人物Bが同時にうなずいた場合は、その2人の人物を同時に撮影したツーショットを選択する。人物の「同意・否定」め「態度」と「うなずく」「首を傾ける」「首を横に振る」などの頭部動作と相関があるため、そのような人物の動作をよく映した映像は、第3者に対して、該人物の「同意・否定」などの態度を分かりやすく伝達できる。
【0047】
映像切り替え規則の一例として、各人物の視線、頭部動作、発話の有無のうち、複数の情報を利用した規則を説明する。まず、頭部動作を伴う人物のバストショットを選択する。次に、その人物の頭部動作開始時の視線により、その人物の態度が表出されている発言者を特定し、頭部動作を伴う人物のバストショットに先行する部分に、発言者の発話時に発言者のバストショットを選択する。それ以外の場合は、各人物を同時に撮影した全体ショットを選択する。それらの結果を記憶装置(ハードディスク)に記録する。
【0048】
図6を用いて具体的に説明する。まず、頭部動作を伴う人物Cのバストショットを選択する。次に、頭部動作開始時に人物Cが視線を向けている人物Bを発言者として特定し、人物Cのバストショットに先行する部分に、人物Bのバストショットを選択する。それ以外の場合は、3人を同時に撮影した全体ショットを選択する。対話中の対話参加者の視線方向から、その人物の態度が表出されている相手を特定できるため、上述のような規則を適用した映像は、第3者に対して、対話参加者の「態度の表出方向性」を分かりやすく伝達できる。この効果は、被験者11人に対する映像評価実験により確認された。
【0049】
この「態度の表出方向性」の実験として、切り替え規則の異なる2つの映像を提示し、予め被験者が映像から感じた「態度」に対し、「態度の表出方向性」の分かりやすさを7段階(±3)の一対比較法により評価した。被験者は討論の参加者11人である。被験者には映像を提示する前に、特定の対話参加者の「態度の表出方向性」について評価するように指示した。この実験結果は、下記の表が得られ、規則1が「態度の表出方向性」の伝達に適していることが分かった。対話参加者の視線方向がその態度を表出する相手を表すため、視線を用いた規則1は「態度の表出方向性」が分かりやすく伝達されたと考えられる。
【0050】
【表1】
Figure 2004248125
【0051】
(S5)「映像音声合成手段」5により、前記「音声データ獲得手段」2で獲得した各人物の音声データと前記「映像切り替え手段」4により編集された一画面の映像データを入力として、音声を含む一画面の映像として合成する。その結果をディスプレイ等の出力装置に出力する。
【0052】
なお、本発明は、図7に示した方法の一部又は全部の処理機能をプログラムとして構成してコンピュータに実行させることができる。また、コンピュータでその各部の処理機能を実現するためのプログラム、あるいはコンピュータにその処理手順を実行させるためのプログラムを、そのコンピュータが読み取り可能な記録媒体、例えば、フレキシブルディスク、MO、ROM、メモリカード、CD、DVD、リムーバブルディスクなどに記録して、保存したり、提供したりすることが可能であり、また、インターネットのような通信ネットワークを介して配布したりすることが可能である。
【0053】
【発明の効果】
以上、説明したように、本発明は、複数のカメラから得られる映像を自動的に一画面の映像に編集する映像編集技術、並びに、人物の視線や顔の向きなどを計測する技術の応用により、複数の人物の対面対話における、対話参加者の態度(特に「同意・否定」)、または、その「態度の表出方向性」を、その場にいない第3者に対して、分かりやすく伝達するための映像切り替えができる。
【図面の簡単な説明】
【図1】本発明の実施形態を示す映像切り替え装置の構成図。
【図2】実施形態における屋内環境に設置した複数のカメラの配置例。
【図3】実施形態における複数のカメラで取得する人物の映像例。
【図4】実施形態における視線を利用した映像切り替えの例。
【図5】実施形態における顔の向きを利用した映像切り替えの例。
【図6】実施形態における頭部動作、視線、発話の有無を用いた映像切り替えの例。
【図7】本発明の実施形態を示す映像切り替え方法の手順図。
【符号の説明】
1…映像データ獲得手段
2…音声データ獲得手段
3…ノンバーバル情報獲得手段
4…映像切り替え手段
5…映像音声合成手段

Claims (12)

  1. 複数の人物による対面対話の映像を切り替えて一画面の映像に編集するための映像切り替え装置であって、
    実環境に設置した複数のカメラを用いて、各人物の映像データを獲得する「映像データ獲得手段」と、
    一つ、または、複数のマイクを用いて、各人物の音声データを獲得する「音声データ獲得手段」と、
    少なくとも各人物の視線、顔の向き、頭部動作、発話の有無を含むノンバーバル情報を獲得する「ノンバーバル情報獲得手段」と、
    前記「ノンバーバル情報獲得手段」により獲得された各人物のノンバーバル情報を利用して、前記「映像データ獲得手段」で獲得した複数の映像データを切り替えて一画面の映像データに編集する「映像切り替え手段」と、
    前記「音声データ獲得手段」により獲得した各人物の音声データ、及び、前記「映像切り替え手段」により獲得した映像データを合成し、音声を含む映像データとする「映像音声合成手段」を備えたことを特徴とする映像切り替え装置。
  2. 前記「映像切り替え手段」は、対話中の各時刻において、各人物がそれぞれ視線を向けている相手をもとに、各人物の視線が、ある人物に最も集まっている場合、そのときは、その人物が単独で撮影されたショットを選択する手段を備えたことを特徴とする請求項1記載の映像切り替え装置。
  3. 前記「映像切り替え手段」は、対話中の各時刻において、各人物がそれぞれ顔を向けている相手をもとに、各人物の顔の向きが、ある人物に最も集まっている場合、そのときは、その人物が単独で撮影されたショットを選択する手段を備えたことを特徴とする請求項1記載の映像切り替え装置。
  4. 前記「映像切り替え手段」は、対話中の各時点において、
    ある人物が「うなずく」「首を傾ける」「首を横に振る」などの頭部動作を行っている場合は、その人物が単独で撮影されたショットを選択し、
    複数の人物が同時に頭部動作を行っている場合は、その複数の人物を同時に撮影したショットを選択する手段を備えたことを特徴とする請求項1記載の映像切り替え装置。
  5. 前記「映像切り替え手段」は、まず、頭部動作を伴う人物が単独で撮影されたショットを選択し、次に、その人物の頭部動作開始時の視線により、その人物の態度が表出されている発言者を特定し、頭部動作を伴う人物のショットに先行する部分に、発言者の発話時に発言者が単独で撮影されたショットを選択する手段を備えたことを特徴とする請求項1記載の映像切り替え装置。
  6. 複数の人物による対面対話の映像を切り替えて一画面の映像に編集するための映像切り替え方法であって、
    実環境に設置した複数のカメラを用いて、各人物の映像データを獲得する「映像データ獲得過程」と、
    一つ、または、複数のマイクを用いて、各人物の音声データを獲得する「音声データ獲得過程」と、
    少なくとも各人物の視線、顔の向き、頭部動作、発話の有無を含むノンバーバル情報を獲得する「ノンバーバル情報獲得過程」と、
    前記「ノンバーバル情報獲得過程」により獲得された各人物のノンバーバル情報を利用して、前記「映像データ獲得過程」で獲得した複数の映像データを切り替えて一画面の映像データに編集する「映像切り替え過程」と、
    前記「音声データ獲得過程」により獲得した各人物の音声データ、及び、前記「映像切り替え過程」により獲得した映像データを合成し、音声を含む映像データとする「映像音声合成過程」を備えたことを特徴とする映像切り替え方法。
  7. 前記「映像切り替え過程」は、対話中の各時刻において、各人物がそれぞれ視線を向けている相手をもとに、各人物の視線が、ある人物に最も集まっている場合、そのときは、その人物が単独で撮影されたショットを選択する過程を備えたことを特徴とする請求項1記載の映像切り替え方法。
  8. 前記「映像切り替え過程」は、対話中の各時刻において、各人物がそれぞれ顔を向けている相手をもとに、各人物の顔の向きが、ある人物に最も集まっている場合、そのときは、その人物が単独で撮影されたショットを選択する過程を備えたことを特徴とする請求項1記載の映像切り替え方法。
  9. 前記「映像切り替え過程」は、対話中の各時点において、
    ある人物が「うなずく」「首を傾ける」「首を横に振る」などの頭部動作を行っている場合は、その人物が単独で撮影されたショットを選択し、
    複数の人物が同時に頭部動作を行っている場合は、その複数の人物を同時に撮影したショットを選択する過程を備えたことを特徴とする請求項1記載の映像切り替え方法。
  10. 前記「映像切り替え過程」は、まず、頭部動作を伴う人物が単独で撮影されたショットを選択し、次に、その人物の頭部動作開始時の視線により、その人物の態度が表出されている発言者を特定し、頭部動作を伴う人物のショットに先行する部分に、発言者の発話時に発言者が単独で撮影されたショットを選択する過程を備えたことを特徴とする請求項1記載の映像切り替え方法。
  11. 上記の請求項6〜10のいずれか1項に記載の映像切り替え方法を、コンピュータプログラムで記載してそれを実行可能にしたことを特徴とするプログラム。
  12. 上記の請求項6〜10のいずれか1項に記載の映像切り替え方法を、コンピュータで実行可能に記載したプログラムを記録したことを特徴とする記録媒体。
JP2003037727A 2003-02-17 2003-02-17 映像切り替え装置、映像切り替え方法、この方法のプログラムおよびこのプログラムを記録した記録媒体 Pending JP2004248125A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003037727A JP2004248125A (ja) 2003-02-17 2003-02-17 映像切り替え装置、映像切り替え方法、この方法のプログラムおよびこのプログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003037727A JP2004248125A (ja) 2003-02-17 2003-02-17 映像切り替え装置、映像切り替え方法、この方法のプログラムおよびこのプログラムを記録した記録媒体

Publications (1)

Publication Number Publication Date
JP2004248125A true JP2004248125A (ja) 2004-09-02

Family

ID=33022437

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003037727A Pending JP2004248125A (ja) 2003-02-17 2003-02-17 映像切り替え装置、映像切り替え方法、この方法のプログラムおよびこのプログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP2004248125A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006338529A (ja) * 2005-06-03 2006-12-14 Nippon Telegr & Teleph Corp <Ntt> 会話構造推定方法
JP2007300452A (ja) * 2006-05-01 2007-11-15 Mitsubishi Electric Corp 画像及び音声通信機能付テレビジョン放送受像機
JP2017103801A (ja) * 2017-01-19 2017-06-08 株式会社Jvcケンウッド 通信端末、通信端末の制御方法、通信端末の制御プログラム
JP2018521593A (ja) * 2015-04-01 2018-08-02 オウル・ラブズ・インコーポレイテッドOwl Labs, Inc. 角度分離されたサブシーンの合成およびスケーリング
CN109688324A (zh) * 2018-12-04 2019-04-26 深圳市子瑜杰恩科技有限公司 短视频道具切换方法及相关产品
CN111107296A (zh) * 2019-11-26 2020-05-05 视联动力信息技术股份有限公司 音频数据采集方法、装置、电子设备及可读存储介质
US11729342B2 (en) 2020-08-04 2023-08-15 Owl Labs Inc. Designated view within a multi-view composited webcam signal
US11736801B2 (en) 2020-08-24 2023-08-22 Owl Labs Inc. Merging webcam signals from multiple cameras

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05252509A (ja) * 1992-03-02 1993-09-28 Toshiba Corp マルチメディア装置及び電子会議システム
JPH09247638A (ja) * 1996-03-04 1997-09-19 Atsushi Matsushita テレビ会議システム
WO1999030495A2 (en) * 1997-12-05 1999-06-17 Koninklijke Philips Electronics N.V. Communication method and terminal
WO2000022823A1 (fr) * 1998-10-09 2000-04-20 Sony Corporation Appareil et procede de telecommunication
JP2000184345A (ja) * 1998-12-14 2000-06-30 Nec Corp マルチモーダルコミュニケーション支援装置
JP2000217091A (ja) * 1999-01-20 2000-08-04 Toshiba Corp テレビ会議システム
JP2001034787A (ja) * 1999-07-22 2001-02-09 Atr Media Integration & Communications Res Lab 分身コミュニケーションシステム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05252509A (ja) * 1992-03-02 1993-09-28 Toshiba Corp マルチメディア装置及び電子会議システム
JPH09247638A (ja) * 1996-03-04 1997-09-19 Atsushi Matsushita テレビ会議システム
WO1999030495A2 (en) * 1997-12-05 1999-06-17 Koninklijke Philips Electronics N.V. Communication method and terminal
JP2001510671A (ja) * 1997-12-05 2001-07-31 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 通信方法及び端末
WO2000022823A1 (fr) * 1998-10-09 2000-04-20 Sony Corporation Appareil et procede de telecommunication
JP2000184345A (ja) * 1998-12-14 2000-06-30 Nec Corp マルチモーダルコミュニケーション支援装置
JP2000217091A (ja) * 1999-01-20 2000-08-04 Toshiba Corp テレビ会議システム
JP2001034787A (ja) * 1999-07-22 2001-02-09 Atr Media Integration & Communications Res Lab 分身コミュニケーションシステム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006338529A (ja) * 2005-06-03 2006-12-14 Nippon Telegr & Teleph Corp <Ntt> 会話構造推定方法
JP2007300452A (ja) * 2006-05-01 2007-11-15 Mitsubishi Electric Corp 画像及び音声通信機能付テレビジョン放送受像機
JP2018521593A (ja) * 2015-04-01 2018-08-02 オウル・ラブズ・インコーポレイテッドOwl Labs, Inc. 角度分離されたサブシーンの合成およびスケーリング
JP2017103801A (ja) * 2017-01-19 2017-06-08 株式会社Jvcケンウッド 通信端末、通信端末の制御方法、通信端末の制御プログラム
CN109688324A (zh) * 2018-12-04 2019-04-26 深圳市子瑜杰恩科技有限公司 短视频道具切换方法及相关产品
CN111107296A (zh) * 2019-11-26 2020-05-05 视联动力信息技术股份有限公司 音频数据采集方法、装置、电子设备及可读存储介质
US11729342B2 (en) 2020-08-04 2023-08-15 Owl Labs Inc. Designated view within a multi-view composited webcam signal
US11736801B2 (en) 2020-08-24 2023-08-22 Owl Labs Inc. Merging webcam signals from multiple cameras

Similar Documents

Publication Publication Date Title
EP3855731B1 (en) Context based target framing in a teleconferencing environment
JP4474013B2 (ja) 情報処理装置
JP4697907B2 (ja) 画像処理装置及び方法
Otsuka et al. A realtime multimodal system for analyzing group meetings by combining face pose tracking and speaker diarization
Cutler et al. Distributed meetings: A meeting capture and broadcasting system
US9774823B1 (en) System and method for processing digital images during videoconference
JP4604173B2 (ja) 遠隔会議・教育システム
US20090058611A1 (en) Wearable device
JP2007147762A (ja) 発話者予測装置および発話者予測方法
US20090315974A1 (en) Video conferencing device for a communications device and method of manufacturing and using the same
JP7347597B2 (ja) 動画編集装置、動画編集方法及びプログラム
WO2019206186A1 (zh) 唇语识别方法及其装置、增强现实设备以及存储介质
US11477393B2 (en) Detecting and tracking a subject of interest in a teleconference
JP2022109048A (ja) 情報処理装置及びプログラム
JP2004248125A (ja) 映像切り替え装置、映像切り替え方法、この方法のプログラムおよびこのプログラムを記録した記録媒体
WO2021033592A1 (en) Information processing apparatus, information processing method, and program
CN104780341B (zh) 一种信息处理方法以及信息处理装置
CN113676693A (zh) 画面呈现方法、视频会议系统及可读存储介质
Otsuka et al. Realtime meeting analysis and 3D meeting viewer based on omnidirectional multimodal sensors
JP6823367B2 (ja) 画像表示システム、画像表示方法、および画像表示プログラム
Poppe et al. Online behavior evaluation with the Switching Wizard of Oz
JP2015043507A (ja) 情報処理装置、通信システムおよびプログラム
JP7292343B2 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
TWI799048B (zh) 環景影像會議系統及方法
US20240119731A1 (en) Video framing based on tracked characteristics of meeting participants

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050120

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070807

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070814

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20071204