JP2004266578A - 動画像編集方法および装置 - Google Patents
動画像編集方法および装置 Download PDFInfo
- Publication number
- JP2004266578A JP2004266578A JP2003054868A JP2003054868A JP2004266578A JP 2004266578 A JP2004266578 A JP 2004266578A JP 2003054868 A JP2003054868 A JP 2003054868A JP 2003054868 A JP2003054868 A JP 2003054868A JP 2004266578 A JP2004266578 A JP 2004266578A
- Authority
- JP
- Japan
- Prior art keywords
- moving image
- image data
- reproduction
- data
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Television Signal Processing For Recording (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
【課題】原動画像の重要な部分を要約するように、原動画像を編集したい。
【解決手段】記憶部14は、原動画像データ、音声データ、付属データを記憶する。原動画像データ入力部16は、原動画像データとして会議の映像を入力する。付属データ入力部18は、原動画像データを所定の時間間隔で分割した場合に生成される複数のブロックについての情報を入力する。管理部20は、原動画像データと付属データを対応させて、記憶部14に記憶する。動画像編集部22は、原動画像データから再生用動画像データを生成する。インターフェース部24は、原動画像データの編集に関する指示を閲覧者用PC12から受けつける。動画像出力部26は、再生用動画像データを閲覧者用PC12に配信する。
【選択図】 図11
【解決手段】記憶部14は、原動画像データ、音声データ、付属データを記憶する。原動画像データ入力部16は、原動画像データとして会議の映像を入力する。付属データ入力部18は、原動画像データを所定の時間間隔で分割した場合に生成される複数のブロックについての情報を入力する。管理部20は、原動画像データと付属データを対応させて、記憶部14に記憶する。動画像編集部22は、原動画像データから再生用動画像データを生成する。インターフェース部24は、原動画像データの編集に関する指示を閲覧者用PC12から受けつける。動画像出力部26は、再生用動画像データを閲覧者用PC12に配信する。
【選択図】 図11
Description
【0001】
【発明の属する技術分野】
本発明は、原動画像から再生用の動画像を生成する動画像編集技術に関する。特に、要求された再生時間の長さ程度となるような再生用の動画像を生成する動画像編集方法および装置に関する。
【0002】
【従来の技術】
ビデオ会議システムの多くは、遠隔地同士において、リアルタイムな音声とビデオのやりとりや、ファイル転送、アプリケーションの共有を対象とするため、一般に、会議への全員参加を前提にして設計されている。
ビデオ会議システムは、経営的な側面からいえば、会議にかかる時間、距離、経費などを削減するとして注目されている。しかし、実際の現場の声に耳を傾けてみると、たとえビデオ会議といえども、一般に、その会議への全員参加は難しく、特に意思決定に大きな影響力を持っている人ほど、多忙で欠席するケースが多い。そういった欠席者による意思決定の先延ばしなどが、敏速な意思決定が要求される企業において大きな問題となる(例えば、非特許文献1参照。)。
【0003】
【非特許文献1】
田中充,勅使河原可海,山田善靖,「同期型・非同期型の特徴を活かした会議不参加者支援のためのビデオ会議システムの設計」,情報処理学会研究報告「グループウェア」,No.028−012,1998
【0004】
【発明が解決しようとする課題】
会議の欠席者は、一般に会議の内容を理解するために会議議事録を確認する。このような会議議事録は、欠席した場合だけでなく、後日会議の内容を確認したい場合にも必要であるため重要となる。
一方、近年、CPU、ストレージ、ネットワークなどのコンピュータ技術の高性能化により、コンピュータで容易に映像・音声を取り扱う環境が整ってきた。映像・音声は視覚と聴覚という人間が頻繁に利用する感覚に訴えるため、現実世界を忠実に再現でき、多くの場面で重要なメディアとなる。個人のコミュニケーションの場面では映像チャットが利用され、教育の場面ではインターネットを利用した遠隔教育が利用されている。しかし、多くの場面で映像・音声が取り入れられる中、会議議事録に関しては未だテキストを利用したものが多い。
【0005】
会議議事録を単に映像・音声化するには、会議の様子を撮影・録音すればよい。その手法ではテキスト議事録と違い、重要な部分が分からないため、実際の会議と同等の時間を費やし閲覧する。さらに、映像・音声には検索手段などの2次利用する手段がなく、記録された映像・音声が後日使われることはほとんど無い。
【0006】
本発明はこうした状況に鑑みなされたものであり、その目的は原動画像を蓄積してそれを閲覧者希望の時間に要約する動画像編集方法および装置を提供することにある。また、原動画像を編集する際に、原動画像中の重要な部分を抽出する動画像編集方法および装置を提供することにある。また、動画像に加えて他のデータも同時に配信可能な動画像編集方法および装置を提供することにある。
【0007】
【課題を解決するための手段】
本発明のある態様は、動画像編集装置に関する。この装置は、編集対象の原動画像データを入力する原動画像データ入力部と、原動画像データを複数のブロックに分割した場合において、それぞれのブロックについての重要度の情報を含んだ付属データを入力する付属データ入力部と、原動画像データから生成すべき再生用動画像データの再生時間の長さを入力する時間入力部と、入力した再生時間の長さに応じて、重要度の高いブロックに対応した原動画像データを優先的に選択して、原動画像データから再生用動画像データを生成する動画像編集部と、再生用動画像データを出力する出力部とを含む。
【0008】
「ブロック」は、原動画像データを所定時間ごとに分割した原動画像データの一部分であるが、原動画像データを実際に分割する必要はなく、例えば、分割の対象となる時間のみが管理されることによって、編集の際に実質的に分割された原動画像データとして処理できればよい。また、所定時間も一定である必要はない。
【0009】
入力した原動画像データと入力した付属データを対応づけて記憶する記憶部をさらに含んでもよい。付属データ入力部で入力した付属データは、複数のブロックのそれぞれに対応した状態の情報も含み、動画像編集部は、状態の情報をもとに複数のブロックのうち所定のブロックに対応した原動画像データの順序を入れ替えて、原動画像データから再生用動画像データを生成してもよい。
「状態」は、原動画像データの内容を示し、例えば、「発表、議題提示、議論、結論」や「起、承、転、結」のようなものでよく、それぞれの名称は任意でよい。
【0010】
再生用動画像データを修正するための情報を入力する情報入力部をさらに含んでもよい。この装置において、動画像編集部は、入力した再生用動画像データを修正するための情報をもとにして、再生用動画像データを修正してもよい。
この装置によれば、原動画像データを複数に分割したブロックのそれぞれに重要度が定義され、重要度に応じて原動画像データを編集するため、重要な部分を優先した編集を可能にする。
【0011】
本発明の別の態様は、動画像編集方法に関する。この方法は、複数のブロックに分割され、かつそれぞれのブロックに対して重要度が定義された原動画像データから、重要度の高いブロックに対応した原動画像データを優先的に選択して、所定の再生時間の長さとなる再生用動画像データを生成してもよい。
【0012】
本発明のさらに別の態様も、動画像編集方法に関する。この方法は、編集対象の原動画像データを入力するステップと、原動画像データを複数のブロックに分割した場合において、それぞれのブロックについての重要度の情報を含んだ付属データを入力するステップと、原動画像データから生成すべき再生用動画像データの再生時間の長さを入力するステップと、入力した再生時間の長さに応じて、重要度の高いブロックに対応した原動画像データを優先的に選択して、原動画像データから前記再生用動画像データを生成するステップと、再生用動画像データを出力するステップとを含む。
【0013】
入力した原動画像データと入力した付属データを対応づけて記憶するステップをさらに含んでもよい。付属データを入力するステップで入力した付属データは、複数のブロックのそれぞれに対応した状態の情報も含み、再生用動画像データを生成するステップは、状態の情報をもとに複数のブロックのうち所定のブロックに対応した原動画像データの順序を入れ替えて、原動画像データから再生用動画像データを生成してもよい。
【0014】
再生用動画像データを修正するための情報を入力するステップをさらに含んでもよい。この装置において、再生用動画像データを生成するステップは、入力した再生用動画像データを修正するための情報をもとにして、再生用動画像データを修正してもよい。
【0015】
本発明のさらに別の態様は、プログラムに関する。このプログラムは、編集対象の原動画像データを入力するステップと、原動画像データを複数のブロックに分割した場合において、それぞれのブロックについての重要度の情報を含んだ付属データを入力するステップと、原動画像データから生成すべき再生用動画像データの再生時間の長さを入力するステップと、入力した再生時間の長さに応じて、重要度の高いブロックに対応した原動画像データを優先的に選択して、原動画像データから前記再生用動画像データを生成するステップと、再生用動画像データを出力するステップとを含む。
【0016】
入力した原動画像データと入力した付属データを対応づけて記憶するステップをさらに含んでもよい。付属データを入力するステップで入力した付属データは、複数のブロックのそれぞれに対応した状態の情報も含み、再生用動画像データを生成するステップは、状態の情報をもとに複数のブロックのうち所定のブロックに対応した原動画像データの順序を入れ替えて、原動画像データから再生用動画像データを生成してもよい。
【0017】
再生用動画像データを修正するための情報を入力するステップをさらに含んでもよい。この装置において、再生用動画像データを生成するステップは、入力した再生用動画像データを修正するための情報をもとにして、再生用動画像データを修正してもよい。
【0018】
なお、以上の構成要素の任意の組合せや組み替え、本発明を方法、コンピュータプログラムなどと表現したものもまた、本発明の態様として有効である。
【0019】
【発明の実施の形態】
(実施の形態1)
[1]映像議事録システムについて
近年、CPU・ストレージ・ネットワークなどのコンピュータ技術の高性能化により、コンピュータで容易に映像・音声を取り扱う環境が整ってきた。映像・音声は視覚と聴覚という人間が頻繁に利用する感覚に訴えるため、現実世界を忠実に再現でき、多くの場面で重要なメディアである。個人のコミュニケーションの場面では、映像チャットが利用されている。教育の場面ではインターネットを利用した遠隔教育がある。
【0020】
多くの場面で映像・音声が取り入れられる中、会議議事録に関しては未だテキストを利用したものが大半である。会議議事録は会議に欠席した場合や、後日会議の内容を確認したい場合などに必要であり重要である。欠席者や途中参加者が会議にどのように参加すべきか研究はおこなわれている。
【0021】
会議議事録を単に映像・音声化するには、会議の様子を撮影・録音すればよい。その手法ではテキスト議事録と違い、重要な部分が分からないため、実際の会議と同等の時間を費やし閲覧する。さらに、映像・音声には検索手段などの2次利用する手段がなく、記録された映像・音声が後日使われることはほとんど無い。
【0022】
会議議事録において映像・音声を用いるには、短時間での閲覧を可能にする要約が必要になる。利用者に負担をかけないのは要約を自動化することである。その場合の判断材料は映像と音声になる。会議では配布資料による読み合わせであったり、ホワイトボードを使用したり、コンピュータを利用したりなどの様々な様式がありパターンが決まっておらず、動きがあまり無いので、映像から判断することは難しい。
【0023】
音声から判断する場合は、音声認識や言語・意味解析などを組み合わせる方法がある。音声認識や言語・意味解析は現在も研究が進められ着実に進歩はしているが、これら熟成してない技術を連動させて稼動させた場合十分な性能を発揮することは困難である。さらに、会議では会話する相手は人間なので口語であり、次から次へと会話が進み、複数の人が同時に話している状態も想定され、専門用語が飛び交うことを考慮すると、現段階では時期尚早である。
【0024】
よって、あらゆる会議を自動的に要約することは困難であり、人間によるサポートを必要とする。そこで、要約に必要となる会議メタデータを会議参加者の1人が入力し、閲覧時間の短縮を目指す。さらに、エンドユーザが利用できるように会議の登録から閲覧までに利用する会議メタデータ入力用のアプリケーション、会議コンテンツ登録、会議コンテンツ管理、コンテンツカスタマイズをシステムとして提案し実装を行った。
【0025】
[2]要約手法の提案
会議の様子を映像・音声で記録して、後日その模様を閲覧者が要求した時間に要約し再生する映像議事録システムを提案する。
要約の判断材料となる情報である会議メタデータを記録するため、会議参加者の1人が会議メタデータ入力者を務める。これにより、会議がいかなる分野の内容であろうと、どのようなスタイルであろうと対応することが可能である。データ入力者は以下に説明する要約に必要となる会議メタデータの入力をおこなう。
【0026】
会議の要約を行うベースは重要度である。会議メタデータ入力者の主観で評価をおこなう。図1に示すように時間ごとに重要度を判断する。要約は、閲覧者の要求してきた時間に合わせて重要度が高いブロックを優先的に構成し結合を行う。
【0027】
会議は「発表」・「議題提示」・「議論」・「結論」の4つの状態から構成され、図2のように遷移する。長時間に及ぶ会議では、「議論」状態が多くを占める。「議論」の状態は「議題提示」から「結論」に至るまでの経過であるため、「結論」に何らかの影響を及ぼす。
【0028】
そこで、図3のように「結論」と「議論」の順番を入れ替える。閲覧する時には「結論」を「議論」よりも先に見てもらい、その後に必要であれば「議論」を見てもらうという遷移をする。これにより、「議論」を削減できる可能性が出てくる。閲覧者は「議題提示」と「結論」を見て、その途中経過を補完できる場合は、「議論」状態はカットできる。補完できなかった場合や、補完経路が複数あり特定できなかった場合にのみ「議論」状態を確認すればよい。
【0029】
学術論文においても、以前は「結論」が最後に書いてあったが、最近の学術論文などでは最初にサマリが存在しその中に「結論」が述べられており、本文中でそこに至るまでの経緯を記述してある。これは短時間に論文を理解するための知恵であると考えられる。
【0030】
[3]システム構成
システム概略と流れを図4に示す。
はじめに、会議の様子をカメラとマイクで、映像・音声として記録する。それに伴い、会議参加者の1人が会議の区切り・重要度・内容などを記録する会議メタデータ入力者を務める。
次に、映像・音声データと会議メタデータが、サーバサイドに送信され蓄積される。
【0031】
最後に、閲覧者がサーバサイドに蓄積された会議データを閲覧する。閲覧者は状況により閲覧に費やせる時間を入力し、システムはそれに適したシナリオを自動的に作成し閲覧者に提示する。そして、ストリーミングによって映像・音声を閲覧者に配信をおこなう。
【0032】
[3.1]会議メタデータ編集アプリケーション
会議メタデータ編集アプリケーションは、会議参加者の1人が会議メタデータ入力者となり会議メタデータを入力・編集するGUIアプリケーションである。
会議メタデータ編集アプリケーションは会議中と会議終了後の2つの場面で入力・編集を行う。会議メタデータ入力者は会議参加者の1人であるため、会議終了後にも編集できる機会を提供することで、会議中は可能な範囲で会議メタデータを入力するというスタンスになり、会議参加の障害にはならない。
会議メタデータ編集アプリケーションの実装には、マルチプラットフォーム稼動が可能でGUIコンポーネントを標準APIでサポートするJava(登録商標)言語を使用した。
【0033】
[3.1.1]会議メタデータ
入力する会議メタデータには区切れ・重要度・状態・テキスト情報がある。
区切れは会議の境目を示す。図5に示す重要度、状態、トピックの3種類の区切れを定義する。重要度区切れは重要度が異なる場合に区切る。状態区切れは状態が変化した場合に区切る。トピック区切りは話題が変わった場合に区切る。重要度が変わらずに状態が変化している場合は、同じ重要度であっても区別する。そのため、重要度区切れは状態区切れを含む。同様に、状態区切れはトピックス区切れを含む。区切れによって区切られた区間をブロックと定義し、トピックブロックには、1つ以上の状態ブロックを含む。同様に状態ブロックには、1つ以上の重要度ブロックを含む。
【0034】
重要度は会議メタデータ入力者の主観で重要度ブロックそれぞれに対して会議中にどれだけの価値に値するか示すものであり、5段階で評価を行う。
状態は状態ブロックごとに「発表」、「議題提示」、「議論」、「結論」の4つの状態から最適な状態を選択する。
テキスト情報はブロックごとに、オプションとしてテキスト情報を付加できる。具体的には、タイトルと内容と入力が可能である。
【0035】
[3.1.2]会議終了後会議メタデータ編集
会議終了後の会議メタデータ編集は、会議中と同様なユーザインタフェイスを使用することで会議メタデータ入力者への負担が軽減されるため会議メタデータ編集アプリケーションを流用する。
会議終了後の会議メタデータ編集では会議中に録画・録音した映像・音声を再生しながら編集する。そのためには、事前に映像・音声ファイルをサーバに登録しておき、ストリーミングで閲覧しながら編集をおこなう。
【0036】
より使いやすくするには、会議メタデータ編集アプリケーションのアクティブな時間と映像・音声の再生時間が同期すればよい。会議メタデータ編集アプリケーションはJava言語で実装し、映像・音声の再生はReal Networks社の動画再生プレイヤRealOneを用いたが、お互いが直接操作するのは困難である。
【0037】
そこで、双方を操作可能な第三者に、双方の時間を操作できる権限を委譲する。具体的にはWebブラウザ上で稼動するJavaScriptに委託する。Javaアプリケーションは直接JavaScriptから操ることは無理であるが、Applet化することで操作が可能となる。RealOneはJavaScriptから操作ができるAPIが提供している。これにより、Webブラウザ上において双方の同期が可能となる。
会議メタデータ編集アプリケーションは編集の中断が可能なように、会議メタデータの出力機能と、インポート機能がある。
【0038】
[3.1.3]会議メタデータ出力
会議メタデータ編集アプリケーションが出力する会議メタデータはXML形式に準拠する。サーバサイドで最終的に出力されるのはXML形式に準拠したSMILであり変換がし易く、拡張性があるためXML形式を採用した。会議メタデータを格納するために独自にXML文書構造を定義した。会議メタデータの出力は、新たなウィンドウ上に文字列として表示する。閲覧者はその会議メタデータをコピーし、登録用のWebアプリケーションの入力フォームにペーストするか、ファイルにペーストして保存する。
【0039】
[3.2]映像・音声
映像・音声を記録する機材はWebカメラやビデオカメラなど何でもよい。会議は多種多様な場所で行われるため、撮影・録音するにはそれに適した機材が必要となる。そのため、映像・音声コンテンツは最終出力のフォーマットを決めておく。映像・音声コンテンツの登録時に、サーバサイドで最終的なエンコードがおこなわれる。サーバサイドのエンコーダとしてWindows(登録商標)プラットフォームでのRealProducerを使用しているため、入力フォーマットとしてAVIやQuickTimeなどをサポートしており、映像・音声はそれらのフォーマットで保存をおこなう。
【0040】
[3.3]サーバサイド構成
サーバサイド構成を図6に示す。Webアプリケーションとして実装を行い、Tomcat上で稼動する。
【0041】
[3.3.1]アップロード・蓄積
会議メタデータと映像・音声ファイルを登録にはWebアプリケーションを利用する。会議メタデータ編集アプリケーションが出力したXML形式の会議メタデータを、会議メタデータ入力者がWebアプリケーションの会議メタデータ登録ページの入力フォームにペーストし、送信ボタンを押すことでサーバ側に送信が行われる。映像・音声ファイルも同様にWebブラウザを使用し登録する。
【0042】
アップロードされたXML形式の会議メタデータ、映像・音声ファイルはサーバサイドで蓄積される。会議メタデータはXML形式であり、XML形式のデータを保存する必要がある。
本システムでは、XMLデータとRDBをマッピングが不必要な点と将来性の点からネイティブXMLデータベースを利用した。将来的には、複数の会議を連結させて1つのシナリオを完成させること想定しているため、複数のXML文書を検索・結合が高速に行えることが求められる。
【0043】
ネイティブXMLデータベースにはXindiceを使用した。Xindiceは、The Apache Software Foundationのプロジェクトの1つとして開発されている。
映像・音声ファイルの管理には会議メタデータのネイティブXMLデータベースとは別に、RDBを使用する。受信された映像・音声ファイルはReal Producerを使用しストリーミング配信可能なフォーマットにエンコードを行う。エンコードされた映像・音声はファイルとして保存して、そのファイルを示すパスをRDBに格納する。
【0044】
[3.3.2]シナリオ作成
会議の様子を利用者に合わせて構成したものをシナリオと呼ぶ。シナリオは会議メタデータと同等のXML文書構造をしている。閲覧者はWebブラウザを介してシナリオを作成する。閲覧者は最初に会議のタイトルや実施日時などの会議情報が記述されている会議一覧のWebページにアクセスし、閲覧したい会議をクリックする。サーバサイドでは、クリックされた会議の会議メタデータを読み込まれデフォルトのシナリオが作成される。デフォルトのシナリオでは選択された会議全てのブロックを盛り込んでいる。デフォルトのシナリオの時点ですでに「議論」と「結論」が入れ変えており。次に会議詳細シナリオページを閲覧者に返す。
【0045】
会議詳細シナリオページは閲覧者とシステムの対話を行い、シナリオをカスタマイズするページである。このページは、現在のシナリオと会議全般に関する情報が表示される。選択された会議のトピック・状態・重要度の全てのブロックがツリー構造でタイトルが表示される。重要度ブロックには重要度、状態には状態名も併せて表示する。木構造の末端である重要度ブロックの先頭にはチェックボックスが配置され、チェックされていれば現在のシナリオの構成要素であることを示している。現在選択されているシナリオのトータル時間なども表示する。
【0046】
会議詳細シナリオページでは時間を入力することで、閲覧者の希望する時間に要約したシナリオをシステムが提案する。ここで入力された時間内で収まるシナリオを生成する。その手段としては、会議メタデータの重要度の高いブロックから構成していく。同等の重要度な場合は、閲覧者の閲覧履歴を参照して、閲覧頻度が頻繁なキーワードが入っているブロックを構成する。会議詳細シナリオページに移動して閲覧者に要約されたシナリオは見てもらう。
【0047】
閲覧者の指定する時間に要約はおこなうが、最終的な決定をおこなうのは閲覧者である。閲覧者がチェックボックスを直接操作し、シナリオを構成するブロックを選ぶ。これは、閲覧者によっては会議中の一部のトピックだけ理解したい場合などがあるためである。
【0048】
[3.3.3]SMIL出力
閲覧者がシナリオを作成しOKボタンをクリックすると、RealNetworks社のRealOneプレイヤでシナリオの閲覧が始まる。閲覧者それぞれがカスタマイズしたシナリオに沿って閲覧するためにSMIL、RealText、RealPixを使用した。
【0049】
SMILは、複数のマルチメディアデータの再生時間や配置などを定義するマークアップ言語である。RealTextとRealPixはRealNetworks社のプレイヤだけで動作可能で、単体として利用できるが、SMILの構成要素としても利用できる。RealTextはテキスト、RealPixは静止画に特化したものである。SMILで映像コンテンツの再構成をすることで、閲覧者ごとに作り変えるのはSMILファイルだけなので処理が軽く、映像・音声コンテンツ自体は変更しなくてよい。
【0050】
画面構成としては、映像と、アクティブなブロックに関するテキスト情報と、頭出しを行うインデックスを表示する3つから構成される。テキスト情報はRealTextを使用した。インデックスにはトピックス間を移動、状態間を移動する2つのインデックスを用意する。トピックス間移動のインデックスはアクティブなトピック、1つ前のトピック、1つ後ろのトピックへの頭出しを行える3つのイメージを用意する。状態間移動インデックスはRealTextを使用し、シナリオの全てのブロックをタイトル付で表示し、クリックするとそのブロックの頭出しが行われる。
【0051】
シナリオと会議メタデータのXML文書構造は独自に定義したもので、最終的な出力であるSMIL、RealText、RealPixに変換を行う。変換はサーバサイドにおいて、XSLスタイルシートを用意しておき、図7に示すようにシナリオにそれぞれのスタイルシートを適用し変換することで、表示するのに必要な全てのファイルを生成する。閲覧者側には変換されたSMIL・RealText・RealPixが返され、シナリオに沿ったコンテンツが閲覧できる。
【0052】
[4]実装
[4.1]実装環境
会議メタデータ編集アプリケーションはJava2 SDK、Standard Editionを使用し、Swingコンポーネントを利用して実装をおこなった。
サーバは以下のソフトを使用した。
【0053】
Webサーバ、Servletコンテナ:Tomcat4.1.12
Javaバーチャルマシーン:Java2 SDK、Standard Edition、1.4.1−beta
XMLネイティブデータベース:Xindice1.0
リレーショナルデータベース:MySQL 3.23.38
映像・音声エンコーダ:RealProducer Plus 8.51
映像・音声配信サーバ:RealServer 8
クライアントは以下のソフトを使用した。
【0054】
Webブラウザ:Internet Explorer 6.0 SP1
映像・音声再生プレイヤ:RealOne Player2.0
[4.2]実行結果
前述の環境に実装をおこなった。会議中に会議メタデータ入力者が使用するのが図8の会議メタデータ編集アプリケーションである。マウス操作によって区切りを指定し、スライダコンポーネントで重要度を指定する。状態のタイプはプルダウンメニュから選択する。
【0055】
図9は閲覧者がWebブラウザを介してシナリオ作成をしている画面である。ブロックの重要度は×△○などで示され、時間指定やカスタマイズをおこなう。閲覧者が作成したシナリオで会議を見る画面が図10である。アクティブなトピックの全てのブロックが表示されており、再生中のブロックに関しては色が他のブロックとは違う。他のブロックをクリックすることで、そのブロックの頭出しが可能である。
以上、会議の様子を映像・音声で記録し、後日その模様を閲覧者が要求した時間に要約し再生する映像議事録システムの実装をおこなった。
【0056】
会議中の会議メタデータ入力は、会議メタデータ入力者が会話に参加している場合は、区切れを入力する程度でテキスト情報までの入力は出来なかった。しかし、会議後に再編集できる機会があるので発言もなんら問題なくでき、会議に集中できた。会議後の編集では、会議の記憶が残っている間におこなえば、部分的にみるだけで内容が理解できるため、会議メタデータを入力できる。そのため、編集時間を短くしたい場合は、会議後早い段階で編集に取りかかるべきである。会議メタデータを編集してみると、会議の状態によって重要度の重みを決定する方法を使用しなくとも、「結論」の部分は重要度が増し、「議論」の部分は重要度が低い傾向であった。
【0057】
会議コンテンツの閲覧時は、閲覧画面に頭出し機能を付けたため対話式であり、普通の映像・音声コンテンツを見る時のような受動的な姿勢ではなく、能動的な姿勢で取り組めるため理解が進む。
テキストによる議事録では人間による曖昧な記録に頼ることになるが、現実を忠実に再現できる映像・音声で記録していくことで大きなメリットがある。会議での発言が言った言わないという水掛け論が度々起こるが、映像・音声で確実に分かる。これは、ビジネスにおいては絶対に必要な事柄である。
【0058】
(実施の形態2)
図11は、実施の形態2に係る映像議事録システム100の構成を示す。映像議事録システム100は、サーバ10、閲覧者用PC12、記憶部14を含む。またサーバ10は、原動画像データ入力部16、付属データ入力部18、管理部20、動画像編集部22、インターフェース部24、動画像出力部26を含む。
【0059】
サーバ10は、原動画像データを編集し、さらに編集した原動画像データ(以下、「再生用動画像データ」という)を配信する。
閲覧者用PC12は、閲覧者によって使用され、サーバ10に対して再生用動画像データ生成の指示を出したり、再生用動画像データを再生する。また、これらの機能を実現するためのソフトウエアもインストールされている。
【0060】
記憶部14は、原動画像データ、音声データ、付属データを記憶する。なお、記憶部14はサーバ10の内部に設けられてもよい。以下、「音声データ」を記載せず、「原動画像データ」の記載に含まれるものとするが、このように記載された「原動画像データ」は、「音声データ」を含まない「原動画像データ」と区別しないものとする。
原動画像データ入力部16は、原動画像データとして会議の映像を入力する。
【0061】
付属データ入力部18は、原動画像データを所定の時間間隔で分割した場合に生成される複数のブロックについての情報を入力する。例えば、時間0:00から1:00はブロック1、時間1:00から2:00はブロック2というような、ブロックの期間を指定可能な時間が情報に含まれる。また、それぞれのブロックについての重要度が、「高」、「中」、「低」のような段階で示されている。さらに、それぞれのブロックの状態が、「発表」、「議題提示」、「議論」、「結論」のように示されている。
【0062】
管理部20は、原動画像データと付属データを対応させて、記憶部14に記憶する。また、所定の指示に従って、記憶部14から原動画像データと付属データを読み出す。
動画像編集部22は、後述する方法のとおりに原動画像データから再生用動画像データを生成する。
【0063】
インターフェース部24は、原動画像データを再生用動画像データに編集する際の再生時間の長さを、閲覧者用PC12から受けつける。また、動画像編集部22が編集した再生用動画像データのシナリオを閲覧者用PC12に出力する。さらに、閲覧者用PC12からシナリオの修正の要求を受けつけて、動画像編集部22に出力する。
動画像出力部26は、再生用動画像データを閲覧者用PC12に配信する。あるいは、再生用動画像データそのものを閲覧者用PC12に出力してもよい。
【0064】
図12は、原動画像データ編集手順を示すフローチャートである。インターフェース部24は、閲覧者用PC12から、原動画像データを再生用動画像データに編集した際の再生時間の長さを受けつける(S10)。動画像編集部22は、要求された再生時間の長さに応じて、記憶部14に記憶されている付属データの情報をもとに、高重要度のブロックを選択する(S12)。選択したブロックによる再生時間の長さと、要求された再生時間の長さの誤差が、許容値以内でなく(S14のN)、選択したブロックによる再生時間の長さが、要求された再生時間の長さより短い場合(S16のY)、動画像編集部22は、記憶部14に記憶されている付属データの情報をもとに、中重要度のブロックを選択する(S18)。
【0065】
選択したブロックによる再生時間の長さと、要求された再生時間の長さの誤差が、許容値以内でなく(S20のN)、選択したブロックによる再生時間の長さが、要求された再生時間の長さより短い場合(S22のY)、動画像編集部22は、記憶部14に記憶されている付属データの情報をもとに、低重要度のブロックを選択する(S24)。選択したブロックによる再生時間の長さと、要求された再生時間の長さの誤差が、許容値以内でない場合(S26のN)、さらに、これまでにおいても選択したブロックによる再生時間の長さが、要求された再生時間の長さより短くない場合(S16のN、S22のN)、動画像編集部22は一部のブロックを削除する(S28)。選択したブロックによる再生時間の長さと、要求された再生時間の長さの誤差が、許容値以内であれば(S14のY、S20のY、S26のY)、動画像編集部22は複数のブロックのうち「結論」と「議論」に相当する部分を入れ替える(S30)。
【0066】
以上の処理で生成された再生用動画像データのシナリオをインターフェース部24が閲覧者用PC12に対して表示する(S32)。さらに、インターフェース部24は閲覧者用PC12からシナリオ変更の要求を受けつけ、当該要求に応じて動画像編集部22が再生用動画像データを再編集する(S34)。動画像出力部26は、再編集された再生用動画像データを閲覧者用PC12に配信する(S36)。
【0067】
本実施の形態によれば、付属データに含められたブロックの重要度に応じて、原動画像データを編集するため、重要度の高い部分を優先的に選択できる。さらに、結論と議論の順序を入れ替えて、結論を先に表示するため、結論を迅速に理解できる。
【0068】
以上、本発明を実施の形態をもとに説明した。この実施の形態は例示であり、それら各構成要素や各処理プロセスの組み合わせにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲であることは当業者に理解されるところである。そうした例を挙げる。
【0069】
実施の形態1において本システムは、実際の会議だけではなく、ビデオ会議や講義やTV番組などでも若干の変更を施すだけで利用が可能である。この変形例によれば、他の分野への適用が可能である。
【0070】
実施の形態1において、あるユーザが作成したシナリオは、当該ユーザによって使用されているが、これに限らず、他のユーザと共有してもよい。この変形例によれば、シナリオ作成の時間を短縮できる。
【0071】
実施の形態2において、原動画像データ入力部16から原動画像データと音声データを入力しているが、これに限らず、例えば、原画像データのみを入力してもよい。すなわち、動画像と音声を個別に管理してもよい。
【図面の簡単な説明】
【図1】実施の形態1に係る重要度による要約を示す図である。
【図2】実施の形態1に係る会議における状態遷移を示す図である。
【図3】実施の形態1に係る閲覧時間を短縮するための状態遷移を示す図である。
【図4】実施の形態1に係るシステムの概略を示す図である。
【図5】実施の形態1に係る会議メタデータの区切りを示す図である。
【図6】実施の形態1に係るサーバサイド構成を示す図である。
【図7】図6の装置におけるデータ構造を示す図である。
【図8】図6の装置における会議メタデータ編集アプリケーションを示す図である。
【図9】図6の装置におけるシナリオ作成ページを示す図である。
【図10】図6の装置における閲覧画面を示す図である。
【図11】実施の形態2に係る映像議事録システムの構成を示す図である。
【図12】図11の原動画像データ編集手順を示すフローチャートである。
【符号の説明】
10 サーバ、 12 閲覧者用PC、 14 記憶部、 16 原動画像データ入力部、 18 付属データ入力部、 20 管理部、 22 動画像編集部、 24 インターフェース部、 26 動画像出力部、 100 映像議事録システム。
【発明の属する技術分野】
本発明は、原動画像から再生用の動画像を生成する動画像編集技術に関する。特に、要求された再生時間の長さ程度となるような再生用の動画像を生成する動画像編集方法および装置に関する。
【0002】
【従来の技術】
ビデオ会議システムの多くは、遠隔地同士において、リアルタイムな音声とビデオのやりとりや、ファイル転送、アプリケーションの共有を対象とするため、一般に、会議への全員参加を前提にして設計されている。
ビデオ会議システムは、経営的な側面からいえば、会議にかかる時間、距離、経費などを削減するとして注目されている。しかし、実際の現場の声に耳を傾けてみると、たとえビデオ会議といえども、一般に、その会議への全員参加は難しく、特に意思決定に大きな影響力を持っている人ほど、多忙で欠席するケースが多い。そういった欠席者による意思決定の先延ばしなどが、敏速な意思決定が要求される企業において大きな問題となる(例えば、非特許文献1参照。)。
【0003】
【非特許文献1】
田中充,勅使河原可海,山田善靖,「同期型・非同期型の特徴を活かした会議不参加者支援のためのビデオ会議システムの設計」,情報処理学会研究報告「グループウェア」,No.028−012,1998
【0004】
【発明が解決しようとする課題】
会議の欠席者は、一般に会議の内容を理解するために会議議事録を確認する。このような会議議事録は、欠席した場合だけでなく、後日会議の内容を確認したい場合にも必要であるため重要となる。
一方、近年、CPU、ストレージ、ネットワークなどのコンピュータ技術の高性能化により、コンピュータで容易に映像・音声を取り扱う環境が整ってきた。映像・音声は視覚と聴覚という人間が頻繁に利用する感覚に訴えるため、現実世界を忠実に再現でき、多くの場面で重要なメディアとなる。個人のコミュニケーションの場面では映像チャットが利用され、教育の場面ではインターネットを利用した遠隔教育が利用されている。しかし、多くの場面で映像・音声が取り入れられる中、会議議事録に関しては未だテキストを利用したものが多い。
【0005】
会議議事録を単に映像・音声化するには、会議の様子を撮影・録音すればよい。その手法ではテキスト議事録と違い、重要な部分が分からないため、実際の会議と同等の時間を費やし閲覧する。さらに、映像・音声には検索手段などの2次利用する手段がなく、記録された映像・音声が後日使われることはほとんど無い。
【0006】
本発明はこうした状況に鑑みなされたものであり、その目的は原動画像を蓄積してそれを閲覧者希望の時間に要約する動画像編集方法および装置を提供することにある。また、原動画像を編集する際に、原動画像中の重要な部分を抽出する動画像編集方法および装置を提供することにある。また、動画像に加えて他のデータも同時に配信可能な動画像編集方法および装置を提供することにある。
【0007】
【課題を解決するための手段】
本発明のある態様は、動画像編集装置に関する。この装置は、編集対象の原動画像データを入力する原動画像データ入力部と、原動画像データを複数のブロックに分割した場合において、それぞれのブロックについての重要度の情報を含んだ付属データを入力する付属データ入力部と、原動画像データから生成すべき再生用動画像データの再生時間の長さを入力する時間入力部と、入力した再生時間の長さに応じて、重要度の高いブロックに対応した原動画像データを優先的に選択して、原動画像データから再生用動画像データを生成する動画像編集部と、再生用動画像データを出力する出力部とを含む。
【0008】
「ブロック」は、原動画像データを所定時間ごとに分割した原動画像データの一部分であるが、原動画像データを実際に分割する必要はなく、例えば、分割の対象となる時間のみが管理されることによって、編集の際に実質的に分割された原動画像データとして処理できればよい。また、所定時間も一定である必要はない。
【0009】
入力した原動画像データと入力した付属データを対応づけて記憶する記憶部をさらに含んでもよい。付属データ入力部で入力した付属データは、複数のブロックのそれぞれに対応した状態の情報も含み、動画像編集部は、状態の情報をもとに複数のブロックのうち所定のブロックに対応した原動画像データの順序を入れ替えて、原動画像データから再生用動画像データを生成してもよい。
「状態」は、原動画像データの内容を示し、例えば、「発表、議題提示、議論、結論」や「起、承、転、結」のようなものでよく、それぞれの名称は任意でよい。
【0010】
再生用動画像データを修正するための情報を入力する情報入力部をさらに含んでもよい。この装置において、動画像編集部は、入力した再生用動画像データを修正するための情報をもとにして、再生用動画像データを修正してもよい。
この装置によれば、原動画像データを複数に分割したブロックのそれぞれに重要度が定義され、重要度に応じて原動画像データを編集するため、重要な部分を優先した編集を可能にする。
【0011】
本発明の別の態様は、動画像編集方法に関する。この方法は、複数のブロックに分割され、かつそれぞれのブロックに対して重要度が定義された原動画像データから、重要度の高いブロックに対応した原動画像データを優先的に選択して、所定の再生時間の長さとなる再生用動画像データを生成してもよい。
【0012】
本発明のさらに別の態様も、動画像編集方法に関する。この方法は、編集対象の原動画像データを入力するステップと、原動画像データを複数のブロックに分割した場合において、それぞれのブロックについての重要度の情報を含んだ付属データを入力するステップと、原動画像データから生成すべき再生用動画像データの再生時間の長さを入力するステップと、入力した再生時間の長さに応じて、重要度の高いブロックに対応した原動画像データを優先的に選択して、原動画像データから前記再生用動画像データを生成するステップと、再生用動画像データを出力するステップとを含む。
【0013】
入力した原動画像データと入力した付属データを対応づけて記憶するステップをさらに含んでもよい。付属データを入力するステップで入力した付属データは、複数のブロックのそれぞれに対応した状態の情報も含み、再生用動画像データを生成するステップは、状態の情報をもとに複数のブロックのうち所定のブロックに対応した原動画像データの順序を入れ替えて、原動画像データから再生用動画像データを生成してもよい。
【0014】
再生用動画像データを修正するための情報を入力するステップをさらに含んでもよい。この装置において、再生用動画像データを生成するステップは、入力した再生用動画像データを修正するための情報をもとにして、再生用動画像データを修正してもよい。
【0015】
本発明のさらに別の態様は、プログラムに関する。このプログラムは、編集対象の原動画像データを入力するステップと、原動画像データを複数のブロックに分割した場合において、それぞれのブロックについての重要度の情報を含んだ付属データを入力するステップと、原動画像データから生成すべき再生用動画像データの再生時間の長さを入力するステップと、入力した再生時間の長さに応じて、重要度の高いブロックに対応した原動画像データを優先的に選択して、原動画像データから前記再生用動画像データを生成するステップと、再生用動画像データを出力するステップとを含む。
【0016】
入力した原動画像データと入力した付属データを対応づけて記憶するステップをさらに含んでもよい。付属データを入力するステップで入力した付属データは、複数のブロックのそれぞれに対応した状態の情報も含み、再生用動画像データを生成するステップは、状態の情報をもとに複数のブロックのうち所定のブロックに対応した原動画像データの順序を入れ替えて、原動画像データから再生用動画像データを生成してもよい。
【0017】
再生用動画像データを修正するための情報を入力するステップをさらに含んでもよい。この装置において、再生用動画像データを生成するステップは、入力した再生用動画像データを修正するための情報をもとにして、再生用動画像データを修正してもよい。
【0018】
なお、以上の構成要素の任意の組合せや組み替え、本発明を方法、コンピュータプログラムなどと表現したものもまた、本発明の態様として有効である。
【0019】
【発明の実施の形態】
(実施の形態1)
[1]映像議事録システムについて
近年、CPU・ストレージ・ネットワークなどのコンピュータ技術の高性能化により、コンピュータで容易に映像・音声を取り扱う環境が整ってきた。映像・音声は視覚と聴覚という人間が頻繁に利用する感覚に訴えるため、現実世界を忠実に再現でき、多くの場面で重要なメディアである。個人のコミュニケーションの場面では、映像チャットが利用されている。教育の場面ではインターネットを利用した遠隔教育がある。
【0020】
多くの場面で映像・音声が取り入れられる中、会議議事録に関しては未だテキストを利用したものが大半である。会議議事録は会議に欠席した場合や、後日会議の内容を確認したい場合などに必要であり重要である。欠席者や途中参加者が会議にどのように参加すべきか研究はおこなわれている。
【0021】
会議議事録を単に映像・音声化するには、会議の様子を撮影・録音すればよい。その手法ではテキスト議事録と違い、重要な部分が分からないため、実際の会議と同等の時間を費やし閲覧する。さらに、映像・音声には検索手段などの2次利用する手段がなく、記録された映像・音声が後日使われることはほとんど無い。
【0022】
会議議事録において映像・音声を用いるには、短時間での閲覧を可能にする要約が必要になる。利用者に負担をかけないのは要約を自動化することである。その場合の判断材料は映像と音声になる。会議では配布資料による読み合わせであったり、ホワイトボードを使用したり、コンピュータを利用したりなどの様々な様式がありパターンが決まっておらず、動きがあまり無いので、映像から判断することは難しい。
【0023】
音声から判断する場合は、音声認識や言語・意味解析などを組み合わせる方法がある。音声認識や言語・意味解析は現在も研究が進められ着実に進歩はしているが、これら熟成してない技術を連動させて稼動させた場合十分な性能を発揮することは困難である。さらに、会議では会話する相手は人間なので口語であり、次から次へと会話が進み、複数の人が同時に話している状態も想定され、専門用語が飛び交うことを考慮すると、現段階では時期尚早である。
【0024】
よって、あらゆる会議を自動的に要約することは困難であり、人間によるサポートを必要とする。そこで、要約に必要となる会議メタデータを会議参加者の1人が入力し、閲覧時間の短縮を目指す。さらに、エンドユーザが利用できるように会議の登録から閲覧までに利用する会議メタデータ入力用のアプリケーション、会議コンテンツ登録、会議コンテンツ管理、コンテンツカスタマイズをシステムとして提案し実装を行った。
【0025】
[2]要約手法の提案
会議の様子を映像・音声で記録して、後日その模様を閲覧者が要求した時間に要約し再生する映像議事録システムを提案する。
要約の判断材料となる情報である会議メタデータを記録するため、会議参加者の1人が会議メタデータ入力者を務める。これにより、会議がいかなる分野の内容であろうと、どのようなスタイルであろうと対応することが可能である。データ入力者は以下に説明する要約に必要となる会議メタデータの入力をおこなう。
【0026】
会議の要約を行うベースは重要度である。会議メタデータ入力者の主観で評価をおこなう。図1に示すように時間ごとに重要度を判断する。要約は、閲覧者の要求してきた時間に合わせて重要度が高いブロックを優先的に構成し結合を行う。
【0027】
会議は「発表」・「議題提示」・「議論」・「結論」の4つの状態から構成され、図2のように遷移する。長時間に及ぶ会議では、「議論」状態が多くを占める。「議論」の状態は「議題提示」から「結論」に至るまでの経過であるため、「結論」に何らかの影響を及ぼす。
【0028】
そこで、図3のように「結論」と「議論」の順番を入れ替える。閲覧する時には「結論」を「議論」よりも先に見てもらい、その後に必要であれば「議論」を見てもらうという遷移をする。これにより、「議論」を削減できる可能性が出てくる。閲覧者は「議題提示」と「結論」を見て、その途中経過を補完できる場合は、「議論」状態はカットできる。補完できなかった場合や、補完経路が複数あり特定できなかった場合にのみ「議論」状態を確認すればよい。
【0029】
学術論文においても、以前は「結論」が最後に書いてあったが、最近の学術論文などでは最初にサマリが存在しその中に「結論」が述べられており、本文中でそこに至るまでの経緯を記述してある。これは短時間に論文を理解するための知恵であると考えられる。
【0030】
[3]システム構成
システム概略と流れを図4に示す。
はじめに、会議の様子をカメラとマイクで、映像・音声として記録する。それに伴い、会議参加者の1人が会議の区切り・重要度・内容などを記録する会議メタデータ入力者を務める。
次に、映像・音声データと会議メタデータが、サーバサイドに送信され蓄積される。
【0031】
最後に、閲覧者がサーバサイドに蓄積された会議データを閲覧する。閲覧者は状況により閲覧に費やせる時間を入力し、システムはそれに適したシナリオを自動的に作成し閲覧者に提示する。そして、ストリーミングによって映像・音声を閲覧者に配信をおこなう。
【0032】
[3.1]会議メタデータ編集アプリケーション
会議メタデータ編集アプリケーションは、会議参加者の1人が会議メタデータ入力者となり会議メタデータを入力・編集するGUIアプリケーションである。
会議メタデータ編集アプリケーションは会議中と会議終了後の2つの場面で入力・編集を行う。会議メタデータ入力者は会議参加者の1人であるため、会議終了後にも編集できる機会を提供することで、会議中は可能な範囲で会議メタデータを入力するというスタンスになり、会議参加の障害にはならない。
会議メタデータ編集アプリケーションの実装には、マルチプラットフォーム稼動が可能でGUIコンポーネントを標準APIでサポートするJava(登録商標)言語を使用した。
【0033】
[3.1.1]会議メタデータ
入力する会議メタデータには区切れ・重要度・状態・テキスト情報がある。
区切れは会議の境目を示す。図5に示す重要度、状態、トピックの3種類の区切れを定義する。重要度区切れは重要度が異なる場合に区切る。状態区切れは状態が変化した場合に区切る。トピック区切りは話題が変わった場合に区切る。重要度が変わらずに状態が変化している場合は、同じ重要度であっても区別する。そのため、重要度区切れは状態区切れを含む。同様に、状態区切れはトピックス区切れを含む。区切れによって区切られた区間をブロックと定義し、トピックブロックには、1つ以上の状態ブロックを含む。同様に状態ブロックには、1つ以上の重要度ブロックを含む。
【0034】
重要度は会議メタデータ入力者の主観で重要度ブロックそれぞれに対して会議中にどれだけの価値に値するか示すものであり、5段階で評価を行う。
状態は状態ブロックごとに「発表」、「議題提示」、「議論」、「結論」の4つの状態から最適な状態を選択する。
テキスト情報はブロックごとに、オプションとしてテキスト情報を付加できる。具体的には、タイトルと内容と入力が可能である。
【0035】
[3.1.2]会議終了後会議メタデータ編集
会議終了後の会議メタデータ編集は、会議中と同様なユーザインタフェイスを使用することで会議メタデータ入力者への負担が軽減されるため会議メタデータ編集アプリケーションを流用する。
会議終了後の会議メタデータ編集では会議中に録画・録音した映像・音声を再生しながら編集する。そのためには、事前に映像・音声ファイルをサーバに登録しておき、ストリーミングで閲覧しながら編集をおこなう。
【0036】
より使いやすくするには、会議メタデータ編集アプリケーションのアクティブな時間と映像・音声の再生時間が同期すればよい。会議メタデータ編集アプリケーションはJava言語で実装し、映像・音声の再生はReal Networks社の動画再生プレイヤRealOneを用いたが、お互いが直接操作するのは困難である。
【0037】
そこで、双方を操作可能な第三者に、双方の時間を操作できる権限を委譲する。具体的にはWebブラウザ上で稼動するJavaScriptに委託する。Javaアプリケーションは直接JavaScriptから操ることは無理であるが、Applet化することで操作が可能となる。RealOneはJavaScriptから操作ができるAPIが提供している。これにより、Webブラウザ上において双方の同期が可能となる。
会議メタデータ編集アプリケーションは編集の中断が可能なように、会議メタデータの出力機能と、インポート機能がある。
【0038】
[3.1.3]会議メタデータ出力
会議メタデータ編集アプリケーションが出力する会議メタデータはXML形式に準拠する。サーバサイドで最終的に出力されるのはXML形式に準拠したSMILであり変換がし易く、拡張性があるためXML形式を採用した。会議メタデータを格納するために独自にXML文書構造を定義した。会議メタデータの出力は、新たなウィンドウ上に文字列として表示する。閲覧者はその会議メタデータをコピーし、登録用のWebアプリケーションの入力フォームにペーストするか、ファイルにペーストして保存する。
【0039】
[3.2]映像・音声
映像・音声を記録する機材はWebカメラやビデオカメラなど何でもよい。会議は多種多様な場所で行われるため、撮影・録音するにはそれに適した機材が必要となる。そのため、映像・音声コンテンツは最終出力のフォーマットを決めておく。映像・音声コンテンツの登録時に、サーバサイドで最終的なエンコードがおこなわれる。サーバサイドのエンコーダとしてWindows(登録商標)プラットフォームでのRealProducerを使用しているため、入力フォーマットとしてAVIやQuickTimeなどをサポートしており、映像・音声はそれらのフォーマットで保存をおこなう。
【0040】
[3.3]サーバサイド構成
サーバサイド構成を図6に示す。Webアプリケーションとして実装を行い、Tomcat上で稼動する。
【0041】
[3.3.1]アップロード・蓄積
会議メタデータと映像・音声ファイルを登録にはWebアプリケーションを利用する。会議メタデータ編集アプリケーションが出力したXML形式の会議メタデータを、会議メタデータ入力者がWebアプリケーションの会議メタデータ登録ページの入力フォームにペーストし、送信ボタンを押すことでサーバ側に送信が行われる。映像・音声ファイルも同様にWebブラウザを使用し登録する。
【0042】
アップロードされたXML形式の会議メタデータ、映像・音声ファイルはサーバサイドで蓄積される。会議メタデータはXML形式であり、XML形式のデータを保存する必要がある。
本システムでは、XMLデータとRDBをマッピングが不必要な点と将来性の点からネイティブXMLデータベースを利用した。将来的には、複数の会議を連結させて1つのシナリオを完成させること想定しているため、複数のXML文書を検索・結合が高速に行えることが求められる。
【0043】
ネイティブXMLデータベースにはXindiceを使用した。Xindiceは、The Apache Software Foundationのプロジェクトの1つとして開発されている。
映像・音声ファイルの管理には会議メタデータのネイティブXMLデータベースとは別に、RDBを使用する。受信された映像・音声ファイルはReal Producerを使用しストリーミング配信可能なフォーマットにエンコードを行う。エンコードされた映像・音声はファイルとして保存して、そのファイルを示すパスをRDBに格納する。
【0044】
[3.3.2]シナリオ作成
会議の様子を利用者に合わせて構成したものをシナリオと呼ぶ。シナリオは会議メタデータと同等のXML文書構造をしている。閲覧者はWebブラウザを介してシナリオを作成する。閲覧者は最初に会議のタイトルや実施日時などの会議情報が記述されている会議一覧のWebページにアクセスし、閲覧したい会議をクリックする。サーバサイドでは、クリックされた会議の会議メタデータを読み込まれデフォルトのシナリオが作成される。デフォルトのシナリオでは選択された会議全てのブロックを盛り込んでいる。デフォルトのシナリオの時点ですでに「議論」と「結論」が入れ変えており。次に会議詳細シナリオページを閲覧者に返す。
【0045】
会議詳細シナリオページは閲覧者とシステムの対話を行い、シナリオをカスタマイズするページである。このページは、現在のシナリオと会議全般に関する情報が表示される。選択された会議のトピック・状態・重要度の全てのブロックがツリー構造でタイトルが表示される。重要度ブロックには重要度、状態には状態名も併せて表示する。木構造の末端である重要度ブロックの先頭にはチェックボックスが配置され、チェックされていれば現在のシナリオの構成要素であることを示している。現在選択されているシナリオのトータル時間なども表示する。
【0046】
会議詳細シナリオページでは時間を入力することで、閲覧者の希望する時間に要約したシナリオをシステムが提案する。ここで入力された時間内で収まるシナリオを生成する。その手段としては、会議メタデータの重要度の高いブロックから構成していく。同等の重要度な場合は、閲覧者の閲覧履歴を参照して、閲覧頻度が頻繁なキーワードが入っているブロックを構成する。会議詳細シナリオページに移動して閲覧者に要約されたシナリオは見てもらう。
【0047】
閲覧者の指定する時間に要約はおこなうが、最終的な決定をおこなうのは閲覧者である。閲覧者がチェックボックスを直接操作し、シナリオを構成するブロックを選ぶ。これは、閲覧者によっては会議中の一部のトピックだけ理解したい場合などがあるためである。
【0048】
[3.3.3]SMIL出力
閲覧者がシナリオを作成しOKボタンをクリックすると、RealNetworks社のRealOneプレイヤでシナリオの閲覧が始まる。閲覧者それぞれがカスタマイズしたシナリオに沿って閲覧するためにSMIL、RealText、RealPixを使用した。
【0049】
SMILは、複数のマルチメディアデータの再生時間や配置などを定義するマークアップ言語である。RealTextとRealPixはRealNetworks社のプレイヤだけで動作可能で、単体として利用できるが、SMILの構成要素としても利用できる。RealTextはテキスト、RealPixは静止画に特化したものである。SMILで映像コンテンツの再構成をすることで、閲覧者ごとに作り変えるのはSMILファイルだけなので処理が軽く、映像・音声コンテンツ自体は変更しなくてよい。
【0050】
画面構成としては、映像と、アクティブなブロックに関するテキスト情報と、頭出しを行うインデックスを表示する3つから構成される。テキスト情報はRealTextを使用した。インデックスにはトピックス間を移動、状態間を移動する2つのインデックスを用意する。トピックス間移動のインデックスはアクティブなトピック、1つ前のトピック、1つ後ろのトピックへの頭出しを行える3つのイメージを用意する。状態間移動インデックスはRealTextを使用し、シナリオの全てのブロックをタイトル付で表示し、クリックするとそのブロックの頭出しが行われる。
【0051】
シナリオと会議メタデータのXML文書構造は独自に定義したもので、最終的な出力であるSMIL、RealText、RealPixに変換を行う。変換はサーバサイドにおいて、XSLスタイルシートを用意しておき、図7に示すようにシナリオにそれぞれのスタイルシートを適用し変換することで、表示するのに必要な全てのファイルを生成する。閲覧者側には変換されたSMIL・RealText・RealPixが返され、シナリオに沿ったコンテンツが閲覧できる。
【0052】
[4]実装
[4.1]実装環境
会議メタデータ編集アプリケーションはJava2 SDK、Standard Editionを使用し、Swingコンポーネントを利用して実装をおこなった。
サーバは以下のソフトを使用した。
【0053】
Webサーバ、Servletコンテナ:Tomcat4.1.12
Javaバーチャルマシーン:Java2 SDK、Standard Edition、1.4.1−beta
XMLネイティブデータベース:Xindice1.0
リレーショナルデータベース:MySQL 3.23.38
映像・音声エンコーダ:RealProducer Plus 8.51
映像・音声配信サーバ:RealServer 8
クライアントは以下のソフトを使用した。
【0054】
Webブラウザ:Internet Explorer 6.0 SP1
映像・音声再生プレイヤ:RealOne Player2.0
[4.2]実行結果
前述の環境に実装をおこなった。会議中に会議メタデータ入力者が使用するのが図8の会議メタデータ編集アプリケーションである。マウス操作によって区切りを指定し、スライダコンポーネントで重要度を指定する。状態のタイプはプルダウンメニュから選択する。
【0055】
図9は閲覧者がWebブラウザを介してシナリオ作成をしている画面である。ブロックの重要度は×△○などで示され、時間指定やカスタマイズをおこなう。閲覧者が作成したシナリオで会議を見る画面が図10である。アクティブなトピックの全てのブロックが表示されており、再生中のブロックに関しては色が他のブロックとは違う。他のブロックをクリックすることで、そのブロックの頭出しが可能である。
以上、会議の様子を映像・音声で記録し、後日その模様を閲覧者が要求した時間に要約し再生する映像議事録システムの実装をおこなった。
【0056】
会議中の会議メタデータ入力は、会議メタデータ入力者が会話に参加している場合は、区切れを入力する程度でテキスト情報までの入力は出来なかった。しかし、会議後に再編集できる機会があるので発言もなんら問題なくでき、会議に集中できた。会議後の編集では、会議の記憶が残っている間におこなえば、部分的にみるだけで内容が理解できるため、会議メタデータを入力できる。そのため、編集時間を短くしたい場合は、会議後早い段階で編集に取りかかるべきである。会議メタデータを編集してみると、会議の状態によって重要度の重みを決定する方法を使用しなくとも、「結論」の部分は重要度が増し、「議論」の部分は重要度が低い傾向であった。
【0057】
会議コンテンツの閲覧時は、閲覧画面に頭出し機能を付けたため対話式であり、普通の映像・音声コンテンツを見る時のような受動的な姿勢ではなく、能動的な姿勢で取り組めるため理解が進む。
テキストによる議事録では人間による曖昧な記録に頼ることになるが、現実を忠実に再現できる映像・音声で記録していくことで大きなメリットがある。会議での発言が言った言わないという水掛け論が度々起こるが、映像・音声で確実に分かる。これは、ビジネスにおいては絶対に必要な事柄である。
【0058】
(実施の形態2)
図11は、実施の形態2に係る映像議事録システム100の構成を示す。映像議事録システム100は、サーバ10、閲覧者用PC12、記憶部14を含む。またサーバ10は、原動画像データ入力部16、付属データ入力部18、管理部20、動画像編集部22、インターフェース部24、動画像出力部26を含む。
【0059】
サーバ10は、原動画像データを編集し、さらに編集した原動画像データ(以下、「再生用動画像データ」という)を配信する。
閲覧者用PC12は、閲覧者によって使用され、サーバ10に対して再生用動画像データ生成の指示を出したり、再生用動画像データを再生する。また、これらの機能を実現するためのソフトウエアもインストールされている。
【0060】
記憶部14は、原動画像データ、音声データ、付属データを記憶する。なお、記憶部14はサーバ10の内部に設けられてもよい。以下、「音声データ」を記載せず、「原動画像データ」の記載に含まれるものとするが、このように記載された「原動画像データ」は、「音声データ」を含まない「原動画像データ」と区別しないものとする。
原動画像データ入力部16は、原動画像データとして会議の映像を入力する。
【0061】
付属データ入力部18は、原動画像データを所定の時間間隔で分割した場合に生成される複数のブロックについての情報を入力する。例えば、時間0:00から1:00はブロック1、時間1:00から2:00はブロック2というような、ブロックの期間を指定可能な時間が情報に含まれる。また、それぞれのブロックについての重要度が、「高」、「中」、「低」のような段階で示されている。さらに、それぞれのブロックの状態が、「発表」、「議題提示」、「議論」、「結論」のように示されている。
【0062】
管理部20は、原動画像データと付属データを対応させて、記憶部14に記憶する。また、所定の指示に従って、記憶部14から原動画像データと付属データを読み出す。
動画像編集部22は、後述する方法のとおりに原動画像データから再生用動画像データを生成する。
【0063】
インターフェース部24は、原動画像データを再生用動画像データに編集する際の再生時間の長さを、閲覧者用PC12から受けつける。また、動画像編集部22が編集した再生用動画像データのシナリオを閲覧者用PC12に出力する。さらに、閲覧者用PC12からシナリオの修正の要求を受けつけて、動画像編集部22に出力する。
動画像出力部26は、再生用動画像データを閲覧者用PC12に配信する。あるいは、再生用動画像データそのものを閲覧者用PC12に出力してもよい。
【0064】
図12は、原動画像データ編集手順を示すフローチャートである。インターフェース部24は、閲覧者用PC12から、原動画像データを再生用動画像データに編集した際の再生時間の長さを受けつける(S10)。動画像編集部22は、要求された再生時間の長さに応じて、記憶部14に記憶されている付属データの情報をもとに、高重要度のブロックを選択する(S12)。選択したブロックによる再生時間の長さと、要求された再生時間の長さの誤差が、許容値以内でなく(S14のN)、選択したブロックによる再生時間の長さが、要求された再生時間の長さより短い場合(S16のY)、動画像編集部22は、記憶部14に記憶されている付属データの情報をもとに、中重要度のブロックを選択する(S18)。
【0065】
選択したブロックによる再生時間の長さと、要求された再生時間の長さの誤差が、許容値以内でなく(S20のN)、選択したブロックによる再生時間の長さが、要求された再生時間の長さより短い場合(S22のY)、動画像編集部22は、記憶部14に記憶されている付属データの情報をもとに、低重要度のブロックを選択する(S24)。選択したブロックによる再生時間の長さと、要求された再生時間の長さの誤差が、許容値以内でない場合(S26のN)、さらに、これまでにおいても選択したブロックによる再生時間の長さが、要求された再生時間の長さより短くない場合(S16のN、S22のN)、動画像編集部22は一部のブロックを削除する(S28)。選択したブロックによる再生時間の長さと、要求された再生時間の長さの誤差が、許容値以内であれば(S14のY、S20のY、S26のY)、動画像編集部22は複数のブロックのうち「結論」と「議論」に相当する部分を入れ替える(S30)。
【0066】
以上の処理で生成された再生用動画像データのシナリオをインターフェース部24が閲覧者用PC12に対して表示する(S32)。さらに、インターフェース部24は閲覧者用PC12からシナリオ変更の要求を受けつけ、当該要求に応じて動画像編集部22が再生用動画像データを再編集する(S34)。動画像出力部26は、再編集された再生用動画像データを閲覧者用PC12に配信する(S36)。
【0067】
本実施の形態によれば、付属データに含められたブロックの重要度に応じて、原動画像データを編集するため、重要度の高い部分を優先的に選択できる。さらに、結論と議論の順序を入れ替えて、結論を先に表示するため、結論を迅速に理解できる。
【0068】
以上、本発明を実施の形態をもとに説明した。この実施の形態は例示であり、それら各構成要素や各処理プロセスの組み合わせにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲であることは当業者に理解されるところである。そうした例を挙げる。
【0069】
実施の形態1において本システムは、実際の会議だけではなく、ビデオ会議や講義やTV番組などでも若干の変更を施すだけで利用が可能である。この変形例によれば、他の分野への適用が可能である。
【0070】
実施の形態1において、あるユーザが作成したシナリオは、当該ユーザによって使用されているが、これに限らず、他のユーザと共有してもよい。この変形例によれば、シナリオ作成の時間を短縮できる。
【0071】
実施の形態2において、原動画像データ入力部16から原動画像データと音声データを入力しているが、これに限らず、例えば、原画像データのみを入力してもよい。すなわち、動画像と音声を個別に管理してもよい。
【図面の簡単な説明】
【図1】実施の形態1に係る重要度による要約を示す図である。
【図2】実施の形態1に係る会議における状態遷移を示す図である。
【図3】実施の形態1に係る閲覧時間を短縮するための状態遷移を示す図である。
【図4】実施の形態1に係るシステムの概略を示す図である。
【図5】実施の形態1に係る会議メタデータの区切りを示す図である。
【図6】実施の形態1に係るサーバサイド構成を示す図である。
【図7】図6の装置におけるデータ構造を示す図である。
【図8】図6の装置における会議メタデータ編集アプリケーションを示す図である。
【図9】図6の装置におけるシナリオ作成ページを示す図である。
【図10】図6の装置における閲覧画面を示す図である。
【図11】実施の形態2に係る映像議事録システムの構成を示す図である。
【図12】図11の原動画像データ編集手順を示すフローチャートである。
【符号の説明】
10 サーバ、 12 閲覧者用PC、 14 記憶部、 16 原動画像データ入力部、 18 付属データ入力部、 20 管理部、 22 動画像編集部、 24 インターフェース部、 26 動画像出力部、 100 映像議事録システム。
Claims (6)
- 編集対象の原動画像データを入力する原動画像データ入力部と、
前記原動画像データを複数のブロックに分割した場合において、それぞれのブロックについての重要度の情報を含んだ付属データを入力する付属データ入力部と、
前記原動画像データから生成すべき再生用動画像データの再生時間の長さを入力する時間入力部と、
前記入力した再生時間の長さに応じて、重要度の高いブロックに対応した原動画像データを優先的に選択して、前記原動画像データから前記再生用動画像データを生成する動画像編集部と、
前記再生用動画像データを出力する出力部と、
を含むことを特徴とする動画像編集装置。 - 前記入力した原動画像データと前記入力した付属データを対応づけて記憶する記憶部をさらに含むことを特徴とする請求項1に記載の動画像編集装置。
- 前記付属データ入力部で入力した前記付属データは、前記複数のブロックのそれぞれに対応した状態の情報も含み、
前記動画像編集部は、前記状態の情報をもとに前記複数のブロックのうち所定のブロックに対応した原動画像データの順序を入れ替えて、前記原動画像データから前記再生用動画像データを生成することを特徴とする請求項1または2に記載の動画像編集装置。 - 前記再生用動画像データを修正するための情報を入力する情報入力部をさらに含み、
前記動画像編集部は、前記入力した再生用動画像データを修正するための情報をもとにして、前記再生用動画像データを修正することを特徴とする請求項1から3のいずれかに記載の動画像編集装置。 - 複数のブロックに分割され、かつそれぞれのブロックに対して重要度が定義された原動画像データから、重要度の高いブロックに対応した原動画像データを優先的に選択して、所定の再生時間の長さとなる再生用動画像データを生成する動画像編集方法。
- 編集対象の原動画像データを入力するステップと、
前記原動画像データを複数のブロックに分割した場合において、それぞれのブロックについての重要度の情報を含んだ付属データを入力するステップと、
前記原動画像データから生成すべき再生用動画像データの再生時間の長さを入力するステップと、
前記入力した再生時間の長さに応じて、重要度の高いブロックに対応した原動画像データを優先的に選択して、前記原動画像データから前記再生用動画像データを生成するステップと、
前記再生用動画像データを出力するステップと、
をコンピュータに実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003054868A JP2004266578A (ja) | 2003-02-28 | 2003-02-28 | 動画像編集方法および装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003054868A JP2004266578A (ja) | 2003-02-28 | 2003-02-28 | 動画像編集方法および装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004266578A true JP2004266578A (ja) | 2004-09-24 |
Family
ID=33119089
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003054868A Pending JP2004266578A (ja) | 2003-02-28 | 2003-02-28 | 動画像編集方法および装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004266578A (ja) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006238275A (ja) * | 2005-02-28 | 2006-09-07 | Pioneer Electronic Corp | ネットワーク会議システムにおける議事録再生方法、会議端末及び会議サーバ。 |
JP2008039841A (ja) * | 2006-08-01 | 2008-02-21 | Canon Inc | 画像再生装置及び画像再生方法 |
JP2008172582A (ja) * | 2007-01-12 | 2008-07-24 | Ricoh Co Ltd | 議事録作成再生装置 |
JP2011019032A (ja) * | 2009-07-08 | 2011-01-27 | Nec Corp | コミュニケーションプレイバックシステム、コミュニケーションプレイバック方法、プログラム |
US7958056B2 (en) | 2004-10-22 | 2011-06-07 | Sharp Kabushiki Kaisha | Content data creating device, control method thereof, program for creating content data, and content data display device |
US8000963B2 (en) | 2004-12-17 | 2011-08-16 | Fujitsu Limited | Sound reproducing apparatus |
JP2012199911A (ja) * | 2011-03-10 | 2012-10-18 | Ricoh Co Ltd | 情報処理装置 |
JP2017092815A (ja) * | 2015-11-13 | 2017-05-25 | 株式会社コーチ・エィ | 画像表示システム、画像表示方法、および画像表示プログラム |
WO2022209211A1 (ja) * | 2021-03-30 | 2022-10-06 | ソニーグループ株式会社 | 情報処理装置、生成方法、およびプログラム |
-
2003
- 2003-02-28 JP JP2003054868A patent/JP2004266578A/ja active Pending
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7958056B2 (en) | 2004-10-22 | 2011-06-07 | Sharp Kabushiki Kaisha | Content data creating device, control method thereof, program for creating content data, and content data display device |
US8000963B2 (en) | 2004-12-17 | 2011-08-16 | Fujitsu Limited | Sound reproducing apparatus |
JP2006238275A (ja) * | 2005-02-28 | 2006-09-07 | Pioneer Electronic Corp | ネットワーク会議システムにおける議事録再生方法、会議端末及び会議サーバ。 |
JP4694222B2 (ja) * | 2005-02-28 | 2011-06-08 | パイオニア株式会社 | ネットワーク会議システムにおける議事録再生方法、会議端末及び会議サーバ。 |
JP2008039841A (ja) * | 2006-08-01 | 2008-02-21 | Canon Inc | 画像再生装置及び画像再生方法 |
JP2008172582A (ja) * | 2007-01-12 | 2008-07-24 | Ricoh Co Ltd | 議事録作成再生装置 |
JP2011019032A (ja) * | 2009-07-08 | 2011-01-27 | Nec Corp | コミュニケーションプレイバックシステム、コミュニケーションプレイバック方法、プログラム |
JP2012199911A (ja) * | 2011-03-10 | 2012-10-18 | Ricoh Co Ltd | 情報処理装置 |
JP2017092815A (ja) * | 2015-11-13 | 2017-05-25 | 株式会社コーチ・エィ | 画像表示システム、画像表示方法、および画像表示プログラム |
WO2022209211A1 (ja) * | 2021-03-30 | 2022-10-06 | ソニーグループ株式会社 | 情報処理装置、生成方法、およびプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9584571B2 (en) | System and method for capturing, editing, searching, and delivering multi-media content with local and global time | |
US20020120939A1 (en) | Webcasting system and method | |
US20050044499A1 (en) | Method for capturing, encoding, packaging, and distributing multimedia presentations | |
US9043691B2 (en) | Method and apparatus for editing media | |
US6546405B2 (en) | Annotating temporally-dimensioned multimedia content | |
US8667401B1 (en) | System and method for archiving collaborative electronic meetings | |
US7934160B2 (en) | Slide kit creation and collaboration system with multimedia interface | |
US20080263010A1 (en) | Techniques to selectively access meeting content | |
US20020091658A1 (en) | Multimedia electronic education system and method | |
US20030124502A1 (en) | Computer method and apparatus to digitize and simulate the classroom lecturing | |
JP2008172582A (ja) | 議事録作成再生装置 | |
US20080313550A1 (en) | RECORDING MEDIUM ON WHICH Web CONFERENCE SUPPORT PROGRAM IS RECORDED AND Web CONFERENCE SUPPORT APPARATUS | |
Cesar et al. | Fragment, tag, enrich, and send: Enhancing social sharing of video | |
JP2004266578A (ja) | 動画像編集方法および装置 | |
JP3663960B2 (ja) | 情報処理装置および情報処理方法 | |
Braun | Listen up!: podcasting for schools and libraries | |
US12010161B1 (en) | Browser-based video production | |
JP4308235B2 (ja) | 共有ホワイトボード履歴再現方法、共有ホワイトボードシステム、プログラム、および記録媒体 | |
US20080222505A1 (en) | Method of capturing a presentation and creating a multimedia file | |
JPWO2005122106A1 (ja) | 学習支援システム | |
KR20000012324A (ko) | 인터넷에서 서적 내용의 멀티미디어형 정보를 제공하는방법 및 그 시스템 | |
KR100459668B1 (ko) | 색인기반 동영상 콘텐츠의 녹화 및 편집 시스템 | |
WO2006030995A1 (en) | Index-based authoring and editing system for video contents | |
JP2002007478A (ja) | 視聴覚コンテンツ提供装置および方法 | |
Hardman et al. | CMIFed: a transportable hypermedia authoring system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041117 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20061214 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061226 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070724 |