JP2005117330A - コンテンツ編集装置及びプログラム - Google Patents
コンテンツ編集装置及びプログラム Download PDFInfo
- Publication number
- JP2005117330A JP2005117330A JP2003348557A JP2003348557A JP2005117330A JP 2005117330 A JP2005117330 A JP 2005117330A JP 2003348557 A JP2003348557 A JP 2003348557A JP 2003348557 A JP2003348557 A JP 2003348557A JP 2005117330 A JP2005117330 A JP 2005117330A
- Authority
- JP
- Japan
- Prior art keywords
- content
- time
- start time
- end time
- extracted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Television Signal Processing For Recording (AREA)
Abstract
【課題】 カット点のみでなく、音声等の他の情報も考慮して、編集者が望むコンテンツ区間を適切に抽出する。
【解決手段】 前記コンテンツにおいて抽出の対象となる時間区間を示す予め指定した指定開始時刻と指定終了時刻とを取得し、前記コンテンツにおける映像のカット点を示す情報を取得し、前記指定開始時刻より時間的に後にあり、かつ当該指定開始時刻に最も近いカット点に対応する時間位置に対応する音響の強さが、予め定めた閾値より大きい場合に、音響の強さが閾値以下となるように前記時間位置をずらし、ずらした時間位置を、抽出する前記一部区間コンテンツの開始時刻とし、前記指定終了時刻より時間的に前にあり、かつ当該指定終了時刻に最も近いカット点に対応する時間位置に対応する音響の強さが、予め定めた閾値より大きい場合に、音響の強さが閾値以下となるように前記時間位置をずらし、ずらした時間位置を、抽出する前記一部区間コンテンツの終了時刻とする。
【選択図】 図13
【解決手段】 前記コンテンツにおいて抽出の対象となる時間区間を示す予め指定した指定開始時刻と指定終了時刻とを取得し、前記コンテンツにおける映像のカット点を示す情報を取得し、前記指定開始時刻より時間的に後にあり、かつ当該指定開始時刻に最も近いカット点に対応する時間位置に対応する音響の強さが、予め定めた閾値より大きい場合に、音響の強さが閾値以下となるように前記時間位置をずらし、ずらした時間位置を、抽出する前記一部区間コンテンツの開始時刻とし、前記指定終了時刻より時間的に前にあり、かつ当該指定終了時刻に最も近いカット点に対応する時間位置に対応する音響の強さが、予め定めた閾値より大きい場合に、音響の強さが閾値以下となるように前記時間位置をずらし、ずらした時間位置を、抽出する前記一部区間コンテンツの終了時刻とする。
【選択図】 図13
Description
本発明は、コンテンツを編集するためのコンテンツ編集装置に係り、特に、編集の対象となるコンテンツから所望の一部区間コンテンツを適切に抽出し、コンテンツ編集を効率よく行うための技術に関するものである。
映像中のカメラのオン・オフや映像編集のつなぎ目(フェード、ワイプ等)によりシーンが切り替わる点をカット点といい、このようなカット点を自動的に検出する技術は、コンテンツを自動編集するための基本的な技術となるものである。カット点の検出を行う技術として例えば特許文献1に記載された技術がある。
特許文献1には、時間的にゆっくりとしたシーンの変化を検出でき、フラッシュ光を含む映像を統一的に実時間処理可能とするカット点検出方法が記載されている。例えば、特許文献1に記載された技術を用いて切り出された複数のカット(カット点から次のカット点までの区間)を用いて、所望の番組を作成する。
特開平8-214210号公報
しかしながら、上記従来の技術を用いて、編集の対象となるコンテンツにおける予め指定した時間区間から、編集者が意図する意味のある映像区間(本明細書ではトピックと称する場合がある)を切り出す場合、当該映像区間に対応する音声の内容が適切でない場合が生じる。例えば、編集者は、映像の出演者が「こんにちは」と発声する部分から始まる映像を切り出したかったにもかかわらず、実際には「にちは」の部分から始まる映像が切り出されてしまうということがある。この場合、自動的に映像区間が切り出された後に、編集者は、改めて音声や音楽を聞きながら映像を細かい単位(フレーム等)で補正をして、編集者が望む適切な映像区間を手動操作で抽出する必要があり、編集に時間がかかるという問題があった。なお、本明細書でカットとは上記カット点間のコンテンツをいい、ショットとは、ある場面から次の場面に場面が切り替わるまでの間のコンテンツをいい、一般にショットはカットより小さい単位となる。
本発明は上記の点に鑑みてなされたものであり、カット点のみでなく、音声等の他の情報も考慮して、編集者が望むコンテンツ区間を適切に抽出する技術を提供することを目的とする。
上記の課題は、映像と音響とを含むコンテンツから一部区間コンテンツを自動的に抽出してコンテンツを編集するためのコンテンツ編集装置であって、前記コンテンツにおける映像のカット点を示す情報を格納するためのカット点格納手段と、前記コンテンツにおいて抽出の対象となる時間区間を示す予め指定した指定開始時刻と指定終了時刻とを取得する取得手段と、 前記指定開始時刻より時間的に後にあり、かつ当該指定開始時刻に最も近いカット点に対応する時間位置に対応する音響の強さが、予め定めた閾値より大きい場合に、音響の強さが閾値以下となるように前記時間位置をずらし、ずらした時間位置を、抽出する前記一部区間コンテンツの開始時刻とし、前記指定終了時刻より時間的に前にあり、かつ当該指定終了時刻に最も近いカット点に対応する時間位置に対応する音響の強さが、予め定めた閾値より大きい場合に、音響の強さが閾値以下となるように前記時間位置をずらし、ずらした時間位置を、抽出する前記一部区間コンテンツの終了時刻とする抽出コンテンツ決定手段とを備えたコンテンツ編集装置により解決できる。
本発明によれば、音響の強さが閾値以下となるようにトピックやサムネイル等の一部区間コンテンツの開始時刻と終了時刻を補正することが可能となる。
また、上記の課題は、映像と音響とを含むコンテンツから一部区間コンテンツを自動的に抽出してコンテンツを編集するためのコンテンツ編集装置であって、前記コンテンツにおける映像のカット点を示す情報を格納するためのカット点格納手段と、前記コンテンツにおける音響の波形データを格納する波形データ格納手段と、前記コンテンツにおいて抽出の対象となる時間区間を示す予め指定した指定開始時刻と指定終了時刻とを取得する取得手段と、前記指定開始時刻より時間的に後にあり、かつ当該指定開始時刻に最も近いカット点に対応する時間位置を、抽出する前記一部区間コンテンツの開始時刻とし、前記指定終了時刻より時間的に前にあり、かつ当該指定終了時刻に最も近いカット点に対応する時間位置を、抽出する前記一部区間コンテンツの終了時刻とする抽出コンテンツ決定手段と、前記音響の波形データを、少なくとも前記開始時刻又は前記終了時刻に対応する映像とともに前記コンテンツ編集装置の表示装置に表示する表示手段と、利用者による操作により、前記開始時刻又は前記終了時刻を減少又は増加させる補正を行い、補正した開始時刻又は終了時刻に対応する映像を前記音響の波形データとともに表示する補正手段とを備えたコンテンツ編集装置によっても解決できる。
本発明によれば、実際の音響を聞くことなく音響の強さが閾値以下となるようにトピックやサムネイル等の一部区間コンテンツの開始時刻と終了時刻を補正することが可能となる。
上記のコンテンツ編集装置において、前記補正を、所定の映像区間単位で行うことが可能である。
また、前記音響は音楽又は音声であり、前記音響として音楽又は音声を利用者に選択させる選択手段を更に備えてもよい。また、前記コンテンツから映像のカット点を検出し、カット点を示す情報を前記カット点格納手段に格納するカット点検出手段を更に備えてもよい。
また、上記の課題は、映像と音響とを含むコンテンツから一部区間コンテンツを自動的に抽出してコンテンツを編集するための処理をコンピュータに実行させるプログラムであって、前記コンテンツにおいて抽出の対象となる時間区間を示す予め指定した指定開始時刻と指定終了時刻とを取得する取得手順と、前記コンテンツにおける映像のカット点を示す情報を格納する記憶装置からカット点を示す情報を取得する手順と、前記指定開始時刻より時間的に後にあり、かつ当該指定開始時刻に最も近いカット点に対応する時間位置に対応する音響の強さが、予め定めた閾値より大きい場合に、音響の強さが閾値以下となるように前記時間位置をずらし、ずらした時間位置を、抽出する前記一部区間コンテンツの開始時刻とし、前記指定終了時刻より時間的に前にあり、かつ当該指定終了時刻に最も近いカット点に対応する時間位置に対応する音響の強さが、予め定めた閾値より大きい場合に、音響の強さが閾値以下となるように前記時間位置をずらし、ずらした時間位置を、抽出する前記一部区間コンテンツの終了時刻とする抽出コンテンツ決定手順とをコンピュータに実行させるプログラムによっても解決できる。このプログラムをコンピュータにインストールすることにより、コンピュータを上記コンテンツ編集装置として機能させることができる。
更に、上記の課題は、映像と音響とを含むコンテンツから一部区間コンテンツを自動的に抽出してコンテンツを編集するための処理をコンピュータに実行させるプログラムであって、前記コンテンツにおいて抽出の対象となる時間区間を示す予め指定した指定開始時刻と指定終了時刻とを取得する取得手順と、前記コンテンツにおける映像のカット点を示す情報を格納する記憶装置からカット点を示す情報を取得する手順と、前記コンテンツにおける音響の波形データを格納する記憶装置から波形データを取得する手順と、前記指定開始時刻より時間的に後にあり、かつ当該指定開始時刻に最も近いカット点に対応する時間位置を、抽出する前記一部区間コンテンツの開始時刻とし、前記指定終了時刻より時間的に前にあり、かつ当該指定終了時刻に最も近いカット点に対応する時間位置を、抽出する前記一部区間コンテンツの終了時刻とする抽出コンテンツ決定手順と、前記音響の波形データを、少なくとも前記開始時刻又は前記終了時刻に対応する映像とともに前記コンピュータの表示装置に表示する表示手順と、利用者による操作により、前記開始時刻又は前記終了時刻を減少又は増加させる補正を行い、補正した開始時刻又は終了時刻に対応する映像を前記音響の波形データとともに表示する補正手順とをコンピュータに実行させるプログラムによっても解決できる。
本発明によれば、波形を見ながらトピックの時間位置を補正することを可能としたので、音響を聞くことなくトピックの時間補正を行うことができ、編集者が望む一部区間コンテンツを適切に抽出することができる。
以下、図面を参照して本発明の実施の形態について説明する。
(第1の実施の形態)
図1に本発明の実施の形態におけるシステムの構成を示す。図1に示すように本発明の実施の形態におけるシステムは、編集装置1、インデキシング装置2、符号化処理装置3を有している。編集装置1が本発明のコンテンツ編集装置に相当する。
図1に本発明の実施の形態におけるシステムの構成を示す。図1に示すように本発明の実施の形態におけるシステムは、編集装置1、インデキシング装置2、符号化処理装置3を有している。編集装置1が本発明のコンテンツ編集装置に相当する。
本発明は編集装置1におけるトピックの抽出、補正に関するものであるが、まず、図1に示すシステム全体の概要について説明し、次にトピックの抽出、補正に関して詳細に説明する。
図2はシステムの動作概要を説明するためのフローである。
編集装置1では、まず、利用者がトピック情報を入力する(ステップS1)。ここでのトピック情報は、コンテンツを特定する情報(既存コンテンツ名、ライブ等)、当該コンテンツの中においてトピックとしたい部分の開始時間と終了時間である。なお、既存コンテンツであればその中のどの時間の部分にどのような内容の映像が含まれているかは概ね予めわかっているものとする。また、ライブ映像の場合には、ライブを取得する予約時間(開始時間と終了時間)を入力する。これにより、ライブ映像や既存のコンテンツを適宜組み合わせた番組進行情報が作成される。
次に、上記開始時間と終了時間の間のコンテンツの中のどの部分を実際に抽出するかを決定するために用いるイベント(カット、音声等)を選択し、必要に応じて重みを設定する(ステップS2)。このイベントについては後に詳細に説明する。
次に、インデキシング装置2では、編集装置1からのライブ予約に関する情報に基づき、符号化処理装置3を介してライブコンテンツを取得する。また、インデキシング装置2ではライブコンテンツにおけるショットの識別等の処理を行う(ショットの識別などの処理のことを本明細書ではインデキシング処理という)。また、インデキシング処理において上記のイベントの検出を行う(ステップS3)。符号化されインデキシング処理されたライブコンテンツは編集装置3に送られる。なお、既存コンテンツに対する上記インデクシング処理は既に終了していることを前提とするが、終了していなければ既存コンテンツに対しても上記の処理を行う。
編集装置3では、イベントが検出されたコンテンツから、ステップS1において入力した開始時間、終了時間に従ってトピックを抽出し、番組の自動編集を行う(ステップS4)。ここではまた、トピックにおける不要なショットの削除、並べ替え等の編集機能を用いることにより、利用者は細部における編集を行うことが可能である。その後、目的とする編集済みのコンテンツを出力する(ステップS5)。すなわち、例えば、所定のWebサーバに編集済みのコンテンツをアップロードする。
なお、図1に示す構成において、編集装置1、インデキシング装置2、符号化処理装置3の各々は、CPU、メモリ、ハードディスク、通信処理装置等を有する一般的なコンピュータに、本実施の形態で説明するような処理を実行するプログラムを搭載することにより実現できる。また、編集装置1、インデキシング装置2、符号化処理装置3を1つのコンピュータで実現することもできるし、どれか2つを1つのコンピュータとして実現することもできる。また、編集装置1、インデキシング装置2、符号化処理装置3間を適宜通信回線で結んで使用することもできる。本実施の形態に係る処理を行うプログラムは、コンピュータが読み取りできる記録媒体、例えば、FD(フロッピー(登録商標)ディスク)や、MO、ROM、メモリカード、CD−ROM、DVD、リムーバブルディスクなどに記録して、保存したり、配布したりすることが可能である。また、そのプログラムは、インターネットや電子メールなど、ネットワークを通して提供することも可能である。
次に、図3を参照して編集装置1の構成を説明する。図3に示すように、本実施の形態における編集装置1は、トピック情報を入力するためのトピック情報収集部11、イベントの選択、重みの設定を行うイベント・重み設定部18、既存のコンテンツを取得するためのコンテンツ挿入部12、ライブコンテンツの取得を予約するためのコンテンツ予約部13、ライブコンテンツと既存コンテンツに関するトピック情報とを総合して番組進行情報の作成を行い、予約に基づくライブコンテンツの取得をインデキシング装置2側に依頼するトピック情報総合部14、トピック情報及びイベントに基づく適切なトピックやサムネイルを抽出し、既存コンテンツとライブコンテンツを組み合わせたコンテンツストリームの生成等を行う編集部16とを有している。また、編集装置1とインデキシング装置2との間で時間同期をとるための時計部17を有している。
以下、図3に示す編集装置1の動作を図4のシーケンスチャートも参照して説明する。なお、図4のシーケンスチャートでは、編集装置1の部分を編集系と称し、インデキシング装置2と符号化処理装置3の部分を生成系と称している。
ライブ予約では、編集装置1で設定した開始時間、終了時間がインデキシング装置2によりライブ取り込みに使用されることから、まず、時計部17により編集装置1とインデキシング装置2との間における時間調整(同期をとる)が行われる(ステップS11)。
そして、トピック情報収集部11により、トピック情報(コンテンツを特定する情報、当該コンテンツにおいてトピックの対象となり得る部分の開始時間、終了時間)の入力がなされる(ステップS12)。この入力情報に基づき、トピック情報総合部において図5に示すような番組進行情報が作成される。次に、イベントの選択、重みの設定を行う(ステップS13)。この処理については後に詳細に説明する。なお、ここで入力されたトピック情報、選択されたイベント、重み等は、編集装置1の記憶装置に格納される。
次に、既存コンテンツに対しては、コンテンツ挿入部12によりコンテンツ検索を行ってコンテンツを取得し(ステップS14)、ライブであれば、指定された予約時間に基づきライブ予約を行い(ステップS15)、ライブコンテンツの取得を行う。
トピック情報総合部14は、ライブ予約時間が来ると、ライブコンテンツの取り込みをインデキシング装置2に依頼する(ステップS16)。ライブの取り込みの依頼を受けたインデキシング装置2は、符号化処理装置3を介してライブコンテンツの取り込みを行う(ステップS17)。すなわち、符号化処理装置3はライブ映像に対する符号化処理を行い(ステップS18)、インデキシング装置2は、符号化したライブコンテンツに対して、イベントの検出を含むインデキシング処理を施す(ステップS19)。
取り込みが終了すると(ステップS20)、インデキシング処理が施されたライブコンテンツ(検出されたイベントの情報を含む)は、インデキシング装置2から編集装置1に送られ、編集装置1の記憶装置に格納される。
次に、開始時間、終了時間と、イベント情報を用いたトピック抽出が行われ(ステップS21)、既存コンテンツとライブコンテンツとを適切に組み合わせたストリームを生成する自動編集を行い(ステップS22)、Web画面を出力する(ステップS23)。
次に、編集装置1により実行されるトピックを抽出する処理についてより詳細に説明する。
トピックを抽出する対象となっているコンテンツは、映像情報、音響情報、及び映像情報と音響情報とに対応付けられる同期情報を含むものである。同期情報は、例えば時間であり、例えば、コンテンツの開始からの経過時間と映像情報の位置、及び音響情報の位置とが対応付けられている。すなわち、ある時刻を指定すれば、そのコンテンツから、その時間位置に対応する位置の映像情報及び音響情報を取得することが可能である。なお、同期情報は時間情報に比例した情報であればどのような情報でもよいが、以下、同期情報を時間であるとして説明する。
本実施の形態におけるトピックの抽出は、“カット”、“テロップ”、“カメラワーク”、“音楽”、“音声”等のイベントをコンテンツから検出しておき、そのイベントの開始時刻、終了時刻を参照することにより行われるものである。
図6に、図4のステップS13におけるイベントの選択処理において、表示装置に表示される画面例を示す。この画面における各イベントの左端をクリックすることにより、そのイベントを選択できる。また、必要に応じて、選択したイベントに対する重みを入力する。ここで選択されたイベント、重みを用いて編集対象のコンテンツから抽出すべきトピックの開始時刻、終了時刻が決定される。図6に示す例では、選択されたイベントは、抽出すべきトピックの開始時刻、終了時刻の両方の決定に際して参照される。図6に示す例の他、開始時刻決定用のイベントと終了時刻決定用のイベントを別々に選択させるような画面とすることもできる。また、図6に示す“詳細”をクリックすることにより、イベントの検出時のパラメータを設定できる。例えば、“カット”であればカット閾値、ディゾルブ閾値等を設定でき、“テロップ”であれば検出閾値、最小時間等を設定でき、“カメラワーク”であれば最小時間、検出感度等を設定でき、“音声”、“音楽”であれば最大閾値、最小閾値等を設定できる。
本実施の形態では、インデクシング装置がコンテンツの中の各イベントの検出を行い、検出結果を編集装置1に送る構成となっており、検出結果は、例えば、図7のような形式で記憶装置に格納される。この検出結果は、図8に示すように画面に表示することもできる。
上記の検出結果からわかるように、“カット”に対してはコンテンツのどの時間位置でカットの切れ目が生じているかが検出される。“テロップ”に対しては、コンテンツの映像中にテロップが表示されていた時間区間が検出される。“カメラワーク”に対しては、カメラワークが発生していた時間区間が検出される。また、“音楽”、“音声”に対しては、それぞれ“音楽”、“音声”が発生していた時間区間が検出される。上記各イベントを検出する方法について以下説明する。
カットの検出については、例えば特開平8-214210号公報に開示されている技術を用いることができる。
テロップの検出については、例えば特開平11−328423号公報に開示されている技術を用いることができる。なお、テロップとは、映像に含まれる字幕や写真、記号、模様、マーク、アイコン等である。
カメラワークの検出については、例えば特開平10−304242号公報に開示されているように、符号化映像データに含まれる動きベクトルの情報や予測誤差の情報から抽出する方法を用いることができる。また、特開平11−259626号公報に開示されているような、カメラパラメータを映像と関連付けて格納しておく方法を用いることもできる。なお、カメラの動き(パン、チルト、ズーム等)があった場合に、カメラワークが検出される。
音声、音楽の検出については、例えば特開平10−97269号公報に開示されている技術を用いることができる。なお、音声と音楽とは、例えば、スペクトルパターンを用いて識別することができる。
次に、トピックを抽出する処理について、図9のフローチャートを参照して説明する。
まず、記憶装置から、選択したイベントを取得する(ステップS31)。そして、トピック情報として予め指定した指定開始時刻及び指定終了時刻を取得する(ステップS32)。続いて、取得したイベントとその重みの情報を参照し、重みが設定されているか否かをチェックする(ステップS33)。重みが設定されていなければ、選択されたイベントの開始時刻の中で、トピックの指定開始時刻より後で指定開始時刻に最も近いものを、トピックの開始時刻として採用する(ステップS34、S35)。また、選択されたイベントの終了時刻の中で、トピックの指定終了時刻より前で指定終了時刻に最も近いものをトピックの終了時刻として採用する(ステップS34、S35)。
また、選択されたイベントに重みが設定されている場合には、選択されたイベントの開始時刻の中で、トピックの指定開始時刻より後であって重みが最大であるイベントの開始時刻をトピックの開始時刻として採用する(ステップS36、S35)。また、選択されたイベントの終了時刻の中で、トピックの指定終了時刻より前であって重みが最大であるイベントの終了時刻をトピックの終了時刻として採用する(ステップS36、S35)。
すなわち、例えば、図8に示す例において、“音声”のみが選択されていた場合には、図8のA点〜B点区間のコンテンツがトピックとして抽出される。
イベントとしてカットとカメラワークが選択されており重みが設定されていない場合には、切れ目が指定開始時刻に最も近いカットのC点がトピックの抽出開始時刻として採用され、切れ目が指定終了時刻に最も近いカットのD点がトピックの抽出終了時刻として採用される。
また、開始時刻抽出用のイベントと終了時刻抽出用のイベントを別々に選択する場合において、開始時刻抽出用のイベントとしてカットとカメラワークが選択されており重みが設定されておらず、また、終了時刻抽出用のイベントとしてテロップと音声が選択されており重みが設定されていない場合には、カットのC点がトピックの抽出開始時刻として採用され、テロップのE点がトピックの抽出終了時刻として採用される。
また、イベントとしてカットとカメラワークと音声が選択されており、重みがそれぞれ2、5、4である場合には、重みが最大となっているカメラワークのF点とG点がそれぞれトピックの抽出開始時刻と抽出終了時刻として採用される。
また、開始時刻抽出用のイベントと終了時刻抽出用のイベントを別々に選択する場合において、開始時刻抽出用のイベントとしてカットとカメラワークと音声が選択されており、重みがそれぞれ2、5、4である場合には、重みが最大となっているカメラワークのF点がトピックの抽出開始時刻として採用される。更に、終了時刻抽出用のイベントとしてテロップと音声と音楽が選択されており重みがそれぞれ、5、3、3である場合には、重みが最大であるテロップのE点がトピックの抽出終了時刻として採用される。従って、この場合には、F点〜E点がトピックとして抽出される。
上記のように、重みが最大に設定されたイベントを用いてトピックを抽出することの他、次に説明するように、重みを評価してどのイベントの開始時刻、終了時刻を抽出開始時刻、抽出終了時刻として採用するかを決定することもできる。
すなわち、開始時刻側でいえば、イベントの重みに応じてそのイベントの開始時刻(カットであればカットの切れ目)と、指定開始時刻との差を減少させる。減少のさせ方としては、例えば、重み1ポイントあたりについての減少させるべき時間を決めておき、重みの数にその時間を掛けた時間だけ差を減少させるようにする。もしくは、イベントの開始時刻(カットであればカットの切れ目)と、指定開始時刻との間にあるフレームに着目し、例えば、重み1ポイントあたりについての、減少させるべきフレーム数を決めておき、重みの数にそのフレーム数を掛けたフレーム数だけ差を減少させるようにする。そして、このように差を減少させた後における差の値が最小となるイベントの開始時刻を抽出するトピックの開始時刻として採用する。なお、減少させる際に、差が0より小さくなる場合には、差を0とし、差が0であるイベントが複数生じた場合には、差が0であるイベント間で重みが最大であるものを採用する。終了時刻側でも同様である。
この場合の処理のフローチャートを図10に示す。選択イベントに重みが設定されている場合に、上記のようにして開始時刻と終了時刻とを補正し(ステップS361)、補正後の開始時刻と終了時刻の基づき、抽出するトピックの開始時刻、終了時刻に対応するイベントを検出する(ステップS362)点が図9の場合と異なる。
上記のようにして抽出すべきトピックのコンテンツにおける開始時刻と終了時刻が決定すると、その開始時刻と終了時刻とを当該トピックに対応する情報として格納しておき、必要に応じてその情報を用いてトピックとしてのコンテンツの表示を行う。また、実際にその区間のコンテンツを切り出して別に格納するようにしてもよい。
このように、カット以外の音声等のイベントにも着目してトピックを抽出することを可能にしたことにより、利用者の要望に合致したコンテンツの区間をトピックとして抽出することが可能となる。
上記の例では、イベントの検出をインデクシング装置で行うこととしたが、編集装置にイベントを検出するためのプログラムを備えて、イベントの検出を編集装置で行うようにしてもよい。
また、複数の編集装置を分散配置することにより遠隔編集を行うこともできる。
このようにトピックを抽出する機能を有する編集装置は、図1に示す構成の中で使用する必要は必ずしもなく、所望の一部区間コンテンツを自動的に抽出することを要する種々の目的に使用することが可能である。
上記の例はトピックを抽出する場合を示したが、本発明のトピック抽出方法はサムネイルを抽出する場合にも適用できる。
本実施の形態におけるサムネイルとは、あるトピックの中で、利用者が希望する場面を視聴するためのものであり、所定の時間長のコンテンツ区間の代表映像のことである。例えば、Web画面上に図11のように表示がなされる。利用者は、サムネイルを示す静止画を選択することにより、その場面を視聴することができる。
編集装置は、トピックと同様にしてサムネイルを抽出することができる。すなわち、予め、サムネイルとしたい場面の開始時刻と終了時刻を指定する。そして、図6に示す画面を用いて、どのイベントに着目してサムネイル抽出するかを指定すればよい。
(第2の実施の形態)
第2の実施の形態は、カット点のみを用いてトピックを抽出した際に生じる音響情報に対するずれを、コンテンツにおける音響情報を用いることにより補正するものである。第2の実施の形態では、第1の実施の形態で説明した選択イベントに基づくトピックの抽出を行う代わりに、カット点を用いたトピックの抽出を行い、抽出されたトピックの時間位置を、音響情報を用いて補正する。補正は自動で行うこともできるし、音響波形を表示し、その音響波形を見ながら利用者が編集装置を操作することにより行うこともできる。
第2の実施の形態は、カット点のみを用いてトピックを抽出した際に生じる音響情報に対するずれを、コンテンツにおける音響情報を用いることにより補正するものである。第2の実施の形態では、第1の実施の形態で説明した選択イベントに基づくトピックの抽出を行う代わりに、カット点を用いたトピックの抽出を行い、抽出されたトピックの時間位置を、音響情報を用いて補正する。補正は自動で行うこともできるし、音響波形を表示し、その音響波形を見ながら利用者が編集装置を操作することにより行うこともできる。
図12を用いて、第2の実施の形態におけるトピック補正方法の原理について説明する。
映像のカット点が検出されているコンテンツにおいて、カット点に基づきH点〜I点がトピックとして抽出されたとする。この場合、H点の時刻に対応する音声の強さが閾値より大きい。従って、この場合、音声が適切でない時間位置からトピックが開始する可能性がある。すなわち、例えば、発明が解決しようとする課題で説明したように、「こんにちは」の「に」からトピックが開始する可能性がある。よって、この場合には、音声の強さが閾値未満となるように、トピックの抽出開始位置を時間的に前(過去)にずらす。より詳細には、例えば、映像のフレームの時間単位に抽出開始位置をずらし、音声の強さが閾値未満となった時点の時間位置をトピックの抽出開始位置とする。終了位置についても同様である。また、より大きなショットの時間単位に位置をずらずようにしてもよい。
なお、音の強弱を判別できる指標であれば、基準とするものは正確な意味での音の強さに限らず、コンテンツの音響情報から得られるものであればどのようなものでもよい。例えば、波形の振幅のピーク値等を用いてもよい。本明細書及び特許請求の範囲では、特に限定しない限り、“強さ”をこのように広い意味で使用する。
次に、本実施の形態における編集装置でのトピック自動補正処理について図13のフローチャートを用いて説明する。
本実施の形態における編集装置は図3の各機能に加えて音響情報処理機能部を備えており、コンテンツに含まれる音響情報から、任意の時間における音声、音楽、もしくは音声+音楽、各々の波形データや強さを取得し、記憶装置に格納しておくことが可能である。なお、強さの取得は外部の装置(インデクシング装置等)で行うようにしてもよい。
まず、トピック情報入力時に入力され指定開始時刻の後で、当該指定開始時間に最も近いカット点の時刻を仮抽出開始時刻とし、指定終了時刻の前で、当該指定終了時間に最も近いカット点の時刻を仮抽出終了時刻とすることにより、仮のトピック抽出を行う(ステップS41)。
続いて、上記のようにして決定した仮抽出開始時刻におけるコンテンツの音響の強さと、予め定めた閾値とを比較する(ステップS42)。当該時刻における音響の強さのほうが、閾値より小さければ、その仮抽出開始時刻をトピックを抽出するための本当の抽出開始時刻として採用する(ステップS43)。当該時刻における音響の強さが、閾値以上である場合には、仮抽出開始時刻を、対応する音響の強さが閾値未満となるように補正し(ステップS44)、補正後の時刻の音響の強さが閾値より小さければ、その時刻を本当の抽出開始時刻とする。より詳細には、例えば、仮抽出開始時刻をある単位時間(例えば1フレーム時間)ずつ増減させて、増加又は減少させる都度その時刻の音響の強さを参照し、それが閾値未満か否かをチェックし、閾値未満になった時点の時刻を本当の抽出開始時刻とする。終了時刻についても同様の処理を行って、仮抽出終了時刻を実際の抽出終了時刻に補正する。このようにして得られた抽出開始時刻、抽出終了時刻により、コンテンツから適切なトピックを抽出することが可能となる。
上記の“音響”は、音声と音楽とを合わせた音の情報でもよいし、音声のみ、又は音楽のみでもよく、これらのいずれかを選択するように構成してもよい。例えば、トピック情報入力の次に、図14に示す画面を表示し、いずれかを選択させる。そして、図14により選択されたもの(音声、音楽、音声+音楽のうちのいずれか)を用いて、図13のフローで示した処理と同様の処理を実行する。
また、上記のように自動的に補正を行うことの他、波形データと、コンテンツの中の静止画を示す画面を表示して、利用者が編集装置を操作することにより補正をすることもできる。
表示される画面の例を図15に示す。この図に示す例は、ショット単位で仮抽出開始時刻、仮抽出終了時刻をずらすことにより補正を行う例を示す画面である。なお、“ずらす”とは、時刻の値を増加又は減少させる演算を行うことである。画面の上段には、時間を横軸とする音響(音声、音楽、音声+音楽のうちのいずれか)の波形が表示される。そして、その波形の中で、仮抽出開始時刻、仮抽出終了時刻の位置が表示される。なお、図15には、仮抽出開始時刻(Y点)の部分が表示されているが、適宜利用者の操作により仮抽出終了時刻の部分も表示可能である。そして、図15の場合には、仮抽出開始時刻(Y点)の直前、直後のショットの開始時刻(X点、Z点)が表示される。画面の下段には、X点、Y点、Z点に対応する静止画が表示される。
利用者は、補正ボタンを適宜クリックすることにより、仮抽出開始時刻をショット単位にずらすことができ、例えば、左側の補正ボタンを適宜クリックすることにより、仮抽出開始時刻がX点の時間の位置にずれ、図16に示す画面のようになる。すなわち、補正後の仮抽出開始時刻が図15のX点の時刻に相当する位置になり、新たなX点は図15のX点の1つ前のショットの時間位置となる。ここで、OKを押すことにより、このように補正された仮抽出開始時刻が本当の抽出開始時刻として採用されることになる。終了時刻についても同様に補正を行うことができる。これにより、実際に音響を聞かなくても適切な音響で始まるトピックを抽出することが可能となる。なお、上記の操作において、補正ボタンを押したときに、仮抽出開始時刻をずらす編集装置の処理は例えば次のようなものである。
左側の補正ボタンのクリックを検出すると、仮抽出開始時刻から、図15におけるX点〜Y点間の時間を減じる演算を行う。そして、その減じた結果の仮抽出開始時刻と、その直前のショットの開始時刻と、直後のショットの開始時刻と、波形データ、静止画像を用いて図16の画面を表示する。
上記の例では、ショット単位に補正していたが、他の単位(例えばフレーム単位)で補正を行うようにすることもできる。また、第1の実施の形態と同様に、サムネイルの抽出にも本実施の形態の補正方法を適用できる。
なお、本発明は、上記の実施例に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
1 編集装置
2 インデキシング装置
3 符号化処理装置
11 トピック情報収集部
12 コンテンツ挿入部
13 コンテンツ予約部
14 トピック情報総合部
16 編集部
17 時計部
18 イベント・重み設定部
2 インデキシング装置
3 符号化処理装置
11 トピック情報収集部
12 コンテンツ挿入部
13 コンテンツ予約部
14 トピック情報総合部
16 編集部
17 時計部
18 イベント・重み設定部
Claims (11)
- 映像と音響とを含むコンテンツから一部区間コンテンツを自動的に抽出してコンテンツを編集するためのコンテンツ編集装置であって、
前記コンテンツにおける映像のカット点を示す情報を格納するためのカット点格納手段と、
前記コンテンツにおいて抽出の対象となる時間区間を示す予め指定した指定開始時刻と指定終了時刻とを取得する取得手段と、
前記指定開始時刻より時間的に後にあり、かつ当該指定開始時刻に最も近いカット点に対応する時間位置に対応する音響の強さが、予め定めた閾値より大きい場合に、音響の強さが閾値以下となるように前記時間位置をずらし、ずらした時間位置を、抽出する前記一部区間コンテンツの開始時刻とし、前記指定終了時刻より時間的に前にあり、かつ当該指定終了時刻に最も近いカット点に対応する時間位置に対応する音響の強さが、予め定めた閾値より大きい場合に、音響の強さが閾値以下となるように前記時間位置をずらし、ずらした時間位置を、抽出する前記一部区間コンテンツの終了時刻とする抽出コンテンツ決定手段と
を備えたことを特徴とするコンテンツ編集装置。 - 映像と音響とを含むコンテンツから一部区間コンテンツを自動的に抽出してコンテンツを編集するためのコンテンツ編集装置であって、
前記コンテンツにおける映像のカット点を示す情報を格納するためのカット点格納手段と、
前記コンテンツにおける音響の波形データを格納する波形データ格納手段と、
前記コンテンツにおいて抽出の対象となる時間区間を示す予め指定した指定開始時刻と指定終了時刻とを取得する取得手段と、
前記指定開始時刻より時間的に後にあり、かつ当該指定開始時刻に最も近いカット点に対応する時間位置を、抽出する前記一部区間コンテンツの開始時刻とし、前記指定終了時刻より時間的に前にあり、かつ当該指定終了時刻に最も近いカット点に対応する時間位置を、抽出する前記一部区間コンテンツの終了時刻とする抽出コンテンツ決定手段と、
前記音響の波形データを、少なくとも前記開始時刻又は前記終了時刻に対応する映像とともに前記コンテンツ編集装置の表示装置に表示する表示手段と、
利用者による操作により、前記開始時刻又は前記終了時刻を減少又は増加させる補正を行い、補正した開始時刻又は終了時刻に対応する映像を前記音響の波形データとともに表示する補正手段と
を備えたことを特徴とするコンテンツ編集装置。 - 前記補正を、所定の映像区間単位で行う請求項2に記載のコンテンツ編集装置。
- 前記音響は音楽又は音声であり、前記音響として音楽又は音声を利用者に選択させる選択手段を更に備えた請求項1ないし3のうちいずれか1項に記載のコンテンツ編集装置。
- 前記コンテンツから映像のカット点を検出し、カット点を示す情報を前記カット点格納手段に格納するカット点検出手段を更に備えた請求項1ないし4のうちいずれか1項に記載のコンテンツ編集装置。
- 映像と音響とを含むコンテンツから一部区間コンテンツを自動的に抽出してコンテンツを編集するための処理をコンピュータに実行させるプログラムであって、
前記コンテンツにおいて抽出の対象となる時間区間を示す予め指定した指定開始時刻と指定終了時刻とを取得する取得手順と、
前記コンテンツにおける映像のカット点を示す情報を格納する記憶装置からカット点を示す情報を取得する手順と、
前記指定開始時刻より時間的に後にあり、かつ当該指定開始時刻に最も近いカット点に対応する時間位置に対応する音響の強さが、予め定めた閾値より大きい場合に、音響の強さが閾値以下となるように前記時間位置をずらし、ずらした時間位置を、抽出する前記一部区間コンテンツの開始時刻とし、前記指定終了時刻より時間的に前にあり、かつ当該指定終了時刻に最も近いカット点に対応する時間位置に対応する音響の強さが、予め定めた閾値より大きい場合に、音響の強さが閾値以下となるように前記時間位置をずらし、ずらした時間位置を、抽出する前記一部区間コンテンツの終了時刻とする抽出コンテンツ決定手順と
をコンピュータに実行させるプログラム。 - 映像と音響とを含むコンテンツから一部区間コンテンツを自動的に抽出してコンテンツを編集するための処理をコンピュータに実行させるプログラムであって、
前記コンテンツにおいて抽出の対象となる時間区間を示す予め指定した指定開始時刻と指定終了時刻とを取得する取得手順と、
前記コンテンツにおける映像のカット点を示す情報を格納する記憶装置からカット点を示す情報を取得する手順と、
前記コンテンツにおける音響の波形データを格納する記憶装置から波形データを取得する手順と、
前記指定開始時刻より時間的に後にあり、かつ当該指定開始時刻に最も近いカット点に対応する時間位置を、抽出する前記一部区間コンテンツの開始時刻とし、前記指定終了時刻より時間的に前にあり、かつ当該指定終了時刻に最も近いカット点に対応する時間位置を、抽出する前記一部区間コンテンツの終了時刻とする抽出コンテンツ決定手順と、
前記音響の波形データを、少なくとも前記開始時刻又は前記終了時刻に対応する映像とともに前記コンピュータの表示装置に表示する表示手順と、
利用者による操作により、前記開始時刻又は前記終了時刻を減少又は増加させる補正を行い、補正した開始時刻又は終了時刻に対応する映像を前記音響の波形データとともに表示する補正手順と
をコンピュータに実行させるプログラム。 - 前記補正を、所定の映像区間単位で行う請求項7に記載のプログラム。
- 前記音響は音楽又は音声であり、前記音響として音楽又は音声を利用者に選択させる選択手順を更に実行させる請求項6ないし8のうちいずれか1項に記載のプログラム。
- 前記コンテンツから映像のカット点を検出し、カット点を示す情報を前記記憶手段に格納するカット点検出手順を更に実行させる請求項6ないし9のうちいずれか1項に記載のプログラム。
- 請求項6ないし10のうちいずれか1項に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003348557A JP2005117330A (ja) | 2003-10-07 | 2003-10-07 | コンテンツ編集装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003348557A JP2005117330A (ja) | 2003-10-07 | 2003-10-07 | コンテンツ編集装置及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005117330A true JP2005117330A (ja) | 2005-04-28 |
Family
ID=34540717
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003348557A Pending JP2005117330A (ja) | 2003-10-07 | 2003-10-07 | コンテンツ編集装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005117330A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007232892A (ja) * | 2006-02-28 | 2007-09-13 | Sanyo Electric Co Ltd | 試合区間検出装置 |
JP2008124868A (ja) * | 2006-11-14 | 2008-05-29 | Sharp Corp | テロップ検出装置及び方法、並びに画像表示装置及び方法 |
JP2008130050A (ja) * | 2006-11-24 | 2008-06-05 | Canon Inc | 画像検索装置及びその方法 |
JP4879976B2 (ja) * | 2006-05-17 | 2012-02-22 | パイオニア株式会社 | 再生装置、再生装置の反復再生方法、プログラム |
JP2013017033A (ja) * | 2011-07-04 | 2013-01-24 | Olympus Imaging Corp | 動画編集装置及び撮影装置 |
-
2003
- 2003-10-07 JP JP2003348557A patent/JP2005117330A/ja active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007232892A (ja) * | 2006-02-28 | 2007-09-13 | Sanyo Electric Co Ltd | 試合区間検出装置 |
JP4879976B2 (ja) * | 2006-05-17 | 2012-02-22 | パイオニア株式会社 | 再生装置、再生装置の反復再生方法、プログラム |
JP2008124868A (ja) * | 2006-11-14 | 2008-05-29 | Sharp Corp | テロップ検出装置及び方法、並びに画像表示装置及び方法 |
JP2008130050A (ja) * | 2006-11-24 | 2008-06-05 | Canon Inc | 画像検索装置及びその方法 |
US8265397B2 (en) | 2006-11-24 | 2012-09-11 | Canon Kabushiki Kaisha | Image retrieval apparatus and method thereof |
JP2013017033A (ja) * | 2011-07-04 | 2013-01-24 | Olympus Imaging Corp | 動画編集装置及び撮影装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4525558B2 (ja) | 情報処理装置、撮像装置、および情報処理方法、並びにコンピュータ・プログラム | |
JP4379409B2 (ja) | 撮像装置、および情報処理方法、並びにコンピュータ・プログラム | |
JP4261644B2 (ja) | マルチメディア編集方法及び装置 | |
EP1347455A2 (en) | Contents recording/playback apparatus and contents edit method | |
JP4834340B2 (ja) | 情報処理装置及びその方法とプログラム | |
JP2004153764A (ja) | メタデータ制作装置及び検索装置 | |
JP2005117330A (ja) | コンテンツ編集装置及びプログラム | |
JP2007124368A (ja) | セグメントメタデータ作成装置およびセグメントメタデータ作成方法 | |
US20080284863A1 (en) | Moving image capture apparatus and moving image capture method | |
JP2009017598A (ja) | 撮像装置、および情報処理方法、並びにコンピュータ・プログラム | |
JP2007208651A (ja) | コンテンツ視聴装置 | |
JP2008199330A (ja) | 動画像管理装置 | |
JP5955035B2 (ja) | 映像生成装置及びその制御方法 | |
JP2006101076A (ja) | 動画編集方法、動画編集装置及びプログラム | |
JP2005117329A (ja) | コンテンツ編集装置及びプログラム | |
JP4016424B2 (ja) | 動画像編集装置および動画像編集方法 | |
JP2008125050A (ja) | 動画再生装置及び動画再生方法 | |
JP7103905B2 (ja) | 編集システム、編集装置、および編集方法 | |
JP4272611B2 (ja) | 映像処理方法、映像処理装置、映像処理用プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP6110731B2 (ja) | ジェスチャーによるコマンド入力識別システム | |
JP2005167822A (ja) | 情報再生装置及び情報再生方法 | |
JP2008017235A (ja) | 映像操作履歴を基にした重要度情報付与装置及び方法 | |
JP2020129763A (ja) | 動画再生装置、動画再生方法及びプログラム | |
JP2007318450A (ja) | 映像編集方法及び装置 | |
JPH1051734A (ja) | 動画像編集装置および動画像編集方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20061026 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061114 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070313 |