JP2005117330A

JP2005117330A - コンテンツ編集装置及びプログラム

Info

Publication number: JP2005117330A
Application number: JP2003348557A
Authority: JP
Inventors: Akiko Mizuguchi; 明子水口; Koichi Tanaka; 弘一田中; Shigemi Fusano; 成実房野; Mineo Masamitsu; 峰夫正満
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2003-10-07
Filing date: 2003-10-07
Publication date: 2005-04-28

Abstract

【課題】カット点のみでなく、音声等の他の情報も考慮して、編集者が望むコンテンツ区間を適切に抽出する。
【解決手段】前記コンテンツにおいて抽出の対象となる時間区間を示す予め指定した指定開始時刻と指定終了時刻とを取得し、前記コンテンツにおける映像のカット点を示す情報を取得し、前記指定開始時刻より時間的に後にあり、かつ当該指定開始時刻に最も近いカット点に対応する時間位置に対応する音響の強さが、予め定めた閾値より大きい場合に、音響の強さが閾値以下となるように前記時間位置をずらし、ずらした時間位置を、抽出する前記一部区間コンテンツの開始時刻とし、前記指定終了時刻より時間的に前にあり、かつ当該指定終了時刻に最も近いカット点に対応する時間位置に対応する音響の強さが、予め定めた閾値より大きい場合に、音響の強さが閾値以下となるように前記時間位置をずらし、ずらした時間位置を、抽出する前記一部区間コンテンツの終了時刻とする。
【選択図】図１３

Description

本発明は、コンテンツを編集するためのコンテンツ編集装置に係り、特に、編集の対象となるコンテンツから所望の一部区間コンテンツを適切に抽出し、コンテンツ編集を効率よく行うための技術に関するものである。

映像中のカメラのオン・オフや映像編集のつなぎ目（フェード、ワイプ等）によりシーンが切り替わる点をカット点といい、このようなカット点を自動的に検出する技術は、コンテンツを自動編集するための基本的な技術となるものである。カット点の検出を行う技術として例えば特許文献１に記載された技術がある。

特許文献１には、時間的にゆっくりとしたシーンの変化を検出でき、フラッシュ光を含む映像を統一的に実時間処理可能とするカット点検出方法が記載されている。例えば、特許文献１に記載された技術を用いて切り出された複数のカット（カット点から次のカット点までの区間）を用いて、所望の番組を作成する。
特開平８-２１４２１０号公報

しかしながら、上記従来の技術を用いて、編集の対象となるコンテンツにおける予め指定した時間区間から、編集者が意図する意味のある映像区間（本明細書ではトピックと称する場合がある）を切り出す場合、当該映像区間に対応する音声の内容が適切でない場合が生じる。例えば、編集者は、映像の出演者が「こんにちは」と発声する部分から始まる映像を切り出したかったにもかかわらず、実際には「にちは」の部分から始まる映像が切り出されてしまうということがある。この場合、自動的に映像区間が切り出された後に、編集者は、改めて音声や音楽を聞きながら映像を細かい単位（フレーム等）で補正をして、編集者が望む適切な映像区間を手動操作で抽出する必要があり、編集に時間がかかるという問題があった。なお、本明細書でカットとは上記カット点間のコンテンツをいい、ショットとは、ある場面から次の場面に場面が切り替わるまでの間のコンテンツをいい、一般にショットはカットより小さい単位となる。

本発明は上記の点に鑑みてなされたものであり、カット点のみでなく、音声等の他の情報も考慮して、編集者が望むコンテンツ区間を適切に抽出する技術を提供することを目的とする。

上記の課題は、映像と音響とを含むコンテンツから一部区間コンテンツを自動的に抽出してコンテンツを編集するためのコンテンツ編集装置であって、前記コンテンツにおける映像のカット点を示す情報を格納するためのカット点格納手段と、前記コンテンツにおいて抽出の対象となる時間区間を示す予め指定した指定開始時刻と指定終了時刻とを取得する取得手段と、前記指定開始時刻より時間的に後にあり、かつ当該指定開始時刻に最も近いカット点に対応する時間位置に対応する音響の強さが、予め定めた閾値より大きい場合に、音響の強さが閾値以下となるように前記時間位置をずらし、ずらした時間位置を、抽出する前記一部区間コンテンツの開始時刻とし、前記指定終了時刻より時間的に前にあり、かつ当該指定終了時刻に最も近いカット点に対応する時間位置に対応する音響の強さが、予め定めた閾値より大きい場合に、音響の強さが閾値以下となるように前記時間位置をずらし、ずらした時間位置を、抽出する前記一部区間コンテンツの終了時刻とする抽出コンテンツ決定手段とを備えたコンテンツ編集装置により解決できる。

本発明によれば、音響の強さが閾値以下となるようにトピックやサムネイル等の一部区間コンテンツの開始時刻と終了時刻を補正することが可能となる。

また、上記の課題は、映像と音響とを含むコンテンツから一部区間コンテンツを自動的に抽出してコンテンツを編集するためのコンテンツ編集装置であって、前記コンテンツにおける映像のカット点を示す情報を格納するためのカット点格納手段と、前記コンテンツにおける音響の波形データを格納する波形データ格納手段と、前記コンテンツにおいて抽出の対象となる時間区間を示す予め指定した指定開始時刻と指定終了時刻とを取得する取得手段と、前記指定開始時刻より時間的に後にあり、かつ当該指定開始時刻に最も近いカット点に対応する時間位置を、抽出する前記一部区間コンテンツの開始時刻とし、前記指定終了時刻より時間的に前にあり、かつ当該指定終了時刻に最も近いカット点に対応する時間位置を、抽出する前記一部区間コンテンツの終了時刻とする抽出コンテンツ決定手段と、前記音響の波形データを、少なくとも前記開始時刻又は前記終了時刻に対応する映像とともに前記コンテンツ編集装置の表示装置に表示する表示手段と、利用者による操作により、前記開始時刻又は前記終了時刻を減少又は増加させる補正を行い、補正した開始時刻又は終了時刻に対応する映像を前記音響の波形データとともに表示する補正手段とを備えたコンテンツ編集装置によっても解決できる。

本発明によれば、実際の音響を聞くことなく音響の強さが閾値以下となるようにトピックやサムネイル等の一部区間コンテンツの開始時刻と終了時刻を補正することが可能となる。

上記のコンテンツ編集装置において、前記補正を、所定の映像区間単位で行うことが可能である。

また、前記音響は音楽又は音声であり、前記音響として音楽又は音声を利用者に選択させる選択手段を更に備えてもよい。また、前記コンテンツから映像のカット点を検出し、カット点を示す情報を前記カット点格納手段に格納するカット点検出手段を更に備えてもよい。

また、上記の課題は、映像と音響とを含むコンテンツから一部区間コンテンツを自動的に抽出してコンテンツを編集するための処理をコンピュータに実行させるプログラムであって、前記コンテンツにおいて抽出の対象となる時間区間を示す予め指定した指定開始時刻と指定終了時刻とを取得する取得手順と、前記コンテンツにおける映像のカット点を示す情報を格納する記憶装置からカット点を示す情報を取得する手順と、前記指定開始時刻より時間的に後にあり、かつ当該指定開始時刻に最も近いカット点に対応する時間位置に対応する音響の強さが、予め定めた閾値より大きい場合に、音響の強さが閾値以下となるように前記時間位置をずらし、ずらした時間位置を、抽出する前記一部区間コンテンツの開始時刻とし、前記指定終了時刻より時間的に前にあり、かつ当該指定終了時刻に最も近いカット点に対応する時間位置に対応する音響の強さが、予め定めた閾値より大きい場合に、音響の強さが閾値以下となるように前記時間位置をずらし、ずらした時間位置を、抽出する前記一部区間コンテンツの終了時刻とする抽出コンテンツ決定手順とをコンピュータに実行させるプログラムによっても解決できる。このプログラムをコンピュータにインストールすることにより、コンピュータを上記コンテンツ編集装置として機能させることができる。

更に、上記の課題は、映像と音響とを含むコンテンツから一部区間コンテンツを自動的に抽出してコンテンツを編集するための処理をコンピュータに実行させるプログラムであって、前記コンテンツにおいて抽出の対象となる時間区間を示す予め指定した指定開始時刻と指定終了時刻とを取得する取得手順と、前記コンテンツにおける映像のカット点を示す情報を格納する記憶装置からカット点を示す情報を取得する手順と、前記コンテンツにおける音響の波形データを格納する記憶装置から波形データを取得する手順と、前記指定開始時刻より時間的に後にあり、かつ当該指定開始時刻に最も近いカット点に対応する時間位置を、抽出する前記一部区間コンテンツの開始時刻とし、前記指定終了時刻より時間的に前にあり、かつ当該指定終了時刻に最も近いカット点に対応する時間位置を、抽出する前記一部区間コンテンツの終了時刻とする抽出コンテンツ決定手順と、前記音響の波形データを、少なくとも前記開始時刻又は前記終了時刻に対応する映像とともに前記コンピュータの表示装置に表示する表示手順と、利用者による操作により、前記開始時刻又は前記終了時刻を減少又は増加させる補正を行い、補正した開始時刻又は終了時刻に対応する映像を前記音響の波形データとともに表示する補正手順とをコンピュータに実行させるプログラムによっても解決できる。

本発明によれば、波形を見ながらトピックの時間位置を補正することを可能としたので、音響を聞くことなくトピックの時間補正を行うことができ、編集者が望む一部区間コンテンツを適切に抽出することができる。

以下、図面を参照して本発明の実施の形態について説明する。

（第１の実施の形態）
図１に本発明の実施の形態におけるシステムの構成を示す。図１に示すように本発明の実施の形態におけるシステムは、編集装置１、インデキシング装置２、符号化処理装置３を有している。編集装置１が本発明のコンテンツ編集装置に相当する。

本発明は編集装置１におけるトピックの抽出、補正に関するものであるが、まず、図１に示すシステム全体の概要について説明し、次にトピックの抽出、補正に関して詳細に説明する。

図２はシステムの動作概要を説明するためのフローである。

編集装置１では、まず、利用者がトピック情報を入力する（ステップＳ１）。ここでのトピック情報は、コンテンツを特定する情報（既存コンテンツ名、ライブ等）、当該コンテンツの中においてトピックとしたい部分の開始時間と終了時間である。なお、既存コンテンツであればその中のどの時間の部分にどのような内容の映像が含まれているかは概ね予めわかっているものとする。また、ライブ映像の場合には、ライブを取得する予約時間（開始時間と終了時間）を入力する。これにより、ライブ映像や既存のコンテンツを適宜組み合わせた番組進行情報が作成される。

次に、上記開始時間と終了時間の間のコンテンツの中のどの部分を実際に抽出するかを決定するために用いるイベント（カット、音声等）を選択し、必要に応じて重みを設定する（ステップＳ２）。このイベントについては後に詳細に説明する。

次に、インデキシング装置２では、編集装置１からのライブ予約に関する情報に基づき、符号化処理装置３を介してライブコンテンツを取得する。また、インデキシング装置２ではライブコンテンツにおけるショットの識別等の処理を行う（ショットの識別などの処理のことを本明細書ではインデキシング処理という）。また、インデキシング処理において上記のイベントの検出を行う（ステップＳ３）。符号化されインデキシング処理されたライブコンテンツは編集装置３に送られる。なお、既存コンテンツに対する上記インデクシング処理は既に終了していることを前提とするが、終了していなければ既存コンテンツに対しても上記の処理を行う。

編集装置３では、イベントが検出されたコンテンツから、ステップＳ１において入力した開始時間、終了時間に従ってトピックを抽出し、番組の自動編集を行う（ステップＳ４）。ここではまた、トピックにおける不要なショットの削除、並べ替え等の編集機能を用いることにより、利用者は細部における編集を行うことが可能である。その後、目的とする編集済みのコンテンツを出力する（ステップＳ５）。すなわち、例えば、所定のＷｅｂサーバに編集済みのコンテンツをアップロードする。

なお、図１に示す構成において、編集装置１、インデキシング装置２、符号化処理装置３の各々は、ＣＰＵ、メモリ、ハードディスク、通信処理装置等を有する一般的なコンピュータに、本実施の形態で説明するような処理を実行するプログラムを搭載することにより実現できる。また、編集装置１、インデキシング装置２、符号化処理装置３を１つのコンピュータで実現することもできるし、どれか２つを１つのコンピュータとして実現することもできる。また、編集装置１、インデキシング装置２、符号化処理装置３間を適宜通信回線で結んで使用することもできる。本実施の形態に係る処理を行うプログラムは、コンピュータが読み取りできる記録媒体、例えば、ＦＤ（フロッピー（登録商標）ディスク）や、ＭＯ、ＲＯＭ、メモリカード、ＣＤ−ＲＯＭ、ＤＶＤ、リムーバブルディスクなどに記録して、保存したり、配布したりすることが可能である。また、そのプログラムは、インターネットや電子メールなど、ネットワークを通して提供することも可能である。

次に、図３を参照して編集装置１の構成を説明する。図３に示すように、本実施の形態における編集装置１は、トピック情報を入力するためのトピック情報収集部１１、イベントの選択、重みの設定を行うイベント・重み設定部１８、既存のコンテンツを取得するためのコンテンツ挿入部１２、ライブコンテンツの取得を予約するためのコンテンツ予約部１３、ライブコンテンツと既存コンテンツに関するトピック情報とを総合して番組進行情報の作成を行い、予約に基づくライブコンテンツの取得をインデキシング装置２側に依頼するトピック情報総合部１４、トピック情報及びイベントに基づく適切なトピックやサムネイルを抽出し、既存コンテンツとライブコンテンツを組み合わせたコンテンツストリームの生成等を行う編集部１６とを有している。また、編集装置１とインデキシング装置２との間で時間同期をとるための時計部１７を有している。

以下、図３に示す編集装置１の動作を図４のシーケンスチャートも参照して説明する。なお、図４のシーケンスチャートでは、編集装置１の部分を編集系と称し、インデキシング装置２と符号化処理装置３の部分を生成系と称している。

ライブ予約では、編集装置１で設定した開始時間、終了時間がインデキシング装置２によりライブ取り込みに使用されることから、まず、時計部１７により編集装置１とインデキシング装置２との間における時間調整（同期をとる）が行われる（ステップＳ１１）。

そして、トピック情報収集部１１により、トピック情報（コンテンツを特定する情報、当該コンテンツにおいてトピックの対象となり得る部分の開始時間、終了時間）の入力がなされる（ステップＳ１２）。この入力情報に基づき、トピック情報総合部において図５に示すような番組進行情報が作成される。次に、イベントの選択、重みの設定を行う（ステップＳ１３）。この処理については後に詳細に説明する。なお、ここで入力されたトピック情報、選択されたイベント、重み等は、編集装置１の記憶装置に格納される。

次に、既存コンテンツに対しては、コンテンツ挿入部１２によりコンテンツ検索を行ってコンテンツを取得し（ステップＳ１４）、ライブであれば、指定された予約時間に基づきライブ予約を行い（ステップＳ１５）、ライブコンテンツの取得を行う。

トピック情報総合部１４は、ライブ予約時間が来ると、ライブコンテンツの取り込みをインデキシング装置２に依頼する（ステップＳ１６）。ライブの取り込みの依頼を受けたインデキシング装置２は、符号化処理装置３を介してライブコンテンツの取り込みを行う（ステップＳ１７）。すなわち、符号化処理装置３はライブ映像に対する符号化処理を行い（ステップＳ１８）、インデキシング装置２は、符号化したライブコンテンツに対して、イベントの検出を含むインデキシング処理を施す（ステップＳ１９）。

取り込みが終了すると（ステップＳ２０）、インデキシング処理が施されたライブコンテンツ（検出されたイベントの情報を含む）は、インデキシング装置２から編集装置１に送られ、編集装置１の記憶装置に格納される。

次に、開始時間、終了時間と、イベント情報を用いたトピック抽出が行われ（ステップＳ２１）、既存コンテンツとライブコンテンツとを適切に組み合わせたストリームを生成する自動編集を行い（ステップＳ２２）、Ｗｅｂ画面を出力する（ステップＳ２３）。

次に、編集装置１により実行されるトピックを抽出する処理についてより詳細に説明する。

トピックを抽出する対象となっているコンテンツは、映像情報、音響情報、及び映像情報と音響情報とに対応付けられる同期情報を含むものである。同期情報は、例えば時間であり、例えば、コンテンツの開始からの経過時間と映像情報の位置、及び音響情報の位置とが対応付けられている。すなわち、ある時刻を指定すれば、そのコンテンツから、その時間位置に対応する位置の映像情報及び音響情報を取得することが可能である。なお、同期情報は時間情報に比例した情報であればどのような情報でもよいが、以下、同期情報を時間であるとして説明する。

本実施の形態におけるトピックの抽出は、“カット”、“テロップ”、“カメラワーク”、“音楽”、“音声”等のイベントをコンテンツから検出しておき、そのイベントの開始時刻、終了時刻を参照することにより行われるものである。

図６に、図４のステップＳ１３におけるイベントの選択処理において、表示装置に表示される画面例を示す。この画面における各イベントの左端をクリックすることにより、そのイベントを選択できる。また、必要に応じて、選択したイベントに対する重みを入力する。ここで選択されたイベント、重みを用いて編集対象のコンテンツから抽出すべきトピックの開始時刻、終了時刻が決定される。図６に示す例では、選択されたイベントは、抽出すべきトピックの開始時刻、終了時刻の両方の決定に際して参照される。図６に示す例の他、開始時刻決定用のイベントと終了時刻決定用のイベントを別々に選択させるような画面とすることもできる。また、図６に示す“詳細”をクリックすることにより、イベントの検出時のパラメータを設定できる。例えば、“カット”であればカット閾値、ディゾルブ閾値等を設定でき、“テロップ”であれば検出閾値、最小時間等を設定でき、“カメラワーク”であれば最小時間、検出感度等を設定でき、“音声”、“音楽”であれば最大閾値、最小閾値等を設定できる。

本実施の形態では、インデクシング装置がコンテンツの中の各イベントの検出を行い、検出結果を編集装置１に送る構成となっており、検出結果は、例えば、図７のような形式で記憶装置に格納される。この検出結果は、図８に示すように画面に表示することもできる。

上記の検出結果からわかるように、“カット”に対してはコンテンツのどの時間位置でカットの切れ目が生じているかが検出される。“テロップ”に対しては、コンテンツの映像中にテロップが表示されていた時間区間が検出される。“カメラワーク”に対しては、カメラワークが発生していた時間区間が検出される。また、“音楽”、“音声”に対しては、それぞれ“音楽”、“音声”が発生していた時間区間が検出される。上記各イベントを検出する方法について以下説明する。

カットの検出については、例えば特開平８-２１４２１０号公報に開示されている技術を用いることができる。

テロップの検出については、例えば特開平１１−３２８４２３号公報に開示されている技術を用いることができる。なお、テロップとは、映像に含まれる字幕や写真、記号、模様、マーク、アイコン等である。

カメラワークの検出については、例えば特開平１０−３０４２４２号公報に開示されているように、符号化映像データに含まれる動きベクトルの情報や予測誤差の情報から抽出する方法を用いることができる。また、特開平１１−２５９６２６号公報に開示されているような、カメラパラメータを映像と関連付けて格納しておく方法を用いることもできる。なお、カメラの動き（パン、チルト、ズーム等）があった場合に、カメラワークが検出される。

音声、音楽の検出については、例えば特開平１０−９７２６９号公報に開示されている技術を用いることができる。なお、音声と音楽とは、例えば、スペクトルパターンを用いて識別することができる。

次に、トピックを抽出する処理について、図９のフローチャートを参照して説明する。

まず、記憶装置から、選択したイベントを取得する（ステップＳ３１）。そして、トピック情報として予め指定した指定開始時刻及び指定終了時刻を取得する（ステップＳ３２）。続いて、取得したイベントとその重みの情報を参照し、重みが設定されているか否かをチェックする（ステップＳ３３）。重みが設定されていなければ、選択されたイベントの開始時刻の中で、トピックの指定開始時刻より後で指定開始時刻に最も近いものを、トピックの開始時刻として採用する（ステップＳ３４、Ｓ３５）。また、選択されたイベントの終了時刻の中で、トピックの指定終了時刻より前で指定終了時刻に最も近いものをトピックの終了時刻として採用する（ステップＳ３４、Ｓ３５）。

また、選択されたイベントに重みが設定されている場合には、選択されたイベントの開始時刻の中で、トピックの指定開始時刻より後であって重みが最大であるイベントの開始時刻をトピックの開始時刻として採用する（ステップＳ３６、Ｓ３５）。また、選択されたイベントの終了時刻の中で、トピックの指定終了時刻より前であって重みが最大であるイベントの終了時刻をトピックの終了時刻として採用する（ステップＳ３６、Ｓ３５）。

すなわち、例えば、図８に示す例において、“音声”のみが選択されていた場合には、図８のＡ点〜Ｂ点区間のコンテンツがトピックとして抽出される。

イベントとしてカットとカメラワークが選択されており重みが設定されていない場合には、切れ目が指定開始時刻に最も近いカットのＣ点がトピックの抽出開始時刻として採用され、切れ目が指定終了時刻に最も近いカットのＤ点がトピックの抽出終了時刻として採用される。

また、開始時刻抽出用のイベントと終了時刻抽出用のイベントを別々に選択する場合において、開始時刻抽出用のイベントとしてカットとカメラワークが選択されており重みが設定されておらず、また、終了時刻抽出用のイベントとしてテロップと音声が選択されており重みが設定されていない場合には、カットのＣ点がトピックの抽出開始時刻として採用され、テロップのＥ点がトピックの抽出終了時刻として採用される。

また、イベントとしてカットとカメラワークと音声が選択されており、重みがそれぞれ２、５、４である場合には、重みが最大となっているカメラワークのＦ点とＧ点がそれぞれトピックの抽出開始時刻と抽出終了時刻として採用される。

また、開始時刻抽出用のイベントと終了時刻抽出用のイベントを別々に選択する場合において、開始時刻抽出用のイベントとしてカットとカメラワークと音声が選択されており、重みがそれぞれ２、５、４である場合には、重みが最大となっているカメラワークのＦ点がトピックの抽出開始時刻として採用される。更に、終了時刻抽出用のイベントとしてテロップと音声と音楽が選択されており重みがそれぞれ、５、３、３である場合には、重みが最大であるテロップのＥ点がトピックの抽出終了時刻として採用される。従って、この場合には、Ｆ点〜Ｅ点がトピックとして抽出される。

上記のように、重みが最大に設定されたイベントを用いてトピックを抽出することの他、次に説明するように、重みを評価してどのイベントの開始時刻、終了時刻を抽出開始時刻、抽出終了時刻として採用するかを決定することもできる。

すなわち、開始時刻側でいえば、イベントの重みに応じてそのイベントの開始時刻（カットであればカットの切れ目）と、指定開始時刻との差を減少させる。減少のさせ方としては、例えば、重み１ポイントあたりについての減少させるべき時間を決めておき、重みの数にその時間を掛けた時間だけ差を減少させるようにする。もしくは、イベントの開始時刻（カットであればカットの切れ目）と、指定開始時刻との間にあるフレームに着目し、例えば、重み１ポイントあたりについての、減少させるべきフレーム数を決めておき、重みの数にそのフレーム数を掛けたフレーム数だけ差を減少させるようにする。そして、このように差を減少させた後における差の値が最小となるイベントの開始時刻を抽出するトピックの開始時刻として採用する。なお、減少させる際に、差が０より小さくなる場合には、差を０とし、差が０であるイベントが複数生じた場合には、差が０であるイベント間で重みが最大であるものを採用する。終了時刻側でも同様である。

この場合の処理のフローチャートを図１０に示す。選択イベントに重みが設定されている場合に、上記のようにして開始時刻と終了時刻とを補正し（ステップＳ３６１）、補正後の開始時刻と終了時刻の基づき、抽出するトピックの開始時刻、終了時刻に対応するイベントを検出する（ステップＳ３６２）点が図９の場合と異なる。

上記のようにして抽出すべきトピックのコンテンツにおける開始時刻と終了時刻が決定すると、その開始時刻と終了時刻とを当該トピックに対応する情報として格納しておき、必要に応じてその情報を用いてトピックとしてのコンテンツの表示を行う。また、実際にその区間のコンテンツを切り出して別に格納するようにしてもよい。

このように、カット以外の音声等のイベントにも着目してトピックを抽出することを可能にしたことにより、利用者の要望に合致したコンテンツの区間をトピックとして抽出することが可能となる。

上記の例では、イベントの検出をインデクシング装置で行うこととしたが、編集装置にイベントを検出するためのプログラムを備えて、イベントの検出を編集装置で行うようにしてもよい。

また、複数の編集装置を分散配置することにより遠隔編集を行うこともできる。

このようにトピックを抽出する機能を有する編集装置は、図１に示す構成の中で使用する必要は必ずしもなく、所望の一部区間コンテンツを自動的に抽出することを要する種々の目的に使用することが可能である。

上記の例はトピックを抽出する場合を示したが、本発明のトピック抽出方法はサムネイルを抽出する場合にも適用できる。

本実施の形態におけるサムネイルとは、あるトピックの中で、利用者が希望する場面を視聴するためのものであり、所定の時間長のコンテンツ区間の代表映像のことである。例えば、Ｗｅｂ画面上に図１１のように表示がなされる。利用者は、サムネイルを示す静止画を選択することにより、その場面を視聴することができる。

編集装置は、トピックと同様にしてサムネイルを抽出することができる。すなわち、予め、サムネイルとしたい場面の開始時刻と終了時刻を指定する。そして、図６に示す画面を用いて、どのイベントに着目してサムネイル抽出するかを指定すればよい。

（第２の実施の形態）
第２の実施の形態は、カット点のみを用いてトピックを抽出した際に生じる音響情報に対するずれを、コンテンツにおける音響情報を用いることにより補正するものである。第２の実施の形態では、第１の実施の形態で説明した選択イベントに基づくトピックの抽出を行う代わりに、カット点を用いたトピックの抽出を行い、抽出されたトピックの時間位置を、音響情報を用いて補正する。補正は自動で行うこともできるし、音響波形を表示し、その音響波形を見ながら利用者が編集装置を操作することにより行うこともできる。

図１２を用いて、第２の実施の形態におけるトピック補正方法の原理について説明する。

映像のカット点が検出されているコンテンツにおいて、カット点に基づきＨ点〜Ｉ点がトピックとして抽出されたとする。この場合、Ｈ点の時刻に対応する音声の強さが閾値より大きい。従って、この場合、音声が適切でない時間位置からトピックが開始する可能性がある。すなわち、例えば、発明が解決しようとする課題で説明したように、「こんにちは」の「に」からトピックが開始する可能性がある。よって、この場合には、音声の強さが閾値未満となるように、トピックの抽出開始位置を時間的に前（過去）にずらす。より詳細には、例えば、映像のフレームの時間単位に抽出開始位置をずらし、音声の強さが閾値未満となった時点の時間位置をトピックの抽出開始位置とする。終了位置についても同様である。また、より大きなショットの時間単位に位置をずらずようにしてもよい。

なお、音の強弱を判別できる指標であれば、基準とするものは正確な意味での音の強さに限らず、コンテンツの音響情報から得られるものであればどのようなものでもよい。例えば、波形の振幅のピーク値等を用いてもよい。本明細書及び特許請求の範囲では、特に限定しない限り、“強さ”をこのように広い意味で使用する。

次に、本実施の形態における編集装置でのトピック自動補正処理について図１３のフローチャートを用いて説明する。

本実施の形態における編集装置は図３の各機能に加えて音響情報処理機能部を備えており、コンテンツに含まれる音響情報から、任意の時間における音声、音楽、もしくは音声＋音楽、各々の波形データや強さを取得し、記憶装置に格納しておくことが可能である。なお、強さの取得は外部の装置（インデクシング装置等）で行うようにしてもよい。

まず、トピック情報入力時に入力され指定開始時刻の後で、当該指定開始時間に最も近いカット点の時刻を仮抽出開始時刻とし、指定終了時刻の前で、当該指定終了時間に最も近いカット点の時刻を仮抽出終了時刻とすることにより、仮のトピック抽出を行う（ステップＳ４１）。

続いて、上記のようにして決定した仮抽出開始時刻におけるコンテンツの音響の強さと、予め定めた閾値とを比較する（ステップＳ４２）。当該時刻における音響の強さのほうが、閾値より小さければ、その仮抽出開始時刻をトピックを抽出するための本当の抽出開始時刻として採用する（ステップＳ４３）。当該時刻における音響の強さが、閾値以上である場合には、仮抽出開始時刻を、対応する音響の強さが閾値未満となるように補正し（ステップＳ４４）、補正後の時刻の音響の強さが閾値より小さければ、その時刻を本当の抽出開始時刻とする。より詳細には、例えば、仮抽出開始時刻をある単位時間（例えば1フレーム時間）ずつ増減させて、増加又は減少させる都度その時刻の音響の強さを参照し、それが閾値未満か否かをチェックし、閾値未満になった時点の時刻を本当の抽出開始時刻とする。終了時刻についても同様の処理を行って、仮抽出終了時刻を実際の抽出終了時刻に補正する。このようにして得られた抽出開始時刻、抽出終了時刻により、コンテンツから適切なトピックを抽出することが可能となる。

上記の“音響”は、音声と音楽とを合わせた音の情報でもよいし、音声のみ、又は音楽のみでもよく、これらのいずれかを選択するように構成してもよい。例えば、トピック情報入力の次に、図１４に示す画面を表示し、いずれかを選択させる。そして、図１４により選択されたもの（音声、音楽、音声＋音楽のうちのいずれか）を用いて、図１３のフローで示した処理と同様の処理を実行する。

また、上記のように自動的に補正を行うことの他、波形データと、コンテンツの中の静止画を示す画面を表示して、利用者が編集装置を操作することにより補正をすることもできる。

表示される画面の例を図１５に示す。この図に示す例は、ショット単位で仮抽出開始時刻、仮抽出終了時刻をずらすことにより補正を行う例を示す画面である。なお、“ずらす”とは、時刻の値を増加又は減少させる演算を行うことである。画面の上段には、時間を横軸とする音響（音声、音楽、音声＋音楽のうちのいずれか）の波形が表示される。そして、その波形の中で、仮抽出開始時刻、仮抽出終了時刻の位置が表示される。なお、図１５には、仮抽出開始時刻（Ｙ点）の部分が表示されているが、適宜利用者の操作により仮抽出終了時刻の部分も表示可能である。そして、図１５の場合には、仮抽出開始時刻（Ｙ点）の直前、直後のショットの開始時刻（Ｘ点、Ｚ点）が表示される。画面の下段には、Ｘ点、Ｙ点、Ｚ点に対応する静止画が表示される。

利用者は、補正ボタンを適宜クリックすることにより、仮抽出開始時刻をショット単位にずらすことができ、例えば、左側の補正ボタンを適宜クリックすることにより、仮抽出開始時刻がＸ点の時間の位置にずれ、図１６に示す画面のようになる。すなわち、補正後の仮抽出開始時刻が図１５のＸ点の時刻に相当する位置になり、新たなＸ点は図１５のＸ点の１つ前のショットの時間位置となる。ここで、ＯＫを押すことにより、このように補正された仮抽出開始時刻が本当の抽出開始時刻として採用されることになる。終了時刻についても同様に補正を行うことができる。これにより、実際に音響を聞かなくても適切な音響で始まるトピックを抽出することが可能となる。なお、上記の操作において、補正ボタンを押したときに、仮抽出開始時刻をずらす編集装置の処理は例えば次のようなものである。

左側の補正ボタンのクリックを検出すると、仮抽出開始時刻から、図１５におけるＸ点〜Ｙ点間の時間を減じる演算を行う。そして、その減じた結果の仮抽出開始時刻と、その直前のショットの開始時刻と、直後のショットの開始時刻と、波形データ、静止画像を用いて図１６の画面を表示する。

上記の例では、ショット単位に補正していたが、他の単位（例えばフレーム単位）で補正を行うようにすることもできる。また、第１の実施の形態と同様に、サムネイルの抽出にも本実施の形態の補正方法を適用できる。

なお、本発明は、上記の実施例に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。

本発明の実施の形態におけるシステム構成図である。本発明の実施の形態におけるシステムの動作概要を説明するためのフローチャートである。編集装置１の構成図である。本発明の実施の形態におけるシステムの動作を説明するためのシーケンスーチャートである。番組進行情報を示す図である。図４のステップＳ１３におけるイベントの選択処理において表示される画面例である。イベント検出結果の例である。イベント検出結果の画面表示例である。本発明の第１の実施の形態におけるトピックを抽出する処理のフローチャートである。本発明の第１の実施の形態におけるトピックを抽出する他の処理のフローチャートである。サムネイルの表示例である。本発明の第２の実施の形態におけるトピック補正方法の原理を説明するための図である。本発明の第２の実施の形態におけるトピック補正処理のフローチャートである。音声、音楽、音声＋音楽のうちのいずれか選択させる画面例である。本発明の第２の実施の形態におけるトピック補正を行うための画面例である。本発明の第２の実施の形態におけるトピック補正を行うための画面例である。

符号の説明

１編集装置
２インデキシング装置
３符号化処理装置
１１トピック情報収集部
１２コンテンツ挿入部
１３コンテンツ予約部
１４トピック情報総合部
１６編集部
１７時計部
１８イベント・重み設定部

Claims

映像と音響とを含むコンテンツから一部区間コンテンツを自動的に抽出してコンテンツを編集するためのコンテンツ編集装置であって、
前記コンテンツにおける映像のカット点を示す情報を格納するためのカット点格納手段と、
前記コンテンツにおいて抽出の対象となる時間区間を示す予め指定した指定開始時刻と指定終了時刻とを取得する取得手段と、
前記指定開始時刻より時間的に後にあり、かつ当該指定開始時刻に最も近いカット点に対応する時間位置に対応する音響の強さが、予め定めた閾値より大きい場合に、音響の強さが閾値以下となるように前記時間位置をずらし、ずらした時間位置を、抽出する前記一部区間コンテンツの開始時刻とし、前記指定終了時刻より時間的に前にあり、かつ当該指定終了時刻に最も近いカット点に対応する時間位置に対応する音響の強さが、予め定めた閾値より大きい場合に、音響の強さが閾値以下となるように前記時間位置をずらし、ずらした時間位置を、抽出する前記一部区間コンテンツの終了時刻とする抽出コンテンツ決定手段と
を備えたことを特徴とするコンテンツ編集装置。
映像と音響とを含むコンテンツから一部区間コンテンツを自動的に抽出してコンテンツを編集するためのコンテンツ編集装置であって、
前記コンテンツにおける映像のカット点を示す情報を格納するためのカット点格納手段と、
前記コンテンツにおける音響の波形データを格納する波形データ格納手段と、
前記コンテンツにおいて抽出の対象となる時間区間を示す予め指定した指定開始時刻と指定終了時刻とを取得する取得手段と、
前記指定開始時刻より時間的に後にあり、かつ当該指定開始時刻に最も近いカット点に対応する時間位置を、抽出する前記一部区間コンテンツの開始時刻とし、前記指定終了時刻より時間的に前にあり、かつ当該指定終了時刻に最も近いカット点に対応する時間位置を、抽出する前記一部区間コンテンツの終了時刻とする抽出コンテンツ決定手段と、
前記音響の波形データを、少なくとも前記開始時刻又は前記終了時刻に対応する映像とともに前記コンテンツ編集装置の表示装置に表示する表示手段と、
利用者による操作により、前記開始時刻又は前記終了時刻を減少又は増加させる補正を行い、補正した開始時刻又は終了時刻に対応する映像を前記音響の波形データとともに表示する補正手段と
を備えたことを特徴とするコンテンツ編集装置。
前記補正を、所定の映像区間単位で行う請求項２に記載のコンテンツ編集装置。
前記音響は音楽又は音声であり、前記音響として音楽又は音声を利用者に選択させる選択手段を更に備えた請求項１ないし３のうちいずれか１項に記載のコンテンツ編集装置。
前記コンテンツから映像のカット点を検出し、カット点を示す情報を前記カット点格納手段に格納するカット点検出手段を更に備えた請求項１ないし４のうちいずれか１項に記載のコンテンツ編集装置。
映像と音響とを含むコンテンツから一部区間コンテンツを自動的に抽出してコンテンツを編集するための処理をコンピュータに実行させるプログラムであって、
前記コンテンツにおいて抽出の対象となる時間区間を示す予め指定した指定開始時刻と指定終了時刻とを取得する取得手順と、
前記コンテンツにおける映像のカット点を示す情報を格納する記憶装置からカット点を示す情報を取得する手順と、
前記指定開始時刻より時間的に後にあり、かつ当該指定開始時刻に最も近いカット点に対応する時間位置に対応する音響の強さが、予め定めた閾値より大きい場合に、音響の強さが閾値以下となるように前記時間位置をずらし、ずらした時間位置を、抽出する前記一部区間コンテンツの開始時刻とし、前記指定終了時刻より時間的に前にあり、かつ当該指定終了時刻に最も近いカット点に対応する時間位置に対応する音響の強さが、予め定めた閾値より大きい場合に、音響の強さが閾値以下となるように前記時間位置をずらし、ずらした時間位置を、抽出する前記一部区間コンテンツの終了時刻とする抽出コンテンツ決定手順と
をコンピュータに実行させるプログラム。
映像と音響とを含むコンテンツから一部区間コンテンツを自動的に抽出してコンテンツを編集するための処理をコンピュータに実行させるプログラムであって、
前記コンテンツにおいて抽出の対象となる時間区間を示す予め指定した指定開始時刻と指定終了時刻とを取得する取得手順と、
前記コンテンツにおける映像のカット点を示す情報を格納する記憶装置からカット点を示す情報を取得する手順と、
前記コンテンツにおける音響の波形データを格納する記憶装置から波形データを取得する手順と、
前記指定開始時刻より時間的に後にあり、かつ当該指定開始時刻に最も近いカット点に対応する時間位置を、抽出する前記一部区間コンテンツの開始時刻とし、前記指定終了時刻より時間的に前にあり、かつ当該指定終了時刻に最も近いカット点に対応する時間位置を、抽出する前記一部区間コンテンツの終了時刻とする抽出コンテンツ決定手順と、
前記音響の波形データを、少なくとも前記開始時刻又は前記終了時刻に対応する映像とともに前記コンピュータの表示装置に表示する表示手順と、
利用者による操作により、前記開始時刻又は前記終了時刻を減少又は増加させる補正を行い、補正した開始時刻又は終了時刻に対応する映像を前記音響の波形データとともに表示する補正手順と
をコンピュータに実行させるプログラム。
前記補正を、所定の映像区間単位で行う請求項７に記載のプログラム。
前記音響は音楽又は音声であり、前記音響として音楽又は音声を利用者に選択させる選択手順を更に実行させる請求項６ないし８のうちいずれか１項に記載のプログラム。
前記コンテンツから映像のカット点を検出し、カット点を示す情報を前記記憶手段に格納するカット点検出手順を更に実行させる請求項６ないし９のうちいずれか１項に記載のプログラム。
請求項６ないし１０のうちいずれか１項に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。