JP6601944B2

JP6601944B2 - コンテンツ生成装置およびプログラム

Info

Publication number: JP6601944B2
Application number: JP2015116346A
Authority: JP
Inventors: 大雅中西; 宗遠藤; 文藤井; 清彦石川
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2015-06-09
Filing date: 2015-06-09
Publication date: 2019-11-06
Anticipated expiration: 2035-06-09
Also published as: JP2017005442A

Description

本発明は、動画等をもとにコンテンツを生成することのできる、コンテンツ生成装置およびプログラムに関する。

テレビ番組等の映像コンテンツの内容を視聴者が短時間で把握できるようにすることは有用である。そのための手段の一例は、サマリーコンテンツである。サマリーコンテンツは、テキストと静止画あるいは動画、もしくはそれら両方を組み合わせて構成される。つまり、サマリーコンテンツを見る視聴者は、映像コンテンツの長さ分の実時間を要することなく、そのサマリーコンテンツが表す映像コンテンツの内容の概略を把握することができる。例えば、テレビ番組の放送終了後に、そのテレビ番組の概要を表すサマリーコンテンツを、放送事業者のウェブサイト等に掲載することによって、視聴者らに有益な情報を提供することができる。携帯型端末（スマートフォン等）が普及している今日、比較的小さいデータ量で視聴者らに情報を提供することのできる上記のようなサマリーコンテンツは、テレビ放送事業においても、そのニーズが高まっている。

従来の技術では、上記のようなサマリーコンテンツを制作するためには、放送番組の動画の中からサマリーコンテンツに適した静止画等を手作業で探して切り出すということが行われていた。また、サマリーコンテンツ内において静止画等に沿えるテキスト部分を制作するためには、放送原稿や動画からの書き起こしテキストなどをもとに、テキストを手作業で編集するということが行われていた。そして、そのような作業のためには、膨大な時間と、専門的なスキルが必要とされていた。

特許文献１および２に開示されている技術は、上記のようなサマリーコンテンツの制作を効率化するという目的で利用できる可能性のあるものである。
特許文献１には、動画から静止画を抽出するための構成として、字幕データが更新されたことを検出して、そのタイミングに基づいて静止画を抽出する構成が記載されている。なお、特許文献１は、連続する静止画における画像特徴量の変化が一定以上のものを出力する方法を開示している。
特許文献２には、動画像のダイジェスト画面を構成する映像内容の提示方法が記載されている。この特許文献２に開示されている方法では、画像の特徴を表すスコアが高い静止画ほど、拡大表示を行うなど、ユーザが重要性を知覚しやすいように提示する工夫がなされている。

特許第４８４６６７４号公報国際公開第２００５／０５０９８６号

しかしながら、上記の先行技術には、次のような問題がある。
特許文献１に記載されている技術によって動画から抽出される静止画に関しては、類似性の高い静止画が連続して抽出されてしまうという可能性を排除する工夫がなされている。しかしながら、字幕データの更新のタイミングに基づいて抽出される静止画が、サマリーコンテンツに向いた静止画であるとは言い切れない。
また、特許文献２に記載されている技術では、選択された画像を差し替えることができない。視聴者に向けて公開することを前提としたサマリーコンテンツを制作する際には、抽出された静止画の中から最適なものを自動的に選択するだけでなく、フレーム単位で他の画像と差し替えたいケースも少なくない。画像を差し替える理由の典型は、たとえば、静止画に写っている人物の目が瞑っている場合や、ディゾルブを用いた映像編集で、２つのシーンが１つの静止画内に重なっている場合などである。なお、ディゾルブとは、徐々に暗くなる前のシーンと、徐々に明るくなりながら現れる次のシーンとを重ねる場面転換技法である。

本発明は、上記の課題認識に基づいて行なわれたものであり、映像内からサマリーコンテンツとして適した静止画を自動的に抽出するなどの処理を行い、効率的にサマリーコンテンツを制作することのできるコンテンツ生成装置、およびプログラムを提供する。

［１］上記の課題を解決するため、本発明の一態様によるコンテンツ生成装置は、提示時刻情報が付加された動画を受信する動画受信部と、提示時刻情報が付加されたテキストデータを受信するテキスト受信部と、前記動画受信部が受信した前記動画から前記提示時刻情報が付加された静止画を抽出する代表画像抽出部と、前記テキストデータに付加された前記提示時刻情報と、前記静止画に付加された前記提示時刻情報とに基づいて、前記テキストデータおよび前記静止画を時刻の順にしたがって配置する割当処理部と、を具備することを特徴とする。

［２］また、本発明の一態様は、上記のコンテンツ生成装置において、前記動画受信部が受信した前記動画内のカット点を抽出するカット点抽出部、をさらに具備し、前記代表画像抽出部は、前記カット点抽出部が抽出した前記カット点から前または後に所定の長さの位置の前記静止画を抽出する、ことを特徴とする。

［３］また、本発明の一態様は、上記のコンテンツ生成装置において、前記代表画像抽出部が抽出した前記静止画内に画像として含まれているオブジェクトまたは字幕を検出するオブジェクト検出部と、前記オブジェクト検出部が検出した前記オブジェクトまたは前記字幕に応じたスコアを当該オブジェクトまたは当該字幕を含む前記静止画に付与するスコア付与部と、をさらに具備し、前記割当処理部は、前記代表画像抽出部が抽出した前記静止画のうち、前記スコア付与部によって付与されたスコアの値が高い前記静止画を優先して選択して配置する、ことを特徴とする。

［４］また、本発明の一態様は、上記のコンテンツ生成装置において、予め定めたキーワードを用いて前記テキスト受信部が受信したテキストデータを検索するキーワード検索部、をさらに具備し、前記スコア付与部は、前記キーワード検索部によって検出された前記キーワードの前記テキストデータ内の位置に対応する前記提示時刻情報を用いて、当該提示時刻情報が示す位置から前または後に所定の長さの範囲内の前記静止画に、当該キーワードに応じたスコアをさらに付与する、ことを特徴とする。

［５］また、本発明の一態様は、上記のコンテンツ生成装置において、前記割当処理部は、前記動画を時間方向に複数のブロックに区切り、予め定められたブロックあたりの静止画枚数の範囲内で、前記ブロックごとに前記スコアの値が高い前記静止画を優先して選択する、ことを特徴とする。

［６］また、本発明の一態様は、上記のコンテンツ生成装置において、前記動画受信部が受信した前記動画に含まれる音声について音声認識処理を行うことによって、前記提示時刻情報が付加された音声認識結果を出力する音声認識部と、前記テキストデータと前記音声認識結果とを比較して一致度の高い部分同士を対応付ける比較部と、前記比較部による処理の結果に基づいて、前記テキストデータに付加されていた前記提示時刻情報を、前記テキストデータと一致度の高い部分同士として対応付いた前記音声認識結果に付加された前記提示時刻情報を用いて置き換えることにより、提示時刻情報を補正する補正部と、をさらに具備することを特徴とする。

［７］また、本発明の一態様は、上記のコンテンツ生成装置において、前記補正部は、前記比較部による処理の結果として前記テキストデータが存在しない箇所で且つ前記音声認識結果が存在する箇所については、当該箇所の前記音声認識結果を、当該箇所の前記テキストデータへの挿入候補のテキストデータとして取り込む、ことを特徴とする。

［８］また、本発明の一態様は、コンピューターを、提示時刻情報が付加された動画を受信する動画受信手段と、提示時刻情報が付加されたテキストデータを受信するテキスト受信手段と、前記動画受信手段が受信した前記動画から前記提示時刻情報が付加された静止画を抽出する代表画像抽出手段と、前記テキストデータに付加された前記提示時刻情報と、前記静止画に付加された前記提示時刻情報とに基づいて、前記テキストデータおよび前記静止画を時刻の順にしたがって配置する割当処理手段と、として機能させるためのプログラムである。

本発明によれば、動画から自動的に抽出した静止画とテキストデータ（字幕データ等）とを、提示時刻情報にしたがって、時刻にそって配置したコンテンツを効率的に生成することが可能となる。

本発明の実施形態によるコンテンツ生成装置の概略機能構成を示すブロック図である。同実施形態による、コンテンツ生成装置１を含んだ、放送事業者のシステムの構成の概略を表すブロック図である。同実施形態による代表画像抽出部が各シーンの代表画像を抽出するための方法を示す概略図である。同実施形態によるオブジェクト検出部が処理の対象とする、静止画内のオブジェクトおよび字幕の例を示す概略図である。同実施形態において、字幕データから抽出される特定の強調キーワードによってスコア付与部がスコアを加点する方法を示した概略図である。同実施形態における割当処理部による画像選択（割り当て）の方法を示した概略図である。同実施形態によるコンテンツ生成装置（特に、提示部および編集部）の画面表示例を示す概略図である。同実施形態によるコンテンツ生成装置の画面表示例であり、特に、字幕データに含まれない音声認識結果が存在する場合の画面表示例を示す。同実施形態による字幕補正部が補正処理の後で出力するデータ（字幕データおよび音声認識結果データを含む）の例を示す概略図である。

次に、本発明の実施形態について、図面を参照しながら説明する。
図１は、本実施形態によるコンテンツ生成装置の概略機能構成を示すブロック図である。同図に示すように、コンテンツ生成装置１は、動画受信部１１と、トランスコード部１２と、カット点抽出部１３と、代表画像抽出部１４と、オブジェクト検出部１５と、スコア付与部１６と、割当処理部１７と、提示部１８と、編集部１９と、承認部２０と、最終出力部２１と、字幕受信部３１（テキスト受信部）と、音声認識部３２と、比較部３３と、字幕補正部３４（補正部）と、キーワード検索部３５と、を含んで構成される。これら各部の機能は、電子回路により実現される。その一形態として、コンピューターを用いてこれら各部の機能を実現しても良い。

動画受信部１１は、提示時刻情報が付加された動画を受信する。ここで提示時刻情報とは、動画を提示するタイミングを指示するための制御情報である。提示時刻情報を、プレゼンテーションタイムあるいはタイムコードとも呼ぶ。具体的には、動画受信部１１は、放送される動画（音声を含む）を外部から受信する。動画受信部１１は、例えば、テレビ受像機と同様の機能を有しており、放送送出装置から放送信号に載せて送信される動画を受信する。あるいは、動画受信部１１が、放送局等に設けられた放送用の動画を蓄積する設備からファイル転送等の手段によって送信される動画を受信するようにしても良い。

トランスコード部１２は、動画受信部１１が受信した動画のファイルフォーマットやビットレートの変換を行う。また、トランスコード部１２がこれらの変換を行うときに動画の解像度を変換する（例えば、高解像度の動画を、比較的低解像度の動画に変換する）ようにしても良い。

カット点抽出部１３は、動画受信部１１が受信した動画内のカット点を抽出する。具体的には、カット点抽出部１３は、トランスコード部１２から渡される動画の中のカット点を検出し、検出されたカット点の位置情報（例えば、「ＨＨ：ＭＭ：ＳＳ．ｎｎｎ」（時、分、秒、フレーム番号）で表される相対時刻の情報）を代表画像抽出部１４に渡す。なお、カット点を抽出する処理自体は既存技術を用いて行うことができる。例えば、カット点抽出部１３は、時間的に連続する複数のフレーム間の画像変化量が所定の閾値よりも大きい点を、カット点として検出する。

代表画像抽出部１４は、動画受信部１１が受信した動画から提示時刻情報が付加された静止画（動画内のフレーム）を抽出する。なお、代表画像抽出部１４は、カット点抽出部１３が抽出したカット点から前または後に所定の長さの位置の静止画を抽出する。つまり、代表画像抽出部１４は、カット点抽出部１３から受け取ったカット点の情報に基づいて、動画の中から代表画像である静止画を抽出する。代表画像抽出部１４は、原則として、１シーンから２枚の静止画を抽出する。ただし、時間的に短いシーンの場合には、代表画像抽出部１４が１シーンから１枚の静止画のみを抽出する場合もある。代表画像抽出部１４が各シーンから代表画像を抽出するための具体的方法については、後で説明する。

オブジェクト検出部１５は、代表画像抽出部１４が抽出した静止画内に画像として含まれているオブジェクトまたは字幕を検出する。具体的には、オブジェクト検出部１５は、代表画像抽出部１４によって抽出された代表画像（静止画）のそれぞれについて、画像解析処理を行う。そして、オブジェクト検出部１５は、画像内に含まれているオブジェクトを認識するとともに、字幕を検出する。なお、ここでオブジェクト検出部１５が検出する字幕は、画像の一部として含まれている字幕であり、字幕受信部３１が受信する字幕データによる字幕とは別のものである。オブジェクト検出部１５は、対象とする画像について、各オブジェクトに特有の特徴を有するか否かを表す特徴量を計算し、その特徴量の値に基づいてオブジェクトを検出する。ここで、本実施形態において検出対象とするオブジェクトの例は、次の通りである。即ち、紙に印刷された文書をクローズアップして写したもの（このオブジェクトを便宜上、「矩形文書アップ」と呼ぶ）や、ノルマルと呼ばれる画像（このオブジェクトを「ノルマル」と呼ぶ）や、人物一人だけが画像内の主要位置に写っており、且つ文字スーパーが重畳されている状態（このオブジェクトを便宜上、「ワンショットスーパー」と呼ぶ）などが、検出対象のオブジェクトの例である。
なお、これらのオブジェクトの例については、後で図面を用いて説明する。また、オブジェクト検出部１５がそれらのオブジェクト等を検出する方法についても、後で詳述する。

スコア付与部１６は、オブジェクト検出部１５が検出したオブジェクトまたは字幕に応じたスコアを当該オブジェクトまたは当該字幕を含む静止画に付与する。さらに、スコア付与部１６は、キーワード検索部３５によって検出されたキーワードのテキストデータ内の位置に対応する提示時刻情報を用いて、当該提示時刻情報が示す位置から前または後に所定の長さの範囲内の静止画に、当該キーワードに応じたスコアを付与する。より具体的には次の通りである。即ち、スコア付与部１６は、代表画像抽出部１４によって抽出された各画像に対して、スコアを計算して付与する。このとき、スコア付与部１６は、オブジェクト検出部１５によって認識されたオブジェクトおよび検出された字幕に基づいて、予め定めたスコアを付与する。またこのとき、スコア付与部１６は、字幕補正部３４から補正済み（タイムコードの補正済み、欠落字幕の補正済み）の字幕データを受け取る。さらに、スコア付与部１６は、キーワード検索部３５から検索処理の結果得られたキーワードの種類とそのタイミングの情報とを受け取る。ここで、検索処理に用いられるキーワードは字幕データ内の強調表現である。スコア付与部１６は、特定のキーワードが出現するタイミングの近傍の画像（静止画）については、予め定めたスコアを付与する。なお、スコア付与部１６によるスコア付与の詳細については、後で説明する。

ここで、オブジェクト検出部１５が検出する字幕と、字幕受信部３１が受信する字幕データとは、技術的性質が異なるものである。オブジェクト検出部１５が検出する字幕とは、映像（画像）内に含まれている文字の列である。一方、字幕受信部３１が受信して字幕補正部３４からスコア付与部１６に渡される字幕データは、テキストデータである。例えばＭＭＴ（MPEG Media Transport）方式で伝送される放送コンテンツの場合、オブジェクト検出部１５は、映像（ビデオ）アセット内の映像から（つまり、その映像から抽出された静止画から）、字幕を検出する。一方で、字幕受信部３１が受信する字幕は、字幕アセットに含まれて伝送されるものである。

割当処理部１７は、字幕データに付加された提示時刻情報と、静止画に付加された提示時刻情報とに基づいて、字幕データおよび静止画を時刻の順にしたがって配置する。なお、割当処理部１７は、代表画像抽出部１４が抽出した静止画のうち、スコア付与部１６によって付与されたスコアの値が高い静止画を優先して選択して配置する。また、割当処理部１７は、動画を時間方向に複数のブロックに区切り、予め定められたブロックあたりの静止画枚数の範囲内で、ブロックごとにスコアの値が高い前記静止画を優先して選択するようにする。具体的には次の通りである。即ち、割当処理部１７は、代表画像抽出部１４によって抽出された代表画像の中から、サマリーコンテンツの生成に使用するための静止画を選択し、サマリーコンテンツへの割当を行う。このとき、割当処理部１７は、元の動画の時間の長さに応じて、静止画の割当を行う。具体的には、割当処理部１７は、元の動画の単位時間当たりに掲載する静止画の最大枚数および最少枚数に基づいて、静止画を選択し、サマリーコンテンツに割り当てる。また、割当処理部１７は、スコア付与部１６経由で受け取った字幕データに含まれるテキストを、サマリーコンテンツに割り当てる。

提示部１８は、割当処理部１７によって割り当てられた静止画およびテキストで構成されるサマリーコンテンツの案をコンテンツ生成装置１の利用者（例えば、サマリーコンテンツの制作担当者）に対して提示する機能を有する。本実施形態では、サマリーコンテンツはＨＴＭＬで記述されているので、提示部１８は、ＨＴＭＬブラウザーの機能を利用して、サマリーコンテンツを提示する。

編集部１９は、提示部１８によって提示されたサマリーコンテンツを編集する機能を有する。編集部１９は、割当処理部１７によって割り当てられた静止画を他の静止画（代表画像抽出部１４によって抽出された他の画像）に差し替え得たり、あるいは静止画を追加したりまたは削除したり、配置位置の修正を行ったり、テキストを編集したりするための利用者インターフェースを提供する。また、編集部１９は、サマリーコンテンツの見出しを追加するための利用者インターフェースを提供する。この編集部１９の機能を用いることにより、利用者（サマリーコンテンツの制作担当者）は、最終的なサマリーコンテンツを仕上げることができる。なお、編集部１９が提供する利用者インターフェースの例について、図を用いて後で説明する。

承認部２０は、編集部１９によって編集済みのサマリーコンテンツをコンテンツ生成装置１の利用者（例えば、サマリーコンテンツの承認者）に提示するとともに、その承認を受け付ける機能を有する。この承認部２０が設けられているのは、制作担当者が制作したサマリーコンテンツを承認者が承認して初めて公開されるという業務フローを前提としているためである。コンテンツ生成装置１は、コンテンツのステイタスを管理する。ステイタスとは、「編集中」、「編集完了」、「承認済み」、「差し戻し」などといった状態のいずれかである。そして、業務フローとしては、承認部２０において承認済みのサマリーコンテンツのみが、次の最終出力部２１に渡される。

最終出力部２１は、最終的な承認処理済みのサマリーコンテンツを公開するために外部に出力する。最終出力部２１から出力されるサマリーコンテンツは、例えば、外部のウェブサーバー装置に渡される。そのウェブサーバー装置は、インターネット等を介してサマリーコンテンツを視聴者らに向けて提供する。

字幕受信部３１は、提示時刻情報が付加された字幕データ（テキストデータ）を受信する。字幕データに付加される提示時刻情報は、動画に付加される提示時刻情報と同様のものである。具体的には、字幕受信部３１は、動画受信部１１が受信する動画に対応する字幕データを外部から受信する。字幕データは、字幕用のテキストデータを含んでおり、放送されたトランスポートストリーム（ＴＳ）から抽出される。あるいは、字幕受信部３１が、放送局等に設けられた放送用の字幕データを蓄積する設備から、ファイル転送等の手段によって送信される字幕データを受信するようにしても良い。なお、字幕受信部３１が受信する字幕データには、プレゼンテーションタイム（提示時刻）の情報が付加されている。このプレゼンテーションタイムの情報によって、字幕を提示すべきタイミングと、動画に含まれるフレームとが対応付けられている。プレゼンテーションタイムの情報は、字幕の切り替えのタイミングごとに付与されるものであり、例えば「ＨＨ：ＭＭ：ＳＳ．ｍｍｍ」（時、分、秒、千分の一秒）あるいは「ＨＨ：ＭＭ：ＳＳ．ｎｎｎ」（時、分、秒、フレーム番号）などの形式で表される。字幕受信部３１は、受信した字幕データを比較部３３に渡す。

音声認識部３２は、動画受信部１１が受信した動画に含まれる音声について音声認識処理を行うことによって、提示時刻情報が付加された音声認識結果を出力する。なお、音声認識部３２が音声認識結果に付加する提示時刻情報は、元の音声に付加されている提示時刻情報に基づくものである。具体的には、音声認識部３２は、トランスコード部１２から渡される動画に含まれる音声を入力として、音声認識処理を行う。トランスコード部１２から渡される動画のデータには、音声のプレゼンテーションタイムの情報も含まれている。音声認識部３２は、音声の提示タイミングと関連付ける形で、認識結果のテキスト（文字列）を比較部３３に渡す。音声のプレゼンテーションタイムの情報は、上記の字幕のプレゼンテーションタイムの情報と同様の形式で表されている。

比較部３３は、字幕データと音声認識結果とを比較して一致度の高い部分同士を対応付ける処理を行う。具体的には次の通りである。即ち、比較部３３は、字幕受信部３１が受信した字幕のテキストと、音声認識部３２による音声認識結果のテキストとを比較する。ここで、比較部３３は、字幕データのテキストと音声認識結果のテキストとが完全一致してなくても、一致度の高い部分同士を対応付ける。そして、比較部３３は、その比較結果を字幕補正部３４に渡す。この比較部３３の処理により、字幕データとして受信したテキストと音声認識結果として得られたテキストとの間の不一致や、時間（プレゼンテーションタイム）のずれなどが検出可能である。テキストの不一致が起こる理由は、例えば、動画内における一部の発言（インタビュー映像など）の内容が字幕データにおいては省略されることなどである。また、字幕テキストの提示のタイミングと、動画内での発言のタイミングとは、厳密には一致しないことも多い。特に、生放送におけるいわゆる生字幕のテキストは、出演者の発言あるいはそのリスピーカー（re-speaker）の発言を音声認識することによって生成するため、遅延して表示される度合いが大きい。なお、完全一致しないテキスト同士を比較して、最長一致させるとともに、不一致の部分を検出する処理自体は、既存技術を用いて行うことができる。

字幕補正部３４は、比較部３３の処理による比較結果に基づいて、字幕データを補正する。つまり、字幕補正部３４は、比較部３３による処理の結果に基づいて、字幕データに付加されていた提示時刻情報を、字幕データと一致度の高い部分同士として対応付いた音声認識結果に付加された提示時刻情報を用いて置き換えることにより、提示時刻情報を補正する。また、字幕補正部３４は、比較部３３による処理の結果として字幕データが存在しない箇所で且つ音声認識結果が存在する箇所については、その箇所の音声認識結果を、その箇所の字幕データへの挿入候補のテキストデータとして取り込む。

より具体的には、字幕補正部３４は、字幕データに付与されているタイムコード（ＴＣ。上記のプレゼンテーションタイム。）を、音声認識結果に基づくタイムコードに付け替える。また、字幕補正部３４は、字幕データに含まれない発言に相当するテキストを、音声認識結果から得て、字幕データに付け加えることができるようにする。なお、音声認識結果によるテキストを実際に字幕データに付加するか否かを、利用者による確認操作に基づいて決定するようにしても良い。字幕補正部３４は、補正後の字幕データをスコア付与部１６に渡す。なお、字幕補正部３４による補正処理の結果データの実例について、後で説明する。
上記のような字幕補正部３４の処理により、生成するサマリーコンテンツにおいて、テキストと静止画との時間的同期をより完全なものとすることができるため、利用者による編集作業（修正作業）等の手間を軽減することが可能となる。

キーワード検索部３５は、予め定めたキーワードを用いて字幕受信部３１が受信した字幕データ（テキストデータ）を検索する。なお、キーワード検索部３５は、字幕補正部３４において補正済みの字幕データを検索し、重要性の高いキーワードが含まれている箇所を検出する。特定のキーワードの出現タイミングと時間的に近い位置に重要な静止画が出現する可能性が高いため、キーワード検索部３５はそのようなキーワードを探す。検索対象とするキーワードは、予め与えられ、記憶しておく。検索のキーワードとしては、例えば「ついに」あるいは「とうとう」などといった語が用いられる。なお、このようなキーワードが番組内で用いられるタイミングに近い箇所に重要な（つまり、サマリーコンテンツの一部として使用する価値の高い）画像が含まれている可能性が高い。なお、番組ごとに言い回しの特徴がある場合には、番組ごとに特有のキーワードを検索対象とするようにしても良い。キーワード検索部３５は、検索処理の結果得られたキーワードの種類とそのタイミングの情報とを、スコア付与部１６に渡す。この情報は、静止画を選択する際に重み付けのための要素の一つとして用いられる。

図２は、コンテンツ生成装置１を含んだ、放送事業者のシステムの構成の概略を表すブロック図である。同図に示すように、本システムは、コンテンツ生成装置１と、ファイルベース送出システム１００と、原盤ファイル制作システム１０１と、生字幕抽出サーバー装置１０２と、端末装置２０１，２０２と、公開用ウェブサーバー装置３０１と、を含んで構成される。

ファイルベース送出システム１００は、動画（音声を含む）や字幕を含んだ放送番組を送出するためのシステム（装置群）である。ファイルベース送出システム１００は、それらの動画や字幕を含んだ放送番組のデータを、下記の原盤ファイル制作システム１０１経由で、コンテンツ生成装置１に転送する。
原盤ファイル制作システム１０１は、編集済みで放送できる状態のコンテンツを制作するためのシステム（装置群）である。原盤ファイル制作システム１０１は、放送前に、ファイルベース送出システム１００より番組の動画および字幕を取得する。あるいは、原盤ファイル制作システム１０１は、放送される番組動画を、自身の持つ同時録画機能により取得する。また、原盤ファイル制作システム１０１は、動画（音声を含む）のファイルおよび字幕データのファイルを、コンテンツ生成装置１に転送する。コンテンツ生成装置１内における、動画受信部１１および字幕受信部３１が、それぞれ、動画のファイルおよび字幕データのファイルを受信する。
生字幕抽出サーバー装置１０２は、ニュースなどの生番組の場合に番組進行に合わせて制作されるいわゆる生字幕を、放送字幕のトランスポートストリーム（ＴＳ）から抽出し、コンテンツ生成装置１に供給する。

端末装置２０１および２０２は、それぞれ、コンテンツ生成装置１を利用者側から閲覧・操作するためのものである。端末装置２０１はサマリーコンテンツの制作担当者用であり、端末装置２０２はサマリーコンテンツの承認者用である。端末装置２０１および２０２は、それぞれ、サマリーコンテンツをダウンロードして、画面に表示させたり編集したりすることができる。承認者用の端末装置２０２は、承認者の操作に基づいて、最終的なサマリーコンテンツを承認済みとするよう、コンテンツ生成装置１に要求する。

公開用ウェブサーバー装置３０１は、コンテンツ生成装置によって最終的に制作されたサマリーコンテンツを一般向けに公開するためのものである。承認者によって承認済みのサマリーコンテンツはコンテンツ生成装置１から出力され、最終的に公開用ウェブサーバーに登録される。そして、公開用ウェブサーバー装置３０１は、そのサマリーコンテンツをウェブで公開する。なお、公開用ウェブサーバー装置３０１は、インターネット（不図示）経由で、放送視聴者等が使用する数多くの端末装置（不図示）に対して、公開用のサマリーコンテンツを送信する。それらの端末装置は、ウェブブラウザーの機能を備えており、公開用ウェブサーバー装置３０１から送られるサマリーコンテンツを、画面に表示することができる。

コンテンツ生成装置１の構成および機能概略については、図１を参照しながら説明した通りである。図２に示した各装置間では、通信によりデータのやり取りを行えるようにする。なお、コンテンツ生成装置１を、いわゆるクラウドサーバー上の機能として実現しても良い。この場合、コンテンツ生成装置１を、構成する機能を、クラウドサーバー（群）上に搭載する。そして、コンテンツ生成装置１から、インターネット等の通信手段を介して、原盤ファイル制作システム１０１や、生字幕抽出サーバー装置１０２や、端末装置２０１および２０２や、公開用ウェブサーバー装置３０１との間で通信可能となるようにする。ただし、原盤ファイル制作システム１０１からコンテンツ生成装置１に動画等のファイルを転送するためには、これらの装置間に広帯域かつ安全性の高い専用通信回線を設けても良い。

次に、コンテンツ生成装置１が備える各機能のより詳細な技術事項について、順次説明していく。

図３は、代表画像抽出部１４が各シーンの代表画像を抽出するための方法を示す概略図である。同図は、動画のストリームにおけるカット点および抽出する代表画像の点を示している。動画のストリームは、フレームの連続であり、例えば、１秒あたり３０フレームのフレームレートである（３０フレーム毎秒，３０ｆｐｓ）。図に示すＡ点，Ｂ点，Ｃ点は、それぞれ、カット点抽出部１３によって抽出されたカット点である。カット点Ａのフレームは第１００フレーム（ｆ）である。また、カット点Ｂは第４００フレームであり、カット点は第１０００フレームである。

例えば、代表画像抽出部１４は、カット点から次のカット点までの長さが充分にある場合には、カット点（ｉｎ点）から９０フレーム後のフレームと、次のカット点（ｏｕｔ点）の６０フレーム前のフレームとを、代表画像として抽出する。ここで、カット点から次のカット点までの長さが充分にあるか否かは、その長さ（フレーム数）が所定の閾値（例えば、２４０フレーム）よりも長いか否かにより判断する。カット点から次のカット点までの長さがこの閾値以下である場合には、ｉｎ点近傍のフレームを代表画像として抽出せず、ｏｕｔ点の６０フレーム前のフレームのみを代表画像として抽出する。これは、カット点からカット点までの長さが短い場合には、ｉｎ点近傍とｏｕｔ点近傍の画像とが互いに似ているケースが多いためである。

図３に示している例では、Ａ点からＢ点までの長さも、Ｂ点からＣ点までの長さも、ともに閾値の長さより長い。したがって、代表画像抽出部１４は、次のフレーム（静止画）を、代表画像として抽出する。即ち、Ａ点の９０フレーム後のＡ２点（第１９０フレーム）と、Ｂ点の６０フレーム前のＢ１点（第３４０フレーム）と、Ｂ点の９０フレーム後のＢ２点（第４９０フレーム）と、Ｃ点の６０フレーム前のＣ１点（第９４０フレーム）が抽出される。なおここでは、カット点であるＡ点，Ｂ点，Ｃ点の近傍のみについて述べたが、その前後のカット点においても同様である。

このように、代表画像抽出部１４がカット点の近傍（例えば、カット点の６０フレーム前と９０フレーム後）を代表画像として抽出するのは、次の理由による。つまり、放送番組の演出の特徴として、カット点の近傍に重要な画像が存在する可能性が高いためである。より具体的に言うと、「ワンショット」にスーパーが重畳されるという重要な画像は、カット点から所定フレーム後である確率が高い。また、ＣＧ（コンピューターグラフィクス）による「ノルマル」は、動きのある（ノルマル内の要素が変化する）ものが多いが、ノルマル内のすべての要素が含まれている状態が重要な画像であり、そのようなフレームはカット点の所定フレーム前である確率が高い。
なお、ここで述べたワンショットおよびノルマルについては、後でオブジェクト検出（認識）の処理に関連して詳述する。

次に、オブジェクト検出部１５による処理の詳細について説明する。
図４は、オブジェクト検出部１５が処理の対象とするオブジェクトおよび字幕の例を示す概略図である。同図において、（ａ）は「ノルマル」（ＣＧによるノルマル）オブジェクトの例である。また、（ｂ）は「矩形文書アップ」オブジェクトの例である。また、（ｃ）は、「ワンショットスーパー」オブジェクトの例である。また、（ｄ）は字幕の例である。

図４（ａ）に例示する「ノルマル」は、放送番組等で用いられる映像表現手段の一つであり、図形や文字などを描いた紙またはボードなどをカメラで画面全体に写した（いわゆる「撮り切り」）ものである。また同様の画面をＣＧ（コンピューターグラフィックス）により生成してノルマル映像とする場合もある。これらの「ノルマル」オブジェクトの画像としての特徴は、（１）画素値の一様性の高い領域が画面全体に占める割合が高いことや、（２）画面内のところどころに文字の列が認識されることなどである。

図４（ｂ）に例示する「矩形文書アップ」オブジェクトは、例えば報道関連の番組において、紙の文書の中の一部分をカメラでクローズアップして写して得られるものである。また、「矩形文書アップ」オブジェクトに、その文書内の特定の文字列を強調するような映像効果を施す場合もある。図示している例では、強調すべき文字列の部分以外の領域の明度を落とす処理が施されている。このような「矩形文書アップ」オブジェクトの画像としての特徴は、（１）文書の地の部分の色（典型的には白色であるが、これに限らない）と、文書の文字の部分の色（典型的には黒色であるが、これに限らない）との２色（画素値としては２値）で構成される領域が、画面全体の中で所定の割合を占めること、そして（２）そのような領域内で文字の列が認識されることなどである。

図４（ｃ）に例示する「ワンショットスーパー」オブジェクトは、画面の主要位置（通常は、横方向における中央付近で、且つ縦方向における上から下までをほぼ占める位置）に一人（のみ）の人物が写り、さらにその人物の氏名や肩書などがスーパーとして併せて表示されている状態である。この「ワンショットスーパー」オブジェクトの画像としての特徴は、（１）前述の画像内の主要位置に、所定の大きさ以上の人の顔が認識されること、（２）その主要位置において認識される顔の数が１個だけであること、そして、（３）その顔の近傍に文字列が認識されておりその文字列は人名や人の肩書名などを含むことである。

図４（ｄ）に例示する画像は、字幕を含んでいるものである。オブジェクト検出部１５は、画像領域全体に占める字幕領域の割合を計算し、あらかじめ設定した閾値との比較を行うことにより、字幕を検出する。
ここでは、（ａ）から（ｃ）までの３種類のオブジェクトと、（ｄ）の字幕の例について説明した。なお、ここに挙げていない他のオブジェクトについても、その特徴に基づいて、オブジェクト検出部１５が画像から検出できるようにしておく。

オブジェクト検出部１５は、対象の各画像に関して、上記の各オブジェクトの特徴を数値的な量として計算し、その特徴量が所定の範囲の値であるか否か（典型的には、その特徴量が所定の閾値以上であるか否か）を判定することにより、各オブジェクトを検出する。また、オブジェクト検出部１５は、対象の画像内の文字を認識することにより、画像として組み込まれた字幕を検出する。
なお、ここに述べたオブジェクト検出部１５の処理過程の中の、オブジェクト認識や字幕検出の処理自体は、既存の技術を利用して行うことができるものである。

また、オブジェクト検出部１５が［特許文献：特許第５５０３５０７号公報］に記載された技術を用いて文字領域を検出するようにしても良い。その技術とは、要するに、入力画像に含まれる文字の領域である文字領域を、当該入力画像から検出する文字領域検出装置であって、前記入力画像が入力されると共に、当該入力画像を、当該入力画像より解像度が低い１以上の低解像度画像に変換する解像度変換手段と、前記解像度変換手段によって変換された低解像度画像および前記入力画像をそれぞれ、同じ大きさの走査窓で走査することによって、前記入力画像および前記低解像度画像ごとに、前記走査窓の領域に対応した走査窓領域画像を生成する走査手段と、前記入力画像および前記低解像度画像ごとに、前記走査手段によって生成された走査窓領域画像の特徴ベクトルを算出する画像特徴ベクトル算出手段と、前記入力画像および前記低解像度画像ごとに、前記画像特徴ベクトル算出手段によって算出された走査窓領域画像の特徴ベクトルに基づいて、当該走査窓領域画像が文字候補領域であるか否かを機械学習によって判定する文字候補領域判定手段と、前記入力画像および前記低解像度画像ごとに、前記文字候補領域判定手段によって判定された文字候補領域が互いに重なる回数を算出し、算出した当該重なる回数が予め設定された第１閾値以上となる文字候補領域を文字検出領域として判定する文字検出領域判定手段と、前記文字検出領域判定手段によって判定された低解像度画像ごとの文字検出領域を、当該文字検出領域に対応する低解像度画像が前記入力画像と同じ解像度になる拡大率で拡大する拡大手段と、前記拡大手段によって拡大された低解像度画像ごとの文字検出領域と、前記入力画像の文字検出領域との何れか１以上が重なるか否かを判定し、互いに重なると判定された文字検出領域のうち、前記入力画像または前記解像度が最大の低解像度画像に対応する文字検出領域である基準文字検出領域に対して、他の文字検出領域が重なる割合を算出すると共に、算出した当該重なる割合が予め設定された第２閾値以上の場合、前記基準文字検出領域のみを前記文字領域として出力する文字領域出力手段と、
を備えることを特徴とする文字領域検出装置の技術である。

なお、「ワンショットスーパー」オブジェクトに関して、オブジェクト検出部１５が、静止画像に写っている人物を特定し、予め記憶しておいた人物リストとの照合を行うようにしても良い。オブジェクト検出部１５が人物を特定する方法としては、画像に基づいて顔認識の処理を行ったり、スーパー部分に表示されている人名等の文字列の文字認識の処理を行ったり、それら両者を併用したりする。なおこれにより、オブジェクト検出部１５によって特定された人物が前記人物リストに含まれている場合に、コンテンツ生成装置１が当該静止画像をサマリーオブジェクトには使用しないように制御することができる。また、逆に、オブジェクト検出部１５によって特定された人物が前記人物リストに含まれている場合に、コンテンツ生成装置１が当該静止画像をサマリーオブジェクトに使用する優先度を上げるように制御することもできる。

次に、スコア付与部１６による処理の詳細について説明する。
スコア付与部１６は、オブジェクト検出部１５によって検出されたオブジェクトや字幕に基づいて、静止画にスコアを付与する。具体的には、スコア付与部１６は、「矩形文書アップ」、「ノルマル」、「ワンショットスーパー」の各オブジェクトを含む静止画には、それぞれスコアを加点する。静止画が各オブジェクトを含むか否かは、各オブジェクトに対応する特徴量が各オブジェクトに固有の閾値を超えたか否かによって判定される。また、スコア付与部１６は、字幕が検出された静止画にも、スコアを加点する。字幕検出に関しても、字幕の特徴量が所定の閾値を超えたか否かによる判定が行われる。

スコア付与部１６が付与するスコアの例は次の通りである。即ち、「矩形文書アップ」オブジェクトを含む静止画には２０点を付与する。また、「ノルマル」オブジェクトを含む静止画には５０点を付与する。また、「ワンショットスーパー」オブジェクトを含む静止画には２０点を付与する。また、字幕を含む静止画には４０点を付与する。
なお、スコア付与部１６が、１枚の静止画に異なるタイプのオブジェクト等による複数のスコアを付与しても良い。また、ここに例示したスコアの値を適宜変更しても良い。また、スコア付与部１６が番組ごとに異なるスコア値を付与するようにしても良い。

また、スコア付与部１６は、字幕補正部３４およびキーワード検索部３５から受け取る情報にも基づいて、静止画にスコアを加点する。
図５は、字幕データから抽出される特定の強調キーワードによってスコア付与部１６がスコアを加点する方法を示した概略図である。同図（ａ）は、コンテンツ生成装置１が記憶するキーワードリストのデータ構成を示す。また、同図（ｂ）は、キーワードの検索結果と静止画へのスコアの加点との関連を示す。

図５（ａ）に示すように、コンテンツ生成装置１はキーワードリストのデータを記憶する。スコア付与部１６およびキーワード検索部３５が、このキーワードリストにアクセス可能である。キーワードリストのデータは、予め準備しておく。なお、放送番組ごとに固有のキーワードリストを用いるようにしても良い。これは、番組に特有の強調表現が存在し得るためである。図示する例では、キーワードリスト内の１レコードは、強調キーワードとして「ついに」を記憶し、その強調範囲時間として「前後５秒以内」を表すデータを記憶する。キーワードリストはこのようなレコードを複数件、記憶することができる。

図５（ｂ）においては、横方向が時間軸であり、左側が放送番組における前の方（時間的に早い側）であり、右側が後の方（時間的に遅い側）である。既に述べたように、字幕データと映像とは、ともにプレゼンテーションタイムのデータを持っているため、これら両者はプレゼンテーションタイムを介して対応付けられている。図示する例では、字幕データは、その一部として「パワードスーツがついに完成」という文字列を含んでいる。また、映像は、カット点Ｄ，Ｅ，Ｆを含んでいる。そして、これらのカット点Ｄ，Ｅ，Ｆに対応して、代表画像抽出部１４は既に、点Ｄ２，Ｅ１，Ｅ２，Ｆ１における静止画を代用画像として抽出済みである。ここで、キーワード検索部３５は、キーワードリストに含まれるキーワードの一つである「ついに」を用いて字幕データを検索した結果として、この「ついに」が含まれている箇所を特定している。そして、字幕データにおけるそのキーワードの種類と検出されたタイミングの情報は、キーワード検索部３５からスコア付与部１６に渡される。スコア付与部１６は、キーワードリストの強調範囲時間を参照することによって、文字列「ついに」が現れるポイントから前後それぞれ５秒以内の範囲内に代表画像が含まれている場合には、その代表画像にスコアを加点する。

つまり、スコア付与部１６は、字幕データ内において予め定められたキーワードが出現するタイミングの近傍の静止画に関して、所定のスコアを加点する。ここで、「近傍」とはキーワード出現のポイントを基準として定められる時間範囲内である。上述した例では「前後５秒以内」の範囲内を近傍としたが、この時間の長さは異なっていても良い。また、キーワード出現のポイントン前と後とで、異なる長さの時間内を近傍として、スコアを加点するようにしても良い。

次に、割当処理部１７による画像選択の処理の詳細について説明する。
図６は、割当処理部１７による画像選択（割り当て）の方法を示した概略図である。同図（ａ）は、各代表画像に対応する代表画像情報の構成を示す。また、同図（ｂ）は、選択する画像の枚数に関する選択枚数情報の構成を示す。また、同図（ｃ）は、代表画像情報に基づくブロックごとの画像選択の方法を説明するための図である。

前述のスコア付与部１６の処理により各代表画像には、既にスコアが付与されている。なお、画像によってはスコア値が０（ゼロ）の場合もある。
図６（ａ）に示すように、代表画像情報は、フレーム番号とスコア値の情報を含んで構成される。フレーム番号は、番組内におけるフレームの通番である。代表画像情報の各レコードが、１枚の代表画像に対応する。図示する例では、フレーム番号は１０００であり、スコア値は１０である。なお、代表画像情報は、コンテンツ生成装置１の記憶装置内に記憶されており、スコア付与部１６や割当処理部１７など、必要な機能部からアクセス可能となっている。
図６（ｂ）に示す選択枚数情報は、サマリーコンテンツ用に選択する静止画の枚数を規定する情報である。図示するように、選択枚数情報は、番組内のブロックごとの枚数に関する枚数情報と、番組全体に関する枚数情報とを含む。具体的には、選択枚数情報は、各ブロックの最低枚数、各ブロックの最大枚数、番組ごとの最大枚数の、各データ項目を含んでいる。図示する例では、各ブロックの最低枚数は１であり、各ブロックの最大枚数は２であり、番組ごとの最大枚数は５である。なお、選択枚数情報は、予め適切に設定されている。また、選択枚数情報は、コンテンツ生成装置１の記憶装置内に記憶されており、割当処理部１７など、必要な機能部からアクセス可能となっている。

次に図６（ｃ）を参照しながら、画像の選択方法について説明する。
割当処理部１７は、まず、代表画像抽出部１４によって抽出されたすべての代表画像を、ブロックごとに分類する。ブロックは、映像（放送番組）を所定の長さの時間で分割した単位である。同図においては、例として、第１ブロックから第４ブロックまでを示している。そして、割当処理部１７は、各ブロックに属する代表画像情報をソートする。このとき、第１ソートキーはスコア（降順）であり、第２ソートキーはフレーム番号（昇順）である。ソート処理の際に、第１ソートキーは第２ソートキーよりも優先される。つまり、割当処理部１７は、あるブロック内にスコアの異なる代表画像情報がある場合、よりスコアの高い代表画像情報を上に並べる。また、割当処理部１７は、あるブロック内にスコア値が同一である複数の代表画像情報がある場合、それらの代表画像情報に関してはよりフレーム番号の小さい（つまり時間的に早い）代表画像情報を上に並べる。図示している例は、代表画像情報をブロックごとに分類し、且つ各ブロック内で上記のソート処理を行った結果の状態である。このソート処理の結果は、ブロック内で画像を選択する際の優先度を表す。つまり、割当処理部１７は、ソート結果として上に並べられた画像ほど、優先して選択する。

そして、割当処理部１７は、選択枚数情報に基づいて、ソート済みの代表画像情報を参照しながら、画像を選択していく。つまり、割当処理部１７は、下記の（１）から（３）までのルールにしたがって画像を選択する。なお、各画像のスコア値は、０または正の値である。

ルール（１）：各ブロックで少なくとも「最低枚数」として規定された枚数の静止画像を、優先度の高い順に選択する。
ルール（２）：ただし、ルール（１）に関わらず、スコア値が０である画像を選択しない。つまり、あるブロック内においてスコア値が非零である画像の枚数が「最低枚数」として規定された枚数に満たない場合には、スコア値が非零である画像のみを選択する。その結果として当該ブロックにおいては、選択される画像の枚数が「最低枚数」を下回っても良い。
ルール（３）：上記のルール（１）および（２）に従いながら、「番組ごとの最大枚数」として規定された枚数に達するまで、番組全体での優先度（スコア（第１ソートキー）およびフレーム番号（第２ソートキー））が高い順に、画像を選択していく。ただしこのとき、一つのブロックから「各ブロックの最大枚数」として規定される枚数を超える見数の画像が選択されることはない。つまり、「各ブロックの最大枚数」に達したブロックに関しては、たとえ優先度の高い画像が含まれていても、その最大枚数を超える枚数の画像は選択されない。

以上の処理により、割当処理部１７は、サマリーコンテンツとして必要な枚数の代表画像を割り当てる。また、割当処理部１７は、字幕データのテキストのうち、割り当てられた代表画像のタイミングを含む一文、あるいはその文とその前後の複数の文とを抽出し、サマリーコンテンツ用のテキストとして割り当てる。このとき、割当処理部１７は、（ａ）字幕データと音声認識の両方に含まれており両者が一致する箇所、（ｂ）字幕データには含まれておらず音声認識によって追加された箇所、（ｃ）字幕データには含まれているが音声認識結果に含まれていなかった箇所、それぞれのテキストを区別できる形で提示部１８に渡す。

提示部１８は、割当処理部１７によって割り当てられた代表画像（静止画）と、各代表画像に対応するテキスト（字幕データや音声認識結果から得られたテキスト）とを対応付ける形でレイアウトし、端末装置の画面等を通して利用者に提示する。一例として、提示部１８は、これらの静止画とテキストとを、ＨＴＭＬ（ハイパーテキストマークアップ言語）の記述によって配置し、そのＨＴＭＬ文書をサマリーコンテンツの案として出力する。提示部１８等による利用者インターフェースについては、次に述べる。

次に、提示部１８および編集部１９の機能に関する利用者インターフェースについて説明する。
図７は、コンテンツ生成装置１（特に、提示部１８および編集部１９）によって表示される画面を示す概略図である。図示する画面は、例えば、端末装置２０１（図２）上でのウィンドウシステムにおける一つの窓として表示されるものである。同図において、符号１０１は、サマリーコンテンツを表示する領域である。１０２は、すべての代表画像を表示する領域である。１０３は、ダウンロードを指示するためのボタン（マウス等のポインティング手段によって疑似的に押下されるボタン）である。１０４は、動画のダウンロードを指示するためのボタンである。
この画面を通した操作により、サマリーコンテンツの提示、テキスト編集、画像の追加および削除、レイアウト変更、試写、公開のためのコンテンツ出力、ステイタス管理、公開用動画ダウンロードといった作業を行うことができるようになっている。

領域１０１に表示されるサマリーコンテンツは、割当処理部１７が自動的に割り当てて提示部１８が提示したサマリーコンテンツの案、または編集部１９の機能によって編集した結果であるサマリーコンテンツの案である。利用者（例えば、サマリーコンテンツの制作担当者）は、編集部１９の機能を用いてこの領域内で編集操作をすることにより、サマリーコンテンツを編集することができる。

領域１０１内に表示されているテキストは、前述の通り、割当処理部１７によって割り当てられたものである。テキストのうち、音声認識結果には含まれていたが元々の字幕データ内には存在しなかった箇所には、そのことを示すマークが付けられている。利用者（例えば、サマリーコンテンツの制作担当者）が、領域１０１内に表示されている静止画を選択すると、コンテンツ生成装置１は、その静止画のタイミングの近傍の音声を再生する。これにより、利用者が、音声を確認することができるようになっている。そして、利用者は、その音声を確認しながらテキストの追記・削除・修正などといった操作を行えるようになっている。

領域１０２には、代表画像抽出部１４によって抽出された静止画像が、ブロックごとに分類されて小さく表示されている。領域１０２内の各段が、各ブロックに対応する。また、各ブロックの開始時刻（番組開始からの相対時刻）が、「ＨＨ：ＭＭ：ＳＳ」形式で表示されている（例えば、「００：０５：３０」）。また、各画像の下には、その画像の時刻が表示されている。領域１０２に表示されている静止画は、サマリーコンテンツに用いる静止画の候補である。例えば、利用者が特定の静止画にカーソルを合わせてマウスのダブルクリックをするなどといった操作を行うと、編集部１９はその静止画をサマリーコンテンツ内に自動的に組み込む（挿入する）処理を行う。

領域１０２の上には、領域１０２に表示させる内容を変更するためのタブが表示されている。タブとしては、「代表」と「全件」の２種類のタブが存在する。通常の状態においては、「代表」タブが選択されており、この状態においては領域１０２には上述の通り代表画像が表示される。利用者の操作によって「全件」タブが選択されると、領域１０２の表示内容が全件静止画表示に切り替わる。この全件静止画表示の状態においては、領域１０１において現在選択されている静止画を中心として、その前後の時間の全件静止画（つまり、領域１０２内に収まる限りの全フレームの静止画）が表示される。なお、この全件静止画の表示においては静止画の表示間隔を変えることもできる。表示間隔を１フレームごととした場合には、全ての静止画が表示される。利用者は、この全件静止画表示の中から、サマリーコンテンツとして使用する静止画を選択し、領域１０１内の静止画を差し替える操作をすることができるようになっている。また、領域１０１の静止画を選択し、全件静止画タブに含まれる「選択中の画像を表示」ボタンを押下することにより、素早く着目した静止画の前後フレームを表示することができる。これらの機能により、例えば、代表画像抽出部１４によって自動的に抽出された静止画が「目つぶり」などのためにサマリーコンテンツ用には不適切な場合も、上記の操作によって素早く前後のフレームの画像と入れ替えることが可能となる。

ボタン１０３は、画像を含むサマリーコンテンツおよび代表画像の一式をダウンロードする指示のためのボタンである。また、ボタン１０４は、公開用の動画をダウンロードする指示のためのボタンである。

図８は、コンテンツ生成装置１（特に、提示部１８および編集部１９）によって表示される画面を示す概略図であり、特に、字幕データに含まれない音声認識結果が存在する場合の画面表示例を示す。
字幕受信部３１が受信した字幕データと、音声認識部３２が出力した音声認識結果とを、比較部３３が比較することは既に述べたとおりである。そして、字幕補正部３４がそれら両者の差に基づく補正を行うことも既に述べたとおりである。図８に示す画面は、図７における領域１０１の中の一部である。字幕受信部３１が受信した字幕データには含まれていないが、音声認識結果には含まれている文字列がある場合、コンテンツ生成装置１は、図８内に存在する（矢印で指し示している）「音声認識あり」という文字列を表示する。なお、この「音声認識あり」という表示をマウスによってクリックすることができるようにして、利用者がクリック操作を行うと、コンテンツ生成装置１が、両者の差分である音声認識結果の文字列を表示するようにしても良い。これらにより、利用者は、音声認識結果を参考として、サマリーコンテンツのテキストの編集作業を行うことができる。

なお、ここに例示した形態の利用者インターフェース以外でも、字幕データと音声認識結果の差分を認識して、その差分を考慮しながらテキストを編集でききるような利用者インターフェースを、コンテンツ生成装置１が提供するようにしても良い。

次に、字幕補正部３４による補正処理の詳細について、説明する。字幕補正部３４は、比較部３３から比較処理の結果を受け取る。この比較処理により、既に、字幕データと音声認識結果との間での対応付けが済んでいる。字幕補正部３４が行う処理の第１は、タイムコードの補正である。具体的には、字幕補正部３４は、字幕データに付与されているタイムコードを、音声認識結果に基づくタイムコードに付け替えることにより、タイムコードの補正を行う。一般に、字幕データのタイムコードよりも、音声認識結果のタイムコードのほうが、映像とよく整合している。したがって、このような補正を行うことにより、映像（および映像から抽出された代表画像）と字幕データのテキストとの間の対応付けの精度が上がる。また、字幕補正部３４が行う処理の第２は、音声認識結果に含まれているテキストであって、字幕データへの対応付けが行われていない（つまり、字幕データが欠落している）箇所について、字幕データ内の適切な位置への挿入を行う。字幕補正部３４は、挿入されるテキストにも、音声認識結果のタイムコードを付加する。
なお、字幕補正部３４は、字幕データに基づくテキストと、音声認識結果に基づくテキストとを、区別できる形式のデータを出力する。そのデータ形式については、次に説明する。

図９は、字幕補正部３４が補正処理の後で出力するデータの例を示す概略図である。図示するように、字幕補正部３４が出力するデータは、ＸＭＬ（Extensible Markup Language）形式である。同図では、便宜上、各行に番号を付している。図示するデータにおいて、ＳＥＴ要素（セット）は、テキストのひとまとまりの単位に対応する。例示するデータは、３つのＳＥＴ要素を含む。第１のＳＥＴ要素は、第１行から第６行までである。第２のＳＥＴ要素は、第７行から第１２行までである。第３のＳＥＴ要素は、第１３行から第１８行までである。

各ＳＥＴ要素は、タイムコード情報と、音声認識結果情報と、字幕データ情報とを含んでいる。タイムコード情報は、ＳＴＡＲＴ要素とＥＮＤ要素とで構成される。ＳＴＡＲＴ要素は、そのＳＥＴ要素の開始時刻（番組開示時を０とする相対時刻）を秒単位で表す数値データを含む。ＥＮＤ要素は、そのＳＥＴ要素の終了時刻を秒単位で表す数値データを含む。なお、開始時刻および終了時刻の数値データは、小数点第３位まで表されている。例えば、第１のＳＥＴ要素に関して、ＳＴＡＲＴ要素は第２行のデータ（数値は「３８７．６５０」）であり、ＥＮＤ要素は第３行のデータ（数値は「３９１．８８０」）である。このタイムコード情報は、元々、映像（音声を含む）のプレゼンテーションタイムに基づくものである。字幕補正部３４が出力するタイムコード情報は、字幕データと音声認識結果データとの間の補正処理済みのものである。音声認識結果情報は、ＲＥＣ要素で表されており、そのＳＥＴ要素に含まれる、音声認識結果のテキストを保持している。字幕データ情報は、ＣＡＰ要素で表されており、そのＳＥＴ要素に含まれる字幕データのテキストを保持している。

既に述べたように、音声認識結果情報（ＲＥＣ要素）に対応する字幕データ情報（ＣＡＰ要素）が存在しない場合がある。このような場合、字幕データ情報は、空（ヌル）テキストを保持する。例えば、図示している第２のＳＥＴ要素においては、ＲＥＣ要素（第１０行）が「やっぱり査察になります」というテキストを保持しているのに対して、ＣＡＰ要素（第１１行）が保持しているものは空テキストである。つまり、この第２のＳＥＴ要素に関しては、元々字幕データが存在していなかったが、字幕補正部３４の処理によって、音声認識結果のテキストが挿入されたことにより、このような形となっている。なお、第１のＳＥＴ要素および第３のＳＥＴ要素において、音声認識結果のテキストと字幕データのテキストとは互いに完全には一致していない。しかし、比較部３３の処理により、最も類似している箇所同士が対応付けられた結果が、第１および第３のＳＥＴ要素である。

本実施形態によれば、コンテンツ生成装置は、映像のカット点の位置に基づいて、サマリーコンテンツに適した静止画を自動的に抽出する。また、コンテンツ生成装置は、抽出された静止画に関連するテキストを字幕データから抽出する。また、コンテンツ生成装置は、制作担当者がサマリーコンテンツを素早く修正するための利用者インターフェースを提供する。また、コンテンツ生成装置は、音声認識結果に基づいて、字幕データに正確なタイムコードを付与するための補正処理を行う。また、コンテンツ生成装置は、音声認識結果を用いて、字幕データに含まれない箇所（例えばインタビュー映像等）に対応するテキストを自動的に挿入する。また、コンテンツ生成装置は、抽出された代表画像を置換するための、全件画像を表示し、利用者が簡単な操作で静止画の差し替えを行えるようにする。また、コンテンツ生成装置は、制作担当者が制作したサマリーコンテンツを、試写、承認、公開するまでの業務プロセスに応じた一気通貫の機能を提供する。これらにより、効率的にサマリーコンテンツを制作することが可能となる。

つまり、本実施形態によれば、次の効果が得られる。第１に、ホームページ制作や画像編集などに関する専門的知識がなくても、利用者は、自動生成されたサマリーコンテンツの案に基づいて効率的に制作を進めることができる。第２に、制作過程において、静止画選定、画像加工、時間軸方向の静止画並べ替え処理などといった様々な作業を手作業で行う場合に比べて、大幅な省力化することができる。第３に、生字幕からもサマリーコンテンツの案を自動生成することができる。これは、音声認識処理の結果に基づいて、字幕データのタイムコードを補正していることにも依る。第４に、字幕に含まれないインタビュー等が含まれている可能性がある箇所を運用者に示すことで課題となっている書き起こしが容易に行える。これは、字幕データと音声認識処理の結果とを比較して、字幕データが存在しない箇所のテキストを自動的に挿入することによる。

従来の方法でサマリーコンテンツを制作していた時には対象とする動画の長さの何杯もの時間の作業を要していた。一方、本実施形態を用いた場合、動画および字幕データを取得してからコンテンツ生成装置１がサマリーコンテンツの案を提示するまでに要する時間はほぼその動画自体の長さ程度である。つまり、サマリーコンテンツの制作の効率を上げることができる。

なお、上述した実施形態におけるコンテンツ生成装置の全部または一部の機能を、コンピューターで実現するようにしても良い。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

以上、実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。
変形例１：図１に示した機能ブロックのうち、動画受信部１１、字幕受信部３１、代表画像抽出部１４、割当処理部１７のみを用いて、その他の機能ブロックを省略してコンテンツ生成装置を構成しても良い。この構成においても、動画から静止画を自動的に抽出し、動画（および静止画）に付与されたタイムコードと、字幕データに付与されたタイムコードとを用いて、静止画およびテキスト（字幕データに基づくテキスト）とを時刻の順にしたがって配置し、サマリーコンテンツを生成することができる。
変形例２：上記の変形例１の構成に加えて、カット点抽出部１３を備えるようにしても良い。このとき、代表画像抽出部１４は、カット点抽出部１３が抽出したカット点を基準として、所定の位置（時間的に、カット点の前または後）の代表画像を抽出する。つまり、放送番組等の演出として適切なタイミングの代表画像を抽出することができる。

変形例３：上記の変形例１または２の構成に加えて、オブジェクト検出部１５とスコア付与部１６を備えるようにしても良い。スコア付与部１６は、オブジェクト検出部１５が検出するオブジェクトおよび字幕（映像内の字幕）にスコアを付与する。そして、割当処理部１７は、代表画像抽出部１４が抽出した静止画のうち、付与されたスコアの値が高い静止画を優先して選択して配置する。これにより、静止画に含まれるオブジェクト等に基づいて、重要な静止画が優先的に選択される。なお、割当処理部１７は、必ずしもブロックごとの枚数の規定にしたがって静止画を選択するようにしなくても良い。１本の動画（番組等）全体の中からスコアの高い静止画を優先的に選択するようにしても良い。
変形例４：上記の変形例３の構成に加えて、キーワード検索部３５を備えるようにしても良い。そして、スコア付与部１６は、検索処理で検出されたキーワードの位置から前または後に所定の長さの範囲内の静止画に、当該キーワードに応じたスコアをさらに付与する。これにより、字幕データにも基づいて、静止画のスコアを付与さることができるようになる。
変形例５：上記の変形例３または４の構成に加えて、割当処理部１７は、動画を時間方向に複数のブロックに区切り、予め定められたブロックあたりの静止画枚数の範囲内で、ブロックごとにスコアの値が高い静止画を優先して選択するようにしても良い。これにより、動画全体のなかであまり時間的な偏りを生じずに、万遍なく静止画を選択できるようになる。

変形例６：上記の変形例１から５までのいずれかの構成に加えて、音声認識部３２、比較部３３、字幕補正部３４を備えるようにしても良い。これにより、音声認識結果を用いて字幕データのプレゼンテーションタイムを補正することができる。つまり、字幕データの提示時刻情報をより正確にできる。また、提示の遅延とゆらぎの度合いが大きいいわゆる生字幕の場合にも、より正確なタイミング（時間同期）を扱えるようになる。
変形例７：上記の変形例６の構成に加えて、字幕補正部３４が、字幕データが存在しない箇所で且つ音声認識結果が存在する箇所については、当該箇所の音声認識結果を、当該箇所の字幕データへの挿入候補のテキストデータとして取り込むようにしても良い。これにより、字幕データが含まれないについて、利用者に知らせることができ、また音声認識結果をサマリーコンテンツのテキストとして取り込む選択肢を利用者に与えることもできる。

以上、この発明の実施形態およびその変形例について、図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

本発明は、例えば映像コンテンツを配信する事業等に利用できる。そのような事業において、映像コンテンツの内容の概略を把握することのできるサマリーコンテンツを効率的に制作することができる。

１コンテンツ生成装置
１１動画受信部
１２トランスコード部
１３カット点抽出部
１４代表画像抽出部
１５オブジェクト検出部
１６スコア付与部
１７割当処理部
１８提示部
１９編集部
２０承認部
２１最終出力部
３１字幕受信部（テキスト受信部）
３２音声認識部
３３比較部
３４字幕補正部（補正部）
３５キーワード検索部
１００ファイルベース送出システム
１０１原盤ファイル制作システム
１０２生字幕抽出サーバー装置
２０１，２０２端末装置
３０１公開用ウェブサーバー装置

Claims

提示時刻情報が付加された動画を受信する動画受信部と、
提示時刻情報が付加されたテキストデータを受信するテキスト受信部と、
前記動画受信部が受信した前記動画から前記提示時刻情報が付加された静止画を抽出する代表画像抽出部と、
前記テキストデータに付加された前記提示時刻情報と、前記静止画に付加された前記提示時刻情報とに基づいて、前記テキストデータおよび前記静止画を時刻の順にしたがって配置する割当処理部と、
前記動画受信部が受信した前記動画に含まれる音声について音声認識処理を行うことによって、前記提示時刻情報が付加された音声認識結果を出力する音声認識部と、
前記テキストデータと前記音声認識結果とを比較して一致度の高い部分同士を対応付ける比較部と、
前記比較部による処理の結果に基づいて、前記テキストデータに付加されていた前記提示時刻情報を、前記テキストデータと一致度の高い部分同士として対応付いた前記音声認識結果に付加された前記提示時刻情報を用いて置き換えることにより、提示時刻情報を補正する補正部と、
を具備することを特徴とするコンテンツ生成装置。
前記動画受信部が受信した前記動画内のカット点を抽出するカット点抽出部、
をさらに具備し、
前記代表画像抽出部は、前記カット点抽出部が抽出した前記カット点から前または後に所定の長さの位置の前記静止画を抽出する、
ことを特徴とする請求項１に記載のコンテンツ生成装置。
前記代表画像抽出部が抽出した前記静止画内に画像として含まれているオブジェクトまたは字幕を検出するオブジェクト検出部と、
前記オブジェクト検出部が検出した前記オブジェクトまたは前記字幕に応じたスコアを当該オブジェクトまたは当該字幕を含む前記静止画に付与するスコア付与部と、
をさらに具備し、
前記割当処理部は、前記代表画像抽出部が抽出した前記静止画のうち、前記スコア付与部によって付与されたスコアの値が高い前記静止画を優先して選択して配置する、
ことを特徴とする請求項１または２に記載のコンテンツ生成装置。
予め定めたキーワードを用いて前記テキスト受信部が受信したテキストデータを検索するキーワード検索部、
をさらに具備し、
前記スコア付与部は、前記キーワード検索部によって検出された前記キーワードの前記テキストデータ内の位置に対応する前記提示時刻情報を用いて、当該提示時刻情報が示す位置から前または後に所定の長さの範囲内の前記静止画に、当該キーワードに応じたスコアをさらに付与する、
ことを特徴とする請求項３に記載のコンテンツ生成装置。
前記割当処理部は、前記動画を時間方向に複数のブロックに区切り、予め定められたブロックあたりの静止画枚数の範囲内で、前記ブロックごとに前記スコアの値が高い前記静止画を優先して選択する、
ことを特徴とする請求項３または４に記載のコンテンツ生成装置。
前記補正部は、前記比較部による処理の結果として前記テキストデータが存在しない箇所で且つ前記音声認識結果が存在する箇所については、当該箇所の前記音声認識結果を、当該箇所の前記テキストデータへの挿入候補のテキストデータとして取り込む、
ことを特徴とする請求項１から５までのいずれか一項に記載のコンテンツ生成装置。
コンピューターを、
提示時刻情報が付加された動画を受信する動画受信手段と、
提示時刻情報が付加されたテキストデータを受信するテキスト受信手段と、
前記動画受信手段が受信した前記動画から前記提示時刻情報が付加された静止画を抽出する代表画像抽出手段と、
前記テキストデータに付加された前記提示時刻情報と、前記静止画に付加された前記提示時刻情報とに基づいて、前記テキストデータおよび前記静止画を時刻の順にしたがって配置する割当処理手段と、
前記動画受信手段が受信した前記動画に含まれる音声について音声認識処理を行うことによって、前記提示時刻情報が付加された音声認識結果を出力する音声認識手段と、
前記テキストデータと前記音声認識結果とを比較して一致度の高い部分同士を対応付ける比較手段と、
前記比較手段による処理の結果に基づいて、前記テキストデータに付加されていた前記提示時刻情報を、前記テキストデータと一致度の高い部分同士として対応付いた前記音声認識結果に付加された前記提示時刻情報を用いて置き換えることにより、提示時刻情報を補正する補正手段と、
として機能させるためのプログラム。