JP6601944B2 - コンテンツ生成装置およびプログラム - Google Patents

コンテンツ生成装置およびプログラム Download PDF

Info

Publication number
JP6601944B2
JP6601944B2 JP2015116346A JP2015116346A JP6601944B2 JP 6601944 B2 JP6601944 B2 JP 6601944B2 JP 2015116346 A JP2015116346 A JP 2015116346A JP 2015116346 A JP2015116346 A JP 2015116346A JP 6601944 B2 JP6601944 B2 JP 6601944B2
Authority
JP
Japan
Prior art keywords
unit
image
presentation time
time information
still image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015116346A
Other languages
English (en)
Other versions
JP2017005442A (ja
Inventor
大雅 中西
宗 遠藤
文 藤井
清彦 石川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2015116346A priority Critical patent/JP6601944B2/ja
Publication of JP2017005442A publication Critical patent/JP2017005442A/ja
Application granted granted Critical
Publication of JP6601944B2 publication Critical patent/JP6601944B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Television Signal Processing For Recording (AREA)

Description

本発明は、動画等をもとにコンテンツを生成することのできる、コンテンツ生成装置およびプログラムに関する。
テレビ番組等の映像コンテンツの内容を視聴者が短時間で把握できるようにすることは有用である。そのための手段の一例は、サマリーコンテンツである。サマリーコンテンツは、テキストと静止画あるいは動画、もしくはそれら両方を組み合わせて構成される。つまり、サマリーコンテンツを見る視聴者は、映像コンテンツの長さ分の実時間を要することなく、そのサマリーコンテンツが表す映像コンテンツの内容の概略を把握することができる。例えば、テレビ番組の放送終了後に、そのテレビ番組の概要を表すサマリーコンテンツを、放送事業者のウェブサイト等に掲載することによって、視聴者らに有益な情報を提供することができる。携帯型端末(スマートフォン等)が普及している今日、比較的小さいデータ量で視聴者らに情報を提供することのできる上記のようなサマリーコンテンツは、テレビ放送事業においても、そのニーズが高まっている。
従来の技術では、上記のようなサマリーコンテンツを制作するためには、放送番組の動画の中からサマリーコンテンツに適した静止画等を手作業で探して切り出すということが行われていた。また、サマリーコンテンツ内において静止画等に沿えるテキスト部分を制作するためには、放送原稿や動画からの書き起こしテキストなどをもとに、テキストを手作業で編集するということが行われていた。そして、そのような作業のためには、膨大な時間と、専門的なスキルが必要とされていた。
特許文献1および2に開示されている技術は、上記のようなサマリーコンテンツの制作を効率化するという目的で利用できる可能性のあるものである。
特許文献1には、動画から静止画を抽出するための構成として、字幕データが更新されたことを検出して、そのタイミングに基づいて静止画を抽出する構成が記載されている。なお、特許文献1は、連続する静止画における画像特徴量の変化が一定以上のものを出力する方法を開示している。
特許文献2には、動画像のダイジェスト画面を構成する映像内容の提示方法が記載されている。この特許文献2に開示されている方法では、画像の特徴を表すスコアが高い静止画ほど、拡大表示を行うなど、ユーザが重要性を知覚しやすいように提示する工夫がなされている。
特許第4846674号公報 国際公開第2005/050986号
しかしながら、上記の先行技術には、次のような問題がある。
特許文献1に記載されている技術によって動画から抽出される静止画に関しては、類似性の高い静止画が連続して抽出されてしまうという可能性を排除する工夫がなされている。しかしながら、字幕データの更新のタイミングに基づいて抽出される静止画が、サマリーコンテンツに向いた静止画であるとは言い切れない。
また、特許文献2に記載されている技術では、選択された画像を差し替えることができない。視聴者に向けて公開することを前提としたサマリーコンテンツを制作する際には、抽出された静止画の中から最適なものを自動的に選択するだけでなく、フレーム単位で他の画像と差し替えたいケースも少なくない。画像を差し替える理由の典型は、たとえば、静止画に写っている人物の目が瞑っている場合や、ディゾルブを用いた映像編集で、2つのシーンが1つの静止画内に重なっている場合などである。なお、ディゾルブとは、徐々に暗くなる前のシーンと、徐々に明るくなりながら現れる次のシーンとを重ねる場面転換技法である。
本発明は、上記の課題認識に基づいて行なわれたものであり、映像内からサマリーコンテンツとして適した静止画を自動的に抽出するなどの処理を行い、効率的にサマリーコンテンツを制作することのできるコンテンツ生成装置、およびプログラムを提供する。
[1]上記の課題を解決するため、本発明の一態様によるコンテンツ生成装置は、提示時刻情報が付加された動画を受信する動画受信部と、提示時刻情報が付加されたテキストデータを受信するテキスト受信部と、前記動画受信部が受信した前記動画から前記提示時刻情報が付加された静止画を抽出する代表画像抽出部と、前記テキストデータに付加された前記提示時刻情報と、前記静止画に付加された前記提示時刻情報とに基づいて、前記テキストデータおよび前記静止画を時刻の順にしたがって配置する割当処理部と、を具備することを特徴とする。
[2]また、本発明の一態様は、上記のコンテンツ生成装置において、前記動画受信部が受信した前記動画内のカット点を抽出するカット点抽出部、をさらに具備し、前記代表画像抽出部は、前記カット点抽出部が抽出した前記カット点から前または後に所定の長さの位置の前記静止画を抽出する、ことを特徴とする。
[3]また、本発明の一態様は、上記のコンテンツ生成装置において、前記代表画像抽出部が抽出した前記静止画内に画像として含まれているオブジェクトまたは字幕を検出するオブジェクト検出部と、前記オブジェクト検出部が検出した前記オブジェクトまたは前記字幕に応じたスコアを当該オブジェクトまたは当該字幕を含む前記静止画に付与するスコア付与部と、をさらに具備し、前記割当処理部は、前記代表画像抽出部が抽出した前記静止画のうち、前記スコア付与部によって付与されたスコアの値が高い前記静止画を優先して選択して配置する、ことを特徴とする。
[4]また、本発明の一態様は、上記のコンテンツ生成装置において、予め定めたキーワードを用いて前記テキスト受信部が受信したテキストデータを検索するキーワード検索部、をさらに具備し、前記スコア付与部は、前記キーワード検索部によって検出された前記キーワードの前記テキストデータ内の位置に対応する前記提示時刻情報を用いて、当該提示時刻情報が示す位置から前または後に所定の長さの範囲内の前記静止画に、当該キーワードに応じたスコアをさらに付与する、ことを特徴とする。
[5]また、本発明の一態様は、上記のコンテンツ生成装置において、前記割当処理部は、前記動画を時間方向に複数のブロックに区切り、予め定められたブロックあたりの静止画枚数の範囲内で、前記ブロックごとに前記スコアの値が高い前記静止画を優先して選択する、ことを特徴とする。
[6]また、本発明の一態様は、上記のコンテンツ生成装置において、前記動画受信部が受信した前記動画に含まれる音声について音声認識処理を行うことによって、前記提示時刻情報が付加された音声認識結果を出力する音声認識部と、前記テキストデータと前記音声認識結果とを比較して一致度の高い部分同士を対応付ける比較部と、前記比較部による処理の結果に基づいて、前記テキストデータに付加されていた前記提示時刻情報を、前記テキストデータと一致度の高い部分同士として対応付いた前記音声認識結果に付加された前記提示時刻情報を用いて置き換えることにより、提示時刻情報を補正する補正部と、をさらに具備することを特徴とする。
[7]また、本発明の一態様は、上記のコンテンツ生成装置において、前記補正部は、前記比較部による処理の結果として前記テキストデータが存在しない箇所で且つ前記音声認識結果が存在する箇所については、当該箇所の前記音声認識結果を、当該箇所の前記テキストデータへの挿入候補のテキストデータとして取り込む、ことを特徴とする。
[8]また、本発明の一態様は、コンピューターを、提示時刻情報が付加された動画を受信する動画受信手段と、提示時刻情報が付加されたテキストデータを受信するテキスト受信手段と、前記動画受信手段が受信した前記動画から前記提示時刻情報が付加された静止画を抽出する代表画像抽出手段と、前記テキストデータに付加された前記提示時刻情報と、前記静止画に付加された前記提示時刻情報とに基づいて、前記テキストデータおよび前記静止画を時刻の順にしたがって配置する割当処理手段と、として機能させるためのプログラムである。
本発明によれば、動画から自動的に抽出した静止画とテキストデータ(字幕データ等)とを、提示時刻情報にしたがって、時刻にそって配置したコンテンツを効率的に生成することが可能となる。
本発明の実施形態によるコンテンツ生成装置の概略機能構成を示すブロック図である。 同実施形態による、コンテンツ生成装置1を含んだ、放送事業者のシステムの構成の概略を表すブロック図である。 同実施形態による代表画像抽出部が各シーンの代表画像を抽出するための方法を示す概略図である。 同実施形態によるオブジェクト検出部が処理の対象とする、静止画内のオブジェクトおよび字幕の例を示す概略図である。 同実施形態において、字幕データから抽出される特定の強調キーワードによってスコア付与部がスコアを加点する方法を示した概略図である。 同実施形態における割当処理部による画像選択(割り当て)の方法を示した概略図である。 同実施形態によるコンテンツ生成装置(特に、提示部および編集部)の画面表示例を示す概略図である。 同実施形態によるコンテンツ生成装置の画面表示例であり、特に、字幕データに含まれない音声認識結果が存在する場合の画面表示例を示す。 同実施形態による字幕補正部が補正処理の後で出力するデータ(字幕データおよび音声認識結果データを含む)の例を示す概略図である。
次に、本発明の実施形態について、図面を参照しながら説明する。
図1は、本実施形態によるコンテンツ生成装置の概略機能構成を示すブロック図である。同図に示すように、コンテンツ生成装置1は、動画受信部11と、トランスコード部12と、カット点抽出部13と、代表画像抽出部14と、オブジェクト検出部15と、スコア付与部16と、割当処理部17と、提示部18と、編集部19と、承認部20と、最終出力部21と、字幕受信部31(テキスト受信部)と、音声認識部32と、比較部33と、字幕補正部34(補正部)と、キーワード検索部35と、を含んで構成される。これら各部の機能は、電子回路により実現される。その一形態として、コンピューターを用いてこれら各部の機能を実現しても良い。
動画受信部11は、提示時刻情報が付加された動画を受信する。ここで提示時刻情報とは、動画を提示するタイミングを指示するための制御情報である。提示時刻情報を、プレゼンテーションタイムあるいはタイムコードとも呼ぶ。具体的には、動画受信部11は、放送される動画(音声を含む)を外部から受信する。動画受信部11は、例えば、テレビ受像機と同様の機能を有しており、放送送出装置から放送信号に載せて送信される動画を受信する。あるいは、動画受信部11が、放送局等に設けられた放送用の動画を蓄積する設備からファイル転送等の手段によって送信される動画を受信するようにしても良い。
トランスコード部12は、動画受信部11が受信した動画のファイルフォーマットやビットレートの変換を行う。また、トランスコード部12がこれらの変換を行うときに動画の解像度を変換する(例えば、高解像度の動画を、比較的低解像度の動画に変換する)ようにしても良い。
カット点抽出部13は、動画受信部11が受信した動画内のカット点を抽出する。具体的には、カット点抽出部13は、トランスコード部12から渡される動画の中のカット点を検出し、検出されたカット点の位置情報(例えば、「HH:MM:SS.nnn」(時、分、秒、フレーム番号)で表される相対時刻の情報)を代表画像抽出部14に渡す。なお、カット点を抽出する処理自体は既存技術を用いて行うことができる。例えば、カット点抽出部13は、時間的に連続する複数のフレーム間の画像変化量が所定の閾値よりも大きい点を、カット点として検出する。
代表画像抽出部14は、動画受信部11が受信した動画から提示時刻情報が付加された静止画(動画内のフレーム)を抽出する。なお、代表画像抽出部14は、カット点抽出部13が抽出したカット点から前または後に所定の長さの位置の静止画を抽出する。つまり、代表画像抽出部14は、カット点抽出部13から受け取ったカット点の情報に基づいて、動画の中から代表画像である静止画を抽出する。代表画像抽出部14は、原則として、1シーンから2枚の静止画を抽出する。ただし、時間的に短いシーンの場合には、代表画像抽出部14が1シーンから1枚の静止画のみを抽出する場合もある。代表画像抽出部14が各シーンから代表画像を抽出するための具体的方法については、後で説明する。
オブジェクト検出部15は、代表画像抽出部14が抽出した静止画内に画像として含まれているオブジェクトまたは字幕を検出する。具体的には、オブジェクト検出部15は、代表画像抽出部14によって抽出された代表画像(静止画)のそれぞれについて、画像解析処理を行う。そして、オブジェクト検出部15は、画像内に含まれているオブジェクトを認識するとともに、字幕を検出する。なお、ここでオブジェクト検出部15が検出する字幕は、画像の一部として含まれている字幕であり、字幕受信部31が受信する字幕データによる字幕とは別のものである。オブジェクト検出部15は、対象とする画像について、各オブジェクトに特有の特徴を有するか否かを表す特徴量を計算し、その特徴量の値に基づいてオブジェクトを検出する。ここで、本実施形態において検出対象とするオブジェクトの例は、次の通りである。即ち、紙に印刷された文書をクローズアップして写したもの(このオブジェクトを便宜上、「矩形文書アップ」と呼ぶ)や、ノルマルと呼ばれる画像(このオブジェクトを「ノルマル」と呼ぶ)や、人物一人だけが画像内の主要位置に写っており、且つ文字スーパーが重畳されている状態(このオブジェクトを便宜上、「ワンショットスーパー」と呼ぶ)などが、検出対象のオブジェクトの例である。
なお、これらのオブジェクトの例については、後で図面を用いて説明する。また、オブジェクト検出部15がそれらのオブジェクト等を検出する方法についても、後で詳述する。
スコア付与部16は、オブジェクト検出部15が検出したオブジェクトまたは字幕に応じたスコアを当該オブジェクトまたは当該字幕を含む静止画に付与する。さらに、スコア付与部16は、キーワード検索部35によって検出されたキーワードのテキストデータ内の位置に対応する提示時刻情報を用いて、当該提示時刻情報が示す位置から前または後に所定の長さの範囲内の静止画に、当該キーワードに応じたスコアを付与する。より具体的には次の通りである。即ち、スコア付与部16は、代表画像抽出部14によって抽出された各画像に対して、スコアを計算して付与する。このとき、スコア付与部16は、オブジェクト検出部15によって認識されたオブジェクトおよび検出された字幕に基づいて、予め定めたスコアを付与する。またこのとき、スコア付与部16は、字幕補正部34から補正済み(タイムコードの補正済み、欠落字幕の補正済み)の字幕データを受け取る。さらに、スコア付与部16は、キーワード検索部35から検索処理の結果得られたキーワードの種類とそのタイミングの情報とを受け取る。ここで、検索処理に用いられるキーワードは字幕データ内の強調表現である。スコア付与部16は、特定のキーワードが出現するタイミングの近傍の画像(静止画)については、予め定めたスコアを付与する。なお、スコア付与部16によるスコア付与の詳細については、後で説明する。
ここで、オブジェクト検出部15が検出する字幕と、字幕受信部31が受信する字幕データとは、技術的性質が異なるものである。オブジェクト検出部15が検出する字幕とは、映像(画像)内に含まれている文字の列である。一方、字幕受信部31が受信して字幕補正部34からスコア付与部16に渡される字幕データは、テキストデータである。例えばMMT(MPEG Media Transport)方式で伝送される放送コンテンツの場合、オブジェクト検出部15は、映像(ビデオ)アセット内の映像から(つまり、その映像から抽出された静止画から)、字幕を検出する。一方で、字幕受信部31が受信する字幕は、字幕アセットに含まれて伝送されるものである。
割当処理部17は、字幕データに付加された提示時刻情報と、静止画に付加された提示時刻情報とに基づいて、字幕データおよび静止画を時刻の順にしたがって配置する。なお、割当処理部17は、代表画像抽出部14が抽出した静止画のうち、スコア付与部16によって付与されたスコアの値が高い静止画を優先して選択して配置する。また、割当処理部17は、動画を時間方向に複数のブロックに区切り、予め定められたブロックあたりの静止画枚数の範囲内で、ブロックごとにスコアの値が高い前記静止画を優先して選択するようにする。具体的には次の通りである。即ち、割当処理部17は、代表画像抽出部14によって抽出された代表画像の中から、サマリーコンテンツの生成に使用するための静止画を選択し、サマリーコンテンツへの割当を行う。このとき、割当処理部17は、元の動画の時間の長さに応じて、静止画の割当を行う。具体的には、割当処理部17は、元の動画の単位時間当たりに掲載する静止画の最大枚数および最少枚数に基づいて、静止画を選択し、サマリーコンテンツに割り当てる。また、割当処理部17は、スコア付与部16経由で受け取った字幕データに含まれるテキストを、サマリーコンテンツに割り当てる。
提示部18は、割当処理部17によって割り当てられた静止画およびテキストで構成されるサマリーコンテンツの案をコンテンツ生成装置1の利用者(例えば、サマリーコンテンツの制作担当者)に対して提示する機能を有する。本実施形態では、サマリーコンテンツはHTMLで記述されているので、提示部18は、HTMLブラウザーの機能を利用して、サマリーコンテンツを提示する。
編集部19は、提示部18によって提示されたサマリーコンテンツを編集する機能を有する。編集部19は、割当処理部17によって割り当てられた静止画を他の静止画(代表画像抽出部14によって抽出された他の画像)に差し替え得たり、あるいは静止画を追加したりまたは削除したり、配置位置の修正を行ったり、テキストを編集したりするための利用者インターフェースを提供する。また、編集部19は、サマリーコンテンツの見出しを追加するための利用者インターフェースを提供する。この編集部19の機能を用いることにより、利用者(サマリーコンテンツの制作担当者)は、最終的なサマリーコンテンツを仕上げることができる。なお、編集部19が提供する利用者インターフェースの例について、図を用いて後で説明する。
承認部20は、編集部19によって編集済みのサマリーコンテンツをコンテンツ生成装置1の利用者(例えば、サマリーコンテンツの承認者)に提示するとともに、その承認を受け付ける機能を有する。この承認部20が設けられているのは、制作担当者が制作したサマリーコンテンツを承認者が承認して初めて公開されるという業務フローを前提としているためである。コンテンツ生成装置1は、コンテンツのステイタスを管理する。ステイタスとは、「編集中」、「編集完了」、「承認済み」、「差し戻し」などといった状態のいずれかである。そして、業務フローとしては、承認部20において承認済みのサマリーコンテンツのみが、次の最終出力部21に渡される。
最終出力部21は、最終的な承認処理済みのサマリーコンテンツを公開するために外部に出力する。最終出力部21から出力されるサマリーコンテンツは、例えば、外部のウェブサーバー装置に渡される。そのウェブサーバー装置は、インターネット等を介してサマリーコンテンツを視聴者らに向けて提供する。
字幕受信部31は、提示時刻情報が付加された字幕データ(テキストデータ)を受信する。字幕データに付加される提示時刻情報は、動画に付加される提示時刻情報と同様のものである。具体的には、字幕受信部31は、動画受信部11が受信する動画に対応する字幕データを外部から受信する。字幕データは、字幕用のテキストデータを含んでおり、放送されたトランスポートストリーム(TS)から抽出される。あるいは、字幕受信部31が、放送局等に設けられた放送用の字幕データを蓄積する設備から、ファイル転送等の手段によって送信される字幕データを受信するようにしても良い。なお、字幕受信部31が受信する字幕データには、プレゼンテーションタイム(提示時刻)の情報が付加されている。このプレゼンテーションタイムの情報によって、字幕を提示すべきタイミングと、動画に含まれるフレームとが対応付けられている。プレゼンテーションタイムの情報は、字幕の切り替えのタイミングごとに付与されるものであり、例えば「HH:MM:SS.mmm」(時、分、秒、千分の一秒)あるいは「HH:MM:SS.nnn」(時、分、秒、フレーム番号)などの形式で表される。字幕受信部31は、受信した字幕データを比較部33に渡す。
音声認識部32は、動画受信部11が受信した動画に含まれる音声について音声認識処理を行うことによって、提示時刻情報が付加された音声認識結果を出力する。なお、音声認識部32が音声認識結果に付加する提示時刻情報は、元の音声に付加されている提示時刻情報に基づくものである。具体的には、音声認識部32は、トランスコード部12から渡される動画に含まれる音声を入力として、音声認識処理を行う。トランスコード部12から渡される動画のデータには、音声のプレゼンテーションタイムの情報も含まれている。音声認識部32は、音声の提示タイミングと関連付ける形で、認識結果のテキスト(文字列)を比較部33に渡す。音声のプレゼンテーションタイムの情報は、上記の字幕のプレゼンテーションタイムの情報と同様の形式で表されている。
比較部33は、字幕データと音声認識結果とを比較して一致度の高い部分同士を対応付ける処理を行う。具体的には次の通りである。即ち、比較部33は、字幕受信部31が受信した字幕のテキストと、音声認識部32による音声認識結果のテキストとを比較する。ここで、比較部33は、字幕データのテキストと音声認識結果のテキストとが完全一致してなくても、一致度の高い部分同士を対応付ける。そして、比較部33は、その比較結果を字幕補正部34に渡す。この比較部33の処理により、字幕データとして受信したテキストと音声認識結果として得られたテキストとの間の不一致や、時間(プレゼンテーションタイム)のずれなどが検出可能である。テキストの不一致が起こる理由は、例えば、動画内における一部の発言(インタビュー映像など)の内容が字幕データにおいては省略されることなどである。また、字幕テキストの提示のタイミングと、動画内での発言のタイミングとは、厳密には一致しないことも多い。特に、生放送におけるいわゆる生字幕のテキストは、出演者の発言あるいはそのリスピーカー(re-speaker)の発言を音声認識することによって生成するため、遅延して表示される度合いが大きい。なお、完全一致しないテキスト同士を比較して、最長一致させるとともに、不一致の部分を検出する処理自体は、既存技術を用いて行うことができる。
字幕補正部34は、比較部33の処理による比較結果に基づいて、字幕データを補正する。つまり、字幕補正部34は、比較部33による処理の結果に基づいて、字幕データに付加されていた提示時刻情報を、字幕データと一致度の高い部分同士として対応付いた音声認識結果に付加された提示時刻情報を用いて置き換えることにより、提示時刻情報を補正する。また、字幕補正部34は、比較部33による処理の結果として字幕データが存在しない箇所で且つ音声認識結果が存在する箇所については、その箇所の音声認識結果を、その箇所の字幕データへの挿入候補のテキストデータとして取り込む。
より具体的には、字幕補正部34は、字幕データに付与されているタイムコード(TC。上記のプレゼンテーションタイム。)を、音声認識結果に基づくタイムコードに付け替える。また、字幕補正部34は、字幕データに含まれない発言に相当するテキストを、音声認識結果から得て、字幕データに付け加えることができるようにする。なお、音声認識結果によるテキストを実際に字幕データに付加するか否かを、利用者による確認操作に基づいて決定するようにしても良い。字幕補正部34は、補正後の字幕データをスコア付与部16に渡す。なお、字幕補正部34による補正処理の結果データの実例について、後で説明する。
上記のような字幕補正部34の処理により、生成するサマリーコンテンツにおいて、テキストと静止画との時間的同期をより完全なものとすることができるため、利用者による編集作業(修正作業)等の手間を軽減することが可能となる。
キーワード検索部35は、予め定めたキーワードを用いて字幕受信部31が受信した字幕データ(テキストデータ)を検索する。なお、キーワード検索部35は、字幕補正部34において補正済みの字幕データを検索し、重要性の高いキーワードが含まれている箇所を検出する。特定のキーワードの出現タイミングと時間的に近い位置に重要な静止画が出現する可能性が高いため、キーワード検索部35はそのようなキーワードを探す。検索対象とするキーワードは、予め与えられ、記憶しておく。検索のキーワードとしては、例えば「ついに」あるいは「とうとう」などといった語が用いられる。なお、このようなキーワードが番組内で用いられるタイミングに近い箇所に重要な(つまり、サマリーコンテンツの一部として使用する価値の高い)画像が含まれている可能性が高い。なお、番組ごとに言い回しの特徴がある場合には、番組ごとに特有のキーワードを検索対象とするようにしても良い。キーワード検索部35は、検索処理の結果得られたキーワードの種類とそのタイミングの情報とを、スコア付与部16に渡す。この情報は、静止画を選択する際に重み付けのための要素の一つとして用いられる。
図2は、コンテンツ生成装置1を含んだ、放送事業者のシステムの構成の概略を表すブロック図である。同図に示すように、本システムは、コンテンツ生成装置1と、ファイルベース送出システム100と、原盤ファイル制作システム101と、生字幕抽出サーバー装置102と、端末装置201,202と、公開用ウェブサーバー装置301と、を含んで構成される。
ファイルベース送出システム100は、動画(音声を含む)や字幕を含んだ放送番組を送出するためのシステム(装置群)である。ファイルベース送出システム100は、それらの動画や字幕を含んだ放送番組のデータを、下記の原盤ファイル制作システム101経由で、コンテンツ生成装置1に転送する。
原盤ファイル制作システム101は、編集済みで放送できる状態のコンテンツを制作するためのシステム(装置群)である。原盤ファイル制作システム101は、放送前に、ファイルベース送出システム100より番組の動画および字幕を取得する。あるいは、原盤ファイル制作システム101は、放送される番組動画を、自身の持つ同時録画機能により取得する。また、原盤ファイル制作システム101は、動画(音声を含む)のファイルおよび字幕データのファイルを、コンテンツ生成装置1に転送する。コンテンツ生成装置1内における、動画受信部11および字幕受信部31が、それぞれ、動画のファイルおよび字幕データのファイルを受信する。
生字幕抽出サーバー装置102は、ニュースなどの生番組の場合に番組進行に合わせて制作されるいわゆる生字幕を、放送字幕のトランスポートストリーム(TS)から抽出し、コンテンツ生成装置1に供給する。
端末装置201および202は、それぞれ、コンテンツ生成装置1を利用者側から閲覧・操作するためのものである。端末装置201はサマリーコンテンツの制作担当者用であり、端末装置202はサマリーコンテンツの承認者用である。端末装置201および202は、それぞれ、サマリーコンテンツをダウンロードして、画面に表示させたり編集したりすることができる。承認者用の端末装置202は、承認者の操作に基づいて、最終的なサマリーコンテンツを承認済みとするよう、コンテンツ生成装置1に要求する。
公開用ウェブサーバー装置301は、コンテンツ生成装置によって最終的に制作されたサマリーコンテンツを一般向けに公開するためのものである。承認者によって承認済みのサマリーコンテンツはコンテンツ生成装置1から出力され、最終的に公開用ウェブサーバーに登録される。そして、公開用ウェブサーバー装置301は、そのサマリーコンテンツをウェブで公開する。なお、公開用ウェブサーバー装置301は、インターネット(不図示)経由で、放送視聴者等が使用する数多くの端末装置(不図示)に対して、公開用のサマリーコンテンツを送信する。それらの端末装置は、ウェブブラウザーの機能を備えており、公開用ウェブサーバー装置301から送られるサマリーコンテンツを、画面に表示することができる。
コンテンツ生成装置1の構成および機能概略については、図1を参照しながら説明した通りである。図2に示した各装置間では、通信によりデータのやり取りを行えるようにする。なお、コンテンツ生成装置1を、いわゆるクラウドサーバー上の機能として実現しても良い。この場合、コンテンツ生成装置1を、構成する機能を、クラウドサーバー(群)上に搭載する。そして、コンテンツ生成装置1から、インターネット等の通信手段を介して、原盤ファイル制作システム101や、生字幕抽出サーバー装置102や、端末装置201および202や、公開用ウェブサーバー装置301との間で通信可能となるようにする。ただし、原盤ファイル制作システム101からコンテンツ生成装置1に動画等のファイルを転送するためには、これらの装置間に広帯域かつ安全性の高い専用通信回線を設けても良い。
次に、コンテンツ生成装置1が備える各機能のより詳細な技術事項について、順次説明していく。
図3は、代表画像抽出部14が各シーンの代表画像を抽出するための方法を示す概略図である。同図は、動画のストリームにおけるカット点および抽出する代表画像の点を示している。動画のストリームは、フレームの連続であり、例えば、1秒あたり30フレームのフレームレートである(30フレーム毎秒,30fps)。図に示すA点,B点,C点は、それぞれ、カット点抽出部13によって抽出されたカット点である。カット点Aのフレームは第100フレーム(f)である。また、カット点Bは第400フレームであり、カット点は第1000フレームである。
例えば、代表画像抽出部14は、カット点から次のカット点までの長さが充分にある場合には、カット点(in点)から90フレーム後のフレームと、次のカット点(out点)の60フレーム前のフレームとを、代表画像として抽出する。ここで、カット点から次のカット点までの長さが充分にあるか否かは、その長さ(フレーム数)が所定の閾値(例えば、240フレーム)よりも長いか否かにより判断する。カット点から次のカット点までの長さがこの閾値以下である場合には、in点近傍のフレームを代表画像として抽出せず、out点の60フレーム前のフレームのみを代表画像として抽出する。これは、カット点からカット点までの長さが短い場合には、in点近傍とout点近傍の画像とが互いに似ているケースが多いためである。
図3に示している例では、A点からB点までの長さも、B点からC点までの長さも、ともに閾値の長さより長い。したがって、代表画像抽出部14は、次のフレーム(静止画)を、代表画像として抽出する。即ち、A点の90フレーム後のA2点(第190フレーム)と、B点の60フレーム前のB1点(第340フレーム)と、B点の90フレーム後のB2点(第490フレーム)と、C点の60フレーム前のC1点(第940フレーム)が抽出される。なおここでは、カット点であるA点,B点,C点の近傍のみについて述べたが、その前後のカット点においても同様である。
このように、代表画像抽出部14がカット点の近傍(例えば、カット点の60フレーム前と90フレーム後)を代表画像として抽出するのは、次の理由による。つまり、放送番組の演出の特徴として、カット点の近傍に重要な画像が存在する可能性が高いためである。より具体的に言うと、「ワンショット」にスーパーが重畳されるという重要な画像は、カット点から所定フレーム後である確率が高い。また、CG(コンピューターグラフィクス)による「ノルマル」は、動きのある(ノルマル内の要素が変化する)ものが多いが、ノルマル内のすべての要素が含まれている状態が重要な画像であり、そのようなフレームはカット点の所定フレーム前である確率が高い。
なお、ここで述べたワンショットおよびノルマルについては、後でオブジェクト検出(認識)の処理に関連して詳述する。
次に、オブジェクト検出部15による処理の詳細について説明する。
図4は、オブジェクト検出部15が処理の対象とするオブジェクトおよび字幕の例を示す概略図である。同図において、(a)は「ノルマル」(CGによるノルマル)オブジェクトの例である。また、(b)は「矩形文書アップ」オブジェクトの例である。また、(c)は、「ワンショットスーパー」オブジェクトの例である。また、(d)は字幕の例である。
図4(a)に例示する「ノルマル」は、放送番組等で用いられる映像表現手段の一つであり、図形や文字などを描いた紙またはボードなどをカメラで画面全体に写した(いわゆる「撮り切り」)ものである。また同様の画面をCG(コンピューターグラフィックス)により生成してノルマル映像とする場合もある。これらの「ノルマル」オブジェクトの画像としての特徴は、(1)画素値の一様性の高い領域が画面全体に占める割合が高いことや、(2)画面内のところどころに文字の列が認識されることなどである。
図4(b)に例示する「矩形文書アップ」オブジェクトは、例えば報道関連の番組において、紙の文書の中の一部分をカメラでクローズアップして写して得られるものである。また、「矩形文書アップ」オブジェクトに、その文書内の特定の文字列を強調するような映像効果を施す場合もある。図示している例では、強調すべき文字列の部分以外の領域の明度を落とす処理が施されている。このような「矩形文書アップ」オブジェクトの画像としての特徴は、(1)文書の地の部分の色(典型的には白色であるが、これに限らない)と、文書の文字の部分の色(典型的には黒色であるが、これに限らない)との2色(画素値としては2値)で構成される領域が、画面全体の中で所定の割合を占めること、そして(2)そのような領域内で文字の列が認識されることなどである。
図4(c)に例示する「ワンショットスーパー」オブジェクトは、画面の主要位置(通常は、横方向における中央付近で、且つ縦方向における上から下までをほぼ占める位置)に一人(のみ)の人物が写り、さらにその人物の氏名や肩書などがスーパーとして併せて表示されている状態である。この「ワンショットスーパー」オブジェクトの画像としての特徴は、(1)前述の画像内の主要位置に、所定の大きさ以上の人の顔が認識されること、(2)その主要位置において認識される顔の数が1個だけであること、そして、(3)その顔の近傍に文字列が認識されておりその文字列は人名や人の肩書名などを含むことである。
図4(d)に例示する画像は、字幕を含んでいるものである。オブジェクト検出部15は、画像領域全体に占める字幕領域の割合を計算し、あらかじめ設定した閾値との比較を行うことにより、字幕を検出する。
ここでは、(a)から(c)までの3種類のオブジェクトと、(d)の字幕の例について説明した。なお、ここに挙げていない他のオブジェクトについても、その特徴に基づいて、オブジェクト検出部15が画像から検出できるようにしておく。
オブジェクト検出部15は、対象の各画像に関して、上記の各オブジェクトの特徴を数値的な量として計算し、その特徴量が所定の範囲の値であるか否か(典型的には、その特徴量が所定の閾値以上であるか否か)を判定することにより、各オブジェクトを検出する。また、オブジェクト検出部15は、対象の画像内の文字を認識することにより、画像として組み込まれた字幕を検出する。
なお、ここに述べたオブジェクト検出部15の処理過程の中の、オブジェクト認識や字幕検出の処理自体は、既存の技術を利用して行うことができるものである。
また、オブジェクト検出部15が[特許文献:特許第5503507号公報]に記載された技術を用いて文字領域を検出するようにしても良い。その技術とは、要するに、入力画像に含まれる文字の領域である文字領域を、当該入力画像から検出する文字領域検出装置であって、前記入力画像が入力されると共に、当該入力画像を、当該入力画像より解像度が低い1以上の低解像度画像に変換する解像度変換手段と、前記解像度変換手段によって変換された低解像度画像および前記入力画像をそれぞれ、同じ大きさの走査窓で走査することによって、前記入力画像および前記低解像度画像ごとに、前記走査窓の領域に対応した走査窓領域画像を生成する走査手段と、前記入力画像および前記低解像度画像ごとに、前記走査手段によって生成された走査窓領域画像の特徴ベクトルを算出する画像特徴ベクトル算出手段と、前記入力画像および前記低解像度画像ごとに、前記画像特徴ベクトル算出手段によって算出された走査窓領域画像の特徴ベクトルに基づいて、当該走査窓領域画像が文字候補領域であるか否かを機械学習によって判定する文字候補領域判定手段と、前記入力画像および前記低解像度画像ごとに、前記文字候補領域判定手段によって判定された文字候補領域が互いに重なる回数を算出し、算出した当該重なる回数が予め設定された第1閾値以上となる文字候補領域を文字検出領域として判定する文字検出領域判定手段と、前記文字検出領域判定手段によって判定された低解像度画像ごとの文字検出領域を、当該文字検出領域に対応する低解像度画像が前記入力画像と同じ解像度になる拡大率で拡大する拡大手段と、前記拡大手段によって拡大された低解像度画像ごとの文字検出領域と、前記入力画像の文字検出領域との何れか1以上が重なるか否かを判定し、互いに重なると判定された文字検出領域のうち、前記入力画像または前記解像度が最大の低解像度画像に対応する文字検出領域である基準文字検出領域に対して、他の文字検出領域が重なる割合を算出すると共に、算出した当該重なる割合が予め設定された第2閾値以上の場合、前記基準文字検出領域のみを前記文字領域として出力する文字領域出力手段と、
を備えることを特徴とする文字領域検出装置の技術である。
なお、「ワンショットスーパー」オブジェクトに関して、オブジェクト検出部15が、静止画像に写っている人物を特定し、予め記憶しておいた人物リストとの照合を行うようにしても良い。オブジェクト検出部15が人物を特定する方法としては、画像に基づいて顔認識の処理を行ったり、スーパー部分に表示されている人名等の文字列の文字認識の処理を行ったり、それら両者を併用したりする。なおこれにより、オブジェクト検出部15によって特定された人物が前記人物リストに含まれている場合に、コンテンツ生成装置1が当該静止画像をサマリーオブジェクトには使用しないように制御することができる。また、逆に、オブジェクト検出部15によって特定された人物が前記人物リストに含まれている場合に、コンテンツ生成装置1が当該静止画像をサマリーオブジェクトに使用する優先度を上げるように制御することもできる。
次に、スコア付与部16による処理の詳細について説明する。
スコア付与部16は、オブジェクト検出部15によって検出されたオブジェクトや字幕に基づいて、静止画にスコアを付与する。具体的には、スコア付与部16は、「矩形文書アップ」、「ノルマル」、「ワンショットスーパー」の各オブジェクトを含む静止画には、それぞれスコアを加点する。静止画が各オブジェクトを含むか否かは、各オブジェクトに対応する特徴量が各オブジェクトに固有の閾値を超えたか否かによって判定される。また、スコア付与部16は、字幕が検出された静止画にも、スコアを加点する。字幕検出に関しても、字幕の特徴量が所定の閾値を超えたか否かによる判定が行われる。
スコア付与部16が付与するスコアの例は次の通りである。即ち、「矩形文書アップ」オブジェクトを含む静止画には20点を付与する。また、「ノルマル」オブジェクトを含む静止画には50点を付与する。また、「ワンショットスーパー」オブジェクトを含む静止画には20点を付与する。また、字幕を含む静止画には40点を付与する。
なお、スコア付与部16が、1枚の静止画に異なるタイプのオブジェクト等による複数のスコアを付与しても良い。また、ここに例示したスコアの値を適宜変更しても良い。また、スコア付与部16が番組ごとに異なるスコア値を付与するようにしても良い。
また、スコア付与部16は、字幕補正部34およびキーワード検索部35から受け取る情報にも基づいて、静止画にスコアを加点する。
図5は、字幕データから抽出される特定の強調キーワードによってスコア付与部16がスコアを加点する方法を示した概略図である。同図(a)は、コンテンツ生成装置1が記憶するキーワードリストのデータ構成を示す。また、同図(b)は、キーワードの検索結果と静止画へのスコアの加点との関連を示す。
図5(a)に示すように、コンテンツ生成装置1はキーワードリストのデータを記憶する。スコア付与部16およびキーワード検索部35が、このキーワードリストにアクセス可能である。キーワードリストのデータは、予め準備しておく。なお、放送番組ごとに固有のキーワードリストを用いるようにしても良い。これは、番組に特有の強調表現が存在し得るためである。図示する例では、キーワードリスト内の1レコードは、強調キーワードとして「ついに」を記憶し、その強調範囲時間として「前後5秒以内」を表すデータを記憶する。キーワードリストはこのようなレコードを複数件、記憶することができる。
図5(b)においては、横方向が時間軸であり、左側が放送番組における前の方(時間的に早い側)であり、右側が後の方(時間的に遅い側)である。既に述べたように、字幕データと映像とは、ともにプレゼンテーションタイムのデータを持っているため、これら両者はプレゼンテーションタイムを介して対応付けられている。図示する例では、字幕データは、その一部として「パワードスーツがついに完成」という文字列を含んでいる。また、映像は、カット点D,E,Fを含んでいる。そして、これらのカット点D,E,Fに対応して、代表画像抽出部14は既に、点D2,E1,E2,F1における静止画を代用画像として抽出済みである。ここで、キーワード検索部35は、キーワードリストに含まれるキーワードの一つである「ついに」を用いて字幕データを検索した結果として、この「ついに」が含まれている箇所を特定している。そして、字幕データにおけるそのキーワードの種類と検出されたタイミングの情報は、キーワード検索部35からスコア付与部16に渡される。スコア付与部16は、キーワードリストの強調範囲時間を参照することによって、文字列「ついに」が現れるポイントから前後それぞれ5秒以内の範囲内に代表画像が含まれている場合には、その代表画像にスコアを加点する。
つまり、スコア付与部16は、字幕データ内において予め定められたキーワードが出現するタイミングの近傍の静止画に関して、所定のスコアを加点する。ここで、「近傍」とはキーワード出現のポイントを基準として定められる時間範囲内である。上述した例では「前後5秒以内」の範囲内を近傍としたが、この時間の長さは異なっていても良い。また、キーワード出現のポイントン前と後とで、異なる長さの時間内を近傍として、スコアを加点するようにしても良い。
次に、割当処理部17による画像選択の処理の詳細について説明する。
図6は、割当処理部17による画像選択(割り当て)の方法を示した概略図である。同図(a)は、各代表画像に対応する代表画像情報の構成を示す。また、同図(b)は、選択する画像の枚数に関する選択枚数情報の構成を示す。また、同図(c)は、代表画像情報に基づくブロックごとの画像選択の方法を説明するための図である。
前述のスコア付与部16の処理により各代表画像には、既にスコアが付与されている。なお、画像によってはスコア値が0(ゼロ)の場合もある。
図6(a)に示すように、代表画像情報は、フレーム番号とスコア値の情報を含んで構成される。フレーム番号は、番組内におけるフレームの通番である。代表画像情報の各レコードが、1枚の代表画像に対応する。図示する例では、フレーム番号は1000であり、スコア値は10である。なお、代表画像情報は、コンテンツ生成装置1の記憶装置内に記憶されており、スコア付与部16や割当処理部17など、必要な機能部からアクセス可能となっている。
図6(b)に示す選択枚数情報は、サマリーコンテンツ用に選択する静止画の枚数を規定する情報である。図示するように、選択枚数情報は、番組内のブロックごとの枚数に関する枚数情報と、番組全体に関する枚数情報とを含む。具体的には、選択枚数情報は、各ブロックの最低枚数、各ブロックの最大枚数、番組ごとの最大枚数の、各データ項目を含んでいる。図示する例では、各ブロックの最低枚数は1であり、各ブロックの最大枚数は2であり、番組ごとの最大枚数は5である。なお、選択枚数情報は、予め適切に設定されている。また、選択枚数情報は、コンテンツ生成装置1の記憶装置内に記憶されており、割当処理部17など、必要な機能部からアクセス可能となっている。
次に図6(c)を参照しながら、画像の選択方法について説明する。
割当処理部17は、まず、代表画像抽出部14によって抽出されたすべての代表画像を、ブロックごとに分類する。ブロックは、映像(放送番組)を所定の長さの時間で分割した単位である。同図においては、例として、第1ブロックから第4ブロックまでを示している。そして、割当処理部17は、各ブロックに属する代表画像情報をソートする。このとき、第1ソートキーはスコア(降順)であり、第2ソートキーはフレーム番号(昇順)である。ソート処理の際に、第1ソートキーは第2ソートキーよりも優先される。つまり、割当処理部17は、あるブロック内にスコアの異なる代表画像情報がある場合、よりスコアの高い代表画像情報を上に並べる。また、割当処理部17は、あるブロック内にスコア値が同一である複数の代表画像情報がある場合、それらの代表画像情報に関してはよりフレーム番号の小さい(つまり時間的に早い)代表画像情報を上に並べる。図示している例は、代表画像情報をブロックごとに分類し、且つ各ブロック内で上記のソート処理を行った結果の状態である。このソート処理の結果は、ブロック内で画像を選択する際の優先度を表す。つまり、割当処理部17は、ソート結果として上に並べられた画像ほど、優先して選択する。
そして、割当処理部17は、選択枚数情報に基づいて、ソート済みの代表画像情報を参照しながら、画像を選択していく。つまり、割当処理部17は、下記の(1)から(3)までのルールにしたがって画像を選択する。なお、各画像のスコア値は、0または正の値である。
ルール(1):各ブロックで少なくとも「最低枚数」として規定された枚数の静止画像を、優先度の高い順に選択する。
ルール(2):ただし、ルール(1)に関わらず、スコア値が0である画像を選択しない。つまり、あるブロック内においてスコア値が非零である画像の枚数が「最低枚数」として規定された枚数に満たない場合には、スコア値が非零である画像のみを選択する。その結果として当該ブロックにおいては、選択される画像の枚数が「最低枚数」を下回っても良い。
ルール(3):上記のルール(1)および(2)に従いながら、「番組ごとの最大枚数」として規定された枚数に達するまで、番組全体での優先度(スコア(第1ソートキー)およびフレーム番号(第2ソートキー))が高い順に、画像を選択していく。ただしこのとき、一つのブロックから「各ブロックの最大枚数」として規定される枚数を超える見数の画像が選択されることはない。つまり、「各ブロックの最大枚数」に達したブロックに関しては、たとえ優先度の高い画像が含まれていても、その最大枚数を超える枚数の画像は選択されない。
以上の処理により、割当処理部17は、サマリーコンテンツとして必要な枚数の代表画像を割り当てる。また、割当処理部17は、字幕データのテキストのうち、割り当てられた代表画像のタイミングを含む一文、あるいはその文とその前後の複数の文とを抽出し、サマリーコンテンツ用のテキストとして割り当てる。このとき、割当処理部17は、(a)字幕データと音声認識の両方に含まれており両者が一致する箇所、(b)字幕データには含まれておらず音声認識によって追加された箇所、(c)字幕データには含まれているが音声認識結果に含まれていなかった箇所、それぞれのテキストを区別できる形で提示部18に渡す。
提示部18は、割当処理部17によって割り当てられた代表画像(静止画)と、各代表画像に対応するテキスト(字幕データや音声認識結果から得られたテキスト)とを対応付ける形でレイアウトし、端末装置の画面等を通して利用者に提示する。一例として、提示部18は、これらの静止画とテキストとを、HTML(ハイパーテキストマークアップ言語)の記述によって配置し、そのHTML文書をサマリーコンテンツの案として出力する。提示部18等による利用者インターフェースについては、次に述べる。
次に、提示部18および編集部19の機能に関する利用者インターフェースについて説明する。
図7は、コンテンツ生成装置1(特に、提示部18および編集部19)によって表示される画面を示す概略図である。図示する画面は、例えば、端末装置201(図2)上でのウィンドウシステムにおける一つの窓として表示されるものである。同図において、符号101は、サマリーコンテンツを表示する領域である。102は、すべての代表画像を表示する領域である。103は、ダウンロードを指示するためのボタン(マウス等のポインティング手段によって疑似的に押下されるボタン)である。104は、動画のダウンロードを指示するためのボタンである。
この画面を通した操作により、サマリーコンテンツの提示、テキスト編集、画像の追加および削除、レイアウト変更、試写、公開のためのコンテンツ出力、ステイタス管理、公開用動画ダウンロードといった作業を行うことができるようになっている。
領域101に表示されるサマリーコンテンツは、割当処理部17が自動的に割り当てて提示部18が提示したサマリーコンテンツの案、または編集部19の機能によって編集した結果であるサマリーコンテンツの案である。利用者(例えば、サマリーコンテンツの制作担当者)は、編集部19の機能を用いてこの領域内で編集操作をすることにより、サマリーコンテンツを編集することができる。
領域101内に表示されているテキストは、前述の通り、割当処理部17によって割り当てられたものである。テキストのうち、音声認識結果には含まれていたが元々の字幕データ内には存在しなかった箇所には、そのことを示すマークが付けられている。利用者(例えば、サマリーコンテンツの制作担当者)が、領域101内に表示されている静止画を選択すると、コンテンツ生成装置1は、その静止画のタイミングの近傍の音声を再生する。これにより、利用者が、音声を確認することができるようになっている。そして、利用者は、その音声を確認しながらテキストの追記・削除・修正などといった操作を行えるようになっている。
領域102には、代表画像抽出部14によって抽出された静止画像が、ブロックごとに分類されて小さく表示されている。領域102内の各段が、各ブロックに対応する。また、各ブロックの開始時刻(番組開始からの相対時刻)が、「HH:MM:SS」形式で表示されている(例えば、「00:05:30」)。また、各画像の下には、その画像の時刻が表示されている。領域102に表示されている静止画は、サマリーコンテンツに用いる静止画の候補である。例えば、利用者が特定の静止画にカーソルを合わせてマウスのダブルクリックをするなどといった操作を行うと、編集部19はその静止画をサマリーコンテンツ内に自動的に組み込む(挿入する)処理を行う。
領域102の上には、領域102に表示させる内容を変更するためのタブが表示されている。タブとしては、「代表」と「全件」の2種類のタブが存在する。通常の状態においては、「代表」タブが選択されており、この状態においては領域102には上述の通り代表画像が表示される。利用者の操作によって「全件」タブが選択されると、領域102の表示内容が全件静止画表示に切り替わる。この全件静止画表示の状態においては、領域101において現在選択されている静止画を中心として、その前後の時間の全件静止画(つまり、領域102内に収まる限りの全フレームの静止画)が表示される。なお、この全件静止画の表示においては静止画の表示間隔を変えることもできる。表示間隔を1フレームごととした場合には、全ての静止画が表示される。利用者は、この全件静止画表示の中から、サマリーコンテンツとして使用する静止画を選択し、領域101内の静止画を差し替える操作をすることができるようになっている。また、領域101の静止画を選択し、全件静止画タブに含まれる「選択中の画像を表示」ボタンを押下することにより、素早く着目した静止画の前後フレームを表示することができる。これらの機能により、例えば、代表画像抽出部14によって自動的に抽出された静止画が「目つぶり」などのためにサマリーコンテンツ用には不適切な場合も、上記の操作によって素早く前後のフレームの画像と入れ替えることが可能となる。
ボタン103は、画像を含むサマリーコンテンツおよび代表画像の一式をダウンロードする指示のためのボタンである。また、ボタン104は、公開用の動画をダウンロードする指示のためのボタンである。
図8は、コンテンツ生成装置1(特に、提示部18および編集部19)によって表示される画面を示す概略図であり、特に、字幕データに含まれない音声認識結果が存在する場合の画面表示例を示す。
字幕受信部31が受信した字幕データと、音声認識部32が出力した音声認識結果とを、比較部33が比較することは既に述べたとおりである。そして、字幕補正部34がそれら両者の差に基づく補正を行うことも既に述べたとおりである。図8に示す画面は、図7における領域101の中の一部である。字幕受信部31が受信した字幕データには含まれていないが、音声認識結果には含まれている文字列がある場合、コンテンツ生成装置1は、図8内に存在する(矢印で指し示している)「音声認識あり」という文字列を表示する。なお、この「音声認識あり」という表示をマウスによってクリックすることができるようにして、利用者がクリック操作を行うと、コンテンツ生成装置1が、両者の差分である音声認識結果の文字列を表示するようにしても良い。これらにより、利用者は、音声認識結果を参考として、サマリーコンテンツのテキストの編集作業を行うことができる。
なお、ここに例示した形態の利用者インターフェース以外でも、字幕データと音声認識結果の差分を認識して、その差分を考慮しながらテキストを編集でききるような利用者インターフェースを、コンテンツ生成装置1が提供するようにしても良い。
次に、字幕補正部34による補正処理の詳細について、説明する。字幕補正部34は、比較部33から比較処理の結果を受け取る。この比較処理により、既に、字幕データと音声認識結果との間での対応付けが済んでいる。字幕補正部34が行う処理の第1は、タイムコードの補正である。具体的には、字幕補正部34は、字幕データに付与されているタイムコードを、音声認識結果に基づくタイムコードに付け替えることにより、タイムコードの補正を行う。一般に、字幕データのタイムコードよりも、音声認識結果のタイムコードのほうが、映像とよく整合している。したがって、このような補正を行うことにより、映像(および映像から抽出された代表画像)と字幕データのテキストとの間の対応付けの精度が上がる。また、字幕補正部34が行う処理の第2は、音声認識結果に含まれているテキストであって、字幕データへの対応付けが行われていない(つまり、字幕データが欠落している)箇所について、字幕データ内の適切な位置への挿入を行う。字幕補正部34は、挿入されるテキストにも、音声認識結果のタイムコードを付加する。
なお、字幕補正部34は、字幕データに基づくテキストと、音声認識結果に基づくテキストとを、区別できる形式のデータを出力する。そのデータ形式については、次に説明する。
図9は、字幕補正部34が補正処理の後で出力するデータの例を示す概略図である。図示するように、字幕補正部34が出力するデータは、XML(Extensible Markup Language)形式である。同図では、便宜上、各行に番号を付している。図示するデータにおいて、SET要素(セット)は、テキストのひとまとまりの単位に対応する。例示するデータは、3つのSET要素を含む。第1のSET要素は、第1行から第6行までである。第2のSET要素は、第7行から第12行までである。第3のSET要素は、第13行から第18行までである。
各SET要素は、タイムコード情報と、音声認識結果情報と、字幕データ情報とを含んでいる。タイムコード情報は、START要素とEND要素とで構成される。START要素は、そのSET要素の開始時刻(番組開示時を0とする相対時刻)を秒単位で表す数値データを含む。END要素は、そのSET要素の終了時刻を秒単位で表す数値データを含む。なお、開始時刻および終了時刻の数値データは、小数点第3位まで表されている。例えば、第1のSET要素に関して、START要素は第2行のデータ(数値は「387.650」)であり、END要素は第3行のデータ(数値は「391.880」)である。このタイムコード情報は、元々、映像(音声を含む)のプレゼンテーションタイムに基づくものである。字幕補正部34が出力するタイムコード情報は、字幕データと音声認識結果データとの間の補正処理済みのものである。音声認識結果情報は、REC要素で表されており、そのSET要素に含まれる、音声認識結果のテキストを保持している。字幕データ情報は、CAP要素で表されており、そのSET要素に含まれる字幕データのテキストを保持している。
既に述べたように、音声認識結果情報(REC要素)に対応する字幕データ情報(CAP要素)が存在しない場合がある。このような場合、字幕データ情報は、空(ヌル)テキストを保持する。例えば、図示している第2のSET要素においては、REC要素(第10行)が「やっぱり査察になります」というテキストを保持しているのに対して、CAP要素(第11行)が保持しているものは空テキストである。つまり、この第2のSET要素に関しては、元々字幕データが存在していなかったが、字幕補正部34の処理によって、音声認識結果のテキストが挿入されたことにより、このような形となっている。なお、第1のSET要素および第3のSET要素において、音声認識結果のテキストと字幕データのテキストとは互いに完全には一致していない。しかし、比較部33の処理により、最も類似している箇所同士が対応付けられた結果が、第1および第3のSET要素である。
本実施形態によれば、コンテンツ生成装置は、映像のカット点の位置に基づいて、サマリーコンテンツに適した静止画を自動的に抽出する。また、コンテンツ生成装置は、抽出された静止画に関連するテキストを字幕データから抽出する。また、コンテンツ生成装置は、制作担当者がサマリーコンテンツを素早く修正するための利用者インターフェースを提供する。また、コンテンツ生成装置は、音声認識結果に基づいて、字幕データに正確なタイムコードを付与するための補正処理を行う。また、コンテンツ生成装置は、音声認識結果を用いて、字幕データに含まれない箇所(例えばインタビュー映像等)に対応するテキストを自動的に挿入する。また、コンテンツ生成装置は、抽出された代表画像を置換するための、全件画像を表示し、利用者が簡単な操作で静止画の差し替えを行えるようにする。また、コンテンツ生成装置は、制作担当者が制作したサマリーコンテンツを、試写、承認、公開するまでの業務プロセスに応じた一気通貫の機能を提供する。これらにより、効率的にサマリーコンテンツを制作することが可能となる。
つまり、本実施形態によれば、次の効果が得られる。第1に、ホームページ制作や画像編集などに関する専門的知識がなくても、利用者は、自動生成されたサマリーコンテンツの案に基づいて効率的に制作を進めることができる。第2に、制作過程において、静止画選定、画像加工、時間軸方向の静止画並べ替え処理などといった様々な作業を手作業で行う場合に比べて、大幅な省力化することができる。第3に、生字幕からもサマリーコンテンツの案を自動生成することができる。これは、音声認識処理の結果に基づいて、字幕データのタイムコードを補正していることにも依る。第4に、字幕に含まれないインタビュー等が含まれている可能性がある箇所を運用者に示すことで課題となっている書き起こしが容易に行える。これは、字幕データと音声認識処理の結果とを比較して、字幕データが存在しない箇所のテキストを自動的に挿入することによる。
従来の方法でサマリーコンテンツを制作していた時には対象とする動画の長さの何杯もの時間の作業を要していた。一方、本実施形態を用いた場合、動画および字幕データを取得してからコンテンツ生成装置1がサマリーコンテンツの案を提示するまでに要する時間はほぼその動画自体の長さ程度である。つまり、サマリーコンテンツの制作の効率を上げることができる。
なお、上述した実施形態におけるコンテンツ生成装置の全部または一部の機能を、コンピューターで実現するようにしても良い。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
以上、実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。
変形例1:図1に示した機能ブロックのうち、動画受信部11、字幕受信部31、代表画像抽出部14、割当処理部17のみを用いて、その他の機能ブロックを省略してコンテンツ生成装置を構成しても良い。この構成においても、動画から静止画を自動的に抽出し、動画(および静止画)に付与されたタイムコードと、字幕データに付与されたタイムコードとを用いて、静止画およびテキスト(字幕データに基づくテキスト)とを時刻の順にしたがって配置し、サマリーコンテンツを生成することができる。
変形例2:上記の変形例1の構成に加えて、カット点抽出部13を備えるようにしても良い。このとき、代表画像抽出部14は、カット点抽出部13が抽出したカット点を基準として、所定の位置(時間的に、カット点の前または後)の代表画像を抽出する。つまり、放送番組等の演出として適切なタイミングの代表画像を抽出することができる。
変形例3:上記の変形例1または2の構成に加えて、オブジェクト検出部15とスコア付与部16を備えるようにしても良い。スコア付与部16は、オブジェクト検出部15が検出するオブジェクトおよび字幕(映像内の字幕)にスコアを付与する。そして、割当処理部17は、代表画像抽出部14が抽出した静止画のうち、付与されたスコアの値が高い静止画を優先して選択して配置する。これにより、静止画に含まれるオブジェクト等に基づいて、重要な静止画が優先的に選択される。なお、割当処理部17は、必ずしもブロックごとの枚数の規定にしたがって静止画を選択するようにしなくても良い。1本の動画(番組等)全体の中からスコアの高い静止画を優先的に選択するようにしても良い。
変形例4:上記の変形例3の構成に加えて、キーワード検索部35を備えるようにしても良い。そして、スコア付与部16は、検索処理で検出されたキーワードの位置から前または後に所定の長さの範囲内の静止画に、当該キーワードに応じたスコアをさらに付与する。これにより、字幕データにも基づいて、静止画のスコアを付与さることができるようになる。
変形例5:上記の変形例3または4の構成に加えて、割当処理部17は、動画を時間方向に複数のブロックに区切り、予め定められたブロックあたりの静止画枚数の範囲内で、ブロックごとにスコアの値が高い静止画を優先して選択するようにしても良い。これにより、動画全体のなかであまり時間的な偏りを生じずに、万遍なく静止画を選択できるようになる。
変形例6:上記の変形例1から5までのいずれかの構成に加えて、音声認識部32、比較部33、字幕補正部34を備えるようにしても良い。これにより、音声認識結果を用いて字幕データのプレゼンテーションタイムを補正することができる。つまり、字幕データの提示時刻情報をより正確にできる。また、提示の遅延とゆらぎの度合いが大きいいわゆる生字幕の場合にも、より正確なタイミング(時間同期)を扱えるようになる。
変形例7:上記の変形例6の構成に加えて、字幕補正部34が、字幕データが存在しない箇所で且つ音声認識結果が存在する箇所については、当該箇所の音声認識結果を、当該箇所の字幕データへの挿入候補のテキストデータとして取り込むようにしても良い。これにより、字幕データが含まれないについて、利用者に知らせることができ、また音声認識結果をサマリーコンテンツのテキストとして取り込む選択肢を利用者に与えることもできる。
以上、この発明の実施形態およびその変形例について、図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
本発明は、例えば映像コンテンツを配信する事業等に利用できる。そのような事業において、映像コンテンツの内容の概略を把握することのできるサマリーコンテンツを効率的に制作することができる。
1 コンテンツ生成装置
11 動画受信部
12 トランスコード部
13 カット点抽出部
14 代表画像抽出部
15 オブジェクト検出部
16 スコア付与部
17 割当処理部
18 提示部
19 編集部
20 承認部
21 最終出力部
31 字幕受信部(テキスト受信部)
32 音声認識部
33 比較部
34 字幕補正部(補正部)
35 キーワード検索部
100 ファイルベース送出システム
101 原盤ファイル制作システム
102 生字幕抽出サーバー装置
201,202 端末装置
301 公開用ウェブサーバー装置

Claims (7)

  1. 提示時刻情報が付加された動画を受信する動画受信部と、
    提示時刻情報が付加されたテキストデータを受信するテキスト受信部と、
    前記動画受信部が受信した前記動画から前記提示時刻情報が付加された静止画を抽出する代表画像抽出部と、
    前記テキストデータに付加された前記提示時刻情報と、前記静止画に付加された前記提示時刻情報とに基づいて、前記テキストデータおよび前記静止画を時刻の順にしたがって配置する割当処理部と、
    前記動画受信部が受信した前記動画に含まれる音声について音声認識処理を行うことによって、前記提示時刻情報が付加された音声認識結果を出力する音声認識部と、
    前記テキストデータと前記音声認識結果とを比較して一致度の高い部分同士を対応付ける比較部と、
    前記比較部による処理の結果に基づいて、前記テキストデータに付加されていた前記提示時刻情報を、前記テキストデータと一致度の高い部分同士として対応付いた前記音声認識結果に付加された前記提示時刻情報を用いて置き換えることにより、提示時刻情報を補正する補正部と、
    を具備することを特徴とするコンテンツ生成装置。
  2. 前記動画受信部が受信した前記動画内のカット点を抽出するカット点抽出部、
    をさらに具備し、
    前記代表画像抽出部は、前記カット点抽出部が抽出した前記カット点から前または後に所定の長さの位置の前記静止画を抽出する、
    ことを特徴とする請求項1に記載のコンテンツ生成装置。
  3. 前記代表画像抽出部が抽出した前記静止画内に画像として含まれているオブジェクトまたは字幕を検出するオブジェクト検出部と、
    前記オブジェクト検出部が検出した前記オブジェクトまたは前記字幕に応じたスコアを当該オブジェクトまたは当該字幕を含む前記静止画に付与するスコア付与部と、
    をさらに具備し、
    前記割当処理部は、前記代表画像抽出部が抽出した前記静止画のうち、前記スコア付与部によって付与されたスコアの値が高い前記静止画を優先して選択して配置する、
    ことを特徴とする請求項1または2に記載のコンテンツ生成装置。
  4. 予め定めたキーワードを用いて前記テキスト受信部が受信したテキストデータを検索するキーワード検索部、
    をさらに具備し、
    前記スコア付与部は、前記キーワード検索部によって検出された前記キーワードの前記テキストデータ内の位置に対応する前記提示時刻情報を用いて、当該提示時刻情報が示す位置から前または後に所定の長さの範囲内の前記静止画に、当該キーワードに応じたスコアをさらに付与する、
    ことを特徴とする請求項3に記載のコンテンツ生成装置。
  5. 前記割当処理部は、前記動画を時間方向に複数のブロックに区切り、予め定められたブロックあたりの静止画枚数の範囲内で、前記ブロックごとに前記スコアの値が高い前記静止画を優先して選択する、
    ことを特徴とする請求項3または4に記載のコンテンツ生成装置。
  6. 前記補正部は、前記比較部による処理の結果として前記テキストデータが存在しない箇所で且つ前記音声認識結果が存在する箇所については、当該箇所の前記音声認識結果を、当該箇所の前記テキストデータへの挿入候補のテキストデータとして取り込む、
    ことを特徴とする請求項1から5までのいずれか一項に記載のコンテンツ生成装置。
  7. コンピューターを、
    提示時刻情報が付加された動画を受信する動画受信手段と、
    提示時刻情報が付加されたテキストデータを受信するテキスト受信手段と、
    前記動画受信手段が受信した前記動画から前記提示時刻情報が付加された静止画を抽出する代表画像抽出手段と、
    前記テキストデータに付加された前記提示時刻情報と、前記静止画に付加された前記提示時刻情報とに基づいて、前記テキストデータおよび前記静止画を時刻の順にしたがって配置する割当処理手段と、
    前記動画受信手段が受信した前記動画に含まれる音声について音声認識処理を行うことによって、前記提示時刻情報が付加された音声認識結果を出力する音声認識手段と、
    前記テキストデータと前記音声認識結果とを比較して一致度の高い部分同士を対応付ける比較手段と、
    前記比較手段による処理の結果に基づいて、前記テキストデータに付加されていた前記提示時刻情報を、前記テキストデータと一致度の高い部分同士として対応付いた前記音声認識結果に付加された前記提示時刻情報を用いて置き換えることにより、提示時刻情報を補正する補正手段と、
    として機能させるためのプログラム。
JP2015116346A 2015-06-09 2015-06-09 コンテンツ生成装置およびプログラム Active JP6601944B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015116346A JP6601944B2 (ja) 2015-06-09 2015-06-09 コンテンツ生成装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015116346A JP6601944B2 (ja) 2015-06-09 2015-06-09 コンテンツ生成装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2017005442A JP2017005442A (ja) 2017-01-05
JP6601944B2 true JP6601944B2 (ja) 2019-11-06

Family

ID=57752912

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015116346A Active JP6601944B2 (ja) 2015-06-09 2015-06-09 コンテンツ生成装置およびプログラム

Country Status (1)

Country Link
JP (1) JP6601944B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11651167B2 (en) 2020-08-17 2023-05-16 Fujifilm Business Innovation Corp. Information processing apparatus and non-transitory computer readable medium

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102085908B1 (ko) * 2018-05-10 2020-03-09 네이버 주식회사 컨텐츠 제공 서버, 컨텐츠 제공 단말 및 컨텐츠 제공 방법
JP6615952B1 (ja) * 2018-07-13 2019-12-04 株式会社ソケッツ テキスト表示用同期情報生成装置および方法
US11386901B2 (en) 2019-03-29 2022-07-12 Sony Interactive Entertainment Inc. Audio confirmation system, audio confirmation method, and program via speech and text comparison
JP2021033366A (ja) * 2019-08-15 2021-03-01 ヤフー株式会社 提供装置、提供方法および提供プログラム
JP7530087B2 (ja) * 2020-07-20 2024-08-07 ノースショア株式会社 カット表作成装置及びプログラム
JP7241131B2 (ja) * 2021-07-16 2023-03-16 株式会社フジテレビジョン 情報抽出装置および情報抽出プログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09270997A (ja) * 1996-03-29 1997-10-14 Sony Corp ダイジェスト画面選択方法、ダイジェスト画面選択装置、映像信号記録装置、及び映像信号再生装置
JPH11331761A (ja) * 1998-05-18 1999-11-30 Nippon Telegr & Teleph Corp <Ntt> 映像の自動要約方法およびその装置およびその方法を記録した記録媒体
JP2001282779A (ja) * 2000-03-30 2001-10-12 Telecommunication Advancement Organization Of Japan 電子化テキスト作成システム
JP4019085B2 (ja) * 2005-03-28 2007-12-05 Necパーソナルプロダクツ株式会社 番組録画装置、番組録画方法および番組録画プログラム
JP2006339817A (ja) * 2005-05-31 2006-12-14 Toshiba Corp 情報処理装置およびその表示方法
JP5360979B2 (ja) * 2009-06-25 2013-12-04 Kddi株式会社 重要情報抽出方法および装置
JP2014146939A (ja) * 2013-01-29 2014-08-14 Dainippon Printing Co Ltd フォトブック作成端末、フォトブック作成方法、及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11651167B2 (en) 2020-08-17 2023-05-16 Fujifilm Business Innovation Corp. Information processing apparatus and non-transitory computer readable medium

Also Published As

Publication number Publication date
JP2017005442A (ja) 2017-01-05

Similar Documents

Publication Publication Date Title
JP6601944B2 (ja) コンテンツ生成装置およびプログラム
CA2924065C (en) Content based video content segmentation
KR101644789B1 (ko) 방송 프로그램 연관 정보 제공 장치 및 방법
CN109756751B (zh) 多媒体数据处理方法及装置、电子设备、存储介质
US7616840B2 (en) Techniques for using an image for the retrieval of television program information
US8060609B2 (en) Systems and methods for determining attributes of media items accessed via a personal media broadcaster
US20070130611A1 (en) Triggerless interactive television
EP2691919A2 (en) Devices, systems, methods, and media for detecting, indexing, and comparing video signals from a video display in a background scene using a camera-enabled device
KR101293301B1 (ko) 동영상 자막을 키워드로 이용한 영상 검색 시스템 및 방법
US11990158B2 (en) Computing system with DVE template selection and video content item generation feature
JP2006287319A (ja) 番組ダイジェスト作成装置および番組ダイジェスト作成プログラム
CN103984772A (zh) 文本检索字幕库生成方法和装置、视频检索方法和装置
KR101927965B1 (ko) 광고 동영상 제작 시스템 및 방법
CN116389849A (zh) 视频生成方法、装置、设备及存储介质
KR101749420B1 (ko) 자막 정보를 이용한 영상 콘텐츠의 대표 이미지 추출 장치 및 방법
JP2004343352A (ja) 電子機器装置及びテロップ情報処理方法
KR101930488B1 (ko) 연동형 서비스 제공을 위한 메타데이터 생성 방법 및 그를 위한 장치
KR20150023492A (ko) 동기화된 영화 요약
JP2004185424A (ja) プレゼンテーション記録装置
JP5213747B2 (ja) 映像コンテンツ保管視聴システムおよび方法
JP2002199302A (ja) 文字情報提供システム及び文字情報提供方法及びその方法を実現するプログラムを記録した記録媒体
KR101578080B1 (ko) 영상에서의 멀티 객체 정보 저작 방법
KR20230114130A (ko) 광고 영상 제작 시스템 및 방법
CN115022705A (zh) 一种视频播放方法、装置及设备
EP3044728A1 (en) Content based video content segmentation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180501

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20181026

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190116

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190404

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190910

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191007

R150 Certificate of patent or registration of utility model

Ref document number: 6601944

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250