JP6745381B2

JP6745381B2 - シーンメタ情報生成装置およびシーンメタ情報生成方法

Info

Publication number: JP6745381B2
Application number: JP2019089618A
Authority: JP
Inventors: チェー，ビョンギョ; キム，ジュンオ; パク，ソンヒョン; ソ，チャンス; ソン，ハンナ; イ，サンユン; イ，ソンヒョン; チョン，テクジュ; チェー，ユファン; ファン，ヒョウォン; ユン，ジュン; コ，チャンヒョク
Original assignee: Naver Corp
Current assignee: Naver Corp
Priority date: 2018-05-10
Filing date: 2019-05-10
Publication date: 2020-08-26
Anticipated expiration: 2039-05-10
Also published as: KR102085908B1; JP2019198074A; KR20190129266A; US20190349641A1; US11350178B2

Description

本発明は、コンテンツ提供サーバ、コンテンツ提供端末およびコンテンツ提供方法に関し、より具体的には、画像コンテンツから抽出されたオーディオ情報を用いて再生区間別のシーンメタ情報を生成するコンテンツ提供サーバ、コンテンツ提供端末およびコンテンツ提供方法に関する。

情報通信技術と文化の発達により、様々な画像コンテンツが製作されて世界全域に伝播されている。しかし、画像コンテンツは、本とは異なり、視聴者がコンテンツの進行水準を制御することができないため、再生中の画像に対する視聴者の理解可否に関係なく該画像を鑑賞しなければならないという問題がある。よって、このような問題を解決するために、画像の再生時点を制御したり画像を探索したりするための様々な方法が提示されている。

画像の再生時点を制御するために最も代表的に提示できる方法として、スクロールバーを用いた制御が例示できる。これは、ユーザが画像の再生時間に対応して生成されるスクロール領域で任意の地点を選択する場合、該時点に画像の再生時点が移動するようになる方式である。

しかし、スクロール領域は画像の再生時間に関係なく一定の長さを有するため、画像の再生時間が長い場合、スクロール領域での小さい移動だけでも画像の再生時点が大きく変更されるので、再生時点の微細な制御が難しくなる。特にモバイル環境で画像を鑑賞する場合、ディスプレイの大きさが小さく、指でスクロールバーを制御しなければならない場合が多いため、画像の再生時点を制御するのがより難しくなるという問題がある。

また、画像の場合、ユーザの理解を助けるために登場人物の台詞または再生される内容の説明のための字幕が添付されて提供される場合が多い。しかし、ユーザが画像から特定の内容の字幕を探すためにスクロール機能を用いる場合、前記問題により所望のシーンと台詞に対する字幕を探すことは容易ではない。

なお、ユーザの通信速度が制限される環境で画像の内容を把握しようとする時、画像が大容量または高画質である場合、サーバからコンテンツ提供端末に画像が円滑に提供されることができないため、画像の全てのシーンをリアルタイムで鑑賞するのが難しい。

本発明は、前述した問題および他の問題を解決することを目的とする。また他の目的は、画像コンテンツから抽出されたオーディオ情報を用いて再生区間別のシーンメタ情報を生成するコンテンツ提供サーバ、コンテンツ提供端末およびコンテンツ提供方法を提供することにある。

また他の目的は、画像コンテンツに関する再生区間別のシーンメタ情報を活用して様々なビデオサービスを提供するコンテンツ提供サーバ、コンテンツ提供端末およびコンテンツ提供方法を提供することにある。

上記または他の目的を達成するために、本発明の一側面によれば、画像コンテンツと関連した字幕ファイルに基づいて複数の単位字幕を検出し、前記複数の単位字幕を補正する字幕情報生成部、前記画像コンテンツからオーディオ情報を抽出し、前記オーディオ情報に基づいて複数の音声区間を検出し、各音声区間内のオーディオ情報に対して音声認識を実行するオーディオ情報生成部、および各音声区間に対応するビデオ区間を検出し、前記ビデオ区間内の画像フレームに対して画像認識を実行し、前記画像フレームの中から代表イメージを選択するイメージ情報生成部を含むシーンメタ情報生成装置を提供する。

本発明の他の側面によれば、画像コンテンツと関連した字幕ファイルに基づいて字幕情報を検出するステップ、前記画像コンテンツからオーディオ情報を抽出し、前記オーディオ情報に基づいて複数の音声区間を検出するステップ、各音声区間内のオーディオ情報に対する音声認識結果に基づいて前記字幕情報を補正するステップ、および各音声区間に対応するビデオ区間を検出し、前記ビデオ区間内の画像フレームに対する画像認識結果に基づいて代表イメージを選択するステップを含むシーンメタ情報生成方法を提供する。

本発明のまた他の側面によれば、画像コンテンツからオーディオ情報を抽出し、前記オーディオ情報に基づいて複数の音声区間を検出し、各音声区間内のオーディオ情報に対して音声認識を実行するオーディオ情報生成部、各音声区間内のオーディオ情報に対する音声認識結果に基づいて字幕情報を生成する字幕情報生成部、および各音声区間に対応するビデオ区間を検出し、前記ビデオ区間内の画像フレームに対して画像認識を実行し、前記画像フレームの中から代表イメージを選択するイメージ情報生成部を含むシーンメタ情報生成装置を提供する。

本発明の実施形態によるコンテンツ提供サーバ、コンテンツ提供端末およびコンテンツ提供方法の効果について説明すれば以下のとおりである。

本発明の実施形態のうち少なくとも一つによれば、画像コンテンツから抽出されたオーディオ情報を用いて再生区間別のシーンメタ情報を生成することによって、前記再生区間別のシーンメタ情報を活用した様々なビデオサービスを提供できるという長所がある。

また、本発明の実施形態のうち少なくとも一つによれば、画像コンテンツから抽出されたオーディオ情報を用いて字幕区間および／または字幕テキスト情報を補正することによって、ディスプレイ部の一領域に表示された字幕に対する視聴者の可読性を向上できるという長所がある。

但し、本発明の実施形態によるコンテンツ提供サーバ、コンテンツ提供端末およびコンテンツ提供方法が達成できる効果は以上で言及したものに制限されず、言及していないまた他の効果は下記の記載により本発明が属する技術分野で通常の知識を有する者に明らかに理解できるものである。

本発明の一実施形態によるコンテンツ提供システムの構成を示す図である。本発明の一実施形態によるサーバの構成を示すブロック図である。本発明の一実施形態によるユーザ端末の構成を示すブロック図である。本発明の一実施形態によるシーンメタ情報生成装置の構成を示すブロック図である。単位字幕のタイムコードを音声区間に合わせて拡張する動作を説明するために参照される図である。一つの単位字幕を二つ以上の単位字幕に分割する動作を説明するために参照される図である。二つ以上の単位字幕を一つの単位字幕に併合する動作を説明するために参照される図である。本発明の一実施形態によるシーンメタ情報フレームの構成を示す図である。本発明の一実施形態による音声区間分析部の動作プロセスを示す図である。本発明の一実施形態による音声認識部の動作プロセスを示す図である。本発明の一実施形態によるイメージタグ部の動作プロセスを示す図である。各画像フレームに対応するイメージタグ情報を例示する図である。本発明の一実施形態によるシーン選択部の動作プロセスを示す図である。複数のイメージタグ情報とテキスト化された音声情報間の類似度の測定を例示する図である。本発明の他の実施形態によるシーンメタ情報生成装置の構成を示すブロック図である。本発明の一実施形態による字幕補正装置の構成を示すブロック図である。本発明の一実施形態による字幕補正方法を説明するフローチャートである。シーンメタ情報を活用してビデオスライドサービスを提供するユーザ端末を例示する図である。シーンメタ情報を活用してビデオ検索サービスを提供するユーザ端末を例示する図である。

以下では添付図面を参照して本明細書に開示された実施形態について詳しく説明するが、図面符号に関係なく同一または類似した構成要素には同一の参照番号を付し、それに対する重複する説明は省略することにする。以下の説明で用いられる構成要素に対する接尾辞「モジュール」および「部」は、明細書の作成の容易さだけを考慮して付与または混用されるものであって、それ自体で互いに区別される意味または役割を有するものではない。すなわち、本発明で用いられる「部」という用語はソフトウェア、ＦＰＧＡまたはＡＳＩＣのようなハードウェア構成要素を意味し、「部」はある役割をする。ところが、「部」はソフトウェアまたはハードウェアに限定される意味ではない。「部」は、アドレッシングできる格納媒体にあるように構成されてもよく、一つまたはそれ以上のプロセッサを再生させるように構成されてもよい。よって、一例として「部」は、ソフトウェア構成要素、オブジェクト指向ソフトウェア構成要素、クラス構成要素およびタスク構成要素のような構成要素と、プロセス、関数、属性、プロシージャ、サブルーチン、プログラムコードのセグメント、ドライバ、ファームウェア、マイクロコード、回路、データ、データベース、データ構造、テーブル、アレイおよび変数を含む。構成要素と「部」の中から提供される機能は、さらに小さい数の構成要素および「部」で結合されるか、または追加の構成要素と「部」にさらに分離されてもよい。

また、本明細書に開示された実施形態を説明するにおいて、関連の公知技術に関する具体的な説明が本明細書に開示された実施形態の要旨を濁す恐れがあると判断される場合には、その詳細な説明は省略する。また、添付された図面は本明細書に開示された実施形態を容易に理解できるようにするためのものに過ぎず、添付された図面によって本明細書に開示された技術的思想が制限されるものではなく、本発明の思想および技術範囲に含まれる全ての変更、均等物乃至代替物を含むものとして理解しなければならない。

本発明は、画像コンテンツから抽出されたオーディオ情報を用いて再生区間別のシーンメタ情報を生成するコンテンツ提供サーバ、コンテンツ提供端末およびコンテンツ提供方法を提案する。また、本発明は、画像コンテンツに関する再生区間別のシーンメタ情報を活用して様々なビデオサービスを提供するコンテンツ提供サーバ、コンテンツ提供端末およびコンテンツ提供方法を提案する。

一方、本明細書において、画像コンテンツは、ユーザ端末の表示装置で再生されるコンテンツであって、複数の画像およびオーディオフレームで構成された動画（ｍｏｖｉｎｇｉｍａｇｅ）を意味する。字幕ファイル（例えば、ｓｍｉファイル）は、画像コンテンツと関連した字幕に関するファイルであって、画像コンテンツに含まれて提供されるかまたは画像コンテンツとは別個に提供されてもよい。字幕ファイルは、画像コンテンツ提供者または別途の字幕提供者により製作されてデータベースに格納されることができる。

シーンメタ情報は、画像コンテンツを構成する場面（ｓｃｅｎｅｓ）を識別するための情報であって、タイムコード（ｔｉｍｅｃｏｄｅ）、代表イメージ情報、字幕情報、オーディオ情報のうち少なくとも一つを含む。ここで、タイムコードは画像コンテンツの字幕区間および／または音声区間に関する情報であり、代表イメージ情報は音声区間内のシーンイメージのいずれか一つのイメージに関する情報である。また、字幕情報は各字幕区間に対応する単位字幕情報であり、オーディオ情報は各音声区間に対応する単位オーディオ情報である。

音声区間は、画像コンテンツの再生区間のうち単位音声が出力される区間に関する情報として、各単位音声の出力が始まる画像コンテンツの再生時点に関する「音声開始時間情報」と、各単位音声の出力が終了する画像コンテンツの再生時点に関する「音声終了時間情報」と、各単位音声の出力が維持される時間に関する「音声出力時間情報」とから構成されることができる。一方、他の実施形態として、音声区間は、「音声開始時間情報」と「音声終了時間情報」だけで構成されてもよい。

字幕区間は、画像コンテンツの再生区間のうち単位字幕が表示される区間に関する情報として、各単位字幕の表示が始まる画像コンテンツの再生時点に関する「字幕開始時間情報」と、各単位字幕の表示が終了する画像コンテンツの再生時点に関する「字幕終了時間情報」と、各単位字幕の表示が維持される時間に関する「字幕表示時間情報」とから構成されることができる。一方、他の実施形態として、字幕区間は、「字幕開始時間情報」と「字幕終了時間情報」だけで構成されてもよい。

このように、音声区間および字幕区間は、画像コンテンツの再生時点を基準に設定されることができる。一方、字幕区間は、字幕製作者または編集者などにより任意に設定されることもできる。字幕区間は、画像コンテンツにおいて台詞またはナレーションが出力される区間に限って設定されない。したがって、字幕情報の製作者や編集者は、画像コンテンツの任意区間を字幕区間に設定することもできる。

以下では、本発明の様々な実施形態について図面を参照して詳しく説明する。

図１は、本発明の一実施形態によるコンテンツ提供システムの構成を示す図である。図１を参照すれば、本発明に係るコンテンツ提供システム１０は、通信ネットワーク１００、サーバ２００およびユーザ端末３００などを含むことができる。

サーバ２００とユーザ端末３００は、通信ネットワーク１００を介して互いに連結されることができる。通信ネットワーク１００は有線ネットワークおよび無線ネットワークを含むことができ、具体的には、ローカルエリア・ネットワーク（ＬＡＮ：ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、メトロポリタン・エリア・ネットワーク（ＭＡＮ：ＭｅｔｒｏｐｏｌｉｔａｎＡｒｅａＮｅｔｗｏｒｋ）、広域ネットワーク（ＷＡＮ：ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）などのような様々なネットワークを含むことができる。また、通信ネットワーク１００は、公知のワールド・ワイド・ウェブ（ＷＷＷ：ＷｏｒｌｄＷｉｄｅＷｅｂ）を含むこともできる。しかし、本発明に係る通信ネットワーク１００は、上記で列挙されたネットワークに限定されず、公知の無線データネットワーク、公知の電話ネットワーク、公知の有線／無線テレビネットワークのうち少なくとも一つを含むこともできる。

サーバ２００は、サービス提供サーバまたはコンテンツ提供サーバであって、ユーザ端末３００が要請する通信サービス（ｃｏｍｍｕｎｉｃａｔｉｏｎｓｅｒｖｉｃｅ）を提供する機能をすることができる。一例として、サーバ２００がウェブサーバである場合、サーバ２００は、ユーザ端末３００が要請するコンテンツ（ｃｏｎｔｅｎｔ）をウェブページ形態に構成してユーザ端末３００に提供することができる。一方、他例として、サーバ２００がマルチメディア提供サーバである場合、サーバ２００は、ユーザ端末３００が要請するマルチメディアコンテンツを転送ファイル形態に構成して該端末３００に提供することができる。

サーバ２００は、データベースに格納された画像コンテンツおよび／または字幕ファイルに基づいてタイムコード、代表イメージ情報、字幕情報およびオーディオ情報のうち少なくとも一つを含む再生区間別のシーンメタ情報を生成し、再生区間別のシーンメタ情報をユーザ端末３００に提供することができる。ここで、シーンメタ情報を生成するための再生区間は、字幕区間であるかまたは音声区間であってもよい。したがって、「再生区間別のシーンメタ情報」は、「字幕区間別のシーンメタ情報」または「音声区間別のシーンメタ情報」と称することができる。

サーバ２００は、画像コンテンツおよび字幕ファイルと共にシーンメタ情報をユーザ端末３００に転送するか、または画像コンテンツおよび字幕ファイルとは別個にシーンメタ情報をユーザ端末３００に転送してもよい。

サーバ２００は、画像コンテンツに関するシーンメタ情報を活用して様々なビデオサービスをユーザ端末３００に提供することができる。一例として、サーバ２００は、画像コンテンツに関するシーンメタ情報を活用してビデオ検索サービスをユーザ端末３００に提供することができる。ここで、ビデオ検索サービスは、視聴者が画像コンテンツに含まれたシーンのうち所望のシーンを容易で速く探索することができるように支援するビデオサービスである。

一方、他例として、サーバ２００は、画像コンテンツに関するシーンメタ情報を活用してビデオスライドサービス（ｖｉｄｅｏｓｌｉｄｅｓｅｒｖｉｃｅ）をユーザ端末３００に提供することができる。ここで、ビデオスライドサービスは、視聴者が動画をページ単位で本のように捲って動画の内容を容易で速く把握することができるように支援するビデオサービスである。

このために、サーバ２００は、画像コンテンツから得た再生区間別のシーンメタ情報（すなわち、タイムコード、代表イメージ情報、字幕情報およびオーディオ情報）に基づいて複数のページ情報を生成してユーザ端末３００に提供することができる。ここで、ページ情報は、ビデオスライドサービスを提供するための情報として、タイムコード、代表イメージ情報、単位字幕情報だけを含むか、またはタイムコード、代表イメージ情報、単位字幕情報および単位オーディオ情報を含んでもよい。

ユーザ端末３００は、サーバ２００から提供された情報に基づいて通信サービスを提供することができる。一例として、サーバ２００がウェブサーバである場合、ユーザ端末３００は、サーバ２００から提供されたコンテンツに基づいてウェブサービスを提供することができる。一方、他例として、サーバ２００がマルチメディア提供サーバである場合、ユーザ端末３００は、サーバ２００から提供されたコンテンツに基づいてマルチメディアサービスを提供することができる。

ユーザ端末３００は、画像コンテンツの再生および画像コンテンツと関連した付加サービス（例えば、ビデオスライドサービス、ビデオ検索サービスなど）を提供するためのアプリケーションをダウンロードして設置することができる。この時、ユーザ端末３００は、アプリストア（ａｐｐｓｔｏｒｅ）、プレイストア（ｐｌａｙｓｔｏｒｅ）、ウェブサイト（ｗｅｂｓｉｔｅ）などに接続して該アプリケーションをダウンロードするか、または別途の格納媒体を介して該アプリケーションをダウンロードしてもよい。また、ユーザ端末３００は、サーバ２００または他機器との有線／無線通信を介して該アプリケーションをダウンロードしてもよい。

ユーザ端末３００は、サーバ２００から、画像コンテンツ、字幕ファイル、画像コンテンツに関するシーンメタ情報およびシーンメタ情報に対応する複数のページ情報のうち少なくとも一つを受信することができる。この時、画像コンテンツ、字幕ファイル、シーンメタ情報およびページ情報のうち少なくとも一つは、ファイル形態で受信されるか、またはストリーミング（ｓｔｒｅａｍｉｎｇ）方式で受信されてもよい。

一方、他の実施形態として、ユーザ端末３００は、サーバ２００から受信するかまたはメモリに格納された画像コンテンツおよび／または字幕ファイルに基づいて再生区間別のシーンメタ情報を生成し、再生区間別のシーンメタ情報を用いた複数のページ情報を生成することができる。また、ユーザ端末３００は、サーバ２００から受信するかまたはメモリに格納された画像コンテンツに関する再生区間別のシーンメタ情報に基づいて複数のページ情報を生成することができる。

ユーザ端末３００は、サーバ２００から受信するかまたはメモリに格納された画像コンテンツおよび／または字幕ファイルに基づいて動画再生サービスを提供することができる。また、ユーザ端末３００は、画像コンテンツに関する再生区間別のシーンメタ情報に基づいてビデオ検索サービスを提供することができる。また、ユーザ端末は、再生区間別のシーンメタ情報を活用した複数のページ情報に基づいてビデオスライドサービスを提供することができる。

本明細書にて説明されるユーザ端末３００には、携帯電話、スマートフォン（ｓｍａｒｔｐｈｏｎｅ）、ラップトップ・コンピュータ（ｌａｐｔｏｐｃｏｍｐｕｔｅｒ）、デスクトップ・コンピュータ（ｄｅｓｋｔｏｐｃｏｍｐｕｔｅｒ）、デジタル放送用端末、ＰＤＡ（ｐｅｒｓｏｎａｌｄｉｇｉｔａｌａｓｓｉｓｔａｎｔｓ）、ＰＭＰ（ｐｏｒｔａｂｌｅｍｕｌｔｉｍｅｄｉａｐｌａｙｅｒ）、スレートＰＣ（ｓｌａｔｅＰＣ）、タブレットＰＣ（ｔａｂｌｅｔＰＣ）、ウルトラブック（ｕｌｔｒａｂｏｏｋ）、ウェアラブルデバイス（ｗｅａｒａｂｌｅｄｅｖｉｃｅ、例えば、ワッチ型端末（ｓｍａｒｔｗａｔｃｈ）、ガラス型端末（ｓｍａｒｔｇｌａｓｓ）、ＨＭＤ（ｈｅａｄｍｏｕｎｔｅｄｄｉｓｐｌａｙ））などが含まれる。

一方、本実施形態においては、ユーザ端末３００がサーバ２００と連動して動画再生サービス、ビデオ検索サービスまたはビデオスライドサービスなどを提供することを例示しているが、これを制限するのではなく、ユーザ端末３００がサーバ２００と連動することなく独立に該サービスを提供できることは当業者に明らかである。

図２は、本発明の一実施形態によるサーバ２００の構成を示すブロック図である。図２を参照すれば、サーバ２００は、通信部２１０、データベース２２０、シーンメタ情報生成部２３０、ページ生成部２４０および制御部２５０を含むことができる。図２に示された構成要素はサーバ２００を実現するのに必須のものではないため、本明細書上で説明されるサーバは上記で列挙された構成要素より多いかまたは少ない構成要素を有してもよい。

通信部２１０は、有線通信を支援するための有線通信モジュール、および無線通信を支援するための無線通信モジュールを含むことができる。有線通信モジュールは、有線通信のための技術標準または通信方式（例えば、イーサネット（登録商標（Ｅｔｈｅｒｎｅｔ））、ＰＬＣ（ＰｏｗｅｒＬｉｎｅＣｏｍｍｕｎｉｃａｔｉｏｎ）、ホームＰＮＡ（ＨｏｍｅＰＮＡ）、ＩＥＥＥ１３９４など）に従って構築された有線通信網上で他サーバ、基地局、ＡＰ（ａｃｃｅｓｓｐｏｉｎｔ）のうち少なくとも一つと有線信号を送受信する。無線通信モジュールは、無線通信のための技術標準または通信方式（例えば、ＷＬＡＮ（ＷｉｒｅｌｅｓｓＬＡＮ）、Ｗｉ−Ｆｉ（Ｗｉｒｅｌｅｓｓ−Ｆｉｄｅｌｉｔｙ）、ＤＬＮＡ（登録商標（ＤｉｇｉｔａｌＬｉｖｉｎｇＮｅｔｗｏｒｋＡｌｌｉａｎｃｅ））、ＧＳＭ（ＧｌｏｂａｌＳｙｓｔｅｍｆｏｒＭｏｂｉｌｅｃｏｍｍｕｎｉｃａｔｉｏｎ）、ＣＤＭＡ（ＣｏｄｅＤｉｖｉｓｉｏｎＭｕｌｔｉＡｃｃｅｓｓ）、ＷＣＤＭＡ（登録商標（ＷｉｄｅｂａｎｄＣＤＭＡ））、ＬＴＥ（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ）、ＬＴＥ−Ａ（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ−Ａｄｖａｎｃｅｄ）など）に従って構築された無線通信網上で基地局、ＡｃｃｅｓｓＰｏｉｎｔおよび中継機のうち少なくとも一つと無線信号を送受信する。

本実施形態において、通信部２１０は、データベース２２０に格納された画像コンテンツ、画像コンテンツに関する字幕ファイル、画像コンテンツに関する再生区間別のシーンメタ情報、再生区間別のシーンメタ情報に対応する複数のページ情報などをユーザ端末３００に転送する機能をすることができる。また、通信部２１０は、ユーザ端末３００が要請する通信サービスに関する情報を受信する機能をすることができる。

データベース２２０は、ユーザ端末３００または他サーバ（図示せず）から受信する情報（またはデータ）、サーバ２００により自体的に生成される情報（またはデータ）、ユーザ端末３００または他サーバに提供する情報（またはデータ）などを格納する機能をすることができる。

本実施形態において、データベース２００は、複数の画像コンテンツ、複数の画像コンテンツに関する字幕ファイル、複数の画像コンテンツに関する再生区間別のシーンメタ情報、再生区間別のシーンメタ情報に対応する複数のページ情報などを格納することができる。

シーンメタ情報生成部２３０は、データベース２２０に格納された画像コンテンツおよび／または字幕ファイルに基づいてタイムコード、代表イメージ情報、字幕情報およびオーディオ情報のうち少なくとも一つを含む再生区間別のシーンメタ情報を生成することができる。

このために、シーンメタ情報生成部２３０は、画像コンテンツから抽出されたオーディオ情報に基づいて複数の音声区間を抽出し、各音声区間内のオーディオ情報を音声認識して既存の字幕情報を補正するかまたは新しい字幕情報を生成することができる。また、シーンメタ情報生成部２３０は、画像コンテンツから抽出されたオーディオ情報に基づいて複数の音声区間を抽出し、各音声区間内のオーディオおよびイメージ情報に対する音声認識および画像認識を通じて各音声区間内の代表イメージを選択することができる。

ページ生成部２４０は、画像コンテンツに関する再生区間別のシーンメタ情報に基づいて複数のページ情報を生成することができる。すなわち、ページ生成部２４０は、タイムコード、代表イメージ情報および字幕情報（すなわち、単位字幕情報）を用いてページを生成することができる。一方、実現例によっては、ページ生成部２４０は、タイムコード、代表イメージ情報、字幕情報（すなわち、単位字幕情報）およびオーディオ情報（すなわち、単位オーディオ情報）を用いてページを生成することができる。

ページ情報は、ビデオスライドサービスを提供するための情報として、タイムコード、代表イメージ情報、字幕情報だけを含むか、またはタイムコード、代表イメージ情報、字幕情報およびオーディオ情報を含んでもよい。

代表イメージ情報は、該当ページを代表するイメージ情報として、字幕または音声区間内で再生される画像コンテンツの連続した画像フレームのうち少なくとも一つを含むことができる。より詳細には、代表イメージ情報は、字幕または音声区間内の画像フレームのうち任意に選択された画像フレームであるか、または画像フレームのうち予め決定された規則に従って選択された画像フレーム（例えば、字幕または音声区間中、最も先んじた順の画像フレーム、中間順の画像フレーム、最後の順の画像フレーム、字幕情報と最も類似した画像フレームなど）であってもよい。

制御部２５０は、サーバ２００の全般的な動作を制御する。さらに、制御部２５０は、以下にて説明される様々な実施形態を本発明に係るサーバ２００上で実現するために、上記で調べた構成要素をのうち少なくとも一つを組み合わせて制御することができる。

本実施形態において、制御部２５０は、ユーザ端末３００が要請する通信サービスを提供することができる。一例として、制御部２５０は、動画再生サービス、ビデオ検索サービスまたはビデオスライドサービスなどをユーザ端末３００に提供することができる。

このために、制御部２５０は、データベース２２０に格納された画像コンテンツ、および画像コンテンツに関する字幕ファイルをユーザ端末３００に提供することができる。また、制御部２５０は、画像コンテンツおよび／または字幕ファイルに基づいて画像コンテンツに関する再生区間別のシーンメタ情報を生成してユーザ端末３００に提供することができる。また、制御部２５０は、画像コンテンツに関する再生区間別のシーンメタ情報に基づいて複数のページ情報を生成してユーザ端末３００に提供することができる。

図３は、本発明の一実施形態によるユーザ端末３００の構成を説明するためのブロック図である。図３を参照すれば、ユーザ端末３００は、通信部３１０、入力部３２０、出力部３３０、メモリ３４０および制御部３５０などを含むことができる。図３に示された構成要素はユーザ端末を実現するのに必須のものではないため、本明細書上で説明されるユーザ端末は上記で列挙された構成要素より多いかまたは少ない構成要素を有してもよい。

通信部３１０は、有線ネットワークを支援するための有線通信モジュール、および無線ネットワークを支援するための無線通信モジュールを含むことができる。有線通信モジュールは、有線通信のための技術標準または通信方式（例えば、イーサネット（Ｅｔｈｅｒｎｅｔ）、ＰＬＣ（ＰｏｗｅｒＬｉｎｅＣｏｍｍｕｎｉｃａｔｉｏｎ）、ホームＰＮＡ（ＨｏｍｅＰＮＡ）、ＩＥＥＥ１３９４など）に従って構築された有線通信網上で外部サーバおよび他端末のうち少なくとも一つと有線信号を送受信する。無線通信モジュールは、無線通信のための技術標準または通信方式（例えば、ＷＬＡＮ（ＷｉｒｅｌｅｓｓＬＡＮ）、Ｗｉ−Ｆｉ（Ｗｉｒｅｌｅｓｓ−Ｆｉｄｅｌｉｔｙ）、ＤＬＮＡ（ＤｉｇｉｔａｌＬｉｖｉｎｇＮｅｔｗｏｒｋＡｌｌｉａｎｃｅ）、ＧＳＭ（登録商標（ＧｌｏｂａｌＳｙｓｔｅｍｆｏｒＭｏｂｉｌｅｃｏｍｍｕｎｉｃａｔｉｏｎ））、ＣＤＭＡ（ＣｏｄｅＤｉｖｉｓｉｏｎＭｕｌｔｉＡｃｃｅｓｓ）、ＷＣＤＭＡ（ＷｉｄｅｂａｎｄＣＤＭＡ）、ＬＴＥ（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ）、ＬＴＥ−Ａ（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ−Ａｄｖａｎｃｅｄ）など）に従って構築された無線通信網上で基地局、ＡｃｃｅｓｓＰｏｉｎｔおよび中継機のうち少なくとも一つと無線信号を送受信する。

本実施形態において、通信部３１０は、サーバ２００から画像コンテンツ、画像コンテンツに関する字幕ファイル、画像コンテンツに関する再生区間別のシーンメタ情報、再生区間別のシーンメタ情報に対応する複数のページ情報などを受信する機能をすることができる。また、通信部３１０は、ユーザ端末３００が要請する通信サービスに関する情報をサーバ２００に転送する機能をすることができる。

入力部３２０は、画像信号入力のためのカメラ、オーディオ信号入力のためのマイクロホン（ｍｉｃｒｏｐｈｏｎｅ）、ユーザからの情報入力を受けるためのユーザ入力部（例えば、キーボード、マウス、タッチ・キー（ｔｏｕｃｈｋｅｙ）、メカニカル・キー（ｍｅｃｈａｎｉｃａｌｋｅｙ）など）などを含むことができる。入力部３２０で得たデータは分析されて端末ユーザの制御命令として処理されることができる。本実施形態において、入力部３２０は、画像コンテンツの再生と関連した命令信号を受信することができる。

出力部３３０は、視覚、聴覚または触覚などと関連した出力を発生させるためのものであって、ディスプレイ部、音響出力部、ハプティックモジュールおよび光出力部のうち少なくとも一つを含むことができる。

ディスプレイ部は、ユーザ端末３００で処理される情報を表示（出力）する。本実施形態において、ディスプレイ部は、ユーザ端末３００で駆動される動画再生プログラムの実行画面情報、またはこのような実行画面情報に応じたＵＩ（ＵｓｅｒＩｎｔｅｒｆａｃｅ）情報、ＧＵＩ（ＧｒａｐｈｉｃＵｓｅｒＩｎｔｅｒｆａｃｅ）情報を表示することができる。

ディスプレイ部は、タッチセンサと互いにレイヤ構造をなすかまたは一体型に形成されることにより、タッチスクリーンを実現することができる。このようなタッチスクリーンは、ユーザ端末３００と視聴者の間の入力インターフェースを提供するユーザ入力部として機能すると同時に、ユーザ端末３００と視聴者の間の出力インターフェースを提供することができる。

音響出力部は、通信部３１０から受信するかまたはメモリ３４０に格納されたオーディオデータを出力することができる。本実施形態において、音響出力部は、ユーザ端末３００で再生される画像コンテンツと関連した音響信号を出力することができる。

メモリ３４０は、ユーザ端末３００の様々な機能を支援するデータを格納する。本実施形態において、メモリ３４０は、ユーザ端末３００で駆動される動画再生プログラム（ａｐｐｌｉｃａｔｉｏｎｐｒｏｇｒａｍまたはアプリケーション（ａｐｐｌｉｃａｔｉｏｎ））、ユーザ端末３００の動作のためのデータおよび命令語を格納することができる。また、メモリ３４０は、複数の画像コンテンツ、複数の画像コンテンツに関する字幕ファイル、複数の画像コンテンツに関する再生区間別のシーンメタ情報、再生区間別のシーンメタ情報に対応する複数のページ情報などを格納することができる。

メモリ３４０は、フラッシュメモリタイプ（ｆｌａｓｈｍｅｍｏｒｙｔｙｐｅ）、ハードディスクタイプ（ｈａｒｄｄｉｓｋｔｙｐｅ）、ＳＳＤタイプ（ＳｏｌｉｄＳｔａｔｅＤｉｓｋｔｙｐｅ）、ＳＤＤタイプ（ＳｉｌｉｃｏｎＤｉｓｋＤｒｉｖｅｔｙｐｅ）、マルチメディアカードマイクロタイプ（ｍｕｌｔｉｍｅｄｉａｃａｒｄｍｉｃｒｏｔｙｐｅ）、カードタイプのメモリ（例えば、ＳＤまたはＸＤメモリなど）、ＲＡＭ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）、ＳＲＡＭ（ｓｔａｔｉｃｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）、ＲＯＭ（ｒｅａｄ−ｏｎｌｙｍｅｍｏｒｙ）、ＥＥＰＲＯＭ（ｅｌｅｃｔｒｉｃａｌｌｙｅｒａｓａｂｌｅｐｒｏｇｒａｍｍａｂｌｅｒｅａｄ−ｏｎｌｙｍｅｍｏｒｙ）、ＰＲＯＭ（ｐｒｏｇｒａｍｍａｂｌｅｒｅａｄ−ｏｎｌｙｍｅｍｏｒｙ）、磁気メモリ、磁気ディスクおよび光ディスクのうち少なくとも一つのタイプの格納媒体を含むことができる。

制御部３５０は、メモリ３４０に格納された動画再生プログラムと関連した動作、および通常的にユーザ端末３００の全般的な動作を制御する。さらに、制御部３５０は、以下にて説明される様々な実施形態を本発明に係るユーザ端末３００上で実現するために、上記で調べた構成要素のうち少なくとも一つを組み合わせて制御することができる。

本実施形態において、制御部３５０は、サーバ２００から受信するかまたはメモリ３４０に格納された画像コンテンツおよび／または字幕ファイルに基づいて動画再生サービスを提供することができる。また、制御部３５０は、画像コンテンツに関する再生区間別のシーンメタ情報に基づいてビデオ検索サービスを提供することができる。また、制御部３５０は、再生区間別のシーンメタ情報を通じて生成された複数のページ情報に基づいてビデオスライドサービスを提供することができる。

制御部３５０は、サーバ２００から受信するかまたはメモリ３４０に格納された画像コンテンツおよび／または字幕ファイルに基づいて再生区間別のシーンメタ情報を生成し、再生区間別のシーンメタ情報を用いて複数のページ情報を生成することができる。また、制御部３００は、サーバ２００から受信するかまたはメモリ３４０に格納された画像コンテンツに関する再生区間別のシーンメタ情報に基づいて複数のページ情報を生成することができる。

図４は、本発明の一実施形態によるシーンメタ情報生成装置の構成を示すブロック図である。図４を参照すれば、本発明の一実施形態によるシーンメタ情報生成装置４００は、字幕情報生成部４１０、オーディオ情報生成部４２０、イメージ情報生成部４３０およびシーンメタ情報構成部４４０を含むことができる。図４に示された構成要素はシーンメタ情報生成装置４００を実現するのに必須のものではないため、本明細書上で説明されるシーンメタ情報生成装置は上記で列挙された構成要素より多いかまたは少ない構成要素を有してもよい。

本発明に係るシーンメタ情報生成装置４００は、サーバ２００のシーンメタ情報生成部２３０を介して実現されるか、またはユーザ端末３００の制御部３５０を介して実現されてもよい。また、シーンメタ情報生成装置４００は、サーバ２００およびユーザ端末３００とは独立したハードウェアおよび／またはソフトウェアを介して実現されてもよい。

字幕情報生成部４１０は、画像コンテンツと関連した字幕ファイルに基づいて全体字幕を複数の単位字幕に分類し、複数の単位字幕の字幕区間を検出し、各々の字幕区間に該当する字幕テキスト情報を検出することができる。また、字幕情報生成部４１０は、画像コンテンツから抽出されたオーディオ情報を用いて複数の単位字幕を補正することができる。

このような字幕情報生成部４１０は、画像コンテンツと関連した単位字幕を検出するための字幕ストリーム抽出部（または字幕抽出部）４１１、単位字幕の字幕区間を検出するための字幕区間検出部４１３、および単位字幕を補正するための字幕補正部４１５を含むことができる。

字幕ストリーム抽出部４１１は、画像コンテンツに含まれた字幕ファイルに基づいて字幕ストリームを抽出することができる。一方、他の実施形態として、字幕ストリーム抽出部４１１は、画像コンテンツとは別途に格納された字幕ファイルに基づいて字幕ストリームを抽出してもよい。

字幕ストリーム抽出部４１１は、画像コンテンツの字幕ストリームを複数の単位字幕に分類し、各単位字幕のテキスト情報を検出することができる。ここで、複数の単位字幕は、字幕の長さ（例えば、字幕テキストの長さ、字幕区間の長さ）に応じて分類されるかまたは文章単位で分類されてもよく、必ずしもこれらに制限されるものではない。

字幕区間検出部４１３は、画像コンテンツの再生区間のうち各単位字幕が表示される字幕区間を検出することができる。すなわち、字幕区間検出部４１３は、各単位字幕の表示が始まる画像コンテンツの再生時点に関する「字幕開始時間情報」と、各単位字幕の表示が終了する画像コンテンツの再生時点に関する「字幕終了時間情報」と、各単位字幕の表示が維持される時間に関する「字幕表示時間情報」とを検出することができる。

字幕補正部４１５は、画像コンテンツのオーディオ情報を通じて分析された音声区間に基づいて複数の単位字幕の字幕区間を補正することができる。すなわち、字幕補正部４１５は、各単位字幕の字幕区間を該字幕に対応するオーディオの音声区間に合わせて拡張、縮小または移動することができる。

例えば、図５に示すように、字幕補正部４１５は、特定単位字幕の字幕区間Ｓ１０が該字幕に対応するオーディオの音声区間Ａ１０より小さい場合、該字幕の字幕区間を該字幕に対応するオーディオの音声区間Ａ１０に合わせて拡張することができる（Ｓ１０→Ｓ２０）。

一方、図面には示されていないが、特定単位字幕の字幕区間が該字幕に対応するオーディオの音声区間より大きい場合、該字幕の字幕区間を該字幕に対応するオーディオの音声区間に合わせて縮小することができる。

字幕補正部４１５は、各音声区間内のオーディオ情報を音声認識して複数の単位字幕の字幕テキスト情報を補正することができる。すなわち、字幕補正部４１５は、各単位字幕のテキスト情報を音声認識を通じてテキスト化されたオーディオ情報に合わせて補正することができる。また、字幕補正部４１５は、各音声区間内のオーディオ情報を音声認識した結果に基づいて非音声区間に存在する不要な字幕を削除することもできる。

字幕補正部４１５は、各音声区間内のオーディオ情報を音声認識して一つの単位字幕を二つ以上の単位字幕に分割することができる。例えば、図６に示すように、単位字幕区間Ｓ１０内のオーディオ情報を音声認識した結果、該単位字幕６１０が二つの音声区間Ａ１０、Ａ２０で構成された場合、字幕補正部４１５は、一つの単位字幕６１０を音声区間Ａ１０、Ａ２０に対応する二つの単位字幕６２０、６３０に分割することができる。

字幕補正部４１５は、各音声区間内のオーディオ情報を音声認識して二つ以上の単位字幕を一つの単位字幕に併合することができる。例えば、図７に示すように、第１単位字幕区間Ｓ１０内のオーディオ情報と第２単位字幕区間Ｓ２０内のオーディオ情報を音声認識した結果、互いに隣接した第１および第２単位字幕７１０、７２０が一つの音声区間Ａ１０で構成された場合、字幕補正部４１５は、二つの単位字幕７１０、７２０を音声区間Ａ１０に対応する一つの単位字幕６２０、６３０に併合することができる。

字幕補正部４１５は、字幕情報とオーディオ情報の言語が互いに異なる場合、文章の意味を維持するために二つ以上の単位字幕を文章単位で併合することができる。

オーディオ情報生成部４２０は、画像コンテンツから抽出されたオーディオ情報に基づいて複数の単位字幕に対応する複数の単位オーディオ情報を検出することができる。また、オーディオ情報生成部４２０は、画像コンテンツから抽出されたオーディオ情報に基づいて複数の音声区間を分析し、各音声区間内のオーディオ情報を音声認識することができる。オーディオ情報生成部４２０は、音声認識を通じてテキスト化された音声情報を字幕情報生成部４１０およびイメージ情報生成部４３０に提供することができる。

このようなオーディオ情報生成部４２０は、画像コンテンツのオーディオ情報を検出するためのオーディオストリーム抽出部（またはオーディオ抽出部）４２１、画像コンテンツの音声区間を検出するための音声区間分析部４２３、および各音声区間内のオーディオ情報を音声認識するための音声認識部４２５を含むことができる。

オーディオストリーム抽出部４２１は、画像コンテンツに含まれたオーディオファイルに基づいてオーディオストリームを抽出することができる。オーディオストリーム抽出部４２１は、オーディオストリームを信号処理に好適な複数のオーディオフレームに分割することができる。ここで、オーディオストリームは、音声ストリームおよび非音声ストリームを含むことができる。

音声区間分析部４２３は、オーディオフレームの特徴を抽出して各音声区間の開始時点と終了時点を検出することができる。ここで、各音声区間の開始時点は該当区間で音声出力が始まる画像コンテンツの再生時点に対応し、各音声区間の終了時点は該当区間で音声出力が終了する画像コンテンツの再生時点に対応する。

音声区間分析部４２３は、複数の音声区間に関する情報を字幕補正部４１５およびビデオ区間抽出部４３３に提供することができる。音声区間分析部４２３に関する詳しい説明は、図９を参照して後述することにする。

音声認識部４２５は、各音声区間内のオーディオ情報（すなわち、音声情報）を音声認識してテキスト化された音声情報を生成することができる。音声認識部４２５は、テキスト化された音声情報を字幕補正部４１５およびシーン選択部４３７に提供することができる。音声認識部４２５に関する詳しい説明は、図１０を参照して後述することにする。

イメージ情報生成部４３０は、各音声区間に対応するビデオ区間を検出し、ビデオ区間に存在する複数のシーンイメージのうち字幕テキスト情報またはテキストになった音声情報と最も類似したシーンイメージ（すなわち、代表イメージ）を選択することができる。

このようなイメージ情報生成部４３０は、画像コンテンツのイメージ情報を検出するためのビデオストリーム抽出部（または画像抽出部）４３１、各音声区間に対応するビデオ区間を検出するためのビデオ区間検出部４３３、各ビデオ区間内のイメージからタグ情報を生成するイメージタグ部４３５、および各ビデオ区間内のイメージの中から代表イメージを選択するシーン選択部４３７を含むことができる。

ビデオストリーム抽出部４３１は、画像コンテンツに含まれた動画ファイルに基づいてビデオストリームを抽出することができる。ここで、ビデオストリームは、連続した画像フレームで構成されることができる。

ビデオ区間抽出部４３３は、ビデオストリームから各音声区間に対応するビデオ区間を検出（分離）することができる。これは、相対的に重要度の低いビデオ区間（すなわち、非音声区間に対応するビデオ区間）を除いて、画像処理するのにかかる時間と費用を減らすためである。

イメージタグ部４３５は、各ビデオ区間内に存在する複数のイメージに対して画像認識を実行してイメージタグ情報を生成することができる。すなわち、イメージタグ部４３５は、各イメージ内のオブジェクト情報（例えば、人、物、テキストなど）を認識してイメージタグ情報を生成することができる。イメージタグ部４３５に関する詳しい説明は、図１１を参照して後述することにする。

シーン選択部４３７は、各ビデオ区間内に存在する複数のイメージのうちテキスト化された音声情報と最も高い類似度を有するイメージ（すなわち、代表イメージ）を選択することができる。一方、他の実施形態として、シーン選択部４３７は、各ビデオ区間内に存在する複数のイメージのうち字幕テキスト情報と最も高い類似度を有するイメージ（すなわち、代表イメージ）を選択してもよい。シーン選択部４３７に関する詳しい説明は、図１２を参照して後述することにする。

シーンメタ情報構成部４４０は、字幕情報生成部４１０、オーディオ情報生成部４２０およびイメージ情報生成部４３０から得た字幕区間情報、音声区間情報、単位字幕情報、単位オーディオ情報および代表イメージ情報に基づいて再生区間別のシーンメタ情報を構成することができる。

一例として、図８に示すように、シーンメタ情報構成部４４０は、ＩＤフィールド８１０、タイムコードフィールド８２０、代表イメージフィールド８３０、音声フィールド８４０、字幕フィールド８５０およびイメージタグフィールド８６０を含むシーンメタ情報フレーム８００を生成することができる。この時、シーンメタ情報構成部４４０は、字幕または音声区間の個数だけシーンメタ情報フレームを生成することができる。

ＩＤフィールド８１０は再生区間別のシーンメタ情報を識別するためのフィールドであり、タイムコードフィールド８２０はシーンメタ情報に該当する字幕区間または音声区間を示すフィールドである。より好ましくは、タイムコードフィールド８２０はシーンメタ情報に対応する音声区間を示すフィールドである。

代表イメージフィールド８３０は音声区間別の代表イメージを示すフィールドであり、音声フィールド８４０は音声区間別の音声（オーディオ）情報を示すフィールドである。そして、字幕フィールド８５０は字幕区間別の字幕テキスト情報を示すフィールドであり、イメージタグフィールド８６０は音声区間別のイメージタグ情報を示すフィールドである。

シーンメタ情報構成部４４０は、互いに隣接した再生区間のシーンメタ情報の代表イメージが類似した場合、該シーンメタ情報を一つのシーンメタ情報に併合することができる。この時、シーンメタ情報構成部４４０は、予め決定された類似度測定アルゴリズム（例えば、コサイン類似度測定アルゴリズム、ユークリッド類似度測定アルゴリズムなど）を用いて、シーンメタ情報のイメージ類似可否を決定することができる。類似度については図１３に関連して説明される。

以上、上述したように、本発明に係るシーンメタ情報生成装置は、画像コンテンツおよび／または字幕ファイルに基づいて再生区間別のシーンメタ情報を生成することができる。このようなシーンメタ情報は、画像コンテンツの主要シーンを検索および分類するために用いられることができる。また、シーンメタ情報は、動画サービス、イメージサービス、音声サービス、ビデオスライドサービスなどを提供するために用いられることができる。

図９は、本発明の一実施形態による音声区間分析部の動作プロセスを示す図である。図９を参照すれば、本発明に係る音声区間分析部４２３は、オーディオストリーム（ａｕｄｉｏｓｔｒｅａｍ）を信号処理に好適な大きさを有する複数のオーディオフレーム（ａｕｄｉｏｆｒａｍｅ）に分割することができる（Ｓ９１０）。この時、各々のオーディオフレームは２０ｍｓ〜３０ｍｓの大きさを有することができる。

音声区間分析部４２３は、各オーディオフレームの周波数成分、ピッチ（ｐｉｔｃｈ）成分、ＭＦＣＣ（ｍｅｌ−ｆｒｅｑｕｅｎｃｙｃｅｐｓｔｒａｌｃｏｅｆｆｉｃｉｅｎｔｓ）係数、ＬＰＣ（ｌｉｎｅａｒｐｒｅｄｉｃｔｉｖｅｃｏｄｉｎｇ）係数などを分析して該オーディオフレームの特徴を抽出することができる（Ｓ９２０）。

音声区間分析部４２３は、各オーディオフレームの特徴と予め決定された音声モデルを用いて各々のオーディオフレームが音声区間であるか否かを決定することができる（Ｓ９３０）。この時、音声モデルとしては、ＳＶＭ（ｓｕｐｐｏｒｔｖｅｃｔｏｒｍａｃｈｉｎｅ）モデル、ＨＭＭ（ｈｉｄｄｅｎＭａｒｋｏｖｍｏｄｅｌ）モデル、ＧＭＭ（Ｇａｕｓｓｉａｎｍｉｘｔｕｒｅｍｏｄｅｌ）モデル、ＲＮＮ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋｓ）モデル、ＬＳＴＭ（ＬｏｎｇＳｈｏｒｔ−ＴｅｒｍＭｅｍｏｒｙ）モデルのうち少なくとも一つが用いられることができ、必ずしもこれらに制限されるものではない。

音声区間分析部４２３は、オーディオフレーム別の音声区間を結合して各音声区間の開始時点と終了時点を検出することができる（Ｓ９４０）。ここで、各音声区間の開始時点は該当区間で音声出力が始まる画像コンテンツの再生時点に対応し、各音声区間の終了時点は該当区間で音声出力が終了する画像コンテンツの再生時点に対応する。

図１０は、本発明の一実施形態による音声認識部の動作プロセスを示す図である。図１０を参照すれば、本発明に係る音声認識部４２５は、音声認識（ＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ）のための音響モデル（Ａｃｏｕｓｔｉｃｍｏｄｅｌ）および言語モデル（Ｌａｎｇｕａｇｅｍｏｄｅｌ）を備えることができる。

音声認識部４２５は、音声データベースＤＢに格納されたデータの特徴を抽出し、抽出された特徴を一定期間の間学習して音響モデルを構築することができる（Ｓ１０１０）。

音声認識部４２５は、言語データベースＤＢに格納されたデータの特徴を抽出し、抽出された特徴を一定期間の間学習して言語モデルを構築することができる（Ｓ１０２０）。

音響モデルおよび言語モデルに対する構築が完了すれば、音声認識部４２５は、音声区間単位でオーディオ情報（すなわち、音声情報）を受信することができる（Ｓ１０３０）。ここで、音声情報は、単位字幕に対応する単位音声情報である。

音声認識部４２５は、音声情報の周波数成分、ピッチ成分、エネルギー成分、ゼロクロス（ｚｅｒｏｃｒｏｓｓｉｎｇ）成分、ＭＦＣＣ係数、ＬＰＣ係数、ＰＬＰ（ＰｅｒｃｅｐｔｕａｌＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅ）係数などを分析して該音声情報の特徴ベクトルを検出することができる（Ｓ１０４０）。

音声認識部４２５は、予め決定された音響モデルを用いて検出された特徴ベクトルのパターンを分類（分析）することができる（Ｓ１０５０）。この時、音声認識部４２５は、ＤＴＷ（ＤｙｎａｍｉｃＴｉｍｅＷａｒｐｉｎｇ）アルゴリズム、ＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）アルゴリズム、ＡＮＮ（ＡｒｔｉｆｉｃｉａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）アルゴリズムなどのような公知のアルゴリズムを用いて特徴ベクトルのパターンを分類することができる。音声認識部４２５は、このようなパターン分類を通じて音声を認識して一つ以上の候補単語を検出することができる。

音声認識部４２５は、予め決定された言語モデルを用いて候補単語を文章に構成することができる（Ｓ１０６０）。音声認識部４２５は、文章に構成されたテキスト情報を出力することができる。

図１１は、本発明の一実施形態によるイメージタグ部の動作プロセスを示す図である。図１１を参照すれば、本発明に係るイメージタグ部４３５は、画像フレームに含まれたオブジェクトを認識するための画像認識モデル（ＩｍａｇｅＲｅｃｏｇｎｉｔｉｏｎｍｏｄｅｌ）を備えることができる。

イメージタグ部４３５は、画像データベースＤＢに格納されたデータの幾何学的特徴を抽出し、抽出された幾何学的特徴を一定期間の間学習して画像認識モデルを構築することができる（Ｓ１１１０）。画像認識モデルとしてはＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎＮｅｕｔｒａｌＮｅｔｗｏｒｋ）モデル、ＲＮＮ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）モデル、ＲＢＭ（ＲｅｓｔｒｉｃｔｅｄＢｏｌｔｚｍａｎｎＭａｃｈｉｎｅ）モデル、ＤＢＮ（ＤｅｅｐＢｅｌｉｅｆＮｅｔｗｏｒｋ）モデルなどのようなディープラーニング（ｄｅｅｐｌｅａｒｎｉｎｇ）ベースの人工神経ネットワークモデルが用いられることができ、必ずしもこれらに制限されるものではない。

画像認識モデルに対する構築が完了すれば、イメージタグ部４３５は、各音声区間に対応するビデオ区間の画像フレームを順次受信することができる（Ｓ１１２０）。

イメージタグ部４３５は、各画像フレームを複数の領域に分割し、各領域別に特徴ベクトルを検出することができる（Ｓ１１３０）。一方、他の実施形態として、イメージタグ部４３５は、各画像フレームを複数の領域に分割せず、一つの画像フレーム単位で特徴ベクトルを検出してもよい。

イメージタグ部４３５は、画像認識モデルを用いて検出された特徴ベクトルのパターンを分類し、それに基づいて各画像フレームに存在するオブジェクトを認識することができる（Ｓ１１４０）。

イメージタグ部４３５は、各画像フレームに対する画像認識結果に基づいてイメージタグ情報を生成することができる（Ｓ１１５０）。ここで、イメージタグ情報は、各画像フレームに存在する全てのオブジェクトに関する情報を含む。

例えば、図１２に示すように、イメージタグ部４３５は、第１画像フレーム１２１０に対する画像認識を通じて第１イメージタグ情報（すなわち、ファン（ｆａｎ）、オイル（ｏｉｌ））１２２０を生成することができる。また、イメージタグ部４３５は、第２画像フレーム１２３０に対する画像認識を通じて第２イメージタグ情報（すなわち、人（ｐｅｒｓｏｎ）、男（ｍａｎ）、窓（ｗｉｎｄｏｗ））１２４０を生成することができる。また、イメージタグ部４３５は、第３画像フレーム１２５０に対する画像認識を通じて第３イメージタグ情報（すなわち、肉（ｍｅａｔ）、プレート（ｐｌａｔｅ）、手（ｈａｎｄ））１２６０を生成することができる。

図１３は、本発明の一実施形態によるシーン選択部の動作プロセスを示す図である。図１３を参照すれば、本発明に係るシーン選択部４３７は、各音声区間に対応するビデオ区間の画像フレーム、および画像フレームに対応するイメージタグ情報を受信することができる（Ｓ１３１０）。

シーン選択部４３７は、音声情報生成部４２０から音声区間別のテキスト化された音声情報を受信することができる（Ｓ１３２０）。

シーン選択部４３７は、予め決定された単語埋め込みモデル（ＷｏｒｄＥｍｂｅｄｄｉｎｇＭｏｄｅｌ）を用いてテキスト化された音声情報と複数のイメージタグ情報をベクトル情報（またはベクトル値）に変換することができる（Ｓ１３３０）。ここで、単語埋め込み（ＷｏｒｄＥｍｂｅｄｄｉｎｇ）とは、一つの単語を人工神経ネットワークを用いてベクトル空間上に表せる変換された値を意味する。例えば、次の数式１のように、「ｃａｔ」や「ｍａｔ」のような単語を特定次元のベクトルに変更することができる。

（数式１）
W(“cat”)=(0.2,-0.4,0.7,...)
W(“mat”)=(0.0,0.6,-0.1,...)
本実施形態で使用可能な単語埋め込みモデルとしてはＮＮＬＭ（ＮｅｕｒａｌＮｅｔＬａｎｇｕａｇｅＭｏｄｅｌ）モデル、ＲＮＮＬＭ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔＬａｎｇｕａｇｅＭｏｄｅｌ）モデルなどのような人工神経ネットワークモデルが用いられることができ、より好ましくはＷｏｒｄ２Ｖｅｃモデルが用いられることができる。

Ｗｏｒｄ２Ｖｅｃモデルは、ＮｅｕｒａｌＮｅｔベースの学習方法に比して大きく変わったものではないが、計算量を大幅に減らして従来の方法に比して何倍以上に速い学習を実行することができる。Ｗｏｒｄ２Ｖｅｃモデルは、言語（すなわち、単語）を学習させるためのネットワークモデルとしてＣＢＯＷ（ＣｏｎｔｉｎｕｏｕｓＢａｇ−ｏｆ−Ｗｏｒｄｓ）モデルとＳｋｉｐ−ｇｒａｍモデルを提供している。

シーン選択部４３７は、予め決定された類似度測定技法を用いてイメージタグ情報に対応する第１ベクトル情報とテキスト化された音声情報に対応する第２ベクトル情報との間の類似度を測定することができる（Ｓ１３４０）。類似度測定技法としては、コサイン類似度（ｃｏｓｉｎｅｓｉｍｉｌａｒｉｔｙ）測定技法、ユークリッド類似度（Ｅｕｃｌｉｄｅａｎｓｉｍｉｌａｒｉｔｙ）測定技法、ジャカード（Ｊａｃｃａｒｄ）係数を用いた類似度測定技法、ピアソン相関係数を用いた類似度測定技法、マンハッタン距離を用いた類似度測定技法のうち少なくとも一つが用いられることができ、必ずしもこれらに制限されるものではない。

シーン選択部４３７は、テキスト化された音声情報を基準に各ビデオ区間の画像フレームに対応する複数のイメージタグ情報に対して類似度の測定を順次実行することができる。

シーン選択部４３７は、各ビデオ区間の画像フレームのうち、テキスト化された音声情報と最も類似度が高いイメージタグ情報に対応する画像フレームを該当区間の代表イメージに選択することができる（Ｓ１３５０）。

例えば、図１４に示すように、シーン選択部４３７は、第１画像フレーム１４１０に対応する第１イメージタグ情報１４２０とテキスト化された音声情報１４９０との間の類似度Ａを測定することができる。また、シーン選択部４３７は、第２画像フレーム１４３０に対応する第２イメージタグ情報１４４０とテキスト化された音声情報１４９０との間の類似度Ｂを測定することができる。また、シーン選択部４３７は、第３画像フレーム１４５０に対応する第３イメージタグ情報１４６０とテキスト化された音声情報１４９０との間の類似度Ｃを測定することができる。また、シーン選択部４３７は、第４画像フレーム１４７０に対応する第４イメージタグ情報１４８０とテキスト化された音声情報１４９０との間の類似度Ｄを測定することができる。

類似度の測定結果、第２イメージタグ情報１４４０とテキスト化された音声情報１４９０との間の類似度Ｂが最も高いため、シーン選択部４３７は、第２イメージタグ情報１４４０に対応する第２画像フレーム１４３０を該当区間の代表イメージに選択することができる。

一方、本実施形態においては、イメージタグ情報との類似度の比較対象がテキスト化された音声情報であることを例示しているが、これを制限するのではなく、テキスト化された音声情報の代わりに字幕テキスト情報を用いてもよいことは当業者に明らかである。

図１５は、本発明の他の実施形態によるシーンメタ情報生成装置の構成を示すブロック図である。図１５を参照すれば、本発明の他の実施形態によるシーンメタ情報生成装置１５００は、字幕情報生成部１５１０、オーディオ情報生成部１５２０、イメージ情報生成部１５３０およびシーンメタ情報構成部１５４０を含むことができる。図１５に示された構成要素はシーンメタ情報生成装置１５００を実現するのに必須のものではないため、本明細書上で説明されるシーンメタ情報生成装置は上記で列挙された構成要素より多いかまたは少ない構成要素を有してもよい。

本発明に係るシーンメタ情報生成装置１５００は、サーバ２００のシーンメタ情報生成部２３０を介して実現されるかまたはユーザ端末３００の制御部３５０を介して実現されてもよい。また、シーンメタ情報生成装置１５００は、サーバ２００およびユーザ端末３００とは独立したハードウェアおよび／またはソフトウェアを介して実現されてもよい。

本発明に係るシーンメタ情報生成装置１５００は、図４のシーンメタ情報生成装置４００とは異なり、画像コンテンツから抽出されたオーディオ情報を音声認識して新しい字幕情報を生成することができる。このようなシーンメタ情報生成装置１５００は、画像コンテンツのみが存在する場合（すなわち、別途の字幕ファイルが存在しない場合）に特に有用である。

本発明に係る字幕情報生成部１５１０は、音声認識部１５２５から受信したテキスト化された音声情報に基づいて新しい字幕情報を生成し、字幕情報をシーンメタ情報構成部１５４０に提供することができる。

一方、字幕情報生成部１５１０を除いたオーディオ情報生成部１５２０、イメージ情報生成部１５３０およびシーンメタ情報構成部１５４０は、図４に示されたオーディオ情報生成部４２０、イメージ情報生成部４３０およびシーンメタ情報構成部４４０と同一または類似するため、それに関する詳しい説明は省略する。

図１６は、本発明の一実施形態による字幕補正装置の構成を示すブロック図である。図１６を参照すれば、本発明の一実施形態による字幕補正装置１６００は、字幕検出部１６１０、オーディオ検出部１６２０、音声区間分析部１６３０、音声認識部１６４０および字幕補正部１６５０を含むことができる。図１６に示された構成要素は字幕補正装置１６００を実現するのに必須のものではないため、本明細書上で説明される字幕補正装置は上記で列挙された構成要素より多いかまたは少ない構成要素を有してもよい。

本発明に係る字幕補正装置１６００は、サーバ２００の制御部２５０を介して実現されるかまたはユーザ端末３００の制御部３５０を介して実現されてもよい。また、字幕補正装置１６００は、サーバ２００およびユーザ端末３００とは独立したハードウェアおよび／またはソフトウェアを介して実現されてもよい。

字幕検出部１６１０は、画像コンテンツに含まれた字幕ファイルに基づいて字幕情報を抽出することができる。一方、他の実施形態として、字幕検出部１６１０は、画像コンテンツとは別途に格納された字幕ファイルに基づいて字幕情報を抽出してもよい。ここで、字幕情報は、字幕テキスト情報および字幕区間情報を含むことができる。

字幕検出部１６１０は、画像コンテンツの全体字幕を複数の単位字幕に分類し、各単位字幕別に字幕テキスト情報を検出することができる。また、字幕検出部１６１０は、画像コンテンツの再生区間のうち各単位字幕が表示される字幕区間を検出することができる。

オーディオ検出部１６２０は、画像コンテンツに含まれたオーディオファイルに基づいてオーディオストリームを抽出し、オーディオストリームを信号処理に好適な複数のオーディオフレームに分割することができる。

音声区間分析部１６３０は、オーディオフレームの特徴に基づいて画像コンテンツの音声区間を抽出することができる。音声区間分析部１６３０の動作は、上述した図４の音声区間分析部４２３の動作と同一または類似するため、それに関する詳しい説明は省略する。

音声認識部１６４０は、各音声区間内のオーディオ情報（すなわち、音声情報）に対して音声認識を実行することができる。音声認識部１６４０の動作は、上述した図４の音声認識部４２５の動作と同一または類似するため、それに関する詳しい説明は省略する。

字幕補正部１６５０は、画像コンテンツのオーディオ情報を通じて分析された音声区間に応じて各単位字幕の字幕区間を補正することができる。また、字幕補正部１６５０は、非音声区間に存在する不要な字幕を削除することができる。

字幕補正部１６５０は、各音声区間内のオーディオ情報を用いて各単位字幕のテキスト情報を補正することができる。また、字幕補正部１６５０は、各音声区間内のオーディオ情報を用いて一つの単位字幕を二つ以上の単位字幕に分割することができる。また、字幕補正部１６５０は、各音声区間内のオーディオ情報を用いて二つ以上の単位字幕を一つの単位字幕に併合することができる。

図１７は、本発明の一実施形態による字幕補正方法を説明するフローチャートである。図１７を参照すれば、本発明に係る字幕補正装置１６００は、画像コンテンツに含まれた字幕ファイルまたは画像コンテンツとは別途に格納された字幕ファイルに基づいて字幕テキスト情報を検出することができる（Ｓ１７１０）。この時、字幕補正装置１６００は、画像コンテンツの全体字幕を複数の単位字幕に分類し、各単位字幕別に字幕テキスト情報を検出することができる。

字幕補正装置１６００は、画像コンテンツの再生区間のうち各単位字幕が表示される字幕区間を検出することができる（Ｓ１７２０）。ここで、字幕区間は、字幕開始時間情報、字幕終了時間情報および字幕表示時間情報を含むことができる。

字幕補正装置１６００は、画像コンテンツに含まれたオーディオファイルに基づいてオーディオストリームを抽出し、オーディオストリームを信号処理に好適な複数のオーディオフレームに分割することができる（Ｓ１７３０）。

字幕補正装置１６００は、オーディオフレームの特徴を抽出して各音声区間の開始時点と終了時点を抽出することができる（Ｓ１７４０）。ここで、各音声区間の開始時点は該当区間で音声出力が始まる画像コンテンツの再生時点に対応し、各音声区間の終了時点は該当区間で音声出力が終了する画像コンテンツの再生時点に対応する。

字幕補正装置１６００は、各音声区間内のオーディオ情報（すなわち、音声情報）に対して音声認識を実行してテキスト化された音声情報を生成することができる（Ｓ１７５０）。

字幕補正装置１６００は、画像コンテンツのオーディオ情報を通じて分析された音声区間に応じて各単位字幕の字幕区間を補正することができる。また、字幕補正部１６５０は、非音声区間に存在する不要な字幕を削除することができる。

字幕補正部１６５０は、各音声区間内のオーディオ情報を音声認識して各単位字幕のテキスト情報を補正することができる。また、字幕補正部１６５０は、各音声区間内のオーディオ情報を音声認識して一つの単位字幕を二つ以上の単位字幕に分割することができる。また、字幕補正部１６５０は、各音声区間内のオーディオ情報を音声認識して二つ以上の単位字幕を一つの単位字幕に併合することができる。

以上、上述したように、本発明に係る字幕補正方法は、字幕区間を音声区間に合わせて補正することによって、字幕区間と音声区間の不一致による音声の切れを防止することができる。また、字幕補正方法は、字幕を音声区間に合わせて分割または併合することによって、視聴者が読み易い長さの字幕に改善してユーザの可読性を向上させることができる。

図１８は、シーンメタ情報を活用してビデオスライドサービスを提供するユーザ端末を例示する図である。図１８を参照すれば、本発明に係るユーザ端末３００は、画像コンテンツおよび／または字幕ファイルに基づいて動画再生サービスを提供することができる。また、ユーザ端末３００は、画像コンテンツに関するシーンメタ情報を活用して複数のページ情報を生成し、それに基づいてビデオスライドサービスを提供することができる。ビデオスライドサービスは、動画再生サービスの付加サービスの形態で提供されてもよい。

ユーザ端末３００は、視聴者の制御命令に応じて、ビデオスライドモードに進入ことができる。ユーザ端末３００は、ビデオスライドモードへの進入時、予め決定されたページ画面１８００をディスプレイ部に表示することができる。この時、ページ画面１８００は、機能メニュー領域１８１０、字幕表示領域１８２０、スクロール領域１８３０およびイメージ表示領域１８４０などを含むことができ、必ずしもこれらに制限されるものではない。

機能メニュー領域１８１０は、ビデオスライドサービスと関連した機能を実行するための複数のメニューを含むことができる。例えば、機能メニュー領域１８１０には、ユーザから画像転換要請を受けるための第１機能メニュー１８１１、ユーザから再生オプション制御を受けるための第２機能メニュー１８１２、ページから出力されるオーディオ情報の再生／停止要請を受けるための再生／停止機能メニュー１８１３、ユーザから画面分割要請を受けるための第３機能メニュー１８１４、ユーザから字幕検索または翻訳要請を受けるための第４機能メニュー１８１５などがある。

字幕表示領域１８２０は、現在ページに対応する字幕テキスト情報を含むことができる。イメージ表示領域１８４０は、現在ページに対応する代表イメージを含むことができる。

スクロール領域１８３０は、現在ページを基準に以前および以後に存在する複数のページに対応する複数のサムネイルイメージを含むことができる。複数のサムネイルイメージは、複数のページに対応する代表イメージを予め決定された大きさに縮小したイメージである。複数のサムネイルイメージは、画像コンテンツの再生順に従って順次配列されることができる。

現在ページのサムネイルイメージは、スクロール領域１８３０の中央部１８３１に位置することができる。すなわち、スクロール領域１８３０の中央部１８３１には、現在視聴者が見ているページが位置することができる。視聴者は、スクロール領域１８３０に位置したサムネイルイメージのいずれか一つを選択することによって、該サムネイルイメージに対応するページに直ちに移動することができる。

ユーザ端末３００は、視聴者のページ移動要請に対応して、現在ページと隣接した順序のタイムコードを有するページに移動し、移動したページをディスプレイ部に表示することができる。ページ移動要請は、ユーザがディスプレイ部の一部領域を選択するかまたはいずれか一つの地点から他の地点にスクロールすることによってなされる。

ユーザ端末３００は、視聴者の画像転換要請に対応して、現在ページのタイムコードに対応する時点から画像コンテンツを再生することができる。例えば、第１機能メニュー１８１１が選択されると、ユーザ端末３００は、現在ページの字幕区間開始時点（または音声区間開始時点）から画像コンテンツを再生することができる。

一方、画像コンテンツが再生中の状態で、ユーザ端末３００は、ページ転換要請に対応して、現在の再生時点または現在の再生時点より先の再生時点に対応するページをディスプレイ部に表示することができる。

ユーザ端末３００は、視聴者の再生オプション制御要請に対応して、オーディオ情報の出力方法を制御することができる。例えば、ユーザ端末３００は、再生オプション制御要請に対応して、現在ページのオーディオ情報を繰り返し出力する第１再生モード、現在ページのオーディオ情報が出力された後にオーディオ情報の出力を停止する第２再生モード、現在ページのオーディオ情報が出力された後に現在ページの次のページに移動し、移動したページを表示する第３再生モードのいずれか一つの再生モードを実行することができる。

ユーザ端末３００は、視聴者の画面分割要請に対応して、ディスプレイ部の表示画面を予め決定された個数に分割し、分割された画面に複数のページを表示することができる。

ユーザ端末３００は、視聴者の再生／停止要請に対応して、現在ページから出力されるオーディオ情報を再生したり停止したりすることができる。また、ユーザ端末３００は、視聴者の字幕検索要請に対応して、複数のページに対応する字幕を検索し、その検索結果をディスプレイ部に表示することができる。

ユーザ端末３００は、視聴者の字幕翻訳要請に対応して、現在ページに該当する字幕を翻訳し、その翻訳結果をディスプレイ２１０に表示することができる。ユーザ端末３００は、翻訳要請された字幕を連動した内部の翻訳プログラムや外部の翻訳プログラムに該字幕に対する翻訳を要請し、翻訳された結果をディスプレイ部に提供することができる。

このように、ユーザ端末３００は、画像コンテンツに関する再生区間別のシーンメタ情報を活用して動画を本のようにページ単位で視聴できるビデオスライドサービスを提供することができる。

図１９は、シーンメタ情報を活用してビデオ検索サービスを提供するユーザ端末を例示する図である。図１９を参照すれば、本発明に係るユーザ端末３００は、画像コンテンツおよび／または字幕ファイルに基づいて動画再生サービスを提供することができる。また、ユーザ端末３００は、画像コンテンツに関するシーンメタ情報を活用してビデオ検索サービスを提供することができる。ビデオ検索サービスは、動画再生サービスの付加サービスの形態で提供されてもよい。

ユーザ端末３００は、視聴者の制御命令に応じて、ビデオ検索モードに進入することができる。ユーザ端末３００は、ビデオ検索モードへの進入時、予め決定されたシーン検索画面１９００をディスプレイ部に表示することができる。

シーン検索画面１８００は、検索語入力領域１９１０および検索シーン表示領域１９２０を含むことができる。検索語入力領域１９１０は、視聴者が探索しようとする画像コンテンツのシーンを説明する検索語を入力するための領域であり、検索シーン表示領域１９２０は、画像コンテンツに含まれたシーンのうち検索語とマッチングするシーンを表示するための領域である。

検索語入力領域１９１０を介して所定の検索語（例えば、「秘密の森で男子主人公が乗っていた車は？」）が入力された場合、ユーザ端末３００は、データベースに格納されたシーンメタ情報のうち、入力された検索語とマッチングするシーンメタ情報を検索することができる。

ユーザ端末３００は、検索されたシーンメタ情報に対応する代表イメージをシーン検索画面１８００に表示することができる。また、ユーザ端末３００は、代表イメージの中から検索語と関連したオブジェクトを指示するインジケータ１９２１、１９２３をディスプレイ部に表示することができる。

このように、ユーザ端末３００は、画像コンテンツに関する再生区間別のシーンメタ情報を活用して所望のシーンを速く探索できるビデオ検索サービスを提供することができる。

前述した本発明は、プログラムが記録された媒体にコンピュータ読取可能なコードとして実現することができる。コンピュータ読取可能な媒体は、コンピュータで実行可能なプログラムを続けて格納するか、実行またはダウンロードのために臨時格納するものであってもよい。また、媒体は単一または数個のハードウェアが結合された形態の様々な記録手段または格納手段であってもよく、或るコンピュータ・システムに直接接続される媒体に限定されず、ネットワーク上に分散存在するものであってもよい。媒体の例示としては、ハードディスク、フロッピーディスクおよび磁気テープのような磁気媒体、ＣＤ−ＲＯＭおよびＤＶＤのような光気録媒体、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような磁気−光媒体（ｍａｇｎｅｔｏ−ｏｐｔｉｃａｌｍｅｄｉｕｍ）、およびＲＯＭ、ＲＡＭ、フラッシュメモリなどを含めてプログラム命令語が格納されるように構成されたものがある。また、他の媒体の例示として、アプリケーションを流通するアプリストアやその他の様々なソフトウェアを供給乃至流通するサイト、サーバなどが管理する記録媒体乃至格納媒体も挙げられる。したがって、上記の詳細な説明は、全ての面で制限的に解釈されてはならず、例示的なものに考慮されなければならない。本発明の範囲は添付された請求項の合理的な解釈によって決定されなければならず、本発明の等価的な範囲内での全ての変更は本発明の範囲に含まれる。

１０・・・コンテンツ提供システム
１００・・・通信ネットワーク
２００・・・サーバ
３００・・・ユーザ端末
４００・・・シーンメタ情報生成装置
４１０・・・字幕情報生成部
４２０・・・オーディオ情報生成部
４３０・・・イメージ情報生成部
４４０・・・シーンメタ情報構成部

Claims

画像コンテンツと関連した字幕ファイルに基づいて複数の単位字幕を検出し、前記複数の単位字幕を補正する字幕情報生成部、
前記画像コンテンツからオーディオ情報を抽出し、前記オーディオ情報に基づいて複数の音声区間を検出し、各音声区間内のオーディオ情報に対して音声認識を実行するオーディオ情報生成部、および
各音声区間に対応するビデオ区間を検出し、前記ビデオ区間内の画像フレームに対して画像認識を実行し、前記画像フレームの中から代表イメージを選択するイメージ情報生成部
を含むシーンメタ情報生成装置。
前記字幕情報生成部は、前記画像コンテンツと関連した単位字幕を検出するための字幕抽出部、前記単位字幕の字幕区間を検出するための字幕区間検出部、および前記単位字幕を補正するための字幕補正部を含むことを特徴とする、請求項１に記載のシーンメタ情報生成装置。
前記字幕補正部は、前記オーディオ情報を通じて検出された音声区間に基づいて前記単位字幕の字幕区間を補正することを特徴とする、請求項２に記載のシーンメタ情報生成装置。
前記字幕補正部は、各音声区間内のオーディオ情報に対する音声認識結果に基づいて、前記単位字幕の字幕テキスト情報を補正することを特徴とする、請求項２に記載のシーンメタ情報生成装置。
前記字幕補正部は、各音声区間内のオーディオ情報に対する音声認識結果に基づいて、一つの単位字幕を二つ以上の単位字幕に分割するか、または二つ以上の単位字幕を一つの単位字幕に併合することを特徴とする、請求項２に記載のシーンメタ情報生成装置。
前記オーディオ情報生成部は、前記画像コンテンツからオーディオ情報を抽出するためのオーディオ抽出部、前記画像コンテンツの音声区間を検出するための音声区間分析部、および各音声区間内のオーディオ情報に対して音声認識を実行するための音声認識部を含むことを特徴とする、請求項１に記載のシーンメタ情報生成装置。
前記音声区間分析部は、オーディオストリームを信号処理に好適な大きさを有する複数のオーディオフレームに分割し、前記オーディオフレームの特性を抽出して各音声区間の開始時点と終了時点を検出することを特徴とする、請求項６に記載のシーンメタ情報生成装置。
前記音声認識部は、各音声区間に対応するオーディオ情報の特徴ベクトルを検出し、前記特徴ベクトルのパターン分析を通じて音声認識を実行することを特徴とする、請求項６に記載のシーンメタ情報生成装置。
前記イメージ情報生成部は、前記画像コンテンツを構成するイメージを検出するための画像抽出部、各音声区間に対応するビデオ区間を検出するためのビデオ区間検出部、前記ビデオ区間内のイメージに関するイメージタグ情報を生成するイメージタグ部、および前記ビデオ区間の代表イメージを選択するシーン選択部を含むことを特徴とする、請求項１に記載のシーンメタ情報生成装置。
前記イメージタグ部は、各ビデオ区間内に存在する複数のイメージに対して画像認識を実行して、前記複数のイメージ各々に対するイメージタグ情報を生成することを特徴とする、請求項９に記載のシーンメタ情報生成装置。
前記シーン選択部は、予め決定された単語埋め込みモデルを用いて各音声区間に該当するテキスト化された音声情報と各ビデオ区間に該当するイメージタグ情報をベクトル情報に変換することを特徴とする、請求項９に記載のシーンメタ情報生成装置。
前記単語埋め込みモデルはＷｏｒｄ２Ｖｅｃモデルであることを特徴とする、請求項１１に記載のシーンメタ情報生成装置。
前記シーン選択部は、予め決定された類似度測定技法を用いて前記イメージタグ情報に対応する第１ベクトル情報と前記テキスト化された音声情報に対応する第２ベクトル情報との間の類似度を測定することを特徴とする、請求項１１に記載のシーンメタ情報生成装置。
前記類似度測定技法は、コサイン類似度測定技法、ユークリッド類似度測定技法、Ｊａｃｃａｒｄ係数を用いた類似度測定技法、ピアソン相関係数を用いた類似度測定技法およびマンハッタン距離を用いた類似度測定技法のうち少なくとも一つを含むことを特徴とする、請求項１３に記載のシーンメタ情報生成装置。
前記シーン選択部は、各ビデオ区間内のイメージのうち、前記テキスト化された音声情報と最も類似度が高いイメージタグ情報に対応するイメージを該当区間の代表イメージに選択することを特徴とする、請求項１３に記載のシーンメタ情報生成装置。
前記字幕情報生成部から受信した字幕情報、前記オーディオ情報生成部から受信したオーディオ情報および前記イメージ情報生成部から受信した代表イメージ情報に基づいてシーンメタ情報を生成するシーンメタ情報構成部をさらに含むことを特徴とする、請求項１に記載のシーンメタ情報生成装置。
前記シーンメタ情報のフレームは、シーンメタ情報を識別するためのＩＤフィールド、字幕区間または音声区間を示すタイムコードフィールド、代表イメージを示す代表イメージフィールド、音声情報を示す音声フィールド、字幕情報を示す字幕フィールドおよびイメージタグ情報を示すイメージタグフィールドのうち少なくとも一つを含むことを特徴とする、請求項１６に記載のシーンメタ情報生成装置。
前記シーンメタ情報構成部は、シーンメタ情報の代表イメージが類似した場合、前記シーンメタ情報を一つのシーンメタ情報に併合することを特徴とする、請求項１６に記載のシーンメタ情報生成装置。
画像コンテンツと関連した字幕ファイルに基づいて字幕情報を検出するステップ、
前記画像コンテンツからオーディオ情報を抽出し、前記オーディオ情報に基づいて複数の音声区間を検出するステップ、
各音声区間内のオーディオ情報に対する音声認識結果に基づいて前記字幕情報を補正するステップ、および
各音声区間に対応するビデオ区間を検出し、前記ビデオ区間内の画像フレームに対する画像認識結果に基づいて代表イメージを選択するステップ
を含むシーンメタ情報生成方法。
画像コンテンツからオーディオ情報を抽出し、前記オーディオ情報に基づいて複数の音声区間を検出し、各音声区間内のオーディオ情報に対して音声認識を実行するオーディオ情報生成部、
各音声区間内のオーディオ情報に対する音声認識結果に基づいて字幕情報を生成する字幕情報生成部、および
各音声区間に対応するビデオ区間を検出し、前記ビデオ区間内の画像フレームに対して画像認識を実行し、前記画像フレームの中から代表イメージを選択するイメージ情報生成部
を含むシーンメタ情報生成装置。