JP6266109B2

JP6266109B2 - 動画画面の処理方法及び装置

Info

Publication number: JP6266109B2
Application number: JP2016535328A
Authority: JP
Inventors: ジンチャン; ダンダンシャオ; チェンホアシュー
Original assignee: バイドゥオンラインネットワークテクノロジー（ペキン）カンパニーリミテッド
Priority date: 2013-12-04
Filing date: 2014-10-30
Publication date: 2018-01-24
Anticipated expiration: 2034-10-30
Also published as: KR101746165B1; US9973793B2; KR20160010507A; JP2016531512A; WO2015081776A1; CN103634605B; US20160277779A1; CN103634605A

Description

（関連出願の相互参照）
本出願は、バイドゥオンラインネットワークテクノロジー（ペキン）カンパニーリミテッドが２０１３年１２月４日に提出した、発明の名称が「動画画面の処理方法及び装置」である中国特許出願番号「２０１３１０６４６７８３．６」の優先権を主張する。
本発明は、通信技術分野に関し、特に動画画面の処理方法及び装置に関するものである。

端末技術の迅速な発展に伴い、各機能の応用もますます多様化され、ユーザは端末にさまざまなアプリケーションをインストールし、ビジネス、レジャー、生活等のたくさんの行動に補助しようとしている。

現在、モバイル端末を利用してオンライン動画を視聴するユーザが多いが、オンライン動画の視聴には大量のデータ量が消費される。１分間のモバイル動画を視聴するには、ＳＤ（標準画質）の場合、約４Ｍのデータ量が消費され、ＨＤ（高精細度画質）の場合、約２０Ｍのデータ量が消費されるため、毎月のデータ量が百メガバイト（ＭＢ）しかないユーザにとっては、オンライン動画の視聴に大きな制限がある。

また、ネットワーク速度、動画リソース、携帯電話の性能等によっては、ユーザがモバイル動画を視聴する過程において、フリーズ現象がよく生じる。フリーズされたときには、略半分のユーザは画面から退出するか、又はアプリケーションを停止してしまう。そのため、ユーザの動画視聴のニーズを満たせることができない。

ネットワーク環境が動画リソースの伝送速度に大きく影響することによって、ユーザは静かでモバイルネットワーク環境が良好な場所でのみオンライン動画を視聴することができる。ネットワーク環境が悪い場所では、例えば地下鉄などでは一般に視聴できない。さらに、細切れ時間に視聴することも適切でない。

以上から分かるように、現在、オンライン動画を視聴するには、（１）データ量を大量消費すること、（２）フリーズ現象がひどいこと、（３）視聴できる場所や時間に制限があることなどの問題がある。

上記の問題（１）については、現在はスムーズなトランスコーディングの形式を提供することによって解決されている。上記の問題（２）については、フレーム数を減少したり、ユーザの報告を受けた後に動画リソースを受動的に置き換えさせられたり、又はユーザに動画のノードを変更させたり、フリーズされた部分をスキップさせたりするように推奨することによって解決され、前記フレーム数は最低に２４フレーム／秒まで減少されることができる。上記の問題（３）については、現在解決策はない。

しかしながら、前記スムーズなトランスコーディングとフレーム数を減少する手段は、データ量の消費およびフリーズ現象をある程度改善できるが、その問題は依然に厳しく、ユーザが報告することまたはユーザにノードを変更させるように推奨することは受動的な手段として、フリーズ現象を事後しか解決できない。

本発明は、先行技術に存在する技術問題の少なくとも１つを解決することを趣旨とする。

そのため、本発明は、動画画面の処理方法を提供することを１番目の目的とする。該方法は、現在の動画のキー画面をキャプチャし、キー画面を並び替えて画面ライブラリを生成するとともに、画面ライブラリの中の画面を再生させることにより、データ量を節約し、ユーザにとって素早くかつ便利に動画のストーリを理解することができるようにする。

また、本発明は、動画画面の処理装置を提供することを２番目の目的とする。

前記目的を達成するため、本発明の第一方面の実施形態による動画画面の処理方法は、現在の動画の情報を取得するステップと、前記現在の動画の情報に基づいて現在の動画の完全な字幕付きの動画フレーム画面を含むキー画面をキャプチャするステップと、前記キー画面を並び替えて画面ライブラリを生成するステップと、再生リクエストを受信し、前記再生リクエストに応じて前記画面ライブラリから対応するキー画面を読み取って再生させるステップと、を含む。

本発明の実施形態による動画画面の処理方法は、現在の動画の情報を取得し、現在の動画の情報に基づいて現在の動画のキー画面をキャプチャし、キー画面を並び替えて画面ライブラリを生成し、並びに再生リクエストに応じて画面ライブラリから対応するキー画面を読み取って再生させることにより、データ量を節約すると同時に、ネットワークのフリーズの場合、ユーザが動画を迅速にプレビューすることができ、ユーザにとって、素早くかつ便利的にストーリを理解することができるようにし、モバイル動画のフリーズのときにユーザが画面から退出することを減少させ、ユーザのエクスペリエンスを向上させることができる。

前記目的を達成するため、本発明の第二方面の実施形態による動画画面の処理装置は、取得モジュールと、キャプチャモジュールと、生成モジュールと、再生モジュールと、を含む。

本発明の実施形態による動画画面の処理装置は、現在の動画の情報を取得し、現在の動画の情報に基づいて現在の動画のキー画面をキャプチャし、キー画面を並び替えて画面ライブラリを生成し、並びに再生リクエストに応じて画面ライブラリから対応するキー画面を読み取って再生させることにより、データ量を節約すると同時に、ネットワークのフリーズの場合、ユーザが動画を迅速にプレビューすることができ、ユーザにとって、素早くかつ便利的にストーリを理解することができるようにし、モバイル動画のフリーズのときにユーザが画面から退出することを減少させ、ユーザのエクスペリエンスを向上させることができる。

前記目的を達成するため、本発明の第三方面の実施形態による記憶媒体は、本発明の第一方面の実施形態に記載の前記動画画面の処理方法を実行するためのプログラムを記憶する。

本発明の付加的方面及びメリットは、以下の説明において部分的に述べられ、この説明から一部は明らかになるか、または、本発明の実施により理解され得る。

本発明の上述及び／或いは付加的方面とメリットは、下記の図面を結合した実施形態に対する説明において、明らかになり、容易に理解できる。
本発明の一実施形態による動画画面の処理方法を示すフローチャートである。本発明の一実施形態による動画を再生する過程を示すフローチャートである。本発明の１つの具体的な実施形態による現在の動画のキー画面をキャプチャするフローチャートである。本発明の別の実施形態によるキー字幕時点の系列に対してフレームを補間するブロック図である。本発明の一実施形態による動画画面の処理装置を示すブロック図である。本発明の１つの具体的な実施形態による動画画面の処理装置を示すブロック図である。本発明の１つの具体的な実施形態による動画画面の処理装置を示す別のブロック図である。

以下、本発明の実施形態に対して詳細に説明する。前記実施形態の実例を図面に示すが、相同又は類似の部品或いは相同又は類似の機能を有する部品に対しては同一又は類似の符号で表す。以下、図面を参照しながら説明する実施形態は例示的なものであり、本発明を解釈するためのものであり、本発明を制限するためのものではない。逆に、本発明の実施形態は添付の特許請求の範囲に含まれる要旨及び内包範囲におけるあらゆる変化・変更及び同等物を含む。

本発明の説明における、「第一」や「第二」という用語は、単に説明のためのものであり、相対的な重要性若しくは数量若しくは位置に対する明示的／暗示的なものではない。また、特に規定や限定がない場合、「繋がり」、「接続」などの用語を広義に理解すべきである。例えば、固定的な接続でもよいし、着脱可能な接続でもよいし、一体でもよい。また、机械的な接続でもよいし、電気的な接続でもよい。また、直接的な繋がりでもよいし、別のものを介する間接的な繋がりでもよいし、２つの部品の内部の連通を表してもよい。本分野の当業者としては、具体的な状況に基づいて本発明における上記用語の意味を理解できる。また、本発明の説明において、特に説明がない場合、「複数」は２つまたは２つ以上を指す。

フローチャートまたは他の方式で説明されたいかなる過程または方法は、１つ又は複数の論理機能又は過程のステップを実現するための実行可能な命令のコードのモジュール、断片又は部分であり、並びに本発明の好ましい実施形態は他の形態も含み、例示された又は議論された順序（関与された機能とほぼ同じ方式又は逆の順序を含む）によらず実行できることは当業者としては理解できる。

以下、添付の図面を参照しながら本発明の実施形態に係る動画画面の処理方法及び装置を説明する。

本発明は、現在のオンライン動画を視聴するときに存在しているモバイルデータ量を大量に消費すること、動画のフリーズがひどいこと、視聴可能な場所や時間に制限があること等の問題を解決するために、動画画面の処理方法を提供する。

図１は、本発明の一実施形態による動画画面の処理方法を示すフローチャートである。図１に示したように、該動画画面の処理方法は、以下のステップを含む。

ステップＳ１０１では、現在の動画の情報を取得する。

まずは、動画ライブラリから現在の動画の、動画ソースパス、字幕ファイルパス等を含む情報を取得する。

ステップＳ１０２では、現在の動画の情報に基づいて現在の動画の完全な字幕付きの動画フレーム画面を含むキー画面をキャプチャする。

現在の動画のキー画面をキャプチャするステップにおいて、まずは現在の動画の情報に基づいてキー字幕時点の系列を取得し、キー字幕時点の系列を取得した後、キー字幕時点の系列に対してフレームを補間したり、キー字幕時点の系列におけるキー字幕の時点に対してオフセット補正をしたりし、最後に、キー字幕時点の系列に対応させて現在の動画のキー画面をキャプチャする。なお、フレーム補間処理およびオフセット補正には厳格な実行順序はない。すなわち、フレームを補間した後にオフセット補正をしてもよいし、オフセット補正をした後にフレームを補間してもよい。また、前記オフセット補正およびフレーム補間は選択的なステップであり、フレームを補間した場合、前記キー画面は間隔時間によってフレームを補間した画面を更に含む。

ステップＳ１０３では、キー画面を並び替えて画面ライブラリを生成する。

本実施形態において、再生順番に従ってキャプチャされた現在の動画にキー画面を並び替えて現在の動画の連環画モードの画面ライブラリを生成する。連環画モードとは、キーストーリ閲覧のニーズを満たせるように、動画のキーストーリ画面をキャプチャして、再生時間順に並び替えて生成した一連の画面集である。

ステップＳ１０４では、再生リクエストを受信し、再生リクエストに応じて画面ライブラリから対応するキー画面を読み取って再生させる。

本実施形態において、動画の内容は連環画モードと通常の動画モードを有する。ユーザは、動画の閲覧または連環画モードの画面ライブラリによるストーリの閲覧を選択することができる。２つのモードは相互に切り替えられることができる。動画がフリーズした場合、自動的に連環画モードに切り替えられる。具体的には、動画の再生過程において、動画またはキー画面を自動的にプリロードし、プリロード量があらかじめ設定した閾値より少ない場合（例えば、プリロード量が５秒の連続再生を維持できない場合）、ユーザのストーリ閲覧を優先にするように、自動的に連環画モードに切り替えられる。また、ユーザは手動で動画モードに切り替えてプリロードを引き続き待つこともできる。例えば、図２に示したように、動画ファイルを複数のユニットに分けて、ユニットを単位として動画ファイルをプリロードして再生させる。具体的には、以下のステップＳ２０１〜ステップＳ２０４を含む。

ステップＳ２０１では、１つのユニットをプリロードした後、現在のユニットの動画を再生させる。

ステップＳ２０２では、ユニットの０．７５を再生させたときに、次のユニットのプリロードが完了されたかどうかを判断し、プリロードが完了された場合はステップＳ２０３を実行し、プリロードが完了されなかった場合はステップＳ２０４を実行する。

ステップＳ２０３では、引き続き次のユニットの動画を再生させ、操作を終了する。

ステップＳ２０４では、ユーザがストーリをタイムリーに理解することができるように、連環画モードに切り替えるとともに次のユニットの連環画をプリロードし、その後、動画のプリロードが完了された後に動画モードに切り替えられるように、ステップＳ２０２に戻して対応するユニットの動画を再生させる。

本実施形態において、連環画モードで再生させる場合、自動的に再生させても手動で再生させてもよい。自動的に再生させる場合、自動再生リクエストに応じて画面ライブラリから対応するキー画面を読み取って再生させるとともに、予め設定した時間間隔、例えば３秒ごとに１つのフレームの速度で順番に自動的に画面ライブラリを再生させる。こうすれば、ユーザが順調に字幕を読むことが確保でき、再生速度を、ユーザの動画を閲覧する通常の再生速度と一致にして、ユーザに動画を通常に閲覧する感じを与える。また、再生速度はユーザ自身の要求によって予め設定することもできる。手動で又は自動的に再生させる場合、コールリクエストに応じて画面ライブラリから対応するキー画面を読み取って再生させる。例えば、プリロード量が５秒の連続再生を維持することができない場合、画面ライブラリから対応するキー画面を読み取って再生させる。一定の時間再生させた後、プリロード量が５秒の連続再生を維持することができるようになったら、画面ライブラリからキー画面を読み取るのを停止して通常の動画再生に戻る。

前記連環画モードの利用によって、データ量を節約することができる。例えば、３０分間のＳＤ動画が１００Ｍ以上のデータ量を消費するのに対して、連環画モードでは９Ｍ程度しか消費せず、９０％のデータ量を節約することができる。そのため、ユーザは極めて少ないデータ量でドラマを閲覧することができ、アクセスの頻度とユーザの満足度を向上させることができる。

連環画モードの各フレーム画面において、ユーザのインタラクションを支持する機能を更に提供する。ユーザはキーストーリに対してインタラクションをし、豊かな内容を生成する。その上、動画とピクチャの広告がピクチャの形式で画面ライブラリに挿入されて、ユーザにより多くの情報を提供することができる。ユーザが細切れ時間を利用して、小説を読んだり、写真を閲覧したりするように、環境やネットワークの厳格な制限を受けることなく、いつでもどこでもドラマを閲覧することができる。

本発明の実施形態による動画画面の処理方法は、現在の動画の情報を取得し、現在の動画の情報に基づいて現在の動画のキー画面をキャプチャし、キー画面を並び替えて画面ライブラリを生成し、並びに再生リクエストに応じて画面ライブラリから対応するキー画面を読み取って再生させることにより、データ量を節約すると同時に、ネットワークのフリーズの場合にユーザが動画を迅速にプレビューすることができることによって、ユーザにとって、素早くかつ便利的にストーリを理解するようにして、モバイル動画のフリーズのときにユーザが画面から退出することを減少させ、ユーザのエクスペリエンスを向上させることができる。

現在の動画のキー画面をキャプチャし、ユーザが動画をプレビューして、より快適的、便利的且つ完全的にストーリを理解することができるように、本実施形態は現在の動画のキー画面をキャプチャする方法を提供する。図３に示したように、該方法は以下のステップＳ３０１〜ステップＳ３０２を含む。

ステップＳ３０１では、現在の動画の情報に基づいてキー字幕時点の系列を取得する。

本実施形態において、ネットワーク、音声認識又は画像認識等の技術を利用して現在の動画における各くだりの音声字幕の開始時点と完了時点とを取得し、各くだりの音声字幕の完了時点で１つのフレーム画面をキャプチャすることにより、画面をキャプチャするだけで完全な字幕を閲覧させることができる。

具体的には、字幕ファイルに基づいてキー字幕時点の系列を取得する。動画の字幕は、一般に図形タイプの字幕ファイルと文字列形式の字幕ファイルとに分ける。図形タイプの字幕ファイルについて、その索引ファイルを分析することによって動画における会話のある「字幕時間範囲」の系列を取得し、「．ｓｒｔ、．ａｓｓ」のような文字列形式の字幕ファイルについて、現有のプログラムが自動的に分析することによってその中における「字幕時間範囲」の系列を取得する。最後に、これらの系列における各「字幕時間範囲」メンバーの中間値又はその他の値に基づいて「キー字幕時点」の系列を生成する。もちろん、前記中間値又はその他の値は、完全な字幕付きの動画フレームを取得することができるように設定されている。

字幕ファイルに基づいてキー字幕時点の系列を取得するほか、音声分析、即ち音声認識に基づいて人の声の部分を識別する方法を利用して音声字幕の開始時点と完了時点とを取得し、更にキー字幕時点を取得することもできる。また、画像認識を利用してもよい。即ち予め設定した時間を間隔として、動画を連続的なフレームに変換し、画像認識の方法を利用して特定エリアにおいて完全な字幕を含むフレームを識別し、重複したものを排除した後に最終的な画像フレーム系列を直接取得し、これらの画像フレーム系列に対応する時間をキー字幕時点の系列とする。

前記予め設定した時間が１／２４秒以上であることが望ましい。こうすれば、動画のサンプリング・レートが２４フレーム／秒となるためである。

ステップＳ３０２では、キー字幕時点の系列に対してフレームを補間する。

該ステップは選択的なステップであり、２つのフレーム画像間の時間が長すぎると、例えば予め設定した時間より５秒超えた場合、５秒ごとに１つの「補間されるフレーム」をキャプチャする必要がある。これは、この時間内に音声はないが、アクションショットがある可能性があり、アクションショットもユーザのストーリの理解に影響するためである。そのため、ストーリの連続性を確保するために、１分間の動画を約１５回キャプチャし、各画像のサイズを２０ｋとして、対応する現在の動画のすべての画像ファイルの合計が３００ｋとなるようにする。

具体的には、フレームを補間する過程は以下の通りである。隣接する２つのキー字幕の時点同士の時間間隔が予め設定した値より大きいかどうかを判断する。予め設定した値より大きいと、隣接する２つのキー字幕の時点の間で新規のキー字幕時点を取得し、その新規のキー字幕時点をキー字幕時点の系列に内挿する。例えば、隣接する２つの「キー字幕時点」同士の差が４秒を超える場合には、その間に中間値時点のスクリーンショットを１つ内挿する。図４に示したように、３．４８４と２０．１９６との時間間隔が４秒の４倍よりも大きいため、その間に４つのフレームを内挿する。そのうち、「−ｔｗｅｅｎ」マークが付いたフレームは内挿されたフレームである。２０．１９６と２８．８８７との時間間隔が４秒の２倍よりも大きいため、その間に２つのフレームを内挿する。このように、少なくとも平均４秒内に一枚画像があることを確保することによって、ストーリの連続性を確保する。

前記フレームの補間過程をアルゴリズムで実現した結果の例示は以下のとおりである。省略記号は後続の省略された幾つかのキー時点の系列の対象を表す。

［
｛
ＲＯＷ：“００：００：２３，４５０ −−＞００：００
：２９，３８７ “，
ＲＯＷ＿ＳＴＡＲＴ：２３．４５，
ＲＯＷ＿ＥＮＤ：２９．３８７，
ＫＥＹ：２６．４１８５，
ＫＥＹ＿ＯＦＦＳＥＴ＿ＴＨＩＳ：１７．４１８５，
ＫＥＹ＿ＯＦＦＳＥＴ＿ＰＲＥＶ：０，
ＫＥＹ＿ＯＲＤＥＲＳ：［
３．４８４，
６．９６７，
１０．４５１，
１３．９３５，
１７．４１９
］
｝，
｛
ＲＯＷ：“００：００：３１，４１７ −−＞００：００
：３８，０８７ “，
ＲＯＷ＿ＳＴＡＲＴ：３１．４１７，
ＲＯＷ＿ＥＮＤ：３８．０８７，
ＫＥＹ：３４．７５２，
ＫＥＹ＿ＯＦＦＳＥＴ＿ＴＨＩＳ：２５．７５２，
ＫＥＹ＿ＯＦＦＳＥＴ＿ＰＲＥＶ：１７．４１８５，
ＫＥＹ＿ＯＲＤＥＲＳ：［
２０．１９６，
２２．９７４，
２５．７５２
］
｝，
｛……｝，
｛……｝，

ステップＳ３０３では、キー字幕時点の系列におけるキー字幕時点に対してオフセット補正を行う。

該ステップも選択的なステップであり、通常、字幕ファイルに誤差があるため、字幕ファイルに基づいて取得した「キー字幕時点」に対してオフセットを検証し自動的に修正する必要がある。その修正の手順は最初の１０個の「字幕時間範囲」の開始時間を検証することによりオフセット量のパラメータを確定し、該オフセット量のパラメータを利用して「キー字幕時点」の系列に対してオフセット補正を行う。前記オフセット量のパラメータは、画像認識又は音声認識によって取得された開始時点と字幕ファイルにおける字幕の開始時間とを比較して自動的に取得することもできるし、その他の方法を利用して取得することもできる。

また、前記ステップＳ３０２とステップＳ３０３には厳格な実行順序はない。すなわち、フレームを補間した後にオフセット補正を行ってもよいし、オフセット補正を行った後にフレームを補間してもよい。

ステップＳ３０４では、キー字幕時点の系列に対応させて現在の動画のキー画面をキャプチャする。

本実施形態において、オープンソース（ｏｐｅｎｓｏｕｒｃｅ）のフリークロスプラットフォームのビデオとオーディオストリーミングであるＦＦｍｐｅｇ（オーディオとビデオの処理プログラムの一種）を利用して、キー字幕時点の系列に基づき現在の動画のキー画面をキャプチャすることができる。

本実施形態において、キャプチャされた現在の動画のキー画面に対して、動画の再生順序に従って並び替えて、現在の動画の連環画モードの画面ライブラリを生成する。そのうち、連環画モードは、動画のキーストーリの画面をキャプチャし、再生時間順に並び替えて生成した一連の画面集であり、キーストーリ閲覧のニーズを満たせる。連環画モードは、モバイル環境において、ローディング用データ量が少なくかつ速度が速いという優れる利点を有する。１分間の動画において、ＨＤでは約２０Ｍのデータ量を消費し、ＳＤでは約４Ｍのデータ量を消費するが、連環画モードの画面ライブラリでは僅か３００Ｋしか消費しない。ユーザのネットワーク速度が１０ｋ／ｓであるとすれば、ＨＤ動画のローディングには３４分がかかり、ＳＤ動画のローディングには７分がかかるが、連環画モードの画面ライブラリのローディングには僅か３０秒しかかからない。

本発明の実施形態は、キー字幕時点の系列に対してフレームを補間し、更にキー字幕時点の系列におけるキー字幕時点に対してオフセット補正を行うことにより、キャプチャされたキー画面がより連続的、正確的かつ全面的となることによって、ユーザは速やかに動画をプレビューして、より快適的、便利的且つ完全的にストーリを理解することができ、ユーザのエクスペリエンスを向上させることができる。

図５は、本発明の一実施形態による動画画面の処理装置を示すブロック図である。図５に示したように、動画画面の処理装置は、取得モジュール１００と、キャプチャモジュール２００と、生成モジュール３００と、再生モジュール４００と、を含む。

取得モジュール１００は、現在の動画の情報を取得する。

本実施形態において、取得モジュール１００は、動画ライブラリから現在の動画のソースパス、字幕ファイルパス等の情報を取得する。

キャプチャモジュール２００は、取得モジュール１００によって取得された現在の動画の情報に基づいて現在の動画の完全な字幕付きのフレーム画像を含むキー画面をキャプチャする。

本実施形態において、キャプチャモジュール２００は、取得モジュール１００によって取得された現在の動画の情報に基づいてキー字幕時点の系列を取得する。キャプチャモジュール２００は、キー字幕時点の系列を取得した後、キー字幕時点の系列に対してフレームを補間したり、キー字幕時点の系列におけるキー字幕の時点に対してオフセット補正をしたりして、最後に、キー字幕時点の系列に対応させて現在の動画のキー画面をキャプチャする。また、フレーム補間処理とオフセット補正には厳格な実行順序はない。すなわち、フレームを補間した後にオフセット補正をしてもよいし、オフセット補正をした後にフレームを補間してもよい。

生成モジュール３００は、キャプチャモジュール２００によってキャプチャされたキー画面を並び替えて画面ライブラリを生成する。

本実施形態において、生成モジュール３００は、再生順番に従ってキャプチャされた現在の動画にキー画面を並び替えて現在の動画の連環画モードの画面ライブラリを生成する。そのうち、連環画モードは、キーストーリ閲覧のニーズを満たせるように、動画のキーストーリ画面をキャプチャして、再生時間順に並び替えて生成した一連の画面集である。

再生モジュール４００は、再生リクエストを受信し、再生リクエストに応じて画面ライブラリから対応するキー画面を読み取って再生させる。

本実施形態において、動画の内容は連環画モードと通常の動画モードを有する。ユーザは動画を閲覧してもよいし、連環画モードの画面ライブラリによってストーリを一覧してもよい。２つのモードは相互に切り替えることができる。動画がフリーズした場合、自動的に連環画モードに切り替えられる。具体的には、動画の再生過程において、動画またはキー画面を自動的にプリロードし、プリロード量があらかじめ設定した閾値より少ない場合（例えば、プリロード量が５秒の連続再生を維持できない場合）、ユーザのストーリ閲覧を優先にするように、自動的に連環画モードに切り替える。また、ユーザは手動で動画モードに切り替えてプリロードを引き続き待たせることもできる。

本実施形態において、連環画モードで再生させる場合、自動的に再生させても手動で再生させてもよい。自動的に再生させる場合、再生モジュール４００は、自動再生のリクエストに応じて画面ライブラリから対応するキー画面を読み取って再生させるとともに、３秒ごとに１つのフレームの速度で順番に自動的に画面ライブラリを再生させる。こうすれば、ユーザが順調に字幕を読むことが確保でき、同時に通常のドラマの再生時間と一致する。また、再生速度は、ユーザ自身の要求によって予め設定することもできる。手動で又は自動的に再生させる場合、再生モジュール４００は、コールリクエストに応じて画面ライブラリから対応するキー画面を読み取って再生させる。例えば、プリロード量が５秒の連続再生を維持することができない場合、画面ライブラリから対応するキー画面を読み取って再生させる。一定の時間再生させた後、プリロード量が５秒の連続再生を維持することができるようになったら、画面ライブラリからキー画面を読み取るのを停止して通常の動画再生に戻る。

前記連環画モードの利用によって、データ量を節約することができる。例えば、３０分間の動画において、ＳＤでは１００Ｍ以上のデータ量を消費するのに対して、連環画モードでは９Ｍ程度しか消費せず、９０％のデータ量を節約することができる。そのため、ユーザは極めて少ないデータ量でドラマを閲覧することができ、アクセスの頻度とユーザの満足度を向上することができる。

本発明の実施形態による動画画面の処理装置は、現在の動画の情報を取得し、現在の動画の情報に基づいて現在の動画のキー画面をキャプチャし、キー画面を並び替えて画面ライブラリを生成し、並びに再生リクエストに応じて画面ライブラリから対応するキー画面を読み取って再生させることにより、データ量を節約すると同時に、ネットワークのフリーズの場合にユーザが動画を迅速にプレビューすることができることによって、ユーザにとって素早く便利にストーリを理解するようにして、モバイル動画のフリーズのときにユーザが画面から退出することを低減させ、ユーザのエクスペリエンスを向上させることができる。

図６は、本発明の具体的な実施形態による動画画面の処理装置を示すブロック図であり、図７は、本発明の具体的な実施形態による動画画面の処理装置を示す別のブロック図である。図６および図７に示したように、動画画面の処理装置は、取得モジュール１００と、キャプチャモジュール２００と、生成モジュール３００と、再生モジュール４００と、を含む。そのうち、キャプチャモジュール２００は、時点系列取得ユニット２１０と、キャプチャユニット２２０と、フレーム補間ユニット２３０と、補正ユニット２４０と、を含む。

時点系列取得ユニット２１０は、現在の動画の情報に基づいてキー字幕時点の系列を取得する。

本実施形態において、時点系列取得ユニット２１０は、ネットワーク、音声認識又は画像認識等の技術を利用して現在の動画における各くだりの音声字幕の開始時点と完了時点とを取得し、各くだりの音声字幕の完了時点に１つのフレームの画面をキャプチャすることにより、画面をキャプチャするだけで完全な字幕を閲覧することができる。

具体的には、時点系列取得ユニット２１０は、字幕ファイルに基づいてキー字幕時点の系列を取得する。動画の字幕は、一般に図形タイプの字幕ファイルと文字列形式の字幕ファイルとに分ける。時点系列取得ユニット２１０は、図形タイプの字幕ファイルについて、その索引ファイルを分析することによって動画における会話のある「字幕時間範囲」の系列を取得し「．ｓｒｔ、．ａｓｓ」のような文字列形式の字幕ファイルについて、現有のプログラムが自動的に分析することによってその中における「字幕時間範囲」のを取得する。最後に、これらの系列における各「字幕時間範囲」メンバーの中間値又はその他の値に基づいて「キー字幕時点」の系列を生成する。もちろん、前記中間値又はその他の値は、完全な字幕付きの動画フレームを取得することができるように設定されている。

字幕ファイルに基づいてキー字幕時点の系列を取得するほか、時点系列取得ユニット２１０は、音声分析、即ち音声認識に基づいて人の声の部分を識別する方法を利用して音声字幕の開始時点と完了時点とを取得し、更にキー字幕時点を取得することもできる。また、時点系列取得ユニット２１０は、画像認識を利用してもよい。即ち０．５Ｓを間隔として、動画を連続的なフレームに変換し、画像認識の方法を利用して特定エリアにおいて完全な字幕を含むフレームを識別し、重複したものを排除した後に最終的な画像フレーム系列を直接取得し、これらの画像フレーム系列に対応する時間をキー字幕時点の系列とする。

キャプチャユニット２２０は、キー字幕時点の系列に対応させて現在の動画のキー画面をキャプチャする。

フレーム補間ユニット２３０は、時点系列取得ユニット２１０によって取得された又は補正ユニット２４０によって補正されたキー字幕時点の系列における隣接する２つのキー字幕の時点同士の時間間隔が予め設定した値より大きいかどうかを判断する。予め設定した値より大きいと、隣接する２つのキー字幕の時点の間で新規のキー字幕時点を取得し、その新規のキー字幕時点をキー字幕時点の系列に内挿する。

２つのフレーム画像間の時間が長すぎると、例えば予め設定した時間より５秒超えた場合、５秒ごとに１つの「補間されるフレーム」をキャプチャする必要がある。これは、この時間内に音声はないが、アクションショットがある可能性があり、アクションショットもユーザのストーリの理解に影響するためである。そのため、ストーリの連続性を確保するために、１分間の動画を約１５回キャプチャし、各画像のサイズを２０ｋとして、対応する現在の動画のすべての画像ファイルの合計が３００ｋとなるようにする。

具体的には、フレーム補間ユニット２３０は、隣接する２つのキー字幕の時点同士の時間間隔が予め設定した値より大きいかどうかを判断し、予め設定した値より大きいと、隣接する２つのキー字幕の時点の間で新規のキー字幕時点を取得し、その新規のキー字幕時点をキー字幕時点の系列に内挿する。例えば、隣接する２つの「キー字幕時点」同士の差が５秒を超える場合には、その間に中間値時点のスクリーンショットを１つ内挿し、６秒を超える場合には、スクリーンショットを２つ内挿する。このように、少なくとも平均４秒内に一枚画像があることを確保することによって、ストーリの連続性を確保する。

補正ユニット２４０は、時点系列取得ユニット２１０又はフレーム補間ユニット２３０によって取得されたキー字幕時点の系列におけるキー字幕時点に対してオフセット補正を行う。

通常、字幕ファイルに誤差があるため、字幕ファイルに基づいて取得した「キー字幕時点」に対してオフセットを検証し自動的に修正する必要がある。補正ユニット２４０は、最初の１０個の「字幕時間範囲」の開始時間を検証することによりオフセット量のパラメータを確定し、該オフセット量のパラメータを利用して「キー字幕時点」の系列に対してオフセット補正を行う。前記オフセット量のパラメータは、画像認識又は音声認識によって取得された開始時点と字幕ファイルにおける字幕の開始時間とを比較して自動的に取得することもできるし、その他の方法を利用して取得することもできる。

また、フレーム補間ユニット２３０によるフレーム補間処理と補正ユニット２４０によるオフセット補正には厳格な実行順序はない。すなわち、フレームを補間した後にオフセット補正を行ってもよいし、オフセット補正を行った後にフレームを補間してもよい。

本発明の実施形態に係る動画画面の処理装置は、キー字幕時点の系列に対してフレームを補間し、更にキー字幕時点の系列におけるキー字幕時点に対してオフセット補正を行うことにより、キャプチャされたキー画面がより連続的且つ正確的となることによって、ユーザは速やかに動画をプレビューして、より快適的且つ便利的にストーリを理解することができ、ユーザのエクスペリエンスを向上させることができる。

前記実施形態を実現するために、本発明は、プログラムを記憶するための記憶媒体を更に提供する。このプログラムは、本発明のいずれか一項の実施形態に係る動画画面の処理方法を実行するためのものである。

また、本発明の各部分は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの組み合わせで実現することができる。上記実施形態において、複数のステップ又は方法は、メモリに格納され且つ適切な命令実行システムにより実行されるソフトウェアまたはファームウェアで実現することができる。例えば、ハードウェアで実現する場合、他の実施形態と同様に、本分野の公知技術である、データ信号に対して論理機能を実現するための論理ゲート回路を有するディスクリート論理回路、適切な組み合わせの論理ゲート回路を有する専用集積回路、プログラマブルゲートアレイ（ＰＧＡ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）などのいずれか１つ又はそれらの組み合わせで実現することができる。

本明細書の説明において、用語の「一実施形態」、「一部の実施形態」、「例示」、「具体的な例示」、又は「一部の例示」等の用語は、当該実施形態又は例示と合わせて説明された具体的な特徴、構成、材料又は特性が本発明の少なくとも１つの実施形態又は例示に含まれることを意味する。本明細書において、上記の用語の概略表現は必ずしも同じ実施形態又は例示を指さず、且つ、任意の１つ又は幾つの実施形態や例示において、説明された具体的な特徴、構成、材料又は特性を適当な方法で組み合わせることもできる。

本発明の実施形態を示して説明したが、当業者にとって理解できるのは、本発明の原理と要旨から逸脱しない範囲で、これらの実施形態に対し様々な変更、修正、置換および変形をすることができる。本発明の技術範囲は、特許請求の範囲及びその均等構成を基準にする。

Claims

現在の動画の情報を取得するステップと、
前記現在の動画の情報に基づいて現在の動画の完全な字幕付きの動画フレーム画面を含むキー画面をキャプチャするステップと、
前記キー画面を並び替えて画面ライブラリを生成するステップと、
再生リクエストを受信し、前記再生リクエストに応じて前記画面ライブラリから対応するキー画面を読み取って再生させるステップと、
動画の再生過程において、動画またはキー画面を自動的にプリロードし、プリロード量があらかじめ設定した閾値より少ない場合、ユーザのストーリ閲覧を優先にするように、自動的に連環画モードに切り替えられるステップと、
を含むことを特徴とする動画画面の処理方法。
前記現在の動画の情報に基づいて現在の動画のキー画面をキャプチャするステップは、
前記現在の動画の情報に基づいてキー字幕時点の系列を取得するステップと、
前記キー字幕時点の系列に対応させて現在の動画のキー画面をキャプチャするステップと、
を含むことを特徴とする請求項１に記載の動画画面の処理方法。
前記動画画面の処理方法は、
前記現在の動画の情報に基づいてキー字幕時点の系列を取得した後、前記キー字幕時点の系列に対応させて現在の動画のキー画面をキャプチャする前に、
隣接する２つのキー字幕の時点同士の時間間隔が予め設定した値より大きいかどうかを判断し、予め設定した値より大きいと、前記隣接する２つのキー字幕の時点の間で新規のキー字幕時点を取得し、前記新規のキー字幕時点を前記キー字幕時点の系列に内挿するステップ、及び／又は
前記キー字幕時点の系列におけるキー字幕時点に対してオフセット補正を行うステップを更に含むことを特徴とする請求項２に記載の動画画面の処理方法。
前記現在の動画の情報に基づいてキー字幕時点の系列を取得するステップは、
前記現在の動画の字幕ファイルに基づいて字幕時間範囲系列を取得し、字幕時間範囲系列に基づいてキー字幕時点の系列を生成するステップ、又は
現在の動画に対して音声認識を行って字幕時間範囲系列を取得し、字幕時間範囲系列に基づいてキー字幕時点の系列を生成するステップ、又は
現在の動画を動画フレームに変換しかつ画像認識の方法を利用して特定エリアに完全な字幕付きの動画フレーム系列を識別し、前記動画フレーム系列に対して重複したものを排除し、重複排除された動画フレーム系列に対応する時間をキー字幕時点の系列とするステップを含むことを特徴とする請求項２又は３に記載の動画画面の処理方法。
前記再生リクエストを受信し、前記再生リクエストに応じて前記画面ライブラリから対応するキー画面を読み取って再生させるステップは、
自動再生のリクエストを受信し、該自動再生のリクエストに応じて順番に前記画面ライブラリから対応するキー画面を読み取って再生させるステップ、又は
コールリクエストを受信し、前記コールリクエストに応じて前記画面ライブラリから対応するキー画面を読み取って再生させるステップを含むことを特徴とする請求項１に記載の動画画面の処理方法。
前記動画画面の処理方法は、
前記コールリクエストに応じて前記画面ライブラリから対応するキー画面を読み取って再生させた後に、
再生停止のリクエストを受信し、前記再生停止のリクエストに応じて前記画面ライブラリからキー画面を読み取るのを停止するステップを更に含むことを特徴とする請求項５に記載の動画画面の処理方法。
現在の動画の情報を取得するための取得モジュールと、
前記取得モジュールによって取得された前記現在の動画の情報に基づいて現在の動画の完全な字幕付きの動画フレーム画面を含むキー画面をキャプチャするためのキャプチャモジュールと、
前記キャプチャモジュールによってキャプチャされた前記キー画面を並び替えて画面ライブラリを生成するための生成モジュールと、
再生リクエストを受信し、前記再生リクエストに応じて前記生成モジュールによって生成された前記画面ライブラリから対応するキー画面を読み取って再生させ、動画の再生過程において、動画またはキー画面を自動的にプリロードし、プリロード量があらかじめ設定した閾値より少ない場合、ユーザのストーリ閲覧を優先にするように、自動的に連環画モードに切り替えられるための再生モジュールと、
を含むことを特徴とする動画画面の処理装置。
前記キャプチャモジュールは、
前記現在の動画の情報に基づいてキー字幕時点の系列を取得するための時点系列取得ユニットと、
前記キー字幕時点の系列に対応させて現在の動画のキー画面をキャプチャするためのキャプチャユニットと、
を含むことを特徴とする請求項７に記載の動画画面の処理装置。
前記キャプチャモジュールは、前記時点系列取得ユニットと前記キャプチャユニットとの間に位置するフレーム補間ユニットと補正ユニットを更に含み、
前記フレーム補間ユニットは、前記時点系列取得ユニットによって取得された、又は前記補正ユニットによって補正されたキー字幕時点の系列における隣接する２つのキー字幕の時点同士の時間間隔が予め設定した値より大きいかどうかを判断し、予め設定した値より大きいと、前記隣接する２つのキー字幕の時点の間で新規のキー字幕時点を取得し、前記新規のキー字幕時点を前記キー字幕時点の系列に内挿するためのものであり、及び／又は
前記補正ユニットは、前記時点系列取得ユニット又は前記フレーム補間ユニットによって取得された前記キー字幕時点の系列におけるキー字幕時点に対してオフセット補正を行うためのものであることを特徴とする請求項８に記載の動画画面の処理装置。
前記時点系列取得ユニットは、
前記現在の動画の字幕ファイルに基づいて字幕時間範囲系列を取得し、字幕時間範囲系列に基づいてキー字幕時点の系列を生成するためのもの、又は
現在の動画に対して音声認識を行って字幕時間範囲系列を取得し、字幕時間範囲系列に基づいてキー字幕時点の系列を生成するためのもの、又は
現在の動画を動画フレームに変換しかつ画像認識の方法を利用して特定エリアに完全な字幕付きの動画フレーム系列を識別し、前記動画フレーム系列に対して重複したものを排除し、重複排除された動画フレーム系列に対応する時間をキー字幕時点の系列とするためのものであることを特徴とする請求項８又は請求項９に記載の動画画面の処理装置。
前記再生モジュールは、
自動再生のリクエストを受信し、該自動再生のリクエストに応じて順番に前記画面ライブラリから対応するキー画面を読み取って再生させるためのもの、又は
コールリクエストを受信し、前記コールリクエストに応じて前記画面ライブラリから対応するキー画面を読み取って再生させるためのものであることを特徴とする請求項７に記載の動画画面の処理装置。
前記再生モジュールは、
前記コールリクエストに応じて前記画面ライブラリから対応するキー画面を読み取って再生させた後に、再生停止のリクエストを受信し、前記再生停止のリクエストに応じて前記画面ライブラリからキー画面を読み取るのを停止するためにも用いられることを特徴とする請求項１１に記載の動画画面の処理装置。
請求項１〜６のいずれか一項に記載の前記動画画面の処理方法を実行するためのプログラムを記憶したことを特徴とする記憶媒体。