JP7201729B2

JP7201729B2 - ビデオ再生ノードの位置決め方法、装置、デバイス、記憶媒体およびコンピュータプログラム

Info

Publication number: JP7201729B2
Application number: JP2021055712A
Authority: JP
Inventors: 衛国李
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-08-28
Filing date: 2021-03-29
Publication date: 2023-01-10
Anticipated expiration: 2041-03-29
Also published as: CN111988663B; KR20210042852A; JP2021103896A; EP3855753B1; US20210233571A1; US11581021B2; CN111988663A; KR102436734B1; EP3855753A2; EP3855753A3

Description

本発明は、コンピュータ技術分野に関し、具体的にはビッグデータおよびビデオ処理技術に関する。より具体的には、本発明は、ビデオ再生ノードの位置決め方法、装置、デバイス、記憶媒体およびコンピュータプログラムを提供する。

インターネット技術の継続的な発展に伴い、様々なビデオ再生プラットフォームが広く発展している。ビデオは、情報をより直感的で、豊富で、明瞭に表現できるという特徴を有することから、情報伝達キャリアとして広く普及して適用されている。ユーザは、ビデオを視聴するとき、例えば、コンテンツが豊富で、繰り返し視聴する必要があるビデオを視聴するとき、ビデオが特定のコンテンツの再生ノードにジャンプして再生を開始できることを望むことが多い。

本発明は、ビデオ再生ノードの位置決め方法、装置、デバイス、記憶媒体およびコンピュータプログラムを提供する。

第１の様態によれば、ビデオ再生ノードの位置決め方法を提供し、当該方法は、複数のビデオから目標ビデオを選別することと、目標ビデオと、当該目標ビデオの複数の字幕テキストセグメントと、当該複数の字幕テキストセグメントのそれぞれの開始時間情報とをクライアントに送信し、クライアントによって複数の字幕テキストセグメントを提示し、複数の字幕テキストセグメントのうちのいずれか１つの字幕テキストセグメントに対するトリガ操作に応答して、当該いずれか１つの字幕テキストセグメントの開始時間情報に基づいて当該目標ビデオの開始再生ノードを特定することとを含む。

第２の様態によれば、ビデオ再生ノードの位置決め方法を提供し、当該方法は、複数のビデオから選別された目標ビデオと、前記目標ビデオの複数の字幕テキストセグメントと、前記複数の字幕テキストセグメントのそれぞれの開始時間情報とを取得することと、前記複数の字幕テキストセグメントを提示することと、前記複数の字幕テキストセグメントのうちのいずれか１つの字幕テキストセグメントに対するトリガ操作に応答して、前記いずれか１つの字幕テキストセグメントの開始時間情報に基づいて前記目標ビデオの開始再生ノードを特定することとを含む。

第３の様態によれば、ビデオ再生ノードの位置決め装置を提供し、当該装置は、選別モジュールと再生ノード管理モジュールとを含む。選別モジュールは、複数のビデオから目標ビデオを選別するためのものである。再生ノード管理モジュールは、目標ビデオと、当該目標ビデオの複数の字幕テキストセグメントと、当該複数の字幕テキストセグメントのそれぞれの開始時間情報とをクライアントに送信し、クライアントによって当該複数の字幕テキストセグメントを提示し、当該複数の字幕テキストセグメントのうちのいずれか１つの字幕テキストセグメントに対するトリガ操作に応答して、当該いずれか１つの字幕テキストセグメントの開始時間情報に基づいて当該目標ビデオの開始再生ノードを特定するためのものである。

第４の様態によれば、ビデオ再生ノードの位置決め装置を提供し、当該装置は、取得モジュールと、提示モジュールと、再生ノード位置決めモジュールとを含む。取得モジュールは、複数のビデオから選別された目標ビデオと、当該目標ビデオの複数の字幕テキストセグメントと、当該複数の字幕テキストセグメントのそれぞれの開始時間情報とを取得するためのものである。提示モジュールは、前記複数の字幕テキストセグメントを提示するためのものである。再生ノード位置決めモジュールは、前記複数の字幕テキストセグメントのうちのいずれか１つの字幕テキストセグメントに対するトリガ操作に応答して、前記いずれか１つの字幕テキストセグメントの開始時間情報に基づいて前記目標ビデオの開始再生ノードを特定するためのものである。

第５の様態によれば、電子デバイスを提供し、少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサに通信接続されるメモリとを含む。ただし、メモリには、少なくとも１つのプロセッサによって実行可能な命令が記憶されており、少なくとも１つのプロセッサが本発明によるビデオ再生ノードの位置決め方法を実行可能であるように、当該命令は、少なくとも１つのプロセッサによって実行される。

第６の様態によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、当該コンピュータ命令は、コンピュータに、本発明によるビデオ再生ノードの位置決め方法を実行させるためのものである。

第７の様態によれば、実行される際に、本発明によるビデオ再生ノードの位置決め方法を実現するコンピュータ実行可能な命令を含むコンピュータプログラムを提供する。

本発明の技術手段によれば、大量のビデオから選別された再生ノード位置決め価値を有する目標ビデオは、目標ビデオに対して再生を行なう必要がある場合、ユーザに目標ビデオの複数の字幕テキストセグメントを提示する。ユーザが指定した字幕テキストセグメントの開始時間情報に基づいて、当該目標ビデオの開始再生ノードを特定することができる。以上のプロセスでは、目標ビデオのみに対する再生ノード位置決め処理は、大量の算出リソースを節約し、サーバとクライアントとの間の相互作用効率を向上することができ、複数の字幕テキストセグメントの共同提示により、視聴したいコンテンツノードをユーザが短時間で特定でき、かつ、ユーザが指定した字幕テキストセグメントの開始時間情報に基づいて、現在のビデオの開始再生ノードを正確に特定することができる。

このセクションに記載される内容は、本開示の実施例の主要または重要な特徴を特定することを意図するものではなく、また、本開示の範囲を限定することを意図するものでもないことを理解されたい。本開示の他の特徴は、以下の明細書によって容易に理解されることになる。

図面は、本発明をより良く理解するためのものであり、本発明を限定するものではない。

本発明の一実施例によるビデオ再生ノードの位置決め方法および装置を適用する例示的なシステムアーキテクチャである。本発明の一実施例によるビデオ再生ノードの位置決め方法のフローチャートである。本発明の別の実施例によるビデオ再生ノードの位置決め方法のフローチャートである。本発明の一実施例によるビデオ選別プロセスのフローチャートである。本発明の別の実施例によるビデオ選別プロセスのフローチャートである。本発明の一実施例によるビデオ再生ノードの位置決めプロセスの概略図である。本発明の一実施例によるビデオ再生インタフェースの概略図である。本発明の一実施例によるビデオ再生ノードの位置決め装置のブロック図である。本発明の別の実施例によるビデオ再生ノードの位置決め装置のブロック図である。本発明の一実施例によるビデオ再生ノードの位置決め方法の電子デバイスのブロック図である。

以下、図面を組み合わせて本発明の例示的な実施例を説明し、理解を容易にするために、本発明の実施例の様々な詳細を含み、単に例示的なものとみなされるべきである。したがって、当業者は、本発明の範囲および精神から逸脱することなく、ここに記載される実施例に対して様々な変更および修正を行うことができることを理解すべきである。同様に、明瞭および明確化のために、以下の説明では、周知の機能および構成についての説明は省略する。

インターネット技術の継続的な発展に伴い、様々なビデオ再生プラットフォームが広く発展している。ビデオは、情報をより直感的で、豊富で、明瞭に表現できるという特徴を有することから、情報伝達キャリアとして広く普及し、適用されている。ユーザは、ビデオを視聴するとき、例えば、コンテンツが豊富で、繰り返し視聴する必要があるビデオ（例えば、知識類ビデオ、一般向けの科学類ビデオ）を視聴し、ビデオ内のいくつかの特定のプロットを確認する必要があるとき、ビデオが特定のコンテンツの再生ノードにジャンプして再生を開始できることを望むことが多い。

この場合、例えば、倍速、早送り等の機能によりビデオをはやく再生して、ユーザが視聴ニーズを満たす再生ノードを見つけることを可能にしたり、または、ユーザがプログレスバーをドラッグしながら、ビデオの現在のフレームのピクチャをプレビューすることをサポートすることにより、ユーザが視聴ニーズを満たす再生ノードを見つけることを可能にする。以上の方法は何れも、ユーザが視聴したいコンテンツを探すのに長い時間が必要であり、再生ノードの位置決めも十分に正確ではない。

図１は、本発明の一実施例によるビデオ再生ノードの位置決め方法および装置を適用できる例示的なシステムアーキテクチャ１００である。なお、図１は、本発明の実施例を適用できるシステムアーキテクチャの例示に過ぎず、当業者が本発明の技術内容を容易に理解するためであるが、本発明の実施例が他のデバイス、システム、環境またはシナリオに使用され得ないことを意味するものではない。

図１に示すように、当該実施例によるシステムアーキテクチャ１００は、複数の端末デバイス１１０と、ネットワーク１２０と、サーバ１３０とを含んでもよい。端末デバイス１１０は、ビデオ再生をサポートできる様々な電子デバイスであってもよく、例えば、スマートフォン、タブレット、ラップトップ、デスクトップコンピュータ等であってもよいが、ここでは限定されない。サーバ１３０は、一定の算出能力を有する様々な電子デバイスであってもよく、ここでは限定されない。以下、端末デバイス１１０とサーバ１３０との間がネットワーク１２０を介して相互作用するプロセスを例に挙げて説明する。例示的には、端末デバイス１１０は、ビデオ再生類アプリケーションのクライアントがインストールされてもよく、端末デバイス１１０は、このクライアントによりサーバ１３０からビデオデータを要求し、ビデオデータに基づいてデコードして再生を行う。

本発明の実施例によれば、ビデオ再生ノードの位置決め方法を提供する。以下、図面によりこの方法を例示的に説明する。以下の方法における各操作の番号が、説明の便宜上、その操作を表すためにのみ使用されており、当該各操作の実行順序を示すものと見なされるべきではないことに注意されたい。特に明記しない限り、当該方法は、完全に示される順序に従って実行する必要がない。

図２Ａは、本発明の一実施例によるビデオ再生ノードの位置決め方法のフローチャートである。例示的には、図２Ａに示すビデオ再生ノードの位置決め方法は、サーバによって実行されてもよい。

図２Ａに示すように、当該ビデオ再生ノードの位置決め方法２００は、操作Ｓ２１０～操作Ｓ２２０を含んでもよい。

操作Ｓ２１０では、複数のビデオから目標ビデオを選別する。

例示的には、目標ビデオは、コンテンツ価値が高く、含まれる情報が豊富であるビデオであってもよく、例えば、ｘｘ知識点の説明ビデオ、ｘｘ一般向けの科学ビデオ等であってもよい。ユーザがこのようなビデオを視聴するとき、通常、特定のコンテンツを繰り返し視聴する必要があり、このようなビデオに対してビデオ再生ノード位置決めのニーズがある。本開示の実施例によれば、ビデオの１つまたは複数の次元の情報に基づいてビデオ価値を評価することで、評価結果に応じてビデオの選別を行なうことができる。ビデオ再生プラットフォームのサーバ側に、通常、大量のビデオリソースを有し、本操作Ｓ２１０は、大量のビデオから再生ノード位置決め価値を有する目標ビデオを選別することができ、引き続きのビデオ処理プロセスに対して算出リソースを節約する。

操作Ｓ２２０では、目標ビデオと、当該目標ビデオの複数の字幕テキストセグメントと、当該複数の字幕テキストセグメントのそれぞれの開始時間情報とをクライアントに送信し、クライアントによって複数の字幕テキストセグメントを提示し、複数の字幕テキストセグメントのうちのいずれか１つの字幕テキストセグメントに対するトリガ操作に応答して、当該いずれか１つの字幕テキストセグメントの開始時間情報に基づいて当該目標ビデオの開始再生ノードを特定する。

例示的には、いずれか１つの目標ビデオＡについて、ｍ個の字幕テキストセグメントと、ｍ個の字幕テキストセグメントに１対１に対応するｍ個の開始時間情報とを有する。ｍは１より大きい整数である。各字幕テキストセグメントの開始時間情報は、対応するビデオにおける当該字幕テキストセグメントの開始時間を表すことができる。本開示の実施例によれば、例えば、目標ビデオＡに含まれる音声を識別することにより、上記ｍ個の字幕テキストセグメントを取得することができる。

例示的には、サーバは、クライアントの目標ビデオＡに対する要求メッセージに応答して、目標ビデオＡのビデオデータ、ｍ個の字幕テキストセグメントおよびｍ個の開始時間情報を所定のフォーマットでエンコードした後、所定の通信規則に従って、エンコードして得られたデータパケットをクライアントに送信することができる。クライアントは、データパケットをデコードした後、目標ビデオＡのビデオデータ、ｍ個の字幕テキストセグメントおよび対応するｍ個の開始時間情報を取得することができる。非目標ビデオについて、サーバは、クライアントの要求メッセージに応答して、帯域幅を節約するために、ビデオデータのみをクライアントに送信してもよい。

上記実施例では、サーバの観点から本開示の実施例によるビデオ再生ノードの位置決め方法を説明し、以下、クライアントの観点から本開示の実施例によるビデオ再生ノードの位置決め方法を例示的に説明する。

図２Ｂは、本発明の別の実施例によるビデオ再生ノードの位置決め方法のフローチャートである。例示的には、図２Ｂに示すビデオ再生ノードの位置決め方法は、クライアントが位置する端末デバイスによって実行されてもよい。

図２Ｂに示すように、当該ビデオ再生ノードの位置決め方法２００’は、操作Ｓ２１０’～操作Ｓ２３０’を含んでもよい。

操作Ｓ２１０’では、目標ビデオと、当該目標ビデオの複数の字幕テキストセグメントと、当該複数の字幕テキストセグメントのそれぞれの開始時間情報とを取得する。

例示的には、当該目標ビデオは、複数のビデオからサーバによって選別され得る。選別プロセスは既に上記で説明したので、重複する部分は再び説明しない。

操作Ｓ２２０’では、複数の字幕テキストセグメントを提示する。

例示的には、クライアントは、上記目標ビデオＡのビデオデータと、ｍ個の字幕テキストセグメントと、ｍ個の開始時間情報とを受信した後、当該ｍ個の字幕テキストセグメントをユーザに提示することができる。通常の場合、異なる字幕テキストセグメントが目標ビデオ内の異なる時点のコンテンツに対応し得るため、クライアントによって提示されるｍ個の字幕テキストセグメントは、実質的に、目標ビデオＡに関するコンテンツ要約をユーザに提供し、これにより、ユーザは、目標ビデオＡのコンテンツの分布状況を素早く知るか、または思い出すことができる。ユーザが、そのうちの１つの字幕テキストセグメントに対応するビデオコンテンツを見たいとき、この字幕テキストセグメントに対してトリガ操作を行うことができる。

操作Ｓ２３０’では、複数の字幕テキストセグメントのうちのいずれか１つの字幕テキストセグメントに対するトリガ操作に応答して、当該いずれか１つの字幕テキストセグメントの開始時間情報に基づいて目標ビデオの開始再生ノードを特定する。

例示的には、クライアントは、ある字幕テキストセグメントに対するトリガ操作に応答して、当該字幕テキストセグメントの開始時間情報に基づいて、ビデオＡの現在の開始再生ノードを優先にすることを特定し、これにより、当該開始再生ノードにジャンプして目標ビデオＡを再生することができる。

当業者は、本開示の実施例によるビデオ再生ノードの位置決め方法によれば、大量のビデオから選別された再生ノード位置決め価値を有する目標ビデオが、目標ビデオを再生する必要がある場合、ユーザに目標ビデオの複数の字幕テキストセグメントを提示することを理解することができる。ユーザが指定した字幕テキストセグメントの開始時間情報に基づいて、当該目標ビデオの開始再生ノードを特定することができる。以上のプロセスでは、目標ビデオのみに対する再生ノード位置決め処理は、大量の算出リソースを節約し、サーバとクライアントとの間の相互作用効率を向上することができ、複数の字幕テキストセグメントの共同提示により、視聴したいコンテンツノードをユーザが短時間で特定でき、かつ、ユーザが指定した字幕テキストセグメントの開始時間情報に基づいて、現在のビデオの開始再生ノードを正確に特定することができる。

図３は、本発明の一実施例によるビデオ選別プロセスのフローチャートであり、上記複数のビデオから目標ビデオを選別する実施形態を例示的に説明するためのものである。

図３に示すように、当該ビデオ選別プロセスは、操作Ｓ３１１～操作Ｓ３１２を含んでもよい。

操作Ｓ３１１では、複数のビデオの各ビデオについて、当該ビデオのユーザ相互作用データに基づいて、当該ビデオの価値スコアを算出する。

本開示の実施例によれば、ビッグデータ分析によってビデオの価値スコアを算出する。例示的には、いずれか１つのビデオＢのユーザ相互作用データは、例えば、当該ビデオＢを視聴するユーザの総数に対する、当該ビデオＢを視聴する回数が所定の閾値を超えるユーザ数の割合ｘ１、当該ビデオＢに対するコメント数ｘ２、当該ビデオＢに対するお気に入り数ｘ３および当該ビデオＢに対するいいねの数ｘ４等のうちの少なくとも１つを含んでもよい。ここで、例えば、所定の閾値は、１であり、割合ｘ１は、ビデオＢを視聴するユーザ全体のうち、視聴ビデオＢを重複して視聴するユーザの数の比例を表し、当該割合ｘ１が高いほど、当該ビデオＢに対するユーザの重複視聴の需要度が高いことを表明する。コメント数ｘ２、お気に入り数ｘ３およびいいねの数ｘ４は、それぞれ、ビデオＢに対するユーザの好み度合いおよび関心度合いを表すことができる。他の実施例では、ユーザのビデオに対する重複視聴の需要度、好み度合い、関心度合いなどの特性を表すことができる他のユーザ相互作用データも、ビッグデータ分析によって選択されてもよく、ここでは限定されない。

例えば、以上の割合ｘ１、コメント数ｘ２、お気に入り数ｘ３およびいいねの数ｘ４をユーザ相互作用データとして選択する場合、式（１）によってビデオＢの価値スコアＳを算出することができる。

S＝α×x_１＋β×x_２＋γ×x_３＋δ×x_４
式（１）

ここで、α、β、γおよびδは、予め設定された第１の重み、第２の重み、第３の重みおよび第４の重みである。上記プロセスでは、予め設定された第１の重み、第２の重み、第３の重みおよび第４の重みを用いて、割合ｘ１、コメント数ｘ２、お気に入り数ｘ３およびいいねの数ｘ４を重み付き加算することにより、ビデオＢの価値スコアを算出する。同様に、サーバ側の各ビデオの価値スコアを算出することができる。この価値スコアは、ユーザのビデオに対するリアルな相互作用データに基づいて得られるため、ビデオの価値の高低をより客観的に反映することができる。なお、ビデオに対する各ユーザ相互作用データの重みの設定によって、価値スコアに対する各ユーザ相互作用データの寄与を調整し、価値スコアの正確性を向上する。他の例では、様々な融合アルゴリズムを用いてユーザ相互作用データを統合することで、各ビデオの価値スコアを取得してもよい。

操作Ｓ３１２では、複数のビデオから価値スコアが第１の閾値より高いビデオを第１のグループのビデオとして選別する。

図３に示す選別プロセスを第１の段階の選別と呼ぶことができる。当該第１の段階の選別では、低価値のビデオを大幅に選別できる。選別された第１のグループのビデオは、１つまたは複数のビデオを含んでもよい。

いくつかの実施形態では、本操作Ｓ３１２で選別された第１のグループのビデオを、直接に目標ビデオとすることができ、このとき、第１のグループのビデオに対して字幕テキストセグメントの生成プロセスを行うことができる。別のいくつかの実施形態では、本操作Ｓ３１２で選別された第１のグループのビデオは、より精細で正確な選別結果を得るために、さらに、引き続き第２の段階の選別を行なってもよい。

図４は、本発明の別の実施例によるビデオ選別プロセスのフローチャートであり、上記複数のビデオから目標ビデオを選別する実施形態を例示的に説明するためのものである。

図４に示すように、当該ビデオ選別プロセスは、前記実施例の第１の選別段階を経た後、操作Ｓ４１３～操作Ｓ４１４をさらに含んでもよい。

操作Ｓ４１３では、第１のグループのビデオの各ビデオについて、予め訓練された分類器を用いて当該ビデオを分類することで、当該ビデオが属するカテゴリを特定する。

ここで、第１のグループのビデオの例示的な選別プロセスは、上記で説明したので、ここでは再び説明しない。例示的には、機械学習アルゴリズムに基づいて複数の既知のカテゴリに関する分類器を予め構築することができる。大量のビデオサンプルを取得し、各ビデオサンプルにカテゴリタグを付し、カテゴリタグ付きビデオサンプルを用いて分類器を訓練することで、ビデオに対して優れた分類能力を有する分類器を得る。複数の既知のカテゴリの分類標準および分類粒度は、必要に応じて設定されてもよく、例えば、知識類、一般向けの科学類、映画類、音楽類、グルメ類、ゲーム類などを含んでもよいが、ここでは限定されない。ビッグデータ統計結果によれば、例えば、知識類、一般向けの科学類などのカテゴリのビデオは、ユーザにとって、より高い重複視聴価値を有するため、これらカテゴリを所定のカテゴリとして設定してもよい。

操作Ｓ４１４では、第１のグループのビデオから所定のカテゴリに属するビデオを第２のグループのビデオとして選別する。

第１の段階の選別結果を基礎とし、第２の段階の選別では、ビデオコンテンツの分類の観点から、再生ノード位置決め価値がより高い第２のグループのビデオをさらに選別する。第２のグループのビデオは、１つまたは複数のビデオを含む。分類器は、大量の既知のカテゴリビデオサンプルに基づいて訓練して得られるものであり、分類結果はより正確である。ユーザは、異なるカテゴリのビデオに対する視聴習慣が大きく異なり、カテゴリに基づいて選別される第２のグループのビデオは、より合理的で正確である。

いくつかの実施形態では、本操作Ｓ４１４で選別された第２のグループのビデオは、直接に目標ビデオとされることができる。別のいくつかの実施形態では、本操作Ｓ４１４で選別された第２のグループのビデオは、より精細で正確な選別結果を得るために、さらに、引き続き第３の段階の選別を行なってもよい。

第３の段階の選別では、上記で得られた第２のグループのビデオを基礎とし、先ず、各ビデオの字幕テキストセグメントおよび字幕テキストセグメントの相関情報を生成してもよい。さらに、字幕テキストセグメントの相関情報に基づいて第２のグループのビデオから最終の目標ビデオを選別する。

例示的には、第２のグループのビデオの各ビデオについて、当該ビデオのオーディオデータを抽出する。それから、抽出されたオーディオデータを音声識別（ＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ，ＡＳＲ）して識別結果を取得する。識別結果は、当該ビデオの複数の字幕テキストセグメント、当該複数の字幕テキストセグメントのそれぞれの開始時間情報および終了時間情報を含んでもよい。例えば、１つのビデオから時間ｔのオーディオデータを抽出する。当該オーディオデータを音声識別するプロセスでは、オーディオのポーズが所定時間を超える（例えば、ポーズが３秒を超える）ことをセグメント分割標準とすることで、複数のテキストセグメントを複数の字幕テキストセグメントとして識別してもよい。なお、上記時間ｔにおける各テキストセグメントの開始時間情報および終了時間情報も記録される。

本開示の一実施例では、第２のグループのビデオの各ビデオについて、当該ビデオの複数の字幕テキストセグメントのそれぞれの開始時間情報および終了時間情報に基づいて、当該ビデオの総時間に対する当該ビデオの複数の字幕テキストセグメントの総時間の割合ｙを特定することができる。そして、て、第２のグループのビデオから割合ｙが第２の閾値よりも高いビデオを第３の段階の選別後の目標ビデオとして選別する。サーバは、目標ビデオの字幕テキストセグメントおよび相関時間情報を保留するために、目標ビデオの上記識別結果を記憶する。

通常の場合、ビデオの字幕テキストセグメントの時間割合が大きいほど、当該ビデオの情報量が豊富であり、ユーザが繰り返し視聴する必要があり、より高いビデオ再生ノードの位置決め価値を有することが理解できる。したがって、本実施例の第３の段階の選別では、ビデオにおける字幕テキストセグメントの時間割合から、当該時間割合が比較的長いビデオを第２のグループのビデオから選別することによって、情報含有量が豊富である目標ビデオをさらに選別する。

本開示の別の実施例では、第２のグループのビデオの各ビデオについて、当該ビデオの複数の字幕テキストセグメントに対して語彙分析（ＳｅｍａｎｔｉｃＡｎａｌｙｓｉｓ）を行って、当該ビデオの複数の字幕テキストセグメントに対する論理スコアを取得することができる。当該論理スコアは、複数の字幕テキストセグメントに含まれる語彙論理の度合いの高低を表すものであり、語彙論理の度合いが高いほど、含まれる語彙が完全で意義がある。次に、第２のグループのビデオから論理スコアが第３の閾値よりも高いビデオを第３の段階の選別を経た後の目標ビデオとして選別する。

通常の場合、ビデオの字幕テキストセグメントに含まれる語彙がより完全に明確であればあるほど、当該ビデオに含まれる情報に価値があることを表明し、ユーザが繰り返し視聴する必要があり、より高いビデオ再生ノードの位置決め価値を有することが理解できる。したがって、本実施例の第３の段階の選別では、ビデオの字幕テキストセグメントに含まれる語彙論理から初めて、第２のグループのビデオから完全で意義のある意味を含むビデオを最終の目標ビデオとして選別する。

図５は、本発明の一実施例によるビデオ再生ノードの位置決めプロセスの概略図であり、クライアント５１０とサーバ５３０との間の相互作用プロセスを例示的に説明するためのものである。

図５に示すように、サーバ５３０は、Ｍ個のビデオ５０１に対して第１の段階の選別Ｓ５１０１、第２の段階の選別Ｓ５１０２および第３の段階の選別Ｓ５１０３を順に行い、Ｎ個の目標ビデオ５０２を取得する。ＭおよびＮは何れも正整数であり、ＭはＮよりも大きい。第１の段階の選別、第２の段階の選別および第３の段階の選別は、上記でそれぞれ例示的に説明されたので、ここでは再び説明しない。サーバ５３０は、各目標ビデオの所定のデータ集合５０３を記憶し、各目標ビデオの所定のデータ集合５０３は、当該目標ビデオのビデオデータと、当該目標ビデオの複数の字幕テキストセグメントと、当該複数の字幕テキストセグメントのそれぞれの開始時間情報（例えば、開始タイムスタンプ情報）および終了時間情報（例えば、終了タイムスタンプ情報）とを含んでもよい。

クライアント５１０は、あるビデオ（例えば、ビデオＣ）に対するユーザの選択操作を受信し、ビデオＣに対する要求メッセージ５０４をサーバ５３０に送信することができる。サーバ５３０は、ビデオＣが上記Ｎ個の目標ビデオ５０２に属するか否かを判断することができる。他の例示では、この判断プロセスは、クライアントで実行されてもよい。ビデオＣが目標ビデオに属しない場合、直接にビデオＣのビデオデータをクライアント５１０に送信する。ビデオＣが目標ビデオに属する場合、サーバ５３０は、ビデオＣの所定のデータ集合５０３をクライアント５１０に送信する。クライアント５１０は、ビデオＣのＮ個の字幕テキストセグメント５０３１をユーザに提示し、ｎが１より大きい整数である。

クライアント５１０は、ｎ個の字幕テキストセグメントのうちのｉ番目の字幕テキストセグメントに対するユーザのトリガ操作に応答して、ｉ番目の字幕テキストセグメントの開始時間情報に基づいてビデオＣの開始再生ノードを特定する。ｉは、１以上ｎ以下の整数である。例示的には、ｉ番目の字幕テキストセグメントの開始時間情報に基づいて、ビデオＣにおける前記いずれか１つの字幕テキストセグメントの開始時刻（例えば、８分２０秒）を特定する。この開始時刻を今回のビデオＣの開始再生ノードとし、ビデオＣのビデオデータに基づいてビデオＣをロードして再生するとき、直接に当該開始再生ノードから再生ビデオＣを開始する。

本開示の実施例によれば、さらに、ｉ番目の字幕テキストセグメントの終了時間情報に基づいて、ビデオＣにおけるｉ番目の字幕テキストセグメントの終了時刻（例えば、１５分３２秒）を特定してもよい。この開始時刻を今回のビデオＣの終了再生ノードとし、ビデオＣのビデオデータに基づいてビデオＣをロードして再生するプロセスでは、ビデオＣが終了再生ノードまで再生されるとき、再生ビデオＣを停止する。上記の例では、字幕テキストセグメントに対するユーザのトリガ操作に応じて、ビデオＣを８分２０秒から１５分３２秒まで再生することができ、この部分のビデオコンテンツは、ユーザが現在興味を有し、視聴する必要があるコンテンツである。このプロセスは、ユーザ操作を大幅に簡略化することを前提として、ユーザが現在興味を有するコンテンツを容易に検索または思い出し、ユーザが興味を有する再生ノードに正確に位置決めすることができ、ユーザのニーズを満たす。

図６は、本発明の一実施例によるビデオ再生インタフェースの概略図であり、クライアントのビデオ再生プロセスを例示的に説明するためのものである。

図６に示すように、ビデオ再生インタフェース６００は、ビデオ再生領域６０１と、字幕提示領域６０２と、検索領域６０３とを含んでもよい。例えば、１つの目標ビデオは、以下の複数の字幕テキストセグメント、例えば、「第１の問題……」、「第２の問題の第１の解法……」、「第２の問題の第２の解法」および「第３の問題……」などを含む。クライアントは、当該複数の字幕テキストセグメントを字幕提示領域６０２に提示することができる。提示が不完全な場合、ユーザは、スライド、ドラッグなどの操作により当該複数の字幕テキストセグメントを閲覧することができる。ユーザがビデオ内のあるコンテンツを視聴したいとき、対応する字幕テキストセグメントに対して、例えば、クリックのトリガ操作を行うことができる。クライアントは、ある字幕テキストセグメント（例えば、「第２の問題の第１の解法……」）に対するユーザのトリガ操作に応答して、ビデオにおける当該字幕テキストセグメントの開始時間をビデオの開始再生ノードとして、直接に当該開始再生ノードにジャンプして再生ビデオを開始する。

さらに、図６に示すように、本開示の実施例によるビデオ再生方法は、字幕テキストセグメントに対する検索機能もサポートすることができる。例示的には、検索領域６０３は、例えば、検索ボックス、検索ボタンなどの検索コントロールを含む。ビデオの字幕テキストセグメントが多すぎる場合、ユーザは、検索領域６０３に検索ワードを入力し、トリガ操作（例えば、ボタンをクリックトリガする、など）を実行することができる。ユーザのトリガ操作に応答して、検索ワードを取得する。現在のビデオの複数の字幕テキストセグメントから検索ワードに対するマッチング字幕テキストセグメントを特定する。例えば、上記の例では、検索ワードが「第３の」である場合、マッチングプロセスにより得られるマッチング字幕テキストセグメントは、「第３の問題……」である。当該マッチング字幕テキストセグメントの提示位置には、当該マッチング字幕テキストセグメントを目立つようにマークするために所定の標識が提示されることで、ユーザにリマインダして当該マッチング字幕テキストセグメントを注意させる。ビデオの再生ノードの位置決めおよびジャンプを可能にするために、ユーザは、当該マッチング字幕テキストセグメントを直接にトリガすることができる。

図７は、本発明の一実施例によるビデオ再生ノードの位置決め装置のブロック図である。

図７に示すように、ビデオ再生ノードの位置決め装置７００は、サーバに適用されてもよく、ビデオ再生ノードの位置決め装置７００は、選別モジュール７１０と、再生ノード管理モジュール７２０とを含んでもよい。

選別モジュール７１０は、複数のビデオから目標ビデオを選別するためのものである。

再生ノード管理モジュール７２０は、目標ビデオと、当該目標ビデオの複数の字幕テキストセグメントと、当該複数の字幕テキストセグメントのそれぞれの開始時間情報とをクライアントに送信し、クライアントによって当該複数の字幕テキストセグメントを提示し、当該複数の字幕テキストセグメントのうちのいずれか１つの字幕テキストセグメントに対するトリガ操作に応答して、当該いずれか１つの字幕テキストセグメントの開始時間情報に基づいて当該目標ビデオの開始再生ノードを特定するためのものである。

本発明の実施例によれば、選別モジュール７１０は、スコアサブモジュールと、第１の選別サブモジュールとを含んでもよい。スコアサブモジュールは、複数のビデオの各ビデオについて、ビデオのユーザ相互作用データに基づいて、ビデオの価値スコアを算出するためのものである。第１の選別サブモジュールは、複数のビデオから価値スコアが第１の閾値よりも高いビデオを第１のグループのビデオとして選別するためのものである。前記第２のグループのビデオに基づいて目標ビデオを取得する。

本発明の実施例によれば、選別モジュール７１０は、分類サブモジュールと、第２の選別サブモジュールとをさらに含んでもよい。分類サブモジュールは、ビデオが属するカテゴリを特定するために、前記第１のグループのビデオの各ビデオについて、予め訓練された分類器を用いてビデオを分類するためのものである。第２の選別サブモジュールは、前記第１のグループのビデオから所定のカテゴリに属するビデオを第２のグループのビデオとして選別するためのものである。第２のグループのビデオに基づいて目標ビデオを取得する。

例示的には、選別モジュール７１０は、第１の分析サブモジュールと、第３の選別サブモジュールとをさらに含んでもよい。第１の分析サブモジュールは、前記第２のグループのビデオの各ビデオについて、前記ビデオのオーディオデータを抽出し、前記オーディオデータを音声識別して、識別結果を取得するためのものである。前記識別結果は、前記ビデオの複数の字幕テキストセグメントと、前記ビデオの複数の字幕テキストセグメントのそれぞれの開始時間情報および終了時間情報とを含む。前記ビデオの複数の字幕テキストセグメントのそれぞれの開始時間情報および終了時間情報に基づいて、前記ビデオの総時間に対する前記ビデオの複数の字幕テキストセグメントの総時間の第１の割合を特定する。第３の選別サブモジュールは、前記第２のグループのビデオから前記第１の割合が第２の閾値よりも高いビデオを前記目標ビデオとして選別するためのものである。

例示的には、選別モジュール７１０は、第２の分析サブモジュールと、第４の選別サブモジュールとをさらに含んでもよい。第２の分析サブモジュールは、第２のグループのビデオの各ビデオについて、ビデオが所定のカテゴリに属する場合、ビデオのオーディオデータを抽出し、オーディオデータを音声識別して、識別結果を取得するためのものである。識別結果は、ビデオの複数の字幕テキストセグメントと、前記ビデオの複数の字幕テキストセグメントのそれぞれの開始時間情報および終了時間情報とを含む。ビデオの複数の字幕テキストセグメントに対して語彙分析を行なって、ビデオの複数の字幕テキストセグメントに対する論理スコアを取得する。第４の選別サブモジュールは、前記第２のグループのビデオから前記論理スコアが第３の閾値よりも高いビデオを前記目標ビデオとして選別する。

本発明の実施例によれば、再生ノード管理モジュール７２０は、さらに、目標ビデオの複数の字幕テキストセグメントのそれぞれの終了時間情報を前記クライアントに送信し、クライアントによって前記複数の字幕テキストセグメントのうちのいずれか１つの字幕テキストセグメントに対するトリガ操作に応答して、当該いずれか１つの字幕テキストセグメントの終了時間情報に基づいて、目標ビデオの終了再生ノードを特定するためのものである。

例示的には、ユーザ相互作用データは、ビデオを視聴するユーザの総数に対する、ビデオを視聴する回数が第４の閾値を超えるユーザ数の第２の割合と、ビデオに対するコメント数と、ビデオに対するお気に入り数と、ビデオに対するいいねの数のうちの少なくとも１つを含む。

例えば、スコアサブモジュールは、予め設定された第１の重み、第２の重み、第３の重みおよび第４の重みを用いて、前記第２の割合、前記コメント数、前記お気に入り数および前記いいねの数を重み付き加算することにより、前記価値スコアを算出するためのものである。

図８は、本発明の別の実施例によるビデオ再生ノードの位置決め装置のブロック図である。

図８に示すように、ビデオ再生ノードの位置決め装置８００は、クライアントに適用されてもよく、ビデオ再生ノードの位置決め装置８００は、取得モジュール８１０と、提示モジュール８２０と、再生ノード位置決めモジュール８３０とを含んでもよい。

取得モジュール８１０は、複数のビデオから選別された目標ビデオと、当該目標ビデオの複数の字幕テキストセグメントと、当該複数の字幕テキストセグメントのそれぞれの開始時間情報とを取得するためのものである。

提示モジュール８２０は、複数の字幕テキストセグメントを提示するためのものである。

再生ノード位置決めモジュール８３０は、前記複数の字幕テキストセグメントのうちのいずれか１つの字幕テキストセグメントに対するトリガ操作に応答して、当該いずれか１つの字幕テキストセグメントの開始時間情報に基づいて前記目標ビデオの開始再生ノードを特定するためのものである。

本発明の実施例によれば、再生ノード位置決めモジュール８３０は、当該いずれか１つの字幕テキストセグメントの開始時間情報に基づいて、目標ビデオにおける当該いずれか１つの字幕テキストセグメントの開始時刻を特定するための第１の特定サブモジュールと、当該開始時刻を目標ビデオの開始再生ノードとして当該開始再生ノードから前記目標ビデオの再生を開始するための第１の位置決めサブモジュールとを含む。

本発明の実施例によれば、当該装置８００は、検索処理モジュールをさらに含み、当該検索処理モジュールは、検索コントロールを提示し、前記検索コントロールに対するトリガ操作に応答して検索ワードを取得し、前記複数の字幕テキストセグメントから前記検索ワードに対するマッチング字幕テキストセグメントを特定し、前記マッチング字幕テキストセグメントの提示位置に所定の標識を提示するためのものである。

本発明の実施例によれば、取得モジュール８１０は、さらに、複数の字幕テキストセグメントのそれぞれの終了時間情報を取得するためのものである。再生ノード位置決めモジュール８３０は、第２の特定サブモジュールと、第２の位置決めサブモジュールとをさらに含む。第２の特定サブモジュールは、いずれか１つの字幕テキストセグメントの終了時間情報に基づいて、前記目標ビデオにおける当該いずれか１つの字幕テキストセグメントの終了時刻を特定するためのものである。第２の位置決めサブモジュールは、当該終了時刻を前記目標ビデオの終了再生ノードとして、目標ビデオが前記終了再生ノードまで再生されるとき、再生目標ビデオを停止するためのものである。

なお、装置部分の実施例における各モジュール／ユニット／サブユニット等の実施形態、解決される技術問題、実現される機能、および達成される技術効果は、それぞれ方法部分の実施例における各対応するステップの実施形態、解決される技術問題、実現される機能、および達成されると同じまたは類似であり、ここでは再び説明しない。

本発明の実施例によるモジュール、サブモジュール、ユニット、サブユニットのうちの任意の複数、またはそれらのうちの任意の複数の少なくとも一部の機能は、１つのモジュールで実現されてもよい。本発明の実施例によるモジュール、サブモジュール、ユニット、サブユニットのうちの任意の１つまたは複数は、複数のモジュールに分けて実現されてもよい。本発明の実施例によるモジュール、サブモジュール、ユニット、サブユニットのうちの任意１つまたは複数は、少なくとも部分的に、例えば、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、プログラマブル論理アレイ（ＰＬＡ）、システムオンチップ、基板上のシステム、パッケージ上のシステム、専用集積回路（ＡＳＩＣ）などのハードウェア回路として実現されてもよく、または、回路を集積またはパッケージする任意の他の合理的な形態のハードウェアまたはファームウェアで実現されてもよく、または、ソフトウェア、ハードウェアおよびファームウェアの３つの実現形態のうちのいずれか１つで、または、これらのうちの任意の一部の適切な組み合わせで実現されてもよい。または、本発明の実施例によるモジュール、サブモジュール、ユニット、サブユニットのうちの１つまたは複数は、少なくとも部分的に、コンピュータプログラムモジュールとして実現されてもよく、当該コンピュータプログラムモジュールが実行されるとき、対応する機能を実現しても良い。

本発明の実施例によれば、本発明は、電子デバイスと、読み取り可能な記憶媒体とをさらに提供する。

図９は、本発明の実施例によるビデオ再生ノードの位置決め方法の電子デバイスのブロック図である。当該電子デバイスは、上記ビデオ再生ノードの位置決め方法を実行するサーバであってもよいし、上記ビデオ再生ノードの位置決め方法を実行するクライアントが位置するデバイスであってもよい。電子デバイスは、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、および他の適切なコンピュータなど、様々な形態のデジタルコンピュータを表すことを意図とする。電子デバイスは、パーソナルデジタルアシスタント、携帯電話、スマートフォン、ウェアラブルデバイスおよび他の類似の算出装置など、様々な形態の移動装置をさらに表す。本明細書に示されるコンポーネント、それらの接続と関係、およびそれらの機能は、単なる例であり、本明細書に記載および／または要求される本発明の実現を限定することを意図していない。

図９に示すように、当該電子デバイス９００は、１つのまたは複数のプロセッサ９０１、メモリ９０２、および各コンポーネントを接続するためのインターフェース（高速インターフェースおよび低速インターフェースを含む）を含む。各コンポーネントは、異なるバスで互いに接続され、共通のマザーボードに実装されてもよいし、必要に応じて他の形態で実装されてもよい。プロセッサは、電子デバイス内で実行される命令を処理してもよく、当該命令は、メモリに記憶されて外部入力／出力装置（例えば、インターフェースに結合された表示デバイス）に表示されるＧＵＩのグラフィック情報の命令を含む。他の実施形態では、必要であれば、複数のプロセッサおよび／または複数本のバスを複数のメモリおよび複数のメモリと共に使用してもよい。同様に、複数の電子デバイスを接続し、各デバイスが必要な操作の一部（例えば、サーバアレイ、ブレードサーバのセット、またはマルチプロセッサシステムとして）を提供するようにしてもよい。図９では、１つのプロセッサ９０１を例とする。

メモリ９０２は、本発明による非一時的なコンピュータ読み取り可能な記憶媒体である。前記メモリには、少なくとも１つのプロセッサによって実行可能な命令が記憶されており、前記少なくとも１つのプロセッサに、本発明によるビデオ再生ノードの位置決め方法を実行させる。本発明の非一時的なコンピュータ読み取り可能な記憶媒体は、コンピュータに、本発明によるビデオ再生ノードの位置決め方法を実行させるためのコンピュータ命令を記憶する。

メモリ９０２は、非一時的なコンピュータ読み取り可能な記憶媒体であり、本発明の実施例におけるビデオ再生ノードの位置決め方法に対応するプログラム命令／モジュールのような、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラムおよびモジュールを記憶することができる。プロセッサ９０１は、メモリ９０２に記憶された非一時的なソフトウェアプログラム、命令およびモジュールを実行することにより、サーバの様々な機能アプリケーションおよびデータ処理を実行し、すなわち、上記方法実施例におけるビデオ再生ノードの位置決め方法を実現する。

メモリ９０２は、記憶プログラム領域および記憶データ領域を含んでもよく、記憶プログラム領域は、オペレーティングシステム、少なくとも１つの機能に必要なアプリケーションプログラムを記憶することができる。記憶データ領域は、電子デバイスの使用によって作成されるデータなどを記憶することができる。また、メモリ９０２は、高速ランダムアクセスメモリを含んでもよく、例えば、少なくとも１つの磁気ディスク記憶装置、フラッシュ記憶装置、または他の非一時的な固体記憶装置などの非一時メモリをさらに含んでもよい。一部の実施例では、メモリ９０２は、選択的に、プロセッサ９０１に対して遠隔に設けられたメモリを含んでもよく、これら遠隔メモリは、ネットワークを介して電子デバイスに接続され得る。上記ネットワークの実例は、インターネット、企業内部イントラネット、ローカルエリアネットワーク、移動通信ネットワーク、およびそれらの組み合わせを含むが、これらに限定されない。

ビデオ再生ノードの位置決め方法の電子デバイスは、入力装置９０３と、出力装置９０４とをさらに含んでもよい。プロセッサ９０１、メモリ９０２、入力装置９０３および出力装置９０４は、バスまたは他の形態で接続されていてもよいが、図９では、バス９０５で接続されることを例とする。

入力装置９０３は、入力されるデジタルまたは文字情報を受信し、ビデオ再生ノードの位置決め方法の電子デバイスのユーザ設定および機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、１つのまたは複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置９０４は、表示デバイス、補助照明装置（例えば、ＬＥＤ）および触覚フィードバック装置（例えば、振動モータ）などを含んでもよい。当該表示デバイスは、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイおよびプラズマディスプレイを含んでもよいが、これらに限定されない。いくつかの実施形態では、表示デバイスは、タッチスクリーンであってもよい。

ここに記載されるシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、専用ＡＳＩＣ（専用集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組合せで実現され得る。これら様々な実施形態は、専用または汎用プログラマブルプロセッサであり得る少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステムで実行および／または解釈され得る１つのまたは複数のコンピュータプログラムで実施されること、および、記憶システム、少なくとも１つの入力装置、および少なくとも１つの出力装置からデータおよび命令を受信し、データおよび命令を当該記憶システム、当該少なくとも１つの入力装置、および当該少なくとも１つの出力装置に伝送することを含んでもよい。

これら算出プログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも呼ばれる）は、プログラマブルプロセッサの機械命令を含み、高レベルのプロセスおよび／またはオブジェクト向けのプログラミング言語、および／またはアセンブリ／機械言語を用いてこれら算出プログラムで実施できる。本明細書で使用される、「機械読み取り可能な媒体」および「コンピュータ読み取り可能な媒体」という用語は、機械命令および／またはデータをプログラマブルプロセッサに提供する任意のコンピュータプログラム製品、デバイス、および／または装置（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジック装置（ＰＬＤ））を指し、機械読み取り可能な信号としての機械命令を受信する機械読み取り可能な媒体を含む。「機械読み取り可能な信号」という用語は、機械命令および／またはデータをプログラマブルプロセッサに提供するための任意の信号を指す。

ユーザとの対話を提供するために、コンピュータで本明細書に記載されるシステムおよび技術を実行することができ、当該コンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）またはＬＣＤ（液晶ディスプレイ）モニタ）、およびキーボードおよびポインティング装置（例えば、マウスまたはトラックボール）を有し、ユーザは、当該キーボードおよび当該ポインティング装置によって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとの対話を提供するために使用され得る。例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック）であってもよく、かつ、ユーザからの入力は、任意の形態（声入力、音声入力、または、触覚入力を含む）で受信され得る。

本明細書で説明されるシステムおよび技術は、バックエンドコンポーネントを含むコンピューティングシステム（例えば、データサーバとして）、またはミドルウェアコンポーネントを含むコンピューティングシステム（例えば、アプリケーションサーバ）、またはフロントエンドコンポーネントを含むコンピューティングシステム（例えば、グラフィカルユーザインターフェースまたはネットワークブラウザを有するユーザコンピュータで実施される。ユーザは、当該グラフィカルユーザインターフェースまたは当該ネットワークブラウザによって本明細書で説明されるシステムおよび技術の実施形態と対話できる）、またはこのようなバックエンドコンポーネント、ミドルウェアコンポーネント、またはフロントエンドコンポーネントの任意の組合せを含むコンピューティングシステムで実施することができる。任意の形態または媒体のデジタルデータ通信（例えば、通信ネットワーク）によってシステムのコンポーネントを互いに接続することができる。通信ネットワークの示例は、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）およびインターネットを含む。

コンピュータシステムは、クライアントおよびサーバを含んでもよい。クライアントおよびサーバは、一般に、互いから離れており、通常、通信ネットワークを介して対話する。それぞれのコンピュータで動作し、互いにクライアント－サーバ関係を有するコンピュータプログラムによって、クライアントとサーバの関係を生成する。

本発明の実施例の技術手段によれば、大量のビデオから選別された再生ノード位置決め価値を有する目標ビデオは、目標ビデオに対して再生を行なう必要がある場合、ユーザに目標ビデオの複数の字幕テキストセグメントを提示する。ユーザが指定した字幕テキストセグメントの開始時間情報に基づいて、当該目標ビデオの開始再生ノードを特定することができる。以上のプロセスでは、目標ビデオのみに対する再生ノード位置決め処理は、大量の算出リソースを節約し、サーバとクライアントとの間の相互作用効率を向上することができ、複数の字幕テキストセグメントの共同提示により、視聴したいコンテンツノードをユーザが短時間で特定でき、かつ、ユーザが指定した字幕テキストセグメントの開始時間情報に基づいて、現在のビデオの開始再生ノードを正確に特定することができる。本開示の実施例によるビデオ再生ノードの位置決め方法、装置、デバイスおよび記憶媒体は、例えば、クラウドコンピューティング、ビッグデータ、ビデオ処理などの様々な技術に関する。

上記に示された様々な形態のフローを用いて、ステップを新たにソート、追加、または削除することができることを理解されたい。例えば、本願に記載の各ステップは、並列的に実行されてもよいし、順番に実行されてもよいし、異なる順番で実行されてもよいが、本発明に開示される技術手段から期待される結果が得られる限り、ここでは限定されない。

上記具体的な実施形態は、本発明の保護範囲を限定するものではない。当業者は、設計要求および他の要因に応じて様々な補正、組合せ、サブ組合せおよび置換を行なうことができることを理解する必要がある。本発明の思想および原則内で行われる任意の修正、均等物および改良物などは、何れも本発明の保護範囲内に含まれるべきである。

Claims

複数のビデオの各ビデオについて、前記ビデオのユーザ相互作用データに基づいて、前記ビデオの価値スコアを算出することと、
前記複数のビデオから前記価値スコアが第１の閾値よりも高いビデオを第１のグループのビデオとして選別することと、
前記第１のグループのビデオの各ビデオについて、予め訓練された分類器を用いて前記ビデオを分類することで、前記ビデオが属するカテゴリを特定することと、
前記第１のグループのビデオから所定のカテゴリに属するビデオを第２のグループのビデオとして選別することと、
前記第２のグループのビデオに基づいて目標ビデオを取得すること、
前記目標ビデオと、前記目標ビデオの複数の字幕テキストセグメントと、前記複数の字幕テキストセグメントのそれぞれの開始時間情報とをクライアントに送信し、前記クライアントによって前記複数の字幕テキストセグメントを提示し、前記複数の字幕テキストセグメントのうちのいずれか１つの字幕テキストセグメントに対するトリガ操作に応答して、前記いずれか１つの字幕テキストセグメントの開始時間情報に基づいて前記目標ビデオの開始再生ノードを特定することとを含み、
前記第２のグループのビデオに基づいて前記目標ビデオを取得することは、
前記第２のグループのビデオの各ビデオについて、
前記ビデオのオーディオデータを抽出することと、
前記オーディオデータを音声識別して、前記ビデオの複数の字幕テキストセグメントと、前記ビデオの複数の字幕テキストセグメントのそれぞれの開始時間情報および終了時間情報とを含む識別結果を取得することと、
前記ビデオの複数の字幕テキストセグメントのそれぞれの開始時間情報および終了時間情報に基づいて、前記ビデオの総時間に対する前記ビデオの複数の字幕テキストセグメントの総時間の第１の割合を特定することと、
前記第２のグループのビデオから前記第１の割合が第２の閾値よりも高いビデオを前記目標ビデオとして選別することとを含む、ことを特徴とするビデオ再生ノードの位置決め方法。
前記第２のグループのビデオに基づいて前記目標ビデオを取得することは、
前記第２のグループのビデオの各ビデオについて、
前記ビデオが所定のカテゴリに属する場合、前記ビデオのオーディオデータを抽出することと、
前記オーディオデータを音声識別して、前記ビデオの複数の字幕テキストセグメントと、前記ビデオの複数の字幕テキストセグメントのそれぞれの開始時間情報および終了時間情報とを含む識別結果を取得することと、
前記ビデオの複数の字幕テキストセグメントに対して語彙分析を行なって、前記ビデオの複数の字幕テキストセグメントに対する論理スコアを取得することと、
前記第２のグループのビデオから前記論理スコアが第３の閾値よりも高いビデオを前記目標ビデオとして選別することとを含む、ことを特徴とする請求項１に記載の方法。
前記目標ビデオの複数の字幕テキストセグメントのそれぞれの終了時間情報を前記クライアントに送信し、前記クライアントによって前記複数の字幕テキストセグメントのうちのいずれか１つの字幕テキストセグメントに対するトリガ操作に応答して、前記いずれか１つの字幕テキストセグメントの終了時間情報に基づいて前記目標ビデオの終了再生ノードを特定することをさらに含む、ことを特徴とする請求項１または２に記載の方法。
前記ユーザ相互作用データは、
前記ビデオを視聴するユーザの総数に対する前記ビデオを視聴する回数が第４の閾値を超えるユーザ数の第２の割合と、
前記ビデオに対するコメント数と、
前記ビデオに対するお気に入り数と、
前記ビデオに対するいいねの数とのうちの少なくとも１つを含む、ことを特徴とする請求項１に記載の方法。
前記ユーザ相互作用データに基づいて前記ビデオの価値スコアを算出することは、
予め設定された第１の重み、第２の重み、第３の重みおよび第４の重みを用いて、前記第２の割合、前記コメント数、前記お気に入り数および前記いいねの数を重み付き加算することで、前記価値スコアを算出することを含む、ことを特徴とする請求項４に記載の方法。
複数のビデオの各ビデオについて、前記ビデオのユーザ相互作用データに基づいて、前記ビデオの価値スコアを算出し、前記複数のビデオから前記価値スコアが第１の閾値よりも高いビデオを第１のグループのビデオとして選別し、前記第１のグループのビデオの各ビデオについて、予め訓練された分類器を用いて前記ビデオを分類することで、前記ビデオが属するカテゴリを特定し、前記第１のグループのビデオから所定のカテゴリに属するビデオを第２のグループのビデオとして選別し、前記第２のグループのビデオに基づいて目標ビデオを取得するための選別モジュールと、
前記目標ビデオと、前記目標ビデオの複数の字幕テキストセグメントと、前記複数の字幕テキストセグメントのそれぞれの開始時間情報とをクライアントに送信し、前記クライアントによって前記複数の字幕テキストセグメントを提示し、前記複数の字幕テキストセグメントのうちのいずれか１つの字幕テキストセグメントに対するトリガ操作に応答して、前記いずれか１つの字幕テキストセグメントの開始時間情報に基づいて前記目標ビデオの開始再生ノードを特定するための再生ノード管理モジュールとを含み、
前記選別モジュールにおいて、前記第２のグループのビデオに基づいて前記目標ビデオを取得することは、
前記第２のグループのビデオの各ビデオについて、
前記ビデオのオーディオデータを抽出することと、
前記オーディオデータを音声識別して、前記ビデオの複数の字幕テキストセグメントと、前記ビデオの複数の字幕テキストセグメントのそれぞれの開始時間情報および終了時間情報とを含む識別結果を取得することと、
前記ビデオの複数の字幕テキストセグメントのそれぞれの開始時間情報および終了時間情報に基づいて、前記ビデオの総時間に対する前記ビデオの複数の字幕テキストセグメントの総時間の第１の割合を特定することと、
前記第２のグループのビデオから前記第１の割合が第２の閾値よりも高いビデオを前記目標ビデオとして選別することとを含む、ことを特徴とするビデオ再生ノードの位置決め装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信接続されるメモリとを含み、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶されており、前記少なくとも１つのプロセッサが請求項１～５のいずれか一項に記載の方法を実行可能であるように、前記命令は、前記少なくとも１つのプロセッサによって実行される、ことを特徴とする電子デバイス。
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、コンピュータに請求項１～５のいずれか一項に記載の方法を実行させるためのものである、ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
実行される際に、請求項１～５のいずれか一項に記載の方法を実現するコンピュータ実行可能な命令を含むコンピュータプログラム。