JP2019212290A

JP2019212290A - ビデオを処理する方法及び装置

Info

Publication number: JP2019212290A
Application number: JP2019052669A
Authority: JP
Inventors: イエハン・チェン; Yehan Zheng; ユ・ルオ; Yu Luo
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-06-08
Filing date: 2019-03-20
Publication date: 2019-12-12
Anticipated expiration: 2039-03-20
Also published as: JP6986527B2; EP3579140A1; US10824874B2; KR102394756B1; CN110582025B; US20190377956A1; CN110582025A; KR20190139751A; KR20210053825A

Abstract

【課題】ビデオ要素情報に基づいてビデオにタグ情報を関連付ける方法、装置、サーバー及びコンピュータ可読記憶媒体を提供する。【解決手段】方法は、ターゲットビデオとターゲットビデオのターゲットビデオ要素情報を取得するステップ２０１と、ターゲットビデオ要素情報に基づき、ターゲットビデオからターゲットビデオセグメントを抽出するステップ２０２と、予め設定された、ビデオ要素情報とビデオセグメントのキーワードの決定方法との対応関係に基づき、ターゲットビデオセグメントのカテゴリを表すキーワードを取得するステップ２０３と、キーワードを予め設定されたタグ情報集合とマッチングし、ターゲットビデオセグメントのタグ情報を取得し、ターゲットビデオセグメントとタグ情報を関連付けて記憶するステップ２０４と、を含む。この方法により、ビデオセグメントに、より正確にタグ情報を付けることができる。【選択図】図２

Description

本発明の実施形態は、コンピュータ技術の分野に関し、具体的には、ビデオを処理する方法及び装置に関する。

従来技術では、内容に基づくビデオ分類を実施するために、ビデオにタグを付ける処理（例えば、タグは、ビデオの内容の概要、ビデオの内容のキーワード、ある時間範囲におけるビデオの検索数のランキング等であっても良い）を行うことにより、ビデオ内容の分類をさらに細分化する必要がある。例として、ビデオ推奨技術を用いて、ビデオのタグにユーザーが注目度の情報を取り込むことによって、ユーザーにより正確にビデオを推奨する目的を達成することができる。

本発明の実施形態は、ビデオを処理するための方法及び装置、及び推奨情報を生成するための方法及び装置を提供する。

第１の態様において、本発明の実施形態は、ビデオを処理するための方法であって、ターゲットビデオとターゲットビデオのターゲットビデオ要素情報を取得するステップと、ターゲットビデオ要素情報に基づき、ターゲットビデオからターゲットビデオセグメントを抽出するステップと、予め設定された、ビデオ要素情報とビデオセグメントのキーワードの決定方法との対応関係に基づき、ターゲットビデオセグメントのカテゴリを表すキーワードを取得するステップと、キーワードを予め設定されたタグ情報集合とマッチングし、ターゲットビデオセグメントのタグ情報を取得し、ターゲットビデオセグメントとタグ情報を関連付けて記憶することとを含む方法を提供する。

幾つかの実施形態においては、ターゲットビデオ要素情報は、ターゲットビデオに含まれる画像フレームであり、ターゲットビデオ要素情報に基づき、ターゲットビデオからターゲットビデオセグメントを抽出するステップは、ターゲットビデオに含まれる画像フレームについて、当該画像フレームに対し画像識別を行い、当該画像フレームの画像識別結果を取得するステップと、画像識別結果と関連しかつターゲットビデオにおいて連続する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定することとを含む。

幾つかの実施形態においては、予め設定された、ビデオ要素情報とビデオセグメントのキーワードの決定方法との対応関係に基づき、ターゲットビデオセグメントのカテゴリを表すキーワードを取得するステップは、予め設定された、画像識別結果とキーワードとの対応関係に基づき、ターゲットビデオセグメントに含まれる画像フレームの画像識別結果に対応するキーワードを、ターゲットビデオセグメントのキーワードとして決定することを含む。

幾つかの実施形態においては、ターゲットビデオ要素情報は、ターゲットビデオに含まれる画像フレームに対応する文字情報の集合であり、ターゲットビデオ要素情報に基づき、ターゲットビデオからターゲットビデオセグメントを抽出するステップは、ターゲットビデオに含まれる画像フレームに対して、当該画像フレームに対応する文字情報が含むターゲット語彙を抽出するステップと、対応するターゲット語彙に関連する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定することとを含む。

幾つかの実施形態においては、予め設定された、ビデオ要素情報とビデオセグメントのキーワードの決定方法との対応関係に基づき、ターゲットビデオセグメントのカテゴリを表すキーワードを取得するステップは、ターゲットビデオセグメントに含まれる画像フレームに対応するターゲット語彙の中から、ターゲット語彙を、ターゲットビデオセグメントのキーワードとして選択することを含む。

幾つかの実施形態においては、ターゲットビデオ要素情報は、ターゲットビデオに含まれる画像フレームに対応する文字情報の集合と、ターゲットビデオの文字概要情報とを含み、ターゲットビデオ要素情報に基づき、ターゲットビデオからターゲットビデオセグメントを抽出するステップは、ターゲットビデオに含まれる画像フレームに対して、当該画像フレームに対応する文字情報と文字概要情報との類似度を決定するステップと、予め設定された類似度の閾値より大きい類似度に対応する画像フレームと関連する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定することとを含む。

幾つかの実施形態においては、予め設定された、ビデオ要素情報とビデオセグメントのキーワードの決定方法との対応関係に基づき、ターゲットビデオセグメントのカテゴリを表すキーワードを取得するステップは、ターゲットビデオセグメントに含まれる画像フレームに対して、当該画像フレームに対応する文字情報が含むターゲット語彙を抽出するステップと、ターゲットビデオセグメントに含まれる画像フレームに対応するターゲット語彙の中から、ターゲット語彙を、ターゲットビデオセグメントのキーワードとして選択することとを含む。

幾つかの実施形態においては、ターゲットビデオ要素情報は、ターゲットビデオに含まれる画像フレームに対応する弾幕情報の集合であり、ターゲットビデオ要素情報に基づき、ターゲットビデオからターゲットビデオセグメントを抽出するステップは、ターゲットビデオに含まれる画像フレームに対して、当該画像フレームに対応する弾幕情報の数を決定するステップと、対応する弾幕情報の数が予め設定された数の閾値より大きくかつターゲットビデオにおいて連続する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定することとを含む。

幾つかの実施形態においては、予め設定された、ビデオ要素情報とビデオセグメントのキーワードの決定方法との対応関係に基づき、ターゲットビデオセグメントのカテゴリを表すキーワードを取得するステップは、ターゲットビデオセグメントに含まれる画像フレームに対して、当該画像フレームに対応する弾幕情報に対して識別を行い、当該画像フレームに対応する弾幕情報が属するカテゴリを表す弾幕カテゴリ情報を取得し、ターゲットビデオセグメントのキーワードとすることを含む。

幾つかの実施形態においては、ターゲットビデオ要素情報は、ターゲットビデオの音入れ情報であり、ターゲットビデオ要素情報に基づき、ターゲットビデオからターゲットビデオセグメントを抽出するステップは、音入れ情報に対して音声識別を行い、対応する音入れセグメントの属するカテゴリを表す少なくとも一つの音入れカテゴリ情報と、音入れカテゴリ情報と対応する、音入れ情報に含まれる音入れセグメントとを取得するステップと、少なくとも一つの音入れカテゴリ情報からターゲット音入れカテゴリ情報を選択し、ターゲット音入れカテゴリ情報に対応する音入れセグメントが対応するビデオセグメントを、ターゲットビデオセグメントとして決定することとを含む。

幾つかの実施形態においては、予め設定された、ビデオ要素情報とビデオセグメントのキーワードの決定方法との対応関係に基づき、ターゲットビデオセグメントのカテゴリを表すキーワードを取得するステップは、予め設定された、音入れカテゴリ情報と音声識別方法との対応関係に基づき、ターゲットビデオセグメントの対応する音入れセグメントに対して識別を行い、ターゲットビデオセグメントの対応する音入れセグメントが属するカテゴリを表すキーワードを、ターゲットビデオセグメントのキーワードとして取得することを含む。

第２の態様において、本発明の実施形態は、推奨情報を生成する方法であって、ターゲットユーザーが注目する内容を表す注目情報を取得し、当該注目情報を、予め設定されたタグ情報とマッチングを行うステップであって、前記タグ情報は、前記第１の態様の中のいずれか一実施形態で述べられている方法で得られた、対応するビデオセグメントが存在するものであるステップと、マッチングの成功が決定したことに応答し、ビデオセグメントの推奨に用いられる推奨情報を生成することとを含む方法を提供する。

第３の態様において、本発明の実施形態は、ビデオを処理する装置であって、ターゲットビデオとターゲットビデオのターゲットビデオ要素情報を取得するように配置される取得ユニットと、ターゲットビデオ要素情報に基づき、ターゲットビデオからターゲットビデオセグメントを抽出するように配置される抽出ユニットと、予め設定された、ビデオ要素情報とビデオセグメントキーワードの決定方法との対応関係に基づき、ターゲットビデオセグメントのカテゴリを表すキーワードを取得するように配置される決定ユニットと、キーワードを予め設定されたタグ情報集合とマッチングして、ターゲットビデオセグメントのタグ情報を取得し、ターゲットビデオセグメントとタグ情報を関連付けて記憶するように配置される記憶ユニットとを含む装置を提供する。

幾つかの実施形態においては、ターゲットビデオ要素情報は、ターゲットビデオに含まれる画像フレームであり、抽出ユニットは、ターゲットビデオに含まれる画像フレームに対して、当該画像フレームに対して画像識別を行い、当該画像フレームの画像識別結果を取得するように配置される第１の識別モジュールと、画像識別結果と関連しかつターゲットビデオにおいて連続する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定するように配置される第１の決定モジュールとを含む。

幾つかの実施形態においては、決定ユニットは、予め設定された、画像識別結果とキーワードとの対応関係に基づき、ターゲットビデオセグメントに含まれる画像フレームの画像識別結果に対応するキーワードを、ターゲットビデオセグメントのキーワードとして決定するように更に配置される。

幾つかの実施形態においては、ターゲットビデオ要素情報は、ターゲットビデオに含まれる画像フレームに対応する文字情報の集合であり、抽出ユニットは、ターゲットビデオに含まれる画像フレームに対して、当該画像フレームに対応する文字情報が含むターゲット語彙を抽出するように配置される第１の抽出モジュールと、対応するターゲット語彙に関連する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定するように配置される第２の決定モジュールとを含む。

幾つかの実施形態においては、決定ユニットは、ターゲットビデオセグメントに含まれる画像フレームに対応するターゲット語彙の中から、ターゲット語彙を選択し、ターゲットビデオセグメントのキーワードとするように更に配置される。

幾つかの実施形態においては、ターゲットビデオ要素情報は、ターゲットビデオに含まれる画像フレームに対応する文字情報の集合と、ターゲットビデオの概要の文字情報とを含む。抽出ユニットは、ターゲットビデオに含まれる画像フレームに対して、当該画像フレームに対応する文字情報が文字概要情報との類似度を決定するように配置される第３の決定モジュールと、予め設定された類似度の閾値より大きい類似度に対応する画像フレームと関連する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定するように配置される第４の決定モジュールとを含む。

幾つかの実施形態においては、決定ユニットは、ターゲットビデオセグメントに含まれる画像フレームに対して、当該画像フレームに対応する文字情報が含むターゲット語彙を抽出するように配置される第２の抽出モジュールと、ターゲットビデオセグメントに含まれる画像フレームに対応するターゲット語彙の中から、ターゲット語彙を選択し、ターゲットビデオセグメントのキーワードとするように配置される第１の選択モジュールとを含む。

幾つかの実施形態においては、ターゲットビデオ要素情報は、ターゲットビデオに含まれる画像フレームに対応する弾幕情報の集合である。抽出ユニットは、ターゲットビデオに含まれる画像フレームに対して、当該画像フレームに対応する弾幕情報の数を決定するように配置される第５の決定モジュールと、対応する弾幕情報の数が予め設定された数の閾値より大きくかつターゲットビデオにおいて連続する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定するように配置される第６の決定モジュールとを含む。

幾つかの実施形態においては、決定ユニットは、ターゲットビデオセグメントに含まれる画像フレームに対して、当該画像フレームに対応する弾幕情報に対して識別を行い、当該画像フレームに対応する弾幕情報が属するカテゴリを表す弾幕カテゴリ情報を取得し、ターゲットビデオセグメントのキーワードとするように更に配置される。

幾つかの実施形態においては、ターゲットビデオ要素情報は、ターゲットビデオの音入れ情報であり、抽出ユニットは、音入れ情報に対して音声識別を行い、対応する音入れセグメントの属するカテゴリを表す少なくとも一つの音入れカテゴリ情報と、音入れカテゴリ情報に対応する、音入れ情報に含まれる音入れセグメントとを取得するように配置される第２の識別モジュールと、少なくとも一つの音入れカテゴリ情報からターゲット音入れカテゴリ情報を選択し、ターゲット音入れカテゴリ情報に対応する音入れセグメントが対応するビデオセグメントを、ターゲットビデオセグメントとして決定するように配置される第２の選択モジュールとを含む。

幾つかの実施形態においては、決定ユニットは、予め設定された、音入れカテゴリ情報と音声識別方法との対応関係に基づき、ターゲットビデオセグメントの対応する音入れセグメントに対して識別を行い、ターゲットビデオセグメントの対応する音入れセグメントが属するカテゴリを表すキーワードを取得し、ターゲットビデオセグメントのキーワードとするように更に配置される。

第４の態様において、本発明の実施形態は、推奨情報を生成する装置であって、ターゲットユーザーが注目する内容を表す注目情報を取得し、当該注目情報を、予め設定された、前記第１の態様の中のいずれか一実施形態で述べられている方法で得られた、対応するビデオセグメントを有するタグ情報とマッチングを行うように配置される取得ユニットと、マッチング成功が決定することに応答し、ビデオセグメントの推奨に用いられる推奨情報を生成するように配置される生成ユニットとを含む装置を提供する。

第５の態様において、本発明の実施形態は、一つ以上のプロセッサと、一つ以上のプログラムを記憶している記憶装置とを含むサーバーであって、一つ以上のプログラムが一つ以上のプロセッサより実行される場合に、一つ以上のプロセッサに第１の態様または第２の態様の中のいずれか一実施形態で述べられている方法がサーバーにより実施される。

第６の態様おいて、本発明の実施形態は、コンピュータプログラムが記憶されているコンピュータ可読記憶媒体を提供する。当該コンピュータプログラムがプロセッサより実行される場合に、第１の態様または第２の態様の中のいずれか一実施形態で述べられている方法が実施される。

本発明の実施形態によるビデオ処理用の方法と装置は、ターゲットビデオのターゲットビデオ要素情報を利用し、ターゲットビデオからターゲットビデオセグメントを抽出し、そして、予め設定されたキーワード決定方法に基づき、ターゲットビデオセグメントのキーワードを取得し、最後に、キーワードを予め設定されたタグ情報集合とマッチングし、ターゲットビデオセグメントのタグ情報を取得し、ターゲットビデオセグメントとタグ情報を関連付けて記憶することによって、ビデオセグメントにより正確にタグ情報を付けることができ、ビデオセグメントにタグ情報を付けるに使用される手段が多様性に富むことになる。

以下の図面を参照しながら説明する非限定的な実施形態の詳細を読むと、本発明の他の特徴、目的及び利点がより明らかになる。

本発明の実施形態が適用される例示的なシステム構成図である。本発明に係るビデオ処理用の方法の一実施形態のフローチャート図である。本発明に係るビデオ処理用の方法の一つの適用シナリオの模式図である。本発明に係るビデオ処理用の方法の他の一実施形態のフローチャート図である。本発明によるビデオ処理用の方法の他の一実施形態のフローチャート図である。本発明に係るビデオ処理用の方法の他の一実施形態のフローチャート図である。本発明に係るビデオ処理用の方法の他の一実施形態のフローチャート図である。本発明に係るビデオ処理用の方法の他の一実施形態のフローチャート図である。本発明に係る、推奨情報生成用の方法の一実施形態のフローチャート図である。本発明に係る、ビデオ処理用の装置の一実施形態の構造模式図である。本発明に係る、推奨情報生成用の装置の一実施形態の構造模式図である。本発明の実施形態のサーバーを実現するのに適するコンピュータシステムの構造模式図である。

以下、図面と実施形態を参照しながら、本発明を詳細に説明する。ここで記載される具体的な実施形態は、関連の発明を解釈するためのものに過ぎず、当該発明に対する限定ではないことは理解される。なお、説明の便宜上、図面には、関連の発明に関わる部分のみを示す。

なお、矛盾が生じない限り、本発明における実施形態及び実施形態における特徴は互いに組み合わせることができるものとする。以下、図面を参照しながら、実施形態を併せて本発明を詳しく説明する。

図１は、本発明の実施形態のビデオを処理する方法または装置を適用可能となる例示的なシステム構造１００を示す。

図１に示すように、システム構成１００は、端末設備１０１、１０２、１０３、ネットワーク１０４とサーバー１０５を含んでも良い。ネットワーク１０４は、端末設備１０１、１０２、１０３とサーバー１０５との間の通信リンクの媒体を提供するのに用いられる。ネットワーク１０４は、例えば、有線、無線通信リンク又は光ファイバケーブルなどのような、各種の接続カテゴリを含むことができる。

ユーザーは、端末設備１０１、１０２、１０３を使用してネットワーク１０４を介してサーバー１０５と対話し、メッセージなどを送受信することができる。端末設備１０１、１０２、１０３には、例えば、ビデオ再生アプリケーション、ウェブブラウザアプリケーション等の各種通信クライアントアプリケーションがインストールされていても良い。

端末設備１０１、１０２、１０３はハードウェアであっても良いし、ソフトウェアであっても良い。端末設備１０１、１０２、１０３がハードウェアである場合は、ディスプレイスクリーンを有し、ビデオ再生をサポートする各種の電子設備であっても良く、スマートフォン、タブレット、ラップトップポータブルコンピュータ及びデスクトップコンピュータ等を含むが、これらに限定されない。端末設備１０１、１０２、１０３がソフトウェアである場合は、前記に列挙した電子設備にインストールされても良い。それは複数のソフトウェアまたはソフトウェアモジュールとして実現されても良いし（例えば分散式サービスを提供するために用いられるソフトウェアまたはソフトウェアモジュール）、単一のソフトウェアまたはソフトウェアモジュールとして実現されても良い。ここでは具体的な限定をしない。

サーバー１０５は、各種サービスを提供するサーバーであっても良く、例えば、端末設備１０１、１０２、１０３上で再生されるビデオをサポートするためのバックサイドビデオリソースサーバーであっても良い。バックサイドビデオリソースサーバーは、取得したビデオ（例えば、端末設備または他のサーバーから取得したビデオ）に対して処理を行うことができ、さらに処理結果（例えば、ビデオセグメントとビデオセグメントのタグ情報）記憶するか、またはビデオセグメントを端末設備に送ることができる。

なお、本発明の実施形態によるビデオ処理用の方法、または推奨情報の生成用の方法は、一般的にはサーバー１０５によって実行され、相応的には、ビデオ処理用の装置、または推奨情報の生成用の装置は、一般的にはサーバー１０５に設置される。

なお、サーバーはハードウェアであっても良く、ソフトウェアであっても良い。サーバーがハードウェアである場合は、複数のサーバーから構成される分散式サーバークラスタとして実現されても良いし、単一のサーバーとして実現されても良い。サーバーがソフトウェアである場合は、複数のソフトウェアまたはソフトウェアモジュールとして実現されても良いし（例えば分散式サービスを提供するために用いられる複数のソフトウェアまたはソフトウェアモジュール）、単一のソフトウェアまたはソフトウェアモジュールとして実現されても良い。ここでは具体的に限定しない。

図１の中の端末設備、ネットワークとサーバーの数はただ単に例示的なものであると理解されたい。実現の必要に従って、任意の数の端末設備、ネットワークとサーバーを有しても良い。

図２は、本発明によるビデオ処理用の方法の一実施形態のフローチャート２００を示す。当該ビデオ処理用の方法は、ステップ２０１、ステップ２０２、ステップ２０３及びステップ２０４を含む。
ステップ２０１においては、ターゲットビデオとターゲットビデオのターゲットビデオ要素情報を取得する。

本発明の実施形態において、ビデオを処理する方法の実行主体（例えば、図１に示すサーバー）は、有線接続の方法または無線接続の方法でリモートまたはローカルからターゲットビデオとターゲットビデオのターゲットビデオ要素情報を取得することができる。ここで、ターゲットビデオは、予め設定されたあるビデオ集合（例えば、あるビデオウェブサイトが提供するビデオ）の中のビデオであっても良い。ビデオ要素情報は、ターゲットビデオに対応する各種の情報（例えば、字幕、音入れ、画像フレーム、名称、再生時間等の情報）であっても良く、ターゲットビデオ要素情報は、上記各種の情報の中の少なくとも一つを含んでも良い。

ステップ２０２においては、ターゲットビデオ要素情報に基づき、ターゲットビデオからターゲットビデオセグメントを抽出する。

本発明の実施形態において、ステップ２０１で得られたターゲットビデオ要素情報に基づき、前記実行主体は、ターゲットビデオからターゲットビデオセグメントを抽出することができる。具体的には、前記実行主体は、色々な方法でターゲットビデオからターゲットビデオセグメントを抽出することができる。例えば、ターゲットビデオ要素情報がターゲットビデオに含まれる画像フレームである場合は、前記実行主体は、各々の画像フレームに対して識別を行い、各々の画像フレームが含む物体映像のカテゴリを取得し、同じカテゴリの画像フレーム（例えば、武器画像を含む画像フレーム）に対応するビデオセグメントをターゲットビデオセグメントとして決定する。

ステップ２０３においては、予め設定された、ビデオ要素情報とビデオセグメントキーワードの決定方法との対応関係に基づき、ターゲットビデオセグメントのカテゴリを表すキーワードを取得する。

本発明の実施形態において、前記実行主体は、予め設定された、ビデオ要素情報とビデオセグメントキーワードの決定方法との対応関係に基づき、ターゲットビデオセグメントのカテゴリを表すキーワードを取得することができる。ここで、上記ビデオ要素情報とキーワードの決定方法との対応関係は、予め設定されたプログラムリストによって表すことができ、当該プログラムリストの中のプログラムは、少なくとも一つのビデオ要素情報と対応することができる。例示として、ターゲットビデオ要素情報がターゲットビデオに含まれる画像フレームである場合、前記実行主体は、自動的にまたは技術者の操作に従って対応するプログラムを実行し、当該プログラムは、ステップ２０２で得られた各々の画像フレームの識別結果を利用し、ターゲットビデオセグメントに含まれる画像フレームの識別結果をターゲットビデオセグメントのキーワードとして決定し、または、当該プログラムは、ターゲットビデオセグメントに含まれる画像フレームに対して再度識別を行い、さらにより多くの情報（例えば、各々の画像フレームの中に含まれる物品の数、人物の動作などの情報）を識別し、ターゲットビデオセグメントのキーワードとしても良い。

ステップ２０４においては、キーワードを予め設定されたタグ情報集合とマッチングし、ターゲットビデオセグメントのタグ情報を取得し、ターゲットビデオセグメントとタグ情報を関連付けて記憶する。

本発明の実施形態において、ステップ２０３で得られたキーワードに基づき、前記実行主体は、キーワードを予め設定されたタグ情報集合とマッチングし、ターゲットビデオセグメントのタグ情報を取得し、ターゲットビデオセグメントとタグ情報を関連付けて記憶することができる。ここで、タグ情報集合は、少なくとも一つのサブ集合を含んでも良く、各々のサブ集合は、一連の関連するタグ情報の集合であっても良い。例えば、あるサブ集合は、「戦争」、「戦闘」、「武器」等のタグ情報を含み、ターゲットビデオセグメントのキーワードが当該サブ集合に含まれるタグ情報に含まれる場合、当該サブ集合の中の少なくとも一つのタグ情報（例えば、「戦争」）をターゲットビデオセグメントのタグ情報として決定しても良い。

実際には、上記タグ情報集合は予め設定された知識ベースであっても良く、当該知識ベースには複数の知識情報が記憶されており、各々の知識情報は、一連のキー情報と対応する。例えば、「戦争」とタグ付けされる知識情報に対して、当該知識情報は、例えば、「人数が二人以上」、「武器使用」、「流血」等のキー情報を含んでも良く、ターゲットビデオセグメントのキーワードが上記キー情報の中の少なくとも一つと一致する場合、ターゲットビデオセグメントのタグ情報を「戦争」に設置しても良い。また、例えば、ある知識情報は、歌の曲名としてタグ付けされると、当該知識情報は、歌の歌手、歌の作者、歌のスタイル（例えば、「婉曲」、「豪放」等）などのキー情報を含んでも良い。ターゲットビデオのキーワードが当該歌の曲名である場合、当該歌の曲名に対応する少なくとも一つのキー情報をターゲットビデオセグメントのタグ情報とさせても良い。

図３を再び参照する。図３は、本発明によるビデオ処理用の方法の一つの応用シナリオの模式図である。図３のシナリオにおいて、サーバー３０１は、まず、ローカルからターゲットビデオ３０２（例えば、ある映画）とターゲットビデオ３０２のターゲットビデオ要素情報３０３を取得する。ここで、ターゲットビデオ要素情報３０３は、ターゲットビデオに含まれる画像フレームである。そして、サーバー３０１は、各々の画像フレームに対して識別を行い、武器画像を含み、かつ少なくとも２つの人物画像を含む画像フレームと対応するビデオセグメントをターゲットビデオセグメント３０４として決定する。続いて、サーバー３０１は、予め設定された、ビデオ要素情報とビデオセグメントのキーワードの決定方法との対応関係に基づき、ターゲットビデオセグメントのカテゴリを表すキーワードを取得する。ここで、上記キーワードの決定方法は、ターゲットビデオセグメントに含まれる画像フレームの識別結果（すなわち、「武器」、「多人数」）をターゲットビデオセグメントのキーワード３０５として決定することである。最後に、サーバー３０１は、キーワード３０５を予め設定されたタグ情報集合とマッチングし、当該タグ情報集合の中に、「戦争」とタグ付けられているタグ情報サブ集合は、上記キーワードを含むので、ターゲットビデオセグメント３０４のタグ情報を「戦争」（すなわち、図の中の３０７）と決定する。最後に、サーバー３０１は、ターゲットビデオセグメント３０４とタグ情報３０７をサーバー３０１の記憶装置に関連付けて記憶する。

本発明の上記実施形態による方法は、ターゲットビデオのターゲットビデオ要素情報を利用し、ターゲットビデオからターゲットビデオセグメントを抽出し、そして、予め設定されたキーワードの決定方法に基づき、ターゲットビデオセグメントのキーワードを取得し、最後に、キーワードを予め設定されたタグ情報集合とマッチングし、ターゲットビデオセグメントのタグ情報を取得し、ターゲットビデオセグメントとタグ情報を関連付けて記憶することによって、ビデオセグメントにより正確にタグ情報を付けることができ、ビデオセグメントにタグ情報を付けるに使用される手段が多様性に富むことになる。

図４は、ビデオ処理用の方法のもう一実施形態のフローチャート４００を示す。当該ビデオ処理用の方法に用いられるフローチャート４００は、ステップ４０１、ステップ４０２、ステップ４０３、ステップ４０４及びステップ４０５を含む。

ステップ４０１においては、ターゲットビデオとターゲットビデオのターゲットビデオ要素情報を取得する。

本発明の実施形態において、ビデオを処理する方法の実行主体（例えば、図１に示すサーバー）は、有線接続の方法または無線接続の方法でリモートまたはローカルからターゲットビデオとターゲットビデオのターゲットビデオ要素情報を取得することができる。ここで、ターゲットビデオは、予め設定されたあるビデオ集合の中のビデオであっても良い。ビデオ要素情報は、ターゲットビデオに対応する各種の情報（例えば、字幕、音入れ、画像フレーム、名称、再生時間等の情報）であっても良く、ターゲットビデオ要素情報は、上記各種の情報の中の少なくとも一つを含んでも良い。

本発明の実施形態において、ターゲットビデオ要素情報は、ターゲットビデオに含まれる画像フレームである。

ステップ４０２においては、ターゲットビデオに含まれる画像フレームについて、当該画像フレームに対し画像識別を行い、当該画像フレームの画像識別結果を取得する。

本発明の実施形態において、ターゲットビデオに含まれる画像フレームについて、前記実行主体は、当該画像フレームに対し画像識別を行い、当該画像フレームの画像識別結果を取得することができる。ここで、画像識別結果は、画像フレームに含まれる物体や、シナリオ等の画像関連情報（例えば、物体の数量、シナリオのカテゴリ等の情報）であっても良い。なお、上記画像識別結果は、既存の画像識別方法（例えば、ニューラルネットワークに基づく方法、フラクタル特徴に基づく方法等）に基づいて得られるものであり、画像識別方法は、現在広く研究され応用されている既知の技術であり、ここでは繰り返して説明しない。

ステップ４０３においては、画像識別結果と関連しかつターゲットビデオにおいて連続する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定する。

本発明の実施形態において、ステップ４０２で得られた画像識別結果に基づき、前記実行主体は、画像識別結果と関連しかつターゲットビデオにおいて連続する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定することができる。ここで、画像識別結果の間に関連があるか否かを判定する方法は、技術者が予め設定された条件に基づいて判定する方法であっても良い。

例示として、画像識別結果は、画像フレームに含まれる物体のカテゴリと画像フレームに含まれる人物の数であっても良く、技術者が予め設定された条件は、画像フレームが武器画像と少なくとも２つの人物画像を含むことであると仮定する。すると、前記実行主体は、武器画像と少なくとも２つの人物画像を含むことを表す画像識別結果を関連の画像識別結果として決定する。そして、前記実行主体は、関連の画像識別結果と対応しかつターゲットビデオにおいて連続する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定することができる。

もう一つの例示として、画像識別結果は、画像フレームに含まれるターゲット物体の位置情報であっても良い。ターゲット物体がサッカーボールであり、前記実行主体は、画像フレームからサッカーボールを識別することができ、かつサッカーボールがグランドの中の位置を識別する（例えば、画像フレームの中のグランドのラインの画像に基づいてサッカーボールの位置を決定する）ことができ、技術者が予め設定された条件は、画像フレームと対応する画像識別結果が、画像フレームがサッカーボール画像を含み、かつサッカーボールがゴールゲートの中に位置することを表すことであると仮定する。すると、前記実行主体は、当該条件を満足する画像識別結果をターゲット画像識別結果として決定することができ、さらにターゲット画像識別結果と対応する画像フレームのターゲットビデオにおける時間範囲を決定し、続いて、当該時間範囲の前と後ろの予め設定された時間範囲内の画像フレームの画像識別結果を決定し、ターゲット画像識別結果と決定した画像識別結果を関連の画像識別結果として決定する。最後に、関連の画像識別結果と対応する画像フレームの存在するビデオセグメントをターゲットビデオセグメントとして決定する。

ターゲットビデオに含まれる画像フレームを識別することによってターゲットビデオセグメントを抽出することで、ターゲットビデオセグメントを抽出するプロセスをより早くより正確にすることができ、さらにターゲットビデオセグメントの目標志向性を向上させるのに有利である。

ステップ４０４においては、予め設定された、画像識別結果とキーワードとの対応関係に基づき、ターゲットビデオセグメントに含まれる画像フレームの画像識別結果に対応するキーワードを、ターゲットビデオセグメントのキーワードとして決定する。

本発明の実施形態において、前記実行主体は、予め設定された、画像識別結果とキーワードとの対応関係に基づき、ターゲットビデオセグメントに含まれる画像フレームの画像識別結果に対応するキーワードを、ターゲットビデオセグメントのキーワードとして決定することができる。例示として、画像識別結果とキーワードとの対応関係は、予め設定されたマッピングテーブルまたは予め設定されたデータ構造（例えば、リンクリスト）によって表すことができる。画像識別結果は、画像フレームに含まれる物品画像の名称であっても良く、画像識別結果と対応するキーワードは、物品画像の名称が所属するカテゴリを表すカテゴリキーワードであっても良い。例えば、ターゲットビデオセグメントの中で、一部の画像フレームは、銃画像を含み、一部の画像フレームは、大砲画像を含み、すると、前記マッピングテーブルに基づき、銃画像を含む画像フレームと大砲画像を含む画像フレームのキーワードは「武器」を含むと決定することができる。さらに、ターゲットビデオセグメントの各々の画像フレームは、すべて少なくとも２つの人物画像を含むなら、各々の画像フレームのキーワードは「多人数」を含むと決定することができる。最終的に決定したターゲットビデオセグメントのキーワードは、「武器」と「多人数」を含むことができる。

ステップ４０５においては、キーワードを予め設定されたタグ情報集合とマッチングし、ターゲットビデオセグメントのタグ情報を取得し、ターゲットビデオセグメントとタグ情報を関連付けて記憶する。

本発明の実施形態において、ステップ４０５は、図２の対応する実施形態のステップ２０４と基本的に同じであり、ここでは繰り返して説明しない。

図４から分かるように、図２の対応する実施形態と比べ、本発明の実施形態のビデオ処理用の方法のフローチャート４００は、ターゲットビデオに含まれる画像フレームに対して識別を行い、ターゲットビデオセグメントのキーワードを得るステップを強調し、よってターゲットビデオセグメントのタグ情報を決定する効率と正確性を向上させた。

図５は、ビデオ処理用の方法のもう一実施形態のフローチャート５００を示す。当該ビデオ処理用の方法のフローチャート５００は、ステップ５０１、ステップ５０２、ステップ５０３、ステップ５０４及びステップ５０５を含む。

ステップ５０１においては、ターゲットビデオとターゲットビデオのターゲットビデオ要素情報を取得する。

本発明の実施形態において、ターゲットビデオ要素情報は、ターゲットビデオに含まれる画像フレームに対応する文字情報の集合である。具体的には、文字情報の集合の中の各々の文字情報は、ターゲットビデオに含まれる少なくとも一つの画像フレームと対応することができる。例示として、文字情報は、字幕情報（字幕情報は、予め設定された字幕ファイルから取得した情報であっても良く、画像フレームに対して文字識別を行って得られる文字情報であっても良い）であっても良く、画像フレームに含まれる文字画像に対して識別を行って得られる文字情報等であっても良い。

ステップ５０２においては、ターゲットビデオに含まれる画像フレームに対して、当該画像フレームに対応する文字情報が含むターゲット語彙を抽出する。

本発明の実施形態において、ターゲットビデオに含まれる画像フレームに対して、前記実行主体は、当該画像フレームに対応する文字情報が含むターゲット語彙を抽出することができる。例示として、文字情報は、ビデオフレームに含まれる字幕であると仮定すると、ターゲット語彙は、字幕から抽出した少なくとも一つの語彙が属する、予め設定されたカテゴリの語彙であっても良い。例えば、予め設定された種別は感情類であっても良く、ターゲット語彙は、「嫌い」、「好き」、「嬉しい」等の感情を表す語彙であっても良い。

なお、上記ターゲット語彙は、既存の文字識別方法（例えば、ニューラルネットワークに基づく文字抽出モデル、語彙のカテゴリと語彙のマッピングテーブルに基づく方法等）に基づいて得られるものであり、文字識別方法は、現在広く研究され応用されている既知の技術であり、ここでは繰り返して説明しない。

ステップ５０３においては、対応するターゲット語彙に関連する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定する。

本発明の実施形態において、ステップ５０２で得られたターゲット語彙に基づき、前記実行主体は、対応するターゲット語彙に関連する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定することができる。ここでは、ターゲット語彙の間に関連があるか否かを決定する方法は、技術者が予め設定された条件に基づいて判定する方法であっても良い。

例示として、技術者により予め設定された条件は、画像フレームに対応するターゲット語彙が戦争類の語彙に属するということであると仮定する。すると、前記実行主体は、当該条件を満足する語彙に対応する各々の画像フレームを、関連の画像フレームとして決定する。または、当該条件を満足する語彙に対応する各々の画像フレームと、ターゲットビデオにおける時間が前記各々の画像フレームの間に位置する画像フレームを、関連の画像フレームとして決定する。そして、関連の画像フレームが存在するビデオセグメントをターゲットビデオセグメントとして決定する。

文字情報に含まれるターゲット語彙を抽出することによってターゲットビデオセグメントを抽出することで、ターゲットビデオセグメントを抽出する柔軟性を更に向上させることができ、さらにターゲットビデオセグメントの目標志向性を向上させるのに有利である。

ステップ５０４においては、ターゲットビデオセグメントに含まれる画像フレームに対応するターゲット語彙の中から、ターゲット語彙を選択し、ターゲットビデオセグメントのキーワードとする。

本発明の実施形態において、前記実行主体は、ターゲットビデオセグメントに含まれる画像フレームに対応するターゲット語彙の中から、ターゲット語彙をターゲットビデオセグメントのキーワードとして選択することができる。例示として、ターゲットビデオセグメントの中の各々の画像フレームに対応するターゲット語彙は戦争類に属する語彙であると仮定すると、前記実行主体は、各々のターゲット語彙から、各種の方法（例えば、ランダム選択の方法、同一のターゲット語彙の現れる回数の順序に従って選択する方法等）で予め設定された数のターゲット語彙をターゲットビデオセグメントのキーワードとして抽出しても良い。例えば、抽出したキーワードは、「攻撃」、「突撃」、「大砲を打て」等を含んでも良い。

ステップ５０５においては、キーワードを予め設定されたタグ情報集合とマッチングし、ターゲットビデオセグメントのタグ情報を取得し、ターゲットビデオセグメントとタグ情報を関連付けて記憶する。

本発明の実施形態において、ステップ５０５は、図２の対応する実施形態のステップ２０４と基本的に同じであり、ここでは繰り返して説明しない。

図５から分かるように、図２の対応する実施形態と比べ、本発明の実施形態のビデオ処理用の方法のフローチャート５００は、ターゲットビデオに含まれる画像フレームと対応する文字情報に対して識別を行い、ターゲットビデオセグメントのキーワードを得るステップを強調し、よってターゲットビデオセグメントのタグ情報を決定する効率と柔軟性を向上させることに寄与する。

図６は、ビデオ処理用の方法のもう一実施形態のフローチャート６００を示す。当該ビデオ処理用の方法は、ステップ６０１、ステップ６０２、ステップ６０３、ステップ６０４、ステップ６０５及びステップ６０６を含む。

ステップ６０１においては、ターゲットビデオとターゲットビデオのターゲットビデオ要素情報を取得する。

本発明の実施形態において、ビデオ処理用の方法の実行主体（例えば、図１に示すサーバー）は、有線接続の方法または無線接続の方法でリモートまたはローカルからターゲットビデオとターゲットビデオのターゲットビデオ要素情報を取得することができる。ここで、ターゲットビデオは、予め設定されたあるビデオ集合の中のビデオであっても良い。ビデオ要素情報は、ターゲットビデオに対応する各種の情報（例えば、字幕、音入れ、画像フレーム、名称、再生時間等の情報）であっても良く、ターゲットビデオ要素情報は、上記各種の情報の中の少なくとも一つを含んでも良い。

本発明の実施形態において、ターゲットビデオ要素情報は、ターゲットビデオに含まれる画像フレームに対応する文字情報の集合と、ターゲットビデオの概要の文字情報とを含む。具体的には、文字情報の集合の中の各々の文字情報は、ターゲットビデオに含まれる少なくとも一つの画像フレームと対応することができる。例示として、文字情報は字幕情報（字幕情報は、予め設定された字幕ファイルから取得された情報であっても良く、画像フレームに対して文字識別を行って得られた文字情報であっても良い）であっても良く、画像フレームに含まれる文字画像に対して識別を行って得られた文字情報等であっても良い。

ステップ６０２においては、ターゲットビデオに含まれる画像フレームに対して、当該画像フレームに対応する文字情報が概要の文字情報との類似度を決定する。

本発明の実施形態において、ターゲットビデオに含まれる画像フレームに対して、前記実行主体は、当該画像フレームに対応する文字情報が概要の文字情報との類似度を決定することができる。ここでは、文字情報の類似度を計算する方法は、ジャッカカード（Jaccard）類似度係数の計算に基づく方法、コサイン類似度に基づく方法等の中の少なくとも一つを含むが、これらに限定されない。前記類似度の計算方法は、現在広く研究され応用されている既知の技術であり、ここでは繰り返して説明しない。

ステップ６０３においては、予め設定された類似度の閾値より大きい類似度に対応する画像フレームと関連する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定する。

本発明の実施形態において、ステップ６０２で得られた類似度に基づき、前記実行主体は、予め設定された類似度の閾値より大きい類似度に対応する画像フレームと関連する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定することができる。前記予め設定された類似度の閾値より大きい類似度に対応する画像フレームと関連する画像フレームは、予め設定された類似度の閾値より大きい各々の類似度に対応する各々の画像フレームと、再生時刻が前記各々の画像フレームの間に位置する画像フレームとを含んでも良い。または、前記予め設定された類似度の閾値より大きい類似度に対応する画像フレームと関連する画像フレームは、予め設定された類似度の閾値より大きい各々の類似度に対応する各々の画像フレームと、再生時刻が前記各々の画像フレームの間に位置する画像フレームとを含み、さらに前記各々の画像フレームの前と後ろの予め設定された数の画像フレームを含んでも良い。例示として、ターゲットビデオにおいて、３０秒、３５秒、５０秒の画像フレームに対応する類似度は類似度の閾値より大きいとすると、時間範囲が３０秒〜５０秒の間であるビデオセグメントはターゲットビデオセグメントとなる。または、予め設定された数は５００であるとすると、ターゲット画像フレームは、時間範囲が３０秒〜５０秒の間である画像フレームと、時間範囲が３０秒〜５０秒の間である画像フレームの前と後ろの５００枚の画像フレームとを含む。

ステップ６０４においては、ターゲットビデオセグメントに含まれる画像フレームに対して、当該画像フレームに対応する文字情報が含むターゲット語彙を抽出する。

本発明の実施形態において、画像フレームに対応する文字情報が含むターゲット語彙を抽出する方法は、前記ステップ５０２と同じであり、ここでは繰り返して説明しない。

ステップ６０５においては、ターゲットビデオセグメントに含まれる画像フレームに対応するターゲット語彙の中から、ターゲット語彙を、ターゲットビデオセグメントのキーワードとして選択する。

本発明の実施形態において、ターゲットビデオセグメントに含まれる画像フレームに対応するターゲット語彙の中から、ターゲット語彙をターゲットビデオセグメントのキーワードとして選択する方法は、前記ステップ５０４と同じであり、ここでは繰り返して説明しない。

ステップ６０６においては、キーワードを予め設定されたタグ情報集合とマッチングし、ターゲットビデオセグメントのタグ情報を取得し、ターゲットビデオセグメントとタグ情報を関連付けて記憶する。

本発明の実施形態において、ステップ６０６は、図２の対応する実施形態のステップ２０４と基本的に同じであり、ここでは繰り返して説明しない。

図６から分かるように、図２の対応する実施形態と比べ、本発明の実施形態のビデオ処理用の方法のフローチャート６００は、文字情報と文字概要情報との類似度の計算のステップを強調し、よってターゲットビデオセグメントの抽出の目標志向性を向上させるのに寄与する。

図７は、ビデオ処理用の方法の他の一実施形態のフローチャート７００を示す。当該ビデオ処理用の方法のフローチャート７００は、ステップ７０１、ステップ７０２、ステップ７０３、ステップ７０４及びステップ７０５を含む。

ステップ７０１においては、ターゲットビデオとターゲットビデオのターゲットビデオ要素情報を取得する。

本発明の実施形態において、ターゲットビデオ要素情報は、ターゲットビデオに含まれる画像フレームに対応する弾幕情報の集合である。具体的には、弾幕情報は、画像フレームに対して弾幕文字の識別を行って得られる文字情報であっても良い。例えば、前記実行主体は、既存のＯＣＲ（Optical Character Recognition、光学文字認識）技術を利用して画像フレームの中の弾幕を識別し、弾幕情報を得ることができる。

ステップ７０２においては、ターゲットビデオに含まれる画像フレームに対して、当該画像フレームに対応する弾幕情報の数を決定する。

本発明の実施形態において、ターゲットビデオに含まれる画像フレームに対して、前記実行主体は、当該画像フレームに対応する弾幕情報の数を決定することができる。

ステップ７０３においては、対応する弾幕情報の数が予め設定された数の閾値より大きくかつターゲットビデオにおいて連続する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定する。

本発明の実施形態において、前記実行主体は、対応する弾幕情報の数が予め設定された数の閾値より大きくかつターゲットビデオにおいて連続する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定することができる。ここでは、前記数の閾値は、例えば、技術者が経験に基づいて設定した数であるように、各種方法で設定した数であっても良く、または前記実行主体によって計算されたターゲットビデオの弾幕情報の総数を、ターゲットビデオに含まれる画像フレームの数で除算した結果であっても良い。実際には、対応する弾幕情報の数が前記数の閾値より大きい画像フレームは、大多数のユーザーが比較的に関心を持つ画像フレームであると見なすことができる。よって、ターゲットビデオセグメントは、注目度が比較的に高いビデオセグメントであると見なすことができる。

ステップ７０４においては、ターゲットビデオセグメントに含まれる画像フレームについて、当該画像フレームに対応する弾幕情報に対して識別を行い、当該画像フレームに対応する弾幕情報が属するカテゴリを表す弾幕カテゴリ情報を、ターゲットビデオセグメントのキーワードとして取得する。

本発明の実施形態において、ターゲットビデオセグメントに含まれる画像フレームについて、前記実行主体は、当該画像フレームに対応する弾幕情報に対して識別を行い、当該画像フレームに対応する弾幕情報が属するカテゴリを表す弾幕カテゴリ情報を取得し、ターゲットビデオセグメントのキーワードとすることができる。具体的には、前記実行主体は、各種の方法で弾幕カテゴリ情報を得ることができる。例示として、前記実行主体は、予め設定された弾幕分類モデルを利用して弾幕カテゴリ情報を得ることができる。当該弾幕分類モデルは、技術者が大量の文字情報と文字情報のカテゴリ情報に対する統計に基づいて予め設定された、多数の文字情報とカテゴリ情報の対応関係を記憶しているマッピングテーブルであっても良く、既存の人工ニューラルネットワーク（例えば、畳み込みニューラルネットワーク）に基づいて監督付き学習によって得られた、文字に対して分類を行うモデルであっても良い。

ステップ７０５においては、キーワードを予め設定されたタグ情報集合とマッチングし、ターゲットビデオセグメントのタグ情報を取得し、ターゲットビデオセグメントとタグ情報を関連付けて記憶する。

本発明の実施形態において、前記実行主体は、まず、キーワードを予め設定されたタグ情報集合とマッチングし、ターゲットビデオセグメントのタグ情報を取得することができる。そして、ターゲットビデオセグメントとタグ情報を関連付けて記憶する。例示として、タグ情報集合は、少なくとも一つのサブ集合を含んでも良く、各々のサブ集合は、一連の関連するタグ情報の集合であっても良い。例えば、あるサブ集合は、「戦争」、「戦闘」、「武器」等のタグ情報を含み、ターゲットビデオセグメントのキーワードが当該サブ集合に含まれるタグ情報に含まれる場合、当該サブ集合の中の少なくとも一つのタグ情報（例えば、「戦争」）をターゲットビデオセグメントのタグ情報として決定しても良い。

他の一つの例示として、タグ情報集合は、第１のサブ集合と第２のサブ集合とを含んでも良い。ここで、第１のサブ集合は、プラス評価のタグ情報を含み、第２のサブ集合は、マイナス評価のタグ情報を含む。前記実行主体は、弾幕分類情報が第１のサブ集合または第２のサブ集合に属するか否かを判定することができる。弾幕情報が第１のサブ集合に属するなら、ターゲットビデオセグメントのタグ情報は、第１の情報（例えば、「プラス評価」）として設定され、弾幕情報が第２のサブ集合に属するなら、ターゲットビデオセグメントのタグ情報は、第２の情報（例えば、「マイナス評価」）として設定される。

図７から分かるように、図２の対応する実施形態と比べ、本発明の実施形態のビデオ処理用の方法のフローチャート７００は、弾幕情報の数の識別に基づいてターゲットビデオセグメントを抽出し、弾幕カテゴリ情報に基づいてターゲットビデオセグメントのタグ情報を決定するステップを強調し、よってターゲットビデオセグメントの抽出の目標志向性を向上させ、ターゲットビデオセグメントのタグ情報を決定する効率と正確性を向上させることに寄与する。

更に図８を参照する。図８は、ビデオ処理用の方法のもう一実施形態のフローチャート８００を示す。当該ビデオ処理用の方法のフローチャート８００は、ステップ８０１、ステップ８０２、ステップ８０３、ステップ８０４及びステップ８０５を含む。

ステップ８０１においては、ターゲットビデオとターゲットビデオのターゲットビデオ要素情報を取得する。

本発明の実施形態において、ターゲットビデオ要素情報は、ターゲットビデオの音入れ情報である。

ステップ８０２においては、音入れ情報に対して音声識別を行い、少なくとも一つの音入れカテゴリ情報と、音入れカテゴリ情報と対応する、音入れ情報に含まれる音入れセグメントとを取得する。

本発明の実施形態において、前記実行主体は、音入れ情報に対して音声識別を行い、少なくとも一つの音入れカテゴリ情報と、音入れカテゴリ情報と対応する、音入れ情報に含まれる音入れセグメントとを取得することができる。ここでは、音入れカテゴリ情報は、対応する音入れセグメントの属するカテゴリを表す。前記実行主体は、既存の音声識別技術を利用し、音入れ情報から少なくとも一つの音入れセグメントを抽出することができる。例えば、前記実行主体は、音入れ情報から、カテゴリが音楽である音入れセグメントを抽出し、当該音入れセグメントのカテゴリ情報は「音楽」であっても良く、またはカテゴリが音声である音入れセグメントを抽出し、当該音入れセグメントのカテゴリ情報は「音声」であっても良い。

ステップ８０３においては、少なくとも一つの音入れカテゴリ情報からターゲット音入れカテゴリ情報を選択し、目標音入れカテゴリ情報に対応する音入れセグメントが対応するビデオセグメントを、ターゲットビデオセグメントとして決定する。

本発明の実施形態において、前記実行主体は、まず、各種の方法で少なくとも一つの音入れカテゴリ情報からターゲット音入れカテゴリ情報を選択する（例えば、ランダム的に選択する、または音入れセグメントの抽出順序に従って選択する）ことができる。続いて、ターゲット音入れカテゴリ情報に対応する音入れセグメントが対応するビデオセグメントを、ターゲットビデオセグメントとして決定する。

例示として、ターゲット音入れカテゴリ情報が“音楽”であり、かつカテゴリ情報が“音楽”である音入れセグメントは、音入れセグメントＡと音入れセグメントＢとを含むと仮定すると、音入れセグメントＡと音入れセグメントＢは、それぞれターゲットビデオセグメントとして決定することができる。

ステップ８０４においては、予め設定された、音入れカテゴリ情報と音声識別方法との対応関係に基づき、ターゲットビデオセグメントの対応する音入れセグメントに対して識別を行い、ターゲットビデオセグメントの対応する音入れセグメントが属するカテゴリを表すキーワードを、ターゲットビデオセグメントのキーワードとして取得する。

本発明の実施形態において、前記実行主体は、予め設定された、音入れカテゴリ情報と音声識別方法との対応関係に基づき、ターゲットビデオセグメントの対応する音入れセグメントに対して識別を行い、ターゲットビデオセグメントの対応する音入れセグメントが属するカテゴリを表すキーワードを取得し、ターゲットビデオセグメントのキーワードとすることができる。ここで、上記音入れカテゴリ情報と音声識別方法との対応関係は、予め設定されたプログラムリストによって表すことができ、当該プログラムリストの中のプログラムは、音入れカテゴリ情報と対応することができ、前記実行主体は、自動的にまたは技術者の操作に従って対応するプログラムを実行することができる。上記キーワードは、音楽の名称であっても良く、音声に対する識別で得られる文字から抽出したターゲット語彙等であっても良い。上記音声識別の方法は、現在広く研究され応用されている既知の技術であり、ここでは繰り返して説明しない。

例示として、ターゲットビデオセグメントに対応する音入れセグメントは音楽であると仮定すると、当該音入れセグメントが属するカテゴリを表すキーワードは、当該音楽の名称であっても良い。もう一つの例示として、ターゲットビデオセグメントに対応する音入れセグメントは音声であると仮定すると、前記実行主体は、まず、当該音入れセグメントに対して音声識別を行って文字情報を取得し、そして文字情報からターゲット語彙を、当該音入れセグメントが属するカテゴリを表すキーワードとして抽出するようにしても良い。ここで、文字情報からターゲット語彙を抽出する方法は、前記ステップ５０２で説明の方法と同じであっても良く、ここでは繰り返して説明しない。

ステップ８０５においては、キーワードを予め設定されたタグ情報集合とマッチングし、ターゲットビデオセグメントのタグ情報を取得し、ターゲットビデオセグメントとタグ情報を関連付けて記憶する。

本発明の実施形態において、ステップ８０５は、図２の対応する実施形態のステップ２０４と基本的に同じであり、ここでは繰り返して説明しない。

図８から分かるように、図２の対応する実施形態と比べ、本発明の実施形態のビデオ処理用の方法のフローチャート８００は、音入れセグメントに対して識別を行ってターゲットビデオセグメントを取得し、ターゲットビデオセグメントと対応する音入れセグメントに対して識別を行って、ターゲットビデオセグメントのキーワードを取得するステップを強調し、よってターゲットビデオセグメントの抽出の目標志向性を向上させ、ターゲットビデオセグメントのタグ情報を決定する効率と正確性を向上させることに寄与する。

図９は、本発明による推奨情報の生成用の方法の一実施形態のフローチャート９００を示す。当該情報出力用の方法は、ステップ９０１とステップ９０２を含む。

ステップ９０１においては、ターゲットユーザーが注目する内容を表す注目情報を取得し、当該注目情報を、予め設定されたタグ情報とマッチングする。

本発明の実施形態において、ビデオ処理用の方法の実行主体（例えば、図１に示すサーバー）は、有線接続の方法または無線接続の方法でリモートまたはローカルからターゲットユーザーが注目する内容を表す注目情報を取得することができる。ここで、ターゲットユーザーは、予め設定されたあるユーザーリストまたはあるユーザー集合の中のユーザー（例えば、あるウェブサイトの登録ユーザー）であっても良く、または一部の条件（例えば、一部のビデオを閲覧したことがある）を満足するユーザーであっても良い。本発明の実施形態において、タグ情報は、前記図２〜図８のいずれか一実施形態で述べられている方法で得られたものであり、タグ情報は、対応するビデオセグメントを有する。前記注目情報は、ターゲットユーザーと関連する情報であっても良く、例えば、ターゲットユーザーの注目情報は、ターゲットユーザーのユーザー画像情報に含まれているものであっても良く、または、ターゲットユーザーの注目情報は、ターゲットユーザーの閲覧履歴に含まれるものであっても良い。

そして、実行主体は、注目情報を予め設定されたタグ情報とマッチングする。具体的には、前記予め設定されたタグ情報は、ターゲットユーザーの注目情報と完全一致または部分一致である場合、注目情報とタグ情報とのマッチングの成功を決定することができる。例えば、予め設定されたタグ情報は「戦争」、「虐殺」を含み、ターゲットユーザーの注目情報は「戦争」、「武器」を含むとすると、注目情報とタグ情報とのマッチングの成功が決定する。

ステップ９０２においては、マッチングの成功が決定したことに応答し、ビデオセグメントの推奨に用いられる推奨情報を生成する。

本発明の実施形態において、前記実行主体は、マッチング成功が決定したことに応答し、上記タグ情報が対応するビデオセグメントの推奨情報を生成することができる。例示として、推奨情報は、タグ情報と、タグ情報に対応するビデオセグメントのリンクとを含んでも良く、前記ビデオセグメントのビデオのリンク等を更に含んでも良い。

選択可能的に、前記実行主体は、生成された推奨情報を前記ターゲットユーザーが使っている端末設備に送っても良い。

本発明の前記実施形態による方法は、ターゲットユーザーの注目情報を予め設定されたタグ情報とマッチングすることによって、ビデオセグメントを推奨する推奨情報を生成する。前記図２〜図８のいずれか一実施形態で述べられている方法で得られたタグ情報を使用することによって、推奨情報の生成の目標志向性を向上させた。

更に図１０を参照する。図１０は、前記の各々の図面の示す方法の実施例として、本発明によるビデオ処理用の装置の一実施形態を示し、当該装置の実施形態は、図２に示す方法の実施形態と対応し、当該装置は、具体的に各種の電子設備に応用できる。

図１０に示すように、本発明のビデオ処理用の装置１０００は、ターゲットビデオとターゲットビデオのターゲットビデオ要素情報を取得するように配置される取得ユニット１００１と、ターゲットビデオ要素情報に基づき、ターゲットビデオからターゲットビデオセグメントを抽出するように配置される抽出ユニット１００２と、予め設定された、ビデオ要素情報とビデオセグメントのキーワードの決定方法との対応関係に基づき、ターゲットビデオセグメントのカテゴリを表すキーワードを取得するように配置される決定ユニット１００３と、キーワードを予め設定されたタグ情報集合とマッチングして、ターゲットビデオセグメントのタグ情報を取得し、ターゲットビデオセグメントとタグ情報を関連付けて記憶するように配置される記憶ユニット１００４とを含む。

本発明の実施形態において、前記取得ユニット１００１は、有線接続の方法または無線接続の方法でリモートまたはローカルからターゲットビデオとターゲットビデオのターゲットビデオ要素情報を取得することができる。ここで、ターゲットビデオは、予め設定されたあるビデオ集合（例えば、あるビデオウェブサイトが提供するビデオ）の中のビデオであっても良い。ビデオ要素情報は、ターゲットビデオに対応する各種の情報（例えば、字幕、音入れ、画像フレーム、名称、再生時間等の情報）であっても良く、ターゲットビデオ要素情報は、上記各種の情報の中の少なくとも一つを含んでも良い。

本発明の実施形態において、前記取得ユニット１００１で得られたターゲットビデオ要素情報に基づき、前記抽出ユニット１００２は、ターゲットビデオからターゲットビデオセグメントを抽出することができる。具体的には、前記抽出ユニット１００２は、色々な方法でターゲットビデオからターゲットビデオセグメントを抽出することができる。例えば、ターゲットビデオ要素情報がターゲットビデオに含まれる画像フレームである場合は、前記抽出ユニット１００２は各々の画像フレームに対して識別を行い、各々の画像フレームが含む物体映像のカテゴリを取得し、同じカテゴリの画像フレーム（例えば、武器画像を含む画像フレーム）に対応するビデオセグメントをターゲットビデオセグメントとして決定する。

本発明の実施形態において、決定ユニット１００３は、予め設定された、ビデオ要素情報とビデオセグメントのキーワードの決定方法との対応関係に基づき、ターゲットビデオセグメントのカテゴリを表すキーワードを取得することができる。ここで、上記ビデオ要素情報とキーワードの決定方法の対応関係は、予め設定されたプログラムリストによって表すことができ、当該プログラムリストの中のプログラムは、少なくとも一つのビデオ要素情報と対応することができる。

本発明の実施形態において、記憶ユニット１００４は、キーワードを予め設定されたタグ情報集合とマッチングし、ターゲットビデオセグメントのタグ情報を取得し、ターゲットビデオセグメントとタグ情報を関連付けて記憶することができる。ここで、タグ情報集合は、少なくとも一つのサブ集合を含んでも良く、各々のサブ集合は、一連の関連するタグ情報の集合であっても良い。例えば、あるサブ集合は、「戦争」、「戦闘」、「武器」等のタグ情報を含み、ターゲットビデオセグメントのキーワードが当該サブ集合に含まれるタグ情報に含まれる場合、当該サブ集合の中の少なくとも一つのタグ情報（例えば、「戦争」）をターゲットビデオセグメントのタグ情報として決定しても良い。

本発明の実施形態の一部の選択可能な実現方法において、ターゲットビデオ要素情報は、ターゲットビデオに含まれる画像フレームである。抽出ユニットは、ターゲットビデオに含まれる画像フレームについて、当該画像フレームに対し画像識別を行い、当該画像フレームの画像識別結果を取得するように配置される第１の識別モジュール（図示せず）と、画像識別結果と関連しかつターゲットビデオにおいて連続する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定するように配置される第１の決定モジュール（図示せず）とを含む。

本発明の実施形態の一部の選択可能な実現方法において、決定ユニットは、予め設定された、画像識別結果とキーワードとの対応関係に基づき、ターゲットビデオセグメントに含まれる画像フレームの画像識別結果に対応するキーワードを、ターゲットビデオセグメントのキーワードとして決定するように更に配置される。

本発明の実施形態の一部の選択可能な実現方法において、ターゲットビデオ要素情報は、ターゲットビデオに含まれる画像フレームに対応する文字情報の集合である。抽出ユニットは、ターゲットビデオに含まれる画像フレームに対して、当該画像フレームに対応する文字情報が含むターゲット語彙を抽出するように配置される第１の抽出モジュール（図示せず）と、対応するターゲット語彙に関連する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定するように配置される第２の決定モジュール（図示せず）とを含む。

本発明の実施形態の一部の選択可能な実現方法において、決定ユニットは、ターゲットビデオセグメントに含まれる画像フレームに対応するターゲット語彙の中から、ターゲット語彙を、ターゲットビデオセグメントのキーワードとして選択するように更に配置される。

本発明の実施形態の一部の選択可能な実現方法において、ターゲットビデオ要素情報は、ターゲットビデオに含まれる画像フレームに対応する文字情報の集合と、ターゲットビデオの概要の文字情報とを含む。抽出ユニットは、ターゲットビデオに含まれる画像フレームに対して、当該画像フレームに対応する文字情報が概要の文字情報との類似度を決定するように配置される第３の決定モジュール（図示せず）と、予め設定された類似度の閾値より大きい類似度に対応する画像フレームと関連する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定するように配置される第４の決定モジュール（図示せず）とを含む。

本発明の実施形態の一部の選択可能な実現方法において、決定ユニットは、ターゲットビデオセグメントに含まれる画像フレームに対して、当該画像フレームに対応する文字情報が含むターゲット語彙を抽出するように配置される第２の抽出モジュール（図示せず）と、ターゲットビデオセグメントに含まれる画像フレームに対応するターゲット語彙の中から、ターゲット語彙を、ターゲットビデオセグメントのキーワードとして選択するように配置される第１の選択モジュール（図示せず）とを含む。

本発明の実施形態の一部の選択可能な実現方法において、ターゲットビデオ要素情報は、ターゲットビデオに含まれる画像フレームに対応する弾幕情報の集合である。抽出ユニットは、ターゲットビデオに含まれる画像フレームに対して、当該画像フレームに対応する弾幕情報の数を決定するように配置される第５の決定モジュール（図示せず）と、対応する弾幕情報の数が予め設定された数の閾値より大きくかつターゲットビデオにおいて連続する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定するように配置される第６の決定モジュール（図示せず）とを含む。

本発明の実施形態の一部の選択可能な実現方法において、決定ユニットは、ターゲットビデオセグメントに含まれる画像フレームについて、当該画像フレームに対応する弾幕情報に対して識別を行い、当該画像フレームに対応する弾幕情報が属するカテゴリを表す弾幕カテゴリ情報を、ターゲットビデオセグメントのキーワードとして取得するように更に配置される。

本発明の実施形態の一部の選択可能な実現方法において、ターゲットビデオ要素情報は、ターゲットビデオの音入れ情報である。抽出ユニットは、音入れ情報に対して音声識別を行い、少なくとも一つの、対応する音入れセグメントの属するカテゴリを表す音入れカテゴリ情報と、音入れカテゴリ情報と対応する、音入れ情報に含まれる音入れセグメントとを取得するように配置される第２の識別モジュール（図示せず）と、少なくとも一つの音入れカテゴリ情報からターゲット音入れカテゴリ情報を選択し、ターゲット音入れカテゴリ情報に対応する音入れセグメントが対応するビデオセグメントを、ターゲットビデオセグメントとして決定するように配置される第２の選択モジュール（図示せず）とを含む。

本発明の実施形態の一部の選択可能な実現方法において、決定ユニットは、予め設定された、音入れカテゴリ情報と音声識別方法との対応関係に基づき、ターゲットビデオセグメントの対応する音入れセグメントに対して識別を行い、ターゲットビデオセグメントの対応する音入れセグメントが属するカテゴリを表すキーワードを取得し、ターゲットビデオセグメントのキーワードとするように更に配置される。

本発明の前記実施形態による装置は、ターゲットビデオのターゲットビデオ要素情報を利用し、ターゲットビデオからターゲットビデオセグメントを抽出し、そして、予め設定されたキーワード決定方法に基づき、ターゲットビデオセグメントのキーワードを取得し、最後に、キーワードを予め設定されたタグ情報集合とマッチングし、ターゲットビデオセグメントのタグ情報を取得し、ターゲットビデオセグメントとタグ情報を関連付けて記憶することによって、ビデオセグメントに対してタグ情報を付ける正確性が向上することができ、ビデオセグメントに対してタグ情報を付ける手段が多様になる。

更に図１１を参照する。図１１は、前記の各々の図面の示す方法の実施例として、本発明によるビデオ処理用の装置の一実施形態を提供し、当該装置の実施形態は、図９に示す方法の実施形態と対応し、当該装置は、具体的に各種の電子設備に応用できる。

図１１に示すように、本発明のビデオ処理用の装置１１００は、ターゲットユーザーが注目する内容を表す注目情報を取得し、当該注目情報を、予め設定された、前記図２〜図８のいずれか一実施形態で述べられている方法で得られた、対応するビデオセグメントを有するタグ情報とマッチングを行うように配置される取得ユニット１１０１と、マッチングの成功が決定したことに応答し、ビデオセグメントの推奨に用いられる推奨情報を生成するように配置される生成ユニット１１０２とを含む。

本発明の前記実施形態による装置は、ターゲットユーザーの注目情報を予め設定されたタグ情報とマッチングを行うことによって、ビデオセグメントを推奨する推奨情報を生成する。前記図２〜図８のいずれか一実施形態で述べられている方法で得られたタグ情報を使用することによって、推奨情報の生成の目標志向性が向上することができる。

続いて、図１２を参照する。図１２は、本発明の実施形態のサーバーを実現するのに適したコンピュータシステム１２００の構造模式図を示す。図１２に示すサーバーは、ただ単に一つの例示に過ぎず、本発明の実施形態の機能と使用範囲に如何なる制限も与えるべきではない。

図１２に示すように、コンピュータシステム１２００は、中央処理装置（ＣＰＵ）１２０１を備え、リードオンリーメモリ（ＲＯＭ）１２０２に記憶されているプログラムまたは記憶部１２０８からランダムアクセスメモリ（ＲＡＭ）１２０３にロードされたプログラムに従って各種の適切な動作と処理を実行する。ＲＡＭ１２０３に、システム１２００の操作に必要な各種のプログラムとデータが更に記憶されている。ＣＰＵ１２０１、ＲＯＭ１２０２とＲＡＭ１２０３は、バス１２０４を通じて互いに接続する。入力／出力（Ｉ／Ｏ）インターフェース１２０５もバス１２０４に接続されている。

キーボード、マウス、マイクロホン等を含む入力部分１２０６、例えば、陰極線管（ＣＲＴ）、液晶ディスプレイ（ＬＣＤ）等及びスピーカー等を含む出力部分１２０７、ハードディスク等を含む記憶部１２０８、及び例えばＬＡＮカード、モデム等を含むネットワークインターフェースカードの通信部１２０９は、Ｉ／Ｏインターフェース１２０５に接続される。通信部１２０９は、例えば、インターネット等のネットワークを通じて通信処理を実行する。ドライバー１２１０も必要に応じてＩ／Ｏインターフェース１２０５に接続される。例えば、磁気ディスク、光ディスク、光磁気ディスク、半導体メモリ等のようなリムーバブル記憶媒体１２１１は、必要に応じてドライバー１２１０にインストールされることにより、そこから読み出されるコンピュータプログラムは、必要に応じて記憶部１２０８にインストールされる。

特に、本発明の実施形態により、前記の文章でフローチャート図を参照しながら記述したプロセスは、コンピュータソフトウェアプログラムとして実現できる。例えば、本発明の実施形態は、コンピュータプログラム製品を含み、それは、コンピュータ可読記憶媒体に記載されているコンピュータプログラムを含む。当該コンピュータプログラムは、フローチャート図の示す方法を実行するのに用いられるプログラムコードを含む。このような実施形態において、当該コンピュータプログラムは、通信部１２０９を通じてネットワークからダウンロードされてインストールされても良く、及び／またはリムーバブル記憶媒体１２１１からインストールされても良い。当該プログラムは、中央処理装置（ＣＰＵ）１２０１に実行されるとき、本発明の方法の中で限定される前記の機能を実行する。なお、本発明で説明するコンピュータ可読記憶媒体は、コンピュータ可読信号記憶媒体またはコンピュータ可読記憶媒体または両者の任意の組合せであっても良い。コンピュータ可読記憶媒体は、例えば電、磁、光、電磁、赤外線、或いは半導体のシステム、装置またはデバイス、またはこれらの任意の組合せであっても良いが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例は、一つ以上のリード線を有する電気接続、ポータブルコンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能プログラマブルＲＯＭ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバー、ポータブルコンパクトディスクリードオンリーメモリ（ＣＤ−ＲＯＭ）、光記憶装置、磁気記憶装置、またはこれらの任意の適切な組み合わせを含むが、これらに限定されない。本発明において、コンピュータの可読記憶媒体は、命令実行システム、装置、デバイスまたはその組み合わせに使用されるプログラムを含むまたは記憶する如何なる有形記憶媒体であっても良い。本発明において、コンピュータ可読信号記憶媒体は、ベースバンドの中または搬送波の一部分として伝播するデータ信号を含み、その中でコンピュータの可読プログラムコードが記載されている。このような伝播するデータ信号は、多カテゴリの形式を採用することができ、電磁信号、光信号またはその任意の適切な組み合わせを含むが、これらに限定されない。コンピュータ可読信号記憶媒体は、さらにコンピュータの可読記憶媒体以外の任意のコンピュータ可読記憶媒体であっても良く、当該コンピュータ可読記憶媒体は、命令実行システム、装置、デバイスまたはその組み合わせに使用されるプログラムを送信し、伝播し、または転送することができる。コンピュータ可読記憶媒体に含まれるプログラムコードは、あらゆる適切な媒体を使って転送することができ、無線、電線、光ファイバー、ＲＦ等またはその任意の適切な組み合わせを含むが、これらに限定されない。

一つ以上のプログラミング言語またはその組み合わせを使って、本発明の操作の実行に用いられるコンピュータプログラムコードを作成しても良い。前記プログラミング言語は、例えばＪａｖａ（登録商標）、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋等のようなオブジェクト指向のプログラミング言語を含み、さらに例えば「Ｃ」言語または類似のプログラミング言語のような手続き型プログラミング言語を含む。プログラムコードは、完全にユーザーコンピュータ上で実行されても良く、部分的にユーザーコンピュータ上で実行されても良く、一つの独立したソフトウェアパッケージとして実行されても良く、一部分がユーザーコンピュータ上で実行され一部分がリモートコンピュータ上で実行されても良く、或いは完全にリモートコンピュータまたはサーバー上で実行されても良い。リモートコンピュータに関わる場面において、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）またはワイドエリアネットワーク（ＷＡＮ）を含む任意のカテゴリのネットワークを通じてユーザーコンピュータに接続されても良いし、または外部コンピュータ（例えばインターネットサービスプロバイダーを利用してインターネットを通じて接続する）に接続されても良い。

付属図面の中のフローチャート図とブロック図は、本発明による各種実施形態のシステム、方法とコンピュータプログラム製品の実現可能なアーキテクチャ、機能と操作を示す。この点において、フローチャート図またはブロック図の中の各ブロックは、一つのモジュール、プログラムセグメント、或いはコードの一部分を代表することができ、当該モジュール、プログラムセグメント、或いはコードの一部分は、一つ以上の、規定のロジック機能の実施例に用いられる実行可能な命令を含む。幾つかの代替の実施例において、ブロックの中で提示した機能は、付属図面の中で提示した順序と異なる順序で発生する可能性があると注意されたい。例えば、二つの接続するように表示されているブロックは、実際において基本的に並列に実行されても良く、場合によっては反対の順序で実行されても良く、何れも関わる機能によって定まる。フローチャート図及び／またはブロック図の中の各ブロック、及びフローチャート図及び／またはブロック図の中のブロックの組合せは、規定の機能または操作を実行する専用なハードウェアに基づくシステムで実現しても良く、専用なハードウェアとコンピュータ命令の組み合わせで実現しても良い。

本発明の実施形態に関わって記述されているユニットは、ソフトウェアの方法によって実現しても良く、ハードウェアの方法によって実現しても良い。記述されているユニットは、プロセッサの中に設置されても良く、例えば、取得ユニット、抽出ユニット、決定ユニットと記憶ユニットを含むプロセッサというように記述しても良い。なお、これらユニットの名称は、場合によっては、当該ユニット自身への限定を構成せず、例えば、取得ユニットは、「ターゲットビデオとターゲットビデオのターゲットビデオ要素情報を取得するユニット」と記述されても良い。

一方、本発明は、コンピュータ可読記憶媒体を更に提供し、当該コンピュータ可読記憶媒体は、前記実施形態の中で記述されたサーバーに含まれても良く、当該サーバーに取り付けられずに単独的に存在しても良い。前記コンピュータ可読記憶媒体は一つ以上のプログラムを記載しており、前記一つ以上のプログラムが当該サーバーに実行されると、当該サーバーは、ターゲットビデオとターゲットビデオのターゲットビデオ要素情報を取得し、ターゲットビデオ要素情報に基づき、ターゲットビデオからターゲットビデオセグメントを抽出し、予め設定された、ビデオ要素情報とビデオセグメントキーワードの決定方法との対応関係に基づき、ターゲットビデオセグメントのカテゴリを表すキーワードを取得し、キーワードを予め設定されたタグ情報集合とマッチングし、ターゲットビデオセグメントのタグ情報を取得し、ターゲットビデオセグメントとタグ情報を関連付けて記憶する。

また、前記一つ以上のプログラムが当該サーバーに実行されると、当該サーバーは、ターゲットユーザーが注目する内容を表す注目情報を更に取得し、当該注目情報を、予め設定された、前記図２〜図８のいずれか一実施形態で述べられている方法で得られた、対応するビデオセグメントを有するタグ情報とマッチングを行い、マッチング成功が決定することに応答し、ビデオセグメントの推奨に用いられる推奨情報を生成する。

前記記述は、本発明の望ましい実施形態及び使用する技術原理に対する説明に過ぎない。当業者は、本発明の関わる発明の範囲は、前記技術特徴の特定の組み合わせからなる技術案に限定されることがなく、本発明の精神から逸脱しない限り、前記技術特徴または同等の特徴の任意の組み合わせからなる技術案もカバーすべきであると理解すべきである。例えば、前記特徴と本発明で公開した（但し、これらに限定されない）類似の機能を有する技術特徴とを相互入れ替えして形成した技術案である。

Claims

ビデオを処理する方法であって、
ターゲットビデオと前記ターゲットビデオのターゲットビデオ要素情報を取得するステップと、
前記ターゲットビデオ要素情報に基づき、前記ターゲットビデオからターゲットビデオセグメントを抽出するステップと、
予め設定された、ビデオ要素情報とビデオセグメントのキーワードの決定方法との対応関係に基づき、前記ターゲットビデオセグメントのカテゴリを表すキーワードを取得するステップと、
前記キーワードを予め設定されたタグ情報集合とマッチングし、前記ターゲットビデオセグメントのタグ情報を取得し、前記ターゲットビデオセグメントと前記タグ情報を関連付けて記憶するステップと、
を含む方法。
前記ターゲットビデオ要素情報は、前記ターゲットビデオに含まれる画像フレームであり、
前記の、前記ターゲットビデオ要素情報に基づき、前記ターゲットビデオからターゲットビデオセグメントを抽出するステップは、
前記ターゲットビデオに含まれる画像フレームについて、当該画像フレームに対し画像識別を行い、当該画像フレームの画像識別結果を取得するステップと、
画像識別結果と関連しかつ前記ターゲットビデオにおいて連続する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定するステップと、
を含む、請求項１に記載の方法。
前記予め設定された、ビデオ要素情報とビデオセグメントのキーワードの決定方法との対応関係に基づき、前記ターゲットビデオセグメントのカテゴリを表すキーワードを取得するステップは、
予め設定された、画像識別結果とキーワードとの対応関係に基づき、前記ターゲットビデオセグメントに含まれる画像フレームの画像識別結果に対応するキーワードを、前記ターゲットビデオセグメントのキーワードとして決定することを含む、請求項２に記載の方法。
前記ターゲットビデオ要素情報は、前記ターゲットビデオに含まれる画像フレームに対応する文字情報の集合であり、
前記ターゲットビデオ要素情報に基づき、前記ターゲットビデオからターゲットビデオセグメントを抽出するステップは、
前記ターゲットビデオに含まれる画像フレームに対して、当該画像フレームに対応する文字情報が含むターゲット語彙を抽出するステップと、
対応するターゲット語彙に関連する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定するステップと、
を含む、請求項１に記載の方法。
前記予め設定された、ビデオ要素情報とビデオセグメントのキーワードの決定方法との対応関係に基づき、前記ターゲットビデオセグメントのカテゴリを表すキーワードを取得するステップは、
前記ターゲットビデオセグメントに含まれる画像フレームに対応するターゲット語彙の中から、ターゲット語彙を、前記ターゲットビデオセグメントのキーワードとして選択することを含む、請求項４に記載の方法。
前記ターゲットビデオ要素情報は、前記ターゲットビデオに含まれる画像フレームに対応する文字情報の集合と、前記ターゲットビデオの文字概要情報とを含み、
前記ターゲットビデオ要素情報に基づき、前記ターゲットビデオからターゲットビデオセグメントを抽出するステップは、
前記ターゲットビデオに含まれる画像フレームに対して、当該画像フレームに対応する文字情報と前記文字概要情報との類似度を決定するステップと、
予め設定された類似度の閾値より大きい類似度に対応する画像フレームと関連する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定するステップと、
を含む、請求項１に記載の方法。
前記予め設定された、ビデオ要素情報とビデオセグメントのキーワードの決定方法との対応関係に基づき、前記ターゲットビデオセグメントのカテゴリを表すキーワードを取得するステップは、
前記ターゲットビデオセグメントに含まれる画像フレームに対して、当該画像フレームに対応する文字情報が含むターゲット語彙を抽出するステップと、
前記ターゲットビデオセグメントに含まれる画像フレームに対応するターゲット語彙の中から、ターゲット語彙を、前記ターゲットビデオセグメントのキーワードとして選択するステップと、
を含む、請求項６に記載の方法。
前記ターゲットビデオ要素情報は、前記ターゲットビデオに含まれる画像フレームに対応する弾幕情報の集合であり、
前記ターゲットビデオ要素情報に基づき、前記ターゲットビデオからターゲットビデオセグメントを抽出するステップは、
前記ターゲットビデオに含まれる画像フレームに対して、当該画像フレームに対応する弾幕情報の数を決定するステップと、
対応する弾幕情報の数が予め設定された数の閾値より大きくかつターゲットビデオにおいて連続する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定するステップと、
を含む、請求項１に記載の方法。
前記予め設定された、ビデオ要素情報とビデオセグメントキーワードの決定方法との対応関係に基づき、前記ターゲットビデオセグメントのカテゴリを表すキーワードを取得するステップは、
前記ターゲットビデオセグメントに含まれる画像フレームについて、当該画像フレームに対応する弾幕情報に対して識別を行い、当該画像フレームに対応する弾幕情報が属するカテゴリを表す弾幕カテゴリ情報を、前記ターゲットビデオセグメントのキーワードとして取得することを含む、請求項８に記載の方法。
前記ターゲットビデオ要素情報は、前記ターゲットビデオの音入れ情報であり、
前記ターゲットビデオ要素情報に基づき、前記ターゲットビデオからターゲットビデオセグメントを抽出するステップは、
前記音入れ情報に対して音声識別を行い、少なくとも一つの、対応する音入れセグメントの属するカテゴリを表す音入れカテゴリ情報と、音入れカテゴリ情報に対応する、前記音入れ情報に含まれる音入れセグメントとを取得するステップと、
前記少なくとも一つの音入れカテゴリ情報からターゲット音入れカテゴリ情報を選択し、前記ターゲット音入れカテゴリ情報に対応する音入れセグメントが対応するビデオセグメントを、ターゲットビデオセグメントとして決定するステップと、
を含む、請求項１に記載の方法。
前記予め設定された、ビデオ要素情報とビデオセグメントキーワードの決定方法との対応関係に基づき、前記ターゲットビデオセグメントのカテゴリを表すキーワードを取得するステップは、
予め設定された、音入れカテゴリ情報と音声識別方法との対応関係に基づき、前記ターゲットビデオセグメントの対応する音入れセグメントに対して識別を行い、前記ターゲットビデオセグメントの対応する音入れセグメントが属するカテゴリを表すキーワードを、前記ターゲットビデオセグメントのキーワードとして取得することを含む、請求項１０に記載の方法。
推奨情報を生成する方法であって、
ターゲットユーザーが注目する内容を表す注目情報を取得し、前記注目情報を、予め設定されたタグ情報とマッチングするステップであって、前記タグ情報は、請求項１〜１１のいずれか一つに記載の方法で得られた、対応するビデオセグメントが存在するものであるステップと、
マッチングの成功が決定したことに応答し、前記ビデオセグメントの推奨に用いられる推奨情報を生成するステップと、
を含む方法。
ビデオを処理する装置であって、
ターゲットビデオと前記ターゲットビデオのターゲットビデオ要素情報を取得するように配置される取得ユニットと、
前記ターゲットビデオ要素情報に基づき、前記ターゲットビデオからターゲットビデオセグメントを抽出するように配置される抽出ユニットと、
予め設定された、ビデオ要素情報とビデオセグメントキーワードの決定方法との対応関係に基づき、前記ターゲットビデオセグメントのカテゴリを表すキーワードを取得するように配置される決定ユニットと、
前記キーワードを予め設定されたタグ情報集合とマッチングして、前記ターゲットビデオセグメントのタグ情報を取得し、前記ターゲットビデオセグメントと前記タグ情報を関連付けて記憶するように配置される記憶ユニットと、
を含む装置。
前記ターゲットビデオ要素情報は、前記ターゲットビデオに含まれる画像フレームであり、
前記抽出ユニットは、
前記ターゲットビデオに含まれる画像フレームについて、当該画像フレームに対し画像識別を行い、当該画像フレームの画像識別結果を取得するように配置される第１の識別モジュールと、
画像識別結果と関連しかつ前記ターゲットビデオにおいて連続する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定するように配置される第１の決定モジュールと、
を含む、請求項１３に記載の装置。
前記決定ユニットは、
予め設定された、画像識別結果とキーワードとの対応関係に基づき、前記ターゲットビデオセグメントに含まれる画像フレームの画像識別結果に対応するキーワードを、前記ターゲットビデオセグメントのキーワードとして決定するようにさらに配置される、請求項１４に記載の装置。
前記ターゲットビデオ要素情報は、前記ターゲットビデオに含まれる画像フレームに対応する文字情報の集合であり、
前記抽出ユニットは、
前記ターゲットビデオに含まれる画像フレームに対して、当該画像フレームに対応する文字情報が含むターゲット語彙を抽出するように配置される第１の抽出モジュールと、
対応するターゲット語彙に関連する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定するように配置される第２の決定モジュールと、
を含む、請求項１３に記載の装置。
前記決定ユニットは、
前記ターゲットビデオセグメントに含まれる画像フレームに対応するターゲット語彙の中から、ターゲット語彙を、前記ターゲットビデオセグメントのキーワードとして選択するように更に配置される、請求項１６に記載の装置。
前記ターゲットビデオ要素情報は、前記ターゲットビデオに含まれる画像フレームに対応する文字情報の集合と、前記ターゲットビデオの文字概要情報とを含み、
前記抽出ユニットは、
前記ターゲットビデオに含まれる画像フレームに対して、当該画像フレームに対応する文字情報と前記文字概要情報との類似度を決定するように配置される第３の決定モジュールと、
予め設定された類似度の閾値より大きい類似度に対応する画像フレームと関連する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定するように配置される第４の決定モジュールと、
を含む、請求項１３に記載の装置。
前記決定ユニットは、
前記ターゲットビデオセグメントに含まれる画像フレームに対して、当該画像フレームに対応する文字情報が含むターゲット語彙を抽出するように配置される第２の抽出モジュールと、
前記ターゲットビデオセグメントに含まれる画像フレームに対応するターゲット語彙の中から、ターゲット語彙を、前記ターゲットビデオセグメントのキーワードとして選択するように配置される第１の選択モジュールと、
を含む、請求項１８に記載の装置。
前記ターゲットビデオ要素情報は、前記ターゲットビデオに含まれる画像フレームに対応する弾幕情報の集合であり、
前記抽出ユニットは、
前記ターゲットビデオに含まれる画像フレームに対して、当該画像フレームに対応する弾幕情報の数を決定するように配置される第５の決定モジュールと、
対応する弾幕情報の数が予め設定された数の閾値より大きくかつターゲットビデオにおいて連続する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定するように配置される第６の決定モジュールと、
を含む、請求項１３に記載の装置。
前記決定ユニットは、
前記ターゲットビデオセグメントに含まれる画像フレームについて、当該画像フレームに対応する弾幕情報に対して識別を行い、当該画像フレームに対応する弾幕情報が属するカテゴリを表す弾幕カテゴリ情報を、前記ターゲットビデオセグメントのキーワードとして取得するように更に配置される、請求項２０に記載の装置。
前記ターゲットビデオ要素情報は、前記ターゲットビデオの音入れ情報であり、
前記抽出ユニットは、
前記音入れ情報に対して音声識別を行い、対応する音入れセグメントの属するカテゴリを表す少なくとも一つの音入れカテゴリ情報と、前記音入れ情報に含まれ、音入れカテゴリ情報に対応する音入れセグメントとを取得するように配置される第２の識別モジュールと、
少なくとも一つの前記音入れカテゴリ情報からターゲット音入れカテゴリ情報を選択し、前記ターゲット音入れカテゴリ情報に対応する音入れセグメントが対応するビデオセグメントを、ターゲットビデオセグメントとして決定するように配置される第２の選択モジュールと、
を含む、請求項１３に記載の装置。
前記決定ユニットは、
予め設定された、音入れカテゴリ情報と音声識別方法との対応関係に基づき、前記ターゲットビデオセグメントの対応する音入れセグメントに対して識別を行い、前記ターゲットビデオセグメントの対応する音入れセグメントが属するカテゴリを表すキーワードを、前記ターゲットビデオセグメントのキーワードとして取得するように更に配置される、請求項２２に記載の装置。
推奨情報を生成する装置であって、
ターゲットユーザーが注目する内容を表す注目情報を取得し、前記注目情報を、予め設定されたタグ情報とマッチングを行うように配置される取得ユニットであって、前記タグ情報は、請求項１〜１１のいずれか一つに記載の方法で得られた、対応するビデオセグメントが存在するものである取得ユニットと、
マッチングの成功が決定したことに応答し、ビデオセグメントの推奨に用いられる推奨情報を生成するように配置される生成ユニットと、
を含む装置。
一つ以上のプロセッサと、一つ以上のプログラムが記憶されている記憶装置と、を含むサーバーであって、
前記一つ以上のプログラムが前記一つ以上のプロセッサによって実行される場合に、請求項１〜１２のいずれか１項に記載の方法が前記一つ以上のプロセッサにより実施される、サーバー。
コンピュータプログラムが記憶されているコンピュータ可読記憶媒体であって、
前記プログラムがプロセッサによって実行される場合に、請求項１〜１２のいずれか１項に記載の方法が実施される、コンピュータ可読記憶媒体。