JP2021192503A

JP2021192503A - ビデオを解説するための方法及び装置

Info

Publication number: JP2021192503A
Application number: JP2021051811A
Authority: JP
Inventors: フォン、ポーハオ; Bohao Feng; チャン、シアオショアイ; Xiaoshuai Zhang; チェン、シンポー; Xingbo Chen
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-05-15
Filing date: 2021-03-25
Publication date: 2021-12-16
Anticipated expiration: 2041-03-25
Also published as: EP3852383A2; US11367284B2; JP7280908B2; EP3852383A3; CN111538862B; CN111538862A; US20210357653A1; KR102556567B1; KR20210036882A

Abstract

【課題】ビデオを解説するための方法及び装置を提供する。【解決手段】ビデオを解説するための方法２００は、処理対象ビデオフレームのコンテンツ情報を取得するステップ２０１と、コンテンツ情報に基づいて、処理対象ビデオフレームのコンテンツを記述するためのテキスト記述情報を構築するステップ２０２と、テキスト記述情報を事前トレーニング済みの、テキスト記述情報を解説テキスト情報に変換するためのテキスト変換モデルにインポートして、テキスト記述情報と対応する解説テキスト情報が得られるステップ２０３と、解説テキスト情報をオーディオ情報に変換するステップ２０４と、を含む。【選択図】図２

Description

本開示の実施例は、コンピューター技術分野に関し、具体的には、ビデオを解説するための方法及び装置に関する。

スマートデバイスの大規模な使用及びネットワーク技術の進歩に伴い、様々な種類のビデオ（例えば、フットボールビデオ、バスケットボールビデオ、テニスボールビデオなど）がネットワーク上で広く普及している。相応的に、視聴者がビデオコンテンツを理解できるように、ビデオコメンテーターがビデオコンテンツを解説する必要がある。

本開示の実施例はビデオを解説するための方法及び装置を提供する。

本開示の第１の態様によれば、ビデオを解説するための方法であって、処理対象ビデオフレームのコンテンツ情報を取得するステップと、前記コンテンツ情報に基づいて、前記処理対象ビデオフレームのコンテンツを記述するためのテキスト記述情報を構築するステップと、前記テキスト記述情報を事前トレーニング済みの、前記テキスト記述情報を解説テキスト情報に変換するためのテキスト変換モデルにインポートして、前記テキスト記述情報と対応する解説テキスト情報が得られるステップと、前記解説テキスト情報をオーディオ情報に変換するステップとを含む、方法を提供する。

幾つかの実施例において、上述した処理対象ビデオフレームのコンテンツ情報を取得するステップは、前記処理対象ビデオフレームが一つのビデオフレームである場合に応答し、前記処理対象ビデオフレームに対して画像識別を行い、ビデオタイプ情報、人物情報の少なくとも一つを含むコンテンツ情報が得られるステップを含む。

幾つかの実施例において、上述した処理対象ビデオフレームのコンテンツ情報を取得するステップは、前記処理対象ビデオフレームが複数のビデオフレームである場合に応答し、前記処理対象ビデオフレームに対して画像識別を行い、ターゲット画像を決定するステップと、前記処理対象ビデオフレームにおける前記ターゲット画像内の各ターゲット画像の運動情報を取得するステップとを含む。

幾つかの実施例において、上述した前記処理対象ビデオフレームにおける前記ターゲット画像内の各ターゲット画像の運動情報を取得するステップは、前記ターゲット画像のためにマーカーポイントを設定するとともに前記処理対象ビデオフレームの各処理対象ビデオフレームにおける前記マーカーポイントの位置情報を取得するステップと、前記処理対象ビデオフレームの時間情報と前記位置情報との間の対応関係を確立するステップと、前記時間情報と対応する時系列と前記対応関係に従って、アクション情報を含むコンテンツ情報を決定するステップとを含む。

幾つかの実施例において、上述した前記コンテンツ情報に基づいてテキスト記述情報を構築するステップは、前記コンテンツ情報の、名詞、動詞の少なくとも一つを含む品詞情報を照会するステップと、前記品詞情報と対応する、主語、述語、目的語の少なくとも一つを含む文成分を決定するステップと、前記文成分に基づいてワードスロットを含む文型を選択するステップと、前記コンテンツ情報を前記文型のワードスロットに添加してテキスト記述情報が得られるステップとを含む。

幾つかの実施例において、上述した前記テキスト記述情報を事前トレーニング済みのテキスト変換モデルにインポートして、前記テキスト記述情報と対応する解説テキスト情報が得られるステップは、前記テキスト記述情報と対応する、前記処理対象ビデオフレームと対応するシーンを特徴付けるためのシーンタイプ情報を照会するステップと、前記シーンタイプ情報に基づいて、前記シーンと対応する慣用記述詞を含む、前記シーンを記述するためのシーン文型を決定するステップと、前記テキスト記述情報を前記シーン文型に添加して解説テキスト情報が得られるステップを含む。

幾つかの実施例において、上述した方法は、前記処理対象ビデオフレームと前記オーディオ情報とのタイムマッチング関係を確立するステップを更に含む。

本開示の第２の態様によれば、ビデオを解説するための装置であって、処理対象ビデオフレームのコンテンツ情報を取得するように構成されたコンテンツ情報取得ユニットと、前記コンテンツ情報に基づいて前記処理対象ビデオフレームのコンテンツを記述するためのテキスト記述情報を構築するように構成されたテキスト記述情報構築ユニットと、前記テキスト記述情報を事前トレーニング済みの、前記テキスト記述情報を解説テキスト情報に変換するためのテキスト変換モデルにインポートして、前記テキスト記述情報と対応する解説テキスト情報が得られるように構成された解説テキスト情報取得ユニットと、前記解説テキスト情報をオーディオ情報に変換するように構成されたオーディオ変換ユニットと、を備える、装置を提供する。

幾つかの実施例において、前記コンテンツ情報取得ユニットは、前記処理対象ビデオフレームが一つのビデオフレームである場合に応答し、前記処理対象ビデオフレームに対して画像識別を行い、ビデオタイプ情報、人物情報の少なくとも一つを含むコンテンツ情報が得られるように構成された第１のコンテンツ情報取得サブユニットを備える。

幾つかの実施例において、前記コンテンツ情報取得ユニットは、前記処理対象ビデオフレームが複数のビデオフレームである場合に応答し、前記処理対象ビデオフレームに対して画像識別を行い、ターゲット画像を決定するように構成されたターゲット画像決定サブユニットと、前記処理対象ビデオフレームにおける前記ターゲット画像内の各ターゲット画像の運動情報を取得するように構成された第２のコンテンツ情報取得サブユニットとを含む。

幾つかの実施例において、前記第２のコンテンツ情報取得サブユニットは、前記ターゲット画像のためにマーカーポイントを設定するとともに前記処理対象ビデオフレームの各処理対象ビデオフレームにおける前記マーカーポイントの位置情報を取得するように構成された位置情報取得モジュールと、前記処理対象ビデオフレームの時間情報と前記位置情報との間の対応関係を確立するように構成された対応関係確立モジュールと、前記時間情報と対応する時系列と前記対応関係に従って、アクション情報を含むコンテンツ情報を決定するように構成されたコンテンツ情報取得モジュールとを備える。

幾つかの実施例において、前記テキスト記述情報構築ユニットは、前記コンテンツ情報の、名詞、動詞の少なくとも一つを含む品詞情報を照会するように構成された品詞照会サブユニットと、前記品詞情報と対応する、主語、述語、目的語の少なくとも一つを含む文成分を決定するように構成された文成分決定サブユニットと、前記文成分に基づいて、ワードスロットを含む文型を選択するように構成された文型選択サブユニットと、前記コンテンツ情報を前記文型のワードスロットに添加してテキスト記述情報が得られるように構成されたテキスト記述情報取得サブユニットと、を備える。

幾つかの実施例において、前記解説テキスト情報取得ユニットは、前記テキスト記述情報と対応する、前記処理対象ビデオフレームと対応するシーンを特徴付けるためのシーンタイプ情報を照会するように構成されたシーンタイプ情報照会サブユニットと、前記シーンタイプ情報に基づいて、前記シーンと対応する慣用記述詞を含む、前記シーンを記述するためのシーン文型を決定するように構成されたシーン文型決定サブユニットと、前記テキスト記述情報を前記シーン文型に添加して解説テキスト情報が得られるように構成された解説テキスト情報取得サブユニットと、を備える。

幾つかの実施例において、上述した装置は、前記処理対象ビデオフレームと前記オーディオ情報とのタイムマッチング関係を確立するように構成されたタイムマッチング関係確立ユニットを更に備える。

本開示の第３の態様によれば、電子機器であって、１つ又は複数のプロセッサと、一つまたは複数のコンピュータプログラムが記憶されたメモリと、を備え、前記１つまたは複数のコンピュータプログラムが前記１つまたは複数のプロセッサにより実行されると、前記１つまたは複数のプロセッサに、上記第１の態様に記載の方法を実行させる、電子機器を提供する。

本開示の第４の態様によれば、コンピュータプログラムが記録されたコンピュータ読み取り可能な記録媒体であって、前記コンピュータプログラムがプロセッサにより実行されると、上記第１の態様に記載の方法を実現させるコンピュータ読み取り可能な記録媒体を提供する。

本開示の第５の態様によれば、コンピュータプログラムであって、前記コンピュータプログラムがプロセッサにより実行されると、上記第１の態様に記載の方法を実現させるコンピュータプログラムを提供する。

本開示の実施例が提供するビデオを解説するための方法及び装置は、まず、処理対象ビデオフレームのコンテンツ情報を取得することによって、処理対象ビデオフレームの理解に有利である。その後、前記コンテンツ情報に基づいて、テキスト記述情報を構築することによって、情報によるビデオの記述を実現する。そして、前記テキスト記述情報を事前トレーニング済みのテキスト変換モデルにインポートし、前記テキスト記述情報と対応する解説テキスト情報が得られることによって、ビデオ解説に対する適切性（狙い性）を向上する。最後に、前記解説テキスト情報をオーディオ情報に変換する。本出願はビデオに対する音声解説を実現し、ビデオの解説効率を向上する。
なお、この部分に記載の内容は、本開示の実施例のキーポイント又は重要な特徴を特定することも意図していなく、本開示の範囲を限定するために用いられない。本開示の他の構成は、以下に記載の明細書によって容易に理解される。

添付の図面は、本出願発明をよりよく理解するために使用され、本出願を限定するものではない。
本出願に係る第１の実施例の模式図である。本出願に係る第２の実施例の模式図である。本出願に係る第３の実施例の模式図である。本出願に係る第４の実施例の模式図である。本出願の実施例に係るビデオを解説するための方法を実現するための電子機器のブロック図である。本開示の実施例を実現するのに適した電子機器の概略構成図である。

以下、添付の図面と併せて本出願の例示的な実施例を説明する。なお、本出願実施例に含まれた様々な詳細は、ただ理解を容易にするための一例であることを理解されたい。従って、当業者は、ここで記載の実施例が本出願の範囲や要旨を逸脱しない限り、種々な置き換え、変更を行うことができることを認識すべきである。同様に、明確さと簡潔さのために、以下に既知の機能と構成に関する説明を省略する。

図１には、本開示の実施例に係るビデオを解説するための方法、または、ビデオを解説するための装置を適用できる例示的なシステムアーキテクチャ１００を示す図である。

図１に示されたように、システムアーキテクチャ１００は、端末機器１０１、１０２、１０３、ネットワーク１０４、サーバ１０５とを含むことができる。ネットワーク１０４は、端末機器１０１、１０２、１０３とサーバ１０５との間で通信リンクを提供するための媒体である。ネットワーク１０４には、有線又は無線通信回線、光ファイバケーブル等の各種の接続形態が含まれていてもよい。

端末機器１０１、１０２、１０３は、ネットワーク１０４を介してサーバ１０５とインタラクションをすることによって、メッセージなどを送受信する。端末機器１０１、１０２、１０３には、例えば、ビデオ放送アプリケーション、ビデオプラグインアプリケーション、ビデオ変換アプリケーション等、様々なビデオクライアントアプリケーションをインストールすることができる。

端末機器１０１、１０２、１０３は、ハードウェアであってもよいし、ソフトウェアであってもよい。端末機器１０１、１０２、１０３は、ハードウェアである場合、ディスプレイスクリーンを有するとともにビデオ放送を支持可能な様々な電子機器であってもよく、スマートフォン、タブレットコンピュータ、ノート型携帯コンピュータ及びデスクトップコンピュータ等を含むがこれらに限定されない。端末機器１０１、１０２、１０３は、ソフトウェアである場合、上記に例示した電子機器にインストールすることができる。端末機器は、複数のソフトウェア又はソフトウェアモジュール（例えば分散サービスを提供するために用いられる）として実現されてもよく、単一のソフトウェア又はソフトウェアモジュールとして実現されてもよいが、ここで具体的に限定されない。

サーバ１０５は、様々なサービスを提供するサーバであってもよく、例えば、端末機器１０１、１０２、１０３にビデオサーバを提供するものであってもよい。サーバは、受信したビデオに解説オーディオを添加し、解説オーディオが添加されたビデオを端末機器に発送することができる。
説明すべきなのは、本開示の実施例が提供するビデオを解説するための方法は、一般的にサーバ１０５によって実行される。相応的に、ビデオを解説するための装置は、一般的にサーバ１０５に設けられる。

説明すべきなのは、サーバは、ハードウェアであってもよいし、ソフトウェアであってもよい。サーバはハードウェアである場合、複数のサーバで構成される分散型サーバクラスタとして実現されてもよく、また単一のサーバとして実現されてもよい。サーバは、ソフトウェアである場合、複数のソフトウェア又はソフトウェアモジュール（例えば分散サービスを提供するために用いられる）として実現されてもよく、単一のソフトウェア又はソフトウェアモジュールとして実現されてもよいが、ここで具体的に限定されない。

なお、図１に示した端末機器、ネットワークとサーバの数はただ一例であることを理解されたい。実際のニーズに応じて、任意の数の端末機器、ネットワークとサーバを備えることができる。

次に、図２を参照する。図２に、本開示に係るビデオを解説するための方法の一実施例のフロー２００が示される。当該ビデオを解説するための方法は、以下のステップを含む。

ステップ２０１において、処理対象ビデオフレームのコンテンツ情報を取得する。

本実施例においてビデオを解説するための方法の実行主体（例えば図１に示すサーバ１０５）は、有線接続又は無線接続により処理対象ビデオフレームを取得する。なお、前記の無線接続は、３Ｇ／４Ｇ接続、ＷｉＦｉ接続、ブルートゥース（登録商標）接続、ＷｉＭＡＸ接続、Ｚｉｇｂｅｅ接続、ＵＷＢ（ＵｌｔｒａＷｉｄｅｂａｎｄ）接続、及びその他の既知又は将来に開発される無線接続方式を含むがこれらに限定されない。

実行主体は、ネットワークまたは他の機器から処理対象ビデオフレームを取得することができる。そのうち、処理対象ビデオフレームは、記録したビデオではないビデオフレームであってもよい、リアルタイムビデオのビデオフレームであってもよい。実行主体は、様々な方法により処理対象ビデオフレームにおけるコンテンツ情報を取得することができる。よって、処理対象ビデオフレームの理解に有利である。例えば、実行主体は、ビデオにおけるオーディオ情報を翻訳したり、ビデオにおけるオーディオをテキスト情報に変換したりすることができる。相応的に、オーディオ情報及びテキスト情報はコンテンツ情報としている。

ステップ２０２において、前記コンテンツ情報に基づいてテキスト記述情報を構築する。

コンテンツ情報が得られた後、実行主体は、自然言語処理などにより、コンテンツ情報をテキスト記述情報として構築することができる。即ち、前記テキスト記述情報は、前記処理対象ビデオフレームのコンテンツを記述するために用いられる。このように、情報によるビデオの記述が実現される。

ステップ２０３において、前記テキスト記述情報を事前トレーニング済みのテキスト変換モデルにインポートし、前記テキスト記述情報と対応する解説テキスト情報が得られる。

テキスト記述情報が得られた後、実行主体は、テキスト記述情報を事前トレーニング済みのテキスト変換モデルにインポートし、前記テキスト記述情報と対応する解説テキスト情報が得られる。そのうち、前記テキスト記述情報を解説テキスト情報に変換するための前記テキスト変換モデルによっては、ビデオ解説に対する適切性を向上する。テキスト変換モデルは、情報変換を実現する既知のディープラーニングネットワークなどのインテリジェントネットワークであってもよい。

ステップ２０４において、前記解説テキスト情報をオーディオ情報に変換する。

実行主体は、テキスト変換オーディオなどの方法により、解説テキスト情報をオーディオ情報に変換することができる。なお、オーディオ情報は処理対象ビデオフレームの解説情報である。このように、ビデオに対する音声解説を実現し、ビデオの解説効率を向上する。

次に、図３を参照する。図３に、本開示に係るビデオを解説するための方法の一実施例のフロー３００が示されている。上記したビデオを解説するための方法は、以下のステップを含む。

ステップ３０１において、処理対象ビデオフレームのコンテンツ情報を取得する。

ステップ３０１の内容はステップ２０１の内容と同じであるので、ここでは説明を省略する。

本実施例の幾つかの選択可能な実現形態において、上記した処理対象ビデオフレームのコンテンツ情報を取得するステップは、前記処理対象ビデオフレームが一つのビデオフレームである場合に応答し、前記処理対象ビデオフレームに対して画像識別を行い、コンテンツ情報が得られるステップを更に含んでも良い。

処理対象ビデオフレームが一つのビデオフレームである場合、実行主体は、当該処理対象ビデオフレームに対して画像識別を行い、処理すべき対象ビデオフレームのコンテンツ情報が得られる。処理対象ビデオフレームは一つだけであり、かつ画像識別により当該処理対象ビデオフレームにおける人物画像、ボール画像、動物画像などを識別できるため、当該処理対象ビデオフレームのコンテンツ情報が人物情報（例えば名前、性別など）、ビデオタイプ情報（フットボールビデオ、バスケットボールビデオ、テニスボールビデオなど）であることを決定することができる。異なる処理対象ビデオフレームについて、対応するコンテンツ情報は異なっても良い。即ち、前記コンテンツ情報は、ビデオタイプ情報、人物情報のいずれか一つを含んでもよい。このように、処理対象ビデオフレームの静的情報の取得を実現する。

本実施例の幾つかの選択可能な実現形態において、上記した処理対象ビデオフレームのコンテンツ情報を取得するステップは、以下のステップを含む。

第１のステップにおいて、前記処理対象ビデオフレームが複数のビデオフレームである場合に応答し、前記処理対象ビデオフレームに対して画像識別を行い、ターゲット画像を決定する。

処理対象ビデオフレームが複数のビデオフレームである場合、処理対象ビデオフレームから人物情報などの静的情報を取得するだけでなく、関連する動的情報も取得することができる。なお、実際に、実行主体が得られた複数の連続するビデオフレームは、通常にリアルタイムで取得される複数の連続するビデオフレーム、又は履歴ビデオにおいて連続するビデオフレームであることを留意されたい。このために、実行主体は、前記処理対象ビデオフレームに対して画像識別を行い、ターゲット画像を決定する。そのうち、ターゲット画像は、人物画像や動物画像などの可動物体の画像であってもよい。

第２のステップにおいて、前記処理対象ビデオフレームにおける前記ターゲット画像内の各ターゲット画像の運動情報を取得する。

ターゲット画像を決定した後、実行主体は、処理対象ビデオフレームにおける各ターゲット画像の画像情報を取得し、ターゲット画像の運動情報を決定することができる。このように、処理対象ビデオフレームの動的情報の取得を実現する。

本実施例の幾つかの選択可能な実現形態において、前記した前記処理対象ビデオフレームにおける前記ターゲット画像内の各ターゲット画像の運動情報を取得するステップは、以下のステップを含む。

第１のステップにおいて、前記ターゲット画像のためにマーカーポイントを設定するとともに前記処理対象ビデオフレームの各処理対象ビデオフレームにおける前記マーカーポイントの位置情報を取得する。

ターゲット画像の正確な運動情報を取得するために、実行主体は、ターゲット画像にマーカーポイントを設定することができる。マーカーポイントの数は、実際のニーズにより決定される。マーカーポイントがターゲット画像の特徴的な位置に設定される。例えば、ターゲット画像が人物画像である場合、人物画像の手や足等の、運動を反映しやすい特徴位置にマーカーポイントを設定することができる。マーカーポイントを設定した後、処理対象ビデオフレームにおけるマーカーポイントの位置情報を取得することができる。

第２のステップにおいて、前記処理対象ビデオフレームの時間情報と前記位置情報との間の対応関係を確立する。

各処理対象ビデオフレームにはいずれも対応するタイムスタンプがあり、実行主体は、処理対象ビデオフレームの時間情報と前記位置情報との間の対応関係を確立することができる。それにより、時間の経過に伴うマーカーポイントの変化情報を確定する。処理対象ビデオフレームに時間情報が無い場合、実行主体は、現地時間情報、または処理対象ビデオフレーム間の時系列等により処理対象ビデオフレームのために時間情報を設定することもできる。

第３のステップにおいて、前記時間情報と対応する時系列と前記対応関係に従ってコンテンツ情報を決定する。

対応関係を確立した後、実行主体は、時系列に従って、各マーカーポイントの経時変化情報を決定し、コンテンツ情報が得られる。この時、前記コンテンツ情報は、アクション情報を含んでも良い。ここで、処理対象ビデオフレームにおける各マーカーポイントの変化情報を個別に取得する場合、コンテンツ情報は各マーカーポイントと対応するアクション情報であってもよい。取得されたのはマーカーポイント間の相対変化情報である場合、コンテンツ情報はターゲット物体のアクション情報であってもよい。このように、ビデオに対する動的解説を実現する。

ステップ３０２において、前記コンテンツ情報に基づいてテキスト記述情報を構築する。

ステップ３０２の内容はステップ２０２の内容と同じであるので、ここでは説明を省略する。

本実施例の幾つかの選択可能な実現形態において、前記した前記コンテンツ情報に基づいてテキスト記述情報を構築するステップは、以下のステップを含む。

第１のステップにおいて、前記コンテンツ情報の品詞情報を照会する。

テキスト記述情報を構築するために、実行主体は、まずコンテンツ情報の品詞情報を照会することができる。前記品詞情報は、名詞、動詞の少なくとも一つを含む。例えば、コンテンツ情報は、「プレーヤーＡ」、「フットボール」、「ゴール内」であってもよい。対応する品詞情報は名詞、名詞、名詞である。

第２のステップにおいて、前記品詞情報と対応する文成分を決定する。

品詞情報を決定した後、実行主体は、品詞情報の文成分を更に決定する。そのうち、前記文成分は、主語、述語、目的語等の少なくとも一つを含む。例えば、コンテンツ情報は、「プレーヤーＡ」、「フットボール」、「ゴール内」であってもよい。対応する品詞情報は名詞、名詞、名詞である。「プレーヤーＡ」、「フットボール」、「ゴール内」はいずれも主語又は目的語としてもよい。フットボール運動の実際の状況によれば、実行主体は、「プレーヤーＡ」を主語として、「フットボール」を目的語として、「ゴール内」を補語とすることができる。

第３のステップにおいて、前記文成分に基づいて文型を選択する。

前記文成分を決定した後、実行主体は、文成分に基づいて、対応する文型を選択することができる。前記文型はワードスロットを含んでも良い。例えば、文型は、主語+述語+目的語+補語であってもよい。フットボール運動を考慮すると、述語は「蹴る」として事前に決定することができ、また補語である「ゴール内」があるため、述語は「蹴り込む」にすることができる。対応する文型は、主語+「蹴り込む」+目的語+補語にすることができる。相応的に、当該文型における「主語」、「目的語」、「補語」は、記入対象とするワードスロットであり得る。

第４のステップにおいて、前記コンテンツ情報を前記文型のワードスロットに添加してテキスト記述情報が得られる。

文型を得た後、実行主体は、コンテンツ情報を対応するワードスロットに添加してテキスト記述情報が得られる。このように、処理対象ビデオフレームに対するテキスト記述を実現する。

ステップ３０３において、前記テキスト記述情報と対応するシーンタイプ情報を照会する。

テキスト記述情報は、前記処理対象ビデオフレームのコンテンツを記述するために用いられる。従って、実行主体は、テキスト記述情報により処理対象ビデオフレームと対応するシーンタイプ情報を照会することができ、テキスト記述情報と対応するシーンタイプ情報と見なすこともできる。そのうち、前記シーンタイプ情報は、前記処理対象ビデオフレームと対応するシーンを特徴付けるために用いられる。例えば、テキスト記述情報は、「プレーヤーＡがプレーヤーＢにフットボールを蹴る」であってもよい。実行主体がテキスト記述情報に「フットボール」が含まれるとともに「プレーヤーＡ」「蹴る」「プレーヤーＢ」であることを検出し、実行主体は、シーンタイプ情報が「フットボール運動」であると決定する。異なる処理対象ビデオフレームについて、対応するシーンタイプ情報は、「バスケットボール運動」、「テニスボール運動」などであってもよい。

ステップ３０４において、前記シーンタイプ情報に基づいてシーン文型を決定する。

バスケットボール運動では、常用の記述テキストには「プレーヤーＡがプレーヤーＢを支援し、プレーヤーＢがダンクする」等があり、フットボール運動では、常用の記述テキストには、「プレーヤーＡが左からプレーヤーＢにクロスし、プレーヤーＢがドリブルしてシュートする」等がある。そのうち、“プレーヤーＡがプレーヤーＢを支援し、プレーヤーＢがダンクする”は、バスケットボール運動シーンで対応するシーン文型と見なすことができる。「プレーヤーＡが左からプレーヤーＢにクロスし、プレーヤーＢがドリブルしてシュートする」はフットボール運動シーンで対応するシーン文型と見なすことができる。即ち、異なるシーンは、異なるシーン文型と対応する。前記シーン文型は、前記シーンを記述するために用いられる。相応的に、「支援」、「ダンク」は、バスケットボール運動シーンでの慣用記述詞と見なすことができる。「左からクロスする」「ドリブルしてシュート」「シュート」は、フットボール運動シーンでの慣用記述詞と見なすことができるので、シーン文型は、前記シーンと対応する慣用記述詞を含んでも良い。このように、処理対象ビデオフレームを狙って記述するのに有利である。

ステップ３０５において、前記テキスト記述情報を前記シーン文型に添加して解説テキスト情報が得られる。

シーン文型を決定した後、実行主体は、テキスト記述情報を前記シーン文型に添加して解説テキスト情報が得られる。説明すべきなのは、実行主体は、テキスト記述情報を前記シーン文型に添加するときに、テキスト記述情報の一部を選択したり、テキスト記述情報における情報を変換した後に解説テキストが得られたりすることができる。例えば、テキスト記述情報は、「プレーヤーＡがプレーヤーＢにフットボールを蹴る」。対応するフットボール運動シーンのシーン文型は、「プレーヤーＡが左からプレーヤーＢにクロスする」であってもよい。そのうち、シーン文型における「プレーヤーＡ」と「プレーヤーＢ」はテキスト記述情報における「プレーヤーＡ」と「プレーヤーＢ」からシーン文型に直接に添加されると見なすことができる。シーン文型における「左からクロスする」とは、フットボール運動シーンに基づいてテキスト記述情報における「蹴る」に変換することに同意することで得られたものと見なすことができる。このように、情報によるシーンの変換を実現し、処理対象ビデオフレームを絞って記述することができる。

ステップ３０６において、前記解説テキスト情報をオーディオ情報に変換する。

ステップ３０６の内容はステップ２０４の内容と同じであるので、ここでは説明を省略する。

さらに図４を参照し、図４にビデオを解説するための方法の他の実施例のフロー４００が示されている。上述したビデオを解説するための方法のフロー４００は、以下のステップを含む。

ステップ４０１において、処理対象ビデオフレームのコンテンツ情報を取得する。

ステップ４０１の内容はステップ２０１の内容と同じであるので、ここでは説明を省略する。

ステップ４０２において、前記コンテンツ情報に基づいてテキスト記述情報を構築する。

ステップ４０２の内容はステップ２０２の内容と同じであるので、ここでは説明を省略する。

ステップ４０３において、前記テキスト記述情報を事前トレーニング済みのテキスト変換モデルにインポートし、前記テキスト記述情報と対応する解説テキスト情報が得られる。

ステップ４０３の内容はステップ２０３の内容と同じであるので、ここでは説明を省略する。

ステップ４０４において、前記解説テキスト情報をオーディオ情報に変換する。

ステップ４０４の内容はステップ２０４の内容と同じであるので、ここでは説明を省略する。

ステップ４０５において、前記処理対象ビデオフレームと前記オーディオ情報とのタイムマッチング関係を確立する。

オーディオ情報を得るプロセスにはある程度の時間がかかる。処理対象ビデオフレームをオーディオラグ画像なしでユーザに見せるために、実行主体は、処理対象ビデオフレームと前記オーディオ情報とのタイムマッチング関係を確立することによって、処理対象ビデオフレームを前記オーディオ情報とともに時間的に同期させることができる。このように、ビデオ解説の精度と有効性が向上する。

さらに図５を参照し、上図に示す方法による実現形態として、本開示がビデオを解説するための装置の一実施例を提供する。当該装置実施例は、図２に示す方法実施例に対応し、当該装置は様々な電子機器に適用できる。

図５に示されたように、本実施例に係るビデオを解説するための装置５００は、コンテンツ情報取得ユニット５０１、テキスト記述情報構築ユニット５０２、解説テキスト情報取得ユニット５０３、オーディオ変換ユニット５０４を含むことができる。そのうち、前記コンテンツ情報取得ユニット５０１は、処理対象ビデオフレームのコンテンツ情報を取得するように構成されたものであり、前記テキスト記述情報構築ユニット５０２は、前記コンテンツ情報に基づいて前記処理対象ビデオフレームのコンテンツを記述するためのテキスト記述情報を構築するように構成されたものであり、前記解説テキスト情報取得ユニット５０３は、前記テキスト記述情報を事前トレーニング済みの、前記テキスト記述情報を解説テキスト情報に変換するためのテキスト変換モデルにインポートして、前記テキスト記述情報と対応する解説テキスト情報が得られるように構成されたものであり、前記オーディオ変換ユニット５０４は、前記解説テキスト情報をオーディオ情報に変換するように構成されたものである。

本実施例の幾つかの選択可能な実現形態において、前記コンテンツ情報取得ユニット５０１は、前記処理対象ビデオフレームが一つのビデオフレームである場合に応答し、前記処理対象ビデオフレームに対して画像識別を行い、コンテンツ情報が得られるように構成された第１のコンテンツ情報取得サブユニット（図示せず）を含んでも良い。前記コンテンツ情報は、ビデオタイプ情報、人物情報の少なくとも一つを含む。

本実施例の幾つかの選択可能な実現形態において、前記コンテンツ情報取得ユニット５０１は、ターゲット画像決定サブユニット（図示せず）と第２のコンテンツ情報取得サブユニット（図示せず）を含んでも良い。そのうち、前記ターゲット画像決定サブユニットは、前記処理対象ビデオフレームが複数のビデオフレームである場合に応答し、前記処理対象ビデオフレームに対して画像識別を行い、ターゲット画像を決定するように構成されたものであり、前記第２のコンテンツ情報取得サブユニットは、前記処理対象ビデオフレームにおける前記ターゲット画像内の各ターゲット画像の運動情報を取得するように構成されたものである。

本実施例の幾つかの選択可能な実現形態において、前記第２のコンテンツ情報取得サブユニットは、位置情報取得モジュール（図示せず）、対応関係確立モジュール（図示せず）、コンテンツ情報取得モジュール（図示せず）を含んでも良い。そのうち、前記位置情報取得モジュールは、前記ターゲット画像のためにマーカーポイントを設定するとともに前記処理対象ビデオフレームの各処理対象ビデオフレームにおける前記マーカーポイントの位置情報を取得するように構成されたものであり、前記対応関係確立モジュールは、前記処理対象ビデオフレームの時間情報と前記位置情報との間の対応関係を確立するように構成されたものであり、前記コンテンツ情報取得モジュールは、前記時間情報と対応する時系列と前記対応関係に従ってアクション情報を含むコンテンツ情報を決定するように構成されたものである。

本実施例の幾つかの選択可能な実現形態において、前記テキスト記述情報構築ユニット５０２は、品詞照会サブユニット（図示せず）、文成分決定サブユニット（図示せず）、文型選択サブユニット（図示せず）、テキスト記述情報取得サブユニット（図示せず）を含んでも良い。そのうち、前記品詞照会サブユニットは、前記コンテンツ情報の品詞情報を照会するように構成されたものであり、前記品詞情報は、名詞、動詞の少なくとも一つを含む。また、前記文成分決定サブユニットは、前記品詞情報と対応する文成分を決定するように構成されたものであり、前記文成分は、主語、述語、目的語の少なくとも一つを含む。また、前記文型選択サブユニットは、前記文成分に基づいてワードスロットを含む文型を選択するように構成されたものである。また、前記テキスト記述情報取得サブユニットは、前記コンテンツ情報を前記文型のワードスロットに添加してテキスト記述情報が得られるように構成されたものである。

本実施例の幾つかの選択可能な実現形態において、前記解説テキスト情報取得ユニット５０３は、シーンタイプ情報照会サブユニット（図示せず）、シーン文型決定サブユニット（図示せず）、解説テキスト情報取得サブユニット（図示せず）を含んでも良い。そのうち、前記シーンタイプ情報照会サブユニットは、前記テキスト記述情報と対応するシーンタイプ情報を照会するように構成されたものであり、前記シーンタイプ情報は、前記処理対象ビデオフレームと対応するシーンを特徴付けるために用いられる。また、前記シーン文型決定サブユニットは、前記シーンタイプ情報に基づいてシーン文型を決定するように構成されたものであり、前記シーン文型が前記シーンを記述するためのものであり、前記シーンと対応する慣用記述詞を含む。また、前記解説テキスト情報取得サブユニットは、前記テキスト記述情報を前記シーン文型に添加して解説テキスト情報が得られるように構成されたものである。

本実施例の幾つかの選択可能な実現形態において、上記したビデオを解説するための装置５００は、前記処理対象ビデオフレームと前記オーディオ情報とのタイムマッチング関係を確立するように構成されたタイムマッチング関係確立ユニット（図示せず）を更に含む。

本出願の実施例によれば、本出願は電子機器と読み取り可能な記録媒体を更に提供する。

図６に示されたように、本出願の実施例に係るビデオを解説するための方法による電子機器のブロック図である。電子機器は、ラップトップコンピューター、デスクトップコンピューター、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピューター、その他の適切なコンピューターなど、様々な形態のデジタルコンピューターを示すことを目的としている。本明細書に示す部品、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書に記載及び／又は要求とされる本出願の実現を制限することを意図するものではない。

図６に示されたように、当該電子機器は、１つ又は複数のプロセッサ６０１、メモリ６０２、及び各部品を接続するための、高速インタフェースと低速インタフェースを含むインタフェースを含む。各部品は、異なるバスにより相互に接続しており、共通のメインボードに設置してもよく、必要に応じて他の方法により設置してもよい。プロセッサは、電子機器内に実行された命令を処理することができ、前記命令は、メモリに記憶された命令或いはメモリにある外部入力/出力装置（例えば、インタフェースに結合された表示機器）にＧＵＩのグラフィック情報を表示させるための命令を含む。他の実施形態では、必要に応じて、複数のプロセッサ及び/又は複数のバスを複数のメモリと複数のメモリとともに使用することができる。同様、複数の電子機器と接続して、各機器に幾つかの必要とする操作（例えば、サーバアレイ、ブレードサーバのグループ、或いはマルチプロセッサシステム）を提供することができる。図６はプロセッサ６０１を例として示されている。

メモリ６０２は、本出願が提供する非一時的コンピュータ読み取り可能な記録媒体である。そのうち、前記メモリに記憶された少なくとも一つのプロセッサによって実行され得る命令によって、前記の少なくとも一つのプロセッサに本出願が提供するビデオを解説するための方法を実行させる。本出願に係る非一時的コンピュータ読み取り可能な記録媒体にコンピュータ命令が記憶され、当該コンピュータ命令はコンピュータに本出願が提供するビデオを解説するための方法を実行させる。

メモリ６０２は、非一時的コンピュータ読み取り可能な記録媒体として、非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能なプログラム及びモジュールを記憶するために用いられ、例えば、本出願の実施例に係るビデオを解説するための方法と対応するプログラム命令/モジュール（例えば、図５に示すコンテンツ情報取得ユニット５０１、テキスト記述情報構築ユニット５０２、解説テキスト情報取得ユニット５０３、オーディオ変換ユニット５０４）であってもよい。プロセッサ６０１は、メモリ６０２に記憶された非一時的ソフトウェアプログラム、命令及びモジュールを実行することによって、サーバにおける様々な機能アプリケーション及びデータ処理を実行する。よって、前記した方法実施例に係るビデオを解説するための方法を実現する。

メモリ６０２は、記憶プログラム領域と記憶データ領域を含んでも良く、前記記憶プログラム領域は、オペレーティングシステム、少なくとも一つの機能が必要とするアプリケーションプログラムを記憶することができ、前記記憶データ領域は、ビデオを解説するための電子機器の使用によるデータ等を記憶することができる。また、メモリ６０２は、高速ランダムアクセスメモリを含んでも良く、非一時的メモリを含んでも良く、例えば少なくとも一つ磁気ディスク記憶装置、フラッシュ記憶装置、又は他の非一時的ソリッドステート記憶装置であってもよい。幾つかの実施例において、メモリ６０２はプロセッサ６０１に対して遠隔設定されたメモリを選択しても良く、これらの遠隔メモリは、ネットワークを介してビデオを解説するための電子機器に接続することができる。前記ネットワークの一例としてインターネット、企業イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク及びそれらの組み合わせを含むがこれらに限定されない。

ビデオを解説するための方法による電子機器は、入力装置６０３、出力装置６０４をさらに含んでも良い。プロセッサ６０１、メモリ６０２、入力装置６０３、出力装置６０４は、バスまたは他の方法で接続することができる。図６では、バス接続を例として示されている。

入力装置６０３は、入力された数値、文字情報を受信することができ、ビデオを解説するための電子機器のユーザ設定及び機能制御と関連するキー信号入力を生成することもでき、例えばタッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、インジケータースティック、１つまたは複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置であってもよい。出力装置６０４は、表示機器、補助照明装置（例えば、ＬＥＤ）、触覚フィードバック装置（例えば、振動モーター）等を含むことができる。当該表示機器は、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、プラズマディスプレイを含むがこれらに限定されていない。幾つかの実施形態において、表示機器はタッチスクリーンであってもよい。

ここで記載のシステムと技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、専用ＡＳＩＣ（専用集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにより実現することができる。これらの様々な実施形態は、一つ又は複数のコンピュータプログラムにおいて実行されることを含み、当該一つ又は複数のコンピュータプログラムは少なくとも一つのプログラム可能なプロセッサを含むプログラム可能なシステムで実行及び/又は解釈することができ、当該プログラム可能なプロセッサは、専用または通用のプログラム可能なプロセッサであってもよく、記憶システム、少なくとも一つの入力装置、少なくとも一つの出力装置からデータと命令を受信し、データと命令を当該記憶システム、当該少なくとも一つの入力装置、当該少なくとも一つの出力装置に転送してもよい。

これらのコンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも呼ばれる）には、プログラム可能なプロセッサの機械語命令が含まれ、高レベルのプロセス及び/又はオブジェクト指向のプログラミング言語、及び/又はアセンブラ/機械語によりこれらのコンピュータプログラムを実行する。本明細書で使用された、「機械読み取り可能な記録媒体」と「コンピュータ読み取り可能な記録媒体」という用語は、機械命令及び/又はデータをプログラム可能なプロセッサのいずれかのコンピュータプログラム製品、機器、及び/又は装置（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））に提供するためのものを指し、機器命令を機械読み取り可能な信号として受信するための機器読み取り可能媒体を含む。「機械読み取り可能な信号」という用語は、機械命令及び/又はデータをプログラム可能なプロセッサに提供するためのいずれかの信号である。

ユーザとのインタラクションを提供するために、コンピュータにここで記載のシステムと技術を実行することができる。当該コンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）或いはＬＣＤ（液晶ディスプレイ）モニター）と、ユーザが当該キーボードと当該ポインティングデバイスにより入力をコンピュータに提供するキーボードとポインティングデバイス（例えば、マウスまたはトラックボール）を備える。他の種類の装置は、ユーザとのインタラクションを提供するためのものであってもよく、例えば、ユーザに提供するフィードバックは、任意の形式の感覚フィードバック（例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック）であってよく、任意の形式（音響入力、音声入力、または触覚入力を含む）ユーザからの入力を受け取ることができる。

ここで記載のシステムと技術をバックエンド部品を含むコンピューターシステム（例えば、データサーバ）、或いは中間部品を含むコンピューターシステム（例えば、アプリケーションサーバ）、或いはフロントエンド部品を含むコンピューターシステム（例えば、グラフィカルユーザーインターフェース或いはネットワークブラウザを有するユーザコンピュータは、ユーザが当該グラフィカルユーザーインターフェース或いは当該ネットワークブラウザによりここで記載のシステムと技術の実施形態とインタラクションする）、或いはこのバックエンド部品、中間部品、或いはフロントエンド部品の任意の組み合わせのコンピューターシステムで実行してもよい。任意の形式或いは媒体によるデジタルデータ通信（例えば、通信ネットワーク）によりシステムの部品を相互に接続することができる。通信ネットワークの例として、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）とインターネットを含む。

コンピュータシステムには、クライアントとサーバを含んでも良い。クライアントとサーバは、通常に互いに遠く離れており、通常に通信ネットワークを介してインタラクションをする。クライアントとサーバの関係は、対応するコンピュータで実行された、お互いにクライアントとサーバーの関係を持つコンピュータープログラムによって生成される。本出願の実施例の技術案によれば、まず、処理対象ビデオフレームのコンテンツ情報を取得することによって、処理対象ビデオフレームの理解に有利である。その後、前記コンテンツ情報に基づいてテキスト記述情報を構築することによって、情報によるビデオの記述が実現される。そして、前記テキスト記述情報を事前トレーニング済みのテキスト変換モデルにインポートして、前記テキスト記述情報と対応する解説テキスト情報が得られることによって、ビデオ解説に対する適切性を向上する。最後に前記解説テキスト情報をオーディオ情報に変更する。本出願はビデオに対する音声解説を実現し、ビデオの解説効率を向上する。

なお、上記に示す様々な形式のフロー、並べ替え、追加又は削除のステップを利用することができることを理解されたい。例えば、本出願に記載の各ステップは、本出願に開示された技術的解決策の所望の結果が達成できる限り、並行して、順次に、または異なる順序で実行することができ、これは本明細書に限定されない。

上記した具体的な実施形態は、本出願の範囲を制限するものではない。当業者であれば、設計要件および他の要因に応じて様々な修正、組み合わせ、サブコンビネーションおよび置き換えを行うことができることを理解されたい。本出願の主旨と原則の範囲内で行われた変更、同等の置き換え、改良は、いずれも本出願の範囲内に含まれるものとする。

Claims

ビデオを解説するための方法であって、
処理対象ビデオフレームのコンテンツ情報を取得するステップと、
前記コンテンツ情報に基づいて、前記処理対象ビデオフレームのコンテンツを記述するためのテキスト記述情報を構築するステップと、
前記テキスト記述情報を事前トレーニング済みの、前記テキスト記述情報を解説テキスト情報に変換するためのテキスト変換モデルにインポートして、前記テキスト記述情報と対応する解説テキスト情報が得られるステップと、
前記解説テキスト情報をオーディオ情報に変換するステップと、
を含む、方法。
上述した処理対象ビデオフレームのコンテンツ情報を取得するステップは、
前記処理対象ビデオフレームが一つのビデオフレームである場合に応答し、前記処理対象ビデオフレームに対して画像識別を行い、ビデオタイプ情報、人物情報の少なくとも一つを含むコンテンツ情報が得られるステップを含む、
請求項１に記載の方法。
上述した処理対象ビデオフレームのコンテンツ情報を取得するステップは、
前記処理対象ビデオフレームが複数のビデオフレームである場合に応答し、前記処理対象ビデオフレームに対して画像識別を行い、ターゲット画像を決定するステップと、
前記処理対象ビデオフレームにおける前記ターゲット画像内の各ターゲット画像の運動情報を取得するステップと
を含む、請求項１に記載の方法。
上述した前記処理対象ビデオフレームにおける前記ターゲット画像内の各ターゲット画像の運動情報を取得するステップは、
前記ターゲット画像のためにマーカーポイントを設定するとともに前記処理対象ビデオフレームの各処理対象ビデオフレームにおける前記マーカーポイントの位置情報を取得するステップと、
前記処理対象ビデオフレームの時間情報と前記位置情報との間の対応関係を確立するステップと、
前記時間情報と対応する時系列と前記対応関係に従って、アクション情報を含むコンテンツ情報を決定するステップと、
を含む、請求項３に記載の方法。
上述した前記コンテンツ情報に基づいてテキスト記述情報を構築するステップは、
前記コンテンツ情報の、名詞、動詞の少なくとも一つを含む品詞情報を照会するステップと、
前記品詞情報と対応する、主語、述語、目的語の少なくとも一つを含む文成分を決定するステップと、
前記文成分に基づいて、ワードスロットを含む文型を選択するステップと、
前記コンテンツ情報を前記文型のワードスロットに添加してテキスト記述情報が得られるステップと、
を含む、請求項１に記載の方法。
上述した前記テキスト記述情報を事前トレーニング済みのテキスト変換モデルにインポートして、前記テキスト記述情報と対応する解説テキスト情報が得られるステップは、
前記テキスト記述情報と対応する、前記処理対象ビデオフレームと対応するシーンを特徴付けるためのシーンタイプ情報を照会するステップと、
前記シーンタイプ情報に基づいて、前記シーンと対応する慣用記述詞を含む、前記シーンを記述するためのシーン文型を決定するステップと、
前記テキスト記述情報を前記シーン文型に添加して解説テキスト情報が得られるステップと、
を含む、請求項１に記載の方法。
前記処理対象ビデオフレームと前記オーディオ情報とのタイムマッチング関係を確立するステップを更に含む
請求項１に記載の方法。
ビデオを解説するための装置であって、
処理対象ビデオフレームのコンテンツ情報を取得するように構成されたコンテンツ情報取得ユニットと、
前記コンテンツ情報に基づいて前記処理対象ビデオフレームのコンテンツを記述するためのテキスト記述情報を構築するように構成されたテキスト記述情報構築ユニットと、
前記テキスト記述情報を事前トレーニング済みの、前記テキスト記述情報を解説テキスト情報に変換するためのテキスト変換モデルにインポートして、前記テキスト記述情報と対応する解説テキスト情報が得られるように構成された解説テキスト情報取得ユニットと、
前記解説テキスト情報をオーディオ情報に変換するように構成されたオーディオ変換ユニットと、
を備える、装置。
前記コンテンツ情報取得ユニットは、
前記処理対象ビデオフレームが一つのビデオフレームである場合に応答し、前記処理対象ビデオフレームに対して画像識別を行い、ビデオタイプ情報、人物情報の少なくとも一つを含むコンテンツ情報が得られるように構成された第１のコンテンツ情報取得サブユニットを備える、
請求項８に記載の装置。
前記コンテンツ情報取得ユニットは、
前記処理対象ビデオフレームが複数のビデオフレームである場合に応答し、前記処理対象ビデオフレームに対して画像識別を行い、ターゲット画像を決定するように構成されたターゲット画像決定サブユニットと、
前記処理対象ビデオフレームにおける前記ターゲット画像内の各ターゲット画像の運動情報を取得するように構成された第２のコンテンツ情報取得サブユニットと、
を備える、請求項８に記載の装置。
前記第２のコンテンツ情報取得サブユニットは、
前記ターゲット画像のためにマーカーポイントを設定するとともに前記処理対象ビデオフレームの各処理対象ビデオフレームにおける前記マーカーポイントの位置情報を取得するように構成された位置情報取得モジュールと、
前記処理対象ビデオフレームの時間情報と前記位置情報との間の対応関係を確立するように構成された対応関係確立モジュールと、
前記時間情報と対応する時系列と前記対応関係に従って、アクション情報を含むコンテンツ情報を決定するように構成されたコンテンツ情報取得モジュールと、
を備える、請求項１０に記載の装置。
前記テキスト記述情報構築ユニットは、
前記コンテンツ情報の、名詞、動詞の少なくとも一つを含む品詞情報を照会するように構成された品詞照会サブユニットと、
前記品詞情報と対応する、主語、述語、目的語の少なくとも一つを含む文成分を決定するように構成された文成分決定サブユニットと、
前記文成分に基づいて、ワードスロットを含む文型を選択するように構成された文型選択サブユニットと、
前記コンテンツ情報を前記文型のワードスロットに添加してテキスト記述情報が得られるように構成されたテキスト記述情報取得サブユニットと、
を備える、請求項８に記載の装置。
前記解説テキスト情報取得ユニットは、
前記テキスト記述情報と対応する、前記処理対象ビデオフレームと対応するシーンを特徴付けるためのシーンタイプ情報を照会するように構成されたシーンタイプ情報照会サブユニットと、
前記シーンタイプ情報に基づいて、前記シーンと対応する慣用記述詞を含む、前記シーンを記述するためのシーン文型を決定するように構成されたシーン文型決定サブユニット、
前記テキスト記述情報を前記シーン文型に添加して解説テキスト情報が得られるように構成された解説テキスト情報取得サブユニットと、
を備える、請求項８に記載の装置。
前記処理対象ビデオフレームと前記オーディオ情報とのタイムマッチング関係を確立するように構成されたタイムマッチング関係確立ユニットを更に備える、
請求項８に記載の装置。
電子機器であって、
一つまたは複数のプロセッサと、
一つまたは複数のコンピュータプログラムが記憶されたメモリと、を備え、
前記１つまたは複数のコンピュータプログラムが前記１つまたは複数のプロセッサにより実行されると、前記１つまたは複数のプロセッサに、請求項１〜７のいずれか１項に記載の方法を実行させる、電子機器。
コンピュータプログラムが記録されたコンピュータ読み取り可能な記録媒体であって、
前記コンピュータプログラムがプロセッサにより実行されると、請求項１〜７のいずれか１項に記載の方法を実現させることを特徴とするコンピュータ読み取り可能な記録媒体。
コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサにより実行されると、請求項１〜７のいずれか１項に記載の方法を実現させることを特徴とするコンピュータプログラム。