JP7476138B2

JP7476138B2 - ビデオ処理方法、装置、電子機器及び記憶媒体

Info

Publication number: JP7476138B2
Application number: JP2021079649A
Authority: JP
Inventors: フーヤン，; シューワン，; シャオハンジャン，; キーワン，; ジーファンフェン，; シュングゥワンチャイ，
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-11
Filing date: 2021-05-10
Publication date: 2024-04-30
Anticipated expiration: 2041-05-10
Also published as: EP3923591A1; KR102553511B1; US20210250666A1; CN111708914A; KR20210081308A; JP2021166050A; US11490170B2

Description

本開示の実施例は、概して画像処理分野に関し、具体的には、ビデオ処理方法、装置、電子機器及びコンピュータ記憶媒体に関する。

ニュースビデオなどのビデオは通常、複数のサブニュースで構成され、ユーザは多くの場合、すべてのニュースではなく、１つ又は複数のニュースイベントに興味を持っている。従来のビデオ分割技術は、主に手動編集に依存し、ニュースアイテムに関連するテキストの説明を一致させた後にプッシュするため、効率が低い。また、シーン特徴、ミュート特徴、又は顔の前後の類似性特徴に依存して分割する従来の技術もあるが、これらの特徴は慎重に設計する必要があり、適応性や拡張性が悪い。

ビデオ処理方法、装置、電子機器及びコンピュータ記憶媒体を提供する。

本開示の第１の態様によれば、ビデオ処理方法を提供する。当該方法は、ターゲットビデオ内の第１のオブジェクトが含まれる複数のフレームに基づいて、第１のオブジェクトに関連する複数の第１の識別子を決定するステップと、第１のオブジェクトに関連する知識ベースに基づいて、複数の第１の識別子に関連付けられた複数の属性値を決定するステップと、複数のフレームからフレームのセットを決定するステップであって、フレームのセットの各フレームから決定された第１の識別子に関連付けられた属性値がいずれも所定の値であるステップと、前記複数のフレームにおけるフレームのセットの位置に基づいて、ターゲットビデオを複数のビデオセグメントに分割するステップと、を含む。

本開示の第２の態様によれば、ビデオ処理装置を提供する。当該装置は、ターゲットビデオ内の第１のオブジェクトが含まれる複数のフレームに基づいて、第１のオブジェクトに関連する複数の第１の識別子を決定するように構成される識別子決定モジュールと、第１のオブジェクトに関連する知識ベースに基づいて、複数の第１の識別子に関連付けられた複数の属性値を決定するように構成される属性値決定モジュールと、複数のフレームからフレームのセットを決定し、フレームのセットの各フレームから決定された第１の識別子に関連付けられた属性値がいずれも所定の値であるように構成されるフレーム決定モジュールと、複数のフレームにおけるフレームのセットの位置に基づいて、ターゲットビデオを複数のビデオセグメントに分割するように構成されるセグメント分割モジュールと、を備える。

本開示の第３の態様によれば、電子機器を提供する。当該電子機器は、少なくとも１つのプロセッサと、少なくとも１つのプロセッサと通信可能に接続されるメモリと、を備え、メモリには、少なくとも１つのプロセッサによって実行可能な命令が記憶され、命令は、少なくとも１つのプロセッサが第１の態様に記載の方法を実行できるように、少なくとも１つのプロセッサによって実行される。

本開示の第４の態様によれば、コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体を提供し、当該プログラムがプロセッサによって実行される場合、本開示の第１の態様に係る方法を実現する。
本開示の第５の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムは、コンピュータに上記実施例に第１の態様に記載の方法を実行させる。

本開示の技術によれば、強い適応性でビデオ分割を実現することができ、慎重に設計された特徴における適応性が低いという問題を効果的に解決する。

なお、本部分で説明される内容は、本開示の実施例の肝心又は重要な特徴を特定することを意図したものではなく、本開示の範囲を限定することを意図したものでもないことが理解されるべきである。本開示の他の特徴は、以下の明細書を通して容易に理解される。

図面と組み合わせて以下の詳細な説明を参照し、本開示の各実施例の上記及び他の特徴、利点、及び態様は、より明らかになる。図面において、同じ又は類似する符号は、同じ又は類似する要素を示す。
本開示の実施例に係る情報処理環境１００の概略図である。本開示の実施例に係るビデオ処理方法２００の概略図である。本開示の実施例に係るターゲットビデオを複数のビデオセグメントに分割するための方法３００の概略図である。本開示の実施例に係るターゲットビデオを分割するための方法４００の概略図である。本開示の実施例に係るビデオ処理プロセス５００の概略図である。本開示の実施例に係るビデオフレーム６００の概略図である。本開示の実施例に係るビデオフレーム７００の概略図である。本開示の実施例に係るビデオ処理装置８００の概略図である。本開示の実施例のビデオ処理方法を実現するための電子機器のブロック図である。

以下、図面と組み合わせて本開示の例示的な実施例を説明し、理解を容易にするためにその中には本開示の実施例の様々な詳細を含んでおり、それらは単なる例示的なものとみなされるべきである。従って、当業者であれば、本開示の範囲及び精神から逸脱することなく、本明細書に記載された実施例に様々な変更と修正を行うことができることを意識すべきである。同様に、明確及び簡潔にするために、以下の説明では、周知の特徴や構造の説明を省略する。

本明細書で使用される「含む」という用語及びその変形は、開放的に含むこと、すなわち「含むが、これに限定されない」を意味する。特に明記しない限り、「又は」という用語は「及び／又は」を意味する。「に基づいて」という用語は、「少なくとも部分的に基づいて」ことを意味する。「一例示的な実施例」及び「一実施例」という用語は、「少なくとも１つの例示的な実施例」を意味する。「別の実施例」という用語は、「少なくとも１つの追加の実施例」を意味する。「第１」、「第２」などの用語は、異なる又は同じオブジェクトを指すことができる。以下、他の明示的及び暗黙的な定義も含まれる場合がある。

上記のように、従来の手動編集でビデオ分割を行う場合、プロの経験豊富な編集者でも大量のビデオに直面して正確な分割を実現することができず、シーン特徴、ミュート特徴、顔の前後の類似性特徴に依存して分割する際に、これらの特徴は、慎重に設計する必要があり、例えば別のニュースメディアビデオに変更するときに直接使用できず、特別な展開が必要であり、転送性と拡張性が悪い。さらに、従来のビデオ分割とビデオ意味理解は一般に分離され、ビデオ分割した後、エンティティとイベントをもう一度抽出する必要があるため、ビデオの製作と検索の効率が低くなる。

上記問題及び他の潜在的な問題の１つ又は複数を少なくとも部分的に解決するために、本開示の例示的な実施例は、ビデオ処理解決案を提案する。当該解決案において、ターゲットビデオ内の第１のオブジェクトが含まれる複数のフレームに基づいて、第１のオブジェクトに関連する複数の第１の識別子を決定し、第１のオブジェクトに関連する知識ベースに基づいて、複数の第１の識別子に関連付けられた複数の属性値を決定し、複数のフレームからフレームのセットを決定し、フレームのセットの各フレームから決定された第１の識別子に関連付けられた属性値がいずれも所定の値であり、前記複数のフレームにおけるフレームのセットの位置に基づいて、ターゲットビデオを複数のビデオセグメントに分割する。

これにより、フレームに含まれるオブジェクトの識別子及び識別子に関連付けられた属性値を決定することにより、関連付けられた属性値が所定の値である識別子に対応するフレームのセットを決定することができる。複数のフレームにおけるこのフレームのセットの位置に基づいて、ターゲットビデオを複数のビデオセグメントに分割する。本解決案は、特徴を慎重に設計する必要がなく、適用性が強く、システムの移行に便利である。

以下、添付図面と組み合わせて、本解決案の具体例をと組み合わせてより詳細に説明する。

図１は本開示の実施例に係る情報処理環境１００の例示的な概略図である。情報処理環境１００は、ビデオ処理デバイス１１０と、ターゲットビデオ１２０と、知識ベース１３０と、複数のビデオセグメント１４０とを備え得る。

ビデオ処理デバイス１１０は、例えば、パーソナルコンピュータ、サーバコンピュータ、マルチプロセッサシステム、メインフレームコンピュータ、及び上記システム又はデバイスのいずれかを備える分散コンピューティング環境などを備えるが、これらに限定されない。いくつかの実施例では、ビデオ処理デバイス１１０は、画像処理ユニットＧＰＵ、フィールドプログラマブルゲートアレイＦＰＧＡ、及び特定用途向け集積回路ＡＳＩＣなどの専用処理ユニット、及び中央処理ユニットＣＰＵなどの汎用処理ユニットを備える１つ又は複数の処理ユニットを有することができる。

ターゲットビデオ１２０は、ニュースコンテンツを含むビデオを含むが、これらに限定されず、ニュースコンテンツは、例えば、ホストの紹介部分とニュースレポート部分とを有する。

知識ベース１３０は、例えば、オブジェクトに関連する識別子及び識別子に関連付けられた属性値を含む。オブジェクトは、例えば、人を含むが、これに限定されない。識別子は、人の名前などの名称を含むが、これに限定されない。属性値は、ホスト、政府関係者、スポーツ選手、スターなどの職業を含むが、これらに限定されない。例えば、知識ベース１３０は、「張三、ホスト」、「李四、ポーツ選手」、「王五、政府関係者」などのデータを含む。

ビデオ処理デバイス１１０は、関連情報を取得するように知識ベース１３０にアクセスすることができる。知識ベース１３０は、ビデオ処理デバイス１１０の内部又は外部に配置されることができる。例えば、ビデオ処理デバイス１１０は、識別子に基づいて知識ベース１３０から識別子に関連付けられた属性値を取得することができる。

ビデオ処理デバイス１１０はターゲットビデオ１２０内の第１のオブジェクトが含まれる複数のフレームに基づいて、第１のオブジェクトに関連する複数の第１の識別子を決定し、第１のオブジェクトに関連する知識ベース１３０に基づいて、複数の第１の識別子に関連付けられた複数の属性値を決定し、複数のフレームからフレームのセットを決定し、フレームのセットの各フレームから決定された第１の識別子に関連付けられた属性値がいずれも所定の値であり、前記複数のフレームにおけるフレームのセットの位置に基づいて、ターゲットビデオを複数のビデオセグメント１４０に分割する。

図２は本開示の実施例に係るビデオ処理方法２００の概略図である。例えば、方法２００は、図１に示すビデオ処理デバイス１１０によって実行できる。なお、方法２００は、図示されていない追加のブロックをさらに含んでもよく、及び／又は、図示されているブロックを省略してもよく、本開示の範囲は、これに限定されないことが理解されるべきである。

ブロック２０２において、ビデオ処理デバイス１１０は、ターゲットビデオ１２０内の第１のオブジェクトが含まれる複数のフレームに基づいて、第１のオブジェクトに関連する複数の第１の識別子を決定する。

ターゲットビデオ１２０に関しては、それはニュースコンテンツを含むビデオを含むが、これらに限定されず、ニュースコンテンツは、例えば、ホストの紹介部分とニュースレポート部分とを有する。第１のオブジェクトは、例えば、人を含むが、これに限定されない。第１の識別子は、例えば、名称を含むが、これに限定されない。例えば、図６に示すように、フレーム６００がホスト６１０を含む場合、例えば、李三というホスト６１０の名称を決定することができる。例えば、ニューラルネットワークモデルを使用して識別子を決定することができる。

いくつかの実施例では、複数の第１の識別子における各識別子の信頼度はいずれも閾値信頼度を超える。例えば、信頼度が閾値信頼度を超える識別子を決定するように、知識ベース１３０を使用して識別子を検証し、信頼度が閾値信頼度を超えない識別子について、知識ベース１３０に基づいて当該識別子を校正することができる。これにより、より信頼性の高い識別子が得られ、後続の処理の精度を向上させることができる。

代替的に又は付加的に、いくつかの実施例において、ビデオ処理デバイス１１０は、ターゲットビデオの所定の間隔のフレームに対して顔認識を行って、第１のオブジェクトが含まれる複数のフレームを取得することができる。所定の間隔は、例えば、５フレームごと、１０フレームごとのような所定のフレーム間隔を含む。また、所定の間隔は、例えば、１秒ごと、０．５秒ごとのような所定の時間間隔をさらに含み得る。ビデオ処理デバイス１１０は、次に複数のフレームに基づいて、第１のオブジェクトに関連する複数の第１の識別子を決定することができる。これにより、顔認識により、第１のオブジェクトが含まれた複数のフレームをより精確にスクリーニングし、識別子を容易に決定する。

ブロック２０４において、ビデオ処理デバイス１１０は、第１のオブジェクトに関連する知識ベース１３０に基づいて、複数の第１の識別子に関連付けられた複数の属性値を決定する。

知識ベース１３０に関しては、それは例えば、第１のオブジェクトに関連する識別子及び識別子に関連付けられた属性値を含む。属性値は、例えばホスト、政治人物、スターなどの具体的な職業を含むが、これらに限定されない。識別子、例えば李三を知識ベースから検索することにより、識別子に関連付けられた属性値、例えばホストを取得することができる。

ブロック２０６において、ビデオ処理デバイス１１０は、複数のフレームからフレームのセットを決定し、フレームのセットの各フレームから決定された第１の識別子に関連付けられた属性値がいずれも所定の値である。所定の値は、特定の属性を指示することができ、例えば、ホスト、記者などの特定の職業を指示する。

ブロック２０８において、ビデオ処理デバイス１１０は、複数のフレームにおけるフレームのセットの位置に基づいて、ターゲットビデオを複数のビデオセグメントに分割する。例えば、複数フレームにおけるフレームのセットの位置の連続性に基づいて、ターゲットビデオを複数のビデオセグメントに分割する。以下、図３と組み合わせて詳細に説明する。

図３は本開示の実施例に係るターゲットビデオを複数のビデオセグメントに分割するための方法３００の概略フローチャートである。例えば、方法３００は図１に示すビデオ処理デバイス１１０によって実行できる。なお、方法３００は、図示されていない追加のブロックをさらに含んでもよく、及び／又は、図示されているブロックを省略してもよく、本開示の範囲は、これに限定されないことが理解されるべきである。

ブロック３０２において、ビデオ処理デバイス１１０は、複数フレームにおけるフレームのセットの位置に基づいて、複数のフレームにおけるフレームのセットのシリアル番号を決定する。

例えば、複数のフレームは、ターゲットビデオにおける１、５、１０、１５、及び２０番目のフレームであり、フレームのセットが１、５、１５、及び２０番目のフレームである場合、複数のフレームにおけるフレームのセットのシリアル番号は１、２、４及び５であってもよい。

ブロック３０４において、ビデオ処理デバイス１１０は、シリアル番号における連続シリアル番号を決定する。例えば、ビデオにおける１、５、１０、１５、及び２０番目のフレームについて、１、５、１５及び２０番目のフレームのその中でのシリアル番号が１、２、４及び５である場合、ビデオ処理デバイス１１０は、シリアル番号の１、２、４及び５における１と２が連続シリアル番号であり、かつ４と５も連続シリアル番号であることを決定することができる。

ブロック３０６において、ビデオ処理デバイス１１０は、連続シリアル番号の開始シリアル番号に対応するフレームに基づいて、ターゲットビデオを分割する。前の開始シリアル番号に対応するフレームから次の開始シリアル番号に対応するフレームの前のフレームを１つのビデオセグメントに分割することができる。

例えば、連続シリアル番号１と２の場合、開始シリアル番号は１であり、開始シリアル番号に対応するフレームは１番目のフレームである。連続シリアル番号４と５の場合、開始シリアル番号は４であり、開始シリアル番号に対応するフレームは１５番目のフレームである。この場合、ビデオ処理デバイス１１０は、１番目のフレームと１５番目のフレームとに従ってターゲットビデオを分割することができ、例えば、１番目のフレームから１４番目のフレームを１つのビデオセグメントに分割し、１５番目のフレームから最後のフレームを別のビデオセグメントに分割する。なお、上記は単なる例であり、制限ではなく、複数のフレーム、フレームのセット、シリアル番号、連続シリアル番号、開始シリアル番号、及び開始シリアル番号に対応するフレームはいずれも他の適切な状況であり得ることを理解すべきである。

それにより、複数フレームにおけるフレームのシリアル番号の連続性により、ターゲットビデオを簡単且つ効果的に分割することができ、処理効率を向上させる。

図４は本開示の実施例に係るターゲットビデオを分割するための方法４００を示すフローチャートである。例えば、方法４００は、図１に示すビデオ処理デバイス１１０によって実行できる。方法４００は、図示されていない追加のブロックをさらに含んでもよく、及び／又は、図示されているブロックを省略してもよく、本開示の範囲は、これに限定されないことが理解されるべきである。

ブロック４０２において、ビデオ処理デバイス１１０は、連続シリアル番号の終了シリアル番号を決定する。ここで、図３の実施例で使用される例も組み合わせ、連続シリアル番号１と２の場合、終了シリアル番号は２である。連続シリアル番号４と５の場合、終了シリアル番号は５である。

ブロック４０４において、ビデオ処理デバイス１１０は、終了シリアル番号に対応するフレーム及び開始シリアル番号に対応するフレームに基づいて、ターゲットビデオの１つのビデオセグメントにおける第１のビデオサブセグメントと第２のビデオサブセグメントとを決定する。開始シリアル番号に対応するフレームから終了シリアル番号に対応するフレームを第１のビデオサブセグメントに分割することができ、終了シリアル番号に対応するフレームの後のフレームからビデオセグメントの終了フレームを第２のビデオサブセグメントに分割することができる。

例えば、開始シリアル番号１の場合、開始シリアル番号に対応するフレームが１番目のフレームである。開始シリアル番号４の場合、開始シリアル番号に対応するフレームが１５番目のフレームである。終了シリアル番号２の場合、終了シリアル番号に対応するフレームが５番目のフレームである。終了シリアル番号５の場合、終了シリアル番号に対応するフレームが２０番目のフレームである。例えば、ターゲットビデオの１つのビデオセグメントが１番目のフレームから１４番目のフレームである場合、当該ビデオセグメントにおける第１のビデオサブセグメントは１番目のフレームから５番目のフレームであり、第２のビデオサブセグメントは６番目のフレームから１４番目のフレームである。

それにより、複数のフレームにおけるフレームのセットのシリアル番号の連続性に基づいて、１つのビデオセグメントを２つのビデオサブセグメントに分割し、簡単で効率的である。

代替的に又は付加的に、いくつかの実施例において、ビデオ処理デバイス１１０は、さらに、複数のフレームから複数の第１のテキストを取得することができる。例えば、ビデオ処理デバイス１１０は、光学式文字認識（ＯＣＲ）技術を利用して、複数のフレームから複数の第１のテキストを取得することができる。図６に示すように、フレームにテキストが表示されることができ、例えば、テキスト６２０は、現在のフレームに関連するコンテンツを表示でき、テキスト６３０は、例えばフラッシュニュースのような現在のフレームと無関係なコンテンツを表示できる。いくつかの実施例において、複数の第１のテキストの各第１のテキストの信頼度がいずれも閾値信頼度を超える。例えば、知識ベースに基づいて、複数の第１のテキストを校正して、信頼度が閾値信頼度を超える第１のテキストを決定でき、信頼度が閾値信頼度を超えない第１のテキストについて、知識ベースに基づいて、それを校正することができる。これにより、第１のテキストの信頼度を向上させ、後続の処理の精度を容易に向上させることができる。

複数の第１のテキストを取得した後、ビデオ処理デバイス１１０は、複数の第１のテキストから複数の第１のエンティティを取得することができる。例えば、ビデオ処理デバイス１１０は、エンティティ抽出モデルを使用して、複数の第１のテキストから複数の第１のエンティティを取得することができる。第１のエンティティは、例えば人の名前、場所の名前、組織の名前などを含むが、これらに限定されない。図７に示すように、当該フレームから取得された第１のテキスト７３０が「王五が李四に会う」などのコンテンツを含む場合、取得された第１のエンティティは「王五」と「李四」という２つの名前を含み得る。いくつかの実施例において、複数の第１のエンティティにおける各第１のエンティティの信頼度は、いずれも閾値信頼度を超える。例えば、知識ベース及び／又は複数の第１の識別子に基づいて複数の第１のエンティティを校正することにより、信頼度が閾値信頼度を超える第１のエンティティを決定することができ、信頼度が閾値信頼度を超えない第１のエンティティについて、知識ベース及び／又は複数の第１のエンティティに基づいて、それを校正することができる。これにより、第１のエンティティの信頼性を向上させ、後続の処理の精度を容易に向上させることができる。

複数の第１のエンティティを取得した後、ビデオ処理デバイス１１０は、複数の第１のテキストと複数の第１のエンティティとに基づいて、複数のビデオセグメントに関連付けられた複数のイベントを決定することができる。例えば、第１のテキストとフレームとの対応関係に基づいて、第１のテキストをビデオセグメントに対応させることができる。続いて、イベント抽出モデルによって、ビデオセグメントに対応する第１のテキストと第１のエンティティとに基づいて、ビデオセグメントに関連付けられたイベントを抽出することができる。また、ニュースイベントグラフなどのイベントに関連付けられたデータベースを使用して、イベントを検証することもできる。

それにより、ビデオ分割の過程でビデオ意味理解を実現し、イベントとビデオセグメントとの関連付けを実現することで、ビデオ分割からビデオ意味理解までの自動パイプラインフレームワークを実現し、ニュース分野でのビデオの製作と配信を効率的にサポートする。

代替的に又は付加的に、いくつかの実施例において、ビデオ処理デバイス１１０は、まず複数のフレームから複数の初期テキストを取得することができる。続いて、ビデオ処理デバイス１１０は、複数の初期テキストから複数のフレームと無関係なコンテンツを除去することにより、複数の第１のテキストを取得することができる。これにより、テキストにおける無関係なコンテンツを除去し、処理効率と精度を向上させることができる。

代替的に又は付加的に、いくつかの実施例において、ビデオ処理デバイス１１０は、初期テキストのコンテンツのフォントサイズに基づいて、複数のフレームと無関係なコンテンツを決定することができる。例えば、フォントサイズが閾値フォントサイズよりも小さいコンテンツを複数のフレームと無関係なコンテンツとして決定することができる。例えば、ニュース画面のフレームにおける小さいフォントのコンテンツは、通常、ローリングニュースを示し、現在のフレームのコンテンツと無関係である。他の実施例において、ビデオ処理デバイス１１０は、対応するフレームにおける初期テキストのコンテンツの位置に基づいて、複数のフレームと無関係なコンテンツを決定することができる。例えば、対応するフレーム内の最下位置に位置するコンテンツを、複数のフレームと無関係なコンテンツとして決定することができる。図６に示すように、対応するフレームの最下位置に位置するコンテンツ６３０は、一般的に、スクロール情報を示し、現在のフレームのコンテンツと関係がない。いくつかの実施例において、ビデオ処理デバイス１１０は、初期テキストのコンテンツのフォントサイズと対応するフレームにおけるコンテンツの位置とに基づいて、複数のフレームと無関係なコンテンツを決定することができる。例えば、上記の２つの方式を組み合わせて複数のフレームと無関係なコンテンツを決定することができ、ここでは説明を省略する。

それにより、コンテンツのフォントサイズとフレーム内の位置とに基づいて、複数のフレームと無関係なコンテンツを正確に決定することができる。

代替的に又は付加的に、いくつかの実施例において、ビデオ処理デバイス１１０は、ターゲットビデオの複数のフレームに対応するオーディオに基づいて、複数の第２のテキストを決定することができる。例えば、音声認識技術を利用して、ターゲットビデオの複数のフレームに対応するオーディオを複数の第２のテキストに変換する。続いて、ビデオ処理デバイス１１０は、複数の第２のテキストから複数の第２のエンティティを取得することができる。例えば、エンティティ抽出モデルによって、複数の第２のテキストから第２のエンティティを取得することができる。続いて、ビデオ処理デバイス１１０は、複数の第１のテキスト、複数の第１のエンティティ、複数の第２のテキスト及び複数の第２のエンティティに基づいて、複数のビデオセグメントに関連付けられた複数のイベントを決定することができる。イベント決定の具体的な過程は以上に記載された内容を参照することができ、ここでは説明を省略する。

それにより、フレームから取得されたテキストを基に、フレームに対応するオーディオから変換されたテキストを使用して、イベントを決定できるため、多次元データに基づいてイベントを決定することができ、精度を向上させる。

以下、図５と組み合わせて本開示の実施例に係るビデオ処理プロセス５００を説明し、当該プロセスは、ビデオ分割及びイベント決定などを含む。図５に示すように、５０２において、ビデオ処理デバイス１１０は、ターゲットビデオを取得する。続いて、５０４において、ビデオ処理デバイス１１０は、ターゲットビデオから所定の間隔のフレームを取得する。続いて、５０６において、ビデオ処理デバイス１１０は、フレームに対してＯＣＲ処理を行って、テキストを取得する。５０６においてテキストを取得した後、５１０において知識ベース５２０に基づいてテキストを校正することができ、例えば、信頼度が閾値よりも高いテキストを取得する。５０８において、ビデオ処理デバイス１１０は、フレームに対して顔認識を行って、第１のオブジェクトに関連する識別子を取得する。５０８において第１のオブジェクトに関連する識別子を取得した後、５１２において知識ベースに基づいて、識別子に関連付けられた属性値、例えばホストを取得することができる。

続いて、５１４において、ビデオ分割を行って、ビデオセグメントを取得することができる。様々な方式でビデオを分割することができる。例えば、ホストが連続して出現するフレームを紹介部分として決定し、紹介部分の終わりからホストの次の出現までのフレームをレポート部分として決定することができる。５１６において、ビデオ処理デバイス１１０は、ビデオセグメントに従って、フレームから得られたテキストに対してエンティティ抽出を行う。５１８において、ビデオ処理デバイス１１０は、得られたテキストとエンティティとに基づいて、イベントグラフと組み合わせて、ビデオセグメントに関連付けられたイベントを決定する。例えば、図７を参照すると、ビデオセグメントに王五７１０が李四７２０に会う画面、及び王五７１０が李四７３０に会うことについてのテキストが含まれている場合、当該ビデオセグメントから、それに関連付けられたイベントは王五が李四に会うことを決定することができる。

それにより、ビデオ分割の過程でビデオ意味理解を実現し、イベントとビデオセグメントとの関連付けを実現することで、ビデオ分割からビデオ意味理解までの自動パイプラインフレームワークを実現し、例えばニュース分野でのビデオの製作と配信を効率的にサポートする。

図８は本開示の実施例に係るビデオ処理装置８００の概略ブロック図である。図８に示すように、装置８００は、ターゲットビデオ内の第１のオブジェクトが含まれる複数のフレームに基づいて、第１のオブジェクトに関連する複数の第１の識別子を決定するように構成される識別子決定モジュール８０１と、第１のオブジェクトに関連する知識ベースに基づいて、複数の第１の識別子に関連付けられた複数の属性値を決定するように構成される属性値決定モジュール８０２と、複数のフレームからフレームのセットを決定し、フレームのセットの各フレームから決定された第１の識別子に関連付けられた属性値がいずれも所定の値であるように構成されるフレーム決定モジュール８０３と、複数のフレームにおけるフレームのセットの位置に基づいて、ターゲットビデオを複数のビデオセグメントに分割するように構成されるセグメント分割モジュール８０４と、を備える。

代替的に又は付加的に、いくつかの実施例において、セグメント分割モジュール８０４は、複数フレームにおけるフレームのセットの位置に基づいて、複数フレームにおけるフレームのセットのシリアル番号を決定するように構成されるシリアル番号決定モジュールと、シリアル番号における連続シリアル番号を決定するように構成される連続シリアル番号決定モジュールと、連続シリアル番号の開始シリアル番号に対応するフレームに基づいて、ターゲットビデオを分割するように構成される分割モジュールと、を備える。

代替的に又は付加的に、いくつかの実施例において、分割モジュールは、連続シリアル番号の終了シリアル番号を決定するように構成される終了シリアル番号決定モジュールと、終了シリアル番号に対応するフレーム及び開始シリアル番号に対応するフレームに基づいて、ターゲットビデオの１つのビデオセグメントにおける第１のビデオサブセグメントと第２のビデオサブセグメントとを決定するように構成されるサブセグメント決定モジュールと、を備える。いくつかの実施例において、複数の第１の識別子における各識別子の信頼度がいずれも閾値信頼度を超える。

代替的に又は付加的に、いくつかの実施例において、識別子決定モジュール８０１は、ターゲットビデオの所定の間隔のフレームに対して顔認識を行って、複数のフレームを取得するように構成される顔認識モジュールと、複数のフレームに基づいて、複数の第１の識別子を決定するように構成される決定モジュールと、を備える。

代替的に又は付加的に、いくつかの実施例において、装置８００は、複数フレームから複数の第１のテキストを取得するように構成される第１のテキスト取得モジュールと、複数の第１のテキストから複数の第１のエンティティを取得するように構成される第１のエンティティ取得モジュールと、複数の第１のテキストと複数の第１のエンティティとに基づいて、複数のビデオセグメントに関連付けられた複数のイベントを決定するように構成されるイベント決定モジュールと、をさらに備える。いくつかの実施例において、複数の第１のテキストにおける各第１のテキストの信頼度がいずれも閾値信頼度を超える。

代替的に又は付加的に、いくつかの実施例において、第１のテキスト取得モジュールは、複数のフレームから複数の初期テキストを取得するように構成される初期テキスト取得モジュールと、複数の初期テキストから複数のフレームと無関係なコンテンツを除去して、複数の第１のテキストを取得するように構成される無関係なコンテンツ除去モジュールと、を備える。

代替的に又は付加的に、いくつかの実施例において、無関係なコンテンツ除去モジュールは、初期テキストのコンテンツのフォントサイズと対応するフレームにおけるコンテンツの位置とのうちの少なくとも１つに基づいて、複数のフレームと無関係なコンテンツを決定するように構成される無関係なコンテンツ決定モジュールを備える。いくつかの実施例において、複数の第１のエンティティにおける各第１のエンティティの信頼度がいずれも閾値信頼度を超える。

代替的に又は付加的に、いくつかの実施例において、イベント決定モジュールは、ターゲットビデオの複数のフレームに対応するオーディオに基づいて、複数の第２のテキストを決定するように構成される第２のテキスト決定モジュールと、複数の第２のテキストから複数の第２のエンティティを取得するように構成される第２のエンティティ取得モジュールと、複数の第１のテキスト、複数の第１のエンティティ、複数の第２のテキスト及び第２のエンティティに基づいて、複数のビデオセグメントに関連付けられた複数のイベントを決定するように構成される決定モジュールと、を備える。
本開示の実施例によれば、本開示は、コンピュータプログラムを提供し、コンピュータプログラムは、コンピュータに本開示によって提供されるビデオ処理方法を実行させる。

図９は本開示の実施例を実施するための例示的なデバイス９００の概略ブロック図である。例えば、図１に示すようなビデオ処理デバイス１１０は、デバイス９００によって実施できる。図に示すように、デバイス９００は、読み出し専用メモリ（ＲＯＭ）９０２に記憶されているコンピュータプログラム命令、又は記憶ユニット９０８からランダムアクセスメモリ（ＲＡＭ）９０３にロードされたコンピュータプログラム命令に基づいて、様々な適切なアクション及び処理を実行可能な中央処理ユニット（ＣＰＵ）９０１を備える。ＲＡＭ９０３には、デバイス９００の動作に必要な各種のプログラム及びデータがさらに記憶されてもよい。ＣＰＵ９０１と、ＲＯＭ９０２と、ＲＡＭ９０３とは、バス９０４により相互に接続されている。入力／出力（Ｉ／Ｏ）インタフェース９０５もバス９０４に接続されている。

キーボード、マウス、マイクなどの入力ユニット９０６と、様々な種類のディスプレイ、スピーカーなどの出力ユニット９０７と、磁気ディスク、光ディスクなどの記憶ユニット９０８と、ネットワークカード、モデム、無線通信トランシーバなどの通信ユニット９０９とを含むデバイス９００内の複数の部品は、Ｉ／Ｏインタフェース９０５に接続されている。通信ユニット９０９は、デバイス９００がインターネットのコンピュータネットワーク及び／又は様々な電気通信ネットワークなどを介して他のデバイスと情報／データを交換することを許可する。

上記の様々なプロセス及び処理、例えば方法２００～５００は、処理ユニット９０１によって実行できる。例えば、いくつかの実施例において、方法２００～５００は、記憶ユニット９０８などの機械読み取り可能な媒体に有形に含まれるコンピュータソフトウェアプログラムとして実現することができる。いくつかの実施例において、コンピュータプログラムの一部又は全部は、ＲＯＭ９０２及び／又は通信ユニット９０９を介してデバイス９００にロード及び／又はインストールされることができる。コンピュータプログラムがＲＡＭ９０３にロードされ、ＣＰＵ９０１によって実行される時、上記方法２００～５００の１つ又は複数の動作を実行することができる。

本開示は、方法、装置、システム、電子機器、コンピュータ読み取り可能な記憶媒体、及び／又はコンピュータプログラム製品に関する。コンピュータプログラム製品は、本開示の様々な態様を実行するためのコンピュータ読み取り可能なプログラム命令を含み得る。

コンピュータ読み取り可能な記憶媒体は、命令実行デバイスによって使用される命令を保持及び記憶可能な有形のデバイスであってもよい。コンピュータ読み取り可能な記憶媒体は、例えば、電気記憶デバイス、磁気記憶デバイス、光記憶デバイス、電磁記憶デバイス、半導体記憶デバイス、又は上記の任意の適切な組み合わせであってもよいが、これらに限定されない。コンピュータ読み取り可能な記憶媒体のより具体的な例（網羅的ではないリスト）は、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、ポータブルコンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリスティック、フロッピーディスク、機械的コーディング機器、命令が記憶されているパンチカード又は溝内の突起構造、及び上記の任意の適切な組み合わせを含む。ここで使用されるコンピュータ読み取り可能な記憶媒体は、無線電波又は他の自由に伝播する電磁波、導波路又は他の伝送媒体を介して伝播する電磁波（例えば、光ファイバケーブルを介する光パルス）又はワイヤを介して伝送する電気信号などの過渡信号自体として解釈されない。

本明細書に記載のコンピュータ読み取り可能なプログラム命令は、コンピュータ読み取り可能な記憶媒体から様々なコンピューティング／処理デバイスにダウンロードされるか、又はインターネット、ローカルエリアネットワーク、広域ネットワーク、及び／又はワイヤレスネットワークなどのネットワークを介して外部コンピュータ又は外部記憶デバイスにダウンロードされることができる。ネットワークは、銅線伝送ケーブル、光ファイバー伝送、無線伝送、ルーター、ファイアウォール、スイッチ、ゲートウェイコンピューター及び／又はエッジサーバーを含み得る。各コンピューティング／処理デバイスにおけるネットワークアダプタカード又はネットワークインタフェースは、ネットワークからコンピュータ読み取り可能なプログラム命令を受信し、当該コンピュータ読み取り可能なプログラム命令を転送して、各コンピューティング／処理デバイスのコンピュータ読み取り可能な記憶媒体に記憶する。

本開示の動作を実行するためのコンピュータプログラム命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、又は１つ又は複数のプログラミング言語の任意の組み合わせで書かれたソースコード又はオブジェクトコードであってもよく、前記プログラミング言語は、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト型プログラミング言語、及び、「Ｃ」プログラミング言語又は類似のプログラミング言語などの従来の手続き型プログラミング言語を含む。コンピュータ読み取り可能なプログラム命令は、完全にユーザのコンピュータで、部分的にユーザのコンピュータで、スタンドアロンのソフトウェアパッケージとして、部分的にユーザのコンピュータで、部分的にリモートのコンピュータで、又は完全にリモートのコンピュータ又はサーバで実行されることができる。リモートのコンピュータを用いる場合、リモートのコンピュータは、ローカルエリアネットワーク（ＬＡＮ）又はワイドエリアネットワーク（ＷＡＮ）を含む任意の種類のネットワークを介してユーザのコンピュータに接続されてもよく、又は、例えば、インターネットサービスプロバイダを用いてインターネットを介して外部のコンピュータに接続されてもよい。いくつかの実施例において、プログラマブル論理回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、又はプログラマブル論理アレイ（ＰＬＡ）などの電子回路を、コンピュータ読み取り可能なプログラム命令の状態情報を用いて個別化し、コンピュータ読み取り可能なプログラム命令を実行して、本開示の各態様を実現することができる。

本開示の各態様は、本開示の実施例に係る方法、装置（システム）、及びコンピュータプログラム製品のフローチャート及び／又はブロック図を参照して説明される。なお、フローチャート及び／又はブロック図の各ブロック、並びにフローチャート及び／又はブロック図における各ブロックの組み合わせは、いずれもコンピュータ読み取り可能なプログラム命令によって実現できることが理解すべきである。

これらのコンピュータ読み取り可能なプログラム命令は、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置の処理ユニットに提供されることで、機械を製造し、これらの命令がコンピュータ又は他のプログラマブルデータ処理装置の処理ユニットによって実行される時に、フローチャート及び／又はブロック図の１つ又は複数のブロックにおいて指定された機能／動作を実現する装置を生成する。これらのコンピュータ読み取り可能なプログラム命令をコンピュータ読み取り可能な記憶媒体に記憶されてもよく、これらの命令は、コンピュータ、プログラマブルデータ処理装置、及び／又は他のデバイスを特定の方法で動作させ、それにより命令が記憶されているコンピュータ読み取り可能な媒体は、フローチャート及び／又はブロック図の１つ又は複数のブロックで指定された機能／動作の各態様を実現する命令を含む製品を含む。

コンピュータ、他のプログラマブルデータ処理装置、又は他のデバイスにコンピュータ読み取り可能なプログラム命令をロードすることも可能であり、その結果、一連の操作ステップがコンピュータ、他のプログラマブルデータ処理装置、又は他のデバイスで実行されて、コンピュータで実現されるプロセスを発生させ、コンピュータ、他のプログラマブルデータ処理装置、又は他のデバイスで実行される命令が、フローチャート及び／又はブロック図の１つ又は複数のブロックで指定された機能／動作を実現する。

添付の図面のフローチャート及びブロック図は、本開示の複数の実施例に係るシステム、方法、及びコンピュータプログラム製品の実現可能なアーキテクチャ、機能、及び動作を示す。この点に関して、フローチャート又はブロック図の各ブロックは、モジュール、プログラムセグメント、又は命令の一部を表すことができ、前記モジュール、プログラムセグメント、又は命令の一部は、指定された論理機能を実現するための１つ又は複数の実行可能な命令を含む。いくつかの代替の実現形態では、ブロックでマークされた機能は図面でマークされた順序とは異なる順序で発生する可能性がある。例えば、関連する機能に応じて、２つの連続なブロックを実際に並行して実行したり、逆の順序で実行したりすることができる。ブロック図及び／又はフローチャートの各ブロック、及びブロック図及び／又はフローチャートのブロックの組み合わせは、指定された機能又はアクションを実行する専用のハードウェアベースのシステムによって実現され、又は、専用のハードウェアとコンピュータ命令の組み合わせによって実現されることにも留意されたい。

本開示の実施形態は上記に説明されており、上記説明は例示的であり、網羅的ではなく、開示された実施形態に限定されない。図示の実施形態の範囲及び精神から逸脱することなく、当業者であれば、多くの修正と変更は明らかである。本明細書で使用される用語の選択は、実施形態の原理、実際の応用、又は市場における技術の改良を最もよく説明すること、又は他の当業者が本明細書に開示される実施例を理解できるようにすることを意図している。

Claims

コンピュータによって実行されるビデオ処理方法であって、
ニューラルネットワークモデルを使用して、ターゲットビデオ内の第１のオブジェクトが含まれる複数のフレームに基づいて、前記第１のオブジェクトに関連する複数の第１の識別子を決定するステップと、
前記第１のオブジェクトに関連する知識ベースを前記複数の第１の識別子で検索して、前記複数の第１の識別子に関連付けられた複数の属性値を決定するステップであって、前記知識ベースには、前記第１のオブジェクトに関連する識別子と識別子に関連付けられた属性値とが含まれるステップと、
前記複数のフレームから、関連付けられた属性値が所定の値である前記第１の識別子に対応するフレームのセットを決定するステップと、
前記複数のフレームにおける前記フレームのセットの位置に基づいて、前記ターゲットビデオを複数のビデオセグメントに分割するステップと、
を含むビデオ処理方法。
前記ターゲットビデオを前記複数のビデオセグメントに分割するステップが、
前記位置に基づいて、前記複数のフレームにおける前記フレームのセットのシリアル番号を決定するステップと、
前記シリアル番号における連続シリアル番号を決定するステップと、
前記連続シリアル番号の開始シリアル番号に対応するフレームに基づいて、前記ターゲットビデオを分割するステップと、
を含む請求項１に記載の方法。
前記ターゲットビデオを分割するステップが、
前記連続シリアル番号の終了シリアル番号を決定するステップと、
前記終了シリアル番号に対応するフレームと前記開始シリアル番号に対応するフレームとに基づいて、前記ターゲットビデオの１つのビデオセグメントにおける第１のビデオサブセグメントと第２のビデオサブセグメントとを決定するステップと、
を含む請求項２に記載の方法。
前記複数の第１の識別子における各識別子の信頼度がいずれも閾値信頼度を超える請求項１に記載の方法。
前記複数の第１の識別子を決定するステップが、
前記ターゲットビデオの所定の間隔のフレームに対して顔認識を行って、前記複数のフレームを取得するステップと、
ニューラルネットワークモデルを使用して、前記複数のフレームに基づいて前記複数の第１の識別子を決定するステップと、
を含む請求項１に記載の方法。
前記複数のフレームから複数の第１のテキストを取得するステップと、
前記複数の第１のテキストから複数の第１のエンティティを取得するステップであって、前記第１のエンティティが、人の名前、場所の名前、及び組織の名前を含むステップと、
前記複数の第１のテキストと前記複数のフレームとの対応関係に基づいて、前記複数の第１のテキストを前記複数のビデオセグメントに対応させ、イベント抽出モデルによって、前記複数のビデオセグメントに対応する前記複数の第１のテキストと前記複数の第１のエンティティとに基づいて、前記複数のビデオセグメントに関連付けられた複数のイベントを抽出するステップと、
を含む請求項１に記載の方法。
前記複数の第１のテキストにおける各第１のテキストの信頼度がいずれも閾値信頼度を超える請求項６に記載の方法。
前記複数のフレームから前記複数の第１のテキストを取得するステップが、
前記複数のフレームに対してＣＲ処理を行って、複数の初期テキストを取得するステップと、
前記初期テキストのコンテンツのフォントサイズが閾値フォントサイズよりも小さいコンテンツ及び／又は前記複数のフレーム内の最下位置に位置するコンテンツを、前記複数のフレームと無関係なコンテンツとして決定し、前記複数の初期テキストから前記複数のフレームと無関係なコンテンツを除去して、前記複数の第１のテキストを取得するステップと、
を含む請求項６に記載の方法。
前記複数の第１のエンティティにおける各第１のエンティティの信頼度がいずれも閾値信頼度を超える請求項６に記載の方法。
前記複数のイベントを決定するステップが、
ターゲットビデオの前記複数のフレームに対応するオーディオに対して音声認識を行って、複数の第２のテキストを決定するステップと、
前記複数の第２のテキストから複数の第２のエンティティを取得するステップであって、前記第２のエンティティは、人の名前、場所の名前、及び組織の名前を含むステップと、
前記複数の第１のテキスト、前記複数の第１のエンティティ、前記複数の第２のテキスト及び前記複数の第２のエンティティに基づいて、前記複数のイベントを決定するステップと、
を含み、
前記複数の第１のテキスト、前記複数の第１のエンティティ、前記複数の第２のテキスト及び前記複数の第２のエンティティに基づいて、前記複数のイベントを決定するステップが、
前記複数の第１のテキストと前記複数のフレームとの対応関係に基づいて、前記複数の第１のテキストを前記複数のビデオセグメントに対応させ、前記複数の第２のテキストと前記複数のフレームとの対応関係に基づいて、前記複数の第２のテキストを前記複数のビデオセグメントに対応させ、イベント抽出モデルによって、前記複数のビデオセグメントに対応する前記複数の第１のテキスト、前記複数の第１のエンティティ、前記複数の第２のテキスト及び前記複数の第２のエンティティに基づいて、前記複数のビデオセグメントに関連付けられた複数のイベントを抽出するステップを含む請求項６に記載の方法。
ニューラルネットワークモデルを使用して、ターゲットビデオ内の第１のオブジェクトが含まれる複数のフレームに基づいて、前記第１のオブジェクトに関連する複数の第１の識別子を決定するように構成される識別子決定モジュールと、
前記第１のオブジェクトに関連する知識ベースを前記複数の第１の識別子で検索して、前記複数の第１の識別子に関連付けられた複数の属性値を決定するように構成される属性値決定モジュールであって、前記知識ベースには、前記第１のオブジェクトに関連する識別子と識別子に関連付けられた属性値とが含まれる属性値決定モジュールと、
前記複数のフレームから、関連付けられた属性値が所定の値である前記第１の識別子に対応するフレームのセットを決定するように構成されるフレーム決定モジュールと、
前記複数のフレームにおける前記フレームのセットの位置に基づいて、前記ターゲットビデオを複数のビデオセグメントに分割するように構成されるセグメント分割モジュールと、
を備えるビデオ処理装置。
前記セグメント分割モジュールが、
前記位置に基づいて、前記複数のフレームにおける前記フレームのセットのシリアル番号を決定するように構成されるシリアル番号決定モジュールと、
前記シリアル番号における連続シリアル番号を決定するように構成される連続シリアル番号決定モジュールと、
前記連続シリアル番号の開始シリアル番号に対応するフレームに基づいて、前記ターゲットビデオを分割するように構成される分割モジュールと、
を備える請求項１１に記載の装置。
前記分割モジュールが、
前記連続シリアル番号の終了シリアル番号を決定するように構成される終了シリアル番号決定モジュールと、
前記終了シリアル番号に対応するフレームと前記開始シリアル番号に対応するフレームとに基づいて、前記ターゲットビデオの１つのビデオセグメントにおける第１のビデオサブセグメントと第２のビデオサブセグメントとを決定するように構成されるサブセグメント決定モジュールと、
を備える請求項１２に記載の装置。
前記複数の第１の識別子における各識別子の信頼度がいずれも閾値信頼度を超える請求項１１に記載の装置。
前記識別子決定モジュールが、
前記ターゲットビデオの所定の間隔のフレームに対して顔認識を行って、前記複数のフレームを取得するように構成される顔認識モジュールと、
ニューラルネットワークモデルを使用して、前記複数のフレームに基づいて前記複数の第１の識別子を決定するように構成される決定モジュールと、
を備える請求項１１に記載の装置。
前記複数のフレームから複数の第１のテキストを取得するように構成される第１のテキスト取得モジュールと、
前記複数の第１のテキストから複数の第１のエンティティを取得するように構成される第１のエンティティ取得モジュールであって、前記第１のエンティティが、人の名前、場所の名前、及び組織の名前を含む第１のエンティティ取得モジュールと、
前記複数の第１のテキストと前記複数のフレームとの対応関係に基づいて、前記複数の第１のテキストを前記複数のビデオセグメントに対応させ、イベント抽出モデルによって、前記複数のビデオセグメントに対応する前記複数の第１のテキストと前記複数の第１のエンティティとに基づいて、前記複数のビデオセグメントに関連付けられた複数のイベントを抽出するように構成されるイベント決定モジュールと、
を備える請求項１１に記載の装置。
前記複数の第１のテキストにおける各第１のテキストの信頼度がいずれも閾値信頼度を超える請求項１６に記載の装置。
前記第１のテキスト取得モジュールが、
前記複数のフレームに対してＣＲ処理を行って、複数の初期テキストを取得するように構成される初期テキスト取得モジュールと、
前記初期テキストのコンテンツのフォントサイズが閾値フォントサイズよりも小さいコンテンツ及び／又は前記複数のフレーム内の最下位置に位置するコンテンツを、前記複数のフレームと無関係なコンテンツとして決定し、前記複数の初期テキストから前記複数のフレームと無関係なコンテンツを除去して、前記複数の第１のテキストを取得するように構成される無関係なコンテンツ除去モジュールと、
を備える請求項１６に記載の装置。
前記複数の第１のエンティティにおける各第１のエンティティの信頼度がいずれも閾値信頼度を超える請求項１６に記載の装置。
前記イベント決定モジュールが、
ターゲットビデオの前記の複数フレームに対応するオーディオに対して音声認識を行って、複数の第２のテキストを決定するように構成される第２のテキスト決定モジュールと、
前記複数の第２のテキストから複数の第２のエンティティを取得するように構成される第２のエンティティ取得モジュールであって、前記第２のエンティティは、人の名前、場所の名前、及び組織の名前を含む第２のエンティティ取得モジュールと、
前記複数の第１のテキスト、前記複数の第１のエンティティ、前記複数の第２のテキスト及び前記複数の第２のエンティティに基づいて、前記複数のイベントを決定するように構成される決定モジュールと、
を含み、
前記決定モジュールが、
前記複数の第１のテキストと前記複数のフレームとの対応関係に基づいて、前記複数の第１のテキストを前記複数のビデオセグメントに対応させ、前記複数の第２のテキストと前記複数のフレームとの対応関係に基づいて、前記複数の第２のテキストを前記複数のビデオセグメントに対応させ、イベント抽出モデルによって、前記複数のビデオセグメントに対応する前記複数の第１のテキスト、前記複数の第１のエンティティ、前記複数の第２のテキスト及び前記複数の第２のエンティティに基づいて、前記複数のビデオセグメントに関連付けられた複数のイベントを抽出する請求項１６に記載の装置。
少なくとも１つのプロセッサと、
該少なくとも１つのプロセッサと通信可能に接続されるメモリと、
を備え、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、前記命令が、前記少なくとも１つのプロセッサが請求項１から１０のいずれか一項に記載の方法を実行できるように、前記少なくとも１つのプロセッサによって実行される電子機器。
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令が、コンピュータに請求項１から１０のいずれか一項に記載の方法を実行させる非一時的なコンピュータ読み取り可能な記憶媒体。
コンピュータに請求項１から１０のいずれか一項に記載の方法を実行させるコンピュータプログラム。