JP7209044B2

JP7209044B2 - ビデオにおけるキーロゴの認識方法、装置、設備、記憶媒体、及びプログラム

Info

Publication number: JP7209044B2
Application number: JP2021100928A
Authority: JP
Inventors: リー，ルイフェン; ユアン，レイ; ダイ，シン; チン，チンリン; スン，ズオ; リウ，ジーキャン
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-28
Filing date: 2021-06-17
Publication date: 2023-01-19
Anticipated expiration: 2041-06-17
Also published as: JP2021166066A; US11748986B2; KR20210040323A; KR102596989B1; CN111753762B; CN111753762A; EP3819820A3; US20210209375A1; EP3819820B1; EP3819820A2

Description

本開示は、人工知能の分野に関し、画像認識技術に関し、特に深層学習ニューラルネットワークを用いる画像認識技術に関する。

一部のシーンでは、特定のメディアに関連するビデオやピクチャを速やかかつ効率的に認識し、整理する必要がある。このようなメディアがテレビやウェブページにビデオを発表する際にロゴを入れるのが一般的であり、これらのロゴの効率的な認識が必要である。従来、これらのロゴの認識ではフォールトトレランスが低く、特に解像度や輝度が不十分なシーンでは認識効果が優れない。

本開示は、ビデオにおけるキーロゴの認識方法、装置、設備及び記憶媒体を提供する。

本開示の一態様では、
ビデオから複数のキーフレームを抽出することと、
複数の当該キーフレーム間の差異により、キーロゴのマスクを生成することと、
当該ビデオのビデオフレームにおいて、当該マスクを用いてキーロゴ領域画像を決定することと、
当該キーロゴ領域画像を認識して、当該ビデオに含まれるキーロゴタイプを得ることとを含む、ビデオにおけるキーロゴの認識方法を提供する。

本開示の別の態様では、
ビデオから複数のキーフレームを抽出するための抽出モジュールと、
複数の当該キーフレーム間の差異により、キーロゴのマスクを生成するための生成モジュールと、
当該ビデオのビデオフレームにおいて、当該マスクを用いてキーロゴ領域画像を決定するための決定モジュールと、
当該キーロゴ領域画像を認識して、当該ビデオに含まれるキーロゴタイプを得るための認識ユニットとを備える、ビデオにおけるキーロゴの認識装置を提供する。

本開示の別の態様では、
少なくとも１つのプロセッサと、
当該少なくとも１つのプロセッサと通信接続されるメモリとを備え、
当該メモリには、当該少なくとも１つのプロセッサによって実行可能なコマンドが記憶されており、当該コマンドは、当該少なくとも１つのプロセッサによって実行されると、当該少なくとも１つのプロセッサにビデオにおけるキーロゴの認識方法を実行させる、電子設備を提供する。

本開示の別の態様では、コンピュータコマンドが記憶されている非一時的なコンピュータ可読記憶媒体であって、当該コンピュータコマンドはコンピュータにビデオにおけるキーロゴの認識方法を実行させる、非一時的なコンピュータ可読記憶媒体を提供する。

本開示の実施形態では、ビデオの一部のキーフレームからキーロゴのマスクを生成することにより、認識結果の正確性を高めることができ、フォールトトレランスが高く、キーロゴの認識におけるデータ処理量を減らし、認識速度を上げることができる。
なお、上述した内容が本開示の実施形態の重要な特徴を示すためではなく、本開示の範囲の限定にもならない。本開示の他の特徴は下記の説明から理解しやすくなる。

次に記載の各図面は本開示の理解を促すためのもので、本開示の限定にならない。

本開示の一実施形態によるビデオにおけるキーロゴの認識方法のフローチャートである。本開示の別の実施形態によるビデオにおけるキーロゴの認識方法のフローチャートである。本開示の別の実施形態によるビデオにおけるキーロゴの認識方法のフローチャートである。本開示の別の実施形態によるビデオにおけるキーロゴの認識方法のフローチャートである。本開示の別の実施形態によるビデオにおけるキーロゴの認識方法のフローチャートである。本開示の実施形態のビデオにおけるキーロゴの認識方法における領域分割の例示的な図である。本開示の実施形態のビデオにおけるキーロゴの認識方法の適用例のフローチャートである。本開示の実施形態のビデオにおけるキーロゴの認識方法におけるビデオシーン変換フレームの模式図である。本開示の実施形態のビデオにおけるキーロゴの認識方法におけるフレーム間の差異により生成したマスクの模式図である。本開示の実施形態のビデオにおけるキーロゴの認識方法におけるマスクの収縮、膨張及び連結後の模式図である。本開示の実施形態のビデオにおけるキーロゴの認識方法で認識されたキーロゴ領域の模式図である。本開示の一実施形態によるビデオにおけるキーロゴの認識装置のブロック図である。本開示の別の実施形態によるビデオにおけるキーロゴの認識装置のブロック図である。本開示の実施形態によるビデオにおけるキーロゴの認識方法を実現するための電子設備のブロック図である。

次に、図面を参照して本開示の例示的な実施形態を説明し、中には理解を促すために本開示の実施形態の様々な詳細が含まれるが、それが例示的な内容に過ぎない。したがって、当業者が理解したように、本開示の範囲や趣旨から逸脱せずここに記載の実施形態に対し様々な変更や修正を行うことができる。また、次の説明では簡素化の観点上、周知の機能及び構造の説明は省略する。

図１は、本開示の一実施形態によるビデオにおけるキーロゴの認識方法のフローチャートであり、当該方法はＳ１０１、Ｓ１０２、Ｓ１０３、Ｓ１０４を含んでもよい。
Ｓ１０１で、ビデオから複数のキーフレームを抽出する。
Ｓ１０２で、複数の当該キーフレーム間の差異により、キーロゴのマスクを生成する。
Ｓ１０３で、当該ビデオのビデオフレームにおいて、当該マスクを用いてキーロゴ領域画像を決定する。
Ｓ１０４で、当該キーロゴ領域画像を認識して、当該ビデオに含まれるキーロゴタイプを得る。

本開示の実施形態では、ビデオは複数のビデオフレームを含んでもよく、ビデオフレームはフレーム画像とも称される。ビデオとは生放送ビデオであってもよいし、録画ビデオであってもよい。ビデオにおけるキーロゴには様々なタイプがあり、例えば、テレビビデオにおけるテレビ局のロゴ、オンラインビデオにおけるウェブサイトのロゴである。キーロゴとはビデオの提供元を示すものもあるし、ビデオの所有者を示すものもあるし、ビデオの製作者を示すものもあるし、他のタイプのキーロゴもある。ビデオフレームでキーロゴがいつも同じ場所に出現する場合に、当該特性によってキーロゴを認識することができる。

本開示の実施形態では、ビデオから複数のキーフレームを抽出した後、抽出したキーフレームの差異からマスクを得、さらにマスクを用いてキーロゴ領域画像を決定し、キーロゴ認識モデルを用いてキーロゴ領域画像を認識するようにしてもよい。

ビデオによってキーロゴが異なる場合があり、例えば、メディアによってテレビ局のロゴが異なる。サンプル画像として特徴のある様々なキーロゴの画像を収集し、これをトレーニングしてキーロゴ認識モデルを得るようにしてもよい。キーロゴ認識モデルのアルゴリズムは深層学習、ニューラルネットワーク等を含むが、これに限定されない。キーロゴ認識モデルを用いてキーロゴ領域画像を認識して、当該画像に含まれるキーロゴタイプを得る。例えば、サンプル画像として多くのテレビ局（例えば、国営テレビ局、地方テレビ局等）のロゴ画像を収集し、トレーニングしてテレビ局ロゴ認識モデルを得るようにしてもよい。テレビ局ロゴ認識モデルを用いて、抽出したテレビ局ロゴ領域画像を認識して、当該ビデオのロゴタイプ（例えば、衛星放送××のロゴ等）を得る。

本実施形態では、ビデオの一部のキーフレームからキーロゴのマスクを生成することにより、認識結果の正確性を高めることができ、フォールトトレランスが高く、キーロゴの認識におけるデータ処理量を減らし、認識速度を上げることができる。

図２は本開示の別の実施形態によるビデオにおけるキーロゴの認識方法のフローチャートである。当該実施形態のビデオにおけるキーロゴの認識方法は前記実施形態の各ステップを含んでもよい。本実施形態では、Ｓ１０１で、ビデオから複数のキーフレームを抽出するステップは、当該ビデオにおいて隣接するフレーム間の差異に基づいて、前記ビデオからシーンが変換するキーフレームを抽出するステップを含む。シーンが変換する時には、異なるシーンのビデオフレーム間の画素の差異が一般に大きいため、シーン変換に基づいて抽出したキーフレームはシーン変換フレームとも称される。本実施形態では、シーンのキーフレームはビデオで変化が大きなフレームを含み、シーンのキーフレームでキーロゴの位置がほぼ変わらないという特徴を用いて、キーロゴのマスクのより正確な位置を得て、さらにキーロゴの正確な認識結果を得ることで、フォールトトレランスが高く、キーロゴ認識で処理するデータ量を減らし、認識速度を上げることができる。

可能な一実施形態では、当該ビデオにおける隣接するフレーム間の差異に基づいて、当該ビデオからシーンが変換するキーフレームを抽出するステップは、Ｓ１０１１、Ｓ１０１２、Ｓ１０１３、Ｓ１０１４を含む。

Ｓ１０１１で、当該ビデオから現在フレームを含む連続する３つのフレームを取得する。
Ｓ１０１２で、当該連続する３つのフレームにおける２つの隣接フレームの画素間の平均絶対差（ＭｅａｎＡｂｓｏｌｕｔｅＤｉｆｆｅｒｅｎｃｅ、略称「ＭＡＤ」又は「ＭＡＦＤ」）を計算して、それぞれ第１平均絶対差及び第２平均絶対差を得る。
Ｓ１０１３で、当該第１平均絶対差と第２平均絶対差の第１差値を計算する。
Ｓ１０１４で、当該第１平均絶対差、第２平均絶対差、当該第１差値のうちの最小値が第１閾値よりも大きい場合に、当該連続する３つのフレームにおける現在フレームをキーフレームとして抽出する。

例示的に、ビデオで連続する３つのフレームはＴ１、Ｔ２及びＴ３を含み、ここで、Ｔ３は現在フレームであり、Ｔ２は現在フレーム前のフレームであり、Ｔ１はＴ２前のフレームである。Ｔ３とＴ２の第１平均絶対差はｍａｆｄ１であり、Ｔ２とＴ１の第２平均絶対差はｍａｆｄ２であり、ｍａｆｄ１とｍａｆｄ２の差値の絶対値は第１差値ｄｉｆｆである。ｍａｆｄ１、ｍａｆｄ２、ｄｉｆｆのうちの最小値がｍａｆｄ２であり、且つ、ｍａｆｄ２が第１閾値よりも大きい場合に、キーフレームとしてＴ３を抽出する。同様にビデオフレームから、シーンが変換する時の他のキーフレーム（例えば、Ｔ１０、Ｔ１６、Ｔ３６等）を抽出してもよい。いくつかのキーフレームを抽出するかは、必要に応じて設定することができる。例えば、抽出するキーフレームの総数はＮであると設定する。例えば、当該ビデオの一部のビデオフレーム（例えば、Ｍのビデオフレーム）から、シーンが変換する時のキーフレームを全て抽出する。もう一例として、当該ビデオの全てのビデオフレームから、シーンが変換する時のキーフレームを全て抽出する。

本実施形態では、ビデオの連続する３つのフレームにおける２つの隣接フレームの画素の平均絶対差、及び設定閾値との比較により、ビデオから正確且つ便利に、シーンが変換する時のキーフレームを抽出することができる。

図３は本開示の別の実施形態によるビデオにおけるキーロゴの認識方法のフローチャートである。当該実施形態のビデオにおけるキーロゴの認識方法は前記実施形態の各ステップを含んでもよい。本実施形態では、当該方法は、当該キーフレームにブラックエッジ検出を行って、当該キーフレームのブラックエッジ領域を除去するステップＳ３０１をさらに含む。

本実施形態では、Ｓ１０１で、ビデオから複数のキーフレームを抽出した後、各キーフレームにブラックエッジ検出を行って、各キーフレームのブラックエッジ領域を除去してもよい。次にＳ１０２を実行して、ブラックエッジを除去した後の複数の当該キーフレーム間の差異により、キーロゴのマスクを生成する。ビデオフレームにブラックエッジ領域がある場合に、予めブラックエッジ領域を除去することで、生成したキーロゴのマスクに対するブラックエッジ領域の干渉を緩和して、より正確なマスクを得ることができる。

図４は本開示の別の実施形態によるビデオにおけるキーロゴの認識方法のフローチャートである。当該実施形態のビデオにおけるキーロゴの認識方法は前記実施形態の各ステップを含んでもよい。本実施形態では、異なるキーフレーム間の差異を用いて、キーフレームにおける動的領域を除去して、マスクを得るようにしてもよい。当該マスクは当該キーフレームにおける非動的領域を含んでもよく、Ｓ１０２で、複数の当該キーフレーム間の差異により、キーロゴのマスクを生成するステップは、Ｓ１０２１、Ｓ１０２２、Ｓ１０２３を含む。

Ｓ１０２１で、複数の当該キーフレームをそれぞれグレースケール画像に変換する。
Ｓ１０２２で、処理すべきキーフレームとその前のキーフレームとのグレースケール画像の差値を計算して、当該処理すべきキーフレームの各画素位置に対応する第２差値を得る。
Ｓ１０２３で、当該処理すべきキーフレームをトラバースし、当該処理すべきキーフレームのグレースケール画像における画素値が画素の最小値よりも大きい画素位置、及び／又は当該第２差値が変化の最大値よりも小さい画素位置を、マスクに属する画素位置と決定する。

本開示の実施形態では、キーフレームをグレースケール画像に変換する際には、画素の輝度だけを保持してもよく、画素の輝度が主に０～２５５の範囲にある。例えば、処理すべきキーフレームＴ１０のグレースケール画像がＧ２であり、処理すべきキーフレームの前のキーフレームＴ３のグレースケール画像がＧ１である。Ｇ２とＧ１の同じ位置の各画素のグレースケール画像の差値の絶対値（０～２５５）を計算して、第２差値ａｄと表示する。

画素の最小値ｐｉｘｅｌ＿ｍｉｎ及び変化の最大値ｄｉｆｆ＿ｍａｘの２つの閾値を設定する。ここで、画素の最小値を設定するのは透明なキーロゴに対応するためであり、透明なキーロゴ領域は最小値であり、画素の最小値を設定すると透明なキーロゴを認識することに役立つ。変化の最大値を設定するのは変化が大きなフレームを抽出することに役立つ。

処理すべきキーフレームＴ１０の各画素位置をトラバースし、処理すべきキーフレームＴ１０が画素の最小値ｐｉｘｅｌ＿ｍｉｎより対象画素位置でのグレースケール画像の輝度が大きく、且つ、当該画素位置の第２差値ａｄが変化の最大値ｄｉｆｆ＿ｍａｘよりも小さい場合に、当該画素位置がほぼ変わらないことを示し、当該画素位置をマスクに属する画素位置と決定し、例えば、当該画素位置の値を２５５にセットする。さらに、処理すべきキーフレームでマスクに対応しない他の画素位置は０にセットしてもよく、即ちマスク以外の領域を黒色に設定する。このように処理後のキーフレームは差値フレームと称される。本例では０及び２５５が非限定的な例に過ぎず、他の値で充填してもよく、マスク内とマスク外の領域を明確に区別できれば特に問題はない。

可能な一実施形態では、当該方法はＳ１０２で、複数の当該キーフレーム間の差異により、キーロゴのマスクを生成するステップは、Ｓ１０２４をさらに含む。

Ｓ１０２４で、当該処理すべきキーフレームにおけるマスクに属する画素位置とその前のキーフレームにおけるマスクに属する画素位置との共通部分を取得する。このようにして、キーロゴのより正確なマスクを得ることができる。

本実施形態では、抽出したキーフレームの数量がＮである場合に、抽出したキーフレームの順番で、キーロゴのマスクを生成する前記ステップを逐次に実行してもよい。実行が完了するたびに、次の処理すべきキーフレームの処理に使用するために、処理すべき対象キーフレーム及び処理後のその差値フレームをキャッシュしてもよい。

本実施形態では、キーフレーム及び処理後のその差値フレームを共にキャッシュしてもよく、キャッシュフレームと称される。各回の処理すべきキーフレームとその前のキャッシュフレームの両方から、複数のキーフレームの差値フレームの共通部分を用いてマスクを得る。例えば、キーフレームＴ１０の差値フレームで、マスクに属する画素位置は、Ｓ１、Ｓ２、Ｓ３、Ｓ４を含み、キーフレームＴ１０後のキーフレームＴ１６の差値フレームで、マスクに属する画素位置はＳ２、Ｓ３、Ｓ４、Ｓ５を含む。両者の共通部分を取って、マスクに属する画素位置はＳ２、Ｓ３、Ｓ４を含む。この場合に、キーフレームＴ１６の差値フレームで、マスクに属する画素位置がＳ２、Ｓ３、Ｓ４を含み、Ｓ５は保持しないように更新してもよい。このようにして、キーフレームＴ１６のキャッシュフレームでも、キーフレームＴ１６及び更新後の差値フレームを保持する。

また、キーフレームをトラバースするプロセスで、前のキャッシュフレームに含まれる差値フレームにおけるマスクに属する画素位置を後に比較するための基準としてもよい。例えば、差値フレームにおけるマスクに属する画素位置は、Ｓ１、Ｓ２、Ｓ３、Ｓ４を含むが、今回のキーフレームのマスク計算では、Ｓ１の計算結果が画素の最小値ｐｉｘｅｌ＿ｍｉｎ及び変化の最大値ｄｉｆｆ＿ｍａｘの２つの閾値に適合しないため、この場合に、Ｓ１を０に設定し、Ｓ２、Ｓ３、Ｓ４をマスクに属する画素位置として保持する。

前記画素位置は非限定的な例に過ぎず、実際の適用においては、ビデオフレームが複数の画素位置を含み、ビデオフレームをトラバースすると各画素位置がマスクに対応するかどうかを判断する。

可能な一実施形態では、当該方法は、Ｓ１０２でキーロゴのマスクを生成した後、当該マスクに収縮、膨張及び連結処理を行うステップＳ４０１をさらに含む。ビデオにおけるキーロゴの内容がそれぞれ異なり、アルファベット、数字や文字等を含むロゴもあるため、初歩的にマスクに属する画素位置を決定した後、マスクにおける一部の画素位置が０に設定されるためマスクが非連続的になる場合がある。マスクに収縮処理を行うことで、マスクから単色の画素領域や細いライン等を除去することができる。マスクに膨張処理を行うことで、マスクの輪郭が大きくなり、これを複数回繰り返せば、輪郭がさらに大きくなる。このようにして、マスクが変化前の完全な図形を含む。

また、マスクに連結処理（フラッド充填）を行ってもよい。例えば、マスクにおける非２５５の画素位置を２５５に変換する。このようにして、マスクはより完全なキーロゴ画像を含む。

可能な一実施形態では、Ｓ１０３で、当該ビデオのビデオフレームにおいて、当該マスクを用いてキーロゴ領域画像を決定するステップは、当該マスク及び当該ビデオのビデオフレームでアルファ（ａｌｐｈａ）計算を行って、少なくとも１つのキーロゴ領域画像を抽出し、当該ビデオフレームの他の部分を第１画素値で充填するステップを含む。ここで、アルファ（ａｌｐｈａ）計算とはアルファブレンディング（ａｌｐｈａｂｌｅｎｄｉｎｇ）とも称される。例えば、次の式１でアルファ（ａｌｐｈａ）計算を行う。
ｐ＝（ｐ０×ａｌｐｈａ＋ｐ１×（２５５－ａｌｐｈａ））／２５５式１
ここで、ｐはアルファブレンディング後の結果（０～２５５）であり、ｐ０はビデオフレームの原画像（０～２５５）であり、ｐ１は黒一色の画像（０）であり、アルファ（ａｌｐｈａ）はマスク（ｍａｓｋ）における値（０又は２５５）である。

また、ビデオフレームでキーロゴ領域画像以外の他の部分を第１画素値で充填し、例えば、０で充填すると黒色である。当然ながら、他の数値に対応する他の色で充填してもよい。

キーフレームの差異からマスクを決定した後、マスクに収縮及び膨張処理を複数回行い、連結処理を行ってもよく、その後、最終的なマスク及び当該ビデオにおける１つ以上のビデオフレームでアルファ（ａｌｐｈａ）計算を行って、各ビデオフレームにおけるキーロゴ領域画像を得るようにしてもよい。ビデオフレームが複数のキーロゴを含む場合に、マスクを用いてビデオフレームから複数のキーロゴ領域画像を抽出してもよい。したがって、１回の認識で１つのキーロゴだけを認識できるだけでなく、ビデオフレームの画面が複数のキーロゴを含む場合にも対応する。

図５は本開示の別の実施形態によるビデオにおけるキーロゴの認識方法のフローチャートである。当該実施形態のビデオにおけるキーロゴの認識方法は前記実施形態の各ステップを含んでもよい。本実施形態では、当該方法はＳ５０１、Ｓ５０２、Ｓ５０３をさらに含む。

Ｓ５０１で、充填後のビデオフレームを複数の領域に分割する。
Ｓ５０２で、分割後のビデオフレームの４つのコーナーの位置する領域画像を抽出する。
Ｓ５０３で、当該４つのコーナーの位置する領域画像及び抽出されたキーロゴ領域画像に基づいて、認識するキーロゴ領域画像を決定する。

本実施形態では、分割後に抽出した４つのコーナーの位置する領域画像とマスクによって抽出したキーロゴ領域画像を総合的に比較し、最終的にどちらのキーロゴ領域画像を認識するかを決定するようにしてもよい。例えば、図６に示すとおり、２つの横線及び２つの縦線でビデオフレームの画面を均一に９つの領域に分割し、４つのコーナーの位置する領域画像はＬ１、Ｌ２、Ｒ１、Ｒ２を含み、３つのキーロゴ領域画像を含み、Ｌ１、Ｌ２、Ｒ１の領域画像に位置し、Ｌ１、Ｌ２、Ｒ１領域画像に位置する３つキーロゴ領域画像だけを認識すればよい。前記９つの領域への分割が非限定的な例に過ぎず、他の数量の領域に分割してもよく、例えば、１２の領域、１６の領域等であり、ビデオフレームの画面のサイズ及びキーロゴの画像の大きさから具体的に選択してもよい。これにより、ビデオフレームの１つの画面が複数のキーロゴを含む場合にも対応し、キーロゴ領域画像の誤認識を減らし、認識アルゴリズムにおける計算量を低減し、認識の正確性及び速度を上げることができる。

一適用例では、ビデオから抽出するキーロゴがテレビ局のロゴであるのを例にして説明する。ビデオでテレビ局のロゴ（半透明なテレビ局ロゴを含む）の位置及び図形がほぼ変わらず、他の位置における内容が常に変化するため、複数のビデオフレームで変化が少ない領域からマスクを生成して、完全なテレビ局のロゴ領域を抽出する。図７に示すとおり、当該テレビ局ロゴ認識方法はＳ１～Ｓ７を含んでもよい。

Ｓ１で、シーン変換フレームを抽出する。
例えば、図８に示すとおり、マルチメディア処理ソフトウェアｆｆｍｐｅｇを用いて、ビデオからシーンが変換する時のキーフレームを抽出して、処理時間を短縮し計算量を減らすとともに認識効果を向上することができる。
現在フレームと前のビデオフレームの平均絶対差（ｍａｆｄ）を計算し、２つのｍａｆｄの差（ｄｉｆｆ）を計算し、例えば、連続する３つビデオフレームＴ１、Ｔ２、Ｔ３（現在フレーム）で２つの平均絶対差（ｍａｆｄ）を計算し、Ｔ３－Ｔ２はｍａｆｄ１であり、Ｔ２－Ｔ１はｍａｆｄ２であり、ｍａｆｄ１－ｍａｆｄ２の絶対値はｄｉｆｆである。２つのｍａｆｄ、ｄｉｆｆのうちの最小値を得る。当該最小値が設定された閾値よりも大きい場合に、現在フレームでシーン変換が生じたものとし、現在フレームを出力する。

Ｓ２で、シーンのキーフレームのまわりのブラックエッジを検出して、ブラックエッジ領域を除去する。

Ｓ３で、シーン変換フレームをグレースケール画像に変換し、例えば、輝度だけを保持する。グレースケール画像と前の複数のグレースケール画像を比較して、画素の差異に基づいてマスク（ｍａｓｋ）を生成する（図９を参照）。

アルゴリズム例：画素の最小値（ｐｉｘｅｌ＿ｍｉｎ）、変化の最大値（ｄｉｆｆ＿ｍａｘ）の２つの閾値を設定する。透明なテレビ局ロゴ領域が最小値であるため、透明なテレビ局ロゴに対応するために画素の最小値（ｐｉｘｅｌ＿ｍｉｎ）を設定する。
対象グレースケール画像と前のグレースケール画像の差の絶対値（０～２５５）を得て、ａｄと称する。

画像の各画素位置をトラバースし、対象位置の画素値が画素の最小値（ｐｉｘｅｌ＿ｍｉｎ）より大きく、且つ対象位置の画素に対応するａｄが変化の最大値（ｄｉｆｆ＿ｍａｘ）より小さく、且つ上位のＮのフレームのグレースケール画像及びａｄの対応する位置がいずれも前記２つの条件を満たす場合に、当該位置のマスク（ｍａｓｋ）を２５５にセットする。上記条件を満たさない画素位置のマスク（ｍａｓｋ）を０にセットする。

一例では、マスク（ｍａｓｋ）の各画素位置の値は当該キーフレームと前にキャッシュしていたフレームの両方から計算してもよい。キャッシュフレームは原フレーム及び差値フレームを含んでもよく、前記ルールに従って各キャッシュフレームをフィルタリングすると、マスクに対応する画素位置を得る。各画素位置について、全てのキャッシュフレームが適合する対象位置のマスク（ｍａｓｋ）値は２５５であり、１つでも適合しない場合に、対象のマスク（ｍａｓｋ）値は０である。
複数のキーフレームの差値を得ることで、動的領域を除去してマスクを生成できるだけでなく、マスクに収縮及び膨張処理を行うと、変化前の図形が比較的完全な状態になる。

Ｓ４で、画素位置のマスク（ｍａｓｋ）に対し、黒色を充填するものとして０にセットし、原画像データを保持するものとして２５５をセットする。

Ｓ５で、マスク（ｍａｓｋ）に対する収縮（ｃｏｒｒｏｄｅ）及び膨張（ｅｘｐａｎｄ）を複数回繰り返す。
収縮によって、マスクから単色の画素領域や細いラインを除去することができる。膨張によってマスクの輪郭が大きくなり、これを複数回繰り返せば、輪郭がさらに大きくなる。

Ｓ６で、フラッド充填（ｆｌｏｏｄｆｉｌｌ）を行い、連結処理とも称される。
マスク（ｍａｓｋ）で値２５５が取り囲む領域内の非２５５画素位置を２５５に変換して、マスク内の連結を実現する。図１０に示すのは収縮、膨張及び連結処理後のマスクの例である。

Ｓ７で、最終的なマスク（ｍａｓｋ）及び現在フレームでアルファ（ａｌｐｈａ）計算を行って、テレビ局ロゴ領域画像を抽出し、他の部分を黒色で充填する。マスクを用いてビデオフレームから固定領域を抽出し、他の領域を黒色で充填する。例えば、テレビ局ロゴ領域画像以外を黒色で充填して、誤認識を減らす。
ここで、アルファ（ａｌｐｈａ）計算はアルファブレンディング（ａｌｐｈａｂｌｅｎｄｉｎｇ）とも呼ばれ、算式で示すと、ｐ＝（ｐ０×ａｌｐｈａ＋ｐ１×（２５５－ａｌｐｈａ））／２５５である。ここで、ｐはアルファブレンディング後の結果（０～２５５）であり、ｐ０はビデオフレームの原画像（０～２５５）であり、ｐ１は黒一色の画像（０）であり、アルファ（ａｌｐｈａ）はマスク（ｍａｓｋ）における値（０又は２５５）である。ここで、原画像はカラー画像であってもよいし、色空間はＹＵＶを含んでもよい。

Ｓ８で、抽出されたテレビ局ロゴ領域画像からテレビ局のロゴを認識する。例えば、予めトレーニングしたテレビ局ロゴ認識モデルを用いて、抽出したテレビ局ロゴ領域画像からテレビ局のロゴを認識して、ビデオに含まれるテレビ局ロゴタイプを得る（図１１を参照）。
また、ビデオフレームに領域分割を行って、４つのコーナーの領域画像とテレビ局ロゴ領域画像を比較して、最終的にどちらのテレビ局ロゴ領域画像を認識するかを総合的に決定してもよい。

前記方法を用いる場合に、ビデオには、同時に出現するテレビ局のロゴと非同時に出現するテレビ局のロゴと複数のテレビ局ロゴがある場合に、いずれも抽出したテレビ局ロゴ領域画像に含まれてもよく、最後にテレビ局のロゴの認識で複数のテレビ局ロゴタイプを得る。したがって、同じビデオから複数のテレビ局のロゴを認識することができる。
前記方法では、シーン変換フレームの抽出によって画素の変化が大きなフレームを見つけ、テレビ局のロゴの位置がほぼ変わらないため、変化が大きなフレームでテレビ局のロゴのより正確な位置を得ることができる。フォールトトレランスが高く、背景が複雑なビデオからテレビ局のロゴを認識することができる。
前記方法では、複数のフレーム画像の比較及び最小画素値でのフィルタリングによって、透明なテレビ局ロゴやビデオで長期的に移動しない物体にも対応し、誤認識を減らすことができる。

図１２は本開示の一実施形態によるビデオにおけるキーロゴの認識装置のブロック図である。当該装置は、
ビデオから複数のキーフレームを抽出するための抽出モジュール４１と、
複数の当該キーフレーム間の差異により、キーロゴのマスクを生成するための生成モジュール４２と、
当該ビデオのビデオフレームにおいて、当該マスクを用いてキーロゴ領域画像を決定するための決定モジュール４３と、
当該キーロゴ領域画像を認識して、当該ビデオに含まれるキーロゴタイプを得るための認識ユニット４４とを含んでもよい。

可能な一実施形態では、当該抽出モジュールは、具体的には、当該ビデオにおける隣接するフレーム間の差異に基づいて、当該ビデオからシーンが変換するキーフレームを抽出するために用いられる。

可能な一実施形態では、図１３に示すとおり、当該抽出モジュール４１は、
当該ビデオから現在フレームを含む連続する３つのフレームを取得するための取得サブモジュール４１１と、
当該連続する３つのフレームにおける２つの隣接フレームの画素の平均絶対差を計算して、それぞれ第１平均絶対差及び第２平均絶対差を得るための第１計算サブモジュール４１２と、
当該第１平均絶対差と第２平均絶対差の第１差値を計算するための第２計算サブモジュール４１３と、
当該第１平均絶対差、第２平均絶対差、当該第１差値のうちの最小値が第１閾値よりも大きい場合に、当該連続する３つのフレームにおける現在フレームをキーフレームとして抽出するための抽出サブモジュール４１４とを含む。

可能な一実施形態では、当該装置は、
当該キーフレームにブラックエッジ検出を行って、当該キーフレームのブラックエッジ領域を除去するためのブラックエッジ検出モジュール５１をさらに含む。

可能な一実施形態では、当該マスクは当該キーフレームにおける非動的領域を含み、当該生成モジュール４２は、
複数の当該キーフレームをそれぞれグレースケール画像に変換するためのグレースケールサブモジュール４２１と、
処理すべきキーフレームとその前のキーフレームとのグレースケール画像の差値を計算して、当該処理すべきキーフレームの各画素位置に対応する第２差値を得るための第３計算サブモジュール４２２と、
当該処理すべきキーフレームをトラバースし、当該処理すべきキーフレームのグレースケール画像で画素値が画素の最小値より大きく、及び／又は、当該第２差値が変化の最大値よりも小さい画素位置を、マスクに属する画素位置と決定するためのトラバースサブモジュール４２３とを含む。

可能な一実施形態では、当該生成モジュール４２は、
当該処理すべきキーフレームにおけるマスクに属する画素位置とその前のキーフレームにおけるマスクに属する画素位置との共通部分を取得するための共通部分サブモジュール４２４とをさらに含む。

可能な一実施形態では、当該装置は、
当該マスクに収縮、膨張及び連結処理を行うためのマスク処理モジュール５２をさらに含む。

可能な一実施形態では、当該決定モジュール４３は、具体的には、当該マスク及び当該ビデオのビデオフレームを用いてアルファ（ａｌｐｈａ）計算を行って、少なくとも１つのキーロゴ領域画像を抽出し、当該ビデオフレームの他の部分を第１画素値で充填するために用いられる。

可能な一実施形態では、当該装置は、
充填後のビデオフレームを複数の領域に分割し、分割後のビデオフレームの４つのコーナーの位置する領域画像を抽出し、４つのコーナーの位置する領域画像及び抽出したキーロゴ領域画像に基づいて、認識するキーロゴ領域画像を決定するための分割モジュール５３をさらに含む。

本開示の実施形態による装置の各モジュールの機能は、前記方法実施形態での対応の記載を参照できるため、ここで重複を避けるために説明を省略する。

さらに、本開示の実施形態では、電子設備及び可読記憶媒体を提供する。
図１４は、本開示の実施形態によるビデオにおけるキーロゴの認識方法を実現するための電子設備のブロック図である。電子設備としては、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバー、ブレードサーバー、大型コンピュータ、他の適切なコンピュータなど、様々な形態のデジタルコンピュータであってもよい。また、パーソナルデジタルアシスタント、セルラーホン、スマートフォン、ウェアラブルデバイス、他の類似の計算設備など、様々な形態の移動設備であってもよい。本明細書に記載のコンポーネント、その接続関係、及びその機能は例示的なものに過ぎず、本開示の実施に関して本明細書に記載及び／又は主張された内容に限定を加えるためではない。

図１４に示すとおり、当該電子設備は、１つ以上のプロセッサ９０１と、メモリ９０２と、各コンポーネントを接続するためのインタフェース（高速インタフェース及び低速インタフェース）とを含む。各コンポーネントは異なるバスによって互いに接続され、共通のマザーボードに取り付けられ、又は所望の方式で取り付けられてもよい。プロセッサは外部の入力／出力装置（例えば、インタフェースによって接続された表示設備）にグラフィカルユーザーインタフェース（ＧＵＩ）のグラフィック情報を表示するようにメモリに記憶されているコマンドなど、電子設備において実行されるコマンドを処理することができる。他の実施形態では、必要ならば、複数のプロセッサ及び／又は複数のバスと複数のメモリを複数のメモリと一緒に使用してもよい。同様に、複数の電子設備を接続させ、各設備が必要な操作の一部を提供するようにしてもよい（例えば、サーバーアレイ、１群のブレードサーバー、又はマルチプロセッサシステムとする）。図１４では、例示的にプロセッサ９０１が１つあるものである。

メモリ９０２は、本開示に係る非一時的なコンピュータ可読記憶媒体である。前記メモリには、少なくとも１つのプロセッサが本開示に係るビデオにおけるキーロゴの認識方法を実行するように、少なくとも１つのプロセッサによって実行可能なコマンドが記憶されている。本開示に係る非一時的なコンピュータ可読記憶媒体にはコンピュータコマンドが記憶されており、当該コンピュータコマンドはコンピュータに本開示に係るビデオにおけるキーロゴの認識方法を実行させる。

メモリ９０２は非一時的なコンピュータ可読記憶媒体として、非一時的ソフトウェアプログラム、非一時的なコンピュータ実行可能プログラム及びモジュール、例えば、本開示の実施形態に係るビデオにおけるキーロゴの認識方法に対応するプログラムコマンド／モジュール（例えば、図１２に示す抽出モジュール４１、生成モジュール４２、決定モジュール４３及び認識ユニット４４）を記憶するために用いることができる。プロセッサ９０１はメモリ９０２に記憶されている非一時的ソフトウェアプログラム、コマンド及びモジュールを動作させることにより、サーバーの様々な機能及びデータ処理を実行し、即ち前記方法実施形態に係るビデオにおけるキーロゴの認識方法を実現する。

メモリ９０２はプログラム記憶領域及びデータ記憶領域を含んでもよく、プログラム記憶領域はオペレーティングシステム、少なくとも１つの機能に必要なアプリケーションプログラムを記憶することができ、データ記憶領域はビデオにおけるキーロゴの認識方法を実現するための電子設備の使用時に作成されたデータ等を記憶することができる。また、メモリ９０２は高速ランダムアクセスメモリを含んでもよいし、非一時的メモリを含んでもよく、例えば、少なくとも１つの磁気ディスク記憶素子、フラッシュメモリ素子、又は他の非一時的固体記憶素子である。いくつかの実施形態では、任意選択でメモリ９０２はプロセッサ９０１に対して遠隔設置されたメモリを含み、当該遠隔メモリはネットワークを介してビデオにおけるキーロゴの認識方法を実行する電子設備に接続されてもよい。前記ネットワークの例はインターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、その組み合わせを含むが、これに限定されない。

ビデオにおけるキーロゴの認識方法を実行する電子設備は、入力装置９０３及び出力装置９０４をさらに含んでもよい。プロセッサ９０１、メモリ９０２、入力装置９０３及び出力装置９０４はバス又は他の方式で接続されてもよく、図１４の実施形態では、例示的にバスによって接続されたものである。

入力装置９０３は入力されたデジタル又は文字情報を受信し、ビデオにおけるキーロゴの認識方法を実行する電子設備のユーザー設定や機能制御に関連するキー信号入力を生成することができ、例えば、タッチスクリーン、テンキー、マウス、トラックパッド、タッチパッド、インジケータスティック、１つ以上のマウスボタン、トラックボール、ジョイスティック等入力装置である。出力装置９０４は表示設備、補助照明装置（例えば、ＬＥＤ）、触覚フィードバック装置（例えば、振動モーター）等を含んでもよい。当該表示設備は、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、プラズマディスプレイを含むが、これに限定されない。いくつかの実施形態では、表示設備はタッチスクリーンであってもよい。

ここに記載のシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向け集積回路（ＡＳＩＣ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はその組み合わせにおいて実施できる。前記実施形態は次のものを含んでもよい。１つ以上のコンピュータプログラムにおいて実施され、当該１つ以上のコンピュータプログラムは少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステムにおいて実行及び／又は解釈されてもよく、当該プログラマブルプロセッサは専用又は汎用のプログラマブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置及び少なくとも１つの出力装置からデータ及びコマンドを受信し、且つデータ及びコマンドを当該記憶システム、当該少なくとも１つの入力装置及び当該少なくとも１つの出力装置に伝送することができる。

前記コンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、コードともいう）にはプログラマブルプロセッサ用機械コマンドを含み、且つ高度なプロセス及び／又はオブジェクト指向のプログラミング言語、及び／又はアセンブリ／機械言語を用いて前記コンピュータプログラムを実施することができる。本明細書で、用語「機械可読媒体」及び「コンピュータ可読媒体」とは機械コマンド及び／又はデータをプログラマブルプロセッサに提供するあらゆるコンピュータプログラム製品、設備、及び／又は装置（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））であり、機械可読信号としての機械コマンドを受信する機械可読媒体を含む。用語「機械可読信号」とは、機械コマンド及び／又はデータをプログラマブルプロセッサに提供するためのあらゆる信号である。

ユーザーとのインタラクションを実現するように、コンピュータにおいてここに記載のシステム及び技術を実現することができ、当該コンピュータは、ユーザーに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ））と、キーボードと、ポインティングデバイス（例えば、マウス又はトラックボール）を備え、ユーザーは当該キーボード及び当該ポインティングデバイスによってコンピュータに入力することができる。他にもユーザーとのインタラクションを実現するための装置がある。例えば、ユーザーへのフィードバックは感覚的なフィードバック（例えば、視覚的なフィードバック、聴覚的なフィードバック、触覚的なフィードバック）など任意の形態であってもよく、また任意の方式（声入力、音声入力、触覚入力）でユーザーの入力を受信することができる。

ここに記載のシステム及び技術は、バックグラウンドコンポーネントを含むコンピューティングシステム（例えば、データサーバー）、又は中間コンポーネントを含むコンピューティングシステム（例えば、アプリケーションサーバー）、又はフロントエンドコンポーネントを含むコンピューティングシステム（例えば、グラフィカルユーザーインタフェース又はウェブブラウザーを備えるパソコンであって、ユーザーは当該グラフィカルユーザーインタフェース又は当該ウェブブラウザーによってここに記載のシステム及び技術の実施形態とインタラクションを行うことができる）、又は前記バックグラウンドコンポーネント、中間コンポーネント、もしくはフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムにおいて実施することができる。任意の方式又は媒体によるデジタルデータ通信（例えば、通信ネットワーク）によってシステムのコンポーネントを互いに接続させることができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、インターネットを含む。

コンピュータシステムはクライアント及びサーバーを含んでもよい。クライアントとサーバーは一般に遠隔設置され、且つ通信ネットワークによって互いに接続される。コンピュータで実行されるクライアント－サーバー型配置のコンピュータプログラムによってクライアントとサーバーの関係を構成する。サーバーはクラウドサーバーであってもよく（クラウドコンピューティングサーバー、クラウドホストともいう）、クラウドコンピューティングサービスシステムではホストのようなものであり、従来の物理ホスト及び仮想専用サーバー（ＶＰＳ）サービスでは管理が難しく、業務の拡張性が弱いという欠点を解消するために開発される。

本開示の実施形態では、ビデオの一部のキーフレームからキーロゴのマスクを生成することにより、認識結果の正確性を高めることができ、フォールトトレランスが高く、キーロゴの認識におけるデータ処理量を減らし、認識速度を上げることができる。

なお、上記の様々なプロセスを踏まえて、ステップを並べ替え、追加、又は削除することができる。例えば、本開示に記載の各ステップは同時に実行されてもよいし、順に実行されてもよいし、他の順番で実行されてもよく、本開示の技術的解決手段の効果を得られるものであれば、本明細書では特に限定しない。

上記のいくつかの実施形態は、本開示の保護範囲を限定するものと見なされない。当業者が理解したように、設計上の要件や他の要素に基づいて、様々な修正や、組み合わせ、置き換えを行うことができる。本開示の趣旨においてなされた修正、同等な置き換えや改善等は、いずれも本開示の保護範囲に含まれる。

Claims

ビデオから複数のキーフレームを抽出することと、
複数の前記キーフレーム間の差異により、キーロゴのマスクを生成することと、
前記ビデオのビデオフレームにおいて、前記マスクを用いてキーロゴ領域画像を決定することと、
前記キーロゴ領域画像を認識して、前記ビデオに含まれるキーロゴタイプを得ることとを含み、
ビデオから複数のキーフレームを抽出することは、
前記ビデオにおいて隣接するフレーム間の差異に基づいて、前記ビデオからシーンが変換するキーフレームを抽出することを含み、
前記ビデオにおいて隣接するフレーム間の差異に基づいて、前記ビデオからシーンが変換するキーフレームを抽出することは、
前記ビデオから現在フレームを含む連続する３つのフレームを取得することと、
前記連続する３つのフレームにおける２つの隣接フレームの画素間の平均絶対差を計算して、それぞれ第１平均絶対差及び第２平均絶対差を得ることと、
前記第１平均絶対差と第２平均絶対差の第１差値を計算することと、
前記第１平均絶対差、第２平均絶対差、前記第１差値のうちの最小値が第１閾値よりも大きい場合に、前記連続する３つのフレームにおける現在フレームをキーフレームとして抽出することとを含む、
ビデオにおけるキーロゴの認識方法。
前記ビデオにおけるキーロゴの認識方法は、
前記キーフレームにブラックエッジ検出を行って、前記キーフレームのブラックエッジ領域を除去することをさらに含む、
請求項１に記載のビデオにおけるキーロゴの認識方法。
前記マスクは、前記キーフレームにおける非動的領域を含み、
複数の前記キーフレーム間の差異により、キーロゴのマスクを生成することは、
複数の前記キーフレームをそれぞれグレースケール画像に変換することと、
処理すべきキーフレームとその前のキーフレームとのグレースケール画像の差値を計算して、前記処理すべきキーフレームの各画素位置に対応する第２差値を得ることと、
前記処理すべきキーフレームをトラバースし、前記処理すべきキーフレームのグレースケール画像における画素値が画素の最小値よりも大きい画素位置、及び／又は前記第２差値が変化の最大値よりも小さい画素位置を、マスクに属する画素位置と決定することとを含む、
請求項１に記載のビデオにおけるキーロゴの認識方法。
複数の前記キーフレーム間の差異により、キーロゴのマスクを生成することは、
前記処理すべきキーフレームにおけるマスクに属する画素位置とその前のキーフレームにおけるマスクに属する画素位置との共通部分を取得することをさらに含む、
請求項３に記載のビデオにおけるキーロゴの認識方法。
前記ビデオにおけるキーロゴの認識方法は、
前記マスクに対して、収縮、膨張及び連結処理を行うことをさらに含む、
請求項１に記載のビデオにおけるキーロゴの認識方法。
前記ビデオのビデオフレームにおいて、前記マスクを用いてキーロゴ領域画像を決定することは、
前記マスク及び前記ビデオのビデオフレームを用いてアルファ（ａｌｐｈａ）計算を行って、少なくとも１つのキーロゴ領域画像を抽出し、前記ビデオフレームの他の部分を第１画素値で充填することを含む、
請求項１に記載のビデオにおけるキーロゴの認識方法。
充填後のビデオフレームを複数の領域に分割することと、
分割前のビデオフレームの４つのコーナーが分割後のビデオフレームに位置する領域画像を抽出することと、
前記４つのコーナーの位置する領域画像及び抽出されたキーロゴ領域画像に基づいて、認識すべきキーロゴ領域画像を決定することとをさらに含む、
請求項６に記載のビデオにおけるキーロゴの認識方法。
ビデオから複数のキーフレームを抽出するための抽出モジュールと、
複数の前記キーフレーム間の差異により、キーロゴのマスクを生成するための生成モジュールと、
前記ビデオのビデオフレームにおいて、前記マスクを用いてキーロゴ領域画像を決定するための決定モジュールと、
前記キーロゴ領域画像を認識して、前記ビデオに含まれるキーロゴタイプを得るための認識ユニットとを備え、
前記抽出モジュールは、前記ビデオにおいて隣接するフレーム間の差異に基づいて、前記ビデオからシーンが変換するキーフレームを抽出することに用いられ、
前記抽出モジュールは、
前記ビデオから現在フレームを含む連続する３つのフレームを取得するための取得サブモジュールと、
前記連続する３つのフレームにおける２つの隣接フレームの画素間の平均絶対差を計算して、それぞれ第１平均絶対差及び第２平均絶対差を得るための第１計算サブモジュールと、
前記第１平均絶対差と第２平均絶対差の第１差値を計算するための第２計算サブモジュールと、
前記第１平均絶対差、第２平均絶対差、前記第１差値のうちの最小値が第１閾値よりも大きい場合に、前記連続する３つのフレームにおける現在フレームをキーフレームとして抽出するための抽出サブモジュールとを備える、
ビデオにおけるキーロゴの認識装置。
前記ビデオにおけるキーロゴの認識装置は、
前記キーフレームにブラックエッジ検出を行って、前記キーフレームのブラックエッジ領域を除去するためのブラックエッジ検出モジュールをさらに備える、
請求項８に記載のビデオにおけるキーロゴの認識装置。
前記マスクは、前記キーフレームにおける非動的領域を含み、
前記生成モジュールは、
複数の前記キーフレームをそれぞれグレースケール画像に変換するためのグレースケールサブモジュールと、
処理すべきキーフレームとその前のキーフレームとのグレースケール画像の差値を計算して、前記処理すべきキーフレームの各画素位置に対応する第２差値を得るための第３計算サブモジュールと、
前記処理すべきキーフレームをトラバースし、前記処理すべきキーフレームのグレースケール画像で画素値が画素の最小値よりも大きい画素位置、及び／又は前記第２差値が変化の最大値よりも小さい画素位置を、マスクに属する画素位置と決定するためのトラバースサブモジュールとを備える、
請求項８に記載のビデオにおけるキーロゴの認識装置。
前記生成モジュールは、
前記処理すべきキーフレームにおけるマスクに属する画素位置とその前のキーフレームにおけるマスクに属する画素位置の共通部分を取得するための共通部分サブモジュールをさらに備える、
請求項１０に記載のビデオにおけるキーロゴの認識装置。
前記ビデオにおけるキーロゴの認識装置は、
前記マスクに対して、収縮、膨張及び連結処理を行うためのマスク処理モジュールをさらに備える、
請求項８に記載のビデオにおけるキーロゴの認識装置。
前記決定モジュールは、前記マスク及び前記ビデオのビデオフレームを用いてアルファ（ａｌｐｈａ）計算を行って、少なくとも１つのキーロゴ領域画像を抽出し、前記ビデオフレームの他の部分を第１画素値で充填することに用いられる、
請求項８に記載のビデオにおけるキーロゴの認識装置。
前記ビデオにおけるキーロゴの認識装置は、
充填後のビデオフレームを複数の領域に分割し、分割前のビデオフレームの４つのコーナーが分割後のビデオフレームに位置する領域画像を抽出し、前記４つのコーナーの位置する領域画像及び抽出されたキーロゴ領域画像に基づいて、認識すべきキーロゴ領域画像を決定するための分割モジュールをさらに備える、
請求項１３に記載のビデオにおけるキーロゴの認識装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信接続されるメモリとを備え、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能なコマンドが記憶されており、前記コマンドは、前記少なくとも１つのプロセッサによって実行されると、前記少なくとも１つのプロセッサに請求項１～７のいずれか１項に記載のビデオにおけるキーロゴの認識方法を実行させる、
電子設備。
コンピュータに請求項１～７のいずれか１項に記載のビデオにおけるキーロゴの認識方法を実行させるコマンドが記憶されている非一時的なコンピュータ可読記憶媒体。
コンピュータにおいて、プロセッサにより実行される場合、請求項１～７のいずれか１項に記載のビデオにおけるキーロゴの認識方法を実現することを特徴とするプログラム。