JP7209044B2 - ビデオにおけるキーロゴの認識方法、装置、設備、記憶媒体、及びプログラム - Google Patents

ビデオにおけるキーロゴの認識方法、装置、設備、記憶媒体、及びプログラム Download PDF

Info

Publication number
JP7209044B2
JP7209044B2 JP2021100928A JP2021100928A JP7209044B2 JP 7209044 B2 JP7209044 B2 JP 7209044B2 JP 2021100928 A JP2021100928 A JP 2021100928A JP 2021100928 A JP2021100928 A JP 2021100928A JP 7209044 B2 JP7209044 B2 JP 7209044B2
Authority
JP
Japan
Prior art keywords
video
key
mask
logo
recognizing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021100928A
Other languages
English (en)
Other versions
JP2021166066A (ja
Inventor
リー,ルイフェン
ユアン,レイ
ダイ,シン
チン,チンリン
スン,ズオ
リウ,ジーキャン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021166066A publication Critical patent/JP2021166066A/ja
Application granted granted Critical
Publication of JP7209044B2 publication Critical patent/JP7209044B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • G06T5/30Erosion or dilatation, e.g. thinning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/28Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/635Overlay text, e.g. embedded captions in a TV program
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/09Recognition of logos

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)

Description

本開示は、人工知能の分野に関し、画像認識技術に関し、特に深層学習ニューラルネットワークを用いる画像認識技術に関する。
一部のシーンでは、特定のメディアに関連するビデオやピクチャを速やかかつ効率的に認識し、整理する必要がある。このようなメディアがテレビやウェブページにビデオを発表する際にロゴを入れるのが一般的であり、これらのロゴの効率的な認識が必要である。従来、これらのロゴの認識ではフォールトトレランスが低く、特に解像度や輝度が不十分なシーンでは認識効果が優れない。
本開示は、ビデオにおけるキーロゴの認識方法、装置、設備及び記憶媒体を提供する。
本開示の一態様では、
ビデオから複数のキーフレームを抽出することと、
複数の当該キーフレーム間の差異により、キーロゴのマスクを生成することと、
当該ビデオのビデオフレームにおいて、当該マスクを用いてキーロゴ領域画像を決定することと、
当該キーロゴ領域画像を認識して、当該ビデオに含まれるキーロゴタイプを得ることとを含む、ビデオにおけるキーロゴの認識方法を提供する。
本開示の別の態様では、
ビデオから複数のキーフレームを抽出するための抽出モジュールと、
複数の当該キーフレーム間の差異により、キーロゴのマスクを生成するための生成モジュールと、
当該ビデオのビデオフレームにおいて、当該マスクを用いてキーロゴ領域画像を決定するための決定モジュールと、
当該キーロゴ領域画像を認識して、当該ビデオに含まれるキーロゴタイプを得るための認識ユニットとを備える、ビデオにおけるキーロゴの認識装置を提供する。
本開示の別の態様では、
少なくとも1つのプロセッサと、
当該少なくとも1つのプロセッサと通信接続されるメモリとを備え、
当該メモリには、当該少なくとも1つのプロセッサによって実行可能なコマンドが記憶されており、当該コマンドは、当該少なくとも1つのプロセッサによって実行されると、当該少なくとも1つのプロセッサにビデオにおけるキーロゴの認識方法を実行させる、電子設備を提供する。
本開示の別の態様では、コンピュータコマンドが記憶されている非一時的なコンピュータ可読記憶媒体であって、当該コンピュータコマンドはコンピュータにビデオにおけるキーロゴの認識方法を実行させる、非一時的なコンピュータ可読記憶媒体を提供する。
本開示の実施形態では、ビデオの一部のキーフレームからキーロゴのマスクを生成することにより、認識結果の正確性を高めることができ、フォールトトレランスが高く、キーロゴの認識におけるデータ処理量を減らし、認識速度を上げることができる。
なお、上述した内容が本開示の実施形態の重要な特徴を示すためではなく、本開示の範囲の限定にもならない。本開示の他の特徴は下記の説明から理解しやすくなる。
次に記載の各図面は本開示の理解を促すためのもので、本開示の限定にならない。
本開示の一実施形態によるビデオにおけるキーロゴの認識方法のフローチャートである。 本開示の別の実施形態によるビデオにおけるキーロゴの認識方法のフローチャートである。 本開示の別の実施形態によるビデオにおけるキーロゴの認識方法のフローチャートである。 本開示の別の実施形態によるビデオにおけるキーロゴの認識方法のフローチャートである。 本開示の別の実施形態によるビデオにおけるキーロゴの認識方法のフローチャートである。 本開示の実施形態のビデオにおけるキーロゴの認識方法における領域分割の例示的な図である。 本開示の実施形態のビデオにおけるキーロゴの認識方法の適用例のフローチャートである。 本開示の実施形態のビデオにおけるキーロゴの認識方法におけるビデオシーン変換フレームの模式図である。 本開示の実施形態のビデオにおけるキーロゴの認識方法におけるフレーム間の差異により生成したマスクの模式図である。 本開示の実施形態のビデオにおけるキーロゴの認識方法におけるマスクの収縮、膨張及び連結後の模式図である。 本開示の実施形態のビデオにおけるキーロゴの認識方法で認識されたキーロゴ領域の模式図である。 本開示の一実施形態によるビデオにおけるキーロゴの認識装置のブロック図である。 本開示の別の実施形態によるビデオにおけるキーロゴの認識装置のブロック図である。 本開示の実施形態によるビデオにおけるキーロゴの認識方法を実現するための電子設備のブロック図である。
次に、図面を参照して本開示の例示的な実施形態を説明し、中には理解を促すために本開示の実施形態の様々な詳細が含まれるが、それが例示的な内容に過ぎない。したがって、当業者が理解したように、本開示の範囲や趣旨から逸脱せずここに記載の実施形態に対し様々な変更や修正を行うことができる。また、次の説明では簡素化の観点上、周知の機能及び構造の説明は省略する。
図1は、本開示の一実施形態によるビデオにおけるキーロゴの認識方法のフローチャートであり、当該方法はS101、S102、S103、S104を含んでもよい。
S101で、ビデオから複数のキーフレームを抽出する。
S102で、複数の当該キーフレーム間の差異により、キーロゴのマスクを生成する。
S103で、当該ビデオのビデオフレームにおいて、当該マスクを用いてキーロゴ領域画像を決定する。
S104で、当該キーロゴ領域画像を認識して、当該ビデオに含まれるキーロゴタイプを得る。
本開示の実施形態では、ビデオは複数のビデオフレームを含んでもよく、ビデオフレームはフレーム画像とも称される。ビデオとは生放送ビデオであってもよいし、録画ビデオであってもよい。ビデオにおけるキーロゴには様々なタイプがあり、例えば、テレビビデオにおけるテレビ局のロゴ、オンラインビデオにおけるウェブサイトのロゴである。キーロゴとはビデオの提供元を示すものもあるし、ビデオの所有者を示すものもあるし、ビデオの製作者を示すものもあるし、他のタイプのキーロゴもある。ビデオフレームでキーロゴがいつも同じ場所に出現する場合に、当該特性によってキーロゴを認識することができる。
本開示の実施形態では、ビデオから複数のキーフレームを抽出した後、抽出したキーフレームの差異からマスクを得、さらにマスクを用いてキーロゴ領域画像を決定し、キーロゴ認識モデルを用いてキーロゴ領域画像を認識するようにしてもよい。
ビデオによってキーロゴが異なる場合があり、例えば、メディアによってテレビ局のロゴが異なる。サンプル画像として特徴のある様々なキーロゴの画像を収集し、これをトレーニングしてキーロゴ認識モデルを得るようにしてもよい。キーロゴ認識モデルのアルゴリズムは深層学習、ニューラルネットワーク等を含むが、これに限定されない。キーロゴ認識モデルを用いてキーロゴ領域画像を認識して、当該画像に含まれるキーロゴタイプを得る。例えば、サンプル画像として多くのテレビ局(例えば、国営テレビ局、地方テレビ局等)のロゴ画像を収集し、トレーニングしてテレビ局ロゴ認識モデルを得るようにしてもよい。テレビ局ロゴ認識モデルを用いて、抽出したテレビ局ロゴ領域画像を認識して、当該ビデオのロゴタイプ(例えば、衛星放送××のロゴ等)を得る。
本実施形態では、ビデオの一部のキーフレームからキーロゴのマスクを生成することにより、認識結果の正確性を高めることができ、フォールトトレランスが高く、キーロゴの認識におけるデータ処理量を減らし、認識速度を上げることができる。
図2は本開示の別の実施形態によるビデオにおけるキーロゴの認識方法のフローチャートである。当該実施形態のビデオにおけるキーロゴの認識方法は前記実施形態の各ステップを含んでもよい。本実施形態では、S101で、ビデオから複数のキーフレームを抽出するステップは、当該ビデオにおいて隣接するフレーム間の差異に基づいて、前記ビデオからシーンが変換するキーフレームを抽出するステップを含む。シーンが変換する時には、異なるシーンのビデオフレーム間の画素の差異が一般に大きいため、シーン変換に基づいて抽出したキーフレームはシーン変換フレームとも称される。本実施形態では、シーンのキーフレームはビデオで変化が大きなフレームを含み、シーンのキーフレームでキーロゴの位置がほぼ変わらないという特徴を用いて、キーロゴのマスクのより正確な位置を得て、さらにキーロゴの正確な認識結果を得ることで、フォールトトレランスが高く、キーロゴ認識で処理するデータ量を減らし、認識速度を上げることができる。
可能な一実施形態では、当該ビデオにおける隣接するフレーム間の差異に基づいて、当該ビデオからシーンが変換するキーフレームを抽出するステップは、S1011、S1012、S1013、S1014を含む。
S1011で、当該ビデオから現在フレームを含む連続する3つのフレームを取得する。
S1012で、当該連続する3つのフレームにおける2つの隣接フレームの画素間の平均絶対差(Mean Absolute Difference、略称「MAD」又は「MAFD」)を計算して、それぞれ第1平均絶対差及び第2平均絶対差を得る。
S1013で、当該第1平均絶対差と第2平均絶対差の第1差値を計算する。
S1014で、当該第1平均絶対差、第2平均絶対差、当該第1差値のうちの最小値が第1閾値よりも大きい場合に、当該連続する3つのフレームにおける現在フレームをキーフレームとして抽出する。
例示的に、ビデオで連続する3つのフレームはT1、T2及びT3を含み、ここで、T3は現在フレームであり、T2は現在フレーム前のフレームであり、T1はT2前のフレームである。T3とT2の第1平均絶対差はmafd1であり、T2とT1の第2平均絶対差はmafd2であり、mafd1とmafd2の差値の絶対値は第1差値diffである。mafd1、mafd2、diffのうちの最小値がmafd2であり、且つ、mafd2が第1閾値よりも大きい場合に、キーフレームとしてT3を抽出する。同様にビデオフレームから、シーンが変換する時の他のキーフレーム(例えば、T10、T16、T36等)を抽出してもよい。いくつかのキーフレームを抽出するかは、必要に応じて設定することができる。例えば、抽出するキーフレームの総数はNであると設定する。例えば、当該ビデオの一部のビデオフレーム(例えば、Mのビデオフレーム)から、シーンが変換する時のキーフレームを全て抽出する。もう一例として、当該ビデオの全てのビデオフレームから、シーンが変換する時のキーフレームを全て抽出する。
本実施形態では、ビデオの連続する3つのフレームにおける2つの隣接フレームの画素の平均絶対差、及び設定閾値との比較により、ビデオから正確且つ便利に、シーンが変換する時のキーフレームを抽出することができる。
図3は本開示の別の実施形態によるビデオにおけるキーロゴの認識方法のフローチャートである。当該実施形態のビデオにおけるキーロゴの認識方法は前記実施形態の各ステップを含んでもよい。本実施形態では、当該方法は、当該キーフレームにブラックエッジ検出を行って、当該キーフレームのブラックエッジ領域を除去するステップS301をさらに含む。
本実施形態では、S101で、ビデオから複数のキーフレームを抽出した後、各キーフレームにブラックエッジ検出を行って、各キーフレームのブラックエッジ領域を除去してもよい。次にS102を実行して、ブラックエッジを除去した後の複数の当該キーフレーム間の差異により、キーロゴのマスクを生成する。ビデオフレームにブラックエッジ領域がある場合に、予めブラックエッジ領域を除去することで、生成したキーロゴのマスクに対するブラックエッジ領域の干渉を緩和して、より正確なマスクを得ることができる。
図4は本開示の別の実施形態によるビデオにおけるキーロゴの認識方法のフローチャートである。当該実施形態のビデオにおけるキーロゴの認識方法は前記実施形態の各ステップを含んでもよい。本実施形態では、異なるキーフレーム間の差異を用いて、キーフレームにおける動的領域を除去して、マスクを得るようにしてもよい。当該マスクは当該キーフレームにおける非動的領域を含んでもよく、S102で、複数の当該キーフレーム間の差異により、キーロゴのマスクを生成するステップは、S1021、S1022、S1023を含む。
S1021で、複数の当該キーフレームをそれぞれグレースケール画像に変換する。
S1022で、処理すべきキーフレームとその前のキーフレームとのグレースケール画像の差値を計算して、当該処理すべきキーフレームの各画素位置に対応する第2差値を得る。
S1023で、当該処理すべきキーフレームをトラバースし、当該処理すべきキーフレームのグレースケール画像における画素値が画素の最小値よりも大きい画素位置、及び/又は当該第2差値が変化の最大値よりも小さい画素位置を、マスクに属する画素位置と決定する。
本開示の実施形態では、キーフレームをグレースケール画像に変換する際には、画素の輝度だけを保持してもよく、画素の輝度が主に0~255の範囲にある。例えば、処理すべきキーフレームT10のグレースケール画像がG2であり、処理すべきキーフレームの前のキーフレームT3のグレースケール画像がG1である。G2とG1の同じ位置の各画素のグレースケール画像の差値の絶対値(0~255)を計算して、第2差値adと表示する。
画素の最小値pixel_min及び変化の最大値diff_maxの2つの閾値を設定する。ここで、画素の最小値を設定するのは透明なキーロゴに対応するためであり、透明なキーロゴ領域は最小値であり、画素の最小値を設定すると透明なキーロゴを認識することに役立つ。変化の最大値を設定するのは変化が大きなフレームを抽出することに役立つ。
処理すべきキーフレームT10の各画素位置をトラバースし、処理すべきキーフレームT10が画素の最小値pixel_minより対象画素位置でのグレースケール画像の輝度が大きく、且つ、当該画素位置の第2差値adが変化の最大値diff_maxよりも小さい場合に、当該画素位置がほぼ変わらないことを示し、当該画素位置をマスクに属する画素位置と決定し、例えば、当該画素位置の値を255にセットする。さらに、処理すべきキーフレームでマスクに対応しない他の画素位置は0にセットしてもよく、即ちマスク以外の領域を黒色に設定する。このように処理後のキーフレームは差値フレームと称される。本例では0及び255が非限定的な例に過ぎず、他の値で充填してもよく、マスク内とマスク外の領域を明確に区別できれば特に問題はない。
可能な一実施形態では、当該方法はS102で、複数の当該キーフレーム間の差異により、キーロゴのマスクを生成するステップは、S1024をさらに含む。
S1024で、当該処理すべきキーフレームにおけるマスクに属する画素位置とその前のキーフレームにおけるマスクに属する画素位置との共通部分を取得する。このようにして、キーロゴのより正確なマスクを得ることができる。
本実施形態では、抽出したキーフレームの数量がNである場合に、抽出したキーフレームの順番で、キーロゴのマスクを生成する前記ステップを逐次に実行してもよい。実行が完了するたびに、次の処理すべきキーフレームの処理に使用するために、処理すべき対象キーフレーム及び処理後のその差値フレームをキャッシュしてもよい。
本実施形態では、キーフレーム及び処理後のその差値フレームを共にキャッシュしてもよく、キャッシュフレームと称される。各回の処理すべきキーフレームとその前のキャッシュフレームの両方から、複数のキーフレームの差値フレームの共通部分を用いてマスクを得る。例えば、キーフレームT10の差値フレームで、マスクに属する画素位置は、S1、S2、S3、S4を含み、キーフレームT10後のキーフレームT16の差値フレームで、マスクに属する画素位置はS2、S3、S4、S5を含む。両者の共通部分を取って、マスクに属する画素位置はS2、S3、S4を含む。この場合に、キーフレームT16の差値フレームで、マスクに属する画素位置がS2、S3、S4を含み、S5は保持しないように更新してもよい。このようにして、キーフレームT16のキャッシュフレームでも、キーフレームT16及び更新後の差値フレームを保持する。
また、キーフレームをトラバースするプロセスで、前のキャッシュフレームに含まれる差値フレームにおけるマスクに属する画素位置を後に比較するための基準としてもよい。例えば、差値フレームにおけるマスクに属する画素位置は、S1、S2、S3、S4を含むが、今回のキーフレームのマスク計算では、S1の計算結果が画素の最小値pixel_min及び変化の最大値diff_maxの2つの閾値に適合しないため、この場合に、S1を0に設定し、S2、S3、S4をマスクに属する画素位置として保持する。
前記画素位置は非限定的な例に過ぎず、実際の適用においては、ビデオフレームが複数の画素位置を含み、ビデオフレームをトラバースすると各画素位置がマスクに対応するかどうかを判断する。
可能な一実施形態では、当該方法は、S102でキーロゴのマスクを生成した後、当該マスクに収縮、膨張及び連結処理を行うステップS401をさらに含む。ビデオにおけるキーロゴの内容がそれぞれ異なり、アルファベット、数字や文字等を含むロゴもあるため、初歩的にマスクに属する画素位置を決定した後、マスクにおける一部の画素位置が0に設定されるためマスクが非連続的になる場合がある。マスクに収縮処理を行うことで、マスクから単色の画素領域や細いライン等を除去することができる。マスクに膨張処理を行うことで、マスクの輪郭が大きくなり、これを複数回繰り返せば、輪郭がさらに大きくなる。このようにして、マスクが変化前の完全な図形を含む。
また、マスクに連結処理(フラッド充填)を行ってもよい。例えば、マスクにおける非255の画素位置を255に変換する。このようにして、マスクはより完全なキーロゴ画像を含む。
可能な一実施形態では、S103で、当該ビデオのビデオフレームにおいて、当該マスクを用いてキーロゴ領域画像を決定するステップは、当該マスク及び当該ビデオのビデオフレームでアルファ(alpha)計算を行って、少なくとも1つのキーロゴ領域画像を抽出し、当該ビデオフレームの他の部分を第1画素値で充填するステップを含む。ここで、アルファ(alpha)計算とはアルファブレンディング(alpha blending)とも称される。例えば、次の式1でアルファ(alpha)計算を行う。
p=(p0×alpha+p1×(255-alpha))/255 式1
ここで、pはアルファブレンディング後の結果(0~255)であり、p0はビデオフレームの原画像(0~255)であり、p1は黒一色の画像(0)であり、アルファ(alpha)はマスク(mask)における値(0又は255)である。
また、ビデオフレームでキーロゴ領域画像以外の他の部分を第1画素値で充填し、例えば、0で充填すると黒色である。当然ながら、他の数値に対応する他の色で充填してもよい。
キーフレームの差異からマスクを決定した後、マスクに収縮及び膨張処理を複数回行い、連結処理を行ってもよく、その後、最終的なマスク及び当該ビデオにおける1つ以上のビデオフレームでアルファ(alpha)計算を行って、各ビデオフレームにおけるキーロゴ領域画像を得るようにしてもよい。ビデオフレームが複数のキーロゴを含む場合に、マスクを用いてビデオフレームから複数のキーロゴ領域画像を抽出してもよい。したがって、1回の認識で1つのキーロゴだけを認識できるだけでなく、ビデオフレームの画面が複数のキーロゴを含む場合にも対応する。
図5は本開示の別の実施形態によるビデオにおけるキーロゴの認識方法のフローチャートである。当該実施形態のビデオにおけるキーロゴの認識方法は前記実施形態の各ステップを含んでもよい。本実施形態では、当該方法はS501、S502、S503をさらに含む。
S501で、充填後のビデオフレームを複数の領域に分割する。
S502で、分割後のビデオフレームの4つのコーナーの位置する領域画像を抽出する。
S503で、当該4つのコーナーの位置する領域画像及び抽出されたキーロゴ領域画像に基づいて、認識するキーロゴ領域画像を決定する。
本実施形態では、分割後に抽出した4つのコーナーの位置する領域画像とマスクによって抽出したキーロゴ領域画像を総合的に比較し、最終的にどちらのキーロゴ領域画像を認識するかを決定するようにしてもよい。例えば、図6に示すとおり、2つの横線及び2つの縦線でビデオフレームの画面を均一に9つの領域に分割し、4つのコーナーの位置する領域画像はL1、L2、R1、R2を含み、3つのキーロゴ領域画像を含み、L1、L2、R1の領域画像に位置し、L1、L2、R1領域画像に位置する3つキーロゴ領域画像だけを認識すればよい。前記9つの領域への分割が非限定的な例に過ぎず、他の数量の領域に分割してもよく、例えば、12の領域、16の領域等であり、ビデオフレームの画面のサイズ及びキーロゴの画像の大きさから具体的に選択してもよい。これにより、ビデオフレームの1つの画面が複数のキーロゴを含む場合にも対応し、キーロゴ領域画像の誤認識を減らし、認識アルゴリズムにおける計算量を低減し、認識の正確性及び速度を上げることができる。
一適用例では、ビデオから抽出するキーロゴがテレビ局のロゴであるのを例にして説明する。ビデオでテレビ局のロゴ(半透明なテレビ局ロゴを含む)の位置及び図形がほぼ変わらず、他の位置における内容が常に変化するため、複数のビデオフレームで変化が少ない領域からマスクを生成して、完全なテレビ局のロゴ領域を抽出する。図7に示すとおり、当該テレビ局ロゴ認識方法はS1~S7を含んでもよい。
S1で、シーン変換フレームを抽出する。
例えば、図8に示すとおり、マルチメディア処理ソフトウェアffmpegを用いて、ビデオからシーンが変換する時のキーフレームを抽出して、処理時間を短縮し計算量を減らすとともに認識効果を向上することができる。
現在フレームと前のビデオフレームの平均絶対差(mafd)を計算し、2つのmafdの差(diff)を計算し、例えば、連続する3つビデオフレームT1、T2、T3(現在フレーム)で2つの平均絶対差(mafd)を計算し、T3-T2はmafd1であり、T2-T1はmafd2であり、mafd1-mafd2の絶対値はdiffである。2つのmafd、diffのうちの最小値を得る。当該最小値が設定された閾値よりも大きい場合に、現在フレームでシーン変換が生じたものとし、現在フレームを出力する。
S2で、シーンのキーフレームのまわりのブラックエッジを検出して、ブラックエッジ領域を除去する。
S3で、シーン変換フレームをグレースケール画像に変換し、例えば、輝度だけを保持する。グレースケール画像と前の複数のグレースケール画像を比較して、画素の差異に基づいてマスク(mask)を生成する(図9を参照)。
アルゴリズム例:画素の最小値(pixel_min)、変化の最大値(diff_max)の2つの閾値を設定する。透明なテレビ局ロゴ領域が最小値であるため、透明なテレビ局ロゴに対応するために画素の最小値(pixel_min)を設定する。
対象グレースケール画像と前のグレースケール画像の差の絶対値(0~255)を得て、adと称する。
画像の各画素位置をトラバースし、対象位置の画素値が画素の最小値(pixel_min)より大きく、且つ対象位置の画素に対応するadが変化の最大値(diff_max)より小さく、且つ上位のNのフレームのグレースケール画像及びadの対応する位置がいずれも前記2つの条件を満たす場合に、当該位置のマスク(mask)を255にセットする。上記条件を満たさない画素位置のマスク(mask)を0にセットする。
一例では、マスク(mask)の各画素位置の値は当該キーフレームと前にキャッシュしていたフレームの両方から計算してもよい。キャッシュフレームは原フレーム及び差値フレームを含んでもよく、前記ルールに従って各キャッシュフレームをフィルタリングすると、マスクに対応する画素位置を得る。各画素位置について、全てのキャッシュフレームが適合する対象位置のマスク(mask)値は255であり、1つでも適合しない場合に、対象のマスク(mask)値は0である。
複数のキーフレームの差値を得ることで、動的領域を除去してマスクを生成できるだけでなく、マスクに収縮及び膨張処理を行うと、変化前の図形が比較的完全な状態になる。
S4で、画素位置のマスク(mask)に対し、黒色を充填するものとして0にセットし、原画像データを保持するものとして255をセットする。
S5で、マスク(mask)に対する収縮(corrode)及び膨張(expand)を複数回繰り返す。
収縮によって、マスクから単色の画素領域や細いラインを除去することができる。膨張によってマスクの輪郭が大きくなり、これを複数回繰り返せば、輪郭がさらに大きくなる。
S6で、フラッド充填(floodfill)を行い、連結処理とも称される。
マスク(mask)で値255が取り囲む領域内の非255画素位置を255に変換して、マスク内の連結を実現する。図10に示すのは収縮、膨張及び連結処理後のマスクの例である。
S7で、最終的なマスク(mask)及び現在フレームでアルファ(alpha)計算を行って、テレビ局ロゴ領域画像を抽出し、他の部分を黒色で充填する。マスクを用いてビデオフレームから固定領域を抽出し、他の領域を黒色で充填する。例えば、テレビ局ロゴ領域画像以外を黒色で充填して、誤認識を減らす。
ここで、アルファ(alpha)計算はアルファブレンディング(alpha blending)とも呼ばれ、算式で示すと、p=(p0×alpha+p1×(255-alpha))/255である。ここで、pはアルファブレンディング後の結果(0~255)であり、p0はビデオフレームの原画像(0~255)であり、p1は黒一色の画像(0)であり、アルファ(alpha)はマスク(mask)における値(0又は255)である。ここで、原画像はカラー画像であってもよいし、色空間はYUVを含んでもよい。
S8で、抽出されたテレビ局ロゴ領域画像からテレビ局のロゴを認識する。例えば、予めトレーニングしたテレビ局ロゴ認識モデルを用いて、抽出したテレビ局ロゴ領域画像からテレビ局のロゴを認識して、ビデオに含まれるテレビ局ロゴタイプを得る(図11を参照)。
また、ビデオフレームに領域分割を行って、4つのコーナーの領域画像とテレビ局ロゴ領域画像を比較して、最終的にどちらのテレビ局ロゴ領域画像を認識するかを総合的に決定してもよい。
前記方法を用いる場合に、ビデオには、同時に出現するテレビ局のロゴと非同時に出現するテレビ局のロゴと複数のテレビ局ロゴがある場合に、いずれも抽出したテレビ局ロゴ領域画像に含まれてもよく、最後にテレビ局のロゴの認識で複数のテレビ局ロゴタイプを得る。したがって、同じビデオから複数のテレビ局のロゴを認識することができる。
前記方法では、シーン変換フレームの抽出によって画素の変化が大きなフレームを見つけ、テレビ局のロゴの位置がほぼ変わらないため、変化が大きなフレームでテレビ局のロゴのより正確な位置を得ることができる。フォールトトレランスが高く、背景が複雑なビデオからテレビ局のロゴを認識することができる。
前記方法では、複数のフレーム画像の比較及び最小画素値でのフィルタリングによって、透明なテレビ局ロゴやビデオで長期的に移動しない物体にも対応し、誤認識を減らすことができる。
図12は本開示の一実施形態によるビデオにおけるキーロゴの認識装置のブロック図である。当該装置は、
ビデオから複数のキーフレームを抽出するための抽出モジュール41と、
複数の当該キーフレーム間の差異により、キーロゴのマスクを生成するための生成モジュール42と、
当該ビデオのビデオフレームにおいて、当該マスクを用いてキーロゴ領域画像を決定するための決定モジュール43と、
当該キーロゴ領域画像を認識して、当該ビデオに含まれるキーロゴタイプを得るための認識ユニット44とを含んでもよい。
可能な一実施形態では、当該抽出モジュールは、具体的には、当該ビデオにおける隣接するフレーム間の差異に基づいて、当該ビデオからシーンが変換するキーフレームを抽出するために用いられる。
可能な一実施形態では、図13に示すとおり、当該抽出モジュール41は、
当該ビデオから現在フレームを含む連続する3つのフレームを取得するための取得サブモジュール411と、
当該連続する3つのフレームにおける2つの隣接フレームの画素の平均絶対差を計算して、それぞれ第1平均絶対差及び第2平均絶対差を得るための第1計算サブモジュール412と、
当該第1平均絶対差と第2平均絶対差の第1差値を計算するための第2計算サブモジュール413と、
当該第1平均絶対差、第2平均絶対差、当該第1差値のうちの最小値が第1閾値よりも大きい場合に、当該連続する3つのフレームにおける現在フレームをキーフレームとして抽出するための抽出サブモジュール414とを含む。
可能な一実施形態では、当該装置は、
当該キーフレームにブラックエッジ検出を行って、当該キーフレームのブラックエッジ領域を除去するためのブラックエッジ検出モジュール51をさらに含む。
可能な一実施形態では、当該マスクは当該キーフレームにおける非動的領域を含み、当該生成モジュール42は、
複数の当該キーフレームをそれぞれグレースケール画像に変換するためのグレースケールサブモジュール421と、
処理すべきキーフレームとその前のキーフレームとのグレースケール画像の差値を計算して、当該処理すべきキーフレームの各画素位置に対応する第2差値を得るための第3計算サブモジュール422と、
当該処理すべきキーフレームをトラバースし、当該処理すべきキーフレームのグレースケール画像で画素値が画素の最小値より大きく、及び/又は、当該第2差値が変化の最大値よりも小さい画素位置を、マスクに属する画素位置と決定するためのトラバースサブモジュール423とを含む。
可能な一実施形態では、当該生成モジュール42は、
当該処理すべきキーフレームにおけるマスクに属する画素位置とその前のキーフレームにおけるマスクに属する画素位置との共通部分を取得するための共通部分サブモジュール424とをさらに含む。
可能な一実施形態では、当該装置は、
当該マスクに収縮、膨張及び連結処理を行うためのマスク処理モジュール52をさらに含む。
可能な一実施形態では、当該決定モジュール43は、具体的には、当該マスク及び当該ビデオのビデオフレームを用いてアルファ(alpha)計算を行って、少なくとも1つのキーロゴ領域画像を抽出し、当該ビデオフレームの他の部分を第1画素値で充填するために用いられる。
可能な一実施形態では、当該装置は、
充填後のビデオフレームを複数の領域に分割し、分割後のビデオフレームの4つのコーナーの位置する領域画像を抽出し、4つのコーナーの位置する領域画像及び抽出したキーロゴ領域画像に基づいて、認識するキーロゴ領域画像を決定するための分割モジュール53をさらに含む。
本開示の実施形態による装置の各モジュールの機能は、前記方法実施形態での対応の記載を参照できるため、ここで重複を避けるために説明を省略する。
さらに、本開示の実施形態では、電子設備及び可読記憶媒体を提供する。
図14は、本開示の実施形態によるビデオにおけるキーロゴの認識方法を実現するための電子設備のブロック図である。電子設備としては、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバー、ブレードサーバー、大型コンピュータ、他の適切なコンピュータなど、様々な形態のデジタルコンピュータであってもよい。また、パーソナルデジタルアシスタント、セルラーホン、スマートフォン、ウェアラブルデバイス、他の類似の計算設備など、様々な形態の移動設備であってもよい。本明細書に記載のコンポーネント、その接続関係、及びその機能は例示的なものに過ぎず、本開示の実施に関して本明細書に記載及び/又は主張された内容に限定を加えるためではない。
図14に示すとおり、当該電子設備は、1つ以上のプロセッサ901と、メモリ902と、各コンポーネントを接続するためのインタフェース(高速インタフェース及び低速インタフェース)とを含む。各コンポーネントは異なるバスによって互いに接続され、共通のマザーボードに取り付けられ、又は所望の方式で取り付けられてもよい。プロセッサは外部の入力/出力装置(例えば、インタフェースによって接続された表示設備)にグラフィカルユーザーインタフェース(GUI)のグラフィック情報を表示するようにメモリに記憶されているコマンドなど、電子設備において実行されるコマンドを処理することができる。他の実施形態では、必要ならば、複数のプロセッサ及び/又は複数のバスと複数のメモリを複数のメモリと一緒に使用してもよい。同様に、複数の電子設備を接続させ、各設備が必要な操作の一部を提供するようにしてもよい(例えば、サーバーアレイ、1群のブレードサーバー、又はマルチプロセッサシステムとする)。図14では、例示的にプロセッサ901が1つあるものである。
メモリ902は、本開示に係る非一時的なコンピュータ可読記憶媒体である。前記メモリには、少なくとも1つのプロセッサが本開示に係るビデオにおけるキーロゴの認識方法を実行するように、少なくとも1つのプロセッサによって実行可能なコマンドが記憶されている。本開示に係る非一時的なコンピュータ可読記憶媒体にはコンピュータコマンドが記憶されており、当該コンピュータコマンドはコンピュータに本開示に係るビデオにおけるキーロゴの認識方法を実行させる。
メモリ902は非一時的なコンピュータ可読記憶媒体として、非一時的ソフトウェアプログラム、非一時的なコンピュータ実行可能プログラム及びモジュール、例えば、本開示の実施形態に係るビデオにおけるキーロゴの認識方法に対応するプログラムコマンド/モジュール(例えば、図12に示す抽出モジュール41、生成モジュール42、決定モジュール43及び認識ユニット44)を記憶するために用いることができる。プロセッサ901はメモリ902に記憶されている非一時的ソフトウェアプログラム、コマンド及びモジュールを動作させることにより、サーバーの様々な機能及びデータ処理を実行し、即ち前記方法実施形態に係るビデオにおけるキーロゴの認識方法を実現する。
メモリ902はプログラム記憶領域及びデータ記憶領域を含んでもよく、プログラム記憶領域はオペレーティングシステム、少なくとも1つの機能に必要なアプリケーションプログラムを記憶することができ、データ記憶領域はビデオにおけるキーロゴの認識方法を実現するための電子設備の使用時に作成されたデータ等を記憶することができる。また、メモリ902は高速ランダムアクセスメモリを含んでもよいし、非一時的メモリを含んでもよく、例えば、少なくとも1つの磁気ディスク記憶素子、フラッシュメモリ素子、又は他の非一時的固体記憶素子である。いくつかの実施形態では、任意選択でメモリ902はプロセッサ901に対して遠隔設置されたメモリを含み、当該遠隔メモリはネットワークを介してビデオにおけるキーロゴの認識方法を実行する電子設備に接続されてもよい。前記ネットワークの例はインターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、その組み合わせを含むが、これに限定されない。
ビデオにおけるキーロゴの認識方法を実行する電子設備は、入力装置903及び出力装置904をさらに含んでもよい。プロセッサ901、メモリ902、入力装置903及び出力装置904はバス又は他の方式で接続されてもよく、図14の実施形態では、例示的にバスによって接続されたものである。
入力装置903は入力されたデジタル又は文字情報を受信し、ビデオにおけるキーロゴの認識方法を実行する電子設備のユーザー設定や機能制御に関連するキー信号入力を生成することができ、例えば、タッチスクリーン、テンキー、マウス、トラックパッド、タッチパッド、インジケータスティック、1つ以上のマウスボタン、トラックボール、ジョイスティック等入力装置である。出力装置904は表示設備、補助照明装置(例えば、LED)、触覚フィードバック装置(例えば、振動モーター)等を含んでもよい。当該表示設備は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、プラズマディスプレイを含むが、これに限定されない。いくつかの実施形態では、表示設備はタッチスクリーンであってもよい。
ここに記載のシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向け集積回路(ASIC)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はその組み合わせにおいて実施できる。前記実施形態は次のものを含んでもよい。1つ以上のコンピュータプログラムにおいて実施され、当該1つ以上のコンピュータプログラムは少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムにおいて実行及び/又は解釈されてもよく、当該プログラマブルプロセッサは専用又は汎用のプログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置及び少なくとも1つの出力装置からデータ及びコマンドを受信し、且つデータ及びコマンドを当該記憶システム、当該少なくとも1つの入力装置及び当該少なくとも1つの出力装置に伝送することができる。
前記コンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、コードともいう)にはプログラマブルプロセッサ用機械コマンドを含み、且つ高度なプロセス及び/又はオブジェクト指向のプログラミング言語、及び/又はアセンブリ/機械言語を用いて前記コンピュータプログラムを実施することができる。本明細書で、用語「機械可読媒体」及び「コンピュータ可読媒体」とは機械コマンド及び/又はデータをプログラマブルプロセッサに提供するあらゆるコンピュータプログラム製品、設備、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))であり、機械可読信号としての機械コマンドを受信する機械可読媒体を含む。用語「機械可読信号」とは、機械コマンド及び/又はデータをプログラマブルプロセッサに提供するためのあらゆる信号である。
ユーザーとのインタラクションを実現するように、コンピュータにおいてここに記載のシステム及び技術を実現することができ、当該コンピュータは、ユーザーに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ))と、キーボードと、ポインティングデバイス(例えば、マウス又はトラックボール)を備え、ユーザーは当該キーボード及び当該ポインティングデバイスによってコンピュータに入力することができる。他にもユーザーとのインタラクションを実現するための装置がある。例えば、ユーザーへのフィードバックは感覚的なフィードバック(例えば、視覚的なフィードバック、聴覚的なフィードバック、触覚的なフィードバック)など任意の形態であってもよく、また任意の方式(声入力、音声入力、触覚入力)でユーザーの入力を受信することができる。
ここに記載のシステム及び技術は、バックグラウンドコンポーネントを含むコンピューティングシステム(例えば、データサーバー)、又は中間コンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバー)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザーインタフェース又はウェブブラウザーを備えるパソコンであって、ユーザーは当該グラフィカルユーザーインタフェース又は当該ウェブブラウザーによってここに記載のシステム及び技術の実施形態とインタラクションを行うことができる)、又は前記バックグラウンドコンポーネント、中間コンポーネント、もしくはフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムにおいて実施することができる。任意の方式又は媒体によるデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを互いに接続させることができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、インターネットを含む。
コンピュータシステムはクライアント及びサーバーを含んでもよい。クライアントとサーバーは一般に遠隔設置され、且つ通信ネットワークによって互いに接続される。コンピュータで実行されるクライアント-サーバー型配置のコンピュータプログラムによってクライアントとサーバーの関係を構成する。サーバーはクラウドサーバーであってもよく(クラウドコンピューティングサーバー、クラウドホストともいう)、クラウドコンピューティングサービスシステムではホストのようなものであり、従来の物理ホスト及び仮想専用サーバー(VPS)サービスでは管理が難しく、業務の拡張性が弱いという欠点を解消するために開発される。
本開示の実施形態では、ビデオの一部のキーフレームからキーロゴのマスクを生成することにより、認識結果の正確性を高めることができ、フォールトトレランスが高く、キーロゴの認識におけるデータ処理量を減らし、認識速度を上げることができる。
なお、上記の様々なプロセスを踏まえて、ステップを並べ替え、追加、又は削除することができる。例えば、本開示に記載の各ステップは同時に実行されてもよいし、順に実行されてもよいし、他の順番で実行されてもよく、本開示の技術的解決手段の効果を得られるものであれば、本明細書では特に限定しない。
上記のいくつかの実施形態は、本開示の保護範囲を限定するものと見なされない。当業者が理解したように、設計上の要件や他の要素に基づいて、様々な修正や、組み合わせ、置き換えを行うことができる。本開示の趣旨においてなされた修正、同等な置き換えや改善等は、いずれも本開示の保護範囲に含まれる。

Claims (17)

  1. ビデオから複数のキーフレームを抽出することと、
    複数の前記キーフレーム間の差異により、キーロゴのマスクを生成することと、
    前記ビデオのビデオフレームにおいて、前記マスクを用いてキーロゴ領域画像を決定することと、
    前記キーロゴ領域画像を認識して、前記ビデオに含まれるキーロゴタイプを得ることとを含み、
    ビデオから複数のキーフレームを抽出することは、
    前記ビデオにおいて隣接するフレーム間の差異に基づいて、前記ビデオからシーンが変換するキーフレームを抽出することを含み、
    前記ビデオにおいて隣接するフレーム間の差異に基づいて、前記ビデオからシーンが変換するキーフレームを抽出することは、
    前記ビデオから現在フレームを含む連続する3つのフレームを取得することと、
    前記連続する3つのフレームにおける2つの隣接フレームの画素間の平均絶対差を計算して、それぞれ第1平均絶対差及び第2平均絶対差を得ることと、
    前記第1平均絶対差と第2平均絶対差の第1差値を計算することと、
    前記第1平均絶対差、第2平均絶対差、前記第1差値のうちの最小値が第1閾値よりも大きい場合に、前記連続する3つのフレームにおける現在フレームをキーフレームとして抽出することとを含む、
    ビデオにおけるキーロゴの認識方法。
  2. 前記ビデオにおけるキーロゴの認識方法は、
    前記キーフレームにブラックエッジ検出を行って、前記キーフレームのブラックエッジ領域を除去することをさらに含む、
    請求項1に記載のビデオにおけるキーロゴの認識方法。
  3. 前記マスクは、前記キーフレームにおける非動的領域を含み、
    複数の前記キーフレーム間の差異により、キーロゴのマスクを生成することは、
    複数の前記キーフレームをそれぞれグレースケール画像に変換することと、
    処理すべきキーフレームとその前のキーフレームとのグレースケール画像の差値を計算して、前記処理すべきキーフレームの各画素位置に対応する第2差値を得ることと、
    前記処理すべきキーフレームをトラバースし、前記処理すべきキーフレームのグレースケール画像における画素値が画素の最小値よりも大きい画素位置、及び/又は前記第2差値が変化の最大値よりも小さい画素位置を、マスクに属する画素位置と決定することとを含む、
    請求項1に記載のビデオにおけるキーロゴの認識方法。
  4. 複数の前記キーフレーム間の差異により、キーロゴのマスクを生成することは、
    前記処理すべきキーフレームにおけるマスクに属する画素位置とその前のキーフレームにおけるマスクに属する画素位置との共通部分を取得することをさらに含む、
    請求項に記載のビデオにおけるキーロゴの認識方法。
  5. 前記ビデオにおけるキーロゴの認識方法は、
    前記マスクに対して、収縮、膨張及び連結処理を行うことをさらに含む、
    請求項1に記載のビデオにおけるキーロゴの認識方法。
  6. 前記ビデオのビデオフレームにおいて、前記マスクを用いてキーロゴ領域画像を決定することは、
    前記マスク及び前記ビデオのビデオフレームを用いてアルファ(alpha)計算を行って、少なくとも1つのキーロゴ領域画像を抽出し、前記ビデオフレームの他の部分を第1画素値で充填することを含む、
    請求項1に記載のビデオにおけるキーロゴの認識方法。
  7. 充填後のビデオフレームを複数の領域に分割することと、
    分割前のビデオフレームの4つのコーナーが分割後のビデオフレーム位置する領域画像を抽出することと、
    前記4つのコーナーの位置する領域画像及び抽出されたキーロゴ領域画像に基づいて、認識すべきキーロゴ領域画像を決定することとをさらに含む、
    請求項に記載のビデオにおけるキーロゴの認識方法。
  8. ビデオから複数のキーフレームを抽出するための抽出モジュールと、
    複数の前記キーフレーム間の差異により、キーロゴのマスクを生成するための生成モジュールと、
    前記ビデオのビデオフレームにおいて、前記マスクを用いてキーロゴ領域画像を決定するための決定モジュールと、
    前記キーロゴ領域画像を認識して、前記ビデオに含まれるキーロゴタイプを得るための認識ユニットとを備え、
    前記抽出モジュールは、前記ビデオにおいて隣接するフレーム間の差異に基づいて、前記ビデオからシーンが変換するキーフレームを抽出することに用いられ、
    前記抽出モジュールは、
    前記ビデオから現在フレームを含む連続する3つのフレームを取得するための取得サブモジュールと、
    前記連続する3つのフレームにおける2つの隣接フレームの画素間の平均絶対差を計算して、それぞれ第1平均絶対差及び第2平均絶対差を得るための第1計算サブモジュールと、
    前記第1平均絶対差と第2平均絶対差の第1差値を計算するための第2計算サブモジュールと、
    前記第1平均絶対差、第2平均絶対差、前記第1差値のうちの最小値が第1閾値よりも大きい場合に、前記連続する3つのフレームにおける現在フレームをキーフレームとして抽出するための抽出サブモジュールとを備える、
    ビデオにおけるキーロゴの認識装置。
  9. 前記ビデオにおけるキーロゴの認識装置は、
    前記キーフレームにブラックエッジ検出を行って、前記キーフレームのブラックエッジ領域を除去するためのブラックエッジ検出モジュールをさらに備える、
    請求項に記載のビデオにおけるキーロゴの認識装置。
  10. 前記マスクは、前記キーフレームにおける非動的領域を含み、
    前記生成モジュールは、
    複数の前記キーフレームをそれぞれグレースケール画像に変換するためのグレースケールサブモジュールと、
    処理すべきキーフレームとその前のキーフレームとのグレースケール画像の差値を計算して、前記処理すべきキーフレームの各画素位置に対応する第2差値を得るための第3計算サブモジュールと、
    前記処理すべきキーフレームをトラバースし、前記処理すべきキーフレームのグレースケール画像で画素値が画素の最小値よりも大きい画素位置、及び/又は前記第2差値が変化の最大値よりも小さい画素位置を、マスクに属する画素位置と決定するためのトラバースサブモジュールとを備える、
    請求項に記載のビデオにおけるキーロゴの認識装置。
  11. 前記生成モジュールは、
    前記処理すべきキーフレームにおけるマスクに属する画素位置とその前のキーフレームにおけるマスクに属する画素位置の共通部分を取得するための共通部分サブモジュールをさらに備える、
    請求項10に記載のビデオにおけるキーロゴの認識装置。
  12. 前記ビデオにおけるキーロゴの認識装置は、
    前記マスクに対して、収縮、膨張及び連結処理を行うためのマスク処理モジュールをさらに備える、
    請求項に記載のビデオにおけるキーロゴの認識装置。
  13. 前記決定モジュールは、前記マスク及び前記ビデオのビデオフレームを用いてアルファ(alpha)計算を行って、少なくとも1つのキーロゴ領域画像を抽出し、前記ビデオフレームの他の部分を第1画素値で充填することに用いられる、
    請求項に記載のビデオにおけるキーロゴの認識装置。
  14. 前記ビデオにおけるキーロゴの認識装置は、
    充填後のビデオフレームを複数の領域に分割し、分割前のビデオフレームの4つのコーナーが分割後のビデオフレーム位置する領域画像を抽出し、前記4つのコーナーの位置する領域画像及び抽出されたキーロゴ領域画像に基づいて、認識すべきキーロゴ領域画像を決定するための分割モジュールをさらに備える、
    請求項13に記載のビデオにおけるキーロゴの認識装置。
  15. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサと通信接続されるメモリとを備え、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能なコマンドが記憶されており、前記コマンドは、前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに請求項1~のいずれか1項に記載のビデオにおけるキーロゴの認識方法を実行させる、
    電子設備。
  16. コンピュータに請求項1~のいずれか1項に記載のビデオにおけるキーロゴの認識方法を実行させるコマンドが記憶されている非一時的なコンピュータ可読記憶媒体。
  17. コンピュータにおいて、プロセッサにより実行される場合、請求項1~のいずれか1項に記載のビデオにおけるキーロゴの認識方法を実現することを特徴とするプログラム。
JP2021100928A 2020-06-28 2021-06-17 ビデオにおけるキーロゴの認識方法、装置、設備、記憶媒体、及びプログラム Active JP7209044B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010599295.4A CN111753762B (zh) 2020-06-28 2020-06-28 视频中关键标识的识别方法、装置、设备以及存储介质
CN202010599295.4 2020-06-28

Publications (2)

Publication Number Publication Date
JP2021166066A JP2021166066A (ja) 2021-10-14
JP7209044B2 true JP7209044B2 (ja) 2023-01-19

Family

ID=72676856

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021100928A Active JP7209044B2 (ja) 2020-06-28 2021-06-17 ビデオにおけるキーロゴの認識方法、装置、設備、記憶媒体、及びプログラム

Country Status (5)

Country Link
US (1) US11748986B2 (ja)
EP (1) EP3819820B1 (ja)
JP (1) JP7209044B2 (ja)
KR (1) KR102596989B1 (ja)
CN (1) CN111753762B (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112883902B (zh) * 2021-03-12 2023-01-24 百度在线网络技术(北京)有限公司 视频检测方法、装置、电子设备及存储介质
CN113221801B (zh) * 2021-05-24 2023-08-18 北京奇艺世纪科技有限公司 版号信息识别方法、装置、电子设备及可读存储介质
CN113327308A (zh) * 2021-05-28 2021-08-31 北京沃东天骏信息技术有限公司 表情包图片的生成方法和装置
CN114494954A (zh) * 2022-01-18 2022-05-13 北京达佳互联信息技术有限公司 视频识别方法、装置、电子设备和存储介质
GB2618863A (en) * 2022-02-02 2023-11-22 Preqin Ltd System for and method of detecting changes
CN114979481B (zh) * 2022-05-23 2023-07-07 深圳市海创云科技有限公司 一种5g超高清视频监控系统及方法
CN115115822B (zh) * 2022-06-30 2023-10-31 小米汽车科技有限公司 车端图像处理方法、装置、车辆、存储介质及芯片
CN116524417B (zh) * 2023-06-30 2023-10-20 深圳市华曦达科技股份有限公司 一种基于Flink的分布式实时视频关键帧的提取方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130113999A1 (en) 2011-11-03 2013-05-09 Infosys Technologies, Ltd. Methods, systems, and computer-readable media for detecting scene changes in a video
US20180150696A1 (en) 2016-11-30 2018-05-31 Arris Enterprises Llc Detection of logos in a sequence of video frames

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5617149A (en) 1994-11-22 1997-04-01 Electronics And Telecommunications Research Institute Apparatus and method for detecting scene changes using the difference of mad between image frames
KR20030067133A (ko) 2002-02-07 2003-08-14 (주)지토 동영상의 자동분할 기술을 응용한 지능형 디지털 영상녹화기 시스템
US7483484B2 (en) * 2003-10-09 2009-01-27 Samsung Electronics Co., Ltd. Apparatus and method for detecting opaque logos within digital video signals
US7843512B2 (en) * 2004-03-31 2010-11-30 Honeywell International Inc. Identifying key video frames
JP4720705B2 (ja) 2006-09-27 2011-07-13 ソニー株式会社 プログラム、検出方法、及び検出装置
US8280158B2 (en) * 2009-10-05 2012-10-02 Fuji Xerox Co., Ltd. Systems and methods for indexing presentation videos
US8396302B2 (en) * 2011-01-11 2013-03-12 Intel Corporation Method of detecting logos, titles, or sub-titles in video frames
CN102226907B (zh) * 2011-05-24 2013-06-05 武汉嘉业恒科技有限公司 基于多特征的车牌定位方法及装置
JP2013054430A (ja) 2011-09-01 2013-03-21 Nikon Corp 画像評価装置、撮像装置およびプログラム
CN103714314B (zh) 2013-12-06 2017-04-19 安徽大学 一种结合边缘和颜色信息的电视视频台标识别方法
KR101537559B1 (ko) 2013-12-30 2015-07-20 전자부품연구원 객체 검출 장치, 차량용 객체 검출 장치 및 이들의 방법
KR101898765B1 (ko) 2015-12-27 2018-09-13 전자부품연구원 콘텐츠 인식 기술 기반 콘텐츠 자동 생성 방법 및 시스템
CN106851397B (zh) 2017-02-28 2020-03-10 青岛海信电器股份有限公司 一种台标更换方法及装置
CN109376603A (zh) * 2018-09-25 2019-02-22 北京周同科技有限公司 一种视频识别方法、装置、计算机设备及存储介质
CN110781711A (zh) * 2019-01-21 2020-02-11 北京嘀嘀无限科技发展有限公司 目标对象识别方法、装置、电子设备及存储介质
CN110909613B (zh) * 2019-10-28 2024-05-31 Oppo广东移动通信有限公司 视频人物识别方法、装置、存储介质与电子设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130113999A1 (en) 2011-11-03 2013-05-09 Infosys Technologies, Ltd. Methods, systems, and computer-readable media for detecting scene changes in a video
US20180150696A1 (en) 2016-11-30 2018-05-31 Arris Enterprises Llc Detection of logos in a sequence of video frames

Also Published As

Publication number Publication date
US11748986B2 (en) 2023-09-05
JP2021166066A (ja) 2021-10-14
US20210209375A1 (en) 2021-07-08
CN111753762A (zh) 2020-10-09
KR102596989B1 (ko) 2023-10-31
EP3819820A2 (en) 2021-05-12
EP3819820B1 (en) 2022-12-21
EP3819820A3 (en) 2021-11-10
KR20210040323A (ko) 2021-04-13
CN111753762B (zh) 2024-03-15

Similar Documents

Publication Publication Date Title
JP7209044B2 (ja) ビデオにおけるキーロゴの認識方法、装置、設備、記憶媒体、及びプログラム
EP3843031A2 (en) Face super-resolution realization method and apparatus, electronic device and storage medium
US11074437B2 (en) Method, apparatus, electronic device and storage medium for expression driving
CN111709873B (zh) 图像转换模型生成器的训练方法和装置
US9842251B2 (en) Bulleted lists
CN111275034B (zh) 从图像中提取文本区域的方法、装置、设备和存储介质
US11641446B2 (en) Method for video frame interpolation, and electronic device
CN111767920B (zh) 感兴趣区域的提取方法、装置、电子设备及存储介质
CN111062854B (zh) 检测水印的方法、装置、终端及存储介质
KR102648760B1 (ko) 이미지 생성 방법 및 장치
US11983849B2 (en) Image filling method and apparatus, device, and storage medium
CN111179159A (zh) 消除视频中目标影像的方法、装置、电子设备及存储介质
CN111768356A (zh) 一种人脸图像融合方法、装置、电子设备及存储介质
KR20220126264A (ko) 비디오 흔들림 검출 방법, 장치, 전자 기기 및 저장 매체
CN112367559B (zh) 视频展示方法、装置、电子设备、服务器及存储介质
CN112752158A (zh) 一种视频展示的方法、装置、电子设备及存储介质
CN113506305B (zh) 三维点云数据的图像增强方法、语义分割方法及装置
CN112541934B (zh) 一种图像处理方法及装置
CN113627342A (zh) 视频深度特征提取优化的方法、系统、设备及存储介质
CN113160045A (zh) 模型训练方法、超分辨率方法、装置、电子设备及介质
CN113160044A (zh) 深度图像超分辨率方法、训练方法及装置、设备、介质
CN112419145B (zh) 一种图像数据处理方法、装置、设备及存储介质
CN111160265A (zh) 文件转换方法、装置、存储介质及电子设备
CN110942420A (zh) 一种图像字幕的消除方法及装置
CN114842485B (zh) 一种字幕去除方法、装置及电子设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210617

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20210729

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220531

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220831

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221220

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230106

R150 Certificate of patent or registration of utility model

Ref document number: 7209044

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150