JP2019528643A - シーンチェンジフレームを検出するための方法および装置ならびにシステム - Google Patents

シーンチェンジフレームを検出するための方法および装置ならびにシステム Download PDF

Info

Publication number
JP2019528643A
JP2019528643A JP2019510927A JP2019510927A JP2019528643A JP 2019528643 A JP2019528643 A JP 2019528643A JP 2019510927 A JP2019510927 A JP 2019510927A JP 2019510927 A JP2019510927 A JP 2019510927A JP 2019528643 A JP2019528643 A JP 2019528643A
Authority
JP
Japan
Prior art keywords
frame
threshold
scene change
gop
max
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
JP2019510927A
Other languages
English (en)
Inventor
▲ジエ▼ 熊
▲ジエ▼ 熊
友▲慶▼ ▲楊▼
友▲慶▼ ▲楊▼
一宏 黄
一宏 黄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of JP2019528643A publication Critical patent/JP2019528643A/ja
Ceased legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • H04N19/159Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/142Detection of scene cut or scene change
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/114Adapting the group of pictures [GOP] structure, e.g. number of B-frames between two anchor frames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/177Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a group of pictures [GOP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/179Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a scene or a shot
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/48Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using compressed domain processing techniques other than decoding, e.g. modification of transform coefficients, variable length coding [VLC] data or run-length data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • H04N19/87Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving scene cut or scene change detection in combination with video compression

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本発明は、ビデオ中のシーンチェンジフレームを検出するための方法および装置ならびにシステムを開示する。ビデオ中のシーンチェンジフレームが検出されるとき、Pフレーム中のシーンチェンジフレームを検出するために、ビデオのGOP内のすべてのPフレームのうちの最大Pフレーム(Pmax)がシーンチェンジフレームであるかどうかが、PmaxとPmaxに最も近くかつPmaxよりも前のシーンチェンジフレームとの間の複数のIフレームのサイズの中央値もしくは平均値と、PmaxのサイズPkmaxとの相対関係、または、Pkmaxと、GOP内の複数のPフレームのサイズの中央値もしくは平均値との相対関係に基づいて判定され、これにより、シーンチェンジフレームの検出漏れが効果的に低減される。

Description

本発明は、ビデオ技術の分野に関し、具体的には、シーンチェンジフレームを検出するための方法および装置ならびにシステムに関する。
通信技術の発展に伴い、IPTV(Internet Protocol Television、インターネットプロトコルテレビジョン)およびOTTサービスなどのビデオサービスが広く商用利用されている。ビデオサービスの品質を保証するために、ビデオ品質を評価する必要があり、これにより、対応する手段を使用して適時に調整が行われ、ビデオサービスの正常な動作が保証される。したがって、ビデオ品質を正確に評価する方法は、緊急に解決する必要がある重要な問題である。
ビデオのセグメントは、複数の連続したビデオフレームシーケンスを含み、一般に、1つよりも多くのシーンを含む。例えば、ビデオのセグメントは、4つのシーンを含み、シーン1およびシーン3は、サッカーグラウンドのショットビデオに対応し、シーン2およびシーン4は、観客席のショットビデオに対応する。
ビデオ品質が評価されているとき、最初に、シーンが変化する位置、すなわちシーンチェンジフレームの位置を検出する必要があり、次に、そのシーンに基づいてビデオ品質が評価される。例えば、ビデオ符号化中に生じるビデオ符号化損失は、ビデオ符号化タイプ、フレームレート、解像度、およびビットレートだけでなく、シーンの複雑度にも関連するので、ビデオ符号化損失を評価するために、シーンが変化する位置を最初に検出する必要がある。したがって、ビデオ品質が評価されているときに、シーンチェンジ検出を正確に行う必要がある。
ビデオのビデオフレームが符号化されているとき、ビデオフレームは、異なるタイプのフレーム、例えば、Iフレーム、Pフレーム、およびBフレームに符号化される。Iフレームは、フレーム内予測フレームであり、フレーム内のデータのみが符号化中に参照される。Pフレームは、予測フレーム、言い換えれば一方向差分フレームであり、このフレームと前のIフレーム(またはPフレーム)との差分を記録するために使用される。Bフレームは、双方向補間予測フレーム、言い換えれば双方向差分フレームであり、このフレームと前のフレームおよび次のフレームの各々との差分を記録するために使用される。
シーンチェンジフレームを検出するための方法は、標準ITU-T P1201.2のIPTV監視ソリューションにおいて提供されている。しかしながら、従来技術ではIフレーム中のシーンチェンジフレームしか検出されないが、実際には、多くのシーンチェンジフレームはPフレームである。その結果、従来技術では、シーンチェンジフレーム検出中に検出漏れが発生する。
本発明の実施形態は、従来技術におけるシーンチェンジフレームの検出漏れを回避するように、シーンチェンジフレームを検出するための方法および装置を提供する。
第1の態様によれば、シーンチェンジフレームを検出するための方法が提供される。ビデオは、N個のピクチャグループGOPを含み、Nは、2以上の整数であり、本方法は、
K番目のGOP内のすべてのPフレームのうちの最大PフレームPmaxを判定するステップであって、Pmaxのサイズが、
であり、Kが、MからNまでの範囲の変数であり、1≦M≦Nである、ステップと、
の間の相対値が第1の閾値以上であり、かつ
の間の相対値が第2の閾値以上であると判定された場合に、Pmaxはシーンチェンジフレームであると判定するステップであって、
が、Pmaxと、Pmaxに最も近くかつPmaxよりも前のシーンチェンジフレームとの間の複数のIフレームのサイズの中央値または平均値であり、
が、K番目のGOP内の複数のPフレームのサイズの中央値または平均値であり、第1の閾値が、0よりも大きくかつ1よりも小さく、第2の閾値が1よりも大きい、ステップと
を含む。
本発明の第1の態様で提供される方法では、ビデオ中のシーンチェンジフレームを検出するときに、Pフレーム中のシーンチェンジフレームを検出することができ、これにより、シーンチェンジフレームの検出漏れを効果的に低減することができる。
第1の態様の第1の可能な実施態様では、
に従って計算されてもよい。
に簡単かつ効果的に反映させることができる。
一実施態様では、
に従って計算され、これに対応して、第1の閾値は、式
に従って計算されてもよい。
別の実施態様では、
に従って計算され、これに対応して、第1の閾値は、式
に従って計算されてもよい。
Ithresholdは、第1の閾値であり、Imedianは、ビデオのすべてのIフレームのサイズの中央値または平均値であり、Pmedianは、ビデオのすべてのPフレームのサイズの中央値または平均値である。
Imedianは、ビデオのすべてのIフレームのサイズの中央値または平均値であり、Pmedianは、ビデオのすべてのPフレームのサイズの中央値または平均値であるため、有効な閾値を、式
を使用して正確に計算することができ、これにより、Pフレーム中のシーンチェンジフレームを正確に検出することができる。
第1の態様または第1の態様の第1の可能な実施態様に関連して、第2の可能な実施態様では、
に従って計算されてもよい。
に簡単かつ効果的に反映させることができる。
は、特に、以下の式に従って計算されてもよい。
、ただし、P−m、…、およびP−1は、K番目のGOP内のPmaxよりも前のPフレームを表し、P1、…、およびPnは、K番目のGOP内のPmaxよりも後のPフレームを表し、Fは、P−m、…、およびP−1ならびにP1、…、およびPnのサイズの中央値または平均値を計算するために使用され、
m=min(num_before_P_frames,max_num)、
n=min(num_after_P_frames,max_num)、ただし、
num_before_P_framesは、K番目のGOP内のPmaxよりも前のPフレームの数であり、num_after_P_framesは、K番目のGOP内のPmaxよりも後のPフレームの数であり、max_numは、考慮する必要がある予め設定されたフレームの数を表す。
が、上記の式を使用して計算され、最初のビデオフレームに最も近く、かつ最初のビデオフレームが位置するGOP内にある一部のビデオフレームが考慮されることから、Pフレーム中のシーンチェンジフレームを検出する精度がさらに向上する。
第2の態様によれば、ビデオ品質評価を実施するための方法が提供される。ビデオは、N個のピクチャグループGOPを含み、Nは、2以上の整数であり、本方法は、
K番目のGOP内のすべてのPフレームのうちの最大PフレームPmaxを判定するステップであって、Pmaxのサイズが、
であり、Kが、MからNまでの範囲の変数であり、1≦M≦Nである、ステップと、
の間の相対値が第1の閾値以上であり、
の間の相対値が第2の閾値以上であり、かつK番目のGOP内にBフレームが存在しないと判定された場合、または、
の間の相対値が第1の閾値以上であり、
の間の相対値が第2の閾値以上であり、K番目のGOP内にBフレームが存在し、かつ
の間の相対値が第3の閾値以上であると判定された場合、Pmaxはシーンチェンジフレームであると判定するステップであって、
が、Pmaxと、Pmaxに最も近くかつPmaxよりも前のシーンチェンジフレームとの間の複数のIフレームのサイズの中央値または平均値であり、
が、K番目のGOP内の複数のPフレームのサイズの中央値または平均値であり、
が、Pmaxと、Pmaxに最も近くかつPmaxよりも前のシーンチェンジフレームとの間のすべてのBフレームのサイズの中央値または平均値であり、第1の閾値が、0よりも大きくかつ1よりも小さく、第2の閾値が1よりも大きく、第3の閾値が1よりも大きい、ステップと
を含む。
本発明の第2の態様で提供される方法では、ビデオ中のシーンチェンジフレームを検出するときに、Pフレーム中のシーンチェンジフレームを検出することができ、これにより、シーンチェンジフレームの検出漏れを効果的に低減することができる。また、Pフレーム中のシーンチェンジフレームを検出しているとき、IフレームおよびPフレームのサイズだけでなく、Bフレームのサイズも考慮されるため、Pフレーム中のシーンチェンジフレームを検出する精度がさらに向上する。
第2の態様の第1の可能な実施態様では、
に従って計算されてもよい。
に簡単かつ効果的に反映させることができる。
一実施態様では、
に従って計算されてもよく、これに対応して、第1の閾値は、式
に従って計算されてもよい。
別の実施態様では、
に従って計算されてもよく、これに対応して、第1の閾値は、式
に従って計算されてもよい。
Ithresholdは、第1の閾値であり、Imedianは、ビデオのすべてのIフレームのサイズの中央値または平均値であり、Pmedianは、ビデオのすべてのPフレームのサイズの中央値または平均値である。
Imedianは、ビデオのすべてのIフレームのサイズの中央値または平均値であり、Pmedianは、ビデオのすべてのPフレームのサイズの中央値または平均値であるため、有効な閾値を、式
を使用して正確に計算することができ、これにより、Pフレーム中のシーンチェンジフレームを正確に検出することができる。
第2の態様または第2の態様の第1の可能な実施態様に関連して、第2の可能な実施態様では、
に従って計算されてもよい。
に簡単かつ効果的に反映させることができる。
は、特に、以下の式に従って計算されてもよい。
、ただし、P−m、…、およびP−1は、K番目のGOP内のPmaxよりも前のPフレームを表し、P1、…、およびPnは、K番目のGOP内のPmaxよりも後のPフレームを表し、Fは、P−m、…、およびP−1ならびにP1、…、およびPnのサイズの中央値または平均値を計算するために使用され、
m=min(num_before_P_frames,max_num)、
n=min(num_after_P_frames,max_num)、ただし、
num_before_P_framesは、K番目のGOP内のPmaxよりも前のPフレームの数であり、num_after_P_framesは、K番目のGOP内のPmaxよりも後のPフレームの数であり、max_numは、考慮する必要がある予め設定されたフレームの数を表す。
が、上記の式を使用して計算され、最初のビデオフレームに最も近く、かつ最初のビデオフレームが位置するGOP内にある一部のビデオフレームが考慮されることから、Pフレーム中のシーンチェンジフレームを検出する精度がさらに向上する。
第2の態様または第2の態様の第1のもしくは第2の可能な実施態様に関連して、第3の可能な実施態様では、
に従って計算されてもよい。
に簡単かつ効果的に反映させることができる。
一実施態様では、
に従って計算され、これに対応して、第3の閾値は、式
に従って計算されてもよい。
別の実施態様では、
に従って計算され、これに対応して、第3の閾値は、式
に従って計算されてもよい。
Bthresholdは第3の閾値であり、Pmedianは、ビデオのすべてのPフレームのサイズの中央値または平均値であり、Bmedianは、ビデオのすべてのBフレームのサイズの中央値または平均値である。
Pmedianは、ビデオのすべてのPフレームのサイズの中央値または平均値であり、Bmedianは、ビデオのすべてのBフレームのサイズの中央値または平均値であるため、有効な閾値を、式
を使用して正確に計算することができ、これにより、Pフレーム中のシーンチェンジフレームを正確に検出することができる。
第2の態様の第3の可能な実施態様に関連して、第4の可能な実施態様では、K番目のGOP内のPmaxがシーンチェンジフレームとして判定された後に、ビデオ中のシーンチェンジフレームとして判定されたPフレーム以外のPフレームのサイズの中央値または平均値が、新しいPmedianとして使用され、新しいBthresholdが、式
に従って計算される。新しいBthresholdは、次のGOP内のPmaxがシーンチェンジフレームであるかどうかを判定するために使用される。
第2の態様の第4の可能な実施態様に関連して、第3の閾値Bthresholdをリアルタイムで更新することができるため、シーンチェンジフレームとして判定されたPフレームの影響は適時に排除され、これにより、Pフレーム中のシーンチェンジフレームを検出する精度がさらに向上する。
第3の態様によれば、ビデオ中のシーンチェンジフレームを検出するための検出装置が提供される。ビデオは、N個のGOPを含み、Nは、2以上の整数であり、検出装置は、第1の判定部および第2の判定部を含む。
第1の判定部は、K番目のGOP内のすべてのPフレームのうちの最大PフレームPmaxを判定し、Pmaxのサイズは、
であり、Kは、MからNまでの範囲の変数であり、1≦M≦Nである、ように構成され、
第2の判定部は、
の間の相対値が第1の閾値以上であり、かつ
の間の相対値が第2の閾値以上であると判定された場合に、Pmaxはシーンチェンジフレームであると判定し、
は、Pmaxと、Pmaxに最も近くかつPmaxよりも前のシーンチェンジフレームとの間の複数のIフレームのサイズの中央値または平均値であり、
は、K番目のGOP内の複数のPフレームのサイズの中央値または平均値であり、第1の閾値は、0よりも大きくかつ1よりも小さく、第2の閾値は1よりも大きい、ように構成される。
本発明の第3の態様で提供される検出装置では、ビデオ中のシーンチェンジフレームを検出するときに、Pフレーム中のシーンチェンジフレームを検出することができ、これにより、シーンチェンジフレームの検出漏れを効果的に低減することができる。
第3の態様の第1の可能な実施態様では、第2の判定部は、特に、式
を計算してもよい。
に簡単かつ効果的に反映させることができる。
一実施態様では、第2の判定部は、式
を計算し、これに対応して、第2の判定部は、式
に従って第1の閾値を計算してもよい。
別の実施態様では、第2の判定部は、式
を計算し、これに対応して、第2の判定部は、式
に従って第1の閾値を計算してもよい。
Ithresholdは、第1の閾値であり、Imedianは、ビデオのすべてのIフレームのサイズの中央値または平均値であり、Pmedianは、ビデオのすべてのPフレームのサイズの中央値または平均値である。
Imedianは、ビデオのすべてのIフレームのサイズの中央値または平均値であり、Pmedianは、ビデオのすべてのPフレームのサイズの中央値または平均値であるため、有効な閾値を、式
を使用して正確に計算することができ、これにより、Pフレーム中のシーンチェンジフレームを正確に検出することができる。
第3の態様または第3の態様の第1の可能な実施態様に関連して、第2の可能な実施態様では、第2の判定部は、特に、式
を計算してもよい。
に簡単かつ効果的に反映させることができる。
第2の判定部は、特に、以下の式に従って
を計算してもよい。
、ただし、P−m、…、およびP−1は、K番目のGOP内のPmaxよりも前のPフレームを表し、P1、…、およびPnは、K番目のGOP内のPmaxよりも後のPフレームを表し、Fは、P−m、…、およびP−1ならびにP1、…、およびPnのサイズの中央値または平均値を計算するために使用され、
m=min(num_before_P_frames,max_num)、
n=min(num_after_P_frames,max_num)、ただし、
num_before_P_framesは、K番目のGOP内のPmaxよりも前のPフレームの数であり、num_after_P_framesは、K番目のGOP内のPmaxよりも後のPフレームの数であり、max_numは、考慮する必要がある予め設定されたフレームの数を表す。
が、上記の式を使用して計算され、最初のビデオフレームに最も近く、かつ最初のビデオフレームが位置するGOP内にある一部のビデオフレームが考慮されることから、Pフレーム中のシーンチェンジフレームを検出する精度がさらに向上する。
第4の態様によれば、ビデオ中のシーンチェンジフレームを検出するための検出装置が提供される。ビデオは、N個のピクチャグループGOPを含み、Nは、2以上の整数であり、検出装置は、第1の判定部および第2の判定部を含む。
第1の判定部は、K番目のGOP内のすべてのPフレームのうちの最大PフレームPmaxを判定し、Pmaxのサイズは、
であり、Kは、MからNまでの範囲の変数であり、1≦M≦Nである、ように構成され、
第2の判定部は、
の間の相対値が第1の閾値以上であり、
の間の相対値が第2の閾値以上であり、かつK番目のGOP内にBフレームが存在しないと判定された場合、または、
の間の相対値が第1の閾値以上であり、
の間の相対値が第2の閾値以上であり、K番目のGOP内にBフレームが存在し、かつ
の間の相対値が第3の閾値以上であると判定された場合、Pmaxはシーンチェンジフレームであると判定し、
は、Pmaxと、Pmaxに最も近くかつPmaxよりも前のシーンチェンジフレームとの間の複数のIフレームのサイズの中央値または平均値であり、
は、K番目のGOP内の複数のPフレームのサイズの中央値または平均値であり、
は、Pmaxと、Pmaxに最も近くかつPmaxよりも前のシーンチェンジフレームとの間のすべてのBフレームのサイズの中央値または平均値であり、第1の閾値は、0よりも大きくかつ1よりも小さく、第2の閾値は1よりも大きく、第3の閾値は1よりも大きい、ように構成される。
本発明の第4の態様で提供される検出装置では、ビデオ中のシーンチェンジフレームを検出するときに、Pフレーム中のシーンチェンジフレームを検出することができ、これにより、シーンチェンジフレームの検出漏れを効果的に低減することができる。また、Pフレーム中のシーンチェンジフレームを検出しているとき、IフレームおよびPフレームのサイズだけでなく、Bフレームのサイズも考慮されるため、Pフレーム中のシーンチェンジフレームを検出する精度がさらに向上する。
第4の態様の第1の可能な実施態様では、第2の判定部は、特に、式
を計算してもよい。
に簡単かつ効果的に反映させることができる。
一実施態様では、第2の判定部は、式
を計算し、これに対応して、第2の判定部は、式
に従って第1の閾値を計算してもよい。
別の実施態様では、第2の判定部は、式
を計算し、これに対応して、第2の判定部は、式
に従って第1の閾値を計算してもよい。
Ithresholdは、第1の閾値であり、Imedianは、ビデオのすべてのIフレームのサイズの中央値または平均値であり、Pmedianは、ビデオのすべてのPフレームのサイズの中央値または平均値である。
Imedianは、ビデオのすべてのIフレームのサイズの中央値または平均値であり、Pmedianは、ビデオのすべてのPフレームのサイズの中央値または平均値であるため、有効な閾値を、式
を使用して正確に計算することができ、これにより、Pフレーム中のシーンチェンジフレームを正確に検出することができる。
第4の態様または第4の態様の第1の可能な実施態様に関連して、第2の可能な実施態様では、第2の判定部は、特に、式
を計算してもよい。
に簡単かつ効果的に反映させることができる。
第2の判定部は、特に、以下の式に従って
を計算してもよい。
、ただし、P−m、…、およびP−1は、K番目のGOP内のPmaxよりも前のPフレームを表し、P1、…、およびPnは、K番目のGOP内のPmaxよりも後のPフレームを表し、Fは、P−m、…、およびP−1ならびにP1、…、およびPnのサイズの中央値または平均値を計算するために使用され、
m=min(num_before_P_frames,max_num)、
n=min(num_after_P_frames,max_num)、ただし、
num_before_P_framesは、K番目のGOP内のPmaxよりも前のPフレームの数であり、num_after_P_framesは、K番目のGOP内のPmaxよりも後のPフレームの数であり、max_numは、考慮する必要がある予め設定されたフレームの数を表す。
が、上記の式を使用して計算され、最初のビデオフレームに最も近く、かつ最初のビデオフレームが位置するGOP内にある一部のビデオフレームが考慮されることから、Pフレーム中のシーンチェンジフレームを検出する精度がさらに向上する。
第4の態様または第4の態様の第1のもしくは第2の可能な実施態様に関連して、第3の可能な実施態様では、第2の判定部は、特に、式
を計算してもよい。
に簡単かつ効果的に反映させることができる。
一実施態様では、第2の判定部は、式
を計算し、これに対応して、第2の判定部は、式
に従って第1の閾値を計算してもよい。
別の実施態様では、第2の判定部は、式
を計算し、これに対応して、第2の判定部は、式
に従って第1の閾値を計算してもよい。
Ithresholdは、第1の閾値であり、Imedianは、ビデオのすべてのIフレームのサイズの中央値または平均値であり、Bmedianは、ビデオのすべてのBフレームのサイズの中央値または平均値である。
Imedianは、ビデオのすべてのIフレームのサイズの中央値または平均値であり、Bmedianは、ビデオのすべてのBフレームのサイズの中央値または平均値であるため、有効な閾値を、式
を使用して正確に計算することができ、これにより、Pフレーム中のシーンチェンジフレームを正確に検出することができる。
第4の態様の第3の可能な実施態様に関連して、第4の可能な実施態様では、K番目のGOP内のPmaxがシーンチェンジフレームとして判定された後に、ビデオ中のシーンチェンジフレームとして判定されたPフレーム以外のPフレームのサイズの中央値または平均値が、新しいPmedianとして使用され、新しいBthresholdが、式
に従って計算される。新しいBthresholdは、次のGOP内のPmaxがシーンチェンジフレームであるかどうかを判定するために使用される。
第4の態様の第4の可能な実施態様に関連して、第3の閾値Bthresholdをリアルタイムで更新することができるため、シーンチェンジフレームとして判定されたPフレームの影響は適時に排除され、これにより、Pフレーム中のシーンチェンジフレームを検出する精度がさらに向上する。
第5の態様によれば、ビデオ中のシーンチェンジフレームを検出するための検出装置が提供され、この検出装置は、プロセッサおよびメモリを含む。
メモリは、コンピュータ動作命令を記憶するように構成される。
プロセッサは、検出装置が第1の態様もしくは第1の態様の可能な実施態様のいずれか1つまたは第2の態様もしくは第2の態様の可能な実施態様のいずれか1つで提供される方法を実行できるようにする、メモリに記憶されたコンピュータ動作命令を実行するように構成される。
本発明の第5の態様で提供される検出装置では、ビデオ中のシーンチェンジフレームを検出するときに、Pフレーム中のシーンチェンジフレームを検出することができ、これにより、シーンチェンジフレームの検出漏れを効果的に低減することができる。
第6の態様によれば、検出デバイスが提供され、検出装置は、媒体部および検出装置を含む。
媒体部は、ビデオを取得し、このビデオを検出装置に送信するように構成される。
検出装置は、媒体部からビデオを取得し、第3の態様もしくは第3の態様の可能な実施態様のいずれか1つ、第4の態様もしくは第4の態様の可能な実施態様のいずれか1つ、または第5の態様もしくは第5の態様の可能な実施態様のいずれか1つで提供される検出装置によって実行される動作を実行するように構成される。
本発明の第6の態様で提供される検出デバイスでは、ビデオ中のシーンチェンジフレームを検出するときに、Pフレーム中のシーンチェンジフレームを検出することができ、これにより、シーンチェンジフレームの検出漏れを効果的に低減することができる。
第7の態様によれば、ビデオ品質評価を実施するためのシステムが提供され、このシステムは、ビデオサーバ、送信デバイス、およびビデオ端末を含む。ビデオサーバによって送信されるビデオストリームは、送信デバイスを介してビデオ端末に送信される。
送信デバイスまたはビデオ端末は、特に、第3の態様もしくは第3の態様の可能な実施態様のいずれか1つ、第4の態様もしくは第4の態様の可能な実施態様のいずれか1つ、または第5の態様もしくは第5の態様の可能な実施態様のいずれか1つで提供される検出装置を含んでもよい。
システムは、第1の検出装置をさらに含み、第1の検出装置は、特に、第3の態様もしくは第3の態様の可能な実施態様のいずれか1つ、第4の態様もしくは第4の態様の可能な実施態様のいずれか1つ、または第5の態様もしくは第5の態様の可能な実施態様のいずれか1つで提供される検出装置であってもよい。送信デバイス2020またはビデオ端末2030は、第1の検出装置に接続され、第1の検出装置は、第1の検出装置に接続された送信デバイスまたはビデオ端末を使用してビデオストリームを取得する。
本発明の第7の態様で提供されるシステムでは、ビデオ中のシーンチェンジフレームを検出するときに、Pフレーム中のシーンチェンジフレームを検出することができ、これにより、シーンチェンジフレームの検出漏れを効果的に低減することができる。
本発明の実施形態の技術的解決策をより明確に説明するために、以下では、実施形態または従来技術を説明するために必要な添付図面について簡単に説明する。明らかに、以下の説明における添付図面は、本発明の一部の実施形態しか示しておらず、当業者は、創造的な努力なしにこれらの添付図面から他の図面をさらに得ることができる。
本発明の実施形態1によるビデオシステム100のネットワーク構成の概略図である。 本発明の実施形態1によるビデオシステム100のネットワーク構成の概略図である。 本発明の実施形態1によるGOPの概略図である。 本発明の実施形態1によるGOPの概略図である。 本発明の実施形態1によるGOPの概略図である。 本発明の実施形態1の実施態様Aによる方法の概略フローチャートである。 本発明の実施形態1の実施態様Aによる方法の概略フローチャートである。 本発明の実施形態1の実施態様Aによる方法の概略フローチャートである。 本発明の実施形態1の実施態様Bによる方法の概略フローチャートである。 本発明の実施形態1の実施態様Bによる方法の概略フローチャートである。 本発明の実施形態1の実施態様Bによる方法の概略フローチャートである。 本発明の実施形態1によるGOPの例の概略図である。 本発明の実施形態1によるGOPの例の概略図である。 本発明の実施形態1によるGOPの例の概略図である。 本発明の実施形態2による検出装置200の概略構成図である。 本発明の実施形態3による検出装置1000の概略構成図である。 本発明の実施形態4による検出デバイス400の概略構成図である。 本発明の実施形態5によるシステム2000の概略構成図である。 本発明の実施形態5によるシステム2000の概略構成図である。 本発明の実施形態5によるシステム2000の概略構成図である。
以下では、本発明の実施形態の添付図面を参照しながら、本発明の実施形態の技術的解決策を明確かつ完全に説明する。明らかに、説明されている実施形態は、本発明の実施形態の一部であり、本発明の実施形態の全部ではない。創造的な努力なしに本発明の実施形態に基づいて当業者によって得られる他のすべての実施形態は、本発明の保護範囲内に含まれるものとする。
図1Aは、本発明の一実施形態によるビデオシステム100のネットワーク構成の概略図である。ビデオシステム100は、ビデオサーバ110、1つ以上の送信デバイス120、およびビデオ端末130を含む。ビデオサーバ110によって送信されるビデオストリームは、送信デバイス120を介してビデオ端末130に送信される。
ビデオシステム100は、特に、図1Bに示すIPTVシステムであってもよい。IPTVシステムにおいて、ビデオサーバ110は、具体的にはビデオヘッドエンド(video headend、video HE)である。送信デバイス120は、特に、コアルータ(Core Router、CR)、ブロードバンドネットワークゲートウェイ(Broadband Network Gateway、BNG)、または光回線終端装置(Optical Line Terminal、OLT)などのネットワークデバイスを含む。ビデオ端末130は、具体的にはセットトップボックス(Set Top Box、STB)である。
図1Aおよび図1Bに示すビデオシステムでは、ビデオストリームがビデオサーバからビデオ端末に送信されるとき、ネットワーク状態の変化に起因してビデオストリームにパケット損失、遅延、ジッタ、または乱れなどの異常現象が発生する場合がある。これらの異常現象は、ビデオ端末の画面に表示されるビデオ画像において不規則な表示およびフレームフリーズなどが発生し、その結果、ユーザのビデオ視聴体験が損なわれるという問題をもたらす場合がある。したがって、ビデオ品質を評価することによって、ユーザのビデオ体験を監視する必要がある。
ビデオ品質が評価されているとき、通常は最初に、シーンが変化する位置、すなわちシーンチェンジフレームの位置を検出する必要があり、次に、そのシーンに基づいてビデオ品質が評価される。
例えば、ビデオ符号化中に生じるビデオ符号化損失は、ビデオ符号化タイプ、フレームレート、解像度、およびビットレートだけでなく、シーンの複雑度にも関連するので、ビデオ符号化損失を評価するために、シーンが変化する位置を最初に検出する必要がある。
別の例では、ビデオ送信プロセスでパケット損失が発生した場合、ビデオ端末のデコーダは、通常、破損したフレームに対して誤り補償を行うために破損したフレームの前のフレームの対応領域のビデオコンテンツを破損したフレームの破損した領域のコンテンツとして使用し、したがって、破損したフレームと前のフレームとのコンテンツ差分が小さいほど、補償効果は良くなる。しかしながら、破損したフレームがシーンチェンジフレームである場合、シーンチェンジフレームのコンテンツは、シーンチェンジフレームの前のフレームのコンテンツとほぼ完全に異なるため、補償効果は最悪である。したがって、ビデオ品質がパケット損失の影響を受ける場合、破損したフレームがシーンチェンジフレームであるかどうかを考慮する必要がある。
別の例では、符号化ビデオフレームシーケンスは、複数のピクチャグループ(Group of Picture、GOP)を含む。図2Aに示すように、各GOPは、Iフレームで開始され、その後にいくつかのPフレームおよびBフレームが続き、次のIフレームの前のフレームで終了する。Iフレームはフレーム内フレームであり、Pフレームは前方向参照フレームであり、Bフレームは双方向参照フレームである。GOP内のフレームでパケット損失が発生した場合、パケット損失に起因する復号誤りは、連続して次のビデオフレームに拡大し、通常はGOP内の最後のフレームで終了する。図2Bに示すように、GOP1内の4番目のフレームが破損した場合、通常、誤りは連続して拡大すると考えられ、GOPの最後のフレームで終了する。しかしながら、GOP内にシーンチェンジフレームが存在する場合、シーンチェンジフレームのコンテンツは、シーンチェンジフレームの前のフレームのコンテンツとほぼ完全に異なり、フレーム内予測符号化は、通常、符号化中に実行される(フレーム内予測符号化は、シーンチェンジフレームのほとんどのマクロブロックに対して実行される)。したがって、GOP内のシーンチェンジフレームよりも前のフレームが破損した場合、誤りの拡大は、シーンチェンジフレームで終了する。図2cに示すように、GOP1の6番目のフレームはシーンチェンジフレームであり、4番目のフレームが破損した場合、誤りの拡大は、6番目のフレームで終了する。したがって、ビデオ品質がパケット損失の影響を受ける場合、シーンチェンジフレームを検出する必要がある。
本発明のこの実施形態で説明されるフレームのシーケンスは、時間的に見てビデオのフレームのシーケンスであることに留意されたい。例えば、持続時間T(例えば10秒)を有するビデオは、時点t1におけるビデオフレーム1と時点t2におけるビデオフレーム2とを含む。t1がt2よりも小さい場合、例えば、t1が1秒30ミリ秒であり、t2が5秒40ミリ秒である場合、ビデオフレーム1はビデオフレーム2の前にある。
特定の実施態様では、シーンチェンジフレームを検出するための検出装置をビデオシステムに配置することができる。検出装置は、ビデオストリームが通過する任意のデバイス(例えば、送信デバイス120またはビデオ端末130)に配置されてもよいし、ミラーリング方式でビデオストリームを取得するように、ビデオストリームが通過する任意のデバイスをバイパスしてもよい。
図3Aおよび図3Bは、本発明の実施形態1による方法の概略フローチャートである。本発明の実施形態1における方法は、図1Aおよび図1Bに示したビデオシステム100に適用することができ、検出装置によって実行される。
本発明の実施形態1では、ビデオ(以下、検出対象ビデオと呼ぶ)におけるシーンチェンジフレームを検出する。検出対象ビデオは、ビデオファイルから読み出されてもよいし、取得したビデオストリームから取得されてもよい。検出対象ビデオは、特に、完全なビデオであってもよいし、ビデオのビデオセグメントであってもよい。比較的長いビデオの場合、通常は測定時間ウィンドウが設定され、測定時間ウィンドウ内のビデオセグメントが検出される。例えば、ビデオを検出しているとき、測定時間ウィンドウの長さは10秒に設定され、最初に、ビデオの0〜10秒のビデオセグメントが検出対象ビデオとして検出され、次に、10〜20秒のビデオセグメントが検出対象ビデオとして検出され、このような検出が類推によって行われる。
検出前に、検出モジュールは最初に、検出対象ビデオの各ビデオフレームのタイプ(Iフレーム、Pフレーム、またはBフレームなど)およびサイズを決定することができる。
例えば、ビデオストリームはリアルタイムで取得され、ビデオフレームに関する情報は、測定時間ウィンドウ(例えば、10〜20秒)内のビデオストリームに対応するパケットから抽出され、ビデオフレームのサイズ(バイト単位の)が計算される。ビデオフレームのサイズを計算する具体的なプロセスは以下の通りである。測定時間ウィンドウ内の各パケットに関して、最初に、現在のビデオフレームの開始識別子がパケットのヘッダから発見され、次に、その開始識別子を含むパケットのロード長および後続のパケットのロード長が、次のビデオフレームの開始識別子が発見されるまで累積される。累積合計が、現在のビデオフレームのサイズである。ビデオフレームのサイズを計算する特定の実施態様については、標準ITU-T P1201.2を参照されたい。
次に、測定時間ウィンドウ内のすべてのビデオフレームのタイプが判定される。具体的には、ビデオフレームのタイプは、パケットのパケットヘッダ内のフィールドrandom_access_indicatorに基づいて判定することができる。Iフレームに関しては、ビデオが暗号化されているか否かに関わらず、フレームのタイプは、random_access_indicatorに基づいて判定することができる。非Iフレームに関しては、ビデオが暗号化されていない場合、フレームのタイプは、ビデオフレームのフレームヘッダから直接取得することができる。ビデオが暗号化されているか、またはビデオフレームのフレームヘッダが失われている場合、最初にGOPモードを、フレームのサイズまたはフレームの表示タイムスタンプ(Present Time Stamp、PTS)に基づいて推定することができる。GOPモードは、通常、PBBPBBまたはPBBBPBBBである。GOPモードは、現在のPTSの値と前のPTSの値との差を使用して記述することができる。GOPモードが判定されたら、失われたまたは暗号化されたビデオフレームすべてのモードを判定することができる。ビデオフレームのタイプを判定する特定の実施態様については、標準ITU-T P1201.2を参照されたい。
上記の2つのステップを実行することによって、検出対象ビデオをいくつかのGOPに分割することができる。1つの検出対象ビデオは、通常、複数のGOPを含む。図5Aの例に示すように、1つの検出対象ビデオはN個のGOPを含み、Nは2以上の整数であると想定される。図5Aに示す例では、単色で塗りつぶされたビデオフレームは、Iフレームであり、斜線で塗りつぶされたビデオフレームは、Pフレームであり、塗りつぶされていないビデオフレームは、Bフレームである。
1ビデオフレームは、1画像である。ビデオのビデオフレームが符号化されているとき、ビデオフレームは、異なるタイプのフレーム、例えば、Iフレーム、Pフレーム、およびBフレームに符号化される。Iフレームは、フレーム内予測フレームであり、フレーム内のデータのみが符号化中に参照され、したがって、Iフレームは、完全な画像データを含む。Pフレームは、予測フレーム、言い換えれば一方向差分フレームであり、このフレームと前のIフレーム(またはPフレーム)との差分を記録するために使用される。Bフレームは、双方向補間予測フレーム、言い換えれば双方向差分フレームであり、このフレームと前のフレームおよび次のフレームの各々との差分を記録するために使用される。
Iフレームは、通常、Pフレームよりも大きく、Pフレームは、通常、Bフレームよりも大きい。一般に、Iフレームのサイズは、Pフレームの2〜5倍であり、Pフレームのサイズは、Bフレームの2〜5倍である。
シーンチェンジフレームのコンテンツとシーンチェンジフレームの前のフレームのコンテンツとの差分は比較的大きいので、シーンチェンジフレームはPフレームに符号化されるが、フレーム内予測符号化は、シーンチェンジフレーム内のほとんどのマクロブロックに対して、シーンチェンジフレーム内の別のマクロブロックを参照して実行される。したがって、符号化されたシーンチェンジフレームのサイズは比較的大きい。PフレームのサイズがIフレームのサイズの半分を超える場合、そのPフレームはシーンチェンジフレームである可能性が高い。したがって、Pフレームであるシーンチェンジフレームを検出するとき、PフレームとIフレームとの相対関係を参照することができる。
しかしながら、ビデオの画像コンテンツが比較的速く変化するとき、例えば、激しいサッカーの試合などの比較的激しい運動のショットシーンでは、隣接する2つのビデオフレーム間の相関性が小さいため、シーンチェンジフレームではないフレームが符号化されているとき、フレームは前のビデオフレームを参照してPフレームに符号化されるが、圧縮率は比較的低く、Pフレームのサイズは、比較的大きく、Iフレームのサイズの半分を超えることさえある。この場合、シーンチェンジフレームではない隣接するPフレーム間のサイズ差は大きくないが、シーンチェンジフレームであるPフレームと、このPフレームに隣接し、かつシーンチェンジフレームではないPフレームとのサイズ差は比較的大きい。したがって、Pフレームであるシーンチェンジフレームを検出するとき、隣接するPフレームのサイズの比を参照することもできる。
上記の分析に基づいて、以下では、図3Aを参照して、検出対象ビデオ中のシーンチェンジフレームを検出するための、本発明の実施形態1の実施態様Aを詳細に説明する。ビデオはN個のGOPを含み、Nは2以上の整数である。
検出対象ビデオは、ビデオファイルのビデオのセグメントであってもよいし、ビデオサーバによってビデオ端末に送信されるビデオストリームのビデオのセグメントなどの、ビデオストリームのビデオのセグメントであってもよい。これに対応して、検出装置は、ビデオストリームが通過する任意のデバイス(送信デバイス120またはビデオ端末130など)に配置されてもよいし、ミラーリング方式でビデオストリームを取得するように、ビデオストリームが通過する任意のデバイスをバイパスしてもよい。
図3Aに示すように、本発明の実施形態1の実施態様Aで提供される方法は、以下のステップを含む。
検出装置は、N個のGOPのうちのM番目のGOPから開始される各GOP内のすべてのPフレームのうちの最大PフレームPmaxがシーンチェンジフレームであるかどうかを判定するために、N個のGOPのうちのM番目のGOPから開始される各GOPに対して以下の操作を実行するが、ただし、Mは、1以上かつN以下である。
具体的には、検出は最初に、最初のGOP(すなわち、M=1)に対して行われてもよい。あるいは、検出は最初に、最初のGOPに続くGOPに対して行われてもよい。例えば、検出対象ビデオは、ビデオストリームの冒頭の、ビデオのセグメントであり、最初の2つのGOP内のフレームのサイズは、通常は参照値を持たないため、通常、検出は最初に3番目のGOP(M=3)に対して行われる。
ステップ102:K番目のGOP内のすべてのPフレームのうちの最大PフレームPmaxを判定するが、ただし、Pmaxのサイズは、
であり、Kは、MからNまでの範囲の変数であり、1≦M≦Nである。
ステップ103:
の間の相対値が第1の閾値以上であり、かつ
の間の相対値が第2の閾値以上であると判定された場合、Pmaxはシーンチェンジフレームであると判定するが、ただし、
は、Pmaxと、Pmaxに最も近くかつPmaxよりも前のシーンチェンジフレームとの間の複数のIフレームのサイズの中央値または平均値であり、
は、K番目のGOP内の複数のPフレームのサイズの中央値または平均値であり、第1の閾値は、0よりも大きくかつ1よりも小さく、第2の閾値は1よりも大きい。
また、
の間の相対値が第1の閾値よりも小さいか、または
の間の相対値が第2の閾値よりも小さいと判定された場合、Pmaxはシーンチェンジフレームではないと判定される。
図5Bに示すように、K番目のGOP内の2番目のPフレームはPmaxであり、K番目のGOP内のIフレームはシーンチェンジフレームではなく、(K−1)番目のGOPにはシーンチェンジフレームは存在せず、(K−2)番目のGOP内の3番目のPフレーム(以下、P’maxと呼ぶ)はシーンチェンジフレームである。この場合、Pmaxに最も近くかつPmaxよりも前のシーンチェンジフレームはP’maxである。
特定の実施態様では、ステップ102の前に、最初のGOP内のIフレームをシーンチェンジフレームとして決定することができる。K番目のGOP内のPmaxと最初のGOP内のIフレームとの間にシーンチェンジフレームが存在しない場合、Pmaxに最も近くかつPmaxよりも前のシーンチェンジフレームは、最初のGOP内のIフレームである。検出対象ビデオがビデオのビデオセグメントであり、シーンチェンジフレームがその検出対象ビデオよりも前に検出されるビデオセグメント(以下、前のビデオセグメントと呼ぶ)が存在する場合、Pmaxに最も近くかつPmaxよりも前のシーンチェンジフレームは、前のビデオセグメント内に位置し得る。
は、PmaxとPmaxに最も近くかつPmaxよりも前のシーンチェンジフレームとの間の全部または一部のIフレームのサイズの中央値または平均値を使用して計算することができる。図5Bに示すように、K番目のGOP内の2番目のPフレームはPmaxであり、Pmaxに最も近くかつPmaxよりも前のシーンチェンジフレームはP’maxであり、PmaxとP’maxとの間に2つのIフレームIkおよびIk−1が存在し、
はIkおよびIk−1のサイズの平均値である。
は、K番目のGOP内の全部または一部のPフレームのサイズの中央値または平均値とすることができる。好ましい実施態様は以下の通りである。
は、以下の式に従って計算される。
、ただし、P−m、…、およびP−1は、K番目のGOP内のPmaxよりも前のPフレームを表し、P1、…、およびPnは、K番目のGOP内のPmaxよりも後のPフレームを表し、Fは、P−m、…、およびP−1ならびにP1、…、およびPnのサイズの中央値または平均値を計算するために使用され、
m=min(num_before_P_frames,max_num)、
n=min(num_after_P_frames,max_num)、ただし、
num_before_P_framesは、K番目のGOP内のPmaxよりも前のPフレームの数であり、num_after_P_framesは、K番目のGOP内のPmaxよりも後のPフレームの数であり、max_numは、考慮する必要がある予め設定されたフレームの数を表す。図5Cに示すように、num_before_P_framesは7であり、num_after_P_framesは4であり、max_numは6に設定されている。この場合、mは6であり、nは4である。
が、上記の式を使用して計算され、最初のビデオフレームに最も近く、かつ最初のビデオフレームが位置するGOP内にある一部のビデオフレームが考慮されることから、Pフレーム中のシーンチェンジフレームを検出する精度がさらに向上する。
特定の実施態様では、
は、以下の式に従って計算することができる。
に簡単かつ効果的に反映させることができる。
第1の閾値は予め設定されてもよく、同じ第1の閾値が、同じ検出対象ビデオの異なるGOPで使用されてもよい。
に従って計算される場合、第1の閾値は0.53に設定され、あるいは
に従って計算される場合、第1の閾値は0.47に設定される。
あるいは、検出精度がさらに向上するように、第1の閾値は、計算によって取得されてよく、また動的に調整されてもよい。第1の閾値を計算し動的に調整するプロセスは以下の通りである。
検出対象ビデオのM番目のGOPが検出される前に、第1の閾値が最初に以下の式に従って計算される。
Imedianは、検出対象ビデオのすべてのIフレームのサイズの中央値または平均値であり、Pmedianは、検出対象ビデオのすべてのPフレームのサイズの中央値または平均値である。中央値を例として使用する。例えば、検出対象ビデオは、サイズが3、5、3、6、4、7、3、5、および4である9個のPフレームを含み、シーケンスは、昇順で3、3、3、4、4、5、5、6、および7であり、したがって、Pmedianは4であるか、あるいは、検出対象ビデオは、サイズが15、12、および18である3個のPフレームを含み、シーケンスは、昇順で12、15、および18であり、したがって、Imedianは15である。
Imedianは、ビデオのすべてのIフレームのサイズの中央値または平均値であり、Pmedianは、ビデオのすべてのPフレームのサイズの中央値または平均値であるため、有効な閾値を、式
を使用して正確に計算することができ、これにより、Pフレーム中のシーンチェンジフレームを正確に検出することができる。
次に、新しいPフレームがシーンチェンジフレームとして判定されるたびに、例えば、K番目のGOP内のPmaxがシーンチェンジフレームであると判定されるたびに、検出対象ビデオ中のシーンチェンジフレームとして判定されたPフレーム以外のPフレームのサイズの中央値または平均値が、新しいPmedianとして使用され、新しいIthresholdが、式
に従って計算され、新しいIthresholdが、次のGOP(K番目のGOPに続くGOP)内のPmaxがシーンチェンジフレームであるかどうかを判定するために使用されてもよい。
第1の閾値Ithresholdをリアルタイムで更新することができるため、シーンチェンジフレームとして判定されたPフレームの影響は適時に排除され、これにより、Pフレーム中のシーンチェンジフレームを検出する精度がさらに向上する。
特定の実施態様は以下の通りとすることができる。第1の閾値が式
に従って取得される場合、
であり、あるいは第1の閾値が式
に従って取得される場合、
である。
特定の実施態様では、
は、以下の式に従って計算することができる。
に簡単かつ効果的に反映させることができる。
第2の閾値は通常は予め設定されてもよく、同じ第2の閾値が、同じ検出対象ビデオの異なるGOPで使用されてもよい。例えば、第2の閾値は1.51に設定される。
本発明の実施形態1の実施態様Aは、ステップ101をさらに含むことができる。
ステップ101:N個のGOPのうちのM番目のGOPからN番目のGOP内のIフレームの中からシーンチェンジフレームを検出する。
ステップ101において、K番目のGOP内のIフレームがシーンチェンジフレームであるかどうかは、特に、K番目のGOP内のIフレームのサイズと(K−1)番目のGOP内のIフレームのサイズとの比、(K−1)番目のGOP内のすべてのPフレームのサイズの平均値とK番目のGOP内のすべてのPフレームのサイズの平均値との比、または(K−1)番目のGOP内のすべてのBフレームのサイズの平均値とK番目のGOP内のすべてのBフレームのサイズの平均値との比に基づいて判定することができる。特定の実施態様は以下の通りである。
1.K番目のGOP内のIフレームのサイズと(K−1)番目のGOP内のIフレームのサイズとの比rIを計算する。
2.(K−1)番目のGOP内のすべてのPフレームのサイズの平均値とK番目のGOP内のすべてのPフレームのサイズの平均値との比rpを計算する。
3.(K−1)番目のGOP内のすべてのBフレームのサイズの平均値とK番目のGOP内のすべてのBフレームのサイズの平均値との比rBを計算する。
4.比rIが、第1の閾値よりも大きいかまたは第2の閾値よりも小さい場合、以下の条件(1)および条件(2)についてさらに判定し、そうでない場合、K番目のGOP内のIフレームはシーンチェンジフレームではないと判定する。
条件(1):rPが第3の閾値よりも小さいか、またはrPが第4の閾値よりも大きい。
条件(2):rBが第5の閾値よりも小さいか、またはrBが第6の閾値よりも大きい。
条件(1)と条件(2)の両方が満たされた場合、K番目のGOP内のIフレームはシーンチェンジフレームであると判定され、そうでない場合、K番目のGOP内のIフレームはシーンチェンジフレームではないと判定される。
上記の実施態様の具体的な詳細については、標準ITU-T P1201.2を参照されたい。
特定の実施態様では、最初のGOP内のIフレームをシーンチェンジフレームとして直接決定することができる。Kが1ではない場合、上記の方法を使用して、K番目のGOP内のIフレームがシーンチェンジフレームであるかどうかを判定することができる。
特定の実施態様では、図3Bに示すように、実施形態Aは、実施形態Jを使用して実施することができ、最初にステップ101が実行され、次にステップ102および103が実行される、すなわち、最初に、M番目のGOPからN番目のGOP内のIフレーム中のシーンチェンジフレームが検出され、次に、M番目のGOPからN番目のGOP内のPフレーム中のシーンチェンジフレームが検出される。例えば、最初にGOP1内のIフレームがシーンチェンジフレームとして決定され、次に、GOP M(例えばGOP1)からGOP N内のIフレームがシーンチェンジフレームであるかどうかが判定され、GOP M(例えばGOP1)からGOP N内のPmaxがシーンチェンジフレームであるかどうかが判定される。
あるいは、特定の実施態様では、図3Cに示すように、実施態様Aは、実施態様Kを使用して実施することができ、ステップ101は、ステップ102および103と組み合わせて実行され、シーンチェンジフレームは、ビデオフレームのシーケンスに基づいて検出される、すなわち、GOPのシーケンスに基づいて、M番目の(例えば、最初の)GOPから開始して現在のGOP内のシーンチェンジフレームが検出され、現在のGOP内のシーンチェンジフレームが検出されたら、最初に、現在のGOP内のIフレームがシーンチェンジフレームであるかどうかが検出され、次に、現在のGOP内のPmaxがシーンチェンジフレームであるかどうかが検出される。例えば、最初にGOP1内のIフレームがシーンチェンジフレームとして決定され、次に、GOP1内のPmax、GOP2内のIフレーム、GOP2内のPmax、GOP3内のIフレーム、GOP3内のPmax、…、GOP N内のIフレーム、またはGOP N内のPmaxがシーンチェンジフレームであるかどうかが順番に判定される。つまり、KがNよりも小さい場合、K番目のGOP内のPmaxがシーンチェンジフレームであるかどうかが判定された後に、(K+1)番目のGOP内のIフレームがシーンチェンジフレームであるかどうかが判定される。
実施態様Kを使用して実施態様Aが実施される場合、シーンが短時間に連続して変化する確率が比較的低いため、Iフレームがシーンチェンジフレームであるかどうかが判定される前に、最初に、Iフレームと前のシーンチェンジフレームとの間の距離(以下、第1の距離と呼ぶ)が計算される。第1の距離が距離閾値以下である場合、Iフレームはシーンチェンジフレームではないと判定され、そうでない場合、標準ITU-T P1201.2で提供される方法に従って、Iフレームがシーンチェンジフレームであるかどうかをさらに判定することができる。特定の実施態様は以下の通りである。KがNよりも小さいとき、K番目のGOP内のPmaxがシーンチェンジフレームであるかどうかが判定された後、(K+1)番目のGOP内のIフレーム(以下、現在のIフレームと呼ぶ)と、現在のIフレームに最も近くかつ現在のIフレームよりも前のシーンチェンジフレームとの間の距離が距離閾値以下であると判定された場合、現在のIフレームはシーンチェンジフレームではないと判定され、そうでない場合、標準ITU-T P1201.2で提供される方法に従って、現在のIフレームがシーンチェンジフレームであるかどうかをさらに判定することができる。
本発明で説明されている、2つのビデオフレーム間の距離は、2つのビデオフレーム間のビデオフレームの数である。X番目のビデオフレームとY番目のビデオフレームとの間の距離はY−Nであり、2つの隣接するビデオフレーム間の距離は1である。
距離閾値は予め設定されてもよく、同じ距離閾値が、同じ検出対象ビデオの異なるGOPで使用されてもよい。
あるいは、検出精度がさらに向上するように、距離閾値は決定されてもよく、また動的に調整されてもよい。距離閾値を決定し動的に調整するプロセスは以下の通りである。
N個のGOPのうちのM番目のGOPからN番目のGOP内のIフレーム中のシーンチェンジフレームが検出される前に、最初に、初期距離閾値が決定され、決定される初期距離閾値は、以下の3つの長さのうちの1つとすることができる。
(1)N個のGOPのうちの最長のGOPの長さ、
(2)N個のGOPの長さの平均値、および
(3)長さL、ただし、長さLを有するGOPの数はN個のGOPのうちで最大である
本発明で説明されているGOPの長さは、そのGOPに含まれるビデオフレームの数である。
例えば、検出対象ビデオは、長さが10、6、8、7、8、7、9、および8である8つのGOPを含み、方法(1)によれば、初期距離閾値は10に決定され、方法(2)によれば、初期距離閾値は8に決定され、方法(3)によれば、長さ8を有するGOPの数が最大であるため、初期距離閾値は8に決定される。
固定GOP長を使用して符号化が行われる場合、すべてのGOPの長さは同じであり、したがって、上記の3つの方法で計算される初期距離閾値は同じである。
次に、新しいシーンチェンジフレームが決定されたとき、その新しいシーンチェンジフレームと、その新しいシーンチェンジフレームに最も近くかつその新しいシーンチェンジフレームよりも前のシーンチェンジフレームとの間の距離(以下、第2の距離と呼ぶ)が距離閾値よりも小さい場合、距離閾値は、第2の距離に更新される。
本発明の実施形態1の実施態様Aでは、ビデオ中のシーンチェンジフレームが検出されるとき、Pフレーム中のシーンチェンジフレームを検出するために、ビデオのGOP内のすべてのPフレームのうちの最大PフレームPmaxがシーンチェンジフレームであるかどうかが、PmaxとPmaxに最も近くかつPmaxよりも前のシーンチェンジフレームとの間の複数のIフレームのサイズの中央値もしくは平均値と、Pmaxのサイズ
との相対関係または
と、GOP内の複数のPフレームのサイズの中央値もしくは平均値との相対関係に基づいて判定され、これにより、シーンチェンジフレームの検出漏れが効果的に低減される。
また、ビデオ符号化において、Pフレームは、通常はBフレームよりも大きく、Pフレームは、通常はBフレームのサイズの2〜5倍である。シーンチェンジフレームのコンテンツとシーンチェンジフレームの前のフレームのコンテンツとの差分は比較的大きいので、シーンチェンジフレームはPフレームに符号化されるが、フレーム内予測符号化は、シーンチェンジフレーム内のほとんどのマクロブロックに対して実行される。したがって、符号化されたシーンチェンジフレームのサイズは比較的大きい。PフレームがBフレームのサイズの2倍よりも小さい場合、Pフレームはシーンチェンジフレームである可能性が高い。したがって、Pフレームであるシーンチェンジフレームを検出するとき、PフレームとBフレームとの相対関係を参照することができる。
上記の分析に基づいて、以下では、図4Aを参照して、検出対象ビデオ中のシーンチェンジフレームを検出するための、本発明の実施形態1の実施態様Bを詳細に説明する。ビデオはN個のGOPを含み、Nは2以上の整数である。
図4Aに示すように、本発明の実施形態1の実施態様Bで提供される方法は、以下のステップを含む。
ステップ202:ステップ202はステップ102と同じであり、ここでは詳細は再度説明しない。
ステップ203:
の間の相対値が第1の閾値以上であり、
の間の相対値が第2の閾値以上であり、かつK番目のGOP内にBフレームが存在しないと判定された場合、または、
の間の相対値が第1の閾値以上であり、
の間の相対値が第2の閾値以上であり、K番目のGOP内にBフレームが存在し、かつ
の間の相対値が第3の閾値以上であると判定された場合、Pmaxはシーンチェンジフレームであると判定するが、ただし、
は、Pmaxと、Pmaxに最も近くかつPmaxよりも前のシーンチェンジフレームとの間の複数のIフレームのサイズの平均値であり、
は、K番目のGOP内の複数のPフレームのサイズの中央値または平均値であり、
は、Pmaxと、Pmaxに最も近くかつPmaxよりも前のシーンチェンジフレームとの間のすべてのBフレームのサイズの中央値または平均値であり、第1の閾値は、0よりも大きくかつ1よりも小さく、第2の閾値は1よりも大きく、第3の閾値は1よりも大きい。
また、
の間の相対値が第1の閾値よりも小さいか、または
の間の相対値が第2の閾値よりも小さいか、または
の間の相対値が第3の閾値よりも小さいと判定された場合、Pmaxはシーンチェンジフレームではないと判定される。
の間の相対値が第1の閾値以上であることを判定するための方法および
の間の相対値が第2の閾値以上であることを判定するための方法は、ステップ102に関して説明したものと同じであり、ここでは詳細は再度説明しない。
特定の実施態様では、
は、以下の式に従って計算することができる。
に簡単かつ効果的に反映させることができる。
第3の閾値は予め設定されてもよく、同じ第3の閾値が、同じ検出対象ビデオの異なるGOPで使用されてもよい。
に従って計算される場合、第1の閾値は2.87に設定され、あるいは
に従って計算される場合、第1の閾値は1.87に設定される。
あるいは、検出精度がさらに向上するように、第3の閾値は、計算によって取得されてよく、また動的に調整されてもよい。第3の閾値を計算し動的に調整するプロセスは以下の通りである。
検出対象ビデオのM番目のGOPが検出される前に、第3の閾値が最初に以下の式に従って計算される。
Bthresholdは第3の閾値であり、Pmedianは、ビデオのすべてのPフレームのサイズの中央値または平均値であり、Bmedianは、検出対象ビデオのすべてのBフレームのサイズの中央値または平均値である。
Pmedianは、ビデオのすべてのPフレームのサイズの中央値または平均値であり、Bmedianは、ビデオのすべてのBフレームのサイズの中央値または平均値であるため、有効な閾値を、式
を使用して正確に計算することができ、これにより、Pフレーム中のシーンチェンジフレームを正確に検出することができる。
次に、新しいPフレームがシーンチェンジフレームとして判定されるたびに、K番目のGOP内のPmaxがシーンチェンジフレームであると判定された場合、検出対象ビデオ中のシーンチェンジフレームとして判定されたPフレーム以外のPフレームのサイズの中央値または平均値が、新しいPmedianとして使用され、新しいBthresholdが、式
に従って計算され、新しいBthresholdが、次のGOP内のPmaxがシーンチェンジフレームであるかどうかを判定するために使用されてもよい。
第3の閾値Bthresholdをリアルタイムで更新することができるため、シーンチェンジフレームとして判定されたPフレームの影響は適時に排除され、これにより、Pフレーム中のシーンチェンジフレームを検出する精度がさらに向上する。
本発明の実施形態1の実施態様Bは、ステップ201をさらに含むことができ、ステップ201は、ステップ101と同じであり、ここでは詳細は再度説明しない。
特定の実施態様において、実施態様Bは、図4Bおよび図4Cに示すように、実施態様Aの2つの実施態様(実施態様Jおよび実施態様K)と同様の実施態様を使用して実施することもできる。
本発明の実施形態1の実施態様Bでは、ビデオ中のシーンチェンジフレームが検出されるとき、Pフレーム中のシーンチェンジフレームを検出するために、ビデオのGOP内のすべてのPフレームのうちの最大PフレームPmaxがシーンチェンジフレームであるかどうかが、PmaxとPmaxに最も近くかつPmaxよりも前のシーンチェンジフレームとの間の複数のIフレームのサイズの中央値もしくは平均値と、Pmaxのサイズ
との相対関係または
と、GOP内の複数のPフレームのサイズの中央値もしくは平均値との相対関係またはPmaxとPmaxに最も近くかつPmaxよりも前のシーンチェンジフレームとの間のすべてのBフレームのサイズの中央値もしくは平均値と、
との相対関係に基づいて判定され、これにより、シーンチェンジフレームの検出漏れが効果的に低減される。また、Pフレーム中のシーンチェンジフレームを検出しているとき、IフレームおよびPフレームのサイズだけでなく、Bフレームのサイズも考慮されるため、Pフレーム中のシーンチェンジフレームを検出する精度がさらに向上する。
本発明の実施形態1に基づいて、本発明の実施形態2は、ビデオ中のシーンチェンジフレームを検出するための検出装置200を提供する。ビデオはN個のGOPを含み、Nは2以上の整数である。図6に示すように、検出装置200は、第1の判定部210および第2の判定部220を含む。
実施形態2の第1の実施態様は、実施形態1の実施態様Aに対応し、詳細は以下の通りである。
第1の判定部210は、K番目のGOP内のすべてのPフレームのうちの最大PフレームPmaxを判定し、Pmaxのサイズは、
であり、Kは、MからNまでの範囲の変数であり、1≦M≦Nである、ように構成される。
第2の判定部220は、
の間の相対値が第1の閾値以上であり、かつ
の間の相対値が第2の閾値以上であると判定された場合、Pmaxはシーンチェンジフレームであると判定し、
は、Pmaxと、Pmaxに最も近くかつPmaxよりも前のシーンチェンジフレームとの間の複数のIフレームのサイズの中央値または平均値であり、
は、K番目のGOP内の複数のPフレームのサイズの中央値または平均値であり、第1の閾値は、0よりも大きくかつ1よりも小さく、第2の閾値は1よりも大きい、ように構成される。
具体的には、第1の判定部210は、実施形態1の実施態様Aの方法のステップ102を実行するように特に構成されてもよく、第2の判定部220は、実施形態1の実施態様Aの方法のステップ103を実行するように特に構成されてもよい。
さらに、第2の判定部220は、N個のGOPのうちのM番目からN番目のGOP内のIフレームの中からシーンチェンジフレームを検出するようにさらに構成されてもよく、実施形態1の実施態様Aの方法のステップ101を実行するように特に構成されてもよい。
実施形態2の第2の実施態様は、実施形態1の実施態様Bに対応し、詳細は以下の通りである。
第1の判定部210は、K番目のGOP内のすべてのPフレームのうちの最大PフレームPmaxを判定し、Pmaxのサイズは、
であり、Kは、MからNまでの範囲の変数であり、1≦M≦Nである、ように構成される。
第2の判定部220は、
の間の相対値が第1の閾値以上であり、
の間の相対値が第2の閾値以上であり、かつK番目のGOP内にBフレームが存在しないと判定された場合、または、
の間の相対値が第1の閾値以上であり、
の間の相対値が第2の閾値以上であり、K番目のGOP内にBフレームが存在し、かつ
の間の相対値が第3の閾値以上であると判定された場合、Pmaxはシーンチェンジフレームであると判定し、
は、Pmaxと、Pmaxに最も近くかつPmaxよりも前のシーンチェンジフレームとの間の複数のIフレームのサイズの中央値または平均値であり、
は、K番目のGOP内の複数のPフレームのサイズの中央値または平均値であり、
は、Pmaxと、Pmaxに最も近くかつPmaxよりも前のシーンチェンジフレームとの間のすべてのBフレームのサイズの中央値または平均値であり、第1の閾値は、0よりも大きくかつ1よりも小さく、第2の閾値は1よりも大きく、第3の閾値は1よりも大きい、ように構成される。
具体的には、第1の判定部210は、実施形態1の実施態様Bの方法のステップ202を実行するように特に構成されてもよく、第2の判定部220は、実施形態1の実施態様Bの方法のステップ203を実行するように特に構成されてもよい。
さらに、第2の判定部220は、N個のGOPのうちのM番目からN番目のGOP内のIフレームの中からシーンチェンジフレームを検出するようにさらに構成されてもよく、実施形態1の実施態様Bの方法のステップ201を実行するように特に構成されてもよい。
本発明の実施形態2では、ビデオ中のシーンチェンジフレームが検出されるとき、Iフレーム中のシーンチェンジフレームが検出され、ビデオのGOP内のすべてのPフレームのうちの最大PフレームPmaxがシーンチェンジフレームであるかどうかが、Pフレーム中のシーンチェンジフレームを検出するために、PmaxとPmaxに最も近くかつPmaxよりも前のシーンチェンジフレームとの間の複数のIフレームのサイズの中央値もしくは平均値と、Pmaxのサイズ
との相対関係または
と、GOP内の複数のPフレームのサイズの中央値もしくは平均値との相対関係に基づいて判定され、これにより、シーンチェンジフレームの検出漏れが効果的に低減される。本発明の実施形態2の実施態様Bでは、Pフレーム中のシーンチェンジフレームを検出しているとき、IフレームおよびPフレームのサイズだけでなく、Bフレームのサイズも考慮されるため、Pフレーム中のシーンチェンジフレームを検出する精度がさらに向上する。
本発明の実施形態1に従って、本発明の実施形態3は、検出装置1000を提供する。図7に示すように、検出装置1000は、プロセッサ1010およびメモリ1020を含み、プロセッサ1010とメモリ1020とはバスを使用して相互通信を行う。
メモリ1020は、コンピュータ動作命令を記憶するように構成される。メモリ1020は、高速RAMメモリを含んでもよく、少なくとも1つの磁気ディスクメモリなどの不揮発性メモリ(non-volatile memory)をさらに含んでもよい。
プロセッサ1010は、メモリ1020に記憶されたコンピュータ動作命令を実行するように構成される。プロセッサ1010は、具体的には中央処理装置(CPU、central processing unit)であってもよく、コンピュータのコアユニットである。
プロセッサ1010は、検出装置1000が実施形態1の方法を実行できるようにするためにコンピュータ動作命令を実行する。
本発明の実施形態3では、ビデオ中のシーンチェンジフレームを検出するときに、Pフレーム中のシーンチェンジフレームを検出することができ、これにより、シーンチェンジフレームの検出漏れを効果的に低減することができる。
本発明の実施形態1〜3に従って、本発明の実施形態4は、検出デバイス400を提供する。図8に示すように、検出デバイス400は、媒体部4010および検出装置4020を含む。
媒体部4010は、ビデオ(以下、検出対象ビデオと呼ぶ)を取得し、そのビデオを検出装置4020に送信するように構成される。媒体部4010は、特に、ビデオファイルから検出対象ビデオを読み出してもよいし、ビデオサーバによって送信される受信メディアストリームから検出対象ビデオを取得してもよい。検出対象ビデオは、特に、完全なビデオであってもよいし、ビデオのビデオセグメントであってもよい。検出対象ビデオがビデオセグメントである場合、媒体部4010は、ビデオセグメントが配置されているビデオ(すなわち、ビデオセグメントを含むビデオ)を検出装置4020に送信してもよく、検出装置4020は、検出対象ビデオ中のシーンチェンジフレームを検出するために、受信したビデオのビデオセグメントを検出する。
検出装置4020は、特に、実施形態2で提供される検出装置200または実施形態3で提供される検出装置1000であってもよく、媒体部4010から検出対象ビデオを取得し、実施形態2で提供される検出装置200または実施形態3で提供される検出装置1000によって実行される動作を実行する。
検出装置4020は、検出されたシーンチェンジフレームに基づいて、検出対象ビデオの品質、または検出対象ビデオが配置されているビデオの品質をさらに評価してもよい。
本発明の実施形態4では、ビデオ中のシーンチェンジフレームを検出するときに、Pフレーム中のシーンチェンジフレームを検出することができ、これにより、シーンチェンジフレームの検出漏れを効果的に低減することができる。
本発明の実施形態1〜3に従って、本発明の実施形態5は、ビデオ品質評価を実施するためのシステム2000を提供する。図9Aに示すように、システム2000は、ビデオサーバ2010、送信デバイス2020、およびビデオ端末2030を含む。ビデオサーバ2010によって送信されるビデオストリームは、送信デバイス2020を介してビデオ端末2030に送信される。
特定の実施態様では、送信デバイス2020またはビデオ端末2030は、特に、実施形態2で提供される検出装置200または実施形態3で提供される検出装置1000を含んでもよい。特定の実施態様では、送信デバイス2020およびビデオ端末2030の両方は、実施形態2で提供される検出装置200または実施形態3で提供される検出装置1000を含んでもよい。送信デバイス2020またはビデオ端末2030は、特に、実施形態4で提供される検出デバイス400であってもよい。
別の特定の実施態様では、システムは、検出装置2040をさらに含む。図9Bおよび図9Cに示すように、検出装置2040は、特に、実施形態2で提供される検出装置200または実施形態3で提供される検出装置1000であってもよい。送信デバイス2020またはビデオ端末2030は、検出装置2040に接続され、検出装置2040は、検出装置2040に接続された送信デバイス2020またはビデオ端末2030を使用してビデオストリームを取得する。特定の実施態様では、送信デバイス2020およびビデオ端末2030は、別々に1つの検出装置2040に接続されてもよい。
本発明の実施形態5では、ビデオ中のシーンチェンジフレームを検出するときに、Pフレーム中のシーンチェンジフレームを検出することができ、これにより、シーンチェンジフレームの検出漏れを効果的に低減することができる。
当業者であれば、本明細書に開示されている実施形態で説明された例との組み合わせにおいて、ユニットおよびアルゴリズムステップが、電子ハードウェアまたはコンピュータソフトウェアと電子ハードウェアとの組み合わせによって実施され得ることを認識することができる。機能がハードウェアとソフトウェアのどちらによって実行されるかは、技術的解決策の特定の用途および設計制約条件に依存する。当業者であれば、特定の用途ごとに、説明された機能を実施するために異なる方法を使用することができるが、その実施態様は本発明の範囲を超えると考えられるべきではない。
簡便かつ簡単な説明のために、上記のシステム、装置、およびユニットの詳細な動作プロセスについては、上記の方法の実施形態における対応するプロセスを参照することができ、ここでは詳細は再度説明していないことが、当業者によって明確に理解され得る。
本願で提供されているいくつかの実施形態に関して、開示されているシステム、装置、および方法が他の方法で実施され得ることを理解されたい。例えば、説明されている装置の実施形態は単なる例である。例えば、ユニットの分割は、単なる論理的な機能の分割であり、実際の実施態様では他の分割であってもよい。例えば、複数のユニットまたはコンポーネントが、別のシステムとして組み合わされるか、もしくは統合されてもよいし、一部の特徴が、無視されるか、もしくは実行されなくてもよい。さらに、提示したまたは述べた相互結合または直接的な結合もしくは通信接続は、いくつかのインタフェースを使用して実施されてもよい。装置またはユニット間の間接的な結合または通信接続は、電子的形態、機械的形態、または他の形態で実施されてもよい。
別々の部分として説明されているユニットは、物理的に別々であってもなくてもよく、ユニットとして提示されている部分は、物理的なユニットであってもなくてもよく、1つの位置に配置されても、複数のネットワークユニットに分散されてもよい。ユニットの一部または全部は、実施形態の解決策の目的を達成するために実際の必要に応じて選択されてもよい。
また、本発明の実施形態における機能ユニットは、1つの処理ユニットに統合されてもよいし、これらのユニットの各々は、物理的に単独で存在してもよいし、2つ以上のユニットが、1つのユニットに統合されてもよい。
機能が、ソフトウェア機能ユニットの形態で実施され、独立した製品として販売または使用される場合、機能は、コンピュータ可読記憶媒体に記憶されてもよい。こうした理解に基づいて、本質的に、本発明の技術的解決策、または従来技術に寄与する部分、または技術的解決策一部は、ソフトウェア製品の形態で実施されてもよい。コンピュータソフトウェア製品は、記憶媒体に記憶され、コンピュータデバイス(パーソナルコンピュータ、サーバ、またはネットワークデバイスであってもよい)に、本発明の実施形態で説明した方法のステップの全部または一部を実行するよう命令するためのいくつかの命令を含む。上記の記憶媒体は、USBフラッシュドライブ、リムーバブルハードディスク、読み出し専用メモリ(ROM、Read-Only Memory)、ランダムアクセスメモリ(RAM、Random Access Memory)、磁気ディスク、または光ディスクなど、プログラムコードを記憶することができる任意の媒体を含む。
上記の説明は、本発明の特定の実施態様に過ぎず、本発明の保護範囲を限定するものではない。本発明で開示された技術的範囲内で当業者に容易に想到される変形例または置換例は、本発明の保護範囲内に含まれるものとする。したがって、本発明の保護範囲は、特許請求の範囲の保護範囲に従うものとする。
100 ビデオシステム
110 ビデオサーバ
120 送信デバイス
130 ビデオ端末
200 検出装置
210 第1の判定部
220 第2の判定部
400 検出デバイス
1000 検出装置
1010 プロセッサ
1020 メモリ
2000 システム
2010 ビデオサーバ
2020 送信デバイス
2030 ビデオ端末
2040 検出装置
4010 媒体部
4020 検出装置
第1の態様によれば、シーンチェンジフレームを検出するための方法が提供される。ビデオは、N個のピクチャグループGOPを含み、Nは、2以上の整数であり、本方法は、
K番目のGOP内のすべてのPフレームのうちの最大PフレームPmaxを判定するステップであって、Pmaxのサイズが、
であり、Kが、MからNまでの範囲の変数であり、1≦M≦Nである、ステップと、
の間の相対値が第1の閾値以上であり、かつ
の間の相対値が第2の閾値以上であると判定された場合に、Pmaxはシーンチェンジフレームであると判定するステップであって、
が、Pmaxと、Pmaxに最も近くかつPmaxよりも前のシーンチェンジフレームとの間の複数のIフレームのサイズの中央値または平均値であり、
が、K番目のGOP内の複数のPフレームのサイズの中央値または平均値であり、第1の閾値が、0よりも大きくかつ1よりも小さく、第2の閾値が1よりも大きい、ステップと
を含む。
第2の態様によれば、ビデオ品質評価を実施するための方法が提供される。ビデオは、N個のピクチャグループGOPを含み、Nは、2以上の整数であり、本方法は、
K番目のGOP内のすべてのPフレームのうちの最大PフレームPmaxを判定するステップであって、Pmaxのサイズが、
であり、Kが、MからNまでの範囲の変数であり、1≦M≦Nである、ステップと、
の間の相対値が第1の閾値以上であり、
の間の相対値が第2の閾値以上であり、かつK番目のGOP内にBフレームが存在しないと判定された場合、または、
の間の相対値が第1の閾値以上であり、
の間の相対値が第2の閾値以上であり、K番目のGOP内にBフレームが存在し、かつ
の間の相対値が第3の閾値以上であると判定された場合、Pmaxはシーンチェンジフレームであると判定するステップであって、
が、Pmaxと、Pmaxに最も近くかつPmaxよりも前のシーンチェンジフレームとの間の複数のIフレームのサイズの中央値または平均値であり、
が、K番目のGOP内の複数のPフレームのサイズの中央値または平均値であり、
が、Pmaxと、Pmaxに最も近くかつPmaxよりも前のシーンチェンジフレームとの間のすべてのBフレームのサイズの中央値または平均値であり、第1の閾値が、0よりも大きくかつ1よりも小さく、第2の閾値が1よりも大きく、第3の閾値が1よりも大きい、ステップと
を含む。
第4の態様によれば、ビデオ中のシーンチェンジフレームを検出するための検出装置が提供される。ビデオは、N個のピクチャグループGOPを含み、Nは、2以上の整数であり、検出装置は、第1の判定部および第2の判定部を含む。
検出装置4020は、検出されたシーンチェンジフレームに基づいて、検出対象ビデオの品質、またはビデオセグメントが配置されているビデオの品質をさらに評価してもよい。

Claims (28)

  1. ビデオ中のシーンチェンジフレームを検出するための方法であって、前記ビデオが、N個のピクチャグループGOPを含み、Nが、2以上の整数であり、前記方法が、
    K番目のGOP内のすべてのPフレームのうちの最大PフレームPmaxを判定するステップであって、Pmaxのサイズが、
    であり、Kが、MからNまでの範囲の変数であり、1≦M≦Nである、ステップと、
    の間の相対値が第1の閾値以上であり、かつ
    の間の相対値が第2の閾値以上であると判定された場合に、Pmaxはシーンチェンジフレームであると判定するステップであって、
    が、Pmaxと、Pmaxに最も近くかつPmaxよりも前のシーンチェンジフレームとの間の複数のIフレームのサイズの中央値または平均値であり、
    が、前記K番目のGOP内の複数のPフレームのサイズの中央値または平均値であり、前記第1の閾値が、0よりも大きくかつ1よりも小さく、前記第2の閾値が1よりも大きい、ステップと
    を含む、方法。
  2. 前記方法が、

    に従って前記第1の閾値を計算するステップ、または

    に従って前記第1の閾値を計算するステップ
    をさらに含み、
    Ithresholdは、前記第1の閾値であり、Imedianは、前記ビデオのすべてのIフレームのサイズの中央値または平均値であり、Pmedianは、前記ビデオのすべてのPフレームのサイズの中央値または平均値である、請求項1に記載の方法。
  3. 前記第1の閾値が前記式
    に従って取得される場合、
    であり、または
    前記第1の閾値が前記式
    に従って取得される場合、
    である、請求項2に記載の方法。
  4. 前記方法が、
    前記K番目のGOP内のPmaxがシーンチェンジフレームとして判定された後に、前記ビデオ中のシーンチェンジフレームとして判定されたPフレーム以外のPフレームのサイズの中央値または平均値を新しいPmedianとして使用し、前記式
    に従って新しいIthresholdを計算するステップであって、前記新しいIthresholdが、次のGOP内のPmaxがシーンチェンジフレームであるかどうかを判定するために使用される、ステップをさらに含む、請求項2または3に記載の方法。
  5. 前記方法が、
    前記N個のGOPのうちのM番目のGOPからN番目のGOP内のIフレームの中からシーンチェンジフレームを検出するステップと、
    KがNよりも小さい場合、前記K番目のGOP内のPmaxがシーンチェンジフレームであるかどうかが判定された後に、(K+1)番目のGOP内のIフレームがシーンチェンジフレームであるかどうかを判定するステップと
    をさらに含み、
    前記N個のGOPのうちのM番目のGOPからN番目のGOP内のIフレームの中からシーンチェンジフレームを検出する前記ステップが、
    第1の距離が距離閾値以下であると判定された場合に、前記(K+1)番目のGOP内の前記Iフレームはシーンチェンジフレームではないと判定するステップであって、前記第1の距離が、前記(K+1)番目のGOP内の前記Iフレームと、前記(K+1)番目のGOP内の前記Iフレームに最も近くかつ前記(K+1)番目のGOP内の前記Iフレームよりも前のシーンチェンジフレームとの間の距離である、ステップを特に含む、請求項1から4のいずれか一項に記載の方法。
  6. 前記方法が、
    前記距離閾値を設定するステップであって、前記距離閾値が、以下の3つの長さのうちの1つ、すなわち、
    前記N個のGOPのうちの最長のGOPの長さ、
    前記N個のGOPの長さの中央値または平均値、および
    長さLであって、前記長さLを有するGOPの数が、前記N個のGOPのうちで最大である、長さL
    のうちの1つである、ステップをさらに含む、請求項5に記載の方法。
  7. 新しいシーンチェンジフレームが判定されたときに、第2の距離が前記距離閾値よりも小さい場合、前記距離閾値が前記第2の距離に更新され、前記第2の距離が、特に、前記新しいシーンチェンジフレームと、前記新しいシーンチェンジフレームに最も近くかつ前記新しいシーンチェンジフレームよりも前のシーンチェンジフレームとの間の距離である、請求項5または6に記載の方法。
  8. ビデオ中のシーンチェンジフレームを検出するための方法であって、前記ビデオが、N個のピクチャグループGOPを含み、Nが、2以上の整数であり、前記方法が、
    K番目のGOP内のすべてのPフレームのうちの最大PフレームPmaxを判定するステップであって、Pmaxのサイズが、
    であり、Kが、MからNまでの範囲の変数であり、1≦M≦Nである、ステップと、
    の間の相対値が第1の閾値以上であり、
    の間の相対値が第2の閾値以上であり、かつ前記K番目のGOP内にBフレームが存在しないと判定された場合、または、
    の間の相対値が第1の閾値以上であり、
    の間の相対値が第2の閾値以上であり、前記K番目のGOP内にBフレームが存在し、かつ
    の間の相対値が第3の閾値以上であると判定された場合、Pmaxはシーンチェンジフレームであると判定するステップであって、
    が、Pmaxと、Pmaxに最も近くかつPmaxよりも前のシーンチェンジフレームとの間の複数のIフレームのサイズの中央値または平均値であり、
    が、前記K番目のGOP内の複数のPフレームのサイズの中央値または平均値であり、
    が、Pmaxと、Pmaxに最も近くかつPmaxよりも前の前記シーンチェンジフレームとの間のすべてのBフレームのサイズの中央値または平均値であり、前記第1の閾値が、0よりも大きくかつ1よりも小さく、前記第2の閾値が1よりも大きく、前記第3の閾値が1よりも大きい、ステップと
    を含む、方法。
  9. 前記方法が、

    に従って前記第1の閾値を計算するステップ、または

    に従って前記第1の閾値を計算するステップ
    をさらに含み、Ithresholdは、前記第1の閾値であり、Imedianは、前記ビデオのすべてのIフレームのサイズの中央値または平均値であり、Pmedianは、前記ビデオのすべてのPフレームのサイズの中央値または平均値である、請求項8に記載の方法。
  10. 前記方法が、

    に従って前記3の閾値を計算するステップ、または

    に従って前記第3の閾値を計算するステップ
    をさらに含み、Bthresholdは、前記第3の閾値であり、Pmedianは、前記ビデオのすべてのPフレームのサイズの中央値または平均値であり、Bmedianは、前記ビデオのすべてのBフレームのサイズの中央値または平均値である、請求項8または9に記載の方法。
  11. 前記方法が、
    前記K番目のGOP内のPmaxがシーンチェンジフレームとして判定された後に、前記ビデオ中のシーンチェンジフレームとして判定されたPフレーム以外のPフレームのサイズの中央値または平均値を新しいPmedianとして使用し、前記式
    に従って新しいIthresholdを計算するステップであって、前記新しいIthresholdが、次のGOP内のPmaxがシーンチェンジフレームであるかどうかを判定するために使用される、ステップをさらに含む、請求項8から10のいずれか一項に記載の方法。
  12. 前記方法が、
    前記N個のGOPのうちのM番目のGOPからN番目のGOP内のIフレームの中からシーンチェンジフレームを検出するステップと、
    KがNよりも小さい場合、前記K番目のGOP内のPmaxがシーンチェンジフレームであるかどうかが判定された後に、(K+1)番目のGOP内のIフレームがシーンチェンジフレームであるかどうかを判定するステップと
    をさらに含み、
    前記N個のGOPのうちのM番目のGOPからN番目のGOP内のIフレームの中からシーンチェンジフレームを検出する前記ステップが、
    第1の距離が距離閾値以下であると判定された場合に、前記(K+1)番目のGOP内の前記Iフレームはシーンチェンジフレームではないと判定するステップであって、前記第1の距離が、前記(K+1)番目のGOP内の前記Iフレームと、前記(K+1)番目のGOP内の前記Iフレームに最も近くかつ前記(K+1)番目のGOP内の前記Iフレームよりも前のシーンチェンジフレームとの間の距離である、ステップを特に含む、請求項8から11のいずれか一項に記載の方法。
  13. 前記方法が、
    前記距離閾値を設定するステップであって、前記距離閾値が、以下の3つの長さのうちの1つ、すなわち、
    前記N個のGOPのうちの最長のGOPの長さ、
    前記N個のGOPの長さの中央値または平均値、および
    長さLであって、前記長さLを有するGOPの数が、前記N個のGOPのうちで最大である、長さL
    のうちの1つである、ステップをさらに含む、請求項12に記載の方法。
  14. 新しいシーンチェンジフレームが判定されたときに、第2の距離が前記距離閾値よりも小さい場合、前記距離閾値が前記第2の距離に更新され、前記第2の距離が、特に、前記新しいシーンチェンジフレームと、前記新しいシーンチェンジフレームに最も近くかつ前記新しいシーンチェンジフレームよりも前のシーンチェンジフレームとの間の距離である、請求項13に記載の方法。
  15. ビデオ中のシーンチェンジフレームを検出するための検出装置であって、前記ビデオが、N個のGOPを含み、Nが、2以上の整数であり、前記検出装置が、第1の判定部および第2の判定部を含み、
    前記第1の判定部が、K番目のGOP内のすべてのPフレームのうちの最大PフレームPmaxを判定し、Pmaxのサイズは、
    であり、Kは、MからNまでの範囲の変数であり、1≦M≦Nである、ように構成され、
    前記第2の判定部が、
    の間の相対値が第1の閾値以上であり、かつ
    の間の相対値が第2の閾値以上であると判定された場合に、Pmaxはシーンチェンジフレームであると判定し、
    は、Pmaxと、Pmaxに最も近くかつPmaxよりも前のシーンチェンジフレームとの間の複数のIフレームのサイズの中央値または平均値であり、
    は、前記K番目のGOP内の複数のPフレームのサイズの中央値または平均値であり、前記第1の閾値は、0よりも大きくかつ1よりも小さく、前記第2の閾値は1よりも大きい、ように構成される、検出装置。
  16. 前記第2の判定部が、

    に従って前記第1の閾値を計算するか、または

    に従って前記第1の閾値を計算する
    ようにさらに構成され、
    Ithresholdは、前記第1の閾値であり、Imedianは、前記ビデオのすべてのIフレームのサイズの中央値または平均値であり、Pmedianは、前記ビデオのすべてのPフレームのサイズの中央値または平均値である、請求項15に記載の検出装置。
  17. 前記第1の閾値が前記式
    に従って取得される場合、
    であり、または
    前記第1の閾値が前記式
    に従って取得される場合、
    である、請求項16に記載の検出装置。
  18. 前記第2の判定部が、前記K番目のGOP内のPmaxはシーンチェンジフレームであると判定した後に、前記ビデオ中のシーンチェンジフレームとして判定されたPフレーム以外のPフレームのサイズの中央値または平均値を新しいPmedianとして使用し、前記式
    に従って新しいIthresholdを計算し、前記新しいIthresholdが、次のGOP内のPmaxがシーンチェンジフレームであるかどうかを判定するために使用される、ようにさらに構成される、請求項16または17に記載の方法。
  19. 前記第2の判定部が、
    前記N個のGOPのうちのM番目のGOPからN番目のGOP内のIフレームの中からシーンチェンジフレームを検出し、
    KがNよりも小さい場合、前記K番目のGOP内のPmaxがシーンチェンジフレームであるかどうかが判定された後に、(K+1)番目のGOP内のIフレームがシーンチェンジフレームであるかどうかを判定する
    ようにさらに構成され、
    前記第2の判定部が、前記N個のGOPのうちのM番目のGOPからN番目のGOP内のIフレームの中からシーンチェンジフレームを検出するように構成されることが、
    第1の距離が距離閾値以下であると判定された場合に、前記(K+1)番目のGOP内の前記Iフレームはシーンチェンジフレームではないと判定し、前記第1の距離が、前記(K+1)番目のGOP内の前記Iフレームと、前記(K+1)番目のGOP内の前記Iフレームに最も近くかつ前記(K+1)番目のGOP内の前記Iフレームよりも前のシーンチェンジフレームとの間の距離である、ことを特に含む、請求項15から18のいずれか一項に記載の検出装置。
  20. 前記第2の判定部が、前記距離閾値を設定し、前記距離閾値が、以下の3つの長さのうちの1つ、すなわち、
    前記N個のGOPのうちの最長のGOPの長さ、
    前記N個のGOPの長さの中央値または平均値、および
    長さLであって、前記長さLを有するGOPの数が、前記N個のGOPのうちで最大である、長さL
    のうちの1つである、ようにさらに構成される、請求項19に記載の検出装置。
  21. 前記第2の判定部が、新しいシーンチェンジフレームが判定されたときに、第2の距離が前記距離閾値よりも小さい場合、前記距離閾値を前記第2の距離に更新し、前記第2の距離が、特に、前記新しいシーンチェンジフレームと、前記新しいシーンチェンジフレームに最も近くかつ前記新しいシーンチェンジフレームよりも前のシーンチェンジフレームとの間の距離である、ようにさらに構成される、請求項19または20に記載の検出装置。
  22. ビデオ中のシーンチェンジフレームを検出するための検出装置であって、前記ビデオが、N個のピクチャグループGOPを含み、Nが、2以上の整数であり、前記検出装置が、第1の判定部および第2の判定部を含み、
    前記第1の判定部が、K番目のGOP内のすべてのPフレームのうちの最大PフレームPmaxを判定し、Pmaxのサイズは、
    であり、Kは、MからNまでの範囲の変数であり、1≦M≦Nである、ように構成され、
    前記第2の判定部が、
    の間の相対値が第1の閾値以上であり、
    の間の相対値が第2の閾値以上であり、かつ前記K番目のGOP内にBフレームが存在しないと判定された場合、または、
    の間の相対値が第1の閾値以上であり、
    の間の相対値が第2の閾値以上であり、前記K番目のGOP内にBフレームが存在し、かつ
    の間の相対値が第3の閾値以上であると判定された場合、Pmaxはシーンチェンジフレームであると判定し、
    は、Pmaxと、Pmaxに最も近くかつPmaxよりも前のシーンチェンジフレームとの間の複数のIフレームのサイズの中央値または平均値であり、
    は、前記K番目のGOP内の複数のPフレームのサイズの中央値または平均値であり、
    は、Pmaxと、Pmaxに最も近くかつPmaxよりも前の前記シーンチェンジフレームとの間のすべてのBフレームのサイズの中央値または平均値であり、前記第1の閾値は、0よりも大きくかつ1よりも小さく、前記第2の閾値は1よりも大きく、前記第3の閾値は1よりも大きい、ように構成される、検出装置。
  23. 前記第2の判定部が、

    に従って前記第1の閾値を計算するか、または

    に従って前記第1の閾値を計算する
    ようにさらに構成され、
    Ithresholdは、前記第1の閾値であり、Imedianは、前記ビデオのすべてのIフレームのサイズの中央値または平均値であり、Pmedianは、前記ビデオのすべてのPフレームのサイズの中央値または平均値である、請求項22に記載の検出装置。
  24. 前記第2の判定部が、

    に従って前記第3の閾値を計算するか、または

    に従って前記第3の閾値を計算する
    ようにさらに構成され、
    Ithresholdは、前記第1の閾値であり、Imedianは、前記ビデオのすべてのIフレームのサイズの中央値または平均値であり、Bmedianは、前記ビデオのすべてのBフレームのサイズの中央値または平均値である、請求項22または23に記載の検出装置。
  25. 前記第2の判定部が、前記K番目のGOP内のPmaxはシーンチェンジフレームであると判定した後に、前記ビデオ中のシーンチェンジフレームとして判定されたPフレーム以外のPフレームのサイズの中央値または平均値を新しいPmedianとして使用し、前記式
    に従って新しいIthresholdを計算し、前記新しいIthresholdが、次のGOP内のPmaxがシーンチェンジフレームであるかどうかを判定するために使用される、ようにさらに構成される、請求項22から24のいずれか一項に記載の検出装置。
  26. 前記第2の判定部が、
    前記N個のGOPのうちのM番目のGOPからN番目のGOP内のIフレームの中からシーンチェンジフレームを検出し、
    KがNよりも小さい場合、前記K番目のGOP内のPmaxがシーンチェンジフレームであるかどうかが判定された後に、(K+1)番目のGOP内のIフレームがシーンチェンジフレームであるかどうかを判定する
    ようにさらに構成され、
    前記第2の判定部が、前記N個のGOPのうちのM番目のGOPからN番目のGOP内のIフレームの中からシーンチェンジフレームを検出するように構成されることが、
    第1の距離が距離閾値以下であると判定された場合に、前記(K+1)番目のGOP内の前記Iフレームはシーンチェンジフレームではないと判定し、前記第1の距離が、前記(K+1)番目のGOP内の前記Iフレームと、前記(K+1)番目のGOP内の前記Iフレームに最も近くかつ前記(K+1)番目のGOP内の前記Iフレームよりも前のシーンチェンジフレームとの間の距離である、ことを特に含む、請求項22から25のいずれか一項に記載の検出装置。
  27. 前記第2の判定部が、前記距離閾値を設定し、前記距離閾値が、以下の3つの長さのうちの1つ、すなわち、
    前記N個のGOPのうちの最長のGOPの長さ、
    前記N個のGOPの長さの中央値または平均値、および
    長さLであって、前記長さLを有するGOPの数が、前記N個のGOPのうちで最大である、長さL
    のうちの1つである、ようにさらに構成される、請求項26に記載の検出装置。
  28. 前記第2の判定部が、新しいシーンチェンジフレームが判定されたときに、第2の距離が前記距離閾値よりも小さい場合、前記距離閾値を前記第2の距離に更新し、前記第2の距離が、特に、前記新しいシーンチェンジフレームと、前記新しいシーンチェンジフレームに最も近くかつ前記新しいシーンチェンジフレームよりも前のシーンチェンジフレームとの間の距離である、ようにさらに構成される、請求項27に記載の検出装置。
JP2019510927A 2016-08-23 2017-08-22 シーンチェンジフレームを検出するための方法および装置ならびにシステム Ceased JP2019528643A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201610708531.5 2016-08-23
CN201610708531.5A CN107770538B (zh) 2016-08-23 2016-08-23 一种检测场景切换帧的方法、装置和系统
PCT/CN2017/098483 WO2018036481A1 (zh) 2016-08-23 2017-08-22 一种检测场景切换帧的方法、装置和系统

Publications (1)

Publication Number Publication Date
JP2019528643A true JP2019528643A (ja) 2019-10-10

Family

ID=61245503

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019510927A Ceased JP2019528643A (ja) 2016-08-23 2017-08-22 シーンチェンジフレームを検出するための方法および装置ならびにシステム

Country Status (6)

Country Link
US (1) US10917643B2 (ja)
EP (1) EP3499460A4 (ja)
JP (1) JP2019528643A (ja)
KR (1) KR20190039265A (ja)
CN (1) CN107770538B (ja)
WO (1) WO2018036481A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110858925B (zh) 2018-08-22 2021-10-15 华为技术有限公司 一种实现视频流切换的方法、设备、系统和存储介质
CN110891182B (zh) 2018-09-11 2022-04-12 华为技术有限公司 一种实现视频流切换的方法、装置和系统
CN109168001B (zh) * 2018-09-27 2021-02-12 苏州科达科技股份有限公司 视频场景变化的检测方法、装置及视频采集设备
CN109361923B (zh) * 2018-12-04 2022-05-31 深圳市梦网视讯有限公司 一种基于运动分析的滑动时间窗场景切换检测方法和系统
CN111629261B (zh) * 2019-02-28 2022-04-22 阿里巴巴集团控股有限公司 信息处理方法、装置、电子设备及计算机可读存储介质
CN112019850B (zh) * 2020-08-27 2022-08-23 广州市百果园信息技术有限公司 基于场景切换的图像组划分方法、视频编码方法及装置
CN112351278B (zh) * 2020-11-04 2023-07-07 北京金山云网络技术有限公司 一种视频的编码方法和装置,视频的解码方法和装置
US11743474B2 (en) * 2021-08-27 2023-08-29 Meta Platforms, Inc. Shot-change detection using container level information

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3315766B2 (ja) * 1992-09-07 2002-08-19 富士通株式会社 画像データ符号化方法、その方法を用いた画像データ符号化装置、画像データ復元方法、その方法を用いた画像データ復元装置、シーン変化検出方法、その方法を用いたシーン変化検出装置、シーン変化記録装置、及び画像データのシーン変化記録・再生装置
JPH09322174A (ja) * 1996-05-30 1997-12-12 Hitachi Ltd 動画データの再生方法
JP2002010254A (ja) 2000-06-20 2002-01-11 Sony Corp 特徴点検出方法および記録再生装置
US7525579B2 (en) * 2004-12-27 2009-04-28 Konica Minolta Holdings, Inc. Image sensing apparatus and image processing method for use therein
US8208536B2 (en) * 2005-04-28 2012-06-26 Apple Inc. Method and apparatus for encoding using single pass rate controller
CN100428801C (zh) * 2005-11-18 2008-10-22 清华大学 一种视频场景切换检测方法
CN101072342B (zh) * 2006-07-01 2010-08-11 腾讯科技(深圳)有限公司 一种场景切换的检测方法及其检测系统
JP2010219929A (ja) 2009-03-17 2010-09-30 Oki Networks Co Ltd 動画像解析装置、プログラム及び方法、並びに、動画像処理装置及び動画像配信装置
US8588296B2 (en) * 2009-07-02 2013-11-19 Dialogic Corporation Bitrate control algorithm for video transcoding systems
CN104883563B (zh) 2011-04-11 2017-04-12 华为技术有限公司 一种视频数据质量评估方法和装置
CN102630013B (zh) * 2012-04-01 2013-10-16 北京捷成世纪科技股份有限公司 基于场景切换的码率控制视频压缩方法和装置
CN103826121B (zh) * 2013-12-20 2017-05-10 电子科技大学 低延迟视频编码基于场景切换检测的码率控制方法
CN103945281B (zh) * 2014-04-29 2018-04-17 中国联合网络通信集团有限公司 视频传输处理方法、装置和系统
WO2016027410A1 (ja) * 2014-08-21 2016-02-25 パナソニックIpマネジメント株式会社 検知装置および検知システム
US10063866B2 (en) * 2015-01-07 2018-08-28 Texas Instruments Incorporated Multi-pass video encoding

Also Published As

Publication number Publication date
CN107770538B (zh) 2020-09-11
EP3499460A1 (en) 2019-06-19
CN107770538A (zh) 2018-03-06
US10917643B2 (en) 2021-02-09
US20190260999A1 (en) 2019-08-22
WO2018036481A1 (zh) 2018-03-01
EP3499460A4 (en) 2019-06-19
KR20190039265A (ko) 2019-04-10

Similar Documents

Publication Publication Date Title
JP2019528643A (ja) シーンチェンジフレームを検出するための方法および装置ならびにシステム
KR101414435B1 (ko) 비디오 스트림 품질 평가 방법 및 장치
US8094713B2 (en) Method and system for viewer quality estimation of packet video streams
DK2347599T3 (en) METHOD AND SYSTEM FOR DETERMINING A QUALITY VALUE OF A VIDEO FLOW
EP2637410B1 (en) Detection method and device for frame type
TW201643830A (zh) 用於產生事件視訊序列之方法及系統及包含該系統之攝影機
US11310489B2 (en) Method, apparatus, and system for implementing video quality assessment
US20150296224A1 (en) Perceptually driven error correction for video transmission
JP5911563B2 (ja) ビットストリームレベルで動画品質を推定する方法及び装置
Yamada et al. Accurate video-quality estimation without video decoding
JP4861371B2 (ja) 映像品質推定装置、方法、およびプログラム
KR102350570B1 (ko) 영상프레임의 손실을 측정하기 위한 iptv 셋탑박스 및 그 동작방법
JP5394991B2 (ja) 映像フレーム種別推定用調整係数算出方法、装置、およびプログラム
KR101199470B1 (ko) 주관적 화질 열화 측정 장치
KR20150046036A (ko) 비디오 비트스트림에서 점진적 전환 픽쳐를 검출하기 위한 방법 및 장치
Garcia et al. Video Quality Model
KR20150078548A (ko) Gop 정보 기반의 실시간 체감형 영상 품질 모델링 방법

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190404

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190404

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200309

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200609

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200914

A045 Written measure of dismissal of application [lapsed due to lack of payment]

Free format text: JAPANESE INTERMEDIATE CODE: A045

Effective date: 20210125