JP2019528643A

JP2019528643A - シーンチェンジフレームを検出するための方法および装置ならびにシステム

Info

Publication number: JP2019528643A
Application number: JP2019510927A
Authority: JP
Inventors: ▲ジエ▼ 熊; 友▲慶▼ ▲楊▼; 一宏黄
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2016-08-23
Filing date: 2017-08-22
Publication date: 2019-10-10
Also published as: CN107770538B; EP3499460A1; CN107770538A; US10917643B2; US20190260999A1; WO2018036481A1; EP3499460A4; KR20190039265A

Abstract

本発明は、ビデオ中のシーンチェンジフレームを検出するための方法および装置ならびにシステムを開示する。ビデオ中のシーンチェンジフレームが検出されるとき、Pフレーム中のシーンチェンジフレームを検出するために、ビデオのGOP内のすべてのPフレームのうちの最大Pフレーム（Pmax）がシーンチェンジフレームであるかどうかが、PmaxとPmaxに最も近くかつPmaxよりも前のシーンチェンジフレームとの間の複数のIフレームのサイズの中央値もしくは平均値と、PmaxのサイズPkmaxとの相対関係、または、Pkmaxと、GOP内の複数のPフレームのサイズの中央値もしくは平均値との相対関係に基づいて判定され、これにより、シーンチェンジフレームの検出漏れが効果的に低減される。

Description

本発明は、ビデオ技術の分野に関し、具体的には、シーンチェンジフレームを検出するための方法および装置ならびにシステムに関する。

通信技術の発展に伴い、IPTV（Internet Protocol Television、インターネットプロトコルテレビジョン）およびOTTサービスなどのビデオサービスが広く商用利用されている。ビデオサービスの品質を保証するために、ビデオ品質を評価する必要があり、これにより、対応する手段を使用して適時に調整が行われ、ビデオサービスの正常な動作が保証される。したがって、ビデオ品質を正確に評価する方法は、緊急に解決する必要がある重要な問題である。

ビデオのセグメントは、複数の連続したビデオフレームシーケンスを含み、一般に、1つよりも多くのシーンを含む。例えば、ビデオのセグメントは、4つのシーンを含み、シーン1およびシーン3は、サッカーグラウンドのショットビデオに対応し、シーン2およびシーン4は、観客席のショットビデオに対応する。

ビデオ品質が評価されているとき、最初に、シーンが変化する位置、すなわちシーンチェンジフレームの位置を検出する必要があり、次に、そのシーンに基づいてビデオ品質が評価される。例えば、ビデオ符号化中に生じるビデオ符号化損失は、ビデオ符号化タイプ、フレームレート、解像度、およびビットレートだけでなく、シーンの複雑度にも関連するので、ビデオ符号化損失を評価するために、シーンが変化する位置を最初に検出する必要がある。したがって、ビデオ品質が評価されているときに、シーンチェンジ検出を正確に行う必要がある。

ビデオのビデオフレームが符号化されているとき、ビデオフレームは、異なるタイプのフレーム、例えば、Iフレーム、Pフレーム、およびBフレームに符号化される。Iフレームは、フレーム内予測フレームであり、フレーム内のデータのみが符号化中に参照される。Pフレームは、予測フレーム、言い換えれば一方向差分フレームであり、このフレームと前のIフレーム（またはPフレーム）との差分を記録するために使用される。Bフレームは、双方向補間予測フレーム、言い換えれば双方向差分フレームであり、このフレームと前のフレームおよび次のフレームの各々との差分を記録するために使用される。

シーンチェンジフレームを検出するための方法は、標準ITU-T P1201.2のIPTV監視ソリューションにおいて提供されている。しかしながら、従来技術ではIフレーム中のシーンチェンジフレームしか検出されないが、実際には、多くのシーンチェンジフレームはPフレームである。その結果、従来技術では、シーンチェンジフレーム検出中に検出漏れが発生する。

本発明の実施形態は、従来技術におけるシーンチェンジフレームの検出漏れを回避するように、シーンチェンジフレームを検出するための方法および装置を提供する。

第1の態様によれば、シーンチェンジフレームを検出するための方法が提供される。ビデオは、N個のピクチャグループGOPを含み、Nは、2以上の整数であり、本方法は、
K番目のGOP内のすべてのPフレームのうちの最大PフレームP_maxを判定するステップであって、P_maxのサイズが、
であり、Kが、MからNまでの範囲の変数であり、1≦M≦Nである、ステップと、
の間の相対値が第1の閾値以上であり、かつ
の間の相対値が第2の閾値以上であると判定された場合に、P_maxはシーンチェンジフレームであると判定するステップであって、
が、P_maxと、P_maxに最も近くかつP_maxよりも前のシーンチェンジフレームとの間の複数のIフレームのサイズの中央値または平均値であり、
が、K番目のGOP内の複数のPフレームのサイズの中央値または平均値であり、第1の閾値が、0よりも大きくかつ1よりも小さく、第2の閾値が1よりも大きい、ステップと
を含む。

本発明の第1の態様で提供される方法では、ビデオ中のシーンチェンジフレームを検出するときに、Pフレーム中のシーンチェンジフレームを検出することができ、これにより、シーンチェンジフレームの検出漏れを効果的に低減することができる。

第1の態様の第1の可能な実施態様では、
に従って計算されてもよい。

に簡単かつ効果的に反映させることができる。

一実施態様では、
に従って計算され、これに対応して、第1の閾値は、式
に従って計算されてもよい。

別の実施態様では、
に従って計算され、これに対応して、第1の閾値は、式
に従って計算されてもよい。

I_thresholdは、第1の閾値であり、I_medianは、ビデオのすべてのIフレームのサイズの中央値または平均値であり、P_medianは、ビデオのすべてのPフレームのサイズの中央値または平均値である。

I_medianは、ビデオのすべてのIフレームのサイズの中央値または平均値であり、P_medianは、ビデオのすべてのPフレームのサイズの中央値または平均値であるため、有効な閾値を、式
を使用して正確に計算することができ、これにより、Pフレーム中のシーンチェンジフレームを正確に検出することができる。

第1の態様または第1の態様の第1の可能な実施態様に関連して、第2の可能な実施態様では、
に従って計算されてもよい。
に簡単かつ効果的に反映させることができる。

は、特に、以下の式に従って計算されてもよい。
、ただし、P_−m、…、およびP₋₁は、K番目のGOP内のP_maxよりも前のPフレームを表し、P₁、…、およびP_nは、K番目のGOP内のP_maxよりも後のPフレームを表し、Fは、P_−m、…、およびP₋₁ならびにP₁、…、およびP_nのサイズの中央値または平均値を計算するために使用され、
m＝min（num_before_P_frames，max_num）、
n＝min（num_after_P_frames，max_num）、ただし、
num_before_P_framesは、K番目のGOP内のP_maxよりも前のPフレームの数であり、num_after_P_framesは、K番目のGOP内のP_maxよりも後のPフレームの数であり、max_numは、考慮する必要がある予め設定されたフレームの数を表す。

が、上記の式を使用して計算され、最初のビデオフレームに最も近く、かつ最初のビデオフレームが位置するGOP内にある一部のビデオフレームが考慮されることから、Pフレーム中のシーンチェンジフレームを検出する精度がさらに向上する。

第2の態様によれば、ビデオ品質評価を実施するための方法が提供される。ビデオは、N個のピクチャグループGOPを含み、Nは、2以上の整数であり、本方法は、
K番目のGOP内のすべてのPフレームのうちの最大PフレームP_maxを判定するステップであって、P_maxのサイズが、
であり、Kが、MからNまでの範囲の変数であり、1≦M≦Nである、ステップと、
の間の相対値が第1の閾値以上であり、
の間の相対値が第2の閾値以上であり、かつK番目のGOP内にBフレームが存在しないと判定された場合、または、
の間の相対値が第1の閾値以上であり、
の間の相対値が第2の閾値以上であり、K番目のGOP内にBフレームが存在し、かつ
の間の相対値が第3の閾値以上であると判定された場合、P_maxはシーンチェンジフレームであると判定するステップであって、
が、P_maxと、P_maxに最も近くかつP_maxよりも前のシーンチェンジフレームとの間の複数のIフレームのサイズの中央値または平均値であり、
が、K番目のGOP内の複数のPフレームのサイズの中央値または平均値であり、
が、P_maxと、P_maxに最も近くかつP_maxよりも前のシーンチェンジフレームとの間のすべてのBフレームのサイズの中央値または平均値であり、第1の閾値が、0よりも大きくかつ1よりも小さく、第2の閾値が1よりも大きく、第3の閾値が1よりも大きい、ステップと
を含む。

本発明の第2の態様で提供される方法では、ビデオ中のシーンチェンジフレームを検出するときに、Pフレーム中のシーンチェンジフレームを検出することができ、これにより、シーンチェンジフレームの検出漏れを効果的に低減することができる。また、Pフレーム中のシーンチェンジフレームを検出しているとき、IフレームおよびPフレームのサイズだけでなく、Bフレームのサイズも考慮されるため、Pフレーム中のシーンチェンジフレームを検出する精度がさらに向上する。

第2の態様の第1の可能な実施態様では、
に従って計算されてもよい。

に簡単かつ効果的に反映させることができる。

一実施態様では、
に従って計算されてもよく、これに対応して、第1の閾値は、式
に従って計算されてもよい。

別の実施態様では、
に従って計算されてもよく、これに対応して、第1の閾値は、式
に従って計算されてもよい。

第2の態様または第2の態様の第1の可能な実施態様に関連して、第2の可能な実施態様では、
に従って計算されてもよい。
に簡単かつ効果的に反映させることができる。

第2の態様または第2の態様の第1のもしくは第2の可能な実施態様に関連して、第3の可能な実施態様では、
に従って計算されてもよい。

に簡単かつ効果的に反映させることができる。

一実施態様では、
に従って計算され、これに対応して、第3の閾値は、式
に従って計算されてもよい。

別の実施態様では、
に従って計算され、これに対応して、第3の閾値は、式
に従って計算されてもよい。

B_thresholdは第3の閾値であり、P_medianは、ビデオのすべてのPフレームのサイズの中央値または平均値であり、B_medianは、ビデオのすべてのBフレームのサイズの中央値または平均値である。

P_medianは、ビデオのすべてのPフレームのサイズの中央値または平均値であり、B_medianは、ビデオのすべてのBフレームのサイズの中央値または平均値であるため、有効な閾値を、式
を使用して正確に計算することができ、これにより、Pフレーム中のシーンチェンジフレームを正確に検出することができる。

第2の態様の第3の可能な実施態様に関連して、第4の可能な実施態様では、K番目のGOP内のP_maxがシーンチェンジフレームとして判定された後に、ビデオ中のシーンチェンジフレームとして判定されたPフレーム以外のPフレームのサイズの中央値または平均値が、新しいP_medianとして使用され、新しいB_thresholdが、式
に従って計算される。新しいB_thresholdは、次のGOP内のP_maxがシーンチェンジフレームであるかどうかを判定するために使用される。

第2の態様の第4の可能な実施態様に関連して、第3の閾値B_thresholdをリアルタイムで更新することができるため、シーンチェンジフレームとして判定されたPフレームの影響は適時に排除され、これにより、Pフレーム中のシーンチェンジフレームを検出する精度がさらに向上する。

第3の態様によれば、ビデオ中のシーンチェンジフレームを検出するための検出装置が提供される。ビデオは、N個のGOPを含み、Nは、2以上の整数であり、検出装置は、第1の判定部および第2の判定部を含む。

第1の判定部は、K番目のGOP内のすべてのPフレームのうちの最大PフレームP_maxを判定し、P_maxのサイズは、
であり、Kは、MからNまでの範囲の変数であり、1≦M≦Nである、ように構成され、
第2の判定部は、
の間の相対値が第1の閾値以上であり、かつ
の間の相対値が第2の閾値以上であると判定された場合に、P_maxはシーンチェンジフレームであると判定し、
は、P_maxと、P_maxに最も近くかつP_maxよりも前のシーンチェンジフレームとの間の複数のIフレームのサイズの中央値または平均値であり、
は、K番目のGOP内の複数のPフレームのサイズの中央値または平均値であり、第1の閾値は、0よりも大きくかつ1よりも小さく、第2の閾値は1よりも大きい、ように構成される。

本発明の第3の態様で提供される検出装置では、ビデオ中のシーンチェンジフレームを検出するときに、Pフレーム中のシーンチェンジフレームを検出することができ、これにより、シーンチェンジフレームの検出漏れを効果的に低減することができる。

第3の態様の第1の可能な実施態様では、第2の判定部は、特に、式
を計算してもよい。

に簡単かつ効果的に反映させることができる。

一実施態様では、第2の判定部は、式
を計算し、これに対応して、第2の判定部は、式
に従って第1の閾値を計算してもよい。

別の実施態様では、第2の判定部は、式
を計算し、これに対応して、第2の判定部は、式
に従って第1の閾値を計算してもよい。

第3の態様または第3の態様の第1の可能な実施態様に関連して、第2の可能な実施態様では、第2の判定部は、特に、式
を計算してもよい。
に簡単かつ効果的に反映させることができる。

第2の判定部は、特に、以下の式に従って
を計算してもよい。
、ただし、P_−m、…、およびP₋₁は、K番目のGOP内のP_maxよりも前のPフレームを表し、P₁、…、およびP_nは、K番目のGOP内のP_maxよりも後のPフレームを表し、Fは、P_−m、…、およびP₋₁ならびにP₁、…、およびP_nのサイズの中央値または平均値を計算するために使用され、
m＝min（num_before_P_frames，max_num）、
n＝min（num_after_P_frames，max_num）、ただし、
num_before_P_framesは、K番目のGOP内のP_maxよりも前のPフレームの数であり、num_after_P_framesは、K番目のGOP内のP_maxよりも後のPフレームの数であり、max_numは、考慮する必要がある予め設定されたフレームの数を表す。

第4の態様によれば、ビデオ中のシーンチェンジフレームを検出するための検出装置が提供される。ビデオは、N個のピクチャグループGOPを含み、Nは、2以上の整数であり、検出装置は、第1の判定部および第2の判定部を含む。

第1の判定部は、K番目のGOP内のすべてのPフレームのうちの最大PフレームP_maxを判定し、P_maxのサイズは、
であり、Kは、MからNまでの範囲の変数であり、1≦M≦Nである、ように構成され、
第2の判定部は、
の間の相対値が第1の閾値以上であり、
の間の相対値が第2の閾値以上であり、かつK番目のGOP内にBフレームが存在しないと判定された場合、または、
の間の相対値が第1の閾値以上であり、
の間の相対値が第2の閾値以上であり、K番目のGOP内にBフレームが存在し、かつ
の間の相対値が第3の閾値以上であると判定された場合、P_maxはシーンチェンジフレームであると判定し、
は、P_maxと、P_maxに最も近くかつP_maxよりも前のシーンチェンジフレームとの間の複数のIフレームのサイズの中央値または平均値であり、
は、K番目のGOP内の複数のPフレームのサイズの中央値または平均値であり、
は、P_maxと、P_maxに最も近くかつP_maxよりも前のシーンチェンジフレームとの間のすべてのBフレームのサイズの中央値または平均値であり、第1の閾値は、0よりも大きくかつ1よりも小さく、第2の閾値は1よりも大きく、第3の閾値は1よりも大きい、ように構成される。

本発明の第4の態様で提供される検出装置では、ビデオ中のシーンチェンジフレームを検出するときに、Pフレーム中のシーンチェンジフレームを検出することができ、これにより、シーンチェンジフレームの検出漏れを効果的に低減することができる。また、Pフレーム中のシーンチェンジフレームを検出しているとき、IフレームおよびPフレームのサイズだけでなく、Bフレームのサイズも考慮されるため、Pフレーム中のシーンチェンジフレームを検出する精度がさらに向上する。

第4の態様の第1の可能な実施態様では、第2の判定部は、特に、式
を計算してもよい。

に簡単かつ効果的に反映させることができる。

第4の態様または第4の態様の第1の可能な実施態様に関連して、第2の可能な実施態様では、第2の判定部は、特に、式
を計算してもよい。
に簡単かつ効果的に反映させることができる。

第4の態様または第4の態様の第1のもしくは第2の可能な実施態様に関連して、第3の可能な実施態様では、第2の判定部は、特に、式
を計算してもよい。

に簡単かつ効果的に反映させることができる。

I_thresholdは、第1の閾値であり、I_medianは、ビデオのすべてのIフレームのサイズの中央値または平均値であり、B_medianは、ビデオのすべてのBフレームのサイズの中央値または平均値である。

I_medianは、ビデオのすべてのIフレームのサイズの中央値または平均値であり、B_medianは、ビデオのすべてのBフレームのサイズの中央値または平均値であるため、有効な閾値を、式
を使用して正確に計算することができ、これにより、Pフレーム中のシーンチェンジフレームを正確に検出することができる。

第4の態様の第3の可能な実施態様に関連して、第4の可能な実施態様では、K番目のGOP内のP_maxがシーンチェンジフレームとして判定された後に、ビデオ中のシーンチェンジフレームとして判定されたPフレーム以外のPフレームのサイズの中央値または平均値が、新しいP_medianとして使用され、新しいB_thresholdが、式
に従って計算される。新しいB_thresholdは、次のGOP内のP_maxがシーンチェンジフレームであるかどうかを判定するために使用される。

第4の態様の第4の可能な実施態様に関連して、第3の閾値Bthresholdをリアルタイムで更新することができるため、シーンチェンジフレームとして判定されたPフレームの影響は適時に排除され、これにより、Pフレーム中のシーンチェンジフレームを検出する精度がさらに向上する。

第5の態様によれば、ビデオ中のシーンチェンジフレームを検出するための検出装置が提供され、この検出装置は、プロセッサおよびメモリを含む。

メモリは、コンピュータ動作命令を記憶するように構成される。

プロセッサは、検出装置が第1の態様もしくは第1の態様の可能な実施態様のいずれか1つまたは第2の態様もしくは第2の態様の可能な実施態様のいずれか1つで提供される方法を実行できるようにする、メモリに記憶されたコンピュータ動作命令を実行するように構成される。

本発明の第5の態様で提供される検出装置では、ビデオ中のシーンチェンジフレームを検出するときに、Pフレーム中のシーンチェンジフレームを検出することができ、これにより、シーンチェンジフレームの検出漏れを効果的に低減することができる。

第6の態様によれば、検出デバイスが提供され、検出装置は、媒体部および検出装置を含む。

媒体部は、ビデオを取得し、このビデオを検出装置に送信するように構成される。

検出装置は、媒体部からビデオを取得し、第3の態様もしくは第3の態様の可能な実施態様のいずれか1つ、第4の態様もしくは第4の態様の可能な実施態様のいずれか1つ、または第5の態様もしくは第5の態様の可能な実施態様のいずれか1つで提供される検出装置によって実行される動作を実行するように構成される。

本発明の第6の態様で提供される検出デバイスでは、ビデオ中のシーンチェンジフレームを検出するときに、Pフレーム中のシーンチェンジフレームを検出することができ、これにより、シーンチェンジフレームの検出漏れを効果的に低減することができる。

第7の態様によれば、ビデオ品質評価を実施するためのシステムが提供され、このシステムは、ビデオサーバ、送信デバイス、およびビデオ端末を含む。ビデオサーバによって送信されるビデオストリームは、送信デバイスを介してビデオ端末に送信される。

送信デバイスまたはビデオ端末は、特に、第3の態様もしくは第3の態様の可能な実施態様のいずれか1つ、第4の態様もしくは第4の態様の可能な実施態様のいずれか1つ、または第5の態様もしくは第5の態様の可能な実施態様のいずれか1つで提供される検出装置を含んでもよい。

システムは、第1の検出装置をさらに含み、第1の検出装置は、特に、第3の態様もしくは第3の態様の可能な実施態様のいずれか1つ、第4の態様もしくは第4の態様の可能な実施態様のいずれか1つ、または第5の態様もしくは第5の態様の可能な実施態様のいずれか1つで提供される検出装置であってもよい。送信デバイス2020またはビデオ端末2030は、第1の検出装置に接続され、第1の検出装置は、第1の検出装置に接続された送信デバイスまたはビデオ端末を使用してビデオストリームを取得する。

本発明の第7の態様で提供されるシステムでは、ビデオ中のシーンチェンジフレームを検出するときに、Pフレーム中のシーンチェンジフレームを検出することができ、これにより、シーンチェンジフレームの検出漏れを効果的に低減することができる。

本発明の実施形態の技術的解決策をより明確に説明するために、以下では、実施形態または従来技術を説明するために必要な添付図面について簡単に説明する。明らかに、以下の説明における添付図面は、本発明の一部の実施形態しか示しておらず、当業者は、創造的な努力なしにこれらの添付図面から他の図面をさらに得ることができる。

本発明の実施形態1によるビデオシステム100のネットワーク構成の概略図である。本発明の実施形態1によるビデオシステム100のネットワーク構成の概略図である。本発明の実施形態1によるGOPの概略図である。本発明の実施形態1によるGOPの概略図である。本発明の実施形態1によるGOPの概略図である。本発明の実施形態1の実施態様Aによる方法の概略フローチャートである。本発明の実施形態1の実施態様Aによる方法の概略フローチャートである。本発明の実施形態1の実施態様Aによる方法の概略フローチャートである。本発明の実施形態1の実施態様Bによる方法の概略フローチャートである。本発明の実施形態1の実施態様Bによる方法の概略フローチャートである。本発明の実施形態1の実施態様Bによる方法の概略フローチャートである。本発明の実施形態1によるGOPの例の概略図である。本発明の実施形態1によるGOPの例の概略図である。本発明の実施形態1によるGOPの例の概略図である。本発明の実施形態2による検出装置200の概略構成図である。本発明の実施形態3による検出装置1000の概略構成図である。本発明の実施形態4による検出デバイス400の概略構成図である。本発明の実施形態5によるシステム2000の概略構成図である。本発明の実施形態5によるシステム2000の概略構成図である。本発明の実施形態5によるシステム2000の概略構成図である。

以下では、本発明の実施形態の添付図面を参照しながら、本発明の実施形態の技術的解決策を明確かつ完全に説明する。明らかに、説明されている実施形態は、本発明の実施形態の一部であり、本発明の実施形態の全部ではない。創造的な努力なしに本発明の実施形態に基づいて当業者によって得られる他のすべての実施形態は、本発明の保護範囲内に含まれるものとする。

図1Aは、本発明の一実施形態によるビデオシステム100のネットワーク構成の概略図である。ビデオシステム100は、ビデオサーバ110、1つ以上の送信デバイス120、およびビデオ端末130を含む。ビデオサーバ110によって送信されるビデオストリームは、送信デバイス120を介してビデオ端末130に送信される。

ビデオシステム100は、特に、図1Bに示すIPTVシステムであってもよい。IPTVシステムにおいて、ビデオサーバ110は、具体的にはビデオヘッドエンド（video headend、video HE）である。送信デバイス120は、特に、コアルータ（Core Router、CR）、ブロードバンドネットワークゲートウェイ（Broadband Network Gateway、BNG）、または光回線終端装置（Optical Line Terminal、OLT）などのネットワークデバイスを含む。ビデオ端末130は、具体的にはセットトップボックス（Set Top Box、STB）である。

図1Aおよび図1Bに示すビデオシステムでは、ビデオストリームがビデオサーバからビデオ端末に送信されるとき、ネットワーク状態の変化に起因してビデオストリームにパケット損失、遅延、ジッタ、または乱れなどの異常現象が発生する場合がある。これらの異常現象は、ビデオ端末の画面に表示されるビデオ画像において不規則な表示およびフレームフリーズなどが発生し、その結果、ユーザのビデオ視聴体験が損なわれるという問題をもたらす場合がある。したがって、ビデオ品質を評価することによって、ユーザのビデオ体験を監視する必要がある。

ビデオ品質が評価されているとき、通常は最初に、シーンが変化する位置、すなわちシーンチェンジフレームの位置を検出する必要があり、次に、そのシーンに基づいてビデオ品質が評価される。

例えば、ビデオ符号化中に生じるビデオ符号化損失は、ビデオ符号化タイプ、フレームレート、解像度、およびビットレートだけでなく、シーンの複雑度にも関連するので、ビデオ符号化損失を評価するために、シーンが変化する位置を最初に検出する必要がある。

別の例では、ビデオ送信プロセスでパケット損失が発生した場合、ビデオ端末のデコーダは、通常、破損したフレームに対して誤り補償を行うために破損したフレームの前のフレームの対応領域のビデオコンテンツを破損したフレームの破損した領域のコンテンツとして使用し、したがって、破損したフレームと前のフレームとのコンテンツ差分が小さいほど、補償効果は良くなる。しかしながら、破損したフレームがシーンチェンジフレームである場合、シーンチェンジフレームのコンテンツは、シーンチェンジフレームの前のフレームのコンテンツとほぼ完全に異なるため、補償効果は最悪である。したがって、ビデオ品質がパケット損失の影響を受ける場合、破損したフレームがシーンチェンジフレームであるかどうかを考慮する必要がある。

別の例では、符号化ビデオフレームシーケンスは、複数のピクチャグループ（Group of Picture、GOP）を含む。図2Aに示すように、各GOPは、Iフレームで開始され、その後にいくつかのPフレームおよびBフレームが続き、次のIフレームの前のフレームで終了する。Iフレームはフレーム内フレームであり、Pフレームは前方向参照フレームであり、Bフレームは双方向参照フレームである。GOP内のフレームでパケット損失が発生した場合、パケット損失に起因する復号誤りは、連続して次のビデオフレームに拡大し、通常はGOP内の最後のフレームで終了する。図2Bに示すように、GOP1内の4番目のフレームが破損した場合、通常、誤りは連続して拡大すると考えられ、GOPの最後のフレームで終了する。しかしながら、GOP内にシーンチェンジフレームが存在する場合、シーンチェンジフレームのコンテンツは、シーンチェンジフレームの前のフレームのコンテンツとほぼ完全に異なり、フレーム内予測符号化は、通常、符号化中に実行される（フレーム内予測符号化は、シーンチェンジフレームのほとんどのマクロブロックに対して実行される）。したがって、GOP内のシーンチェンジフレームよりも前のフレームが破損した場合、誤りの拡大は、シーンチェンジフレームで終了する。図2cに示すように、GOP1の6番目のフレームはシーンチェンジフレームであり、4番目のフレームが破損した場合、誤りの拡大は、6番目のフレームで終了する。したがって、ビデオ品質がパケット損失の影響を受ける場合、シーンチェンジフレームを検出する必要がある。

本発明のこの実施形態で説明されるフレームのシーケンスは、時間的に見てビデオのフレームのシーケンスであることに留意されたい。例えば、持続時間T（例えば10秒）を有するビデオは、時点t1におけるビデオフレーム1と時点t2におけるビデオフレーム2とを含む。t1がt2よりも小さい場合、例えば、t1が1秒30ミリ秒であり、t2が5秒40ミリ秒である場合、ビデオフレーム1はビデオフレーム2の前にある。

特定の実施態様では、シーンチェンジフレームを検出するための検出装置をビデオシステムに配置することができる。検出装置は、ビデオストリームが通過する任意のデバイス（例えば、送信デバイス120またはビデオ端末130）に配置されてもよいし、ミラーリング方式でビデオストリームを取得するように、ビデオストリームが通過する任意のデバイスをバイパスしてもよい。

図3Aおよび図3Bは、本発明の実施形態1による方法の概略フローチャートである。本発明の実施形態1における方法は、図1Aおよび図1Bに示したビデオシステム100に適用することができ、検出装置によって実行される。

本発明の実施形態1では、ビデオ（以下、検出対象ビデオと呼ぶ）におけるシーンチェンジフレームを検出する。検出対象ビデオは、ビデオファイルから読み出されてもよいし、取得したビデオストリームから取得されてもよい。検出対象ビデオは、特に、完全なビデオであってもよいし、ビデオのビデオセグメントであってもよい。比較的長いビデオの場合、通常は測定時間ウィンドウが設定され、測定時間ウィンドウ内のビデオセグメントが検出される。例えば、ビデオを検出しているとき、測定時間ウィンドウの長さは10秒に設定され、最初に、ビデオの0〜10秒のビデオセグメントが検出対象ビデオとして検出され、次に、10〜20秒のビデオセグメントが検出対象ビデオとして検出され、このような検出が類推によって行われる。

検出前に、検出モジュールは最初に、検出対象ビデオの各ビデオフレームのタイプ（Iフレーム、Pフレーム、またはBフレームなど）およびサイズを決定することができる。

例えば、ビデオストリームはリアルタイムで取得され、ビデオフレームに関する情報は、測定時間ウィンドウ（例えば、10〜20秒）内のビデオストリームに対応するパケットから抽出され、ビデオフレームのサイズ（バイト単位の）が計算される。ビデオフレームのサイズを計算する具体的なプロセスは以下の通りである。測定時間ウィンドウ内の各パケットに関して、最初に、現在のビデオフレームの開始識別子がパケットのヘッダから発見され、次に、その開始識別子を含むパケットのロード長および後続のパケットのロード長が、次のビデオフレームの開始識別子が発見されるまで累積される。累積合計が、現在のビデオフレームのサイズである。ビデオフレームのサイズを計算する特定の実施態様については、標準ITU-T P1201.2を参照されたい。

次に、測定時間ウィンドウ内のすべてのビデオフレームのタイプが判定される。具体的には、ビデオフレームのタイプは、パケットのパケットヘッダ内のフィールドrandom_access_indicatorに基づいて判定することができる。Iフレームに関しては、ビデオが暗号化されているか否かに関わらず、フレームのタイプは、random_access_indicatorに基づいて判定することができる。非Iフレームに関しては、ビデオが暗号化されていない場合、フレームのタイプは、ビデオフレームのフレームヘッダから直接取得することができる。ビデオが暗号化されているか、またはビデオフレームのフレームヘッダが失われている場合、最初にGOPモードを、フレームのサイズまたはフレームの表示タイムスタンプ（Present Time Stamp、PTS）に基づいて推定することができる。GOPモードは、通常、PBBPBBまたはPBBBPBBBである。GOPモードは、現在のPTSの値と前のPTSの値との差を使用して記述することができる。GOPモードが判定されたら、失われたまたは暗号化されたビデオフレームすべてのモードを判定することができる。ビデオフレームのタイプを判定する特定の実施態様については、標準ITU-T P1201.2を参照されたい。

上記の2つのステップを実行することによって、検出対象ビデオをいくつかのGOPに分割することができる。1つの検出対象ビデオは、通常、複数のGOPを含む。図5Aの例に示すように、1つの検出対象ビデオはN個のGOPを含み、Nは2以上の整数であると想定される。図5Aに示す例では、単色で塗りつぶされたビデオフレームは、Iフレームであり、斜線で塗りつぶされたビデオフレームは、Pフレームであり、塗りつぶされていないビデオフレームは、Bフレームである。

1ビデオフレームは、1画像である。ビデオのビデオフレームが符号化されているとき、ビデオフレームは、異なるタイプのフレーム、例えば、Iフレーム、Pフレーム、およびBフレームに符号化される。Iフレームは、フレーム内予測フレームであり、フレーム内のデータのみが符号化中に参照され、したがって、Iフレームは、完全な画像データを含む。Pフレームは、予測フレーム、言い換えれば一方向差分フレームであり、このフレームと前のIフレーム（またはPフレーム）との差分を記録するために使用される。Bフレームは、双方向補間予測フレーム、言い換えれば双方向差分フレームであり、このフレームと前のフレームおよび次のフレームの各々との差分を記録するために使用される。

Iフレームは、通常、Pフレームよりも大きく、Pフレームは、通常、Bフレームよりも大きい。一般に、Iフレームのサイズは、Pフレームの2〜5倍であり、Pフレームのサイズは、Bフレームの2〜5倍である。

シーンチェンジフレームのコンテンツとシーンチェンジフレームの前のフレームのコンテンツとの差分は比較的大きいので、シーンチェンジフレームはPフレームに符号化されるが、フレーム内予測符号化は、シーンチェンジフレーム内のほとんどのマクロブロックに対して、シーンチェンジフレーム内の別のマクロブロックを参照して実行される。したがって、符号化されたシーンチェンジフレームのサイズは比較的大きい。PフレームのサイズがIフレームのサイズの半分を超える場合、そのPフレームはシーンチェンジフレームである可能性が高い。したがって、Pフレームであるシーンチェンジフレームを検出するとき、PフレームとIフレームとの相対関係を参照することができる。

しかしながら、ビデオの画像コンテンツが比較的速く変化するとき、例えば、激しいサッカーの試合などの比較的激しい運動のショットシーンでは、隣接する2つのビデオフレーム間の相関性が小さいため、シーンチェンジフレームではないフレームが符号化されているとき、フレームは前のビデオフレームを参照してPフレームに符号化されるが、圧縮率は比較的低く、Pフレームのサイズは、比較的大きく、Iフレームのサイズの半分を超えることさえある。この場合、シーンチェンジフレームではない隣接するPフレーム間のサイズ差は大きくないが、シーンチェンジフレームであるPフレームと、このPフレームに隣接し、かつシーンチェンジフレームではないPフレームとのサイズ差は比較的大きい。したがって、Pフレームであるシーンチェンジフレームを検出するとき、隣接するPフレームのサイズの比を参照することもできる。

上記の分析に基づいて、以下では、図3Aを参照して、検出対象ビデオ中のシーンチェンジフレームを検出するための、本発明の実施形態1の実施態様Aを詳細に説明する。ビデオはN個のGOPを含み、Nは2以上の整数である。

検出対象ビデオは、ビデオファイルのビデオのセグメントであってもよいし、ビデオサーバによってビデオ端末に送信されるビデオストリームのビデオのセグメントなどの、ビデオストリームのビデオのセグメントであってもよい。これに対応して、検出装置は、ビデオストリームが通過する任意のデバイス（送信デバイス120またはビデオ端末130など）に配置されてもよいし、ミラーリング方式でビデオストリームを取得するように、ビデオストリームが通過する任意のデバイスをバイパスしてもよい。

図3Aに示すように、本発明の実施形態1の実施態様Aで提供される方法は、以下のステップを含む。

検出装置は、N個のGOPのうちのM番目のGOPから開始される各GOP内のすべてのPフレームのうちの最大PフレームP_maxがシーンチェンジフレームであるかどうかを判定するために、N個のGOPのうちのM番目のGOPから開始される各GOPに対して以下の操作を実行するが、ただし、Mは、1以上かつN以下である。

具体的には、検出は最初に、最初のGOP（すなわち、M＝1）に対して行われてもよい。あるいは、検出は最初に、最初のGOPに続くGOPに対して行われてもよい。例えば、検出対象ビデオは、ビデオストリームの冒頭の、ビデオのセグメントであり、最初の2つのGOP内のフレームのサイズは、通常は参照値を持たないため、通常、検出は最初に3番目のGOP（M＝3）に対して行われる。

ステップ102：K番目のGOP内のすべてのPフレームのうちの最大PフレームP_maxを判定するが、ただし、P_maxのサイズは、
であり、Kは、MからNまでの範囲の変数であり、1≦M≦Nである。

ステップ103：
の間の相対値が第1の閾値以上であり、かつ
の間の相対値が第2の閾値以上であると判定された場合、P_maxはシーンチェンジフレームであると判定するが、ただし、
は、P_maxと、P_maxに最も近くかつP_maxよりも前のシーンチェンジフレームとの間の複数のIフレームのサイズの中央値または平均値であり、
は、K番目のGOP内の複数のPフレームのサイズの中央値または平均値であり、第1の閾値は、0よりも大きくかつ1よりも小さく、第2の閾値は1よりも大きい。

また、
の間の相対値が第1の閾値よりも小さいか、または
の間の相対値が第2の閾値よりも小さいと判定された場合、P_maxはシーンチェンジフレームではないと判定される。

図5Bに示すように、K番目のGOP内の2番目のPフレームはP_maxであり、K番目のGOP内のIフレームはシーンチェンジフレームではなく、（K−1）番目のGOPにはシーンチェンジフレームは存在せず、（K−2）番目のGOP内の3番目のPフレーム（以下、P’_maxと呼ぶ）はシーンチェンジフレームである。この場合、P_maxに最も近くかつP_maxよりも前のシーンチェンジフレームはP’_maxである。

特定の実施態様では、ステップ102の前に、最初のGOP内のIフレームをシーンチェンジフレームとして決定することができる。K番目のGOP内のP_maxと最初のGOP内のIフレームとの間にシーンチェンジフレームが存在しない場合、P_maxに最も近くかつP_maxよりも前のシーンチェンジフレームは、最初のGOP内のIフレームである。検出対象ビデオがビデオのビデオセグメントであり、シーンチェンジフレームがその検出対象ビデオよりも前に検出されるビデオセグメント（以下、前のビデオセグメントと呼ぶ）が存在する場合、P_maxに最も近くかつP_maxよりも前のシーンチェンジフレームは、前のビデオセグメント内に位置し得る。

は、P_maxとP_maxに最も近くかつP_maxよりも前のシーンチェンジフレームとの間の全部または一部のIフレームのサイズの中央値または平均値を使用して計算することができる。図5Bに示すように、K番目のGOP内の2番目のPフレームはP_maxであり、P_maxに最も近くかつP_maxよりも前のシーンチェンジフレームはP’_maxであり、P_maxとP’_maxとの間に2つのIフレームI_kおよびI_k−1が存在し、
はI_kおよびI_k−1のサイズの平均値である。

は、K番目のGOP内の全部または一部のPフレームのサイズの中央値または平均値とすることができる。好ましい実施態様は以下の通りである。
は、以下の式に従って計算される。
、ただし、P_−m、…、およびP₋₁は、K番目のGOP内のP_maxよりも前のPフレームを表し、P₁、…、およびP_nは、K番目のGOP内のP_maxよりも後のPフレームを表し、Fは、P_−m、…、およびP₋₁ならびにP₁、…、およびP_nのサイズの中央値または平均値を計算するために使用され、
m＝min（num_before_P_frames，max_num）、
n＝min（num_after_P_frames，max_num）、ただし、
num_before_P_framesは、K番目のGOP内のP_maxよりも前のPフレームの数であり、num_after_P_framesは、K番目のGOP内のP_maxよりも後のPフレームの数であり、max_numは、考慮する必要がある予め設定されたフレームの数を表す。図5Cに示すように、num_before_P_framesは7であり、num_after_P_framesは4であり、max_numは6に設定されている。この場合、mは6であり、nは4である。

特定の実施態様では、
は、以下の式に従って計算することができる。

に簡単かつ効果的に反映させることができる。

第1の閾値は予め設定されてもよく、同じ第1の閾値が、同じ検出対象ビデオの異なるGOPで使用されてもよい。
に従って計算される場合、第1の閾値は0.53に設定され、あるいは
に従って計算される場合、第1の閾値は0.47に設定される。

あるいは、検出精度がさらに向上するように、第1の閾値は、計算によって取得されてよく、また動的に調整されてもよい。第1の閾値を計算し動的に調整するプロセスは以下の通りである。

検出対象ビデオのM番目のGOPが検出される前に、第1の閾値が最初に以下の式に従って計算される。

I_medianは、検出対象ビデオのすべてのIフレームのサイズの中央値または平均値であり、P_medianは、検出対象ビデオのすべてのPフレームのサイズの中央値または平均値である。中央値を例として使用する。例えば、検出対象ビデオは、サイズが3、5、3、6、4、7、3、5、および4である9個のPフレームを含み、シーケンスは、昇順で3、3、3、4、4、5、5、6、および7であり、したがって、P_medianは4であるか、あるいは、検出対象ビデオは、サイズが15、12、および18である3個のPフレームを含み、シーケンスは、昇順で12、15、および18であり、したがって、I_medianは15である。

次に、新しいPフレームがシーンチェンジフレームとして判定されるたびに、例えば、K番目のGOP内のP_maxがシーンチェンジフレームであると判定されるたびに、検出対象ビデオ中のシーンチェンジフレームとして判定されたPフレーム以外のPフレームのサイズの中央値または平均値が、新しいP_medianとして使用され、新しいI_thresholdが、式
に従って計算され、新しいI_thresholdが、次のGOP（K番目のGOPに続くGOP）内のP_maxがシーンチェンジフレームであるかどうかを判定するために使用されてもよい。

第1の閾値I_thresholdをリアルタイムで更新することができるため、シーンチェンジフレームとして判定されたPフレームの影響は適時に排除され、これにより、Pフレーム中のシーンチェンジフレームを検出する精度がさらに向上する。

特定の実施態様は以下の通りとすることができる。第1の閾値が式
に従って取得される場合、
であり、あるいは第1の閾値が式
に従って取得される場合、
である。

に簡単かつ効果的に反映させることができる。

第2の閾値は通常は予め設定されてもよく、同じ第2の閾値が、同じ検出対象ビデオの異なるGOPで使用されてもよい。例えば、第2の閾値は1.51に設定される。

本発明の実施形態1の実施態様Aは、ステップ101をさらに含むことができる。

ステップ101：N個のGOPのうちのM番目のGOPからN番目のGOP内のIフレームの中からシーンチェンジフレームを検出する。

ステップ101において、K番目のGOP内のIフレームがシーンチェンジフレームであるかどうかは、特に、K番目のGOP内のIフレームのサイズと（K−1）番目のGOP内のIフレームのサイズとの比、（K−1）番目のGOP内のすべてのPフレームのサイズの平均値とK番目のGOP内のすべてのPフレームのサイズの平均値との比、または（K−1）番目のGOP内のすべてのBフレームのサイズの平均値とK番目のGOP内のすべてのBフレームのサイズの平均値との比に基づいて判定することができる。特定の実施態様は以下の通りである。

1．K番目のGOP内のIフレームのサイズと（K−1）番目のGOP内のIフレームのサイズとの比r_Iを計算する。

2．（K−1）番目のGOP内のすべてのPフレームのサイズの平均値とK番目のGOP内のすべてのPフレームのサイズの平均値との比r_pを計算する。

3．（K−1）番目のGOP内のすべてのBフレームのサイズの平均値とK番目のGOP内のすべてのBフレームのサイズの平均値との比r_Bを計算する。

4．比r_Iが、第1の閾値よりも大きいかまたは第2の閾値よりも小さい場合、以下の条件（1）および条件（2）についてさらに判定し、そうでない場合、K番目のGOP内のIフレームはシーンチェンジフレームではないと判定する。

条件（1）：r_Pが第3の閾値よりも小さいか、またはr_Pが第4の閾値よりも大きい。

条件（2）：r_Bが第5の閾値よりも小さいか、またはr_Bが第6の閾値よりも大きい。

条件（1）と条件（2）の両方が満たされた場合、K番目のGOP内のIフレームはシーンチェンジフレームであると判定され、そうでない場合、K番目のGOP内のIフレームはシーンチェンジフレームではないと判定される。

上記の実施態様の具体的な詳細については、標準ITU-T P1201.2を参照されたい。

特定の実施態様では、最初のGOP内のIフレームをシーンチェンジフレームとして直接決定することができる。Kが1ではない場合、上記の方法を使用して、K番目のGOP内のIフレームがシーンチェンジフレームであるかどうかを判定することができる。

特定の実施態様では、図3Bに示すように、実施形態Aは、実施形態Jを使用して実施することができ、最初にステップ101が実行され、次にステップ102および103が実行される、すなわち、最初に、M番目のGOPからN番目のGOP内のIフレーム中のシーンチェンジフレームが検出され、次に、M番目のGOPからN番目のGOP内のPフレーム中のシーンチェンジフレームが検出される。例えば、最初にGOP1内のIフレームがシーンチェンジフレームとして決定され、次に、GOP M（例えばGOP1）からGOP N内のIフレームがシーンチェンジフレームであるかどうかが判定され、GOP M（例えばGOP1）からGOP N内のP_maxがシーンチェンジフレームであるかどうかが判定される。

あるいは、特定の実施態様では、図3Cに示すように、実施態様Aは、実施態様Kを使用して実施することができ、ステップ101は、ステップ102および103と組み合わせて実行され、シーンチェンジフレームは、ビデオフレームのシーケンスに基づいて検出される、すなわち、GOPのシーケンスに基づいて、M番目の（例えば、最初の）GOPから開始して現在のGOP内のシーンチェンジフレームが検出され、現在のGOP内のシーンチェンジフレームが検出されたら、最初に、現在のGOP内のIフレームがシーンチェンジフレームであるかどうかが検出され、次に、現在のGOP内のP_maxがシーンチェンジフレームであるかどうかが検出される。例えば、最初にGOP1内のIフレームがシーンチェンジフレームとして決定され、次に、GOP1内のP_max、GOP2内のIフレーム、GOP2内のP_max、GOP3内のIフレーム、GOP3内のP_max、…、GOP N内のIフレーム、またはGOP N内のP_maxがシーンチェンジフレームであるかどうかが順番に判定される。つまり、KがNよりも小さい場合、K番目のGOP内のP_maxがシーンチェンジフレームであるかどうかが判定された後に、（K＋1）番目のGOP内のIフレームがシーンチェンジフレームであるかどうかが判定される。

実施態様Kを使用して実施態様Aが実施される場合、シーンが短時間に連続して変化する確率が比較的低いため、Iフレームがシーンチェンジフレームであるかどうかが判定される前に、最初に、Iフレームと前のシーンチェンジフレームとの間の距離（以下、第1の距離と呼ぶ）が計算される。第1の距離が距離閾値以下である場合、Iフレームはシーンチェンジフレームではないと判定され、そうでない場合、標準ITU-T P1201.2で提供される方法に従って、Iフレームがシーンチェンジフレームであるかどうかをさらに判定することができる。特定の実施態様は以下の通りである。KがNよりも小さいとき、K番目のGOP内のP_maxがシーンチェンジフレームであるかどうかが判定された後、（K＋1）番目のGOP内のIフレーム（以下、現在のIフレームと呼ぶ）と、現在のIフレームに最も近くかつ現在のIフレームよりも前のシーンチェンジフレームとの間の距離が距離閾値以下であると判定された場合、現在のIフレームはシーンチェンジフレームではないと判定され、そうでない場合、標準ITU-T P1201.2で提供される方法に従って、現在のIフレームがシーンチェンジフレームであるかどうかをさらに判定することができる。

本発明で説明されている、2つのビデオフレーム間の距離は、2つのビデオフレーム間のビデオフレームの数である。X番目のビデオフレームとY番目のビデオフレームとの間の距離はY−Nであり、2つの隣接するビデオフレーム間の距離は1である。

距離閾値は予め設定されてもよく、同じ距離閾値が、同じ検出対象ビデオの異なるGOPで使用されてもよい。

あるいは、検出精度がさらに向上するように、距離閾値は決定されてもよく、また動的に調整されてもよい。距離閾値を決定し動的に調整するプロセスは以下の通りである。

N個のGOPのうちのM番目のGOPからN番目のGOP内のIフレーム中のシーンチェンジフレームが検出される前に、最初に、初期距離閾値が決定され、決定される初期距離閾値は、以下の3つの長さのうちの1つとすることができる。
（1）N個のGOPのうちの最長のGOPの長さ、
（2）N個のGOPの長さの平均値、および
（3）長さL、ただし、長さLを有するGOPの数はN個のGOPのうちで最大である

本発明で説明されているGOPの長さは、そのGOPに含まれるビデオフレームの数である。

例えば、検出対象ビデオは、長さが10、6、8、7、8、7、9、および8である8つのGOPを含み、方法（1）によれば、初期距離閾値は10に決定され、方法（2）によれば、初期距離閾値は8に決定され、方法（3）によれば、長さ8を有するGOPの数が最大であるため、初期距離閾値は8に決定される。

固定GOP長を使用して符号化が行われる場合、すべてのGOPの長さは同じであり、したがって、上記の3つの方法で計算される初期距離閾値は同じである。

次に、新しいシーンチェンジフレームが決定されたとき、その新しいシーンチェンジフレームと、その新しいシーンチェンジフレームに最も近くかつその新しいシーンチェンジフレームよりも前のシーンチェンジフレームとの間の距離（以下、第2の距離と呼ぶ）が距離閾値よりも小さい場合、距離閾値は、第2の距離に更新される。

本発明の実施形態1の実施態様Aでは、ビデオ中のシーンチェンジフレームが検出されるとき、Pフレーム中のシーンチェンジフレームを検出するために、ビデオのGOP内のすべてのPフレームのうちの最大PフレームP_maxがシーンチェンジフレームであるかどうかが、P_maxとP_maxに最も近くかつP_maxよりも前のシーンチェンジフレームとの間の複数のIフレームのサイズの中央値もしくは平均値と、P_maxのサイズ
との相対関係または
と、GOP内の複数のPフレームのサイズの中央値もしくは平均値との相対関係に基づいて判定され、これにより、シーンチェンジフレームの検出漏れが効果的に低減される。

また、ビデオ符号化において、Pフレームは、通常はBフレームよりも大きく、Pフレームは、通常はBフレームのサイズの2〜5倍である。シーンチェンジフレームのコンテンツとシーンチェンジフレームの前のフレームのコンテンツとの差分は比較的大きいので、シーンチェンジフレームはPフレームに符号化されるが、フレーム内予測符号化は、シーンチェンジフレーム内のほとんどのマクロブロックに対して実行される。したがって、符号化されたシーンチェンジフレームのサイズは比較的大きい。PフレームがBフレームのサイズの2倍よりも小さい場合、Pフレームはシーンチェンジフレームである可能性が高い。したがって、Pフレームであるシーンチェンジフレームを検出するとき、PフレームとBフレームとの相対関係を参照することができる。

上記の分析に基づいて、以下では、図4Aを参照して、検出対象ビデオ中のシーンチェンジフレームを検出するための、本発明の実施形態1の実施態様Bを詳細に説明する。ビデオはN個のGOPを含み、Nは2以上の整数である。

図4Aに示すように、本発明の実施形態1の実施態様Bで提供される方法は、以下のステップを含む。

ステップ202：ステップ202はステップ102と同じであり、ここでは詳細は再度説明しない。

ステップ203：
の間の相対値が第1の閾値以上であり、
の間の相対値が第2の閾値以上であり、かつK番目のGOP内にBフレームが存在しないと判定された場合、または、
の間の相対値が第1の閾値以上であり、
の間の相対値が第2の閾値以上であり、K番目のGOP内にBフレームが存在し、かつ
の間の相対値が第3の閾値以上であると判定された場合、P_maxはシーンチェンジフレームであると判定するが、ただし、
は、P_maxと、P_maxに最も近くかつP_maxよりも前のシーンチェンジフレームとの間の複数のIフレームのサイズの平均値であり、
は、K番目のGOP内の複数のPフレームのサイズの中央値または平均値であり、
は、P_maxと、P_maxに最も近くかつP_maxよりも前のシーンチェンジフレームとの間のすべてのBフレームのサイズの中央値または平均値であり、第1の閾値は、0よりも大きくかつ1よりも小さく、第2の閾値は1よりも大きく、第3の閾値は1よりも大きい。

また、
の間の相対値が第1の閾値よりも小さいか、または
の間の相対値が第2の閾値よりも小さいか、または
の間の相対値が第3の閾値よりも小さいと判定された場合、P_maxはシーンチェンジフレームではないと判定される。

の間の相対値が第1の閾値以上であることを判定するための方法および
の間の相対値が第2の閾値以上であることを判定するための方法は、ステップ102に関して説明したものと同じであり、ここでは詳細は再度説明しない。

に簡単かつ効果的に反映させることができる。

第3の閾値は予め設定されてもよく、同じ第3の閾値が、同じ検出対象ビデオの異なるGOPで使用されてもよい。
に従って計算される場合、第1の閾値は2.87に設定され、あるいは
に従って計算される場合、第1の閾値は1.87に設定される。

あるいは、検出精度がさらに向上するように、第3の閾値は、計算によって取得されてよく、また動的に調整されてもよい。第3の閾値を計算し動的に調整するプロセスは以下の通りである。

検出対象ビデオのM番目のGOPが検出される前に、第3の閾値が最初に以下の式に従って計算される。

B_thresholdは第3の閾値であり、P_medianは、ビデオのすべてのPフレームのサイズの中央値または平均値であり、B_medianは、検出対象ビデオのすべてのBフレームのサイズの中央値または平均値である。

次に、新しいPフレームがシーンチェンジフレームとして判定されるたびに、K番目のGOP内のP_maxがシーンチェンジフレームであると判定された場合、検出対象ビデオ中のシーンチェンジフレームとして判定されたPフレーム以外のPフレームのサイズの中央値または平均値が、新しいP_medianとして使用され、新しいB_thresholdが、式
に従って計算され、新しいB_thresholdが、次のGOP内のP_maxがシーンチェンジフレームであるかどうかを判定するために使用されてもよい。

第3の閾値B_thresholdをリアルタイムで更新することができるため、シーンチェンジフレームとして判定されたPフレームの影響は適時に排除され、これにより、Pフレーム中のシーンチェンジフレームを検出する精度がさらに向上する。

本発明の実施形態1の実施態様Bは、ステップ201をさらに含むことができ、ステップ201は、ステップ101と同じであり、ここでは詳細は再度説明しない。

特定の実施態様において、実施態様Bは、図4Bおよび図4Cに示すように、実施態様Aの2つの実施態様（実施態様Jおよび実施態様K）と同様の実施態様を使用して実施することもできる。

本発明の実施形態1の実施態様Bでは、ビデオ中のシーンチェンジフレームが検出されるとき、Pフレーム中のシーンチェンジフレームを検出するために、ビデオのGOP内のすべてのPフレームのうちの最大PフレームP_maxがシーンチェンジフレームであるかどうかが、P_maxとP_maxに最も近くかつP_maxよりも前のシーンチェンジフレームとの間の複数のIフレームのサイズの中央値もしくは平均値と、P_maxのサイズ
との相対関係または
と、GOP内の複数のPフレームのサイズの中央値もしくは平均値との相対関係またはP_maxとP_maxに最も近くかつP_maxよりも前のシーンチェンジフレームとの間のすべてのBフレームのサイズの中央値もしくは平均値と、
との相対関係に基づいて判定され、これにより、シーンチェンジフレームの検出漏れが効果的に低減される。また、Pフレーム中のシーンチェンジフレームを検出しているとき、IフレームおよびPフレームのサイズだけでなく、Bフレームのサイズも考慮されるため、Pフレーム中のシーンチェンジフレームを検出する精度がさらに向上する。

本発明の実施形態1に基づいて、本発明の実施形態2は、ビデオ中のシーンチェンジフレームを検出するための検出装置200を提供する。ビデオはN個のGOPを含み、Nは2以上の整数である。図6に示すように、検出装置200は、第1の判定部210および第2の判定部220を含む。

実施形態2の第1の実施態様は、実施形態1の実施態様Aに対応し、詳細は以下の通りである。

第1の判定部210は、K番目のGOP内のすべてのPフレームのうちの最大PフレームP_maxを判定し、P_maxのサイズは、
であり、Kは、MからNまでの範囲の変数であり、1≦M≦Nである、ように構成される。

第2の判定部220は、
の間の相対値が第1の閾値以上であり、かつ
の間の相対値が第2の閾値以上であると判定された場合、P_maxはシーンチェンジフレームであると判定し、
は、P_maxと、P_maxに最も近くかつP_maxよりも前のシーンチェンジフレームとの間の複数のIフレームのサイズの中央値または平均値であり、
は、K番目のGOP内の複数のPフレームのサイズの中央値または平均値であり、第1の閾値は、0よりも大きくかつ1よりも小さく、第2の閾値は1よりも大きい、ように構成される。

具体的には、第1の判定部210は、実施形態1の実施態様Aの方法のステップ102を実行するように特に構成されてもよく、第2の判定部220は、実施形態1の実施態様Aの方法のステップ103を実行するように特に構成されてもよい。

さらに、第2の判定部220は、N個のGOPのうちのM番目からN番目のGOP内のIフレームの中からシーンチェンジフレームを検出するようにさらに構成されてもよく、実施形態1の実施態様Aの方法のステップ101を実行するように特に構成されてもよい。

実施形態2の第2の実施態様は、実施形態1の実施態様Bに対応し、詳細は以下の通りである。

第2の判定部220は、
の間の相対値が第1の閾値以上であり、
の間の相対値が第2の閾値以上であり、かつK番目のGOP内にBフレームが存在しないと判定された場合、または、
の間の相対値が第1の閾値以上であり、
の間の相対値が第2の閾値以上であり、K番目のGOP内にBフレームが存在し、かつ
の間の相対値が第3の閾値以上であると判定された場合、P_maxはシーンチェンジフレームであると判定し、
は、P_maxと、P_maxに最も近くかつP_maxよりも前のシーンチェンジフレームとの間の複数のIフレームのサイズの中央値または平均値であり、
は、K番目のGOP内の複数のPフレームのサイズの中央値または平均値であり、
は、P_maxと、P_maxに最も近くかつP_maxよりも前のシーンチェンジフレームとの間のすべてのBフレームのサイズの中央値または平均値であり、第1の閾値は、0よりも大きくかつ1よりも小さく、第2の閾値は1よりも大きく、第3の閾値は1よりも大きい、ように構成される。

具体的には、第1の判定部210は、実施形態1の実施態様Bの方法のステップ202を実行するように特に構成されてもよく、第2の判定部220は、実施形態1の実施態様Bの方法のステップ203を実行するように特に構成されてもよい。

さらに、第2の判定部220は、N個のGOPのうちのM番目からN番目のGOP内のIフレームの中からシーンチェンジフレームを検出するようにさらに構成されてもよく、実施形態1の実施態様Bの方法のステップ201を実行するように特に構成されてもよい。

本発明の実施形態2では、ビデオ中のシーンチェンジフレームが検出されるとき、Iフレーム中のシーンチェンジフレームが検出され、ビデオのGOP内のすべてのPフレームのうちの最大PフレームP_maxがシーンチェンジフレームであるかどうかが、Pフレーム中のシーンチェンジフレームを検出するために、P_maxとP_maxに最も近くかつP_maxよりも前のシーンチェンジフレームとの間の複数のIフレームのサイズの中央値もしくは平均値と、P_maxのサイズ
との相対関係または
と、GOP内の複数のPフレームのサイズの中央値もしくは平均値との相対関係に基づいて判定され、これにより、シーンチェンジフレームの検出漏れが効果的に低減される。本発明の実施形態2の実施態様Bでは、Pフレーム中のシーンチェンジフレームを検出しているとき、IフレームおよびPフレームのサイズだけでなく、Bフレームのサイズも考慮されるため、Pフレーム中のシーンチェンジフレームを検出する精度がさらに向上する。

本発明の実施形態1に従って、本発明の実施形態3は、検出装置1000を提供する。図7に示すように、検出装置1000は、プロセッサ1010およびメモリ1020を含み、プロセッサ1010とメモリ1020とはバスを使用して相互通信を行う。

メモリ1020は、コンピュータ動作命令を記憶するように構成される。メモリ1020は、高速RAMメモリを含んでもよく、少なくとも1つの磁気ディスクメモリなどの不揮発性メモリ（non-volatile memory）をさらに含んでもよい。

プロセッサ1010は、メモリ1020に記憶されたコンピュータ動作命令を実行するように構成される。プロセッサ1010は、具体的には中央処理装置（CPU、central processing unit）であってもよく、コンピュータのコアユニットである。

プロセッサ1010は、検出装置1000が実施形態1の方法を実行できるようにするためにコンピュータ動作命令を実行する。

本発明の実施形態3では、ビデオ中のシーンチェンジフレームを検出するときに、Pフレーム中のシーンチェンジフレームを検出することができ、これにより、シーンチェンジフレームの検出漏れを効果的に低減することができる。

本発明の実施形態1〜3に従って、本発明の実施形態4は、検出デバイス400を提供する。図8に示すように、検出デバイス400は、媒体部4010および検出装置4020を含む。

媒体部4010は、ビデオ（以下、検出対象ビデオと呼ぶ）を取得し、そのビデオを検出装置4020に送信するように構成される。媒体部4010は、特に、ビデオファイルから検出対象ビデオを読み出してもよいし、ビデオサーバによって送信される受信メディアストリームから検出対象ビデオを取得してもよい。検出対象ビデオは、特に、完全なビデオであってもよいし、ビデオのビデオセグメントであってもよい。検出対象ビデオがビデオセグメントである場合、媒体部4010は、ビデオセグメントが配置されているビデオ（すなわち、ビデオセグメントを含むビデオ）を検出装置4020に送信してもよく、検出装置4020は、検出対象ビデオ中のシーンチェンジフレームを検出するために、受信したビデオのビデオセグメントを検出する。

検出装置4020は、特に、実施形態2で提供される検出装置200または実施形態3で提供される検出装置1000であってもよく、媒体部4010から検出対象ビデオを取得し、実施形態2で提供される検出装置200または実施形態3で提供される検出装置1000によって実行される動作を実行する。

検出装置4020は、検出されたシーンチェンジフレームに基づいて、検出対象ビデオの品質、または検出対象ビデオが配置されているビデオの品質をさらに評価してもよい。

本発明の実施形態4では、ビデオ中のシーンチェンジフレームを検出するときに、Pフレーム中のシーンチェンジフレームを検出することができ、これにより、シーンチェンジフレームの検出漏れを効果的に低減することができる。

本発明の実施形態1〜3に従って、本発明の実施形態5は、ビデオ品質評価を実施するためのシステム2000を提供する。図9Aに示すように、システム2000は、ビデオサーバ2010、送信デバイス2020、およびビデオ端末2030を含む。ビデオサーバ2010によって送信されるビデオストリームは、送信デバイス2020を介してビデオ端末2030に送信される。

特定の実施態様では、送信デバイス2020またはビデオ端末2030は、特に、実施形態2で提供される検出装置200または実施形態3で提供される検出装置1000を含んでもよい。特定の実施態様では、送信デバイス2020およびビデオ端末2030の両方は、実施形態2で提供される検出装置200または実施形態3で提供される検出装置1000を含んでもよい。送信デバイス2020またはビデオ端末2030は、特に、実施形態4で提供される検出デバイス400であってもよい。

別の特定の実施態様では、システムは、検出装置2040をさらに含む。図9Bおよび図9Cに示すように、検出装置2040は、特に、実施形態2で提供される検出装置200または実施形態3で提供される検出装置1000であってもよい。送信デバイス2020またはビデオ端末2030は、検出装置2040に接続され、検出装置2040は、検出装置2040に接続された送信デバイス2020またはビデオ端末2030を使用してビデオストリームを取得する。特定の実施態様では、送信デバイス2020およびビデオ端末2030は、別々に1つの検出装置2040に接続されてもよい。

本発明の実施形態5では、ビデオ中のシーンチェンジフレームを検出するときに、Pフレーム中のシーンチェンジフレームを検出することができ、これにより、シーンチェンジフレームの検出漏れを効果的に低減することができる。

当業者であれば、本明細書に開示されている実施形態で説明された例との組み合わせにおいて、ユニットおよびアルゴリズムステップが、電子ハードウェアまたはコンピュータソフトウェアと電子ハードウェアとの組み合わせによって実施され得ることを認識することができる。機能がハードウェアとソフトウェアのどちらによって実行されるかは、技術的解決策の特定の用途および設計制約条件に依存する。当業者であれば、特定の用途ごとに、説明された機能を実施するために異なる方法を使用することができるが、その実施態様は本発明の範囲を超えると考えられるべきではない。

簡便かつ簡単な説明のために、上記のシステム、装置、およびユニットの詳細な動作プロセスについては、上記の方法の実施形態における対応するプロセスを参照することができ、ここでは詳細は再度説明していないことが、当業者によって明確に理解され得る。

本願で提供されているいくつかの実施形態に関して、開示されているシステム、装置、および方法が他の方法で実施され得ることを理解されたい。例えば、説明されている装置の実施形態は単なる例である。例えば、ユニットの分割は、単なる論理的な機能の分割であり、実際の実施態様では他の分割であってもよい。例えば、複数のユニットまたはコンポーネントが、別のシステムとして組み合わされるか、もしくは統合されてもよいし、一部の特徴が、無視されるか、もしくは実行されなくてもよい。さらに、提示したまたは述べた相互結合または直接的な結合もしくは通信接続は、いくつかのインタフェースを使用して実施されてもよい。装置またはユニット間の間接的な結合または通信接続は、電子的形態、機械的形態、または他の形態で実施されてもよい。

別々の部分として説明されているユニットは、物理的に別々であってもなくてもよく、ユニットとして提示されている部分は、物理的なユニットであってもなくてもよく、1つの位置に配置されても、複数のネットワークユニットに分散されてもよい。ユニットの一部または全部は、実施形態の解決策の目的を達成するために実際の必要に応じて選択されてもよい。

また、本発明の実施形態における機能ユニットは、1つの処理ユニットに統合されてもよいし、これらのユニットの各々は、物理的に単独で存在してもよいし、2つ以上のユニットが、1つのユニットに統合されてもよい。

機能が、ソフトウェア機能ユニットの形態で実施され、独立した製品として販売または使用される場合、機能は、コンピュータ可読記憶媒体に記憶されてもよい。こうした理解に基づいて、本質的に、本発明の技術的解決策、または従来技術に寄与する部分、または技術的解決策一部は、ソフトウェア製品の形態で実施されてもよい。コンピュータソフトウェア製品は、記憶媒体に記憶され、コンピュータデバイス（パーソナルコンピュータ、サーバ、またはネットワークデバイスであってもよい）に、本発明の実施形態で説明した方法のステップの全部または一部を実行するよう命令するためのいくつかの命令を含む。上記の記憶媒体は、USBフラッシュドライブ、リムーバブルハードディスク、読み出し専用メモリ（ROM、Read-Only Memory）、ランダムアクセスメモリ（RAM、Random Access Memory）、磁気ディスク、または光ディスクなど、プログラムコードを記憶することができる任意の媒体を含む。

上記の説明は、本発明の特定の実施態様に過ぎず、本発明の保護範囲を限定するものではない。本発明で開示された技術的範囲内で当業者に容易に想到される変形例または置換例は、本発明の保護範囲内に含まれるものとする。したがって、本発明の保護範囲は、特許請求の範囲の保護範囲に従うものとする。

100 ビデオシステム
110 ビデオサーバ
120 送信デバイス
130 ビデオ端末
200 検出装置
210 第1の判定部
220 第2の判定部
400 検出デバイス
1000 検出装置
1010 プロセッサ
1020 メモリ
2000 システム
2010 ビデオサーバ
2020 送信デバイス
2030 ビデオ端末
2040 検出装置
4010 媒体部
4020 検出装置

第1の態様によれば、シーンチェンジフレームを検出するための方法が提供される。ビデオは、N個のピクチャグループ（GOP）を含み、Nは、2以上の整数であり、本方法は、
K番目のGOP内のすべてのPフレームのうちの最大PフレームP_maxを判定するステップであって、P_maxのサイズが、
であり、Kが、MからNまでの範囲の変数であり、1≦M≦Nである、ステップと、
の間の相対値が第1の閾値以上であり、かつ
の間の相対値が第2の閾値以上であると判定された場合に、P_maxはシーンチェンジフレームであると判定するステップであって、
が、P_maxと、P_maxに最も近くかつP_maxよりも前のシーンチェンジフレームとの間の複数のIフレームのサイズの中央値または平均値であり、
が、K番目のGOP内の複数のPフレームのサイズの中央値または平均値であり、第1の閾値が、0よりも大きくかつ1よりも小さく、第2の閾値が1よりも大きい、ステップと
を含む。

第2の態様によれば、ビデオ品質評価を実施するための方法が提供される。ビデオは、N個のピクチャグループ（GOP）を含み、Nは、2以上の整数であり、本方法は、
K番目のGOP内のすべてのPフレームのうちの最大PフレームP_maxを判定するステップであって、P_maxのサイズが、
であり、Kが、MからNまでの範囲の変数であり、1≦M≦Nである、ステップと、
の間の相対値が第1の閾値以上であり、
の間の相対値が第2の閾値以上であり、かつK番目のGOP内にBフレームが存在しないと判定された場合、または、
の間の相対値が第1の閾値以上であり、
の間の相対値が第2の閾値以上であり、K番目のGOP内にBフレームが存在し、かつ
の間の相対値が第3の閾値以上であると判定された場合、P_maxはシーンチェンジフレームであると判定するステップであって、
が、P_maxと、P_maxに最も近くかつP_maxよりも前のシーンチェンジフレームとの間の複数のIフレームのサイズの中央値または平均値であり、
が、K番目のGOP内の複数のPフレームのサイズの中央値または平均値であり、
が、P_maxと、P_maxに最も近くかつP_maxよりも前のシーンチェンジフレームとの間のすべてのBフレームのサイズの中央値または平均値であり、第1の閾値が、0よりも大きくかつ1よりも小さく、第2の閾値が1よりも大きく、第3の閾値が1よりも大きい、ステップと
を含む。

第4の態様によれば、ビデオ中のシーンチェンジフレームを検出するための検出装置が提供される。ビデオは、N個のピクチャグループ（GOP）を含み、Nは、2以上の整数であり、検出装置は、第1の判定部および第2の判定部を含む。

検出装置4020は、検出されたシーンチェンジフレームに基づいて、検出対象ビデオの品質、またはビデオセグメントが配置されているビデオの品質をさらに評価してもよい。

Claims

ビデオ中のシーンチェンジフレームを検出するための方法であって、前記ビデオが、N個のピクチャグループGOPを含み、Nが、2以上の整数であり、前記方法が、
K番目のGOP内のすべてのPフレームのうちの最大PフレームP_maxを判定するステップであって、P_maxのサイズが、
であり、Kが、MからNまでの範囲の変数であり、1≦M≦Nである、ステップと、
の間の相対値が第1の閾値以上であり、かつ
の間の相対値が第2の閾値以上であると判定された場合に、P_maxはシーンチェンジフレームであると判定するステップであって、
が、P_maxと、P_maxに最も近くかつP_maxよりも前のシーンチェンジフレームとの間の複数のIフレームのサイズの中央値または平均値であり、
が、前記K番目のGOP内の複数のPフレームのサイズの中央値または平均値であり、前記第1の閾値が、0よりも大きくかつ1よりも小さく、前記第2の閾値が1よりも大きい、ステップと
を含む、方法。
前記方法が、
式
に従って前記第1の閾値を計算するステップ、または
式
に従って前記第1の閾値を計算するステップ
をさらに含み、
I_thresholdは、前記第1の閾値であり、I_medianは、前記ビデオのすべてのIフレームのサイズの中央値または平均値であり、P_medianは、前記ビデオのすべてのPフレームのサイズの中央値または平均値である、請求項1に記載の方法。
前記第1の閾値が前記式
に従って取得される場合、
であり、または
前記第1の閾値が前記式
に従って取得される場合、
である、請求項2に記載の方法。
前記方法が、
前記K番目のGOP内のP_maxがシーンチェンジフレームとして判定された後に、前記ビデオ中のシーンチェンジフレームとして判定されたPフレーム以外のPフレームのサイズの中央値または平均値を新しいP_medianとして使用し、前記式
に従って新しいI_thresholdを計算するステップであって、前記新しいI_thresholdが、次のGOP内のP_maxがシーンチェンジフレームであるかどうかを判定するために使用される、ステップをさらに含む、請求項2または3に記載の方法。
前記方法が、
前記N個のGOPのうちのM番目のGOPからN番目のGOP内のIフレームの中からシーンチェンジフレームを検出するステップと、
KがNよりも小さい場合、前記K番目のGOP内のP_maxがシーンチェンジフレームであるかどうかが判定された後に、（K＋1）番目のGOP内のIフレームがシーンチェンジフレームであるかどうかを判定するステップと
をさらに含み、
前記N個のGOPのうちのM番目のGOPからN番目のGOP内のIフレームの中からシーンチェンジフレームを検出する前記ステップが、
第1の距離が距離閾値以下であると判定された場合に、前記（K＋1）番目のGOP内の前記Iフレームはシーンチェンジフレームではないと判定するステップであって、前記第1の距離が、前記（K＋1）番目のGOP内の前記Iフレームと、前記（K＋1）番目のGOP内の前記Iフレームに最も近くかつ前記（K＋1）番目のGOP内の前記Iフレームよりも前のシーンチェンジフレームとの間の距離である、ステップを特に含む、請求項1から4のいずれか一項に記載の方法。
前記方法が、
前記距離閾値を設定するステップであって、前記距離閾値が、以下の3つの長さのうちの1つ、すなわち、
前記N個のGOPのうちの最長のGOPの長さ、
前記N個のGOPの長さの中央値または平均値、および
長さLであって、前記長さLを有するGOPの数が、前記N個のGOPのうちで最大である、長さL
のうちの1つである、ステップをさらに含む、請求項5に記載の方法。
新しいシーンチェンジフレームが判定されたときに、第2の距離が前記距離閾値よりも小さい場合、前記距離閾値が前記第2の距離に更新され、前記第2の距離が、特に、前記新しいシーンチェンジフレームと、前記新しいシーンチェンジフレームに最も近くかつ前記新しいシーンチェンジフレームよりも前のシーンチェンジフレームとの間の距離である、請求項5または6に記載の方法。
ビデオ中のシーンチェンジフレームを検出するための方法であって、前記ビデオが、N個のピクチャグループGOPを含み、Nが、2以上の整数であり、前記方法が、
K番目のGOP内のすべてのPフレームのうちの最大PフレームP_maxを判定するステップであって、P_maxのサイズが、
であり、Kが、MからNまでの範囲の変数であり、1≦M≦Nである、ステップと、
の間の相対値が第1の閾値以上であり、
の間の相対値が第2の閾値以上であり、かつ前記K番目のGOP内にBフレームが存在しないと判定された場合、または、
の間の相対値が第1の閾値以上であり、
の間の相対値が第2の閾値以上であり、前記K番目のGOP内にBフレームが存在し、かつ
の間の相対値が第3の閾値以上であると判定された場合、P_maxはシーンチェンジフレームであると判定するステップであって、
が、P_maxと、P_maxに最も近くかつP_maxよりも前のシーンチェンジフレームとの間の複数のIフレームのサイズの中央値または平均値であり、
が、前記K番目のGOP内の複数のPフレームのサイズの中央値または平均値であり、
が、P_maxと、P_maxに最も近くかつP_maxよりも前の前記シーンチェンジフレームとの間のすべてのBフレームのサイズの中央値または平均値であり、前記第1の閾値が、0よりも大きくかつ1よりも小さく、前記第2の閾値が1よりも大きく、前記第3の閾値が1よりも大きい、ステップと
を含む、方法。
前記方法が、
式
に従って前記第1の閾値を計算するステップ、または
式
に従って前記第1の閾値を計算するステップ
をさらに含み、I_thresholdは、前記第1の閾値であり、I_medianは、前記ビデオのすべてのIフレームのサイズの中央値または平均値であり、P_medianは、前記ビデオのすべてのPフレームのサイズの中央値または平均値である、請求項8に記載の方法。
前記方法が、
式
に従って前記3の閾値を計算するステップ、または
式
に従って前記第3の閾値を計算するステップ
をさらに含み、B_thresholdは、前記第3の閾値であり、P_medianは、前記ビデオのすべてのPフレームのサイズの中央値または平均値であり、B_medianは、前記ビデオのすべてのBフレームのサイズの中央値または平均値である、請求項8または9に記載の方法。
前記方法が、
前記K番目のGOP内のP_maxがシーンチェンジフレームとして判定された後に、前記ビデオ中のシーンチェンジフレームとして判定されたPフレーム以外のPフレームのサイズの中央値または平均値を新しいP_medianとして使用し、前記式
に従って新しいI_thresholdを計算するステップであって、前記新しいI_thresholdが、次のGOP内のP_maxがシーンチェンジフレームであるかどうかを判定するために使用される、ステップをさらに含む、請求項8から10のいずれか一項に記載の方法。
前記方法が、
前記N個のGOPのうちのM番目のGOPからN番目のGOP内のIフレームの中からシーンチェンジフレームを検出するステップと、
KがNよりも小さい場合、前記K番目のGOP内のP_maxがシーンチェンジフレームであるかどうかが判定された後に、（K＋1）番目のGOP内のIフレームがシーンチェンジフレームであるかどうかを判定するステップと
をさらに含み、
前記N個のGOPのうちのM番目のGOPからN番目のGOP内のIフレームの中からシーンチェンジフレームを検出する前記ステップが、
第1の距離が距離閾値以下であると判定された場合に、前記（K＋1）番目のGOP内の前記Iフレームはシーンチェンジフレームではないと判定するステップであって、前記第1の距離が、前記（K＋1）番目のGOP内の前記Iフレームと、前記（K＋1）番目のGOP内の前記Iフレームに最も近くかつ前記（K＋1）番目のGOP内の前記Iフレームよりも前のシーンチェンジフレームとの間の距離である、ステップを特に含む、請求項8から11のいずれか一項に記載の方法。
前記方法が、
前記距離閾値を設定するステップであって、前記距離閾値が、以下の3つの長さのうちの1つ、すなわち、
前記N個のGOPのうちの最長のGOPの長さ、
前記N個のGOPの長さの中央値または平均値、および
長さLであって、前記長さLを有するGOPの数が、前記N個のGOPのうちで最大である、長さL
のうちの1つである、ステップをさらに含む、請求項12に記載の方法。
新しいシーンチェンジフレームが判定されたときに、第2の距離が前記距離閾値よりも小さい場合、前記距離閾値が前記第2の距離に更新され、前記第2の距離が、特に、前記新しいシーンチェンジフレームと、前記新しいシーンチェンジフレームに最も近くかつ前記新しいシーンチェンジフレームよりも前のシーンチェンジフレームとの間の距離である、請求項13に記載の方法。
ビデオ中のシーンチェンジフレームを検出するための検出装置であって、前記ビデオが、N個のGOPを含み、Nが、2以上の整数であり、前記検出装置が、第1の判定部および第2の判定部を含み、
前記第1の判定部が、K番目のGOP内のすべてのPフレームのうちの最大PフレームP_maxを判定し、P_maxのサイズは、
であり、Kは、MからNまでの範囲の変数であり、1≦M≦Nである、ように構成され、
前記第2の判定部が、
の間の相対値が第1の閾値以上であり、かつ
の間の相対値が第2の閾値以上であると判定された場合に、P_maxはシーンチェンジフレームであると判定し、
は、P_maxと、P_maxに最も近くかつP_maxよりも前のシーンチェンジフレームとの間の複数のIフレームのサイズの中央値または平均値であり、
は、前記K番目のGOP内の複数のPフレームのサイズの中央値または平均値であり、前記第1の閾値は、0よりも大きくかつ1よりも小さく、前記第2の閾値は1よりも大きい、ように構成される、検出装置。
前記第2の判定部が、
式
に従って前記第1の閾値を計算するか、または
式
に従って前記第1の閾値を計算する
ようにさらに構成され、
I_thresholdは、前記第1の閾値であり、I_medianは、前記ビデオのすべてのIフレームのサイズの中央値または平均値であり、P_medianは、前記ビデオのすべてのPフレームのサイズの中央値または平均値である、請求項15に記載の検出装置。
前記第1の閾値が前記式
に従って取得される場合、
であり、または
前記第1の閾値が前記式
に従って取得される場合、
である、請求項16に記載の検出装置。
前記第2の判定部が、前記K番目のGOP内のP_maxはシーンチェンジフレームであると判定した後に、前記ビデオ中のシーンチェンジフレームとして判定されたPフレーム以外のPフレームのサイズの中央値または平均値を新しいP_medianとして使用し、前記式
に従って新しいI_thresholdを計算し、前記新しいI_thresholdが、次のGOP内のP_maxがシーンチェンジフレームであるかどうかを判定するために使用される、ようにさらに構成される、請求項16または17に記載の方法。
前記第2の判定部が、
前記N個のGOPのうちのM番目のGOPからN番目のGOP内のIフレームの中からシーンチェンジフレームを検出し、
KがNよりも小さい場合、前記K番目のGOP内のP_maxがシーンチェンジフレームであるかどうかが判定された後に、（K＋1）番目のGOP内のIフレームがシーンチェンジフレームであるかどうかを判定する
ようにさらに構成され、
前記第2の判定部が、前記N個のGOPのうちのM番目のGOPからN番目のGOP内のIフレームの中からシーンチェンジフレームを検出するように構成されることが、
第1の距離が距離閾値以下であると判定された場合に、前記（K＋1）番目のGOP内の前記Iフレームはシーンチェンジフレームではないと判定し、前記第1の距離が、前記（K＋1）番目のGOP内の前記Iフレームと、前記（K＋1）番目のGOP内の前記Iフレームに最も近くかつ前記（K＋1）番目のGOP内の前記Iフレームよりも前のシーンチェンジフレームとの間の距離である、ことを特に含む、請求項15から18のいずれか一項に記載の検出装置。
前記第2の判定部が、前記距離閾値を設定し、前記距離閾値が、以下の3つの長さのうちの1つ、すなわち、
前記N個のGOPのうちの最長のGOPの長さ、
前記N個のGOPの長さの中央値または平均値、および
長さLであって、前記長さLを有するGOPの数が、前記N個のGOPのうちで最大である、長さL
のうちの1つである、ようにさらに構成される、請求項19に記載の検出装置。
前記第2の判定部が、新しいシーンチェンジフレームが判定されたときに、第2の距離が前記距離閾値よりも小さい場合、前記距離閾値を前記第2の距離に更新し、前記第2の距離が、特に、前記新しいシーンチェンジフレームと、前記新しいシーンチェンジフレームに最も近くかつ前記新しいシーンチェンジフレームよりも前のシーンチェンジフレームとの間の距離である、ようにさらに構成される、請求項19または20に記載の検出装置。
ビデオ中のシーンチェンジフレームを検出するための検出装置であって、前記ビデオが、N個のピクチャグループGOPを含み、Nが、2以上の整数であり、前記検出装置が、第1の判定部および第2の判定部を含み、
前記第1の判定部が、K番目のGOP内のすべてのPフレームのうちの最大PフレームP_maxを判定し、P_maxのサイズは、
であり、Kは、MからNまでの範囲の変数であり、1≦M≦Nである、ように構成され、
前記第2の判定部が、
の間の相対値が第1の閾値以上であり、
の間の相対値が第2の閾値以上であり、かつ前記K番目のGOP内にBフレームが存在しないと判定された場合、または、
の間の相対値が第1の閾値以上であり、
の間の相対値が第2の閾値以上であり、前記K番目のGOP内にBフレームが存在し、かつ
の間の相対値が第3の閾値以上であると判定された場合、P_maxはシーンチェンジフレームであると判定し、
は、P_maxと、P_maxに最も近くかつP_maxよりも前のシーンチェンジフレームとの間の複数のIフレームのサイズの中央値または平均値であり、
は、前記K番目のGOP内の複数のPフレームのサイズの中央値または平均値であり、
は、P_maxと、P_maxに最も近くかつP_maxよりも前の前記シーンチェンジフレームとの間のすべてのBフレームのサイズの中央値または平均値であり、前記第1の閾値は、0よりも大きくかつ1よりも小さく、前記第2の閾値は1よりも大きく、前記第3の閾値は1よりも大きい、ように構成される、検出装置。
前記第2の判定部が、
式
に従って前記第1の閾値を計算するか、または
式
に従って前記第1の閾値を計算する
ようにさらに構成され、
I_thresholdは、前記第1の閾値であり、I_medianは、前記ビデオのすべてのIフレームのサイズの中央値または平均値であり、P_medianは、前記ビデオのすべてのPフレームのサイズの中央値または平均値である、請求項22に記載の検出装置。
前記第2の判定部が、
式
に従って前記第3の閾値を計算するか、または
式
に従って前記第3の閾値を計算する
ようにさらに構成され、
I_thresholdは、前記第1の閾値であり、I_medianは、前記ビデオのすべてのIフレームのサイズの中央値または平均値であり、B_medianは、前記ビデオのすべてのBフレームのサイズの中央値または平均値である、請求項22または23に記載の検出装置。
前記第2の判定部が、前記K番目のGOP内のP_maxはシーンチェンジフレームであると判定した後に、前記ビデオ中のシーンチェンジフレームとして判定されたPフレーム以外のPフレームのサイズの中央値または平均値を新しいP_medianとして使用し、前記式
に従って新しいI_thresholdを計算し、前記新しいI_thresholdが、次のGOP内のP_maxがシーンチェンジフレームであるかどうかを判定するために使用される、ようにさらに構成される、請求項22から24のいずれか一項に記載の検出装置。
前記第2の判定部が、
前記N個のGOPのうちのM番目のGOPからN番目のGOP内のIフレームの中からシーンチェンジフレームを検出し、
KがNよりも小さい場合、前記K番目のGOP内のP_maxがシーンチェンジフレームであるかどうかが判定された後に、（K＋1）番目のGOP内のIフレームがシーンチェンジフレームであるかどうかを判定する
ようにさらに構成され、
前記第2の判定部が、前記N個のGOPのうちのM番目のGOPからN番目のGOP内のIフレームの中からシーンチェンジフレームを検出するように構成されることが、
第1の距離が距離閾値以下であると判定された場合に、前記（K＋1）番目のGOP内の前記Iフレームはシーンチェンジフレームではないと判定し、前記第1の距離が、前記（K＋1）番目のGOP内の前記Iフレームと、前記（K＋1）番目のGOP内の前記Iフレームに最も近くかつ前記（K＋1）番目のGOP内の前記Iフレームよりも前のシーンチェンジフレームとの間の距離である、ことを特に含む、請求項22から25のいずれか一項に記載の検出装置。
前記第2の判定部が、前記距離閾値を設定し、前記距離閾値が、以下の3つの長さのうちの1つ、すなわち、
前記N個のGOPのうちの最長のGOPの長さ、
前記N個のGOPの長さの中央値または平均値、および
長さLであって、前記長さLを有するGOPの数が、前記N個のGOPのうちで最大である、長さL
のうちの1つである、ようにさらに構成される、請求項26に記載の検出装置。
前記第2の判定部が、新しいシーンチェンジフレームが判定されたときに、第2の距離が前記距離閾値よりも小さい場合、前記距離閾値を前記第2の距離に更新し、前記第2の距離が、特に、前記新しいシーンチェンジフレームと、前記新しいシーンチェンジフレームに最も近くかつ前記新しいシーンチェンジフレームよりも前のシーンチェンジフレームとの間の距離である、ようにさらに構成される、請求項27に記載の検出装置。