JP7380832B2 - 数理モデル導出装置、数理モデル導出方法及びプログラム - Google Patents

数理モデル導出装置、数理モデル導出方法及びプログラム Download PDF

Info

Publication number
JP7380832B2
JP7380832B2 JP2022505743A JP2022505743A JP7380832B2 JP 7380832 B2 JP7380832 B2 JP 7380832B2 JP 2022505743 A JP2022505743 A JP 2022505743A JP 2022505743 A JP2022505743 A JP 2022505743A JP 7380832 B2 JP7380832 B2 JP 7380832B2
Authority
JP
Japan
Prior art keywords
quality
video
degraded
mathematical model
average value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022505743A
Other languages
English (en)
Other versions
JPWO2021181724A1 (ja
Inventor
和久 山岸
則次 恵木
憲子 吉村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2021181724A1 publication Critical patent/JPWO2021181724A1/ja
Application granted granted Critical
Publication of JP7380832B2 publication Critical patent/JP7380832B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8455Structuring of content, e.g. decomposing content into time segments involving pointers to the content, e.g. pointers to the I-frames of the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N17/00Diagnosis, testing or measuring for television systems or their details
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/262Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists
    • H04N21/26208Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists the scheduling operation being performed under constraints
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/63Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
    • H04N21/647Control signaling between network components and server or clients; Network processes for video distribution between server and clients, e.g. controlling the quality of the video stream, by dropping packets, protecting content from unauthorised alteration within the network, monitoring of network load, bridging between two different networks, e.g. between IP and wireless

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Security & Cryptography (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Description

本発明は、数理モデル導出装置、数理モデル導出方法及びプログラム
に関する。
インターネットを介して映像や音響(以下、音声も含む)を含む映像メディアを端末間あるいはサーバと端末との間で転送する映像通信サービス(例えば、IPTV、アダプティブストリーミング(例えば、HLS、MPEG-DASH))が普及している。
インターネットは、必ずしも通信品質が保証されていないネットワークであるため、音声メディアや映像メディアなどを用いて通信を行う場合、視聴者端末とネットワークの回線帯域が狭いことによるビットレートの低下、回線が輻輳することによるパケット損失、パケット転送遅延、パケットの再送が発生し、音声メディアや映像メディアなどに対して視聴者が知覚する品質が劣化してしまう。
具体的には、ネットワークを介して過剰なビットレートで映像を配信することができないために原映像について符号化が行われるが、原映像を符号化する際に、フレーム内の映像信号にブロック単位の処理による劣化が生じたり、映像信号の高周波成分が失われることにより、映像全体の精細感が低くなったりする。また、配信ビットレートを確保できないために、映像の解像度を低下させ、精細感が低くなったり、フレームレートを低下させることで映像の連続性が確保できず、不連続な映像になったりする。また、符号化された映像データをパケットとしてネットワークを介して視聴者端末に送信する際、パケット損失や廃棄が発生すると、フレーム内に劣化が生じたり、スループット等が低下したりして、パケットが再生のタイミングまでに届かず、視聴者端末でのデータバッファ量が不足して映像の再生が停止したりする。
同様に、音響においても、ネットワークを介して過剰なビットレートで音響を配信することができないために原音響について符号化が行われるが、原音響を符号化する際に、音響の高周波成分が失われ、音響の明瞭度が失われる。また、映像同様に、符号化された音響データをパケットとしてネットワークを介して視聴者端末に送信する際、パケット損失や廃棄が発生すると、音響に歪が生じたり、スループット等が低下したりして、パケットが再生のタイミングまでに届かず、視聴者端末でのデータバッファ量が不足して音響の再生が停止したりする。
結果として、視聴者は、映像劣化、音響劣化を知覚し、オーディオビジュアル品質の低下を知覚する。
サービス提供者が、上記のような映像通信サービスを良好な品質で提供していることを確認するためには、サービス提供中に、視聴者が体感するオーディオビジュアルの品質を視聴者端末で測定し、視聴者に対して提供されるオーディオビジュアルの品質が高いことを監視できることが重要となる。また、視聴者端末で品質を測定するためには、映像信号を用いた品質推定ではなく、パケット情報やメタデータなどの簡易に計算可能な情報のみを用いて品質を推定できることが視聴者端末のリソースの観点から重要となる。
したがって、視聴者が体感するオーディオビジュアル品質を適切に表現することができるオーディオビジュアル品質推定技術が必要とされている。
従来、オーディオビジュアル品質を評価する手法として、例えば、非特許文献1-5等に開示された品質推定法がある。
具体的には、送信されたパケットとサービス提供者などから得た設定値を入力とし、パケット損失により発生した映像フレームの損失により、劣化がどの程度伝搬するかを考慮し、実コンテンツの尺長(例えば、30分、1時間、2時間など)に対し、短時間(例えば、10秒程度)の音響、映像、オーディオビジュアル品質評価値を導出する技術がある(例えば、非特許文献1参照)。
また、送信された映像配信に関するメタデータ(例えば、解像度、フレームレート、ビットレート等)とサービス提供者などから得た設定値(例えば、コーデック等)を入力とし、実コンテンツの尺長(例えば、30分、1時間、2時間など)に対し、短時間(例えば、10秒程度)のオーディオビジュアル品質評価値を導出する技術がある(例えば、非特許文献2-5参照)。
従来の品質推定法は、上記のように、短時間における音響、映像、オーディオビジュアル品質評価値を推定するものであった。
Parametric non-intrusive assessment of audiovisual media streaming quality, ITU-T P.1201 Parametric bitstream-based quality assessment of progressive download and adaptive audiovisual streaming services over reliable transport, ITU-T P.1203 Parametric bitstream-based quality assessment of progressive download and adaptive audiovisual streaming services over reliable transport - Video quality estimation module, ITU-T P.1203.1 P. Lebreton and K. Yamagishi, "Transferring adaptive bit rate streaming quality models from H.264/HD to H.265/4K-UHD," IEICE Transactions on Communications, Vol.E102-B, No.12, pp.2226-2242, Dec. 2019. K. Yamagishi and T. Hayashi, "Parametric Quality-Estimation Model for Adaptive-Bitrate Streaming Services," IEEE Transactions on Multimedia, Vol.19, No. 7, pp.1545-1557, 2017.
しかしながら、非特許文献1-5の技術(パラメトリックモデル)は、コーデック情報やビットレートなどのパラメータから音響、映像、オーディオビジュアル品質を推定するため、例えば、コーデック設定(例えば、プロファイル、エンコーディングパス数、GoP(Group of Picture)サイズ、動きベクトル探索範囲等)を変更して符号化された品質を推定した場合においても、同じ入力パラメータであれば、明らかに異なる品質レベルのものを同じ品質値として出力してしまう課題がある(課題1)。
また、非特許文献1-5は、上記のように複数のコーデックの設定で推定された品質値を比較評価する際のガイダンスや対処法が記載されていないため、品質推定法の利用者は品質推定法をそれぞれのコーデックの設定に最適化し、利用することもできない(課題2)。
また、非特許文献1-5の品質推定法を最適化する場合、一般に、主観品質評価を実施し、各設定パラメータに対する主観品質値を得てから、得られた主観品質値とパラメータの関係を数理モデルの係数を最適化する。複数のコーデックに対する主観品質値を得るためには、多数のコーデックに対する設定を含んだ実験を実施することが必要になるが、主観品質評価を実施するためには、多数の実験参加者や実験映像の準備が必要となるため、機械的に、主観品質値を用意できないという課題がある(課題3)。
本発明は、上記の点に鑑みてなされたものであって、コーデック設定に応じた品質を評価可能な数理モデルを導出可能とすることを目的とする。
そこで上記課題を解決するため、数理モデル導出装置は、コーデック設定に対する複数の符号化パラメータの複数通りの組み合わせに基づいて、原映像について符号化後の複数の劣化映像を生成する符号化部と、前記複数の劣化映像のそれぞれの品質推定値を算出する品質推定部と、前記複数の符号化パラメータの複数通りの組み合わせと前記品質推定値とに基づいて、前記複数の符号化パラメータを入力として映像品質を出力する数理モデルの係数を導出する導出部と、を有し、前記品質推定部は、前記複数の劣化映像のそれぞれについて、当該劣化映像の映像フレームごとの品質推定値の平均値を算出し、複数のフレームレートについて予め作成されている、前記平均値をフレームレートに対する主観品質の影響を考慮した品質推定値へ変換する関数に前記平均値を入力して前記品質推定値を算出する
コーデック設定に応じた品質を評価可能な数理モデルを導出可能とすることができる。
本発明の実施の形態における数理モデル導出装置10のハードウェア構成例を示す図である。 本発明の実施の形態における数理モデル導出装置10の機能構成例を示す図である。 数理モデル導出装置10が実行する処理手順の一例を説明するためのフローチャートである。 映像の主観品質とFull-referenceモデルであるVMAFとの関係を示す図である。 映像の主観品質とFull-referenceモデルであるPSNRとの関係を示す図である。
以下、図面に基づいて本発明の実施の形態を説明する。図1は、本発明の実施の形態における数理モデル導出装置10のハードウェア構成例を示す図である。図1の数理モデル導出装置10は、それぞれバスBで相互に接続されているドライブ装置100、補助記憶装置102、メモリ装置103、CPU104、及びインタフェース装置105等を有する。
数理モデル導出装置10での処理を実現するプログラムは、フレキシブルディスク又はCD-ROM等の記録媒体101によって提供される。プログラムを記憶した記録媒体101がドライブ装置100にセットされると、プログラムが記録媒体101からドライブ装置100を介して補助記憶装置102にインストールされる。但し、プログラムのインストールは必ずしも記録媒体101より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。また、当該プログラムは、他のプログラムの一部としてインストールされるようにしてもよい。補助記憶装置102は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
メモリ装置103は、プログラムの起動指示があった場合に、補助記憶装置102からプログラムを読み出して格納する。CPU104は、メモリ装置103に格納されたプログラムに従って数理モデル導出装置10に係る機能を実行する。インタフェース装置105は、ネットワークに接続するためのインタフェースとして用いられる。
図2は、本発明の実施の形態における数理モデル導出装置10の機能構成例を示す図である。図2において、数理モデル導出装置10は、コーデック設定に応じた品質を評価可能な数理モデルを導出可能とするために、符号化部11、品質推定部12及び導出部13等を有する。これら各部は、数理モデル導出装置10にインストールされた1以上のプログラムが、CPU104に実行させる処理により実現される。すなわち、これら各部は、数理モデル導出装置10のハードウェア資源と、数理モデル導出装置10にインストールされたプログラム(ソフトウェア)との協働によって実現される。
以下、数理モデル導出装置10が実行する処理手順について説明する。図3は、数理モデル導出装置10が実行する処理手順の一例を説明するためのフローチャートである。
まず、符号化部11は、1つの原映像(10秒程度の符号化前の映像)、1以上のコーデック設定(例えば、プロファイル、エンコーディングパス数、GoPサイズ、動きベクトル探索範囲等)、コーデック設定ごとに複数の符号化パラメータ(例えば、解像度、フレームレート、ビットレート)の複数通りの組み合わせの入力を受け付ける。符号化部11は、当該コーデック設定ごとに、当該コーデック設定に対する複数通りの符号化パラメータの組み合わせに基づいて、原映像が符号化された後の映像(以下、「劣化映像」という。)を生成し、原映像及び複数の劣化映像を品質推定部12に出力する(S101)。すなわち、劣化映像は、符号化パラメータの組み合わせごとに生成される。例えば、1つのコーデック設定について、9通りの符号化パラメータの組み合わせが入力された場合、9個の劣化映像が生成される。ここで、コーデック設定及び符号化パラメータは、例えば、実運用で用いられる値が入力されればよい。すなわち、コーデック設定、符号化パラメータは、一般にはサービス提供者が知り得る情報である。また、符号化パラメータのうち解像度及びフレームレートも同様に、サービス提供者が利用を想定しているものを設定すればよい。
但し、劣化映像については、非常に良い品質から非常に悪い品質(すなわち、複数通りの品質)の映像が生成されるのが望ましい。換言すれば、符号化パラメータは、複数通りの品質の劣化映像が生成されるように入力されるのが望ましい。例えば、サービス提供者が実際に提供予定の符号化パラメータ(解像度、フレームレート、ビットレート)の組み合わせ(例えば、3840x2160/60fps@8Mbps、1920x1080/30fps@2Mbps、1280x720/30fps@1Mbps、960x540/30fps@0.5Mbps、480x270/30fps@0.2Mbps)のみ劣化映像を用意するだけでは、後述する導出部13で最適化される数理モデルの係数が過学習され、適切な品質推定精度を担保できない場合がある。特に、ビットレートに関しては、サービスに実際に利用するものだけでは、サンプル数が十分でない。
そこで、サービス提供者が想定している解像度及びフレームレートの組み合わせ(例えば、「3840×2160画素、60fps」、「3840×2160画素、30fps」、「1920×1080画素、30fps」、「1280×720画素、30fps」、「960×540画素、30fps」、「480×270画素、15fps」)に対し、ビットレートを決定する際、品質推定技術を用いる等して、品質の高いビットレート、中程度の品質のビットレート、品質の低いビットレートのように、各解像度及びフレームレートの組み合わせに対し、少なくとも3段階程度のビットレートが設定されるのが望ましい。例えば、或るコーデック設定に対して上記の6通りの解像度及びフレームレートの組のそれぞれについて、4段階のビットレートが設定された場合、符号化パラメータの組としては、6×4=24通りとなる。この場合、当該コーデック設定に対して24個の劣化映像が生成される。
そうすることで、後述する導出部13による数理モデルの係数が最適化の精度の向上を期待することができる。つまり、準備する劣化映像の品質の範囲が十分に広くふれていない場合、数理モデルから算出される品質に対する推定精度が低くなる。このような問題を回避するため、前述のように、適切な範囲で品質がふれた劣化映像を準備する必要がある。また、上記では、ビットレートを例に説明したが、解像度及びフレームレートの変化によっても品質は変動するため、解像度に対する品質の変化を考慮し、少なくとも3段階程度、同様に、フレームレートについても少なくとも3段階程度、品質が変化するように設定されるのが望ましい。
続いて、品質推定部12は、原映像及び複数の劣化映像を入力とし、各劣化映像の映像品質の推定値(以下、単に「品質推定値」という。)を算出する(S102)。品質推定技術については、例えば、VMAF(Video Multi-method Assessment Fusion)(https://github.com/Netflix/vmaf)やPSNR(Peak signal-to-noise ratio)などを用いることができる。本実施の形態では、Full-referenceモデルを用いた実施例を示しているが、Reduced-referenceやNo-referenceモデルで品質推定値を導出することも可能である。No-referenceモデルが用いられる場合は、原映像は品質推定部12へ入力されなくてよい。この場合、原映像は不要だからである。
なお、品質推定部12は、例えば、劣化映像の全ての映像フレームのそれぞれの品質推定値の平均値を、当該劣化映像の品質推定値として算出する。すなわち、1つの劣化映像に対して1つの品質推定値が算出される。
但し、映像フレームごとの品質推定値の平均値を劣化映像の品質推定値とする場合、フレームレートが減ることによる知覚品質(主観品質)の低下を捉えることができない。この点は、図4からも明らかである。すなわち、図4によれば、VMAFが低下するとMOSが低下するという傾向は把握可能なものの、図4では、VMAFとMOSとの関係が1つの線で描けていない。したがって、フレームレートが映像品質に与える影響を捉えることができていないことが分かる。そこで、予め、視聴者が体感する主観品質とフレームレート低下の関係を示す(フレームレートに対する主観品質の影響を考慮した)マッピング関数をフレームレートごとに作成しておいてもよい。また、Full-referenceモデルであるPSNRを用いる場合、PSNRから主観品質を直接推定することは原映像の特徴を捉えられないため、難しいと知られている。劣化映像作成時に用いる原映像を複数固定して用いることで、例えば、原映像1に対する主観品質との関係(原映像に対する主観品質の影響を考慮した関係)をマッピング関数1(例えば、図5)、原映像2に対する主観品質との関係(原映像に対する主観品質の影響を考慮した関係)をマッピング関数2のように、原映像ごとにマッピング関数が作成されてもよい。このようなマッピング関数は、上記の方法で算出された平均値を入力とし、当該平均値を、主観品質を示す品質推定値へ変換するマッピング関数である。品質推定部12は、劣化映像ごとに、当該劣化映像のフレームレートや原映像に対応するマッピング関数に対して、当該劣化映像についてフレームごとに算出された品質推定値の平均値を入力して、フレームレートが減ることによる知覚品質の影響(低下)や原映像が主観品質に及ぼす影響が考慮された品質推定値を算出してもよい。
例えば、60fps、50fps、30fps、25fps、24fps、15fps等のフレームレートがしばしば利用されるため、これらのフレームレートごとに、当該フレームレートに係る各映像の主観品質と、当該フレームレートに係る各映像の全てのフレームの品質推定値の平均値との対応関係を図4に示される関係を用い、二次関数、三次関数、対数関数、指数関数、ロジスティック関数等でマッピングし(例えば、以下のマッピング関数1-4)、これらのフレームレートごとに、マッピング関数の係数を保持しておけばよい。また、原映像1に対する主観品質との関係(つまり、図5に示される関係)を示す(原映像に対する主観品質の影響を考慮した)マッピング関数1、原映像2に対する主観品質とのマッピング関数2のように、原映像ごとにマッピング関数が作成されてもよい。品質推定部12は、劣化映像ごとに、当該劣化映像のフレームレートや原映像に対応するマッピング関数に、当該劣化映像のフレームごとの品質推定値の平均値を入力することで、当該フレームレートに対する品質推定値を導出することができる。この場合、品質推定部12は、マッピング関数によって得られた品質推定値を導出部13へ出力する。なお、マッピング関数は、フレームレートごとに作成すること、原映像ごとに作成すること、フレームレートと原映像の組ごとに作成することが考えられ、いずれの形態が採用されてもよい。
更に、一般に、品質推定値は1から5や0から100で導出されるところ、導出したい品質推定値が1から5である場合(例えば、導出部13へ入力可能な品質推定値が1から5である場合)であって、品質推定部12から導出される品質が0から100等の場合、上記のマッピング関数は、1から5の品質推定値を出力するように作成されればよい。
なお、以下に、マッピング関数の一例を示す。
[マッピング関数1]
MOSfromVMAF=ai+biVMAF+ciVMAF
ここで、VMAFはVMAFで計算された当該劣化映像についてフレームごとに算出された品質推定値の平均値、ai、bi、ciは各フレームレートに対する係数、iはフレームレート、MOSfromVMAFはマッピング関数により導出された品質推定値である。
[マッピング関数2]
MOSfromPSNR=aj+(1-aj)/(1+(PSNR/bj)cj
ここで、PSNRは当該劣化映像についてフレームごとに算出されたPSNRの平均値、aj、bj、cjは各原映像に対する係数、jは原映像番号、MOSfromPSNRはマッピング関数により導出された品質推定値である。
[マッピング関数3]
MOSfromPSNR=aij+(1-aij)/(1+(PSNR/bij)cij
ここで、PSNRは当該劣化映像についてフレームごとに算出されたPSNRの平均値、aij、bij、cijは各フレームレート及び原映に対する係数、iはフレームレート、jは原映像番号、MOSfromPSNRはマッピング関数により導出された品質推定値である。
なお、マッピング関数1(MOSfromVMAF)の計算を二次関数で示しているが、マッピング関数1は、マッピング関数2又は3のようにロジスティック関数で示されてもよい。
前述のように、VMAFのように原映像に対する主観品質の影響を捉えられる技術では、図4に示す、フレームレートが主観品質に与える影響を加味したマッピング関数のみを用いることで1から5の品質推定値を推定できる。一方で、PSNRのように原映像に対する主観品質の影響を捉えられない技術では、図5に示す、原映像が主観品質に与える影響を加味したマッピング関数を用いることで1から5の品質推定値を推定できる。よって、いつも同じ原映像を使って品質推定値を導出したい場合は、PSNRを用いる方が簡易に品質推定値を導出することが可能である。一方で、品質推定値の導出の際に、常に決まった原映像を用いることが難しい場合は、VMAFのように原映像に対する主観品質の影響を捉えられる技術を用い、品質推定値を導出することが望ましい。
続いて、導出部13は、コーデック設定ごとに、当該コーデック設定に対して入力された複数通りの符号化パラメータの組と、当該符号化パラメータの組ごとに算出された品質推定値に基づいて、映像品質VQを推定する数理モデルとして予め設定された数理モデルの係数を導出(最適化)する(S103)。すなわち、数理モデル(の係数)は、コーデック設定ごとに導出される。
係数の最適化手法に関しては、最小二乗法、Microsoft(登録商標) Excel(登録商標)のSolver、PythonやRの最適化手法に基づき導出可能である。但し、本実施の形態では、映像ビットレートbr、解像度rs、及びフレームレートfrから、映像品質VQを算出する数理モデルを用いる(非特許文献4)。当該数理モデルは、解像度とフレームレートの組ごとに決まる理論上の最高/最大映像品質Xを考慮すること、また、最高/最大映像品質Xは、解像度rsやフレームレートfrの低下とともに低下する特性を考慮すること、最高/最大映像品質Xに対し、映像ビットレートbrの低下とともに映像品質VQが低下する特性を考慮し、以下の数式を用いて映像品質VQを算出する数理モデルである。
Figure 0007380832000001
rsは、垂直・水平方向のライン数及び画素数から求められた解像度(例えば、1920×1080などの総画素数)である。但し、垂直方向のライン数若しくは水平方向の画素数のみを把握可能な場合、rsは、当該ライン数又は当該画素数から公知の方法で算出された解像度である。frは、フレームレートである。v,…,vは、導出対象(最適化対象)の係数である。
具体的には、導出部13は、コーデック設定ごとに、当該コーデック設定について算出された複数の品質推定値を映像品質VQに対応させ、当該コーデック設定に対して入力された複数通りの符号化パラメータの組み合わせをbr、rs、frに対応させることで、数理モデルの係数を導出(最適化)する。
なお、上記では原映像を一つだけ用いる例を示しているが、複数の原映像(例えば、8種類以上)が符号化部に入力され、複数の原映像に対して同じコーデック設定及び同じ符号化パラメータの組み合わせに基づき符号化後の劣化映像が生成され、複数の原映像について符号化パラメータの組み合わせごとに品質推定値が算出されてもよい。そうすることで、導出部13に入力するサンプル数を増やし、係数の最適化を安定化することができる。なお、本最適化手順は、実際に品質推定を実施する前に、係数を導出するため、計算時間には余裕がある。
上述したように、本実施の形態によれば、コーデック設定に応じた品質を評価可能な数理モデルを導出可能とすることができる。例えば、コーデック設定ごとに変化する品質を推定する場合において、符号化パラメータが同一であっても品質を比較評価することができる。
従来、異なるコーデック設定に対する映像品質を推定する場合、既存技術(パラメトリックモデル)では、符号化パラメータのみを入力とするため、それぞれの映像品質を比較評価することができない(課題1)、また、既存技術(パラメトリックモデル)は複数のコーデックの設定で推定された品質値を比較評価する際のガイダンスや対処法が記載されていないため、パラメトリックモデルの利用者はパラメトリックモデルをそれぞれのコーデックの設定に最適化し、利用することもできない(課題2)、主観品質評価を実施し、各設定パラメータに対する主観品質値を得る場合では、機械的に、主観品質値を用意できない(課題3)、といった課題が有った。
これに対し、本実施の形態は、映像品質を推定したい対象のコーデック設定に対し、パラメトリックモデルの数理モデルの係数を事前に最適化することで、コーデック設定ごとの映像品質を導出することができ、品質を比較評価することができる。また、本実施の形態は、具体的な最適化手順を記載することで、利用者に最適化手法を提供することができる。また、主観評価を実施することなく、機械的に、品質推定値を用意し、最適化に適用することができる。
したがって、本実施の形態によれば、視聴者が実際に視聴する映像通信サービスの品質値をコーデック設定ごとに最適化した係数を用い、監視することで、提供中のサービスが視聴者に対してある一定以上の品質を保っているか否かを容易に判断することができ、提供中のサービスの品質実態をリアルタイムで把握及び管理することが可能となる。
このため、提供中のサービスの品質実態の把握及び管理について、従来技術でできなかった点を改善することが可能となる。
以上、本発明の実施の形態について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
本出願は、2020年3月13日に出願された国際特許出願第PCT/JP2020/011195号に基づきその優先権を主張するものであり、同国際特許出願の全内容を参照することにより本願に援用する。
10 数理モデル導出装置
11 符号化部
12 品質推定部
13 導出部
100 ドライブ装置
101 記録媒体
102 補助記憶装置
103 メモリ装置
104 CPU
105 インタフェース装置
B バス

Claims (8)

  1. コーデック設定に対する複数の符号化パラメータの複数通りの組み合わせに基づいて、原映像について符号化後の複数の劣化映像を生成する符号化部と、
    前記複数の劣化映像のそれぞれの品質推定値を算出する品質推定部と、
    前記複数の符号化パラメータの複数通りの組み合わせと前記品質推定値とに基づいて、前記複数の符号化パラメータを入力として映像品質を出力する数理モデルの係数を導出する導出部と、
    を有し、
    前記品質推定部は、前記複数の劣化映像のそれぞれについて、当該劣化映像の映像フレームごとの品質推定値の平均値を算出し、複数のフレームレートについて予め作成されている、前記平均値をフレームレートに対する主観品質の影響を考慮した品質推定値へ変換する関数に前記平均値を入力して前記品質推定値を算出する、
    ことを特徴とする数理モデル導出装置。
  2. 前記品質推定部は、前記複数の劣化映像のそれぞれについて、当該劣化映像の原映像ごとの品質推定値の平均値を算出し、原映像について予め作成されている、前記平均値を原映像に対する主観品質の影響を考慮した品質推定値へ変換する関数に前記平均値を入力して前記品質推定値を算出する、
    ことを特徴とする請求項記載の数理モデル導出装置。
  3. コーデック設定に対する複数の符号化パラメータの複数通りの組み合わせに基づいて、原映像について符号化後の複数の劣化映像を生成する符号化部と、
    前記複数の劣化映像のそれぞれの品質推定値を算出する品質推定部と、
    前記複数の符号化パラメータの複数通りの組み合わせと前記品質推定値とに基づいて、前記複数の符号化パラメータを入力として映像品質を出力する数理モデルの係数を導出する導出部と、
    を有し、
    前記品質推定部は、前記複数の劣化映像のそれぞれについて、当該劣化映像の原映像ごとの品質推定値の平均値を算出し、原映像について予め作成されている、前記平均値を原映像に対する主観品質の影響を考慮した品質推定値へ変換する関数に前記平均値を入力して前記品質推定値を算出する、
    ことを特徴とする数理モデル導出装置。
  4. 前記品質推定部は、更に、前記原映像に基づいて、前記複数の劣化映像のそれぞれの品質推定値を算出する、
    ことを特徴とする請求項1乃至3いずれか一項記載の数理モデル導出装置。
  5. コーデック設定に対する複数の符号化パラメータの複数通りの組み合わせに基づいて、原映像について符号化後の複数の劣化映像を生成する符号化手順と、
    前記複数の劣化映像のそれぞれの品質推定値を算出する品質推定手順と、
    前記複数の符号化パラメータの複数通りの組み合わせと前記品質推定値とに基づいて、前記複数の符号化パラメータを入力として映像品質を出力する数理モデルの係数を導出する導出手順と、
    をコンピュータが実行し、
    前記品質推定手順は、前記複数の劣化映像のそれぞれについて、当該劣化映像の映像フレームごとの品質推定値の平均値を算出し、複数のフレームレートについて予め作成されている、前記平均値をフレームレートに対する主観品質の影響を考慮した品質推定値へ変換する関数に前記平均値を入力して前記品質推定値を算出する、
    ことを特徴とする数理モデル導出方法。
  6. コーデック設定に対する複数の符号化パラメータの複数通りの組み合わせに基づいて、原映像について符号化後の複数の劣化映像を生成する符号化手順と、
    前記複数の劣化映像のそれぞれの品質推定値を算出する品質推定手順と、
    前記複数の符号化パラメータの複数通りの組み合わせと前記品質推定値とに基づいて、前記複数の符号化パラメータを入力として映像品質を出力する数理モデルの係数を導出する導出手順と、
    をコンピュータが実行し、
    前記品質推定手順は、前記複数の劣化映像のそれぞれについて、当該劣化映像の原映像ごとの品質推定値の平均値を算出し、原映像について予め作成されている、前記平均値を原映像に対する主観品質の影響を考慮した品質推定値へ変換する関数に前記平均値を入力して前記品質推定値を算出する、
    ことを特徴とする数理モデル導出方法。
  7. 前記品質推定手順は、更に、前記原映像に基づいて、前記複数の劣化映像のそれぞれの品質推定値を算出する、
    ことを特徴とする請求項5又は6記載の数理モデル導出方法。
  8. 請求項1乃至4いずれか一項記載の数理モデル導出装置としてコンピュータを機能させることを特徴とするプログラム。
JP2022505743A 2020-03-13 2020-09-03 数理モデル導出装置、数理モデル導出方法及びプログラム Active JP7380832B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JPPCT/JP2020/011195 2020-03-13
PCT/JP2020/011195 WO2021181681A1 (ja) 2020-03-13 2020-03-13 数理モデル導出装置、数理モデル導出方法及びプログラム
PCT/JP2020/033422 WO2021181724A1 (ja) 2020-03-13 2020-09-03 数理モデル導出装置、数理モデル導出方法及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2021181724A1 JPWO2021181724A1 (ja) 2021-09-16
JP7380832B2 true JP7380832B2 (ja) 2023-11-15

Family

ID=77671454

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022505743A Active JP7380832B2 (ja) 2020-03-13 2020-09-03 数理モデル導出装置、数理モデル導出方法及びプログラム

Country Status (3)

Country Link
US (1) US12022168B2 (ja)
JP (1) JP7380832B2 (ja)
WO (2) WO2021181681A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11729387B1 (en) * 2020-12-03 2023-08-15 Amazon Technologies, Inc. Automatic configuration of settings for a video encoder
CN116668737B (zh) * 2023-08-02 2023-10-20 成都梵辰科技有限公司 一种基于深度学习的超高清视频清晰度测试方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004080177A (ja) 2002-08-13 2004-03-11 Nippon Telegr & Teleph Corp <Ntt> 映像品質評価装置、映像品質評価方法、映像品質評価プログラム及びそのプログラムを記録した記録媒体
WO2005020592A1 (ja) 2003-08-22 2005-03-03 Nippon Telegraph And Telephone Corporation 映像品質評価装置、映像品質評価方法及び映像品質評価プログラム、並びに映像整合装置、映像整合方法及び映像整合プログラム
JP2006157223A (ja) 2004-11-26 2006-06-15 Nippon Telegr & Teleph Corp <Ntt> ユーザ体感品質推定システムおよび方法、ユーザ体感品質推定装置、受信状況情報送信装置、送信端末、受信端末
JP2011015165A (ja) 2009-07-01 2011-01-20 Nippon Telegr & Teleph Corp <Ntt> 映像品質推定装置、システム、方法およびプログラム
JP2014036260A (ja) 2012-08-07 2014-02-24 Nippon Telegr & Teleph Corp <Ntt> 画質評価装置、画質評価方法及び画質評価プログラム
JP2014107645A (ja) 2012-11-26 2014-06-09 Nippon Telegr & Teleph Corp <Ntt> 主観画質推定装置、主観画質推定方法及びプログラム
JP2015211424A (ja) 2014-04-30 2015-11-24 日本電信電話株式会社 主観画質推定装置及び主観画質推定プログラム
WO2016080354A1 (ja) 2014-11-17 2016-05-26 日本電信電話株式会社 映像品質推定装置、映像品質推定方法、および映像品質推定プログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10567765B2 (en) * 2014-01-15 2020-02-18 Avigilon Corporation Streaming multiple encodings with virtual stream identifiers
US9204150B2 (en) * 2014-02-26 2015-12-01 Intel Corporation Techniques for evaluating compressed motion video quality
US10389987B2 (en) * 2016-06-12 2019-08-20 Apple Inc. Integrated accessory control user interface
CN111445424B (zh) * 2019-07-23 2023-07-18 广州市百果园信息技术有限公司 图像处理和移动终端视频处理方法、装置、设备和介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004080177A (ja) 2002-08-13 2004-03-11 Nippon Telegr & Teleph Corp <Ntt> 映像品質評価装置、映像品質評価方法、映像品質評価プログラム及びそのプログラムを記録した記録媒体
WO2005020592A1 (ja) 2003-08-22 2005-03-03 Nippon Telegraph And Telephone Corporation 映像品質評価装置、映像品質評価方法及び映像品質評価プログラム、並びに映像整合装置、映像整合方法及び映像整合プログラム
JP2006157223A (ja) 2004-11-26 2006-06-15 Nippon Telegr & Teleph Corp <Ntt> ユーザ体感品質推定システムおよび方法、ユーザ体感品質推定装置、受信状況情報送信装置、送信端末、受信端末
JP2011015165A (ja) 2009-07-01 2011-01-20 Nippon Telegr & Teleph Corp <Ntt> 映像品質推定装置、システム、方法およびプログラム
JP2014036260A (ja) 2012-08-07 2014-02-24 Nippon Telegr & Teleph Corp <Ntt> 画質評価装置、画質評価方法及び画質評価プログラム
JP2014107645A (ja) 2012-11-26 2014-06-09 Nippon Telegr & Teleph Corp <Ntt> 主観画質推定装置、主観画質推定方法及びプログラム
JP2015211424A (ja) 2014-04-30 2015-11-24 日本電信電話株式会社 主観画質推定装置及び主観画質推定プログラム
WO2016080354A1 (ja) 2014-11-17 2016-05-26 日本電信電話株式会社 映像品質推定装置、映像品質推定方法、および映像品質推定プログラム

Also Published As

Publication number Publication date
WO2021181724A1 (ja) 2021-09-16
JPWO2021181724A1 (ja) 2021-09-16
US12022168B2 (en) 2024-06-25
WO2021181681A1 (ja) 2021-09-16
US20230072186A1 (en) 2023-03-09

Similar Documents

Publication Publication Date Title
RU2693027C1 (ru) Устройство оценки качества аудиовизуального сигнала и способ оценки качества аудиовизуального сигнала
US20170347159A1 (en) Qoe analysis-based video frame management method and apparatus
EP2876881B1 (en) Method and system for determining a quality value of a video stream
KR102059222B1 (ko) 비디오 스트리밍 서비스를 위한 컨텐트-의존 비디오 품질 모델
JP7380832B2 (ja) 数理モデル導出装置、数理モデル導出方法及びプログラム
JP4490374B2 (ja) 映像品質評価装置および方法
WO2012013777A2 (en) Method and apparatus for assessing the quality of a video signal during encoding or compressing of the video signal
Takeuchi et al. Perceptual quality driven adaptive video coding using JND estimation
JP6162596B2 (ja) 品質推定装置、方法及びプログラム
US11425457B2 (en) Engagement estimation apparatus, engagement estimation method and program
WO2021064136A1 (en) Information-adaptive mixed deterministic/machine-learning-based bit stream video-quality model
WO2020170869A1 (ja) エンゲージメント推定装置、エンゲージメント推定方法及びプログラム
JP7405256B2 (ja) 視聴完了率推定装置、視聴完了率推定方法及びプログラム
JP5707461B2 (ja) 映像品質推定装置、映像品質推定方法及びプログラム
JP7215209B2 (ja) エンゲージメント推定装置、エンゲージメント推定方法及びプログラム
JP7525045B2 (ja) 符号化パラメータ導出装置、符号化パラメータ導出方法及びプログラム
WO2022097229A1 (ja) スループット推定装置、スループット推定方法及びプログラム
Singh et al. A Framework for Evaluation of Video Quality of Service in Wireless Networks
Arsenović et al. Quality of Experience Assessment for HTTP Based Adaptive Video Streaming.
CN104488265B (zh) 用于视频流服务的内容相关的视频质量模型
JP2019121847A (ja) 品質推定装置、品質推定方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220610

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230606

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230711

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231003

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231016

R150 Certificate of patent or registration of utility model

Ref document number: 7380832

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150