JP2020109897A

JP2020109897A - 画像送受信システム、データ送受信システム、送受信方法、コンピュータ・プログラム、画像送信システム、画像受信装置、送信システム、受信装置

Info

Publication number: JP2020109897A
Application number: JP2018248974A
Authority: JP
Inventors: 尚小嶋; Takashi Kojima; 一彦草野; Kazuhiko Kusano; 肇加藤; Hajime Kato
Original assignee: Dwango Co Ltd
Current assignee: Dwango Co Ltd
Priority date: 2018-12-28
Filing date: 2018-12-28
Publication date: 2020-07-16
Anticipated expiration: 2038-12-28
Also published as: WO2020137050A1; CN113491134A; US20220070527A1; US11800185B2; JP6900359B2

Abstract

【課題】動画像コンテンツをサーバ２−２から視聴者端末１１へ配信するシステム１において、配信容量を小さくして伝送路への負荷を削減するとともに、視聴する画像品質を向上させた構成を提供する。【解決手段】低ビットレートへエンコードした画像に基づくコンテンツデータ３１と、低ビットレートエンコード済み画像から原画像３０に近づいた画像を得るためのモデルデータ３２である、ニューラルネットワークにおける変換行列のデータとを、動画像コンテンツ配信サーバ２−２が視聴者端末１１へ配信し、視聴者端末１１ではこれらを用いて、改良された動画像コンテンツ３３を得ることができる。【選択図】図３

Description

本開示は、画像送受信システム、データ送受信システム、送受信方法、コンピュータ・プログラム、画像送信システム、画像受信装置、送信システム、受信装置に関し、特に動画像コンテンツを配信サーバから、視聴者用のクライアント端末へ配信する、動画像配信システムに好適な構成に関する。

動画像または静止画像と、必要に応じて音声と組み合わせた画像コンテンツ（「画像番組」、「番組」、「コンテンツ」とも言い、以下ではこれらも用いる）を、配信用のサーバから、視聴者が用いるクライアント端末へ送信し、クライアント端末の表示画面に表示された画像コンテンツを視聴者が鑑賞する画像配信システムが用いられている。

例えば、下記の特許文献１には、その図１および００１２乃至００１６段落、および、００３２段落乃至００３５段落などに、映像データを配信するストリーミングサーバ３００にネットワーク５００を介して接続する複数の端末装置４００が、ユーザの選択操作に応じて複数の映像データの中から所望の映像データを選択し、配信を受けることが可能なシステムの構成が開示されている。

特に動画像コンテンツは送信すべきデータの容量が大きく、配送元のコンテンツ配信用サーバから配送先の視聴用端末へインターネット通信網を含む広域ネットワークなど通信路経由で動画像コンテンツを配信する場合、通信路への負荷が大きくなり、さらに配信先の端末の数が増えたり、あるいはある時間中に配信が集中した場合には、データの輻輳、配信の中断を招きかねない。

これに対し、下記の特許文献２が開示するビデオエンコーディングシステムは、その００２４〜００２５段落などに記載があるように、限られた帯域幅のみを有するインターネット通信網を介してビデオを見るためにビデオストリーミングの送受を行うシステムにおいては、ビデオデータ圧縮の目的でデジタルビデオ信号のデータ比率が実質的に低減され得る効率的なデジタルビデオエンコーディングを用いることが必要となる、としている。そして特許文献２開示システムが備えるエンコーダは、ビデオストリームをまず複数のシーンに分割し、それぞれのシーンについてシーンタイプとして、例えば、「高速動き」、「静止」、「トーキングヘッド」、「文字」、「スクロールクレジット」、「ほとんど黒色の画像」、「５つ以下の画像フレームの短いシーン」などのいずれかを決定して、各シーンタイプのためのあらかじめ規定されたビデオエンコーディングパラメータ（画像符号化パラメータ）を用いてエンコーディングされたビデオストリームを出力する、としている。

一方、より高効率に動画像コンテンツの帯域圧縮を行うための一つの選択肢として、動画像コンテンツデータを送信する送信レート（ビットレート）を小さくして、少ないデータ量として送信する方法がある。ところが、この方法では、動画像コンテンツデータに含まれるデータ量が減少し、画像品位の劣る、すなわちディテール情報が欠落したり、ブロックノイズやモスキートノイズを含んだ画像表示がなされがちとなるので、視聴者（ユーザ）の不満が生じてしまう。

一方、動画像コンテンツの配信システムでの適用を意図した構成ではないものの、このような、ディテールが欠落した画像データを改変して、解像感が向上して、原画像に近づいた画像を生成するために、ディープラーニングを含めた機械学習技術を利用するものを含め、提案がいくつかなされている。

例えば、下記の特許文献３には、低画質の画像から高画質の画像を復元する技術（「超解像技術」と呼ぶ）において、まず全体のプロセスが、復元に用いる辞書データベースを作成する過程である学習過程と、この辞書データベースを用いて低画質画像から高画質画像を復元する復元過程とに分かれている（００４３段落）。そして学習過程では同じ学習画像の同じ局所領域に由来する微小サイズの高解像度画像、及びこの高解像度画像を画質劣化させて作られた劣化画像の対が作成され、復元過程においては、復元対象となる低画質の画像からパッチ画像が切り出され、当該パッチ画像に類似する辞書データベースにある学習済みの微小サイズの劣化画像が特定され、当該劣化画像と対になっている微小サイズの高解像度画像を集成することで、画像が高画質に復元される学習型超解像技術を用いるとしている。

また、同様にディープラーニングを用いて高解像度画像を復元しようとする下記の特許文献４には、複数種類の撮影対象物が出現する可能性のある場面において、より正確に監視を行うことができる監視システムを提供するために（０００４段落）、００１５段落、００２９乃至００４１段落にあるように、対象物の種類に対応する辞書データ６４を用いて超解像処理を行う構成であって、超解像処理した画像を取得するために、畳み込み演算を実行するときに必要な係数を含んだ辞書データ６４は、例えば多数の正解データである高解像度データと低解像度データの組み合わせをディープラーニング等の手法で学習することで生成されるもので、後段画像処理部５４は、この学習により生成された辞書データ６４を用いて、実際に取得した画像に対して畳み込み演算を実行し、高解像度画像（拡大画像）を取得する、としている。

さらに、同様にディープラーニングを用いて高解像度画像を復元しようとする下記の特許文献５には、アナログ記録媒体（ビデオテープ、フィルム等）に記録された劣化した映像の高画質化システムが開示されている。

しかしながら、上記に示したこれら各特許文献が開示する構成においては、先に示したような、動画像コンテンツのような大容量の画像データを配信元から配信先へ配信する場合において、通信路などの負荷を軽減し、かつ、画像品位が妥当である動画像コンテンツ配信を行うための構成は何ら開示をしていないし、示唆すらしていない。

本願発明は、以上のように、それぞれの従来技術がいまだ解決できていない課題である、限られた帯域幅のみを有するインターネット通信網など伝送路を介して動画像コンテンツを見るためにビデオストリーミングの送受を行うシステムにおいて、効率的な伝送帯域の圧縮と、原画像に近い解像感を有する画像復元とを、操作者の負担を軽減して効率的に実施が可能な、画像送受信システム、データ送受信システム、送受信方法、コンピュータ・プログラム、画像送信システム、画像受信装置、送信システム、受信装置を提供することを、目的とする。

特許第５９５６７６１号公報特許出願公開特開２０１７−１２３６４９号公報特許出願公開特開２０１７−４９６８６号公報特許出願公開特開２０１７−１５８０６７号公報特許出願公開特開２０１５−２０１８１９号公報

課題を解決するための手段

本発明は、上記の課題を解決するために、以下の各項に記載の画像送受信システム、データ送受信システム、送受信方法、コンピュータ・プログラム、画像送信システム、画像受信装置、送信システム、受信装置を提供する。
１）
単数または複数備えられた送信装置の少なくともいずれかが、原画像を低ビットレートへエンコードした低ビットレートエンコード済み画像から、より原画像に近づけた改良画像を生成するためのモデルデータを、機械学習により生成する機械学習部を備え、
単数または複数備えられた送信装置の少なくともいずれかが、低ビットレートエンコード済み画像と、モデルデータとを当該装置の外部へ送信する送信部を備え、
受信装置が、受信した低ビットレートエンコード済み画像およびモデルデータから、当該低ビットレートエンコード画像の改良画像を生成する改良画像生成部を有することを特徴とする、画像送受信システム。
２）
機械学習に用いるデータが、さらに、低ビットレートエンコード済み画像のメタ情報を含むことを特徴とする、１）に記載の画像送受信システム。
３）
低ビットレートエンコード済み画像のメタ情報が、画像符号化技術における符号化ブロック量子化パラメータ（ＱＰ）、予測誤差係数、予測モード情報、動きベクトル情報のうちの少なくともいずれかであることを特徴とする、２）に記載の画像送受信システム。
４）
単数または複数備えられた送信装置の少なくともいずれかが、さらに、送信部から送信されるいずれかの低ビットレートエンコード済み画像に関する情報に基づき、低ビットレートエンコード済み画像と共に送信されるモデルデータを、複数の中から選択するモデルデータ選択部を有することを特徴とする、１）乃至３）のいずれか１項に記載の画像送受信システム。
５）
単数または複数備えられた送信装置の少なくともいずれかが、原データを低ビットレートへエンコードした低ビットレートエンコード済みデータから、より原データに近づけた改良データを生成するためのモデルデータを、機械学習により生成する機械学習部を備え、
単数または複数備えられた送信装置の少なくともいずれかが、低ビットレートエンコード済みデータと、モデルデータとを当該装置の外部へ送信する送信部を備え、
受信装置が、受信した低ビットレートエンコード済みデータおよびモデルデータから、当該低ビットレートエンコードデータの改良データを生成する改良データ生成部を有することを特徴とする、データ送受信システム。
６）
画像の送受信方法であって、
単数または複数備えられた送信装置の少なくともいずれかが有する機械学習部が、原画像を低ビットレートへエンコードした低ビットレートエンコード済み画像から、より原画像に近づけた改良画像を生成するためのモデルデータを、機械学習により生成するステップと、
単数または複数備えられた送信装置の少なくともいずれかが有する送信部が、低ビットレートエンコード済み画像と、モデルデータとを当該装置の外部へ送信するステップと、
受信装置の改良画像生成部が、受信した低ビットレートエンコード済み画像およびモデルデータから、当該低ビットレートエンコード済み画像の改良画像を生成するステップと、を有することを特徴とする、送受信方法。
７）
機械学習に用いるデータが、さらに、低ビットレートエンコード済み画像のメタ情報を含むことを特徴とする、６）に記載の送受信方法。
８）
低ビットレートエンコード済み画像のメタ情報が、画像符号化技術における符号化ブロック量子化パラメータ（ＱＰ）、予測誤差係数、予測モード情報、動きベクトル情報のうちの少なくともいずれかであることを特徴とする、７）に記載の送受信方法。
９）
単数または複数備えられた送信装置の少なくともいずれかが、さらに、送信部から送信される前記低ビットレートエンコード済み画像に関する情報に基づき、前記低ビットレートエンコード済み画像と共に送信される前記モデルデータを、複数の中から選択するモデルデータ選択部を有することを特徴とする、請求項６乃至８のいずれか１項に記載の送受信方法。
１０）
単数または複数備えられた送信装置の少なくともいずれかが有する機械学習部が、原データを低ビットレートへエンコードした低ビットレートエンコード済みデータから、より原データに近づけた改良データを生成するためのモデルデータを、機械学習により生成するステップと、
単数または複数備えられた送信装置の少なくともいずれかが有する送信部が、低ビットレートエンコード済みデータと、モデルデータとを当該装置の外部へ送信するステップと、
受信装置の改良データ生成部が、受信した低ビットレートエンコード済みデータおよびモデルデータから、当該低ビットレートエンコードデータの改良データを生成するステップと、を有することを特徴とする、送受信方法。
１１）
６）乃至１０）のいずれか１項に記載された送受信方法を実行するためのコンピュータ・プログラム。
１２）
単数または複数備えられた送信装置の少なくともいずれかに設けられた、原画像を低ビットレートへエンコードした低ビットレートエンコード済み画像から、より原画像に近づけた改良画像を生成するためのモデルデータを、機械学習により生成する機械学習部と、
単数または複数備えられた送信装置の少なくともいずれかに設けられた、低ビットレートエンコード済み画像と、モデルデータとを当該システムの外部へ送信する送信部と、を備えたことを特徴とする、画像送信システム。
１３）
機械学習に用いるためのデータが、低ビットレートエンコード済み画像のメタ情報であることを特徴とする、１２）に記載の画像送信システム。
１４）
低ビットレート変換画像のメタ情報が、画像符号化技術における符号化ブロック量子化パラメータ（ＱＰ）、予測誤差係数、予測モード情報、動きベクトル情報のうちの少なくともいずれかであることを特徴とする、１３）に記載の画像送信システム。
１５）
さらに、送信部から送信される低ビットレートエンコード済み画像に関する情報に基づき、低ビットレートエンコード済み画像と共に送信されるモデルデータを、複数の中から選択するモデルデータ選択部を有することを特徴とする、１２）乃至１４）のいずれか１項に記載の画像送信システム。
１６）
単数または複数設けられた送信装置の少なくともいずれかに設けられた、原データを低ビットレートへエンコードした低ビットレートエンコード済みデータを、より原データに近づけた改良データを生成するためのモデルデータを、機械学習により生成する機械学習部と、
単数または複数設けられた送信装置の少なくともいずれかに設けられた、低ビットレートエンコード済みデータと、モデルデータとを当該装置の外部へ送信する送信部を備えたことを特徴とする送信システム。
１７）
原画像を低ビットレートへエンコードした低ビットレートエンコード済み画像から、より原画像に近づけた改良画像を生成するためのモデルデータであって、機械学習により生成されたモデルデータと、低ビットレートエンコード済み画像とを画像送信システムから受信する受信部と、
受信した低ビットレートエンコード済み画像およびモデルデータから、当該低ビットレートエンコード画像の改良画像を生成する改良画像生成部と、を有することを特徴とする画像受信装置。
１８）
機械学習に用いるためのデータが、低ビットレートエンコード済み画像のメタ情報であることを特徴とする、１７）に記載の画像受信装置。
１９）
低ビットレートエンコード済み画像のメタ情報が、画像符号化技術における符号化ブロック量子化パラメータ（ＱＰ）、予測誤差係数、予測モード情報、動きベクトル情報のうちの少なくともいずれかであることを特徴とする、１８）に記載の画像受信装置。
２０）
受信部が受信するモデルデータは、共に受信する低ビットレートエンコード済み画像に関する情報に基づき、複数の中から選択されたことを特徴とする、１７）に記載の画像受信装置。
２１）
原データを低ビットレートへエンコードした低ビットレートエンコード済みデータから、より原データに近づけた改良データを生成するためのモデルデータであって、機械学習により生成されたモデルデータと、低ビットレートエンコード済みデータとを送信システムから受信する受信部と、
受信した前記低ビットレートエンコード済みデータおよびモデルデータから、当該低ビットレートエンコード済みデータの改良データを生成する改良データ生成部と、を有することを特徴とする受信装置。

発明の効果

上記のような構成を有することにより、本発明は、限られた帯域幅のみを有するインターネット通信網など伝送路を介して動画像コンテンツを見るためにビデオストリーミングの送受を行うシステムなどにおいて、効率的な伝送帯域の圧縮と、原画像に近い解像感を有する画像復元とを、操作者の負担を軽減して効率的に実施が可能な、画像送受信システム、データ送受信システム、送受信方法、コンピュータ・プログラム、画像送信システム、画像受信装置、送信システム、受信装置を提供することができる。

本発明各実施形態に共通な、高画質化処理の概念図である。本発明にかかる動画像コンテンツ配信システムの全体構成図である。本発明の第１の実施形態における配信信号の流れを示す概念図である。本発明の第１の実施形態が用いるニューラルネットワークの概念図である。本発明の各実施形態に共通な、モデルデータ作成サーバおよび動画像コンテンツ配信サーバの構成を示す図である。本発明の各実施形態に共通な、第１の視聴者端末の構成を示す図である。本発明の各実施形態に共通な、第１の視聴者端末の外観模式図である。本発明の各実施形態に共通な、動画像配信サイトの画面遷移模式図である。本発明の第１の実施形態における高画質化処理のシークエンス・チャートである。本発明・第１の実施形態第１の視聴者端末が実行する、画像の高画質化処理フロー図である。

〔本発明の各実施形態に共通な構成〕
本発明の各実施形態においては、動画像コンテンツ配信サーバ２−２から配信されるコンテンツ（番組）、特に動画像コンテンツに含まれる各画像は、図１（Ａ）に示すような原画像（猫の画像で例示している）が、伝送容量を削減する目的で、図１（Ｂ）図示のような低ビットレートへのエンコード済み画像（同じく、猫の低ビットレートへのエンコード済み画像で例示した）が生成されて、各低ビットレート画像よりなる伝送用動画像コンテンツが、視聴者端末１１、１２、１３へ配信される。

配信を受けた視聴者用の各端末１１，１２，１３では、以下の各実施形態で説明をするそれぞれの構成、方法によって、図１（Ｃ）のような、視覚的に原画像に近づいた（「高画質化した」などともいう）画像（同じく、猫の高画質化した画像で例示した）を生成して、それら高画質化した各画像を集成して、高画質化した動画像コンテンツを生成し、視聴者の視聴に供するものである。

そのために、本発明の各実施形態に共通な構成として、図２に図示するとおり、動画像コンテンツ配信システム１は、サーバ用コンピュータなどで実現されるモデルデータ作成サーバ２−１、同じくサーバ用コンピュータなどで実現される動画像コンテンツ配信サーバ２−２と、このサーバ２−１、２−２との間で、インターネット通信網などで例示される伝送路３を介して信号接続する、パーソナルコンピュータ、スマートフォンあるいは携帯情報端末などで実現される第１の視聴者１１、第２の視聴者端末１２、及び第３の視聴者端末１３などを備えている。実施に際して視聴者端末の数は上の例示に限定されない。また、以下の各説明では、視聴者端末の代表として第１の視聴者端末１１について説明を行うが、他の視聴者端末においても、構成や動作は同様である。

ここで、本発明が実行しようとする「高画質化」、あるいは原画像により視覚的に近づけた画像の生成について定性的な説明を行うと、従来技術においては単に画素数を増やしたり、あるいはアナログノイズを取り除いたりするのみの構成であるところ、本発明実施構成では、低ビットレートの動画から、高ビットレートの動画を復号した画像のようだと人間が感じる画像に変換する点が特徴である。更に、本発明における高画質化とは、単なる静止画における空間方向の高画質化処理だけではなく、動画における時間方向の高画質化処理をも含むようにしてもよい。

〔第１の実施の形態・概要〕
以下、図１乃至図１０の各図面を援用し、本発明にかかる第１の実施の形態である、動画像コンテンツ配信システム１を説明する。なお、本実施形態に限らず本願明細書記載の各実施例は本発明実施の一例示にすぎず、種々の変形、他の技術との組み合わせによる実施が可能であり、それらもまた本発明に含まれる。

本実施形態のシステム１は、先に説明をした図２の構成を踏まえ、さらに、図３に示すように、モデルデータ作成サーバ２−１は、第１の視聴者端末１１が配信（送信）を望んでいる動画像コンテンツに対応した、機械学習用の入力データである低ビットレート化画像と、その低ビットレート化前の原画像とを用いて、機械学習済みモデルデータである、後に説明をする変換行列Ｑ，Ｒを記憶している。

第１の視聴者端末１１から、ユーザが配信を希望する動画像コンテンツの配信要求を動画像コンテンツ配信サーバ２−２が受けると（図９ステップＳ１）、動画像コンテンツ配信サーバ２−２は、まず、原画像３０を含んでいる、配信が要求された原動画像コンテンツの各原画像について低ビットレートへのエンコード処理を行い、処理により生成された各低ビットレートエンコード済み画像３１を集成して低ビットレート動画像コンテンツを生成する。あるいは、コンテンツの配信要求を受ける前に、これらコンテンツについての低ビットレートエンコード済みコンテンツを作成しておいてもよい。

次に動画像コンテンツ配信サーバ２−２は、配信が要求された動画像コンテンツの機械学習による高画質化に適した、機械学習におけるモデルデータである、例えばニューラルネットワーク技術における変換行列Ｑ，Ｒの配信をモデルデータ作成サーバ２−１に対して要求し（図９ステップＳ２）、要求に応じて得られた機械学習済みモデルデータである変換行列Ｑ，Ｒ３２とともに、配信が要求された動画像コンテンツを低ビットレート化した動画像コンテンツ３１を、伝送路３を経由して、第１の視聴者端末１１へ送信する（図９ステップＳ３，Ｓ４）。

配信を受けた第１の視聴者端末１１は、各低ビットレートエンコード済み画像３１について以下に説明を行う動作及び方法により、機械学習済みモデルデータ３２を用いて、視覚的に原画像により近づいた画像３３を生成し、それら高画質化した各画像を集成して解像感が向上した動画像コンテンツを生成して、視聴者の視聴に供する。

〔機械学習を用いたモデルデータの取得〕
本実施形態では、機械学習の中で、ニューラルネットワークを用いた、多次元の入力から多次元の出力を得る際に、教師データを用いて最適なモデルを得る手法を用いている。

なお、これらニューラルネットワークを用いた機械学習の適用は一例にすぎず、他の機械学習の手法を用いて高画質化処理を行うことも可能であり、そのような構成もまた本発明に含まれる。

本発明・第１の実施形態が用いる、ニューラルネットワークを用いた高画質化のための機械学習の概念図である図４に示すように、ニューラルネットワーク技術における入力データとして、低ビットレートエンコード済み画像についての、例えば対象となるフレーム画像について、複数のサンプル画素における画素の値（輝度、色調）である複数（ｍ個）のパラメータである、入力データ・パラメータ１、入力データ・パラメータ２、・・・、入力データ・パラメータｍを、それぞれ具体的な数値として有しており、一方、ニューラルネットワーク技術における教師データ（出力データ）として、同様に、原画像についての、例えば対象となるフレーム画像について、複数のサンプル画素における画素の値（輝度、色調）である複数（ｄ個）のパラメータである、教師データ・パラメータ１、教師データ・パラメータ２、・・・、教師データ・パラメータｄを、具体的な数値として有している。これら入力データ、教師データ（出力データ）それぞれのパラメータの組みを、以下では「パラメータベクトル」という場合もある。また、入力データの各パラメータと、出力データ（教師データ）の各パラメータとは、一部あるいは全部が重複してもよい。
先に説明を行った、低ビットレート画像に関する入力データ・パラメータベクトルｗ（式（１））が入力層（ｍ次元）４１をなし、同じく、先に説明をした、原画像に関する教師データ・パラメータベクトルβと同じくｄ次元である出力データ・パラメータベクトルｘ（式（２））が出力層４３をなしている。

ｋ次元のベクトルｙ（式（３）。中間データともいう）が入力層４１と出力層４３との間にある中間層４２をなしている。

入力層４１のデータは、変換行列Ｑによる線形変換により中間層４２に変換され、その中間層４２のデータは、別な変換行列Ｒによる線形変換がなされて出力層４３のデータとして出力される。それぞれの層の内部については各データ間には接続関係がなく独立している。

先に説明したように、入力データ・パラメータベクトルｗから出力データ・パラメータベクトルｘに直接変換するのではなく、式（４）に示すように２段階の変換を行う。

式（４）において、ＱおよびＲは先に説明をした線形変換を表す行列である。そして、それぞれの線形変換Ｑ，Ｒを行ったあと、それぞれの変数に対して非線形の関数により変換を行う。その関数は活性化関数と呼ばれるもので、本実施形態では式（５）に示す、ロジスティックシグモイド関数σ（ａ）を用いている。

このロジスティックシグモイド関数σ（ａ）を用いると、上に説明をした各データの変換は、式（６）のように４段階であらわされる。

学習に際しては、出力変数の目標となるデータである、原画像が有する画素値である教師データｔ（式（７））をあらかじめ与える。そして、ニューラルネットワークの各パラメータは、出力の値が教師データｔに近くなるように、以下のような「推定」を行うことで決定される。

さて、入力データ・パラメータベクトルｗを、中間層４２を表す変数ベクトルｙに変換するｋ行ｍ列の行列を、Ｑ＝［ｑ_ｈｊ］（ｑ_ｈｊはｈ行ｊ列の要素）で表すと、ｙ＝Ｑｗとなり、要素で表すと式（８）の通りとなる。

さらに、式（８）に従って変換された変数ベクトルｙを、先に説明したロジスティックシグモイド関数σ（ａ）によって、式（９）のように非線形的に変換する。

同様に、中間層４２からの変数ベクトルαを、出力層の変数ベクトルｘに、ｄ行ｋ列の行列Ｒ＝［ｒ_ｉｈ］（ｒ_ｉｈはｉ行ｈ列の要素）を用いて、ｘ＝Ｒαと変換する。要素で表すと式（１０）のようになる。

中間層４２における変換と同様にして、この変換された変数ベクトルｘを、さらにロジスティックシグモイド関数σ（ａ）によって、式（１１）のように変換する。

次に、学習の過程である、２つの行列Ｑ，Ｒの推定を行うプロセスに移る。この推定のために、本実施形態では、以下に説明する誤差逆伝搬法と呼ばれる方法を用いている。

すなわち、はじめに、原画像におけるパラメータである教師データｔと出力βとの誤差を計算し、その誤差を用いて中間層４２と出力層４３の変換行列を変化させる量を求める。次に、入力層４１と中間層４２の変換行列を変化させる量を求める。各変換行列の要素パラメータの推定にあたっては、誤差の２乗和を最小にする推定を行うが、非線形の変換が途中に含まれているため、確率的勾配降下法を用いる。これは、学習用データの１サンプルごとに誤差の２乗和を減少させるよう、誤差の勾配に比例した量だけ行列の要素パラメータを変化させる方法である。

以上の各プロセスに従い、変換行列Ｑ、Ｒの各要素が推定できたので、学習の過程が終了し、変換の対象である低ビットレート画像が与えられたときに、その低ビットレート画像の各パラメータ（各画素の輝度や色調を表す画素値や、画像符号化技術における各パラメータであってもよいし、他のパラメータでもよい）を、式（６）に従って変換をして、出力データベクトルｘを得ることによって、高画質化した画像を描画するためのパラメータを得ることができる。

〔モデルデータ作成サーバ２−１、動画像コンテンツ配信サーバ２−２の構成〕
図５（１）に構成図を示すように、本実施形態のシステム１が備えるモデルデータ作成サーバ２−１は、サーバ用コンピュータなどで実現されるものであって、サーバ内外間のデータ接続を行う入出力インターフェース２−１ａ、サーバ２−１の各種統制を行うＣＰＵ（セントラル・プロセッシング・ユニット）である制御部２−１ｂ、サーバ２−１が実行する実行プログラムを読み出し可能に記憶するプログラム記憶部２−１ｆ、先に説明をした、ニューラルネットワークに基づく機械学習に用いるための、入力データ、教師データを、例えば各種カテゴリ別の動画像コンテンツデータの低ビットレート化画像、および原画像として、あるいは他の態様にて記録している、機械学習用コンテンツ記録部２−１ｇ、先に説明をしたニューラルネットワークに基づく機械学習である、変換行列Ｑ，Ｒの推定を行う機械学習部２−１ｈ、サーバ２−１内各構成間をデータ接続するバス２−１ｉなどを備えている。

また、図５（２）に示すように、動画像コンテンツ配信サーバ２−２はサーバ用コンピュータなどで実現されるものであって、サーバ２−２外との間で情報通信の入出力を司る入出力インターフェース２−２ａ、サーバ２−２全体の統制制御を行う制御部２−２ｂ、配信を行う動画像コンテンツを記録保管するコンテンツ記録部２−２ｃを備えている。なおサーバ２−２が取り扱うコンテンツは動画像コンテンツに限らず静止画コンテンツ、音声コンテンツなど他の仕様のコンテンツ、あるいはこれら各種コンテンツの組み合わせであってもよい。

また、コンテンツ記録部２−２ｃは、それぞれのコンテンツに対して視聴者が投稿したテキストデータである「コメント」を、投稿を行った再生時間（コンテンツの先頭から計測した時間の情報）とともに記録している。

さらにサーバ２−２は、動画像コンテンツを、外部からの要求通信を受信して、当該要求に応じて、要求をした視聴者端末１１などへ送出するコンテンツ配信部２−２ｄ、サーバ２−２が実行すべきコンピュータ・プログラムを記憶するプログラム記憶部２−２ｆ、コンテンツ配信を要求してきた視聴者端末が、例えば動画配信サイトの会員であるかなど、視聴者あるいは視聴者端末に関する情報を記録し管理するユーザ管理部２−２ｇ、サーバ２−２内の各構成間を通信接続するバス２−２ｉを備えている。

以上のように、動画像コンテンツ配信サーバ２−２が動画像コンテンツの配信を行う一方、別なサーバであるモデルデータ作成サーバ２−１がモデルデータを生成するための機械学習を行うようにした構成は一例にすぎず、この構成に限定する必要はない。すなわち、本発明の実施に当たっては、単数または複数のサーバすなわち送信装置２−１、２−２がシステム１に設けられており、これらサーバのいずれかが、動画像コンテンツの配信を行う構成を有し、同じくこれらサーバのいずれかがモデルデータを生成するための機械学習を行う構成を有するようにすることが可能である。また、機械学習を行う構成や、動画像コンテンツの配信を行う構成に限らず、本発明のシステム１において、サーバ側に設けられた構成は、単数または複数設けられたサーバ、すなわち送信装置の少なくともいずれかに設けられるようにしてもよいし、同様に、視聴者端末側に設けられた各構成を複数の視聴者端末に分散して設けてもよい。すなわち、単数または複数のサーバ、すなわち送信装置は、送信システムを構成しているし、同様に単数または複数設けられた視聴者端末すなわち受信装置は、受信システムを構成しているともいうことができる。これらの構成は、本発明の他の実施形態においても同様である。

〔第１の視聴者端末１１の構成〕
以下、第１の視聴者端末１１の構成を説明するが、第２の視聴者端末１２、第３の視聴者端末１３もまた同様の構成を有している。

図６に構成を示すように、第１の視聴者端末１１はパーソナルコンピュータ、スマートフォン、携帯情報端末その他で実現される、視聴者が用いる端末装置であって、端末内外の入出力インターフェースを司る入出力インターフェース１１ａ、端末全体の統制制御を行う制御部１１ｂ、低ビットレートへのエンコード済み画像を、機械学習済みモデルを用いて高画質化した画像に復元する画像復元部１１ｃ、動画像コンテンツの内容を表示したり、動画像サイトの操作画面その他を表示する、液晶画面とその制御部などで実現される表示部１１ｆ、キーボードやマウスなどで実現され、視聴者がこの視聴者端末１１を操作するために用いる操作部１１ｇ、この端末１１で走らせるコンピュータ・プログラムを記憶するプログラム記憶部１１ｈ、サーバ２−２から受信した低ビットレート画像による動画像コンテンツ、あるいは画像復元部が復元した解像度が向上した画像による動画像コンテンツなどを記録するデータ記録部１１ｉ、あとで説明するように、動画像コンテンツ配信サーバ２−２に対してコメントを投稿するためのコメント投稿部１１ｋ、端末１１内部の各構成間を通信接続するバス１１ｍをそれぞれ備えている。

図７は、第１の視聴者端末１１の外観を模式的に示したもので、端末１１には表示パネル１１−１、表示パネル１１−１内に表示されるマウスカーソル１１−２、マウス１１−３、キーボード１１−４が備えられている。

図７は、ある動画像コンテンツを再生表示している状況を示しており、表示パネル１１−１には、動画像表示画面１１−１ａが表示され、動画像コンテンツの内容として、人物１１−１ｂ、樹木１１−１ｎ、家屋１１−１ｏが表示されている。

また表示パネル１１−１には、コメント「良い天気」１１−１ｒ、「走るの速いｗｗｗ」１１−１ｒが表示されていて、このコメント１１−１ｒは動画像コンテンツを作成して動画像コンテンツ配信サーバ２−２に投稿した投稿者（あるいは便宜的に「配信者」ともいう）が作成したものではなく、このコンテンツを見た、第１の視聴者端末１１を使う視聴者あるいは他の視聴者が、再生中の任意の時間に動画像コンテンツ配信サーバ２−２に対して投稿した文字の情報であり、オリジナルのコンテンツとは異なることが視聴者に明瞭に理解ができるようにするために、動画像表示画面１１−１ａの外側に一部がはみ出して表示されるようにしている。

同じく、表示パネル１１−１上には、動画像コンテンツ配信サーバ２−２に通信接続して表示される動画配信サイトの画面表示として、動画配信サイトのポータル画面（入口の画面）に表示を切り替えるためのホームボタン１１−１ｅ、動画再生を終了するための停止ボタン１１−１ｆ、動画再生をいったんポーズさせるポーズボタン１１−１ｇ、ポーズ中のコンテンツを再生スタートさせる再生ボタン１１−１ｈ、コメントを投稿するためのコメント投稿ボタン１１−１ｉ、再生時間を始点から終点までの相対位置で表示するシークバー１１−１ｋおよびシークボタン１１−１ｍがそれぞれ表示されている。

動画像コンテンツ配信サーバ２−２が提供する動画配信サイトは、動画像コンテンツに対して各視聴者がコメント１１−１ｒを投稿可能であることを説明したが、投稿されたコメントは、コンテンツ再生時間におけるコメントの投稿時間（例えば、３分間のコンテンツの中で開始から１分で投稿を行った場合に１分）と同じ再生時間で、他の視聴者がこのコンテンツを再生した場合に表示がなされる。そのために、コメント投稿に際しては、コメントの中身である文字情報とともに、コメントを投稿した投稿時間の情報が、視聴者端末からサーバ２−２へ送信されてサーバ２−２が記録保管する。そして、同じコンテンツを他の視聴者が再生しようとしてサーバ２−２へ再生送信依頼信号を出すと、サーバ２−２は番組コンテンツとともに、投稿時間情報付きのコメント情報を視聴者端末へ送信するので、各視聴者端末は、投稿者が投稿した同じ再生時間に、同じ画面をバックとしてコメントを読むことが可能である。

図８は、動画像コンテンツ配信サーバ２−２が提供する動画像配信サイトの画面の遷移を説明することにより、後に説明を行う、コンテンツの検索用項目である「タグ」の本来の用途を説明しようとする模式図である。タグはコンテンツ配信サイト画面のユーザインターフェースとも関連するので、画面表示に関連させて説明を行う。

動画像配信サイトに最初に接続して表示されるポータル画面（図８（Ａ））には、まず、サイトの名称８０が「ネコネコ動画」と表示されており、タブ８１には「ホーム」（ポータル画面のこと）と、先に説明したカテゴリ（カテゴリタグ）として、「エンタメ」、「生活」、「アニメ」が表示されている。ポータル画面の下側にはおススメの動画として、複数のサムネイル画像８２が表示され、視聴者はマウスでこれらから所望のサムネイル画像８２をクリック選択すれば、その番組コンテンツの再生が開始される。

図８（Ｂ）は、図８（Ａ）に表示された「生活」カテゴリを視聴者がクリック選択した場合の表示画面であって、カテゴリ「生活」に属する複数のタグ８３（「牛鍋」、「ハイボール」、「魚釣り」、「猫」、「料理動画」、「キャンピング」、「懐かＣＭ」）が画面表示され、視聴者が選択することが可能になっている。

図８（Ｃ）は、図８（Ｂ）においてタグ「料理動画」を選択した場合に表示される画面を示す図であって、画面上部には選択されたタグ名「料理動画」が表示され、画面下部には、タグ「料理動画」が付与された複数の動画コンテンツのサムネイル画像８５と、それらコンテンツのキャプション（説明文）８６が表示されている。視聴者は気に入ったコンテンツのサムネイル８５をクリック選択することでそのコンテンツを再生することができるので、視聴者の選択をガイドするタグは極めて有用である。その他、図示はしないものの、別なキーワード選択画面で、所望の言葉に該当するタグ名を検索して一覧表示させることもできる。

〔機械学習済みのモデルを用いた、高画質化した画像を生成するプロセス〕
図９のシークエンス・チャート、図１０のフローチャートを用いて、先に説明をした機械学習済みモデルデータ３２である変換行列Ｑ，Ｒなどを用いて、低ビットレートへエンコードした画像から高画質化した画像を得るプロセスをあらためて説明する。なお、先に説明した第１の視聴者端末１１を、視聴者端末１１と表記する場合もある。

まず動画像コンテンツ配信サーバ２−２には、原画像よりなる動画像コンテンツ、あるいは原画像を低ビットレートにエンコードした動画像コンテンツが複数保管されており、視聴者は先に説明をしたコンテンツ配信サイトの諸画像その他の情報から自分が視聴をしたいコンテンツを決め、視聴者端末１１の表示画面上に表示された、コンテンツのサムネイルボタン表示をクリックするなどすると、該当するコンテンツの配信要求信号が視聴者端末１１から動画像コンテンツ配信サーバ２−２へ送信され、サーバ２−２が受信する（図９ステップＳ１）。

一方、モデルデータ作成サーバ２−１には、動画像コンテンツ配信サーバ２−２に対して配信指示されたコンテンツに対応した機械学習済みモデルデータ３２である、先に説明をした変換行列Ｑ，Ｒがそれぞれ記録保管されている。

各コンテンツに対応をしたモデルデータとは、例えば「猫」に関する動画像コンテンツであれば、「動物」という動画像コンテンツのカテゴリがあらかじめ用意され、この動物カテゴリに属する原画像を教師データとして、その原画像を低ビットレートエンコーディングした画像を入力画像として、機械学習により変換行列Ｑ，Ｒを推定して求めてもよい。そして、モデルデータ作成サーバ２−１、あるいは動画像コンテンツ配信サーバ２−２は、ユーザが視聴者端末１１を用いて配信を要望してきた動画像コンテンツを知り、このコンテンツの画像改良に適した、機械学習済みのモデルデータを、複数用意されたモデルデータから選択し、動画像コンテンツ配信サーバ２−２を経由して視聴者端末１１へ配信するように構成してもよい（図９ステップＳ２、Ｓ３）。

あるいは、直接、配信を行なおうとする動画像コンテンツ中の画像を用いて機械学習を行い、モデルデータを得る方法もある。すなわち、ニューラルネットワークを用いた機械学習を行う際に、視聴者端末１１へ送信をすべき動画像コンテンツ中の、低ビットレートエンコード済み画像とその原画像にそれぞれ含まれる画素の値（輝度、色調）を入力データ、および教師データとして用いるようにしてもよい。このように構成することにより、モデルデータ３２が送信予定のコンテンツに近いデータ内容となり、機械学習済みモデルデータ３２を用いた高画質化画像の品質も高いものとすることができるが、一方、視聴者端末１１へ配信する可能性があるすべてのコンテンツについて、それぞれ機械学習を実施してモデルデータを準備しておく必要がある。

そこで、上記の点を踏まえて、配信しようとするコンテンツではなく、コンテンツが含まれるカテゴリや関連する分野に属する画像を用いて機械学習によりモデルデータを作成する方法が、先に説明をした、例えば「猫」の動画像コンテンツについては、「動物」カテゴリのコンテンツに含まれる画像を用いて機械学習を行い、モデルデータを生成してもよい。そのように構成することで、機械学習を行わねばならない頻度が少なくなり、配信用コンテンツ・タイトルの増設も自由に迅速に行うことができる。

ところで、先に説明をしたような、「猫」に関する動画像コンテンツに対して、「動物」カテゴリに属する画像を用いた機械学習で得られたモデルデータを用いる方法もあるが、「猫」に関する動画像コンテンツが、「動物」カテゴリに属するかどうかの判断は操作を行う人間により行われねばならない可能性もある。さらに、配信が行われるコンテンツにより近い、すなわち高画質化の処理を行った場合に原画像により近い画像が得られるようにするために、配信を行うコンテンツの種類、撮影されている内容、タイトル、撮影者、ジャンル、などでモデルデータを分けて、それぞれ適応した種類のモデルデータを、コンテンツとともに配信するようにしてもよいし、これらの「配信を行うコンテンツの種類、撮影されている内容、タイトル、撮影者、ジャンル」など、あるいは他の項目を複数組み合わせて、適切なモデルデータを選択するようにしてもよい。

そこで、例えば以下のような各項目は、各コンテンツの内容と密接に関連しており、コンテンツに含まれる画像の特性を適切に分類することが可能であるので、これらの項目に従ってモデルデータを自動的に分類して準備し、配信が要求された動画像コンテンツの低ビットレートエンコード済みコンテンツとともに配信することも有効である。

そのために、先に説明をした、モデルデータ作成サーバ２−１、または動画像コンテンツ配信サーバ２−２は、配信が要求された動画像コンテンツの高画質化のために、最適なモデルデータを、複数用意されたモデルデータの中から選択するための構成を有するようにしてもよい。選択を行う動作は、例えば以下のような項目が、配信する動画像コンテンツに含まれている場合に、これら項目から自動的に、高画質化処理に適したモデルデータが選択されるにようにしてもよい。
・コンテンツを視聴した視聴者から投稿されたコメント情報
・コンテンツを説明する説明文情報
・コンテンツの作者に関する情報
・コンテンツの名称あるいはシリーズ名称の情報
・コンテンツを配信する配信者に関する情報

このように、動画像コンテンツの内容に密接に関連した項目として、ほかに「タグ」情報があげられる。

ここで、「タグ」とは、各動画像コンテンツに付された、動画の内容を指し示す検索用キーワードであり、一つのコンテンツに対して例えば１０個まで登録することができる。タグにより、視聴者が所望する動画や、ある動画と似たような動画を容易に探せるような仕組みになっている。

タグは、動画像コンテンツをサーバ２に投稿する動画投稿者だけではなく、これらコンテンツの視聴者（閲覧者ともいう）も自由に登録することができる。本来は検索機能として用いられるタグだが、動画の内容に絡めたタグ付けや動画像配信サイト特有のタグ付けも多く見られる。利用の実態としては、検索のための分類というより、その動画の見所を視聴者に教える役割を果たすこともあり、タグを用いて視聴者同士のコミュニケーションに使われることもある。同じ素材（例えば「歌ってみた」「アイドルマスター」などの人気ジャンルに属する無数のサブジャンル）を扱った動画や同じ投稿者による動画に対して閲覧者の間で自発的にタグが発明され、より深い検索のニーズに応えている側面もある。（一部、ウイキペディア「ニコニコ動画」ｈｔｔｐｓ：／／ｊａ．ｗｉｋｉｐｅｄｉａ．ｏｒｇ／ｗｉｋｉ／％Ｅ３％８３％８Ｂ％Ｅ３％８２％Ｂ３％Ｅ３％８３％８Ｂ％Ｅ３％８２％Ｂ３％Ｅ５％８Ｂ％９５％Ｅ７％９４％ＢＢより引用をしている。）

本出願人は、動画像配信サイト「ニコニコ動画」
ｈｔｔｐｓ：／／ｗｗｗ．ｎｉｃｏｖｉｄｅｏ．ｊｐ／ｖｉｄｅｏ＿ｔｏｐ？ｒｅｆ＝ｎｉｃｏｔｏｐ＿ｖｉｄｅｏを運営している。

この「ニコニコ動画」サイトで実際に用いられているタグとして、以下の例がある。

タグの上位分類である「カテゴリ」（「カテゴリタグ」ともいう）の分類において、「エンタメ・音楽」には、「ＶＯＩＣＥＲＯＩＤ劇場」、「オリジナル曲」、「バーチャルＹｏｕＴｕｂｅｒ」、「アイドル部」、「にじさんじ」、「アニソンｆｕｌｌ」、「作業用ＢＧＭ」、「Ｆａｔｅ／ＭＭＤ」、「ＭＭＤ刀剣乱舞」、「ニコスロ」、「ＳＣＰ解説」、「パチスロ」、「ＳＣＰ」、「ボカロカラオケＤＢ」、「ゆっくり解説」、「声優ライブ」、「Ｒ．Ａ．Ｂ」、「パチンコ」、「アニメ色のない作業用ＢＧＭ」、「歌うボイスロイド」、「ＶＯＣＡＬＯＩＤ」、「伝説入り」、「コスプレで踊ってみた」、「ニコパチ」、「ＶＯＣＡＬＯＩＤ殿堂入り」、「うちいくＴＶ」、「マイクラ肝試し」、「ゆっくり怪談」、「ハロプロ」、「洋楽名曲集」、「小説家になろう」、「探してたあの曲」、「洋楽」が例えば用いられている。

同様に、「生活一般・スポーツ」というカテゴリでは、「日米野球」、「ノリッチ」、「ＲＴＡ（リアル登山アタック）」、「ゆっくり解説」、「ＶＯＩＣＥＲＯＩＤ車載」、「ＷＷＥ」、「コツメカワウソ」、「フィギュアスケート」、「世界の交通事情」、「バイク」、「ドライブレコーダー」、「異種仲良し動画リンク」、「しくじり企業」、「ゆっくり雑談」、「ＶＯＩＣＥＲＯＩＤ解説」、「プロ野球」、「殺人毛玉」、「失われた野生」、「ボイ酒ロイド」、「ハイボールの人」、「世界の奇人・変人・偉人紹介」、「ゆっくり解説動画」、「球界ＯＢの現役時代のプレー集」、「柴犬」、「バーベキュー」、「戦闘民族」、「Ｆ１」、「ニコニコ海外旅行」、「ぬこぬこ動画」、「野生解放」、「野外料理」、「ラーメン」、「軍事」、「ホームラン集」、「ロードレース」、「懐かＣＭ」、「犬」、「アザラシ」、「トースト」、「ゆっくり車載」、「野球」、「横浜ＤｅＮＡベイスターズ」、「猫」、「絶叫するビーバー」、「犬と猫」などが例えば用いられている。

同じく、「科学技術」というカテゴリでは、「粉瘤」、「航空事故」、「銃」、「ドキュメンタリー」、「リボルバー」、「軍事」、「宇宙ヤバイ」、「ろくろを回すシリーズ」、「水素の音」、「拳銃」、「フィギュア」、「珍兵器」、「迷飛行機で行こうシリーズ」、「迷列車派生シリーズ」、「ナポリの男たち」、「プラモデル」、「日本刀」、「宇宙」、「衝撃映像」、「軍事訓練ＮＧ集」、「円周率」、「レトロＰＣ」、「ミニ四駆」、「ニコニコ兵器開発局」、「ＪＡＸＡ」、「スバル」、「ニコニコ空想科学部」、「大きさ比較シリーズ」、「ブラックホール」、「車両接近通報装置シリーズ」、「Ｆ−２２」、「世界の交通事情」、「羽ばたき機」、「理系ホイホイ」、「数学」などが例えば用いられる。

この結果、次のような格別な効果がある。

まず、タグは投稿者あるいはコンテンツの視聴者が付与するので、システム１の操作者や管理者が付与を行う工数がいらず、またコンテンツの中身を熟知している投稿者や視聴者が付与するので、付与が正確である。

また、上記のようにタグは、単なるカテゴリとは異なり細分化されているうえに、既存のタグを知った投稿者や視聴者が同じタグを付与することから、同じタグに属する動画像コンテンツは極めて近い内容であることが期待できるので、機械学習における学習過程が精度よく実行できる。

以上のように、モデルデータ３２である変換行列Ｑ，Ｒは、このコンテンツに含まれている画像について、その低ビットレートエンコード済み画像を入力とし、対応する原画像を出力である教師データとして、先に説明したニューラルネットワークを用いた機械学習に基づく推定によって、得ている。

動画像コンテンツ配信サーバ２−２は、コンテンツにふさわしいモデルデータ３２と、配信要求があったコンテンツデータである、低ビットレートエンコード済み画像よりなるコンテンツデータとを、視聴者端末１１へ送信する（ステップＳ４）。

視聴者端末１１は、上のモデルデータ３２と、低ビットレートエンコード済みコンテンツデータとを受信して（ステップＳ１１）、以後、コンテンツデータをなしている各低ビットレートエンコード済み画像のフレームごとに、先に説明をした式（６）に従って、ニューラルネットワークにおける出力データとして各画素値、それに基づく、高画質化した画像フレームを得る（ステップＳ１２）。そして、得られた、高画質化した画像フレームを時間軸で集成することにより、高画質化したコンテンツデータを得る（ステップＳ１３）。

〔第２の実施形態〕
機械学習に用いるデータとして、先に説明をした低ビットレートエンコード済み画像フレーム、および原画像の画素の値（輝度、色調）とは別に、あるいはそれに加えて、次のような、画像符号化技術における項目の少なくともいずれかであって、次のような、高画質化をしたい低ビットレートエンコード済み動画像コンテンツのメタ情報が含まれているようにしてもよく、その他の構成は先に説明をした本発明第１の実施形態に準ずるように構成した第２の実施形態とすることが可能である。
・符号化ブロック量子化パラメータ
・予測誤差係数
・予測モード情報
・動きベクトル情報

このように構成することで、機械学習における推定の精度がより向上することが期待できる。

〔第３の実施形態〜様々なデータ形式に対する適用〕
以上の各実施形態では、動画像コンテンツ配信を中心に本発明の実施を説明したが、動画像コンテンツに限ることなく、静止画、音声データなど様々なデータ種別について本発明を実施することができる。本実施形態の構成は、先に説明をした第１および第２実施形態の構成を準用して、単数または複数備えられた送信装置の少なくともいずれかが、原データを低ビットレートへエンコードした低ビットレートエンコード済みデータから、より原データに近づけた改良データを生成するためのモデルデータを、機械学習により生成する機械学習部を備え、同じく、単数または複数備えられた送信装置の少なくともいずれかが、低ビットレートエンコード済みデータと、モデルデータとを当該装置の外部へ送信する送信部を備え、受信装置が、受信した低ビットレートエンコード済みデータおよびモデルデータから、当該低ビットレートエンコードデータの改良データを生成する改良データ生成部を有することを特徴とする、データ送受信システム、である。また、先に説明をした動画像コンテンツ配信システム１の各実施形態に含まれる各構成を、動画像コンテンツ対象に代えて、他のデータ形式あるいは汎用のデータ形式に適応するようにした構成を含むようにしてもよい。

これら各種データの送信に際しては、伝送路への負荷を削減することが要求され、また受信端末における再生に際しては、再生品質が高いことが求められている点は、先に説明をした動画像配信システムにおける課題と同様であって、本発明を実施することにより得られる効果も、先に各実施例で説明をした効果と同様である。

〔第４の実施形態〜モデルデータのクライアント端末への直接配信〕
次に、以上説明をした各実施形態において細部を異なる構成とした、第４の実施形態を説明する。なお、この第４の実施形態に特徴的な下記の構成を、先に説明をした各実施形態の構成と組み合わせて実施することが可能であり、これら各構成もまた本発明が包含するものである。

先に説明をした本発明の各実施形態においては、ある動画像コンテンツ、またはデータの配信要求がクライアント端末（第１の視聴者端末１１が相当）からサーバ（動画像コンテンツ配信サーバ２−２が相当）へなされると、この動画像コンテンツあるいはデータの改良にふさわしい、機械学習済みのモデルデータが選択されて他のサーバ（モデルデータ作成サーバ２−１が相当）からサーバ（動画像コンテンツ配信サーバ２−２が相当）に送られ、サーバ（動画像コンテンツ配信サーバ２−２が相当）は、配信が要求されたコンテンツあるいはデータの低ビットレートエンコーダ済みデータと、選択された機械学習済みのモデルデータとを、クライアント端末（第１の視聴者端末１１が相当）へ配信し、この結果、クライアント端末では、受信をしたモデルデータと低ビットレートエンコード済みデータとから、改良されたデータである高画質化した動画像コンテンツなどを得ることができることを説明した。

ここで、本発明の実施に当たり、機械学習済みモデルデータを他のサーバ（モデルデータ作成サーバ２−１が相当）から、まずサーバ（動画像コンテンツ配信サーバ２−２が相当）に送り、サーバ（動画像コンテンツ配信サーバ２−２が相当）からクライアント端末（第１の視聴者端末１１が相当）に配信を行う点は本質的ではないし、必須でもない。そうではなくて、他のサーバ（モデルデータ作成サーバ２−１が相当）から、クライアント端末（第１の視聴者端末１１が相当）へ、機械学習済みのモデルデータを直接配信するようにしてもよい。

このような構成にて実施する場合、モデルデータ作成サーバ２−１に相当するサーバは、第１の視聴者端末１１が相当するクライアント端末から動画像コンテンツ配信サーバ２−２に相当するサーバへ配信要求がなされた動画像コンテンツあるいはデータについての情報を得て、このコンテンツあるいはデータの改良のために適切な機械学習済みモデルデータを選択し、動画像コンテンツ配信サーバ２−２が相当するサーバが配信をする、低ビットレートエンコード済みデータ（動画像コンテンツで例示）の配信タイミングに合わせて、あるいはその前後の時刻に、第１の視聴者端末１１が相当するクライアント端末へ、機械学習済みモデルデータを直接配信することとなる。

すなわち、この第４の実施形態の構成を動画像コンテンツ配信の分野で実現した場合には、単数または複数の送信装置すなわちサーバが備えられた送信システムが、低ビットレートエンコード済みの動画像コンテンツを送信する構成部分と、この低ビットレートエンコード済みの動画像コンテンツを、高画質化した動画像コンテンツに改良するのに適した、機械学習済みモデルデータを送信する構成部分とを有し、一方、受信端末が、受信した低ビットレートエンコード済みの動画像コンテンツと、同じく受信した機械学習済みのモデルデータとから、高画質化した動画像コンテンツを生成する構成部分を有する。

また、この第４の実施形態の構成を、動画像コンテンツ配信の分野に限らない、一般的なデータ配信分野で実現をした場合には、単数または複数の送信装置であるサーバが備えられた送信システムが、低ビットレートエンコード済みのデータを送信する構成部分と、この低ビットレートエンコード済みのデータを、原データに近づけたデータへ改良するのに適した、機械学習済みモデルデータを送信する構成部分とを有し、一方、受信端末が、受信した低ビットレートエンコード済みのデータと、同じく受信した機械学習済みのモデルデータとから、原データに近づけるよう改良したデータを生成する構成部分を有する。

（発明の効果の説明）
本発明は、限られた帯域幅のみを有するインターネット通信網など伝送路を介して動画像コンテンツを見るためにビデオストリーミングの送受を行うシステムにおいて、効率的な伝送帯域の圧縮と、原画像に近い解像感を有する画像復元とを、操作者の負担を軽減して効率的に実施が可能な、画像送受信システム、データ送受信システム、送受信方法、コンピュータ・プログラム、画像送信システム、画像受信装置、送信システム、受信装置を提供することができる。

動画像コンテンツ配信システム１
モデルデータ作成サーバ２−１
動画像コンテンツ配信サーバ２−２
第１の視聴者端末１１
原画像３０
低ビットレートエンコード済み画像３１
機械学習済みモデルデータ３２
高画質化した画像３３

本発明は、上記の課題を解決するために、以下の各項に記載の画像送受信システム、データ送受信システム、送受信方法、コンピュータ・プログラム、画像送信システム、画像受信装置、送信システム、受信装置を提供する。
１）
単数または複数備えられた送信装置の少なくともいずれかが、原画像を低ビットレートへエンコードした低ビットレートエンコード済み画像から、より原画像に近づけた改良画像を生成するためのモデルデータを、機械学習により生成する機械学習部を備え、
単数または複数備えられた送信装置の少なくともいずれかが、低ビットレートエンコード済み画像と、機械学習により生成された機械学習済みモデルデータとを当該送信装置の外部の受信装置へ送信する送信部を備え、
受信装置が、受信した低ビットレートエンコード済み画像および機械学習済みモデルデータから、当該低ビットレートエンコード済み画像の改良画像を生成する改良画像生成部を有することを特徴とする、画像送受信システム。
２）
機械学習に用いるデータが、さらに、低ビットレートエンコード済み画像のメタ情報を含むことを特徴とする、１）に記載の画像送受信システム。
３）
低ビットレートエンコード済み画像のメタ情報が、画像符号化技術における符号化ブロック量子化パラメータ（ＱＰ）、予測誤差係数、予測モード情報、動きベクトル情報のうちの少なくともいずれかであることを特徴とする、２）に記載の画像送受信システム。
４）
単数または複数備えられた送信装置の少なくともいずれかが、さらに、送信部から送信されるいずれかの低ビットレートエンコード済み画像に関する情報に基づき、低ビットレートエンコード済み画像と共に送信される機械学習済みモデルデータを、複数の中から選択するモデルデータ選択部を有することを特徴とする、１）乃至３）のいずれか１項に記載の画像送受信システム。
５）
単数または複数備えられた送信装置の少なくともいずれかが、原データを低ビットレートヘエンコードした低ビットレートエンコード済みデータから、より原データに近づけた改良データを生成するためのモデルデータを、機械学習により生成する機械学習部を備え、
単数または複数備えられた送信装置の少なくともいずれかが、低ビットレートエンコード済みデータと、機械学習により生成された機械学習済みモデルデータとを当該送信装置の外部の受信装置へ送信する送信部を備え、
受信装置が、受信した低ビットレートエンコード済みデータおよび機械学習済みモデルデータから、当該低ビットレートエンコード済みデータの改良データを生成する改良データ生成部を有することを特徴とする、データ送受信システム。
６）
画像の送受信方法であって、
単数または複数備えられた送信装置の少なくともいずれかが有する機械学習部が、原画像を低ビットレートヘエンコードした低ビットレートエンコード済み画像から、より原画像に近づけた改良画像を生成するためのモデルデータを、機械学習により生成するステップと、
単数または複数備えられた送信装置の少なくともいずれかが有する送信部が、低ビットレートエンコード済み画像と、機械学習により生成された機械学習済みモデルデータとを当該送信装置の外部の受信装置へ送信するステップと、
受信装置の改良画像生成部が、受信した低ビットレートエンコード済み画像および機械学習済みモデルデータから、当該低ビットレートエンコード済み画像の改良画像を生成するステップと、を有することを特徴とする、送受信方法。
７）
機械学習に用いるデータが、さらに、低ビットレートエンコード済み画像のメタ情報を含むことを特徴とする、６）に記載の送受信方法。
８）
低ビットレートエンコード済み画像のメタ情報が、画像符号化技術における符号化プロツク量子化パラメータ（ＱＰ）、予測誤差係数、予測モード情報、動きベクトル情報のうちの少なくともいずれかであることを特徴とする、７）に記載の送受信方法。
９）
単数または複数備えられた送信装置の少なくともいずれかが、さらに、送信部から送信される低ビットレートエンコード済み画像に関する情報に基づき、低ビットレートエンコード済み画像と共に送信される機械学習済みモデルデータを、複数の中から選択するモデルデータ選択部を有することを特徴とする、６）乃至８）のいずれか１項に記載の送受信方法。
１０）
単数または複数備えられた送信装置の少なくともいずれかが有する機械学習部が、原データを低ビットレートヘエンコードした低ビットレートエンコード済みデータから、より原データに近づけた改良データを生成するためのモデルデータを、機械学習により生成するステップと、
単数または複数備えられた送信装置の少なくともいずれかが有する送信部が、低ビットレートエンコード済みデータと、機械学習により生成された機械学習済みモデルデータとを当該送信装置の外部の受信装置へ送信するステップと、
受信装置の改良データ生成部が、受信した低ビットレートエンコード済みデータおよび機械学習済みモデルデータから、当該低ビットレートエンコード済みデータの改良データを生成するステップと、を有することを特徴とする、送受信方法。
１１）
６）乃至１０）のいずれか１項に記載された送受信方法を実行するためのコンピュータ・プログラム。
１２）
単数または複数備えられた送信装置の少なくともいずれかに設けられた、原画像を低ビットレートヘエンコードした低ビットレートエンコード済み画像から、より原画像に近づけた改良画像を生成するためのモデルデータを、機械学習により生成する機械学習部と、
単数または複数備えられた送信装置の少なくともいずれかに設けられた、低ビットレートエンコード済み画像と、機械学習により生成された機械学習済みモデルデータとを当該送信装置の外部の受信装置へ送信する送信部と、を備えたことを特徴とする、画像送信システム。
１３）
機械学習に用いるためのデータが、低ビットレートエンコード済み画像のメタ情報であることを特徴とする、１２）に記載の画像送信システム。
１４）
低ビットレートエンコード済み画像のメタ情報が、画像符号化技術における符号化ブロック量子化パラメータ（ＱＰ）、予測誤差係数、予測モード情報、動きベクトル情報のうちの少なくともいずれかであることを特徴とする、１３）に記載の画像送信システム。
１５）
さらに、送信部から送信される低ビットレートエンコード済み画像に関する情報に基づき、低ビットレートエンコード済み画像と共に送信される機械学習済みモデルデータを、複数の中から選択するモデルデータ選択部を有することを特徴とする、１２）乃至１４）のいずれか１項に記載の画像送信システム。
１６）
単数または複数設けられた送信装置の少なくともいずれかに設けられた、原データを低ビットレートヘエンコードした低ビットレートエンコード済みデータを、より原データに近づけた改良データを生成するためのモデルデータを、機械学習により生成する機械学習部と、
単数または複数設けられた送信装置の少なくともいずれかに設けられた、低ビットレートエンコード済みデータと、機械学習により生成された機械学習済みモデルデータとを当該送信装置の外部の受信装置へ送信する送信部を備えたことを特徴とする送信システム。
１７）
原画像を低ビットレートヘエンコードした低ビットレートエンコード済み画像から、より原画像に近づけた改良画像を生成するためのモデルデータであって、機械学習により生成された機械学習済みモデルデータと、低ビットレートエンコード済み画像とを画像送信システムから受信する受信部と、
受信した低ビットレートエンコード済み画像および機械学習済みモデルデータから、当該低ビットレートエンコード済み画像の改良画像を生成する改良画像生成部と、を有することを特徴とする画像受信装置。
１８）
機械学習に用いるためのデータが、低ビットレートエンコード済み画像のメタ情報であることを特徴とする、１７）に記載の画像受信装置。
１９）
低ビットレートエンコード済み画像のメタ情報が、画像符号化技術における符号化プロツク量子化パラメータ（ＱＰ）、予測誤差係数、予測モード情報、動きベクトル情報のうちの少なくともいずれかであることを特徴とする、１８）に記載の画像受信装置。
２０）
受信部が受信する機械学習済みモデルデータは、共に受信する低ビットレートエンコード済み画像に関する情報に基づき、複数の中から選択されたことを特徴とする、１７）に記載の画像受信装置。
２１）
原データを低ビットレートヘエンコードした低ビットレートエンコード済みデータから、より原データに近づけた改良データを生成するためのモデルデータであって、機械学習により生成された機械学習済みモデルデータと、低ビットレートエンコード済みデータとを送信システムから受信する受信部と、
受信した低ビットレートエンコード済みデータおよび機械学習済みモデルデータから、当該低ビットレートエンコード済みデータの改良データを生成する改良データ生成部と、を有することを特徴とする受信装置。

Claims

単数または複数備えられた送信装置の少なくともいずれかが、原画像を低ビットレートへエンコードした低ビットレートエンコード済み画像から、より前記原画像に近づけた改良画像を生成するためのモデルデータを、機械学習により生成する機械学習部を備え、
前記単数または複数備えられた送信装置の少なくともいずれかが、前記低ビットレートエンコード済み画像と、前記モデルデータとを当該装置の外部へ送信する送信部を備え、
受信装置が、受信した前記低ビットレートエンコード済み画像および前記モデルデータから、当該低ビットレートエンコード画像の前記改良画像を生成する改良画像生成部を有することを特徴とする、画像送受信システム。
前記機械学習に用いるデータが、さらに、前記低ビットレートエンコード済み画像のメタ情報を含むことを特徴とする、請求項１に記載の画像送受信システム。
前記低ビットレートエンコード済み画像のメタ情報が、画像符号化技術における符号化ブロック量子化パラメータ（ＱＰ）、予測誤差係数、予測モード情報、動きベクトル情報のうちの少なくともいずれかであることを特徴とする、請求項２に記載の画像送受信システム。
前記単数または複数備えられた送信装置の少なくともいずれかが、さらに、前記送信部から送信される前記いずれかの低ビットレートエンコード済み画像に関する情報に基づき前記低ビットレートエンコード済み画像と共に送信される前記モデルデータを、複数の中から選択するモデルデータ選択部を有することを特徴とする、請求項１乃至３のいずれか１項に記載の画像送受信システム。
単数または複数備えられた送信装置の少なくともいずれかが、原データを低ビットレートへエンコードした低ビットレートエンコード済みデータから、より前記原データに近づけた改良データを生成するためのモデルデータを、機械学習により生成する機械学習部を備え、
前記単数または複数備えられた送信装置の少なくともいずれかが、前記低ビットレートエンコード済みデータと、前記モデルデータとを当該装置の外部へ送信する送信部を備え、
受信装置が、受信した前記低ビットレートエンコード済みデータおよび前記モデルデータから、当該低ビットレートエンコードデータの前記改良データを生成する改良データ生成部を有することを特徴とする、データ送受信システム。
画像の送受信方法であって、
単数または複数備えられた送信装置の少なくともいずれかが有する機械学習部が、原画像を低ビットレートへエンコードした低ビットレートエンコード済み画像から、より前記原画像に近づけた改良画像を生成するためのモデルデータを、機械学習により生成するステップと、
前記単数または複数備えられた送信装置の少なくともいずれかが有する送信部が、前記低ビットレートエンコード済み画像と、前記モデルデータとを当該装置の外部へ送信するステップと、
受信装置の改良画像生成部が、受信した前記低ビットレートエンコード済み画像および前記モデルデータから、当該低ビットレートエンコード済み画像の前記改良画像を生成するステップと、を有することを特徴とする、送受信方法。
前記機械学習に用いるデータが、さらに、前記低ビットレートエンコード済み画像のメタ情報を含むことを特徴とする、請求項６に記載の送受信方法。
前記低ビットレートエンコード済み画像のメタ情報が、画像符号化技術における符号化ブロック量子化パラメータ（ＱＰ）、予測誤差係数、予測モード情報、動きベクトル情報のうちの少なくともいずれかであることを特徴とする、請求項７に記載の送受信方法。
前記単数または複数備えられた送信装置の少なくともいずれかが、さらに、前記送信部から送信される前記低ビットレートエンコード済み画像に関する情報に基づき、前記低ビットレートエンコード済み画像と共に送信される前記モデルデータを、複数の中から選択するモデルデータ選択部を有することを特徴とする、請求項６乃至８のいずれか１項に記載の送受信方法。
単数または複数備えられた送信装置の少なくともいずれかが有する機械学習部が、原データを低ビットレートへエンコードした低ビットレートエンコード済みデータから、より前記原データに近づけた改良データを生成するためのモデルデータを、機械学習により生成するステップと、
前記単数または複数備えられた送信装置の少なくともいずれかが有する送信部が、前記低ビットレートエンコード済みデータと、前記モデルデータとを当該装置の外部へ送信するステップと、
受信装置の改良データ生成部が、受信した前記低ビットレートエンコード済みデータおよび前記モデルデータから、当該低ビットレートエンコードデータの前記改良データを生成するステップと、を有することを特徴とする、送受信方法。
請求項６乃至１０のいずれか１項に記載された送受信方法を実行するためのコンピュータ・プログラム。
単数または複数備えられた送信装置の少なくともいずれかに設けられた、原画像を低ビットレートへエンコードした低ビットレートエンコード済み画像から、より前記原画像に近づけた改良画像を生成するためのモデルデータを、機械学習により生成する機械学習部と、
前記単数または複数備えられた送信装置の少なくともいずれかに設けられた、前記低ビットレートエンコード済み画像と、前記モデルデータとを当該システムの外部へ送信する送信部と、を備えたことを特徴とする、画像送信システム。
前記機械学習に用いるためのデータが、前記低ビットレートエンコード済み画像のメタ情報であることを特徴とする、請求項１２に記載の画像送信システム。
前記低ビットレート変換画像のメタ情報が、画像符号化技術における符号化ブロック量子化パラメータ（ＱＰ）、予測誤差係数、予測モード情報、動きベクトル情報のうちの少なくともいずれかであることを特徴とする、請求項１３に記載の画像送信システム。
さらに、前記送信部から送信される前記低ビットレートエンコード済み画像に関する情報に基づき、前記低ビットレートエンコード済み画像と共に送信される前記モデルデータを、複数の中から選択するモデルデータ選択部を有することを特徴とする、請求項１２乃至１４のいずれか１項に記載の画像送信システム。
単数または複数設けられた送信装置の少なくともいずれかに設けられた、原データを低ビットレートへエンコードした低ビットレートエンコード済みデータを、より前記原データに近づけた改良データを生成するためのモデルデータを、機械学習により生成する機械学習部と、
前記単数または複数設けられた送信装置の少なくともいずれかに設けられた、前記低ビットレートエンコード済みデータと、前記モデルデータとを当該装置の外部へ送信する送信部を備えたことを特徴とする送信システム。
原画像を低ビットレートへエンコードした低ビットレートエンコード済み画像から、より前記原画像に近づけた改良画像を生成するためのモデルデータであって、機械学習により生成されたモデルデータと、前記低ビットレートエンコード済み画像とを画像送信システムから受信する受信部と、
前記受信した前記低ビットレートエンコード済み画像および前記モデルデータから、当該低ビットレートエンコード画像の前記改良画像を生成する改良画像生成部と、を有することを特徴とする画像受信装置。
前記機械学習に用いるためのデータが、前記低ビットレートエンコード済み画像のメタ情報であることを特徴とする、請求項１７に記載の画像受信装置。
前記低ビットレートエンコード済み画像のメタ情報が、画像符号化技術における符号化ブロック量子化パラメータ（ＱＰ）、予測誤差係数、予測モード情報、動きベクトル情報のうちの少なくともいずれかであることを特徴とする、請求項１８に記載の画像受信装置。
前記受信部が受信する前記モデルデータは、共に受信する前記低ビットレートエンコード済み画像に関する情報に基づき、複数の中から選択されたことを特徴とする、請求項１７に記載の画像受信装置。
原データを低ビットレートへエンコードした低ビットレートエンコード済みデータから、より前記原データに近づけた改良データを生成するためのモデルデータであって、機械学習により生成されたモデルデータと、前記低ビットレートエンコード済みデータとを送信システムから受信する受信部と、
前記受信した前記低ビットレートエンコード済みデータおよび前記モデルデータから、当該低ビットレートエンコード済みデータの前記改良データを生成する改良データ生成部と、を有することを特徴とする受信装置。