JP2021175157A

JP2021175157A - 配信者端末、コンテンツ配信システム、コンテンツ生成方法、コンテンツ生成プログラム、および、記録媒体

Info

Publication number: JP2021175157A
Application number: JP2020080551A
Authority: JP
Inventors: 尚小嶋; Takashi Kojima; 一彦草野; Kazuhiko Kusano; 肇加藤; Hajime Kato
Original assignee: Dwango Co Ltd
Current assignee: Dwango Co Ltd
Priority date: 2020-04-30
Filing date: 2020-04-30
Publication date: 2021-11-01
Anticipated expiration: 2040-04-30
Also published as: US20230142432A1; CN115088266A; JP6908756B1; WO2021221046A1; CN115088266B; JP2021175199A

Abstract

【課題】コンテンツを配信元から配信先まで送信する経路に介在する構成に対する負荷を軽減するとともに、コンテンツの品位の低下を抑制するコンテンツ生成装置、コンテンツ配信システム、コンテンツ生成方法、および、コンテンツ生成プログラムを提供する。【解決手段】実施形態によるコンテンツ生成装置４０は、原データ３３を低ビットレートへエンコードした低ビットレートエンコード済みデータ３１を生成する第１生成部４ｃ１と、機械学習による学習済みモデルに基づいて、低ビットレートエンコード済みデータ３１を入力データとし、低ビットレートエンコード済みデータ３１を人の知覚的に改良した改良データを生成するための機械学習済みモデルデータ３２を生成可能である第２生成部４ｃ２と、低ビットレートエンコード済みデータ３１と、モデルデータ３２と、を外部へ送信する第１送信部４ａと、を備える。【選択図】図３

Description

本発明は、コンテンツ生成装置、コンテンツ配信システム、コンテンツ生成方法、および、コンテンツ生成プログラムに関する。

従来、例えば、動画像または静止画像と、必要に応じて音声と組み合わせた画像コンテンツ（「画像番組」、「番組」、「コンテンツ」とも言い、以下ではこれらの用語も使用する）を、配信者端末から、配信用のサーバを経て視聴者が用いる端末へ送信し、視聴者の端末の表示画面に表示された画像コンテンツを視聴者が鑑賞するコンテンツ配信システムが用いられている。

近年、動画を撮影するカメラや視聴者側の表示装置の高解像度化および高機能化などの影響より、画像コンテンツのデータ容量は大きくなる傾向にあり、これに伴い、画像コンテンツを配信元から配信先まで配信する経路に介在する構成に対する負荷を抑えることが課題の一つとなっている。

より高効率に動画像コンテンツの帯域圧縮を行うための一つの選択肢として、動画像コンテンツデータを送信する送信レート（ビットレート）を小さくして、少ないデータ量として送信する方法がある。ところが、この方法では、動画像コンテンツデータに含まれるデータ量が減少し、画像品位の劣る、すなわちディテール情報が欠落したり、ブロックノイズやモスキートノイズを含んだりした画像表示がなされがちとなるため、視聴者（ユーザ）の不満が生じてしまう。

例えば下記の特許文献１に開示されたシステムが備えるエンコーダは、ビデオストリームをまず複数のシーンに分割し、それぞれのシーンについてシーンタイプとして、例えば、「高速動き」、「静止」、「トーキングヘッド」、「文字」、「スクロールクレジット」、「ほとんど黒色の画像」、「５つ以下の画像フレームの短いシーン」などのいずれかを決定して、各シーンタイプのためのあらかじめ規定されたビデオエンコーディングパラメータ（画像符号化パラメータ）を用いてエンコーディングされたビデオストリームを出力する、としている。

また、例えば下記の特許文献２には、超解像処理によって画像を鮮明化する技術において、撮像部により撮像され得る対象物の種類ごとの辞書データが記憶部に格納された監視システムが開示されている（例えば特許文献２［００１３］段落）。特許文献２の監視システムにて用いられる辞書データは、例えば、多数の正解データである高解像度データと低解像度データの組み合わせをディープラーニング（Deep Learning）等の手法で学習することで生成される（例えば特許文献２［００２９］段落）。

特開2017-123649号公報特開2017-158067号公報

上記特許文献１に開示された技術では、複数のシーンタイプ毎に画像符号化パラメータを規定する必要があり、予め想定されたシーンタイプに該当しない画像に対しては効率よく符号化できない可能性があった。

また、上記特許文献２に開示された技術は画像を監視するためのものであり、特許文献２には、大容量の画像データを送信する通信路および通信経路に介在する構成の負荷を考慮した技術は開示されていない。

すなわち、上記に示した各特許文献においては、動画像コンテンツのような大容量の画像データを配信元から配信先へ送信する場合に、通信路などの負荷を軽減し、かつ、画像品位が妥当である動画像コンテンツ配信を行うための構成は何ら開示されておらず、示唆すらされていない。

本願発明は、上記事情を鑑みて成されたものであって、コンテンツを配信元から配信先まで送信する経路に介在する構成に対する負荷を軽減するとともに、コンテンツの品位の低下を抑制するコンテンツ生成装置、コンテンツ配信システム、コンテンツ生成方法、および、コンテンツ生成プログラムを提供することを目的とする。

本発明の第１態様によるコンテンツ生成装置は、原データを低ビットレートへエンコードした低ビットレートエンコード済みデータを生成する第１生成部と、機械学習による学習済みモデルに基づいて、前記低ビットレートエンコード済みデータを人の知覚的に改良した改良データを生成するための機械学習済みモデルデータを生成可能である第２生成部と、前記低ビットレートエンコード済みデータと、前記モデルデータと、を外部へ送信する第１送信部と、を備える。

本発明の第２態様によるコンテンツ生成装置は、第１態様によるコンテンツ生成装置において、過去に生成された前記モデルデータを記憶する記録部を更に備え、前記第２生成部は、過去に生成された前記モデルデータを前記低ビットレートエンコード済みデータとともに、前記第１送信部から外部へ送信させることができる。
本発明の第３態様によるコンテンツ生成装置は、第１又は第２態様によるコンテンツ生成装置において、前記原データは画像データであって、前記低ビットレートエンコード済みデータはメタ情報を含むものである。

本発明の第４態様によるコンテンツ生成装置は、第３態様によるコンテンツ生成装置において、前記低ビットレートエンコード済みデータの前記メタ情報が、画像符号化技術における符号化ブロック量子化パラメータ（ＱＰ）、予測誤差係数、予測モード情報、動きベクトル情報のうちの少なくともいずれかであるものである。

本発明の第５態様によるコンテンツ生成装置は、第２態様によるコンテンツ生成装置において、前記原データは、コンテンツを特性により分類するためのカテゴリ情報を含み、前記記録部は、前記カテゴリ情報に基づいて分類された前記モデルデータ若しくは前記モデルデータの初期値を記録している。

本発明の第６態様によるコンテンツ配信システムは、第１乃至第５態様のいずれかのコンテンツ生成装置と、前記コンテンツ生成装置から送信された前記低ビットレートエンコード済みデータと、前記モデルデータとを受信する受信部と、受信した前記低ビットレートエンコード済みデータおよび前記モデルデータから、当該低ビットレートエンコード済みデータ基づく前記改良データを生成する第３生成部と、前記改良データを配信する配信部と、を備えた、コンテンツ配信装置と、を備える。

本発明の第７態様によるコンテンツ生成方法は、原データを低ビットレートへエンコードした低ビットレートエンコード済みデータを生成する第１生成ステップと、機械学習による学習済みモデルに基づいて、前記低ビットレートエンコード済みデータを人の知覚的に改良した改良データを生成するための機械学習済みモデルデータを生成可能な第２生成ステップと、前記低ビットレートエンコード済みデータと、前記モデルデータとを外部へ送信する第１送信ステップと、を備える。

本発明の第８態様によるコンテンツ生成方法は、第７態様によるコンテンツ生成方法において、前記低ビットレートエンコード済みデータと、前記モデルデータとを受信する受信ステップと、受信した前記低ビットレートエンコード済みデータおよび前記モデルデータから、当該低ビットレートエンコード済みデータに基づく前記改良データを生成する第３生成ステップと、を更に備える。
本発明の第９態様によるコンテンツ生成プログラムは、第７又は第８態様に記載されたコンテンツ生成方法をコンピュータに実行させる。

本願発明によれば、上記事情を鑑みて成されたものであって、コンテンツを配信元から配信先まで送信する経路に介在する構成に対する負荷を軽減するとともに、コンテンツの品位の低下を抑制するコンテンツ生成装置、コンテンツ配信システム、コンテンツ生成方法、および、コンテンツ生成プログラムを提供することができる。

図１は、一実施形態のコンテンツ配信システムの一構成例を概略的に示す図である。図２は、一実施形態のコンテンツ配信システムにおいて用いられる原データと、低ビットレートエンコード済みデータと、コンテンツデータと、の一例を示す図である。図３は、図１に示すコンテンツ配信システムの配信者端末の一構成例を概略的に示す図である。図４は、一実施形態のコンテンツ配信システムにおいて用いられる深層学習の概念の一例を説明するための図である。図５は、図１に示すコンテンツ配信システムの動画像コンテンツ配信サーバの一構成例を概略的に示す図である。図６は、図１に示すコンテンツ配信システムの視聴者端末の一構成例を概略的に示す図である。図７は、一実施形態のコンテンツ生成方法の一例を説明するためのフローチャートである。図８は、一実施形態のコンテンツ生成方法の一例を説明するためのフローチャートである。

以下に、コンテンツ生成装置、コンテンツ配信システム、コンテンツ生成方法、および、コンテンツ生成プログラムの一実施形態について、図面を参照して詳細に説明する。なお以下の説明において、同一又は一部が相違する複数の構成については、共通の符号を付して、重複する説明は適宜省略することがある。

図１は、一実施形態のコンテンツ配信システムの一構成例を概略的に示す図である。
本実施形態のコンテンツ配信システム１は、コンテンツ配信サーバ２と、配信者端末４と、を備えている。

配信者端末４は、インターネットなどのネットワーク３を介してコンテンツ配信サーバ２と通信可能に接続することができる。コンテンツ配信サーバ２は、ネットワーク３を介して、複数の視聴者端末１１と通信可能に接続することができる。

配信者端末４は、例えばビデオカメラなどの動画ソースに接続可能なコンピュータなどの電子デバイス、例えば、テレビ受像機（インターネットテレビを含む）、ＰＣ（Personal Computer）、モバイル端末（例えば、タブレット、スマートフォン、ラップトップ、フィーチャーフォン、ポータブルゲーム機、デジタルミュージックプレイヤー、電子書籍リーダなど）、ＶＲ（Virtual Reality)端末、ＡＲ(Augmented Reality)端末などであり得るが、これらに限られない。配信者端末４は、例えば、少なくとも１つのプロセッサと、プロセッサにより実行されるプログラムが記憶された記憶部と、を備え、ソフトウエアにより又はソフトウエアとハードウエアとの組み合わせにより種々の機能を実現可能に構成されている。

配信者端末４は、コンテンツ生成装置４０を含み得る。なお、コンテンツ生成装置４０は、例えば、配信者端末４に組み込まれてもよく、配信者端末４に外付けされる構成であってもよく、配信者端末４と通信可能に接続されたコンピュータなどの電子デバイスであってもよい。

コンテンツ生成装置４０は、原データ３３を用いて、原データ３３を低ビットレートにエンコードした低ビットレートエンコード済みデータ３１を生成することができる。また、コンテンツ生成装置４０は、低ビットレートエンコード済みデータ３１から、より原データ３３に近づけた（若しくは人の知覚的に改良された）コンテンツデータ（改良データ）３０を生成するための機械学習済みモデルデータ３２、を生成することができる。

コンテンツ生成装置４０は、生成された低ビットレートエンコード済みデータ３１とモデルデータ３２とを、配信者端末４の入出力インタフェース（図２に示す）およびネットワーク３を介してコンテンツ配信サーバへ送信することができる。

図１では、原データ３３、低ビットレートエンコード済みデータ３１、および、コンテンツデータ３０として、猫の画像データを採用した例を示している。なお、原データ３３は静止画像データであってもよく、動画像データであってもよく、画像データ以外のデータ（例えば音響データや、テキストデータや、これらを組み合わせたデータなど）であっても構わない。

コンテンツ配信サーバ２は、例えば、少なくとも１つのプロセッサと、プロセッサにより実行されるプログラムが記録されたメモリと、を備えたコンテンツ配信装置であって、ソフトウエアにより又はソフトウエアとハードウエアとの組み合わせにより種々の機能を実現可能に構成されている。

コンテンツ配信サーバ２は、配信者端末４から受信した低ビットレートエンコード済みデータ３１とモデルデータ３２とを用いて、コンテンツデータ３０を生成することができる。

コンテンツ配信サーバ２は、受信した配信要求に応じて配信先の視聴者端末１１を選択し、コンテンツデータ３０を選択した視聴者端末１１へ配信することができる。

視聴者端末１１は、コンピュータなどの電子デバイスであって、例えば、テレビ受像機（インターネットテレビを含む）、ＰＣ（Personal Computer）、モバイル端末（例えば、タブレット、スマートフォン、ラップトップ、フィーチャーフォン、ポータブルゲーム機、デジタルミュージックプレイヤー、電子書籍リーダなど）、ＶＲ（Virtual Reality)端末、ＡＲ(Augmented Reality)端末などであり得るが、これらに限られない。

視聴者端末１１は、例えば、少なくとも１つのプロセッサと、プロセッサにより実行されるプログラムが記録されたメモリと、を備え、ソフトウエアにより又はソフトウエアとハードウエアとの組み合わせにより種々の機能を実現可能に構成されている。

視聴者端末１１は、コンテンツ配信サーバ２からコンテンツデータ３０を受信し、図示しない表示手段や音響手段などにより視聴者へコンテンツを提示することが可能である。

図２は、一実施形態のコンテンツ配信システムにおいて用いられる原データと、低ビットレートエンコード済みデータと、コンテンツデータと、の一例を示す図である。
なお、図２には画像データである原データ３３を用いたときの、低ビットレートエンコード済みデータ３１およびコンテンツデータ３０の一例を示している。

低ビットレートエンコード済みデータ３１は、原データ３３の送信レート（ビットレート）を小さくして、データ量を圧縮したものである。図２に例示した原データ３３による画像と低ビットレートエンコード済みデータ３１による画像とを比較すると、低ビットレートエンコード済みの画像は、画像のディテール情報が欠落したものとなっている。

コンテンツデータ３０は、低ビットレートエンコード済みデータ３１とモデルデータ３２とを用いて高画質化された画像データである。ここで、本明細書における高画質化した画像、あるいは、視覚的により原画像に近づけた画像は、低ビットレートエンコード済みの画像から、高ビットレートの画像を復号したかのように人間が感じるように改良した画像である。高画質化された画像データは、視覚的に原画像データに近づけたものに限定されるものではなく、低ビットレートエンコード済みデータ３１よりも視覚的に（人の知覚的に）改良されているものを含む。例えば、コンテンツデータ３０は、低ビットレートエンコード済みデータ３１において欠落した画像のディテールが追加される等により、原画像よりも低い画素数にて視覚的に改良されたものであってもよい。すなわち、高画質化した画像（若しくは視覚的に改良した画像）、あるいは、視覚的により原画像に近づけた画像は、原画像および単に画素数を増やすなどの方法により復号された高画質画像よりもビットレートが低く、かつ、表示品位の低下が抑制された画像である。

原データ３３が画像データ以外のデータである場合には、コンテンツデータ３０は、低ビットレートエンコード済みデータ３１とモデルデータ３２とを用いて人の知覚的に改良されたデータである。ここで、本明細書における改良したデータ、あるいは、人の知覚により原データに近づけたデータは、低ビットレートエンコード済みのデータから、高ビットレートのデータを復号したかのように人の知覚により感じるデータである。すなわち、改良したデータ、あるいは、人の知覚により原データに近づけたデータは、原データおよび単にビットレートを増やすなどの方法により復号された復元データよりもビットレートが低く、かつ、再生されたデータの品位の低下が抑制されたものである。

図２に例示した原データ３３による画像とコンテンツデータ３０による画像とを比較すると、コンテンツデータ３０による画像は、低ビットレートエンコード済みの画像よりも視覚的に原画像に近づいた（若しくは視覚的に改良された）印象を受ける画像となっている。

なお、動画像コンテンツの低ビットレートエンコード済みデータ３１を高画質化（改良）する場合には、静止画における空間方向の高画質化処理だけではなく、動画における時間方向の高画質化処理をも含むようにしてもよい。

図３は、図１に示すコンテンツ配信システムの配信者端末の一構成例を概略的に示す図である。
配信者端末４は、入出力インタフェース（第１送信部）４ａと、制御部４ｂと、学習部４ｃと、メモリ４ｊと、プログラム記憶部４ｆと、機械学習用記録部４ｇと、バスライン４ｉと、を備えている。なお、図３に示す例では、コンテンツ生成装置４０は配信者端末４に組み込まれている。コンテンツ生成装置４０は、少なくとも学習部４ｃと機械学習用記録部４ｇとを含み、学習部４ｃおよび機械学習用記録部４ｇ以外の配信者端末４の構成を、他の機能と共有し得る。

入出力インタフェース４ａは、配信者端末４内の構成と外部の構成との間でデータ接続を行う。
バスライン４ｉは、配信者端末４に含まれる複数の構成を、相互に通信可能となるように接続する。

メモリ４ｊは、例えば、制御部４ｂによりデータの書き込みおよび読み出しが可能であるＲＡＭやＤＲＡＭなどの半導体記憶装置を含む。メモリ４ｊは、制御部４ｂが動作する際に種々のデータを一時記憶する領域として利用され得る。なお、メモリ４ｊは、配信者端末４の外部に接続されるハードディスクなどの外部記憶装置を含んでいてもよい。

プログラム記憶部４ｆは、制御部４ｂのプロセッサにより実行されるプログラムを、読み出し可能に記憶している。プログラム記憶部４ｆは、例えば配信者端末４の外部に接続された外部記憶装置に含まれていてもよく、コンピュータにより読み取り可能な記録媒体であってもよい。また、プログラム記憶部４ｆは、メモリ４ｊと一体に構成されても構わない。

機械学習用記録部４ｇは、例えば制御部４ｂによるデータの書き込みおよび読み出しが可能に構成され、例えばニューラルネットワークなどに基づく機械学習に用いるための、入カデータ、教師データ、および、機械学習により生成された学習済みモデル（変換行列Ｑ，Ｒ）が記録され得る。機械学習に用いられる入力データは、例えば各種カテゴリ別のコンテンツの原データ３３を低ビットレートにエンコードしたデータ（低ビットレートエンコード済みデータ３１）を採用することが可能であり、機械学習に用いられる教師データは、例えば入力データに対応するコンテンツの原データ３３や改良データを採用することが可能である。機械学習用記録部４ｇにおいて、原データ３３と、該原データ３３の低ビットレートエンコード済みデータ３１と、改良データとは、関連付けられた状態で記録されている。

なお、本実施形態において、機械学習に用いられ得る原データ３３（又は改良データ）と低ビットレートエンコード済みデータ３１とは、入出力インタフェース４ａを介して外部から供給されたデータであってもよく、配信者端末４の機能により生成されたデータであってもよい。

制御部４ｂは、ＣＰＵ（セントラル・プロセッシング・ユニット）などのプロセッサを少なくとも１つ含む演算手段であって、学習部４ｃを備えている。制御部４ｂは、配信者端末４に含まれる複数の構成の動作を制御することができる。なお、制御部４ｂは、プログラム記憶部４ｆに記録されたプログラムを読み出して実行することにより、以下に説明する種々の機能をソフトウエアにより実現することが可能である。

学習部４ｃは、入力データおよび教師データを用い、例えばニューラルネットワークなどの深層学習により生成された学習済みモデルに基づいて、モデルデータ３２を生成することができる。

学習部４ｃは、第１生成部４ｃ１と、第２生成部４ｃ２とを備えている。
第１生成部４ｃ１は、例えば入出力インタフェース４ａを介して外部から供給された原データ３３を受信し、受信した原データ３３を低ビットレートにエンコードした低ビットレートエンコード済みデータ３１を生成することができる。

第２生成部４ｃ２は、第１生成部４ｃ１もしくは外部から供給される低ビットレートエンコード済みデータ３１を入力データとし、該低ビットレートエンコード済みデータ３１に関連付けられた原データ３３又は改良データを教師データとして、例えば後述するように機械学習による学習済みモデル生成し、学習済みモデルに基づく変換行列Ｑ，Ｒのデータ（モデルデータ３２）を生成することができる。

なお、第２生成部４ｃ２は、新たに入力データおよび教師データが入力される毎に、学習済みモデルを更新し、毎回新たなモデルデータ３２を生成してもよく、機械学習用記録部４ｇに記録された学習済みモデルに基づく過去のモデルデータ３２を用いてもよい。過去のモデルデータ３２を用いる場合には、第２生成部４ｃ２は、周期的に、機械学習用記録部４ｇに記録されたデータを用いて、学習済みモデルを更新することができる。

第２生成部４ｃ２は、過去に生成した学習済みモデルに基づくモデルデータ３２を、入力データのカテゴリ別に機械学習用記録部４ｇに記録することができる。第２生成部４ｃ２は、新たに入力された入力データに対する変換行列Ｑ、Ｒを生成する（学習済みモデルを更新する）際に、機械学習用記録部４ｇから過去の値を読み出して初期値として利用してもよい。

以下に、機械学習を用いてモデルデータ３２を生成する方法の一例について説明する。
図４は、一実施形態のコンテンツ配信システムにおいて用いられる深層学習の概念の一例を説明するための図である。
本実施形態のコンテンツ配信システム１では、機械学習の中で、ニューラルネットワークを用いた、多次元の入力から多次元の出力を得る際に、入力データおよび教師データを用いて最適なモデルを得る手法を用いている。なお、以下に説明するニューラルネットワークを用いた機械学習の適用は一例にすぎない。以下の説明では、低ビットレートエンコード済みデータ３１および原データ３３は画像データであるが、これに限定されるものではない。また、ニューラルネットワークの他の機械学習の手法を用いてモデルデータ３２を生成することも可能であり、そのような構成もまた本発明に含まれる。

図４に示す機械学習の概念は、入力層４１と、中間層４２と、出力層４３と、教師データ層４４と、を備えている。
入力層４１は、ニューラルネットワーク技術における入カデータωとして、低ビットレートエンコード済みデータ３１である画像データについての、例えば対象となるフレーム画像について、複数のサンプル画素における画素の値（輝度、色調）である複数（ｍ個）のパラメータである、入カデータ・パラメータ１、入力データ・パラメータ２、・・・、入カデータ・パラメータｍの、ｍ次元のデータωを有している。

上述の低ビットレート画像に関する入カデータ・パラメータベクトルωは下記式（１）にて表すことができる。

出力層４３は、下記式（２）により表される出カデータ・パラメータベクトルｘを有している。出カデータ・パラメータベクトルｘは、後述する教師データ・パラメータベクトルβと同じくｄ次元である。

中間層４２は、下記式（３）により表されるｋ次元のベクトルｙ（中問データともいう）を有している。中間層４２は、入力層４１と出力層４３との間に位置している。

入力層４１のデータは、変換行列Ｑによる線形変換により中間層４２に変換され、その中間層４２のデータは、変換行列Ｒによる線形変換がなされて出力層４３のデータとして出力される。層４１−４３のそれぞれの内部については、各データ間には接続関係がなく独立している。

上記のように、本実施形態では、入カデータ・パラメータベクトルωから出カデータ・パラメータベクトルｘに直接変換するのではなく、下記式（４）に示すように２段階の変換を行う。
ｙ＝Ｑω、ｘ＝Ｒｙ・・・（４）

上記式（４）において、ＱおよびＲは先に説明をした線形変換を行うために用いられる行列である。そして、それぞれの変換行列Ｑ，Ｒによる線形変換を行ったあと、それぞれの変数に対して非線形の関数により変換を行う。その関数は活性化関数と呼ばれるもので、本実施形態では下記式（５）に示す、ロジスティックシグモイド関数σ（ａ）を用いている。

このロジスティックシグモイド関数σ（ａ）を用いると、上述した各データの変換は、下記式（６）のように４段階で表すことができる。

一方、教師データ層４４は、ニューラルネットワーク技術における教師データ（目標とする出力データ）として、原データ３３若しくは改良データである画像データについての、例えば対象となるフレーム画像について、複数のサンプル画素における画素の値（輝度、色調）である複数（ｄ個）のパラメータである、教師データ・パラメータ１、教師データ・パラメータ２、・・・、教師データ・パラメータｄの、ｄ次元のデータｔを有している。

なお、上述の入カデータωと、教師データｔとのそれぞれのパラメータの組みを、以下ではパラメータベクトルｊという場合もある。また、入カデータωの各パラメータと、教師データｔの各パラメータとは、一部あるいは全部が重複してもよい。

学習に際しては、出力変数の目標となるデータである、原画像が有する画素値である教師データｔ（下記式（７））があらかじめ与えられる。

そして、ニューラルネットワークの各パラメータは、出力の値が教師データｔに近くなるように、以下のような「推定」を行うことで決定される。
入カデータ・パラメータベクトルωを、中間層４２に含まれる変数ベクトルｙに変換するためのｋ行ｍ列の行列を、Ｑ＝［ｑ_ｈｊ］（ｑ_ｈｊはｈ行ｊ列の要素）で表すと、ｙ＝Ｑωとなり、要素（パラメータ）で表すと下記式（８）の通りとなる。

さらに、上記式（８）に従って変換された変数ベクトルｙは、上述したロジスティックシグモイド関数σ（ａ）によって、下記式（９）のように非線形的に変換することができる。

同様に、中間層４２から得られる変数ベクトルαを、出力層４３に含まれる変数ベクトルｘに変換するためのｄ行ｋ列の行列を、Ｒ＝［ｒ_ｉｈ］（ｒ_ｉｈはｉ行ｈ列の要素）で表すと、ｘ＝Ｒαとなり、要素（パラメータ）で表すと下記式（１０）のようになる。

上述のように変換された変数ベクトルｘは、上述したロジスティックシグモイド関数σ（ａ）によって、下記式（１１）のように非線形的に変換することができる。

次に、学習の過程である、２つの変換行列Ｑ，Ｒの推定を行うプロセスについて説明する。この推定のために、本実施形態では、以下に説明する誤差逆伝搬法と呼ばれる方法を用いている。

すなわち、はじめに、原データ３３若しくは改良データとしての画像データにおけるパラメータである教師データｔと出力（教師データ・パラメータベクトル）βとの誤差を計算し、その誤差を用いて中間層４２と出力層４３との変換行列Ｒを変化させる量を求める。次に、入力層４１と中間層４２との変換行列Ｑを変化させる量を求める。

上記各変換行列Ｑ，Ｒの要素パラメータの推定にあたっては、誤差の２乗和を最小にする推定を行うが、非線形の変換が途中に含まれているため、確率的勾配降下法を用いる。これは、学習用データの１サンプルごとに誤差の２乗和を減少させるよう、誤差の勾配に比例した量だけ行列の要素パラメータを変化させる方法である。

以上の各プロセスに従って、第２生成部４ｃ２は、入力データに対する変換行列Ｑ、Ｒを生成することができる。第２生成部４ｃ２は、生成したモデルデータ３２と、入力データである低ビットレートエンコード済みデータ３１とを、入出力インタフェース４ａおよびネットワーク３を介してコンテンツ配信サーバ２へ送信することができる。

図５は、図１に示すコンテンツ配信システムの動画像コンテンツ配信サーバの一構成例を概略的に示す図である。
コンテンツ配信サーバ２は、サーバ用コンピュータなどで実現されるものであって、入出力インタフェース２ａと、制御部２ｂと、プログラム記憶部２ｆと、ユーザ管理部２ｇと、コンテンツ記録部２ｃと、コンテンツ配信部２ｄと、メモリ２ｈと、バスライン２ｉと、を備えている。

入出力インタフェース２ａは、コンテンツ配信サーバ２と外部との間で情報の入力および出力を行う。
バスライン２ｉは、コンテンツ配信サーバ２に含まれる複数の構成を、相互に通信可能となるように接続する。

ユーザ管理部２ｇは、コンテンツの配信要求を送信した視聴者端末１１が、例えば動画配信サイトの会員であるかなど、視聴者あるいは視聴者端末１１に関する情報を記録し管理する。ユーザ管理部２ｇは、例えば、視聴者あるいは視聴者端末１１に関する情報が記録されたテーブルを備えている。

コンテンツ記録部２ｃには、配信を行う動画像コンテンツが記録保管されている。なお、コンテンツ配信サーバ２が取り扱うコンテンツは動画像コンテンツに限らず、静止画コンテンツ、音声コンテンツなど他の仕様のコンテンツ、あるいはこれら各種コンテンツの組み合わせであってもよい。また、コンテンツ記録部２ｃは、例えば、それぞれのコンテンツに対して視聴者が投稿したテキストデータである「コメント」を、投稿を行った再生時間（コンテンツの先頭から計測した時間の情報）とともに記録することができる。

メモリ２ｈは、例えば、制御部２ｂによりデータの書き込みおよび読み出しが可能であるＲＡＭやＤＲＡＭなどの半導体記憶装置を含む。メモリ２ｈは、制御部２ｂが動作する際に種々のデータを一時記憶する領域として利用され得る。なお、メモリ４ｊは、コンテンツ配信サーバ２の外部に接続されるハードディスクなどの外部記憶装置を含んでいてもよい。

プログラム記憶部２ｆは、制御部２ｂのプロセッサにより実行されるプログラムを、読み出し可能に記憶している。プログラム記憶部２ｆは、例えばコンテンツ配信サーバ２の外部に接続された外部記憶装置に含まれていてもよく、コンピュータにより読み取り可能な記録媒体であってもよい。また、プログラム記憶部２ｆは、メモリ２ｈと一体に構成されても構わない。

制御部２ｂは、ＣＰＵ（セントラル・プロセッシング・ユニット）などのプロセッサを少なくとも１つ含む演算手段であって、コンテンツ配信サーバ２に含まれる複数の構成の動作を制御することができる。なお、制御部２ｂは、プログラム記憶部２ｆに記録されたプログラムを読み出して実行することにより、以下に説明する種々の機能をソフトウエアにより実現することが可能である。

制御部２ｂは、生成部（第３生成部）２ｅを備えている。
生成部２ｅは、配信者端末４から供給された、低ビットレートエンコード済みデータ３１とモデルデータ３２とを受信し、低ビットレートエンコード済みデータ３１である低ビットレート画像の各パラメータ（各画素の麺度や色調を表す画素値や、画像符号化技術における各パラメータであってもよいし、他のパラメータでもよい）を、上述の式（６）に従って変換して、出カデータベクトルｘを得ることにより、コンテンツデータ３０に相当する高画質化した画像を描画するためのパラメータ(改良をしたデータを再生するためのパラメータ)を算出することができる。生成部２ｅは、算出したパラメータを用いて高画質化した各画像フレームを生成し、高画質化(改良)した動画像のコンテンツデータ３０を生成し、コンテンツデータ３０をコンテンツ記録部２ｃに記録させる。

図６は、図１に示すコンテンツ配信システムの視聴者端末の一構成例を概略的に示す図である。
視聴者端末１１は、入出力インタフェース１１ａと、制御部１１ｂと、メモリ１１ｃと、表示部１１ｆと、操作部１１ｇと、プログラム記憶部１１ｈと、データ記録部１１ｉと、コメント投稿部１１ｋと、バスライン１１ｍと、を備えている。

入出力インタフェース１１ａは、視聴者端末１１内の構成と外部の構成との間でデータ接続を行う。
バスライン１１ｍは、視聴者端末１１に含まれる複数の構成を、相互に通信可能となるように接続する。

制御部１１ｂは、ＣＰＵ（セントラル・プロセッシング・ユニット）などのプロセッサを少なくとも１つ含む演算手段である。制御部１１ｂは、視聴者端末１１に含まれる複数の構成の動作を制御することができる。

メモリ１１ｃは、例えば、制御部１１ｂによりデータの書き込みおよび読み出しが可能であるＲＡＭやＤＲＡＭなどの半導体記憶装置を含む。メモリ１１ｃは、制御部１１ｂが動作する際に種々のデータを一時記憶する領域として利用され得る。なお、メモリ１１ｃは、視聴者端末１１の外部に接続されるハードディスクなどの外部記憶装置を含んでいてもよい。

表示部１１ｆは、受信したコンテンツの内容を表示したり、コンテンツの操作画面その他を表示したりすることができる。表示部１１ｆは、例えば、液晶表示装置や有機ＥＬ表示装置などの平面表示装置と、その駆動回路と、を備えている。

操作部１１ｇは、キーボードやマウスなど、視聴者の操作することによる視聴者端末１１に対する指令を、制御部１１ｂへ送信することができる。

プログラム記憶部１１ｈは、制御部１１ｂのプロセッサにより実行されるプログラムを、読み出し可能に記憶している。プログラム記憶部１１ｈは、例えば視聴者端末１１の外部に接続された外部記憶装置に含まれていてもよく、コンピュータにより読み取り可能な記録媒体であってもよい。また、プログラム記憶部１１ｈは、メモリ１１ｃと一体に構成されても構わない。

データ記録部１１ｉは、コンテンツ配信サーバ２から受信した低ビットレートエンコード済みデータ３１に基づくコンテンツデータ３０、および、他のコンテンツデータ等記録することができる。

コメント投稿部１１ｋは、コンテンツ配信サーバ２に対して、視聴者によるコメントを投稿するための構成である。コメント投稿部１ｋは、操作部１１ｇや図示しないマイクなどから得られた視聴者のコメント情報を、コンテンツ配信サーバ２へ送信することができる。

本実施形態のコンテンツ配信システム１によれば、限られた帯域幅のみを有するインターネット通信網など伝送路を介してコンテンツの送受を行うシステムにおいて、効率的な伝送帯域の圧縮と、原データに近い品位を有する（若しくは人の知覚的に改良されたと感じる）データ復元とを、実現可能である。

また、本実施形態のコンテンツ配信システム１では、配信者端末４にて、機械学習よる学習済みモデルに基づいて、低ビットレートエンコード済みデータ３１のデータ復元に用いられるモデルデータ３２を生成し、コンテンツ配信サーバ２にてコンテンツデータ３０を生成するため、視聴者端末１１では、低ビットレートエンコード済みデータ３１に基づくコンテンツデータ（改良データ）３０と他のコンテンツデータと区別することなく扱うことが可能である。したがって、視聴者端末１１にてコンテンツデータ３０を扱うための特別な機能を備える必要がなくなり、視聴者側の負担を軽減することが可能である。

また、本実施形態のシステムでは、配信者端末４（又はコンテンツ生成装置４０）にて機械学習を行うことにより、モデルデータ３２の精度を向上させることが可能である。複数のコンテンツを配信する配信者は、同じカテゴリに分類されるような類似したコンテンツを多く作成する可能性があるため、配信者端末４（又はコンテンツ生成装置４０）にてデータ復元のための機械学習を行うことにより、より効率よく精度の高いモデルデータ３２を生成することが可能となる。

次に、一実施形態のコンテンツ表示システムにおけるコンテンツ生成方法の一例について説明する。
図７および図８は、一実施形態のコンテンツ生成方法の一例を説明するためのフローチャートである。
なお、以下の説明において、コンテンツ生成装置４０は、機械学習用記録部４ｇに記録されたサンプルデータ等を利用して予め機械学習を行い、予め生成された学習済みモデルに基づいて、モデルデータ３２を生成した状態であるものとして説明する。
なお、例えば、特定の猫（ミケ）の画像データをアップロードしようとする際には、学習済みモデルは、特定の猫（ミケ）の画像データ（原データ又は改良データ、低ビットエンコード済みデータ）を入力データおよび教師データとして用いて生成されてもよく、特定の猫（ミケ）および他の猫の画像データ（原データ又は改良データ、低ビットエンコード済みデータ）を入力データおよび教師データとして用いて事前に学習されていてもよく、猫を含む動物全般の画像データ（原データ又は改良データ、低ビットエンコード済みデータ）を入力データおよび教師データとして用いて事前に学習されていてもよく、動物および他の画像データ（原データ又は改良データ、低ビットエンコード済みデータ）を入力データおよび教師データとして用いて事前に学習されていてもよい。

最初に、配信者端末４にて原データ３３を取得し、第１生成部４ｃ１により原データ３３を低ビットレートにエンコードした低ビットレートエンコード済みデータ３１を生成する（ステップＳ１１）。配信者端末４は、外部より原データ３３を受信してもよく、配信者端末４の種々の機能を用いて原データ３３を生成してもよい。

続いて、第２生成部４ｃ２において、低ビットレートエンコード済みデータ３１を入力データとし、原データ３３又は改良データを教師データとした機械学習により生成された学習済みモデルに基づいて、モデルデータ３２を生成する（ステップＳ１２）。
第２生成部４ｃ２は、新たに入力された低ビットレートエンコード済みデータ３１と原データ３３とを用いて、学習済みモデルを更新し、更新された学習済みモデルに基づくモデルデータ３２を生成することができる。また、第２生成部４ｃ２は、例えば機械学習用記録部４ｇに記録された過去の学習済みモデルに基づくモデルデータ３２を生成することができる。

このとき、例えば原データ３３にカテゴリ情報（配信を行うコンテンツの種類、撮影されている内容、タイトル、撮影者、ジャンル、タグ、これらの組み合わせなど）が含まれている場合には、第２生成部４ｃ２は原データ３３のカテゴリに応じたモデルデータ３２を生成することができる。
例えば、第２生成部４ｃ２は、機械学習用記録部４ｇに、原データ３３のカテゴリ毎にモデルデータ３２を記録することが可能である。第２生成部４ｃ２は、供給された原データ３３のカテゴリ情報に基づいて機械学習用記録部４ｇに記録された複数のモデルデータ３２の中から対応するものを初期値として選択し、新たな入力データおよび新たな教師データにより学習済みモデルを更新することができる。第２生成部４ｃ２は、更新した学習済みモデルに基づいて新たなモデルデータ３２を生成し、対応するカテゴリ情報と関連付けて機械学習用記録部４ｇに記録することができる。

上記のようにカテゴリ毎のモデルデータ３２を生成することにより、モデルデータ３２を用いてコンテンツデータ３０を生成する際に、より原データ３３に近づけた（若しくは人の知覚的に改良されたと感じる）コンテンツデータ３０を生成することができる。例えば「猫」に関するコンテンツであれば、「動物」というコンテンツのカテゴリがあらかじめ用意され、この動物カテゴリに属するコンテンツ（原データ３３又は改良データ）を教師データとして、そのコンテンツを低ビットレートエンコーディングしたデータ（低ビットレートエンコード済みデータ３１）を入力データとして、機械学習により推定された変換行列Ｑ，Ｒをモデルデータ３２の初期値とすることができる。

なお、第２生成部４ｃ２は、原データ３３および低ビットレートエンコード済みデータ３１が入力される度に、学習済みモデルを更新して新たなモデルデータ３２を生成する必要はなく、既に生成されている（機械学習用記録部４ｇに記録されている）学習済みモデルに基づくモデルデータ３２を用いることも可能である。例えば、学習用に十分な数のサンプルデータ（入力データおよび教師データ）を準備できる場合には、サンプルデータの教師データ、および、サンプルデータの低ビットレートエンコード済みデータを用いて、予め学習済みモデルに基づくモデルデータ３２を生成しておいても構わない。第２生成部４ｃ２は、入力された原データ３３（又は原データ３３の改良データ）とその低ビットレートエンコード済みデータ３１とをサンプルデータとして機械学習用記録部４ｇに蓄積しておき、新たな（未だ機械学習に用いられていない）サンプルデータの数が所定数を超えた場合に、学習済みモデルを更新して新たなモデルデータ３２を生成してもよい。その場合には、第２生成部４ｃ２は、原データ３３のカテゴリ等に応じて、予め生成されたモデルデータ３２を利用することができ、機械学習を行う頻度を少なくすることが可能である。

なお、コンテンツの複数のカテゴリに対応する複数のモデルデータ３２又はモデルデータ３２の初期値を用意する場合には、配信者がよく作成するコンテンツのカテゴリに対応するモデルデータ３２を用意しておけばよいため、モデルデータ３２を生成することにより配信者端末４に高い負荷がかかるものではない。

続いて、第２生成部４ｃ２は、低ビットレートエンコード済みデータ３１と、モデルデータ３２とを、入出力インタフェース４ａを介して外部へ出力する（ステップＳ１３）。
コンテンツ配信サーバ２は、低ビットレートエンコード済みデータ３１とモデルデータ３２とを、ネットワーク３を介して配信者端末４から受信する（ステップＳ２１）。

コンテンツ配信サーバ２の生成部２ｅは、例えば、低ビットレートエンコード済みデータ３１のパラメータ値を入力層とし、モデルデータ（例えば変換行列Ｑ、Ｒ）３２および活性化関数σを用いて、出力層のパラメータ値を生成する。例えば動画像コンテンツデータを生成する際には、生成部２ｅは、低ビットレートエンコード済みデータ３１の各画像フレームに関する画素値（輝度、色調など）を入力層とし、モデルデータ（例えば変換行列Ｑ、Ｒ）３２および活性化関数σを用いて、高画質化した各画像フレームの画素値（輝度、色調など）を生成する（ステップＳ２２）。

生成部２ｅは、生成した出力層のパラメータ値に基づいて、コンテンツデータ３０を生成する。例えば動画像コンテンツデータを生成する際には、生成部２ｅは、高画質化した各画像フレームを集成し、高画質化した動画像コンテンツを生成する（ステップＳ２３）。

上記コンテンツ生成方法において、例えば以下のような各項目は、各コンテンツの内容と密接に関連しており、コンテンツの特性を適例に分類することが可能である。配信者端末４において、これらの項目に従ってモデルデータを自動的に分類して準備し、コンテンツの低ビットレートエンコード済みデータ３１とともにモデルデータ３２を配信することも有効である。

そのために、先に説明をした、配信者端末４の第２生成部４ｃ２は、入力された原データ３３に最適なモデルデータ３２又はモデルデータ３２の初期値を、コンテンツの特性（カテゴリ）に対応して予め用意された複数のモデルデータ３２の中から選択するための構成を有するようにしてもよい。選択を行う動作は、例えば以下のような項目が、配信するコンテンツに含まれている場合に、これら項目から自動的に、高画質化処理（改良処理）に適したモデルデータが選択されるにようにしてもよい。
・コンテンツを視聴した視聴者から投稿されたコメント情報
・コンテンツを説明する説明文情報
・コンテンツの作者に関する情報
・コンテンツの名称あるいはシリーズ名称の情報
・コンテンツを配信する配信者に関する情報

このように、コンテンツの内容に密接に関連した項目として、ほかに「タグ」情報があげられる。ここで、「タグ」とは、各コンテンツに付された、コンテンツ内容を指し示す検索用キーワードであり、一つのコンテンツに対して所定数（例えば１０個）まで登録することができる。タグにより、例えば視聴者が所望する動画や、ある動画と似たような動画を容易に探せるような仕組みになっている。

タグは、コンテンツをコンテンツ配信サーバ２に投稿する動画投稿者だけではなく、これらコンテンツの視聴者（閲覧者ともいう）も自由に登録することができる。本来は検索機能として用いられるタグだが、コンテンツの内容に絡めたタグ付けや配信サイト特有のタグ付けも多く見られる。利用の実態としては、検索のための分類というより、そのコンテンツの動画の見所を視聴者に教える役割を果たすこともあり、タグを用いて視聴者同士のコミュニケーションに使われることもある。同じ素材（例えば「歌ってみた」「アイドルマスター」などの人気ジャンルに属する無数のサブジャンル）を扱った動画コンテンツや、同じ投稿者による動画コンテンツに対して閲覧者の間で自発的にタグが発明され、より深い検索のニーズに応えている側面もある。

本出願人は、動画像配信サイト「ニコニニ動画」https://WWW.nicovideo.jp/video_top?ref=nicotop_videを運営している。
この「ニコニコ動画」サイトで実際に用いられているタグとして、以下の例がある。
タグの上位分類である「カテゴリ」（「カテゴリタグ」ともいう）の分類において、「エンタメ・音楽」には、「VOICEROID劇場」、」、「オリジナル曲」、「バーチャルYouTuber」、「アイドル部」、「にじさんじ」、「アニソンfull」、「作業用ＢＧＭ」、「FateＭＭＤ」、「ＭＭＤ刀剣乱舞」、「ニコスロ」、「ＳＣＰ解説」、「パチスロ」、「ＳＣＰ」、「ボカロカラオケＤＢ」、「ゆっくり解説」、「声優ライブ」、「Ｒ．Ａ．Ｂ」、「パチンコ」、「アニメ色のない作業用ＢＧＭ」、「歌うボイスロイド」、「VOCALOID」、「伝説入り」、「コスプレで踊ってみた」、「ニコパチ」、「VOCALOID 殿堂入り」、「うちいくＴＶ」、「マイクラ肝試し」、「ゆっくり怪談」、「ハロプロ」、「洋楽名曲集」、「小説家になろう」、「探してたあの曲」、「洋楽」が例えば用いられている。

同様に、「生活一般・スポーツ」というカテゴリでは、「日米野球」、「ノリッチ」、「RTA（リアル登山アタック）」、「ゆっくり解説」、「VOICELOID 車載」、「ＷＷＥ」、「コツメカワウソ」、「フィギュアスケート」、「世界の交通事情」、「バイク」、「ドライブレコーダー」、「異種仲良し動画リンク」、「しくじり企業」、「ゆっくり雑談」、「VOICELOID 解説」、「プロ野球」、「殺人毛玉」、「失われた野生」、「ボイ酒ロイド」、「ハイボールの人」、「世界の奇人・変人・偉人紹介」、「ゆっくり解説動画」、球界ＯＢの現役時代のプレー集」、「柴犬」、「バーベキュー」、「戦闘民族」、「Ｆ１」、「ニコニコ海外旅行」、「ぬこぬこ動画」、「野生解放」、「野外料理」、「ラーメン」、「軍事」、「ホームラン集」、「ロードレース」、「懐かＣＭ」、「犬」、「アザラシ」、「トースト」、「ゆっくり車載」、「野球」、「横浜ＤｅＮＡベイスターズ」、「猫」、「絶叫するビーバー」、「犬と猫」などが例えば用いられている。

同じく、「科学技術」というカテゴリでは、「粉瘤」、「航空事故」、「銃」、「ドキュメンタリー」、「リボルバー」、「軍事」、「宇宙ヤバイ」、「ろくろを回すシリーズ」、「水素の音」、「拳銃」、「フィギュア」、「珍兵器」、「迷飛行機で行こうシリーズ」、「迷列車派生シリーズ」、「ナポリの男たち」、「プラモデル」、「日本刀」、「宇宙」、「衝撃映像」、「軍事訓練ＮＧ集」、「円周率」、「レトロＰＣ」、「ミニ四駆」、「ニコニコ兵器開発局」、「ＪＡＸＡ」、「スバル」、「ニコニコ空想科学部」、「大きさ比較シリーズ」、「ブラックホール」、「車両接近通報装置シリーズ」、「Ｆ−２２」、「世界の交通事情」、「羽ばたき機」、「理系ホイホイ」、「数学」などが例えば用いられる。

この結果、次のような格別な効果がある。
まず、タグは投稿者あるいはコンテンツの視聴者が付与するので、コンテンツ配信システム１の操作者や管理者が付与を行う工数がいらず、またコンテンツの中身を熟知している投稿者や視聴者が付与するので、付与が正確である。

また、上記のようにタグは、単なるカテゴリとは異なり細分化されているうえに、既存のタグを知った投稿者や視聴者が同じタグを付与することから、同じタグに属する動画像コンテンツは極めて近い内容であることが期待できるので、機械学習における学習過程が精度よく実行できる。

上記のように、本実施形態のコンテンツ生成方法によれば、限られた帯域幅のみを有するインターネット通信網など伝送路を介してコンテンツの送受を行うシステムにおいて、効率的な伝送帯域の圧縮と、原データに近い品位を有する（若しくは人の知覚的に改良されたと感じる）データ復元とを、実現可能である。

また、本実施形態のコンテンツ生成方法では、配信者端末４にて機械学習を行うことにより、モデルデータ３２の精度を向上させることが可能である。複数のコンテンツを配信する配信者は、同じカテゴリに分類されるような類似したコンテンツを多く作成する可能性があるため、配信者端末４にてデータ復元のための機械学習を行うことにより、より効率よく精度の高いモデルデータ３２を生成することが可能となる。

上記のように、本実施形態によれば、コンテンツを配信元から配信先まで送信する経路に介在する構成に対する負荷を軽減するとともに、コンテンツの品位の低下を抑制するコンテンツ生成装置、コンテンツ配信システム、コンテンツ生成方法、および、コンテンツ生成プログラムを提供することができる。

次に、第２実施形態のコンテンツ生成装置、コンテンツ配信システム、コンテンツ生成方法、および、コンテンツ生成プログラムについて説明する。
本実施形態のコンテンツ生成装置、コンテンツ配信システム、コンテンツ生成方法、および、コンテンツ生成プログラムは、以下の点以外の構成は先に説明をした第１実施形態と同様である。

すなわち、本実施形態のコンテンツ生成装置４０にてモデルデータ３２を生成するとき、原データ３３が画像データである場合に、機械学習に用いるデータとして、先に説明をした低ビットレートエンコード済み画像フレーム、および原画像の画素の値（輝度、色調）とは別に、あるいはそれに加えて、次のような、画像符号化技術における項目の少なくともいずれかであって、次のような、高画質化をしたい低ビットレートエンコード済み動画像コンテンツのメタ情報が含まれているようにしてもよい。
・符号化ブロック量子化パラメータ
・予測誤差係数
・予測モード情報
・動きベクトル情報
なお、低ビットレートエンコード済みデータ３１の上記項目は、第１生成部４ｃ１にて原データ３３から低ビットレートエンコード済みデータ３１を生成する際に、低ビットレートエンコード済みデータ３１に含めることが可能である。

上記項目の少なくともいずれかであるメタ情報を機械学習にて利用することにより、機械学習における推定の精度がより向上することが期待できる。すなわち、本実施形態によれば、上述の第１実施形態と同様に、コンテンツを配信元から配信先まで送信する経路に介在する構成に対する負荷を軽減するとともに、コンテンツの品位の低下を抑制するコンテンツ生成装置、コンテンツ配信システム、コンテンツ生成方法、および、コンテンツ生成プログラムを提供することができる。

なお、上述の複数の実施形態において、動画像コンテンツを配信する場合について主に説明したが、動画像コンテンツに限るごとなく、静止画、音声データなど様々なデータ種別について本発明を実施することができる。

例えば、送信装置である配信者端末４が、原データを低ビットレートヘエンコードした低ビットレートエンコード済みデータから、より原データに近づけた（若しくは人の知覚的に改良されたと感じる）改良データを生成するためのモデルデータを、機械学習により生成する学習部４ｃと、低ビットレートエンコード済みデータと、モデルデータとを当該装置の外部へ送信する送信部（入出力インタフェース）４ａと、を備え、受信装置であるコンテンツ配信サーバ２が、受信した低ビットレートエンコード済みデータおよびモデルデータから、当該低ビットレートエンコードデータの改良データであるコンテンツデータ３０を生成する生成部２ｅを有することを特徴とする、送受信システムであってもよい。

また、先に説明をしたコンテンツ配信システム１の各実施形態に含まれる各構成を、動画像コンテンツ対象に代えて、他のデータ形式あるいは汎用のデータ形式に適応するようにした構成を含むようにしてもよい。

これら各種データの送信に際しては、伝送路への負荷を削減することが要求され、また受信端末における再生に際しては、再生品質が高いことが求められている点は、動画像を配信する場合における課題と同様であって、本発明を実施することにより得られる効果も、先に各実施例で説明をした効果と同様である。

なお、本発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。また、各実施形態は適宜組み合わせて実施してもよく、その場合組み合わせた効果が得られる。更に、上記実施形態には種々の発明が含まれており、開示される複数の構成要件から選択された組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件からいくつかの構成要件が削除されても、課題が解決でき、効果が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。

１…コンテンツ配信システム、２…コンテンツ配信サーバ、２ａ…入出力インタフェース、２ｂ…制御部、２ｃ…コンテンツ記録部、２ｄ…コンテンツ配信部、２ｅ…生成部（第３生成部）、２ｆ…プログラム記憶部、２ｇ…ユーザ管理部、３…ネットワーク、４…配信者端末、４ａ…入出力インタフェース（送信部）、４ｂ…制御部、４ｃ…学習部、４ｃ１…第１生成部、４ｃ２…第２生成部、４ｆ…プログラム記憶部、４ｇ…機械学習用記録部、１１…視聴者端末、３０…コンテンツデータ（改良データ）、３１…低ビットレートエンコード済みデータ、３２…モデルデータ、３３…原データ、４０…コンテンツ生成装置、４１…入力層、４２…中間層、４３…出力層、４４…教師データ層。

本発明の第１態様による配信者端末は、原データを低ビットレートへエンコードした低ビットレートエンコード済みデータを生成する第１生成部と、機械学習による学習済みモデルに基づいて、前記低ビットレートエンコード済みデータを人の知覚的に改良したデータであって、視聴者端末へ配信される改良データを生成するための機械学習済みモデルデータを生成可能である第２生成部と、前記低ビットレートエンコード済みデータと、前記モデルデータとを、ネットワークを介してコンテンツ配信サーバへ送信する第１送信部と、を備える。

本発明の第２態様による配信者端末は、第１態様によるコンテンツ生成装置において、前記モデルデータを記憶する記録部を更に備え、前記第２生成部は、生成した前記モデルデータを前記記録部に記録し、前記低ビットレートエンコード済みデータを受信したときに、前記記録部から前記モデルデータを取得し、前記低ビットレートエンコード済みデータと前記モデルデータとを前記第１送信部へ送信することができる。
本発明の第３態様による配信者端末は、第１又は第２態様によるコンテンツ生成装置において、前記原データは画像データであって、前記低ビットレートエンコード済みデータはメタ情報を含むものである。

本発明の第４態様による配信者端末は、第３態様によるコンテンツ生成装置において、前記低ビットレートエンコード済みデータの前記メタ情報が、画像符号化技術における符号化ブロック量子化パラメータ（ＱＰ）、予測誤差係数、予測モード情報、動きベクトル情報のうちの少なくともいずれかであるものである。

本発明の第５態様による配信者端末は、第２態様によるコンテンツ生成装置において、前記原データは、コンテンツを特性により分類するためのカテゴリ情報を含み、前記記録部は、前記カテゴリ情報に基づいて分類された前記モデルデータ若しくは前記モデルデータの初期値を記録している。

本発明の第６態様によるコンテンツ配信システムは、第１乃至第５態様のいずれかの配信者端末と、ネットワークを介して前記コンテンツ生成装置から送信された前記低ビットレートエンコード済みデータと、前記モデルデータとを受信する受信部と、受信した前記低ビットレートエンコード済みデータおよび前記モデルデータから、当該低ビットレートエンコード済みデータ基づく前記改良データを生成する第３生成部と、前記改良データを配信する配信部と、を備えるコンテンツ配信サーバと、を備える。

本発明の第７態様によるコンテンツ生成方法は、原データを低ビットレートへエンコードした低ビットレートエンコード済みデータを生成する第１生成ステップと、機械学習による学習済みモデルに基づいて、前記低ビットレートエンコード済みデータを人の知覚的に改良した視聴者端末向けの改良データを生成するための機械学習済みモデルデータを生成可能な第２生成ステップと、前記低ビットレートエンコード済みデータと、前記モデルデータとをコンテンツ配信サーバへ送信する第１送信ステップと、を備える。

本発明の第１態様による配信者端末は、コンテンツデータの配信元となる配信者端末であって、原データを低ビットレートへエンコードした低ビットレートエンコード済みデータを生成する第１生成部と、機械学習による学習済みモデルに基づいて、前記低ビットレートエンコード済みデータを人の知覚的に改良したデータであって、視聴者端末へ配信される改良データを生成するための機械学習済みモデルデータを生成可能である第２生成部と、コンテンツ配信サーバを介在して、前記コンテンツデータの配信先である前記視聴者端末へ、前記改良データを前記コンテンツデータとして配信するために、前記低ビットレートエンコード済みデータと、前記モデルデータとを、ネットワークを介して前記コンテンツ配信サーバへ送信する第１送信部と、を備える。

本発明の第２態様による配信者端末は、第１態様によるコンテンツ生成装置において、前記モデルデータを記憶する記録部を更に備え、前記第２生成部は、生成した前記モデルデータを前記記録部に記録し、前記低ビットレートエンコード済みデータを受信したときに、前記記録部から前記モデルデータを取得し、前記低ビットレートエンコード済みデータと前記モデルデータとを前記第１送信部へ送信することができる。
本発明の第３態様による配信者端末は、第１又は第２態様によるコンテンツ生成装置において、前記原データは画像データであって、前記低ビットレートエンコード済みデータはメタ情報を含み、前記メタ情報は前記機械学習に用いるデータに含まれる。

本発明の第５態様による配信者端末は、前記原データは、コンテンツを特性により分類するためのカテゴリ情報を含み、前記カテゴリ情報は、前記コンテンツのタグを少なくとも含み、前記記録部は、前記カテゴリ情報に基づいて分類された前記モデルデータ、若しくは、前記モデルデータの初期値を記録している。

本発明の第７態様によるコンテンツ生成方法は、原データを低ビットレートへエンコードした低ビットレートエンコード済みデータを生成する第１生成ステップと、機械学習による学習済みモデルに基づいて、前記低ビットレートエンコード済みデータを人の知覚的に改良した視聴者端末向けの改良データを生成するための機械学習済みモデルデータを生成可能な第２生成ステップと、コンテンツデータの配信元となる配信者端末から、コンテンツ配信サーバを介在して、前記コンテンツデータの配信先である前記視聴者端末へ、前記改良データを前記コンテンツデータとして配信するために、前記低ビットレートエンコード済みデータと、前記モデルデータとを前記コンテンツ配信サーバへ送信する第１送信ステップと、を備える。

Claims

原データを低ビットレートへエンコードした低ビットレートエンコード済みデータを生成する第１生成部と、
機械学習による学習済みモデルに基づいて、前記低ビットレートエンコード済みデータを人の知覚的に改良した改良データを生成するための機械学習済みモデルデータを生成可能である第２生成部と、
前記低ビットレートエンコード済みデータと、前記モデルデータと、を外部へ送信する第１送信部と、を備えた、コンテンツ生成装置。
過去に生成された前記モデルデータを記憶する記録部を更に備え、
前記第２生成部は、過去に生成された前記モデルデータを前記低ビットレートエンコード済みデータとともに、前記第１送信部から外部へ送信させることができる、請求項１記載のコンテンツ生成装置。
前記原データは画像データであって、前記低ビットレートエンコード済みデータはメタ情報を含む、請求項１又は請求項２に記載のコンテンツ生成装置。
前記低ビットレートエンコード済みデータの前記メタ情報が、画像符号化技術における符号化ブロック量子化パラメータ（ＱＰ）、予測誤差係数、予測モード情報、動きベクトル情報のうちの少なくともいずれかである、請求項３に記載のコンテンツ生成装置。
前記原データは、コンテンツを特性により分類するためのカテゴリ情報を含み、
前記記録部は、前記カテゴリ情報に基づいて分類された前記モデルデータ、若しくは、前記モデルデータの初期値を記録している、請求項２記載のコンテンツ生成装置。
請求項１乃至請求項５のいずれか１項に記載のコンテンツ生成装置と、
前記コンテンツ生成装置から送信された前記低ビットレートエンコード済みデータと、前記モデルデータとを受信する受信部と、受信した前記低ビットレートエンコード済みデータおよび前記モデルデータから、当該低ビットレートエンコード済みデータ基づく前記改良データを生成する第３生成部と、前記改良データを配信する配信部と、を備えるコンテンツ配信装置と、
を備えたコンテンツ配信システム。
原データを低ビットレートへエンコードした低ビットレートエンコード済みデータを生成する第１生成ステップと、
機械学習による学習済みモデルに基づいて、前記低ビットレートエンコード済みデータを人の知覚的に改良した改良データを生成するための機械学習済みモデルデータを生成可能な第２生成ステップと、
前記低ビットレートエンコード済みデータと、前記モデルデータとを外部へ送信する第１送信ステップと、を備えた、コンテンツ生成方法。
前記低ビットレートエンコード済みデータと、前記モデルデータとを受信する受信ステップと、
受信した前記低ビットレートエンコード済みデータおよび前記モデルデータから、当該低ビットレートエンコード済みデータに基づく前記改良データを生成する第３生成ステップと、
を更に備えた、請求項７記載のコンテンツ生成方法。
請求項７又は請求項８に記載されたコンテンツ生成方法をコンピュータに実行させる、コンテンツ生成プログラム。