CN113491134A

CN113491134A - 图像收发系统、数据收发系统、收发方法、计算机程序、图像发送系统、图像接收装置、发送系统、接收装置

Info

Publication number: CN113491134A
Application number: CN201980077647.5A
Authority: CN
Inventors: 小岛尚; 草野一彦; 加藤肇
Original assignee: Dwango Co Ltd
Current assignee: Dwango Co Ltd
Priority date: 2018-12-28
Filing date: 2019-09-25
Publication date: 2021-10-08
Also published as: WO2020137050A1; JP2020109897A; JP6900359B2; US20220070527A1; US11800185B2

Abstract

由服务器(2‑2)向观众终端(11)发布视频内容的系统(1)提供了既可减小发布数据量、降低传输路径负荷，又可提升所观看视频品质的结构。视频内容传输服务器(2‑2)向观众终端(11)发布由经低比特率编码图像组成的内容数据(31)，以及用于根据经低比特率编码图像获得接近原图像(30)的图像的模型数据(32)即神经网络的变换矩阵的数据，观众终端(11)可使用上述数据获得经改良的视频内容(33)。

Description

图像收发系统、数据收发系统、收发方法、计算机程序、图像发送系统、图像接收装置、发送系统、接收装置

技术领域

本发明披露涉及图像收发系统、数据收发系统、收发方法、计算机程序、图像发送系统、图像接收装置、发送系统、接收装置，特别是适用于发布服务器向观众所用客户端发布视频内容的视频发布系统的结构。

背景技术

使用了图像发布系统，在该系统中，发布用服务器向观众所用客户端发送视频或静态图像，以及按需合成声音的图像内容(又称“图像节目”“节目”“内容”，以下也会使用此类说法)，观众观看显示于客户端显示画面上的图像内容。

例如，以下专利文献1的图1、0012段至0016段以及0032段至0035段等披露了以下系统结构：多个终端装置400通过网络500连接至发布视频数据的流服务器300，可根据用户的选择操作从多个视频数据中选择所期视频数据并接收发布。

现有技术文献

专利文献

专利文献1：日本国特许第5956761号公报

专利文献2：日本国特开2017—123649号公报

专利文献3：日本国特开2017—49686号公报

专利文献4：日本国特开2017—158067号公报

专利文献5：日本国特开2015—201819号公报

发明内容

发明致力于解决的课题

特别是视频内容应发送的数据量较大，发布源即内容发布用服务器通过广域网(含因特网通信网络)等通信路径，向接收端即观众所用终端发布视频内容时，通信路径负荷增大；如接收终端数继续增多，或发布集中于一定时间段，则容易导致数据密集，发布中断。

对此，上述专利文献2披露的视频编码系统，如0024段至0025段等记载，在通过只具备有限带宽的因特网通信网络收发视频流观看视频的系统中，需要使用可为压缩视频数据而在实质上降低数字视频信号数据比的高效数字视频编码。而专利文献2所披露系统具备的编码器，首先将视频流拆分为多个场景，并确定每个场景所属的场景类型，如“高速运动”“静止”“说话的人物头像”“文字”“片头或片尾字幕”“几乎全黑图像”“图像长度少于5帧的短场景”等，再运用事先为各场景类型定义的视频编码参数(图像编码参数)输出经编码的视频流。

为提升压缩视频内容带宽的效率，还可选择降低发送视频内容数据的发送速率(比特率)，即以较少数据量发送的方法。但是，该方法会使视频内容数据中所含数据量减少，导致图像品质下降，即容易缺失细节信息或显示包含块噪声或蚊式噪声的图像，从而引发观众(用户)不满。

另一方面，为改变此类缺失细节的图像数据，提升分辨率，生成接近原图像的图像，还提出了利用机器学习技术(包括深度学习)等多项提案，尽管机器学习的框架最初的设计意图并非应用于视频内容发布系统。

例如，上述专利文献3披露了将低画质图像复原为高画质图像的技术(称为“超解像技术”)，首先将整个过程分为学习过程和复原过程，前者是制作复原所用辞典数据库的过程，后者是利用该辞典数据库将低画质图像复原为高画质图像的过程(0043段)。过程中使用了学习型超解像技术。在学习过程，成对制作源于同一学习图像中同一局部区域的微尺寸高像素图像，以及降低该高像素图像画质的低质图像；在复原过程，从即将复原的低画质图像裁剪补丁图像，在经学习后存入辞典数据库的微尺寸低质图像中确定与该补丁图像类似的低质图像，再合成与该低质图像对应的微尺寸高像素图像，从而将图像复原为高画质。

另外，在同样利用深度学习复原高像素图像的上述专利文献4中还披露，当可能出现多种拍摄对象物体时，为提供监控准确性更高的监控系统(0004段)，如0015段、0029段至0041段记载，采用了利用对应对象物体种类的辞典数据64执行超解像处理的结构；辞典数据64中包括为获取经超解像处理图像而执行卷积运算时所需的系数，是通过深度学习等手法学习多个正确数据即高像素数据与低像素数据的组合后生成的产物。因此，后段图像处理部54会利用通过该学习生成的辞典数据64，对实际得到的图像执行卷积运算，获取高像素图像(放大图像)。

另外，在同样利用深度学习复原高像素图像的上述专利文献5中披露了，针对模拟记录媒体(录像带、胶片等)所记录低质视频的画质提升系统。

然而，上述各专利文献披露的结构，并未针对如前所述用于在发布源向接收端发布视频内容等大量图像数据时降低通信路径等负荷且发布图像品质适当的视频内容的结构，进行任何披露或暗示。

本发明的目的是，解决上述各类传统技术至今未能解决的课题，即在通过只具备有限带宽的因特网通信网络收发视频流观看视频的系统中，提供图像收发系统、数据收发系统、收发方法、计算机程序、图像发送系统、图像接收装置、发送系统、接收装置，可高效压缩传输带宽，复原图像具备接近原图像分辨率并高效减轻操作者负担。

解决课题的方法

本发明为解决上述课题，提供图像收发系统、数据收发系统、收发方法、计算机程序、图像发送系统、图像接收装置、发送系统、接收装置，具体如以下各项所示。

1)图像收发系统，其特征在于：

其单个或多个发送装置至少任一个具备通过机器学习生成模型数据的机器学习部，该模型数据用于根据将原图像编码为低比特率的经低比特率编码图像生成更接近原图像的改良图像；

其单个或多个发送装置至少任一个具备向该发送装置外部发送经低比特率编码图像和模型数据的发送部；

其接收装置具备根据接到的经低比特率编码图像及模型数据，生成该经低比特率编码图像的改良图像的改良图像生成部。

2)如1)所述的图像收发系统，其特征在于，机器学习所用数据还包括经低比特率编码图像的元信息。

3)如2)所述的图像收发系统，其特征在于，经低比特率编码图像的元信息是图像编码技术中编码块量化参数(QP)、预测误差系数、预测模式信息和运动矢量中至少任一种信息。

4)如1)至3)中任一项所述的图像收发系统，其特征在于，其单个或多个发送装置至少任一个还具备基于发送部发送的任一经低比特率编码图像的有关信息，从多个数据中选择与经低比特率编码图像同时发送的模型数据的模型数据选择部。

5)数据收发系统，其特征在于：

其单个或多个发送装置至少任一个具备通过机器学习生成模型数据的机器学习部，该模型数据用于根据将原数据编码为低比特率的经低比特率编码数据生成更接近原数据的改良数据；

其单个或多个发送装置至少任一个具备向该发送装置外部发送经低比特率编码数据和模型数据的发送部；

其接收装置具备根据接到的经低比特率编码数据及模型数据，生成该经低比特率编码数据的改良数据的改良数据生成部。

6)图像的收发方法，其特征在于，具备以下步骤：

单个或多个发送装置至少任一个具备的机器学习部通过机器学习生成模型数据的步骤，该模型数据用于根据将原图像编码为低比特率的经低比特率编码图像生成更接近原图像的改良图像；

单个或多个发送装置至少任一个具备的发送部向该发送装置外部发送经低比特率编码图像和模型数据的步骤；

接收装置的改良图像生成部根据接到的经低比特率编码图像及模型数据，生成该经低比特率编码图像的改良图像的步骤。

7)如6)所述的收发方法，其特征在于，机器学习所用数据还包括经低比特率编码图像的元信息。

8)如7)所述的收发方法，其特征在于，经低比特率编码图像的元信息是图像编码技术中编码块量化参数(QP)、预测误差系数、预测模式信息和运动矢量中至少任一种信息。

9)如6)至8)中任一项所述的收发方法，其特征在于，单个或多个发送装置至少任一个还具备基于发送部发送的所述经低比特率编码图像的有关信息，从多个数据中选择与所述经低比特率编码图像同时发送的所述模型数据的模型数据选择部。

10)收发方法，其特征在于，具备以下步骤：

单个或多个发送装置至少任一个具备的机器学习部通过机器学习生成模型数据的步骤，该模型数据用于根据将原数据编码为低比特率的低比特率编码数据生成更接近原数据的改良数据；

单个或多个发送装置至少任一个具备的发送部向该发送装置外部发送经低比特率编码数据和模型数据的步骤；

接收装置的改良数据生成部根据接到的经低比特率编码数据及模型数据，生成该经低比特率编码数据的改良数据的步骤。

11)计算机程序，其特征在于，用于执行6)至10)中任一项所述收发方法。

12)图像发送系统，其特征在于：

其单个或多个发送装置至少任一个具备向该图像发送系统外部发送经低比特率编码图像和模型数据的发送部。

13)如12)所述的图像发送系统，其特征在于，机器学习所用数据是经低比特率编码图像的元信息。

14)如13)所述的图像发送系统，其特征在于，经低比特率编码图像的元信息是图像编码技术的编码块量化参数(QP)、预测误差系数、预测模式信息和运动矢量中至少任一种信息。

15)此外，如12)至14)中任一项所述的图像发送系统，其特征在于，还具备基于发送部发送的经低比特率编码图像的有关信息，从多个数据中选择与经低比特率编码图像同时发送的模型数据的模型数据选择部。

16)发送系统，其特征在于：

其单个或多个发送装置至少任一个具备向该发送装置外部发送经低比特率编码数据和模型数据的发送部。

17)图像接收装置，其特征在于，具备接收部和改良图像生成部，所述接收部从图像发送系统接收用于根据将原图像编码为低比特率的经低比特率编码图像生成更接近原图像的改良图像且通过机器学习生成的模型数据和经低比特率编码图像；所述改良图像生成部根据接到的经低比特率编码图像及模型数据，生成该经低比特率编码图像的改良图像。

18)如17)所述的图像接收装置，其特征在于，机器学习所用数据是经低比特率编码图像的元信息。

19)如18)所述的图像接收装置，其特征在于，经低比特率编码图像的元信息是图像编码技术的编码块量化参数(QP)、预测误差系数、预测模式信息和运动矢量中至少任一种信息。

20)如17)所述的图像接收装置，其特征在于，接收部接收的模型数据是基于与之同时接收的经低比特率编码图像的有关信息，从多个数据中选择出来的结果。

21)接收装置，其特征在于，具备接收部和改良图像生成部，所述接收部从发送系统接收用于根据将原数据编码为低比特率的经低比特率编码数据生成更接近原数据的改良数据且通过机器学习生成的模型数据和经低比特率编码数据；所述改良图像生成部根据接到的所述经低比特率编码数据及模型数据，生成该经低比特率编码数据的改良数据。

发明效果

由具备上述结构可知，本发明可在通过只具备有限带宽的因特网通信网络收发视频流观看视频内容的系统中，提供图像收发系统、数据收发系统、收发方法、计算机程序、图像发送系统、图像接收装置、发送系统、接收装置，可高效压缩传输带宽、复原图像具备接近原图像分辨率并高效减轻操作者负担。

附图说明

图1是本发明各实施例通用的画质提升处理的示意图。

图2是本发明涉及的视频内容发布系统的整体结构图。

图3是表示本发明第1实施例的发布信号流的示意图。

图4是表示本发明第1实施例所用神经网络的示意图。

图5是表示本发明各实施例通用的模型数据制作服务器及视频内容发布服务器的结构示例图。

图6是表示本发明各实施例通用的第1观众终端的结构示例图。

图7是本发明各实施例通用的第1观众终端的外观模式图。

图8是本发明各实施例通用的视频发布网站的画面迁移模式图。

图9是本发明第1实施例的画质提升处理的时序图。

图10是本发明第1实施例中第1观众终端执行的图像画质提升处理流程图。

符号说明

1…视频内容发布系统、2-1…模型数据制作服务器、2-2…视频内容发布服务器、11…第1观众终端、30…原图像、31…经低比特率编码图像、32…经机器学习模型数据、33…画质提升图像

具体实施方式

【本发明各实施例通用的结构】

图1是本发明各实施例通用的画质提升处理的示意图。

在本发明各实施例中，对视频内容发布服务器2-2发布的内容(节目)，特别是视频内容所含各图像，为降低如图1(A)所示原图像(以猫的图像为例)的传输容量，生成如图1(B)所示经低比特率编码图像(同样以猫的经低像素编码图像为例)，向观众终端11、12、13发布各低比特率图像组成的传输用视频内容。

观众所用各终端11、12、13接到发布后，根据将在以下各实施例中说明的各结构和方法，生成如图1(C)所示在视觉上接近原图像的(又称“画质提升”等)图像(同样以猫的画质提升图像为例)，合成各画质提升图像，生成画质提升视频内容，供观众观看。

图2是本发明涉及的视频内容发布系统的整体结构图。

本发明各实施例通用的结构如图2所示，视频内容发布系统1具备由服务器用计算机等搭建的模型数据制作服务器2-1和同样用服务器用计算机等搭建的视频内容发布服务器2-2，以及通过以因特网通信网络等为例的传输路径3连接该服务器2-1与2-2间信号并由个人计算机、智能手机或移动信息终端等搭建的第1观众终端11、第2观众终端12及第3观众终端13等。实际观众终端数量不限于上述示例。另外，以下各说明中均以第1观众终端11为观众终端代表进行说明，但其他观众终端的结构或动作均相同。

此处就本发明将执行的“画质提升”或视觉上更接近原图像的图像生成过程进行定性说明。传统技术中采用的是仅单纯增加像素或去除模拟噪声结构；而本发明实施结构的特征在于将低比特率视频转换为人类感觉似乎结合了高比特率视频后的图像。另外，本发明的“画质提升”不仅是静态图像在空间方向的画质提升处理，还可包括视频在时间方向的画质提升处理。

【第1实施例的概要】

接下来，引用图1至图10的各图就本发明涉及的第1实施例，即视频内容发布系统1进行说明。另，包括本实施例在内，本申请说明书中记载的各实施例只是本发明实施的一个示例，还可进行各种变形，与其他技术组合后实施，这些也包括在本发明中。

图3是表示本发明第1实施例的发布信号流的示意图。

本实施例的系统1在前文所述图2的结构基础上，如图3所示，模型数据制作服务器2-1利用与第1观众终端11希望发布(发送)的视频内容对应的机器学习用输入数据即低比特率图像，以及其降低比特率前的原图像，存储经机器学习模型数据即后文所述的变换矩阵Q,R。

图9是本发明第1实施例的画质提升处理的时序图。

视频内容发布服务器2-2从第1观众终端11收到用户所期视频内容的发布请求后(图9步骤S1)，首先对被请求发布的原视频内容中各原图像(含原图像30)执行编码为低比特率的编码处理，合成该处理生成的各低比特率编码图像31，生成低比特率视频内容。视频内容发布服务器2-2还可在收到内容的发布请求前，制作该内容有关的经低比特率编码内容。

接下来，视频内容发布服务器2-2请求模型数据制作服务器2-1发布如神经网络技术的变换矩阵Q,R等适用于通过机器学习对被请求发布的视频内容执行画质提升的机器学习模型数据(图9步骤S2)，再通过传输路径3，将应请求获得的经机器学习模型数据即变换矩阵Q,R32，以及将被请求发布的视频内容编码为低比特率的视频内容31，发送至第1观众终端11(图9步骤S3、S4)。

第1观众终端11收到发布后，对各经低比特率编码图像31通过后文所述操作及方法，利用经机器学习模型数据32，生成视觉上更接近原图像的图像33，合成各画质提升图像，生成分辨率得到提升的视频内容，供观众观看。

【获取经机器学习模型数据】

本实施例所用手法应用了机器学习中的神经网络，在从多维输入获得多维输出时，使用训练数据获得最佳模型。

另，上述对利用了神经网络的机器学习只是一个示例，还可以应用机器学习的其他手法执行画质提升处理，而这些结构也包括在本发明中。

图4是表示本发明第1实施例所用神经网络的示意图。

本发明第1实施例中为提升画质而应用的机器学习利用了神经网络，如其示意图即图4所示，神经网络技术的输入数据是经低比特率编码图像(如即将学习的各帧图像)中多个样本像素的像素值(亮度、色调)即多个(m个)参数，即输入数据参数1、输入数据参数2……输入数据参数m，均有具体数值；而神经网络技术的训练数据(输出数据)是原图像(如即将学习的各帧图像)中多个样本像素的像素值(亮度、色调)即多个(d个)参数，即训练数据参数1、训练数据参数2……训练数据参数d，同样，均有具体数值。

该输入数据、训练数据(输出数据)各参数组合，以下可能会称为“参数矢量”。另外，输入数据的各参数与输出数据(训练数据)的各参数可部分或全部重复。

前文所述低比特率图像相关输入数据参数矢量w(式(1))组成输入层(m维)，同样，前文所述与原图像相关训练数据参数矢量β同为d维的输出数据参数矢量x(式(2))组成输出层(d维)43。

[数1]

[数2]

k元矢量y(式(3)；又称“中间数据”)组成输入层41和输出层43之间的间层(k维)42。

[数3]

输入层41的数据通过变换矩阵Q的线性变换，成为中间层42，该中间层42的数据通过另一个变换矩阵R的线性变换，被输出为输出层43的数据。各层内部的数据各自独立，不存在连接关系。

如前所述，输入数据参数矢量w并非直接变换为输出数据参数矢量x，而是如式(4)所示经过两个阶段的变换。

[数4]

y＝Qw、x＝Ry …(4)

在式(4)中，Q及R是表示前文所述线性变换的矩阵。在分别执行线性变换Q,R后，根据非线性函数对各变数执行变换。该函数被称为“激活函数”，因此，本实施例中使用logistic sigmoid函数σ(a)，如式(5)所示。

[数5]

使用logistic sigmoid函数σ(a)后，前文所述各数据变换如式(6)所示表现为四个阶段。

[数6]

y＝Qw、α＝σ(y)、x＝Rα、β＝σ(x) …(6)

学习时会预先提供作为输出变数目标的数据，即原图像所具备像素值即训练数据t(式(7))。为使输出值接近训练数据t(在层(d维)44中表示)，通过执行以下“推断”确定神经网络的各参数。

[数7]

设k行m列的矩阵将输入数据参数矢量w变换为表示中间层42的变数矢量y，如用Q＝[q_hj](q_hj是h行j列的元素)表示该矩阵，则y＝Qw，如用元素表示该矩阵，则如式(8)所示。

[数8]

接下来，通过前文所述的logistic sigmoid函数σ(a)，对通过式(8)变换得到的变数矢量y执行非线性变换，如式(9)所示。

[数9]

同样，设d行k列的矩阵将源自中间层42的变数矢量α变换为输出层的变数矢量x，如用R＝[r_ih](r_ih是i行h列的元素)表示该矩阵，则x＝Rα，如用元素表示该矩阵，则如式(10)所示。

[数10]

与中间层42的变换相同，通过logistic sigmoid函数σ(a)再对上述变换得到的变数矢量x执行变换，如式(11)所示。

[数11]

β_i＝σ(x_i)＝σ(r_itα₁+r_i2α₂+…+y_ikα_k) …(11)

(i＝1，…d)

接下来，对学习过程，即推断两个矩阵Q,R的过程进行说明。本实施例中应用反向传播法执行推断，具体说明如下。

首先，计算原图像参数即训练数据t和输出β的误差，利用该误差求使中间层42和输出层43的变换矩阵发生变化的量。然后，求会使输入层41和中间层42的变换矩阵发生变化的量。在推断各变换矩阵的元素参数时，执行使误差平方和达到最小值的推断，但因中途包括非线性变换，因此，采用随机梯度下降法。这是只按与误差梯度成比例的量使矩阵元素参数发生变化的方法，以减少每个学习数据样本的误差平方和。

因为可根据上述各过程推断变换矩阵Q,R的各元素，所以，当学习过程结束，获得变换对象即低比特率图像时，根据式(6)变换该低比特率图像的各参数(既可以是表示各像素亮度或色调的像素值或图像编码技术的各参数，也可以是其他参数)获得输出数据矢量x，由此可得用于描绘画质提升图像的参数。

【模型数据制作服务器2-1、视频内容发布服务器2-2的结构】

图5是表示本发明各实施例通用的模型数据制作服务器及视频内容发布服务器的结构的示例图。

如图5(1)的结构图所示，本实施例的系统1具备的模型数据制作服务器2-1，由服务器用计算机等搭建而成，具备以下部分：执行服务器内外间数据连接的输入输出接口2-1a、执行服务器2-1各种控制的CPU(Central Processing Unit，中央处理器)即控制部2-1b、存储执行程序以便服务器2-1执行时读取的程序记忆部2-1f、将前文所述基于神经网络的机器学习所用输入数据即训练数据记录为例如各类别视频内容数据的低比特率图像及原图像或其他形态的机器学习用内容记录部2-1g、推断前文所述基于神经网络的机器学习即变换矩阵Q,R的机器学习部2-1h、执行服务器2-1内各结构间数据连接的总线2-1i等。

另外，如图5(2)所示，视频内容发布服务器2-2由服务器用计算机等搭建而成，具备以下部分：承担服务器2-2与外界输入输出信息通信的输入输出接口2-2a、执行服务器2-2整体控制的控制部2-2b、记录并存储所发布视频内容的内容记录部2-2c。除视频内容外，服务器2-2存储的内容还可以是静态图像内容、声音内容等其他式样的内容，或是上述各种内容的组合。

内容记录部2-2c还会将观众针对各内容发送的文本数据即“评论”随发送评论的播放时间(从内容起点计时的时间信息)记录下来。

服务器2-2还具备以下部分：接收来自外部的请求通信并根据该请求向发来请求的观众终端11等发送视频内容的内容发布部2-2d、存储服务器2-2应执行的计算机程序的程序记忆部2-2f、记录并管理发来内容发布请求的观众终端是否为例如视频发布网站会员等涉及观众或观众终端的信息的用户管理部2-2g、执行服务器2-2内各结构间数据连接的总线2-2i等。

上述由视频内容发布服务器2-2执行视频内容发布，而由其他服务器即模型数据制作服务器2-1执行机器学习以生成模型数据的结构只是一个示例，不必限于该结构。换言之，在实施本发明时，系统1已设置单个或多个服务器即发送装置2-1、2-2，上述服务器中任一个可具备执行视频内容发布的结构，同样，上述服务器中任一个可具备执行机器学习以生成模型数据的结构。除执行机器学习的结构和执行视频内容发布的结构，本发明的系统1中，设置在服务器侧的结构可设置在单个或多个服务器即发送装置至少任一个上，同样，设置在观众终端侧的各结构也可分散设置在多个观众终端上。换言之，可由单个或多个服务器即发送装置构成发送系统，同样，可由单个或多个观众终端即接收装置构成接收系统。本发明其他实施例中也同样采用上述结构。

【第1观众终端11的结构】

接下来，对第1观众终端11的结构进行说明，但第2观众终端12和第3观众终端13也具备相同结构。

图6是表示本发明各实施例通用的第1观众终端的结构的示例图。

如图6的结构所示，第1观众终端11是由个人计算机、智能手机或移动信息终端等搭建的观众所用终端装置，均具备以下部分：承担终端内外部输入输出的输入输出接口11a；控制终端整体的控制部11b；利用经机器学习模型将经低比特率编码图像复原为画质提升图像的图像复原部11c；由液晶显示器及其控制部等搭建而成后显示视频内容的内容或视频网站的操作画面等的显示部11f；由键盘和鼠标等搭建而成后供观众操作该观众终端11的操作部11g；存储该终端11所运行计算机程序的程序记忆部11h；记录由接收自服务器2-2的低比特率图像组成的视频内容，或者由经图像复原部复原后分辨率提升的图像组成的视频内容等的数据记录部11i；如后文所述，用于向视频内容发布服务器2-2发送评论的评论发送部11k；执行终端11内部各结构间通信连接的总线11m。

图7是本发明各实施例通用的第1观众终端的外观模式图。

图7表示第1观众终端11的外观模式，终端11具备显示面板11-1、显示于显示面板11-1内的鼠标光标11-2、鼠标11-3、键盘11-4。

图7显示播放某视频内容时的情况，显示面板11-1中显示了视频显示画面11-1a和视频内容的内容，即人物11-1b、树木11-1n和房屋11-1o。

显示面板11-1中还显示了评论“天气真好”11-1r和“跑得真快www”11-1r，该评论11-1r并非制作视频内容后上传至视频内容发布服务器2-2的上传者(或者也可简称为“发布者”)发送的，而是使用第1观众终端11观看该内容的观众或其他观众在播放中任意时间向视频内容发布服务器2-2发送的文字信息，为便于观众明确理解该内容不同于原始内容，会使评论部分内容显示于视频显示画面11-1a的外侧。

同样，显示面板11-1中还显示了与视频内容发布服务器2-2建立起通信连接后显示的视频发布网站的画面，分别是：用于切换显示视频发布网站门户画面(入口画面)的主页键11-1e、用于停止视频播放的停止键11-1f、使视频播放暂时停顿的暂停键11-1g、使暂停中的内容恢复播放的播放键11-1h、用于发送评论的评论发送键11-1i、显示播放时间在起点到终点之间相对位置的进度条11-1k以及进度点11-1m。

视频内容发布服务器2-2提供的视频发布网站已就各观众可针对视频内容发送评论11-1r进行了说明，而已发送的评论会在内容播放期间的评论发送时间(例如，总时长为3分钟的内容在开始后1分钟时发送了评论，发送时间则为1分钟)的同一播放时间，在其他观众播放该内容时显示。因此，发送评论时，除评论包含的文字信息外，发送评论的时间信息也会从观众终端发送至服务器2-2，由服务器2-2进行记录和存储。然后，当其他观众为播放同一内容而向服务器2-2发出播放请求信号时，服务器2-2会向观众终端发送节目内容和附带发送时间信息的评论信息，各观众终端则可在发送者发送评论的同一播放时间，在同一画面背景下看到该评论。

图8是通过说明视频内容发布服务器2-2所提供视频发布网站的画面迁移，说明后文所述内容检索用项目即“标签”本来用途的模式图。标签与内容发布网站画面的用户界面有关，因此，将结合画面显示进行说明。

在最初连接视频发布网站后显示的门户画面(图8(A))中，首先，网站名称80显示为“neconeco动画”，标签81中显示了“首页”(即门户画面)和前文所述类别(类别标签)，如“娱乐”“生活”“动画片”。门户画面下方显示了表示推荐视频的多个索引图像82，观众用鼠标点击选择所期索引图像82，则开始播放该节目内容。

图8(B)是当观众点击选择显示于图8(A)的“生活”类别时显示的画面，属于“生活”类别的多个标签83(“牛肉火锅”“加冰威士忌苏打”“钓鱼”“猫”“美食视频”“露营”“怀旧广告”)则显示于画面上，供观众选择。

图8(C)是表示在图8(B)中选择“美食视频”标签时的画面示例图，画面上部显示所选标签名“美食视频”，下部显示添加“美食视频”标签的多个视频内容的索引图像85，以及该内容的概述(说明文)86。观众找到感兴趣的内容后，点选其索引图像85就可播放该内容，因此，标签在引导观众做选择上极其有用。虽然图中未显示，但此外还可在另一个关键词选择画面上检索所期词语对应的标签名实现一览显示。

【利用经机器学习模型生成画质提升图像的过程】

图9是本发明第1实施例的画质提升处理的时序图。图10是本发明第1实施例中第1观众终端执行的图像画质提升处理流程图。

下面将利用图9时序图、图10流程图、前文所述经机器学习模型数据32即变换矩阵Q,R等，就从编码为低比特率的图像获得画质提升图像的过程进行说明。另，可能会将前文所述第1观众终端11表述为“观众终端11”。

首先，视频内容发布服务器2-2中保存了由原图像组成的视频内容或者将原图像编码为低比特率的视频内容等多个视频内容；观众从前文所述内容发布网站上的各图像以及其他信息中选择自己想观看的内容，对显示于观众终端11显示画面上的内容索引图像进行点击等，观众终端11向视频内容发布服务器2-2发送请求发布该内容的信号，服务器2-2接收该信号(图9步骤S1)。

另一方面，模型数据制作服务器2-1中会分别记录并存储与向视频内容发布服务器2-2发送发布指令的内容相对应的经机器学习模型数据32，即前文所述变换矩阵Q,R。

对应各内容的模型数据是指，以“猫”的相关视频内容为例，事先定义“动物”这一视频内容类别，将属于该“动物”类别的原图像作为训练数据，将原图像编码为低比特率的图像作为输入图像，可通过机器学习推断求出变换矩阵Q,R。然后，模型数据制作服务器2-1或视频内容发布服务器2-2可采用以下结构：学习用户用观众终端11发来发布请求的视频内容，从事先准备的多个模型数据中选择适用于改良该内容图像的经机器学习模型数据，通过视频内容发布服务器2-2发送至观众终端11(图9步骤S2、S3)。

此外，还有直接利用即将发布的视频内容中图像执行机器学习，获得模型数据的方法。换言之，在执行利用了神经网络的机器学习时，可将应发送至观众终端11的视频内容中经低比特率编码图像及其原图像分别包含的像素值(亮度、色调)用作输入数据及训练数据。根据上述结构，模型数据32成为接近计划发送内容的数据内容，利用了经机器学习模型数据32的画质提升图像，品质也会提升；但这需要提前针对所有可能向观众终端11发布的内容分别执行机器学习，准备模型数据。

因此，在此基础上，可使用属于内容所属类别或相关领域的图像而非将发布的内容执行机器学习，制作模型数据，该方法中，以前文所述“猫”的视频内容为例，可利用属于“动物”类别的内容所含图像执行机器学习，生成模型数据。该结构可减少必须执行机器学习的频次，还可自由且快速增设发布用内容的标题。

虽然针对前文所述“猫”的相关视频内容，可利用通过使用属于“动物”类别的图像执行机器学习获得的模型数据，但判断“猫”相关视频内容是否属于“动物”类别可能必须由人类执行。

此外，为获得更接近将发布内容，即在执行画质提升处理时得到更接近原图像的图像，可根据将发布内容的种类、拍摄内容、标题、拍摄者、门类等为模型数据进行分类，在发布内容的同时发布该种类相应的模型数据，也可将上述“将发布内容的种类、拍摄内容、标题、拍摄者、门类”等或其他项目进行组合后，选择适当的模型数据。

例如以下各项目与各内容的内容密切相关，可适当地对内容所含图像的特性进行分类；所以，提前按照上述项目对模型数据进行自动分类后做好准备，与被请求发布的视频内容的经低比特率编码内容同时发布，也是有效的方法。

因此，前文所述模型数据制作服务器2-1或视频内容发布服务器2-2可具备用于从事先准备的多个模型数据中选择最佳模型数据的结构，以提升被请求发布的视频内容的画质。例如发布的视频内容中包括以下各项目，执行选择的动作可设为从以下项目中自动选择出适合画质提升处理的模型数据。

·观看内容的观众发送的评论信息

·对内容进行说明的说明文信息

·内容作者的有关信息

·内容名称或系列名称的信息

·发布内容的发布者的有关信息

如前所述与视频内容的内容密切相关的项目还有“标签”信息。

此处的“标签”指添加在各视频内容上、提示视频内容的检索用关键词，例如，针对一个内容可定义10个以内的标签。结构上，观众通过标签更容易找到所期视频或与某视频相似的视频。

标签定义者不限于将视频内容上传至服务器2的视频上传者，该内容的观众也可自由定义标签。标签的本来功能是检索，但添加视频内容相关标签或视频发布网站特有标签的现象也较普遍。标签的实际运用方面，除用于检索的分类之外，既可向观众传达视频亮点，还可帮助观众利用标签进行沟通。此外还存在观众自发针对涉及相同素材(如属于“唱一唱”“偶像大师”等人气门类的无数子门类)的视频或同一上传者所上传视频定义的标签，满足了更深层次检索需求的一面。(部分引用自维基百科《niconico动画》https://ja.wikipedia.org/wiki/％E3％83％8B％E3％82％B3％E3％83％8B％E3％82％B3％E5％8B％95％E7％94％BB)

本发明申请人运营着视频发布网站“niconico动画”https://www.nicovideo.jp/video_top？ref＝nicotop_video

本“niconico动画”网站上使用的标签实例如下。

标签上位类“类别”(又称“类别标签”)的分类，如“娱乐·音乐”中所用部分实例如下：“VOICEROID剧场”“原创歌曲”“虚拟YouTube主播”“偶像部”“彩虹社”“动画歌曲full”“工作BGM”“Fate/MMD”“MMD刀剑乱舞”“nico游戏机”“SCP解说”“弹珠游戏机”“SCP”“博歌乐K歌DB”“慢解说”“声优演唱会”“R.A.B”“弹珠机”“不带动画片特点的工作BGM”“会唱歌的博歌乐”“VOCALOID”“传说级”“Cosplay时跳一跳”“nico弹珠”“VOCALOID殿堂级”“去我家TV”“我的世界试胆”“慢谈”“你好计划”“欧美音乐名曲集”“做个小说家”“找了很久的歌曲”“欧美音乐”。

“生活·体育”类别中所用部分实例如下：“日美棒球”“诺里奇”“RTA(现实登山竞速)”“慢解说”“VOICEROID车载”“WWE”“亚洲小爪水獭”“花样滑冰”“全球交通情况”“摩托车”“行车记录仪”“跨种族友情视频链接”“搞砸了的企业”“慢杂谈”“VOICEROID解说”“职业棒球”“萌杀毛球”“毫无野性萌宠”“博酒乐”“喝加冰威士忌苏打的人”“全球奇人、怪人、伟人介绍”“慢解说视频”“球界OB生涯集锦”“柴犬”“烧烤”“战斗民族”“F1”“niconico国外旅游”“萌杀猫咪视频”“野生解放”“野外美食”“拉面”“军事”“全垒打集锦”“公路赛车”“怀旧广告”“狗”“海豹”“吐司”“慢车载”“棒球”“横滨DeNA湾星队”“猫”“咆哮的河狸”“狗和猫”。

“科学技术”类别中所用部分实例如下：“粉瘤”“航空事故”“枪”“纪录片”“左轮手枪”“军事”“宇宙无敌”“转陶轮系列”“氢元素的声音”“手枪”“人物模型”“稀有兵器”“迷飞机飞行系列”“迷列车派生系列”“那不勒斯的男人们”“塑料模型”“日本刀”“宇宙”“冲击性视频”“军事训练NG集锦”“圆周率”“复古PC”“迷你四驱车”“niconico兵器开发局”“JAXA”“斯巴鲁”“niconico空想科学部”“比较大小系列”“黑洞”“车辆接近通报装置系列”“F-22”“全球交通情况”“扑翼机”“理科必看”“数学”。

其结果将带来以下特别效果。

首先，由上传者或内容观众添加标签，则系统1的操作者或管理者均不产生添加标签的工时；而添加标签的上传者或观众熟知内容内涵，则添加的标签是准确的。

另外，如上所述，标签并非单纯的类别，而是经过细分的结果，由了解已有标签的上传者或观众添加相同标签，有望使同属一个标签的视频内容在内容上具备极高相似性，那么机器学习的学习过程也可精准执行。

由上述可知，模型数据32即变换矩阵Q,R是通过，以该内容中所含图像的经低比特率编码图像为输入，以其对应的原图像为输出即训练数据，根据前文所述利用了神经网络的机器学习进行推断得出的。

视频内容发布服务器2-2向观众终端11发送符合内容的模型数据32，以及被请求发布的内容数据即由经低比特率编码图像组成的内容数据(步骤S4)。

观众终端11接收上述模型数据32和经低比特率编码内容数据(步骤S11)，然后对组成内容数据的各经低比特率编码图像逐帧根据前文所述式(6)求得神经网络的输出数据即各像素值，并在此基础上求得画质提升图像帧(步骤S12)。接下来，利用时间轴合成求得的画质提升图像帧，即可获得画质提升内容数据。

【第2实施例】

机器学习所用数据可以包括不同于前文所述经低比特率编码图像帧和原图像的像素值(亮度、色调)或除此之外还有的数据，该数据是图像编码技术的以下项目中至少任一项，也是经低比特率编码视频内容作为画质提升对象时的以下元信息，而其他结构可采用根据前文所述本发明第1实施例构成的第2实施例。

·编码块量化参数

·预测误差系数

·预测模式信息

·运动矢量信息

通过上述结构，有望进一步提高机器学习推断的精度。

【第3实施例：对各种数据形式的应用】

在上述各实施例中，围绕视频内容发布就本发明的实施进行了说明，但除视频内容外，还可对静态图像、声音数据等各类数据实施本发明。本实施例的结构适用前文所述第1及第2实施例所用结构，是具备以下特征的数据收发系统：其单个或多个发送装置至少任一个具备通过机器学习生成模型数据的机器学习部，该模型数据用于根据将原数据编码为低比特率的经低比特率编码数据生成更接近原数据的改良数据；同样，其单个或多个发送装置至少任一个具备向该发送装置外部发送经低比特率编码数据和模型数据的发送部；其接收装置具备根据接到的经低比特率编码数据及模型数据，生成该经低比特率编码数据的改良数据的改良数据生成部。另外，还可包括将前文所述视频内容发布系统1各实施例中所含各结构改为视频内容对象，以适应其他数据形式或通用数据形式的结构。

在发送上述各种数据时要求降低传输路径负荷，而在接收终端播放时要求较高的播放品质，这一点与前文所述视频发布系统的课题相同，通过实施本发明起到的效果也与前文通过各实施例说明的效果相同。

【第4实施例：直接向客户端发布模型数据】

接下来，对第4实施例进行说明，其结构在细节上与前文所述各实施例的结构存在差异。另，该第4实施例的典型结构如下，可与前文所述各实施例的结构进行组合后实施，这些结构也包括在本发明中。

前文所述本发明各实施例中已说明，客户端(相当于第1观众终端11)向服务器(相当于视频内容发布服务器2-2)发送某视频内容或数据的发布请求时，则其他服务器(相当于模型数据制作服务器2-1)会选择适用于改良该视频内容或数据的经机器学习模型数据发送到服务器(相当于视频内容发布服务器2-2)，服务器(相当于视频内容发布服务器2-2)再向客户端(相当于第1观众终端11)发布被请求发布的内容或数据的经低比特率编码数据，以及被选择的经机器学习模型数据；最终，观众终端上可获得根据收到的模型数据和经低比特率编码数据改良后的画质提升视频内容等。

实施本发明时，其他服务器(相当于模型数据制作服务器2-1)先向服务器(相当于视频内容发布服务器2-2)发送经机器学习模型数据，再由服务器(相当于视频内容发布服务器2-2)向客户端(相当于第1观众终端11)执行发布，这一点并非本质特点，也非必须。除上述方法外，可由其他服务器(相当于模型数据制作服务器2-1)直接向客户端(相当于第1观众终端11)发布经机器学习模型数据。

以上述结构实施时，相当于模型数据制作服务器2-1的服务器获得相当于第1观众终端11的客户端请求相当于视频内容发布服务器2-2发布的视频内容或数据的有关信息，选择适用于改良该内容或数据的经机器学习模型数据，在相当于视频内容发布服务器2-2的服务器发布经低比特率编码数据(以视频内容为例)的时间或在接近该发布时间的时刻，直接向相当于第1观众终端11的客户端发送经机器学习模型数据。

换言之，如搭建该第4实施例的结构发布视频内容，单个或多个发送装置即服务器的发送系统具备发送经低比特率编码视频内容的结构、发送适用于将该经低比特率编码视频内容改良为画质提升视频内容的经机器学习模型数据的结构；而接收终端具备根据收到的经低比特率编码视频内容和同样接到的经机器学习模型数据，生成画质提升视频内容的结构。

另外，如搭建该第4实施例的结构发布视频内容之外的常见数据，单个或多个发送装置即服务器的发送系统具备发送经低比特率编码数据的结构、发送适用于将该经低比特率编码数据内容改良为接近原数据的经机器学习模型数据的结构；而接收终端具备根据收到的经低比特率编码数据和同样接到的经机器学习模型数据，生成接近原数据的改良数据的结构。

(发明效果说明)

本发明可在通过只具备有限带宽的因特网通信网络收发视频流观看视频内容的系统中，提供图像收发系统、数据收发系统、收发方法、计算机程序、图像发送系统、图像接收装置、发送系统、接收装置，可高效压缩传输带宽、复原图像具备接近原图像分辨率并高效减轻操作者负担。

Claims

1.图像收发系统，其特征在于：

其单个或多个发送装置至少任一个具备通过机器学习生成模型数据的机器学习部，该模型数据用于根据将所述原图像编码为低比特率的经低比特率编码图像生成更接近原图像的改良图像；

其所述单个或多个发送装置至少任一个具备向该发送装置外部发送所述经低比特率编码图像和所述模型数据的发送部；

其接收装置具备根据接到的所述经低比特率编码图像及所述模型数据，生成该经低比特率编码图像的所述改良图像的改良图像生成部。

2.如权利要求1所述的图像收发系统，其特征在于，所述机器学习所用数据还包括所述经低比特率编码图像的元信息。

3.如权利要求2所述的图像收发系统，其特征在于，所述经低比特率编码图像的元信息是图像编码技术的编码块量化参数(QP)、预测误差系数、预测模式信息和运动矢量中的至少任一种信息。

4.如权利要求1至3中任一项所述的图像收发系统，其特征在于，其所述单个或多个发送装置至少任一个还具备基于所述发送部发送的任一所述经低比特率编码图像的有关信息，从多个数据中选择与所述经低比特率编码图像同时发送的所述模型数据的模型数据选择部。

5.数据收发系统，其特征在于：

其单个或多个发送装置至少任一个具备通过机器学习生成模型数据的机器学习部，该模型数据用于根据将原数据编码为低比特率的经低比特率编码数据生成更接近所述原数据的改良数据；

其所述单个或多个发送装置至少任一个具备向该发送装置外部发送所述经低比特率编码数据和所述模型数据的发送部；

其接收装置具备根据接到的所述经低比特率编码数据及所述模型数据，生成该经低比特率编码数据的所述改良数据的改良数据生成部。

6.图像的收发方法，其特征在于，具备以下步骤：

单个或多个发送装置至少任一个具备的机器学习部通过机器学习生成模型数据的步骤，该模型数据用于根据将原图像编码为低比特率的经低比特率编码图像生成更接近所述原图像的改良图像；

所述单个或多个发送装置至少任一个具备的发送部向该发送装置外部发送所述经低比特率编码图像和所述模型图像的步骤；

接收装置的改良图像生成部根据接到的所述经低比特率编码图像及所述模型数据，生成该经低比特率编码图像的所述改良图像的步骤。

7.如权利要求6所述的收发方法，其特征在于，所述机器学习所用数据还包括所述经低比特率编码图像的元信息。

8.如权利要求7所述的收发方法，其特征在于，所述经低比特率编码图像的元信息是图像编码技术的编码块量化参数(QP)、预测误差系数、预测模式信息和运动矢量中的至少任一种信息。

9.如权利要求6至8中任一项所述的收发方法，其特征在于，所述单个或多个发送装置至少任一个还具备基于所述发送部发送的所述经低比特率编码图像的有关信息，从多个数据中选择与所述经低比特率编码图像同时发送的所述模型数据的模型数据选择部。

10.收发方法，其特征在于，具备以下步骤：

单个或多个发送装置至少任一个具备的机器学习部通过机器学习生成模型数据的步骤，该模型数据用于根据将原数据编码为低比特率的经低比特率编码数据生成更接近所述原数据的改良数据；

所述单个或多个发送装置至少任一个具备的发送部向该发送装置外部发送所述经低比特率编码数据和所述模型数据的步骤；

接收装置的改良数据生成部根据接到的所述经低比特率编码数据及所述模型数据，生成该经低比特率编码数据的所述改良数据的步骤。

11.计算机程序，其特征在于，用于执行权利要求6至10中任一项所述收发方法。

12.图像收发系统，其特征在于：

其单个或多个发送装置至少任一个具备通过机器学习生成模型数据的机器学习部，该模型数据用于根据将原图像编码为低比特率的经低比特率编码图像生成更接近所述原图像的改良图像；

其所述单个或多个发送装置至少任一个具备向该图像发送系统外部发送所述经低比特率编码图像和所述模型数据的发送部。

13.如权利要求12所述的图像发送系统，其特征在于，所述机器学习所用数据是所述经低比特率编码图像的元信息。

14.如权利要求13所述的图像发送系统，其特征在于，所述经低比特率编码图像的元信息是图像编码技术的编码块量化参数(QP)、预测误差系数、预测模式信息和运动矢量中的至少任一种信息。

15.如权利要求12至14中任一项所述的图像发送系统，其特征在于，还具备基于所述发送部发送的所述经低比特率编码图像的有关信息，从多个数据中选择与所述经低比特率编码图像同时发送的所述模型数据的模型数据选择部。

16.发送系统，其特征在于：

其所述单个或多个发送装置至少任一个具备向该发送装置外部发送所述经低比特率编码图像和所述模型数据的发送部。

17.图像接收装置，其特征在于，具备接收部和改良图像生成部，所述接收部从图像发送系统接收用于根据将原图像编码为低比特率的经低比特率编码图像生成更接近所述原图像的改良图像且通过机器学习生成的模型数据和所述经低比特率编码图像；所述改良图像生成部根据所述接到的所述经低比特率编码图像及所述模型数据，生成该经低比特率编码图像的所述改良图像。

18.如权利要求17所述的图像接收装置，其特征在于，所述机器学习所用数据是所述经低比特率编码图像的元信息。

19.如权利要求18所述的图像接收装置，其特征在于，所述经低比特率编码图像的元信息是图像编码技术的编码块量化参数(QP)、预测误差系数、预测模式信息和运动矢量中的至少任一种信息。

20.如权利要求17所述的图像接收装置，其特征在于，所述接收部接收的所述模型数据是基于与之同时接收的所述经低比特率编码图像的有关信息，从多个数据中选择出来的结果。

21.接收装置，其特征在于，具备接收部和改良图像生成部，所述接收部从发送系统接收用于根据将原数据编码为低比特率的经低比特率编码数据生成更接近所述原数据的改良数据且通过机器学习生成的模型数据和所述经低比特率编码数据；所述改良图像生成部根据所述接到的所述经低比特率编码数据及所述模型数据，生成该经低比特率编码数据的所述改良数据。