CN111034184B

CN111034184B - 提高视频质量的视频通话方法及计算机可读记录介质

Info

Publication number: CN111034184B
Application number: CN201780094023.5A
Authority: CN
Inventors: 曺仁源; 朴柾俊; 曺淙振; 李东远
Original assignee: Line Corp
Current assignee: Z Intermediate Global Corp
Priority date: 2017-08-29
Filing date: 2017-08-29
Publication date: 2022-09-02
Anticipated expiration: 2037-08-29
Also published as: US11223662B2; WO2019045128A1; JP2021500764A; US20200220907A1; CN111034184A

Abstract

本发明涉及一种提高对于视频内的主要对象或主要部分的画质以提高视频通话的视频质量的方法。具体而言，生成用于编码的整个场景的基本画质的基础层，生成对于画质高于上述场景的基本画质的区域的上位层，对上位层在上述场景中的位置信息一同编码并向对方传递。

Description

提高视频质量的视频通话方法及计算机可读记录介质

技术领域

以下说明涉及用于提高视频通话的视频质量的技术，更详细地，涉及可通过提高视频内的主要部分的质量来传递的视频通话方法、执行上述视频通话方法的计算机装置及计算机程序和该计算机程序的记录介质，上述计算机程序为了与上述计算机相结合来在计算机中执行视频通话方法而存储于计算机可读记录介质。

背景技术

视频通话为通过手机等设备进行面对面对话的电话技术，以往的视频通话技术根据统一基准对整个视频进行压缩(编码)并传递。例如，韩国公开专利第10-2009-0033964号涉及视频通话终端的视频通话方法，公开了如下的技术：即，利用通过利用H.245协议执行的协商过程在视频通话终端之间确定的音频编解码器及视频编解码器来使视频通话终端之间交换语音及视频。

但是，这种现有的视频通话技术存在以下问题：与视频内的数据(作为一例，特定对象或特定部分)的重要度无关地，根据统一基准(作为一例，在上述例中，通过协商过程确定的视频编解码器)对视频进行压缩并传递，因此，在带宽低的情况下，视频的整体画质将会降低，从而导致使用人员所体验到的画质也将会降低。

发明内容

本发明提供通过提高对于视频内的主要对象或主要部分的画质并传递，从而可以提高视频通话的接收人员的体验画质的视频通话方法、执行上述视频通话方法的计算机装置、及计算机程序和该计算机程序的记录介质，上述计算机程序为了与上述计算机相结合来在计算机中执行视频通话方法而存储于计算机可读记录介质。

本发明提供计算机程序，上述计算机程序为了与计算机相结合来在计算机中执行视频通话方法而存储于计算机可读记录介质，其特征在于，上述视频通话方法包括：对用于编码的整个场景(scene)生成基本画质的基础层的步骤；对上述场景的一部分生成画质高于上述基本画质的上位层的步骤；分别对上述基础层及上述上位层进行编码的步骤；以及向视频通话的对方传递按层编码的数据和上述上位层在上述场景中的位置信息的步骤。

本发明提供计算机程序，上述计算机程序为了与计算机相结合来在计算机中执行视频通话方法而存储于计算机可读记录介质，其特征在于，上述视频通话方法包括：接收对场景(scene)按层编码的数据和上位层在上述场景中的位置信息的步骤；对上述按层编码的数据进行解码来复原对整个上述场景生成的基本画质的基础层及对上述场景的一部分生成的画质高于上述基本画质的上述上位层的步骤；以及基于上述位置信息来将上述上位层归并(merge)在上述基础层上，由此对上述场景的一部分复原画质高于上述基本画质的场景的步骤。

本发明提供视频通话方法，其特征在于，包括：对用于编码的整个场景(scene) 生成基本画质的基础层的步骤；对上述场景的一部分生成画质高于上述基本画质的上位层的步骤；分别对上述基础层及上述上位层进行编码的步骤；以及向视频通话的对方传递按层编码的数据和上述上位层在上述场景中的位置信息的步骤。

本发明提供视频通话方法，其特征在于，包括：接收对场景(scene)按层编码的数据和上位层在上述场景中的位置信息的步骤；对上述按层编码的数据进行解码来复原对整个上述场景生成的基本画质的基础层及对上述场景的一部分生成的画质高于上述基本画质的上述上位层的步骤；以及基于上述位置信息来将上述上位层归并(merge) 在上述基础层上，由此对上述场景的一部分复原画质高于上述基本画质的场景的步骤。

本发明提供计算机装置，其特征在于，上述计算机装置包括运行计算机可读指令的至少一个处理器，上述至少一个处理器执行如下过程：对用于编码的整个场景 (scene)生成基本画质的基础层；对上述场景的一部分生成画质高于上述基本画质的上位层；分别对上述基础层及上述上位层进行编码；以及向视频通话的对方传递按层编码的数据和上述上位层在上述场景中的位置信息。

本发明提供计算机装置，其特征在于，上述计算机装置包括运行计算机可读指令的至少一个处理器，上述至少一个处理器执行如下过程：接收对场景(scene)按层编码的数据和上位层在上述场景中的位置信息；对上述按层编码的数据进行解码来复原对整个上述场景生成的基本画质的基础层及对上述场景的一部分生成的画质高于上述基本画质的上述上位层；以及基于上述位置信息来将上述上位层归并在上述基础层上，由此对上述场景的一部分复原画质高于上述基本画质的场景。

通过提高对于视频内主要对象或主要部分的画质并传递，由此可以提高视频通话的接收人员的体验画质。

并且，仅提高主要对象或主要部分的画质并传递，由此可以提供相同或类似的体验画质，并与提高整个视频的画质的情况相比，可减少比特率。

附图说明

图1为示出本发明一实施例的网络环境的例的图。

图2为用于说明本发明一实施例中的电子设备及服务器的内部结构的框图。

图3为示出本发明一实施例中的在视频通话过程中提高场景内的主要部分画质并传递的例的图。

图4为示出本发明一实施例中的通过使已传递的多个层相结合来显示的例的图。

图5为示出本发明一实施例中的用于识别主要部分的元数据的例的图。

图6为示出本发明一实施例中的用于识别主要部分的元数据另一例的图。

图7为示出本发明一实施例中的传递按层编码的数据的例的图。

图8为示出本发明一实施例的电子设备的视频通话方法的例的流程图。

图9为示出本发明一实施例的对方电子设备的视频通话方法的例的流程图。

具体实施方式

以下，参照附图，详细说明实施例。

根据本发明实施例的视频通话方法可通过之后说明的如电子设备的计算机装置执行。在此情况下，在计算机装置中可设置及驱动本发明一实施例的计算机程序，计算机装置可根据所驱动的计算机程序的控制来执行本发明一实施例的视频通话方法。上述计算机程序为了与计算机装置相结合来在计算机中执行视频通话方法而可存储于计算机可读记录介质。例如，根据在电子设备设置的用于视频通话的应用程序的控制，电子设备可提高对于视频内的主要对象或主要部分的画质并向视频通话的对方传递。进行视频通话的一个电子设备可以为传送视频的发送方，同时也可以为从对方接收视频的接收方(视频通话的对方)。只是，在本说明书中，根据需求，在视频中的一个场景的观点上，区分为传送用于对应场景的视频的发送方和接收用于对应场景的视频的接收方并加以说明。

图1为示出本发明一实施例的网络环境的例的图。图1的网络环境可包括多个电子设备110、120、130、140、多个服务器150、160及网络170。这种图1为用于说明本发明的一例，电子设备的数量或服务器的数量并不局限于图1。

多个电子设备110、120、130、140可以为由计算机装置体现的固定终端或移动终端。例如，多个电子设备110、120、130、140为智能手机(smart phone)、手机、导航仪、计算机、笔记本电脑、数字广播终端、个人数字助理(PDA，Personal Digital Assistants)、便携式多媒体播放器(PMP，Portable Multimedia Player)、平板电脑等。作为一例，图1中，作为第一电子设备110的一例示出智能手机的形状，但是，在本发明实施例中，实质上，第一电子设备110可以为可利用无线或有线通信方式来通过网络170与其他多个电子设备120、130、140和/或服务器150、160进行通信的多种物理计算机装置中的一个。

通信方式并不局限于此，不仅可利用网络170可包括的通信网(作为一例，移动通信网、有线网络、无线网络、广播网)的通信方式，还可包括多个设备之间近距离无线通信。例如，网络170可包括个人局域网(PAN，personal area network)、局域网 (LAN，localarea network)、校园网(CAN，campus area network)、城域网(MAN， metropolitan areanetwork)、广域网(WAN，wide area network)、宽带网(BBN，broadband network)、互联网等的网络中的一种以上的任意网络。并且，网络170可包括具有总线网、星状网、环形网、多跳网、星型总线网、树状网或等级(hierarchical)网等的网络拓扑结构中的任一种以上，但并不局限于此。

服务器150、160分别可由通过网络170与多个电子设备110、120、130、140进行通信来提供指令、代码、文件、内容、服务等的计算机装置或多个计算机装置体现。例如，服务器150可以为向通过网络170联接的多个电子设备110、120、130、140 提供第一服务的系统，服务器160也可以为向通过网络170联接的多个电子设备110、 120、130、140提供第二服务的系统。作为更具体的例，服务器150通过作为设置于多个电子设备110、120、130、140来驱动的计算机程序的应用程序，将对应应用程序需要的服务(作为一例，除用于本实施例的视频通话的服务之外，还包含信息提供服务、讯息服务、邮件服务、内容传送服务等)作为第一服务向多个电子设备110、120、 130、140提供。作为另一例，服务器160可将向多个电子设备110、120、130、140 分配用于设置及驱动上述应用程序的文件的服务作为第二服务提供。

图2为用于说明本发明一实施例中的电子设备及服务器的内部结构的框图。图2中，作为对于电子设备的例，说明第一电子设备110和服务器150的内部结构。并且，其他多个设备120、130、140或服务器160也可具有与上述第一电子设备110或服务器150相同或类似的内部结构。

第一电子设备110和服务器150可包括存储器211、221、处理器212、222、通信模块213、223及输入输出接口214、224。存储器211、221作为计算机可读记录介质，可包括如随机存储器(RAM，random access memory)、只读存储器(ROM，read only memory)及磁盘驱动器的永久性大容量存储装置(permanent mass storage device)。其中，如只读存储器和磁盘驱动器的永久性大容量存储装置作为与存储器211、221区分的额外的永久性存储装置，可设置于第一电子设备110或服务器150。并且，存储器211、221可存储操作系统和至少一个程序代码(例如，用于设置于第一电子设备110 来驱动的浏览器或为了提供特定服务而设置于第一电子设备110的应用程序等的代码)。这种多个软件结构要素可以从与存储器211、221不同的计算机可读记录介质加载。这种额外的计算机可读记录介质可包括软盘驱动器、硬盘、磁带、DVD/CD-ROM 驱动器、存储卡等的计算机可读记录介质。在其他实施例中，多个软件结构要素可通过通信模块213、223在存储器211、221加载，而并非通过计算机可读记录介质加载。例如，至少一个程序可基于计算机程序(例如，上述应用程序)在存储器211、221加载，上述计算机程序通过文件设置，上述文件由开发人员或配置应用程序的设置文件的文件分配系统(作为一例，上述服务器160)通过网络170提供。

处理器212、222可通过执行基本的算数、逻辑及输入输出运算，由此对计算机程序的指令进行处理。指令可通过存储器211、221或通信模块213、223向处理器212、 222提供。例如，处理器212、222可根据存储于如存储器211、221的存储装置的程序代码来执行所接收的指令。

通信模块213、223可提供用于通过网络170使第一电子设备110与服务器150相互进行通信的功能，可提供用于使第一电子设备110和/或服务器150与其他电子设备 (例如，第二电子设备120)或其他服务器(例如，服务器160)进行通信的功能。作为一例，第一电子设备110的处理器212可根据存储于如存储器211的存储装置的程序代码生成请求，该请求根据通信模块213的控制并通过网络170向服务器150传递。相反地，根据服务器150的处理器222的控制提供的控制信号或指令、内容、文件等可经过通信模块223和网络170并通过第一电子设备110的通信模块213来向第一电子设备110传递。例如，通过通信模块213接收的服务器150的控制信号或指令、内容、文件等可以向处理器212或存储器211传递，内容或文件等可以存储于第一电子设备110还能够包括的存储介质(上述永久性大容量存储装置)。

输入输出接口214可以为用于与输入输出装置215接口的一种单元。例如，输入装置可包括键盘或鼠标等，输出装置可包括显示器、扬声器等装置。作为另一例，输入输出接口214可以为用于与如触摸屏那样用于输入和输出的功能合并为一个的装置接口的单元。输入输出装置215可以与第一电子设备110形成为一体。并且，服务器 150的输入输出接口224可以为与服务器150相连接或用于与服务器150可包括的用于输入或输出的装置(未图示)接口的单元。作为更具体的一例，在第一电子设备110 的处理器212对在存储器211加载的计算机程序的指令进行处理的过程中，利用服务器150或第二电子设备120所提供的数据构成的服务画面或内容可通过输入输出接口 214显示在显示器。

并且，在其他实施例中，第一电子设备110及服务器150可包括比图2的结构要素更多的结构要素。但是，无需明确示出大部分的现有技术结构要素。例如，第一电子设备110可包括上述输入输出装置215中至少一部分或者还可以进一步包括如无线电收发两用机(transceiver)、全球定位系统(GPS，Global Positioning System)模块、摄像头、各种传感器、数据库等的其他结构要素。作为更具体的例，在第一电子设备 110为智能手机的情况下，通常，第一电子设备110还可包括智能手机所包括加速度传感器或陀螺仪传感器、摄像头模块、各种物理按钮、利用触摸板的按钮、输入输出端口、用于振动的振动器等多种结构要素。

图3为示出本发明一实施例中的在视频通话过程中提高场景内的主要部分画质并传递的例的图。图3示出如下情况：即，上述说明的第一电子设备110与第二电子设备120进行视频通话，在此情况下，服务器150对用于视频通话的多个数据包进行路由来向第二电子设备120传递从第一电子设备110传送的数据包，向第一电子设备110 传递从第二电子设备120传送的数据包。

根据实施例，服务器150可以仅执行连接用于第一电子设备110与第二电子设备120之间的视频通话的初期会话的作用。在此情况下，数据包的传送可通过第一电子设备110与第二电子设备120之间的P2P通信实现。例如，第一电子设备110可在通信应用程序中选择第二电子设备120的使用人员的账号(或电话号)来向服务器150 请求与所选择的账号进行视频通话。在此情况下，服务器150可在第一电子设备110 的使用人员的账号(或电话号)与第二电子设备120的使用人员的账号(或电话号) 之间设置用于视频通话的会话，第一电子设备110与第二电子设备120利用用于所设定视频通话的会话来相互进行通信并收发多个数据包。

第一电子设备110为了进行视频通话而可以通过摄像头对场景310进行截图。例如，场景310可以为通过第一电子设备110的摄像头被截图的一个帧。在此情况下，第一电子设备110可识别场景310中的主要部分320。之后，更加详细地说明设定及识别场景310中主要部分320的方法。

第一电子设备110可对整个场景310生成具有基本画质的基础层330，对被识别的主要部分320可单独生成画质高于基本画质的上位层340。在此情况下，第一电子设备110可对所生成的各个层进行编码，可参照基础层330的编码对上位层340进行编码。例如，第一电子设备110对基本画质的基础层330进行编码，参照基础层330 的编码对画质高于基本画质的上位层340进行编码，由此可生成按层编码的数据350。例如，当对作为基础层330的第一层进行编码且对作为第一上位层的第二层进行编码时，可参照第一层的编码对第二层进行编码。另一方面，在对作为第二层的上位层(例如，画质高于第二层的画质的层)的第三层进行编码的情况下，可参照第一层和/或第二层的编码进行编码。

按层编码的数据350可通过服务器150向作为场景310的接收方(视频通话的对方)的第二电子设备120传送。在此情况下，上位层340在场景310中的位置信息可通过第一电子设备110生成并与按层编码的数据350一同向第二电子设备120传递。

图4为示出本发明一实施例中的通过使已传递的多个层相结合来显示的例的图。图4示出了如下的例：即，接收图3中的按层编码的数据350和上位层340在场景310 中的位置信息的第二电子设备120对按层编码的数据350进行解码来获取基本画质的基础层330及画质高于基本画质的上位层340的例。在此情况下，第二电子设备120 对基础层330进行解码之后，可参照基础层330的解码来对上位层340进行解码。

在此情况下，第二电子设备120基于所接收的位置信息来将上位层340归并在基础层330上，可通过归并上位层340的基础层330生成场景410。例如，第二电子设备120使上位层340覆盖在与基础层330上的上述位置信息对应的位置来归并基础层 330与上位层340。如上所述，上位层340的画质高于基础层330的基本画质，因此，第二电子设备120对初始场景310的主要部分320获取更高画质的场景410。例如，以图4的虚线框420为基准，虚线框420的内部区域画质(第一画质)高于虚线框420 的外部区域画质(第二画质)。

若第一电子设备110要对整个初始场景310提供第一画质，则所需的带宽或比特率将会增加，由此，网络通信量也将会上升。相反，在本发明的实施例中，仅对主要部位提供第一画质，对剩余部位提供第二画质，从而，降低所需的带宽或比特率并提高使用人员体验画质。

在图3及图4的实施例中，说明了设定及识别一个主要部分320的例，但也可以设定及识别两个以上的主要部分。并且，对两个以上的主要部分生成的多个上位层可具有相同的画质，也可具有不同的画质。并且，多个上位层中的至少一个的画质也可低于基本画质。

图5为示出本发明一实施例中的用于识别主要部分的元数据的例的图。图5示出了如下的例：即，通过6×9大小的块矩阵来对上述说明的场景310中的多个区域进行区分。覆盖场景310的块矩阵的大小(n×m)越大，块矩阵所包括的块越多，可以将相同大小的场景310更加细分化，因此，块矩阵的大小越大，越可对场景310识别更加细分化的多个细节区域。基本上，块矩阵可具有n×m的大小，其中，n和m可以为2以上的自然数。最大限度地，可以按场景310的像素区分场景310的多个区域。例如，在用于摄像头的拍摄视频的分辨率为1980×1080的情况下，可通过1980×1080 大小的块矩阵以像素单位区分场景310的多个区域。

在此情况下，在块矩阵的各个块可设定用于表示质量加权值的值。在各个块设定这种质量加权值的块矩阵作为元数据提供。在图5的例中示出了作为元数据510提供的块矩阵的多个块设定质量加权值“0”或“1”的例。在此情况下，在本实施例中，质量加权值“0”可以为用于基本画质的区域，设定质量加权值“1”的区域可以为画质高于基本画质的区域。例如，图5中，通过粗实线520包围的区域可以为设定质量加权值“1”的区域，该区域可被识别成主要部分，第一电子设备110对所识别的主要部分可生成上位层。

图6为示出本发明一实施例中的用于识别主要部分的元数据的另一例的图。图6示出了与如下块矩阵对应的元数据610，上述块矩阵在场景310中设定主要部分的过程中，在包括眼睛的块设定质量加权值“2”，在包括除此之外的脸部的块设定质量加权值“1”，在剩余区域设定用于基本画质的质量加权值“0”。

在此情况下，第一电子设备110可识别与质量加权值“2”对应的主要部分和与质量加权值“1”对应的三个主要部分。在此情况下，所识别的各个主要部分均可生成上位层。换言之，第一电子设备110可生成具有与质量加权值“2”对应的画质的一个上位层(以下，第三层)、具有与质量加权值“1”对应的画质的三个上位层(以下，第二层)以及与整个场景310对应的一个基础层(以下，第一层)总共五个层，并可按层分别进行编码。

根据实施例，三个第二层可生成为一个第二层。例如，在与质量加权值“2”对应的区域(作为一例，眼睛区域)为与质量加权值“1”对应的区域(作为一例，脸部区域)中的一部分的情况下，与质量加权值“1”对应的区域和与质量加权值“2”的对应区域也可被识别成一个主要部分。这是因为在对应实施例中，第三层归并在第二层的上位，因此，无需将脸部区域分成三个第二层。为了这种情况，在图6中，需要均向设定质量加权值“2”的多个块中设定质量加权值“1”和质量加权值“2”。换言之，第一电子设备110在识别与质量加权值“1”有关的区域的过程中，可识别均设定质量加权值“1”和质量加权值“2”的多个块，由此可对整个脸部区域生成一个第二层。

在此情况下，随着质量加权值的增加，所生成的层的画质也会提高。换言之，与和质量加权值“0”对应的层相比，与质量加权值“1”对应的层的画质更高。类似地，与和质量加权值“1”对应的层相比，与质量加权值“2”对应的层的画质更高。如上所述，第一电子设备110可根据质量加权值来确定上位层的画质。

场景310的多个主要部分可根据在第一电子设备110上设置的应用程序中预设的条件来设定。例如，考虑到视频通话，可以将人的脸部或人的样貌部分预设为主要部分。或者，随着使用人员选择视频通话的服务方提供的贴纸或图像对象等，可以将与视频相结合的特定对象的区域预设为主要部分，从而可以向视频赋予多种效果。

在此基础上，为了根据情况来将多种部分动态设定为主要部分而也可以使用人工智能技术。例如，人工智能可以将由于普遍被识别为主要部分而被预设的多个部分(例如，上述人的脸部或人的样貌部分)和视频中出现的特定对象或包括身体的其他一部分(作为一例，眼睛、嘴、胳膊等)在内的部分动态设定为主要部分。作为另一例，人工智能可以将包括与视频相结合的特定对象(例如，如上所述，视频通话的服务方提供的贴纸或图像对象等)在内的部分动态设定为主要部分。

如上所述，主要部分可以为人的样貌或人的身体中的一部分或如特定对象那样通过摄像头截图的视频内的对象区域，也可以是为了在被截图的视频赋予多种效果而赋予的贴纸或其他图像对象的区域。

作为另一例，应用程序可提供视频通话的使用人员(作为一例，第一电子设备110的使用人员)能够直接选择场景310内的特定对象或设定场景310内的区域的功能。在此情况下，若使用人员利用应用程序所提供的功能来选择特定对象或设定特定区域，则第一电子设备110可根据应用程序的控制，将与所选择的对象对应的部分或设定的区域设定为主要部分。

例如，应用程序可提供使用人员在第一电子设备110的画面显示的场景310内可根据特定对象(例如，人的眼睛)的轮廓画出闭合曲线的功能，可将通过闭合曲线识别的区域设定为主要部分。

作为另一例，应用程序也可以提供在第一电子设备110的画面上显示预设形状的图形(例如，四边形或圆)且使用人员可调节显示的图形大小和/或位置的功能。在此情况下，应用程序也可将通过大小或位置得到调节的图形识别的区域设定为主要部分。并且，应用程序也可以在通过图形识别的区域中再次识别对象并将所识别的对象的区域设定为主要部分。

作为又一例，应用程序还可以提供自动识别与使用人员所选择的位置(例如，如使用人员在触摸屏环境下触摸的(多个)位置，根据使用人员的操作在触摸屏上识别的位置(或区域))有关的场景310内的对象来将所识别的对象区域设定为主要部分的功能。在此情况下，应用程序还可包括进一步向使用人员确认所识别的对象是否为使用人员所希望的对象的功能。

在此情况下，第一电子设备110可将自动设定的主要部分或与由使用人员设定的主要部分对应的块的质量加权值设定为“1”或“2”等来设定主要部分。在此情况下，当对场景310进行编码时，第一电子设备110可通过设定质量加权值的多个块来识别主要部分并生成上位层。

并且，层数和/或上位层的画质可基于视频通话的对方的终端能力和/或网络通信量来确定。

图7为示出本发明一实施例中的传递按层编码的数据的例的图。例如，从场景310的传递的观点上，作为视频通话发送方的第一电子设备110可获取与作为视频通话的对方的第二电子设备120的终端管理能力(capability)有关的信息和/或网络通信量并加以管理。与第二电子设备120的终端能力有关的信息可从第二电子设备120获取，网络通信量可通过服务器150获取。图7中省略了服务器150。如上所述，服务器150 为了进行视频通话而可对在第一电子设备110与第二电子设备120之间收发的多个数据包直接进行路由，根据实施例，仅设定初始会话，多个数据包的收发可在第一电子设备110与第二电子设备120之间通过P2P通信来实现。在此情况下，第一电子设备 110可根据第二电子设备120的终端能力和/或网络通信量来确定对于场景310的层数或上位层的画质。

在仅考虑终端能力的情况下，在根据第二电子设备120的终端能力确定的值低于第一阈值的情况下，第一电子设备110仅可生成基本画质的基础层并向第二电子设备 120传递。图7示出了第一电子设备110向第二电子设备120传递与基础层对应的第一层的例。在此情况下，第一层可在第一电子设备110中被编码并传递。之后，将省略对于这种编码过程的说明。作为另一例，在根据第二电子设备120的终端能力确定的值大于第一阈值且为第二阈值以下的情况下，第一电子设备110可生成基础层和具有质量加权值“1”的上位层并向第二电子设备120传递。图7示出了第一电子设备 110向第二电子设备120一同传递与基础层对应的第一层和与具有质量加权值“1”的上位层对应的第二层的例。例如，如通过图5说明的那样，第一电子设备110可对如脸部的主要部位生成与质量加权值“1”对应的画质的上位层(第二层)并与基础层一同向第二电子设备120传递。作为另一例，在第二电子设备120的终端能力大于第二阈值的情况下，第一电子设备110可分别生成基础层、具有质量加权值“1”的上位层以及具有质量加权值“2”的上位层来向第二电子设备120传递。图7示出了第一电子设备110向第二电子设备120一同传递与基础层对应的第一层、与具有质量加权值“1”的上位层对应的第二层以及与具有质量加权值“2”的上位层对应的第三层的例。例如，如通过图6说明的那样，第一电子设备110对眼部生成与质量加权值“2”对应的画质的上位层(第三层)，对脸部生成与质量加权值“1”对应的画质的上位层(第二层)，并将所生成的第二层和第三层与基础层一同向第二电子设备120传递。

考虑到网络通信量，本发明所属技术领域的普通技术人员可通过上述说明轻松理解能够通过根据网络通信量确定的值和阈值确定向第二电子设备120传递的层数或画质。并且，也可以通过基于终端能力的值和基于网络通信量的加权值以及阈值确定向第二电子设备120传递的层数或画质。

图8为示出本发明一实施例的电子设备的视频通话方法的例的流程图。本发明多个实施例的视频通话方法可通过如上述的第一电子设备110的计算机装置来进行。这种第一电子设备110可执行图8中视频通话方法所包括的多个步骤(步骤810至步骤 860)。例如，第一电子设备110的处理器212可运行基于存储器211所包括的操作系统的代码或至少一个计算机程序(作为一例，为了视频通话方法而提供的应用程序) 的代码的控制指令(instruction)。其中，处理器212可对第一电子设备110进行控制，以便根据存储于第一电子设备110的代码所提供的控制指令来使第一电子设备110执行图8的多个步骤(步骤810至步骤860)。

在步骤810中，第一电子设备110可通过服务器来设定与其他电子设备之间的视频通话会话。其中，服务器可以与上述说明的服务器150对应，其他电子设备可以与上述说明的第二电子设备120对应。如上所述，服务器可以对第一电子设备110与其他电子设备通过上述视频通话会话收发的多个数据包进行路由，根据实施例，可以设定用于第一电子设备110与其他电子设备之间的P2P通信的初始会话，以使通过视频通话会话收发的多个数据包通过第一电子设备110与其他电子设备之间的P2P通信直接传递。

在步骤820中，第一电子设备110可对摄像头进行控制来对视频进行截图。例如，第一电子设备110为了生成用于视频通话的画面并向与视频通话会话相连接的其他电子设备传递而可驱动摄像头，并可以对通过所驱动的摄像头输入的视频进行截图。

在步骤830中，第一电子设备110可对用于编码的整个场景(scene)生成基本画质的基础层。例如，第一电子设备110通过应用程序所提供的编码器可生成用于当前编码的场景的基础层。对基本画质和基础层的内容与上述相同。

在步骤840中，第一电子设备110可对场景的一部分生成画质高于基本画质的上位层。如上所述，用于生成上位层的场景中的一部分为用于提高画质的主要部分，可利用对场景以像素单位或区分场景的块单位标记质量加权值的元数据进行识别，可根据这种质量加权值的值确定上位层的画质。例如，第一电子设备110可接收对场景以像素单位或区分场景的块单位标记质量加权值的元数据。在此情况下，第一电子设备 110可以将通过标记相同值的质量加权值的多个像素识别的区域或通过标记相同值的质量加权值的多个块识别的区域识别成用于上位层的场景中的一部分。

也可以根据设定的质量加权值的值生成彼此不同的多个上位层，基本上，上位层的画质可高于基本画质，质量加权值的值越高，越可生成更高画质的多个上位层。根据实施例，为了降低特定区域的画质而改变基础层上的质量加权值。例如，在图5及图6的实施例中，说明了基础层具有“0”的质量加权值的实施例，也可以将基础层的至少一部分块的质量加权值设定为“-1”，从而生成将设定质量加权值“-1”的区域的画质降低至基本画质以下的基础层。在基础层中，用于相对降低质量的区域可通过与设定用于提高上位层的质量的主要部分类似或相同的方法来设定。例如，在视频通话过程中，使用人员的样貌为基本画质区域，使用人员的脸部可以为用于生成上位层的主要部分，使用人员的样貌周围背景区域可以为用于降低质量的区域。

并且，如上所述，场景的一部分可由使用人员选择或设定。例如，第一电子设备110可提供使用人员能够选择场景内的对象或设定场景内的区域的功能。在此情况下，第一电子设备110可以将与通过上述功能选择的对象对应的部分或通过上述功能设定的区域识别成用于上位层的场景的一部分。

并且，如上所述，可根据对方的终端能力和/或网络通信量确定向对方传递的层数或上位层的画质中的至少一个。例如，第一电子设备110可确认视频通话的对方的终端能力及网络通信量中的至少一个，基于所确认的终端能力及网络通信量中的至少一个来确定向视频通话的对方传递的层数及上位层的画质中的至少一个。其中，与终端能力有关的信息可以从其他电子设备接收，网络通信量可从服务器接收。根据这种终端能力和/或网络通信量来确定层数和/或上位层的画质的方法如上所述。

在步骤850中，第一电子设备110可分别对基础层及上位层进行编码。基础层与上位层本身的画质彼此不同，因此，编码方式本身并不局限于特定方式，可利用为了视频通话而利用的多种编码方式中的一种。或者，每层可利用彼此不同的编码方式。换言之，在本实施例中，重要的是以高于基础层的画质的画质传递上位层，因此，编码方式并不局限于特定方式，本发明所属技术领域的普通技术人员可通过已知的多个技术能够轻易理解这种编码方式。

在步骤860中，第一电子设备110可向视频通话对方传递按层编码的数据和上位层在场景中的位置信息。位置信息将上位层归并在基础层上来提高场景中特定一部分的画质，从而可用于提高整个场景的体验画质。根据需求，可进一步传递与上位层的大小有关的信息。

在此情况下，作为其他电子设备的视频通话的对方可对按层编码的数据进行解码来复原基础层和上位层，并基于位置信息来将上位层归并在基础层上，由此，可对场景的一部分复原画质高于基本画质具的场景。

图9为示出本发明一实施例的对方电子设备的视频通话方法的例的流程图。本发明实施例的视频通话方法可通过上述说明的如第二电子设备120的计算机装置进行。如上所述，第二电子设备120的处理器(未图示)可运行基于第二电子设备120的存储器(未图示)所包括的操作系统代码或至少一个计算机程序(例如，为了视频通话方法而提供的应用程序)的代码的控制指令(instruction)。其中，第二电子设备120 的处理器可根据存储于第二电子设备120的代码所提供的控制指令来对第二电子设备 120进行控制，以使第二电子设备120执行图9中的多个步骤(步骤910至步骤930)。

在步骤910中，第二电子设备120可接收对场景按层编码的数据和上位层在场景中的位置信息。在图9的实施例中，如在图8中的步骤810中说明的那样，在第一电子设备110与第二电子设备120之间设定通过服务器150进行的视频通话会话，如在图8中的步骤860中说明的那样，假设对场景按层编码的数据和上位层在场景中的位置信息通过第一电子设备110传送。在此情况下，第二电子设备120可接收这种按层编码的数据和上位层在场景中的位置信息。

在步骤920中，第二电子设备120可通过对按层编码的数据进行解码来复原对整个场景生成的基本画质的基础层及对场景的一部分生成的画质高于基本画质的上位层。

在步骤930中，第二电子设备120可基于位置信息来将上位层归并在基础层上，由此，对场景的一部分可复原画质高于基本画质的场景。

如上所述，根据本发明多个实施例，可通过提高对于视频内主要对象或主要部分的画质并传递来提高视频通话的接收人员的体验画质。并且，仅提高对于主要对象或主要部分的画质并传递，由此可以提供相同或类似的体验画质，并与提高整个视频的画质的情况相比，可减少比特率。

以上说明的系统或装置可由硬件结构要素、软件结构要素或硬件结构要素及软件结构要素的组合来实现。例如，如同处理器、控制器、算术逻辑单元(ALU，arithmetic logicunit)、数字信号处理器(digital signal processor)、微型计算机、现场可编程门阵列(FPGA，field programmable gate array)、可编程逻辑单元(PLU，programmable logicunit)、微型处理器或可运行并响应指令(instruction)的任何装置，在实施例中说明的装置及结构要素可利用一个以上的通用计算机或特殊目的计算机实现。处理装置可执行操作系统(OS)及在上述操作系统上执行的一个以上的软件应用程序。并且，处理装置还可响应软件的执行来访问、存储、操作、处理及生成数据。为了便于理解，以使用一个处理装置的情况进行说明，只要是本技术领域的普通技术人员就可理解，处理装置可包括多个处理要素(processing element)和/或多个类型的处理要素。例如，处理装置可包括多个处理器或一个处理器及一个控制器。并且，还可包括如同并行处理器(parallel processor)的其他处理结构(processing configuration)。

软件可包括计算机程序(computer program)、代码(code)、指令(instruction)或它们中的一种以上的组合，该软件能够以按所需方式运行的方式构成处理装置，或者独立地或共同地(collectively)命令处理装置。为了通过处理装置解析或向处理装置提供指令或数据，软件和/或数据可在任何类型的机械、结构要素(component)、物理装置、虚拟装置(virtual equipment)、计算机存储介质或装置具体化(embody)。软件可分散在通过网络联接的计算机系统上来以分散的方法存储或运行。软件及数据可存储于一个以上的计算机可读记录介质。

实施例的方法体现为可通过多种计算机单元执行的程序指令形态并记录于计算机可读介质。上述计算机可读介质可单独或组合包括程序指令、数据文件、数据结构等。记录在上述介质的程序指令可以为了实施例而特殊设计并构成，也可以是计算机软件的普通技术人员可公知使用的程序指令。作为计算机可读记录介质的例，包括硬件、软盘及如磁带的磁性介质(magnetic media)、如CD-ROM、DVD的光介质(optical media)、如光磁软盘(floptical disk)的磁光介质(magneto-optical media)及如只读存储器(ROM)、随机存取存储器(RAM)、闪速存储器等的为了存储并执行程序指令而特殊构成的硬件装置。这种记录介质可以为单一形态的或多个硬件结合而成的形态的多种记录单元或存储单元，而并不局限于与其他计算机系统直接联接的介质，也可以分散存在于网络。程序指令的例不仅包括通过编译器形成的机械语言代码，而且还包括使用解译器等并通过计算机执行的高级语言代码。

如上所述，通过限定的实施例和附图来对实施例进行了说明，只要是本技术领域的普通技术人员，就可通过上述记载来进行各种修改及变形。例如，即使所说明的技术以与所说明的方法不同的顺序执行，和/或所说明的系统、结构、装置、电路等的结构要素以与所说明的方法不同的形态结合或组合或者被其他结构要素或等同技术方案代替或取代也可实现适当的结果。

因此，其他实例、其他实施例及与权利要求书等同范围内的方案也属于权利要求书的范围内。

Claims

1.一种计算机可读记录介质，存储有用于在计算机中执行视频通话方法的计算机程序，其特征在于，上述视频通话方法包括：

对用于编码的整个场景生成基本画质的基础层的步骤；

提取上述场景中的一部分并对提取出的上述一部分进一步生成画质高于上述基本画质的上位层的步骤；

分别对上述基础层及上述上位层进行编码的步骤；以及

向视频通话的对方传递按层编码的数据和上述上位层在上述场景中的位置信息的步骤，

在上述视频通话的对方，对上述按层编码的数据进行解码来复原上述基础层和上述上位层，基于上述位置信息来将上述上位层归并在上述基础层上，由此对上述场景的提取出的上述一部分复原画质高于上述基本画质的场景，

上述视频通话方法还包括：

确认上述视频通话的对方的终端能力的步骤；以及

基于确认的上述终端能力确定向上述视频通话的对方传递的层的数量及上位层的画质中的至少一个的步骤，

在上述对方的终端能力的值低于第一阈值的情况下，向上述对方只传递上述基础层，

在上述对方的终端能力的值大于上述第一阈值且为第二阈值以下的情况下，向上述对方传递上述基础层和作为上述上位层且与上述视频通话的脸部对应的第一上位层，

在上述对方的终端能力的值大于上述第二阈值的情况下，向上述对方传递上述基础层、上述第一上位层及作为上述上位层且与上述脸部的已设定的部位对应的第二上位层，

上述第二上位层的画质高于上述第一上位层的画质。

2.根据权利要求1所述的计算机可读记录介质，其特征在于，

上述视频通话方法还包括如下的步骤：接收对上述场景以像素单位或区分上述场景的块单位标记质量加权值的元数据，

上述场景的提取出的上述一部分包括通过标记相同值的质量加权值的多个像素识别的区域或通过标记相同值的质量加权值的多个块识别的区域。

3.根据权利要求2所述的计算机可读记录介质，其特征在于，

根据上述质量加权值来确定上述上位层的画质。

4.根据权利要求1所述的计算机可读记录介质，其特征在于，

上述视频通话方法还包括如下的步骤：提供使用人员能够选择上述场景内的对象或设定上述场景内的区域的功能，

上述场景的提取出的上述一部分包括与通过上述功能选择的对象对应的部分或通过上述功能设定的区域。

5.根据权利要求1所述的计算机可读记录介质，其特征在于，

上述视频通话方法还包括：

进一步确认上述视频通话的网络通信量的步骤；以及

进一步基于确认的上述网络通信量确定向上述视频通话的对方传递的层的数量及上位层的画质中的至少一个的步骤。

6.一种计算机可读记录介质，存储有用于在计算机中执行视频通话方法的计算机程序，其特征在于，上述视频通话方法包括：

接收对场景按层编码的数据和上位层在上述场景中的位置信息的步骤；

对上述按层编码的数据进行解码来复原对整个上述场景生成的基本画质的基础层及对上述场景的提取出的一部分进一步生成的画质高于上述基本画质的上述上位层的步骤；以及

基于上述位置信息来将上述上位层归并在上述基础层上，由此对上述场景的提取出的上述一部分复原画质高于上述基本画质的场景的步骤，

上述视频通话方法还包括：

确认上述视频通话的对方的终端能力的步骤；以及

上述第二上位层的画质高于上述第一上位层的画质。

7.根据权利要求6所述的计算机可读记录介质，其特征在于，

在上述视频通话的发送方，分别生成上述基础层及上述上位层来进行编码，传递按层编码的数据和上述上位层在上述场景中的位置信息。

8.根据权利要求6所述的计算机可读记录介质，其特征在于，

在上述视频通话的发送方，通过对上述场景以像素单位或区分上述场景的块单位标记质量加权值的元数据，将通过标记相同值的质量加权值的多个像素识别的区域或通过标记相同值的质量加权值的多个块识别的区域识别成上述场景的提取出的上述一部分来生成上述上位层。

9.一种视频通话方法，其特征在于，包括：

对用于编码的整个场景生成基本画质的基础层的步骤；

分别对上述基础层及上述上位层进行编码的步骤；以及

上述视频通话方法还包括：

确认上述视频通话的对方的终端能力的步骤；以及

上述第二上位层的画质高于上述第一上位层的画质。

10.根据权利要求9所述的视频通话方法，其特征在于，

还包括如下的步骤：接收对上述场景以像素单位或区分上述场景的块单位标记质量加权值的元数据，

11.根据权利要求10所述的视频通话方法，其特征在于，

根据上述质量加权值来确定上述上位层的画质。

12.根据权利要求9所述的视频通话方法，其特征在于，

还包括如下的步骤：提供使用人员能够选择上述场景内的对象或设定上述场景内的区域的功能，

13.根据权利要求9所述的视频通话方法，其特征在于，还包括：

进一步确认上述视频通话的网络通信量的步骤：以及