CN109831638A - 视频图像传输方法、装置、交互智能平板和存储介质 - Google Patents

视频图像传输方法、装置、交互智能平板和存储介质 Download PDF

Info

Publication number
CN109831638A
CN109831638A CN201910063004.7A CN201910063004A CN109831638A CN 109831638 A CN109831638 A CN 109831638A CN 201910063004 A CN201910063004 A CN 201910063004A CN 109831638 A CN109831638 A CN 109831638A
Authority
CN
China
Prior art keywords
image
video
semantic information
video image
reference picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910063004.7A
Other languages
English (en)
Other versions
CN109831638B (zh
Inventor
杨铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Shiyuan Electronics Thecnology Co Ltd
Guangzhou Shizhen Information Technology Co Ltd
Original Assignee
Guangzhou Shiyuan Electronics Thecnology Co Ltd
Guangzhou Shizhen Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Shiyuan Electronics Thecnology Co Ltd, Guangzhou Shizhen Information Technology Co Ltd filed Critical Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority to CN201910063004.7A priority Critical patent/CN109831638B/zh
Publication of CN109831638A publication Critical patent/CN109831638A/zh
Priority to EP19911814.2A priority patent/EP3902247A4/en
Priority to PCT/CN2019/127770 priority patent/WO2020151443A1/zh
Priority to JP2021542217A priority patent/JP7250937B2/ja
Priority to US17/417,550 priority patent/US20220051024A1/en
Priority to KR1020217021786A priority patent/KR102594030B1/ko
Priority to AU2019424397A priority patent/AU2019424397B2/en
Application granted granted Critical
Publication of CN109831638B publication Critical patent/CN109831638B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/39Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability involving multiple description coding [MDC], i.e. with separate layers being structured as independently decodable descriptions of input picture data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/4788Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/155Conference systems involving storage of or access to video conference sessions

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Television Signal Processing For Recording (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明涉及视频图像传输方法、装置、交互智能平板和存储介质,应用于图像传输技术领域。所述方法包括:获取第一视频通信端拍摄的视频图像;获取所述视频图像中的语义信息;向第二视频通信端发送所述语义信息;所述语义信息用于在所述第二视频通信端重构出所述视频图像的重构图像。本发明实施例的视频图像传输,使得视频图像中的重要信息能够得到高度还原,兼顾视频通信中对图像分辨率、保真度和传输实时性的要求。

Description

视频图像传输方法、装置、交互智能平板和存储介质
技术领域
本发明涉及图像处理技术领域,特别是涉及视频通信的视频图像传输方法、装置、系统、交互智能平板和存储介质。
背景技术
随着网络技术的发展和需求的增长,用户对视频通信的画面质量提出了更高的要求,包括分辨率要求,保真度要求以及实时传输。例如在视频会议中,实时交互是良好体验的前提,同时要求视频图像达到高分辨率,以及要求尽可能保留重要的图像信息(例如人脸细节、肢体动作细节等信息)。
在实现本发明的过程中,发明人发现现有技术中存在如下问题:为了保证视频图像达到高分辨率和高保真都,则需要降低发送端的视频图像压缩率,因此需要通过网络传输大量的图像数据,数据传输效率低,无法保证实时传输;若保证实时传输,一般需要通过有损压缩技术对提高视频图像压缩率,然而却导致视频图像信息丢失严重,无法满足视频通信中对图像高分辨率和高保真度的要求。
可见,目前针对视频通信中的视频图像的传输方案,无法兼顾高分辨率、高保真度以及实时传输的要求。
发明内容
基于此,有必要针对现有方式视频图像的传输技术无法兼顾高分辨率、高保真度以及实时传输的问题,提供一种视频图像传输方法、装置、系统、交互智能平板和存储介质。
根据本发明的第一方面,提供视频图像传输方法,包括:
获取第一视频通信端拍摄的视频图像;提取所述视频图像的语义信息;向第二视频通信端发送所述语义信息;所述语义信息用于在所述第二视频通信端重构出所述视频图像的重构图像。
在其中一个实施例中,所述获取所述视频图像中的语义信息的步骤,包括:通过经过训练的编码器提取所述视频图像的语义信息;所述编码器用于识别图像语义信息。
在其中一个实施例中,所述编码器的输入为图像,输出为输入图像对应的低维向量,作为输入图像的语义信息。
在其中一个实施例中,所述编码器为卷积神经网络。
在其中一个实施例中,所述视频图像中的语义信息包括以下任意一种:所述视频图像中设定对象的语义信息;所述视频图像的全局语义信息。
在其中一个实施例中,提取所述视频图像中设定对象的语义信息的步骤,包括:识别所述视频图像中的设定对象,得到所述设定对象的子图像;将所述设定对象的子图像输入经过训练的编码器;获取所述编码器的输出,得到所述视频图像中所述设定对象的语义信息。
在其中一个实施例中,所述设定对象包括人脸或者人体。
在其中一个实施例中,如果所述设定对象为人脸,所述提取所述视频图像中设定对象的语义信息的步骤,包括:识别所述视频图像中的人脸区域,得到人脸子图像;将所述人脸子图像输入经过训练的编码器;获取所述编码器的输出,得到所述视频图像中的人脸语义信息。
在其中一个实施例中,如果所述设定对象为人体,所述提取所述视频图像中设定对象的语义信息的步骤,包括:识别所述视频图像中的人体区域,得到人体子图像;将所述人体子图像输入经过训练的编码器;获取所述编码器的输出,得到所述视频图像中的人体语义信息。
在其中一个实施例中,提取所述视频图像中的全局语义信息的步骤,包括:
将所述视频图像输入经过训练的编码器;获取所述编码器的输出,得到所述视频图像中的全局语义信息。
在其中一个实施例中,还包括:每间隔N帧采用设定的图像传输模式向第二视频通信端发送第一参考图像;在设定的图像传输模式下传输的所述第一参考图像的数据量,大于所述语义信息的数据量;N大于1;
所述第一参考图像属于所述第一视频通信端拍摄的视频图像;所述第一参考图像,用于使所述第二视频通信端根据所述语义信息以及所述第一参考图像,重构出所述视频图像的重构图像。
在其中一个实施例中,若所述语义信息为设定对象的语义信息,所述第一参考图像,用于使所述第二视频通信端根据接收到的语义信息得到所述设定对象的重构子图像,将所述重构子图像与所述第一参考图像融合,得到所述视频图像的重构图像。
在其中一个实施例中,若所述语义信息为全局语义信息,所述第一参考图像,用于使所述第二视频通信端根据接收到的语义信息得到初始重构图像,将所述初始重构图像与所述第一参考图像融合,得到所述视频图像的重构图像。
在其中一个实施例中,若所述语义信息为设定对象的语义信息,所述方法还包括:获取所述视频图像中设定对象的位置信息;向所述第二视频通信端发送所述位置信息;所述位置信息用于使所述第二视频通信端根据所述位置信息将所述设定对象的重构子图像与所述第一参考图像融合,得到所述视频图像的重构图像。
在其中一个实施例中,所述方法还包括:采用设定的图像传输模式向所述第二视频通信端发送第二参考图像;在所述设定的图像传输模式下传输的所述第二参考图像的数据量,大于所述语义信息的数据量;
所述第二参考图像为所述设定对象的图像、所述第一视频通信端的环境图像中至少一个;所述第二参考图像,用于使所述第二视频通信端根据所述语义信息以及所述第二参考图像,重构出所述视频图像的重构图像。
根据本发明的第二方面,提供一种视频图像传输方法,包括:
接收视频图像的语义信息;所述视频图像为所述第一视频通信端拍摄的视频图像;根据所述语义信息重构图像,得到所述视频图像的重构图像;通过第二视频通信端的显示屏显示所述重构图像。
在其中一个实施例中,所述根据所述语义信息重构图像,得到所述视频图像的重构图像的步骤,包括:根据所述语义信息以及预先训练的解码器重构图像,得到所述视频图像的重构图像。
在其中一个实施例中,所述解码器的输入为图像语义信息,输出为基于输入语义信息重构的图像。
在其中一个实施例中,所述解码器为卷积神经网络。
在其中一个实施例中,所述视频图像的语义信息包括以下任意一种:
所述视频图像中的设定对象的语义信息;所述视频图像的全局语义信息。在其中一个实施例中,所述设定对象包括人脸或者人体。
在其中一个实施例中,根据所述语义信息重构图像,得到所述视频图像的重构图像的步骤包括:获取最近时间通过设定的图像传输模式接收的第一参考图像;所述第一参考图像为所述第一视频通信端发送的其拍摄的视频图像;通过设定的图像传输模式接收到的所述第一参考图像的数据量,大于所述语义信息的数据量;根据所述语义信息和所述第一参考图像重构图像,得到所述视频图像的重构图像。
在其中一个实施例中,所述方法还包括:每间隔N帧通过设定的图像传输模式接收来自所述第一视频通信端的第一参考图像;N大于1。
在其中一个实施例中,如果所述语义信息为设定对象的语义信息,根据所述语义信息和所述第一参考图像重构图像,得到所述视频图像的重构图像的步骤,包括:将所述语义信息输入经过训练的解码器;获取所述解码器的输出,得到所述设定对象的重构子图像;将所述设定对象的重构子图像与所述第一参考图像融合,得到所述视频图像的重构图像。
在其中一个实施例中,如果所述语义信息为图像的全局语义信息,根据所述语义信息和所述第一参考图像重构图像,得到所述视频图像的重构图像的步骤,包括:将所述语义信息输入经过训练的解码器;获取所述解码器的输出,得到初始重构图像;将所述初始重构图像与所述第一参考图像融合,得到所述视频图像的重构图像。
在其中一个实施例中,包括:若所述语义信息为人脸语义信息,获取所述解码器的输出,得到人脸的重构子图像;若所述语义信息为人体语义信息,获取所述解码器的输出,得到人体的重构子图像。
在其中一个实施例中,还包括:接收所述第一视频通信端发送的位置信息;所述位置信息为所述视频图像中所述设定对象的位置信息;
所述将所述设定对象的重构子图像与所述第一参考图像融合,得到所述视频图像的重构图像的步骤,包括:根据所述位置信息将所述设定对象的重构子图像与所述第一参考图像融合,得到所述视频图像的重构图像。
在其中一个实施例中,所述接收所述第一视频通信端发送的位置信息的步骤,包括:接收所述第一视频通信端发送的第一位置信息;所述第一位置信息为所述视频图像中人脸区域的位置信息;接收所述第一视频通信端发送的第二位置信息;所述第二位置信息为所述视频图像中人体区域的位置信息。
在其中一个实施例中,根据所述位置信息将所述设定对象的重构子图像与所述第一参考图像融合的步骤之前,还包括:对所述设定对象的重构子图像进行边缘羽化处理。
在其中一个实施例中,根据所述语义信息重构图像,得到所述视频图像的重构图像的步骤,包括:获取通过设定的图像传输模式接收到的第二参考图像;所述第二参考图像为设定对象的图像、所述第一视频通信端的环境图像中至少一种;通过设定的图像传输模式接收到的所述第二参考图像的数据量,大于所述语义信息的数据量;根据所述语义信息和所述第二参考图像重构图像,得到所述视频图像的重构图像。
根据本发明的第三方面,提供视频图像传输方法,包括:
第一视频通信端获取拍摄到的视频图像,获取所述视频图像的语义信息,向第二视频通信端发送所述语义信息;所述第二视频通信端接收所述语义信息,根据所述语义信息重构图像,得到所述视频图像的重构图像,通过第二视频通信端的显示屏显示所述重构图像。
根据本发明的第四方面,提供一种视频图像传输装置,包括:
图像获取模块,用于获取第一视频通信端拍摄的视频图像;
信息提取模块,用于提取所述视频图像的语义信息;
发送模块,用于向第二视频通信端发送所述语义信息;所述语义信息用于在所述第二视频通信端重构出所述视频图像的重构图像。
在其中一个实施例中,所述信息提取模块,具体用于通过经过训练的编码器提取所述视频图像的语义信息;所述编码器用于识别图像语义信息。
在其中一个实施例中,所述编码器的输入为图像,输出为输入图像对应的低维向量,作为输入图像的语义信息。
在其中一个实施例中,所述视频图像中的语义信息包括以下任意一种:
所述视频图像中设定对象的语义信息;所述视频图像的全局语义信息。
在其中一个实施例中,还包括:
第一参考图像发送模块,用于每间隔N帧采用设定的图像传输模式向第二视频通信端发送第一参考图像;在设定的图像传输模式下传输的所述第一参考图像的数据量,大于所述语义信息的数据量;N大于1;
所述第一参考图像属于所述第一视频通信端拍摄的视频图像;所述第一参考图像,用于使所述第二视频通信端根据所述语义信息以及所述第一参考图像,重构出所述视频图像的重构图像。
在其中一个实施例中,还包括:
第二参考图像发送模块,用于采用设定的图像传输模式向所述第二视频通信端发送第二参考图像;在所述设定的图像传输模式下传输的所述第二参考图像的数据量,大于所述语义信息的数据量;
所述第二参考图像为所述设定对象的图像、所述第一视频通信端的环境图像中至少一个;所述第二参考图像,用于使所述第二视频通信端根据所述语义信息以及所述第二参考图像,重构出所述视频图像的重构图像。
根据本发明的第五方面,提供视频图像传输装置,包括:
信息接收模块,用于接收视频图像的语义信息;所述视频图像为所述第一视频通信端拍摄的视频图像;
图像重构模块,用于根据所述语义信息重构图像,得到所述视频图像的重构图像;
图像显示模块,用于通过第二视频通信端的显示屏显示所述重构图像。
在其中一个实施例中,所述图像重构模块,具体用于根据所述语义信息以及预先训练的解码器重构图像,得到所述视频图像的重构图像。
在其中一个实施例中,所述视频图像的语义信息包括以下任意一种:所述视频图像中的设定对象的语义信息;所述视频图像的全局语义信息。
在其中一个实施例中,所述图像重构模块,包括:
第一参考图像获取子模块,用于获取最近时间通过设定的图像传输模式接收的第一参考图像;所述第一参考图像为所述第一视频通信端发送的其拍摄的视频图像;通过设定的图像传输模式接收到的所述第一参考图像的数据量,大于所述语义信息的数据量;
第一图像重构子模块,用于根据所述语义信息和所述第一参考图像重构图像,得到所述视频图像的重构图像。
在其中一个实施例中,还包括:第一参考图像接收子模块,用于每间隔N帧通过设定的图像传输模式接收来自所述第一视频通信端的第一参考图像;N大于1。
在其中一个实施例中,所述图像重构模块,包括:
第二参考图像获取子模块,用于获取通过设定的图像传输模式接收到的第二参考图像;所述第二参考图像为设定对象的图像、所述第一视频通信端的环境图像中至少一种;通过设定的图像传输模式接收到的所述第二参考图像的数据量,大于所述语义信息的数据量;
第二图像重构子模块,用于根据所述语义信息和所述第二参考图像重构图像,得到所述视频图像的重构图像。
根据本发明的第六方面,提供一种视频图像传输的系统,包括第一视频通信端和第二视频通信端;所述第一视频通信端之间第二视频通信端视频通信连接;
所述第一视频通信端,用于获取拍摄到的视频图像,获取所述视频图像的语义信息,向第二视频通信端发送所述语义信息;
所述第二视频通信端,用于接收所述语义信息,根据所述语义信息重构图像,得到所述视频图像的重构图像,通过第二视频通信端的显示屏显示所述重构图像。
根据本发明的第七方面,提供一种交互智能平板,包括摄像装置、显示屏、存储器和处理器,所述存储器存储有计算机程序,所述交互智能平板通过所述摄像装置拍摄视频图像;
所述处理器执行所述程序时,用于提取所述摄像装置拍摄的视频图像的语义信息,向其他交互智能平板发送所述语义信息;
所述处理器执行所述程序时,还用于接收其他交互智能平板发送的视频图像的语义信息,根据所述语义信息重构图像,得到其他交互智能平板发送的视频图像的重构图像,通过所述显示屏显示所述重构图像。
根据本发明的第八方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一实施例的视频图像传输方法的步骤。
实施本发明提供的实施例,在视频通信中,发送端需要传输视频图像时,获取所述视频图像的语义信息,向接收端发送所述语义信息;接收端接收所述语义信息之后,可根据所述语义信息重构发送端的视频图像,由此得到重构图像,并通过接收端的显示屏显示所述重构图像。一方面,在视频通信则,传输一个视频图像仅需要传输极少的数据量,对网络带宽要求非常低,能满足实时传输的要求;另一方面,通过对视频图像基于语义信息进行压缩和还原,使得视频图像的接收端能够重构出较高质量的图像,兼顾视频通信中对图像高分辨率与高保真度的要求。
附图说明
图1为一个实施例中视频图像传输方法适用的系统环境图;
图2为一实施例的视频图像传输方法的示意性流程图;
图3为另一实施例的视频图像传输方法的示意性流程图;
图4为一实施例的构建编码器和解码器的模型示意图;
图5为一实施例的基于图像发送端的视频图像传输方法的示意性流程图;
图6为一实施例的基于图像接收端的视频图像传输方法的示意性流程图;
图7为一实施例的视频图像传输装置的示意性结构图;
图8为另一实施例的视频图像传输装置的示意性结构图;
图9为一个实施例中交互智能平板的内部结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本申请提供的视频图像传输方法,可以适用于如图1所示的系统环境中,其中至少两个计算机设备100通过网络通信连接。计算机设备100可以是膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、导航设备、交互智能平板、可穿戴设备、智能机车、其他智能家居设备或者这些设备中的任意几种设备的组合。
在本发明实施例中,计算机设备100中安装有用于实现视频通信的应用软件,例如视频会议软件、即时通信软件等,通过这样的应用软件可以在至少两个计算机设备100之间建立视频通信。在视频通信中,任一计算机设备100既作为视频图像的发送端,将本端采集到的视频的帧图像发送给其他计算机设备100,同时也可以作为视频图像的接收端,以接收其他计算机设备100发送的视频的帧图像并显示。
此外,计算机设备100中还可以安装有其他应用程序,如文本编辑类应用程序、文稿演示类应用程序、即时通讯类应用程序、图像编辑类应用程序、社交类应用程序、电商类应用程序、搜索类应用程序、浏览器类应用程序等等。其中,文本编辑类应用程序如电子白板应用、电子黑板应用,文稿演示类应用程序如无线投屏应用。
在一些实施例中,可以交互智能平板作为计算机设备的一个实例。交互智能平板可以是通过触控技术对显示在显示平板上的内容进行操控和实现人机交互操作的一体化设备,其集成了投影机、电子白板、幕布、音响、电视机以及视频会议终端等一种或多种功能。交互智能平板显示屏为触摸屏,该触摸屏可以包括电容屏,电磁屏或红外屏等;该触摸屏可以接收用户通过手指或者输入设备输入的触摸操作;其中,输入设备包括但不限定于电容笔、电磁笔和/或红外笔等。
在一个实施例中,提供了一种视频图像传输方法,参考图2所,该方法包括以下步骤:
S110,第一视频通信端获取视频图像,所述视频图像为所述第一视频通信端拍摄的视频中的帧图像。
视频通信例如视频会议、视频通话等,一般是按照帧进行视频图像传输,其中,第一视频通信端为视频通信中有视频图像需要传输的终端,可以理解为视频图像的发送端。第一视频通信端获取的视频图像,即是第一视频通信端的摄像设备拍摄的视频会议或者视频通话场景下视频图像。
在视频通信中,每个视频通信端既需要向其他视频通信端传输视频图像,又需要接收其他视频通信端的视频图像,因此,在视频通信中,第一视频通信端可为参与视频通信的任一终端。
S120,第一视频通信端提取所述视频图像中的语义信息。
图像是由许多像素组成,语义就是图像中像素信息。获取图像中的语义信息,可以理解为提取图像像素的深层特征信息,这些信息能够表征视频图像中的重要细节。比如在视频会议中的视频图像,其中的语义信息可以包括参与会议的人物的面部神态特征信息、肢体行为特征信息等,或者是会议的环境信息,例如会议室的桌子、椅子等信息。
本发明一些实施例中,从视频图像中获取到的语义信息,既可以是图像中设定对象(人脸、人体、桌子、椅子等)的语义信息,也可以是图像的全局语义信息,例如图像的关键像素特征信息等。
S130,第一视频通信端向第二视频通信端发送所述语义信息。
相对于视频图像中包含全部信息,从视频图像中获取到的语义信息的数据量较小,因此能够有利于实现视频图像的实时传输。
S210,第二视频通信端接收第一视频通信端发送的语义信息,根据所述语义信息进行图像重构,得到所述视频图像的重构图像。
其中,基于图像的语义信息进行图像压缩和图像重构,相对于传统的基于图像的浅层信息进行编码压缩和重构,能够保留更多的图像细节,使得视频通信中的图像能够兼顾高保真度和实时性的要求。
S220第二视频通信端显示重构图像。
通过上述实施例的视频图像传输方法,在视频通信中,发送端需要传输视频图像时,获取所述视频图像的语义信息,向接收端发送所述语义信息;接收端接收所述语义信息之后,可根据所述语义信息重构发送端的视频图像,由此得到重构图像,并通过接收端的显示屏显示所述重构图像。一方面,在视频通信则,传输一个视频图像仅需要传输极少的数据量,对网络带宽要求非常低,能满足实时传输的要求;另一方面,通过对视频图像基于语义信息进行压缩和还原,使得视频图像的接收端能够重构出较高质量的图像,兼顾视频通信中对图像高分辨率与高保真度的要求。
进一步地,以视频会议为例,本地用户和远端用户分别通过第一视频通信端和第二视频通信端参与视频会议,第一视频通信端拍摄本地用户在会议中的视频图像,作为待传输的视频图像,参考图3所示,第一视频通信端向第二视频通信端传输该视频图像的实现过程如下:
步骤S302,在第一视频通信端,提取视频图像的语义信息。
在第一视频通信端,可通过预先训练好的编码器提取视频图像的语义信息,在一些实施例中,编码器可采用卷积神经网络,该编码器的输入为待传输的视频图像,输出为视频图像对应的低维向量。
也可将编码器可以看作是一个转换函数f,该转换函数f可将待传输的视频图像I转换为低维向量y,即y=f(I)。y即视频图像I的语义信息,y可以是64维或者128维的向量,足以抓取视频会议中的视频图像中最重要的信息,实现高质量的图像重构,同时也能减小需要传输的数据量。
需要说明的是,本发明实施例中的低维向量和语义信息,是对视频会议场景下的视频图像进行学习,提取到的能够表征视频图像中重要细节的信息,这些信息有别于其他场景下的语义信息;换言之,本发明实施例中的低维向量和语义信息,并非人类思维理解的特征信息,而是人类思维无法理解的图像深层信息。
步骤S303,第一视频通信端向第二视频通信端传输提取到的语义信息。
由于视频图像I的语义信息y只需要极少的数据量表示,例如:语义信息y可以是一个64维的浮点数向量,那么每帧视频图像仅仅需要传输64*4=256byte的数据,如果视频帧率为30Hz,则所需的带宽是256*30=7680Bps=7.68KBps。可见,该图像传输模式对网络环境的带宽需求较低。
步骤S402,第二视频通信端接收语义信息,基于语义信息进行图像重构,得到第一视频通信端的视频图像的重构图像。
当第二视频通信端接收到语义信息y后,第二视频通信端可将语义信息y作为通过一个预先训练好的解码器的输入,通过解码器进行图像重构。其中解码器可看作是一个转换函数g,该转换函数g可将低维度的语义信息y转换为重构图像I′,即I′=g(y)。
进一步地,上述实施例的编码器和解码器的应满足以下条件:适用于视频会议场景;编码器f能够对视频图像进行紧凑编码,输出低维度的语义信息;解码器g能够还原视频图像中最重要的信息(比如人脸神态细节、肢体动作细节等),以得到高质量的重构图像。
在一些实施例中,参考图4所示,可基于Encoder-decoder网络设计编码器f和解码器g,其中,左侧(即网络低层)由一系列的卷积操作层构成(图中仅示例了两层,实际情况下可设置其他数量的卷积操作层),中间层输出一个低维向量,这部分相当于编码器;传输低维向量到远端(即接收端)。右侧(即网络高层)根据这个低维向量通过一系列的反卷积得到重构图像y,该过程相当于解码器;可见编码器f和解码器g均可采用卷积神经网络。
按照上述Encoder-decoder网络来设置编码器f和解码器g,对视频会议中的图像数据训练,足以达到较好的压缩率;然而重构图像的分辨率可能较低,毕竟低维向量只包含图像的深层语义信息。为了克服该问题,在一实施例中,在传统Encoder-decoder网络基础上,还采用U-Net思想对Encoder-decoder网络进行优化,即把网络中低层(例如图4中的卷积层)输出的特征向量也提取一部分拼到中间层输出的低维向量上,这样向远端传输的数据量增加,但即便增加了这部分信息,需向远端传输的数据量仍然远小于传统压缩方法。
通过U-Net对网络的优化,可根据网络状况动态调节对视频图像的压缩率和接收端重构的画面质量,当网络状况较好时,从网络低层输出的特征向量中提取较多信息拼到中间层输出的低维向量上,使得接收端重构的画面质量较高;当网络状况较差时,从网络低层输出的特征向量中提取较少信息拼到中间层输出的低维向量上,或者不从网络低层输出的特征向量中提取信息进行拼接,使得视频图像发送端的图像压缩率较高,有利于视频图像的实时传输。
步骤S404,第二视频通信端显示视频图像的重构图像。
根据本发明一实施例,结合图4以及上述实施例可知,编码器f可以由一系列卷积操作构成,解码器g可以由一系列反卷积操作构成。
具体地,可按以下优化目标训练出符合要求的编码器f和解码器g:
f,g=argf,gmin||I-g(f(I))||2
其中,g(f(I))表示视频图像I经过编码器f后得到的语义信息通过解码器g解码还原后得到的重构图像,argf,gmin||I-g(f(I))||2表示当视频图像I与重构图像的残差最小时的编码器f和解码器g。
可以理解的,除上述示例的Encoder-decoder之外,也可以采用其他生成模型构建满足条件的编码器和解码器。
对于视频会议场景下的视频图像,其中最重要的图像信息是人物表情、口型等细节。在一些实施例中,以人脸作为设定对象为例,第一视频通信端提取视频图像中的人脸语义信息,第二视频通信端通过相应的解码器基于人脸语义信息进行图像重构,以还原视频图像中的人物面部细节。
为了获得视频会议中更多的视频图像细节,还可以将人体作为设定对象,第一视频通信端从视频图像中提取出人体语义信息,人体语义信息包括脸部神态信息和肢体动作信息等与人本身有关的信息;第二视频通信端通过相应的解码器基于人体语义信息进行图像重构,以还原视频图像中的人物整体细节。
基于上述实施例,能够保证视频会议中图像传输的实时性,以及接收端还原图像细节,但是由于传输的语义信息数据量较小,难以保证接收端的高分辨率。针对该问题,在一实施例中,第一视频通信端每间隔N帧(N大于1,N取值可以根据实际情况调整)采用设定图像传输模式向所述第二视频通信端传输第一参考图像;在所述设定图像传输模式下传输的所述第一参考图像的数据量,大于所述语义信息的数据量。其中,第一参考图像为所述第一视频通信端拍摄的视频图像;所述第一参考图像用于使所述第二视频通信端根据所述视频图像的语义信息以及所述第一参考图像,重构所述视频图像的重构图像。
例如:第一视频通信端每隔100帧向第二视频通信端传输完整的一帧视频图像,在接下来的99帧视频图像中,第二视频通信端接收到视频图像的低维的语义信息时,可结合这一帧完整的视频图像的信息共同重构图像,得到更高分辨率的重构图像。
下面以人脸的语义信息和人体的语义信息为例,分别进行说明。继续参考图3所示,上述的第一视频通信端与第二视频通信端之间的视频图像传输还包括以下步骤:
步骤S300,第一视频通信端按照设定的帧间隔,通过设定图像传输模式向所述第二视频通信端发送参考图像(本实施例中即第一参考图像)。
其中,参考图像也是第一视频通信端拍摄的视频图像。第一视频通信端可以采用基于块的图像压缩方式得到参考图像的图像编码信息,即在第一视频通信端与第二视频通信端之间,除了基于语义信息的图像传输之外,还包括其他图像传输模式,其中其他图像传输模式是间隔执行,且对图像的压缩率更低,传输的数据量更大。
步骤S401,第二视频通信端接收参考图像。
在视频会议中,第一视频通信端以间隔帧的方式向第二视频通信端发送参考图像,第二视频通信端在得到参考图像之后,由于在视频会议中,相邻帧的视频图像的像素变化一般较小,例如只有人物的表情或者肢体对应的像素发生变化,其他会议室的环境信息并没有变化;因此第二视频通信端接收到的语义信息,可能就是发生变化的像素信息,因此第二视频通信端可基于少量的语义信息和数据量更大的参考图像,高度还原视频图像,提高了第二视频通信端重构图像的分辨率。由于参考图像是间隔发送的,因此对传输带宽和实时性的影响较小。
在一些实施例中,第二视频通信端实时收到的语义信息,若为视频图像中设定对象的语义信息,则可重构出设定对象的重构子图像,将该设定对象的重构子图像与所述参考图像的重构图像融合,由此得到第一视频通信端的视频图像的重构图像。
在其他一些实施例中,第一视频通信端与第二视频通信端之间的视频图像传输还包括以下步骤:
步骤S301,第一视频通信端对视频图像进行前处理。
第一视频通信端对视频图像进行的前处理,包括识别所述视频图像中的设定对象,得到所述视频图像中所述设定对象的子图像;然后将所述设定对象的子图像输入经过训练的编码器,获取所述编码器的输出,得到所述视频图像中所述设定对象的语义信息;所述编码器用于识别输入图像中所述设定对象的语义信息并输出。以人脸作为设定对象为例,第一视频通信端从视频图像识别出人脸区域,得到所述视频图像对应的人脸子图像;然后将人脸子图像输入经过训练的编码器,获取所述编码器的输出,由此得到所述视频图像中的人脸语义信息。
步骤S403,第二视频通信端接收所述设定对象的语义信息,在基于接收到的所述设定对象的语义信息得到所述设定对象的重构子图像之后,可以对重构出的人脸图像或者人体图像的进行后处理。后处理包括:将所述设定对象的重构子图像与所述参考图像融合,得到所述视频图像的重构图像。
以人脸作为设定对象为例,第二视频通信端基于人脸语义信息得到人脸的重构图像之后,对人脸的重构图像进行后处理。第二视频通信端对人脸的重构图像进行后处理包括:将人脸的重构图像叠加到所述参考图像的重构图像中,由此得到第一视频通信端的视频图像的重构图像。
进一步地,根据本发明一实施例,第一视频通信端还需获取所述视频图像中设定对象的位置信息,向所述第二视频通信端发送所述位置信息;所述位置信息用于使得所述第二视频通信端根据所述位置信息将所述设定对象的重构子图像与所述参考图像进行叠加,得到所述视频图像的重构图像。
具体地,以人脸作为设定对象为例,第一视频通信端获取视频图像中人脸区域的位置信息;向第二视频通信端发送所述位置信息;当第二视频通信端接收第一视频通信端发送的人脸的位置信息之后,可以根据人脸的位置信息将人脸的重构图像与参考图像的重构图像进行叠加,得到第一视频通信端的视频图像的重构图像。
进一步地,为了提高视频图像的重构图像的质量,根据本发明一实施例,上述视频图像传输方法还包括:第二视频通信端在根据所述位置信息将所述设定对象的重构子图像与所述参考图像融合之前,还可以对所述设定对象的重构子图像进行边缘羽化处理,然后将边缘羽化处理之后的设定对象的重构子图像与参考图像的重构图像进行叠加,由此得到第一视频通信端的视频图像的重构图像。
具体地,以人脸作为设定对象为例,第二视频通信端在进行图像叠加之前,先对人脸重构图像进行边缘羽化处理,然后将边缘羽化处理之后的人脸重构图像与参考图像的重构图像进行叠加,由此得到第一视频通信端的视频图像的重构图像。通过本实施例,以获得更佳的叠加融和效果,提高第二视频通信端显示的重构图像的图像质量。
在其他一些实施例中,为了获得视频会议的全面细节,第一视频通信端从视频图像中提取出的语义信息还可以是图像全局语义信息,可以通过相应的编码器实现;第二视频通信端基于全局语义信息进行图像重构,以还原视频图像中的全局细节信息。当基于全局语义信息进行图像传输和重构时,第一视频通信端不必须执行上述的视频图像的前处理,第二视频通信端也无需执行重构图像的后处理。
可以理解的,根据实际场景需要,可以基于人脸语义、人体语义或者图像全局语义预先进行编码器和解码器的训练。例如,将人脸图像作为训练数据,训练出符合要求的编码器和解码器;或者,将人体图像作为训练数据,训练出符合要求的编码器和解码器;或者,将视频图像整体作为训练数据,训练出符合要求的编码器和解码器。
在其他实施例中,第一视频通信端还可以采用设定的图像传输模式向所述第二视频通信端发送其他类型的参考图像(即第二参考图像);在所述设定的图像传输模式下传输的第二参考图像的数据量,大于所述语义信息的数据量;这里的第二参考图像可以为设定对象的图像、第一视频通信端的环境图像中至少一个;通过传输第二参考图像,使得第二视频通信端结合所述语义信息和所述第二参考图像,重构出所述视频图像的重构图像。
具体例如:第一视频通信端预先设置视频会议场景中与会人员的高清照片和/或会议室的高清照片作为第二参考图像,采用设定的图像传输模向第二视频通信端传输完整的第二参考图像;第二视频通信端接收第二参考图像并保存,在接收到各帧视频图像的语义信息后,可结合第二参考图像的详细信息重构图像。因此即便在语义信息较少的情况下,第二视频通信端也可根据第二参考图像重构出高分辨率的重构图像。
进一步地,如果一帧一帧独立地视频图像的编解码,可能会出现帧间不一致的问题,表现为在接收端显示的视频内容可能会有不同程度的跳变。针对该问题,在一实施例中,在视频会议场景下的视频图像传输,实际会有多个网络分支,编码器的输入并不只是当前帧的视频图像,还包括当前帧之前的M帧的视频图像,所以编码后的低维向量不仅包含当前帧的语义信息,还包括前序若干帧的语义信息;对应地,在接收端解码器也会结合当前帧的语义信息和前序若干帧的语义信息,重构出帧间一致的视频图像。通过本实施例,可有效解决接收端视频内容的跳变问题。
相比传统方案的视频图像传输方案,通过上述实施例,在视频会议中,各视频通信端得到的高分辨率的重构图像;并且由于大部分视频图像需要传输的语义信息的数据量很少,即便在较差网络环境下,也能够快速完成传输,保证实时性;在基于语义信息和参考图像进行图像重构时,能保留视频图像中重要的信息(尤其是人脸细节、肢体动作细节等);因此能够获得良好的视频会议体验。
基于上述视频图像传输方法的相同的思想,本文还提供了一种视频图像传输方法的实施例,本实施例中,第一视频通信端为视频图像的发送端。参见图5所示,在第一视频通信端的角度,视频图像传输方法包括以下步骤:
S510,获取第一视频通信端拍摄的视频图像;
S520,获取所述视频图像中的语义信息;
S530,向第二视频通信端发送所述语义信息;所述语义信息用于使得所述第二视频通信端在收到所述语义信息之后,通过所述第二视频通信端的显示屏显示所述视频图像的重构图像;所述重构图像为所述第二视频通信端基于所述语义信息重构出的图像。
进一步地,根据本发明一些实施例,作为发送端的第一视频通信端,其获取视频图像中的语义信息的具体方式可以是,通过经过训练的编码器提取所述视频图像的语义信息;所述编码器用于识别图像语义信息。所述编码器的输入为图像,输出为输入图像对应的低维向量,即输入图像的语义信息。具体例如:由于所述视频图像的语义信息可以是设定对象的语义信息或者视频图像的全局语义信息。因此提取视频图像的语义信息的具体方式包括:
方式一,识别所述视频图像中的设定对象,得到所述设定对象的子图像;将所述设定对象的子图像输入经过训练的编码器;获取所述编码器的输出,得到所述视频图像中所述设定对象的语义信息;
方式二,将所述视频图像输入经过训练的编码器;获取所述编码器的输出,得到所述视频图像中的全局语义信息。
其中设定对应可基于实际情况设定,例如当需要关注的信息是视频通信中的人的脸部信息,则以人脸作为设定对象;当需要关注的信息是视频通信中的人的脸部神态以及肢体动作信息,以人体作为设定对象,则可以人体语作为设定对象;当需要关注的信息是视频通信中的整体场景信息时,则提取视频图像的全局语义信息。由此可满足不同要求的视频通信。
根据本发明一实施例,第一视频通信端提取视频图像中设定对象的语义信息的步骤,包括:识别所述视频图像中的人脸区域,得到人脸子图像;将所述人脸子图像输入经过训练的编码器;获取所述编码器的输出,得到所述视频图像中的人脸语义信息;或者是,识别所述视频图像中的人体区域,得到人体子图像;将所述人体子图像输入经过训练的编码器;获取所述编码器的输出,得到所述视频图像中的人体语义信息。由此可进一步提高视频图像中的设定对象的语义信息的提取效率和准确度。
其中,第一视频通信端提取所述视频图像中的全局语义信息的步骤,无需对视频图像中的设定对象进行识别,简化了图像传输流程,并且得到的语义信息更为全面,在接收端能够得到保真度更高的重构图像。
进一步地,当所述语义信息为人脸的语义信息或者人体的语义信息等设定对象的语义信息时,第一视频通信端还每间隔N帧采用设定的图像传输模式向第二视频通信端发送第一参考图像;在设定的图像传输模式下传输的所述第一参考图像的数据量,大于所述语义信息的数据量;N大于1。所述第一参考图像属于所述第一视频通信端拍摄的视频图像;通过传输所述第一参考图像,用于使所述第二视频通信端根据所述语义信息以及所述第一参考图像,重构出所述视频图像的重构图像。
通过向第二视频通信端发送第一参考图像,第二视频通信端在收到的设定对象的语义信息之后,基于该语义信息得到设定对象的重构子图像,然后将所述设定对象的重构子图像与所述第一参考图像的重构图像进行叠加,由此得到所述视频图像的重构图像。
进一步地,当语义信息为视频图像中设定对象的语义信息时,为了使得第二视频通信端得到质量更好的重构图像,第一视频通信端还需向第二视频通信端发送上述的设定对象在所述视频图像中的位置信息,通过发送所述位置信息,使所述第二视频通信端根据所述位置信息将所述设定对象的重构子图像与所述第一参考图像融合,由此得到更精确的视频图像的重构图像。
通过向第二视频通信端发送第二位置信息,使得所述第二视频通信端根据所述第二位置信息将重构出的人体的重构图像与所述参考图像的重构图像进行叠加,得到更精确的视频图像的重构图像。
上述视频图像传输方法,发送端对于大部分视频图像,只需提取视频图像中重要的语义信息进行传输,通过参考图像能够兼顾重构图像的分辨率与保真度的要求,同时能够保证视频图像传输的实时性。
基于上述视频图像传输方法的相同的思想,本文还提供了一种视频图像传输方法的实施例,本实施例中第二视频图像端为视频图像的接收端,参见图6所示,在第二视频图像端的角度,视频图像传输方法包括以下步骤:
S610,接收第一视频通信端发送的视频图像的语义信息;所述视频图像为所述第一视频通信端拍摄的视频图像。
S620,根据所述语义信息重构图像,得到所述视频图像的重构图像。
S630,通过第二视频通信端的显示屏显示所述重构图像。
在一些施例中,所述视频图像的语义信息包括以下任意一种:所述视频图像中的设定对象的语义信息,所述视频图像中的全局语义信息。其中,所述设定对象包括但不限于人脸或者人体,还可以根据实际场景设定。
进一步地,当传输的语义信息为视频图像中设定对象的语义信息时,为了接收端更好进行图像重构,第一视频通信端还每间隔N帧采用设定的图像传输模式向第二视频通信端发送第一参考图像;所述第一参考图像属于所述第一视频通信端拍摄的视频图像,且在设定的图像传输模式下传输的所述第一参考图像的数据量,大于所述语义信息的数据量;N大于1;第二视频通信端基于第一参考图像和当前收到的设定对象的语义信息进行图像重构。
对应地,第二视频通信端还需每间隔N帧通过设定的图像传输模式接收来自所述第一视频通信端的第一参考图像;N大于1。
下面以人脸的语义信息和人体的语义信息为例,分别进行说明。
当基于人脸的语义信息进行视频图像的传输和重构时,第二视频通信端还需要预先接收来自第一视频通信端的第一参考图像的图像编码信息;所述参考图像为第一视频通信端拍摄的视频图像,并且所述第一参考图像的图像编码信息的数据量大于上述实施例的视频图像中人脸语义信息/人体语义信息的数据量。
第二视频通信端基于所述图像编码信息得到所述第一参考图像。在接收到其他视频图像的人人脸语义信息/人体语义信息时,可以基于人脸语义信息/人体语义信息重构出的人脸重构子图像/人体重构子图像,将人脸重构子图像/人体重构子图像和所述第一参考图像进行融合,得到其他视频图像的重构图像。其中,基于人脸语义信息/人体语义信息重构出的人脸重构子图像/人体重构子图像的具体实施过程可如下:
第二视频通信端在收到第一视频通信端发送的人脸语义信息/人体语义信息之后,将所述人脸语义信息/人体语义信息输入经过训练的解码器,获取所述解码器的输出,得到人脸重构子图像/人体重构子图像。其中,所述解码器的输入为图像语义信息,输出为基于输入语义信息重构的图像;如上述实施例所述,所述解码器可以为卷积神经网络。
进一步地,当基于设定对象的语义信息进行图像重构时,为了得到更高质量的重构图像,第二视频通信端还需接收来自所述第一视频通信端的位置信息;所述位置信息为所述视频图像中所述设定对象的位置信息;然后根据所述位置信息将所述设定对象的重构子图像与所述第一的参考图像进行叠加,得到所述视频图像的重构图像。
具体地,以基于人脸语义信息进行视频图像的传输和重构为例,第二视频通信端接收来自所述第一视频通信端的第一位置信息,所述第一位置信息为第一视频通信端的视频图像中人脸区域的位置信息。对应地,第二视频通信端根据所述第一位置信息将所述人脸的重构图像与所述第一参考图像进行叠加,得到所述视频图像的重构图像。
以基于人脸语义信息进行视频图像的传输和重构为例,第二视频通信端需要接收来自所述第一视频通信端的第二位置信息;所述第二位置信息为所述视频图像中人体区域的位置信息。对应地,第二视频通信端根据所述第二位置信息将所述人体的重构图像与所述第一参考图像进行叠加,得到所述视频图像的重构图像。
在其他实施例中,第二视频通信端还需获取通过设定的图像传输模式接收到的第二参考图像;所述第二参考图像为设定对象的图像、所述第一视频通信端的环境图像中至少一种;通过设定的图像传输模式接收到的所述第二参考图像的数据量,大于所述语义信息的数据量;根据所述语义信息和所述第二参考图像重构图像,得到所述视频图像的重构图像。具体实现过程可参见上述实施例所述。
通过上述视频图像传输方法,对于视频图像接收端而言,通过图像中重要的语义信息和更为完整的参考图像进行图像重构,能够兼顾图像传输实时性、分辨率与保真度的要求。
应该理解的是,对于前述的各方法实施例,虽然流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,方法实施例的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
基于与上述实施例中的视频图像传输方法相同的思想,本文还提供视频图像传输装置的实施例。
如图7所示,在一个实施例中,视频图像传输装置包括:
图像获取模块601,用于获取第一视频通信端拍摄的视频图像;
信息提取模块602,用于提取所述视频图像的语义信息;
发送模块603,用于向第二视频通信端发送所述语义信息;所述语义信息用于在所述第二视频通信端重构出所述视频图像的重构图像。
进一步地,根据本发明一个实施例,所述信息提取模块601,具体用于通过经过训练的编码器提取所述视频图像的语义信息;所述编码器用于识别图像语义信息。
进一步地,根据本发明一个实施例,所述编码器的输入为图像,输出为输入图像对应的低维向量,作为输入图像的语义信息。例如,所述编码器可以是卷积神经网络。
在其中一个实施例,所述视频图像中的语义信息包括以下任意一种:所述视频图像中设定对象的语义信息;所述视频图像的全局语义信息。
如果提取的语义信息为设定对象的语义信息,对应地,信息提取模块602可具体包括:对象信息提取子模块,用于识别所述视频图像中的设定对象,得到所述设定对象的子图像;将所述设定对象的子图像输入经过训练的编码器;获取所述编码器的输出,得到所述视频图像中所述设定对象的语义信息。
其中,设定对象可以是人脸或者人体。如果为人脸,上述对象信息提取子模块进一步包括:人脸信息提取单元,用于识别所述视频图像中的人脸区域,得到人脸子图像;将所述人脸子图像输入经过训练的编码器;获取所述编码器的输出,得到所述视频图像中的人脸语义信息。如果为人体,上述对象信息提取子模块进一步包括:人体信息提取单元,用于识别所述视频图像中的人体区域,得到人体子图像;将所述人体子图像输入经过训练的编码器;获取所述编码器的输出,得到所述视频图像中的人体语义信息。
如果提取的语义信息为视频图像全局语义信息,对应地,信息提取模块602可具体包括:全局信息提取子模块,用于将所述视频图像输入经过训练的编码器;获取所述编码器的输出,得到所述视频图像中的全局语义信息。
进一步地,根据本发明一个实施例,上述视频图像传输装置还包括:
第一参考图像发送模块,用于每间隔N帧采用设定的图像传输模式向第二视频通信端发送第一参考图像;在设定的图像传输模式下传输的所述第一参考图像的数据量,大于所述语义信息的数据量;N大于1;
所述第一参考图像属于所述第一视频通信端拍摄的视频图像;所述第一参考图像,用于使所述第二视频通信端根据所述语义信息以及所述第一参考图像,重构出所述视频图像的重构图像。
若所述语义信息为设定对象的语义信息,所述第一参考图像可以具体用于:使所述第二视频通信端根据接收到的语义信息得到所述设定对象的重构子图像,将所述重构子图像与所述第一参考图像融合,得到所述视频图像的重构图像。
若发送的语义信息为全局语义信息,所述第一参考图像可以具体用于:使所述第二视频通信端根据接收到的语义信息得到初始重构图像,将所述初始重构图像与所述第一参考图像融合,得到所述视频图像的重构图像。
在其他实施例中,若所述语义信息为设定对象的语义信息,上述的视频图像传输装置还包括:
对象位置获取模块,用于获取所述视频图像中设定对象的位置信息;
以及,位置信息发送模块,用于向所述第二视频通信端发送所述位置信息;所述位置信息用于使所述第二视频通信端根据所述位置信息将所述设定对象的重构子图像与所述第一参考图像融合,得到所述视频图像的重构图像。
进一步地,根据本发明一个实施例,上述视频图像传输装置还包括:
第二参考图像发送模块,用于采用设定的图像传输模式向所述第二视频通信端发送第二参考图像;在所述设定的图像传输模式下传输的所述第二参考图像的数据量,大于所述语义信息的数据量;
所述第二参考图像为所述设定对象的图像、所述第一视频通信端的环境图像中至少一个;所述第二参考图像,用于使所述第二视频通信端根据所述语义信息以及所述第二参考图像,重构出所述视频图像的重构图像。
基于上述实施例的视频图像传输装置,在视频通信中,发送端需要传输视频图像时,获取所述视频图像的语义信息,向接收端发送所述语义信息;接收端接收所述语义信息之后,可根据所述语义信息重构发送端的视频图像,由此得到重构图像,并通过接收端的显示屏显示所述重构图像。一方面,在视频通信则,传输一个视频图像仅需要传输极少的数据量,对网络带宽要求非常低,能满足实时传输的要求;另一方面,通过对视频图像基于语义信息进行压缩和还原,使得视频图像的接收端能够重构出较高质量的图像,兼顾视频通信中对图像高分辨率与高保真度的要求。
根据本发明另一个实施例,如图8所示,视频图像传输装置包括:
信息接收模块701,用于接收视频图像的语义信息;所述视频图像为所述第一视频通信端拍摄的视频图像;
图像重构模块702,用于根据所述语义信息重构图像,得到所述视频图像的重构图像;
图像显示模块703,用于通过第二视频通信端的显示屏显示所述重构图像。
进一步地,根据本发明一个实施例,所述图像重构模块702,具体用于根据所述语义信息以及预先训练的解码器重构图像,得到所述视频图像的重构图像。
进一步地,根据本发明一个实施例,所述视频图像的语义信息包括以下任意一种:视频图像中的设定对象的语义信息;视频图像的全局语义信息。
其中,解码器的输入为图像语义信息,输出为基于输入语义信息重构的图像。在一些场景中,所述解码器为卷积神经网络。
根据本发明一个实施例,所述视频图像的语义信息包括以下任意一种:所述视频图像中的设定对象的语义信息;所述视频图像的全局语义信息。所述设定对象例如人脸或者人体等。
进一步地,根据本发明一个实施例,图像重构模块702具体包括:
第一参考图像获取子模块,用于获取最近时间通过设定的图像传输模式接收的第一参考图像;所述第一参考图像为所述第一视频通信端发送的其拍摄的视频图像;通过设定的图像传输模式接收到的所述第一参考图像的数据量,大于所述语义信息的数据量;
第一图像重构子模块,用于根据所述语义信息和所述第一参考图像重构图像,得到所述视频图像的重构图像。
进一步地,根据本发明一个实施例,上述视频图像传输装置还包括:第一参考图像接收子模块,用于每间隔N帧通过设定的图像传输模式接收来自所述第一视频通信端的第一参考图像;N大于1。
具体地,如果接收到的语义信息为设定对象的语义信息,上述图像重构模块702可以具体包括:第一重构子模块,用于将所述语义信息输入经过训练的解码器;获取所述解码器的输出,得到所述设定对象的重构子图像;将所述设定对象的重构子图像与所述第一参考图像融合,得到所述视频图像的重构图像。
进一步地,在一个实施例中,上述视频图像传输装置还包括:位置信息接收模块,用于接收所述第一视频通信端发送的位置信息;所述位置信息为所述视频图像中所述设定对象的位置信息;上述的第一图像重构子模块,具体用于根据所述位置信息将所述设定对象的重构子图像与所述第一参考图像融合,得到所述视频图像的重构图像。
具体地,如果接收到的语义信息为图像全局语义信息,上述图像重构模块702可以具体包括:第二图像重构子模块,用于将所述语义信息输入经过训练的解码器;获取所述解码器的输出,得到初始重构图像;将所述初始重构图像与所述第一参考图像融合,得到所述视频图像的重构图像。
进一步地,根据本发明一个实施例,所述图像重构模块702包括:
第二参考图像获取子模块,用于获取通过设定的图像传输模式接收到的第二参考图像;所述第二参考图像为设定对象的图像、所述第一视频通信端的环境图像中至少一种;通过设定的图像传输模式接收到的所述第二参考图像的数据量,大于所述语义信息的数据量;
第二图像重构子模块,用于根据所述语义信息和所述第二参考图像重构图像,得到所述视频图像的重构图像。
基于上述实施例的视频图像传输装置,在视频通信中,发送端需要传输视频图像时,获取所述视频图像的语义信息,向接收端发送所述语义信息;接收端接收所述语义信息之后,可根据所述语义信息重构发送端的视频图像,由此得到重构图像,并通过接收端的显示屏显示所述重构图像。一方面,在视频通信则,传输一个视频图像仅需要传输极少的数据量,对网络带宽要求非常低,能满足实时传输的要求;另一方面,通过对视频图像基于语义信息进行压缩和还原,使得视频图像的接收端能够重构出较高质量的图像,兼顾视频通信中对图像高分辨率与高保真度的要求。
根据本发明一个实施例,参考图1所示,视频图像传输的系统包括第一视频通信端和第二视频通信端;所述第一视频通信端之间第二视频通信端视频通信连接;所述第一视频通信端,用于获取拍摄到的视频图像,获取所述视频图像的语义信息,向第二视频通信端发送所述语义信息;所述第二视频通信端,用于接收所述语义信息,根据所述语义信息重构图像,得到所述视频图像的重构图像,通过第二视频通信端的显示屏显示所述重构图像。
关于视频图像传输装置及系统实施例的具体实现方式可以参见上文中对于视频图像传输方法的限定,在此不再赘述。上述视频图像传输装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于交互智能平板中的处理器中,也可以以软件形式存储于交互智能平板中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
此外,上述示例的视频图像传输装置的实施方式中,各程序模块的逻辑划分仅是举例说明,实际应用中可以根据需要,例如出于相应硬件的配置要求或者软件的实现的便利考虑,将上述功能分配由不同的程序模块完成,即将所述视频图像传输装置的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分功能。
在一个实施例中,提供了一种交互智能平板,其内部结构图可以如图9所示。该交互智能平板包括通过系统总线连接的处理器、存储器、网络接口、显示屏、拍摄装置和输入装置。其中,处理器用于提供计算和控制能力;存储器包括非易失性存储介质、内存储器,该非易失性存储介质存储有操作系统和计算机程序,该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境;网络接口用于与外部的终端通过网络连接通信;该计算机程序被处理器执行时以实现一种视频图像传输方法;显示屏可以是液晶显示屏或者电子墨水显示屏;拍摄装置可以拍摄交互智能平板前面的环境或者人物的视频图像;输入装置可以是显示屏上覆盖的触摸层,也可以是交互智能平板外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的交互智能平板的限定,具体的交互智能平板可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
根据本发明一个实施例,提供了一种交互智能平板,包括摄像装置、显示屏、存储器和处理器,存储器存储有计算机程序;所述交互智能平板通过所述摄像装置拍摄视频图像;所述处理器执行所述程序时,用于提取所述摄像装置拍摄的视频图像的语义信息;向其他交互智能平板发送所述语义信息;所述处理器执行所述程序时,还用于接收其他交互智能平板发送的视频图像的语义信息;根据所述语义信息重构图像,得到其他交互智能平板发送的视频图像的重构图像,通过所述显示屏显示所述重构图像。
在其他实施例中,所述处理器执行所述程序时,还用于执行上述视频图像传输方法的其他实施例中的相应步骤。
根据本发明一个实施例,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取第一视频通信端拍摄的视频图像;提取所述视频图像的语义信息;向第二视频通信端发送所述语义信息;所述语义信息用于在所述第二视频通信端重构出所述视频图像的重构图像。
在其他实施例中,上述计算机程序被处理器执行时,还用于执行上述视频图像传输方法的其他实施例中在视频图像发送端执行的相应步骤。
根据本发明另一个实施例,提供了另一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:接收视频图像的语义信息;所述视频图像为所述第一视频通信端拍摄的视频图像;根据所述语义信息重构图像,得到所述视频图像的重构图像;通过第二视频通信端的显示屏显示所述重构图像。
在其他实施例中,上述计算机程序被处理器执行时,还用于执行上述视频图像传输方法的其他实施例中在视频图像接收端执行的相应步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。上述各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
实施例中的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或(模块)单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
实施例中提及的“第一\第二”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二”区分的对象在适当情况下可以互换,以使这里描述的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
以上实施例仅表达了本发明的几种实施方式,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (46)

1.一种视频图像传输方法,其特征在于,包括:
获取第一视频通信端拍摄的视频图像;
提取所述视频图像的语义信息;
向第二视频通信端发送所述语义信息;所述语义信息用于在所述第二视频通信端重构出所述视频图像的重构图像。
2.根据权利要求1所述的方法,其特征在于,所述获取所述视频图像中的语义信息的步骤,包括:
通过经过训练的编码器提取所述视频图像的语义信息;所述编码器用于识别图像语义信息。
3.根据权利要求2所述的方法,其特征在于,所述编码器的输入为图像,输出为输入图像对应的低维向量,作为输入图像的语义信息。
4.根据权利要求3所述的方法,其特征在于,所述编码器为卷积神经网络。
5.根据权利要求2所述的方法,其特征在于,所述视频图像中的语义信息包括以下任意一种:
所述视频图像中设定对象的语义信息;
所述视频图像的全局语义信息。
6.根据权利要求5所述的方法,其特征在于,提取所述视频图像中设定对象的语义信息的步骤,包括:
识别所述视频图像中的设定对象,得到所述设定对象的子图像;
将所述设定对象的子图像输入经过训练的编码器;
获取所述编码器的输出,得到所述视频图像中所述设定对象的语义信息。
7.根据权利要求6所述的方法,其特征在于,所述设定对象包括人脸或者人体。
8.根据权利要求7所述的方法,其特征在于,如果所述设定对象为人脸,所述提取所述视频图像中设定对象的语义信息的步骤,包括:
识别所述视频图像中的人脸区域,得到人脸子图像;
将所述人脸子图像输入经过训练的编码器;
获取所述编码器的输出,得到所述视频图像中的人脸语义信息。
9.根据权利要求7所述的方法,其特征在于,如果所述设定对象为人体,所述提取所述视频图像中设定对象的语义信息的步骤,包括:
识别所述视频图像中的人体区域,得到人体子图像;
将所述人体子图像输入经过训练的编码器;
获取所述编码器的输出,得到所述视频图像中的人体语义信息。
10.根据权利要求5所述的方法,其特征在于,提取所述视频图像中的全局语义信息的步骤,包括:
将所述视频图像输入经过训练的编码器;
获取所述编码器的输出,得到所述视频图像中的全局语义信息。
11.根据权利要求5至10任一所述的方法,其特征在于,还包括:
每间隔N帧采用设定的图像传输模式向第二视频通信端发送第一参考图像;在设定的图像传输模式下传输的所述第一参考图像的数据量,大于所述语义信息的数据量;N大于1;
所述第一参考图像属于所述第一视频通信端拍摄的视频图像;所述第一参考图像,用于使所述第二视频通信端根据所述语义信息以及所述第一参考图像,重构出所述视频图像的重构图像。
12.根据权利要求11所述的方法,其特征在于,若所述语义信息为设定对象的语义信息,所述第一参考图像,用于使所述第二视频通信端根据接收到的语义信息得到所述设定对象的重构子图像,将所述重构子图像与所述第一参考图像融合,得到所述视频图像的重构图像。
13.根据权利要求11所述的方法,其特征在于,若所述语义信息为全局语义信息,所述第一参考图像,用于使所述第二视频通信端根据接收到的语义信息得到初始重构图像,将所述初始重构图像与所述第一参考图像融合,得到所述视频图像的重构图像。
14.根据权利要求12所述的方法,其特征在于,若所述语义信息为设定对象的语义信息,所述方法还包括:
获取所述视频图像中设定对象的位置信息;
向所述第二视频通信端发送所述位置信息;所述位置信息用于使所述第二视频通信端根据所述位置信息将所述设定对象的重构子图像与所述第一参考图像融合,得到所述视频图像的重构图像。
15.根据权利要求5至14任一所述的方法,其特征在于,所述方法还包括:
采用设定的图像传输模式向所述第二视频通信端发送第二参考图像;在所述设定的图像传输模式下传输的所述第二参考图像的数据量,大于所述语义信息的数据量;
所述第二参考图像为所述设定对象的图像、所述第一视频通信端的环境图像中至少一个;所述第二参考图像,用于使所述第二视频通信端根据所述语义信息以及所述第二参考图像,重构出所述视频图像的重构图像。
16.一种视频图像传输方法,其特征在于,包括:
接收视频图像的语义信息;所述视频图像为所述第一视频通信端拍摄的视频图像;
根据所述语义信息重构图像,得到所述视频图像的重构图像;
通过第二视频通信端的显示屏显示所述重构图像。
17.根据权利要求16所述的方法,其特征在于,所述根据所述语义信息重构图像,得到所述视频图像的重构图像的步骤,包括:
根据所述语义信息以及预先训练的解码器重构图像,得到所述视频图像的重构图像。
18.根据权利要求17所述的方法,其特征在于,所述解码器的输入为图像语义信息,输出为基于输入语义信息重构的图像。
19.根据权利要求18所述的方法,其特征在于,所述解码器为卷积神经网络。
20.根据权利要求17所述的方法,其特征在于,所述视频图像的语义信息包括以下任意一种:
所述视频图像中的设定对象的语义信息;
所述视频图像的全局语义信息。
21.根据权利要求20所述的方法,其特征在于,
所述设定对象包括人脸或者人体。
22.根据权利要求21所述的方法,其特征在于,根据所述语义信息重构图像,得到所述视频图像的重构图像的步骤包括:
获取最近时间通过设定的图像传输模式接收的第一参考图像;所述第一参考图像为所述第一视频通信端发送的其拍摄的视频图像;通过设定的图像传输模式接收到的所述第一参考图像的数据量,大于所述语义信息的数据量;
根据所述语义信息和所述第一参考图像重构图像,得到所述视频图像的重构图像。
23.根据权利要求22所述的方法,其特征在于,所述方法还包括:
每间隔N帧通过设定的图像传输模式接收来自所述第一视频通信端的第一参考图像;N大于1。
24.根据权利要求23所述的方法,其特征在于,如果所述语义信息为设定对象的语义信息,根据所述语义信息和所述第一参考图像重构图像,得到所述视频图像的重构图像的步骤,包括:
将所述语义信息输入经过训练的解码器;
获取所述解码器的输出,得到所述设定对象的重构子图像;
将所述设定对象的重构子图像与所述第一参考图像融合,得到所述视频图像的重构图像。
25.根据权利要求23所述的方法,其特征在于,如果所述语义信息为图像的全局语义信息,根据所述语义信息和所述第一参考图像重构图像,得到所述视频图像的重构图像的步骤,包括:
将所述语义信息输入经过训练的解码器;
获取所述解码器的输出,得到初始重构图像;
将所述初始重构图像与所述第一参考图像融合,得到所述视频图像的重构图像。
26.根据权利要求24所述的方法,其特征在于,包括:
若所述语义信息为人脸语义信息,获取所述解码器的输出,得到人脸的重构子图像;
若所述语义信息为人体语义信息,获取所述解码器的输出,得到人体的重构子图像。
27.根据权利要求24所述的方法,其特征在于,还包括:
接收所述第一视频通信端发送的位置信息;所述位置信息为所述视频图像中所述设定对象的位置信息;
所述将所述设定对象的重构子图像与所述第一参考图像融合,得到所述视频图像的重构图像的步骤,包括:
根据所述位置信息将所述设定对象的重构子图像与所述第一参考图像融合,得到所述视频图像的重构图像。
28.根据权利要求27所述的方法,其特征在于,所述接收所述第一视频通信端发送的位置信息的步骤,包括:
接收所述第一视频通信端发送的第一位置信息;所述第一位置信息为所述视频图像中人脸区域的位置信息;
接收所述第一视频通信端发送的第二位置信息;所述第二位置信息为所述视频图像中人体区域的位置信息。
29.根据权利要求27所述的方法,其特征在于,根据所述位置信息将所述设定对象的重构子图像与所述第一参考图像融合的步骤之前,还包括:
对所述设定对象的重构子图像进行边缘羽化处理。
30.根据权利要求21至29任一所述的方法,其特征在于,根据所述语义信息重构图像,得到所述视频图像的重构图像的步骤,包括:
获取通过设定的图像传输模式接收到的第二参考图像;所述第二参考图像为设定对象的图像、所述第一视频通信端的环境图像中至少一种;通过设定的图像传输模式接收到的所述第二参考图像的数据量,大于所述语义信息的数据量;
根据所述语义信息和所述第二参考图像重构图像,得到所述视频图像的重构图像。
31.一种视频图像传输方法,其特征在于,包括:
第一视频通信端获取拍摄到的视频图像,获取所述视频图像的语义信息,向第二视频通信端发送所述语义信息;
所述第二视频通信端接收所述语义信息,根据所述语义信息重构图像,得到所述视频图像的重构图像,通过第二视频通信端的显示屏显示所述重构图像。
32.一种视频图像传输装置,其特征在于,包括:
图像获取模块,用于获取第一视频通信端拍摄的视频图像;
信息提取模块,用于提取所述视频图像的语义信息;
发送模块,用于向第二视频通信端发送所述语义信息;所述语义信息用于在所述第二视频通信端重构出所述视频图像的重构图像。
33.根据权利要求32所述的装置,其特征在于,所述信息提取模块,具体用于通过经过训练的编码器提取所述视频图像的语义信息;所述编码器用于识别图像语义信息。
34.根据权利要求33所述的装置,其特征在于,所述编码器的输入为图像,输出为输入图像对应的低维向量,作为输入图像的语义信息。
35.根据权利要求33所述的装置,其特征在于,所述视频图像中的语义信息包括以下任意一种:
所述视频图像中设定对象的语义信息;所述视频图像的全局语义信息。
36.根据权利要求35所述的装置,其特征在于,还包括:
第一参考图像发送模块,用于每间隔N帧采用设定的图像传输模式向第二视频通信端发送第一参考图像;在设定的图像传输模式下传输的所述第一参考图像的数据量,大于所述语义信息的数据量;N大于1;
所述第一参考图像属于所述第一视频通信端拍摄的视频图像;所述第一参考图像,用于使所述第二视频通信端根据所述语义信息以及所述第一参考图像,重构出所述视频图像的重构图像。
37.根据权利要求35所述的装置,其特征在于,还包括:
第二参考图像发送模块,用于采用设定的图像传输模式向所述第二视频通信端发送第二参考图像;在所述设定的图像传输模式下传输的所述第二参考图像的数据量,大于所述语义信息的数据量;
所述第二参考图像为所述设定对象的图像、所述第一视频通信端的环境图像中至少一个;所述第二参考图像,用于使所述第二视频通信端根据所述语义信息以及所述第二参考图像,重构出所述视频图像的重构图像。
38.一种视频图像传输装置,其特征在于,包括:
信息接收模块,用于接收视频图像的语义信息;所述视频图像为所述第一视频通信端拍摄的视频图像;
图像重构模块,用于根据所述语义信息重构图像,得到所述视频图像的重构图像;
图像显示模块,用于通过第二视频通信端的显示屏显示所述重构图像。
39.根据权利要求38所述的装置,其特征在于,所述图像重构模块,具体用于根据所述语义信息以及预先训练的解码器重构图像,得到所述视频图像的重构图像。
40.根据权利要求39所述的装置,其特征在于,所述视频图像的语义信息包括以下任意一种:
所述视频图像中的设定对象的语义信息;
所述视频图像的全局语义信息。
41.根据权利要求40所述的装置,其特征在于,所述图像重构模块,包括:
第一参考图像获取子模块,用于获取最近时间通过设定的图像传输模式接收的第一参考图像;所述第一参考图像为所述第一视频通信端发送的其拍摄的视频图像;通过设定的图像传输模式接收到的所述第一参考图像的数据量,大于所述语义信息的数据量;
第一图像重构子模块,用于根据所述语义信息和所述第一参考图像重构图像,得到所述视频图像的重构图像。
42.根据权利要求41所述的装置,其特征在于,还包括:
第一参考图像接收子模块,用于每间隔N帧通过设定的图像传输模式接收来自所述第一视频通信端的第一参考图像;N大于1。
43.根据权利要求40所述的装置,其特征在于,所述图像重构模块,包括:
第二参考图像获取子模块,用于获取通过设定的图像传输模式接收到的第二参考图像;所述第二参考图像为设定对象的图像、所述第一视频通信端的环境图像中至少一种;通过设定的图像传输模式接收到的所述第二参考图像的数据量,大于所述语义信息的数据量;
第二图像重构子模块,用于根据所述语义信息和所述第二参考图像重构图像,得到所述视频图像的重构图像。
44.一种视频图像传输的系统,其特征在于,包括第一视频通信端和第二视频通信端;所述第一视频通信端之间第二视频通信端视频通信连接;
所述第一视频通信端,用于获取拍摄到的视频图像,获取所述视频图像的语义信息,向第二视频通信端发送所述语义信息;
所述第二视频通信端,用于接收所述语义信息,根据所述语义信息重构图像,得到所述视频图像的重构图像,通过第二视频通信端的显示屏显示所述重构图像。
45.一种交互智能平板,包括摄像装置、显示屏、存储器和处理器,所述存储器存储有计算机程序,其特征在于,
所述交互智能平板通过所述摄像装置拍摄视频图像;
所述处理器执行所述程序时,用于提取所述摄像装置拍摄的视频图像的语义信息,向其他交互智能平板发送所述语义信息;
所述处理器执行所述程序时,还用于接收其他交互智能平板发送的视频图像的语义信息,根据所述语义信息重构图像,得到其他交互智能平板发送的视频图像的重构图像,通过所述显示屏显示所述重构图像。
46.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至30任一项所述方法的步骤。
CN201910063004.7A 2019-01-23 2019-01-23 视频图像传输方法、装置、交互智能平板和存储介质 Active CN109831638B (zh)

Priority Applications (7)

Application Number Priority Date Filing Date Title
CN201910063004.7A CN109831638B (zh) 2019-01-23 2019-01-23 视频图像传输方法、装置、交互智能平板和存储介质
EP19911814.2A EP3902247A4 (en) 2019-01-23 2019-12-24 VIDEO IMAGE TRANSMISSION METHOD, DEVICE, INTERACTIVE SMART TABLET AND STORAGE MEDIA
PCT/CN2019/127770 WO2020151443A1 (zh) 2019-01-23 2019-12-24 视频图像传输方法、装置、交互智能平板和存储介质
JP2021542217A JP7250937B2 (ja) 2019-01-23 2019-12-24 ビデオ画像の伝送方法、装置、インテリジェントインタラクティブタブレット及び記憶媒体
US17/417,550 US20220051024A1 (en) 2019-01-23 2019-12-24 Video image transmission method, device, interactive intelligent tablet and storage medium
KR1020217021786A KR102594030B1 (ko) 2019-01-23 2019-12-24 비디오 이미지 전송 방법, 장치, 인터랙티브 지능형 태블릿 및 저장 매체
AU2019424397A AU2019424397B2 (en) 2019-01-23 2019-12-24 Video image transmission method, device, interactive intelligent tablet and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910063004.7A CN109831638B (zh) 2019-01-23 2019-01-23 视频图像传输方法、装置、交互智能平板和存储介质

Publications (2)

Publication Number Publication Date
CN109831638A true CN109831638A (zh) 2019-05-31
CN109831638B CN109831638B (zh) 2021-01-08

Family

ID=66861896

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910063004.7A Active CN109831638B (zh) 2019-01-23 2019-01-23 视频图像传输方法、装置、交互智能平板和存储介质

Country Status (7)

Country Link
US (1) US20220051024A1 (zh)
EP (1) EP3902247A4 (zh)
JP (1) JP7250937B2 (zh)
KR (1) KR102594030B1 (zh)
CN (1) CN109831638B (zh)
AU (1) AU2019424397B2 (zh)
WO (1) WO2020151443A1 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110312139A (zh) * 2019-06-18 2019-10-08 深圳前海达闼云端智能科技有限公司 图像传输的方法和装置、存储介质
CN111246176A (zh) * 2020-01-20 2020-06-05 北京中科晶上科技股份有限公司 一种节带化视频传输方法
WO2020151443A1 (zh) * 2019-01-23 2020-07-30 广州视源电子科技股份有限公司 视频图像传输方法、装置、交互智能平板和存储介质
CN112905132A (zh) * 2019-11-19 2021-06-04 华为技术有限公司 投屏方法及设备
WO2021237464A1 (zh) * 2020-05-26 2021-12-02 华为技术有限公司 视频图像处理方法及装置
WO2023143349A1 (zh) * 2022-01-25 2023-08-03 阿里巴巴(中国)有限公司 一种面部视频编码方法、解码方法及装置
CN116634178A (zh) * 2023-07-26 2023-08-22 清华大学 一种极低码率的安防场景监控视频编解码方法及系统
US11917320B2 (en) 2020-11-23 2024-02-27 Boe Technology Group Co., Ltd. Method, device and system for sending virtual card, and readable storage medium

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11659193B2 (en) 2021-01-06 2023-05-23 Tencent America LLC Framework for video conferencing based on face restoration
CN114283091B (zh) * 2021-12-27 2022-08-09 国网黑龙江省电力有限公司伊春供电公司 基于视频融合的电力设备图像恢复系统
WO2023195426A1 (ja) * 2022-04-05 2023-10-12 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 復号装置、符号化装置、復号方法及び符号化方法
KR102573201B1 (ko) * 2022-08-19 2023-09-01 (주)에이아이매틱스 이미지 재건 기술 기반 영상 통신 비용 절감 시스템 및 방법
CN116847091B (zh) * 2023-07-18 2024-04-26 华院计算技术(上海)股份有限公司 图像编码方法、系统、设备及介质
WO2023230638A2 (en) * 2023-09-06 2023-11-30 Futurewei Technologies, Inc. Reduced-latency communication using behavior prediction

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102271241A (zh) * 2011-09-02 2011-12-07 北京邮电大学 一种基于面部表情/动作识别的图像通信方法及系统
CN106210612A (zh) * 2015-04-30 2016-12-07 杭州海康威视数字技术股份有限公司 视频编码方法、解码方法及其装置
CN106559636A (zh) * 2015-09-25 2017-04-05 中兴通讯股份有限公司 一种视频通信方法、装置及系统
CN106878268A (zh) * 2016-12-28 2017-06-20 杰创智能科技股份有限公司 低带宽高质量传输监控图像的方法及系统
US20180121731A1 (en) * 2016-11-03 2018-05-03 Nec Laboratories America, Inc. Surveillance system using adaptive spatiotemporal convolution feature representation with dynamic abstraction for video to language translation

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0832947A (ja) * 1994-07-11 1996-02-02 Hitachi Ltd 画像通信装置
JPH0998416A (ja) * 1995-09-29 1997-04-08 Denso Corp 画像信号の符号化装置および画像の認識装置
US20040194123A1 (en) 2003-03-28 2004-09-30 Eastman Kodak Company Method for adapting digital cinema content to audience metrics
CN101141608B (zh) * 2007-09-28 2011-05-11 腾讯科技(深圳)有限公司 一种视频即时通讯系统及方法
KR20120044732A (ko) * 2010-10-28 2012-05-08 지미디어(주) 벡터그래픽 이미지 파일의 전송 방법 및 시스템
KR20130022434A (ko) * 2011-08-22 2013-03-07 (주)아이디피쉬 통신단말장치의 감정 컨텐츠 서비스 장치 및 방법, 이를 위한 감정 인지 장치 및 방법, 이를 이용한 감정 컨텐츠를 생성하고 정합하는 장치 및 방법
KR101347840B1 (ko) * 2012-03-29 2014-01-09 한국과학기술원 신체 제스처 인식 방법 및 장치
CN103369289B (zh) 2012-03-29 2016-05-04 深圳市腾讯计算机系统有限公司 一种视频模拟形象的通信方法和装置
US9813666B2 (en) 2012-05-29 2017-11-07 Qualcomm Incorporated Video transmission and reconstruction
CN103517072B (zh) * 2012-06-18 2017-11-03 联想(北京)有限公司 视频通信方法和设备
US9124765B2 (en) * 2012-12-27 2015-09-01 Futurewei Technologies, Inc. Method and apparatus for performing a video conference
CN103647922A (zh) 2013-12-20 2014-03-19 百度在线网络技术(北京)有限公司 虚拟视频通话方法和终端
US9906691B2 (en) * 2015-03-25 2018-02-27 Tripurari Singh Methods and system for sparse blue sampling
US10225511B1 (en) * 2015-12-30 2019-03-05 Google Llc Low power framework for controlling image sensor mode in a mobile image capture device
WO2018061173A1 (ja) * 2016-09-30 2018-04-05 株式会社オプティム Tv会議システム、tv会議方法、およびプログラム
CN106454277B (zh) * 2016-11-30 2019-09-27 杭州联络互动信息科技股份有限公司 一种用于视频监控的图像分析方法以及装置
KR102256110B1 (ko) * 2017-05-26 2021-05-26 라인 가부시키가이샤 영상 압축 방법 및 영상 복원 방법
US10986356B2 (en) * 2017-07-06 2021-04-20 Samsung Electronics Co., Ltd. Method for encoding/decoding image and device therefor
CN107977634A (zh) * 2017-12-06 2018-05-01 北京飞搜科技有限公司 一种针对视频的表情识别方法、装置及设备
CN108449569B (zh) * 2018-03-13 2019-04-05 重庆虚拟实境科技有限公司 虚拟会议方法、系统、装置、计算机装置及存储介质
CN109831638B (zh) * 2019-01-23 2021-01-08 广州视源电子科技股份有限公司 视频图像传输方法、装置、交互智能平板和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102271241A (zh) * 2011-09-02 2011-12-07 北京邮电大学 一种基于面部表情/动作识别的图像通信方法及系统
CN106210612A (zh) * 2015-04-30 2016-12-07 杭州海康威视数字技术股份有限公司 视频编码方法、解码方法及其装置
CN106559636A (zh) * 2015-09-25 2017-04-05 中兴通讯股份有限公司 一种视频通信方法、装置及系统
US20180121731A1 (en) * 2016-11-03 2018-05-03 Nec Laboratories America, Inc. Surveillance system using adaptive spatiotemporal convolution feature representation with dynamic abstraction for video to language translation
CN106878268A (zh) * 2016-12-28 2017-06-20 杰创智能科技股份有限公司 低带宽高质量传输监控图像的方法及系统

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020151443A1 (zh) * 2019-01-23 2020-07-30 广州视源电子科技股份有限公司 视频图像传输方法、装置、交互智能平板和存储介质
CN110312139A (zh) * 2019-06-18 2019-10-08 深圳前海达闼云端智能科技有限公司 图像传输的方法和装置、存储介质
CN112905132A (zh) * 2019-11-19 2021-06-04 华为技术有限公司 投屏方法及设备
CN111246176A (zh) * 2020-01-20 2020-06-05 北京中科晶上科技股份有限公司 一种节带化视频传输方法
WO2021237464A1 (zh) * 2020-05-26 2021-12-02 华为技术有限公司 视频图像处理方法及装置
US11917320B2 (en) 2020-11-23 2024-02-27 Boe Technology Group Co., Ltd. Method, device and system for sending virtual card, and readable storage medium
WO2023143349A1 (zh) * 2022-01-25 2023-08-03 阿里巴巴(中国)有限公司 一种面部视频编码方法、解码方法及装置
CN116634178A (zh) * 2023-07-26 2023-08-22 清华大学 一种极低码率的安防场景监控视频编解码方法及系统
CN116634178B (zh) * 2023-07-26 2023-10-31 清华大学 一种极低码率的安防场景监控视频编解码方法及系统

Also Published As

Publication number Publication date
AU2019424397B2 (en) 2023-04-27
CN109831638B (zh) 2021-01-08
KR20210100707A (ko) 2021-08-17
WO2020151443A1 (zh) 2020-07-30
EP3902247A4 (en) 2022-05-18
JP7250937B2 (ja) 2023-04-03
US20220051024A1 (en) 2022-02-17
AU2019424397A9 (en) 2023-04-27
AU2019424397A1 (en) 2021-09-09
EP3902247A1 (en) 2021-10-27
JP2022517841A (ja) 2022-03-10
KR102594030B1 (ko) 2023-10-24

Similar Documents

Publication Publication Date Title
CN109831638A (zh) 视频图像传输方法、装置、交互智能平板和存储介质
US9030486B2 (en) System and method for low bandwidth image transmission
CN109740476B (zh) 即时通讯方法、装置和服务器
WO2021036795A1 (zh) 视频超分辨率处理方法及装置
CN103369289A (zh) 一种视频模拟形象的通信方法和装置
CN110769323B (zh) 一种视频通信方法、系统、装置和终端设备
CN111402399A (zh) 人脸驱动和直播方法、装置、电子设备及存储介质
EP2890121A1 (en) Video conference display method and device
CN112492231B (zh) 远程交互方法、装置、电子设备和计算机可读存储介质
CN107211081A (zh) 基于独立编码的背景更新的视频传输
CN111372113B (zh) 基于数字人表情、嘴型及声音同步的用户跨平台交流方法
CN109413152A (zh) 图像处理方法、装置、存储介质及电子设备
CN105578110A (zh) 一种视频通话方法、装置和系统
CN111860363A (zh) 一种视频图像的处理方法及装置、电子设备、存储介质
CN108320331B (zh) 一种生成用户场景的增强现实视频信息的方法与设备
CN103294193A (zh) 多终端互动的方法、装置和系统
CN116563109A (zh) 一种针对低码率视频的时空超分辨率方法、系统及设备
CN116170636A (zh) 直播视频播放方法及其装置、设备、介质
CN114640882A (zh) 视频处理方法、装置、电子设备及计算机可读存储介质
CN112019931B (zh) 智能电视的人机交互方法、装置、智能电视及存储介质
WO2024037160A1 (zh) 视频帧处理方法、装置、计算机设备和存储介质
CN209486652U (zh) 一种应用于多领域的飞屏交互系统
CN113038267A (zh) 视频处理方法及装置、计算机可读存储介质和电子设备
CN117676071A (zh) 音视频增强方法、装置、计算机设备和存储介质
CN118138708A (zh) 会议实时交互视频生成方法、装置和会议系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant