JP2022517841A - ビデオ画像の伝送方法、装置、インテリジェントインタラクティブタブレット及び記憶媒体 - Google Patents

ビデオ画像の伝送方法、装置、インテリジェントインタラクティブタブレット及び記憶媒体 Download PDF

Info

Publication number
JP2022517841A
JP2022517841A JP2021542217A JP2021542217A JP2022517841A JP 2022517841 A JP2022517841 A JP 2022517841A JP 2021542217 A JP2021542217 A JP 2021542217A JP 2021542217 A JP2021542217 A JP 2021542217A JP 2022517841 A JP2022517841 A JP 2022517841A
Authority
JP
Japan
Prior art keywords
image
video
semantic information
communication terminal
reconstructed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021542217A
Other languages
English (en)
Other versions
JP7250937B2 (ja
Inventor
▲銘▼ ▲楊▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Shiyuan Electronics Thecnology Co Ltd
Original Assignee
Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Shiyuan Electronics Thecnology Co Ltd filed Critical Guangzhou Shiyuan Electronics Thecnology Co Ltd
Publication of JP2022517841A publication Critical patent/JP2022517841A/ja
Application granted granted Critical
Publication of JP7250937B2 publication Critical patent/JP7250937B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/39Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability involving multiple description coding [MDC], i.e. with separate layers being structured as independently decodable descriptions of input picture data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/4788Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/155Conference systems involving storage of or access to video conference sessions

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Television Signal Processing For Recording (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本発明はビデオ画像の伝送方法、装置、インテリジェントインタラクティブタブレット及び記憶媒体を開示する。該方法は、第1のビデオ通信端末により撮影されたビデオ画像を取得するステップと、該ビデオ画像の意味情報を抽出するステップと、第2のビデオ通信端末に該意味情報を送信するステップと、を含み、該意味情報は、該第2のビデオ通信端末で該ビデオ画像の再構築画像を再構築するために使用される。【選択図】図2

Description

本発明は、2019年1月23日に中国特許庁に出願した出願番号が201910063004.7の中国特許出願に基づく優先権を主張し、該出願の全ての内容を本開示に援用する。
本発明は、画像処理技術の分野に関し、例えばビデオ通信のビデオ画像の伝送方法、装置、システム、インテリジェントインタラクティブタブレット(intelligent interactive tablet)及び記憶媒体に関する。
ネットワーク技術の発展及び需要の増大に伴い、ユーザは、ビデオ通信の画質に対して、解像度要求、忠実度要求及びリアルタイム伝送などのより高い要求を提出している。例えば、ビデオ会議では、リアルタイムのインタラクションが優れたエクスペリエンスの前提条件であり、一方、ビデオ画像が高解像度を有する必要があり、重要な画像情報(例えば顔の細部、体の動きの細部などの情報)を可能な限り保持する必要がある。
本発明を検討する際に、発明者は、以下のことを発見した。関連技術では、ビデオ画像が高解像度及び高忠実度を有することを確保するために、送信側のビデオ画像の圧縮率を低減する必要があるため、ネットワークを介して大量の画像データを伝送する必要があり、データの伝送効率が低く、リアルタイムの伝送を確保することができない。一方、リアルタイムの伝送が確保されている場合、通常、非可逆圧縮技術によりビデオ画像の圧縮率を向上させる必要があるが、ビデオ画像の情報が比較的に多く失い、ビデオ通信における画像の高解像度及び高忠実度への要求を満たすことができない。
従って、従来のビデオ通信におけるビデオ画像の伝送方式は、高解像度及び高忠実度の要求とリアルタイム伝送の要求とを両立することができない。
従来のビデオ画像の伝送方式では高解像度及び高忠実度とリアルタイム伝送とを両立することができないという問題点を鑑み、ビデオ画像の伝送方法、装置、システム、インテリジェントインタラクティブタブレット及び記憶媒体を提供する。
本発明の第1の態様では、ビデオ画像の伝送方法であって、第1のビデオ通信端末により撮影されたビデオ画像を取得するステップと、前記ビデオ画像の意味情報を抽出するステップと、第2のビデオ通信端末に前記意味情報を送信するステップと、を含み、前記意味情報は、前記第2のビデオ通信端末で前記ビデオ画像の再構築画像を再構築するために使用される、方法を提供する。
該態様の1つの実施例では、前記ビデオ画像の意味情報を抽出するステップは、訓練されたエンコーダにより前記ビデオ画像の意味情報を抽出するステップ、を含み、前記エンコーダは、画像の意味情報を認識する。
該態様の1つの実施例では、前記エンコーダの入力は、画像であり、前記エンコーダの出力は、入力画像の意味情報としての入力画像に対応する低次元ベクトルである。
該態様の1つの実施例では、前記エンコーダは、畳み込みニューラルネットワークである。
該態様の1つの実施例では、前記ビデオ画像の意味情報は、前記ビデオ画像における設定対象の意味情報、及び前記ビデオ画像の大域的な意味情報のうちの何れか1つを含む。
該態様の1つの実施例では、前記ビデオ画像における設定対象の意味情報を抽出するステップは、前記ビデオ画像における設定対象を認識し、前記設定対象のサブ画像を取得するステップと、訓練されたエンコーダに前記設定対象のサブ画像を入力するステップと、前記エンコーダの出力を取得し、前記ビデオ画像における前記設定対象の意味情報を取得するステップと、を含む。
該態様の1つの実施例では、前記設定対象は、人の顔又は人の体を含む。
該態様の1つの実施例では、前記設定対象が人の顔である場合、前記ビデオ画像における設定対象の意味情報を抽出するステップは、前記ビデオ画像における顔領域を認識し、顔サブ画像を取得するステップと、訓練されたエンコーダに前記顔サブ画像を入力するステップと、前記エンコーダの出力を取得し、前記ビデオ画像の顔意味情報を取得するステップと、を含む。
該態様の1つの実施例では、前記設定対象が人の体である場合、前記ビデオ画像における設定対象の意味情報を抽出するステップは、前記ビデオ画像における体領域を認識し、体サブ画像を取得するステップと、訓練されたエンコーダに前記体サブ画像を入力するステップと、前記エンコーダの出力を取得し、前記ビデオ画像の体意味情報を取得するステップと、を含む。
該態様の1つの実施例では、前記ビデオ画像の大域的な意味情報を抽出するステップは、訓練されたエンコーダに前記ビデオ画像を入力するステップと、前記エンコーダの出力を取得し、前記ビデオ画像の大域的な意味情報を取得するステップと、を含む。
該態様の1つの実施例では、Nフレームごとに、設定された画像伝送モードを使用して、第2のビデオ通信端末に第1の参照画像を送信するステップ、をさらに含み、設定された画像伝送モードで伝送される前記第1の参照画像のデータ量は、前記意味情報のデータ量よりも大きく、Nは1よりも大きく、前記第1の参照画像は、前記第1のビデオ通信端末により撮影されたビデオ画像に属し、前記第1の参照画像は、前記第2のビデオ通信端末が前記意味情報及び前記第1の参照画像に基づいて前記ビデオ画像の再構築画像を再構築するために使用される。
該態様の1つの実施例では、前記意味情報が設定対象の意味情報である場合、前記第1の参照画像は、前記第2のビデオ通信端末が、受信された意味情報に基づいて前記設定対象の再構築サブ画像を取得して、前記再構築サブ画像と前記第1の参照画像とを融合して、前記ビデオ画像の再構築画像を取得するために使用される。
該態様の1つの実施例では、前記意味情報が大域的な意味情報である場合、前記第1の参照画像は、前記第2のビデオ通信端末が、受信された意味情報に基づいて初期再構築画像を取得して、前記初期再構築画像と前記第1の参照画像とを融合して、前記ビデオ画像の再構築画像を取得するために使用される。
該態様の1つの実施例では、前記意味情報が設定対象の意味情報である場合、前記ビデオ画像における設定対象の位置情報を取得するステップと、前記第2のビデオ通信端末に前記位置情報を送信するステップと、をさらに含み、前記位置情報は、前記第2のビデオ通信端末が、前記位置情報に基づいて前記設定対象の再構築サブ画像と前記第1の参照画像とを融合して、前記ビデオ画像の再構築画像を取得するために使用される。
該態様の1つの実施例では、設定された画像伝送モードを使用して、前記第2のビデオ通信端末に第2の参照画像を送信するステップ、をさらに含み、前記設定された画像伝送モードで伝送される前記第2の参照画像のデータ量は、前記意味情報のデータ量よりも大きく、前記第2の参照画像は、前記設定対象の画像、及び前記第1のビデオ通信端末の環境画像のうちの少なくとも1つであり、前記第2の参照画像は、前記第2のビデオ通信端末が前記意味情報及び前記第2の参照画像に基づいて前記ビデオ画像の再構築画像を再構築するために使用される。
本発明の第2の態様では、ビデオ画像の伝送方法であって、第1のビデオ通信端末により撮影されたビデオ画像の意味情報を受信するステップと、前記意味情報に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得するステップと、第2のビデオ通信端末の表示パネルにより前記再構築画像を表示するステップと、を含む、方法を提供する。
該態様の1つの実施例では、前記意味情報に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得するステップは、前記意味情報及び事前に訓練されたデコーダにより画像を再構築し、前記ビデオ画像の再構築画像を取得するステップ、を含む。
該態様の1つの実施例では、前記デコーダの入力は、画像の意味情報であり、前記デコーダの出力は、入力された意味情報に基づいて再構築された画像である。
該態様の1つの実施例では、前記デコーダは、畳み込みニューラルネットワークである。
該態様の1つの実施例では、前記ビデオ画像の意味情報は、前記ビデオ画像における設定対象の意味情報、及び前記ビデオ画像の大域的な意味情報のうちの何れか1つを含む。該態様の1つの実施例では、前記設定対象は、人の顔又は人の体を含む。
該態様の1つの実施例では、前記意味情報に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得するステップは、設定された画像伝送モードで直近に受信された第1の参照画像を取得するステップと、前記意味情報及び前記第1の参照画像に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得するステップと、をさらに含み、前記第1の参照画像は、前記第1のビデオ通信端末により撮影されて送信されたビデオ画像であり、設定された画像伝送モードで受信された前記第1の参照画像のデータ量は、前記意味情報のデータ量よりも大きい。
該態様の1つの実施例では、Nフレームごとに、設定された画像伝送モードで前記第1のビデオ通信端末からの第1の参照画像を受信するステップ、をさらに含み、Nは1よりも大きい。
該態様の1つの実施例では、前記意味情報が設定対象の意味情報である場合、前記意味情報及び前記第1の参照画像に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得するステップは、訓練されたデコーダに前記意味情報を入力するステップと、前記デコーダの出力を取得し、前記設定対象の再構築サブ画像を取得するステップと、前記設定対象の再構築サブ画像と前記第1の参照画像とを融合し、前記ビデオ画像の再構築画像を取得するステップと、を含む。
該態様の1つの実施例では、前記意味情報が大域的な意味情報である場合、前記意味情報及び前記第1の参照画像に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得するステップは、訓練されたデコーダに前記意味情報を入力するステップと、前記デコーダの出力を取得し、初期再構築画像を取得するステップと、前記初期再構築画像と前記第1の参照画像とを融合し、前記ビデオ画像の再構築画像を取得するステップと、を含む。
該態様の1つの実施例では、前記意味情報が顔意味情報である場合、前記デコーダの出力を取得し、顔の再構築サブ画像を取得し、前記意味情報が体意味情報である場合、前記デコーダの出力を取得し、体の再構築サブ画像を取得する。
該態様の1つの実施例では、前記第1のビデオ通信端末により送信された、前記ビデオ画像における前記設定対象の位置情報を受信するステップ、さらに含み、前記設定対象の再構築サブ画像と前記第1の参照画像とを融合し、前記ビデオ画像の再構築画像を取得するステップは、前記位置情報に基づいて前記設定対象の再構築サブ画像と前記第1の参照画像とを融合し、前記ビデオ画像の再構築画像を取得するステップ、を含む。
該態様の1つの実施例では、前記第1のビデオ通信端末により送信された位置情報を受信するステップは、前記第1のビデオ通信端末により送信された、前記ビデオ画像における顔領域の第1の位置情報を受信するステップと、前記第1のビデオ通信端末により送信された、前記ビデオ画像における体領域の第2の位置情報を受信するステップと、を含む。
該態様の1つの実施例では、前記位置情報に基づいて前記設定対象の再構築サブ画像と前記第1の参照画像とを融合する前に、前記設定対象の再構築サブ画像に対してエッジフェザリング処理を行うステップ、をさらに含む。
該態様の1つの実施例では、前記意味情報に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得するステップは、設定された画像伝送モードで受信された第2の参照画像を取得するステップと、前記意味情報及び前記第2の参照画像に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得するステップと、を含み、前記第2の参照画像は、設定対象の画像、及び前記第1のビデオ通信端末の環境画像のうちの少なくとも1つであり、設定された画像伝送モードで受信された前記第2の参照画像のデータ量は、前記意味情報のデータ量よりも大きい。
本発明の第3の態様では、ビデオ画像の伝送方法であって、第1のビデオ通信端末が、撮影されたビデオ画像を取得し、前記ビデオ画像の意味情報を取得し、第2のビデオ通信端末に前記意味情報を送信するステップと、前記第2のビデオ通信端末が、前記意味情報を受信し、前記意味情報に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得し、第2のビデオ通信端末の表示パネルにより前記再構築画像を表示するステップと、を含む、方法を提供する。
本発明の第4の態様では、ビデオ画像の伝送装置であって、第1のビデオ通信端末により撮影されたビデオ画像を取得する画像取得モジュールと、前記ビデオ画像の意味情報を抽出する情報抽出モジュールと、第2のビデオ通信端末に前記意味情報を送信する送信モジュールと、を含み、前記意味情報は、前記第2のビデオ通信端末で前記ビデオ画像の再構築画像を再構築するために使用される、装置を提供する。
該態様の1つの実施例では、前記情報抽出モジュールは、訓練されたエンコーダにより前記ビデオ画像の意味情報を抽出し、前記エンコーダは、画像の意味情報を認識する。
該態様の1つの実施例では、前記エンコーダの入力は、画像であり、前記エンコーダの出力は、入力画像の意味情報としての入力画像に対応する低次元ベクトルである。
該態様の1つの実施例では、前記ビデオ画像の意味情報は、前記ビデオ画像における設定対象の意味情報、及び前記ビデオ画像の大域的な意味情報のうちの何れか1つを含む。
該態様の1つの実施例では、Nフレームごとに、設定された画像伝送モードを使用して、第2のビデオ通信端末に第1の参照画像を送信する第1の参照画像送信モジュール、をさらに含み、設定された画像伝送モードで伝送される前記第1の参照画像のデータ量は、前記意味情報のデータ量よりも大きく、Nは1よりも大きく、前記第1の参照画像は、前記第1のビデオ通信端末により撮影されたビデオ画像に属し、前記第1の参照画像は、前記第2のビデオ通信端末が前記意味情報及び前記第1の参照画像に基づいて前記ビデオ画像の再構築画像を再構築するために使用される。
該態様の1つの実施例では、設定された画像伝送モードを使用して、前記第2のビデオ通信端末に第2の参照画像を送信する第2の参照画像送信モジュール、をさらに含み、前記設定された画像伝送モードで伝送される前記第2の参照画像のデータ量は、前記意味情報のデータ量よりも大きく、前記第2の参照画像は、前記設定対象の画像、及び前記第1のビデオ通信端末の環境画像のうちの少なくとも1つであり、前記第2の参照画像は、前記第2のビデオ通信端末が前記意味情報及び前記第2の参照画像に基づいて前記ビデオ画像の再構築画像を再構築するために使用される。
本発明の第5の態様では、ビデオ画像の伝送装置であって、第1のビデオ通信端末により撮影されたビデオ画像の意味情報を受信する情報受信モジュールと、前記意味情報に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得する画像再構築モジュールと、第2のビデオ通信端末の表示パネルにより前記再構築画像を表示する画像表示モジュールと、を含む、装置を提供する。
該態様の1つの実施例では、前記画像再構築モジュールは、前記意味情報及び事前に訓練されたデコーダにより画像を再構築し、前記ビデオ画像の再構築画像を取得する。
該態様の1つの実施例では、前記ビデオ画像の意味情報は、前記ビデオ画像における設定対象の意味情報、及び前記ビデオ画像の大域的な意味情報のうちの何れか1つを含む。
該態様の1つの実施例では、前記画像再構築モジュールは、設定された画像伝送モードで直近に受信された第1の参照画像を取得する第1の参照画像取得サブモジュールと、前記意味情報及び前記第1の参照画像に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得する第1の画像再構築サブモジュールと、をさらに含み、前記第1の参照画像は、前記第1のビデオ通信端末により撮影されて送信されたビデオ画像であり、設定された画像伝送モードで受信された前記第1の参照画像のデータ量は、前記意味情報のデータ量よりも大きい。
該態様の1つの実施例では、Nフレームごとに、設定された画像伝送モードで前記第1のビデオ通信端末からの第1の参照画像を受信する第1の参照画像受信サブモジュール、をさらに含み、Nは1よりも大きい。
該態様の1つの実施例では、前記画像再構築モジュールは、設定された画像伝送モードで受信された第2の参照画像を取得する第2の参照画像取得サブモジュールと、前記意味情報及び前記第2の参照画像に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得する第2の画像再構築サブモジュールと、を含み、前記第2の参照画像は、設定対象の画像、及び前記第1のビデオ通信端末の環境画像のうちの少なくとも1つであり、設定された画像伝送モードで受信された前記第2の参照画像のデータ量は、前記意味情報のデータ量よりも大きい。
本発明の第6の態様では、ビデオ通信を行うことが可能な第1のビデオ通信端末及び第2のビデオ通信端末を含むビデオ画像の伝送システムであって、第1のビデオ通信端末は、撮影されたビデオ画像を取得し、前記ビデオ画像の意味情報を取得し、第2のビデオ通信端末に前記意味情報を送信し、前記第2のビデオ通信端末は、前記意味情報を受信し、前記意味情報に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得し、第2のビデオ通信端末の表示パネルにより前記再構築画像を表示する、ビデオ画像の伝送システムを提供する。
本発明の第7の態様では、ビデオ画像を撮影する撮影装置と、表示パネルと、コンピュータプログラムが記憶されているメモリと、プロセッサと、を含むインテリジェントインタラクティブタブレットであって、前記プロセッサは、該コンピュータプログラムを実行する際に、前記撮影装置により撮影されたビデオ画像の意味情報を抽出し、他のインテリジェントインタラクティブタブレットに前記意味情報を送信するように構成され、前記プロセッサは、該コンピュータプログラムを実行する際に、他のインテリジェントインタラクティブタブレットにより送信されたビデオ画像の意味情報を受信し、前記意味情報に基づいて画像を再構築し、他のインテリジェントインタラクティブタブレットにより送信されたビデオ画像の再構築画像を取得し、前記表示パネルにより前記再構築画像を表示するように構成される、インテリジェントインタラクティブタブレットを提供する。
本発明の第8の態様では、コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、プロセッサに該コンピュータプログラムを実行させる際に、上記の何れかの実施例のビデオ画像の伝送方法を実現する、記憶媒体を提供する。
1つの実施例に係るビデオ画像の伝送方法が適用可能なシステム環境を示す図である。 1つの実施例に係るビデオ画像の伝送方法の概略を示すフローチャートである。 もう1つの実施例に係るビデオ画像の伝送方法の概略を示すフローチャートである。 1つの実施例に係るエンコーダ及びデコーダを構築するためのモデルの概略図である。 1つの実施例に係る画像送信端末によるビデオ画像の伝送方法の概略を示すフローチャートである。 1つの実施例に係る画像受信端末によるビデオ画像の伝送方法の概略を示すフローチャートである。 1つの実施例に係るビデオ画像の伝送装置の概略の構成を示す図である。 もう1つの実施例に係るビデオ画像の伝送装置の概略の構成を示す図である 1つの実施例に係るインテリジェントインタラクティブタブレットの内部構造を示す図である。
以下は、図面及び実施例を参照しながら本発明を詳細に説明する。なお、ここで説明される具体的な実施例は、単に本発明を解釈するためのものであり、本発明を限定するものではない。
本明細書で言及される「実施例」は、実施例を参照しながら説明される特定の特徴、構造、又は特性が本発明の少なくとも1つの実施例に含まれてもよいことを意味する。本明細書の様々な箇所で出現する該用語は、必ずしも同一の実施例を意味することではなく、他の実施例と相互に排他的な独立した又は代替の実施例でもない。当業者により明確、暗黙的に理解できるように、本明細書に記載される実施例は他の実施例と組み合わせてもよい。
本発明に係るビデオ画像の伝送方法は図1に示すシステム環境に適用されてもよく、該システム環境では、少なくとも2つのコンピュータ装置100がネットワークを介して通信を行うことができるように接続されている。コンピュータ装置100は、ラップトップコンピュータ、携帯電話、カメラ電話、スマートフォン、携帯情報端末(PDA)、ナビゲーションデバイス、インテリジェントインタラクティブタブレット、ウェアラブルデバイス、スマートモーターサイクル、他のスマートホームデバイス、又はこれらのデバイスの何れか組み合わせであってもよい。
本発明の実施例では、コンピュータ装置100には、例えばビデオ会議ソフトウェア、インスタントメッセージングソフトウェアなどのビデオ通信を実現するためのアプリケーションソフトウェアがインストールされ、このようなアプリケーションソフトウェアを介して少なくとも2つのコンピュータ装置100との間ビデオ通信を確立することができる。ビデオ通信では、何れか一方のコンピュータ装置100は、ビデオ画像の送信側として、ローカルエンドで収集されたビデオのフレーム画像を他方のコンピュータ装置100に送信してもよいし、ビデオ画像の受信側として、他のコンピュータ装置100により送信されたビデオのフレーム画像を受信して表示してもよい。
さらに、コンピュータ装置100には、例えばテキスト編集アプリケーションプログラム、ドキュメントプレゼンテーションアプリケーションプログラム、インスタントメッセージングアプリケーションプログラム、画像編集アプリケーションプログラム、ソーシャルアプリケーションプログラム、eコマースアプリケーションプログラム、検索アプリケーションプログラム、ブラウザアプリケーションプログラムなどの他のアプリケーションプログラムがさらにインストールされてもよい。ここで、テキスト編集アプリケーションプログラムは、例えば電子ホワイトボードアプリケーションプログラム、電子黒板アプリケーションプログラムを含み、ドキュメントプレゼンテーションアプリケーションプログラムは、例えば無線スクリーンプロジェクションアプリケーションを含む。
幾つかの実施例では、インテリジェントインタラクティブタブレットをコンピュータ装置の一例としてもよい。インテリジェントインタラクティブタブレットは、タッチ技術により表示タブレットに表示される内容を制御し、人間とコンピュータとのインタラクションを実現する統合装置であってもよく、プロジェクタ、電子ホワイトボード、スクリーン、ステレオ、テレビ及びビデオ会議端末などの1つ以上の機能を統合してもよい。インテリジェントインタラクティブタブレットの表示パネルはタッチパネル(タッチスクリーン)であり、該タッチパネルは静電容量タッチパネル、電磁タッチパネル、又は赤外線タッチパネルなどを含んでもよい。該タッチパネルは、ユーザにより指又は入力装置を介して入力されたタッチ操作を受け付けてもよい。ここで、入力装置は、静電容量ペン、電磁ペン及び/又は赤外線ペンなどを含むが、これらに限定されない。
1つの実施例では、ビデオ画像の伝送方法を提供する。図2に示すように、該方法は、以下のステップを含む。
S110において、第1のビデオ通信端末は、ビデオ画像を取得し、該ビデオ画像は、該第1のビデオ通信端末により撮影されたビデオにおけるフレーム画像である。
ビデオ会議、ビデオ通話などのビデオ通信は、一般に、フレームごとにビデオ画像を伝送する。ここで、第1のビデオ通信端末は、ビデオ通信においてビデオ画像を送信する必要がある端末であり、ビデオ画像の送信端末であってもよい。第1のビデオ通信端末により取得されたビデオ画像は、第1のビデオ通信端末の撮影装置により撮影されたビデオ会議又はビデオ通話のシナリオにおけるビデオ画像である。
ビデオ通信では、各ビデオ通信端末は、他のビデオ通信端末にビデオ画像を送信する必要があり、また、他のビデオ通信端末からビデオ画像を受信する必要がある。従って、ビデオ通信では、第1のビデオ通信端末は、ビデオ通信に参加する任意の端末であってもよい。
S120において、第1のビデオ通信端末は、ビデオ画像の意味情報を抽出する。
画像は多数の画素により構成され、意味(semantic)は画像内の画素情報である。画像の意味情報を取得することは、画像の画素の深い特徴情報を抽出することを意味してもよく、これらの情報は、ビデオ画像の重要な細部を表すことができる。例えば、ビデオ会議のビデオ画像では、意味情報は、会議に参加する人の表情の特徴情報、身体の動きの特徴情報、又は例えば会議室のテーブルや椅子の情報などの会議の環境情報を含んでもよい。
本発明の幾つかの実施例では、ビデオ画像から取得された意味情報は、画像における設定対象(人の顔、人の体、テーブル、椅子など)の意味情報であってもよいし、画像のキー画素の特徴情報などの画像の大域的な意味情報であってもよい。
S130において、第1のビデオ通信端末は、第2のビデオ通信端末に意味情報を送信する。
ビデオ画像に含まれる全ての情報と比べて、ビデオ画像から取得された意味情報のデータ量は少ないため、ビデオ画像のリアルタイム伝送を比較的に容易に実現することができる。
S210において、第2のビデオ通信端末は、第1のビデオ通信端末により送信された意味情報を受信し、該意味情報に基づいて画像を再構築し、該ビデオ画像の再構築画像を取得する。
ここで、画像の意味情報に基づいて画像圧縮及び画像再構築を行うことで、画像の浅い情報に基づいて圧縮符号化及び再構築を行う従来の方法に比べて、より多くの画像の細部を保留することができるため、ビデオ通信における画像へ高忠実度の要求とリアルタイム性の要求とを両立することができる。
S220において、第2のビデオ通信端末は、再構築画像を表示する。
上記の実施例のビデオ画像の伝送方法によれば、ビデオ通信において、送信端末がビデオ画像を送信する際に、該ビデオ画像の意味情報を取得し、受信端末に該意味情報を送信する。受信端末が該意味情報を受信した後に、該意味情報に基づいて送信端末のビデオ画像を再構築し、再構築画像を取得し、受信端末の表示パネルにより再構築画像を表示してもよい。これによって、ビデオ通信では、1つのビデオ画像を送信する際に非常に少量のデータを送信するだけでよいため、ネットワーク帯域幅への要求が非常に低く、リアルタイム伝送の要求を満たすことができる。また、意味情報に基づいてビデオ画像を圧縮/復元することで、ビデオ画像の受信側でより高品質の画像を再構築することができ、ビデオ通信における画像への高解像度及び高忠実度の要求を両立することができる。
1つの実施例では、ビデオ会議の例では、ローカルユーザ及びリモートユーザは、それぞれ、第1のビデオ通信端末及び第2のビデオ通信端末を介してビデオ会議に参加し、第1のビデオ通信端末は、ローカルユーザの会議におけるビデオ画像を伝送すべきビデオ画像として撮影する。図3に示すように、第1のビデオ通信端末から第2のビデオ通信端末に該ビデオ画像を伝送する実現プロセスは以下の通りである。
ステップS302において、第1のビデオ通信端末では、ビデオ画像の意味情報を抽出する。
第1のビデオ通信端末では、事前に訓練されたエンコーダによりビデオ画像の意味情報を抽出してもよい。幾つかの実施例では、エンコーダは、畳み込みニューラルネットワークを使用してもよい。該エンコーダの入力は、伝送すべきビデオ画像であり、その出力は、ビデオ画像に対応する低次元ベクトルである。
エンコーダは、変換関数fと見なされてもよく、該変換関数fは、伝送すべきビデオ画像Iを低次元ベクトルyに変換でき、即ちy=f(I)。yはビデオ画像Iの意味情報であり、yは64次元又は128次元のベクトルであってもよく、高品質の画像再構築を実現すると共に、伝送する必要なデータ量を低減できるように、ビデオ会議におけるビデオ画像の最も重要な情報を取り込むことができる。
なお、本発明の実施例に係る低次元ベクトル及び意味情報は、ビデオ会議のシナリオにおけるビデオ画像を学習して抽出された、ビデオ画像における重要な細部を表すことができる情報である。これらの情報は、他のシナリオにおける意味情報と異なる。言い換えれば、本発明の実施例に係る低次元ベクトル及び意味情報は、人間の思考により理解される特徴情報ではなく、人間の思考により理解され得ない画像の深い情報である。
ステップS303において、第1のビデオ通信端末は、抽出された意味情報を第2のビデオ通信端末に送信する。
ビデオ画像の意味情報yは、非常に少ないデータ量により表現さればよく、例えば、意味情報yは、64次元の浮動小数点数ベクトルであってもよいため、各フレームのビデオ画像について、64*4=256byteのデータのみを送信する必要がある。ビデオフレームレートが30Hzである場合、必要な帯域幅は256*30=7680Bps=7.68KBpsである。よって、該画像伝送モードでは、ネットワーク環境への帯域幅の要求が低いことが分かった。
ステップS402において、第2のビデオ通信端末は、意味情報を受信し、意味情報に基づいて画像を再構築し、第1のビデオ通信端末のビデオ画像の再構築画像を取得する。
第2のビデオ通信端末が意味情報yを受信した後に、第2のビデオ通信端末は、意味情報yを事前に訓練されたデコーダの入力として、デコーダにより画像を再構築してもよい。デコーダは、変換関数gと見なされてもよく、該変換関数gは、低次元の意味情報yを再構築画像I’に変換でき、即ちI’=g(y)。
1つの実施例では、上記の実施例のエンコーダ及びデコーダは、以下の条件を満たす必要がある。ビデオ会議のシナリオに適している。エンコーダfは、ビデオ画像に対してコンパクション(compaction)符号化を行い、低次元の意味情報を出力できる。デコーダgは、高品質の再構築画像を取得するために、原ビデオ画像の最も重要な情報(例えば顔の表情の細部、体の動きの細部など)を復元できる。
幾つかの実施例では、図4に示すように、Encoder-decoderネットワークに基づいてエンコーダf及びデコーダgを設計してもよい。ここで、左部分(即ち、ネットワークの下位層)は一連の畳み込み演算層により構成され(この図には2つの層のみが例示されているが、実際の状況では他の数の畳み込み演算層を設けてもよい)、中間層は1つの低次元ベクトルを出力し、この部分はエンコーダに相当し、低次元ベクトルはリモートエンド(即ち、受信側)に伝送される。右部分(即ち、ネットワークの上位層)はこの低次元ベクトルに基づいて一連の逆畳み込みにより再構築画像yを取得し、このプロセスはデコーダに相当する。即ち、エンコーダf及びデコーダgは、何れも畳み込みニューラルネットワークを採用してもよい。
上記のEncoder-decoderネットワークに基づいてエンコーダf及びデコーダgを設定し、ビデオ会議における画像データを訓練することで、より良い圧縮率を達成することができる。しかし、低次元ベクトルに画像の深い意味情報のみが含まれるため、再構築画像の解像度が低くなる可能性がある。上記の状況を回避するために、1つの実施例では、従来のEncoder-decoderネットワークを基礎にして、U-Netの考え方を採用してEncoder-decoderネットワークを最適化する。即ち、ネットワークの下位層(例えば図4における畳み込み層)により出力された特徴ベクトルの一部をさらに抽出して、中間層により出力された低次元ベクトルに結合する。これによって、リモートエンドに伝送されるデータの量が増加するが、この部分の情報が増加しても、リモートエンドに伝送する必要のあるデータ量は、従来の圧縮方法に比べて依然として遥かに少ない。
U-Netによりネットワークを最適化することで、ネットワーク状態に応じて、ビデオ画像の圧縮率及び受信側で再構築された画質を動的に調整することができる。ネットワーク状態が良好である場合、ネットワークの下位層により出力された特徴ベクトルから比較的に多い情報を抽出して、中間層により出力された低次元ベクトルに結合することで、受信側で再構築された画像の品質を高くすることができる。ネットワークの状態が悪い場合、ネットワークの下位層により出力された特徴ベクトルから比較的に少ない情報を抽出して、中間層により出力された低次元ベクトルに結合し、或いは下位層により出力された特徴ベクトルから結合用の情報を抽出しないことで、ビデオ画像の送信側の画像圧縮率を高くすることができるため、ビデオ画像のリアルタイム伝送に役立つ。
ステップS404において、第2のビデオ通信端末は、ビデオ画像の再構築画像を表示する。
本発明の1つの実施例では、図4及び上記の実施例に示すように、エンコーダfは、一連の畳み込み演算により構成されてもよく、デコーダgは、一連の逆畳み込み演算により構成されてもよい。
1つの実施例では、以下の最適化目標に従って、要件を満たすエンコーダf及びデコーダgを訓練してもよい。
Figure 2022517841000002

ここで、g(f(I))は、ビデオ画像Iがエンコーダfにより処理されて取得された意味情報がデコーダgにより復号されて復元されて取得された再構築画像を表し、
(外1)
Figure 2022517841000003
は、ビデオ画像Iと再構築画像との残差が最小となる場合のエンコーダfデコーダgを表す。
なお、上記の例におけるEncoder-decoderに加えて、生成モデル構築が条件を満たす他のエンコーダ及びデコーダを採用してもよい。
ビデオ会議のシナリオにおけるビデオ画像の場合、最も重要な画像情報は、人の表情、口の形状などの細部である。幾つかの実施例では、設定対象が人の顔である例では、第1のビデオ通信端末は、ビデオ画像における顔意味情報を抽出し、第2のビデオ通信端末は、ビデオ画像における人の顔の細部を復元するように、対応するデコーダにより顔意味情報に基づいて画像を再構築する。
ビデオ会議におけるビデオ画像のより多くの細部を取得するために、人の体を設定対象としてもよい。第1のビデオ通信端末は、ビデオ画像から体意味情報を抽出する。人体意味情報は、顔の表情情報及び体の動き情報などの人そのものに関する情報を含む。第2のビデオ通信端末は、ビデオ画像における人の全体的な細部を復元するように、対応するデコーダにより体意味情報に基づいて画像を再構築する。
上記の実施例によれば、ビデオ会議における画像伝送のリアルタイム性を確保することができ、受信側で画像の細部を復元することができるが、伝送される意味情報のデータ量が少ないため、受信側の高解像度を確保することは困難である。上記の状況を考慮して、1つの実施例では、第1のビデオ通信端末は、Nフレームごとに(Nは1よりも大きく、Nの値は実際の状況に応じて調整されてもよい)、設定された画像伝送モードを使用して、第2のビデオ通信端末に第1の参照画像を送信する。該設定された画像伝送モードで伝送される該第1の参照画像のデータ量は、該意味情報のデータ量よりも大きい。ここで、第1の参照画像は、該第1のビデオ通信端末により撮影されたビデオ画像である。該第1の参照画像は、該第2のビデオ通信端末が該意味情報及び該第1の参照画像に基づいて該ビデオ画像の再構築画像を再構築するために使用される。
例えば、第1のビデオ通信端末は、100フレームごとに第2のビデオ通信端末に完全な1つのフレームのビデオ画像を送信する。その後の99フレームのビデオ画像において、第2のビデオ通信端末は、ビデオ画像の低次元意味情報を受信した場合、この完全なビデオ画像の情報と組み合わせて画像を再構築し、より高い解像度の再構築画像を取得してもよい。
以下は、人の顔の意味情報及び人の体の意味情報をそれぞれ例にして説明する。図3に示すように、上記の第1のビデオ通信端末と第2のビデオ通信端末との間のビデオ画像の伝送は、以下のステップをさらに含む。
ステップS300において、第1のビデオ通信端末は、設定されたフレーム間隔に従って、設定された画像伝送モードにより、第2のビデオ通信端末に参照画像(本実施例では、第1の参照画像)を送信する。
ここで、参照画像は、第1のビデオ通信端末により撮影されたビデオ画像である。第1のビデオ通信端末は、ブロックに基づく画像圧縮方法を使用して、参照画像の画像符号化情報を取得してもよい。即ち、第1のビデオ通信端末と第2のビデオ通信端末との間では、意味情報に基づく画像伝送に加えて、他の画像伝送モードをさらに含む。該他の画像伝送モードは、間隔を置いて実行され、画像の圧縮率がより低く、伝送されるデータ量がより大きい。
ステップS401において、第2のビデオ通信端末は、参照画像を受信する。
ビデオ会議では、第1のビデオ通信端末は、1つ以上のフレームの間隔を置いた方式で第2のビデオ通信端末に参照画像を送信する。第2のビデオ通信端末は、参照画像を取得した後に、ビデオ会議では、隣接するフレームのビデオ画像の画素の変化が一般に小さく、例えば、人の表情や身体に対応する画素のみが変化し、他の会議室の環境情報が変化しない。このため、第2のビデオ通信端末により受信された意味情報は、変化している画素の情報である可能性がある。よって、第2のビデオ通信端末は、少量の意味情報及びデータ量の大きい参照画像に基づいて、ビデオ画像を高度に復元することができ、第2のビデオ通信端末での再構築画像の解像度を向上させることができる。参照画像が間隔を置いて送信されるため、伝送帯域幅及びリアルタイム性への影響は少ない。
幾つかの実施例では、第2のビデオ通信端末によりリアルタイムで受信された意味情報がビデオ画像における設定対象の意味情報である場合、設定対象の再構築サブ画像を再構築してもよい。該設定対象の再構築サブ画像と該参照画像の再構築画像とを融合することで、第1のビデオ通信端末のビデオ画像の再構築画像を取得する。
他の幾つかの実施例では、第1のビデオ通信端末と第2のビデオ通信端末との間のビデオ画像の伝送は、以下のステップをさらに含む。
ステップS301において、第1のビデオ通信端末は、ビデオ画像に対して前処理を行う。
第1のビデオ通信端末によるビデオ画像の前処理は、該ビデオ画像における設定対象を認識し、該ビデオ画像における設定対象のサブ画像を取得することと、訓練されたエンコーダに該設定対象のサブ画像を入力し、該エンコーダの出力を取得し、該ビデオ画像における設定対象の意味情報を取得することと、該エンコーダを用いて入力画像における該設定対象の意味情報を認識して出力することとを含む。人の顔を設定対象とする例では、第1のビデオ通信端末は、ビデオ画像から顔領域を認識し、該ビデオ画像に対応する顔サブ画像を取得し、訓練されたエンコーダに顔サブ画像を入力し、該エンコーダの出力を取得する。これによって、該ビデオ画像の顔意味情報を取得する。
ステップS403において、第2のビデオ通信端末は、該設定対象の意味情報を受信し、受信された該設定対象の意味情報に基づいて該設定対象の再構築サブ画像を取得した後に、再構築された顔画像又は体画像に対して後処理を行ってもよい。後処理は、該設定対象の再構築サブ画像と該参照画像とを融合し、該ビデオ画像の再構築画像を取得することを含む。
人の顔を設定対象とする例では、第2のビデオ通信端末は、顔意味情報に基づいて顔の再構築画像を取得した後に、顔の再構築画像に対して後処理を行う。第2のビデオ通信端末による顔の再構築画像の後処理は、顔の再構築画像を該参照画像の再構築画像に重ね合わせて、第1のビデオ通信端末のビデオ画像の再構築画像を取得することを含む。
1つの実施例の1つの態様では、第1のビデオ通信端末は、該ビデオ画像における設定対象の位置情報をさらに取得し、第2のビデオ通信端末に該位置情報を送信する。該位置情報は、第2のビデオ通信端末が該位置情報に基づいて該設定対象の再構築サブ画像を該参照画像に重ね合わせて、該ビデオ画像の再構築画像を取得するために使用される。
1つの実施例では、人の顔を設定対象とする例では、第1のビデオ通信端末は、該ビデオ画像における顔領域の位置情報を取得し、第2のビデオ通信端末に該位置情報を送信する。第2のビデオ通信端末は、第1のビデオ通信端末により送信された顔の位置情報を受信した後に、顔の位置情報に基づいて顔の再構築画像を参照画像の再構築画像に重ね合わせて、第1のビデオ通信端末のビデオ画像の再構築画像を取得してもよい。
1つの実施例では、ビデオ画像の再構築画像の品質を向上させるために、本発明の1つの実施例では、上記のビデオ画像の伝送方法は、以下のステップをさらに含む。第2のビデオ通信端末は、位置情報に基づいて設定対象の再構築サブ画像と参照画像とを融合する前に、該設定対象の再構築サブ画像に対してエッジフェザリング(edge feathering)処理を行い、エッジフェザリング処理後の設定対象の再構築サブ画像と参照画像の再構築画像とを重ね合わせて、第1のビデオ通信端末のビデオ画像の再構築画像を取得してもよい。
1つの実施例では、人の顔を設定対象とする例では、第2のビデオ通信端末は、画像の重ね合わせを行う前に、顔の再構築画像に対してエッジフェザリング処理を行い、エッジフェザリング処理後の顔の再構築画像と参照画像の再構築画像とを重ね合わせて、第1のビデオ通信端末のビデオ画像の再構築画像を取得する。本実施例によれば、より良い重ね合わせ効果と融合効果を得ることができ、第2のビデオ通信端末により表示される再構築画像の画質を向上させることができる。
他の幾つかの実施例では、ビデオ会議の完全な細部を取得するために、第1のビデオ通信端末によりビデオ画像から抽出された意味情報は、画像の大域的な意味情報であってもよく、該処理は対応するエンコーダにより実現されてもよい。第2ビデオ通信端末は、ビデオ画像の大域的な細部情報を復元するように、大域的な意味情報に基づいて画像を再構築する。大域的な意味情報に基づいて画像の伝送及び再構築を行う場合、第1のビデオ通信端末は、上記のビデオ画像の前処理を行う必要がなく、第2のビデオ通信端末は、再構築画像の後処理を行う必要がない。
なお、実際のシナリオの必要に応じて、人の顔の意味、人の体の意味又は画像の大域的な意味に基づいてエンコーダ及びデコーダを事前に訓練してもよい。例えば、顔画像を訓練データとし、要件を満たすようにエンコーダ及びデコーダを訓練する。或いは、体画像を訓練データとし、要件を満たすようにエンコーダ及びデコーダを訓練する。或いは、ビデオ画像全体を訓練データとし、要件を満たすようにエンコーダ及びデコーダを訓練する。
他の実施例では、第1のビデオ通信端末は、設定された画像伝送モードを使用して、第2のビデオ通信端末に他のタイプの参照画像(即ち第2の参照画像)を送信してもよい。該設定された画像伝送モードで伝送される第2の参照画像のデータ量は、意味情報のデータ量よりも大きい。ここで、該第2の参照画像は、設定対象の画像、及び第1のビデオ通信端末の環境画像のうちの少なくとも1つであってもよい。第2の参照画像を伝送することで、第2のビデオ通信端末が該意味情報及び該第2の参照画像に基づいて該ビデオ画像の再構築画像を再構築する。
例えば、第1のビデオ通信端末は、ビデオ会議のシナリオにおける参加者の高解像度写真及び/又は会議室の高解像度写真を第2の参照画像として事前に設定し、設定された画像伝送モードを使用して第2のビデオ通信端末に完全な第2の参照画像を送信する。第2のビデオ通信端末は、第2の参照画像を受信して保存し、各フレームのビデオ画像の意味情報を受信した後、第2の参照画像の細部情報を参照して画像を再構築してもよい。従って、意味情報が少ない場合であっても、第2のビデオ通信端末は、第2の参照画像に基づいて高解像度の再構築画像を再構築することができる。
1つの実施例では、ビデオ画像を1つのフレームごとに個別に符号化/復号すると、フレーム間に不整合が発生する可能性があり、即ち、受信側で表示されたビデオ内容にスキップによる変化がある可能性がある。この状況を考慮して、1つの実施例では、ビデオ会議のシナリオにおけるビデオ画像の伝送は、実際に複数のネットワーク分岐を有する。エンコーダの入力は、現在のフレームのビデオ画像であるだけでなく、現在のフレームの前のMフレームのビデオ画像をさらに含む。よって、符号化後の低次元ベクトルには、現在のフレームの意味情報だけでなく、直前の1つ以上のフレームの意味情報がさらに含まれる。それに応じて、受信側のデコーダは、現在のフレームの意味情報及び直前の1つ以上のフレームの意味情報に基づいて、フレーム間で一貫性のあるビデオ画像を再構築する。本実施例によれば、受信側でのビデオ内容のスキップによる変化を回避することができる。
従来の方式のビデオ画像の伝送方式と比べて、上記の実施例によれば、ビデオ会議において、各ビデオ通信端末で高解像度の再構築画像を取得することができる。殆どのビデオ画像の伝送する必要な意味情報のデータ量が非常に少ないため、ネットワーク環境が悪い場合であっても、伝送を迅速に完了することができ、リアルタイム性を確保することができる。意味情報及び参照画像に基づいて画像を再構築する場合、ビデオ画像の重要な情報(特に顔の細部、体の動きの細部など)を保留することができるため、優れたビデオ会議の体験を得ることができる。
上記のビデオ画像の伝送方法と同様に、本発明は、もう1つのビデオ画像の伝送方法の実施例をさらに提供する。本実施例では、第1のビデオ通信端末は、ビデオ画像の送信端末である。図5に示すように、第1のビデオ通信端末の観点から、ビデオ画像の伝送方法は、以下のステップを含む。
S510において、第1のビデオ通信端末により撮影されたビデオ画像を取得する。
S510において、該ビデオ画像の意味情報を抽出する。
S530において、第2のビデオ通信端末に該意味情報を送信する。該意味情報は、第2のビデオ通信端末が該意味情報を受信した後に該第2のビデオ通信端末の表示パネルにより該ビデオ画像の再構築画像を表示するために使用される。該再構築画像は、該第2のビデオ通信端末により該意味情報に基づいて再構築された画像である。
1つの実施例の幾つかの態様では、送信端末である第1のビデオ通信端末は、ビデオ画像の意味情報を抽出する方法として、訓練されたエンコーダにより該ビデオ画像の意味情報を抽出してもよい。該エンコーダは、画像の意味情報を認識するために使用される。該エンコーダの入力は、画像であり、その出力は、入力画像に対応する低次元ベクトル、即ち入力画像の意味情報である。例えば、該ビデオ画像の意味情報は、ビデオ画像における設定対象の意味情報、又はビデオ画像の大域的な意味情報であってもよい。このため、ビデオ画像の意味情報を抽出する方法は、以下の方式を含む。
方式1:該ビデオ画像における設定対象を認識し、該設定対象のサブ画像を取得し、訓練されたエンコーダに該設定対象のサブ画像を入力し、該エンコーダの出力を取得し、該ビデオ画像における該設定対象の意味情報を取得する。
方式2:訓練されたエンコーダに該ビデオ画像を入力し、該エンコーダの出力を取得し、該ビデオ画像の大域的な意味情報を取得する。
ここで、設定対象は、実際の状況に応じて設定されてもよい。例えば、関心のある情報がビデオ通信における人の顔情報である場合、人の顔を設定対象とする。関心のある情報がビデオ通信における人の顔の表情や体の動きの情報である場合、人の体を設定対象とする。関心のある情報がビデオ通信におけるシナリオ情報全体である場合、ビデオ画像の大域的な意味情報を抽出する。これによって、ビデオ通信の様々な要件を満たすことができる。
本発明の1つの実施例では、第1のビデオ通信端末がビデオ画像における設定対象の意味情報を抽出するステップは、該ビデオ画像における顔領域を認識し、顔サブ画像を取得することと、訓練されたエンコーダに顔サブ画像を入力することと、エンコーダの出力を取得し、ビデオ画像の顔意味情報を取得することとを含む。或いは、該ステップは、ビデオ画像における体領域を認識し、体サブ画像を取得することと、訓練されたエンコーダに体サブ画像を入力することと、エンコーダの出力を取得し、ビデオ画像の体意味情報を取得することとを含む。これによって、ビデオ画像における設定対象の意味情報の抽出効率及び正確度を向上させることができる。
ここで、第1のビデオ通信端末がビデオ画像の大域的な意味情報を抽出するステップは、ビデオ画像における設定対象を認識する必要がなく、画像伝送プロセスを簡素化し、より包括的な意味情報を取得し、受信側で忠実度がより高い再構築画像を取得することができる。
1つの実施例では、意味情報が人の顔の意味情報や人体の意味情報などの設定対象の意味情報である場合、第1のビデオ通信端末は、Nフレームごとに、設定された画像伝送モードを使用して、第2のビデオ通信端末に第1の参照画像を送信する。設定された画像伝送モードで伝送される第1の参照画像のデータ量は、意味情報のデータ量よりも大きく、Nは1よりも大きい。該第1の参照画像は、第1のビデオ通信端末により撮影されたビデオ画像に属する。該第1の参照画像を伝送することで、第2のビデオ通信端末は意味情報及び第1の参照画像に基づいてビデオ画像の再構築画像を再構築することができる。
第2のビデオ通信端末に第1の参照画像を送信することで、第2のビデオ通信端末は、設定対象の意味情報を受信した後に、意味情報に基づいて設定対象の再構築サブ画像を取得し、設定対象の再構築サブ画像と第1の参照画像の再構築画像とを重ね合わせて、ビデオ画像の再構築画像を取得する。
1つの実施例では、意味情報がビデオ画像における設定対象の意味情報である場合、第2のビデオ通信端末が高品質の再構築画像を取得するために、第1のビデオ通信端末は、第2のビデオ通信端末に上記の設定対象のビデオ画像における位置情報を送信する。該位置情報を送信することで、第2のビデオ通信端末は、該位置情報に基づいて設定対象の再構築サブ画像と第1の参照画像とを融合して、より正確なビデオ画像の再構築画像を取得する。
第2のビデオ通信端末に第2の位置情報を送信することで、第2のビデオ通信端末は、第2の位置情報に基づいて再構築された人体の再構築画像と参照画像の再構築画像とを重ね合わせて、より正確なビデオ画像の再構築画像を取得する。
上記のビデオ画像の伝送方法では、殆どのビデオ画像について、送信側は、ビデオ画像の重要な意味情報を抽出して送信するだけでよいため、参照画像により、再構築画像の解像度及び忠実度の要求を満たすことができると共に、ビデオ画像の伝送のリアルタイム性を保証することができる。
上記のビデオ画像の伝送方法と同様に、本発明は、もう1つのビデオ画像の伝送方法の実施例をさらに提供する。本実施例では、第2のビデオ通信端末は、ビデオ画像の受信端末である。図6に示すように、第2のビデオ通信端末の観点から、ビデオ画像の伝送方法は、以下のステップを含む。
S610において、第1のビデオ通信端末により送信されたビデオ画像の意味情報を受信する。該ビデオ画像は、該第1のビデオ通信端末により撮影されたビデオ画像である。
S620において、該意味情報に基づいて画像を再構築し、該ビデオ画像の再構築画像を取得する。
S630において、第2のビデオ通信端末の表示パネルにより該再構築画像を表示する。
幾つかの実施例では、該ビデオ画像の意味情報は、ビデオ画像における設定対象の意味情報、及びビデオ画像の大域的な意味情報のうちの何れか1つを含む。ここで、該設定対象は、人の顔又は人の体を含むが、これらに限定されず、実際のシナリオに応じて設定されてもよい。
1つの実施例では、送信される意味情報がビデオ画像における設定対象の意味情報である場合、受信側で画像をより良く再構築するために、第1のビデオ通信端末は、Nフレームごとに、設定された画像伝送モードを使用して、第2のビデオ通信端末に第1の参照画像を送信する。該第1の参照画像は、第1のビデオ通信端末により撮影されたビデオ画像に属し、且つ、設定された画像伝送モードで伝送される第1の参照画像のデータ量は、意味情報のデータ量よりも大きい。Nは1よりも大きい。第2のビデオ通信端末は、第1の参照画像及び現在受信された設定対象の意味情報に基づいて画像を再構築する。
それに応じて、第2のビデオ通信端末は、Nフレームごとに、設定された画像伝送モードで第1のビデオ通信端末からの第1の参照画像を受信する。Nは1よりも大きい。
以下は、人の顔の意味情報及び人の体の意味情報をそれぞれ例にして説明する。
人の顔の意味情報に基づいてビデオ画像の送信及び再構築を行う場合、第2のビデオ通信端末は、第1のビデオ通信端末からの第1の参照画像の画像符号化情報を事前に受信する。該参照画像は、第1のビデオ通信端末により撮影されたビデオ画像であり、且つ該第1の参照画像の画像符号化情報のデータ量は、上記の実施例のビデオの顔意味情報/体意味情報のデータ量よりも大きい。
第2のビデオ通信端末は、該画像符号化情報に基づいて第1の参照画像を取得する。他のビデオ画像の顔意味情報/体意味情報を受信した場合、顔意味情報/体意味情報に基づいて顔再構築サブ画像/体再構築サブ画像を再構築し、顔再構築サブ画像/体再構築サブ画像と第1の参照画像とを融合し、他のビデオ画像の再構築画像を取得してもよい。ここで、顔意味情報/体意味情報に基づいて顔再構築サブ画像/体再構築サブ画像を再構築する実施プロセスは、以下の通りであってもよい。
第2のビデオ通信端末は、第1のビデオ通信端末により送信された顔意味情報/体意味情報を受信した後に、訓練されたデコーダに顔意味情報/体意味情報を入力し、該デコーダの出力を取得し、顔再構築サブ画像/体再構築サブ画像を取得する。ここで、デコーダの入力は、画像意味情報であり、出力は入力意味情報に基づいて再構築された画像である。上記の実施例で説明したように、デコーダは畳み込みニューラルネットワークであってもよい。
1つの実施例では、設定対象の意味情報に基づいて画像を再構築する場合、より高品質な再構築画像を得るために、第2のビデオ通信端末は、第1のビデオ通信端末からの位置情報をさらに受信する。該位置情報は、ビデオ画像における設定対象の位置情報である。そして、該位置情報に基づいて設定対象の再構築サブ画像と第1の参照画像とを重ね合わせ、ビデオ画像の再構築画像を取得する。
1つの実施例では、顔意味情報に基づくビデオ画像の伝送及び再構築の例では、第2のビデオ通信端末は、第1のビデオ通信端末からの第1の位置情報を受信し、該第1の位置情報は、第1のビデオ通信端末のビデオ画像における顔領域の位置情報である。同様に、第2のビデオ通信端末は、第1の位置情報に基づいて顔の再構築画像と第1の参照画像とを重ね合わせ、ビデオ画像の再構築画像を取得する。
体意味情報に基づくビデオ画像の伝送及び再構築の例では、第2のビデオ通信端末は、第1のビデオ通信端末からの第2の位置情報を受信する。該第2の位置情報は、ビデオ画像における人体領域の位置情報である。同様に、第2のビデオ通信端末は、第2の位置情報に基づいて人体の再構築画像と第1の参照画像とを重ね合わせ、ビデオ画像の再構築画像を取得する。
他の実施例では、第2のビデオ通信端末は、設定された画像伝送モードで受信された第2の参照画像をさらに取得する。該第2の参照画像は、設定対象の画像、及び第1のビデオ通信端末の環境画像のうちの少なくとも1つである。設定された画像伝送モードで受信された第2の参照画像のデータ量は、意味情報のデータ量よりも大きい。該意味情報及び第2の参照画像に基づいて画像を再構築し、ビデオ画像の再構築画像を取得する。実施プロセスについては、上記の実施例の説明を参照してもよい。
上記のビデオ画像の伝送方法によれば、ビデオ画像の受信側では、画像における重要な意味情報及びより完全な参照画像により画像を再構築することで、画像伝送のリアルタイム性の要求と解像度及び忠実度の要求とを両立することができる。
なお、上記の方法の実施例では、フローチャートのステップは矢印で示す順番に表示されているが、これらのステップは必ずしも矢印で示す順序で順番に実行されることに限定されない。本明細書に明確な説明がない限り、これらのステップの実行には厳密な順序がなく、これらのステップは他の順序で実行されてもよい。さらに、方法の実施例のフローチャートのステップの少なくとも一部は、複数のサブステップ又は複数の段階を含んでもよい。これらのサブステップ又は段階は、必ずしも同時に実行されることに限定されず、異なる時間に実行されてもよい。また、これらのサブステップ又は段階の実行順序は必ずしも順番に実行されることに限定されず、他のステップ又は、他のステップのサブステップ若しくは段階の少なくとも一部と交互に実行されてもよい。
上記の実施例に係るビデオ画像の伝送方法と同様に、本明細書は、ビデオ画像の伝送装置の実施例をさらに提供する。
図7に示すように、1つの実施例では、ビデオ画像の伝送装置は、以下のモジュールを含む。
画像取得モジュール601は、第1のビデオ通信端末により撮影されたビデオ画像を取得する。
情報抽出モジュール602は、該ビデオ画像の意味情報を抽出する。
送信モジュール603は、第2のビデオ通信端末に該意味情報を送信する。該意味情報は、第2のビデオ通信端末でビデオ画像の再構築画像を再構築するために使用される。
本発明の1つの実施例では、情報抽出モジュール602は、訓練されたエンコーダによりビデオ画像の意味情報を抽出する。該エンコーダは、画像の意味情報を認識するために使用される。
本発明の1つの実施例では、エンコーダの入力は、画像であり、エンコーダの出力は、入力画像の意味情報としての入力画像に対応する低次元ベクトルである。例えば、エンコーダは、畳み込みニューラルネットワークであってもよい。
そのうちの1つの実施例では、ビデオ画像の意味情報は、ビデオ画像における設定対象の意味情報、及びビデオ画像の大域的な意味情報のうちの何れか1つを含む。
抽出された意味情報が設定対象の意味情報である場合、情報抽出モジュール602は、対象情報抽出サブモジュールを含んでもよい。該対象情報抽出サブモジュールは、該ビデオ画像における設定対象を認識し、該設定対象のサブ画像を取得し、訓練されたエンコーダに該設定対象のサブ画像を入力し、該エンコーダの出力を取得し、該ビデオ画像における該設定対象の意味情報を取得する。
ここで、設定対象は、人の顔又は人の体であってもよい。設定対象が人の顔である場合、該対象情報抽出サブモジュールは、顔情報抽出部を含む。該顔情報抽出部は、ビデオ画像における顔領域を認識し、顔サブ画像を取得し、訓練されたエンコーダに顔サブ画像を入力し、該エンコーダの出力を取得し、該ビデオ画像の顔意味情報を取得する。設定対象が人の体である場合、該対象情報抽出サブモジュールは、体情報抽出部を含む。該体情報抽出部は、ビデオ画像における体領域を認識し、体サブ画像を取得し、訓練されたエンコーダに体サブ画像を入力し、該エンコーダの出力を取得し、該ビデオ画像の体意味情報を取得する。
抽出された意味情報がビデオ画像の大域的な意味情報である場合、情報抽出モジュール602は、大域情報抽出サブモジュールを含んでもよい。該大域情報抽出サブモジュールは、訓練されたエンコーダに該ビデオ画像を入力し、該エンコーダの出力を取得し、該ビデオ画像の大域的な意味情報を取得する。
本発明の1つの実施例では、上記のビデオ画像の伝送装置は、以下のモジュールをさらに含む。
第1の参照画像送信モジュールは、Nフレームごとに、設定された画像伝送モードを使用して、第2のビデオ通信端末に第1の参照画像を送信する。設定された画像伝送モードで伝送される第1の参照画像のデータ量は、前記意味情報のデータ量よりも大きい。Nは1よりも大きい。
該第1の参照画像は、第1のビデオ通信端末により撮影されたビデオ画像に属する。該第1の参照画像は、第2のビデオ通信端末が意味情報及び第1の参照画像に基づいてビデオ画像の再構築画像を再構築するために使用される。
意味情報が設定対象の意味情報である場合、第1の参照画像は、第2のビデオ通信端末が、受信された意味情報に基づいて設定対象の再構築サブ画像を取得して、再構築サブ画像と第1の参照画像とを融合して、ビデオ画像の再構築画像を取得するために使用されてもよい。
意味情報が大域的な意味情報である場合、第1の参照画像は、第2のビデオ通信端末が、受信された意味情報に基づいて初期再構築画像を取得して、初期再構築画像と第1の参照画像とを融合して、ビデオ画像の再構築画像を取得するために使用されてもよい。
他の実施例では、意味情報が設定対象の意味情報である場合、該ビデオ画像の伝送装置は、以下のモジュールをさらに含む。
対象位置取得モジュールは、ビデオ画像における設定対象の位置情報を取得する。
位置情報送信モジュールは、第2のビデオ通信端末に位置情報を送信する。該位置情報は、第2のビデオ通信端末が、位置情報に基づいて設定対象の再構築サブ画像と第1の参照画像とを融合して、ビデオ画像の再構築画像を取得するために使用される。
本発明の1つの実施例では、上記のビデオ画像の伝送装置は、以下のモジュールをさらに含む。
第2の参照画像送信モジュールは、設定された画像伝送モードを使用して、第2のビデオ通信端末に第2の参照画像を送信する。該設定された画像伝送モードで伝送される第2の参照画像のデータ量は、意味情報のデータ量よりも大きい。
該第2の参照画像は、設定対象の画像、及び第1のビデオ通信端末の環境画像のうちの少なくとも1つである。第2の参照画像は、第2のビデオ通信端末が意味情報及び第2の参照画像に基づいてビデオ画像の再構築画像を再構築するために使用される。
上記の実施例のビデオ画像の伝送装置によれば、ビデオ通信において、送信端末がビデオ画像を送信する際に、該ビデオ画像の意味情報を取得し、受信端末に該意味情報を送信する。受信端末が該意味情報を受信した後に、該意味情報に基づいて送信端末のビデオ画像を再構築し、再構築画像を取得し、受信端末の表示パネルにより再構築画像を表示してもよい。これによって、ビデオ通信では、1つのビデオ画像を送信する際に非常に少量のデータを送信するだけでよいため、ネットワーク帯域幅への要求が非常に低く、リアルタイム伝送の要求を満たすことができる。また、意味情報に基づいてビデオ画像を圧縮/復元することで、ビデオ画像の受信側でより高品質の画像を再構築することができ、ビデオ通信における画像への高解像度及び高忠実度の要求を両立することができる。
本発明の他の実施例では、図8に示すように、ビデオ画像の伝送装置は、以下のモジュールを含む。情報受信モジュール701は、第1のビデオ通信端末により撮影されたビデオ画像の意味情報を受信する。
画像再構築モジュール702は、該意味情報に基づいて画像を再構築し、該ビデオ画像の再構築画像を取得する。
画像表示モジュール703は、第2のビデオ通信端末の表示パネルにより該再構築画像を表示する。
本発明の1つの実施例では、画像再構築モジュール702は、意味情報及び事前に訓練されたデコーダにより画像を再構築し、ビデオ画像の再構築画像を取得する。
本発明の1つの実施例では、ビデオ画像の意味情報は、ビデオ画像における設定対象の意味情報、及びビデオ画像の大域的な意味情報のうちの何れか1つを含む。
ここで、デコーダの入力は、画像の意味情報であり、デコーダの出力は、入力された意味情報に基づいて再構築された画像である。幾つかのシナリオでは、デコーダは、畳み込みニューラルネットワークである。
本発明の1つの実施例では、ビデオ画像の意味情報は、ビデオ画像における設定対象の意味情報、及びビデオ画像の大域的な意味情報のうちの何れか1つを含む。該設定対象は、例えば人の顔又は人の体などである。
本発明の1つの実施例では、画像再構築モジュール702は、以下のモジュールを含む。
第1の参照画像取得サブモジュールは、設定された画像伝送モードで直近に受信された第1の参照画像を取得する。第1の参照画像は、第1のビデオ通信端末により撮影されて送信されたビデオ画像である。設定された画像伝送モードで受信された第1の参照画像のデータ量は、意味情報のデータ量よりも大きい。
第1の画像再構築サブモジュールは、意味情報及び第1の参照画像に基づいて画像を再構築し、ビデオ画像の再構築画像を取得する。
本発明の1つの実施例では、該ビデオ画像の伝送装置は、Nフレームごとに、設定された画像伝送モードで第1のビデオ通信端末からの第1の参照画像を受信する第1の参照画像受信サブモジュールをさらに含む。Nは1よりも大きい。
1つの実施例では、受信された意味情報が設定対象の意味情報である場合、画像再構築モジュール702は、第1の再構築サブモジュールを含んでもよい。該第1の再構築サブモジュールは、訓練されたデコーダに意味情報を入力し、デコーダの出力を取得し、設定対象の再構築サブ画像を取得し、設定対象の再構築サブ画像と第1の参照画像とを融合し、ビデオ画像の再構築画像を取得する。
1つの実施例では、該ビデオ画像の伝送装置は、第1のビデオ通信端末により送信された、ビデオ画像における設定対象の位置情報を受信する位置情報受信モジュールをさらに含む。該第1の再構築サブモジュールは、位置情報に基づいて設定対象の再構築サブ画像と第1の参照画像とを融合し、ビデオ画像の再構築画像を取得する。
1つの実施例では、受信された意味情報が大域的な意味情報である場合、画像再構築モジュール702は、第2の再構築サブモジュールを含んでもよい。該第2の再構築サブモジュールは、訓練されたデコーダに意味情報を入力し、デコーダの出力を取得し、初期再構築画像を取得し、初期再構築画像と第1の参照画像とを融合し、ビデオ画像の再構築画像を取得する。
本発明の1つの実施例では、画像再構築モジュール702は、以下のモジュールを含む。
第2の参照画像取得サブモジュールは、設定された画像伝送モードで受信された第2の参照画像を取得する。第2の参照画像は、設定対象の画像、及び第1のビデオ通信端末の環境画像のうちの少なくとも1つである。設定された画像伝送モードで受信された第2の参照画像のデータ量は、意味情報のデータ量よりも大きい。
第2の画像再構築サブモジュールは、意味情報及び第2の参照画像に基づいて画像を再構築し、ビデオ画像の再構築画像を取得する。
上記の実施例のビデオ画像の伝送装置によれば、ビデオ通信において、送信端末がビデオ画像を送信する際に、該ビデオ画像の意味情報を取得し、受信端末に該意味情報を送信する。受信端末が該意味情報を受信した後に、該意味情報に基づいて送信端末のビデオ画像を再構築し、再構築画像を取得し、受信端末の表示パネルにより再構築画像を表示してもよい。これによって、ビデオ通信では、1つのビデオ画像を送信する際に非常に少量のデータを送信するだけでよいため、ネットワーク帯域幅への要求が非常に低く、リアルタイム伝送の要求を満たすことができる。また、意味情報に基づいてビデオ画像を圧縮/復元することで、ビデオ画像の受信側でより高品質の画像を再構築することができ、ビデオ通信における画像への高解像度及び高忠実度の要求を両立することができる。
本発明の1つの実施例では、図1に示すように、ビデオ画像の伝送システムは、ビデオ通信を行うことが可能に接続された第1のビデオ通信端末及び第2のビデオ通信端末を含む。第1のビデオ通信端末は、撮影されたビデオ画像を取得し、ビデオ画像の意味情報を取得し、第2のビデオ通信端末に意味情報を送信する。該第2のビデオ通信端末は、意味情報を受信し、意味情報に基づいて画像を再構築し、ビデオ画像の再構築画像を取得し、第2のビデオ通信端末の表示パネルにより再構築画像を表示する。
ビデオ画像の伝送装置及びシステムの実施例の態様について、ビデオ画像の伝送方法についての上記の説明を参照してもよく、ここでその説明を省略する。上記のビデオ画像伝送装置の各モジュールの全部又は一部は、ソフトウェア、ハードウェア、及びそれらの組み合わせにより実現されてもよい。上記のモジュールは、ハードウェアの形でインテリジェントインタラクティブタブレットのプロセッサに内蔵され、或いはインテリジェントインタラクティブタブレットのプロセッサと独立してもよいし、プロセッサが上記各モジュールに対応する操作を呼び出すようにソフトウェアの形でインテリジェントインタラクティブタブレットのメモリに記憶されてもよい。
また、上記の例のビデオ画像の伝送装置の態様では、各プログラムモジュールの論理的分割は、一例に過ぎず、実際に応用する際に、必要に応じて、例えば対応するハードウェアの構成要求又はソフトウェアの実装の利便性を考慮して、該機能の割り当てを異なるプログラムモジュールにより実行されてもよい。即ち、上記の全部又は一部の機能を達成するように、ビデオ画像の伝送装置の内部構造を異なるプログラムモジュールに分割してもよい。
1つの実施例では、インテリジェントインタラクティブタブレットを提供する。その内部構造は、図9に示すものであってもよい。該インテリジェントインタラクティブタブレットは、システムバスを介して接続されたプロセッサ、メモリ、ネットワークインターフェイス、表示パネル、撮影装置、及び入力装置を含む。ここで、プロセッサは、計算及び制御の機能を提供するために使用される。メモリには、不揮発性記憶媒体、メモリが含まれ、不揮発性記憶媒体は、オペレーティングシステム及びコンピュータプログラムを格納し、メモリは、不揮発性記憶媒体におけるオペレーティングシステム及びコンピュータプログラムの実行のために環境を提供する。ネットワークインターフェイスは、ネットワーク接続を介して外部の端末と通信可能に接続するために使用される。コンピュータプログラムは、プロセッサにより実行される際にビデオ画像の伝送方法を実現する。表示パネルは、液晶ディスプレイ又は電子インクディスプレイであってもよい。撮影装置は、インテリジェントインタラクティブタブレットの前の環境又は人のビデオ画像を撮影することができる。入力装置は、表示パネルを覆うタッチ層であってもよいし、インテリジェントインタラクティブタブレットの筐体に設定されたボタン、トラックボール、又はタッチパッドであってもよいし、外部のキーボード、タッチパッド、又はマウスであってもよい。
当業者にとって理解できるように、図9に示す構造は、本発明の実施例に関連する構造の一部のブロック図に過ぎず、本発明の実施例に係るインテリジェントインタラクティブタブレットを限定するものではない。インテリジェントインタラクティブタブレットは、図示されていない部材をさらに含んでもよいし、図示されている部材を含まなくてもよいし、他の部材と組み合わせてもよいし、異なる部材の配置方式を有してもよい。
本発明の1つの実施例では、ビデオ画像を撮影する撮影装置と、表示パネルと、コンピュータプログラムが記憶されているメモリと、プロセッサと、を含むインテリジェントインタラクティブタブレットをさらに提供する。プロセッサは、該コンピュータプログラムを実行する際に、撮影装置により撮影されたビデオ画像の意味情報を抽出し、他のインテリジェントインタラクティブタブレットに前記意味情報を送信するように構成されてもよい。また、プロセッサは、該コンピュータプログラムを実行する際に、他のインテリジェントインタラクティブタブレットにより送信されたビデオ画像の意味情報を受信し、意味情報に基づいて画像を再構築し、他のインテリジェントインタラクティブタブレットにより送信されたビデオ画像の再構築画像を取得し、表示パネルにより前記再構築画像を表示するように構成されてもよい。
他の実施例では、プロセッサがプログラムを実行する際に、上記のビデオ画像の伝送方法の他の実施例に係る対応するステップを実行するように構成されてもよい。
本発明の1つの実施例では、コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体をさらに提供する。プロセッサに該コンピュータプログラムを実行させる際に、第1のビデオ通信端末により撮影されたビデオ画像を取得し、ビデオ画像の意味情報を抽出し、第2のビデオ通信端末に意味情報を送信するように構成されてもよい。該意味情報は、第2のビデオ通信端末でビデオ画像の再構築画像を再構築するために使用される。
他の実施例では、プロセッサがプログラムを実行する際に、上記のビデオ画像の伝送方法の他の実施例に係るビデオ画像の送信端末で実行される対応するステップを実行するように構成されてもよい。
本発明のもう1つの実施例では、コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体をさらに提供する。プロセッサに該コンピュータプログラムを実行させる際に、第1のビデオ通信端末により撮影されたビデオ画像の意味情報を受信し、意味情報に基づいて画像を再構築し、ビデオ画像の再構築画像を取得し、第2のビデオ通信端末の表示パネルにより再構築画像を表示するように構成されてもよい。
他の実施例では、プロセッサがプログラムを実行する際に、上記のビデオ画像の伝送方法の他の実施例に係るビデオ画像の受信端末で実行される対応するステップを実行するように構成されてもよい。
当業者にとって理解できるように、上記の実施例の方法におけるプロセスの全部又は一部は、コンピュータプログラムを介して関連するハードウェアに指示することにより実施されてもよい。該コンピュータプログラムは、不揮発性のコンピュータ読み取り可能な記憶媒体に記憶されてもよい。コンピュータプログラムが実行される際に、上記の方法の各実施例のプロセスを含んでもよい。ここで、本発明に係る各実施例で使用されるメモリ、ストレージ、データベース、又は他の媒体は、不揮発性及び/又は揮発性のメモリを含んでもよい。不揮発性のメモリは、読み取り専用メモリ(ROM)、プログラミング可能なROM(PROM)、電気的にプログラミング可能なROM(EPROM)、電気的に消去可能なプログラミング可能なROM(EEPROM)、又はフラッシュメモリを含んでもよい。揮発性のメモリは、ランダムアクセスメモリ(RAM)又は外部キャッシュメモリを含んでもよい。非限定的な例として、RAMは、スタティックRAM(SRAM)、ダイナミックRAM(DRAM)、同期DRAM(SDRAM)、ダブルデータレートSDRAM(DDRSDRAM)、拡張型SDRAM(ESDRAM)、同期リンク(Synchlink)DRAM(SLDRAM)、メモリバス(Rambus)ダイレクトRAM(RDRAM)、ダイレクトメモリバスダイナミックRAM(DRDRAM)、及びメモリバスダイナミックRAM(RDRAM)などの様々な形式を有してもよい。
上記の実施例の各技術的特徴は、任意に組み合わせてもよく、説明を簡潔にするために、上記の実施例における各技術的特徴の全ての可能な組み合わせを記載していない。しかし、組み合わせに矛盾がない限り、これらの技術的特徴の組み合わせは本明細書に記載される範囲内のものである。上記の各実施例は、それぞれの態様を詳細に説明しているが、詳細に説明されていない部分について、他の実施例の関連する説明を参照してもよい。
実施例における「含む」及び「有する」という用語及びそれらの任意の変形は、非排他的な包含をカバーすることを意図している。例えば、一連のステップ又は(モジュール)ユニットを含むプロセス、方法、システム、プロダクト、又はデバイスは、列挙されたステップ又はユニットに限定されず、列挙されていないステップ又はユニットをさらに含んでもよいし、これらのプロセス、方法、プロダクト又はデバイスに固有の他のステップ又はユニットを含んでもよい。
実施例で言及される「複数」は、2つ以上を意味する。「及び/又は」は、関連する対象の関連関係を説明するためものであり、例えば、「A及び/又はB」は、Aのみが存在すること、A及びBの両方が存在すること、及びBのみが存在することという3つのタイプの関係を意味してもよい。記号「/」は、通常、前後の関連対象が「又は」の関係にあることを意味する。
実施例で言及される「第1/第2」は、単に類似の対象を区別するためのものであり、対象の特定の順序を表すものではない。なお、「第1/第2」は、容認される場合に特定の順序又は前後順序を互いに変更してもよい。なお、「第1/第2」により区別される対象は、適切な場合に変更可能であるため、本明細書に記載された実施例は、本明細書に図示又は記載されたもの以外の順序で実施されてもよい。

Claims (46)

  1. ビデオ画像の伝送方法であって、
    第1のビデオ通信端末により撮影されたビデオ画像を取得するステップと、
    前記ビデオ画像の意味情報を抽出するステップと、
    第2のビデオ通信端末に前記意味情報を送信するステップと、を含み、
    前記意味情報は、前記第2のビデオ通信端末で前記ビデオ画像の再構築画像を再構築するために使用される、方法。
  2. 前記ビデオ画像の意味情報を抽出するステップは、
    訓練されたエンコーダにより前記ビデオ画像の意味情報を抽出するステップ、を含み、
    前記エンコーダは、画像の意味情報を認識する、請求項1に記載の方法。
  3. 前記エンコーダの入力は、画像であり、
    前記エンコーダの出力は、入力画像の意味情報としての入力画像に対応する低次元ベクトルである、請求項2に記載の方法。
  4. 前記エンコーダは、畳み込みニューラルネットワークである、請求項3に記載の方法。
  5. 前記ビデオ画像の意味情報は、
    前記ビデオ画像における設定対象の意味情報、及び
    前記ビデオ画像の大域的な意味情報のうちの何れか1つを含む、請求項2に記載の方法。
  6. 前記ビデオ画像における設定対象の意味情報を抽出するステップは、
    前記ビデオ画像における設定対象を認識し、前記設定対象のサブ画像を取得するステップと、
    訓練されたエンコーダに前記設定対象のサブ画像を入力するステップと、
    前記エンコーダの出力を取得し、前記ビデオ画像における前記設定対象の意味情報を取得するステップと、を含む、請求項5に記載の方法。
  7. 前記設定対象は、人の顔又は人の体を含む、請求項6に記載の方法。
  8. 前記設定対象が人の顔である場合、前記ビデオ画像における設定対象の意味情報を抽出するステップは、
    前記ビデオ画像における顔領域を認識し、顔サブ画像を取得するステップと、
    訓練されたエンコーダに前記顔サブ画像を入力するステップと、
    前記エンコーダの出力を取得し、前記ビデオ画像の顔意味情報を取得するステップと、を含む、請求項7に記載の方法。
  9. 前記設定対象が人の体である場合、前記ビデオ画像における設定対象の意味情報を抽出するステップは、
    前記ビデオ画像における体領域を認識し、体サブ画像を取得するステップと、
    訓練されたエンコーダに前記体サブ画像を入力するステップと、
    前記エンコーダの出力を取得し、前記ビデオ画像の体意味情報を取得するステップと、を含む、請求項7に記載の方法。
  10. 前記ビデオ画像の大域的な意味情報を抽出するステップは、
    訓練されたエンコーダに前記ビデオ画像を入力するステップと、
    前記エンコーダの出力を取得し、前記ビデオ画像の大域的な意味情報を取得するステップと、を含む、請求項5に記載の方法。
  11. Nフレームごとに、設定された画像伝送モードを使用して、第2のビデオ通信端末に第1の参照画像を送信するステップ、をさらに含み、
    設定された画像伝送モードで伝送される前記第1の参照画像のデータ量は、前記意味情報のデータ量よりも大きく、
    Nは1よりも大きく、
    前記第1の参照画像は、前記第1のビデオ通信端末により撮影されたビデオ画像に属し、
    前記第1の参照画像は、前記第2のビデオ通信端末が前記意味情報及び前記第1の参照画像に基づいて前記ビデオ画像の再構築画像を再構築するために使用される、請求項5乃至10の何れかに記載の方法。
  12. 前記意味情報が設定対象の意味情報である場合、前記第1の参照画像は、前記第2のビデオ通信端末が、受信された意味情報に基づいて前記設定対象の再構築サブ画像を取得して、前記再構築サブ画像と前記第1の参照画像とを融合して、前記ビデオ画像の再構築画像を取得するために使用される、請求項11に記載の方法。
  13. 前記意味情報が大域的な意味情報である場合、前記第1の参照画像は、前記第2のビデオ通信端末が、受信された意味情報に基づいて初期再構築画像を取得して、前記初期再構築画像と前記第1の参照画像とを融合して、前記ビデオ画像の再構築画像を取得するために使用される、請求項11に記載の方法。
  14. 前記意味情報が設定対象の意味情報である場合、
    前記ビデオ画像における設定対象の位置情報を取得するステップと、
    前記第2のビデオ通信端末に前記位置情報を送信するステップと、をさらに含み、
    前記位置情報は、前記第2のビデオ通信端末が、前記位置情報に基づいて前記設定対象の再構築サブ画像と前記第1の参照画像とを融合して、前記ビデオ画像の再構築画像を取得するために使用される、請求項12に記載の方法。
  15. 設定された画像伝送モードを使用して、前記第2のビデオ通信端末に第2の参照画像を送信するステップ、をさらに含み、
    前記設定された画像伝送モードで伝送される前記第2の参照画像のデータ量は、前記意味情報のデータ量よりも大きく、
    前記第2の参照画像は、前記設定対象の画像、及び前記第1のビデオ通信端末の環境画像のうちの少なくとも1つであり、
    前記第2の参照画像は、前記第2のビデオ通信端末が前記意味情報及び前記第2の参照画像に基づいて前記ビデオ画像の再構築画像を再構築するために使用される、請求項5乃至14の何れかに記載の方法。
  16. ビデオ画像の伝送方法であって、
    第1のビデオ通信端末により撮影されたビデオ画像の意味情報を受信するステップと、
    前記意味情報に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得するステップと、
    第2のビデオ通信端末の表示パネルにより前記再構築画像を表示するステップと、を含む、方法。
  17. 前記意味情報に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得するステップは、
    前記意味情報及び事前に訓練されたデコーダにより画像を再構築し、前記ビデオ画像の再構築画像を取得するステップ、を含む、請求項16に記載の方法。
  18. 前記デコーダの入力は、画像の意味情報であり、
    前記デコーダの出力は、入力された意味情報に基づいて再構築された画像である、請求項17に記載の方法。
  19. 前記デコーダは、畳み込みニューラルネットワークである、請求項18に記載の方法。
  20. 前記ビデオ画像の意味情報は、
    前記ビデオ画像における設定対象の意味情報、及び
    前記ビデオ画像の大域的な意味情報のうちの何れか1つを含む、請求項17に記載の方法。
  21. 前記設定対象は、人の顔又は人の体を含む、請求項20に記載の方法。
  22. 前記意味情報に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得するステップは、
    設定された画像伝送モードで直近に受信された第1の参照画像を取得するステップと、
    前記意味情報及び前記第1の参照画像に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得するステップと、をさらに含み、
    前記第1の参照画像は、前記第1のビデオ通信端末により撮影されて送信されたビデオ画像であり、
    設定された画像伝送モードで受信された前記第1の参照画像のデータ量は、前記意味情報のデータ量よりも大きい、請求項21に記載の方法。
  23. Nフレームごとに、設定された画像伝送モードで前記第1のビデオ通信端末からの第1の参照画像を受信するステップ、をさらに含み、
    Nは1よりも大きい、請求項22に記載の方法。
  24. 前記意味情報が設定対象の意味情報である場合、前記意味情報及び前記第1の参照画像に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得するステップは、
    訓練されたデコーダに前記意味情報を入力するステップと、
    前記デコーダの出力を取得し、前記設定対象の再構築サブ画像を取得するステップと、
    前記設定対象の再構築サブ画像と前記第1の参照画像とを融合し、前記ビデオ画像の再構築画像を取得するステップと、を含む、請求項23に記載の方法。
  25. 前記意味情報が大域的な意味情報である場合、前記意味情報及び前記第1の参照画像に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得するステップは、
    訓練されたデコーダに前記意味情報を入力するステップと、
    前記デコーダの出力を取得し、初期再構築画像を取得するステップと、
    前記初期再構築画像と前記第1の参照画像とを融合し、前記ビデオ画像の再構築画像を取得するステップと、を含む、請求項23に記載の方法。
  26. 前記意味情報が顔意味情報である場合、前記デコーダの出力を取得し、顔の再構築サブ画像を取得し、
    前記意味情報が体意味情報である場合、前記デコーダの出力を取得し、体の再構築サブ画像を取得する、請求項24に記載の方法。
  27. 前記第1のビデオ通信端末により送信された、前記ビデオ画像における前記設定対象の位置情報を受信するステップ、さらに含み、
    前記設定対象の再構築サブ画像と前記第1の参照画像とを融合し、前記ビデオ画像の再構築画像を取得するステップは、
    前記位置情報に基づいて前記設定対象の再構築サブ画像と前記第1の参照画像とを融合し、前記ビデオ画像の再構築画像を取得するステップ、を含む、請求項24に記載の方法。
  28. 前記第1のビデオ通信端末により送信された位置情報を受信するステップは、
    前記第1のビデオ通信端末により送信された、前記ビデオ画像における顔領域の第1の位置情報を受信するステップと、
    前記第1のビデオ通信端末により送信された、前記ビデオ画像における体領域の第2の位置情報を受信するステップと、を含む、請求項27に記載の方法。
  29. 前記位置情報に基づいて前記設定対象の再構築サブ画像と前記第1の参照画像とを融合する前に、
    前記設定対象の再構築サブ画像に対してエッジフェザリング処理を行うステップ、をさらに含む、請求項27に記載の方法。
  30. 前記意味情報に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得するステップは、
    設定された画像伝送モードで受信された第2の参照画像を取得するステップと、
    前記意味情報及び前記第2の参照画像に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得するステップと、を含み、
    前記第2の参照画像は、設定対象の画像、及び前記第1のビデオ通信端末の環境画像のうちの少なくとも1つであり、
    設定された画像伝送モードで受信された前記第2の参照画像のデータ量は、前記意味情報のデータ量よりも大きい、請求項21乃至29の何れかに記載の方法。
  31. ビデオ画像の伝送方法であって、
    第1のビデオ通信端末が、撮影されたビデオ画像を取得し、前記ビデオ画像の意味情報を取得し、第2のビデオ通信端末に前記意味情報を送信するステップと、
    前記第2のビデオ通信端末が、前記意味情報を受信し、前記意味情報に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得し、第2のビデオ通信端末の表示パネルにより前記再構築画像を表示するステップと、を含む、方法。
  32. ビデオ画像の伝送装置であって、
    第1のビデオ通信端末により撮影されたビデオ画像を取得する画像取得モジュールと、
    前記ビデオ画像の意味情報を抽出する情報抽出モジュールと、
    第2のビデオ通信端末に前記意味情報を送信する送信モジュールと、を含み、
    前記意味情報は、前記第2のビデオ通信端末で前記ビデオ画像の再構築画像を再構築するために使用される、装置。
  33. 前記情報抽出モジュールは、訓練されたエンコーダにより前記ビデオ画像の意味情報を抽出し、
    前記エンコーダは、画像の意味情報を認識する、請求項32に記載の装置。
  34. 前記エンコーダの入力は、画像であり、
    前記エンコーダの出力は、入力画像の意味情報としての入力画像に対応する低次元ベクトルである、請求項33に記載の装置。
  35. 前記ビデオ画像の意味情報は、
    前記ビデオ画像における設定対象の意味情報、及び
    前記ビデオ画像の大域的な意味情報のうちの何れか1つを含む、請求項33に記載の装置。
  36. Nフレームごとに、設定された画像伝送モードを使用して、第2のビデオ通信端末に第1の参照画像を送信する第1の参照画像送信モジュール、をさらに含み、
    設定された画像伝送モードで伝送される前記第1の参照画像のデータ量は、前記意味情報のデータ量よりも大きく、
    Nは1よりも大きく、
    前記第1の参照画像は、前記第1のビデオ通信端末により撮影されたビデオ画像に属し、
    前記第1の参照画像は、前記第2のビデオ通信端末が前記意味情報及び前記第1の参照画像に基づいて前記ビデオ画像の再構築画像を再構築するために使用される、請求項35に記載の装置。
  37. 設定された画像伝送モードを使用して、前記第2のビデオ通信端末に第2の参照画像を送信する第2の参照画像送信モジュール、をさらに含み、
    前記設定された画像伝送モードで伝送される前記第2の参照画像のデータ量は、前記意味情報のデータ量よりも大きく、
    前記第2の参照画像は、前記設定対象の画像、及び前記第1のビデオ通信端末の環境画像のうちの少なくとも1つであり、
    前記第2の参照画像は、前記第2のビデオ通信端末が前記意味情報及び前記第2の参照画像に基づいて前記ビデオ画像の再構築画像を再構築するために使用される、請求項35に記載の装置。
  38. ビデオ画像の伝送装置であって、
    第1のビデオ通信端末により撮影されたビデオ画像の意味情報を受信する情報受信モジュールと、
    前記意味情報に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得する画像再構築モジュールと、
    第2のビデオ通信端末の表示パネルにより前記再構築画像を表示する画像表示モジュールと、を含む、装置。
  39. 前記画像再構築モジュールは、前記意味情報及び事前に訓練されたデコーダにより画像を再構築し、前記ビデオ画像の再構築画像を取得する、請求項38に記載の装置。
  40. 前記ビデオ画像の意味情報は、
    前記ビデオ画像における設定対象の意味情報、及び
    前記ビデオ画像の大域的な意味情報のうちの何れか1つを含む、請求項39に記載の装置。
  41. 前記画像再構築モジュールは、
    設定された画像伝送モードで直近に受信された第1の参照画像を取得する第1の参照画像取得サブモジュールと、
    前記意味情報及び前記第1の参照画像に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得する第1の画像再構築サブモジュールと、をさらに含み、
    前記第1の参照画像は、前記第1のビデオ通信端末により撮影されて送信されたビデオ画像であり、
    設定された画像伝送モードで受信された前記第1の参照画像のデータ量は、前記意味情報のデータ量よりも大きい、請求項40に記載の装置。
  42. Nフレームごとに、設定された画像伝送モードで前記第1のビデオ通信端末からの第1の参照画像を受信する第1の参照画像受信サブモジュール、をさらに含み、
    Nは1よりも大きい、請求項41に記載の装置。
  43. 前記画像再構築モジュールは、
    設定された画像伝送モードで受信された第2の参照画像を取得する第2の参照画像取得サブモジュールと、
    前記意味情報及び前記第2の参照画像に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得する第2の画像再構築サブモジュールと、を含み、
    前記第2の参照画像は、設定対象の画像、及び前記第1のビデオ通信端末の環境画像のうちの少なくとも1つであり、
    設定された画像伝送モードで受信された前記第2の参照画像のデータ量は、前記意味情報のデータ量よりも大きい、請求項40に記載の装置。
  44. ビデオ通信を行うことが可能な第1のビデオ通信端末及び第2のビデオ通信端末を含むビデオ画像の伝送システムであって、
    第1のビデオ通信端末は、撮影されたビデオ画像を取得し、前記ビデオ画像の意味情報を取得し、第2のビデオ通信端末に前記意味情報を送信し、
    前記第2のビデオ通信端末は、前記意味情報を受信し、前記意味情報に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得し、第2のビデオ通信端末の表示パネルにより前記再構築画像を表示する、ビデオ画像の伝送システム。
  45. ビデオ画像を撮影する撮影装置と、表示パネルと、コンピュータプログラムが記憶されているメモリと、プロセッサと、を含むインテリジェントインタラクティブタブレットであって、
    前記プロセッサは、前記コンピュータプログラムを実行する際に、前記撮影装置により撮影されたビデオ画像の意味情報を抽出し、他のインテリジェントインタラクティブタブレットに前記意味情報を送信するように構成され、
    前記プロセッサは、前記コンピュータプログラムを実行する際に、他のインテリジェントインタラクティブタブレットにより送信されたビデオ画像の意味情報を受信し、前記意味情報に基づいて画像を再構築し、他のインテリジェントインタラクティブタブレットにより送信されたビデオ画像の再構築画像を取得し、前記表示パネルにより前記再構築画像を表示するように構成される、インテリジェントインタラクティブタブレット。
  46. コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、
    プロセッサに前記コンピュータプログラムを実行させる際に、請求項1乃至30の何れかに記載の方法を実現する、記憶媒体。
JP2021542217A 2019-01-23 2019-12-24 ビデオ画像の伝送方法、装置、インテリジェントインタラクティブタブレット及び記憶媒体 Active JP7250937B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910063004.7 2019-01-23
CN201910063004.7A CN109831638B (zh) 2019-01-23 2019-01-23 视频图像传输方法、装置、交互智能平板和存储介质
PCT/CN2019/127770 WO2020151443A1 (zh) 2019-01-23 2019-12-24 视频图像传输方法、装置、交互智能平板和存储介质

Publications (2)

Publication Number Publication Date
JP2022517841A true JP2022517841A (ja) 2022-03-10
JP7250937B2 JP7250937B2 (ja) 2023-04-03

Family

ID=66861896

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021542217A Active JP7250937B2 (ja) 2019-01-23 2019-12-24 ビデオ画像の伝送方法、装置、インテリジェントインタラクティブタブレット及び記憶媒体

Country Status (7)

Country Link
US (1) US20220051024A1 (ja)
EP (1) EP3902247A4 (ja)
JP (1) JP7250937B2 (ja)
KR (1) KR102594030B1 (ja)
CN (1) CN109831638B (ja)
AU (1) AU2019424397B2 (ja)
WO (1) WO2020151443A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023195426A1 (ja) * 2022-04-05 2023-10-12 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 復号装置、符号化装置、復号方法及び符号化方法

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109831638B (zh) * 2019-01-23 2021-01-08 广州视源电子科技股份有限公司 视频图像传输方法、装置、交互智能平板和存储介质
CN110312139A (zh) * 2019-06-18 2019-10-08 深圳前海达闼云端智能科技有限公司 图像传输的方法和装置、存储介质
CN112905132B (zh) * 2019-11-19 2023-07-18 华为技术有限公司 投屏方法及设备
CN111246176A (zh) * 2020-01-20 2020-06-05 北京中科晶上科技股份有限公司 一种节带化视频传输方法
WO2021237464A1 (zh) * 2020-05-26 2021-12-02 华为技术有限公司 视频图像处理方法及装置
US11917320B2 (en) 2020-11-23 2024-02-27 Boe Technology Group Co., Ltd. Method, device and system for sending virtual card, and readable storage medium
CN114283091B (zh) * 2021-12-27 2022-08-09 国网黑龙江省电力有限公司伊春供电公司 基于视频融合的电力设备图像恢复系统
CN114422795A (zh) * 2022-01-25 2022-04-29 阿里巴巴(中国)有限公司 一种面部视频编码方法、解码方法及装置
KR102573201B1 (ko) * 2022-08-19 2023-09-01 (주)에이아이매틱스 이미지 재건 기술 기반 영상 통신 비용 절감 시스템 및 방법
CN116847091B (zh) * 2023-07-18 2024-04-26 华院计算技术(上海)股份有限公司 图像编码方法、系统、设备及介质
CN116634178B (zh) * 2023-07-26 2023-10-31 清华大学 一种极低码率的安防场景监控视频编解码方法及系统
WO2023230638A2 (en) * 2023-09-06 2023-11-30 Futurewei Technologies, Inc. Reduced-latency communication using behavior prediction

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0832947A (ja) * 1994-07-11 1996-02-02 Hitachi Ltd 画像通信装置
JPH0998416A (ja) * 1995-09-29 1997-04-08 Denso Corp 画像信号の符号化装置および画像の認識装置
JP2004304794A (ja) * 2003-03-28 2004-10-28 Eastman Kodak Co 映画を表示する方法
CN102271241A (zh) * 2011-09-02 2011-12-07 北京邮电大学 一种基于面部表情/动作识别的图像通信方法及系统
US20130322513A1 (en) * 2012-05-29 2013-12-05 Qualcomm Incorporated Video transmission and reconstruction
JP2014529233A (ja) * 2012-03-29 2014-10-30 テンセント テクノロジー (シェンツェン) カンパニー リミテッド ビデオシミュレーション画像のための通信方法及びデバイス
JP2016537922A (ja) * 2013-12-20 2016-12-01 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 擬似ビデオ通話方法及び端末
CN106559636A (zh) * 2015-09-25 2017-04-05 中兴通讯股份有限公司 一种视频通信方法、装置及系统
US20180131950A1 (en) * 2015-04-30 2018-05-10 Hangzhou Hikvision Digital Technology Co., Ltd. Video coding and decoding methods and apparatus
JP2018201198A (ja) * 2017-05-26 2018-12-20 Line株式会社 映像圧縮方法、映像復元方法及びコンピュータプログラム

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101141608B (zh) * 2007-09-28 2011-05-11 腾讯科技(深圳)有限公司 一种视频即时通讯系统及方法
KR20120044732A (ko) * 2010-10-28 2012-05-08 지미디어(주) 벡터그래픽 이미지 파일의 전송 방법 및 시스템
KR20130022434A (ko) * 2011-08-22 2013-03-07 (주)아이디피쉬 통신단말장치의 감정 컨텐츠 서비스 장치 및 방법, 이를 위한 감정 인지 장치 및 방법, 이를 이용한 감정 컨텐츠를 생성하고 정합하는 장치 및 방법
KR101347840B1 (ko) * 2012-03-29 2014-01-09 한국과학기술원 신체 제스처 인식 방법 및 장치
CN103517072B (zh) * 2012-06-18 2017-11-03 联想(北京)有限公司 视频通信方法和设备
US9124765B2 (en) * 2012-12-27 2015-09-01 Futurewei Technologies, Inc. Method and apparatus for performing a video conference
US9906691B2 (en) * 2015-03-25 2018-02-27 Tripurari Singh Methods and system for sparse blue sampling
US10225511B1 (en) * 2015-12-30 2019-03-05 Google Llc Low power framework for controlling image sensor mode in a mobile image capture device
WO2018061173A1 (ja) * 2016-09-30 2018-04-05 株式会社オプティム Tv会議システム、tv会議方法、およびプログラム
US10402658B2 (en) * 2016-11-03 2019-09-03 Nec Corporation Video retrieval system using adaptive spatiotemporal convolution feature representation with dynamic abstraction for video to language translation
CN106454277B (zh) * 2016-11-30 2019-09-27 杭州联络互动信息科技股份有限公司 一种用于视频监控的图像分析方法以及装置
CN106878268A (zh) * 2016-12-28 2017-06-20 杰创智能科技股份有限公司 低带宽高质量传输监控图像的方法及系统
US10986356B2 (en) * 2017-07-06 2021-04-20 Samsung Electronics Co., Ltd. Method for encoding/decoding image and device therefor
CN107977634A (zh) * 2017-12-06 2018-05-01 北京飞搜科技有限公司 一种针对视频的表情识别方法、装置及设备
CN108449569B (zh) * 2018-03-13 2019-04-05 重庆虚拟实境科技有限公司 虚拟会议方法、系统、装置、计算机装置及存储介质
CN109831638B (zh) * 2019-01-23 2021-01-08 广州视源电子科技股份有限公司 视频图像传输方法、装置、交互智能平板和存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0832947A (ja) * 1994-07-11 1996-02-02 Hitachi Ltd 画像通信装置
JPH0998416A (ja) * 1995-09-29 1997-04-08 Denso Corp 画像信号の符号化装置および画像の認識装置
JP2004304794A (ja) * 2003-03-28 2004-10-28 Eastman Kodak Co 映画を表示する方法
CN102271241A (zh) * 2011-09-02 2011-12-07 北京邮电大学 一种基于面部表情/动作识别的图像通信方法及系统
JP2014529233A (ja) * 2012-03-29 2014-10-30 テンセント テクノロジー (シェンツェン) カンパニー リミテッド ビデオシミュレーション画像のための通信方法及びデバイス
US20130322513A1 (en) * 2012-05-29 2013-12-05 Qualcomm Incorporated Video transmission and reconstruction
JP2015521454A (ja) * 2012-05-29 2015-07-27 クゥアルコム・インコーポレイテッドQualcomm Incorporated ビデオ送信および再構成
JP2016537922A (ja) * 2013-12-20 2016-12-01 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 擬似ビデオ通話方法及び端末
US20180131950A1 (en) * 2015-04-30 2018-05-10 Hangzhou Hikvision Digital Technology Co., Ltd. Video coding and decoding methods and apparatus
CN106559636A (zh) * 2015-09-25 2017-04-05 中兴通讯股份有限公司 一种视频通信方法、装置及系统
JP2018201198A (ja) * 2017-05-26 2018-12-20 Line株式会社 映像圧縮方法、映像復元方法及びコンピュータプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"知的符号化、モデルベース符号化とは何か?", エレクトロニクス9月別冊 解明・情報圧縮, JPN6023005640, 1 September 1997 (1997-09-01), JP, pages 40 - 43, ISSN: 0004996343 *
SOO-CHANG PEI,CHING-WEN KO,MING-SHING SU: "Global motion estimation in model-based image coding by tracking three-dimensional contour feature p", IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY ( VOLUME: 8, ISSUE: 2, APR 1998), vol. 8, no. 2, JPN7023000629, 1 April 1998 (1998-04-01), US, pages 181 - 190, XP011014458, ISSN: 0004996344 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023195426A1 (ja) * 2022-04-05 2023-10-12 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 復号装置、符号化装置、復号方法及び符号化方法

Also Published As

Publication number Publication date
EP3902247A1 (en) 2021-10-27
WO2020151443A1 (zh) 2020-07-30
US20220051024A1 (en) 2022-02-17
KR20210100707A (ko) 2021-08-17
KR102594030B1 (ko) 2023-10-24
AU2019424397A9 (en) 2023-04-27
CN109831638A (zh) 2019-05-31
AU2019424397B2 (en) 2023-04-27
EP3902247A4 (en) 2022-05-18
JP7250937B2 (ja) 2023-04-03
CN109831638B (zh) 2021-01-08
AU2019424397A1 (en) 2021-09-09

Similar Documents

Publication Publication Date Title
JP7250937B2 (ja) ビデオ画像の伝送方法、装置、インテリジェントインタラクティブタブレット及び記憶媒体
US20210241470A1 (en) Image processing method and apparatus, electronic device, and storage medium
CN104574306A (zh) 一种即时视频中的人脸美化方法和电子设备
US20210241498A1 (en) Method and device for processing image, related electronic device and storage medium
CN103597468A (zh) 用于视频通信系统中改进的交互式内容共享的系统和方法
JP2016537922A (ja) 擬似ビデオ通話方法及び端末
CN111402399A (zh) 人脸驱动和直播方法、装置、电子设备及存储介质
CN110401810B (zh) 虚拟画面的处理方法、装置、系统、电子设备及存储介质
EP2775704B1 (en) A conference call terminal and method for operating user interface thereof
CN113206971B (zh) 一种图像处理方法及显示设备
CN112788235B (zh) 图像处理方法、装置、终端设备及计算机可读取存储介质
CN107357585B (zh) 视频获取方法、装置、视频设备及存储介质
CN108900894B (zh) 视频数据的处理方法、装置和系统
CN106791574B (zh) 视频标注方法、装置及视频会议系统
WO2023016107A1 (zh) 远程交互方法、装置、系统、电子设备以及存储介质
CN112862859A (zh) 一种人脸特征值创建方法、人物锁定追踪方法及显示设备
CN105578110A (zh) 一种视频通话方法、装置和系统
CN105407313A (zh) 一种视频通话方法、设备和系统
CN112558854B (zh) 多画面分屏模式定制方法、装置和计算机设备
CN112565603B (zh) 图像处理方法、装置及电子设备
CN113822803A (zh) 图像超分处理方法、装置、设备及计算机可读存储介质
CN107743270A (zh) 交互方法及设备
CN111343463A (zh) 一种图像编码设备、方法及图像编码器
CN114004750A (zh) 图像处理方法、装置和系统
CN114915852B (zh) 视频通话交互方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210720

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210720

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220707

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220816

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221104

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230221

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230322

R150 Certificate of patent or registration of utility model

Ref document number: 7250937

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150