JP2022517841A

JP2022517841A - ビデオ画像の伝送方法、装置、インテリジェントインタラクティブタブレット及び記憶媒体

Info

Publication number: JP2022517841A
Application number: JP2021542217A
Authority: JP
Inventors: ▲銘▼ ▲楊▼
Original assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd
Current assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority date: 2019-01-23
Filing date: 2019-12-24
Publication date: 2022-03-10
Anticipated expiration: 2039-12-24
Also published as: AU2019424397A9; CN109831638B; CN109831638A; JP7250937B2; KR20210100707A; KR102594030B1; AU2019424397B2; EP3902247A1; WO2020151443A1; US20220051024A1; AU2019424397A1; EP3902247A4; US12309526B2

Abstract

本発明はビデオ画像の伝送方法、装置、インテリジェントインタラクティブタブレット及び記憶媒体を開示する。該方法は、第１のビデオ通信端末により撮影されたビデオ画像を取得するステップと、該ビデオ画像の意味情報を抽出するステップと、第２のビデオ通信端末に該意味情報を送信するステップと、を含み、該意味情報は、該第２のビデオ通信端末で該ビデオ画像の再構築画像を再構築するために使用される。
【選択図】図２

Description

本発明は、２０１９年１月２３日に中国特許庁に出願した出願番号が２０１９１００６３００４．７の中国特許出願に基づく優先権を主張し、該出願の全ての内容を本開示に援用する。

本発明は、画像処理技術の分野に関し、例えばビデオ通信のビデオ画像の伝送方法、装置、システム、インテリジェントインタラクティブタブレット（ｉｎｔｅｌｌｉｇｅｎｔｉｎｔｅｒａｃｔｉｖｅｔａｂｌｅｔ）及び記憶媒体に関する。

ネットワーク技術の発展及び需要の増大に伴い、ユーザは、ビデオ通信の画質に対して、解像度要求、忠実度要求及びリアルタイム伝送などのより高い要求を提出している。例えば、ビデオ会議では、リアルタイムのインタラクションが優れたエクスペリエンスの前提条件であり、一方、ビデオ画像が高解像度を有する必要があり、重要な画像情報（例えば顔の細部、体の動きの細部などの情報）を可能な限り保持する必要がある。

本発明を検討する際に、発明者は、以下のことを発見した。関連技術では、ビデオ画像が高解像度及び高忠実度を有することを確保するために、送信側のビデオ画像の圧縮率を低減する必要があるため、ネットワークを介して大量の画像データを伝送する必要があり、データの伝送効率が低く、リアルタイムの伝送を確保することができない。一方、リアルタイムの伝送が確保されている場合、通常、非可逆圧縮技術によりビデオ画像の圧縮率を向上させる必要があるが、ビデオ画像の情報が比較的に多く失い、ビデオ通信における画像の高解像度及び高忠実度への要求を満たすことができない。

従って、従来のビデオ通信におけるビデオ画像の伝送方式は、高解像度及び高忠実度の要求とリアルタイム伝送の要求とを両立することができない。

従来のビデオ画像の伝送方式では高解像度及び高忠実度とリアルタイム伝送とを両立することができないという問題点を鑑み、ビデオ画像の伝送方法、装置、システム、インテリジェントインタラクティブタブレット及び記憶媒体を提供する。

本発明の第１の態様では、ビデオ画像の伝送方法であって、第１のビデオ通信端末により撮影されたビデオ画像を取得するステップと、前記ビデオ画像の意味情報を抽出するステップと、第２のビデオ通信端末に前記意味情報を送信するステップと、を含み、前記意味情報は、前記第２のビデオ通信端末で前記ビデオ画像の再構築画像を再構築するために使用される、方法を提供する。

該態様の１つの実施例では、前記ビデオ画像の意味情報を抽出するステップは、訓練されたエンコーダにより前記ビデオ画像の意味情報を抽出するステップ、を含み、前記エンコーダは、画像の意味情報を認識する。

該態様の１つの実施例では、前記エンコーダの入力は、画像であり、前記エンコーダの出力は、入力画像の意味情報としての入力画像に対応する低次元ベクトルである。

該態様の１つの実施例では、前記エンコーダは、畳み込みニューラルネットワークである。

該態様の１つの実施例では、前記ビデオ画像の意味情報は、前記ビデオ画像における設定対象の意味情報、及び前記ビデオ画像の大域的な意味情報のうちの何れか１つを含む。

該態様の１つの実施例では、前記ビデオ画像における設定対象の意味情報を抽出するステップは、前記ビデオ画像における設定対象を認識し、前記設定対象のサブ画像を取得するステップと、訓練されたエンコーダに前記設定対象のサブ画像を入力するステップと、前記エンコーダの出力を取得し、前記ビデオ画像における前記設定対象の意味情報を取得するステップと、を含む。

該態様の１つの実施例では、前記設定対象は、人の顔又は人の体を含む。

該態様の１つの実施例では、前記設定対象が人の顔である場合、前記ビデオ画像における設定対象の意味情報を抽出するステップは、前記ビデオ画像における顔領域を認識し、顔サブ画像を取得するステップと、訓練されたエンコーダに前記顔サブ画像を入力するステップと、前記エンコーダの出力を取得し、前記ビデオ画像の顔意味情報を取得するステップと、を含む。

該態様の１つの実施例では、前記設定対象が人の体である場合、前記ビデオ画像における設定対象の意味情報を抽出するステップは、前記ビデオ画像における体領域を認識し、体サブ画像を取得するステップと、訓練されたエンコーダに前記体サブ画像を入力するステップと、前記エンコーダの出力を取得し、前記ビデオ画像の体意味情報を取得するステップと、を含む。

該態様の１つの実施例では、前記ビデオ画像の大域的な意味情報を抽出するステップは、訓練されたエンコーダに前記ビデオ画像を入力するステップと、前記エンコーダの出力を取得し、前記ビデオ画像の大域的な意味情報を取得するステップと、を含む。

該態様の１つの実施例では、Ｎフレームごとに、設定された画像伝送モードを使用して、第２のビデオ通信端末に第１の参照画像を送信するステップ、をさらに含み、設定された画像伝送モードで伝送される前記第１の参照画像のデータ量は、前記意味情報のデータ量よりも大きく、Ｎは１よりも大きく、前記第１の参照画像は、前記第１のビデオ通信端末により撮影されたビデオ画像に属し、前記第１の参照画像は、前記第２のビデオ通信端末が前記意味情報及び前記第１の参照画像に基づいて前記ビデオ画像の再構築画像を再構築するために使用される。

該態様の１つの実施例では、前記意味情報が設定対象の意味情報である場合、前記第１の参照画像は、前記第２のビデオ通信端末が、受信された意味情報に基づいて前記設定対象の再構築サブ画像を取得して、前記再構築サブ画像と前記第１の参照画像とを融合して、前記ビデオ画像の再構築画像を取得するために使用される。

該態様の１つの実施例では、前記意味情報が大域的な意味情報である場合、前記第１の参照画像は、前記第２のビデオ通信端末が、受信された意味情報に基づいて初期再構築画像を取得して、前記初期再構築画像と前記第１の参照画像とを融合して、前記ビデオ画像の再構築画像を取得するために使用される。

該態様の１つの実施例では、前記意味情報が設定対象の意味情報である場合、前記ビデオ画像における設定対象の位置情報を取得するステップと、前記第２のビデオ通信端末に前記位置情報を送信するステップと、をさらに含み、前記位置情報は、前記第２のビデオ通信端末が、前記位置情報に基づいて前記設定対象の再構築サブ画像と前記第１の参照画像とを融合して、前記ビデオ画像の再構築画像を取得するために使用される。

該態様の１つの実施例では、設定された画像伝送モードを使用して、前記第２のビデオ通信端末に第２の参照画像を送信するステップ、をさらに含み、前記設定された画像伝送モードで伝送される前記第２の参照画像のデータ量は、前記意味情報のデータ量よりも大きく、前記第２の参照画像は、前記設定対象の画像、及び前記第１のビデオ通信端末の環境画像のうちの少なくとも１つであり、前記第２の参照画像は、前記第２のビデオ通信端末が前記意味情報及び前記第２の参照画像に基づいて前記ビデオ画像の再構築画像を再構築するために使用される。

本発明の第２の態様では、ビデオ画像の伝送方法であって、第１のビデオ通信端末により撮影されたビデオ画像の意味情報を受信するステップと、前記意味情報に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得するステップと、第２のビデオ通信端末の表示パネルにより前記再構築画像を表示するステップと、を含む、方法を提供する。

該態様の１つの実施例では、前記意味情報に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得するステップは、前記意味情報及び事前に訓練されたデコーダにより画像を再構築し、前記ビデオ画像の再構築画像を取得するステップ、を含む。

該態様の１つの実施例では、前記デコーダの入力は、画像の意味情報であり、前記デコーダの出力は、入力された意味情報に基づいて再構築された画像である。

該態様の１つの実施例では、前記デコーダは、畳み込みニューラルネットワークである。

該態様の１つの実施例では、前記ビデオ画像の意味情報は、前記ビデオ画像における設定対象の意味情報、及び前記ビデオ画像の大域的な意味情報のうちの何れか１つを含む。該態様の１つの実施例では、前記設定対象は、人の顔又は人の体を含む。

該態様の１つの実施例では、前記意味情報に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得するステップは、設定された画像伝送モードで直近に受信された第１の参照画像を取得するステップと、前記意味情報及び前記第１の参照画像に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得するステップと、をさらに含み、前記第１の参照画像は、前記第１のビデオ通信端末により撮影されて送信されたビデオ画像であり、設定された画像伝送モードで受信された前記第１の参照画像のデータ量は、前記意味情報のデータ量よりも大きい。

該態様の１つの実施例では、Ｎフレームごとに、設定された画像伝送モードで前記第１のビデオ通信端末からの第１の参照画像を受信するステップ、をさらに含み、Ｎは１よりも大きい。

該態様の１つの実施例では、前記意味情報が設定対象の意味情報である場合、前記意味情報及び前記第１の参照画像に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得するステップは、訓練されたデコーダに前記意味情報を入力するステップと、前記デコーダの出力を取得し、前記設定対象の再構築サブ画像を取得するステップと、前記設定対象の再構築サブ画像と前記第１の参照画像とを融合し、前記ビデオ画像の再構築画像を取得するステップと、を含む。

該態様の１つの実施例では、前記意味情報が大域的な意味情報である場合、前記意味情報及び前記第１の参照画像に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得するステップは、訓練されたデコーダに前記意味情報を入力するステップと、前記デコーダの出力を取得し、初期再構築画像を取得するステップと、前記初期再構築画像と前記第１の参照画像とを融合し、前記ビデオ画像の再構築画像を取得するステップと、を含む。

該態様の１つの実施例では、前記意味情報が顔意味情報である場合、前記デコーダの出力を取得し、顔の再構築サブ画像を取得し、前記意味情報が体意味情報である場合、前記デコーダの出力を取得し、体の再構築サブ画像を取得する。

該態様の１つの実施例では、前記第１のビデオ通信端末により送信された、前記ビデオ画像における前記設定対象の位置情報を受信するステップ、さらに含み、前記設定対象の再構築サブ画像と前記第１の参照画像とを融合し、前記ビデオ画像の再構築画像を取得するステップは、前記位置情報に基づいて前記設定対象の再構築サブ画像と前記第１の参照画像とを融合し、前記ビデオ画像の再構築画像を取得するステップ、を含む。

該態様の１つの実施例では、前記第１のビデオ通信端末により送信された位置情報を受信するステップは、前記第１のビデオ通信端末により送信された、前記ビデオ画像における顔領域の第１の位置情報を受信するステップと、前記第１のビデオ通信端末により送信された、前記ビデオ画像における体領域の第２の位置情報を受信するステップと、を含む。

該態様の１つの実施例では、前記位置情報に基づいて前記設定対象の再構築サブ画像と前記第１の参照画像とを融合する前に、前記設定対象の再構築サブ画像に対してエッジフェザリング処理を行うステップ、をさらに含む。

該態様の１つの実施例では、前記意味情報に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得するステップは、設定された画像伝送モードで受信された第２の参照画像を取得するステップと、前記意味情報及び前記第２の参照画像に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得するステップと、を含み、前記第２の参照画像は、設定対象の画像、及び前記第１のビデオ通信端末の環境画像のうちの少なくとも１つであり、設定された画像伝送モードで受信された前記第２の参照画像のデータ量は、前記意味情報のデータ量よりも大きい。

本発明の第３の態様では、ビデオ画像の伝送方法であって、第１のビデオ通信端末が、撮影されたビデオ画像を取得し、前記ビデオ画像の意味情報を取得し、第２のビデオ通信端末に前記意味情報を送信するステップと、前記第２のビデオ通信端末が、前記意味情報を受信し、前記意味情報に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得し、第２のビデオ通信端末の表示パネルにより前記再構築画像を表示するステップと、を含む、方法を提供する。

本発明の第４の態様では、ビデオ画像の伝送装置であって、第１のビデオ通信端末により撮影されたビデオ画像を取得する画像取得モジュールと、前記ビデオ画像の意味情報を抽出する情報抽出モジュールと、第２のビデオ通信端末に前記意味情報を送信する送信モジュールと、を含み、前記意味情報は、前記第２のビデオ通信端末で前記ビデオ画像の再構築画像を再構築するために使用される、装置を提供する。

該態様の１つの実施例では、前記情報抽出モジュールは、訓練されたエンコーダにより前記ビデオ画像の意味情報を抽出し、前記エンコーダは、画像の意味情報を認識する。

該態様の１つの実施例では、Ｎフレームごとに、設定された画像伝送モードを使用して、第２のビデオ通信端末に第１の参照画像を送信する第１の参照画像送信モジュール、をさらに含み、設定された画像伝送モードで伝送される前記第１の参照画像のデータ量は、前記意味情報のデータ量よりも大きく、Ｎは１よりも大きく、前記第１の参照画像は、前記第１のビデオ通信端末により撮影されたビデオ画像に属し、前記第１の参照画像は、前記第２のビデオ通信端末が前記意味情報及び前記第１の参照画像に基づいて前記ビデオ画像の再構築画像を再構築するために使用される。

該態様の１つの実施例では、設定された画像伝送モードを使用して、前記第２のビデオ通信端末に第２の参照画像を送信する第２の参照画像送信モジュール、をさらに含み、前記設定された画像伝送モードで伝送される前記第２の参照画像のデータ量は、前記意味情報のデータ量よりも大きく、前記第２の参照画像は、前記設定対象の画像、及び前記第１のビデオ通信端末の環境画像のうちの少なくとも１つであり、前記第２の参照画像は、前記第２のビデオ通信端末が前記意味情報及び前記第２の参照画像に基づいて前記ビデオ画像の再構築画像を再構築するために使用される。

本発明の第５の態様では、ビデオ画像の伝送装置であって、第１のビデオ通信端末により撮影されたビデオ画像の意味情報を受信する情報受信モジュールと、前記意味情報に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得する画像再構築モジュールと、第２のビデオ通信端末の表示パネルにより前記再構築画像を表示する画像表示モジュールと、を含む、装置を提供する。

該態様の１つの実施例では、前記画像再構築モジュールは、前記意味情報及び事前に訓練されたデコーダにより画像を再構築し、前記ビデオ画像の再構築画像を取得する。

該態様の１つの実施例では、前記画像再構築モジュールは、設定された画像伝送モードで直近に受信された第１の参照画像を取得する第１の参照画像取得サブモジュールと、前記意味情報及び前記第１の参照画像に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得する第１の画像再構築サブモジュールと、をさらに含み、前記第１の参照画像は、前記第１のビデオ通信端末により撮影されて送信されたビデオ画像であり、設定された画像伝送モードで受信された前記第１の参照画像のデータ量は、前記意味情報のデータ量よりも大きい。

該態様の１つの実施例では、Ｎフレームごとに、設定された画像伝送モードで前記第１のビデオ通信端末からの第１の参照画像を受信する第１の参照画像受信サブモジュール、をさらに含み、Ｎは１よりも大きい。

該態様の１つの実施例では、前記画像再構築モジュールは、設定された画像伝送モードで受信された第２の参照画像を取得する第２の参照画像取得サブモジュールと、前記意味情報及び前記第２の参照画像に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得する第２の画像再構築サブモジュールと、を含み、前記第２の参照画像は、設定対象の画像、及び前記第１のビデオ通信端末の環境画像のうちの少なくとも１つであり、設定された画像伝送モードで受信された前記第２の参照画像のデータ量は、前記意味情報のデータ量よりも大きい。

本発明の第６の態様では、ビデオ通信を行うことが可能な第１のビデオ通信端末及び第２のビデオ通信端末を含むビデオ画像の伝送システムであって、第１のビデオ通信端末は、撮影されたビデオ画像を取得し、前記ビデオ画像の意味情報を取得し、第２のビデオ通信端末に前記意味情報を送信し、前記第２のビデオ通信端末は、前記意味情報を受信し、前記意味情報に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得し、第２のビデオ通信端末の表示パネルにより前記再構築画像を表示する、ビデオ画像の伝送システムを提供する。

本発明の第７の態様では、ビデオ画像を撮影する撮影装置と、表示パネルと、コンピュータプログラムが記憶されているメモリと、プロセッサと、を含むインテリジェントインタラクティブタブレットであって、前記プロセッサは、該コンピュータプログラムを実行する際に、前記撮影装置により撮影されたビデオ画像の意味情報を抽出し、他のインテリジェントインタラクティブタブレットに前記意味情報を送信するように構成され、前記プロセッサは、該コンピュータプログラムを実行する際に、他のインテリジェントインタラクティブタブレットにより送信されたビデオ画像の意味情報を受信し、前記意味情報に基づいて画像を再構築し、他のインテリジェントインタラクティブタブレットにより送信されたビデオ画像の再構築画像を取得し、前記表示パネルにより前記再構築画像を表示するように構成される、インテリジェントインタラクティブタブレットを提供する。

本発明の第８の態様では、コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、プロセッサに該コンピュータプログラムを実行させる際に、上記の何れかの実施例のビデオ画像の伝送方法を実現する、記憶媒体を提供する。

１つの実施例に係るビデオ画像の伝送方法が適用可能なシステム環境を示す図である。１つの実施例に係るビデオ画像の伝送方法の概略を示すフローチャートである。もう１つの実施例に係るビデオ画像の伝送方法の概略を示すフローチャートである。１つの実施例に係るエンコーダ及びデコーダを構築するためのモデルの概略図である。１つの実施例に係る画像送信端末によるビデオ画像の伝送方法の概略を示すフローチャートである。１つの実施例に係る画像受信端末によるビデオ画像の伝送方法の概略を示すフローチャートである。１つの実施例に係るビデオ画像の伝送装置の概略の構成を示す図である。もう１つの実施例に係るビデオ画像の伝送装置の概略の構成を示す図である１つの実施例に係るインテリジェントインタラクティブタブレットの内部構造を示す図である。

以下は、図面及び実施例を参照しながら本発明を詳細に説明する。なお、ここで説明される具体的な実施例は、単に本発明を解釈するためのものであり、本発明を限定するものではない。

本明細書で言及される「実施例」は、実施例を参照しながら説明される特定の特徴、構造、又は特性が本発明の少なくとも１つの実施例に含まれてもよいことを意味する。本明細書の様々な箇所で出現する該用語は、必ずしも同一の実施例を意味することではなく、他の実施例と相互に排他的な独立した又は代替の実施例でもない。当業者により明確、暗黙的に理解できるように、本明細書に記載される実施例は他の実施例と組み合わせてもよい。

本発明に係るビデオ画像の伝送方法は図１に示すシステム環境に適用されてもよく、該システム環境では、少なくとも２つのコンピュータ装置１００がネットワークを介して通信を行うことができるように接続されている。コンピュータ装置１００は、ラップトップコンピュータ、携帯電話、カメラ電話、スマートフォン、携帯情報端末（ＰＤＡ）、ナビゲーションデバイス、インテリジェントインタラクティブタブレット、ウェアラブルデバイス、スマートモーターサイクル、他のスマートホームデバイス、又はこれらのデバイスの何れか組み合わせであってもよい。

本発明の実施例では、コンピュータ装置１００には、例えばビデオ会議ソフトウェア、インスタントメッセージングソフトウェアなどのビデオ通信を実現するためのアプリケーションソフトウェアがインストールされ、このようなアプリケーションソフトウェアを介して少なくとも２つのコンピュータ装置１００との間ビデオ通信を確立することができる。ビデオ通信では、何れか一方のコンピュータ装置１００は、ビデオ画像の送信側として、ローカルエンドで収集されたビデオのフレーム画像を他方のコンピュータ装置１００に送信してもよいし、ビデオ画像の受信側として、他のコンピュータ装置１００により送信されたビデオのフレーム画像を受信して表示してもよい。

さらに、コンピュータ装置１００には、例えばテキスト編集アプリケーションプログラム、ドキュメントプレゼンテーションアプリケーションプログラム、インスタントメッセージングアプリケーションプログラム、画像編集アプリケーションプログラム、ソーシャルアプリケーションプログラム、ｅコマースアプリケーションプログラム、検索アプリケーションプログラム、ブラウザアプリケーションプログラムなどの他のアプリケーションプログラムがさらにインストールされてもよい。ここで、テキスト編集アプリケーションプログラムは、例えば電子ホワイトボードアプリケーションプログラム、電子黒板アプリケーションプログラムを含み、ドキュメントプレゼンテーションアプリケーションプログラムは、例えば無線スクリーンプロジェクションアプリケーションを含む。

幾つかの実施例では、インテリジェントインタラクティブタブレットをコンピュータ装置の一例としてもよい。インテリジェントインタラクティブタブレットは、タッチ技術により表示タブレットに表示される内容を制御し、人間とコンピュータとのインタラクションを実現する統合装置であってもよく、プロジェクタ、電子ホワイトボード、スクリーン、ステレオ、テレビ及びビデオ会議端末などの１つ以上の機能を統合してもよい。インテリジェントインタラクティブタブレットの表示パネルはタッチパネル（タッチスクリーン）であり、該タッチパネルは静電容量タッチパネル、電磁タッチパネル、又は赤外線タッチパネルなどを含んでもよい。該タッチパネルは、ユーザにより指又は入力装置を介して入力されたタッチ操作を受け付けてもよい。ここで、入力装置は、静電容量ペン、電磁ペン及び／又は赤外線ペンなどを含むが、これらに限定されない。

１つの実施例では、ビデオ画像の伝送方法を提供する。図２に示すように、該方法は、以下のステップを含む。

Ｓ１１０において、第１のビデオ通信端末は、ビデオ画像を取得し、該ビデオ画像は、該第１のビデオ通信端末により撮影されたビデオにおけるフレーム画像である。

ビデオ会議、ビデオ通話などのビデオ通信は、一般に、フレームごとにビデオ画像を伝送する。ここで、第１のビデオ通信端末は、ビデオ通信においてビデオ画像を送信する必要がある端末であり、ビデオ画像の送信端末であってもよい。第１のビデオ通信端末により取得されたビデオ画像は、第１のビデオ通信端末の撮影装置により撮影されたビデオ会議又はビデオ通話のシナリオにおけるビデオ画像である。

ビデオ通信では、各ビデオ通信端末は、他のビデオ通信端末にビデオ画像を送信する必要があり、また、他のビデオ通信端末からビデオ画像を受信する必要がある。従って、ビデオ通信では、第１のビデオ通信端末は、ビデオ通信に参加する任意の端末であってもよい。

Ｓ１２０において、第１のビデオ通信端末は、ビデオ画像の意味情報を抽出する。

画像は多数の画素により構成され、意味（ｓｅｍａｎｔｉｃ）は画像内の画素情報である。画像の意味情報を取得することは、画像の画素の深い特徴情報を抽出することを意味してもよく、これらの情報は、ビデオ画像の重要な細部を表すことができる。例えば、ビデオ会議のビデオ画像では、意味情報は、会議に参加する人の表情の特徴情報、身体の動きの特徴情報、又は例えば会議室のテーブルや椅子の情報などの会議の環境情報を含んでもよい。

本発明の幾つかの実施例では、ビデオ画像から取得された意味情報は、画像における設定対象（人の顔、人の体、テーブル、椅子など）の意味情報であってもよいし、画像のキー画素の特徴情報などの画像の大域的な意味情報であってもよい。

Ｓ１３０において、第１のビデオ通信端末は、第２のビデオ通信端末に意味情報を送信する。

ビデオ画像に含まれる全ての情報と比べて、ビデオ画像から取得された意味情報のデータ量は少ないため、ビデオ画像のリアルタイム伝送を比較的に容易に実現することができる。

Ｓ２１０において、第２のビデオ通信端末は、第１のビデオ通信端末により送信された意味情報を受信し、該意味情報に基づいて画像を再構築し、該ビデオ画像の再構築画像を取得する。

ここで、画像の意味情報に基づいて画像圧縮及び画像再構築を行うことで、画像の浅い情報に基づいて圧縮符号化及び再構築を行う従来の方法に比べて、より多くの画像の細部を保留することができるため、ビデオ通信における画像へ高忠実度の要求とリアルタイム性の要求とを両立することができる。

Ｓ２２０において、第２のビデオ通信端末は、再構築画像を表示する。

上記の実施例のビデオ画像の伝送方法によれば、ビデオ通信において、送信端末がビデオ画像を送信する際に、該ビデオ画像の意味情報を取得し、受信端末に該意味情報を送信する。受信端末が該意味情報を受信した後に、該意味情報に基づいて送信端末のビデオ画像を再構築し、再構築画像を取得し、受信端末の表示パネルにより再構築画像を表示してもよい。これによって、ビデオ通信では、１つのビデオ画像を送信する際に非常に少量のデータを送信するだけでよいため、ネットワーク帯域幅への要求が非常に低く、リアルタイム伝送の要求を満たすことができる。また、意味情報に基づいてビデオ画像を圧縮／復元することで、ビデオ画像の受信側でより高品質の画像を再構築することができ、ビデオ通信における画像への高解像度及び高忠実度の要求を両立することができる。

１つの実施例では、ビデオ会議の例では、ローカルユーザ及びリモートユーザは、それぞれ、第１のビデオ通信端末及び第２のビデオ通信端末を介してビデオ会議に参加し、第１のビデオ通信端末は、ローカルユーザの会議におけるビデオ画像を伝送すべきビデオ画像として撮影する。図３に示すように、第１のビデオ通信端末から第２のビデオ通信端末に該ビデオ画像を伝送する実現プロセスは以下の通りである。

ステップＳ３０２において、第１のビデオ通信端末では、ビデオ画像の意味情報を抽出する。

第１のビデオ通信端末では、事前に訓練されたエンコーダによりビデオ画像の意味情報を抽出してもよい。幾つかの実施例では、エンコーダは、畳み込みニューラルネットワークを使用してもよい。該エンコーダの入力は、伝送すべきビデオ画像であり、その出力は、ビデオ画像に対応する低次元ベクトルである。

エンコーダは、変換関数ｆと見なされてもよく、該変換関数ｆは、伝送すべきビデオ画像Ｉを低次元ベクトルｙに変換でき、即ちｙ＝ｆ（Ｉ）。ｙはビデオ画像Ｉの意味情報であり、ｙは６４次元又は１２８次元のベクトルであってもよく、高品質の画像再構築を実現すると共に、伝送する必要なデータ量を低減できるように、ビデオ会議におけるビデオ画像の最も重要な情報を取り込むことができる。

なお、本発明の実施例に係る低次元ベクトル及び意味情報は、ビデオ会議のシナリオにおけるビデオ画像を学習して抽出された、ビデオ画像における重要な細部を表すことができる情報である。これらの情報は、他のシナリオにおける意味情報と異なる。言い換えれば、本発明の実施例に係る低次元ベクトル及び意味情報は、人間の思考により理解される特徴情報ではなく、人間の思考により理解され得ない画像の深い情報である。

ステップＳ３０３において、第１のビデオ通信端末は、抽出された意味情報を第２のビデオ通信端末に送信する。

ビデオ画像の意味情報ｙは、非常に少ないデータ量により表現さればよく、例えば、意味情報ｙは、６４次元の浮動小数点数ベクトルであってもよいため、各フレームのビデオ画像について、６４＊４＝２５６ｂｙｔｅのデータのみを送信する必要がある。ビデオフレームレートが３０Ｈｚである場合、必要な帯域幅は２５６＊３０＝７６８０Ｂｐｓ＝７．６８ＫＢｐｓである。よって、該画像伝送モードでは、ネットワーク環境への帯域幅の要求が低いことが分かった。

ステップＳ４０２において、第２のビデオ通信端末は、意味情報を受信し、意味情報に基づいて画像を再構築し、第１のビデオ通信端末のビデオ画像の再構築画像を取得する。

第２のビデオ通信端末が意味情報ｙを受信した後に、第２のビデオ通信端末は、意味情報ｙを事前に訓練されたデコーダの入力として、デコーダにより画像を再構築してもよい。デコーダは、変換関数ｇと見なされてもよく、該変換関数ｇは、低次元の意味情報ｙを再構築画像Ｉ’に変換でき、即ちＩ’＝ｇ（ｙ）。

１つの実施例では、上記の実施例のエンコーダ及びデコーダは、以下の条件を満たす必要がある。ビデオ会議のシナリオに適している。エンコーダｆは、ビデオ画像に対してコンパクション（ｃｏｍｐａｃｔｉｏｎ）符号化を行い、低次元の意味情報を出力できる。デコーダｇは、高品質の再構築画像を取得するために、原ビデオ画像の最も重要な情報（例えば顔の表情の細部、体の動きの細部など）を復元できる。

幾つかの実施例では、図４に示すように、Ｅｎｃｏｄｅｒ－ｄｅｃｏｄｅｒネットワークに基づいてエンコーダｆ及びデコーダｇを設計してもよい。ここで、左部分（即ち、ネットワークの下位層）は一連の畳み込み演算層により構成され（この図には２つの層のみが例示されているが、実際の状況では他の数の畳み込み演算層を設けてもよい）、中間層は１つの低次元ベクトルを出力し、この部分はエンコーダに相当し、低次元ベクトルはリモートエンド（即ち、受信側）に伝送される。右部分（即ち、ネットワークの上位層）はこの低次元ベクトルに基づいて一連の逆畳み込みにより再構築画像ｙを取得し、このプロセスはデコーダに相当する。即ち、エンコーダｆ及びデコーダｇは、何れも畳み込みニューラルネットワークを採用してもよい。

上記のＥｎｃｏｄｅｒ－ｄｅｃｏｄｅｒネットワークに基づいてエンコーダｆ及びデコーダｇを設定し、ビデオ会議における画像データを訓練することで、より良い圧縮率を達成することができる。しかし、低次元ベクトルに画像の深い意味情報のみが含まれるため、再構築画像の解像度が低くなる可能性がある。上記の状況を回避するために、１つの実施例では、従来のＥｎｃｏｄｅｒ－ｄｅｃｏｄｅｒネットワークを基礎にして、Ｕ－Ｎｅｔの考え方を採用してＥｎｃｏｄｅｒ－ｄｅｃｏｄｅｒネットワークを最適化する。即ち、ネットワークの下位層（例えば図４における畳み込み層）により出力された特徴ベクトルの一部をさらに抽出して、中間層により出力された低次元ベクトルに結合する。これによって、リモートエンドに伝送されるデータの量が増加するが、この部分の情報が増加しても、リモートエンドに伝送する必要のあるデータ量は、従来の圧縮方法に比べて依然として遥かに少ない。

Ｕ－Ｎｅｔによりネットワークを最適化することで、ネットワーク状態に応じて、ビデオ画像の圧縮率及び受信側で再構築された画質を動的に調整することができる。ネットワーク状態が良好である場合、ネットワークの下位層により出力された特徴ベクトルから比較的に多い情報を抽出して、中間層により出力された低次元ベクトルに結合することで、受信側で再構築された画像の品質を高くすることができる。ネットワークの状態が悪い場合、ネットワークの下位層により出力された特徴ベクトルから比較的に少ない情報を抽出して、中間層により出力された低次元ベクトルに結合し、或いは下位層により出力された特徴ベクトルから結合用の情報を抽出しないことで、ビデオ画像の送信側の画像圧縮率を高くすることができるため、ビデオ画像のリアルタイム伝送に役立つ。

ステップＳ４０４において、第２のビデオ通信端末は、ビデオ画像の再構築画像を表示する。

本発明の１つの実施例では、図４及び上記の実施例に示すように、エンコーダｆは、一連の畳み込み演算により構成されてもよく、デコーダｇは、一連の逆畳み込み演算により構成されてもよい。

１つの実施例では、以下の最適化目標に従って、要件を満たすエンコーダｆ及びデコーダｇを訓練してもよい。

ここで、ｇ（ｆ（Ｉ））は、ビデオ画像Ｉがエンコーダｆにより処理されて取得された意味情報がデコーダｇにより復号されて復元されて取得された再構築画像を表し、
（外１）

は、ビデオ画像Ｉと再構築画像との残差が最小となる場合のエンコーダｆデコーダｇを表す。

なお、上記の例におけるＥｎｃｏｄｅｒ－ｄｅｃｏｄｅｒに加えて、生成モデル構築が条件を満たす他のエンコーダ及びデコーダを採用してもよい。

ビデオ会議のシナリオにおけるビデオ画像の場合、最も重要な画像情報は、人の表情、口の形状などの細部である。幾つかの実施例では、設定対象が人の顔である例では、第１のビデオ通信端末は、ビデオ画像における顔意味情報を抽出し、第２のビデオ通信端末は、ビデオ画像における人の顔の細部を復元するように、対応するデコーダにより顔意味情報に基づいて画像を再構築する。

ビデオ会議におけるビデオ画像のより多くの細部を取得するために、人の体を設定対象としてもよい。第１のビデオ通信端末は、ビデオ画像から体意味情報を抽出する。人体意味情報は、顔の表情情報及び体の動き情報などの人そのものに関する情報を含む。第２のビデオ通信端末は、ビデオ画像における人の全体的な細部を復元するように、対応するデコーダにより体意味情報に基づいて画像を再構築する。

上記の実施例によれば、ビデオ会議における画像伝送のリアルタイム性を確保することができ、受信側で画像の細部を復元することができるが、伝送される意味情報のデータ量が少ないため、受信側の高解像度を確保することは困難である。上記の状況を考慮して、１つの実施例では、第１のビデオ通信端末は、Ｎフレームごとに（Ｎは１よりも大きく、Ｎの値は実際の状況に応じて調整されてもよい）、設定された画像伝送モードを使用して、第２のビデオ通信端末に第１の参照画像を送信する。該設定された画像伝送モードで伝送される該第１の参照画像のデータ量は、該意味情報のデータ量よりも大きい。ここで、第１の参照画像は、該第１のビデオ通信端末により撮影されたビデオ画像である。該第１の参照画像は、該第２のビデオ通信端末が該意味情報及び該第１の参照画像に基づいて該ビデオ画像の再構築画像を再構築するために使用される。

例えば、第１のビデオ通信端末は、１００フレームごとに第２のビデオ通信端末に完全な１つのフレームのビデオ画像を送信する。その後の９９フレームのビデオ画像において、第２のビデオ通信端末は、ビデオ画像の低次元意味情報を受信した場合、この完全なビデオ画像の情報と組み合わせて画像を再構築し、より高い解像度の再構築画像を取得してもよい。

以下は、人の顔の意味情報及び人の体の意味情報をそれぞれ例にして説明する。図３に示すように、上記の第１のビデオ通信端末と第２のビデオ通信端末との間のビデオ画像の伝送は、以下のステップをさらに含む。

ステップＳ３００において、第１のビデオ通信端末は、設定されたフレーム間隔に従って、設定された画像伝送モードにより、第２のビデオ通信端末に参照画像（本実施例では、第１の参照画像）を送信する。

ここで、参照画像は、第１のビデオ通信端末により撮影されたビデオ画像である。第１のビデオ通信端末は、ブロックに基づく画像圧縮方法を使用して、参照画像の画像符号化情報を取得してもよい。即ち、第１のビデオ通信端末と第２のビデオ通信端末との間では、意味情報に基づく画像伝送に加えて、他の画像伝送モードをさらに含む。該他の画像伝送モードは、間隔を置いて実行され、画像の圧縮率がより低く、伝送されるデータ量がより大きい。

ステップＳ４０１において、第２のビデオ通信端末は、参照画像を受信する。

ビデオ会議では、第１のビデオ通信端末は、１つ以上のフレームの間隔を置いた方式で第２のビデオ通信端末に参照画像を送信する。第２のビデオ通信端末は、参照画像を取得した後に、ビデオ会議では、隣接するフレームのビデオ画像の画素の変化が一般に小さく、例えば、人の表情や身体に対応する画素のみが変化し、他の会議室の環境情報が変化しない。このため、第２のビデオ通信端末により受信された意味情報は、変化している画素の情報である可能性がある。よって、第２のビデオ通信端末は、少量の意味情報及びデータ量の大きい参照画像に基づいて、ビデオ画像を高度に復元することができ、第２のビデオ通信端末での再構築画像の解像度を向上させることができる。参照画像が間隔を置いて送信されるため、伝送帯域幅及びリアルタイム性への影響は少ない。

幾つかの実施例では、第２のビデオ通信端末によりリアルタイムで受信された意味情報がビデオ画像における設定対象の意味情報である場合、設定対象の再構築サブ画像を再構築してもよい。該設定対象の再構築サブ画像と該参照画像の再構築画像とを融合することで、第１のビデオ通信端末のビデオ画像の再構築画像を取得する。

他の幾つかの実施例では、第１のビデオ通信端末と第２のビデオ通信端末との間のビデオ画像の伝送は、以下のステップをさらに含む。

ステップＳ３０１において、第１のビデオ通信端末は、ビデオ画像に対して前処理を行う。

第１のビデオ通信端末によるビデオ画像の前処理は、該ビデオ画像における設定対象を認識し、該ビデオ画像における設定対象のサブ画像を取得することと、訓練されたエンコーダに該設定対象のサブ画像を入力し、該エンコーダの出力を取得し、該ビデオ画像における設定対象の意味情報を取得することと、該エンコーダを用いて入力画像における該設定対象の意味情報を認識して出力することとを含む。人の顔を設定対象とする例では、第１のビデオ通信端末は、ビデオ画像から顔領域を認識し、該ビデオ画像に対応する顔サブ画像を取得し、訓練されたエンコーダに顔サブ画像を入力し、該エンコーダの出力を取得する。これによって、該ビデオ画像の顔意味情報を取得する。

ステップＳ４０３において、第２のビデオ通信端末は、該設定対象の意味情報を受信し、受信された該設定対象の意味情報に基づいて該設定対象の再構築サブ画像を取得した後に、再構築された顔画像又は体画像に対して後処理を行ってもよい。後処理は、該設定対象の再構築サブ画像と該参照画像とを融合し、該ビデオ画像の再構築画像を取得することを含む。

人の顔を設定対象とする例では、第２のビデオ通信端末は、顔意味情報に基づいて顔の再構築画像を取得した後に、顔の再構築画像に対して後処理を行う。第２のビデオ通信端末による顔の再構築画像の後処理は、顔の再構築画像を該参照画像の再構築画像に重ね合わせて、第１のビデオ通信端末のビデオ画像の再構築画像を取得することを含む。

１つの実施例の１つの態様では、第１のビデオ通信端末は、該ビデオ画像における設定対象の位置情報をさらに取得し、第２のビデオ通信端末に該位置情報を送信する。該位置情報は、第２のビデオ通信端末が該位置情報に基づいて該設定対象の再構築サブ画像を該参照画像に重ね合わせて、該ビデオ画像の再構築画像を取得するために使用される。

１つの実施例では、人の顔を設定対象とする例では、第１のビデオ通信端末は、該ビデオ画像における顔領域の位置情報を取得し、第２のビデオ通信端末に該位置情報を送信する。第２のビデオ通信端末は、第１のビデオ通信端末により送信された顔の位置情報を受信した後に、顔の位置情報に基づいて顔の再構築画像を参照画像の再構築画像に重ね合わせて、第１のビデオ通信端末のビデオ画像の再構築画像を取得してもよい。

１つの実施例では、ビデオ画像の再構築画像の品質を向上させるために、本発明の１つの実施例では、上記のビデオ画像の伝送方法は、以下のステップをさらに含む。第２のビデオ通信端末は、位置情報に基づいて設定対象の再構築サブ画像と参照画像とを融合する前に、該設定対象の再構築サブ画像に対してエッジフェザリング（ｅｄｇｅｆｅａｔｈｅｒｉｎｇ）処理を行い、エッジフェザリング処理後の設定対象の再構築サブ画像と参照画像の再構築画像とを重ね合わせて、第１のビデオ通信端末のビデオ画像の再構築画像を取得してもよい。

１つの実施例では、人の顔を設定対象とする例では、第２のビデオ通信端末は、画像の重ね合わせを行う前に、顔の再構築画像に対してエッジフェザリング処理を行い、エッジフェザリング処理後の顔の再構築画像と参照画像の再構築画像とを重ね合わせて、第１のビデオ通信端末のビデオ画像の再構築画像を取得する。本実施例によれば、より良い重ね合わせ効果と融合効果を得ることができ、第２のビデオ通信端末により表示される再構築画像の画質を向上させることができる。

他の幾つかの実施例では、ビデオ会議の完全な細部を取得するために、第１のビデオ通信端末によりビデオ画像から抽出された意味情報は、画像の大域的な意味情報であってもよく、該処理は対応するエンコーダにより実現されてもよい。第２ビデオ通信端末は、ビデオ画像の大域的な細部情報を復元するように、大域的な意味情報に基づいて画像を再構築する。大域的な意味情報に基づいて画像の伝送及び再構築を行う場合、第１のビデオ通信端末は、上記のビデオ画像の前処理を行う必要がなく、第２のビデオ通信端末は、再構築画像の後処理を行う必要がない。

なお、実際のシナリオの必要に応じて、人の顔の意味、人の体の意味又は画像の大域的な意味に基づいてエンコーダ及びデコーダを事前に訓練してもよい。例えば、顔画像を訓練データとし、要件を満たすようにエンコーダ及びデコーダを訓練する。或いは、体画像を訓練データとし、要件を満たすようにエンコーダ及びデコーダを訓練する。或いは、ビデオ画像全体を訓練データとし、要件を満たすようにエンコーダ及びデコーダを訓練する。

他の実施例では、第１のビデオ通信端末は、設定された画像伝送モードを使用して、第２のビデオ通信端末に他のタイプの参照画像（即ち第２の参照画像）を送信してもよい。該設定された画像伝送モードで伝送される第２の参照画像のデータ量は、意味情報のデータ量よりも大きい。ここで、該第２の参照画像は、設定対象の画像、及び第１のビデオ通信端末の環境画像のうちの少なくとも１つであってもよい。第２の参照画像を伝送することで、第２のビデオ通信端末が該意味情報及び該第２の参照画像に基づいて該ビデオ画像の再構築画像を再構築する。

例えば、第１のビデオ通信端末は、ビデオ会議のシナリオにおける参加者の高解像度写真及び／又は会議室の高解像度写真を第２の参照画像として事前に設定し、設定された画像伝送モードを使用して第２のビデオ通信端末に完全な第２の参照画像を送信する。第２のビデオ通信端末は、第２の参照画像を受信して保存し、各フレームのビデオ画像の意味情報を受信した後、第２の参照画像の細部情報を参照して画像を再構築してもよい。従って、意味情報が少ない場合であっても、第２のビデオ通信端末は、第２の参照画像に基づいて高解像度の再構築画像を再構築することができる。

１つの実施例では、ビデオ画像を１つのフレームごとに個別に符号化／復号すると、フレーム間に不整合が発生する可能性があり、即ち、受信側で表示されたビデオ内容にスキップによる変化がある可能性がある。この状況を考慮して、１つの実施例では、ビデオ会議のシナリオにおけるビデオ画像の伝送は、実際に複数のネットワーク分岐を有する。エンコーダの入力は、現在のフレームのビデオ画像であるだけでなく、現在のフレームの前のＭフレームのビデオ画像をさらに含む。よって、符号化後の低次元ベクトルには、現在のフレームの意味情報だけでなく、直前の１つ以上のフレームの意味情報がさらに含まれる。それに応じて、受信側のデコーダは、現在のフレームの意味情報及び直前の１つ以上のフレームの意味情報に基づいて、フレーム間で一貫性のあるビデオ画像を再構築する。本実施例によれば、受信側でのビデオ内容のスキップによる変化を回避することができる。

従来の方式のビデオ画像の伝送方式と比べて、上記の実施例によれば、ビデオ会議において、各ビデオ通信端末で高解像度の再構築画像を取得することができる。殆どのビデオ画像の伝送する必要な意味情報のデータ量が非常に少ないため、ネットワーク環境が悪い場合であっても、伝送を迅速に完了することができ、リアルタイム性を確保することができる。意味情報及び参照画像に基づいて画像を再構築する場合、ビデオ画像の重要な情報（特に顔の細部、体の動きの細部など）を保留することができるため、優れたビデオ会議の体験を得ることができる。

上記のビデオ画像の伝送方法と同様に、本発明は、もう１つのビデオ画像の伝送方法の実施例をさらに提供する。本実施例では、第１のビデオ通信端末は、ビデオ画像の送信端末である。図５に示すように、第１のビデオ通信端末の観点から、ビデオ画像の伝送方法は、以下のステップを含む。

Ｓ５１０において、第１のビデオ通信端末により撮影されたビデオ画像を取得する。

Ｓ５１０において、該ビデオ画像の意味情報を抽出する。

Ｓ５３０において、第２のビデオ通信端末に該意味情報を送信する。該意味情報は、第２のビデオ通信端末が該意味情報を受信した後に該第２のビデオ通信端末の表示パネルにより該ビデオ画像の再構築画像を表示するために使用される。該再構築画像は、該第２のビデオ通信端末により該意味情報に基づいて再構築された画像である。

１つの実施例の幾つかの態様では、送信端末である第１のビデオ通信端末は、ビデオ画像の意味情報を抽出する方法として、訓練されたエンコーダにより該ビデオ画像の意味情報を抽出してもよい。該エンコーダは、画像の意味情報を認識するために使用される。該エンコーダの入力は、画像であり、その出力は、入力画像に対応する低次元ベクトル、即ち入力画像の意味情報である。例えば、該ビデオ画像の意味情報は、ビデオ画像における設定対象の意味情報、又はビデオ画像の大域的な意味情報であってもよい。このため、ビデオ画像の意味情報を抽出する方法は、以下の方式を含む。

方式１：該ビデオ画像における設定対象を認識し、該設定対象のサブ画像を取得し、訓練されたエンコーダに該設定対象のサブ画像を入力し、該エンコーダの出力を取得し、該ビデオ画像における該設定対象の意味情報を取得する。

方式２：訓練されたエンコーダに該ビデオ画像を入力し、該エンコーダの出力を取得し、該ビデオ画像の大域的な意味情報を取得する。

ここで、設定対象は、実際の状況に応じて設定されてもよい。例えば、関心のある情報がビデオ通信における人の顔情報である場合、人の顔を設定対象とする。関心のある情報がビデオ通信における人の顔の表情や体の動きの情報である場合、人の体を設定対象とする。関心のある情報がビデオ通信におけるシナリオ情報全体である場合、ビデオ画像の大域的な意味情報を抽出する。これによって、ビデオ通信の様々な要件を満たすことができる。

本発明の１つの実施例では、第１のビデオ通信端末がビデオ画像における設定対象の意味情報を抽出するステップは、該ビデオ画像における顔領域を認識し、顔サブ画像を取得することと、訓練されたエンコーダに顔サブ画像を入力することと、エンコーダの出力を取得し、ビデオ画像の顔意味情報を取得することとを含む。或いは、該ステップは、ビデオ画像における体領域を認識し、体サブ画像を取得することと、訓練されたエンコーダに体サブ画像を入力することと、エンコーダの出力を取得し、ビデオ画像の体意味情報を取得することとを含む。これによって、ビデオ画像における設定対象の意味情報の抽出効率及び正確度を向上させることができる。

ここで、第１のビデオ通信端末がビデオ画像の大域的な意味情報を抽出するステップは、ビデオ画像における設定対象を認識する必要がなく、画像伝送プロセスを簡素化し、より包括的な意味情報を取得し、受信側で忠実度がより高い再構築画像を取得することができる。

１つの実施例では、意味情報が人の顔の意味情報や人体の意味情報などの設定対象の意味情報である場合、第１のビデオ通信端末は、Ｎフレームごとに、設定された画像伝送モードを使用して、第２のビデオ通信端末に第１の参照画像を送信する。設定された画像伝送モードで伝送される第１の参照画像のデータ量は、意味情報のデータ量よりも大きく、Ｎは１よりも大きい。該第１の参照画像は、第１のビデオ通信端末により撮影されたビデオ画像に属する。該第１の参照画像を伝送することで、第２のビデオ通信端末は意味情報及び第１の参照画像に基づいてビデオ画像の再構築画像を再構築することができる。

第２のビデオ通信端末に第１の参照画像を送信することで、第２のビデオ通信端末は、設定対象の意味情報を受信した後に、意味情報に基づいて設定対象の再構築サブ画像を取得し、設定対象の再構築サブ画像と第１の参照画像の再構築画像とを重ね合わせて、ビデオ画像の再構築画像を取得する。

１つの実施例では、意味情報がビデオ画像における設定対象の意味情報である場合、第２のビデオ通信端末が高品質の再構築画像を取得するために、第１のビデオ通信端末は、第２のビデオ通信端末に上記の設定対象のビデオ画像における位置情報を送信する。該位置情報を送信することで、第２のビデオ通信端末は、該位置情報に基づいて設定対象の再構築サブ画像と第１の参照画像とを融合して、より正確なビデオ画像の再構築画像を取得する。

第２のビデオ通信端末に第２の位置情報を送信することで、第２のビデオ通信端末は、第２の位置情報に基づいて再構築された人体の再構築画像と参照画像の再構築画像とを重ね合わせて、より正確なビデオ画像の再構築画像を取得する。

上記のビデオ画像の伝送方法では、殆どのビデオ画像について、送信側は、ビデオ画像の重要な意味情報を抽出して送信するだけでよいため、参照画像により、再構築画像の解像度及び忠実度の要求を満たすことができると共に、ビデオ画像の伝送のリアルタイム性を保証することができる。

上記のビデオ画像の伝送方法と同様に、本発明は、もう１つのビデオ画像の伝送方法の実施例をさらに提供する。本実施例では、第２のビデオ通信端末は、ビデオ画像の受信端末である。図６に示すように、第２のビデオ通信端末の観点から、ビデオ画像の伝送方法は、以下のステップを含む。

Ｓ６１０において、第１のビデオ通信端末により送信されたビデオ画像の意味情報を受信する。該ビデオ画像は、該第１のビデオ通信端末により撮影されたビデオ画像である。

Ｓ６２０において、該意味情報に基づいて画像を再構築し、該ビデオ画像の再構築画像を取得する。

Ｓ６３０において、第２のビデオ通信端末の表示パネルにより該再構築画像を表示する。

幾つかの実施例では、該ビデオ画像の意味情報は、ビデオ画像における設定対象の意味情報、及びビデオ画像の大域的な意味情報のうちの何れか１つを含む。ここで、該設定対象は、人の顔又は人の体を含むが、これらに限定されず、実際のシナリオに応じて設定されてもよい。

１つの実施例では、送信される意味情報がビデオ画像における設定対象の意味情報である場合、受信側で画像をより良く再構築するために、第１のビデオ通信端末は、Ｎフレームごとに、設定された画像伝送モードを使用して、第２のビデオ通信端末に第１の参照画像を送信する。該第１の参照画像は、第１のビデオ通信端末により撮影されたビデオ画像に属し、且つ、設定された画像伝送モードで伝送される第１の参照画像のデータ量は、意味情報のデータ量よりも大きい。Ｎは１よりも大きい。第２のビデオ通信端末は、第１の参照画像及び現在受信された設定対象の意味情報に基づいて画像を再構築する。

それに応じて、第２のビデオ通信端末は、Ｎフレームごとに、設定された画像伝送モードで第１のビデオ通信端末からの第１の参照画像を受信する。Ｎは１よりも大きい。

以下は、人の顔の意味情報及び人の体の意味情報をそれぞれ例にして説明する。

人の顔の意味情報に基づいてビデオ画像の送信及び再構築を行う場合、第２のビデオ通信端末は、第１のビデオ通信端末からの第１の参照画像の画像符号化情報を事前に受信する。該参照画像は、第１のビデオ通信端末により撮影されたビデオ画像であり、且つ該第１の参照画像の画像符号化情報のデータ量は、上記の実施例のビデオの顔意味情報／体意味情報のデータ量よりも大きい。

第２のビデオ通信端末は、該画像符号化情報に基づいて第１の参照画像を取得する。他のビデオ画像の顔意味情報／体意味情報を受信した場合、顔意味情報／体意味情報に基づいて顔再構築サブ画像／体再構築サブ画像を再構築し、顔再構築サブ画像／体再構築サブ画像と第１の参照画像とを融合し、他のビデオ画像の再構築画像を取得してもよい。ここで、顔意味情報／体意味情報に基づいて顔再構築サブ画像／体再構築サブ画像を再構築する実施プロセスは、以下の通りであってもよい。

第２のビデオ通信端末は、第１のビデオ通信端末により送信された顔意味情報／体意味情報を受信した後に、訓練されたデコーダに顔意味情報／体意味情報を入力し、該デコーダの出力を取得し、顔再構築サブ画像／体再構築サブ画像を取得する。ここで、デコーダの入力は、画像意味情報であり、出力は入力意味情報に基づいて再構築された画像である。上記の実施例で説明したように、デコーダは畳み込みニューラルネットワークであってもよい。

１つの実施例では、設定対象の意味情報に基づいて画像を再構築する場合、より高品質な再構築画像を得るために、第２のビデオ通信端末は、第１のビデオ通信端末からの位置情報をさらに受信する。該位置情報は、ビデオ画像における設定対象の位置情報である。そして、該位置情報に基づいて設定対象の再構築サブ画像と第１の参照画像とを重ね合わせ、ビデオ画像の再構築画像を取得する。

１つの実施例では、顔意味情報に基づくビデオ画像の伝送及び再構築の例では、第２のビデオ通信端末は、第１のビデオ通信端末からの第１の位置情報を受信し、該第１の位置情報は、第１のビデオ通信端末のビデオ画像における顔領域の位置情報である。同様に、第２のビデオ通信端末は、第１の位置情報に基づいて顔の再構築画像と第１の参照画像とを重ね合わせ、ビデオ画像の再構築画像を取得する。

体意味情報に基づくビデオ画像の伝送及び再構築の例では、第２のビデオ通信端末は、第１のビデオ通信端末からの第２の位置情報を受信する。該第２の位置情報は、ビデオ画像における人体領域の位置情報である。同様に、第２のビデオ通信端末は、第２の位置情報に基づいて人体の再構築画像と第１の参照画像とを重ね合わせ、ビデオ画像の再構築画像を取得する。

他の実施例では、第２のビデオ通信端末は、設定された画像伝送モードで受信された第２の参照画像をさらに取得する。該第２の参照画像は、設定対象の画像、及び第１のビデオ通信端末の環境画像のうちの少なくとも１つである。設定された画像伝送モードで受信された第２の参照画像のデータ量は、意味情報のデータ量よりも大きい。該意味情報及び第２の参照画像に基づいて画像を再構築し、ビデオ画像の再構築画像を取得する。実施プロセスについては、上記の実施例の説明を参照してもよい。

上記のビデオ画像の伝送方法によれば、ビデオ画像の受信側では、画像における重要な意味情報及びより完全な参照画像により画像を再構築することで、画像伝送のリアルタイム性の要求と解像度及び忠実度の要求とを両立することができる。

なお、上記の方法の実施例では、フローチャートのステップは矢印で示す順番に表示されているが、これらのステップは必ずしも矢印で示す順序で順番に実行されることに限定されない。本明細書に明確な説明がない限り、これらのステップの実行には厳密な順序がなく、これらのステップは他の順序で実行されてもよい。さらに、方法の実施例のフローチャートのステップの少なくとも一部は、複数のサブステップ又は複数の段階を含んでもよい。これらのサブステップ又は段階は、必ずしも同時に実行されることに限定されず、異なる時間に実行されてもよい。また、これらのサブステップ又は段階の実行順序は必ずしも順番に実行されることに限定されず、他のステップ又は、他のステップのサブステップ若しくは段階の少なくとも一部と交互に実行されてもよい。

上記の実施例に係るビデオ画像の伝送方法と同様に、本明細書は、ビデオ画像の伝送装置の実施例をさらに提供する。

図７に示すように、１つの実施例では、ビデオ画像の伝送装置は、以下のモジュールを含む。

画像取得モジュール６０１は、第１のビデオ通信端末により撮影されたビデオ画像を取得する。

情報抽出モジュール６０２は、該ビデオ画像の意味情報を抽出する。

送信モジュール６０３は、第２のビデオ通信端末に該意味情報を送信する。該意味情報は、第２のビデオ通信端末でビデオ画像の再構築画像を再構築するために使用される。

本発明の１つの実施例では、情報抽出モジュール６０２は、訓練されたエンコーダによりビデオ画像の意味情報を抽出する。該エンコーダは、画像の意味情報を認識するために使用される。

本発明の１つの実施例では、エンコーダの入力は、画像であり、エンコーダの出力は、入力画像の意味情報としての入力画像に対応する低次元ベクトルである。例えば、エンコーダは、畳み込みニューラルネットワークであってもよい。

そのうちの１つの実施例では、ビデオ画像の意味情報は、ビデオ画像における設定対象の意味情報、及びビデオ画像の大域的な意味情報のうちの何れか１つを含む。

抽出された意味情報が設定対象の意味情報である場合、情報抽出モジュール６０２は、対象情報抽出サブモジュールを含んでもよい。該対象情報抽出サブモジュールは、該ビデオ画像における設定対象を認識し、該設定対象のサブ画像を取得し、訓練されたエンコーダに該設定対象のサブ画像を入力し、該エンコーダの出力を取得し、該ビデオ画像における該設定対象の意味情報を取得する。

ここで、設定対象は、人の顔又は人の体であってもよい。設定対象が人の顔である場合、該対象情報抽出サブモジュールは、顔情報抽出部を含む。該顔情報抽出部は、ビデオ画像における顔領域を認識し、顔サブ画像を取得し、訓練されたエンコーダに顔サブ画像を入力し、該エンコーダの出力を取得し、該ビデオ画像の顔意味情報を取得する。設定対象が人の体である場合、該対象情報抽出サブモジュールは、体情報抽出部を含む。該体情報抽出部は、ビデオ画像における体領域を認識し、体サブ画像を取得し、訓練されたエンコーダに体サブ画像を入力し、該エンコーダの出力を取得し、該ビデオ画像の体意味情報を取得する。

抽出された意味情報がビデオ画像の大域的な意味情報である場合、情報抽出モジュール６０２は、大域情報抽出サブモジュールを含んでもよい。該大域情報抽出サブモジュールは、訓練されたエンコーダに該ビデオ画像を入力し、該エンコーダの出力を取得し、該ビデオ画像の大域的な意味情報を取得する。

本発明の１つの実施例では、上記のビデオ画像の伝送装置は、以下のモジュールをさらに含む。

第１の参照画像送信モジュールは、Ｎフレームごとに、設定された画像伝送モードを使用して、第２のビデオ通信端末に第１の参照画像を送信する。設定された画像伝送モードで伝送される第１の参照画像のデータ量は、前記意味情報のデータ量よりも大きい。Ｎは１よりも大きい。

該第１の参照画像は、第１のビデオ通信端末により撮影されたビデオ画像に属する。該第１の参照画像は、第２のビデオ通信端末が意味情報及び第１の参照画像に基づいてビデオ画像の再構築画像を再構築するために使用される。

意味情報が設定対象の意味情報である場合、第１の参照画像は、第２のビデオ通信端末が、受信された意味情報に基づいて設定対象の再構築サブ画像を取得して、再構築サブ画像と第１の参照画像とを融合して、ビデオ画像の再構築画像を取得するために使用されてもよい。

意味情報が大域的な意味情報である場合、第１の参照画像は、第２のビデオ通信端末が、受信された意味情報に基づいて初期再構築画像を取得して、初期再構築画像と第１の参照画像とを融合して、ビデオ画像の再構築画像を取得するために使用されてもよい。

他の実施例では、意味情報が設定対象の意味情報である場合、該ビデオ画像の伝送装置は、以下のモジュールをさらに含む。

対象位置取得モジュールは、ビデオ画像における設定対象の位置情報を取得する。

位置情報送信モジュールは、第２のビデオ通信端末に位置情報を送信する。該位置情報は、第２のビデオ通信端末が、位置情報に基づいて設定対象の再構築サブ画像と第１の参照画像とを融合して、ビデオ画像の再構築画像を取得するために使用される。

第２の参照画像送信モジュールは、設定された画像伝送モードを使用して、第２のビデオ通信端末に第２の参照画像を送信する。該設定された画像伝送モードで伝送される第２の参照画像のデータ量は、意味情報のデータ量よりも大きい。

該第２の参照画像は、設定対象の画像、及び第１のビデオ通信端末の環境画像のうちの少なくとも１つである。第２の参照画像は、第２のビデオ通信端末が意味情報及び第２の参照画像に基づいてビデオ画像の再構築画像を再構築するために使用される。

上記の実施例のビデオ画像の伝送装置によれば、ビデオ通信において、送信端末がビデオ画像を送信する際に、該ビデオ画像の意味情報を取得し、受信端末に該意味情報を送信する。受信端末が該意味情報を受信した後に、該意味情報に基づいて送信端末のビデオ画像を再構築し、再構築画像を取得し、受信端末の表示パネルにより再構築画像を表示してもよい。これによって、ビデオ通信では、１つのビデオ画像を送信する際に非常に少量のデータを送信するだけでよいため、ネットワーク帯域幅への要求が非常に低く、リアルタイム伝送の要求を満たすことができる。また、意味情報に基づいてビデオ画像を圧縮／復元することで、ビデオ画像の受信側でより高品質の画像を再構築することができ、ビデオ通信における画像への高解像度及び高忠実度の要求を両立することができる。

本発明の他の実施例では、図８に示すように、ビデオ画像の伝送装置は、以下のモジュールを含む。情報受信モジュール７０１は、第１のビデオ通信端末により撮影されたビデオ画像の意味情報を受信する。

画像再構築モジュール７０２は、該意味情報に基づいて画像を再構築し、該ビデオ画像の再構築画像を取得する。

画像表示モジュール７０３は、第２のビデオ通信端末の表示パネルにより該再構築画像を表示する。

本発明の１つの実施例では、画像再構築モジュール７０２は、意味情報及び事前に訓練されたデコーダにより画像を再構築し、ビデオ画像の再構築画像を取得する。

本発明の１つの実施例では、ビデオ画像の意味情報は、ビデオ画像における設定対象の意味情報、及びビデオ画像の大域的な意味情報のうちの何れか１つを含む。

ここで、デコーダの入力は、画像の意味情報であり、デコーダの出力は、入力された意味情報に基づいて再構築された画像である。幾つかのシナリオでは、デコーダは、畳み込みニューラルネットワークである。

本発明の１つの実施例では、ビデオ画像の意味情報は、ビデオ画像における設定対象の意味情報、及びビデオ画像の大域的な意味情報のうちの何れか１つを含む。該設定対象は、例えば人の顔又は人の体などである。

本発明の１つの実施例では、画像再構築モジュール７０２は、以下のモジュールを含む。

第１の参照画像取得サブモジュールは、設定された画像伝送モードで直近に受信された第１の参照画像を取得する。第１の参照画像は、第１のビデオ通信端末により撮影されて送信されたビデオ画像である。設定された画像伝送モードで受信された第１の参照画像のデータ量は、意味情報のデータ量よりも大きい。

第１の画像再構築サブモジュールは、意味情報及び第１の参照画像に基づいて画像を再構築し、ビデオ画像の再構築画像を取得する。

本発明の１つの実施例では、該ビデオ画像の伝送装置は、Ｎフレームごとに、設定された画像伝送モードで第１のビデオ通信端末からの第１の参照画像を受信する第１の参照画像受信サブモジュールをさらに含む。Ｎは１よりも大きい。

１つの実施例では、受信された意味情報が設定対象の意味情報である場合、画像再構築モジュール７０２は、第１の再構築サブモジュールを含んでもよい。該第１の再構築サブモジュールは、訓練されたデコーダに意味情報を入力し、デコーダの出力を取得し、設定対象の再構築サブ画像を取得し、設定対象の再構築サブ画像と第１の参照画像とを融合し、ビデオ画像の再構築画像を取得する。

１つの実施例では、該ビデオ画像の伝送装置は、第１のビデオ通信端末により送信された、ビデオ画像における設定対象の位置情報を受信する位置情報受信モジュールをさらに含む。該第１の再構築サブモジュールは、位置情報に基づいて設定対象の再構築サブ画像と第１の参照画像とを融合し、ビデオ画像の再構築画像を取得する。

１つの実施例では、受信された意味情報が大域的な意味情報である場合、画像再構築モジュール７０２は、第２の再構築サブモジュールを含んでもよい。該第２の再構築サブモジュールは、訓練されたデコーダに意味情報を入力し、デコーダの出力を取得し、初期再構築画像を取得し、初期再構築画像と第１の参照画像とを融合し、ビデオ画像の再構築画像を取得する。

第２の参照画像取得サブモジュールは、設定された画像伝送モードで受信された第２の参照画像を取得する。第２の参照画像は、設定対象の画像、及び第１のビデオ通信端末の環境画像のうちの少なくとも１つである。設定された画像伝送モードで受信された第２の参照画像のデータ量は、意味情報のデータ量よりも大きい。

第２の画像再構築サブモジュールは、意味情報及び第２の参照画像に基づいて画像を再構築し、ビデオ画像の再構築画像を取得する。

本発明の１つの実施例では、図１に示すように、ビデオ画像の伝送システムは、ビデオ通信を行うことが可能に接続された第１のビデオ通信端末及び第２のビデオ通信端末を含む。第１のビデオ通信端末は、撮影されたビデオ画像を取得し、ビデオ画像の意味情報を取得し、第２のビデオ通信端末に意味情報を送信する。該第２のビデオ通信端末は、意味情報を受信し、意味情報に基づいて画像を再構築し、ビデオ画像の再構築画像を取得し、第２のビデオ通信端末の表示パネルにより再構築画像を表示する。

ビデオ画像の伝送装置及びシステムの実施例の態様について、ビデオ画像の伝送方法についての上記の説明を参照してもよく、ここでその説明を省略する。上記のビデオ画像伝送装置の各モジュールの全部又は一部は、ソフトウェア、ハードウェア、及びそれらの組み合わせにより実現されてもよい。上記のモジュールは、ハードウェアの形でインテリジェントインタラクティブタブレットのプロセッサに内蔵され、或いはインテリジェントインタラクティブタブレットのプロセッサと独立してもよいし、プロセッサが上記各モジュールに対応する操作を呼び出すようにソフトウェアの形でインテリジェントインタラクティブタブレットのメモリに記憶されてもよい。

また、上記の例のビデオ画像の伝送装置の態様では、各プログラムモジュールの論理的分割は、一例に過ぎず、実際に応用する際に、必要に応じて、例えば対応するハードウェアの構成要求又はソフトウェアの実装の利便性を考慮して、該機能の割り当てを異なるプログラムモジュールにより実行されてもよい。即ち、上記の全部又は一部の機能を達成するように、ビデオ画像の伝送装置の内部構造を異なるプログラムモジュールに分割してもよい。

１つの実施例では、インテリジェントインタラクティブタブレットを提供する。その内部構造は、図９に示すものであってもよい。該インテリジェントインタラクティブタブレットは、システムバスを介して接続されたプロセッサ、メモリ、ネットワークインターフェイス、表示パネル、撮影装置、及び入力装置を含む。ここで、プロセッサは、計算及び制御の機能を提供するために使用される。メモリには、不揮発性記憶媒体、メモリが含まれ、不揮発性記憶媒体は、オペレーティングシステム及びコンピュータプログラムを格納し、メモリは、不揮発性記憶媒体におけるオペレーティングシステム及びコンピュータプログラムの実行のために環境を提供する。ネットワークインターフェイスは、ネットワーク接続を介して外部の端末と通信可能に接続するために使用される。コンピュータプログラムは、プロセッサにより実行される際にビデオ画像の伝送方法を実現する。表示パネルは、液晶ディスプレイ又は電子インクディスプレイであってもよい。撮影装置は、インテリジェントインタラクティブタブレットの前の環境又は人のビデオ画像を撮影することができる。入力装置は、表示パネルを覆うタッチ層であってもよいし、インテリジェントインタラクティブタブレットの筐体に設定されたボタン、トラックボール、又はタッチパッドであってもよいし、外部のキーボード、タッチパッド、又はマウスであってもよい。

当業者にとって理解できるように、図９に示す構造は、本発明の実施例に関連する構造の一部のブロック図に過ぎず、本発明の実施例に係るインテリジェントインタラクティブタブレットを限定するものではない。インテリジェントインタラクティブタブレットは、図示されていない部材をさらに含んでもよいし、図示されている部材を含まなくてもよいし、他の部材と組み合わせてもよいし、異なる部材の配置方式を有してもよい。

本発明の１つの実施例では、ビデオ画像を撮影する撮影装置と、表示パネルと、コンピュータプログラムが記憶されているメモリと、プロセッサと、を含むインテリジェントインタラクティブタブレットをさらに提供する。プロセッサは、該コンピュータプログラムを実行する際に、撮影装置により撮影されたビデオ画像の意味情報を抽出し、他のインテリジェントインタラクティブタブレットに前記意味情報を送信するように構成されてもよい。また、プロセッサは、該コンピュータプログラムを実行する際に、他のインテリジェントインタラクティブタブレットにより送信されたビデオ画像の意味情報を受信し、意味情報に基づいて画像を再構築し、他のインテリジェントインタラクティブタブレットにより送信されたビデオ画像の再構築画像を取得し、表示パネルにより前記再構築画像を表示するように構成されてもよい。

他の実施例では、プロセッサがプログラムを実行する際に、上記のビデオ画像の伝送方法の他の実施例に係る対応するステップを実行するように構成されてもよい。

本発明の１つの実施例では、コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体をさらに提供する。プロセッサに該コンピュータプログラムを実行させる際に、第１のビデオ通信端末により撮影されたビデオ画像を取得し、ビデオ画像の意味情報を抽出し、第２のビデオ通信端末に意味情報を送信するように構成されてもよい。該意味情報は、第２のビデオ通信端末でビデオ画像の再構築画像を再構築するために使用される。

他の実施例では、プロセッサがプログラムを実行する際に、上記のビデオ画像の伝送方法の他の実施例に係るビデオ画像の送信端末で実行される対応するステップを実行するように構成されてもよい。

本発明のもう１つの実施例では、コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体をさらに提供する。プロセッサに該コンピュータプログラムを実行させる際に、第１のビデオ通信端末により撮影されたビデオ画像の意味情報を受信し、意味情報に基づいて画像を再構築し、ビデオ画像の再構築画像を取得し、第２のビデオ通信端末の表示パネルにより再構築画像を表示するように構成されてもよい。

他の実施例では、プロセッサがプログラムを実行する際に、上記のビデオ画像の伝送方法の他の実施例に係るビデオ画像の受信端末で実行される対応するステップを実行するように構成されてもよい。

当業者にとって理解できるように、上記の実施例の方法におけるプロセスの全部又は一部は、コンピュータプログラムを介して関連するハードウェアに指示することにより実施されてもよい。該コンピュータプログラムは、不揮発性のコンピュータ読み取り可能な記憶媒体に記憶されてもよい。コンピュータプログラムが実行される際に、上記の方法の各実施例のプロセスを含んでもよい。ここで、本発明に係る各実施例で使用されるメモリ、ストレージ、データベース、又は他の媒体は、不揮発性及び／又は揮発性のメモリを含んでもよい。不揮発性のメモリは、読み取り専用メモリ（ＲＯＭ）、プログラミング可能なＲＯＭ（ＰＲＯＭ）、電気的にプログラミング可能なＲＯＭ（ＥＰＲＯＭ）、電気的に消去可能なプログラミング可能なＲＯＭ（ＥＥＰＲＯＭ）、又はフラッシュメモリを含んでもよい。揮発性のメモリは、ランダムアクセスメモリ（ＲＡＭ）又は外部キャッシュメモリを含んでもよい。非限定的な例として、ＲＡＭは、スタティックＲＡＭ（ＳＲＡＭ）、ダイナミックＲＡＭ（ＤＲＡＭ）、同期ＤＲＡＭ（ＳＤＲＡＭ）、ダブルデータレートＳＤＲＡＭ（ＤＤＲＳＤＲＡＭ）、拡張型ＳＤＲＡＭ（ＥＳＤＲＡＭ）、同期リンク（Ｓｙｎｃｈｌｉｎｋ）ＤＲＡＭ（ＳＬＤＲＡＭ）、メモリバス（Ｒａｍｂｕｓ）ダイレクトＲＡＭ（ＲＤＲＡＭ）、ダイレクトメモリバスダイナミックＲＡＭ（ＤＲＤＲＡＭ）、及びメモリバスダイナミックＲＡＭ（ＲＤＲＡＭ）などの様々な形式を有してもよい。

上記の実施例の各技術的特徴は、任意に組み合わせてもよく、説明を簡潔にするために、上記の実施例における各技術的特徴の全ての可能な組み合わせを記載していない。しかし、組み合わせに矛盾がない限り、これらの技術的特徴の組み合わせは本明細書に記載される範囲内のものである。上記の各実施例は、それぞれの態様を詳細に説明しているが、詳細に説明されていない部分について、他の実施例の関連する説明を参照してもよい。

実施例における「含む」及び「有する」という用語及びそれらの任意の変形は、非排他的な包含をカバーすることを意図している。例えば、一連のステップ又は（モジュール）ユニットを含むプロセス、方法、システム、プロダクト、又はデバイスは、列挙されたステップ又はユニットに限定されず、列挙されていないステップ又はユニットをさらに含んでもよいし、これらのプロセス、方法、プロダクト又はデバイスに固有の他のステップ又はユニットを含んでもよい。

実施例で言及される「複数」は、２つ以上を意味する。「及び／又は」は、関連する対象の関連関係を説明するためものであり、例えば、「Ａ及び／又はＢ」は、Ａのみが存在すること、Ａ及びＢの両方が存在すること、及びＢのみが存在することという３つのタイプの関係を意味してもよい。記号「／」は、通常、前後の関連対象が「又は」の関係にあることを意味する。

実施例で言及される「第１／第２」は、単に類似の対象を区別するためのものであり、対象の特定の順序を表すものではない。なお、「第１／第２」は、容認される場合に特定の順序又は前後順序を互いに変更してもよい。なお、「第１／第２」により区別される対象は、適切な場合に変更可能であるため、本明細書に記載された実施例は、本明細書に図示又は記載されたもの以外の順序で実施されてもよい。

Claims

ビデオ画像の伝送方法であって、
第１のビデオ通信端末により撮影されたビデオ画像を取得するステップと、
前記ビデオ画像の意味情報を抽出するステップと、
第２のビデオ通信端末に前記意味情報を送信するステップと、を含み、
前記意味情報は、前記第２のビデオ通信端末で前記ビデオ画像の再構築画像を再構築するために使用される、方法。
前記ビデオ画像の意味情報を抽出するステップは、
訓練されたエンコーダにより前記ビデオ画像の意味情報を抽出するステップ、を含み、
前記エンコーダは、画像の意味情報を認識する、請求項１に記載の方法。
前記エンコーダの入力は、画像であり、
前記エンコーダの出力は、入力画像の意味情報としての入力画像に対応する低次元ベクトルである、請求項２に記載の方法。
前記エンコーダは、畳み込みニューラルネットワークである、請求項３に記載の方法。
前記ビデオ画像の意味情報は、
前記ビデオ画像における設定対象の意味情報、及び
前記ビデオ画像の大域的な意味情報のうちの何れか１つを含む、請求項２に記載の方法。
前記ビデオ画像における設定対象の意味情報を抽出するステップは、
前記ビデオ画像における設定対象を認識し、前記設定対象のサブ画像を取得するステップと、
訓練されたエンコーダに前記設定対象のサブ画像を入力するステップと、
前記エンコーダの出力を取得し、前記ビデオ画像における前記設定対象の意味情報を取得するステップと、を含む、請求項５に記載の方法。
前記設定対象は、人の顔又は人の体を含む、請求項６に記載の方法。
前記設定対象が人の顔である場合、前記ビデオ画像における設定対象の意味情報を抽出するステップは、
前記ビデオ画像における顔領域を認識し、顔サブ画像を取得するステップと、
訓練されたエンコーダに前記顔サブ画像を入力するステップと、
前記エンコーダの出力を取得し、前記ビデオ画像の顔意味情報を取得するステップと、を含む、請求項７に記載の方法。
前記設定対象が人の体である場合、前記ビデオ画像における設定対象の意味情報を抽出するステップは、
前記ビデオ画像における体領域を認識し、体サブ画像を取得するステップと、
訓練されたエンコーダに前記体サブ画像を入力するステップと、
前記エンコーダの出力を取得し、前記ビデオ画像の体意味情報を取得するステップと、を含む、請求項７に記載の方法。
前記ビデオ画像の大域的な意味情報を抽出するステップは、
訓練されたエンコーダに前記ビデオ画像を入力するステップと、
前記エンコーダの出力を取得し、前記ビデオ画像の大域的な意味情報を取得するステップと、を含む、請求項５に記載の方法。
Ｎフレームごとに、設定された画像伝送モードを使用して、第２のビデオ通信端末に第１の参照画像を送信するステップ、をさらに含み、
設定された画像伝送モードで伝送される前記第１の参照画像のデータ量は、前記意味情報のデータ量よりも大きく、
Ｎは１よりも大きく、
前記第１の参照画像は、前記第１のビデオ通信端末により撮影されたビデオ画像に属し、
前記第１の参照画像は、前記第２のビデオ通信端末が前記意味情報及び前記第１の参照画像に基づいて前記ビデオ画像の再構築画像を再構築するために使用される、請求項５乃至１０の何れかに記載の方法。
前記意味情報が設定対象の意味情報である場合、前記第１の参照画像は、前記第２のビデオ通信端末が、受信された意味情報に基づいて前記設定対象の再構築サブ画像を取得して、前記再構築サブ画像と前記第１の参照画像とを融合して、前記ビデオ画像の再構築画像を取得するために使用される、請求項１１に記載の方法。
前記意味情報が大域的な意味情報である場合、前記第１の参照画像は、前記第２のビデオ通信端末が、受信された意味情報に基づいて初期再構築画像を取得して、前記初期再構築画像と前記第１の参照画像とを融合して、前記ビデオ画像の再構築画像を取得するために使用される、請求項１１に記載の方法。
前記意味情報が設定対象の意味情報である場合、
前記ビデオ画像における設定対象の位置情報を取得するステップと、
前記第２のビデオ通信端末に前記位置情報を送信するステップと、をさらに含み、
前記位置情報は、前記第２のビデオ通信端末が、前記位置情報に基づいて前記設定対象の再構築サブ画像と前記第１の参照画像とを融合して、前記ビデオ画像の再構築画像を取得するために使用される、請求項１２に記載の方法。
設定された画像伝送モードを使用して、前記第２のビデオ通信端末に第２の参照画像を送信するステップ、をさらに含み、
前記設定された画像伝送モードで伝送される前記第２の参照画像のデータ量は、前記意味情報のデータ量よりも大きく、
前記第２の参照画像は、前記設定対象の画像、及び前記第１のビデオ通信端末の環境画像のうちの少なくとも１つであり、
前記第２の参照画像は、前記第２のビデオ通信端末が前記意味情報及び前記第２の参照画像に基づいて前記ビデオ画像の再構築画像を再構築するために使用される、請求項５乃至１４の何れかに記載の方法。
ビデオ画像の伝送方法であって、
第１のビデオ通信端末により撮影されたビデオ画像の意味情報を受信するステップと、
前記意味情報に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得するステップと、
第２のビデオ通信端末の表示パネルにより前記再構築画像を表示するステップと、を含む、方法。
前記意味情報に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得するステップは、
前記意味情報及び事前に訓練されたデコーダにより画像を再構築し、前記ビデオ画像の再構築画像を取得するステップ、を含む、請求項１６に記載の方法。
前記デコーダの入力は、画像の意味情報であり、
前記デコーダの出力は、入力された意味情報に基づいて再構築された画像である、請求項１７に記載の方法。
前記デコーダは、畳み込みニューラルネットワークである、請求項１８に記載の方法。
前記ビデオ画像の意味情報は、
前記ビデオ画像における設定対象の意味情報、及び
前記ビデオ画像の大域的な意味情報のうちの何れか１つを含む、請求項１７に記載の方法。
前記設定対象は、人の顔又は人の体を含む、請求項２０に記載の方法。
前記意味情報に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得するステップは、
設定された画像伝送モードで直近に受信された第１の参照画像を取得するステップと、
前記意味情報及び前記第１の参照画像に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得するステップと、をさらに含み、
前記第１の参照画像は、前記第１のビデオ通信端末により撮影されて送信されたビデオ画像であり、
設定された画像伝送モードで受信された前記第１の参照画像のデータ量は、前記意味情報のデータ量よりも大きい、請求項２１に記載の方法。
Ｎフレームごとに、設定された画像伝送モードで前記第１のビデオ通信端末からの第１の参照画像を受信するステップ、をさらに含み、
Ｎは１よりも大きい、請求項２２に記載の方法。
前記意味情報が設定対象の意味情報である場合、前記意味情報及び前記第１の参照画像に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得するステップは、
訓練されたデコーダに前記意味情報を入力するステップと、
前記デコーダの出力を取得し、前記設定対象の再構築サブ画像を取得するステップと、
前記設定対象の再構築サブ画像と前記第１の参照画像とを融合し、前記ビデオ画像の再構築画像を取得するステップと、を含む、請求項２３に記載の方法。
前記意味情報が大域的な意味情報である場合、前記意味情報及び前記第１の参照画像に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得するステップは、
訓練されたデコーダに前記意味情報を入力するステップと、
前記デコーダの出力を取得し、初期再構築画像を取得するステップと、
前記初期再構築画像と前記第１の参照画像とを融合し、前記ビデオ画像の再構築画像を取得するステップと、を含む、請求項２３に記載の方法。
前記意味情報が顔意味情報である場合、前記デコーダの出力を取得し、顔の再構築サブ画像を取得し、
前記意味情報が体意味情報である場合、前記デコーダの出力を取得し、体の再構築サブ画像を取得する、請求項２４に記載の方法。
前記第１のビデオ通信端末により送信された、前記ビデオ画像における前記設定対象の位置情報を受信するステップ、さらに含み、
前記設定対象の再構築サブ画像と前記第１の参照画像とを融合し、前記ビデオ画像の再構築画像を取得するステップは、
前記位置情報に基づいて前記設定対象の再構築サブ画像と前記第１の参照画像とを融合し、前記ビデオ画像の再構築画像を取得するステップ、を含む、請求項２４に記載の方法。
前記第１のビデオ通信端末により送信された位置情報を受信するステップは、
前記第１のビデオ通信端末により送信された、前記ビデオ画像における顔領域の第１の位置情報を受信するステップと、
前記第１のビデオ通信端末により送信された、前記ビデオ画像における体領域の第２の位置情報を受信するステップと、を含む、請求項２７に記載の方法。
前記位置情報に基づいて前記設定対象の再構築サブ画像と前記第１の参照画像とを融合する前に、
前記設定対象の再構築サブ画像に対してエッジフェザリング処理を行うステップ、をさらに含む、請求項２７に記載の方法。
前記意味情報に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得するステップは、
設定された画像伝送モードで受信された第２の参照画像を取得するステップと、
前記意味情報及び前記第２の参照画像に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得するステップと、を含み、
前記第２の参照画像は、設定対象の画像、及び前記第１のビデオ通信端末の環境画像のうちの少なくとも１つであり、
設定された画像伝送モードで受信された前記第２の参照画像のデータ量は、前記意味情報のデータ量よりも大きい、請求項２１乃至２９の何れかに記載の方法。
ビデオ画像の伝送方法であって、
第１のビデオ通信端末が、撮影されたビデオ画像を取得し、前記ビデオ画像の意味情報を取得し、第２のビデオ通信端末に前記意味情報を送信するステップと、
前記第２のビデオ通信端末が、前記意味情報を受信し、前記意味情報に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得し、第２のビデオ通信端末の表示パネルにより前記再構築画像を表示するステップと、を含む、方法。
ビデオ画像の伝送装置であって、
第１のビデオ通信端末により撮影されたビデオ画像を取得する画像取得モジュールと、
前記ビデオ画像の意味情報を抽出する情報抽出モジュールと、
第２のビデオ通信端末に前記意味情報を送信する送信モジュールと、を含み、
前記意味情報は、前記第２のビデオ通信端末で前記ビデオ画像の再構築画像を再構築するために使用される、装置。
前記情報抽出モジュールは、訓練されたエンコーダにより前記ビデオ画像の意味情報を抽出し、
前記エンコーダは、画像の意味情報を認識する、請求項３２に記載の装置。
前記エンコーダの入力は、画像であり、
前記エンコーダの出力は、入力画像の意味情報としての入力画像に対応する低次元ベクトルである、請求項３３に記載の装置。
前記ビデオ画像の意味情報は、
前記ビデオ画像における設定対象の意味情報、及び
前記ビデオ画像の大域的な意味情報のうちの何れか１つを含む、請求項３３に記載の装置。
Ｎフレームごとに、設定された画像伝送モードを使用して、第２のビデオ通信端末に第１の参照画像を送信する第１の参照画像送信モジュール、をさらに含み、
設定された画像伝送モードで伝送される前記第１の参照画像のデータ量は、前記意味情報のデータ量よりも大きく、
Ｎは１よりも大きく、
前記第１の参照画像は、前記第１のビデオ通信端末により撮影されたビデオ画像に属し、
前記第１の参照画像は、前記第２のビデオ通信端末が前記意味情報及び前記第１の参照画像に基づいて前記ビデオ画像の再構築画像を再構築するために使用される、請求項３５に記載の装置。
設定された画像伝送モードを使用して、前記第２のビデオ通信端末に第２の参照画像を送信する第２の参照画像送信モジュール、をさらに含み、
前記設定された画像伝送モードで伝送される前記第２の参照画像のデータ量は、前記意味情報のデータ量よりも大きく、
前記第２の参照画像は、前記設定対象の画像、及び前記第１のビデオ通信端末の環境画像のうちの少なくとも１つであり、
前記第２の参照画像は、前記第２のビデオ通信端末が前記意味情報及び前記第２の参照画像に基づいて前記ビデオ画像の再構築画像を再構築するために使用される、請求項３５に記載の装置。
ビデオ画像の伝送装置であって、
第１のビデオ通信端末により撮影されたビデオ画像の意味情報を受信する情報受信モジュールと、
前記意味情報に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得する画像再構築モジュールと、
第２のビデオ通信端末の表示パネルにより前記再構築画像を表示する画像表示モジュールと、を含む、装置。
前記画像再構築モジュールは、前記意味情報及び事前に訓練されたデコーダにより画像を再構築し、前記ビデオ画像の再構築画像を取得する、請求項３８に記載の装置。
前記ビデオ画像の意味情報は、
前記ビデオ画像における設定対象の意味情報、及び
前記ビデオ画像の大域的な意味情報のうちの何れか１つを含む、請求項３９に記載の装置。
前記画像再構築モジュールは、
設定された画像伝送モードで直近に受信された第１の参照画像を取得する第１の参照画像取得サブモジュールと、
前記意味情報及び前記第１の参照画像に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得する第１の画像再構築サブモジュールと、をさらに含み、
前記第１の参照画像は、前記第１のビデオ通信端末により撮影されて送信されたビデオ画像であり、
設定された画像伝送モードで受信された前記第１の参照画像のデータ量は、前記意味情報のデータ量よりも大きい、請求項４０に記載の装置。
Ｎフレームごとに、設定された画像伝送モードで前記第１のビデオ通信端末からの第１の参照画像を受信する第１の参照画像受信サブモジュール、をさらに含み、
Ｎは１よりも大きい、請求項４１に記載の装置。
前記画像再構築モジュールは、
設定された画像伝送モードで受信された第２の参照画像を取得する第２の参照画像取得サブモジュールと、
前記意味情報及び前記第２の参照画像に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得する第２の画像再構築サブモジュールと、を含み、
前記第２の参照画像は、設定対象の画像、及び前記第１のビデオ通信端末の環境画像のうちの少なくとも１つであり、
設定された画像伝送モードで受信された前記第２の参照画像のデータ量は、前記意味情報のデータ量よりも大きい、請求項４０に記載の装置。
ビデオ通信を行うことが可能な第１のビデオ通信端末及び第２のビデオ通信端末を含むビデオ画像の伝送システムであって、
第１のビデオ通信端末は、撮影されたビデオ画像を取得し、前記ビデオ画像の意味情報を取得し、第２のビデオ通信端末に前記意味情報を送信し、
前記第２のビデオ通信端末は、前記意味情報を受信し、前記意味情報に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得し、第２のビデオ通信端末の表示パネルにより前記再構築画像を表示する、ビデオ画像の伝送システム。
ビデオ画像を撮影する撮影装置と、表示パネルと、コンピュータプログラムが記憶されているメモリと、プロセッサと、を含むインテリジェントインタラクティブタブレットであって、
前記プロセッサは、前記コンピュータプログラムを実行する際に、前記撮影装置により撮影されたビデオ画像の意味情報を抽出し、他のインテリジェントインタラクティブタブレットに前記意味情報を送信するように構成され、
前記プロセッサは、前記コンピュータプログラムを実行する際に、他のインテリジェントインタラクティブタブレットにより送信されたビデオ画像の意味情報を受信し、前記意味情報に基づいて画像を再構築し、他のインテリジェントインタラクティブタブレットにより送信されたビデオ画像の再構築画像を取得し、前記表示パネルにより前記再構築画像を表示するように構成される、インテリジェントインタラクティブタブレット。
コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、
プロセッサに前記コンピュータプログラムを実行させる際に、請求項１乃至３０の何れかに記載の方法を実現する、記憶媒体。