JP2024055596A - 端末装置 - Google Patents

端末装置 Download PDF

Info

Publication number
JP2024055596A
JP2024055596A JP2022162659A JP2022162659A JP2024055596A JP 2024055596 A JP2024055596 A JP 2024055596A JP 2022162659 A JP2022162659 A JP 2022162659A JP 2022162659 A JP2022162659 A JP 2022162659A JP 2024055596 A JP2024055596 A JP 2024055596A
Authority
JP
Japan
Prior art keywords
image
terminal device
user
control unit
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022162659A
Other languages
English (en)
Inventor
航 加来
達朗 堀
ホルヘ ペラエズ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2022162659A priority Critical patent/JP2024055596A/ja
Priority to CN202311282336.7A priority patent/CN117857770A/zh
Priority to US18/481,233 priority patent/US20240121359A1/en
Publication of JP2024055596A publication Critical patent/JP2024055596A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/157Conference systems defining a virtual conference space and using avatars or agents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/041Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means
    • G06F3/0412Digitisers structurally integrated in a display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • G06V40/11Hand-related biometrics; Hand pose recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Processing Or Creating Images (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】仮想の対面コミュニケーションにおけるリアリティを向上させる端末装置を提供する。【解決手段】通話システムにおいて、端末装置は、通信部と、画像を表示するとともに描画を受け付ける透過パネルと、前記透過パネルに重畳する表示部と、前記表示部付近に配置されユーザを撮像する撮像部と、前記通信部により通信を行う制御部と、を有する。制御部は、他の端末装置を用いる他のユーザの撮像画像に基づき当該他のユーザを表すモデル画像を表示するための情報と、当該他のユーザが当該他の端末装置の透過パネルに描画具により描画する描画画像の情報とを当該他の端末装置から受け、前記モデル画像を当該端末装置の前記表示部に、前記他のユーザの前記描画具を保持する手の手元画像と前記描画画像とを当該端末装置の前記透過パネルに表示させる。【選択図】図5B

Description

本開示は、端末装置に関する。
透過型のタッチパネルに画像等を表示し、ユーザに各種情報を出力するとともに各種情報の入力を受け付ける装置が知られている。かかる装置を、ネットワーク経由での映像通話を可能にするテレビ電話端末として用いる技術が提案されている。例えば、特許文献1には、大画面のホログラムスクリーンに映像光を投射し、フルカラー又はモノクロの動画又は静止画を映し出すとともに情報端末としての機能を有するテレビ電話装置が開示されている。
特開2003-005617号公報
透過型タッチパネルを有する端末装置を用いてユーザ同士が互いの撮像画像、描画等をやりとりしてコミュニケーションを行う技術において、コミュニケーションのリアリティを向上させる余地がある。
本開示は、透過型タッチパネルを用いたコミュニケーションにおけるリアリティの向上を可能にする、端末装置等を提供する。
本開示における端末装置は、通信部と、画像を表示するとともに描画を受け付ける透過パネルと、前記透過パネルに重畳する表示部と、前記表示部付近に配置されユーザを撮像する撮像部と、前記通信部により通信を行う制御部とを有する端末装置であって、前記制御部は、他の端末装置を用いる他のユーザの撮像画像に基づき当該他のユーザを表すモデル画像を表示するための情報と、当該他のユーザが当該他の端末装置の透過パネルに描画具により描画する描画画像の情報とを当該他の端末装置から受け、前記モデル画像を当該端末装置の前記表示部に、前記他のユーザの前記描画具を保持する手の手元画像と前記描画画像とを当該端末装置の前記透過パネルに表示させる。
本開示における端末装置等によれば、透過パネルを用いたコミュニケーションにおけるリアリティの向上が可能となる。
通話システムの構成例を示す図である。 端末装置を使用するユーザの態様を示す図である。 端末装置による表示の例を示す図である。 端末装置による表示の例を示す図である。 通話システムの動作例を示すシーケンス図である。 端末装置の動作例を示すフローチャート図である。 端末装置の動作例を示すフローチャート図である。 端末装置による表示の例を示す図である。 端末装置による表示の例を示す図である。
以下、実施の形態について説明する。
図1は、一実施形態における通話システム1の構成例を示す図である。通話システム1は、ネットワーク11を介して互いに情報通信可能に接続される、サーバ装置10と複数の端末装置12を有する。通話システム1は、ユーザが端末装置12を用いて画像、音声等を送受して互いに仮想の対面コミュニケーション(以下、仮想対面コミュニケーションという)を行うことを可能にするためのシステムである。
サーバ装置10は、例えば、クラウドコンピューティングシステム又はその他のコンピューティングシステムに属し、各種機能を実装するサーバとして機能するサーバコンピュータである。サーバ装置10は、情報通信可能に接続されて連携動作する二以上のサーバコンピュータにより構成されてもよい。サーバ装置10は、仮想対面コミュニケーションの提供に必要な情報の送受及び情報処理を実行する。
端末装置12は、通信機能と、画像、音声等の入出力機能を備えた情報処理装置であって、ユーザにより使用される。端末装置12は、通信機能及び画像等の表示機能を備えた情報処理装置と、透過型タッチパネルとを備える。端末装置12は、仮想対面コミュニケーション専用の装置であってもよいし、例えば、スマートフォン、タブレット端末、パーソナルコンピュータ、デジタルサイネージ等と、透過型タッチパネルとを組み合わせて構成されてもよい。
ネットワーク11は、例えばインターネットであるが、アドホックネットワーク、LAN(Local Area Network)、MAN(Metropolitan Area Network)、もしくは他のネットワーク又はこれらいずれかの組合せが含まれる。
本実施形態において、端末装置12は、他の端末装置12を用いる他ユーザの撮像画像に基づき他のユーザを表すモデル画像を表示するための情報と、他ユーザが他の端末装置12の透過型タッチパネルに描画具により描画する描画画像の情報とを他の端末装置12から受け、モデル画像を自らの表示部に、描画具を保持する手の手元画像と描画画像を自らの透過型タッチパネルに表示させる。撮像画像を撮像する撮像部の位置及び画角に起因し、他ユーザの描画具を保持する手元が撮像画像に写らない場合であっても、手元画像を補うことで、表示されるモデル画像のリアリティ向上が可能となる。
サーバ装置10と端末装置12のそれぞれの構成について詳述する。
サーバ装置10は、通信部101、記憶部102、制御部103、入力部105、及び出力部106を有する。これらの構成は、サーバ装置10が二以上のサーバコンピュータで構成される場合には、二以上のコンピュータに適宜に配置される。
通信部101は、一以上の通信用インタフェースを含む。通信用インタフェースは、例えば、LANインタフェースである。通信部101は、サーバ装置10の動作に用いられる情報を受信し、またサーバ装置10の動作によって得られる情報を送信する。サーバ装置10は、通信部101によりネットワーク11に接続され、ネットワーク11経由で端末装置12と情報通信を行う。
記憶部102は、例えば、主記憶装置、補助記憶装置、又はキャッシュメモリとして機能する一以上の半導体メモリ、一以上の磁気メモリ、一以上の光メモリ、又はこれらのうち少なくとも2種類の組み合わせを含む。半導体メモリは、例えば、RAM(Random Access Memory)又はROM(Read Only Memory)である。RAMは、例えば、SRAM(Static RAM)又はDRAM(Dynamic RAM)である。ROMは、例えば、EEPROM(Electrically Erasable Programmable ROM)である。記憶部102は、サーバ装置10の動作に用いられる情報と、サーバ装置10の動作によって得られた情報とを格納する。
制御部103は、一以上のプロセッサ、一以上の専用回路、又はこれらの組み合わせを含む。プロセッサは、例えば、CPU(Central Processing Unit)などの汎用プロセッサ、又は特定の処理に特化したGPU(Graphics Processing Unit)等の専用プロセッサである。専用回路は、例えば、FPGA(Field-Programmable Gate Array)、ASIC(Application Specific Integrated Circuit)等である。制御部103は、サーバ装置10の各部を制御しながら、サーバ装置10の動作に係る情報処理を実行する。
入力部105は、一以上の入力用インタフェースを含む。入力用インタフェースは、例えば、物理キー、静電容量キー、ポインティングデバイス、ディスプレイと一体的に設けられたタッチパネル、又は音声入力を受け付けるマイクロフォンである。入力部105は、サーバ装置10の動作に用いられる情報を入力する操作を受け付け、入力される情報を制御部103に送る。
出力部106は、一以上の出力用インタフェースを含む。出力用インタフェースは、例えば、ディスプレイ又はスピーカである。ディスプレイは、例えば、LCD(Liquid Crystal Display)又は有機EL(Electro-Luminescence)ディスプレイである。出力部106は、サーバ装置10の動作によって得られる情報を出力する。
サーバ装置10の機能は、制御プログラムを、制御部103に含まれるプロセッサが実行することにより実現される。制御プログラムは、コンピュータをサーバ装置10として機能させるためのプログラムである。また、サーバ装置10の一部又は全ての機能が、制御部103に含まれる専用回路により実現されてもよい。また、制御プログラムは、サーバ装置10に読取り可能な非一過性の記録・記憶媒体に格納され、サーバ装置10が媒体から読み取ってもよい。
端末装置12は、通信部111、記憶部112、制御部113、入出力部115、及び撮像部117を有する。
通信部111は、有線又は無線LAN規格に対応する通信モジュール、LTE、4G、5G等の移動体通信規格に対応するモジュール等を有する。端末装置12は、通信部111により、近傍のルータ装置又は移動体通信の基地局を介してネットワーク11に接続され、ネットワーク11経由でサーバ装置10等と情報通信を行う。
記憶部112は一以上の半導体メモリ、一以上の磁気メモリ、一以上の光メモリ、又はこれらのうち少なくとも2種類の組み合わせを含む。半導体メモリは、例えば、RAM又はROMである。RAMは、例えば、SRAM又はDRAMである。ROMは、例えば、EEPROMである。記憶部112は、例えば、主記憶装置、補助記憶装置、又はキャッシュメモリとして機能する。記憶部112は、制御部113の動作に用いられる情報と、制御部113の動作によって得られた情報とを格納する。
制御部113は、例えば、CPU、MPU(Micro Processing Unit)等の一以上の汎用プロセッサ、又は特定の処理に特化したGPU等の一以上の専用プロセッサを有する。あるいは、制御部113は、一以上の、FPGA、ASIC等の専用回路を有してもよい。制御部113は、制御・処理プログラムに従って動作したり、あるいは、回路として実装された動作手順に従って動作したりすることで、端末装置12の動作を統括的に制御する。そして、制御部113は、通信部111を介してサーバ装置10等と各種情報を送受し、本実施形態にかかる動作を実行する。
制御部113の機能は、制御部113に含まれるプロセッサが制御プログラムを実行することにより実現される。制御プログラムは、プロセッサを制御部113として機能させるためのプログラムである。また、制御部113の一部又は全ての機能が、制御部113に含まれる専用回路により実現されてもよい。また、制御プログラムは、端末装置12に読取り可能な非一過性の記録・記憶媒体に格納され、端末装置12が媒体から読み取ってもよい。
入出力部115は、透過型タッチパネル、ディスプレイ及び一以上の入力用及び出力用インタフェースを含む。入出力部115は、透過型タッチパネルに対する指、ポインティングデバイス等の接触位置の変位に基づき、描画画像の入力を検出し、検出した情報を制御部113へ送る。また、透過型タッチパネルは、透過型ディスプレイを含んで構成され、制御部113から送られる画像、ポインティングデバイス等の接触に対応する画像等の情報を表示する。ディスプレイは、例えば、LCD又は有機ELディスプレイであり、制御部113から送られる画像等の情報を表示する。入力用インタフェースは、例えば、物理キー、静電容量キー、ポインティングデバイスを含む。また、入力用インタフェースは、音声入力を受け付けるマイクロフォンを含む。さらに、入力用インタフェースは、画像コードをスキャンするスキャナ又はカメラ、ICカードリーダを含んでもよい。出力用インタフェースは、例えば、スピーカを含む。入出力部115は、制御部113の動作に用いられる情報を入力する操作を受け付け、入力される情報を制御部113に送り、また、制御部113の動作によって得られる情報を出力する。
撮像部117は、可視光による被写体の撮像画像を撮像するカメラと、被写体までの距離を測定して距離画像を取得する測距センサとを含む。カメラは、例えば毎秒15~30フレームで被写体を撮像して連続した撮像画像からなる動画像を生成する。測距センサは、ToF(Time Of Flight)カメラ、LiDAR(Light Detection And Ranging)、ステレオカメラを含み、距離情報を含んだ被写体の距離画像を生成する。撮像部117は、撮像画像と距離画像とを制御部113へ送る。
図2は、入出力部115の透過型タッチパネル、ディスプレイ、及び撮像部117のカメラの配置の例を示す。透過型タッチパネル21は、ディスプレイ22とユーザ23の間に位置する。ユーザ23は、ディスプレイ22に表示される他ユーザのモデル画像を、透過型タッチパネル21を介して見ることができるとともに、透過型タッチパネル21に描画具24により画像を描画する。ディスプレイ22をユーザ23から透過型タッチパネル21越しに設け、そこに他ユーザのモデル画像を表示することで、あたかも他ユーザと透過型タッチパネル21を介して描画を行いつつコミュニケーションを行うといった、ユーザ体験のリアリティを向上させることが可能となる。かかる構成により、例えば、透過型タッチパネル21に他ユーザのモデル画像を表示する場合と較べ、奥行きを伴ったリアリティを生起させることが可能となる。カメラ20は、ディスプレイ22の付近、例えば上方に設けられる。カメラ20をディスプレイ22に重畳する位置に設けると、ディスプレイ22に表示される画像をカメラ20が遮ったり、透過型タッチパネル21に描画される描画画像がカメラ20によるユーザ23の撮像を遮ったりするおそれがある。その点、カメラ20をディスプレイ22の上方に設けることで、画像の表示又は撮像が遮られることなく、ユーザ23を透過型タッチパネル21越しに撮像することが可能となる。
上述のように構成される端末装置12において、制御部113は、ユーザ23の撮像画像と距離画像を撮像部117により取得する。また、制御部113は、ユーザ23の発話音声を入出力部115のマイクロフォンで集音する。さらに、制御部113は、入出力部115の透過型タッチパネル21にユーザ23が描画する描画画像の情報を入出力部115から取得する。制御部113は、ユーザ23のモデル画像を生成するためのユーザ23の撮像画像と距離画像、ユーザ23が描画した描画画像、及びユーザ23の音声を再生するための音声情報を符号化して符号化情報を生成する。モデル画像は、例えば3Dモデル、2Dモデル等であるが、以下では3Dモデルを例とする。制御部113は、符号化に際して、撮像画像等に対して任意の加工処理(例えば解像度変更、トリミング)を行ってもよい。ここで、カメラ20がディスプレイ22の上方に位置することに起因して、カメラ20の画角の範囲26に描画具24を保持するユーザ23の手元25が入らない場合がある。よって、制御部113は、3Dモデルから手元25を省略する。また、制御部113は、ユーザ23の撮像画像に基づき、ユーザ23に対する描画画像の位置を導出する。例えば、カメラ20と透過型タッチパネル21との位置関係、カメラ20に対するユーザ23の位置関係、及び透過型タッチパネル21における描画画像の位置に基づいて、ユーザ23に対する描画画像の位置が導出される。そして、制御部113は、導出した位置に対応するように、ユーザ23の3Dモデルに対し描画画像を表示する位置を決定する。かかる位置の情報も、符号化情報に含まれる。制御部113は、符号化情報を通信部111によりサーバ装置10を介して他の端末装置12へ送る。
また、制御部113は、他の端末装置12からサーバ装置10を介して送られる符号化情報を、通信部111により受ける。制御部113は、他の端末装置12から受けた符号化情報を復号すると、復号された情報を用いて、他の端末装置12を用いる他ユーザを表す3Dモデルを生成する。3Dモデル生成に際し、制御部113は、他ユーザの距離画像を用いてポリゴンモデルを生成し、他ユーザの撮像画像を用いたテクスチャマッピングをポリゴンモデルに施すことにより、他ユーザの3Dモデルを生成する。ただし、3Dモデルの生成には、ここに示す例に限られず任意の手法が採用可能である。制御部113は、3Dモデルを含んだ仮想空間を仮想の視点から見たレンダリング画像を生成する。仮想の視点は、例えば、ユーザ23の目の位置である。制御部113は、ユーザ23の撮像画像から、任意の基準に対する目の空間座標を導出し、仮想空間内の空間座標に対応付ける。任意の基準は、例えばカメラ20の位置である。他ユーザの3Dモデルは、仮想の視点に対し例えばアイコンタクトを取りうる位置、角度に配置される。このとき、他ユーザの手元25のモデルが省略されている。制御部113は、レンダリング画像をディスプレイ22に表示させるとともに、描画具を保持する手の手元画像と描画画像とを透過型タッチパネル21に表示させる。手元画像は、描画具の画像を含んだ描画具を保持する手元の画像であって、予め記憶部112に格納されている。制御部113は、表示・出力部116により、表示用画像を表示するとともに他ユーザの音声情報に基づく他ユーザの発話音声を出力する。
図3Aは、他ユーザの3Dモデルが表示される例を示す。透過型タッチパネル21の後方に位置するディスプレイ22に、他ユーザの3Dモデル30が表示される。一方、透過型タッチパネル21には、手元画像33と描画画像32が表示される。図3Bに拡大して示すように、手元画像33は、描画具と描画具を保持した手首から先の部分を、描画具の先端側又は手の平側から観察した態様を示す画像である。手元画像33と描画画像32が手前の透過型タッチパネル21に表示されることで、他ユーザの3Dモデル30に、更なる立体感が付与される。よって、表示される3Dモデルのリアリティ向上が可能となる。
図4は、通話システム1の動作手順を説明するためのシーケンス図である。このシーケンス図は、サーバ装置10及び複数の端末装置12(それぞれを区別する際は、便宜上、端末装置12A及び12Bという)の連係動作にかかる手順を示す。この手順は、端末装置12Aが端末装置12Bを呼び出すときの手順である。複数の端末装置12Bが呼び出される場合には、ここに示す端末装置12Bに係る動作手順は複数の端末装置12Bのそれぞれにより、又は複数の端末装置12Bのそれぞれとサーバ装置10とにより、実行される。
図4におけるサーバ装置10及び端末装置12の各種情報処理に係るステップは、それぞれの制御部103及び113により実行される。また、サーバ装置10及び端末装置12の各種情報の送受に係るステップは、それぞれの制御部103及び113が、それぞれ通信部101、及び111を介して互いに情報を送受することにより実行される。サーバ装置10及び端末装置12では、それぞれ制御部103及び113が、それぞれ送受する情報を記憶部102及び112及びに適宜格納する。さらに、端末装置12の制御部113は、入出力部115により各種情報の入力を受け付け、表示・出力部116により各種情報を出力する。
ステップS400において、端末装置12Aはそのユーザからの設定情報の入力を受け付ける。設定情報は、通話のスケジュール、通話相手のリスト等を含む。リストは、通話相手のユーザ名と各ユーザのメールアドレスとを含む。そして、ステップS401において、端末装置12Aは、設定情報をサーバ装置10へ送る。サーバ装置10は、端末装置12Aから送られる情報を受ける。例えば、端末装置12Aは、サーバ装置10から設定情報の入力画面を取得し、入力画面をユーザに表示する。そして、ユーザが入力画面に設定情報を入力することで、設定情報がサーバ装置10へ送られる。
ステップS402において、サーバ装置10は、設定情報に基づいて、通話相手を特定する。制御部103は、設定情報と通話相手の情報とを対応付けて記憶部102に格納する。
ステップS403において、サーバ装置10は、端末装置12Bへ認証情報を送る。認証情報は、端末装置12Bを用いる通話相手を特定して認証するためのID、パスコード等の情報である。これらの情報は、例えば、電子メールに添付されて送られる。端末装置12Bは、サーバ装置10から送られる情報を受ける。
ステップS405において、端末装置12Bは、サーバ装置10から受けた認証情報と認証申請の情報を、サーバ装置10へ送る。通話相手は、端末装置12Bを操作して、サーバ装置10から送られた認証情報を用いて、認証を申請する。例えば、端末装置12Bは、サーバ装置10が提供する通話のためのサイトにアクセスして、認証情報と認証申請のための情報の入力画面を取得し、入力画面を通話相手に表示する。そして、端末装置12Bは、通話相手が入力する情報を受け付けてサーバ装置10へ送る。
ステップS406において、サーバ装置10は、通話相手の認証を行う。記憶部102には、端末装置12Bの識別情報と通話相手の識別情報が対応付けて格納される。
ステップS408及びS409において、サーバ装置10は、それぞれ端末装置12A及び12Bへ、通話の開始通知を送る。端末装置12A及び12Bはそれぞれサーバ装置10から送られる情報を受けると、それぞれユーザの撮像と発話音声の集音を開始する。
ステップS410において、サーバ装置10を介して端末装置12A及び12Bによりユーザ間の通話を含む仮想対面コミュニケーションが実行される。端末装置12A及び12Bは、それぞれのユーザを表す3Dモデルを表示するための情報、描画画像、及び発話音声の情報を、サーバ装置10を介して互いに送受する。また、端末装置12A及び12Bは、それぞれのユーザに、他のユーザを表す3Dモデルを含む画像と他ユーザの発話音声とを出力する。
図5A、5Bは、仮想対面コミュニケーションの実行に係る端末装置12の動作手順を説明するフローチャート図である。ここに示す手順は、端末装置12A及び12Bに共通の手順であり、端末装置12A及び12Bを区別せずに説明する。
図5Aは、各端末装置12が、その端末装置12を用いる自ユーザの3Dモデルを表示するための情報を送出するときの、制御部113の動作手順に関する。
ステップS502において、制御部113は、可視光画像、距離画像の取得、描画画像の取得、及び音声の集音を行う。制御部113は、撮像部117により、任意に設定されるフレームレートでの自ユーザの可視光画像の撮像及び距離画像の取得を行う。また、制御部113は、入出力部115により、描画画像を取得する。さらに、制御部113は、入出力部115により自ユーザの発話の音声を集音する。
ステップS503において、制御部113は、手元画像を決定する。制御部113は、撮像画像に対しパターンマッチングを含む任意の画像処理を行い、自ユーザの属性を推定する。属性は、利き手、性別、年齢等である。利き手は、すなわち、描画具を持つ手の左右の区別である。記憶部112には、予め、左手及び右手の手元画像が格納される。手元画像は、性別毎又は年齢層毎の手元画像を含む。かかる手元画像は、性別又は年齢層が異なるモデルの手の画像に基づき予め作成される。制御部113は、推定した属性に対応する手元画像を選択し決定する。あるいは、制御部113は、過去の撮像画像から、手元画像を抽出してもよい。自ユーザの描画動作において、カメラ20の画角の範囲に描画具とそれを保持する手の部分が含まれることで、撮像画像に描画具を保持する手の画像が含まれる場合がある。かかる撮像画像を制御部113は検出し、撮像画像から手元画像を抽出してもよい。
ステップS504において、制御部113は、撮像画像、距離画像、手元画像、描画画像及び音声情報を符号化し、符号化情報を生成する。
ステップS506において、制御部113は、通信部111により符号化情報をパケット化し、他の端末装置12に向けてサーバ装置10へ送出する。
制御部113は、撮像、集音を中断するための、又は仮想対面コミュニケーションを退出するための、自ユーザによる操作に対応して入力される情報を取得すると(S508のYes)、図5Aの処理手順を終了し、中断又は退出のための操作に対応する情報を取得しない間は(S508のNo)ステップS502~S506を実行して、自ユーザを表す3Dモデルを表示するための情報、描画画像、及び音声を出力するための情報を他の端末装置12に向けてサーバ装置へ送出する。なお、ステップS503における手元画像の決定は、ステップS502~S506の処理サイクル毎に実行されてもよいし、数サイクル毎等、任意のタイミングで実行されてもよい。
図5Bは、端末装置12が他ユーザの3Dモデルの画像、手元画像、描画画像、及び音声を出力するときの、制御部113の動作手順に関する。制御部113は、他の端末装置12が図5Aの手順を実行することで送出するパケットを、サーバ装置10を介して受けると、ステップS510~S513を実行する。
ステップS510において、制御部113は、他の端末装置12から受けたパケットに含まれる符号化情報を復号して撮像画像、距離画像、手元画像、描画画像及び音声情報を取得する。
ステップS511において、制御部113は、他ユーザの3Dモデルを表示するときの手元画像を設定する。制御部113は、他の端末装置12から送られた手元画像を表示するための画像として設定する。
ステップS512において、制御部113は、撮像画像及び距離画像に基づいて、他の端末装置12の自ユーザを表す3Dモデルを生成する。複数の他の端末装置12から情報を受ける場合、制御部113は、他の端末装置12それぞれについてステップS510~S512を実行し、各自ユーザの3Dモデルを生成する。
ステップS513において、制御部113は、仮想空間に他ユーザを表す3Dモデルを配置する。記憶部112には、予め、仮想空間の座標情報と、他ユーザ毎の、例えば認証された順番に応じて3Dモデルを配置すべき座標の情報が格納される。制御部113は、仮想空間内の座標に、生成した3Dモデルを配置する。
ステップS514において、制御部113は、表示用画像を生成する。制御部113は、仮想空間に配置した3Dモデルを仮想の視点から撮像したレンダリング画像を生成する。
ステップS516において、制御部113は、入出力部115により表示用画像、手元画像、及び描画画像を表示するとともに音声を出力する。制御部113は、表示用画像をディスプレイ22に、手元画像と描画画像とを透過型タッチパネル21に表示する。この時制御部は、表示用画像に含まれる3Dモデルの手元の位置に、手元画像の表示位置を対応させる。また、制御部113は、手元画像の角度を、3Dモデルの前腕部の角度に合致させるように回転させる。例えば、図6Aに示すように、制御部113は、手元画像33の水平方向に対する傾きの角度θを、3Dモデルの前腕部60の水平方向に対する角度θと一致させる。また、図6Bに示すように、他ユーザの動作に伴い前腕部60の傾きの角度θが異なる角度θ´に変化した場合には、制御部113は、手元画像33の水平方向に対する傾きが角度θ´になるように手元画像33を回転させる。そうすることで、自ユーザがより自然な3Dモデルと手元画像とを視認することが可能となる。
制御部113がステップS510~S516を繰り返し実行することで、自ユーザは、他ユーザの3Dモデルと、その3Dモデルが描画する描画画像を含んだ動画を見ながら、他ユーザの発話の音声を聞くことができる。なお、ステップS511における手元画像の設定は、ステップS510~S516の処理サイクル毎に実行されてもよいし、数サイクル毎等、任意のタイミングで実行されてもよい。
変形例においては、図5AのステップS503で手元画像が決定される代わりに、図5BのステップS511において手元画像が決定されて設定される。例えば、制御部113は、他の端末装置12においてステップS503で推定された他ユーザの属性を取得し、ステップS512において、他ユーザの属性に合致する手元画像を記憶部112に予め格納される手元画像のなかから抽出することで手元画像を決定する。そして、制御部113は、決定した手元画像を設定することが可能である。
上述のように、本実施形態によれば、透過型タッチパネルを用いたコミュニケーションにおけるリアリティの向上が可能になる。
上述の例では、端末装置12が他の端末装置12から他ユーザの3Dモデルを生成するための情報、すなわち、撮像画像、距離画像等を受けてから、3Dモデルを生成して仮想空間に3Dモデルを配置したレンダリング画像を生成した。しかしながら、3Dモデルの生成、レンダリング画像の生成等の処理は、適宜、端末装置12間で分散してもよい。例えば、他の端末装置12にて撮像画像等に基づき他ユーザの3Dモデルが生成され、3Dモデルの情報を受けた端末装置12が、その3Dモデルを用いてレンダリング画像を生成してもよい。
上述の例では、モデル画像が3Dモデルである場合について説明した。しかしながら、モデル画像は2Dモデルであってもよい。ディスプレイに他ユーザの2Dモデルが表示され、その手前の透過型タッチパネルに他ユーザの手元画像が表示されるという立体的な構造により、比較的簡易な構成で奥行きの表現が可能となる。
上述において、実施形態を諸図面及び実施例に基づき説明してきたが、当業者であれば本開示に基づき種々の変形及び修正を行うことが容易であることに注意されたい。従って、これらの変形及び修正は本開示の範囲に含まれることに留意されたい。例えば、各手段、各ステップ等に含まれる機能等は論理的に矛盾しないように再配置可能であり、複数の手段、ステップ等を1つに組み合わせたり、或いは分割したりすることが可能である。
1 通話システム
10 サーバ装置
11 ネットワーク
12 端末装置
101、111 通信部
102、112 記憶部
103、113 制御部
105 入力部
106 出力部
115 入出力部
117 撮像部

Claims (5)

  1. 通信部と、
    画像を表示するとともに描画を受け付ける透過パネルと、
    前記透過パネルに重畳する表示部と、
    前記表示部付近に配置されユーザを撮像する撮像部と、
    前記通信部により通信を行う制御部とを有する端末装置において、
    前記制御部は、他の端末装置を用いる他のユーザの撮像画像に基づき当該他のユーザを表すモデル画像を表示するための情報と、当該他のユーザが当該他の端末装置の透過パネルに描画具により描画する描画画像の情報とを当該他の端末装置から受け、前記モデル画像を当該端末装置の前記表示部に、前記他のユーザの前記描画具を保持する手の手元画像と前記描画画像とを当該端末装置の前記透過パネルに表示させる、
    端末装置。
  2. 請求項1において、
    前記制御部は、前記手元画像を前記モデル画像の腕の角度に対応させる、
    端末装置。
  3. 請求項1において、
    前記制御部は、前記モデル画像における前記他のユーザの利き手に対応する前記手元画像を用いる、
    端末装置。
  4. 請求項1において、
    前記制御部は、前記モデル画像における前記他のユーザの属性に対応する前記手元画像を用いる、
    端末装置。
  5. 請求項1において、
    前記制御部は、前記撮像画像から抽出される前記手元画像を前記他の端末装置から受け、当該手元画像を用いる、
    端末装置。
JP2022162659A 2022-10-07 2022-10-07 端末装置 Pending JP2024055596A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2022162659A JP2024055596A (ja) 2022-10-07 2022-10-07 端末装置
CN202311282336.7A CN117857770A (zh) 2022-10-07 2023-09-28 终端装置
US18/481,233 US20240121359A1 (en) 2022-10-07 2023-10-05 Terminal apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022162659A JP2024055596A (ja) 2022-10-07 2022-10-07 端末装置

Publications (1)

Publication Number Publication Date
JP2024055596A true JP2024055596A (ja) 2024-04-18

Family

ID=90529383

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022162659A Pending JP2024055596A (ja) 2022-10-07 2022-10-07 端末装置

Country Status (3)

Country Link
US (1) US20240121359A1 (ja)
JP (1) JP2024055596A (ja)
CN (1) CN117857770A (ja)

Also Published As

Publication number Publication date
CN117857770A (zh) 2024-04-09
US20240121359A1 (en) 2024-04-11

Similar Documents

Publication Publication Date Title
WO2020203999A1 (ja) コミュニケーション支援システム、コミュニケーション支援方法、および画像制御プログラム
WO2018153267A1 (zh) 群组视频会话的方法及网络设备
US20190082211A1 (en) Producing realistic body movement using body Images
WO2018219120A1 (zh) 图像显示方法、图像处理方法、装置、终端及服务器
WO2019034142A1 (zh) 三维虚拟形象的显示方法、装置、终端及存储介质
KR102148151B1 (ko) 디지털 커뮤니케이션 네트워크에 기반한 지능형 채팅
JP2012070081A (ja) 画像表示装置、画像表示プログラム及び画像表示システム
CN111459432B (zh) 虚拟内容的显示方法、装置、电子设备及存储介质
JP2024055596A (ja) 端末装置
CN111626258B (zh) 一种签到信息展示方法、装置、计算机设备及存储介质
US20240127769A1 (en) Terminal apparatus
JP2024055599A (ja) 端末装置
US20240129439A1 (en) Terminal apparatus
US20230386096A1 (en) Server apparatus, system, and operating method of system
US20230247383A1 (en) Information processing apparatus, operating method of information processing apparatus, and non-transitory computer readable medium
US20230196680A1 (en) Terminal apparatus, medium, and method of operating terminal apparatus
US20230316612A1 (en) Terminal apparatus, operating method of terminal apparatus, and non-transitory computer readable medium
US20230196703A1 (en) Terminal apparatus, method of operating terminal apparatus, and system
US20240135649A1 (en) System and method for auto-generating and sharing customized virtual environments
US20230186581A1 (en) Terminal apparatus, method of operating terminal apparatus, and system
US20240202944A1 (en) Aligning scanned environments for multi-user communication sessions
CN114004922B (zh) 骨骼动画显示方法、装置、设备、介质及计算机程序产品
JP2024044908A (ja) 方法、プログラム、及び端末装置
US20230247127A1 (en) Call system, terminal apparatus, and operating method of call system
CN117999115A (zh) 为多用户通信会话对准扫描环境

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240311