JP2022064301A - コミュニケーションシステム、表示装置、表示制御方法、および表示制御プログラム - Google Patents

コミュニケーションシステム、表示装置、表示制御方法、および表示制御プログラム Download PDF

Info

Publication number
JP2022064301A
JP2022064301A JP2021163685A JP2021163685A JP2022064301A JP 2022064301 A JP2022064301 A JP 2022064301A JP 2021163685 A JP2021163685 A JP 2021163685A JP 2021163685 A JP2021163685 A JP 2021163685A JP 2022064301 A JP2022064301 A JP 2022064301A
Authority
JP
Japan
Prior art keywords
image
information
data
dimensional
communication system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021163685A
Other languages
English (en)
Inventor
悠貴 堀
Yuki Hori
恵里 渡辺
Eri Watanabe
拓郎 安田
Takuo Yasuda
健太郎 萩田
Kentaro Hagita
拓朗 内藤
Takuro Naito
宏昌 田中
Hiromasa Tanaka
輝憲 小山
Terunori Koyama
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to US17/499,935 priority Critical patent/US11978252B2/en
Publication of JP2022064301A publication Critical patent/JP2022064301A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)

Abstract

【課題】情報伝達の進行に伴って、情報伝達に関連する適切な視覚情報を提示できるコミュニケーションシステム、表示装置、表示制御方法、および表示制御プログラムを提供する。【解決手段】言語情報の入力を受け付ける言語情報入力手段と、入力された言語情報を認識する認識手段と、前記認識手段による認識結果に基づき、前記入力された言語情報に対応する画像を、画像を表示する表示手段に表示する画像表示手段と、を備える。【選択図】図18

Description

本発明は、コミュニケーションシステム、表示装置、表示制御方法、および表示制御プログラムに関する。
コミュニケーションの場面では、短い時間で効率的な情報伝達を行うために、言語情報によるコミュニケーションだけでは不十分であることがある。例えば、新しい企画やアイデアを考える際に行われる会議では、意思疎通のために視覚情報の活用が有効である。
特許文献1には、グラフィックレコーディングシステムの議事録編集画面において、イラスト検索結果表示領域に表示されたイラストが選択され、選択されたイラストが議事録に貼り付けられて、イラストを交えた議事録が作成される。イラストを交えた議事録を眺めることで会議の振り返りを効率的に行うことができることが記載されている。
特許文献1に記載の技術では、選択されたテキストについてイラストが検索され、そのテキストのイラスト検索結果表示領域に表示された複数のイラストが表示される。
本発明は、上記に鑑みてなされたものであって、音声やテキスト入力等による情報伝達の進行に伴って、情報伝達に関連する適切な視覚情報を提示できるコミュニケーションシステム、表示装置、表示制御方法、および表示制御プログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明の1つの側面にかかるコミュニケーションシステムは、言語情報の入力を受け付ける言語情報入力手段と、入力された言語情報を認識する認識手段と、前記認識手段による認識結果に基づき、前記入力された言語情報に対応する画像を、画像を表示する表示手段に表示する画像表示手段と、を備える。
本発明によれば、音声やテキスト入力等による情報伝達の進行に伴って、情報伝達に関連する適切な視覚情報を提示できるという効果を奏する。
図1は、実施形態にかかるビジュアルコミュニケーションシステムのシステム構成を示すシステム構成図である。 図2は、実施形態にかかるビジュアルコミュニケーションシステムの機能構成を示すブロック図である。 図3は、実施形態にかかるビジュアルコミュニケーションシステムに適用されるコンピュータのハードウェア構成を示す図である。 図4は、実施形態における言語情報入力部の構成を示す図である。 図5は、実施形態における画面表示制御部の構成を示す図である。 図6は、実施形態における画像データの変換を示すデータフロー図である。 図7は、実施形態におけるイラスト情報蓄積部に蓄積されるイラスト情報のデータ構造を示す図である。 図8は、実施形態におけるサムネイル情報蓄積部に蓄積されるサムネイル情報のデータ構造を示す図である。 図9は、実施形態における画面表示制御部の構成の変形例を示す図である。 図10は、サムネイル情報蓄積部に蓄積されるサムネイル情報のデータ構造を示す図である。 図11は、実施形態における優先画像提示部の機能ブロック図である。 図12は、実施形態における描画操作部の構成を示す図である。 図13は、実施形態にかかるビジュアルコミュニケーションシステムの動作を示すフローチャートである。 図14は、実施形態における登録処理の流れを示すフローチャートである。 図15は、実施形態におけるコミュニケーション支援処理の流れを示すフローチャートである。 図16は、実施形態におけるコミュニケーション支援処理の流れを示すフローチャートである。 図17は、実施形態におけるビジュアルコミュニケーションシステムによる表示画面の構成を示す図である。 図18は、実施形態におけるビジュアルコミュニケーションシステムによる表示画面の概略動作を示す図である。 図19は、実施形態における2段階の編集処理の流れを示す図である。 図20は、実施形態におけるビジュアルコミュニケーションシステムによる表示画面の詳細動作を示す図である。 図21は、実施形態におけるビジュアルコミュニケーションシステムによる表示画面の詳細動作を示す図である。 図22は、実施形態におけるビジュアルコミュニケーションシステムによる表示画面の詳細動作を示す図である。 図23は、実施形態におけるビジュアルコミュニケーションシステムによる表示画面の詳細動作を示す図である。 図24-1は、実施形態におけるビジュアルコミュニケーションシステムによる表示画面の詳細動作を示す図である。 図24-2は、実施形態におけるビジュアルコミュニケーションシステムによる表示画面の詳細動作を示す図である。 図24-3は、実施形態におけるビジュアルコミュニケーションシステムによる表示画面の詳細動作を示す図である。 図25は、実施形態におけるビジュアルコミュニケーションシステムによる表示画面の詳細動作を示す図である。 図26は、実施形態におけるビジュアルコミュニケーションシステムによる表示画面の詳細動作を示す図である。 図27は、実施形態におけるビジュアルコミュニケーションシステムによる表示画面の詳細動作を示す図である。 図28は、実施形態の変形例にかかるオンライン会議システムのシステム構成を示すシステム構成図である。 図29は、実施形態の変形例にかかるオンライン会議システムの機能構成を示すブロック図である。 図30は、オンライン会議システムをテレプレゼンスロボットに適用した利用シーンの一例を示す図である。 図31は、実施形態の変形例におけるクライアント端末のカメラによって撮像されたカメラ画像を示す図である。 図32は、実施形態の変形例における描画情報生成部が図31のカメラ画像に重畳する画像を示す図である。 図33は、実施形態の変形例における他のクライアント端末で表示される画像を示す図である。 図34は、実施形態の変形例における描画結果表示部がジェスチャーの画像を示す図である。
(実施形態)
実施形態にかかるビジュアルコミュニケーションシステムは、コミュニケーションを支援する機能を有する。コミュニケーションの場面では、短い時間で効率的な情報伝達を行うために、言語情報によるコミュニケーションだけでは不十分であることがある。例えば、新しい企画やアイデアを考える際に行われる会議では、意思疎通のために視覚情報の活用が有効である。視覚情報化の手段として手でアイデアの絵をスケッチすることが考えられるが、頭の中の情景そのものを0から視覚情報化することが容易でないことがある。そのため、誰でも扱いが簡単な言語情報を基に視覚情報に変換する第1の技術が考えられる。
しかし、言語情報を基に視覚情報に変換する第1の技術では、言語情報の選択操作をトリガーとして、予め用意されたイラストが検索されるにすぎない。第1の技術では、頭の中に存在する伝えたい情景と一致する向きや組み合わせのイラストが存在せず適切に情報伝達ができない場合が多い。予め用意されたイラストの数を増加させていけば、頭の中の情景と一致するイラストが存在する確率は高まっていくが、イラストの数の増加に伴って、選択するための時間が長時間化してしまう。また、複数の言語情報が選択されると、複数の言語情報のそれぞれについてイラストが検索され、複数の言語情報のそれぞれについてイラストが表示されると考えられる。このため、第1の技術をリアルタイムのコミュニケーションの場面に適用した場合に、現在発話又は入力されている言語情報以外の言語情報についてもイラストが表示されてしまい、イラストの選択に時間がかかりやすい。すなわち、第1の技術では、会議などのコミュニケーションの場で高速に情報伝達ができない可能性がある。
そこで、本実施形態では、ビジュアルコミュニケーションシステムにおいて、言語情報に対応するイラストの候補となる1以上のサムネイル画像をその言語情報の変化に応じて高速に切り替え表示させることで、現在の言語情報に対応したイラストの迅速な選択を可能とし、コミュニケーションの場面における高速な情報伝達の支援を図る。
具体的には、ビジュアルコミュニケーションシステムは、言語情報を基に思い通りに編集可能な視覚情報に変換し、会議などのコミュニケーションの場で頭の中の情景の短時間での正確な意思疎通を可能にする。ビジュアルコミュニケーションシステムは、コミュニケーションの場における発話や文字入力などの言語情報をリアルタイムで解析し、解析すると同時に言語情報に関連するイラストの候補として1以上のサムネイル画像を特定エリアに表示する。ビジュアルコミュニケーションシステムは、言語情報とサムネイル画像とが対応付けられた第1の対応情報を有しており、言語情報を受け付けると、第1の対応情報におけるその言語情報に対応する1以上のサムネイル画像を特定して表示する。また、ビジュアルコミュニケーションシステムは、サムネイル画像とイラストとが対応付けられた第2の対応情報を有している。イラストが3次元画像である場合に、サムネイル画像を2次元画像とすることで、ビジュアルコミュニケーションシステムは、イラストを表示する場合に比べて、サムネイル画像を高速に表示できる。ユーザからの言語情報が受け付けられるたびに、表示画面上のサムネイル画像が新しく切り替わって高速に更新表示され得る。これにより、ユーザが会話等による情報伝達を止めずにその中から、発話又は文字入力された際の頭の中の情景に近い1以上のサムネイル画像を選択できる。第2の対応情報に応じて、選択されたサムネイル画像に紐づけられた3次元イラストデータが検索され、特定された3次元イラストデータが表示される。これにより、3次元イラストデータに対して3次元的な編集処理(3次元的な移動、拡縮、回転)を行うことができる。その後に、ビジュアルコミュニケーションシステムは、3次元的な編集処理が可能な3次元イラストデータを2次元的な編集処理が可能な2次元イラストデータに変換(固定化)する。これに応じて、2次元イラストデータに対して、2次元的な編集処理(一部を自由に消したり上から付け加えたり色を塗ったりすること)が可能である。この言語情報の自動認識をトリガーとするサムネイル画像の高速な切り替え表示及びそれに応じた2段階の編集処理により、リアルタイムのコミュニケーションの場で、頭の中の情景を短時間で正確に表現でき、迅速かつ正確な意思疎通が可能となる。
より具体的には、ビジュアルコミュニケーションシステム4は、図1に示すように構成され得る。図1は、ビジュアルコミュニケーションシステム4のシステム構成を示すシステム構成図である。
ビジュアルコミュニケーションシステム4は、クライアント端末1、サーバ2、及び接続部3を有する。接続部3は、クライアント端末1及びサーバ2を互いに通信可能に接続する。
図2は、ビジュアルコミュニケーションシステム4の機能構成を示すブロック図である。クライアント端末1は、言語情報入力部100、画面表示制御部200、描画操作部300を有する。サーバ2は、描画情報生成部400及び記憶部500を有する。記憶部500は、プログラム500aを格納する。
ビジュアルコミュニケーションシステム4は、ユーザからの起動要求をクライアント端末1で受け付けると、起動要求がクライアント端末1からサーバ2へ送信され、サーバ2で起動要求に応じてプログラム500aが記憶部500から読み出される。ビジュアルコミュニケーションシステム4は、プログラム500aに従い、例えば図2に例示するように、クライアント端末1内に言語情報入力部100、画面表示制御部200、描画操作部300を機能的に構成し、サーバ2内に描画情報生成部400を機能的に構成する。
なお、ビジュアルコミュニケーションシステム4は、クライアント端末1内の画面表示制御部200と描画操作部300とをサーバ2または別のサーバ内に構成してもよい。あるいは、ビジュアルコミュニケーションシステム4は、言語情報入力部100、画面表示制御部200、描画操作部300、描画情報生成部400を含むすべての機能構成をクライアント端末1内で完結するように構成しても良い。あるいは、ビジュアルコミュニケーションシステム4は、画面表示制御部200に含まれる複数の要素の一部(例えば、ユーザインタフェース及びそれに近い部分)をクライアント端末1内に構成し、残りの部分をサーバ2または別のサーバ内に構成してもよい。同様に、ビジュアルコミュニケーションシステム4は、描画操作部300に含まれる複数の要素の一部(例えば、ユーザインタフェース及びそれに近い部分)をクライアント端末1内に構成し、残りの部分をサーバ2または別のサーバ内に構成してもよい。
接続部3は、有線通信回線及び/又は無線通信回線であってもよく、いわゆる通信ネットワークであってもよいし、通信ケーブル等であってもよい。接続部3は、インターネット、移動体通信網、LAN(Local Area Network)等のうち1つ以上を用いて構築されていてもよい。接続部3は、有線通信だけでなく、3G(3rd Generation)、4G(4th Generation)、5G(5th Generation)、Wi-Fi(Wireless Fidelity)(登録商標)、WiMAX(Worldwide Interoperability for Microwave Access)またはLTE(Long Term Evolution)等の無線通信によるネットワークが含まれてもよい。プログラム500aがクライアント端末1内に格納され各機能構成がクライアント端末1内で完結するように構成される場合、接続部3は省略されてもよい。
クライアント端末1において、言語情報入力手段としての言語情報入力部100は、ユーザによる言語情報の入力を受け付ける。画面表示制御部200は、ディスプレイ506(図3参照)に文字・イラスト等の画像を表示する。描画操作部300は、ユーザによる描画操作を受け付ける。ここで、描画とは、手書きだけでなく、ディスプレイ506への描画を目的としたディスプレイ506上での選択動作等も含まれる。クライアント端末1の描画操作部300は、サーバ2の描画情報生成部400へ描画操作要求を送信する。サーバ2の描画情報生成部400は、描画操作要求に応じて、表示画像の表示形態を変化させるように描画情報を更新してクライアント端末1へ送信する。クライアント端末1は、更新後の描画情報を受信し、その描画情報に応じた画像をディスプレイ506に表示する。これにより、ユーザによる描画操作の結果がクライアント端末1のディスプレイ506に表示される。
クライアント端末1、サーバ2は、それぞれ、図3に示すようなコンピュータ5でハードウェア的に構成されてもよい。図3は、ビジュアルコミュニケーションシステム4に適用されるコンピュータ5のハードウェア構成を示す図である。
コンピュータ5は、図3に示されているように、CPU501、ROM502、RAM503、HD504、HDD(Hard Disk Drive)コントローラ505、ディスプレイ506、外部機器接続I/F(Interface)508、ネットワークI/F509、バスライン510、キーボード511、ポインティングデバイス512、DVD-RW(Digital Versatile Disk Rewritable)ドライブ514、メディアI/F516、動作取得デバイス517、マイク518、スピーカ519、カメラ520を備えている。
これらのうち、CPU501は、コンピュータ5全体の動作を制御する。ROM502は、IPL等のCPU501の駆動に用いられるプログラムを記憶する。RAM503は、CPU501のワークエリアとして使用される。HD504は、プログラム500a等の各種データを記憶する。HDDコントローラ505は、CPU501の制御にしたがってHD504に対する各種データの読み出し又は書き込みを制御する。表示手段としてのディスプレイ506は、カーソル、メニュー、ウィンドウ、文字、又は画像などの各種情報を表示する。外部機器接続I/F508は、各種の外部機器を接続するためのインターフェースである。この場合の外部機器は、例えば、USB(Universal Serial Bus)メモリやプリンタ等である。ネットワークI/F509は、接続部3を利用してデータ通信をするためのインターフェースである。バスライン510は、図3に示されているCPU501等の各構成要素を電気的に接続するためのアドレスバスやデータバス等である。
また、キーボード511は、文字、数値、各種指示などの入力のための複数のキーを備えた入力手段の一種である。ポインティングデバイス512は、各種指示の選択や実行、処理対象の選択、カーソルの移動などを行う入力手段の一種である。DVD-RWドライブ514は、着脱可能な記録媒体の一例としてのDVD-RW513に対する各種データの読み出し又は書き込みを制御する。なお、DVD-RWに限らず、DVD-R等であってもよい。メディアI/F516は、フラッシュメモリ等の記録メディア515に対するデータの読み出し又は書き込み(記憶)を制御する。
動作取得デバイス517は、ユーザの動作を検出し、電気信号に変える回路で、入力手段の一種である。ユーザの動作の検出は、光の反射を検出する光学式、ユーザに取り付けられた磁器センサ、機械式センサ、磁気センサの検出結果を用いるもの、またはユーザの画像を解析する方式等いずれか、またはそれらを組み合わせてもよい。
マイク518は、音を電気信号に変える内蔵型の回路である。スピーカ519は、電気信号を物理振動に変えて音楽や音声などの音を生み出す内蔵型の回路である。
スピーカ519は、電気信号を物理振動に変えて音楽や音声などの音を生み出す内蔵型の回路である。
カメラ520は、被写体を撮像して画像データを得る内蔵型の撮像手段の一種である。
なお、サーバ2に適用されるコンピュータ5において、HD504は、記憶部500に対応し、プログラム500aを格納する。クライアント端末1に適用されるコンピュータ5において、サーバ2から接続部3経由でプログラム500aがダウンロードされHD504に格納され、CPU501によりプログラム500aがHD504から読み出され実行されることで、RAM503内に図2に示すような機能構成が、コンパイル時に一括して又は処理の進行に応じて順次に展開され得る。また、サーバ2に適用されるコンピュータ5において、プログラム500aがCPU501により実行されることで、RAM503内に図2に示すような機能構成が、コンパイル時に一括して又は処理の進行に応じて展開され得る。
また、サーバ2に適用されるコンピュータ5は、ユーザインタフェースに関する構成が省略されていてもよく、ディスプレイ506、キーボード511、及びポインティングデバイス512、動作取得デバイス517のうち少なくとも1つが省略されていてもよい。
また、クライアント端末1、サーバ2は、コンピュータ5以外にも、IWB(Interactive White Board:相互通信が可能な電子式の黒板機能を有する白板)、デジタルサイネージ等の出力装置、HUD(Head Up Display)装置、産業機械、医療機器、ネットワーク家電、自動車(Connected Car)、携帯電話、スマートフォン、タブレット端末、ゲーム機、PDA(Personal Digital Assistant)等であってもよい。
図2に示す言語情報入力部100は、機能的に、図4に示すように構成され得る。図4は、言語情報入力部100の構成を示す図である。
言語情報入力部100は、音声入力部101、文字入力部102、認識手段としての認識部103および認識結果記憶部105を備える。これら各部は、HD504からRAM503上に展開されたプログラムに従ったCPU501からの命令によって動作することで実現される機能または手段である。
音声入力部101は、マイク518によってユーザの音声が変換された音声信号、またはネットワークI/F509経由で受信された音声信号を言語情報として受け付ける。音声入力部101は、音声信号を認識部103へ供給する。
文字入力部102は、キーボード511、ポインティングデバイス512、動作取得デバイス517によってユーザから入力された文字信号、またはネットワークI/F経由で受信された文字信号を言語情報として受け付ける。文字入力部102は、文字信号を認識部103へ供給する。文字入力部102への文字の入力は、キーボード511へのタイピングまたは、ポインティングデバイス512や動作取得デバイス517による手書き入力を想定する。
認識部103は、音声入力部101又は文字入力部102から言語情報を受けると、言語情報に対して文字情報の認識を行う。認識部103は、認識結果を認識結果記憶部105に記憶する。
認識部103は、音声信号を音声入力部101から受けると、音声信号に対して音声認識処理を行い文字情報へ変換する。認識部103は、文字ごとにテンプレート音声信号を有する。認識部103は、音声信号に対してテンプレート音声信号を用いたマッチング処理を行い、そのマッチングスコアに基づいて音声ごとに文字を認識できる。これにより、認識部103は、音声信号に対する認識結果として文字情報を生成する。
認識部103は、文字信号を文字入力部102から受けると、文字信号に対する認識結果として文字情報を生成する。認識部103は、キーボード511へのタイピングによる文字情報を受けた場合、その文字情報を認識結果とする。認識部103は、ポインティングデバイス512や動作取得デバイス517による手書き文字画像を受けた場合、手書き文字画像に対してテキスト認識処理を行い文字情報へ変換する。認識部103は、文字ごとにテンプレート文字画像を有する。認識部103は、手書き文字画像に対してテンプレート文字画像を用いたマッチング処理を行い、そのマッチングスコアに基づいて手書き文字画像ごとに文字を認識できる。これにより、認識部103は、手書き文字画像に対する認識結果として文字情報を生成する。認識部103による認識はこれに限られず、例えば、入力された音声信号に含まれる特徴的な波形パターンを認識結果として生成する等してもよい。
認識部103は、認識結果記憶部105に記憶した認識結果を、画面表示制御部200に送信する。
図2に示す画面表示制御部200は、機能的に、図5に示すように構成され得る。図5は、画面表示制御部200の構成を示す図である。
画面表示制御部200は、第1の画像検索手段としてのサムネイル検索部202、第1の画像表示手段としてのサムネイル表示部203、サムネイル選択部204、第2の画像検索手段としてのイラスト検索部205、第2の画像表示手段としてのイラスト表示部206、優先画像提示手段である優先画像提示部220、サムネイル化部211、イラスト化部213、3次元モデル入力部214、キーワード化部215、及び登録文字入力部216を備える。優先画像提示部220は、文脈解析部207、優先度決定部208、及び選択傾向蓄積部209を備える。
これら各部は、HD504からRAM503上に展開されたプログラム500aに従ったCPU501からの命令によって動作することで実現される機能または手段である。
また、画面表示制御部200は、第1の記憶手段であるサムネイル情報蓄積部210、第2の記憶手段であるイラスト情報蓄積部212を備える。これら各部は、ROM502またはRAM503またはHD504によって構築される。
サムネイル情報蓄積部210及びイラスト情報蓄積部212へのデータ蓄積について図5及び図6を用いて説明する。図6は、画像データの変換を示すデータフロー図である。
3次元モデル入力部214は、3次元モデルデータが入力される。3次元モデルデータは、例えば図6(a)に示すようなポリゴンデータであり、複数の空間座標を含む。3次元モデルデータは、3次元画像データフォーマット(例えば、OBJフォーマット)に対応している。3次元モデル入力部214は、3次元モデルデータをイラスト化部213へ供給する。
イラスト化部213は、3次元モデルデータを3次元イラストデータに変換する。3次元イラストデータは、例えば図6(b)に示すような3次元的な線画データであり、複数の空間座標を含む。3次元イラストデータは、3次元画像データフォーマット(例えば、OBJフォーマット)に対応している。イラスト化部213は、3次元モデルデータで示される3次元形状のエッジの3次元位置を特定して線画でつなぎ合わせることなどにより、3次元モデルデータから線画の情報を抽出し、3次元イラストデータを生成する。イラスト化部213は、3次元イラストデータをイラスト情報蓄積部212に追加的に格納する。
これにより、イラスト情報蓄積部212には、図7に示すようなイラスト情報212aが蓄積される。図7は、イラスト情報蓄積部212に蓄積されるイラスト情報212aのデータ構造を示す図である。イラスト情報212aは、3次元イラストデータとその識別情報とが1以上の3次元イラストデータについて対応付けられている。例えば、イラスト情報212aは、識別情報欄212a1及びアクセス情報欄212a2を有する。識別情報欄212a1には、3次元イラストデータを識別するための情報が記録され、例えば3次元イラストデータのID番号が記録される。アクセス情報欄212a2には、3次元イラストデータにアクセスするための情報が記録され、例えば3次元イラストデータのファイル名が記録される。3次元イラストデータにアクセスするための情報はファイル名に限らず、3次元イラストデータが記憶されているネットワーク上のアドレス情報等であってもよい。
サムネイル化部211は、イラスト情報蓄積部212に3次元イラストデータが追加されたタイミングで、又は、所定の周期ごとに、3次元イラストデータをイラスト情報蓄積部212から取得し、3次元イラストデータを2次元サムネイルデータに変換する。2次元サムネイルデータは、例えば図6(c)に示すような2次元的な線画データであり、3次元イラストデータを縮小し2次元化されたことに相当する線画データである。2次元サムネイルデータは、2次元画像データフォーマット(例えば、BMPフォーマット)に対応している。2次元サムネイルデータは、3次元イラストデータの識別情報に関連付けられる。サムネイル化部211は、3次元イラストデータに含まれた複数の空間座標が所定の平面に投影された複数の平面座標を求め、求められた複数の平面座標に応じた2次元的な線画データを縮小することなどにより、3次元イラストデータから縮小及び2次元化された2次元サムネイルデータを生成する。サムネイル化部211は、2次元サムネイルデータを3次元イラストデータの識別情報に関連付けた形でサムネイル情報蓄積部210に追加的に格納する。
これにより、サムネイル情報蓄積部210には、図8に示すようなサムネイル情報210aが蓄積される。図8は、サムネイル情報蓄積部210に蓄積されるサムネイル情報210aのデータ構造を示す図である。サムネイル情報210aは、キーワードと3次元イラストデータと2次元サムネイルデータとが1以上の2次元サムネイルデータについて対応付けられた情報である。サムネイル情報210aは、第1の対応情報として、キーワードと2次元サムネイルデータとが対応付けられた情報を含む。図8に示されるように、一つの2次元サムネイルデータに対して複数のキーワードが設定されていてもよい。また、画像の一例である2次元サムネイルデータに対応付けられるのはキーワードに限られない。例えば認識部103が音声信号に含まれる特徴的な波形パターンを認識結果として生成した場合は、波形パターンの情報と対応付けることもできる。また、サムネイル情報210aは、第2の対応情報として、2次元サムネイルデータと3次元イラストデータとが対応付けられた情報を含む。例えば、サムネイル情報210aは、キーワード欄210a1、識別情報欄210a2及びアクセス情報欄210a3を有する。キーワード欄210a1には、2次元サムネイルデータが呼び出されるためのキーワードが記録されるが、キーワードが未登録の状態では空欄になっている。識別情報欄210a2には、2次元サムネイルデータに紐づけられた3次元イラストデータを識別するための情報が記録され、例えば3次元イラストデータのID番号が記録される。アクセス情報欄210a3には、2次元サムネイルデータにアクセスするための情報が記録され、例えば2次元サムネイルデータのファイル名が記録される。2次元サムネイルデータにアクセスするための情報はファイル名に限らず、2次元サムネイルが記憶されているネットワーク上のアドレス情報等であってもよい。キーワードは、単語、表音文字、表意文字、文章、数字、これらの組み合わせ等いずれであってもよい。
登録文字入力部216は、イラスト情報蓄積部212に3次元イラストデータが追加されたタイミングで、又は、所定の周期ごとに、3次元イラストデータに紐づけるべき文字情報が入力される。登録文字入力部216は、文字情報を3次元イラストデータの識別情報に関連付けられた形で受け付ける。このとき、登録文字入力部216は、点線の矢印で示すように、イラスト情報蓄積部212から文字情報が紐づけるべき候補となる複数の3次元イラストデータの識別情報を取得して、複数の3次元イラストデータの識別情報から識別情報が選択入力されてもよい。登録文字入力部216は、文字情報を3次元イラストデータの識別情報に関連付けられた形でキーワード化部215へ供給する。
キーワード化部215は、文字情報を3次元イラストデータの識別情報に関連付けられた形で受けると、サムネイル情報蓄積部210にアクセスして、3次元イラストデータの識別情報に対応したキーワード欄210a1に文字情報を追加的に書き込む。
これにより、サムネイル情報蓄積部210に蓄積されるサムネイル情報210aにおいて、キーワード欄210a1には、図8に示すように、1以上のキーワードが追加的に記録される。
ここで、2次元サムネイルデータのデータサイズは、3次元イラストデータのデータサイズより大幅に小さい。言語情報からのイラスト検索時にデータサイズの軽いサムネイルを使用することで画像呼び出し時のタイムラグを最小限に抑えることを可能とする。
選択傾向蓄積部209へのデータ蓄積について図5を用いて説明する。文脈解析部207は、言語情報入力部100から供給された言語情報認識結果を基に文脈を解析する。また、サムネイル選択部204での選択情報を選択傾向蓄積部209でユーザの選択傾向として蓄積する。この文脈解析部207の解析結果と選択傾向蓄積部209の蓄積結果とを基に、優先度決定部208は、2次元サムネイルデータを表示する際の優先度を決定し、決定結果をサムネイル表示部203へ供給する。サムネイル表示部203は、優先度決定部208の決定結果に応じて、優先度の高い順に2次元サムネイルデータをディスプレイ506に表示させる。
優先度の例としては、言語情報としての異国語に対応して決定された優先度であってもよい。優先度決定部208は、言語の種類に応じて、出現サムネイルが変化されるような優先度を決定しても良い。例えば、アフリカ語で「学校」という言葉を検知した際には、日本の一般的な学校を示すイラストではなくアフリカに多く見られる学校を示すイラストが優先的に表示されるように優先度が決定される。
イラストの表示方法について図5を用いて説明する。第1の画像検索手段としてのサムネイル検索部202は、言語情報認識結果を基に2次元サムネイルデータを検索する。サムネイル検索部202は、サムネイル情報蓄積部210にアクセスし、言語情報認識結果である文字情報に含まれるキーワードでサムネイル情報210aを検索し、そのキーワードに対応した1以上の2次元サムネイルデータとそれに関連付けられた3次元イラストデータの識別情報とを検索結果として呼び出し、サムネイル表示部203へ供給する。第1の画像表示手段としてのサムネイル表示部203は、検索された1以上の2次元サムネイルデータを接続部3経由で描画情報生成部400(図2参照)へ供給する。これに応じて、描画情報生成部400は、検索された1以上の2次元サムネイルデータをクライアント端末1のディスプレイ506の特定場所に表示させる。このように、第1の画像表示手段としてのサムネイル表示部203は、認識手段103による認識結果に基づき、入力された言語情報に対応する画像を、画像を表示する表示手段に表示する。選択手段としてのサムネイル選択部204は、ユーザによる選択操作、一例としてディスプレイ506上に表示された2次元サムネイルデータをポインティングデバイスで選択する操作に応じて、ディスプレイ506に表示された1以上の2次元サムネイルデータから2次元サムネイルデータを選択し、選択された2次元サムネイルデータに関連付けられた3次元イラストデータの識別情報を第2の画像検索手段としてのイラスト検索部205へ供給する。イラスト検索部205は、3次元イラストデータの識別情報を基に3次元イラストデータを検索する。イラスト検索部205は、イラスト情報蓄積部212にアクセスし、その識別情報に対応した3次元イラストデータを検索結果として呼び出し、イラスト表示部206へ供給する。第2の画像表示手段としてのイラスト表示部206は、検索された3次元イラストデータを接続部3経由で描画情報生成部400(図2参照)へ供給する。これに応じて、描画情報生成部400は、検索された3次元イラストデータをクライアント端末1のディスプレイ506上に表示させる。
なお、サムネイル化を行わず、3次元イラストデータをサムネイルとして表示させるようにしてもよい。以下において詳述する。
第1の記憶手段である3次元モデル蓄積部217へのデータ蓄積について図9及び図6を用いて説明する。
図9に示すように、3次元イラストデータをサムネイルとして表示させる場合、画面表示制御部200は、図5に示したイラスト検索部205、サムネイル化部211、イラスト情報蓄積部212、を不要とする。また、図9に示すように、画面表示制御部200は、サムネイル情報蓄積部210に代えて3次元モデル蓄積部217を備えるとともに、サムネイル検索部202に代えて3次元モデル検索部218を備える。
3次元モデル入力部214は、3次元モデルデータが入力される。3次元モデルデータは、例えば図6(a)に示すようなポリゴンデータであり、複数の空間座標を含む。3次元モデルデータは、3次元画像データフォーマット(例えば、OBJフォーマット)に対応している。3次元モデル入力部214は、3次元モデルデータを3次元モデル蓄積部217へ供給する。
登録文字入力部216は、3次元モデル蓄積部217に3次元モデルデータが追加されたタイミングで、又は、所定の周期ごとに、3次元モデルデータに紐づけるべき文字情報が入力される。登録文字入力部216は、文字情報を3次元モデルデータの識別情報に関連付けられた形で受け付ける。
キーワード化部215は、文字情報を3次元モデルデータの識別情報に関連付けられた形で受けると、3次元モデル蓄積部217にアクセスして、3次元モデルデータの識別情報に対応したキーワード欄217a1に文字情報を追加的に書き込む。
これにより、3次元モデル蓄積部217には、図10に示すような3次元モデル情報217aが蓄積される。図10は、3次元モデル蓄積部217に蓄積される3次元モデル情報217aのデータ構造を示す図である。3次元モデル情報217aは、キーワードと3次元モデルデータとが対応付けられた情報を含む。図10に示されるように、一つの3次元モデルデータに対して複数のキーワードが設定されていてもよい。また、画像の一例である3次元モデルに対応付けられるのはキーワードに限られない。例えば認識部3が音声信号に含まれる特徴的な波形パターンを認識結果として生成した場合は、波形パターンの情報と対応付けることもできる。
例えば、3次元モデル情報217aは、キーワード欄217a1、識別情報欄217a2及びアクセス情報欄217a3を有する。キーワード欄217a1には、3次元モデルデータが呼び出されるためのキーワードが記録されるが、キーワードが未登録の状態では空欄になっている。識別情報欄217a2には、3次元モデルデータを識別するための情報が記録され、例えば3次元モデルデータのID番号が記録される。アクセス情報欄217a3には、3次元モデルデータにアクセスするための情報が記録され、例えば3次元モデルデータのファイル名が記録される。3次元モデルデータにアクセスするための情報はファイル名に限らず、ネットワーク上の3次元モデルデータが記憶されているアドレス等であってもよい。
イラストの表示方法について説明する。3次元モデル検索部218は、言語情報認識結果を基に3次元モデルデータを検索する。3次元モデル検索部218は、3次元モデル蓄積部217にアクセスし、言語情報認識結果である文字情報に含まれるキーワードで3次元モデル情報217aを検索し、その文字情報(例えば、キーワード)に対応した1以上の3次元モデルデータを検索結果として呼び出し、イラスト化部213へ供給する。イラスト化部213は、3次元モデルデータを3次元イラストデータに変換する。3次元イラストデータは、例えば図6(b)に示すような3次元的な線画データであり、複数の空間座標を含む。3次元イラストデータは、3次元画像データフォーマット(例えば、OBJフォーマット)に対応している。イラスト化部213は、3次元モデルデータで示される3次元形状のエッジの3次元位置を特定して線画でつなぎ合わせることなどにより、3次元モデルデータから線画の情報を抽出し、3次元イラストデータを生成する。
第1の画像表示手段としてのサムネイル表示部203は、生成された3次元イラストデータを接続部3経由で描画情報生成部400(図2参照)へ供給する。これに応じて、描画情報生成部400は、3次元イラストデータをクライアント端末1のディスプレイ506の特定場所に表示させる。このように、第1の画像表示手段としてのサムネイル表示部203は、認識手段103による認識結果に基づき、入力された言語情報に対応する画像を、画像を表示する表示手段に表示する。第1の表示制御手段はイラスト化部213によるイラスト化を実施せずに、検索結果である画像をそのまま表示してもよい。3次元モデルデータの画像も、その3次元モデルデータがイラスト化された結果である3次元イラストデータの画像も、いずれも入力された言語情報に対応する画像である。選択手段としてのサムネイル選択部204は、ユーザによる選択操作、一例としてディスプレイ506上に表示された3次元イラストデータをポインティングデバイスで選択する操作に応じて、ディスプレイ506に表示された1以上の3次元イラストデータから3次元イラストデータを選択し、選択された3次元イラストデータをイラスト表示部206へ供給する。第2の画像表示手段としてのイラスト表示部206は、検索された3次元イラストデータを接続部3経由で描画情報生成部400(図2参照)へ供給する。これに応じて、描画情報生成部400は、検索された3次元イラストデータをクライアント端末1のディスプレイ506上に表示させる。
第1の画像検索手段としての3次元モデル検索部218の検索対象は画像であればよく、静止画、動画、イラスト、写真、2次元イラスト、3次元イラスト、アニメーション、立体画像等のその他いずれであってもよい。
第1の画像表示手段としてのサムネイル表示部203、第2の画像表示手段としてのイラスト表示部206の表示対象も画像であればよく、静止画、動画、イラスト、写真、2次元イラスト、3次元イラスト、アニメーション、立体画像等のその他いずれであってもよい。
第1の記憶手段である3次元モデル蓄積部217は3次元モデル情報217aを蓄積しているが画像情報であればこれに限られず、静止画、動画、イラスト、写真、2次元イラスト、3次元イラスト、アニメーション、立体画像等のその他いずれであってもよい。
次に、優先画像提示部220が機械学習による予測によって優先画像を提示する例について説明する。
<機能ブロック>
図11は、実施形態における優先画像提示部220の機能ブロック図である。図11に示されるように、優先画像提示部220は、選択画像取得部221、教師データ格納部222、機械学習部223、学習済みモデル格納部224、推論部225、通知部226を備えることができる。以下、それぞれについて説明する。
選択画像取得部221は、サムネイル選択部204から、文字情報および選択された画像情報、一例としてサムネイル画像を取得する。
<学習フェーズ>
教師データ格納部222には、機械学習のための教師データが格納されている。教師データ格納部222内の教師データは、選択画像取得部221が一定期間取得して蓄積された文字情報と、選択画像を示すデータ、例えば画像ファイル名である。文字情報と画像ファイル名が組となったデータを複数備えた教師データが教師データ格納部222に格納されている。
機械学習部223は、受信した選択画像データから、次に選択される画像情報を導出するための学習済みモデルを生成する。具体的には、機械学習部223は、受信した文字情報を入力データとし、その文字情報が受信された後に選択される画像を出力データとした教師データを用いて機械学習を行い、学習済みモデルを生成する。また、機械学習部223は、生成した学習済みモデルを学習済みモデル格納部224に格納する。
学習済みモデル格納部224には、機械学習部223が生成した学習済みモデルが格納されている。
<推論フェーズ>
推論部225は、現在の選択画像を取得して、次の選択画像を推論する。
具体的には、推論部225は、選択画像取得部221から、文字情報と、選択された画像を特定するための情報(例えば、画像ファイル名)とを取得する。また、推論部225は、学習済みモデル格納部224内の学習済みモデルに文字情報を入力して、次に選択される画像情報(例えば、画像ファイル名)を出力させる。
通知部226は、サムネイル表示部203に優先的に表示する画像として、推論部225から出力された、次に選択される画像情報(例えば、画像ファイル名)を通知する。
なお、上記の<学習フェーズ>において、機械学習部223は、文字情報に加えて、ユーザのコミュニケーションシステムシステム4へログインID等のユーザ情報も取得し、学習するようにしてもよい。この場合、機械学習部223は、さらに言語情報を入力したユーザに応じた画像を学習することができる。
図2に示す描画操作部300は、機能的に、図12に示すように構成され得る。図12は、描画操作部300の構成を示す図である。
描画操作部300は、イラスト編集部301、固定化部302、描画部303、2次元データ編集入力部304、及び出力部305を備える。
第1の編集手段(3次元イラストデータ編集入力手段)としてのイラスト編集部301は、3次元イラストデータを画面表示制御部200から受け、3次元イラストデータに対する3次元的な編集処理を行う。イラスト編集部301は、3次元的な編集処理において、ユーザによる、3次元的な回転操作、3次元的な移動操作、3次元的な拡大操作、3次元的な縮小操作などを受け付け、それらの操作要求を描画部303、出力部305、接続部3経由で描画情報生成部400(図2参照)へ供給する。3次元的な回転操作は、3次元イラストデータに含まれた複数の空間座標がそれらの相対的な位置関係を維持しながら所定の軸周りに3次元的に回転されるように変更される操作である。3次元的な拡大操作は、3次元イラストデータに含まれた複数の空間座標が所定の点から等しい距離割合で放射状に遠ざかるように変更される操作である。3次元的な縮小操作は、3次元イラストデータに含まれた複数の空間座標が所定の点に対して等しい距離割合で放射状に近づくように変更される操作である。これらの操作要求に応じて、描画情報生成部400は、クライアント端末1の描画部303における3次元イラストデータの表示形態を変更する。これにより、クライアント端末1のディスプレイ506上における3次元イラストデータの位置、大きさ、向きが3次元的に変更され得る。
変換手段としての固定化部302は、所定の操作(例えば、2次元的な編集処理が活性化される操作、より具体的には2次元的な編集処理が可能な状態へ移行する操作)に応じて、3次元的な編集処理が可能な3次元イラストデータを2次元的な編集処理が可能な2次元イラストデータへ変換(固定化)する。2次元イラストデータは、図6(d)に示すような2次元的な線画データであり、3次元イラストデータに3次元的な編集処理が施され2次元化されたことに相当する線画データである。2次元イラストデータは、2次元画像データフォーマット(例えば、BMPフォーマット)に対応している。固定化部302は、3次元イラストデータに含まれた複数の空間座標がディスプレイ506の画面に対応した平面に投影された複数の平面座標を求め、求められた複数の平面座標に応じた2次元的な線画データを生成することなどにより、3次元イラストデータを2次元イラストデータへ変換して描画部303に固定する。
第2の編集手段(2次元データ編集入力手段)としての2次元データ編集入力部304は、2次元イラストデータに対する2次元的な編集処理を行う。2次元データ編集入力部304は、2次元的な編集処理において、ユーザによる、2次元的な回転操作、2次元的な移動操作、2次元的な拡大操作、2次元的な縮小操作、一部を消す操作、手書きの線画を付け加える操作、色を塗る操作などを受け付け、それらの操作要求を描画部303、出力部305、接続部3経由で描画情報生成部400(図2参照)へ供給する。2次元的な回転操作は、2次元イラストデータに含まれた複数の平面座標がそれらの相対的な位置関係を維持しながら所定の点周りに2次元的に回転されるように変更される操作である。2次元的な拡大操作は、2次元イラストデータに含まれた複数の平面座標が所定の点から等しい距離割合で放射状に遠ざかるように変更される操作である。2次元的な縮小操作は、2次元イラストデータに含まれた複数の平面座標が所定の点に対して等しい距離割合で放射状に近づくように変更される操作である。一部を消す操作は、2次元イラストデータに含まれた複数の平面座標の一部が削除される操作である。手書きの線画を付け加える操作は、2次元イラストデータに含まれた複数の平面座標に、手書きの線画に対応した複数の平面座標が追加される操作である。色を塗る操作は、2次元イラストデータに含まれた複数の平面座標に、所定の色属性に紐づけられた複数の平面座標が追加される操作である。これらの操作要求に応じて、描画情報生成部400は、クライアント端末1の描画部303における2次元イラストデータの表示形態を変更する。これにより、クライアント端末1のディスプレイ506上における2次元イラストデータの位置、大きさ、向きが2次元的に変更されたり、2次元イラストデータの一部が消されたり、2次元イラストデータに手書きの線画が付け加えたり、2次元イラストデータに色が塗られたりする。
描画部303には、マウスや指やスタイラスペンやジェスチャーなどによって入力も可能である。描画部303の情報を出力部305にて描画情報生成部400に出力する。これに応じて、描画情報生成部400は、クライアント端末1の描画部303における手書き入力された線画等が追加された描画情報を生成する。これにより、クライアント端末1のディスプレイ506上に手書き入力された線画等が表示される。
これら各部は、HD504からRAM503上に展開されたプログラムに従ったCPU501からの命令によって動作することで実現される機能または手段である。
次に、ビジュアルコミュニケーションシステム4の動作について図13を用いて説明する。図13は、ビジュアルコミュニケーションシステムの動作を示すフローチャートである。
ビジュアルコミュニケーションシステム4は、コミュニケーションを支援するための準備として、所定の情報が登録される登録処理(S1)を行う。その後、ビジュアルコミュニケーションシステム4は、ユーザから起動要求があるまで(S2でNo)待機する。ビジュアルコミュニケーションシステム4は、ユーザから起動要求があると(S2でYes)、プログラム500aを起動し、コミュニケーション支援処理(S3)を開始する。ビジュアルコミュニケーションシステム4は、ユーザから終了要求があるまで(S4でNo)コミュニケーション支援処理(S3)を継続的に行う。ビジュアルコミュニケーションシステム4は、ユーザから終了要求があると(S4でYes)、処理を終了する。
次に、登録処理(S1)の詳細について図14を用いて説明する。図14は、登録処理の流れを示すフローチャートである。
ビジュアルコミュニケーションシステム4は、プログラム500aが起動されると、3次元モデルデータの登録要求があるまで(S11でNo)待機する。ビジュアルコミュニケーションシステム4は、3次元モデルデータの登録要求があると(S11でYes)、3次元モデルデータが入力される(S12)。3次元モデルデータは、例えばポリゴンデータ(図6(a)参照)である。ビジュアルコミュニケーションシステム4は、3次元モデルデータをイラスト化する(S13)。すなわち、ビジュアルコミュニケーションシステム4は、3次元モデルデータを3次元イラストデータに変換する。3次元イラストデータは、例えば3次元的な線画データ(図6(b)参照)である。ビジュアルコミュニケーションシステム4は、3次元イラストデータをイラスト情報蓄積部212に追加的に格納する。これにより、イラスト情報蓄積部212には、イラスト情報212a(図7参照)が登録される。
ビジュアルコミュニケーションシステム4は、3次元イラストデータをサムネイル化する(S14)。すなわち、ビジュアルコミュニケーションシステム4は、3次元イラストデータを2次元サムネイルデータに変換する。2次元サムネイルデータは、例えば2次元的な線画データ(図6(c)参照)である。ビジュアルコミュニケーションシステム4は、2次元サムネイルデータを3次元イラストデータの識別情報に関連付けた形でサムネイル情報蓄積部210に追加的に格納する。これにより、サムネイル情報蓄積部210に、サムネイル情報210a(図8参照)における2次元サムネイルデータと3次元イラストデータの識別情報とが登録される。
そして、ビジュアルコミュニケーションシステム4は、キーワードの登録要求があるまで(S15でNo)待機する。ビジュアルコミュニケーションシステム4は、キーワードの登録要求があると(S15でYes)、文字情報が3次元イラストデータの識別情報に関連付けられた形で入力される(S16)。ビジュアルコミュニケーションシステム4は、文字情報をキーワード化する(S17)。すなわち、ビジュアルコミュニケーションシステム4は、サムネイル情報蓄積部210にアクセスして、3次元イラストデータの識別情報に対応したキーワード欄210a1に文字情報を追加的に書き込む。これにより、サムネイル情報蓄積部210に、サムネイル情報210a(図8参照)における文字情報(キーワード)が登録される。なお、登録処理とコミュニケーション支援処理は、図13に示したように両方行う必要はなく、その時点でサムネイル情報蓄積部210、イラスト情報蓄積部212に登録された情報に基づき、コミュニケーション支援処理のみ実行することも可能である。
図14のフローチャートは図5の構成を前提に説明したが、適宜図9の構成にも適用可能である。つまり図9の構成に適用した場合は、ステップS13とステップS14は実行せず、ステップS16に代えて、文字情報が3次元モデルデータと関連付けられる処理が実行され、その結果、3次元モデル蓄積部217に、図10に示すような3次元モデル情報217aが蓄積される。
次に、コミュニケーション支援処理(S3)の詳細について図15、図16を用いて説明する。図15、図16は、コミュニケーション支援処理の流れを示すフローチャートである。図15の処理と図16の処理とは、互いに並行して行われ得る。
図15の処理において、ビジュアルコミュニケーションシステム4は、プログラム500aが起動され、ディスプレイ506に初期画面が表示されると、初期画面を介して、言語情報入力機能のON要求があるまで(S21でNo)待機する。ビジュアルコミュニケーションシステム4は、言語情報入力機能のON要求があると(S21でYes)、言語情報の入力があるまで(S22でNo)待機する。ビジュアルコミュニケーションシステム4は、言語情報の入力があると(S22でYes)、言語情報が音声情報であるか否かを判断する(S23)。ビジュアルコミュニケーションシステム4は、言語情報が音声情報であれば(S23でYes)、音声情報に対して音声認識処理を行い文字情報へ変換し(S24)、その文字情報を認識結果とする。ビジュアルコミュニケーションシステム4は、言語情報が音声情報でなければ(S23でNo)、言語情報が手書き文字画像であるか否かを判断する(S25)。ビジュアルコミュニケーションシステム4は、言語情報が手書き文字画像であれば(S25でYes)、手書き文字画像に対してテキスト認識処理を行い文字情報へ変換し(S26)、その文字情報を認識結果とする。ビジュアルコミュニケーションシステム4は、言語情報が手書き文字画像でなければ、すなわちキーボード511へのタイピングによる文字情報であれば(S25でNo)、その文字情報を認識結果とし、処理をS27へ進める。ステップS23~ステップS26は一例としてビジュアルコミュニケーションシステム4における認識部103が実行する。
ビジュアルコミュニケーションシステム4は、サムネイル情報蓄積部210にアクセスし、言語情報認識結果である文字情報に含まれるキーワードで2次元サムネイルデータを検索する(S27)。ビジュアルコミュニケーションシステム4は、検索された1以上の2次元サムネイルデータをディスプレイ506の特定場所に表示させる(S28)。
ビジュアルコミュニケーションシステム4は、言語情報入力機能のOFF要求があるまで(S29でNo)、S22~S28の処理が高速に繰り返され得る。すなわち、ビジュアルコミュニケーションシステム4は、ユーザからの言語情報が受け付けられるたびに、表示画面上のサムネイル画像を新しく切り替えて高速に更新表示できる。これにより、ユーザが会話等による情報伝達を止めずにその中から、発話又は文字入力された際の頭の中の情景に近い1以上のサムネイル画像を選択できる。
ビジュアルコミュニケーションシステム4は、言語情報入力機能のOFF要求があると(S29でYes)、図15の処理を終了する。
図15のフローチャートは図5の構成を前提に説明したが、適宜図9の構成にも適用可能である。つまり図9の構成に適用した場合は、ステップS27で3次元モデルデータを検索し、ステップS28に代えて3次元モデルデータがイラスト化された3次元イラストデータを表示させる処理が実行される。
図16の処理において、ビジュアルコミュニケーションシステム4は、S28で表示された1以上の2次元サムネイルデータのうちの2次元サムネイルデータが選択されるまで(S31でNo)待機する。ビジュアルコミュニケーションシステム4は、S28で表示された1以上の2次元サムネイルデータのうちの2次元サムネイルデータが選択されると(S31でYes)、イラスト情報蓄積部212にアクセスし、選択された2次元サムネイルデータに関連付けられた3次元イラストデータを検索する(S32)。ビジュアルコミュニケーションシステム4は、検索された3次元イラストデータをディスプレイ506に表示させる(S33)。
ビジュアルコミュニケーションシステム4は、3次元イラストデータに対する編集操作があるまで(S34でNo)待機し、3次元イラストデータに対する編集操作があると(S34でYes)、第1の編集処理を行う(S35)。第1の編集処理は、3次元的な編集処理である。ビジュアルコミュニケーションシステム4は、第1の編集処理において、3次元的な回転操作、3次元的な移動操作、3次元的な拡大操作、3次元的な縮小操作などを受け付ける。それらの操作要求に応じて、ビジュアルコミュニケーションシステム4は、ディスプレイ506に表示された3次元イラストデータの表示形態を変更する(S36)。ビジュアルコミュニケーションシステム4は、3次元イラストデータが2次元イラストデータに固定化されるまで(S37でNo)、S34~S36の処理を繰り返す。
ビジュアルコミュニケーションシステム4は、3次元イラストデータが2次元イラストデータに固定化されると(S37でYes)、2次元イラストデータに対する編集操作があるまで(S38でNo)待機する。ビジュアルコミュニケーションシステム4は、2次元イラストデータに対する編集操作があると(S38でYes)、第2の編集処理を行う(S39)。第2の編集処理は、2次元的な編集処理である。ビジュアルコミュニケーションシステム4は、第2の編集処理において、2次元的な回転操作、2次元的な移動操作、2次元的な拡大操作、2次元的な縮小操作、一部を消す操作、手書きの線画を付け加える操作、色を塗る操作などを受け付ける。それらの操作要求に応じて、ビジュアルコミュニケーションシステム4は、ディスプレイ506に表示された2次元イラストデータの表示形態を変更する(S40)。ビジュアルコミュニケーションシステム4は、編集完了の要求があるまで(S41でNo)、S38~S40の処理を繰り返す。すなわち、S34~S37のループによる1段階目の編集処理とS38~S41のループによる2段階目の編集処理とにより、発話又は文字入力された際の頭の中の情景に近いイラストを短時間で正確に表現できる。
ビジュアルコミュニケーションシステム4は、編集完了の要求があると(S41でYes)、図16の処理を終了する。
図16のフローチャートは図5の構成を前提に説明したが、適宜図9の構成にも適用可能である。つまり図9の構成に適用した場合は、図15の処理が終了した時点で3次元イラストデータが表示されているため、ステップS31では2次元サムネイルデータに代えて、3次元イラストデータが選択されるまで待機する。選択されるとステップS32は実行されることなく、ステップS33では選択された3次元イラストデータが表示され、ステップS34以降の処理を実行する。
次に、ビジュアルコミュニケーションシステム4によりクライアント端末1のディスプレイ506に表示される画面(ビジュアルコミュニケーションシステム4による表示画面)の構成について図17を用いて説明する。図17は、ビジュアルコミュニケーションシステム4による表示画面の構成を示す図である。
ビジュアルコミュニケーションシステム4による表示画面は、図17に示すように、描画結果表示エリア600、操作パレット700、サムネイル表示エリア800を含む。
描画結果表示エリア600は、描画情報生成部400(図2参照)による描画情報生成結果が出力されるエリアである。操作パレット700は、音声入力部101、文字入力部102(図4参照)、2次元データ編集入力部304(図12参照)などの各入力部を呼び出すために使用する機能が配置されている。サムネイル表示エリア800は、認識部103(図4参照)によって認識された言語情報と、サムネイル表示部203(図5参照)によって出力された2次元サムネイルデータが表示される。
図17で示す各エリアのレイアウトおよび意匠形状はあくまで一例であり、権利範囲を制限するものではないものとする。例えば800に円状の枠で囲まれた8つのサムネイルが表示されているが、枠の有無と形状や表示数については制限しないものとする。また、認識された言語情報も表示しなくても良いものとする。
次に、ビジュアルコミュニケーションシステム4によりクライアント端末1のディスプレイ506に表示される画面(ビジュアルコミュニケーションシステム4による表示画面)の概略動作について図18を用いて説明する。図18は、ビジュアルコミュニケーションシステム4による表示画面の概略動作を示す図である。図18では、言語情報を基に2次元サムネイルデータが呼び出される動作について示す。
図18(a)に示す言語情報認識ボタン701を押す操作を検知すると、ビジュアルコミュニケーションシステム4は、言語情報認識モードに移行する。ビジュアルコミュニケーションシステム4は、言語情報認識モード時に、発話、手書き、タイピングなどによって言語情報(第1の言語情報)を取得すると、サムネイル表示エリア800にて言語情報認識結果および認識結果に紐づく1以上の2次元サムネイルデータが表示される。また、2次元データ編集ボタン702を押す操作を検知すると、図17の描画結果表示エリア600を編集可能な、描画結果編集モードに移行する。
例えば、図18(a)では、ビジュアルコミュニケーションシステム4は、描画結果表示エリア600上に描画操作された手書き文字を認識し、認識結果の文字情報とそれに紐づけられた1以上の2次元サムネイルデータとをサムネイル表示エリア800に表示した状態が示されている。
ビジュアルコミュニケーションシステム4は、さらに、発話、手書き、タイピングなどによって言語情報(第2の言語情報)を取得すると、サムネイル表示エリア800にて表示されている1以上の2次元サムネイルデータの少なくとも一部が変更されて言語情報認識結果および認識結果に紐づく1以上の2次元サムネイルデータが更新表示される。
例えば、図18(a)の状態で図18(b)の様な発話を認識すると、ビジュアルコミュニケーションシステム4は、認識結果の文字情報に応じて、サムネイル表示エリア800の状態をリアルタイムに変化させる。図18(b)では、ビジュアルコミュニケーションシステム4が、新たな認識結果の文字情報とそれに紐づけられた1以上の2次元サムネイルデータとに基づきサムネイル表示エリア800に更新表示した状態が示されている。
具体的には、新たに入力された言語情報(第2の言語情報)に対応するサムネイル画像に応じて、すでに表示されたサムネイル画像の表示のうち、少なくとも一部を変更してディスプレイ(表示手段)506に表示させる。
すでに表示されたサムネイル画像の表示形態のうち、少なくとも一部を変更とは、例として、新たに入力された言語情報に対応するサムネイル画像をすでに表示されたサムネイル画像に追加して表示するためにすでに表示されているサムネイル画像の位置や大きさを変更したり、新たに入力された言語情報に対応するサムネイル画像を既に表示された画像に代えて表示するために削除したり、既に表示されているサムネイル画像の周囲の画像を変更する等である。
なお、発話だけでなく、新しい手書き文字やタイピングした文字を認識する度に、ビジュアルコミュニケーションシステム4は、サムネイル表示エリア800の表示を変化させても良い。
また、ビジュアルコミュニケーションシステム4は、2次元サムネイルデータがサムネイル表示エリア800に表示しきれない場合は、古いものから順番に新しく検索された2次元サムネイルデータに置き換わるようにサムネイル表示エリア800に表示してもよい。
図18では、言語情報認識モードへの切り替えスイッチを言語情報認識ボタン701としているが、ボタンではなく特定単語の発話やコマンド入力等、手法は限定しないものとする。
図18に例示されるように、ビジュアルコミュニケーションシステム4は、ユーザからの言語情報が受け付けられるたびに、表示画面上のサムネイル画像を新しく切り替えて高速に更新表示できる。これにより、ユーザが会話等による情報伝達を止めずにその中から、発話又は文字入力された際の頭の中の情景に近い1以上のサムネイル画像を選択できる。
次に、ビジュアルコミュニケーションシステム4によるイラストの2段階の編集処理の流れについて図19を用いて説明する。図19は、2段階の編集処理の流れを示す図である。
図19(a)では、ビジュアルコミュニケーションシステム4は、言語情報「人」に応じて、「人」の文字情報LIとそれに紐づけられた2次元サムネイルデータSM1~SM6とがサムネイル表示エリア800に表示する。
文字情報LIは、テキストデータ領域801に表示される。図19(a)では、一例として円形の点線が、ユーザへ可視可能に表示され、その内部に文字情報LIが表示されている。
2次元サムネイルデータSM1~SM6は、サムネイルデータ領域802に互いに重ならないように、周状に並んで表示されている。これに限られず、サムネイルデータは互いに重なって表示されても、ランダムに表示されてもよい。特に本例では二つの1点鎖線の間の領域に表示される。また、ユーザがサムネイルデータ領域802を認識しやすいように、一例として1点鎖線の位置にユーザが可視可能な線を実際に表示してもよい。
2次元サムネイルデータSM5の選択操作を受けると、ビジュアルコミュニケーションシステム4は、図19(b)に示すように、2次元サムネイルデータSM5に紐づけられた3次元イラストデータを呼び出して描画結果表示エリア600に表示する。
3次元的な編集処理において、ビジュアルコミュニケーションシステム4は、3次元的な回転操作、3次元的な移動操作、3次元的な拡大操作、3次元的な縮小操作などを受け付け、それらの操作要求に応じて、図19(c)に示すように、3次元イラストデータの表示形態を3次元的に変化させる。
所定のトリガーとなる操作(例えば、2次元的な編集操作のためのボタン(例えば、図18(a)に示す2次元データ編集ボタン702)が押されることなど)を受けて、ビジュアルコミュニケーションシステム4は、図19(d)に示すように、3次元イラストデータを2次元イラストデータに固定化する。
2次元的な編集処理において、ビジュアルコミュニケーションシステム4は、2次元的な回転操作、2次元的な移動操作、2次元的な拡大操作、2次元的な縮小操作、一部を消す操作、手書きの線画を付け加える操作、色を塗る操作などを受け付け、それらの操作要求に応じて、図19(e)に示すように、2次元イラストデータの表示形態を2次元的に変化させる。
図19に例示されるように、1段階目の編集処理(図19(b)、図19(c))と2段階目の編集処理(図19(e))とにより、発話又は文字入力された際の頭の中の情景に近いイラストを短時間で正確に表現できる。
次に、ビジュアルコミュニケーションシステム4によりクライアント端末1のディスプレイ506に表示される画面(ビジュアルコミュニケーションシステム4による表示画面)の詳細動作について図20~図27を用いて説明する。図20~図27は、それぞれ、ビジュアルコミュニケーションシステム4による表示画面の詳細動作を示す図である。図18では、言語情報を基に2次元サムネイルデータが呼び出され、サムネイルを選択し、イラスト編集を行う動作について示す。
図20(a)に示す操作パレット700における音声入力ボタン7011が押されたことを検知すると、ビジュアルコミュニケーションシステム4は、言語情報認識機能をONさせ、図20(b)に示すように、音声入力が待機状態にあることを示すアイコン8021をサムネイル表示エリア800に表示する。なお、操作パレット700におけるキー入力ボタン7012が押されると、キーボードによるタイピング入力が可能な状態になり、タイピング入力が待機状態であることを示すアイコンが表示される。これら、アイコン8021やタイピング入力が待機状態であることを示すアイコンは、言語情報認状態表示アイコンの一例である。
「人と乗り物」と発話されたことを検知すると、ビジュアルコミュニケーションシステム4は、図21に示すように、「人と乗り物」の文字情報LI1とそれに紐づけられた2次元サムネイルデータSM11~SM18とをサムネイル表示エリア800に表示する。なお、文字情報と紐づけられたサムネイルデータとは、「人と乗り物」という文字情報全体と紐づけられたサムネイルデータでもよいし、「人」「乗り物」等のキーワードに分解し、それぞれのキーワードと紐づけられたサムネイルデータからなる群であってもよい。
さらに「動物」と発話されたことを検知すると、ビジュアルコミュニケーションシステム4は、図22に示すように、「人と乗り物動物」の文字情報LI2とそれに紐づけられた2次元サムネイルデータSM21~SM28とをサムネイル表示エリア800に更新表示する。すなわち、ビジュアルコミュニケーションシステム4は、言語情報の入力を検知する度に、リアルタイムで2次元サムネイルデータを更新させて表示する。なお、文字情報と紐づけられたサムネイルデータとは、「人と乗り物動物」という文字情報全体と紐づけられたサムネイルデータでもよいし、「人」「乗り物」「動物」等のキーワードに分解し、それぞれのキーワードと紐づけられたサムネイルデータからなる群であってもよい。
図21、図22に例示されるように、ビジュアルコミュニケーションシステム4は、ユーザからの言語情報が受け付けられるたびに、表示画面上のサムネイル画像を新しく切り替えて高速に更新表示できる。これにより、ユーザが会話等による情報伝達を止めずにその中から、発話又は文字入力された際の頭の中の情景に近い1以上のサムネイル画像を選択できる。
図21の画面で2次元サムネイルデータSM14が選択されたことを検知すると、ビジュアルコミュニケーションシステム4は、図23に示すように、2次元サムネイルデータSM14に紐づけられた3次元イラストデータIL1を呼び出して描画結果表示エリア600に表示する。
3次元的な編集処理において、ビジュアルコミュニケーションシステム4は、3次元的な回転操作、3次元的な移動操作、3次元的な拡大操作、3次元的な縮小操作などを受け付け、それらの操作要求に応じて、図24-1に示すように、3次元イラストデータIL1の表示形態を3次元的に変化させる。
なお、図24-2、図24-3に示すように、テキストデータ領域801に表示されたテキストをユーザがドラッグし、テキスト画像として描画結果表示エリア600に表示することもできる。
図24-2において、例えば、テキストデータ領域801に表示されているテキストの一部をユーザがカーソルでドラッグして選択している。テキストを選択し、ドラッグされたことを検知すると、ビジュアルコミュニケーションシステム4は、そのテキストデータを画像データに変換する。そして、図24-3に示すように、変換されたテキスト画像データを描画結果表示エリア600に表示する。なお、変換されたテキスト画像データは、2D画像でも3D画像でもよく、描画結果表示エリア600内で、移動、拡大、縮小、回転、また2次元データ編集ボタン702からの各種編集が可能である。
2次元的な編集処理のためのボタン(加筆ボタン7013,色塗りボタン7014,消しゴムボタン7015)のいずれかが押されたことを検知すると、ビジュアルコミュニケーションシステム4は、図25に示すように、3次元イラストデータIL1が2次元イラストデータIL2に固定化される。本実施形態では一例として、この2次元的な編集処理のためのボタンが押されたことを言語報認識機能のOFF要求受付と判断し、2次元的な編集処理が可能な状態へと移行する。
2次元的な編集処理において、ビジュアルコミュニケーションシステム4は、2次元的な回転操作、2次元的な移動操作、2次元的な拡大操作、2次元的な縮小操作、一部を消す操作、手書きの線画を付け加える操作、色を塗る操作などを受け付け、それらの操作要求に応じて、図25、図26、図27に示すように、2次元イラストデータIL2の表示形態を2次元的に変化させる。
図25では、加筆ボタン7013により、2次元イラストデータIL2の背景となる風景の線画が手書きで追加され、色塗りボタン7014により、2次元イラストデータIL2に色が塗られる。
また図25では、図23、図24-1においてサムネイル表示エリア800に表示されていた、言語情報認状態表示アイコン、文字情報、サムネイルデータは非表示となっている。サムネイル表示エリア800の各種情報を非表示とするタイミングは、2次元的な編集処理のためのボタン(加筆ボタン7013,色塗りボタン7014,消しゴムボタン7015)のいずれかが押されたことを検知したタイミング、固定化が実行されたタイミング、ユーザにより2次元的な編集集処理が開始されたタイミング等、適宜選択できる。
また、2次元的な編集を実施した後も、音声入力ボタン7011、キー入力ボタン7012を押すことで、言語情報認識機能をONさせ、サムネイル表示エリア800に各種情報を表示させて、2次元的な編集が行われた画像上に新たな3次元イラストデータを表示、編集し、固定化された新たな2次元イラストデータを追加可能である。
図26では、消しゴムボタン7015により、2次元イラストデータIL2’における線画の一部が削除される。
図27では、加筆ボタン7013により、2次元イラストデータIL2”に線画が追加される。
図23~図27に例示されるように、1段階目の編集処理(図23、図24-1)と2段階目の編集処理(図25~図27)とにより、発話又は文字入力された際の頭の中の情景に近いイラストを短時間で正確に表現できる。
図17~図27に示される表示の説明は、図5の構成を前提に説明したが、適宜図9の構成にも適用可能である。つまり図9の構成において、ビジュアルコミュニケーションシステム4は、言語情報に応じた3次元モデルを検索し、言語情報に応じた3次元モデルをイラスト化する。このイラスト化された結果の3次元イラストデータを、図17~図27における、サムネイルデータ領域802に表示すればよい。そしてビジュアルコミュニケーションシステム4は、サムネイルデータ領域802に表示された3次元イラストデータのいずれかを選択する選択操作を受け付けると、選択された3次元イラストデータを、描画結果表示エリア600に表示する。
以上のように、本実施形態では、ビジュアルコミュニケーションシステム4において、言語情報に対応するイラストの候補となる1以上のサムネイル画像をその言語情報の変化に応じて高速に切り替え表示させる。これにより、現在の言語情報に対応したイラストの迅速な選択を可能とし、コミュニケーションの場面における高速な情報伝達を支援できる。
なお、ビジュアルコミュニケーションシステム4の考え方は、オンライン会議システム24に適用されてもよい。オンライン会議システム24は、図28に示すように構成され得る。図28は、実施形態の変形例にかかるオンライン会議システム24のシステム構成を示すシステム構成図であり、描画情報生成部400として、オンライン会議ツールを利用する例を示す。
オンライン会議システム24は、複数のクライアント端末21a,21b、通信管理サーバ22、及び接続部23を有する。接続部23は、複数のクライアント端末21a,21b、通信管理サーバ22を互いに通信可能に接続する。複数のクライアント端末21a,21bは、描画情報生成部400により実現される表示画面を画面共有することができる。
図29は、オンライン会議システム24の機能構成を示すブロック図である。各クライアント端末21a,21bは、言語情報入力部100a,100b、画面表示制御部200a,200b、描画操作部300a,300bを有する。言語情報入力部100a,100b、画面表示制御部200a,200b、描画操作部300a,300bの機能及び動作は、それぞれ、実施形態における言語情報入力部100、画面表示制御部200、描画操作部300の機能及び動作と同様である。
通信管理サーバ22は、描画情報生成部400及び記憶部500に加えて、通信管理部900を有する。描画情報生成部400及び記憶部500の機能及び動作は、それぞれ、実施形態における描画情報生成部400及び記憶部500の機能及び動作と同様である。
通信管理部900は、会議参加者である複数のクライアント端末21a,21bそれぞれから受信した音声やカメラ画像を、他のクライアント端末に送信して管理する。描画情報生成部400は、オンライン会議のカメラ画像に、描画された画像を重畳して描画表示する。通信管理部900は、描画された画像が重畳されたカメラ画像を他のクライアント端末に送信する。
描画された画像は、画像の一部に重畳しても良いし、カメラ画像全体に重畳しても良い。また描画した画像だけでなく、700,800等も同時にカメラ画像に重畳しても良い。
ここで、図28で説明したオンライン会議システム24をテレプレゼンスロボットに適用した利用シーンの実施例を説明する。
図30は、オンライン会議システム24をテレプレゼンスロボットに適用した利用シーンの一例を示す図である。図30は、拠点A内に設置されたテレプレゼンスロボット(ロボット10A)と、遠隔地に位置する管理者が使用する管理者端末50との間で遠隔通信を行う場合の例を示す。
図30に示されている拠点Aは、例えば、複数の作業者(作業者A,B,C,D)によって所定の作業が行われている工場または倉庫等である。図に示されているように、各作業者A,B,C,Dは、作業台に対して作業を行う。また、拠点Aには、拠点A内を自律走行する複数のロボット10A(ロボット10A-1,10A-2)が設置されている。また、遠隔地にいる管理者は、管理者端末50を用いて、拠点Aに設置されたロボット10Aと遠隔通信を行うことで、拠点Aの保守管理等を行う。
また、拠点A内には、複数の通知ボタン20A(20A-1~20A-5)が設置されている。このうち、通知ボタン20A-1~20A-3は、作業台の上に設置されており、通知ボタン20A-4,20A-5は、それぞれロボット10A-1,10A-2に搭載されている。通知ボタン20Aは、拠点Aにいる作業者から遠隔地にいる管理者を呼び出すための操作手段である。なお、操作手段の構成は、通知ボタン20に限られず、管理者を呼び出すための機能を備えた装置であればよい。作業者は、例えば、作業中に何らかの異常が発生し、管理者とコミュニケーションを取りたい場合、近くに設置されている通知ボタン20Aを押下することで、遠隔地にいる管理者を呼び出すことができる。
また、遠隔地にいる管理者は、通知ボタン20Aが選択されたことをトリガーとして、利用者からの呼び出しを示す通知を受け取る。そして、管理者は、管理者端末50と拠点A内に設置されたロボット10Aとの遠隔通信を開始することで、作業者とのコミュニケーションをとることができる。
さらに、管理者端末50と遠隔通信を行うロボット10A-1,10A-2は、作業者によって押下された通知ボタン20Aの設置位置に応じて設定される移動先へ移動するとともに、管理者端末50との遠隔通信を行う。そのため、通知ボタン20Aを押下した作業者は、ロボット10Aを用いて、管理者とコミュニケーションを取りたい場所での遠隔通信を行うことができる。
図30に示されている拠点Aのような現場でのテレプレゼンスロボットの活用を考えた場合、管理者端末50および各ロボット10Aが、図28のクライアント端末21a、21bに適用されることで、本発明のコミュニケーションシステム24とすることができる。
テレプレゼンスロボットは、状況が異なる様々な遠隔地で使用される装置である。テレプレゼンスロボットの操作に不慣れなユーザによって操作される状況も有り得るが、そのような状況でも、簡単な音声やテキストの入力により現場の説明に適切な画像を取得できるため、遠隔地でのコミュニケーションを適切に行うことができる。
またキーワードと画像とが紐づけることができるため、テレプレゼンスロボットが用いられる特定の遠隔地で用いられる言語や専門用語と画像をあらかじめ紐づけておくことで、遠隔地とは言語が異なったり専門用語がわからなかったりする相手とも共通の画像を用いて意思の疎通を図ることができる。
例えば、図31~図33に示すように、ユーザが映っているカメラ画像と、動作取得デバイスにより取得されたユーザのジェスチャーによる描画を重畳させることもできる。図31は、実施形態の変形例におけるクライアント端末21aのカメラ520によって撮像されたカメラ画像を示す図であり、クライアント端末21aのユーザが映っているカメラ画像を例示している。図32は、実施形態の変形例における描画情報生成部400が図31のカメラ画像に重畳する画像を示す図である。図32では、描画結果表示エリア600、操作パレット700、サムネイル表示エリア800のうち、操作パレット700が重畳されず、描画結果表示エリア600、サムネイル表示エリア800が重畳された例が示されている。図33は、実施形態の変形例における他のクライアント端末21bで表示される画像を示す図である。この場合、有るクライアント端末においてユーザが自分のディスプレイ506に対して行っている指先による手書きが、他のクライアント端末では、ユーザの指先によってカメラ画像内に描画が重畳されていく画像として表示される。
また、特定のジェスチャーをイラストに変換して、描画結果表示エリア600に表示させてもよい。カメラで撮影された映像内に、例えば、指で上下左右を示したジェスチャーが認識されると、上矢印、下矢印、左矢印、右矢印のイラストが描画結果表示エリア600に描画される。また、拍手のジェスチャーが認識されると拍手を示すイラストが描画結果表示エリア600に描画される、指先の軌跡が〇等のマークを描いた場合には対応するイラストを描画する、等である。このように描画されたイラストも2次元データ編集ボタン702からの各種編集が可能である。
さらに、特定のジェスチャーと、描画表示内の領域との組み合わせによって動作を変えても良い。つまり、例えば、図31に示す指の形の映像が図32に示す描画内のサムネイル表示エリア800から描画結果表示エリア600へ移動してきた場合は、ドラッグ&ドロップのドロップ位置を示すジェスチャーと認識して操作が行われる。一方、図31の指の画像が描画結果表示エリア600で初めて認識された場合は、図34に示すように、上矢印のイラストを描画結果表示エリア600に描画する等である。また、描画結果表示エリア600に既に描画されているイラスト周辺で、指でつまんで離すジェスチャーが認識されると、そのイラストが移動する等、組み合わせは種々考えられる。
画像認識の応用例としてはその他に、視聴している側のクライアント端末でもカメラで撮影された映像の画像認識を行うことも考えられる。例えば、笑っている顔、悲しい顔、真剣な顔等の表情を認識して、その表情に対応するイラストを他の特定の端末、例えば、プレゼンテーションを行っているクライアント端末に送信することで、プレゼンテーションを実施しているユーザに聴衆の反応を知らせることができる。また、描画に表情に対応するイラストを重畳してプレゼンテーションをしているユーザ、他のユーザ全てが共有することで、互いの反応、プレゼンテーションに対する聴衆全体の反応を参加者全員で共有することもできる。
このように会話等による情報伝達をしながらジェスチャー操作でイラストを用いたビジュアルコミュニケーションを実現することが可能である。
上記で説明した実施形態の、ビジュアルコミュニケーションシステム4、オンライン会議システム24は、画像編集システムまたは画像表示システムの例である。またクライアント端末1、クライアント端末21a、クライアント端末21b、サーバ2、通信管理サーバ22は、画像編集装置または表示装置の例である。
なお、上記で説明した実施形態の各機能は、一又は複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上記で説明した各機能を実行するよう設計されたASIC(Application Specific Integrated Circuit)、DSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)や従来の回路モジュール等のデバイスを含むものとする。
また、明細書中の対応テーブル(表)は、機械学習の学習効果によって生成されたものでもよい。ここで、機械学習とは、コンピュータに人のような学習能力を獲得させるための技術であり、コンピュータが、データ識別等の判断に必要なアルゴリズムを、事前に取り込まれる学習データから自律的に生成し、新たなデータについてこれを適用して予測を行う技術のことをいう。機械学習のための学習方法は、教師あり学習、教師なし学習、半教師学習、強化学習、深層学習のいずれかの方法でもよく、さらに、これらの学習方法を組み合わせた学習方法でもよく、機械学習のための学習方法は問わない。
また、ビジュアルコミュニケーションシステム4又はオンライン会議システム24で実行されるプログラム500aは、ROM等に予め組み込まれて提供されてもよい。あるいは、プログラム500aは、インストール可能な形式又は実行可能な形式のファイルでCD-ROM、フレキシブルディスク(FD)、CD-R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよい。あるいは、プログラム500aは、インターネット等のネットワークに接続されたコンピュータ上に格納され、ネットワーク経由でダウンロードされることにより提供するように構成しても良い。また、プログラム500aをインターネット等のネットワーク経由で提供または配布するように構成しても良い。
1 クライアント端末
2 サーバ
3 接続部
4 ビジュアルコミュニケーションシステム
21a,21b クライアント端末
22 通信管理サーバ
23 接続部
24 オンライン会議システム
50 管理者端末
100 言語情報入力手段
103 認識手段
202,205,218 画像検索手段
203,206 画像表示手段
204 選択手段
210,212,217 記憶手段
220 優先画像提示手段
506 表示手段
特許第6339529号公報

Claims (12)

  1. 言語情報の入力を受け付ける言語情報入力手段と、
    入力された言語情報を認識する認識手段と、
    前記認識手段による認識結果に基づき、前記入力された言語情報に対応する画像を、画像を表示する表示手段に表示する画像表示手段と、
    を備えるコミュニケーションシステム。
  2. 前記認識手段は、入力された言語情報を文字情報として認識し、
    前記画像表示手段は、前記文字情報に含まれるキーワードに対応する画像を、前記表示手段に表示する、
    請求項1に記載のコミュニケーションシステム。
  3. 前記画像表示手段は、すでに表示されている前記画像の表示形態の少なくとも一部を変更して、新たに入力された言語情報に基づき前記認識手段によって認識をされた文字情報に含まれるキーワードに対応する画像を前記表示手段に表示する、
    請求項2に記載のコミュニケーションシステム。
  4. 前記表示された画像を選択する選択手段と、
    選択された画像に対応する画像を、前記表示手段に表示する他の画像表示手段と、
    を備える請求項2に記載のコミュニケーションシステム。
  5. 前記選択された画像は、前記対応する画像の、サムネイル画像である、
    請求項4に記載のコミュニケーションシステム。
  6. 前記文字情報に含まれるキーワードに対応する複数の画像から優先して表示される画像を提示する優先画像提示手段を有し、
    前記優先画像提示手段は、前記文字情報と、前記文字情報と対応付けられ表示された画像のうち、前記選択手段によって選択された画像とを教師データとして機械学習した学習済みモデルに基づいて、次に選択される画像を推論して、前記画像表示手段に通知する、
    請求項4に記載のコミュニケーションシステム。
  7. 前記キーワードと前記画像とを関連付けて記憶する記憶手段と、
    前記文字情報に含まれるキーワードを検索する画像検索手段と、
    を有し、
    前記表示手段は、前記画像検索手段が検索した前記キーワードと関連付けられた前記画像を表示する、
    請求項2ないし6のいずれか一項に記載のコミュニケーションシステム。
  8. 前記表示手段は、所定の拠点内に設置され管理者端末からの遠隔通信による制御を受け付けるテレプレゼンスロボットが備える、
    請求項1ないし7のいずれか一項に記載のコミュニケーションシステム。
  9. 前記表示手段は、テレプレゼンスロボットを遠隔通信によって制御可能な管理者端末が備える、
    請求項1ないし7のいずれか一項に記載のコミュニケーションシステム。
  10. 言語情報の入力を受け付ける言語情報入力手段と、
    入力された言語情報を認識する認識手段と、
    前記認識手段による認識結果に基づき、前記入力された言語情報に対応する画像を、画像を表示する表示手段に表示する画像表示手段と、
    を備える表示装置。
  11. 表示装置における表示制御方法であって、
    言語情報の入力を受け付ける言語情報入力工程と、
    入力された言語情報を認識する認識工程と、
    前記認識工程による認識結果に基づき、前記入力された言語情報に対応する画像を、画像を表示する表示手段に表示する画像表示制御工程と、
    を含む表示制御方法。
  12. コンピュータを、
    言語情報の入力を受け付ける言語情報入力手段と、
    入力された言語情報を認識する認識手段と、
    前記認識手段による認識結果に基づき、前記入力された言語情報に対応する画像を、画像を表示する表示手段に表示する画像表示手段と、
    として機能させるための表示制御プログラム。
JP2021163685A 2020-10-13 2021-10-04 コミュニケーションシステム、表示装置、表示制御方法、および表示制御プログラム Pending JP2022064301A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/499,935 US11978252B2 (en) 2020-10-13 2021-10-13 Communication system, display apparatus, and display control method

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2020172875 2020-10-13
JP2020172875 2020-10-13
JP2021042953 2021-03-16
JP2021042953 2021-03-16

Publications (1)

Publication Number Publication Date
JP2022064301A true JP2022064301A (ja) 2022-04-25

Family

ID=81378615

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021163685A Pending JP2022064301A (ja) 2020-10-13 2021-10-04 コミュニケーションシステム、表示装置、表示制御方法、および表示制御プログラム

Country Status (1)

Country Link
JP (1) JP2022064301A (ja)

Similar Documents

Publication Publication Date Title
US11871109B2 (en) Interactive application adapted for use by multiple users via a distributed computer-based system
US20180307321A1 (en) Build Status of a Buildable Product
CN105144069B (zh) 对于显示内容的基于语义缩放的导航
JP5012968B2 (ja) 会議システム
US20180356967A1 (en) Facilitating automatic generation of customizable storyboards
CN108874126B (zh) 基于虚拟现实设备的交互方法及系统
KR20210023680A (ko) 증강 현실 환경에서의 콘텐트 생성
US10489642B2 (en) Handwriting auto-complete function
JP2014515512A (ja) ペンベースのコンピュータシステムにおけるコンテンツ選択
CN113572889B (zh) 简化用户接口生成
Whitlock et al. AuthAR: concurrent authoring of tutorials for AR assembly guidance
CN107977155A (zh) 一种手写识别方法、装置、设备和存储介质
US9990044B2 (en) Gaze tracking system
JP2022042423A (ja) 遠隔勤務支援システム及び遠隔勤務支援方法
US11978252B2 (en) Communication system, display apparatus, and display control method
CN113191184A (zh) 实时视频处理方法、装置、电子设备及存储介质
JP2022064301A (ja) コミュニケーションシステム、表示装置、表示制御方法、および表示制御プログラム
JP2022064243A (ja) 画像編集装置、画像編集方法、及び画像編集プログラム
US11308266B1 (en) Augmented reality assisted physical form completion
US11150923B2 (en) Electronic apparatus and method for providing manual thereof
Aziz et al. Inclusive Voice Interaction Techniques for Creative Object Positioning
JP2020037155A (ja) 仕草制御装置及び仕草制御プログラム
CN113673277B (zh) 线上绘本内容的获取方法、装置以及智能屏设备
US11899846B2 (en) Customizable gesture commands
JP2023171250A (ja) コミュニケーションシステム、プログラム、端末装置、情報処理システム、情報処理方法