JP2022064301A

JP2022064301A - コミュニケーションシステム、表示装置、表示制御方法、および表示制御プログラム

Info

Publication number: JP2022064301A
Application number: JP2021163685A
Authority: JP
Inventors: 悠貴堀; Yuki Hori; 恵里渡辺; Eri Watanabe; 拓郎安田; Takuo Yasuda; 健太郎萩田; Kentaro Hagita; 拓朗内藤; Takuro Naito; 宏昌田中; Hiromasa Tanaka; 輝憲小山; Terunori Koyama
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2020-10-13
Filing date: 2021-10-04
Publication date: 2022-04-25

Abstract

【課題】情報伝達の進行に伴って、情報伝達に関連する適切な視覚情報を提示できるコミュニケーションシステム、表示装置、表示制御方法、および表示制御プログラムを提供する。【解決手段】言語情報の入力を受け付ける言語情報入力手段と、入力された言語情報を認識する認識手段と、前記認識手段による認識結果に基づき、前記入力された言語情報に対応する画像を、画像を表示する表示手段に表示する画像表示手段と、を備える。【選択図】図１８

Description

本発明は、コミュニケーションシステム、表示装置、表示制御方法、および表示制御プログラムに関する。

コミュニケーションの場面では、短い時間で効率的な情報伝達を行うために、言語情報によるコミュニケーションだけでは不十分であることがある。例えば、新しい企画やアイデアを考える際に行われる会議では、意思疎通のために視覚情報の活用が有効である。

特許文献１には、グラフィックレコーディングシステムの議事録編集画面において、イラスト検索結果表示領域に表示されたイラストが選択され、選択されたイラストが議事録に貼り付けられて、イラストを交えた議事録が作成される。イラストを交えた議事録を眺めることで会議の振り返りを効率的に行うことができることが記載されている。

特許文献１に記載の技術では、選択されたテキストについてイラストが検索され、そのテキストのイラスト検索結果表示領域に表示された複数のイラストが表示される。

本発明は、上記に鑑みてなされたものであって、音声やテキスト入力等による情報伝達の進行に伴って、情報伝達に関連する適切な視覚情報を提示できるコミュニケーションシステム、表示装置、表示制御方法、および表示制御プログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明の１つの側面にかかるコミュニケーションシステムは、言語情報の入力を受け付ける言語情報入力手段と、入力された言語情報を認識する認識手段と、前記認識手段による認識結果に基づき、前記入力された言語情報に対応する画像を、画像を表示する表示手段に表示する画像表示手段と、を備える。

本発明によれば、音声やテキスト入力等による情報伝達の進行に伴って、情報伝達に関連する適切な視覚情報を提示できるという効果を奏する。

図１は、実施形態にかかるビジュアルコミュニケーションシステムのシステム構成を示すシステム構成図である。図２は、実施形態にかかるビジュアルコミュニケーションシステムの機能構成を示すブロック図である。図３は、実施形態にかかるビジュアルコミュニケーションシステムに適用されるコンピュータのハードウェア構成を示す図である。図４は、実施形態における言語情報入力部の構成を示す図である。図５は、実施形態における画面表示制御部の構成を示す図である。図６は、実施形態における画像データの変換を示すデータフロー図である。図７は、実施形態におけるイラスト情報蓄積部に蓄積されるイラスト情報のデータ構造を示す図である。図８は、実施形態におけるサムネイル情報蓄積部に蓄積されるサムネイル情報のデータ構造を示す図である。図９は、実施形態における画面表示制御部の構成の変形例を示す図である。図１０は、サムネイル情報蓄積部に蓄積されるサムネイル情報のデータ構造を示す図である。図１１は、実施形態における優先画像提示部の機能ブロック図である。図１２は、実施形態における描画操作部の構成を示す図である。図１３は、実施形態にかかるビジュアルコミュニケーションシステムの動作を示すフローチャートである。図１４は、実施形態における登録処理の流れを示すフローチャートである。図１５は、実施形態におけるコミュニケーション支援処理の流れを示すフローチャートである。図１６は、実施形態におけるコミュニケーション支援処理の流れを示すフローチャートである。図１７は、実施形態におけるビジュアルコミュニケーションシステムによる表示画面の構成を示す図である。図１８は、実施形態におけるビジュアルコミュニケーションシステムによる表示画面の概略動作を示す図である。図１９は、実施形態における２段階の編集処理の流れを示す図である。図２０は、実施形態におけるビジュアルコミュニケーションシステムによる表示画面の詳細動作を示す図である。図２１は、実施形態におけるビジュアルコミュニケーションシステムによる表示画面の詳細動作を示す図である。図２２は、実施形態におけるビジュアルコミュニケーションシステムによる表示画面の詳細動作を示す図である。図２３は、実施形態におけるビジュアルコミュニケーションシステムによる表示画面の詳細動作を示す図である。図２４－１は、実施形態におけるビジュアルコミュニケーションシステムによる表示画面の詳細動作を示す図である。図２４－２は、実施形態におけるビジュアルコミュニケーションシステムによる表示画面の詳細動作を示す図である。図２４－３は、実施形態におけるビジュアルコミュニケーションシステムによる表示画面の詳細動作を示す図である。図２５は、実施形態におけるビジュアルコミュニケーションシステムによる表示画面の詳細動作を示す図である。図２６は、実施形態におけるビジュアルコミュニケーションシステムによる表示画面の詳細動作を示す図である。図２７は、実施形態におけるビジュアルコミュニケーションシステムによる表示画面の詳細動作を示す図である。図２８は、実施形態の変形例にかかるオンライン会議システムのシステム構成を示すシステム構成図である。図２９は、実施形態の変形例にかかるオンライン会議システムの機能構成を示すブロック図である。図３０は、オンライン会議システムをテレプレゼンスロボットに適用した利用シーンの一例を示す図である。図３１は、実施形態の変形例におけるクライアント端末のカメラによって撮像されたカメラ画像を示す図である。図３２は、実施形態の変形例における描画情報生成部が図３１のカメラ画像に重畳する画像を示す図である。図３３は、実施形態の変形例における他のクライアント端末で表示される画像を示す図である。図３４は、実施形態の変形例における描画結果表示部がジェスチャーの画像を示す図である。

（実施形態）
実施形態にかかるビジュアルコミュニケーションシステムは、コミュニケーションを支援する機能を有する。コミュニケーションの場面では、短い時間で効率的な情報伝達を行うために、言語情報によるコミュニケーションだけでは不十分であることがある。例えば、新しい企画やアイデアを考える際に行われる会議では、意思疎通のために視覚情報の活用が有効である。視覚情報化の手段として手でアイデアの絵をスケッチすることが考えられるが、頭の中の情景そのものを０から視覚情報化することが容易でないことがある。そのため、誰でも扱いが簡単な言語情報を基に視覚情報に変換する第１の技術が考えられる。

しかし、言語情報を基に視覚情報に変換する第１の技術では、言語情報の選択操作をトリガーとして、予め用意されたイラストが検索されるにすぎない。第１の技術では、頭の中に存在する伝えたい情景と一致する向きや組み合わせのイラストが存在せず適切に情報伝達ができない場合が多い。予め用意されたイラストの数を増加させていけば、頭の中の情景と一致するイラストが存在する確率は高まっていくが、イラストの数の増加に伴って、選択するための時間が長時間化してしまう。また、複数の言語情報が選択されると、複数の言語情報のそれぞれについてイラストが検索され、複数の言語情報のそれぞれについてイラストが表示されると考えられる。このため、第１の技術をリアルタイムのコミュニケーションの場面に適用した場合に、現在発話又は入力されている言語情報以外の言語情報についてもイラストが表示されてしまい、イラストの選択に時間がかかりやすい。すなわち、第１の技術では、会議などのコミュニケーションの場で高速に情報伝達ができない可能性がある。

そこで、本実施形態では、ビジュアルコミュニケーションシステムにおいて、言語情報に対応するイラストの候補となる１以上のサムネイル画像をその言語情報の変化に応じて高速に切り替え表示させることで、現在の言語情報に対応したイラストの迅速な選択を可能とし、コミュニケーションの場面における高速な情報伝達の支援を図る。

具体的には、ビジュアルコミュニケーションシステムは、言語情報を基に思い通りに編集可能な視覚情報に変換し、会議などのコミュニケーションの場で頭の中の情景の短時間での正確な意思疎通を可能にする。ビジュアルコミュニケーションシステムは、コミュニケーションの場における発話や文字入力などの言語情報をリアルタイムで解析し、解析すると同時に言語情報に関連するイラストの候補として１以上のサムネイル画像を特定エリアに表示する。ビジュアルコミュニケーションシステムは、言語情報とサムネイル画像とが対応付けられた第１の対応情報を有しており、言語情報を受け付けると、第１の対応情報におけるその言語情報に対応する１以上のサムネイル画像を特定して表示する。また、ビジュアルコミュニケーションシステムは、サムネイル画像とイラストとが対応付けられた第２の対応情報を有している。イラストが３次元画像である場合に、サムネイル画像を２次元画像とすることで、ビジュアルコミュニケーションシステムは、イラストを表示する場合に比べて、サムネイル画像を高速に表示できる。ユーザからの言語情報が受け付けられるたびに、表示画面上のサムネイル画像が新しく切り替わって高速に更新表示され得る。これにより、ユーザが会話等による情報伝達を止めずにその中から、発話又は文字入力された際の頭の中の情景に近い１以上のサムネイル画像を選択できる。第２の対応情報に応じて、選択されたサムネイル画像に紐づけられた３次元イラストデータが検索され、特定された３次元イラストデータが表示される。これにより、３次元イラストデータに対して３次元的な編集処理（３次元的な移動、拡縮、回転）を行うことができる。その後に、ビジュアルコミュニケーションシステムは、３次元的な編集処理が可能な３次元イラストデータを２次元的な編集処理が可能な２次元イラストデータに変換（固定化）する。これに応じて、２次元イラストデータに対して、２次元的な編集処理（一部を自由に消したり上から付け加えたり色を塗ったりすること）が可能である。この言語情報の自動認識をトリガーとするサムネイル画像の高速な切り替え表示及びそれに応じた２段階の編集処理により、リアルタイムのコミュニケーションの場で、頭の中の情景を短時間で正確に表現でき、迅速かつ正確な意思疎通が可能となる。

より具体的には、ビジュアルコミュニケーションシステム４は、図１に示すように構成され得る。図１は、ビジュアルコミュニケーションシステム４のシステム構成を示すシステム構成図である。

ビジュアルコミュニケーションシステム４は、クライアント端末１、サーバ２、及び接続部３を有する。接続部３は、クライアント端末１及びサーバ２を互いに通信可能に接続する。

図２は、ビジュアルコミュニケーションシステム４の機能構成を示すブロック図である。クライアント端末１は、言語情報入力部１００、画面表示制御部２００、描画操作部３００を有する。サーバ２は、描画情報生成部４００及び記憶部５００を有する。記憶部５００は、プログラム５００ａを格納する。

ビジュアルコミュニケーションシステム４は、ユーザからの起動要求をクライアント端末１で受け付けると、起動要求がクライアント端末１からサーバ２へ送信され、サーバ２で起動要求に応じてプログラム５００ａが記憶部５００から読み出される。ビジュアルコミュニケーションシステム４は、プログラム５００ａに従い、例えば図２に例示するように、クライアント端末１内に言語情報入力部１００、画面表示制御部２００、描画操作部３００を機能的に構成し、サーバ２内に描画情報生成部４００を機能的に構成する。

なお、ビジュアルコミュニケーションシステム４は、クライアント端末１内の画面表示制御部２００と描画操作部３００とをサーバ２または別のサーバ内に構成してもよい。あるいは、ビジュアルコミュニケーションシステム４は、言語情報入力部１００、画面表示制御部２００、描画操作部３００、描画情報生成部４００を含むすべての機能構成をクライアント端末１内で完結するように構成しても良い。あるいは、ビジュアルコミュニケーションシステム４は、画面表示制御部２００に含まれる複数の要素の一部（例えば、ユーザインタフェース及びそれに近い部分）をクライアント端末１内に構成し、残りの部分をサーバ２または別のサーバ内に構成してもよい。同様に、ビジュアルコミュニケーションシステム４は、描画操作部３００に含まれる複数の要素の一部（例えば、ユーザインタフェース及びそれに近い部分）をクライアント端末１内に構成し、残りの部分をサーバ２または別のサーバ内に構成してもよい。

接続部３は、有線通信回線及び／又は無線通信回線であってもよく、いわゆる通信ネットワークであってもよいし、通信ケーブル等であってもよい。接続部３は、インターネット、移動体通信網、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）等のうち１つ以上を用いて構築されていてもよい。接続部３は、有線通信だけでなく、３Ｇ（３ｒｄＧｅｎｅｒａｔｉｏｎ）、４Ｇ（４ｔｈＧｅｎｅｒａｔｉｏｎ）、５Ｇ（５ｔｈＧｅｎｅｒａｔｉｏｎ）、Ｗｉ－Ｆｉ（ＷｉｒｅｌｅｓｓＦｉｄｅｌｉｔｙ）（登録商標）、ＷｉＭＡＸ（ＷｏｒｌｄｗｉｄｅＩｎｔｅｒｏｐｅｒａｂｉｌｉｔｙｆｏｒＭｉｃｒｏｗａｖｅＡｃｃｅｓｓ）またはＬＴＥ（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ）等の無線通信によるネットワークが含まれてもよい。プログラム５００ａがクライアント端末１内に格納され各機能構成がクライアント端末１内で完結するように構成される場合、接続部３は省略されてもよい。

クライアント端末１において、言語情報入力手段としての言語情報入力部１００は、ユーザによる言語情報の入力を受け付ける。画面表示制御部２００は、ディスプレイ５０６（図３参照）に文字・イラスト等の画像を表示する。描画操作部３００は、ユーザによる描画操作を受け付ける。ここで、描画とは、手書きだけでなく、ディスプレイ５０６への描画を目的としたディスプレイ５０６上での選択動作等も含まれる。クライアント端末１の描画操作部３００は、サーバ２の描画情報生成部４００へ描画操作要求を送信する。サーバ２の描画情報生成部４００は、描画操作要求に応じて、表示画像の表示形態を変化させるように描画情報を更新してクライアント端末１へ送信する。クライアント端末１は、更新後の描画情報を受信し、その描画情報に応じた画像をディスプレイ５０６に表示する。これにより、ユーザによる描画操作の結果がクライアント端末１のディスプレイ５０６に表示される。

クライアント端末１、サーバ２は、それぞれ、図３に示すようなコンピュータ５でハードウェア的に構成されてもよい。図３は、ビジュアルコミュニケーションシステム４に適用されるコンピュータ５のハードウェア構成を示す図である。

コンピュータ５は、図３に示されているように、ＣＰＵ５０１、ＲＯＭ５０２、ＲＡＭ５０３、ＨＤ５０４、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）コントローラ５０５、ディスプレイ５０６、外部機器接続Ｉ／Ｆ（Ｉｎｔｅｒｆａｃｅ）５０８、ネットワークＩ／Ｆ５０９、バスライン５１０、キーボード５１１、ポインティングデバイス５１２、ＤＶＤ－ＲＷ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋＲｅｗｒｉｔａｂｌｅ）ドライブ５１４、メディアＩ／Ｆ５１６、動作取得デバイス５１７、マイク５１８、スピーカ５１９、カメラ５２０を備えている。

これらのうち、ＣＰＵ５０１は、コンピュータ５全体の動作を制御する。ＲＯＭ５０２は、ＩＰＬ等のＣＰＵ５０１の駆動に用いられるプログラムを記憶する。ＲＡＭ５０３は、ＣＰＵ５０１のワークエリアとして使用される。ＨＤ５０４は、プログラム５００ａ等の各種データを記憶する。ＨＤＤコントローラ５０５は、ＣＰＵ５０１の制御にしたがってＨＤ５０４に対する各種データの読み出し又は書き込みを制御する。表示手段としてのディスプレイ５０６は、カーソル、メニュー、ウィンドウ、文字、又は画像などの各種情報を表示する。外部機器接続Ｉ／Ｆ５０８は、各種の外部機器を接続するためのインターフェースである。この場合の外部機器は、例えば、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）メモリやプリンタ等である。ネットワークＩ／Ｆ５０９は、接続部３を利用してデータ通信をするためのインターフェースである。バスライン５１０は、図３に示されているＣＰＵ５０１等の各構成要素を電気的に接続するためのアドレスバスやデータバス等である。

また、キーボード５１１は、文字、数値、各種指示などの入力のための複数のキーを備えた入力手段の一種である。ポインティングデバイス５１２は、各種指示の選択や実行、処理対象の選択、カーソルの移動などを行う入力手段の一種である。ＤＶＤ－ＲＷドライブ５１４は、着脱可能な記録媒体の一例としてのＤＶＤ－ＲＷ５１３に対する各種データの読み出し又は書き込みを制御する。なお、ＤＶＤ－ＲＷに限らず、ＤＶＤ－Ｒ等であってもよい。メディアＩ／Ｆ５１６は、フラッシュメモリ等の記録メディア５１５に対するデータの読み出し又は書き込み（記憶）を制御する。

動作取得デバイス５１７は、ユーザの動作を検出し、電気信号に変える回路で、入力手段の一種である。ユーザの動作の検出は、光の反射を検出する光学式、ユーザに取り付けられた磁器センサ、機械式センサ、磁気センサの検出結果を用いるもの、またはユーザの画像を解析する方式等いずれか、またはそれらを組み合わせてもよい。

マイク５１８は、音を電気信号に変える内蔵型の回路である。スピーカ５１９は、電気信号を物理振動に変えて音楽や音声などの音を生み出す内蔵型の回路である。

スピーカ５１９は、電気信号を物理振動に変えて音楽や音声などの音を生み出す内蔵型の回路である。

カメラ５２０は、被写体を撮像して画像データを得る内蔵型の撮像手段の一種である。

なお、サーバ２に適用されるコンピュータ５において、ＨＤ５０４は、記憶部５００に対応し、プログラム５００ａを格納する。クライアント端末１に適用されるコンピュータ５において、サーバ２から接続部３経由でプログラム５００ａがダウンロードされＨＤ５０４に格納され、ＣＰＵ５０１によりプログラム５００ａがＨＤ５０４から読み出され実行されることで、ＲＡＭ５０３内に図２に示すような機能構成が、コンパイル時に一括して又は処理の進行に応じて順次に展開され得る。また、サーバ２に適用されるコンピュータ５において、プログラム５００ａがＣＰＵ５０１により実行されることで、ＲＡＭ５０３内に図２に示すような機能構成が、コンパイル時に一括して又は処理の進行に応じて展開され得る。

また、サーバ２に適用されるコンピュータ５は、ユーザインタフェースに関する構成が省略されていてもよく、ディスプレイ５０６、キーボード５１１、及びポインティングデバイス５１２、動作取得デバイス５１７のうち少なくとも１つが省略されていてもよい。

また、クライアント端末１、サーバ２は、コンピュータ５以外にも、ＩＷＢ（ＩｎｔｅｒａｃｔｉｖｅＷｈｉｔｅＢｏａｒｄ：相互通信が可能な電子式の黒板機能を有する白板）、デジタルサイネージ等の出力装置、ＨＵＤ（ＨｅａｄＵｐＤｉｓｐｌａｙ）装置、産業機械、医療機器、ネットワーク家電、自動車（ＣｏｎｎｅｃｔｅｄＣａｒ）、携帯電話、スマートフォン、タブレット端末、ゲーム機、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）等であってもよい。

図２に示す言語情報入力部１００は、機能的に、図４に示すように構成され得る。図４は、言語情報入力部１００の構成を示す図である。

言語情報入力部１００は、音声入力部１０１、文字入力部１０２、認識手段としての認識部１０３および認識結果記憶部１０５を備える。これら各部は、ＨＤ５０４からＲＡＭ５０３上に展開されたプログラムに従ったＣＰＵ５０１からの命令によって動作することで実現される機能または手段である。

音声入力部１０１は、マイク５１８によってユーザの音声が変換された音声信号、またはネットワークＩ／Ｆ５０９経由で受信された音声信号を言語情報として受け付ける。音声入力部１０１は、音声信号を認識部１０３へ供給する。

文字入力部１０２は、キーボード５１１、ポインティングデバイス５１２、動作取得デバイス５１７によってユーザから入力された文字信号、またはネットワークＩ／Ｆ経由で受信された文字信号を言語情報として受け付ける。文字入力部１０２は、文字信号を認識部１０３へ供給する。文字入力部１０２への文字の入力は、キーボード５１１へのタイピングまたは、ポインティングデバイス５１２や動作取得デバイス５１７による手書き入力を想定する。

認識部１０３は、音声入力部１０１又は文字入力部１０２から言語情報を受けると、言語情報に対して文字情報の認識を行う。認識部１０３は、認識結果を認識結果記憶部１０５に記憶する。

認識部１０３は、音声信号を音声入力部１０１から受けると、音声信号に対して音声認識処理を行い文字情報へ変換する。認識部１０３は、文字ごとにテンプレート音声信号を有する。認識部１０３は、音声信号に対してテンプレート音声信号を用いたマッチング処理を行い、そのマッチングスコアに基づいて音声ごとに文字を認識できる。これにより、認識部１０３は、音声信号に対する認識結果として文字情報を生成する。

認識部１０３は、文字信号を文字入力部１０２から受けると、文字信号に対する認識結果として文字情報を生成する。認識部１０３は、キーボード５１１へのタイピングによる文字情報を受けた場合、その文字情報を認識結果とする。認識部１０３は、ポインティングデバイス５１２や動作取得デバイス５１７による手書き文字画像を受けた場合、手書き文字画像に対してテキスト認識処理を行い文字情報へ変換する。認識部１０３は、文字ごとにテンプレート文字画像を有する。認識部１０３は、手書き文字画像に対してテンプレート文字画像を用いたマッチング処理を行い、そのマッチングスコアに基づいて手書き文字画像ごとに文字を認識できる。これにより、認識部１０３は、手書き文字画像に対する認識結果として文字情報を生成する。認識部１０３による認識はこれに限られず、例えば、入力された音声信号に含まれる特徴的な波形パターンを認識結果として生成する等してもよい。

認識部１０３は、認識結果記憶部１０５に記憶した認識結果を、画面表示制御部２００に送信する。

図２に示す画面表示制御部２００は、機能的に、図５に示すように構成され得る。図５は、画面表示制御部２００の構成を示す図である。

画面表示制御部２００は、第１の画像検索手段としてのサムネイル検索部２０２、第１の画像表示手段としてのサムネイル表示部２０３、サムネイル選択部２０４、第２の画像検索手段としてのイラスト検索部２０５、第２の画像表示手段としてのイラスト表示部２０６、優先画像提示手段である優先画像提示部２２０、サムネイル化部２１１、イラスト化部２１３、３次元モデル入力部２１４、キーワード化部２１５、及び登録文字入力部２１６を備える。優先画像提示部２２０は、文脈解析部２０７、優先度決定部２０８、及び選択傾向蓄積部２０９を備える。

これら各部は、ＨＤ５０４からＲＡＭ５０３上に展開されたプログラム５００ａに従ったＣＰＵ５０１からの命令によって動作することで実現される機能または手段である。

また、画面表示制御部２００は、第１の記憶手段であるサムネイル情報蓄積部２１０、第２の記憶手段であるイラスト情報蓄積部２１２を備える。これら各部は、ＲＯＭ５０２またはＲＡＭ５０３またはＨＤ５０４によって構築される。

サムネイル情報蓄積部２１０及びイラスト情報蓄積部２１２へのデータ蓄積について図５及び図６を用いて説明する。図６は、画像データの変換を示すデータフロー図である。

３次元モデル入力部２１４は、３次元モデルデータが入力される。３次元モデルデータは、例えば図６（ａ）に示すようなポリゴンデータであり、複数の空間座標を含む。３次元モデルデータは、３次元画像データフォーマット（例えば、ＯＢＪフォーマット）に対応している。３次元モデル入力部２１４は、３次元モデルデータをイラスト化部２１３へ供給する。

イラスト化部２１３は、３次元モデルデータを３次元イラストデータに変換する。３次元イラストデータは、例えば図６（ｂ）に示すような３次元的な線画データであり、複数の空間座標を含む。３次元イラストデータは、３次元画像データフォーマット（例えば、ＯＢＪフォーマット）に対応している。イラスト化部２１３は、３次元モデルデータで示される３次元形状のエッジの３次元位置を特定して線画でつなぎ合わせることなどにより、３次元モデルデータから線画の情報を抽出し、３次元イラストデータを生成する。イラスト化部２１３は、３次元イラストデータをイラスト情報蓄積部２１２に追加的に格納する。

これにより、イラスト情報蓄積部２１２には、図７に示すようなイラスト情報２１２ａが蓄積される。図７は、イラスト情報蓄積部２１２に蓄積されるイラスト情報２１２ａのデータ構造を示す図である。イラスト情報２１２ａは、３次元イラストデータとその識別情報とが１以上の３次元イラストデータについて対応付けられている。例えば、イラスト情報２１２ａは、識別情報欄２１２ａ１及びアクセス情報欄２１２ａ２を有する。識別情報欄２１２ａ１には、３次元イラストデータを識別するための情報が記録され、例えば３次元イラストデータのＩＤ番号が記録される。アクセス情報欄２１２ａ２には、３次元イラストデータにアクセスするための情報が記録され、例えば３次元イラストデータのファイル名が記録される。３次元イラストデータにアクセスするための情報はファイル名に限らず、３次元イラストデータが記憶されているネットワーク上のアドレス情報等であってもよい。

サムネイル化部２１１は、イラスト情報蓄積部２１２に３次元イラストデータが追加されたタイミングで、又は、所定の周期ごとに、３次元イラストデータをイラスト情報蓄積部２１２から取得し、３次元イラストデータを２次元サムネイルデータに変換する。２次元サムネイルデータは、例えば図６（ｃ）に示すような２次元的な線画データであり、３次元イラストデータを縮小し２次元化されたことに相当する線画データである。２次元サムネイルデータは、２次元画像データフォーマット（例えば、ＢＭＰフォーマット）に対応している。２次元サムネイルデータは、３次元イラストデータの識別情報に関連付けられる。サムネイル化部２１１は、３次元イラストデータに含まれた複数の空間座標が所定の平面に投影された複数の平面座標を求め、求められた複数の平面座標に応じた２次元的な線画データを縮小することなどにより、３次元イラストデータから縮小及び２次元化された２次元サムネイルデータを生成する。サムネイル化部２１１は、２次元サムネイルデータを３次元イラストデータの識別情報に関連付けた形でサムネイル情報蓄積部２１０に追加的に格納する。

これにより、サムネイル情報蓄積部２１０には、図８に示すようなサムネイル情報２１０ａが蓄積される。図８は、サムネイル情報蓄積部２１０に蓄積されるサムネイル情報２１０ａのデータ構造を示す図である。サムネイル情報２１０ａは、キーワードと３次元イラストデータと２次元サムネイルデータとが１以上の２次元サムネイルデータについて対応付けられた情報である。サムネイル情報２１０ａは、第１の対応情報として、キーワードと２次元サムネイルデータとが対応付けられた情報を含む。図８に示されるように、一つの２次元サムネイルデータに対して複数のキーワードが設定されていてもよい。また、画像の一例である２次元サムネイルデータに対応付けられるのはキーワードに限られない。例えば認識部１０３が音声信号に含まれる特徴的な波形パターンを認識結果として生成した場合は、波形パターンの情報と対応付けることもできる。また、サムネイル情報２１０ａは、第２の対応情報として、２次元サムネイルデータと３次元イラストデータとが対応付けられた情報を含む。例えば、サムネイル情報２１０ａは、キーワード欄２１０ａ１、識別情報欄２１０ａ２及びアクセス情報欄２１０ａ３を有する。キーワード欄２１０ａ１には、２次元サムネイルデータが呼び出されるためのキーワードが記録されるが、キーワードが未登録の状態では空欄になっている。識別情報欄２１０ａ２には、２次元サムネイルデータに紐づけられた３次元イラストデータを識別するための情報が記録され、例えば３次元イラストデータのＩＤ番号が記録される。アクセス情報欄２１０ａ３には、２次元サムネイルデータにアクセスするための情報が記録され、例えば２次元サムネイルデータのファイル名が記録される。２次元サムネイルデータにアクセスするための情報はファイル名に限らず、２次元サムネイルが記憶されているネットワーク上のアドレス情報等であってもよい。キーワードは、単語、表音文字、表意文字、文章、数字、これらの組み合わせ等いずれであってもよい。

登録文字入力部２１６は、イラスト情報蓄積部２１２に３次元イラストデータが追加されたタイミングで、又は、所定の周期ごとに、３次元イラストデータに紐づけるべき文字情報が入力される。登録文字入力部２１６は、文字情報を３次元イラストデータの識別情報に関連付けられた形で受け付ける。このとき、登録文字入力部２１６は、点線の矢印で示すように、イラスト情報蓄積部２１２から文字情報が紐づけるべき候補となる複数の３次元イラストデータの識別情報を取得して、複数の３次元イラストデータの識別情報から識別情報が選択入力されてもよい。登録文字入力部２１６は、文字情報を３次元イラストデータの識別情報に関連付けられた形でキーワード化部２１５へ供給する。

キーワード化部２１５は、文字情報を３次元イラストデータの識別情報に関連付けられた形で受けると、サムネイル情報蓄積部２１０にアクセスして、３次元イラストデータの識別情報に対応したキーワード欄２１０ａ１に文字情報を追加的に書き込む。

これにより、サムネイル情報蓄積部２１０に蓄積されるサムネイル情報２１０ａにおいて、キーワード欄２１０ａ１には、図８に示すように、１以上のキーワードが追加的に記録される。

ここで、２次元サムネイルデータのデータサイズは、３次元イラストデータのデータサイズより大幅に小さい。言語情報からのイラスト検索時にデータサイズの軽いサムネイルを使用することで画像呼び出し時のタイムラグを最小限に抑えることを可能とする。

選択傾向蓄積部２０９へのデータ蓄積について図５を用いて説明する。文脈解析部２０７は、言語情報入力部１００から供給された言語情報認識結果を基に文脈を解析する。また、サムネイル選択部２０４での選択情報を選択傾向蓄積部２０９でユーザの選択傾向として蓄積する。この文脈解析部２０７の解析結果と選択傾向蓄積部２０９の蓄積結果とを基に、優先度決定部２０８は、２次元サムネイルデータを表示する際の優先度を決定し、決定結果をサムネイル表示部２０３へ供給する。サムネイル表示部２０３は、優先度決定部２０８の決定結果に応じて、優先度の高い順に２次元サムネイルデータをディスプレイ５０６に表示させる。

優先度の例としては、言語情報としての異国語に対応して決定された優先度であってもよい。優先度決定部２０８は、言語の種類に応じて、出現サムネイルが変化されるような優先度を決定しても良い。例えば、アフリカ語で「学校」という言葉を検知した際には、日本の一般的な学校を示すイラストではなくアフリカに多く見られる学校を示すイラストが優先的に表示されるように優先度が決定される。

イラストの表示方法について図５を用いて説明する。第１の画像検索手段としてのサムネイル検索部２０２は、言語情報認識結果を基に２次元サムネイルデータを検索する。サムネイル検索部２０２は、サムネイル情報蓄積部２１０にアクセスし、言語情報認識結果である文字情報に含まれるキーワードでサムネイル情報２１０ａを検索し、そのキーワードに対応した１以上の２次元サムネイルデータとそれに関連付けられた３次元イラストデータの識別情報とを検索結果として呼び出し、サムネイル表示部２０３へ供給する。第１の画像表示手段としてのサムネイル表示部２０３は、検索された１以上の２次元サムネイルデータを接続部３経由で描画情報生成部４００（図２参照）へ供給する。これに応じて、描画情報生成部４００は、検索された１以上の２次元サムネイルデータをクライアント端末１のディスプレイ５０６の特定場所に表示させる。このように、第１の画像表示手段としてのサムネイル表示部２０３は、認識手段１０３による認識結果に基づき、入力された言語情報に対応する画像を、画像を表示する表示手段に表示する。選択手段としてのサムネイル選択部２０４は、ユーザによる選択操作、一例としてディスプレイ５０６上に表示された２次元サムネイルデータをポインティングデバイスで選択する操作に応じて、ディスプレイ５０６に表示された１以上の２次元サムネイルデータから２次元サムネイルデータを選択し、選択された２次元サムネイルデータに関連付けられた３次元イラストデータの識別情報を第２の画像検索手段としてのイラスト検索部２０５へ供給する。イラスト検索部２０５は、３次元イラストデータの識別情報を基に３次元イラストデータを検索する。イラスト検索部２０５は、イラスト情報蓄積部２１２にアクセスし、その識別情報に対応した３次元イラストデータを検索結果として呼び出し、イラスト表示部２０６へ供給する。第２の画像表示手段としてのイラスト表示部２０６は、検索された３次元イラストデータを接続部３経由で描画情報生成部４００（図２参照）へ供給する。これに応じて、描画情報生成部４００は、検索された３次元イラストデータをクライアント端末１のディスプレイ５０６上に表示させる。

なお、サムネイル化を行わず、３次元イラストデータをサムネイルとして表示させるようにしてもよい。以下において詳述する。

第１の記憶手段である３次元モデル蓄積部２１７へのデータ蓄積について図９及び図６を用いて説明する。

図９に示すように、３次元イラストデータをサムネイルとして表示させる場合、画面表示制御部２００は、図５に示したイラスト検索部２０５、サムネイル化部２１１、イラスト情報蓄積部２１２、を不要とする。また、図９に示すように、画面表示制御部２００は、サムネイル情報蓄積部２１０に代えて３次元モデル蓄積部２１７を備えるとともに、サムネイル検索部２０２に代えて３次元モデル検索部２１８を備える。

３次元モデル入力部２１４は、３次元モデルデータが入力される。３次元モデルデータは、例えば図６（ａ）に示すようなポリゴンデータであり、複数の空間座標を含む。３次元モデルデータは、３次元画像データフォーマット（例えば、ＯＢＪフォーマット）に対応している。３次元モデル入力部２１４は、３次元モデルデータを３次元モデル蓄積部２１７へ供給する。

登録文字入力部２１６は、３次元モデル蓄積部２１７に３次元モデルデータが追加されたタイミングで、又は、所定の周期ごとに、３次元モデルデータに紐づけるべき文字情報が入力される。登録文字入力部２１６は、文字情報を３次元モデルデータの識別情報に関連付けられた形で受け付ける。

キーワード化部２１５は、文字情報を３次元モデルデータの識別情報に関連付けられた形で受けると、３次元モデル蓄積部２１７にアクセスして、３次元モデルデータの識別情報に対応したキーワード欄２１７ａ１に文字情報を追加的に書き込む。

これにより、３次元モデル蓄積部２１７には、図１０に示すような３次元モデル情報２１７ａが蓄積される。図１０は、３次元モデル蓄積部２１７に蓄積される３次元モデル情報２１７ａのデータ構造を示す図である。３次元モデル情報２１７ａは、キーワードと３次元モデルデータとが対応付けられた情報を含む。図１０に示されるように、一つの３次元モデルデータに対して複数のキーワードが設定されていてもよい。また、画像の一例である３次元モデルに対応付けられるのはキーワードに限られない。例えば認識部３が音声信号に含まれる特徴的な波形パターンを認識結果として生成した場合は、波形パターンの情報と対応付けることもできる。

例えば、３次元モデル情報２１７ａは、キーワード欄２１７ａ１、識別情報欄２１７ａ２及びアクセス情報欄２１７ａ３を有する。キーワード欄２１７ａ１には、３次元モデルデータが呼び出されるためのキーワードが記録されるが、キーワードが未登録の状態では空欄になっている。識別情報欄２１７ａ２には、３次元モデルデータを識別するための情報が記録され、例えば３次元モデルデータのＩＤ番号が記録される。アクセス情報欄２１７ａ３には、３次元モデルデータにアクセスするための情報が記録され、例えば３次元モデルデータのファイル名が記録される。３次元モデルデータにアクセスするための情報はファイル名に限らず、ネットワーク上の３次元モデルデータが記憶されているアドレス等であってもよい。

イラストの表示方法について説明する。３次元モデル検索部２１８は、言語情報認識結果を基に３次元モデルデータを検索する。３次元モデル検索部２１８は、３次元モデル蓄積部２１７にアクセスし、言語情報認識結果である文字情報に含まれるキーワードで３次元モデル情報２１７ａを検索し、その文字情報（例えば、キーワード）に対応した１以上の３次元モデルデータを検索結果として呼び出し、イラスト化部２１３へ供給する。イラスト化部２１３は、３次元モデルデータを３次元イラストデータに変換する。３次元イラストデータは、例えば図６（ｂ）に示すような３次元的な線画データであり、複数の空間座標を含む。３次元イラストデータは、３次元画像データフォーマット（例えば、ＯＢＪフォーマット）に対応している。イラスト化部２１３は、３次元モデルデータで示される３次元形状のエッジの３次元位置を特定して線画でつなぎ合わせることなどにより、３次元モデルデータから線画の情報を抽出し、３次元イラストデータを生成する。

第１の画像表示手段としてのサムネイル表示部２０３は、生成された３次元イラストデータを接続部３経由で描画情報生成部４００（図２参照）へ供給する。これに応じて、描画情報生成部４００は、３次元イラストデータをクライアント端末１のディスプレイ５０６の特定場所に表示させる。このように、第１の画像表示手段としてのサムネイル表示部２０３は、認識手段１０３による認識結果に基づき、入力された言語情報に対応する画像を、画像を表示する表示手段に表示する。第１の表示制御手段はイラスト化部２１３によるイラスト化を実施せずに、検索結果である画像をそのまま表示してもよい。３次元モデルデータの画像も、その３次元モデルデータがイラスト化された結果である３次元イラストデータの画像も、いずれも入力された言語情報に対応する画像である。選択手段としてのサムネイル選択部２０４は、ユーザによる選択操作、一例としてディスプレイ５０６上に表示された３次元イラストデータをポインティングデバイスで選択する操作に応じて、ディスプレイ５０６に表示された１以上の３次元イラストデータから３次元イラストデータを選択し、選択された３次元イラストデータをイラスト表示部２０６へ供給する。第２の画像表示手段としてのイラスト表示部２０６は、検索された３次元イラストデータを接続部３経由で描画情報生成部４００（図２参照）へ供給する。これに応じて、描画情報生成部４００は、検索された３次元イラストデータをクライアント端末１のディスプレイ５０６上に表示させる。

第１の画像検索手段としての３次元モデル検索部２１８の検索対象は画像であればよく、静止画、動画、イラスト、写真、２次元イラスト、３次元イラスト、アニメーション、立体画像等のその他いずれであってもよい。

第１の画像表示手段としてのサムネイル表示部２０３、第２の画像表示手段としてのイラスト表示部２０６の表示対象も画像であればよく、静止画、動画、イラスト、写真、２次元イラスト、３次元イラスト、アニメーション、立体画像等のその他いずれであってもよい。

第１の記憶手段である３次元モデル蓄積部２１７は３次元モデル情報２１７ａを蓄積しているが画像情報であればこれに限られず、静止画、動画、イラスト、写真、２次元イラスト、３次元イラスト、アニメーション、立体画像等のその他いずれであってもよい。

次に、優先画像提示部２２０が機械学習による予測によって優先画像を提示する例について説明する。

＜機能ブロック＞
図１１は、実施形態における優先画像提示部２２０の機能ブロック図である。図１１に示されるように、優先画像提示部２２０は、選択画像取得部２２１、教師データ格納部２２２、機械学習部２２３、学習済みモデル格納部２２４、推論部２２５、通知部２２６を備えることができる。以下、それぞれについて説明する。

選択画像取得部２２１は、サムネイル選択部２０４から、文字情報および選択された画像情報、一例としてサムネイル画像を取得する。

＜学習フェーズ＞
教師データ格納部２２２には、機械学習のための教師データが格納されている。教師データ格納部２２２内の教師データは、選択画像取得部２２１が一定期間取得して蓄積された文字情報と、選択画像を示すデータ、例えば画像ファイル名である。文字情報と画像ファイル名が組となったデータを複数備えた教師データが教師データ格納部２２２に格納されている。

機械学習部２２３は、受信した選択画像データから、次に選択される画像情報を導出するための学習済みモデルを生成する。具体的には、機械学習部２２３は、受信した文字情報を入力データとし、その文字情報が受信された後に選択される画像を出力データとした教師データを用いて機械学習を行い、学習済みモデルを生成する。また、機械学習部２２３は、生成した学習済みモデルを学習済みモデル格納部２２４に格納する。

学習済みモデル格納部２２４には、機械学習部２２３が生成した学習済みモデルが格納されている。

＜推論フェーズ＞
推論部２２５は、現在の選択画像を取得して、次の選択画像を推論する。

具体的には、推論部２２５は、選択画像取得部２２１から、文字情報と、選択された画像を特定するための情報（例えば、画像ファイル名）とを取得する。また、推論部２２５は、学習済みモデル格納部２２４内の学習済みモデルに文字情報を入力して、次に選択される画像情報（例えば、画像ファイル名）を出力させる。

通知部２２６は、サムネイル表示部２０３に優先的に表示する画像として、推論部２２５から出力された、次に選択される画像情報（例えば、画像ファイル名）を通知する。

なお、上記の＜学習フェーズ＞において、機械学習部２２３は、文字情報に加えて、ユーザのコミュニケーションシステムシステム４へログインＩＤ等のユーザ情報も取得し、学習するようにしてもよい。この場合、機械学習部２２３は、さらに言語情報を入力したユーザに応じた画像を学習することができる。

図２に示す描画操作部３００は、機能的に、図１２に示すように構成され得る。図１２は、描画操作部３００の構成を示す図である。

描画操作部３００は、イラスト編集部３０１、固定化部３０２、描画部３０３、２次元データ編集入力部３０４、及び出力部３０５を備える。

第１の編集手段（３次元イラストデータ編集入力手段）としてのイラスト編集部３０１は、３次元イラストデータを画面表示制御部２００から受け、３次元イラストデータに対する３次元的な編集処理を行う。イラスト編集部３０１は、３次元的な編集処理において、ユーザによる、３次元的な回転操作、３次元的な移動操作、３次元的な拡大操作、３次元的な縮小操作などを受け付け、それらの操作要求を描画部３０３、出力部３０５、接続部３経由で描画情報生成部４００（図２参照）へ供給する。３次元的な回転操作は、３次元イラストデータに含まれた複数の空間座標がそれらの相対的な位置関係を維持しながら所定の軸周りに３次元的に回転されるように変更される操作である。３次元的な拡大操作は、３次元イラストデータに含まれた複数の空間座標が所定の点から等しい距離割合で放射状に遠ざかるように変更される操作である。３次元的な縮小操作は、３次元イラストデータに含まれた複数の空間座標が所定の点に対して等しい距離割合で放射状に近づくように変更される操作である。これらの操作要求に応じて、描画情報生成部４００は、クライアント端末１の描画部３０３における３次元イラストデータの表示形態を変更する。これにより、クライアント端末１のディスプレイ５０６上における３次元イラストデータの位置、大きさ、向きが３次元的に変更され得る。

変換手段としての固定化部３０２は、所定の操作（例えば、２次元的な編集処理が活性化される操作、より具体的には２次元的な編集処理が可能な状態へ移行する操作）に応じて、３次元的な編集処理が可能な３次元イラストデータを２次元的な編集処理が可能な２次元イラストデータへ変換（固定化）する。２次元イラストデータは、図６（ｄ）に示すような２次元的な線画データであり、３次元イラストデータに３次元的な編集処理が施され２次元化されたことに相当する線画データである。２次元イラストデータは、２次元画像データフォーマット（例えば、ＢＭＰフォーマット）に対応している。固定化部３０２は、３次元イラストデータに含まれた複数の空間座標がディスプレイ５０６の画面に対応した平面に投影された複数の平面座標を求め、求められた複数の平面座標に応じた２次元的な線画データを生成することなどにより、３次元イラストデータを２次元イラストデータへ変換して描画部３０３に固定する。

第２の編集手段（２次元データ編集入力手段）としての２次元データ編集入力部３０４は、２次元イラストデータに対する２次元的な編集処理を行う。２次元データ編集入力部３０４は、２次元的な編集処理において、ユーザによる、２次元的な回転操作、２次元的な移動操作、２次元的な拡大操作、２次元的な縮小操作、一部を消す操作、手書きの線画を付け加える操作、色を塗る操作などを受け付け、それらの操作要求を描画部３０３、出力部３０５、接続部３経由で描画情報生成部４００（図２参照）へ供給する。２次元的な回転操作は、２次元イラストデータに含まれた複数の平面座標がそれらの相対的な位置関係を維持しながら所定の点周りに２次元的に回転されるように変更される操作である。２次元的な拡大操作は、２次元イラストデータに含まれた複数の平面座標が所定の点から等しい距離割合で放射状に遠ざかるように変更される操作である。２次元的な縮小操作は、２次元イラストデータに含まれた複数の平面座標が所定の点に対して等しい距離割合で放射状に近づくように変更される操作である。一部を消す操作は、２次元イラストデータに含まれた複数の平面座標の一部が削除される操作である。手書きの線画を付け加える操作は、２次元イラストデータに含まれた複数の平面座標に、手書きの線画に対応した複数の平面座標が追加される操作である。色を塗る操作は、２次元イラストデータに含まれた複数の平面座標に、所定の色属性に紐づけられた複数の平面座標が追加される操作である。これらの操作要求に応じて、描画情報生成部４００は、クライアント端末１の描画部３０３における２次元イラストデータの表示形態を変更する。これにより、クライアント端末１のディスプレイ５０６上における２次元イラストデータの位置、大きさ、向きが２次元的に変更されたり、２次元イラストデータの一部が消されたり、２次元イラストデータに手書きの線画が付け加えたり、２次元イラストデータに色が塗られたりする。

描画部３０３には、マウスや指やスタイラスペンやジェスチャーなどによって入力も可能である。描画部３０３の情報を出力部３０５にて描画情報生成部４００に出力する。これに応じて、描画情報生成部４００は、クライアント端末１の描画部３０３における手書き入力された線画等が追加された描画情報を生成する。これにより、クライアント端末１のディスプレイ５０６上に手書き入力された線画等が表示される。

これら各部は、ＨＤ５０４からＲＡＭ５０３上に展開されたプログラムに従ったＣＰＵ５０１からの命令によって動作することで実現される機能または手段である。

次に、ビジュアルコミュニケーションシステム４の動作について図１３を用いて説明する。図１３は、ビジュアルコミュニケーションシステムの動作を示すフローチャートである。

ビジュアルコミュニケーションシステム４は、コミュニケーションを支援するための準備として、所定の情報が登録される登録処理（Ｓ１）を行う。その後、ビジュアルコミュニケーションシステム４は、ユーザから起動要求があるまで（Ｓ２でＮｏ）待機する。ビジュアルコミュニケーションシステム４は、ユーザから起動要求があると（Ｓ２でＹｅｓ）、プログラム５００ａを起動し、コミュニケーション支援処理（Ｓ３）を開始する。ビジュアルコミュニケーションシステム４は、ユーザから終了要求があるまで（Ｓ４でＮｏ）コミュニケーション支援処理（Ｓ３）を継続的に行う。ビジュアルコミュニケーションシステム４は、ユーザから終了要求があると（Ｓ４でＹｅｓ）、処理を終了する。

次に、登録処理（Ｓ１）の詳細について図１４を用いて説明する。図１４は、登録処理の流れを示すフローチャートである。

ビジュアルコミュニケーションシステム４は、プログラム５００ａが起動されると、３次元モデルデータの登録要求があるまで（Ｓ１１でＮｏ）待機する。ビジュアルコミュニケーションシステム４は、３次元モデルデータの登録要求があると（Ｓ１１でＹｅｓ）、３次元モデルデータが入力される（Ｓ１２）。３次元モデルデータは、例えばポリゴンデータ（図６（ａ）参照）である。ビジュアルコミュニケーションシステム４は、３次元モデルデータをイラスト化する（Ｓ１３）。すなわち、ビジュアルコミュニケーションシステム４は、３次元モデルデータを３次元イラストデータに変換する。３次元イラストデータは、例えば３次元的な線画データ（図６（ｂ）参照）である。ビジュアルコミュニケーションシステム４は、３次元イラストデータをイラスト情報蓄積部２１２に追加的に格納する。これにより、イラスト情報蓄積部２１２には、イラスト情報２１２ａ（図７参照）が登録される。

ビジュアルコミュニケーションシステム４は、３次元イラストデータをサムネイル化する（Ｓ１４）。すなわち、ビジュアルコミュニケーションシステム４は、３次元イラストデータを２次元サムネイルデータに変換する。２次元サムネイルデータは、例えば２次元的な線画データ（図６（ｃ）参照）である。ビジュアルコミュニケーションシステム４は、２次元サムネイルデータを３次元イラストデータの識別情報に関連付けた形でサムネイル情報蓄積部２１０に追加的に格納する。これにより、サムネイル情報蓄積部２１０に、サムネイル情報２１０ａ（図８参照）における２次元サムネイルデータと３次元イラストデータの識別情報とが登録される。

そして、ビジュアルコミュニケーションシステム４は、キーワードの登録要求があるまで（Ｓ１５でＮｏ）待機する。ビジュアルコミュニケーションシステム４は、キーワードの登録要求があると（Ｓ１５でＹｅｓ）、文字情報が３次元イラストデータの識別情報に関連付けられた形で入力される（Ｓ１６）。ビジュアルコミュニケーションシステム４は、文字情報をキーワード化する（Ｓ１７）。すなわち、ビジュアルコミュニケーションシステム４は、サムネイル情報蓄積部２１０にアクセスして、３次元イラストデータの識別情報に対応したキーワード欄２１０ａ１に文字情報を追加的に書き込む。これにより、サムネイル情報蓄積部２１０に、サムネイル情報２１０ａ（図８参照）における文字情報（キーワード）が登録される。なお、登録処理とコミュニケーション支援処理は、図１３に示したように両方行う必要はなく、その時点でサムネイル情報蓄積部２１０、イラスト情報蓄積部２１２に登録された情報に基づき、コミュニケーション支援処理のみ実行することも可能である。

図１４のフローチャートは図５の構成を前提に説明したが、適宜図９の構成にも適用可能である。つまり図９の構成に適用した場合は、ステップＳ１３とステップＳ１４は実行せず、ステップＳ１６に代えて、文字情報が３次元モデルデータと関連付けられる処理が実行され、その結果、３次元モデル蓄積部２１７に、図１０に示すような３次元モデル情報２１７ａが蓄積される。

次に、コミュニケーション支援処理（Ｓ３）の詳細について図１５、図１６を用いて説明する。図１５、図１６は、コミュニケーション支援処理の流れを示すフローチャートである。図１５の処理と図１６の処理とは、互いに並行して行われ得る。

図１５の処理において、ビジュアルコミュニケーションシステム４は、プログラム５００ａが起動され、ディスプレイ５０６に初期画面が表示されると、初期画面を介して、言語情報入力機能のＯＮ要求があるまで（Ｓ２１でＮｏ）待機する。ビジュアルコミュニケーションシステム４は、言語情報入力機能のＯＮ要求があると（Ｓ２１でＹｅｓ）、言語情報の入力があるまで（Ｓ２２でＮｏ）待機する。ビジュアルコミュニケーションシステム４は、言語情報の入力があると（Ｓ２２でＹｅｓ）、言語情報が音声情報であるか否かを判断する（Ｓ２３）。ビジュアルコミュニケーションシステム４は、言語情報が音声情報であれば（Ｓ２３でＹｅｓ）、音声情報に対して音声認識処理を行い文字情報へ変換し（Ｓ２４）、その文字情報を認識結果とする。ビジュアルコミュニケーションシステム４は、言語情報が音声情報でなければ（Ｓ２３でＮｏ）、言語情報が手書き文字画像であるか否かを判断する（Ｓ２５）。ビジュアルコミュニケーションシステム４は、言語情報が手書き文字画像であれば（Ｓ２５でＹｅｓ）、手書き文字画像に対してテキスト認識処理を行い文字情報へ変換し（Ｓ２６）、その文字情報を認識結果とする。ビジュアルコミュニケーションシステム４は、言語情報が手書き文字画像でなければ、すなわちキーボード５１１へのタイピングによる文字情報であれば（Ｓ２５でＮｏ）、その文字情報を認識結果とし、処理をＳ２７へ進める。ステップＳ２３～ステップＳ２６は一例としてビジュアルコミュニケーションシステム４における認識部１０３が実行する。

ビジュアルコミュニケーションシステム４は、サムネイル情報蓄積部２１０にアクセスし、言語情報認識結果である文字情報に含まれるキーワードで２次元サムネイルデータを検索する（Ｓ２７）。ビジュアルコミュニケーションシステム４は、検索された１以上の２次元サムネイルデータをディスプレイ５０６の特定場所に表示させる（Ｓ２８）。

ビジュアルコミュニケーションシステム４は、言語情報入力機能のＯＦＦ要求があるまで（Ｓ２９でＮｏ）、Ｓ２２～Ｓ２８の処理が高速に繰り返され得る。すなわち、ビジュアルコミュニケーションシステム４は、ユーザからの言語情報が受け付けられるたびに、表示画面上のサムネイル画像を新しく切り替えて高速に更新表示できる。これにより、ユーザが会話等による情報伝達を止めずにその中から、発話又は文字入力された際の頭の中の情景に近い１以上のサムネイル画像を選択できる。

ビジュアルコミュニケーションシステム４は、言語情報入力機能のＯＦＦ要求があると（Ｓ２９でＹｅｓ）、図１５の処理を終了する。

図１５のフローチャートは図５の構成を前提に説明したが、適宜図９の構成にも適用可能である。つまり図９の構成に適用した場合は、ステップＳ２７で３次元モデルデータを検索し、ステップＳ２８に代えて３次元モデルデータがイラスト化された３次元イラストデータを表示させる処理が実行される。

図１６の処理において、ビジュアルコミュニケーションシステム４は、Ｓ２８で表示された１以上の２次元サムネイルデータのうちの２次元サムネイルデータが選択されるまで（Ｓ３１でＮｏ）待機する。ビジュアルコミュニケーションシステム４は、Ｓ２８で表示された１以上の２次元サムネイルデータのうちの２次元サムネイルデータが選択されると（Ｓ３１でＹｅｓ）、イラスト情報蓄積部２１２にアクセスし、選択された２次元サムネイルデータに関連付けられた３次元イラストデータを検索する（Ｓ３２）。ビジュアルコミュニケーションシステム４は、検索された３次元イラストデータをディスプレイ５０６に表示させる（Ｓ３３）。

ビジュアルコミュニケーションシステム４は、３次元イラストデータに対する編集操作があるまで（Ｓ３４でＮｏ）待機し、３次元イラストデータに対する編集操作があると（Ｓ３４でＹｅｓ）、第１の編集処理を行う（Ｓ３５）。第１の編集処理は、３次元的な編集処理である。ビジュアルコミュニケーションシステム４は、第１の編集処理において、３次元的な回転操作、３次元的な移動操作、３次元的な拡大操作、３次元的な縮小操作などを受け付ける。それらの操作要求に応じて、ビジュアルコミュニケーションシステム４は、ディスプレイ５０６に表示された３次元イラストデータの表示形態を変更する（Ｓ３６）。ビジュアルコミュニケーションシステム４は、３次元イラストデータが２次元イラストデータに固定化されるまで（Ｓ３７でＮｏ）、Ｓ３４～Ｓ３６の処理を繰り返す。

ビジュアルコミュニケーションシステム４は、３次元イラストデータが２次元イラストデータに固定化されると（Ｓ３７でＹｅｓ）、２次元イラストデータに対する編集操作があるまで（Ｓ３８でＮｏ）待機する。ビジュアルコミュニケーションシステム４は、２次元イラストデータに対する編集操作があると（Ｓ３８でＹｅｓ）、第２の編集処理を行う（Ｓ３９）。第２の編集処理は、２次元的な編集処理である。ビジュアルコミュニケーションシステム４は、第２の編集処理において、２次元的な回転操作、２次元的な移動操作、２次元的な拡大操作、２次元的な縮小操作、一部を消す操作、手書きの線画を付け加える操作、色を塗る操作などを受け付ける。それらの操作要求に応じて、ビジュアルコミュニケーションシステム４は、ディスプレイ５０６に表示された２次元イラストデータの表示形態を変更する（Ｓ４０）。ビジュアルコミュニケーションシステム４は、編集完了の要求があるまで（Ｓ４１でＮｏ）、Ｓ３８～Ｓ４０の処理を繰り返す。すなわち、Ｓ３４～Ｓ３７のループによる１段階目の編集処理とＳ３８～Ｓ４１のループによる２段階目の編集処理とにより、発話又は文字入力された際の頭の中の情景に近いイラストを短時間で正確に表現できる。

ビジュアルコミュニケーションシステム４は、編集完了の要求があると（Ｓ４１でＹｅｓ）、図１６の処理を終了する。

図１６のフローチャートは図５の構成を前提に説明したが、適宜図９の構成にも適用可能である。つまり図９の構成に適用した場合は、図１５の処理が終了した時点で３次元イラストデータが表示されているため、ステップＳ３１では２次元サムネイルデータに代えて、３次元イラストデータが選択されるまで待機する。選択されるとステップＳ３２は実行されることなく、ステップＳ３３では選択された３次元イラストデータが表示され、ステップＳ３４以降の処理を実行する。

次に、ビジュアルコミュニケーションシステム４によりクライアント端末１のディスプレイ５０６に表示される画面（ビジュアルコミュニケーションシステム４による表示画面）の構成について図１７を用いて説明する。図１７は、ビジュアルコミュニケーションシステム４による表示画面の構成を示す図である。

ビジュアルコミュニケーションシステム４による表示画面は、図１７に示すように、描画結果表示エリア６００、操作パレット７００、サムネイル表示エリア８００を含む。

描画結果表示エリア６００は、描画情報生成部４００（図２参照）による描画情報生成結果が出力されるエリアである。操作パレット７００は、音声入力部１０１、文字入力部１０２（図４参照）、２次元データ編集入力部３０４（図１２参照）などの各入力部を呼び出すために使用する機能が配置されている。サムネイル表示エリア８００は、認識部１０３（図４参照）によって認識された言語情報と、サムネイル表示部２０３（図５参照）によって出力された２次元サムネイルデータが表示される。

図１７で示す各エリアのレイアウトおよび意匠形状はあくまで一例であり、権利範囲を制限するものではないものとする。例えば８００に円状の枠で囲まれた８つのサムネイルが表示されているが、枠の有無と形状や表示数については制限しないものとする。また、認識された言語情報も表示しなくても良いものとする。

次に、ビジュアルコミュニケーションシステム４によりクライアント端末１のディスプレイ５０６に表示される画面（ビジュアルコミュニケーションシステム４による表示画面）の概略動作について図１８を用いて説明する。図１８は、ビジュアルコミュニケーションシステム４による表示画面の概略動作を示す図である。図１８では、言語情報を基に２次元サムネイルデータが呼び出される動作について示す。

図１８（ａ）に示す言語情報認識ボタン７０１を押す操作を検知すると、ビジュアルコミュニケーションシステム４は、言語情報認識モードに移行する。ビジュアルコミュニケーションシステム４は、言語情報認識モード時に、発話、手書き、タイピングなどによって言語情報（第１の言語情報）を取得すると、サムネイル表示エリア８００にて言語情報認識結果および認識結果に紐づく１以上の２次元サムネイルデータが表示される。また、２次元データ編集ボタン７０２を押す操作を検知すると、図１７の描画結果表示エリア６００を編集可能な、描画結果編集モードに移行する。

例えば、図１８（ａ）では、ビジュアルコミュニケーションシステム４は、描画結果表示エリア６００上に描画操作された手書き文字を認識し、認識結果の文字情報とそれに紐づけられた１以上の２次元サムネイルデータとをサムネイル表示エリア８００に表示した状態が示されている。

ビジュアルコミュニケーションシステム４は、さらに、発話、手書き、タイピングなどによって言語情報（第２の言語情報）を取得すると、サムネイル表示エリア８００にて表示されている１以上の２次元サムネイルデータの少なくとも一部が変更されて言語情報認識結果および認識結果に紐づく１以上の２次元サムネイルデータが更新表示される。

例えば、図１８（ａ）の状態で図１８（ｂ）の様な発話を認識すると、ビジュアルコミュニケーションシステム４は、認識結果の文字情報に応じて、サムネイル表示エリア８００の状態をリアルタイムに変化させる。図１８（ｂ）では、ビジュアルコミュニケーションシステム４が、新たな認識結果の文字情報とそれに紐づけられた１以上の２次元サムネイルデータとに基づきサムネイル表示エリア８００に更新表示した状態が示されている。

具体的には、新たに入力された言語情報（第２の言語情報）に対応するサムネイル画像に応じて、すでに表示されたサムネイル画像の表示のうち、少なくとも一部を変更してディスプレイ（表示手段）５０６に表示させる。

すでに表示されたサムネイル画像の表示形態のうち、少なくとも一部を変更とは、例として、新たに入力された言語情報に対応するサムネイル画像をすでに表示されたサムネイル画像に追加して表示するためにすでに表示されているサムネイル画像の位置や大きさを変更したり、新たに入力された言語情報に対応するサムネイル画像を既に表示された画像に代えて表示するために削除したり、既に表示されているサムネイル画像の周囲の画像を変更する等である。

なお、発話だけでなく、新しい手書き文字やタイピングした文字を認識する度に、ビジュアルコミュニケーションシステム４は、サムネイル表示エリア８００の表示を変化させても良い。

また、ビジュアルコミュニケーションシステム４は、２次元サムネイルデータがサムネイル表示エリア８００に表示しきれない場合は、古いものから順番に新しく検索された２次元サムネイルデータに置き換わるようにサムネイル表示エリア８００に表示してもよい。

図１８では、言語情報認識モードへの切り替えスイッチを言語情報認識ボタン７０１としているが、ボタンではなく特定単語の発話やコマンド入力等、手法は限定しないものとする。

図１８に例示されるように、ビジュアルコミュニケーションシステム４は、ユーザからの言語情報が受け付けられるたびに、表示画面上のサムネイル画像を新しく切り替えて高速に更新表示できる。これにより、ユーザが会話等による情報伝達を止めずにその中から、発話又は文字入力された際の頭の中の情景に近い１以上のサムネイル画像を選択できる。

次に、ビジュアルコミュニケーションシステム４によるイラストの２段階の編集処理の流れについて図１９を用いて説明する。図１９は、２段階の編集処理の流れを示す図である。

図１９（ａ）では、ビジュアルコミュニケーションシステム４は、言語情報「人」に応じて、「人」の文字情報ＬＩとそれに紐づけられた２次元サムネイルデータＳＭ１～ＳＭ６とがサムネイル表示エリア８００に表示する。

文字情報ＬＩは、テキストデータ領域８０１に表示される。図１９（ａ）では、一例として円形の点線が、ユーザへ可視可能に表示され、その内部に文字情報ＬＩが表示されている。

２次元サムネイルデータＳＭ１～ＳＭ６は、サムネイルデータ領域８０２に互いに重ならないように、周状に並んで表示されている。これに限られず、サムネイルデータは互いに重なって表示されても、ランダムに表示されてもよい。特に本例では二つの１点鎖線の間の領域に表示される。また、ユーザがサムネイルデータ領域８０２を認識しやすいように、一例として１点鎖線の位置にユーザが可視可能な線を実際に表示してもよい。

２次元サムネイルデータＳＭ５の選択操作を受けると、ビジュアルコミュニケーションシステム４は、図１９（ｂ）に示すように、２次元サムネイルデータＳＭ５に紐づけられた３次元イラストデータを呼び出して描画結果表示エリア６００に表示する。

３次元的な編集処理において、ビジュアルコミュニケーションシステム４は、３次元的な回転操作、３次元的な移動操作、３次元的な拡大操作、３次元的な縮小操作などを受け付け、それらの操作要求に応じて、図１９（ｃ）に示すように、３次元イラストデータの表示形態を３次元的に変化させる。

所定のトリガーとなる操作（例えば、２次元的な編集操作のためのボタン（例えば、図１８（ａ）に示す２次元データ編集ボタン７０２）が押されることなど）を受けて、ビジュアルコミュニケーションシステム４は、図１９（ｄ）に示すように、３次元イラストデータを２次元イラストデータに固定化する。

２次元的な編集処理において、ビジュアルコミュニケーションシステム４は、２次元的な回転操作、２次元的な移動操作、２次元的な拡大操作、２次元的な縮小操作、一部を消す操作、手書きの線画を付け加える操作、色を塗る操作などを受け付け、それらの操作要求に応じて、図１９（ｅ）に示すように、２次元イラストデータの表示形態を２次元的に変化させる。

図１９に例示されるように、１段階目の編集処理（図１９（ｂ）、図１９（ｃ））と２段階目の編集処理（図１９（ｅ））とにより、発話又は文字入力された際の頭の中の情景に近いイラストを短時間で正確に表現できる。

次に、ビジュアルコミュニケーションシステム４によりクライアント端末１のディスプレイ５０６に表示される画面（ビジュアルコミュニケーションシステム４による表示画面）の詳細動作について図２０～図２７を用いて説明する。図２０～図２７は、それぞれ、ビジュアルコミュニケーションシステム４による表示画面の詳細動作を示す図である。図１８では、言語情報を基に２次元サムネイルデータが呼び出され、サムネイルを選択し、イラスト編集を行う動作について示す。

図２０（ａ）に示す操作パレット７００における音声入力ボタン７０１１が押されたことを検知すると、ビジュアルコミュニケーションシステム４は、言語情報認識機能をＯＮさせ、図２０（ｂ）に示すように、音声入力が待機状態にあることを示すアイコン８０２１をサムネイル表示エリア８００に表示する。なお、操作パレット７００におけるキー入力ボタン７０１２が押されると、キーボードによるタイピング入力が可能な状態になり、タイピング入力が待機状態であることを示すアイコンが表示される。これら、アイコン８０２１やタイピング入力が待機状態であることを示すアイコンは、言語情報認状態表示アイコンの一例である。

「人と乗り物」と発話されたことを検知すると、ビジュアルコミュニケーションシステム４は、図２１に示すように、「人と乗り物」の文字情報ＬＩ１とそれに紐づけられた２次元サムネイルデータＳＭ１１～ＳＭ１８とをサムネイル表示エリア８００に表示する。なお、文字情報と紐づけられたサムネイルデータとは、「人と乗り物」という文字情報全体と紐づけられたサムネイルデータでもよいし、「人」「乗り物」等のキーワードに分解し、それぞれのキーワードと紐づけられたサムネイルデータからなる群であってもよい。

さらに「動物」と発話されたことを検知すると、ビジュアルコミュニケーションシステム４は、図２２に示すように、「人と乗り物動物」の文字情報ＬＩ２とそれに紐づけられた２次元サムネイルデータＳＭ２１～ＳＭ２８とをサムネイル表示エリア８００に更新表示する。すなわち、ビジュアルコミュニケーションシステム４は、言語情報の入力を検知する度に、リアルタイムで２次元サムネイルデータを更新させて表示する。なお、文字情報と紐づけられたサムネイルデータとは、「人と乗り物動物」という文字情報全体と紐づけられたサムネイルデータでもよいし、「人」「乗り物」「動物」等のキーワードに分解し、それぞれのキーワードと紐づけられたサムネイルデータからなる群であってもよい。

図２１、図２２に例示されるように、ビジュアルコミュニケーションシステム４は、ユーザからの言語情報が受け付けられるたびに、表示画面上のサムネイル画像を新しく切り替えて高速に更新表示できる。これにより、ユーザが会話等による情報伝達を止めずにその中から、発話又は文字入力された際の頭の中の情景に近い１以上のサムネイル画像を選択できる。

図２１の画面で２次元サムネイルデータＳＭ１４が選択されたことを検知すると、ビジュアルコミュニケーションシステム４は、図２３に示すように、２次元サムネイルデータＳＭ１４に紐づけられた３次元イラストデータＩＬ１を呼び出して描画結果表示エリア６００に表示する。

３次元的な編集処理において、ビジュアルコミュニケーションシステム４は、３次元的な回転操作、３次元的な移動操作、３次元的な拡大操作、３次元的な縮小操作などを受け付け、それらの操作要求に応じて、図２４－１に示すように、３次元イラストデータＩＬ１の表示形態を３次元的に変化させる。

なお、図２４－２、図２４－３に示すように、テキストデータ領域８０１に表示されたテキストをユーザがドラッグし、テキスト画像として描画結果表示エリア６００に表示することもできる。

図２４－２において、例えば、テキストデータ領域８０１に表示されているテキストの一部をユーザがカーソルでドラッグして選択している。テキストを選択し、ドラッグされたことを検知すると、ビジュアルコミュニケーションシステム４は、そのテキストデータを画像データに変換する。そして、図２４－３に示すように、変換されたテキスト画像データを描画結果表示エリア６００に表示する。なお、変換されたテキスト画像データは、２Ｄ画像でも３Ｄ画像でもよく、描画結果表示エリア６００内で、移動、拡大、縮小、回転、また２次元データ編集ボタン７０２からの各種編集が可能である。

２次元的な編集処理のためのボタン（加筆ボタン７０１３，色塗りボタン７０１４，消しゴムボタン７０１５）のいずれかが押されたことを検知すると、ビジュアルコミュニケーションシステム４は、図２５に示すように、３次元イラストデータＩＬ１が２次元イラストデータＩＬ２に固定化される。本実施形態では一例として、この２次元的な編集処理のためのボタンが押されたことを言語報認識機能のＯＦＦ要求受付と判断し、２次元的な編集処理が可能な状態へと移行する。

２次元的な編集処理において、ビジュアルコミュニケーションシステム４は、２次元的な回転操作、２次元的な移動操作、２次元的な拡大操作、２次元的な縮小操作、一部を消す操作、手書きの線画を付け加える操作、色を塗る操作などを受け付け、それらの操作要求に応じて、図２５、図２６、図２７に示すように、２次元イラストデータＩＬ２の表示形態を２次元的に変化させる。

図２５では、加筆ボタン７０１３により、２次元イラストデータＩＬ２の背景となる風景の線画が手書きで追加され、色塗りボタン７０１４により、２次元イラストデータＩＬ２に色が塗られる。

また図２５では、図２３、図２４－１においてサムネイル表示エリア８００に表示されていた、言語情報認状態表示アイコン、文字情報、サムネイルデータは非表示となっている。サムネイル表示エリア８００の各種情報を非表示とするタイミングは、２次元的な編集処理のためのボタン（加筆ボタン７０１３，色塗りボタン７０１４，消しゴムボタン７０１５）のいずれかが押されたことを検知したタイミング、固定化が実行されたタイミング、ユーザにより２次元的な編集集処理が開始されたタイミング等、適宜選択できる。

また、２次元的な編集を実施した後も、音声入力ボタン７０１１、キー入力ボタン７０１２を押すことで、言語情報認識機能をＯＮさせ、サムネイル表示エリア８００に各種情報を表示させて、２次元的な編集が行われた画像上に新たな３次元イラストデータを表示、編集し、固定化された新たな２次元イラストデータを追加可能である。

図２６では、消しゴムボタン７０１５により、２次元イラストデータＩＬ２’における線画の一部が削除される。

図２７では、加筆ボタン７０１３により、２次元イラストデータＩＬ２”に線画が追加される。

図２３～図２７に例示されるように、１段階目の編集処理（図２３、図２４－１）と２段階目の編集処理（図２５～図２７）とにより、発話又は文字入力された際の頭の中の情景に近いイラストを短時間で正確に表現できる。

図１７～図２７に示される表示の説明は、図５の構成を前提に説明したが、適宜図９の構成にも適用可能である。つまり図９の構成において、ビジュアルコミュニケーションシステム４は、言語情報に応じた３次元モデルを検索し、言語情報に応じた３次元モデルをイラスト化する。このイラスト化された結果の３次元イラストデータを、図１７～図２７における、サムネイルデータ領域８０２に表示すればよい。そしてビジュアルコミュニケーションシステム４は、サムネイルデータ領域８０２に表示された３次元イラストデータのいずれかを選択する選択操作を受け付けると、選択された３次元イラストデータを、描画結果表示エリア６００に表示する。

以上のように、本実施形態では、ビジュアルコミュニケーションシステム４において、言語情報に対応するイラストの候補となる１以上のサムネイル画像をその言語情報の変化に応じて高速に切り替え表示させる。これにより、現在の言語情報に対応したイラストの迅速な選択を可能とし、コミュニケーションの場面における高速な情報伝達を支援できる。

なお、ビジュアルコミュニケーションシステム４の考え方は、オンライン会議システム２４に適用されてもよい。オンライン会議システム２４は、図２８に示すように構成され得る。図２８は、実施形態の変形例にかかるオンライン会議システム２４のシステム構成を示すシステム構成図であり、描画情報生成部４００として、オンライン会議ツールを利用する例を示す。

オンライン会議システム２４は、複数のクライアント端末２１ａ，２１ｂ、通信管理サーバ２２、及び接続部２３を有する。接続部２３は、複数のクライアント端末２１ａ，２１ｂ、通信管理サーバ２２を互いに通信可能に接続する。複数のクライアント端末２１ａ，２１ｂは、描画情報生成部４００により実現される表示画面を画面共有することができる。

図２９は、オンライン会議システム２４の機能構成を示すブロック図である。各クライアント端末２１ａ，２１ｂは、言語情報入力部１００ａ，１００ｂ、画面表示制御部２００ａ，２００ｂ、描画操作部３００ａ，３００ｂを有する。言語情報入力部１００ａ，１００ｂ、画面表示制御部２００ａ，２００ｂ、描画操作部３００ａ，３００ｂの機能及び動作は、それぞれ、実施形態における言語情報入力部１００、画面表示制御部２００、描画操作部３００の機能及び動作と同様である。

通信管理サーバ２２は、描画情報生成部４００及び記憶部５００に加えて、通信管理部９００を有する。描画情報生成部４００及び記憶部５００の機能及び動作は、それぞれ、実施形態における描画情報生成部４００及び記憶部５００の機能及び動作と同様である。

通信管理部９００は、会議参加者である複数のクライアント端末２１ａ，２１ｂそれぞれから受信した音声やカメラ画像を、他のクライアント端末に送信して管理する。描画情報生成部４００は、オンライン会議のカメラ画像に、描画された画像を重畳して描画表示する。通信管理部９００は、描画された画像が重畳されたカメラ画像を他のクライアント端末に送信する。

描画された画像は、画像の一部に重畳しても良いし、カメラ画像全体に重畳しても良い。また描画した画像だけでなく、７００，８００等も同時にカメラ画像に重畳しても良い。

ここで、図２８で説明したオンライン会議システム２４をテレプレゼンスロボットに適用した利用シーンの実施例を説明する。

図３０は、オンライン会議システム２４をテレプレゼンスロボットに適用した利用シーンの一例を示す図である。図３０は、拠点Ａ内に設置されたテレプレゼンスロボット（ロボット１０Ａ）と、遠隔地に位置する管理者が使用する管理者端末５０との間で遠隔通信を行う場合の例を示す。

図３０に示されている拠点Ａは、例えば、複数の作業者（作業者Ａ,Ｂ,Ｃ,Ｄ）によって所定の作業が行われている工場または倉庫等である。図に示されているように、各作業者Ａ,Ｂ,Ｃ,Ｄは、作業台に対して作業を行う。また、拠点Ａには、拠点Ａ内を自律走行する複数のロボット１０Ａ（ロボット１０Ａ－１,１０Ａ－２）が設置されている。また、遠隔地にいる管理者は、管理者端末５０を用いて、拠点Ａに設置されたロボット１０Ａと遠隔通信を行うことで、拠点Ａの保守管理等を行う。

また、拠点Ａ内には、複数の通知ボタン２０Ａ（２０Ａ－１～２０Ａ－５）が設置されている。このうち、通知ボタン２０Ａ－１～２０Ａ－３は、作業台の上に設置されており、通知ボタン２０Ａ－４,２０Ａ－５は、それぞれロボット１０Ａ－１,１０Ａ－２に搭載されている。通知ボタン２０Ａは、拠点Ａにいる作業者から遠隔地にいる管理者を呼び出すための操作手段である。なお、操作手段の構成は、通知ボタン２０に限られず、管理者を呼び出すための機能を備えた装置であればよい。作業者は、例えば、作業中に何らかの異常が発生し、管理者とコミュニケーションを取りたい場合、近くに設置されている通知ボタン２０Ａを押下することで、遠隔地にいる管理者を呼び出すことができる。

また、遠隔地にいる管理者は、通知ボタン２０Ａが選択されたことをトリガーとして、利用者からの呼び出しを示す通知を受け取る。そして、管理者は、管理者端末５０と拠点Ａ内に設置されたロボット１０Ａとの遠隔通信を開始することで、作業者とのコミュニケーションをとることができる。

さらに、管理者端末５０と遠隔通信を行うロボット１０Ａ－１,１０Ａ－２は、作業者によって押下された通知ボタン２０Ａの設置位置に応じて設定される移動先へ移動するとともに、管理者端末５０との遠隔通信を行う。そのため、通知ボタン２０Ａを押下した作業者は、ロボット１０Ａを用いて、管理者とコミュニケーションを取りたい場所での遠隔通信を行うことができる。

図３０に示されている拠点Ａのような現場でのテレプレゼンスロボットの活用を考えた場合、管理者端末５０および各ロボット１０Ａが、図２８のクライアント端末２１ａ、２１ｂに適用されることで、本発明のコミュニケーションシステム２４とすることができる。

テレプレゼンスロボットは、状況が異なる様々な遠隔地で使用される装置である。テレプレゼンスロボットの操作に不慣れなユーザによって操作される状況も有り得るが、そのような状況でも、簡単な音声やテキストの入力により現場の説明に適切な画像を取得できるため、遠隔地でのコミュニケーションを適切に行うことができる。

またキーワードと画像とが紐づけることができるため、テレプレゼンスロボットが用いられる特定の遠隔地で用いられる言語や専門用語と画像をあらかじめ紐づけておくことで、遠隔地とは言語が異なったり専門用語がわからなかったりする相手とも共通の画像を用いて意思の疎通を図ることができる。

例えば、図３１～図３３に示すように、ユーザが映っているカメラ画像と、動作取得デバイスにより取得されたユーザのジェスチャーによる描画を重畳させることもできる。図３１は、実施形態の変形例におけるクライアント端末２１ａのカメラ５２０によって撮像されたカメラ画像を示す図であり、クライアント端末２１ａのユーザが映っているカメラ画像を例示している。図３２は、実施形態の変形例における描画情報生成部４００が図３１のカメラ画像に重畳する画像を示す図である。図３２では、描画結果表示エリア６００、操作パレット７００、サムネイル表示エリア８００のうち、操作パレット７００が重畳されず、描画結果表示エリア６００、サムネイル表示エリア８００が重畳された例が示されている。図３３は、実施形態の変形例における他のクライアント端末２１ｂで表示される画像を示す図である。この場合、有るクライアント端末においてユーザが自分のディスプレイ５０６に対して行っている指先による手書きが、他のクライアント端末では、ユーザの指先によってカメラ画像内に描画が重畳されていく画像として表示される。

また、特定のジェスチャーをイラストに変換して、描画結果表示エリア６００に表示させてもよい。カメラで撮影された映像内に、例えば、指で上下左右を示したジェスチャーが認識されると、上矢印、下矢印、左矢印、右矢印のイラストが描画結果表示エリア６００に描画される。また、拍手のジェスチャーが認識されると拍手を示すイラストが描画結果表示エリア６００に描画される、指先の軌跡が〇等のマークを描いた場合には対応するイラストを描画する、等である。このように描画されたイラストも２次元データ編集ボタン７０２からの各種編集が可能である。

さらに、特定のジェスチャーと、描画表示内の領域との組み合わせによって動作を変えても良い。つまり、例えば、図３１に示す指の形の映像が図３２に示す描画内のサムネイル表示エリア８００から描画結果表示エリア６００へ移動してきた場合は、ドラッグ＆ドロップのドロップ位置を示すジェスチャーと認識して操作が行われる。一方、図３１の指の画像が描画結果表示エリア６００で初めて認識された場合は、図３４に示すように、上矢印のイラストを描画結果表示エリア６００に描画する等である。また、描画結果表示エリア６００に既に描画されているイラスト周辺で、指でつまんで離すジェスチャーが認識されると、そのイラストが移動する等、組み合わせは種々考えられる。

画像認識の応用例としてはその他に、視聴している側のクライアント端末でもカメラで撮影された映像の画像認識を行うことも考えられる。例えば、笑っている顔、悲しい顔、真剣な顔等の表情を認識して、その表情に対応するイラストを他の特定の端末、例えば、プレゼンテーションを行っているクライアント端末に送信することで、プレゼンテーションを実施しているユーザに聴衆の反応を知らせることができる。また、描画に表情に対応するイラストを重畳してプレゼンテーションをしているユーザ、他のユーザ全てが共有することで、互いの反応、プレゼンテーションに対する聴衆全体の反応を参加者全員で共有することもできる。

このように会話等による情報伝達をしながらジェスチャー操作でイラストを用いたビジュアルコミュニケーションを実現することが可能である。

上記で説明した実施形態の、ビジュアルコミュニケーションシステム４、オンライン会議システム２４は、画像編集システムまたは画像表示システムの例である。またクライアント端末１、クライアント端末２１ａ、クライアント端末２１ｂ、サーバ２、通信管理サーバ２２は、画像編集装置または表示装置の例である。

なお、上記で説明した実施形態の各機能は、一又は複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上記で説明した各機能を実行するよう設計されたＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、ＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）や従来の回路モジュール等のデバイスを含むものとする。

また、明細書中の対応テーブル（表）は、機械学習の学習効果によって生成されたものでもよい。ここで、機械学習とは、コンピュータに人のような学習能力を獲得させるための技術であり、コンピュータが、データ識別等の判断に必要なアルゴリズムを、事前に取り込まれる学習データから自律的に生成し、新たなデータについてこれを適用して予測を行う技術のことをいう。機械学習のための学習方法は、教師あり学習、教師なし学習、半教師学習、強化学習、深層学習のいずれかの方法でもよく、さらに、これらの学習方法を組み合わせた学習方法でもよく、機械学習のための学習方法は問わない。

また、ビジュアルコミュニケーションシステム４又はオンライン会議システム２４で実行されるプログラム５００ａは、ＲＯＭ等に予め組み込まれて提供されてもよい。あるいは、プログラム５００ａは、インストール可能な形式又は実行可能な形式のファイルでＣＤ－ＲＯＭ、フレキシブルディスク（ＦＤ）、ＣＤ－Ｒ、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよい。あるいは、プログラム５００ａは、インターネット等のネットワークに接続されたコンピュータ上に格納され、ネットワーク経由でダウンロードされることにより提供するように構成しても良い。また、プログラム５００ａをインターネット等のネットワーク経由で提供または配布するように構成しても良い。

１クライアント端末
２サーバ
３接続部
４ビジュアルコミュニケーションシステム
２１ａ，２１ｂクライアント端末
２２通信管理サーバ
２３接続部
２４オンライン会議システム
５０管理者端末
１００言語情報入力手段
１０３認識手段
２０２，２０５，２１８画像検索手段
２０３，２０６画像表示手段
２０４選択手段
２１０，２１２，２１７記憶手段
２２０優先画像提示手段
５０６表示手段

特許第６３３９５２９号公報

Claims

言語情報の入力を受け付ける言語情報入力手段と、
入力された言語情報を認識する認識手段と、
前記認識手段による認識結果に基づき、前記入力された言語情報に対応する画像を、画像を表示する表示手段に表示する画像表示手段と、
を備えるコミュニケーションシステム。
前記認識手段は、入力された言語情報を文字情報として認識し、
前記画像表示手段は、前記文字情報に含まれるキーワードに対応する画像を、前記表示手段に表示する、
請求項１に記載のコミュニケーションシステム。
前記画像表示手段は、すでに表示されている前記画像の表示形態の少なくとも一部を変更して、新たに入力された言語情報に基づき前記認識手段によって認識をされた文字情報に含まれるキーワードに対応する画像を前記表示手段に表示する、
請求項２に記載のコミュニケーションシステム。
前記表示された画像を選択する選択手段と、
選択された画像に対応する画像を、前記表示手段に表示する他の画像表示手段と、
を備える請求項２に記載のコミュニケーションシステム。
前記選択された画像は、前記対応する画像の、サムネイル画像である、
請求項４に記載のコミュニケーションシステム。
前記文字情報に含まれるキーワードに対応する複数の画像から優先して表示される画像を提示する優先画像提示手段を有し、
前記優先画像提示手段は、前記文字情報と、前記文字情報と対応付けられ表示された画像のうち、前記選択手段によって選択された画像とを教師データとして機械学習した学習済みモデルに基づいて、次に選択される画像を推論して、前記画像表示手段に通知する、
請求項４に記載のコミュニケーションシステム。
前記キーワードと前記画像とを関連付けて記憶する記憶手段と、
前記文字情報に含まれるキーワードを検索する画像検索手段と、
を有し、
前記表示手段は、前記画像検索手段が検索した前記キーワードと関連付けられた前記画像を表示する、
請求項２ないし６のいずれか一項に記載のコミュニケーションシステム。
前記表示手段は、所定の拠点内に設置され管理者端末からの遠隔通信による制御を受け付けるテレプレゼンスロボットが備える、
請求項１ないし７のいずれか一項に記載のコミュニケーションシステム。
前記表示手段は、テレプレゼンスロボットを遠隔通信によって制御可能な管理者端末が備える、
請求項１ないし７のいずれか一項に記載のコミュニケーションシステム。
言語情報の入力を受け付ける言語情報入力手段と、
入力された言語情報を認識する認識手段と、
前記認識手段による認識結果に基づき、前記入力された言語情報に対応する画像を、画像を表示する表示手段に表示する画像表示手段と、
を備える表示装置。
表示装置における表示制御方法であって、
言語情報の入力を受け付ける言語情報入力工程と、
入力された言語情報を認識する認識工程と、
前記認識工程による認識結果に基づき、前記入力された言語情報に対応する画像を、画像を表示する表示手段に表示する画像表示制御工程と、
を含む表示制御方法。
コンピュータを、
言語情報の入力を受け付ける言語情報入力手段と、
入力された言語情報を認識する認識手段と、
前記認識手段による認識結果に基づき、前記入力された言語情報に対応する画像を、画像を表示する表示手段に表示する画像表示手段と、
として機能させるための表示制御プログラム。