JP2021180427A

JP2021180427A - グループ通信システム、グループ通信プログラム及びグループ通信方法

Info

Publication number: JP2021180427A
Application number: JP2020085361A
Authority: JP
Inventors: 崇片山; Takashi Katayama
Original assignee: Mintflag Inc
Current assignee: Mintflag Inc
Priority date: 2020-05-14
Filing date: 2020-05-14
Publication date: 2021-11-18

Abstract

【課題】ビデオチャットやテレビ会議など通信ネットワーク上に配置された複数の通信端末間でリアルタイムで音声若しくは映像を介した通信を行うグループ通信に際し、複数人の参加者が一斉に集合して通話を行うことによる不便さや不自由さを解消するグループ通信システム、グループ通信プログラム及びグループ通信方法を提供する。【解決手段】るグループ通話システムにおいて、参加者用端末１は、通話を音声通話部１１２に実行させるとともに、通話中の音声を認識部１１０により認識し、認識した音声に関連してインターネット上から検索された情報を情報共有処理部１０２ｄが通話に係る音声又は映像中に合成して複数の通信端末間で共有させる。また、映像取得部１０２ｅが取得した映像中から認識した文字、図形又は形状に基づいて特定される情報を、情報検索部１０３ｂがインターネット上から検索し、検索された情報をブラウザ部１０３が表示又は出力する。【選択図】図３

Description

本発明は、通信ネットワーク上に配置された複数の通信端末間でリアルタイムで音声若しくは映像を介した通信を行うグループ通信システム、グループ通信プログラム及びグループ通信方法に関する。

従来、遠隔地にいるユーザー同士の交流に用いる通信システムとして、電話、所謂テレビ電話、ビデオ会議システムなどが存在する。また、スマートフォンやモバイルコンピューター、などを用いてインターネットに接続し、インターネットを介してのデータ通信によるテキストチャットや、映像と音声を伴うビデオチャットなどを行う方法もある。

例えば、特許文献１に開示された技術は、グループのメンバー同士の映像通信を可能にするビデオチャットシステムであり、チャットのグループを形成するためのグループ形成手段と、グループ形成手段により形成されたグループのメンバー同士の音声通信を可能にする音声回線接続手段とを備え、グループ形成手段により形成されたグループのメンバー同士で、音声回線接続手段を通じての映像通信を実現している。

特開２００３-６１２９号公報

ところで、上述したビデオチャットシステムでは複数人での会話が可能となっているが、チャットの途中で話題が尽きてしまったり、話題が発散してしまって共通の話題が見えなくなってしまったり、複数の話題が混在してしまったりするなど、複数人の参加者が一斉に集合して通話を行うことによる不便さや不自由さが指摘されている。

そこで、本発明は以上の点に鑑みてなされたもので、ビデオチャットやテレビ会議など通信ネットワーク上に配置された複数の通信端末間でリアルタイムで音声若しくは映像を介した通信を行うグループ通信に際し、複数人の参加者が一斉に集合して通話を行うことによる不便さや不自由さを解消できるグループ通信システム、グループ通信プログラム及びグループ通信方法を提供することをその課題とする。

上記課題を解決するために、本発明は、複数の参加者がそれぞれ使用する複数の通信端末間で、通信ネットワークを通じて通信を行うグループ通信システムであって、音声又は音声を含む映像による通話を行う通話部と、通話中の音声を認識する音声認識部と、音声認識部が認識した音声に関連する情報を、通信ネットワーク上から検索する情報検索部と、情報検索部が検索した情報を、通話に係る音声又は映像中に合成する情報合成部と、情報合成部が合成した情報を、複数の通信端末間で共有させる情報共有処理部とを備えることを特徴とする。

本発明は、通信ネットワーク上に配置された複数の通信端末間で、通信を行うオンライン会議システムであって、通信端末は、音声又は音声を含む映像による通話を行う通話部と、通信端末間で共有される映像を通話相手の通信端末から取得する映像取得部と、映像取得部が取得した映像中の文字、図形又は形状を認識する文字等認識部と、文字等認識部が認識した文字、図形又は形状から特定される情報を通信ネットワーク上から検索する情報検索部と、情報検索部が検索した情報を、映像取得部が取得した映像とは別途独立させて表示又は出力する検索情報出力部とを備えることを特徴とする。

また、本発明は、複数の参加者がそれぞれ使用する複数の通信端末間で通信ネットワークを通じて通信を行うグループ通信方法であって、
（１）音声又は音声を含む映像による通話を通話部が実行させるとともに、通話中の音声を音声認識部が認識する通話認識ステップと、
（２）音声認識部が認識した音声に関連し、通信ネットワーク上から検索された情報を、情報共有処理部が通話に係る音声又は映像中に合成して複数の通信端末間で共有させる情報共有処理ステップと
を含むことを特徴とする。

さらに、本発明は、通信ネットワーク上に配置された複数の通信端末間で、通信を行うグループ通信方法であって、
（３）音声又は音声を含む映像による通話を通話部が実行させるとともに、通信端末間で共有される映像を通話相手の通信端末から映像取得部が取得する映像取得ステップと、
（４）映像取得部が取得した映像中から認識した文字、図形又は形状に基づいて特定される情報を情報検索部が通信ネットワーク上から検索する情報検索ステップと、
（５）情報検索ステップにおいて検索された情報を、映像取得部が取得した映像とは別途独立させて検索情報出力部が表示又は出力する検索情報出力ステップと
を含むことを特徴とする。

上記発明では、仮想的な人物又はキャラクターの音声又は映像を生成するボット生成部をさらに備え、情報検索部によって検索された情報は、ボット生成部により生成された音声又は映像として情報合成部により合成されることが好ましい。

上記発明では、自機と他の通信相手との仮想的な相対位置関係を設定する仮想位置設定部と、仮想位置設定部によって設定された各通信相手との仮想的な相対位置関係に基づいて、通話部によって通話される各通信相手から取得される音声の自機側における音量を通信相手となる通信端末毎に変更する音声バランス設定部をさらに備えることが好ましい。

上記発明では、通信端末間で共有された情報に対する各参加者による評価を、各自の通信端末を通じて収集する評価収集部をさらに備え、仮想位置設定部は、評価収集部によって収集された各参加者の評価に基づいて設定することが好ましい。

上記発明では、音声認識部が認識した音声と、その音声を発した参加者とを関連付けて発話記録として蓄積するとともに、認識された音声に基づいて検索された情報に対する評価及びその評価を行った参加者を特定する参加者識別子と発話記録とを関連付けて参加者相関情報を生成する参加者相関管理部をさらに備えることが好ましい。

以上説明したように本発明によれば、通話中の音声を認識して、認識された音声に関連する情報（話題や記事等）を通信ネットワーク上から自動的に検索し、その検索結果を通話に係る音声又は映像中に合成して共有させる。これにより、本実施形態では、ビデオチャットやテレビ会議など複数の通信端末間でリアルタイムでグループ通信する際、関連情報が自動的に提供されるため、チャットの途中で話題が尽きてしまったようなときであっても、会話をスムーズに継続することができる。

また、本発明によれば、通信端末間で共有される映像に含まれる文字、図形又は形状を認識し、その認識結果から特定される情報を別途独立されたアプリケーションウィンドウから表示又は出力することから、グループ通話から別途独立したツールでグループ通話に関連する情報を検索でき、話題が発散してしまって共通の話題が見えなくなってしまったときに、他のユーザーの会話を妨げることなく、ユーザーが独自に話題中の情報を検索することができる。

さらに、本発明によれば、各ユーザーが、自身と他の通信相手との仮想的な相対位置関係を設定して、その位置関係に基づいて、各通信相手の音量を変更する音声バランス設定ができることから、複数のユーザーがそれぞれ発話し話題が混在したような場合であっても、各ユーザーの声を適切な音量とすることができる。

これらの結果、本発明によれば、ビデオチャットやテレビ会議など通信ネットワーク上に配置された複数の通信端末間でリアルタイムで音声若しくは映像を介した通信を行うグループ通信に際し、チャットの途中で話題が尽きてしまったり、話題が発散してしまって共通の話題が見えなくなってしまったり、複数の話題が混在してしまったりするなど複数人の参加者が一斉に集合して通話を行うことによる不便さや不自由さを解消できる。

実施形態に係るシステムの全体構成を示す概念図である。実施形態に係る管理サーバーの内部構成を示すブロック図である。実施形態に係る参加者用端末の内部構成を示すブロック図である。実施形態に係るグループ通話システムの動作（接続処理時）を示すシーケンス図である。実施形態に係るグループ通話システムの動作（情報共有時）を示すシーケンス図である。実施形態に係るグループ通話システムの動作（映像内文字列等抽出時）を示すシーケンス図である。実施形態に係るグループ通話システムの画面構成を示す説明図である。実施形態に係るグループ通話システムの画面構成を示す説明図である。実施形態に係るグループ通話システムにおける仮想的相対位置を示す説明図である。実施形態に係るグループ通話システムにおける映像内文字列抽出処理を示す説明図である。実施形態に係るグループ通話システムの動作（ボット制御処理時）を示すシーケンス図である。実施形態に係るグループ通話システムの動作（ボット制御処理時）時における画面構成を示す説明図である。

（グループ通話システムの概要）
以下に添付図面を参照して、本発明に係るグループ通話システムの第１実施形態を詳細に説明する。図１は、本実施形態に係るグループ通話システムの全体構成を示す概念図である。なお、以下に示す実施の形態は、この発明の技術的思想を具体化するための装置等を例示するものであって、この発明の技術的思想は、各構成部品の材質、形状、構造、配置等を下記のものに特定するものでない。この発明の技術的思想は、特許請求の範囲において、種々の変更を加えることができる。

図１に示すように、本発明に係るグループ通話システムはインターネット５上に配置された管理サーバー２に対して複数のユーザー用端末１ａ〜１ｃが接続され、当該複数のユーザー用端末１ａ〜１ｃ同士での通信を介して仮想的なグループ（チャンネル）を形成させるとともに、当該仮想的なグループ内でライブチャットが行われる。

本実施形態において、上記仮想的な各グループには各グループに固有のＵＲＬが割り当てられ、ライブが提供される場へのリンクとして利用できるようになっている。具体的には、ユーザー毎に割り当てられるhttp://<ユーザー名>.<ドメイン名>といったＵＲＬや、http://<ユーザー名>.<ドメイン名>/<トピック名>といったトピックに基づいたＵＲＬを形成し、既存の検索エンジンやＳＮＳなどを通じて他の者へ集合をかけたり招待したりできるようになっている。

なお、本実施形態では、ユーザー用端末１ａ〜１ｃのうち、ユーザー用端末１ａを所持するユーザーＵａが管理人となってグループ（チャンネル）を開設し、ユーザーＵａが開設したグループ（チャンネル）に特定の参加者であるユーザーＵｂ，Ｕｃが参加する場合を例に説明する。そして、以下、ユーザーＵａが所持する端末を示す場合には、管理者用端末と称し、それぞれのユーザー用端末１ａ〜１ｃを区別せずに示す場合には、総称してユーザー用端末１というものとする。なお、ここでは、ユーザーＵａを管理者、他のユーザーＵｂ、Ｕｃを参加者とするが、他のユーザーＵｂ，Ｕｃのいずれかが管理人となり、ユーザーＵａが参加者となることもできる。

インターネット５は、通信プロトコルＴＣＰ／ＩＰを用いて種々の通信回線（ＦＴＴＨなどの光回線、ＡＤＳＬ回線などの公衆回線、専用回線、無線通信網）を相互に接続して構築される分散型のＩＰ網であり、このＩＰ網には、１０ＢＡＳＥ-Ｔや１００ＢＡＳＥ-ＴＸ等によるイントラネット（企業内ネットワーク）や家庭内ネットワークなどのＬＡＮなども含まれる。また、本実施形態においてこのインターネット５には所謂Ｐ２Ｐ（ピア・ツー・ピア）ネットワークが構築され、ユーザー用端末１ｂ，１ｃ同士はＰ２Ｐネットワークを介しても接続可能となっている。

ユーザー用端末１は、ＣＰＵによる演算処理機能、及び通信インターフェースによる通信処理機能を備えた情報処理端末であり、例えば、スマートフォン等の携帯電話端末の他、パーソナルコンピュータ等の汎用コンピューターや、機能を特化させた専用装置、モバイルコンピューターやＰＤＡ（Personal Digital Assistance）で実現することができる。なお、図１に示す例では、１ｃ，３ｃはパーソナルコンピュータ等の汎用コンピューターであり、１ｂ，３ｂはスマートフォンや、移動電話、その他の携帯情報端末の機能を備える装置であり、１ａ，３ａは携帯情報端末の通信機能を備え、表示部のサイズが大きいタブレット端末である。

このユーザー用端末１は、インターネット５にアクセスして、データの送受信を行うブラウザ機能も備えている。このブラウザ機能は、Ｗｅｂページを視聴するためのアプリケーションソフトであり、インターネットからＨＴＭＬ（HyperText Markup Language）ファイルや画像ファイル、音楽ファイルなどをダウンロードし、レイアウトを解析して表示・再生する。そして、ブラウザ機能では、フォームを使用してユーザーがデータをＷｅｂサーバーに送信したり、ＪａｖａＳｃｒｉｐｔ（登録商標）やＦｌａｓｈ、及びＪａｖａ（登録商標）などで記述されたアプリケーションソフトを動作させ、ユーザーインターフェースを提供することも可能である。

また、本実施形態において、ユーザー用端末１は、インターネット等を通じて、コンテンツデータを含む放送画面の配信を受ける機能を備えているとともに、このコンテンツデータを視聴するアプリケーションを実行する機能も備えている。この「コンテンツデータ」とは、複数のユーザー用端末１でやり取りされる対話の音声データやテキストデータ、各ユーザー用端末１のカメラで撮影された静止画や動画等の映像データが含まれる。

特に、ユーザー用端末１では、Ｐ２Ｐネットワークにより、いずれかのユーザー用端末１ａ〜１ｃがダウンロードしたコンテンツデータを他のユーザー用端末１ａ〜１ｃと共有し、分散された端末間でコンテンツデータの配信を相互に行う機能を備えている。そして、各ユーザー用端末１は、それぞれがノードサーバーとしての機能を備えており、見つかった相手と直接接続を確立するか、若しくはリレー・ノードで中継して管理サーバー２を介さずに各データを直接送受するようになっている。

なお、このユーザー用端末１のうち、グループの管理者であるユーザーＵａが使用する管理者用端末１ａは、インターネット５（Ｐ２Ｐネットワークを含む。）の双方向通話及びデータ配信を制御する機能を有しており、グループ通信の開始及び終了などを制御することができるようになっている。

管理サーバー２は、インターネット５上に分散配置された一般的な通信サーバーであり、当該複数の端末同士での通信を通じて仮想的なチャンネルを形成するとともに、当該仮想的なチャンネルのコンテンツを他のユーザー用端末１に対して配信している。この管理サーバー２には、Ｗｅｂサーバーが含まれ、ＷＷＷ（World Wide Web）等のドキュメントシステムにおいて、ＨＴＭＬ（HyperText Markup Language）ファイルや画像ファイル、音楽ファイルなどの情報送信を行うサーバーコンピューター或いはその機能を持ったソフトウェアであり、ＨＴＭＬ文書や画像などの情報を蓄積しておき、ユーザー用端末１上で実行されるＷｅｂブラウザなどのアプリケーションの要求に応じて、コンテンツ（Ｗｅｂページ）の配信を行う。

また、管理サーバー２は、インターネット５を通じて各端末と通信を確立させるとともに、チャットルームを内で共有されるデータを各ユーザー用端末１に対して配信するコンテンツ配信サーバーとしての機能を備えている。このような管理サーバー２ではデータベースが接続されており、ユーザーの管理を行う機能も有している。なお、本実施形態では、この管理サーバー２を単一のサーバー装置により構成しているが、例えば、ノード管理（グループ通話制御部）、トランスコードを行う変換サーバー、Ｗｅｂサーバー等に対してそれぞれのロードバランシングを行うなど、複数のサーバー群で構成してもよい。

また、図示していないが、インターネット５上には、無線基地局や、中継装置が配置される。無線基地局は、中継装置を通じて通信ネットワークに接続され、ユーザー用端末１との間で無線通信接続を確立し、通話やデータ通信を提供する装置である。中継装置は、通信ネットワークに接続するためのモデムやターミナルアダプタ、ゲートウェイ装置等のノード装置であり、通信経路の選択や、データ（信号）の相互変換を行い、無線基地局と、インターネット５との間における中継処理を行う。なお、これら無線基地局や中継装置としては、無線ルーターやアクセスポイント装置なども含まれる。

（各装置の内部構成）
次いで、上述した本グループ通話システムを構成する各装置の内部構造について説明する。図２は、本実施形態に係る管理サーバー２の内部構成を示すブロック図である。なお、説明中で用いられる「モジュール」とは、装置や機器等のハードウェア、或いはその機能を持ったソフトウェア、又はこれらの組み合わせなどによって構成され、所定の動作を達成するための機能単位を示す。

（１）管理サーバー２
先ず、管理サーバー２の機能構成について説明する。管理サーバー２は単一のサーバー装置の他、Ｗｅｂサーバーやデータベースサーバーなど複数種のサーバー群から構成することができ、本実施形態では、図２に示すように、通信インターフェース２１と、制御部２２と、本グループ通話システムに関する各種の情報を蓄積するデータベース群である各記憶部２３とを備えている。通信インターフェース２１は、インターネット５を通じて、ユーザー用端末１との間で通話制御や、データの送受信を行う通信インターフェースである。

記憶部２３は、各データを蓄積する記憶装置であり、本実施形態では、ユーザーデータベース２３１と、グループデータベース２３２と、表示情報蓄積部２３３と、共有情報蓄積部２３４とを備えている。
ユーザーデータベース２３１は、本グループ通話システムを利用する各ユーザーに関する情報を記憶するデータベースであり、本実施形態では、図２に示すように、ユーザーを識別するユーザーＩＤに、ユーザー用端末１のＩＰアドレス及び個人情報（ハンドルネーム、性別、年齢等）が関連付けて蓄積されている。

グループデータベース２３２は、複数のユーザー用端末１がマルチ通話可能な通話グループを蓄積するデータベースであり、当該グループを識別するグループＩＤに、当該グループのＩＰアドレス、当該グループを開設した管理者を特定するユーザーＩＤ、参加制限数、当該グループへ参加した参加者を特定するユーザーＩＤが関連付けて蓄積される。本実施形態において、このグループは、ユーザー用端末１からのグループ生成要求に応じて生成されてもよく、管理サーバー２を運用・管理する運用者に応じて生成されてもよい。さらに、グループデータベースには、これに加えて、管理者が設定した位置情報、及び、そのグループ内の画面で中央・画面全域で再生しているコンテンツのＩＤ／ＵＲＬ等を保持している。

共有情報蓄積部２３４は、グループ内において、複数のユーザー用端末１の対話において送受信されたコンテンツを蓄積する記憶装置であり、本実施形態では、グループＩＤのフォルダに各配信者のユーザーＩＤが関連付けられ、各ユーザーＩＤには、各通信者の音声データ及び映像データが紐付けて蓄積されている。

表示情報蓄積部２３３は、アクセス者にユーザーインターフェースとして提供されるプログラムやスクリプト、データ等コンテンツデータとして蓄積する記憶装置であり、この表示情報蓄積部２３３には、参加者が操作・実行する接続要求に関するＷｅｂページや、グループのメンバーが作成するＷｅｂページ等の表示データが蓄積されている。なお、この表示情報蓄積部２３３では、グループＩＤに表示情報が関連付けて蓄積されており、各グループ固有の背景画面やチャンネル画面を生成することができるようになっている。また、後述するようなボット方式により本サービスを提供する場合には、ボットを生成するためのプログラムやスクリプト、データ等も表示情報としてこの表示情報蓄積部２３３に保存される。

制御部２２は、ＣＰＵやＤＳＰ（Digital Signal Processor）等のプロセッサ、メモリ、及びその他の電子回路等のハードウェア、或いはその機能を持ったプログラム等のソフトウェア、又はこれらの組み合わせなどによって構成された演算モジュールであり、プログラムを適宜読み込んで実行することにより種々の機能モジュールを仮想的に構築し、構築された各機能モジュールによって、各部の動作制御、ユーザー操作に対する種々の処理を行っている。

そして、本発明のプログラムが実行されることにより、この制御部２２には認証部２２１と、グループ通話制御部２２２と、データ送信部２２３と、トピック情報制御部２２４と、共有情報検索部２２５と、解析処理部２２６とが構築される。

認証部２２１は、インターネット５を介してアクセス者から取得されたユーザーＩＤに基づいて、アクセス者の権限を認証する処理を実行するモジュールであり、ユーザー用端末１からのアクセスに応じてユーザーデータベース２３１を照合することによって、アクセス者にその権利があるか否かや、そのアクセス者が本人であるか否かなどを確認する。なお、本実施形態において、認証部２２１は、利用時毎にＩＤ及びパスワードの入力を求めてもよいし、使用者の承諾がある場合には、端末情報のみで認証を許可するようにしてもよい。

グループ通話制御部２２２は、グループ通話の制御全体を管理するモジュールであり、グループ（チャンネル）の作成から、各ユーザー用端末１への接続処理を行う。このグループ通話制御部２２２は、グループ通話を制御する機能として接続管理機能が備えられている。この接続管理機能は、グループ参加の要求を受け付けて、当該ユーザー用端末１をグループ内に登録するモジュールである。具体的に、参加者が所持するユーザー用端末１ａ〜，１ｃからグループ参加の要求信号を取得すると、参加希望のグループＩＤに基づいて、グループデータベース２３２を参照し、当該データベース内の参加者欄にユーザーＩＤを登録する。また、接続管理機能は、ユーザー用端末１からグループ参加の要求を受け付けて、当該ユーザー用端末１を参加者用端末としてグループ内に登録する機能を備えている。具体的に、接続管理機能は、ユーザー用端末１から参加要求の信号を受信すると、当該参加要求信号をユーザー用端末１に対して送信する。そして、ユーザー用端末１ｂ，１ｃ又は管理者用端末１ａからの許可信号を取得すると、取得した許可信号に基づいて、グループデータベース２３２を参照し、当該データベース内の参加者欄に、ユーザー用端末１のユーザーＩＤを登録して、ユーザー用端末１による第１の通信ネットワークへの接続を許可する。

さらに、グループ通話制御部２２２には、参加者相関管理部２２２ａと、評価収集部２２２ｂと、グループ生成部２２２ｃと、認識処理制御部２２２ｄとが備えられている。
認識処理制御部２２２ｄは、ユーザー用端末１ａ〜１ｃ側で認識された音声若しくは音声がテキスト化された文字列を取得するモジュールである。この認識処理制御部２２２ｄには、ユーザー用端末１ａ〜１ｃ側のスペックに応じて音声認識処理を補足する機能も備えられており、ユーザー用端末１ａ〜１ｃ側から取得された音声について、ＡＩを備えた解析処理部２２６と協動し、音響モデルや言語モデルを用いて音声を解析して認識し、テキスト化された文字列を抽出することもできる。この認識処理制御部２２２ｄで取得された音声若しくは文字列は、参加者相関管理部２２２ａを通じて、その音声を発した参加者を特定する識別子と関連付けて発話記録として蓄積される。特に、ボット機能が実行されている場合には、仮想的なユーザー用端末１ａ〜１ｃが生成されており、その仮想的なユーザー用端末１ａ〜１ｃの音声認識処理機能として実行される。

参加者相関管理部２２２ａは、認識処理制御部２２２ｄで取得された音声若しくは文字列と、その音声を発した参加者とを関連付けて発話記録としてグループデータベース２３２に蓄積するとともに、認識された音声に基づいて検索された情報に対する評価及びその評価を行った参加者を特定する参加者識別子と発話記録とを関連付けて参加者相関情報を生成するモジュールである。

評価収集部２２２ｂは、各参加者の発話や、情報共有処理部１０２ｄが共有させた情報に対する各参加者による評価を、各自の通信端末のＧＵＩ制御部１０３ｃを通じて収集し、評価情報としてユーザーデータベース２３１及びグループデータベース２３２に蓄積するモジュールである。

グループ生成部２２２ｃは、グループ管理者となる発起人のユーザー用端末１からのグループ作成要求信号に応じて、複数のユーザーが参加可能なグループを生成するモジュールであり、生成したグループにグループＩＤを付加するとともに、グループ作成要求したユーザー用端末１から取得したユーザーＩＤをグループ管理者欄に登録する。また、ユーザー用端末１からの入力情報に基づいて、参加制限人数をグループデータベース２３２に設定する。

このグループ生成部２２２ｃには、端末リスト作成機能が備えられており、この端末リスト作成機能は、グループ内でコンテンツデータの送受を行うユーザー用端末１を記述したリストである端末リストを作成する機能である。具体的に端末リスト作成機能は、グループに参加したユーザー用端末１のユーザーＩＤ、その端末へのソケット参照が記載された端末リストを生成する。このグループ生成部２２２ｃでは、ユーザー用端末１から放送開始信号を取得すると、グループデータベース２３２内の参加者欄に記録されたユーザーＩＤを抽出するとともに、そのユーザーＩＤに基づいてユーザーデータベース２３１を参照して、対応するソケット参照を抽出して端末リストを生成して、ユーザー用端末１に対して送信する。なお、接続管理機能によって、ユーザー用端末１に対してグループの参加が許可された場合には、当該ユーザー用端末１を参加者用端末とし、そのユーザー用端末１ｂ，１ｃのユーザーＩＤについても、端末リストに記録し、送信する。

解析処理部２２６は、認識処理制御部２２２ｄが取得した音声或いは音声をテキスト化した文字列を認識し、その音声を発話したユーザーと関連付けて発話内容を解析するモジュールであり、所謂ＡＩ（Artificial Intelligence：人工知能）システムを備えている。この解析処理部２２６による解析結果は、必要に応じて認識処理制御部２２２ｄにフィードバックされ、これと併せてトピック情報制御部２２４に入力される。この解析処理部２２６では、音響モデルや言語モデルを用いて音声を解析して認識し、テキスト化された文字列を抽出する音声認識処理とともに、発話内容の文法解析に基づいて話題となっているジャンルやトピックスを抽出する解析も実行する。

音響分析では、入力された音声データの音の強弱や周波数、音と音の間隔、時系列などさままな特徴量を抽出し、音響モデルで扱いやすい（コンピューターが認識しやすい）データに変換する。音響モデルでは、音響分析により抽出された特徴量がどの記号（音素や単語）にどれほど近いのかを学習したパターンと照らし合わせ、整合率を計算する。音声分析により抽出された特徴量を用いて、音声に含まれる音素を抽出して音声を正しい文字にマッチングさせる。

また、言語モデルでは、膨大な量のデータから単語のつながりを予測判定し、より正確な文章を組み立てる。ここでは予め蓄積したデータから使用する単語の出現率を算出し、単語を文章化する。言語モデルではある文字列に続く直後の文字の出現しやすさをパターン化し、それらの出現確率を定義する。発音辞書では、音声の最小単位の”音素”毎にモデル化されている膨大なデータベースから音の組み合わせをピックアップして「単語」として認識させ、その単語が属するジャンルや関連するトピックスをトピックス辞書から検索して、関連するジャンルやトピックスを特定する。

さらに、この解析処理部２２６には、ディープラーニング等の機械学習機能が備えられている。このディープラーニングとは、データから自動で特徴を抽出し分類や予測を行う技術であり、ディープラーニングの技術を用いた音声認識では、「音響モデル」から「言語モデル」までのプロセスが１つのニューラルネットワークモデルで実装され、例えば、言語モデルに「私は学校へ」と入力すると、次に出現する可能性が高い「行く」「行かない」などの単語を自動で予測する。

上記共有情報検索部２２５は、認識部１１０が認識した音声に関連する情報をインターネット５上から検索し、共有情報蓄積部２３４に蓄積するモジュールである。この共有情報検索部２２５による検索対象には、各ユーザー用端末１側の情報検索部１０３ｂで検索され情報共有処理部１０２ｄにおいて共有された情報も含まれ、その検索履歴も共有情報蓄積部２３４に蓄積される。

また、この共有情報検索部２２５は、インターネット５上の情報のみならず、各端末即ちローカルに保存された情報も検索対象とすることができる。各端末における検索範囲は、それぞれの情報検索部１０３ｂを通じて設定することができ、その設定で例えば自機に備えられたハードディスクに蓄積されたファイルを検索対象に含めることができる。特に、ボット機能が実行されている場合には、仮想的なユーザー用端末１ａ〜１ｃが生成されており、その仮想的なユーザー用端末１ａ〜１ｃの情報検索部１０３ｂとして実行される。

トピック情報制御部２２４は、共有情報検索部２２５が検索した情報を通話に係る音声又は映像中に合成するモジュールであり各ユーザー用端末１の情報合成部１０２ｃと同様の機能を果たす。このトピック情報制御部２２４には、ユーザー用端末１ａ〜１ｃ側のスペックに応じて情報合成部１０２ｃの機能の全て又は一部を補完する機能も備えられており、ユーザー用端末１ａ〜１ｃ側の情報検索部１０３ｂが検索した情報を通話に係る音声又は映像中に合成することもできる。特に、ボット機能が実行されている場合には、管理サーバー２上に仮想的なユーザー用端末１ａ〜１ｃが生成されており、その仮想的なユーザー用端末１ａ〜１ｃの情報合成部として実行される。

データ送信部２２３は、各種のデータを配信するモジュールであり、例えば、表示情報蓄積部２３３に蓄積された表示情報（Ｗｅｂデータ）をユーザー用端末１に送信するとともに、視聴要求の信号を送信してきたユーザー用端末１に対して、グループ通話画面の一部や、トピック情報制御部２２４で合成された共有情報を、インターネット５を通じて配信する。

また、データ送信部２２３には、ボット生成部２２３ａが設けられている。このボット生成部２２３ａは、ボットと呼ばれる仮想的な人物又はキャラクターの音声又は映像を生成するモジュールであり、ボット提供サービスの依頼があった場合に、データ送信部２２３上に仮想的な情報端末を構築し、その仮想的な情報端末を通じて、ボットが参加者としてグループ通話に参加する。

（２）ユーザー用端末１
次いで、各参加者が使用するユーザー用端末１について説明する。図３は、本実施形態に係るユーザー用端末１の内部構成を示すブロック図である。ユーザー用端末１には、通信インターフェース系のモジュールとして通信インターフェース１０１と、グループ通信制御部１０２とを備えている。通信インターフェース１０１は、インターネット５を通じて、データをパケットとして送受信するモジュールであり、また、本実施形態においては、この通信インターフェース１０１を介して、管理サーバー２と通信して端末リストや参加続要求信号等が送受され、他のユーザー用端末１と通信して、配信要求やコンテンツデータが送受される。

グループ通信制御部１０２は、ユーザー用端末１間で確立された通信経路を通じて、入力デバイスであるカメラ１１５やマイク１１４が取得した映像及び音声をリアルタイムに送受信して双方向通話を行うモジュールであり、具体的には、接続要求部１０２ａと、コンテンツ制御部１０２ｂとを備えている。

接続要求部１０２ａは、端末リストを参照して、当該グループ内における他のユーザー用端末１を選択し、選択した通信相手に対して、接続要求及びコンテンツデータの配信要求を送信するモジュールである。なお、接続要求部１０２ａでは、配信要求の際、例えば、端末リスト中に記載された各端末の実行可能通信モードに基づいて、通信モードを指定してもよい。

コンテンツ制御部１０２ｂは、通信インターフェース１０１を通じて、コンテンツデータを取得したり、送信したりするモジュールである。受診に際しては、管理サーバー２からＷｅｂデータを受信したり、他のユーザー用端末１から全部又は一部のコンテンツデータを受信したりし、これらのデータをメモリ１０７に入力する。一方、コンテンツデータの送信に際しては、通話に係る映像や音声、その他のデータを送信する。

詳述すると、コンテンツ制御部１０２ｂは、映像・音声やコンテンツの配信に際し、カメラ１１５で撮影された映像データ、及びマイク１１４で入力された音声データを他のユーザー用端末１や管理サーバー２に対して配信する。このとき、端末リストを元に対話を行っている複数のユーザー用端末１に対して、一部又は全部のコンテンツデータを配信するとともに、当該コンテンツデータを管理サーバー２に対しても送信している。

本実施形態においてコンテンツ制御部１０２ｂには、情報合成部１０２ｃと、情報共有処理部１０２ｄと、映像取得部１０２ｅと、仮想位置設定部１０２ｆとが備えられている。
情報合成部１０２ｃは、情報検索部１０３ｂが検索した情報を通話に係る音声又は映像中に合成するモジュールである。この合成された映像データ若しくは音響データは情報共有処理部１０２ｄに入力される。情報共有処理部１０２ｄは情報合成部１０２ｃが合成した情報（ここでは、映像データ若しくは音響データ）を複数の通信端末間で共有させるモジュールである。

仮想位置設定部１０２ｆは、自機と他の通信相手との仮想的な相対位置関係を設定するモジュールである。音声バランス設定部１１７は、この仮想位置設定部１０２ｆによって設定された各通信相手との仮想的な相対位置関係に基づいて、通話される各通信相手から取得される音声の自機側における音量を通信相手となる通信端末毎に変更する。

映像取得部１０２ｅは、前記通信端末間で共有される映像を通話相手の通信端末から取得するモジュールである。この取得された映像は、認識部１１０に入力され、通話に係る映像中に含まれる文字列が抽出されて、表示された通話画面上にクリッカブルに表示される。このクリッカブル表示に対するクリック等のユーザー操作に応じて、ブラウザ部１０３に備えられた情報検索部１０３ｂによりインターネット５やローカルデータから検索される。この検索された情報は、例えばＷｅｂページやファイルとして、ブラウザの別タグやウィンドウ、別途のアプリケーション画面として、映像取得部１０２ｅが取得した映像とは別途独立させて表示又は出力される。

メモリ１０７は、ＯＳ（Operating System）や各種のアプリケーション用のプログラム、その他のデータ等などを記憶するＲＯＭ装置であり、管理サーバー２から送信された端末リストなどが含まれている。また、このメモリ１０７には、キャッシュ部１０７ａを備えている。キャッシュ部１０７ａは、他のユーザー用端末１から送信された全部又は一部のコンテンツデータを一時的に蓄積するバッファ装置であり、本実施形態では、配信要求に応じて取得されたコンテンツデータを画面生成部１０３ａによるコンテンツ再生に先行して、コンテンツを予めキャッシュ部１０７ａにダウンロードして記憶する。このキャッシュ部１０７ａに記憶されたデータは、他のユーザー用端末１と共有することができ、他のユーザー用端末１から配信要求があった場合には、当該他のユーザー用端末１に対して送信される。

さらに、ユーザー用端末１は、コンテンツの再生・操作に関するモジュールとして、アプリケーション実行部１１１と、操作デバイスインターフェース１０４と、ブラウザ部１０３と、出力インターフェース１０６とを備えている。

アプリケーション実行部１１１は、一般のＯＳやブラウザソフト、メディア視聴アプリケーションなどのアプリケーションを実行するモジュールであり、通常はＣＰＵ等により実現される。なお、本実施形態では、このアプリケーション実行部１１１で、例えば、ブラウザソフトが実行されることによって、ブラウザ部１０３がＣＰＵ上に仮想的に構築され、また、メディア視聴アプリケーションを実行することによって、画面生成部１０３ａがＣＰＵ上に仮想的に構築される。ブラウザソフトは、管理サーバー内に蓄積されたＷｅｂページを視聴可能に表示するためのソフトウェアであり、インターネットからＨＴＭＬ（HyperText Markup Language）ファイルや画像ファイルなどをダウンロードし、レイアウトを解析して表示・再生する。上記メディア視聴アプリケーションは、コンテンツデータのダウンロード機能や、再生機能をユーザー用端末１に実装させるプログラムであり、例えば、ＷｅｂＲＴＣ（Web Real-Time Communication）などのリアルタイムコミュニケーション用のアプリケーションが用いられる。ダウンロードしたコンテンツデータを再生することによって、表示部１０５に表示された表示画面を通じてその映像を出力する。

操作デバイスインターフェース１０４は、マウスやタッチパネル等の操作デバイスが接続され、操作信号の入力を受け付けるモジュールである。ブラウザ部１０３の画面生成部１０３ａにより、表示画面中にユーザー操作を受け付けるＧＵＩ（Graphical User Interface）であるＧＵＩ制御部１０３ｃが構築され、このＧＵＩ制御部１０３ｃを介して、管理者であるユーザーＵａは、グループ通信を開始するための操作を行うとともに、参加者は映像や音声に関する操作をしたり、情報を検索したりなど、各種ユーザー操作を入力することができる。

詳述すると、ブラウザ部１０３は、情報検索部１０３ｂと、ＧＵＩ制御部１０３ｃと、画面生成部１０３ａとを有する。
情報検索部１０３ｂは、ブラウザ部１０３が接続する検索サイトや、ユーザー用端末１のＯＳに備えられたファイル検索機能と連携して、認識部１１０が認識した音声に関連する情報を通信ネットワーク或いはユーザー用端末１上から検索し、メモリ１０７上に記録するモジュールである。この情報検索部１０３ｂは、必要に応じて管理サーバー２側の共有情報検索部２２５と連携して、必要な情報をインターネット５上から検索してメモリ１０７上に記録する。これらメモリ１０７に記録された検索結果は情報共有処理部１０２ｄ又は情報合成部１０２ｃに受け渡たされるとともに、管理サーバー２側の共有情報検索部２２５にも通知される。

ユーザー用端末１上の検索において情報検索部１０３ｂは、インターネット５上の情報のみならず、各ユーザー用端末１即ちローカルに保存された情報も検索対象とすることができる。各端末における検索範囲は、それぞれの情報検索部１０３ｂに対して設定することができ、その設定で例えば自機に備えられたハードディスクに蓄積されたファイルを検索対象に含めることができる。

ＧＵＩ制御部１０３ｃは、表示部１０５に表示されたグループ通信ソフトのウィンドウ５００内に配置され、グループ通信に関する表示及びユーザー操作を受け付けるグラフィックユーザーインターフェース（ＧＵＩ）を制御するモジュールである。特に、本実施形態では、図７に示すような通信インターフェース１０１における双方向通話をしている参加者を指し示すアイコン５００ａや、画面共有されたキャプチャー画面５００ｂなどをウィンドウ５００内に生成し、ウィンドウ５００内に表示させたアイコンやキャプチャー画面に対する操作を、ＧＵＩを通じて操作デバイスインターフェース１０４により受け付けて各モジュールに操作信号を送信する。このＧＵＩに対する操作により、チャンネルの作成や、既存チャンネルに対する参加及び退出の要求や、チャンネルの切替えが行われる。

画面生成部１０３ａは、表示部１０５の画面内にＧＵＩ等の表示情報を表示させるモジュールであり、双方向通話を行っている参加者の映像及び音声を指し示すアイコンや共有画面を、参加者による操作信号により選択可能に通話画面上に表示するとともに、操作信号による選択操作に応じて、各アイコンに対応する映像及び音声を出力させる。この画面生成部１０３ａによって生成される画面としては、例えば、グループ通話前であれば、管理者用端末１ａ専用のチャンネル画面や、管理者用端末１ａが生成したチャンネル画面が含まれる。また、画面生成部１０３ａは、グループ通話が開始されている場合には図７に示すような各ユーザー用端末１が参加しているグループ通話画面を表示させ、通話画面には参加している参加者を示すアイコン５００ａが複数表示されており、アイコン５００ａには、各端末のカメラで撮影された参加者の顔や、会員登録時に設定されたグラフィック等が表示される。

また、画面生成部１０３ａには、管理者権限でアクセスした場合、管理者権限特有のモジュールとして、管理者操作用のＧＵＩを表示させる機能を備えている。このＧＵＩ制御部１０３ｃは、管理者用端末１ａの操作デバイスインターフェース１０４からの操作信号に応じて、各アイコンに関する映像及び音声の出力を制御するようになっており、この操作によって、映像及び音声の出力が制限されると、ユーザー用端末１では、参加者による操作信号が入力された場合であっても、各アイコンに関する映像及び音声が出力されないようになっている。

出力インターフェース１０６は、映像及び音声の出力信号を、表示部１０５及びスピーカー１１３からそれぞれ出力させるモジュールである。表示部１０５は、例えば、液晶ディスプレイ等の表示装置であり、ブラウザソフトなどのアプリケーションによって生成されるウィンドウを通じて、映像や文字などを表示することができる。スピーカー１１３は、音声信号や音声ファイルを外部に音響として出力する出力装置であり、本実施形態では、他のユーザー用端末１から取得した音声データを受信して、各ユーザーの音声を出力する。

さらに、ユーザー用端末１には、コンテンツデータの生成・配信に関するモジュールとして、音声通話部１１２と、認識部１１０と、画像処理部１１６と、音声バランス設定部１１７とを備えている。音声通話部１１２は、音声信号を送受信することによって通常の通話を実行するモジュールであり、管理者又は参加者の音声を取得する入力デバイスであるマイク１１４より入力される音声を音声信号としてインターネット５に送信する一方、インターネット５を通じて受信される音声信号を音声として受話器のスピーカー１１３から出力する。なお、この音声通話部１１２は、ＶｏＩＰ機能によるインターネット電話を実現する機能も備えており、音声通話部１１２から入力される音声信号をＩＰパケットデータに変換し、通話相手のユーザー用端末１に送信し、通話相手のユーザー用端末１から受信されたＩＰパケットデータを音声信号に変換し、音声通話部１１２に入力する。

認識部１１０は、通話中の音声を認識するとともに、映像取得部１０２ｅが取得した映像中の文字、図形又は形状を画像認識する文字等認識部として機能するモジュールである。詳述すると、認識部１１０は、音声通話部１１２を通じて通話中の音声を取得し、又は映像取得部１０２ｅから映像を取得し、取得された音声についてはＡＩにより音響モデルや言語モデルを用いて解析して認識してテキスト化された文字列を抽出する。また、映像については画像認識技術により映像中の文字列を抽出する。この認識部１１０で認識された音声についてはその音声を発した参加者を特定する識別子と関連付けて発話記録としてメモリ１０７に記録され、映像中の文字列についてはその映像中における文字列に相当する部位の範囲の座標と関連付けられてメモリ１０７に記録される。

また、認識部１１０は、音声通話部１１２から取得した音声を認識し、その音声を発話したユーザーと関連付けて発話内容を解析する。この解析では、所謂ＡＩ（Artificial Intelligence：人工知能）によって音響モデルや言語モデルを用いて音声を解析して認識し、テキスト化された文字列を抽出する音声認識処理とともに、発話内容の文法解析に基づいて話題となっているジャンルやトピックスを抽出する解析も実行する。

さらに、この認識部１１０には、ディープラーニング等の機械学習機能が備えられている。このディープラーニングとは、データから自動で特徴を抽出し分類や予測を行う技術であり、ディープラーニングの技術を用いた音声認識では、「音響モデル」から「言語モデル」までのプロセスが１つのニューラルネットワークモデルで実装され、例えば、言語モデルに「私は学校へ」と入力すると、次に出現する可能性が高い「行く」「行かない」などの単語を自動で予測する。

画像処理部１１６は、画像表示に必要な画像データの変換等を行い、画像処理に特化したデジタル信号処理を行うモジュールであり、本実施形態では、管理者又は参加者の映像を取得する入力デバイスであるカメラ１１５により撮影された配信者の静止画像や動画像のデータに対して圧縮符号化等を行い、その圧縮符号化された映像（画像）データを、アプリケーション実行部１１１による制御に基づいてメモリ１０７に記憶させるとともに、メモリ１０７に記憶され圧縮符号化されている映像データ等を伸張復号化等し、その伸張復号後のデータラインを介して映像データを表示部１０５へ送って表示させる。ここで、メモリ１０７内に記憶されている映像データとは、カメラ１１５によって撮影された映像データの他、インターネットを介して他のユーザー用端末１から取得され映像データも含まれる。

そして、表示部１０５の通話画面には、カメラ１１５で撮影された当該端末の所有者の他、グループ通信に参加している他の配信者のアイコン５００ａが画面の各位置にそれぞれ表示される。なお、画像処理部１１６には、画像データを表示画像にＲＧＢ画像に変換する色変換、画像データの切替等を制御し、表示部１０５における画像形成処理全体を制御する画像形成制御機能が含まれる。

音声バランス設定部１１７は、仮想位置設定部１０２ｆによって設定された各通信相手との仮想的な相対位置関係に基づいて、グループ通信制御部１０２によって通話される各通信相手から取得される音声の自機側における音量を通信相手となる通信端末毎に変更するモジュールである。本実施形態において、上述したアイコン５００ａの配置は音声バランス設定部１１７により決定される。

カメラ１１５は、静止画、又は動画を撮影する撮像装置であって、レンズと、ＣＣＤである固定撮像素子から構成され、入射された被写体像を表す光がＣＣＤの受光面に結像され、カメラ信号処理回路及びＡ／Ｄ変換器等を介して画像処理部１１６に送信される。この画像データには、動画及び静止画が含まれ、動画データは、多数の連続画像がフレームとなったストリーミング形式で転送される。

（グループ通話方法）
以上の構成を有するグループ通話システムを動作させることで、本発明のグループ通話方法を実施することができる。図４〜図６に本実施形態における対話グループ生成から通話開始までの動作を示す。なお、ここでは、ユーザーＵａが管理者としてユーザー用端末１ａを操作してグループ（チャンネル）を作成し、他のユーザーＵｂが当該グループに参加する場合を例に説明する。また、ここでは、管理サーバー２には、予め、ユーザー用端末１ａからの会員登録は完了されているものとする。

（１）接続処理
先ず、接続処理について説明する。図４に示すように、ユーザーＵａがユーザー用端末１ａを通じて管理サーバー２にアクセスすると、Ｗｅｂページ上に認証画面が表示される。そして、管理者用端末１ａ側でユーザーＩＤ及びパスワード等を入力すると、管理サーバー２の認証部２２１では、入力されたユーザーＩＤ及びパスワード等に基づいて認証処理が実行される。認証されない場合には、管理者用端末１ａの画面上にはエラー表示がなされ、再度、ユーザーＩＤ及びパスワード等などの認証情報入力が促される。そして、認証が許可されると管理者用端末１ａに対して、現在視聴可能、若しくは参加可能なチャンネルのＷｅｂページが送信される。ここで、ユーザーＵａは新たなグループ（チャンネル）を作成するグループ作成操作を行う（Ｓ１０１）。このグループ作成操作により、そのグループ作成信号が管理サーバー２のグループ生成部２２２ｃに送信される。

他方、グループ生成部２２２ｃではグループ作成信号を受信すると（Ｓ１０２）、生成したグループに対して識別子であるグループＩＤを付加し、グループデータベース２３２に新規登録するとともに、グループ作成要求した管理者用端末１ａから取得したユーザーＩＤをグループ管理者欄に登録する（Ｓ１０３）。また、ユーザー用端末１ａからの入力情報に基づいて参加制限人数をグループデータベース２３２に設定する。

そして、データ送信部２２３では、このグループデータベース２３２に新規登録されたグループを、新規チャンネルとしてＷｅｂサイト上に公開する（Ｓ１０４）。これを受けて、各ユーザー用端末１ａ，１ｂでは、この開設されたチャンネルのＷｅｂページを受信すると、ＧＵＩ制御部１０３ｃでは、双方向通話で送受信されている映像データ及び音声データを指し示すアイコンなどを生成し、画面生成部１０３ａでは、生成されたアイコンを参加者による操作信号により選択可能に画面上に配置して表示するとともに、操作信号による選択操作に応じて、各アイコンに関する映像及び音声を出力させるグループ通話画面を生成して、表示部１０５のウィンドウ５００上に表示させる。

次いで、ユーザーＵｂがユーザー用端末１を用いて管理サーバー２にアクセスすると（Ｓ１０６）、上記同様に認証処理が行われる。なお、視聴者端末の認証処理については、自動的に割り当てられた文字列などをユーザーＩＤとして、ユーザーに認証操作を強制せずに視聴を可能とすることが望ましい。ここで、認証されない場合には、ユーザー用端末１ｂの画面上にはエラー表示を行い、再度、ユーザーＩＤ及びパスワード等などの認証情報入力を促す。一方、認証が許可されると、チャンネル一覧画面や、各チャンネルのホーム画面等がデータ送信部２２３からユーザー用端末１ｂに送信される（Ｓ１０７）。ユーザー用端末１では、ブラウザ部１０３によって、表示部１０５に、通話用画面等が表示される（Ｓ１０８）。その後、ユーザーＵｂが、参加するチャンネルを決定し参加要求操作を行う（Ｓ１０９）。この参加要求信号が生成され、この信号は管理サーバー２のグループ通話制御部２２２で受信される（Ｓ１１０）。

グループ通話制御部２２２でこの参加要求信号を取得すると、アプリケーション側は視聴参加可否の決定をするとともに、当該可否の結果情報を、管理者用端末１ａに結果情報として送信するとともに、参加者用結果情報としてユーザー用端末１ｂに送信する（Ｓ１１３）。そして、管理者用端末１ａでは、この結果情報を取得し、取得された情報を被視聴情報や状態表示として表示させる（Ｓ１１２）一方、ユーザー用端末１では、この結果情報を取得し、取得された情報を表示部１０５上に表示させる（Ｓ１１１）。また、グループ通話制御部２２２では、取得した許可信号に基づいて、グループデータベース２３２を参照し、当該データベース内の参加者欄に、ユーザー用端末１のユーザーＩＤを登録し、ユーザー用端末１ｂをグループ通話に参加させ、双方向通話を開始させる。

（２）共有情報合成出力処理
このように接続されたグループ通話において共有情報を合成出力する場合について説明する。

上述したシーケンスによって通話が開始されると（Ｓ２０１）、映像や音声その他のデータ（各種ファイルやキャプチャーされたデスクトップ画面等）等のコンテンツデータが各端末及び管理サーバー２間で双方向に送受信され（Ｓ２０２）、各端末において映像が表示され音声が出力される（Ｓ２０３）。

ここで、ユーザー用端末１ａ側で共有情報合成出力処理を行う場合を例として説明する。先ず、図５に示すように、ユーザー用端末１ａの認識部１１０によって認識を行う通話認識ステップを実行する（Ｓ２０４）。具体的には、認識部１１０が、音声通話部１１２を通じて通話中の音声を取得し、又は映像取得部１０２ｅから映像を取得し、取得された音声についてはＡＩにより音響モデルや言語モデルを用いて解析して認識してテキスト化された文字列を抽出する。

次いで情報共有処理ステップとしてステップＳ２０５及びＳ２０６を実行する。具体的には、通話認識ステップ（Ｓ２０４）で認識された音声の文字列から検索キーワードを抽出し（Ｓ２０５）、情報検索を実行する（Ｓ２０６）。検索キーワードは通話認識ステップで認識された文字列をそのまま用いる場合と、その文字列に関連付けられた類義語などを含める場合とが挙げられる。また、このとき情報検索部１０３ｂは、インターネット５上の情報のみならず、各ユーザー用端末１即ちローカルに保存された情報も検索対象とすることができる。各端末における検索範囲は、それぞれの情報検索部１０３ｂに対して設定することができ、その設定で例えば自機に備えられたハードディスクに蓄積されたファイルを検索対象に含めることができる。

そして、この検索された情報を各ユーザー端末間で共有する（Ｓ２０７）。具体的には、情報合成部１０２ｃが、情報検索部１０３ｂが検索した情報を通話に係る音声又は映像中に合成し、この合成された映像データ若しくは音響データは情報共有処理部１０２ｄに入力され、この情報共有処理部１０２ｄによって複数の通信端末間で共有される。この共有された情報は、図８に示すように、各ユーザー用端末１でグループ通信ソフトのウィンドウ５００内にポップアップ画面５００ｄとして合成出力されるとともに（Ｓ２０９，Ｓ２１０）、管理サーバー２において共有情報蓄積部２３４に蓄積される。ここでは、グループ通信ソフトのウィンドウ５００内に表示されたユーザーのスポーツに関する発話が吹出しアイコン５００ｃとして表示されるとともに、このスポーツに関する発話が認識されて共有情報として昨日のプロサッカー試合の結果が検索されて、ポップアップ画面５００ｄにより合成表示されている。このポップアップ画面５００ｄには評価操作用のＧＵＩとしてよい評価・悪い評価を選択的に入力する評価ボタン５００ｅが設けられている。

その後、この共有された情報について、各端末を通じて各ユーザーが評価操作を行う（Ｓ２１１）。ここでは、ウィンドウ５００内に合成表示されたポップアップ画面５００ｄに設けられた評価ボタン５００ｅをクリックするなどの評価操作を、ユーザーＵａが行ったものとする。この評価操作は、管理サーバー２側で取得・収集され集計される（Ｓ２１２）とともに、その集計された結果に基づいて、参加者同士の相関情報が生成され（Ｓ２１４）、評価結果に基づく仮想的相対位置を設定する（Ｓ２１５）。具体的には、参加者相関管理部２２２ａが認識処理制御部２２２ｄで取得された音声若しくは文字列と、その音声を発した参加者とを関連付けて発話記録としてグループデータベース２３２に蓄積する。

これと併せて参加者相関管理部２２２ａ、認識された音声に基づいて検索された情報に対する評価及びその評価を行った参加者を特定する参加者識別子と発話記録とを関連付けて、図９に示すような参加者相関情報を生成する。同図に示した例では、スポーツ関連の話題にユーザーＵｃ及びその他のユーザーＵ１，Ｕ２が高い評価をしておりユーザーＵｃに対するユーザーＵ１，Ｕ２の仮想的距離が短く設定される。また、同図に示した例では、時事関連の話題にユーザーＵｃは低い評価をしているのに対し他のユーザーＵ６〜８は高い評価をしており、この時事関連に関しユーザーＵｃに対するユーザーＵ６〜８の仮想的距離が短く設定される。

そして、この参加者相関管理部２２２ａで作成された評価集計結果は他のユーザー用端末１ａにも送信され、その評価集計結果を取得したユーザー用端末１ａ側では取得した評価結果を、例えば「いいね」や星印の数量などで表示する（Ｓ２１３）。また、この設定された仮想的相対位置に応じて、各ユーザーを示すアイコンの配置を変化させるとともに、その仮想的な相対距離に応じて音声バランスを調整することができる（Ｓ２１６）。図９に示した例では、ユーザーＵ１及びＵ２がＧＵＩ中心近くに大きめに配置されて音量も大きめに設定され、ユーザーＵ６〜８がＧＵＩの端側の上方に小さめに配置されて音量も小さめに設定されている。

（３）映像内文字列抽出処理
次いで、各端末に備えられている映像内文字列抽出機能による処理について説明する。先ず、上述したシーケンスによって通話が開始されると（Ｓ３０１）、映像や音声その他のデータ（各種ファイルやキャプチャーされたデスクトップ画面等）等のコンテンツデータが各端末及び管理サーバー２間で双方向に送受信され（Ｓ３０２）、各端末において映像が表示され音声が出力される（Ｓ３０３）。

この取得された映像について、その映像内に映っている文字列を画像認識処理により抽出する（Ｓ３０４）。具体的には、図１０に示すように、認識部１１０の文字等認識機能が、映像取得部１０２ｅが取得した映像中の文字、図形又は形状を画像認識して抽出し、その映像中における文字列に相当する部位の範囲の座標と関連付けられてメモリ１０７に記録する。図１０に示した例では、いずれかのユーザー端末上でキャプチャーされたアプリケーションウィンドウ５０１が他のユーザー間で共有されている。このキャプチャーされたデスクトップ画面に含まれるブラウザソフトのアプリケーションウィンドウ５０１に表示されたＵＲＬ５０１ａを画像認識して抽出し、その映像中における文字列に相当する部位の範囲の座標と関連付けられてメモリ１０７に記録する。

そして、その抽出された文字列が表示された座標に相当する部位がクリッカブルにディスプレイ上に表示されるとともに、このクリッカブル表示の部位に対するユーザー操作を取得する（Ｓ３０５）。ここでは、デスクトップ画面に含まれるブラウザソフトのアプリケーションウィンドウ５０１に表示されたＵＲＬ５０１ａに相当する部位をユーザーがクリックしたことを検出する。次いで、このクリックされた部位の座標を検出することにより、その操作により特定された座標に関連付けられた上記ＵＲＬ５０１ａの文字列が取得され、その取得された文字列に基づいて情報の検索が行われる（Ｓ３０６）。

このステップＳ３０６における検索の検索結果である情報を表示する（Ｓ３０７）。詳述すると、このクリッカブル表示に対するクリック等のユーザー操作に応じて、ブラウザ部１０３に備えられた情報検索部１０３ｂによりインターネット５やローカルデータから検索される。この検索された情報は、ここでは、Ｗｅｂページやファイルとして、グループ通信ソフトのアプリケーションウィンドウ５００とは別のアプリケーションウィンドウ５０２として、映像取得部１０２ｅが取得した映像とは別途独立させて表示又は出力される。

（４）ボット処理
本実施形態では、サーバー０上のボット生成部２２３ａによって、ボットと呼ばれる仮想的な人物又はキャラクターの音声又は映像を生成する機能を備えてお降り、ボット提供サービスの依頼があった場合に、データ送信部２２３上に仮想的な情報端末を構築し、その仮想的な情報端末を通じて、図１２に示すような仮想的なキャラクターであるボットＢ１のイメージ画像が参加者としてグループ通話に参加させるサービスが提供される。ボットＢ１は、例えば３Ｄモデルや２Ｄモデルで擬人的に挙動する仮想上の人物（動物やクリーチャー等を含む）であり、このボット生成部２２３ａは情報検索部１０３ｂによって検索された情報がボットＢ１を通じて情報合成部１０２ｃにより合成される。本実施形態においてこの情報合成部１０２ｃは、ボットＢ１があたかもグループ通信の参加者の一人として表示され、グループ通信で通話されたり共有された情報に関して自発的に検索した情報を、音声や文字表示で提供する。

このボット提供サービスにおけるシーケンスを図１１に示す。同図に示すように、ボット生成処理が実行され、生成されたボットが参加者としてグループ通話に対する酸化処理が実行され（Ｓ４０１）、各端末間において通話が開始されると（Ｓ４０２）、映像や音声その他のデータ（各種ファイルやキャプチャーされたデスクトップ画面等）等のコンテンツデータが各端末及び管理サーバー２間で双方向に送受信され（Ｓ４０３）、各端末において映像が表示され音声が出力される（Ｓ４０４）。

次いで、認識処理制御部２２２ｄによって音声認識を行う（Ｓ４０５）。具体的には、認識処理制御部２２２ｄ及び解析処理部２２６がグループ通話制御部２２２を通じて通話中の音声を取得し、取得された音声について、解析処理部２２６のＡＩにより音響モデルや言語モデルを用いて解析して認識してテキスト化された文字列を抽出する。

次いで，通話認識ステップ（Ｓ４０５）で認識された音声の文字列から検索キーワードを抽出し（Ｓ４０６）、情報検索を実行する（Ｓ４０７）。検索キーワードは通話認識ステップで認識された文字列をそのまま用いる場合と、その文字列に関連付けられた類義語などを含める場合とが挙げられる。また、このとき共有情報検索部２２５がインターネット５上の情報のみならず、各ユーザー用端末１即ちローカルに保存された情報を検索対象とする。

そして、この検索された情報は、ボットの発話処理を通じて各ユーザー端末間で共有される（Ｓ４０８）。具体的には、共有情報検索部２２５及びトピック情報制御部２２４が検索して決定したトピック情報を、ボット生成部２２３ａが、通話に係る音声又は映像中に合成し、この合成された映像データ若しくは音響データは、通話用の映像データ及び音響データとして情報共有処理部１０２ｄに入力され、情報共有処理部１０２ｄによって他の通信端末へ送信される。この送信された共有情報は各端末の音声通話部１１２で他の通話映像と同様に取得され（Ｓ４０９）、ボットＢ１の発話として出力されるとともに（Ｓ４１１）、管理サーバー２において共有情報蓄積部２３４に蓄積される（Ｓ４１０）。

その後、この共有された情報について、各端末を通じて各ユーザーが評価操作を行う（Ｓ４１２）。ここでは、グループ通信ソフトのウィンドウ５００内に合成表示されたポップアップ画面５００ｄに設けられた評価ボタン５００ｅをクリックするなどの評価操作を、ユーザーＵａが行ったものとする。この評価操作は、管理サーバー２側で取得・収集され集計される（Ｓ４１３）とともに、その集計された結果に基づいて、参加者同士の相関情報が生成され（Ｓ４１４）、評価結果に基づく仮想的相対位置を設定する（Ｓ４１５）。具体的には、参加者相関管理部２２２ａが認識処理制御部２２２ｄで取得された音声若しくは文字列と、その音声を発した参加者とを関連付けて発話記録としてグループデータベース２３２に蓄積する。

詳しくは、参加者相関管理部２２２ａ、認識された音声に基づいて検索された情報に対する評価及びその評価を行った参加者を特定する参加者識別子と発話記録とを関連付けて、図９に示すような参加者相関情報を生成する（Ｓ４１４）。そして、この参加者相関管理部２２２ａで作成された評価集計結果は他のユーザー用端末１ａにも送信され、その評価集計結果を取得したユーザー用端末１ａ側では取得した評価結果を、例えば「いいね」や星印の数量などで表示する。次いで、この設定された仮想的相対位置に応じて、各ユーザーを示すアイコンの配置を変化させるとともに、その仮想的な相対距離に応じて音声バランスを調整することができる（Ｓ４１５及びＳ４１６）。

（グループ通話プログラム）
上述した本実施形態係るユーザー用端末１及びグループ通話方法は、所定の言語で記述されたプログラムをコンピューター上で実行することにより実現することができる。即ち、このプログラムをクライアント側が使用するパーソナルコンピュータ、ネットワーク上に配置されたサーバー装置にインストールし、ＣＰＵ上で実行することにより、上述した各機能を有するグループ通話システムを容易に構築することができる。このプログラムは、例えば、通信回線を通じて配布することが可能であり、またスタンドアローンの計算機上で動作するパッケージアプリケーションとして譲渡することができる。

そして、このようなプログラムは、パーソナルコンピュータで読み取り可能な記録媒体に記録することができる。具体的には、ＣＤ-ＲＯＭやＤＶＤ-ＲＯＭ等の光ディスクの他、ＵＳＢメモリやメモリカードなど、種々の記録媒体に記録することができる。

（作用・効果）
このような本実施形態によれば、通話中の音声を認識して、認識された音声に関連する情報（話題や記事等）を通信ネットワーク上から自動的に検索し、その検索結果を通話に係る音声又は映像中に合成して共有させる。これにより、本実施形態では、ビデオチャットやテレビ会議など複数の通信端末間でリアルタイムでグループ通信する際、関連情報が自動的に提供されるため、チャットの途中で話題が尽きてしまったようなときであっても、会話をスムーズに継続することができる。

また、本実施形態によれば、通信端末間で共有される映像に含まれる文字、図形又は形状を認識し、その認識結果から特定される情報を別途独立されたアプリケーションウィンドウから表示又は出力することから、グループ通話から別途独立したツールでグループ通話に関連する情報を検索でき、話題が発散してしまって共通の話題が見えなくなってしまったときに、他のユーザーの会話を妨げることなく、ユーザーが独自に話題中の情報を検索することができる。

さらに、本実施形態によれば、各ユーザーが、自身と他の通信相手との仮想的な相対位置関係を設定して、その位置関係に基づいて、各通信相手の音量を変更する音声バランス設定ができることから、複数のユーザーがそれぞれ発話し話題が混在したような場合であっても、各ユーザーの声を適切な音量とすることができる。

これらの結果、本実施形態によれば、グループ通信に際し、複数人の参加者が一斉に集合して通話を行うことによる不便さや不自由さを解消できる。

Ｂ１…ボット（画像イメージ）
Ｕ１〜１２，Ｕａ〜Ｕｃ…ユーザー
１（１ａ〜１ｃ）…ユーザー用端末
２…管理サーバー
５…インターネット
２１…通信インターフェース
２２…制御部
２３…記憶部
１０１…通信インターフェース
１０２…グループ通信制御部
１０２ａ…接続要求部
１０２ｂ…コンテンツ制御部
１０２ｃ…情報合成部
１０２ｄ…情報共有処理部
１０２ｅ…映像取得部
１０２ｆ…仮想位置設定部
１０３…ブラウザ部
１０３ａ…画面生成部
１０３ｂ…情報検索部
１０３ｃ…ＧＵＩ制御部
１０４…操作デバイスインターフェース
１０５…表示部
１０６…出力インターフェース
１０７…メモリ
１０７ａ…キャッシュ部
１１０…認識部
１１１…アプリケーション実行部
１１２…音声通話部
１１３…スピーカー
１１４…マイク
１１５…カメラ
１１６…画像処理部
１１７…音声バランス設定部
２２１…認証部
２２２…グループ通話制御部
２２２ａ…参加者相関管理部
２２２ｂ…評価収集部
２２２ｃ…グループ生成部
２２２ｄ…認識処理制御部
２２３…データ送信部
２２３ａ…ボット生成部
２２４…トピック情報制御部
２２５…共有情報検索部
２２６…解析処理部
２３１…ユーザーデータベース
２３２…グループデータベース
２３３…表示情報蓄積部
２３４…共有情報蓄積部
５００…アプリケーションウィンドウ
５００ａ…アイコン
５００ｂ…共有キャプチャー画面
５００ｃ…吹出しアイコン
５００ｄ…ポップアップ画面
５００ｅ…評価ボタン
５０１…キャプチャーされたアプリケーションウィンドウ
５０１ａ…ＵＲＬ
５０２…アプリケーションウィンドウ

Claims

複数の参加者がそれぞれ使用する複数の通信端末間で通信ネットワークを通じて通信を行うグループ通信システムであって、
音声又は音声を含む映像による通話を行う通話部と、
通話中の音声を認識する音声認識部と、
前記音声認識部が認識した音声に関連する情報を通信ネットワーク上から検索する情報検索部と、
前記情報検索部が検索した情報を前記通話に係る音声又は映像中に合成する情報合成部と、
前記情報合成部が合成した情報を前記複数の通信端末間で共有させる情報共有処理部と
を備えることを特徴とするグループ通信システム。
仮想的な人物又はキャラクターの音声又は映像を生成するボット生成部をさらに備え、
前記情報検索部によって検索された情報は、前記ボット生成部により生成された音声又は映像として前記情報合成部により合成される
ことを特徴とする請求項１に記載のグループ通信システム。
通信ネットワーク上に配置された複数の通信端末間で通信を行うオンライン会議システムであって、
音声又は音声を含む映像による通話を行う通話部と、
前記通信端末間で共有される映像を通話相手の通信端末から取得する映像取得部と、
映像取得部が取得した映像中の文字、図形又は形状を認識する文字等認識部と、
前記文字等認識部が認識した文字、図形又は形状から特定される情報を通信ネットワーク上から検索する情報検索部と、
前記情報検索部が検索した情報を、前記映像取得部が取得した映像とは別途独立させて表示又は出力する検索情報出力部と
を備えることを特徴とするグループ通信システム。
自機と他の通信相手との仮想的な相対位置関係を設定する仮想位置設定部と、
前記仮想位置設定部によって設定された各通信相手との仮想的な相対位置関係に基づいて、前記通話部によって通話される各通信相手から取得される音声の自機側における音量を通信相手となる通信端末毎に変更する音声バランス設定部をさらに備えることを特徴とする請求項１乃至３のいずれかに記載のグループ通信システム。
前記通信端末間で共有された情報に対する各参加者による評価を、各自の通信端末を通じて収集する評価収集部をさらに備え、
前記仮想位置設定部は、前記評価収集部によって収集された各参加者の評価に基づいて設定する
ことを特徴とする請求項４に記載のグループ通信システム。
前記音声認識部が認識した音声と、その音声を発した参加者とを関連付けて発話記録として蓄積するとともに、認識された音声に基づいて検索された情報に対する評価及びその評価を行った参加者を特定する参加者識別子と前記発話記録とを関連付けて参加者相関情報を生成する参加者相関管理部をさらに備えることを特徴とする請求項１乃至３のいずれかに記載のグループ通信システム。
複数の参加者がそれぞれ使用する複数の通信端末間で、通信ネットワークを通じて通信を行うグループ通信プログラムであって、コンピューターを、
音声又は音声を含む映像による通話を行う通話部と、
通話中の音声を認識する音声認識部と、
前記音声認識部が認識した音声に関連する情報を、通信ネットワーク上から検索する情報検索部と、
前記情報検索部が検索した情報を、前記通話に係る音声又は映像中に合成する情報合成部と、
前記情報合成部が合成した情報を、前記複数の通信端末間で共有させる情報共有処理部として
機能させることを特徴とするグループ通信プログラム。
前記コンピューターを仮想的な人物又はキャラクターの音声又は映像を生成するボット生成部としてさらに機能させ、
前記情報検索部によって検索された情報は、前記ボット生成部により生成された音声又は映像として前記情報合成部により合成される
ことを特徴とする請求項７に記載のグループ通信プログラム。
通信ネットワーク上に配置された複数の通信端末間で、通信を行うオンライン会議プログラムであって、コンピューターを、
音声又は音声を含む映像による通話を行う通話部と、
前記通信端末間で共有される映像を通話相手の通信端末から取得する映像取得部と、
映像取得部が取得した映像中の文字、図形又は形状を認識する文字等認識部と、
前記文字等認識部が認識した文字、図形又は形状から特定される情報を通信ネットワーク上から検索する情報検索部と、
前記情報検索部が検索した情報を、前記映像取得部が取得した映像とは別途独立させて表示又は出力する検索情報出力部として
機能させることを特徴とするグループ通信プログラム。
前記コンピューターを、
自機と、他の通信相手との仮想的な相対位置関係を設定する仮想位置設定部と、
前記仮想位置設定部によって設定された各通信相手との仮想的な相対位置関係に基づいて、前記通話部によって通話される各通信相手から取得される音声の自機側における音量を通信相手となる通信端末毎に変更する音声バランス設定部
としてさらに機能させることを特徴とする請求項７乃至９のいずれかに記載のグループ通信プログラム。
前記コンピューターを、前記通信端末間で共有された情報に対する各参加者による評価を、各自の通信端末を通じて収集する評価収集部としてさらに機能させ、
前記仮想位置設定部は、前記評価収集部によって収集された各参加者の評価に基づいて設定する
ことを特徴とする請求項１０に記載のグループ通信プログラム。
前記コンピューターを、前記音声認識部が認識した音声とその音声を発した参加者とを関連付けて発話記録として蓄積するとともに、認識された音声に基づいて検索された情報に対する評価及びその評価を行った参加者を特定する参加者識別子と前記発話記録とを関連付けて参加者相関情報を生成する参加者相関管理部としてさらに機能させることを特徴とする請求項７に記載のグループ通信プログラム。
複数の参加者がそれぞれ使用する複数の通信端末間で通信ネットワークを通じて通信を行うグループ通信方法であって、
音声又は音声を含む映像による通話を通話部が実行させるとともに、通話中の音声を音声認識部が認識する通話認識ステップと、
前記音声認識部が認識した音声に関連し、通信ネットワーク上から検索された情報を、情報共有処理部が前記通話に係る音声又は映像中に合成して前記複数の通信端末間で共有させる情報共有処理ステップと
を含むことを特徴とするグループ通信方法。
前記情報共有処理ステップでは、前記検索された情報を、ボット生成部により生成された仮想的な人物又はキャラクターの音声又は映像として合成することを特徴とする請求項１３に記載のグループ通信方法。
通信ネットワーク上に配置された複数の通信端末間で、通信を行うグループ通信方法であって、
音声又は音声を含む映像による通話を通話部が実行させるとともに、前記通信端末間で共有される映像を通話相手の通信端末から映像取得部が取得する映像取得ステップと、
映像取得部が取得した映像中から認識した文字、図形又は形状に基づいて特定される情報を情報検索部が通信ネットワーク上から検索する情報検索ステップと、
前記情報検索ステップにおいて検索された情報を、前記映像取得部が取得した映像とは別途独立させて検索情報出力部が表示又は出力する検索情報出力ステップと
を含むことを特徴とするグループ通信方法。
自機と他の通信相手との仮想的な相対位置関係に基づいて、前記通話部によって通話される音声の自機側における音量を通信相手となる通信端末毎に音声バランス設定部が変更する音声バランス設定ステップをさらに含むことを特徴とする請求項１３乃至１５のいずれかに記載のグループ通信方法。
前記通信端末間で共有された情報に対する各参加者による評価を、評価収集部が各自の通信端末を通じて収集する評価収集ステップをさらに含み、
前記音声バランス設定ステップでは、前記評価収集ステップで収集された各参加者の評価に基づいて仮想的な相対位置関係を設定する
ことを特徴とする請求項１６に記載のグループ通信方法。
前記音声認識部が認識した音声と、その音声を発した参加者とを関連付けて発話記録として蓄積するとともに、認識された音声に基づいて検索された情報に対する評価及びその評価を行った参加者を特定する参加者識別子と前記発話記録とを関連付けて参加者相関情報を参加者相関管理部が生成する参加者相関管理ステップをさらに含むことを特徴とする請求項１３に記載のグループ通信方法。