JP2022066779A

JP2022066779A - コミュニケーションシステム、管理サーバ、およびそれらの制御方法

Info

Publication number: JP2022066779A
Application number: JP2020175312A
Authority: JP
Inventors: 保次瀬古; Yasuji Seko; 正吾沼倉; Shogo Numakura
Original assignee: Symmetry Dimensions Inc
Current assignee: Symmetry Dimensions Inc
Priority date: 2020-10-19
Filing date: 2020-10-19
Publication date: 2022-05-02
Anticipated expiration: 2040-10-19
Also published as: JP6892173B1

Abstract

【課題】遠隔地にいる相手がすぐそばにいるような感覚でのリアルタイムのコミュニケーションが可能なコミュニケーションシステムを提供する。【解決手段】複数の端末と、管理サーバとを含んで構成されるコミュニケーションシステムであって、前記複数の端末それぞれは、発話を受け付ける受付手段と、前記発話に基づく音声データを前記管理サーバに送信する第１の送信手段と、前記管理サーバから受信した音声データを出力する出力手段とを有し、前記管理サーバは、前記複数の端末のうちの第１の端末から音声データを受信する受信手段と、前記音声データに基づいて、前記複数の端末のうちの接続先となる第２の端末を特定する第１の解析手段と、前記第１の端末と前記第２の端末とを含むグループ内において通話を行うための接続を確立する接続手段と、前記第２の端末に対して、前記第１の端末から受信した音声データを送信する第２の送信手段とを有する。【選択図】図１

Description

本願発明は、コミュニケーションシステム、管理サーバ、およびそれらの制御方法に関する。

近年、遠隔地において多人数間のコミュニケーションをサポートするツールが普及している。例えば、ＳＮＳ（ＳｏｃｉａｌＮｅｔｗｏｒｋｉｎｇＳｅｒｖｉｃｅ）などでは、文字や音声を用いて多人数間でのコミュニケーションを行うための機能が提供されている。

例えば、特許文献１には、スマートフォンなどの端末間の通話内容を文字へ変換し、表示領域へ表示させる構成が開示されている。

特開２０２０－１５４６５２号公報

従来、携帯電話などの一般的なコミュニケーションツールでは、要求元が通信相手を指定して接続を試み、その通信相手側が接続を承諾した結果、２者間でのコミュニケーション（例えば、通話）が開始される。このような一般的な手順では、通信相手とのコミュニケーションが開始されるまでに時間や手間を要する。例えば、急用である場合には、このような時間や手間がユーザの利便性を低下させてしまう。

また、上記のような従来のコミュニケーションツールでは、コミュニケーション相手が遠隔地にいる感覚でコミュニケーションを行うため、コミュニケーション相手がすぐそばにいるような感覚でのコミュニケーションとは異なるものとなっていた。例えば、会話相手がそばにいる状況では、何かしらのアクションを行うことなく、単に話しかける（発声する）だけで会話が開始されることとなる。

本願発明は、遠隔地にいる相手がすぐそばにいるような感覚でのリアルタイムのコミュニケーションが可能なコミュニケーションシステムを提供することを目的とする。

上記課題を解決するために本願発明は以下の構成を有する。すなわち、複数の端末と、管理サーバとを含んで構成されるコミュニケーションシステムであって、
前記複数の端末それぞれは、
発話を受け付ける受付手段と、
前記発話に基づく音声データを前記管理サーバに送信する第１の送信手段と、
前記管理サーバから受信した音声データを出力する出力手段と
を有し、
前記管理サーバは、
前記複数の端末のうちの第１の端末から音声データを受信する受信手段と、
前記音声データに基づいて、前記複数の端末のうちの接続先となる第２の端末を特定する第１の解析手段と、
前記第１の端末と前記第２の端末とを含むグループ内において通話を行うための接続を確立する接続手段と、
前記第２の端末に対して、前記第１の端末から受信した音声データを送信する第２の送信手段と
を有する。

また、本願発明の別の一形態として以下の構成を有する。すなわち、複数の端末と、管理サーバとを含んで構成されるコミュニケーションシステムの制御方法であって、
前記複数の端末それぞれにおいて、
発話を受け付ける受付工程と、
前記発話に基づく音声データを前記管理サーバに送信する第１の送信工程と、
前記管理サーバから受信した音声データを出力する出力工程と
を有し、
前記管理サーバにおいて、
前記複数の端末のうちの第１の端末から音声データを受信する受信工程と、
前記音声データに基づいて、前記複数の端末のうちの接続先となる第２の端末を特定する第１の解析工程と、
前記第１の端末と前記第２の端末とを含むグループ内において通話を行うための接続を確立する接続工程と、
前記第２の端末に対して、前記第１の端末から受信した音声データを送信する第２の送信工程と
を有する。

また、本願発明の別の一形態として以下の構成を有する。すなわち、複数の端末と通信可能に構成される管理サーバであって、
前記複数の端末のうちの第１の端末から音声データを受信する受信手段と、
前記音声データに基づいて、前記複数の端末のうちの接続先となる第２の端末を特定する解析手段と、
前記第１の端末と前記第２の端末とを含むグループ内において通話を行うための接続を確立する接続手段と、
前記第２の端末に対して、前記第１の端末から受信した音声データを送信する第２の送信手段と
を有する。

また、本願発明の別の一形態として以下の構成を有する。すなわち、複数の端末と通信可能に構成される管理サーバの制御方法であって、
前記複数の端末のうちの第１の端末から音声データを受信する受信工程と、
前記音声データに基づいて、前記複数の端末のうちの接続先となる第２の端末を特定する解析工程と、
前記第１の端末と前記第２の端末とを含むグループ内において通話を行うための接続を確立する接続工程と、
前記第２の端末に対して、前記第１の端末から受信した音声データを送信する第２の送信工程と
を有する。

本願発明によれば、遠隔地にいる相手がすぐそばにいるような感覚でのリアルタイムのコミュニケーションが可能となる。

本願発明の一実施形態に係るシステムの全体構成の例を示す概要図。本願発明の一実施形態に係る各装置の機能構成の例を示す図。第１の実施形態に係る命令ワードＤＢの構成例を示す図。第１の実施形態に係る音声データＤＢの構成例を示す図。第１の実施形態に係る通信先情報ＤＢの構成例を示す図。第１の実施形態に係るグループ管理ＤＢの構成例を示す図。第１の実施形態に係る学習済みモデルの説明。第１の実施形態に係る処理シーケンス（１対１間の通話接続）。第１の実施形態に係る自動切断処理の処理シーケンス。第２の実施形態に係る処理シーケンス（多人数間の通話接続）。第２の実施形態に係る処理シーケンス（多人数間の通話接続）。第３の実施形態に係る各装置の機能構成の例を示す図。第３の実施形態に係る処理シーケンス。第３の実施形態に係る掲示板機能の画面構成の例を示す図。第４の実施形態に係る掲示板の写真登録機能の処理シーケンス。第４の実施形態に係る掲示板のスケジューリング機能の処理シーケンス。

以下、本願発明を実施するための形態について図面などを参照して説明する。なお、以下に説明する実施形態は、本願発明を説明するための一実施形態であり、本願発明を限定して解釈されることを意図するものではなく、また、各実施形態で説明されている全ての構成が本願発明の課題を解決するために必須の構成であるとは限らない。また、各図面において、同じ構成要素については、同じ参照番号を付すことにより対応関係を示す。

＜第１の実施形態＞
以下、本願発明の第１の実施形態について説明を行う。

［システム構成］
図１は、本実施形態に係るコミュニケーションシステムの全体構成の例を示す概念図である。本実施形態に係るコミュニケーションシステムは、管理サーバ１０１と複数の端末１０３～１０５とがネットワーク１０２を介して通信可能に接続される。図１では、３つの端末を例に挙げて示しているが、端末数は特に限定するものではなく、更に多くの端末が含まれてもよい。端末としては、スマートフォンやタブレット端末などの携帯端末であってもよいし、ヘッドマウントディスプレイやヘッドフォン、スマートウォッチなどのウェアラブル端末であってもよい。したがって、各端末は、同じ構成であってもよいし、別の構成を備えていてもよい。端末はそれぞれ、ユーザにより所持されているものとする。また、管理サーバ１０１は、図１に示すように１台の装置にて構成されるものに限定するものではなく、負荷分散や機能などに応じて複数の装置にて構成されてよいし、クラウドコンピューティングやエッジコンピューティングなどの手法を用いて実現されてもよい。

［機能構成］
図２は、本実施形態に係る各装置の機能構成の例を示す図である。図２（ａ）は、本実施形態に係る端末の機能構成の例を示す図である。ここでは、端末１０３を例に挙げて説明するが、他の端末１０４、１０５も同等の構成を備えるものとする。端末１０３は、音声入力部２０１、音声出力部２０２、表示部２０３、操作入力部２０４、処理部２０５、データ通信部２０６、および記憶部２０７を含んで構成される。

音声入力部２０１は、マイク（不図示）などを含んで構成され、外部から音声の入力を受け付ける。ここでの音声は、例えば、端末１０３のユーザの発話などが含まれる。音声出力部２０２は、スピーカ（不図示）などを含んで構成され、外部への音声データの出力を行う。表示部２０３は、例えば、ディスプレイなどを含んで構成され、ＵＩ（ＵｓｅｒＩｎｔｅｒｆａｃｅ）画面や各種情報を表示する。操作入力部２０４は、ユーザからの操作を受け付ける。例えば、表示部２０３と操作入力部２０４が一体となったタッチパネルディスプレイなどが用いられてもよい。

処理部２０５は、端末１０３における各種処理の他、端末１０３の動作を統括的に制御する。処理部は例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）や専用回路などから構成されてよい。データ通信部２０６は、ネットワークインターフェース（ＮＩＣ）などを含んで構成され、外部とのデータの送受信に関する制御を行う。ここでの通信規格は特に限定するものでは無いが、後述するような音声通信などが可能なプロトコル（例えば、ＶｏＩＰなど）を利用可能であるものとする。また、本実施形態において、各端末は、管理サーバ１０１へアクセスするための各種情報を予め保持しているものとする。記憶部２０７は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）やＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）などの不揮発性の記憶装置や、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などの揮発性の記憶領域などから構成されてよい。

図２（ｂ）は、本実施形態に係る管理サーバ１０１の機能構成の例を示す図である。管理サーバ１０１は、不図示の処理部、記憶部、および入出力部を備えた情報処理装置として構成される。処理部は例えば、ＣＰＵや専用回路などから構成されてよい。記憶部は、ＲＯＭやＨＤＤなどの不揮発性の記憶装置や、ＲＡＭなどの揮発性の記憶領域などから構成されてよい。以下に示す各部位は、例えば、記憶部に格納されたプログラムを処理部が読み出して実行することにより実現されてよい。管理サーバ１０１は、音声変換部２１１、データ解析部２１２、接続管理部２１３、接続制御部２１４、通信先決定部２１５、通信先情報管理部２１６、音声データ管理部２１７、およびデータ通信部２１８を含んで構成される。

音声変換部２１１は、各端末から受信した音声データをテキストデータに変換する。データ解析部２１２は、変換されたテキストデータの解析を行う。例えば、テキストデータに対して、形態素解析、構文解析、文脈解析、意味解析、単語抽出などを行って、実行すべき処理の特定を行う。本実施形態に係る解析処理の具体例については後述する。

接続管理部２１３は、端末との接続を管理する。また、接続管理部２１３は、複数の端末との接続をグループ化し管理する。本実施形態に係る接続管理やグループ化の詳細は後述する。接続制御部２１４は、端末との接続の確立および切断を制御する。通信先決定部２１５は、テキストデータに基づいて、接続を確立する通信先を決定する。

通信先情報管理部２１６は、接続を行う通信先の情報を管理する。通信先情報の例については、図５を用いて後述する。音声データ管理部２１７は、各端末から受信した音声データを管理する。ここで管理する情報の例については、図４を用いて後述する。データ通信部２１８は、ネットワークインターフェース（ＮＩＣ）などを含んで構成され、外部とのデータの送受信に関する制御を行う。ここでの通信規格は特に限定するものでは無いが、後述するような音声通信が可能なプロトコル（例えば、ＶｏＩＰなど）を利用可能であるものとする。

［データベース（ＤＢ）構成］
（命令ワードＤＢ）
図３は、本実施形態に係る命令ワードＤＢの構成例を示す。命令ワードは、ユーザから入力された音声に含まれるキーワードを示し、このキーワードに応じて所定の処理が実行されるものとする。管理サーバ１０１のデータ解析部２１２は、入力された音声から命令ワードを抽出し、実行する処理を特定した上で、その処理を実行する。本実施形態では、命令ワードＤＢは、管理サーバ１０１に保持され、適時更新されるものとする。

命令ワードＤＢは、命令ワードと実行処理が対応付けて保持されているものとする。命令ワードとしては、例えば、人名や処理を示す名称などが挙げられる。また、命令ワードに対応付けられる処理としては、端末と管理サーバ１０１の接続の確立（接続処理）や、入力された音声データの送信（音声データ送信）、確立されている接続の切断（切断処理）などが挙げられる。また、図３に示すように、命令ワードが含まれていない場合でも、管理サーバ１０１と各端末との通信が確立された状態であれば、入力された音声データを装置間で送受信するような構成であってもよい。なお、ここでの処理は特に限定するものではなく、管理サーバ１０１の機能などに応じて規定されてよい。

（音声データＤＢ）
図４は、本実施形態に係る音声データＤＢの構成例を示す。音声データＤＢは、管理サーバ１０１の音声データ管理部２１７にて管理され、適時更新されるものとする。音声データＤＢは、コミュニケーションが行われた際の音声の履歴情報として用いられる。音声データＤＢは、音声データＩＤ、端末ＩＤ、発話日時、音声データの格納先、テキストデータの格納先、およびグループＩＤを含んで構成される。音声データＩＤは、音声データを一意に識別するための識別情報である。端末ＩＤは、端末を一意に識別するための識別情報であり、音声データを管理サーバ１０１に送信してきた端末の端末ＩＤが設定される。発話日時は、端末から音声データを受信した日時が設定される。

音声データの格納先は、端末から受信した音声データの格納先を示す。この格納先は、管理サーバ１０１が備えた記憶装置であってもよいし、他の装置にて構成された記憶装置であってもよい。音声データは、所定のファイル形式にて管理されているものとするが、ファイル形式は特に限定するものではない。テキストデータの格納先は、端末から受信した音声データを変換することにより得られるテキストデータの格納先を示す。テキストデータは、所定のファイル形式にて管理されているものとするが、ファイル形式は特に限定するものではない。グループＩＤは、端末と管理サーバ１０１との間の接続をグループ化した際に、各グループを一意に識別するための識別情報である。各ＩＤの仕様（桁数や使用可能文字など）は、図４に示したものに限定するものでは無く、任意の仕様が用いられてよい。また、各ＩＤは、管理サーバ１０１が任意のタイミングにて割り当てる構成であってよい。

（通信先情報ＤＢ）
図５は、本実施形態に係る通信先情報ＤＢの構成例を示す。通信先情報ＤＢは、管理サーバ１０１の通信先情報管理部２１６にて管理され、適時更新されるものとする。通信先情報ＤＢは、対応ワード、端末ＩＤ、電話番号、およびＩＰアドレスを含んで構成される。対応ワードは、テキストデータから抽出されるワードに対応する。端末ＩＤは、端末を一意に識別するための識別情報であり、図３の音声データＤＢの端末ＩＤに対応する。電話番号は、端末に割り当てられた電話番号を示す。ＩＰアドレスは、端末に割り当てられたＩＰアドレスを示す。図５では、ＩＰアドレスとして、ＩＰｖ６の構成にて示しているが、これに限定するものではない。なお、管理サーバ１０１と端末との間の通信プロトコルに応じて、電話番号またはＩＰアドレスの一方のみが接続の際に用いられてもよいし、他の情報が用いられてもよい。

（グループ管理ＤＢ）
図６は、本実施形態に係るグループ管理ＤＢの構成例を示す。グループ管理ＤＢは、管理サーバ１０１の接続管理部２１３にて管理され、適時更新されるものとする。グループ管理ＤＢは、グループＩＤ、所属端末ＩＤ、接続開始日時、最新音声データ受信日時、および最新音声データ送信日時を含んで構成される。グループＩＤは、グループを一意に識別するための情報である。本実施形態に係るグループとは、管理サーバ１０１と端末の接続を複数まとめて管理するためのものであり、そのグループに属する端末間において音声データの送受信が行われ、所謂グループ通話が可能となる。例えば、管理サーバ１０１と端末１０３、１０４、１０５それぞれとの接続を１のグループとして管理している場合、端末１０３、１０４、１０５にてグループ通話が可能となる。

所属端末ＩＤは、グループに属している端末の端末ＩＤを示し、図３などに示した端末ＩＤに対応する。接続開始日時は、グループに属して接続を開始した日時を示す。最新音声データ受信日時は、対応する端末から音声データを受信した最新の日時を示す。最新音声データ送信日時は、対応する端末へ音声データを送信した最新の日時を示す。

なお、上記に示す各種ＤＢの構成例は一例であり、これに限定するものではない。例えば、他の項目を含めて管理してもよいし、上記に示した例のうちの１のＤＢを複数のＤＢに分けて構成してもよい。

［データ解析処理］
次に本実施形態に係る管理サーバ１０１のデータ解析部２１２によるデータ解析処理について説明する。データ解析部２１２は、端末から取得した音声データを音声変換部２１１にてテキストデータに変換した後、そのテキストデータの解析を行う。解析により、実行すべき処理を特定する。解析手法は特に限定するものではないが、本実施形態では、上述した命令ワードＤＢ（図３）を用いての処理の特定、および、予め学習処理が行われた学習済みモデルを用いて行う例について説明する。

（学習済みモデル）
本実施形態では、１または複数の単語を入力とし、実行する処理を出力するための学習済みモデルを用いる。本実施形態にて用いる学習済みモデルのための学習方法は、ニューラルネットワークによる教師あり学習を用いるものとして説明するが、これ以外の手法が用いられてよい。

図７は、本実施形態に係る学習処理の概念を説明するための図である。本実施形態にて用いる学習用データは、入力データと教師データとの対から構成される。入力データは、例えば、音声データから生成されるテキストデータに含まれ得る１または複数の単語である。また、教師データは、管理サーバ１０１にて実行すべき処理である。

学習モデルに入力データ（１または複数の単語）を入力すると、その入力に応じて実行すべき処理を示す出力データが出力される。そして、損失関数を用いて、出力データと、教師データとの比較が行われ、学習モデルにおける重みが調整されることで、学習モデルのパラメータが更新される。この処理を繰り返すことで学習済みモデルが生成される。つまり、本実施形態において、学習済みモデルは、分類器としての動作を行うこととなる。なお、学習処理は、学習用データが追加されるごとに繰り返されてよく、その学習結果により学習済みモデルが更新されてよい。

出力データとしての処理の種類は、管理サーバ１０１の機能に応じて、予め規定されているものとする。本実施形態では、例えば、端末との接続処理、音声データの送信処理、接続の切断処理などが該当する。また、学習処理自体は管理サーバ１０１が学習処理部（不図示）を備えて行ってもよいし、他の装置にて学習処理を行い、管理サーバ１０１が適時取得するような構成であってもよい。また、出力データとして示される処理は、１つであってもよいし、複数であってもよい。

データ解析部２１２は、テキストデータの解析を行う際には、対象となるテキストデータに対して、形態素解析、構文解析、文脈解析、意味解析、単語抽出などを行って、入力データの生成を行う。そして、データ解析部２１２は、その入力データを学習済みモデルに適用することで、実行するべき処理を特定する。また、データ解析部２１２は、命令ワードＤＢ（図３）を参照することで、抽出した単語に対応付けられた処理を特定することができる。例えば、データ解析部２１２は、テキストデータから人名などを抽出した際には、通信先決定部２１５にそのデータを渡し、通信先の決定などを行わせる。そのほか、データ解析部２１２は、特定した処理に応じて、他の部位に対して処理の実行を要求する。なお、入力データは、テキストデータの元となった音声データの発話者や端末の情報などを含めてもよい。この場合には、学習処理においても同等のデータを用いて学習を行うことが望ましい。

データ解析部２１２による学習済みモデルを用いた処理の特定の具体例について説明する。例えば、以下のような内容の音声データを端末から受信した場合、これがテキストデータに変換される。そして、学習済みモデルへの入力データを生成した上で、実行すべき処理が特定される。
テキストデータ：「Ｂさん、その柱Ｃは北側に設置するように設計変更されたよ。」
入力データ（単語）：「Ｂさん」「柱Ｃ」「北側」「設置」「設計変更」
出力データ（処理）：「接続処理」、「音声データ送信処理」

その後、管理サーバ１０１の通信先決定部２１５により通信先（ここでは「Ｂさん」に対応する端末）が特定され、「接続処理」および「音声データ送信処理」が実行される。

なお、命令ワードＤＢと学習済みモデルは両方が用いられてもよいし、一方のみが用いられてもよい。また、両方を用いる場合には、それぞれにて特定した処理全てを実行するような構成であってもよいし、いずれかを優先するような構成であってもよい。

［処理シーケンス］
以下、本実施形態に係る通信処理の流れについて説明する。図８は、本実施形態に係るシステムにおける通信シーケンスを示す。なお、各装置における処理は、各処理が備える部位が連携して行うものとし、ここでは説明を簡略化するために処理主体を管理サーバ１０１、端末１０３、および端末１０４としてまとめて示す。また、図８では、処理の起点として端末１０３を例に挙げて説明するが、これに限定するものではなく、他の端末が起点となった場合でも同様の処理が行われるものとする。

なお、本処理を開始する場合において、端末１０３、１０４は、本実施形態に係る機能を実現するための所定のアプリケーションを起動させていたり、所定の動作モードへ切り替えていたりするような構成であってもよい。

Ｓ８０１にて、端末１０３は、ユーザ（ここでは、ユーザＡとする）から発話に基づく音声の入力を受け付ける。例えば、音声入力は、例えば、端末１０３が備えるマイク（不図示）を介して行われる。

Ｓ８０２にて、端末１０３は、管理サーバ１０１へアクセスを行い、Ｓ８０１にて入力された音声に基づく音声データを管理サーバ１０１へ送信する。なお、上述したように、端末１０３は、管理サーバ１０１へアクセスし、音声データを送信するための各種情報を予め保持しているものとする。

Ｓ８０３にて、管理サーバ１０１は、端末１０３から送信されてきた音声データを受信する。

Ｓ８０４にて、管理サーバ１０１は、Ｓ８０５にて受信した音声データをテキストデータに変換する。

Ｓ８０５にて、管理サーバ１０１は、音声データとテキストデータを所定の格納先に記録し、音声データＤＢ（図４）に登録する。

Ｓ８０６にて、管理サーバ１０１は、変換したテキストデータの解析を行う。本実施形態では、図３に示した命令ワードＤＢや図７を用いて説明した学習済みモデルを用いて実行すべき処理を特定する。ここでは、実行すべき処理として、通信に関する処理（通信先決定、接続処理、音声データ送信など）が特定されたものとして説明する。

Ｓ８０７にて、管理サーバ１０１は、Ｓ８０６にて特定した処理に対応して、その処理に必要な情報を特定する。ここでは、通信に関する処理が特定されたものとし、その接続先となる端末をテキストデータに含まれる単語に基づいて、通信先情報ＤＢ（図５）を参照して決定する。ここでは、接続先として、端末１０４を特定したものとして説明する。

Ｓ８０８にて、管理サーバ１０１は、特定した接続先が既に端末１０３と接続中か否かを判定する。具体的には、管理サーバ１０１は、グループ管理ＤＢ（図６）を参照し、音声データの発信元である端末１０３と、接続先である端末１０４が同じグループに属した状態であるか否かを判定する。接続中である場合には（Ｓ８０８にてＹＥＳ）、管理サーバ１０１の処理はＳ８１３へ進む。一方、接続中でない場合には（Ｓ８０８にてＮＯ）、管理サーバ１０１の処理はＳ８０９へ進む。

Ｓ８０９にて、管理サーバ１０１は、接続先として特定した端末１０４との接続を確立するための接続処理を行う。このとき、音声データの送信元である端末１０３との接続が確立されていない場合には、このタイミングで確立するような構成であってもよい。

Ｓ８１０にて、管理サーバ１０１は、Ｓ８０９にて行った接続処理にて確立された各接続をグループ化する。具体的には、管理サーバ１０１は、端末１０３との接続、および、端末１０４との接続をグループ化し、端末１０３と端末１０４を含むグループ内で音声による音声データの送受信ができるように制御する。

Ｓ８１１にて、管理サーバ１０１は、Ｓ８０３にて受信した音声データを端末１０４へ送信する。

Ｓ８１２にて、端末１０４は、管理サーバ１０１から音声データを受信する。

Ｓ８１３にて、端末１０４は、Ｓ８１３にて管理サーバ１０１から受信した音声データを、スピーカ（不図示）などを介して出力する。そして、本処理シーケンスを終了する。

（自動切断処理）
次に、図８にて説明した処理シーケンスにおいて確立された接続を自動的に切断する処理について説明する。図９は、本実施形態に係る自動切断処理のフローチャートである。本処理フローは、管理サーバ１０１が備える処理部が記憶部に格納されたプログラムを読み出して実現されてよい。また、本処理は、管理サーバ１０１の接続管理部２１３がグループ管理ＤＢ（図６）を用いて管理している各グループそれぞれに対して適時行われるものとする。

Ｓ９０１にて、管理サーバ１０１は、グループ管理ＤＢ（図６）を参照し、グループに属している端末のうち、未処理の１の端末に着目する（以下、着目端末と称する）。

Ｓ９０２にて、管理サーバ１０１は、グループ管理ＤＢ（図６）を参照し、着目端末の情報を取得する。

Ｓ９０３にて、管理サーバ１０１は、Ｓ９０２にて取得した情報に基づき、着目端末からの音声データの受信が行われずに一定時間が経過したか否かを判定する。ここでの一定時間は特に限定するものではないが、管理サーバ１０１側で予め設定されていてもよいし、各端末のユーザが設定できるような構成であってもよい。一定時間として、例えば、２０秒が設定されてよい。一定時間が経過した場合は（Ｓ９０３にてＹＥＳ）、管理サーバ１０１の処理はＳ９０４へ進む。一方、一定時間が経過していない場合は（Ｓ９０３にてＮＯ）、管理サーバ１０１の処理はＳ９０７へ進む。

Ｓ９０４にて、管理サーバ１０１は、着目端末との間に確立している接続を切断する。これにより、着目端末はグループから除外されることとなる。

Ｓ９０５にて、管理サーバ１０１は、着目端末が除外された結果、グループに含まれる端末が１つのみになったか否かを判定する。１つのみの端末が含まれている場合（Ｓ９０５にてＹＥＳ）、管理サーバ１０１の処理はＳ９０６へ進む。一方、複数の端末が含まれている場合（Ｓ９０５にてＮＯ）、管理サーバ１０１の処理はＳ９０７へ進む。

Ｓ９０６にて、管理サーバ１０１は、グループに残っている端末との間に確立している接続を切断する。これによりグループに属する端末は無くなるため、管理サーバ１０１は、当該グループの管理を終了する。そして、本処理フローを終了する。

Ｓ９０７にて、管理サーバ１０１は、グループに属する端末のうち、未処理の端末があるか否かを判定する。未処理の端末がある場合（Ｓ９０７にてＹＥＳ）、管理サーバ１０１の処理はＳ９０１へ戻り、処理を繰り返す。一方、未処理の端末が無い場合（Ｓ９０７にてＮＯ）、本処理フローを終了する。

以上、本実施形態により、ユーザによる接続動作を必要とすることなく、発話をするだけで目的とする相手との接続が行われ、コミュニケーションを行うことができる。また、通話相手側も承認動作を必要とすることなく、コミュニケーションを開始することができる。また、コミュニケーションが不要となった場合には、特段の動作を行うことなく、接続を切断することが可能となる。その結果、遠隔地にいる相手がすぐそばにいるような感覚でのリアルタイムのコミュニケーションが可能となる。

＜第２の実施形態＞
第１の実施形態では、２者間にてコミュニケーションを行う形態について説明した。本実施形態では、３者以上の間でのコミュニケーション（いわゆる、グループ通話）の形態について説明する。なお、第１の実施形態と重複する構成については説明を省略し、差分に着目して説明する。ここでは、端末１０３、１０４、１０５間でコミュニケーションを行う例について説明する。

［処理シーケンス］
以下、本実施形態に係る通信処理の流れについて説明する。図１０、図１１は、本実施形態に係るシステムにおける通信シーケンスを示す。なお、各装置における処理は、各処理が備える部位が連携して行うものとし、ここでは説明を簡略化するために処理主体を管理サーバ１０１、端末１０３、端末１０４、端末１０５としてまとめて示す。なお、本処理を開始する場合において、端末１０３、端末１０４、端末１０５は、本実施形態に係る機能を実現するための所定のアプリケーションを起動させていたり、所定の動作モードへ切り替えていたりするような構成であってもよい。

（新たな端末の追加）
図１０は、すでにグループに含まれる端末を起点として新たな通話相手となる端末を追加する場合の処理シーケンスを示す。図１０の処理シーケンスが開始される前に第１の実施形態の図８にて述べた処理シーケンスが行われているものとする。その結果、管理サーバ１０１と、端末１０３および端末１０４との接続が確立されてグループが生成され、これらの通話が可能な状態になっているものとする。

Ｓ１００１にて、端末１０３は、ユーザＡから発話に基づく音声の入力を受け付ける。例えば、音声入力は、例えば、端末１０３が備えるマイク（不図示）を介して行われる。

Ｓ１００２にて、端末１０３は、管理サーバ１０１へアクセスを行い、Ｓ１００１にて入力された音声に基づく音声データを管理サーバ１０１へ送信する。なお、上述したように、端末１０３は、管理サーバ１０１へアクセスし、音声データを送信するための各種情報を予め保持しているものとする。

Ｓ１００３にて、管理サーバ１０１は、端末１０３から送信されてきた音声データを受信する。

Ｓ１００４にて、管理サーバ１０１は、Ｓ１００３にて受信した音声データをテキストデータに変換する。

Ｓ１００５にて、管理サーバ１０１は、音声データとテキストデータを所定の格納先に記録し、音声データＤＢ（図４）に登録する。

Ｓ１００６にて、管理サーバ１０１は、変換したテキストデータの解析を行う。本実施形態では、図３に示した命令ワードＤＢや図７を用いて説明した学習済みモデルを用いて実行すべき処理を特定する。ここでは、実行すべき処理として、通信に関する処理（通信先決定、接続処理、音声データ送信など）が特定されたものとして説明する。

Ｓ１００７にて、管理サーバ１０１は、Ｓ１００６にて特定した処理に対応して、その処理に必要な情報を特定する。ここでは、通信に関する処理が特定されたものとし、その接続先となる端末をテキストデータに含まれる単語に基づいて、通信先情報ＤＢ（図５）を参照して決定する。ここでは、接続先として、端末１０５を特定したものとして説明する。

Ｓ１００８にて、管理サーバ１０１は、接続先として特定した端末１０５との接続を確立するための接続処理を行う。上述したように、端末１０３と端末１０４それぞれとの接続はすでに確立されてグループ化されているものとする。

Ｓ１００９にて、管理サーバ１０１は、Ｓ１００８にて行った接続処理にて確立された端末１０５と接続を、音声データの送信元である端末１０３が属するグループに含めるようにグループ化する。これにより、端末１０３、端末１０４、端末１０５を含むグループが生成され、このグループ内で音声による音声データの送受信ができるように制御される。

Ｓ１０１０にて、管理サーバ１０１は、Ｓ１００３にて受信した音声データを端末１０４へ送信する。

Ｓ１０１１にて、管理サーバ１０１は、Ｓ１００３にて受信した音声データを端末１０５へ送信する。

Ｓ１０１２にて、端末１０４は、管理サーバ１０１から音声データを受信する。

Ｓ１０１３にて、端末１０４は、Ｓ１０１２にて管理サーバ１０１から受信した音声データを、スピーカ（不図示）などを介して出力する。

Ｓ１０１４にて、端末１０５は、管理サーバ１０１から音声データを受信する。

Ｓ１０１５にて、端末１０５は、Ｓ１０１４にて管理サーバ１０１から受信した音声データを、スピーカ（不図示）などを介して出力する。

（新たな端末の参加）
図１１は、グループへの未参加の端末を起点として、既存のグループがあればそのグループに参加する場合の処理シーケンスを示す。

Ｓ１１０１にて、端末１０５は、ユーザ（ここでは、ユーザＣとする）から発話に基づく音声の入力を受け付ける。例えば、音声入力は、例えば、端末１０５が備えるマイク（不図示）を介して行われる。

Ｓ１１０２にて、端末１０５は、管理サーバ１０１へアクセスを行い、Ｓ１１０１にて入力された音声に基づく音声データを管理サーバ１０１へ送信する。なお、上述したように、端末１０５は、管理サーバ１０１へアクセスし、音声データを送信するための各種情報を予め保持しているものとする。

Ｓ１１０３にて、管理サーバ１０１は、端末１０５から送信されてきた音声データを受信する。

Ｓ１１０４にて、管理サーバ１０１は、Ｓ１１０３にて受信した音声データをテキストデータに変換する。

Ｓ１１０５にて、管理サーバ１０１は、音声データとテキストデータを所定の格納先に記録し、音声データＤＢ（図４）に登録する。

Ｓ１１０６にて、管理サーバ１０１は、変換したテキストデータの解析を行う。本実施形態では、図３に示した命令ワードＤＢや図７を用いて説明した学習済みモデルを用いて実行すべき処理を特定する。ここでは、実行すべき処理として、通信に関する処理（通信先決定、接続処理、音声データ送信など）が特定されたものとして説明する。

Ｓ１１０７にて、管理サーバ１０１は、Ｓ１００６にて特定した処理に対応して、その処理に必要な情報を特定する。ここでは、通信に関する処理が特定されたものとし、その接続先となる端末をテキストデータに含まれる単語に基づいて、通信先情報ＤＢ（図５）を参照して決定する。ここでは、接続先として、端末１０４を特定したものとして説明する。

Ｓ１１０９にて、管理サーバ１０１は、特定した接続先（ここでは、端末１０４）を含むグループが登録されているか否かを判定する。具体的には、グループ管理ＤＢ（図６）を参照し、端末１０４が属するグループが登録されているか否かを判定する。端末１０４を含むグループがある場合には（Ｓ１１０８にてＹＥＳ）、管理サーバ１０１の処理はＳ１１１２へ進む。一方、端末１０４を含むグループが無い場合には（Ｓ１１０８にてＮＯ）、管理サーバ１０１の処理はＳ１１０９へ進む。

Ｓ１１０９にて、管理サーバ１０１は、接続先として特定した端末１０４との接続を確立するための接続処理を行う。このとき、音声データの送信元である端末１０５との接続が確立されていない場合には、このタイミングで確立するような構成であってもよい。

Ｓ１１１０にて、管理サーバ１０１は、Ｓ１１０９にて行った接続処理にて確立された各接続をグループ化する。具体的には、管理サーバ１０１は、端末１０４との接続、および、端末１０５との接続をグループ化し、端末１０４と端末１０５を含むグループ内で音声による音声データの送受信ができるように制御する。

Ｓ１１１１にて、管理サーバ１０１は、Ｓ１１０３にて受信した音声データを端末１０４へ送信する。

Ｓ１１１２にて、管理サーバ１０１は、端末１０５と接続を、音声データの送信元である端末１０４が属するグループに含めるようにグループ化する。このとき、端末１０３と端末１０４それぞれとの接続はすでに確立されてグループ化されているものとする。また、音声データの送信元である端末１０５との接続が確立されていない場合には、このタイミングで確立するような構成であってもよい。これにより、端末１０３、端末１０４、端末１０５を含むグループが生成され、このグループ内で音声による音声データの送受信ができるように制御される。

Ｓ１１１３にて、管理サーバ１０１は、Ｓ１１０３にて受信した音声データを端末１０４へ送信する。

Ｓ１１１４にて、管理サーバ１０１は、Ｓ１００３にて受信した音声データを端末１０３へ送信する。

Ｓ１１１５にて、端末１０４は、管理サーバ１０１から音声データを受信する。

Ｓ１１１６にて、端末１０４は、Ｓ１１１５にて管理サーバ１０１から受信した音声データを、スピーカ（不図示）などを介して出力する。

Ｓ１１１７にて、端末１０３は、管理サーバ１０１から音声データを受信する。

Ｓ１１１８にて、端末１０３は、Ｓ１１１７にて管理サーバ１０１から受信した音声データを、スピーカ（不図示）などを介して出力する。

以上、本実施形態により、ユーザによる接続動作を必要とすることなく、発話をするだけで新たな端末を追加したり、参加したりすることができ、多者間でのコミュニケーションを容易に行うことが可能となる。更には、第１の実施形態の図９に示す自動切断機能により、グループからの離脱を容易に行うことも可能である。その結果、遠隔地にいる複数の相手がすぐそばにいるような感覚でのリアルタイムのコミュニケーションが可能となる。

＜第３の実施形態＞
上記の実施形態では、通話機能に着目した形態について説明した。本願発明の第３の実施形態として、更に掲示板機能を備える構成について説明する。なお、第１の実施形態と重複する構成については説明を省略し、差分に着目して説明する。

［機能構成］
図１２は、本実施形態に係る管理サーバ１０１の機能構成の例を示す。第１の実施形態の図２（ａ）との差分として、管理サーバ１０１は、掲示板管理部１２０１、写真登録部１２０２、およびスケジュール登録部１２０３を更に備える。掲示板管理部１２０１は、音声変換部２１１にて変換されたテキストデータを表示する掲示板の生成、管理を行う。写真登録部１２０２は、指定された写真などの画像データを管理し、掲示板への登録を行う。スケジュール登録部１２０３は、指定されたスケジュールの内容を管理する。写真登録部１２０２による写真登録機能、および、スケジュール登録部１２０３によるスケジュール登録機能の詳細については、第４の実施形態にて後述する。

［処理シーケンス］
以下、本実施形態に係る処理の流れについて説明する。図１３は、本実施形態に係るシステムにおける処理シーケンスを示す。なお、各装置における処理は、各処理が備える部位が連携して行うものとし、ここでは説明を簡略化するために処理主体を管理サーバ１０１、端末１０３、および端末１０４としてまとめて示す。第１の実施形態にて述べた図８との差分として、Ｓ１３０１、Ｓ１３０２の処理が追加されている。

Ｓ８１０の処理の後、Ｓ１３０１にて、管理サーバ１０１は、グループに対応する掲示板を生成する。掲示板の構成例については、図１４を用いて後述する。

Ｓ８０８にてＮＯの場合（特定した接続先と音声データの送信元である端末とが接続中である場合）、または、Ｓ１３０１の処理の後、管理サーバ１０１の処理は、Ｓ１３０２へ進む。Ｓ１３０２にて、管理サーバ１０１は、Ｓ８０５にて記録されているテキストデータを時系列順に登録する。そして、管理サーバ１０１の処理は、Ｓ８１１へ進む。

なお、第２の実施形態にて述べた図１０や図１１の処理においてもＳ１３０１、Ｓ１３０２と同様の処理を追加することで、掲示板機能を実現してよい。

［掲示板の構成例］
図１４は、本実施形態に係る管理サーバ１０１が提供する掲示板機能による掲示板の画面構成の例を示す図である。掲示板画面１４００は、管理サーバ１０１にＷｅｂブラウザ（不図示）を介してアクセスすることで参照できるような構成であってもよいし、各端末にインストールされたアプリケーション（不図示）を起動することで参照できるような構成であってもよい。

掲示板画面１４００は、音声データの入力を行った端末のユーザを示すアイコン１４０１、その音声データから生成されたテキストデータの内容１４０２、および、音声データが入力された日時情報１４０３を対として、時系列に並べて表示される。また、接続処理など、システム（管理サーバ１０１）側で行われた処理の内容を併せて表示してもよい（アイコン１４０４、メッセージ１４０５等）。

なお、掲示板にテキストデータを登録するか否かは、Ｓ８０６の解析処理の結果に基づいて行われてもよい。例えば、所定の単語がテキストデータに含まれている場合には、掲示板に登録しないような構成であってもよい。

以上、本実施形態により、発話内容を記録して表示する掲示板機能を備えることで、第１、第２の実施形態の効果に加え、すでに行われた発話によるコミュニケーションの記録を容易に行うことができる。

＜第４の実施形態＞
本願発明の第４の実施形態として、図１２に示した管理サーバ１０１が備える、写真登録部１２０２による写真登録機能、および、スケジュール登録部１２０３によるスケジュール登録機能について説明する。なお、上述した各実施形態と重複する構成については説明を省略し、差分に着目して説明する。

［処理シーケンス］
（写真登録機能）
以下、本実施形態に係る写真登録処理の流れについて説明する。図１５は、本実施形態に係るシステムにおける写真登録機能の処理シーケンスを示す。なお、各装置における処理は、各処理が備える部位が連携して行うものとし、ここでは説明を簡略化するために処理主体を管理サーバ１０１、および端末１０３としてまとめて示す。なお、本処理を開始する場合において、端末１０３は、本実施形態に係る機能を実現するための所定のアプリケーションを起動させていたり、所定の動作モードへ切り替えていたりするような構成であってもよい。

Ｓ１５０１にて、端末１０３は、ユーザ（ここでは、ユーザＡとする）からの写真の選択を受け付ける。ここでの写真は、端末１０３が備えるカメラ（不図示）などを用いて撮影されたものであってもよいし、端末１０３が外部から取得した画像であってもよい。また、写真の選択は、端末１０３が提供する画面（不図示）を介して行われてよく、選択可能な写真の枚数は複数であってもよい。また、写真データには、その撮影時の撮影設定や撮影位置の情報（例えば、ＥＸＩＦ情報）などが付されているため、これらの情報もまとめて写真データとして扱う。このような情報が付されていない場合には、例えば、端末１０３の現在位置の情報を用いてもよい。

Ｓ１５０２にて、端末１０３は、ユーザＡから発話に基づく音声の入力を受け付ける。例えば、音声入力は、例えば、端末１０３が備えるマイク（不図示）を介して行われる。

Ｓ１５０３にて、端末１０３は、管理サーバ１０１へアクセスを行い、Ｓ１５０１にて選択された写真データ、および、Ｓ１５０２にて入力された音声に基づく音声データを管理サーバ１０１へ送信する。なお、上述したように、端末１０３は、管理サーバ１０１へアクセスし、音声データを送信するための各種情報を予め保持しているものとする。

Ｓ１５０４にて、管理サーバ１０１は、端末１０３から送信されてきた写真データ、および音声データを受信する。

Ｓ１５０５にて、管理サーバ１０１は、Ｓ１５０４にて受信した音声データをテキストデータに変換する。

Ｓ１５０６にて、管理サーバ１０１は、音声データとテキストデータを所定の格納先に記録し、音声データＤＢ（図４）に登録する。

Ｓ１５０７にて、管理サーバ１０１は、変換したテキストデータの解析を行う。本実施形態では、図７を用いて説明した学習済みモデルを用いて実行すべき処理を特定する。このとき、音声データと併せて写真データを受信した場合には、写真登録処理が実行すべき処理として特定してもよい。

Ｓ１５０８にて、管理サーバ１０１は、Ｓ１５０７にて写真登録処理が特定されたか否かを判定する。実行すべき処理として写真登録処理が特定された場合（Ｓ１５０８にてＹＥＳ）、管理サーバ１０１の処理はＳ１５０９へ進む。一方、実行すべき処理として写真登録処理が特定されていない場合（Ｓ１５０８にてＮＯ）、本処理フローを終了する。この場合、Ｓ１５０７にて特定された別の処理を行うような構成であってもよい。

Ｓ１５０９にて、管理サーバ１０１は、Ｓ１５０５にて変換したテキストデータから要約データを生成する。また、要約データの他、写真のタイトルを併せて作成してもよい。要約データやタイトルの生成方法は特に限定するものでは無いが、例えば、テキストデータから１または複数の単語を抽出して要約データとしてもよい。より具体的には、以下のように、要約データやタイトルを生成してよい。
テキストデータ：「この写真は、令和２年７月１０日金曜日、１３時１５分、住所〇〇のプロジェクトＫの基礎工事作業終了の証拠写真です。掲示板にアップして。」
要約データ：「令和２年７月１０日金曜日、１３時１５分、住所〇〇のプロジェクトＫの基礎工事作業終了の証拠写真」
タイトル：「プロジェクトＫの基礎工事作業終了の証拠写真」

Ｓ１５１０にて、管理サーバ１０１は、写真データに付与されている情報から位置情報を抽出する。上述したように、写真データに付与されているＥＸＩＦ情報や端末１０３の位置情報などから位置情報を抽出してよい。

Ｓ１５１１にて、管理サーバ１０１は、写真データの送信元である端末１０３のユーザＡの情報、Ｓ１５０４にて取得した写真データ、Ｓ１５０９にて生成した要約データ、およびＳ１５１０にて抽出した位置情報を対応付けて掲示板に登録する。タイトルを生成している場合には、更にタイトルを登録してよい。ここでの掲示板は、第３の実施形態の図１４にて示した画面構成と同様であってもよいし、他の画面構成であってもよい。また、写真データに対応付けて掲示板に登録する情報は上記に限定するものではなく、そのほか、写真データに付与された他の情報や、音声データ（または、テキストデータ）から抽出される他の情報を対応付けて登録してよい。そして、本処理シーケンスを終了する。

（スケジュール登録機能）
以下、本実施形態に係るスケジュール登録処理の流れについて説明する。図１６は、本実施形態に係るシステムにおけるスケジュール登録機能の処理シーケンスを示す。なお、各装置における処理は、各処理が備える部位が連携して行うものとし、ここでは説明を簡略化するために処理主体を管理サーバ１０１、端末１０３、および端末１０４としてまとめて示す。なお、本処理を開始する場合において、端末１０３、および端末１０４は、本実施形態に係る機能を実現するための所定のアプリケーションを起動させていたり、所定の動作モードへ切り替えていたりするような構成であってもよい。

Ｓ１６０１にて、端末１０３は、ユーザ（ここでは、ユーザＡとする）から発話に基づく音声の入力を受け付ける。例えば、音声入力は、例えば、端末１０３が備えるマイク（不図示）を介して行われる。

Ｓ１６０２にて、端末１０３は、管理サーバ１０１へアクセスを行い、Ｓ１６０１にて入力された音声に基づく音声データを管理サーバ１０１へ送信する。なお、上述したように、端末１０３は、管理サーバ１０１へアクセスし、音声データを送信するための各種情報を予め保持しているものとする。

Ｓ１６０３にて、管理サーバ１０１は、端末１０３から送信されてきた音声データを受信する。

Ｓ１６０４にて、管理サーバ１０１は、Ｓ１６０５にて受信した音声データをテキストデータに変換する。

Ｓ１６０５にて、管理サーバ１０１は、音声データとテキストデータを所定の格納先に記録し、音声データＤＢ（図４）に登録する。

Ｓ１６０６にて、管理サーバ１０１は、変換したテキストデータの解析を行う。本実施形態では、図３に示した命令ワードＤＢや図７を用いて説明した学習済みモデルを用いて実行すべき処理を特定する。

Ｓ１６０７にて、管理サーバ１０１は、Ｓ１６０６にてスケジュール登録処理が特定されたか否かを判定する。実行すべき処理としてスケジュール登録処理が特定された場合（Ｓ１６０７にてＹＥＳ）、管理サーバ１０１の処理はＳ１６０８へ進む。一方、実行すべき処理としてスケジュール登録処理が特定されていない場合（Ｓ１６０７にてＮＯ）、本処理フローを終了する。この場合、Ｓ１６０６にて特定された別の処理を行うような構成であってもよい。

Ｓ１６０８にて、管理サーバ１０１は、Ｓ１６０４にて変換したテキストデータからスケジュールの内容を生成する。スケジュールの内容の生成方法は特に限定するものでは無いが、例えば、テキストデータから所定の項目に対応する単語を抽出することでスケジュールの内容としてもよい。所定の項目としては、例えば、開催日時、開催場所、参加者などが挙げられる。また、テキストデータから要約データを生成して、スケジュールの内容としてもよい。

Ｓ１６０９にて、管理サーバ１０１は、Ｓ１６０８にて生成した情報に基づいて、通知先を決定する。例えば、参加者の項目として抽出した情報から端末１０３のユーザＡ以外の参加者を特定する。参加者の項目が抽出できない場合などには、参加者をユーザＡのみとしてもよい。ユーザＡ以外の参加者がいる場合には、通信先情報ＤＢを参照してスケジュールの通知先を決定する。ここでは、通知先として、端末１０４を特定したものとして説明する。

Ｓ１６１０にて、管理サーバ１０１は、Ｓ１６０８にて生成したスケジュールの内容に基づいて登録を行う。ここでの登録は、上述したような掲示板に対して行ってもよいし、他のスケジュール管理画面（不図示）に対して行ってもよい。これらのスケジュールの登録内容を確認するための画面は、管理サーバ１０１にＷｅｂブラウザ（不図示）を介してアクセスすることで参照できるような構成であってもよいし、各端末にインストールされたアプリケーション（不図示）を起動することで参照できるような構成であってもよい。

Ｓ１６１１にて、管理サーバ１０１は、Ｓ１６１０にて登録したスケジュールの内容をＳ１６０９にて特定した通知先（ここでは、端末１０４）へ通知する。このとき、スケジュールを登録したユーザ（ここでは、ユーザＡ）の情報も併せて通知してよい。

Ｓ１６１２にて、管理サーバ１０１は、Ｓ１６１０にて登録したスケジュールの内容を、登録要求を行った端末（ここでは、端末１０３）へ通知する。このとき、スケジュールの通知を行ったユーザ（ここでは、端末１０４のユーザＢ）の情報も併せて通知してよい。

Ｓ１６１３にて、端末１０４は、Ｓ１６１１にて管理サーバ１０１から通知されたスケジュールの内容を受信する。

Ｓ１６１４にて、端末１０４は、Ｓ１６１３にて管理サーバ１０１から受信したスケジュールの内容を出力する。ここでの出力は、端末１０４の画面（不図示）上にて表示してもよいし、音声として出力してもよい。そして、本処理シーケンスを終了する。

Ｓ１６１５にて、端末１０３は、Ｓ１６１２にて管理サーバ１０１から通知されたスケジュールの内容を受信する。

Ｓ１６１６にて、端末１０３は、Ｓ１６１５にて管理サーバ１０１から受信したスケジュールの内容を出力する。ここでの出力は、端末１０３の画面（不図示）上にて表示してもよいし、音声として出力してもよい。そして、本処理シーケンスを終了する。

以上、本実施形態により、発話により利用可能な写真登録機能やスケジュール登録機能を備えることで、容易にデータの管理、登録を行うことができる。そして、これらの機能を利用して他者とのコミュニケーションを簡便に行うことが可能となる。

＜その他の実施形態＞
また、本願発明において、上述した１以上の実施形態の機能を実現するためのプログラムやアプリケーションを、ネットワーク又は記憶媒体等を用いてシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。

また、上述した実施形態では一つの管理サーバに種々の機能が集約されているが、複数の管理サーバがこれらの機能を分担してもよいことは言うまでもない。また、管理サーバの種々の機能の一部を端末で負担してもよいことは言うまでもない。

以上の通り、本明細書には次の事項が開示されている。
（１）複数の端末と、管理サーバとを含んで構成されるコミュニケーションシステムであって、
前記複数の端末それぞれは、
発話を受け付ける受付手段と、
前記発話に基づく音声データを前記管理サーバに送信する第１の送信手段と、
前記管理サーバから受信した音声データを出力する出力手段と
を有し、
前記管理サーバは、
前記複数の端末のうちの第１の端末から音声データを受信する受信手段と、
前記音声データに基づいて、前記複数の端末のうちの接続先となる第２の端末を特定する第１の解析手段と、
前記第１の端末と前記第２の端末とを含むグループ内において通話を行うための接続を確立する接続手段と、
前記第２の端末に対して、前記第１の端末から受信した音声データを送信する第２の送信手段と
を有することを特徴とするコミュニケーションシステム。
この構成によれば、遠隔地にいる相手がすぐそばにいるような感覚でのリアルタイムのコミュニケーションが可能となる。

（２）前記第１の解析手段が、すでに接続が確立されたグループに属している端末からの音声データに基づいて、当該グループに属していない第３の端末を接続先として特定した場合、前記接続手段は、前記第３の端末を更に当該グループに含めて接続を確立させることを特徴とする（１）に記載のコミュニケーションシステム。
この構成によれば、グループに含まれていない相手を容易にグループに含めることができ、遠隔地にいる３者以上の間で、相手がすぐそばにいるような感覚でのリアルタイムのコミュニケーションが可能となる。

（３）前記第１の解析手段が、すでに接続が確立されたグループに属していない第３の端末からの音声データに基づいて、当該グループに属している端末を接続先として特定した場合、前記接続手段は、前記第３の端末を更に当該グループに含めて接続を確立させることを特徴とする請求項（１）または（２）に記載のコミュニケーションシステム。
この構成によれば、グループに含まれていない相手を容易にグループに含めることができ、遠隔地にいる３者以上の間で、相手がすぐそばにいるような感覚でのリアルタイムのコミュニケーションが可能となる。

（４）前記第２の送信手段は、前記グループに属する端末のうち、音声データを送信してきた端末以外の端末に対して、当該音声データを送信することを特徴とする（１）～（３）のいずれかに記載のコミュニケーションシステム。
この構成によれば、自身の発話をグループに属する他の端末のユーザ側でのみ出力させることが可能となる。

（５）前記接続手段にて接続が確立されたグループに属する端末のうち、所定の時間の間、音声データを送信してこなかった端末との接続を切断する切断手段を更に有することを特徴とする（１）～（４）のいずれかに記載のコミュニケーションシステム。

（６）前記管理サーバは、
前記音声データからテキストデータを生成する生成手段と、
前記生成手段にて生成したテキストデータを掲示板画面上に表示する掲示手段と
を更に有することを特徴とする（１）～（５）のいずれかに記載のコミュニケーションシステム。
この構成によれば、すでに行われた発話によるコミュニケーションの記録を容易に行うことができる。

（７）前記生成手段は更に、前記テキストデータから要約データを生成し、
前記掲示手段は更に、当該要約データを前記掲示板画面上に表示する
ことを特徴とする（６）に記載のコミュニケーションシステム。
この構成によれば、すでに行われた発話に基づいて要約データを生成し、コミュニケーションの記録を容易に行うことができる。

（８）前記管理サーバは、
前記音声データに基づいて、実行すべき処理を特定する第２の解析手段と、
前記第２の解析手段にて特定された処理を実行する処理手段と
を更に有することを特徴とする（７）に記載のコミュニケーションシステム。
この構成によれば、発話に基づいて、実行すべき処理を特定し、当該処理を実行することが可能となる。

（９）前記第２の解析手段にて特定される処理は写真登録処理であり、
前記処理手段は、
前記テキストデータから要約データを生成し、
当該要約データ、指定された画像データ、撮影位置、撮影日時、および前記音声データの発話者の情報を対応付けて前記掲示板画面上に表示する
ことを特徴とする（８）に記載のコミュニケーションシステム。
この構成によれば、指定された写真データを発話に基づいて登録でき、コミュニケーションに利用することが可能となる。

（１０）前記第２の解析手段にて特定される処理はスケジューリング処理であり、
前記処理手段は、
前記テキストデータからスケジュールを設定する対象者を特定し、
前記テキストデータから要約データを生成し、
前記特定された対象者にスケジュールの通知を行い、
前記要約データを前記掲示板画面上に表示する
ことを特徴とする（８）に記載のコミュニケーションシステム。
この構成によれば、スケジュールを発話に基づいて設定でき、所定の相手に通知することが可能となる。

（１１）複数の端末と、管理サーバとを含んで構成されるコミュニケーションシステムの制御方法であって、
前記複数の端末それぞれにおいて、
発話を受け付ける受付工程と、
前記発話に基づく音声データを前記管理サーバに送信する第１の送信工程と、
前記管理サーバから受信した音声データを出力する出力工程と
を有し、
前記管理サーバにおいて、
前記複数の端末のうちの第１の端末から音声データを受信する受信工程と、
前記音声データに基づいて、前記複数の端末のうちの接続先となる第２の端末を特定する第１の解析工程と、
前記第１の端末と前記第２の端末とを含むグループ内において通話を行うための接続を確立する接続工程と、
前記第２の端末に対して、前記第１の端末から受信した音声データを送信する第２の送信工程と
を有することを特徴とするコミュニケーションシステムの制御方法。
この構成によれば、遠隔地にいる相手がすぐそばにいるような感覚でのリアルタイムのコミュニケーションが可能となる。

（１２）複数の端末と通信可能に構成される管理サーバであって、
前記複数の端末のうちの第１の端末から音声データを受信する受信手段と、
前記音声データに基づいて、前記複数の端末のうちの接続先となる第２の端末を特定する解析手段と、
前記第１の端末と前記第２の端末とを含むグループ内において通話を行うための接続を確立する接続手段と、
前記第２の端末に対して、前記第１の端末から受信した音声データを送信する第２の送信手段と
を有することを特徴とする管理サーバ。
この構成によれば、遠隔地にいる相手がすぐそばにいるような感覚でのリアルタイムのコミュニケーションが可能となる。

（１３）複数の端末と通信可能に構成される管理サーバの制御方法であって、
前記複数の端末のうちの第１の端末から音声データを受信する受信工程と、
前記音声データに基づいて、前記複数の端末のうちの接続先となる第２の端末を特定する解析工程と、
前記第１の端末と前記第２の端末とを含むグループ内において通話を行うための接続を確立する接続工程と、
前記第２の端末に対して、前記第１の端末から受信した音声データを送信する第２の送信工程と
を有することを特徴とする管理サーバの制御方法。
この構成によれば、遠隔地にいる相手がすぐそばにいるような感覚でのリアルタイムのコミュニケーションが可能となる。

１０１…管理サーバ
１０２…ネットワーク
１０３、１０４、１０５…端末
２０１…音声入力部
２０２…音声出力部
２０３…表示部
２０４…操作入力部
２０５…処理部
２０６…データ通信部
２０７…記憶部
２１１…音声変換部
２１２…データ解析部
２１３…接続管理部
２１４…接続制御部
２１５…通信先決定部
２１６…通信先情報管理部
２１７…音声データ管理部
２１８…データ通信部
１２０１…掲示板管理部
１２０２…写真登録部
１２０３…スケジュール登録部
１４００…掲示板画面

上記課題を解決するために本願発明は以下の構成を有する。すなわち、複数の端末と、管理サーバとを含んで構成されるコミュニケーションシステムであって、
前記複数の端末それぞれは、
発話を受け付ける受付手段と、
前記発話に基づく音声データを前記管理サーバに送信する第１の送信手段と、
前記管理サーバから受信した音声データを出力する出力手段と
を有し、
前記管理サーバは、
前記複数の端末のうちの第１の端末から音声データを受信する受信手段と、
前記音声データに基づいて、前記複数の端末のうちの接続先となる第２の端末を特定する第１の解析手段と、
前記第１の端末と前記第２の端末とを含むグループ内において通話を行うための接続を確立する接続手段と、
前記第２の端末に対して、前記第１の端末から受信した音声データを送信する第２の送信手段と
を有し、
前記第１の解析手段が、すでに接続が確立されたグループに属していない第３の端末からの音声データに基づいて、当該グループに属している端末を接続先として特定した場合、前記接続手段は、前記第３の端末を更に当該グループに含めて接続を確立させる。

また、本願発明の別の一形態として以下の構成を有する。すなわち、複数の端末と、管理サーバとを含んで構成されるコミュニケーションシステムの制御方法であって、
前記複数の端末それぞれにおいて、
発話を受け付ける受付工程と、
前記発話に基づく音声データを前記管理サーバに送信する第１の送信工程と、
前記管理サーバから受信した音声データを出力する出力工程と
を有し、
前記管理サーバにおいて、
前記複数の端末のうちの第１の端末から音声データを受信する受信工程と、
前記音声データに基づいて、前記複数の端末のうちの接続先となる第２の端末を特定する第１の解析工程と、
前記第１の端末と前記第２の端末とを含むグループ内において通話を行うための接続を確立する接続工程と、
前記第２の端末に対して、前記第１の端末から受信した音声データを送信する第２の送信工程と
を有し、
前記第１の解析工程において、すでに接続が確立されたグループに属していない第３の端末からの音声データに基づいて、当該グループに属している端末を接続先として特定した場合、前記接続工程では、前記第３の端末を更に当該グループに含めて接続を確立させる。

また、本願発明の別の一形態として以下の構成を有する。すなわち、複数の端末と通信可能に構成される管理サーバであって、
前記複数の端末のうちの第１の端末から音声データを受信する受信手段と、
前記音声データに基づいて、前記複数の端末のうちの接続先となる第２の端末を特定する解析手段と、
前記第１の端末と前記第２の端末とを含むグループ内において通話を行うための接続を確立する接続手段と、
前記第２の端末に対して、前記第１の端末から受信した音声データを送信する送信手段と
を有し、
前記解析手段が、すでに接続が確立されたグループに属していない第３の端末からの音声データに基づいて、当該グループに属している端末を接続先として特定した場合、前記接続手段は、前記第３の端末を更に当該グループに含めて接続を確立させる。

また、本願発明の別の一形態として以下の構成を有する。すなわち、複数の端末と通信可能に構成される管理サーバの制御方法であって、
前記複数の端末のうちの第１の端末から音声データを受信する受信工程と、
前記音声データに基づいて、前記複数の端末のうちの接続先となる第２の端末を特定する解析工程と、
前記第１の端末と前記第２の端末とを含むグループ内において通話を行うための接続を確立する接続工程と、
前記第２の端末に対して、前記第１の端末から受信した音声データを送信する送信工程と
を有し、
前記解析工程において、すでに接続が確立されたグループに属していない第３の端末からの音声データに基づいて、当該グループに属している端末を接続先として特定した場合、前記接続工程では、前記第３の端末を更に当該グループに含めて接続を確立させる。

Claims

複数の端末と、管理サーバとを含んで構成されるコミュニケーションシステムであって、
前記複数の端末それぞれは、
発話を受け付ける受付手段と、
前記発話に基づく音声データを前記管理サーバに送信する第１の送信手段と、
前記管理サーバから受信した音声データを出力する出力手段と
を有し、
前記管理サーバは、
前記複数の端末のうちの第１の端末から音声データを受信する受信手段と、
前記音声データに基づいて、前記複数の端末のうちの接続先となる第２の端末を特定する第１の解析手段と、
前記第１の端末と前記第２の端末とを含むグループ内において通話を行うための接続を確立する接続手段と、
前記第２の端末に対して、前記第１の端末から受信した音声データを送信する第２の送信手段と
を有することを特徴とするコミュニケーションシステム。
前記第１の解析手段が、すでに接続が確立されたグループに属している端末からの音声データに基づいて、当該グループに属していない第３の端末を接続先として特定した場合、前記接続手段は、前記第３の端末を更に当該グループに含めて接続を確立させることを特徴とする請求項１に記載のコミュニケーションシステム。
前記第１の解析手段が、すでに接続が確立されたグループに属していない第３の端末からの音声データに基づいて、当該グループに属している端末を接続先として特定した場合、前記接続手段は、前記第３の端末を更に当該グループに含めて接続を確立させることを特徴とする請求項１または２に記載のコミュニケーションシステム。
前記第２の送信手段は、前記グループに属する端末のうち、音声データを送信してきた端末以外の端末に対して、当該音声データを送信することを特徴とする請求項１～３のいずれか一項に記載のコミュニケーションシステム。
前記接続手段にて接続が確立されたグループに属する端末のうち、所定の時間の間、音声データを送信してこなかった端末との接続を切断する切断手段を更に有することを特徴とする請求項１～４のいずれか一項に記載のコミュニケーションシステム。
前記管理サーバは、
前記音声データからテキストデータを生成する生成手段と、
前記生成手段にて生成したテキストデータを掲示板画面上に表示する掲示手段と
を更に有することを特徴とする請求項１～５のいずれか一項に記載のコミュニケーションシステム。
前記生成手段は更に、前記テキストデータから要約データを生成し、
前記掲示手段は更に、当該要約データを前記掲示板画面上に表示する
ことを特徴とする請求項６に記載のコミュニケーションシステム。
前記管理サーバは、
前記音声データに基づいて、実行すべき処理を特定する第２の解析手段と、
前記第２の解析手段にて特定された処理を実行する処理手段と
を更に有することを特徴とする請求項７に記載のコミュニケーションシステム。
前記第２の解析手段にて特定される処理は写真登録処理であり、
前記処理手段は、
前記テキストデータから要約データを生成し、
当該要約データ、指定された画像データ、撮影位置、撮影日時、および前記音声データの発話者の情報を対応付けて前記掲示板画面上に表示する
ことを特徴とする請求項８に記載のコミュニケーションシステム。
前記第２の解析手段にて特定される処理はスケジューリング処理であり、
前記処理手段は、
前記テキストデータからスケジュールを設定する対象者を特定し、
前記テキストデータから要約データを生成し、
前記特定された対象者にスケジュールの通知を行い、
前記要約データを前記掲示板画面上に表示する
ことを特徴とする請求項８に記載のコミュニケーションシステム。
複数の端末と、管理サーバとを含んで構成されるコミュニケーションシステムの制御方法であって、
前記複数の端末それぞれにおいて、
発話を受け付ける受付工程と、
前記発話に基づく音声データを前記管理サーバに送信する第１の送信工程と、
前記管理サーバから受信した音声データを出力する出力工程と
を有し、
前記管理サーバにおいて、
前記複数の端末のうちの第１の端末から音声データを受信する受信工程と、
前記音声データに基づいて、前記複数の端末のうちの接続先となる第２の端末を特定する第１の解析工程と、
前記第１の端末と前記第２の端末とを含むグループ内において通話を行うための接続を確立する接続工程と、
前記第２の端末に対して、前記第１の端末から受信した音声データを送信する第２の送信工程と
を有することを特徴とするコミュニケーションシステムの制御方法。
複数の端末と通信可能に構成される管理サーバであって、
前記複数の端末のうちの第１の端末から音声データを受信する受信手段と、
前記音声データに基づいて、前記複数の端末のうちの接続先となる第２の端末を特定する解析手段と、
前記第１の端末と前記第２の端末とを含むグループ内において通話を行うための接続を確立する接続手段と、
前記第２の端末に対して、前記第１の端末から受信した音声データを送信する第２の送信手段と
を有することを特徴とする管理サーバ。
複数の端末と通信可能に構成される管理サーバの制御方法であって、
前記複数の端末のうちの第１の端末から音声データを受信する受信工程と、
前記音声データに基づいて、前記複数の端末のうちの接続先となる第２の端末を特定する解析工程と、
前記第１の端末と前記第２の端末とを含むグループ内において通話を行うための接続を確立する接続工程と、
前記第２の端末に対して、前記第１の端末から受信した音声データを送信する第２の送信工程と
を有することを特徴とする管理サーバの制御方法。