JP2021022836A

JP2021022836A - 通信システム、通信端末、通信方法およびプログラム

Info

Publication number: JP2021022836A
Application number: JP2019138333A
Authority: JP
Inventors: 怜士川▲崎▼; Reiji Kawasaki
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2019-07-26
Filing date: 2019-07-26
Publication date: 2021-02-18

Abstract

【課題】通信のデータ量を削減しつつ、違和感のないコミュニケーションを実現することができる通信システム、通信端末、通信方法およびプログラムを提供する。【解決手段】複数の通信端末がネットワークを介してビデオ会議が可能な通信システムであって、第１通信端末を利用する参加者を識別する話者識別情報を特定する第１特定部と、第１通信端末で入力された参加者の音声データをテキストに変換する変換部と、話者識別情報と、テキストとを管理システムを介して第２通信端末へ送信する第１送信部と、第２通信端末で受信された話者識別情報に対応する参加者の音声に基づく音声合成モデルを用いて、第２通信端末で受信されたテキストから音声合成データを合成する合成部と、合成部により合成された音声合成データを、出力部から音声として出力させる音声出力部と、を有する。【選択図】図６

Description

本発明は、通信システム、通信端末、通信方法およびプログラムに関する。

複数の地点にいる複数のユーザが、ディスプレイを用いて会議を行うビデオ会議システムにおいて、各拠点間で通信するデータ量を、静止画およびテキストにすることによって削減し、帯域が少なくても会議を継続する技術が既に知られている。

このような、テキストを送受信することによって実現するビデオ会議システムとして、テキストによる参加者、および音声による参加者の双方が、誰の発話であるかを識別するために、音声合成手段によって、テキストを、発話者に対応した音源を用いて、音声データに変換させ、ＩＰ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ）電話または固定電話に変換した音声データを配信する構成が開示されている（特許文献１参照）。

しかしながら、特許文献１に記載された技術では、テキストから音声データに変換するために用いる音源が、ユーザの音声に基づく音源ではないため、変換された音声データは、当該ユーザの音声とは異なり、違和感のあるコミュニケーションになってしまうという問題がある。

本発明は、上述の問題点に鑑みてなされたものであって、通信のデータ量を削減しつつ、違和感のないコミュニケーションを実現することができる通信システム、通信端末、通信方法およびプログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明は、複数の通信端末がネットワークを介してビデオ会議が可能な通信システムであって、第１通信端末を利用する参加者を識別する話者識別情報を特定する第１特定部と、前記第１通信端末で入力された前記参加者の音声データをテキストに変換する変換部と、前記話者識別情報と、前記テキストとを管理システムを介して第２通信端末へ送信する第１送信部と、前記第２通信端末で受信された前記話者識別情報に対応する前記参加者の音声に基づく音声合成モデルを用いて、前記第２通信端末で受信された前記テキストから音声合成データを合成する合成部と、前記合成部により合成された前記音声合成データを、出力部から音声として出力させる音声出力部と、を有することを特徴とする。

本発明によれば、通信のデータ量を削減しつつ、違和感のないコミュニケーションを実現することができる。

図１は、第１の実施形態に係る通信システムの概略構成図である。図２は、第１の実施形態に係る通信端末（ビデオ会議端末）のハードウェア構成の一例を示す図である。図３は、第１の実施形態に係る通信端末（電子黒板）のハードウェア構成の一例を示す図である。図４は、第１の実施形態に係る管理システムおよびプログラム提供システムのハードウェア構成の一例を示す図である。図５は、第１の実施形態に係る通信端末のソフトウェア構成の一例を示す図である。図６は、第１の実施形態に係る通信システムの機能ブロックの構成の一例を示す図である。図７は、音声合成部の機能の流れの一例を示す図である。図８は、認証管理テーブルの一例を示す図である。図９は、端末管理テーブルの一例を示す図である。図１０は、グループ管理テーブルの一例を示す図である。図１１は、セッション管理テーブルの一例を示す図である。図１２は、音声認識部の機能の流れの一例を示す図である。図１３は、音声分岐部の機能の流れの一例を示す図である。図１４は、第１の実施形態に係る通信システムにおけるコンテンツデータおよび各種管理情報を送受信するために確立されたセッションを示す図である。図１５は、第１の実施形態に係る通信システムにおける、通信端末が通話を開始するための認証処理を含む準備段階の処理の一例を示すシーケンス図である。図１６は、宛先リストの表示例を示す図である。図１７は、第１の実施形態に係る通信システムにおける通話の開始を要求する処理の一例を示すシーケンス図である。図１８は、第１の実施形態に係る通信システムにおける通話の開始の要求を許可する処理の一例を示すシーケンス図である。図１９は、開始要求受付画面の表示例を示す図である。図２０は、第１の実施形態に係る通信システムにおいて帯域満足時のデータの流れおよび処理の概略を説明する図である。図２１は、第１の実施形態に係る通信システムにおいて帯域不足時のデータの流れおよび処理の概略を説明する図である。図２２は、第１の実施形態に係る管理システムの帯域判定処理の流れの一例を示すフローチャートである。図２３は、第１の実施形態に係る管理システムの音声合成モデル生成処理の流れの一例を示すフローチャートである。図２４は、第１の実施形態に係る管理システムのコンテンツ中継処理の流れの一例を示すフローチャートである。図２５は、第１の実施形態に係る通信端末のコンテンツ送受信処理の流れの一例を示すフローチャートである。図２６は、第１の実施形態に係る通信端末の音声合成処理の流れの一例を示すフローチャートである。図２７は、第１の実施形態に係る通信システムの全体動作の流れの一例を示す図である。図２８は、発話方向・音声合成モデル対応テーブルの一例を示す図である。図２９は、第２の実施形態に係る通信システムの機能ブロックの構成の一例を示す図である。図３０は、発話方向と発話者（口唇座標）との対応を説明する図である。図３１は、座標・発話方向対応テーブルの一例を示す図である。図３２は、第２の実施形態に係る通信システムの全体動作の流れの一例を示す図である。図３３は、口唇座標・音声合成モデル対応テーブルの一例を示す図である。図３４は、第３の実施形態に係る通信システムの機能ブロックの構成の一例を示す図である。図３５は、発話方向と発話者（中心座標）との対応を説明する図である。図３６は、第３の実施形態に係る通信システムの全体動作の流れの一例を示す図である。図３７は、顔認識情報・顔中心座標・音声合成モデル対応テーブルの一例を示す図である。図３８は、通信端末のＷｅｂアプリを利用する場合のソフトウェア構成の一例を示す図である。

以下に、図面を参照しながら、本発明に係る通信システム、通信端末、通信方法およびプログラムの実施形態を詳細に説明する。また、以下の実施形態によって本発明が限定されるものではなく、以下の実施形態における構成要素には、当業者が容易に想到できるもの、実質的に同一のもの、およびいわゆる均等の範囲のものが含まれる。さらに、以下の実施形態の要旨を逸脱しない範囲で構成要素の種々の省略、置換、変更および組み合わせを行うことができる。

また、コンピュータソフトウェアとは、コンピュータの動作に関するプログラム、その他コンピュータによる処理の用に供する情報であってプログラムに準ずるものをいう（以下、コンピュータソフトウェアは、ソフトウェアという）。アプリケーションソフトとは、ソフトウェアの分類のうち、特定の作業を行うために使用されるソフトウェアの総称である。一方、オペレーティングシステム（ＯＳ）とは、コンピュータを制御し、アプリケーションソフト等がコンピュータ資源を利用可能にするためのソフトウェアのことである。オペレーティングシステムは、入出力の制御、メモリやハードディスクなどのハードウェアの管理、プロセスの管理といった、コンピュータの基本的な管理・制御を行っている。アプリケーションソフトウェアは、オペレーティングシステムが提供する機能を利用して動作する。プログラムとは、コンピュータに対する指令であって、一の結果を得ることができるように組み合わせたものをいう。また、プログラムに準ずるものとは、コンピュータに対する直接の指令ではないためプログラムとは呼べないが、コンピュータの処理を規定するという点でプログラムに類似する性質を有するものをいう。例えば、データ構造（データ要素間の相互関係で表される、データの有する論理的構造）がプログラムに準ずるものに該当する。

［第１の実施形態］
（通信システムの全体構成）
図１は、第１の実施形態に係る通信システムの概略構成図である。図１を参照しながら、本実施形態に係る通信システム１の構成の概略を説明する。

図１に示すように、通信システム１は、複数の通信端末１０ａａ、１０ａｂ、１０ｂａ、１０ｂｂ、１０ｃａ、１０ｃｂ、１０ｄａ、１０ｄｂと、一部の通信端末用のディスプレイ１２０ａａ、１２０ｂａ、１２０ｃａ、１２０ｄａと、一部の通信端末に接続されたＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）３０ａｂ、３０ｃｂと、管理システム５０と、プログラム提供システム９０と、を含み、通信ネットワーク２を介して互いに通信可能となるように構築されている。

なお、図１では、通信端末１０ａａ、１０ａｂ、１０ｂａ、１０ｂｂ、１０ｃａ、１０ｃｂ、１０ｄａ、１０ｄｂが示されているが、これらのうち任意の通信端末を示す場合または総称する場合、単に「通信端末１０」と称する。また、図１に示す通信システム１に含まれる複数の通信端末１０は、一例を示すものであり、異なる台数であってもよい。

また、図１では、ディスプレイ１２０ａａ、１２０ｂａ、１２０ｃａ、１２０ｄａが示されているが、これらのうち任意のディスプレイを示す場合または総称する場合、単に「ディスプレイ１２０」と称する。また、図１に示す通信システム１に含まれる複数のディスプレイ１２０は、一例を示すものであり、異なる台数であってもよい。

通信端末１０は、他の装置との間で、各種情報を送受信する端末である。通信端末１０は、他の通信端末１０との間でセッションを確立し、確立したセッションにおいて、音声データおよび画像データ（映像データ）を含むコンテンツデータの送受信による通話を行う。これにより、通信システム１において、複数の通信端末１０間のビデオ会議が実現される。なお、通信端末１０は、ディスプレイ（上述のディスプレイ１２０）が接続される専用装置（ビデオ会議端末）、電子黒板（インタラクティブホワイトボード：ＩＷＢ）、デスクトップＰＣ、ノートＰＣ、スマートフォン、またはタブレット端末等のいずれであってもよい。

ディスプレイ１２０は、通信ネットワーク２を介して、接続されている通信端末１０が受信した参加者の映像等を、表示する表示装置である。ディスプレイ１２０は、例えば、ＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）または有機ＥＬ（Ｅｌｅｃｔｒｏ−Ｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイ等である。

ＰＣ３０は、例えば、通信端末１０に接続され、他の通信端末１０との共有する画面イメージを当該通信端末１０に送信し、管理システム５０を介して配信することによって、他の通信端末１０と画面共有の状態にする情報処理装置である。なお、ＰＣ３０は、デスクトップＰＣおよびノートＰＣ等のＰＣであることに限定されず、スマートフォンまたはタブレット端末等の情報処理装置であってもよい。

管理システム５０は、通信端末１０を一元的に管理するコンピュータである。管理システム５０は、通信端末１０間でのセッションを確立することにより、通信端末１０間における通話等によるビデオ会議を実現する。管理システム５０は、所定の通信端末１０からセッションの開始要求情報を受信した場合に、開始要求情報を送信した通信端末１０（開始要求端末）と宛先端末との間のセッションを確立し、ビデオ会議を開始させる。したがって、管理システム５０は、確立したセッションにより、複数の通信端末１０間でコンテンツデータの中継を行う。なお、管理システム５０は複数の通信端末１０間でセッションを確立するものの、実際にコンテンツデータの中継は、別の中継装置により行われるものとしてもよい。本実施形態では、説明を簡略にするため、セッションの確立、およびコンテンツデータの中継は、管理システム５０が行うものとして説明する。

プログラム提供システム９０は、通信端末１０に各種機能または各種手段を実現させるための端末用プログラムが記憶された補助記憶装置（ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）等）を備えており、通信端末１０に端末用プログラム（後述する通信アプリＡ等）を提供するコンピュータである。また、プログラム提供システム９０は、管理システム５０等に各種機能または各種手段を実現させるためのプログラムも補助記憶装置に記憶しており、管理システム５０等に、対応するプログラムを送信することができる。

通信ネットワーク２は、図１に示すように、例えば、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）２ａ〜２ｄ、専用線２ａｂ、２ｃｄ、およびインターネット２ｉを含んで構築されている。なお、通信ネットワーク２は、図１に示すような構成に限定されるものではなく、その他のネットワーク機器が含まれるものとしてもよく、有線だけでなく無線による通信が行われる箇所があってもよい。

ＬＡＮ２ａ〜２ｄ、および専用線２ａｂ、２ｃｄは、それぞれルータ７０ａ〜７０ｄ、７０ａｂ、７０ｃｄを含む。ルータ７０ａ〜７０ｄ、７０ａｂ、７０ｃｄは、通信データの最適な経路の選択を行うネットワーク機器である。

通信端末１０（１０ａａ、１０ａｂ、・・・）、およびルータ７０ａは、ＬＡＮ２ａによって通信可能に接続されている。また、通信端末１０（１０ｂａ、１０ｂｂ、・・・）、およびルータ７０ｂは、ＬＡＮ２ｂによって通信可能に接続されている。また、ＬＡＮ２ａ、ＬＡＮ２ｂ、およびルータ７０ａｂは、専用線２ａｂによって通信可能に接続されており、地域Ａ内で構築されている。

一方、通信端末１０（１０ｃａ、１０ｃｂ、・・・）、およびルータ７０ｃは、ＬＡＮ２ｃによって通信可能に接続されている。また、通信端末１０（１０ｄａ、１０ｄｂ、・・・）、およびルータ７０ｄは、ＬＡＮ２ｄによって通信可能に接続されている。また、ＬＡＮ２ｃ、ＬＡＮ２ｄ、およびルータ７０ｃｄは、専用線２ｃｄによって通信可能に接続されており、地域Ｂ内で構築されている。

地域Ａおよび地域Ｂのネットワークは、それぞれルータ７０ａｂ、７０ｃｄによってインターネット２ｉを介して通信可能に接続されている。

また、管理システム５０およびプログラム提供システム９０は、インターネット２ｉを介して、各通信端末１０と通信可能に接続されている。なお、管理システム５０およびプログラム提供システム９０は、地域Ａまたは地域Ｂに設置されていてもよいし、これら以外の地域に設置されていてもよい。

また、図１において、各通信端末１０、管理システム５０、各ルータ７０およびプログラム提供システム９０の近傍に示されている４組の数字は、一般的なＩＰｖ４におけるＩＰ（ＩｎｅｔｅｒｎｅｔＰｒｏｔｏｃｏｌ）アドレスを簡易的に示している。例えば、通信端末１０ａａのＩＰアドレスは、「１．２．１．３」であるものとしている。なお、ＩＰｖ４ではなく、ＩＰｖ６を用いてもよいが、説明を簡略化するため、ＩＰｖ４を用いて説明する。

なお、図１に示す通信システム１の構成は、一例を示すものであり、この構成に限定されるものではない。すなわち、図１に示す各装置、システムの台数は、図１に示す台数に限定されるものではない。また、図１では、地域Ａ、Ｂの２つの地域のネットワーク構成が示されているが、同一地域内のネットワークであってもよく、３つ以上の地域がネットワークで接続された構成であってもよい。

（通信端末のハードウェア構成）
図２は、第１の実施形態に係る通信端末（ビデオ会議端末）のハードウェア構成の一例を示す図である。図３は、第１の実施形態に係る通信端末（電子黒板）のハードウェア構成の一例を示す図である。まず、図２を参照しながら、本実施形態に係る通信端末１０がビデオ会議端末であるものとした場合のハードウェア構成の詳細について説明する。

図２に示すように、本実施形態に係る通信端末１０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１０１と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１０２と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１０３と、補助記憶装置１０５と、メディアドライブ１０７と、入力装置１０８と、を備えている。

ＣＰＵ１０１は、通信端末１０全体の動作を制御する演算装置である。ＲＯＭ１０２は、通信端末１０用のプログラム（後述する通信アプリＡ等）を記憶している不揮発性記憶装置である。ＲＡＭ１０３は、ＣＰＵ１０１のワークエリアとして使用される揮発性記憶装置である。

補助記憶装置１０５は、画像データ、音声データおよび動画データ等の各種データを記憶するＨＤＤまたはＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の不揮発性記憶装置である。メディアドライブ１０７は、ＣＰＵ１０１の制御に従って、フラッシュメモリ等であるメディア１０６に対するデータの読み出しおよび書き込みを制御する装置である。メディア１０６は、通信端末１０に対して着脱自在の記憶装置である。なお、メディア１０６は、ＣＰＵ１０１の制御に従ってデータの読み出しおよび書き込みを行う不揮発性メモリであれば、フラッシュメモリに限定されるものではなく、ＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅａｎｄＰｒｏｇｒａｍｍａｂｌｅＲＯＭ）等を用いてもよい。

入力装置１０８は、マウスまたはキーボード等の各種情報を入力するための装置、または操作ボタンおよび電源ボタン等のボタンである。

また、通信端末１０は、ネットワークＩ／Ｆ１１１と、撮像素子Ｉ／Ｆ１１３と、音声入出力Ｉ／Ｆ１１６と、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）Ｉ／Ｆ１１７と、ディスプレイＩ／Ｆ１１９と、を備えている。

ネットワークＩ／Ｆ１１１は、通信ネットワーク２を利用してデータを通信するためのインターフェースである。ネットワークＩ／Ｆ１１１は、例えば、ＴＣＰ（ＴｒａｎｓｍｉｓｓｉｏｎＣｏｎｔｒｏｌＰｒｏｔｏｃｏｌ）／ＩＰ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ）に準拠したＮＩＣ（ＮｅｔｗｏｒｋＩｎｔｅｒｆａｃｅＣａｒｄ）等である。

撮像素子Ｉ／Ｆ１１３は、ＣＰＵ１０１の制御に従って被写体を撮像して画像データを得るカメラ１１２との間で画像データを伝送するためのインターフェースである。カメラ１１２は、レンズ、および光を電荷に変換して被写体の画像（映像）を電子化する固体撮像素子を含む。カメラ１１２は、ケーブル１１２ｃによって撮像素子Ｉ／Ｆ１１３に接続される。固体撮像素子としては、ＣＭＯＳ（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）またはＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ）等が用いられる。

音声入出力Ｉ／Ｆ１１６は、ＣＰＵ１０１の制御に従って、音声を入力するマイク１１４ａ、および音声を出力するスピーカ１１４ｂを有するスマートスピーカ１１４との間で音声信号（音声データ）の入出力を処理するインターフェースである。スマートスピーカ１１４は、マイクロホンアレイで構成されるマイク１１４ａを備えることによって、各マイクロホンから入力された音声に対する音声処理を行うことによって、当該音声の方向を特定する装置である。なお、スマートスピーカ１１４は、マイクロホンアレイを搭載して音声の方向を特定することができる装置であれば、必ずしもスマートスピーカである必要はない。スマートスピーカ１１４は、ケーブル１１４ｃによって音声入出力Ｉ／Ｆ１１６に接続される。

ＵＳＢＩ／Ｆ１１７は、外部機器（例えばＰＣ等）と接続してデータ通信を行うためのＵＳＢ規格のインターフェースである。

ディスプレイＩ／Ｆ１１９は、ＣＰＵ１０１の制御に従って、外付けのディスプレイ１２０に画像データを伝送するためのインターフェースである。ディスプレイ１２０は、ケーブル１２０ｃによってディスプレイＩ／Ｆ１１９に接続される。ケーブル１２０ｃは、アナログＲＧＢ（ＶＧＡ）信号用のケーブルであってもよく、コンポーネントビデオ用のケーブルであってもよく、ＨＤＭＩ（登録商標）(Ｈｉｇｈ−ＤｅｆｉｎｉｔｉｏｎＭｕｌｔｉｍｅｄｉａＩｎｔｅｒｆａｃｅ)またはＤＶＩ（ＤｉｇｉｔａｌＶｉｄｅｏＩｎｔｅｒａｃｔｉｖｅ）信号用のケーブルであってもよい。

上述のＣＰＵ１０１、ＲＯＭ１０２、ＲＡＭ１０３、補助記憶装置１０５、メディアドライブ１０７、入力装置１０８、ネットワークＩ／Ｆ１１１、撮像素子Ｉ／Ｆ１１３、音声入出力Ｉ／Ｆ１１６、ＵＳＢＩ／Ｆ１１７およびディスプレイＩ／Ｆ１１９は、アドレスバスおよびデータバス等のバスライン１１０によって互いに通信可能に接続されている。

なお、図２に示したビデオ会議端末である通信端末１０のハードウェア構成は一例を示すものであり、図２に示した構成要素以外の構成要素を含むものとしてもよい。また、カメラ１１２、およびスマートスピーカ１１４は、通信端末１０に一体的に備えられるものとしてもよく、または、カメラ１１２、およびスマートスピーカ１１４のうち少なくともいずれかは、外付けの別体の装置であってもよい。また、ディスプレイ１２０は、図２では、通信端末１０に対して外付けされるディスプレイとしているが、これに限定されるものではなく、通信端末１０と一体的に備えられるものとしてもよい。

次に、図３を参照しながら、本実施形態に係る通信端末１０が電子黒板であるものとした場合のハードウェア構成の詳細について説明する。

図３に示すように、本実施形態に係る通信端末１０は、ＣＰＵ２０１と、ＲＯＭ２０２と、ＲＡＭ２０３と、ＳＳＤ２０４と、ネットワークＩ／Ｆ２０５と、外部機器接続Ｉ／Ｆ２０６と、を備えている。

ＣＰＵ２０１は、通信端末１０全体の動作を制御する演算装置である。ＲＯＭ２０２は、ＩＰＬ（ＩｎｉｔｉａｌＰｒｏｇｒａｍＬｏａｄｅｒ）等のＣＰＵ２０１の駆動に用いられるプログラムを記憶する不揮発性記憶装置である。ＲＡＭ２０３は、ＣＰＵ２０１のワークエリアとして使用される揮発性記憶装置である。

ＳＳＤ２０４は、画像データ、音声データおよび動作データ、ならびに通信端末１０用のプログラム等の各種データを記憶する不揮発性記憶装置である。なお、ＳＳＤ２０４の代わりにＨＤＤ等の不揮発性記憶装置を用いるものとしてもよい。

ネットワークＩ／Ｆ２０５は、通信ネットワーク２を利用してデータを通信するためのインターフェースである。ネットワークＩ／Ｆ２０５は、例えば、ＴＣＰ／ＩＰに準拠したＮＩＣ等である。

外部機器接続Ｉ／Ｆ２０６は、各種の外部機器を接続するためのＵＳＢ規格等のインターフェースである。この場合の外部機器としては、例えば、ＵＳＢメモリ２３０、スマートスピーカ２４０、およびカメラ２６０である。

スマートスピーカ２４０は、音声を入力するマイク２４１、および音声を出力するスピーカ２４２を有する。スマートスピーカ２４０は、マイクロホンアレイで構成されるマイク２４１を備えることによって、各マイクロホンから入力された音声に対する音声処理を行うことによって、当該音声の方向を特定することができる装置である。なお、マイクロホンアレイを搭載して音声の方向を特定することができる装置であれば、必ずしもスマートスピーカである必要はない。

カメラ２６０は、レンズ、および光を電荷に変換して被写体の画像（映像）を電子化する固体撮像素子を含む。固体撮像素子としては、ＣＭＯＳまたはＣＣＤ等が用いられる。

また、通信端末１０は、キャプチャデバイス２１１と、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）２１２と、ディスプレイコントローラ２１３と、ディスプレイ２１４と、センサコントローラ２１５と、接触センサ２１６と、電子ペンコントローラ２１７と、電源スイッチ２２２と、選択スイッチ２２３と、を備えている。

キャプチャデバイス２１１は、外付けのＰＣ２７０のディスプレイに対して映像情報を静止画または動画として表示させるデバイスである。

ＧＰＵ２１２は、画像処理に特化した演算装置である。ディスプレイコントローラ２１３は、ＧＰＵ２１２からの出力画像をディスプレイ２１４等へ出力するために画面表示の制御および管理を行うコントローラである。

センサコントローラ２１５は、接触センサ２１６の処理を制御するコントローラである。接触センサ２１６は、赤外線遮断方式による座標の入力および座標の検出を行うセンサである。この座標の入力および座標の検出をする方法は、ディスプレイ２１４の上側両端部に設置された２つ受発光装置が、ディスプレイ２１４に平行して複数の赤外線を放射し、ディスプレイ２１４の周囲に設けられた反射部材によって反射されて、受光素子が放射した光の光路と同一の光路上を戻って来る光を受光する方法である。接触センサ２１６は、ディスプレイ２１４上に電子ペン２９０およびユーザの手Ｈ等が接触したことを検知する。接触センサ２１６は、物体によって遮断された２つの受発光装置が放射した赤外線のＩＤをセンサコントローラ２１５に出力し、センサコントローラ２１５が、物体の接触位置である座標位置を特定する。

なお、接触センサ２１６は、赤外線遮断方式に限らず、静電容量の変化を検知することにより接触位置を特定する静電容量方式のタッチパネル、対向する２つの抵抗膜の電圧変化によって接触位置を特定する抵抗膜方式のタッチパネル、または、接触物体が表示部に接触することによって生じる電磁誘導を検知して接触位置を特定する電磁誘導方式のタッチパネル等の種々の検出手段を用いてもよい。

電子ペンコントローラ２１７は、電子ペン２９０と通信することによって、ディスプレイ２１４へのペン先のタッチおよびペン尻のタッチの有無を判断するコントローラである。なお、電子ペンコントローラ２１７は、電子ペン２９０のペン先およびペン尻だけでなく、電子ペン２９０のユーザが握る部分、その他の電子ペンの部分のタッチの有無を判断するようにしてもよい。

電源スイッチ２２２は、通信端末１０の電源のＯＮ／ＯＦＦを切り換えるためのスイッチである。選択スイッチ２２３は、例えば、ディスプレイ２１４の表示の明暗、色合い等を調整するためのスイッチ群である。

上述のＣＰＵ２０１、ＲＯＭ２０２、ＲＡＭ２０３、ＳＳＤ２０４、ネットワークＩ／Ｆ２０５、外部機器接続Ｉ／Ｆ２０６、キャプチャデバイス２１１、ＧＰＵ２１２、センサコントローラ２１５、電子ペンコントローラ２１７、電源スイッチ２２２および選択スイッチ２２３は、アドレスバスおよびデータバス等のバスライン２１０によって互いに通信可能に接続されている。

なお、図３に示した電子黒板である通信端末１０のハードウェア構成は一例を示すものであり、図３に示した構成要素以外の構成要素を含むものとしてもよい。また、カメラ２６０、およびスマートスピーカ２４０は、通信端末１０に一体的に備えられるものとしてもよく、または、カメラ２６０、およびスマートスピーカ２４０のうち少なくともいずれかは、外付けの別体の装置であってもよい。

（管理システムおよびプログラム提供システムのハードウェア構成）
図４は、第１の実施形態に係る管理システムおよびプログラム提供システムのハードウェア構成の一例を示す図である。図４を参照しながら、管理システム５０およびプログラム提供システム９０のハードウェア構成の詳細について説明する。

まず、図４を参照しながら管理システム５０のハードウェア構成について説明する。図４に示すように、管理システム５０は、ＣＰＵ３０１と、ＲＯＭ３０２と、ＲＡＭ３０３と、補助記憶装置３０５と、メディアドライブ３０７と、ディスプレイ３０８と、ネットワークＩ／Ｆ３０９と、キーボード３１１と、マウス３１２と、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）ドライブ３１４と、を備えている。

ＣＰＵ３０１は、管理システム５０全体の動作を制御する演算装置である。ＲＯＭ３０２は、管理システム５０用のプログラムを記憶している不揮発性記憶装置である。ＲＡＭ３０３は、ＣＰＵ３０１のワークエリアとして使用される揮発性記憶装置である。

補助記憶装置３０５は、後述する認証管理ＤＢ５００１、端末管理ＤＢ５００２、グループ管理ＤＢ５００３およびセッション管理ＤＢ５００４等の各種データを記憶するＨＤＤまたはＳＳＤ等の記憶装置である。メディアドライブ３０７は、ＣＰＵ３０１の制御に従って、フラッシュメモリ等の記録メディア３０６に対するデータの読み出しおよび書き込みを制御する装置である。

ディスプレイ３０８は、カーソル、メニュー、ウィンドウ、文字または画像等の各種情報を表示する液晶または有機ＥＬ等によって構成された表示装置である。ネットワークＩ／Ｆ３０９は、通信ネットワーク２を利用してデータを通信するためのインターフェースである。ネットワークＩ／Ｆ３０９は、例えば、ＴＣＰ／ＩＰに準拠したＮＩＣ等である。

キーボード３１１は、文字、数字、各種指示の選択、およびカーソルの移動等を行う入力装置である。マウス３１２は、各種指示の選択および実行、処理対象の選択、ならびにカーソルの移動等を行うための入力装置である。

ＤＶＤドライブ３１４は、着脱自在な記憶媒体の一例としてのＤＶＤ−ＲＯＭまたはＤＶＤ−Ｒ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋＲｅｃｏｒｄａｂｌｅ）等のＤＶＤ３１３に対するデータの読み出しおよび書き込みを制御する装置である。

上述のＣＰＵ３０１、ＲＯＭ３０２、ＲＡＭ３０３、補助記憶装置３０５、メディアドライブ３０７、ディスプレイ３０８、ネットワークＩ／Ｆ３０９、キーボード３１１、マウス３１２およびＤＶＤドライブ３１４は、アドレスバスおよびデータバス等のバスライン３１０によって互いに通信可能に接続されている。

なお、図３に示した管理システム５０のハードウェア構成は一例を示すものであり、図３に示した構成要素を全て含む必要はなく、または、その他の構成要素を含むものとしてもよい。

なお、プログラム提供システム９０は、上述の管理システム５０と同様のハードウェア構成を有しているため、その説明を省略する。ただし、ＲＯＭ３０２には、プログラム提供システム９０を制御するためのプログラム提供システム９０用のプログラムが記録されている。

（通信端末のソフトウェア構成）
図５は、第１の実施形態に係る通信端末のソフトウェア構成の一例を示す図である。図５を参照しながら、本実施形態に係る通信端末１０のソフトウェア構成の詳細について説明する。

通信端末１０には、クライアントアプリとして通信アプリＡがインストールされている。ここで、アプリとは、アプリケーションソフトウェアを意味する。図５に示すように、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）１０２０、および通信アプリＡは、通信端末１０のＲＡＭ１０３（ＲＡＭ２０３）の作業領域１０１０上で動作する。

ＯＳ１０２０は、基本的な機能を提供し、通信端末１０全体を管理する基本ソフトウェアである。通信アプリＡは、ＯＳ１０２０の制御に従って動作し、他の通信端末１０と通信（通話）するためのアプリである。

なお、通信アプリＡの通信プロトコルとしては、ＳＩＰ（ＳｅｓｓｉｏｎＩｎｉｔｉａｔｉｏｎＰｒｏｔｏｃｏｌ)、Ｈ.３２３、ＩＲＣ（ＩｎｔｅｒｎｅｔＲｅｌａｙＣｈａｔ)、またはＪｉｎｇｌｅ等が挙げられる。

（通信システムの機能ブロックの構成および動作）
図６は、第１の実施形態に係る通信システムの機能ブロックの構成の一例を示す図である。図７は、音声合成部の機能の流れの一例を示す図である。図６および図７を参照しながら、本実施形態に係る通信システム１の機能ブロックの構成および動作について説明する。

＜通信端末の機能ブロックの構成＞
図６に示すように、通信端末１０は、通信部１１と、操作入力受付部１２と、撮像部１３と、表示制御部１４と、音声入力部１５と、音声出力部１６と、記憶・読出部１７と、記憶部１８と、認証要求部１９と、発話方向特定部２０と、テキスト化部２１と、モデル特定部２２と、音声合成部２３と、を有している。

通信部１１は、通信ネットワーク２を介して、他の通信端末１０または各システムと各種データの送受信を行う機能部である。通信部１１は、図２に示すＣＰＵ１０１（図３に示すＣＰＵ２０１）によるソフトウェアである通信アプリＡの実行、およびネットワークＩ／Ｆ１１１（ネットワークＩ／Ｆ２０５）によって実現される。

通信部１１は、当該通信端末１０が他の通信端末１０とセッションを確立し、通話によるビデオ会議を開始する前に、管理システム５０から、宛先端末の候補としての各通信端末１０の状態を示す各状態情報の受信を開始する。ここで、宛先端末の候補とは、通信端末１０が、ビデオ会議を行う相手、すなわちセッションの相手として指定可能なビデオ会議の相手であるユーザ（参加者）が利用する宛先候補となる他の通信端末１０である。すなわち、通信端末１０は、宛先端末の候補として予め設定されていない通信端末とは、セッションを確立することができず、ビデオ会議を行うことができない。

また、状態情報は、各通信端末１０の稼動状態（オンラインかオフラインかの状態）と、オンラインにおいてはさらに通話中であるか、待受け中であるか等の詳細な状態（以下、通信状態と称する）とを示す。また、状態情報は、各通信端末１０の稼動状態および通信状態だけでなく、ケーブルが通信端末１０から外れている、音声を出力できるが画像は出力できない、または、音声が入力されないように設定されている（ミュート）等、様々な状態を示すものとしてもよいが、以下では、一例として、稼動状態および通信状態を示す場合について説明する。

通信部１１は、当該通信端末１０が開始要求端末として動作する場合には、開始要求情報を管理システム５０に送信する。ここで、開始要求情報とは、ビデオ会議に用いられるセッションの開始を要求する情報である。開始要求情報は、具体的には、開始を要求する旨を示す情報と、開始要求情報の送信元である開始要求端末の端末ＩＤと、セッションの相手となる宛先端末の端末ＩＤと、を含む。端末ＩＤは、通信端末１０を識別するための情報であって、予め通信端末１０に記憶させておく他、ユーザが直接通信端末１０へ入力して決定するものとしてもよい。

操作入力受付部１２は、ユーザによる各種入力を受け付ける機能部である。操作入力受付部１２は、図２に示す入力装置１０８（図３に示す接触センサ２１６、電源スイッチ２２２および選択スイッチ２２３）によって実現される。

例えば、ユーザが、操作入力受付部１２のうち図２に示す入力装置１０８としての電源ボタンをオンにすると、当該通信端末１０の電源がオン状態になる。また、ユーザが電源をオン状態からオフにすると、通信部１１は、管理システム５０へ、当該通信端末１０の電源がオフになった旨の状態情報を送信してから、当該通信端末１０の電源が完全にオフとなる。これによって、管理システム５０は、通信端末１０が電源オンから電源オフになったことを把握することができる。

撮像部１３は、被写体を撮像して、撮像して得た画像データ、映像データを取得する機能部である。撮像部１３は、図２に示すＣＰＵ１０１（図３に示すＣＰＵ２０１）によるソフトウェアである通信アプリＡの実行、ならびに、カメラ１１２（カメラ２６０）および撮像素子Ｉ／Ｆ１１３（外部機器接続Ｉ／Ｆ２０６）によって実現される。

表示制御部１４は、ディスプレイ１２０（ディスプレイ２１４）に対して画像データ等の表示制御を行う機能部である。表示制御部１４は、図２に示すＣＰＵ１０１（図３に示すＣＰＵ２０１）によるソフトウェアである通信アプリＡの実行によって実現される。

表示制御部１４は、例えば、ビデオ会議の要求元としての当該通信端末１０が所望の宛先としての通信端末１０とビデオ会議の通話を開始する前に、通信部１１によって受信された宛先端末の候補の状態情報を反映させて、各宛先端末の候補の名前が含まれた宛先リストをディスプレイ１２０（ディスプレイ２１４）に表示させる。

音声入力部１５は、マイク１１４ａ（マイク２４１）のマイクロホンアレイによって収音された参加者（話者）の音声が音声信号に変換された後、当該音声信号を入力する機能部である。音声入力部１５は、図２に示すＣＰＵ１０１（図３に示すＣＰＵ２０１）によるソフトウェアである通信アプリＡの実行、および音声入出力Ｉ／Ｆ１１６（外部機器接続Ｉ／Ｆ２０６）によって実現される。

音声出力部１６は、音声信号をスピーカ１１４ｂ（スピーカ２４２）に出力し、スピーカ１１４ｂ（スピーカ２４２）から音声を出力させる機能部である。音声出力部１６は、図２に示すＣＰＵ１０１（図３に示すＣＰＵ２０１）によるソフトウェアである通信アプリＡの実行、および音声入出力Ｉ／Ｆ１１６（外部機器接続Ｉ／Ｆ２０６）によって実現される。

記憶・読出部１７は、記憶部１８に各種データを記憶したり、記憶部１８に記憶された各種データを読み出す処理を行う機能部である。記憶部１８には、例えば、宛先端末との通話を行う際に受信されるコンテンツデータが、受信される度に上書き記憶される。このうち、上書きされる前の画像データによってディスプレイ１２０（ディスプレイ２１４）に画像が表示され、上書きされる前の音声データによってスピーカ１１４ｂ（スピーカ２４２）から音声が出力される。記憶・読出部１７は、図２に示すＣＰＵ１０１（図３に示すＣＰＵ２０１）によるソフトウェアである通信アプリＡの実行によって実現される。記憶部１８は、図２に示すＲＡＭ１０３および補助記憶装置１０５（図３に示すＲＡＭ２０３およびＳＳＤ２０４）のうち少なくともいずれかによって実現される。

認証要求部１９は、当該通信端末１０の電源がオンした場合、または、操作入力受付部１２により認証要求操作が受け付けられた場合、通信部１１から通信ネットワーク２を介して管理システム５０に、ログインの認証を要求する旨を示す認証要求情報、および当該通信端末１０の現時点のＩＰアドレスを送信する機能部である。認証要求部１９は、図２に示すＣＰＵ１０１（図３に示すＣＰＵ２０１）によるソフトウェアである通信アプリＡの実行によって実現される。

発話方向特定部２０は、音声入力部１５により入力された音声信号に基づいて、音声方向（発話方向）を特定する機能部である。具体的には、音声入力部１５により入力された音声信号は、マイク１１４ａ（マイク２４１）のマイクロホンアレイに含まれる各マイクロホンから入力された各音声信号を含み、発話方向特定部２０は、各マイクロホンの音声信号に対して音声処理を行うことにより、音声の方向を特定する。発話方向特定部２０は、図２に示すＣＰＵ１０１（図３に示すＣＰＵ２０１）によるソフトウェアである通信アプリＡの実行によって実現される。

テキスト化部２１は、音声入力部１５により入力された参加者の音声データをテキストに変換して出力する機能部である。なお、テキスト化部２１による音声データのテキスト化は、後述する管理システム５０の音声認識部６２と同様の動作によって行われる。テキスト化部２１は、図２に示すＣＰＵ１０１（図３に示すＣＰＵ２０１）によるソフトウェアである通信アプリＡの実行によって実現される。

モデル特定部２２は、記憶部１８に記憶されている、後述の図２８に示す発話方向・音声合成モデル対応テーブルを参照し、通信部１１により相手拠点の参加者の音声のテキストと共に受信された発話方向から、当該参加者に対応する音声合成モデルを特定する機能部である。モデル特定部２２は、図２に示すＣＰＵ１０１（図３に示すＣＰＵ２０１）によるソフトウェアである通信アプリＡの実行によって実現される。

音声合成部２３は、モデル特定部２２により特定された音声合成モデルと、通信部１１により受信された相手拠点の参加者の音声のテキストとを用いて音声の合成を行い、当該参加者の音声合成データを得る機能部である。具体的には、図７に示すように、音声合成部２３は、通信部１１により受信された相手拠点の参加者の音声のテキストを入力し、テキストの解析を行う。そして、音声合成部２３は、解析したテキストと、モデル特定部２２により特定された音声合成モデルとを用いて音声合成を行い、当該参加者の音声合成データを得る。音声合成部２３は、図２に示すＣＰＵ１０１（図３に示すＣＰＵ２０１）によるソフトウェアである通信アプリＡの実行によって実現される。

なお、上述の表示制御部１４、認証要求部１９、発話方向特定部２０、テキスト化部２１、モデル特定部２２および音声合成部２３のうち少なくともいずれかは、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）またはＦＰＧＡ（Ｆｉｅｌｄ−ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）等のハードウェア回路によって実現されるものとしてもよい。

また、図６に示した通信端末１０の各機能部は、機能を概念的に示したものであって、このような構成に限定されるものではない。例えば、図６に示した通信端末１０で独立した機能部として図示した複数の機能部を、１つの機能部として構成してもよい。一方、図６に示した通信端末１０の１つ機能部が有する機能を複数に分割し、複数の機能部として構成するものとしてもよい。

＜管理システムの機能ブロックの構成＞
図６に示すように、管理システム５０は、通信部５１と、認証部５２と、状態管理部５３と、端末抽出部５４と、端末状態取得部５５と、セッション制御部５６と、記憶・読出部５７と、記憶部５８と、を有している。管理システム５０は、さらに、帯域判定部６１と、音声認識部６２と、音声分析部６３と、登録部６４と、を有している。記憶部５８は、図４に示す補助記憶装置３０５によって実現され、図６に示すように、認証管理ＤＢ５００１と、端末管理ＤＢ５００２と、グループ管理ＤＢ５００３と、セッション管理ＤＢ５００４とを記憶している。以下、記憶部５８に記憶されている各ＤＢにおいて管理される各テーブルについて説明する。

＜＜認証管理テーブル＞＞
図８は、認証管理テーブルの一例を示す図である。

記憶部５８は、図８に示す認証管理テーブルを含む認証管理ＤＢ５００１を記憶している。認証管理テーブルでは、ログインの認証を行う通信端末１０を利用するユーザ（参加者）を識別するユーザＩＤに対して、パスワードが関連付けられて管理される。ここで、パスワードは、ログインの認証するために利用される情報である。例えば、図８に示す認証管理テーブルにおいて、ユーザＩＤが「Ａ＿１０ａａ」に関連付けられたパスワードが「ａａａａ」であることが示されている。

なお、ユーザＩＤは、通信端末１０を利用するユーザを一意に識別するために使われる文字、記号、数字または各種のしるし等の識別情報であり、例えば、当該ユーザが利用するメールアドレス等であってもよい。

＜＜端末管理テーブル＞＞
図９は、端末管理テーブルの一例を示す図である。

記憶部５８は、図９に示す端末管理テーブルを含む端末管理ＤＢ５００２を記憶している。端末管理テーブルでは、各通信端末１０の端末ＩＤ毎に、端末名、各通信端末１０にログインしたユーザのユーザＩＤ、各通信端末１０の稼動状態、他の通信端末１０との通信状態、および各通信端末１０のＩＰアドレスが関連付けられて管理される。

ここで、稼動状態としては、電源がオンされ、通信が可能または通信中の状態であるオンラインと、電源がオンされていない等、通信が可能でない状態であるオフラインとがある。また、通信状態としては、例えば、「Ｃａｌｌｉｎｇ」、「Ｒｉｎｇｉｎｇ」、「Ａｃｃｅｐｔｅｄ」、「Ｂｕｓｙ」、および「Ｎｏｎｅ」等がある。「Ｃａｌｌｉｎｇ」は、他の通信端末１０を呼び出している状態、すなわち、他の通信端末１０に対しビデオ会議に用いられるセッションを確立するための開始要求情報を送信し、応答を待っている状態を示す。「Ｒｉｎｇｉｎｇ」は、他の通信端末１０から呼び出されている状態、すなわち、他の通信端末１０から開始要求情報を受信し、受信した開始要求情報に対する応答が完了していない状態を示す。「Ａｃｃｅｐｔｅｄ」は、他の通信端末１０からの開始要求情報に対し許可の応答が完了しているが、セッションの確立が完了していない状態、および、自端末が送信した開始要求情報に対し許可の応答の受信が完了しているが、セッションの確立が完了していない状態を示す。「Ｂｕｓｙ」は、他の通信端末１０とのセッションが確立し、ビデオ会議におけるコンテンツデータの通信による通話が行われている状態を示す。「Ｎｏｎｅ」は、他の通信端末１０と通信しておらず、待ち受け中の状態を示す。

例えば、図９に示す端末管理テーブルにおいて、端末ＩＤが「１０ａｄ」の通信端末１０ａｄは、端末名が「日本東京事業所ＡＤ端末」で、ログインしているユーザのユーザＩＤが「Ｃ＿１０ａｄ」で、稼動状態が「オンライン」で、通信状態が他の通信端末１０から呼び出されている状態を示す「Ｒｉｎｇｉｎｇ」で、この通信端末１０ａｄのＩＰアドレスが「１．２．１．６」であることが示されている。

＜＜グループ管理システム＞＞
図１０は、グループ管理テーブルの一例を示す図である。

記憶部５８は、図１０に示すグループ管理テーブルを含むグループ管理ＤＢ５００３を記憶している。グループ管理テーブルでは、管理システム５０に予め登録されているビデオ会議のグループごとに、当該グループに含まれる通信端末１０の端末ＩＤが管理される。すなわち、グループ管理テーブルでは、グループを識別するグループＩＤと、当該グループに含まれる通信端末１０の端末ＩＤとが関連付けられて管理される。

例えば、図１０に示すグループ管理テーブルにおいて、グループＩＤが「Ｇ００２」のグループは、端末ＩＤが「１０ａｃ」、「１０ｃａ」、「１０ｃｂ」である通信端末１０を含むことが示されている。

＜＜セッション管理テーブル＞＞
図１１は、セッション管理テーブルの一例を示す図である。

記憶部５８は、図１１に示すセッション管理テーブルを含むセッション管理ＤＢ５００４を記憶している。セッション管理テーブルでは、通信端末１０間でコンテンツデータが通信されるセッションを識別するためのセッションＩＤ毎に、セッションの開始要求端末の端末ＩＤ、およびセッションを確立するための開始要求情報において相手先として指定された宛先端末の端末ＩＤが関連付けられて管理される。

例えば、図１１に示すセッション管理テーブルにおいて、セッションＩＤ「ｓｅ１」で識別されるセッションは、端末ＩＤが「１０ａａ」の開始要求端末（通信端末１０ａａ）と、端末ＩＤが「１０ｄｂ」の宛先端末（通信端末１０ｄｂ）との間で確立されたことを示す。

なお、図８〜図１１に示した各テーブルで管理される情報は、テーブル形式の情報としているが、これに限定されるものではなく、管理される各情報が関連付けられることができれば、テーブル形式に限定されるものではない。

図１２は、音声認識部の機能の流れの一例を示す図である。図１３は、音声分岐部の機能の流れの一例を示す図である。図６に戻り、図１２および図１３も参照しながら、管理システム５０の機能ブロックの説明に戻る。

通信部５１は、通信ネットワーク２を介して、通信端末１０または他のシステムと各種データの送受信を行う機能部である。通信部５１は、図４に示すＣＰＵ３０１によるプログラムの実行、およびネットワークＩ／Ｆ３０９によって実現される。

認証部５２は、通信部５１を介して受信された認証要求情報に含まれているユーザＩＤおよびパスワードを検索キーとし、記憶部５８の認証管理テーブル（図８参照）を検索し、認証管理テーブルに同一のユーザＩＤおよびパスワードが管理されているかを判断することによってユーザ認証を行う機能部である。認証部５２は、図４に示すＣＰＵ３０１によるプログラムの実行によって実現される。

状態管理部５３は、図９に示す端末管理テーブルの稼動状態および通信状態を管理する機能部である。状態管理部５３は、ログインの認証を要求してきた通信端末１０の稼動状態を管理すべく、端末管理テーブルに、この通信端末１０の端末ＩＤ、当該通信端末１０にログインしている参加者のユーザＩＤ、当該通信端末１０の稼動状態、および当該通信端末１０のＩＰアドレスを関連付けて記憶して管理する。

状態管理部５３は、通信端末１０のユーザによる操作入力受付部１２に対する操作によってオフ状態からオン状態になると、この通信端末１０から送られてきた電源をオンする旨の情報に基づいて、端末管理テーブルの稼動状態をオフラインからオンラインに更新する。また、状態管理部５３は、通信端末１０のユーザによる操作入力受付部１２に対する操作によってオン状態からオフ状態になると、この通信端末１０から送られてきた電源をオフする旨の情報に基づいて、端末管理テーブルの稼動状態をオンラインからオフラインに更新する。

状態管理部５３は、図４に示すＣＰＵ３０１によるプログラムの実行によって実現される。

端末抽出部５４は、ログインの認証要求した通信端末１０等、処理対象となる対象端末の端末ＩＤを検索キーとして、図１０に示すグループ管理テーブルを検索し、対象端末と通話することができる、すなわちセッションを確立することのできる宛先端末の候補（同じグループの通信端末１０）の端末ＩＤを読み出す機能部である。端末抽出部５４は、図４に示すＣＰＵ３０１によるプログラムの実行によって実現される。

端末状態取得部５５は、端末ＩＤを検索キーとして、図９に示す端末管理テーブルを検索し、端末ＩＤ毎に稼動状態および通信状態を読み出す機能部である。これにより、端末状態取得部５５は、ログインの認証要求をしてきた通信端末１０と通話することができる宛先端末の候補の稼動状態および通信状態を取得することができる。端末状態取得部５５は、図４に示すＣＰＵ３０１によるプログラムの実行によって実現される。

セッション制御部５６は、図１０に示すセッション管理テーブルに、生成したセッションＩＤ、開始要求端末の端末ＩＤおよび宛先端末の端末ＩＤを関連付けて記憶して管理する機能部である。セッション制御部５６は、通信端末１０間のセッションの確立をするための制御を行う。セッション制御部５６は、図４に示すＣＰＵ３０１によるプログラムの実行によって実現される。

記憶・読出部５７は、記憶部５８に各種テーブルに情報を記憶したり、記憶部５８に記憶された各種テーブルの情報を読み出す処理を行う機能部である。記憶・読出部５７は、図４に示すＣＰＵ３０１によるプログラムの実行によって実現される。記憶部５８は、図４に示すＲＡＭ３０３および補助記憶装置３０５のうち少なくともいずれかによって実現される。

帯域判定部６１は、通信ネットワーク２の帯域（すなわちデータ通信速度）を検出して判定を行う機能部である。例えば、帯域判定部６１は、検出した帯域が所定の閾値以上であるか否かを判定する。

帯域判定部６１は、検出した帯域に対する判定結果に応じて、通信端末１０間での通信動作に対する動作モードを切り替える。例えば、帯域判定部６１は、検出した帯域が所定の閾値以上であると判定した場合、動作モードをネットワーク帯域満足動作モード（以下、単に帯域満足動作モードと称する）に切り替える。一方、帯域判定部６１は、検出した帯域が所定の閾値未満であると判定した場合、動作モードをネットワーク帯域不足動作モード（以下、単に帯域不足動作モードと称する）に切り替える。

なお、帯域判定部６１は、実際の通信ネットワーク２の帯域を検出するものとしているが、これに限定されるものではなく、例えば、セッショが確立している通信端末１０間で大容量のデータが通信されることが見込まれると予測した場合に、動作モードを帯域不足動作モードに切り替えるような動作としてもよい。

帯域判定部６１は、図４に示すＣＰＵ３０１によるプログラムの実行によって実現される。

音声認識部６２は、通信部５１により通信端末１０から受信された参加者の音声データをテキストに変換して出力するという音声認識動作を実行する機能部である。具体的には、図１２に示すように、音声認識部６２は、まず、通信部５１により受信された参加者の音声データを入力し、当該音声データから音の最小構成単位である音素を特定する。次に、音声認識部６２は、特定した音素を辞書とマッチングして単語に変換してテキストとして出力する。実際に音声認識を使う際には、議事録の収録等の用途に使われる事があり、短い単語で使われるよりは、一定程度の長さの文章に対して使われることが多くなる。したがって、単語と単語との繋がりを正しく認識する必要があり、辞書の構造を工夫することによって、マッチングの探索の速度の効率を上げることができる。音声認識部６２は、図４に示すＣＰＵ３０１によるプログラムの実行によって実現される。

音声分析部６３は、音声認識部６２により音声データから変換されたテキストと、通信部５１により受信された音声データとの比較によって、当該音声データに対応する参加者の音声合成モデルを生成する音声分析動作を実行する機能部である。実際に発生される音声は、複雑な形状の波形となるが、その音源は比較的単純な波形としてモデル化が可能である。例えば、パルスの間隔（ピッチ周期）、パルスの大きさ、および音声再合成フィルタのフィルタ係数等で音声を表現できる。具体的には、図１３に示すように、音声分析部６３は、通信部５１により受信された音声データを入力し、音声認識部６２により認識されたテキストと比較して、符号化を行い、当該音声データに対応する参加者の音声合成モデルを生成する。このような音声合成モデルは、一度生成されれば、当該音声合成モデルに対応する参加者の音声のテキストから音声合成データを生成することができる。音声分析部６３は、図４に示すＣＰＵ３０１によるプログラムの実行によって実現される。

登録部６４は、通信部５１により受信された参加者の音声の発話方向を、後述する図２８に示す発話方向・音声合成モデル対応テーブルに、話者を識別する情報（話者識別情報）として登録する。また、登録部６４は、発話方向・音声合成モデル対応テーブルにおいて、音声分析部６３により参加者の音声のテキストおよび音声データから生成された音声合成モデルを、当該参加者に対応する発話方向と関連付けて記憶させる（登録する）。この際、登録部６４は、発話方向・音声合成モデル対応テーブルを、各拠点の通信端末１０ごとに生成する。そして、登録部６４は、帯域満足動作モード時に、発話方向および音声合成モデルが登録された発話方向・音声合成モデル対応テーブルを、当該発話方向・音声合成モデル対応テーブルに登録された発話方向に対応する参加者の拠点との通話対象となる相手拠点の通信端末１０へ、通信部５１を介して送信する。登録部６４は、図４に示すＣＰＵ３０１によるプログラムの実行によって実現される。

なお、上述の認証部５２、状態管理部５３、端末抽出部５４、端末状態取得部５５、セッション制御部５６、帯域判定部６１、音声認識部６２、音声分析部６３および登録部６４のうち少なくともいずれかは、ＡＳＩＣまたはＦＰＧＡ等のハードウェア回路によって実現されるものとしてもよい。

また、図６に示した管理システム５０の各機能部は、機能を概念的に示したものであって、このような構成に限定されるものではない。例えば、図６に示した管理システム５０で独立した機能部として図示した複数の機能部を、１つの機能部として構成してもよい。一方、図６に示した管理システム５０の１つ機能部が有する機能を複数に分割し、複数の機能部として構成するものとしてもよい。

また、図６に示した通信端末１０が有する機能部は、例えば管理システム５０で実現される場合があってもよく、管理システム５０が有する機能部は、例えば通信端末１０で実現する場合があってもよい。また、通信端末１０および管理システム５０が有する機能部は、通信端末１０および管理システム５０以外の装置が実現する場合があってもよい。例えば、管理システム５０の音声認識部６２および音声分析部６３は、各拠点の通信端末１０に入力された音声データから音声合成モデルを生成するものとしているが、これに限定されるものではなく、通信端末１０が、当該通信端末１０を利用する参加者の音声データから音声合成モデルを生成し、相手拠点の通信端末１０へ当該音声合成モデルを送信するものとしてもよい。

（コンテンツデータおよび各種管理情報の送受信の状態）
図１４は、第１の実施形態に係る通信システムにおけるコンテンツデータおよび各種管理情報を送受信するために確立されたセッションを示す図である。図１４を参照しながら、通信システム１におけるコンテンツデータおよび各種管理情報を送受信するために確立されたセッションについて説明する。

図１４に示すように、通信システム１では、開始要求端末と宛先端末Ａと宛先端末Ｂとの間で、管理システム５０を介して、各種の管理情報を送受信するための管理情報用セッションｓｅｉが確立される。さらに、開始要求端末と宛先端末Ａと宛先端末Ｂとの間で、管理システム５０を介して、画像データおよび音声データ等を送受信するためのコンテンツデータ用セッションｓｅｄが確立される。すなわち、コンテンツデータ用セッションｓｅｄが、ビデオ会議において直接的に用いられるセッションである。なお、このセッションの概念はあくまで一例であって、例えば、画像データのセッションでは、解像度ごとに分けられるものとしてもよい。

（通信端末が通話開始する前の準備段階における各管理情報の送受信処理）
図１５は、第１の実施形態に係る通信システムにおける、通信端末が通話を開始するための認証処理を含む準備段階の処理の一例を示すシーケンス図である。図１６は、宛先リストの表示例を示す図である。図１５および図１６を参照しながら、通信端末１０ａａが通話を開始する前の準備段階における各情報の送受信処理について説明する。なお、図１５では、管理情報用セッションｓｅｉによって、各種管理情報が送受信される処理が示されている。

＜ステップＳ２１＞
まず、通信端末１０ａａのユーザが、図２に示す入力装置１０８（図３に示す電源スイッチ２２２）に対する操作により電源をオンにすると、通信端末１０ａａの操作入力受付部１２が、電源オンを受け付けて、通信端末１０ａａの電源をオンにする。

＜ステップＳ２２＞
そして、通信端末１０ａａの認証要求部１９は、上述の通信端末１０ａａの電源オンを契機とし、通信部１１から通信ネットワーク２を介して管理システム５０に、ログインの認証要求を示す認証要求情報、および通信端末１０ａａのＩＰアドレスを送信する。この認証要求情報には、開始要求端末としての自端末である通信端末１０ａａを識別するための端末ＩＤ、通信端末１０ａａにログインしているユーザのユーザＩＤ、およびパスワードが含まれている。端末ＩＤ、ユーザＩＤおよびパスワードは、通信端末１０ａａの記憶・読出部１７によって記憶部１８から読み出されて、通信部１１に送られたデータである。また、通信端末１０ａａから管理システム５０へ認証要求情報が送信される際は、受信側である管理システム５０は、送信側である通信端末１０ａａのＩＰアドレスを把握することができる。

＜ステップＳ２３＞
次に、管理システム５０の認証部５２は、通信部５１を介して受信した認証要求情報に含まれているユーザＩＤおよびパスワードを検索キーとして、認証管理テーブル（図８参照）を検索し、認証管理テーブルに同一のユーザＩＤおよびパスワードが管理されているかを判断することによってユーザ認証を行う。

＜ステップＳ２４−１＞
認証部５２によって、正当な利用権限を有する通信端末１０からのログインの認証要求であると判断された場合には、管理システム５０の状態管理部５３は、端末管理テーブル（図９参照）に、通信端末１０ａａの端末ＩＤおよび端末名で示されるレコード毎に、ユーザＩＤおよび通信端末１０ａａのＩＰアドレスを関連付けて記憶する。これにより、端末管理テーブルには、通信端末１０ａａの端末ＩＤ「１０ａａ」に、ユーザＩＤ「Ａ＿１０ａａ」およびＩＰアドレス「１．２．１．３」が関連付けて管理されることになる。

＜ステップＳ２４−２＞
続いて、状態管理部５３は、通信端末１０ａａの稼動状態「オンライン」および通信状態「Ｎｏｎｅ」を設定し、端末管理テーブルに、通信端末１０ａａの端末ＩＤおよび端末名で示されるレコードに、稼動状態および通信状態を関連付けて記憶する。これにより、端末管理テーブルには、通信端末１０ａａの端末ＩＤ「１０ａａ」に、稼動状態「オンライン」および通信状態「Ｎｏｎｅ」が関連付けて管理されることになる。

＜ステップＳ２５＞
そして、管理システム５０の通信部５１は、認証部５２によって得られたユーザ認証の結果が示された認証結果情報を、通信ネットワーク２を介して、認証要求情報を送信してきた開始要求端末（通信端末１０ａａ）に送信する。本実施形態では、通信端末１０ａａが、認証部５２によって正当な利用権限を有するユーザが利用する端末であるとユーザ認証されたものとして、以下続けて説明する。

＜ステップＳ２６＞
通信端末１０ａａにおいて、正当な利用権限を有するユーザが利用する端末であるとユーザ認証された結果が示された認証結果情報を受信すると、通信部１１は、通信ネットワーク２を介して管理システム５０へ、宛先リストを要求する旨を示す宛先リスト要求情報を送信するこれにより、管理システム５０の通信部５１は、宛先リスト要求情報を受信する。

＜ステップＳ２７＞
次に、管理システム５０の端末抽出部５４は、開始要求端末（通信端末１０ａａ）の端末ＩＤ「１０ａａ」を検索キーとして、グループ管理テーブル（図１０参照）を検索し、開始要求端末が通話することができる、すなわち、開始要求端末と同じグループ（ここでは、グループＩＤ「Ｇ００１」のグループ）に属する宛先端末の候補の端末ＩＤを抽出する。また、端末抽出部５４は、抽出した端末ＩＤを検索キーとして、端末管理テーブルを検索し、この端末ＩＤに対応する端末名、すなわち宛先端末の候補の端末名を抽出する。ここでは、開始要求端末（通信端末１０ａａ）の端末ＩＤ「１０ａａ」に対応する宛先端末の候補（通信端末１０ａｂ、１０ａｃ、１０ｄｂ）のそれぞれの端末ＩＤ（「１０ａｂ」、「１０ａｃ」、「１０ｄｂ」）と、これらに対応する端末名（「日本東京事業所ＡＢ端末」、「日本東京事業所ＡＣ端末」、「アメリカワシントン事業所ＤＢ端末」）が抽出される。

＜ステップＳ２８、Ｓ２９＞
次に、管理システム５０の通信部５１は、端末抽出部５４によって抽出された宛先端末の候補の端末ＩＤおよび端末名を含む宛先リスト情報を、開始要求端末（通信端末１０ａａ）に送信する。これにより、開始要求端末（通信端末１０ａａ）では、通信部１１が宛先リスト情報を受信し、記憶・読出部１７が記憶部１８へ宛先リスト情報を記憶する。

このように、本実施形態では、各通信端末１０で宛先リスト情報を管理するのではなく、管理システム５０がすべての通信端末１０の宛先リスト情報を一元管理している。これによって、通信システム１に新たな通信端末１０が含まれるようになったり、既に含まれている通信端末１０が除外されたりする場合でも、管理システム５０側で一括して対応するため、各通信端末１０側で宛先リスト情報の変更を行う手間を省くことができる。

＜ステップＳ３０＞
また、管理システム５０の端末状態取得部５５は、端末抽出部５４によって抽出された宛先端末の候補の端末ＩＤ（「１０ａｂ」、「１０ａｃ」、「１０ｄｂ」）を検索キーとして、端末管理テーブルを検索する。そして、端末状態取得部５５は、宛先端末の候補の端末ＩＤ毎に、対応する稼動状態および通信状態を読み出すことにより、宛先端末の候補（通信端末１０ａｂ、１０ａｃ、１０ｄｂ）それぞれの稼動状態および通信状態を取得する。

＜ステップＳ３１＞
次に、通信部５１は、ステップＳ３０で使用された検索キーである端末ＩＤと、対応する宛先端末の候補の稼動状態および通信状態とを含む状態情報を、通信ネットワーク２を介して開始要求端末に送信する。具体的には、通信部５１は、例えば、検索キーとしての端末ＩＤ「１０ａｂ」と、宛先端末の候補（通信端末１０ａｂ）の稼動状態「オフライン」とを含む状態情報を、開始要求端末（通信端末１０ａａ）に送信する。なお、稼動状態が「オフライン」の場合には、状態情報には、通信状態は含まれない。また、通信部５１は、端末ＩＤ「１０ａｃ」と、宛先端末の候補（通信端末１０ａｃ）の稼動状態「オンライン」と、通信状態「Ｎｏｎｅ」とを含む状態情報等、宛先端末の候補すべてに対する状態情報それぞれを開始要求端末（通信端末１０ａａ）へ送信する。

＜ステップＳ３２＞
次に、開始要求端末（通信端末１０ａａ）の記憶・読出部１７は、順次、管理システム５０から受信した状態情報を記憶部１８に記憶する。したがって、開始要求端末（通信端末１０ａａ）は、宛先端末の候補の状態情報を受信することで、通話することができる宛先端末の候補の現時点のそれぞれの稼動状態および通信状態を取得することができる。

＜ステップＳ３３＞
次に、開始要求端末（通信端末１０ａａ）の表示制御部１４は、記憶部１８に記憶されている宛先リスト情報、および宛先端末の候補の状態情報に基づいて、宛先端末の候補の稼動状態および通信状態を反映させた宛先リストを作成する。そして、表示制御部１４は、図１に示すディスプレイ１２０ａａに、所定のタイミングで図１６に示すような宛先リストを表示する。

図１６に示すように、ディスプレイ１２０ａａに表示される宛先リストは、宛先端末の候補の端末ＩＤ１１００−２と、端末名１１００−３と、状態情報を反映させたアイコン１１００−４ａ、１１００−４ｂ等を含む。アイコンとしては、オフラインで通話できないことを示すオフラインアイコン１１００−４ａと、オンラインで通話可能であることを示す通話可能アイコン１１００−４ｂと、がある。なお、オンラインで通話中であることを示す通話中アイコン等があってもよい。

表示制御部１４は、宛先端末の候補の稼動状態が「オンライン」であり、通信状態が「Ｎｏｎｅ」である場合には、この宛先端末の候補に対し、通話可能アイコン１１００−４ｂを割り当てる。また、表示制御部１４は、宛先端末の候補の稼動状態が「オフライン」である場合には、この宛先端末の候補に対し、オフラインアイコン１１００−４ａを割り当てる。なお、表示制御部１４は、宛先端末の候補の稼動状態が「オンライン」であり、通信状態が「Ｎｏｎｅ」以外である場合には、この宛先端末の候補に対し、通話中アイコンを割り当てればよい。

なお、他の通信端末１０でも、ステップＳ２１と同様に、ユーザが図２に示す入力装置１０８（図３に示す電源スイッチ２２２）を介して電源をオンにすると、当該通信端末１０の操作入力受付部１２が、電源オンを受け付けて、上述のステップＳ２２〜Ｓ３３の処理と同様の処理が行われる。

（通信端末が他の通信端末との通信の開始を要求する場合の処理）
図１７は、第１の実施形態に係る通信システムにおける通話の開始を要求する処理の一例を示すシーケンス図である。図１７を参照しながら、通信端末１０が他の通信端末１０との通信の開始を要求する場合の処理を説明する。なお、図１７では、すべて管理情報用セッションｓｅｉによって、各種管理情報が送受信される処理が示されている。

図１７においては、図１５においてログインが許可された通信端末１０ａａが、開始要求情報を送信する例、すなわち、通信端末１０ａａが開始要求端末として動作する例について説明する。開始要求端末としての通信端末１０ａａは、図１５のステップＳ３１で受信した宛先端末の候補の状態情報に基づいて、宛先端末の候補のうち、稼動状態が「オンライン」であり、通信状態が「Ｎｏｎｅ」である通信端末１０のうち少なくとも１つの通信端末１０と通話を行うことができる。例えば、開始要求端末（通信端末１０ａａ）は、宛先端末の候補のうち、図１５のステップＳ３１によって受信した状態情報により、稼動状態が「オンライン」であり、通信状態が「Ｎｏｎｅ」である通信端末１０ｄｂと通話を行うことができる。そこで、以下では、開始要求端末（通信端末１０ａａ）のユーザが、宛先端末（通信端末１０ｄｂ）と通話を開始することを選択した場合について説明する。

なお、図１７に示す処理が開始される前の状態において、開始要求端末としての通信端末１０ａａのディスプレイ１２０ａａには、図１６に示す宛先リストが表示されているものとする。そして、開始要求端末のユーザは、宛先リストから所望の通話相手（宛先端末）を選択することができる。

＜ステップＳ４１＞
まず、開始要求端末のユーザは、通信端末１０ａａの入力装置１０８（または接触センサ２１６、選択スイッチ２２３）を操作して宛先端末（通信端末１０ｄｂ）を選択する。

＜ステップＳ４２＞
すると、通信端末１０ａａの通信部１１は、開始要求端末（通信端末１０ａａ）の端末ＩＤ「１０ａａ」、および宛先端末（通信端末１０ｄｂ）の端末ＩＤ「１０ｄｂ」を含む開始要求情報を、開始要求端末のＩＰアドレスと共に管理システム５０へ送信する。これにより、管理システム５０の通信部５１は、開始要求情報を受信すると共に、送信元である開始要求端末（通信端末１０ａａ）のＩＰアドレス「１．２．１．３」を把握することになる。

＜ステップＳ４３＞
そして、状態管理部５３は、開始要求情報に含まれる開始要求端末（通信端末１０ａａ）の端末ＩＤ「１０ａａ」および宛先端末（通信端末１０ｄｂ）の端末ＩＤ「１０ｄｂ」に基づき、端末管理ＤＢ５００２の端末管理テーブルにおいて、端末ＩＤ「１０ａａ」および端末ＩＤ「１０ｄｂ」がそれぞれ含まれるレコードの通信状態のフィールド部分を変更する。具体的には、状態管理部５３は、端末管理テーブルの端末ＩＤ「１０ａａ」が含まれるレコードの通信状態を「Ｃａｌｌｉｎｇ」に変更する。同様に、状態管理部５３は、端末管理テーブルの端末ＩＤ「１０ｄｂ」が含まれるレコードの通信状態を「Ｒｉｎｇｉｎｇ」に変更する。

＜ステップＳ４４＞
そして、管理システム５０のセッション制御部５６は、開始要求端末（通信端末１０ａａ）によって要求された宛先端末との間の通信を実行するためのセッション（コンテンツデータ用セッションｓｅｄ）を識別するためのセッションＩＤ「ｓｅ１」を生成する。セッション制御部５６は、セッションＩＤを生成すると、セッションＩＤ「ｓｅ１」をセッション管理テーブル（図１１参照）に記憶する。

＜ステップＳ４５＞
続いて、セッション制御部５６は、セッション管理テーブルにおいて、セッションＩＤ「ｓｅ１」が含まれるレコードの開始要求端末の端末ＩＤおよび宛先端末の端末ＩＤのフィールド部分に、それぞれ開始要求端末の端末ＩＤ「１０ａａ」、宛先端末の端末ＩＤ「１０ｄｂ」を記憶して管理する。

＜ステップＳ４６＞
次に、通信部５１は、通信ネットワーク２を介して、開始要求端末（通信端末１０ａａ）へ、セッション制御部５６により生成されたセッションＩＤを送信する。

＜ステップＳ４７＞
また、通信部５１は、開始要求端末の端末ＩＤ「１０ａａ」と、セッションＩＤ「ｓｅ１」とを含む開始要求情報と、管理システム５０のＩＰアドレスとを宛先端末へ送信する。これにより、宛先端末（通信端末１０ｄｂ）は、開始要求情報を受信すると共に、管理システム５０のＩＰアドレス「１．１．１．２」を把握することになる。

（宛先端末が開始要求端末との間で通信開始を許可する応答を受け付けた場合の処理）
図１８は、第１の実施形態に係る通信システムにおける通話の開始の要求を許可する処理の一例を示すシーケンス図である。図１９は、開始要求受付画面の表示例を示す図である。図１８および図１９を参照しながら、開始要求情報を受信した宛先端末のユーザが、入力装置１０８（または、接触センサ２１６、選択スイッチ２２３）を操作することにより、開始要求端末との間の通信の開始（セッションの確立）を許可する旨の応答が受け付けられた場合の処理について説明する。

＜ステップＳ５１＞
図１８に示す送受信処理の開始時には、宛先端末（通信端末１０ｄｂ）のディスプレイ２１４には、開始要求情報を受信したことを示す開始要求受付画面１２００−１（図１９参照）が表示されている。

図１９に示す開始要求受付画面１２００−１は、開始要求情報を受信した旨を示し、開始要求端末との間の通信の開始（セッションの確立）を許可するか否かを指定するためのユーザインターフェースである。ユーザは、開始要求受付画面１２００−１を閲覧することにより、開始要求を受信したことを確認することができる。開始要求受付画面１２００−１は、セッションの確立を許可するための「はい」ボタン１２００−２と、セッションの確立を許可しない選択をするための「いいえ」ボタン１２００−３と、を含む。

＜ステップＳ５２＞
宛先端末（通信端末１０ｄｂ）の入力装置１０８（または、接触センサ２１６、選択スイッチ２２３）の操作によって「はい」ボタン１２００−２が押下された場合、操作入力受付部１２は、開始要求端末（通信端末１０ａａ）との間の通信の開始（セッション確立）を許可する旨の応答を受け付ける。

＜ステップＳ５３＞
次に、宛先端末の通信部１１は、宛先端末の端末ＩＤ「１０ｄｂ」、開始要求端末の端末ＩＤ「１０ａａ」、およびセッションＩＤ「ｓｅ１」が含まれる開始応答情報を、管理システム５０へ送信する。

＜ステップＳ５４＞
管理システム５０の通信部５１が開始応答情報を受信すると、状態管理部５３は、開始応答情報に含まれる開始要求端末の端末ＩＤ「１０ａａ」および宛先端末の端末ＩＤ「１０ｄｂ」に基づき、端末管理テーブルにおいて、端末ＩＤ「１０ａａ」および端末ＩＤ「１０ｄｂ」がそれぞれ含まれるレコードの通信状態のフィールド部分を変更する。具体的には、状態管理部５３は、端末管理テーブルの端末ＩＤ「１０ａａ」が含まれるレコードの通信状態を「Ａｃｃｅｐｔｅｄ」に変更する。同様に、状態管理部５３は、端末管理テーブルの端末ＩＤ「１０ｄｂ」が含まれるレコードの通信状態も「Ａｃｃｅｐｔｅｄ」に変更する。

＜ステップＳ５５＞
次に、通信部５１は、宛先端末（通信端末１０ｄｂ）の端末ＩＤ「１０ｄｂ」、およびセッションＩＤ「ｓｅ１」が含まれる開始応答情報を開始要求端末（通信端末１０ａａ）へ送信する。

＜ステップＳ５６＞
開始要求端末は、この開始応答情報を受信すると、通信部１１によってセッションＩＤ「ｓｅ１」を管理システム５０に送信することにより、セッションを確立させる。

＜ステップＳ５７＞
一方、宛先端末は、通信部１１によってセッションＩＤ「ｓｅ１」を管理システム５０に送信することにより、セッションを確立させる。

なお、上述の図１５における同じグループの通信端末１０を識別する端末ＩＤを抽出する動作、ならびに図１７および図１８に示す通信端末１０ａａと通信端末１０ｄｂとの間でセッションを確立させるための動作においては、端末ＩＤを利用した動作ではなく、各通信端末にログインしているユーザのユーザＩＤ（例えばメールアドレス等）を利用した動作であってもよい。

（通信システムの全体動作の流れの概略）
図２０は、第１の実施形態に係る通信システムにおいて帯域満足時のデータの流れおよび処理の概略を説明する図である。図２１は、第１の実施形態に係る通信システムにおいて帯域不足時のデータの流れおよび処理の概略を説明する図である。図２０および図２１を参照しながら、本実施形態に係る通信システム１の全体動作の流れの概略について説明する。なお、図２０および図２１においては、通信端末１０ａａと通信端末１０ｄｂとの間でセッションが確立し、通話ができる状態になっているものとし、通信端末１０ａａを利用する参加者はＡ、Ｂであり、通信端末１０ｄｂを利用する参加者はＣ、Ｄであるものとする。

図２０に示すように、通信ネットワーク２のトラフィックが混んでおらず、管理システム５０の帯域判定部６１により帯域が所定の閾値以上と判定（すなわち帯域が十分であると判定）され、帯域満足動作モードに切り替えられている場合、通信端末１０ａａと通信端末１０ｄｂとの間で、映像データおよび音声データがやり取りされる。また、通信端末１０ａａの通信部１１は、発話方向特定部２０により特定された参加者Ａ、Ｂの音声の発話方向（話者識別情報の一例）を、管理システム５０を介して通信端末１０ｄｂへ送信する。同様に、通信端末１０ｄｂの通信部１１は、発話方向特定部２０により特定された参加者Ｃ、Ｄの音声の発話方向（話者識別情報の一例）を、管理システム５０を介して通信端末１０ａａへ送信する。

さらに、管理システム５０の音声認識部６２は、通信端末１０ａａから受信した参加者Ａ、Ｂの音声データをテキストに変換し、音声分析部６３は、当該テキストと、当該音声データとの比較から参加者Ａ、Ｂの音声合成モデルを生成する。そして、登録部６４は、発話方向・音声合成モデル対応テーブルにおいて、音声分析部６３により参加者Ａ、Ｂの音声のテキストおよび音声データから生成された音声合成モデルを、当該参加者Ａ、Ｂに対応する発話方向と関連付けて記憶させる（登録する）。そして、登録部６４は、発話方向および音声合成モデルが登録された発話方向・音声合成モデル対応テーブルを、当該発話方向・音声合成モデル対応テーブルに登録された発話方向に対応する参加者Ａ、Ｂの拠点との通話対象となる相手拠点の通信端末１０ｄｂへ、通信部５１を介して送信する。通信端末１０ｄｂの記憶・読出部１７は、管理システム５０から通信部１１を介して受信した参加者Ａ、Ｂの発話方向・音声合成モデル対応テーブルを、記憶部１８に記憶させる。

同様に、管理システム５０の音声認識部６２は、通信端末１０ｄｂから受信した参加者Ｃ、Ｄの音声データをテキストに変換し、音声分析部６３は、当該テキストと、当該音声データとの比較から参加者Ｃ、Ｄの音声合成モデルを生成する。そして、登録部６４は、発話方向・音声合成モデル対応テーブルにおいて、音声分析部６３により参加者Ｃ、Ｄの音声のテキストおよび音声データから生成された音声合成モデルを、当該参加者Ｃ、Ｄに対応する発話方向と関連付けて記憶させる（登録する）。そして、登録部６４は、発話方向および音声合成モデルが登録された発話方向・音声合成モデル対応テーブルを、当該発話方向・音声合成モデル対応テーブルに登録された発話方向に対応する参加者Ｃ、Ｄの拠点との通話対象となる相手拠点の通信端末１０ａａへ、通信部５１を介して送信する。通信端末１０ａａの記憶・読出部１７は、管理システム５０から通信部１１を介して受信した参加者Ｃ、Ｄの発話方向・音声合成モデル対応テーブルを、記憶部１８に記憶させる。

すなわち、帯域満足動作モードでは、通常の映像データおよび音声データが、通信端末１０間でやり取りされると共に、管理システム５０において音声データから音声合成モデルを生成し、帯域不足動作モードで使用するために当該音声合成モデルを相手拠点へ送信しておくことになる。

一方、図２１に示すように、通信ネットワーク２のトラフィックが混んでいて、管理システム５０の帯域判定部６１により帯域が所定の閾値未満と判定（すなわち帯域が不十分であると判定）され、帯域不足動作モードに切り替えられている場合、通信端末１０ａａと通信端末１０ｄｂとの間では、静止画データおよびテキストデータがやり取りされる。すなわち、通信端末１０ａａの通信部１１は、テキスト化部２１により参加者Ａ、Ｂの音声データから変換されたテキスト（テキストデータ）を、管理システム５０を介して通信端末１０ｄｂへ送信する。また、通信部１１は、テキストと共に、撮像部１３により撮像された静止画データ、おおよび、発話方向特定部２０により特定された参加者Ａ、Ｂの音声の発話方向（話者識別情報の一例）を、管理システム５０を介して通信端末１０ｄｂへ送信する。同様に、通信端末１０ｄｂの通信部１１は、テキスト化部２１により参加者Ｃ、Ｄの音声データから変換されたテキスト（テキストデータ）を、管理システム５０を介して通信端末１０ａａへ送信する。また、通信部１１は、テキストと共に、撮像部１３により撮像された静止画データ、おおよび、発話方向特定部２０により特定された参加者Ｃ、Ｄの音声の発話方向（話者識別情報の一例）を、管理システム５０を介して通信端末１０ａａへ送信する。

そして、通信端末１０ａａのモデル特定部２２は、記憶部１８に記憶された発話方向・音声合成モデル対応テーブルを参照し、通信端末１０ｄｂから通信部１１を介してテキスト共に受信した参加者ＣまたはＤの発話方向から、当該参加者ＣまたはＤに対応する音声合成モデルを特定する。次に、通信端末１０ａａの音声合成部２３は、モデル特定部２２により特定された音声合成モデルと、通信部１１により受信された相手拠点の参加者ＣまたはＤの音声のテキストとを用いて音声の合成を行い、当該参加者ＣまたはＤの音声合成データを得る。そして、通信端末１０ａａの音声出力部１６は、音声合成部２３により合成された音声合成データをスピーカ１１４ｂ（スピーカ２４２）から音声として出力させる。

同様に、通信端末１０ｄｂのモデル特定部２２は、記憶部１８に記憶された発話方向・音声合成モデル対応テーブルを参照し、通信端末１０ａａから通信部１１を介してテキスト共に受信した参加者ＡまたはＢの発話方向から、当該参加者ＡまたはＢに対応する音声合成モデルを特定する。次に、通信端末１０ｄｂの音声合成部２３は、モデル特定部２２により特定された音声合成モデルと、通信部１１により受信された相手拠点の参加者ＡまたはＢの音声のテキストとを用いて音声の合成を行い、当該参加者ＡまたはＢの音声合成データを得る。そして、通信端末１０ｄｂの音声出力部１６は、音声合成部２３により合成された音声合成データをスピーカ１１４ｂ（スピーカ２４２）から音声として出力させる。

このように、帯域不足動作モードでは、通信端末１０では帯域満足動作モード時に管理システム５０から取得しておいた発話方向・音声合成モデル対応テーブルに登録されている相手拠点の参加者の音声合成モデルを用いて、受信したテキストと音声合成を行い、音声合成データを得て、スピーカ１１４ｂ（スピーカ２４２）から音声として出力させるものとしている。これによって、通信端末１０間で通信ネットワーク２を介して通信されるデータは、静止画データおよびテキストデータという、映像データおよび音声データと比較してデータ量が大幅に小さいデータであるため、通信ネットワーク２のトラフィックを逼迫することを回避することができる。さらに、通信端末１０で合成される音声合成データは、相手拠点の参加者の音声データに基づいて生成された音声合成モデルを使用して作成されるので、当該参加者の音声に似た音声を生成することができ、違和感のないコミュニケーションを実現することができる。

（管理システムの帯域判定処理）
図２２は、第１の実施形態に係る管理システムの帯域判定処理の流れの一例を示すフローチャートである。図２２を参照しながら、本実施形態に係る管理システム５０の帯域判定処理の流れについて説明する。

＜ステップＳ６１＞
管理システム５０の帯域判定部６１は、通信ネットワーク２の帯域（すなわちデータ通信速度）を検出して、帯域が所定の閾値以上であるか否かを判定する。帯域が所定の閾値以上である場合（ステップＳ６１：Ｙｅｓ）、ステップＳ６２へ移行し、帯域が所定の閾値未満である場合（ステップＳ６１：Ｎｏ）、ステップＳ６３へ移行する。

＜ステップＳ６２＞
帯域判定部６１は、検出した帯域が所定の閾値以上であると判定した場合、動作モードを帯域満足動作モードに切り替える。そして、ステップＳ６４へ移行する。

＜ステップＳ６３＞
帯域判定部６１は、検出した帯域が所定の閾値未満であると判定した場合、動作モードを帯域不足動作モードに切り替える。そして、ステップＳ６４へ移行する。

＜ステップＳ６４＞
ビデオ会議が継続している場合（ステップＳ６４：Ｎｏ）、ステップＳ６１へ戻り、帯域判定部６１は、通信ネットワーク２の帯域の検出および判定を継続する。一方、ビデオ会議が終了した場合（ステップＳ６４：Ｙｅｓ）、管理システム５０は帯域判定処理を終了する。

（管理システムの音声合成モデル生成処理）
図２３は、第１の実施形態に係る管理システムの音声合成モデル生成処理の流れの一例を示すフローチャートである。図２３を参照しながら、本実施形態に係る管理システム５０の音声合成モデル生成処理の流れについて説明する。なお、図２３に示す音声合成モデル生成処理は、帯域判定部６１により帯域満足動作モードに切り替えられている場合に実行される。

＜ステップＳ７１＞
管理システム５０の通信部５１は、各拠点の通信端末１０から映像データ、音声データ、および当該通信端末１０の発話方向特定部２０により特定された発話方向を受信する。そして、ステップＳ７２へ移行する。

＜ステップＳ７２＞
管理システム５０の音声認識部６２は、通信部５１により通信端末１０から受信された参加者の音声データをテキストに変換する音声認識動作を実行する。そして、ステップＳ７３へ移行する。

＜ステップＳ７３＞
管理システム５０の音声分析部６３は、音声認識部６２により変換されたテキストと、通信部５１により受信された音声データとの比較によって、当該音声データに対応する参加者の音声合成モデルを生成する音声分析動作を実行する。そして、ステップＳ７４へ移行する。

＜ステップＳ７４＞
管理システム５０の登録部６４は、発話方向・音声合成モデル対応テーブルにおいて、音声分析部６３により参加者の音声のテキストおよび音声データから生成された音声合成モデルを、当該参加者に対応する発話方向と関連付けて記憶させる（登録する）。この際、登録部６４は、発話方向・音声合成モデル対応テーブルを、各拠点の通信端末１０ごとに生成する。そして、登録部６４は、帯域満足動作モード時に、発話方向および音声合成モデルが登録された発話方向・音声合成モデル対応テーブル（すなわち各参加者の音声合成モデルを含む）を、当該発話方向・音声合成モデル対応テーブルに登録された発話方向に対応する参加者の拠点との通話対象となる相手拠点の通信端末１０へ、通信部５１を介して送信する。以上で音声合成モデル生成処理を終了する。

（管理システムのコンテンツ中継処理）
図２４は、第１の実施形態に係る管理システムのコンテンツ中継処理の流れの一例を示すフローチャートである。図２４を参照しながら、本実施形態に係る管理システム５０のコンテンツ中継処理の流れについて説明する。なお、図２４に示すコンテンツ中継処理が実行されるにあたって、帯域判定部６１により帯域不足動作モードに切り替えられているものとする。

＜ステップＳ８１＞
管理システム５０の通信部５１は、特定の通信端末１０から静止画データを受信すると、当該通信端末１０の相手拠点である通信端末１０へ、当該静止画データを中継して送信する。そして、ステップＳ８２へ移行する。

＜ステップＳ８２＞
通信部５１は、特定の通信端末１０から当該通信端末１０により変換されたテキストデータ、および特定された発話方向を受信すると、当該通信端末１０の相手拠点となる通信端末１０へ、当該テキストデータおよび発話方向を中継して送信する。

以上のステップＳ８１、Ｓ８２が繰り返されることによって、帯域不足動作モード時の管理システム５０によるコンテンツ中継処理が実行される。

（通信端末のコンテンツ送受信処理）
図２５は、第１の実施形態に係る通信端末のコンテンツ送受信処理の流れの一例を示すフローチャートである。図２５を参照しながら、本実施形態に係る通信端末１０のコンテンツ送受信処理の流れについて説明する。なお、図２５に示すコンテンツ送受信処理が実行されるにあたって、管理システム５０の帯域判定部６１により帯域満足動作モードに切り替えられているものとする。

＜ステップＳ９１＞
特定の通信端末１０の通信部１１は、音声入力部１５により参加者の音声データが入力されると、当該音声データを、相手拠点の通信端末１０へ送信する。また、通信部１１は、撮像部１３により撮影された映像データも相手拠点の通信端末１０へ送信する。

また、通信部１１により相手拠点の通信端末１０から音声データを受信すると、特定の通信端末１０の音声出力部１６は、当該音声データをスピーカ１１４ｂ（スピーカ２４２）から音声として出力（再生）させる。また、通信部１１により相手拠点の通信端末１０から映像データを受信すると、通信端末１０の表示制御部１４は、ディスプレイ１２０（ディスプレイ２１４）に対して当該映像データを表示させる。そして、ステップＳ９２へ移行する。

＜ステップＳ９２＞
特定の通信端末１０の通信部１１は、管理システム５０から相手拠点の参加者の音声合成モデルを受信する。具体的には、通信部１１は、相手拠点の参加者の音声合成モデルを含む発話方向・音声合成モデル対応テーブル（後述の図２８参照）を受信する。特定の通信端末１０の記憶・読出部１７は、通信部１１により受信された発話方向・音声合成モデル対応テーブルを、記憶部１８に記憶させる。

以上のステップＳ９１、Ｓ９２が繰り返されるによって、帯域満足動作モード時の通信端末１０によるコンテンツ送受信処理が実行される。

（通信端末の音声合成処理）
図２６は、第１の実施形態に係る通信端末の音声合成処理の流れの一例を示すフローチャートである。図２６を参照しながら、本実施形態に係る通信端末１０の音声合成処理の流れについて説明する。なお、図２６に示す音声合成処理が実行されるにあたって、管理システム５０の帯域判定部６１により帯域不足動作モードに切り替えられているものとする。

＜ステップＳ１０１＞
特定の通信端末１０の通信部１１は、撮像部１３により撮像された静止画データを、相手拠点の通信端末１０へ送信する。また、通信部１１により相手拠点の通信端末１０から静止画データを受信すると、特定の通信端末１０の表示制御部１４は、ディスプレイ１２０（ディスプレイ２１４）に対して当該静止画データを表示させる。なお、帯域不足動作モードの場合、常時、静止画データを送受信する必要はなく、例えば、一定時間毎に、静止画データを送受信するものとしてもよい。そして、ステップＳ１０２へ移行する。

＜ステップＳ１０２＞
特定の通信端末１０の発話方向特定部２０は、音声入力部１５により入力された音声信号に基づいて、音声方向（発話方向）を特定する。また、通信端末１０のテキスト化部２１は、音声入力部１５により入力された参加者の音声データをテキストに変換して出力する。そして、特定の通信端末１０の通信部１１は、発話方向およびテキストを、相手拠点の通信端末１０へ送信する。

また、特定の通信端末１０の通信部１１は、相手拠点の通信端末１０から発話方向およびテキストを受信する。そして、ステップＳ１０３へ移行する。

＜ステップＳ１０３＞
また、通信部１１により相手拠点の通信端末１０から発話方向およびテキストを受信すると、特定の通信端末１０のモデル特定部２２は、記憶部１８に記憶されている発話方向・音声合成モデル対応テーブルを参照し、相手拠点の参加者の音声のテキストと共に受信された発話方向から、当該参加者に対応する音声合成モデルを特定する。そして、ステップＳ１０４へ移行する。

＜ステップＳ１０４＞
特定の通信端末１０の音声合成部２３は、モデル特定部２２により特定された音声合成モデルと、通信部１１により受信された相手拠点の参加者の音声のテキストとを用いて音声の合成を行い、当該参加者の音声合成データを得る。そして、特定の通信端末１０の音声出力部１６は、当該音声合成データをスピーカ１１４ｂ（スピーカ２４２）から音声として出力（再生）させる。

以上のステップＳ１０１〜Ｓ１０４が繰り返されるによって、帯域不足動作モード時の通信端末１０による音声合成処理が実行される。

（通信システムの全体動作の流れの詳細）
図２７は、第１の実施形態に係る通信システムの全体動作の流れの一例を示す図である。図２８は、発話方向・音声合成モデル対応テーブルの一例を示す図である。図２７および図２８を参照しながら、本実施形態に係る通信システム１の全体動作の流れの詳細について説明する。なお、図２７の例では、通信端末１０ａａと通信端末１０ｄｂとの間でセッションが確立されているものとする。

＜ステップＳ１１１＞
管理システム５０の帯域判定部６１は、通信ネットワーク２の帯域（すなわちデータ通信速度）を検出して、帯域が所定の閾値以上であるか否かを判定する。ここでは、帯域判定部６１によって帯域が所定の閾値以上であると判定され、動作モードが帯域満足動作モードに切り替えられたものとする。

＜ステップＳ１１２、Ｓ１１３＞
帯域判定部６１は、通信部５１を介して、通信端末１０ａａおよび通信端末１０ｄｂに、動作モードが帯域満足動作モードであることを通知する。

＜ステップＳ１１４、Ｓ１１５＞
通信端末１０ａａの通信部１１は、音声入力部１５により参加者の音声データが入力されると、当該音声データを、管理システム５０へ送信する。また、通信部１１は、撮像部１３により撮影された映像データも、管理システム５０へ送信する。さらに、通信部１１は、発話方向特定部２０により特定された参加者の発話方向も、管理システム５０へ送信する。管理システム５０の通信部５１は、通信端末１０ａａから受信した映像データ、音声データ、および発話方向を、通信端末１０ｄｂへ転送（中継）する。

＜ステップＳ１１６、Ｓ１１７＞
通信端末１０ｄｂの通信部１１は、音声入力部１５により参加者の音声データが入力されると、当該音声データを、管理システム５０へ送信する。また、通信部１１は、撮像部１３により撮影された映像データも、管理システム５０へ送信する。さらに、通信部１１は、発話方向特定部２０により特定された参加者の発話方向も、管理システム５０へ送信する。管理システム５０の通信部５１は、通信端末１０ｄｂから受信した映像データ、音声データ、および発話方向を、通信端末１０ａａへ転送（中継）する。

＜ステップＳ１１８、Ｓ１１９＞
管理システム５０の音声認識部６２は、通信部５１により通信端末１０ａａ、１０ｄｂから受信された各参加者の音声データをテキストに変換する音声認識動作を実行する。そして、管理システム５０の音声分析部６３は、音声認識部６２により変換されたテキストと、通信部５１により受信された音声データとの比較によって、当該音声データに対応する参加者の音声合成モデルを生成する音声分析動作を実行する。

そして、管理システム５０の登録部６４は、音声分析部６３により参加者の音声のテキストおよび音声データから生成された音声合成モデルを、当該参加者に対応する発話方向と関連付けて、図２８に示す発話方向・音声合成モデル対応テーブルに記憶させる（登録する）。この際、登録部６４は、発話方向・音声合成モデル対応テーブルを、各拠点の通信端末１０ごと、すなわち、通信端末１０ａａおよび通信端末１０ｄｂそれぞれに対して生成する。

図２８に示すように、発話方向・音声合成モデル対応テーブルでは、話者（参加者）を識別する話者識別情報として、各通信端末１０で特定される話者の発話方向を登録し、各話者に対応する音声合成モデルを、当該発話方向と関連付けて登録される。例えば、図２８に示す発話方向・音声合成モデル対応テーブルでは、発話方向が「９０°」として特定された参加者に対応する音声合成モデルは「モデル１」であることが示されている。

＜ステップＳ１２０、Ｓ１２１＞
そして、登録部６４は、発話方向および音声合成モデルが登録された発話方向・音声合成モデル対応テーブル（すなわち各参加者の音声合成モデルを含む）を、当該発話方向・音声合成モデル対応テーブルに登録された発話方向に対応する参加者の拠点との通話対象となる相手拠点の通信端末１０へ、通信部５１を介して送信する。すなわち、登録部６４は、通信端末１０ａａの参加者の音声合成モデルが登録された発話方向・音声合成モデル対応テーブルを、相手拠点の通信端末１０ｄｂへ送信し、通信端末１０ｄｂの参加者の音声合成モデルが登録された発話方向・音声合成モデル対応テーブルを、相手拠点の通信端末１０ａａへ送信する。

すなわち、帯域満足動作モードでは、通常の映像データおよび音声データが、通信端末１０間でやり取りされると共に、管理システム５０において各参加者の音声データから音声合成モデルを生成し、帯域不足動作モードで使用するために当該音声合成モデルを、互いの相手拠点へ送信しておくことになる。

＜ステップＳ１２２＞
また、管理システム５０の帯域判定部６１は、通信ネットワーク２の帯域（すなわちデータ通信速度）を検出して、帯域が所定の閾値以上であるか否かを判定し、ここでは、帯域判定部６１によって帯域が所定の閾値未満であると判定され、動作モードが帯域不足動作モードに切り替えられたものとする。

＜ステップＳ１２３、Ｓ１２４＞
帯域判定部６１は、通信部５１を介して、通信端末１０ａａおよび通信端末１０ｄｂに、動作モードが帯域不足動作モードであることを通知する。

＜ステップＳ１２５、Ｓ１２６＞
通信端末１０ａａの通信部１１は、撮像部１３により撮影された静止画データを、管理システム５０へ送信する。管理システム５０の通信部５１は、通信端末１０ａａから受信した静止画データを、通信端末１０ｄｂへ転送（中継）する。

＜ステップＳ１２７、Ｓ１２８＞
通信端末１０ｄｂの通信部１１は、撮像部１３により撮影された静止画データを、管理システム５０へ送信する。管理システム５０の通信部５１は、通信端末１０ｄｂから受信した静止画データを、通信端末１０ａａへ転送（中継）する。

＜ステップＳ１２９＞
通信端末１０ａａのテキスト化部２１は、音声入力部１５により入力された参加者の音声データをテキストに変換して出力する。

＜ステップＳ１３０、Ｓ１３１＞
通信端末１０ａａの発話方向特定部２０は、音声入力部１５により入力された音声信号に基づいて、音声方向（発話方向）を特定する。そして、通信端末１０ａａの通信部１１は、発話方向およびテキストを、管理システム５０へ送信する。管理システム５０の通信部５１は、通信端末１０ａａから受信した発話方向およびテキストを、通信端末１０ｄｂへ転送（中継）する。

＜ステップＳ１３２、Ｓ１３３＞
通信端末１０ｄｂの通信部１１により通信端末１０ａａから発話方向およびテキストを受信すると、通信端末１０ｄｂのモデル特定部２２は、記憶部１８に記憶されている発話方向・音声合成モデル対応テーブルを参照し、相手拠点の参加者の音声のテキストと共に受信された発話方向から、当該参加者に対応する音声合成モデルを特定する。次に、通信端末１０ｄｂの音声合成部２３は、モデル特定部２２により特定された音声合成モデルと、通信部１１により受信された相手拠点の参加者の音声のテキストとを用いて音声の合成を行い、当該参加者の音声合成データを得る。そして、通信端末１０ｄｂの音声出力部１６は、当該音声合成データをスピーカ１１４ｂ（スピーカ２４２）から音声として出力（再生）させる。

＜ステップＳ１３４＞
通信端末１０ｄｂのテキスト化部２１は、音声入力部１５により入力された参加者の音声データをテキストに変換して出力する。

＜ステップＳ１３５、Ｓ１３６＞
通信端末１０ｄｂの発話方向特定部２０は、音声入力部１５により入力された音声信号に基づいて、音声方向（発話方向）を特定する。そして、通信端末１０ｄｂの通信部１１は、発話方向およびテキストを、管理システム５０へ送信する。管理システム５０の通信部５１は、通信端末１０ｄｂから受信した発話方向およびテキストを、通信端末１０ａａへ転送（中継）する。

＜ステップＳ１３７、Ｓ１３８＞
通信端末１０ａａの通信部１１により通信端末１０ｄｂから発話方向およびテキストを受信すると、通信端末１０ａａのモデル特定部２２は、記憶部１８に記憶されている発話方向・音声合成モデル対応テーブルを参照し、相手拠点の参加者の音声のテキストと共に受信された発話方向から、当該参加者に対応する音声合成モデルを特定する。次に、通信端末１０ａａの音声合成部２３は、モデル特定部２２により特定された音声合成モデルと、通信部１１により受信された相手拠点の参加者の音声のテキストとを用いて音声の合成を行い、当該参加者の音声合成データを得る。そして、通信端末１０ａａの音声出力部１６は、当該音声合成データをスピーカ１１４ｂ（スピーカ２４２）から音声として出力（再生）させる。

以上のステップＳ１１１〜Ｓ１３８の流れによって、本実施形態に係る通信システム１の全体動作が行われる。なお、各ステップの順番については図２７で示した順番に限定されるものではない。例えば、ステップＳ１１４、Ｓ１１５の通信端末１０ａａの音声データおよび映像データが通信端末１０ｄｂへ送信される動作が、ステップＳ１１６、Ｓ１１７の通信端末１０ｄｂの音声データおよび映像データが通信端末１０ａａへ送信される動作よりも順番が先になっているが、これが逆であってもよいのは言うまでもない。

以上のように、本実施形態に係る通信システム１では、帯域不足動作モードにおいて、通信端末１０では帯域満足動作モード時に管理システム５０から取得しておいた発話方向・音声合成モデル対応テーブルに登録されている相手拠点の参加者の音声合成モデルを用いて、受信したテキストと音声合成を行い、音声合成データを得て、スピーカ１１４ｂ（スピーカ２４２）から音声として出力させるものとしている。これによって、通信端末１０間で通信ネットワーク２を介して通信されるデータは、静止画データおよびテキストデータという、映像データおよび音声データと比較してデータ量が大幅に小さいデータであるため、通信ネットワーク２のトラフィックを逼迫することを回避することができる。さらに、通信端末１０で合成される音声合成データは、相手拠点の参加者の音声データに基づいて生成された音声合成モデルを使用して作成されるので、当該参加者の音声に似た音声を生成することができ、違和感のないコミュニケーションを実現することができる。

［第２の実施形態］
第２の実施形態に係る通信システムについて、第１の実施形態に係る通信システム１と相違する点を中心に説明する。第１の実施形態では、各通信端末１０で特定される発話方向を話者（参加者）を識別する情報として、音声合成モデルと関連付ける動作を説明した。本実施形態では、映像データから話者（参加者）の口唇動作を認識して、認識された口唇動作の座標を、話者（参加者）を識別する情報として用いる動作について説明する。なお、本実施形態に係る通信システムの全体構成、通信端末１０および管理システム５０のハードウェア構成、通信端末１０のソフトウェア構成、ならびに図１５〜図１９に示した通信端末１０間のセッションの確立動作は、第１の実施形態で説明したものと同様である。

（通信システムの機能ブロックの構成）
図２９は、第２の実施形態に係る通信システムの機能ブロックの構成の一例を示す図である。図３０は、発話方向と発話者（口唇座標）との対応を説明する図である。図３１は、座標・発話方向対応テーブルの一例を示す図である。図２９〜図３１を参照しながら、本実施形態に係る通信システム１ａの機能ブロックの構成および動作について説明する。

＜通信端末の機能ブロックの構成＞
図２９に示すように、通信端末１０ａは、通信部１１と、操作入力受付部１２と、撮像部１３と、表示制御部１４と、音声入力部１５と、音声出力部１６と、記憶・読出部１７と、記憶部１８と、認証要求部１９と、発話方向特定部２０と、テキスト化部２１と、モデル特定部２２ａと、音声合成部２３と、を有している。

モデル特定部２２ａは、記憶部１８に記憶されている、後述の図３３に示す口唇座標・音声合成モデル対応テーブルを参照し、通信部１１により相手拠点の参加者の音声のテキストと共に受信された口唇座標（後述するように、参加者の認識された口唇動作の座標）から、当該参加者に対応する音声合成モデルを特定する機能部である。モデル特定部２２ａは、図２に示すＣＰＵ１０１（図３に示すＣＰＵ２０１）によるソフトウェアである通信アプリＡの実行によって実現される。

なお、通信端末１０ａが有する機能ブロックのうち、モデル特定部２２ａ以外の機能ブロックの動作は、第１の実施形態で説明した動作と同様である。

また、上述の表示制御部１４、認証要求部１９、発話方向特定部２０、テキスト化部２１、モデル特定部２２ａおよび音声合成部２３のうち少なくともいずれかは、ＡＳＩＣまたはＦＰＧＡ等のハードウェア回路によって実現されるものとしてもよい。

また、図２９に示した通信端末１０ａの各機能部は、機能を概念的に示したものであって、このような構成に限定されるものではない。例えば、図２９に示した通信端末１０ａで独立した機能部として図示した複数の機能部を、１つの機能部として構成してもよい。一方、図２９に示した通信端末１０ａの１つ機能部が有する機能を複数に分割し、複数の機能部として構成するものとしてもよい。

＜管理システムの機能ブロックの構成＞
図２９に示すように、管理システム５０ａは、通信部５１と、認証部５２と、状態管理部５３と、端末抽出部５４と、端末状態取得部５５と、セッション制御部５６と、記憶・読出部５７と、記憶部５８と、を有している。管理システム５０ａは、さらに、帯域判定部６１と、音声認識部６２と、音声分析部６３と、登録部６４ａと、口唇動作認識部６５と、対応付け部６６と、を有している。

登録部６４ａは、口唇動作認識部６５により映像データから認識された参加者の口唇動作を示す部分の座標（口唇座標）を、後述する図３３に示す口唇座標・音声合成モデル対応テーブルに、話者を識別する情報（話者識別情報）として登録する。また、登録部６４ａは、口唇座標・音声合成モデル対応テーブルにおいて、音声分析部６３により参加者の音声のテキストおよび音声データから生成された音声合成モデルを、当該参加者に対応する口唇座標と関連付けて記憶させる（登録する）。この際、登録部６４ａは、口唇座標・音声合成モデル対応テーブルを、各拠点の通信端末１０ごとに生成する。そして、登録部６４ａは、帯域満足動作モード時に、口唇座標および音声合成モデルが登録された口唇座標・音声合成モデル対応テーブルを、当該口唇座標・音声合成モデル対応テーブルに登録された口唇座標に対応する参加者の拠点との通話対象となる相手拠点の通信端末１０へ、通信部５１を介して送信する。登録部６４ａは、図４に示すＣＰＵ３０１によるプログラムの実行によって実現される。

口唇動作認識部６５は、通信部５１で受信された映像データから、写り込んでいる参加者の口唇動作を検出して、当該口唇動作を示す部分の座標（口唇座標）を算出する機能部である。例えば、図３０に示すように、相手拠点の参加者がＡ〜Ｄである場合、口唇動作認識部６５により参加者Ａ〜Ｄの口唇動作が検出され、当該口唇動作を示す部分の座標（口唇座標）（例えば、参加者Ｂの場合の口唇座標（Ｘｂ，Ｙｂ））がそれぞれ算出されている。口唇動作認識部６５は、図４に示すＣＰＵ３０１によるプログラムの実行によって実現される。

対応付け部６６は、通信部５１を介して受信した参加者の音声の発話方向と、口唇動作認識部６５により算出された口唇座標、すなわち参加者とを対応付ける機能部である。具体的には、対応付け部６６は、予め記憶部５８に記憶されている図３１に示すような座標と、発話方向とを対応付けた座標・発話方向対応テーブルを参照し、通信部５１により受信された発話方向が、どの座標（口唇座標）に対応するのかを特定する。対応付け部６６は、図４に示すＣＰＵ３０１によるプログラムの実行によって実現される。

なお、管理システム５０ａが有する機能ブロックのうち、登録部６４ａ、口唇動作認識部６５および対応付け部６６以外の機能ブロックの動作は、第１の実施形態で説明した動作と同様である。

また、上述の認証部５２、状態管理部５３、端末抽出部５４、端末状態取得部５５、セッション制御部５６、帯域判定部６１、音声認識部６２、音声分析部６３、登録部６４ａ、口唇動作認識部６５および対応付け部６６のうち少なくともいずれかは、ＡＳＩＣまたはＦＰＧＡ等のハードウェア回路によって実現されるものとしてもよい。

また、図２９に示した管理システム５０ａの各機能部は、機能を概念的に示したものであって、このような構成に限定されるものではない。例えば、図２９に示した管理システム５０ａで独立した機能部として図示した複数の機能部を、１つの機能部として構成してもよい。一方、図２９に示した管理システム５０ａの１つ機能部が有する機能を複数に分割し、複数の機能部として構成するものとしてもよい。

また、図２９に示した通信端末１０ａが有する機能部は、例えば管理システム５０ａで実現される場合があってもよく、管理システム５０ａが有する機能部は、例えば通信端末１０ａで実現する場合があってもよい。また、通信端末１０ａおよび管理システム５０ａが有する機能部は、通信端末１０ａおよび管理システム５０ａ以外の装置が実現する場合があってもよい。

（通信システムの全体動作の流れの詳細）
図３２は、第２の実施形態に係る通信システムの全体動作の流れの一例を示す図である。図３３は、口唇座標・音声合成モデル対応テーブルの一例を示す図である。図３２および図３３を参照しながら、本実施形態に係る通信システム１ａの全体動作の流れの詳細について説明する。なお、図３２の例では、通信端末１０ａａと通信端末１０ｄｂとの間でセッションが確立されているものとする。また、図３２に示す通信端末１０ａａ、１０ｄｂは、図２９に示す通信端末１０ａと同様の機能ブロックの構成を有する。

＜ステップＳ１４１〜Ｓ１４７＞
上述の図２７で示したステップＳ１１１〜Ｓ１１７の動作と同様である。

＜ステップＳ１４８＞
管理システム５０ａの口唇動作認識部６５は、通信部５１で受信された通信端末１０ａａの映像データ、および通信端末１０ｄｂの映像データから、写り込んでいる各拠点の参加者の口唇動作を検出して、当該口唇動作を示す部分の座標（口唇座標）を算出する。そして、管理システム５０ａの登録部６４ａは、口唇動作認識部６５により映像データから認識された参加者の口唇動作を示す部分の座標（口唇座標）を、図３３に示す口唇座標・音声合成モデル対応テーブルに、話者を識別する情報（話者識別情報）として登録する。この際、登録部６４ａは、口唇座標・音声合成モデル対応テーブルを、各拠点の通信端末１０ａごとに生成する。

＜ステップＳ１４９、Ｓ１５０＞
管理システム５０ａの音声認識部６２は、通信部５１により通信端末１０ａａ、１０ｄｂから受信された各参加者の音声データをテキストに変換する音声認識動作を実行する。そして、管理システム５０ａの音声分析部６３は、音声認識部６２により変換されたテキストと、通信部５１により受信された音声データとの比較によって、当該音声データに対応する参加者の音声合成モデルを生成する音声分析動作を実行する。

そして、管理システム５０ａの登録部６４ａは、音声分析部６３により参加者の音声のテキストおよび音声データから生成された音声合成モデルを、当該参加者に対応する口唇座標と関連付けて、図３３に示す発話方向・音声合成モデル対応テーブルに記憶させる（登録する）。

図３３に示すように、口唇座標・音声合成モデル対応テーブルでは、話者（参加者）を識別する話者識別情報として、口唇動作認識部６５により算出された各話者の口唇座標を登録し、各話者に対応する音声合成モデルを、当該口唇座標と関連付けて登録される。例えば、図３３に示す口唇座標・音声合成モデル対応テーブルでは、口唇座標が「Ｘ２，Ｙ２」として算出された参加者に対応する音声合成モデルは「モデル２」であることが示されている。

＜ステップＳ１５１、Ｓ１５２＞
そして、登録部６４ａは、口唇座標および音声合成モデルが登録された口唇座標・音声合成モデル対応テーブル（すなわち各参加者の音声合成モデルを含む）を、当該口唇座標・音声合成モデル対応テーブルに登録された口唇座標に対応する参加者の拠点との通話対象となる相手拠点の通信端末１０へ、通信部５１を介して送信する。すなわち、登録部６４ａは、通信端末１０ａａの参加者の音声合成モデルが登録された口唇座標・音声合成モデル対応テーブルを、相手拠点の通信端末１０ｄｂへ送信し、通信端末１０ｄｂの参加者の音声合成モデルが登録された口唇座標・音声合成モデル対応テーブルを、相手拠点の通信端末１０ａａへ送信する。

すなわち、帯域満足動作モードでは、通常の映像データおよび音声データが、通信端末１０ａ間でやり取りされると共に、管理システム５０ａにおいて各参加者の音声データから音声合成モデルを生成し、帯域不足動作モードで使用するために当該音声合成モデルを、互いの相手拠点へ送信しておくことになる。

＜ステップＳ１５３〜Ｓ１５９＞
上述の図２７で示したステップＳ１２２〜Ｓ１２８の動作と同様である。

＜ステップＳ１６０＞
通信端末１０ａａのテキスト化部２１は、音声入力部１５により入力された参加者の音声データをテキストに変換して出力する。

＜ステップＳ１６１＞
通信端末１０ａａの発話方向特定部２０は、音声入力部１５により入力された音声信号に基づいて、音声方向（発話方向）を特定する。そして、通信端末１０ａａの通信部１１は、発話方向およびテキストを、管理システム５０ａへ送信する。

＜ステップＳ１６２＞
管理システム５０ａの対応付け部６６は、予め記憶部５８に記憶されている図３１に示すような座標・発話方向対応テーブルを参照し、通信部５１により受信された発話方向が、どの座標（口唇座標）に対応するのかを特定する（対応付ける）。

＜ステップＳ１６３＞
管理システム５０ａの通信部５１は、通信端末１０ａａから受信したテキスト、および対応付け部６６により対応付けられた口唇座標を、通信端末１０ｄｂへ送信する。

＜ステップＳ１６４、Ｓ１６５＞
通信端末１０ｄｂの通信部１１により通信端末１０ａａから口唇座標およびテキストを受信すると、通信端末１０ｄｂのモデル特定部２２ａは、記憶部１８に記憶されている、図３３に示す口唇座標・音声合成モデル対応テーブルを参照し、通信部１１により相手拠点の参加者の音声のテキストと共に受信された口唇座標から、当該参加者に対応する音声合成モデルを特定する。次に、通信端末１０ｄｂの音声合成部２３は、モデル特定部２２ａにより特定された音声合成モデルと、通信部１１により受信された相手拠点の参加者の音声のテキストとを用いて音声の合成を行い、当該参加者の音声合成データを得る。そして、通信端末１０ｄｂの音声出力部１６は、当該音声合成データをスピーカ１１４ｂ（スピーカ２４２）から音声として出力（再生）させる。

＜ステップＳ１６６＞
通信端末１０ｄｂのテキスト化部２１は、音声入力部１５により入力された参加者の音声データをテキストに変換して出力する。

＜ステップＳ１６７＞
通信端末１０ｄｂの発話方向特定部２０は、音声入力部１５により入力された音声信号に基づいて、音声方向（発話方向）を特定する。そして、通信端末１０ｄｂの通信部１１は、発話方向およびテキストを、管理システム５０ａへ送信する。

＜ステップＳ１６８＞
管理システム５０ａの対応付け部６６は、予め記憶部５８に記憶されている図３１に示すような座標・発話方向対応テーブルを参照し、通信部５１により受信された発話方向が、どの座標（口唇座標）に対応するのかを特定する（対応付ける）。

＜ステップＳ１６９＞
管理システム５０ａの通信部５１は、通信端末１０ｄｂから受信したテキスト、および対応付け部６６により対応付けられた口唇座標を、通信端末１０ａａへ送信する。

＜ステップＳ１７０、Ｓ１７１＞
通信端末１０ａａの通信部１１により通信端末１０ｄｂから口唇座標およびテキストを受信すると、通信端末１０ａａのモデル特定部２２ａは、記憶部１８に記憶されている、図３３に示す口唇座標・音声合成モデル対応テーブルを参照し、通信部１１により相手拠点の参加者の音声のテキストと共に受信された口唇座標から、当該参加者に対応する音声合成モデルを特定する。次に、通信端末１０ａａの音声合成部２３は、モデル特定部２２ａにより特定された音声合成モデルと、通信部１１により受信された相手拠点の参加者の音声のテキストとを用いて音声の合成を行い、当該参加者の音声合成データを得る。そして、通信端末１０ａａの音声出力部１６は、当該音声合成データをスピーカ１１４ｂ（スピーカ２４２）から音声として出力（再生）させる。

以上のステップＳ１４１〜Ｓ１７１の流れによって、本実施形態に係る通信システム１ａの全体動作が行われる。なお、各ステップの順番については図３２で示した順番に限定されるものではない。例えば、ステップＳ１４４、Ｓ１４５の通信端末１０ａａの音声データおよび映像データが通信端末１０ｄｂへ送信される動作が、ステップＳ１４６、Ｓ１４７の通信端末１０ｄｂの音声データおよび映像データが通信端末１０ａａへ送信される動作よりも順番が先になっているが、これが逆であってもよいのは言うまでもない。

以上のように、本実施形態に係る通信システム１ａでは、帯域不足動作モードにおいて、通信端末１０ａでは帯域満足動作モード時に管理システム５０ａから取得しておいた口唇座標・音声合成モデル対応テーブルに登録されている相手拠点の参加者の音声合成モデルを用いて、受信したテキストと音声合成を行い、音声合成データを得て、スピーカ１１４ｂ（スピーカ２４２）から音声として出力させるものとしている。これによって、通信端末１０ａ間で通信ネットワーク２を介して通信されるデータは、静止画データおよびテキストデータという、映像データおよび音声データと比較してデータ量が大幅に小さいデータであるため、通信ネットワーク２のトラフィックを逼迫することを回避することができる。さらに、通信端末１０ａで合成される音声合成データは、相手拠点の参加者の音声データに基づいて生成された音声合成モデルを使用して作成されるので、当該参加者の音声に似た音声を生成することができ、違和感のないコミュニケーションを実現することができる。

なお、本実施形態では、口唇動作認識部６５により参加者の口唇動作を検出して、当該口唇動作を示す部分の座標（口唇座標）を算出するものとしたが、これに限定されるものではない。例えば、参加者の鼻、目、耳等を検出して、当該鼻、目、耳を示す部分の座標を算出して用いるものとしてもよい。

［第３の実施形態］
第３の実施形態に係る通信システムについて、第１の実施形態に係る通信システム１と相違する点を中心に説明する。第１の実施形態では、各通信端末１０で特定される発話方向を話者（参加者）を識別する情報として、音声合成モデルと関連付ける動作を説明した。本実施形態では、映像データから話者（参加者）の顔を認識して、認識された顔の中心座標を、話者（参加者）を識別する情報として用いる動作について説明する。なお、本実施形態に係る通信システムの全体構成、通信端末１０および管理システム５０のハードウェア構成、通信端末１０のソフトウェア構成、ならびに図１５〜図１９に示した通信端末１０間のセッションの確立動作は、第１の実施形態で説明したものと同様である。

（通信システムの機能ブロックの構成）
図３４は、第３の実施形態に係る通信システムの機能ブロックの構成の一例を示す図である。図３５は、発話方向と発話者（中心座標）との対応を説明する図である。図３４および図３５を参照しながら、本実施形態に係る通信システム１ｂの機能ブロックの構成および動作について説明する。

＜通信端末の機能ブロック構成＞
図３４に示すように、通信端末１０ｂは、通信部１１と、操作入力受付部１２と、撮像部１３と、表示制御部１４と、音声入力部１５と、音声出力部１６と、記憶・読出部１７と、記憶部１８と、認証要求部１９と、発話方向特定部２０と、テキスト化部２１と、モデル特定部２２ｂと、音声合成部２３と、を有している。

モデル特定部２２ｂは、記憶部１８に記憶されている、図３７に示す顔認識情報・顔中心座標・音声合成モデル対応テーブルのうち顔中心座標と音声合成モデルとを対応付ける部分テーブルを参照し、通信部１１により相手拠点の参加者の音声のテキストと共に受信された顔中心座標から、当該参加者に対応する音声合成モデルを特定する機能部である。モデル特定部２２ｂは、図２に示すＣＰＵ１０１（図３に示すＣＰＵ２０１）によるソフトウェアである通信アプリＡの実行によって実現される。

なお、通信端末１０ｂが有する機能ブロックのうち、モデル特定部２２ｂ以外の機能ブロックの動作は、第１の実施形態で説明した動作と同様である。

また、上述の表示制御部１４、認証要求部１９、発話方向特定部２０、テキスト化部２１、モデル特定部２２ｂおよび音声合成部２３のうち少なくともいずれかは、ＡＳＩＣまたはＦＰＧＡ等のハードウェア回路によって実現されるものとしてもよい。

また、図３４に示した通信端末１０ｂの各機能部は、機能を概念的に示したものであって、このような構成に限定されるものではない。例えば、図３４に示した通信端末１０ｂで独立した機能部として図示した複数の機能部を、１つの機能部として構成してもよい。一方、図３４に示した通信端末１０ｂの１つ機能部が有する機能を複数に分割し、複数の機能部として構成するものとしてもよい。

＜管理システムの機能ブロックの構成＞
図３４に示すように、管理システム５０ｂは、通信部５１と、認証部５２と、状態管理部５３と、端末抽出部５４と、端末状態取得部５５と、セッション制御部５６と、記憶・読出部５７と、記憶部５８と、を有している。管理システム５０ｂは、さらに、帯域判定部６１と、音声認識部６２と、音声分析部６３と、登録部６４ｂと、顔認識部６７と、対応付け部６６ｂと、を有している。

登録部６４ｂは、顔認識部６７により映像データから認識された参加者の顔の認識情報（顔認識情報）、および当該顔の中心座標を、後述する図３７に示す顔認識情報・顔中心座標・音声合成モデル対応テーブルに、話者を識別する情報（話者識別情報）として登録する。また、登録部６４ｂは、顔認識情報・顔中心座標・音声合成モデル対応テーブルにおいて、音声分析部６３により参加者の音声のテキストおよび音声データから生成された音声合成モデルを、当該参加者に対応する顔認識情報および顔中心座標と関連付けて記憶させる（登録する）。そして、登録部６４ｂは、帯域満足動作モード時に、顔認識情報・顔中心座標・音声合成モデル対応テーブルのうち顔中心座標と音声合成モデルとを対応付ける部分テーブルを、当該部分テーブルに登録された顔中心座標に対応する参加者の拠点との通話対象となる相手拠点の通信端末１０へ、通信部５１を介して送信する。登録部６４ｂは、図４に示すＣＰＵ３０１によるプログラムの実行によって実現される。

顔認識部６７は、通信部５１により受信された映像データから、写り込んでいる参加者の顔を検出して、顔の特徴を数値化して特徴値（以下、顔認識情報と称する場合がある）として取得する機能部である。例えば、認識された顔の目、眉毛、鼻、口等の特徴を数値化して特徴値を求め、当該特徴値ごとに「Ｍ４」、「ＥＬ２」等のＩＤ（識別情報）が割り振られる。また、各顔の部分の位置を特徴点として求め、当該位置、および特徴点間の距離等も特徴値として顔認識情報に含まれる。また、顔認識部６７は、映像データにおいて検出した参加者の顔の画像の中心座標（顔中心座標）を算出する。なお、顔認識部６７は、参加者の顔を検出するものとしたが、これに限定されるものではなく、検出対象は、参加者の顔を含む上半身等、参加者を判別することが可能な部位であればよい。また、顔認識部６７により算出される座標は、必ずしも顔の中心座標である必要もなく、顔の特徴的な部位（例えば鼻または目等）の座標であってもよい。顔認識部６７は、図４に示すＣＰＵ３０１によるプログラムの実行によって実現される。

対応付け部６６ｂは、通信部５１を介して受信した参加者の音声の発話方向と、顔認識部６７により算出された顔中心座標、すなわち参加者とを対応付ける機能部である。具体的には、対応付け部６６ｂは、予め記憶部５８に記憶されている上述の図３１に示すような座標と、発話方向とを対応付けた座標・発話方向対応テーブルを参照し、通信部５１により受信された発話方向が、どの座標（顔中心座標）に対応するのかを特定する。対応付け部６６ｂは、図４に示すＣＰＵ３０１によるプログラムの実行によって実現される。

なお、管理システム５０ｂが有する機能ブロックのうち、登録部６４ｂ、顔認識部６７および対応付け部６６ｂ以外の機能ブロックの動作は、第１の実施形態で説明した動作と同様である。

また、上述の認証部５２、状態管理部５３、端末抽出部５４、端末状態取得部５５、セッション制御部５６、帯域判定部６１、音声認識部６２、音声分析部６３、登録部６４ｂ、顔認識部６７および対応付け部６６ｂのうち少なくともいずれかは、ＡＳＩＣまたはＦＰＧＡ等のハードウェア回路によって実現されるものとしてもよい。

また、図３４に示した管理システム５０ｂの各機能部は、機能を概念的に示したものであって、このような構成に限定されるものではない。例えば、図３４に示した管理システム５０ｂで独立した機能部として図示した複数の機能部を、１つの機能部として構成してもよい。一方、図３４に示した管理システム５０ｂの１つ機能部が有する機能を複数に分割し、複数の機能部として構成するものとしてもよい。

また、図３４に示した通信端末１０ｂが有する機能部は、例えば管理システム５０ｂで実現される場合があってもよく、管理システム５０ｂが有する機能部は、例えば通信端末１０ｂで実現する場合があってもよい。また、通信端末１０ｂおよび管理システム５０ｂが有する機能部は、通信端末１０ｂおよび管理システム５０ｂ以外の装置が実現する場合があってもよい。

（通信システムの全体動作の流れの詳細）
図３６は、第３の実施形態に係る通信システムの全体動作の流れの一例を示す図である。図３７は、顔認識情報・顔中心座標・音声合成モデル対応テーブルの一例を示す図である。図３６および図３７を参照しながら、本実施形態に係る通信システム１ｂの全体動作の流れの詳細について説明する。なお、図３６の例では、通信端末１０ａａと通信端末１０ｄｂとの間でセッションが確立されているものとする。また、図３６に示す通信端末１０ａａ、１０ｄｂは、図３４に示す通信端末１０ｂと同様の機能ブロックの構成を有する。

＜ステップＳ１８１〜Ｓ１８７＞
上述の図２７で示したステップＳ１１１〜Ｓ１１７の動作と同様である。

＜ステップＳ１８８＞
管理システム５０ｂの顔認識部６７は、通信部５１で受信された通信端末１０ａａの映像データ、および通信端末１０ｄｂの映像データから、写り込んでいる各拠点の参加者の顔を検出して、顔の特徴を数値化した顔認識情報を取得し、当該顔の画像の中心座標（顔中心座標）を算出する。そして、管理システム５０ｂの登録部６４ｂは、顔認識部６７により映像データから認識された参加者の顔の認識情報（顔認識情報）、および当該顔の中心座標を、図３７に示す顔認識情報・顔中心座標・音声合成モデル対応テーブルに、話者を識別する情報（話者識別情報）として登録する。

＜ステップＳ１８９、Ｓ１９０＞
管理システム５０ｂの音声認識部６２は、通信部５１により通信端末１０ａａ、１０ｄｂから受信された各参加者の音声データをテキストに変換する音声認識動作を実行する。そして、管理システム５０ｂの音声分析部６３は、音声認識部６２により変換されたテキストと、通信部５１により受信された音声データとの比較によって、当該音声データに対応する参加者の音声合成モデルを生成する音声分析動作を実行する。

そして、管理システム５０ａの登録部６４ｂは、音声分析部６３により参加者の音声のテキストおよび音声データから生成された音声合成モデルを、当該参加者に対応する顔認識情報および顔中心座標と関連付けて、図３７に示す顔認識情報・顔中心座標・音声合成モデル対応テーブルに記憶させる（登録する）。

図３７に示すように、顔認識情報・顔中心座標・音声合成モデル対応テーブルでは、話者（参加者）を識別する話者識別情報として、顔認識部６７により得られた各話者の顔認識情報および顔中心座標を登録し、各話者に対応する音声合成モデルを、当該顔認識情報および顔中心座標と関連付けて登録される。例えば、図３７に示す顔認識情報・顔中心座標・音声合成モデル対応テーブルでは、顔認識情報が「ＵＵＵ」（Ｍ４）、「ＶＶＶ」（ＥＬ２）、顔中心座標が「Ｘ１ａ，Ｙ１ａ」として得られた参加者に対応する音声合成モデルは「モデル２」であることが示されている。

＜ステップＳ１９１、Ｓ１９２＞
そして、登録部６４ｂは、顔認識情報、顔中心座標および音声合成モデルが登録された顔認識情報・顔中心座標・音声合成モデル対応テーブル（すなわち各参加者の音声合成モデルを含む）のうち顔中心座標と音声合成モデルとを対応付ける部分テーブルを、当該部分テーブルに登録された顔認識情報・顔中心座標に対応する参加者の拠点との通話対象となる相手拠点の通信端末１０へ、通信部５１を介して送信する。すなわち、登録部６４ｂは、通信端末１０ａａの参加者の音声合成モデルが登録された部分テーブルを、相手拠点の通信端末１０ｄｂへ送信し、通信端末１０ｄｂの参加者の音声合成モデルが登録された部分テーブルを、相手拠点の通信端末１０ａａへ送信する。

すなわち、帯域満足動作モードでは、通常の映像データおよび音声データが、通信端末１０ｂ間でやり取りされると共に、管理システム５０ｂにおいて各参加者の音声データから音声合成モデルを生成し、帯域不足動作モードで使用するために当該音声合成モデルを、互いの相手拠点へ送信しておくことになる。

＜ステップＳ１９３〜Ｓ１９９＞
上述の図２７で示したステップＳ１２２〜Ｓ１２８の動作と同様である。

＜ステップＳ２００＞
通信端末１０ａａのテキスト化部２１は、音声入力部１５により入力された参加者の音声データをテキストに変換して出力する。

＜ステップＳ２０１＞
通信端末１０ａａの発話方向特定部２０は、音声入力部１５により入力された音声信号に基づいて、音声方向（発話方向）を特定する。そして、通信端末１０ａａの通信部１１は、発話方向およびテキストを、管理システム５０ｂへ送信する。

＜ステップＳ２０２＞
管理システム５０ｂの対応付け部６６ｂは、予め記憶部５８に記憶されている図３１に示すような座標・発話方向テーブルを参照し、通信部５１により受信された発話方向が、どの座標（顔中心座標）に対応するのかを特定する（対応付ける）。

＜ステップＳ２０３＞
管理システム５０ｂの通信部５１は、通信端末１０ａａから受信したテキスト、および対応付け部６６ｂにより対応付けられた顔中心座標を、通信端末１０ｄｂへ送信する。

＜ステップＳ２０４、Ｓ２０５＞
通信端末１０ｄｂの通信部１１により通信端末１０ａａから顔中心座標およびテキストを受信すると、通信端末１０ｄｂのモデル特定部２２ｂは、記憶部１８に記憶されている、図３７に示す顔認識情報・顔中心座標・音声合成モデル対応テーブルのうち顔中心座標と音声合成モデルとを対応付ける部分テーブルを参照し、通信部１１により相手拠点の参加者の音声のテキストと共に受信された顔中心座標から、当該参加者に対応する音声合成モデルを特定する。次に、通信端末１０ｄｂの音声合成部２３は、モデル特定部２２ｂにより特定された音声合成モデルと、通信部１１により受信された相手拠点の参加者の音声のテキストとを用いて音声の合成を行い、当該参加者の音声合成データを得る。そして、通信端末１０ｄｂの音声出力部１６は、当該音声合成データをスピーカ１１４ｂ（スピーカ２４２）から音声として出力（再生）させる。

＜ステップＳ２０６＞
通信端末１０ａａのテキスト化部２１は、音声入力部１５により入力された参加者の音声データをテキストに変換して出力する。

＜ステップＳ２０７＞
通信端末１０ｄｂの発話方向特定部２０は、音声入力部１５により入力された音声信号に基づいて、音声方向（発話方向）を特定する。そして、通信端末１０ｄｂの通信部１１は、発話方向およびテキストを、管理システム５０ｂへ送信する。

＜ステップＳ２０８＞
管理システム５０ｂの対応付け部６６ｂは、予め記憶部５８に記憶されている図３１に示すような座標・発話方向テーブルを参照し、通信部５１により受信された発話方向が、どの座標（顔中心座標）に対応するのかを特定する（対応付ける）。

＜ステップＳ２０９＞
管理システム５０ｂの通信部５１は、通信端末１０ｄｂから受信したテキスト、および対応付け部６６ｂにより対応付けられた顔中心座標を、通信端末１０ａａへ送信する。

＜ステップＳ２１０、Ｓ２１１＞
通信端末１０ａａの通信部１１により通信端末１０ｄｂから顔中心座標およびテキストを受信すると、通信端末１０ａａのモデル特定部２２ｂは、記憶部１８に記憶されている、図３７に示す顔認識情報・顔中心座標・音声合成モデル対応テーブルのうち顔中心座標と音声合成モデルとを対応付ける部分テーブルを参照し、通信部１１により相手拠点の参加者の音声のテキストと共に受信された顔中心座標から、当該参加者に対応する音声合成モデルを特定する。次に、通信端末１０ａａの音声合成部２３は、モデル特定部２２ｂにより特定された音声合成モデルと、通信部１１により受信された相手拠点の参加者の音声のテキストとを用いて音声の合成を行い、当該参加者の音声合成データを得る。そして、通信端末１０ａａの音声出力部１６は、当該音声合成データをスピーカ１１４ｂ（スピーカ２４２）から音声として出力（再生）させる。

以上のステップＳ１８１〜Ｓ２１１の流れによって、本実施形態に係る通信システム１ｂの全体動作が行われる。なお、各ステップの順番については図３６で示した順番に限定されるものではない。例えば、ステップＳ１８４、Ｓ１８５の通信端末１０ａａの音声データおよび映像データが通信端末１０ｄｂへ送信される動作が、ステップＳ１８６、Ｓ１８７の通信端末１０ｄｂの音声データおよび映像データが通信端末１０ａａへ送信される動作よりも順番が先になっているが、これが逆であってもよいのは言うまでもない。

なお、通信端末１０ｂ間でビデオ会議が行われている場合、参加者が会議室内で移動する場合も想定される。この場合、移動した参加者が、通信端末１０ａａを利用する参加者であるものとすると、移動後の参加者の発話方向は、移動前の発話方向とは異なるものとして特定される。したがって、帯域不足動作モード時に、移動後の発話方向が、通信端末１０ｄｂへ送信されたとしても、通信端末１０ｄｂは、当該発話方向に対応する音声合成モデルと特定することができないことになる。この場合、例えば、通信端末１０ｄｂは、音声合成モデルの特定が不可である旨を管理システム５０ｂへ通知するものとすればよい。そして、通知を受けた管理システム５０ｂは、通信端末１０ａａから映像データ（例えば所定時間分の映像データ）を受信し、参加者の顔を検出して、新たに顔認識情報および顔中心座標を求める。そして、管理システム５０ｂは、予め生成されている顔像認識情報・顔中心座標・音声合成モデル対応テーブルを参照し、新たに求めた顔認識情報と一致する顔認識情報を有するレコードであって、登録されている顔中心座標が、新たに求めた顔中心座標と異なるレコードを特定する。そして、管理システム５０ｂは、当該レコードの顔中心座標を、新たに求めた顔中心座標で更新する。そして、管理システム５０ｂは、顔中心座標が更新された顔認識情報・顔中心座標・音声合成モデル対応テーブルのうち顔中心座標と音声合成モデルとを対応付ける部分テーブル（通信端末１０ａａの参加者に対応する部分テーブル）を、通信端末１０ｄｂへ送信する。そして、通信端末１０ｄｂは、管理システム５０ｂから部分テーブルを受信すると、記憶部１８に記憶している部分テーブルを、受信した部分テーブルで更新するものとすればよい。これによって、通信端末１０ｄｂにおいて、通信端末１０ａａを利用する移動した参加者の発話方向を受信しても、当該発話方向によって当該参加者の音声合成モデルを特定することができるようになる。

以上のように、本実施形態に係る通信システム１ｂでは、帯域不足動作モードにおいて、通信端末１０ｂでは帯域満足動作モード時に管理システム５０ｂから取得しておいた顔認識情報・顔中心座標・音声合成モデル対応テーブルのうち顔中心座標と音声合成モデルとを対応付ける部分テーブルに登録されている相手拠点の参加者の音声合成モデルを用いて、受信したテキストと音声合成を行い、音声合成データを得て、スピーカ１１４ｂ（スピーカ２４２）から音声として出力させるものとしている。これによって、通信端末１０ｂ間で通信ネットワーク２を介して通信されるデータは、静止画データおよびテキストデータという、映像データおよび音声データと比較してデータ量が大幅に小さいデータであるため、通信ネットワーク２のトラフィックを逼迫することを回避することができる。さらに、通信端末１０ｂで合成される音声合成データは、相手拠点の参加者の音声データに基づいて生成された音声合成モデルを使用して作成されるので、当該参加者の音声に似た音声を生成することができ、違和感のないコミュニケーションを実現することができる。

また、本実施形態に係る通信システム１ｂでは、話者識別情報として顔認識情報および顔中心座標を認識するものとしている。このように、参加者を一意に識別する顔認識情報を登録しておくことによって、参加者がビデオ会議中に移動したとしても、移動した参加者を顔認識情報によって特定することができ、新たな顔中心座標で更新することができる。これによって、ビデオ会議中に参加者が移動したとしても、移動した参加者の音声合成モデルと特定することができ、当該参加者に対応する音声合成データを生成することができ、違和感のないコミュニケーションを継続することができる。

なお、上述の各実施形態に係る通信システム１、１ａ、１ｂにおいて、ビデオ会議に参加している各拠点の参加者の音声合成モデルについては、帯域満足動作モード時に送受信される音声データを用いて生成するものとしたが、これに限定されるものではない。例えば、ビデオ会議中ではなく、予め参加者の音声データから生成された音声合成モデルを、ビデオ会議を開始するにあたって、各拠点の通信端末１０、１０ａ、１０ｂが記憶しているものとしてもよい。

また、上述の各実施形態に係る通信端末１０、１０ａ、１０ｂのソフトウェア構成は、上述の図５に示した構成に限定されるものではなく、例えば、図３８に示す構成であってもよい。図３８は、通信端末のＷｅｂアプリを利用する場合のソフトウェア構成の一例を示す図である。上述の図５では、通信端末１０で通信アプリＡが実行される動作を説明したが、同様の処理をＷｅｂアプリによっても実現できる。Ｗｅｂアプリは、ブラウザ上で動作する、例えばＪａｖａＳｃｒｉｐｔ（登録商標）によるプログラムとＷｅｂサーバ側のプログラムとが協調することによって動作し、ユーザはそれをブラウザ上で使用する。すなわち、図３８に示すように、通信端末１０、１０ａ、１０ｂは管理システム５０、５０ａ、５０ｂから、プログラムＷＡ（ＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）＋ＪａｖａＳｃｒｉｐｔ（登録商標）＋ＣＳＳ（ＣａｓｃａｄｉｎｇＳｔｙｌｅＳｈｅｅｔｓ）等）をダウンロードして、ブラウザ１０４０上で実行する。当該ブラウザ１０４０は、ＯＳ１０２０の制御に従って動作する。通信端末１０、１０ａ、１０ｂは、ＨＴＴＰ（ＨｙｐｅｒｔｅｘｔＴｒａｎｓｆｅｒＰｒｏｔｏｃｏｌ）またはＨＴＴＰＳ（ＨｙｐｅｒｔｅｘｔＴｒａｎｓｆｅｒＰｒｏｔｏｃｏｌＳｅｃｕｒｅ）等のプロトコルを用いて管理システム５０、５０ａ、５０ｂとデータを送受信することによって、管理システム５０が提供しているサービスを利用できる。このような利用形態では、予め通信端末１０、１０ａ、１０ｂに通信アプリＡをダウンロードしておく必要がない。

また、上述の各実施形態の各機能は、一または複数の処理回路によって実現することが可能である。ここで、「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上述した各機能を実行するよう設計されたＡＳＩＣ、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、ＦＰＧＡ、ＳｏＣ（Ｓｙｓｔｅｍｏｎａｃｈｉｐ)、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）や従来の回路モジュール等のデバイスを含むものとする。

また、上述の各実施形態において、通信端末１０（１０ａ、１０ｂ）および管理システム５０（５０ａ、５０ｂ）の各機能部の少なくともいずれかがプログラムの実行によって実現される場合、そのプログラムは、ＲＯＭ等に予め組み込まれて提供される。また、上述の実施形態に係る通信端末１０（１０ａ、１０ｂ）および管理システム５０（５０ａ、５０ｂ）で実行されるプログラムは、インストール可能な形式または実行可能な形式のファイルでＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ（ＣｏｍｐａｃｔＤｉｓｋ−Ｒｅｃｏｒｄａｂｌｅ）、ＤＶＤまたはＳＤカード等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよい。また、上述の各実施形態に係る通信端末１０（１０ａ、１０ｂ）および管理システム５０（５０ａ、５０ｂ）で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、上述の各実施形態に係る通信端末１０（１０ａ、１０ｂ）および管理システム５０（５０ａ、５０ｂ）で実行されるプログラムを、インターネット等のネットワーク経由で提供または配布するように構成してもよい。また、上述の各実施形態に係る通信端末１０（１０ａ、１０ｂ）および管理システム５０（５０ａ、５０ｂ）で実行されるプログラムは、上述した各機能部のうち少なくともいずれかを含むモジュール構成となっており、実際のハードウェアとしてはＣＰＵが上述の記憶装置からプログラムを読み出して実行することにより、上述の各機能部が主記憶装置上にロードされて生成されるようになっている。

１、１ａ、１ｂ通信システム
２通信ネットワーク
２ａ〜２ｄＬＡＮ
２ａｂ、２ｃｄ専用線
２ｉインターネット
１０、１０ａ、１０ａａ、１０ａｂ、１０ｂａ、１０ｂ、１０ｂｂ、１０ｃａ、１０ｃｂ、１０ｄａ、１０ｄｂ通信端末
１１通信部
１２操作入力受付部
１３撮像部
１４表示制御部
１５音声入力部
１６音声出力部
１７記憶・読出部
１８記憶部
１９認証要求部
２０発話方向特定部
２１テキスト化部
２２、２２ａ、２２ｂモデル特定部
２３音声合成部
３０ａｂ、３０ｃｂＰＣ
５０管理システム
５１通信部
５２認証部
５３状態管理部
５４端末抽出部
５５端末状態取得部
５６セッション制御部
５７記憶・読出部
５８記憶部
６１帯域判定部
６２音声認識部
６３音声分析部
６４、６４ａ、６４ｂ登録部
６５口唇動作認識部
６６、６６ｂ対応付け部
６７顔認識部
７０ａ〜７０ｄ、７０ａｂ、７０ｃｄルータ
９０プログラム提供システム
１０１ＣＰＵ
１０２ＲＯＭ
１０３ＲＡＭ
１０５補助記憶装置
１０６メディア
１０７メディアドライブ
１０８入力装置
１１０バスライン
１１１ネットワークＩ／Ｆ
１１２カメラ
１１２ｃケーブル
１１３撮像素子Ｉ／Ｆ
１１４スマートスピーカ
１１４ａマイク
１１４ｂスピーカ
１１４ｃケーブル
１１５スピーカ
１１５ｃケーブル
１１６音声入出力Ｉ／Ｆ
１１７ＵＳＢＩ／Ｆ
１１９ディスプレイＩ／Ｆ
１２０ｃケーブル
１２０ａａ、１２０ｂａ、１２０ｃａ、１２０ｄａディスプレイ
２０１ＣＰＵ
２０２ＲＯＭ
２０３ＲＡＭ
２０４ＳＳＤ
２０５ネットワークＩ／Ｆ
２０６外部機器接続Ｉ／Ｆ
２１０バスライン
２１１キャプチャデバイス
２１２ＧＰＵ
２１３ディスプレイコントローラ
２１４ディスプレイ
２１５センサコントローラ
２１６接触センサ
２１７電子ペンコントローラ
２２２電源スイッチ
２２３選択スイッチ
２３０ＵＳＢメモリ
２４０スマートスピーカ
２４１マイク
２４２スピーカ
２６０カメラ
２７０ＰＣ
２９０電子ペン
３０１ＣＰＵ
３０２ＲＯＭ
３０３ＲＡＭ
３０５補助記憶装置
３０６記録メディア
３０７メディアドライブ
３０８ディスプレイ
３０９ネットワークＩ／Ｆ
３１０バスライン
３１１キーボード
３１２マウス
３１３ＤＶＤ
３１４ＤＶＤドライブ
３１５ＵＳＢＩ／Ｆ
１０１０作業領域
１０２０ＯＳ
１０４０ブラウザ
１１００−２端末ＩＤ
１１００−３端末名
１１００−４ａオフラインアイコン
１１００−４ｂ通話可能アイコン
１２００−１開始要求受付画面
１２００−２「はい」ボタン
１２００−３「いいえ」ボタン
５００１認証管理ＤＢ
５００２端末管理ＤＢ
５００３グループ管理ＤＢ
５００４セッション管理ＤＢ
Ａ通信アプリ
ＷＡプログラム

特開２０１２−２５７１１６号公報

Claims

複数の通信端末がネットワークを介してビデオ会議が可能な通信システムであって、
第１通信端末を利用する参加者を識別する話者識別情報を特定する第１特定部と、
前記第１通信端末で入力された前記参加者の音声データをテキストに変換する変換部と、
前記話者識別情報と、前記テキストとを管理システムを介して第２通信端末へ送信する第１送信部と、
前記第２通信端末で受信された前記話者識別情報に対応する前記参加者の音声に基づく音声合成モデルを用いて、前記第２通信端末で受信された前記テキストから音声合成データを合成する合成部と、
前記合成部により合成された前記音声合成データを、出力部から音声として出力させる音声出力部と、
を有する通信システム。
前記ネットワークの少なくとも現在の帯域または予測される帯域が、該ネットワークのトラフィックの混雑を示すか否かを判定する判定部と、
前記判定部により前記トラフィックが混雑していないと判定されている場合、前記第１通信端末で入力された音声データから前記音声合成モデルを生成する生成部と、
前記話者識別情報と関連付けた前記音声合成モデルを、前記第２通信端末へ送信する第２送信部と、
をさらに有する請求項１に記載の通信システム。
前記判定部により前記トラフィックが混雑していると判定されている場合に、
前記変換部は、前記第１通信端末で入力された前記参加者の音声データをテキストに変換し、
前記合成部は、前記第２通信端末で受信された前記話者識別情報に関連付けられた前記音声合成モデルを用いて、前記第２通信端末で受信された前記テキストから音声合成データを合成する請求項２に記載の通信システム。
前記第１特定部は、前記第１通信端末の入力部により入力された前記音声データに基づいて、該音声データの音声を発話した前記参加者の発話方向を前記話者識別情報として特定する請求項１〜３のいずれか一項に記載の通信システム。
前記第１通信端末を利用する前記参加者を撮像した映像データを得る撮像部と、
前記判定部により前記トラフィックが混雑してないと判定されている場合に、前記撮像部により得られた前記映像データから前記参加者の所定の部位を検出して、該部位の座標を前記話者識別情報として求める認識部と、
をさらに有し、
前記第２送信部は、前記判定部により前記トラフィックが混雑してないと判定されている場合に、前記認識部により求められた前記座標と関連付けた前記参加者の前記音声合成モデルを、前記第２通信端末へ送信し、
前記第１特定部は、前記第１通信端末の入力部により入力された前記音声データに基づいて、該音声データの音声を発話した前記参加者の発話方向を前記話者識別情報として特定し、
前記判定部により前記トラフィックが混雑してないと判定されている場合に、前記第１特定部により特定された前記発話方向から、前記参加者の前記所定の部位の座標を特定する対応付け部と、
前記判定部により前記トラフィックが混雑してないと判定されている場合に、前記対応付け部により特定された座標から、前記第２通信端末へ送信された前記音声合成モデルのうち該座標に関連付けられた該音声合成モデルを特定する第２特定部と、
前記合成部は、前記第２特定部により特定された前記音声合成モデルを用いて、前記第２通信端末で受信された前記テキストから音声合成データを合成する請求項２または３に記載の通信システム。
前記認識部は、前記判定部により前記トラフィックが混雑してないと判定されている場合に、前記映像データから前記所定の部位として前記参加者の口唇を検出し、該口唇の座標を前記話者識別情報として求める請求項５に記載の通信システム。
前記第１通信端末を利用する前記参加者を撮像した映像データを得る撮像部と、
前記判定部により前記トラフィックが混雑してないと判定されている場合に、前記撮像部により得られた前記映像データから前記参加者の顔を検出して、該顔の認識情報および該顔の所定の部位の座標を前記話者識別情報として求める認識部と、
をさらに有し、
前記第２送信部は、前記判定部により前記トラフィックが混雑してないと判定されている場合に、前記認識部により求められた前記座標と関連付けた前記参加者の前記音声合成モデルを、前記第２通信端末へ送信し、
前記第１特定部は、前記第１通信端末の入力部により入力された前記音声データに基づいて、該音声データの音声を発話した前記参加者の発話方向を前記話者識別情報として特定し、
前記判定部により前記トラフィックが混雑してないと判定されている場合に、前記第１特定部により特定された前記発話方向から、前記参加者の前記顔の所定の部位の座標を特定する対応付け部と、
前記判定部により前記トラフィックが混雑してないと判定されている場合に、前記対応付け部により特定された座標から、前記第２通信端末へ送信された前記音声合成モデルのうち該座標に関連付けられた該音声合成モデルを特定する第２特定部と、
前記合成部は、前記第２特定部により特定された前記音声合成モデルを用いて、前記第２通信端末で受信された前記テキストから音声合成データを合成する請求項２または３に記載の通信システム。
前記認識部は、前記第２特定部によって、前記対応付け部により特定された座標から、前記音声合成モデルが特定されない場合、再度、前記映像データから前記参加者の顔を検出して、該顔の認識情報および該顔の所定の部位の座標を求め、
前記第２送信部は、前記認識部により再度求められた前記座標と関連付けた前記参加者の前記音声合成モデルを、前記第２通信端末へ送信する請求項７に記載の通信システム。
他の通信端末がネットワークを介してビデオ会議が可能な通信端末であって、
前記通信端末を利用する第１参加者を識別する第１話者識別情報を特定する特定部と、
前記通信端末で入力された前記第１参加者の音声データを第１テキストに変換する変換部と、
前記第１話者識別情報と、前記第１テキストとを管理システムを介して前記他の通信端末へ送信する送信部と、
前記他の通信端末から該他の通信端末を利用する第２参加者の第２話者識別情報と、該他の通信端末で入力された音声データから変換された第２テキストを受信する受信部と、
前記受信部により受信された前記第２話者識別情報に対応する前記第２参加者の音声に基づく音声合成モデルを用いて、前記受信部により受信された前記第２テキストから音声合成データを合成する合成部と、
前記合成部により合成された前記音声合成データを、出力部から音声として出力させる音声出力部と、
を有する通信端末。
他の通信端末がネットワークを介してビデオ会議が可能な通信端末の通信方法であって、
前記通信端末を利用する第１参加者を識別する第１話者識別情報を特定する特定ステップと、
前記通信端末で入力された前記第１参加者の音声データを第１テキストに変換する変換ステップと、
前記第１話者識別情報と、前記第１テキストとを管理システムを介して前記他の通信端末へ送信する送信ステップと、
前記他の通信端末から該他の通信端末を利用する第２参加者の第２話者識別情報と、該他の通信端末で入力された音声データから変換された第２テキストを受信する受信ステップと、
受信した前記第２話者識別情報に対応する前記第２参加者の音声に基づく音声合成モデルを用いて、受信した前記第２テキストから音声合成データを合成する合成ステップと、
合成した前記音声合成データを、出力部から音声として出力させる音声出力ステップと、
を有する通信方法。
他の通信端末がネットワークを介してビデオ会議が可能な通信端末のコンピュータに、
前記通信端末を利用する第１参加者を識別する第１話者識別情報を特定する特定ステップと、
前記通信端末で入力された前記第１参加者の音声データを第１テキストに変換する変換ステップと、
前記第１話者識別情報と、前記第１テキストとを管理システムを介して前記他の通信端末へ送信する送信ステップと、
前記他の通信端末から該他の通信端末を利用する第２参加者の第２話者識別情報と、該他の通信端末で入力された音声データから変換された第２テキストを受信する受信ステップと、
受信した前記第２話者識別情報に対応する前記第２参加者の音声に基づく音声合成モデルを用いて、受信した前記第２テキストから音声合成データを合成する合成ステップと、
合成した前記音声合成データを、出力部から音声として出力させる音声出力ステップと、
を実行させるためのプログラム。