JP2021022836A - 通信システム、通信端末、通信方法およびプログラム - Google Patents

通信システム、通信端末、通信方法およびプログラム Download PDF

Info

Publication number
JP2021022836A
JP2021022836A JP2019138333A JP2019138333A JP2021022836A JP 2021022836 A JP2021022836 A JP 2021022836A JP 2019138333 A JP2019138333 A JP 2019138333A JP 2019138333 A JP2019138333 A JP 2019138333A JP 2021022836 A JP2021022836 A JP 2021022836A
Authority
JP
Japan
Prior art keywords
unit
communication terminal
voice
communication
participant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019138333A
Other languages
English (en)
Inventor
怜士 川▲崎▼
Reiji Kawasaki
怜士 川▲崎▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2019138333A priority Critical patent/JP2021022836A/ja
Publication of JP2021022836A publication Critical patent/JP2021022836A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】通信のデータ量を削減しつつ、違和感のないコミュニケーションを実現することができる通信システム、通信端末、通信方法およびプログラムを提供する。【解決手段】複数の通信端末がネットワークを介してビデオ会議が可能な通信システムであって、第1通信端末を利用する参加者を識別する話者識別情報を特定する第1特定部と、第1通信端末で入力された参加者の音声データをテキストに変換する変換部と、話者識別情報と、テキストとを管理システムを介して第2通信端末へ送信する第1送信部と、第2通信端末で受信された話者識別情報に対応する参加者の音声に基づく音声合成モデルを用いて、第2通信端末で受信されたテキストから音声合成データを合成する合成部と、合成部により合成された音声合成データを、出力部から音声として出力させる音声出力部と、を有する。【選択図】図6

Description

本発明は、通信システム、通信端末、通信方法およびプログラムに関する。
複数の地点にいる複数のユーザが、ディスプレイを用いて会議を行うビデオ会議システムにおいて、各拠点間で通信するデータ量を、静止画およびテキストにすることによって削減し、帯域が少なくても会議を継続する技術が既に知られている。
このような、テキストを送受信することによって実現するビデオ会議システムとして、テキストによる参加者、および音声による参加者の双方が、誰の発話であるかを識別するために、音声合成手段によって、テキストを、発話者に対応した音源を用いて、音声データに変換させ、IP(Internet Protocol)電話または固定電話に変換した音声データを配信する構成が開示されている(特許文献1参照)。
しかしながら、特許文献1に記載された技術では、テキストから音声データに変換するために用いる音源が、ユーザの音声に基づく音源ではないため、変換された音声データは、当該ユーザの音声とは異なり、違和感のあるコミュニケーションになってしまうという問題がある。
本発明は、上述の問題点に鑑みてなされたものであって、通信のデータ量を削減しつつ、違和感のないコミュニケーションを実現することができる通信システム、通信端末、通信方法およびプログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明は、複数の通信端末がネットワークを介してビデオ会議が可能な通信システムであって、第1通信端末を利用する参加者を識別する話者識別情報を特定する第1特定部と、前記第1通信端末で入力された前記参加者の音声データをテキストに変換する変換部と、前記話者識別情報と、前記テキストとを管理システムを介して第2通信端末へ送信する第1送信部と、前記第2通信端末で受信された前記話者識別情報に対応する前記参加者の音声に基づく音声合成モデルを用いて、前記第2通信端末で受信された前記テキストから音声合成データを合成する合成部と、前記合成部により合成された前記音声合成データを、出力部から音声として出力させる音声出力部と、を有することを特徴とする。
本発明によれば、通信のデータ量を削減しつつ、違和感のないコミュニケーションを実現することができる。
図1は、第1の実施形態に係る通信システムの概略構成図である。 図2は、第1の実施形態に係る通信端末(ビデオ会議端末)のハードウェア構成の一例を示す図である。 図3は、第1の実施形態に係る通信端末(電子黒板)のハードウェア構成の一例を示す図である。 図4は、第1の実施形態に係る管理システムおよびプログラム提供システムのハードウェア構成の一例を示す図である。 図5は、第1の実施形態に係る通信端末のソフトウェア構成の一例を示す図である。 図6は、第1の実施形態に係る通信システムの機能ブロックの構成の一例を示す図である。 図7は、音声合成部の機能の流れの一例を示す図である。 図8は、認証管理テーブルの一例を示す図である。 図9は、端末管理テーブルの一例を示す図である。 図10は、グループ管理テーブルの一例を示す図である。 図11は、セッション管理テーブルの一例を示す図である。 図12は、音声認識部の機能の流れの一例を示す図である。 図13は、音声分岐部の機能の流れの一例を示す図である。 図14は、第1の実施形態に係る通信システムにおけるコンテンツデータおよび各種管理情報を送受信するために確立されたセッションを示す図である。 図15は、第1の実施形態に係る通信システムにおける、通信端末が通話を開始するための認証処理を含む準備段階の処理の一例を示すシーケンス図である。 図16は、宛先リストの表示例を示す図である。 図17は、第1の実施形態に係る通信システムにおける通話の開始を要求する処理の一例を示すシーケンス図である。 図18は、第1の実施形態に係る通信システムにおける通話の開始の要求を許可する処理の一例を示すシーケンス図である。 図19は、開始要求受付画面の表示例を示す図である。 図20は、第1の実施形態に係る通信システムにおいて帯域満足時のデータの流れおよび処理の概略を説明する図である。 図21は、第1の実施形態に係る通信システムにおいて帯域不足時のデータの流れおよび処理の概略を説明する図である。 図22は、第1の実施形態に係る管理システムの帯域判定処理の流れの一例を示すフローチャートである。 図23は、第1の実施形態に係る管理システムの音声合成モデル生成処理の流れの一例を示すフローチャートである。 図24は、第1の実施形態に係る管理システムのコンテンツ中継処理の流れの一例を示すフローチャートである。 図25は、第1の実施形態に係る通信端末のコンテンツ送受信処理の流れの一例を示すフローチャートである。 図26は、第1の実施形態に係る通信端末の音声合成処理の流れの一例を示すフローチャートである。 図27は、第1の実施形態に係る通信システムの全体動作の流れの一例を示す図である。 図28は、発話方向・音声合成モデル対応テーブルの一例を示す図である。 図29は、第2の実施形態に係る通信システムの機能ブロックの構成の一例を示す図である。 図30は、発話方向と発話者(口唇座標)との対応を説明する図である。 図31は、座標・発話方向対応テーブルの一例を示す図である。 図32は、第2の実施形態に係る通信システムの全体動作の流れの一例を示す図である。 図33は、口唇座標・音声合成モデル対応テーブルの一例を示す図である。 図34は、第3の実施形態に係る通信システムの機能ブロックの構成の一例を示す図である。 図35は、発話方向と発話者(中心座標)との対応を説明する図である。 図36は、第3の実施形態に係る通信システムの全体動作の流れの一例を示す図である。 図37は、顔認識情報・顔中心座標・音声合成モデル対応テーブルの一例を示す図である。 図38は、通信端末のWebアプリを利用する場合のソフトウェア構成の一例を示す図である。
以下に、図面を参照しながら、本発明に係る通信システム、通信端末、通信方法およびプログラムの実施形態を詳細に説明する。また、以下の実施形態によって本発明が限定されるものではなく、以下の実施形態における構成要素には、当業者が容易に想到できるもの、実質的に同一のもの、およびいわゆる均等の範囲のものが含まれる。さらに、以下の実施形態の要旨を逸脱しない範囲で構成要素の種々の省略、置換、変更および組み合わせを行うことができる。
また、コンピュータソフトウェアとは、コンピュータの動作に関するプログラム、その他コンピュータによる処理の用に供する情報であってプログラムに準ずるものをいう(以下、コンピュータソフトウェアは、ソフトウェアという)。アプリケーションソフトとは、ソフトウェアの分類のうち、特定の作業を行うために使用されるソフトウェアの総称である。一方、オペレーティングシステム(OS)とは、コンピュータを制御し、アプリケーションソフト等がコンピュータ資源を利用可能にするためのソフトウェアのことである。オペレーティングシステムは、入出力の制御、メモリやハードディスクなどのハードウェアの管理、プロセスの管理といった、コンピュータの基本的な管理・制御を行っている。アプリケーションソフトウェアは、オペレーティングシステムが提供する機能を利用して動作する。プログラムとは、コンピュータに対する指令であって、一の結果を得ることができるように組み合わせたものをいう。また、プログラムに準ずるものとは、コンピュータに対する直接の指令ではないためプログラムとは呼べないが、コンピュータの処理を規定するという点でプログラムに類似する性質を有するものをいう。例えば、データ構造(データ要素間の相互関係で表される、データの有する論理的構造)がプログラムに準ずるものに該当する。
[第1の実施形態]
(通信システムの全体構成)
図1は、第1の実施形態に係る通信システムの概略構成図である。図1を参照しながら、本実施形態に係る通信システム1の構成の概略を説明する。
図1に示すように、通信システム1は、複数の通信端末10aa、10ab、10ba、10bb、10ca、10cb、10da、10dbと、一部の通信端末用のディスプレイ120aa、120ba、120ca、120daと、一部の通信端末に接続されたPC(Personal Computer)30ab、30cbと、管理システム50と、プログラム提供システム90と、を含み、通信ネットワーク2を介して互いに通信可能となるように構築されている。
なお、図1では、通信端末10aa、10ab、10ba、10bb、10ca、10cb、10da、10dbが示されているが、これらのうち任意の通信端末を示す場合または総称する場合、単に「通信端末10」と称する。また、図1に示す通信システム1に含まれる複数の通信端末10は、一例を示すものであり、異なる台数であってもよい。
また、図1では、ディスプレイ120aa、120ba、120ca、120daが示されているが、これらのうち任意のディスプレイを示す場合または総称する場合、単に「ディスプレイ120」と称する。また、図1に示す通信システム1に含まれる複数のディスプレイ120は、一例を示すものであり、異なる台数であってもよい。
通信端末10は、他の装置との間で、各種情報を送受信する端末である。通信端末10は、他の通信端末10との間でセッションを確立し、確立したセッションにおいて、音声データおよび画像データ(映像データ)を含むコンテンツデータの送受信による通話を行う。これにより、通信システム1において、複数の通信端末10間のビデオ会議が実現される。なお、通信端末10は、ディスプレイ(上述のディスプレイ120)が接続される専用装置(ビデオ会議端末)、電子黒板(インタラクティブホワイトボード:IWB)、デスクトップPC、ノートPC、スマートフォン、またはタブレット端末等のいずれであってもよい。
ディスプレイ120は、通信ネットワーク2を介して、接続されている通信端末10が受信した参加者の映像等を、表示する表示装置である。ディスプレイ120は、例えば、LCD(Liquid Crystal Display)または有機EL(Electro−Luminescence)ディスプレイ等である。
PC30は、例えば、通信端末10に接続され、他の通信端末10との共有する画面イメージを当該通信端末10に送信し、管理システム50を介して配信することによって、他の通信端末10と画面共有の状態にする情報処理装置である。なお、PC30は、デスクトップPCおよびノートPC等のPCであることに限定されず、スマートフォンまたはタブレット端末等の情報処理装置であってもよい。
管理システム50は、通信端末10を一元的に管理するコンピュータである。管理システム50は、通信端末10間でのセッションを確立することにより、通信端末10間における通話等によるビデオ会議を実現する。管理システム50は、所定の通信端末10からセッションの開始要求情報を受信した場合に、開始要求情報を送信した通信端末10(開始要求端末)と宛先端末との間のセッションを確立し、ビデオ会議を開始させる。したがって、管理システム50は、確立したセッションにより、複数の通信端末10間でコンテンツデータの中継を行う。なお、管理システム50は複数の通信端末10間でセッションを確立するものの、実際にコンテンツデータの中継は、別の中継装置により行われるものとしてもよい。本実施形態では、説明を簡略にするため、セッションの確立、およびコンテンツデータの中継は、管理システム50が行うものとして説明する。
プログラム提供システム90は、通信端末10に各種機能または各種手段を実現させるための端末用プログラムが記憶された補助記憶装置(HDD(Hard Disk Drive)等)を備えており、通信端末10に端末用プログラム(後述する通信アプリA等)を提供するコンピュータである。また、プログラム提供システム90は、管理システム50等に各種機能または各種手段を実現させるためのプログラムも補助記憶装置に記憶しており、管理システム50等に、対応するプログラムを送信することができる。
通信ネットワーク2は、図1に示すように、例えば、LAN(Local Area Network)2a〜2d、専用線2ab、2cd、およびインターネット2iを含んで構築されている。なお、通信ネットワーク2は、図1に示すような構成に限定されるものではなく、その他のネットワーク機器が含まれるものとしてもよく、有線だけでなく無線による通信が行われる箇所があってもよい。
LAN2a〜2d、および専用線2ab、2cdは、それぞれルータ70a〜70d、70ab、70cdを含む。ルータ70a〜70d、70ab、70cdは、通信データの最適な経路の選択を行うネットワーク機器である。
通信端末10(10aa、10ab、・・・)、およびルータ70aは、LAN2aによって通信可能に接続されている。また、通信端末10(10ba、10bb、・・・)、およびルータ70bは、LAN2bによって通信可能に接続されている。また、LAN2a、LAN2b、およびルータ70abは、専用線2abによって通信可能に接続されており、地域A内で構築されている。
一方、通信端末10(10ca、10cb、・・・)、およびルータ70cは、LAN2cによって通信可能に接続されている。また、通信端末10(10da、10db、・・・)、およびルータ70dは、LAN2dによって通信可能に接続されている。また、LAN2c、LAN2d、およびルータ70cdは、専用線2cdによって通信可能に接続されており、地域B内で構築されている。
地域Aおよび地域Bのネットワークは、それぞれルータ70ab、70cdによってインターネット2iを介して通信可能に接続されている。
また、管理システム50およびプログラム提供システム90は、インターネット2iを介して、各通信端末10と通信可能に接続されている。なお、管理システム50およびプログラム提供システム90は、地域Aまたは地域Bに設置されていてもよいし、これら以外の地域に設置されていてもよい。
また、図1において、各通信端末10、管理システム50、各ルータ70およびプログラム提供システム90の近傍に示されている4組の数字は、一般的なIPv4におけるIP(Ineternet Protocol)アドレスを簡易的に示している。例えば、通信端末10aaのIPアドレスは、「1.2.1.3」であるものとしている。なお、IPv4ではなく、IPv6を用いてもよいが、説明を簡略化するため、IPv4を用いて説明する。
なお、図1に示す通信システム1の構成は、一例を示すものであり、この構成に限定されるものではない。すなわち、図1に示す各装置、システムの台数は、図1に示す台数に限定されるものではない。また、図1では、地域A、Bの2つの地域のネットワーク構成が示されているが、同一地域内のネットワークであってもよく、3つ以上の地域がネットワークで接続された構成であってもよい。
(通信端末のハードウェア構成)
図2は、第1の実施形態に係る通信端末(ビデオ会議端末)のハードウェア構成の一例を示す図である。図3は、第1の実施形態に係る通信端末(電子黒板)のハードウェア構成の一例を示す図である。まず、図2を参照しながら、本実施形態に係る通信端末10がビデオ会議端末であるものとした場合のハードウェア構成の詳細について説明する。
図2に示すように、本実施形態に係る通信端末10は、CPU(Central Processing Unit)101と、ROM(Read Only Memory)102と、RAM(Random Access Memory)103と、補助記憶装置105と、メディアドライブ107と、入力装置108と、を備えている。
CPU101は、通信端末10全体の動作を制御する演算装置である。ROM102は、通信端末10用のプログラム(後述する通信アプリA等)を記憶している不揮発性記憶装置である。RAM103は、CPU101のワークエリアとして使用される揮発性記憶装置である。
補助記憶装置105は、画像データ、音声データおよび動画データ等の各種データを記憶するHDDまたはSSD(Solid State Drive)等の不揮発性記憶装置である。メディアドライブ107は、CPU101の制御に従って、フラッシュメモリ等であるメディア106に対するデータの読み出しおよび書き込みを制御する装置である。メディア106は、通信端末10に対して着脱自在の記憶装置である。なお、メディア106は、CPU101の制御に従ってデータの読み出しおよび書き込みを行う不揮発性メモリであれば、フラッシュメモリに限定されるものではなく、EEPROM(Electrically Erasable and Programmable ROM)等を用いてもよい。
入力装置108は、マウスまたはキーボード等の各種情報を入力するための装置、または操作ボタンおよび電源ボタン等のボタンである。
また、通信端末10は、ネットワークI/F111と、撮像素子I/F113と、音声入出力I/F116と、USB(Universal Serial Bus) I/F117と、ディスプレイI/F119と、を備えている。
ネットワークI/F111は、通信ネットワーク2を利用してデータを通信するためのインターフェースである。ネットワークI/F111は、例えば、TCP(Transmission Control Protocol)/IP(Internet Protocol)に準拠したNIC(Network Interface Card)等である。
撮像素子I/F113は、CPU101の制御に従って被写体を撮像して画像データを得るカメラ112との間で画像データを伝送するためのインターフェースである。カメラ112は、レンズ、および光を電荷に変換して被写体の画像(映像)を電子化する固体撮像素子を含む。カメラ112は、ケーブル112cによって撮像素子I/F113に接続される。固体撮像素子としては、CMOS(Complementary Metal Oxide Semiconductor)またはCCD(Charge Coupled Device)等が用いられる。
音声入出力I/F116は、CPU101の制御に従って、音声を入力するマイク114a、および音声を出力するスピーカ114bを有するスマートスピーカ114との間で音声信号(音声データ)の入出力を処理するインターフェースである。スマートスピーカ114は、マイクロホンアレイで構成されるマイク114aを備えることによって、各マイクロホンから入力された音声に対する音声処理を行うことによって、当該音声の方向を特定する装置である。なお、スマートスピーカ114は、マイクロホンアレイを搭載して音声の方向を特定することができる装置であれば、必ずしもスマートスピーカである必要はない。スマートスピーカ114は、ケーブル114cによって音声入出力I/F116に接続される。
USB I/F117は、外部機器(例えばPC等)と接続してデータ通信を行うためのUSB規格のインターフェースである。
ディスプレイI/F119は、CPU101の制御に従って、外付けのディスプレイ120に画像データを伝送するためのインターフェースである。ディスプレイ120は、ケーブル120cによってディスプレイI/F119に接続される。ケーブル120cは、アナログRGB(VGA)信号用のケーブルであってもよく、コンポーネントビデオ用のケーブルであってもよく、HDMI(登録商標)(High−Definition Multimedia Interface)またはDVI(Digital Video Interactive)信号用のケーブルであってもよい。
上述のCPU101、ROM102、RAM103、補助記憶装置105、メディアドライブ107、入力装置108、ネットワークI/F111、撮像素子I/F113、音声入出力I/F116、USB I/F117およびディスプレイI/F119は、アドレスバスおよびデータバス等のバスライン110によって互いに通信可能に接続されている。
なお、図2に示したビデオ会議端末である通信端末10のハードウェア構成は一例を示すものであり、図2に示した構成要素以外の構成要素を含むものとしてもよい。また、カメラ112、およびスマートスピーカ114は、通信端末10に一体的に備えられるものとしてもよく、または、カメラ112、およびスマートスピーカ114のうち少なくともいずれかは、外付けの別体の装置であってもよい。また、ディスプレイ120は、図2では、通信端末10に対して外付けされるディスプレイとしているが、これに限定されるものではなく、通信端末10と一体的に備えられるものとしてもよい。
次に、図3を参照しながら、本実施形態に係る通信端末10が電子黒板であるものとした場合のハードウェア構成の詳細について説明する。
図3に示すように、本実施形態に係る通信端末10は、CPU201と、ROM202と、RAM203と、SSD204と、ネットワークI/F205と、外部機器接続I/F206と、を備えている。
CPU201は、通信端末10全体の動作を制御する演算装置である。ROM202は、IPL(Initial Program Loader)等のCPU201の駆動に用いられるプログラムを記憶する不揮発性記憶装置である。RAM203は、CPU201のワークエリアとして使用される揮発性記憶装置である。
SSD204は、画像データ、音声データおよび動作データ、ならびに通信端末10用のプログラム等の各種データを記憶する不揮発性記憶装置である。なお、SSD204の代わりにHDD等の不揮発性記憶装置を用いるものとしてもよい。
ネットワークI/F205は、通信ネットワーク2を利用してデータを通信するためのインターフェースである。ネットワークI/F205は、例えば、TCP/IPに準拠したNIC等である。
外部機器接続I/F206は、各種の外部機器を接続するためのUSB規格等のインターフェースである。この場合の外部機器としては、例えば、USBメモリ230、スマートスピーカ240、およびカメラ260である。
スマートスピーカ240は、音声を入力するマイク241、および音声を出力するスピーカ242を有する。スマートスピーカ240は、マイクロホンアレイで構成されるマイク241を備えることによって、各マイクロホンから入力された音声に対する音声処理を行うことによって、当該音声の方向を特定することができる装置である。なお、マイクロホンアレイを搭載して音声の方向を特定することができる装置であれば、必ずしもスマートスピーカである必要はない。
カメラ260は、レンズ、および光を電荷に変換して被写体の画像(映像)を電子化する固体撮像素子を含む。固体撮像素子としては、CMOSまたはCCD等が用いられる。
また、通信端末10は、キャプチャデバイス211と、GPU(Graphics Processing Unit)212と、ディスプレイコントローラ213と、ディスプレイ214と、センサコントローラ215と、接触センサ216と、電子ペンコントローラ217と、電源スイッチ222と、選択スイッチ223と、を備えている。
キャプチャデバイス211は、外付けのPC270のディスプレイに対して映像情報を静止画または動画として表示させるデバイスである。
GPU212は、画像処理に特化した演算装置である。ディスプレイコントローラ213は、GPU212からの出力画像をディスプレイ214等へ出力するために画面表示の制御および管理を行うコントローラである。
センサコントローラ215は、接触センサ216の処理を制御するコントローラである。接触センサ216は、赤外線遮断方式による座標の入力および座標の検出を行うセンサである。この座標の入力および座標の検出をする方法は、ディスプレイ214の上側両端部に設置された2つ受発光装置が、ディスプレイ214に平行して複数の赤外線を放射し、ディスプレイ214の周囲に設けられた反射部材によって反射されて、受光素子が放射した光の光路と同一の光路上を戻って来る光を受光する方法である。接触センサ216は、ディスプレイ214上に電子ペン290およびユーザの手H等が接触したことを検知する。接触センサ216は、物体によって遮断された2つの受発光装置が放射した赤外線のIDをセンサコントローラ215に出力し、センサコントローラ215が、物体の接触位置である座標位置を特定する。
なお、接触センサ216は、赤外線遮断方式に限らず、静電容量の変化を検知することにより接触位置を特定する静電容量方式のタッチパネル、対向する2つの抵抗膜の電圧変化によって接触位置を特定する抵抗膜方式のタッチパネル、または、接触物体が表示部に接触することによって生じる電磁誘導を検知して接触位置を特定する電磁誘導方式のタッチパネル等の種々の検出手段を用いてもよい。
電子ペンコントローラ217は、電子ペン290と通信することによって、ディスプレイ214へのペン先のタッチおよびペン尻のタッチの有無を判断するコントローラである。なお、電子ペンコントローラ217は、電子ペン290のペン先およびペン尻だけでなく、電子ペン290のユーザが握る部分、その他の電子ペンの部分のタッチの有無を判断するようにしてもよい。
電源スイッチ222は、通信端末10の電源のON/OFFを切り換えるためのスイッチである。選択スイッチ223は、例えば、ディスプレイ214の表示の明暗、色合い等を調整するためのスイッチ群である。
上述のCPU201、ROM202、RAM203、SSD204、ネットワークI/F205、外部機器接続I/F206、キャプチャデバイス211、GPU212、センサコントローラ215、電子ペンコントローラ217、電源スイッチ222および選択スイッチ223は、アドレスバスおよびデータバス等のバスライン210によって互いに通信可能に接続されている。
なお、図3に示した電子黒板である通信端末10のハードウェア構成は一例を示すものであり、図3に示した構成要素以外の構成要素を含むものとしてもよい。また、カメラ260、およびスマートスピーカ240は、通信端末10に一体的に備えられるものとしてもよく、または、カメラ260、およびスマートスピーカ240のうち少なくともいずれかは、外付けの別体の装置であってもよい。
(管理システムおよびプログラム提供システムのハードウェア構成)
図4は、第1の実施形態に係る管理システムおよびプログラム提供システムのハードウェア構成の一例を示す図である。図4を参照しながら、管理システム50およびプログラム提供システム90のハードウェア構成の詳細について説明する。
まず、図4を参照しながら管理システム50のハードウェア構成について説明する。図4に示すように、管理システム50は、CPU301と、ROM302と、RAM303と、補助記憶装置305と、メディアドライブ307と、ディスプレイ308と、ネットワークI/F309と、キーボード311と、マウス312と、DVD(Digital Versatile Disc)ドライブ314と、を備えている。
CPU301は、管理システム50全体の動作を制御する演算装置である。ROM302は、管理システム50用のプログラムを記憶している不揮発性記憶装置である。RAM303は、CPU301のワークエリアとして使用される揮発性記憶装置である。
補助記憶装置305は、後述する認証管理DB5001、端末管理DB5002、グループ管理DB5003およびセッション管理DB5004等の各種データを記憶するHDDまたはSSD等の記憶装置である。メディアドライブ307は、CPU301の制御に従って、フラッシュメモリ等の記録メディア306に対するデータの読み出しおよび書き込みを制御する装置である。
ディスプレイ308は、カーソル、メニュー、ウィンドウ、文字または画像等の各種情報を表示する液晶または有機EL等によって構成された表示装置である。ネットワークI/F309は、通信ネットワーク2を利用してデータを通信するためのインターフェースである。ネットワークI/F309は、例えば、TCP/IPに準拠したNIC等である。
キーボード311は、文字、数字、各種指示の選択、およびカーソルの移動等を行う入力装置である。マウス312は、各種指示の選択および実行、処理対象の選択、ならびにカーソルの移動等を行うための入力装置である。
DVDドライブ314は、着脱自在な記憶媒体の一例としてのDVD−ROMまたはDVD−R(Digital Versatile Disk Recordable)等のDVD313に対するデータの読み出しおよび書き込みを制御する装置である。
上述のCPU301、ROM302、RAM303、補助記憶装置305、メディアドライブ307、ディスプレイ308、ネットワークI/F309、キーボード311、マウス312およびDVDドライブ314は、アドレスバスおよびデータバス等のバスライン310によって互いに通信可能に接続されている。
なお、図3に示した管理システム50のハードウェア構成は一例を示すものであり、図3に示した構成要素を全て含む必要はなく、または、その他の構成要素を含むものとしてもよい。
なお、プログラム提供システム90は、上述の管理システム50と同様のハードウェア構成を有しているため、その説明を省略する。ただし、ROM302には、プログラム提供システム90を制御するためのプログラム提供システム90用のプログラムが記録されている。
(通信端末のソフトウェア構成)
図5は、第1の実施形態に係る通信端末のソフトウェア構成の一例を示す図である。図5を参照しながら、本実施形態に係る通信端末10のソフトウェア構成の詳細について説明する。
通信端末10には、クライアントアプリとして通信アプリAがインストールされている。ここで、アプリとは、アプリケーションソフトウェアを意味する。図5に示すように、OS(Operating System)1020、および通信アプリAは、通信端末10のRAM103(RAM203)の作業領域1010上で動作する。
OS1020は、基本的な機能を提供し、通信端末10全体を管理する基本ソフトウェアである。通信アプリAは、OS1020の制御に従って動作し、他の通信端末10と通信(通話)するためのアプリである。
なお、通信アプリAの通信プロトコルとしては、SIP(Session Initiation Protocol)、H.323、IRC(Internet Relay Chat)、またはJingle等が挙げられる。
(通信システムの機能ブロックの構成および動作)
図6は、第1の実施形態に係る通信システムの機能ブロックの構成の一例を示す図である。図7は、音声合成部の機能の流れの一例を示す図である。図6および図7を参照しながら、本実施形態に係る通信システム1の機能ブロックの構成および動作について説明する。
<通信端末の機能ブロックの構成>
図6に示すように、通信端末10は、通信部11と、操作入力受付部12と、撮像部13と、表示制御部14と、音声入力部15と、音声出力部16と、記憶・読出部17と、記憶部18と、認証要求部19と、発話方向特定部20と、テキスト化部21と、モデル特定部22と、音声合成部23と、を有している。
通信部11は、通信ネットワーク2を介して、他の通信端末10または各システムと各種データの送受信を行う機能部である。通信部11は、図2に示すCPU101(図3に示すCPU201)によるソフトウェアである通信アプリAの実行、およびネットワークI/F111(ネットワークI/F205)によって実現される。
通信部11は、当該通信端末10が他の通信端末10とセッションを確立し、通話によるビデオ会議を開始する前に、管理システム50から、宛先端末の候補としての各通信端末10の状態を示す各状態情報の受信を開始する。ここで、宛先端末の候補とは、通信端末10が、ビデオ会議を行う相手、すなわちセッションの相手として指定可能なビデオ会議の相手であるユーザ(参加者)が利用する宛先候補となる他の通信端末10である。すなわち、通信端末10は、宛先端末の候補として予め設定されていない通信端末とは、セッションを確立することができず、ビデオ会議を行うことができない。
また、状態情報は、各通信端末10の稼動状態(オンラインかオフラインかの状態)と、オンラインにおいてはさらに通話中であるか、待受け中であるか等の詳細な状態(以下、通信状態と称する)とを示す。また、状態情報は、各通信端末10の稼動状態および通信状態だけでなく、ケーブルが通信端末10から外れている、音声を出力できるが画像は出力できない、または、音声が入力されないように設定されている(ミュート)等、様々な状態を示すものとしてもよいが、以下では、一例として、稼動状態および通信状態を示す場合について説明する。
通信部11は、当該通信端末10が開始要求端末として動作する場合には、開始要求情報を管理システム50に送信する。ここで、開始要求情報とは、ビデオ会議に用いられるセッションの開始を要求する情報である。開始要求情報は、具体的には、開始を要求する旨を示す情報と、開始要求情報の送信元である開始要求端末の端末IDと、セッションの相手となる宛先端末の端末IDと、を含む。端末IDは、通信端末10を識別するための情報であって、予め通信端末10に記憶させておく他、ユーザが直接通信端末10へ入力して決定するものとしてもよい。
操作入力受付部12は、ユーザによる各種入力を受け付ける機能部である。操作入力受付部12は、図2に示す入力装置108(図3に示す接触センサ216、電源スイッチ222および選択スイッチ223)によって実現される。
例えば、ユーザが、操作入力受付部12のうち図2に示す入力装置108としての電源ボタンをオンにすると、当該通信端末10の電源がオン状態になる。また、ユーザが電源をオン状態からオフにすると、通信部11は、管理システム50へ、当該通信端末10の電源がオフになった旨の状態情報を送信してから、当該通信端末10の電源が完全にオフとなる。これによって、管理システム50は、通信端末10が電源オンから電源オフになったことを把握することができる。
撮像部13は、被写体を撮像して、撮像して得た画像データ、映像データを取得する機能部である。撮像部13は、図2に示すCPU101(図3に示すCPU201)によるソフトウェアである通信アプリAの実行、ならびに、カメラ112(カメラ260)および撮像素子I/F113(外部機器接続I/F206)によって実現される。
表示制御部14は、ディスプレイ120(ディスプレイ214)に対して画像データ等の表示制御を行う機能部である。表示制御部14は、図2に示すCPU101(図3に示すCPU201)によるソフトウェアである通信アプリAの実行によって実現される。
表示制御部14は、例えば、ビデオ会議の要求元としての当該通信端末10が所望の宛先としての通信端末10とビデオ会議の通話を開始する前に、通信部11によって受信された宛先端末の候補の状態情報を反映させて、各宛先端末の候補の名前が含まれた宛先リストをディスプレイ120(ディスプレイ214)に表示させる。
音声入力部15は、マイク114a(マイク241)のマイクロホンアレイによって収音された参加者(話者)の音声が音声信号に変換された後、当該音声信号を入力する機能部である。音声入力部15は、図2に示すCPU101(図3に示すCPU201)によるソフトウェアである通信アプリAの実行、および音声入出力I/F116(外部機器接続I/F206)によって実現される。
音声出力部16は、音声信号をスピーカ114b(スピーカ242)に出力し、スピーカ114b(スピーカ242)から音声を出力させる機能部である。音声出力部16は、図2に示すCPU101(図3に示すCPU201)によるソフトウェアである通信アプリAの実行、および音声入出力I/F116(外部機器接続I/F206)によって実現される。
記憶・読出部17は、記憶部18に各種データを記憶したり、記憶部18に記憶された各種データを読み出す処理を行う機能部である。記憶部18には、例えば、宛先端末との通話を行う際に受信されるコンテンツデータが、受信される度に上書き記憶される。このうち、上書きされる前の画像データによってディスプレイ120(ディスプレイ214)に画像が表示され、上書きされる前の音声データによってスピーカ114b(スピーカ242)から音声が出力される。記憶・読出部17は、図2に示すCPU101(図3に示すCPU201)によるソフトウェアである通信アプリAの実行によって実現される。記憶部18は、図2に示すRAM103および補助記憶装置105(図3に示すRAM203およびSSD204)のうち少なくともいずれかによって実現される。
認証要求部19は、当該通信端末10の電源がオンした場合、または、操作入力受付部12により認証要求操作が受け付けられた場合、通信部11から通信ネットワーク2を介して管理システム50に、ログインの認証を要求する旨を示す認証要求情報、および当該通信端末10の現時点のIPアドレスを送信する機能部である。認証要求部19は、図2に示すCPU101(図3に示すCPU201)によるソフトウェアである通信アプリAの実行によって実現される。
発話方向特定部20は、音声入力部15により入力された音声信号に基づいて、音声方向(発話方向)を特定する機能部である。具体的には、音声入力部15により入力された音声信号は、マイク114a(マイク241)のマイクロホンアレイに含まれる各マイクロホンから入力された各音声信号を含み、発話方向特定部20は、各マイクロホンの音声信号に対して音声処理を行うことにより、音声の方向を特定する。発話方向特定部20は、図2に示すCPU101(図3に示すCPU201)によるソフトウェアである通信アプリAの実行によって実現される。
テキスト化部21は、音声入力部15により入力された参加者の音声データをテキストに変換して出力する機能部である。なお、テキスト化部21による音声データのテキスト化は、後述する管理システム50の音声認識部62と同様の動作によって行われる。テキスト化部21は、図2に示すCPU101(図3に示すCPU201)によるソフトウェアである通信アプリAの実行によって実現される。
モデル特定部22は、記憶部18に記憶されている、後述の図28に示す発話方向・音声合成モデル対応テーブルを参照し、通信部11により相手拠点の参加者の音声のテキストと共に受信された発話方向から、当該参加者に対応する音声合成モデルを特定する機能部である。モデル特定部22は、図2に示すCPU101(図3に示すCPU201)によるソフトウェアである通信アプリAの実行によって実現される。
音声合成部23は、モデル特定部22により特定された音声合成モデルと、通信部11により受信された相手拠点の参加者の音声のテキストとを用いて音声の合成を行い、当該参加者の音声合成データを得る機能部である。具体的には、図7に示すように、音声合成部23は、通信部11により受信された相手拠点の参加者の音声のテキストを入力し、テキストの解析を行う。そして、音声合成部23は、解析したテキストと、モデル特定部22により特定された音声合成モデルとを用いて音声合成を行い、当該参加者の音声合成データを得る。音声合成部23は、図2に示すCPU101(図3に示すCPU201)によるソフトウェアである通信アプリAの実行によって実現される。
なお、上述の表示制御部14、認証要求部19、発話方向特定部20、テキスト化部21、モデル特定部22および音声合成部23のうち少なくともいずれかは、ASIC(Application Specific Integrated Circuit)またはFPGA(Field−Programmable Gate Array)等のハードウェア回路によって実現されるものとしてもよい。
また、図6に示した通信端末10の各機能部は、機能を概念的に示したものであって、このような構成に限定されるものではない。例えば、図6に示した通信端末10で独立した機能部として図示した複数の機能部を、1つの機能部として構成してもよい。一方、図6に示した通信端末10の1つ機能部が有する機能を複数に分割し、複数の機能部として構成するものとしてもよい。
<管理システムの機能ブロックの構成>
図6に示すように、管理システム50は、通信部51と、認証部52と、状態管理部53と、端末抽出部54と、端末状態取得部55と、セッション制御部56と、記憶・読出部57と、記憶部58と、を有している。管理システム50は、さらに、帯域判定部61と、音声認識部62と、音声分析部63と、登録部64と、を有している。記憶部58は、図4に示す補助記憶装置305によって実現され、図6に示すように、認証管理DB5001と、端末管理DB5002と、グループ管理DB5003と、セッション管理DB5004とを記憶している。以下、記憶部58に記憶されている各DBにおいて管理される各テーブルについて説明する。
<<認証管理テーブル>>
図8は、認証管理テーブルの一例を示す図である。
記憶部58は、図8に示す認証管理テーブルを含む認証管理DB5001を記憶している。認証管理テーブルでは、ログインの認証を行う通信端末10を利用するユーザ(参加者)を識別するユーザIDに対して、パスワードが関連付けられて管理される。ここで、パスワードは、ログインの認証するために利用される情報である。例えば、図8に示す認証管理テーブルにおいて、ユーザIDが「A_10aa」に関連付けられたパスワードが「aaaa」であることが示されている。
なお、ユーザIDは、通信端末10を利用するユーザを一意に識別するために使われる文字、記号、数字または各種のしるし等の識別情報であり、例えば、当該ユーザが利用するメールアドレス等であってもよい。
<<端末管理テーブル>>
図9は、端末管理テーブルの一例を示す図である。
記憶部58は、図9に示す端末管理テーブルを含む端末管理DB5002を記憶している。端末管理テーブルでは、各通信端末10の端末ID毎に、端末名、各通信端末10にログインしたユーザのユーザID、各通信端末10の稼動状態、他の通信端末10との通信状態、および各通信端末10のIPアドレスが関連付けられて管理される。
ここで、稼動状態としては、電源がオンされ、通信が可能または通信中の状態であるオンラインと、電源がオンされていない等、通信が可能でない状態であるオフラインとがある。また、通信状態としては、例えば、「Calling」、「Ringing」、「Accepted」、「Busy」、および「None」等がある。「Calling」は、他の通信端末10を呼び出している状態、すなわち、他の通信端末10に対しビデオ会議に用いられるセッションを確立するための開始要求情報を送信し、応答を待っている状態を示す。「Ringing」は、他の通信端末10から呼び出されている状態、すなわち、他の通信端末10から開始要求情報を受信し、受信した開始要求情報に対する応答が完了していない状態を示す。「Accepted」は、他の通信端末10からの開始要求情報に対し許可の応答が完了しているが、セッションの確立が完了していない状態、および、自端末が送信した開始要求情報に対し許可の応答の受信が完了しているが、セッションの確立が完了していない状態を示す。「Busy」は、他の通信端末10とのセッションが確立し、ビデオ会議におけるコンテンツデータの通信による通話が行われている状態を示す。「None」は、他の通信端末10と通信しておらず、待ち受け中の状態を示す。
例えば、図9に示す端末管理テーブルにおいて、端末IDが「10ad」の通信端末10adは、端末名が「日本 東京事業所 AD端末」で、ログインしているユーザのユーザIDが「C_10ad」で、稼動状態が「オンライン」で、通信状態が他の通信端末10から呼び出されている状態を示す「Ringing」で、この通信端末10adのIPアドレスが「1.2.1.6」であることが示されている。
<<グループ管理システム>>
図10は、グループ管理テーブルの一例を示す図である。
記憶部58は、図10に示すグループ管理テーブルを含むグループ管理DB5003を記憶している。グループ管理テーブルでは、管理システム50に予め登録されているビデオ会議のグループごとに、当該グループに含まれる通信端末10の端末IDが管理される。すなわち、グループ管理テーブルでは、グループを識別するグループIDと、当該グループに含まれる通信端末10の端末IDとが関連付けられて管理される。
例えば、図10に示すグループ管理テーブルにおいて、グループIDが「G002」のグループは、端末IDが「10ac」、「10ca」、「10cb」である通信端末10を含むことが示されている。
<<セッション管理テーブル>>
図11は、セッション管理テーブルの一例を示す図である。
記憶部58は、図11に示すセッション管理テーブルを含むセッション管理DB5004を記憶している。セッション管理テーブルでは、通信端末10間でコンテンツデータが通信されるセッションを識別するためのセッションID毎に、セッションの開始要求端末の端末ID、およびセッションを確立するための開始要求情報において相手先として指定された宛先端末の端末IDが関連付けられて管理される。
例えば、図11に示すセッション管理テーブルにおいて、セッションID「se1」で識別されるセッションは、端末IDが「10aa」の開始要求端末(通信端末10aa)と、端末IDが「10db」の宛先端末(通信端末10db)との間で確立されたことを示す。
なお、図8〜図11に示した各テーブルで管理される情報は、テーブル形式の情報としているが、これに限定されるものではなく、管理される各情報が関連付けられることができれば、テーブル形式に限定されるものではない。
図12は、音声認識部の機能の流れの一例を示す図である。図13は、音声分岐部の機能の流れの一例を示す図である。図6に戻り、図12および図13も参照しながら、管理システム50の機能ブロックの説明に戻る。
通信部51は、通信ネットワーク2を介して、通信端末10または他のシステムと各種データの送受信を行う機能部である。通信部51は、図4に示すCPU301によるプログラムの実行、およびネットワークI/F309によって実現される。
認証部52は、通信部51を介して受信された認証要求情報に含まれているユーザIDおよびパスワードを検索キーとし、記憶部58の認証管理テーブル(図8参照)を検索し、認証管理テーブルに同一のユーザIDおよびパスワードが管理されているかを判断することによってユーザ認証を行う機能部である。認証部52は、図4に示すCPU301によるプログラムの実行によって実現される。
状態管理部53は、図9に示す端末管理テーブルの稼動状態および通信状態を管理する機能部である。状態管理部53は、ログインの認証を要求してきた通信端末10の稼動状態を管理すべく、端末管理テーブルに、この通信端末10の端末ID、当該通信端末10にログインしている参加者のユーザID、当該通信端末10の稼動状態、および当該通信端末10のIPアドレスを関連付けて記憶して管理する。
状態管理部53は、通信端末10のユーザによる操作入力受付部12に対する操作によってオフ状態からオン状態になると、この通信端末10から送られてきた電源をオンする旨の情報に基づいて、端末管理テーブルの稼動状態をオフラインからオンラインに更新する。また、状態管理部53は、通信端末10のユーザによる操作入力受付部12に対する操作によってオン状態からオフ状態になると、この通信端末10から送られてきた電源をオフする旨の情報に基づいて、端末管理テーブルの稼動状態をオンラインからオフラインに更新する。
状態管理部53は、図4に示すCPU301によるプログラムの実行によって実現される。
端末抽出部54は、ログインの認証要求した通信端末10等、処理対象となる対象端末の端末IDを検索キーとして、図10に示すグループ管理テーブルを検索し、対象端末と通話することができる、すなわちセッションを確立することのできる宛先端末の候補(同じグループの通信端末10)の端末IDを読み出す機能部である。端末抽出部54は、図4に示すCPU301によるプログラムの実行によって実現される。
端末状態取得部55は、端末IDを検索キーとして、図9に示す端末管理テーブルを検索し、端末ID毎に稼動状態および通信状態を読み出す機能部である。これにより、端末状態取得部55は、ログインの認証要求をしてきた通信端末10と通話することができる宛先端末の候補の稼動状態および通信状態を取得することができる。端末状態取得部55は、図4に示すCPU301によるプログラムの実行によって実現される。
セッション制御部56は、図10に示すセッション管理テーブルに、生成したセッションID、開始要求端末の端末IDおよび宛先端末の端末IDを関連付けて記憶して管理する機能部である。セッション制御部56は、通信端末10間のセッションの確立をするための制御を行う。セッション制御部56は、図4に示すCPU301によるプログラムの実行によって実現される。
記憶・読出部57は、記憶部58に各種テーブルに情報を記憶したり、記憶部58に記憶された各種テーブルの情報を読み出す処理を行う機能部である。記憶・読出部57は、図4に示すCPU301によるプログラムの実行によって実現される。記憶部58は、図4に示すRAM303および補助記憶装置305のうち少なくともいずれかによって実現される。
帯域判定部61は、通信ネットワーク2の帯域(すなわちデータ通信速度)を検出して判定を行う機能部である。例えば、帯域判定部61は、検出した帯域が所定の閾値以上であるか否かを判定する。
帯域判定部61は、検出した帯域に対する判定結果に応じて、通信端末10間での通信動作に対する動作モードを切り替える。例えば、帯域判定部61は、検出した帯域が所定の閾値以上であると判定した場合、動作モードをネットワーク帯域満足動作モード(以下、単に帯域満足動作モードと称する)に切り替える。一方、帯域判定部61は、検出した帯域が所定の閾値未満であると判定した場合、動作モードをネットワーク帯域不足動作モード(以下、単に帯域不足動作モードと称する)に切り替える。
なお、帯域判定部61は、実際の通信ネットワーク2の帯域を検出するものとしているが、これに限定されるものではなく、例えば、セッショが確立している通信端末10間で大容量のデータが通信されることが見込まれると予測した場合に、動作モードを帯域不足動作モードに切り替えるような動作としてもよい。
帯域判定部61は、図4に示すCPU301によるプログラムの実行によって実現される。
音声認識部62は、通信部51により通信端末10から受信された参加者の音声データをテキストに変換して出力するという音声認識動作を実行する機能部である。具体的には、図12に示すように、音声認識部62は、まず、通信部51により受信された参加者の音声データを入力し、当該音声データから音の最小構成単位である音素を特定する。次に、音声認識部62は、特定した音素を辞書とマッチングして単語に変換してテキストとして出力する。実際に音声認識を使う際には、議事録の収録等の用途に使われる事があり、短い単語で使われるよりは、一定程度の長さの文章に対して使われることが多くなる。したがって、単語と単語との繋がりを正しく認識する必要があり、辞書の構造を工夫することによって、マッチングの探索の速度の効率を上げることができる。音声認識部62は、図4に示すCPU301によるプログラムの実行によって実現される。
音声分析部63は、音声認識部62により音声データから変換されたテキストと、通信部51により受信された音声データとの比較によって、当該音声データに対応する参加者の音声合成モデルを生成する音声分析動作を実行する機能部である。実際に発生される音声は、複雑な形状の波形となるが、その音源は比較的単純な波形としてモデル化が可能である。例えば、パルスの間隔(ピッチ周期)、パルスの大きさ、および音声再合成フィルタのフィルタ係数等で音声を表現できる。具体的には、図13に示すように、音声分析部63は、通信部51により受信された音声データを入力し、音声認識部62により認識されたテキストと比較して、符号化を行い、当該音声データに対応する参加者の音声合成モデルを生成する。このような音声合成モデルは、一度生成されれば、当該音声合成モデルに対応する参加者の音声のテキストから音声合成データを生成することができる。音声分析部63は、図4に示すCPU301によるプログラムの実行によって実現される。
登録部64は、通信部51により受信された参加者の音声の発話方向を、後述する図28に示す発話方向・音声合成モデル対応テーブルに、話者を識別する情報(話者識別情報)として登録する。また、登録部64は、発話方向・音声合成モデル対応テーブルにおいて、音声分析部63により参加者の音声のテキストおよび音声データから生成された音声合成モデルを、当該参加者に対応する発話方向と関連付けて記憶させる(登録する)。この際、登録部64は、発話方向・音声合成モデル対応テーブルを、各拠点の通信端末10ごとに生成する。そして、登録部64は、帯域満足動作モード時に、発話方向および音声合成モデルが登録された発話方向・音声合成モデル対応テーブルを、当該発話方向・音声合成モデル対応テーブルに登録された発話方向に対応する参加者の拠点との通話対象となる相手拠点の通信端末10へ、通信部51を介して送信する。登録部64は、図4に示すCPU301によるプログラムの実行によって実現される。
なお、上述の認証部52、状態管理部53、端末抽出部54、端末状態取得部55、セッション制御部56、帯域判定部61、音声認識部62、音声分析部63および登録部64のうち少なくともいずれかは、ASICまたはFPGA等のハードウェア回路によって実現されるものとしてもよい。
また、図6に示した管理システム50の各機能部は、機能を概念的に示したものであって、このような構成に限定されるものではない。例えば、図6に示した管理システム50で独立した機能部として図示した複数の機能部を、1つの機能部として構成してもよい。一方、図6に示した管理システム50の1つ機能部が有する機能を複数に分割し、複数の機能部として構成するものとしてもよい。
また、図6に示した通信端末10が有する機能部は、例えば管理システム50で実現される場合があってもよく、管理システム50が有する機能部は、例えば通信端末10で実現する場合があってもよい。また、通信端末10および管理システム50が有する機能部は、通信端末10および管理システム50以外の装置が実現する場合があってもよい。例えば、管理システム50の音声認識部62および音声分析部63は、各拠点の通信端末10に入力された音声データから音声合成モデルを生成するものとしているが、これに限定されるものではなく、通信端末10が、当該通信端末10を利用する参加者の音声データから音声合成モデルを生成し、相手拠点の通信端末10へ当該音声合成モデルを送信するものとしてもよい。
(コンテンツデータおよび各種管理情報の送受信の状態)
図14は、第1の実施形態に係る通信システムにおけるコンテンツデータおよび各種管理情報を送受信するために確立されたセッションを示す図である。図14を参照しながら、通信システム1におけるコンテンツデータおよび各種管理情報を送受信するために確立されたセッションについて説明する。
図14に示すように、通信システム1では、開始要求端末と宛先端末Aと宛先端末Bとの間で、管理システム50を介して、各種の管理情報を送受信するための管理情報用セッションseiが確立される。さらに、開始要求端末と宛先端末Aと宛先端末Bとの間で、管理システム50を介して、画像データおよび音声データ等を送受信するためのコンテンツデータ用セッションsedが確立される。すなわち、コンテンツデータ用セッションsedが、ビデオ会議において直接的に用いられるセッションである。なお、このセッションの概念はあくまで一例であって、例えば、画像データのセッションでは、解像度ごとに分けられるものとしてもよい。
(通信端末が通話開始する前の準備段階における各管理情報の送受信処理)
図15は、第1の実施形態に係る通信システムにおける、通信端末が通話を開始するための認証処理を含む準備段階の処理の一例を示すシーケンス図である。図16は、宛先リストの表示例を示す図である。図15および図16を参照しながら、通信端末10aaが通話を開始する前の準備段階における各情報の送受信処理について説明する。なお、図15では、管理情報用セッションseiによって、各種管理情報が送受信される処理が示されている。
<ステップS21>
まず、通信端末10aaのユーザが、図2に示す入力装置108(図3に示す電源スイッチ222)に対する操作により電源をオンにすると、通信端末10aaの操作入力受付部12が、電源オンを受け付けて、通信端末10aaの電源をオンにする。
<ステップS22>
そして、通信端末10aaの認証要求部19は、上述の通信端末10aaの電源オンを契機とし、通信部11から通信ネットワーク2を介して管理システム50に、ログインの認証要求を示す認証要求情報、および通信端末10aaのIPアドレスを送信する。この認証要求情報には、開始要求端末としての自端末である通信端末10aaを識別するための端末ID、通信端末10aaにログインしているユーザのユーザID、およびパスワードが含まれている。端末ID、ユーザIDおよびパスワードは、通信端末10aaの記憶・読出部17によって記憶部18から読み出されて、通信部11に送られたデータである。また、通信端末10aaから管理システム50へ認証要求情報が送信される際は、受信側である管理システム50は、送信側である通信端末10aaのIPアドレスを把握することができる。
<ステップS23>
次に、管理システム50の認証部52は、通信部51を介して受信した認証要求情報に含まれているユーザIDおよびパスワードを検索キーとして、認証管理テーブル(図8参照)を検索し、認証管理テーブルに同一のユーザIDおよびパスワードが管理されているかを判断することによってユーザ認証を行う。
<ステップS24−1>
認証部52によって、正当な利用権限を有する通信端末10からのログインの認証要求であると判断された場合には、管理システム50の状態管理部53は、端末管理テーブル(図9参照)に、通信端末10aaの端末IDおよび端末名で示されるレコード毎に、ユーザIDおよび通信端末10aaのIPアドレスを関連付けて記憶する。これにより、端末管理テーブルには、通信端末10aaの端末ID「10aa」に、ユーザID「A_10aa」およびIPアドレス「1.2.1.3」が関連付けて管理されることになる。
<ステップS24−2>
続いて、状態管理部53は、通信端末10aaの稼動状態「オンライン」および通信状態「None」を設定し、端末管理テーブルに、通信端末10aaの端末IDおよび端末名で示されるレコードに、稼動状態および通信状態を関連付けて記憶する。これにより、端末管理テーブルには、通信端末10aaの端末ID「10aa」に、稼動状態「オンライン」および通信状態「None」が関連付けて管理されることになる。
<ステップS25>
そして、管理システム50の通信部51は、認証部52によって得られたユーザ認証の結果が示された認証結果情報を、通信ネットワーク2を介して、認証要求情報を送信してきた開始要求端末(通信端末10aa)に送信する。本実施形態では、通信端末10aaが、認証部52によって正当な利用権限を有するユーザが利用する端末であるとユーザ認証されたものとして、以下続けて説明する。
<ステップS26>
通信端末10aaにおいて、正当な利用権限を有するユーザが利用する端末であるとユーザ認証された結果が示された認証結果情報を受信すると、通信部11は、通信ネットワーク2を介して管理システム50へ、宛先リストを要求する旨を示す宛先リスト要求情報を送信するこれにより、管理システム50の通信部51は、宛先リスト要求情報を受信する。
<ステップS27>
次に、管理システム50の端末抽出部54は、開始要求端末(通信端末10aa)の端末ID「10aa」を検索キーとして、グループ管理テーブル(図10参照)を検索し、開始要求端末が通話することができる、すなわち、開始要求端末と同じグループ(ここでは、グループID「G001」のグループ)に属する宛先端末の候補の端末IDを抽出する。また、端末抽出部54は、抽出した端末IDを検索キーとして、端末管理テーブルを検索し、この端末IDに対応する端末名、すなわち宛先端末の候補の端末名を抽出する。ここでは、開始要求端末(通信端末10aa)の端末ID「10aa」に対応する宛先端末の候補(通信端末10ab、10ac、10db)のそれぞれの端末ID(「10ab」、「10ac」、「10db」)と、これらに対応する端末名(「日本 東京事業所 AB端末」、「日本 東京事業所 AC端末」、「アメリカ ワシントン事業所 DB端末」)が抽出される。
<ステップS28、S29>
次に、管理システム50の通信部51は、端末抽出部54によって抽出された宛先端末の候補の端末IDおよび端末名を含む宛先リスト情報を、開始要求端末(通信端末10aa)に送信する。これにより、開始要求端末(通信端末10aa)では、通信部11が宛先リスト情報を受信し、記憶・読出部17が記憶部18へ宛先リスト情報を記憶する。
このように、本実施形態では、各通信端末10で宛先リスト情報を管理するのではなく、管理システム50がすべての通信端末10の宛先リスト情報を一元管理している。これによって、通信システム1に新たな通信端末10が含まれるようになったり、既に含まれている通信端末10が除外されたりする場合でも、管理システム50側で一括して対応するため、各通信端末10側で宛先リスト情報の変更を行う手間を省くことができる。
<ステップS30>
また、管理システム50の端末状態取得部55は、端末抽出部54によって抽出された宛先端末の候補の端末ID(「10ab」、「10ac」、「10db」)を検索キーとして、端末管理テーブルを検索する。そして、端末状態取得部55は、宛先端末の候補の端末ID毎に、対応する稼動状態および通信状態を読み出すことにより、宛先端末の候補(通信端末10ab、10ac、10db)それぞれの稼動状態および通信状態を取得する。
<ステップS31>
次に、通信部51は、ステップS30で使用された検索キーである端末IDと、対応する宛先端末の候補の稼動状態および通信状態とを含む状態情報を、通信ネットワーク2を介して開始要求端末に送信する。具体的には、通信部51は、例えば、検索キーとしての端末ID「10ab」と、宛先端末の候補(通信端末10ab)の稼動状態「オフライン」とを含む状態情報を、開始要求端末(通信端末10aa)に送信する。なお、稼動状態が「オフライン」の場合には、状態情報には、通信状態は含まれない。また、通信部51は、端末ID「10ac」と、宛先端末の候補(通信端末10ac)の稼動状態「オンライン」と、通信状態「None」とを含む状態情報等、宛先端末の候補すべてに対する状態情報それぞれを開始要求端末(通信端末10aa)へ送信する。
<ステップS32>
次に、開始要求端末(通信端末10aa)の記憶・読出部17は、順次、管理システム50から受信した状態情報を記憶部18に記憶する。したがって、開始要求端末(通信端末10aa)は、宛先端末の候補の状態情報を受信することで、通話することができる宛先端末の候補の現時点のそれぞれの稼動状態および通信状態を取得することができる。
<ステップS33>
次に、開始要求端末(通信端末10aa)の表示制御部14は、記憶部18に記憶されている宛先リスト情報、および宛先端末の候補の状態情報に基づいて、宛先端末の候補の稼動状態および通信状態を反映させた宛先リストを作成する。そして、表示制御部14は、図1に示すディスプレイ120aaに、所定のタイミングで図16に示すような宛先リストを表示する。
図16に示すように、ディスプレイ120aaに表示される宛先リストは、宛先端末の候補の端末ID1100−2と、端末名1100−3と、状態情報を反映させたアイコン1100−4a、1100−4b等を含む。アイコンとしては、オフラインで通話できないことを示すオフラインアイコン1100−4aと、オンラインで通話可能であることを示す通話可能アイコン1100−4bと、がある。なお、オンラインで通話中であることを示す通話中アイコン等があってもよい。
表示制御部14は、宛先端末の候補の稼動状態が「オンライン」であり、通信状態が「None」である場合には、この宛先端末の候補に対し、通話可能アイコン1100−4bを割り当てる。また、表示制御部14は、宛先端末の候補の稼動状態が「オフライン」である場合には、この宛先端末の候補に対し、オフラインアイコン1100−4aを割り当てる。なお、表示制御部14は、宛先端末の候補の稼動状態が「オンライン」であり、通信状態が「None」以外である場合には、この宛先端末の候補に対し、通話中アイコンを割り当てればよい。
なお、他の通信端末10でも、ステップS21と同様に、ユーザが図2に示す入力装置108(図3に示す電源スイッチ222)を介して電源をオンにすると、当該通信端末10の操作入力受付部12が、電源オンを受け付けて、上述のステップS22〜S33の処理と同様の処理が行われる。
(通信端末が他の通信端末との通信の開始を要求する場合の処理)
図17は、第1の実施形態に係る通信システムにおける通話の開始を要求する処理の一例を示すシーケンス図である。図17を参照しながら、通信端末10が他の通信端末10との通信の開始を要求する場合の処理を説明する。なお、図17では、すべて管理情報用セッションseiによって、各種管理情報が送受信される処理が示されている。
図17においては、図15においてログインが許可された通信端末10aaが、開始要求情報を送信する例、すなわち、通信端末10aaが開始要求端末として動作する例について説明する。開始要求端末としての通信端末10aaは、図15のステップS31で受信した宛先端末の候補の状態情報に基づいて、宛先端末の候補のうち、稼動状態が「オンライン」であり、通信状態が「None」である通信端末10のうち少なくとも1つの通信端末10と通話を行うことができる。例えば、開始要求端末(通信端末10aa)は、宛先端末の候補のうち、図15のステップS31によって受信した状態情報により、稼動状態が「オンライン」であり、通信状態が「None」である通信端末10dbと通話を行うことができる。そこで、以下では、開始要求端末(通信端末10aa)のユーザが、宛先端末(通信端末10db)と通話を開始することを選択した場合について説明する。
なお、図17に示す処理が開始される前の状態において、開始要求端末としての通信端末10aaのディスプレイ120aaには、図16に示す宛先リストが表示されているものとする。そして、開始要求端末のユーザは、宛先リストから所望の通話相手(宛先端末)を選択することができる。
<ステップS41>
まず、開始要求端末のユーザは、通信端末10aaの入力装置108(または接触センサ216、選択スイッチ223)を操作して宛先端末(通信端末10db)を選択する。
<ステップS42>
すると、通信端末10aaの通信部11は、開始要求端末(通信端末10aa)の端末ID「10aa」、および宛先端末(通信端末10db)の端末ID「10db」を含む開始要求情報を、開始要求端末のIPアドレスと共に管理システム50へ送信する。これにより、管理システム50の通信部51は、開始要求情報を受信すると共に、送信元である開始要求端末(通信端末10aa)のIPアドレス「1.2.1.3」を把握することになる。
<ステップS43>
そして、状態管理部53は、開始要求情報に含まれる開始要求端末(通信端末10aa)の端末ID「10aa」および宛先端末(通信端末10db)の端末ID「10db」に基づき、端末管理DB5002の端末管理テーブルにおいて、端末ID「10aa」および端末ID「10db」がそれぞれ含まれるレコードの通信状態のフィールド部分を変更する。具体的には、状態管理部53は、端末管理テーブルの端末ID「10aa」が含まれるレコードの通信状態を「Calling」に変更する。同様に、状態管理部53は、端末管理テーブルの端末ID「10db」が含まれるレコードの通信状態を「Ringing」に変更する。
<ステップS44>
そして、管理システム50のセッション制御部56は、開始要求端末(通信端末10aa)によって要求された宛先端末との間の通信を実行するためのセッション(コンテンツデータ用セッションsed)を識別するためのセッションID「se1」を生成する。セッション制御部56は、セッションIDを生成すると、セッションID「se1」をセッション管理テーブル(図11参照)に記憶する。
<ステップS45>
続いて、セッション制御部56は、セッション管理テーブルにおいて、セッションID「se1」が含まれるレコードの開始要求端末の端末IDおよび宛先端末の端末IDのフィールド部分に、それぞれ開始要求端末の端末ID「10aa」、宛先端末の端末ID「10db」を記憶して管理する。
<ステップS46>
次に、通信部51は、通信ネットワーク2を介して、開始要求端末(通信端末10aa)へ、セッション制御部56により生成されたセッションIDを送信する。
<ステップS47>
また、通信部51は、開始要求端末の端末ID「10aa」と、セッションID「se1」とを含む開始要求情報と、管理システム50のIPアドレスとを宛先端末へ送信する。これにより、宛先端末(通信端末10db)は、開始要求情報を受信すると共に、管理システム50のIPアドレス「1.1.1.2」を把握することになる。
(宛先端末が開始要求端末との間で通信開始を許可する応答を受け付けた場合の処理)
図18は、第1の実施形態に係る通信システムにおける通話の開始の要求を許可する処理の一例を示すシーケンス図である。図19は、開始要求受付画面の表示例を示す図である。図18および図19を参照しながら、開始要求情報を受信した宛先端末のユーザが、入力装置108(または、接触センサ216、選択スイッチ223)を操作することにより、開始要求端末との間の通信の開始(セッションの確立)を許可する旨の応答が受け付けられた場合の処理について説明する。
<ステップS51>
図18に示す送受信処理の開始時には、宛先端末(通信端末10db)のディスプレイ214には、開始要求情報を受信したことを示す開始要求受付画面1200−1(図19参照)が表示されている。
図19に示す開始要求受付画面1200−1は、開始要求情報を受信した旨を示し、開始要求端末との間の通信の開始(セッションの確立)を許可するか否かを指定するためのユーザインターフェースである。ユーザは、開始要求受付画面1200−1を閲覧することにより、開始要求を受信したことを確認することができる。開始要求受付画面1200−1は、セッションの確立を許可するための「はい」ボタン1200−2と、セッションの確立を許可しない選択をするための「いいえ」ボタン1200−3と、を含む。
<ステップS52>
宛先端末(通信端末10db)の入力装置108(または、接触センサ216、選択スイッチ223)の操作によって「はい」ボタン1200−2が押下された場合、操作入力受付部12は、開始要求端末(通信端末10aa)との間の通信の開始(セッション確立)を許可する旨の応答を受け付ける。
<ステップS53>
次に、宛先端末の通信部11は、宛先端末の端末ID「10db」、開始要求端末の端末ID「10aa」、およびセッションID「se1」が含まれる開始応答情報を、管理システム50へ送信する。
<ステップS54>
管理システム50の通信部51が開始応答情報を受信すると、状態管理部53は、開始応答情報に含まれる開始要求端末の端末ID「10aa」および宛先端末の端末ID「10db」に基づき、端末管理テーブルにおいて、端末ID「10aa」および端末ID「10db」がそれぞれ含まれるレコードの通信状態のフィールド部分を変更する。具体的には、状態管理部53は、端末管理テーブルの端末ID「10aa」が含まれるレコードの通信状態を「Accepted」に変更する。同様に、状態管理部53は、端末管理テーブルの端末ID「10db」が含まれるレコードの通信状態も「Accepted」に変更する。
<ステップS55>
次に、通信部51は、宛先端末(通信端末10db)の端末ID「10db」、およびセッションID「se1」が含まれる開始応答情報を開始要求端末(通信端末10aa)へ送信する。
<ステップS56>
開始要求端末は、この開始応答情報を受信すると、通信部11によってセッションID「se1」を管理システム50に送信することにより、セッションを確立させる。
<ステップS57>
一方、宛先端末は、通信部11によってセッションID「se1」を管理システム50に送信することにより、セッションを確立させる。
なお、上述の図15における同じグループの通信端末10を識別する端末IDを抽出する動作、ならびに図17および図18に示す通信端末10aaと通信端末10dbとの間でセッションを確立させるための動作においては、端末IDを利用した動作ではなく、各通信端末にログインしているユーザのユーザID(例えばメールアドレス等)を利用した動作であってもよい。
(通信システムの全体動作の流れの概略)
図20は、第1の実施形態に係る通信システムにおいて帯域満足時のデータの流れおよび処理の概略を説明する図である。図21は、第1の実施形態に係る通信システムにおいて帯域不足時のデータの流れおよび処理の概略を説明する図である。図20および図21を参照しながら、本実施形態に係る通信システム1の全体動作の流れの概略について説明する。なお、図20および図21においては、通信端末10aaと通信端末10dbとの間でセッションが確立し、通話ができる状態になっているものとし、通信端末10aaを利用する参加者はA、Bであり、通信端末10dbを利用する参加者はC、Dであるものとする。
図20に示すように、通信ネットワーク2のトラフィックが混んでおらず、管理システム50の帯域判定部61により帯域が所定の閾値以上と判定(すなわち帯域が十分であると判定)され、帯域満足動作モードに切り替えられている場合、通信端末10aaと通信端末10dbとの間で、映像データおよび音声データがやり取りされる。また、通信端末10aaの通信部11は、発話方向特定部20により特定された参加者A、Bの音声の発話方向(話者識別情報の一例)を、管理システム50を介して通信端末10dbへ送信する。同様に、通信端末10dbの通信部11は、発話方向特定部20により特定された参加者C、Dの音声の発話方向(話者識別情報の一例)を、管理システム50を介して通信端末10aaへ送信する。
さらに、管理システム50の音声認識部62は、通信端末10aaから受信した参加者A、Bの音声データをテキストに変換し、音声分析部63は、当該テキストと、当該音声データとの比較から参加者A、Bの音声合成モデルを生成する。そして、登録部64は、発話方向・音声合成モデル対応テーブルにおいて、音声分析部63により参加者A、Bの音声のテキストおよび音声データから生成された音声合成モデルを、当該参加者A、Bに対応する発話方向と関連付けて記憶させる(登録する)。そして、登録部64は、発話方向および音声合成モデルが登録された発話方向・音声合成モデル対応テーブルを、当該発話方向・音声合成モデル対応テーブルに登録された発話方向に対応する参加者A、Bの拠点との通話対象となる相手拠点の通信端末10dbへ、通信部51を介して送信する。通信端末10dbの記憶・読出部17は、管理システム50から通信部11を介して受信した参加者A、Bの発話方向・音声合成モデル対応テーブルを、記憶部18に記憶させる。
同様に、管理システム50の音声認識部62は、通信端末10dbから受信した参加者C、Dの音声データをテキストに変換し、音声分析部63は、当該テキストと、当該音声データとの比較から参加者C、Dの音声合成モデルを生成する。そして、登録部64は、発話方向・音声合成モデル対応テーブルにおいて、音声分析部63により参加者C、Dの音声のテキストおよび音声データから生成された音声合成モデルを、当該参加者C、Dに対応する発話方向と関連付けて記憶させる(登録する)。そして、登録部64は、発話方向および音声合成モデルが登録された発話方向・音声合成モデル対応テーブルを、当該発話方向・音声合成モデル対応テーブルに登録された発話方向に対応する参加者C、Dの拠点との通話対象となる相手拠点の通信端末10aaへ、通信部51を介して送信する。通信端末10aaの記憶・読出部17は、管理システム50から通信部11を介して受信した参加者C、Dの発話方向・音声合成モデル対応テーブルを、記憶部18に記憶させる。
すなわち、帯域満足動作モードでは、通常の映像データおよび音声データが、通信端末10間でやり取りされると共に、管理システム50において音声データから音声合成モデルを生成し、帯域不足動作モードで使用するために当該音声合成モデルを相手拠点へ送信しておくことになる。
一方、図21に示すように、通信ネットワーク2のトラフィックが混んでいて、管理システム50の帯域判定部61により帯域が所定の閾値未満と判定(すなわち帯域が不十分であると判定)され、帯域不足動作モードに切り替えられている場合、通信端末10aaと通信端末10dbとの間では、静止画データおよびテキストデータがやり取りされる。すなわち、通信端末10aaの通信部11は、テキスト化部21により参加者A、Bの音声データから変換されたテキスト(テキストデータ)を、管理システム50を介して通信端末10dbへ送信する。また、通信部11は、テキストと共に、撮像部13により撮像された静止画データ、おおよび、発話方向特定部20により特定された参加者A、Bの音声の発話方向(話者識別情報の一例)を、管理システム50を介して通信端末10dbへ送信する。同様に、通信端末10dbの通信部11は、テキスト化部21により参加者C、Dの音声データから変換されたテキスト(テキストデータ)を、管理システム50を介して通信端末10aaへ送信する。また、通信部11は、テキストと共に、撮像部13により撮像された静止画データ、おおよび、発話方向特定部20により特定された参加者C、Dの音声の発話方向(話者識別情報の一例)を、管理システム50を介して通信端末10aaへ送信する。
そして、通信端末10aaのモデル特定部22は、記憶部18に記憶された発話方向・音声合成モデル対応テーブルを参照し、通信端末10dbから通信部11を介してテキスト共に受信した参加者CまたはDの発話方向から、当該参加者CまたはDに対応する音声合成モデルを特定する。次に、通信端末10aaの音声合成部23は、モデル特定部22により特定された音声合成モデルと、通信部11により受信された相手拠点の参加者CまたはDの音声のテキストとを用いて音声の合成を行い、当該参加者CまたはDの音声合成データを得る。そして、通信端末10aaの音声出力部16は、音声合成部23により合成された音声合成データをスピーカ114b(スピーカ242)から音声として出力させる。
同様に、通信端末10dbのモデル特定部22は、記憶部18に記憶された発話方向・音声合成モデル対応テーブルを参照し、通信端末10aaから通信部11を介してテキスト共に受信した参加者AまたはBの発話方向から、当該参加者AまたはBに対応する音声合成モデルを特定する。次に、通信端末10dbの音声合成部23は、モデル特定部22により特定された音声合成モデルと、通信部11により受信された相手拠点の参加者AまたはBの音声のテキストとを用いて音声の合成を行い、当該参加者AまたはBの音声合成データを得る。そして、通信端末10dbの音声出力部16は、音声合成部23により合成された音声合成データをスピーカ114b(スピーカ242)から音声として出力させる。
このように、帯域不足動作モードでは、通信端末10では帯域満足動作モード時に管理システム50から取得しておいた発話方向・音声合成モデル対応テーブルに登録されている相手拠点の参加者の音声合成モデルを用いて、受信したテキストと音声合成を行い、音声合成データを得て、スピーカ114b(スピーカ242)から音声として出力させるものとしている。これによって、通信端末10間で通信ネットワーク2を介して通信されるデータは、静止画データおよびテキストデータという、映像データおよび音声データと比較してデータ量が大幅に小さいデータであるため、通信ネットワーク2のトラフィックを逼迫することを回避することができる。さらに、通信端末10で合成される音声合成データは、相手拠点の参加者の音声データに基づいて生成された音声合成モデルを使用して作成されるので、当該参加者の音声に似た音声を生成することができ、違和感のないコミュニケーションを実現することができる。
(管理システムの帯域判定処理)
図22は、第1の実施形態に係る管理システムの帯域判定処理の流れの一例を示すフローチャートである。図22を参照しながら、本実施形態に係る管理システム50の帯域判定処理の流れについて説明する。
<ステップS61>
管理システム50の帯域判定部61は、通信ネットワーク2の帯域(すなわちデータ通信速度)を検出して、帯域が所定の閾値以上であるか否かを判定する。帯域が所定の閾値以上である場合(ステップS61:Yes)、ステップS62へ移行し、帯域が所定の閾値未満である場合(ステップS61:No)、ステップS63へ移行する。
<ステップS62>
帯域判定部61は、検出した帯域が所定の閾値以上であると判定した場合、動作モードを帯域満足動作モードに切り替える。そして、ステップS64へ移行する。
<ステップS63>
帯域判定部61は、検出した帯域が所定の閾値未満であると判定した場合、動作モードを帯域不足動作モードに切り替える。そして、ステップS64へ移行する。
<ステップS64>
ビデオ会議が継続している場合(ステップS64:No)、ステップS61へ戻り、帯域判定部61は、通信ネットワーク2の帯域の検出および判定を継続する。一方、ビデオ会議が終了した場合(ステップS64:Yes)、管理システム50は帯域判定処理を終了する。
(管理システムの音声合成モデル生成処理)
図23は、第1の実施形態に係る管理システムの音声合成モデル生成処理の流れの一例を示すフローチャートである。図23を参照しながら、本実施形態に係る管理システム50の音声合成モデル生成処理の流れについて説明する。なお、図23に示す音声合成モデル生成処理は、帯域判定部61により帯域満足動作モードに切り替えられている場合に実行される。
<ステップS71>
管理システム50の通信部51は、各拠点の通信端末10から映像データ、音声データ、および当該通信端末10の発話方向特定部20により特定された発話方向を受信する。そして、ステップS72へ移行する。
<ステップS72>
管理システム50の音声認識部62は、通信部51により通信端末10から受信された参加者の音声データをテキストに変換する音声認識動作を実行する。そして、ステップS73へ移行する。
<ステップS73>
管理システム50の音声分析部63は、音声認識部62により変換されたテキストと、通信部51により受信された音声データとの比較によって、当該音声データに対応する参加者の音声合成モデルを生成する音声分析動作を実行する。そして、ステップS74へ移行する。
<ステップS74>
管理システム50の登録部64は、発話方向・音声合成モデル対応テーブルにおいて、音声分析部63により参加者の音声のテキストおよび音声データから生成された音声合成モデルを、当該参加者に対応する発話方向と関連付けて記憶させる(登録する)。この際、登録部64は、発話方向・音声合成モデル対応テーブルを、各拠点の通信端末10ごとに生成する。そして、登録部64は、帯域満足動作モード時に、発話方向および音声合成モデルが登録された発話方向・音声合成モデル対応テーブル(すなわち各参加者の音声合成モデルを含む)を、当該発話方向・音声合成モデル対応テーブルに登録された発話方向に対応する参加者の拠点との通話対象となる相手拠点の通信端末10へ、通信部51を介して送信する。以上で音声合成モデル生成処理を終了する。
(管理システムのコンテンツ中継処理)
図24は、第1の実施形態に係る管理システムのコンテンツ中継処理の流れの一例を示すフローチャートである。図24を参照しながら、本実施形態に係る管理システム50のコンテンツ中継処理の流れについて説明する。なお、図24に示すコンテンツ中継処理が実行されるにあたって、帯域判定部61により帯域不足動作モードに切り替えられているものとする。
<ステップS81>
管理システム50の通信部51は、特定の通信端末10から静止画データを受信すると、当該通信端末10の相手拠点である通信端末10へ、当該静止画データを中継して送信する。そして、ステップS82へ移行する。
<ステップS82>
通信部51は、特定の通信端末10から当該通信端末10により変換されたテキストデータ、および特定された発話方向を受信すると、当該通信端末10の相手拠点となる通信端末10へ、当該テキストデータおよび発話方向を中継して送信する。
以上のステップS81、S82が繰り返されることによって、帯域不足動作モード時の管理システム50によるコンテンツ中継処理が実行される。
(通信端末のコンテンツ送受信処理)
図25は、第1の実施形態に係る通信端末のコンテンツ送受信処理の流れの一例を示すフローチャートである。図25を参照しながら、本実施形態に係る通信端末10のコンテンツ送受信処理の流れについて説明する。なお、図25に示すコンテンツ送受信処理が実行されるにあたって、管理システム50の帯域判定部61により帯域満足動作モードに切り替えられているものとする。
<ステップS91>
特定の通信端末10の通信部11は、音声入力部15により参加者の音声データが入力されると、当該音声データを、相手拠点の通信端末10へ送信する。また、通信部11は、撮像部13により撮影された映像データも相手拠点の通信端末10へ送信する。
また、通信部11により相手拠点の通信端末10から音声データを受信すると、特定の通信端末10の音声出力部16は、当該音声データをスピーカ114b(スピーカ242)から音声として出力(再生)させる。また、通信部11により相手拠点の通信端末10から映像データを受信すると、通信端末10の表示制御部14は、ディスプレイ120(ディスプレイ214)に対して当該映像データを表示させる。そして、ステップS92へ移行する。
<ステップS92>
特定の通信端末10の通信部11は、管理システム50から相手拠点の参加者の音声合成モデルを受信する。具体的には、通信部11は、相手拠点の参加者の音声合成モデルを含む発話方向・音声合成モデル対応テーブル(後述の図28参照)を受信する。特定の通信端末10の記憶・読出部17は、通信部11により受信された発話方向・音声合成モデル対応テーブルを、記憶部18に記憶させる。
以上のステップS91、S92が繰り返されるによって、帯域満足動作モード時の通信端末10によるコンテンツ送受信処理が実行される。
(通信端末の音声合成処理)
図26は、第1の実施形態に係る通信端末の音声合成処理の流れの一例を示すフローチャートである。図26を参照しながら、本実施形態に係る通信端末10の音声合成処理の流れについて説明する。なお、図26に示す音声合成処理が実行されるにあたって、管理システム50の帯域判定部61により帯域不足動作モードに切り替えられているものとする。
<ステップS101>
特定の通信端末10の通信部11は、撮像部13により撮像された静止画データを、相手拠点の通信端末10へ送信する。また、通信部11により相手拠点の通信端末10から静止画データを受信すると、特定の通信端末10の表示制御部14は、ディスプレイ120(ディスプレイ214)に対して当該静止画データを表示させる。なお、帯域不足動作モードの場合、常時、静止画データを送受信する必要はなく、例えば、一定時間毎に、静止画データを送受信するものとしてもよい。そして、ステップS102へ移行する。
<ステップS102>
特定の通信端末10の発話方向特定部20は、音声入力部15により入力された音声信号に基づいて、音声方向(発話方向)を特定する。また、通信端末10のテキスト化部21は、音声入力部15により入力された参加者の音声データをテキストに変換して出力する。そして、特定の通信端末10の通信部11は、発話方向およびテキストを、相手拠点の通信端末10へ送信する。
また、特定の通信端末10の通信部11は、相手拠点の通信端末10から発話方向およびテキストを受信する。そして、ステップS103へ移行する。
<ステップS103>
また、通信部11により相手拠点の通信端末10から発話方向およびテキストを受信すると、特定の通信端末10のモデル特定部22は、記憶部18に記憶されている発話方向・音声合成モデル対応テーブルを参照し、相手拠点の参加者の音声のテキストと共に受信された発話方向から、当該参加者に対応する音声合成モデルを特定する。そして、ステップS104へ移行する。
<ステップS104>
特定の通信端末10の音声合成部23は、モデル特定部22により特定された音声合成モデルと、通信部11により受信された相手拠点の参加者の音声のテキストとを用いて音声の合成を行い、当該参加者の音声合成データを得る。そして、特定の通信端末10の音声出力部16は、当該音声合成データをスピーカ114b(スピーカ242)から音声として出力(再生)させる。
以上のステップS101〜S104が繰り返されるによって、帯域不足動作モード時の通信端末10による音声合成処理が実行される。
(通信システムの全体動作の流れの詳細)
図27は、第1の実施形態に係る通信システムの全体動作の流れの一例を示す図である。図28は、発話方向・音声合成モデル対応テーブルの一例を示す図である。図27および図28を参照しながら、本実施形態に係る通信システム1の全体動作の流れの詳細について説明する。なお、図27の例では、通信端末10aaと通信端末10dbとの間でセッションが確立されているものとする。
<ステップS111>
管理システム50の帯域判定部61は、通信ネットワーク2の帯域(すなわちデータ通信速度)を検出して、帯域が所定の閾値以上であるか否かを判定する。ここでは、帯域判定部61によって帯域が所定の閾値以上であると判定され、動作モードが帯域満足動作モードに切り替えられたものとする。
<ステップS112、S113>
帯域判定部61は、通信部51を介して、通信端末10aaおよび通信端末10dbに、動作モードが帯域満足動作モードであることを通知する。
<ステップS114、S115>
通信端末10aaの通信部11は、音声入力部15により参加者の音声データが入力されると、当該音声データを、管理システム50へ送信する。また、通信部11は、撮像部13により撮影された映像データも、管理システム50へ送信する。さらに、通信部11は、発話方向特定部20により特定された参加者の発話方向も、管理システム50へ送信する。管理システム50の通信部51は、通信端末10aaから受信した映像データ、音声データ、および発話方向を、通信端末10dbへ転送(中継)する。
<ステップS116、S117>
通信端末10dbの通信部11は、音声入力部15により参加者の音声データが入力されると、当該音声データを、管理システム50へ送信する。また、通信部11は、撮像部13により撮影された映像データも、管理システム50へ送信する。さらに、通信部11は、発話方向特定部20により特定された参加者の発話方向も、管理システム50へ送信する。管理システム50の通信部51は、通信端末10dbから受信した映像データ、音声データ、および発話方向を、通信端末10aaへ転送(中継)する。
<ステップS118、S119>
管理システム50の音声認識部62は、通信部51により通信端末10aa、10dbから受信された各参加者の音声データをテキストに変換する音声認識動作を実行する。そして、管理システム50の音声分析部63は、音声認識部62により変換されたテキストと、通信部51により受信された音声データとの比較によって、当該音声データに対応する参加者の音声合成モデルを生成する音声分析動作を実行する。
そして、管理システム50の登録部64は、音声分析部63により参加者の音声のテキストおよび音声データから生成された音声合成モデルを、当該参加者に対応する発話方向と関連付けて、図28に示す発話方向・音声合成モデル対応テーブルに記憶させる(登録する)。この際、登録部64は、発話方向・音声合成モデル対応テーブルを、各拠点の通信端末10ごと、すなわち、通信端末10aaおよび通信端末10dbそれぞれに対して生成する。
図28に示すように、発話方向・音声合成モデル対応テーブルでは、話者(参加者)を識別する話者識別情報として、各通信端末10で特定される話者の発話方向を登録し、各話者に対応する音声合成モデルを、当該発話方向と関連付けて登録される。例えば、図28に示す発話方向・音声合成モデル対応テーブルでは、発話方向が「90°」として特定された参加者に対応する音声合成モデルは「モデル1」であることが示されている。
<ステップS120、S121>
そして、登録部64は、発話方向および音声合成モデルが登録された発話方向・音声合成モデル対応テーブル(すなわち各参加者の音声合成モデルを含む)を、当該発話方向・音声合成モデル対応テーブルに登録された発話方向に対応する参加者の拠点との通話対象となる相手拠点の通信端末10へ、通信部51を介して送信する。すなわち、登録部64は、通信端末10aaの参加者の音声合成モデルが登録された発話方向・音声合成モデル対応テーブルを、相手拠点の通信端末10dbへ送信し、通信端末10dbの参加者の音声合成モデルが登録された発話方向・音声合成モデル対応テーブルを、相手拠点の通信端末10aaへ送信する。
すなわち、帯域満足動作モードでは、通常の映像データおよび音声データが、通信端末10間でやり取りされると共に、管理システム50において各参加者の音声データから音声合成モデルを生成し、帯域不足動作モードで使用するために当該音声合成モデルを、互いの相手拠点へ送信しておくことになる。
<ステップS122>
また、管理システム50の帯域判定部61は、通信ネットワーク2の帯域(すなわちデータ通信速度)を検出して、帯域が所定の閾値以上であるか否かを判定し、ここでは、帯域判定部61によって帯域が所定の閾値未満であると判定され、動作モードが帯域不足動作モードに切り替えられたものとする。
<ステップS123、S124>
帯域判定部61は、通信部51を介して、通信端末10aaおよび通信端末10dbに、動作モードが帯域不足動作モードであることを通知する。
<ステップS125、S126>
通信端末10aaの通信部11は、撮像部13により撮影された静止画データを、管理システム50へ送信する。管理システム50の通信部51は、通信端末10aaから受信した静止画データを、通信端末10dbへ転送(中継)する。
<ステップS127、S128>
通信端末10dbの通信部11は、撮像部13により撮影された静止画データを、管理システム50へ送信する。管理システム50の通信部51は、通信端末10dbから受信した静止画データを、通信端末10aaへ転送(中継)する。
<ステップS129>
通信端末10aaのテキスト化部21は、音声入力部15により入力された参加者の音声データをテキストに変換して出力する。
<ステップS130、S131>
通信端末10aaの発話方向特定部20は、音声入力部15により入力された音声信号に基づいて、音声方向(発話方向)を特定する。そして、通信端末10aaの通信部11は、発話方向およびテキストを、管理システム50へ送信する。管理システム50の通信部51は、通信端末10aaから受信した発話方向およびテキストを、通信端末10dbへ転送(中継)する。
<ステップS132、S133>
通信端末10dbの通信部11により通信端末10aaから発話方向およびテキストを受信すると、通信端末10dbのモデル特定部22は、記憶部18に記憶されている発話方向・音声合成モデル対応テーブルを参照し、相手拠点の参加者の音声のテキストと共に受信された発話方向から、当該参加者に対応する音声合成モデルを特定する。次に、通信端末10dbの音声合成部23は、モデル特定部22により特定された音声合成モデルと、通信部11により受信された相手拠点の参加者の音声のテキストとを用いて音声の合成を行い、当該参加者の音声合成データを得る。そして、通信端末10dbの音声出力部16は、当該音声合成データをスピーカ114b(スピーカ242)から音声として出力(再生)させる。
<ステップS134>
通信端末10dbのテキスト化部21は、音声入力部15により入力された参加者の音声データをテキストに変換して出力する。
<ステップS135、S136>
通信端末10dbの発話方向特定部20は、音声入力部15により入力された音声信号に基づいて、音声方向(発話方向)を特定する。そして、通信端末10dbの通信部11は、発話方向およびテキストを、管理システム50へ送信する。管理システム50の通信部51は、通信端末10dbから受信した発話方向およびテキストを、通信端末10aaへ転送(中継)する。
<ステップS137、S138>
通信端末10aaの通信部11により通信端末10dbから発話方向およびテキストを受信すると、通信端末10aaのモデル特定部22は、記憶部18に記憶されている発話方向・音声合成モデル対応テーブルを参照し、相手拠点の参加者の音声のテキストと共に受信された発話方向から、当該参加者に対応する音声合成モデルを特定する。次に、通信端末10aaの音声合成部23は、モデル特定部22により特定された音声合成モデルと、通信部11により受信された相手拠点の参加者の音声のテキストとを用いて音声の合成を行い、当該参加者の音声合成データを得る。そして、通信端末10aaの音声出力部16は、当該音声合成データをスピーカ114b(スピーカ242)から音声として出力(再生)させる。
以上のステップS111〜S138の流れによって、本実施形態に係る通信システム1の全体動作が行われる。なお、各ステップの順番については図27で示した順番に限定されるものではない。例えば、ステップS114、S115の通信端末10aaの音声データおよび映像データが通信端末10dbへ送信される動作が、ステップS116、S117の通信端末10dbの音声データおよび映像データが通信端末10aaへ送信される動作よりも順番が先になっているが、これが逆であってもよいのは言うまでもない。
以上のように、本実施形態に係る通信システム1では、帯域不足動作モードにおいて、通信端末10では帯域満足動作モード時に管理システム50から取得しておいた発話方向・音声合成モデル対応テーブルに登録されている相手拠点の参加者の音声合成モデルを用いて、受信したテキストと音声合成を行い、音声合成データを得て、スピーカ114b(スピーカ242)から音声として出力させるものとしている。これによって、通信端末10間で通信ネットワーク2を介して通信されるデータは、静止画データおよびテキストデータという、映像データおよび音声データと比較してデータ量が大幅に小さいデータであるため、通信ネットワーク2のトラフィックを逼迫することを回避することができる。さらに、通信端末10で合成される音声合成データは、相手拠点の参加者の音声データに基づいて生成された音声合成モデルを使用して作成されるので、当該参加者の音声に似た音声を生成することができ、違和感のないコミュニケーションを実現することができる。
[第2の実施形態]
第2の実施形態に係る通信システムについて、第1の実施形態に係る通信システム1と相違する点を中心に説明する。第1の実施形態では、各通信端末10で特定される発話方向を話者(参加者)を識別する情報として、音声合成モデルと関連付ける動作を説明した。本実施形態では、映像データから話者(参加者)の口唇動作を認識して、認識された口唇動作の座標を、話者(参加者)を識別する情報として用いる動作について説明する。なお、本実施形態に係る通信システムの全体構成、通信端末10および管理システム50のハードウェア構成、通信端末10のソフトウェア構成、ならびに図15〜図19に示した通信端末10間のセッションの確立動作は、第1の実施形態で説明したものと同様である。
(通信システムの機能ブロックの構成)
図29は、第2の実施形態に係る通信システムの機能ブロックの構成の一例を示す図である。図30は、発話方向と発話者(口唇座標)との対応を説明する図である。図31は、座標・発話方向対応テーブルの一例を示す図である。図29〜図31を参照しながら、本実施形態に係る通信システム1aの機能ブロックの構成および動作について説明する。
<通信端末の機能ブロックの構成>
図29に示すように、通信端末10aは、通信部11と、操作入力受付部12と、撮像部13と、表示制御部14と、音声入力部15と、音声出力部16と、記憶・読出部17と、記憶部18と、認証要求部19と、発話方向特定部20と、テキスト化部21と、モデル特定部22aと、音声合成部23と、を有している。
モデル特定部22aは、記憶部18に記憶されている、後述の図33に示す口唇座標・音声合成モデル対応テーブルを参照し、通信部11により相手拠点の参加者の音声のテキストと共に受信された口唇座標(後述するように、参加者の認識された口唇動作の座標)から、当該参加者に対応する音声合成モデルを特定する機能部である。モデル特定部22aは、図2に示すCPU101(図3に示すCPU201)によるソフトウェアである通信アプリAの実行によって実現される。
なお、通信端末10aが有する機能ブロックのうち、モデル特定部22a以外の機能ブロックの動作は、第1の実施形態で説明した動作と同様である。
また、上述の表示制御部14、認証要求部19、発話方向特定部20、テキスト化部21、モデル特定部22aおよび音声合成部23のうち少なくともいずれかは、ASICまたはFPGA等のハードウェア回路によって実現されるものとしてもよい。
また、図29に示した通信端末10aの各機能部は、機能を概念的に示したものであって、このような構成に限定されるものではない。例えば、図29に示した通信端末10aで独立した機能部として図示した複数の機能部を、1つの機能部として構成してもよい。一方、図29に示した通信端末10aの1つ機能部が有する機能を複数に分割し、複数の機能部として構成するものとしてもよい。
<管理システムの機能ブロックの構成>
図29に示すように、管理システム50aは、通信部51と、認証部52と、状態管理部53と、端末抽出部54と、端末状態取得部55と、セッション制御部56と、記憶・読出部57と、記憶部58と、を有している。管理システム50aは、さらに、帯域判定部61と、音声認識部62と、音声分析部63と、登録部64aと、口唇動作認識部65と、対応付け部66と、を有している。
登録部64aは、口唇動作認識部65により映像データから認識された参加者の口唇動作を示す部分の座標(口唇座標)を、後述する図33に示す口唇座標・音声合成モデル対応テーブルに、話者を識別する情報(話者識別情報)として登録する。また、登録部64aは、口唇座標・音声合成モデル対応テーブルにおいて、音声分析部63により参加者の音声のテキストおよび音声データから生成された音声合成モデルを、当該参加者に対応する口唇座標と関連付けて記憶させる(登録する)。この際、登録部64aは、口唇座標・音声合成モデル対応テーブルを、各拠点の通信端末10ごとに生成する。そして、登録部64aは、帯域満足動作モード時に、口唇座標および音声合成モデルが登録された口唇座標・音声合成モデル対応テーブルを、当該口唇座標・音声合成モデル対応テーブルに登録された口唇座標に対応する参加者の拠点との通話対象となる相手拠点の通信端末10へ、通信部51を介して送信する。登録部64aは、図4に示すCPU301によるプログラムの実行によって実現される。
口唇動作認識部65は、通信部51で受信された映像データから、写り込んでいる参加者の口唇動作を検出して、当該口唇動作を示す部分の座標(口唇座標)を算出する機能部である。例えば、図30に示すように、相手拠点の参加者がA〜Dである場合、口唇動作認識部65により参加者A〜Dの口唇動作が検出され、当該口唇動作を示す部分の座標(口唇座標)(例えば、参加者Bの場合の口唇座標(Xb,Yb))がそれぞれ算出されている。口唇動作認識部65は、図4に示すCPU301によるプログラムの実行によって実現される。
対応付け部66は、通信部51を介して受信した参加者の音声の発話方向と、口唇動作認識部65により算出された口唇座標、すなわち参加者とを対応付ける機能部である。具体的には、対応付け部66は、予め記憶部58に記憶されている図31に示すような座標と、発話方向とを対応付けた座標・発話方向対応テーブルを参照し、通信部51により受信された発話方向が、どの座標(口唇座標)に対応するのかを特定する。対応付け部66は、図4に示すCPU301によるプログラムの実行によって実現される。
なお、管理システム50aが有する機能ブロックのうち、登録部64a、口唇動作認識部65および対応付け部66以外の機能ブロックの動作は、第1の実施形態で説明した動作と同様である。
また、上述の認証部52、状態管理部53、端末抽出部54、端末状態取得部55、セッション制御部56、帯域判定部61、音声認識部62、音声分析部63、登録部64a、口唇動作認識部65および対応付け部66のうち少なくともいずれかは、ASICまたはFPGA等のハードウェア回路によって実現されるものとしてもよい。
また、図29に示した管理システム50aの各機能部は、機能を概念的に示したものであって、このような構成に限定されるものではない。例えば、図29に示した管理システム50aで独立した機能部として図示した複数の機能部を、1つの機能部として構成してもよい。一方、図29に示した管理システム50aの1つ機能部が有する機能を複数に分割し、複数の機能部として構成するものとしてもよい。
また、図29に示した通信端末10aが有する機能部は、例えば管理システム50aで実現される場合があってもよく、管理システム50aが有する機能部は、例えば通信端末10aで実現する場合があってもよい。また、通信端末10aおよび管理システム50aが有する機能部は、通信端末10aおよび管理システム50a以外の装置が実現する場合があってもよい。
(通信システムの全体動作の流れの詳細)
図32は、第2の実施形態に係る通信システムの全体動作の流れの一例を示す図である。図33は、口唇座標・音声合成モデル対応テーブルの一例を示す図である。図32および図33を参照しながら、本実施形態に係る通信システム1aの全体動作の流れの詳細について説明する。なお、図32の例では、通信端末10aaと通信端末10dbとの間でセッションが確立されているものとする。また、図32に示す通信端末10aa、10dbは、図29に示す通信端末10aと同様の機能ブロックの構成を有する。
<ステップS141〜S147>
上述の図27で示したステップS111〜S117の動作と同様である。
<ステップS148>
管理システム50aの口唇動作認識部65は、通信部51で受信された通信端末10aaの映像データ、および通信端末10dbの映像データから、写り込んでいる各拠点の参加者の口唇動作を検出して、当該口唇動作を示す部分の座標(口唇座標)を算出する。そして、管理システム50aの登録部64aは、口唇動作認識部65により映像データから認識された参加者の口唇動作を示す部分の座標(口唇座標)を、図33に示す口唇座標・音声合成モデル対応テーブルに、話者を識別する情報(話者識別情報)として登録する。この際、登録部64aは、口唇座標・音声合成モデル対応テーブルを、各拠点の通信端末10aごとに生成する。
<ステップS149、S150>
管理システム50aの音声認識部62は、通信部51により通信端末10aa、10dbから受信された各参加者の音声データをテキストに変換する音声認識動作を実行する。そして、管理システム50aの音声分析部63は、音声認識部62により変換されたテキストと、通信部51により受信された音声データとの比較によって、当該音声データに対応する参加者の音声合成モデルを生成する音声分析動作を実行する。
そして、管理システム50aの登録部64aは、音声分析部63により参加者の音声のテキストおよび音声データから生成された音声合成モデルを、当該参加者に対応する口唇座標と関連付けて、図33に示す発話方向・音声合成モデル対応テーブルに記憶させる(登録する)。
図33に示すように、口唇座標・音声合成モデル対応テーブルでは、話者(参加者)を識別する話者識別情報として、口唇動作認識部65により算出された各話者の口唇座標を登録し、各話者に対応する音声合成モデルを、当該口唇座標と関連付けて登録される。例えば、図33に示す口唇座標・音声合成モデル対応テーブルでは、口唇座標が「X2,Y2」として算出された参加者に対応する音声合成モデルは「モデル2」であることが示されている。
<ステップS151、S152>
そして、登録部64aは、口唇座標および音声合成モデルが登録された口唇座標・音声合成モデル対応テーブル(すなわち各参加者の音声合成モデルを含む)を、当該口唇座標・音声合成モデル対応テーブルに登録された口唇座標に対応する参加者の拠点との通話対象となる相手拠点の通信端末10へ、通信部51を介して送信する。すなわち、登録部64aは、通信端末10aaの参加者の音声合成モデルが登録された口唇座標・音声合成モデル対応テーブルを、相手拠点の通信端末10dbへ送信し、通信端末10dbの参加者の音声合成モデルが登録された口唇座標・音声合成モデル対応テーブルを、相手拠点の通信端末10aaへ送信する。
すなわち、帯域満足動作モードでは、通常の映像データおよび音声データが、通信端末10a間でやり取りされると共に、管理システム50aにおいて各参加者の音声データから音声合成モデルを生成し、帯域不足動作モードで使用するために当該音声合成モデルを、互いの相手拠点へ送信しておくことになる。
<ステップS153〜S159>
上述の図27で示したステップS122〜S128の動作と同様である。
<ステップS160>
通信端末10aaのテキスト化部21は、音声入力部15により入力された参加者の音声データをテキストに変換して出力する。
<ステップS161>
通信端末10aaの発話方向特定部20は、音声入力部15により入力された音声信号に基づいて、音声方向(発話方向)を特定する。そして、通信端末10aaの通信部11は、発話方向およびテキストを、管理システム50aへ送信する。
<ステップS162>
管理システム50aの対応付け部66は、予め記憶部58に記憶されている図31に示すような座標・発話方向対応テーブルを参照し、通信部51により受信された発話方向が、どの座標(口唇座標)に対応するのかを特定する(対応付ける)。
<ステップS163>
管理システム50aの通信部51は、通信端末10aaから受信したテキスト、および対応付け部66により対応付けられた口唇座標を、通信端末10dbへ送信する。
<ステップS164、S165>
通信端末10dbの通信部11により通信端末10aaから口唇座標およびテキストを受信すると、通信端末10dbのモデル特定部22aは、記憶部18に記憶されている、図33に示す口唇座標・音声合成モデル対応テーブルを参照し、通信部11により相手拠点の参加者の音声のテキストと共に受信された口唇座標から、当該参加者に対応する音声合成モデルを特定する。次に、通信端末10dbの音声合成部23は、モデル特定部22aにより特定された音声合成モデルと、通信部11により受信された相手拠点の参加者の音声のテキストとを用いて音声の合成を行い、当該参加者の音声合成データを得る。そして、通信端末10dbの音声出力部16は、当該音声合成データをスピーカ114b(スピーカ242)から音声として出力(再生)させる。
<ステップS166>
通信端末10dbのテキスト化部21は、音声入力部15により入力された参加者の音声データをテキストに変換して出力する。
<ステップS167>
通信端末10dbの発話方向特定部20は、音声入力部15により入力された音声信号に基づいて、音声方向(発話方向)を特定する。そして、通信端末10dbの通信部11は、発話方向およびテキストを、管理システム50aへ送信する。
<ステップS168>
管理システム50aの対応付け部66は、予め記憶部58に記憶されている図31に示すような座標・発話方向対応テーブルを参照し、通信部51により受信された発話方向が、どの座標(口唇座標)に対応するのかを特定する(対応付ける)。
<ステップS169>
管理システム50aの通信部51は、通信端末10dbから受信したテキスト、および対応付け部66により対応付けられた口唇座標を、通信端末10aaへ送信する。
<ステップS170、S171>
通信端末10aaの通信部11により通信端末10dbから口唇座標およびテキストを受信すると、通信端末10aaのモデル特定部22aは、記憶部18に記憶されている、図33に示す口唇座標・音声合成モデル対応テーブルを参照し、通信部11により相手拠点の参加者の音声のテキストと共に受信された口唇座標から、当該参加者に対応する音声合成モデルを特定する。次に、通信端末10aaの音声合成部23は、モデル特定部22aにより特定された音声合成モデルと、通信部11により受信された相手拠点の参加者の音声のテキストとを用いて音声の合成を行い、当該参加者の音声合成データを得る。そして、通信端末10aaの音声出力部16は、当該音声合成データをスピーカ114b(スピーカ242)から音声として出力(再生)させる。
以上のステップS141〜S171の流れによって、本実施形態に係る通信システム1aの全体動作が行われる。なお、各ステップの順番については図32で示した順番に限定されるものではない。例えば、ステップS144、S145の通信端末10aaの音声データおよび映像データが通信端末10dbへ送信される動作が、ステップS146、S147の通信端末10dbの音声データおよび映像データが通信端末10aaへ送信される動作よりも順番が先になっているが、これが逆であってもよいのは言うまでもない。
以上のように、本実施形態に係る通信システム1aでは、帯域不足動作モードにおいて、通信端末10aでは帯域満足動作モード時に管理システム50aから取得しておいた口唇座標・音声合成モデル対応テーブルに登録されている相手拠点の参加者の音声合成モデルを用いて、受信したテキストと音声合成を行い、音声合成データを得て、スピーカ114b(スピーカ242)から音声として出力させるものとしている。これによって、通信端末10a間で通信ネットワーク2を介して通信されるデータは、静止画データおよびテキストデータという、映像データおよび音声データと比較してデータ量が大幅に小さいデータであるため、通信ネットワーク2のトラフィックを逼迫することを回避することができる。さらに、通信端末10aで合成される音声合成データは、相手拠点の参加者の音声データに基づいて生成された音声合成モデルを使用して作成されるので、当該参加者の音声に似た音声を生成することができ、違和感のないコミュニケーションを実現することができる。
なお、本実施形態では、口唇動作認識部65により参加者の口唇動作を検出して、当該口唇動作を示す部分の座標(口唇座標)を算出するものとしたが、これに限定されるものではない。例えば、参加者の鼻、目、耳等を検出して、当該鼻、目、耳を示す部分の座標を算出して用いるものとしてもよい。
[第3の実施形態]
第3の実施形態に係る通信システムについて、第1の実施形態に係る通信システム1と相違する点を中心に説明する。第1の実施形態では、各通信端末10で特定される発話方向を話者(参加者)を識別する情報として、音声合成モデルと関連付ける動作を説明した。本実施形態では、映像データから話者(参加者)の顔を認識して、認識された顔の中心座標を、話者(参加者)を識別する情報として用いる動作について説明する。なお、本実施形態に係る通信システムの全体構成、通信端末10および管理システム50のハードウェア構成、通信端末10のソフトウェア構成、ならびに図15〜図19に示した通信端末10間のセッションの確立動作は、第1の実施形態で説明したものと同様である。
(通信システムの機能ブロックの構成)
図34は、第3の実施形態に係る通信システムの機能ブロックの構成の一例を示す図である。図35は、発話方向と発話者(中心座標)との対応を説明する図である。図34および図35を参照しながら、本実施形態に係る通信システム1bの機能ブロックの構成および動作について説明する。
<通信端末の機能ブロック構成>
図34に示すように、通信端末10bは、通信部11と、操作入力受付部12と、撮像部13と、表示制御部14と、音声入力部15と、音声出力部16と、記憶・読出部17と、記憶部18と、認証要求部19と、発話方向特定部20と、テキスト化部21と、モデル特定部22bと、音声合成部23と、を有している。
モデル特定部22bは、記憶部18に記憶されている、図37に示す顔認識情報・顔中心座標・音声合成モデル対応テーブルのうち顔中心座標と音声合成モデルとを対応付ける部分テーブルを参照し、通信部11により相手拠点の参加者の音声のテキストと共に受信された顔中心座標から、当該参加者に対応する音声合成モデルを特定する機能部である。モデル特定部22bは、図2に示すCPU101(図3に示すCPU201)によるソフトウェアである通信アプリAの実行によって実現される。
なお、通信端末10bが有する機能ブロックのうち、モデル特定部22b以外の機能ブロックの動作は、第1の実施形態で説明した動作と同様である。
また、上述の表示制御部14、認証要求部19、発話方向特定部20、テキスト化部21、モデル特定部22bおよび音声合成部23のうち少なくともいずれかは、ASICまたはFPGA等のハードウェア回路によって実現されるものとしてもよい。
また、図34に示した通信端末10bの各機能部は、機能を概念的に示したものであって、このような構成に限定されるものではない。例えば、図34に示した通信端末10bで独立した機能部として図示した複数の機能部を、1つの機能部として構成してもよい。一方、図34に示した通信端末10bの1つ機能部が有する機能を複数に分割し、複数の機能部として構成するものとしてもよい。
<管理システムの機能ブロックの構成>
図34に示すように、管理システム50bは、通信部51と、認証部52と、状態管理部53と、端末抽出部54と、端末状態取得部55と、セッション制御部56と、記憶・読出部57と、記憶部58と、を有している。管理システム50bは、さらに、帯域判定部61と、音声認識部62と、音声分析部63と、登録部64bと、顔認識部67と、対応付け部66bと、を有している。
登録部64bは、顔認識部67により映像データから認識された参加者の顔の認識情報(顔認識情報)、および当該顔の中心座標を、後述する図37に示す顔認識情報・顔中心座標・音声合成モデル対応テーブルに、話者を識別する情報(話者識別情報)として登録する。また、登録部64bは、顔認識情報・顔中心座標・音声合成モデル対応テーブルにおいて、音声分析部63により参加者の音声のテキストおよび音声データから生成された音声合成モデルを、当該参加者に対応する顔認識情報および顔中心座標と関連付けて記憶させる(登録する)。そして、登録部64bは、帯域満足動作モード時に、顔認識情報・顔中心座標・音声合成モデル対応テーブルのうち顔中心座標と音声合成モデルとを対応付ける部分テーブルを、当該部分テーブルに登録された顔中心座標に対応する参加者の拠点との通話対象となる相手拠点の通信端末10へ、通信部51を介して送信する。登録部64bは、図4に示すCPU301によるプログラムの実行によって実現される。
顔認識部67は、通信部51により受信された映像データから、写り込んでいる参加者の顔を検出して、顔の特徴を数値化して特徴値(以下、顔認識情報と称する場合がある)として取得する機能部である。例えば、認識された顔の目、眉毛、鼻、口等の特徴を数値化して特徴値を求め、当該特徴値ごとに「M4」、「EL2」等のID(識別情報)が割り振られる。また、各顔の部分の位置を特徴点として求め、当該位置、および特徴点間の距離等も特徴値として顔認識情報に含まれる。また、顔認識部67は、映像データにおいて検出した参加者の顔の画像の中心座標(顔中心座標)を算出する。なお、顔認識部67は、参加者の顔を検出するものとしたが、これに限定されるものではなく、検出対象は、参加者の顔を含む上半身等、参加者を判別することが可能な部位であればよい。また、顔認識部67により算出される座標は、必ずしも顔の中心座標である必要もなく、顔の特徴的な部位(例えば鼻または目等)の座標であってもよい。顔認識部67は、図4に示すCPU301によるプログラムの実行によって実現される。
対応付け部66bは、通信部51を介して受信した参加者の音声の発話方向と、顔認識部67により算出された顔中心座標、すなわち参加者とを対応付ける機能部である。具体的には、対応付け部66bは、予め記憶部58に記憶されている上述の図31に示すような座標と、発話方向とを対応付けた座標・発話方向対応テーブルを参照し、通信部51により受信された発話方向が、どの座標(顔中心座標)に対応するのかを特定する。対応付け部66bは、図4に示すCPU301によるプログラムの実行によって実現される。
なお、管理システム50bが有する機能ブロックのうち、登録部64b、顔認識部67および対応付け部66b以外の機能ブロックの動作は、第1の実施形態で説明した動作と同様である。
また、上述の認証部52、状態管理部53、端末抽出部54、端末状態取得部55、セッション制御部56、帯域判定部61、音声認識部62、音声分析部63、登録部64b、顔認識部67および対応付け部66bのうち少なくともいずれかは、ASICまたはFPGA等のハードウェア回路によって実現されるものとしてもよい。
また、図34に示した管理システム50bの各機能部は、機能を概念的に示したものであって、このような構成に限定されるものではない。例えば、図34に示した管理システム50bで独立した機能部として図示した複数の機能部を、1つの機能部として構成してもよい。一方、図34に示した管理システム50bの1つ機能部が有する機能を複数に分割し、複数の機能部として構成するものとしてもよい。
また、図34に示した通信端末10bが有する機能部は、例えば管理システム50bで実現される場合があってもよく、管理システム50bが有する機能部は、例えば通信端末10bで実現する場合があってもよい。また、通信端末10bおよび管理システム50bが有する機能部は、通信端末10bおよび管理システム50b以外の装置が実現する場合があってもよい。
(通信システムの全体動作の流れの詳細)
図36は、第3の実施形態に係る通信システムの全体動作の流れの一例を示す図である。図37は、顔認識情報・顔中心座標・音声合成モデル対応テーブルの一例を示す図である。図36および図37を参照しながら、本実施形態に係る通信システム1bの全体動作の流れの詳細について説明する。なお、図36の例では、通信端末10aaと通信端末10dbとの間でセッションが確立されているものとする。また、図36に示す通信端末10aa、10dbは、図34に示す通信端末10bと同様の機能ブロックの構成を有する。
<ステップS181〜S187>
上述の図27で示したステップS111〜S117の動作と同様である。
<ステップS188>
管理システム50bの顔認識部67は、通信部51で受信された通信端末10aaの映像データ、および通信端末10dbの映像データから、写り込んでいる各拠点の参加者の顔を検出して、顔の特徴を数値化した顔認識情報を取得し、当該顔の画像の中心座標(顔中心座標)を算出する。そして、管理システム50bの登録部64bは、顔認識部67により映像データから認識された参加者の顔の認識情報(顔認識情報)、および当該顔の中心座標を、図37に示す顔認識情報・顔中心座標・音声合成モデル対応テーブルに、話者を識別する情報(話者識別情報)として登録する。
<ステップS189、S190>
管理システム50bの音声認識部62は、通信部51により通信端末10aa、10dbから受信された各参加者の音声データをテキストに変換する音声認識動作を実行する。そして、管理システム50bの音声分析部63は、音声認識部62により変換されたテキストと、通信部51により受信された音声データとの比較によって、当該音声データに対応する参加者の音声合成モデルを生成する音声分析動作を実行する。
そして、管理システム50aの登録部64bは、音声分析部63により参加者の音声のテキストおよび音声データから生成された音声合成モデルを、当該参加者に対応する顔認識情報および顔中心座標と関連付けて、図37に示す顔認識情報・顔中心座標・音声合成モデル対応テーブルに記憶させる(登録する)。
図37に示すように、顔認識情報・顔中心座標・音声合成モデル対応テーブルでは、話者(参加者)を識別する話者識別情報として、顔認識部67により得られた各話者の顔認識情報および顔中心座標を登録し、各話者に対応する音声合成モデルを、当該顔認識情報および顔中心座標と関連付けて登録される。例えば、図37に示す顔認識情報・顔中心座標・音声合成モデル対応テーブルでは、顔認識情報が「UUU」(M4)、「VVV」(EL2)、顔中心座標が「X1a,Y1a」として得られた参加者に対応する音声合成モデルは「モデル2」であることが示されている。
<ステップS191、S192>
そして、登録部64bは、顔認識情報、顔中心座標および音声合成モデルが登録された顔認識情報・顔中心座標・音声合成モデル対応テーブル(すなわち各参加者の音声合成モデルを含む)のうち顔中心座標と音声合成モデルとを対応付ける部分テーブルを、当該部分テーブルに登録された顔認識情報・顔中心座標に対応する参加者の拠点との通話対象となる相手拠点の通信端末10へ、通信部51を介して送信する。すなわち、登録部64bは、通信端末10aaの参加者の音声合成モデルが登録された部分テーブルを、相手拠点の通信端末10dbへ送信し、通信端末10dbの参加者の音声合成モデルが登録された部分テーブルを、相手拠点の通信端末10aaへ送信する。
すなわち、帯域満足動作モードでは、通常の映像データおよび音声データが、通信端末10b間でやり取りされると共に、管理システム50bにおいて各参加者の音声データから音声合成モデルを生成し、帯域不足動作モードで使用するために当該音声合成モデルを、互いの相手拠点へ送信しておくことになる。
<ステップS193〜S199>
上述の図27で示したステップS122〜S128の動作と同様である。
<ステップS200>
通信端末10aaのテキスト化部21は、音声入力部15により入力された参加者の音声データをテキストに変換して出力する。
<ステップS201>
通信端末10aaの発話方向特定部20は、音声入力部15により入力された音声信号に基づいて、音声方向(発話方向)を特定する。そして、通信端末10aaの通信部11は、発話方向およびテキストを、管理システム50bへ送信する。
<ステップS202>
管理システム50bの対応付け部66bは、予め記憶部58に記憶されている図31に示すような座標・発話方向テーブルを参照し、通信部51により受信された発話方向が、どの座標(顔中心座標)に対応するのかを特定する(対応付ける)。
<ステップS203>
管理システム50bの通信部51は、通信端末10aaから受信したテキスト、および対応付け部66bにより対応付けられた顔中心座標を、通信端末10dbへ送信する。
<ステップS204、S205>
通信端末10dbの通信部11により通信端末10aaから顔中心座標およびテキストを受信すると、通信端末10dbのモデル特定部22bは、記憶部18に記憶されている、図37に示す顔認識情報・顔中心座標・音声合成モデル対応テーブルのうち顔中心座標と音声合成モデルとを対応付ける部分テーブルを参照し、通信部11により相手拠点の参加者の音声のテキストと共に受信された顔中心座標から、当該参加者に対応する音声合成モデルを特定する。次に、通信端末10dbの音声合成部23は、モデル特定部22bにより特定された音声合成モデルと、通信部11により受信された相手拠点の参加者の音声のテキストとを用いて音声の合成を行い、当該参加者の音声合成データを得る。そして、通信端末10dbの音声出力部16は、当該音声合成データをスピーカ114b(スピーカ242)から音声として出力(再生)させる。
<ステップS206>
通信端末10aaのテキスト化部21は、音声入力部15により入力された参加者の音声データをテキストに変換して出力する。
<ステップS207>
通信端末10dbの発話方向特定部20は、音声入力部15により入力された音声信号に基づいて、音声方向(発話方向)を特定する。そして、通信端末10dbの通信部11は、発話方向およびテキストを、管理システム50bへ送信する。
<ステップS208>
管理システム50bの対応付け部66bは、予め記憶部58に記憶されている図31に示すような座標・発話方向テーブルを参照し、通信部51により受信された発話方向が、どの座標(顔中心座標)に対応するのかを特定する(対応付ける)。
<ステップS209>
管理システム50bの通信部51は、通信端末10dbから受信したテキスト、および対応付け部66bにより対応付けられた顔中心座標を、通信端末10aaへ送信する。
<ステップS210、S211>
通信端末10aaの通信部11により通信端末10dbから顔中心座標およびテキストを受信すると、通信端末10aaのモデル特定部22bは、記憶部18に記憶されている、図37に示す顔認識情報・顔中心座標・音声合成モデル対応テーブルのうち顔中心座標と音声合成モデルとを対応付ける部分テーブルを参照し、通信部11により相手拠点の参加者の音声のテキストと共に受信された顔中心座標から、当該参加者に対応する音声合成モデルを特定する。次に、通信端末10aaの音声合成部23は、モデル特定部22bにより特定された音声合成モデルと、通信部11により受信された相手拠点の参加者の音声のテキストとを用いて音声の合成を行い、当該参加者の音声合成データを得る。そして、通信端末10aaの音声出力部16は、当該音声合成データをスピーカ114b(スピーカ242)から音声として出力(再生)させる。
以上のステップS181〜S211の流れによって、本実施形態に係る通信システム1bの全体動作が行われる。なお、各ステップの順番については図36で示した順番に限定されるものではない。例えば、ステップS184、S185の通信端末10aaの音声データおよび映像データが通信端末10dbへ送信される動作が、ステップS186、S187の通信端末10dbの音声データおよび映像データが通信端末10aaへ送信される動作よりも順番が先になっているが、これが逆であってもよいのは言うまでもない。
なお、通信端末10b間でビデオ会議が行われている場合、参加者が会議室内で移動する場合も想定される。この場合、移動した参加者が、通信端末10aaを利用する参加者であるものとすると、移動後の参加者の発話方向は、移動前の発話方向とは異なるものとして特定される。したがって、帯域不足動作モード時に、移動後の発話方向が、通信端末10dbへ送信されたとしても、通信端末10dbは、当該発話方向に対応する音声合成モデルと特定することができないことになる。この場合、例えば、通信端末10dbは、音声合成モデルの特定が不可である旨を管理システム50bへ通知するものとすればよい。そして、通知を受けた管理システム50bは、通信端末10aaから映像データ(例えば所定時間分の映像データ)を受信し、参加者の顔を検出して、新たに顔認識情報および顔中心座標を求める。そして、管理システム50bは、予め生成されている顔像認識情報・顔中心座標・音声合成モデル対応テーブルを参照し、新たに求めた顔認識情報と一致する顔認識情報を有するレコードであって、登録されている顔中心座標が、新たに求めた顔中心座標と異なるレコードを特定する。そして、管理システム50bは、当該レコードの顔中心座標を、新たに求めた顔中心座標で更新する。そして、管理システム50bは、顔中心座標が更新された顔認識情報・顔中心座標・音声合成モデル対応テーブルのうち顔中心座標と音声合成モデルとを対応付ける部分テーブル(通信端末10aaの参加者に対応する部分テーブル)を、通信端末10dbへ送信する。そして、通信端末10dbは、管理システム50bから部分テーブルを受信すると、記憶部18に記憶している部分テーブルを、受信した部分テーブルで更新するものとすればよい。これによって、通信端末10dbにおいて、通信端末10aaを利用する移動した参加者の発話方向を受信しても、当該発話方向によって当該参加者の音声合成モデルを特定することができるようになる。
以上のように、本実施形態に係る通信システム1bでは、帯域不足動作モードにおいて、通信端末10bでは帯域満足動作モード時に管理システム50bから取得しておいた顔認識情報・顔中心座標・音声合成モデル対応テーブルのうち顔中心座標と音声合成モデルとを対応付ける部分テーブルに登録されている相手拠点の参加者の音声合成モデルを用いて、受信したテキストと音声合成を行い、音声合成データを得て、スピーカ114b(スピーカ242)から音声として出力させるものとしている。これによって、通信端末10b間で通信ネットワーク2を介して通信されるデータは、静止画データおよびテキストデータという、映像データおよび音声データと比較してデータ量が大幅に小さいデータであるため、通信ネットワーク2のトラフィックを逼迫することを回避することができる。さらに、通信端末10bで合成される音声合成データは、相手拠点の参加者の音声データに基づいて生成された音声合成モデルを使用して作成されるので、当該参加者の音声に似た音声を生成することができ、違和感のないコミュニケーションを実現することができる。
また、本実施形態に係る通信システム1bでは、話者識別情報として顔認識情報および顔中心座標を認識するものとしている。このように、参加者を一意に識別する顔認識情報を登録しておくことによって、参加者がビデオ会議中に移動したとしても、移動した参加者を顔認識情報によって特定することができ、新たな顔中心座標で更新することができる。これによって、ビデオ会議中に参加者が移動したとしても、移動した参加者の音声合成モデルと特定することができ、当該参加者に対応する音声合成データを生成することができ、違和感のないコミュニケーションを継続することができる。
なお、上述の各実施形態に係る通信システム1、1a、1bにおいて、ビデオ会議に参加している各拠点の参加者の音声合成モデルについては、帯域満足動作モード時に送受信される音声データを用いて生成するものとしたが、これに限定されるものではない。例えば、ビデオ会議中ではなく、予め参加者の音声データから生成された音声合成モデルを、ビデオ会議を開始するにあたって、各拠点の通信端末10、10a、10bが記憶しているものとしてもよい。
また、上述の各実施形態に係る通信端末10、10a、10bのソフトウェア構成は、上述の図5に示した構成に限定されるものではなく、例えば、図38に示す構成であってもよい。図38は、通信端末のWebアプリを利用する場合のソフトウェア構成の一例を示す図である。上述の図5では、通信端末10で通信アプリAが実行される動作を説明したが、同様の処理をWebアプリによっても実現できる。Webアプリは、ブラウザ上で動作する、例えばJavaScript(登録商標)によるプログラムとWebサーバ側のプログラムとが協調することによって動作し、ユーザはそれをブラウザ上で使用する。すなわち、図38に示すように、通信端末10、10a、10bは管理システム50、50a、50bから、プログラムWA(HTML(HyperText Markup Language)+JavaScript(登録商標)+CSS(Cascading Style Sheets)等)をダウンロードして、ブラウザ1040上で実行する。当該ブラウザ1040は、OS1020の制御に従って動作する。通信端末10、10a、10bは、HTTP(Hypertext Transfer Protocol)またはHTTPS(Hypertext Transfer Protocol Secure)等のプロトコルを用いて管理システム50、50a、50bとデータを送受信することによって、管理システム50が提供しているサービスを利用できる。このような利用形態では、予め通信端末10、10a、10bに通信アプリAをダウンロードしておく必要がない。
また、上述の各実施形態の各機能は、一または複数の処理回路によって実現することが可能である。ここで、「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上述した各機能を実行するよう設計されたASIC、DSP(Digital Signal Processor)、FPGA、SoC(System on a chip)、GPU(Graphics Processing Unit)や従来の回路モジュール等のデバイスを含むものとする。
また、上述の各実施形態において、通信端末10(10a、10b)および管理システム50(50a、50b)の各機能部の少なくともいずれかがプログラムの実行によって実現される場合、そのプログラムは、ROM等に予め組み込まれて提供される。また、上述の実施形態に係る通信端末10(10a、10b)および管理システム50(50a、50b)で実行されるプログラムは、インストール可能な形式または実行可能な形式のファイルでCD−ROM(Compact Disc Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk−Recordable)、DVDまたはSDカード等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよい。また、上述の各実施形態に係る通信端末10(10a、10b)および管理システム50(50a、50b)で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、上述の各実施形態に係る通信端末10(10a、10b)および管理システム50(50a、50b)で実行されるプログラムを、インターネット等のネットワーク経由で提供または配布するように構成してもよい。また、上述の各実施形態に係る通信端末10(10a、10b)および管理システム50(50a、50b)で実行されるプログラムは、上述した各機能部のうち少なくともいずれかを含むモジュール構成となっており、実際のハードウェアとしてはCPUが上述の記憶装置からプログラムを読み出して実行することにより、上述の各機能部が主記憶装置上にロードされて生成されるようになっている。
1、1a、1b 通信システム
2 通信ネットワーク
2a〜2d LAN
2ab、2cd 専用線
2i インターネット
10、10a、10aa、10ab、10ba、10b、10bb、10ca、10cb、10da、10db 通信端末
11 通信部
12 操作入力受付部
13 撮像部
14 表示制御部
15 音声入力部
16 音声出力部
17 記憶・読出部
18 記憶部
19 認証要求部
20 発話方向特定部
21 テキスト化部
22、22a、22b モデル特定部
23 音声合成部
30ab、30cb PC
50 管理システム
51 通信部
52 認証部
53 状態管理部
54 端末抽出部
55 端末状態取得部
56 セッション制御部
57 記憶・読出部
58 記憶部
61 帯域判定部
62 音声認識部
63 音声分析部
64、64a、64b 登録部
65 口唇動作認識部
66、66b 対応付け部
67 顔認識部
70a〜70d、70ab、70cd ルータ
90 プログラム提供システム
101 CPU
102 ROM
103 RAM
105 補助記憶装置
106 メディア
107 メディアドライブ
108 入力装置
110 バスライン
111 ネットワークI/F
112 カメラ
112c ケーブル
113 撮像素子I/F
114 スマートスピーカ
114a マイク
114b スピーカ
114c ケーブル
115 スピーカ
115c ケーブル
116 音声入出力I/F
117 USB I/F
119 ディスプレイI/F
120c ケーブル
120aa、120ba、120ca、120da ディスプレイ
201 CPU
202 ROM
203 RAM
204 SSD
205 ネットワークI/F
206 外部機器接続I/F
210 バスライン
211 キャプチャデバイス
212 GPU
213 ディスプレイコントローラ
214 ディスプレイ
215 センサコントローラ
216 接触センサ
217 電子ペンコントローラ
222 電源スイッチ
223 選択スイッチ
230 USBメモリ
240 スマートスピーカ
241 マイク
242 スピーカ
260 カメラ
270 PC
290 電子ペン
301 CPU
302 ROM
303 RAM
305 補助記憶装置
306 記録メディア
307 メディアドライブ
308 ディスプレイ
309 ネットワークI/F
310 バスライン
311 キーボード
312 マウス
313 DVD
314 DVDドライブ
315 USB I/F
1010 作業領域
1020 OS
1040 ブラウザ
1100−2 端末ID
1100−3 端末名
1100−4a オフラインアイコン
1100−4b 通話可能アイコン
1200−1 開始要求受付画面
1200−2 「はい」ボタン
1200−3 「いいえ」ボタン
5001 認証管理DB
5002 端末管理DB
5003 グループ管理DB
5004 セッション管理DB
A 通信アプリ
WA プログラム
特開2012−257116号公報

Claims (11)

  1. 複数の通信端末がネットワークを介してビデオ会議が可能な通信システムであって、
    第1通信端末を利用する参加者を識別する話者識別情報を特定する第1特定部と、
    前記第1通信端末で入力された前記参加者の音声データをテキストに変換する変換部と、
    前記話者識別情報と、前記テキストとを管理システムを介して第2通信端末へ送信する第1送信部と、
    前記第2通信端末で受信された前記話者識別情報に対応する前記参加者の音声に基づく音声合成モデルを用いて、前記第2通信端末で受信された前記テキストから音声合成データを合成する合成部と、
    前記合成部により合成された前記音声合成データを、出力部から音声として出力させる音声出力部と、
    を有する通信システム。
  2. 前記ネットワークの少なくとも現在の帯域または予測される帯域が、該ネットワークのトラフィックの混雑を示すか否かを判定する判定部と、
    前記判定部により前記トラフィックが混雑していないと判定されている場合、前記第1通信端末で入力された音声データから前記音声合成モデルを生成する生成部と、
    前記話者識別情報と関連付けた前記音声合成モデルを、前記第2通信端末へ送信する第2送信部と、
    をさらに有する請求項1に記載の通信システム。
  3. 前記判定部により前記トラフィックが混雑していると判定されている場合に、
    前記変換部は、前記第1通信端末で入力された前記参加者の音声データをテキストに変換し、
    前記合成部は、前記第2通信端末で受信された前記話者識別情報に関連付けられた前記音声合成モデルを用いて、前記第2通信端末で受信された前記テキストから音声合成データを合成する請求項2に記載の通信システム。
  4. 前記第1特定部は、前記第1通信端末の入力部により入力された前記音声データに基づいて、該音声データの音声を発話した前記参加者の発話方向を前記話者識別情報として特定する請求項1〜3のいずれか一項に記載の通信システム。
  5. 前記第1通信端末を利用する前記参加者を撮像した映像データを得る撮像部と、
    前記判定部により前記トラフィックが混雑してないと判定されている場合に、前記撮像部により得られた前記映像データから前記参加者の所定の部位を検出して、該部位の座標を前記話者識別情報として求める認識部と、
    をさらに有し、
    前記第2送信部は、前記判定部により前記トラフィックが混雑してないと判定されている場合に、前記認識部により求められた前記座標と関連付けた前記参加者の前記音声合成モデルを、前記第2通信端末へ送信し、
    前記第1特定部は、前記第1通信端末の入力部により入力された前記音声データに基づいて、該音声データの音声を発話した前記参加者の発話方向を前記話者識別情報として特定し、
    前記判定部により前記トラフィックが混雑してないと判定されている場合に、前記第1特定部により特定された前記発話方向から、前記参加者の前記所定の部位の座標を特定する対応付け部と、
    前記判定部により前記トラフィックが混雑してないと判定されている場合に、前記対応付け部により特定された座標から、前記第2通信端末へ送信された前記音声合成モデルのうち該座標に関連付けられた該音声合成モデルを特定する第2特定部と、
    前記合成部は、前記第2特定部により特定された前記音声合成モデルを用いて、前記第2通信端末で受信された前記テキストから音声合成データを合成する請求項2または3に記載の通信システム。
  6. 前記認識部は、前記判定部により前記トラフィックが混雑してないと判定されている場合に、前記映像データから前記所定の部位として前記参加者の口唇を検出し、該口唇の座標を前記話者識別情報として求める請求項5に記載の通信システム。
  7. 前記第1通信端末を利用する前記参加者を撮像した映像データを得る撮像部と、
    前記判定部により前記トラフィックが混雑してないと判定されている場合に、前記撮像部により得られた前記映像データから前記参加者の顔を検出して、該顔の認識情報および該顔の所定の部位の座標を前記話者識別情報として求める認識部と、
    をさらに有し、
    前記第2送信部は、前記判定部により前記トラフィックが混雑してないと判定されている場合に、前記認識部により求められた前記座標と関連付けた前記参加者の前記音声合成モデルを、前記第2通信端末へ送信し、
    前記第1特定部は、前記第1通信端末の入力部により入力された前記音声データに基づいて、該音声データの音声を発話した前記参加者の発話方向を前記話者識別情報として特定し、
    前記判定部により前記トラフィックが混雑してないと判定されている場合に、前記第1特定部により特定された前記発話方向から、前記参加者の前記顔の所定の部位の座標を特定する対応付け部と、
    前記判定部により前記トラフィックが混雑してないと判定されている場合に、前記対応付け部により特定された座標から、前記第2通信端末へ送信された前記音声合成モデルのうち該座標に関連付けられた該音声合成モデルを特定する第2特定部と、
    前記合成部は、前記第2特定部により特定された前記音声合成モデルを用いて、前記第2通信端末で受信された前記テキストから音声合成データを合成する請求項2または3に記載の通信システム。
  8. 前記認識部は、前記第2特定部によって、前記対応付け部により特定された座標から、前記音声合成モデルが特定されない場合、再度、前記映像データから前記参加者の顔を検出して、該顔の認識情報および該顔の所定の部位の座標を求め、
    前記第2送信部は、前記認識部により再度求められた前記座標と関連付けた前記参加者の前記音声合成モデルを、前記第2通信端末へ送信する請求項7に記載の通信システム。
  9. 他の通信端末がネットワークを介してビデオ会議が可能な通信端末であって、
    前記通信端末を利用する第1参加者を識別する第1話者識別情報を特定する特定部と、
    前記通信端末で入力された前記第1参加者の音声データを第1テキストに変換する変換部と、
    前記第1話者識別情報と、前記第1テキストとを管理システムを介して前記他の通信端末へ送信する送信部と、
    前記他の通信端末から該他の通信端末を利用する第2参加者の第2話者識別情報と、該他の通信端末で入力された音声データから変換された第2テキストを受信する受信部と、
    前記受信部により受信された前記第2話者識別情報に対応する前記第2参加者の音声に基づく音声合成モデルを用いて、前記受信部により受信された前記第2テキストから音声合成データを合成する合成部と、
    前記合成部により合成された前記音声合成データを、出力部から音声として出力させる音声出力部と、
    を有する通信端末。
  10. 他の通信端末がネットワークを介してビデオ会議が可能な通信端末の通信方法であって、
    前記通信端末を利用する第1参加者を識別する第1話者識別情報を特定する特定ステップと、
    前記通信端末で入力された前記第1参加者の音声データを第1テキストに変換する変換ステップと、
    前記第1話者識別情報と、前記第1テキストとを管理システムを介して前記他の通信端末へ送信する送信ステップと、
    前記他の通信端末から該他の通信端末を利用する第2参加者の第2話者識別情報と、該他の通信端末で入力された音声データから変換された第2テキストを受信する受信ステップと、
    受信した前記第2話者識別情報に対応する前記第2参加者の音声に基づく音声合成モデルを用いて、受信した前記第2テキストから音声合成データを合成する合成ステップと、
    合成した前記音声合成データを、出力部から音声として出力させる音声出力ステップと、
    を有する通信方法。
  11. 他の通信端末がネットワークを介してビデオ会議が可能な通信端末のコンピュータに、
    前記通信端末を利用する第1参加者を識別する第1話者識別情報を特定する特定ステップと、
    前記通信端末で入力された前記第1参加者の音声データを第1テキストに変換する変換ステップと、
    前記第1話者識別情報と、前記第1テキストとを管理システムを介して前記他の通信端末へ送信する送信ステップと、
    前記他の通信端末から該他の通信端末を利用する第2参加者の第2話者識別情報と、該他の通信端末で入力された音声データから変換された第2テキストを受信する受信ステップと、
    受信した前記第2話者識別情報に対応する前記第2参加者の音声に基づく音声合成モデルを用いて、受信した前記第2テキストから音声合成データを合成する合成ステップと、
    合成した前記音声合成データを、出力部から音声として出力させる音声出力ステップと、
    を実行させるためのプログラム。
JP2019138333A 2019-07-26 2019-07-26 通信システム、通信端末、通信方法およびプログラム Pending JP2021022836A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019138333A JP2021022836A (ja) 2019-07-26 2019-07-26 通信システム、通信端末、通信方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019138333A JP2021022836A (ja) 2019-07-26 2019-07-26 通信システム、通信端末、通信方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2021022836A true JP2021022836A (ja) 2021-02-18

Family

ID=74574842

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019138333A Pending JP2021022836A (ja) 2019-07-26 2019-07-26 通信システム、通信端末、通信方法およびプログラム

Country Status (1)

Country Link
JP (1) JP2021022836A (ja)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08328813A (ja) * 1995-05-31 1996-12-13 Internatl Business Mach Corp <Ibm> 改良した声送信方法と装置
JPH10285275A (ja) * 1997-04-11 1998-10-23 Nec Corp 通話方法、音声送信装置及び音声受信装置
JP2001145103A (ja) * 1999-11-18 2001-05-25 Oki Electric Ind Co Ltd 送信装置及び通信システム
JP2011209731A (ja) * 2010-03-30 2011-10-20 Polycom Inc ビデオ会議に翻訳を追加するための方法及びシステム
JP2013198066A (ja) * 2012-03-22 2013-09-30 Nec Corp サーバ、サーバの制御方法および制御プログラム、情報処理システム、情報処理方法、携帯端末、携帯端末の制御方法および制御プログラム
JP2014165565A (ja) * 2013-02-22 2014-09-08 Hitachi Ltd テレビ会議装置およびシステムおよび方法
US20140358516A1 (en) * 2011-09-29 2014-12-04 Google Inc. Real-time, bi-directional translation

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08328813A (ja) * 1995-05-31 1996-12-13 Internatl Business Mach Corp <Ibm> 改良した声送信方法と装置
JPH10285275A (ja) * 1997-04-11 1998-10-23 Nec Corp 通話方法、音声送信装置及び音声受信装置
JP2001145103A (ja) * 1999-11-18 2001-05-25 Oki Electric Ind Co Ltd 送信装置及び通信システム
JP2011209731A (ja) * 2010-03-30 2011-10-20 Polycom Inc ビデオ会議に翻訳を追加するための方法及びシステム
US20140358516A1 (en) * 2011-09-29 2014-12-04 Google Inc. Real-time, bi-directional translation
JP2013198066A (ja) * 2012-03-22 2013-09-30 Nec Corp サーバ、サーバの制御方法および制御プログラム、情報処理システム、情報処理方法、携帯端末、携帯端末の制御方法および制御プログラム
JP2014165565A (ja) * 2013-02-22 2014-09-08 Hitachi Ltd テレビ会議装置およびシステムおよび方法

Similar Documents

Publication Publication Date Title
JP7400231B2 (ja) 通信システム、情報処理装置、通信方法およびプログラム
JP5919695B2 (ja) セッション制御システム、伝送システム、及びプログラム
EP2681909B1 (en) Transmission management apparatus
JP6051782B2 (ja) 通信システムおよびプログラム
JP6201299B2 (ja) 通信システム、通信方法およびプログラム
JP6343897B2 (ja) 伝送端末、伝送方法、及びプログラム
JP6051716B2 (ja) 伝送システム、伝送管理システムおよびプログラム
JP7371726B2 (ja) 伝送管理装置
JP6064367B2 (ja) 伝送管理システム、伝送システム、及び伝送管理システム用プログラム
JP2014075074A (ja) 通信システム及び通信方法
EP3206374A1 (en) Terminal presence and availability management
JP2022191389A (ja) 通信端末、通信システム、通信方法およびプログラム
JP7247672B2 (ja) 通信端末、通信システム、通信方法およびプログラム
JP6365763B2 (ja) 管理システム、通信システム、及び通信制御プログラム並びに通信制御方法
WO2015129550A1 (ja) 伝送制御システム、伝送システム、伝送制御方法、及び記録媒体
JP6314539B2 (ja) 伝送端末、伝送システム、伝送方法及びプログラム
JP2017103641A (ja) 情報処理装置、会議システム、情報処理方法およびプログラム
JP2021022836A (ja) 通信システム、通信端末、通信方法およびプログラム
JP2017027561A (ja) 端末、通信システム、通信方法、及びプログラム
JP2017022432A (ja) 通信管理システム、通信システム、通信管理方法、及びプログラム
JP6500366B2 (ja) 管理装置、端末装置、伝送システム、伝送方法およびプログラム
JP7326771B2 (ja) 通信端末、通信システム、通信方法およびプログラム
JP2017092950A (ja) 情報処理装置、会議システム、情報処理方法およびプログラム
JP7392383B2 (ja) 伝送端末、通信システム、通信制御方法、及びプログラム
JP7243440B2 (ja) 通信端末、通信システム、通信方法およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220518

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230428

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230509

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230705

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230822

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20240305