JP2021022836A - 通信システム、通信端末、通信方法およびプログラム - Google Patents
通信システム、通信端末、通信方法およびプログラム Download PDFInfo
- Publication number
- JP2021022836A JP2021022836A JP2019138333A JP2019138333A JP2021022836A JP 2021022836 A JP2021022836 A JP 2021022836A JP 2019138333 A JP2019138333 A JP 2019138333A JP 2019138333 A JP2019138333 A JP 2019138333A JP 2021022836 A JP2021022836 A JP 2021022836A
- Authority
- JP
- Japan
- Prior art keywords
- unit
- communication terminal
- voice
- communication
- participant
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004891 communication Methods 0.000 title claims abstract description 915
- 238000000034 method Methods 0.000 title claims abstract description 50
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 287
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 287
- 238000006243 chemical reaction Methods 0.000 claims abstract description 27
- 230000005540 biological transmission Effects 0.000 claims abstract description 22
- 230000002194 synthesizing effect Effects 0.000 claims abstract 4
- 238000003384 imaging method Methods 0.000 claims description 19
- 238000010586 diagram Methods 0.000 description 66
- 230000006870 function Effects 0.000 description 32
- 238000004458 analytical method Methods 0.000 description 31
- 230000033001 locomotion Effects 0.000 description 28
- 238000000605 extraction Methods 0.000 description 13
- 230000004044 response Effects 0.000 description 12
- 206010048669 Terminal state Diseases 0.000 description 11
- 238000001514 detection method Methods 0.000 description 4
- 230000002950 deficient Effects 0.000 description 3
- 238000005401 electroluminescence Methods 0.000 description 3
- 230000000903 blocking effect Effects 0.000 description 2
- 210000005069 ears Anatomy 0.000 description 2
- 230000005674 electromagnetic induction Effects 0.000 description 2
- 210000000887 face Anatomy 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- KNMAVSAGTYIFJF-UHFFFAOYSA-N 1-[2-[(2-hydroxy-3-phenoxypropyl)amino]ethylamino]-3-phenoxypropan-2-ol;dihydrochloride Chemical compound Cl.Cl.C=1C=CC=CC=1OCC(O)CNCCNCC(O)COC1=CC=CC=C1 KNMAVSAGTYIFJF-UHFFFAOYSA-N 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 210000004709 eyebrow Anatomy 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Telephone Function (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
(通信システムの全体構成)
図1は、第1の実施形態に係る通信システムの概略構成図である。図1を参照しながら、本実施形態に係る通信システム1の構成の概略を説明する。
図2は、第1の実施形態に係る通信端末(ビデオ会議端末)のハードウェア構成の一例を示す図である。図3は、第1の実施形態に係る通信端末(電子黒板)のハードウェア構成の一例を示す図である。まず、図2を参照しながら、本実施形態に係る通信端末10がビデオ会議端末であるものとした場合のハードウェア構成の詳細について説明する。
図4は、第1の実施形態に係る管理システムおよびプログラム提供システムのハードウェア構成の一例を示す図である。図4を参照しながら、管理システム50およびプログラム提供システム90のハードウェア構成の詳細について説明する。
図5は、第1の実施形態に係る通信端末のソフトウェア構成の一例を示す図である。図5を参照しながら、本実施形態に係る通信端末10のソフトウェア構成の詳細について説明する。
図6は、第1の実施形態に係る通信システムの機能ブロックの構成の一例を示す図である。図7は、音声合成部の機能の流れの一例を示す図である。図6および図7を参照しながら、本実施形態に係る通信システム1の機能ブロックの構成および動作について説明する。
図6に示すように、通信端末10は、通信部11と、操作入力受付部12と、撮像部13と、表示制御部14と、音声入力部15と、音声出力部16と、記憶・読出部17と、記憶部18と、認証要求部19と、発話方向特定部20と、テキスト化部21と、モデル特定部22と、音声合成部23と、を有している。
図6に示すように、管理システム50は、通信部51と、認証部52と、状態管理部53と、端末抽出部54と、端末状態取得部55と、セッション制御部56と、記憶・読出部57と、記憶部58と、を有している。管理システム50は、さらに、帯域判定部61と、音声認識部62と、音声分析部63と、登録部64と、を有している。記憶部58は、図4に示す補助記憶装置305によって実現され、図6に示すように、認証管理DB5001と、端末管理DB5002と、グループ管理DB5003と、セッション管理DB5004とを記憶している。以下、記憶部58に記憶されている各DBにおいて管理される各テーブルについて説明する。
図8は、認証管理テーブルの一例を示す図である。
図9は、端末管理テーブルの一例を示す図である。
図10は、グループ管理テーブルの一例を示す図である。
図11は、セッション管理テーブルの一例を示す図である。
図14は、第1の実施形態に係る通信システムにおけるコンテンツデータおよび各種管理情報を送受信するために確立されたセッションを示す図である。図14を参照しながら、通信システム1におけるコンテンツデータおよび各種管理情報を送受信するために確立されたセッションについて説明する。
図15は、第1の実施形態に係る通信システムにおける、通信端末が通話を開始するための認証処理を含む準備段階の処理の一例を示すシーケンス図である。図16は、宛先リストの表示例を示す図である。図15および図16を参照しながら、通信端末10aaが通話を開始する前の準備段階における各情報の送受信処理について説明する。なお、図15では、管理情報用セッションseiによって、各種管理情報が送受信される処理が示されている。
まず、通信端末10aaのユーザが、図2に示す入力装置108(図3に示す電源スイッチ222)に対する操作により電源をオンにすると、通信端末10aaの操作入力受付部12が、電源オンを受け付けて、通信端末10aaの電源をオンにする。
そして、通信端末10aaの認証要求部19は、上述の通信端末10aaの電源オンを契機とし、通信部11から通信ネットワーク2を介して管理システム50に、ログインの認証要求を示す認証要求情報、および通信端末10aaのIPアドレスを送信する。この認証要求情報には、開始要求端末としての自端末である通信端末10aaを識別するための端末ID、通信端末10aaにログインしているユーザのユーザID、およびパスワードが含まれている。端末ID、ユーザIDおよびパスワードは、通信端末10aaの記憶・読出部17によって記憶部18から読み出されて、通信部11に送られたデータである。また、通信端末10aaから管理システム50へ認証要求情報が送信される際は、受信側である管理システム50は、送信側である通信端末10aaのIPアドレスを把握することができる。
次に、管理システム50の認証部52は、通信部51を介して受信した認証要求情報に含まれているユーザIDおよびパスワードを検索キーとして、認証管理テーブル(図8参照)を検索し、認証管理テーブルに同一のユーザIDおよびパスワードが管理されているかを判断することによってユーザ認証を行う。
認証部52によって、正当な利用権限を有する通信端末10からのログインの認証要求であると判断された場合には、管理システム50の状態管理部53は、端末管理テーブル(図9参照)に、通信端末10aaの端末IDおよび端末名で示されるレコード毎に、ユーザIDおよび通信端末10aaのIPアドレスを関連付けて記憶する。これにより、端末管理テーブルには、通信端末10aaの端末ID「10aa」に、ユーザID「A_10aa」およびIPアドレス「1.2.1.3」が関連付けて管理されることになる。
続いて、状態管理部53は、通信端末10aaの稼動状態「オンライン」および通信状態「None」を設定し、端末管理テーブルに、通信端末10aaの端末IDおよび端末名で示されるレコードに、稼動状態および通信状態を関連付けて記憶する。これにより、端末管理テーブルには、通信端末10aaの端末ID「10aa」に、稼動状態「オンライン」および通信状態「None」が関連付けて管理されることになる。
そして、管理システム50の通信部51は、認証部52によって得られたユーザ認証の結果が示された認証結果情報を、通信ネットワーク2を介して、認証要求情報を送信してきた開始要求端末(通信端末10aa)に送信する。本実施形態では、通信端末10aaが、認証部52によって正当な利用権限を有するユーザが利用する端末であるとユーザ認証されたものとして、以下続けて説明する。
通信端末10aaにおいて、正当な利用権限を有するユーザが利用する端末であるとユーザ認証された結果が示された認証結果情報を受信すると、通信部11は、通信ネットワーク2を介して管理システム50へ、宛先リストを要求する旨を示す宛先リスト要求情報を送信するこれにより、管理システム50の通信部51は、宛先リスト要求情報を受信する。
次に、管理システム50の端末抽出部54は、開始要求端末(通信端末10aa)の端末ID「10aa」を検索キーとして、グループ管理テーブル(図10参照)を検索し、開始要求端末が通話することができる、すなわち、開始要求端末と同じグループ(ここでは、グループID「G001」のグループ)に属する宛先端末の候補の端末IDを抽出する。また、端末抽出部54は、抽出した端末IDを検索キーとして、端末管理テーブルを検索し、この端末IDに対応する端末名、すなわち宛先端末の候補の端末名を抽出する。ここでは、開始要求端末(通信端末10aa)の端末ID「10aa」に対応する宛先端末の候補(通信端末10ab、10ac、10db)のそれぞれの端末ID(「10ab」、「10ac」、「10db」)と、これらに対応する端末名(「日本 東京事業所 AB端末」、「日本 東京事業所 AC端末」、「アメリカ ワシントン事業所 DB端末」)が抽出される。
次に、管理システム50の通信部51は、端末抽出部54によって抽出された宛先端末の候補の端末IDおよび端末名を含む宛先リスト情報を、開始要求端末(通信端末10aa)に送信する。これにより、開始要求端末(通信端末10aa)では、通信部11が宛先リスト情報を受信し、記憶・読出部17が記憶部18へ宛先リスト情報を記憶する。
また、管理システム50の端末状態取得部55は、端末抽出部54によって抽出された宛先端末の候補の端末ID(「10ab」、「10ac」、「10db」)を検索キーとして、端末管理テーブルを検索する。そして、端末状態取得部55は、宛先端末の候補の端末ID毎に、対応する稼動状態および通信状態を読み出すことにより、宛先端末の候補(通信端末10ab、10ac、10db)それぞれの稼動状態および通信状態を取得する。
次に、通信部51は、ステップS30で使用された検索キーである端末IDと、対応する宛先端末の候補の稼動状態および通信状態とを含む状態情報を、通信ネットワーク2を介して開始要求端末に送信する。具体的には、通信部51は、例えば、検索キーとしての端末ID「10ab」と、宛先端末の候補(通信端末10ab)の稼動状態「オフライン」とを含む状態情報を、開始要求端末(通信端末10aa)に送信する。なお、稼動状態が「オフライン」の場合には、状態情報には、通信状態は含まれない。また、通信部51は、端末ID「10ac」と、宛先端末の候補(通信端末10ac)の稼動状態「オンライン」と、通信状態「None」とを含む状態情報等、宛先端末の候補すべてに対する状態情報それぞれを開始要求端末(通信端末10aa)へ送信する。
次に、開始要求端末(通信端末10aa)の記憶・読出部17は、順次、管理システム50から受信した状態情報を記憶部18に記憶する。したがって、開始要求端末(通信端末10aa)は、宛先端末の候補の状態情報を受信することで、通話することができる宛先端末の候補の現時点のそれぞれの稼動状態および通信状態を取得することができる。
次に、開始要求端末(通信端末10aa)の表示制御部14は、記憶部18に記憶されている宛先リスト情報、および宛先端末の候補の状態情報に基づいて、宛先端末の候補の稼動状態および通信状態を反映させた宛先リストを作成する。そして、表示制御部14は、図1に示すディスプレイ120aaに、所定のタイミングで図16に示すような宛先リストを表示する。
図17は、第1の実施形態に係る通信システムにおける通話の開始を要求する処理の一例を示すシーケンス図である。図17を参照しながら、通信端末10が他の通信端末10との通信の開始を要求する場合の処理を説明する。なお、図17では、すべて管理情報用セッションseiによって、各種管理情報が送受信される処理が示されている。
まず、開始要求端末のユーザは、通信端末10aaの入力装置108(または接触センサ216、選択スイッチ223)を操作して宛先端末(通信端末10db)を選択する。
すると、通信端末10aaの通信部11は、開始要求端末(通信端末10aa)の端末ID「10aa」、および宛先端末(通信端末10db)の端末ID「10db」を含む開始要求情報を、開始要求端末のIPアドレスと共に管理システム50へ送信する。これにより、管理システム50の通信部51は、開始要求情報を受信すると共に、送信元である開始要求端末(通信端末10aa)のIPアドレス「1.2.1.3」を把握することになる。
そして、状態管理部53は、開始要求情報に含まれる開始要求端末(通信端末10aa)の端末ID「10aa」および宛先端末(通信端末10db)の端末ID「10db」に基づき、端末管理DB5002の端末管理テーブルにおいて、端末ID「10aa」および端末ID「10db」がそれぞれ含まれるレコードの通信状態のフィールド部分を変更する。具体的には、状態管理部53は、端末管理テーブルの端末ID「10aa」が含まれるレコードの通信状態を「Calling」に変更する。同様に、状態管理部53は、端末管理テーブルの端末ID「10db」が含まれるレコードの通信状態を「Ringing」に変更する。
そして、管理システム50のセッション制御部56は、開始要求端末(通信端末10aa)によって要求された宛先端末との間の通信を実行するためのセッション(コンテンツデータ用セッションsed)を識別するためのセッションID「se1」を生成する。セッション制御部56は、セッションIDを生成すると、セッションID「se1」をセッション管理テーブル(図11参照)に記憶する。
続いて、セッション制御部56は、セッション管理テーブルにおいて、セッションID「se1」が含まれるレコードの開始要求端末の端末IDおよび宛先端末の端末IDのフィールド部分に、それぞれ開始要求端末の端末ID「10aa」、宛先端末の端末ID「10db」を記憶して管理する。
次に、通信部51は、通信ネットワーク2を介して、開始要求端末(通信端末10aa)へ、セッション制御部56により生成されたセッションIDを送信する。
また、通信部51は、開始要求端末の端末ID「10aa」と、セッションID「se1」とを含む開始要求情報と、管理システム50のIPアドレスとを宛先端末へ送信する。これにより、宛先端末(通信端末10db)は、開始要求情報を受信すると共に、管理システム50のIPアドレス「1.1.1.2」を把握することになる。
図18は、第1の実施形態に係る通信システムにおける通話の開始の要求を許可する処理の一例を示すシーケンス図である。図19は、開始要求受付画面の表示例を示す図である。図18および図19を参照しながら、開始要求情報を受信した宛先端末のユーザが、入力装置108(または、接触センサ216、選択スイッチ223)を操作することにより、開始要求端末との間の通信の開始(セッションの確立)を許可する旨の応答が受け付けられた場合の処理について説明する。
図18に示す送受信処理の開始時には、宛先端末(通信端末10db)のディスプレイ214には、開始要求情報を受信したことを示す開始要求受付画面1200−1(図19参照)が表示されている。
宛先端末(通信端末10db)の入力装置108(または、接触センサ216、選択スイッチ223)の操作によって「はい」ボタン1200−2が押下された場合、操作入力受付部12は、開始要求端末(通信端末10aa)との間の通信の開始(セッション確立)を許可する旨の応答を受け付ける。
次に、宛先端末の通信部11は、宛先端末の端末ID「10db」、開始要求端末の端末ID「10aa」、およびセッションID「se1」が含まれる開始応答情報を、管理システム50へ送信する。
管理システム50の通信部51が開始応答情報を受信すると、状態管理部53は、開始応答情報に含まれる開始要求端末の端末ID「10aa」および宛先端末の端末ID「10db」に基づき、端末管理テーブルにおいて、端末ID「10aa」および端末ID「10db」がそれぞれ含まれるレコードの通信状態のフィールド部分を変更する。具体的には、状態管理部53は、端末管理テーブルの端末ID「10aa」が含まれるレコードの通信状態を「Accepted」に変更する。同様に、状態管理部53は、端末管理テーブルの端末ID「10db」が含まれるレコードの通信状態も「Accepted」に変更する。
次に、通信部51は、宛先端末(通信端末10db)の端末ID「10db」、およびセッションID「se1」が含まれる開始応答情報を開始要求端末(通信端末10aa)へ送信する。
開始要求端末は、この開始応答情報を受信すると、通信部11によってセッションID「se1」を管理システム50に送信することにより、セッションを確立させる。
一方、宛先端末は、通信部11によってセッションID「se1」を管理システム50に送信することにより、セッションを確立させる。
図20は、第1の実施形態に係る通信システムにおいて帯域満足時のデータの流れおよび処理の概略を説明する図である。図21は、第1の実施形態に係る通信システムにおいて帯域不足時のデータの流れおよび処理の概略を説明する図である。図20および図21を参照しながら、本実施形態に係る通信システム1の全体動作の流れの概略について説明する。なお、図20および図21においては、通信端末10aaと通信端末10dbとの間でセッションが確立し、通話ができる状態になっているものとし、通信端末10aaを利用する参加者はA、Bであり、通信端末10dbを利用する参加者はC、Dであるものとする。
図22は、第1の実施形態に係る管理システムの帯域判定処理の流れの一例を示すフローチャートである。図22を参照しながら、本実施形態に係る管理システム50の帯域判定処理の流れについて説明する。
管理システム50の帯域判定部61は、通信ネットワーク2の帯域(すなわちデータ通信速度)を検出して、帯域が所定の閾値以上であるか否かを判定する。帯域が所定の閾値以上である場合(ステップS61:Yes)、ステップS62へ移行し、帯域が所定の閾値未満である場合(ステップS61:No)、ステップS63へ移行する。
帯域判定部61は、検出した帯域が所定の閾値以上であると判定した場合、動作モードを帯域満足動作モードに切り替える。そして、ステップS64へ移行する。
帯域判定部61は、検出した帯域が所定の閾値未満であると判定した場合、動作モードを帯域不足動作モードに切り替える。そして、ステップS64へ移行する。
ビデオ会議が継続している場合(ステップS64:No)、ステップS61へ戻り、帯域判定部61は、通信ネットワーク2の帯域の検出および判定を継続する。一方、ビデオ会議が終了した場合(ステップS64:Yes)、管理システム50は帯域判定処理を終了する。
図23は、第1の実施形態に係る管理システムの音声合成モデル生成処理の流れの一例を示すフローチャートである。図23を参照しながら、本実施形態に係る管理システム50の音声合成モデル生成処理の流れについて説明する。なお、図23に示す音声合成モデル生成処理は、帯域判定部61により帯域満足動作モードに切り替えられている場合に実行される。
管理システム50の通信部51は、各拠点の通信端末10から映像データ、音声データ、および当該通信端末10の発話方向特定部20により特定された発話方向を受信する。そして、ステップS72へ移行する。
管理システム50の音声認識部62は、通信部51により通信端末10から受信された参加者の音声データをテキストに変換する音声認識動作を実行する。そして、ステップS73へ移行する。
管理システム50の音声分析部63は、音声認識部62により変換されたテキストと、通信部51により受信された音声データとの比較によって、当該音声データに対応する参加者の音声合成モデルを生成する音声分析動作を実行する。そして、ステップS74へ移行する。
管理システム50の登録部64は、発話方向・音声合成モデル対応テーブルにおいて、音声分析部63により参加者の音声のテキストおよび音声データから生成された音声合成モデルを、当該参加者に対応する発話方向と関連付けて記憶させる(登録する)。この際、登録部64は、発話方向・音声合成モデル対応テーブルを、各拠点の通信端末10ごとに生成する。そして、登録部64は、帯域満足動作モード時に、発話方向および音声合成モデルが登録された発話方向・音声合成モデル対応テーブル(すなわち各参加者の音声合成モデルを含む)を、当該発話方向・音声合成モデル対応テーブルに登録された発話方向に対応する参加者の拠点との通話対象となる相手拠点の通信端末10へ、通信部51を介して送信する。以上で音声合成モデル生成処理を終了する。
図24は、第1の実施形態に係る管理システムのコンテンツ中継処理の流れの一例を示すフローチャートである。図24を参照しながら、本実施形態に係る管理システム50のコンテンツ中継処理の流れについて説明する。なお、図24に示すコンテンツ中継処理が実行されるにあたって、帯域判定部61により帯域不足動作モードに切り替えられているものとする。
管理システム50の通信部51は、特定の通信端末10から静止画データを受信すると、当該通信端末10の相手拠点である通信端末10へ、当該静止画データを中継して送信する。そして、ステップS82へ移行する。
通信部51は、特定の通信端末10から当該通信端末10により変換されたテキストデータ、および特定された発話方向を受信すると、当該通信端末10の相手拠点となる通信端末10へ、当該テキストデータおよび発話方向を中継して送信する。
図25は、第1の実施形態に係る通信端末のコンテンツ送受信処理の流れの一例を示すフローチャートである。図25を参照しながら、本実施形態に係る通信端末10のコンテンツ送受信処理の流れについて説明する。なお、図25に示すコンテンツ送受信処理が実行されるにあたって、管理システム50の帯域判定部61により帯域満足動作モードに切り替えられているものとする。
特定の通信端末10の通信部11は、音声入力部15により参加者の音声データが入力されると、当該音声データを、相手拠点の通信端末10へ送信する。また、通信部11は、撮像部13により撮影された映像データも相手拠点の通信端末10へ送信する。
特定の通信端末10の通信部11は、管理システム50から相手拠点の参加者の音声合成モデルを受信する。具体的には、通信部11は、相手拠点の参加者の音声合成モデルを含む発話方向・音声合成モデル対応テーブル(後述の図28参照)を受信する。特定の通信端末10の記憶・読出部17は、通信部11により受信された発話方向・音声合成モデル対応テーブルを、記憶部18に記憶させる。
図26は、第1の実施形態に係る通信端末の音声合成処理の流れの一例を示すフローチャートである。図26を参照しながら、本実施形態に係る通信端末10の音声合成処理の流れについて説明する。なお、図26に示す音声合成処理が実行されるにあたって、管理システム50の帯域判定部61により帯域不足動作モードに切り替えられているものとする。
特定の通信端末10の通信部11は、撮像部13により撮像された静止画データを、相手拠点の通信端末10へ送信する。また、通信部11により相手拠点の通信端末10から静止画データを受信すると、特定の通信端末10の表示制御部14は、ディスプレイ120(ディスプレイ214)に対して当該静止画データを表示させる。なお、帯域不足動作モードの場合、常時、静止画データを送受信する必要はなく、例えば、一定時間毎に、静止画データを送受信するものとしてもよい。そして、ステップS102へ移行する。
特定の通信端末10の発話方向特定部20は、音声入力部15により入力された音声信号に基づいて、音声方向(発話方向)を特定する。また、通信端末10のテキスト化部21は、音声入力部15により入力された参加者の音声データをテキストに変換して出力する。そして、特定の通信端末10の通信部11は、発話方向およびテキストを、相手拠点の通信端末10へ送信する。
また、通信部11により相手拠点の通信端末10から発話方向およびテキストを受信すると、特定の通信端末10のモデル特定部22は、記憶部18に記憶されている発話方向・音声合成モデル対応テーブルを参照し、相手拠点の参加者の音声のテキストと共に受信された発話方向から、当該参加者に対応する音声合成モデルを特定する。そして、ステップS104へ移行する。
特定の通信端末10の音声合成部23は、モデル特定部22により特定された音声合成モデルと、通信部11により受信された相手拠点の参加者の音声のテキストとを用いて音声の合成を行い、当該参加者の音声合成データを得る。そして、特定の通信端末10の音声出力部16は、当該音声合成データをスピーカ114b(スピーカ242)から音声として出力(再生)させる。
図27は、第1の実施形態に係る通信システムの全体動作の流れの一例を示す図である。図28は、発話方向・音声合成モデル対応テーブルの一例を示す図である。図27および図28を参照しながら、本実施形態に係る通信システム1の全体動作の流れの詳細について説明する。なお、図27の例では、通信端末10aaと通信端末10dbとの間でセッションが確立されているものとする。
管理システム50の帯域判定部61は、通信ネットワーク2の帯域(すなわちデータ通信速度)を検出して、帯域が所定の閾値以上であるか否かを判定する。ここでは、帯域判定部61によって帯域が所定の閾値以上であると判定され、動作モードが帯域満足動作モードに切り替えられたものとする。
帯域判定部61は、通信部51を介して、通信端末10aaおよび通信端末10dbに、動作モードが帯域満足動作モードであることを通知する。
通信端末10aaの通信部11は、音声入力部15により参加者の音声データが入力されると、当該音声データを、管理システム50へ送信する。また、通信部11は、撮像部13により撮影された映像データも、管理システム50へ送信する。さらに、通信部11は、発話方向特定部20により特定された参加者の発話方向も、管理システム50へ送信する。管理システム50の通信部51は、通信端末10aaから受信した映像データ、音声データ、および発話方向を、通信端末10dbへ転送(中継)する。
通信端末10dbの通信部11は、音声入力部15により参加者の音声データが入力されると、当該音声データを、管理システム50へ送信する。また、通信部11は、撮像部13により撮影された映像データも、管理システム50へ送信する。さらに、通信部11は、発話方向特定部20により特定された参加者の発話方向も、管理システム50へ送信する。管理システム50の通信部51は、通信端末10dbから受信した映像データ、音声データ、および発話方向を、通信端末10aaへ転送(中継)する。
管理システム50の音声認識部62は、通信部51により通信端末10aa、10dbから受信された各参加者の音声データをテキストに変換する音声認識動作を実行する。そして、管理システム50の音声分析部63は、音声認識部62により変換されたテキストと、通信部51により受信された音声データとの比較によって、当該音声データに対応する参加者の音声合成モデルを生成する音声分析動作を実行する。
そして、登録部64は、発話方向および音声合成モデルが登録された発話方向・音声合成モデル対応テーブル(すなわち各参加者の音声合成モデルを含む)を、当該発話方向・音声合成モデル対応テーブルに登録された発話方向に対応する参加者の拠点との通話対象となる相手拠点の通信端末10へ、通信部51を介して送信する。すなわち、登録部64は、通信端末10aaの参加者の音声合成モデルが登録された発話方向・音声合成モデル対応テーブルを、相手拠点の通信端末10dbへ送信し、通信端末10dbの参加者の音声合成モデルが登録された発話方向・音声合成モデル対応テーブルを、相手拠点の通信端末10aaへ送信する。
また、管理システム50の帯域判定部61は、通信ネットワーク2の帯域(すなわちデータ通信速度)を検出して、帯域が所定の閾値以上であるか否かを判定し、ここでは、帯域判定部61によって帯域が所定の閾値未満であると判定され、動作モードが帯域不足動作モードに切り替えられたものとする。
帯域判定部61は、通信部51を介して、通信端末10aaおよび通信端末10dbに、動作モードが帯域不足動作モードであることを通知する。
通信端末10aaの通信部11は、撮像部13により撮影された静止画データを、管理システム50へ送信する。管理システム50の通信部51は、通信端末10aaから受信した静止画データを、通信端末10dbへ転送(中継)する。
通信端末10dbの通信部11は、撮像部13により撮影された静止画データを、管理システム50へ送信する。管理システム50の通信部51は、通信端末10dbから受信した静止画データを、通信端末10aaへ転送(中継)する。
通信端末10aaのテキスト化部21は、音声入力部15により入力された参加者の音声データをテキストに変換して出力する。
通信端末10aaの発話方向特定部20は、音声入力部15により入力された音声信号に基づいて、音声方向(発話方向)を特定する。そして、通信端末10aaの通信部11は、発話方向およびテキストを、管理システム50へ送信する。管理システム50の通信部51は、通信端末10aaから受信した発話方向およびテキストを、通信端末10dbへ転送(中継)する。
通信端末10dbの通信部11により通信端末10aaから発話方向およびテキストを受信すると、通信端末10dbのモデル特定部22は、記憶部18に記憶されている発話方向・音声合成モデル対応テーブルを参照し、相手拠点の参加者の音声のテキストと共に受信された発話方向から、当該参加者に対応する音声合成モデルを特定する。次に、通信端末10dbの音声合成部23は、モデル特定部22により特定された音声合成モデルと、通信部11により受信された相手拠点の参加者の音声のテキストとを用いて音声の合成を行い、当該参加者の音声合成データを得る。そして、通信端末10dbの音声出力部16は、当該音声合成データをスピーカ114b(スピーカ242)から音声として出力(再生)させる。
通信端末10dbのテキスト化部21は、音声入力部15により入力された参加者の音声データをテキストに変換して出力する。
通信端末10dbの発話方向特定部20は、音声入力部15により入力された音声信号に基づいて、音声方向(発話方向)を特定する。そして、通信端末10dbの通信部11は、発話方向およびテキストを、管理システム50へ送信する。管理システム50の通信部51は、通信端末10dbから受信した発話方向およびテキストを、通信端末10aaへ転送(中継)する。
通信端末10aaの通信部11により通信端末10dbから発話方向およびテキストを受信すると、通信端末10aaのモデル特定部22は、記憶部18に記憶されている発話方向・音声合成モデル対応テーブルを参照し、相手拠点の参加者の音声のテキストと共に受信された発話方向から、当該参加者に対応する音声合成モデルを特定する。次に、通信端末10aaの音声合成部23は、モデル特定部22により特定された音声合成モデルと、通信部11により受信された相手拠点の参加者の音声のテキストとを用いて音声の合成を行い、当該参加者の音声合成データを得る。そして、通信端末10aaの音声出力部16は、当該音声合成データをスピーカ114b(スピーカ242)から音声として出力(再生)させる。
第2の実施形態に係る通信システムについて、第1の実施形態に係る通信システム1と相違する点を中心に説明する。第1の実施形態では、各通信端末10で特定される発話方向を話者(参加者)を識別する情報として、音声合成モデルと関連付ける動作を説明した。本実施形態では、映像データから話者(参加者)の口唇動作を認識して、認識された口唇動作の座標を、話者(参加者)を識別する情報として用いる動作について説明する。なお、本実施形態に係る通信システムの全体構成、通信端末10および管理システム50のハードウェア構成、通信端末10のソフトウェア構成、ならびに図15〜図19に示した通信端末10間のセッションの確立動作は、第1の実施形態で説明したものと同様である。
図29は、第2の実施形態に係る通信システムの機能ブロックの構成の一例を示す図である。図30は、発話方向と発話者(口唇座標)との対応を説明する図である。図31は、座標・発話方向対応テーブルの一例を示す図である。図29〜図31を参照しながら、本実施形態に係る通信システム1aの機能ブロックの構成および動作について説明する。
図29に示すように、通信端末10aは、通信部11と、操作入力受付部12と、撮像部13と、表示制御部14と、音声入力部15と、音声出力部16と、記憶・読出部17と、記憶部18と、認証要求部19と、発話方向特定部20と、テキスト化部21と、モデル特定部22aと、音声合成部23と、を有している。
図29に示すように、管理システム50aは、通信部51と、認証部52と、状態管理部53と、端末抽出部54と、端末状態取得部55と、セッション制御部56と、記憶・読出部57と、記憶部58と、を有している。管理システム50aは、さらに、帯域判定部61と、音声認識部62と、音声分析部63と、登録部64aと、口唇動作認識部65と、対応付け部66と、を有している。
図32は、第2の実施形態に係る通信システムの全体動作の流れの一例を示す図である。図33は、口唇座標・音声合成モデル対応テーブルの一例を示す図である。図32および図33を参照しながら、本実施形態に係る通信システム1aの全体動作の流れの詳細について説明する。なお、図32の例では、通信端末10aaと通信端末10dbとの間でセッションが確立されているものとする。また、図32に示す通信端末10aa、10dbは、図29に示す通信端末10aと同様の機能ブロックの構成を有する。
上述の図27で示したステップS111〜S117の動作と同様である。
管理システム50aの口唇動作認識部65は、通信部51で受信された通信端末10aaの映像データ、および通信端末10dbの映像データから、写り込んでいる各拠点の参加者の口唇動作を検出して、当該口唇動作を示す部分の座標(口唇座標)を算出する。そして、管理システム50aの登録部64aは、口唇動作認識部65により映像データから認識された参加者の口唇動作を示す部分の座標(口唇座標)を、図33に示す口唇座標・音声合成モデル対応テーブルに、話者を識別する情報(話者識別情報)として登録する。この際、登録部64aは、口唇座標・音声合成モデル対応テーブルを、各拠点の通信端末10aごとに生成する。
管理システム50aの音声認識部62は、通信部51により通信端末10aa、10dbから受信された各参加者の音声データをテキストに変換する音声認識動作を実行する。そして、管理システム50aの音声分析部63は、音声認識部62により変換されたテキストと、通信部51により受信された音声データとの比較によって、当該音声データに対応する参加者の音声合成モデルを生成する音声分析動作を実行する。
そして、登録部64aは、口唇座標および音声合成モデルが登録された口唇座標・音声合成モデル対応テーブル(すなわち各参加者の音声合成モデルを含む)を、当該口唇座標・音声合成モデル対応テーブルに登録された口唇座標に対応する参加者の拠点との通話対象となる相手拠点の通信端末10へ、通信部51を介して送信する。すなわち、登録部64aは、通信端末10aaの参加者の音声合成モデルが登録された口唇座標・音声合成モデル対応テーブルを、相手拠点の通信端末10dbへ送信し、通信端末10dbの参加者の音声合成モデルが登録された口唇座標・音声合成モデル対応テーブルを、相手拠点の通信端末10aaへ送信する。
上述の図27で示したステップS122〜S128の動作と同様である。
通信端末10aaのテキスト化部21は、音声入力部15により入力された参加者の音声データをテキストに変換して出力する。
通信端末10aaの発話方向特定部20は、音声入力部15により入力された音声信号に基づいて、音声方向(発話方向)を特定する。そして、通信端末10aaの通信部11は、発話方向およびテキストを、管理システム50aへ送信する。
管理システム50aの対応付け部66は、予め記憶部58に記憶されている図31に示すような座標・発話方向対応テーブルを参照し、通信部51により受信された発話方向が、どの座標(口唇座標)に対応するのかを特定する(対応付ける)。
管理システム50aの通信部51は、通信端末10aaから受信したテキスト、および対応付け部66により対応付けられた口唇座標を、通信端末10dbへ送信する。
通信端末10dbの通信部11により通信端末10aaから口唇座標およびテキストを受信すると、通信端末10dbのモデル特定部22aは、記憶部18に記憶されている、図33に示す口唇座標・音声合成モデル対応テーブルを参照し、通信部11により相手拠点の参加者の音声のテキストと共に受信された口唇座標から、当該参加者に対応する音声合成モデルを特定する。次に、通信端末10dbの音声合成部23は、モデル特定部22aにより特定された音声合成モデルと、通信部11により受信された相手拠点の参加者の音声のテキストとを用いて音声の合成を行い、当該参加者の音声合成データを得る。そして、通信端末10dbの音声出力部16は、当該音声合成データをスピーカ114b(スピーカ242)から音声として出力(再生)させる。
通信端末10dbのテキスト化部21は、音声入力部15により入力された参加者の音声データをテキストに変換して出力する。
通信端末10dbの発話方向特定部20は、音声入力部15により入力された音声信号に基づいて、音声方向(発話方向)を特定する。そして、通信端末10dbの通信部11は、発話方向およびテキストを、管理システム50aへ送信する。
管理システム50aの対応付け部66は、予め記憶部58に記憶されている図31に示すような座標・発話方向対応テーブルを参照し、通信部51により受信された発話方向が、どの座標(口唇座標)に対応するのかを特定する(対応付ける)。
管理システム50aの通信部51は、通信端末10dbから受信したテキスト、および対応付け部66により対応付けられた口唇座標を、通信端末10aaへ送信する。
通信端末10aaの通信部11により通信端末10dbから口唇座標およびテキストを受信すると、通信端末10aaのモデル特定部22aは、記憶部18に記憶されている、図33に示す口唇座標・音声合成モデル対応テーブルを参照し、通信部11により相手拠点の参加者の音声のテキストと共に受信された口唇座標から、当該参加者に対応する音声合成モデルを特定する。次に、通信端末10aaの音声合成部23は、モデル特定部22aにより特定された音声合成モデルと、通信部11により受信された相手拠点の参加者の音声のテキストとを用いて音声の合成を行い、当該参加者の音声合成データを得る。そして、通信端末10aaの音声出力部16は、当該音声合成データをスピーカ114b(スピーカ242)から音声として出力(再生)させる。
第3の実施形態に係る通信システムについて、第1の実施形態に係る通信システム1と相違する点を中心に説明する。第1の実施形態では、各通信端末10で特定される発話方向を話者(参加者)を識別する情報として、音声合成モデルと関連付ける動作を説明した。本実施形態では、映像データから話者(参加者)の顔を認識して、認識された顔の中心座標を、話者(参加者)を識別する情報として用いる動作について説明する。なお、本実施形態に係る通信システムの全体構成、通信端末10および管理システム50のハードウェア構成、通信端末10のソフトウェア構成、ならびに図15〜図19に示した通信端末10間のセッションの確立動作は、第1の実施形態で説明したものと同様である。
図34は、第3の実施形態に係る通信システムの機能ブロックの構成の一例を示す図である。図35は、発話方向と発話者(中心座標)との対応を説明する図である。図34および図35を参照しながら、本実施形態に係る通信システム1bの機能ブロックの構成および動作について説明する。
図34に示すように、通信端末10bは、通信部11と、操作入力受付部12と、撮像部13と、表示制御部14と、音声入力部15と、音声出力部16と、記憶・読出部17と、記憶部18と、認証要求部19と、発話方向特定部20と、テキスト化部21と、モデル特定部22bと、音声合成部23と、を有している。
図34に示すように、管理システム50bは、通信部51と、認証部52と、状態管理部53と、端末抽出部54と、端末状態取得部55と、セッション制御部56と、記憶・読出部57と、記憶部58と、を有している。管理システム50bは、さらに、帯域判定部61と、音声認識部62と、音声分析部63と、登録部64bと、顔認識部67と、対応付け部66bと、を有している。
図36は、第3の実施形態に係る通信システムの全体動作の流れの一例を示す図である。図37は、顔認識情報・顔中心座標・音声合成モデル対応テーブルの一例を示す図である。図36および図37を参照しながら、本実施形態に係る通信システム1bの全体動作の流れの詳細について説明する。なお、図36の例では、通信端末10aaと通信端末10dbとの間でセッションが確立されているものとする。また、図36に示す通信端末10aa、10dbは、図34に示す通信端末10bと同様の機能ブロックの構成を有する。
上述の図27で示したステップS111〜S117の動作と同様である。
管理システム50bの顔認識部67は、通信部51で受信された通信端末10aaの映像データ、および通信端末10dbの映像データから、写り込んでいる各拠点の参加者の顔を検出して、顔の特徴を数値化した顔認識情報を取得し、当該顔の画像の中心座標(顔中心座標)を算出する。そして、管理システム50bの登録部64bは、顔認識部67により映像データから認識された参加者の顔の認識情報(顔認識情報)、および当該顔の中心座標を、図37に示す顔認識情報・顔中心座標・音声合成モデル対応テーブルに、話者を識別する情報(話者識別情報)として登録する。
管理システム50bの音声認識部62は、通信部51により通信端末10aa、10dbから受信された各参加者の音声データをテキストに変換する音声認識動作を実行する。そして、管理システム50bの音声分析部63は、音声認識部62により変換されたテキストと、通信部51により受信された音声データとの比較によって、当該音声データに対応する参加者の音声合成モデルを生成する音声分析動作を実行する。
そして、登録部64bは、顔認識情報、顔中心座標および音声合成モデルが登録された顔認識情報・顔中心座標・音声合成モデル対応テーブル(すなわち各参加者の音声合成モデルを含む)のうち顔中心座標と音声合成モデルとを対応付ける部分テーブルを、当該部分テーブルに登録された顔認識情報・顔中心座標に対応する参加者の拠点との通話対象となる相手拠点の通信端末10へ、通信部51を介して送信する。すなわち、登録部64bは、通信端末10aaの参加者の音声合成モデルが登録された部分テーブルを、相手拠点の通信端末10dbへ送信し、通信端末10dbの参加者の音声合成モデルが登録された部分テーブルを、相手拠点の通信端末10aaへ送信する。
上述の図27で示したステップS122〜S128の動作と同様である。
通信端末10aaのテキスト化部21は、音声入力部15により入力された参加者の音声データをテキストに変換して出力する。
通信端末10aaの発話方向特定部20は、音声入力部15により入力された音声信号に基づいて、音声方向(発話方向)を特定する。そして、通信端末10aaの通信部11は、発話方向およびテキストを、管理システム50bへ送信する。
管理システム50bの対応付け部66bは、予め記憶部58に記憶されている図31に示すような座標・発話方向テーブルを参照し、通信部51により受信された発話方向が、どの座標(顔中心座標)に対応するのかを特定する(対応付ける)。
管理システム50bの通信部51は、通信端末10aaから受信したテキスト、および対応付け部66bにより対応付けられた顔中心座標を、通信端末10dbへ送信する。
通信端末10dbの通信部11により通信端末10aaから顔中心座標およびテキストを受信すると、通信端末10dbのモデル特定部22bは、記憶部18に記憶されている、図37に示す顔認識情報・顔中心座標・音声合成モデル対応テーブルのうち顔中心座標と音声合成モデルとを対応付ける部分テーブルを参照し、通信部11により相手拠点の参加者の音声のテキストと共に受信された顔中心座標から、当該参加者に対応する音声合成モデルを特定する。次に、通信端末10dbの音声合成部23は、モデル特定部22bにより特定された音声合成モデルと、通信部11により受信された相手拠点の参加者の音声のテキストとを用いて音声の合成を行い、当該参加者の音声合成データを得る。そして、通信端末10dbの音声出力部16は、当該音声合成データをスピーカ114b(スピーカ242)から音声として出力(再生)させる。
通信端末10aaのテキスト化部21は、音声入力部15により入力された参加者の音声データをテキストに変換して出力する。
通信端末10dbの発話方向特定部20は、音声入力部15により入力された音声信号に基づいて、音声方向(発話方向)を特定する。そして、通信端末10dbの通信部11は、発話方向およびテキストを、管理システム50bへ送信する。
管理システム50bの対応付け部66bは、予め記憶部58に記憶されている図31に示すような座標・発話方向テーブルを参照し、通信部51により受信された発話方向が、どの座標(顔中心座標)に対応するのかを特定する(対応付ける)。
管理システム50bの通信部51は、通信端末10dbから受信したテキスト、および対応付け部66bにより対応付けられた顔中心座標を、通信端末10aaへ送信する。
通信端末10aaの通信部11により通信端末10dbから顔中心座標およびテキストを受信すると、通信端末10aaのモデル特定部22bは、記憶部18に記憶されている、図37に示す顔認識情報・顔中心座標・音声合成モデル対応テーブルのうち顔中心座標と音声合成モデルとを対応付ける部分テーブルを参照し、通信部11により相手拠点の参加者の音声のテキストと共に受信された顔中心座標から、当該参加者に対応する音声合成モデルを特定する。次に、通信端末10aaの音声合成部23は、モデル特定部22bにより特定された音声合成モデルと、通信部11により受信された相手拠点の参加者の音声のテキストとを用いて音声の合成を行い、当該参加者の音声合成データを得る。そして、通信端末10aaの音声出力部16は、当該音声合成データをスピーカ114b(スピーカ242)から音声として出力(再生)させる。
2 通信ネットワーク
2a〜2d LAN
2ab、2cd 専用線
2i インターネット
10、10a、10aa、10ab、10ba、10b、10bb、10ca、10cb、10da、10db 通信端末
11 通信部
12 操作入力受付部
13 撮像部
14 表示制御部
15 音声入力部
16 音声出力部
17 記憶・読出部
18 記憶部
19 認証要求部
20 発話方向特定部
21 テキスト化部
22、22a、22b モデル特定部
23 音声合成部
30ab、30cb PC
50 管理システム
51 通信部
52 認証部
53 状態管理部
54 端末抽出部
55 端末状態取得部
56 セッション制御部
57 記憶・読出部
58 記憶部
61 帯域判定部
62 音声認識部
63 音声分析部
64、64a、64b 登録部
65 口唇動作認識部
66、66b 対応付け部
67 顔認識部
70a〜70d、70ab、70cd ルータ
90 プログラム提供システム
101 CPU
102 ROM
103 RAM
105 補助記憶装置
106 メディア
107 メディアドライブ
108 入力装置
110 バスライン
111 ネットワークI/F
112 カメラ
112c ケーブル
113 撮像素子I/F
114 スマートスピーカ
114a マイク
114b スピーカ
114c ケーブル
115 スピーカ
115c ケーブル
116 音声入出力I/F
117 USB I/F
119 ディスプレイI/F
120c ケーブル
120aa、120ba、120ca、120da ディスプレイ
201 CPU
202 ROM
203 RAM
204 SSD
205 ネットワークI/F
206 外部機器接続I/F
210 バスライン
211 キャプチャデバイス
212 GPU
213 ディスプレイコントローラ
214 ディスプレイ
215 センサコントローラ
216 接触センサ
217 電子ペンコントローラ
222 電源スイッチ
223 選択スイッチ
230 USBメモリ
240 スマートスピーカ
241 マイク
242 スピーカ
260 カメラ
270 PC
290 電子ペン
301 CPU
302 ROM
303 RAM
305 補助記憶装置
306 記録メディア
307 メディアドライブ
308 ディスプレイ
309 ネットワークI/F
310 バスライン
311 キーボード
312 マウス
313 DVD
314 DVDドライブ
315 USB I/F
1010 作業領域
1020 OS
1040 ブラウザ
1100−2 端末ID
1100−3 端末名
1100−4a オフラインアイコン
1100−4b 通話可能アイコン
1200−1 開始要求受付画面
1200−2 「はい」ボタン
1200−3 「いいえ」ボタン
5001 認証管理DB
5002 端末管理DB
5003 グループ管理DB
5004 セッション管理DB
A 通信アプリ
WA プログラム
Claims (11)
- 複数の通信端末がネットワークを介してビデオ会議が可能な通信システムであって、
第1通信端末を利用する参加者を識別する話者識別情報を特定する第1特定部と、
前記第1通信端末で入力された前記参加者の音声データをテキストに変換する変換部と、
前記話者識別情報と、前記テキストとを管理システムを介して第2通信端末へ送信する第1送信部と、
前記第2通信端末で受信された前記話者識別情報に対応する前記参加者の音声に基づく音声合成モデルを用いて、前記第2通信端末で受信された前記テキストから音声合成データを合成する合成部と、
前記合成部により合成された前記音声合成データを、出力部から音声として出力させる音声出力部と、
を有する通信システム。 - 前記ネットワークの少なくとも現在の帯域または予測される帯域が、該ネットワークのトラフィックの混雑を示すか否かを判定する判定部と、
前記判定部により前記トラフィックが混雑していないと判定されている場合、前記第1通信端末で入力された音声データから前記音声合成モデルを生成する生成部と、
前記話者識別情報と関連付けた前記音声合成モデルを、前記第2通信端末へ送信する第2送信部と、
をさらに有する請求項1に記載の通信システム。 - 前記判定部により前記トラフィックが混雑していると判定されている場合に、
前記変換部は、前記第1通信端末で入力された前記参加者の音声データをテキストに変換し、
前記合成部は、前記第2通信端末で受信された前記話者識別情報に関連付けられた前記音声合成モデルを用いて、前記第2通信端末で受信された前記テキストから音声合成データを合成する請求項2に記載の通信システム。 - 前記第1特定部は、前記第1通信端末の入力部により入力された前記音声データに基づいて、該音声データの音声を発話した前記参加者の発話方向を前記話者識別情報として特定する請求項1〜3のいずれか一項に記載の通信システム。
- 前記第1通信端末を利用する前記参加者を撮像した映像データを得る撮像部と、
前記判定部により前記トラフィックが混雑してないと判定されている場合に、前記撮像部により得られた前記映像データから前記参加者の所定の部位を検出して、該部位の座標を前記話者識別情報として求める認識部と、
をさらに有し、
前記第2送信部は、前記判定部により前記トラフィックが混雑してないと判定されている場合に、前記認識部により求められた前記座標と関連付けた前記参加者の前記音声合成モデルを、前記第2通信端末へ送信し、
前記第1特定部は、前記第1通信端末の入力部により入力された前記音声データに基づいて、該音声データの音声を発話した前記参加者の発話方向を前記話者識別情報として特定し、
前記判定部により前記トラフィックが混雑してないと判定されている場合に、前記第1特定部により特定された前記発話方向から、前記参加者の前記所定の部位の座標を特定する対応付け部と、
前記判定部により前記トラフィックが混雑してないと判定されている場合に、前記対応付け部により特定された座標から、前記第2通信端末へ送信された前記音声合成モデルのうち該座標に関連付けられた該音声合成モデルを特定する第2特定部と、
前記合成部は、前記第2特定部により特定された前記音声合成モデルを用いて、前記第2通信端末で受信された前記テキストから音声合成データを合成する請求項2または3に記載の通信システム。 - 前記認識部は、前記判定部により前記トラフィックが混雑してないと判定されている場合に、前記映像データから前記所定の部位として前記参加者の口唇を検出し、該口唇の座標を前記話者識別情報として求める請求項5に記載の通信システム。
- 前記第1通信端末を利用する前記参加者を撮像した映像データを得る撮像部と、
前記判定部により前記トラフィックが混雑してないと判定されている場合に、前記撮像部により得られた前記映像データから前記参加者の顔を検出して、該顔の認識情報および該顔の所定の部位の座標を前記話者識別情報として求める認識部と、
をさらに有し、
前記第2送信部は、前記判定部により前記トラフィックが混雑してないと判定されている場合に、前記認識部により求められた前記座標と関連付けた前記参加者の前記音声合成モデルを、前記第2通信端末へ送信し、
前記第1特定部は、前記第1通信端末の入力部により入力された前記音声データに基づいて、該音声データの音声を発話した前記参加者の発話方向を前記話者識別情報として特定し、
前記判定部により前記トラフィックが混雑してないと判定されている場合に、前記第1特定部により特定された前記発話方向から、前記参加者の前記顔の所定の部位の座標を特定する対応付け部と、
前記判定部により前記トラフィックが混雑してないと判定されている場合に、前記対応付け部により特定された座標から、前記第2通信端末へ送信された前記音声合成モデルのうち該座標に関連付けられた該音声合成モデルを特定する第2特定部と、
前記合成部は、前記第2特定部により特定された前記音声合成モデルを用いて、前記第2通信端末で受信された前記テキストから音声合成データを合成する請求項2または3に記載の通信システム。 - 前記認識部は、前記第2特定部によって、前記対応付け部により特定された座標から、前記音声合成モデルが特定されない場合、再度、前記映像データから前記参加者の顔を検出して、該顔の認識情報および該顔の所定の部位の座標を求め、
前記第2送信部は、前記認識部により再度求められた前記座標と関連付けた前記参加者の前記音声合成モデルを、前記第2通信端末へ送信する請求項7に記載の通信システム。 - 他の通信端末がネットワークを介してビデオ会議が可能な通信端末であって、
前記通信端末を利用する第1参加者を識別する第1話者識別情報を特定する特定部と、
前記通信端末で入力された前記第1参加者の音声データを第1テキストに変換する変換部と、
前記第1話者識別情報と、前記第1テキストとを管理システムを介して前記他の通信端末へ送信する送信部と、
前記他の通信端末から該他の通信端末を利用する第2参加者の第2話者識別情報と、該他の通信端末で入力された音声データから変換された第2テキストを受信する受信部と、
前記受信部により受信された前記第2話者識別情報に対応する前記第2参加者の音声に基づく音声合成モデルを用いて、前記受信部により受信された前記第2テキストから音声合成データを合成する合成部と、
前記合成部により合成された前記音声合成データを、出力部から音声として出力させる音声出力部と、
を有する通信端末。 - 他の通信端末がネットワークを介してビデオ会議が可能な通信端末の通信方法であって、
前記通信端末を利用する第1参加者を識別する第1話者識別情報を特定する特定ステップと、
前記通信端末で入力された前記第1参加者の音声データを第1テキストに変換する変換ステップと、
前記第1話者識別情報と、前記第1テキストとを管理システムを介して前記他の通信端末へ送信する送信ステップと、
前記他の通信端末から該他の通信端末を利用する第2参加者の第2話者識別情報と、該他の通信端末で入力された音声データから変換された第2テキストを受信する受信ステップと、
受信した前記第2話者識別情報に対応する前記第2参加者の音声に基づく音声合成モデルを用いて、受信した前記第2テキストから音声合成データを合成する合成ステップと、
合成した前記音声合成データを、出力部から音声として出力させる音声出力ステップと、
を有する通信方法。 - 他の通信端末がネットワークを介してビデオ会議が可能な通信端末のコンピュータに、
前記通信端末を利用する第1参加者を識別する第1話者識別情報を特定する特定ステップと、
前記通信端末で入力された前記第1参加者の音声データを第1テキストに変換する変換ステップと、
前記第1話者識別情報と、前記第1テキストとを管理システムを介して前記他の通信端末へ送信する送信ステップと、
前記他の通信端末から該他の通信端末を利用する第2参加者の第2話者識別情報と、該他の通信端末で入力された音声データから変換された第2テキストを受信する受信ステップと、
受信した前記第2話者識別情報に対応する前記第2参加者の音声に基づく音声合成モデルを用いて、受信した前記第2テキストから音声合成データを合成する合成ステップと、
合成した前記音声合成データを、出力部から音声として出力させる音声出力ステップと、
を実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019138333A JP2021022836A (ja) | 2019-07-26 | 2019-07-26 | 通信システム、通信端末、通信方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019138333A JP2021022836A (ja) | 2019-07-26 | 2019-07-26 | 通信システム、通信端末、通信方法およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021022836A true JP2021022836A (ja) | 2021-02-18 |
Family
ID=74574842
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019138333A Pending JP2021022836A (ja) | 2019-07-26 | 2019-07-26 | 通信システム、通信端末、通信方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2021022836A (ja) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08328813A (ja) * | 1995-05-31 | 1996-12-13 | Internatl Business Mach Corp <Ibm> | 改良した声送信方法と装置 |
JPH10285275A (ja) * | 1997-04-11 | 1998-10-23 | Nec Corp | 通話方法、音声送信装置及び音声受信装置 |
JP2001145103A (ja) * | 1999-11-18 | 2001-05-25 | Oki Electric Ind Co Ltd | 送信装置及び通信システム |
JP2011209731A (ja) * | 2010-03-30 | 2011-10-20 | Polycom Inc | ビデオ会議に翻訳を追加するための方法及びシステム |
JP2013198066A (ja) * | 2012-03-22 | 2013-09-30 | Nec Corp | サーバ、サーバの制御方法および制御プログラム、情報処理システム、情報処理方法、携帯端末、携帯端末の制御方法および制御プログラム |
JP2014165565A (ja) * | 2013-02-22 | 2014-09-08 | Hitachi Ltd | テレビ会議装置およびシステムおよび方法 |
US20140358516A1 (en) * | 2011-09-29 | 2014-12-04 | Google Inc. | Real-time, bi-directional translation |
-
2019
- 2019-07-26 JP JP2019138333A patent/JP2021022836A/ja active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08328813A (ja) * | 1995-05-31 | 1996-12-13 | Internatl Business Mach Corp <Ibm> | 改良した声送信方法と装置 |
JPH10285275A (ja) * | 1997-04-11 | 1998-10-23 | Nec Corp | 通話方法、音声送信装置及び音声受信装置 |
JP2001145103A (ja) * | 1999-11-18 | 2001-05-25 | Oki Electric Ind Co Ltd | 送信装置及び通信システム |
JP2011209731A (ja) * | 2010-03-30 | 2011-10-20 | Polycom Inc | ビデオ会議に翻訳を追加するための方法及びシステム |
US20140358516A1 (en) * | 2011-09-29 | 2014-12-04 | Google Inc. | Real-time, bi-directional translation |
JP2013198066A (ja) * | 2012-03-22 | 2013-09-30 | Nec Corp | サーバ、サーバの制御方法および制御プログラム、情報処理システム、情報処理方法、携帯端末、携帯端末の制御方法および制御プログラム |
JP2014165565A (ja) * | 2013-02-22 | 2014-09-08 | Hitachi Ltd | テレビ会議装置およびシステムおよび方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7400231B2 (ja) | 通信システム、情報処理装置、通信方法およびプログラム | |
JP5919695B2 (ja) | セッション制御システム、伝送システム、及びプログラム | |
EP2681909B1 (en) | Transmission management apparatus | |
JP6051782B2 (ja) | 通信システムおよびプログラム | |
JP6201299B2 (ja) | 通信システム、通信方法およびプログラム | |
JP6343897B2 (ja) | 伝送端末、伝送方法、及びプログラム | |
JP6051716B2 (ja) | 伝送システム、伝送管理システムおよびプログラム | |
JP7371726B2 (ja) | 伝送管理装置 | |
JP6064367B2 (ja) | 伝送管理システム、伝送システム、及び伝送管理システム用プログラム | |
JP2014075074A (ja) | 通信システム及び通信方法 | |
EP3206374A1 (en) | Terminal presence and availability management | |
JP2022191389A (ja) | 通信端末、通信システム、通信方法およびプログラム | |
JP7247672B2 (ja) | 通信端末、通信システム、通信方法およびプログラム | |
JP6365763B2 (ja) | 管理システム、通信システム、及び通信制御プログラム並びに通信制御方法 | |
WO2015129550A1 (ja) | 伝送制御システム、伝送システム、伝送制御方法、及び記録媒体 | |
JP6314539B2 (ja) | 伝送端末、伝送システム、伝送方法及びプログラム | |
JP2017103641A (ja) | 情報処理装置、会議システム、情報処理方法およびプログラム | |
JP2021022836A (ja) | 通信システム、通信端末、通信方法およびプログラム | |
JP2017027561A (ja) | 端末、通信システム、通信方法、及びプログラム | |
JP2017022432A (ja) | 通信管理システム、通信システム、通信管理方法、及びプログラム | |
JP6500366B2 (ja) | 管理装置、端末装置、伝送システム、伝送方法およびプログラム | |
JP7326771B2 (ja) | 通信端末、通信システム、通信方法およびプログラム | |
JP2017092950A (ja) | 情報処理装置、会議システム、情報処理方法およびプログラム | |
JP7392383B2 (ja) | 伝送端末、通信システム、通信制御方法、及びプログラム | |
JP7243440B2 (ja) | 通信端末、通信システム、通信方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220518 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230428 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230509 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230705 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230822 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20240305 |