JP2022110443A

JP2022110443A - サーバ、端末装置およびオンライン会議用のプログラム

Info

Publication number: JP2022110443A
Application number: JP2021005857A
Authority: JP
Inventors: 直樹関根; Naoki Sekine
Original assignee: Toshiba TEC Corp
Current assignee: Toshiba TEC Corp
Priority date: 2021-01-18
Filing date: 2021-01-18
Publication date: 2022-07-29
Also published as: CN114822526A; US20220230656A1

Abstract

【課題】話者の音声が受信側の端末装置で正常に出力されていないことを確認できるサーバ、端末装置、および、オンライン会議用のプログラムを提供する。【解決手段】実施形態によれば、サーバは、通信インターフェースとメモリとプロセッサとを有する。通信インターフェースは、入力された音声から生成する音声データを発信する第１の端末装置および前記第１の端末装置から受信する前記音声データに基づく音声を出力する第２の端末装置と通信する。メモリは、第１の端末装置に入力された入力音声に対する第１の端末装置による音声認識結果と第２の端末装置が第１の端末装置から受信した入力音声の音声データに対する第２の端末装置による音声認識結果とを記憶する。プロセッサは、第１の端末装置による音声認識結果と第２の端末装置による音声認識結果との比較に基づいて、第１の端末装置に入力された入力音声と第２の端末装置が第１の端末装置から受信した入力音声の音声データに基づいて出力する音声との差異を判定する。【選択図】図２

Description

本発明の実施形態は、サーバ、端末装置およびオンライン会議用のプログラムに関する。

従来、ネットワークを介して接続される複数の端末装置が音声を送受することで会議などの複数人での対話を行うオンライン会議という技術がある。オンライン会議に参加する複数の端末装置は、それぞれ異なる通信環境にある場合が多い。通信環境が良くない端末装置は、他の端末装置で入力された音声の一部が途切れたり、正確な音声として出力されなかったりする。

従来、オンライン会議における各端末装置間の通信品質を測定する技術としては、少量のテストデータを往復させ、時間差からスループット（転送速度）を求めるものがある。このような従来の技術は、簡便ではあるが、オンライン会議における人の体感を反映していないことが多い。例えば、スループットが一時的に低くても音声が聴こえたり、安定したスループットの計測値でも音声が途切れてしまったりすることがある。このため、オンライン会議中において、話者の音声が聴取者に正確に届いているかを確実に検知できるものが要望されている。

特開２００７－２２８１１４号公報

上記した課題を解決するために、話者の音声が受信側の端末装置で正常に出力されていないことを確認できるサーバ、端末装置、および、オンライン会議用のプログラムを提供する。

実施形態によれば、サーバは、通信インターフェースとメモリとプロセッサとを有する。通信インターフェースは、入力された音声から生成する音声データを発信する第１の端末装置および前記第１の端末装置から受信する前記音声データに基づく音声を出力する第２の端末装置と通信する。メモリは、第１の端末装置に入力された入力音声に対する第１の端末装置による音声認識結果と第２の端末装置が第１の端末装置から受信した入力音声の音声データに対する第２の端末装置による音声認識結果とを記憶する。プロセッサは、第１の端末装置による音声認識結果と第２の端末装置による音声認識結果との比較に基づいて、第１の端末装置に入力された入力音声と第２の端末装置が第１の端末装置から受信した入力音声の音声データに基づいて出力する音声との差異を判定する。

図１は、実施形態に係るオンライン会議システムの構成例を模式的に示す図である。図２は、実施形態に係るオンライン会議システムに用いられるサーバにおける制御系の構成例を示すブロック図である。図３は、実施形態に係るオンライン会議システムに用いられる端末装置における制御系の構成例を示すブロック図である。図４は、実施形態に係るオンライン会議システムにおける複数の端末装置による音声認識結果の例を示す図である。図５は、実施形態に係るオンライン会議システムに用いられるサーバの動作例を説明するためのフローチャートである。図６は、実施形態に係るオンライン会議システムに用いられるサーバの動作例を説明するためのフローチャートである。

以下、実施形態について、図面を参照して説明する。
図１は、実施形態に係るオンライン会議システム１を概略的に説明するための図である。
図１に示すように、実施形態に係るオンライン会議システム１は、ネットワークを介して接続されるサーバ１０と複数の端末装置２０（２１、２２、２３、…）とを有する。
サーバ１０は、各端末装置２０における音声通話の品質を管理する管理装置である。サーバ１０は、ある端末装置（第１の端末装置）２１に入力された音声がネットワークを介して接続される他の端末装置（第２の端末装置）２２、２３でどのように出力されているかを判定する。図１に示す例において、第１の端末装置は、話者が音声を入力する端末装置２１であり、第２の端末装置は、話者以外の聴講者の端末装置２２、２３であるものとする。

サーバ１０は、話者が端末装置（第１の端末装置）２１に入力する音声の音声認識結果を端末装置２１から取得する。また、サーバ１０は、話者以外（聴講者）の端末装置（第２の端末装置）２２、２３がネットワークを介して端末装置２１から受信した音声（第２の端末装置が出力する音声）に対する音声認識結果を端末装置２２、２３から取得する。

サーバ１０は、話者の端末装置２１に入力された音声の音声認識結果と聴講者の端末装置２２、２３で出力する音声の音声認識結果とを比較する。端末装置２１での音声認識結果と端末装置２２、２３での音声認識結果とが一致する場合、サーバ１０は、端末装置２１に入力された音声が端末装置２２、２３で正確に出力されていると判定する。端末装置２２、２３での音声認識結果と端末装置２１での音声認識結果とが異なる場合、サーバ１０は、端末装置２１に入力された音声が端末装置２２、２３で正確に出力されていないとを判定する。サーバ１０は、端末装置２２、２３での音声認識結果と端末装置２１での音声認識結果とが既定値（閾値）を超えて異なる場合に端末装置２２、２３へ警告を送信する。

複数の端末装置２０（２１、２２、２３、…）は、マイクおよびスピーカを備える情報処理装置である。マイクは、人物が発する声を含む音を入力（集音）する。スピーカは、音声データに基づく音を出力する。端末装置２０としての情報処理装置は、例えば、パーソナルコンピュータ、スマートフォン、あるいは、タブレット端末などである。また、端末装置２０は、コンピュータなどの情報処理装置にマイク２およびスピーカ３の何れか一方又は両方が接続される構成であっても良い。

端末装置２０は、話者が発した声（音声）をマイクで集音し、集音した音声のデータ（音声データ）をオンライン会議に参加している他の端末装置２０へ送信する。また、端末装置２０は、ネットワークを介して他の端末装置２０から受信した話者の音声などの音声データを受信し、受信した音声データをスピーカから音として出力する。

端末装置２０は、マイクで集音した音の音声データを他の端末装置へ送信し、他の端末装置から受信した音声データに基づく音をスピーカで出力する。また、端末装置２０は、音声認識処理を行う。端末装置２０は、マイク２で話者の音声を集音した場合、集音した音声に対する音声認識処理を行う。また、端末装置２０は、他の端末装置から音声データを受信した場合、受信した音声データに基づいて出力する音声に対する音声認識処理を行う。さらに、端末装置２０は、音声認識処理による音声認識結果をサーバ１０へアップロードする。

図１では、端末装置２１は、話者が使用する第１の端末装置であり、端末装置２２、２３は、聴講者が使用する第２の端末装置である例を模式的に示す。図１に示す例において、第１の端末装置としての端末装置２１は、話者が発した声をマイクで集音し、集音した音声のデータ（音声データ）を他の端末装置２２、２３へ送信する。第２の端末装置としての端末装置２２、２３は、ネットワークを介して端末装置２１からの音声データを受信し、受信した音声データに基づく音をスピーカから出力する。

また、第１の端末装置としての端末装置２１は、マイク２で集音した音から話者が発した声を検知した場合、マイク２で集音した音声に対する音声認識処理を行う。端末装置２１は、マイク２で集音した音声に対する音声認識処理による音声認識結果をサーバ１０へ送信する。また、第２の端末装置としての端末装置２２、２３は、第１の端末装置としての端末装置２１から音声データを受信した場合、受信した音声データに基づく音に対する音声認識処理を行う。端末装置２２、２３は、端末装置２１から受信した音声データに基づく音に対する音声認識処理による音声認識結果をサーバ１０へ送信する。

次に、実施形態に係るサーバ１０の構成について説明する。
図２は、実施形態に係るサーバ１０の構成例を示すブロック図である。
図２に示すように、サーバ１０は、プロセッサ１０１、主記憶装置１０２、補助記憶装置（メモリ）１０３、および、通信インターフェース１０４を有する。
プロセッサ１０１は、サーバ１０全体の制御を司る。プロセッサ１０１は、例えば、ＣＰＵである。プロセッサ１０１は、プログラムを実行することにより後述する種々の処理を行う。例えば、プロセッサ１０１は、各端末装置による音声認識結果の比較、音声認識結果の比較結果に応じた警告の出力などの処理を実行する。

主記憶装置１０２は、データを記憶するメインメモリである。主記憶装置１０２は、例えば、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などにより構成する。主記憶装置１０２は、プロセッサ１０１が処理中のデータを一時的に格納する。例えば、主記憶装置１０２は、プログラムの実行に必要なデータおよびプログラムの実行結果などを格納する。また、主記憶装置１０２は、データを一時的に保持するためのバッファメモリとしても動作する。

補助記憶装置１０３は、データを記憶するストレージである。補助記憶装置１０３は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）などの書き換え不可の不揮発性メモリ、および、書き換え可能な不揮発性メモリなどを含む。書き換え可能な不揮発性メモリとしては、例えば、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、ＥＥＰＲＯＭ（登録商標）あるいはフラッシュＲＯＭなどで構成される。

補助記憶装置１０３は、プロセッサ１０１が実行する種々のプログラムおよび制御データなどを記憶する。例えば、補助記憶装置１０３は、オンライン会議システムにおける各端末装置２０による音声認識結果を比較するためのプログラムを記憶する。また、補助記憶装置１０３は、各端末装置２０による音声認識結果の比較結果に応じた警告を出力するためのプログラムを記憶する。

また、本実施形態において、補助記憶装置１０３は、図２に示すように、各端末装置２０による音声認識結果を記憶する記憶領域１１３を有する。記憶領域１１３は、端末装置２１に入力された音声に対する音声認識結果と端末装置２２、２３が端末装置２１から受信（出力）する音声に対する音声認識結果とを記憶する。

通信インターフェース１０４は、オンライン会議システムにおける各端末装置２０と通信するためのインターフェースである。通信インターフェースは、有線回線を通じて通信するインターフェースを含むものであっても良いし、無線により通信するインターフェースを含むものであっても良い。例えば、プロセッサ１０１は、通信インターフェース１０４を介してオンライン会議システムに参加する各端末装置２０から音声認識結果を取得する。また、プロセッサ１０１は、通信インターフェース１０４を介して各端末装置２０による音声認識結果の比較結果に応じた警告を特定の端末装置２０へ送信する。

次に、実施形態に係る端末装置２０の構成について説明する。
図３は、実施形態に係る端末装置２０の構成例を示すブロック図である。
図３に示す構成例において、端末装置２０は、プロセッサ２０１、主記憶装置２０２、補助記憶装置（メモリ）２０３、通信インターフェース２０４、音声処理回路２０５、マイク２０６、スピーカ２０７、表示装置（報知デバイス）２０８および操作デバイス２０９などを有する。

プロセッサ２０１は、端末装置２０全体の制御を司る。プロセッサ２０１は、例えば、ＣＰＵである。プロセッサ２０１は、プログラムを実行することにより後述する種々の処理を行う。例えば、プロセッサ２０１は、入力音の音声データの生成、音声データの送信、入力音に対する音声認識、音声認識結果のサーバ１０への送信、警告の出力などの処理を行う。また、プロセッサ２０１は、音声データの受信、音声データに基づく音声出力、受信（出力）する音声に対する音声認識、および、音声認識結果のサーバ１０への送信などを行う。

主記憶装置２０２は、データを記憶するメインメモリである。主記憶装置２０２は、例えば、ＲＡＭ（ＲａｎｄｏｍＭｅｍｏｒｙ）などにより構成する。主記憶装置２０２は、プロセッサ２０１が処理中のデータを一時的に格納する。例えば、主記憶装置２０２は、プログラムの実行に必要なデータおよびプログラムの実行結果などを格納してもよい。また、主記憶装置２０２は、データを一時的に保持するためのバッファメモリとしても動作する。例えば、主記憶装置２０２は、各マイク２０６で集音した音を音声処理回路２０５で処理することで得られた音声のデータを保持する。また、主記憶装置２０２は、受信した音声データを保持する。

補助記憶装置２０３は、データを記憶するストレージである。補助記憶装置２０３は、ＲＯＭ（リードオンリーメモリ）などの書き換え不可の不揮発性メモリ、および、書き換え可能な不揮発性メモリなどを含む。書き換え可能な不揮発性メモリとしては、例えば、ＨＤＤ（ハードディスクドライブ）、ＳＳＤ（ソリッドステートドライブ）、ＥＥＰＲＯＭ（登録商標）あるいはフラッシュＲＯＭなどで構成される。

補助記憶装置２０３は、プロセッサ２０１が実行するプログラムおよび制御データなどを記憶する。補助記憶装置２０３は、上述したような各種の処理を行うためのプログラムを記憶する。例えば、補助記憶装置２０３は、入力音声あるいは受信した音声データに対する音声認識を行うための音声認識プログラムを記憶する。また、補助記憶装置２０３は、音声認識結果をサーバ１０へ送信するプログラム、サーバ１０からの通知に応じて警告を出力するプログラムなどを記憶する。さらに、図３に示す例において、補助記憶装置２０３は、音声認識結果を保持する記憶領域２１３を有する。

通信インターフェース２０４は、オンライン会議システムに参加する他の端末装置２０およびサーバ１０と通信するためのインターフェースである。通信インターフェース２０４は、有線回線を通じて通信するインターフェースを含むものであっても良いし、無線により通信するインターフェースを含むものであっても良い。例えば、プロセッサ２０１は、通信インターフェース２０４を介してオンライン会議システムに参加する他の端末装置２０との間で音声データの送受信を行う。また、プロセッサ２０１は、入力音声又は受信した音声データに対する音声認識の結果をサーバ１０へ送信する。さらに、プロセッサ２０１は、通信インターフェース２０４を介して警告の通知を受けた場合、スピーカあるいは表示装置などを用いて警告を報知する処理を行う。

マイク２０６は、音を集音（取得）する。マイク２０６は、例えば、集音した音をアナログ信号（アナログ波形）として入力し、入力された音のアナログ信号を音声処理回路２０５へ出力する。
音声処理回路２０５は、マイク２０６が集音した音のアナログ信号を入力し、入力した音のアナログ信号をデジタルデータとしての音声データを出力する。音声処理回路２０５は、アナログ波形をデジタル化するＡＤコンバータなどを有する。
なお、マイク２０６は、端末装置２０に接続される外部機器であっても良い。マイク２０６を外部機器とする場合、音声処理回路２０５は、マイク２０６を接続する音声入力用のインターフェースを備えるものとすれば良い。

スピーカ２０７は、音声を出力する。スピーカ２０７は、プロセッサ２０１から供給される応答音声としての応答波形に基づく音を発する。また、スピーカ２０７は、報知デバイスとして、後述するサーバ１０から受信する警告に応じた警告内容を音声で出力するようにしても良い。
なお、スピーカ２０７は、端末装置２０に接続される外部機器であっても良い。スピーカ２０７を外部機器とする場合、端末装置２０は、スピーカ２０７に出力すべき音の波形を示す信号を出力するインターフェースを備えるものとすれば良い。

表示装置２０８は、画像を表示する。表示装置２０８は、報知デバイスとして動作する。例えば、表示装置２０８は、後述するサーバ１０から受信する警告に応じて警告を報知するための警告画面を表示する。操作デバイス２０９は、ユーザからの操作指示を受け付ける。例えば、表示装置２０８および操作デバイス２０９は、タッチパネル付きのディスプレイによって構成する。また、操作デバイス２０９としては、テンキー、キーボード、あるいは、ポインティングデバイスなどを含むようにしても良い。

次に、実施形態に係るサーバ１０が各端末装置２０から収集する音声認識結果について説明する。
図４は、サーバ１０における補助記憶装置２０３の記憶領域２１３に記憶される各端末装置２０による音声認識結果の例を示す図である。
サーバ１０は、各端末装置２０による音声認識結果を収集する。サーバ１０は、各端末装置から収集した音声認識結果を補助記憶装置１０３の記憶領域１１３に保存する。図４に示す例において、サーバ１０は、入力音声に対する音声認識結果に対応づけて、他の端末装置が受信した当該入力音声の音声データに対する音声認識結果を保存する。図４に示す例では、話者の端末装置（第１の端末装置）２１が端末Ａであり、聴講者の端末装置（第２の端末装置）２２、２３が端末Ｂ、端末Ｃであるものとする。

端末Ａは、話者が発した音声をマイク２０６で入力し、入力した音声（入力音声）に対して音声認識を行う。端末Ａは、入力音声に対する音声認識結果を時刻を示す情報（時刻情報）に対応づけてサーバ１０に供給する。ここで、端末Ａは、音声認識結果および時刻情報と共に話者が発した音声（入力音声）に対する音声認識結果であることを示す情報も送信するようにしても良い。

また、端末Ｂおよび端末Ｃは、それぞれ端末Ａからの入力音声の音声データを受信し、受信した音声データに対して音声認識を行う。端末Ｂおよび端末Ｃは、受信した音声データに対する音声認識結果を時刻情報に対応づけてサーバ１０へ供給する。ここで、端末Ｂおよび端末Ｃは、音声認識結果および時刻情報と共に、ネットワーク経由で受信した音声データに対する音声認識結果であることを示す情報も送信するようにしても良い。また、端末Ｂおよび端末Ｃは、音声認識結果および時刻情報と共に、端末Ａからの音声データに対する音声認識結果であることを示す情報も送信するようにしても良い。

サーバ１０は、時刻情報に対応づけて各端末Ａ、Ｂ、Ｃでの音声認識結果を保存する。端末Ａが入力音声を入力した時刻と他の端末Ｂ、Ｃが端末Ａの入力音声の音声データを受信した時刻との差が短時間であるものとする。この場合、入力音声に対する音声認識結果と他の端末が受信した当該入力音声の音声データに対する音声認識結果とは、図４に示すように、対応づけて記憶領域２１３に保存される。

話者の端末Ａによる入力音声に対する音声認識結果と端末Ｂによる当該入力音声の音声データに対する音声認識結果との差異は、端末Ａおよび端末Ｂ間の通信品質を示す。話者の端末Ａによる入力音声に対する音声認識結果は、ネットワーク等の通信環境による影響を受けない。これに対して、聴講者の端末Ｂ、Ｃによる当該入力音声の音声データに対する音声認識結果は、端末Ａとの間における通信環境（通信品質）による影響を受ける。例えば、端末Ｂと端末Ａとの間の通信品質が悪いと、端末Ｂによる音声認識結果は、端末Ａによる音声認識結果との差異が大きくなる。

すなわち、端末Ａによる入力音声に対する音声認識結果と端末Ｂによる当該入力音声の音声データに対する音声認識結果との差異が大きければ大きいほど、端末Ａおよび端末Ｂ間の通信状況は悪いと判定できる。端末Ａによる入力音声に対する音声認識結果と端末Ｂによる当該入力音声の音声データに対する音声認識結果とが一致すれば、端末Ａおよび端末Ｂ間の通信状況は良好と判定できる。同様に、端末Ａによる入力音声に対する音声認識結果と端末Ｃによる当該入力音声の音声データに対する音声認識結果との差異によって端末Ａと端末Ｃとの通信状況を判定できる。

図４に示す例では、時刻「００：０１」に端末Ａに入力された入力音声に対する音声認識結果は、端末ＢおよびＣにおける当該入力音声に対応する音声認識結果と一致する。時刻「００：１２」の入力音声に対する音声認識結果は、端末Ｂにおける当該入力音声に対応する音声認識結果と一致する。しかし、時刻「００：１２」の入力音声に対する音声認識結果は、端末における当該入力音声に対応する音声認識結果と一部が不一致となる。これにより、時刻「００：１２」では、端末Ａと端末Ｂとの通信品質は良好であるが、端末Ａと端末Ｃとの通信品質が少し悪化していると判定できる。

また、図４に示す例では、時刻「００：２３」の入力音声に対する音声認識結果は、端末ＢおよびＣにおける当該入力音声に対応する音声認識結果と一致しない。また、時刻「００：３４」の入力音声に対する音声認識結果も、端末ＢおよびＣにおける当該入力音声に対応する音声認識結果と一致しない。これにより、時刻「００：２３」および「００３４」では、端末Ｂおよび端末Ｃは、端末Ａとの通信品質が悪いため、正常に入力音声が出力できていないと判定できる。

本実施形態において、サーバ１０は、オンライン会議に参加する各端末装置から音声認識結果を収集することにより、図４に示すような情報を取得する。サーバ１０は、入力音声に対する音声認識結果と他の端末装置が受信した当該入力音声の音声データに対する音声認識結果と比較する。サーバ１０は、対応する音声認識結果の差分を算出することにより、端末Ａの入力音声と当該入力音声に対応する端末Ｂ又はＣの出力音声との差異を判定する。

サーバ１０は、端末Ａによる音声認識結果と端末Ｂ又は端末Ｃによる音声認識結果との差分の大きさが所定の閾値（既定値）を超えるか否かを判断する。サーバ１０は、差分の大きさが所定の閾値を超える場合、正常に音声が出力されていないことを端末Ａに警告する。例えば、端末Ａによる音声認識結果と端末Ｂによる音声認識結果との差分が閾値を超える場合、サーバ１０は、話者の音声が端末Ｂで正常に出力できていないことを端末Ａに警告する。端末Ａは、サーバ１０からの警告を表示装置２０８により報知する。これにより、端末Ａを使用する話者は、どの端末で正常に音声が出力されていないかを知ることができる。

次に、実施形態に係るオンライン会議システム１における端末装置２０の動作について説明する。
図５は、実施形態に係るオンライン会議システム１における端末装置２０の動作例を説明するためのフローチャートである。
オンライン会議システムに参加する端末装置２０のプロセッサ２０１は、マイク２０６が集音する音声の入力又は他の端末装置２０から受信する音声（音声データ）の入力を受け付ける（ＡＣＴ１１）。プロセッサ２０１は、マイク２０６からの音声入力を有効とする動作モードと無効とする動作モードとを切り替えられるようにしても良い。例えば、プロセッサ２０１は、操作デバイス２０９を用いてユーザが入力する指示に応じてマイク２０６からの音声入力を有効又は無効とする。

マイク２０６からの音声入力が無効である場合、プロセッサ２０１は、入力音声を取得することなく、他の端末装置２０からの音声データの入力（受信）を行う（ＡＣＴ１１、ＹＥＳ）。プロセッサ２０１は、他の端末装置２０からの音声データを受信すると、当該音声データに基づく音声をスピーカ２０７から出力する。これにより、端末装置２０（第２の端末装置としての端末装置２２、２３）は、他の端末装置２０（第１の端末装置としての端末装置２１）で入力された入力音声をスピーカ２０７から出力する。

マイク２０６からの音声入力が有効である場合、プロセッサ２０１は、マイク２０６が集音する音を音声処理回路２０５を介して入力音声として取得する（ＡＣＴ１１、ＹＥＳ）。プロセッサ２０１は、取得した入力音声から生成する音声データを他の端末装置２０へ送信（配信）する。これにより、端末装置２０（例えば、第１の端末装置としての端末装置２１）のプロセッサ２０１は、マイク２０６が集音する話者が発する声（入力音声）を他の端末装置２０（例えば、第２の端末装置としての端末装置２２、２３）へ音声データとして送信（配信）できる。なお、マイク２０６からの音声入力を有効とする場合、プロセッサ２０１は、入力音声を他の端末装置２０へ配信する処理と並行して、他の端末装置２０から受信する音声データに基づく音声をスピーカ２０７から出力する処理も実行する。

マイク２０６が集音した入力音声を音声処理回路２０５を介して取得した場合（ＡＣＴ１１、ＹＥＳ）、プロセッサ２０１は、入力音声に対して音声認識処理を行う（ＡＣＴ１２）。プロセッサ２０１は、入力音声に対する音声認識結果を補助記憶装置２０３の記憶領域２１３に記憶する（ＡＣＴ１３）。例えば、プロセッサ２０１は、当該入力音声を入力した時刻を示す時刻情報に対応づけて音声認識結果を記憶領域２１３に記憶する。さらに、プロセッサ２０１は、音声認識結果がマイク２０６で集音した入力音声に対する音声認識結果であることを示す情報も記憶する。

また、他の端末装置２０からの音声データを通信Ｉ／Ｆ２０４で受信した場合（ＡＣＴ１１、ＹＥＳ）、プロセッサ２０１は、受信した音声データに対して音声認識処理を行う（ＡＣＴ１２）。プロセッサ２０１は、他の端末装置２０から受信した音声データに対する音声認識結果を補助記憶装置２０３の記憶領域２１３に記憶する（ＡＣＴ１３）。例えば、プロセッサ２０１は、当該音声データを入力した時刻を示す時刻情報に対応づけて音声認識結果を記憶領域２１３に記憶する。さらに、プロセッサ２０１は、音声認識結果が他の端末装置から受信した音声データに対する音声認識結果であることを示す情報も記憶する。

ここで、入力音声に対する音声認識処理と受信した音声データに対する音声認識処理とは、同じ音声認識用のプログラムで実行されるものとする。また、各端末装置２０が実行する音声認識処理は、同等のアルゴリズムで構成された音声認識用のプログラムで実行されるものとする。ただし、各端末装置２０が実行する音声認識用のプログラムは、同じ音声に対する認識結果に閾値以上の差異が生じることがなければ、異なるプログラムであっても良い。

また、プロセッサ２０１は、記憶領域２１３に記憶した音声認識結果をサーバ１０へ送信するか否かを判断する（ＡＣＴ１４）。プロセッサ２０１は、予め設定した条件に基づいて記憶領域２１３に保存した音声認識結果をサーバ１０へ送信する。例えば、プロセッサ２０１は、所定時間ごとに音声認識結果を送信するようにする。また、プロセッサ２０１は、一連の文章が音声認識結果として保存されるごとに音声認識結果をサーバ１０へ送信するようにしても良い。また、プロセッサ２０１は、記憶領域２１３に保存する未送信の音声認識結果のデータ量が所定量に達するごとにサーバ１０へ音声認識結果を送信するようにしても良い。

音声認識結果をサーバ１０へ送信すると判断した場合、プロセッサ２０１は、記憶領域２１３に記憶した未送信の音声認識結果を通信Ｉ／Ｆ２０４によりサーバ１０へ送信する（ＡＣＴ１５）。例えば、プロセッサ２０１は、音声認識によって得られた一連の文章（テキスト）ごとに時刻情報などの付加情報を対応づけた音声認識結果をサーバ１０へ送信する。

また、プロセッサ２０１は、オンライン会議中においてサーバ１０からの警告を受け付ける（ＡＣＴ１６）。プロセッサ２０１は、サーバ１０からの警告を示す通知を受信すると、通知された内容に応じた警告を報知する（ＡＣＴ１７）。例えば、端末Ａがマイク２０６に入力された入力音声（話者の発言）を端末Ｂへ配信した後に端末Ｂで当該入力音声が正常に出力されていない旨の警告をサーバ１０から受信したものとする。この場合、端末Ａのプロセッサ２０１は、表示装置２０８に入力音声（話者の発言）が端末Ｂで正常に出力されていない旨の警告を表示する。

これにより、話者の端末装置（第１の端末装置）は、話者の発言が正常に出力されていない端末装置（第２の端末装置）を報知できる。この結果、第１の端末装置を使用する話者は、オンライン会議を中断することなく、自身の発言が正常に出力されていない端末装置を認識することが可能となる。

次に、実施形態に係るオンライン会議システム１におけるサーバ１０の動作について説明する。
図６は、実施形態に係るオンライン会議システム１におけるサーバ１０の動作例を説明するためのフローチャートである。
サーバ１０のプロセッサ１０１は、オンライン会議システム１によるオンライン会議に参加する各端末装置２０と通信する。プロセッサ１０１は、通信Ｉ／Ｆ１０４により各端末装置２０からの音声認識結果を受け付ける（ＡＣＴ３１）。

ある端末装置２０から音声認識結果を受信した場合（ＡＣＴ３１、ＹＥＳ）、プロセッサ２０１は、受信した音声認識結果を補助記憶装置１０３に記憶する（ＡＣＴ３２）。例えば、プロセッサ２０１は、各端末装置２０から受信する音声認識結果を時刻ごとに対応づけて補助記憶装置１０３の記憶領域１１３に記憶する。また、プロセッサ２０１は、図４に示すように、話者の端末装置（第１の端末装置）２０による音声認識結果（入力音声に対する音声認識結果）に対応づけて聴講者の端末装置（第２の端末装置）２０による音声認識結果（ネットワークを介して受信した入力音声の音声データに対する音声認識結果）を記憶領域１１３に記憶するようにしても良い。

端末装置２０から受信した音声認識結果を保存すると、プロセッサ２０１は、保存した音声認識結果を比較する（ＡＣＴ３３）。プロセッサ２０１は、話者の端末装置２０が入力した入力音声に対する音声認識結果と聴講者の端末装置２０が受信した当該入力音声の音声データに対する音声認識結果とを対応づける。プロセッサ２０１は、入力音声に対する音声認識結果と他の端末装置２０が受信した音声データに対する音声認識結果との差異を計算する。例えば、プロセッサ２０１は、レーベンシュタイン距離を用いて対応する２つの音声認識結果の差異を数値化する。

ここで、各端末装置２０のプロセッサ２０１が音声認識に用いる音声認識プログラムが同じものとする。ある端末装置（第１の端末装置）から出力される入力音声の音声データが他の端末装置（第２の端末装置）に正確に伝送された場合、入力音声と入力音声の音声データに基づく出力音声とは一致する。この場合、第１の端末装置による入力音声に対する音声認識結果と第２の端末装置による入力音声の音声データに対する音声認識結果とも一致する。これに対して、第１の端末装置から出力される入力音声の音声データが第２の端末装置に正確に伝送されない場合、入力音声と入力音声の音声データに基づく出力音声とは不一致となる。この場合、第１の端末装置による入力音声に対する音声認識結果と第２の端末装置による入力音声の音声データに対する音声認識結果とは不一致となる。

第１の端末装置に入力された入力音声は、第１の端末装置による入力音声に対する音声認識結果でテキスト化される。第２の端末装置が第１の端末装置から受信する入力音声の音声データに基づく出力音声は、第２の端末装置による受信した入力音声の音声データ（出力音声）に対する音声認識結果でテキスト化される。従って、第１の端末装置による音声認識結果と第２の端末装置による音声認識結果との差異は、第１の端末装置で入力した入力音声が第２の端末装置で正確に出力された度合を示す値となる。例えば、第１の端末装置から第２の端末装置に至る通信経路が不安定であればあるほど、第１の端末装置による音声認識結果と第２の端末装置による音声認識結果との差異は大きくなる。

プロセッサ２０１は、入力音声に対する音声認識結果（第１の端末装置による音声認識結果）と他の端末装置２０が受信した音声データに対する音声認識結果（第２の端末装置による音声認識結果）との差異に基づいて警告を発するか否かを判断する（ＡＣＴ３４）。例えば、プロセッサ２０１は、入力音声に対する音声認識結果と他の端末装置２０が受信した音声データ（出力音声）に対する音声認識結果との差異が所定の閾値を超えるか否かを判断する。所定の閾値は、入力音声と出力音声とが同じ内容としてユーザが認識できる程度のレベルに設定する。

入力音声に対する音声認識結果と出力音声に対する音声認識結果との差異が所定の閾値を超える場合、プロセッサ２０１は、警告を発するものと判断する。入力音声に対する音声認識結果と出力音声に対する音声認識結果との差異が所定の閾値以下である場合、プロセッサ２０１は、警告を発する必要がないものと判断する。

なお、プロセッサ２０１は、第１の端末装置による音声認識結果と第２の端末装置による音声認識結果との差異を複数の閾値と比較するようにしても良い。例えば、複数の閾値としては、第１の閾値と第１の閾値よりも小さい第２の閾値とを設定しても良い。プロセッサ２０１は、第１の閾値を超える場合には第１の警告を発し、第１の閾値以下かつ第２の閾値を超える場合には第２の警告を発するようにしても良い。これにより、サーバ１０は、第１の端末装置による音声認識結果と第２の端末装置による音声認識結果との差異に応じた警告を発することが可能となる。

また、プロセッサ２０１は、第１の端末装置による音声認識結果と第２の端末装置による音声認識結果との差異を時系列で保存するようにしても良い。この場合、プロセッサ２０１は、第１の端末装置による音声認識結果と第２の端末装置による音声認識結果との差異の時系列での変化に応じた警告を発するようにしても良い。例えば、プロセッサ２０１は、第１の端末装置による音声認識結果と第２の端末装置による音声認識結果との差異が大きくなる傾向である場合に警告を発するようにしても良い。

警告が必要であると判断した場合（ＡＣＴ３４、ＹＥＳ）、プロセッサ２０１は、当該入力音声を入力した端末装置（第１の端末装置）２０に警告を通知する（ＡＣＴ３５）。プロセッサ２０１は、入力音声に対する音声認識を実行した端末装置２０を第１の端末装置として特定する。例えば、プロセッサ２０１は、入力音声に対する音声認識結果の送信元となる端末装置２０を第１の端末装置として特定する。入力音声を入力した端末装置（第１の端末装置）を特定すると、プロセッサ２０１は、入力音声の送信元である第１の端末装置へ他の端末装置で入力音声が正常に送られていない旨の警告を送信する。

また、プロセッサ２０１は、入力音声に対する音声認識結果との差異が閾値を超えた出力音声の音声認識結果の送信元である第２の端末装置を特定するようにしても良い。第２の端末装置を特定した場合、プロセッサ２０１は、特定した第２の端末装置へ入力音声が正常に送られていない旨の警告を入力音声の送信元である第１の端末装置に送信する。

なお、プロセッサ２０１は、当該入力音声を入力した端末装置（第１の端末装置）２０を特定することなく、複数の端末装置又は予め設定した端末装置へ警告を通知するようにしても良い。例えば、プロセッサ２０１は、オンライン会議に参加している全ての端末装置（又は、音声認識結果を送信してきた全ての端末装置）２０へ警告を通知するようにしても良い。また、プロセッサ２０１は、主催者が使用する端末装置などの予め設定した端末装置に対して警告を通知するようにしても良い。

サーバ１０のプロセッサ２０１は、オンライン会議が継続している間（ＡＣＴ３６、ＮＯ）、上述したようなＡＣＴ３１－３５の処理を繰り返し実行する。また、プロセッサ２０１は、話者へ警告の通知する処理を中止する旨の指示を受けた場合にＡＣＴ３１－３５の処理を終了するようにしても良い。

なお、上述したサーバ１０の処理は、何れかの端末装置２０が実行するようにしても良い。すなわち、上述したサーバ１０の処理を何れかの１つの端末装置２０に実行させることにより、オンライン会議システム１を構成するようにしても良い。例えば、端末装置２０は、上述したサーバ１０の処理を実行するプログラムをインストールすることにより上述した処理を実行できる。これにより、サーバ１０を設けることなく、複数の端末装置２０からなるオンライン会議システムを構成することも可能である。

以上の処理によれば、実施形態に係るオンライン会議システムのサーバは、入力音声に対する音声認識結果を第１の端末装置から取得する。サーバは、第２の端末装置が第１の端末装置から受信した当該入力音声の音声データに対する音声認識結果を第２の端末装置から取得する。サーバは、第１の端末装置から取得する入力音声に対する音声認識結果と第２の端末装置から取得する当該入力音声の音声データに対する音声認識結果との差異を判定する。

これにより、実施形態に係るサーバは、第１の端末装置で入力した入力音声が第２の端末装置で正常に出力されているかを評価できる。この結果、第１の端末装置と第２の端末装置との間の通信状況を評価することもできる。

また、サーバは、入力音声に対する音声認識結果と第２の端末装置が受信した当該入力音声の音声データに対する音声認識結果との差異が閾値を超える場合、警告を発する。これにより、第１の端末装置で入力した入力音声が第２の端末装置で正常に出力されていないことを報知することができる。

さらに、サーバは、入力音声に対する音声認識結果と第２の端末装置が受信した当該入力音声の音声データに対する音声認識結果との差異が閾値を超える場合、第１の端末装置へ警告を発する。これにより、第１の端末装置で入力した入力音声が第２の端末装置で正常に出力されていないことを第１の端末装置の使用者である話者に報知することができる。この結果、話者は、自身の発言が聴講者の端末装置で正常に出力されていないことをオンライン会議中に認識することできる。

なお、上述した実施形態では、装置内のメモリにプロセッサが実行するプログラムが予め記憶されている場合で説明をした。しかし、プロセッサが実行するプログラムは、ネットワークから装置にダウンロードしても良いし、記憶媒体から装置にインストールしてもよい。記憶媒体としては、ＣＤ－ＲＯＭ等のプログラムを記憶でき、かつ装置が読み取り可能な記憶媒体であれば良い。また、予めインストールやダウンロードにより得る機能は、装置内部のＯＳ（オペレーティング・システム）等と協働して実現させるものであってもよい。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１０…サーバ、２０（２１、２２、２３）…端末装置、１０１…プロセッサ、１０３…補助記憶装置（メモリ）、１０４…通信インターフェース、２０１…プロセッサ、２０３…補助記憶装置（メモリ）、２０４…通信インターフェース、２０５…音声処理回路、２０６…マイク、２０７…スピーカ。

Claims

入力された音声から生成する音声データを発信する第１の端末装置および前記第１の端末装置から受信する前記音声データに基づく音声を出力する第２の端末装置と通信する通信インターフェースと、
前記第１の端末装置に入力された入力音声に対する前記第１の端末装置による音声認識結果と、前記第２の端末装置が前記第１の端末装置から受信した前記入力音声の音声データに対する前記第２の端末装置による音声認識結果と、を記憶するメモリと、
前記第１の端末装置による音声認識結果と前記第２の端末装置による音声認識結果との比較に基づいて、前記第１の端末装置に入力された入力音声と前記第２の端末装置が前記第１の端末装置から受信した前記入力音声の音声データに基づいて出力する音声との差異を判定するプロセッサと、
を有するサーバ。
前記プロセッサは、前記第１の端末装置による音声認識結果と前記第２の端末装置による音声認識結果との差異が閾値を超える場合、前記第１の端末装置に入力された入力音声と前記第２の端末装置が前記第１の端末装置から受信する前記入力音声の音声データに基づいて出力する音声とが一致しない旨の警告を出力する、
請求項１に記載のサーバ。
前記プロセッサは、前記第１の端末装置による音声認識結果と前記第２の端末装置による音声認識結果との差異が閾値を超える場合、前記入力音声が前記第２の端末装置で正常に出力されていない旨の警告を前記第１の端末装置に送信する、
請求項１に記載のサーバ。
サーバおよび他の端末装置と通信する通信インターフェースと、
マイクが集音した入力音声の音声データを他の端末装置へ送信するとともに前記入力音声に対する音声認識結果を前記サーバへ送信し、
前記通信インターフェースを介して他の端末装置から受信した音声データに基づく音声をスピーカから出力するとともに前記音声データに対する音声認識結果を前記サーバへ送信し、
前記サーバから入力音声と他の端末装置が受信した当該入力音声の音声データに基づいて出力される音声とが一致しない旨の通知を受けた場合に報知デバイスを用いて警告を報知させる、プロセッサと、
を有する端末装置。
音声認識結果を記憶するメモリを有し、
前記プロセッサは、前記入力音声に対する音声認識結果と前記音声データに対する音声認識結果とを前記メモリに記憶し、前記メモリに記憶した音声認識結果が既定値に達するごとに前記サーバへ送信する、
請求項４に記載の端末装置。
オンライン会議に参加する複数の端末装置と通信する通信インターフェースを有するサーバに、
入力音声から生成する音声データを他の端末装置へ発信する第１の端末装置から通信インターフェースを介して受信する前記入力音声に対する前記第１の端末装置による音声認識結果をメモリに記憶することと、
前記第１の端末装置から受信する前記音声データに基づく音声を出力する第２の端末装置から通信インターフェースを介して受信する前記入力音声の音声データに対する前記第２の端末装置による音声認識結果をメモリに記憶することと、
前記第１の端末装置による音声認識結果と前記第２の端末装置による音声認識結果との比較に基づいて前記第１の端末装置に入力された入力音声と前記第２の端末装置が前記第１の端末装置から受信した前記入力音声の音声データに基づいて出力する音声との差異を判定することと、
を実行させるオンライン会議用のプログラム。