JP2022110443A - サーバ、端末装置およびオンライン会議用のプログラム - Google Patents
サーバ、端末装置およびオンライン会議用のプログラム Download PDFInfo
- Publication number
- JP2022110443A JP2022110443A JP2021005857A JP2021005857A JP2022110443A JP 2022110443 A JP2022110443 A JP 2022110443A JP 2021005857 A JP2021005857 A JP 2021005857A JP 2021005857 A JP2021005857 A JP 2021005857A JP 2022110443 A JP2022110443 A JP 2022110443A
- Authority
- JP
- Japan
- Prior art keywords
- terminal device
- voice
- input
- speech
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004891 communication Methods 0.000 claims abstract description 41
- 238000012545 processing Methods 0.000 description 31
- 238000000034 method Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 101100215339 Arabidopsis thaliana ACT11 gene Proteins 0.000 description 4
- 101100217138 Mus musculus Actr10 gene Proteins 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 101100215341 Arabidopsis thaliana ACT12 gene Proteins 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 101000679851 Homo sapiens Tumor necrosis factor receptor superfamily member 4 Proteins 0.000 description 1
- 102100022153 Tumor necrosis factor receptor superfamily member 4 Human genes 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/69—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/1066—Session management
- H04L65/1083—In-session procedures
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/40—Support for services or applications
- H04L65/403—Arrangements for multi-party communication, e.g. for conferences
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/80—Responding to QoS
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/221—Announcement of recognition results
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Quality & Reliability (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Telephonic Communication Services (AREA)
Abstract
【課題】 話者の音声が受信側の端末装置で正常に出力されていないことを確認できるサーバ、端末装置、および、オンライン会議用のプログラムを提供する。【解決手段】 実施形態によれば、サーバは、通信インターフェースとメモリとプロセッサとを有する。通信インターフェースは、入力された音声から生成する音声データを発信する第1の端末装置および前記第1の端末装置から受信する前記音声データに基づく音声を出力する第2の端末装置と通信する。メモリは、第1の端末装置に入力された入力音声に対する第1の端末装置による音声認識結果と第2の端末装置が第1の端末装置から受信した入力音声の音声データに対する第2の端末装置による音声認識結果とを記憶する。プロセッサは、第1の端末装置による音声認識結果と第2の端末装置による音声認識結果との比較に基づいて、第1の端末装置に入力された入力音声と第2の端末装置が第1の端末装置から受信した入力音声の音声データに基づいて出力する音声との差異を判定する。【選択図】図2
Description
本発明の実施形態は、サーバ、端末装置およびオンライン会議用のプログラムに関する。
従来、ネットワークを介して接続される複数の端末装置が音声を送受することで会議などの複数人での対話を行うオンライン会議という技術がある。オンライン会議に参加する複数の端末装置は、それぞれ異なる通信環境にある場合が多い。通信環境が良くない端末装置は、他の端末装置で入力された音声の一部が途切れたり、正確な音声として出力されなかったりする。
従来、オンライン会議における各端末装置間の通信品質を測定する技術としては、少量のテストデータを往復させ、時間差からスループット(転送速度)を求めるものがある。このような従来の技術は、簡便ではあるが、オンライン会議における人の体感を反映していないことが多い。例えば、スループットが一時的に低くても音声が聴こえたり、安定したスループットの計測値でも音声が途切れてしまったりすることがある。このため、オンライン会議中において、話者の音声が聴取者に正確に届いているかを確実に検知できるものが要望されている。
上記した課題を解決するために、話者の音声が受信側の端末装置で正常に出力されていないことを確認できるサーバ、端末装置、および、オンライン会議用のプログラムを提供する。
実施形態によれば、サーバは、通信インターフェースとメモリとプロセッサとを有する。通信インターフェースは、入力された音声から生成する音声データを発信する第1の端末装置および前記第1の端末装置から受信する前記音声データに基づく音声を出力する第2の端末装置と通信する。メモリは、第1の端末装置に入力された入力音声に対する第1の端末装置による音声認識結果と第2の端末装置が第1の端末装置から受信した入力音声の音声データに対する第2の端末装置による音声認識結果とを記憶する。プロセッサは、第1の端末装置による音声認識結果と第2の端末装置による音声認識結果との比較に基づいて、第1の端末装置に入力された入力音声と第2の端末装置が第1の端末装置から受信した入力音声の音声データに基づいて出力する音声との差異を判定する。
以下、実施形態について、図面を参照して説明する。
図1は、実施形態に係るオンライン会議システム1を概略的に説明するための図である。
図1に示すように、実施形態に係るオンライン会議システム1は、ネットワークを介して接続されるサーバ10と複数の端末装置20(21、22、23、…)とを有する。
サーバ10は、各端末装置20における音声通話の品質を管理する管理装置である。サーバ10は、ある端末装置(第1の端末装置)21に入力された音声がネットワークを介して接続される他の端末装置(第2の端末装置)22、23でどのように出力されているかを判定する。図1に示す例において、第1の端末装置は、話者が音声を入力する端末装置21であり、第2の端末装置は、話者以外の聴講者の端末装置22、23であるものとする。
図1は、実施形態に係るオンライン会議システム1を概略的に説明するための図である。
図1に示すように、実施形態に係るオンライン会議システム1は、ネットワークを介して接続されるサーバ10と複数の端末装置20(21、22、23、…)とを有する。
サーバ10は、各端末装置20における音声通話の品質を管理する管理装置である。サーバ10は、ある端末装置(第1の端末装置)21に入力された音声がネットワークを介して接続される他の端末装置(第2の端末装置)22、23でどのように出力されているかを判定する。図1に示す例において、第1の端末装置は、話者が音声を入力する端末装置21であり、第2の端末装置は、話者以外の聴講者の端末装置22、23であるものとする。
サーバ10は、話者が端末装置(第1の端末装置)21に入力する音声の音声認識結果を端末装置21から取得する。また、サーバ10は、話者以外(聴講者)の端末装置(第2の端末装置)22、23がネットワークを介して端末装置21から受信した音声(第2の端末装置が出力する音声)に対する音声認識結果を端末装置22、23から取得する。
サーバ10は、話者の端末装置21に入力された音声の音声認識結果と聴講者の端末装置22、23で出力する音声の音声認識結果とを比較する。端末装置21での音声認識結果と端末装置22、23での音声認識結果とが一致する場合、サーバ10は、端末装置21に入力された音声が端末装置22、23で正確に出力されていると判定する。端末装置22、23での音声認識結果と端末装置21での音声認識結果とが異なる場合、サーバ10は、端末装置21に入力された音声が端末装置22、23で正確に出力されていないとを判定する。サーバ10は、端末装置22、23での音声認識結果と端末装置21での音声認識結果とが既定値(閾値)を超えて異なる場合に端末装置22、23へ警告を送信する。
複数の端末装置20(21、22、23、…)は、マイクおよびスピーカを備える情報処理装置である。マイクは、人物が発する声を含む音を入力(集音)する。スピーカは、音声データに基づく音を出力する。端末装置20としての情報処理装置は、例えば、パーソナルコンピュータ、スマートフォン、あるいは、タブレット端末などである。また、端末装置20は、コンピュータなどの情報処理装置にマイク2およびスピーカ3の何れか一方又は両方が接続される構成であっても良い。
端末装置20は、話者が発した声(音声)をマイクで集音し、集音した音声のデータ(音声データ)をオンライン会議に参加している他の端末装置20へ送信する。また、端末装置20は、ネットワークを介して他の端末装置20から受信した話者の音声などの音声データを受信し、受信した音声データをスピーカから音として出力する。
端末装置20は、マイクで集音した音の音声データを他の端末装置へ送信し、他の端末装置から受信した音声データに基づく音をスピーカで出力する。また、端末装置20は、音声認識処理を行う。端末装置20は、マイク2で話者の音声を集音した場合、集音した音声に対する音声認識処理を行う。また、端末装置20は、他の端末装置から音声データを受信した場合、受信した音声データに基づいて出力する音声に対する音声認識処理を行う。さらに、端末装置20は、音声認識処理による音声認識結果をサーバ10へアップロードする。
図1では、端末装置21は、話者が使用する第1の端末装置であり、端末装置22、23は、聴講者が使用する第2の端末装置である例を模式的に示す。図1に示す例において、第1の端末装置としての端末装置21は、話者が発した声をマイクで集音し、集音した音声のデータ(音声データ)を他の端末装置22、23へ送信する。第2の端末装置としての端末装置22、23は、ネットワークを介して端末装置21からの音声データを受信し、受信した音声データに基づく音をスピーカから出力する。
また、第1の端末装置としての端末装置21は、マイク2で集音した音から話者が発した声を検知した場合、マイク2で集音した音声に対する音声認識処理を行う。端末装置21は、マイク2で集音した音声に対する音声認識処理による音声認識結果をサーバ10へ送信する。また、第2の端末装置としての端末装置22、23は、第1の端末装置としての端末装置21から音声データを受信した場合、受信した音声データに基づく音に対する音声認識処理を行う。端末装置22、23は、端末装置21から受信した音声データに基づく音に対する音声認識処理による音声認識結果をサーバ10へ送信する。
次に、実施形態に係るサーバ10の構成について説明する。
図2は、実施形態に係るサーバ10の構成例を示すブロック図である。
図2に示すように、サーバ10は、プロセッサ101、主記憶装置102、補助記憶装置(メモリ)103、および、通信インターフェース104を有する。
プロセッサ101は、サーバ10全体の制御を司る。プロセッサ101は、例えば、CPUである。プロセッサ101は、プログラムを実行することにより後述する種々の処理を行う。例えば、プロセッサ101は、各端末装置による音声認識結果の比較、音声認識結果の比較結果に応じた警告の出力などの処理を実行する。
図2は、実施形態に係るサーバ10の構成例を示すブロック図である。
図2に示すように、サーバ10は、プロセッサ101、主記憶装置102、補助記憶装置(メモリ)103、および、通信インターフェース104を有する。
プロセッサ101は、サーバ10全体の制御を司る。プロセッサ101は、例えば、CPUである。プロセッサ101は、プログラムを実行することにより後述する種々の処理を行う。例えば、プロセッサ101は、各端末装置による音声認識結果の比較、音声認識結果の比較結果に応じた警告の出力などの処理を実行する。
主記憶装置102は、データを記憶するメインメモリである。主記憶装置102は、例えば、RAM(Random Access Memory)などにより構成する。主記憶装置102は、プロセッサ101が処理中のデータを一時的に格納する。例えば、主記憶装置102は、プログラムの実行に必要なデータおよびプログラムの実行結果などを格納する。また、主記憶装置102は、データを一時的に保持するためのバッファメモリとしても動作する。
補助記憶装置103は、データを記憶するストレージである。補助記憶装置103は、ROM(Read Only Memory)などの書き換え不可の不揮発性メモリ、および、書き換え可能な不揮発性メモリなどを含む。書き換え可能な不揮発性メモリとしては、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)、EEPROM(登録商標)あるいはフラッシュROMなどで構成される。
補助記憶装置103は、プロセッサ101が実行する種々のプログラムおよび制御データなどを記憶する。例えば、補助記憶装置103は、オンライン会議システムにおける各端末装置20による音声認識結果を比較するためのプログラムを記憶する。また、補助記憶装置103は、各端末装置20による音声認識結果の比較結果に応じた警告を出力するためのプログラムを記憶する。
また、本実施形態において、補助記憶装置103は、図2に示すように、各端末装置20による音声認識結果を記憶する記憶領域113を有する。記憶領域113は、端末装置21に入力された音声に対する音声認識結果と端末装置22、23が端末装置21から受信(出力)する音声に対する音声認識結果とを記憶する。
通信インターフェース104は、オンライン会議システムにおける各端末装置20と通信するためのインターフェースである。通信インターフェースは、有線回線を通じて通信するインターフェースを含むものであっても良いし、無線により通信するインターフェースを含むものであっても良い。例えば、プロセッサ101は、通信インターフェース104を介してオンライン会議システムに参加する各端末装置20から音声認識結果を取得する。また、プロセッサ101は、通信インターフェース104を介して各端末装置20による音声認識結果の比較結果に応じた警告を特定の端末装置20へ送信する。
次に、実施形態に係る端末装置20の構成について説明する。
図3は、実施形態に係る端末装置20の構成例を示すブロック図である。
図3に示す構成例において、端末装置20は、プロセッサ201、主記憶装置202、補助記憶装置(メモリ)203、通信インターフェース204、音声処理回路205、マイク206、スピーカ207、表示装置(報知デバイス)208および操作デバイス209などを有する。
図3は、実施形態に係る端末装置20の構成例を示すブロック図である。
図3に示す構成例において、端末装置20は、プロセッサ201、主記憶装置202、補助記憶装置(メモリ)203、通信インターフェース204、音声処理回路205、マイク206、スピーカ207、表示装置(報知デバイス)208および操作デバイス209などを有する。
プロセッサ201は、端末装置20全体の制御を司る。プロセッサ201は、例えば、CPUである。プロセッサ201は、プログラムを実行することにより後述する種々の処理を行う。例えば、プロセッサ201は、入力音の音声データの生成、音声データの送信、入力音に対する音声認識、音声認識結果のサーバ10への送信、警告の出力などの処理を行う。また、プロセッサ201は、音声データの受信、音声データに基づく音声出力、受信(出力)する音声に対する音声認識、および、音声認識結果のサーバ10への送信などを行う。
主記憶装置202は、データを記憶するメインメモリである。主記憶装置202は、例えば、RAM(Random Memory)などにより構成する。主記憶装置202は、プロセッサ201が処理中のデータを一時的に格納する。例えば、主記憶装置202は、プログラムの実行に必要なデータおよびプログラムの実行結果などを格納してもよい。また、主記憶装置202は、データを一時的に保持するためのバッファメモリとしても動作する。例えば、主記憶装置202は、各マイク206で集音した音を音声処理回路205で処理することで得られた音声のデータを保持する。また、主記憶装置202は、受信した音声データを保持する。
補助記憶装置203は、データを記憶するストレージである。補助記憶装置203は、ROM(リードオンリーメモリ)などの書き換え不可の不揮発性メモリ、および、書き換え可能な不揮発性メモリなどを含む。書き換え可能な不揮発性メモリとしては、例えば、HDD(ハードディスクドライブ)、SSD(ソリッドステートドライブ)、EEPROM(登録商標)あるいはフラッシュROMなどで構成される。
補助記憶装置203は、プロセッサ201が実行するプログラムおよび制御データなどを記憶する。補助記憶装置203は、上述したような各種の処理を行うためのプログラムを記憶する。例えば、補助記憶装置203は、入力音声あるいは受信した音声データに対する音声認識を行うための音声認識プログラムを記憶する。また、補助記憶装置203は、音声認識結果をサーバ10へ送信するプログラム、サーバ10からの通知に応じて警告を出力するプログラムなどを記憶する。さらに、図3に示す例において、補助記憶装置203は、音声認識結果を保持する記憶領域213を有する。
通信インターフェース204は、オンライン会議システムに参加する他の端末装置20およびサーバ10と通信するためのインターフェースである。通信インターフェース204は、有線回線を通じて通信するインターフェースを含むものであっても良いし、無線により通信するインターフェースを含むものであっても良い。例えば、プロセッサ201は、通信インターフェース204を介してオンライン会議システムに参加する他の端末装置20との間で音声データの送受信を行う。また、プロセッサ201は、入力音声又は受信した音声データに対する音声認識の結果をサーバ10へ送信する。さらに、プロセッサ201は、通信インターフェース204を介して警告の通知を受けた場合、スピーカあるいは表示装置などを用いて警告を報知する処理を行う。
マイク206は、音を集音(取得)する。マイク206は、例えば、集音した音をアナログ信号(アナログ波形)として入力し、入力された音のアナログ信号を音声処理回路205へ出力する。
音声処理回路205は、マイク206が集音した音のアナログ信号を入力し、入力した音のアナログ信号をデジタルデータとしての音声データを出力する。音声処理回路205は、アナログ波形をデジタル化するADコンバータなどを有する。
なお、マイク206は、端末装置20に接続される外部機器であっても良い。マイク206を外部機器とする場合、音声処理回路205は、マイク206を接続する音声入力用のインターフェースを備えるものとすれば良い。
音声処理回路205は、マイク206が集音した音のアナログ信号を入力し、入力した音のアナログ信号をデジタルデータとしての音声データを出力する。音声処理回路205は、アナログ波形をデジタル化するADコンバータなどを有する。
なお、マイク206は、端末装置20に接続される外部機器であっても良い。マイク206を外部機器とする場合、音声処理回路205は、マイク206を接続する音声入力用のインターフェースを備えるものとすれば良い。
スピーカ207は、音声を出力する。スピーカ207は、プロセッサ201から供給される応答音声としての応答波形に基づく音を発する。また、スピーカ207は、報知デバイスとして、後述するサーバ10から受信する警告に応じた警告内容を音声で出力するようにしても良い。
なお、スピーカ207は、端末装置20に接続される外部機器であっても良い。スピーカ207を外部機器とする場合、端末装置20は、スピーカ207に出力すべき音の波形を示す信号を出力するインターフェースを備えるものとすれば良い。
なお、スピーカ207は、端末装置20に接続される外部機器であっても良い。スピーカ207を外部機器とする場合、端末装置20は、スピーカ207に出力すべき音の波形を示す信号を出力するインターフェースを備えるものとすれば良い。
表示装置208は、画像を表示する。表示装置208は、報知デバイスとして動作する。例えば、表示装置208は、後述するサーバ10から受信する警告に応じて警告を報知するための警告画面を表示する。操作デバイス209は、ユーザからの操作指示を受け付ける。例えば、表示装置208および操作デバイス209は、タッチパネル付きのディスプレイによって構成する。また、操作デバイス209としては、テンキー、キーボード、あるいは、ポインティングデバイスなどを含むようにしても良い。
次に、実施形態に係るサーバ10が各端末装置20から収集する音声認識結果について説明する。
図4は、サーバ10における補助記憶装置203の記憶領域213に記憶される各端末装置20による音声認識結果の例を示す図である。
サーバ10は、各端末装置20による音声認識結果を収集する。サーバ10は、各端末装置から収集した音声認識結果を補助記憶装置103の記憶領域113に保存する。図4に示す例において、サーバ10は、入力音声に対する音声認識結果に対応づけて、他の端末装置が受信した当該入力音声の音声データに対する音声認識結果を保存する。図4に示す例では、話者の端末装置(第1の端末装置)21が端末Aであり、聴講者の端末装置(第2の端末装置)22、23が端末B、端末Cであるものとする。
図4は、サーバ10における補助記憶装置203の記憶領域213に記憶される各端末装置20による音声認識結果の例を示す図である。
サーバ10は、各端末装置20による音声認識結果を収集する。サーバ10は、各端末装置から収集した音声認識結果を補助記憶装置103の記憶領域113に保存する。図4に示す例において、サーバ10は、入力音声に対する音声認識結果に対応づけて、他の端末装置が受信した当該入力音声の音声データに対する音声認識結果を保存する。図4に示す例では、話者の端末装置(第1の端末装置)21が端末Aであり、聴講者の端末装置(第2の端末装置)22、23が端末B、端末Cであるものとする。
端末Aは、話者が発した音声をマイク206で入力し、入力した音声(入力音声)に対して音声認識を行う。端末Aは、入力音声に対する音声認識結果を時刻を示す情報(時刻情報)に対応づけてサーバ10に供給する。ここで、端末Aは、音声認識結果および時刻情報と共に話者が発した音声(入力音声)に対する音声認識結果であることを示す情報も送信するようにしても良い。
また、端末Bおよび端末Cは、それぞれ端末Aからの入力音声の音声データを受信し、受信した音声データに対して音声認識を行う。端末Bおよび端末Cは、受信した音声データに対する音声認識結果を時刻情報に対応づけてサーバ10へ供給する。ここで、端末Bおよび端末Cは、音声認識結果および時刻情報と共に、ネットワーク経由で受信した音声データに対する音声認識結果であることを示す情報も送信するようにしても良い。また、端末Bおよび端末Cは、音声認識結果および時刻情報と共に、端末Aからの音声データに対する音声認識結果であることを示す情報も送信するようにしても良い。
サーバ10は、時刻情報に対応づけて各端末A、B、Cでの音声認識結果を保存する。端末Aが入力音声を入力した時刻と他の端末B、Cが端末Aの入力音声の音声データを受信した時刻との差が短時間であるものとする。この場合、入力音声に対する音声認識結果と他の端末が受信した当該入力音声の音声データに対する音声認識結果とは、図4に示すように、対応づけて記憶領域213に保存される。
話者の端末Aによる入力音声に対する音声認識結果と端末Bによる当該入力音声の音声データに対する音声認識結果との差異は、端末Aおよび端末B間の通信品質を示す。話者の端末Aによる入力音声に対する音声認識結果は、ネットワーク等の通信環境による影響を受けない。これに対して、聴講者の端末B、Cによる当該入力音声の音声データに対する音声認識結果は、端末Aとの間における通信環境(通信品質)による影響を受ける。例えば、端末Bと端末Aとの間の通信品質が悪いと、端末Bによる音声認識結果は、端末Aによる音声認識結果との差異が大きくなる。
すなわち、端末Aによる入力音声に対する音声認識結果と端末Bによる当該入力音声の音声データに対する音声認識結果との差異が大きければ大きいほど、端末Aおよび端末B間の通信状況は悪いと判定できる。端末Aによる入力音声に対する音声認識結果と端末Bによる当該入力音声の音声データに対する音声認識結果とが一致すれば、端末Aおよび端末B間の通信状況は良好と判定できる。同様に、端末Aによる入力音声に対する音声認識結果と端末Cによる当該入力音声の音声データに対する音声認識結果との差異によって端末Aと端末Cとの通信状況を判定できる。
図4に示す例では、時刻「00:01」に端末Aに入力された入力音声に対する音声認識結果は、端末BおよびCにおける当該入力音声に対応する音声認識結果と一致する。時刻「00:12」の入力音声に対する音声認識結果は、端末Bにおける当該入力音声に対応する音声認識結果と一致する。しかし、時刻「00:12」の入力音声に対する音声認識結果は、端末における当該入力音声に対応する音声認識結果と一部が不一致となる。これにより、時刻「00:12」では、端末Aと端末Bとの通信品質は良好であるが、端末Aと端末Cとの通信品質が少し悪化していると判定できる。
また、図4に示す例では、時刻「00:23」の入力音声に対する音声認識結果は、端末BおよびCにおける当該入力音声に対応する音声認識結果と一致しない。また、時刻「00:34」の入力音声に対する音声認識結果も、端末BおよびCにおける当該入力音声に対応する音声認識結果と一致しない。これにより、時刻「00:23」および「0034」では、端末Bおよび端末Cは、端末Aとの通信品質が悪いため、正常に入力音声が出力できていないと判定できる。
本実施形態において、サーバ10は、オンライン会議に参加する各端末装置から音声認識結果を収集することにより、図4に示すような情報を取得する。サーバ10は、入力音声に対する音声認識結果と他の端末装置が受信した当該入力音声の音声データに対する音声認識結果と比較する。サーバ10は、対応する音声認識結果の差分を算出することにより、端末Aの入力音声と当該入力音声に対応する端末B又はCの出力音声との差異を判定する。
サーバ10は、端末Aによる音声認識結果と端末B又は端末Cによる音声認識結果との差分の大きさが所定の閾値(既定値)を超えるか否かを判断する。サーバ10は、差分の大きさが所定の閾値を超える場合、正常に音声が出力されていないことを端末Aに警告する。例えば、端末Aによる音声認識結果と端末Bによる音声認識結果との差分が閾値を超える場合、サーバ10は、話者の音声が端末Bで正常に出力できていないことを端末Aに警告する。端末Aは、サーバ10からの警告を表示装置208により報知する。これにより、端末Aを使用する話者は、どの端末で正常に音声が出力されていないかを知ることができる。
次に、実施形態に係るオンライン会議システム1における端末装置20の動作について説明する。
図5は、実施形態に係るオンライン会議システム1における端末装置20の動作例を説明するためのフローチャートである。
オンライン会議システムに参加する端末装置20のプロセッサ201は、マイク206が集音する音声の入力又は他の端末装置20から受信する音声(音声データ)の入力を受け付ける(ACT11)。プロセッサ201は、マイク206からの音声入力を有効とする動作モードと無効とする動作モードとを切り替えられるようにしても良い。例えば、プロセッサ201は、操作デバイス209を用いてユーザが入力する指示に応じてマイク206からの音声入力を有効又は無効とする。
図5は、実施形態に係るオンライン会議システム1における端末装置20の動作例を説明するためのフローチャートである。
オンライン会議システムに参加する端末装置20のプロセッサ201は、マイク206が集音する音声の入力又は他の端末装置20から受信する音声(音声データ)の入力を受け付ける(ACT11)。プロセッサ201は、マイク206からの音声入力を有効とする動作モードと無効とする動作モードとを切り替えられるようにしても良い。例えば、プロセッサ201は、操作デバイス209を用いてユーザが入力する指示に応じてマイク206からの音声入力を有効又は無効とする。
マイク206からの音声入力が無効である場合、プロセッサ201は、入力音声を取得することなく、他の端末装置20からの音声データの入力(受信)を行う(ACT11、YES)。プロセッサ201は、他の端末装置20からの音声データを受信すると、当該音声データに基づく音声をスピーカ207から出力する。これにより、端末装置20(第2の端末装置としての端末装置22、23)は、他の端末装置20(第1の端末装置としての端末装置21)で入力された入力音声をスピーカ207から出力する。
マイク206からの音声入力が有効である場合、プロセッサ201は、マイク206が集音する音を音声処理回路205を介して入力音声として取得する(ACT11、YES)。プロセッサ201は、取得した入力音声から生成する音声データを他の端末装置20へ送信(配信)する。これにより、端末装置20(例えば、第1の端末装置としての端末装置21)のプロセッサ201は、マイク206が集音する話者が発する声(入力音声)を他の端末装置20(例えば、第2の端末装置としての端末装置22、23)へ音声データとして送信(配信)できる。なお、マイク206からの音声入力を有効とする場合、プロセッサ201は、入力音声を他の端末装置20へ配信する処理と並行して、他の端末装置20から受信する音声データに基づく音声をスピーカ207から出力する処理も実行する。
マイク206が集音した入力音声を音声処理回路205を介して取得した場合(ACT11、YES)、プロセッサ201は、入力音声に対して音声認識処理を行う(ACT12)。プロセッサ201は、入力音声に対する音声認識結果を補助記憶装置203の記憶領域213に記憶する(ACT13)。例えば、プロセッサ201は、当該入力音声を入力した時刻を示す時刻情報に対応づけて音声認識結果を記憶領域213に記憶する。さらに、プロセッサ201は、音声認識結果がマイク206で集音した入力音声に対する音声認識結果であることを示す情報も記憶する。
また、他の端末装置20からの音声データを通信I/F204で受信した場合(ACT11、YES)、プロセッサ201は、受信した音声データに対して音声認識処理を行う(ACT12)。プロセッサ201は、他の端末装置20から受信した音声データに対する音声認識結果を補助記憶装置203の記憶領域213に記憶する(ACT13)。例えば、プロセッサ201は、当該音声データを入力した時刻を示す時刻情報に対応づけて音声認識結果を記憶領域213に記憶する。さらに、プロセッサ201は、音声認識結果が他の端末装置から受信した音声データに対する音声認識結果であることを示す情報も記憶する。
ここで、入力音声に対する音声認識処理と受信した音声データに対する音声認識処理とは、同じ音声認識用のプログラムで実行されるものとする。また、各端末装置20が実行する音声認識処理は、同等のアルゴリズムで構成された音声認識用のプログラムで実行されるものとする。ただし、各端末装置20が実行する音声認識用のプログラムは、同じ音声に対する認識結果に閾値以上の差異が生じることがなければ、異なるプログラムであっても良い。
また、プロセッサ201は、記憶領域213に記憶した音声認識結果をサーバ10へ送信するか否かを判断する(ACT14)。プロセッサ201は、予め設定した条件に基づいて記憶領域213に保存した音声認識結果をサーバ10へ送信する。例えば、プロセッサ201は、所定時間ごとに音声認識結果を送信するようにする。また、プロセッサ201は、一連の文章が音声認識結果として保存されるごとに音声認識結果をサーバ10へ送信するようにしても良い。また、プロセッサ201は、記憶領域213に保存する未送信の音声認識結果のデータ量が所定量に達するごとにサーバ10へ音声認識結果を送信するようにしても良い。
音声認識結果をサーバ10へ送信すると判断した場合、プロセッサ201は、記憶領域213に記憶した未送信の音声認識結果を通信I/F204によりサーバ10へ送信する(ACT15)。例えば、プロセッサ201は、音声認識によって得られた一連の文章(テキスト)ごとに時刻情報などの付加情報を対応づけた音声認識結果をサーバ10へ送信する。
また、プロセッサ201は、オンライン会議中においてサーバ10からの警告を受け付ける(ACT16)。プロセッサ201は、サーバ10からの警告を示す通知を受信すると、通知された内容に応じた警告を報知する(ACT17)。例えば、端末Aがマイク206に入力された入力音声(話者の発言)を端末Bへ配信した後に端末Bで当該入力音声が正常に出力されていない旨の警告をサーバ10から受信したものとする。この場合、端末Aのプロセッサ201は、表示装置208に入力音声(話者の発言)が端末Bで正常に出力されていない旨の警告を表示する。
これにより、話者の端末装置(第1の端末装置)は、話者の発言が正常に出力されていない端末装置(第2の端末装置)を報知できる。この結果、第1の端末装置を使用する話者は、オンライン会議を中断することなく、自身の発言が正常に出力されていない端末装置を認識することが可能となる。
次に、実施形態に係るオンライン会議システム1におけるサーバ10の動作について説明する。
図6は、実施形態に係るオンライン会議システム1におけるサーバ10の動作例を説明するためのフローチャートである。
サーバ10のプロセッサ101は、オンライン会議システム1によるオンライン会議に参加する各端末装置20と通信する。プロセッサ101は、通信I/F104により各端末装置20からの音声認識結果を受け付ける(ACT31)。
図6は、実施形態に係るオンライン会議システム1におけるサーバ10の動作例を説明するためのフローチャートである。
サーバ10のプロセッサ101は、オンライン会議システム1によるオンライン会議に参加する各端末装置20と通信する。プロセッサ101は、通信I/F104により各端末装置20からの音声認識結果を受け付ける(ACT31)。
ある端末装置20から音声認識結果を受信した場合(ACT31、YES)、プロセッサ201は、受信した音声認識結果を補助記憶装置103に記憶する(ACT32)。例えば、プロセッサ201は、各端末装置20から受信する音声認識結果を時刻ごとに対応づけて補助記憶装置103の記憶領域113に記憶する。また、プロセッサ201は、図4に示すように、話者の端末装置(第1の端末装置)20による音声認識結果(入力音声に対する音声認識結果)に対応づけて聴講者の端末装置(第2の端末装置)20による音声認識結果(ネットワークを介して受信した入力音声の音声データに対する音声認識結果)を記憶領域113に記憶するようにしても良い。
端末装置20から受信した音声認識結果を保存すると、プロセッサ201は、保存した音声認識結果を比較する(ACT33)。プロセッサ201は、話者の端末装置20が入力した入力音声に対する音声認識結果と聴講者の端末装置20が受信した当該入力音声の音声データに対する音声認識結果とを対応づける。プロセッサ201は、入力音声に対する音声認識結果と他の端末装置20が受信した音声データに対する音声認識結果との差異を計算する。例えば、プロセッサ201は、レーベンシュタイン距離を用いて対応する2つの音声認識結果の差異を数値化する。
ここで、各端末装置20のプロセッサ201が音声認識に用いる音声認識プログラムが同じものとする。ある端末装置(第1の端末装置)から出力される入力音声の音声データが他の端末装置(第2の端末装置)に正確に伝送された場合、入力音声と入力音声の音声データに基づく出力音声とは一致する。この場合、第1の端末装置による入力音声に対する音声認識結果と第2の端末装置による入力音声の音声データに対する音声認識結果とも一致する。これに対して、第1の端末装置から出力される入力音声の音声データが第2の端末装置に正確に伝送されない場合、入力音声と入力音声の音声データに基づく出力音声とは不一致となる。この場合、第1の端末装置による入力音声に対する音声認識結果と第2の端末装置による入力音声の音声データに対する音声認識結果とは不一致となる。
第1の端末装置に入力された入力音声は、第1の端末装置による入力音声に対する音声認識結果でテキスト化される。第2の端末装置が第1の端末装置から受信する入力音声の音声データに基づく出力音声は、第2の端末装置による受信した入力音声の音声データ(出力音声)に対する音声認識結果でテキスト化される。従って、第1の端末装置による音声認識結果と第2の端末装置による音声認識結果との差異は、第1の端末装置で入力した入力音声が第2の端末装置で正確に出力された度合を示す値となる。例えば、第1の端末装置から第2の端末装置に至る通信経路が不安定であればあるほど、第1の端末装置による音声認識結果と第2の端末装置による音声認識結果との差異は大きくなる。
プロセッサ201は、入力音声に対する音声認識結果(第1の端末装置による音声認識結果)と他の端末装置20が受信した音声データに対する音声認識結果(第2の端末装置による音声認識結果)との差異に基づいて警告を発するか否かを判断する(ACT34)。例えば、プロセッサ201は、入力音声に対する音声認識結果と他の端末装置20が受信した音声データ(出力音声)に対する音声認識結果との差異が所定の閾値を超えるか否かを判断する。所定の閾値は、入力音声と出力音声とが同じ内容としてユーザが認識できる程度のレベルに設定する。
入力音声に対する音声認識結果と出力音声に対する音声認識結果との差異が所定の閾値を超える場合、プロセッサ201は、警告を発するものと判断する。入力音声に対する音声認識結果と出力音声に対する音声認識結果との差異が所定の閾値以下である場合、プロセッサ201は、警告を発する必要がないものと判断する。
なお、プロセッサ201は、第1の端末装置による音声認識結果と第2の端末装置による音声認識結果との差異を複数の閾値と比較するようにしても良い。例えば、複数の閾値としては、第1の閾値と第1の閾値よりも小さい第2の閾値とを設定しても良い。プロセッサ201は、第1の閾値を超える場合には第1の警告を発し、第1の閾値以下かつ第2の閾値を超える場合には第2の警告を発するようにしても良い。これにより、サーバ10は、第1の端末装置による音声認識結果と第2の端末装置による音声認識結果との差異に応じた警告を発することが可能となる。
また、プロセッサ201は、第1の端末装置による音声認識結果と第2の端末装置による音声認識結果との差異を時系列で保存するようにしても良い。この場合、プロセッサ201は、第1の端末装置による音声認識結果と第2の端末装置による音声認識結果との差異の時系列での変化に応じた警告を発するようにしても良い。例えば、プロセッサ201は、第1の端末装置による音声認識結果と第2の端末装置による音声認識結果との差異が大きくなる傾向である場合に警告を発するようにしても良い。
警告が必要であると判断した場合(ACT34、YES)、プロセッサ201は、当該入力音声を入力した端末装置(第1の端末装置)20に警告を通知する(ACT35)。プロセッサ201は、入力音声に対する音声認識を実行した端末装置20を第1の端末装置として特定する。例えば、プロセッサ201は、入力音声に対する音声認識結果の送信元となる端末装置20を第1の端末装置として特定する。入力音声を入力した端末装置(第1の端末装置)を特定すると、プロセッサ201は、入力音声の送信元である第1の端末装置へ他の端末装置で入力音声が正常に送られていない旨の警告を送信する。
また、プロセッサ201は、入力音声に対する音声認識結果との差異が閾値を超えた出力音声の音声認識結果の送信元である第2の端末装置を特定するようにしても良い。第2の端末装置を特定した場合、プロセッサ201は、特定した第2の端末装置へ入力音声が正常に送られていない旨の警告を入力音声の送信元である第1の端末装置に送信する。
なお、プロセッサ201は、当該入力音声を入力した端末装置(第1の端末装置)20を特定することなく、複数の端末装置又は予め設定した端末装置へ警告を通知するようにしても良い。例えば、プロセッサ201は、オンライン会議に参加している全ての端末装置(又は、音声認識結果を送信してきた全ての端末装置)20へ警告を通知するようにしても良い。また、プロセッサ201は、主催者が使用する端末装置などの予め設定した端末装置に対して警告を通知するようにしても良い。
サーバ10のプロセッサ201は、オンライン会議が継続している間(ACT36、NO)、上述したようなACT31-35の処理を繰り返し実行する。また、プロセッサ201は、話者へ警告の通知する処理を中止する旨の指示を受けた場合にACT31-35の処理を終了するようにしても良い。
なお、上述したサーバ10の処理は、何れかの端末装置20が実行するようにしても良い。すなわち、上述したサーバ10の処理を何れかの1つの端末装置20に実行させることにより、オンライン会議システム1を構成するようにしても良い。例えば、端末装置20は、上述したサーバ10の処理を実行するプログラムをインストールすることにより上述した処理を実行できる。これにより、サーバ10を設けることなく、複数の端末装置20からなるオンライン会議システムを構成することも可能である。
以上の処理によれば、実施形態に係るオンライン会議システムのサーバは、入力音声に対する音声認識結果を第1の端末装置から取得する。サーバは、第2の端末装置が第1の端末装置から受信した当該入力音声の音声データに対する音声認識結果を第2の端末装置から取得する。サーバは、第1の端末装置から取得する入力音声に対する音声認識結果と第2の端末装置から取得する当該入力音声の音声データに対する音声認識結果との差異を判定する。
これにより、実施形態に係るサーバは、第1の端末装置で入力した入力音声が第2の端末装置で正常に出力されているかを評価できる。この結果、第1の端末装置と第2の端末装置との間の通信状況を評価することもできる。
また、サーバは、入力音声に対する音声認識結果と第2の端末装置が受信した当該入力音声の音声データに対する音声認識結果との差異が閾値を超える場合、警告を発する。これにより、第1の端末装置で入力した入力音声が第2の端末装置で正常に出力されていないことを報知することができる。
さらに、サーバは、入力音声に対する音声認識結果と第2の端末装置が受信した当該入力音声の音声データに対する音声認識結果との差異が閾値を超える場合、第1の端末装置へ警告を発する。これにより、第1の端末装置で入力した入力音声が第2の端末装置で正常に出力されていないことを第1の端末装置の使用者である話者に報知することができる。この結果、話者は、自身の発言が聴講者の端末装置で正常に出力されていないことをオンライン会議中に認識することできる。
なお、上述した実施形態では、装置内のメモリにプロセッサが実行するプログラムが予め記憶されている場合で説明をした。しかし、プロセッサが実行するプログラムは、ネットワークから装置にダウンロードしても良いし、記憶媒体から装置にインストールしてもよい。記憶媒体としては、CD-ROM等のプログラムを記憶でき、かつ装置が読み取り可能な記憶媒体であれば良い。また、予めインストールやダウンロードにより得る機能は、装置内部のOS(オペレーティング・システム)等と協働して実現させるものであってもよい。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
10…サーバ、20(21、22、23)…端末装置、101…プロセッサ、103…補助記憶装置(メモリ)、104…通信インターフェース、201…プロセッサ、203…補助記憶装置(メモリ)、204…通信インターフェース、205…音声処理回路、206…マイク、207…スピーカ。
Claims (6)
- 入力された音声から生成する音声データを発信する第1の端末装置および前記第1の端末装置から受信する前記音声データに基づく音声を出力する第2の端末装置と通信する通信インターフェースと、
前記第1の端末装置に入力された入力音声に対する前記第1の端末装置による音声認識結果と、前記第2の端末装置が前記第1の端末装置から受信した前記入力音声の音声データに対する前記第2の端末装置による音声認識結果と、を記憶するメモリと、
前記第1の端末装置による音声認識結果と前記第2の端末装置による音声認識結果との比較に基づいて、前記第1の端末装置に入力された入力音声と前記第2の端末装置が前記第1の端末装置から受信した前記入力音声の音声データに基づいて出力する音声との差異を判定するプロセッサと、
を有するサーバ。 - 前記プロセッサは、前記第1の端末装置による音声認識結果と前記第2の端末装置による音声認識結果との差異が閾値を超える場合、前記第1の端末装置に入力された入力音声と前記第2の端末装置が前記第1の端末装置から受信する前記入力音声の音声データに基づいて出力する音声とが一致しない旨の警告を出力する、
請求項1に記載のサーバ。 - 前記プロセッサは、前記第1の端末装置による音声認識結果と前記第2の端末装置による音声認識結果との差異が閾値を超える場合、前記入力音声が前記第2の端末装置で正常に出力されていない旨の警告を前記第1の端末装置に送信する、
請求項1に記載のサーバ。 - サーバおよび他の端末装置と通信する通信インターフェースと、
マイクが集音した入力音声の音声データを他の端末装置へ送信するとともに前記入力音声に対する音声認識結果を前記サーバへ送信し、
前記通信インターフェースを介して他の端末装置から受信した音声データに基づく音声をスピーカから出力するとともに前記音声データに対する音声認識結果を前記サーバへ送信し、
前記サーバから入力音声と他の端末装置が受信した当該入力音声の音声データに基づいて出力される音声とが一致しない旨の通知を受けた場合に報知デバイスを用いて警告を報知させる、プロセッサと、
を有する端末装置。 - 音声認識結果を記憶するメモリを有し、
前記プロセッサは、前記入力音声に対する音声認識結果と前記音声データに対する音声認識結果とを前記メモリに記憶し、前記メモリに記憶した音声認識結果が既定値に達するごとに前記サーバへ送信する、
請求項4に記載の端末装置。 - オンライン会議に参加する複数の端末装置と通信する通信インターフェースを有するサーバに、
入力音声から生成する音声データを他の端末装置へ発信する第1の端末装置から通信インターフェースを介して受信する前記入力音声に対する前記第1の端末装置による音声認識結果をメモリに記憶することと、
前記第1の端末装置から受信する前記音声データに基づく音声を出力する第2の端末装置から通信インターフェースを介して受信する前記入力音声の音声データに対する前記第2の端末装置による音声認識結果をメモリに記憶することと、
前記第1の端末装置による音声認識結果と前記第2の端末装置による音声認識結果との比較に基づいて前記第1の端末装置に入力された入力音声と前記第2の端末装置が前記第1の端末装置から受信した前記入力音声の音声データに基づいて出力する音声との差異を判定することと、
を実行させるオンライン会議用のプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021005857A JP2022110443A (ja) | 2021-01-18 | 2021-01-18 | サーバ、端末装置およびオンライン会議用のプログラム |
CN202111176635.3A CN114822526A (zh) | 2021-01-18 | 2021-10-09 | 服务器、终端装置及存储介质 |
US17/511,389 US20220230656A1 (en) | 2021-01-18 | 2021-10-26 | Server, terminal device, and method for online conferencing |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021005857A JP2022110443A (ja) | 2021-01-18 | 2021-01-18 | サーバ、端末装置およびオンライン会議用のプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022110443A true JP2022110443A (ja) | 2022-07-29 |
Family
ID=82405276
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021005857A Pending JP2022110443A (ja) | 2021-01-18 | 2021-01-18 | サーバ、端末装置およびオンライン会議用のプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220230656A1 (ja) |
JP (1) | JP2022110443A (ja) |
CN (1) | CN114822526A (ja) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6324170B1 (en) * | 1998-09-10 | 2001-11-27 | Nortel Networks Limited | Echo controller with compensation for variable delay networks |
US11017778B1 (en) * | 2018-12-04 | 2021-05-25 | Sorenson Ip Holdings, Llc | Switching between speech recognition systems |
US11151981B2 (en) * | 2019-10-10 | 2021-10-19 | International Business Machines Corporation | Audio quality of speech in sound systems |
-
2021
- 2021-01-18 JP JP2021005857A patent/JP2022110443A/ja active Pending
- 2021-10-09 CN CN202111176635.3A patent/CN114822526A/zh active Pending
- 2021-10-26 US US17/511,389 patent/US20220230656A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
CN114822526A (zh) | 2022-07-29 |
US20220230656A1 (en) | 2022-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8595015B2 (en) | Audio communication assessment | |
US9571638B1 (en) | Segment-based queueing for audio captioning | |
JP6402748B2 (ja) | 音声対話装置および発話制御方法 | |
US9560316B1 (en) | Indicating sound quality during a conference | |
JP2010074494A (ja) | 会議支援装置 | |
US11076219B2 (en) | Automated control of noise reduction or noise masking | |
US20190147851A1 (en) | Information processing apparatus, information processing system, information processing method, and storage medium which stores information processing program therein | |
JP6420514B1 (ja) | 会話ロボット | |
TWI638352B (zh) | 可調整輸出聲音之電子裝置及調整輸出聲音之方法 | |
US11164577B2 (en) | Conversation aware meeting prompts | |
US20120053937A1 (en) | Generalizing text content summary from speech content | |
US10504523B2 (en) | Voice processing device, voice processing method, and computer program product | |
US11463501B2 (en) | Method of determining the speech in a Web-RTC audio or video communication and/or collaboration session and communication system | |
JP2022110443A (ja) | サーバ、端末装置およびオンライン会議用のプログラム | |
WO2022005701A1 (en) | Audio anomaly detection in a speech signal | |
JP2010199741A (ja) | 携帯電話端末装置 | |
US10237413B2 (en) | Methods for the encoding of participants in a conference | |
JP2016033530A (ja) | 発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム | |
US11651779B2 (en) | Voice processing system, voice processing method, and storage medium storing voice processing program | |
US8929535B1 (en) | Aural volume feedback in call center | |
US11783837B2 (en) | Transcription generation technique selection | |
US20140324418A1 (en) | Voice input/output device, method and programme for preventing howling | |
JP6260138B2 (ja) | コミュニケーション処理装置、コミュニケーション処理方法、及び、コミュニケーション処理プログラム | |
JP2018081147A (ja) | コミュニケーション装置、サーバ、制御方法、および情報処理プログラム | |
US20230224345A1 (en) | Electronic conferencing system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20230104 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20231114 |