JP2022110443A - サーバ、端末装置およびオンライン会議用のプログラム - Google Patents

サーバ、端末装置およびオンライン会議用のプログラム Download PDF

Info

Publication number
JP2022110443A
JP2022110443A JP2021005857A JP2021005857A JP2022110443A JP 2022110443 A JP2022110443 A JP 2022110443A JP 2021005857 A JP2021005857 A JP 2021005857A JP 2021005857 A JP2021005857 A JP 2021005857A JP 2022110443 A JP2022110443 A JP 2022110443A
Authority
JP
Japan
Prior art keywords
terminal device
voice
input
speech
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021005857A
Other languages
English (en)
Inventor
直樹 関根
Naoki Sekine
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba TEC Corp
Original Assignee
Toshiba TEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba TEC Corp filed Critical Toshiba TEC Corp
Priority to JP2021005857A priority Critical patent/JP2022110443A/ja
Priority to CN202111176635.3A priority patent/CN114822526A/zh
Priority to US17/511,389 priority patent/US20220230656A1/en
Publication of JP2022110443A publication Critical patent/JP2022110443A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/1066Session management
    • H04L65/1083In-session procedures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/40Support for services or applications
    • H04L65/403Arrangements for multi-party communication, e.g. for conferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/80Responding to QoS
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Quality & Reliability (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】 話者の音声が受信側の端末装置で正常に出力されていないことを確認できるサーバ、端末装置、および、オンライン会議用のプログラムを提供する。【解決手段】 実施形態によれば、サーバは、通信インターフェースとメモリとプロセッサとを有する。通信インターフェースは、入力された音声から生成する音声データを発信する第1の端末装置および前記第1の端末装置から受信する前記音声データに基づく音声を出力する第2の端末装置と通信する。メモリは、第1の端末装置に入力された入力音声に対する第1の端末装置による音声認識結果と第2の端末装置が第1の端末装置から受信した入力音声の音声データに対する第2の端末装置による音声認識結果とを記憶する。プロセッサは、第1の端末装置による音声認識結果と第2の端末装置による音声認識結果との比較に基づいて、第1の端末装置に入力された入力音声と第2の端末装置が第1の端末装置から受信した入力音声の音声データに基づいて出力する音声との差異を判定する。【選択図】図2

Description

本発明の実施形態は、サーバ、端末装置およびオンライン会議用のプログラムに関する。
従来、ネットワークを介して接続される複数の端末装置が音声を送受することで会議などの複数人での対話を行うオンライン会議という技術がある。オンライン会議に参加する複数の端末装置は、それぞれ異なる通信環境にある場合が多い。通信環境が良くない端末装置は、他の端末装置で入力された音声の一部が途切れたり、正確な音声として出力されなかったりする。
従来、オンライン会議における各端末装置間の通信品質を測定する技術としては、少量のテストデータを往復させ、時間差からスループット(転送速度)を求めるものがある。このような従来の技術は、簡便ではあるが、オンライン会議における人の体感を反映していないことが多い。例えば、スループットが一時的に低くても音声が聴こえたり、安定したスループットの計測値でも音声が途切れてしまったりすることがある。このため、オンライン会議中において、話者の音声が聴取者に正確に届いているかを確実に検知できるものが要望されている。
特開2007-228114号公報
上記した課題を解決するために、話者の音声が受信側の端末装置で正常に出力されていないことを確認できるサーバ、端末装置、および、オンライン会議用のプログラムを提供する。
実施形態によれば、サーバは、通信インターフェースとメモリとプロセッサとを有する。通信インターフェースは、入力された音声から生成する音声データを発信する第1の端末装置および前記第1の端末装置から受信する前記音声データに基づく音声を出力する第2の端末装置と通信する。メモリは、第1の端末装置に入力された入力音声に対する第1の端末装置による音声認識結果と第2の端末装置が第1の端末装置から受信した入力音声の音声データに対する第2の端末装置による音声認識結果とを記憶する。プロセッサは、第1の端末装置による音声認識結果と第2の端末装置による音声認識結果との比較に基づいて、第1の端末装置に入力された入力音声と第2の端末装置が第1の端末装置から受信した入力音声の音声データに基づいて出力する音声との差異を判定する。
図1は、実施形態に係るオンライン会議システムの構成例を模式的に示す図である。 図2は、実施形態に係るオンライン会議システムに用いられるサーバにおける制御系の構成例を示すブロック図である。 図3は、実施形態に係るオンライン会議システムに用いられる端末装置における制御系の構成例を示すブロック図である。 図4は、実施形態に係るオンライン会議システムにおける複数の端末装置による音声認識結果の例を示す図である。 図5は、実施形態に係るオンライン会議システムに用いられるサーバの動作例を説明するためのフローチャートである。 図6は、実施形態に係るオンライン会議システムに用いられるサーバの動作例を説明するためのフローチャートである。
以下、実施形態について、図面を参照して説明する。
図1は、実施形態に係るオンライン会議システム1を概略的に説明するための図である。
図1に示すように、実施形態に係るオンライン会議システム1は、ネットワークを介して接続されるサーバ10と複数の端末装置20(21、22、23、…)とを有する。
サーバ10は、各端末装置20における音声通話の品質を管理する管理装置である。サーバ10は、ある端末装置(第1の端末装置)21に入力された音声がネットワークを介して接続される他の端末装置(第2の端末装置)22、23でどのように出力されているかを判定する。図1に示す例において、第1の端末装置は、話者が音声を入力する端末装置21であり、第2の端末装置は、話者以外の聴講者の端末装置22、23であるものとする。
サーバ10は、話者が端末装置(第1の端末装置)21に入力する音声の音声認識結果を端末装置21から取得する。また、サーバ10は、話者以外(聴講者)の端末装置(第2の端末装置)22、23がネットワークを介して端末装置21から受信した音声(第2の端末装置が出力する音声)に対する音声認識結果を端末装置22、23から取得する。
サーバ10は、話者の端末装置21に入力された音声の音声認識結果と聴講者の端末装置22、23で出力する音声の音声認識結果とを比較する。端末装置21での音声認識結果と端末装置22、23での音声認識結果とが一致する場合、サーバ10は、端末装置21に入力された音声が端末装置22、23で正確に出力されていると判定する。端末装置22、23での音声認識結果と端末装置21での音声認識結果とが異なる場合、サーバ10は、端末装置21に入力された音声が端末装置22、23で正確に出力されていないとを判定する。サーバ10は、端末装置22、23での音声認識結果と端末装置21での音声認識結果とが既定値(閾値)を超えて異なる場合に端末装置22、23へ警告を送信する。
複数の端末装置20(21、22、23、…)は、マイクおよびスピーカを備える情報処理装置である。マイクは、人物が発する声を含む音を入力(集音)する。スピーカは、音声データに基づく音を出力する。端末装置20としての情報処理装置は、例えば、パーソナルコンピュータ、スマートフォン、あるいは、タブレット端末などである。また、端末装置20は、コンピュータなどの情報処理装置にマイク2およびスピーカ3の何れか一方又は両方が接続される構成であっても良い。
端末装置20は、話者が発した声(音声)をマイクで集音し、集音した音声のデータ(音声データ)をオンライン会議に参加している他の端末装置20へ送信する。また、端末装置20は、ネットワークを介して他の端末装置20から受信した話者の音声などの音声データを受信し、受信した音声データをスピーカから音として出力する。
端末装置20は、マイクで集音した音の音声データを他の端末装置へ送信し、他の端末装置から受信した音声データに基づく音をスピーカで出力する。また、端末装置20は、音声認識処理を行う。端末装置20は、マイク2で話者の音声を集音した場合、集音した音声に対する音声認識処理を行う。また、端末装置20は、他の端末装置から音声データを受信した場合、受信した音声データに基づいて出力する音声に対する音声認識処理を行う。さらに、端末装置20は、音声認識処理による音声認識結果をサーバ10へアップロードする。
図1では、端末装置21は、話者が使用する第1の端末装置であり、端末装置22、23は、聴講者が使用する第2の端末装置である例を模式的に示す。図1に示す例において、第1の端末装置としての端末装置21は、話者が発した声をマイクで集音し、集音した音声のデータ(音声データ)を他の端末装置22、23へ送信する。第2の端末装置としての端末装置22、23は、ネットワークを介して端末装置21からの音声データを受信し、受信した音声データに基づく音をスピーカから出力する。
また、第1の端末装置としての端末装置21は、マイク2で集音した音から話者が発した声を検知した場合、マイク2で集音した音声に対する音声認識処理を行う。端末装置21は、マイク2で集音した音声に対する音声認識処理による音声認識結果をサーバ10へ送信する。また、第2の端末装置としての端末装置22、23は、第1の端末装置としての端末装置21から音声データを受信した場合、受信した音声データに基づく音に対する音声認識処理を行う。端末装置22、23は、端末装置21から受信した音声データに基づく音に対する音声認識処理による音声認識結果をサーバ10へ送信する。
次に、実施形態に係るサーバ10の構成について説明する。
図2は、実施形態に係るサーバ10の構成例を示すブロック図である。
図2に示すように、サーバ10は、プロセッサ101、主記憶装置102、補助記憶装置(メモリ)103、および、通信インターフェース104を有する。
プロセッサ101は、サーバ10全体の制御を司る。プロセッサ101は、例えば、CPUである。プロセッサ101は、プログラムを実行することにより後述する種々の処理を行う。例えば、プロセッサ101は、各端末装置による音声認識結果の比較、音声認識結果の比較結果に応じた警告の出力などの処理を実行する。
主記憶装置102は、データを記憶するメインメモリである。主記憶装置102は、例えば、RAM(Random Access Memory)などにより構成する。主記憶装置102は、プロセッサ101が処理中のデータを一時的に格納する。例えば、主記憶装置102は、プログラムの実行に必要なデータおよびプログラムの実行結果などを格納する。また、主記憶装置102は、データを一時的に保持するためのバッファメモリとしても動作する。
補助記憶装置103は、データを記憶するストレージである。補助記憶装置103は、ROM(Read Only Memory)などの書き換え不可の不揮発性メモリ、および、書き換え可能な不揮発性メモリなどを含む。書き換え可能な不揮発性メモリとしては、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)、EEPROM(登録商標)あるいはフラッシュROMなどで構成される。
補助記憶装置103は、プロセッサ101が実行する種々のプログラムおよび制御データなどを記憶する。例えば、補助記憶装置103は、オンライン会議システムにおける各端末装置20による音声認識結果を比較するためのプログラムを記憶する。また、補助記憶装置103は、各端末装置20による音声認識結果の比較結果に応じた警告を出力するためのプログラムを記憶する。
また、本実施形態において、補助記憶装置103は、図2に示すように、各端末装置20による音声認識結果を記憶する記憶領域113を有する。記憶領域113は、端末装置21に入力された音声に対する音声認識結果と端末装置22、23が端末装置21から受信(出力)する音声に対する音声認識結果とを記憶する。
通信インターフェース104は、オンライン会議システムにおける各端末装置20と通信するためのインターフェースである。通信インターフェースは、有線回線を通じて通信するインターフェースを含むものであっても良いし、無線により通信するインターフェースを含むものであっても良い。例えば、プロセッサ101は、通信インターフェース104を介してオンライン会議システムに参加する各端末装置20から音声認識結果を取得する。また、プロセッサ101は、通信インターフェース104を介して各端末装置20による音声認識結果の比較結果に応じた警告を特定の端末装置20へ送信する。
次に、実施形態に係る端末装置20の構成について説明する。
図3は、実施形態に係る端末装置20の構成例を示すブロック図である。
図3に示す構成例において、端末装置20は、プロセッサ201、主記憶装置202、補助記憶装置(メモリ)203、通信インターフェース204、音声処理回路205、マイク206、スピーカ207、表示装置(報知デバイス)208および操作デバイス209などを有する。
プロセッサ201は、端末装置20全体の制御を司る。プロセッサ201は、例えば、CPUである。プロセッサ201は、プログラムを実行することにより後述する種々の処理を行う。例えば、プロセッサ201は、入力音の音声データの生成、音声データの送信、入力音に対する音声認識、音声認識結果のサーバ10への送信、警告の出力などの処理を行う。また、プロセッサ201は、音声データの受信、音声データに基づく音声出力、受信(出力)する音声に対する音声認識、および、音声認識結果のサーバ10への送信などを行う。
主記憶装置202は、データを記憶するメインメモリである。主記憶装置202は、例えば、RAM(Random Memory)などにより構成する。主記憶装置202は、プロセッサ201が処理中のデータを一時的に格納する。例えば、主記憶装置202は、プログラムの実行に必要なデータおよびプログラムの実行結果などを格納してもよい。また、主記憶装置202は、データを一時的に保持するためのバッファメモリとしても動作する。例えば、主記憶装置202は、各マイク206で集音した音を音声処理回路205で処理することで得られた音声のデータを保持する。また、主記憶装置202は、受信した音声データを保持する。
補助記憶装置203は、データを記憶するストレージである。補助記憶装置203は、ROM(リードオンリーメモリ)などの書き換え不可の不揮発性メモリ、および、書き換え可能な不揮発性メモリなどを含む。書き換え可能な不揮発性メモリとしては、例えば、HDD(ハードディスクドライブ)、SSD(ソリッドステートドライブ)、EEPROM(登録商標)あるいはフラッシュROMなどで構成される。
補助記憶装置203は、プロセッサ201が実行するプログラムおよび制御データなどを記憶する。補助記憶装置203は、上述したような各種の処理を行うためのプログラムを記憶する。例えば、補助記憶装置203は、入力音声あるいは受信した音声データに対する音声認識を行うための音声認識プログラムを記憶する。また、補助記憶装置203は、音声認識結果をサーバ10へ送信するプログラム、サーバ10からの通知に応じて警告を出力するプログラムなどを記憶する。さらに、図3に示す例において、補助記憶装置203は、音声認識結果を保持する記憶領域213を有する。
通信インターフェース204は、オンライン会議システムに参加する他の端末装置20およびサーバ10と通信するためのインターフェースである。通信インターフェース204は、有線回線を通じて通信するインターフェースを含むものであっても良いし、無線により通信するインターフェースを含むものであっても良い。例えば、プロセッサ201は、通信インターフェース204を介してオンライン会議システムに参加する他の端末装置20との間で音声データの送受信を行う。また、プロセッサ201は、入力音声又は受信した音声データに対する音声認識の結果をサーバ10へ送信する。さらに、プロセッサ201は、通信インターフェース204を介して警告の通知を受けた場合、スピーカあるいは表示装置などを用いて警告を報知する処理を行う。
マイク206は、音を集音(取得)する。マイク206は、例えば、集音した音をアナログ信号(アナログ波形)として入力し、入力された音のアナログ信号を音声処理回路205へ出力する。
音声処理回路205は、マイク206が集音した音のアナログ信号を入力し、入力した音のアナログ信号をデジタルデータとしての音声データを出力する。音声処理回路205は、アナログ波形をデジタル化するADコンバータなどを有する。
なお、マイク206は、端末装置20に接続される外部機器であっても良い。マイク206を外部機器とする場合、音声処理回路205は、マイク206を接続する音声入力用のインターフェースを備えるものとすれば良い。
スピーカ207は、音声を出力する。スピーカ207は、プロセッサ201から供給される応答音声としての応答波形に基づく音を発する。また、スピーカ207は、報知デバイスとして、後述するサーバ10から受信する警告に応じた警告内容を音声で出力するようにしても良い。
なお、スピーカ207は、端末装置20に接続される外部機器であっても良い。スピーカ207を外部機器とする場合、端末装置20は、スピーカ207に出力すべき音の波形を示す信号を出力するインターフェースを備えるものとすれば良い。
表示装置208は、画像を表示する。表示装置208は、報知デバイスとして動作する。例えば、表示装置208は、後述するサーバ10から受信する警告に応じて警告を報知するための警告画面を表示する。操作デバイス209は、ユーザからの操作指示を受け付ける。例えば、表示装置208および操作デバイス209は、タッチパネル付きのディスプレイによって構成する。また、操作デバイス209としては、テンキー、キーボード、あるいは、ポインティングデバイスなどを含むようにしても良い。
次に、実施形態に係るサーバ10が各端末装置20から収集する音声認識結果について説明する。
図4は、サーバ10における補助記憶装置203の記憶領域213に記憶される各端末装置20による音声認識結果の例を示す図である。
サーバ10は、各端末装置20による音声認識結果を収集する。サーバ10は、各端末装置から収集した音声認識結果を補助記憶装置103の記憶領域113に保存する。図4に示す例において、サーバ10は、入力音声に対する音声認識結果に対応づけて、他の端末装置が受信した当該入力音声の音声データに対する音声認識結果を保存する。図4に示す例では、話者の端末装置(第1の端末装置)21が端末Aであり、聴講者の端末装置(第2の端末装置)22、23が端末B、端末Cであるものとする。
端末Aは、話者が発した音声をマイク206で入力し、入力した音声(入力音声)に対して音声認識を行う。端末Aは、入力音声に対する音声認識結果を時刻を示す情報(時刻情報)に対応づけてサーバ10に供給する。ここで、端末Aは、音声認識結果および時刻情報と共に話者が発した音声(入力音声)に対する音声認識結果であることを示す情報も送信するようにしても良い。
また、端末Bおよび端末Cは、それぞれ端末Aからの入力音声の音声データを受信し、受信した音声データに対して音声認識を行う。端末Bおよび端末Cは、受信した音声データに対する音声認識結果を時刻情報に対応づけてサーバ10へ供給する。ここで、端末Bおよび端末Cは、音声認識結果および時刻情報と共に、ネットワーク経由で受信した音声データに対する音声認識結果であることを示す情報も送信するようにしても良い。また、端末Bおよび端末Cは、音声認識結果および時刻情報と共に、端末Aからの音声データに対する音声認識結果であることを示す情報も送信するようにしても良い。
サーバ10は、時刻情報に対応づけて各端末A、B、Cでの音声認識結果を保存する。端末Aが入力音声を入力した時刻と他の端末B、Cが端末Aの入力音声の音声データを受信した時刻との差が短時間であるものとする。この場合、入力音声に対する音声認識結果と他の端末が受信した当該入力音声の音声データに対する音声認識結果とは、図4に示すように、対応づけて記憶領域213に保存される。
話者の端末Aによる入力音声に対する音声認識結果と端末Bによる当該入力音声の音声データに対する音声認識結果との差異は、端末Aおよび端末B間の通信品質を示す。話者の端末Aによる入力音声に対する音声認識結果は、ネットワーク等の通信環境による影響を受けない。これに対して、聴講者の端末B、Cによる当該入力音声の音声データに対する音声認識結果は、端末Aとの間における通信環境(通信品質)による影響を受ける。例えば、端末Bと端末Aとの間の通信品質が悪いと、端末Bによる音声認識結果は、端末Aによる音声認識結果との差異が大きくなる。
すなわち、端末Aによる入力音声に対する音声認識結果と端末Bによる当該入力音声の音声データに対する音声認識結果との差異が大きければ大きいほど、端末Aおよび端末B間の通信状況は悪いと判定できる。端末Aによる入力音声に対する音声認識結果と端末Bによる当該入力音声の音声データに対する音声認識結果とが一致すれば、端末Aおよび端末B間の通信状況は良好と判定できる。同様に、端末Aによる入力音声に対する音声認識結果と端末Cによる当該入力音声の音声データに対する音声認識結果との差異によって端末Aと端末Cとの通信状況を判定できる。
図4に示す例では、時刻「00:01」に端末Aに入力された入力音声に対する音声認識結果は、端末BおよびCにおける当該入力音声に対応する音声認識結果と一致する。時刻「00:12」の入力音声に対する音声認識結果は、端末Bにおける当該入力音声に対応する音声認識結果と一致する。しかし、時刻「00:12」の入力音声に対する音声認識結果は、端末における当該入力音声に対応する音声認識結果と一部が不一致となる。これにより、時刻「00:12」では、端末Aと端末Bとの通信品質は良好であるが、端末Aと端末Cとの通信品質が少し悪化していると判定できる。
また、図4に示す例では、時刻「00:23」の入力音声に対する音声認識結果は、端末BおよびCにおける当該入力音声に対応する音声認識結果と一致しない。また、時刻「00:34」の入力音声に対する音声認識結果も、端末BおよびCにおける当該入力音声に対応する音声認識結果と一致しない。これにより、時刻「00:23」および「0034」では、端末Bおよび端末Cは、端末Aとの通信品質が悪いため、正常に入力音声が出力できていないと判定できる。
本実施形態において、サーバ10は、オンライン会議に参加する各端末装置から音声認識結果を収集することにより、図4に示すような情報を取得する。サーバ10は、入力音声に対する音声認識結果と他の端末装置が受信した当該入力音声の音声データに対する音声認識結果と比較する。サーバ10は、対応する音声認識結果の差分を算出することにより、端末Aの入力音声と当該入力音声に対応する端末B又はCの出力音声との差異を判定する。
サーバ10は、端末Aによる音声認識結果と端末B又は端末Cによる音声認識結果との差分の大きさが所定の閾値(既定値)を超えるか否かを判断する。サーバ10は、差分の大きさが所定の閾値を超える場合、正常に音声が出力されていないことを端末Aに警告する。例えば、端末Aによる音声認識結果と端末Bによる音声認識結果との差分が閾値を超える場合、サーバ10は、話者の音声が端末Bで正常に出力できていないことを端末Aに警告する。端末Aは、サーバ10からの警告を表示装置208により報知する。これにより、端末Aを使用する話者は、どの端末で正常に音声が出力されていないかを知ることができる。
次に、実施形態に係るオンライン会議システム1における端末装置20の動作について説明する。
図5は、実施形態に係るオンライン会議システム1における端末装置20の動作例を説明するためのフローチャートである。
オンライン会議システムに参加する端末装置20のプロセッサ201は、マイク206が集音する音声の入力又は他の端末装置20から受信する音声(音声データ)の入力を受け付ける(ACT11)。プロセッサ201は、マイク206からの音声入力を有効とする動作モードと無効とする動作モードとを切り替えられるようにしても良い。例えば、プロセッサ201は、操作デバイス209を用いてユーザが入力する指示に応じてマイク206からの音声入力を有効又は無効とする。
マイク206からの音声入力が無効である場合、プロセッサ201は、入力音声を取得することなく、他の端末装置20からの音声データの入力(受信)を行う(ACT11、YES)。プロセッサ201は、他の端末装置20からの音声データを受信すると、当該音声データに基づく音声をスピーカ207から出力する。これにより、端末装置20(第2の端末装置としての端末装置22、23)は、他の端末装置20(第1の端末装置としての端末装置21)で入力された入力音声をスピーカ207から出力する。
マイク206からの音声入力が有効である場合、プロセッサ201は、マイク206が集音する音を音声処理回路205を介して入力音声として取得する(ACT11、YES)。プロセッサ201は、取得した入力音声から生成する音声データを他の端末装置20へ送信(配信)する。これにより、端末装置20(例えば、第1の端末装置としての端末装置21)のプロセッサ201は、マイク206が集音する話者が発する声(入力音声)を他の端末装置20(例えば、第2の端末装置としての端末装置22、23)へ音声データとして送信(配信)できる。なお、マイク206からの音声入力を有効とする場合、プロセッサ201は、入力音声を他の端末装置20へ配信する処理と並行して、他の端末装置20から受信する音声データに基づく音声をスピーカ207から出力する処理も実行する。
マイク206が集音した入力音声を音声処理回路205を介して取得した場合(ACT11、YES)、プロセッサ201は、入力音声に対して音声認識処理を行う(ACT12)。プロセッサ201は、入力音声に対する音声認識結果を補助記憶装置203の記憶領域213に記憶する(ACT13)。例えば、プロセッサ201は、当該入力音声を入力した時刻を示す時刻情報に対応づけて音声認識結果を記憶領域213に記憶する。さらに、プロセッサ201は、音声認識結果がマイク206で集音した入力音声に対する音声認識結果であることを示す情報も記憶する。
また、他の端末装置20からの音声データを通信I/F204で受信した場合(ACT11、YES)、プロセッサ201は、受信した音声データに対して音声認識処理を行う(ACT12)。プロセッサ201は、他の端末装置20から受信した音声データに対する音声認識結果を補助記憶装置203の記憶領域213に記憶する(ACT13)。例えば、プロセッサ201は、当該音声データを入力した時刻を示す時刻情報に対応づけて音声認識結果を記憶領域213に記憶する。さらに、プロセッサ201は、音声認識結果が他の端末装置から受信した音声データに対する音声認識結果であることを示す情報も記憶する。
ここで、入力音声に対する音声認識処理と受信した音声データに対する音声認識処理とは、同じ音声認識用のプログラムで実行されるものとする。また、各端末装置20が実行する音声認識処理は、同等のアルゴリズムで構成された音声認識用のプログラムで実行されるものとする。ただし、各端末装置20が実行する音声認識用のプログラムは、同じ音声に対する認識結果に閾値以上の差異が生じることがなければ、異なるプログラムであっても良い。
また、プロセッサ201は、記憶領域213に記憶した音声認識結果をサーバ10へ送信するか否かを判断する(ACT14)。プロセッサ201は、予め設定した条件に基づいて記憶領域213に保存した音声認識結果をサーバ10へ送信する。例えば、プロセッサ201は、所定時間ごとに音声認識結果を送信するようにする。また、プロセッサ201は、一連の文章が音声認識結果として保存されるごとに音声認識結果をサーバ10へ送信するようにしても良い。また、プロセッサ201は、記憶領域213に保存する未送信の音声認識結果のデータ量が所定量に達するごとにサーバ10へ音声認識結果を送信するようにしても良い。
音声認識結果をサーバ10へ送信すると判断した場合、プロセッサ201は、記憶領域213に記憶した未送信の音声認識結果を通信I/F204によりサーバ10へ送信する(ACT15)。例えば、プロセッサ201は、音声認識によって得られた一連の文章(テキスト)ごとに時刻情報などの付加情報を対応づけた音声認識結果をサーバ10へ送信する。
また、プロセッサ201は、オンライン会議中においてサーバ10からの警告を受け付ける(ACT16)。プロセッサ201は、サーバ10からの警告を示す通知を受信すると、通知された内容に応じた警告を報知する(ACT17)。例えば、端末Aがマイク206に入力された入力音声(話者の発言)を端末Bへ配信した後に端末Bで当該入力音声が正常に出力されていない旨の警告をサーバ10から受信したものとする。この場合、端末Aのプロセッサ201は、表示装置208に入力音声(話者の発言)が端末Bで正常に出力されていない旨の警告を表示する。
これにより、話者の端末装置(第1の端末装置)は、話者の発言が正常に出力されていない端末装置(第2の端末装置)を報知できる。この結果、第1の端末装置を使用する話者は、オンライン会議を中断することなく、自身の発言が正常に出力されていない端末装置を認識することが可能となる。
次に、実施形態に係るオンライン会議システム1におけるサーバ10の動作について説明する。
図6は、実施形態に係るオンライン会議システム1におけるサーバ10の動作例を説明するためのフローチャートである。
サーバ10のプロセッサ101は、オンライン会議システム1によるオンライン会議に参加する各端末装置20と通信する。プロセッサ101は、通信I/F104により各端末装置20からの音声認識結果を受け付ける(ACT31)。
ある端末装置20から音声認識結果を受信した場合(ACT31、YES)、プロセッサ201は、受信した音声認識結果を補助記憶装置103に記憶する(ACT32)。例えば、プロセッサ201は、各端末装置20から受信する音声認識結果を時刻ごとに対応づけて補助記憶装置103の記憶領域113に記憶する。また、プロセッサ201は、図4に示すように、話者の端末装置(第1の端末装置)20による音声認識結果(入力音声に対する音声認識結果)に対応づけて聴講者の端末装置(第2の端末装置)20による音声認識結果(ネットワークを介して受信した入力音声の音声データに対する音声認識結果)を記憶領域113に記憶するようにしても良い。
端末装置20から受信した音声認識結果を保存すると、プロセッサ201は、保存した音声認識結果を比較する(ACT33)。プロセッサ201は、話者の端末装置20が入力した入力音声に対する音声認識結果と聴講者の端末装置20が受信した当該入力音声の音声データに対する音声認識結果とを対応づける。プロセッサ201は、入力音声に対する音声認識結果と他の端末装置20が受信した音声データに対する音声認識結果との差異を計算する。例えば、プロセッサ201は、レーベンシュタイン距離を用いて対応する2つの音声認識結果の差異を数値化する。
ここで、各端末装置20のプロセッサ201が音声認識に用いる音声認識プログラムが同じものとする。ある端末装置(第1の端末装置)から出力される入力音声の音声データが他の端末装置(第2の端末装置)に正確に伝送された場合、入力音声と入力音声の音声データに基づく出力音声とは一致する。この場合、第1の端末装置による入力音声に対する音声認識結果と第2の端末装置による入力音声の音声データに対する音声認識結果とも一致する。これに対して、第1の端末装置から出力される入力音声の音声データが第2の端末装置に正確に伝送されない場合、入力音声と入力音声の音声データに基づく出力音声とは不一致となる。この場合、第1の端末装置による入力音声に対する音声認識結果と第2の端末装置による入力音声の音声データに対する音声認識結果とは不一致となる。
第1の端末装置に入力された入力音声は、第1の端末装置による入力音声に対する音声認識結果でテキスト化される。第2の端末装置が第1の端末装置から受信する入力音声の音声データに基づく出力音声は、第2の端末装置による受信した入力音声の音声データ(出力音声)に対する音声認識結果でテキスト化される。従って、第1の端末装置による音声認識結果と第2の端末装置による音声認識結果との差異は、第1の端末装置で入力した入力音声が第2の端末装置で正確に出力された度合を示す値となる。例えば、第1の端末装置から第2の端末装置に至る通信経路が不安定であればあるほど、第1の端末装置による音声認識結果と第2の端末装置による音声認識結果との差異は大きくなる。
プロセッサ201は、入力音声に対する音声認識結果(第1の端末装置による音声認識結果)と他の端末装置20が受信した音声データに対する音声認識結果(第2の端末装置による音声認識結果)との差異に基づいて警告を発するか否かを判断する(ACT34)。例えば、プロセッサ201は、入力音声に対する音声認識結果と他の端末装置20が受信した音声データ(出力音声)に対する音声認識結果との差異が所定の閾値を超えるか否かを判断する。所定の閾値は、入力音声と出力音声とが同じ内容としてユーザが認識できる程度のレベルに設定する。
入力音声に対する音声認識結果と出力音声に対する音声認識結果との差異が所定の閾値を超える場合、プロセッサ201は、警告を発するものと判断する。入力音声に対する音声認識結果と出力音声に対する音声認識結果との差異が所定の閾値以下である場合、プロセッサ201は、警告を発する必要がないものと判断する。
なお、プロセッサ201は、第1の端末装置による音声認識結果と第2の端末装置による音声認識結果との差異を複数の閾値と比較するようにしても良い。例えば、複数の閾値としては、第1の閾値と第1の閾値よりも小さい第2の閾値とを設定しても良い。プロセッサ201は、第1の閾値を超える場合には第1の警告を発し、第1の閾値以下かつ第2の閾値を超える場合には第2の警告を発するようにしても良い。これにより、サーバ10は、第1の端末装置による音声認識結果と第2の端末装置による音声認識結果との差異に応じた警告を発することが可能となる。
また、プロセッサ201は、第1の端末装置による音声認識結果と第2の端末装置による音声認識結果との差異を時系列で保存するようにしても良い。この場合、プロセッサ201は、第1の端末装置による音声認識結果と第2の端末装置による音声認識結果との差異の時系列での変化に応じた警告を発するようにしても良い。例えば、プロセッサ201は、第1の端末装置による音声認識結果と第2の端末装置による音声認識結果との差異が大きくなる傾向である場合に警告を発するようにしても良い。
警告が必要であると判断した場合(ACT34、YES)、プロセッサ201は、当該入力音声を入力した端末装置(第1の端末装置)20に警告を通知する(ACT35)。プロセッサ201は、入力音声に対する音声認識を実行した端末装置20を第1の端末装置として特定する。例えば、プロセッサ201は、入力音声に対する音声認識結果の送信元となる端末装置20を第1の端末装置として特定する。入力音声を入力した端末装置(第1の端末装置)を特定すると、プロセッサ201は、入力音声の送信元である第1の端末装置へ他の端末装置で入力音声が正常に送られていない旨の警告を送信する。
また、プロセッサ201は、入力音声に対する音声認識結果との差異が閾値を超えた出力音声の音声認識結果の送信元である第2の端末装置を特定するようにしても良い。第2の端末装置を特定した場合、プロセッサ201は、特定した第2の端末装置へ入力音声が正常に送られていない旨の警告を入力音声の送信元である第1の端末装置に送信する。
なお、プロセッサ201は、当該入力音声を入力した端末装置(第1の端末装置)20を特定することなく、複数の端末装置又は予め設定した端末装置へ警告を通知するようにしても良い。例えば、プロセッサ201は、オンライン会議に参加している全ての端末装置(又は、音声認識結果を送信してきた全ての端末装置)20へ警告を通知するようにしても良い。また、プロセッサ201は、主催者が使用する端末装置などの予め設定した端末装置に対して警告を通知するようにしても良い。
サーバ10のプロセッサ201は、オンライン会議が継続している間(ACT36、NO)、上述したようなACT31-35の処理を繰り返し実行する。また、プロセッサ201は、話者へ警告の通知する処理を中止する旨の指示を受けた場合にACT31-35の処理を終了するようにしても良い。
なお、上述したサーバ10の処理は、何れかの端末装置20が実行するようにしても良い。すなわち、上述したサーバ10の処理を何れかの1つの端末装置20に実行させることにより、オンライン会議システム1を構成するようにしても良い。例えば、端末装置20は、上述したサーバ10の処理を実行するプログラムをインストールすることにより上述した処理を実行できる。これにより、サーバ10を設けることなく、複数の端末装置20からなるオンライン会議システムを構成することも可能である。
以上の処理によれば、実施形態に係るオンライン会議システムのサーバは、入力音声に対する音声認識結果を第1の端末装置から取得する。サーバは、第2の端末装置が第1の端末装置から受信した当該入力音声の音声データに対する音声認識結果を第2の端末装置から取得する。サーバは、第1の端末装置から取得する入力音声に対する音声認識結果と第2の端末装置から取得する当該入力音声の音声データに対する音声認識結果との差異を判定する。
これにより、実施形態に係るサーバは、第1の端末装置で入力した入力音声が第2の端末装置で正常に出力されているかを評価できる。この結果、第1の端末装置と第2の端末装置との間の通信状況を評価することもできる。
また、サーバは、入力音声に対する音声認識結果と第2の端末装置が受信した当該入力音声の音声データに対する音声認識結果との差異が閾値を超える場合、警告を発する。これにより、第1の端末装置で入力した入力音声が第2の端末装置で正常に出力されていないことを報知することができる。
さらに、サーバは、入力音声に対する音声認識結果と第2の端末装置が受信した当該入力音声の音声データに対する音声認識結果との差異が閾値を超える場合、第1の端末装置へ警告を発する。これにより、第1の端末装置で入力した入力音声が第2の端末装置で正常に出力されていないことを第1の端末装置の使用者である話者に報知することができる。この結果、話者は、自身の発言が聴講者の端末装置で正常に出力されていないことをオンライン会議中に認識することできる。
なお、上述した実施形態では、装置内のメモリにプロセッサが実行するプログラムが予め記憶されている場合で説明をした。しかし、プロセッサが実行するプログラムは、ネットワークから装置にダウンロードしても良いし、記憶媒体から装置にインストールしてもよい。記憶媒体としては、CD-ROM等のプログラムを記憶でき、かつ装置が読み取り可能な記憶媒体であれば良い。また、予めインストールやダウンロードにより得る機能は、装置内部のOS(オペレーティング・システム)等と協働して実現させるものであってもよい。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
10…サーバ、20(21、22、23)…端末装置、101…プロセッサ、103…補助記憶装置(メモリ)、104…通信インターフェース、201…プロセッサ、203…補助記憶装置(メモリ)、204…通信インターフェース、205…音声処理回路、206…マイク、207…スピーカ。

Claims (6)

  1. 入力された音声から生成する音声データを発信する第1の端末装置および前記第1の端末装置から受信する前記音声データに基づく音声を出力する第2の端末装置と通信する通信インターフェースと、
    前記第1の端末装置に入力された入力音声に対する前記第1の端末装置による音声認識結果と、前記第2の端末装置が前記第1の端末装置から受信した前記入力音声の音声データに対する前記第2の端末装置による音声認識結果と、を記憶するメモリと、
    前記第1の端末装置による音声認識結果と前記第2の端末装置による音声認識結果との比較に基づいて、前記第1の端末装置に入力された入力音声と前記第2の端末装置が前記第1の端末装置から受信した前記入力音声の音声データに基づいて出力する音声との差異を判定するプロセッサと、
    を有するサーバ。
  2. 前記プロセッサは、前記第1の端末装置による音声認識結果と前記第2の端末装置による音声認識結果との差異が閾値を超える場合、前記第1の端末装置に入力された入力音声と前記第2の端末装置が前記第1の端末装置から受信する前記入力音声の音声データに基づいて出力する音声とが一致しない旨の警告を出力する、
    請求項1に記載のサーバ。
  3. 前記プロセッサは、前記第1の端末装置による音声認識結果と前記第2の端末装置による音声認識結果との差異が閾値を超える場合、前記入力音声が前記第2の端末装置で正常に出力されていない旨の警告を前記第1の端末装置に送信する、
    請求項1に記載のサーバ。
  4. サーバおよび他の端末装置と通信する通信インターフェースと、
    マイクが集音した入力音声の音声データを他の端末装置へ送信するとともに前記入力音声に対する音声認識結果を前記サーバへ送信し、
    前記通信インターフェースを介して他の端末装置から受信した音声データに基づく音声をスピーカから出力するとともに前記音声データに対する音声認識結果を前記サーバへ送信し、
    前記サーバから入力音声と他の端末装置が受信した当該入力音声の音声データに基づいて出力される音声とが一致しない旨の通知を受けた場合に報知デバイスを用いて警告を報知させる、プロセッサと、
    を有する端末装置。
  5. 音声認識結果を記憶するメモリを有し、
    前記プロセッサは、前記入力音声に対する音声認識結果と前記音声データに対する音声認識結果とを前記メモリに記憶し、前記メモリに記憶した音声認識結果が既定値に達するごとに前記サーバへ送信する、
    請求項4に記載の端末装置。
  6. オンライン会議に参加する複数の端末装置と通信する通信インターフェースを有するサーバに、
    入力音声から生成する音声データを他の端末装置へ発信する第1の端末装置から通信インターフェースを介して受信する前記入力音声に対する前記第1の端末装置による音声認識結果をメモリに記憶することと、
    前記第1の端末装置から受信する前記音声データに基づく音声を出力する第2の端末装置から通信インターフェースを介して受信する前記入力音声の音声データに対する前記第2の端末装置による音声認識結果をメモリに記憶することと、
    前記第1の端末装置による音声認識結果と前記第2の端末装置による音声認識結果との比較に基づいて前記第1の端末装置に入力された入力音声と前記第2の端末装置が前記第1の端末装置から受信した前記入力音声の音声データに基づいて出力する音声との差異を判定することと、
    を実行させるオンライン会議用のプログラム。
JP2021005857A 2021-01-18 2021-01-18 サーバ、端末装置およびオンライン会議用のプログラム Pending JP2022110443A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2021005857A JP2022110443A (ja) 2021-01-18 2021-01-18 サーバ、端末装置およびオンライン会議用のプログラム
CN202111176635.3A CN114822526A (zh) 2021-01-18 2021-10-09 服务器、终端装置及存储介质
US17/511,389 US20220230656A1 (en) 2021-01-18 2021-10-26 Server, terminal device, and method for online conferencing

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021005857A JP2022110443A (ja) 2021-01-18 2021-01-18 サーバ、端末装置およびオンライン会議用のプログラム

Publications (1)

Publication Number Publication Date
JP2022110443A true JP2022110443A (ja) 2022-07-29

Family

ID=82405276

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021005857A Pending JP2022110443A (ja) 2021-01-18 2021-01-18 サーバ、端末装置およびオンライン会議用のプログラム

Country Status (3)

Country Link
US (1) US20220230656A1 (ja)
JP (1) JP2022110443A (ja)
CN (1) CN114822526A (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6324170B1 (en) * 1998-09-10 2001-11-27 Nortel Networks Limited Echo controller with compensation for variable delay networks
US11017778B1 (en) * 2018-12-04 2021-05-25 Sorenson Ip Holdings, Llc Switching between speech recognition systems
US11151981B2 (en) * 2019-10-10 2021-10-19 International Business Machines Corporation Audio quality of speech in sound systems

Also Published As

Publication number Publication date
CN114822526A (zh) 2022-07-29
US20220230656A1 (en) 2022-07-21

Similar Documents

Publication Publication Date Title
US8595015B2 (en) Audio communication assessment
US9571638B1 (en) Segment-based queueing for audio captioning
JP6402748B2 (ja) 音声対話装置および発話制御方法
US9560316B1 (en) Indicating sound quality during a conference
JP2010074494A (ja) 会議支援装置
US11076219B2 (en) Automated control of noise reduction or noise masking
US20190147851A1 (en) Information processing apparatus, information processing system, information processing method, and storage medium which stores information processing program therein
JP6420514B1 (ja) 会話ロボット
TWI638352B (zh) 可調整輸出聲音之電子裝置及調整輸出聲音之方法
US11164577B2 (en) Conversation aware meeting prompts
US20120053937A1 (en) Generalizing text content summary from speech content
US10504523B2 (en) Voice processing device, voice processing method, and computer program product
US11463501B2 (en) Method of determining the speech in a Web-RTC audio or video communication and/or collaboration session and communication system
JP2022110443A (ja) サーバ、端末装置およびオンライン会議用のプログラム
WO2022005701A1 (en) Audio anomaly detection in a speech signal
JP2010199741A (ja) 携帯電話端末装置
US10237413B2 (en) Methods for the encoding of participants in a conference
JP2016033530A (ja) 発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム
US11651779B2 (en) Voice processing system, voice processing method, and storage medium storing voice processing program
US8929535B1 (en) Aural volume feedback in call center
US11783837B2 (en) Transcription generation technique selection
US20140324418A1 (en) Voice input/output device, method and programme for preventing howling
JP6260138B2 (ja) コミュニケーション処理装置、コミュニケーション処理方法、及び、コミュニケーション処理プログラム
JP2018081147A (ja) コミュニケーション装置、サーバ、制御方法、および情報処理プログラム
US20230224345A1 (en) Electronic conferencing system

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20230104

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231114