JP7404568B1

JP7404568B1 - プログラム、情報処理装置、及び情報処理方法

Info

Publication number: JP7404568B1
Application number: JP2023005771A
Authority: JP
Inventors: 洋右西川; 浩太木村
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2023-01-18
Filing date: 2023-01-18
Publication date: 2023-12-25
Anticipated expiration: 2043-01-18

Abstract

【課題】ユーザの発言の一部が伝わらなくなることを抑制する。【解決手段】音声制御プログラムは、情報処理装置１を、情報処理装置１が有する集音部１４が集音した音を示す音データを取得する取得部１７１、取得部１７１が取得した音データを記憶部１６に記憶させる記憶制御部１７２、取得部１７１が取得した音データに基づいて、情報処理装置１のユーザの発言を検知する検知部１７３、及び、検知部１７３がユーザの発言を検知すると、検知部１７３がユーザの発言を検知したタイミングよりも所定時間前のタイミングに記憶部１６に記憶された音データと、当該音データよりも後に記憶部１６に記憶された音データとを、記憶部１６に記憶された時刻が古い順に出力する出力部１７４、として機能させる。【選択図】図２

Description

本発明は、プログラム、情報処理装置、及び情報処理方法に関する。

インターネット等の通信ネットワークを利用してオンラインで会議を行うためのシステムが知られている（例えば、特許文献１を参照）。

特開２０２２－０３９１２９号公報

オンライン会議のシステムでは、ユーザが利用する端末側において、ユーザが発言する場合に限定してユーザの音声を発信することができるように、端末が集音した音を示す音データをサーバに送信するか否かを切り替えることができる。しかしながら、ユーザが発言する際に、音データをサーバに送信することを忘れたり、音データをサーバに送信するように切り替えることを忘れたりして、ユーザの発言の一部が伝わらないという問題が生じていた。

そこで、本発明はこれらの点に鑑みてなされたものであり、ユーザの発言の一部が伝わらなくなることを抑制することを目的とする。

本発明の第１の態様に係るプログラムは、コンピュータを、前記コンピュータが有する集音部が集音した音を示す音データを取得する取得部、前記取得部が取得した前記音データを記憶部に記憶させる記憶制御部、前記取得部が取得した前記音データに基づいて、前記コンピュータのユーザの発言を検知する検知部、及び、前記検知部が前記ユーザの発言を検知すると、前記検知部が前記ユーザの発言を検知したタイミングよりも所定時間前のタイミングに前記記憶部に記憶された音データと、当該音データよりも後に前記記憶部に記憶された音データとを、前記記憶部に記憶された時刻が古い順に出力する出力部、として機能させる。

前記検知部は、前記ユーザの発言が途切れることを検知し、前記出力部は、前記ユーザの発言が途切れたことを検知したタイミングまでに前記記憶部に記憶された音データを出力してもよい。

前記出力部は、前記ユーザの発言が途切れたことを検知したタイミングに前記記憶部に記憶された音データを出力すると、前記取得部が取得した音データを直接出力してもよい。

前記出力部は、前記ユーザの発言が途切れたことを検知したタイミングに前記記憶部に記憶された音データを出力してから所定時間以内に前記検知部が前記ユーザの発言を検知しなくなると、前記取得部が取得した音データを出力しないように制御してもよい。

前記プログラムは、前記コンピュータにおいて仮想の集音部として機能し、前記出力部は、オンラインで会議を行うためのアプリケーションプログラムが実行されることにより機能する会議制御部に対する音データの入力元として前記仮想の集音装置が指定されている場合に、前記会議制御部に音データを出力してもよい。

前記プログラムは、前記コンピュータを、前記検知部が前記ユーザの発言を検知すると、前記会議制御部における音データの外部装置への出力状態を、前記外部装置に音データを送信しない状態から前記外部装置に音データを送信する状態に切り替える切替部、としてさらに機能させてもよい。

前記検知部は、前記ユーザの発言を検知した後に前記ユーザの発言が途切れたことを検知し、前記切替部は、前記ユーザの発言が途切れたことを検知したタイミングに前記記憶部に記憶された音データを前記出力部が出力してから所定時間以内に前記検知部が前記ユーザの発言を検知しなかった場合に、前記会議制御部における音データの前記外部装置への出力状態を、前記外部装置に音データを送信する状態から前記外部装置に音データを送信しない状態に切り替えてもよい。

前記切替部は、前記ユーザから前記会議制御部における音データの前記外部装置への出力状態を切り替えるか否かの選択を受け付け、前記出力状態を切り替える選択を受け付けていることに応じて、前記検知部による前記ユーザの発言の検出状況に基づいて、前記会議制御部における音データの前記外部装置への出力状態を切り替えてもよい。

前記切替部は、前記会議制御部により実現されるオンラインの会議において前記ユーザが前記会議の開催者であるか否かを示す情報を取得し、取得した情報が、前記ユーザが前記会議の開催者であることを示している場合に、前記検知部による前記ユーザの発言の検出状況に基づいて、前記会議制御部における音データの前記外部装置への出力状態を切り替えてもよい。

前記検知部は、前記音データが示す音の周波数、音量レベル、音の継続時間の少なくともいずれかに基づいて、前記ユーザの発言を検知してもよい。
前記取得部は、前記ユーザの音声を示すユーザ音声データを取得し、前記検知部は、前記ユーザ音声データに基づいて前記ユーザの音声の特徴を示すユーザ特徴データを生成し、前記取得部が取得した音データの特徴を示す特徴データと、前記ユーザ特徴データとの類似度に基づいて前記ユーザの発言を検知してもよい。

本発明の第２の態様に係る情報処理装置は、音データを出力する情報処理装置であって、集音部が集音した音を示す音データを取得する取得部と、前記取得部が取得した前記音データを記憶部に記憶させる記憶制御部と、前記取得部が取得した前記音データに基づいて、ユーザの発言を検知する検知部と、前記検知部が前記ユーザの発言を検知すると、前記検知部が前記ユーザの発言を検知したタイミングよりも所定時間前のタイミングに前記記憶部に記憶された音データと、当該音データよりも後に前記記憶部に記憶された音データとを、前記記憶部に記憶された時刻が古い順に出力する出力部と、を有する。

本発明の第３の態様に係る情報処理方法は、コンピュータが実行する、集音部が集音した音を示す音データを取得するステップと、取得した前記音データを記憶部に記憶させるステップと、取得した前記音データに基づいて、ユーザの発言を検知するステップと、前記ユーザの発言を検知すると、前記ユーザの発言を検知したタイミングよりも所定時間前のタイミングに前記記憶部に記憶された音データと、当該音データよりも後に前記記憶部に記憶された音データとを、前記記憶部に記憶された時刻が古い順に出力するステップと、を有する。

本発明によれば、ユーザの発言の一部が伝わらなくなることを抑制することができるという効果を奏する。

情報処理装置の概要を示す図である。情報処理装置の機能構成を示す図である。情報処理装置における処理の流れを示すフローチャートである。

［情報処理装置１の概要］
図１は、情報処理装置１の概要を示す図である。情報処理装置１は、ユーザが他のユーザとオンライン会議を行うために使用するパーソナルコンピュータ、タブレット端末、スマートフォン等のコンピュータである。情報処理装置１は、インターネットや携帯電話回線等の通信ネットワークを介してオンライン会議を制御するオンライン会議サーバ２に通信可能に接続されている。

情報処理装置１は、マイクロフォン等の集音部を有しており、情報処理装置１のユーザの音声等を集音し、音データを生成する。また、情報処理装置１には、オンライン会議を行うための会議アプリケーションプログラムがインストールされている。ユーザは、会議アプリケーションプログラムを実行することにより、オンライン会議サーバ２を介して他のユーザとのオンライン会議を行うことができる。なお、以下の説明において、情報処理装置１のユーザを単にユーザともいう。

情報処理装置１には、仮想の集音部として機能する音声制御プログラムがインストールされている。情報処理装置１は、会議アプリケーションプログラムと、音声制御プログラムとを実行している場合、集音部が生成した音データを、仮想の集音部を介してオンライン会議サーバ２に送信する。

具体的には、情報処理装置１は、音声制御プログラムを実行することにより仮想の集音部として機能し、集音部が生成した音データを自身に設けられている記憶部に記憶させるとともに、当該音データに基づいてユーザの発言を検知する。情報処理装置１は、ユーザの発言を検知すると、ユーザの発言を検知したタイミングよりも所定時間前のタイミングに記憶部に記憶された音データと、当該音データよりも後に記憶部に記憶された音データとを、記憶部に記憶された時刻が古い順に、オンライン会議サーバ２に送信する。これにより、情報処理装置１は、オンライン会議サーバ２に、ユーザが発言を開始した時点の音データから送信することができるので、ユーザの発言の一部が伝わらなくなることを抑制することができる。

［情報処理装置１の機能構成］
続いて、情報処理装置１の構成について説明する。図２は、情報処理装置１の機能構成を示す図である。情報処理装置１は、通信部１１と、操作部１２と、表示部１３と、集音部１４と、出音部１５と、記憶部１６と、制御部１７とを有する。

通信部１１は、インターネットや携帯電話回線等の通信ネットワークを介してオンライン会議サーバ２等の外部装置とデータを送受信するための通信インターフェースである。
操作部１２は、ユーザの操作を受け付ける操作デバイスである。例えば、情報処理装置１がパーソナルコンピュータである場合、操作部１２は、マウスやキーボードである。
表示部１３は、例えば液晶ディスプレイである。表示部１３は、制御部１７の制御に基づいて、オンライン会議サーバ２から受信した他のユーザの映像を表示する。

集音部１４は、情報処理装置１の周囲の音を集めることが可能なマイクロフォンである。集音部１４は、例えば、ユーザが発した音声を含む、情報処理装置１の周囲で発生した音を集音する。集音部１４は、集音した音を音データに変換し、制御部１７に出力する。
出音部１５は、制御部１７から入力された音信号に基づいて音を出力するスピーカである。

記憶部１６は、各種のデータを記憶する記憶媒体であり、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、及びハードディスク等を有する。記憶部１６は、制御部１７が実行するプログラムを記憶する。記憶部１６は、制御部１７を、取得部１７１、記憶制御部１７２、検知部１７３、出力部１７４、及び切替部１７５として機能させる音声制御プログラムを記憶する。また、記憶部１６は、制御部１７を、オンライン会議を実現させるための会議制御部１７６として機能させる会議アプリケーションプログラムを記憶する。

制御部１７は、例えばＣＰＵ（Central Processing Unit）である。制御部１７は、記憶部１６に記憶された音声制御プログラムを実行することにより、取得部１７１、記憶制御部１７２、検知部１７３、出力部１７４、及び切替部１７５として機能する。制御部１７は、記憶部１６に記憶された会議アプリケーションプログラムを実行することにより会議制御部１７６として機能する。

［初期設定］
オンライン会議を実現させる機能である会議制御部１７６に対して仮想の集音部が出力する音データを入力するために、情報処理装置１において設定を行う必要がある。まず、ユーザは操作部１２を操作することにより、音声制御プログラム及び会議アプリケーションプログラムを情報処理装置１に実行させる。音声制御プログラムが実行されると、会議制御部１７６が用いる情報処理装置１の集音部として、集音部１４と、音声制御プログラムにより実現される仮想の集音部が選択可能となる。

ユーザは、操作部１２を介して、会議制御部１７６において用いる集音部として、仮想の集音部を選択する。これにより、集音部１４が集音した音が、音声制御プログラムにより実現される仮想の集音部を介して会議制御部１７６に出力される。

［仮想の集音部の動作］
続いて、音声制御プログラムにより実現される仮想の集音部の具体的な処理について説明する。取得部１７１、記憶制御部１７２、検知部１７３、出力部１７４、及び切替部１７５は、協働することにより、仮想の集音部として機能する。

取得部１７１は、集音部１４が集音した音を示す音データを取得する。
記憶制御部１７２は、取得部１７１が取得した音データを記憶部１６に記憶させる。記憶制御部１７２は、例えば、記憶部１６に設けられている先入れ先出し方式の記憶領域である音声バッファ領域に取得部１７１が取得した音データを記憶させる。記憶制御部１７２は、音データを圧縮する圧縮処理を行い、圧縮された音データを音声バッファ領域に記憶させるようにしてもよい。音声バッファ領域は、現在時刻よりも所定時間（例えば、数百ミリ秒から１秒未満）前のタイミングから現在時刻までの音データが記憶される。記憶制御部１７２は、所定時間前のタイミングよりも前に取得された音データが音声バッファ領域に記憶されている場合、当該音データを削除する。

検知部１７３は、取得部１７１が取得した音データに基づいて、情報処理装置１のユーザの発言を検知する。検知部１７３は、音データが示す音の周波数、音量レベル、音の継続時間の少なくともいずれかに基づいて、ユーザの発言を検知する。例えば、検知部１７３は、取得部１７１が取得した音データが示す音に、人の声に対応する周波数帯の音が含まれているとともに、取得した音データが示す音のレベルが所定のレベルを超えると、ユーザが発言していることを検知する。このようにすることで、情報処理装置１は、ユーザの発言とは異なる雑音がユーザの発言として検知されてしまうことを抑制することができる。

また、検知部１７３は、取得部１７１が取得した音データに基づいて、ユーザの発言を検知した後にユーザの発言が途切れることを検知する。例えば、検知部１７３は、取得部１７１が取得した音データが示す音に、人の声に対応する周波数帯の音が含まれていない場合、又は、取得した音データが示す音のレベルが所定のレベルを超えていない場合に、ユーザの発言が途切れたことを検知する。

なお、検知部１７３は、予めユーザの音声の特徴を示すユーザ特徴データを生成し、当該特徴データと、取得部１７１が取得した音データが示す音の特徴を示す特徴データとに基づいてユーザの発言を検知してもよい。この場合、取得部１７１は、ユーザの音声を示すユーザ音声データを取得する。例えば、取得部１７１は、音データの取得を開始してから所定時間経過するまでの間にユーザの音声を特定するためのユーザのテスト音声を受け付けることにより、ユーザの音声を示すユーザ音声データを取得する。

検知部１７３は、取得部１７１が取得したユーザ音声データに基づいてユーザの音声の特徴を示すユーザ特徴データを生成し、記憶部１６に記憶させておく。そして、検知部１７３は、取得部１７１が取得した音データが示す音の特徴を示す特徴データと、記憶部１６に記憶されているユーザ特徴データとの類似度に基づいてユーザの発言を検知する。例えば、検知部１７３は、取得部１７１が取得した音データに対応する特徴データと、ユーザ特徴データとの類似度を算出し、算出した類似度が所定の閾値を超える場合にユーザの発言を検知する。このようにすることで、情報処理装置１は、ユーザの音声を精度良く検知することができる。

出力部１７４は、会議アプリケーションプログラムが実行することにより機能する会議制御部１７６に対する音データの入力元として仮想の集音部が指定されている場合に、会議制御部１７６に音データを出力する。

具体的には、出力部１７４は、検知部１７３がユーザの発言を検知すると、検知部１７３がユーザの発言を検知したタイミングよりも所定時間前のタイミングに記憶部１６に記憶された音データと、当該音データよりも後に記憶部１６に記憶された音データとを、記憶部１６に記憶された時刻が古い順に出力する。例えば、出力部１７４は、検知部１７３がユーザの発言を検知すると、記憶部１６に設けられている音声バッファ領域から、記憶された時刻が古い音データから順番に取得して会議制御部１７６に出力する。

そして、出力部１７４は、ユーザの発言が途切れたことを検知したタイミングまでに記憶部１６に記憶された音データを出力する。この場合、記憶制御部１７２は、ユーザの発言を検知した後にユーザの発言が途切れることを検知部１７３が検知したことに応じて、記憶部１６の音声バッファ領域に音データを記憶させることを停止する。これにより、音声バッファ領域には、ユーザの発言が途切れた後に取得部１７１が取得した音データが記憶されなくなる。出力部１７４は、ユーザの発言が途切れたことを検知したタイミングまでに音声バッファ領域に記憶された音データを出力する。

そして、出力部１７４は、ユーザの発言が途切れたことを検知したタイミングまでに記憶部１６の音声バッファ領域に記憶された音データを出力すると、取得部１７１が取得した音データを会議制御部１７６に直接出力する。この場合、出力部１７４は、音データを圧縮せずに、会議制御部１７６に出力するようにしてもよい。このようにすることで、情報処理装置１は、ユーザの発言が途切れたタイミングで、ユーザの音声をリアルタイムに会議制御部１７６に出力することができる。

また、出力部１７４は、ユーザの発言が途切れたことを検知部１７３が検知したタイミングに記憶部１６の音声バッファ領域に記憶された音データを出力してから所定時間以内に検知部１７３がユーザの発言を検知しなくなると、取得部１７１が取得した音データを会議制御部１７６に出力しないように制御する。このようにすることで、情報処理装置１は、ユーザの発言以外の雑音が他のユーザに聞こえてしまうことを抑制することができる。

切替部１７５は、会議制御部１７６を制御することにより、会議制御部１７６が音データをオンライン会議サーバ２に送信するか否かを切り替えることができる。この機能については後述する。

［会議制御部の動作］
続いて、会議制御部１７６の動作について説明する。会議制御部１７６は、通信部１１を介して、出力部１７４から出力された音データをオンライン会議サーバ２に送信する。オンライン会議サーバ２は、情報処理装置１から受信した音データをユーザと会議を行う他のユーザの端末（不図示）に送信する。

会議制御部１７６は、通信部１１を介して、オンライン会議サーバ２が他のユーザの端末から受信した音データを、オンライン会議サーバ２から受信する。会議制御部１７６は、受信した音データを出音部１５に入力し、当該音データが示す音を出音部１５に出力させる。これにより、ユーザの音データが示すユーザの音声が他のユーザの端末から出力されるとともに、他のユーザの音データが示す他のユーザの音声が情報処理装置１から出力され、ユーザと他のユーザとの間でオンライン会議を行うことができる。

なお、会議制御部１７６は、通信部１１を介して、情報処理装置１が備える撮像部（不図示）から出力された映像データをオンライン会議サーバ２に送信してもよい。オンライン会議サーバ２は、情報処理装置１から受信した映像データを他のユーザの端末に送信してもよい。また、会議制御部１７６は、オンライン会議サーバ２が他のユーザの端末から受信した映像データを、オンライン会議サーバ２から受信してもよい。そして、会議制御部１７６は、受信した映像データを表示部１３に表示させてもよい。このようにすることで、ユーザと他のユーザとの間で互いの映像を確認しながらオンライン会議を行うことができる。

また、会議制御部１７６は、操作部１２を介して、出力部１７４から出力された音データのオンライン会議サーバ２への出力状態である音声出力状態を切り替える操作を受け付ける。会議制御部１７６は、音声出力状態が、オンライン会議サーバ２に音データを送信する状態であるＯＮ状態において、オンライン会議サーバ２に音データを送信しない状態であるＯＦＦ状態にする切替操作を受け付けると、音声出力状態をＯＮ状態からＯＦＦ状態に切り替えることにより、オンライン会議サーバ２に音データを送信しないように制御する。会議制御部１７６は、音声出力状態がＯＦＦ状態である場合に、音声出力状態をＯＮ状態に切り替える切替操作を受け付けると、音声出力状態をＯＦＦ状態からＯＮ状態に切り替えることにより、オンライン会議サーバ２に音データを送信する。

［仮想の集音部による会議制御部の制御］
続いて、仮想の集音部の一部として機能する切替部１７５による会議制御部１７６の制御について説明する。

切替部１７５は、会議制御部１７６がオンライン会議サーバ２に音データを送信しない状態において検知部１７３がユーザの発言を検知すると、会議制御部１７６における音声出力状態を、オンライン会議サーバ２に音データを送信しない状態（ＯＦＦ状態）からオンライン会議サーバ２に音データを送信する状態（ＯＮ状態）に切り替える。具体的には、切替部１７５は、会議制御部１７６における音声出力状態がＯＦＦ状態である場合に、検知部１７３がユーザの発言を検知すると、会議制御部１７６における音声出力状態を、ＯＦＦ状態からＯＮ状態に切り替える。

また、切替部１７５は、会議制御部１７６における音声出力状態がＯＮ状態である場合に、検知部１７３がユーザの発言が途切れたことを検知すると、会議制御部１７６における音声出力状態を、ＯＮ状態からＯＦＦ状態に切り替える。

具体的には、切替部１７５は、検知部１７３がユーザの発言が途切れたことを検知したタイミングに記憶部１６の音声バッファ領域に記憶された音データを出力部１７４が出力してから所定時間以内に検知部１７３がユーザの発言を検知しなかった場合に、会議制御部１７６における音声出力状態を、ＯＮ状態からＯＦＦ状態に切り替える。

このようにすることで、情報処理装置１は、音声バッファ領域に記憶された所定時間分の音データが出力された後に、音声出力状態をＯＮ状態からＯＦＦ状態に切り替えることができる。これにより、情報処理装置１は、ユーザが発言していたときの音声がオンライン会議サーバ２に途中で送信されなくなることを抑制することができる。

なお、切替部１７５は、ユーザから操作部１２を介して会議制御部１７６における音声出力状態を自動的に切り替えるか否かの選択を受け付けてもよい。そして、切替部１７５は、当該音声出力状態を自動的に切り替える選択を受け付けていることに応じて、検知部１７３によるユーザの発言の検出状況に基づいて、会議制御部１７６における音声出力状態を切り替えてもよい。このようにすることで、情報処理装置１は、ユーザが会議制御部１７６における音声出力状態を自動的に切り替えることを選択した場合に、会議制御部１７６における音データのオンライン会議サーバ２への音声出力状態を切り替えることができる。

また、切替部１７５は、会議制御部１７６により実現されるオンラインの会議においてユーザが会議の開催者であるか否かを示す開催者特定用情報を取得してもよい。例えば、切替部１７５は、オンラインの会議におけるホストを示すホスト情報を開催者特定用情報として取得したり、オンラインの会議の画面を示す会議画面情報を開催者特定用情報として取得したりする。切替部１７５は、取得した開催者特定用情報に基づいて、ユーザが会議の開催者であるか否かを特定する。

そして、切替部１７５は、取得した開催者特定用情報が、ユーザが会議の開催者であることを示している場合に、検知部１７３によるユーザの発言の検出状況に基づいて、会議制御部１７６における音声出力状態を切り替える。この場合、切替部１７５は、会議制御部１７６が、ユーザから音声出力状態を切り替える選択を受け付けているか否かに関わらず、検知部１７３によるユーザの発言の検出状況に基づいて、会議制御部１７６における音声出力状態を切り替えてもよい。

ユーザが会議の開催者である場合、オンライン会議サーバ２への発言が多くなり、音声出力状態を頻繁に切り替える必要があるのに対し、ユーザが音声出力状態を切り替えることを忘れてしまうことがある。これに対し、情報処理装置１は、ユーザが会議の開催者である場合に、ユーザから音声出力状態を切り替える選択を受け付けているか否かに関わらず、音声出力状態を自動的に切り替えることができるので、ユーザの発言が他のユーザに伝わらなくなることを抑制することができる。

［動作フロー］
続いて、情報処理装置１における処理の流れについて説明する。図３は、情報処理装置１における処理の流れを示すフローチャートである。なお、本フローチャートに示す処理が行われる前に、会議制御部１７６において用いる集音部として、仮想の集音部が選択されているものとする。

まず、切替部１７５は、会議制御部１７６における音声出力状態をＯＦＦにし、会議制御部１７６が出力部１７４から取得する音データをオンライン会議サーバ２に送信しないように会議制御部１７６を制御する（Ｓ１）。
続いて、取得部１７１は、集音部１４が集音した音を示す音データを取得する（Ｓ２）。記憶制御部１７２は、Ｓ２において取得された音データを音声バッファ領域に記憶させる（Ｓ３）。

続いて、制御部１７は、検知部１７３がユーザの発言を検知したか否かを判定する（Ｓ４）。制御部１７は、検知部１７３がユーザの発言を検知したと判定すると（Ｓ４のＹＥＳ）、Ｓ５に処理を移し、検知部１７３がユーザの発言を検知していないと判定すると（Ｓ４のＮＯ）、Ｓ２に処理を移す。

Ｓ５において、切替部１７５は、会議制御部１７６における音声出力状態をＯＮにし、会議制御部１７６が出力部１７４から取得する音データをオンライン会議サーバ２に送信するように会議制御部１７６を制御する。

続いて、出力部１７４は、音声バッファ領域に記憶されている音データを会議制御部１７６に出力する（Ｓ６）。ここで、出力部１７４は、音声バッファ領域に記憶されている音データのうち、最も古い音データから順に会議制御部１７６に出力する。記憶制御部１７２は、会議制御部１７６に出力された音データを音声バッファ領域から消去する。

続いて、取得部１７１は、集音部１４が集音した音を示す音データを取得する（Ｓ７）。記憶制御部１７２は、Ｓ７において取得された音データを音声バッファ領域に記憶させる（Ｓ８）。

続いて、制御部１７は、検知部１７３がユーザの発言が途切れたことを検知したか否かを判定する（Ｓ９）。制御部１７は、検知部１７３がユーザの発言が途切れたことを検知したと判定すると（Ｓ９のＹＥＳ）、Ｓ１０に処理を移し、検知部１７３がユーザの発言が途切れたことを検知していないと判定すると（Ｓ９のＮＯ）、Ｓ６に処理を移す。

続いて、出力部１７４は、音声バッファ領域に音データが残存しているか否かを判定する（Ｓ１０）。出力部１７４は、音データが残存していると判定すると（Ｓ１０のＹＥＳ）、Ｓ１１に処理を移し、音声バッファ領域に残存している音データを会議制御部１７６に出力する。出力部１７４は、音データが残存していないと判定すると（Ｓ１０のＮＯ）、Ｓ１２に処理を移し、新たに取得部１７１が取得した音データを会議制御部１７６に直接出力する。

続いて、取得部１７１は、集音部１４が集音した音を示す音データを取得する（Ｓ１３）。続いて、制御部１７は、検知部１７３がユーザの発言を所定時間検出せず、ユーザが所定時間発言しなかったか否かを判定する（Ｓ１４）。制御部１７は、ユーザが所定時間発言しなかったと判定すると（Ｓ１４のＹＥＳ）、Ｓ１５に処理を移し、ユーザが所定時間内に発言したと判定すると（Ｓ１４のＮＯ）、Ｓ１０に処理を移す。

続いて、制御部１７は、会議制御部１７６によるオンラインの会議が終了したか否かを判定する（Ｓ１５）。例えば、制御部１７は、会議アプリケーションの実行が終了したか否かを判定することにより、オンラインの会議が終了したか否かを判定する。制御部１７は、オンラインの会議が終了したと判定すると（Ｓ１５のＹＥＳ）、本フローチャートに係る処理を終了し、オンラインの会議が終了していないと判定すると（Ｓ１５のＮＯ）、Ｓ１に処理を移す。

［変形例１］
なお、上述の実施の形態では、音声制御プログラムと、会議アプリケーションプログラムとが異なるものであることとしたが、これに限らない。会議アプリケーションプログラムが、取得部１７１、記憶制御部１７２、検知部１７３、出力部１７４、及び切替部１７５として機能してもよい。これにより、ユーザの発言を検知した場合に限定して、音声をオンライン会議サーバ２に送信する会議アプリケーションプログラムを実現することができる。

［変形例２］
また、上述の実施形態において、出力部１７４は、ユーザの発言が途切れたことを検知したタイミングまでに記憶部１６に記憶された音データを、記憶部１６から取得して会議制御部１７６に出力したが、これに限らない。出力部１７４は、ユーザの発言を検知したことに応じて、記憶部１６の音声バッファ領域に記憶されている音データを、音声バッファ領域に残存する音データがなくなるまで、取得部１７１が音データを取得する間隔よりも早い間隔、すなわち、ユーザの発言が実際の発言速度に比べて早口になるように会議制御部１７６に出力してもよい。これにより、情報処理装置１は、ユーザの発言を検知したタイミングよりも前に音声バッファ領域に記憶された音データを早期に出力し、音声バッファ領域から音データを出力することによるユーザの発言の遅れを早期に解消させることができる。

［情報処理装置１による効果］
以上説明したように、本実施の形態に係る情報処理装置１は、集音部１４が集音した音を示す音データを取得し、取得した音データを記憶部１６に記憶させ、取得した音データに基づいて、ユーザの発言を検知すると、ユーザの発言を検知したタイミングよりも所定時間前のタイミングに記憶部１６に記憶された音データと、当該音データよりも後に記憶部１６に記憶された音データとを、記憶部１６に記憶された時刻が古い順に出力する。このようにすることで、情報処理装置１は、ユーザの発言の一部が伝わらなくなることを抑制することができる。

なお、本発明により、国連が主導する持続可能な開発目標（ＳＤＧｓ）の目標９「産業と技術革新の基盤をつくろう」に貢献することが可能となる。

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の全部又は一部は、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を併せ持つ。

１情報処理装置
２オンライン会議サーバ
１１通信部
１２操作部
１３表示部
１４集音部
１５出音部
１６記憶部
１７制御部
１７１取得部
１７２記憶制御部
１７３検知部
１７４出力部
１７５切替部
１７６会議制御部

Claims

コンピュータにおいて仮想の集音部として機能し、
前記コンピュータを、
前記コンピュータが有する集音部が集音した音を示す音データを取得する取得部、
前記取得部が取得した前記音データを記憶部に記憶させる記憶制御部、
前記取得部が取得した前記音データに基づいて、前記コンピュータのユーザの発言を検知する検知部、
オンラインで会議を行うためのアプリケーションプログラムが実行されることにより機能する会議制御部に対する音データの入力元として前記仮想の集音部が指定されている場合に、前記会議制御部に音データを出力する出力部であって、前記検知部が前記ユーザの発言を検知すると、前記検知部が前記ユーザの発言を検知したタイミングよりも所定時間前のタイミングに前記記憶部に記憶された音データと、当該音データよりも後に前記記憶部に記憶された音データとを、前記記憶部に記憶された時刻が古い順に出力する出力部、及び、
前記検知部が前記ユーザの発言を検知すると、前記会議制御部における音データの外部装置への出力状態を、前記外部装置に音データを送信しない状態から前記外部装置に音データを送信する状態に切り替える切替部であって、前記会議制御部により実現されるオンラインの会議において前記ユーザが前記会議の開催者であるか否かを示す情報を取得し、前記ユーザから前記会議制御部における音データの前記外部装置への出力状態を切り替えるか否かの選択を受け付け、取得した前記ユーザが前記会議の開催者であるか否かを示す情報が、前記ユーザが前記会議の開催者であることを示していない場合には、前記出力状態を切り替える選択を受け付けていることに応じて、前記検知部による前記ユーザの発言の検出状況に基づいて、前記会議制御部における音データの前記外部装置への出力状態を切り替え、取得した前記ユーザが前記会議の開催者であるか否かを示す情報が、前記ユーザが前記会議の開催者であることを示している場合には、前記出力状態を切り替える前記選択の状況に関わらず、前記検知部による前記ユーザの発言の検出状況に基づいて、前記会議制御部における音データの前記外部装置への出力状態を切り替える切替部、
として機能させ、
前記記憶制御部は、前記検知部がユーザの発言を検知する前から、前記取得部が取得した前記音データを前記記憶部に記憶させる、
プログラム。
前記検知部は、前記ユーザの発言が途切れることを検知し、
前記出力部は、前記ユーザの発言が途切れたことを検知したタイミングまでに前記記憶部に記憶された音データを出力する、
請求項１に記載のプログラム。
前記出力部は、前記ユーザの発言が途切れたことを検知したタイミングに前記記憶部に記憶された音データを出力し、前記記憶部に記憶された音データを全て出力し終えたタイミングから、前記取得部が取得した音データを直接出力する、
請求項２に記載のプログラム。
前記出力部は、前記ユーザの発言が途切れたことを検知したタイミングに前記記憶部に記憶された音データを出力してから所定時間以内に前記検知部が前記ユーザの発言を検知しなくなると、前記取得部が取得した音データを出力しないように制御する、
請求項３に記載のプログラム。
前記検知部は、前記ユーザの発言を検知した後に前記ユーザの発言が途切れたことを検知し、
前記切替部は、前記ユーザの発言が途切れたことを検知したタイミングに前記記憶部に記憶された音データを前記出力部が出力してから所定時間以内に前記検知部が前記ユーザの発言を検知しなかった場合に、前記会議制御部における音データの前記外部装置への出力状態を、前記外部装置に音データを送信する状態から前記外部装置に音データを送信しない状態に切り替える、
請求項１に記載のプログラム。
前記検知部は、前記音データが示す音の周波数、音量レベル、音の継続時間の少なくともいずれかに基づいて、前記ユーザの発言を検知する、
請求項１に記載のプログラム。
前記取得部は、前記ユーザの音声を示すユーザ音声データを取得し、
前記検知部は、前記ユーザ音声データに基づいて前記ユーザの音声の特徴を示すユーザ特徴データを生成し、前記取得部が取得した音データの特徴を示す特徴データと、前記ユーザ特徴データとの類似度に基づいて前記ユーザの発言を検知する、
請求項１に記載のプログラム。
仮想の集音部として機能し、音データを出力する情報処理装置であって、
集音部が集音した音を示す音データを取得する取得部と、
前記取得部が取得した前記音データを記憶部に記憶させる記憶制御部と、
前記取得部が取得した前記音データに基づいて、ユーザの発言を検知する検知部と、
オンラインで会議を行うためのアプリケーションプログラムが実行されることにより機能する会議制御部に対する音データの入力元として前記仮想の集音部が指定されている場合に、前記会議制御部に音データを出力する出力部であって、前記検知部が前記ユーザの発言を検知すると、前記検知部が前記ユーザの発言を検知したタイミングよりも所定時間前のタイミングに前記記憶部に記憶された音データと、当該音データよりも後に前記記憶部に記憶された音データとを、前記記憶部に記憶された時刻が古い順に出力する出力部と、
前記検知部が前記ユーザの発言を検知すると、前記会議制御部における音データの外部装置への出力状態を、前記外部装置に音データを送信しない状態から前記外部装置に音データを送信する状態に切り替える切替部であって、前記会議制御部により実現されるオンラインの会議において前記ユーザが前記会議の開催者であるか否かを示す情報を取得し、前記ユーザから前記会議制御部における音データの前記外部装置への出力状態を切り替えるか否かの選択を受け付け、取得した前記ユーザが前記会議の開催者であるか否かを示す情報が、前記ユーザが前記会議の開催者であることを示していない場合には、前記出力状態を切り替える選択を受け付けていることに応じて、前記検知部による前記ユーザの発言の検出状況に基づいて、前記会議制御部における音データの前記外部装置への出力状態を切り替え、取得した前記ユーザが前記会議の開催者であるか否かを示す情報が、前記ユーザが前記会議の開催者であることを示している場合には、前記出力状態を切り替える前記選択の状況に関わらず、前記検知部による前記ユーザの発言の検出状況に基づいて、前記会議制御部における音データの前記外部装置への出力状態を切り替える切替部と、
を有し、
前記記憶制御部は、前記検知部がユーザの発言を検知する前から、前記取得部が取得した前記音データを前記記憶部に記憶させる、
情報処理装置。
仮想の集音部として機能するコンピュータが実行する、
集音部が集音した音を示す音データを取得するステップと、
取得した前記音データを記憶部に記憶させるステップと、
取得した前記音データに基づいて、ユーザの発言を検知するステップと、
オンラインで会議を行うためのアプリケーションプログラムが実行されることにより機能する会議制御部に対する音データの入力元として前記仮想の集音部が指定されている場合に、前記会議制御部に音データを出力するステップであって、前記ユーザの発言を検知すると、前記ユーザの発言を検知したタイミングよりも所定時間前のタイミングに前記記憶部に記憶された音データと、当該音データよりも後に前記記憶部に記憶された音データとを、前記記憶部に記憶された時刻が古い順に出力するステップと、
前記ユーザの発言を検知すると、前記会議制御部における音データの外部装置への出力状態を、前記外部装置に音データを送信しない状態から前記外部装置に音データを送信する状態に切り替えるステップであって、前記会議制御部により実現されるオンラインの会議において前記ユーザが前記会議の開催者であるか否かを示す情報を取得し、前記ユーザから前記会議制御部における音データの前記外部装置への出力状態を切り替えるか否かの選択を受け付け、取得した前記ユーザが前記会議の開催者であるか否かを示す情報が、前記ユーザが前記会議の開催者であることを示していない場合には、前記出力状態を切り替える選択を受け付けていることに応じて、前記検知するステップにおける前記ユーザの発言の検出状況に基づいて、前記会議制御部における音データの前記外部装置への出力状態を切り替え、取得した前記ユーザが前記会議の開催者であるか否かを示す情報が、前記ユーザが前記会議の開催者であることを示している場合には、前記出力状態を切り替える前記選択の状況に関わらず、前記検知するステップにおける前記ユーザの発言の検出状況に基づいて、前記会議制御部における音データの前記外部装置への出力状態を切り替えるステップと、
を有し、
前記記憶部に記憶させるステップにおいて、前記コンピュータは、前記ユーザの発言を検知する前から、取得した前記音データを前記記憶部に記憶させる、
情報処理方法。