JP6427884B2

JP6427884B2 - 情報処理装置、プログラム、および情報処理システム

Info

Publication number: JP6427884B2
Application number: JP2014012975A
Authority: JP
Inventors: 智幸後藤
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2014-01-28
Filing date: 2014-01-28
Publication date: 2018-11-28
Anticipated expiration: 2034-01-28
Also published as: JP2015142194A

Description

本発明は、情報処理装置、プログラム、および情報処理システムに関する。

従来、ビデオ会議システムなど音声処理を行う情報処理装置において、通話品質向上のためにエコーキャンセラ（ＥｃｈｏＣａｎｃｅｌｌｅｒ）を用いる方法が知られている。

不自然なエコーキャンセル処理をなくすために、複数のマイクロフォンを切換する場合、エコーキャンセルを停止させる方法が知られている（例えば、特許文献１）。

スピーカ、またはマイクをミュート（Ｍｕｔｅ）させた場合、適応フィルタからの残留信号の出力を停止させる方法が知られている（例えば、特許文献２）。

しかしながら、上記の方法では、マイクをミュートした場合、またはノイズが入力された場合など情報処理装置に入力される音量が急激に変化した場合、十分にエコーキャンセル処理が行われず、エコーによる音声情報を出力してしまう場合があった。

本発明の１つの側面は、音声処理を行う情報処理装置において情報処理装置に入力される音量が急激に変化した場合、エコー、またはユーザの周囲の音による音声の出力を減少させることができる情報処理装置を提供することを目的とする。

一態様における、少なくとも音声の処理を行う情報処理装置であって、前記音声を入力するための処理を行う入力処理手段と、前記入力処理手段への入力音量を制御する入力制御手段と、少なくとも前記入力処理手段によって入力された前記音声に含まれるエコー、またはユーザの周囲の音に係る音声を減少させる処理を行う音声処理手段と、前記入力処理手段に入力された音声の音量、または前記入力制御手段による制御に基づいて入力状態を判定する判定手段と、を有し、前記判定手段によって入力状態に変化があったと判定された際、前記入力処理手段による処理の開始を所定の時間遅らせることを特徴とする。

音声処理を行う情報処理装置において情報処理装置に入力される音量が急激に変化した場合、エコー、またはユーザの周囲の音による音声の出力を減少させることができる。

本発明の一実施形態に係るビデオ会議システムの構成の一例を示すシステム図である。本発明の一実施形態に係る話し手側の情報処理装置の構成の一例を示す機能ブロック図である。本発明の一実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。本発明の一実施形態に係る第１実施形態のビデオ会議システムによる全体処理の一例を示すフローチャートである。本発明の一実施形態に係る第１実施形態の音声処理の一例を示すフローチャートである。本発明の一実施形態に係る第１実施形態の処理の一例を説明するタイミングチャートである。本発明の一実施形態に係る第２実施形態の音声処理の一例を示すフローチャートである。本発明の一実施形態に係る第２実施形態の処理の一例を説明するタイミングチャートである。本発明の一実施形態に係る第３実施形態の処理の一例を説明するタイミングチャートである。

以下、本発明の実施の形態について説明する。

ビデオ会議システムは、ネットワーク、または電話回線などの電気通信回線を介して複数の情報処理装置をつなぎ、音声、または画像などの通話情報を送受信して通話を行うための情報処理システムである。

＜第１実施形態＞
図１は、本発明の一実施形態に係るビデオ会議システムの構成の一例を示すシステム図である。

本発明の一実施形態に係る情報処理システムは、例えば図１に示すビデオ会議システム１である。以下、ビデオ会議システム１を例に説明する。

ビデオ会議システム１は、後述する話し手側の情報処理装置１００と、後述する聞き手側の情報処理装置１０１と、を有する。話し手側の情報処理装置１００、および聞き手側の情報処理装置１０１は、ネットワーク２００によって接続されている。

ネットワーク２００は、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、またはインターネットなどの有線または無線の通信用ネットワークである。

話し手側の情報処理装置１００は、音声を入力し、入力された音声に基づいて音声データを生成し、音声データを聞き手側の情報処理装置１０１に送信する。聞き手側の情報処理装置１０１は、送信された音声データに基づいて音声を出力する。

話し手側の情報処理装置１００と、聞き手側の情報処理装置１０１と、の音声の入出力は一方的でなく、入力と出力は、相互に入れ替わり、または双方向に行われる。以下、話し手側の情報処理装置１００で音声が入力され、聞き手側の情報処理装置１０１で音声の出力が行われる場合を例に説明する。

図２は、本発明の一実施形態に係る情報処理装置の構成の一例を示す機能ブロック図である。

情報処理装置は、例えば、話し手側の情報処理装置１００と、聞き手側の情報処理装置１０１と、である。以下、聞き手側の情報処理装置１０１は話し手側の情報処理装置１００と同様の構成であるため、話し手側の情報処理装置１００を例に説明する。

話し手側の情報処理装置１００は、入力処理部１００Ｆ１と、制御部１００Ｆ２と、音声処理部１００Ｆ３と、判定処理部１００Ｆ４と、記憶部１００Ｆ５と、出力処理部１００Ｆ６と、を有する。

入力処理部１００Ｆ１は、話し手側の情報処理装置１００に音声を入力するための処理を行う。例えば音声を入力するための処理は、入力処理部１００Ｆ１が後述するマイク１００Ｈ５１によって話し手のユーザが話す声の音声、および話し手のユーザの周辺の音声を取得し、音声データに変換するなどである。また、音声を入力するための処理は、入力処理部１００Ｆ１がネットワーク２００を介して聞き手側の情報処理装置１０１など他の情報処理装置から音声データを受信するなどである。

なお、入力処理部１００Ｆ１は、入力された音声に基づいて生成された音声データを後段の処理で読み込み可能な形式、または高速に処理できる形式にデータを変換する処理などを行ってもよい。また、入力処理部１００Ｆ１は、生成された音声データから入力用の通信に用いたヘッダデータなど後段の処理には不要な情報を削除し、データ量を少なくするための処理を行ってもよい。

制御部１００Ｆ２は、後述するＣＰＵ１００Ｈ３などによって、話し手側の情報処理装置１００の有する各装置、または話し手側の情報処理装置１００に接続された外部装置（図示せず）などの制御を行う。制御部１００Ｆ２は、入力制御部１００Ｆ２１を有する。入力制御部１００Ｆ２１は、後述する操作スイッチ１００Ｈ５３から話し手のユーザによる音声の入出力に係る装置の操作、例えば後述するマイク１００Ｈ５１のミュート操作、または音量調整などに基づいて入力処理部１００Ｆ１を制御する。

音声処理部１００Ｆ３は、後述するＣＰＵ１００Ｈ３などによって、プログラムを実行し、後述する音声処理を行う。なお、音声処理部１００Ｆ３による処理は、処理の一部または全部を外部装置に処理させてもよい。

判定処理部１００Ｆ４は、後述するＣＰＵ１００Ｈ３などによって、プログラムを実行し、後述する判定処理を行うための処理を行う。判定処理部１００Ｆ４は、入力処理部１００Ｆ１から音声データを取得し後述する判定処理を行う。また、判定処理部１００Ｆ４は、入力制御部１００Ｆ２１に入力された入出力に係る装置の操作に基づいて後述する判定処理を行う。判定処理による判定に基づいて制御部１００Ｆ２は、後述する判定に基づく制御を行う。

なお、判定処理部１００Ｆ４による処理は、処理の一部または全部を外部装置に処理させてもよい。

記憶部１００Ｆ５は、後述するＣＰＵ１００Ｈ３のレジスタ、後述する補助記憶装置１００Ｈ１、または記憶装置１００Ｈ２などに、各データ、パラメータ、各処理の中間処理結果のデータなど情報を記憶させる。例えば記憶部１００Ｆ５は、音声処理部１００Ｆ３が音声処理を行うのに用いるパラメータなど設定情報、入力処理部１００Ｆ１から生成、または受信した音声データなどの情報を記憶する。なお、記憶部１００Ｆ５は、記憶する情報の一部または全部を外部装置に記憶させてもよい。

出力処理部１００Ｆ６は、話し手側の情報処理装置１００から音声データを出力するための処理を行う。例えば出力処理部１００Ｆ６は、後述するネットワークＩ／Ｆ１００Ｈ７によって、ネットワーク２００を介して音声処理部１００Ｆ３が処理した音声データを聞き手側の情報処理装置１０１へ送信するための処理を行う。

また、出力処理部１００Ｆ６は、入力処理部１００Ｆ１が受信した音声データをスピーカ１００Ｈ５２に出力させるための処理を行う。

なお、出力処理部１００Ｆ６は、話し手側の情報処理装置１００に接続されたディスプレイ１００Ｈ６１に聞き手側の情報処理装置１０１から送信された画像などを出力する処理を行ってもよい。なお、出力処理部１００Ｆ６は、出力する処理の前処理として、出力先が読み取り可能な形式にデータを変換する処理、またはネットワークを介して送信するためにヘッダデータなどを付加する処理などを行ってもよい。また、出力処理部１００Ｆ６が送信する音声データは、静止画または動画などの画像データがあってもよい。

＜ハードウェア構成＞
図３は、本発明の一実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。

話し手側の情報処理装置１００、および聞き手側の情報処理装置１０１は、例えば図４に示したハードウェアの構成である。以下、聞き手側の情報処理装置１０１は話し手側の情報処理装置１００と同様の構成であるため、話し手側の情報処理装置１００を例にして説明する。

話し手側の情報処理装置１００は、補助記憶装置１００Ｈ１と、記憶装置１００Ｈ２と、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１００Ｈ３と、コネクタ１００Ｈ４と、音声入出力Ｉ／Ｆ１００Ｈ５と、出力Ｉ／Ｆ１００Ｈ６と、を有する。

また、話し手側の情報処理装置１００は、ネットワークＩ／Ｆ１００Ｈ７を有し、ネットワーク２００に接続している。

話し手側の情報処理装置１００の各構成要素は、バス（Ｂｕｓ）１００Ｈ８により接続されている。なお、バス１００Ｈ８への接続は、ブリッジ回路を介して接続した構成でもよい。また、話し手側の情報処理装置１００の構成は、図４に示した構成に限られない。例えば、話し手側の情報処理装置１００は、複数のバスを有し、ＣＰＵ１００Ｈ３など高速な伝送によって処理を行う構成要素と、入力装置との接続など低速な伝送によって処理を行う構成要素と、が異なるバスに接続されている構成でもよい。

補助記憶装置１００Ｈ１は、ＣＰＵ１００Ｈ３、および制御装置などの制御によって、ＣＰＵ１００Ｈ３が行う処理の中間結果を含む各種データ、パラメータ、またはプログラムなどの情報を記憶する。補助記憶装置１００Ｈ１は、例えば、ハードディスク、フラッシュＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）などである。

記憶装置１００Ｈ２は、ＣＰＵ１００Ｈ３が実行するプログラムが使用する記憶領域、いわゆるメモリ（Ｍｅｍｏｒｙ）などの主記憶装置である。記憶装置１００Ｈ２は、データ、プログラム、またはパラメータなどの情報を記憶する。

ＣＰＵ１００Ｈ３は、情報処理装置１００が行う各処理のための演算、制御を行う。入力された音声、または音声データを入力、音声処理、または出力するための各種処理を行う。ＣＰＵ１００Ｈ３は、音声処理、判定のための各種処理を行う。ＣＰＵ１００Ｈ３は、話し手側の情報処理装置１００の有する各種装置の制御、および話し手側の情報処理装置１００に接続されている装置の制御を行う。

なお、ＣＰＵ１００Ｈ３は、並列処理によって高速化を行うために、複数のＣＰＵ、または複数のコア（ｃｏｒｅ）から構成されていてもよい。また、ＣＰＵ１００Ｈ３による処理は、話し手側の情報処理装置１００の内部、または外部に別のハードウェアリソースを有してもよい。ＣＰＵ１００Ｈ３による処理は、別のハードウェアリソースによって、ＣＰＵ１００Ｈ３の行う処理の一部または全部が行われてもよい。

なお、ＣＰＵ１００Ｈ３は、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）によって実現してもよい。さらに、ＣＰＵ１００Ｈ３は、ＡＳＩＣに代えて、ＦＰＧＡ（Ｆｉｅｌｄ−ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）などによって実現してもよい。また、ＣＰＵ１００Ｈ３は、ＡＳＩＣに代えて、ＣＰＬＤ（ＣｏｍｐｌｅｘＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）などによって実現してもよい。

コネクタ１００Ｈ４は、外部装置と接続し、外部装置と入出力を行うためのバス、いわゆる外部バスである。コネクタ１００Ｈ４は、たとえばＵＳＢ（ＵｎｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）などである。コネクタ１００Ｈ４は、接続された装置からデータなどを受信する処理を行う回路、ドライバなどを有してもよい。コネクタ１００Ｈ４は、ＩＥＥＥ（ＴｈｅＩｎｓｔｉｔｕｔｅｏｆＥｌｅｃｔｒｉｃａｌａｎｄＥｌｅｃｔｒｏｎｉｃｓＥｎｇｉｎｅｅｒｓ，Ｉｎｃ．）１３９４、またはＴｈｕｎｄｅｒｂｏｌｔ（登録商標）などでもよい。コネクタ１００Ｈ４には、カメラ１００Ｈ４１が接続され、音声と同時に画像を取得できる。

音声入出力Ｉ／Ｆ１００Ｈ５は、話し手側の情報処理装置１００に音声入力装置、または音声出力装置を接続するためのインタフェース（Ｉｎｔｅｒｆａｃｅ）である。音声入力装置は、例えばマイク１００Ｈ５１である。マイク１００Ｈ５１は、話し手側の情報処理装置１００のユーザが話す音声などを入力するために用いられる。音声出力装置は、例えばスピーカ１００Ｈ５２である。スピーカ１００Ｈ５２は、音声データに基づいてユーザへ音声を出力するために用いられる。また、音声入出力Ｉ／Ｆ１００Ｈ５には、操作スイッチ１００Ｈ５３が接続され、操作スイッチ１００Ｈ５３によってユーザは、マイク１００Ｈ５１、およびスピーカ１００Ｈ５２の各種操作を行う。操作は、例えば音声入力装置、または音声出力装置への音声の入出力を無音にする、いわゆるミュート（Ｍｕｔｅ）操作、入出力の音声量を調整するなどである。なお、音声入出力Ｉ／Ｆ１００Ｈ５に接続されている装置は、音声入力、音声出力、音声調整の機能ごとに専用の装置を接続する構成でなくともよい。例えばマイク１００Ｈ５１と、操作スイッチ１００Ｈ５３と、は一体となっている装置が接続されている構成でもよい。

出力Ｉ／Ｆ１００Ｈ６は、話し手側の情報処理装置１００に画像を出力する画像出力装置を接続するためのインタフェースである。画像出力装置は、例えばディスプレイ１００Ｈ６１である。ディスプレイ１００Ｈ６１は、話し手側の情報処理装置１００から画像データを受け取り、話し手側の情報処理装置１００のユーザへ画像を表示するために用いられる。出力Ｉ／Ｆ１００Ｈ６は、処理結果などを表示する出力装置であるディスプレイ１００Ｈ６１、ディスプレイ１００Ｈ６１に出力する画像信号を制御する処理回路（図示せず）、ドライバ、およびケーブルなどを有してもよい。なお、出力装置は、ディスプレイ１００Ｈ６１に代えてプロジェクタなどの投影装置でもよい。

また、ディスプレイ１００Ｈ６１は、音声入出力の機能を有してもよい。

ネットワークＩ／Ｆ１００Ｈ７は、話し手側の情報処理装置１００を有線または無線でＬＡＮなどのネットワークに接続するためのインタフェースである。ネットワークＩ／Ｆ１００Ｈ７は、ＩＥＥＥなどの規格に準じたコネクタ形状、および接続ピンなどの物理的な接続端子と、を有する。また、ネットワークＩ／Ｆ１００Ｈ７は、話し手側の情報処理装置１００と、回線を物理的に接続させるケーブルと、接続端子を介して入力された信号を処理する処理回路、ドライバと、を有する。なお、話し手側の情報処理装置１００は、ＬＡＮを介して他のネットワーク、またはインターネットに接続していてもよい。

バス１００Ｈ８は、話し手側の情報処理装置１００の各構成要素間の通信に用いられる。バス１００Ｈ８は、いわゆる内部バスである。バス１００Ｈ８は、たとえばＰＣＩＥｘｐｒｅｓｓ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔＢｕｓＥｘｐｒｅｓｓ）である。バス１００Ｈ８は、ＰＣＩ、またはＩＳＡ（ＩｎｄｕｓｔｒｙＳｔａｎｄａｒｄＡｒｃｈｉｔｅｃｔｕｒｅ）などでもよい。

なお、説明したハードウェア構成は一例であり、話し手側の情報処理装置１００は、説明した構成要素をすべて有していなくてもよい。また、話し手側の情報処理装置１００は、説明した構成要素以外の要素が追加、または説明した構成要素を冗長して有してもよい。

＜全体処理＞
図４は、本発明の一実施形態に係る第１実施形態のビデオ会議システムによる全体処理の一例を示すフローチャートである。

エコー、またはユーザの周囲の音に係る音声など（以下、不快な音声情報という。）による出力を減少させる音声処理は、例えば会話におけるエコーを消すエコーキャンセル処理がある。以下、エコーキャンセル処理を行う場合を例に説明する。

なお、不快な音声情報による出力を減少させる音声処理は、ユーザが話す声以外の周辺の騒音いわゆる環境音、またはノイズなどを減少させる、いわゆるノイズキャンセル処理などでもよい。不快な音声情報による出力を減少させる音声処理は、音声入出力の音量を調整する、いわゆるオートゲインコントロール処理などでもよい。不快な音声情報による出力を減少させる音声処理は、複数の種類の処理が行われてもよい。

ステップＳ０４０１では、話し手側の情報処理装置１００は、入力処理を行う。具体的には、話し手側の情報処理装置１００は、話し手のユーザの会話など音声を図２の入力処理部１００Ｆ１によって入力するための処理を行う。入力された音声は、図２の入力処理部１００Ｆ１によって音声データに変換される。

また、ステップＳ０４０１では、話し手のユーザによるミュート操作、または音量調整など入力状態を変化させる操作が行われ、図２の入力制御部１００Ｆ２１に操作に係る情報された場合、話し手側の情報処理装置１００は、操作に基づいた制御を行う。例えば、話し手のユーザが操作スイッチ１００Ｈ５３によってミュート操作を行った場合、話し手側の情報処理装置１００は、図２の制御部１００Ｆ２によってマイク１００Ｈ５１からの入力を無音とする処理に切り替えるための制御を行う。

ステップＳ０４０２では、話し手側の情報処理装置１００は、音声処理を行う。具体的には、例えば話し手側の情報処理装置１００は、ステップＳ０４０１で入力された音声データからエコーキャンセルなどを行うための処理を行う。音声処理の詳細は、後述する。

ステップＳ０４０３では、話し手側の情報処理装置１００は、ステップＳ０４０２で音声処理が行われた音声データを聞き手側の情報処理装置１０１に送信するための処理を行う。

ステップＳ０４０４では、聞き手側の情報処理装置１０１は、ステップＳ０４０３で話し手側の情報処理装置１００から送信された音声データに基づいて図２のスピーカ１００Ｈ５２から音声を出力する。

なお、ステップＳ０４０４で聞き手側の情報処理装置１０１は、聞き手のユーザによって図２のスピーカ１００Ｈ５２の出力を設定する操作が行われた場合、操作に基づいて音声データを変換して出力してもよい。変換は、例えば音声データに所定のゲインをかけて出力する音量を増幅する処理などである。

＜音声処理＞
図５は、本発明の一実施形態に係る第１実施形態の音声処理の一例を示すフローチャートである。図５に示す処理は、図４のステップＳ０４０２の処理に相当する。

ステップＳ０５０１では、話し手側の情報処理装置１００の判定処理部１００Ｆ４は、音声の入力状態を判定する判定処理を行う。判定処理は、詳細は後述する。

ステップＳ０５０２では、話し手側の情報処理装置１００は、ステップＳ０５０２の判定処理の判定結果に基づいて入力状態に変化があったと判断した場合（ステップＳ０５０２にてＹＥＳ）はステップＳ０５０３の処理に進む。また、ステップＳ０５０２では、話し手側の情報処理装置１００は、入力状態に変化がないと判断した場合（ステップＳ０５０２にてＮＯ）はステップＳ０５０７の処理に進む。

入力状態は、例えば話し手のユーザが図２の操作スイッチ１００Ｈ５３によってミュート状態に切り換える操作行った場合、ステップＳ０５０１で変化があったと判定される。ミュート状態の場合、入力される音声は無音である。以下、ミュート状態に切り換える操作によってミュート状態に遷移し、ステップＳ０５０１の判定処理で、入力状態に変化があったと判定された場合を例にして説明する。

ステップＳ０５０３では、話し手側の情報処理装置１００は、エコーキャンセル処理が行われていた場合、エコーキャンセル処理を中断するさせるための処理を行う。ミュート状態に遷移した場合、入力される音声は無音であるため、話し手側の情報処理装置１００から聞き手側の情報処理装置１０１に図４のステップＳ０４０３で送信される音声データがなくなり、エコーキャンセル処理を行う必要がなくなるためである。

ステップＳ０５０４では、話し手側の情報処理装置１００の判定処理部１００Ｆ４は、音声の入力状態を判定する判定処理を行う。判定処理は、詳細は後述する。

ステップＳ０５０４では、例えば話し手のユーザが図２の操作スイッチ１００Ｈ５３によってミュート状態から入力処理部１００Ｆ１が音声の入力を行うようにするミュート状態を解除する操作を行った場合、変化があったと判定される。ミュート状態を解除した場合、入力される音声は話し手のユーザが話す声の音声、および話し手のユーザの周辺の音声などである。以下、ミュート状態を解除する操作によってミュート状態を解除し、ステップＳ０５０４の判定処理で、入力状態に変化があったと判定された場合を例にして説明する。

ステップＳ０５０５では、話し手側の情報処理装置１００は、ステップＳ０５０５の判定処理の判定結果に基づいて入力状態に変化があったと判断した場合（ステップＳ０５０５にてＹＥＳ）はステップＳ０５０６の処理に進む。また、ステップＳ０５０５では、話し手側の情報処理装置１００は、入力状態に変化がないと判断した場合（ステップＳ０５０５にてＮＯ）はステップＳ０５０３の処理に戻る。

ステップＳ０５０６では、話し手側の情報処理装置１００は、入力処理部１００Ｆ１による入力処理の開始を所定の時間遅らせるための処理を行う。

エコーキャンセル処理の学習処理は、マイク１００Ｈ５１、またはスピーカ１００Ｈ５２の設定値を話し手側の情報処理装置１００が変更する処理によって実現される。変更する処理は、設定値を固定せず、入力される音声に基づいて設定値を計算し、計算した設定値に変更する処理である。ミュート状態の場合、入力される音声は無音であるため、無音状態に対応した学習処理が行われる状態である。ミュート状態に対応したエコーキャンセル処理は、ノイズなどが全く無い状態に対応する処理、すなわちノイズなどを減少させる処理を行わないのと同様である。

入力処理の開始を所定の時間遅らせる処理によって、所定の時間、入力処理を停止させる。入力処理を停止させている時間において、話し手のユーザが話す声の音声、および話し手のユーザの周辺の音声などに基づいて学習処理が行われ、エコーキャンセル処理を減少させた音声データを出力することができる。

ステップＳ０５０７では、話し手側の情報処理装置１００は、ステップＳ０５０６の学習処理によって、ミュート解除の状態に対応したエコーキャンセル処理を行う。

＜判定処理＞
図６は、本発明の一実施形態に係る第１実施形態の処理の一例を説明するタイミングチャートである。

判定処理は、ｔ１で行われるマイク１００Ｈ５１をミュート状態にする操作、またはｔ２で行われるマイク１００Ｈ５１をミュート解除状態にする操作に基づいて入力状態に変化があったか否かを判定する処理である。

ｔ１は、話し手のユーザが図２の操作スイッチ１００Ｈ５３によってミュート解除状態からミュート状態に切り換える操作を行った場合である。ミュート状態に切り換える操作によって、図５のステップＳ０５０１の判定処理は、入力状態に変化があったと判定する。

図５のステップＳ０５０１の判定処理で入力状態に変化があったと判定されると、図５のステップＳ０５０２のエコーキャンセル処理の学習処理を中断する処理が行われる。エコーキャンセル処理の学習処理を中断する処理によって、図６に示すようにｔ１から学習処理が中断する。

ｔ２は、話し手のユーザが図２の操作スイッチ１００Ｈ５３によってミュート状態からミュート状態を解除する操作を行った場合である。ミュート状態を解除する操作によって、図５のステップＳ０５０４の判定処理は、入力状態に変化があったと判定する。

図５のステップＳ０５０４の判定処理で入力状態に変化があったと判定されると、図５のステップＳ０５０６の入力処理の開始を遅らせるための処理が行われる。ミュート状態を解除する操作が行われたｔ２から、図６に示すように学習処理は開始される。入力処理の開始を遅らせるための処理によって、学習処理が開始されたｔ２より所定の時間であるΔｔだけ遅れたｔ３からミュート解除状態になる。

Δｔは、例えば学習処理が終了するまでにかかる時間などである。学習処理は、会話の音声の大小、または周辺の音声の時間による変化の差分に基づいて行われるため、ミュート状態の切り換えなど急激な変化がある場合、処理時間がかかる場合がある。Δｔを学習処理の処理時間に対応させることで、話し手側の情報処理装置１００は、学習処理が完了し、エコーキャンセル処理がミュート解除状態に対応した状態で音声を入力がされる。したがって、ミュート解除した場合であっても、話し手側の情報処理装置１００は、不快な音声情報による出力を減少させることができる。

なお、入力状態の変化の判定は、ミュート状態、またはミュート解除状態にする操作による判定に限られない。例えば入力状態の変化の判定は、入力音量を調整するボタン（図示せず）によって設定変更できる場合、所定の時間以内に予め定めた以上入力音量を設定変更する操作が行われた場合を入力状態に変化があったと判定してもよい。

また、実施形態は、図５および図６に示した場合に限られない。例えば初期設定がミュート状態の電源投入の際などｔ１まで学習処理が実行されていない場合、すなわち図６のｔ１の状態の場合、図５のステップＳ０５０４から処理を開始してもよい。

＜第２実施形態＞
第２実施形態は、第１実施形態と同様に、図１のビデオ会議システム１を用いる。ビデオ会議システム１についての説明は省略する。

第２実施形態は、第１実施形態と同様に、図２の話し手側の情報処理装置１００、および聞き手側の情報処理装置１０１を用いる。話し手側の情報処理装置１００、および聞き手側の情報処理装置１０１についての説明は省略する。

第２実施形態は、第１実施形態と同様に、図４で説明した全体処理を行う。全体処理についての説明は省略する。

図７は、本発明の一実施形態に係る第２実施形態の音声処理の一例を示すフローチャートである。

第１実施形態の図５の処理と、第２実施形態の図７の処理と、を比較すると、ステップＳ０７０４が加えられていること異なる。また、第１実施形態の図５の処理と、第２実施形態の図７の処理と、ではステップＳ０７０８の処理内容が異なる。ステップＳ０７０１乃至ステップＳ０７０３は、第１実施形態の図５のステップＳ０５０１乃至ステップＳ０５０３と同様の処理である。ステップＳ０７０５乃至ステップＳ０７０７は、第１実施形態の図５のステップＳ０５０４乃至ステップＳ０５０６と同様の処理である。以下、第１実施形態と異なる点を中心に説明し、第１実施形態と同様の点は説明を省略する。

ステップＳ０７０４では、ステップＳ０７０１でミュート状態に切り換える操作によって入力状態に変化があったと判定された際、話し手側の情報処理装置１００は、記憶部１００Ｆ５にエコーキャンセル処理に係る情報を記憶させる。エコーキャンセル処理に係る情報は、例えばエコーキャンセル処理を行うための設定値などである。エコーキャンセル処理に係る情報は、入力状態に変化があったと判定された際の音声を記憶し、記憶された音声情報から生成される設定値でもよい。

ステップＳ０７０８では、話し手側の情報処理装置１００は、ステップＳ０７０４で記憶した情報を記憶部１００Ｆ５から読み出し、エコーキャンセル処理の学習処理を行う。

図８は、本発明の一実施形態に係る第２実施形態の処理の一例を説明するタイミングチャートである。

図６と同様に、マイク１００Ｈ５１をミュート状態にする操作、またはｔ２で行われるマイク１００Ｈ５１をミュート解除状態にする操作が行われた場合を例に説明する。

ｔ１は、図６と同様に話し手のユーザが図２の操作スイッチ１００Ｈ５３によってミュート解除状態からミュート状態に切り換える操作を行った場合である。ミュート状態に切り換える操作によって、図７のステップＳ０７０１の判定処理は、入力状態に変化があったと判定する。入力状態に変化があったと判定された際、話し手側の情報処理装置１００は、例えばｔ１の時点のエコーキャンセル処理に係る設定値を記憶する。

ｔ２は、図６と同様に話し手のユーザが図２の操作スイッチ１００Ｈ５３によってミュート状態からミュート状態を解除する操作を行った場合である。ミュート状態を解除する操作によって、図７のステップＳ０７０５の判定処理は、入力状態に変化があったと判定する。入力状態に変化があったと判定された際、第１実施形態と同様に図７のステップＳ０７０８のエコーキャンセル処理の学習処理を開始する。エコーキャンセル処理の学習処理は、エコーキャンセル処理に係る設定値を読み出してｔ１のミュート状態になる際の設定値が保持されたと同様の状態から開始される。

なお、話し手側の情報処理装置１００は、エコーキャンセル処理に係る設定値を読み出す際、現在の設定値をクリアする処理としてもよい。すなわち、話し手側の情報処理装置１００は、ミュート状態にする操作が行われたｔ１の際に学習処理を中断せず、学習処理を継続する。ｔ２の際に、話し手側の情報処理装置１００は、エコーキャンセル処理に係る設定値を読み出す際にミュート状態に学習処理によって対応した設定値をクリアした後、エコーキャンセル処理に係る設定値を読み出すとしてもよい。話し手側の情報処理装置１００は、クリアによって、ミュート状態の学習処理による影響を除去し、エコーキャンセル処理に係る設定値を読み出してｔ１のミュート状態になる際の設定値が保持されたと同様の状態に戻すことができる。話し手側の情報処理装置１００は、ｔ１の際に学習処理を中断する処理、およびｔ２の際に学習処理を開始する処理を不要にすることができる。

記憶部１００Ｆ５から読み出し学習処理を行う場合、ミュート状態、すなわち入力される音声が無音の場合から学習処理を行う場合と比較してミュート解除の状態で不快な音声を十分に減少できるエコーキャンセル処理ができるまでの時間を短くすることができる。

＜第３実施形態＞
第３実施形態は、第１実施形態と同様に、図１のビデオ会議システム１を用いる。ビデオ会議システム１についての説明は省略する。

第３実施形態は、第１実施形態と同様に、図２の話し手側の情報処理装置１００、および聞き手側の情報処理装置１０１を用いる。話し手側の情報処理装置１００、および聞き手側の情報処理装置１０１についての説明は省略する。

第３実施形態は、第１実施形態と同様に、図４で説明した全体処理を行う。全体処理についての説明は省略する。

第３実施形態は、第２実施形態と同様に、図７で説明した音声処理を行う。第３実施形態は、音声処理のステップＳ０７０１の判定処理の内容が異なる。

図９は、本発明の一実施形態に係る第３実施形態の処理の一例を説明するタイミングチャートである。

第３実施形態の判定処理は、例えば閾値Ｔｈを設定し、図９に示すように入力音量が閾値Ｔｈに達し、所定の時間内に閾値Ｔｈ以下となる、いわゆるノイズが入力された場合、図７のステップＳ０７０１で入力状態に変化があったと判定する。したがって、第２実施形態がユーザによるミュート操作をトリガとするのに対し、第３実施形態は、ノイズの入力をトリガとする。

ｔ１は、ノイズの入力が検出された場合である。ノイズの入力が検出された場合、図７のステップＳ０７０１の判定処理は、入力状態に変化があったと判定する。入力状態に変化があったと判定された際、話し手側の情報処理装置１００は、第２実施形態と同様に、例えばｔ１の時点のエコーキャンセル処理に係る設定値を記憶する。

ｔ２は、ノイズの入力がなくなったと検出された場合である。ノイズの入力がなくなったと検出された場合、図７のステップＳ０７０５の判定処理は、入力状態に変化があったと判定する。入力状態に変化があったと判定された際、第２実施形態と同様に図７のステップＳ０７０８のエコーキャンセル処理の学習処理を開始する。エコーキャンセル処理の学習処理は、エコーキャンセル処理に係る設定値を読み出してｔ１のノイズが入力される以前の設定値が保持されたと同様の状態から開始される。設定値が保持されることによって、エコーキャンセル処理は、ノイズが入力される前の音声に対応した不快な音声情報による出力を減少させる処理を行うことができる。したがって、ノイズをエコーキャンセル処理の学習処理に反映させないことで、ノイズが入力された場合でもエコーキャンセル処理に不快な音声情報による出力を減少させることができる。

なお、ノイズの検出は閾値を設定する方法に限られない。ノイズの検出は、他の検出方法によって検出されてもよい。

なお、実施形態は、話し手側の情報処理装置１００で処理が行われるに限られない。例えば、音声処理、または判定処理は、操作スイッチ１００Ｈ５３の操作に係る情報が音声データとともに聞き手側の情報処理装置１０１に送信されて、聞き手側の情報処理装置１０１が行ってもよい。また、音声処理、または判定処理は、話し手側の情報処理装置１００に代えてネットワーク２００に接続された別のコンピュータ、いわゆる情報処理装置が一部または全部の処理を行ってもよい。

なお、ビデオ会議システムを例示として示された処理は、例えばデスクトップＰＣ、ノートＰＣ、タブレット、およびスマートフォンなどの情報処理装置にビデオ会議システム用のアプリケーションソフトプログラムをインストールして実現してもよい。

また、実施形態で説明した情報処理装置が接続されたシステム構成は一例であり、用途や目的に応じて様々なシステム構成があることは言うまでもない。例えば、各処理は、ネットワークを介して２つ以上のコンピュータによって分散、冗長、または並列に処理されてもよい。また、情報処理装置が用いる情報は、２つ以上の記憶装置に分散、または冗長して記憶されてもよい。

以上、本発明の好ましい実施例について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。

１ビデオ会議システム
１００話し手側の情報処理装置
１０１聞き手側の情報処理装置
２００ネットワーク
１００Ｆ１入力処理部
１００Ｆ２制御部
１００Ｆ２１入力制御部
１００Ｆ３音声処理部
１００Ｆ４判定処理部
１００Ｆ５記憶部
１００Ｆ６出力処理部
１００Ｈ１補助記憶装置
１００Ｈ２記憶装置
１００Ｈ３ＣＰＵ
１００Ｈ４コネクタ
１００Ｈ４１カメラ
１００Ｈ５音声入出力Ｉ／Ｆ
１００Ｈ５１マイク
１００Ｈ５２スピーカ
１００Ｈ５３操作スイッチ
１００Ｈ６出力Ｉ／Ｆ
１００Ｈ６１ディスプレイ
１００Ｈ７ネットワークＩ／Ｆ
１００Ｈ８バス

特許第４１９２８００号公報特開２０１３−８１１６３号公報特開平６−３５０４８７号公報

Claims

少なくとも音声の処理を行う情報処理装置であって、
前記音声を入力するための処理を行う入力処理手段と、
前記入力処理手段への入力音量を制御する入力制御手段と、
少なくとも前記入力処理手段によって入力された前記音声に含まれるエコー、またはユーザの周囲の音に係る音声を減少させる処理を行う音声処理手段と、
前記入力処理手段に入力された音声の音量、または前記入力制御手段による制御に基づいて入力状態を判定する判定手段と、を有し、
前記判定手段によって入力状態に変化があったと判定された際、
前記入力処理手段による処理の開始を所定の時間遅らせる情報処理装置。
前記判定手段は、
前記入力処理手段に所定の値以上の音量が入力された場合、または前記入力制御手段によって前記入力処理手段への入力音量を無音に調整する制御が行われた場合に入力状態に変化があったと判定する請求項１に記載の情報処理装置。
前記音声処理手段に係る設定情報を記憶する記憶手段を有し、
前記記憶手段は、
前記判定手段によって入力状態に変化があったと判定された際、前記設定情報を記憶し、
前記音声処理手段は、
前記所定の時間の際、前記記憶手段に記憶された前記設定情報に基づいて処理を行う請求項１または２に記載の情報処理装置。
少なくとも音声の処理を行う情報処理装置に、
前記音声を入力するための処理を行う入力処理手順と、
前記入力処理手順を制御する入力制御手順と、
少なくとも前記入力処理手順によって入力された前記音声に含まれるエコー、またはユーザの周囲の音に係る音声を減少させる処理を行う音声処理手順と、
前記入力処理手順で入力された音声の音量、または前記入力制御手順による制御に基づいて入力状態を判定する判定手順と、を有し、
前記判定手順で入力状態に変化があったと判定された際、
前記入力処理手順の開始を所定の時間遅らせるように実行させるためのプログラム。
１以上のコンピュータを含む少なくとも音声の処理を行う情報処理システムであって、
前記音声を入力するための処理を行う入力処理手段と、
前記入力処理手段を制御する入力制御手段と、
少なくとも前記入力処理手段によって入力された前記音声に含まれるエコー、またはユーザの周囲の音に係る音声を減少させる処理を行う音声処理手段と、
前記入力処理手段に入力された音声の音量、または前記入力制御手段による制御に基づいて入力状態を判定する判定手段と、を有し、
前記判定手段によって入力状態に変化があったと判定された際、
前記入力処理手段による処理の開始を所定の時間遅らせる情報処理システム。