JP2014206683A

JP2014206683A - 消音装置および消音方法

Info

Publication number: JP2014206683A
Application number: JP2013084914A
Authority: JP
Inventors: 芳之山陸; Yoshiyuki Yamariku; 正朝水野; Masatomo Mizuno; 武志川野; Takeshi Kawano; 昌隆森尾; Masataka Morio; 昌宏逢坂; Masahiro Aisaka; 彰米沢; Akira Yonezawa
Original assignee: Nikon Corp
Current assignee: Nikon Corp
Priority date: 2013-04-15
Filing date: 2013-04-15
Publication date: 2014-10-30

Abstract

【課題】第三者が移動すると、消音効果がなくなるという課題があった。【解決手段】消音装置であって、発話者と第三者との位置関係を特定する位置取得部と、位置取得部で取得した位置関係にいる第三者の位置に到達する発話者からの音声を減衰させる音声信号を生成する音声生成部とを備える。音声生成部は、音声信号として、第三者に到達する発話者からの音声とは逆位相の音声信号を生成してもよい。さらに、音声生成部は、音声信号を音声として出力する音声出力部を備えてもよい。【選択図】図１

Description

本発明は、消音装置および消音方法に関する。

発話者の音声とは逆位相の音声信号を作成して、固定位置に設けられたスピーカから、指定された位置にいる第三者に対して逆位相の音声信号を出力して、発話者の音声を消音するという装置が知られている（例えば、特許文献１参照）。
［先行技術文献］
［特許文献］
［特許文献１］特開２０１０−１９９３５号公報

しかし、上記装置は、第三者が移動すると、消音効果がなくなるという課題があった。

本発明の第１の態様においては、発話者と第三者との位置関係を特定する位置取得部と、位置取得部で取得した位置関係にいる第三者に到達する発話者からの音声を減衰させる音声信号を生成する音声生成部とを備える消音装置を提供する。

本発明の第２の態様においては、発話者と第三者との位置関係を取得する位置取得ステップと、位置取得ステップで取得した位置関係にいる第三者に、第三者に到達する発話者からの音声を減衰させる音声信号を生成する音声生成ステップとを備える消音方法を提供する。

なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではない。また、これらの特徴群のサブコンビネーションもまた、発明となりうる。

消音装置の構成を模式的に示す。図１の上面図を示す。消音装置の機能ブロック図を示す。位置データベースの一例を示す。消音装置の動作を説明するフローチャートである。声紋データベースの一例を示す。消音装置の別の動作を説明するフローチャートである。他の消音装置の構成を模式的に示す断面図である。他の消音装置の構成を模式的に示す。

以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではない。また、実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。

図１は、消音装置１０の構成を模式的に示す。図２は、図１の上面図である。説明のため、図１および図２に示す例において、屋内には、携帯電話で話している発話者２０と、音声を発しない二人の第三者２２、２４とがいるとする。

消音装置１０は、例えば、病院のロビー、ホテルのエントランスホール、ミーティングルーム等の屋内に設けられる。消音装置１０は、音声生成装置１２と、画像取得部１４と、音声取得部１６と、音声出力部１８とを備える。

画像取得部１４は、屋内の天井に設けられる。画像取得部１４は、当該屋内を撮像して、左右一対の画像を含む視差画像を生成し、音声生成装置１２に出力する。画像取得部１４の一例は、二眼のレンズおよび当該二眼のレンズのそれぞれに対応して、ＣＣＤまたはＣＭＯＳなどの撮像素子が一対設けられた、二眼のステレオカメラである。画像取得部１４のレンズは、広角であることが好ましい。画像取得部１４は、複数設けられていてもよい。画像取得部１４が図１および図２に示す屋内を撮像したとすれば、音声取得部１６、音声出力部１８および三人の人物等を含む視差画像が生成される。なお、画像取得部１４、音声取得部１６、音声出力部１８は、屋内の側壁、ライトなどの支柱、専用のラック等に設けられても良い。

音声取得部１６は、発話者２０が発話している音声を音声信号として取得する。音声取得部１６の一例は、マイクである。音声取得部１６は、複数設けられていてもよい。音声取得部１６は、音声信号をアナログ信号またはデジタル信号として取得する。

音声生成装置１２は、画像取得部１４から視差画像を取得する。音声生成装置１２は、視差画像内に含まれる音声取得部１６と、音声出力部１８と、人物等の位置を示す位置データとを算出する。図１および図２に示すように三人の人物が撮像画像に含まれていれば、当該三人の人物のそれぞれの位置データが算出される。さらに当該視差画像に基づいて、三人の人物のそれぞれが発話者２０、第三者２２、２４と特定される。

音声生成装置１２は、さらに、音声取得部１６から音声の音声信号を取得する。音声生成装置１２は、上記位置データで特定される位置関係にいる第三者２２等の位置に到達する発話者２０からの音声を減衰させる音声信号を生成して、音声出力部１８に出力する。発話者２０からの音声を減衰させる音声信号は、例えば、第三者２２等の位置で、発話者２０からの音声とは逆位相となる音声信号、発話者２０の音声よりも大きな音量である音楽やニュース等の音声信号、発話者２０からの音声と合成させることで発話者２０からの音声を相対的に減衰させる音声信号等である。これによって、第三者等の位置で、発話者２０からの音声を減衰させることができる。また、発話者２０の会話内容を第三者に理解させなくすることができる。

音声出力部１８は、音声生成装置１２から入力された音声信号を音声として出力する。音声出力部１８の一例は、指向性を有するパラメトリックスピーカである。パラメトリックスピーカは、周波数が一定の超音波と、変調された超音波とを同時に出力して、２つの超音波を重ねることにより、人に聞こえる音を再生する。これにより、出力する音声に指向性を付与できる。また、パラメトリックスピーカは、変調させた超音波から非線形特性によって可聴音を再生するスピーカであってもよい。音声出力部１８は、さらに、音声を出力する方向を変える変更装置１７を有する。

画像取得部１４、音声取得部１６および音声出力部１８と、音声生成装置１２とは、無線通信によりデータの出力および入力を行う。画像取得部１４、音声取得部１６および音声出力部１８と、音声生成装置１２とは、例えば、ＵＷＢ（ＵｌｔｒａＷｉｄｅＢａｎｄ）、ＺｉｇＢｅｅ（登録商標）、Ｗｉ−Ｆｉ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、３Ｇ、および／または、ＬＴＥ等の無線通信規格に準拠して通信する。

図２において、範囲２６は、発話者２０と第三者とが会話していると判断される距離により区画される領域である。範囲２８は、発話者２０の音声内容が理解できる距離により区画される領域であり、発話者２０を中心とした範囲２６よりも大径の円から範囲２６を除いた範囲である。範囲３０は、発話者２０の音声の音量が小さくなり、内容が聞き取れなくなる領域であって、範囲２８よりも外側の領域である。これらの範囲２６、２８、３０は、予め実験等により設定される。なお、使用者がその目的や消音させたい領域の大きさに応じて、これらの範囲２６、２８、３０を自由に設定できるように構成しても良い。

図３は、消音装置１０の機能ブロック図を示す。消音装置１０の音声生成装置１２は、位置取得部３２と、音声生成部３４と、記録部３６とを有する。

位置取得部３２は、画像取得部１４から視差画像を取得する。位置取得部３２は、視差画像に基づいて、視差画像内に含まれる音声取得部１６の位置、音声出力部１８の位置、人物の位置をそれぞれ示す位置データを算出する。さらに、位置取得部３２は、視差画像に基づいて、発話者２０および第三者２２、２４を特定する。

音声生成部３４は、音声取得部１６から音声信号を取得する。音声生成部３４は、発話者２０から取得した音声に対して、位置取得部３２で取得した位置関係にいる第三者２２の位置に、発話者２０からの音声を減衰させる音声信号を生成して、音声出力部１８へ出力する。

記録部３６は、音声取得部１６の位置データと、音声出力部の位置データとを記録するデータベースと、発話者２０等の位置データを記録する位置データベース３８とを格納する。位置取得部３２および音声生成部３４の機能は、記録部３６に格納されているプログラムを読み出して、音声生成装置１２が有するＭＰＵ（Ｍｉｃｒｏ−ＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）に当該プログラムを実行させることによって発揮されてもよい。

図４は、位置データベース３８の一例を示す。位置データベース３８は、人物を識別する識別番号の欄と、位置データの欄と、発話者の欄と、領域内の欄とを有する。

識別番号の欄には、視差画像内で認識された人物の識別番号が、画像取得部１４に近い順に上から記録される。識別番号は例えば画像取得部１４により付与される数字であり、図４においては説明の簡略化のため、図１で付した参照番号と同じ数字とした。

位置データの欄には、識別番号に対応する人物の位置を示す位置データが記録される。図４に示した例において、位置データは、画像取得部１４を原点とするＸＹ座標系におけるＸ座標およびＹ座標を有する。

発話者の欄には、識別番号に対応する人物が発話者であると特定された場合に、フラグ「１」が立てられる。発話者の欄の初期値は「０」である。

図４に示した例において、図１および図２に対応して、発話者２０に対してフラグ「１」が立てられる。第三者２２、２４は発話者でないので、当該欄は「０」のままとなる。

範囲の欄には、識別番号に対応する人物が範囲２８にいる場合に、フラグ「１」が立てられる。発話者と特定された人物の範囲の欄には、「−」が入力される。範囲の欄の初期値は「０」である。

図４に示した例において、図１および図２に対応して、発話者２０に対して「−」が入力される。第三者２２は、範囲２８にいるので、フラグ「１」が立てられる。第三者２４は、範囲３０にいて、範囲２８にいないので、当該欄は「０」のままとなる。なお、第三者が範囲２６にいる場合にも当該欄は「０」となる。当該欄は、フラグ「１」と区別されればよいので、「２」又はその他の数値や記号、文章等が入力されても良い。

図５は、消音装置１０の動作を説明するフローチャートである。当該動作は、消音装置１０が使用者に起動されたときに開始する。

位置取得部３２は、消音装置１０の動作を行うために用いられる音声取得部１６および音声出力部１８等の位置を特定するために、画像取得部１４から、音声取得部１６および音声出力部１８等の視差画像を取得して、音声取得部１６および音声出力部１８の位置データを算出して、記録部３６に記録する（Ｓ１０１）。なお、音声取得部１６および音声出力部１８の位置データは、使用者が消音装置１０の起動時に入力することや、事前に取得または入力された位置データを用いること等により、それぞれの位置を算出しても良い。

ステップＳ１０１に続いて、位置取得部３２は、画像取得のタイミングが来たかどうかを判断する（Ｓ１０２）。位置取得部３２は、画像取得のタイミングが来たと判断した場合に（Ｓ１０２：Ｙｅｓ）、画像取得部１４から視差画像を取得する（Ｓ１０３）。一方、位置取得部３２は、画像取得のタイミングが来ていないと判断した場合に（Ｓ１０２：Ｎｏ）、処理をステップＳ１０７へ進める。

画像取得のタイミングとしては、消音装置１０が起動されて初回のステップＳ１０２においては、ステップＳ１０１が終了した直後、または、所定時間の経過後を画像取得のタイミングとする。また、既に初回のステップＳ１０２を行った後のステップＳ１０２においては、直前のステップが終了した直後、所定時間の経過後、画像取得部１４で設定したフレームレート（画像取得部１４が静止画像を取得する単位時間当たりの画像数）に同期したタイミング、画像取得部１４のフレームレートよりも長いタイミング等を画像取得のタイミングとする。ステップＳ１０２が初回のステップＳ１０２であるか、既に初回のステップＳ１０２を行った後のステップＳ１０２であるかは、例えば位置データベース３８に発話者の位置データが記録されているか否かで判断してもよい。

位置取得部３２は、発話者および発話者の会話を減衰または消音させる人物等の位置を特定するために、画像取得部１４から視差画像を取得する（Ｓ１０３）。位置取得部３２は、視差画像に含まれる各人物の位置データを取得する（Ｓ１０４）。この場合に、位置取得部３２は、例えば視差画像を特定の大きさのウィンドウで走査しつつ当該ウィンドウ内の画像と人物を示すテンプレート画像とを照合させるパターンマッチングを行うことにより、視差画像に人物の画像が含まれるか否かを判断してもよい。位置取得部３２は、視差画像に人物の画像が含まれていると判断した場合に、当該視差画像内の人物の位置に基づいて、当該人物の、画像取得部１４に対する方向を特定する。さらに位置取得部３２は、視差画像における左右一対の画像に含まれる当該人物を互いにパターンマッチングして、左右一対の画像間の人物の位置の差、すなわち視差を取得することにより、画像取得部１４から当該人物までの距離を算出する。位置取得部３２は、距離および方向からそれぞれの人物について画像取得部１４を原点とするＸＹ座標系におけるＸ座標およびＹ座標で表される位置データを作成する。位置取得部３２は、各人物に識別番号を割り付け、識別番号と位置データとを位置データベース３８に記録する。

位置取得部３２は、視差画像のいずれか一方または両方を用いて、発話者を特定できたかを判断する（Ｓ１０５）。この場合に、位置取得部３２は、まず位置データベース３８の発話者の欄をすべて初期化する。位置取得部３２は、上記ステップＳ１０４で特定した人物のうち、視差画像において口を開けている人物、または、時系列に並んだ複数の視差画像間で口の形が変化した人物を、発話者であると特定する。位置取得部３２は、位置データベース３８の当該人物の識別番号に対応する発話者の欄にフラグ「１」をたてる。

位置取得部３２は、位置データベース３８の発話者の列の欄にフラグ「１」が１つある場合に、発話者を特定できたと判断する（Ｓ１０５：Ｙｅｓ）。一方、位置取得部３２は、発話者の列の欄にフラグ「１」が１つもない場合または発話者の欄にフラグ「１」が複数ある場合に（Ｓ１０５：Ｎｏ）、処理をステップＳ１０３に戻す。すなわち、本実施形態では、位置取得部３２は発話者が１人である場合に「発話者が特定できた」と判断する。

位置取得部３２は、各人物の位置データに基づいて、第三者が範囲２８内にいるか否かを判断する（Ｓ１０６）。この場合に、位置取得部３２は、まず位置データベース３８の範囲の列の欄をすべて初期化する。次に、位置取得部３２は、発話者２０の範囲の列の欄に「−」を書き込む。さらに、位置取得部３２は、位置データベース３８を参照して、上記ステップＳ１０５で特定された発話者の位置データが示す位置と、発話者以外の人物である第三者の位置データが示す位置との距離を算出し、当該距離に基づいて、当該第三者が範囲２８にいるか否かを判断する。位置取得部３２は、第三者が範囲２８にいると判断した場合に、範囲の欄にフラグ「１」を立てる。

位置取得部３２は、位置データベース３８の範囲の欄に対してフラグ「１」が１つある場合に、位置取得部３２は、第三者は範囲内にいると判断する（Ｓ１０６：Ｙｅｓ）。一方、位置取得部３２は、範囲の欄に対してフラグ「１」が１つもない場合または範囲の欄に対してフラグ「１」が複数ある場合に（Ｓ１０６：Ｎｏ）、処理をステップＳ１０３へ戻す。すなわち、本実施形態では、位置取得部３２は第三者が１人である場合に「第三者が範囲内にいる」と判断する。

音声生成部３４は、音声を取得できたかを判断する（Ｓ１０７）。音声生成部３４は、音声取得部１６より取得した音声信号の強度が予め定められた閾値以上である場合に、音声を取得できたと判断する（Ｓ１０７：Ｙｅｓ）。一方、音声取得部１６より取得した音声信号の強度が、上記閾値より小さい場合に、音声を取得できないと判断して（Ｓ１０７：Ｎｏ）、処理をステップＳ１０３へ戻す。

音声生成部３４は、音声取得部１６から取得した音声に対して、位置取得部３２で取得した位置関係にいる第三者２２の位置に、発話者２０からの音声を減衰させる音声信号を生成する（Ｓ１０８）。この場合に、音声生成部３４は、記録部３６から、音声取得部１６の位置データと、音声出力部１８の位置データとを読み出す。さらに音声生成部３４は、位置データベース３８から、発話者２０の位置データと、範囲２８にいる第三者２２の位置データとを取得する。これらの位置データに基づいて、音声生成部３４は、音声取得部１６と発話者２０までの距離Ｌ１と、音声出力部１８と第三者２２までの距離Ｌ２と、発話者２０と第三者２２までの距離Ｌ３を算出する。これら距離Ｌ１、Ｌ２、Ｌ３および発話者２０の音声信号に基づいて、音声生成部３４は、第三者２２の位置において、発話者２０の音声を減衰させる音声信号を生成する。

音声生成部３４はさらに、音声出力部１８の位置データと第三者２２の位置データとから音声出力部１８に対する第三者２２の向きを特定する。これにより音声生成部３４は音声出力部１８の出力方向を第三者２２の向きに合せるデータを算出する。音声生成部３４は、音声出力部１８の向きに関するデータを音声出力部１８に出力するとともに、発話者の音声を減衰させる音声信号を音声出力部１８に出力する。

音声出力部１８は、音声出力部１８の向きに関するデータに基づいて、変更装置１７を駆動して出力方向を第三者２２に向ける（Ｓ１０９）。音声出力部１８は、第三者２２に発話者２０の音声を減衰させる音声信号を音声として出力する（Ｓ１１０）。これにより、第三者２２の位置において発話者２０の音声が減衰される。また、変更装置１７は、第三者の動きを追随することによって、第三者が動いても、発話者２０の音声を減衰させる音声信号を第三者に出力する。これによって、第三者が動いても、発話者２０の会話が第三者に聞こえないようにすることができる。なお、変更装置１７は、音声が聞こえる位置を自由に制御できる音声信号を用いて、第三者に向ける音声を制御しても良い。例えば、音声出力部１８は複数のスピーカを備え、変更装置１７が各スピーカから出力される音声の大きさ、周波数、時間、タイミング等を制御することによって、音声が聞こえる位置を自由に制御することができる。これによって、変更装置１７を駆動することが不要であり、変更装置１７を小型化できる。また、変更装置１７は、音声信号の大きさ、方向、音声を発生させるスピーカ面の曲率などを変更することで、音声を伝達する距離や範囲などを変更しても良い。

音声生成部３４は、消音装置１０の終了が選択されたかを判断する（Ｓ１１１）。消音装置１０の終了は、使用者が消音装置１０の終了ボタンを操作することや所定時間後に終了が選択されるタイマーを用いること等により選択される。音声生成部３４は、消音装置１０の終了が選択されていないと判断した場合（Ｓ１１１：Ｎｏ）、音声生成部３４は、処理をステップＳ１０３に戻す。一方、音声生成部３４は、消音装置１０の終了が選択されたと判断した場合（Ｓ１１１：Ｙｅｓ）、音声生成部３４は、消音装置１０を終了させて、消音装置１０の動作処理が終了する。

上記音声生成装置１２によれば、第三者２２が移動しても、当該第三者２２に対して発話者２０の音声を減衰させる音声信号を生成できる。特に、音声生成装置１２の音声生成部３４が、第三者２２に到達する発話者２０からの音声とは逆位相となる音声信号を生成する場合は、音声生成装置１２は、第三者２２が移動しても、第三者２２に対して、発話者２０の音声を打ち消すことができる。

音声出力部１８はパラメトリックスピーカを含むので、消音装置１０は、発話者２０の音声を減衰させる音声信号に指向性を付与でき、他の第三者に影響を与えることなく目的とする第三者に対して発話者２０の音声を減衰させることができる。また、音声出力部１８は、音声を出力する向きを変える変更装置１７を備えるので、第三者２２の動きに追従して、発話者２０の音声を減衰させることができる。

また、音声生成装置１２の音声生成部３４は、第三者２２が範囲２８にいると判断した場合に、発話者２０の音声を減衰させる音声信号を生成する。これにより、音声生成装置１２は、範囲２６で発話者２０が会話している第三者に対して音声を減衰させずに、発話者と会話していない第三者であって、発話者２０の音声内容が聞こえてしまう第三者に対して当該発話内容が聞こえないようにすることができる。発話者と会話していない第三者に、発話者２０からの音声とは逆位相となる音声信号を生成すれば、当該発話内容を消音できる。

なお、本実施形態において、位置取得部３２は、発話者２０を中心とした範囲２６、２８、３０を規定したが、これに加えて、またはこれとは別に、音声出力部１８を中心とした領域を規定してもよい。この場合に、位置取得部３２は、音声出力部１８による音声が予め定められた大きさで到達する領域内にいる第三者を消音すべき対象者と特定して、当該領域外にいる第三者を消音すべき対象者として特定しないとしてもよい。これにより、消音動作を効率化できる。

音声生成装置１２および位置取得部３２は、音声取得部１６、音声出力部１８、人物等の相対的な位置関係を含む情報を取得して、位置データベース３８に記憶し、音声信号の制御に用いても良い。また、画像取得部１４は、視差画像内に含まれる音声取得部１６、音声出力部１８、人物等の位置またはそれぞれの相対的な位置関係を算出し、音声生成装置１２にその結果を送信するように構成しても良い。これによって、音声生成装置１２は、画像取得部１４からの結果に基づいて、音声を生成することができ、音声生成装置１２を小型化できる。また、送信するデータ量を減少させることができるので、消音装置１０の処理速度を向上させることができる。

図６は、声紋データベース４０の一例を示す。図７は、消音装置１０の別の動作を説明するフローチャートである。声紋データベース４０は、図７に示す消音装置１０の別の動作処理に使用される。声紋データベース４０は、人物ＩＤの欄と、顔画像データの欄と、声紋データの欄と、発話者の欄とを有する。

人物ＩＤの欄には、使用者により音声生成装置１２に予め登録された人物の人物ＩＤが記録される。なお、人物ＩＤは、声紋データベース４０に人物を登録すると、音声生成装置１２より自動的に付与される記号である。

顔画像データの欄には、人物ＩＤ欄に記録された人物の顔画像データが記録される。顔画像データは、人物を特定するデータの一例である。声紋データの欄には、人物ＩＤ欄に記録された人物の声紋データが記録される。

発話者の欄には、人物ＩＤの欄に記録された人物が発話者であると特定された場合にフラグ「１」が立てられる。発話者の欄の初期値は「０」である。

図７は、消音装置１０の別の動作を説明するフローチャートである。当該動作フローは、は、ステップＳ２０１、ステップＳ２０２、ステップＳ２０３およびステップＳ２０４の処理が異なる点を除いて、図５に示した動作フローと同じである。ここでは、ステップＳ２０１、ステップＳ２０２、ステップＳ２０３およびステップＳ２０４の処理について説明する。

ステップＳ１０４に続いて、位置取得部３２は、発話者２０の人物ＩＤを特定できたかを判断する（Ｓ２０１）。位置取得部３２はまず、声紋データベース４０の発話者の欄を初期化する。さらに位置取得部３２は、ステップＳ１０５と同じ処理で発話者を特定する。つぎに、位置取得部３２は視差画像のいずれか一方、または両方における発話者の画像データと、声紋データベース４０の顔画像データとをパターンマッチングすることにより、発話者２０の人物ＩＤを特定する。位置取得部３２は、人物ＩＤが特定された場合に、声紋データベース４０における当該人物ＩＤの発話者の欄にフラグ「１」を立てる。

声紋データベース４０の発話者の列の欄に対してフラグ「１」が１つある場合に、位置取得部３２は、発話者が特定できたと判断する（Ｓ２０１：Ｙｅｓ）。一方、声紋データベース４０の発話者の列の欄に対してフラグ「１」がない場合、またはフラグ「１」が複数ある場合に（Ｓ２０１：Ｎｏ）、位置取得部３２は、処理をステップＳ１０３に戻す。

ステップＳ１０６において、位置取得部３２は、第三者２２が範囲２８内にいると判断した場合（Ｓ１０６：Ｙｅｓ）、またはステップＳ１０２において、位置取得部３２が画像取得のタイミングが来てないと判断した場合（Ｓ１０２：Ｎｏ）、位置取得部３２は、発話者２０の口の動きを取得できたかを判断する（Ｓ２０２）。位置取得部３２は、発話者２０の口の動きを取得できたと判断した場合（Ｓ２０２：Ｙｅｓ）、発話者２０の口の動きを記録した画像データを音声生成部３４に出力する。一方、発話者２０の口の動きを取得できないと判断した場合（Ｓ２０２：Ｎｏ）、処理をステップＳ１０３へ戻す。

音声生成部３４は、発話者２０の口の動きを記録した画像データに基づいて、発話者２０の口部の動きに対応した言葉を推定する（Ｓ２０３）。例えば、記録部３６に予め５０音、濁音、破裂等を発音したときの口の画像データを記録しておき、音声生成部３４は、当該画像データと、口の動きを記録した画像データとの一致度によって、発話者２０の言葉を推定する。音声生成部３４は、発話者２０の言葉に対応した声紋を、声紋データベース４０から読み出して、推定された言葉に対応した音声信号を作成する（同ステップ）。これにより音声生成部３４は、発話者２０の音声を推定する音声推定部としての役割を担う。

音声生成部３４は、距離Ｌ１、Ｌ２、Ｌ３およびステップＳ２０３で作成した音声信号に基づいて、音声生成部３４は、第三者２２の位置において、作成した音声信号に対して逆位相となる音声信号を生成する（Ｓ２０４）。音声生成部３４は、音声出力部１８の向きに関するデータを音声出力部１８に出力するとともに、発話者２０の音声に対して逆位相となる音声信号を、発話者の音声が第三者２２に届く前に打ち消すように時間を合せて、音声出力部１８に出力する。

音声生成装置１２は、少なくとも発話者２０の音声内容が第三者２２に理解できない程度に音声を減衰させればよい。したがって、発話者２０の口の動きを記録した画像データから推定された言葉は、発話者２０から実際に発せられた言葉と一致しなくてもよい。

音声生成装置１２は、画像取得部１４により取得された画像に基づいて発話者２０の音声を推定した音声に基づいて音声信号を生成する。これにより、音声生成装置１２は、消音したい発話者２０の音声取得までの時間を短縮できる。なおこの場合には、音声取得部１６を設けなくてもよい。

図８は、他の消音装置９０の構成を模式的に示す断面図である。図８において、図１と共通の要素には同じ参照番号を付して重複する説明を省く。消音装置９０は、音声生成装置１２と、画像取得部１４と、音声取得部１６と、音声出力部５２とを有する。音声出力部５２は、コントローラ４２と、屋内の天井４４に埋め込まれて設けられる複数のスピーカ４６とを有する。

スピーカ４６は、屋内の天井４４にマトリックス状に埋め込まれて配置される。コントローラ４２は、各スピーカ４６の位置データを記録している。コントローラ４２は、第三者４８の位置データを取得する。コントローラ４２は、第三者の位置データに合致するスピーカ４６を選択する。コントローラ４２は、選択したスピーカ４６から第三者４８に向けて発話者２０の音声に対して逆位相となる音声を出力する。

スピーカ４６は、同じ高さの天井４４に埋め込まれて設けられている。したがって、第三者４８が前方向に動いて第三者５０の位置に移動したとしても、音声を出力するスピーカ４６を変更することによって、スピーカ４６と第三者５０との距離を一定に保つことができる。

消音装置９０において、音声出力部５２は屋内の天井４４に設けたが、音声出力部５２は、屋内の床に設けてもよく、天井および床の両方に設けてもよい。また、スピーカ４６のみを天井、および／または床に設けて、コントローラ４２は、他の場所に設置してもよい。スピーカ４６は、屋内の天井４４に吊り下げられて配置されても良いし、屋内の壁面や専用のラック等に設けても良い。

上記消音装置９０の音声出力部５２は複数のスピーカ４６を有するので、消音できる範囲を広げることができる。また、消音装置９０の音声出力部５２のスピーカ４６は、屋内の床と天井との少なくとも一方に設けられる。これにより、スピーカ４６と第三者との位置を一定に保つことができるので、一度、スピーカと第三者との距離を測定すれば、以後の測定は不要となるので、消音装置９０は、逆位相信号の作成速度を早めることができる。

スピーカ４６は変更装置１７を備え、第三者の動きを追随して、発話者２０の音声を減衰させる音声信号を第三者に向けて出力するようにスピーカ４６を駆動しても良い。

図９は、他の消音装置９２の構成を模式的に示す。図９において、図１と共通の要素には同じ参照番号を付して重複する説明を省く。消音装置９２は、画像取得部１４と、複数の音声取得部５４と、音声出力部５６、５８、６０、６２、６４と、音声生成装置１２とを有する。

発話者７８は、複数の参加者８０と会話している。複数の音声取得部５４は、発話者７８と複数の参加者８０に対応付けて配置されている。複数の音声取得部５４は、それぞれ固有のＩＰアドレスを有する。音声生成装置１２は、複数の音声取得部５４の位置データをＩＰアドレスに対応付けて記録している。

音声出力部５６、５８、６０、６２、６４は、発話者７８と複数の参加者８０の外周に沿って、出力の方向を外側に向けて配置されている。音声生成装置１２は、音声出力部５６、５８、６０、６２、６４の位置データを記録している。

音声生成装置１２は、複数の音声取得部５４の中心を基準とした範囲２６と、範囲２８と、範囲３０とを特定する。更に、音声生成装置１２は、範囲２８を音声出力部と同じ数である５つの領域６６、６８、７０、７２、７４に分割する。音声生成装置１２は、分割した領域を消音する音声出力部をそれぞれ定める。

例えば初期設定として、領域６６に音声出力部５６が設定される。領域６８に対して音声出力部５８が設定される。同様に、領域７０に対して音声出力部６０、領域７２に対して音声出力部６２、領域７４に対して音声出力部６４がそれぞれ設定される。

図９の例において、第三者８４は領域７２を歩いている。したがって、音声生成装置１２の音声生成部３４は、上記初期設定に従い音声出力部６２に発話者７８の音声に対して逆位相となる音声信号を出力する。音声出力部６２は、第三者８４に向けて当該音声信号に基づいた音声を出力して、発話者７８の音声を第三者８４の位置で消音する。

領域と音声出力部との関係は上記初期設定から動的に変更されてもよい。例えば、第三者８２が領域７０を歩いている場合に、上記初期設定によれば音声出力部６０が用いられる。しかし、音声出力部６０と第三者８２の間には、花壇８８があり、音声出力部６０の消音を妨げる。そこで、音声出力部６０とは異なる音声出力部が用いられてもよい。

この場合に、音声生成装置１２の位置取得部３２は、視差画像から花壇８６、８８の位置データを算出する。音声生成部３４は、第三者８２の位置データから第三者８２が領域７０にいることを確認すると、上記初期設定に基づき音声出力部６０を仮決めする。音声生成部３４は、音声出力部６０と第三者８２との間に障害物があるかを判断する。

音声生成部３４は、音声出力部６０と第三者８２との間に花壇８８があると判断した場合に、第三者８２が、領域７０の領域６８側にいるのか、領域７２側にいるのか、再び第三者８２の位置データから判断する。音声生成部３４は、第三者８２が領域７０の領域６８側にいると判断した場合に、音声出力部６０の仮決めを解除して、音声出力部６０の左側にある音声出力部５８を仮決めする。音声生成部３４は、音声出力部５８と第三者８２の間に障害物が無いと判断した場合に、第三者８２を消音する音声出力部として音声出力部５８を特定する。

音声生成部３４は、特定した音声出力部５８に発話者７８の音声に対して逆位相となる音声信号を、発話者７８の音声が第三者８２に届く前に打ち消すように時間を合せて、音声出力部５８に出力する。音声出力部５８は、第三者８２に向けて、当該音声信号に基づいた音声を出力して発話者７８の音声を消音する。

なお、図５に示したフローチャートのステップＳ１０６は、位置データベース３８における領域６６等に対応する範囲の欄に立てられたフラグ「１」の数の合計が、予め定められた数以下であった場合に、第三者が範囲内にいると判断する（Ｓ１０６：Ｙｅｓ）。一方、当該範囲の欄に立てられたフラグ「１」がない場合またはフラグ「１」の数の合計が上記数より多い場合に（Ｓ１０６：Ｎｏ）、位置取得部３２は、処理をステップＳ１０３へ戻す。上記予め定められた数の一例は、音声出力部の個数である。図９で５個の音声出力部５６、５８、６０、６２、６４があることに対応して当該予め定められた数は「５」である。また、位置データベース３８および声紋データベース４０は、フラグが入力される場合に限らず、数値、記号、文章などが入力される構成でも良い。位置取得部３２は、それらの情報に基づいて判断しても良い。

音声生成部３４は、位置取得部３２により第三者が複数いることが取得された場合に、第三者８２および８４の位置データに基づいて、発話者７８の音声に対し逆位相となる音声信号をそれぞれ生成する。音声生成部３４は、当該音声信号を対応する音声出力部５８および６２に出力する。音声出力部５８、６２は、当該音声信号に基づいた音声を、第三者８２、８４に向けて出力する。

このように、消音装置９２は、複数の音声出力部５６、５８、６０、６２、６４を有しており、複数の第三者に対して、それぞれの第三者に対して特定された音声出力部５８、６２から発話者７８の音声を減衰させる音声を出力できる。これにより、消音装置９２は、複数の第三者に対して発話者７８の音声を減衰することができる。

また、音声生成部３４は、障害物の有無と第三者との距離とを考慮して音声出力部を特定する。これにより、消音装置９２は、発話者７８の音声を障害物に邪魔されることなく消音できる。

また、音声取得部５４のそれぞれは、取得した発話者の音声を、自身のＩＰアドレスに対応付けて音声生成装置１２へ出力する。よって、音声生成部３４は、取得された音声のＩＰアドレスから、発話者７８の特定を行ってもよい。音声生成部３４は、当該ＩＰアドレスに対応する音声取得部５４に近接する人物を発話者であると判断してもよく、当該ＩＰアドレスを有する音声取得部５４の位置データを発話者の位置データに用いてもよい。これにより、消音装置９２は発話者７８を容易に特定できる。

本実施形態において、画像取得部１４として二眼のステレオカメラを用いた例を示したが、画像取得部１４として、一眼で視差画像を取得できるカメラでもよく、ライトフィールドカメラを用いて発話者等の位置データを取得してもよい。また、画像取得部１４は、視差画像に限らず、静止画像を取得するカメラを備え、画像取得部１４で取得された音声取得部１６および音声出力部１８の大きさ、寸法、縮尺度等から、音声取得部１６および音声出力部１８の位置や距離等を特定して、発話者や第三者等の位置を特定しても良い。画像取得部１４は、動画を撮影できるビデオカメラでも良い。また、画像取得部１４のレンズは、魚眼レンズ等を用いて、広い範囲の画像を取得するようにしても良い。

本実施形態において、音声生成装置１２は、屋内の床の上に配置した例を示したが、花壇等に埋め込んで配置してもよい。これにより、歩行者の通行の妨げとなることを防止できる。また、屋内の景観を損ねることなく、音声生成装置１２を配置できる。なお、消音装置１０は、屋外に設けても良い。

本実施形態において、消音装置１０は、発話者の消音させたい第三者の位置を特定して、当該第三者に向けて逆位相となる音声信号を出力したが、複数の音声出力部を用いて、特定の領域全てを消音してもよい。また、音声出力部の数に対して、発話者の音声を減衰させたい第三者の数が多い場合、一つの音声出力部で複数の第三者に対して発話者の音声を減衰させてもよい。この場合、消音装置１０は、複数の第三者を検出して、当該複数の第三者の幾何学的な重心を算出し、当該重心位置に対して発話者の音声を減衰させる音声信号を出力してもよい。

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更または改良を加えることが可能であることが当業者に明らかである。その様な変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。

特許請求の範囲、明細書、および図面中において示した装置、システム、プログラム、および方法における動作、手順、ステップ、および段階等の各処理の実行順序は、特段「より前に」、「先立って」等と明示しておらず、また、前の処理の出力を後の処理で用いるのでない限り、任意の順序で実現しうることに留意すべきである。特許請求の範囲、明細書、および図面中の動作フローに関して、便宜上「まず、」、「次に、」等を用いて説明したとしても、この順で実施することが必須であることを意味するものではない。

１０、９０、９２消音装置、１２音声生成装置、１４画像取得部、１６、５４音声取得部、１７変更装置、１８、５２、５６、５８、６０、６２、６４音声出力部、２０、７８発話者、２２、２４、４８、５０、８２、８４第三者、２６、２８、３０範囲、３２位置取得部、３４音声生成部、３６記録部、３８位置データベース、４０声紋データベース、４２コントローラ、４４天井、４６スピーカ、６６、６８、７０、７２、７４領域、８０参加者、８６、８８花壇

Claims

発話者と第三者との位置関係を特定する位置取得部と、
前記位置取得部で取得した位置関係にいる前記第三者に到達する前記発話者からの音声を減衰させる音声信号を生成する音声生成部と、
を備える消音装置。
前記音声生成部は、
前記音声信号として、前記第三者に到達する前記発話者からの音声とは逆位相となる信号を生成する請求項１に記載の消音装置。
前記発話者の画像を取得する画像取得部と、
前記画像取得部により取得された前記画像に基づいて前記発話者の音声を推定する音声推定部と
をさらに備え、
前記音声生成部は、前記音声推定部により推定された音声に基づいて前記音声信号を生成する請求項１または２に記載の消音装置。
前記音声生成部は、前記音声信号を音声として出力する音声出力部をさらに備える請求項１または２に記載の消音装置。
前記音声出力部は、パラメトリックスピーカを含む請求項４に記載の消音装置。
前記音声出力部は、音声を出力する向きを変える変更装置を備え、
前記変更装置は、前記位置取得部による前記位置関係に基づいて、音声を出力する向きを前記第三者へ向ける請求項４または５に記載の消音装置。
前記音声出力部は、複数のスピーカを有する請求項４から６のいずれか１項に記載の消音装置。
前記音声出力部は、屋内の床と天井との少なくとも一方に設けられる請求項７に記載の消音装置。
前記音声生成部は、前記位置取得部により前記第三者が複数いることが取得された場合に、それぞれの位置関係に基づいて、複数の前記第三者に対応した複数の前記音声信号を生成し、
前記音声出力部は、前記複数の音声信号に基づいた音声を、前記複数のスピーカのそれぞれから出力する請求項７又は８に記載の消音装置。
前記音声生成部は、前記位置取得部からの前記位置関係に基づいて、前記第三者が前記音声出力部による音声が予め定められた大きさで到達する領域内にいると判断した場合に、前記音声信号を生成する請求項４から９のいずれか１項に記載の消音装置。
前記音声生成部は、前記位置取得部からの前記位置関係に基づいて、前記発話者と前記第三者とが予め定められた距離の範囲内と判断した場合に、前記音声信号を生成する請求項１から９のいずれか１項に記載の消音装置。
発話者と第三者との位置関係を取得する位置取得ステップと、
前記位置取得ステップで取得した位置関係にいる前記第三者に、前記第三者に到達する前記発話者からの音声を減衰させる音声信号を生成する音声生成ステップと
を備える消音方法。
前記音声生成ステップは、
前記音声信号として、前記第三者に到達する前記発話者からの音声とは逆位相となる信号を生成する請求項１２記載の消音方法。
前記発話者の画像を取得する画像取得ステップと、
前記画像取得ステップで取得された前記画像に基づいて前記発話者の音声を推定する音声推定ステップと、をさらに備え、
前記音声生成ステップは、
前記音声推定ステップにより推定された音声に基づいて前記音声信号を生成する請求項１２または１３に記載の消音方法。
前記音声生成ステップは、
前記音声信号を音声として出力する音声出力ステップをさらに有する請求項１２から１４のいずれか１項に記載の消音方法。