JP2014206683A - 消音装置および消音方法 - Google Patents

消音装置および消音方法 Download PDF

Info

Publication number
JP2014206683A
JP2014206683A JP2013084914A JP2013084914A JP2014206683A JP 2014206683 A JP2014206683 A JP 2014206683A JP 2013084914 A JP2013084914 A JP 2013084914A JP 2013084914 A JP2013084914 A JP 2013084914A JP 2014206683 A JP2014206683 A JP 2014206683A
Authority
JP
Japan
Prior art keywords
voice
speaker
sound
party
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013084914A
Other languages
English (en)
Inventor
芳之 山陸
Yoshiyuki Yamariku
芳之 山陸
正朝 水野
Masatomo Mizuno
正朝 水野
武志 川野
Takeshi Kawano
武志 川野
昌隆 森尾
Masataka Morio
昌隆 森尾
昌宏 逢坂
Masahiro Aisaka
昌宏 逢坂
彰 米沢
Akira Yonezawa
彰 米沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nikon Corp
Original Assignee
Nikon Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nikon Corp filed Critical Nikon Corp
Priority to JP2013084914A priority Critical patent/JP2014206683A/ja
Publication of JP2014206683A publication Critical patent/JP2014206683A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】第三者が移動すると、消音効果がなくなるという課題があった。【解決手段】消音装置であって、発話者と第三者との位置関係を特定する位置取得部と、位置取得部で取得した位置関係にいる第三者の位置に到達する発話者からの音声を減衰させる音声信号を生成する音声生成部とを備える。音声生成部は、音声信号として、第三者に到達する発話者からの音声とは逆位相の音声信号を生成してもよい。さらに、音声生成部は、音声信号を音声として出力する音声出力部を備えてもよい。【選択図】図1

Description

本発明は、消音装置および消音方法に関する。
発話者の音声とは逆位相の音声信号を作成して、固定位置に設けられたスピーカから、指定された位置にいる第三者に対して逆位相の音声信号を出力して、発話者の音声を消音するという装置が知られている(例えば、特許文献1参照)。
[先行技術文献]
[特許文献]
[特許文献1] 特開2010−19935号公報
しかし、上記装置は、第三者が移動すると、消音効果がなくなるという課題があった。
本発明の第1の態様においては、発話者と第三者との位置関係を特定する位置取得部と、位置取得部で取得した位置関係にいる第三者に到達する発話者からの音声を減衰させる音声信号を生成する音声生成部とを備える消音装置を提供する。
本発明の第2の態様においては、発話者と第三者との位置関係を取得する位置取得ステップと、位置取得ステップで取得した位置関係にいる第三者に、第三者に到達する発話者からの音声を減衰させる音声信号を生成する音声生成ステップとを備える消音方法を提供する。
なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではない。また、これらの特徴群のサブコンビネーションもまた、発明となりうる。
消音装置の構成を模式的に示す。 図1の上面図を示す。 消音装置の機能ブロック図を示す。 位置データベースの一例を示す。 消音装置の動作を説明するフローチャートである。 声紋データベースの一例を示す。 消音装置の別の動作を説明するフローチャートである。 他の消音装置の構成を模式的に示す断面図である。 他の消音装置の構成を模式的に示す。
以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではない。また、実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。
図1は、消音装置10の構成を模式的に示す。図2は、図1の上面図である。説明のため、図1および図2に示す例において、屋内には、携帯電話で話している発話者20と、音声を発しない二人の第三者22、24とがいるとする。
消音装置10は、例えば、病院のロビー、ホテルのエントランスホール、ミーティングルーム等の屋内に設けられる。消音装置10は、音声生成装置12と、画像取得部14と、音声取得部16と、音声出力部18とを備える。
画像取得部14は、屋内の天井に設けられる。画像取得部14は、当該屋内を撮像して、左右一対の画像を含む視差画像を生成し、音声生成装置12に出力する。画像取得部14の一例は、二眼のレンズおよび当該二眼のレンズのそれぞれに対応して、CCDまたはCMOSなどの撮像素子が一対設けられた、二眼のステレオカメラである。画像取得部14のレンズは、広角であることが好ましい。画像取得部14は、複数設けられていてもよい。画像取得部14が図1および図2に示す屋内を撮像したとすれば、音声取得部16、音声出力部18および三人の人物等を含む視差画像が生成される。なお、画像取得部14、音声取得部16、音声出力部18は、屋内の側壁、ライトなどの支柱、専用のラック等に設けられても良い。
音声取得部16は、発話者20が発話している音声を音声信号として取得する。音声取得部16の一例は、マイクである。音声取得部16は、複数設けられていてもよい。音声取得部16は、音声信号をアナログ信号またはデジタル信号として取得する。
音声生成装置12は、画像取得部14から視差画像を取得する。音声生成装置12は、視差画像内に含まれる音声取得部16と、音声出力部18と、人物等の位置を示す位置データとを算出する。図1および図2に示すように三人の人物が撮像画像に含まれていれば、当該三人の人物のそれぞれの位置データが算出される。さらに当該視差画像に基づいて、三人の人物のそれぞれが発話者20、第三者22、24と特定される。
音声生成装置12は、さらに、音声取得部16から音声の音声信号を取得する。音声生成装置12は、上記位置データで特定される位置関係にいる第三者22等の位置に到達する発話者20からの音声を減衰させる音声信号を生成して、音声出力部18に出力する。発話者20からの音声を減衰させる音声信号は、例えば、第三者22等の位置で、発話者20からの音声とは逆位相となる音声信号、発話者20の音声よりも大きな音量である音楽やニュース等の音声信号、発話者20からの音声と合成させることで発話者20からの音声を相対的に減衰させる音声信号等である。これによって、第三者等の位置で、発話者20からの音声を減衰させることができる。また、発話者20の会話内容を第三者に理解させなくすることができる。
音声出力部18は、音声生成装置12から入力された音声信号を音声として出力する。音声出力部18の一例は、指向性を有するパラメトリックスピーカである。パラメトリックスピーカは、周波数が一定の超音波と、変調された超音波とを同時に出力して、2つの超音波を重ねることにより、人に聞こえる音を再生する。これにより、出力する音声に指向性を付与できる。また、パラメトリックスピーカは、変調させた超音波から非線形特性によって可聴音を再生するスピーカであってもよい。音声出力部18は、さらに、音声を出力する方向を変える変更装置17を有する。
画像取得部14、音声取得部16および音声出力部18と、音声生成装置12とは、無線通信によりデータの出力および入力を行う。画像取得部14、音声取得部16および音声出力部18と、音声生成装置12とは、例えば、UWB(Ultra Wide Band)、ZigBee(登録商標)、Wi−Fi、Bluetooth(登録商標)、3G、および/または、LTE等の無線通信規格に準拠して通信する。
図2において、範囲26は、発話者20と第三者とが会話していると判断される距離により区画される領域である。範囲28は、発話者20の音声内容が理解できる距離により区画される領域であり、発話者20を中心とした範囲26よりも大径の円から範囲26を除いた範囲である。範囲30は、発話者20の音声の音量が小さくなり、内容が聞き取れなくなる領域であって、範囲28よりも外側の領域である。これらの範囲26、28、30は、予め実験等により設定される。なお、使用者がその目的や消音させたい領域の大きさに応じて、これらの範囲26、28、30を自由に設定できるように構成しても良い。
図3は、消音装置10の機能ブロック図を示す。消音装置10の音声生成装置12は、位置取得部32と、音声生成部34と、記録部36とを有する。
位置取得部32は、画像取得部14から視差画像を取得する。位置取得部32は、視差画像に基づいて、視差画像内に含まれる音声取得部16の位置、音声出力部18の位置、人物の位置をそれぞれ示す位置データを算出する。さらに、位置取得部32は、視差画像に基づいて、発話者20および第三者22、24を特定する。
音声生成部34は、音声取得部16から音声信号を取得する。音声生成部34は、発話者20から取得した音声に対して、位置取得部32で取得した位置関係にいる第三者22の位置に、発話者20からの音声を減衰させる音声信号を生成して、音声出力部18へ出力する。
記録部36は、音声取得部16の位置データと、音声出力部の位置データとを記録するデータベースと、発話者20等の位置データを記録する位置データベース38とを格納する。位置取得部32および音声生成部34の機能は、記録部36に格納されているプログラムを読み出して、音声生成装置12が有するMPU(Micro−Processing Unit)に当該プログラムを実行させることによって発揮されてもよい。
図4は、位置データベース38の一例を示す。位置データベース38は、人物を識別する識別番号の欄と、位置データの欄と、発話者の欄と、領域内の欄とを有する。
識別番号の欄には、視差画像内で認識された人物の識別番号が、画像取得部14に近い順に上から記録される。識別番号は例えば画像取得部14により付与される数字であり、図4においては説明の簡略化のため、図1で付した参照番号と同じ数字とした。
位置データの欄には、識別番号に対応する人物の位置を示す位置データが記録される。図4に示した例において、位置データは、画像取得部14を原点とするXY座標系におけるX座標およびY座標を有する。
発話者の欄には、識別番号に対応する人物が発話者であると特定された場合に、フラグ「1」が立てられる。発話者の欄の初期値は「0」である。
図4に示した例において、図1および図2に対応して、発話者20に対してフラグ「1」が立てられる。第三者22、24は発話者でないので、当該欄は「0」のままとなる。
範囲の欄には、識別番号に対応する人物が範囲28にいる場合に、フラグ「1」が立てられる。発話者と特定された人物の範囲の欄には、「−」が入力される。範囲の欄の初期値は「0」である。
図4に示した例において、図1および図2に対応して、発話者20に対して「−」が入力される。第三者22は、範囲28にいるので、フラグ「1」が立てられる。第三者24は、範囲30にいて、範囲28にいないので、当該欄は「0」のままとなる。なお、第三者が範囲26にいる場合にも当該欄は「0」となる。当該欄は、フラグ「1」と区別されればよいので、「2」又はその他の数値や記号、文章等が入力されても良い。
図5は、消音装置10の動作を説明するフローチャートである。当該動作は、消音装置10が使用者に起動されたときに開始する。
位置取得部32は、消音装置10の動作を行うために用いられる音声取得部16および音声出力部18等の位置を特定するために、画像取得部14から、音声取得部16および音声出力部18等の視差画像を取得して、音声取得部16および音声出力部18の位置データを算出して、記録部36に記録する(S101)。なお、音声取得部16および音声出力部18の位置データは、使用者が消音装置10の起動時に入力することや、事前に取得または入力された位置データを用いること等により、それぞれの位置を算出しても良い。
ステップS101に続いて、位置取得部32は、画像取得のタイミングが来たかどうかを判断する(S102)。位置取得部32は、画像取得のタイミングが来たと判断した場合に(S102:Yes)、画像取得部14から視差画像を取得する(S103)。一方、位置取得部32は、画像取得のタイミングが来ていないと判断した場合に(S102:No)、処理をステップS107へ進める。
画像取得のタイミングとしては、消音装置10が起動されて初回のステップS102においては、ステップS101が終了した直後、または、所定時間の経過後を画像取得のタイミングとする。また、既に初回のステップS102を行った後のステップS102においては、直前のステップが終了した直後、所定時間の経過後、画像取得部14で設定したフレームレート(画像取得部14が静止画像を取得する単位時間当たりの画像数)に同期したタイミング、画像取得部14のフレームレートよりも長いタイミング等を画像取得のタイミングとする。ステップS102が初回のステップS102であるか、既に初回のステップS102を行った後のステップS102であるかは、例えば位置データベース38に発話者の位置データが記録されているか否かで判断してもよい。
位置取得部32は、発話者および発話者の会話を減衰または消音させる人物等の位置を特定するために、画像取得部14から視差画像を取得する(S103)。位置取得部32は、視差画像に含まれる各人物の位置データを取得する(S104)。この場合に、位置取得部32は、例えば視差画像を特定の大きさのウィンドウで走査しつつ当該ウィンドウ内の画像と人物を示すテンプレート画像とを照合させるパターンマッチングを行うことにより、視差画像に人物の画像が含まれるか否かを判断してもよい。位置取得部32は、視差画像に人物の画像が含まれていると判断した場合に、当該視差画像内の人物の位置に基づいて、当該人物の、画像取得部14に対する方向を特定する。さらに位置取得部32は、視差画像における左右一対の画像に含まれる当該人物を互いにパターンマッチングして、左右一対の画像間の人物の位置の差、すなわち視差を取得することにより、画像取得部14から当該人物までの距離を算出する。位置取得部32は、距離および方向からそれぞれの人物について画像取得部14を原点とするXY座標系におけるX座標およびY座標で表される位置データを作成する。位置取得部32は、各人物に識別番号を割り付け、識別番号と位置データとを位置データベース38に記録する。
位置取得部32は、視差画像のいずれか一方または両方を用いて、発話者を特定できたかを判断する(S105)。この場合に、位置取得部32は、まず位置データベース38の発話者の欄をすべて初期化する。位置取得部32は、上記ステップS104で特定した人物のうち、視差画像において口を開けている人物、または、時系列に並んだ複数の視差画像間で口の形が変化した人物を、発話者であると特定する。位置取得部32は、位置データベース38の当該人物の識別番号に対応する発話者の欄にフラグ「1」をたてる。
位置取得部32は、位置データベース38の発話者の列の欄にフラグ「1」が1つある場合に、発話者を特定できたと判断する(S105:Yes)。一方、位置取得部32は、発話者の列の欄にフラグ「1」が1つもない場合または発話者の欄にフラグ「1」が複数ある場合に(S105:No)、処理をステップS103に戻す。すなわち、本実施形態では、位置取得部32は発話者が1人である場合に「発話者が特定できた」と判断する。
位置取得部32は、各人物の位置データに基づいて、第三者が範囲28内にいるか否かを判断する(S106)。この場合に、位置取得部32は、まず位置データベース38の範囲の列の欄をすべて初期化する。次に、位置取得部32は、発話者20の範囲の列の欄に「−」を書き込む。さらに、位置取得部32は、位置データベース38を参照して、上記ステップS105で特定された発話者の位置データが示す位置と、発話者以外の人物である第三者の位置データが示す位置との距離を算出し、当該距離に基づいて、当該第三者が範囲28にいるか否かを判断する。位置取得部32は、第三者が範囲28にいると判断した場合に、範囲の欄にフラグ「1」を立てる。
位置取得部32は、位置データベース38の範囲の欄に対してフラグ「1」が1つある場合に、位置取得部32は、第三者は範囲内にいると判断する(S106:Yes)。一方、位置取得部32は、範囲の欄に対してフラグ「1」が1つもない場合または範囲の欄に対してフラグ「1」が複数ある場合に(S106:No)、処理をステップS103へ戻す。すなわち、本実施形態では、位置取得部32は第三者が1人である場合に「第三者が範囲内にいる」と判断する。
音声生成部34は、音声を取得できたかを判断する(S107)。音声生成部34は、音声取得部16より取得した音声信号の強度が予め定められた閾値以上である場合に、音声を取得できたと判断する(S107:Yes)。一方、音声取得部16より取得した音声信号の強度が、上記閾値より小さい場合に、音声を取得できないと判断して(S107:No)、処理をステップS103へ戻す。
音声生成部34は、音声取得部16から取得した音声に対して、位置取得部32で取得した位置関係にいる第三者22の位置に、発話者20からの音声を減衰させる音声信号を生成する(S108)。この場合に、音声生成部34は、記録部36から、音声取得部16の位置データと、音声出力部18の位置データとを読み出す。さらに音声生成部34は、位置データベース38から、発話者20の位置データと、範囲28にいる第三者22の位置データとを取得する。これらの位置データに基づいて、音声生成部34は、音声取得部16と発話者20までの距離L1と、音声出力部18と第三者22までの距離L2と、発話者20と第三者22までの距離L3を算出する。これら距離L1、L2、L3および発話者20の音声信号に基づいて、音声生成部34は、第三者22の位置において、発話者20の音声を減衰させる音声信号を生成する。
音声生成部34はさらに、音声出力部18の位置データと第三者22の位置データとから音声出力部18に対する第三者22の向きを特定する。これにより音声生成部34は音声出力部18の出力方向を第三者22の向きに合せるデータを算出する。音声生成部34は、音声出力部18の向きに関するデータを音声出力部18に出力するとともに、発話者の音声を減衰させる音声信号を音声出力部18に出力する。
音声出力部18は、音声出力部18の向きに関するデータに基づいて、変更装置17を駆動して出力方向を第三者22に向ける(S109)。音声出力部18は、第三者22に発話者20の音声を減衰させる音声信号を音声として出力する(S110)。これにより、第三者22の位置において発話者20の音声が減衰される。また、変更装置17は、第三者の動きを追随することによって、第三者が動いても、発話者20の音声を減衰させる音声信号を第三者に出力する。これによって、第三者が動いても、発話者20の会話が第三者に聞こえないようにすることができる。なお、変更装置17は、音声が聞こえる位置を自由に制御できる音声信号を用いて、第三者に向ける音声を制御しても良い。例えば、音声出力部18は複数のスピーカを備え、変更装置17が各スピーカから出力される音声の大きさ、周波数、時間、タイミング等を制御することによって、音声が聞こえる位置を自由に制御することができる。これによって、変更装置17を駆動することが不要であり、変更装置17を小型化できる。また、変更装置17は、音声信号の大きさ、方向、音声を発生させるスピーカ面の曲率などを変更することで、音声を伝達する距離や範囲などを変更しても良い。
音声生成部34は、消音装置10の終了が選択されたかを判断する(S111)。消音装置10の終了は、使用者が消音装置10の終了ボタンを操作することや所定時間後に終了が選択されるタイマーを用いること等により選択される。音声生成部34は、消音装置10の終了が選択されていないと判断した場合(S111:No)、音声生成部34は、処理をステップS103に戻す。一方、音声生成部34は、消音装置10の終了が選択されたと判断した場合(S111:Yes)、音声生成部34は、消音装置10を終了させて、消音装置10の動作処理が終了する。
上記音声生成装置12によれば、第三者22が移動しても、当該第三者22に対して発話者20の音声を減衰させる音声信号を生成できる。特に、音声生成装置12の音声生成部34が、第三者22に到達する発話者20からの音声とは逆位相となる音声信号を生成する場合は、音声生成装置12は、第三者22が移動しても、第三者22に対して、発話者20の音声を打ち消すことができる。
音声出力部18はパラメトリックスピーカを含むので、消音装置10は、発話者20の音声を減衰させる音声信号に指向性を付与でき、他の第三者に影響を与えることなく目的とする第三者に対して発話者20の音声を減衰させることができる。また、音声出力部18は、音声を出力する向きを変える変更装置17を備えるので、第三者22の動きに追従して、発話者20の音声を減衰させることができる。
また、音声生成装置12の音声生成部34は、第三者22が範囲28にいると判断した場合に、発話者20の音声を減衰させる音声信号を生成する。これにより、音声生成装置12は、範囲26で発話者20が会話している第三者に対して音声を減衰させずに、発話者と会話していない第三者であって、発話者20の音声内容が聞こえてしまう第三者に対して当該発話内容が聞こえないようにすることができる。発話者と会話していない第三者に、発話者20からの音声とは逆位相となる音声信号を生成すれば、当該発話内容を消音できる。
なお、本実施形態において、位置取得部32は、発話者20を中心とした範囲26、28、30を規定したが、これに加えて、またはこれとは別に、音声出力部18を中心とした領域を規定してもよい。この場合に、位置取得部32は、音声出力部18による音声が予め定められた大きさで到達する領域内にいる第三者を消音すべき対象者と特定して、当該領域外にいる第三者を消音すべき対象者として特定しないとしてもよい。これにより、消音動作を効率化できる。
音声生成装置12および位置取得部32は、音声取得部16、音声出力部18、人物等の相対的な位置関係を含む情報を取得して、位置データベース38に記憶し、音声信号の制御に用いても良い。また、画像取得部14は、視差画像内に含まれる音声取得部16、音声出力部18、人物等の位置またはそれぞれの相対的な位置関係を算出し、音声生成装置12にその結果を送信するように構成しても良い。これによって、音声生成装置12は、画像取得部14からの結果に基づいて、音声を生成することができ、音声生成装置12を小型化できる。また、送信するデータ量を減少させることができるので、消音装置10の処理速度を向上させることができる。
図6は、声紋データベース40の一例を示す。図7は、消音装置10の別の動作を説明するフローチャートである。声紋データベース40は、図7に示す消音装置10の別の動作処理に使用される。声紋データベース40は、人物IDの欄と、顔画像データの欄と、声紋データの欄と、発話者の欄とを有する。
人物IDの欄には、使用者により音声生成装置12に予め登録された人物の人物IDが記録される。なお、人物IDは、声紋データベース40に人物を登録すると、音声生成装置12より自動的に付与される記号である。
顔画像データの欄には、人物ID欄に記録された人物の顔画像データが記録される。顔画像データは、人物を特定するデータの一例である。声紋データの欄には、人物ID欄に記録された人物の声紋データが記録される。
発話者の欄には、人物IDの欄に記録された人物が発話者であると特定された場合にフラグ「1」が立てられる。発話者の欄の初期値は「0」である。
図7は、消音装置10の別の動作を説明するフローチャートである。当該動作フローは、は、ステップS201、ステップS202、ステップS203およびステップS204の処理が異なる点を除いて、図5に示した動作フローと同じである。ここでは、ステップS201、ステップS202、ステップS203およびステップS204の処理について説明する。
ステップS104に続いて、位置取得部32は、発話者20の人物IDを特定できたかを判断する(S201)。位置取得部32はまず、声紋データベース40の発話者の欄を初期化する。さらに位置取得部32は、ステップS105と同じ処理で発話者を特定する。つぎに、位置取得部32は視差画像のいずれか一方、または両方における発話者の画像データと、声紋データベース40の顔画像データとをパターンマッチングすることにより、発話者20の人物IDを特定する。位置取得部32は、人物IDが特定された場合に、声紋データベース40における当該人物IDの発話者の欄にフラグ「1」を立てる。
声紋データベース40の発話者の列の欄に対してフラグ「1」が1つある場合に、位置取得部32は、発話者が特定できたと判断する(S201:Yes)。一方、声紋データベース40の発話者の列の欄に対してフラグ「1」がない場合、またはフラグ「1」が複数ある場合に(S201:No)、位置取得部32は、処理をステップS103に戻す。
ステップS106において、位置取得部32は、第三者22が範囲28内にいると判断した場合(S106:Yes)、またはステップS102において、位置取得部32が画像取得のタイミングが来てないと判断した場合(S102:No)、位置取得部32は、発話者20の口の動きを取得できたかを判断する(S202)。位置取得部32は、発話者20の口の動きを取得できたと判断した場合(S202:Yes)、発話者20の口の動きを記録した画像データを音声生成部34に出力する。一方、発話者20の口の動きを取得できないと判断した場合(S202:No)、処理をステップS103へ戻す。
音声生成部34は、発話者20の口の動きを記録した画像データに基づいて、発話者20の口部の動きに対応した言葉を推定する(S203)。例えば、記録部36に予め50音、濁音、破裂等を発音したときの口の画像データを記録しておき、音声生成部34は、当該画像データと、口の動きを記録した画像データとの一致度によって、発話者20の言葉を推定する。音声生成部34は、発話者20の言葉に対応した声紋を、声紋データベース40から読み出して、推定された言葉に対応した音声信号を作成する(同ステップ)。これにより音声生成部34は、発話者20の音声を推定する音声推定部としての役割を担う。
音声生成部34は、距離L1、L2、L3およびステップS203で作成した音声信号に基づいて、音声生成部34は、第三者22の位置において、作成した音声信号に対して逆位相となる音声信号を生成する(S204)。音声生成部34は、音声出力部18の向きに関するデータを音声出力部18に出力するとともに、発話者20の音声に対して逆位相となる音声信号を、発話者の音声が第三者22に届く前に打ち消すように時間を合せて、音声出力部18に出力する。
音声生成装置12は、少なくとも発話者20の音声内容が第三者22に理解できない程度に音声を減衰させればよい。したがって、発話者20の口の動きを記録した画像データから推定された言葉は、発話者20から実際に発せられた言葉と一致しなくてもよい。
音声生成装置12は、画像取得部14により取得された画像に基づいて発話者20の音声を推定した音声に基づいて音声信号を生成する。これにより、音声生成装置12は、消音したい発話者20の音声取得までの時間を短縮できる。なおこの場合には、音声取得部16を設けなくてもよい。
図8は、他の消音装置90の構成を模式的に示す断面図である。図8において、図1と共通の要素には同じ参照番号を付して重複する説明を省く。消音装置90は、音声生成装置12と、画像取得部14と、音声取得部16と、音声出力部52とを有する。音声出力部52は、コントローラ42と、屋内の天井44に埋め込まれて設けられる複数のスピーカ46とを有する。
スピーカ46は、屋内の天井44にマトリックス状に埋め込まれて配置される。コントローラ42は、各スピーカ46の位置データを記録している。コントローラ42は、第三者48の位置データを取得する。コントローラ42は、第三者の位置データに合致するスピーカ46を選択する。コントローラ42は、選択したスピーカ46から第三者48に向けて発話者20の音声に対して逆位相となる音声を出力する。
スピーカ46は、同じ高さの天井44に埋め込まれて設けられている。したがって、第三者48が前方向に動いて第三者50の位置に移動したとしても、音声を出力するスピーカ46を変更することによって、スピーカ46と第三者50との距離を一定に保つことができる。
消音装置90において、音声出力部52は屋内の天井44に設けたが、音声出力部52は、屋内の床に設けてもよく、天井および床の両方に設けてもよい。また、スピーカ46のみを天井、および/または床に設けて、コントローラ42は、他の場所に設置してもよい。スピーカ46は、屋内の天井44に吊り下げられて配置されても良いし、屋内の壁面や専用のラック等に設けても良い。
上記消音装置90の音声出力部52は複数のスピーカ46を有するので、消音できる範囲を広げることができる。また、消音装置90の音声出力部52のスピーカ46は、屋内の床と天井との少なくとも一方に設けられる。これにより、スピーカ46と第三者との位置を一定に保つことができるので、一度、スピーカと第三者との距離を測定すれば、以後の測定は不要となるので、消音装置90は、逆位相信号の作成速度を早めることができる。
スピーカ46は変更装置17を備え、第三者の動きを追随して、発話者20の音声を減衰させる音声信号を第三者に向けて出力するようにスピーカ46を駆動しても良い。
図9は、他の消音装置92の構成を模式的に示す。図9において、図1と共通の要素には同じ参照番号を付して重複する説明を省く。消音装置92は、画像取得部14と、複数の音声取得部54と、音声出力部56、58、60、62、64と、音声生成装置12とを有する。
発話者78は、複数の参加者80と会話している。複数の音声取得部54は、発話者78と複数の参加者80に対応付けて配置されている。複数の音声取得部54は、それぞれ固有のIPアドレスを有する。音声生成装置12は、複数の音声取得部54の位置データをIPアドレスに対応付けて記録している。
音声出力部56、58、60、62、64は、発話者78と複数の参加者80の外周に沿って、出力の方向を外側に向けて配置されている。音声生成装置12は、音声出力部56、58、60、62、64の位置データを記録している。
音声生成装置12は、複数の音声取得部54の中心を基準とした範囲26と、範囲28と、範囲30とを特定する。更に、音声生成装置12は、範囲28を音声出力部と同じ数である5つの領域66、68、70、72、74に分割する。音声生成装置12は、分割した領域を消音する音声出力部をそれぞれ定める。
例えば初期設定として、領域66に音声出力部56が設定される。領域68に対して音声出力部58が設定される。同様に、領域70に対して音声出力部60、領域72に対して音声出力部62、領域74に対して音声出力部64がそれぞれ設定される。
図9の例において、第三者84は領域72を歩いている。したがって、音声生成装置12の音声生成部34は、上記初期設定に従い音声出力部62に発話者78の音声に対して逆位相となる音声信号を出力する。音声出力部62は、第三者84に向けて当該音声信号に基づいた音声を出力して、発話者78の音声を第三者84の位置で消音する。
領域と音声出力部との関係は上記初期設定から動的に変更されてもよい。例えば、第三者82が領域70を歩いている場合に、上記初期設定によれば音声出力部60が用いられる。しかし、音声出力部60と第三者82の間には、花壇88があり、音声出力部60の消音を妨げる。そこで、音声出力部60とは異なる音声出力部が用いられてもよい。
この場合に、音声生成装置12の位置取得部32は、視差画像から花壇86、88の位置データを算出する。音声生成部34は、第三者82の位置データから第三者82が領域70にいることを確認すると、上記初期設定に基づき音声出力部60を仮決めする。音声生成部34は、音声出力部60と第三者82との間に障害物があるかを判断する。
音声生成部34は、音声出力部60と第三者82との間に花壇88があると判断した場合に、第三者82が、領域70の領域68側にいるのか、領域72側にいるのか、再び第三者82の位置データから判断する。音声生成部34は、第三者82が領域70の領域68側にいると判断した場合に、音声出力部60の仮決めを解除して、音声出力部60の左側にある音声出力部58を仮決めする。音声生成部34は、音声出力部58と第三者82の間に障害物が無いと判断した場合に、第三者82を消音する音声出力部として音声出力部58を特定する。
音声生成部34は、特定した音声出力部58に発話者78の音声に対して逆位相となる音声信号を、発話者78の音声が第三者82に届く前に打ち消すように時間を合せて、音声出力部58に出力する。音声出力部58は、第三者82に向けて、当該音声信号に基づいた音声を出力して発話者78の音声を消音する。
なお、図5に示したフローチャートのステップS106は、位置データベース38における領域66等に対応する範囲の欄に立てられたフラグ「1」の数の合計が、予め定められた数以下であった場合に、第三者が範囲内にいると判断する(S106:Yes)。一方、当該範囲の欄に立てられたフラグ「1」がない場合またはフラグ「1」の数の合計が上記数より多い場合に(S106:No)、位置取得部32は、処理をステップS103へ戻す。上記予め定められた数の一例は、音声出力部の個数である。図9で5個の音声出力部56、58、60、62、64があることに対応して当該予め定められた数は「5」である。また、位置データベース38および声紋データベース40は、フラグが入力される場合に限らず、数値、記号、文章などが入力される構成でも良い。位置取得部32は、それらの情報に基づいて判断しても良い。
音声生成部34は、位置取得部32により第三者が複数いることが取得された場合に、第三者82および84の位置データに基づいて、発話者78の音声に対し逆位相となる音声信号をそれぞれ生成する。音声生成部34は、当該音声信号を対応する音声出力部58および62に出力する。音声出力部58、62は、当該音声信号に基づいた音声を、第三者82、84に向けて出力する。
このように、消音装置92は、複数の音声出力部56、58、60、62、64を有しており、複数の第三者に対して、それぞれの第三者に対して特定された音声出力部58、62から発話者78の音声を減衰させる音声を出力できる。これにより、消音装置92は、複数の第三者に対して発話者78の音声を減衰することができる。
また、音声生成部34は、障害物の有無と第三者との距離とを考慮して音声出力部を特定する。これにより、消音装置92は、発話者78の音声を障害物に邪魔されることなく消音できる。
また、音声取得部54のそれぞれは、取得した発話者の音声を、自身のIPアドレスに対応付けて音声生成装置12へ出力する。よって、音声生成部34は、取得された音声のIPアドレスから、発話者78の特定を行ってもよい。音声生成部34は、当該IPアドレスに対応する音声取得部54に近接する人物を発話者であると判断してもよく、当該IPアドレスを有する音声取得部54の位置データを発話者の位置データに用いてもよい。これにより、消音装置92は発話者78を容易に特定できる。
本実施形態において、画像取得部14として二眼のステレオカメラを用いた例を示したが、画像取得部14として、一眼で視差画像を取得できるカメラでもよく、ライトフィールドカメラを用いて発話者等の位置データを取得してもよい。また、画像取得部14は、視差画像に限らず、静止画像を取得するカメラを備え、画像取得部14で取得された音声取得部16および音声出力部18の大きさ、寸法、縮尺度等から、音声取得部16および音声出力部18の位置や距離等を特定して、発話者や第三者等の位置を特定しても良い。画像取得部14は、動画を撮影できるビデオカメラでも良い。また、画像取得部14のレンズは、魚眼レンズ等を用いて、広い範囲の画像を取得するようにしても良い。
本実施形態において、音声生成装置12は、屋内の床の上に配置した例を示したが、花壇等に埋め込んで配置してもよい。これにより、歩行者の通行の妨げとなることを防止できる。また、屋内の景観を損ねることなく、音声生成装置12を配置できる。なお、消音装置10は、屋外に設けても良い。
本実施形態において、消音装置10は、発話者の消音させたい第三者の位置を特定して、当該第三者に向けて逆位相となる音声信号を出力したが、複数の音声出力部を用いて、特定の領域全てを消音してもよい。また、音声出力部の数に対して、発話者の音声を減衰させたい第三者の数が多い場合、一つの音声出力部で複数の第三者に対して発話者の音声を減衰させてもよい。この場合、消音装置10は、複数の第三者を検出して、当該複数の第三者の幾何学的な重心を算出し、当該重心位置に対して発話者の音声を減衰させる音声信号を出力してもよい。
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更または改良を加えることが可能であることが当業者に明らかである。その様な変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。
特許請求の範囲、明細書、および図面中において示した装置、システム、プログラム、および方法における動作、手順、ステップ、および段階等の各処理の実行順序は、特段「より前に」、「先立って」等と明示しておらず、また、前の処理の出力を後の処理で用いるのでない限り、任意の順序で実現しうることに留意すべきである。特許請求の範囲、明細書、および図面中の動作フローに関して、便宜上「まず、」、「次に、」等を用いて説明したとしても、この順で実施することが必須であることを意味するものではない。
10、90、92 消音装置、12 音声生成装置、14 画像取得部、16、54 音声取得部、17 変更装置、18、52、56、58、60、62、64 音声出力部、20、78 発話者、22、24、48、50、82、84 第三者、26、28、30 範囲、32 位置取得部、34 音声生成部、36 記録部、38 位置データベース、40 声紋データベース、42 コントローラ、44 天井、46 スピーカ、66、68、70、72、74 領域、80 参加者、86、88 花壇

Claims (15)

  1. 発話者と第三者との位置関係を特定する位置取得部と、
    前記位置取得部で取得した位置関係にいる前記第三者に到達する前記発話者からの音声を減衰させる音声信号を生成する音声生成部と、
    を備える消音装置。
  2. 前記音声生成部は、
    前記音声信号として、前記第三者に到達する前記発話者からの音声とは逆位相となる信号を生成する請求項1に記載の消音装置。
  3. 前記発話者の画像を取得する画像取得部と、
    前記画像取得部により取得された前記画像に基づいて前記発話者の音声を推定する音声推定部と
    をさらに備え、
    前記音声生成部は、前記音声推定部により推定された音声に基づいて前記音声信号を生成する請求項1または2に記載の消音装置。
  4. 前記音声生成部は、前記音声信号を音声として出力する音声出力部をさらに備える請求項1または2に記載の消音装置。
  5. 前記音声出力部は、パラメトリックスピーカを含む請求項4に記載の消音装置。
  6. 前記音声出力部は、音声を出力する向きを変える変更装置を備え、
    前記変更装置は、前記位置取得部による前記位置関係に基づいて、音声を出力する向きを前記第三者へ向ける請求項4または5に記載の消音装置。
  7. 前記音声出力部は、複数のスピーカを有する請求項4から6のいずれか1項に記載の消音装置。
  8. 前記音声出力部は、屋内の床と天井との少なくとも一方に設けられる請求項7に記載の消音装置。
  9. 前記音声生成部は、前記位置取得部により前記第三者が複数いることが取得された場合に、それぞれの位置関係に基づいて、複数の前記第三者に対応した複数の前記音声信号を生成し、
    前記音声出力部は、前記複数の音声信号に基づいた音声を、前記複数のスピーカのそれぞれから出力する請求項7又は8に記載の消音装置。
  10. 前記音声生成部は、前記位置取得部からの前記位置関係に基づいて、前記第三者が前記音声出力部による音声が予め定められた大きさで到達する領域内にいると判断した場合に、前記音声信号を生成する請求項4から9のいずれか1項に記載の消音装置。
  11. 前記音声生成部は、前記位置取得部からの前記位置関係に基づいて、前記発話者と前記第三者とが予め定められた距離の範囲内と判断した場合に、前記音声信号を生成する請求項1から9のいずれか1項に記載の消音装置。
  12. 発話者と第三者との位置関係を取得する位置取得ステップと、
    前記位置取得ステップで取得した位置関係にいる前記第三者に、前記第三者に到達する前記発話者からの音声を減衰させる音声信号を生成する音声生成ステップと
    を備える消音方法。
  13. 前記音声生成ステップは、
    前記音声信号として、前記第三者に到達する前記発話者からの音声とは逆位相となる信号を生成する請求項12記載の消音方法。
  14. 前記発話者の画像を取得する画像取得ステップと、
    前記画像取得ステップで取得された前記画像に基づいて前記発話者の音声を推定する音声推定ステップと、をさらに備え、
    前記音声生成ステップは、
    前記音声推定ステップにより推定された音声に基づいて前記音声信号を生成する請求項12または13に記載の消音方法。
  15. 前記音声生成ステップは、
    前記音声信号を音声として出力する音声出力ステップをさらに有する請求項12から14のいずれか1項に記載の消音方法。
JP2013084914A 2013-04-15 2013-04-15 消音装置および消音方法 Pending JP2014206683A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013084914A JP2014206683A (ja) 2013-04-15 2013-04-15 消音装置および消音方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013084914A JP2014206683A (ja) 2013-04-15 2013-04-15 消音装置および消音方法

Publications (1)

Publication Number Publication Date
JP2014206683A true JP2014206683A (ja) 2014-10-30

Family

ID=52120248

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013084914A Pending JP2014206683A (ja) 2013-04-15 2013-04-15 消音装置および消音方法

Country Status (1)

Country Link
JP (1) JP2014206683A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106211008A (zh) * 2016-08-28 2016-12-07 吴浩 一种多功能扩音消音器
JP2018165998A (ja) * 2016-06-13 2018-10-25 日本電気株式会社 応対装置、応対システム、応対方法、及び記録媒体
CN111883103A (zh) * 2020-06-19 2020-11-03 马上消费金融股份有限公司 语音合成的方法及装置
JP2021149697A (ja) * 2020-03-19 2021-09-27 ヤフー株式会社 出力装置、出力方法及び出力プログラム
WO2022181013A1 (ja) * 2021-02-24 2022-09-01 パナソニックIpマネジメント株式会社 会議システム

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018165998A (ja) * 2016-06-13 2018-10-25 日本電気株式会社 応対装置、応対システム、応対方法、及び記録媒体
US11430207B2 (en) 2016-06-13 2022-08-30 Nec Corporation Reception apparatus, reception system, reception method and storage medium
US11514663B2 (en) 2016-06-13 2022-11-29 Nec Corporation Reception apparatus, reception system, reception method, and storage medium
US11850728B2 (en) 2016-06-13 2023-12-26 Nec Corporation Reception apparatus, reception system, reception method, and storage medium
CN106211008A (zh) * 2016-08-28 2016-12-07 吴浩 一种多功能扩音消音器
JP2021149697A (ja) * 2020-03-19 2021-09-27 ヤフー株式会社 出力装置、出力方法及び出力プログラム
US11763831B2 (en) 2020-03-19 2023-09-19 Yahoo Japan Corporation Output apparatus, output method and non-transitory computer-readable recording medium
JP7405660B2 (ja) 2020-03-19 2023-12-26 Lineヤフー株式会社 出力装置、出力方法及び出力プログラム
CN111883103A (zh) * 2020-06-19 2020-11-03 马上消费金融股份有限公司 语音合成的方法及装置
CN111883103B (zh) * 2020-06-19 2021-12-24 马上消费金融股份有限公司 语音合成的方法及装置
WO2022181013A1 (ja) * 2021-02-24 2022-09-01 パナソニックIpマネジメント株式会社 会議システム

Similar Documents

Publication Publication Date Title
EP3081011B1 (en) Name-sensitive listening device
US10425717B2 (en) Awareness intelligence headphone
JP5499633B2 (ja) 再生装置、ヘッドホン及び再生方法
JP6651989B2 (ja) 映像処理装置、映像処理方法、及び映像処理システム
CA2747709C (en) Host mode for an audio conference phone
US10075801B2 (en) Information processing system and storage medium
JP2014206683A (ja) 消音装置および消音方法
US10547956B2 (en) Method of operating a hearing aid, and hearing aid
WO2017010999A1 (en) Techniques for generating multiple auditory scenes via highly directional loudspeakers
US20220174395A1 (en) Auditory augmented reality using selective noise cancellation
US10529358B2 (en) Method and system for reducing background sounds in a noisy environment
JP2009178783A (ja) コミュニケーションロボット及びその制御方法
CN110545504A (zh) 个人听力装置、外部声音处理装置及相关计算机程序产品
JP2019184809A (ja) 音声認識装置、音声認識方法
JP6607220B2 (ja) スピーカ位置特定システム、スピーカ位置特定装置、及びスピーカ位置特定方法
US8635064B2 (en) Information processing apparatus and operation method thereof
JP6874437B2 (ja) コミュニケーションロボット、プログラム及びシステム
JP2010506526A (ja) 補聴器の動作方法、および補聴器
ES2692828T3 (es) Procedimiento de asistencia en el seguimiento de una conversación para una persona con problemas de audición
US9930467B2 (en) Sound recording method and device
US9870762B2 (en) Steerable loudspeaker system for individualized sound masking
JP6569853B2 (ja) 指向性制御システム及び音声出力制御方法
JP6813176B2 (ja) 音声抑制システム及び音声抑制装置
WO2012105844A1 (en) Method for enhancing audio performance by selective capturing and processing of audio from a set of microphones
WO2021010011A1 (ja) 情報処理装置、情報処理方法及びプログラム