JP5489778B2

JP5489778B2 - 情報処理装置およびその処理方法

Info

Publication number: JP5489778B2
Application number: JP2010040598A
Authority: JP
Inventors: 英生久保山
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2010-02-25
Filing date: 2010-02-25
Publication date: 2014-05-14
Anticipated expiration: 2030-02-25
Also published as: US8635064B2; JP2011175182A; US20110208516A1

Description

本発明は、スピーカ等から出力される音の一部を聞き取り難くする技術に関する。

近年、遠隔地に設置された監視カメラと通信ネットワークを介して接続された表示ディスプレイ等を用いて、当該監視カメラが撮影した映像を見ることが可能である。また、監視カメラと共にマイクロフォンが設置されていれば、当該マイクロフォンと通信ネットワークを介して接続されたスピーカ等を用いて、当該マイクロフォンが収録した音を聞くことが可能である。

即ち、視聴者は、遠隔地に設置された監視カメラとマイクロフォンが取得した情報から、当該遠隔地の様子を臨場感豊かに認識できる。

しかしながら、マイクロフォンが収録した音には、人の声が含まれる場合があるため、収録した音をそのまま視聴者に聞かせると、話者の意思とは関係なく、個人情報、機密情報等が視聴者に知られてしまう可能性がある。

そこで、特許文献１には、人の声等のオーディオ信号を構成するスペクトルを周波数軸に沿って並べたときに得られるスペクトル包絡における各山（以下、ホルマントとする。）を減衰させ、発声内容を識別し難くする技術が提案されている。

特開２００７−２４３８５６号公報

特許文献１に提案されている技術を用いると、遠隔地のおおよその音を知覚することが可能であるが、マイクロフォンが収録した音に含まれるはっきりと識別できる人の声が示す発声内容については、識別し難くなる。

しかしながら、例えば、視聴者がスピーカのボリュームを調節して注意深く聞くと、マイクロフォンが収録した音に含まれる人の声のうち、はっきりとは識別することはできないが、かろうじて識別できる声については、発声内容を識別できてしまう可能性がある。

そこで、本発明は、所定のマイクロフォンが収録した音に含まれる声のうち、注意深く聞くと発声内容を識別できてしまう声を、聞き取り難くすることを目的とする。

上記の課題を解決するために、本発明の情報処理装置は、第１の収録装置から収録された第１の音と、前記第１の収録装置と異なる第２の収録装置から収録され、かつ、前記第１の音と同じ音源の音を含む第２の音とを取得する取得手段と、前記前記第１の音を周波数分析して、声を示す周波数帯域を決定する決定手段と、前記第２の音を示す周波数成分のうち、前記周波数帯域の周波数成分を変更する変更手段と、前記周波数帯域の周波数成分が変更された前記第２の音を出力する出力手段とを有する。

本発明によって、所定のマイクロフォンが収録した音に含まれる声のうち、注意深く聞くと発声内容を識別できてしまう声を聞き取り難くすることが可能となる。

情報処理システムの一例を模式的に示す図である。収録装置１００、情報処理装置１８０の構成の一例を示す図である。収録装置１００ａ、１００ｂのそれぞれが音を収録した場合の様子を示す図である。収録装置１００ａ、１００ｂのそれぞれが音を収録した場合の様子を示す図である。情報処理装置１８０ａ、情報処理装置１８０ｂの構成の一例を示す図である。収録した音に含まれる人の声を聞き取り難くする処理を示すフローチャートである。マスク情報を統合する処理を模式的に示す図である。マスクする処理の時間的な流れを示す図である。情報処理装置９１０の機能構成を示す機能ブロック図であるマスク情報を生成する過程、マスクする過程を示すフローチャートである。情報処理装置１９０ａ、情報処理装置１９０ｂの構成の一例を示す図である。収録した音に含まれる人の声を聞き取り難くする処理を示すフローチャートである。送信対象を選択する処理の流れを示すフローチャートである。送信対象を選択する処理の流れを示すフローチャートである。

（第１の実施形態）
図１（ａ）は、本発明に係る情報処理システムの一例を模式的に示す図である。

同図において、本情報処理システムは、収録装置１００ａ、１００ｂ、１００ｃ、出力装置１２０、ネットワーク１４０を有する。以下、本情報処理システムが有する各要素について説明する。

収録装置１００ａ、１００ｂ、１００ｃは、例えば、映像を撮影する監視カメラ、音を収録するマイクロフォン等から構成され、映像を撮影及び音を取得する。出力装置１２０は、例えば、映像を表示するディスプレイ、音を出力するスピーカ等から構成され、前述した収録装置が撮影した映像や収録した音を、視聴者に提供する。ネットワーク１４０は、収録装置１００ａ、１００ｂ、１００ｃと出力装置１２０とを接続し、収録装置同士あるいは、収録装置１００ａ、１００ｂ、１００ｃと出力装置１２０との通信を可能とする。

尚、本実施形態において、本情報処理システムは３個の収録装置を有するが、収録装置の個数は、３個に限られない。また、収録装置の個数が多くなった場合において、収録装置同士の通信は、音の収録範囲が重なる収録装置同士のみに制限しても良い。即ち、収録装置１００ａ、１００ｂ、１００ｃの収録範囲を、それぞれ範囲１６０ａ、１６０ｂ、１６０ｃとすると、収録装置１００ａと１００ｃとは必ずしも通信可能でなくとも良い。尚、各収録装置の収録範囲とは、例えば、収録装置の設置位置や向き、収録装置が収録した音の音量等に基づいて決定される空間とする。

また図１（ｂ）は、本発明に係る情報処理システムを設置した空間を横方向から見た図である。図１（ｂ）に示す各要素については、図１（ａ）に示す各要素と同じ符号を付し、その説明を省略する。

図２（ａ）は、前述した収録装置１００ａ、１００ｂ、１００ｃのそれぞれに相当する収録装置１００のハードウェア構成の一例を示す図である。尚、収録装置１００は、カメラ１０９、マイクロフォン１１０、情報処理装置１８０からなる。

情報処理装置１８０は、ＣＰＵ（中央演算装置）１０１、ＲＯＭ（リードオンリメモリ）１０２、ＲＡＭ（ランダムアクセスメモリ）１０３、記憶媒体１０４、映像入力Ｉ／Ｆ（インタフェース）１０５、音声入力Ｉ／Ｆ１０６、通信Ｉ／Ｆ１０７を有する。尚、上記の各要素はシステムバス１０８を介して接続されている。以下、各要素について説明する。

ＣＰＵ１０１は、ＲＯＭ１０２に格納されたプログラムをＲＡＭ１０２に展開し、実行することで後述する各機能ブロックを実現する。ＲＯＭ１０２は、ＣＰＵ１０１によって実行されるプログラムを格納する。ＲＡＭ１０３は、ＲＯＭ１０２に格納されたプログラムを展開するためのワークエリアを提供する。記憶媒体１０４は、後述する各種の処理を実行した結果として出力されたデータ等を記憶する。

映像入力Ｉ／Ｆ１０５は、カメラ１０９が撮影した映像を取得する。音声入力Ｉ／Ｆ１０６は、マイクロフォン１１０が収録した音を取得する。通信Ｉ／Ｆ１０７は、ネットワーク１４０を介して各種データを送受信する。

図２（ｂ）は、情報処理装置１８０の機能構成の一例を示す機能ブロック図である。情報処理装置１８０は、音声入力部１８１、音声区間検出部１８２、マスク情報生成部１８３、マスク情報出力部１８４、マスク情報入力部１８５、マスク情報統合部１８６、マスク部１８７、音声出力部１８８を有する。尚、上記の各部の機能は、ＣＰＵ１０１が、ＲＯＭ１０２に格納されたプログラムをＲＡＭ１０３に展開し、実行するによって実現される。以下、各部について説明する。

音声入力部１８１は、音声入力Ｉ／Ｆ１０６によって取得された音を入力する。音声区間検出部１８２は、音声入力部１８１に入力された音のうち、人の声を含む音の区間を検出する。マスク情報生成部１８３は、音声区間検出部１８２によって検出された区間に含まれる人の声を聞き取り難くするためのマスク情報を生成する。尚、マスク情報については後述する。マスク情報出力部１８４は、マスク情報生成部１８３が生成したマスク情報を他の収録装置に送信するため、通信Ｉ／Ｆ１０７に対して、マスク情報を表す所定の信号を出力する。

マスク情報入力部１８５は、通信Ｉ／Ｆ１０７が他の収録装置から送信されたマスク情報を表す信号を受信した場合、当該マスク情報を入力する。マスク情報統合部１８６は、マスク情報生成部１８３が生成したマスク情報と、マスク情報入力部１８５から入力された別のマスク情報とが入力された場合、これらのマスク情報を統合する処理を実行する。尚、マスク情報を統合する処理については後述する。

マスク部１８７は、マスク情報生成部１８３が生成したマスク情報、マスク情報入力部１８５から入力されたマスク情報またはマスク情報統合部１８６が統合したマスク情報に基づいて、音声入力部１８１が入力した音の一部を聞き取り難くする処理を実行する。尚、入力した音の一部を聞き取り難くする処理については後述する。

音声出力部１８８は、マスク部１８７によって音の一部が聞き取り難くなるよう変更された音を出力装置１２０に出力するため、通信Ｉ／Ｆ１０７に対して、音を表す所定の信号を出力する。尚、音声入力部１８１が入力した音に対応するマスク情報がなく、当該音の一部が聞き取り難くする必要がない場合、音声出力部１８８は、音声入力部１８１が入力した音そのものを表す所定の信号を出力する。

次に、音に含まれる人の声のうち、はっきりとは識別することはできないが、かろうじて識別できる声を聞き取り難くする処理について説明する。

図３、図４は、図１に示した収録装置１００ａ、１００ｂのそれぞれが、音源から出力された人の声を含む音を収録した場合の様子を示す図である。尚、図１に示した音源と収録装置１００ａとの距離ｄ１と、音源と収録装置１００ｂとの距離ｄ２は、ｄ１＜ｄ２とする。

図３（ａ）、図４（ａ）は、収録装置１００ａが収録した音の波形を示す図であり、図３（ｂ）、図４（ｂ）は、収録装置１００ｂが収録した音の波形を示す図である。尚、当該複数の図における時点ｔ１から時点ｔｊまでの区間を人の声を表す音の区間とする。

また、人の声を表す音の区間、即ち音声区間は、音響パワーに基づいて決定する方法、ゼロ交差回数に基づいて決定する方法、音声、非音声のそれぞれのモデルに対する尤度に基づいて決定する方法等、周知の方法を用いて決定する。

図３（ｃ）は、時点ｔ２において収録装置１００ａが収録した音を周波数分析して得たスペクトル包絡（包絡線）を示す図であり、図３（ｄ）は、同時点において収録装置１００ｂが収録した音を周波数分析して得たスペクトル包絡を示す図である。尚、周波数分析とは、例えば、周知の線形予測分析（ＬＰＣ分析）等をいう。

また、図３（ｃ）において、各ホルマントのピークに対応する周波数を小さい順に、ｆ１（ｔ２）、ｆ２（ｔ２）、ｆ３（ｔ２）、ｆ４（ｔ２）とする。一方、図３（ｄ）においては、ホルマントが定まらないものとする。

一般に、声のスペクトルは、大局的な形状を示すスペクトル包絡として示すこと、細かい変動を示すスペクトル微細構造として示すことができる。そして、スペクトル包絡は、音韻（母音等）を表すことが知られており、スペクトル微細構造は、話者の声の特徴を表すことが知られている。

即ち、各ホルマントを減衰させ、ピークを消失させることで、複数の音韻によって構成されている声を聞き取り難くすることが可能となる。

図３（ｅ）は、前述したマスク情報を模式的に示す図であり、マスク情報とは、ｆ１（ｔ２）、ｆ２（ｔ２）、ｆ３（ｔ２）、ｆ４（ｔ２）付近の周波数帯域（斜線部）を示す情報である。

図３（ｆ）は、図３（ｅ）に示したマスク情報を用いて、図３（ｃ）に示したスペクトル包絡を変更する様子を模式的に示す図である。図３（ｆ）においては、ｆ１（ｔ２）、ｆ２（ｔ２）、ｆ３（ｔ２）、ｆ４（ｔ２）付近の周波数帯域の成分が取り除かれている。尚、スペクトル包絡を変更する方法は、所定の周波数帯域の成分を取り除く方法に限るものではなく、例えば、所定の周波数帯域の成分を減衰させる方法等であってもよい。

図３（ｈ）は、ｆ１（ｔ２）、ｆ２（ｔ２）、ｆ３（ｔ２）、ｆ４（ｔ２）付近の周波数帯域の成分を取り除いた場合、あるいは著しく減衰させた場合の補間処理を模式的に示す図である。図３（ｈ）においては、ｆ１（ｔ２）、ｆ２（ｔ２）、ｆ３（ｔ２）、ｆ４（ｔ２）付近の周波数帯域に隣接する周波数の成分に基づいて、当該周波数帯域の成分（太破線）が定まる。

このようにして、図３（ｃ）に示したホルマントを、図３（ｈ）に示すように減衰させることで音に含まれる人の声のうち、はっきりとは識別することができる声を聞き取り難くすることが可能である。

図３（ｇ）は、図３（ｅ）に示したマスク情報を用いて、図３（ｄ）に示したスペクトル包絡を変更する様子を模式的に示す図である。図３（ｇ）においては、ｆ１（ｔ２）、ｆ２（ｔ２）、ｆ３（ｔ２）、ｆ４（ｔ２）付近の周波数帯域の成分が取り除かれている。尚、スペクトル包絡を変更する方法は、所定の周波数帯域の成分を取り除く方法に限るものではなく、例えば、所定の周波数帯域の成分を減衰させる方法、ホルマントの周波数位置を移動させる方法等であってもよい。

図３（ｉ）は、ｆ１（ｔ２）、ｆ２（ｔ２）、ｆ３（ｔ２）、ｆ４（ｔ２）付近の周波数帯域の成分を取り除いた場合、あるいは著しく減衰させた場合の補間処理を模式的に示す図である。図３（ｉ）においては、ｆ１（ｔ２）、ｆ２（ｔ２）、ｆ３（ｔ２）、ｆ４（ｔ２）付近の周波数帯域に隣接する周波数の成分に基づいて、当該周波数帯域の成分（太破線）が定まる。

このようにして、図３（ｄ）に示したピークが明確でないホルマントを、図３（ｉ）に示すように減衰させることで、音に含まれる人の声のうち、はっきりとは識別することはできないが、かろうじて識別できる声を聞き取り難くすることが可能である。

図４（ｃ）は、時点ｔ３において収録装置１００ａが収録した音を周波数分析して得たスペクトル包絡を示す図であり、図４（ｄ）は、同時点において収録装置１００ｂが収録した音を周波数分析して得たスペクトル包絡を示す図である。

尚、図４（ｃ）において、各ホルマントのピークに対応する周波数を小さい順に、ｆ１（ｔ３）、ｆ２（ｔ３）、ｆ３（ｔ３）、ｆ４（ｔ３）とする。一方、図４（ｄ）においては、ホルマントが定まらないものとする。

図３（ｃ）（ｄ）、図４（ｃ）（ｄ）に示すように、スペクトル包絡は逐次切り替わるため、一定時間毎に各ホルマントのピークに対応する周波数を求めるものとする。

図４（ｅ）は、前述したマスク情報を模式的に示す図であり、マスク情報とは、ｆ１（ｔ２）、ｆ２（ｔ２）、ｆ３（ｔ２）、ｆ４（ｔ２）付近の周波数帯域（斜線部）を示す情報である。

図４（ｆ）は、図４（ｅ）に示したマスク情報を用いて、図４（ｃ）に示したスペクトル包絡を変更する様子を模式的に示す図である。図４（ｆ）においては、ｆ１（ｔ３）、ｆ２（ｔ３）、ｆ３（ｔ３）、ｆ４（ｔ３）付近の周波数帯域の成分が取り除かれている。

図４（ｈ）は、ｆ１（ｔ３）、ｆ２（ｔ３）、ｆ３（ｔ３）、ｆ４（ｔ３）付近の周波数帯域の成分を取り除いた場合、あるいは著しく減衰させた場合の補間処理を模式的に示す図である。図４（ｈ）においては、ｆ１（ｔ３）、ｆ２（ｔ３）、ｆ３（ｔ３）、ｆ４（ｔ３）付近の周波数帯域に隣接する周波数の成分に基づいて、当該周波数帯域の成分（太破線）が定まる。

このようにして、図４（ｃ）に示したホルマントを、図４（ｈ）に示すように減衰させることで音に含まれる人の声のうち、はっきりとは識別することができる声を聞き取り難くすることが可能である。

図４（ｇ）は、図４（ｅ）に示したマスク情報を用いて、図４（ｄ）に示したスペクトル包絡を変更する様子を模式的に示す図である。図４（ｇ）においては、ｆ１（ｔ３）、ｆ２（ｔ３）、ｆ３（ｔ３）、ｆ４（ｔ３）付近の周波数帯域の成分が取り除かれている。

図４（ｉ）は、ｆ１（ｔ３）、ｆ２（ｔ３）、ｆ３（ｔ３）、ｆ４（ｔ３）付近の周波数帯域の成分を取り除いた場合、あるいは著しく減衰させた場合の補間処理を模式的に示す図である。図４（ｉ）においては、ｆ１（ｔ３）、ｆ２（ｔ３）、ｆ３（ｔ３）、ｆ４（ｔ３）付近の周波数帯域に隣接する周波数の成分に基づいて、当該周波数帯域の成分（太破線）が定まる。

このようにして、図４（ｄ）に示したピークが明確でないホルマントを、図４（ｉ）に示すように減衰させることで、音に含まれる人の声のうち、はっきりとは識別することはできないが、かろうじて識別できる声を聞き取り難くすることが可能である。

尚、本実施形態では、各時点において、周波数が小さいものから順に４つのホルマントのピークに対応する周波数帯域の周波数成分を変更したが、周波数帯域の数は４つに限られない。

図５は、収録装置１００ａ、収録装置１００ｂの情報処理装置の構成を示す図である。本図において、収録装置１００ａに対応する情報処理装置は情報処理装置１８０ａ、収録装置１００ｂに対応する情報処理装置は情報処理装置１８０ｂとする。また、情報処理装置１８０ａの各部を、１８１ａから１８８ａとし、情報処理装置１８０ｂの各部を、１８１ｂから１８８ｂとする。１８１ａから１８８ａまでの各部、１８１ｂから１８８ｂまでの各部はそれぞれ、図１（ｂ）に示した１８１から１８８までの各部と同様の機能を有する。

図６は、情報処理装置１８０ａと情報処理装置１８０ｂが連携して、収録装置１００ｂが収録した音に含まれる人の声を聞き取り難くする処理動作を示すフローチャートである。

尚、ステップＳ６０１からステップＳ６０５までの処理は、情報処理装置１８０ａにおいて実行され、ステップＳ６０６からステップＳ６１５までの処理は、情報処理装置１８０ｂにおいて実行される。

まず、ステップＳ６０１において、音声入力部１８１ａは、収録装置１００ａのマイクロフォンを介して収録された音を、音声区間検出部１８２ａ、マスク部１８７ａに入力する。

次に、ステップＳ６０２において、音声区間検出部１８２ａは、入力された音に含まれる音声区間を検出する処理を実行する。

次に、ステップＳ６０３において、音声区間検出部１８２ａは、入力された音を一定の微小時間に分割したときの境界となる各時点について、音声区間内であるか否か判断し、音声区間内であると判定した場合、続いて、ステップＳ６０４の処理が実行される。

一方、ステップＳ６０３において、音声区間検出部１８２ａが、処理の対象とした時点について音声区間内でないと判定した場合、情報処理装置１８０ａにおける一連の処理を終了する。

ステップＳ６０４において、マスク情報生成部１８３ａは、音声区間検出部１８２ａが音声区間内であると判定した各時点について、マスク情報を生成する。

次に、ステップＳ６０５において、マスク情報送信部１８４ａは、マスク情報生成部１８３ａが生成したマスク情報を、所定の信号に変換し、他の情報処理装置（本実施形態では、情報処理装置１８０ｂ）へ送信する。

ステップＳ６０６において、音声入力部１８１ｂは、収録装置１００ｂのマイクロフォンを介して収録された音を、音声区間検出部１８２ｂ、マスク部１８７ｂに入力する。

次に、ステップＳ６０７において、音声区間検出部１８２ｂは、入力された音に含まれる音声区間を検出する処理を実行する。

次に、ステップＳ６０８において、音声区間検出部１８２ｂは、入力された音を一定の微小時間に分割したときの境界となる各時点について、音声区間内であるか否か判断し、音声区間内であると判定した場合、続いて、ステップＳ６０９の処理が実行される。

一方、ステップＳ６０８において、音声区間検出部１８２ｂが、処理の対象とした時点について音声区間内でないと判定した場合、続いて、ステップＳ６１０の処理が実行される。

ステップＳ６０９において、マスク情報生成部１８３ｂは、音声区間検出部１８２ｂが音声区間内であると判定した各時点について、マスク情報を生成する。

次に、ステップＳ６１０において、マスク情報受信部１８５ｂは、マスク情報送信部１８４ａが送信したマスク情報を表す信号を受信する処理を実行する。

次に、ステップＳ６１１において、マスク情報受信部１８５ｂは、マスク情報を表す信号を受信したか否か判断し、受信した場合、続いて、ステップＳ６１２の処理が実行される。

一方、ステップＳ６１１において、マスク情報受信部１８５ｂが、マスク情報を表す信号を受信しなかった場合、続いて、ステップＳ６１４の処理が実行される。

ステップＳ６１２において、マスク情報統合部１８６ｂは、マスク情報が複数あるか否か判断し、複数あると判断した場合、続いて、ステップＳ６１３の処理が実行される。

一方、ステップＳ６１２において、マスク情報統合部１８６ｂがマスク情報は１つであると判断した場合、続いて、ステップＳ６１４の処理が実行される。

尚、マスク情報が複数ある状態とは、マスク情報受信部１８５ｂが、ある時点ｔのマスク情報を表す信号を受信し、かつマスク情報生成部１８３ｂが同時点ｔのマスク情報を生成した場合をいう。

ステップＳ６１３において、マスク情報統合部１８６ｂは、マスク情報を統合する処理を実行する。マスク情報を統合する処理については後述する。

次に、ステップＳ６１４において、マスク部１８７ｂは、１つのマスク情報あるいはマスク情報統合部１８６ｂが統合したマスク情報に従って、音声入力部１８１ｂが入力した音をマスクする処理を実行する。

尚、マスクする処理とは、図３、図４に示した処理であって、音に含まれる人の声を聞き取り難くする処理をいう。また、マスク情報がない場合には、ステップＳ６１４に示したマスクする処理は実行されないものとする。

次に、ステップＳ６１５において、音声送信部１８８ｂは、適宜マスクする処理が施された音を示す信号を、出力装置１２０に送信する。

以上が、収録装置１００ｂが収録した音に含まれる人の声を聞き取り難くする処理である。

図７は、マスク情報を統合する処理を模式的に示す図である。

図７（ａ）は、時点ｔにおいて収録装置１００ａが収録した音のスペクトル包絡を示す図であり、図７（ｂ）は、時点ｔにおいて収録装置１００ｂが収録した音のスペクトル包絡を示す図である。

また、図７（ｃ）は、時点ｔにおいて収録装置１００ａが収録した音に対応するマスク情報を模式的に示す図であり、図７（ｄ）は、時点ｔにおいて収録装置１００ｂが収録した音に対応するマスク情報を模式的に示す図である。尚、図７（ｃ）、図７（ｄ）の斜線部は、前述したマスクする処理の対象となる周波数帯域を示している。

図７（ｅ）は、図７（ｃ）、図７（ｄ）に示したマスク情報を統合した様子を模式的に示した図である。

尚、マスクする処理の対象となる各周波数帯域（Ｗ１からＷ７まで）は、Ｗ１、Ｗ３、Ｗ５のグループ、Ｗ２、Ｗ４、Ｗ７のグループ、Ｗ５のそれぞれに対してマスクする処理の度合いを変えられるよう、識別可能な情報としてもよい。また、マスク処理の度合いとは、例えば、マスクする処理が各ホルマントを減衰させる処理である場合、各ホルマントを減衰させる幅、割合等をいう。即ち、マスク情報統合部は、他の情報処理装置から受信したマスク情報によってホルマントを減衰させる幅、割合等を、自身の情報処理装置が生成したマスク情報によってホルマントを減衰させる幅、割合等よりも小さく設定することができる。

また、マスク情報統合部は、他の情報処理装置から受信したマスク情報が示す周波数帯域と、自身の情報処理装置が生成したマスク情報が示す周波数帯域とが重なる場合、ホルマントを減衰させる幅、割合等を大きい方にあわせてもよい。

また、マスク情報統合部は、自身の収録装置の設置位置、マスク情報を送信した情報処理装置に対応する収録装置の設置位置、音源位置等の位置関係から、ホルマントを減衰させる幅、割合等を決定してもよい。

図８は、各収録装置に対応する情報処理装置において実行されるマスクする処理の時間的な流れを示す図である。各情報処理装置は一定の時間（フレーム）毎に音を処理し、音声区間の検出、マスク情報の生成、およびマスクする処理を実行する。

まず、時点ｔ１において、情報処理装置１８０ａが音声区間を検出すると、情報処理装置１８０ａは、時点ｔ１におけるマスク情報を生成して、当該マスク情報を情報処理装置１８０ｂへ送信した後、時点ｔ１の音をマスクする処理を実行する。

情報処理装置１８０ｂは、情報処理装置１８０ｂから時点ｔ１におけるマスク情報を受信した後、受信したマスク情報を用いて、収録装置１００ｂが収録した時点ｔ１における音をマスクする処理を実行する。尚、情報処理装置１８０ｂは時点ｔ１において、音声区間を検出していないものとする。また、同図では時点ｔ２においても時点ｔ１と同様に処理が行われている。

一方、時点ｔｘでは、情報処理装置１８０ａ、情報処理装置１８０ｂの双方で音声区間を検出するものとする。この場合、情報処理装置１８０ａは情報処理装置１８０ｂへ、情報処理装置１８０ｂは情報処理装置１８０ｂへそれぞれのマスク情報を送信する。

続いて、情報処理装置１８０ａ、情報処理装置１８０ｂは、それぞれマスク情報を受信すると、受信したマスク情報と自身のマスク情報生成部が生成したマスク情報とを統合し、統合したマスク情報を用いて、時点ｔｘの音をマスクする処理を実行する。

ここで情報処理装置はある時点ｔのマスク情報を受信したかどうかを判定してから、その時点ｔの音をマスクする処理するので、若干の時間遅れが生じる。従って各情報処理装置は、所定時間の音を所定の記憶領域にバッファリングしておく必要がある。尚、所定の記憶領域は、記憶媒体１０４等が提供する。

また、本実施形態では、単一の時点におけるマスク情報を用いて、同時点の音をマスクする処理を行っているが、例えば、〔数１〕のような、注目する時点近接する複数の時点におけるマスク情報を用いて、注目する時点の音をマスクする処理を実行しても良い。

〔数１〕
Ｈ（ｔ）＝ αＭ（ｔ）＋βＭ（ｔ−１）＋γＭ（ｔ−２）
尚、Ｈ（ｔ）は、注目する時点ｔの音をマスクする処理に使用するマスク情報であり、Ｍ（ｔ）、Ｍ（ｔ−１）、Ｍ（ｔ−２）は、時点ｔ、ｔ−１、ｔ−２において収録された音に対応するマスク情報とする。また、α＋β＋γ＝１とする。

このように、例えば、Ｈ（ｔ）を用いて時点ｔの音をマスクし、Ｈ（ｔ＋１）を用いて時点ｔ＋１の音をマスクすると、近接する時点間でマスクの有無が変化する場合、マスクする周波数が大きく変わる場合等であっても、出力される音の歪が抑えられる。

また、本実施形態では、マスク情報として、マスク部がホルマントの周波数成分を取り除く、あるいは減衰させると説明したが、本発明はこれに限るものではない。例えば、音声区間を周波数分析し、その周波数特性を取り消す逆フィルタを生成してそのフィルタ係数をマスク情報としてもよい。また、音声の周波数特性にあわせて、雑音を重ね合わせてもよい。また、単純に音声区間の時間情報のみをマスク情報とし、その音声区間に対して声が含まれる周波数帯域を全て除去したり、別の音を重ね合わせたりしてもよい。

また、本実施形態では、監視カメラを例に説明したが、例えば、個人が所有するビデオカメラに適用しても良い。個人が所有するビデオカメラに適用する場合、例えば撮影者が話す声が他の人のカメラに記録されてしまうことを避けるために、マスクする処理を実行する。

尚、ビデオカメラは互いに無線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）やＢｌｕｅｔｏｏｔｈなどの通信手段を使ってマスク情報を相互に送受信する。

また、個々のビデオカメラは、撮影者あるいはその近辺で話す声を音声区間検出によって検出する。尚、撮影者あるいはその近辺で話す声は、被写体など他の声に対して音量が大きいため、音声区間検出の音量に関するパラメータを調整することで他の音声は検出せずに検出できる。そしてその音声のマスク情報を他のビデオカメラに送信する。

送信するビデオカメラを決定する方法としては、無線ＬＡＮやＢｌｕｅｔｏｏｔｈなどの電波強度の強さから決定しても良い。また、ＧＰＳ（ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）を搭載したビデオカメラであれば、位置情報によって決定しても良い。

以上のようにすることで、撮影者が自身のビデオカメラに向かって話した声が、周囲にある他人のビデオカメラに録音されてしまった場合に、その音声を聞き取り難くすることができる。

（第２の実施形態）
第１の実施形態では、各収録装置が情報処理装置を有し、収録した音をマスクする処理を実行していたが、本発明はこれに限るものではない。本実施形態においては、異なる位置に設置された複数のマイクロフォンが収録した音データがストレージサーバ等に保存されている場合に、他マイクロフォンが収録した音データから生成したマスク情報を使ってマスクする処理を行う。

図９は、本実施形態における情報処理装置９１０の機能構成を示す機能ブロック図である。

情報処理装置９１０は、音声入力部９１１、音声区間検出部９１２、マスク情報生成部９１３、マスク情報保持部９１４、マスク情報選択部９１５、マスク情報統合部９１６、マスク部９１７、音声送信部９１８を有する。

音声入力部９１１は、複数のマイクロフォンのそれぞれが収録した音データを一旦保持した後、音声区間検出部９１２、マスク部９１７へ入力する。音声区間検出部９１２は、音声入力部９１１から入力された複数の音データそれぞれについて、音声区間を検出する。マスク情報生成部９１３は、音声区間検出部９１２が音声区間を検出した場合、当該音声区間のマスク情報を生成する。尚、マスク情報とは、第１の実施形態で説明したものと同様であるため、説明を省略する。

マスク情報保持部９１４は、マスク情報生成部９１３が生成したマスク情報を一旦保持する。マスク情報選択部９１５は、マスク情報保持部９１４に保持されたマスク情報のうち、使用するマスク情報を選択する。

マスク情報統合部９１６は、マスク情報選択部９１５が複数のマスク情報を選択した場合、当該複数マスク情報を統合する。尚、マスク情報統合する処理は、第１の実施形態で説明したものと同様であるため、説明を省略する。マスク部９１７は、マスク情報統合部によって統合されたマスク情報またはマスク情報選択部９１５が選択したマスク情報を用いて、所定の音データをマスクする処理を実行する。尚、マスクする処理は、第１の実施形態で説明したものと同様であるため、説明を省略する。

音声送信部９１８は、マスク部９１７によって音の一部が聞き取り難くなるよう変更された音を出力装置１２０に出力する。尚、音の一部を聞き取り難くする処理が不要である場合、音声送信部９１８は、所定のマイクロフォンが収録した音をそのまま出力装置１２０に出力する。

図１０は、本実施形態において、収録した音に含まれる人の声を聞き取り難くする処理の流れを表すフローチャートである。尚、図１０（ａ）はマスク情報を生成する過程を示し、図１０（ｂ）のマスクする過程を示す。

図１０（ａ）のマスク情報を生成する過程では、まずステップＳ１６０１において、音声入力部９１１から音声区間検出部９１２に音データが読み込まれる。

次に、ステップＳ１６０２おいて、音声区間検出部９１２は、読み込まれた音データに音声区間があるか否か判断し、音声区間があると判断した場合には、続いて、ステップＳ１６０３の処理が実行される。

一方、ステップＳ１６０２おいて、音声区間検出部９１が、読み込まれた音データに音声区間がないと判断した場合には、続いて、ステップＳ１６０５の処理が実行される。

ステップＳ１６０３において、マスク情報生成部９１３は、検出された音声区間のマスク情報を生成する。

次に、ステップＳ１６０４において、マスク情報保持部９１４は、生成したマスク情報を所定の記憶領域に保持する。

次に、ステップＳ１６０５において、音声区間検出部９１２は、音声入力部９１１から読み込まれた全ての音データを処理したか否か判断し、全ての音データを処理したか否か判断した場合、一連の処理を終了する。尚、図１０（ａ）に示した一連の処理が終了した後、図１０（ｂ）のマスクする過程が実行される。

一方、ステップＳ１６０５において、音声区間検出部９１２が、音声入力部９１１から読み込まれた全ての音データを処理していないと判断した場合、ステップＳ１６０２からの処理を繰り返す。

図１６（ｂ）のマスクする過程では、まずステップＳ１６０６において、音声入力部９１１からマスク部９１７に音データが読み込まれる。

次に、ステップＳ１６０７において、マスク情報選択部９１５は、音声入力部９１１からマスク部９１７読み込まれた音データをマスクするマスク情報を選択する。

尚、マスク情報選択部９１５が選択するマスク情報とは、音声入力部９１１からマスク部９１７読み込まれた音データから生成されたマスク情報、他の音データから生成したマスク情報である。

また、選択するマスク情報は、全てのマスク情報でもよく、音声入力部９１１からマスク部９１７読み込まれた音データを収録したマイクロフォンの設置位置、方向や音声区間の音量に基づいて選択してもよい。この場合、音データとマイクロフォンの設置位置、方向の関係をマスク情報と共に保持する必要がある。

次に、ステップＳ１６０８において、マスク情報統合部９１６は、マスク情報選択部９１５が選択したマスク情報の数を判定し、１つも選択していない場合、続いて、ステップＳ１６１１の処理が実行される。

また、ステップＳ１６０８において、マスク情報統合部９１６が、マスク情報選択部９１５が選択したマスク情報の数が１つであると判定した場合、続いて、ステップＳ１６１０の処理が実行される。

また、ステップＳ１６０８において、マスク情報統合部９１６が、マスク情報選択部９１５が選択したマスク情報の数が２つであると判定した場合、続いて、ステップＳ１６０９の処理が実行される。

ステップＳ１６０９において、マスク情報統合部９１６は、複数のマスク情報を統合する処理を実行する。

次に、ステップＳ１６１０において、マスク部９１７は、所定のマスク情報に基づいて音データのマスクする処理を実行する。

ステップＳ１６１１において、音声送信部９１８は、マスクする処理が完了した音データを一旦保持した後、必要に応じて所定の出力装置に当該音データが送信する。

次に、ステップＳ１６１２において、マスク情報選択部９１５は、全ての音データについて対応するマスク情報が選択されたか否か判断し、未だマスク情報が選択されていない音データがある場合、ステップＳ１６０６からの処理を繰り返す。

一方、ステップＳ１６１２において、マスク情報選択部９１５が、全ての音データについて対応するマスク情報が選択されたと判断した場合、一連の処理を終了する。

以上のように、複数のマイクロフォンから収録された音を一つの装置に保持している場合でも、互いの音データから検出される音声区間のマスク情報に基づいて、マスク処理を行う事ができる。

（第３の実施形態）
本実施形態は、第１の実施形態に加え、音声区間の特徴に応じてマスクする処理を実行するか否かを判別する。また、収録装置の設置位置や方向や音量に基づいて、マスク情報を送信する収録装置を選択する。また、収録装置間の距離に応じてマスク情報を修正する特徴を有する。

図１１は、本実施形態における情報処理装置を表す機能ブロック図である。尚、図５と同様に、収録装置１００ａの情報処理装置を情報処理装置１９０ａとし、収録装置１００ｂの情報処理装置を情報処理装置１９０ｂとする。また、第１の実施形態において説明した各部と同様の機能を有するものについては、同符号を付し、その説明を省略する。

以下、情報処理装置１９０ａ、ｂが有する、音声識別部１９１ａ、ｂ、マスク要否決定部１９２ａ、ｂ、送信対象選択部１９３ａ、ｂ、遅延修正部１９４ａ、ｂについて説明する。

音声識別部１９１ａ、ｂは、音声区間の音声の種類を識別する。マスク要否決定部１９２ａ、ｂは、音声識別部１９１ａ、ｂの識別結果に基づいて、音声区間をマスクするか否かを決定する。送信対象選択部１９３ａ、ｂは、収録装置の設置位置や方向、音声区間の音量に基づいて、マスク情報を送信する収録装置を選択する。遅延修正部１９４ａ、ｂは、収録装置間の距離に応じて音の遅延を計算し、マスク情報受信部１８５ａ、ｂが受信したマスク情報を対応付ける時点を修正する。

図１２は、情報処理装置１９０ａと情報処理装置１９０ｂが連携して、収録装置１００ｂが収録した音に含まれる人の声を聞き取り難くする処理を示すフローチャートである。

尚、ステップＳ１２０１からステップＳ１２０８までの処理は、情報処理装置１９０ａにおいて実行され、ステップＳ１２０９からステップＳ１２２１までの処理は、情報処理装置１９０ｂにおいて実行される。

まず、ステップＳ１２０１において、音声入力部１８１ａは、収録装置１００ａのマイクロフォンを介して収録された音を、音声区間検出部１８２ａ、マスク部１８７ａに入力する。

次に、ステップＳ１２０２において、音声区間検出部１８２ａは、入力された音に含まれる音声区間を検出する処理を実行する。

次に、ステップＳ１２０３において、音声区間検出部１８２ａは、入力された音を一定の微小時間に分割したときの境界となる各時点について、音声区間内であるか否か判断し、音声区間内であると判定した場合、続いて、ステップＳ１２０４の処理が実行される。

一方、ステップＳ１２０３において、音声区間検出部１８２ａが、処理の対象とした時点について音声区間内でないと判定した場合、情報処理装置１９０ａにおける一連の処理を終了する。

ステップＳ１２０４において、音声識別部１９１ａは、音声区間に含まれる音声の種類等を識別する。音声の識別については後述する。

次に、ステップＳ１２０５において、マスク要否決定部１９２ａは、音声識別部１９１ａの識別結果に基づいて音声をマスクするか否か判断する。

尚、ステップＳ１２０５において、マスク要否決定部１９２ａが、マスクすると判断した場合、続いて、ステップＳ１２０６の処理が実行され、マスクしないと判断した場合、情報処理装置１９０ａにおける一連の処理を終了する。

ステップＳ１２０６において、マスク情報生成部１８３ａは、マスク要否決定部１９２ａがマスクすると判断した各時点について、マスク情報を生成する。

次に、ステップＳ１２０７において、送信対象選択部１９３ａは、収録装置同士の設置位置、設置方向の関係や、音声区間の音量に基づいてマスク情報を送信する相手先となる情報処理装置（本実施形態においては、情報処理装置１９０ｂとする。）を選択する。尚、送信対象選択部１９３ａにおける処理については、後述する。

次に、ステップＳ１２０８において、マスク情報送信部１８４ａは、マスク情報生成部１８３ａが生成したマスク情報を、所定の信号に変換し、送信対象選択部１９３ａが選択した情報処理装置へ送信する。

ステップＳ１２０９からステップＳ１２１４までの処理は、ステップＳ１２０１からステップＳ１２０６までの処理と同様であるため、説明を省略する。

次に、ステップＳ１２１５において、マスク情報受信部１８５ｂは、マスク情報送信部１８４ａが送信したマスク情報を表す信号を受信する処理を実行する。

次に、ステップＳ１２１６において、マスク情報受信部１８５ｂは、マスク情報を表す信号を受信したか否か判断し、受信した場合、続いて、ステップＳ１２１７の処理が実行される。

一方、ステップＳ１２１６において、マスク情報受信部１８５ｂが、マスク情報を表す信号を受信しなかった場合、続いて、ステップＳ１２２０の処理が実行される。

ステップＳ１２１７において、遅延修正部１９４ｂは、受信した信号に対応するマスク情報を、音の遅延時間分だけ遅らせるよう修正する。

尚、音の遅延時間とは、音の速度と収録装置の設置位置から求まる収録装置間の距離から推定するものとする。

また、収録装置のマイクロフォンを複数のマイクロフォンで構成して音源方向を推定し、さらに複数の収録装置から求まる音源方向の交点から音源位置を推定して、音源位置から収録装置までの距離を算出して遅延時間を求めても良い。

ステップＳ１２１８において、マスク情報統合部１８６ｂは、マスク情報が複数あるか否か判断し、複数あると判断した場合、続いて、ステップＳ１２１９の処理が実行される。

一方、ステップＳ１２１８において、マスク情報統合部１８６ｂがマスク情報は１つであると判断した場合、続いて、ステップＳ１２２０の処理が実行される。

尚、マスク情報が複数ある状態とは、マスク情報受信部１８５ｂが、ある時点ｔのマスク情報を表す信号を受信し、かつ遅延修正部１９４ｂが同時点ｔに修正したマスク情報を生成した場合をいう。

ステップＳ１２１９において、マスク情報統合部１８６ｂは、マスク情報を統合する処理を実行する。マスク情報を統合する処理については後述する。

次に、ステップＳ１２２０において、マスク部１８７ｂは、１つのマスク情報あるいはマスク情報統合部１８６ｂが統合したマスク情報に従って、音声入力部１８１ｂが入力した音をマスクする処理を実行する。

尚、マスクする処理とは、図３、図４に示した処理であって、音に含まれる人の声を聞き取り難くする処理をいう。また、マスク情報がない場合には、ステップＳ１２２０に示したマスクする処理は実行されないものとする。

次に、ステップＳ１２２１において、音声送信部１８８ｂは、適宜マスクする処理が施された音を示す信号を、出力装置１２０に送信する。

次に、音声を識別する処理について説明する。音声を識別する処理とは、例えば、笑い声、泣き声、叫び声を識別する処理である。

従って、音声識別部１９１ａは、笑い声識別部、泣き声識別部、叫び声識別部をそれぞれ有し、音声区間に笑い声、泣き声、叫び声が含まれているかを識別する。

一般に、笑い声、泣き声、叫び声等には、個人情報、機密情報等が含まれていない。そこで、音声区間が笑い声、泣き声、叫び声のいずれかと識別された場合には、マスク要否決定部１９２ａは、当該音声区間をマスクしない。

また、音声区間検出において、検出精度が高くない場合、音声以外の大きな音（風音、自動車音、警告音等の非音声）が出力されている区間を音声区間として検出することがある。そこで、音声識別部１９１ａが、風音、自動車音、警告音等の非音声を識別した結果、音声区間が風音、自動車音、警告音等のいずれかと識別された場合には、マスク要否決定部１９２ａは当該音声区間をマスクしない。

また、一般に、日常会話において、内容をもたない声（例えば、「あー」、「んー」など）を発することがある。そして、内容をもたない声は、大語彙音声認識用の辞書を用いて音声認識した場合、認識失敗となることが多い。そこで、音声識別部１９１ａは、大語彙音声認識用の辞書を有し、大語彙音声認識用の辞書を用いて音声認識した結果、認識失敗となった場合には、マスク要否決定部１９２ａは当該音声区間をマスクしない。

また、例えばショッピングモール等に収録装置が設置されている場合、音声区間の音量が所定値よりも大きいときには、当該音声は館内放送であることもある。そこで、音声識別部１９１ａは、音量検知部を有し、音声区間の音量を計測する。そして、音声識別部１９１ａが、音声区間において所定の閾値よりも大きい音量を計測した場合には、マスク要否決定部１００２は当該音声区間をマスクしない。尚、音量に基づくマスクの要否については、収録装置が設置されている場所の属性（公共性のレベルなど）に応じて、閾値となる音量レベルを調整しても良い。

尚、音声識別部１９１ａが上記のいずれかの方法で音識別を行うと、ある程度の長さの音声データがないと識別できない場合や、処理自体に処理時間を要する場合がある。

このような場合、音声区間検出からマスク情報生成までの間に遅延が生ずる。従って、マスク処理を行うまでに十分な音声データをバッファリングするか、処理単位である一定フレームＴを大きく設定する必要がある。

図１３は、送信対象選択部１９３ａが送信対象を選択する処理の流れの一例を示すフローチャートである。

まず、ステップＳ１７０１において、送信対象選択部１９３ａは、各収録装置のマイク特性（指向性及び感度）、設置位置、方向を取得する。尚、これらのパラメータは予め設定された固定値を保持していても良いし、監視カメラの方向パラメータのように値が変化する場合はその都度取得しても良い。他の収録装置から変化するパラメータを取得する場合はネットワーク１４０を経由して取得する。

次に、ステップＳ１７０２において、送信対象選択部１９３ａは、各収録装置のマイクの指向性パラメータに基づいて収録範囲の形状を取得する。

次に、ステップＳ１７０３において、送信対象選択部１９３ａは、各収録装置の設置位置に基づいて収録範囲の位置を取得する。

次に、ステップＳ１７０４において、送信対象選択部１９３ａは、各収録装置の方向に基づいて収録範囲の方向を取得する。

次に、ステップＳ１７０５において、送信対象選択部１９３ａは、各収録装置のマイクの感度設定に基づいて収録範囲の大きさを決定する。

このとき、送信するマスク情報を生成した音声区間の音量にあわせて収録範囲の大きさを調整しても良い。例えば大きな音量の場合は遠くの収録装置まで収録され得るとして各収録装置の収録範囲を広げる。

次に、ステップＳ１７０６において、送信対象選択部１９３ａは、各収録範囲の形状、位置、方向、大きさの情報に基づいてマッピングする。

次に、ステップＳ１７０７において、送信対象選択部１９３ａは、マッピングした収録範囲が重なっている収録装置に対応する情報処理装置のみを、マスク情報の送信対象として選択する。

尚、本実施形態ではマスク情報の送信対象を、マイクの指向性、感度、音声区間の音量、収録装置の位置、方向に基づいて決定したが、これらの一部を使用しても構わない。

また、収録範囲を定義しなくとも、送信元と送信先との収録装置間の位置や方向の関係から送信対象とするか否かを決定しても良い。例えば単純に収録装置の設置位置のみを使用し、所定の距離内にある収録装置をマスク情報の送信対象としても良い。また、収録装置の設置位置が同じ部屋であるか否かでマスク情報の送信対象を選択しても良い。

図１４は、送信対象選択部１９３ａが送信対象を選択する処理の流れの、別の一例を示すフローチャートである。

まず、ステップＳ１８０１において、送信対象選択部１９３ａは、送信対象候補となる情報処理装置に対応する収録装置を選択する。

次に、ステップＳ１８０２において、送信対象選択部１９３ａは、選択した収録装置の設置位置と方向を取得する。

次に、ステップＳ１８０３において、送信対象選択部１９３ａは、マスク情報を送信する送信元となる情報処理装置に対応する収録装置と送信対象候補となる情報処理装置に対応する収録装置との間の距離が所定値以内かどうか調べる。

尚、ステップＳ１８０３の処理は、送信対象選択部１９３ａが、選択した収録装置が送信元となる情報処理装置に対応する収録装置と同じ部屋にあるかどうか調べる処理としてもよい。

ステップＳ１８０３において、送信対象選択部１９３ａが、収録装置間の距離が所定値以内であると判定した場合、収録装置同士が同じ部屋にあると判定した場合、続いてステップＳ１８０４の処理が実行される。

一方、ステップＳ１８０３において、送信対象選択部１９３ａが、収録装置間の距離が所定値以内でないと判定した場合、収録装置同士が同じ部屋にないと判定した場合、続いてステップＳ１８０６の処理が実行される。

ステップＳ１８０４において、送信対象選択部１９３ａは、送信対象候補となる情報処理装置に対応する収録装置の方向が、送信元となる情報処理装置に対応する収録装置に対して所定の角度であるか否か判断する。

尚、ステップＳ１８０４において、送信対象選択部１９３ａが、所定の角度であると判断した場合、続いて、ステップＳ１８０５の処理が実行され、所定の角度でないと判断した場合、続いて、ステップＳ１８０６の処理が実行される。

ステップＳ１８０５において、送信対象選択部１９３ａは、送信対象候補となる情報処理装置を送信対象として選択する。

ステップＳ１８０６において、送信対象選択部１９３ａは、送信対象候補をなる情報処理装置を送信対象として選択しない。

ステップＳ１８０７において、送信対象選択部１９３ａは、送信対象候補をなる情報処理装置の全てに対して、送信対象か否かを決定したか判断する。

尚、ステップＳ１８０７において、送信対象選択部１９３ａが送信対象候補をなる情報処理装置の全てに対して送信対象か否かを決定した判断した場合、一連の処理を終了する。

一方、ステップＳ１８０７において、送信対象選択部１９３ａが送信対象候補をなる情報処理装置の全てに対して送信対象か否かを決定していない判断した場合、ステップＳ１８０１からの一連の処理を繰り返す。

以上、図１３、図１４で示したように、送信対象選択部１９３ａは様々な方法で送信対象となる情報処理装置を選択し得る。

尚、本実施形態では、送信対象選択部１９３ａがマスク情報を送信する情報処理装置を選択するよう説明したが、本発明はこれに限るものではなく、マスク情報を受信した情報処理装置がマスク情報の使用可否を選択しても良い。このとき送信側は全ての情報処理装置にマスク情報を送信する。一方、受信側の情報処理装置は、マスク情報選択部を有し、所定の収録範囲に基づいて収録範囲の重なる収録装置に対応する情報処理装置から受信したマスク情報のみを選択する。

以上に述べたとおり、本実施形態によれば、第１の実施形態に加え、音声区間の特徴に応じてマスク処理をするか否かを判別する。さらに収録装置の設置位置や方向やマイク特性や音声区間の音量に基づいてマスク情報を送信する情報処理装置を選択する。さらに収録装置間の距離に応じてマスク情報を修正する。これによって、マスクする必要がある音だけを精度良くマスクすることができる。

（その他の実施形態）
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。

Claims

第１の収録装置から収録された第１の音と、前記第１の収録装置と異なる第２の収録装置から収録され、かつ、前記第１の音と同じ音源の音を含む第２の音とを取得する取得手段と、
前記第１の音を周波数分析して、声を示す周波数帯域を決定する決定手段と、
前記第２の音を示す周波数成分のうち、前記周波数帯域の周波数成分を変更する変更手段と、
前記周波数帯域の周波数成分が変更された前記第２の音を出力する出力手段とを有する情報処理装置。
前記変更手段は、前記第２の音を示す周波数成分のうち、前記周波数帯域の周波数成分を減衰させること特徴とする請求項１に記載の情報処理装置。
前記決定手段は、前記第１の音を周波数分析して得たスペクトル包絡のホルマントに基づく周波数帯域を、声を示す周波数帯域として決定することを特徴とする請求項１または請求項２に記載の情報処理装置。
前記決定手段は、前記第１の音を周波数分析して得たスペクトル包絡のホルマントのピークを含む周波数帯域を、声を示す周波数帯域として決定することを特徴とする請求項３に記載の情報処理装置。
前記第２の音は、前記第１の音が収録された時間に対応する時間に収録された音であることを特徴とする請求項１乃至請求項４のいずれか１項に記載の情報処理装置。
前記第１の音が収録された時間に対応する時間とは、前記第１の音が収録された時間とおなじ時間であることを特徴とする請求項５に記載の情報処理装置。
音の周波数成分を変更する情報処理装置の処理方法であって、
取得手段が、第１の収録装置から収録された第１の音と、前記第１の収録装置と異なる第２の収録装置から収録され、かつ、前記第１の音と同じ音源の音を含む第２の音とを取得する取得工程と、
決定手段が、前記第１の音を周波数分析して、声を示す周波数帯域を決定する決定工程と、
変更手段が、前記第２の音を示す周波数成分のうち、前記周波数帯域の周波数成分を変更する変更工程と、
出力手段が、前記周波数帯域の周波数成分が変更された前記第２の音を出力する出力工程とを有する処理方法。
前記変更工程は、前記第２の音を示す周波数成分のうち、前記周波数帯域の周波数成分を減衰させること特徴とする請求項７に記載の処理方法。
前記決定工程は、前記第１の音を周波数分析して得たスペクトル包絡のホルマントに基づく周波数帯域を、声を示す周波数帯域として決定することを特徴とする請求項７または請求項８に記載の処理方法。
前記決定工程は、前記第１の音を周波数分析して得たスペクトル包絡のホルマントのピークを含む周波数帯域を、声を示す周波数帯域として決定することを特徴とする請求項９に記載の処理方法。
前記第２の音は、前記第１の音が収録された時間に対応する時間に収録された音であることを特徴とする請求項７乃至請求項１０のいずれか１項に記載の処理方法。
前記第１の音が収録された時間に対応する時間とは、前記第１の音が収録された時間とおなじ時間であることを特徴とする請求項１１に記載の処理方法。
コンピュータを、請求項１乃至５の何れか１項に記載の情報処理装置が有する各手段として機能させるためのコンピュータプログラム。
請求項１３に記載のコンピュータプログラムを格納した、コンピュータ読み取り可能な記憶媒体。