JP5489778B2 - 情報処理装置およびその処理方法 - Google Patents

情報処理装置およびその処理方法 Download PDF

Info

Publication number
JP5489778B2
JP5489778B2 JP2010040598A JP2010040598A JP5489778B2 JP 5489778 B2 JP5489778 B2 JP 5489778B2 JP 2010040598 A JP2010040598 A JP 2010040598A JP 2010040598 A JP2010040598 A JP 2010040598A JP 5489778 B2 JP5489778 B2 JP 5489778B2
Authority
JP
Japan
Prior art keywords
sound
voice
mask information
frequency
frequency band
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010040598A
Other languages
English (en)
Other versions
JP2011175182A5 (ja
JP2011175182A (ja
Inventor
英生 久保山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2010040598A priority Critical patent/JP5489778B2/ja
Priority to US13/033,438 priority patent/US8635064B2/en
Publication of JP2011175182A publication Critical patent/JP2011175182A/ja
Publication of JP2011175182A5 publication Critical patent/JP2011175182A5/ja
Application granted granted Critical
Publication of JP5489778B2 publication Critical patent/JP5489778B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Telephonic Communication Services (AREA)

Description

本発明は、スピーカ等から出力される音の一部を聞き取り難くする技術に関する。
近年、遠隔地に設置された監視カメラと通信ネットワークを介して接続された表示ディスプレイ等を用いて、当該監視カメラが撮影した映像を見ることが可能である。また、監視カメラと共にマイクロフォンが設置されていれば、当該マイクロフォンと通信ネットワークを介して接続されたスピーカ等を用いて、当該マイクロフォンが収録した音を聞くことが可能である。
即ち、視聴者は、遠隔地に設置された監視カメラとマイクロフォンが取得した情報から、当該遠隔地の様子を臨場感豊かに認識できる。
しかしながら、マイクロフォンが収録した音には、人の声が含まれる場合があるため、収録した音をそのまま視聴者に聞かせると、話者の意思とは関係なく、個人情報、機密情報等が視聴者に知られてしまう可能性がある。
そこで、特許文献1には、人の声等のオーディオ信号を構成するスペクトルを周波数軸に沿って並べたときに得られるスペクトル包絡における各山(以下、ホルマントとする。)を減衰させ、発声内容を識別し難くする技術が提案されている。
特開2007−243856号公報
特許文献1に提案されている技術を用いると、遠隔地のおおよその音を知覚することが可能であるが、マイクロフォンが収録した音に含まれるはっきりと識別できる人の声が示す発声内容については、識別し難くなる。
しかしながら、例えば、視聴者がスピーカのボリュームを調節して注意深く聞くと、マイクロフォンが収録した音に含まれる人の声のうち、はっきりとは識別することはできないが、かろうじて識別できる声については、発声内容を識別できてしまう可能性がある。
そこで、本発明は、所定のマイクロフォンが収録した音に含まれる声のうち、注意深く聞くと発声内容を識別できてしまう声を、聞き取り難くすることを目的とする。
上記の課題を解決するために、本発明の情報処理装置は、第1の収録装置から収録された第1の音と、前記第1の収録装置と異なる第2の収録装置から収録され、かつ、前記第1の音と同じ音源の音を含む第2の音とを取得する取得手段と、前記前記第1の音を周波数分析して、声を示す周波数帯域を決定する決定手段と、前記第2の音を示す周波数成分のうち、前記周波数帯域の周波数成分を変更する変更手段と、前記周波数帯域の周波数成分が変更された前記第2の音を出力する出力手段とを有する。
本発明によって、所定のマイクロフォンが収録した音に含まれる声のうち、注意深く聞くと発声内容を識別できてしまう声を聞き取り難くすることが可能となる。
情報処理システムの一例を模式的に示す図である。 収録装置100、情報処理装置180の構成の一例を示す図である。 収録装置100a、100bのそれぞれが音を収録した場合の様子を示す図である。 収録装置100a、100bのそれぞれが音を収録した場合の様子を示す図である。 情報処理装置180a、情報処理装置180bの構成の一例を示す図である。 収録した音に含まれる人の声を聞き取り難くする処理を示すフローチャートである。 マスク情報を統合する処理を模式的に示す図である。 マスクする処理の時間的な流れを示す図である。 情報処理装置910の機能構成を示す機能ブロック図である マスク情報を生成する過程、マスクする過程を示すフローチャートである。 情報処理装置190a、情報処理装置190bの構成の一例を示す図である。 収録した音に含まれる人の声を聞き取り難くする処理を示すフローチャートである。 送信対象を選択する処理の流れを示すフローチャートである。 送信対象を選択する処理の流れを示すフローチャートである。
(第1の実施形態)
図1(a)は、本発明に係る情報処理システムの一例を模式的に示す図である。
同図において、本情報処理システムは、収録装置100a、100b、100c、出力装置120、ネットワーク140を有する。以下、本情報処理システムが有する各要素について説明する。
収録装置100a、100b、100cは、例えば、映像を撮影する監視カメラ、音を収録するマイクロフォン等から構成され、映像を撮影及び音を取得する。出力装置120は、例えば、映像を表示するディスプレイ、音を出力するスピーカ等から構成され、前述した収録装置が撮影した映像や収録した音を、視聴者に提供する。ネットワーク140は、収録装置100a、100b、100cと出力装置120とを接続し、収録装置同士あるいは、収録装置100a、100b、100cと出力装置120との通信を可能とする。
尚、本実施形態において、本情報処理システムは3個の収録装置を有するが、収録装置の個数は、3個に限られない。また、収録装置の個数が多くなった場合において、収録装置同士の通信は、音の収録範囲が重なる収録装置同士のみに制限しても良い。即ち、収録装置100a、100b、100cの収録範囲を、それぞれ範囲160a、160b、160cとすると、収録装置100aと100cとは必ずしも通信可能でなくとも良い。尚、各収録装置の収録範囲とは、例えば、収録装置の設置位置や向き、収録装置が収録した音の音量等に基づいて決定される空間とする。
また図1(b)は、本発明に係る情報処理システムを設置した空間を横方向から見た図である。図1(b)に示す各要素については、図1(a)に示す各要素と同じ符号を付し、その説明を省略する。
図2(a)は、前述した収録装置100a、100b、100cのそれぞれに相当する収録装置100のハードウェア構成の一例を示す図である。尚、収録装置100は、カメラ109、マイクロフォン110、情報処理装置180からなる。
情報処理装置180は、CPU(中央演算装置)101、ROM(リードオンリメモリ)102、RAM(ランダムアクセスメモリ)103、記憶媒体104、映像入力I/F(インタフェース)105、音声入力I/F106、通信I/F107を有する。尚、上記の各要素はシステムバス108を介して接続されている。以下、各要素について説明する。
CPU101は、ROM102に格納されたプログラムをRAM102に展開し、実行することで後述する各機能ブロックを実現する。ROM102は、CPU101によって実行されるプログラムを格納する。RAM103は、ROM102に格納されたプログラムを展開するためのワークエリアを提供する。記憶媒体104は、後述する各種の処理を実行した結果として出力されたデータ等を記憶する。
映像入力I/F105は、カメラ109が撮影した映像を取得する。音声入力I/F106は、マイクロフォン110が収録した音を取得する。通信I/F107は、ネットワーク140を介して各種データを送受信する。
図2(b)は、情報処理装置180の機能構成の一例を示す機能ブロック図である。情報処理装置180は、音声入力部181、音声区間検出部182、マスク情報生成部183、マスク情報出力部184、マスク情報入力部185、マスク情報統合部186、マスク部187、音声出力部188を有する。尚、上記の各部の機能は、CPU101が、ROM102に格納されたプログラムをRAM103に展開し、実行するによって実現される。以下、各部について説明する。
音声入力部181は、音声入力I/F106によって取得された音を入力する。音声区間検出部182は、音声入力部181に入力された音のうち、人の声を含む音の区間を検出する。マスク情報生成部183は、音声区間検出部182によって検出された区間に含まれる人の声を聞き取り難くするためのマスク情報を生成する。尚、マスク情報については後述する。マスク情報出力部184は、マスク情報生成部183が生成したマスク情報を他の収録装置に送信するため、通信I/F107に対して、マスク情報を表す所定の信号を出力する。
マスク情報入力部185は、通信I/F107が他の収録装置から送信されたマスク情報を表す信号を受信した場合、当該マスク情報を入力する。マスク情報統合部186は、マスク情報生成部183が生成したマスク情報と、マスク情報入力部185から入力された別のマスク情報とが入力された場合、これらのマスク情報を統合する処理を実行する。尚、マスク情報を統合する処理については後述する。
マスク部187は、マスク情報生成部183が生成したマスク情報、マスク情報入力部185から入力されたマスク情報またはマスク情報統合部186が統合したマスク情報に基づいて、音声入力部181が入力した音の一部を聞き取り難くする処理を実行する。尚、入力した音の一部を聞き取り難くする処理については後述する。
音声出力部188は、マスク部187によって音の一部が聞き取り難くなるよう変更された音を出力装置120に出力するため、通信I/F107に対して、音を表す所定の信号を出力する。尚、音声入力部181が入力した音に対応するマスク情報がなく、当該音の一部が聞き取り難くする必要がない場合、音声出力部188は、音声入力部181が入力した音そのものを表す所定の信号を出力する。
次に、音に含まれる人の声のうち、はっきりとは識別することはできないが、かろうじて識別できる声を聞き取り難くする処理について説明する。
図3、図4は、図1に示した収録装置100a、100bのそれぞれが、音源から出力された人の声を含む音を収録した場合の様子を示す図である。尚、図1に示した音源と収録装置100aとの距離d1と、音源と収録装置100bとの距離d2は、d1<d2とする。
図3(a)、図4(a)は、収録装置100aが収録した音の波形を示す図であり、図3(b)、図4(b)は、収録装置100bが収録した音の波形を示す図である。尚、当該複数の図における時点t1から時点tjまでの区間を人の声を表す音の区間とする。
また、人の声を表す音の区間、即ち音声区間は、音響パワーに基づいて決定する方法、ゼロ交差回数に基づいて決定する方法、音声、非音声のそれぞれのモデルに対する尤度に基づいて決定する方法等、周知の方法を用いて決定する。
図3(c)は、時点t2において収録装置100aが収録した音を周波数分析して得たスペクトル包絡(包絡線)を示す図であり、図3(d)は、同時点において収録装置100bが収録した音を周波数分析して得たスペクトル包絡を示す図である。尚、周波数分析とは、例えば、周知の線形予測分析(LPC分析)等をいう。
また、図3(c)において、各ホルマントのピークに対応する周波数を小さい順に、f1(t2)、f2(t2)、f3(t2)、f4(t2)とする。一方、図3(d)においては、ホルマントが定まらないものとする。
一般に、声のスペクトルは、大局的な形状を示すスペクトル包絡として示すこと、細かい変動を示すスペクトル微細構造として示すことができる。そして、スペクトル包絡は、音韻(母音等)を表すことが知られており、スペクトル微細構造は、話者の声の特徴を表すことが知られている。
即ち、各ホルマントを減衰させ、ピークを消失させることで、複数の音韻によって構成されている声を聞き取り難くすることが可能となる。
図3(e)は、前述したマスク情報を模式的に示す図であり、マスク情報とは、f1(t2)、f2(t2)、f3(t2)、f4(t2)付近の周波数帯域(斜線部)を示す情報である。
図3(f)は、図3(e)に示したマスク情報を用いて、図3(c)に示したスペクトル包絡を変更する様子を模式的に示す図である。図3(f)においては、f1(t2)、f2(t2)、f3(t2)、f4(t2)付近の周波数帯域の成分が取り除かれている。尚、スペクトル包絡を変更する方法は、所定の周波数帯域の成分を取り除く方法に限るものではなく、例えば、所定の周波数帯域の成分を減衰させる方法等であってもよい。
図3(h)は、f1(t2)、f2(t2)、f3(t2)、f4(t2)付近の周波数帯域の成分を取り除いた場合、あるいは著しく減衰させた場合の補間処理を模式的に示す図である。図3(h)においては、f1(t2)、f2(t2)、f3(t2)、f4(t2)付近の周波数帯域に隣接する周波数の成分に基づいて、当該周波数帯域の成分(太破線)が定まる。
このようにして、図3(c)に示したホルマントを、図3(h)に示すように減衰させることで音に含まれる人の声のうち、はっきりとは識別することができる声を聞き取り難くすることが可能である。
図3(g)は、図3(e)に示したマスク情報を用いて、図3(d)に示したスペクトル包絡を変更する様子を模式的に示す図である。図3(g)においては、f1(t2)、f2(t2)、f3(t2)、f4(t2)付近の周波数帯域の成分が取り除かれている。尚、スペクトル包絡を変更する方法は、所定の周波数帯域の成分を取り除く方法に限るものではなく、例えば、所定の周波数帯域の成分を減衰させる方法、ホルマントの周波数位置を移動させる方法等であってもよい。
図3(i)は、f1(t2)、f2(t2)、f3(t2)、f4(t2)付近の周波数帯域の成分を取り除いた場合、あるいは著しく減衰させた場合の補間処理を模式的に示す図である。図3(i)においては、f1(t2)、f2(t2)、f3(t2)、f4(t2)付近の周波数帯域に隣接する周波数の成分に基づいて、当該周波数帯域の成分(太破線)が定まる。
このようにして、図3(d)に示したピークが明確でないホルマントを、図3(i)に示すように減衰させることで、音に含まれる人の声のうち、はっきりとは識別することはできないが、かろうじて識別できる声を聞き取り難くすることが可能である。
図4(c)は、時点t3において収録装置100aが収録した音を周波数分析して得たスペクトル包絡を示す図であり、図4(d)は、同時点において収録装置100bが収録した音を周波数分析して得たスペクトル包絡を示す図である。
尚、図4(c)において、各ホルマントのピークに対応する周波数を小さい順に、f1(t3)、f2(t3)、f3(t3)、f4(t3)とする。一方、図4(d)においては、ホルマントが定まらないものとする。
図3(c)(d)、図4(c)(d)に示すように、スペクトル包絡は逐次切り替わるため、一定時間毎に各ホルマントのピークに対応する周波数を求めるものとする。
図4(e)は、前述したマスク情報を模式的に示す図であり、マスク情報とは、f1(t2)、f2(t2)、f3(t2)、f4(t2)付近の周波数帯域(斜線部)を示す情報である。
図4(f)は、図4(e)に示したマスク情報を用いて、図4(c)に示したスペクトル包絡を変更する様子を模式的に示す図である。図4(f)においては、f1(t3)、f2(t3)、f3(t3)、f4(t3)付近の周波数帯域の成分が取り除かれている。
図4(h)は、f1(t3)、f2(t3)、f3(t3)、f4(t3)付近の周波数帯域の成分を取り除いた場合、あるいは著しく減衰させた場合の補間処理を模式的に示す図である。図4(h)においては、f1(t3)、f2(t3)、f3(t3)、f4(t3)付近の周波数帯域に隣接する周波数の成分に基づいて、当該周波数帯域の成分(太破線)が定まる。
このようにして、図4(c)に示したホルマントを、図4(h)に示すように減衰させることで音に含まれる人の声のうち、はっきりとは識別することができる声を聞き取り難くすることが可能である。
図4(g)は、図4(e)に示したマスク情報を用いて、図4(d)に示したスペクトル包絡を変更する様子を模式的に示す図である。図4(g)においては、f1(t3)、f2(t3)、f3(t3)、f4(t3)付近の周波数帯域の成分が取り除かれている。
図4(i)は、f1(t3)、f2(t3)、f3(t3)、f4(t3)付近の周波数帯域の成分を取り除いた場合、あるいは著しく減衰させた場合の補間処理を模式的に示す図である。図4(i)においては、f1(t3)、f2(t3)、f3(t3)、f4(t3)付近の周波数帯域に隣接する周波数の成分に基づいて、当該周波数帯域の成分(太破線)が定まる。
このようにして、図4(d)に示したピークが明確でないホルマントを、図4(i)に示すように減衰させることで、音に含まれる人の声のうち、はっきりとは識別することはできないが、かろうじて識別できる声を聞き取り難くすることが可能である。
尚、本実施形態では、各時点において、周波数が小さいものから順に4つのホルマントのピークに対応する周波数帯域の周波数成分を変更したが、周波数帯域の数は4つに限られない。
図5は、収録装置100a、収録装置100bの情報処理装置の構成を示す図である。本図において、収録装置100aに対応する情報処理装置は情報処理装置180a、収録装置100bに対応する情報処理装置は情報処理装置180bとする。また、情報処理装置180aの各部を、181aから188aとし、情報処理装置180bの各部を、181bから188bとする。181aから188aまでの各部、181bから188bまでの各部はそれぞれ、図1(b)に示した181から188までの各部と同様の機能を有する。
図6は、情報処理装置180aと情報処理装置180bが連携して、収録装置100bが収録した音に含まれる人の声を聞き取り難くする処理動作を示すフローチャートである。
尚、ステップS601からステップS605までの処理は、情報処理装置180aにおいて実行され、ステップS606からステップS615までの処理は、情報処理装置180bにおいて実行される。
まず、ステップS601において、音声入力部181aは、収録装置100aのマイクロフォンを介して収録された音を、音声区間検出部182a、マスク部187aに入力する。
次に、ステップS602において、音声区間検出部182aは、入力された音に含まれる音声区間を検出する処理を実行する。
次に、ステップS603において、音声区間検出部182aは、入力された音を一定の微小時間に分割したときの境界となる各時点について、音声区間内であるか否か判断し、音声区間内であると判定した場合、続いて、ステップS604の処理が実行される。
一方、ステップS603において、音声区間検出部182aが、処理の対象とした時点について音声区間内でないと判定した場合、情報処理装置180aにおける一連の処理を終了する。
ステップS604において、マスク情報生成部183aは、音声区間検出部182aが音声区間内であると判定した各時点について、マスク情報を生成する。
次に、ステップS605において、マスク情報送信部184aは、マスク情報生成部183aが生成したマスク情報を、所定の信号に変換し、他の情報処理装置(本実施形態では、情報処理装置180b)へ送信する。
ステップS606において、音声入力部181bは、収録装置100bのマイクロフォンを介して収録された音を、音声区間検出部182b、マスク部187bに入力する。
次に、ステップS607において、音声区間検出部182bは、入力された音に含まれる音声区間を検出する処理を実行する。
次に、ステップS608において、音声区間検出部182bは、入力された音を一定の微小時間に分割したときの境界となる各時点について、音声区間内であるか否か判断し、音声区間内であると判定した場合、続いて、ステップS609の処理が実行される。
一方、ステップS608において、音声区間検出部182bが、処理の対象とした時点について音声区間内でないと判定した場合、続いて、ステップS610の処理が実行される。
ステップS609において、マスク情報生成部183bは、音声区間検出部182bが音声区間内であると判定した各時点について、マスク情報を生成する。
次に、ステップS610において、マスク情報受信部185bは、マスク情報送信部184aが送信したマスク情報を表す信号を受信する処理を実行する。
次に、ステップS611において、マスク情報受信部185bは、マスク情報を表す信号を受信したか否か判断し、受信した場合、続いて、ステップS612の処理が実行される。
一方、ステップS611において、マスク情報受信部185bが、マスク情報を表す信号を受信しなかった場合、続いて、ステップS614の処理が実行される。
ステップS612において、マスク情報統合部186bは、マスク情報が複数あるか否か判断し、複数あると判断した場合、続いて、ステップS613の処理が実行される。
一方、ステップS612において、マスク情報統合部186bがマスク情報は1つであると判断した場合、続いて、ステップS614の処理が実行される。
尚、マスク情報が複数ある状態とは、マスク情報受信部185bが、ある時点tのマスク情報を表す信号を受信し、かつマスク情報生成部183bが同時点tのマスク情報を生成した場合をいう。
ステップS613において、マスク情報統合部186bは、マスク情報を統合する処理を実行する。マスク情報を統合する処理については後述する。
次に、ステップS614において、マスク部187bは、1つのマスク情報あるいはマスク情報統合部186bが統合したマスク情報に従って、音声入力部181bが入力した音をマスクする処理を実行する。
尚、マスクする処理とは、図3、図4に示した処理であって、音に含まれる人の声を聞き取り難くする処理をいう。また、マスク情報がない場合には、ステップS614に示したマスクする処理は実行されないものとする。
次に、ステップS615において、音声送信部188bは、適宜マスクする処理が施された音を示す信号を、出力装置120に送信する。
以上が、収録装置100bが収録した音に含まれる人の声を聞き取り難くする処理である。
図7は、マスク情報を統合する処理を模式的に示す図である。
図7(a)は、時点tにおいて収録装置100aが収録した音のスペクトル包絡を示す図であり、図7(b)は、時点tにおいて収録装置100bが収録した音のスペクトル包絡を示す図である。
また、図7(c)は、時点tにおいて収録装置100aが収録した音に対応するマスク情報を模式的に示す図であり、図7(d)は、時点tにおいて収録装置100bが収録した音に対応するマスク情報を模式的に示す図である。尚、図7(c)、図7(d)の斜線部は、前述したマスクする処理の対象となる周波数帯域を示している。
図7(e)は、図7(c)、図7(d)に示したマスク情報を統合した様子を模式的に示した図である。
尚、マスクする処理の対象となる各周波数帯域(W1からW7まで)は、W1、W3、W5のグループ、W2、W4、W7のグループ、W5のそれぞれに対してマスクする処理の度合いを変えられるよう、識別可能な情報としてもよい。また、マスク処理の度合いとは、例えば、マスクする処理が各ホルマントを減衰させる処理である場合、各ホルマントを減衰させる幅、割合等をいう。即ち、マスク情報統合部は、他の情報処理装置から受信したマスク情報によってホルマントを減衰させる幅、割合等を、自身の情報処理装置が生成したマスク情報によってホルマントを減衰させる幅、割合等よりも小さく設定することができる。
また、マスク情報統合部は、他の情報処理装置から受信したマスク情報が示す周波数帯域と、自身の情報処理装置が生成したマスク情報が示す周波数帯域とが重なる場合、ホルマントを減衰させる幅、割合等を大きい方にあわせてもよい。
また、マスク情報統合部は、自身の収録装置の設置位置、マスク情報を送信した情報処理装置に対応する収録装置の設置位置、音源位置等の位置関係から、ホルマントを減衰させる幅、割合等を決定してもよい。
図8は、各収録装置に対応する情報処理装置において実行されるマスクする処理の時間的な流れを示す図である。各情報処理装置は一定の時間(フレーム)毎に音を処理し、音声区間の検出、マスク情報の生成、およびマスクする処理を実行する。
まず、時点t1において、情報処理装置180aが音声区間を検出すると、情報処理装置180aは、時点t1におけるマスク情報を生成して、当該マスク情報を情報処理装置180bへ送信した後、時点t1の音をマスクする処理を実行する。
情報処理装置180bは、情報処理装置180bから時点t1におけるマスク情報を受信した後、受信したマスク情報を用いて、収録装置100bが収録した時点t1における音をマスクする処理を実行する。尚、情報処理装置180bは時点t1において、音声区間を検出していないものとする。また、同図では時点t2においても時点t1と同様に処理が行われている。
一方、時点txでは、情報処理装置180a、情報処理装置180bの双方で音声区間を検出するものとする。この場合、情報処理装置180aは情報処理装置180bへ、情報処理装置180bは情報処理装置180bへそれぞれのマスク情報を送信する。
続いて、情報処理装置180a、情報処理装置180bは、それぞれマスク情報を受信すると、受信したマスク情報と自身のマスク情報生成部が生成したマスク情報とを統合し、統合したマスク情報を用いて、時点txの音をマスクする処理を実行する。
ここで情報処理装置はある時点tのマスク情報を受信したかどうかを判定してから、その時点tの音をマスクする処理するので、若干の時間遅れが生じる。従って各情報処理装置は、所定時間の音を所定の記憶領域にバッファリングしておく必要がある。尚、所定の記憶領域は、記憶媒体104等が提供する。
また、本実施形態では、単一の時点におけるマスク情報を用いて、同時点の音をマスクする処理を行っているが、例えば、〔数1〕のような、注目する時点近接する複数の時点におけるマスク情報を用いて、注目する時点の音をマスクする処理を実行しても良い。
〔数1〕
H(t) = αM(t)+βM(t−1)+γM(t−2)
尚、H(t)は、注目する時点tの音をマスクする処理に使用するマスク情報であり、M(t)、M(t−1)、M(t−2)は、時点t、t−1、t−2において収録された音に対応するマスク情報とする。また、α+β+γ=1とする。
このように、例えば、H(t)を用いて時点tの音をマスクし、H(t+1)を用いて時点t+1の音をマスクすると、近接する時点間でマスクの有無が変化する場合、マスクする周波数が大きく変わる場合等であっても、出力される音の歪が抑えられる。
また、本実施形態では、マスク情報として、マスク部がホルマントの周波数成分を取り除く、あるいは減衰させると説明したが、本発明はこれに限るものではない。例えば、音声区間を周波数分析し、その周波数特性を取り消す逆フィルタを生成してそのフィルタ係数をマスク情報としてもよい。また、音声の周波数特性にあわせて、雑音を重ね合わせてもよい。また、単純に音声区間の時間情報のみをマスク情報とし、その音声区間に対して声が含まれる周波数帯域を全て除去したり、別の音を重ね合わせたりしてもよい。
また、本実施形態では、監視カメラを例に説明したが、例えば、個人が所有するビデオカメラに適用しても良い。個人が所有するビデオカメラに適用する場合、例えば撮影者が話す声が他の人のカメラに記録されてしまうことを避けるために、マスクする処理を実行する。
尚、ビデオカメラは互いに無線LAN(Local Area Network)やBluetoothなどの通信手段を使ってマスク情報を相互に送受信する。
また、個々のビデオカメラは、撮影者あるいはその近辺で話す声を音声区間検出によって検出する。尚、撮影者あるいはその近辺で話す声は、被写体など他の声に対して音量が大きいため、音声区間検出の音量に関するパラメータを調整することで他の音声は検出せずに検出できる。そしてその音声のマスク情報を他のビデオカメラに送信する。
送信するビデオカメラを決定する方法としては、無線LANやBluetoothなどの電波強度の強さから決定しても良い。また、GPS(Global Positioning System)を搭載したビデオカメラであれば、位置情報によって決定しても良い。
以上のようにすることで、撮影者が自身のビデオカメラに向かって話した声が、周囲にある他人のビデオカメラに録音されてしまった場合に、その音声を聞き取り難くすることができる。
(第2の実施形態)
第1の実施形態では、各収録装置が情報処理装置を有し、収録した音をマスクする処理を実行していたが、本発明はこれに限るものではない。本実施形態においては、異なる位置に設置された複数のマイクロフォンが収録した音データがストレージサーバ等に保存されている場合に、他マイクロフォンが収録した音データから生成したマスク情報を使ってマスクする処理を行う。
図9は、本実施形態における情報処理装置910の機能構成を示す機能ブロック図である。
情報処理装置910は、音声入力部911、音声区間検出部912、マスク情報生成部913、マスク情報保持部914、マスク情報選択部915、マスク情報統合部916、マスク部917、音声送信部918を有する。
音声入力部911は、複数のマイクロフォンのそれぞれが収録した音データを一旦保持した後、音声区間検出部912、マスク部917へ入力する。音声区間検出部912は、音声入力部911から入力された複数の音データそれぞれについて、音声区間を検出する。マスク情報生成部913は、音声区間検出部912が音声区間を検出した場合、当該音声区間のマスク情報を生成する。尚、マスク情報とは、第1の実施形態で説明したものと同様であるため、説明を省略する。
マスク情報保持部914は、マスク情報生成部913が生成したマスク情報を一旦保持する。マスク情報選択部915は、マスク情報保持部914に保持されたマスク情報のうち、使用するマスク情報を選択する。
マスク情報統合部916は、マスク情報選択部915が複数のマスク情報を選択した場合、当該複数マスク情報を統合する。尚、マスク情報統合する処理は、第1の実施形態で説明したものと同様であるため、説明を省略する。マスク部917は、マスク情報統合部によって統合されたマスク情報またはマスク情報選択部915が選択したマスク情報を用いて、所定の音データをマスクする処理を実行する。尚、マスクする処理は、第1の実施形態で説明したものと同様であるため、説明を省略する。
音声送信部918は、マスク部917によって音の一部が聞き取り難くなるよう変更された音を出力装置120に出力する。尚、音の一部を聞き取り難くする処理が不要である場合、音声送信部918は、所定のマイクロフォンが収録した音をそのまま出力装置120に出力する。
図10は、本実施形態において、収録した音に含まれる人の声を聞き取り難くする処理の流れを表すフローチャートである。尚、図10(a)はマスク情報を生成する過程を示し、図10(b)のマスクする過程を示す。
図10(a)のマスク情報を生成する過程では、まずステップS1601において、音声入力部911から音声区間検出部912に音データが読み込まれる。
次に、ステップS1602おいて、音声区間検出部912は、読み込まれた音データに音声区間があるか否か判断し、音声区間があると判断した場合には、続いて、ステップS1603の処理が実行される。
一方、ステップS1602おいて、音声区間検出部91が、読み込まれた音データに音声区間がないと判断した場合には、続いて、ステップS1605の処理が実行される。
ステップS1603において、マスク情報生成部913は、検出された音声区間のマスク情報を生成する。
次に、ステップS1604において、マスク情報保持部914は、生成したマスク情報を所定の記憶領域に保持する。
次に、ステップS1605において、音声区間検出部912は、音声入力部911から読み込まれた全ての音データを処理したか否か判断し、全ての音データを処理したか否か判断した場合、一連の処理を終了する。尚、図10(a)に示した一連の処理が終了した後、図10(b)のマスクする過程が実行される。
一方、ステップS1605において、音声区間検出部912が、音声入力部911から読み込まれた全ての音データを処理していないと判断した場合、ステップS1602からの処理を繰り返す。
図16(b)のマスクする過程では、まずステップS1606において、音声入力部911からマスク部917に音データが読み込まれる。
次に、ステップS1607において、マスク情報選択部915は、音声入力部911からマスク部917読み込まれた音データをマスクするマスク情報を選択する。
尚、マスク情報選択部915が選択するマスク情報とは、音声入力部911からマスク部917読み込まれた音データから生成されたマスク情報、他の音データから生成したマスク情報である。
また、選択するマスク情報は、全てのマスク情報でもよく、音声入力部911からマスク部917読み込まれた音データを収録したマイクロフォンの設置位置、方向や音声区間の音量に基づいて選択してもよい。この場合、音データとマイクロフォンの設置位置、方向の関係をマスク情報と共に保持する必要がある。
次に、ステップS1608において、マスク情報統合部916は、マスク情報選択部915が選択したマスク情報の数を判定し、1つも選択していない場合、続いて、ステップS1611の処理が実行される。
また、ステップS1608において、マスク情報統合部916が、マスク情報選択部915が選択したマスク情報の数が1つであると判定した場合、続いて、ステップS1610の処理が実行される。
また、ステップS1608において、マスク情報統合部916が、マスク情報選択部915が選択したマスク情報の数が2つであると判定した場合、続いて、ステップS1609の処理が実行される。
ステップS1609において、マスク情報統合部916は、複数のマスク情報を統合する処理を実行する。
次に、ステップS1610において、マスク部917は、所定のマスク情報に基づいて音データのマスクする処理を実行する。
ステップS1611において、音声送信部918は、マスクする処理が完了した音データを一旦保持した後、必要に応じて所定の出力装置に当該音データが送信する。
次に、ステップS1612において、マスク情報選択部915は、全ての音データについて対応するマスク情報が選択されたか否か判断し、未だマスク情報が選択されていない音データがある場合、ステップS1606からの処理を繰り返す。
一方、ステップS1612において、マスク情報選択部915が、全ての音データについて対応するマスク情報が選択されたと判断した場合、一連の処理を終了する。
以上のように、複数のマイクロフォンから収録された音を一つの装置に保持している場合でも、互いの音データから検出される音声区間のマスク情報に基づいて、マスク処理を行う事ができる。
(第3の実施形態)
本実施形態は、第1の実施形態に加え、音声区間の特徴に応じてマスクする処理を実行するか否かを判別する。また、収録装置の設置位置や方向や音量に基づいて、マスク情報を送信する収録装置を選択する。また、収録装置間の距離に応じてマスク情報を修正する特徴を有する。
図11は、本実施形態における情報処理装置を表す機能ブロック図である。尚、図5と同様に、収録装置100aの情報処理装置を情報処理装置190aとし、収録装置100bの情報処理装置を情報処理装置190bとする。また、第1の実施形態において説明した各部と同様の機能を有するものについては、同符号を付し、その説明を省略する。
以下、情報処理装置190a、bが有する、音声識別部191a、b、マスク要否決定部192a、b、送信対象選択部193a、b、遅延修正部194a、bについて説明する。
音声識別部191a、bは、音声区間の音声の種類を識別する。マスク要否決定部192a、bは、音声識別部191a、bの識別結果に基づいて、音声区間をマスクするか否かを決定する。送信対象選択部193a、bは、収録装置の設置位置や方向、音声区間の音量に基づいて、マスク情報を送信する収録装置を選択する。遅延修正部194a、bは、収録装置間の距離に応じて音の遅延を計算し、マスク情報受信部185a、bが受信したマスク情報を対応付ける時点を修正する。
図12は、情報処理装置190aと情報処理装置190bが連携して、収録装置100bが収録した音に含まれる人の声を聞き取り難くする処理を示すフローチャートである。
尚、ステップS1201からステップS1208までの処理は、情報処理装置190aにおいて実行され、ステップS1209からステップS1221までの処理は、情報処理装置190bにおいて実行される。
まず、ステップS1201において、音声入力部181aは、収録装置100aのマイクロフォンを介して収録された音を、音声区間検出部182a、マスク部187aに入力する。
次に、ステップS1202において、音声区間検出部182aは、入力された音に含まれる音声区間を検出する処理を実行する。
次に、ステップS1203において、音声区間検出部182aは、入力された音を一定の微小時間に分割したときの境界となる各時点について、音声区間内であるか否か判断し、音声区間内であると判定した場合、続いて、ステップS1204の処理が実行される。
一方、ステップS1203において、音声区間検出部182aが、処理の対象とした時点について音声区間内でないと判定した場合、情報処理装置190aにおける一連の処理を終了する。
ステップS1204において、音声識別部191aは、音声区間に含まれる音声の種類等を識別する。音声の識別については後述する。
次に、ステップS1205において、マスク要否決定部192aは、音声識別部191aの識別結果に基づいて音声をマスクするか否か判断する。
尚、ステップS1205において、マスク要否決定部192aが、マスクすると判断した場合、続いて、ステップS1206の処理が実行され、マスクしないと判断した場合、情報処理装置190aにおける一連の処理を終了する。
ステップS1206において、マスク情報生成部183aは、マスク要否決定部192aがマスクすると判断した各時点について、マスク情報を生成する。
次に、ステップS1207において、送信対象選択部193aは、収録装置同士の設置位置、設置方向の関係や、音声区間の音量に基づいてマスク情報を送信する相手先となる情報処理装置(本実施形態においては、情報処理装置190bとする。)を選択する。尚、送信対象選択部193aにおける処理については、後述する。
次に、ステップS1208において、マスク情報送信部184aは、マスク情報生成部183aが生成したマスク情報を、所定の信号に変換し、送信対象選択部193aが選択した情報処理装置へ送信する。
ステップS1209からステップS1214までの処理は、ステップS1201からステップS1206までの処理と同様であるため、説明を省略する。
次に、ステップS1215において、マスク情報受信部185bは、マスク情報送信部184aが送信したマスク情報を表す信号を受信する処理を実行する。
次に、ステップS1216において、マスク情報受信部185bは、マスク情報を表す信号を受信したか否か判断し、受信した場合、続いて、ステップS1217の処理が実行される。
一方、ステップS1216において、マスク情報受信部185bが、マスク情報を表す信号を受信しなかった場合、続いて、ステップS1220の処理が実行される。
ステップS1217において、遅延修正部194bは、受信した信号に対応するマスク情報を、音の遅延時間分だけ遅らせるよう修正する。
尚、音の遅延時間とは、音の速度と収録装置の設置位置から求まる収録装置間の距離から推定するものとする。
また、収録装置のマイクロフォンを複数のマイクロフォンで構成して音源方向を推定し、さらに複数の収録装置から求まる音源方向の交点から音源位置を推定して、音源位置から収録装置までの距離を算出して遅延時間を求めても良い。
ステップS1218において、マスク情報統合部186bは、マスク情報が複数あるか否か判断し、複数あると判断した場合、続いて、ステップS1219の処理が実行される。
一方、ステップS1218において、マスク情報統合部186bがマスク情報は1つであると判断した場合、続いて、ステップS1220の処理が実行される。
尚、マスク情報が複数ある状態とは、マスク情報受信部185bが、ある時点tのマスク情報を表す信号を受信し、かつ遅延修正部194bが同時点tに修正したマスク情報を生成した場合をいう。
ステップS1219において、マスク情報統合部186bは、マスク情報を統合する処理を実行する。マスク情報を統合する処理については後述する。
次に、ステップS1220において、マスク部187bは、1つのマスク情報あるいはマスク情報統合部186bが統合したマスク情報に従って、音声入力部181bが入力した音をマスクする処理を実行する。
尚、マスクする処理とは、図3、図4に示した処理であって、音に含まれる人の声を聞き取り難くする処理をいう。また、マスク情報がない場合には、ステップS1220に示したマスクする処理は実行されないものとする。
次に、ステップS1221において、音声送信部188bは、適宜マスクする処理が施された音を示す信号を、出力装置120に送信する。
以上が、収録装置100bが収録した音に含まれる人の声を聞き取り難くする処理である。
次に、音声を識別する処理について説明する。音声を識別する処理とは、例えば、笑い声、泣き声、叫び声を識別する処理である。
従って、音声識別部191aは、笑い声識別部、泣き声識別部、叫び声識別部をそれぞれ有し、音声区間に笑い声、泣き声、叫び声が含まれているかを識別する。
一般に、笑い声、泣き声、叫び声等には、個人情報、機密情報等が含まれていない。そこで、音声区間が笑い声、泣き声、叫び声のいずれかと識別された場合には、マスク要否決定部192aは、当該音声区間をマスクしない。
また、音声区間検出において、検出精度が高くない場合、音声以外の大きな音(風音、自動車音、警告音等の非音声)が出力されている区間を音声区間として検出することがある。そこで、音声識別部191aが、風音、自動車音、警告音等の非音声を識別した結果、音声区間が風音、自動車音、警告音等のいずれかと識別された場合には、マスク要否決定部192aは当該音声区間をマスクしない。
また、一般に、日常会話において、内容をもたない声(例えば、「あー」、「んー」など)を発することがある。そして、内容をもたない声は、大語彙音声認識用の辞書を用いて音声認識した場合、認識失敗となることが多い。そこで、音声識別部191aは、大語彙音声認識用の辞書を有し、大語彙音声認識用の辞書を用いて音声認識した結果、認識失敗となった場合には、マスク要否決定部192aは当該音声区間をマスクしない。
また、例えばショッピングモール等に収録装置が設置されている場合、音声区間の音量が所定値よりも大きいときには、当該音声は館内放送であることもある。そこで、音声識別部191aは、音量検知部を有し、音声区間の音量を計測する。そして、音声識別部191aが、音声区間において所定の閾値よりも大きい音量を計測した場合には、マスク要否決定部1002は当該音声区間をマスクしない。尚、音量に基づくマスクの要否については、収録装置が設置されている場所の属性(公共性のレベルなど)に応じて、閾値となる音量レベルを調整しても良い。
尚、音声識別部191aが上記のいずれかの方法で音識別を行うと、ある程度の長さの音声データがないと識別できない場合や、処理自体に処理時間を要する場合がある。
このような場合、音声区間検出からマスク情報生成までの間に遅延が生ずる。従って、マスク処理を行うまでに十分な音声データをバッファリングするか、処理単位である一定フレームTを大きく設定する必要がある。
図13は、送信対象選択部193aが送信対象を選択する処理の流れの一例を示すフローチャートである。
まず、ステップS1701において、送信対象選択部193aは、各収録装置のマイク特性(指向性及び感度)、設置位置、方向を取得する。尚、これらのパラメータは予め設定された固定値を保持していても良いし、監視カメラの方向パラメータのように値が変化する場合はその都度取得しても良い。他の収録装置から変化するパラメータを取得する場合はネットワーク140を経由して取得する。
次に、ステップS1702において、送信対象選択部193aは、各収録装置のマイクの指向性パラメータに基づいて収録範囲の形状を取得する。
次に、ステップS1703において、送信対象選択部193aは、各収録装置の設置位置に基づいて収録範囲の位置を取得する。
次に、ステップS1704において、送信対象選択部193aは、各収録装置の方向に基づいて収録範囲の方向を取得する。
次に、ステップS1705において、送信対象選択部193aは、各収録装置のマイクの感度設定に基づいて収録範囲の大きさを決定する。
このとき、送信するマスク情報を生成した音声区間の音量にあわせて収録範囲の大きさを調整しても良い。例えば大きな音量の場合は遠くの収録装置まで収録され得るとして各収録装置の収録範囲を広げる。
次に、ステップS1706において、送信対象選択部193aは、各収録範囲の形状、位置、方向、大きさの情報に基づいてマッピングする。
次に、ステップS1707において、送信対象選択部193aは、マッピングした収録範囲が重なっている収録装置に対応する情報処理装置のみを、マスク情報の送信対象として選択する。
尚、本実施形態ではマスク情報の送信対象を、マイクの指向性、感度、音声区間の音量、収録装置の位置、方向に基づいて決定したが、これらの一部を使用しても構わない。
また、収録範囲を定義しなくとも、送信元と送信先との収録装置間の位置や方向の関係から送信対象とするか否かを決定しても良い。例えば単純に収録装置の設置位置のみを使用し、所定の距離内にある収録装置をマスク情報の送信対象としても良い。また、収録装置の設置位置が同じ部屋であるか否かでマスク情報の送信対象を選択しても良い。
図14は、送信対象選択部193aが送信対象を選択する処理の流れの、別の一例を示すフローチャートである。
まず、ステップS1801において、送信対象選択部193aは、送信対象候補となる情報処理装置に対応する収録装置を選択する。
次に、ステップS1802において、送信対象選択部193aは、選択した収録装置の設置位置と方向を取得する。
次に、ステップS1803において、送信対象選択部193aは、マスク情報を送信する送信元となる情報処理装置に対応する収録装置と送信対象候補となる情報処理装置に対応する収録装置との間の距離が所定値以内かどうか調べる。
尚、ステップS1803の処理は、送信対象選択部193aが、選択した収録装置が送信元となる情報処理装置に対応する収録装置と同じ部屋にあるかどうか調べる処理としてもよい。
ステップS1803において、送信対象選択部193aが、収録装置間の距離が所定値以内であると判定した場合、収録装置同士が同じ部屋にあると判定した場合、続いてステップS1804の処理が実行される。
一方、ステップS1803において、送信対象選択部193aが、収録装置間の距離が所定値以内でないと判定した場合、収録装置同士が同じ部屋にないと判定した場合、続いてステップS1806の処理が実行される。
ステップS1804において、送信対象選択部193aは、送信対象候補となる情報処理装置に対応する収録装置の方向が、送信元となる情報処理装置に対応する収録装置に対して所定の角度であるか否か判断する。
尚、ステップS1804において、送信対象選択部193aが、所定の角度であると判断した場合、続いて、ステップS1805の処理が実行され、所定の角度でないと判断した場合、続いて、ステップS1806の処理が実行される。
ステップS1805において、送信対象選択部193aは、送信対象候補となる情報処理装置を送信対象として選択する。
ステップS1806において、送信対象選択部193aは、送信対象候補をなる情報処理装置を送信対象として選択しない。
ステップS1807において、送信対象選択部193aは、送信対象候補をなる情報処理装置の全てに対して、送信対象か否かを決定したか判断する。
尚、ステップS1807において、送信対象選択部193aが送信対象候補をなる情報処理装置の全てに対して送信対象か否かを決定した判断した場合、一連の処理を終了する。
一方、ステップS1807において、送信対象選択部193aが送信対象候補をなる情報処理装置の全てに対して送信対象か否かを決定していない判断した場合、ステップS1801からの一連の処理を繰り返す。
以上、図13、図14で示したように、送信対象選択部193aは様々な方法で送信対象となる情報処理装置を選択し得る。
尚、本実施形態では、送信対象選択部193aがマスク情報を送信する情報処理装置を選択するよう説明したが、本発明はこれに限るものではなく、マスク情報を受信した情報処理装置がマスク情報の使用可否を選択しても良い。このとき送信側は全ての情報処理装置にマスク情報を送信する。一方、受信側の情報処理装置は、マスク情報選択部を有し、所定の収録範囲に基づいて収録範囲の重なる収録装置に対応する情報処理装置から受信したマスク情報のみを選択する。
以上に述べたとおり、本実施形態によれば、第1の実施形態に加え、音声区間の特徴に応じてマスク処理をするか否かを判別する。さらに収録装置の設置位置や方向やマイク特性や音声区間の音量に基づいてマスク情報を送信する情報処理装置を選択する。さらに収録装置間の距離に応じてマスク情報を修正する。これによって、マスクする必要がある音だけを精度良くマスクすることができる。
(その他の実施形態)
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。

Claims (14)

  1. 第1の収録装置から収録された第1の音と、前記第1の収録装置と異なる第2の収録装置から収録され、かつ、前記第1の音と同じ音源の音を含む第2の音とを取得する取得手段と、
    前記第1の音を周波数分析して、声を示す周波数帯域を決定する決定手段と、
    前記第2の音を示す周波数成分のうち、前記周波数帯域の周波数成分を変更する変更手段と、
    前記周波数帯域の周波数成分が変更された前記第2の音を出力する出力手段とを有する情報処理装置。
  2. 前記変更手段は、前記第2の音を示す周波数成分のうち、前記周波数帯域の周波数成分を減衰させること特徴とする請求項1に記載の情報処理装置。
  3. 前記決定手段は、前記第1の音を周波数分析して得たスペクトル包絡のホルマントに基づく周波数帯域を、声を示す周波数帯域として決定することを特徴とする請求項1または請求項2に記載の情報処理装置。
  4. 前記決定手段は、前記第1の音を周波数分析して得たスペクトル包絡のホルマントのピークを含む周波数帯域を、声を示す周波数帯域として決定することを特徴とする請求項3に記載の情報処理装置。
  5. 前記第2の音は、前記第1の音が収録された時間に対応する時間に収録された音であることを特徴とする請求項1乃至請求項4のいずれか1項に記載の情報処理装置。
  6. 前記第1の音が収録された時間に対応する時間とは、前記第1の音が収録された時間とおなじ時間であることを特徴とする請求項5に記載の情報処理装置。
  7. 音の周波数成分を変更する情報処理装置の処理方法であって、
    取得手段が、第1の収録装置から収録された第1の音と、前記第1の収録装置と異なる第2の収録装置から収録され、かつ、前記第1の音と同じ音源の音を含む第2の音とを取得する取得工程と、
    決定手段が、前記第1の音を周波数分析して、声を示す周波数帯域を決定する決定工程と、
    変更手段が、前記第2の音を示す周波数成分のうち、前記周波数帯域の周波数成分を変更する変更工程と、
    出力手段が、前記周波数帯域の周波数成分が変更された前記第2の音を出力する出力工程とを有する処理方法。
  8. 前記変更工程は、前記第2の音を示す周波数成分のうち、前記周波数帯域の周波数成分を減衰させること特徴とする請求項7に記載の処理方法。
  9. 前記決定工程は、前記第1の音を周波数分析して得たスペクトル包絡のホルマントに基づく周波数帯域を、声を示す周波数帯域として決定することを特徴とする請求項7または請求項8に記載の処理方法。
  10. 前記決定工程は、前記第1の音を周波数分析して得たスペクトル包絡のホルマントのピークを含む周波数帯域を、声を示す周波数帯域として決定することを特徴とする請求項9に記載の処理方法。
  11. 前記第2の音は、前記第1の音が収録された時間に対応する時間に収録された音であることを特徴とする請求項7乃至請求項10のいずれか1項に記載の処理方法。
  12. 前記第1の音が収録された時間に対応する時間とは、前記第1の音が収録された時間とおなじ時間であることを特徴とする請求項11に記載の処理方法。
  13. コンピュータを、請求項1乃至5の何れか1項に記載の情報処理装置が有する各手段として機能させるためのコンピュータプログラム。
  14. 請求項13に記載のコンピュータプログラムを格納した、コンピュータ読み取り可能な記憶媒体。
JP2010040598A 2010-02-25 2010-02-25 情報処理装置およびその処理方法 Expired - Fee Related JP5489778B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2010040598A JP5489778B2 (ja) 2010-02-25 2010-02-25 情報処理装置およびその処理方法
US13/033,438 US8635064B2 (en) 2010-02-25 2011-02-23 Information processing apparatus and operation method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010040598A JP5489778B2 (ja) 2010-02-25 2010-02-25 情報処理装置およびその処理方法

Publications (3)

Publication Number Publication Date
JP2011175182A JP2011175182A (ja) 2011-09-08
JP2011175182A5 JP2011175182A5 (ja) 2013-04-04
JP5489778B2 true JP5489778B2 (ja) 2014-05-14

Family

ID=44477243

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010040598A Expired - Fee Related JP5489778B2 (ja) 2010-02-25 2010-02-25 情報処理装置およびその処理方法

Country Status (2)

Country Link
US (1) US8635064B2 (ja)
JP (1) JP5489778B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013247456A (ja) * 2012-05-24 2013-12-09 Toshiba Corp 音響処理装置、音響処理方法、音響処理プログラムおよび音響処理システム
CN105049807B (zh) 2015-07-31 2018-05-18 小米科技有限责任公司 监控画面声音采集方法及装置
CN106128448A (zh) * 2016-08-30 2016-11-16 金嵩 一种新型球场用声音收集器
JP2020170467A (ja) * 2019-04-05 2020-10-15 株式会社Preferred Networks 情報処理システム、ロボット、遠隔操作装置、情報処理方法及びプログラム
CN111028858B (zh) * 2019-12-31 2022-02-18 云知声智能科技股份有限公司 一种人声起止时间检测方法及装置

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2408500A (en) * 1999-01-07 2000-07-24 Tellabs Operations, Inc. Method and apparatus for adaptively suppressing noise
US8254617B2 (en) * 2003-03-27 2012-08-28 Aliphcom, Inc. Microphone array with rear venting
JP2002152397A (ja) * 2000-11-10 2002-05-24 Honda Motor Co Ltd 通話装置
JP2002251199A (ja) * 2001-02-27 2002-09-06 Ricoh Co Ltd 音声入力情報処理装置
US7099821B2 (en) * 2003-09-12 2006-08-29 Softmax, Inc. Separation of target acoustic signals in a multi-transducer arrangement
JP4761506B2 (ja) * 2005-03-01 2011-08-31 国立大学法人北陸先端科学技術大学院大学 音声処理方法と装置及びプログラム並びに音声システム
JP4734627B2 (ja) * 2005-03-22 2011-07-27 国立大学法人山口大学 スピーチプライバシー保護装置
US7464029B2 (en) * 2005-07-22 2008-12-09 Qualcomm Incorporated Robust separation of speech signals in a noisy environment
US8194880B2 (en) * 2006-01-30 2012-06-05 Audience, Inc. System and method for utilizing omni-directional microphones for speech enhancement
JP2007243856A (ja) * 2006-03-13 2007-09-20 Yamaha Corp マイクロホンユニット
JP4910765B2 (ja) * 2007-02-27 2012-04-04 ヤマハ株式会社 サウンドマスキングシステム及びマスキングサウンド生成装置
JP5103974B2 (ja) * 2007-03-22 2012-12-19 ヤマハ株式会社 マスキングサウンド生成装置、マスキングサウンド生成方法およびプログラム
US20080312916A1 (en) * 2007-06-15 2008-12-18 Mr. Alon Konchitsky Receiver Intelligibility Enhancement System
US8175871B2 (en) * 2007-09-28 2012-05-08 Qualcomm Incorporated Apparatus and method of noise and echo reduction in multiple microphone audio systems
US8175291B2 (en) * 2007-12-19 2012-05-08 Qualcomm Incorporated Systems, methods, and apparatus for multi-microphone based speech enhancement
US8812309B2 (en) * 2008-03-18 2014-08-19 Qualcomm Incorporated Methods and apparatus for suppressing ambient noise using multiple audio signals
JP5453740B2 (ja) * 2008-07-02 2014-03-26 富士通株式会社 音声強調装置
US8311817B2 (en) * 2010-11-04 2012-11-13 Audience, Inc. Systems and methods for enhancing voice quality in mobile device

Also Published As

Publication number Publication date
US8635064B2 (en) 2014-01-21
JP2011175182A (ja) 2011-09-08
US20110208516A1 (en) 2011-08-25

Similar Documents

Publication Publication Date Title
US9595259B2 (en) Sound source-separating device and sound source-separating method
US20220159403A1 (en) System and method for assisting selective hearing
US7092882B2 (en) Noise suppression in beam-steered microphone array
EP2192794B1 (en) Improvements in hearing aid algorithms
US9536523B2 (en) Method and system for identification of speech segments
JP5489778B2 (ja) 情報処理装置およびその処理方法
US8532987B2 (en) Speech masking and cancelling and voice obscuration
EP2492912B1 (en) Sound processing apparatus, sound processing method and hearing aid
US20200184991A1 (en) Sound class identification using a neural network
US20210158828A1 (en) Audio processing device, image processing device, microphone array system, and audio processing method
CN107910011A (zh) 一种语音降噪方法、装置、服务器及存储介质
KR102191736B1 (ko) 인공신경망을 이용한 음성향상방법 및 장치
EP2881948A1 (en) Spectral comb voice activity detection
WO2015157458A1 (en) Methods and systems for improved measurement, entity and parameter estimation, and path propagation effect measurement and mitigation in source signal separation
US10547956B2 (en) Method of operating a hearing aid, and hearing aid
KR20240033108A (ko) 음성인식 오디오 시스템 및 방법
JP2003514412A (ja) 音源が一対のマイクロフォンから近いか遠いかを判断する方法
US9699549B2 (en) Audio capturing enhancement method and audio capturing system using the same
JP2021511755A (ja) 音声認識オーディオシステムおよび方法
CN107124647A (zh) 一种全景视频录制时自动生成字幕文件的方法及装置
US8793128B2 (en) Speech signal processing system, speech signal processing method and speech signal processing method program using noise environment and volume of an input speech signal at a time point
EP3671271A2 (en) Near ultrasound based proximity sensing for mobile devices
JP2018132737A (ja) 収音装置、プログラム及び方法、並びに、判定装置、プログラム及び方法
US11443760B2 (en) Active sound control
Yaguchi et al. Replay attack detection using generalized cross-correlation of stereo signal

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130214

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130214

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131108

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131126

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140106

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140128

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140225

R151 Written notification of patent or utility model registration

Ref document number: 5489778

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees