JP2012008392A

JP2012008392A - 音声変更装置、音声変更方法および音声情報秘話システム

Info

Publication number: JP2012008392A
Application number: JP2010145039A
Authority: JP
Inventors: Takayoshi Nakai; 孝芳中井; Fukuji Kawakami; 福司川上
Original assignee: Nippon Sheet Glass Environment Amenity Co Ltd
Current assignee: Nippon Sheet Glass Environment Amenity Co Ltd
Priority date: 2010-06-25
Filing date: 2010-06-25
Publication date: 2012-01-12
Anticipated expiration: 2030-06-25
Also published as: JP5662712B2

Abstract

【課題】騒音レベルの増長を抑えた上で音声の内容を隠蔽する。
【解決手段】音声情報秘話システムは、ブース２にいる顧客６が発話中の音声を受け、それを表す音声信号を生成するマイクロホンＭｉｃと、マイクロホンＭｉｃによって生成された音声信号を非線形関数を使用して変更するＳＤコントローラ部ＳＤと、ＳＤコントローラ部ＳＤによって変更された音声信号を音声に変換し、発話中の音声が受聴されている隣接ブース２’に実質的に実時間で出力するスピーカＳＰと、を有する。
【選択図】図３

Description

本発明は、非線形関数を使用して音声を変更する音声変更装置、音声変更方法およびその音声変更装置を備える音声情報秘話システムに関する。

個人情報保護法などの施行により銀行やオフィスにおける会話情報の保護の必要性が高まっている。その手段として、従来から物理的に空間を分ける遮音・防音や、オープンプランオフィスなどにおいて会話音声を別の雑音・音楽などで隠蔽するＢＧＭ・マスキングシステムなどが提案されてきた。

音声情報の隠蔽という目的については従来から、
（１）対象音声を他の定常的な雑音で隠蔽するマスキングシステム（Masking System）
（２）室内の暗騒音や空調騒音で隠蔽するシェーディングシステム（Shading System）
（３）遮音・防音（対象室を空間的に区画し、音響的に分離する）
等があった。（１）の例は音声の存在そのものを（無理やり）消し去ろうとするもので、エネルギマスキング（Energy Masking）と位置付けられる。これは例えばオープンプランオフィスのブースや会議室に使用されている。

（１）のシステムの例が非特許文献１に報告されている。そこでは、天井内部などに専用のジェネレータやスピーカを設置し、マスキング音を発生して音声の隠蔽を行っている。その原理は、会話の邪魔にならない程度の（会話とは脈絡のない）音楽や雑音を生成し、いわゆるＳ／Ｎを低減して音声の内容を隠蔽したり、明瞭度・了解度を低減したりして、会話内容を理解できない程度まで隠蔽しようとするものである。システムには会話レベルや室内暗騒音などに応じてマスキング音を最適レベルに制御する制御装置（信号処理装置）・電力増幅器などが含まれる。

また、この技術を利用した例としては、パーティションからブース内へマスキング用のノイズを放射し、対象空間領域をブースに限定することにより、室内全体の騒音レベルが上昇するのを抑えようとしたものがある。

（２）のシステムの例が非特許文献２に報告されている。そこでは、放射するマスキングノイズとして、室内の暗騒音そのものや、日常的に身近な空調騒音を使用した「Sound Shading System」が報告されている。このシステムでは、銀行の窓口などにおけるプライバシーの確保を目的とした視覚遮断的なパーティションに対し、会話のプライバシー保護を目的としてパーティション頂部にスピーカを設置する。このスピーカからマスキング音を再生し、それによりパーティションの反対側にいる人への会話内容の漏洩・伝達の阻止を図る。再生する音には街の雑踏をもとに生成した音や、その部屋の空調騒音を使用する。

（３）のシステムの例としては、別室として区画する遮音や、パーティションなどで区画する防音がある。

特開２００８−２３３６７１号公報

コクヨ社プレスリリース、サウンドマスキング、２００６年１０月１８日杉本明子、中村隆宏、伊勢史郎、「会話のしやすさとプライバシーを考慮した音場を生成する Sound Shading System の評価」、日本音響学会２００５年春季研究発表会講演論文集、ｐ．８１７電子情報通信学会、聴覚と音声、１９７３年、ｐ．３７０−３７１梶田、小林、武田、板倉、「ヒューマンスピーチライク雑音に含まれる音声的特徴の分析」、日本音響学会誌、１９９７年５月１日、５３（５）、ｐ．３３７−３４５

本発明者は、上述のマスキング／シェーディング技術に関して以下の課題を認識した。
（Ｉ）原音声とは脈絡のない新たな音を放射するので、違和感を伴い室内空間の騒音レベルを上昇させ得る。
（ＩＩ）音声発生のないいわゆる「無音時」にも騒音、つまりマスキング音が聞こえ得る。
（ＩＩＩ）会話とは関係のない別の音（騒音・音楽）を放射することにより、発声者・会話者・その他の在室者に少なからず違和感を与え得る。
（ＩＶ）音声の情報隠蔽は、性質の異なるもの同士は区別して認識する、という聴覚の性質により、雑音やBGMでは奏功しにくいという基本的な問題を含む（包絡線（エンベロープ）やスペクトルが似通った音声波形同士の方が聴覚認識上、区別されにくい）。

（Ｉ）については、経験上原音声を完全にマスクするのに必要な雑音の相対レベルは略１５ｄＢである（非特許文献３参照）。この視点から見ると、雑音や音楽を流すことにより音声を隠蔽するという方法（masking approach）では、原音声に対してそれ以上のかなり大きな音量の雑音や音楽が必要となり、maskingであれshadingであれ、室内騒音レベルを大きく上昇させ得る。

（ＩＩ）については、発話がない時にも音がするという違和感を伴う。またそもそも発話がない時に雑音や音楽を流すことは会話内容の隠蔽の観点からは無駄と言える。また無駄であるばかりでなく、室の等価騒音レベル（L_Aeq：A-weighted equivalent sound level＝A特性で補正した音声信号の一定区間の自乗平均音圧レベル、つまり平均的な騒音レベル）を上昇させる結果となりうる。雑音の代わりに音楽や音声から作成した「ＨＳＬ雑音（Human Speech-like noise）」（非特許文献４参照）を流した場合でも、一般的なＢＧＭとの区別は困難である。

また、（３）のアプローチについては、費用的にかなり大きなものとなり、また開放感を阻害するのでオープンプランオフィスなどでの使用には適さない。

また、特許文献１に記載のサウンドマスキングシステムでは、入力音(声)の話速を分析し、これに応じたフレーム長で分割して処理し、処理音声を合成する方法が述べられている。しかしながら、このシステムは「約２秒単位で入力音(声)を一時記憶し一連の処理を行う」ので、処理音声はそれがマスキング対象とする音声とは別の、過去の音声から生成される。したがって、処理音声とそれがマスキング対象とする音声との関連性は薄く、マスキング効果は十分とは言えない。

本発明はこうした課題に鑑みてなされたものであり、その目的は、騒音レベルや受聴者の不快感の増長を抑えた上で、実時間或いは実時間に準ずる処理速度で音声の内容を隠蔽する技術の提供にある。

本発明のある態様は、音声変更装置に関する。この音声変更装置は、発話中の音声を表す音声信号から変更対象部分の信号を抽出する部分抽出部と、部分抽出部によって抽出された変更対象部分の信号を非線形関数を使用して変更する非線形変更部と、少なくとも非線形変更部によって変更された変更対象部分の信号を、発話中の音声が受聴されている領域に音声を出力可能な音声出力手段に出力する出力部と、を備える。

この態様によると、発話中の音声が受聴されている領域に、その発話中の音声に非線形処理を施した音声を実質的に実時間で出力することができる。

本発明の別の態様は、音声情報秘話システムである。この音声情報秘話システムは、発話中の音声を受け、それを表す音声信号を生成する集音手段と、集音手段によって生成された音声信号を変更する音声変更装置と、音声変更装置によって変更された音声信号を音声に変換して発話中の音声が受聴されている領域に出力する音声出力手段と、を備える。音声変更装置は、集音手段によって生成された音声信号から変更対象部分の信号を抽出する部分抽出部と、部分抽出部によって抽出された変更対象部分の信号を非線形関数を使用して変更する非線形変更部と、少なくとも非線形変更部によって変更された変更対象部分の信号を音声出力手段に出力する出力部と、を含む。

なお、以上の構成要素の任意の組み合わせや、本発明の構成要素や表現を装置、方法、システム、コンピュータプログラム、コンピュータプログラムを格納した記録媒体などの間で相互に置換したものもまた、本発明の態様として有効である。

本発明によれば、騒音レベルや受聴者の不快感の増長を抑えた上で音声の内容を隠蔽できる。

マスキングに関する従来のアプローチと実施の形態に係るアプローチをカテゴリに分けて示す説明図である。実施の形態に係る音声情報秘話システムが設けられたブースを模式的に示す斜視図である。図２の音声情報秘話システムの機能および構成を模式的に示すブロック図である。図２のＩＴパーティションの構成を示す側面図である。図３のＳＤコントローラ部ＳＤの機能および構成を示すブロック図である。部分決定部における変更対象部分の信号の決定基準を説明するための説明図である。第２変更部における処理の一例を示す説明図である。受聴者位置におけるマスキーおよびマスカーを表す音声信号の波形を示す波形図である。ＳＤコントローラ部およびスピーカにおける一連の処理を示すフローチャートである。マスカーとマスキーの違いと認識率との関係を示すグラフである。第１変形例に係る音声情報秘話システムの機能および構成を模式的に示すブロック図である。第２変形例に係る音声情報秘話システムの機能および構成を模式的に示すブロック図である。

以下、本発明を好適な実施の形態をもとに図面を参照しながら説明する。各図面に示される同一または同等の構成要素、部材、処理には、同一の符号を付するものとし、適宜重複した説明は省略する。

特にオフィスなどにおいては、オープンプランの空間が有する開放性やコミュニケーションの円滑性を損なわずに音声情報、つまり音声の内容だけが隠蔽されることが望ましい。しかしながら、従来のＢＧＭやマスキングを使用する技術は、基本的には音声とは性質の異なる別の音を加えるので、聴覚的な違和感や室内の暗騒音を上昇させてしまうという嫌いがあった。本発明の実施の形態は、マイクロホンなどにより集音した音声信号そのものの構造を非線形関数を使用して変更し、変更された音声を原音声に対して実質的に実時間で出力することにより室内の暗騒音を上昇させることなく会話の内容を、理想的には会話の内容のみを、隠蔽／遮断し、円滑で快適な秘話環境を実現する。

図１は、マスキングに関する従来のアプローチと実施の形態に係るアプローチをカテゴリに分けて示す説明図である。（ａ）は、電気音響を用いたＳＲ（Sound Reinforcement）／ＰＡ（Public Address）である。これらは音量や明瞭度を高めて「よく聞こえるようにする」従来技術である。（ｆ）は、遮音（Sound Insulation）であり、空間を音響的に分離しできるだけ「聞こえないようにする」従来技術である。これらに対して実施の形態に係るアプローチは（ｅ）のＳＤ（Speech Deformation）であり、会話者本人の原音声を処理して準実時間で出力することにより、聞こえる聞こえないではなく会話内容を「分からなくする」一種の音声情報撹乱（聴覚翻弄）技術である。また、従来技術による（ｂ）ＥＭや（ｃ）ＳＳや（ｄ）ＩＭが多かれ少なかれ室内あるいは対象空間領域の騒音レベルを上昇させて不快感や違和感を増加させ得るのに対し、（ｅ）のＳＤではほとんど騒音レベルの上昇を伴わない。

本発明の実施の形態では、発話中の音声である原音声（以下、マスキーと称す）に処理音声（以下、マスカーと称す）を加えた全体の音量を低減するために、以下の併用／工夫が可能である。
マスカーの情報隠蔽効果を高めるために、ＡＮＣ（Active Noise Control）またはパラメータ固定のＰＮＣ（Passive Noise Control）技術を併用する。

図２は、実施の形態に係る音声情報秘話システム１００が設けられたブース２を模式的に示す斜視図である。図３は、図２の音声情報秘話システム１００の機能および構成を模式的に示すブロック図である。
音声情報秘話システム１００は、銀行の相談カウンターなど、簡易パーティションで区画されたブース２に設けられる。音声情報秘話システム１００は、マイクロホンＭｉｃと、ＳＤコントローラ部ＳＤと、２つのパワーアンプＰＡと、２つのスピーカＳＰと、を備える。スピーカＳＰおよびＳＤコントローラ部ＳＤは、ブース間を視覚的に隔てるＩＴパーティション４に組み込まれてもよい。

相談員と会話を行っている顧客６を発話者とする。この発話者のマスキーH'(t)はカウンター部分またはその近傍に設けられたマイクロホンＭｉｃによって集音される。マイクロホンＭｉｃにより集音されたマスキーH'(t)は音声信号に変換され、ＳＤコントローラ部ＳＤに送られる。この音声信号はＳＤコントローラ部ＳＤによって非線形的に変更される。ＳＤコントローラ部ＳＤにおける非線形処理を経た音声信号はパワーアンプＰＡを経てスピーカＳＰから左右の隣接ブース２’にマスカーH(t)として出力される。

隣接ブース２’にはマスキーH'(t)が空中を回り込んでくるので、顧客６が発話中の音声は隣接ブース２’内にいる受聴者８（顧客６とは異なる別の者）によって受聴されうる。しかしながら本実施の形態では、空中を回り込んで漏洩するマスキーH'(t)はマスカーH(t)と合成されて隣接ブース２’内の受聴者８に届く。したがってマスカーH(t)による擾乱により、受聴者８はマスキーH'(t)に含まれる会話の内容を理解することができない。

スピーカＳＰは、それが接続されているＳＤコントローラ部ＳＤやマイクロホンＭｉｃが設置されているブース２の隣の隣接ブース２’に向けてマスカーH(t)を出力する。ここで隣接ブース２’は、空中を回り込んで漏洩するマスキーH'(t)が受聴されている領域である。言い換えると、マスキーH'(t)とマスカーH(t)とが実質的に実時間で受聴者８に届くように、マスカーH(t)がスピーカＳＰから出力される。この実時間性を保証する主体はＳＤコントローラ部ＳＤであってもスピーカＳＰであってもよいが、以下ではＳＤコントローラ部ＳＤがマスキーH'(t)とマスカーH(t)との実時間性を考慮し、変更された音声信号をスピーカＳＰに出力する場合について説明する。

図４は、図２のＩＴパーティション４の構成を示す側面図である。ＩＴパーティション４は、第１吸音層１４２と、遮音層１４４と、第２吸音層１４６と、をこの順に積層してなる積層構造を有する。第１吸音層１４２および第２吸音層１４６はそれぞれ厚さが２０ｍｍのグラスウールの層である。遮音層１４４は厚さが１２ｍｍの石膏ボードである。

図５は、図３のＳＤコントローラ部ＳＤの機能および構成を示すブロック図である。ここに示す各ブロックは、ハードウェア的には、コンピュータのＣＰＵ（central processing unit）をはじめとする素子や機械装置で実現でき、ソフトウェア的にはコンピュータプログラム等によって実現されるが、ここでは、それらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックはハードウェア、ソフトウェアの組合せによっていろいろなかたちで実現できることは、本明細書に触れた当業者には理解されるところである。

ＳＤコントローラ部ＳＤは、Ａ／Ｄ部２０と、部分抽出部３０と、非線形変更部４０と、出力部５０と、を備える。

マイクロホンＭｉｃにより集音されたマスキーH'(t)は音声信号に変換され、該音声信号はマイクアンプ（不図示）を経てＡ／Ｄ部２０に入力される。Ａ／Ｄ部２０は、アナログ信号である音声信号をデジタルデータに変換する。Ａ／Ｄ部２０でデジタル化された音声信号は、例えば音圧の大きさに応じた電圧値が時刻と対応付けられたデジタルデータである。

部分抽出部３０は、Ａ／Ｄ部２０でデジタル化された音声信号から変更対象部分の信号を抽出する。部分抽出部３０は、信号分割部３２と、部分決定部３４と、第１包絡線取得部３６と、第１スイッチ３９と、を含む。
部分抽出部３０は、変更対象部分の信号の抽出に関し、少なくとも略１山抽出モードおよびランダム分割モードの２つのモードを有する。部分抽出部３０において両モードは選択可能に構成される。本実施の形態では、ユーザは第１スイッチ３９を切り替えることでモードを切り替える。なお、第１スイッチ３９はハードウエアスイッチとして実装されてもよく、またソフトウエアスイッチとして実装されてもよい。

（略１山抽出モード）
第１スイッチ３９がＡ／Ｄ部２０と第１包絡線取得部３６とを接続するように設定されている場合、部分抽出部３０は略１山抽出モードで動作する。略１山抽出モードでは、第１包絡線取得部３６は、音声信号の包絡線を示すデータを取得する。このデータは、例えば包絡線の大きさに応じた電圧値が時刻と対応付けられたデジタルデータである。以下、包絡線を示すデータを単に包絡線と称す。第１包絡線取得部３６は、自乗音圧取得部３７と、ローパスフィルタ３８と、を有する。

自乗音圧取得部３７は、Ａ／Ｄ部２０でデジタル化された音声信号の自乗音圧波形を取得する。自乗音圧取得部３７は、音声信号を自乗し、必要に応じて所定の係数を乗ずることにより自乗音圧波形を得る。

ローパスフィルタ３８は、自乗音圧取得部３７によって取得された自乗音圧波形を数ｍｓｅｃから数１００ｍｓｅｃの時定数で平均化する。すなわちローパスフィルタ３８は自乗音圧波形に対してローパスフィルタ処理をする。これにより、自乗音圧波形から時定数程度よりも速い変化が取り除かれ、滑らかな波形が得られる。本実施の形態では、この滑らかな波形が音声信号の包絡線である。なお、他の方法で音声信号の包絡線を求めてもよいことは、本明細書に触れた当業者には理解される。また、本実施の形態において包絡線は、広義には音声信号の振幅の変化を示すデータである。
ローパスフィルタ３８は、必要であればローパスフィルタ処理されたデータの平方根をとる。

部分決定部３４は、ローパスフィルタ３８によって得られた音声信号の包絡線のうち、数ｄＢ〜数１０ｄＢ、例えば５ｄＢ以上連続して上昇する上昇部分を検出する。次に部分決定部３４は、上昇部分の後で数ｄＢ〜数１０ｄＢ、例えば５ｄＢ以上連続して下降する下降部分を検出する。部分決定部３４は、上昇部分とそれに対応する下降部分との間の音声信号を変更対象部分の信号として決定する。このようにして決定される変更対象部分の信号の包絡線は略１山状となることが多い。

図６は、部分決定部３４における変更対象部分の信号の決定基準を説明するための説明図である。図６（ａ）は、部分決定部３４において上昇部分と下降部分の検出に基づいて変更対象部分の信号が決定される場合を説明するための説明図である。図６（ａ）は、例示としての音声信号の波形２１１とその包絡線２０８とを示す。部分決定部３４は、包絡線２０８の変化率に基づき上昇部分２０２を検出する。次に部分決定部３４は上昇部分２０２の後の下降部分２０４を検出する。部分決定部３４は、上昇部分２０２と下降部分２０４とで挟まれる区間２０６（ピーク２０３より前の時刻ｔ１とピーク２０３より後の時刻ｔ２とで挟まれる区間）の音声信号を変更対象部分の信号として決定する。

なお、部分決定部３４は、他の方法で変更対象部分の信号を決定してもよい。例えば、部分決定部３４は、包絡線が膨らんでいる部分を検出し、その部分に対応する音声信号を変更対象部分の信号として決定してもよい。あるいはまた、部分決定部３４は、包絡線のピークを検出し、その前後に所定の長さを有する区間の音声信号を変更対象部分の信号として決定してもよい。あるいはまた、部分決定部３４は、包絡線が所定のレベルを越えている連続的な区間の音声信号を変更対象部分の信号として決定してもよい。

図６（ｂ）は、部分決定部３４においてピークの検出に基づいて変更対象部分の信号が決定される場合を説明するための説明図である。図６（ｂ）は、例示としての音声信号の波形２１２とその包絡線２１４とを示す。部分決定部３４は、包絡線２１４のピーク２１６を検出する。部分決定部３４は、ピーク２１６の前後に所定の長さを有する区間２１８の音声信号を変更対象部分の信号として決定する。

図６（ｃ）は、部分決定部３４において包絡線のレベルに基づいて変更対象部分の信号が決定される場合を説明するための説明図である。図６（ｃ）は、例示としての音声信号の波形２２０とその包絡線２２２とを示す。部分決定部３４は、包絡線２２２が所定のレベル２２４を越えている連続的な区間２２６を検出し、その区間２２６の音声信号を変更対象部分の信号として決定する。この場合、所定のレベルの取り方によっては、変更対象部分の信号が２以上のピークを含む場合がある。

以上のように変更対象部分の信号の決定手法は種々考えられる。このように選択肢が多いことは、ＳＤによる会話内容の隠蔽をより効果的とするための大きな自由度を提供するという意味で好適である。

また、これら種々の決定手法に通じて言えることは、音声信号の波形に基づいて、特にその統計的な性質に基づいて信号のひとまとまりが判別され、そのように判別されたひとまとまりの信号が変更対象部分の信号として決定されていることである。すなわち、入来する音声信号に応じて適応的に変更対象部分が決定される。この場合、本発明者の当業者としての経験および予備的な実験によると、例えば予め定められた一定の間隔で音声信号を切り出す場合と比べてより会話内容擾乱効果が高いことが見出された。特に、本発明者によって行われた実験によると、包絡線の略１山を変更単位として抽出する場合は、例えば一定周期で切り出す場合や子音や母音を変更単位とする場合と比べて擾乱効果が高いことが見出された。

図５に戻る。
部分決定部３４は、音声信号のうち変更対象部分の信号として決定されなかった部分を遅延調整部５２に出力する。

（ランダム分割モード）
第１スイッチ３９がＡ／Ｄ部２０と信号分割部３２とを接続するように設定されている場合、部分抽出部３０はランダム分割モードで動作する。ランダム分割モードでは、信号分割部３２は、Ａ／Ｄ部２０でデジタル化された音声信号をランダムな長さを有する期間で分割する。期間の長さは数１０ｍｓｅｃ〜数１００ｍｓｅｃの間で変動する。または期間の長さは一定周期に対して±数１０％〜数１００％の範囲で変動する。例えば、期間の長さは、…、１１ｍｓｅｃ、１０ｍｓｅｃ，１２ｍｓｅｃ、…、と変化する。

部分決定部３４は、音声信号のうち信号分割部３２で分割された期間のひとつに対応する信号を変更対象部分の信号として決定する。部分決定部３４は、分割された全ての期間を変更対象部分として選択してもよいし、例えば１つおきに変更対象部分として選択してもよい。後者の場合、部分決定部３４は変更対象部分として選択されなかった期間に対応する部分の音声信号を遅延調整部５２に出力する。
ランダム分割モードでは、期間の長さにランダム性が加味されているので、マスカーH(t)の自然性が向上する。

非線形変更部４０は、部分抽出部３０によって抽出された変更対象部分を非線形関数を使用して実時間、或いは準実時間で変更する。非線形変更部４０は、第１変更部４２と、第２変更部４４と、第３変更部４６と、第２スイッチ４８と、を含む。
非線形変更部４０は、少なくとも第１変更モード、第２変更モード、第３変更モードの３つのモードを有する。非線形変更部４０においてそれらのモードは選択可能に構成される。本実施の形態では、ユーザは第２スイッチ４８を切り替えることでモードを切り替える。なお、第２スイッチ４８はハードウエアスイッチとして実装されてもよく、またソフトウエアスイッチとして実装されてもよい。

（第１変更モード）
第２スイッチ４８が部分決定部３４と第１変更部４２とを接続するように設定されている場合、非線形変更部４０は第１変更モードで動作する。第１変更モードでは、第１変更部４２は、部分決定部３４において決定された変更対象部分の信号を取得し、それに非線形処理を施す。第１変更部４２は、第２包絡線取得部６２と、第１非線形処理部６４と、積算部６６と、を有する。

第２包絡線取得部６２は、第１包絡線取得部３６と同様の構成を有する。すなわち、第２包絡線取得部６２は、部分抽出部３０によって抽出された変更対象部分の信号から包絡線を取得する。あるいはまた、部分抽出部３０において略１山モードが使用される場合、第２包絡線取得部６２は第１包絡線取得部３６によって取得された包絡線から変更対象部分の信号に対応する包絡線を取得してもよい。

第１非線形処理部６４は、部分抽出部３０によって抽出された変更対象部分の信号を非線形関数を使用して処理する。非線形関数としては、例えば絶対値と対数変換を基礎とする関数が使用される。特に第１非線形処理部６４は、変更対象部分の信号（ｙ（ｔ））の絶対値（｜ｙ（ｔ）｜）の底２に対する対数（ｌｏｇ_２｜ｙ（ｔ）｜）を演算する。

積算部６６は、第２包絡線取得部６２によって取得された包絡線に基づいて、第１非線形処理部６４によって処理された変更対象部分の信号を変更する。特に積算部６６は、第２包絡線取得部６２によって取得された包絡線と第１非線形処理部６４における演算結果とを積算する。これにより、第１非線形処理部６４における処理によって包絡線の形状が崩れる場合でも、積算部６６における処理によって包絡線の形状を回復することができる。

第１変更部４２は、部分決定部３４において決定される変更対象部分の信号ごとに上記処理を繰り返し、そのように処理された信号を遅延調整部５２に出力する。

（第２変更モード）
第２スイッチ４８が部分決定部３４と第２変更部４４とを接続するように設定されている場合、非線形変更部４０は第２変更モードで動作する。第２変更モードでは、第２変更部４４は、部分決定部３４において決定された変更対象部分の信号を取得し、それに非線形処理を施す。第２変更部４４は、置換部６８と、第２非線形処理部７０と、を有する。

置換部６８は、変更対象部分の信号内で、ある時刻の信号値と別の時刻の信号値とを置換する。
第２非線形処理部７０は、置換部６８によって置換された変更対象部分の信号を非線形関数を使用して処理する。

図７は、第２変更部４４における処理の一例を示す説明図である。図７の横軸は時間、縦軸は電圧を示す。図７の実線２２８は、Ａ／Ｄ部２０に入力されるアナログ信号としての音声信号の波形を示す。部分抽出部３０によって区間２３０の音声信号が変更対象部分の信号として抽出されたとする。変更対象部分の信号はデジタルデータであり、時刻ｔ_０、ｔ_１、…、ｔ_Ｎ（Ｎは自然数）のそれぞれに対応する電圧値ｙ_０＝ｆ（ｔ_０）、ｙ_１＝ｆ（ｔ_１）、…、ｙ_Ｎ＝ｆ（ｔ_Ｎ）を有する。ここではｔ_０＜ｔ_Ｎとし、各時刻は等間隔で並ぶものとする。
図７では、第１データ点２３２は（ｔ_０、ｙ_０）、第２データ点２３４は（ｔ_N-ｉ、ｙ_N-ｉ）（ｉは自然数、０≦ｉ≦Ｎ）、第３データ点２３６は（ｔ_Ｎ、ｙ_Ｎ）、を示す。

置換部６８は、変更対象部分の信号を準関数ｙ’＝ｆ（ｔ_Ｎ−ｔ_ｉ）を使用して変更する。例えば時刻ｔ_ｉについては、置換部６８はｙ_ｉをｙ’_ｉ＝ｆ（ｔ_Ｎ−ｔ_ｉ）＝ｆ（ｔ_Ｎ−ｉ）＝ｙ_Ｎ−ｉで置き換える。このように置換した後の第４データ点２３８は（ｔ_ｉ、ｙ’_ｉ＝ｙ_Ｎ−ｉ）で示される。図７の一点鎖線２４０は、置換部６８で置換された信号の波形を示す。

第２非線形処理部７０は、置換部６８で置換された信号を、対数などの非線形関数Ｙ＝ｇ（ｙ’）を使用して変更する。例えば、第４データ点２３８については、第２非線形処理部７０はｙ’_ｉをＹ_ｉ＝ｇ（ｙ’_ｉ）＝ｇ（ｙ_Ｎ−ｉ）とする。このように変更した後の第５データ点２４２は（ｔ_ｉ、Ｙ_ｉ＝ｇ（ｙ_Ｎ−ｉ））で示される。図７の２点鎖線２４４は、第２非線形処理部７０で変更された信号の波形を示す。

図５に戻る。
第２変更部４４は、部分決定部３４において決定される変更対象部分の信号ごとに上記処理を繰り返し、そのように処理された信号を遅延調整部５２に出力する。
なお、第２変更部４４における処理は上述の処理に限られない。例えば、ｔ_０とｔ_Ｎとの大小関係や準関数ｆの形として他のものを採用してもよい。

（第３変更モード）
第２スイッチ４８が部分決定部３４と第３変更部４６とを接続するように設定されている場合、非線形変更部４０は第３変更モードで動作する。第３変更モードでは、第３変更部４６は、部分決定部３４において決定された変更対象部分の信号を取得し、それに非線形処理を施す。第３変更部４６は、前処理部７２と、ＬＰＣ分析部７４と、残差処理部７６と、周波数特性変換部７８と、合成部８０と、を有する。

第３変更部４６は、変更対象部分の信号にフォルマント変換を施す。フォルマント変換技術はヘリウムガスを用いた深海作業などで、変性音声をもとの原音声に近いものに戻す時などに用いられるものである。

フォルマント変換処理は以下のように行われる。前処理部７２は、変更対象部分の信号にプリエンファシスを施す。ＬＰＣ分析部７４は、前処理部７２においてプリエンファシスが施された信号を線形予測（ＬＰＣ）分析し、声道の周波数特性と音源（残差信号）とに分ける。周波数特性変換部７８は、声道の周波数特性を変形する。残差処理部７６は、残差信号に対して所望の周波数になるようにダウンサンプリングを行う。あるいはまた、残差処理部７６は残差信号をそのまま使用する。合成部８０は、周波数特性変換部７８の出力と残差処理部７６の出力とを合成する。合成部８０において合成された信号は、もとの変更対象部分の信号と比較した場合、ピッチ周波数（音声の基本周波数）は同じだがフォルマントが変更された変形処理音声を示す信号である。したがって、この変形処理音声の内容は一般的に理解不能となる。

第３変更部４６は、部分決定部３４において決定される変更対象部分の信号ごとに上記処理を繰り返し、そのように処理された信号を遅延調整部５２に出力する。

出力部５０は、非線形変更部４０からは非線形処理された変更対象部分の信号を、部分抽出部３０からは変更対象部分でない信号を、取得する。出力部５０は、それらをアナログ信号に変換し、パワーアンプＰＡを介してスピーカＳＰに出力する。出力部５０は、遅延調整部５２と、Ｄ／Ａ部５４と、を含む。

遅延調整部５２は、非線形処理された変更対象部分の信号と変更対象部分でない信号とをつなぎ合わせて出力すべき出力音声信号を生成する。遅延調整部５２は、出力音声信号が出力部５０から出力されるタイミングを、マスキーH'(t)の伝搬にかかる時間に応じて調整する。特に遅延調整部５２は、出力音声信号に対して所定の遅延を与える。この遅延は、受聴者８位置におけるマスキーH'(t)に対するマスカーH(t)の遅れがマスキーH'(t)とマスカーH(t)とが実質的に実時間と言える程度の範囲内に収まるように設定される。

マスキーH'(t)とマスカーH(t)とが実質的に実時間（準実時間）であることは、例えばマスキーH'(t)とマスカーH(t)とが隣接ブース２’内で少なくとも部分的に重畳することである。あるいはまた、出力部５０から出力された変更対象部分の信号がスピーカＳＰによって音声に変換され、その変換された音声が、マスキーH'(t)が隣接ブース２’内で受聴されている間に隣接ブース２’に出力されることである。あるいはまた、出力部５０から出力された変更対象部分の信号がスピーカＳＰによって音声に変換され、その変換された音声が、当該変更対象部分の信号に対応するマスキーH'(t)の部分が隣接ブース２’内で受聴されている間に隣接ブース２’に出力されることである。これは言い換えると、変更対象部分の信号に対応するマスキーH'(t)の部分と、当該変更対象部分の信号に対応するマスカーH(t)の部分とが隣接ブース２’内で少なくとも部分的に重畳することである。

音声情報秘話システム１００を導入する際、マイクロホンＭｉｃおよびスピーカＳＰの位置は決まり、想定される顧客６の位置および想定される受聴者８の位置もある程度は決まる。また、ＳＤコントローラ部ＳＤにおける処理時間もある程度見積もることができる。したがって、音声情報秘話システム１００の導入時に、顧客６から受聴者８へのマスキーH'(t)の伝搬時間およびマスカーH(t)の伝搬時間をある程度見積もることができる。遅延調整部５２における遅延は、受聴者８位置におけるマスキーH'(t)に対するマスカーH(t)の遅れの所望値から逆算して設定される。

マスキーH'(t)に対するマスカーH(t)の遅れが大きいと、受聴者８位置においてエコーや残響が生じる虞がある。したがって、遅延調整部５２は、受聴者８位置におけるマスキーH'(t)に対するマスカーH(t)の遅れがそのような違和感を生じさせない程度の値となるような遅延を出力音声信号に対して与える。この遅延は実験により定められるが、代表的には約１００ｍｓｅｃ以下である。
また、上述のように本発明者は、音声情報の理解を制御するためには、音声信号を略１山単位で取り扱うと有利であることに想到した。この観点からは、遅延調整部５２における遅延は音声信号の略１山の部分の時間幅に応じた、特にそれよりも小さな値とされると好ましい。マスカーの略１山部分とマスキーの略１山部分との相互作用が期待されるからである。

Ｄ／Ａ部５４は、遅延調整部５２によって遅延が付与された出力音声信号を、スピーカＳＰを駆動するためのアナログの音声信号に変換してパワーアンプＰＡに出力する。

図８は、受聴者８位置におけるマスキーH'(t)およびマスカーH(t)を表す音声信号の波形を示す波形図である。図８（ａ）は、マスキーH'(t)を表す音声信号の波形を示す波形図である。図８（ａ）の波形は「あのー、彼とはもう相当長いんだよ、実は（ANO KARETOWA MOSOTONAGAINDAYO ZITSUWA）」という原音声をマイクロホンＭｉｃで音声信号に変換したものである。図８（ａ）の縦軸は信号強度を任意の単位で表し、横軸は時間を表す。図８（ｂ）は、図８（ａ）の音声信号をＳＤコントローラ部ＳＤにおいて略１山抽出モードおよび第１変更モードを使用して処理することで生成される音声信号の波形を示す波形図である。図８（ｂ）に示される波形のＮで示される部分は、図８（ａ）に示される波形のＭで示される部分に対応する。図８（ｃ）も同様である。図８（ｂ）の音声信号と図８（ｃ）の音声信号との違いは、遅延調整部５２で付与される遅延の値である。

図８（ａ）の包絡線と図８（ｂ）や図８（ｃ）の包絡線とを比較するとそれ程変化していないことが分かる。つまり音声のイントネーションや抑揚にそれ程変化はない。しかしながら図８（ｂ）や図８（ｃ）の音声信号がスピーカＳＰで音声に変換され、マスカーH(t)として出力されると、受聴者８サイトではマスキーH'(t)とマスカーH(t)とが合成されて聞こえ、その意味内容は理解されにくくなる。つまり「わからない」となることが多い（他の音に聞こえる場合もある）。

マイクロホンＭｉｃ、スピーカＳＰ、顧客６、受聴者８の位置関係によっては、遅延調整部５２で遅延を付与しないとした場合にマスカーH(t)がマスキーH'(t)よりも早く受聴者８位置に到達することもある。すなわち、受聴者８位置におけるマスキーH'(t)に対するマスカーH(t)の遅れが負となる場合がある。ここで遅延調整部５２で付与する遅延を小さくすると、例えば図８（ｃ）に示される通り、受聴者８位置におけるマスキーH'(t)に対するマスカーH(t)の遅れが−Ｄ１（Ｄ１は正）となりうる。この場合、受聴者８は、未だ聴いていない未来のマスキーH'(t)を基に生成されたマスカーH(t)を聴いていることとなる。

遅延調整部５２で付与する遅延を大きくしていくと、ある値で受聴者８位置におけるマスキーH'(t)に対するマスカーH(t)の遅れがゼロとなり、その後増加していく。例えば図８（ｂ）に示される通り、受聴者８位置におけるマスキーH'(t)に対するマスカーH(t)の遅れがＤ２（Ｄ２は正）となりうる。時間マスキング(temporal masking)の視点からは、マスカーとマスキーを同タイミングとするよりマスカーを僅かに遅らせた方がマスキング効果が高い場合もある。聴覚には、音声の包絡線の時間変化で内容を理解する一面もあるからである。したがって、そのような場合は遅延調整部５２で付与する遅延を大きくして受聴者８位置におけるマスキーH'(t)に対するマスカーH(t)の遅れを正とすると好適である。

また、マイクロホンＭｉｃ、スピーカＳＰ、顧客６、受聴者８の位置関係によっては、遅延調整部５２で遅延を付与しないとした場合にマスカーH(t)がマスキーH'(t)よりもかなり遅く受聴者８位置に到達することもある。この場合、マスキーH'(t)とマスカーH(t)とを受聴者８位置で実質的に実時間で合成して情報隠蔽を行うためには、ＳＤコントローラ部ＳＤでのＳＤ処理時間を短縮しなければならない。この時間的な制約の存在、つまりＳＤ処理時間を短縮しなければならないことにより、非線形処理の精度を犠牲にしなけらばならない場合もある。しかしながら本実施の形態の目的は音声の明瞭度・了解度の低減にあり、想定／予定した処理自体の正確さが目的ではない。したがって本実施の形態では、マスカーH(t)の重畳によりマスキーH'(t)の意味内容が理解し難くなるという条件が満たされれば処理の精度は大きな問題とはならない。これは「意味内容が理解し難くなるという条件」は無数にあるからである。

図９は、音声情報秘話システム１００における一連の処理を示すフローチャートである。マイクロホンＭｉｃは、マスキーH'(t)を収集し、音声信号を生成する（ステップ３０２）。Ａ／Ｄ部２０は、マスキーH'(t)を表す音声信号をマイクロホンＭｉｃから取得する（ステップ３０４）。部分抽出部３０は、Ａ／Ｄ部２０によって取得されＡ／Ｄ変換された音声信号から変更対象部分の信号を抽出する（ステップ３０６）。非線形変更部４０は、部分抽出部３０によって抽出された変更対象部分の信号を非線形関数を使用して変更する（ステップ３０８）。出力部５０は、非線形変更部４０によって変更された変更対象部分の信号をスピーカＳＰに出力する（ステップ３１０）。スピーカＳＰは、受け取った信号を音声に変換してマスカーH(t)とし、そのマスカーH(t)をマスキーH'(t)が受聴されている隣接ブース２’に出力する（ステップ３１２）。

以上の構成による音声情報秘話システム１００の動作を説明する。銀行のブース２に顧客６が座り、銀行の相談員と例えばローンについて相談する場合を考える。この際、ブース２の隣の隣接ブース２’には受聴者８がいて口座の開設を申請しているとする。顧客６は自己の事業の資金繰りが悪化したなどローンを申請する事情を説明している。無論このような話は受聴者８に漏れ聞こえないほうがよく、特に本実施の形態に係る音声情報秘話システム１００では主に顧客６が発話中の音声を非線形処理したものが準実時間で受聴者８に届くので、受聴者８は顧客６の発話内容を理解できない。加えて顧客６の発話がない場合はスピーカＳＰから隣接ブース２’への出力は実質的にないため、隣接ブース２’内の騒音レベルを不必要に上昇させることもない。

上述の実施の形態において、ＳＤコントローラ部ＳＤは記憶装置を備えてもよく、そのような記憶装置の例は、ハードディスクやメモリである。また、本明細書の記載に基づき、各ブロックを、図示しないＣＰＵや、インストールされたアプリケーションプログラムのモジュールや、システムプログラムのモジュールや、ハードディスクから読み出したデータの内容を一時的に記憶するメモリなどにより実現できることは本明細書に触れた当業者には理解されるところである。

本実施の形態に係る音声情報秘話システム１００によると、以下の作用効果を得ることができる。

（１）本実施の形態に係る音声情報秘話システム１００によると、会話の存在そのものの隠蔽や抹消ではなく、その内容、つまり会話音声に含まれる情報が隠蔽される。この点に関し本発明者は以下を認識した。
オープンプランのオフィスや銀行や証券会社のロビーカウンター、特に簡易パーティションにより仕切られた接客カウンターなどでは、会話している人以外の人にその会話の中身を理解不能とすれば、会話内容の隠蔽という点では十分にその目的が果たされる。つまり会話の内容さえ漏れなければ音声そのものは聞こえてもよい。むしろ発話者の存在が視認できる場合などは、音声のスペクトルや包絡線（音質やイントネーション、抑揚）が保存されたほうが自然である。本実施の形態に係る音声情報秘話システム１００は、以上の視点・ニーズに対応し、より自然な形で会話内容を隠蔽する。

なお、包絡線が保存されるとはいえ、本実施の形態ではその保存の程度は、例えばマスカーの包絡線がマスキーの包絡線に対して時間的に少しずれることや、両包絡線の形状が少し異なることを許す。つまり、マスカーの包絡線とマスキーの包絡線とが類似する程度に保存されるということである。本発明者の当業者としての経験および予備的な実験によると、マスカーの包絡線とマスキーの包絡線とが、等しいとまでは言えないが類似している程度である場合に、音声情報攪乱効果がより高いことが見出された。

図１０は、マスカーとマスキーの違いと認識率との関係を示すグラフである。図１０の縦軸は認識率を任意の単位（図１０の例ではパーセント（％））で示し、横軸はマスカーとマスキーの違いの度合いを任意の単位で示す。認識率は、マスカーとマスキーの両者を受聴している状態での自立語の認識率である。マスカーとマスキーの違いは、ここでは、両者の包絡線の違いを示す。
マスカーとマスキーの違いがゼロに近い場合は、認識率は高い（ほぼ１００％）。また、マスカーとマスキーの違いが大きい場合も、聴覚が両者を区別して認識しやすくなるため、認識率は高い。本発明者は、それらの間に、マスカーとマスキーとが異なるものではあるが区別もされにくく、したがって最も認識率が低くなるところがあることに想到した。そこではいわば聴覚が翻弄されるわけである。本実施の形態では、例えば遅延調整部５２における遅延を調整し、マスカーとマスキーの違いがそのような認識率の極小値を与える程度となるようにすることも可能である。

（２）例えば隣接ブース２’で受聴されているマスキーH'(t)との関連性が薄い音声、例えば過去の音声、から生成された処理音声をその隣接ブース２’に流してマスキングを図ろうとする場合、無音部分の位置の違いやアーティキュレーションの違いなどにより思ったほど情報隠蔽効果を得ることはできず、また、不自然さが増大する。これに対して本実施の形態に係る音声情報秘話システム１００では、非線形処理されたマスカーH(t)がマスキーH'(t)と実質的に実時間で受聴者８の耳に届く。したがって、上記の場合と比較して、情報隠蔽の度合いは高く、かつ不自然さは低い。

（３）実施の形態の略１山モードでは、変更対象部分の信号として略１山状の信号が抽出される。この場合、マスキーH'(t)の信号レベルが小さい部分で切り取りや貼り付けが行われるので、非線形処理によるクリック雑音などが低減される。すなわち、マスキーH'(t)が時間的に連続であればマスカーH(t)もほぼ連続となるので、一定時間で区画する場合には生じうる遮断部分におけるクリック雑音や、その低減を目的とした窓掛け処理による包絡線形状の崩壊（イントネーションの崩壊）も生じにくい。

（４）マスカーH(t)は発話者本人のマスキーH'(t)を基に作成され、原音声と並行してスピーカから出力される。したがって、特に第１変更モードや第２変更モードではマスキーH'(t)のスペクトルや包絡線はマスカーH(t)となってもある程度保存されうる。その結果、マスカーH(t)のスペクトルやイントネーションはマスキーH'(t)のそれとほぼ同じとなるので、違和感はそれ程無く自然に聞き手に受け取られる。

（５）時間軸上でマスキーH'(t)がないとき、つまり会話がないときはマスカーH(t)も出力されない。つまり両者は時間的に実質的に重畳する。したがって、音声発生のない「無音時」におけるマスカーH(t)による室内騒音レベルの上昇は抑えられる。

（６）従来の技術を使用した場合に発生しうるマスカー断続やレベル変動（会話停止時に断〜レベル低減）による違和感や、会話とは関係のない別の音（騒音・音楽）を放射することによる発話者・会話者・その他の在室者に対する違和感が抑えられる。

（７）従来の技術における物理的な遮音や個室化に対しては、空間的な遮断や移動を必要としないので、開放感やコミュニケーションが妨げられにくくなる。

（８）ＳＤコントローラ部ＳＤおよびスピーカＳＰはＩＴパーティション４に組み込まれるので、システムの設置や取付を大幅に簡略化できる。場合によってはマイクロホンＭｉｃをＩＴパーティション４に組み込んでもよい。この場合、さらに簡略化される。

（９）ＩＴパーティション４はそれ自体が吸音処理されている。したがって、ブース内での会話音声の明瞭度を上げつつ隣接ブースへの音漏れを低減できる。

（１０）マスカーH(t)は非線形処理によりマスキーH'(t)（原音声）とは電気信号的な相関がそれ程高くない信号となる。したがって、音声情報秘話システム１００の動作時においてハウリングなどのフィードバックに起因する異常が生じにくい。

（１１）実施の形態の第１変更モードや第２変更モードでは、マスキーH'(t)を表す音声信号の包絡線をほぼ保存したままそのキャリアに非線形処理を施していると言える。したがって、そのような変更処理を短い時間で行うことが可能となる。

以上、実施の形態に係る音声情報秘話システム１００およびそれに含まれるＳＤコントローラ部ＳＤの構成と動作について説明した。この実施の形態は例示であり、その各構成要素や各処理の組み合わせにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。

実施の形態では、隣接ブースの片側からマスカーH(t)が出力される場合について説明したが、これに限られない。例えば、信号加算によりマスカーH(t)が隣接ブースの左右両側から出力されてもよい。図１１は、第１変形例に係る音声情報秘話システムの機能および構成を模式的に示すブロック図である。第１変形例に係る音声情報秘話システムは、マイクロホンＭｉｃと、ＳＤコントローラ部ＳＤと、４つのスピーカＳＰａ〜ＳＰｄ（ＳＰｄは不図示）と、４つのパワーアンプＰＡａ〜ＰＡｄ（ＰＡｄは不図示）と、４つの加算器２１０ａ〜２１０ｄ（２１０ｄは不図示）と、を備える。

ＳＤコントローラ部ＳＤにおける処理を経た音声信号は、ブース２の左のスピーカＳＰａに対応する加算器２１０ａと、ブース２の右のスピーカＳＰｂに対応する加算器２１０ｂと、ブース２の左隣の隣接ブース２’の左のスピーカＳＰｃに対応する加算器２１０ｃと、ブース２の右隣の隣接ブースの右のスピーカＳＰｄ（不図示）に対応する加算器２１０ｄ（不図示）と、に入力される。それぞれの加算器２１０ａ〜２１０ｄに入力された音声信号は対応するパワーアンプＰＡａ〜ＰＡｄを経てスピーカＳＰａ〜ＳＰｄから出力される。加算器はそれが接続されたスピーカが音声を出力するブースの両隣のブースから、ＳＤコントローラ部ＳＤにおける処理を経た音声信号を取得して加算する。
本変形例によると、マスカーH(t)が隣接ブース２’の左右両側から出力されるので、ブース２における会話内容が受聴者８により伝わりにくくなる。

また、マスキーH'(t)のレベルを低減するためにＰＮＣ（Passive Noise Controller）を併用してもよい。ＰＮＣは公知のＡＮＣ（Active Noise Control）を調整時に適応処理させ、運用時には設定されたパラメータを固定して使用することを意図するものである。
図１２は、第２変形例に係る音声情報秘話システムの機能および構成を模式的に示すブロック図である。本変形例では、図１１のＳＤコントローラ部ＳＤを図１２の破線で囲まれた部分で置き換える。この部分ではＳＤコントローラ部ＳＤとＰＮＣ部ＰＮＣとが並列に設けられ、マイクロホンＭｉｃからの音声信号がＳＤコントローラ部ＳＤとＰＮＣ部ＰＮＣとに入力される。ＳＤコントローラ部ＳＤの出力側にはスイッチＳＷ１が設けられ、スイッチＳＷ１によってＳＤコントローラ部ＳＤの動作のオンオフが制御される。そのスイッチＳＷ１の出力とＰＮＣ部ＰＮＣの出力とは加算器４０６で加算され、パワーアンプＰＡを介してスピーカＳＰから音声として出力される。

本変形例では、音源４０２とアンプ４０４を介して接続されたヘッドトルソシミュレータＨＡＴＳ（HATS: Head and Torso Simulator）などを発話者位置Ｐに置いて、ＰＮＣ部ＰＮＣの同定を行う。スイッチＳＷ１を開いてＳＤコントローラ部ＳＤの動作を切り、ＨＡＴＳから適切な音声信号を放射して隣接ブース２’の受聴者位置Ｑに置いたマイクロホンＭｉｃ’の出力が最小になるようにＰＮＣ部ＰＮＣを適応動作させてシステム同定を行う。

このときマイクロホンＭｉｃおよびスピーカＳＰを含むインパルス応答は-h(x)となり、絶対値がＰＮＣ発話者−受聴者間のそれh(x)にほぼ等しくなる。その後スイッチＳＷ１を閉じ、同定されたパラメータを固定した状態でＰＮＣ部を稼動させる。すると発話者と受聴者の位置Ｐ、ＱおよびマイクロホンＭｉｃとスピーカＳＰの位置はほぼ固定されているので、マスキーH'(t)のレベルは効果的に低減され、マスカーH(t)が優勢となる。その結果、情報隠蔽（Information Masking）の効果が強められる。必要に応じてマスカーH(t)のレベルを下げると、マスキーH'(t)を含むシステム全体のレベル、つまり室内の騒音レベルをさらに低減することもできる。
なお、上述のＰＮＣ機能はＳＤコントローラ部ＳＤが組み込まれているコンピュータに組み込まれてもよい。

ＡＮＣ／ＰＮＣは既存の技術であるが、広い音場を３次元にわたりくまなく制御するのには向いていない。一方でカウンターのパーティションで囲まれた狭い空間のほぼ定まった位置に受聴者の頭が存在するようなケースでは３次元でも有効な音響低減手段となる。

実施の形態における変更対象部分の信号の処理にあたり、ハニング窓などの時間窓やゼロクロス検出を併用して、切り取り時に発生しうるクリック音などを除去してもよい。この場合、受聴者８あるいは在室者に与えうる違和感がさらに低減される。

実施の形態では、部分抽出部３０は、略１山抽出モードまたはランダム分割モードにより音声信号から変更対象部分の信号を抽出する場合について説明したが、これに限られない。例えば、部分抽出部は、マスキーH'(t)の無音部分または一定レベル以下の部分を「無音部」として変更対象部分から外してもよい。出力部５０は、無音部として変更対象部分から外された部分をそのまま無音部として出力してもよい。この場合、マスカーH(t)の音量（音圧レベル）ひいては室内騒音レベルの上昇を極力抑えることができる。また反対に、撹乱効果を強調する必要がある場合などは、抽出された包絡線に対数圧縮・伸長などの処理を施してもよい。また、部分抽出部は、音声信号の全体を変更対象部分の信号として抽出してもよい。

以上、実施の形態にもとづき本発明を説明したが、実施の形態は、本発明の原理、応用を示しているにすぎないことはいうまでもなく、実施の形態には、請求の範囲に規定された本発明の思想を逸脱しない範囲において、多くの変形例や配置の変更が可能であることはいうまでもない。

２ブース、４ＩＴパーティション、６顧客、８受聴者、２０Ａ／Ｄ部、３０部分抽出部、４０非線形変更部、５０出力部、１００音声情報秘話システム。

Claims

発話中の音声を表す音声信号から変更対象部分の信号を抽出する部分抽出部と、
前記部分抽出部によって抽出された変更対象部分の信号を非線形関数を使用して変更する非線形変更部と、
少なくとも前記非線形変更部によって変更された変更対象部分の信号を、前記発話中の音声が受聴されている領域に音声を出力可能な音声出力手段に出力する出力部と、を備えることを特徴とする音声変更装置。
前記部分抽出部は、前記音声信号の波形に基づいて抽出すべき前記変更対象部分の信号を決定することを特徴とする請求項１に記載の音声変更装置。
前記部分抽出部は、前記音声信号の波形の包絡線のピークより前の第１時刻と当該ピークより後の第２時刻とで挟まれる区間の信号であって略１山状の信号を、前記変更対象部分の信号として決定することを特徴とする請求項２に記載の音声変更装置。
前記部分抽出部は、前記音声信号をランダムな長さを有する期間で分割し、前記音声信号のうちそのように分割された期間のひとつに対応する信号を前記変更対象部分の信号として抽出することを特徴とする請求項１に記載の音声変更装置。
前記非線形変更部は、
前記部分抽出部によって抽出された変更対象部分の信号から、その波形の包絡線を示す情報を取得する包絡線取得部と、
前記部分抽出部によって抽出された変更対象部分の信号を非線形関数を使用して処理する非線形処理部と、を含み、
前記非線形変更部は、前記包絡線取得部によって取得された包絡線を示す情報と、前記非線形処理部によって処理された変更対象部分の信号と、に基づいて前記部分抽出部によって抽出された変更対象部分の信号を変更することを特徴とする請求項１から４のいずれかに記載の音声変更装置。
前記非線形変更部は、前記部分抽出部によって抽出された変更対象部分の信号にフォルマント変換を施すことを特徴とする請求項１から４のいずれかに記載の音声変更装置。
前記非線形変更部によって変更された変更対象部分の信号が前記出力部から出力されるタイミングを、前記発話中の音声の伝搬にかかる時間に応じて調整するタイミング調整部をさらに備えることを特徴とする請求項１から６のいずれかに記載の音声変更装置。
発話中の音声を受け、それを表す音声信号を生成する集音手段と、
前記集音手段によって生成された音声信号を変更する音声変更装置と、
前記音声変更装置によって変更された音声信号を音声に変換して前記発話中の音声が受聴されている領域に出力する音声出力手段と、を備え、
前記音声変更装置は、
前記集音手段によって生成された音声信号から変更対象部分の信号を抽出する部分抽出部と、
前記部分抽出部によって抽出された変更対象部分の信号を非線形関数を使用して変更する非線形変更部と、
少なくとも前記非線形変更部によって変更された変更対象部分の信号を前記音声出力手段に出力する出力部と、を含むことを特徴とする音声情報秘話システム。
発話中の音声を表す音声信号から変更対象部分の信号を抽出するステップと、
抽出された変更対象部分の信号を非線形関数を使用して変更するステップと、
変更された変更対象部分の信号を音声に変換し、変換された音声を前記発話中の音声が受聴されている領域に出力するステップと、を含むことを特徴とする音声変更方法。