JP5662711B2

JP5662711B2 - 音声変更装置、音声変更方法および音声情報秘話システム

Info

Publication number: JP5662711B2
Application number: JP2010145038A
Authority: JP
Inventors: 孝芳中井; 川上　福司; 福司川上
Original assignee: Nippon Sheet Glass Environment Amenity Co Ltd
Current assignee: Nippon Sheet Glass Environment Amenity Co Ltd
Priority date: 2010-06-25
Filing date: 2010-06-25
Publication date: 2015-02-04
Anticipated expiration: 2030-06-25
Also published as: JP2012008391A

Description

本発明は、音声を変更する音声変更装置、音声変更方法およびその音声変更装置を備える音声情報秘話システムに関する。

個人情報保護法などの施行により銀行やオフィスにおける会話情報の保護の必要性が高まっている。その手段として、従来から物理的に空間を分ける遮音・防音や、オープンプランオフィスなどにおいて会話音声を別の雑音・音楽などで隠蔽するＢＧＭ・マスキングシステムなどが提案されてきた。

音声情報の隠蔽という目的については従来から、
（１）対象音声を他の定常的な雑音で隠蔽するマスキングシステム（Masking System）
（２）室内の暗騒音や空調騒音で隠蔽するシェーディングシステム（Shading System）
（３）遮音・防音（対象室を空間的に区画し、音響的に分離する）
等があった。（１）の例は音声の存在そのものを（無理やり）消し去ろうとするもので、エネルギマスキング（Energy Masking）と位置付けられる。これは例えばオープンプランオフィスのブースや会議室に使用されている。

（１）のシステムの例が非特許文献１に報告されている。そこでは、天井内部などに専用のジェネレータやスピーカを設置し、マスキング音を発生して音声の隠蔽を行っている。その原理は、会話の邪魔にならない程度の（会話とは脈絡のない）音楽や雑音を生成し、いわゆるＳ／Ｎを低減して音声の内容を隠蔽したり、明瞭度・了解度を低減したりして、会話内容を理解できない程度まで隠蔽しようとするものである。システムには会話レベルや室内暗騒音などに応じてマスキング音を最適レベルに制御する制御装置（信号処理装置）・電力増幅器などが含まれる。

また、この技術を利用した例としては、パーティションからブース内へマスキング用のノイズを放射し、対象空間領域をブースに限定することにより、室内全体の騒音レベルが上昇するのを抑えようとしたものがある。

（２）のシステムの例が非特許文献２に報告されている。そこでは、放射するマスキングノイズとして、室内の暗騒音そのものや、日常的に身近な空調騒音を使用した「Sound Shading System」が報告されている。このシステムでは、銀行の窓口などにおけるプライバシーの確保を目的とした視覚遮断的なパーティションに対し、会話のプライバシー保護を目的としてパーティション頂部にスピーカを設置する。このスピーカからマスキング音を再生し、それによりパーティションの反対側にいる人への会話内容の漏洩・伝達の阻止を図る。再生する音には街の雑踏をもとに生成した音や、その部屋の空調騒音を使用する。

（３）のシステムの例としては、別室として区画する遮音や、パーティションなどで区画する防音がある。

特開２００８−２３３６７１号公報

コクヨ社プレスリリース、サウンドマスキング、２００６年１０月１８日杉本明子、中村隆宏、伊勢史郎、「会話のしやすさとプライバシーを考慮した音場を生成する Sound Shading System の評価」、日本音響学会２００５年春季研究発表会講演論文集、ｐ．８１７電子情報通信学会、聴覚と音声、１９７３年、ｐ．３７０−３７１梶田、小林、武田、板倉、「ヒューマンスピーチライク雑音に含まれる音声的特徴の分析」、日本音響学会誌、１９９７年５月１日、５３（５）、ｐ．３３７−３４５

本発明者は、上述のマスキング／シェーディング技術に関して以下の課題を認識した。
（Ｉ）原音声とは脈絡のない新たな音を放射するので、違和感を伴い、またマスカーは原音声に対応して常に最適、あるいは最大効果のあるものとは言えない。
（ＩＩ）音声発生のないいわゆる「無音時」にも騒音、つまりマスキング音が聞こえ得る。したがって、室内空間の騒音レベルを確実に上昇させ得る。
（ＩＩＩ）会話とは関係のない別の音（騒音・音楽）を放射することにより、発声者・会話者・その他の在室者に少なからず違和感を与え得る。
（ＩＶ）音声の情報隠蔽は、性質の異なるもの同士は区別して認識する、という聴覚の性質により、雑音やBGMでは奏功しにくいという基本的な問題を含む（包絡線（エンベロープ）やスペクトルが似通った音声波形同士の方が聴覚認識上、区別されにくい）。

（Ｉ）については、経験上原音声を完全にマスクするのに必要な雑音の相対レベルは略１５ｄＢである（非特許文献３参照）。この視点から見ると、雑音や音楽を流すことにより音声を隠蔽するという方法では、原音声に対してそれ以上のかなり大きな音量の雑音や音楽が必要となり、maskingであれshadingであれ、室内騒音レベルを大きく上昇させ得る。

（ＩＩ）については、発話がない時にも音がするという違和感を伴う。またそもそも発話がない時に雑音や音楽を流すことは会話内容の隠蔽の観点からは無駄と言える。また無駄であるばかりでなく、室の等価騒音レベル（L_Aeq：A-weighted equivalent sound level＝A特性で補正した音声信号の一定区間の自乗平均音圧レベル、つまり平均的な騒音レベル）を上昇させる結果となりうる。雑音の代わりに音楽や音声から作成した「ＨＳＬ雑音（Human Speech-like noise）」（非特許文献４参照）を流した場合でも、一般的なＢＧＭとの区別は困難である。

また、（３）のアプローチについては、費用的にかなり大きなものとなり、また開放感を阻害するのでオープンプランオフィスなどでの使用には適さない。

また、特許文献１に記載のサウンドマスキングシステムでは、入力音(声)の話速を分析し、これに応じたフレーム長で分割して処理し、処理音声を合成する方法が述べられている。しかしながら、このシステムは「約２秒単位で入力音(声)を一時記憶し一連の処理を行う」ので、処理音声はそれがマスキング対象とする音声とは別の、過去の音声から生成される。したがって、処理音声とそれがマスキング対象とする音声との関連性は薄く、マスキング効果は十分とは言えない。

本発明はこうした課題に鑑みてなされたものであり、その目的は、騒音レベルや受聴者の不快感の増長を抑えた上で音声の内容を隠蔽する技術の提供にある。

本発明のある態様は、音声変更装置に関する。この音声変更装置は、発話中の音声を表す音声信号から、音声信号の波形に基づいて変更対象部分の信号を抽出する部分抽出部と、部分抽出部によって抽出された変更対象部分の信号を変更する部分変更部と、部分変更部によって変更された変更対象部分の信号を、発話中の音声が受聴されている領域に音声を出力可能な音声出力手段に出力する出力部と、を備える。

この態様によると、音声信号のうち変更対象とする部分をその音声信号の波形に基づいて決めることができる。

本発明の別の態様は、音声情報秘話システムである。この音声情報秘話システムは、発話中の音声を受け、それを表す音声信号を生成する集音手段と、集音手段によって生成された音声信号を変更する音声変更装置と、音声変更装置によって変更された音声信号を音声に変換して発話中の音声が受聴されている領域に出力する音声出力手段と、を備える。音声変更装置は、集音手段によって生成された音声信号から、音声信号の波形に基づいて変更対象部分の信号を抽出する部分抽出部と、部分抽出部によって抽出された変更対象部分の信号を変更する部分変更部と、部分変更部によって変更された変更対象部分の信号を音声出力手段に出力する出力部と、を含む。

なお、以上の構成要素の任意の組み合わせや、本発明の構成要素や表現を装置、方法、システム、コンピュータプログラム、コンピュータプログラムを格納した記録媒体などの間で相互に置換したものもまた、本発明の態様として有効である。

本発明によれば、騒音レベルや受聴者の不快感の増長を抑えた上で音声の内容を隠蔽できる。

マスキングに関する従来のアプローチと実施の形態に係るアプローチをカテゴリに分けて示す説明図である。実施の形態に係る音声情報秘話システムが設けられたブースを模式的に示す斜視図である。図２の音声情報秘話システムの機能および構成を模式的に示すブロック図である。図２のＩＴパーティションの構成を示す側面図である。図３のＳＤコントローラ部の機能および構成を示すブロック図である。図５の子音ライブラリを示すデータ構造図である。マスキーの一例を表す音声信号の波形を示す波形図である。図７の音声信号を図５のＳＤコントローラ部において子音のみ置換モードで処理することで生成される音声信号の波形を示す波形図である。第１決定部における変更対象部分の信号の決定基準を説明するための説明図である。受聴者位置におけるマスキーおよび時間回転処理されたマスカーを表す音声信号の波形を示す波形図である。図２の音声情報秘話システムにおける一連の処理を示すフローチャートである。第１変形例に係る音声情報秘話システムの機能および構成を模式的に示すブロック図である。第２変形例に係る音声情報秘話システムの機能および構成を模式的に示すブロック図である。

以下、本発明を好適な実施の形態をもとに図面を参照しながら説明する。各図面に示される同一または同等の構成要素、部材、処理には、同一の符号を付するものとし、適宜重複した説明は省略する。

特にオフィスなどにおいては、オープンプランの空間が有する開放性やコミュニケーションの円滑性を損なわずに音声情報、つまり音声の内容だけが隠蔽されることが望ましい。しかしながら、従来のＢＧＭやマスキングを使用する技術は、基本的には原音声とは性質の異なる、別過程で作成した音を原音声とは脈絡なく加えるので、聴覚的な違和感や室内の暗騒音を上昇させてしまうという嫌いがあった。本発明の実施の形態はマイクロホンなどにより集音した音声信号そのものの構造を実質的に実時間で変更することにより室内の暗騒音を上昇させることなく会話の内容を、理想的には会話の内容のみを、隠蔽し、円滑で快適な秘話環境を実現する。

図１は、マスキングに関する従来のアプローチと実施の形態に係るアプローチをカテゴリに分けて示す説明図である。（ａ）は、電気音響を用いたＳＲ（Sound Reinforcement）／ＰＡ（Public Address）である。これらは音量や明瞭度を高めて「よく聞こえるようにする」従来技術である。（ｆ）は、遮音（Sound Insulation）であり、空間を音響的に分離しできるだけ「聞こえないようにする」従来技術である。これらに対して実施の形態に係るアプローチは（ｅ）のＳＤ（Speech Deformation）であり、会話者本人の原音声を処理して準実時間で出力することにより、聞こえる聞こえないではなく会話内容を「分からなくする」一種の音声情報撹乱（聴覚翻弄）技術である。また、従来技術による（ｂ）ＥＭや（ｃ）ＳＳや（ｄ）ＩＭが多かれ少なかれ室内あるいは対象空間領域の騒音レベルを上昇させて不快感や違和感を増加させ得るのに対し、（ｅ）のＳＤではほとんど騒音レベルの上昇を伴わない。

本発明の実施の形態の主な立脚点は、言語の認識・理解が、特に日本語の場合は、音声の子音部分に大きく依存するという本発明者の認識である。この子音部分が変化すると、たとえば「雲（ＫＵＭＯ）」は「ＲＵＴＯ」となり、言葉として理解することができない。
また、聴覚音声認識(ＨＳＲ:Human Speech Recognition)が音声信号のキャリア(搬送波）より包絡線遷移などのアーティキュレーションにより強く依存することに基づき、原音声の包絡線の「略一山」を処理対象単位として時間反転または時間回転すると、スペクトルも包絡線形状も原音声と類似するので音声情報撹乱が効果的に機能する。

本発明の実施の形態では、音声認識・理解のこのような側面に着目し、あるモードでは原音声の子音部分を変更・削除・置換する。子音部分の処理が主となるので、原音声と比較して音圧レベル（音量）の上昇は小さい。さらに原音声（以下、マスキーと称す）に処理音声（以下、マスカーと称す）を加えた全体の音量を更に低減するために、以下の併用／工夫が可能である。
（i）マスカーの生成において、母音部分を無音に置き換え、処理された子音部分だけを元のタイミングで出力する。
（ii）マスカーの情報隠蔽効果を高めるために、ＡＮＣ（Active Noise Control）またはパラメータ固定のＰＮＣ（Passive Noise Control）技術を併用する。

図２は、実施の形態に係る音声情報秘話システム１００が設けられたブース２を模式的に示す斜視図である。図３は、図２の音声情報秘話システム１００の機能および構成を模式的に示すブロック図である。
音声情報秘話システム１００は、銀行の相談カウンターなど、簡易パーティションで区画されたブース２に設けられる。音声情報秘話システム１００は、マイクロホンＭｉｃと、ＳＤコントローラ部ＳＤと、２つのパワーアンプＰＡと、２つのスピーカＳＰと、を備える。スピーカＳＰおよびＳＤコントローラ部ＳＤは、ブース間を視覚的に隔てるＩＴパーティション４に組み込まれてもよい。

相談員と会話を行っている顧客６を発話者とする。この発話者のマスキーH'(t)はカウンター部分またはその近傍に設けられたマイクロホンＭｉｃによって集音される。マイクロホンＭｉｃにより集音されたマスキーH'(t)は音声信号に変換され、ＳＤコントローラ部ＳＤに送られる。この音声信号がＳＤコントローラ部ＳＤによって変更、削除、置換、または時間的に反転／回転される。ＳＤコントローラ部ＳＤにおける処理を経た音声信号はパワーアンプＰＡを経てスピーカＳＰから左右の隣接ブース２’にマスカーH(t)として出力される。

隣接ブース２’にはマスキーH'(t)が空中を回り込んでくるので、顧客６が発話中の音声は隣接ブース２’内にいる受聴者８（顧客６とは異なる者）によって受聴されうる。しかしながら本実施の形態では、空中を回り込んで漏洩するマスキーH'(t)はマスカーH(t)と合成されて隣接ブース２’内の受聴者８に届く。したがってマスカーH(t)による擾乱により、受聴者８はマスキーH'(t)に含まれる会話の内容を理解することができない。

スピーカＳＰは、ＳＤコントローラ部ＳＤやマイクロホンＭｉｃが設置されているブース２の隣の隣接ブース２’に向けてマスカーH(t)を出力する。ここで隣接ブース２’は、空中を回り込んで漏洩するマスキーH'(t)が受聴されている領域である。つまり、マスキーH'(t)とマスカーH(t)とが実質的に実時間で受聴者８に届くように、マスカーH(t)がスピーカＳＰから出力される。この実時間性を保証する主体はＳＤコントローラ部ＳＤであってもスピーカＳＰであってもよいが、以下ではＳＤコントローラ部ＳＤがマスキーH'(t)とマスカーH(t)との実時間性を考慮して音声信号を処理する場合について説明する。

図４は、図２のＩＴパーティション４の構成を示す側面図である。ＩＴパーティション４は、第１吸音層４２と、遮音層４４と、第２吸音層４６と、をこの順に積層してなる積層構造を有する。第１吸音層４２および第２吸音層４６はそれぞれ厚さが２０ｍｍのグラスウールの層である。遮音層４４は厚さが１２ｍｍの石膏ボードである。

図５は、図３のＳＤコントローラ部ＳＤの機能および構成を示すブロック図である。ここに示す各ブロックは、ハードウェア的には、コンピュータのＣＰＵ（central processing unit）をはじめとする素子や機械装置で実現でき、ソフトウェア的にはコンピュータプログラム等によって実現されるが、ここでは、それらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックはハードウェア、ソフトウェアの組合せによっていろいろなかたちで実現できることは、本明細書に触れた当業者には理解されるところである。

ＳＤコントローラ部ＳＤは、記憶装置１０と、Ａ／Ｄ部２０と、部分抽出部３０と、部分変更部９０と、出力部７２と、ノイズ生成部８０と、子音ライブラリ更新部８２と、母音ライブラリ更新部８４と、を含む。記憶装置１０は、子音ライブラリ１２と、母音ライブラリ１４と、共通ライブラリ１６と、を含む。部分抽出部３０は、音素抽出部３８と、略１山抽出部５２と、ランダム抽出部６０と、を有する。音素抽出部３８は、音声判別部３６と、子音抽出部３２と、母音抽出部３４と、を有する。略１山抽出部５２は、自乗音圧取得部５４と、ローパスフィルタ５６と、第１決定部５８と、を有する。ランダム抽出部６０は、信号分割部６２と、第２決定部６４と、を有する。部分変更部９０は、子音処理部４０と、母音処理部５０と、時間処理部６６と、を有する。出力部７２は、遅延調整部６８と、Ｄ／Ａ部７０と、を有する。

子音ライブラリ１２は、子音部分の種類ごとにその波形データを記憶する。母音ライブラリ１４は、母音部分の種類ごとにその波形データを記憶する。共通ライブラリ１６は、子音部分の種類ごとに所定のサンプル波形データを記憶する。この共通ライブラリ１６に記憶される子音部分のサンプル波形データは、男性、女性、子供、大人などに分類されている。

部分抽出部３０は、Ａ／Ｄ部２０でＡ／Ｄ変換された音声信号から、その音声信号の波形に基づいて変更対象部分の信号を抽出する。部分変更部９０は、部分抽出部３０によって抽出された変更対象部分の信号を変更する。出力部７２は、部分変更部９０によって変更された変更対象部分の信号をＤ／Ａ変換し、スピーカＳＰに出力する。

ＳＤコントローラ部ＳＤは少なくとも、子音のみ置換モード、子音母音置換モード、実時間モード、の３つの動作モードを有する。以下各動作モードごとに関連するブロックの機能を説明する。

（１）子音のみ置換モード
マイクロホンＭｉｃにより集音されたマスキーH'(t)は音声信号に変換され、該音声信号はマイクアンプ（不図示）を経てＡ／Ｄ部２０に入力される。Ａ／Ｄ部２０は、アナログ信号である音声信号をデジタル信号に変換する。音声判別部３６は、Ａ／Ｄ部２０でデジタル化された音声信号の波形を過去の発話音声波形と比較することにより、その音声信号の子音部分と母音部分とを判別する。子音抽出部３２は、その判別結果を使用して子音部分の信号を抽出する。

子音ライブラリ更新部８２は、子音抽出部３２によって抽出された子音部分の信号の波形データをその種類ごとに子音ライブラリ１２に蓄積する。ここで子音部分の分類はその継続時間・スペクトル・統計処理などから行われる。このように子音ライブラリ１２に蓄積される子音部分の信号の波形データは、逐次処理によって会話開始から徐々に精度の高いものに置換されてゆく。

ノイズ生成部８０は、子音抽出部３２で抽出された子音部分の信号を基に、それとスペクトルが重なるか違う音を生成する。

子音処理部４０は、音声信号のうち子音抽出部３２で抽出された子音部分の信号を処理する。子音処理部４０は、子音抽出部３２によって抽出された子音部分の信号を子音ライブラリ１２から選出したほぼ同じ長さの別の子音部分の信号に置換する。子音処理部４０は、置換の候補が複数ある場合は、ランダムに、かつ各組み合わせが略等確率となるように置換する。ここで子音部分の長さに長短があることの例としては、「ｓ」に相当する子音部分の継続時間は比較的長く、「ｔ」や「ｐ」に相当する子音部分の継続時間は短いことがある。

なお、子音処理部４０は、子音ライブラリ１２を使用して子音部分の信号を置換する代わりに、子音抽出部３２によって抽出された子音部分の信号をノイズ生成部８０によって生成された子音ノイズと置換してもよい。この場合、マスキーH'(t)とマスカーH(t)との合成音声の無作為性がより増大する。また子音処理部４０は、子音ライブラリ１２を使用して子音部分の信号を置換する代わりに、子音抽出部３２によって抽出された子音部分の信号を削除してもよい。

発話開始から数秒〜数十秒程度（以下、発話開始期間と称す）は、子音ライブラリ１２に発話者本人の音声から採取した子音部分が十分に蓄積されていない可能性がある。そこでこの発話開始期間の間は、子音処理部４０は共通ライブラリ１６から対応する子音部分の信号を選出して子音抽出部３２によって抽出された子音部分の信号と置換する。あるいはまた、発話開始期間の間、子音処理部４０は子音抽出部３２によって抽出された子音部分の信号をノイズ生成部８０によって生成された子音ノイズと置換する。あるいはまた、発話開始期間の間、子音処理部４０は子音抽出部３２によって抽出された子音部分の信号を時間方向に反転する。

発話開始期間の間に用いられるこれらの子音部分変更アルゴリズムでは、発話者本人の子音ライブラリ１２を使用する場合よりも自然さにおいて劣る。しかしながら発話開始後の短い時間だけなのでそれほど問題とはならない。

Ｄ／Ａ部７０は子音処理部４０において処理された音声信号を、スピーカＳＰを駆動するためのアナログの音声信号に変換してパワーアンプＰＡに出力する。Ｄ／Ａ部７０は特に、子音処理部４０によって置換された子音部分の信号と、その子音部分に対応する変更されていない母音部分の信号とを含む音声信号をアナログ信号に変換して出力する。

なお、マスキーH'(t)をマイクロホンＭｉｃで集音してからＳＤコントローラ部ＳＤで処理しスピーカＳＰから対応するマスカーH(t)を出力するまでの時間、つまりＳＤ処理時間Ｔ_ＳＤは、Ｔ＋ｔ以内とされる。ここでＴはマスキーH'(t)が発せられた時点からそれが受聴者８に届くまでの時間であり、ｔはマスキーH'(t)とマスカーH(t)が受聴者８位置において顕著なエコーを発生させないような遅れ時間、もしくは受聴者８に届く合成音声が受聴者８にとって理解不能となる最大の遅れ時間である。ｔの具体的な値は実験により定められるが、代表的には数１００ｍｓ程度である。

マスキーH'(t)とマスカーH(t)とを受聴者８位置で合成して情報隠蔽を行うためには上述の通りＳＤコントローラ部ＳＤでのＳＤ処理を実時間もしくは準実時間で行わなければならない。この時間的な制約の存在、つまりＳＤ処理時間Ｔ_ＳＤを短い時間であるＴ＋ｔ以下としなければならないこと、により、子音部分の信号の抽出及び置換・反転などの処理の精度を犠牲にしなければならない場合もある。しかしながら本実施の形態の目的は音声の明瞭度・了解度の低減にあり、想定／予定した処理自体の正確さが目的ではない。したがって本実施の形態では、マスカーH(t)の重畳によりマスキーH'(t)の意味内容が理解し難くなるという条件が満たされれば処理の精度は大きな問題とはならない。これは「意味内容が理解し難くなるという条件」は無数にあるからである。

（２）母音置換モード
上述の子音部分の変更に加えて、母音部分も変更するモードである。母音抽出部３４は、子音抽出部３２で子音部分の信号が抽出された音声信号から母音部分の信号を抽出する。

母音ライブラリ更新部８４は、母音抽出部３４によって抽出された母音部分の信号の波形データをその種類ごとに母音ライブラリ１４に蓄積する。ここで母音部分の分類はその継続時間・スペクトル・統計処理などから行われる。このように母音ライブラリ１４に蓄積される母音部分の信号の波形データは、逐次処理によって会話開始から徐々に精度の高いものに置換されてゆく。

ノイズ生成部８０は、母音抽出部３４で抽出された母音部分の信号を基に、それとスペクトルが類似する母音ノイズを生成する。

母音処理部５０は、子音処理部４０において子音部分の信号が処理された後の音声信号のうち、母音抽出部３４で抽出された母音部分の信号を処理する。特に騒音レベルの上昇を極力抑える必要がある場合には、母音処理部５０は母音抽出部３４で抽出された母音部分を無音部分に置換する。この場合、Ｄ／Ａ部７０、スピーカＳＰを経て出力されるマスカーH(t)は子音部分と子音部分とに挟まれた無音部分を有する構成となる。つまりマスカーH(t)の子音部分は同期するマスキーH'(t)の母音部分と連結してひとつの音韻を構成することとなる。これにより全体の音量はマスカーH(t)で無音とした母音部分の分だけ低減され、室内の騒音レベルも低減される。

なお、母音処理部５０は、母音部分を無音部分で置き換える代わりに、ライブラリベースの置換を行ってもよい。つまり、母音処理部５０は、母音抽出部３４によって抽出された母音部分の信号を母音ライブラリ１４から選出した別の母音部分の信号に置換してもよい。母音処理部５０は、置換の候補が複数ある場合は、ランダムに、かつ各組み合わせが略等確率となるように置換する。発話開始期間における母音部分変更アルゴリズムについては子音部分のそれと同様である。

または、母音処理部５０は、母音部分を無音部分で置き換える代わりに、母音処理部５０によって抽出された母音部分の信号をノイズ生成部８０によって生成された母音ノイズと置換してもよい。この場合、やはりマスキーH'(t)とマスカーH(t)との合成音声の無作為性がより増大する。

また、子音母音の処理の順番、つまり子音処理部４０における処理と母音処理部５０における処理の順番を入れ替えてもよい。

図６は、子音ライブラリ１２を示すデータ構造図である。子音ライブラリ１２は、音素としての子音１１２とその子音の波形データ１１４とを対応付けて記憶する。母音ライブラリ１４および共通ライブラリ１６もまた子音ライブラリ１２と同様のデータ構造を有する。

図７は、マスキーH'(t)の一例を表す音声信号の波形を示す波形図である。図７の波形は「あの、彼とはそうと（う）長いんだよね、実は（ANO KARETOWA SO-TONAGAINDAYONE ZITSUWA）」という原音声をマイクロホンＭｉｃで音声信号に変換したものである。図７の縦軸は信号強度を任意の単位で表し、横軸は時間を表す。図７において縦の破線で区画された領域ひとつひとつが音素に対応し、対応する音素がローマ字で明示されている。また、「-」は音声休止部を表す。包絡線１０２は実線で示される。ここで包絡線は音声サンプルを自乗音圧領域で数１０ｍｓｅｃの時定数をかけ平方根をとったものである。

図７における母音、子音、無音の別を表１に示す。音声開始前のある時刻を時刻の原点（ｔ＝０）として定める。

なお、子音、母音、無音の別は、エネルギやゼロ交差数、ＰＡＲＣＯＲ（PARtial auto-CORrelation）の第１係数（スペクトル傾斜）などにより判別することが可能である。

図８は、図７の音声信号をＳＤコントローラ部ＳＤにおいて子音のみ置換モードで処理することで生成される音声信号の波形を示す波形図である。区画１０４で示される子音部が置換された子音部である。これらの置換に際し切り出し時間長や再挿入時レベル(ｄＢ)を調整している。
置換後の包絡線１０６は実線で示される。図７の包絡線１０２と図８の包絡線１０６とを比較するとそれ程変化していないことが分かる。つまり音声のイントネーションや抑揚にそれ程変化はない。しかしながら図８の音声信号がスピーカＳＰで音声に変換され、マスカーH(t)として出力されると、受聴者８サイトではマスキーH'(t)とマスカーH(t)とが合成されて聞こえ、その意味内容は理解されにくくなる。つまり「わからない」となることが多い（他の音に聞こえる場合もある）。

図５に戻る。
（３）実時間モード
マイクロホンＭｉｃにより集音されたマスキーH'(t)は音声信号に変換され、該音声信号はマイクアンプ（不図示）を経てＡ／Ｄ部２０に入力される。Ａ／Ｄ部２０は、アナログ信号である音声信号をデジタルデータに変換する。Ａ／Ｄ部２０でデジタル化された音声信号は、例えば音圧の大きさに応じた電圧値が時刻と対応付けられたデジタルデータである。

部分抽出部３０は、Ａ／Ｄ部２０でデジタル化された音声信号から変更対象部分の信号を抽出する。部分抽出部３０は、変更対象部分の信号として子音部分の信号を抽出してもよい。あるいはまた、部分抽出部３０は、変更対象部分の信号として母音部分の信号を抽出してもよい。子音部分および母音部分の抽出については上述の通りである。

あるいはまた、部分抽出部３０は、変更対象部分の信号として音声信号の包絡線の形状に基づいて決定されたひとまとまりの信号を抽出してもよい。あるいはまた、部分抽出部３０は、音声信号をランダムな長さを有する期間で分割し、分割後の１区間に対応する信号を変更対象部分の信号として抽出してもよい。

部分抽出部３０が変更対象部分の信号として音声信号の包絡線の形状に基づいて決定されたひとまとまりの信号を抽出する場合を説明する。略１山抽出部５２は、音声信号の包絡線を示すデータを取得する。このデータは、例えば包絡線の大きさに応じた電圧値が時刻と対応付けられたデジタルデータである。以下、包絡線を示すデータを単に包絡線と称す。

自乗音圧取得部５４は、Ａ／Ｄ部２０でデジタル化された音声信号の自乗音圧波形を取得する。自乗音圧取得部５４は、音声信号を自乗し、必要に応じて所定の係数を乗ずることにより自乗音圧波形を得る。

ローパスフィルタ５６は、自乗音圧取得部５４によって取得された自乗音圧波形を数ｍｓｅｃから数１００ｍｓｅｃの時定数で平均化する。すなわちローパスフィルタ５６は自乗音圧波形に対してローパスフィルタ処理をする。これにより、自乗音圧波形から時定数程度よりも速い変化が取り除かれ、滑らかな波形が得られる。本実施の形態では、この滑らかな波形が音声信号の包絡線である。なお、他の方法で音声信号の包絡線を求めてもよいことは、本明細書に触れた当業者には理解される。また、本実施の形態において包絡線は、広義には音声信号の平均エネルギ（振幅）の変化を示すデータである。
ローパスフィルタ５６は、必要であればローパスフィルタ処理されたデータの平方根をとる。

第１決定部５８は、ローパスフィルタ５６によって得られた音声信号の包絡線のうち、数ｄＢ〜数１０ｄＢ、例えば５ｄＢ以上連続して上昇する上昇部分を検出する。次に第１決定部５８は、上昇部分の後で数ｄＢ〜数１０ｄＢ、例えば５ｄＢ以上連続して下降する下降部分を検出する。第１決定部５８は、上昇部分とそれに対応する下降部分との間の音声信号を変更対象部分の信号として決定する。このようにして決定される変更対象部分の信号の包絡線は略１山状となることが多い。

図９は、第１決定部５８における変更対象部分の信号の決定基準を説明するための説明図である。図９（ａ）は、第１決定部５８において上昇部分と下降部分の検出に基づいて変更対象部分の信号が決定される場合を説明するための説明図である。図９（ａ）は、例示としての音声信号の波形２１１とその包絡線２０８とを示す。第１決定部５８は、包絡線２０８の変化率に基づき上昇部分２０２を検出する。次に第１決定部５８は上昇部分２０２の後の下降部分２０４を検出する。第１決定部５８は、上昇部分２０２と下降部分２０４とで挟まれる区間２０６（ピーク２０３より前の時刻ｔ１とピーク２０３より後の時刻ｔ２とで挟まれる区間）の音声信号を変更対象部分の信号として決定する。

なお、第１決定部５８は、他の方法で変更対象部分の信号を決定してもよい。例えば、第１決定部５８は、包絡線が膨らんでいる部分を検出し、その部分に対応する音声信号を変更対象部分の信号として決定してもよい。あるいはまた、第１決定部５８は、包絡線のピークを検出し、その前後に所定の長さを有する区間の音声信号を変更対象部分の信号として決定してもよい。あるいはまた、第１決定部５８は、包絡線が所定のレベルを越えている連続的な区間の音声信号を変更対象部分の信号として決定してもよい。

図９（ｂ）は、第１決定部５８においてピークの検出に基づいて変更対象部分の信号が決定される場合を説明するための説明図である。図９（ｂ）は、例示としての音声信号の波形２１２とその包絡線２１４とを示す。第１決定部５８は、包絡線２１４のピーク２１６を検出する。第１決定部５８は、ピーク２１６の前後に所定の長さを有する区間２１８の音声信号を変更対象部分の信号として決定する。

図９（ｃ）は、第１決定部５８において包絡線のレベルに基づいて変更対象部分の信号が決定される場合を説明するための説明図である。図９（ｃ）は、例示としての音声信号の波形２２０とその包絡線２２２とを示す。第１決定部５８は、包絡線２２２が所定のレベル２２４を越えている連続的な区間２２６を検出し、その区間２２６の音声信号を変更対象部分の信号として決定する。この場合、所定のレベルの取り方によっては、変更対象部分の信号が２以上のピークを含む場合がある。

以上のように変更対象部分の信号の決定手法は種々考えられる。このように選択肢が多いことは、ＳＤによる会話内容の隠蔽をより効果的とするための大きな自由度を提供するという意味で好適である。

また、これら種々の決定手法に通じて言えることは、音声信号の波形に基づいて、特にその統計的な性質に基づいて信号のひとまとまりが判別され、そのように判別されたひとまとまりの信号が変更対象部分の信号として決定されていることである。すなわち、入来する音声信号に応じて適応的に変更対象部分が決定される。この場合、本発明者の当業者としての経験および予備的な実験によると、例えば予め定められた一定の間隔で音声信号を切り出す場合と比べてより会話内容擾乱効果が高いことが見出された。特に、本発明者によって行われた実験によると、包絡線の略１山を変更単位として抽出する場合は、例えば一定周期で切り出す場合や子音や母音を変更単位とする場合と比べて擾乱効果が高いことが見出された。

図５に戻る。
第１決定部５８は、音声信号のうち変更対象部分の信号として決定されなかった部分を遅延調整部６８に出力する。

部分抽出部３０が音声信号をランダムな長さを有する期間で分割し、分割後の１区間に対応する信号を変更対象部分の信号として抽出する場合について説明する。
信号分割部６２は、Ａ／Ｄ部２０でデジタル化された音声信号をランダムな長さを有する期間で分割する。期間の長さは数１０ｍｓｅｃ〜数１００ｍｓｅｃの間で変動する。または期間の長さは一定周期に対して±数１０％〜数１００％の範囲で変動する。例えば、期間の長さは、…、１１ｍｓｅｃ、１０ｍｓｅｃ，１２ｍｓｅｃ、…、と変化する。

第２決定部６４は、音声信号のうち信号分割部６２で分割された期間のひとつに対応する信号を変更対象部分の信号として決定する。第２決定部６４は、分割された全ての期間を変更対象部分として選択してもよいし、例えば１つおきに変更対象部分として選択してもよい。後者の場合、第２決定部６４は変更対象部分として選択されなかった期間に対応する部分の音声信号を遅延調整部６８に出力する。
この場合、期間の長さにランダム性が加味されているので、マスカーH(t)の自然性が向上する。

時間処理部６６は、部分抽出部３０によって抽出された変更対象部分の信号を、その時間軸に沿った波形に基づいて処理する。時間処理部６６は、変更対象部分の信号に対して時間反転または時間回転を施す。

時間反転について、時間処理部６６は、抽出された変更対象部分の信号を時間について反転する。すなわち、時間処理部６６は、変更対象部分の信号から時間を逆行させた信号を生成する。より具体的に説明すると、時間処理部６６は、変更対象部分の信号の時刻ｔ_ｉ（０≦ｉ≦Ｎ、ｔ_０＜ｔ_１＜…＜ｔ_Ｎ、Ｎは自然数、ｔ_０≡０）における電圧値ｆ（ｔ_ｉ）に対して関数ｈ（ｆ（ｔ_ｉ））＝ｆ（ｔ_Ｎ−ｔ_ｉ）を作用させる。その結果、時間処理部６６における時間反転処理を経た変更対象部分の信号の波形は、元の波形をその中心を通り時間軸と垂直な線に対して折り返した形状を有する。

時間回転について、時間処理部６６は、抽出された変更対象部分の信号の時間軸に沿った波形を回転させる。より具体的に説明すると、時間処理部６６は、上述の通り変更対象部分の信号に対して時間反転を施す。加えて時間処理部６６は、時間反転が施された変更対象部分の信号の符号を反転する。その結果、時間処理部６６における時間回転処理を経た変更対象部分の信号の波形は、元の波形をその時間軸上の中心に対して１８０度回転した形状を有する。

出力部７２は、時間処理部６６からは時間反転または時間回転処理された変更対象部分の信号を、部分抽出部３０からは変更対象部分でない信号を、取得する。出力部７２は、それらをアナログ信号に変換し、パワーアンプＰＡを介してスピーカＳＰに出力する。

遅延調整部６８は、時間反転または時間回転処理された変更対象部分の信号と変更対象部分でない信号とをつなぎ合わせて出力すべき出力音声信号を生成する。遅延調整部６８は、出力音声信号が出力部７２から出力されるタイミングを、マスキーH'(t)の伝搬にかかる時間に応じて調整する。特に遅延調整部６８は、出力音声信号に対して所定の遅延を与える。この遅延は、受聴者８位置におけるマスキーH'(t)に対するマスカーH(t)の遅れがマスキーH'(t)とマスカーH(t)とが実質的に実時間と言える程度の範囲内に収まるように設定される。

マスキーH'(t)とマスカーH(t)とが実質的に実時間であることは、例えばマスキーH'(t)とマスカーH(t)とが隣接ブース２’内で少なくとも部分的に重畳することである。あるいはまた、出力部７２から出力された変更対象部分の信号がスピーカＳＰによって音声に変換され、その変換された音声が、マスキーH'(t)が隣接ブース２’内で受聴されている間に隣接ブース２’に出力されることである。あるいはまた、出力部７２から出力された変更対象部分の信号がスピーカＳＰによって音声に変換され、その変換された音声が、当該変更対象部分の信号に対応するマスキーH'(t)の部分が隣接ブース２’内で受聴されている間に隣接ブース２’に出力されることである。これは言い換えると、変更対象部分の信号に対応するマスキーH'(t)の部分と、当該変更対象部分の信号に対応するマスカーH(t)の部分とが隣接ブース２’内で少なくとも部分的に重畳することである。

音声情報秘話システム１００を導入する際、マイクロホンＭｉｃおよびスピーカＳＰの位置は決まり、想定される顧客６の位置および想定される受聴者８の位置もある程度は決まる。また、ＳＤコントローラ部ＳＤにおける処理時間もある程度見積もることができる。したがって、音声情報秘話システム１００の導入時に、顧客６から受聴者８へのマスキーH'(t)の伝搬時間およびマスカーH(t)の伝搬時間をある程度見積もることができる。遅延調整部６８における遅延は、受聴者８位置におけるマスキーH'(t)に対するマスカーH(t)の遅れの所望値から逆算して設定される。

マスキーH'(t)に対するマスカーH(t)の遅れが大きいと、受聴者８位置においてエコーや残響が生じる虞がある。したがって、遅延調整部６８は、受聴者８位置におけるマスキーH'(t)に対するマスカーH(t)の遅れがそのような違和感を生じさせない程度の値となるような遅延を出力音声信号に対して与える。この遅延は実験により定められるが、代表的には数１００ｍｓｅｃ以下である。

また、マイクロホンＭｉｃ、スピーカＳＰ、顧客６、受聴者８の位置関係によっては、遅延調整部６８で遅延を付与しないとした場合にマスカーH(t)がマスキーH'(t)よりもかなり遅く受聴者８位置に到達することもある。この場合、マスキーH'(t)とマスカーH(t)とを受聴者８位置で実質的に実時間で合成して情報隠蔽を行うためには、ＳＤコントローラ部ＳＤでのＳＤ処理時間を短縮しなければならない。この時間的な制約の存在、つまりＳＤ処理時間を短縮しなければならないことにより、時間処理の精度を犠牲にしなければならない場合もある。しかしながら本実施の形態の目的は音声の明瞭度・了解度の低減にあり、想定／予定した処理自体の正確さが目的ではない。したがって本実施の形態では、マスカーH(t)の重畳によりマスキーH'(t)の意味内容が理解し難くなるという条件が満たされれば処理の精度は大きな問題とはならない。これは「意味内容が理解し難くなるという条件」は無数にあるからである。

Ｄ／Ａ部７０は、遅延調整部６８によって遅延が付与された出力音声信号を、スピーカＳＰを駆動するためのアナログの音声信号に変換してパワーアンプＰＡに出力する。

図１０は、受聴者８位置におけるマスキーH'(t)および時間回転処理されたマスカーH(t)を表す音声信号の波形を示す波形図である。図１０（ａ）は、マスキーH'(t)を表す音声信号の波形を示す波形図である。図１０（ａ）の波形は原音声をマイクロホンＭｉｃで音声信号に変換したものである。図１０（ａ）の縦軸は信号強度を任意の単位で表し、横軸は時間を表す。図１０（ｂ）は、図１０（ａ）の音声信号に対して、ＳＤコントローラ部ＳＤにおいて略１山単位で時間回転を施して生成される音声信号の波形を示す波形図である。例えば、ＳＤコントローラ部ＳＤは、図１０（ａ）の円１５０で示される略１山の音声信号を変更対象部分の信号として抽出し、その略１山の音声信号に時間回転を施して図１０（ｂ）の円１５２で示される音声信号を生成、出力する。

図１０（ａ）の包絡線と図１０（ｂ）の包絡線とを比較するとそれ程変化していないことが分かる。つまり音声のイントネーションや抑揚にそれ程変化はない。しかしながら図１０（ｂ）の音声信号がスピーカＳＰで音声に変換され、マスカーH(t)として出力されると、受聴者８サイトではマスキーH'(t)とマスカーH(t)とが合成されて聞こえ、その意味内容は理解されにくくなる。つまり「わからない」となることが多い。

図１１は、音声情報秘話システム１００における一連の処理を示すフローチャートである。マイクロホンＭｉｃは、マスキーH'(t)を収集し、音声信号を生成する（ステップ３０２）。Ａ／Ｄ部２０は、マスキーH'(t)を表す音声信号をマイクロホンＭｉｃから取得する（ステップ３０４）。部分抽出部３０は、Ａ／Ｄ部２０によって取得されＡ／Ｄ変換された音声信号から、その音声信号の波形に基づいて変更対象部分の信号を抽出する（ステップ３０６）。部分変更部９０は、部分抽出部３０によって抽出された変更対象部分の信号を変更する（ステップ３０８）。出力部７２は、部分変更部９０によって変更された変更対象部分の信号をスピーカＳＰに出力する（ステップ３１０）。スピーカＳＰは、受け取った信号を音声に変換してマスカーH(t)とし、そのマスカーH(t)をマスキーH'(t)が受聴されている隣接ブース２’に出力する（ステップ３１２）。

以上の構成による音声情報秘話システム１００の動作を説明する。銀行のブース２に顧客６が座り、銀行の相談員と例えばローンについて相談する場合を考える。この際、ブース２の隣の隣接ブース２’には受聴者８がいて口座の開設を申請しているとする。顧客６は自己の事業の資金繰りが悪化したなどローンを申請する事情を説明している。無論このような話は受聴者８に漏れ聞こえないほうがよく、特に本実施の形態に係る音声情報秘話システム１００では顧客６の発話音声のうち子音部分の信号が変換されたものや時間回転が施されたものが受聴者８に届くので、受聴者８は顧客６の発話内容を理解できない。加えて顧客６の発話がない場合はスピーカＳＰから隣接ブース２’への出力は実質的にないため、隣接ブース２’内の騒音レベルを不必要に上昇させることもない。

上述の実施の形態において、記憶装置１０の例は、ハードディスクやメモリである。また、本明細書の記載に基づき、各ブロックを、図示しないＣＰＵや、インストールされたアプリケーションプログラムのモジュールや、システムプログラムのモジュールや、ハードディスクから読み出したデータの内容を一時的に記憶するメモリなどにより実現できることは本明細書に触れた当業者には理解されるところである。

本実施の形態に係る音声情報秘話システム１００によると、以下の作用効果を得ることができる。

（１）本実施の形態に係る音声情報秘話システム１００によると、会話の存在そのものの隠蔽や抹消ではなく、その内容、つまり会話音声に含まれる情報が隠蔽される。この点に関し本発明者は以下を認識した。
オープンプランのオフィスや銀行や証券会社のロビーカウンター、特に簡易パーティションにより仕切られた接客カウンターなどでは、会話している人以外の人にその会話の中身を理解不能とすれば、会話内容の隠蔽という点では十分にその目的が果たされる。つまり会話の内容さえ漏れなければ音声そのものは聞こえてもよい。むしろ発話者の存在が視認できる場合などは、音声のスペクトルや包絡線（音質やイントネーション、抑揚）が保存されたほうが自然である。本実施の形態に係る音声情報秘話システム１００は、以上の視点・ニーズに対応し、より自然な形で会話内容を隠蔽する。

（２）部分抽出部３０において子音部分が抽出される場合、マスカーH(t)は発話者本人のマスキーH'(t)を基にその子音部分に着目して作成され、原音声と並行してスピーカから出力される。したがって、特に子音のみ置換モードではマスキーH'(t)のスペクトルや包絡線はマスカーH(t)となっても保存されうる。その結果、マスカーH(t)のスペクトルやイントネーションはマスキーH'(t)のそれとほぼ同じとなるので、違和感はそれ程無く自然に聞き手に受け取られる。

（３）部分抽出部３０において子音部分が抽出される場合、マスカーH(t)はマスキーH'(t)に対し子音部分のみを置換して、あるいは子音部分を置換したうえで母音部分を無音部分に置き換えたり処理したりして生成される。したがって、マスカーH(t)の音量（音圧レベル）ひいては室内騒音レベルの上昇を極力抑えることができる。

（４）時間軸上でマスキーH'(t)がないとき、つまり会話がないときはマスカーH(t)も出力されない。つまり両者は時間的に実質的に重畳する。したがって、音声発生のない「無音時」におけるマスカーH(t)による室内騒音レベルの上昇は抑えられる。

（５）従来の技術を使用した場合に発生しうるマスカー断続やレベル変動（会話停止時に断〜レベル低減）による違和感や、会話とは関係のない別の音（騒音・音楽）を放射することによる発話者・会話者・その他の在室者に対する違和感が抑えられる。

（６）従来の技術における物理的な遮音や個室化に対しては、空間的な遮断や移動を必要としないので、開放感やコミュニケーションが妨げられにくくなる。

（７）ＳＤコントローラ部ＳＤおよびスピーカＳＰはＩＴパーティション４に組み込まれるので、システムの設置や取付を大幅に簡略化できる。場合によってはマイクロホンＭｉｃをＩＴパーティション４に組み込んでもよい。この場合、さらに簡略化される。

（８）ＩＴパーティション４はそれ自体が吸音処理されている。したがって、ブース内での会話音声の明瞭度を上げつつ隣接ブースへの音漏れを低減できる。

（９）マスカーH(t)は置換・削除・反転・回転などの処理によりマスキーH'(t)（原音声）とは電気信号的な相関がそれ程高くない信号となる。したがって、音声情報秘話システム１００の動作時においてハウリングなどのフィードバックに起因する異常が生じにくい。

（１０）本実施の形態に係るＳＤコントローラ部ＳＤの実時間モードでは、変更対象部分の信号に時間反転または時間回転が施される。時間反転が施される場合、信号の包絡線を保存しつつ情報攪乱に効果的なマスカーH(t)を生成できる。ただし、時間反転の場合はマスキーH'(t)とマスカーH(t)とにそれほど聴感的な差が生じない場合もある。これに対して時間回転が施される場合は、マスキーH'(t)とマスカーH(t)との聴覚的な印象が微妙に変わってくることが本発明者による実験により分かっている。

情報隠蔽／聴覚翻弄のためには、マスキーH'(t)とマスカーH(t)とが聴覚的に類似すぎるのは問題であるが、異なりすぎるのも問題である。聴覚には、性質の異なるもの同士は区別して認識する、という性質があるからである。したがって、上記時間回転の場合は、聴覚的に近すぎずまた遠すぎない、情報隠蔽に丁度良いマスカーH(t)が提供されうる。

（１１）部分抽出部３０において、略１山状の信号が変更対象部分の信号として抽出される場合、マスキーH'(t)の信号レベルが小さい部分で切り取りや貼り付けが行われるので、時間反転・回転処理によるクリック雑音などが低減される。すなわち、マスキーH'(t)が時間的に連続であればマスカーH(t)もほぼ連続となるので、一定時間で区画する場合には生じうる遮断部分におけるクリック雑音や、その低減を目的とした窓掛け処理による包絡線形状の崩壊（イントネーションの崩壊）も生じにくい。

（１２）部分抽出部３０において、略１山状の信号が変更対象部分の信号として抽出され、そのように抽出された信号に時間回転処理が施される場合、マスカーのスペクトルや包絡線の形状はほぼ保存され、マスキーのそれらと類似のものとなる。したがって、室内の騒音レベルの上昇やクリック雑音を最低限に抑えたまま効果的に音場情報撹乱（音声内容の隠蔽）を機能させることができる。

以上、実施の形態に係る音声情報秘話システム１００およびそれに含まれるＳＤコントローラ部ＳＤの構成と動作について説明した。この実施の形態は例示であり、その各構成要素や各処理の組み合わせにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。

実施の形態では、隣接ブースの片側からマスカーH(t)が出力される場合について説明したが、これに限られない。例えば、信号加算によりマスカーH(t)が隣接ブースの左右両側から出力されてもよい。図１２は、第１変形例に係る音声情報秘話システムの機能および構成を模式的に示すブロック図である。第１変形例に係る音声情報秘話システムは、マイクロホンＭｉｃと、ＳＤコントローラ部ＳＤと、４つのスピーカＳＰａ〜ＳＰｄ（ＳＰｄは不図示）と、４つのパワーアンプＰＡａ〜ＰＡｄ（ＰＡｄは不図示）と、４つの加算器２１０ａ〜２１０ｄ（２１０ｄは不図示）と、を備える。

ＳＤコントローラ部ＳＤにおける処理を経た音声信号は、ブース２の左のスピーカＳＰａに対応する加算器２１０ａと、ブース２の右のスピーカＳＰｂに対応する加算器２１０ｂと、ブース２の左隣の隣接ブース２’の左のスピーカＳＰｃに対応する加算器２１０ｃと、ブース２の右隣の隣接ブースの右のスピーカＳＰｄ（不図示）に対応する加算器２１０ｄ（不図示）と、に入力される。それぞれの加算器２１０ａ〜２１０ｄに入力された音声信号は対応するパワーアンプＰＡａ〜ＰＡｄを経てスピーカＳＰａ〜ＳＰｄから出力される。加算器はそれが接続されたスピーカが音声を出力するブースの両隣のブースから、ＳＤコントローラ部ＳＤにおける処理を経た音声信号を取得して加算する。
本変形例によると、マスカーH(t)が隣接ブース２’の左右両側から出力されるので、ブース２における会話内容が受聴者８により伝わりにくくなる。

また、マスキーH'(t)のレベルを低減するためにＰＮＣ（Passive Noise Controller）を併用してもよい。ＰＮＣは公知のＡＮＣ（Active Noise Control）を調整時に適応処理させ、運用時には設定されたパラメータを固定して使用することを意図するものである。
図１３は、第２変形例に係る音声情報秘話システムの機能および構成を模式的に示すブロック図である。本変形例では、図１２のＳＤコントローラ部ＳＤを図１３の破線で囲まれた部分で置き換える。この部分ではＳＤコントローラ部ＳＤとＰＮＣ部ＰＮＣとが並列に設けられ、マイクロホンＭｉｃからの音声信号がＳＤコントローラ部ＳＤとＰＮＣ部ＰＮＣとに入力される。ＳＤコントローラ部ＳＤの出力側にはスイッチＳＷ１が設けられ、スイッチＳＷ１によってＳＤコントローラ部ＳＤの動作のオンオフが制御される。そのスイッチＳＷ１の出力とＰＮＣ部ＰＮＣの出力とは加算器４０６で加算され、パワーアンプＰＡを介してスピーカＳＰから音声として出力される。

本変形例では、音源４０２とアンプ４０４を介して接続されたヘッドトルソシミュレータＨＡＴＳ（HATS: Head and Torso Simulator）などを発話者位置Ｐに置いて、ＰＮＣ部ＰＮＣの同定を行う。スイッチＳＷ１を開いてＳＤコントローラ部ＳＤの動作を切り、ＨＡＴＳから適切な音声信号を放射して隣接ブース２’の受聴者位置Ｑに置いたマイクロホンＭｉｃ’の出力が最小になるようにＰＮＣ部ＰＮＣを適応動作させてシステム同定を行う。

このときマイクロホンＭｉｃおよびスピーカＳＰを含むインパルス応答は-h(x)となり、絶対値がＰＮＣ発話者−受聴者間のそれh(x)にほぼ等しくなる。その後スイッチＳＷ１を閉じ、同定されたパラメータを固定した状態でＰＮＣ部を稼動させる。すると発話者と受聴者の位置Ｐ、ＱおよびマイクロホンＭｉｃとスピーカＳＰの位置はほぼ固定されているので、マスキーH'(t)のレベルは効果的に低減され、マスカーH(t)が優勢となる。その結果、情報隠蔽（Information Masking）の効果が強められる。必要に応じてマスカーH(t)のレベルを下げると、マスキーH'(t)を含むシステム全体のレベル、つまり室内の騒音レベルをさらに低減することもできる。
なお、上述のＰＮＣ機能はＳＤコントローラ部ＳＤが組み込まれているコンピュータに組み込まれてもよい。

ＡＮＣ／ＰＮＣは既存の技術であるが、広い音場を３次元にわたりくまなく制御するのには向いていない。一方でカウンターのパーティションで囲まれた狭い空間のほぼ定まった位置に受聴者の頭が存在するようなケースでは３次元でも有効な音響低減手段となる。

実施の形態における子音部分などの変更対象部分の置換または削除にあたり、ハニング窓などの時間窓やゼロクロス検出を併用して、切り取り時に発生しうるクリック音などを除去してもよい。この場合、受聴者８あるいは在室者に与えうる違和感がさらに低減される。

以上、実施の形態にもとづき本発明を説明したが、実施の形態は、本発明の原理、応用を示しているにすぎないことはいうまでもなく、実施の形態には、請求の範囲に規定された本発明の思想を逸脱しない範囲において、多くの変形例や配置の変更が可能であることはいうまでもない。
例えば、原音声に複数の処理音声を重ねて放射したりすることも考えられる手法の例である。

２ブース、４ＩＴパーティション、６顧客、８受聴者、１０記憶装置、２０Ａ／Ｄ部、３０部分抽出部、７２出力部、９０部分変更部、１００音声情報秘話システム、ＳＤＳＤコントローラ部、ＳＰスピーカ、Ｍｉｃマイクロホン。

Claims

発話中の音声を表す音声信号から、前記音声信号の波形に基づいて変更対象部分の信号を抽出する部分抽出部と、
前記部分抽出部によって抽出された変更対象部分の信号を変更する部分変更部と、
前記部分変更部によって変更された変更対象部分の信号を、前記発話中の音声が受聴されている領域に音声を出力可能な音声出力手段に出力する出力部と、を備え、
前記部分抽出部は、前記音声信号の波形の包絡線のピークより前の第１時刻と当該ピークより後の第２時刻とで挟まれる区間の信号であって略１山状の信号を、前記変更対象部分の信号として決定することを特徴とする音声変更装置。
前記部分変更部は、前記部分抽出部によって抽出された変更対象部分の信号の時間軸に沿った波形を回転させることを特徴とする請求項１に記載の音声変更装置。
前記部分変更部によって変更された変更対象部分の信号が前記出力部から出力されるタイミングを、前記発話中の音声の伝搬にかかる時間に応じて調整するタイミング調整部をさらに備えることを特徴とする請求項１または２に記載の音声変更装置。
発話中の音声を受け、それを表す音声信号を生成する集音手段と、
前記集音手段によって生成された音声信号を変更する音声変更装置と、
前記音声変更装置によって変更された音声信号を音声に変換して前記発話中の音声が受聴されている領域に出力する音声出力手段と、を備え、
前記音声変更装置は、
前記集音手段によって生成された音声信号から、前記音声信号の波形に基づいて変更対象部分の信号を抽出する部分抽出部と、
前記部分抽出部によって抽出された変更対象部分の信号を変更する部分変更部と、
前記部分変更部によって変更された変更対象部分の信号を前記音声出力手段に出力する出力部と、を含み、
前記部分抽出部は、前記音声信号の波形の包絡線のピークより前の第１時刻と当該ピークより後の第２時刻とで挟まれる区間の信号であって略１山状の信号を、前記変更対象部分の信号として決定することを特徴とする音声情報秘話システム。
発話中の音声を表す音声信号から、前記音声信号の波形に基づいて変更対象部分の信号を抽出するステップと、
抽出された変更対象部分の信号を変更するステップと、
変更された変更対象部分の信号を音声に変換し、変換された音声を前記発話中の音声が受聴されている領域に出力するステップと、を含み、
前記抽出するステップは、前記音声信号の波形の包絡線のピークより前の第１時刻と当該ピークより後の第２時刻とで挟まれる区間の信号であって略１山状の信号を、前記変更対象部分の信号として決定するステップを含むことを特徴とする音声変更方法。