JP2015022252A

JP2015022252A - 音声処理装置、音声処理方法およびプログラム

Info

Publication number: JP2015022252A
Application number: JP2013152307A
Authority: JP
Inventors: 高史山川; Takashi Yamakawa; 三樹夫東山; Mikio Higashiyama; 佳史原; Yoshifumi Hara
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2013-07-23
Filing date: 2013-07-23
Publication date: 2015-02-02

Abstract

【課題】ターゲットとなる音声に含まれる情報を無意味化したり、また、その音から感じる不快感を低減したりするために、ターゲットとなる音声の特徴を希釈化する。【解決手段】包絡線生成部１２２は、それぞれの周波数帯域の原信号に対してＨｉｌｂｅｒｔ変換処理を施し、これによって得られた信号波形の包絡線を生成する。次に、位相処理部１２３は、原信号の包絡線の位相をπ／２（ｒａｄ）変更する。ホワイトノイズ発生部１２４は、いわゆるホワイトノイズ信号を発生する。キャリア生成部１２６は、それぞれの周波数帯域のホワイトノイズ信号に対してＨｉｌｂｅｒｔ変換処理を施し、キャリア信号を生成する。乗算部１２７は、位相をπ／２（ｒａｄ）ずらした包絡線とキャリア信号とを各時間で帯域ごとに乗算する。帯域合計部１２８は、各帯域で得られた信号を合わせて全帯域の信号（ＥＯＭ信号）を得て出力する。【選択図】図４

Description

本発明は音声をマスキングするための音声処理技術に関する。

秘匿すべき会話の内容や不快な機器作動音をマスキングするための音声処理技術が知られている（特許文献１〜３）。

特開２０１０−７４２１号公報特許第４３３６５５２号公報特許第４２０６８７６号公報

本発明は、ターゲットとなる音声に含まれる情報を無意味化したり、また、その音から感じる不快感を低減したりするために、ターゲットとなる音声の特徴を希釈化することを目的とする。

上記課題を解決するため、本発明は、マスキングのターゲットとなる音声信号を取得する音声信号取得手段と、取得された前記音声信号の包絡線を生成する包絡線生成手段と、生成された前記包絡線の位相を変更して、マスカー音の音声信号を生成する位相処理手段とを備える音声処理装置を提供する。

取得された前記音声信号と、生成された前記マスカー音の音声信号とを加算する加算手段を備えてもよい。

前記位相処理手段は前記包絡線の位相をπ／２（ｒａｄ）変更するようにしてもよい。

取得された前記音声信号と無相関の信号からキャリア信号を生成するキャリア生成手段を備え、前記位相処理手段は、位相を変更した前記包絡線と前記キャリア信号とを乗算して、前記マスカー音の音声信号を生成するようにしてもよい。

前記位相処理手段による前記包絡線の位相の変更量を指定する指定手段を備え、前記位相処理手段は前記包絡線の位相を指定された変更量だけ変更するようにしてもよい。

前記位相処理手段は、生成された前記包絡線の位相を変更して、それぞれ異なる変更量で位相が変更された複数のマスカー音の音声信号を生成し、さらに、生成された前記複数のマスカー音の音声信号を加算するマスカー音加算手段を備えてもよい。

前記キャリア生成手段は、取得された前記音声信号と無相関の信号から、それぞれ異なる複数のキャリア信号を生成し、前記位相処理手段は、位相を変更した前記包絡線と前記複数のキャリア信号の各々とを乗算し、前記乗算した結果を加算して、前記マスカー音の音声信号を生成するようにしてもよい。

また、本発明は、マスキングのターゲットとなる音声信号を取得する音声信号取得ステップと、取得された前記音声信号の包絡線を生成する包絡線生成ステップと、生成された前記包絡線の位相を変更して、マスカー音の音声信号を生成するマスカー音生成ステップとを備える音声処理方法を提供する。

また、本発明は、コンピュータに、マスキングのターゲットとなる音声信号を取得する音声信号取得ステップと、取得された前記音声信号の包絡線を生成する包絡線生成ステップと、生成された前記包絡線の位相を変更して、マスカー音の音声信号を生成するマスカー音生成ステップとを実行させるためのプログラムを提供する。

本発明によれば、ターゲットとなる音声の特徴を希釈化することが可能となる。

実施例１に係る音声処理システムの構成を示したブロック図。実施例１に係る音声処理装置の構成を示したブロック図。実施例１に係るＥＯＭ処理部の構成を示したブロック図。実施例１に係るＥＯＭ処理部の動作を示したフローチャート。原信号の音声波形を例示する図。図５の音声信号を用いてＥＯＭ処理部が生成したＥＯＭ信号の波形を例示する図。図５の音声信号と図６のＥＯＭ信号とを加算したときの波形を例示する図。原信号の包絡線の波形ｗ１と、その位相をπ／２（ｒａｄ）変更した包絡線の波形ｗ２とを例示した図。包絡線の波形ｗ１を二乗した波形ｗ１ａと、包絡線の波形ｗ２を二乗した波形ｗ２ａと、さらに波形ｗ１ａと波形ｗ２ａを加算した波形ｗ３を例示した図。実施例２に係る音声処理システムの構成を示したブロック図。実施例３に係る音声処理システムの構成を示したブロック図。変形例１に係る音声処理装置の構成を示したブロック図。

［音声処理の原理］
本発明に係る音声処理の原理は、マスキングのターゲットとなる音声信号（以下、原信号という）の特徴を希釈化して定常的な波形の音声信号に近づけることで、原信号を、例えば情報が無意味化された信号又は不快感が低減された信号に変換する、というものである。具体的には、原信号の音声波形の包絡線を求め、その包絡線の位相をπ／２（ｒａｄ）だけ変更した信号を生成する。この信号は、マスカー音の音声信号であり、以下では、直交化包絡線マスカー信号（Envelope Orthogonalized Masker信号、ＥＯＭ信号）と呼ぶ。包絡線の類似度は、包絡線間の相互相関係数によって評価することができる。原信号の音声波形の包絡線と、その包絡線の位相をπ／２（ｒａｄ）だけ変更した信号（ＥＯＭ信号）とは、相互相関係数が各周波数帯域においてほぼ０の関係である。包絡線の相関に基づき音声の了解度を評価する場合には、入力信号及び出力信号の包絡線の類似度が下がれば了解度も低下すると考えられる。そして、このＥＯＭ信号を原信号に対して、電気信号として又は伝搬媒体において音波として加算することで、原信号（原音声）の特徴を希釈化し、これにより、原信号（原音声）を情報が無意味化された信号（音声）又は不快感が低減された信号（音声）となる。

一般に、原信号の音声波形を時間軸上で逆転させることでマスカー信号を生成する手法が知られている。この場合、原信号とマスカー信号とでは包絡線も時間軸上で逆転する。その結果、例えばi番目の周波数帯域の包絡線の位相角θiは、時間軸上の逆転によって？θiへ変化する(複素共役スペクトルの関係となる)。したがって、原信号とマスカー信号との包絡線間の相互相関係数はcos2θiとなり、包絡線間の相互相関係数が各周波数帯域において必ずしも０とはならない。

上記の原理の具体的な適用例として、以下では実施例１〜３について説明する。
［実施例１］
実施例１では、遠隔地に居る者どうしが利用する会議システムや、遠隔地に居る対象者を監視又は見守る見守りシステム等において、情報の秘匿やプライバシーの保護を目的として、話者の発音音声の内容を聴取者には伝えないようにする。図１は、実施例１に係る音声処理システム１の構成を示すブロック図である。話者が居る室Ａと聴取者が居る室Ｂとは、話者の声が届かない程度以上に遠く離れている。室Ａにはマイク１ａが設けられ、室Ｂにはスピーカ２ａが設けられている。マイク１ａ及びスピーカ２ａはいずれも、通信回線を介して音声処理装置１０に接続されている。室Ａにおいて話者の発音音声はマイク１ａによって収音され、音声処理装置１０によるマスキング処理を経て、スピーカ２ａから放音される。

図２は、音声処理装置１０の構成を示すブロック図である。音声処理装置１０は、入力端１１１と、遅延部１１と、ＥＯＭ処理部１２と、レベル補正部１３と、加算部１４と、出力端１１２とを備えている。マイク１ａから入力された原信号は、入力端１１１（音声信号取得手段を構成）によって取得され、遅延部１１とＥＯＭ処理部１２とにそれぞれ入力される。ＥＯＭ処理部１２は上述したＥＯＭ信号を生成する。レベル補正部１３は、ＥＯＭ処理部１２から出力されるＥＯＭ信号のレベルを補正して加算部１４に入力する。遅延部１１は、マイク１ａから入力された原信号を、ＥＯＭ処理部１２およびレベル補正部１３によるＥＯＭ信号の生成処理に要する時間に相当する時間だけ遅延させて、加算部１４に入力する。加算部１４（加算手段を構成）は、ＥＯＭ処理部１２から入力されるＥＯＭ信号と、遅延部１１から入力される原信号とを加算して出力する。スピーカ２ａからは、ＥＯＭ信号と原信号とが加算された結果の信号の値に応じた音声が放音される。この放音される音声においては、原信号の音声がマスキングされることで、その音声に含まれる情報が無意味化されている。

図３は、ＥＯＭ処理部１２の構成を示すブロック図であり、図４は、ＥＯＭ処理部１２の動作を示すフローチャートである。図３に示すように、ＥＯＭ処理部は、帯域分割部１２１と、包絡線生成部１２２と、位相処理部１２３と、ホワイトノイズ発生部１２４と、帯域分割部１２５と、キャリア生成部１２６と、乗算部１２７と、帯域合計部１２８とを備えている。

帯域分割部１２１は、原信号である音声信号が入力されると（図４：ステップＳ１）、その原信号を、例えば１２５Ｈｚから８ｋＨｚまでの周波数の範囲内で１／４オクターブ幅の２５個の帯域に分割する（ステップＳ２）。ただし、この帯域幅や分割数は例示であって、必ずしもこの数値に限定されるものではなく、例えば、音声の特徴を有する主要な周波数帯域の帯域幅を採用してもよい。

次に、包絡線生成部１２２（包絡線生成部を構成）は、それぞれの周波数帯域の原信号に対してＨｉｌｂｅｒｔ変換処理を施し、これによって得られた信号波形の包絡線を生成する（ステップＳ３）。

次に、位相処理部１２３（位相処理手段を構成）は、原信号の包絡線の位相をπ／２（ｒａｄ）だけ変更する。具体的には、位相処理部１２３は、原信号の包絡線に対して高速フーリエ変換処理（ＦＦＴ）を施し（ステップＳ４）、得られた値の正側に虚数を乗算し（ステップＳ５）、負側を０で埋め（ステップＳ６）、さらに逆変換処理（ＩＦＦＴ）を施して（ステップＳ７）、実部を出力する（ステップＳ８）。

一方、ホワイトノイズ発生部１２４は、いわゆるホワイトノイズ信号を発生する。帯域分割部１２５は、ホワイトノイズ信号が入力されると（ステップＳ９）、そのホワイトノイズ信号を、１２５Ｈｚから８ｋＨｚまでの周波数の範囲内で１／４オクターブ幅の２５個の帯域に分割する（ステップＳ１０）。この帯域幅や分割数は例示であって、必ずしもこの数値に限定されるものではないが、原信号に対する帯域幅や分割数と同じである。

キャリア生成部１２６は、それぞれの周波数帯域のホワイトノイズ信号に対してＨｉｌｂｅｒｔ変換処理を施し、キャリア信号を生成する（ステップＳ１１）。なお、ホワイトノイズ信号でなくても、原信号と無相関な音声信号からキャリア信号を生成すればよい。
生成

次に、乗算部１２７（位相処理手段を構成）は、ステップＳ８で得られた値と、ステップＳ１１で得られた値とを各時間で帯域ごとに乗算する（ステップＳ１２）。帯域合計部１２８（位相処理手段を構成）は、各帯域で得られた信号を合わせて全帯域の信号（ＥＯＭ信号）を得て出力する（ステップＳ１３）。

ここで、上記の処理における原理的な作用を、変調ノイズに対する処理の例で説明する。図５は、ノイズを或る周波数で振幅変調した音声信号の波形の例である。図６は、図５の音声信号を用いて、変調周波数の包絡線に対してπ／２（ｒａｄ）だけ位相を変更して生成したＥＯＭ信号の波形の例である。図７は、図５の音声信号と図６のＥＯＭ信号とを加算した図である。図７と図５とを対比すると、図７では、図５に示した原信号の音声の特徴が希釈化されて定常的な波形に近づいている（つまり原信号の包絡線の位相特性が変化している）ことが分かる。ここでいう、希釈化とは、ターゲットとなる音声の包絡線において、その音声に関する特徴量を低下させることである。特徴量とは、音声に含まれる情報の情報量、エントロピー又は冗長度などである。音声に関する特徴量を低下させるとは、上記のような特徴量を平準化したり、ランダム化したり、又は一般化することである。

また、図８は、原信号の包絡線の波形ｗ１と、その位相をπ／２（ｒａｄ）変更した包絡線の波形ｗ２とを例示した図である。また、図９は、包絡線の波形ｗ１を二乗した波形ｗ１ａと、包絡線の波形ｗ２を二乗した波形ｗ２ａと、さらに波形ｗ１ａと波形ｗ２ａを加算した波形ｗ３を図示している。音声波形の包絡線の二乗値はその音声のエネルギーに相当するから、波形ｗ３は、原信号の包絡線とその位相をπ/２変更した包絡線をエネルギー的に足し合わせたことを意味する。波形ｗ３においては、もともとの原信号の包絡線の波形の特徴が失われており、包絡線が定常化されていることが分かる。

以上の実施例１によれば、通信回線を伝送される音声信号にマスキング音を付加することで原信号（音声信号）の音声の特徴を希釈化し、原信号（音声信号）に含まれる情報を無意味化することができる。

［実施例２］
実施例２では、或る室での会話を、その室に隣り合う又は近くにある室に漏洩することを防ぐために、話者の発音に含まれる情報を無意味化する。図１０は、実施例２に係る音声処理システム１００の構成を示すブロック図である。図１０は、話者が居る室ａと聴取者が居る室ｂとが隣り合う例である。室ａと室ｂを隔てる壁の室ｂの側には、振動ピックアップ２ｂが設けられ、さらにその壁の室Ｂの側には、加振器２ｃが設けられている。振動ピックアップ２ｂ及び加振器２ｃはいずれも音声処理装置１０ａに接続されている。音声処理装置１０ａは実施例１で説明した音声処理装置１０が備えるのと同じＥＯＭ処理部１２ａ及びレベル補正部１３ａを備えている。音声処理装置１０ａが動作するときの各種パラメータは、実施例２に対して最適化されている。

室ａにいる話者の音声に応じた振動が、室ａと室ｂの間の壁に伝わると、それを振動ピックアップ２ｂが検出する。この振動の検出信号（原信号）が音声処理装置１０ａに入力されると、ＥＯＭ処理部１２ａによりＥＯＭ信号が生成され、レベル補正部１３ａによるレベル補正を得た後に加振器２ｃに出力される。加振器２ｃは、ＥＯＭ信号に応じた振動を発生させる。この振動は、壁という媒体において、原信号に応じた振動と加算される。この結果、室ａから室ｂに対して壁を介して伝わる音声に含まれる情報が無意味化される。

以上の実施例２によれば、壁を伝わる音声（原信号）にＥＯＭ信号に応じた振動を、壁という媒体において加算することで、その音声（原信号）の特徴を希釈化し、その音声（原信号）に含まれる情報を無意味化することができる。

［実施例３］
実施例３では、機械の作動音の不快感を低減することを目的として、その作動音にＥＯＭ信号に応じた音声を加算する。図１１は、実施例３に係る音声処理システム１０１の構成を示すブロック図である。機械の作動音の発生源に近い位置に、スピーカ３ａとマイク３ｂが設けられている。スピーカ３ａ及びマイク３ｂはいずれも音声処理装置１０ｂに接続されている。音声処理装置１０ｂは実施例１で説明した音声処理装置１０が備えるのと同じＥＯＭ処理部１２ｂ及びレベル補正部１３ｂを備えている。音声処理装置１０ａが動作するときの各種パラメータは実施例３に対して最適化されている。

機械からの作動音がマイク３ｂにより収音され、その音声信号（原信号）が音声処理装置１０ｂに入力されると、ＥＯＭ処理部１２ｂによりＥＯＭ信号が生成され、レベル補正部１３ｂによるレベル補正を得た後にスピーカ３ａから放音される。この放音音声は、空間という媒体において、機械からの作動音に加算される。

以上の実施例３によれば、ＥＯＭ信号に応じた音声を、空間という媒体において、機械からの作動音（原信号）に加算することで、その作動音（原信号）の特徴を希釈化し、その作動音（原信号）から人間が感じる不快感を低減することができる。

［変形例］
上記の各実施例を次のように変形してもよい。
［変形例１］
音声処理装置の構成は上記実施例のものに限定されない。実施例１では、音声処理装置１０において、遅延させた原信号をＥＯＭ信号に加算していたが、この原信号に代えて、ＥＯＭ処理部１２における位相処理部１０３による位相処理が行われない信号に基づいて生成した信号を、ＥＯＭ信号に加算してもよい。即ち、原信号に代わる信号が、ＥＯＭ処理部１２で生成された包絡線信号と同じ包絡線信号を用いて生成された信号であるため、加算される両信号の各帯域の包絡線の位相の変更量の関係を、より正確に同期させることができる。図１２は、変形例１に係る音声処理装置１０ｄの構成を示すブロック図である。音声処理装置１０ｄは、入力端１１１ｄと、帯域分割部１０１ｄ及び包絡線生成部１０２ｄを含む包絡線処理部１００Ａと、位相処理部１０３ｄ、ホワイトノイズ発生部１０４ｄ、帯域分割部１０５ｄ、キャリア生成部１０６ｄ、乗算部１０７ｄ、帯域合計部１０８ｄおよびレベル補正部１１０ｄを含むＥＯＭ処理部１００Ｂと、遅延部１２０ｄ、ホワイトノイズ発生部１２１ｄ、帯域分割部１２２ｄ、キャリア生成部１２３ｄ、乗算部１２４ｄ、帯域合計部１１６ｄを含む遅延処理部１００Ｃと、加算部１３０ｄと、出力端１１２ｄとを備えている。

帯域分割部１０１ｄは、原信号である音声信号が入力されると、その原信号を、例えば１２５Ｈｚから８ｋＨｚまでの周波数の範囲内で１／４オクターブ幅の２５個の帯域に分割する。ただし、この帯域幅や分割数は例示であって、必ずしもこの数値に限定されるものではない。次に、包絡線生成部１０２ｄは、それぞれの周波数帯域の原信号に対してＨｉｌｂｅｒｔ変換処理を施し、これによって得られた信号波形の包絡線を生成する。包絡線生成部１０２ｄによって生成された包絡線を示す信号が、位相処理部１０３ｄ及び遅延部１２０ｄに入力される。位相処理部１０３ｄは、この包絡線の位相をπ／２（ｒａｄ）だけ変更する。

ホワイトノイズ発生部１０４ｄはホワイトノイズ信号を発生する。帯域分割部１０５ｄは、ホワイトノイズ信号が入力されると、そのホワイトノイズ信号を、例えば１２５Ｈｚから８ｋＨｚまでの周波数の範囲内で１／４オクターブ幅の２５個の帯域に分割する。この帯域幅や分割数は例示であって、必ずしもこの数値に限定されるものではないが、原信号に対する帯域幅や分割数と同じである。このホワイトノイズ信号はキャリア信号として用いられるが、キャリア信号は、このようなホワイトノイズ信号でなくても、原信号と無相関な信号であればよい。キャリア生成部１０６ｄは、それぞれの周波数帯域のホワイトノイズ信号に対してＨｉｌｂｅｒｔ変換処理を施し、キャリア信号を生成する。乗算部１０７ｄは、位相処理部１０３ｄから出力される値と、キャリア生成部１０６ｄから出力される値とを各時間で帯域ごとに乗算する。帯域合計部１０８ｄは、各帯域で得られた信号を合わせて全帯域の信号（ＥＯＭ信号）を得てレベル補正部１１０ｄに入力する。レベル補正部１１０ｄは、ＥＯＭ信号のレベルを補正して加算部１３０ｄに入力する。

遅延部１２０ｄは、包絡線生成部１０２ｄから包絡線の信号を、その信号が位相処理部１０３ｄに入力されて位相処理部１０３ｄによる処理が終わるまでの時間に相当する時間だけ遅延させて、乗算部１２４ｄに入力する。

ホワイトノイズ発生部１２１ｄはホワイトノイズ信号を発生する。帯域分割部１２２ｄは、ホワイトノイズ信号が入力されると、そのホワイトノイズ信号を、例えば１２５Ｈｚから８ｋＨｚまでの周波数の範囲内で１／４オクターブ幅の２５個の帯域に分割する。この帯域幅や分割数は例示であって、必ずしもこの数値に限定されるものではないが、原信号に対する帯域幅や分割数と同じである。このホワイトノイズ信号はキャリア信号して用いられるが、キャリア信号は、ホワイトノイズ信号でなくても、ホワイトノイズ発生部１０４ｄが発生させるホワイトノイズ信号と無相関なキャリア信号であればよい。キャリア生成部１２３ｄは、それぞれの周波数帯域のホワイトノイズ信号に対してＨｉｌｂｅｒｔ変換処理を施し、キャリア信号を生成する。乗算部１２４ｄは、遅延部１２０ｄから出力される値と、キャリア生成部１２３ｄから出力される値とを各時間で帯域ごとに乗算する。帯域合計部１１６ｄは、各帯域で得られた信号を合わせて全帯域の信号を得て出力する。

加算部１３０ｄは、レベル補正部１１０ｄから入力されるＥＯＭ信号と、帯域合計部１１６ｄから入力される原信号とを加算して出力する。

［変形例２］
上記の各実施例では、包絡線の位相の変更量はπ／２（ｒａｄ）という固定値であったが、包絡線の位相の変更量はこれに限らず、任意の変更量を例えばユーザが指定できるようにしてもよい。具体的には、音声処理装置が、例えばユーザの操作を受付ける操作部などで構成された、包絡線の位相の変更量を指定する指定手段を備え、ＥＯＭ処理部は、包絡線の位相を指定された変更量だけ変更する。変更可能な量は、π／２（ｒａｄ）を含む所定の範囲に設定してもよい。即ち、包絡線の位相の変更量がπ／２（ｒａｄ）に近いほど、原信号の音声波形の包絡線と、位相が変更された包絡線との相互相関係数が０に近づくから、例えばユーザは、原信号に含まれる情報の秘匿度や不快感の低減度が高いほどπ／２（ｒａｄ）に近い位相変更量を指定すればよい。一方、原信号に含まれる情報の秘匿度や不快感の低減度として、会話していることさえ判別不能にしたいとか、不快感を最大限小さくしたいというほどの高いレベルが要求されず何らかの会話がなされていること（会話の雰囲気）を伝えたいとか、不快感を少しだけ小さくしたいという場合には、π／２（ｒａｄ）から少し離れた位相の変更量を指定すればよい。

［変形例３］
実施例１において、音声処理装置１０の位相処理部は、位相を変更した複数の音声信号を生成し、これら複数の音声信号を加算することで、ＥＯＭ信号（マスカー音）を生成するようにしてもよい。具体的には、位相処理部は、生成された包絡線の位相を変更して、それぞれ異なる変更量で位相（例えばπ／２とπ／４）が変更された複数の音声信号を生成する。次に、位相処理部は、生成した複数の音声信号を加算して、ＥＯＭ信号を生成する。このＥＯＭ信号を原信号に対して、電気信号として又は伝搬媒体において音波として加算することで、原信号（原音声）を情報が無意味化された信号（音声）又は不快感が低減された信号（音声）に変換される。このように複数のＥＯＭ信号を用いてマスキングすると、原信号の音声の特徴量がより希釈化される。

［変形例４］
音声処理装置１０は複数のキャリア信号を用いてもよい。具体的には、図４のステップＳ１１において、キャリア生成部１２６は、原信号と無相関な信号から、それぞれ異なる複数のキャリア信号を生成する。このとき、キャリア生成部１２６は、原信号と無相関な１つの信号から、それぞれ異なる複数のキャリア信号を生成してもよいし、原信号と無相関で相異なる複数の信号から、それぞれ異なる複数のキャリア信号を生成してもよい。そして、ステップＳ１２において、乗算部１２７は、ステップＳ８で得られた値と、ステップＳ１１で得られた複数のキャリア信号の各値とを各時間で帯域ごとに乗算し、ステップＳ１３において、帯域合計部１２８は、各帯域で得られた信号を合わせて全帯域の信号（ＥＯＭ信号）を得る。

［変形例５］
実施例１においては、音声処理装置１０は、原信号（マスキングのターゲットとなる音声信号）を帯域分割し、帯域分割した音声信号から得た包絡線の位相をπ／２（ｒａｄ）だけ変更していた。つまり、包絡線の位相特性において、帯域分割後の各周波数帯域においてそれぞれ位相を変更（或いは、音声の特徴を有する特定の周波数帯域において位相を変更）していた。
これに対し、音声処理装置１０は、実施例のような帯域分割せずに、原信号そのものから直接、包絡線を生成し、この包絡線の位相をπ／２（ｒａｄ）だけ変更してもよい。即ち、包絡線の位相特性において、その周波数帯域の違いに注目せずに、全手の周波数帯域で一様に位相をπ／２（ｒａｄ）だけ変更する。

［変形例６］
本発明は、図４に示した音声処理方法や、この音声処理方法をコンピュータに実行させるためのプログラムといった形態でも実施が可能である。かかるプログラムは、光ディスク等の記録媒体に記録した形態で提供されたり、インターネット等のネットワークを介して、コンピュータにダウンロードさせ、これをインストールして利用可能にするなどの形態で提供されたりすることが可能である。

１，１００，１０１…音声処理システム、１ａ，３ｂ…マイク、２ａ，３ａ…スピーカ、２ｂ…振動ピックアップ、２ｃ…加振器、１０，１０ａ，１０ｂ，１０ｄ…音声処理装置、１１，１２０ｄ…遅延部、１２，１２ａ，１２ｂ…ＥＯＭ処理部、１３，１３ａ，１３ｂ，１１０ｄ…レベル補正部、１４，１３０ｄ…加算部、２０…機械、１２１，１０１ｄ，１０５ｄ，１２２ｄ…帯域分割部、１２２，１０２ｄ…包絡線生成部、１２３，１０３ｄ…位相処理部、１２４，１０４ｄ，１２１ｄ…ホワイトノイズ発生部、１２６，１０６ｄ，１２３ｄ…キャリア生成部、１２７，１０７ｄ，１２４ｄ…乗算部、１２８，１０８ｄ，１１６ｄ…帯域合計部。

Claims

マスキングのターゲットとなる音声信号を取得する音声信号取得手段と、
取得された前記音声信号の包絡線を生成する包絡線生成手段と、
生成された前記包絡線の位相を変更して、マスカー音の音声信号を生成する位相処理手段と
を備える音声処理装置。
取得された前記音声信号と、生成された前記マスカー音の音声信号とを加算する加算手段を備える請求項１記載の音声処理装置。
前記位相処理手段は前記包絡線の位相をπ／２（ｒａｄ）変更する
請求項１又は２に記載の音声処理装置。
取得された前記音声信号と無相関の信号からキャリア信号を生成するキャリア生成手段を備え、
前記位相処理手段は、位相を変更した前記包絡線と前記キャリア信号とを乗算して、前記マスカー音の音声信号を生成する
請求項１〜３のいずれか１項に記載の音声処理装置。
前記位相処理手段による前記包絡線の位相の変更量を指定する指定手段を備え、
前記位相処理手段は前記包絡線の位相を指定された変更量だけ変更する
請求項１，２，４のいずれか１項に記載の音声処理装置。
前記位相処理手段は、生成された前記包絡線の位相を変更して、それぞれ異なる変更量で位相が変更された複数の音声信号を生成し、当該複数の音声信号を加算することによって、前記マスカー音の音声信号を生成する
請求項１，２，４，５のいずれか１項に記載の音声処理装置。
前記キャリア生成手段は、取得された前記音声信号と無相関の信号から、それぞれ異なる複数のキャリア信号を生成し、
前記位相処理手段は、位相を変更した前記包絡線と前記複数のキャリア信号の各々とを乗算し、前記乗算した結果を加算して、前記マスカー音の音声信号を生成する
請求項４に記載の音声処理装置。
マスキングのターゲットとなる音声信号を取得する音声信号取得ステップと、
取得された前記音声信号の包絡線を生成する包絡線生成ステップと、
生成された前記包絡線の位相を変更して、マスカー音の音声信号を生成するマスカー音生成ステップと
を備える音声処理方法。
コンピュータに、
マスキングのターゲットとなる音声信号を取得する音声信号取得ステップと、
取得された前記音声信号の包絡線を生成する包絡線生成ステップと、
生成された前記包絡線の位相を変更して、マスカー音の音声信号を生成するマスカー音生成ステップと
を実行させるためのプログラム。