JP2015022252A - 音声処理装置、音声処理方法およびプログラム - Google Patents
音声処理装置、音声処理方法およびプログラム Download PDFInfo
- Publication number
- JP2015022252A JP2015022252A JP2013152307A JP2013152307A JP2015022252A JP 2015022252 A JP2015022252 A JP 2015022252A JP 2013152307 A JP2013152307 A JP 2013152307A JP 2013152307 A JP2013152307 A JP 2013152307A JP 2015022252 A JP2015022252 A JP 2015022252A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- envelope
- phase
- sound
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
【課題】ターゲットとなる音声に含まれる情報を無意味化したり、また、その音から感じる不快感を低減したりするために、ターゲットとなる音声の特徴を希釈化する。【解決手段】包絡線生成部122は、それぞれの周波数帯域の原信号に対してHilbert変換処理を施し、これによって得られた信号波形の包絡線を生成する。次に、位相処理部123は、原信号の包絡線の位相をπ/2(rad)変更する。ホワイトノイズ発生部124は、いわゆるホワイトノイズ信号を発生する。キャリア生成部126は、それぞれの周波数帯域のホワイトノイズ信号に対してHilbert変換処理を施し、キャリア信号を生成する。乗算部127は、位相をπ/2(rad)ずらした包絡線とキャリア信号とを各時間で帯域ごとに乗算する。帯域合計部128は、各帯域で得られた信号を合わせて全帯域の信号(EOM信号)を得て出力する。【選択図】図4
Description
本発明は音声をマスキングするための音声処理技術に関する。
秘匿すべき会話の内容や不快な機器作動音をマスキングするための音声処理技術が知られている(特許文献1〜3)。
本発明は、ターゲットとなる音声に含まれる情報を無意味化したり、また、その音から感じる不快感を低減したりするために、ターゲットとなる音声の特徴を希釈化することを目的とする。
上記課題を解決するため、本発明は、マスキングのターゲットとなる音声信号を取得する音声信号取得手段と、取得された前記音声信号の包絡線を生成する包絡線生成手段と、生成された前記包絡線の位相を変更して、マスカー音の音声信号を生成する位相処理手段とを備える音声処理装置を提供する。
取得された前記音声信号と、生成された前記マスカー音の音声信号とを加算する加算手段を備えてもよい。
前記位相処理手段は前記包絡線の位相をπ/2(rad)変更するようにしてもよい。
取得された前記音声信号と無相関の信号からキャリア信号を生成するキャリア生成手段を備え、前記位相処理手段は、位相を変更した前記包絡線と前記キャリア信号とを乗算して、前記マスカー音の音声信号を生成するようにしてもよい。
前記位相処理手段による前記包絡線の位相の変更量を指定する指定手段を備え、前記位相処理手段は前記包絡線の位相を指定された変更量だけ変更するようにしてもよい。
前記位相処理手段は、生成された前記包絡線の位相を変更して、それぞれ異なる変更量で位相が変更された複数のマスカー音の音声信号を生成し、さらに、生成された前記複数のマスカー音の音声信号を加算するマスカー音加算手段を備えてもよい。
前記キャリア生成手段は、取得された前記音声信号と無相関の信号から、それぞれ異なる複数のキャリア信号を生成し、前記位相処理手段は、位相を変更した前記包絡線と前記複数のキャリア信号の各々とを乗算し、前記乗算した結果を加算して、前記マスカー音の音声信号を生成するようにしてもよい。
また、本発明は、マスキングのターゲットとなる音声信号を取得する音声信号取得ステップと、取得された前記音声信号の包絡線を生成する包絡線生成ステップと、生成された前記包絡線の位相を変更して、マスカー音の音声信号を生成するマスカー音生成ステップとを備える音声処理方法を提供する。
また、本発明は、コンピュータに、マスキングのターゲットとなる音声信号を取得する音声信号取得ステップと、取得された前記音声信号の包絡線を生成する包絡線生成ステップと、生成された前記包絡線の位相を変更して、マスカー音の音声信号を生成するマスカー音生成ステップとを実行させるためのプログラムを提供する。
本発明によれば、ターゲットとなる音声の特徴を希釈化することが可能となる。
[音声処理の原理]
本発明に係る音声処理の原理は、マスキングのターゲットとなる音声信号(以下、原信号という)の特徴を希釈化して定常的な波形の音声信号に近づけることで、原信号を、例えば情報が無意味化された信号又は不快感が低減された信号に変換する、というものである。具体的には、原信号の音声波形の包絡線を求め、その包絡線の位相をπ/2(rad)だけ変更した信号を生成する。この信号は、マスカー音の音声信号であり、以下では、直交化包絡線マスカー信号(Envelope Orthogonalized Masker信号、EOM信号)と呼ぶ。包絡線の類似度は、包絡線間の相互相関係数によって評価することができる。原信号の音声波形の包絡線と、その包絡線の位相をπ/2(rad)だけ変更した信号(EOM信号)とは、相互相関係数が各周波数帯域においてほぼ0の関係である。包絡線の相関に基づき音声の了解度を評価する場合には、入力信号及び出力信号の包絡線の類似度が下がれば了解度も低下すると考えられる。そして、このEOM信号を原信号に対して、電気信号として又は伝搬媒体において音波として加算することで、原信号(原音声)の特徴を希釈化し、これにより、原信号(原音声)を情報が無意味化された信号(音声)又は不快感が低減された信号(音声)となる。
本発明に係る音声処理の原理は、マスキングのターゲットとなる音声信号(以下、原信号という)の特徴を希釈化して定常的な波形の音声信号に近づけることで、原信号を、例えば情報が無意味化された信号又は不快感が低減された信号に変換する、というものである。具体的には、原信号の音声波形の包絡線を求め、その包絡線の位相をπ/2(rad)だけ変更した信号を生成する。この信号は、マスカー音の音声信号であり、以下では、直交化包絡線マスカー信号(Envelope Orthogonalized Masker信号、EOM信号)と呼ぶ。包絡線の類似度は、包絡線間の相互相関係数によって評価することができる。原信号の音声波形の包絡線と、その包絡線の位相をπ/2(rad)だけ変更した信号(EOM信号)とは、相互相関係数が各周波数帯域においてほぼ0の関係である。包絡線の相関に基づき音声の了解度を評価する場合には、入力信号及び出力信号の包絡線の類似度が下がれば了解度も低下すると考えられる。そして、このEOM信号を原信号に対して、電気信号として又は伝搬媒体において音波として加算することで、原信号(原音声)の特徴を希釈化し、これにより、原信号(原音声)を情報が無意味化された信号(音声)又は不快感が低減された信号(音声)となる。
一般に、原信号の音声波形を時間軸上で逆転させることでマスカー信号を生成する手法が知られている。この場合、原信号とマスカー信号とでは包絡線も時間軸上で逆転する。その結果、例えばi番目の周波数帯域の包絡線の位相角θiは、時間軸上の逆転によって?θiへ変化する(複素共役スペクトルの関係となる)。したがって、原信号とマスカー信号との包絡線間の相互相関係数はcos2θiとなり、包絡線間の相互相関係数が各周波数帯域において必ずしも0とはならない。
上記の原理の具体的な適用例として、以下では実施例1〜3について説明する。
[実施例1]
実施例1では、遠隔地に居る者どうしが利用する会議システムや、遠隔地に居る対象者を監視又は見守る見守りシステム等において、情報の秘匿やプライバシーの保護を目的として、話者の発音音声の内容を聴取者には伝えないようにする。図1は、実施例1に係る音声処理システム1の構成を示すブロック図である。話者が居る室Aと聴取者が居る室Bとは、話者の声が届かない程度以上に遠く離れている。室Aにはマイク1aが設けられ、室Bにはスピーカ2aが設けられている。マイク1a及びスピーカ2aはいずれも、通信回線を介して音声処理装置10に接続されている。室Aにおいて話者の発音音声はマイク1aによって収音され、音声処理装置10によるマスキング処理を経て、スピーカ2aから放音される。
[実施例1]
実施例1では、遠隔地に居る者どうしが利用する会議システムや、遠隔地に居る対象者を監視又は見守る見守りシステム等において、情報の秘匿やプライバシーの保護を目的として、話者の発音音声の内容を聴取者には伝えないようにする。図1は、実施例1に係る音声処理システム1の構成を示すブロック図である。話者が居る室Aと聴取者が居る室Bとは、話者の声が届かない程度以上に遠く離れている。室Aにはマイク1aが設けられ、室Bにはスピーカ2aが設けられている。マイク1a及びスピーカ2aはいずれも、通信回線を介して音声処理装置10に接続されている。室Aにおいて話者の発音音声はマイク1aによって収音され、音声処理装置10によるマスキング処理を経て、スピーカ2aから放音される。
図2は、音声処理装置10の構成を示すブロック図である。音声処理装置10は、入力端111と、遅延部11と、EOM処理部12と、レベル補正部13と、加算部14と、出力端112とを備えている。マイク1aから入力された原信号は、入力端111(音声信号取得手段を構成)によって取得され、遅延部11とEOM処理部12とにそれぞれ入力される。EOM処理部12は上述したEOM信号を生成する。レベル補正部13は、EOM処理部12から出力されるEOM信号のレベルを補正して加算部14に入力する。遅延部11は、マイク1aから入力された原信号を、EOM処理部12およびレベル補正部13によるEOM信号の生成処理に要する時間に相当する時間だけ遅延させて、加算部14に入力する。加算部14(加算手段を構成)は、EOM処理部12から入力されるEOM信号と、遅延部11から入力される原信号とを加算して出力する。スピーカ2aからは、EOM信号と原信号とが加算された結果の信号の値に応じた音声が放音される。この放音される音声においては、原信号の音声がマスキングされることで、その音声に含まれる情報が無意味化されている。
図3は、EOM処理部12の構成を示すブロック図であり、図4は、EOM処理部12の動作を示すフローチャートである。図3に示すように、EOM処理部は、帯域分割部121と、包絡線生成部122と、位相処理部123と、ホワイトノイズ発生部124と、帯域分割部125と、キャリア生成部126と、乗算部127と、帯域合計部128とを備えている。
帯域分割部121は、原信号である音声信号が入力されると(図4:ステップS1)、その原信号を、例えば125Hzから8kHzまでの周波数の範囲内で1/4オクターブ幅の25個の帯域に分割する(ステップS2)。ただし、この帯域幅や分割数は例示であって、必ずしもこの数値に限定されるものではなく、例えば、音声の特徴を有する主要な周波数帯域の帯域幅を採用してもよい。
次に、包絡線生成部122(包絡線生成部を構成)は、それぞれの周波数帯域の原信号に対してHilbert変換処理を施し、これによって得られた信号波形の包絡線を生成する(ステップS3)。
次に、位相処理部123(位相処理手段を構成)は、原信号の包絡線の位相をπ/2(rad)だけ変更する。具体的には、位相処理部123は、原信号の包絡線に対して高速フーリエ変換処理(FFT)を施し(ステップS4)、得られた値の正側に虚数を乗算し(ステップS5)、負側を0で埋め(ステップS6)、さらに逆変換処理(IFFT)を施して(ステップS7)、実部を出力する(ステップS8)。
一方、ホワイトノイズ発生部124は、いわゆるホワイトノイズ信号を発生する。帯域分割部125は、ホワイトノイズ信号が入力されると(ステップS9)、そのホワイトノイズ信号を、125Hzから8kHzまでの周波数の範囲内で1/4オクターブ幅の25個の帯域に分割する(ステップS10)。この帯域幅や分割数は例示であって、必ずしもこの数値に限定されるものではないが、原信号に対する帯域幅や分割数と同じである。
キャリア生成部126は、それぞれの周波数帯域のホワイトノイズ信号に対してHilbert変換処理を施し、キャリア信号を生成する(ステップS11)。なお、ホワイトノイズ信号でなくても、原信号と無相関な音声信号からキャリア信号を生成すればよい。
生成
生成
次に、乗算部127(位相処理手段を構成)は、ステップS8で得られた値と、ステップS11で得られた値とを各時間で帯域ごとに乗算する(ステップS12)。帯域合計部128(位相処理手段を構成)は、各帯域で得られた信号を合わせて全帯域の信号(EOM信号)を得て出力する(ステップS13)。
ここで、上記の処理における原理的な作用を、変調ノイズに対する処理の例で説明する。図5は、ノイズを或る周波数で振幅変調した音声信号の波形の例である。図6は、図5の音声信号を用いて、変調周波数の包絡線に対してπ/2(rad)だけ位相を変更して生成したEOM信号の波形の例である。図7は、図5の音声信号と図6のEOM信号とを加算した図である。図7と図5とを対比すると、図7では、図5に示した原信号の音声の特徴が希釈化されて定常的な波形に近づいている(つまり原信号の包絡線の位相特性が変化している)ことが分かる。ここでいう、希釈化とは、ターゲットとなる音声の包絡線において、その音声に関する特徴量を低下させることである。特徴量とは、音声に含まれる情報の情報量、エントロピー又は冗長度などである。音声に関する特徴量を低下させるとは、上記のような特徴量を平準化したり、ランダム化したり、又は一般化することである。
また、図8は、原信号の包絡線の波形w1と、その位相をπ/2(rad)変更した包絡線の波形w2とを例示した図である。また、図9は、包絡線の波形w1を二乗した波形w1aと、包絡線の波形w2を二乗した波形w2aと、さらに波形w1aと波形w2aを加算した波形w3を図示している。音声波形の包絡線の二乗値はその音声のエネルギーに相当するから、波形w3は、原信号の包絡線とその位相をπ/2変更した包絡線をエネルギー的に足し合わせたことを意味する。波形w3においては、もともとの原信号の包絡線の波形の特徴が失われており、包絡線が定常化されていることが分かる。
以上の実施例1によれば、通信回線を伝送される音声信号にマスキング音を付加することで原信号(音声信号)の音声の特徴を希釈化し、原信号(音声信号)に含まれる情報を無意味化することができる。
[実施例2]
実施例2では、或る室での会話を、その室に隣り合う又は近くにある室に漏洩することを防ぐために、話者の発音に含まれる情報を無意味化する。図10は、実施例2に係る音声処理システム100の構成を示すブロック図である。図10は、話者が居る室aと聴取者が居る室bとが隣り合う例である。室aと室bを隔てる壁の室bの側には、振動ピックアップ2bが設けられ、さらにその壁の室Bの側には、加振器2cが設けられている。振動ピックアップ2b及び加振器2cはいずれも音声処理装置10aに接続されている。音声処理装置10aは実施例1で説明した音声処理装置10が備えるのと同じEOM処理部12a及びレベル補正部13aを備えている。音声処理装置10aが動作するときの各種パラメータは、実施例2に対して最適化されている。
実施例2では、或る室での会話を、その室に隣り合う又は近くにある室に漏洩することを防ぐために、話者の発音に含まれる情報を無意味化する。図10は、実施例2に係る音声処理システム100の構成を示すブロック図である。図10は、話者が居る室aと聴取者が居る室bとが隣り合う例である。室aと室bを隔てる壁の室bの側には、振動ピックアップ2bが設けられ、さらにその壁の室Bの側には、加振器2cが設けられている。振動ピックアップ2b及び加振器2cはいずれも音声処理装置10aに接続されている。音声処理装置10aは実施例1で説明した音声処理装置10が備えるのと同じEOM処理部12a及びレベル補正部13aを備えている。音声処理装置10aが動作するときの各種パラメータは、実施例2に対して最適化されている。
室aにいる話者の音声に応じた振動が、室aと室bの間の壁に伝わると、それを振動ピックアップ2bが検出する。この振動の検出信号(原信号)が音声処理装置10aに入力されると、EOM処理部12aによりEOM信号が生成され、レベル補正部13aによるレベル補正を得た後に加振器2cに出力される。加振器2cは、EOM信号に応じた振動を発生させる。この振動は、壁という媒体において、原信号に応じた振動と加算される。この結果、室aから室bに対して壁を介して伝わる音声に含まれる情報が無意味化される。
以上の実施例2によれば、壁を伝わる音声(原信号)にEOM信号に応じた振動を、壁という媒体において加算することで、その音声(原信号)の特徴を希釈化し、その音声(原信号)に含まれる情報を無意味化することができる。
[実施例3]
実施例3では、機械の作動音の不快感を低減することを目的として、その作動音にEOM信号に応じた音声を加算する。図11は、実施例3に係る音声処理システム101の構成を示すブロック図である。機械の作動音の発生源に近い位置に、スピーカ3aとマイク3bが設けられている。スピーカ3a及びマイク3bはいずれも音声処理装置10bに接続されている。音声処理装置10bは実施例1で説明した音声処理装置10が備えるのと同じEOM処理部12b及びレベル補正部13bを備えている。音声処理装置10aが動作するときの各種パラメータは実施例3に対して最適化されている。
実施例3では、機械の作動音の不快感を低減することを目的として、その作動音にEOM信号に応じた音声を加算する。図11は、実施例3に係る音声処理システム101の構成を示すブロック図である。機械の作動音の発生源に近い位置に、スピーカ3aとマイク3bが設けられている。スピーカ3a及びマイク3bはいずれも音声処理装置10bに接続されている。音声処理装置10bは実施例1で説明した音声処理装置10が備えるのと同じEOM処理部12b及びレベル補正部13bを備えている。音声処理装置10aが動作するときの各種パラメータは実施例3に対して最適化されている。
機械からの作動音がマイク3bにより収音され、その音声信号(原信号)が音声処理装置10bに入力されると、EOM処理部12bによりEOM信号が生成され、レベル補正部13bによるレベル補正を得た後にスピーカ3aから放音される。この放音音声は、空間という媒体において、機械からの作動音に加算される。
以上の実施例3によれば、EOM信号に応じた音声を、空間という媒体において、機械からの作動音(原信号)に加算することで、その作動音(原信号)の特徴を希釈化し、その作動音(原信号)から人間が感じる不快感を低減することができる。
[変形例]
上記の各実施例を次のように変形してもよい。
[変形例1]
音声処理装置の構成は上記実施例のものに限定されない。実施例1では、音声処理装置10において、遅延させた原信号をEOM信号に加算していたが、この原信号に代えて、EOM処理部12における位相処理部103による位相処理が行われない信号に基づいて生成した信号を、EOM信号に加算してもよい。即ち、原信号に代わる信号が、EOM処理部12で生成された包絡線信号と同じ包絡線信号を用いて生成された信号であるため、加算される両信号の各帯域の包絡線の位相の変更量の関係を、より正確に同期させることができる。図12は、変形例1に係る音声処理装置10dの構成を示すブロック図である。音声処理装置10dは、入力端111dと、帯域分割部101d及び包絡線生成部102dを含む包絡線処理部100Aと、位相処理部103d、ホワイトノイズ発生部104d、帯域分割部105d、キャリア生成部106d、乗算部107d、帯域合計部108dおよびレベル補正部110dを含むEOM処理部100Bと、遅延部120d、ホワイトノイズ発生部121d、帯域分割部122d、キャリア生成部123d、乗算部124d、帯域合計部116dを含む遅延処理部100Cと、加算部130dと、出力端112dとを備えている。
上記の各実施例を次のように変形してもよい。
[変形例1]
音声処理装置の構成は上記実施例のものに限定されない。実施例1では、音声処理装置10において、遅延させた原信号をEOM信号に加算していたが、この原信号に代えて、EOM処理部12における位相処理部103による位相処理が行われない信号に基づいて生成した信号を、EOM信号に加算してもよい。即ち、原信号に代わる信号が、EOM処理部12で生成された包絡線信号と同じ包絡線信号を用いて生成された信号であるため、加算される両信号の各帯域の包絡線の位相の変更量の関係を、より正確に同期させることができる。図12は、変形例1に係る音声処理装置10dの構成を示すブロック図である。音声処理装置10dは、入力端111dと、帯域分割部101d及び包絡線生成部102dを含む包絡線処理部100Aと、位相処理部103d、ホワイトノイズ発生部104d、帯域分割部105d、キャリア生成部106d、乗算部107d、帯域合計部108dおよびレベル補正部110dを含むEOM処理部100Bと、遅延部120d、ホワイトノイズ発生部121d、帯域分割部122d、キャリア生成部123d、乗算部124d、帯域合計部116dを含む遅延処理部100Cと、加算部130dと、出力端112dとを備えている。
帯域分割部101dは、原信号である音声信号が入力されると、その原信号を、例えば125Hzから8kHzまでの周波数の範囲内で1/4オクターブ幅の25個の帯域に分割する。ただし、この帯域幅や分割数は例示であって、必ずしもこの数値に限定されるものではない。次に、包絡線生成部102dは、それぞれの周波数帯域の原信号に対してHilbert変換処理を施し、これによって得られた信号波形の包絡線を生成する。包絡線生成部102dによって生成された包絡線を示す信号が、位相処理部103d及び遅延部120dに入力される。位相処理部103dは、この包絡線の位相をπ/2(rad)だけ変更する。
ホワイトノイズ発生部104dはホワイトノイズ信号を発生する。帯域分割部105dは、ホワイトノイズ信号が入力されると、そのホワイトノイズ信号を、例えば125Hzから8kHzまでの周波数の範囲内で1/4オクターブ幅の25個の帯域に分割する。この帯域幅や分割数は例示であって、必ずしもこの数値に限定されるものではないが、原信号に対する帯域幅や分割数と同じである。このホワイトノイズ信号はキャリア信号として用いられるが、キャリア信号は、このようなホワイトノイズ信号でなくても、原信号と無相関な信号であればよい。キャリア生成部106dは、それぞれの周波数帯域のホワイトノイズ信号に対してHilbert変換処理を施し、キャリア信号を生成する。乗算部107dは、位相処理部103dから出力される値と、キャリア生成部106dから出力される値とを各時間で帯域ごとに乗算する。帯域合計部108dは、各帯域で得られた信号を合わせて全帯域の信号(EOM信号)を得てレベル補正部110dに入力する。レベル補正部110dは、EOM信号のレベルを補正して加算部130dに入力する。
遅延部120dは、包絡線生成部102dから包絡線の信号を、その信号が位相処理部103dに入力されて位相処理部103dによる処理が終わるまでの時間に相当する時間だけ遅延させて、乗算部124dに入力する。
ホワイトノイズ発生部121dはホワイトノイズ信号を発生する。帯域分割部122dは、ホワイトノイズ信号が入力されると、そのホワイトノイズ信号を、例えば125Hzから8kHzまでの周波数の範囲内で1/4オクターブ幅の25個の帯域に分割する。この帯域幅や分割数は例示であって、必ずしもこの数値に限定されるものではないが、原信号に対する帯域幅や分割数と同じである。このホワイトノイズ信号はキャリア信号して用いられるが、キャリア信号は、ホワイトノイズ信号でなくても、ホワイトノイズ発生部104dが発生させるホワイトノイズ信号と無相関なキャリア信号であればよい。キャリア生成部123dは、それぞれの周波数帯域のホワイトノイズ信号に対してHilbert変換処理を施し、キャリア信号を生成する。乗算部124dは、遅延部120dから出力される値と、キャリア生成部123dから出力される値とを各時間で帯域ごとに乗算する。帯域合計部116dは、各帯域で得られた信号を合わせて全帯域の信号を得て出力する。
加算部130dは、レベル補正部110dから入力されるEOM信号と、帯域合計部116dから入力される原信号とを加算して出力する。
[変形例2]
上記の各実施例では、包絡線の位相の変更量はπ/2(rad)という固定値であったが、包絡線の位相の変更量はこれに限らず、任意の変更量を例えばユーザが指定できるようにしてもよい。具体的には、音声処理装置が、例えばユーザの操作を受付ける操作部などで構成された、包絡線の位相の変更量を指定する指定手段を備え、EOM処理部は、包絡線の位相を指定された変更量だけ変更する。変更可能な量は、π/2(rad)を含む所定の範囲に設定してもよい。即ち、包絡線の位相の変更量がπ/2(rad)に近いほど、原信号の音声波形の包絡線と、位相が変更された包絡線との相互相関係数が0に近づくから、例えばユーザは、原信号に含まれる情報の秘匿度や不快感の低減度が高いほどπ/2(rad)に近い位相変更量を指定すればよい。一方、原信号に含まれる情報の秘匿度や不快感の低減度として、会話していることさえ判別不能にしたいとか、不快感を最大限小さくしたいというほどの高いレベルが要求されず何らかの会話がなされていること(会話の雰囲気)を伝えたいとか、不快感を少しだけ小さくしたいという場合には、π/2(rad)から少し離れた位相の変更量を指定すればよい。
上記の各実施例では、包絡線の位相の変更量はπ/2(rad)という固定値であったが、包絡線の位相の変更量はこれに限らず、任意の変更量を例えばユーザが指定できるようにしてもよい。具体的には、音声処理装置が、例えばユーザの操作を受付ける操作部などで構成された、包絡線の位相の変更量を指定する指定手段を備え、EOM処理部は、包絡線の位相を指定された変更量だけ変更する。変更可能な量は、π/2(rad)を含む所定の範囲に設定してもよい。即ち、包絡線の位相の変更量がπ/2(rad)に近いほど、原信号の音声波形の包絡線と、位相が変更された包絡線との相互相関係数が0に近づくから、例えばユーザは、原信号に含まれる情報の秘匿度や不快感の低減度が高いほどπ/2(rad)に近い位相変更量を指定すればよい。一方、原信号に含まれる情報の秘匿度や不快感の低減度として、会話していることさえ判別不能にしたいとか、不快感を最大限小さくしたいというほどの高いレベルが要求されず何らかの会話がなされていること(会話の雰囲気)を伝えたいとか、不快感を少しだけ小さくしたいという場合には、π/2(rad)から少し離れた位相の変更量を指定すればよい。
[変形例3]
実施例1において、音声処理装置10の位相処理部は、位相を変更した複数の音声信号を生成し、これら複数の音声信号を加算することで、EOM信号(マスカー音)を生成するようにしてもよい。具体的には、位相処理部は、生成された包絡線の位相を変更して、それぞれ異なる変更量で位相(例えばπ/2とπ/4)が変更された複数の音声信号を生成する。次に、位相処理部は、生成した複数の音声信号を加算して、EOM信号を生成する。このEOM信号を原信号に対して、電気信号として又は伝搬媒体において音波として加算することで、原信号(原音声)を情報が無意味化された信号(音声)又は不快感が低減された信号(音声)に変換される。このように複数のEOM信号を用いてマスキングすると、原信号の音声の特徴量がより希釈化される。
実施例1において、音声処理装置10の位相処理部は、位相を変更した複数の音声信号を生成し、これら複数の音声信号を加算することで、EOM信号(マスカー音)を生成するようにしてもよい。具体的には、位相処理部は、生成された包絡線の位相を変更して、それぞれ異なる変更量で位相(例えばπ/2とπ/4)が変更された複数の音声信号を生成する。次に、位相処理部は、生成した複数の音声信号を加算して、EOM信号を生成する。このEOM信号を原信号に対して、電気信号として又は伝搬媒体において音波として加算することで、原信号(原音声)を情報が無意味化された信号(音声)又は不快感が低減された信号(音声)に変換される。このように複数のEOM信号を用いてマスキングすると、原信号の音声の特徴量がより希釈化される。
[変形例4]
音声処理装置10は複数のキャリア信号を用いてもよい。具体的には、図4のステップS11において、キャリア生成部126は、原信号と無相関な信号から、それぞれ異なる複数のキャリア信号を生成する。このとき、キャリア生成部126は、原信号と無相関な1つの信号から、それぞれ異なる複数のキャリア信号を生成してもよいし、原信号と無相関で相異なる複数の信号から、それぞれ異なる複数のキャリア信号を生成してもよい。そして、ステップS12において、乗算部127は、ステップS8で得られた値と、ステップS11で得られた複数のキャリア信号の各値とを各時間で帯域ごとに乗算し、ステップS13において、帯域合計部128は、各帯域で得られた信号を合わせて全帯域の信号(EOM信号)を得る。
音声処理装置10は複数のキャリア信号を用いてもよい。具体的には、図4のステップS11において、キャリア生成部126は、原信号と無相関な信号から、それぞれ異なる複数のキャリア信号を生成する。このとき、キャリア生成部126は、原信号と無相関な1つの信号から、それぞれ異なる複数のキャリア信号を生成してもよいし、原信号と無相関で相異なる複数の信号から、それぞれ異なる複数のキャリア信号を生成してもよい。そして、ステップS12において、乗算部127は、ステップS8で得られた値と、ステップS11で得られた複数のキャリア信号の各値とを各時間で帯域ごとに乗算し、ステップS13において、帯域合計部128は、各帯域で得られた信号を合わせて全帯域の信号(EOM信号)を得る。
[変形例5]
実施例1においては、音声処理装置10は、原信号(マスキングのターゲットとなる音声信号)を帯域分割し、帯域分割した音声信号から得た包絡線の位相をπ/2(rad)だけ変更していた。つまり、包絡線の位相特性において、帯域分割後の各周波数帯域においてそれぞれ位相を変更(或いは、音声の特徴を有する特定の周波数帯域において位相を変更)していた。
これに対し、音声処理装置10は、実施例のような帯域分割せずに、原信号そのものから直接、包絡線を生成し、この包絡線の位相をπ/2(rad)だけ変更してもよい。即ち、包絡線の位相特性において、その周波数帯域の違いに注目せずに、全手の周波数帯域で一様に位相をπ/2(rad)だけ変更する。
実施例1においては、音声処理装置10は、原信号(マスキングのターゲットとなる音声信号)を帯域分割し、帯域分割した音声信号から得た包絡線の位相をπ/2(rad)だけ変更していた。つまり、包絡線の位相特性において、帯域分割後の各周波数帯域においてそれぞれ位相を変更(或いは、音声の特徴を有する特定の周波数帯域において位相を変更)していた。
これに対し、音声処理装置10は、実施例のような帯域分割せずに、原信号そのものから直接、包絡線を生成し、この包絡線の位相をπ/2(rad)だけ変更してもよい。即ち、包絡線の位相特性において、その周波数帯域の違いに注目せずに、全手の周波数帯域で一様に位相をπ/2(rad)だけ変更する。
[変形例6]
本発明は、図4に示した音声処理方法や、この音声処理方法をコンピュータに実行させるためのプログラムといった形態でも実施が可能である。かかるプログラムは、光ディスク等の記録媒体に記録した形態で提供されたり、インターネット等のネットワークを介して、コンピュータにダウンロードさせ、これをインストールして利用可能にするなどの形態で提供されたりすることが可能である。
本発明は、図4に示した音声処理方法や、この音声処理方法をコンピュータに実行させるためのプログラムといった形態でも実施が可能である。かかるプログラムは、光ディスク等の記録媒体に記録した形態で提供されたり、インターネット等のネットワークを介して、コンピュータにダウンロードさせ、これをインストールして利用可能にするなどの形態で提供されたりすることが可能である。
1,100,101…音声処理システム、1a,3b…マイク、2a,3a…スピーカ、2b…振動ピックアップ、2c…加振器、10,10a,10b,10d…音声処理装置、11,120d…遅延部、12,12a,12b…EOM処理部、13,13a,13b,110d…レベル補正部、14,130d…加算部、20…機械、121,101d,105d,122d…帯域分割部、122,102d…包絡線生成部、123,103d…位相処理部、124,104d,121d…ホワイトノイズ発生部、126,106d,123d…キャリア生成部、127,107d,124d…乗算部、128,108d,116d…帯域合計部。
Claims (9)
- マスキングのターゲットとなる音声信号を取得する音声信号取得手段と、
取得された前記音声信号の包絡線を生成する包絡線生成手段と、
生成された前記包絡線の位相を変更して、マスカー音の音声信号を生成する位相処理手段と
を備える音声処理装置。 - 取得された前記音声信号と、生成された前記マスカー音の音声信号とを加算する加算手段を備える請求項1記載の音声処理装置。
- 前記位相処理手段は前記包絡線の位相をπ/2(rad)変更する
請求項1又は2に記載の音声処理装置。 - 取得された前記音声信号と無相関の信号からキャリア信号を生成するキャリア生成手段を備え、
前記位相処理手段は、位相を変更した前記包絡線と前記キャリア信号とを乗算して、前記マスカー音の音声信号を生成する
請求項1〜3のいずれか1項に記載の音声処理装置。 - 前記位相処理手段による前記包絡線の位相の変更量を指定する指定手段を備え、
前記位相処理手段は前記包絡線の位相を指定された変更量だけ変更する
請求項1,2,4のいずれか1項に記載の音声処理装置。 - 前記位相処理手段は、生成された前記包絡線の位相を変更して、それぞれ異なる変更量で位相が変更された複数の音声信号を生成し、当該複数の音声信号を加算することによって、前記マスカー音の音声信号を生成する
請求項1,2,4,5のいずれか1項に記載の音声処理装置。 - 前記キャリア生成手段は、取得された前記音声信号と無相関の信号から、それぞれ異なる複数のキャリア信号を生成し、
前記位相処理手段は、位相を変更した前記包絡線と前記複数のキャリア信号の各々とを乗算し、前記乗算した結果を加算して、前記マスカー音の音声信号を生成する
請求項4に記載の音声処理装置。 - マスキングのターゲットとなる音声信号を取得する音声信号取得ステップと、
取得された前記音声信号の包絡線を生成する包絡線生成ステップと、
生成された前記包絡線の位相を変更して、マスカー音の音声信号を生成するマスカー音生成ステップと
を備える音声処理方法。 - コンピュータに、
マスキングのターゲットとなる音声信号を取得する音声信号取得ステップと、
取得された前記音声信号の包絡線を生成する包絡線生成ステップと、
生成された前記包絡線の位相を変更して、マスカー音の音声信号を生成するマスカー音生成ステップと
を実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013152307A JP2015022252A (ja) | 2013-07-23 | 2013-07-23 | 音声処理装置、音声処理方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013152307A JP2015022252A (ja) | 2013-07-23 | 2013-07-23 | 音声処理装置、音声処理方法およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2015022252A true JP2015022252A (ja) | 2015-02-02 |
Family
ID=52486723
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013152307A Pending JP2015022252A (ja) | 2013-07-23 | 2013-07-23 | 音声処理装置、音声処理方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2015022252A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3540912A1 (en) | 2015-02-06 | 2019-09-18 | IHI Corporation | Wireless power-supplying system |
-
2013
- 2013-07-23 JP JP2013152307A patent/JP2015022252A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3540912A1 (en) | 2015-02-06 | 2019-09-18 | IHI Corporation | Wireless power-supplying system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7761292B2 (en) | Method and apparatus for disturbing the radiated voice signal by attenuation and masking | |
JP6703525B2 (ja) | 音源を強調するための方法及び機器 | |
US9589573B2 (en) | Wind noise reduction | |
US8615394B1 (en) | Restoration of noise-reduced speech | |
US20070055513A1 (en) | Method, medium, and system masking audio signals using voice formant information | |
JP6280983B2 (ja) | 信号対ダウンミックス比に基づいたセンター信号スケーリング及び立体音響強調のための装置及び方法 | |
US20120093338A1 (en) | System and method for spatial noise suppression based on phase information | |
JP2008519491A5 (ja) | ||
JP2013527727A (ja) | 音響処理システム及び方法 | |
Mu et al. | A psychoacoustic bass enhancement system with improved transient and steady-state performance | |
JP2007243709A (ja) | 利得調整方法及び利得調整装置 | |
JPWO2015125191A1 (ja) | 音声信号処理装置および音声信号処理方法 | |
US11380312B1 (en) | Residual echo suppression for keyword detection | |
US8700391B1 (en) | Low complexity bandwidth expansion of speech | |
JP2016038513A (ja) | 音声切替装置、音声切替方法及び音声切替用コンピュータプログラム | |
JP2012063614A (ja) | マスキング音生成装置 | |
JP2012022166A (ja) | 音声処理装置、音声処理方法および電話装置 | |
JP2015022252A (ja) | 音声処理装置、音声処理方法およびプログラム | |
US20230199386A1 (en) | Apparatus, methods and computer programs for reducing echo | |
KR102063824B1 (ko) | 보청기를 위한 음향 피드백 제거 장치 및 방법 | |
JP6638248B2 (ja) | 音声判定装置、方法及びプログラム、並びに、音声信号処理装置 | |
CN111988702B (zh) | 音频信号的处理方法、电子设备及存储介质 | |
US20230217166A1 (en) | Bass enhancement for loudspeakers | |
US10887709B1 (en) | Aligned beam merger | |
US11128953B2 (en) | Loudspeaker beamforming for improved spatial coverage |