JP4761506B2

JP4761506B2 - 音声処理方法と装置及びプログラム並びに音声システム

Info

Publication number: JP4761506B2
Application number: JP2005056342A
Authority: JP
Inventors: 正人赤木; 里会子太長根; 佳洋入江; 久和柳内; 良種田中
Original assignee: Glory Ltd; Japan Advanced Institute of Science and Technology
Current assignee: Glory Ltd; Japan Advanced Institute of Science and Technology
Priority date: 2005-03-01
Filing date: 2005-03-01
Publication date: 2011-08-31
Anticipated expiration: 2025-03-01
Also published as: EP1855269A1; EP1855269A4; KR20070099681A; WO2006093019A1; US20080281588A1; KR100931419B1; JP2006243178A; EP1855269B1; CN101138020B; CN101138020A; US8065138B2; DE602006014096D1

Description

本発明は、会話音声の内容が第三者に聞かれるのを防止する音声システム及び該システムに用いられる音声処理方法と装置及びプログラムに関する。

オープンな場所や防音個室以外の部屋で会話を行うと、周りに会話音声が漏れ、問題となる場合がある。例えば、銀行内で顧客が店員と会話したり、あるいは病院内で外来患者が受付担当者や医師と会話をしたりする際に、会話が第三者に聞かれてしまい、機密やプライバシーが損なわれる可能性がある。

そこで、マスキング効果を利用して会話を第三者に聞こえないようにする手法が提案されている（例えば、非特許文献１及び特許文献２）。マスキング効果とは、ある音が聞こえているときに一定レベル以上の別の音を聞かせると、元の音がかき消されて聞こえなくなる現象である。このようなマスキング効果を利用して元の音を第三者に聞かせないようにする技術として、ピンクノイズやＢＧＭ（バッググラウンドミュージック）などの音をマスキング音として、元の音声に重畳する方法がある。非特許文献１で提案されているように、特に帯域制限したピンクノイズはマスキング音として最も有効とされている。
佐伯徹郎，藤井健生，山口静馬，老末建成 (2003) "音声をマスクするための無意味定常雑音の選定"，電子情報通信学会論文誌，J86-A, 2, 187-191. 特開平５−２２３９１号公報

ピンクノイズやＢＧＭといった定常的に発生する音をマスキング音として用いるためには、元の音声のレベル以上のレベルが必要である。従って、このようなマスキング音は聞く人にとっては一種の騒音とも感じられることになり、銀行や病院などでの使用は困難である。一方、マスキング音のレベルを下げるとマスキング効果が薄れ、特にマスキング効果の小さい周波数領域で元の音声が知覚されてしまう。さらに、マスキング音のレベルを適切に調整したとしても、ピンクノイズやＢＧＭのような音は、本来の音声と明確に分離して聞こえるため、複数の音が混在する中で特定の音だけを聞き取ることができる人間の聴覚特性、いわゆるカクテルパーティ効果が働くことによって、元の音声が聞き取られてしまう可能性がある。

本発明の目的は、周囲の人にうるささを感じさせることなく、会話音声の内容を第三者に知覚されないようにすることにある。

上記の課題を解決するため、本発明は入力音声信号のスペクトル包絡を抽出し、入力音声信号のスペクトル微細構造を抽出し、周波数方向に延びる軸を中心として前記スペクトル包絡を上下に入れ替える為の反転軸を設定し、当該反転軸を中心として前記スペクトル包絡を反転させることによりスペクトル包絡に対し変形を施して変形スペクトル包絡を生成し、変形スペクトル包絡及びスペクトル微細構造を合成して変形スペクトルを生成し、変形スペクトルに基づいて出力音声信号を生成することを特徴とする。

また、変形スペクトルを生成することでは、入力音声信号のスペクトルの低周波数成分を抽出し、抽出された低周波数成分に関して反転軸に対して上下を反転させるように変形を施すことを特徴とする。
本発明の音声処理装置は、入力音声信号のスペクトル包絡を抽出するスペクトル包絡抽出部と、入力音声信号のスペクトル微細構造を抽出するスペクトル微細構造抽出部と、周波数方向に延びる軸を中心としてスペクトル包絡を上下に入れ替える為の反転軸を設定し、反転軸を中心としてスペクトル包絡を反転させることによりスペクトル包絡に対し変形を施して変形スペクトル包絡を生成するスペクトル包絡変形部と、変形スペクトル包絡及びスペクトル微細構造を合成して変形スペクトルを生成する変形スペクトル生成部と、変形スペクトルに基づいて出力音声信号を生成する音声生成部とを具備することを特徴とする。

本発明によると、会話音声による入力音声信号からスペクトル包絡の変形により音韻性が壊された出力音声信号を生成することができるため、この出力音声信号を用いて妨害音を放射することにより、会話音声の内容を第三者に聞かれないようにすることができ、秘密保持やプライバシー保護に有効である。

すなわち、変形スペクトル包絡に入力音声信号のスペクトル微細構造を合成した変形スペクトルにより出力音声信号を生成するため、発話者の音源情報が維持され、カクテルパーティ効果という人間の聴覚特性をもってしても、元の会話音声と妨害音が知覚的に融合されることにより、第三者にとって会話音声は不明瞭になり、知覚されにくくなる。従って、会話の機密やプライバシーを保護することができる。

この場合、従来のマスキング音を用いる方法のように妨害音のレベルを上げる必要がないため、周囲に対してうるささを感じさせることが少なくなる。さらに、入力音声信号のスペクトルの高域成分によって変形スペクトルに含まれる高域成分を置換することにより、妨害音において会話音声の個人性の情報を保存することができ、会話音声と妨害音との知覚的融合効果がさらに向上する。

以下、図面を参照して本発明の実施形態について説明する。
図１は、本発明の一実施形態に係る音声処理装置１０を含む音声システムの概念図を表している。音声処理装置１０は、図では複数の人１と２が会話を行っている場所の近傍の位置Ａに置かれたマイクロフォン１１により会話音声を集音して得られた入力音声信号を処理し、出力音声信号を生成する。音声処理装置１０から出力される出力音声信号を位置Ｂに置かれたスピーカ２０に供給し、スピーカ２０から音を放射する。

このとき出力音声信号において、入力音声信号の音源情報は維持されつつ音韻性は壊されていれば、スピーカ２０から放射される音が会話音声の音に融合することによって、位置Ｃにいる人３には人１と２の会話音声を聞き取ることはできない。スピーカ２０から放射される音は、このように会話音声を第三者が聞き取るのを妨げることが目的であるため、以後は妨害音と称する。言い換えれば、スピーカ２０から放射される音は、会話音声が第三者に聞き取られる（聴かれる）のを防ぐことが目的であるため、「防聴音」と称してもよい。

音声処理装置１０は、入力音声信号に対し処理を施すことによって、上述のように入力音声信号の音源情報を維持しつつ音韻性を壊すような出力音声信号を生成する。この出力音声信号に従って、スピーカ２０から会話音声の音韻性が壊れた妨害音を放射する。例えば、マイクロフォン１１により集音される会話音声のスペクトルを図２（ａ）とすれば、音声処理装置１０を経てスピーカ２０から放射される妨害音のスペクトルは、例えば図２（ｂ）に示すようになる。この場合、Ｃの位置では妨害音と会話音声の直接音が融合した図２（ｃ）に示すようなスペクトルを持つ音が第三者に聞こえる。

次に、音声処理装置１０の実施形態について詳細に説明する。
（第１の実施形態）
図３は、第１の実施形態に係る音声処理装置の構成を示している。マイクロフォン１１は、例えば銀行の窓口付近や病院の外来受付などの場所に設置され、会話音声を集音して音声信号を出力する。マイクロフォン１１からの音声信号は、音声入力処理部１２に入力される。音声入力処理部１２は、例えば増幅器及びＡ／Ｄ変換器を有し、マイクロフォン１１からの音声信号（以後、入力音声信号という）を増幅した後、ディジタル化して出力する。音声入力処理部１２からのディジタル化された入力音声信号は、スペクトル分析部１３に入力される。スペクトル分析部１３は、例えばＦＦＴケプストラム分析や、ボコーダ方式の音声分析合成系の処理により入力音声信号の分析を行う。

図４に、スペクトル分析部１３にケプストラム分析を用いた場合のスペクトル分析の流れを示す。まず、ディジタル化された入力音声信号に対して、例えばハニング窓やハミング窓等による時間窓を掛けた後、高速フーリエ変換（ＦＦＴ）による短時間スペクトル分析を行う（ステップＳ１〜Ｓ２）。次に、ＦＦＴ結果の絶対値（振幅スペクトル）の対数をとり（ステップＳ３）、さらに逆ＦＦＴ（ＩＦＦＴ）を行ってケプストラム係数を得る（ステップＳ４）。次に、ケプストラム係数に対してケプストラム窓によるリフタリングを行い、低ケフレンシ部と高ケフレンシ部をケプストラム分析結果として出力する（ステップＳ５）。

スペクトル分析部１３の分析結果として得られるケプストラム係数のうち、低ケフレンシ部はスペクトル包絡抽出部１４に入力され、高ケフレンシ部はスペクトル微細構造抽出部１６に入力される。スペクトル包絡抽出部１４は、入力音声信号の音声スペクトルのスペクトル包絡を抽出する。スペクトル包絡は入力音声信号の音韻情報を表しており、例えば入力音声信号の音声スペクトルを図５（ａ）とすると、スペクトル包絡は図５（ｂ）に示される。スペクトル包絡の抽出は、例えば図４中に示したようにケプストラム係数の低ケフレンシ部に対してＦＦＴ（ステップＳ６）を施すことによって行われる。

抽出されたスペクトル包絡に対してスペクトル包絡変形部１５により変形が施され、変形スペクトル包絡が生成される。抽出されたスペクトル包絡を図５（ｂ）とすると、スペクトル包絡変形部１５では、図５（ｃ）に示すようにスペクトル包絡が反転されることにより変形が施される。例えば、スペクトル分析部１３にＦＦＴケプストラム分析を用いた場合、スペクトル包絡は低次のケプストラム係数で表現され、スペクトル包絡変形部１５はこれら低次のケプストラム係数について符号反転を行う。スペクトル包絡変形部１５のより具体的な例については、後に詳しく説明する。

一方、スペクトル微細構造抽出部１６は入力音声信号の音声スペクトルのスペクトル微細構造を抽出する。スペクトル微細構造は入力音声信号の音源情報を表しており、例えば入力音声信号の音声スペクトルを図５（ａ）とすると、スペクトル微細構造は図５（ｄ）に示される。スペクトル微細構造の抽出は、例えば図４中に示したようにケプストラム係数の高ケフレンシ部に対してＦＦＴ（ステップＳ７）を施すことによって達成される。

スペクトル包絡変形部１５によって生成された変形スペクトル包絡とスペクトル微細構造抽出部１６によって抽出されたスペクトル微細構造は、変形スペクトル生成部１７に入力される。変形スペクトル生成部１７は、変形スペクトル包絡とスペクトル微細構造を合成することによって、入力音声信号の音声スペクトルを変形したスペクトルである変形スペクトルを生成する。

変形スペクトル生成部１７によって生成された変形スペクトルは、音声生成部１８に入力される。音声生成部１８は、変形スペクトルからディジタル化された出力音声信号を生成する。ディジタル化された出力音声信号は、音声出力処理部１９に入力される。音声出力処理部１９は、出力音声信号をＤ／Ａ変換器によりアナログ信号に変換し、さらに電力増幅器により増幅してスピーカ２０に供給する。これによって、スピーカ２０から妨害音が放射される。

図１及び図３では、マイクロフォン１１及びスピーカ２０が各々１個の場合を示しているが、これらが２個あるいはそれ以上であってもよい。その場合、複数のマイクロフォンからの複数チャネルの入力音声信号に対して個別に処理を行い、複数のスピーカから妨害音を放射すればよい。

図３に示した音声処理装置１０は、ディジタル信号処理装置（ＤＳＰ）のようなハードウェアによって実現することもできるが、コンピュータを用いてプログラムにより実行することも可能である。以下、図６を用いて音声処理装置１０の処理をコンピュータで実現する場合の処理手順を説明する。

ステップＳ１０１で入力されるディジタル化された入力音声信号に対し、スペクトル分析（ステップＳ１０２）を経てスペクトル包絡の抽出（ステップＳ１０３）、スペクトル包絡の変形（ステップＳ１０４）及びスペクトル微細構造の抽出（ステップＳ１０５）を前述の通りに行う。ここで、ステップＳ１０３及びＳ１０４とステップＳ１０５の処理の順序は任意であり、またステップＳ１０３及びＳ１０４の処理とステップＳ１０５の処理を並行して行ってもよい。次に、ステップＳ１０３及びＳ１０４を経て生成される変形スペクトル包絡とステップＳ１０５により生成されるスペクトル微細構造を合成して、変形スペクトルを生成する（ステップＳ１０６）。最後に、変形スペクトルから音声信号を生成して出力する（ステップＳ１０７〜Ｓ１０８）。

次に、図７〜図９を参照してスペクトル包絡の変形方法の具体例について述べる。スペクトル包絡の変形は、基本的にはスペクトル包絡のホルマント周波数、すなわち山及び谷の位置を変化させることによって達成される。スペクトル包絡の変形は、音韻を壊すことが目的であり、音韻の知覚にはスペクトル包絡の山及び谷の位置関係が重要であるため、これらの位置が変形前と異なるようにする。これは具体的には、スペクトル包絡に対して振幅方向及び周波数軸方向の少なくとも一方の方向について変形を施すことにより達成できる。

＜スペクトル包絡の変形方法１＞
図７（ａ）〜（ｅ）は、スペクトル包絡に対して振幅方向の変形を施すことで山及び谷の位置を変化させる手法を示している。スペクトル包絡を振幅方向に変形させるため、図７（ａ）に示すスペクトル包絡に対して反転軸を設定し、当該反転軸を中心としてスペクトル包絡を反転させる。反転軸としては、種々の近似関数を用いることができる。例えば、図７（ｂ）は反転軸をｃｏｓ関数により設定した例、図７（ｃ）は反転軸を直線により設定した例、また図７（ｄ）は反転軸を対数により設定した例である。一方、図７（ｅ）は反転軸をスペクトル包絡の振幅の平均、すなわち周波数軸に平行に設定した例である。図７（ｂ）〜（ｅ）のいずれの例においても、図７（ａ）の元のスペクトル包絡に対して山及び谷の位置（周波数）が変化していることが分かる。

＜スペクトル包絡の変形方法２＞
図８（ａ）〜（ｃ）は、スペクトル包絡に対して周波数軸方向の変形を施すことで山及び谷の位置を変化させる手法を示している。スペクトル包絡を周波数軸方向に変形させるため、図７（ａ）に示すスペクトル包絡を図７（ｂ）に示すように低域側シフトするか、あるいは図７（ｃ）に示すように高域側にシフトする。スペクトル包絡の周波数軸方向の変形法としては、この他に周波数軸上で線形伸縮または非線形伸縮を施す方法なども考えられ、また周波数軸上でのシフトと伸縮を組み合わせることもできる。さらに、周波数軸上の変形をスペクトル包絡の全帯域について行う必要は必ずしもなく、部分的に行ってもよい。

＜スペクトル包絡の変形方法３＞
上述したスペクトル包絡の変形方法１及び２では、入力音声信号のスペクトルの低域成分を変形させる処理を行うため、母音のように第１及び第２ホルマントが低域にある音韻には効果的である。しかし、第２ホルマントが高域にある／ｅ／，／ｉ／や、高域に特徴のある摩擦音／ｓ／、破裂音／ｋ／などには効果が薄い。このため、スペクトル包絡を変形させる対象の周波数帯域や、反転軸を音韻のスペクトル形状に合わせて動的に制御することが望ましい。

例えば、摩擦音のような高域に特徴のある音韻の場合、スペクトル包絡の山及び谷の位置を変化させても、スペクトル包絡の特徴はほとんど変化しない。図９（ａ）（ｂ）は、摩擦音のスペクトル及びスペクトル包絡を示している。図９（ｂ）のスペクトル包絡を例えば図７（ｂ）と同様にｃｏｓ関数の反転軸を中心に反転させると、図９（ｃ）のようになり、スペクトル包絡の特徴変化は少ない。このような場合は、例えば図９（ｄ）に示すように図７（ｅ）と同様にスペクトル包絡の振幅の平均に設定した反転軸を中心としてスペクトル包絡を反転させることにより、特徴変化を顕著にすることができる。これは一例であり、スペクトル包絡の特徴が顕著に変化するような変形であればよい。

以上述べたように、第１の実施形態では入力音声信号のスペクトル包絡を変形させて変形スペクトル包絡を生成し、この変形スペクトル包絡を入力音声信号のスペクトル微細構造と合成して変形スペクトルを生成し、この変形スペクトルに基づいて出力音声信号を生成する。

従って、図１に示したように位置Ａに置かれたマイクロフォン１１によって会話音声を集音して得られる入力音声信号に対して上述の処理を行って出力音声信号を生成し、出力音声信号を用いて位置Ｂに置かれたスピーカ２０から会話音声の音韻性が壊れた妨害音を放射すると、位置Ｃにおいては第三者にとって妨害音と会話音声の直接音が知覚的に融合されるために会話音声は不明瞭になり、会話音声の内容が第三者に知覚されにくくなる。

すなわち、妨害音においては、会話音声による入力音声信号のスペクトル微細構造である音源情報を維持しながら、スペクトル包絡の形状で決まる音韻性は壊されているため、会話音声の直接音とよく融合するようになる。このため、ピンクノイズやＢＧＭといったマスキング音を用いた場合のように周囲にうるささを感じさせることなく、会話音声の内容が第三者に知覚されないようにすることが可能となる。

（第２の実施形態）
次に、本発明の第２の実施形態について説明する。図１０は、第２の実施形態に係る音声処理装置であり、図３に示した第１の実施形態に係る音声処理装置に対してスペクトル高域成分抽出部２１と高域成分置換部２２が追加されている。

スペクトル高域成分抽出部２１は、スペクトル分析部１３を経て入力音声信号のスペクトルの高域成分を抽出する。スペクトルの高域成分は個人性情報を表しており、例えば図４におけるステップＳ２のＦＦＴ結果（入力音声信号のスペクトル）から抽出することができる。抽出された高域成分は、高域成分置換部２２に入力される。高域成分置換部２２は、変形スペクトル生成部１７の出力と音声生成部１８の入力との間に挿入され、変形スペクトル生成部１７により生成された変形スペクトル中の高域成分をスペクトル高域成分抽出部２１によって抽出された高域成分によって置換する処理を行う。音声生成部１８は、高域成分が置換された後の変形スペクトルに基づいて出力音声信号を生成する。

図１１は、スペクトル包絡変形部１５が図７（ｂ）（ｃ）（ｄ）に示したスペクトル包絡変形を行う場合の処理と、高域成分置換部２２の処理の一部を示している。スペクトル包絡変形部１５は、スペクトル包絡の傾きを検出し（ステップＳ２０１）、これに基づいて例えばｃｏｓ関数、直線あるいは対数といった近似関数を決定し（ステップＳ２０２）、スペクトル包絡を反転する（ステップＳ２０３）。このスペクトル包絡変形部１５の処理は、第１の実施形態と同様である。

一方、高域成分置換部２２はステップＳ２０１により検出されるスペクトル包絡の傾きから置換帯域を決定し、この置換帯域内の周波数成分である高域成分をスペクトル高域成分抽出部２１によって抽出された高域成分によって置換する。

次に、図１２及び図１３を用いて第２の実施形態における具体的な処理の例について述べる。例えば、図１２（ａ）に示すように入力音声信号が母音部のように低域成分の強いスペクトルである場合、入力音声信号のスペクトル包絡は図１２（ｂ）に示されるように負の傾きを示す。このような場合、例えば前述したｃｏｓ関数、直線あるいは対数といった近似関数に従った反転軸を中心にスペクトル包絡を反転させた変形スペクトル包絡と、入力音声信号のスペクトル構造とを合成することにより、図１２（ｃ）に示す変形スペクトルを生成する。

次に、図１２（ｃ）の変形スペクトルのうち音韻情報を含む低域成分（例えば、２．５〜３ｋＨｚ以下の周波数成分）についてはそのままとし、個人性情報を含む高域成分（例えば、３ｋＨｚ以上の周波数成分）を図１２（ａ）の元の音声スペクトルの高域成分によって置換する。この場合、置換帯域の下限周波数をスペクトル包絡の谷の位置に応じて可変にすることも考えられる。このようにすると、発話者の性別や声質によらず個人性情報を含む帯域を決定することができる。

一方、図１３（ａ）に示すように入力音声信号が摩擦音や破裂音のような高域成分の強いスペクトルである場合には、入力音声信号のスペクトル包絡は図１３（ｂ）に示されるように正の傾きを示す。このような場合には、例えば前述のようにスペクトル包絡の振幅の平均に設定した反転軸を中心としてスペクトル包絡を反転させた変形スペクトル包絡と、入力音声信号のスペクトル微細構造とを合成することにより、図１３（ｃ）に示す変形スペクトルを生成する。

次に、図１３（ｃ）の変形スペクトルのうち音韻情報を含む低域成分についてはそのままとし、個人性情報を含む高域成分を図１３（ａ）の元の音声スペクトルの高域成分によって置換する。但し、摩擦音等の場合、入力音声信号のスペクトルの高域成分が特に強いため、置換帯域をより高域側、例えば６ｋＨｚ以上の周波数帯域に設定する。この場合には、置換帯域の下限周波数をスペクトル包絡の山の位置に応じて可変にすることもできる。このようにすると、発話者の性別や声質によらず個人性情報を含む帯域を決定することができる。

図１０に示した音声処理装置についてもＤＳＰのようなハードウェアによって実現することもできるが、コンピュータを用いてプログラムにより実行することも可能である。以下、図１４を用いて音声処理装置の処理をコンピュータで実現する場合の処理手順を説明すると、ステップＳ１０１からステップＳ１０６までの処理は、第１の実施形態の場合と同様である。第２の実施形態では、変形スペクトルを生成するステップＳ１０６の後、スペクトル高域成分の抽出（ステップＳ１０９）及び高域成分の置換（ステップＳ１１０）を行う。次に、高域成分置換後の変形スペクトルから音声信号を生成して出力する（ステップＳ１０７〜Ｓ１０８）。ここで、ステップＳ１０３〜Ｓ１０５及びステップＳ１０９の処理順序は任意であり、またステップＳ１０３及びＳ１０４の処理とステップＳ１０５の処理を並行して行ったり、あるいはステップＳ１０９の処理を並行して行ったりしても構わない。

以上述べたように、第２の実施形態では変形スペクトル包絡とスペクトル微細構造との合成により生成される変形スペクトルの高域成分を入力音声信号の高域成分と置換した変形スペクトルを用いて出力音声信号を生成する。従って、スペクトル包絡の変形により会話音声の音韻性が壊れると共に、会話音声のスペクトルの高域成分である個人性情報が保存された妨害音を生成することができる。すなわち、スペクトル包絡の反転により妨害音の高域のパワーが増大して音質が低下することがなく、また妨害音において会話音声の個人性の情報も壊れて妨害音と会話音声との融合の効果が十分でなくなったりすることがなくなる。これによって周囲にうるささを感じさせることなく、会話音声の内容を第三者に聞かれないようにする効果をより顕著に発揮することができる。

第２の実施形態では、変形スペクトル包絡とスペクトル微細構造の合成による変形スペクトルを生成した後、高域成分の置換を行って高域成分が置換された変形スペクトルを生成したが、スペクトル包絡の変形を高域成分以外の周波数帯域（低域及び中域）についてのみ選択的に行うようにしても同様の結果が得られる。

本発明は、例えば携帯電話機その他の電話機において通話者の会話の内容が周囲の第三者に聞こえないようにするための用途にも適用が可能である。

本発明の一実施形態に係る音声システムを概略的に示す図図１の音声システムにおける各部の音声スペクトルの一例を示す図本発明の第１の実施形態に係る音声処理装置の構成を示すブロック図スペクトル分析とスペクトル分析に付随する処理の一例を示すフローチャート第１の実施形態における入力音声信号のスペクトルから変形スペクトルを生成するまでの過程を説明する図第１の実施形態における音声処理の全体的な流れを示すフローチャート第１の実施形態におけるスペクトル包絡に対して振幅方向へのスペクトル変形を施す例を説明する図第１の実施形態におけるスペクトル包絡に対して周波数軸方向へのスペクトル変形を施す例を説明する図第１の実施形態における摩擦音のスペクトル包絡に対して振幅方向のスペクトル変形を施す例を説明する図本発明の第２の実施形態に係る音声処理装置の構成を示すブロック図第２の実施形態におけるスペクトル包絡変形部における処理と高域成分抽出部の処理の一部を示すフローチャート第２の実施形態における入力音声信号のスペクトルから変形スペクトル生成を経て高域成分の置換を行うまでの過程を特に低域が強い場合について説明する図第２の実施形態における入力音声信号のスペクトルから変形スペクトル生成を経て高域成分の置換を行うまでの過程を特に高域が強い場合について説明する図第２の実施形態における音声処理の全体的な流れを示すフローチャート

符号の説明

１１…マイクロフォン
１２…音声入力処理部
１３…スペクトル分析部
１４…スペクトル包絡抽出部
１５…スペクトル包絡変形部
１６…スペクトル微細構造抽出部
１７…変形スペクトル生成部
１８…音声生成部
１９…音声出力処理部
２０…スピーカ
２１…スペクトル高域成分抽出部
２２…高域成分置換部

Claims

入力音声信号のスペクトル包絡を抽出するステップと、
前記入力音声信号のスペクトル微細構造を抽出するステップと、
周波数方向に延びる軸を中心として前記スペクトル包絡を上下に入れ替える為の反転軸を設定し、当該反転軸を中心として前記スペクトル包絡を反転させることにより前記スペクトル包絡に対し変形を施して変形スペクトル包絡を生成するステップと、
前記変形スペクトル包絡及び前記スペクトル微細構造を合成して変形スペクトルを生成するステップと、
前記変形スペクトルに基づいて出力音声信号を生成するステップとを具備することを特徴とする音声処理方法。
前記変形スペクトルを生成するステップでは、前記入力音声信号のスペクトルの低周波数成分を抽出し、抽出された低周波数領域成分に関して前記反転軸に対して上下を反転させるように変形を施すことを特徴とする請求項１記載の音声処理方法。
入力音声信号のスペクトル包絡を抽出するスペクトル包絡抽出部と、
前記入力音声信号のスペクトル微細構造を抽出するスペクトル微細構造抽出部と、
周波数方向に延びる軸を中心として前記スペクトル包絡を上下に入れ替える為の反転軸を設定し、当該反転軸を中心として前記スペクトル包絡を反転させることにより前記スペクトル包絡に対し変形を施して変形スペクトル包絡を生成するスペクトル包絡変形部と、
前記変形スペクトル包絡及び前記スペクトル微細構造を合成して変形スペクトルを生成する変形スペクトル生成部と、
前記変形スペクトルに基づいて出力音声信号を生成する音声生成部とを具備することを特徴とする音声処理装置。
前記スペクトル包絡変形部が、前記入力音声信号のスペクトルの低周波数成分を抽出し、抽出された低周波数領域成分に関して前記反転軸に対して上下を反転させるように変形を施すことを特徴とする請求項３記載の音声処理装置。
前記スペクトル包絡変形部は、前記スペクトル包絡の山及び谷の位置を変化させることにより前記変形を施して前記変形スペクトル包絡を生成することを特徴とする請求項３または４のいずれか１項記載の音声処理装置。
請求項３乃至５のいずれか１項に記載の音声処理装置と、
会話音声を集音して前記入力音声信号を得るマイクロフォンと、
前記出力音声信号に従って妨害音を放射するスピーカとを具備することを特徴とする音声システム。
入力音声信号のスペクトル包絡を抽出する処理と、
前記入力音声信号のスペクトル微細構造を抽出する処理と、
周波数方向に延びる軸を中心として前記スペクトル包絡を上下に入れ替える為の反転軸を設定し、当該反転軸を中心として前記スペクトル包絡を反転させることにより前記スペクトル包絡に対し変形を施して変形スペクトル包絡を生成する処理と、
前記変形スペクトル包絡及び前記スペクトル微細構造を合成して変形スペクトルを生成する処理と、
前記変形スペクトルに基づいて出力音声信号を生成する処理とを含む音声処理をコンピュータに行わせるためのプログラム。
前記変形スペクトルを生成する処理が、前記入力音声信号のスペクトルの低周波数成分を抽出し前記スペクトル包絡の低周波数領域成分に関して前記反転軸に対して上下を反転させるように変形を施すことを含んでいることを特徴とする、音声処理をコンピュータに行わせるための請求項７記載のプログラム。