JP4761506B2 - 音声処理方法と装置及びプログラム並びに音声システム - Google Patents

音声処理方法と装置及びプログラム並びに音声システム Download PDF

Info

Publication number
JP4761506B2
JP4761506B2 JP2005056342A JP2005056342A JP4761506B2 JP 4761506 B2 JP4761506 B2 JP 4761506B2 JP 2005056342 A JP2005056342 A JP 2005056342A JP 2005056342 A JP2005056342 A JP 2005056342A JP 4761506 B2 JP4761506 B2 JP 4761506B2
Authority
JP
Japan
Prior art keywords
spectrum
envelope
spectral
deformation
spectrum envelope
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2005056342A
Other languages
English (en)
Other versions
JP2006243178A (ja
JP2006243178A5 (ja
Inventor
正人 赤木
里会子 太長根
佳洋 入江
久和 柳内
良種 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Glory Ltd
Japan Advanced Institute of Science and Technology
Original Assignee
Glory Ltd
Japan Advanced Institute of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to JP2005056342A priority Critical patent/JP4761506B2/ja
Application filed by Glory Ltd, Japan Advanced Institute of Science and Technology filed Critical Glory Ltd
Priority to CN2006800066680A priority patent/CN101138020B/zh
Priority to DE602006014096T priority patent/DE602006014096D1/de
Priority to KR1020077019988A priority patent/KR100931419B1/ko
Priority to EP06714430A priority patent/EP1855269B1/en
Priority to PCT/JP2006/303290 priority patent/WO2006093019A1/ja
Publication of JP2006243178A publication Critical patent/JP2006243178A/ja
Publication of JP2006243178A5 publication Critical patent/JP2006243178A5/ja
Priority to US11/849,106 priority patent/US8065138B2/en
Application granted granted Critical
Publication of JP4761506B2 publication Critical patent/JP4761506B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/1752Masking
    • G10K11/1754Speech masking
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Telephone Function (AREA)

Description

本発明は、会話音声の内容が第三者に聞かれるのを防止する音声システム及び該システムに用いられる音声処理方法と装置及びプログラムに関する。
オープンな場所や防音個室以外の部屋で会話を行うと、周りに会話音声が漏れ、問題となる場合がある。例えば、銀行内で顧客が店員と会話したり、あるいは病院内で外来患者が受付担当者や医師と会話をしたりする際に、会話が第三者に聞かれてしまい、機密やプライバシーが損なわれる可能性がある。
そこで、マスキング効果を利用して会話を第三者に聞こえないようにする手法が提案されている(例えば、非特許文献1及び特許文献2)。マスキング効果とは、ある音が聞こえているときに一定レベル以上の別の音を聞かせると、元の音がかき消されて聞こえなくなる現象である。このようなマスキング効果を利用して元の音を第三者に聞かせないようにする技術として、ピンクノイズやBGM(バッググラウンドミュージック)などの音をマスキング音として、元の音声に重畳する方法がある。非特許文献1で提案されているように、特に帯域制限したピンクノイズはマスキング音として最も有効とされている。
佐伯 徹郎,藤井 健生,山口 静馬,老末 建成 (2003) "音声をマスクするための無意味定常雑音の選定",電子情報通信学会論文誌,J86-A, 2, 187-191. 特開平5−22391号公報
ピンクノイズやBGMといった定常的に発生する音をマスキング音として用いるためには、元の音声のレベル以上のレベルが必要である。従って、このようなマスキング音は聞く人にとっては一種の騒音とも感じられることになり、銀行や病院などでの使用は困難である。一方、マスキング音のレベルを下げるとマスキング効果が薄れ、特にマスキング効果の小さい周波数領域で元の音声が知覚されてしまう。さらに、マスキング音のレベルを適切に調整したとしても、ピンクノイズやBGMのような音は、本来の音声と明確に分離して聞こえるため、複数の音が混在する中で特定の音だけを聞き取ることができる人間の聴覚特性、いわゆるカクテルパーティ効果が働くことによって、元の音声が聞き取られてしまう可能性がある。
本発明の目的は、周囲の人にうるささを感じさせることなく、会話音声の内容を第三者に知覚されないようにすることにある。
上記の課題を解決するため、本発明は入力音声信号のスペクトル包絡を抽出し、入力音声信号のスペクトル微細構造を抽出し、周波数方向に延びる軸を中心として前記スペクトル包絡を上下に入れ替える為の反転軸を設定し、当該反転軸を中心として前記スペクトル包絡を反転させることによりスペクトル包絡に対し変形を施して変形スペクトル包絡を生成し、変形スペクトル包絡及びスペクトル微細構造を合成して変形スペクトルを生成し、変形スペクトルに基づいて出力音声信号を生成することを特徴とする。
また、変形スペクトルを生成することでは、入力音声信号のスペクトルの低周波数成分を抽出し、抽出された低周波数成分に関して反転軸に対して上下を反転させるように形を施すことを特徴とする
本発明の音声処理装置は、入力音声信号のスペクトル包絡を抽出するスペクトル包絡抽出部と、入力音声信号のスペクトル微細構造を抽出するスペクトル微細構造抽出部と、周波数方向に延びる軸を中心としてスペクトル包絡を上下に入れ替える為の反転軸を設定し、反転軸を中心としてスペクトル包絡を反転させることによりスペクトル包絡に対し変形を施して変形スペクトル包絡を生成するスペクトル包絡変形部と、変形スペクトル包絡及びスペクトル微細構造を合成して変形スペクトルを生成する変形スペクトル生成部と、変形スペクトルに基づいて出力音声信号を生成する音声生成部とを具備することを特徴とする。
本発明によると、会話音声による入力音声信号からスペクトル包絡の変形により音韻性が壊された出力音声信号を生成することができるため、この出力音声信号を用いて妨害音を放射することにより、会話音声の内容を第三者に聞かれないようにすることができ、秘密保持やプライバシー保護に有効である。
すなわち、変形スペクトル包絡に入力音声信号のスペクトル微細構造を合成した変形スペクトルにより出力音声信号を生成するため、発話者の音源情報が維持され、カクテルパーティ効果という人間の聴覚特性をもってしても、元の会話音声と妨害音が知覚的に融合されることにより、第三者にとって会話音声は不明瞭になり、知覚されにくくなる。従って、会話の機密やプライバシーを保護することができる。
この場合、従来のマスキング音を用いる方法のように妨害音のレベルを上げる必要がないため、周囲に対してうるささを感じさせることが少なくなる。さらに、入力音声信号のスペクトルの高域成分によって変形スペクトルに含まれる高域成分を置換することにより、妨害音において会話音声の個人性の情報を保存することができ、会話音声と妨害音との知覚的融合効果がさらに向上する。
以下、図面を参照して本発明の実施形態について説明する。
図1は、本発明の一実施形態に係る音声処理装置10を含む音声システムの概念図を表している。音声処理装置10は、図では複数の人1と2が会話を行っている場所の近傍の位置Aに置かれたマイクロフォン11により会話音声を集音して得られた入力音声信号を処理し、出力音声信号を生成する。音声処理装置10から出力される出力音声信号を位置Bに置かれたスピーカ20に供給し、スピーカ20から音を放射する。
このとき出力音声信号において、入力音声信号の音源情報は維持されつつ音韻性は壊されていれば、スピーカ20から放射される音が会話音声の音に融合することによって、位置Cにいる人3には人1と2の会話音声を聞き取ることはできない。スピーカ20から放射される音は、このように会話音声を第三者が聞き取るのを妨げることが目的であるため、以後は妨害音と称する。言い換えれば、スピーカ20から放射される音は、会話音声が第三者に聞き取られる(聴かれる)のを防ぐことが目的であるため、「防聴音」と称してもよい。
音声処理装置10は、入力音声信号に対し処理を施すことによって、上述のように入力音声信号の音源情報を維持しつつ音韻性を壊すような出力音声信号を生成する。この出力音声信号に従って、スピーカ20から会話音声の音韻性が壊れた妨害音を放射する。例えば、マイクロフォン11により集音される会話音声のスペクトルを図2(a)とすれば、音声処理装置10を経てスピーカ20から放射される妨害音のスペクトルは、例えば図2(b)に示すようになる。この場合、Cの位置では妨害音と会話音声の直接音が融合した図2(c)に示すようなスペクトルを持つ音が第三者に聞こえる。
次に、音声処理装置10の実施形態について詳細に説明する。
(第1の実施形態)
図3は、第1の実施形態に係る音声処理装置の構成を示している。マイクロフォン11は、例えば銀行の窓口付近や病院の外来受付などの場所に設置され、会話音声を集音して音声信号を出力する。マイクロフォン11からの音声信号は、音声入力処理部12に入力される。音声入力処理部12は、例えば増幅器及びA/D変換器を有し、マイクロフォン11からの音声信号(以後、入力音声信号という)を増幅した後、ディジタル化して出力する。音声入力処理部12からのディジタル化された入力音声信号は、スペクトル分析部13に入力される。スペクトル分析部13は、例えばFFTケプストラム分析や、ボコーダ方式の音声分析合成系の処理により入力音声信号の分析を行う。
図4に、スペクトル分析部13にケプストラム分析を用いた場合のスペクトル分析の流れを示す。まず、ディジタル化された入力音声信号に対して、例えばハニング窓やハミング窓等による時間窓を掛けた後、高速フーリエ変換(FFT)による短時間スペクトル分析を行う(ステップS1〜S2)。次に、FFT結果の絶対値(振幅スペクトル)の対数をとり(ステップS3)、さらに逆FFT(IFFT)を行ってケプストラム係数を得る(ステップS4)。次に、ケプストラム係数に対してケプストラム窓によるリフタリングを行い、低ケフレンシ部と高ケフレンシ部をケプストラム分析結果として出力する(ステップS5)。
スペクトル分析部13の分析結果として得られるケプストラム係数のうち、低ケフレンシ部はスペクトル包絡抽出部14に入力され、高ケフレンシ部はスペクトル微細構造抽出部16に入力される。スペクトル包絡抽出部14は、入力音声信号の音声スペクトルのスペクトル包絡を抽出する。スペクトル包絡は入力音声信号の音韻情報を表しており、例えば入力音声信号の音声スペクトルを図5(a)とすると、スペクトル包絡は図5(b)に示される。スペクトル包絡の抽出は、例えば図4中に示したようにケプストラム係数の低ケフレンシ部に対してFFT(ステップS6)を施すことによって行われる。
抽出されたスペクトル包絡に対してスペクトル包絡変形部15により変形が施され、変形スペクトル包絡が生成される。抽出されたスペクトル包絡を図5(b)とすると、スペクトル包絡変形部15では、図5(c)に示すようにスペクトル包絡が反転されることにより変形が施される。例えば、スペクトル分析部13にFFTケプストラム分析を用いた場合、スペクトル包絡は低次のケプストラム係数で表現され、スペクトル包絡変形部15はこれら低次のケプストラム係数について符号反転を行う。スペクトル包絡変形部15のより具体的な例については、後に詳しく説明する。
一方、スペクトル微細構造抽出部16は入力音声信号の音声スペクトルのスペクトル微細構造を抽出する。スペクトル微細構造は入力音声信号の音源情報を表しており、例えば入力音声信号の音声スペクトルを図5(a)とすると、スペクトル微細構造は図5(d)に示される。スペクトル微細構造の抽出は、例えば図4中に示したようにケプストラム係数の高ケフレンシ部に対してFFT(ステップS7)を施すことによって達成される。
スペクトル包絡変形部15によって生成された変形スペクトル包絡とスペクトル微細構造抽出部16によって抽出されたスペクトル微細構造は、変形スペクトル生成部17に入力される。変形スペクトル生成部17は、変形スペクトル包絡とスペクトル微細構造を合成することによって、入力音声信号の音声スペクトルを変形したスペクトルである変形スペクトルを生成する。
変形スペクトル生成部17によって生成された変形スペクトルは、音声生成部18に入力される。音声生成部18は、変形スペクトルからディジタル化された出力音声信号を生成する。ディジタル化された出力音声信号は、音声出力処理部19に入力される。音声出力処理部19は、出力音声信号をD/A変換器によりアナログ信号に変換し、さらに電力増幅器により増幅してスピーカ20に供給する。これによって、スピーカ20から妨害音が放射される。
図1及び図3では、マイクロフォン11及びスピーカ20が各々1個の場合を示しているが、これらが2個あるいはそれ以上であってもよい。その場合、複数のマイクロフォンからの複数チャネルの入力音声信号に対して個別に処理を行い、複数のスピーカから妨害音を放射すればよい。
図3に示した音声処理装置10は、ディジタル信号処理装置(DSP)のようなハードウェアによって実現することもできるが、コンピュータを用いてプログラムにより実行することも可能である。以下、図6を用いて音声処理装置10の処理をコンピュータで実現する場合の処理手順を説明する。
ステップS101で入力されるディジタル化された入力音声信号に対し、スペクトル分析(ステップS102)を経てスペクトル包絡の抽出(ステップS103)、スペクトル包絡の変形(ステップS104)及びスペクトル微細構造の抽出(ステップS105)を前述の通りに行う。ここで、ステップS103及びS104とステップS105の処理の順序は任意であり、またステップS103及びS104の処理とステップS105の処理を並行して行ってもよい。次に、ステップS103及びS104を経て生成される変形スペクトル包絡とステップS105により生成されるスペクトル微細構造を合成して、変形スペクトルを生成する(ステップS106)。最後に、変形スペクトルから音声信号を生成して出力する(ステップS107〜S108)。
次に、図7〜図9を参照してスペクトル包絡の変形方法の具体例について述べる。スペクトル包絡の変形は、基本的にはスペクトル包絡のホルマント周波数、すなわち山及び谷の位置を変化させることによって達成される。スペクトル包絡の変形は、音韻を壊すことが目的であり、音韻の知覚にはスペクトル包絡の山及び谷の位置関係が重要であるため、これらの位置が変形前と異なるようにする。これは具体的には、スペクトル包絡に対して振幅方向及び周波数軸方向の少なくとも一方の方向について変形を施すことにより達成できる。
<スペクトル包絡の変形方法1>
図7(a)〜(e)は、スペクトル包絡に対して振幅方向の変形を施すことで山及び谷の位置を変化させる手法を示している。スペクトル包絡を振幅方向に変形させるため、図7(a)に示すスペクトル包絡に対して反転軸を設定し、当該反転軸を中心としてスペクトル包絡を反転させる。反転軸としては、種々の近似関数を用いることができる。例えば、図7(b)は反転軸をcos関数により設定した例、図7(c)は反転軸を直線により設定した例、また図7(d)は反転軸を対数により設定した例である。一方、図7(e)は反転軸をスペクトル包絡の振幅の平均、すなわち周波数軸に平行に設定した例である。図7(b)〜(e)のいずれの例においても、図7(a)の元のスペクトル包絡に対して山及び谷の位置(周波数)が変化していることが分かる。
<スペクトル包絡の変形方法2>
図8(a)〜(c)は、スペクトル包絡に対して周波数軸方向の変形を施すことで山及び谷の位置を変化させる手法を示している。スペクトル包絡を周波数軸方向に変形させるため、図7(a)に示すスペクトル包絡を図7(b)に示すように低域側シフトするか、あるいは図7(c)に示すように高域側にシフトする。スペクトル包絡の周波数軸方向の変形法としては、この他に周波数軸上で線形伸縮または非線形伸縮を施す方法なども考えられ、また周波数軸上でのシフトと伸縮を組み合わせることもできる。さらに、周波数軸上の変形をスペクトル包絡の全帯域について行う必要は必ずしもなく、部分的に行ってもよい。
<スペクトル包絡の変形方法3>
上述したスペクトル包絡の変形方法1及び2では、入力音声信号のスペクトルの低域成分を変形させる処理を行うため、母音のように第1及び第2ホルマントが低域にある音韻には効果的である。しかし、第2ホルマントが高域にある/e/,/i/や、高域に特徴のある摩擦音/s/、破裂音/k/などには効果が薄い。このため、スペクトル包絡を変形させる対象の周波数帯域や、反転軸を音韻のスペクトル形状に合わせて動的に制御することが望ましい。
例えば、摩擦音のような高域に特徴のある音韻の場合、スペクトル包絡の山及び谷の位置を変化させても、スペクトル包絡の特徴はほとんど変化しない。図9(a)(b)は、摩擦音のスペクトル及びスペクトル包絡を示している。図9(b)のスペクトル包絡を例えば図7(b)と同様にcos関数の反転軸を中心に反転させると、図9(c)のようになり、スペクトル包絡の特徴変化は少ない。このような場合は、例えば図9(d)に示すように図7(e)と同様にスペクトル包絡の振幅の平均に設定した反転軸を中心としてスペクトル包絡を反転させることにより、特徴変化を顕著にすることができる。これは一例であり、スペクトル包絡の特徴が顕著に変化するような変形であればよい。
以上述べたように、第1の実施形態では入力音声信号のスペクトル包絡を変形させて変形スペクトル包絡を生成し、この変形スペクトル包絡を入力音声信号のスペクトル微細構造と合成して変形スペクトルを生成し、この変形スペクトルに基づいて出力音声信号を生成する。
従って、図1に示したように位置Aに置かれたマイクロフォン11によって会話音声を集音して得られる入力音声信号に対して上述の処理を行って出力音声信号を生成し、出力音声信号を用いて位置Bに置かれたスピーカ20から会話音声の音韻性が壊れた妨害音を放射すると、位置Cにおいては第三者にとって妨害音と会話音声の直接音が知覚的に融合されるために会話音声は不明瞭になり、会話音声の内容が第三者に知覚されにくくなる。
すなわち、妨害音においては、会話音声による入力音声信号のスペクトル微細構造である音源情報を維持しながら、スペクトル包絡の形状で決まる音韻性は壊されているため、会話音声の直接音とよく融合するようになる。このため、ピンクノイズやBGMといったマスキング音を用いた場合のように周囲にうるささを感じさせることなく、会話音声の内容が第三者に知覚されないようにすることが可能となる。
(第2の実施形態)
次に、本発明の第2の実施形態について説明する。図10は、第2の実施形態に係る音声処理装置であり、図3に示した第1の実施形態に係る音声処理装置に対してスペクトル高域成分抽出部21と高域成分置換部22が追加されている。
スペクトル高域成分抽出部21は、スペクトル分析部13を経て入力音声信号のスペクトルの高域成分を抽出する。スペクトルの高域成分は個人性情報を表しており、例えば図4におけるステップS2のFFT結果(入力音声信号のスペクトル)から抽出することができる。抽出された高域成分は、高域成分置換部22に入力される。高域成分置換部22は、変形スペクトル生成部17の出力と音声生成部18の入力との間に挿入され、変形スペクトル生成部17により生成された変形スペクトル中の高域成分をスペクトル高域成分抽出部21によって抽出された高域成分によって置換する処理を行う。音声生成部18は、高域成分が置換された後の変形スペクトルに基づいて出力音声信号を生成する。
図11は、スペクトル包絡変形部15が図7(b)(c)(d)に示したスペクトル包絡変形を行う場合の処理と、高域成分置換部22の処理の一部を示している。スペクトル包絡変形部15は、スペクトル包絡の傾きを検出し(ステップS201)、これに基づいて例えばcos関数、直線あるいは対数といった近似関数を決定し(ステップS202)、スペクトル包絡を反転する(ステップS203)。このスペクトル包絡変形部15の処理は、第1の実施形態と同様である。
一方、高域成分置換部22はステップS201により検出されるスペクトル包絡の傾きから置換帯域を決定し、この置換帯域内の周波数成分である高域成分をスペクトル高域成分抽出部21によって抽出された高域成分によって置換する。
次に、図12及び図13を用いて第2の実施形態における具体的な処理の例について述べる。例えば、図12(a)に示すように入力音声信号が母音部のように低域成分の強いスペクトルである場合、入力音声信号のスペクトル包絡は図12(b)に示されるように負の傾きを示す。このような場合、例えば前述したcos関数、直線あるいは対数といった近似関数に従った反転軸を中心にスペクトル包絡を反転させた変形スペクトル包絡と、入力音声信号のスペクトル構造とを合成することにより、図12(c)に示す変形スペクトルを生成する。
次に、図12(c)の変形スペクトルのうち音韻情報を含む低域成分(例えば、2.5〜3kHz以下の周波数成分)についてはそのままとし、個人性情報を含む高域成分(例えば、3kHz以上の周波数成分)を図12(a)の元の音声スペクトルの高域成分によって置換する。この場合、置換帯域の下限周波数をスペクトル包絡の谷の位置に応じて可変にすることも考えられる。このようにすると、発話者の性別や声質によらず個人性情報を含む帯域を決定することができる。
一方、図13(a)に示すように入力音声信号が摩擦音や破裂音のような高域成分の強いスペクトルである場合には、入力音声信号のスペクトル包絡は図13(b)に示されるように正の傾きを示す。このような場合には、例えば前述のようにスペクトル包絡の振幅の平均に設定した反転軸を中心としてスペクトル包絡を反転させた変形スペクトル包絡と、入力音声信号のスペクトル微細構造とを合成することにより、図13(c)に示す変形スペクトルを生成する。
次に、図13(c)の変形スペクトルのうち音韻情報を含む低域成分についてはそのままとし、個人性情報を含む高域成分を図13(a)の元の音声スペクトルの高域成分によって置換する。但し、摩擦音等の場合、入力音声信号のスペクトルの高域成分が特に強いため、置換帯域をより高域側、例えば6kHz以上の周波数帯域に設定する。この場合には、置換帯域の下限周波数をスペクトル包絡の山の位置に応じて可変にすることもできる。このようにすると、発話者の性別や声質によらず個人性情報を含む帯域を決定することができる。
図10に示した音声処理装置についてもDSPのようなハードウェアによって実現することもできるが、コンピュータを用いてプログラムにより実行することも可能である。以下、図14を用いて音声処理装置の処理をコンピュータで実現する場合の処理手順を説明すると、ステップS101からステップS106までの処理は、第1の実施形態の場合と同様である。第2の実施形態では、変形スペクトルを生成するステップS106の後、スペクトル高域成分の抽出(ステップS109)及び高域成分の置換(ステップS110)を行う。次に、高域成分置換後の変形スペクトルから音声信号を生成して出力する(ステップS107〜S108)。ここで、ステップS103〜S105及びステップS109の処理順序は任意であり、またステップS103及びS104の処理とステップS105の処理を並行して行ったり、あるいはステップS109の処理を並行して行ったりしても構わない。
以上述べたように、第2の実施形態では変形スペクトル包絡とスペクトル微細構造との合成により生成される変形スペクトルの高域成分を入力音声信号の高域成分と置換した変形スペクトルを用いて出力音声信号を生成する。従って、スペクトル包絡の変形により会話音声の音韻性が壊れると共に、会話音声のスペクトルの高域成分である個人性情報が保存された妨害音を生成することができる。すなわち、スペクトル包絡の反転により妨害音の高域のパワーが増大して音質が低下することがなく、また妨害音において会話音声の個人性の情報も壊れて妨害音と会話音声との融合の効果が十分でなくなったりすることがなくなる。これによって周囲にうるささを感じさせることなく、会話音声の内容を第三者に聞かれないようにする効果をより顕著に発揮することができる。
第2の実施形態では、変形スペクトル包絡とスペクトル微細構造の合成による変形スペクトルを生成した後、高域成分の置換を行って高域成分が置換された変形スペクトルを生成したが、スペクトル包絡の変形を高域成分以外の周波数帯域(低域及び中域)についてのみ選択的に行うようにしても同様の結果が得られる。
本発明は、例えば携帯電話機その他の電話機において通話者の会話の内容が周囲の第三者に聞こえないようにするための用途にも適用が可能である。
本発明の一実施形態に係る音声システムを概略的に示す図 図1の音声システムにおける各部の音声スペクトルの一例を示す図 本発明の第1の実施形態に係る音声処理装置の構成を示すブロック図 スペクトル分析とスペクトル分析に付随する処理の一例を示すフローチャート 第1の実施形態における入力音声信号のスペクトルから変形スペクトルを生成するまでの過程を説明する図 第1の実施形態における音声処理の全体的な流れを示すフローチャート 第1の実施形態におけるスペクトル包絡に対して振幅方向へのスペクトル変形を施す例を説明する図 第1の実施形態におけるスペクトル包絡に対して周波数軸方向へのスペクトル変形を施す例を説明する図 第1の実施形態における摩擦音のスペクトル包絡に対して振幅方向のスペクトル変形を施す例を説明する図 本発明の第2の実施形態に係る音声処理装置の構成を示すブロック図 第2の実施形態におけるスペクトル包絡変形部における処理と高域成分抽出部の処理の一部を示すフローチャート 第2の実施形態における入力音声信号のスペクトルから変形スペクトル生成を経て高域成分の置換を行うまでの過程を特に低域が強い場合について説明する図 第2の実施形態における入力音声信号のスペクトルから変形スペクトル生成を経て高域成分の置換を行うまでの過程を特に高域が強い場合について説明する図 第2の実施形態における音声処理の全体的な流れを示すフローチャート
符号の説明
11…マイクロフォン
12…音声入力処理部
13…スペクトル分析部
14…スペクトル包絡抽出部
15…スペクトル包絡変形部
16…スペクトル微細構造抽出部
17…変形スペクトル生成部
18…音声生成部
19…音声出力処理部
20…スピーカ
21…スペクトル高域成分抽出部
22…高域成分置換部

Claims (8)

  1. 入力音声信号のスペクトル包絡を抽出するステップと、
    前記入力音声信号のスペクトル微細構造を抽出するステップと、
    周波数方向に延びる軸を中心として前記スペクトル包絡を上下に入れ替える為の反転軸を設定し、当該反転軸を中心として前記スペクトル包絡を反転させることにより前記スペクトル包絡に対し変形を施して変形スペクトル包絡を生成するステップと、
    前記変形スペクトル包絡及び前記スペクトル微細構造を合成して変形スペクトルを生成するステップと、
    前記変形スペクトルに基づいて出力音声信号を生成するステップとを具備することを特徴とする音声処理方法。
  2. 前記変形スペクトルを生成するステップでは、前記入力音声信号のスペクトルの低周波数成分を抽出し、抽出された低周波数領域成分関して前記反転軸に対して上下を反転させるように変形を施すことを特徴とする請求項1記載の音声処理方法。
  3. 入力音声信号のスペクトル包絡を抽出するスペクトル包絡抽出部と、
    前記入力音声信号のスペクトル微細構造を抽出するスペクトル微細構造抽出部と、
    周波数方向に延びる軸を中心として前記スペクトル包絡を上下に入れ替える為の反転軸を設定し、当該反転軸を中心として前記スペクトル包絡を反転させることにより前記スペクトル包絡に対し変形を施して変形スペクトル包絡を生成するスペクトル包絡変形部と、
    前記変形スペクトル包絡及び前記スペクトル微細構造を合成して変形スペクトルを生成する変形スペクトル生成部と、
    前記変形スペクトルに基づいて出力音声信号を生成する音声生成部とを具備することを特徴とする音声処理装置。
  4. 前記スペクトル包絡変形部が、前記入力音声信号のスペクトルの低周波数成分を抽出し、抽出された低周波数領域成分に関して前記反転軸に対して上下を反転させるように変形を施すことを特徴とする請求項3記載の音声処理装置。
  5. 前記スペクトル包絡変形部は、前記スペクトル包絡の山及び谷の位置を変化させることにより前記変形を施して前記変形スペクトル包絡を生成することを特徴とする請求項3または4のいずれか1項記載の音声処理装置。
  6. 請求項3乃至5のいずれか1項に記載の音声処理装置と、
    会話音声を集音して前記入力音声信号を得るマイクロフォンと、
    前記出力音声信号に従って妨害音を放射するスピーカとを具備することを特徴とする音声システム。
  7. 入力音声信号のスペクトル包絡を抽出する処理と、
    前記入力音声信号のスペクトル微細構造を抽出する処理と、
    周波数方向に延びる軸を中心として前記スペクトル包絡を上下に入れ替える為の反転軸を設定し、当該反転軸を中心として前記スペクトル包絡を反転させることにより前記スペクトル包絡に対し変形を施して変形スペクトル包絡を生成する処理と、
    前記変形スペクトル包絡及び前記スペクトル微細構造を合成して変形スペクトルを生成する処理と、
    前記変形スペクトルに基づいて出力音声信号を生成する処理とを含む音声処理をコンピュータに行わせるためのプログラム。
  8. 前記変形スペクトルを生成する処理が、前記入力音声信号のスペクトルの低周波数成分を抽出し前記スペクトル包絡の低周波数領域成分に関して前記反転軸に対して上下を反転させるように変形を施すことを含んでいることを特徴とする、音声処理をコンピュータに行わせるための請求項7記載のプログラム。
JP2005056342A 2005-03-01 2005-03-01 音声処理方法と装置及びプログラム並びに音声システム Active JP4761506B2 (ja)

Priority Applications (7)

Application Number Priority Date Filing Date Title
JP2005056342A JP4761506B2 (ja) 2005-03-01 2005-03-01 音声処理方法と装置及びプログラム並びに音声システム
DE602006014096T DE602006014096D1 (de) 2005-03-01 2006-02-23 Sprachverarbeitungsverfahren und -einrichtung, Speichermedium und Sprachsystem
KR1020077019988A KR100931419B1 (ko) 2005-03-01 2006-02-23 음성 처리 방법과 장치, 기억 매체 및 음성 시스템
EP06714430A EP1855269B1 (en) 2005-03-01 2006-02-23 Speech processing method and device, storage medium, and speech system
CN2006800066680A CN101138020B (zh) 2005-03-01 2006-02-23 声音处理方法和装置及存储媒体以及声音系统
PCT/JP2006/303290 WO2006093019A1 (ja) 2005-03-01 2006-02-23 音声処理方法と装置及び記憶媒体並びに音声システム
US11/849,106 US8065138B2 (en) 2005-03-01 2007-08-31 Speech processing method and apparatus, storage medium, and speech system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005056342A JP4761506B2 (ja) 2005-03-01 2005-03-01 音声処理方法と装置及びプログラム並びに音声システム

Publications (3)

Publication Number Publication Date
JP2006243178A JP2006243178A (ja) 2006-09-14
JP2006243178A5 JP2006243178A5 (ja) 2007-08-30
JP4761506B2 true JP4761506B2 (ja) 2011-08-31

Family

ID=36941053

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005056342A Active JP4761506B2 (ja) 2005-03-01 2005-03-01 音声処理方法と装置及びプログラム並びに音声システム

Country Status (7)

Country Link
US (1) US8065138B2 (ja)
EP (1) EP1855269B1 (ja)
JP (1) JP4761506B2 (ja)
KR (1) KR100931419B1 (ja)
CN (1) CN101138020B (ja)
DE (1) DE602006014096D1 (ja)
WO (1) WO2006093019A1 (ja)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4757158B2 (ja) * 2006-09-20 2011-08-24 富士通株式会社 音信号処理方法、音信号処理装置及びコンピュータプログラム
US8229130B2 (en) * 2006-10-17 2012-07-24 Massachusetts Institute Of Technology Distributed acoustic conversation shielding system
JP5082541B2 (ja) * 2007-03-29 2012-11-28 ヤマハ株式会社 拡声装置
US8140326B2 (en) * 2008-06-06 2012-03-20 Fuji Xerox Co., Ltd. Systems and methods for reducing speech intelligibility while preserving environmental sounds
JP5511342B2 (ja) * 2009-12-09 2014-06-04 日本板硝子環境アメニティ株式会社 音声変更装置、音声変更方法および音声情報秘話システム
JP5489778B2 (ja) * 2010-02-25 2014-05-14 キヤノン株式会社 情報処理装置およびその処理方法
JP5605062B2 (ja) * 2010-08-03 2014-10-15 大日本印刷株式会社 騒音源の快音化方法および快音化装置
JP5569291B2 (ja) * 2010-09-17 2014-08-13 大日本印刷株式会社 騒音源の快音化方法および快音化装置
JP6007481B2 (ja) * 2010-11-25 2016-10-12 ヤマハ株式会社 マスカ音生成装置、マスカ音信号を記憶した記憶媒体、マスカ音再生装置、およびプログラム
WO2012128678A1 (en) 2011-03-21 2012-09-27 Telefonaktiebolaget L M Ericsson (Publ) Method and arrangement for damping of dominant frequencies in an audio signal
JP2014513320A (ja) * 2011-03-21 2014-05-29 テレフオンアクチーボラゲット エル エム エリクソン(パブル) オーディオ信号におけるドミナント周波数を減衰する方法及び装置
US8972251B2 (en) 2011-06-07 2015-03-03 Qualcomm Incorporated Generating a masking signal on an electronic device
US8583425B2 (en) * 2011-06-21 2013-11-12 Genband Us Llc Methods, systems, and computer readable media for fricatives and high frequencies detection
WO2013012312A2 (en) * 2011-07-19 2013-01-24 Jin Hem Thong Wave modification method and system thereof
JP5849508B2 (ja) * 2011-08-09 2016-01-27 株式会社大林組 Bgmのマスキング効果評価方法及びbgmのマスキング効果評価装置
JP5925493B2 (ja) * 2012-01-11 2016-05-25 グローリー株式会社 会話保護システム及び会話保護方法
WO2013187826A2 (en) * 2012-06-15 2013-12-19 Jemardator Ab Cepstral separation difference
US8670986B2 (en) 2012-10-04 2014-03-11 Medical Privacy Solutions, Llc Method and apparatus for masking speech in a private environment
CN103826176A (zh) * 2012-11-16 2014-05-28 黄金富 一种用于汽车司机与乘客之间的司机专用保密耳筒
CN103818290A (zh) * 2012-11-16 2014-05-28 黄金富 一种用于汽车司机与老板的隔声装置
JP2014130251A (ja) * 2012-12-28 2014-07-10 Glory Ltd 会話保護システム及び会話保護方法
JP5929786B2 (ja) * 2013-03-07 2016-06-08 ソニー株式会社 信号処理装置、信号処理方法及び記憶媒体
JP6371516B2 (ja) * 2013-11-15 2018-08-08 キヤノン株式会社 音響信号処理装置および方法
JP6098654B2 (ja) * 2014-03-10 2017-03-22 ヤマハ株式会社 マスキング音データ生成装置およびプログラム
JP7145596B2 (ja) 2017-09-15 2022-10-03 株式会社Lixil 擬音装置
CN108540680B (zh) * 2018-02-02 2021-03-02 广州视源电子科技股份有限公司 讲话状态的切换方法及装置、通话系统
US10757507B2 (en) * 2018-02-13 2020-08-25 Ppip, Llc Sound shaping apparatus
WO2019245916A1 (en) * 2018-06-19 2019-12-26 Georgetown University Method and system for parametric speech synthesis

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3681530A (en) * 1970-06-15 1972-08-01 Gte Sylvania Inc Method and apparatus for signal bandwidth compression utilizing the fourier transform of the logarithm of the frequency spectrum magnitude
US4827516A (en) * 1985-10-16 1989-05-02 Toppan Printing Co., Ltd. Method of analyzing input speech and speech analysis apparatus therefor
JPH0522391A (ja) 1991-07-10 1993-01-29 Sony Corp 音声マスキング装置
JP3557662B2 (ja) * 1994-08-30 2004-08-25 ソニー株式会社 音声符号化方法及び音声復号化方法、並びに音声符号化装置及び音声復号化装置
JPH09319389A (ja) * 1996-03-28 1997-12-12 Matsushita Electric Ind Co Ltd 環境音発生装置
JP3246715B2 (ja) * 1996-07-01 2002-01-15 松下電器産業株式会社 オーディオ信号圧縮方法,およびオーディオ信号圧縮装置
US6904404B1 (en) * 1996-07-01 2005-06-07 Matsushita Electric Industrial Co., Ltd. Multistage inverse quantization having the plurality of frequency bands
JP3266819B2 (ja) * 1996-07-30 2002-03-18 株式会社エイ・ティ・アール人間情報通信研究所 周期信号変換方法、音変換方法および信号分析方法
JP3707153B2 (ja) * 1996-09-24 2005-10-19 ソニー株式会社 ベクトル量子化方法、音声符号化方法及び装置
US6073100A (en) * 1997-03-31 2000-06-06 Goodridge, Jr.; Alan G Method and apparatus for synthesizing signals using transform-domain match-output extension
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
JP3706249B2 (ja) * 1998-06-16 2005-10-12 ヤマハ株式会社 音声変換装置、音声変換方法、および音声変換プログラムを記録した記録媒体
GB9927131D0 (en) * 1999-11-16 2000-01-12 Royal College Of Art Apparatus for acoustically improving an environment and related method
FR2813722B1 (fr) * 2000-09-05 2003-01-24 France Telecom Procede et dispositif de dissimulation d'erreurs et systeme de transmission comportant un tel dispositif
JP3590342B2 (ja) * 2000-10-18 2004-11-17 日本電信電話株式会社 信号符号化方法、装置及び信号符号化プログラムを記録した記録媒体
FR2819362A1 (fr) 2001-01-05 2002-07-12 Rene Travere Attenuateur, brouilleur, de conversation applique au telephone
JP3703394B2 (ja) * 2001-01-16 2005-10-05 シャープ株式会社 声質変換装置および声質変換方法およびプログラム記憶媒体
JP2002251199A (ja) * 2001-02-27 2002-09-06 Ricoh Co Ltd 音声入力情報処理装置
WO2003077425A1 (fr) * 2002-03-08 2003-09-18 Nippon Telegraph And Telephone Corporation Procedes de codage et de decodage signaux numeriques, dispositifs de codage et de decodage, programme de codage et de decodage de signaux numeriques
JP4195267B2 (ja) * 2002-03-14 2008-12-10 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、その音声認識方法及びプログラム
US20030187663A1 (en) * 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
US7143028B2 (en) * 2002-07-24 2006-11-28 Applied Minds, Inc. Method and system for masking speech
US7451082B2 (en) * 2003-08-27 2008-11-11 Texas Instruments Incorporated Noise-resistant utterance detector
JP4336552B2 (ja) * 2003-09-11 2009-09-30 グローリー株式会社 マスキング装置

Also Published As

Publication number Publication date
EP1855269A1 (en) 2007-11-14
EP1855269A4 (en) 2009-04-22
KR20070099681A (ko) 2007-10-09
WO2006093019A1 (ja) 2006-09-08
US20080281588A1 (en) 2008-11-13
KR100931419B1 (ko) 2009-12-11
JP2006243178A (ja) 2006-09-14
EP1855269B1 (en) 2010-05-05
CN101138020B (zh) 2010-10-13
CN101138020A (zh) 2008-03-05
US8065138B2 (en) 2011-11-22
DE602006014096D1 (de) 2010-06-17

Similar Documents

Publication Publication Date Title
JP4761506B2 (ja) 音声処理方法と装置及びプログラム並びに音声システム
Cooke et al. Evaluating the intelligibility benefit of speech modifications in known noise conditions
KR100643310B1 (ko) 음성 데이터의 포먼트와 유사한 교란 신호를 출력하여송화자 음성을 차폐하는 방법 및 장치
Ma et al. Objective measures for predicting speech intelligibility in noisy conditions based on new band-importance functions
Binns et al. The role of fundamental frequency contours in the perception of speech against interfering speech
JP2017538146A (ja) インテリジェントな音声認識および処理のためのシステム、方法、およびデバイス
Nathwani et al. Speech intelligibility improvement in car noise environment by voice transformation
US10176824B2 (en) Method and system for consonant-vowel ratio modification for improving speech perception
Kusumoto et al. Modulation enhancement of speech by a pre-processing algorithm for improving intelligibility in reverberant environments
Deroche et al. Roles of the target and masker fundamental frequencies in voice segregation
JP2014130251A (ja) 会話保護システム及び会話保護方法
JP4680099B2 (ja) 音声処理装置および音声処理方法
Bhattacharya et al. Combined spectral and temporal enhancement to improve cochlear-implant speech perception
JP4785563B2 (ja) 音声処理装置および音声処理方法
Alam et al. Perceptual improvement of Wiener filtering employing a post-filter
JP6087731B2 (ja) 音声明瞭化装置、方法及びプログラム
JP2012008393A (ja) 音声変更装置、音声変更方法および音声情報秘話システム
Liu et al. Application of spectral subtraction method on enhancement of electrolarynx speech
RU2589298C1 (ru) Способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке
Brouckxon et al. Time and frequency dependent amplification for speech intelligibility enhancement in noisy environments
JP5662711B2 (ja) 音声変更装置、音声変更方法および音声情報秘話システム
Jokinen et al. Phase modification for increasing the intelligibility of telephone speech in near-end noise conditions–evaluation of two methods
Song et al. Smart Wristwatches Employing Finger-Conducted Voice Transmission System
Tao et al. Noise reduction in whisper speech based on the auditory masking model
JP5662712B2 (ja) 音声変更装置、音声変更方法および音声情報秘話システム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070711

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070711

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110118

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110318

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110510

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110606

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140617

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350