JP4516157B2 - 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム - Google Patents

音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム Download PDF

Info

Publication number
JP4516157B2
JP4516157B2 JP2009554815A JP2009554815A JP4516157B2 JP 4516157 B2 JP4516157 B2 JP 4516157B2 JP 2009554815 A JP2009554815 A JP 2009554815A JP 2009554815 A JP2009554815 A JP 2009554815A JP 4516157 B2 JP4516157 B2 JP 4516157B2
Authority
JP
Japan
Prior art keywords
speech
ratio
noise
input signal
band
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009554815A
Other languages
English (en)
Other versions
JPWO2010032405A1 (ja
Inventor
良文 廣瀬
孝浩 釜井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Application granted granted Critical
Publication of JP4516157B2 publication Critical patent/JP4516157B2/ja
Publication of JPWO2010032405A1 publication Critical patent/JPWO2010032405A1/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は音声の非周期成分を分析する技術に関するものである。
近年、音声合成技術の発達により、非常に高音質な合成音を作成することが可能となってきた。このような合成音の用途は、例えばニュース文をアナウンサー調で読み上げる等の用途が中心である。
一方で、携帯電話のサービスなどでは、着信音の代わりに有名人の音声メッセージを用いるといったサービスが提供されるなど、所定の特徴を持つ音声(個人再現性の高い合成音や、女子高生風や関西風などの特徴的な韻律および声質を持つ合成音)が一つのコンテンツとして流通しはじめている。
合成音の用途の他の側面として、個人間のコミュニケーションにおける楽しみを増やすために、特徴的な音声を合成して相手に聞かせることに対する要求が高まることが考えられる。
音声の特徴を決定する要因の一つに非周期成分がある。声帯振動を有する有声音中には、ピッチパルスが繰り返し現れる周期的な成分と、その他の非周期的な成分が含まれる。この非周期的な成分は、ピッチ周期の揺らぎ、ピッチ振幅の揺らぎ、ピッチパルス波形の揺らぎ、雑音成分などが含まれる。これらの非周期的な成分は、音声の自然性に大きく影響すると共に、発声者の個人的な特徴にも大きく寄与する(非特許文献1)。
図16(a)、図16(b)は、非周期成分の多さが異なる母音/a/のスペクトログラムである。横軸は時間であり、縦軸は周波数を表す。図16(a)、図16(b)において横方向に見える帯状の線は基本周波数の整数倍の周波数の信号成分である高調波を示している。
図16(a)は、非周期成分が少ない場合であり、高調波は高い周波数帯域まで確認できる。図16(b)は、非周期成分が多い場合であり、中域(X1で示す)までは高調波を確認することができるが、それ以上の周波数帯域では高調波を確認することができない。
このように非周期成分の多い音声は、ハスキーな声の場合などに多く見られる。また、子供に物語を読み聞かせるような優しい声の場合にも、非周期成分は多く見られる。
したがって、非周期成分の正確な分析は、音声の個人特徴の再現に非常に重要である。また、非周期成分を適切に変換することにより、話者変換にも応用することが可能である。
高い周波数帯域での非周期的な成分は、ピッチ振幅およびピッチ周期の揺らぎだけでなく、ピッチ波形の揺らぎおよび雑音成分の有無によっても特徴付けられ、その周波数帯域での調波構造を破壊する。この非周期的な成分が支配的である周波数帯域を特定するために、非特許文献1では、異なる複数の周波数帯域における帯域通過信号の自己相関関数の強度によって、非周期性が強い周波数帯域を判断する方法を用いている。
図17は、非特許文献1における、音声に含まれる非周期成分を分析する音声分析装置900の機能的な構成を示すブロック図である。
図17の音声分析装置900は、時間軸伸縮部901、帯域分割部902、相関関数算出部903a、903b、・・・、903n、境界周波数算出部904から構成される。
時間軸伸縮部901は、入力信号を所定の時間長のフレームに分割し、各フレームに対して時間軸の伸縮を行なう。
帯域分割部902は、時間軸伸縮部901により伸縮された信号を、予め決められた複数の周波数帯域それぞれの帯域通過信号に分割する。
相関関数算出部903a、903b、・・・、903nは、帯域分割部902により分割された各帯域通過信号に対して、自己相関関数を算出する。
境界周波数算出部904は、相関関数算出部903a、903b、・・・、903nにより算出された自己相関関数から周期的な成分が支配的である周波数帯域と非周期的な成分が支配的である周波数帯域との境界周波数を算出する。
入力音声は時間軸伸縮部901により時間軸が伸縮された後、帯域分割部902により周波数分割される。入力音声が分割された各周波数帯域の周波数成分について、自己相関関数を算出し、基本周期T0の時間シフトにおける自己相関値を計算する。各周波数帯域の周波数成分について算出された自己相関値を基に、周期的な成分が支配的である周波数帯域と、非周期的な成分が支配的である周波数帯域とを分割する境界周波数を決定することができる。
大塚貴弘、粕谷英樹「時間周波数領域における連続音声の周期・非周期成分の性質」日本音響学会講演論文集(2001年10月pp.265−266.)
上述の方法で、入力音声に含まれる非周期成分を有する境界周波数を算出することができる。しかしながら、実際の応用では、必ずしも音声の収録環境が実験室のように静かであることは期待できない。例えば、携帯電話での応用を考えた場合、収録される環境は、街中や駅などの比較的雑音が多く含まれる場合が多い。
このような雑音環境下において、非特許文献1の非周期成分分析方法では、背景雑音の影響により、信号の自己相関関数が実際よりも低い値に算出されることにより、非周期成分を過大に評価してしまう問題がある。
図18(a)〜図18(c)は、背景雑音により高調波が雑音に埋没する様子を説明する図である。図18(a)は、実験的に背景雑音を重畳した音声信号の波形を示す。図18(b)は、背景雑音を重畳した音声信号のスペクトログラムを表し、図18(c)は、背景雑音を重畳しない本来の音声信号のスペクトログラムを表す。
本来の音声信号は、図18(c)に表されるように高調波が高周波帯域にも現れており、非周期成分は少ない。ところが背景雑音を重畳した場合、図18(b)のように音声信号が背景雑音に埋もれてしまい、高調波が見えにくくなっている。従って、従来技術における帯域通過信号の自己相関値は低下し、結果として非周期成分が実際よりも多く算出されることになる。
本発明は、前記従来の課題を解決するもので、背景雑音が存在する実用環境においても、正確に非周期成分を分析することができる分析方法を提供することを目的とする。
前記従来の課題を解決するために、本発明の音声分析装置は背景雑音と音声との混合音を表す入力信号から、前記音声に含まれる非周期成分を分析する音声分析装置であって、前記入力信号を、複数の周波数帯域における帯域通過信号に周波数分割する周波数帯域分割部と、前記入力信号が前記背景雑音のみを表す雑音区間と、前記入力信号が前記背景雑音および前記音声を表す音声区間とを識別する雑音区間識別部と、前記音声区間における前記入力信号から分割された各帯域通過信号のパワーと、前記雑音区間における前記入力信号から分割された各帯域通過信号のパワーとの比であるSN比を算出するSNR算出部と、前記音声区間における前記入力信号から分割された各帯域通過信号の自己相関関数を算出する相関関数算出部と、前記算出されたSN比に基づいて、非周期成分比率に関する補正量を決定する補正量決定部と、前記決定された補正量と、前記算出された自己相関関数とに基づいて、前記音声に含まれる非周期成分比率を、前記複数の周波数帯域についてそれぞれ算出する非周期成分比率算出部とを備える。
ここで、前記補正量決定部は、前記算出されたSN比が小さいほど大きな補正量を、前記非周期成分比率に関する補正量として決定してもよい。また、前記非周期成分比率算出部は、前記入力信号の基本周波数の1周期の時間シフトにおける前記自己相関関数の値から前記補正量を減じた補正相関値が小さいほど大きな比率を、前記非周期成分比率として算出してもよい。
また、前記補正量決定部は、SN比と補正量との対応を表す補正規則情報を予め保持し、前記算出されたSN比に対応する補正量を前記補正規則情報から参照し、参照された補正量を前記非周期成分比率に関する補正量として決定してもよい。
ここで、前記補正量決定部は、音声の自己相関値と前記音声に既知のSN比の雑音を重畳した場合の自己相関値との差に基づいて学習されたSN比と補正量との関係を表す近似関数を前記補正規則情報として予め保持し、前記算出されたSN比から前記近似関数の値を算出し、算出された値を前記非周期成分比率に関する補正量として決定してもよい。
また、前記音声分析装置は、さらに、前記音声の基本周波数を予め定められたターゲット周波数に正規化する基本周波数正規化部を備え、前記非周期成分比率算出部は、前記基本周波数が正規化された後の音声を用いて、前記非周期成分比率を算出してもよい。
本発明は、このような音声分析装置として実現できるだけでなく、音声分析方法およびプログラムとしてとして実現することもできる。また、このような音声分析装置で補正量を決定するために用いられる補正規則情報を生成する補正規則情報生成装置、補正規則情報生成方法、およびプログラムとして実現することもできる。さらに、音声分析合成装置および音声分析システムへの応用も可能である。
本発明の音声分析装置によれば、雑音環境下において収録された音声についても、周波数帯域ごとのSN比に基づいて、非周期成分比率を補正することより、雑音の非周期成分への影響を排除し、正確に非周期成分を分析することができる。
つまり、本発明の音声分析装置によれば、背景雑音が存在する街中などの実用環境下においても、正確に音声に含まれる非周期成分を分析することができる。
図1は、本発明の実施の形態1における音声分析装置の機能的な構成の一例を示すブロック図である。 図2は、有声音の振幅スペクトルの一例を示す図である。 図3は、有声音の複数の分割帯域それぞれの帯域通過信号の自己相関関数の一例を示す図である。 図4は、有声音の基本周波数の1周期の時間シフトにおける各帯域通過信号の自己相関値の一例を示す図である。 図5(a)〜(h)は、雑音が自己相関値に与える影響を示す図である。 図6は、本発明の実施の形態1における音声分析装置の動作の一例を示すフローチャートである。 図7は、非周期成分が少ない音声に対する分析結果の一例を示す図である。 図8は、非周期成分が多い音声に対する分析結果の一例を示す図である。 図9は、本発明の応用例における音声分析合成装置の機能的な構成の一例を示すブロック図である。 図10(a)、(b)は、音源波形とその振幅スペクトルの一例を示す図である。 図11は、音源モデル化部がモデル化する音源の振幅スペクトルを示す図である。 図12(a)〜(c)は、合成部による音源波形の合成方法を示す図である。 図13(a)、(b)は、非周期成分に基づいた位相スペクトルの生成方法を示す図である。 図14は、本発明の実施の形態2における補正規則情報生成装置の機能的な構成の一例を示すブロック図である。 図15は、本発明の実施の形態2における補正規則情報生成装置の動作の一例を示すフローチャートである。 図16(a)、(b)は、非周期成分の多さの違いによるスペクトルの影響を示す図である。 図17は、従来の音声分析装置の機能的な構成を示すブロック図である。 図18(a)〜(c)は、背景雑音により高調波が雑音に埋没する様子を示す図である。
以下本発明の実施の形態について、図面を参照しながら説明する。
(実施の形態1)
図1は、本発明の実施の形態1における音声分析装置100の機能的な構成の一例を示すブロック図である。
図1の音声分析装置100は、背景雑音と音声との混合音である入力信号から、前記音声に含まれる非周期成分を分析する装置であり、雑音区間識別部101、有声無声判定部102、基本周波数正規化部103、周波数帯域分割部104、相関関数算出部105a、105b、105c、SNR(Signal Noise Ratio)算出部106a、106b、106c、補正量決定部107a、107b、107c、および非周期成分比率算出部108a、108b、108cから構成される。
音声分析装置100は、例えば、中央処理装置、記憶装置などで構成されるコンピュータシステムであってもよい。その場合、音声分析装置100の各部の機能は、前記中央処理装置が前記記憶装置に記憶されているプログラムを実行することで発揮されるソフトウェアの機能として実現される。また、音声分析装置100の各部の機能は、デジタル信号処理装置、または専用のハードウェア装置を用いて実現することもできる。
雑音区間識別部101は、背景雑音と音声との混合音である入力信号を受け取る。そして、受け取った入力信号を所定の時間長ごとに複数のフレームに分割し、それぞれのフレームが、背景雑音のみが表された雑音区間としての背景雑音フレームであるか、背景雑音および音声が表された音声区間としての音声フレームであるかを識別する。
有声無声判定部102は、雑音区間識別部101により音声フレームであると識別されたフレームを入力として受け付け、入力されたフレームにおける音声が有声音であるか無声音であるかを判定する。
基本周波数正規化部103は、有声無声判定部102により有声音であると判定された声音の基本周波数を分析し、音声の基本周波数を所定のターゲット周波数に正規化する。
周波数帯域分割部104は、基本周波数正規化部103により基本周波数を所定のターゲット周波数に正規化された音声、および雑音区間識別部101により背景雑音フレームであると識別されたフレームに含まれ背景雑音を、予め定められた異なる複数の周波数帯域である分割帯域ごとの帯域通過信号に分割する。以下、音声および背景雑音の周波数分割に用いられる周波数帯域を分割帯域と呼ぶ。
相関関数算出部105a、105b、105cは、周波数帯域分割部104により分割された各帯域通過信号の自己相関関数を算出する。
SNR算出部106a、106b、106cは、周波数帯域分割部104により分割された各帯域通過信号について、音声フレームにおけるパワーと背景雑音フレームにおけるパワーとの比をSN比として算出する。
補正量決定部107a、107b、107cは、SNR算出部106a、106b、106cにより算出されたSN比に基づいて、各帯域通過信号について算出される非周期成分比率に関する補正量を決定する。
非周期成分比率算出部108a、108b、108cは、相関関数算出部105a、105b、105cにより算出された各帯域通過信号の自己相関関数と、補正量決定部107a、107b、107cにより決定された補正量とに基づいて、音声に含まれる非周期成分比率を、分割帯域ごとに算出する。
以下に、各部の動作について詳細に説明する。
<雑音区間識別部101>
雑音区間識別部101は、入力信号を所定の時間ごとに複数のフレームに分割し、分割されたそれぞれのフレームが、背景雑音のみが表された雑音区間としての背景雑音フレームであるか、背景雑音および音声が表された音声区間としての音声フレームであるかを識別する。
ここで、入力信号を例えば50msecごとに分割した各部分をフレームとしてもよい。また、フレームが背景雑音フレームであるか音声フレームであるかの識別方法は特に限定しないが、例えば、入力信号のパワーが所定の閾値を超えているフレームを音声フレームと識別し、その他のフレームを背景雑音フレームと識別してもよい。
<有声無声判定部102>
有声無声判定部102は、雑音区間識別部101によって音声フレームであると識別されたフレームにおける入力信号で表される音声が、有声音であるか無声音であるかを判定する。判定の方法は特に限定しない。例えば、音声の自己相関関数や変形相関関数のピークの大きさが予め定めたしきい値を超える場合に、有声音であると判定してもよい。
<基本周波数正規化部103>
基本周波数正規化部103は、有声無声判定部102で有声フレームであると識別されたフレームにおける入力信号で表される音声の基本周波数を分析する。分析の方法は特に限定しない。例えば、雑音の混入した音声に対して頑健な基本周波数分析方法である、瞬時周波数に基づく基本周波数分析方法(非特許文献2:T.Abe,T.Kobayashi,S.Imai,“Robust pitch estimation with harmonic enhancement in noisy environment based on instantaneous frequency”,ASVA 97,423−430(1996))を用いてもよい。
基本周波数正規化部103は、音声の基本周波数を分析した後、音声の基本周波数を所定のターゲット周波数に正規化する。正規化の方法は特に限定しない。例えば、PSOLA(Pitch−Synchronous OverLap−Add)法(非特許文献3:F.Charpentier,M.Stella,“Diphone synthesis using an over−lapped technique for speech waveforms concatenation”,Proc.ICASSP,2015−2018,Tokyo,1986)により音声の基本周波数を変更し、所定のターゲット周波数に正規化することが可能である。
これにより、韻律が自己相関関数に与える影響を軽減できる。
なお、音声を正規化する際のターゲット周波数は、特に限定しないが、例えば、ターゲット周波数を音声の所定の区間(全体であってもよい)における基本周波数の平均値に設定することで、基本周波数の正規化処理によって生じる音声の歪みを緩和することが可能となる。
例えば、PSOLA法では、基本周波数を大幅に上昇させた場合は、同一ピッチ波形を繰り返し使用することになるために、過大に自己相関値を上昇させる可能性がある。一方、基本周波数を大幅に下降させた場合は、欠落するピッチ波形が多くなり、音声の情報を失う可能性がある。従って、なるべく変更する量を小さくできるようにターゲット周波数を決定することが望ましい。
<周波数帯域分割部104>
周波数帯域分割部104は、基本周波数正規化部103により基本周波数を正規化された音声、および雑音区間識別部101により背景雑音フレームであると識別されたフレームにおける背景雑音を、予め決定された複数の周波数帯域である分割帯域ごとの帯域通過信号に分割する。
分割の方法は特に限定しない。例えば、分割帯域ごとにフィルタを設計し、入力信号をフィルタリング処理することにより、入力信号を各帯域通過信号に分割してもよい。
分割帯域として予め決定される複数の周波数帯域は、例えば入力信号のサンプリング周波数が11kHzである場合、0〜5.5kHzを含む周波数帯域を等間隔に8等分してなる0〜689Hz、689〜1378Hz、1378〜2067Hz、2067Hz〜2756Hz,2756〜3445Hz、3445Hz〜4134Hz、4134Hz〜4823Hz、および4823Hz〜5512Hzの各周波数帯域であってもよい。このようにすることで、各分割帯域における帯域通過信号に含まれる非周期成分比率を個別に算出することが可能となる。
なお、本実施の形態の説明では、入力信号を8個の分割帯域それぞれの帯域通過信号に分割する例を用いるが、8個に限定せず、4個や16個などに分割してもよい。分割帯域数を多くすることにより、非周期成分の周波数分解能を高くすることができる。ただし、分割された各帯域通過信号は、相関関数算出部105a〜105cにより自己相関関数を算出し、周期性の強度を算出するため、帯域内に複数の基本周期分の信号が含まれていることが望ましい。例えば、基本周期が200Hzの音声の場合、各分割帯域の帯域幅は400Hz以上になるように分割するとよい。
また、周波数帯域を等間隔に分割しなくてもよく、聴覚特性に合わせて、例えばメル周波数軸を用いて不等間隔に分割してもよい。
以上の条件に合致するように入力信号の帯域を分割することが望ましい。
<相関関数算出部105a、105b、105c>
相関関数算出部105a、105b、105cは、周波数帯域分割部104により分割された各帯域通過信号の自己相関関数を算出する。i番目の帯域通過信号をxi(n)とすると、xi(n)の自己相関関数φi(m)は式1で表すことができる。
Figure 0004516157
ここで、Mは1つのフレームに含まれる標本点の数、nは標本点の番号、mは標本点のオフセット値である。
基本周波数正規化部103で分析された音声の基本周波数の1周期に含まれる標本点の数をτ0とすると、算出された自己相関関数φi(m)のm=τ0における値が、基本周波数の1周期の時間シフトにおけるi番目の帯域通過信号xi(n)の自己相関値を表す。つまり、φi(τ0)は、i番目の帯域通過信号xi(n)の周期性の強さを示すことになる。従って、φi(τ0)が大きいほど周期性が強く、φi(τ0)が小さいほど非周期性が強いと言うことができる。
図2は、/a/と発声された母音区間の時間中心のフレームにおける振幅スペクトルの一例を示す図である。0〜4500Hzまでは、高調波が確認でき、周期性が強い音声であることがわかる。
図3は、母音/a/の中心フレームにおける1番目の帯域通過信号(周波数帯域0〜689Hz)の自己相関関数の一例を示す図である。図3では、φ1(τ0)=0.93が、1番目の帯域通過信号の周期性の強さとなる。同様に2番目以降の帯域通過信号の周期性も算出することができる。
低域の帯域通過信号の自己相関関数の変動は比較的緩やかであるが、高域の帯域通過信号の自己相関関数は変動が激しいため、m=τ0において必ずしもピーク値を取るとは限らない。その場合は、m=τ0の周辺の数個の標本点における最大値を周期性として算出するようにしてもよい。
図4は、前述の母音/a/の中心フレームにおける1番目から8番目までの各帯域通過信号の自己相関関数のm=τ0における値をプロットした図である。図4において、1番目から7番目までの帯域通過信号では、0.9以上という高い自己相関値を示しており、周期性が高いといえる。一方、8番目の帯域通過信号では、自己相関値が0.5程度であり、周期性が低くなっていることがわかる。このように基本周波数の1周期の時間シフトにおける各帯域通過信号の自己相関値を用いることで、音声の分割帯域ごとの周期性の強さを算出することが可能である。
<SNR算出部106a、106b、106c>
SNR算出部106a、106b、106cは、背景雑音フレームにおける入力信号から分割された各帯域通過信号のパワーを算出し、算出されたパワーを示す値を保持すると共に、新たな背景雑音フレームのパワーを算出した場合、新たに算出されたパワーを示す値で保持されている値を更新する。これにより、SNR算出部106a、106b、106cには、直近の背景雑音のパワーが保持される。
また、SNR算出部106a、106b、106cは、音声フレームにおける入力信号から分割された各帯域通過信号のパワーを算出し、分割帯域ごとに、算出された音声フレームにおけるパワーと、保持されている直近の背景雑音フレームにおけるパワーとの比をSN比として算出する。
例えば、i番目の帯域通過信号について、直近の背景雑音フレームのパワーをPi Nとし、音声フレームのパワーをPi Sとすると、音声フレームのSN比SNRiは、式2で算出される。
Figure 0004516157
なお、SNR算出部106a、106b、106cは、所定期間または所定数の複数の背景雑音フレームについて算出されたパワーの平均値を保持し、保持されたパワーの平均値を用いてSN比を算出してもよい。
<補正量決定部107a、107b、107c>
補正量決定部107a、107b、107cは、SNR算出部106a、106b、106cにより算出されたSN比に基づいて、非周期成分比率算出部108a、108b、108cが算出する非周期成分比率の補正量を決定する。
次に具体的な補正量の決定方法について説明する。
相関関数算出部105a、105b、105cにより算出される自己相関値φi(τ0)は、背景雑音により影響を受ける。具体的には、背景雑音により帯域通過信号の振幅および位相が乱されることにより波形の周期構造が乱れる結果、自己相関値が低下する。
図5(a)〜図5(h)は、相関関数算出部105a、105b、105cが算出する自己相関値φi(τ0)の雑音による影響を学習するための実験の結果を説明する図である。この実験では、分割帯域ごとに、雑音を付加しない音声について算出される自己相関値と、前記音声に種々の大きさの雑音を付加した混合音について算出される自己相関値とを比較した。
図5(a)〜図5(h)の各グラフにおいて、横軸は各帯域通過信号のSN比であり、縦軸は、雑音を付加しない音声について算出される自己相関値と、前記音声に雑音を付加した混合音について算出される自己相関値との差を表す。1つの点は1つのフレームにおける、雑音の有無による自己相関値の差を表す。また、白線はそれらの点を多項式によって近似した曲線を表す。
図5(a)〜図5(h)より、SN比と自己相関値の差との間には一定の関係があることがわかる。つまり、SN比が高いほど、差は零に近づき、SN比が低いほど、差は大きくなる。さらに、この関係は各分割帯域で類似した傾向を持っていることがわかる。
この関係から、背景雑音と音声との混合音について算出された自己相関値を、SN比に応じた量補正することによって、雑音を含まない音声の自己相関値を算出することが可能になると考えられる。
SN比に応じた補正量は、SN比と雑音の有無による自己相関値の差との関係を表す上述の近似関数によって決定することが可能である。
なお、近似関数の種類は特に限定するものではなく、多項式や指数関数、対数関数などを用いることができる。
例えば、近似関数に3次の多項式を用いた場合は、補正量Cは、式3のようにSN比(SNR)の3次関数として表すことができる。
Figure 0004516157
補正量を式3のようにSN比の関数として保持する代わりに、SN比と補正量とを対応付けてテーブルで保持し、SNR算出部106a、106b、106cで算出されたSN比に応じた補正量をテーブルから参照してもよい。
補正量は、周波数帯域分割部104で分割された帯域通過信号ごとに個別に決定してもよいし、全ての分割帯域で共通に決定してもよい。共通に決定する場合は、関数またはテーブルの記憶量を削減することができる。
<非周期成分比率算出部108a、108b、108c>
非周期成分比率算出部108a、108b、108cは、相関関数算出部105a、105b、105cにより算出された自己相関関数と、補正量決定部107a、107b、107cにより決定された補正量とに基づいて非周期成分比率を算出する。
具体的には、i番目の帯域通過信号の非周期成分比率APiを式4で定義する。
Figure 0004516157
ここで、φi(τ0)は相関関数算出部105a、105b、105cで算出されたi番目の帯域通過信号の基本周波数の1周期の時間シフトにおける自己相関値を表し、Ciは、補正量決定部107a、107b、107cにより決定された補正量を表す。
次に、このように構成された音声分析装置100の動作の一例を、図6に示すフローチャートに従って説明する。
ステップS101では入力された音声を、予め決められた時間長ごとに複数のフレームに分割する。分割された各フレームに対して、ステップS102からステップS113までを実行する。
ステップS102では、雑音区間識別部101を用いて、フレームが音声を含む音声フレームであるか、または背景雑音のみを含む背景雑音フレームであるかを識別する。
ステップS102において、背景雑音フレームであると識別されたフレームについて、ステップS103を実行する。他方、音声フレームであると識別されたフレームについてステップS105を実行する。
ステップS103では、ステップS102で背景雑音フレームであると識別されたフレームについて、周波数帯域分割部104を用いて、当該フレームにおける背景雑音を予め決められた複数の周波数帯域である分割帯域それぞれの帯域通過信号に分割する。
ステップS104では、ステップS103において分割されたそれぞれの帯域通過信号のパワーを、SNR算出部106a、106b、106cを用いて算出する。算出されたパワーは、直近の背景雑音の分割帯域ごとのパワーとしてSNR算出部106a、106b、106cに保持される。
ステップS105では、ステップS102で音声フレームであると識別されたフレームに対して、有声無声判定部102を用いて、当該フレームにおける音声が有声音であるか無声音であるかを判定する。
ステップS106では、ステップS105で音声が有声音であると判定されたフレームに対して、基本周波数正規化部103を用いて、当該フレームの音声の基本周波数を分析する。
ステップS107では、基本周波数正規化部103を用いて、ステップS106で分析された基本周波数を基に、音声の基本周波数を予め設定されたターゲット周波数に正規化する。
ステップS108では、ステップS107で基本周期が正規化された音声を、周波数帯域分割部104を用いて、背景雑音の分割に用いた分割帯域と同じ分割帯域それぞれの帯域通過信号に分割する。
ステップS109は、ステップS108で分割されたそれぞれの帯域通過信号に対して、相関関数算出部105a、105b、105cを用いて帯域通過信号の自己相関関数を算出する。
ステップS110では、SNR算出部106a、106b、106cを用いて、ステップS108で分割された帯域通過信号と、ステップS104により保持されている直近の背景雑音のパワーからSN比を算出する。具体的には式2に示すSNRを算出する。
ステップS111では、ステップS110で算出されたSN比を基に、各帯域通過信号の非周期成分比率を算出する際の自己相関値の補正量を決定する。具体的には、式3に示す関数の値を算出するかまたはテーブルを参照することにより補正量を決定する。
ステップS112では、非周期成分比率算出部108a、108b、108cを用いて、ステップS109により算出された各帯域通過信号の自己相関関数と、ステップS111で決定された補正量に基づいて、非周期成分比率を分割帯域ごとに算出する。具体的には式4を用いて非周期成分比率APiを算出する。
ステップS102からステップS113までを各フレームについて繰り返すことにより、全ての音声フレームにおける非周期成分比率を算出することができる。
図7は、音声分析装置100による入力音声の非周期成分の分析結果を示す図である。
図7は、非周期成分の少ない音声の有声音の1フレームの各帯域通過信号の自己相関値φi(τ0)をプロットしたグラフである。図7において、グラフ(a)は、背景雑音を含まない音声について算出された自己相関値であり、グラフ(b)は、背景雑音を加えた音声について算出された自己相関値である。グラフ(c)は、背景雑音を加えた上で、SNR算出部106a、106b、106cにより算出されたSN比に基づいて補正量決定部107a、107b、107cで決定された補正量を考慮した自己相関値である。
図7から分かるように、グラフ(b)では背景雑音により各帯域通過信号の位相スペクトルが乱されることにより、相関値が低下しているが、グラフ(c)では、本発明の特徴構成によって自己相関値が補正される結果、雑音なしの場合とほぼ同じ自己相関値を得ることができている。
一方、図8は、非周期成分の多い音声について、同様の分析を行った場合の結果である。図8において、グラフ(a)は、背景雑音を含まない音声について算出された自己相関値を表し、グラフ(b)は、背景雑音を加えた音声について算出された自己相関値を表す。グラフ(c)は、背景雑音を加えた上で、SNR算出部106a、106b、106cにより算出されたSN比に基づいて補正量決定部107a、107b、107cで決定された補正量を考慮した自己相関値を表す。
図8に示す分析結果が得られた音声は、高域の非周期性が多い音声であるが、図7に示す分析結果と同様、補正量決定部107a、107b、107cにより決定された補正量を考慮することにより、雑音を付加しない音声の自己相関値を表すグラフ(a)とほぼ同じ自己相関値を得ることができる。
つまり、非周期成分が多い音声、および非周期成分が少ない音声のいずれについても、雑音による自己相関値への影響を良好に補正し、正確に非周期成分比率を分析することが可能となる。
以上のことから、本発明の音声分析装置によれば、背景雑音が存在する雑踏などの実用環境下においても、雑音の影響を除去し正確に音声に含まれる非周期成分比率を分析することができる。
さらに、補正量は分割帯域ごとに、帯域通過信号のパワーと背景雑音のパワーとの比であるSN比を基に決定するため、予め雑音の種類を特定することなく、処理することができる。つまり、背景雑音の種類が白色雑音であるかピンク雑音であるかなどの事前知識がなくとも非周期成分比率を正確に分析することが可能である。
また、分析の結果得られた分割帯域ごとの非周期成分比率を発声者の個人特徴として利用することで、例えば発声者に似せた合成音声の生成や発声者の個人識別を行うことができる。背景雑音が存在する環境下で音声の非周期成分比率が正確に分析できることは、非周期成分比率を利用したそのような応用にも優れた効果をもたらす。
例えば、カラオケなどにおける声質変換への応用において、発声者の音声を、他の発声者の声質に似せて変換する場合を考えると、カラオケルームなどで不特定多数の人による背景雑音が存在する場合においても、発声者の音声の非周期成分比率を正確に分析できることにより、変換後の音声が他の発声者の声質によく類似するという効果が得られる。
また、携帯電話を用いた個人識別への応用において、識別すべき音声が駅などの雑踏で発せられた場合でも非周期成分比率を正確に分析できることにより、高信頼度の個人識別を行なうことができるという効果が得られる。
以上説明したように、本発明にかかる音声分析装置によれば、背景雑音と音声との混合音を複数の帯域通過信号に周波数分割し、各帯域通過信号について算出される自己相関値を、帯域通過信号のSN比に応じた補正量で補正した後の自己相関値を用いて非周期成分比率を算出するので、背景雑音が存在する実用環境下においても、音声そのものの非周期成分比率を分割帯域ごとに正確に分析することができる。
各帯域通過信号の非周期成分比率は、発声者の個人特徴として、発声者に似せた合成音声の生成や発声者の個人識別に利用できる。本発明にかかる音声分析装置を用いることで、非周期成分比率を利用するそのような応用において、合成音声の発声者類似性を高め、また個人識別の信頼度を向上することができる。
(音声分析合成装置への応用例)
以下に、本発明の音声分析装置の応用例として、分析で得られた非周期成分比率を用いて合成音声を生成する音声分析合成装置および方法について説明する。
図9は、本発明の応用例における音声分析合成装置500の機能的な構成の一例を示すブロック図である。
図9の音声分析合成装置500は、背景雑音と第1音声との混合音を表す第1入力信号、および第2音声を表す第2入力信号を分析し、第2入力信号で表される第2音声に第1入力信号で表される第1音声の非周期成分を再現する装置であり、音声分析装置100、声道特徴分析部501、逆フィルタ部502、音源モデル化部503、合成部504、および非周期成分スペクトル算出部505から構成される。
なお、第1音声と、第2音声は、同一の音声でもよい。その場合は、第1音声の非周期成分は、第2音声の同じ時刻に適用される。第1音声と第2音声が異なる場合は、第1音声と第2音声の時間的対応を予め取得し、対応する時刻の非周期成分を再現することになる。
音声分析装置100は、図1に示す音声分析装置100であり、複数の分割帯域それぞれについて、第1入力信号で表される第1音声の非周期成分比率を出力する。
声道特徴分析部501は、第2入力信号で表される第2音声に対してLPC(Linear Predictive Coding)分析を行い、第2音声の発声者の声道特徴に相当する線形予測係数を算出する。
逆フィルタ部502は、声道特徴分析部501により分析された線形予測係数を用いて、第2入力信号で表される第2音声の逆フィルタリングを行ない、第2音声の発声者の音源特徴に相当する逆フィルタ波形を算出する。
音源モデル化部503は、逆フィルタ部502により出力された音源波形をモデル化する。
非周期成分スペクトル算出部505は、音声分析装置100の出力である周波数帯域別の非周期成分比率から、非周期成分比率の大きさの周波数分布を表す非周期成分スペクトルを算出する。
合成部504は、声道特徴分析部501により分析された線形予測係数と、音源モデル化部503により分析された音源パラメータと、非周期成分スペクトル算出部505により算出された非周期成分スペクトルとを入力として受付け、第2音声に第1音声の非周期成分を合成する。
<声道特徴分析部501>
声道特徴分析部501は、第2入力信号で表される第2音声に対して線形予測分析を行う。線形予測分析は、音声波形のある標本値ynをそれより前のp個の標本値から予測する処理であり、予測に用いるモデル式は式5のように表せる。
Figure 0004516157
p個の標本値に対する係数αiは、相関法や共分散法などを用いることにより算出できる。算出した係数αiを用いてz変換を定義することにより、音声信号は式6で表すことができる。
Figure 0004516157
ここで、U(z)は、入力音声S(z)を1/A(z)で逆フィルタリングした信号を表す。
<逆フィルタ部502>
逆フィルタ部502は、声道特徴分析部501により分析された線形予測係数を用いて、その周波数応答の逆特性を持つフィルタを形成し、第2入力信号で表される第2音声をフィルタリングすることにより、音声の音源波形を抽出する。
<音源モデル化部503>
図10(a)は、逆フィルタ部502から出力された波形の一例を示す図である。図10(b)は、その振幅スペクトルを示す図である。
逆フィルタは、音声から声道(vocal tract)の伝達特性(transfer characteristics)を除去することによって声帯音源の情報を推定する演算を表す。ここでは、Rosenberg−Klattモデルなどで仮定される微分声門体積流波形(differentiated glottal volume velocity waveform)に類似した時間波形が得られている。Rosenberg−Klattモデルの波形よりも微細な構造を有しているが、これはRosenberg−Klattモデルが単純な関数を用いたモデルであり、個々の声帯波形が持つ時間的な変動や、それ以外の複雑な振動を表現することができないためである。
このようにして推定された声帯音源波形(以下、音源波形)を、次のような方法でモデル化する。
1.音源波形の声門閉鎖時刻を1ピッチ周期毎に推定する。推定には、例えば特許文献1:特許第3576800号に開示される方法を用いることができる。
2.声門閉鎖時刻を中心にピッチ周期ごとに切り出しを行う。切り出しにはピッチ周期の2倍程度の長さのHanning窓関数を用いる。
3.切り出された波形を離散フーリエ変換(Discrete Fourier Transform、以下DFT)により周波数領域(Frequency Domain)の表現に変換する。
4.DFTの各周波数成分から位相成分を除去することにより振幅スペクトル情報を作る。位相成分を除去するには複素数で表された周波数成分を次の式7によって絶対値に置き換える。
Figure 0004516157
ここでzは絶対値、xは実数部、yは虚数部を表す。
図11は、このようにして作成された音源の振幅スペクトルを表す図である。
図11において、実線のグラフは、連続波形に対してDFTを行った場合の振幅スペクトルを表す。連続波形には基本周波数に伴う倍音構造が含まれるため、得られる振幅スペクトルは複雑に変化し、基本周波数などの変更処理が難しい。一方、破線のグラフは、音源モデル化部503を用いて、1ピッチ周期を切り出した孤立波形に対してDFTを行なった場合の振幅スペクトルを表す。
図11からも分かるように、孤立波形に対してDFTを行うことで、基本周期の影響を受けずに、連続波形の振幅スペクトルの包絡に対応した振幅スペクトルを得ることができる。このようにして取得した音源の振幅スペクトルを用いることにより、基本周波数などの音源情報の変更が可能となる。
<合成部504>
合成部504は、声道特徴分析部501により分析されたフィルタを、音源モデル化部により分析された音源パラメータに基づく音源で駆動し、合成音声を生成する。このとき、本発明の音声分析装置により分析された非周期成分比率を用いて、音源波形の位相情報を変換することにより、第1音声に含まれる非周期成分を合成音声中に再現する。音源波形の生成方法の一例について、詳細を図12(a)〜図12(c)を用いて説明する。
音源モデル化部503によりモデル化された音源パラメータの振幅スペクトルを、図12(a)のようにナイキスト周波数(サンプリング周波数の2分の1)を境に折り返し、対称な振幅スペクトルを作成する。
こうして作成された振幅スペクトルをIDFT(Inverse Discrete Fourier Transform)によって時間波形に変換する。このようにして変換された波形は図12(b)のように左右が対称の1ピッチ周期分の波形であるので、これを図12(c)のように所望のピッチ周期になるように重ね合わせて配置することにより一連の音源波形を生成する。
図12(a)の振幅スペクトルは位相情報を有していない。この振幅スペクトルに対し、音声分析装置100により第1音声を分析して得られた周波数帯域毎の非周期成分比率を用いて、周波数分布を持った位相情報(以下、位相スペクトルという)を付加することにより、第2音声に対して第1音声の非周期成分を合成することが可能となる。
以下、図13(a)、図13(b)を用いて位相スペクトルの付加の方法を説明する。
図13(a)は、縦軸を位相、横軸を周波数として、位相スペクトルθrの一例をプロットしたグラフである。実線のグラフは、音源のある1ピッチ周期の波形に対して付加すべき位相スペクトルを表しており、周波数帯域を制限された乱数系列である。また、ナイキスト周波数を境に点対称とする。破線のグラフは、その乱数系列に与えたゲインを表す。図13(a)では、低い周波数から高い周波数(ナイキスト周波数)にかけて増加するカーブでゲインを与えている。このゲインは、非周期成分の大きさの周波数分布に従って与えられる。
非周期成分の大きさの周波数分布を非周期成分スペクトルと呼び、図13(b)に示すように周波数帯域ごとに算出された非周期成分比率を周波数軸において補間することによって求める。図13(b)では、一例として、4つの周波数帯域それぞれについて算出された非周期成分比率APiを周波数軸において線形補間した非周期成分スペクトルwη(l)を示している。補間を行わず、各周波数帯域の非周期成分比率APiを周波数帯域内の全ての周波数として用いてもよい。
具体的には、1ピッチ周期分の音源波形g(n)(例えば図12(b))の群遅延をランダマイズした音源波形g’(n)を求める場合、位相スペクトルθrを式8a〜式8cのように設定する。
Figure 0004516157
ここで、NはFFT(Fast Fourier Transform)サイズ、r(l)は周波数帯域を制限された乱数系列、σrはr(l)の標準偏差、wη(l)は周波数lにおける非周期成分比率である。図13(a)は、生成された位相スペクトルθrの一例である。
以上のように生成された位相スペクトルθrを用いると、非周期成分を付加した音源波形g’(n)は、式9a、式9bに従って生成することが可能である。
Figure 0004516157
ここで、G(2π/N・k)はg(n)のDFT係数であり、式10で表される。
Figure 0004516157
以上のように生成された位相スペクトルθrに応じた非周期成分を付加した音源波形g’(n)を用いて、1ピッチ周期分の波形を合成することができる。これを図12(c)と同様にピッチ周期になるように重ね合わせて配置することにより一連の音源波形を生成する。乱数系列には毎回異なる系列を用いる。
このようにして生成された音源波形を、合成部504を用いて、声道特徴分析部501により分析された声道フィルタを駆動することにより、非周期成分を付加した音声を生成することができる。このため、各周波数帯域に対応したランダムな位相を付加することにより、有声音源に気息性(breathiness)や柔らかさ(softness)を付加することができる。
従って、雑音環境下において発声された音声を用いた場合においても、個人特徴である気息性(breathiness)や柔らかさ(softness)などの非周期成分を再現することが可能となる。
(実施の形態2)
実施の形態1では、雑音により音声の自己相関値が影響を受ける量(すなわち、音声について算出される自己相関値と前記音声と雑音との混合音について算出される自己相関値との差の大きさ)と、前記音声と前記雑音とのSN比との間に、適切な補正規則情報(例えば、3次多項式で表される近似関数)で表すことができる一定の関係があることを説明した。
また、音声分析装置100の補正量決定部107a〜107cは、背景雑音と音声との混合音について算出された自己相関値を、前記補正規則情報からSN比に応じて決まる補正量で補正することにより、雑音を含まない音声の自己相関値を算出することを説明した。
本発明の実施の形態2では、音声分析装置100の補正量決定部107a〜107cにおいて補正量の決定に用いられる補正規則情報を生成する補正規則情報生成装置について説明する。
図14は、本発明の実施の形態2における補正規則情報生成装置200の機能的な構成の一例を示すブロック図である。図14には、補正規則情報生成装置200とともに、実施の形態1で説明した音声分析装置100が示されている。
図14の補正規則情報生成装置200は、予め用意された音声を表す入力信号と予め用意された雑音を表す入力信号とから、前記音声の自己相関値と前記音声と前記雑音との混合音の自己相関値との差と、SN比との関係を表す補正規則情報を生成する装置であり、有声無声判定部102、基本周波数正規化部103、加算器302、周波数帯域分割部104x、104y、相関関数算出部105x、105y、差分器303、SNR算出部106、および補正規則情報生成部301から構成される。
補正規則情報生成装置200の構成要素のうち、音声分析装置100の構成要素と共通の機能を持つ構成要素には、共通の符号を付して示す。
補正規則情報生成装置200は、例えば、中央処理装置、記憶装置などで構成されるコンピュータシステムであってもよい。その場合、補正規則情報生成装置200の各部の機能は、前記中央処理装置が前記記憶装置に記憶されているプログラムを実行することで発揮されるソフトウェアの機能として実現される。また、補正規則情報生成装置200の各部の機能は、デジタル信号処理装置、または専用のハードウェア装置を用いて実現することもできる。
補正規則情報生成装置200における有声無声判定部102は、予め用意された音声を所定の時間長ごとに表す複数の音声フレームを受け取り、受け取った各音声フレームにおける音声が有声音であるか無声音であるかを判定する。
基本周波数正規化部103は、有声無声判定部102により有声音であると判定された声音の基本周波数を分析し、音声の基本周波数を所定のターゲット周波数に正規化する。
周波数帯域分割部104xは、基本周波数正規化部103により基本周波数を所定のターゲット周波数に正規化された音声を、予め定められた異なる複数の周波数帯域である分割帯域ごとの帯域通過信号に分割する。
加算器302は、予め用意された雑音を表す雑音フレームと、基本周波数正規化部103により基本周波数を所定のターゲット周波数に正規化された音声を表す音声フレームとを混合することにより、前記雑音と前記音声との混合音を表す混合音フレームを合成する。
周波数帯域分割部104yは、加算器302で合成された混合音を、周波数帯域分割部104xで用いられる分割帯域と同じ分割帯域ごとの帯域通過信号に分割する。
SNR算出部106は、分割帯域ごとに、周波数帯域分割部104xにより得られた音声データの各帯域通過信号と、周波数帯域分割部104yにより得られた混合音の帯域通過信号とのパワーの比をSN比として算出する。SN比は、分割帯域ごと、かつフレームごとに算出される。
相関関数算出部105xは、周波数帯域分割部104xにより得られた音声データの各帯域通過信号の自己相関関数を算出することにより自己相関値を求め、相関関数算出部105yは、周波数帯域分割部104yにより得られた音声と雑音との混合音の各帯域通過信号の自己相関関数を算出することにより自己相関値を求める。それぞれの自己相関値は、基本周波数正規化部103による分析結果である音声の基本周波数の1周期の時間シフトにおける自己相関関数の値として求められる。
差分器303は、相関関数算出部105xで求めた音声の各帯域通過信号の自己相関値と、相関関数算出部105yで求めた各混合音の対応する帯域通過信号の自己相関値との差を算出する。差は、分割帯域ごと、かつフレームごとに算出される。
補正規則情報生成部301は、分割帯域ごとに、雑音により音声の自己相関値が影響を受ける量(すなわち、差分器303により算出された差)と、SNR算出部106により算出されたSN比との関係を表す補正規則情報を生成する。
次に、このように構成された補正規則情報生成装置200の動作の一例を、図15に示すフローチャートに従って説明する。
ステップS201では、雑音フレームと複数の音声フレームとを受け取り、受け取った音声フレームのそれぞれと雑音フレームとの組に対して、ステップS202からステップS210までを実行する。
ステップS202では、有声無声判定部102を用いて、対象としている音声フレームにおける音声が有声音であるか無声音であるかを判定する。有声音と判定された場合は、ステップS203からステップS210を実行する。無声音と判定された場合には、次の組の処理を行なう。
ステップS203では、ステップS202で音声が有声音であると判定されたフレームに対して、基本周波数正規化部103を用いて、当該フレームの音声の基本周波数を分析する。
ステップS204では、基本周波数正規化部103を用いて、ステップS203で分析された基本周波数を基に、音声の基本周波数を予め設定されたターゲット周波数に正規化する。
正規化するターゲット周波数は特に限定されるものではなく、予め決められた周波数に正規化してもよく、また、入力された音声の平均的な基本周波数に正規化するようにしてもよい。
ステップS205では、ステップS204で基本周期が正規化された音声を、周波数帯域分割部104xを用いて、分割帯域ごとの帯域通過信号に分割する。
ステップS206では、ステップS205で音声から分割されたそれぞれの帯域通過信号の自己相関関数を、相関関数算出部105xを用いて算出し、ステップS203で算出された基本周波数の逆数で表される基本周期の位置における自己相関関数の値を音声の自己相関値とする。
ステップS207では、ステップS204で基本周波数が正規化された音声フレームと、雑音フレームとを混合し、混合音を生成する。
ステップS208では、ステップS207で生成された混合音を、周波数帯域分割部104yを用いて、分割帯域ごとの帯域通過信号に分割する。
ステップS209では、ステップS208で混合音から分割されたそれぞれの各帯域通過信号の自己相関関数を、相関関数算出部105yを用いて算出し、ステップS203で算出した基本周波数の逆数で表される基本周期の位置における自己相関関数の値を混合音の自己相関値とする。
なお、ステップS205〜S206の処理と、ステップS207〜S209の処理とは、並行して実行してもよく、逐次実行してもよい。
ステップS210では、ステップS205で算出された音声の帯域通過信号と、ステップS208で算出された混合音の帯域通過信号とから、SNR算出部106を用いて、分割帯域ごとにSN比を算出する。算出の方法は、式2に示すように実施の形態1と同じ方法でよい。
ステップS211では、音声フレームと雑音フレームとの全ての組に対してステップS202からステップS210までの処理が実行されるまで繰り返しを制御する。その結果、分割帯域ごとかつフレームごとに、音声と雑音とのSN比、音声の自己相関値、および混合音の自己相関値が求まる。
ステップS212では、補正規則情報生成部301を用いて、分割帯域ごとかつフレームごとに求められた、音声と雑音とのSN比、混合音の自己相関値、および音声の自己相関値から補正規則情報を生成する。
具体的には、ステップS203で算出された音声の自己相関値とステップS209で算出された混合音の自己相関値との差である補正量と、ステップS210で算出された音声フレームと混合音フレームとのSN比とを、分割帯域ごとかつフレームごとに保持することにより、図5(a)〜(h)に示すような分布を得る。
この分布を表す補正規則情報を生成する。例えば、この分布を式3に示すような3次の多項式で近似する場合、回帰分析により多項式の各係数が補正規則情報として生成される。なお、実施の形態1で述べたように、補正規則情報は、SN比と補正量とを対応付けて保持したテーブルで表してもよい。このようにして、分割帯域ごとに、SN比から自己相関値の補正量を示す補正規則情報(例えば近似関数やテーブル)が生成される。
以上のようにして生成された補正規則情報は、音声分析装置100の補正量決定部107a〜107cへ出力される。音声分析装置100は、与えられた補正規則情報を用いて動作することにより、背景雑音が存在する雑踏などの実環境下においても、雑音の影響を除去し正確に音声に含まれる非周期成分を分析することができる。
さらに、補正量は分割帯域ごとの帯域通過信号と帯域別雑音とのパワー比で算出するため、予め雑音の種類を特定する必要がない。つまり、背景雑音の種類が白色雑音であるかピンク雑音であるかなどの事前知識がなくとも非周期成分を正確に分析することが可能であるという効果を有する。
本発明にかかる音声分析装置は、背景雑音が存在する実用環境下においても音声に含まれる個人特徴である非周期成分比率を正確に分析する装置として有用である。また、分析した非周期成分比率を個人特徴として利用した音声合成および個人識別などへの応用としても有用である。
100、900 音声分析装置
101 雑音区間識別部
102 有声無声判定部
103 基本周波数正規化部
104、104x、104y 周波数帯域分割部
105a、105b、105c、105x、105y 相関関数算出部
106、106a、106b、106c SNR算出部
107a、107b、107c 補正量決定部
108a、108b、108c 非周期成分比率算出部
200 補正規則情報生成装置
301 補正規則情報生成部
302 加算器
303 差分器
500 音声分析合成装置
501 声道特徴分析部
502 逆フィルタ部
503 音源モデル化部
504 合成部
505 非周期成分スペクトル算出部
901 時間軸伸縮部
902 帯域分割部
903a、903b、903n 相関関数算出部
904 境界周波数算出部

Claims (15)

  1. 背景雑音と音声との混合音を表す入力信号から、前記音声に含まれる非周期成分を分析する音声分析装置であって、
    前記入力信号を、複数の周波数帯域における帯域通過信号に周波数分割する周波数帯域分割部と、
    前記入力信号が前記背景雑音のみを表す雑音区間と、前記入力信号が前記背景雑音および前記音声を表す音声区間とを識別する雑音区間識別部と、
    前記音声区間における前記入力信号から分割された各帯域通過信号のパワーと、前記雑音区間における前記入力信号から分割された各帯域通過信号のパワーとの比であるSN比を算出するSNR算出部と、
    前記音声区間における前記入力信号から分割された各帯域通過信号の自己相関関数を算出する相関関数算出部と、
    前記算出されたSN比に基づいて、非周期成分比率に関する補正量を決定する補正量決定部と、
    前記決定された補正量と、前記算出された自己相関関数とに基づいて、前記音声に含まれる非周期成分比率を、前記複数の周波数帯域についてそれぞれ算出する非周期成分比率算出部と
    を備える音声分析装置。
  2. 前記補正量決定部は、前記算出されたSN比が小さいほど大きな補正量を、前記非周期成分比率に関する補正量として決定する
    請求項1に記載の音声分析装置。
  3. 前記非周期成分比率算出部は、前記入力信号の基本周波数の1周期の時間シフトにおける前記自己相関関数の値から前記補正量を減じた補正相関値が小さいほど大きな比率を、前記非周期成分比率として算出する
    請求項1に記載の音声分析装置。
  4. 前記補正量決定部は、SN比と補正量との対応を表す補正規則情報を予め保持し、前記算出されたSN比に対応する補正量を前記補正規則情報から参照し、参照された補正量を前記非周期成分比率に関する補正量として決定する
    請求項1に記載の音声分析装置。
  5. 前記補正量決定部は、音声の自己相関値と前記音声に既知のSN比の雑音を重畳した場合の自己相関値との差に基づいて学習されたSN比と補正量との関係を表す近似関数を前記補正規則情報として予め保持し、前記算出されたSN比から前記近似関数の値を算出し、算出された値を前記非周期成分比率に関する補正量として決定する
    請求項1に記載の音声分析装置。
  6. さらに、前記音声の基本周波数を予め定められたターゲット周波数に正規化する基本周波数正規化部を備え、
    前記非周期成分比率算出部は、前記基本周波数が正規化された後の音声を用いて、前記非周期成分比率を算出する
    請求項1に記載の音声分析装置。
  7. 前記基本周波数正規化部は、前記音声の基本周波数を、前記音声の所定の単位の基本周波数の平均値に正規化する
    請求項6に記載の音声分析装置。
  8. 前記所定の単位は、音素、音節、モーラ、アクセント句、フレーズ、全文のいずれかである
    請求項7に記載の音声分析装置。
  9. 背景雑音と第1音声との混合音を表す第1入力信号から、前記第1音声に含まれる非周期成分を分析して、前記分析された非周期成分を第2入力信号により表される第2音声に合成する音声分析合成装置であって、
    前記第1入力信号を、複数の周波数帯域における帯域通過信号に周波数分割する周波数帯域分割部と、
    前記第1入力信号が前記背景雑音のみを表す雑音区間と、前記第1入力信号が前記背景雑音および前記音声を表す音声区間とを識別する雑音区間識別部と、
    前記音声区間における前記第1入力信号から分割された各帯域通過信号のパワーと、前記雑音区間における前記第1入力信号から分割された各帯域通過信号のパワーとの比であるSN比を算出するSNR算出部と、
    前記音声区間における前記第1入力信号から分割された各帯域通過信号の自己相関関数を算出する相関関数算出部と、
    前記算出されたSN比に基づいて、非周期成分比率に関する補正量を決定する補正量決定部と、
    前記決定された補正量と、前記算出された自己相関関数とに基づいて、前記第1音声に含まれる非周期成分比率を、前記複数の周波数帯域についてそれぞれ算出する非周期成分比率算出部と、
    前記複数の周波数帯域についてそれぞれ算出された非周期成分比率に基づいて非周期成分の周波数分布を表す非周期成分スペクトルを算出する非周期成分スペクトル算出部と、
    前記第2音声に関する声道特徴を分析する声道特徴分析部と、
    前記分析された声道特徴の逆特性と用いて前記第2音声を逆フィルタリングすることにより、前記第2音声の音源波形を抽出する逆フィルタ部と、
    前記抽出された音源波形をモデル化する音源モデル化部と、
    前記分析された声道特徴と、前記モデル化された音源特徴と、前記算出された非周期成分スペクトルとに基づいて音声を合成する合成部と
    を備える音声分析合成装置。
  10. 音声を表す入力信号と雑音を表す入力信号とを、それぞれ同じ複数の周波数帯域である分割帯域ごとの帯域通過信号に周波数分割する周波数帯域分割部と、
    分割された前記各帯域通過信号から、前記分割帯域ごとに、異なる複数の時間区間のそれぞれにおける前記音声のパワーと前記雑音のパワーとの比であるSN比を算出するSNR算出部と、
    分割された前記各帯域通過信号から、前記分割帯域ごとに、前記複数の時間区間のそれぞれにおける前記音声の自己相関値および前記雑音の自己相関値を算出する相関関数算出部と、
    算出された前記SN比、前記音声の自己相関値、および前記雑音の自己相関値から、前記分割帯域ごとに、前記音声の自己相関値と前記雑音の自己相関値との差と、前記SN比との対応を表す補正規則情報を生成する補正規則情報生成部と
    を備える補正規則情報生成装置。
  11. 請求項1に記載の音声分析装置と、
    請求項10に記載の補正規則情報生成装置とを備え、
    前記音声分析装置は、算出されたSN比に対応する補正量を、前記補正規則情報生成装置で生成された補正規則情報から参照し、参照された補正量を非周期成分比率に関する補正量として決定する
    音声分析システム。
  12. 背景雑音と音声との混合音を表す入力信号から、前記音声に含まれる非周期成分を分析する音声分析方法であって、
    前記入力信号を、複数の周波数帯域における帯域通過信号に分割する周波数帯域分割ステップと、
    前記入力信号が前記背景雑音のみを表す雑音区間と、前記入力信号が前記背景雑音および前記音声を表す音声区間とを識別する雑音区間識別ステップと、
    前記音声区間における前記入力信号から分割された各帯域通過信号のパワーと、前記雑音区間における前記入力信号から分割された各帯域通過信号のパワーとの比であるSN比を算出するSNR算出ステップと、
    前記音声区間における前記入力信号から分割された各帯域通過信号の自己相関関数を算出する相関関数算出ステップと、
    前記算出されたSN比に基づいて、非周期成分比率に関する補正量を決定する補正量決定ステップと、
    前記決定された補正量と、前記算出された自己相関関数とに基づいて、前記音声に含まれる非周期成分比率を、前記複数の周波数帯域についてそれぞれ算出する非周期成分比率算出ステップと
    を備える音声分析方法。
  13. 音声を表す入力信号と雑音を表す入力信号とを、それぞれ同じ複数の周波数帯域である分割帯域ごとの帯域通過信号に周波数分割する周波数帯域分割ステップと、
    分割された前記各帯域通過信号から、前記分割帯域ごとに、異なる複数の時間区間のそれぞれにおける前記音声のパワーと前記雑音のパワーとの比であるSN比を算出するSNR算出ステップと、
    分割された前記各帯域通過信号から、前記分割帯域ごとに、前記複数の時間区間のそれぞれにおける前記音声の自己相関値および前記雑音の自己相関値を算出する相関関数算出ステップと、
    算出された前記SN比、前記音声の自己相関値、および前記雑音の自己相関値から、前記分割帯域ごとに、前記音声の自己相関値と前記雑音の自己相関値との差と、前記SN比との対応を表す補正規則情報を生成する補正規則情報生成ステップと
    を含む補正規則情報生成方法。
  14. 背景雑音と音声との混合音を表す入力信号から、前記音声に含まれる非周期成分を分析するための、コンピュータ実行可能なプログラムであって、
    前記入力信号を、複数の周波数帯域における帯域通過信号に分割する周波数帯域分割ステップと、
    前記入力信号が前記背景雑音のみを表す雑音区間と、前記入力信号が前記背景雑音および前記音声を表す音声区間とを識別する雑音区間識別ステップと、
    前記音声区間における前記入力信号から分割された各帯域通過信号のパワーと、前記雑音区間における前記入力信号から分割された各帯域通過信号のパワーとの比であるSN比を算出するSNR算出ステップと、
    前記音声区間における前記入力信号から分割された各帯域通過信号の自己相関関数を算出する相関関数算出ステップと、
    前記算出されたSN比に基づいて、非周期成分比率に関する補正量を決定する補正量決定ステップと、
    前記決定された補正量と、前記算出された自己相関関数とに基づいて、前記音声に含まれる非周期成分比率を、前記複数の周波数帯域についてそれぞれ算出する非周期成分比率算出ステップと
    をコンピュータに実行させることを特徴とするプログラム。
  15. 音声を表す入力信号と雑音を表す入力信号とを、それぞれ同じ複数の周波数帯域である分割帯域ごとの帯域通過信号に周波数分割する周波数帯域分割ステップと、
    分割された前記各帯域通過信号から、前記分割帯域ごとに、異なる複数の時間区間のそれぞれにおける前記音声のパワーと前記雑音のパワーとの比であるSN比を算出するSNR算出ステップと、
    分割された前記各帯域通過信号から、前記分割帯域ごとに、前記複数の時間区間のそれぞれにおける前記音声の自己相関値および前記雑音の自己相関値を算出する相関関数算出ステップと、
    算出された前記SN比、前記音声の自己相関値、および前記雑音の自己相関値から、前記分割帯域ごとに、前記音声の自己相関値と前記雑音の自己相関値との差と、前記SN比との対応を表す補正規則情報を生成する補正規則情報生成ステップと
    をコンピュータに実行させることを特徴とするプログラム。
JP2009554815A 2008-09-16 2009-09-11 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム Expired - Fee Related JP4516157B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2008237050 2008-09-16
JP2008237050 2008-09-16
PCT/JP2009/004514 WO2010032405A1 (ja) 2008-09-16 2009-09-11 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP4516157B2 true JP4516157B2 (ja) 2010-08-04
JPWO2010032405A1 JPWO2010032405A1 (ja) 2012-02-02

Family

ID=42039255

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009554815A Expired - Fee Related JP4516157B2 (ja) 2008-09-16 2009-09-11 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム

Country Status (4)

Country Link
US (1) US20100217584A1 (ja)
JP (1) JP4516157B2 (ja)
CN (1) CN101983402B (ja)
WO (1) WO2010032405A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9251782B2 (en) 2007-03-21 2016-02-02 Vivotext Ltd. System and method for concatenate speech samples within an optimal crossing point
US8898055B2 (en) * 2007-05-14 2014-11-25 Panasonic Intellectual Property Corporation Of America Voice quality conversion device and voice quality conversion method for converting voice quality of an input speech using target vocal tract information and received vocal tract information corresponding to the input speech
WO2013018294A1 (ja) * 2011-08-01 2013-02-07 パナソニック株式会社 音声合成装置および音声合成方法
KR101402805B1 (ko) * 2012-03-27 2014-06-03 광주과학기술원 음성분석장치, 음성합성장치, 및 음성분석합성시스템
CN107359880B (zh) * 2012-10-01 2020-08-25 日本电信电话株式会社 编码方法、编码装置以及记录介质
JP6305694B2 (ja) * 2013-05-31 2018-04-04 クラリオン株式会社 信号処理装置及び信号処理方法
US10909996B2 (en) * 2013-07-18 2021-02-02 Nippon Telegraph And Telephone Corporation Linear prediction analysis device, method, program, and storage medium
US10134423B2 (en) 2013-12-06 2018-11-20 Tata Consultancy Services Limited System and method to provide classification of noise data of human crowd
ES2796310T3 (es) * 2015-03-24 2020-11-26 Really Aps Reutilización de textil tejido o tricotado usado

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007156337A (ja) * 2005-12-08 2007-06-21 Nippon Telegr & Teleph Corp <Ntt> 音声信号分析装置、音声信号分析方法、音声信号分析プログラム、自動音声認識装置、自動音声認識方法及び自動音声認識プログラム
JP2007199663A (ja) * 2006-01-26 2007-08-09 Samsung Electronics Co Ltd ハーモニックとサブハーモニックの比率を用いたピッチ検出方法およびピッチ検出装置

Family Cites Families (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3808370A (en) * 1972-08-09 1974-04-30 Rockland Systems Corp System using adaptive filter for determining characteristics of an input
US3978287A (en) * 1974-12-11 1976-08-31 Nasa Real time analysis of voiced sounds
US4069395A (en) * 1977-04-27 1978-01-17 Bell Telephone Laboratories, Incorporated Analog dereverberation system
US4301329A (en) * 1978-01-09 1981-11-17 Nippon Electric Co., Ltd. Speech analysis and synthesis apparatus
US4720865A (en) * 1983-06-27 1988-01-19 Nec Corporation Multi-pulse type vocoder
US4630304A (en) * 1985-07-01 1986-12-16 Motorola, Inc. Automatic background noise estimator for a noise suppression system
US5054072A (en) * 1987-04-02 1991-10-01 Massachusetts Institute Of Technology Coding of acoustic waveforms
US5023910A (en) * 1988-04-08 1991-06-11 At&T Bell Laboratories Vector quantization in a harmonic speech coding arrangement
US5400434A (en) * 1990-09-04 1995-03-21 Matsushita Electric Industrial Co., Ltd. Voice source for synthetic speech system
JPH04264597A (ja) * 1991-02-20 1992-09-21 Fujitsu Ltd 音声符号化装置および音声復号装置
JP3278863B2 (ja) * 1991-06-05 2002-04-30 株式会社日立製作所 音声合成装置
US5504833A (en) * 1991-08-22 1996-04-02 George; E. Bryan Speech approximation using successive sinusoidal overlap-add models and pitch-scale modifications
FR2687496B1 (fr) * 1992-02-18 1994-04-01 Alcatel Radiotelephone Procede de reduction de bruit acoustique dans un signal de parole.
CA2153170C (en) * 1993-11-30 2000-12-19 At&T Corp. Transmitted noise reduction in communications systems
JP2906968B2 (ja) * 1993-12-10 1999-06-21 日本電気株式会社 マルチパルス符号化方法とその装置並びに分析器及び合成器
US5574824A (en) * 1994-04-11 1996-11-12 The United States Of America As Represented By The Secretary Of The Air Force Analysis/synthesis-based microphone array speech enhancer with variable signal distortion
FR2727236B1 (fr) * 1994-11-22 1996-12-27 Alcatel Mobile Comm France Detection d'activite vocale
US5774846A (en) * 1994-12-19 1998-06-30 Matsushita Electric Industrial Co., Ltd. Speech coding apparatus, linear prediction coefficient analyzing apparatus and noise reducing apparatus
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
JP3266819B2 (ja) * 1996-07-30 2002-03-18 株式会社エイ・ティ・アール人間情報通信研究所 周期信号変換方法、音変換方法および信号分析方法
US6490562B1 (en) * 1997-04-09 2002-12-03 Matsushita Electric Industrial Co., Ltd. Method and system for analyzing voices
US6078885A (en) * 1998-05-08 2000-06-20 At&T Corp Verbal, fully automatic dictionary updates by end-users of speech synthesis and recognition systems
JP4308345B2 (ja) * 1998-08-21 2009-08-05 パナソニック株式会社 マルチモード音声符号化装置及び復号化装置
US6289309B1 (en) * 1998-12-16 2001-09-11 Sarnoff Corporation Noise spectrum tracking for speech enhancement
US6510409B1 (en) * 2000-01-18 2003-01-21 Conexant Systems, Inc. Intelligent discontinuous transmission and comfort noise generation scheme for pulse code modulation speech coders
WO2001059766A1 (en) * 2000-02-11 2001-08-16 Comsat Corporation Background noise reduction in sinusoidal based speech coding systems
EP1160764A1 (en) * 2000-06-02 2001-12-05 Sony France S.A. Morphological categories for voice synthesis
US20030179888A1 (en) * 2002-03-05 2003-09-25 Burnett Gregory C. Voice activity detection (VAD) devices and methods for use with noise suppression systems
US6640208B1 (en) * 2000-09-12 2003-10-28 Motorola, Inc. Voiced/unvoiced speech classifier
US6801887B1 (en) * 2000-09-20 2004-10-05 Nokia Mobile Phones Ltd. Speech coding exploiting the power ratio of different speech signal components
US7363219B2 (en) * 2000-09-22 2008-04-22 Texas Instruments Incorporated Hybrid speech coding and system
US6941263B2 (en) * 2001-06-29 2005-09-06 Microsoft Corporation Frequency domain postfiltering for quality enhancement of coded speech
US7065486B1 (en) * 2002-04-11 2006-06-20 Mindspeed Technologies, Inc. Linear prediction based noise suppression
US20040024596A1 (en) * 2002-07-31 2004-02-05 Carney Laurel H. Noise reduction system
US6917688B2 (en) * 2002-09-11 2005-07-12 Nanyang Technological University Adaptive noise cancelling microphone system
US7092529B2 (en) * 2002-11-01 2006-08-15 Nanyang Technological University Adaptive control system for noise cancellation
US7970606B2 (en) * 2002-11-13 2011-06-28 Digital Voice Systems, Inc. Interoperable vocoder
CN100365704C (zh) * 2002-11-25 2008-01-30 松下电器产业株式会社 声音合成方法以及声音合成装置
JP4490090B2 (ja) * 2003-12-25 2010-06-23 株式会社エヌ・ティ・ティ・ドコモ 有音無音判定装置および有音無音判定方法
US9318119B2 (en) * 2005-09-02 2016-04-19 Nec Corporation Noise suppression using integrated frequency-domain signals
WO2007052612A1 (ja) * 2005-10-31 2007-05-10 Matsushita Electric Industrial Co., Ltd. ステレオ符号化装置およびステレオ信号予測方法
US7366658B2 (en) * 2005-12-09 2008-04-29 Texas Instruments Incorporated Noise pre-processor for enhanced variable rate speech codec
JP4264841B2 (ja) * 2006-12-01 2009-05-20 ソニー株式会社 音声認識装置および音声認識方法、並びに、プログラム
US7873114B2 (en) * 2007-03-29 2011-01-18 Motorola Mobility, Inc. Method and apparatus for quickly detecting a presence of abrupt noise and updating a noise estimate
KR100918762B1 (ko) * 2007-05-28 2009-09-24 삼성전자주식회사 통신 시스템에서 신호 대 간섭 및 잡음비 추정 장치 및 방법
CN101589430B (zh) * 2007-08-10 2012-07-18 松下电器产业株式会社 声音分离装置、声音合成装置及音质变换装置
US8954324B2 (en) * 2007-09-28 2015-02-10 Qualcomm Incorporated Multiple microphone voice activity detector
US8374854B2 (en) * 2008-03-28 2013-02-12 Southern Methodist University Spatio-temporal speech enhancement technique based on generalized eigenvalue decomposition
US20090248411A1 (en) * 2008-03-28 2009-10-01 Alon Konchitsky Front-End Noise Reduction for Speech Recognition Engine
US8392181B2 (en) * 2008-09-10 2013-03-05 Texas Instruments Incorporated Subtraction of a shaped component of a noise reduction spectrum from a combined signal
WO2010035438A1 (ja) * 2008-09-26 2010-04-01 パナソニック株式会社 音声分析装置および音声分析方法
US20100145687A1 (en) * 2008-12-04 2010-06-10 Microsoft Corporation Removing noise from speech
EP2242185A1 (en) * 2009-04-15 2010-10-20 ST-NXP Wireless France Noise suppression
WO2011004579A1 (ja) * 2009-07-06 2011-01-13 パナソニック株式会社 声質変換装置、音高変換装置および声質変換方法
JP5606764B2 (ja) * 2010-03-31 2014-10-15 クラリオン株式会社 音質評価装置およびそのためのプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007156337A (ja) * 2005-12-08 2007-06-21 Nippon Telegr & Teleph Corp <Ntt> 音声信号分析装置、音声信号分析方法、音声信号分析プログラム、自動音声認識装置、自動音声認識方法及び自動音声認識プログラム
JP2007199663A (ja) * 2006-01-26 2007-08-09 Samsung Electronics Co Ltd ハーモニックとサブハーモニックの比率を用いたピッチ検出方法およびピッチ検出装置

Also Published As

Publication number Publication date
US20100217584A1 (en) 2010-08-26
JPWO2010032405A1 (ja) 2012-02-02
CN101983402B (zh) 2012-06-27
CN101983402A (zh) 2011-03-02
WO2010032405A1 (ja) 2010-03-25

Similar Documents

Publication Publication Date Title
JP4516157B2 (ja) 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム
Airaksinen et al. Quasi closed phase glottal inverse filtering analysis with weighted linear prediction
Drugman et al. A comparative study of glottal source estimation techniques
US9368103B2 (en) Estimation system of spectral envelopes and group delays for sound analysis and synthesis, and audio signal synthesis system
JP5961950B2 (ja) 音声処理装置
US8280724B2 (en) Speech synthesis using complex spectral modeling
Alku et al. Closed phase covariance analysis based on constrained linear prediction for glottal inverse filtering
Erro et al. Weighted frequency warping for voice conversion.
JP2013057735A (ja) 音声合成用の隠れマルコフモデル学習装置及び音声合成装置
JP2018004870A (ja) 音声合成装置および音声合成方法
Raitio et al. Phase perception of the glottal excitation and its relevance in statistical parametric speech synthesis
JP4469986B2 (ja) 音響信号分析方法および音響信号合成方法
Airaksinen et al. Quadratic programming approach to glottal inverse filtering by joint norm-1 and norm-2 optimization
Degottex et al. A measure of phase randomness for the harmonic model in speech synthesis
US7822599B2 (en) Method for synthesizing speech
Raitio et al. Phase perception of the glottal excitation of vocoded speech
US10354671B1 (en) System and method for the analysis and synthesis of periodic and non-periodic components of speech signals
Tabet et al. Speech analysis and synthesis with a refined adaptive sinusoidal representation
JP5573529B2 (ja) 音声処理装置およびプログラム
JP4963345B2 (ja) 音声合成方法及び音声合成プログラム
Banerjee et al. Procedure for cepstral analysis in tracing unique voice segments
Jung et al. Pitch alteration technique in speech synthesis system
Youcef et al. A tutorial on speech synthesis models
JP6213217B2 (ja) 音声合成装置及び音声合成用コンピュータプログラム
Li et al. Reconstruction of pitch for whisper-to-speech conversion of Chinese

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100413

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100513

R150 Certificate of patent or registration of utility model

Ref document number: 4516157

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130521

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130521

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees