JP4490507B2 - 音声分析装置および音声分析方法 - Google Patents

音声分析装置および音声分析方法 Download PDF

Info

Publication number
JP4490507B2
JP4490507B2 JP2009554811A JP2009554811A JP4490507B2 JP 4490507 B2 JP4490507 B2 JP 4490507B2 JP 2009554811 A JP2009554811 A JP 2009554811A JP 2009554811 A JP2009554811 A JP 2009554811A JP 4490507 B2 JP4490507 B2 JP 4490507B2
Authority
JP
Japan
Prior art keywords
sound source
feature
vocal tract
speech
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009554811A
Other languages
English (en)
Other versions
JPWO2010035438A1 (ja
Inventor
良文 廣瀬
孝浩 釜井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Application granted granted Critical
Publication of JP4490507B2 publication Critical patent/JP4490507B2/ja
Publication of JPWO2010035438A1 publication Critical patent/JPWO2010035438A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

本発明は、入力音声を分析することにより、声道特徴と音源特徴とを抽出する音声分析装置および音声分析方法に関する。
近年、音声合成技術の発達により、非常に高音質な合成音を作成することが可能となってきた。
しかしながら、従来の合成音の用途はニュース文をアナウンサー調で読み上げる等の画一的な用途が中心であった。
一方で、携帯電話のサービスなどでは、着信音の代わりに有名人の音声メッセージを用いるといったサービスが提供されるなど、特徴のある音声(個人再現性の高い合成音や、女子高校生風や関西弁風などの特徴的な韻律・声質をもつ合成音)がコンテンツの一つとして流通しはじめている。このように個人間のコミュニケーションにおける楽しみを増やすために、特徴的な音声を作って相手に聞かせることに対する要求が高まることが考えられる。
ところで、音声を合成する方法としては、大別して次の2つの方法がある。1つ目は、予め用意した音声素片DB(データベース)から適切な音声素片を選択して、選択した音声素片を接続することにより、音声を合成する波形接続型音声合成方法である。2つ目は、音声をパラメータ分析し、分析した音声パラメータを元に、音声を合成する分析合成型音声合成方法である。
前述の、合成音の声質を様々に変化させることを考えると、波形接続型音声合成方法では、音声素片DBを必要な声質の種類だけ用意し、音声素片DBを切り替えながら音声素片を接続する必要がある。したがって、種々の声質の合成音を作成するために、膨大なコストを要することになる。
一方、分析合成型音声合成方法では、分析された音声パラメータを変形させることにより、合成音の声質を変換することが可能である。一般に、パラメータ分析には、音源声道モデルと呼ばれるモデルが使用される。
しかしながら、実環境下では、入力音声には種々の雑音が混入することが考えられる。したがって、混入する雑音に対する対策が必要となる。例えば、ノイズ抑制方法として、特許文献1に記載されている技術がある。
図11は、特許文献1に記載されているノイズ抑制方法の構成図である。
特許文献1記載のノイズ抑制方法は、音声フレームと判断されたフレーム内の音声成分が含まれない(または音声成分が少ない)と推定される帯域に関しては、雑音フレームの帯域別ゲイン値より小さいゲインを設定し、音声フレーム内での音声成分の含まれる帯域を際立たせることで良好な聴感を得ようとしている。
つまり、入力信号を、予め定められた時間単位のフレームに分割し、この分割されたフレームを所定の周波数帯域に分割し、この分割された帯域ごとに雑音の抑圧処理を行うノイズ抑制方法において、フレームが雑音フレームであるか音声フレームであるかの判定を行う音声フレーム判定ステップと、前記音声フレーム判定ステップの結果に基づき各フレームの帯域別ゲイン値を設定する帯域別ゲイン決定ステップと、前記帯域ゲイン決定ステップにより決定された帯域別ゲイン値を用いて帯域毎に雑音抑圧を行った後にフレームを再構成して雑音抑制された出力信号を生成する信号生成ステップとを含む。前記帯域別ゲイン決定ステップでは、決定対象のフレームが音声フレームであると判定された場合の帯域別ゲイン値が、決定対象のフレームが雑音フレームであると判定された場合の帯域別ゲイン値より小さい値を取り得るように帯域別ゲイン値の設定を行う。
特開2002−169599号公報(第3−4頁、図2)
特許文献1に記載の雑音抑制方法では、帯域ごとのゲインを調節することにより、雑音の影響を聴感的に抑圧することは可能である。しかし、帯域ごとにゲインを調節することにより、音声のスペクトル構造に歪が生じ、音声の個人特徴が歪むという課題を有する。
また、特許文献1に記載の方法では、突発的な雑音が混入した場合には、雑音の影響を抑圧しきれないという課題を有する。
本発明は、前記従来の課題を解決するもので、実環境のように背景雑音が存在した場合においても、精度良く音声を分析可能な音声分析装置を提供することを目的とする。
従来、声道および音源をモデル化した声道音源モデルでは、定常な音源モデルを仮定している。このため、結果として声道特徴の微細変動は正しい分析結果として処理されてしまう。発明者らは音源が定常であるという仮定よりも、声道が定常であるという仮定の方に妥当性があり、音源は声道よりも速い変動を行っていると考えている。この考えに基づくと、従来の声道音源モデルは、音声が持つ揺らぎや分析窓の位置による時間変化を、声道特徴として抽出してしまう。その結果、本来声道が持っていないような速い動きを声道特徴とし、本来音源に存在する速い動きを音源特徴から取り除いてしまうという問題がある。
発明者らは、この微細変動による影響の解消方法を、特許文献:特許第4294724号公報に開示している。つまり、声道が定常であるということを利用することにより、入力音声に雑音が混入した場合においても、雑音の影響を除去することが可能となる。
上記目的を達成するために、本発明に係る音声分析装置は、入力音声を分析することにより、声道特徴と音源特徴とを抽出する音声分析装置であって、音声の発声機構をモデル化した音声生成モデルに基づいて、入力音声から声道特徴と音源特徴とを分離する声道音源分離部と、前記声道音源分離部により分離された音源特徴から、前記音源特徴における前記入力音声の基本周波数の時間的な安定度を算出する基本周波数安定度算出部と、前記基本周波数安定度算出部により算出された前記音源特徴における前記入力音声の基本周波数の時間的な安定度に基づいて、前記音源特徴の安定区間の時間情報を抽出する安定分析区間抽出部と、前記声道音源分離部により分離された声道特徴のうち、前記安定分析区間抽出部により抽出された前記音源特徴の安定区間に含まれる声道特徴を用いて、当該音源特徴の安定区間に含まれない声道特徴を補間する声道特徴補間処理部とを備える。
この構成によると、音源特徴の安定区間に基づいて、声道特徴を補間している。上述のように、音源は声道よりも速い変動を行っていると考えられることより、声道特徴よりも音源特徴のほうが雑音の影響を受けやすい。このため、音源特徴を用いることにより、雑音区間と非雑音区間とを精度良く分離することが可能となる。よって、音源特徴の安定区間に基づいて、声道特徴を補間することにより、声道特徴を精度良く抽出することができる。
好ましくは、上記音声分析装置は、さらに、前記声道音源分離部により分離された音源特徴から、前記入力音声の基本周期間隔で繰り返し出現する特徴点を抽出し、抽出した特徴点にピッチマークを付与するピッチマーク付与部を備え、前記基本周波数安定度算出部は、前記ピッチマーク付与部により付与されたピッチマークを用いて、前記音源特徴における前記入力音声の基本周波数を算出し、前記音源特徴における前記入力音声の基本周波数の時間的な安定度を算出する。
好ましくは、前記ピッチマーク付与部は、前記声道音源分離部により分離された音源特徴から声門閉鎖点を抽出し、抽出した声門閉鎖点に前記ピッチマークを付与する。
音源特徴の波形は、声門閉鎖点において鋭いピークを示す特徴がある。一方、雑音区間における音源特徴の波形には、複数箇所において鋭いピークが見られる。このため、特徴点として声門閉鎖点を用いることにより、非雑音区間においては、一定周期でピッチマークが付されるのに対し、雑音区間では、ランダムな間隔でピッチマークが付されることとなる。このような性質を用いることにより、音源特徴の安定区間と非安定区間とを精度良く分離することが可能となる。
さらに好ましくは、上記音声分析装置は、さらに、前記声道音源分離部により分離された音源特徴のうち、前記安定分析区間抽出部により抽出された前記音源特徴の安定区間に含まれる音源特徴を用いて、当該音源特徴の安定区間以外の区間の音源特徴を復元する音源特徴復元部を備える。
この構成によると、音源特徴の安定区間に基づいて、音源特徴を復元している。上述のように、音源は声道よりも速い変動を行っていると考えられることより、声道特徴よりも音源特徴のほうが雑音の影響を受けやすい。このため、音源特徴を用いることにより、雑音区間と非雑音区間とを精度良く分離することが可能となる。よって、音源特徴の安定区間に基づいて、音源特徴を復元することにより、音源特徴を精度良く抽出することができる。
さらに好ましくは、上記音声分析装置は、さらに、前記声道特徴補間処理部により補間された声道特徴の再現度を算出する再現度算出部と、前記再現度算出部による再現度が所定の閾値よりも小さい場合には、ユーザに対して音声の再入力を指示する再入力指示部とを備える。
雑音の影響が大きく、声道特徴を精度良く分析できない場合には、ユーザに音声を再入力させることにより、雑音による影響を受けない声道特徴および音源特徴の抽出が可能となる。
なお、本発明は、このような特徴的な処理部を備える音声分析装置として実現することができるだけでなく、音声分析装置に含まれる特徴的な処理部をステップとする音声分析方法として実現したり、音声分析方法に含まれる特徴的なステップをコンピュータに実行させるプログラムとして実現したりすることもできる。そして、そのようなプログラムは、CD−ROM(Compact Disc-Read Only Memory)等の記録媒体やインターネット等の通信ネットワークを介して流通させることができるのは言うまでもない。
本発明の音声分析装置により、入力音声中に雑音が混入した場合においても、音源特徴の安定区間に基づいて、雑音区間に含まれる声道特徴および音源特徴を補間することができる。
このように、部分的に正しく分析できた区間に含まれる声道特徴および音源特徴を用いて、他の区間に含まれる声道特徴および音源特徴を復元することが可能となる。このため、入力音声中に突発的な雑音が混入した場合においても、雑音に影響されることなく入力音声の個人特徴である声道特徴および音源特徴を精度良く分析することができる。
図1は、本発明の実施の形態に係る音声分析装置の機能的な構成を示すブロック図である。 図2は、音源波形の一例を示す図である。 図3は、安定分析区間抽出部により安定区間の抽出処理を説明するための図である。 図4は、声道特徴補間処理部による声道特徴の補間処理を説明するための図である。 図5は、本発明の実施の形態に係る音声分析装置の動作を示すフローチャートである。 図6は、入力音声波形の一例を示す図である。 図7は、PARCOR係数による声道特徴の一例を示す図である。 図8Aは、雑音がない区間の音源波形一例を示す図である。 図8Bは、雑音区間の音源波形一例を示す図である。 図9は、音源特徴平均化処理部による非周期成分境界周波数の平均化処理を説明するための図である。 図10は、本発明の実施の形態の変形例に係る音声分析装置の機能的な構成を示すブロック図である。 図11は、従来の雑音抑圧装置の構成を示すブロック図である。
以下本発明の実施の形態について、図面を参照しながら説明する。
図1は、本発明の実施の形態に係る音声分析装置の機能的な構成を示すブロック図である。
音声分析装置は、入力された音声を声道特徴と音源特徴とに分離する装置であり、声道音源分離部101と、ピッチマーク付与部102と、基本周波数安定度算出部103と、安定分析区間抽出部104と、声道特徴補間処理部105と、音源特徴平均化処理部106とを含む。
なお、本実施の形態に係る音声分析装置は、CPUとメモリとを含む通常のコンピュータにより実現される。つまり、上述の各処理部を実現するためのプログラムをCPU上で実行し、当該プログラムおよび処理における中間データをメモリに記憶することにより、実現される。
声道音源分離部101は、音声の発声機構をモデル化した音声生成モデルに基づいて、入力音声から声道特徴と音源特徴とを分離する処理部である。
ピッチマーク付与部102は、声道音源分離部101により分離された音源特徴から、入力音声の基本周期間隔で繰り返し出現する特徴点を抽出し、抽出した特徴点にピッチマークを付与する処理部である。
基本周波数安定度算出部103は、ピッチマーク付与部102により付与されたピッチマークを用いて、音源特徴における入力音声の基本周波数を算出し、音源特徴における入力音声の基本周波数の時間的な安定度を算出する処理部である。
安定分析区間抽出部104は、基本周波数安定度算出部103により算出された音源特徴における入力音声の基本周波数の時間的な安定度に基づいて、音源特徴の安定区間を抽出する処理部である。
声道特徴補間処理部105は、声道音源分離部101により分離された声道特徴のうち、安定分析区間抽出部104により抽出された音源特徴の安定区間に含まれる声道特徴を用いて、当該音源特徴の安定区間に含まれない声道特徴を補間する処理部である。
音源特徴平均化処理部106は、声道音源分離部101により分離された音源特徴のうち、安定分析区間抽出部104により抽出された音源特徴の安定区間に含まれる音源特徴の平均値を求め、求められた音源特徴の平均値を、音源特徴の安定区間以外の区間の音源特徴として算出する処理部である。
以下、それぞれの構成要素について詳しく説明する。
<声道音源分離部101>
声道音源分離部101は、声道および音源をモデル化した声道音源モデル(音声の発声機構をモデル化した音声生成モデル)を用いて、入力音声を、声道特徴と音源特徴とに分離する。分離に用いる声道音源モデルに制限はなく、どのようなモデルであっても良い。
例えば、声道音源モデルとして、線形予測モデル(LPCモデル)を用いた場合、音声波形のある標本値s(n)を、それより前のp個の標本値から予測するものである。標本値s(n)は、式1のように表せる。
Figure 0004490507
p個の標本値に対する係数αiは、相関法や共分散法などを用いることにより算出できる。算出した係数αiを用いると入力された音声信号は、式2により生成することができる。
Figure 0004490507
ここで、S(z)は音声信号s(n)のz変換後の値である。U(z)は、有声音源信号u(n)のz変換後の値であり、入力音声S(z)を声道特徴1/A(z)で逆フィルタリングした信号を表す。
通常、音声分析を行なう際には、分析窓内において音声が定常であると仮定される。つまり、声道特徴は、分析窓内において定常であると仮定されている。したがって、入力された音声に雑音が重畳されている場合、定常な雑音は声道特徴に影響を与えると考えられる。
一方で、音源特徴は上述したように分析された声道特徴の逆特性を持つフィルタにより音声をフィルタリングすることにより得られる。したがって、入力音声に雑音が重畳された場合、非定常な雑音成分は、音源特徴に含まれることになる。
したがって、非定常な雑音が原因で分析が失敗する場合には、分析区間において声道特徴からは雑音区間を検知することは難しく、音源特徴により雑音区間を判別する必要がある。
声道音源分離部101は、さらに、LPC分析により分析された線形予測係数αiを用いて、PARCOR係数(偏自己相関係数)kiを算出するようにしてもよい。PARCOR係数は、線形予測係数と比較して、補間特性が良いことが知られている。PARCOR係数は、Levinson-Durbin-Itakuraアルゴリズムを用いることにより算出することが可能である。なお、PARCOR係数は、次の2つの特徴を有する。
(特徴1)低次の係数ほどその変動によるスペクトルへの影響が大きく、高次になるにつれて変動の影響が小さくなる。
(特徴2)高次の係数の変動の影響は、平坦に全域にわたる。
以下の説明では、声道特徴としては、PARCOR係数を用いて説明する。なお、用いる声道特徴はPARCOR係数に限らず、線形予測係数を用いても良い。さらには線スペクトル対(LSP)を用いてもよい。
また、声道音源分離部101は、声道音源モデルとしてARX(Autoregressive with exogenous input)モデルを用いた場合、ARX分析を用いて、声道と音源を分離することもできる。ARX分析は、音源として数式音源モデルを用いる点がLPC分析と大きく異なる。また、ARX分析では、LPC分析と異なり、分析区間内に複数の基本周期を含んだ場合においても、より正確に声道と音源の情報を分離できる(非特許文献1:大塚、粕谷、「音源パルス列を考慮した頑健なARX音声分析法」、日本音響学会誌58巻7号、2002年、p.386−397)。
ARX分析では、音声は式3に示す生成過程により生成される。式3において、S(z)は、音声信号s(n)のz変換後の値を表す。U(z)は、有声音源信号u(n)のz変換後の値を表す。E(z)は、無声雑音音源e(n)のz変換後の値を表す。つまり、ARX分析では、有声音は式3の第1項により生成され、無声音は式3の第2項により生成される。
Figure 0004490507
このとき、有声音源信号u(t)=u(nTs)のモデルとして、式4に示す音モデルを用いる。ここで、Tsは、サンプリング周期を示す。
Figure 0004490507
ただし、AVは有声音源振幅、T0は基本周期、OQは声門開放率を表わす。有声音の場合は式4の第1項が使用され、無声音の場合は式4の第2項が使用される。声門開放率OQは、1基本周期における声門が開放されている割合を示す。声門開放率OQの値が大きいほどやわらかい音声となる傾向があることが知られている。
ARX分析は、LPC分析と比較して以下の利点がある。
(利点1)分析窓内に複数の基本周期に対応した音源パルス列を配して分析を行っているため、女性や子供など高ピッチ音声でも安定に声道情報を抽出できる。
(利点2)特に、基本周波数F0と第1フォルマント周波数(F1)とが接近している/i/、/u/などの狭母音の声道音源分離性能が高い。
有声音区間では、LPC分析の場合と同様に、U(z)は、入力音声S(z)を声道特徴1/A(z)で逆フィルタリングすることにより得ることができる。
LPC分析の場合と同様に、ARX分析においても、声道特徴1/A(z)は、LPC分析におけるシステム関数と同じ形式である。このことから、声道音源分離部101は、LPC分析と同様の方法により、声道特徴をPARCOR係数に変換するようにしても良い。
<ピッチマーク付与部102>
ピッチマーク付与部102は、声道音源分離部101により分離された音源特徴に対し、その有声音区間にピッチマークを付与する。
ピッチマークとは、入力音声の基本周期間隔で繰り返し出現する特徴点に対して付与するマークを指す。ピッチマークを付与する特徴点の位置としては、例えば、音声波形のパワーのピーク位置や、声門閉鎖点の位置などがある。
例えば、前述のARXモデルにより声道特徴と音源特徴とを分離した場合、音源特徴として、図2に示すような音源波形を得ることができる。図2において横軸は時間を表し、縦軸は振幅を表す。この波形において、声門閉鎖点は、時刻201および202における音源波形のピーク点に相当する。ピッチマーク付与部102は、これらの点にピッチマークを付与する。音源波形は声帯が開閉することにより発生するが、声門閉鎖点は声帯が閉じた瞬間を指し、鋭いピークになる特徴がある。
また、基本波のピーク位置にピッチマークを付与する方法もある。基本波のピーク位置を求めるための具体例としては、音声波形から適応ローパスフィルタによって基本波を抽出し、そのピーク位置を検出する方法があり、この方法は、特許文献:特許第3576800号公報に記載されている。
本発明では、これらを始めとするピッチマーク付与の方法については特に限定するものではない。
<基本周波数安定度算出部103>
前述の通り、入力音声に雑音が付加されている場合、雑音のうち非定常な雑音に関しては、音源情報に影響を与えている。したがって、基本周波数安定度算出部103は、非定常な雑音による音源特徴への影響を検出するため基本周波数の安定度を算出する。
基本周波数安定度算出部103は、ピッチマーク付与部102により付与されたピッチマークを用いて、声道音源分離部101により分離された音源特徴における入力音声の基本周波数の安定度(以下、「F0安定度」と言う。)を算出する。F0安定度の算出方法は特に限定されるものではないが、例えば、次に示す方法により算出することができる。
まず、基本周波数安定度算出部103は、ピッチマークを用いて入力音声の基本周波数(F0)を算出する。図2に示す音源波形の例では、時刻202から時刻201までの時間(つまり、隣接するピッチマーク間の時間区間)が、入力音声の基本周期にあたり、この逆数が入力音声の基本周波数に相当する。例えば、図3(a)は、各ピッチマークにおける基本周波数F0の値を示すグラフであり、横軸が時間を、縦軸が基本周波数F0の値を示している。同図に示されるように、雑音区間において基本周波数F0の値がばらついていることが分かる。
次に、基本周波数安定度算出部103は、予め定められた時間単位の分析フレームiごとに、F0安定度STを算出する。F0安定度STは、式5により示され、音素区間内の平均からの偏差で表すことができる。なお、F0安定度STは、値が小さいほど基本周波数F0の値が安定しており、値が大きいほど基本周波数F0の値がばらついていることを示す。
Figure 0004490507
ただし、
Figure 0004490507
は、分析フレームiを含む音素内のF0の平均を表す。
なお、F0安定度算出方法はこの方法に限らず、例えば、自己相関関数を算出することにより周期性の強さを判定するようにしても良い。例えば、分析フレーム内の音源波形s(n)に対して、式6に示す自己相関関数φ(n)の値を算出する。算出したφ(n)を用いてから基本周期T0ずれた場所での相関値φ(T0)を算出する。算出された相関値φ(T0)の大きさが周期性の強さを示すので、この相関値をF0安定度として算出するようにしても良い。
Figure 0004490507
例えば、図3(b)は、各ピッチマークにおけるF0安定度を示しており、横軸が時間を、縦軸がF0安定度の値を示している。同図に示されるように、雑音区間においてF0安定度が大きくなっているのが分かる。
<安定分析区間抽出部104>
安定分析区間抽出部104は、基本周波数安定度算出部103により算出された音源特徴におけるF0安定度に基づいて、音源特徴について安定した分析が実施された区間を抽出する。抽出の方法は特に限定されるものではないが、例えば、次のようにすることで抽出することができる。
例えば、安定分析区間抽出部104は、式5により算出されるF0安定度が所定の閾値(Thresh)よりも小さい分析フレームが属する区間を、音源特徴が安定な区間であると判定する。つまり、安定分析区間抽出部104は、式7を満たす区間を安定区間として抽出する。例えば、図3(c)の黒い矩形で表現される区間が安定区間である。
Figure 0004490507
さらに、安定分析区間抽出部104は、安定区間が連続する時間が、所定の時間長(たとえば100msec)以上になるように、安定区間を抽出しても良い。このような処理により、微小区間の安定区間(連続時間が短い安定区間)を除外することができる。例えば、図3(d)に示すように、図3(c)で断続的に出現していた短い安定区間を除外し、連続した長い区間を抽出できている。
平均値からの偏差によりF0安定度を算出した場合には、偏差の時間変動を考慮していないため、偶然平均値付近の値が算出されることがあるが、このような場合は、長時間、基本周波数F0が平均値に安定することはない。このため、このような区間を安定区間から除外することが望ましい。このように微小区間を除外することにより、より安定して音源特徴を分析できている区間を、後の処理に利用することができる。
また、安定分析区間抽出部104は、抽出した安定区間に対応する時間区間(以下、「安定区間の時間情報」と言う。)も取得する。
なお、ARX分析により声道特徴と音源特徴とを分離する場合には、声帯音源波形のモデルとしてRosenberg-Klattモデルを用いている。このことから、このモデル音源波形と、逆フィルタ音源波形とが一致していることが望ましい状態である。したがって、仮定したモデル音源波形と同じ基本周期と逆フィルタ音源波形の声門閉鎖点を基準とした基本周期が乖離している場合は、分析が失敗している可能性が高いと考えられる。したがって、このような場合は、安定して分析できていないと判断することができる。
<声道特徴補間処理部105>
声道特徴補間処理部105は、声道音源分離部101により分離された声道特徴のうち、安定分析区間抽出部104により抽出された安定区間の時間情報に対応する声道情報を用いて、声道特徴を補間する。
声帯の振動に伴う音源情報は、音声の基本周波数(数十Hzから数百Hz)に近い時間間隔で変動することが可能であるが、声帯から口唇までの声道の形状である声道情報は、音声の話速(会話調の場合、例えば6モーラ/秒)に近い時間間隔で変化すると考えられる。このため声道情報は時間的に緩やかに動くことから補間が可能となる。
本願発明は、音源特徴から抽出された安定区間の時間情報を用いて、声道特徴を補間することが1つの特徴である。声道特徴のみから、その声道特徴が安定した時間情報を取得することは困難であり、何れの区間が精度の良い分析ができた区間であるかはわからない。なぜなら、声道音源モデルの場合は、雑音に伴うモデル不一致の影響は、音源情報に多く付加される可能性が高い。声道情報は分析窓内で平均化されることより、単純に声道情報の連続性だけでは判断できず、声道情報がある程度連続であっても、必ずしも安定な分析であるとは限らない。一方、音源情報は、声道情報を用いた逆フィルタ波形であることから、声道情報と比較して、短い時間単位の情報を持っている。このことから、雑音による影響を検出しやすい。
したがって、音源特徴から抽出した安定区間を用いることによって、部分的に正しく分析できた区間を音源特徴から取得することができる。これにより、声道特徴について、取得した安定区間の時間情報を用いて、安定区間以外の声道特徴を他の区間を復元することが可能となる。このため、入力音声中に突発的な雑音が混入した場合においても、雑音に影響されることなく入力音声の個人特徴である声道特徴および音源特徴を精度良く分析することができる。
次に、声道特徴の補間の方法の具体例を以下に示す。
声道特徴補間処理部105は、声道音源分離部101により算出されたPARCOR係数の各次元に対して、安定分析区間抽出部104により抽出された安定区間のPARCOR係数を用いて、時間方向の補間処理を行う。
補間処理の方法は特に限定するものではないが、例えば、次元ごとに式8に示すような多項式による近似を行うことにより平滑化を行うことができる。
Figure 0004490507
ここで、
Figure 0004490507
は、多項式により近似されたPARCOR係数、αiは多項式の係数、xは時刻を示す。
このとき、xとして安定分析区間抽出部104により抽出された安定区間内に含まれる時間の声道情報のみを用いることで、雑音の影響を除去することが可能となる。
また、近似を適用する時間幅としては、個人特徴として母音ごとの声道特徴を用いることを考えると、例えば、一つの音素区間を近似の単位とすることができる。上記時間幅は音素区間に限定されるものではなく、音素中心から次音素中心までを上記時間幅とするようにしても良い。なお、以下の説明では、音素区間を近似処理の単位として説明を行う。
図4に、PARCOR係数を5次の多項式近似を用いて音素単位で時間方向に補間処理した際の1次のPARCOR係数のグラフを示す。グラフの横軸は時刻を表し、縦軸はPARCOR係数の値を表す。破線は、声道音源分離部101により分離された声道情報(PARCOR係数)であり、実線は、音素単位で多項式近似することにより安定区間外の声道情報を補間した声道情報(PARCOR係数)を示す。
本実施の形態では、多項式の次数として5次を例に説明しているが、多項式の次数は5次でなくとも良い。なお、多項式による近似以外にも移動平均による補間処理を行なってもよい。さらには、直線による補間を行ってもよいし、スプライン曲線による補間を行ってもよい。
同図において、非安定区間のPARCOR係数が補間されていることが分かる。また、全体的にPARCOR係数は平滑化され、滑らかになっていることがわかる。
なお、音素境界では、適当な過渡区間を設けて、過渡区間の前後のPARCOR係数を用いて、PARCOR係数を線形補間することにより、PARCOR係数の不連続を防止することが可能である。
入力音声にラベル情報が付与された場合は、補間の単位は「音素」が望ましい。その他の単位としては、「モーラ」または「音節」を用いても良い。あるいは、母音が連続している場合には、連続する2母音を補間の単位としてもよい。
一方、ラベル情報が付与されていない場合は、所定の長さ(概ね1音素程度の長さの時間幅となるように例えば数十msecから数百msec)の時間幅で、声道特徴を補間するようにすれば良い。
<音源特徴平均化処理部106>
音源特徴平均化処理部106は、声道音源分離部により分離された音源特徴のうち、安定分析区間抽出部104により抽出された安定区間に含まれる音源特徴を平均化する。
平均化処理の方法の具体例を以下に示す。
例えば、基本周波数、声門開放度または非周期成分などの音源特徴は、声道特徴と比較すると音韻による影響を受けにくい。そこで、安定分析区間抽出部104により抽出された安定区間の種々の音源特徴を平均処理することで、平均値により個人の音源特徴を代表させることができる。
例えば、基本周波数に関しては、安定分析区間抽出部104により抽出された安定区間の平均基本周波数を、その話者の平均基本周波数として利用することができる。
同様に、声門開放度および非周期成分も、安定分析区間抽出部104により抽出された安定区間の平均声門開放度および平均非周期成分を、その話者の平均声門開放度および平均非周期成分としてそれぞれ利用することができる。
このように環境雑音により分析精度が劣化した区間を排除し、さらに平均化することにより、安定して話者の音源特徴を抽出することが可能となる。
なお、各音源特徴の平均値のみではなく、分散値も含めて個人特徴として用いることもできる。分散値を用いることにより、時間的な変動の大きさを制御することが可能となる。このため、個人特徴の再現度を高める効果を有する。
また、平均化処理の代わりに、声道特徴補間処理部105と同様に、各音源特徴(基本周波数、声門開放度、非周期成分など)の安定区間の値を用いて、非安定区間の値を補間により算出するようにしても良い。
<フローチャート>
以下に、図5に示すフローチャートに基づいて、動作の詳しい手順について説明する。
声道音源分離部101は、入力音声から声道特徴と音源特徴とを分離する(ステップS101)。例として、図6に示す音声が入力された場合を説明する。図6に示すように、母音/o/を発声中に突発雑音が混入しているものとする。
声道音源分離の方法は特に限定するものではないが、例えば、前述の線形予測モデルやARXモデルを用いた音声分析手法により分離することができる。以下の説明では、ARXモデルを用いて分離処理を行うものとする。図7は、ARXモデルを用いた分離処理により、図6に示した音声から分離した声道特徴をPARCOR係数で表現したものである。ここでは、10次のPARCOR係数のそれぞれを示している。図7では、雑音区間のPARCOR係数は、雑音区間以外と比較して、歪んでいることがわかる。歪み度合いは、背景雑音のパワーに依存する。
ピッチマーク付与部102は、声道音源分離部101により分離された音源特徴より特徴点を抽出し、抽出した特徴点に、ピッチマークを付与する(ステップS102)。具体的には、図8Aおよび図8Bに示すような音源波形から、声門閉鎖点を検出し、声門閉鎖点にピッチマークを付与する。図8Aは、雑音がない区間の音源波形を示し、図8Bは、雑音区間の音源波形を示している。このように、雑音により、声道音源分離後の音源波形に影響が現れている。つまり、雑音の影響により、本来、声門閉鎖点で生じる鋭いピークが現れていなかったり、声門閉鎖点以外の点で鋭いピークが現れていたりする。このことにより、ピッチマークの位置が影響を受ける。
声門閉鎖点の算出方法は特に限定するものではない。例えば、図8Aまたは図8Bに示したような音源波形に対して低域通過フィルタ処理を行い、細かい振動成分を除去した後に、下に凸となるピークポイントを算出するようにすれば良い(例えば、特許文献:特許第3576800号公報参照。)。
ピッチマーク付与方法に特許文献:特許第3576800号公報に記載の方法を用いた場合にも雑音の影響を受ける。すなわち、ピッチマークは適応ローパスフィルタの出力波形のピークに付与される。適応ローパスフィルタには音声の基本波のみを通過させるように遮断周波数が設定されるが、当然その帯域には雑音も存在する。この雑音の影響により、出力波形は正弦波ではなくなる。その結果、ピーク位置は等間隔ではなくなり、F0安定度は低下する。
基本周波数安定度算出部103は、F0安定度を算出する(ステップS103)。算出の方法としては、ピッチマーク付与部102により付与されたピッチマークを用いる。隣接するピッチマーク間が基本周期に対応する。このため、基本周波数安定度算出部103は、その逆数をとることにより基本周波数(F0)を得る。図3(a)は、各ピッチマークにおける基本周波数を表している。同図において、雑音区間では、基本周期が細かく変動していることがわかる。得られた基本周波数の時間的なF0安定度を算出する方法として、例えば、所定区間の平均値からの偏差を取ることでF0安定度を算出することができる。この処理により、図3(b)に示すようなF0安定度を得ることができる。
安定分析区間抽出部104は、基本周波数F0が安定している区間を抽出する(ステップS104)。具体的には、ステップS103で得られた各ピッチマーク時刻のF0安定度(式5)が所定の閾値よりも小さい場合には、その時刻の分析結果は安定しているとみなし、安定して音源特徴が分析されている区間を抽出する。図3(c)に、閾値処理により安定区間を抽出した例を示す。
安定分析区間抽出部104は、さらに抽出した安定区間のうち、所定の時間長よりも長い区間のみを安定区間として抽出するようにしても良い。このようにすることにより、微小な安定区間の抽出を防ぐことができ、より安定して音源特徴が分析できている区間を抽出することが可能となるという利点がある。図3(d)に、微小な安定区間を除去した例を示す。
声道特徴補間処理部105は、雑音の影響により安定して分析ができない区間の声道特徴を、安定分析区間抽出部104により安定して分析できている区間の声道特徴を用いて補間する(ステップS105)。具体的には、声道特徴補間処理部105は、所定の音声区間(例えば音素区間)において、声道特徴であるPARCOR係数の各次元の係数に対し、多項式関数による近似処理を行なう。このとき、安定分析区間抽出部104により安定であると判断された区間のPARCOR係数のみを使用することにより、安定でないと判断された区間のPARCOR係数を補間することが可能となる。
図4に、声道特徴補間処理部105により声道特徴であるPARCOR係数を補間した例を示す。同図において、点線は、分析された1次のPARCOR係数を表している。実線は、ステップS104で抽出した安定区間を用いて、補間処理を実施したPARCOR係数を表している。
音源特徴平均化処理部106は、音源特徴の平均化処理を行なう(ステップS106)。具体的には、所定の音声区間(例えば、有声音区間または音素区間など)に対して、音源特徴パラメータを平均化処理することで、安定した音源特徴を抽出することが可能となる。
図9は、音源特徴の一つである非周期成分境界周波数の分析結果を示す図である。非周期成分境界周波数は、音韻による影響が少ない音源特徴である。このため、同一音素区間内に含まれる安定区間の非周期成分境界周波数の平均値を用いて、非安定区間の非周期成分境界周波数を代表させることができる。なお、平均化処理を行う際に、非安定区間における非周期成分境界周波数の平均値からの偏差を、安定区間の非周期成分境界周波数の平均値に加算するようにしても良い。あるいは、声道特徴と同様に安定区間の非周期成分境界周波数を用いて非安定区間の非周期成分境界周波数を補間処理するようにしてもよい。その他の声門開放率または音源スペクトル傾斜などの音源特徴も、同様に安定区間における値の平均値を用いて代表させるようにすれば良い。
(効果)
以上のような構成により、音源特徴が安定に分析されている区間に基づいて、当該区間に含まれる声道特徴および音源特徴に基づいて、当該区間に含まれない声道特徴および音源特徴をそれぞれ復元することができる。このため、入力音声中に突発的な雑音が混入した場合においても、雑音に影響されることなく、入力音声の個人特徴である声道特徴および音源特徴を精度良く分析することができるという効果を有する。
このようにして抽出した入力音声の声道特徴および音源特徴を用いることにより、例えば、声質変換などを行なう際においても、雑音の影響を受けていない目標話者の声質特徴を用いることができる。このため、高音質であり、かつ個人性の高い声質変換が施された音声を得ることができるという効果を有する。具体的な声質変換の方法は特に限定されるものではないが、例えば、特許第4294724号公報に記載の方法による声質変換を用いることができる。
また、音源特徴として図2に示すような1次元の音源波形を用いることができる。このため、音源特徴における入力音声の基本周波数の安定度は、簡単な処理により求めることが可能である。
なお、声道特徴補間処理(図5のステップS105)と、音源特徴平均化処理(図5のステップS106)との順番は、限定されるものではなく、音源特徴平均化処理(図5のステップS106)の後に声道特徴補間処理(図5のステップS105)を実行するようにしても良い。
(変形例)
なお、図10に示すように、音声分析装置に、さらに、再現度算出部107と、再入力指示部108とを設けてもよい。
この場合、再現度算出部107は、声道特徴補間処理部105による声道特徴の復元の度合いを算出し、復元の度合いが十分か否かを判断する。再入力指示部108は、再現度算出部107が復元の度合いが十分でないと判断した場合には、利用者に対して、再度音声を入力するように促す指示を出力する。
具体的には、再現度算出部107は、以下に定義する再現度を算出する。再現度とは、声道特徴補間処理部105で、関数(例えば多項式)を用いて近似することにより声道特徴を補間した際の、安定区間における関数近似の際の誤差の逆数と定義する。再現度算出部107により算出された再現度が所定の閾値よりも小さくなった場合に、再入力指示部108は、利用者に対して音声の再入力を促す指示(例えば、メッセージの表示)を行う。
以上のように音声分析装置を構成することにより、雑音の影響が大きく、個人特徴を精度良く分析できない場合には、ユーザに音声を再入力させることにより、雑音による影響を受けない個人特徴(声道特徴および音源特徴)の抽出が可能となる。
なお、再現度算出部107は、声道特徴補間処理部105により声道特徴が補間される区間(例えば数十msecなどの区間)の長さに対する、安定分析区間抽出部104により抽出された安定区間の長さの比率を再現度と定義し、再現度が所定の閾値未満の場合は、再入力指示部108により利用者への再入力を促すようにするようにしてもよい。
このようにすることで、比較的長時間にわたり雑音の影響を受けた場合に、ユーザに音声の再発声を行なってもらうことで、回復不能な雑音の影響を回避することができる。
以上、本発明の実施の形態に係る音声分析装置について説明したが、本発明は、この実施の形態に限定されるものではない。
例えば、上記の各装置は、具体的には、マイクロプロセッサ、ROM、RAM、ハードディスクドライブ、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムとして構成されてもよい。RAMまたはハードディスクドライブには、コンピュータプログラムが記憶されている。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、各装置は、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。
さらに、上記の各装置を構成する構成要素の一部または全部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されているとしてもよい。システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM、RAMなどを含んで構成されるコンピュータシステムである。RAMには、コンピュータプログラムが記憶されている。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、システムLSIは、その機能を達成する。
さらにまた、上記の各装置を構成する構成要素の一部または全部は、各装置に脱着可能なICカードまたは単体のモジュールから構成されているとしてもよい。ICカードまたはモジュールは、マイクロプロセッサ、ROM、RAMなどから構成されるコンピュータシステムである。ICカードまたはモジュールは、上記の超多機能LSIを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、ICカードまたはモジュールは、その機能を達成する。このICカードまたはこのモジュールは、耐タンパ性を有するとしてもよい。
また、本発明は、上記に示す方法であるとしてもよい。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしてもよいし、前記コンピュータプログラムからなるデジタル信号であるとしてもよい。
さらに、本発明は、上記コンピュータプログラムまたは上記デジタル信号をコンピュータ読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、CD−ROM、MO、DVD、DVD−ROM、DVD−RAM、BD(Blu-ray Disc)、半導体メモリなどに記録したものとしてもよい。また、これらの記録媒体に記録されている上記デジタル信号であるとしてもよい。
また、本発明は、上記コンピュータプログラムまたは上記デジタル信号を、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしてもよい。
また、本発明は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、上記メモリは、上記コンピュータプログラムを記憶しており、上記マイクロプロセッサは、上記コンピュータプログラムに従って動作するとしてもよい。
また、上記プログラムまたは上記デジタル信号を上記記録媒体に記録して移送することにより、または上記プログラムまたは上記デジタル信号を上記ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしてもよい。
さらに、上記実施の形態および上記変形例をそれぞれ組み合わせるとしてもよい。
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて請求の範囲によって示され、請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
本発明は、背景雑音が存在するような実環境下においても、入力音声に含まれる個人特徴である声道特徴と音源特徴を精度良く分析する機能を有し、実環境において音声特徴を抽出することができる音声分析装置等に適用できる。また、抽出した個人特徴を声質変換に使うことにより、エンターテインメントなどで用いられる声質変換装置としても有用である。また、実環境で抽出した個人特徴を話者識別装置などに適用することもできる。
101 声道音源分離部
102 ピッチマーク付与部
103 基本周波数安定度算出部
104 安定分析区間抽出部
105 声道特徴補間処理部
106 音源特徴平均化処理部
107 再現度算出部
108 再入力指示部

Claims (16)

  1. 入力音声を分析することにより、声道特徴と音源特徴とを抽出する音声分析装置であって、
    音声の発声機構をモデル化した音声生成モデルに基づいて、入力音声から声道特徴と音源特徴とを分離する声道音源分離部と、
    前記声道音源分離部により分離された音源特徴から、前記音源特徴における前記入力音声の基本周波数の時間的な安定度を算出する基本周波数安定度算出部と、
    前記基本周波数安定度算出部により算出された前記音源特徴における前記入力音声の基本周波数の時間的な安定度に基づいて、前記音源特徴の安定区間の時間情報を抽出する安定分析区間抽出部と、
    前記声道音源分離部により分離された声道特徴のうち、前記安定分析区間抽出部により抽出された前記音源特徴の安定区間に含まれる声道特徴を用いて、当該音源特徴の安定区間に含まれない声道特徴を補間する声道特徴補間処理部と
    を備える音声分析装置。
  2. さらに、前記声道音源分離部により分離された音源特徴から、前記入力音声の基本周期間隔で繰り返し出現する特徴点を抽出し、抽出した特徴点にピッチマークを付与するピッチマーク付与部を備え、
    前記基本周波数安定度算出部は、前記ピッチマーク付与部により付与されたピッチマークを用いて、前記音源特徴における前記入力音声の基本周波数を算出し、前記音源特徴における前記入力音声の基本周波数の時間的な安定度を算出する
    請求項1記載の音声分析装置。
  3. 前記ピッチマーク付与部は、前記声道音源分離部により分離された音源特徴から声門閉鎖点を抽出し、抽出した声門閉鎖点に前記ピッチマークを付与する
    請求項2記載の音声分析装置。
  4. 前記声道特徴補間処理部は、前記声道音源分離部により分離された声道特徴のうち、前記安定分析区間抽出部により抽出された前記音源特徴の安定区間に含まれる声道特徴を所定の関数で近似することにより、当該音源特徴の安定区間に含まれない声道特徴を補間する
    請求項1〜3のいずれか1項に記載の音声分析装置。
  5. 前記声道特徴補間処理部は、前記声道音源分離部により分離された声道特徴に対して、所定の時間単位ごとに、前記声道特徴の補間処理を行なう
    請求項1〜4のいずれか1項に記載の音声分析装置。
  6. 前記所定の時間単位は、音素である
    請求項5記載の音声分析装置。
  7. さらに、前記声道音源分離部により分離された音源特徴のうち、前記安定分析区間抽出部により抽出された前記音源特徴の安定区間に含まれる音源特徴を用いて、当該音源特徴の安定区間以外の区間の音源特徴を復元する音源特徴復元部を備える
    請求項1〜6のいずれか1項に記載の音声分析装置。
  8. 前記音源特徴復元部は、前記声道音源分離部により分離された音源特徴のうち、前記安定分析区間抽出部により抽出された前記音源特徴の安定区間に含まれる音源特徴の平均値を求め、求められた前記音源特徴の平均値を、前記音源特徴の安定区間以外の区間の音源特徴として算出する音源特徴平均化処理部を含む
    請求項7記載の音声分析装置。
  9. 前記音源特徴平均化処理部は、さらに、前記音源特徴の安定区間に含まれる音源特徴の平均値に、前記音源特徴の安定区間以外の区間における音源特徴の平均値からの偏差を加算し、加算結果を前記音源特徴の安定区間以外の区間の音源特徴とする
    請求項8記載の音声分析装置。
  10. さらに、前記声道特徴補間処理部により補間された声道特徴の再現度を算出する再現度算出部と、
    前記再現度算出部による再現度が所定の閾値よりも小さい場合には、ユーザに対して音声の再入力を指示する再入力指示部と
    を備える請求項1〜9のいずれか1項に記載の音声分析装置。
  11. 前記再現度算出部は、前記声道特徴補間処理部で前記声道特徴を補間した際の、補間前後における前記声道特徴の誤差に基づいて、前記声道特徴の再現度を算出する
    請求項10記載の音声分析装置。
  12. 前記声道音源分離部は、線形予測モデルを用いて、入力音声から声道特徴と音源特徴とを分離する
    請求項1〜11のいずれか1項に記載の音声分析装置。
  13. 前記声道音源分離部は、Autoregressive Exogenousモデルを用いて、入力音声から声道特徴と音源特徴とを分離する
    請求項1〜11のいずれか1項に記載の音声分析装置。
  14. 前記基本周波数安定度算出部は、前記声道音源分離部により分離された音源特徴の自己相関値を、前記音源特徴における前記入力音声の基本周波数の時間的な安定度として算出する
    請求項1記載の音声分析装置。
  15. 入力音声を分析することにより、声道特徴と音源特徴とを抽出する音声分析方法であって、
    音声の発声機構をモデル化した音声生成モデルに基づいて、入力音声から声道特徴と音源特徴とを分離する声道音源分離ステップと、
    前記声道音源分離ステップにおいて分離された音源特徴から、前記音源特徴における前記入力音声の基本周波数の時間的な安定度を算出する基本周波数安定度算出ステップと、
    前記基本周波数安定度算出ステップにおいて算出された前記音源特徴における前記入力音声の基本周波数の時間的な安定度に基づいて、前記音源特徴の安定区間の時間情報を抽出する安定分析区間抽出ステップと、
    前記声道音源分離ステップにおいて分離された声道特徴のうち、前記安定分析区間抽出ステップにおいて抽出された前記音源特徴の安定区間に含まれる声道特徴を用いて、当該音源特徴の安定区間に含まれない声道特徴を補間する声道特徴補間処理ステップと
    を含む音声分析方法。
  16. 入力音声を分析することにより、声道特徴と音源特徴とを抽出するプログラムであって、
    音声の発声機構をモデル化した音声生成モデルに基づいて、入力音声から声道特徴と音源特徴とを分離する声道音源分離ステップと、
    前記声道音源分離ステップにおいて分離された音源特徴から、前記音源特徴における前記入力音声の基本周波数の時間的な安定度を算出する基本周波数安定度算出ステップと、
    前記基本周波数安定度算出ステップにおいて算出された前記音源特徴における前記入力音声の基本周波数の時間的な安定度に基づいて、前記音源特徴の安定区間の時間情報を抽出する安定分析区間抽出ステップと、
    前記声道音源分離ステップにおいて分離された声道特徴のうち、前記安定分析区間抽出ステップにおいて抽出された前記音源特徴の安定区間に含まれる声道特徴を用いて、当該音源特徴の安定区間に含まれない声道特徴を補間する声道特徴補間処理ステップと
    をコンピュータに実行させるためのプログラム。
JP2009554811A 2008-09-26 2009-09-17 音声分析装置および音声分析方法 Active JP4490507B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2008248536 2008-09-26
JP2008248536 2008-09-26
PCT/JP2009/004673 WO2010035438A1 (ja) 2008-09-26 2009-09-17 音声分析装置および音声分析方法

Publications (2)

Publication Number Publication Date
JP4490507B2 true JP4490507B2 (ja) 2010-06-30
JPWO2010035438A1 JPWO2010035438A1 (ja) 2012-02-16

Family

ID=42059451

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009554811A Active JP4490507B2 (ja) 2008-09-26 2009-09-17 音声分析装置および音声分析方法

Country Status (4)

Country Link
US (1) US8370153B2 (ja)
JP (1) JP4490507B2 (ja)
CN (1) CN101981612B (ja)
WO (1) WO2010035438A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4246792B2 (ja) * 2007-05-14 2009-04-02 パナソニック株式会社 声質変換装置および声質変換方法
CN101983402B (zh) * 2008-09-16 2012-06-27 松下电器产业株式会社 声音分析装置、方法、系统、合成装置、及校正规则信息生成装置、方法
WO2013008471A1 (ja) * 2011-07-14 2013-01-17 パナソニック株式会社 声質変換システム、声質変換装置及びその方法、声道情報生成装置及びその方法
JP5148026B1 (ja) * 2011-08-01 2013-02-20 パナソニック株式会社 音声合成装置および音声合成方法
CN102750950B (zh) * 2011-09-30 2014-04-16 北京航空航天大学 结合声门激励和声道调制信息的汉语语音情感提取及建模方法
US9697843B2 (en) * 2014-04-30 2017-07-04 Qualcomm Incorporated High band excitation signal generation
CN106157978B (zh) * 2015-04-15 2020-04-07 宏碁股份有限公司 语音信号处理装置及语音信号处理方法
US9685170B2 (en) * 2015-10-21 2017-06-20 International Business Machines Corporation Pitch marking in speech processing
JP6637082B2 (ja) * 2015-12-10 2020-01-29 ▲華▼侃如 調波モデルと音源−声道特徴分解に基づく音声分析合成方法
WO2023075248A1 (ko) * 2021-10-26 2023-05-04 에스케이텔레콤 주식회사 영상의 배경음원 자동제거 장치 및 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09152896A (ja) * 1995-11-30 1997-06-10 Oki Electric Ind Co Ltd 声道予測係数符号化・復号化回路、声道予測係数符号化回路、声道予測係数復号化回路、音声符号化装置及び音声復号化装置
JP2004219757A (ja) * 2003-01-15 2004-08-05 Fujitsu Ltd 音声強調装置,音声強調方法および携帯端末
WO2008142836A1 (ja) * 2007-05-14 2008-11-27 Panasonic Corporation 声質変換装置および声質変換方法
WO2009022454A1 (ja) * 2007-08-10 2009-02-19 Panasonic Corporation 音声分離装置、音声合成装置および声質変換装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5956685A (en) * 1994-09-12 1999-09-21 Arcadia, Inc. Sound characteristic converter, sound-label association apparatus and method therefor
US5774846A (en) * 1994-12-19 1998-06-30 Matsushita Electric Industrial Co., Ltd. Speech coding apparatus, linear prediction coefficient analyzing apparatus and noise reducing apparatus
AU1941697A (en) * 1996-03-25 1997-10-17 Arcadia, Inc. Sound source generator, voice synthesizer and voice synthesizing method
JPH10149199A (ja) * 1996-11-19 1998-06-02 Sony Corp 音声符号化方法、音声復号化方法、音声符号化装置、音声復号化装置、電話装置、ピッチ変換方法及び媒体
JP3576800B2 (ja) 1997-04-09 2004-10-13 松下電器産業株式会社 音声分析方法、及びプログラム記録媒体
US6490562B1 (en) 1997-04-09 2002-12-03 Matsushita Electric Industrial Co., Ltd. Method and system for analyzing voices
FR2768544B1 (fr) * 1997-09-18 1999-11-19 Matra Communication Procede de detection d'activite vocale
JP4005359B2 (ja) * 1999-09-14 2007-11-07 富士通株式会社 音声符号化及び音声復号化装置
JP2002169599A (ja) 2000-11-30 2002-06-14 Toshiba Corp ノイズ抑制方法及び電子機器
WO2003042648A1 (fr) * 2001-11-16 2003-05-22 Matsushita Electric Industrial Co., Ltd. Codeur de signal vocal, decodeur de signal vocal, procede de codage de signal vocal et procede de decodage de signal vocal
US7010488B2 (en) * 2002-05-09 2006-03-07 Oregon Health & Science University System and method for compressing concatenative acoustic inventories for speech synthesis
WO2004040555A1 (ja) * 2002-10-31 2004-05-13 Fujitsu Limited 音声強調装置
US20050119890A1 (en) * 2003-11-28 2005-06-02 Yoshifumi Hirose Speech synthesis apparatus and speech synthesis method
US8165882B2 (en) * 2005-09-06 2012-04-24 Nec Corporation Method, apparatus and program for speech synthesis

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09152896A (ja) * 1995-11-30 1997-06-10 Oki Electric Ind Co Ltd 声道予測係数符号化・復号化回路、声道予測係数符号化回路、声道予測係数復号化回路、音声符号化装置及び音声復号化装置
JP2004219757A (ja) * 2003-01-15 2004-08-05 Fujitsu Ltd 音声強調装置,音声強調方法および携帯端末
WO2008142836A1 (ja) * 2007-05-14 2008-11-27 Panasonic Corporation 声質変換装置および声質変換方法
WO2009022454A1 (ja) * 2007-08-10 2009-02-19 Panasonic Corporation 音声分離装置、音声合成装置および声質変換装置

Also Published As

Publication number Publication date
US8370153B2 (en) 2013-02-05
CN101981612B (zh) 2012-06-27
CN101981612A (zh) 2011-02-23
JPWO2010035438A1 (ja) 2012-02-16
US20100204990A1 (en) 2010-08-12
WO2010035438A1 (ja) 2010-04-01

Similar Documents

Publication Publication Date Title
JP4490507B2 (ja) 音声分析装置および音声分析方法
JP4294724B2 (ja) 音声分離装置、音声合成装置および声質変換装置
Botinhao et al. Speech enhancement for a noise-robust text-to-speech synthesis system using deep recurrent neural networks
JP4705203B2 (ja) 声質変換装置、音高変換装置および声質変換方法
US20200234692A1 (en) Speech processing device, speech processing method, and computer program product
JP5085700B2 (ja) 音声合成装置、音声合成方法およびプログラム
RU2414010C2 (ru) Трансформация шкалы времени кадров в широкополосном вокодере
EP2881947B1 (en) Spectral envelope and group delay inference system and voice signal synthesis system for voice analysis/synthesis
JP5039865B2 (ja) 声質変換装置及びその方法
US20100217584A1 (en) Speech analysis device, speech analysis and synthesis device, correction rule information generation device, speech analysis system, speech analysis method, correction rule information generation method, and program
Duxans et al. Voice conversion of non-aligned data using unit selection
Agiomyrgiannakis et al. ARX-LF-based source-filter methods for voice modification and transformation
JP2013033103A (ja) 声質変換装置および声質変換方法
Pfitzinger Unsupervised speech morphing between utterances of any speakers
JP5075865B2 (ja) 音声処理装置、方法、及びプログラム
Al-Radhi et al. A continuous vocoder using sinusoidal model for statistical parametric speech synthesis
US10354671B1 (en) System and method for the analysis and synthesis of periodic and non-periodic components of speech signals
KR100715013B1 (ko) 대역확장장치 및 방법
JP5245962B2 (ja) 音声合成装置、音声合成方法、プログラム及び記録媒体
Rathod et al. GUJARAT TECHNOLOGICAL UNIVERSITY AHMEDABAD
Agiomyrgiannakis et al. Towards flexible speech coding for speech synthesis: an LF+ modulated noise vocoder.
Bajibabu et al. A comparison of prosody modification using instants of significant excitation and mel-cepstral vocoder
JPH1195797A (ja) 音声合成装置及び方法
Kim et al. On the Implementation of Gentle Phone’s Function Based on PSOLA Algorithm

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100302

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100401

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130409

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130409

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140409

Year of fee payment: 4

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350