JP4354653B2 - ピッチ追跡方法および装置 - Google Patents
ピッチ追跡方法および装置 Download PDFInfo
- Publication number
- JP4354653B2 JP4354653B2 JP2000584463A JP2000584463A JP4354653B2 JP 4354653 B2 JP4354653 B2 JP 4354653B2 JP 2000584463 A JP2000584463 A JP 2000584463A JP 2000584463 A JP2000584463 A JP 2000584463A JP 4354653 B2 JP4354653 B2 JP 4354653B2
- Authority
- JP
- Japan
- Prior art keywords
- pitch
- cross
- waveform
- correlation value
- window
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 73
- 239000013598 vector Substances 0.000 claims abstract description 96
- 238000012360 testing method Methods 0.000 claims abstract description 18
- 238000007689 inspection Methods 0.000 claims description 31
- 230000007704 transition Effects 0.000 claims description 30
- 238000005070 sampling Methods 0.000 claims description 22
- 238000004364 calculation method Methods 0.000 claims description 17
- 230000015572 biosynthetic process Effects 0.000 claims description 13
- 238000003786 synthesis reaction Methods 0.000 claims description 13
- 230000009467 reduction Effects 0.000 claims description 11
- 239000003550 marker Substances 0.000 claims description 3
- 239000011295 pitch Substances 0.000 description 241
- 238000003860 storage Methods 0.000 description 17
- 230000006870 function Effects 0.000 description 14
- 230000008569 process Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 7
- 238000007476 Maximum Likelihood Methods 0.000 description 6
- 230000002093 peripheral effect Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000002441 reversible effect Effects 0.000 description 4
- 238000009826 distribution Methods 0.000 description 3
- 230000005055 memory storage Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000010183 spectrum analysis Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
- 230000002087 whitening effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Electrically Operated Instructional Devices (AREA)
- Electrical Discharge Machining, Electrochemical Machining, And Combined Machining (AREA)
- Measuring Frequencies, Analyzing Spectra (AREA)
- Color Television Systems (AREA)
- Stabilization Of Oscillater, Synchronisation, Frequency Synthesizers (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Description
(発明の背景)
本発明は、コンピュータ・スピーチ・システムに関する。特に、本発明は、コンピュータ・スピーチ・システムにおけるピッチ(pitch)追跡に関する。
【0002】
現在、コンピュータは多数のスピーチ関連機能を実行するために用いられており、その中には、コンピュータ・ネットワークを通じた人のスピーチの伝送、人のスピーチの認識、および入力テキストからのスピーチ合成が含まれる。これらの機能を実行するためには、コンピュータは、人のスピーチの様々な成分を認識可能でなければならない。これらの成分の1つに、スピーチのピッチ即ちメロディがある。これは、話者の声帯によって、スピーチの発声部分の間に生成される。ピッチの例は、「six」における「ih」音のような母音において聞くことができる。
【0003】
人のスピーチにおけるピッチは、スピーチ信号内では、ほぼ反復する波形のように見える。この波形は、多数の異なる周波数の正弦波の組み合わせである。これらのほぼ反復する波形間の期間がピッチを決定する。
【0004】
スピーチ信号においてピッチを識別するために、従来技術はピッチ追跡装置を用いている。ピッチ追跡の総合的な研究が、”A Robust Algorithm for Pitch Tracking (PART)”(ロバストなピッチ追跡アルゴリズム),D.Talkin、 Speech Coding and Synthesis,pp.495〜518、Elsevier,1995に提示されている。このようなピッチ追跡装置の1つでは、スピーチ信号の2部分を識別し、これらをピッチ期間候補によって分離し、2つの部分を互いに比較する。ピッチ期間候補がスピーチ信号の実際のピッチに等しい場合、2つの部分は互いにほぼ同一である。この比較を行なう際、通常相互相関技法を用い、各部分の多数のサンプルを互いに比較し合う。
【0005】
しかしながら、このようなピッチ追跡装置は常に高精度である訳ではない。このため、ピッチ追跡誤りが生じ、コンピュータ・スピーチ・システムの性能を損なう虞れがある。特に、ピッチ追跡誤りのために、コンピュータ・システムがスピーチの発声部分を無発声部分として誤って識別したり、その逆を行なったり、スピーチ・システムによるスピーチ信号のセグメント化がうまく行われない可能性がある。
(発明の概要)
スピーチ信号におけるピッチ追跡方法において、スピーチ信号の第1および第2ウィンドウにて取り込んだサンプルから第1および第2ウィンドウ・ベクトルを形成する。第1ウィンドウは、第2ウィンドウから検査ピッチ期間だけ分離している。第1ウィンドウにおけるスピーチ信号のエネルギを、第1ウィンドウ・ベクトルおよび第2ウィンドウ・ベクトル間の相関と組み合わせ、予測可能エネルギ係数を求める。次に、予測可能エネルギ係数を用いて、検査ピッチ期間に対するピッチ・スコアを決定する。部分的にピッチ・スコアに基づいて、ピッチ・トラックの一部を識別する。
【0006】
本発明の別の実施形態では、ピッチ追跡方法は、スピーチ信号内において第1および第2波形のサンプルを取り込む。第1および第2波形の中心は、検査ピッチ期間だけ離れている。第1および第2波形間の類似度を記述する相関値を判定し、検査ピッチ期間と直前のピッチ期間との間の類似度を記述するピッチ輪郭係数を判定する。次に、相関値およびピッチ輪郭係数を組み合わせ、直前のピッチ期間から検査ピッチ期間への遷移に対するピッチ・スコアを求める。このピッチ・スコアを用いて、ピッチ・トラックの一部を識別する。
【0007】
本発明の別の実施形態は、スピーチ信号の領域が発声領域か否か判定を行なう方法を提供する。この方法は、第1および第2波形をサンプルするステップと、2つの波形間の相関を判定するステップとを含む。次に、第1波形のエネルギを判定する。相関およびエネルギの双方が高い場合、この方法は、前記領域を発声領域として識別する。
【0008】
(例示実施形態の詳細な説明)
図1および関連する論述は、本発明の実現するのに適した計算機環境の端的な一般的な説明を行なうことを意図している。必ずしもその必要はないが、本発明の説明は、少なくとも部分的には、プログラム・モジュールのような、パーソナル・コンピュータが実行する一般的なコンピュータ実行可能命令に関連して行なう。一般に、プログラム・モジュールは、ルーチン・プログラム、オブジェクト、コンポーネント、データ構造等を含み、特定のタスクを実行したり、あるいは特定の抽象的データ・タイプを実装する。更に、本発明は、別のコンピュータ・システム構成でも実施可能であることを当業者は認めよう。別のコンピュータ・システム構成には、ハンド・ヘルド・デバイス、マルチプロセッサ・システム、マイクロプロセッサ系電子機器またはプログラマブル消費者電子機器、ネットワークPC、ミニコンピュータ、メインフレーム・コンピュータ等が含まれる。また、本発明は、分散型計算機環境においても実施可能であり、この場合、通信ネットワークを通じてリンクされたリモート処理デバイスによってタスクを実行する。分散型計算機環境では、プログラム・モジュールは、ローカルおよびリモート・メモリ記憶装置双方に位置することができる。
【0009】
図1を参照すると、本発明を実現するシステムの一例は、従来のパーソナル・コンピュータ20の形態の汎用計算機を含む。このパーソナル・コンピュータ20は、演算装置(CPU)21、システム・メモリ22、およびシステム・メモリ22から演算ユニット21までを含む種々のシステム・コンポーネントを結合するシステム・バス23を含む。システム・バス23は、数種類のバス構造のいずれでもよく、メモリ・バスまたはメモリ・コントローラ、周辺バス、および種々のバス構造のいずれかを用いてローカル・バスが含まれる。システム・メモリ22は、リード・音リ・メモリ(ROM)24およびランダム・アクセス・メモリ(RAM)25を含む。基本入出力システム26(BIOS)は、起動中のように、パーソナル・コンピュータ20内のエレメント間におけるデータ転送を補助する基本的なルーティンを含み、RAM24内に格納されている。更に、パーソナル・コンピュータ20は、図示しないハード・ディスクの読み書きを行なうハード・ディスク・ドライブ27、リムーバブル磁気ディスク29の読み書きを行なう磁気ディスク・ドライブ28、CD ROMまたはその他の光媒体のようなリムーバブル光ディスク31の読み書きを行なう光ディスク・ドライブ30のような種々の周辺ハードウエア・デバイスも含む。ハード・ディスク・ドライブ27、磁気ディスク・ドライブ28、および光ディスク・ドライブ30は、それぞれ、ハード・ディスク・ドライブ・インターフェース32、磁気ディスク・ドライブ・インターフェース33、および光ドライブ・インターフェース34を介して、システム・バス23に接続されている。ドライブおよびそれに関連するコンピュータ読取可能媒体は、コンピュータ読取可能命令、データ構造、プログラム・モジュールおよびパーソナル・コンピュータ20のその他のデータの不揮発性格納を行なう。
【0010】
ここに記載する環境の一例は、ハード・ディスク、リムーバブル磁気ディスク29およびリムーバブル光ディスク31を採用するが、磁気カセット、フラッシュ・メモリ・カード、ディジタル・ビデオ・ディスク(DVD)、ベルヌーイ・カートリッジ、ランダム・アクセス・メモリ(RAM)、リード・オンリ・メモリ(ROM)等のように、コンピュータによるアクセスが可能なデータを格納することができる、別の形式のコンピュータ読取可能媒体も、動作環境例では使用可能であることは、当業者には認められよう。
【0011】
ハード・ディスク、磁気ディスク29、光ディスク31、ROM24またはRAM25上には、多数のプログラム・モジュールを格納可能であり、オペレーティング・システム35、1つ以上のアプリケーション・プログラム36、その他のプログラム・モジュール37、およびプログラム・データ38を含む。ユーザは、キーボード40、ポインティング・デバイス42およびマイクロフォン44のような入力デバイスによって、コマンドおよび情報をパーソナル・コンピュータ20に入力することができる。他の入力デバイス(図示せず)は、ジョイスティック、ゲーム・パッド、衛星ディッシュ、スキャナ等を含むことができる。これらおよびその他の入力デバイスは、多くの場合、システム・バス23に結合するシリアル・ポート・インターフェース46のような周辺ハードウエア・デバイスを介して、演算装置21に接続されるが、パラレル・ポート、ゲーム・ポートまたはユニバーサル・シリアル・バス(USB)のようなその他のインターフェースによって接続することも可能である。また、ビデオ・アダプタ48のような周辺ハードウエア・インターフェース・デバイスを介して、モニタ47またはその他の種類のディスプレイ装置もシステム・バス23に接続してある。モニタ47に加えて、パーソナル・コンピュータは、典型的に、スピーカ45およびプリンタのような、その他の周辺出力デバイス(図示せず)を含む。
【0012】
パーソナル・コンピュータ20は、リモート・コンピュータ49のような1つ以上のリモート・コンピュータ(移動デバイス18以外)への論理接続を用いれば、ネットワーク環境においても動作可能である。リモート・コンピュータ49は、別のパーソナル・コンピュータ、サーバ、ルータ、ネットワークPC、ピア・デバイス、またはその他の共通ネットワーク・ノードとすることができ、典型的に、パーソナル・コンピュータ20に関して先に述べたエレメントの多くまたは全てを含むが、図1にはメモリ記憶装置40のみを図示している。図1に示す論理接続は、ローカル・エリア・ネットワーク(LAN)51およびワイド・エリア・ネットワーク(WAN)52を含む。このようなネットワーク環境は、会社全域に及ぶコンピュータ・ネットワーク、イントラネットおよびインターネットでは一般的である。
【0013】
LANネットワーク環境で用いる場合、パーソナル・コンピュータ20は、ネットワーク・インターフェースまたはアダプタ53を介してローカル・ネットワーク51に接続する。WANネットワーク環境で用いる場合、パーソナル・コンピュータ20は、典型的に、モデム54、またはインターネットのようなワイド・エリア・ネットワーク52を通じて通信を確立するその他の手段を含む。モデム54は、内蔵でも外付けでもよく、シリアル・ポート・インターフェース46を介してシステム・バス23に接続する。ネットワーク環境では、同期コンポーネント26を含む、パーソナル・コンピュータ20に関して図示したプログラム・モジュールまたはその一部は、ローカルまたはリモートメモリ記憶装置に格納することができる。尚、図示のネットワーク接続は一例であり、コンピュータ間に通信リンクを確立する別の手段も使用可能であることは認められよう。例えば、ワイヤレス通信リンクをネットワークの1つ異常の部分間に確立することもできる。
【0014】
図2および図3は、人のスピーチにおけるピッチの性質を記述するグラフである。図2は、人のスピーチ信号200のグラフであり振幅を縦軸202に沿って取り、時間を水平軸204に沿って取っている。発声部分206は、波形212および214のように、ほぼ反復する波形を含み、これらはピッチ期間216によって分離されている。ピッチ期間216の長さは、発声部分206のピッチを決定する。
【0015】
図3は、平叙文について、基本ピッチ周波数(縦軸230)を時間(水平軸232)の関数として示すグラフである。基本ピッチ周波数は、単に基本周波数F0と言ってもわかるであろうが、ピッチ期間の逆に等しい。グラフ234から、ピッチは時間と共に変化することは明白である。即ち、基本ピッチ周波数は、平叙文の開始時に上昇して文章の主題を強調し、次いで文章の終端まで一定して低下する。また、ピッチも単語内で変化し、単語の発声部分および無発声部分間の境界において最も顕著である。
【0016】
ピッチ変化の追跡は、図4のスピーチ合成システム240のような、スピーチ合成システムを含む多数のスピーチ・システムにおいて行われている。スピーチ合成システム240は、2つのセクション、訓練セクション242および合成セクション244を含み、これらが協働して入力テキストから合成スピーチを形成する。訓練セクション242は、人のスピーチのテンプレートをサンプルして格納し、これらを合成セクション244が修正し、組み合わせて合成スピーチを形成する。訓練セクション242によって形成されたテンプレートは、ユーザがマイクロフォンに向かって発話する場合は、マイクロフォン43が生成するアナログの人間スピーチ信号に基づく。
【0017】
マイクロフォン43からのアナログ信号は、アナログ/ディジタル(A/D)変換器246に供給され、この信号を周期的にサンプルして、この信号のディジタル・サンプルを形成する。次に、ディジタル・サンプルは特徴抽出コンポーネント248およびピッチ追跡装置250に供給される。
【0018】
特徴抽出コンポーネント248は、デジタル化スピーチ信号のスペクトル分析を実行することによって、ディジタル化入力スピーチ信号のパラメトリック表現を抽出する。この結果、入力スピーチ信号のフレーム列の周波数成分を表す係数が得られる。スペクトル分析を行なう方法は、信号処理の技術分野では周知であり、高速フーリエ変換、線形予測符号化(LPC)、およびケプストラム係数を含む。得られたスペクトル係数は、分析エンジン252に供給される。
【0019】
ディジタル化信号は、ピッチ追跡部250にも供給され、ピッチ追跡部250はこの信号を分析し、当該信号の一連のピッチ・マークを判定する。ピッチ・マークは、ディジタル化信号のピッチと一致するように設定されており、信号のピッチ期間に等しい量だけ時間的に分離されている。本発明の下でのピッチ追跡部250の動作について、以下で更に論ずることにする。ピッチ追跡部250によって生成したピッチ・マークは、分析エンジン252に供給される。
【0020】
分析エンジン252は、入力スピーチ信号において発見された各音素スピーチ単位(phonetic speech unit)の音響モデルを作成する。このようなスピーチ・ユニットは、音素、二重母音(2つの音素)、三重母音(3つの音素)を含むことができる。これらのモデルを作成するために、分析エンジン252は、スピーチ信号のテキストをその音素単位に変換する。スピーチ信号のテキストは、テキスト・ストレージ254に格納され、辞書ストレージ256を用いて、その音素単位に分割する。辞書ストレージ256は、テキスト・ストレージ254内の各単語の音素記述を含む。
【0021】
次いで、分析エンジン252は、モデル・ストレージ258から、各音素スピーチ単位の初期モデルを検索する。このようなモデルの例には、音素に対する三状態隠れマルコフ・モデルが含まれる。初期モデルを入力スピーチ信号のスペクトル係数と比較し、モデルが入力スピーチ信号を適正に表すまで、モデルを修正する。次いで、モデルを単位ストレージ260に格納する。
【0022】
ストレージは限られているので、分析エンジン252は、入力スピーチ信号において発見された音素スピーチ単位のあらゆるインスタンスを格納する訳ではない。代わりに、分析エンジン252は、各音素スピーチ単位のインスタンスのサブセットを選択し、スピーチ・ユニットの全ての出現を表すようにしている。
【0023】
単位ストレージ260に格納されている音素スピーチ単位毎に、分析エンジン252は、当該スピーチ・ユニットに関連するピッチ・マークもピッチ・ストレージ262に格納する。
【0024】
合成セクション244は、入力テキスト264からスピーチ信号を発声し、自然言語パーザ(NLP)266に供給する。自然言語パーザ266は、入力テキストを単語および句に分割し、これらの単語および句にタグを割り当て、テキストの種々の成分間の関係を記述する。テキストおよびタグは、文字/音(LTS)コンポーネント268および韻律エンジン270に渡される。LTSコンポーネント268は、辞書256および規則ストレージ272にある1組の文字/音素単位規則を用いて、各単語を、音素、二重母音、または三重母音のような音素スピーチ単位に分割する。文字/音素単位規則は、綴りは同一であるが発音が異なる単語に対する発音規則や、数詞をテキストに変換する変換規則(即ち、「1」を「一」に変換する)を含む。
【0025】
LTS268の出力は、音素ストリングおよび音節コンポーネント274に供給され、入力テキストに対して、適正な音節を有する音素ストリングを生成する。次いで、音素ストリングは、韻律エンジン270に渡され、音韻エンジン270はポーズ・マーカを挿入し、テキスト・ストリング内の各音素単位の強度、ピッチ、および持続時間を示す、韻律パラメータを決定する。典型的に、韻律エンジン270は、韻律記憶装置276に格納されている韻律モデルを用いて韻律を決定する。音素ストリングおよび韻律パラメータは、次いで、スピーチ合成部278に渡される。
【0026】
スピーチ合成部278は、単位ストレージ260およびピッチ・ストレージ262にアクセスすることによって、音素ストリング内の各音素単位毎に、音声モデルおよびピッチ・マークを検索する。スピーチ合成部278は、次に、格納されているユニットのピッチ、強度および持続時間を変換し、これらが、韻律エンジン270によって識別されたピッチ、強度および持続時間と一致するようにする。その結果、ディジタル出力スピーチ信号が得られる。次いで、ディジタル出力スピーチ信号は、出力エンジン280に供給され、格納するかまたはアナログ出力信号に変換する。
【0027】
格納されている単位のピッチを、韻律エンジン270が設定したピッチに変換するステップを、図5−1、図5−2および図5−3に示す。図5−1は、波形283、284、および285から成る、格納スピーチ・ユニット282のグラフである。スピーチ・ユニット282のピッチを低下させるために、スピーチ合成部278は、格納ピッチ・マークに基づいて個々の波形をセグメント化し、セグメント化した波形間の時間を延長する。この分離は、図5−2に示され、セグメント化波形286、287、および288は、図5−1の波形283、284、および285に対応する。
【0028】
ピッチ・マークがスピーチ・ユニットに対して適正に決定されていない場合、このセグメント化技法では、ピッチ低下が得られない。この例を図5−3に示す。この場合、スピーチ信号をセグメント化するために使用した格納ピッチ・マークは、誤ったピッチ期間を識別した。即ち、ピッチ・マークは、スピーチ信号に対して長すぎるピッチ期間を示した。その結果、単一のセグメント294内に多数のピーク290および292が現れ、韻律エンジン270が要求するピッチよりも高いピッチが作成された。したがって、精度の高いピッチ追跡装置は、スピーチ合成には必須である。
【0029】
ピッチ追跡は、スピーチ・コーディングにも用いられ、チャネルを通じて送られるスピーチ・データ量を削減する。本質的に、スピーチ・コーディングは、スピーチ・データを圧縮する際、スピーチ信号の発声部分において、スピーチ信号がほぼ反復する波形から成ることを認識する。各波形の各部分の正確な値を送る代わりに、スピーチ・コーダは、1つのテンプレート波形の値を送る。すると、後続の各波形を記述するには、直後に発生する波形を参照すれば済む。このようなスピーチ・コーダの一例を図6のブロック図に示す。
【0030】
図6において、スピーチ・コーダ300は、スピーチ信号302を受け取り、アナログ/ディジタル変換器304によってディジタル信号に変換する。ディジタル信号を線形予測符号化フィルタ(LPC)306に通し、信号を白色化してピッチ追跡を改善する。信号を白色化するために用いられる機能は、LPC係数によって記述され、これらの係数は、後に完全な信号を再生する際に用いることができる。白色化信号はピッチ追跡部308に供給され、ピッチ追跡部308はスピーチ信号のピッチを識別する。
【0031】
スピーチ信号は、減算ユニット310にも供給され、遅延させたスピーチ・ユニットを、スピーチ・ユニットから減算する。スピーチ・ユニットの遅延量は、遅延回路312によって制御する。遅延回路312は、現波形がスピーチ信号における直前の波形と一致するように、スピーチ信号を遅延させることが理想的である。この結果を得るために、遅延回路312は、ピッチ追跡部308が決定したピッチを利用する。これは、スピーチ信号内における連続波形間の時間的分離を示す。
【0032】
乗算ユニット314において、遅延波形を利得係数「g(n)」と乗算し、その後現波形からこれを減算する。利得係数は、減算ユニット310が算出する差を最小化するように選択する。これを行なうには、負フィードバック・ループ316を用い、差が最小化するまで利得係数を調節する。
【0033】
一旦利得係数を最小化したなら、ベクトル量子化ユニット318によって、減算ユニット310からの差、およびLPC係数をベクトル量子化してコードワードを形成する。スカラー量子化ユニット319によって、利得g(n)およびピッチ周期をスカラー量子化してコードワードを形成する。次いで、チャネルを通じてコードワードを送る。図6のスピーチ・コーダにおいて、減算ユニット310からの差が最小化されるならば、コーダの性能は向上する。波形の不一致は、波形間の差を増大させるので、ピッチ追跡部308の性能が低いと、コーディング性能も低くなる。したがって、効率的なスピーチ・コーディングには、高精度のスピーチ追跡部は必須である。
【0034】
従来技術では、ピッチ追跡は、相互相関を用いて行われていた。これは、現サンプリング・ウィンドウと直前のサンプリング・ウィンドウとの間の類似度の指示を与える。相互相関は、−1ないし+1間の値を有することができる。2つのウィンドウにおける波形が大きく異なる場合、相互相関は0に近い。しかしながら、2つの波形が類似している場合、相互相関は+1に近い。
【0035】
このようなシステムでは、相互相関を多数の異なるピッチ周期について計算する。一般に、実際のピッチ期間に最も近い検査ピッチ周期が、最も高い相互相関を得る。何故なら、ウィンドウ内の波形は非常に類似しているからである。実際のピッチ期間と異なる検査ピッチ期間では、相互相関は低い。何故なら、2つのサンプル・ウィンドウ内の波形は互いに一致していないからである。
【0036】
生憎、従来技術のピッチ追跡装置は、常に正しくピッチを識別するとは言えない。例えば、従来技術の相互相関システムの下では、スピーチ信号の無発声部分が偶然半反復波形を有する場合、これをピッチを与える発声部分として、誤った解釈をする可能性がある。これは重大な誤りである。何故なら、無発声領域は、スピーチ信号にピッチを与えないからである。ピッチを無発声領域と関連付けることによって、従来技術のピッチ追跡装置は、スピーチ信号に対するピッチの計算が不正確となり、無発声領域を発声領域として誤って解釈してしまう。
【0037】
従来技術の相互相関方法に対する改良において、本発明者は、ピッチ追跡に慨然論的モデルを構築した。蓋然論的モデルは、スピーチ信号に対して、検査ピッチ・トラックPが実際のピッチ・トラックである確率を決定する。この決定は、部分的に、一連のウィンドウ・ベクトル<B>X</B>を次のように試験することによって行なう。ここで、<B>P</B>および<B>X</B>は以下のように定義する。
【0038】
【数1】
【0039】
【数2】
ここで、Piは、ピッチ・トラックにおけるi番目のピッチを表し、xiは一連のウィンドウ・ベクトルにおけるi番目のウィンドウ・ベクトルを表し、Mはピッチ・トラックにおけるピッチの総数、および一連のウィンドウ・ベクトルにおけるウィンドウ・ベクトルの総数を表す。
【0040】
各ウィンドウベクトルxiは、入力スピーチ信号のウィンドウ内にあるサンプルの集合体として定義される。次の式において、
【0041】
【数3】
Nはウィンドウのサイズ、tはウィンドウ中央における時間マーク、x[t]は時刻tにおける入力信号のサンプルである。
【0042】
以下の論述では、数式3において定義したウィンドウ・ベクトルのことを、現ウィンドウ・ベクトルxtと呼ぶ。この基準に基づいて、直前のウィンドウ・ベクトルxt-Pは、次のように定義することができる。
【0043】
【数4】
ここで、Nはウィンドウのサイズ、Pは現ウィンドウの中心と直前のウィンドウの中心との間の時間期間を記述するピッチ期間、およびt-Pは直前のウィンドウの中心である。
【0044】
一連のウィンドウ・ベクトル<B>X</B>が与えられた場合の検査ピッチ・トラック
<B>P</B>が実際のピッチ・トラックである確率は、f(P|X)として表すことができる。この確率を多数の検査ピッチ・トラックについて計算すれば、確率を互いに比較し合って、実際のピッチ・トラックに等しい可能性が最も高いピッチ・トラックを特定することができる。したがって、ピッチ・トラックの最大後見(MAP)推定値は次のようになる。
【0045】
【数5】
ベイズの公式を用いると、数式5の確率を次のように展開することができる。
【0046】
【数6】
ここで、f(P)は、いずれかのスピーチ信号に現れるピッチ・トラック<B>P</B>の確率、f(X)は一連のウィンドウ・ベクトル<B>X</B>の確率、そしてf(X|P)はピッチ・トラック<B>P</B>が与えられたときの一連のウィンドウ・ベクトル<B>X</B>の確率である。数式6は、この式の右辺の係数によって表される総合確率を最大化するピッチ・トラックを求めるので、検査ピッチ・トラックの関数である係数のみを考慮すればよい。ピッチ・トラックの関数でない係数は無視することができる。f(X)はPの関数ではないので、数式6は次のように簡略化される。
【0047】
【数7】
このように、最も確率が高いピッチ・トラックを決定するために、本発明は、各検査ピッチ・トラック毎に2つの確率を決定する。第1に、本発明は、検査ピッチ・トラック<B>P</B>に対して、一連のウィンドウ・ベクトル<B>X</B>がスピーチ信号内に現れる確率を決定する。第2に、本発明は、いずれかのスピーチ信号内に検査ピッチ・トラック<B>P</B>が現れる確率を決定する。
【0048】
検査ピッチ・トラック<B>P</B>に対する一連のウィンドウ・ベクトル<B>X</B>の確率は、本発明によって、1群の個々の確率の積として近似され、群内の各確率は、個々のウィンドウ・ベクトルxiが、当該ウィンドウ・ベクトルに対してピッチPiが与えられた場合にスピーチ信号内に現れる確率を表す。式で表すと次のようになる。
【0049】
【数8】
ここで、Mは一連のウィンドウ・ベクトル<B>X</B>内におけるウィンドウ・ベクトルの数であり、ピッチ・トラック<B>P</B>内におけるピッチの数である。
【0050】
ピッチPiが時間ウィンドウに対して与えられたときにスピーチ信号内に個々のウィンドウ・ベクトルxiが現れる確率f(xi, Pi)は、スピーチ信号をモデル化することによって決定することができる。このモデルの基礎は、現ウィンドウ・ベクトルは、次の式にしたがって過去のウィンドウ・ベクトルの関数として記述できるという本発明者の観察である。
【0051】
【数9】
ここで、xtは現ウィンドウ・ベクトル、ρは予測利得、xt-Pは直前のウィンドウ・ベクトル、etはエラー・ベクトルである。この関係は、図7の二次元ベクトル空間において確認でき、xtはρxt-Pを一方の脚504として、etを他方の脚506として有する三角形502の斜辺500として示されている。斜辺500および脚504間の角度508をθで示す。
【0052】
図7から、最小予測誤差|et|2は、次のように定義される。
【0053】
【数10】
ここで、
【0054】
【数11】
数式11において、<xt, xt-P>はxtおよびxt-Pのスカラー積であり、次のように定義する。
【0055】
【数12】
ここで、x(t+n)は時点t+nにおける入力信号のサンプルであり、x[t+n-P]は時点t+n-Pにおける入力信号のサンプルであり、Nはウィンドウのサイズである。数式11の|xi|は、xtおよびxtのスカラー積の平方根であり、| xt-P |はxt-Pのxt-Pとのスカラー積の平方根である。式で表すと次のようになる。
【0056】
【数13】
【0057】
【数14】
数式11、12、13および14を組み合わせると、次の式が求まる。
【0058】
【数15】
数式15の右辺は、現ウィンドウ・ベクトルの相互相関αt(P)、およびピッチPに対する直前のウィンドウ・ベクトルに等しい。したがって、相互相関は、数式10におけるcos(θ)と置換することができ、その結果次の式が求まる。
【0059】
【数16】
本発明の一実施形態の下では、本発明者は最小予測誤差|et|2 発生の確率を、標準偏差σを有するゼロ平均ガウス・ランダム・ベクトルとしてモデル化する。したがって、|et|2 の値の確率は、そのいずれについても次の式で与えられる。
【0060】
【数17】
|et|2 の対数尤度(log likelihood)は、両辺の対数を取ることによって、数式17から決定することができ、その結果次の式が求まる。
【0061】
【数18】
これは、定数を単一の定数Vとして表すことによって簡略化することができ、次の式が求まる。
【0062】
【数19】
先の数式16を用いて|et|2 に代入することによって、次の式が得られる。
【0063】
【数20】
ピッチの関数でない係数は、集合化し、1つの定数Kで表すことができる。何故なら、これらの係数はピッチの最適化に影響を及ぼさないからである。この簡略化によって、次の式が求まる。
【0064】
【数21】
数式21に記述するように、ピッチ期間Pに対して特定の予測誤差を有する確率は、直前のウィンドウ・ベクトルおよびピッチ期間Pに対する現ウィンドウ・ベクトルの確率と同じである。したがって、数式21は次のように書き直すことができる。
【0065】
【数22】
ここで、f(xt|Pt)は、直前のウィンドウ・ベクトルおよびピッチ期間Pに対する現ウィンドウ・ベクトルの確率である。
【0066】
前述のように、本発明の下では、2つの確率を組み合わせ、最尤ピッチ・トラックを特定する。第1に、ピッチ・トラックに対する一連のウィンドウ・ベクトルの確率である。この確率は、数式22を先の数式8と組み合わせることによって計算することができる。第2の確率は、スピーチ信号内においてピッチ・トラックが生ずる確率である。
【0067】
本発明は、スピーチ信号内に生ずるピッチ・トラックの確率を近似するに当たり、あるフレームにおけるピッチ期間の先験的確率は、当該ピッチ・トラックにおける直前のピッチに対してスピーチ信号内に個々のピッチ各々が生ずる確率の積となる。数式で表すと次のようになる。
【0068】
【数23】
確率f(PT-1|PT-2)に対して可能な1つの選択は、平均が直前のピッチ期間に等しいガウス分布である。この結果、以下のように、個々のピッチ期間に対する対数尤度が得られる。
【0069】
【数24】
ここで、γはガウス分布の標準偏差であり、k'は定数である。
【0070】
数式7、8および23を組み合わせ、項を整理すると、次の数式が得られる。
【0071】
【数25】
対数は単調であるので、数式25を最大化するPの値は、数式25の右辺の対数も最大化する。
【0072】
【数26】
数式26を数式22および24と組み合わせ、定数kおよびk'を無視することにより、次の数式が得られる。
【0073】
【数27】
ここで、λ=σ2/γ2である。尚、数式27において、分子2σ2は、数式の右辺から除去されていることを注記しておく。何故なら、これは最尤ピッチ・トラックの決定には無意味であるからである。
【0074】
したがって、検査ピッチ・トラックが実際のピッチ・トラックである確率は、3つの項から成る。第1に、スピーチ信号からサンプルされた第1ウィンドウ内にあるエネルギを記述する初期エネルギ項α0 2(P0)|x0|2である。
【0075】
第2の項は、従来技術のピッチ追跡装置において見られる相互相関項の修正を表す予測可能なエネルギ項αi 2(Pi)|xi|2である。予測可能エネルギ項は、2つの係数、即ち、現ウィンドウの全エネルギ|xi|2、および現ウィンドウおよび直前のウィンドウ間の相互相関αi 2(Pi)を含む。全エネルギが含まれているので、この項は、従来技術の相互相関項よりも、ピッチの識別においては遥かに精度が高い。この理由の1つは、予測可能エネルギ項は、スピーチ信号の無発声部分において異常に大きな相互相関を軽視(deweight)するからである。この軽視は、従来技術では見られず、これを用いるのは、スピーチ信号の無発声部分の全エネルギは低く、予測可能なエネルギも低くなるからである。
【0076】
検査ピッチ・トラックの確率における第3の項は、ピッチ・トラックにおける大きな遷移を制限(penalize)するピッチ遷移項λ(Pi-Pt-1)2である。この項が数式27に含まれているので、従来技術に対して更に改善されることになる。従来技術のシステムでは、一旦1組の時間マークの各々において最尤ピッチが決定されたなら、ピッチ・トラックを平滑化するには、別個のステップを実行していた。本発明の下では、この別個のステップは、ピッチ・トラックのための単一の確率計算に組み込まれている。
【0077】
数式27の加算部分は、1連の個々の確率スコアの和として見なすことができ、各スコアは、個々の時点における個々のピッチ遷移の確率を示す。これらの個々の確率のスコアは次のように表される。
【0078】
【数28】
ここで、Si(Pi, P i-1)は、時点i-1におけるピッチPi-1から時点iにおけるピッチPiへ遷移する確率スコアである。
【0079】
数式28を数式27と結合すると、次の式が得られる。
【0080】
【数29】
数式29は、ピッチPM-1で終了する最尤ピッチ・トラックである。ピッチPMで終了する最尤ピッチ・トラックを計算するために、数式29を展開して次の式を求める。
【0081】
【数30】
数式30を数式29と比較すると、新たなピッチPMで終了する最尤ピッチ・トラックを計算するためには、直前のピッチPM-1で終了するピッチ・パスについて計算した確率に、新たなピッチに遷移することに関連するピッチ・スコアSM(PM, P M-1)を加算する。
【0082】
本発明の一実施形態の下では、ピッチ・トラック・スコアは、1組の時間マークt=iTにおいて決定され、ピッチPM-1で終了するピッチ・トラック・スコアを時点t=(M-1)Tにおいて決定するようにする。時点t=(M-1)Tにおいて決定したピッチ・トラック・スコアを格納し、数式30を用いることによって、本発明のこの実施形態は、ピッチPMで終了する最尤ピッチ・トラック・スコアを計算するためには、時点t=MTにおけるパス・スコアSM(PM, P M-1)を決定するだけ済む。
【0083】
数式30に基づいて、図8に示すように、本発明のピッチ追跡装置350を提供する。ピッチ追跡装置350の動作について、図9のフロー図で説明する。
ピッチ追跡装置350は、入力352においてスピーチ信号のディジタル・サンプルを受け取る。多くの実施形態では、スピーチ信号をバンド・パス・フィルタにかけ、その後にディジタル・サンプルに変換することによって、発声スピーチに関連のない高周波および低周波を除去する。ピッチ追跡装置350内では、ストレージ・エリア354にディジタル・サンプルを格納し、ピッチ追跡装置350が多数回サンプルにアクセスできるようにしている。
【0084】
図9のステップ520において、図8のピッチ指定部360は、現時間期間t=Mtに対する検査ピッチPMを指定する。多くの実施形態では、ピッチ指定部360は、人のスピーチに見られるピッチ例のリストを含むピッチ・テーブル362から検査ピッチPMを検索する。多くの実施形態では、ピッチのリストは、互いに対数的に分離したピッチを含む。一実施形態の下では、1/4セミトーンの分解能によって、良好な結果が得られることがわかっている。検索される個々のピッチは任意である。何故なら、リストにあるピッチの各々は、結局この時間期間中に検索されるからである。これについては以下で論ずる。
【0085】
ピッチ指定部360によって指定された検査ピッチPMは、ウィンドウ・サンプラ358に供給される。指定された検査ピッチおよびサンプル・ストレージ354に格納されているサンプルに基づいて、ウィンドウ・サンプラ358は、図9のステップ522において、現ウィンドウ・ベクトルxtおよび直前のウィンドウ・ベクトルxt-Pを構築する。現ウィンドウ・ベクトルおよび直前のウィンドウ・ベクトルは、先の数式3および4によって記述されるサンプルの集合体を含む。
【0086】
現ウィンドウ・ベクトルxtおよび直前のウィンドウ・ベクトルxt-Pに見られるサンプルの例を図10に示す。これは、時間の関数としての入力スピーチ信号404のグラフである。図10では、現ウィンドウ402は、ピッチ指定部360が指定したピッチ期間406だけ、直前のウィンドウ400から分離している。直前のウィンドウ・ベクトルxt-Pのサンプルx[t-P-4], x[t-P-3]およびx[t-P-2]が、直前のウィンドウ400におけるサンプル408、410および412として示されている。現ウィンドウ・ベクトルxtのサンプルx[t+n-4], x[t+n-3]およびx[t+n-2]が、現ウィンドウ402におけるサンプル414、416および418として示されている。
【0087】
ウィンドウ・サンプラ358は、現ウィンドウ・ベクトルxtをエネルギ計算部366に供給し、図9のステップ524において、ベクトルのエネルギ|xt|2を計算する。一実施形態では、エネルギを計算するには先の数式13を用いる。
【0088】
また、ウィンドウ・サンプラ358は、現ウィンドウ・ベクトルxtを相互相関計算部364に、前ウィンドウ・ベクトルxt-Pと共に供給する。先の数式15を用いて、相互相関計算部364は、図9のステップ526において、前進相互相関αt(P)を計算する。本発明の実施形態の一部では、数式15におけるウィンドウNのサイズは、検査対象のピッチPに等しく設定してある。これらの実施形態において小さ過ぎるウィンドウを用いるのを回避するために、本発明者は、検査するPには無関係に、必要な最小ウィンドウ長を5ミリ秒とする。
【0089】
本発明の実施形態の一部では、ウィンドウ・サンプラ358は次のウィンドウベクトルxt+Pも相互相関計算部364に供給する。次のウィンドウ・ベクトルxt+Pは、現ウィンドウ・ベクトルxtからは、ピッチ指定部360が求めたピッチに等しい量だけ時間的に先んじている。図9のステップ528において、相互相関計算部364は、次のウィンドウ・ベクトルxt+Pを用いて、後進相互相関αt(-P)を計算する。後進相互相関αt(-P)は、先の数式15を用い、(+P)を(-P)と置換することによって計算することができる。
【0090】
ステップ528において後方相互相関を計算した後、本発明の実施形態の一部では、ステップ530において前進相互相関αt(P)を後進相互相関αt(-P)と比較する。この比較を行なうのは、スピーチ信号が突然変化しなかったか否か判定するためである。同じピッチ期間に対して後進相互相関が前進相互相関よりも高い場合、入力スピーチ信号は、直前のウィンドウと現ウィンドウとの間で変化した確率が高い。このような変化は、典型的に、音素間の境界においてスピーチ信号において生ずる。信号が直前のウィンドウおよび現ウィンドウ間で変化した場合、後進相互相関は、前進相互相関よりも、現ウィンドウにおける予測可能なウィンドウを一層正確に判定することができる。
【0091】
後進相互相関の方が前進相互相関よりも高い場合、ステップ532において後進相互相関を0と比較する。ステップ532において後進相互相関が0未満である場合、次のウィンドウと現ウィンドウとの間には負の相互相関がある。相互相関は、数式27においてピッチ・スコアを計算するために用いられる前に、二乗されるので、負の相互相関は、数式27における正の相互相関と誤って見なされる可能性がある。これを避けるために、ステップ532において後進相互相関が0未満である場合、ステップ534において、2回修正した相互相関αt"(P)を0にセットする。ステップ532において後進相互相関が0よりも大きい場合、ステップ536において1回修正した相互相関αt'(P)を後進相互相関αt(-P)に等しく設定する。
【0092】
ステップ530において前進相互相関が後進相互相関よりも大きい場合、ステップ538において前進相互相関を0と比較する。ステップ538において、前進相互相関が0未満である場合、ステップ534において、2回修正した相互相関αt"(P)を0にセットする。ステップ538において、前進相互相関が0よりも大きい場合、ステップ542において、1回修正した相互相関αt'(P)を前進相互相関αt(P)に等しく設定する。
【0093】
本発明の更に別の実施形態では、ステップ544において、1回修正した相互相関αt'(P)を更に修正し、2回修正相互相関αt"(P)を形成する。この時、1回修正相互相関αt'(P)から高調波減少値(harmonic reduction value)を減算する。高調波減少値は2つの部分を有する。第1部分は、ピッチ周期の半分(p/2)だけ分離したウィンドウ・ベクトルの相互相関である。第2の部分は、p/2相互相関値を乗算した高調波減少係数である。式では、この修正は次のように表される。
【0094】
【数31】
αt"(P) =αt'(P) - βαt'(P/2)
ここで、βは、0<β<1となるような減少係数である。一部の実施形態では、βは(0.2)である。
【0095】
ステップ534および544の後、図9のプロセスはステップ546に進み、各パス毎に現パス・スコアSM(PM, P M-1)を計算し、直前の時間マークにおけるピッチから現時間マークt=MTにおける、現選択ピッチまで拡張する。現パス・スコアを計算するには、先の数式28を用いる。予測可能エネルギαt 2(Pt)|xt|2を計算するには、相互相関計算部364の出力を二乗し、この二乗にエネルギ計算部366の出力を乗算する。これらの関数は、図8の二乗ブロック368および乗算ブロック370によって表されている。尚、一部の実施形態では、2回修正相互相関αt"(Pt)は、αt(Pt)の代わりに、相互相関計算部364によって求める。このような実施形態では、2回修正相互相関は、予測可能エネルギを計算するために用いられる。
【0096】
数式28のピッチ遷移項λ(PM-PM-1)2は、図8のピッチ遷移計算部372によって形成する。時点t=(M-1)Tにおける各ピッチ毎に、ピッチ遷移計算部372は別個のピッチ遷移項λ(PM-PM-1)2を計算する。ピッチ遷移計算部372は、ピッチ指定部360から現ピッチPMを受け取り、ピッチ・テーブル362を用いて、直前のピッチPM-1を識別する。
【0097】
ピッチ遷移計算部372によって求めた別個のピッチ遷移項は、各々、減算ユニット374によって、乗算器370の出力から減算される。これによって、時点t=(M-1)Tにおける直前のピッチPM-1から時点t=MTにおける現検査ピッチPMまでのパスの各々について、ピッチ・スコアを求める。
【0098】
図9のステップ548において、ピッチ指定部360は、時点t=MTにおける各ピッチPMにパス・スコアを求めたか否か判定する。パス・スコアを求めるために用いられていないピッチがt=MTにおいてある場合、ステップ550においてピッチ指定部360においてこのピッチを選択する。次いで、プロセスはステップ522に戻り、直前のピッチPM-1から新たに選択したピッチPMへの遷移に対するパス・スコアを求める。このプロセスは、直前の各ピッチPM-1から可能な全ての現ピッチPMまでのパスの各々に対して計算し終えるまで継続する。
【0099】
ステップ548において現パス・スコアを全て計算したなら、プロセスはステップ552に進み、動的プログラミング376は数式30を用いて、現パス・スコアSM(PM, P M-1)を過去のピッチ・トラック・スコアに加算する。先に論じたように、過去のピッチ・トラック・スコアは、直前の時間マークt=(M-1)Tにおいて終了した各トラックに対するピッチ・スコアの和を表す。現パス・スコアを過去のピッチ・トラック・スコアに加算することにより、現時間マークt=MTにおいて終了した各ピッチ・トラックに対するピッチ・トラック・スコアが得られる。
【0100】
このプロセスの一部として、動的プログラミング376の実施形態の一部では、過度に低いパス・スコアを有するピッチ・トラックを排除する。これによって、今後のパス・スコアを計算する複雑性が低減し、しかも性能に重大な影響を及ぼすこともない。このような間引きのため、時点t=(M-S)T以前の全ての時点に可能なピッチ・トラックを、単一の最も確率が高いピッチ・トラックに収束させる。ここで、「S」の値は、部分的に、間引きの厳格性、およびスピーチ信号におけるピッチの安定性によって決定される。次にステップ554において、この確率が最も高いピッチ・トラックを出力する。
【0101】
ステップ556において、時点t=MTで決定した残りのピッチ・トラックに対するスコアを格納し、ステップ558において、時間マークをt=(M+1)Tに増分する。次に、図9のプロセスはステップ520に戻り、ピッチ指定部360は、新たな時間マーカに対する最初のピッチを選択する。
【0102】
ピッチ・トラックを識別することに加えて、本発明は、スピーチ信号の発声部分および無発声部分を識別する手段も備えている。これを行なうために、本発明は、図11にモデル600として示す、二状態隠れマルコフ(HMM)を定義する。モデル600は、発声状態602および無発声状態604を含み、遷移パス606および608が2つの状態間に延びている。また、モデル600は、状態602および604をそれ自体にそれぞれ接続する、自己遷移パス610および612も含む。
【0103】
いずれの時間期間においても発声状態または無発声状態のいずれかにある確率は、2つの確率の組み合わせとなる。第1の確率は、スピーチ信号が発声領域から無発声領域に、またはその逆に遷移する、あるいはスピーチ信号が発声領域または無発声領域内に留まる尤度を表す遷移確率である。したがって、第1の確率は、遷移パス606、608、610または612の1つをスピーチ信号が通過する尤度を示す。多くの実施形態では、発声領域および無発声領域双方が小さくなり過ぎないことを保証し、連続性を維持するように、遷移確率を経験的に決定している。
【0104】
スピーチ信号が発声領域または無発声領域のどちらにあるか判定する際に用いる第2の確率は、現時間期間におけるスピーチ信号の特性に基づく。即ち、第2の確率は、現サンプリング・ウィンドウ|xt|2の全エネルギ、および当該ウィンドウに対して特定した最大先見的ピッチPMAPにおいて決定された現サンプリング・ウィンドウの2回修正相互相関αt"(PMAP)の組み合わせに基づいている。本発明の下では、これらの特性は、発声領域および無発声領域の強力な指示となることがわかっている。これは、図12のグラフにおいて見ることができる。図12は、全エネルギ値(横軸630)および相互相関値(縦軸632)の関数として、発声ウィンドウ・サンプル643および無発声ウィンドウ・サンプル636の相対的集合化を示す。図12において、発声ウィンドウ・サンプル634は、高い全エネルギおよび高い相互相関を有する傾向があり、一方無発声ウィンドウ・サンプル636は低い全エネルギおよび低い相互相関を有する傾向があることがわかる。
【0105】
本発明の下における、スピーチ信号の発声領域および無発声領域を識別する方法を、図13のフロー図に示す。この方法は、ステップ650にて開始し、現時点tを中心とする現ウィンドウ・ベクトルxtおよび以前の時点t-PMAPを中心とする直前のウィンドウ・ベクトルxt-Pを用いて、相互相関を計算する。相互相関の計算では、PMAPは、前述のピッチ追跡プロセスによって現時点tに対して識別された最大先見的ピッチである。加えて、一部の実施形態では、ウィンドウ・ベクトルxtおよびxt-Pの長さは最大先見的ピッチPMAPに等しい。
【0106】
ステップ650において相互相関を計算した後、ステップ652においてウィンドウ・ベクトルxtの全エネルギを判定する。次に、ステップ654において、相互相関および全エネルギを用いて、ウィンドウ・ベクトルが発声領域をカバーする確率を計算する。一実施形態では、この計算は、発声サンプル、全エネルギおよび相互相関の間の関係のガウス・モデルを基本とする。サンプルの発声に基づいた発声クラスタおよび無発声クラスタ双方に対する平均および標準偏差を推定するEM(推定最大化)アルゴリズムを用いて、ガウス分布の平均および標準偏差を計算する。このアルゴリズムは、発声クラスタおよび無発声クラスタ双方の平均および標準偏差の初期推定から開始する。次いで、どのクラスタが最大の確率をもたらすかに基づいて、サンプル発音(sample utterance)のサンプルを分類する。このサンプルのクラスタに対する割り当てにより、各クラスタの平均および標準偏差を再度推定する。このプロセスは、収束に達し、各クラスタの平均および標準偏差が繰り返しの間でさほど変わらなくなるまで、繰り返される。初期値は、このアルゴリズムにとっていくらか重要である。本発明の一実施形態の下では、発声状態の初期平均は、最高の対数エネルギのサンプルに等しく設定され、無発声状態の平均は、最低の対数エネルギのサンプルに等しく設定される。発声クラスタおよび無発声クラスタ双方の初期標準偏差は、サンプル全ての全域標準偏差に等しい値に、互いに等しく設定される。
【0107】
ステップ656において、本方法は、現ウィンドウ・ベクトルxtがスピーチ信号の無発声部分をカバーする確率を計算する。一実施形態では、この計算も、無発声サンプル、全エネルギおよび相互相関の間の関係のガウス・モデルを基本とする。
【0108】
ステップ658において、適切な遷移確率を、ステップ654および656において計算した確率の各々に加算する。適切な遷移確率とは、モデルの直前の状態からそれぞれの状態への遷移に関連する確率である。したがって、直前の時間マークにおいて、スピーチ信号が図11の無発声状態604にあった場合、発声状態602に関連する遷移確率は、遷移パス606に関連する確率となる。同じ直前の状態では、無発声状態604に関連する遷移確率は、遷移パス612に関連する確率となる。
【0109】
ステップ660において、各状態に関連する確率の和を、発声状態および無発声状態において現時間フレームに入る可能性のある複数の発声トラック(voicing track)に対するそれぞれのスコアに加算する。動的プログラミングを用いて、過去の時間期間に対する発声判断を、発声トラックの現スコアから行なう。このような動的プログラミング・システムは、当技術分野では周知である。
【0110】
ステップ661において、ボイス追跡システムは、これがスピーチ信号における最後のフレームか否か判定を行なう。これが最後のフレームでない場合、ステップ662においてスピーチ信号における次の時間マークを選択し、プロセスはステップ650に戻る。これが最後のフレームである場合、ステップ663において、最後のフレームにおいて終了した可能性がある発声トラックの全てに対するスコアを試験することによって、完全な最適発声トラックを判定する。
【0111】
以上、特定実施形態を参照しながら本発明について説明したが、本発明の精神および範囲から逸脱することなく、形態および詳細において変更が可能であることを当業者は認めよう。加えて、本発明を説明するためにブロック図を用いたが、本発明のコンポーネントは、コンピュータ命令としても実現可能であることを当業者は認めよう。
【図面の簡単な説明】
【図1】 本発明の環境例の平面図である。
【図2】 スピーチ信号のグラフである。
【図3】 時間の関数としての平叙文に対するピッチのグラフである。
【図4】 スピーチ合成システムのブロック図である。
【図5】 図5−1は、スピーチ信号のグラフである。
図5−2は、図5−1のスピーチ信号のピッチを適正に低下させた場合のグラフである。
図5−3は、図5−1のスピーチ信号のピッチを適正に低下させた場合のグラフである。
【図6】 スピーチ・コーダのブロック図である。
【図7】 スピーチ信号のウィンドウ・ベクトルの二次元表現である。
【図8】 本発明のピッチ追跡装置のブロック図である。
【図9】 本発明のピッチ追跡方法のフロー図である。
【図10】 ウィンドウ・ベクトルを形成するサンプルを示すスピーチ信号のグラフである。
【図11】 スピーチ信号の発声および無発声領域を識別する隠れマルコフ・モデルのグラフである。
【図12】 エネルギおよび相互相関の関数としての発声および無発声サンプルの集合化のグラフである。
【図13】 本発明の下で発声および無発声領域を識別する方法のフロー図である。
Claims (36)
- スピーチ信号においてピッチを追跡する方法であって、
第1時間マークを中心とする第1時間ウィンドウにおいて前記スピーチ信号をサンプルし、第1ウィンドウ・ベクトルを求めるステップと、
第2時間マークを中心とする第2時間ウィンドウにおいて前記スピーチ信号をサンプルし、第2ウィンドウ・ベクトルを求めるステップであって、前記第2時間マークを検査ピッチ期間だけ前記第1時間マークから分離する、ステップと、
前記第1ウィンドウ・ベクトルが表す前記スピーチ信号の部分のエネルギを示すエネルギ値を計算するステップと、
前記第1ウィンドウ・ベクトルおよび前記第2ウィンドウ・ベクトルに基づいて相互相関値を計算するステップと、
前記エネルギ値および前記相互相関値を組み合わせて、予測可能エネルギ係数を求めるステップと、
部分的に前記予測可能エネルギ係数に基づいて、前記検査ピッチ期間に対するピッチ・スコアを判定するステップと、
部分的に前記ピッチ・スコアに基づいて、ピッチ・トラックの少なくとも一部を識別するステップと、
から成る方法。 - 請求項1記載の方法において、第1時間ウィンドウにおいて前記スピーチ信号をサンプルするステップは、前記検査ピッチ期間と同じ長さである第1時間ウィンドウにおいて前記スピーチ信号をサンプルするステップから成る方法。
- 請求項2記載の方法において、前記第2時間ウィンドウにおいて前記スピーチ信号をサンプルするステップは、前記検査ピッチ期間と同じ長さである第2時間ウィンドウにおいて前記スピーチ信号をサンプルするステップから成る方法。
- 請求項1記載の方法において、前記相互相関値を計算するステップは、前記第1ウィンドウベクトルおよび前記第2ウィンドウベクトルのスカラー積を、前記第1ウィンドウ・ベクトルおよび前記第2ウィンドウ・ベクトルの大きさで除算し、初期相互相関値を求めるステップをから成る方法。
- 請求項4記載の方法において、前記相互相関値を計算するステップは、更に、前記相互相関値を前記初期相互相関値に等しく設定するステップを含む方法。
- 請求項4記載の方法において、前記相互相関値を計算するステップは、更に、前記初期相互相関値が0未満である場合、前記相互相関値を0に設定するステップを含む方法。
- 請求項4記載の方法であって、更に、第3時間マークを中心とする第3時間ウィンドウにおいて前記スピーチ信号をサンプルするステップであって、前記第3時間マークを前記第1時間マークから前記検査ピッチ期間だけ分離する、ステップを含む方法。
- 請求項7記載の方法において、前記相互相関値を計算するステップは、更に、
前記第1ウィンドウ係数および前記第3ウィンドウ係数に基づいて第2相互相関値を計算するステップと、
前記初期相互相関値を前記第2相互相関値と比較するステップと、
前記第2相互相関値が前記初期相互相関値よりも高い相関を示す場合、前記相互相関値を前記第2相互相関値に等しく設定し、それ以外の場合には前記相互相関値を前記初期相互相関値に等しく設定するステップと、
を含む方法。 - 請求項4記載の方法において、前記相互相関値を計算するステップは、更に、
前記第1時間マークを中心とする第1高調波時間ウィンドウにおいて前記スピーチ信号をサンプルし、第1高調波ウィンドウ・ベクトルを求めるステップと、
第2高調波時間マークを中心とする第2高調波時間ウィンドウにおいて前記スピーチ信号をサンプルし、第2高調波ウィンドウ・ベクトルを求めるステップであって、前記第2高調波時間マークを前記検査ピッチ期間の半分だけ前記第1時間マークから分離する、ステップと、
前記第1高調波ウィンドウ・ベクトルおよび前記第2高調波ウィンドウ・ベクトルに基づいて、高調波相互相関値を計算するステップと、
前記高調波相互相関値を減少係数と乗算し、高調波減少値を求めるステップと、
前記初期相互相関値から前記高調波減少値を減算し、前記相互相関値をその差に等しく設定するステップと、
を含む方法。 - 請求項1記載の方法において、ピッチ・スコアを判定するステップは、前記検査ピッチ期間が、前記第1時間マークを中心とする前記スピーチ信号の一部に対する実際のピッチ期間である確率を判定するステップをから成る方法。
- 請求項10記載の方法において、前記検査ピッチ期間が前記実際のピッチ期間である確率を判定するステップは、直前のピッチ期間から前記検査ピッチ期間に遷移する確率を示す遷移確率に、前記予測可能エネルギ係数を加算するステップから成る方法。
- 請求項11記載の方法であって、更に、複数のピッチ・スコアを判定するステップであって、複数の直前のピッチ・スコアから前記検査ピッチ期間までの可能な遷移の各々に対して、1つのピッチ・スコアを判定する、ステップを含む方法。
- 請求項12記載の方法であって、更に、前記複数のピッチ・スコアを過去のピッチ・スコアと組み合わせて、ピッチ・トラック・スコアを求めるステップであって、各ピッチ・トラック・スコアが、検査ピッチ・トラックが前記スピーチ信号の実際のピッチ・トラックに等しい確率を示す、ステップを含む方法。
- 請求項13記載の方法において、前記ピッチ・トラックを識別するステップは、前記ピッチ・トラックを最高のピッチ・トラック・スコアと関連付けるステップから成る方法。
- 請求項1記載の方法であって、更に、前記第1時間マーカが前記スピーチ信号の発声領域内にあるか否か判定を行なうステップを含む方法。
- 請求項15記載の方法において、前記第1時間マーカが前記スピーチ信号の発声領域にあるか否か判定するステップは、前記エネルギ値および前記相互相関値に基づいて、前記第1時間マーカが発声領域内にある確率を判定するステップから成る方法。
- スピーチ機能を実行するように設計したコンピュータ・スピーチ・システムにおいて、
前記スピーチ信号の現ウィンドウおよび直前のウィンドウのそれぞれから、現ウィンドウ・ベクトルおよび直前ウィンドウ・ベクトルを構築するウィンドウ・サンプリング・ユニットであって、前記現ウィンドウの中心を、検査ピッチ期間だけ、直前のウィンドウの中心から分離した、ウィンドウ・サンプリング・ユニットと、
前記現ウィンドウの全エネルギを計算するエネルギ計算部と、
前記現ウィンドウ・ベクトルおよび前記直前ウィンドウ・ベクトルに基づいて相互相関値を計算する相互相関計算部と、
前記全エネルギを前記相互相関値と乗算し、予測可能エネルギ係数を求める乗算器と、
前記予測可能エネルギに基づいてピッチ・スコアを求めるピッチ・スコア算出部と、
少なくとも部分的に前記ピッチ・スコアに基づいて、前記スピーチ信号に対してピッチ・トラックの少なくとも一部を識別するピッチ・トラック識別部と、
から成るピッチ追跡装置。 - 請求項17記載のピッチ追跡装置において、前記コンピュータ・スピーチ・システムがスピーチ合成システムであるピッチ追跡装置。
- 請求項17記載のピッチ追跡装置において、前記コンピュータ・スピーチ・システムがスピーチ・コーダであるピッチ追跡装置。
- スピーチ信号においてピッチを追跡する方法であって、
前記スピーチ信号において第1波形をサンプルするステップと、
前記スピーチ信号において第2波形をサンプルするステップであって、前記第1波形の中心を、検査ピッチ期間だけ前記第2波形の中心から分離する、ステップと、
前記第1波形と前記第2波形との間の類似度を示す相関値を形成するステップであって、
前記第1波形および前記第2波形間の相互相関を判定するステップと、
前記第1波形のエネルギを判定するステップと、
前記相互相関を前記エネルギと乗算し相関値を求めるステップと、
によって相関値を形成するステップと、
前記検査ピッチ期間と直前のピッチ期間との間の類似度を示すピッチ輪郭係数を形成するステップと、
前記相関値および前記ピッチ輪郭係数を組み合わせて、直前のピッチ期間から前記検査ピッチ期間への遷移に対するピッチ・スコアを求めるステップと、
少なくとも1つのピッチ・スコアに基づいて、ピッチ・トラックの一部を識別するステップと、
から成る方法。 - 請求項20記載の方法において、前記相互相関を判定するステップは、前記第1波形のサンプルに基づいて第1ウィンドウ・ベクトルを形成するステップと、前記第2波形のサンプルに基づいて第2ウィンドウ・ベクトルを形成するステップとを含む方法。
- 請求項21記載の方法において、前記相互相関を判定するステップは、更に、前記第1ウィンドウ・ベクトルおよび前記第2ウィンドウ・ベクトルのスカラー積を、前記第1ウィンドウ・ベクトルおよび第2ウィンドウ・ベクトルの大きさで除算し、初期相互相関値を求めるステップを含む方法。
- 請求項22記載の方法において、前記相互相関値を判定するステップは、更に、前記相互相関値を前記初期相互相関値に等しく設定するステップを含む方法。
- 請求項22記載の方法において、前記相互相関値を判定するステップは、更に、前記初期相互相関値が0未満である場合、前記相互相関を0に設定するステップを含む方法。
- 請求項22記載の方法であって、更に、前記スピーチ信号において第3波形をサンプルするステップであって、前記第3波形の中心を、前記検査ピッチ期間だけ、前記第1波形の中心から分離する、ステップと、
前記第3波形のサンプルに基づいて第3ウィンドウ・ベクトルを形成するステップと、
を含む方法。 - 請求項25記載の方法において、前記相互相関を判定するステップは、更に、
前記第1ウィンドウ・ベクトルおよび前記第3ウィンドウ・ベクトルに基づいて第2相互相関値を計算するステップと、
前記初期相互相関値を前記第2相互相関値と比較するステップと、
前記第2相互相関値が前記初期相互相関値よりも高い場合、前記相互相関を前記第2相互相関値に等しく設定し、それ以外の場合前記相互相関値を前記初期相互相関値に等しく設定するステップと、
を含む方法。 - 請求項22記載の方法において、前記相互相関を判定するステップは、更に、
第1高調波波形をサンプルし、前記第1高調波波形のサンプルに基づいて第1高調波ウィンドウ・ベクトルを形成するステップと、
第2高調波波形をサンプルし、前記第2高調波波形のサンプルに基づいて第2高調波ウィンドウ・ベクトルを形成するステップであって、前記第2高調波波形の中心を、前記検査ピッチ期間の半分だけ、前記第1高調波波形の中心から分離する、ステップと、
前記第1高調波ウィンドウ・ベクトルおよび前記第2高調波ウィンドウ・ベクトルに基づいて高調波相互相関値を計算するステップと、
前記高調波相互相関値を減少係数と乗算し、高調波減少値を求めるステップと、
前記初期相互相関値から前記高調波減少値を減算し、前記相互相関値をその差に等しく設定するステップと、
を含む方法。 - 請求項20記載の方法において、前記第1波形の長さが前記検査ピッチ期間に等しい方法。
- 請求項20記載の方法において、前記ピッチ輪郭係数を形成するステップは、前記直前のピッチ期間から前記検査ピッチ期間を減算するステップから成る方法。
- 請求項29記載の方法において、前記相関値および前記ピッチ輪郭係数を組み合わせるステップは、前記相関値から前記ピッチ輪郭係数を減算するステップから成る方法。
- 請求項20記載の方法において、ピッチ・トラックの一部を識別するステップは、少なくとも2つのピッチ・トラックに対して複数のピッチ・スコアを決定するステップを含み、各検査ピッチ・トラックにおける各ピッチ遷移毎にピッチ・スコアを1つずつ決定する方法。
- 請求項31記載の方法において、ピッチ・トラックの一部を識別するステップは、更に、各検査ピッチ・トラックのピッチ・スコアを互いに加算し、和が最大の検査ピッチ・トラックを、前記スピーチ信号のピッチ・トラックとして選択するステップを含む方法。
- スピーチ信号におけるピッチを追跡するピッチ追跡システムであって、
前記スピーチ信号における第1波形および第2波形のサンプルを形成するウィンドウ・サンプラと、
前記第1波形および前記第2波形間の相互相関を判定するステップと、
前記第1波形のエネルギを判定するステップと、
前記相互相関を前記エネルギと乗算して相関値を求めるステップによって、前記第1波形と前記第2波形との間の類似度を示す相関値を形成する相関計算部と、
検査ピッチ期間と直前のピッチ期間との間の類似度を示すピッチ輪郭係数を計算するピッチ輪郭計算部と、
前記相関値および前記ピッチ輪郭係数に基づいて、ピッチ・スコアを計算するピッチ・スコア計算部と、
前記ピッチ・スコアに基づいてピッチ・トラックを識別するピッチ・トラック識別部と、
から成るシステム。 - スピーチ信号の領域が発声領域であるか否か判定を行なう方法であって、
前記スピーチ信号の第1波形および第2波形をサンプルするステップと、
前記第1波形および前記第2波形間の相関を判定するステップと、
前記第1波形の全エネルギを判定するステップと、
前記第1波形の全エネルギ、ならびに前記第1波形および前記第2波形間の相関が双方共高い場合、前記領域を発声領域であると判定するステップと、
から成る方法。 - 請求項34記載の方法であって、更に、前記第1波形の全エネルギ、ならびに前記第1波形および前記第2波形間の相関が双方共低い場合、前記スピーチ信号の領域を無発声領域であると判定するステップを含む方法。
- コンピュータ・システムにおいて用い、スピーチ信号の領域が発声領域であるか否か判定可能なピッチ追跡装置であって、
第1波形および第2波形をサンプルするサンプラと、
前記第1波形および前記第2波形間の相関を計算する相関計算部と、
前記第1波形の全エネルギを計算するエネルギ計算部と、
前記第1波形および前記第2波形間の相関が高く、かつ前記第1波形の前記全エネルギが高い場合、前記スピーチ信号の領域を発声領域として識別する領域識別部と、
から成るピッチ追跡装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/198,476 US6226606B1 (en) | 1998-11-24 | 1998-11-24 | Method and apparatus for pitch tracking |
US09/198,476 | 1998-11-24 | ||
PCT/US1999/027662 WO2000031721A1 (en) | 1998-11-24 | 1999-11-22 | Method and apparatus for pitch tracking |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003521721A JP2003521721A (ja) | 2003-07-15 |
JP4354653B2 true JP4354653B2 (ja) | 2009-10-28 |
Family
ID=22733544
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000584463A Expired - Fee Related JP4354653B2 (ja) | 1998-11-24 | 1999-11-22 | ピッチ追跡方法および装置 |
Country Status (8)
Country | Link |
---|---|
US (1) | US6226606B1 (ja) |
EP (1) | EP1145224B1 (ja) |
JP (1) | JP4354653B2 (ja) |
CN (1) | CN1152365C (ja) |
AT (1) | ATE329345T1 (ja) |
AU (1) | AU1632100A (ja) |
DE (1) | DE69931813T2 (ja) |
WO (1) | WO2000031721A1 (ja) |
Families Citing this family (48)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7315815B1 (en) * | 1999-09-22 | 2008-01-01 | Microsoft Corporation | LPC-harmonic vocoder with superframe structure |
US6418407B1 (en) * | 1999-09-30 | 2002-07-09 | Motorola, Inc. | Method and apparatus for pitch determination of a low bit rate digital voice message |
US6510413B1 (en) * | 2000-06-29 | 2003-01-21 | Intel Corporation | Distributed synthetic speech generation |
US6535852B2 (en) * | 2001-03-29 | 2003-03-18 | International Business Machines Corporation | Training of text-to-speech systems |
US6917912B2 (en) * | 2001-04-24 | 2005-07-12 | Microsoft Corporation | Method and apparatus for tracking pitch in audio analysis |
US7366712B2 (en) * | 2001-05-31 | 2008-04-29 | Intel Corporation | Information retrieval center gateway |
US6907367B2 (en) * | 2001-08-31 | 2005-06-14 | The United States Of America As Represented By The Secretary Of The Navy | Time-series segmentation |
JP3997749B2 (ja) * | 2001-10-22 | 2007-10-24 | ソニー株式会社 | 信号処理方法及び装置、信号処理プログラム、並びに記録媒体 |
JP3823804B2 (ja) * | 2001-10-22 | 2006-09-20 | ソニー株式会社 | 信号処理方法及び装置、信号処理プログラム、並びに記録媒体 |
JP3750583B2 (ja) * | 2001-10-22 | 2006-03-01 | ソニー株式会社 | 信号処理方法及び装置、並びに信号処理プログラム |
US7124075B2 (en) * | 2001-10-26 | 2006-10-17 | Dmitry Edward Terez | Methods and apparatus for pitch determination |
US6721699B2 (en) | 2001-11-12 | 2004-04-13 | Intel Corporation | Method and system of Chinese speech pitch extraction |
TW589618B (en) * | 2001-12-14 | 2004-06-01 | Ind Tech Res Inst | Method for determining the pitch mark of speech |
US20030139929A1 (en) * | 2002-01-24 | 2003-07-24 | Liang He | Data transmission system and method for DSR application over GPRS |
US7062444B2 (en) * | 2002-01-24 | 2006-06-13 | Intel Corporation | Architecture for DSR client and server development platform |
US7219059B2 (en) * | 2002-07-03 | 2007-05-15 | Lucent Technologies Inc. | Automatic pronunciation scoring for language learning |
US20040049391A1 (en) * | 2002-09-09 | 2004-03-11 | Fuji Xerox Co., Ltd. | Systems and methods for dynamic reading fluency proficiency assessment |
KR100552693B1 (ko) * | 2003-10-25 | 2006-02-20 | 삼성전자주식회사 | 피치검출방법 및 장치 |
US7668712B2 (en) * | 2004-03-31 | 2010-02-23 | Microsoft Corporation | Audio encoding and decoding with intra frames and adaptive forward error correction |
KR100590561B1 (ko) * | 2004-10-12 | 2006-06-19 | 삼성전자주식회사 | 신호의 피치를 평가하는 방법 및 장치 |
US7831421B2 (en) * | 2005-05-31 | 2010-11-09 | Microsoft Corporation | Robust decoder |
US7707034B2 (en) * | 2005-05-31 | 2010-04-27 | Microsoft Corporation | Audio codec post-filter |
US7177804B2 (en) * | 2005-05-31 | 2007-02-13 | Microsoft Corporation | Sub-band voice codec with multi-stage codebooks and redundant coding |
US8175868B2 (en) * | 2005-10-20 | 2012-05-08 | Nec Corporation | Voice judging system, voice judging method and program for voice judgment |
AU2006323242B2 (en) * | 2005-12-05 | 2010-08-05 | Telefonaktiebolaget Lm Ericsson (Publ) | Echo detection |
SE528839C2 (sv) * | 2006-02-06 | 2007-02-27 | Mats Hillborg | Melodigenerator |
US8364492B2 (en) * | 2006-07-13 | 2013-01-29 | Nec Corporation | Apparatus, method and program for giving warning in connection with inputting of unvoiced speech |
WO2008010413A1 (fr) * | 2006-07-21 | 2008-01-24 | Nec Corporation | Dispositif, procédé et programme de synthèse audio |
CN101009096B (zh) * | 2006-12-15 | 2011-01-26 | 清华大学 | 子带清浊音模糊判决的方法 |
US7925502B2 (en) * | 2007-03-01 | 2011-04-12 | Microsoft Corporation | Pitch model for noise estimation |
ATE504010T1 (de) * | 2007-06-01 | 2011-04-15 | Univ Graz Tech | Gemeinsame positions-tonhöhenschätzung akustischer quellen zu ihrer verfolgung und trennung |
DE102007030209A1 (de) * | 2007-06-27 | 2009-01-08 | Siemens Audiologische Technik Gmbh | Glättungsverfahren |
JP2009047831A (ja) * | 2007-08-17 | 2009-03-05 | Toshiba Corp | 特徴量抽出装置、プログラムおよび特徴量抽出方法 |
JP4599420B2 (ja) * | 2008-02-29 | 2010-12-15 | 株式会社東芝 | 特徴量抽出装置 |
JP5593608B2 (ja) * | 2008-12-05 | 2014-09-24 | ソニー株式会社 | 情報処理装置、メロディーライン抽出方法、ベースライン抽出方法、及びプログラム |
GB2466201B (en) * | 2008-12-10 | 2012-07-11 | Skype Ltd | Regeneration of wideband speech |
US9947340B2 (en) * | 2008-12-10 | 2018-04-17 | Skype | Regeneration of wideband speech |
GB0822537D0 (en) | 2008-12-10 | 2009-01-14 | Skype Ltd | Regeneration of wideband speech |
WO2010115298A1 (zh) * | 2009-04-07 | 2010-10-14 | Lin Wen Hsin | 卡拉ok歌曲伴唱自动评分方法 |
EP2492911B1 (en) | 2009-10-21 | 2017-08-16 | Panasonic Intellectual Property Management Co., Ltd. | Audio encoding apparatus, decoding apparatus, method, circuit and program |
AT509512B1 (de) * | 2010-03-01 | 2012-12-15 | Univ Graz Tech | Verfahren zur ermittlung von grundfrequenz-verläufen mehrerer signalquellen |
US8447596B2 (en) * | 2010-07-12 | 2013-05-21 | Audience, Inc. | Monaural noise suppression based on computational auditory scene analysis |
US9082416B2 (en) * | 2010-09-16 | 2015-07-14 | Qualcomm Incorporated | Estimating a pitch lag |
JP5747562B2 (ja) | 2010-10-28 | 2015-07-15 | ヤマハ株式会社 | 音響処理装置 |
US8645128B1 (en) * | 2012-10-02 | 2014-02-04 | Google Inc. | Determining pitch dynamics of an audio signal |
JP6131574B2 (ja) * | 2012-11-15 | 2017-05-24 | 富士通株式会社 | 音声信号処理装置、方法、及びプログラム |
CN107871492B (zh) * | 2016-12-26 | 2020-12-15 | 珠海市杰理科技股份有限公司 | 音乐合成方法和系统 |
CN111223491B (zh) * | 2020-01-22 | 2022-11-15 | 深圳市倍轻松科技股份有限公司 | 一种提取音乐信号主旋律的方法、装置及终端设备 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4731846A (en) | 1983-04-13 | 1988-03-15 | Texas Instruments Incorporated | Voice messaging system with pitch tracking based on adaptively filtered LPC residual signal |
US5007093A (en) * | 1987-04-03 | 1991-04-09 | At&T Bell Laboratories | Adaptive threshold voiced detector |
US5680508A (en) | 1991-05-03 | 1997-10-21 | Itt Corporation | Enhancement of speech coding in background noise for low-rate speech coder |
JPH06332492A (ja) | 1993-05-19 | 1994-12-02 | Matsushita Electric Ind Co Ltd | 音声検出方法および検出装置 |
US5704000A (en) | 1994-11-10 | 1997-12-30 | Hughes Electronics | Robust pitch estimation method and device for telephone speech |
-
1998
- 1998-11-24 US US09/198,476 patent/US6226606B1/en not_active Expired - Lifetime
-
1999
- 1999-11-22 DE DE69931813T patent/DE69931813T2/de not_active Expired - Lifetime
- 1999-11-22 JP JP2000584463A patent/JP4354653B2/ja not_active Expired - Fee Related
- 1999-11-22 CN CNB998136972A patent/CN1152365C/zh not_active Expired - Lifetime
- 1999-11-22 AU AU16321/00A patent/AU1632100A/en not_active Abandoned
- 1999-11-22 WO PCT/US1999/027662 patent/WO2000031721A1/en active IP Right Grant
- 1999-11-22 AT AT99959072T patent/ATE329345T1/de not_active IP Right Cessation
- 1999-11-22 EP EP99959072A patent/EP1145224B1/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
CN1338095A (zh) | 2002-02-27 |
EP1145224A1 (en) | 2001-10-17 |
EP1145224B1 (en) | 2006-06-07 |
DE69931813D1 (de) | 2006-07-20 |
ATE329345T1 (de) | 2006-06-15 |
JP2003521721A (ja) | 2003-07-15 |
US6226606B1 (en) | 2001-05-01 |
AU1632100A (en) | 2000-06-13 |
WO2000031721A1 (en) | 2000-06-02 |
DE69931813T2 (de) | 2006-10-12 |
CN1152365C (zh) | 2004-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4354653B2 (ja) | ピッチ追跡方法および装置 | |
JP3933750B2 (ja) | 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置 | |
US5865626A (en) | Multi-dialect speech recognition method and apparatus | |
US7996222B2 (en) | Prosody conversion | |
JP5208352B2 (ja) | 声調言語用分節声調モデリング | |
CN112435654B (zh) | 通过帧插入对语音数据进行数据增强 | |
US20110015927A1 (en) | System and method for efficient laser processing of a moving web-based material | |
US20030216912A1 (en) | Speech recognition method and speech recognition apparatus | |
Ghai et al. | Analysis of automatic speech recognition systems for indo-aryan languages: Punjabi a case study | |
JP5007401B2 (ja) | 発音評定装置、およびプログラム | |
Deng et al. | Tracking vocal tract resonances using a quantized nonlinear function embedded in a temporal constraint | |
Janakiraman et al. | Robust syllable segmentation and its application to syllable-centric continuous speech recognition | |
Gutkin et al. | Building statistical parametric multi-speaker synthesis for bangladeshi bangla | |
Chu et al. | A concatenative Mandarin TTS system without prosody model and prosody modification. | |
Fu et al. | A survey on Chinese speech recognition | |
Fung et al. | Pronunciation modeling of Mandarin casual speech | |
Slaney et al. | Pitch-gesture modeling using subband autocorrelation change detection. | |
Mabokela | A multilingual ASR of Sepedi-English code-switched speech for automatic language identification | |
JP2021148942A (ja) | 声質変換システムおよび声質変換方法 | |
JP5028599B2 (ja) | 音声処理装置、およびプログラム | |
Wang et al. | Improved Mandarin speech recognition by lattice rescoring with enhanced tone models | |
Geetha et al. | Phoneme Segmentation of Tamil Speech Signals Using Spectral Transition Measure | |
JP5066668B2 (ja) | 音声認識装置、およびプログラム | |
Frikha et al. | Hidden Markov models (HMMs) isolated word recognizer with the optimization of acoustical analysis and modeling techniques | |
Hirose | Modeling of fundamental frequency contours for HMM-based speech synthesis: Representation of fundamental frequency contours for statistical speech synthesis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20060922 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20060922 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20060922 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20061031 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090703 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090730 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120807 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130807 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |