JP4067716B2 - 標準パターン作成装置と方法および記録媒体 - Google Patents

標準パターン作成装置と方法および記録媒体 Download PDF

Info

Publication number
JP4067716B2
JP4067716B2 JP25942199A JP25942199A JP4067716B2 JP 4067716 B2 JP4067716 B2 JP 4067716B2 JP 25942199 A JP25942199 A JP 25942199A JP 25942199 A JP25942199 A JP 25942199A JP 4067716 B2 JP4067716 B2 JP 4067716B2
Authority
JP
Japan
Prior art keywords
standard pattern
initial value
time series
feature vectors
creating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP25942199A
Other languages
English (en)
Other versions
JP2001083980A (ja
Inventor
利行 花沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP25942199A priority Critical patent/JP4067716B2/ja
Priority to EP00119234A priority patent/EP1085498A3/en
Priority to CNB001338323A priority patent/CN1165888C/zh
Priority to US09/660,478 priority patent/US6708151B1/en
Publication of JP2001083980A publication Critical patent/JP2001083980A/ja
Application granted granted Critical
Publication of JP4067716B2 publication Critical patent/JP4067716B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Auxiliary Devices For Music (AREA)

Description

【0001】
【発明の属する技術分野】
この発明は単語音声認識における、表現効率の高い標準パターンを作成する標準パターン作成装置、それに用いられる標準パターン作成方法、およびその標準パターン作成プログラムを記録した記録媒体に関するものである。
【0002】
【従来の技術】
単語音声認識では、入力音声と単語の標準パターンとのパターンマッチングを行い、そのパターンマッチングの距離値が最小の単語を認識結果として出力する方法が一般的である。通常、標準パターンは単語入力音声の特徴ベクトルXの時系列X(t),(t=1,2,3,…,T)として保持する。ここで、Tは単語の長さ(フレーム数)である。しかしながら、標準パターンを上記のように保持すると、単語によってフレーム数Tが異なるため、標準パターンのサイズも単語によって異なり、単語数を決めても標準パターンを保持するためのメモリのサイズが決まらないという問題点があった。またフレーム数Tの値が大きくなると標準パターンを保持するためのメモリ容量が大きくなるという問題点もあった。そこで、従来から、入力音声の特徴ベクトルX(t)の時系列を時間軸方向に圧縮して、単語のフレーム数Tによらず、一定の状態数J(>1)の標準パターンを作成する装置や方法が検討されている。
【0003】
図17は例えば特開昭64−44997号公報に開示された、そのような従来の標準パターン作成装置の一構成例を示すブロック図である。図において、1は音声信号の入力端子、2は入力音声信号、3は入力音声信号2の音響分析を行う分析手段、4は入力音声信号2の音響分析結果である特徴ベクトルの時系列、5は特徴ベクトルの時系列4から標準パターンの初期値を作成する初期値作成手段、6は初期値作成手段5で作成された標準パターンの初期値、7は標準パターンの初期値6より標準パターンを作成する標準パターン作成手段、8は標準パターン作成手段7で作成された標準パターンである。
【0004】
次に動作について説明する。
発声者より音声信号の入力端子1から、標準パターン作成用の音声が入力されると、分析手段3はこの入力端子1からの入力音声信号2をA/D変換し、フレームと呼ぶ短い時間区間ごとに音響分析を行うとともに、音声区間を切り出して各フレームごとに特徴ベクトルX(t),(t=1,2,3,…,T)の時系列4を計算して出力する。ここで、Tは入力音声信号2の全フレーム数である。なお、音声区間を正確に切り出すことは困難なので、特徴ベクトルX(t),(t=1,2,3,…,T)の先頭と末尾の数フレームにはポーズ区間が含まれているものとする。この例では特徴ベクトルX(t)は例えばLPC(線形予測)分析によって得られるLPCケプストラムとする。
【0005】
初期値作成手段5は、特徴ベクトルX(t),(t=1,2,3,…,T)の時系列4を入力とし、以下に説明する手順にしたがって標準パターンの初期値6を作成する。この標準パターンの初期値6の作成手順のフローチャートを図18に示す。
【0006】
図17に示す初期値作成手段5では、ステップST101においてまず、特徴ベクトルX(t),(t=1,2,3,…,T)の時系列4を時間軸方向に、J(J>1)個の小区間B(j),(j=1,2,3,…,J)に分割する。その時、各小区間B(j)の開始フレームsz(j)と終了フレームez(j)を以下の(1)式〜(3)式で求めることによって、各小区間B(j)をオーバーラップなしに均等分割する。
【0007】
【数1】
Figure 0004067716
【0008】
なお、上記(1)式における[.]は四捨五入して整数化する演算を意味するものとする。
【0009】
特徴ベクトルX(t),(t=1,2,3,…,T)のフレーム数TをT=15、小区間B(j),(j=1,2,3,…,J)の標準パターンの状態数JをJ=5とした場合の、上記分割の様子を図19に示す。図示のように、特徴ベクトルX(t)の時系列4は、特徴ベクトルX(1)〜X(3)が小区間B(1)に、特徴ベクトルX(4)〜X(6)が小区間B(2)に、…、特徴ベクトルX(13)〜X(15)が小区間B(5)に均等に分割されている。
【0010】
次にステップST102に進み、上記ステップST101で分割した各小区間B(j)ごとに、次に示す(4)式にしたがって各小区間B(j)に属する特徴ベクトルX(t)の時系列4を平均して初期値Rz(j),(j=1,2,3,…,J)を作成する。
【0011】
【数2】
Figure 0004067716
【0012】
状態数をJ=5とした場合における初期値Rz(j),(j=1,2,3,…,J)の作成の様子を図19に示す。図示のように、小区間B(1)に属する特徴ベクトルX(1)〜X(3)の時系列4を平均して初期値Rz(1)を、小区間B(2)に属する特徴ベクトルX(4)〜X(6)の時系列4を平均して初期値Rz(2)を、…、小区間B(5)に属する特徴ベクトルX(13)〜X(15)の時系列4を平均して初期値Rz(5)を作成している。
【0013】
上記平均処理によって、次に示す(5)式で計算される小区間B(j)に属する特徴ベクトルX(t),(t=sz(j)〜ez(j))と、初期値の状態jであるRz(j)とのユークリッド距離の和D(j)が最小になるように初期値Rz(j)が求められることになる。
【0014】
【数3】
Figure 0004067716
【0015】
以上で初期値作成手段5による初期値6の作成の処理を終了する。
【0016】
次に、標準パターン作成手段7は、この初期値作成手段5によって作成された初期値Rz(j),(j=1,2,3,…,J)と、分析手段3からの入力音声の特徴ベクトルX(t),(t=1,2,3,…,T)の時系列4を入力として、以下の手順にしたがって標準パターンR(j),(j=1,2,3,…,J)を作成する。この標準パターンR(j)の作成手順のフローチャートを図20に示す。
【0017】
標準パターン作成手段7は、ステップST201においてまず、学習回数カウンタの値cに0をセットする。次にステップST202に進み、以下の(6)式にしたがって初期値Rz(j),(j=1,2,3,…,J)を標準パターンR(c)(j),(j=1,2,3,…,J)にコピーする。
Figure 0004067716
なお、この(6)式における(c)内のcは、上記学習回数カウンタの値cを意味している。
【0018】
次にステップST203において、標準パターンR(c)(j),(j=1,2,3,…,J)と入力音声の特徴ベクトルX(t),(t=1,2,3,…,T)の時系列4との対応付けを行う。この対応付けとしては、例えばビタビアルゴリムを用い、以下に述べるパターンマッチング距離Dを最小化するように対応付けを行う。なお、ビタビアルゴリズムは次に示す(7)式および(8)式によって初期設定を行い、(9)式および(10)式によって漸化式演算を繰り返すことによって実現し、また、パターンマッチング距離Dは次の(11)式によって与えられる。
【0019】
【数4】
Figure 0004067716
【0020】
ここで、G(t,j)は累積ビタビ距離、BTK(t,j)はバックトラック情報、Dは入力音声の特徴ベクトルX(t),(t=1,2,3,…,T)の時系列と標準パターンR(c)(j),(j=1,2,3,…,J)とのパターンマッチング距離である。また(9)式中のmin{.,.}は最小値を選択する演算子である。
【0021】
上記(9)式および(10)式による漸化式計算終了後、フレームTから時間軸に逆方向に前記バックトラック情報BTK(t,j)を辿ることによって、上記(11)式にて与えられるパターンマッチング距離Dを最小化する標準パターンR(c)(j),(j=1,2,3,…,J)と、入力音声の特徴ベクトルX(t),(t=1,2,3,…,T)の時系列4との対応付けを得ることができる。以下、この対応付けをビタビパスと呼ぶことにする。このステップST203ではさらに、このビタビパスに基づいてJ個の小区間B(j),(j=1,2,3,…,J)の開始フレームs’(j)と終了フレームe’(j)とを求める。
【0022】
次にステップST204に進んで、上記ステップST203において分割した各小区間B(j)ごとに、次の(12)式によって各小区間B(j)に属する特徴ベクトルX(t)の時系列4を平均することによって、更新した標準パターンR(c+1)(j),(j=1,2,3,…,J)を求める。
【0023】
【数5】
Figure 0004067716
【0024】
ここで、s’(j)は各小区間B(j)の開始フレームであり、e’(j)はその終了フレームである。
【0025】
次にステップST205において、学習回数カウンタの値cに1を加え、次いでステップST206にてその学習回数カウンタの値cが、予め設定された所定回数(閾値CC)に達したか否かの判定を行う。その結果、学習回数カウンタの値cが当該閾値CCに達していればステップST207に分岐して、標準パターンR(c)(j),(j=1,2,3,…,J)を出力し、この標準パターン作成手順を終了する。一方、学習回数カウンタの値cが当該閾値CCに達してなければ、ステップST203に戻って上記標準パターン作成手順の処理を繰り返す。なお、この標準パターン作成手順を繰り返すことにより、前記パターンマッチング距離Dを局所最小値に収束させることができる。このパターンマッチング距離Dが小さいということは、圧縮による情報量の欠損が少ない表現効率の高い標準パターンであることを意味する。
【0026】
【発明が解決しようとする課題】
従来の標準パターン作成装置は以上のように構成されているので、初期値作成手段5において各分割小区間B(j),(j=1,2,3,…,J)に属する特徴ベクトルX(t)を一意に決定し、各小区間に属する特徴ベクトルX(t),(t=sz(j)〜ez(j))と初期値Rz(j)のユークリッド距離の和D(j)が最小になるように初期値Rz(j)を求めていた。そのため、標準パターン作成手段7において、パターンマッチング距離Dの最小化基準のもとで再度対応付けた場合でも、初期値Rz(j)を作成したときの小区間b(j),(j=1,2,3,…,J)に再び属する場合が多くなる。すなわち初期値にトラップされることが多く、好ましくない局所最小値で標準パターンの更新が収束することがあるという課題があった。
【0027】
この発明は上記のような課題を解決するためになされたもので、好ましくない局所最小値で標準パターンの更新が収束する現象を低減し、表現効率の高い標準パターンを生成することができる標準パターン作成装置、標準パターン作成方法およびその標準パターン作成プログラムを記録した記録媒体を得ることを目的とする。
【0030】
【課題を解決するための手段】
この発明に係る標準パターン作成装置は、入力音声の特徴ベクトルの時系列を互いにオーバーラップする小区間に区切って標準パターンの初期値を作成する初期値作成手段が、その小区間をポーズ区間と音声区間とで別個に決定するようにしたものである。
【0031】
この発明に係る標準パターン作成装置は、入力音声の特徴ベクトルの時系列を互いにオーバーラップする小区間に区切って標準パターンの初期値を作成する初期値作成手段が、その小区間を特徴ベクトルの時系列が前の時刻より大きく変化している時刻の特徴ベクトルの時系列をそのオーバーラップする区間に含むように決定するようにしたものである。
【0032】
この発明に係る標準パターン作成装置は、オーバーラップ初期値作成手段が均等分割に基づいて各小区間を決定して標準パターンの初期値を作成し、ポーズ区別オーバーラップ初期値作成手段がポーズ区間と音声区間とで別個に小区間を決定して標準パターンの初期値を作成し、スペクトル変化オーバーラップ初期値作成手段が前の時刻との間の変化量が大きい時刻の特徴ベクトルを含むように小区間を決定にして標準パターンの初期値を作成し、標準パターン作成手段がそれら各標準パターンの初期値を用いてそれぞれの標準パターンを作成し、標準パターン選択手段がその中から入力音声の特徴ベクトルの時系列とのパターンマッチング距離が最小の標準パターンを選択するようにしたものである。
【0035】
この発明に係る標準パターン作成方法は、入力音声の特徴ベクトルの時系列をオーバーラップする小区間に区切る際に、小区間をポーズ区間と音声区間とで別個に決定するようにしたものである。
【0036】
この発明に係る標準パターン作成方法は、入力音声の特徴ベクトルの時系列をオーバーラップする小区間に区切る際に、前の時刻との変化量が大きい時刻の特徴ベクトルの時系列が、当該小区間のオーバーラップする区間に含まれるように小区間を決定するようにしたものである。
【0037】
この発明に係る標準パターン作成方法は、均等分割で、ポーズ区間と音声区間とで別個に、および前の時刻との変化量が大きい時刻の特徴ベクトルの時系列を含ませて、などの複数の方法で入力音声の特徴ベクトルの時系列を互いにオーバーラップした小区間に区切り、それら各方法で区切られた小区間の標準パターンの初期値を用いて作成したそれぞれの標準パターンの中より、入力音声の特徴ベクトルの時系列とのパターンマッチング距離が最小のものを選択するようにしたものである。
【0040】
この発明に係る記録媒体は、初期値作成のステップを、ポーズ区間と音声区間で別個に、互いにオーバーラップする小区間を決定し、その各小区間に属する特徴ベクトルの時系列を平均して標準パターンの初期値を作成するポーズ区別オーバーラップ初期値作成のステップとしたものである。
【0041】
この発明に係る記録媒体は、初期値作成のステップを、前の時刻との変化量が大きい時刻の特徴ベクトルの時系列を含むように、互いにオーバーラップする小区間を決定し、その各小区間に属する特徴ベクトルの時系列を平均して標準パターンの初期値を作成するスペクトル変化オーバーラップ初期値作成のステップとしたものである。
【0042】
この発明に係る記録媒体は、初期値作成のステップを、オーバーラップ初期値作成、ポーズ区別オーバーラップ初期値作成、およびスペクトル変化オーバーラップ初期値作成の各ステップとし、それら標準パターンの初期値を作成する各ステップによって作成された標準パターンの初期値を用いてそれぞれの標準パターンを作成する標準パターン作成のステップと、作成された各標準パターンと入力音声の特徴ベクトルの時系列とのパターンマッチング距離が最小の標準パターンを選択する標準パターン選択のステップとを有するプログラムを記録したものである。
【0043】
【発明の実施の形態】
以下、この発明の実施の一形態について説明する。
実施の形態1.
図1はこの発明による標準パターン作成装置の構成の一例を示すブロック図である。図1において、1は音声信号が入力される入力端子であり、2はこの入力端子1より入力された入力音声信号である。3はこの入力音声信号2の音響分析を行う分析手段であり、4はこの分析手段3による入力音声信号2の音響分析結果としての特徴ベクトルの時系列である。9は特徴ベクトルの時系列4を互いにオーバーラップした複数の小区間に区切り、それら各小区間に属する特徴ベクトルの時系列を平均して標準パターンの初期値を作成する初期値作成手段であり、ここでは各小区間の区間長を均等分割に基づいて決定し、それら各小区間に属する特徴ベクトルの時系列を平均してそれぞれの標準パターンの初期値を作成するオーバーラップ初期値作成手段が用いられている。10はこのオーバーラップ初期値作成手段9によって作成された標準パターンの初期値としてのオーバーラップ初期値であり、7は分析手段3より出力された特徴ベクトルの時系列4と、オーバーラップ初期値作成手段9が作成したオーバーラップ初期値10の各状態とをパターンマッチングによって対応付けし、それぞれの状態ごとに対応付けられた特徴ベクトルの時系列4を平均して標準パターンの更新を行う標準パターン作成手段である。8はこの標準パターン作成手段7によって作成された標準パターンである。
【0044】
次に動作について説明する。
まず、発声者によって入力端子1から標準パターン作成用の音声信号が入力される。分析手段3は入力端子1より入力音声信号2が入力されると、それをA/D変換してフレームと呼ぶ短い時間区間ごとに音響分析を行うとともに、それら各フレームにおける音響分析の結果に基づいて音声区間を切り出し、各フレームごとに特徴ベクトルX(t),(t=1,2,3,…,T)の時系列4を計算して出力する。なお、上記Tは入力音声信号2の全フレーム数である。ここで、音声区間を正確に切り出すことは困難なので、特徴ベクトルX(t),(t=1,2,3,…,T)の先頭と末尾の数フレームにはポーズ区間が含まれているものとする。またこの実施の形態1においても、特徴ベクトルX(t)は例えばLPC(線形予測)分析によって得られるLPCケプストラムであるものとする。
【0045】
オーバーラップ初期値作成手段9は、この分析手段3による入力音声信号2の音響分析結果である特徴ベクトルX(t),(t=1,2,3,…,T)の時系列4を入力として、以下に説明する手順にしたがってオーバーラップ初期値10を作成する。このオーバーラップ初期値10の作成手順を図2のフローチャートに示す。
【0046】
このオーバーラップ初期値作成手段9では、図2に示すフローチャートのステップST301においてまず、特徴ベクトルX(t),(t=1,2,3,…,T)の時系列4を時間軸方向にJ(J>1)個の小区間B(j),(j=1,2,3,…,J)に分割する。この時、各小区間B(j)の開始フレームs(j)と終了フレームe(j)を以下の(13)式〜(15)式によって求めることにより、各小区間B(j)がオーバーラップするように均等分割する。
【0047】
【数6】
Figure 0004067716
【0048】
なお、上記(13)式における[.]は四捨五入して整数化する演算を意味するものとする。
【0049】
また(15)式において、Kは予め定めた定数であり、各小区間B(j)のオーバーラップフレーム数を制御するオーバラップパラメータである。例えば特徴ベクトルX(t),(t=1,2,3,…,T)のフレーム数TをT=15、小区間B(j),(j=1,2,3,…,J)の標準パターンの状態数JをJ=5、オーバラップパラメータKをK=2とした場合の分割の様子を図3に示す。このように、特徴ベクトルX(t)の時系列4は特徴ベクトルX(1)〜X(5)が小区間B(1)に、特徴ベクトルX(4)〜X(8)が小区間B(2)に、…、特徴ベクトルX(13)〜X(15)が小区間B(5)に、互いにオーバーラップするように分割されている。
【0050】
次にステップST302に進み、上記ステップST301で分割した各小区間B(j)ごとに、次に示す(16)式にしたがって各小区間B(j)に属する特徴ベクトルX(t)の時系列4を平均して、それぞれのオーバーラップ初期値R1(j),(j=1,2,3,…,J)を作成する。
【0051】
【数7】
Figure 0004067716
【0052】
なお、このオーバーラップ初期値R1(j),(j=1,2,3,…,J)の作成の様子を図3に示す。図示のように、小区間B(1)に属する特徴ベクトルX(1)〜X(5)の時系列4を平均してオーバーラップ初期値R1(1)を、小区間B(2)に属する特徴ベクトルX(4)〜X(8)の時系列4を平均してオーバーラップ初期値R1(2)を、…、小区間B(5)に属する特徴ベクトルX(13)〜X(15)の時系列4を平均してオーバーラップ初期値R1(5)をそれぞれ作成している。
【0053】
以上でオーバーラップ初期値作成手段9によるオーバーラップ初期値10の作成を終了する。
【0054】
次に、標準パターン作成手段7は、このオーバーラップ初期値作成手段9によって作成されたオーバーラップ初期値R1(j),(j=1,2,3,…,J)と、分析手段3から送られてきた入力音声の特徴ベクトルX(t),(t=1,2,3,…,T)の時系列4を入力として、以下に説明する手順にしたがって標準パターンR(j),(j=1,2,3,…,J)を作成する。この標準パターンR(j)の作成手順のフローチャートを図4に示す。
【0055】
標準パターン作成手段7では、図4に示すステップST401において、まず学習回数カウンタの値cに0をセットする。次にステップST402に進み、以下に示す(17)式にしたがってオーバーラップ初期値R1(j),(j=1,2,3,…,J)を標準パターンR(c)(j),(j=1,2,3,…,J)にコピーする。
【0056】
【数8】
Figure 0004067716
【0057】
なお、この(17)式における(c)内のcは、上記学習回数カウンタの値cを意味している。
【0058】
次にステップST403において、標準パターンR(c)(j),(j=1,2,3,…,J)と、入力音声の特徴ベクトルX(t),(t=1,2,3,…,T)の時系列4との対応付けを行う。この対応付けとしては、例えば従来の標準パターン作成装置の場合と同様にビタビアルゴリムを用い、以下に述べるパターンマッチング距離Dを最小化するような対応付けを行う。なお、ビタビアルゴリズムは従来の標準パターン作成装置で説明した通り、(7)式および(8)式によって初期設定を行い、(9)式および(10)式によって漸化式演算を繰り返すことによって実現する。
【0059】
この(9)式および(10)式の漸化式計算終了後に、従来の標準パターン作成装置の場合と同様に、フレームTから時間軸に逆方向に前記バックトラック情報BTK(t,j)を辿ることによって、パターンマッチング距離Dを最小化する標準パターンR(c)(j),(j=1,2,3,…,J)と、入力音声の特徴ベクトルX(t),(t=1,2,3,…,T)の時系列4との対応付けを得る。図5にこの標準パターンR(c)(j)と入力音声の特徴ベクトルX(t)の時系列4との対応付けの概要を示す。この図5において、縦軸は標準パターンR(c)(j)、横軸は入力音声の特徴ベクトルX(t)の時系列であり、図中の太い実線がビタビパスである。なお、この図5では、特徴ベクトルX(t)のフレーム数TをT=15、標準パターンR(c)(j)の状態数JをJ=5とした場合について示している。
【0060】
次にステップST403において、この図5に示すビタビパスより、J個の小区間B(j),(j=1,2,3,…,J)の開始フレームs’(j)と終了フレームe’(j)を求める。すなわち、標準パターンの各状態であるRc(1),Rc(2),…,Rc(J)に対応付けられた特徴ベクトルX(t),(t=1,2,3,…,T)の開始フレームと終了フレームを、各小区間B(j)の開始フレームと終了フレームとする。図5に示した例では、R(c)(1)にはX(1)〜X(3)が対応付けられているので、s’(1)=1,e’(1)=3となり、また、R(c)(2)にはX(4)〜X(7)が対応付けられているので、s’(2)=4,e’(2)=7、…、R(c)(5)にはX(13)〜X(15)が対応付けられているので、s’(5)=13,e’(5)=15となる。
【0061】
次にステップST404に進み、上記ステップST403で分割した各小区間B(j)ごとに、以下に示す(18)式によって各小区間B(j)に属する特徴ベクトルX(t)の時系列4を平均することによって、更新した標準パターンR(c+1)(j),(j=1,2,3,…,J)を求める。
【0062】
【数9】
Figure 0004067716
【0063】
なお、この式(18)中の、s’(j)はと各小区間B(j)の開始フレームであり、e’(j)は各小区間B(j)の終了フレームである。
【0064】
次にステップST405において、学習回数カウンタの値cに1を加え、次いでステップST406にてその学習回数カウンタの値cが、予め設定された閾値CCに達したか否かの判定を行う。判定の結果、学習回数カウンタの値cが当該閾値CCに達していればステップST407に分岐して、標準パターンR(c)(j),(j=1,2,3,…,J)を出力し、この標準パターン作成手順を終了する。一方、学習回数カウンタの値cが当該閾値CCに達していなければ、ステップST403に戻って上記標準パターン作成手順の処理を繰り返す。なお、この標準パターン作成手順を繰り返すことにより、前記パターンマッチング距離Dを局所最小値に収束させることができる。このパターンマッチング距離Dが小さいということは、圧縮による情報量の欠損が少ない表現効率の高い標準パターンであることを意味する。
【0065】
次に、このような標準パターン作成装置を使用して標準パターンを作成する方法を具体的に説明する。図6はこの発明の実施の形態1における標準パターン作成方法の手順を示すフローチャートである。
【0066】
発声者が入力端子1から標準パターン作成用の音声を入力すると、図6にST701で示した分析のステップが開始される。この分析のステップにおいては、その入力音声信号2をA/D変換してフレームと呼ぶ短い時間区間ごとに音響分析を行うとともに、それら各フレームの音響分析の結果に基づいて音声区間を切り出し、各フレームごとに特徴ベクトルX(t),(t=1,2,3,…,T)の時系列4を計算して出力する。ここで、Tは入力音声信号2の全フレーム数を示すものである。また、この音声区間を正確に切り出すのは困難なので、特徴ベクトルX(t),(t=1,2,3,…,T)の先頭と末尾の数フレームにはポーズ区間が含まれているものとする。この例では、上記特徴ベクトルX(t)は、例えばLPC分析によって得られるLPCケプストラムとする。
【0067】
次に、図6にST702で示したオーバーラップ初期値作成のステップに進む。このオーバーラップ初期値作成のステップにおいては、分析のステップで得られた特徴ベクトルX(t),(t=1,2,3,…,T)の時系列4を入力として、オーバーラップ初期値10を作成する。なお、このオーバーラップ初期値作成のステップの詳細な手順は図2のフローチャートに示す通りである。
【0068】
すなわち、特徴ベクトルX(t),(t=1,2,3,…,T)の時系列4を時間軸方向に、J個の小区間B(j),(j=1,2,3,…,J)に分割する(ST301)。このとき、各小区間B(j)の開始フレームs(j)と終了フレームe(j)とを(13)式〜(15)式で求めることによって、各小区間B(j)がオーバーラップするように分割する。なお、図3には、例えば特徴ベクトルX(t)のフレーム数TをT=15、標準パターンの状態数JをJ=5、オーバラップパラメータKをK=2とした場合の分割の様子を示す。
【0069】
次に、このステップST301で分割した各小区間B(j)ごとに、図3に示すように各小区間B(j)に属する特徴ベクトルX(t)の時系列4を平均してオーバーラップ初期値R1(j),(j=1,2,3,…,J)を作成する(ST302)。以上でオーバーラップ初期値の作成を終了する。
【0070】
次に、図6にST703で示す標準パターン作成のステップに進み、上記オーバーラップ初期値作成のステップで作成されたオーバーラップ初期値R1(j),(j=1,2,3,…,J)と、入力音声の特徴ベクトルX(t),(t=1,2,3,…,T)の時系列4を入力として、以下の手順にしたがって標準パターンR(j),(j=1,2,3,…,J)を作成する。この標準パターン作成のステップの詳細な手順は図4のフローチャートに示す通りである。
【0071】
まず学習回数カウンタの値cを0にセットする(ST401)。次に(17)式にしたがってオーバーラップ初期値R1(j),(j=1,2,3,…,J)を標準パターンR(c)(j),(j=1,2,3,…,J)にコピーする(ST402)。
【0072】
次に、標準パターンR(c)(j),(j=1,2,3,…,J)と入力音声の特徴ベクトルX(t),(t=1,2,3,…,T)の時系列4を、例えばビタビアルゴリムを用いて、パターンマッチング距離Dを最小化するように対応付ける。ビタビアルゴリズムは前述のように、(7)式および(8)式によって初期設定を行い、(9)式および(10)式によって漸化式演算を繰り返すことによって実現する。この(9)式と(10)式の漸化式計算終了後に、フレームTから時間軸に逆方向に前記バックトラック情報BTK(t,j)を辿ることによって、上記パターンマッチング距離Dを最小化する標準パターンR(c)(j),(j=1,2,3,…,J)と入力音声の特徴ベクトルX(t),(t=1,2,3,…,T)の時系列4との対応付けを得る。この対応付けの概要は図5に示す通りである。このビタビパスに基づいてJ個の小区間B(j),(j=1,2,3,…,J)の開始フレームs’(j)と終了フレームe’(j)を求める(ST403)。すなわち標準パターンの各状態であるR(c)(1),R(c)(2),…,R(c)(J)に対応付けられた特徴ベクトルX(t),(t=1,2,3,…,T)の開始フレームと終了フレームを各小区間B(j)の開始フレームと終了フレームとする。
【0073】
図5に示す例によれば、R(c)(1)にはX(1)〜X(3)が対応付けられているのでs’(1)=1,e’(1)=3、R(c)(2)にはX(4)〜X(7)が対応付けられているのでs’(2)=4,e’(2)=7、R(c)(3)にはX(8)〜X(10)が対応付けられているので、s’(3)=8,e’(3)=10、…、R(c)(5)にはX(13)〜X(15)が対応付けられているのでs’(5)=13,e’(5)=15となる。
【0074】
次に、このようにして分割した各小区間B(j)ごとに、(18)式を用いて各小区間B(j)に属する特徴ベクトルX(t)の時系列4を平均することにより、更新した標準パターンR(c+1)(j),(j=1,2,3,…,J)を求める(ST404)。
【0075】
次に、学習回数カウンタの値cに1を加え(ST405)、この学習回数カウンタの値cが所定の閾値CCに達したか否かを判定する(ST406)。学習回数カウンタの値cがその閾値CCに達していれば、標準パターンR(c)(j),(j=1,2,3,…,J)を出力して(ST407)、この標準パターン作成の手順を終了する。一方、学習回数カウンタの値cが閾値CCに達していなければ、処理をステップST403に戻して、上記処理を繰り返す。
【0076】
なお、この実施の形態1の標準パターン作成をソフトウェアで実現しようとする場合、入力音声信号2に対して音響分析を行い、特徴ベクトルX(t)の時系列4を求める分析のステップと、この特徴ベクトルX(t)の時系列4を互いにオーバーラップする小区間B(j)に区切り、それら各小区間B(j)に属する特徴ベクトルX(t)の時系列4を平均してオーバーラップ初期値R1(j)を作成するオーバーラップ初期値作成のステップと、パターンマッチングによって、特徴ベクトルX(t)の時系列4とオーバーラップ初期値R1(j)の複数の状態とを対応付け、各状態ごとに対応付けられた特徴ベクトルX(t)の時系列4を平均して標準パターンR(c)(j)の更新を行う標準パターン作成のステップとを有した、コンピュータに標準パターンを作成させるためのプログラムを記録している、コンピュータで読み取り可能な記録媒体が必要である。
【0077】
以上のように、この実施の形態1によれば、オーバーラップ初期値作成手段9によって特徴ベクトルX(t),(t=1,2,3,…,T)の時系列4をオーバーラップするように分割しているので、オーバーラップ初期値R1(j)を作成した段階では分割された各小区間B(j)の境界が一意に決定されることはない。そして標準パターン作成手段7において標準パターンR(c)(j),(j=1,2,3,…,J)と入力音声の特徴ベクトルX(t),(t=1,2,3,…,T)の時系列4とを、ビタビアルゴリズムによってパターンマッチング距離Dの最小化基準のもとで対応付けた際に、初めて各小区間をオーバーラップせずに分割し、その境界を一意に決定しているので、初期値にトラップされることが少なくなり、好ましくない局所最小値で標準パターンの学習が収束することを低減できるという効果が得られる。また、標準パターンの初期値10を作成するため、特徴ベクトルX(t),(t=1,2,3,…,T)の時系列4を互いにオーバーラップする小区間B(j)に区切る際に、その小区間B(j)の区間長を均等分割に基づいて決定しているので、それら各小区間B(j)の分割を簡単に行うことができるといった効果もある。
【0078】
実施の形態2.
図7はこの発明の実施の形態2による標準パターン作成装置の構成の一例を示すブロック図であり、実施の形態1における各機能ブロックと同等の部分には、図1と同一符号を付してその説明を省略する。図において、11は分析手段3から送られてくる特徴ベクトルの時系列4を互いにオーバーラップする小区間に分割する際に、各小区間をポーズ区間と音声区間とで別個に決定し、それら各小区間に属する特徴ベクトルの時系列4を平均してそれぞれの標準パターンの初期値を作成する、初期値作成手段としてのポーズ区別オーバーラップ初期値作成手段である。12はこのポーズ区別オーバーラップ初期値作成手段11より標準パターンの初期値として出力されるポーズ区別オーバーラップ初期値である。
【0079】
このように、この実施の形態2による標準パターン作成装置は、初期値作成手段として、オーバーラップ初期値10を出力するオーバーラップ初期値作成手段9の代わりに、ポーズ区別オーバーラップ初期値12を出力する上記ポーズ区別オーバーラップ初期値作成手段11が用いられている点で、実施の形態1の標準パターン作成装置とは異なっている。
【0080】
次に動作について説明する。
発声者によって入力端子1に標準パターン作成用の音声信号が入力されると、分析手段3はその入力端子1からの入力音声信号2をA/D変換してフレームと呼ぶ短い時間区間ごとに音響分析を行うとともに音声区間を切り出し、各フレームごとに特徴ベクトルX(t),(t=1,2,3,…,T)の時系列4を計算して出力する。この分析手段3はその時、各フレームごとに音声信号のパワーP(t),(t=1,2,3,…,T)の時系列も計算し、それを上記特徴ベクトルX(t),(t=1,2,3,…,T)の時系列4とともに出力している。なお、Tは入力音声信号2の全フレーム数である。ここで、音声区間を正確に切り出すことは困難なので、特徴ベクトルX(t),(t=1,2,3,…,T)の先頭と末尾の数フレームにはポーズ区間が含まれているものとする。また、この実施の形態2においても、特徴ベクトルX(t)は例えばLPC分析によって得られるLPCケプストラムとする。
【0081】
ポーズ区別オーバーラップ初期値作成手段11は、この特徴ベクトルX(t),(t=1,2,3,…,T)の時系列4を入力とし、以下に説明する手順にしたがってポーズ区別オーバーラップ初期値12を作成する。このポーズ区別オーバーラップ初期値12の作成手順を図8のフローチャートに、またポーズ区別オーバーラップ初期値12の作成の概要を図9の説明図に示す。
【0082】
ポーズ区別オーバーラップ初期値作成手段11では、図8に示すフローチャートのステップST501においてまず、図9に示すように、入力端子1に入力された音声信号のパワーP(t)(t=1,2,3,…,T)を、t=1から時間軸に順方向に予め定めた閾値Pthと比較し、音声信号のパワーP(t)がこの閾値Pthを越えるフレームを検出して、そのフレームをT1とする。図9の例ではt=3で閾値Pthを越えているので、T1=3である。
【0083】
次にステップST502において、上記音声信号のパワーP(t)(t=1,2,3,…,T)を、t=Tから時間軸と逆方向に予め定めた閾値Pthと比較し、音声信号のパワーP(t)がこの閾値Pthを越えるフレームを検出して、そのフレームをT2とする。図9の例ではt=13で閾値Pthを越えているので、T2=13である。
【0084】
次にステップST503に進み、特徴ベクトルX(t),(t=1,2,3,…,T)の時系列4を、時間軸方向にJ個の小区間B(j),(j=1,2,3,…,J)に分割する際の、先頭から1番目の小区間B(1)の開始フレームsp(1)をsp(1)=1とする。また、当該小区間B(1)の終了フレームep(1)を上記ステップST501で求めたT1とする。すなわちep(1)=T1とする。
【0085】
同様に、次のステップST504において、特徴ベクトルX(t),(t=1,2,3,…,T)の時系列4を、時間軸方向にJ個の小区間B(j),(j=1,2,3,…,J)に分割する際の、先頭からJ番目の小区間B(J)の開始フレームsp(J)を上記ステップST502で求めたT2とする。すなわちsp(J)=T2とする。また、当該小区間B(J)の終了フレームep(J)をep(J)=Tとする。
【0086】
次にステップST505に進んで、特徴ベクトルX(t),(t=1,2,3,…,T)の時系列4を、時間軸方向にJ個の小区間B(i),(i=1,2,3,…,J)に分割する際の、先頭から2番目より(J−1)番目までの小区間B(j),(j=2,3,…,J−1)の開始フレームsp(j)と終了フレームep(j)を、以下の(19)式〜(21)式によって求める。
【0087】
【数10】
Figure 0004067716
【0088】
なお、上記(19)式における[.]は四捨五入して整数化する演算を意味するものとする。また(21)式でK2は予め定められた定数であり、各小区間B(j)のオーバーラップフレーム数を制御するパラメータである。例えば特徴ベクトルX(t)のフレーム数TをT=15、オーバラップパラメータK2をK2=2、標準パターンの状態数JをJ=5とした場合の分割の様子を図9に示す。
【0089】
次にステップST506において、上記ステップST503〜ステップST505において分割した各小区間B(j)ごとに、それぞれの小区間B(j)に属する特徴ベクトルX(t)の時系列4を平均してポーズ区別オーバーラップ初期値Rp(j),(j=1,2,3,…,J)を作成する。なお、このポーズ区別オーバーラップ初期値Rp(j),(j=1,2,3,…,J)の作成には、次の(22)式が用いられる。
【0090】
【数11】
Figure 0004067716
【0091】
以上でポーズ区別オーバーラップ初期値作成手段11によるポーズ区別オーバーラップ初期値12の作成を終了する。
【0092】
標準パターン作成手段7は、このポーズ区別オーバーラップ初期値作成手段11の作成したポーズ区別オーバーラップ初期値Rp(j),(j=1,2,3,…,J)と、入力音声の特徴ベクトルX(t),(t=1,2,3,…,T)の時系列4とを入力として、標準パターンR(j),(j=1,2,3,…,J)を作成する。その際、オーバーラップ初期値R1(j),(j=1,2,3,…,J)の代わりに、ポーズ区別オーバーラップ初期値Rp(j),(j=1,2,3,…,J)を標準パターンR(c)(j),(j=1,2,3,…,J)にコピーしている。なお、それ以外は、実施の形態1における標準パターン作成手段7と同一の手順で処理を進めて、コピーされた標準パターンR(c)(j),(j=1,2,3,…,J)を更新し、それを標準パターンR(j),(j=1,2,3,…,J)として出力する。
【0093】
次に、このような標準パターン作成装置を使用して標準パターンを作成する方法を具体的に説明する。図10はこの発明の実施の形態2における標準パターン作成方法の手順を示すフローチャートである。
【0094】
発声者が入力端子1から標準パターン作成用の音声を入力すると、図10にST801で示した分析のステップが開始される。この分析のステップにおいては、その入力音声信号2をA/D変換してフレームと呼ぶ短い時間区間ごとに音響分析を行うとともに、それに基づいて音声区間を切り出し、各フレームごとに特徴ベクトルX(t),(t=1,2,3,…,T)の時系列4を計算して出力する。なお、この場合も、音声区間を正確に切り出すことは困難なので、特徴ベクトルX(t),(t=1,2,3,…,T)の先頭と末尾の数フレームにはポーズ区間が含まれているものとする。この例でも実施の形態1の場合と同様に、特徴ベクトルX(t)は例えばLPC分析によって得られるLPCケプストラムとする。また、この実施の形態2における分析のステップでは、各フレームごとに音声信号のパワーP(t),(t=1,2,3,…,T)の時系列も計算して、特徴ベクトルX(t),(t=1,2,3,…,T)の時系列4とともに出力する。
【0095】
次に図10にST802で示すポーズ区別オーバーラップ初期値作成のステップに進み、上記分析のステップで得られた特徴ベクトルX(t),(t=1,2,3,…,T)の時系列4を入力として、ポーズ区別オーバーラップ初期値12を作成する。なお、このポーズ区別オーバーラップ初期値作成の詳細な手順は図8のフローチャートに示す通りであり、また、このポーズ区別オーバーラップ初期値作成の概要を図9に示す。
【0096】
図9に示すように、音声信号のパワーP(t)(t=1,2,3,…,T)と所定の閾値Pthとの比較を、t=1から時間軸に順方向に行って、音声信号のパワーP(t)が閾値Pthを越えるフレームを検出し、そのフレームをT1とする(ST501)。図9の例ではt=3で閾値Pthを越えているので、T1=3である。
【0097】
同様にして、上記音声信号のパワーP(t)(t=1,2,3,…,T)と閾値Pthとの比較を、t=Tから時間軸と逆方向に行って、音声信号のパワーP(t)が閾値Pthを越えるフレームを検出し、そのフレームをT2とする(ST502)。図9の例ではt=13で閾値Pthを越えているので、T2=13である。
【0098】
次に、特徴ベクトルX(t),(t=1,2,3,…,T)の時系列4を、時間軸方向にJ個の小区間B(j),(j=1,2,3,…,J)に分割する際の、先頭から1番目の小区間B(1)の開始フレームsp(1)をsp(1)=1とし、終了フレームep(1)を上記T1(すなわちep(1)=T1)とする(ST503)。
【0099】
同様に、特徴ベクトルX(t),(t=1,2,3,…,T)の時系列4を、時間軸方向にJ個の小区間B(j),(j=1,2,3,…,J)に分割する際の、先頭からJ番目の小区間B(J)の開始フレームsp(J)を上記T2(すなわちsp(J)=T2)とし、終了フレームep(J)をep(J)=Tとする(ST504)。
【0100】
次に、特徴ベクトルX(t),(t=1,2,3,…,T)の時系列4を、時間軸方向にJ個の小区間B(i),(i=1,2,3,…,J)に分割する際の、先頭から2〜(J−1)番目の小区間B(j),(j=2,3,…,J−1)の開始フレームsp(j)と終了フレームep(j)を、(19)式〜(21)式によって求める(ST505)。例えば、特徴ベクトルX(t)のフレーム数TをT=15、オーバラップパラメータK2をK2=2、標準パターンの状態数JをJ=5とした場合の、特徴ベクトルX(t)の時系列4の分割の様子を図9に示す。
【0101】
次に、前述の手順で分割した各小区間B(j)ごとに、(22)式にしたがってそれら各小区間に属する特徴ベクトルX(t)の時系列4を平均して、ポーズ区別オーバーラップ初期値Rp(j),(j=1,2,3,…,J)を作成する(ST506)。以上でポーズ区別オーバーラップ初期値の作成を終了する。
【0102】
次に図10にST803で示した標準パターン作成のステップに進んで、上記ポーズ区別オーバーラップ初期値作成のステップで作成されたポーズ区別オーバーラップ初期値Rp(j),(j=1,2,3,…,J)と、入力音声の特徴ベクトルX(t),(t=1,2,3,…,T)の時系列4を入力として、標準パターンR(j),(j=1,2,3,…,J)を作成する。なお、この標準パターン作成のステップでは、オーバーラップ初期値R1(j),(j=1,2,3,…,J)の代わりに、ポーズ区別オーバーラップ初期値Rp(j),(j=1,2,3,…,J)を標準パターンR(c)(j),(j=1,2,3,…,J)にコピーしている点で、図6にST703で示した、実施の形態1における標準パターン作成のステップとは異なっている。
【0103】
なお、この実施の形態2の標準パターン作成をソフトウェアで実現しようとする場合、入力音声信号2に対して音響分析を行って、特徴ベクトルX(t)の時系列4と、音声信号のパワーP(t)の時系列を求める分析のステップと、その音声信号のパワーP(t)の時系列を用いてポーズ区間と音声区間で個別に、特徴ベクトルX(t)の時系列4を互いにオーバーラップする小区間B(j)に区切り、それら各小区間B(j)に属する特徴ベクトルX(t)の時系列4を平均してポーズ区別オーバーラップ初期値Rp(j)を作成するポーズ区別オーバーラップ初期値作成のステップと、パターンマッチングによって、特徴ベクトルX(t)の時系列4とポーズ区別オーバーラップ初期値Rp(j)の複数の状態とを対応付け、各状態ごとに対応付けられた特徴ベクトルX(t)の時系列4を平均して標準パターンR(c)(j)の更新を行う標準パターン作成のステップとを有した、コンピュータに標準パターンを作成させるためのプログラムを記録している、コンピュータで読み取り可能な記録媒体が必要である。
【0104】
以上のように、この実施の形態2によれば、ポーズ区別オーバーラップ初期値作成手段11によって特徴ベクトルX(t),(t=1,2,3,…,T)の時系列4を単語の前後のポーズ区間を区別して互いにオーバーラップする小区間に分割することにより、ポーズ区別オーバーラップ初期値Rp(j),(j=1,2,3,…,J)を作成しているので、音声区間とポーズ区間の混合による局所最小値への収束を防止することができ、より好ましい局所最小値で標準パターンの学習が収束するという効果が得られる。
【0105】
実施の形態3.
図11はこの発明の実施の形態3による標準パターン作成装置の構成の一例を示すブロック図であり、実施の形態1における各機能ブロックと同等の部分には、図1と同一符号を付してその説明を省略する。図において、13は分析手段3から送られてくる特徴ベクトルの時系列4を互いにオーバーラップする小区間に分割する際に、互いにオーバーラップする小区間として、特徴ベクトルの時系列4が前の時刻より大きく変化している時刻の特徴ベクトルの時系列4をそのオーバーラップする区間に含むように決定し、それら各小区間に属する特徴ベクトルの時系列4を平均してそれぞれの標準パターンの初期値を作成する、初期値作成手段としてのスペクトル変化オーバーラップ初期値作成手段である。14はこのスペクトル変化オーバーラップ初期値作成手段13より標準パターンの初期値として出力されるスペクトル変化オーバーラップ初期値である。
【0106】
このように、この実施の形態3による標準パターン作成装置は、初期値作成手段として、オーバーラップ初期値10を出力するオーバーラップ初期値作成手段9、あるいはポーズ区別オーバーラップ初期値12を出力するポーズ区別オーバーラップ初期値作成手段11の代わりに、スペクトル変化オーバーラップ初期値14を出力するスペクトル変化オーバーラップ初期値作成手段13が用いられている点で、実施の形態1または実施の形態2における標準パターン作成装置とは異なっている。
【0107】
次に動作について説明する。
発声者によって入力端子1に標準パターン作成用の音声信号が入力されると、分析手段3はその入力端子1からの入力音声信号2をA/D変換してフレームと呼ぶ短い時間区間ごとに音響分析を行うとともに音声区間を切り出して、各フレームごとに特徴ベクトルX(t),(t=1,2,3,…,T)の時系列4を計算して出力する。なお、Tは入力音声信号2の全フレーム数である。ここで、音声区間を正確に切り出すことは困難なので、特徴ベクトルX(t),(t=1,2,3,…,T)の先頭と末尾の数フレームにはポーズ区間が含まれているものとする。また、この実施の形態3においても、特徴ベクトルX(t)は例えばLPC分析によって得られるLPCケプストラムとする。
【0108】
スペクトル変化オーバーラップ初期値作成手段13は、特徴ベクトルX(t),(t=1,2,3,…,T)の時系列4を入力とし、以下に説明する手順にしたがってスペクトル変化オーバーラップ初期値14を作成する。このスペクトル変化オーバーラップ初期値14の作成手順のフローチャートを図12に、またスペクトル変化オーバーラップ初期値14の作成の概要を図13に示す。
【0109】
このスペクトル変化オーバーラップ初期値作成手段13では、図12に示すフローチャートのステップST601においてまず、次の(23)式によって、フレームt=2〜Tについて、特徴ベクトルX(t)とX(t−1)とのスペクトル変化量dx(t)を求める。
Figure 0004067716
【0110】
次にステップST602に進み、上記(23)式によって計算されたスペクトル変化量dx(t)の値の大きい、上位(J−1)個のフレームを選択し、この上位(J−1)個のフレームを時間軸上の順番にしたがってF(1),F(2),…,F(J−1)とする。ここで、Jは小区間B(j)に分割する際の分割数である。この分割の様子を図13に示す。図13において縦軸はスペクトル変化量、横軸は特徴ベクトルX(t),(t=1,2,3,…,T)の時系列4である。図13はJ=5とした場合の例であり、前記スペクトル変化量dx(t)の値の大きい上位4個のフレームはt=3,7,9,13なので、F(1)=3,F(2)=7,F(3)=9,F(4)=13となる。
【0111】
次にステップST603に進んで、特徴ベクトルX(t),(t=1,2,3,…,T)の時系列4を、時間軸方向にJ個の小区間B(j),(j=1,2,3,…,J)に分割する際の、小区間B(j),(j=1,2,3,…,J)の開始フレームss(j)と終了フレームes(j)とを、以下に示す(24)式および(25)式によって求める。
【0112】
【数12】
Figure 0004067716
【0113】
なお、(24)式中のK3は予め定められた定数であり、各小区間B(j)のオーバーラップフレーム数を制御するパラメータを示している。例えば特徴ベクトルX(t)のフレーム数TをT=15、標準パターンの状態数JをJ=5、オーバラップパラメータK3をK3=1とした場合の分割の様子を図13に示す。
【0114】
次にステップST604において、上記ステップST603で分割した各小区間B(j)ごとに、次の(26)式にしたがってそれら各小区間B(j)に属する特徴ベクトルX(t)の時系列4を平均し、オーバーラップ初期値Rs(j),(j=1,2,3,…,J)を作成する。
【0115】
【数13】
Figure 0004067716
【0116】
以上でスペクトル変化オーバーラップ初期値作成手段13によるスペクトル変化オーバーラップ初期値14の作成を終了する。
【0117】
標準パターン作成手段7では、このスペクトル変化オーバーラップ初期値作成手段13が作成したスペクトル変化オーバーラップ初期値Rs(j),(j=1,2,3,…,J)と、入力音声の特徴ベクトルX(t),(t=1,2,3,…,T)の時系列4とを入力として、標準パターンR(j),(j=1,2,3,…,J)を作成する。その際、オーバーラップ初期値R1(j),(j=1,2,3,…,J)、あるいはポーズ区別オーバーラップ初期値Rp(j),(j=1,2,3,…,J)の代わりに、スペクトル変化オーバーラップ初期値Rs(j),(j=1,2,3,…,J)を標準パターンR(c)(j),(j=1,2,3,…,J)にコピーしている。なお、それ以外は、実施の形態1または実施の形態2における標準パターン作成手段7と同一の手順で処理を進め、コピーされた標準パターンR(c)(j),(j=1,2,3,…,J)の更新を行って、それを標準パターンR(j),(j=1,2,3,…,J)として出力する。
【0118】
次に、このような標準パターン作成装置を使用して標準パターンを作成する方法を具体的に説明する。図14はこの発明の実施の形態3における標準パターン作成方法の手順を示すフローチャートである。
【0119】
発声者が入力端子1から標準パターン作成用の音声を入力すると、図14にST901で示した分析のステップが開始される。この分析のステップにおいては、その入力音声信号2をA/D変換してフレームと呼ぶ短い時間区間ごとに音響分析を行うとともに、音声区間を切り出して、各フレームごとに特徴ベクトルX(t),(t=1,2,3,…,T)の時系列4を計算して出力する。なお、この場合においても、音声区間を正確に切り出すことは困難なので、特徴ベクトルX(t),(t=1,2,3,…,T)の先頭と末尾の数フレームにはポーズ区間が含まれているものとする。この例でも実施の形態1および実施の形態2と同様に、特徴ベクトルX(t)は例えばLPC分析によって得られるLPCケプストラムとする。
【0120】
次に、図14にST902で示すスペクトル変化オーバーラップ初期値作成のステップに進み、その特徴ベクトルX(t),(t=1,2,3,…,T)の時系列4を入力として、以下に説明する手順にしたがって、スペクトル変化オーバーラップ初期値14を作成する。なお、このスペクトル変化オーバーラップ初期値14の作成手順のフローチャートを図12に、またスペクトル変化オーバーラップ初期値14の作成方法の概要を図13に示す。
【0121】
まず、フレームt=2〜Tについて、特徴ベクトルX(t)とX(t−1)とのスペクトル変化量dx(t)を(23)式を用いて求める(ST601)。次に、その得られたスペクトル変化量dx(t)の値の大きい上位(J−1)個のフレームを選択し、それら(J−1)個のフレームを時間軸の順番にしたがってF(1),F(2),…,F(J−1)とする(ST602)。なお、Jは小区間B(j)に分割する際の分割数である。この分割の様子を図13に示す。図13において縦軸はスペクトル変化量、横軸は特徴ベクトルX(t),(t=1,2,3,…,T)の時系列4である。図はJ=5の場合を示しており、上記スペクトル変化量dx(t)の値の大きい上位4個のフレームは、t=3,7,9,13であるので、F(1)=3,F(2)=7,F(3)=9,F(4)=13となる。
【0122】
次に、特徴ベクトルX(t),(t=1,2,3,…,T)の時系列4を、時間軸方向にJ個の小区間B(j),(j=1,2,3,…,J)に分割する際の、各小区間B(j),(j=1,2,3,…,J)の開始フレームss(j)と終了フレームes(j)を、(24)式および(25)式によって求める(ST603)。図13には、例えば特徴ベクトルX(t)のフレーム数TをT=15、標準パターンの状態数JをJ=5、オーバラップパラメータK3をK3=1とした場合の分割の様子を示している。
【0123】
次に、前述の手順で分割した各小区間B(j)ごとに、(26)式にしたがって各小区間B(j)に属する特徴ベクトルX(t)の時系列4を平均して、スペクトル変化オーバーラップ初期値Rs(j),(j=1,2,3,…,J)を作成する(ST604)。以上でこのスペクトル変化オーバーラップ初期値の作成を終了する。
【0124】
次に、図14にST903で示した標準パターン作成のステップに進んで、上記スペクトル変化オーバーラップ初期値作成のステップにて作成されたスペクトル変化オーバーラップ初期値Rs(j),(j=1,2,3,…,J)と、入力音声の特徴ベクトルX(t),(t=1,2,3,…,T)の時系列4を入力として、標準パターンR(j),(j=1,2,3,…,J)を作成する。なお、この標準パターン作成のステップでは、オーバーラップ初期値R1(j),(j=1,2,3,…,J)あるいはポーズ区別オーバーラップ初期値Rp(j),(j=1,2,3,…,J)の代わりに、スペクトル変化オーバーラップ初期値Rs(j),(j=1,2,3,…,J)を標準パターンR(c)(j),(j=1,2,3,…,J)にコピーしている点で、実施の形態1および実施の形態2における標準パターン作成のステップ(ST703,ST803)とは異なっている。
【0125】
なお、この実施の形態3の標準パターン作成をソフトウェアで実現しようとする場合、入力音声信号2に対して音響分析を行って、特徴ベクトルX(t)の時系列4の時系列を求める分析のステップと、互いにオーバーラップする小区間B(j)のオーバーラップする区間に、特徴ベクトルX(t)の時系列4で、前の時刻との変化量が大きい時刻の特徴ベクトルX(t)の時系列4を含むように小区間B(j)を決定し、それら各小区間B(j)に属する特徴ベクトルX(t)の時系列4を平均してスペクトル変化オーバーラップ初期値Rs(j)を作成するスペクトル変化オーバーラップ初期値作成のステップと、パターンマッチングによって、特徴ベクトルX(t)の時系列4とスペクトル変化オーバーラップ初期値Rs(j)の複数の状態とを対応付け、各状態ごとに対応付けられた特徴ベクトルX(t)の時系列4を平均して標準パターンR(c)(j)の更新を行う標準パターン作成のステップとを有した、コンピュータに標準パターンを作成させるためのプログラムを記録している、コンピュータで読み取り可能な記録媒体が必要である。
【0126】
以上のように、この実施の形態3によれば、スペクトル変化オーバーラップ初期値作成手段13によって、スペクトル変化量の大きいフレームを分割境界の基準として小区間B(j)の分割を行っているので、スペクトルが大きく異なる特徴ベクトルどうしの混合による局所最小値への収束を防止することができ、より好ましい局所最小値で標準パターンの学習収束するという効果が得られる。
【0127】
実施の形態4.
図15はこの発明の実施の形態4による標準パターン作成装置の構成の一例を示すブロック図であり、実施の形態1〜実施の形態3における各機能ブロックと同等の部分には、図1、図7、もしくは図11と同一符号を付してその説明を省略する。図において、15は入力音声信号2の音響分析を行った分析手段3より出力された特徴ベクトルの時系列4を、そのパワーPの時系列を含めて保持する特徴ベクトル記憶メモリである。16は初期値作成手段としてのオーバーラップ初期値作成手段9、ポーズ区別オーバーラップ初期値作成手段11、およびスペクトル変化オーバーラップ初期値作成手段13のそれぞれで作成された、オーバーラップ初期値10、ポーズ区別オーバーラップ初期値12、およびスペクトル変化オーバーラップ初期値14に基づいて、それぞれの標準パターンを作成する標準パターン作成手段であり、17a,17b,17cはこの標準パターン作成手段16より出力されるそれぞれの標準パターンである。18は標準パターン作成手段16によって作成された各標準パターン17a,17b,17cと、特徴ベクトル記憶メモリ15から読み出された特徴ベクトルの時系列4とのパターンマッチングを行い、パターンマッチング距離が最小の標準パターンを選択する標準パターン選択手段であり、19はこの標準パターン選択手段18より出力される、最終的な標準パターンである。
【0128】
このように、この実施の形態4による標準パターン作成装置は、初期値作成手段として、オーバーラップ初期値作成手段9、ポーズ区別オーバーラップ初期値作成手段11、およびスペクトル変化オーバーラップ初期値作成手段13を備え、標準パターン作成手段16が、それらオーバーラップ初期値10、ポーズ区別オーバーラップ初期値12、およびスペクトル変化オーバーラップ初期値14に基づいてそれぞれの標準パターン17a〜17cを作成するものであり、この標準パターン17a〜17cよりパターンマッチング距離が最小の標準パターンを選択する標準パターン選択手段18を備えている点で、実施の形態1の標準パターン作成装置とは異なっている。
【0129】
次に動作について説明する。
発声者によって入力端子1から標準パターン作成用の音声を入力されると、分析手段3は入力音声信号2をA/D変換し、フレームと呼ぶ短い時間区間ごとに音響分析を行うとともに音声区間を切り出して、各フレームごとに特徴ベクトルX(t),(t=1,2,3,…,T)の時系列4を計算して出力する。そのとき、各フレームごとに音声信号のパワーP(t),(t=1,2,3,…,T)の時系列も計算して、特徴ベクトルX(t),(t=1,2,3,…,T)の時系列4とともに出力する。この場合にも、音声区間を正確に切り出すことは困難なので、特徴ベクトルX(t),(t=1,2,3,…,T)の先頭と末尾の数フレームにはポーズ区間が含まれているものとする。この例では、特徴ベクトルX(t)は、例えばLPC分析によって得られるLPCケプストラムとする。
【0130】
この分析手段3の音響分析で得られた入力音声の特徴ベクトルX(t),(t=1,2,3,…,T)の時系列4とパワーP(t),(t=1,2,3,…,T)の時系列は、特徴ベクトル記憶メモリ15に送られて一旦保持される。そして、この特徴ベクトル記憶メモリ15の出力端子Yをオーバーラップ初期値作成手段9の入力端子A1に接続するとともに、標準パターン作成手段16の入力端子Zをオーバーラップ初期値作成手段9の出力端子A2に接続する。この接続条件で特徴ベクトル記憶メモリ15は保持している特徴ベクトルX(t),(t=1,2,3,…,T)の時系列4を出力する。オーバーラップ初期値作成手段9と標準パターン作成手段16は実施の形態1の場合と同一の手順で動作して、標準パターンを作成する。標準パターン作成手段16は作成したその標準パターンをオーバーラップ初期値10に基づく標準パターン17aとして標準パターン選択手段18に出力する。
【0131】
次に特徴ベクトル記憶メモリ15の出力端子Yをポーズ区別オーバーラップ初期値作成手段11の入力端子B1に接続するとともに、標準パターン作成手段16の入力端子Zをポーズ区別オーバーラップ初期値作成手段11の出力端子B2に接続する。この接続条件で特徴ベクトル記憶メモリ15は保持している特徴ベクトルX(t),(t=1,2,3,…,T)の時系列4と音声信号のパワーP(t),(t=1,2,3,…,T)の時系列を出力する。ポーズ区別オーバーラップ初期値作成手段11と標準パターン作成手段16は実施の形態2の場合と同一の手順で動作して標準パターンを作成する。標準パターン作成手段16は作成した標準パターンをポーズ区別オーバーラップ初期値12に基づく標準パターン17bとして標準パターン選択手段18に出力する。
【0132】
次に特徴ベクトル記憶メモリ15の出力端子Yをスペクトル変化オーバーラップ初期値作成手段13の入力端子C1に接続するとともに、標準パターン作成手段16の入力端子Zをスペクトル変化オーバーラップ初期値作成手段13の出力端子C2に接続する。この接続条件で特徴ベクトル記憶メモリ15は保持している特徴ベクトルX(t),(t=1,2,3,…,T)の時系列4を出力する。スペクトル変化オーバーラップ初期値作成手段13と標準パターン作成手段16は実施の形態3の場合と同一の手順で動作して標準パターンを作成する。標準パターン作成手段16は作成した標準パターンをスペクトル変化オーバーラップ初期値14に基づく標準パターン17cとして標準パターン選択手段18に出力する。
【0133】
標準パターン選択手段18は特徴ベクトル記憶メモリ15が保持している特徴ベクトルX(t),(t=1,2,3,…,T)の時系列4、オーバーラップ初期値10に基づく標準パターン17a、ポーズ区別オーバーラップ初期値12に基づく標準パターン17b、およびスペクトル変化オーバーラップ初期値14に基づく標準パターン17cを入力として、実施の形態1にて説明したビタビアルゴリズムを用いて、前記3種の標準パターン17a,17b,17cと、特徴ベクトルX(t),(t=1,2,3,…,T)の時系列4とのパターンマッチング距離を計算する。そして、このパターンマッチング距離が最小となる標準パターンを選択し、それを最終的な標準パターン19として出力する。
【0134】
次に、このような標準パターン作成装置を使用して標準パターンを作成する方法を具体的に説明する。図16はこの発明の実施の形態4における標準パターン作成方法の手順を示すフローチャートである。
【0135】
発声者が入力端子1から標準パターン作成用の音声を入力すると、図16にST1001で示す分析のステップにおいて、入力音声信号2をA/D変換しフレームと呼ぶ短い時間区間ごとに音響分析を行うとともに音声区間を切り出して、各フレームごとに特徴ベクトルX(t),(t=1,2,3,…,T)の時系列4を計算して出力する。そのとき、各フレームごとに音声信号のパワーP(t),(t=1,2,3,…,T)の時系列も計算して、上記特徴ベクトルX(t),(t=1,2,3,…,T)の時系列4とともに出力する。なお、この場合も音声区間を正確に切り出すことは困難なので、特徴ベクトルX(t),(t=1,2,3,…,T)の先頭と末尾の数フレームにはポーズ区間が含まれているものとする。また、この例では特徴ベクトルX(t)は例えばLPC分析で得られるLPCケプストラムとする。
【0136】
次に図16にST1002で示すオーバーラップ初期値作成のステップに進む。このオーバーラップ初期値作成のステップでは、特徴ベクトル記憶メモリ15の出力端子Yをオーバーラップ初期値作成手段9の入力端子A1に接続し、標準パターン作成手段16の入力端子Zをオーバーラップ初期値作成手段9の出力端子A2に接続して、その接続条件で特徴ベクトル記憶メモリ15は保持している特徴ベクトルX(t),(t=1,2,3,…,T)の時系列4を出力し、オーバーラップ初期値作成手段9にて、実施の形態1の場合と同一の手順でオーバーラップ初期値10を作成する。次に図16にST1003で示す標準パターン作成のステップにおいて、標準パターン作成手段16が実施の形態1の場合と同一の手順で標準パターンを作成し、それをオーバーラップ初期値10に基づく標準パターン17aとして出力する。
【0137】
次に図16にST1004で示すポーズ区別オーバーラップ初期値作成のステップに進む。このポーズ区別オーバーラップ初期値作成のステップでは、特徴ベクトル記憶メモリ15の出力端子Yをポーズ区別オーバーラップ初期値作成手段11の入力端子B1に、標準パターン作成手段16の入力端子Zをポーズ区別オーバーラップ初期値作成手段11の出力端子B2に接続して、その接続条件で特徴ベクトル記憶メモリ15は保持している特徴ベクトルX(t),(t=1,2,3,…,T)の時系列4と、音声信号のパワーP(t),(t=1,2,3,…,T)の時系列を出力し、ポーズ区別オーバーラップ初期値作成手段11にて、実施の形態2の場合と同一の手順でポーズ区別オーバーラップ初期値12を作成する。次に図16にST1005で示す標準パターン作成のステップにおいて、標準パターン作成手段16が実施の形態2の場合と同一の手順で標準パターンを作成し、それをポーズ区別オーバーラップ初期値12に基づく標準パターン17bとして出力する。
【0138】
次に図16にST1006で示すスペクトル変化オーバーラップ初期値作成のステップに進む。このスペクトル変化オーバーラップ初期値作成のステップでは、特徴ベクトル記憶メモリ15の出力端子Yをスペクトル変化オーバーラップ初期値作成手段13の入力端子C1に接続し、標準パターン作成手段16の入力端子Zをスペクトル変化オーバーラップ初期値作成手段13の出力端子C2に接続して、その接続条件で特徴ベクトル記憶メモリ15は保持している特徴ベクトルX(t),(t=1,2,3,…,T)の時系列4を出力し、スペクトル変化オーバーラップ初期値作成手段13にて、実施の形態3の場合と同一の手順でスペクトル変化オーバーラップ初期値14を作成する。次に図16にST1007で示す標準パターン作成のステップにおいて、標準パターン作成手段16が実施の形態3の場合と同一の手順で標準パターンを作成し、それをスペクトル変化オーバーラップ初期値14に基づく標準パターン17cとして出力する。
【0139】
次に、図16にST1008で示す標準パターン選択のステップにおいて、特徴ベクトル記憶メモリ15が保持している特徴ベクトルX(t),(t=1,2,3,…,T)の時系列4、オーバーラップ初期値10に基づく標準パターン17a、ポーズ区別オーバーラップ初期値12に基づく標準パターン17b、およびスペクトル変化オーバーラップ初期値14に基づく標準パターン17cを入力として、実施の形態1にて説明したビタビアルゴリズムを用いて、それら3種の標準パターン17a,17b,17cと、特徴ベクトルX(t),(t=1,2,3,…,T)の時系列4とのパターンマッチング距離を計算し、このパターンマッチング距離が最小となる標準パターンを選択して、それを最終的な標準パターン19として出力する。
【0140】
なお、この実施の形態4の標準パターン作成をソフトウェアで実現しようとする場合、入力音声信号2に対して音響分析を行って、特徴ベクトルX(t)の時系列4の時系列と音声信号のパワーP(t)の時系列とを求める分析のステップ、均等分割に基づいて決定した各小区間B(j)に属する特徴ベクトルX(t)の時系列4を平均してオーバーラップ初期値10を作成するオーバーラップ初期値作成のステップ、そのオーバーラップ初期値10を用いて標準パターン17aを作成する標準パターン作成のステップ、ポーズ区間と音声区間で別個に決定した各小区間B(j)に属する特徴ベクトルX(t)の時系列4を平均してポーズ区別オーバーラップ初期値12を作成するポーズ区別オーバーラップ初期値作成のステップ、そのポーズ区別オーバーラップ初期値12を用いて標準パターン17bを作成する標準パターン作成のステップ、前の時刻との変化量が大きい時刻の特徴ベクトルをそのオーバーラップ区間に含むように決定した各小区間B(j)に属する特徴ベクトルX(t)の時系列4を平均してスペクトル変化オーバーラップ初期値14を作成するスペクトル変化オーバーラップ初期値作成のステップ、そのスペクトル変化オーバーラップ初期値14を用いて標準パターン17cを作成する標準パターン作成のステップ、およびそれら3種の標準パターン17a,17b,17cと特徴ベクトルX(t)の時系列4とのパターンマッチング距離が最小の標準パターンを選択して、最終的な標準パターン19として出力する標準パターン選択のステップを有した、コンピュータに標準パターンを作成させるためのプログラムを記録している、コンピュータで読み取り可能な記録媒体が必要である。
【0141】
以上のように、この実施の形態4によれば、オーバーラップ初期値10に基づく標準パターン17aと、ポーズ区別オーバーラップ初期値12に基づく標準パターン17bと、スペクトル変化オーバーラップ初期値14に基づく標準パターン17cの中から、特徴ベクトルX(t),(t=1,2,3,…,T)の時系列4とのパターンマッチング距離が最小となる標準パターンを、最終的な標準パターン19として選択しているので、より表現効率の高い標準パターンを得ることができるという効果が得られる。
【0142】
【発明の効果】
以上のように、この発明によれば、初期値作成手段が各小区間に属する特徴ベクトルの時系列を平均して標準パターンの初期値を作成する際に、特徴ベクトルの時系列を互いにオーバーラップするように区切って小区間を形成し、標準パターン作成手段がその標準パターンの初期値の各状態と特徴ベクトルの時系列との対応付けをパターンマッチングによって行い、各状態ごとに対応付けられた特徴ベクトルの時系列を平均して標準パターンの更新を行うように構成したので、初期値にトラップされることが少なくなり、好ましくない局所最小値で標準パターンの学習が収束することを低減することができる標準パターン作成装置が得られる効果がある。
また、ポーズ区別オーバーラップ初期値作成手段が特徴ベクトルの時系列を互いにオーバーラップする小区間に区切って標準パターンの初期値を作成する際に、その小区間をポーズ区間と音声区間とで別個に決定するように構成したので、音声区間とポーズ区間の混合による局所最小値への収束を防止することが可能となり、より好ましい局所最小値で標準パターンの学習を収束させることができる標準パターン作成装置が得られる効果がある。
【0145】
この発明によれば、スペクトル変化オーバーラップ初期値作成手段が特徴ベクトルの時系列を互いにオーバーラップする小区間に区切って標準パターンの初期値を作成する際に、特徴ベクトルの時系列が前の時刻より大きく変化している時刻の特徴ベクトルの時系列を、そのオーバーラップ区間に含むように小区間を決定するように構成したので、スペクトルが大きく異なる特徴ベクトルどうしの混合による局所最小値への収束を防止することが可能となり、より好ましい局所最小値で標準パターンの学習を収束させることができる標準パターン作成装置が得られるという効果がある。
【0146】
この発明によれば、オーバーラップ初期値作成手段、ポーズ区別オーバーラップ初期値作成手段、およびスペクトル変化オーバーラップ初期値作成手段でそれぞれ作成された各標準パターンの初期値を用いて、それらに基づく標準パターンを標準パターン作成手段で作成し、その中で特徴ベクトルの時系列とのパターンマッチング距離が最小のものを標準パターン選択手段で選択して、最終的な標準パターンとして出力するように構成したので、より表現効率の高い標準パターンを得ることのできる標準パターン作成装置が得られる効果がある。
【0149】
この発明によれば、特徴ベクトルの時系列をオーバーラップする小区間に区切る際に、ポーズ区間と音声区間とで別個に各小区間を決定するように構成したので、音声区間とポーズ区間の混合による局所最小値への収束を防止することが可能となり、より好ましい局所最小値で標準パターンの学習を収束させることができる標準パターン作成方法が得られる効果がある。
【0150】
この発明によれば、特徴ベクトルの時系列をオーバーラップする小区間に区切る際に、当該小区間のオーバーラップ区間に、前の時刻との変化量が大きい時刻の特徴ベクトルの時系列が含まれるように小区間を決定するように構成したので、スペクトルが大きく異なる特徴ベクトルどうしの混合による局所最小値への収束を防止することが可能となり、より好ましい局所最小値で標準パターンの学習を収束させることができる標準パターン作成方法が得られる効果がある。
【0151】
この発明によれば、特徴ベクトルの時系列を互いにオーバーラップした小区間に区切る際に、均等分割、ポーズ区間と音声区間とで別個に分割、および前の時刻との変化量が大きい時刻の特徴ベクトルの時系列を含むように分割の、各分割方法で分割し、それら各分割方法による標準パターンの初期値を用いて作成したそれぞれの標準パターンから、特徴ベクトルの時系列とのパターンマッチング距離が最小のものを選択するように構成したので、表現効率の高い標準パターンを得ることのできる標準パターン作成方法が得られる効果がある。
【0154】
この発明によれば、ポーズ区間と音声区間で別個に小区間を決定するポーズ区別オーバーラップ初期値作成のステップを初期値作成のステップとしたプログラムを記録媒体に記録させるように構成したので、音声区間とポーズ区間の混合による局所最小値への収束を防止でき、より好ましい局所最小値で標準パターンの学習が収束する標準パターン作成方法をコンピュータに実行させることができる効果がある。
【0155】
この発明によれば、スペクトルが大きく変化する部分がオーバーラップ部分に含まれるように小区間の分割を行うスペクトル変化オーバーラップ初期値作成のステップを初期値作成のステップとしたプログラムを記録媒体に記録させるように構成したので、スペクトルが大きく異なる特徴ベクトルどうしの混合による局所最小値への収束を防止でき、より好ましい局所最小値で標準パターンの学習が収束する標準パターン作成方法をコンピュータに実行させることができる効果がある。
【0156】
この発明によれば、オーバーラップ初期値作成、ポーズ区別オーバーラップ初期値作成、およびスペクトル変化オーバーラップ初期値作成の各ステップと、それらによって作成された各標準パターンの初期値を用いてそれぞれの標準パターンを作成する標準パターン作成のステップと、作成された各標準パターンと入力音声の特徴ベクトルの時系列とのパターンマッチング距離が最小の標準パターンを選択する標準パターン選択のステップとを有するプログラムを記録媒体に記録させるように構成したので、より表現効率の高い標準パターンが得られる標準パターン作成方法をコンピュータに実行させることができる効果がある。
【図面の簡単な説明】
【図1】 この発明の実施の形態1による標準パターン作成装置を示すブロック図である。
【図2】 実施の形態1におけるオーバーラップ初期値作成手段の動作手順を示すフローチャートである。
【図3】 実施の形態1におけるオーバーラップ初期値作成手段の動作の概要を示す説明図である。
【図4】 実施の形態1における標準パターン作成手段の動作手順を示すフローチャートである。
【図5】 実施の形態1における標準パターンと特徴ベクトルの時系列4との対応付けの概要を示す説明図である。
【図6】 この発明の実施の形態1による標準パターン作成方法を示すフローチャートである。
【図7】 この発明の実施の形態2による標準パターン作成装置を示すブロック図である。
【図8】 実施の形態2におけるポーズ区別オーバーラップ初期値作成手段の動作手順を示すフローチャートである。
【図9】 実施の形態2におけるポーズ区別オーバーラップ初期値作成手段の動作の概要を示す説明図である。
【図10】 この発明の実施の形態2による標準パターン作成方法を示すフローチャートである。
【図11】 この発明の実施の形態3による標準パターン作成装置を示すブロック図である。
【図12】 実施の形態3におけるスペクトル変化オーバーラップ初期値作成手段の動作手順を示すフローチャートである。
【図13】 実施の形態3におけるスペクトル変化オーバーラップ初期値作成手段の動作の概要を示す説明図である。
【図14】 この発明の実施の形態3による標準パターン作成方法を示すフローチャートである。
【図15】 この発明の実施の形態4による標準パターン作成装置を示すブロック図である。
【図16】 この発明の実施の形態4による標準パターン作成方法を示すフローチャートである。
【図17】 従来の標準パターン作成装置を示すブロック図である。
【図18】 従来の標準パターン作成装置における初期値作成手段の動作手順を示すフローチャートである。
【図19】 従来の標準パターン作成装置における初期値作成手段の動作の概要を示す説明図である。
【図20】 従来の標準パターン作成装置における標準パターン作成手段の動作手順を示すフローチャートである。
【符号の説明】
1 入力端子、2 入力音声信号、3 分析手段、4 特徴ベクトルの時系列、7 標準パターン作成手段、8 標準パターン、9 オーバーラップ初期値作成手段(初期値作成手段)、10 オーバーラップ初期値(標準パターンの初期値)、11 ポーズ区別オーバーラップ初期値作成手段(初期値作成手段)、12 ポーズ区別オーバーラップ初期値(標準パターンの初期値)、13 スペクトル変化オーバーラップ初期値作成手段(初期値作成手段)、14 スペクトル変化オーバーラップ初期値(標準パターンの初期値)、15 特徴ベクトル記憶メモリ、16 標準パターン作成手段、17a,17b,17c 標準パターン、18 標準パターン選択手段、19 標準パターン。

Claims (9)

  1. 入力音声の特徴ベクトルの時系列を互いにオーバーラップする小区間に区切り、当該各小区間に属する特徴ベクトルの時系列を平均して標準パターンの初期値を作成する初期値作成手段と、
    前記特徴ベクトルの時系列と、前記初期値作成手段が作成した標準パターンの初期値の各状態とをパターンマッチングによって対応付け、前記各状態ごとに対応付けられた前記特徴ベクトルの時系列を平均して標準パターンの更新を行う標準パターン作成手段とを備えた標準パターン作成装置において、
    前記初期値作成手段として、互いにオーバーラップする小区間をポーズ区間と音声区間とで別個に決定し、前記各小区間に属する特徴ベクトルの時系列を平均してそれぞれの標準パターンの初期値を作成するポーズ区別オーバーラップ初期値作成手段を備えたことを特徴とする標準パターン作成装置。
  2. 入力音声の特徴ベクトルの時系列を互いにオーバーラップする小区間に区切り、当該各小区間に属する特徴ベクトルの時系列を平均して標準パターンの初期値を作成する初期値作成手段と、
    前記特徴ベクトルの時系列と、前記初期値作成手段が作成した標準パターンの初期値の各状態とをパターンマッチングによって対応付け、前記各状態ごとに対応付けられた前記特徴ベクトルの時系列を平均して標準パターンの更新を行う標準パターン作成手段とを備えた標準パターン作成装置において、
    前記初期値作成手段として、特徴ベクトルの時系列が前の時刻より大きく変化している時刻の特徴ベクトルの時系列をそのオーバーラップする区間に含むように、互いにオーバーラップする小区間を決定し、前記各小区間に属する特徴ベクトルの時系列を平均して標準パターンの初期値を作成するスペクトル変化オーバーラップ初期値作成手段を備えたことを特徴とする標準パターン作成装置。
  3. 入力音声の特徴ベクトルの時系列を互いにオーバーラップする小区間に区切り、当該各小区間に属する特徴ベクトルの時系列を平均して標準パターンの初期値を作成する初期値作成手段と、
    前記特徴ベクトルの時系列と、前記初期値作成手段が作成した標準パターンの初期値の各状態とをパターンマッチングによって対応付け、前記各状態ごとに対応付けられた前記特徴ベクトルの時系列を平均して標準パターンの更新を行う標準パターン作成手段とを備えた標準パターン作成装置において、
    前記初期値作成手段として、均等分割に基づいて決定した各小区間に属する特徴ベクトルの時系列を平均して標準パターンの初期値を作成するオーバーラップ初期値作成手段と、ポーズ区間と音声区間とで別個に決定した各小区間に属する特徴ベクトルの時系列を平均して標準パターンの初期値を作成するポーズ区別オーバーラップ初期値作成手段と、前の時刻との間の変化量が大きい時刻の特徴ベクトルをそのオーバーラップ区間に含むように決定した各小区間に属する特徴ベクトルの時系列を平均して標準パターンの初期値を作成するスペクトル変化オーバーラップ初期値作成手段を備え、
    前記オーバーラップ初期値作成手段、ポーズ区別オーバーラップ初期値作成手段、およびスペクトル変化オーバーラップ初期値作成手段によって作成された標準パターンの初期値を用いてそれぞれの標準パターンを作成する標準パターン作成手段と、
    前記標準パターン作成手段の作成する各標準パターンと入力音声の特徴ベクトルの時系列とのパターンマッチングを行い、パターンマッチング距離が最小の標準パターンを選択する標準パターン選択手段とを有することを特徴とする標準パターン作成装置。
  4. 入力音声の特徴ベクトルの時系列を時間軸方向に圧縮し、複数の状態数の標準パターンを作成する標準パターン作成方法であって
    前記特徴ベクトルの時系列を互いにオーバーラップする小区間に区切り、
    区切られた前記各小区間に属する特徴ベクトルの時系列を平均して標準パターンの初期値を作成し、
    作成された前記標準パターンの初期値の各状態と、前記入力音声の特徴ベクトルの時系列との対応付けをパターンマッチングによって行い、
    前記各状態ごとに対応付けられた特徴ベクトルの時系列を平均して、標準パターンの更新を行う標準パターン作成方法において、
    前記入力音声の特徴ベクトルの時系列を互いにオーバーラップする小区間に区切り、当該各小区間に属する特徴ベクトルの時系列を平均して標準パターンの初期値を作成する際に、前記小区間をポーズ区間と音声区間とで別個に決定することを特徴とする標準パターン作成方法。
  5. 入力音声の特徴ベクトルの時系列を時間軸方向に圧縮し、複数の状態数の標準パターンを作成する標準パターン作成方法であって、
    前記特徴ベクトルの時系列を互いにオーバーラップする小区間に区切り、
    区切られた前記各小区間に属する特徴ベクトルの時系列を平均して標準パターンの初期値を作成し、
    作成された前記標準パターンの初期値の各状態と、前記入力音声の特徴ベクトルの時系列との対応付けをパターンマッチングによって行い、
    前記各状態ごとに対応付けられた特徴ベクトルの時系列を平均して、標準パターンの更新を行う標準パターン作成方法において、
    前記入力音声の特徴ベクトルの時系列を互いにオーバーラップする小区間に区切り、当該各小区間に属する特徴ベクトルを平均して標準パターンの初期値を作成する際に、前記小区間の互いにオーバーラップする区間に、前記特徴ベクトルの時系列で前の時刻との特徴ベクトルの変化量が大きい時刻の特徴ベクトルの時系列を含むように前記小区間を決定することを特徴とする標準パターン作成方法。
  6. 入力音声の特徴ベクトルの時系列を時間軸方向に圧縮し、複数の状態数の標準パターンを作成する標準パターン作成方法であって、
    前記特徴ベクトルの時系列を互いにオーバーラップする小区間に区切り、
    区切られた前記各小区間に属する特徴ベクトルの時系列を平均して標準パターンの初期値を作成し、
    作成された前記標準パターンの初期値の各状態と、前記入力音声の特徴ベクトルの時系列との対応付けをパターンマッチングによって行い、
    前記各状態ごとに対応付けられた特徴ベクトルの時系列を平均して、標準パターンの更新を行う標準パターン作成方法において、
    前記入力音声の特徴ベクトルの時系列を、互いにオーバーラップした小区間に区切る際に、均等分割、ポーズ区間と音声区間とで別個に、および前の時刻との変化量が大きい時刻の特徴ベクトルの時系列を含ませるといった異なる複数の方法で区切り、
    前記各方法で区切られた小区間に属する特徴ベクトルの時系列を平均して作成した標準パターンの初期値を用いてそれぞれの標準パターンを作成し、
    作成された各標準パターンと前記特徴ベクトルの時系列とのパターンマッチングを行い、パターンマッチング距離が最小の標準パターンを選択することを特徴とする標準パターン作成方法。
  7. 入力音声の特徴ベクトルの時系列を互いにオーバーラップする小区間に区切り、それら各小区間に属する特徴ベクトルの時系列を平均して標準パターンの初期値を作成する初期値作成のステップと、
    パターンマッチングによって、前記特徴ベクトルの時系列と前記標準パターンの初期値の各状態とを対応付け、前記各状態ごとに対応付けられた特徴ベクトルの時系列を平均して標準パターンの更新を行う標準パターン作成のステップとを有する標準パターン作成をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体において、
    前記標準パターンの初期値を作成するステップとして、互いにオーバーラップする小区間をポーズ区間と音声区間で別個に決定し、前記各小区間に属する特徴ベクトルの時系列を平均して標準パターンの初期値を作成するポーズ区別オーバーラップ初期値作成のステップを有することを特徴とする記録媒体。
  8. 入力音声の特徴ベクトルの時系列を互いにオーバーラップする小区間に区切り、それら各小区間に属する特徴ベクトルの時系列を平均して標準パターンの初期値を作成する初期値作成のステップと、
    パターンマッチングによって、前記特徴ベクトルの時系列と前記標準パターンの初期値の各状態とを対応付け、前記各状態ごとに対応付けられた特徴ベクトルの時系列を平均して標準パターンの更新を行う標準パターン作成のステップとを有する標準パターン作成をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体において、
    前記標準パターンの初期値を作成するステップとして、互いにオーバーラップする小区間のオーバーラップする区間に、特徴ベクトルの時系列で、前の時刻との変化量が大きい時刻の特徴ベクトルの時系列を含むように小区間を決定し、それら各小区間に属する特徴ベクトルの時系列を平均して標準パターンの初期値を作成するスペクトル変化オーバーラップ初期値作成のステップを有することを特徴とする記録媒体。
  9. 入力音声の特徴ベクトルの時系列を互いにオーバーラップする小区間に区切り、それら各小区間に属する特徴ベクトルの時系列を平均して標準パターンの初期値を作成する初期値作成のステップと、
    パターンマッチングによって、前記特徴ベクトルの時系列と前記標準パターンの初期値の各状態とを対応付け、前記各状態ごとに対応付けられた特徴ベクトルの時系列を平均して標準パターンの更新を行う標準パターン作成のステップとを有する標準パターン作成をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体において、
    前記標準パターンの初期値を作成するステップとして、均等分割に基づいて決定した各小区間に属する特徴ベクトルの時系列を平均して標準パターンの初期値を作成するオーバーラップ初期値作成のステップと、ポーズ区間と音声区間とで別個に決定した各小区間に属する特徴ベクトルの時系列を平均して標準パターンの初期値を作成するポーズ区別オーバーラップ初期値作成のステップと、前の時刻との変化量が大きい時刻の特徴ベクトルを含むように決定した各小区間に属する特徴ベクトルの時系列を平均して標準パターンの初期値を作成するスペクトル変化オーバーラップ初期値作成のステップとを備え、
    前記標準パターンの初期値を作成する各ステップによって作成された標準パターンの初期値を用いてそれぞれの標準パターンを作成する標準パターン作成のステップと、
    前記特徴ベクトルの時系列と前記標準パターン作成のステップで作成された各標準パターンとのパターンマッチングを行い、パターンマッチング距離が最小の標準パターンを選択する標準パターン選択のステップを有することを特徴とする記録媒体。
JP25942199A 1999-09-13 1999-09-13 標準パターン作成装置と方法および記録媒体 Expired - Fee Related JP4067716B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP25942199A JP4067716B2 (ja) 1999-09-13 1999-09-13 標準パターン作成装置と方法および記録媒体
EP00119234A EP1085498A3 (en) 1999-09-13 2000-09-06 Reference speech pattern generating method
CNB001338323A CN1165888C (zh) 1999-09-13 2000-09-12 基准图形生成装置和方法
US09/660,478 US6708151B1 (en) 1999-09-13 2000-09-12 Reference pattern generating apparatus and method, and computer readable medium having reference pattern generating program embodied thereon

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP25942199A JP4067716B2 (ja) 1999-09-13 1999-09-13 標準パターン作成装置と方法および記録媒体

Publications (2)

Publication Number Publication Date
JP2001083980A JP2001083980A (ja) 2001-03-30
JP4067716B2 true JP4067716B2 (ja) 2008-03-26

Family

ID=17333876

Family Applications (1)

Application Number Title Priority Date Filing Date
JP25942199A Expired - Fee Related JP4067716B2 (ja) 1999-09-13 1999-09-13 標準パターン作成装置と方法および記録媒体

Country Status (4)

Country Link
US (1) US6708151B1 (ja)
EP (1) EP1085498A3 (ja)
JP (1) JP4067716B2 (ja)
CN (1) CN1165888C (ja)

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4797929A (en) * 1986-01-03 1989-01-10 Motorola, Inc. Word recognition in a speech recognition system using data reduced word templates
US4837831A (en) * 1986-10-15 1989-06-06 Dragon Systems, Inc. Method for creating and using multiple-word sound models in speech recognition
JPS6444997A (en) 1987-08-13 1989-02-17 Ricoh Kk Reference pattern registration system
US5202952A (en) * 1990-06-22 1993-04-13 Dragon Systems, Inc. Large-vocabulary continuous speech prefiltering and processing system
US5455889A (en) * 1993-02-08 1995-10-03 International Business Machines Corporation Labelling speech using context-dependent acoustic prototypes
US5822730A (en) * 1996-08-22 1998-10-13 Dragon Systems, Inc. Lexical tree pre-filtering in speech recognition
US6260013B1 (en) * 1997-03-14 2001-07-10 Lernout & Hauspie Speech Products N.V. Speech recognition system employing discriminatively trained models
GB9802836D0 (en) * 1998-02-10 1998-04-08 Canon Kk Pattern matching method and apparatus

Also Published As

Publication number Publication date
JP2001083980A (ja) 2001-03-30
EP1085498A3 (en) 2005-02-09
EP1085498A2 (en) 2001-03-21
CN1301006A (zh) 2001-06-27
US6708151B1 (en) 2004-03-16
CN1165888C (zh) 2004-09-08

Similar Documents

Publication Publication Date Title
US7277856B2 (en) System and method for speech synthesis using a smoothing filter
JP2692581B2 (ja) 音響カテゴリ平均値計算装置及び適応化装置
US6278972B1 (en) System and method for segmentation and recognition of speech signals
KR20220054655A (ko) 음성 합성 방법 및 장치, 저장 매체
US20010032079A1 (en) Speech signal processing apparatus and method, and storage medium
JP4067716B2 (ja) 標準パターン作成装置と方法および記録媒体
JP6261924B2 (ja) 韻律編集装置、方法およびプログラム
JPH0465392B2 (ja)
CN113327576A (zh) 语音合成方法、装置、设备及存储介质
JP6472342B2 (ja) 音声合成装置、音声合成方法、およびプログラム
JP4867076B2 (ja) 音声合成用圧縮素片作成装置、音声規則合成装置及びそれらに用いる方法
JP2020052262A (ja) 修正候補提示方法、修正候補提示プログラムおよび情報処理装置
CN113345414B (zh) 基于语音合成的影片修复方法、装置、设备及介质
CN113096685A (zh) 音频处理方法及装置
CN113205797A (zh) 虚拟主播生成方法、装置、计算机设备及可读存储介质
JP4454780B2 (ja) 音声情報処理装置とその方法と記憶媒体
CN117912446B (zh) 一种音色和风格深度解耦的语音风格迁移系统及方法
JP3652753B2 (ja) 発声変形音声認識装置及び音声認識方法
WO2017028003A1 (zh) 基于隐马尔科夫模型的语音单元拼接方法
JP5877823B2 (ja) 音声認識装置、音声認識方法、およびプログラム
CN110600005B (zh) 语音识别纠错方法及装置、计算机设备和记录介质
JP4630038B2 (ja) 音声波形データベース構築方法、この方法を実施する装置およびプログラム
JPH10214097A (ja) 音声特徴量の適応化方法及び音声認識装置、記録媒体
JP5461967B2 (ja) 音声シナリオ生成プログラム及び音声シナリオ生成装置
JP3353482B2 (ja) 音声符号化装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040916

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20061120

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20071114

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20071114

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20071114

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071211

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080109

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110118

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees