JP2749811B2 - 標準パターン作成方式 - Google Patents
標準パターン作成方式Info
- Publication number
- JP2749811B2 JP2749811B2 JP62311396A JP31139687A JP2749811B2 JP 2749811 B2 JP2749811 B2 JP 2749811B2 JP 62311396 A JP62311396 A JP 62311396A JP 31139687 A JP31139687 A JP 31139687A JP 2749811 B2 JP2749811 B2 JP 2749811B2
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- state
- standard pattern
- creation method
- distortion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Description
【発明の詳細な説明】
技術分野
本発明は、標準パターン作成方式、より詳細には、音
声認識におけるパターンマッチング技術に関する。 従来技術 音声確認におけるパターンマッチング手法としてDPマ
ッチングがある。これは局所距離を累積して認識結果を
得るものであり、累積の音声区間中の短い区間(例えば
単語音声における破裂部等)が全体に与える影響は全ん
ど無い。しかしながら、音声区間全体の各フレームの特
徴ベクトルを標準パターンとしており非常に効率が悪
い。 目的 本発明は、上述のごとき実情に鑑みてなされたもの
で、特に、少ないメモリーを用いて音声パターンを効率
よく表現できる標準パターンを作成する事を目的として
なされたものである。 構成 本発明は、上記目的を達成するために、入力した音声
を特徴ベクトルの時系列に変換する特徴系列変換手段を
用い、音声パターンを一定数(>1)の状態に分割し、
各状態ごとに継続時間と該状態に帰属するフレームの特
徴ベクトルのセントロイドを登録する際に、標準パター
ンと音声パターンとのパターンマッチングを行なって音
声パターンの分割点を更新する標準パターン作成方式に
おいて、パターンマッチングと標準パターンの更新を繰
り返して収束した後に、状態内の歪みが最大となる状態
を分割するときの歪みの改善度をF1とし、連続する状態
のセントロイドの距離が最も小さい部分を統合するとき
の歪みの劣化度をF2とするとき、F1がF2より大きいとき
のみ、該分割と該統合を行なうことを特徴としたもので
ある。以下、本発明の実施例に基いて説明する。 第1図は、本発明による標準パターン作成方式の一実
施例を説明するためのアルゴリズム、第2図は、全体構
成図、第3図は、音声パターンと標準ターンとの最適な
マッチングバスの例(N=4)を示す図で、第2図にお
いて、1はマイク、2は特徴系列変換部、3は標準パタ
ーン作成部である。マイク1から入力された音声は、特
徴系列変換手段2により特徴ベクトルの時系列に変換さ
れる。特徴ベクトルとしては、様々なものが考えられる
が、例えば、中心周波数を250〜6300Hzに1/3オクターブ
ごとに配置した15チャンネルのバンドパスフィルター群
の出力を用いれば良い。また、フレーム周期は10ms程度
とする。ここで、入力音声のフレーム数をIとすれば、
音声パターン は、 と表現される(xiはiフレームの特徴ベクトル、xifは
iフレームの特徴ベクトルのf番目の要素、即ち、fチ
ャンネルの出力)。 まず、音声パターンをN等分してN個の状態に分割
し、各状態に帰属する特徴ベクトルのセントロイドを計
算して、初期標準パターンとする。次に、標準パターン
と音声パターンとのマッチングを行なう。ここでパター
ンマッチングの方法について簡単に説明する。 step1. D(1,1)=d(1,1) D(1,j)=∞ (2jN) step2. 全てのi=2からi=Iについて D(i,1)=d(i,1)+D(i−1,1) 但し、d(i,j)は、入力音声のiフレームの特徴ベ
クトルと標準パターンのj状態の特徴ベクトル(セント
ロイド)との局所距離、D(i,j)は、格子点(i,j)に
到達する最適なマッチングパスによる累積距離。 以上のような漸化式を用いて、最終格子点(I,N)に
到達する最適パスを見つける。 第3図では、第1状態に1〜b1フレーム、第2状態に
b1+1〜b2フレーム、第3状態にb2+1〜b3フレーム、
第4状態にb3+1〜Iフレームが帰属している。ここ
で、新たに各状態に帰属したフレームからセントロイド
を計算し、新しい標準パターンを作成する。 以上のように、パターンマッチング→分割点の変更→
標準パターンの更新を収束するまで繰り返す。 ことき、第j状態を代表する特徴ベクトルをYjとする
と、音声パターンと標準パターンとの誤差D(I,N)
は、 但し、Ajは状態jに帰属するフレームの集合と表現で
きる。標準パターンの更新を繰り返してD(I,N)を小
さくしていくわけであるが、収束後、D(I,N)は極小
であっても最小である保証はない。 そこで、まず、最大の状態内歪S(j)を持つ状態2
つに分割する。 {i′∈Aj}={isi′ie} とすると、全ての分割点P(∈Aj)について、前端(is
〜P)のセントロイド と後端(P〜ie)のセントロイドを求める。このとき状態を分割することによる歪の改善
度F1は、 と表わされる。 また、連続する2つの状態j,j+1(1j<N)の
セトロイドの距離が最も小さい部分を見つけ、この2つ
の状態を統合してセントロイド を計算する。このとき、状態を統合することによる歪の
劣化率F2は、 F1>F2であれば、この状態の分割、統合によって音声パ
ターンと標準パターンとの誤差D(I,N)は状態数Nが
かわらず、改善されたことになる。 また、この分割、統合部だけでは、周囲の状態への影
響を考慮していないので、さらにパターンマッチング→
分割点の変更→標準パターンの更新を繰り返す。 また、F1F2であれば、分割・統合は行なわず、従来
のセントロイドを登録する。また、このときの各状態の
継続時間を計算して登録する。 効果 以上の説明から明らかなように、本発明によると、少
ないメモリーで効率的に音声パターンを表現できる標準
パターンが作成できる。
声認識におけるパターンマッチング技術に関する。 従来技術 音声確認におけるパターンマッチング手法としてDPマ
ッチングがある。これは局所距離を累積して認識結果を
得るものであり、累積の音声区間中の短い区間(例えば
単語音声における破裂部等)が全体に与える影響は全ん
ど無い。しかしながら、音声区間全体の各フレームの特
徴ベクトルを標準パターンとしており非常に効率が悪
い。 目的 本発明は、上述のごとき実情に鑑みてなされたもの
で、特に、少ないメモリーを用いて音声パターンを効率
よく表現できる標準パターンを作成する事を目的として
なされたものである。 構成 本発明は、上記目的を達成するために、入力した音声
を特徴ベクトルの時系列に変換する特徴系列変換手段を
用い、音声パターンを一定数(>1)の状態に分割し、
各状態ごとに継続時間と該状態に帰属するフレームの特
徴ベクトルのセントロイドを登録する際に、標準パター
ンと音声パターンとのパターンマッチングを行なって音
声パターンの分割点を更新する標準パターン作成方式に
おいて、パターンマッチングと標準パターンの更新を繰
り返して収束した後に、状態内の歪みが最大となる状態
を分割するときの歪みの改善度をF1とし、連続する状態
のセントロイドの距離が最も小さい部分を統合するとき
の歪みの劣化度をF2とするとき、F1がF2より大きいとき
のみ、該分割と該統合を行なうことを特徴としたもので
ある。以下、本発明の実施例に基いて説明する。 第1図は、本発明による標準パターン作成方式の一実
施例を説明するためのアルゴリズム、第2図は、全体構
成図、第3図は、音声パターンと標準ターンとの最適な
マッチングバスの例(N=4)を示す図で、第2図にお
いて、1はマイク、2は特徴系列変換部、3は標準パタ
ーン作成部である。マイク1から入力された音声は、特
徴系列変換手段2により特徴ベクトルの時系列に変換さ
れる。特徴ベクトルとしては、様々なものが考えられる
が、例えば、中心周波数を250〜6300Hzに1/3オクターブ
ごとに配置した15チャンネルのバンドパスフィルター群
の出力を用いれば良い。また、フレーム周期は10ms程度
とする。ここで、入力音声のフレーム数をIとすれば、
音声パターン は、 と表現される(xiはiフレームの特徴ベクトル、xifは
iフレームの特徴ベクトルのf番目の要素、即ち、fチ
ャンネルの出力)。 まず、音声パターンをN等分してN個の状態に分割
し、各状態に帰属する特徴ベクトルのセントロイドを計
算して、初期標準パターンとする。次に、標準パターン
と音声パターンとのマッチングを行なう。ここでパター
ンマッチングの方法について簡単に説明する。 step1. D(1,1)=d(1,1) D(1,j)=∞ (2jN) step2. 全てのi=2からi=Iについて D(i,1)=d(i,1)+D(i−1,1) 但し、d(i,j)は、入力音声のiフレームの特徴ベ
クトルと標準パターンのj状態の特徴ベクトル(セント
ロイド)との局所距離、D(i,j)は、格子点(i,j)に
到達する最適なマッチングパスによる累積距離。 以上のような漸化式を用いて、最終格子点(I,N)に
到達する最適パスを見つける。 第3図では、第1状態に1〜b1フレーム、第2状態に
b1+1〜b2フレーム、第3状態にb2+1〜b3フレーム、
第4状態にb3+1〜Iフレームが帰属している。ここ
で、新たに各状態に帰属したフレームからセントロイド
を計算し、新しい標準パターンを作成する。 以上のように、パターンマッチング→分割点の変更→
標準パターンの更新を収束するまで繰り返す。 ことき、第j状態を代表する特徴ベクトルをYjとする
と、音声パターンと標準パターンとの誤差D(I,N)
は、 但し、Ajは状態jに帰属するフレームの集合と表現で
きる。標準パターンの更新を繰り返してD(I,N)を小
さくしていくわけであるが、収束後、D(I,N)は極小
であっても最小である保証はない。 そこで、まず、最大の状態内歪S(j)を持つ状態2
つに分割する。 {i′∈Aj}={isi′ie} とすると、全ての分割点P(∈Aj)について、前端(is
〜P)のセントロイド と後端(P〜ie)のセントロイドを求める。このとき状態を分割することによる歪の改善
度F1は、 と表わされる。 また、連続する2つの状態j,j+1(1j<N)の
セトロイドの距離が最も小さい部分を見つけ、この2つ
の状態を統合してセントロイド を計算する。このとき、状態を統合することによる歪の
劣化率F2は、 F1>F2であれば、この状態の分割、統合によって音声パ
ターンと標準パターンとの誤差D(I,N)は状態数Nが
かわらず、改善されたことになる。 また、この分割、統合部だけでは、周囲の状態への影
響を考慮していないので、さらにパターンマッチング→
分割点の変更→標準パターンの更新を繰り返す。 また、F1F2であれば、分割・統合は行なわず、従来
のセントロイドを登録する。また、このときの各状態の
継続時間を計算して登録する。 効果 以上の説明から明らかなように、本発明によると、少
ないメモリーで効率的に音声パターンを表現できる標準
パターンが作成できる。
【図面の簡単な説明】
第1図は、本発明による標準パターン作成方式の一実施
例を説明するためのアルゴリズム、第2図は、全体構成
図、第3図は、音声パターンと標準パターンとの最適な
マッチングバスの例を示す図である。 1……マイク、2……特徴系列変換部、3……標準パタ
ーン作成部。
例を説明するためのアルゴリズム、第2図は、全体構成
図、第3図は、音声パターンと標準パターンとの最適な
マッチングバスの例を示す図である。 1……マイク、2……特徴系列変換部、3……標準パタ
ーン作成部。
─────────────────────────────────────────────────────
フロントページの続き
(58)調査した分野(Int.Cl.6,DB名)
G10L 3/00 515 - 521
G10L 9/00 - 9/18
Claims (1)
- (57)【特許請求の範囲】 1.入力した音声を特徴ベクトルの時系列に変換する特
徴系列変換手段を用い、音声パターンを一定数N(>
1)の状態に分割し、各状態ごとに継続時間と該状態に
帰属するフレームの特徴ベクトルのセントロイドを登録
する際に、標準パターンと音声パターンとのパターンマ
ッチングを行なって音声パターンの分割点を更新する標
準パターン作成方式において、パターンマッチングと標
準パターンの更新を繰り返して収束した後に、状態内の
歪みが最大となる状態を分割するときの歪みの改善度を
F1とし、連続する状態のセントロイドの距離が最も小さ
い部分を統合するときの歪みの劣化度をF2とするとき、
F1がF2より大きいときのみ、該分割と該統合を行なうこ
とを特徴とする標準パターン作成方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP62311396A JP2749811B2 (ja) | 1987-12-09 | 1987-12-09 | 標準パターン作成方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP62311396A JP2749811B2 (ja) | 1987-12-09 | 1987-12-09 | 標準パターン作成方式 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH01152498A JPH01152498A (ja) | 1989-06-14 |
JP2749811B2 true JP2749811B2 (ja) | 1998-05-13 |
Family
ID=18016687
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP62311396A Expired - Fee Related JP2749811B2 (ja) | 1987-12-09 | 1987-12-09 | 標準パターン作成方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2749811B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04334206A (ja) * | 1991-05-10 | 1992-11-20 | Matsushita Electric Ind Co Ltd | ベクトル量子化用コードブック作成方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0752355B2 (ja) * | 1985-07-29 | 1995-06-05 | 株式会社日立製作所 | 音声認識装置 |
JPH0640279B2 (ja) * | 1986-03-19 | 1994-05-25 | 日本電信電話株式会社 | 音声符号化方法 |
JPH0824341B2 (ja) * | 1985-10-28 | 1996-03-06 | 株式会社日立製作所 | 画像データ符号化方法 |
-
1987
- 1987-12-09 JP JP62311396A patent/JP2749811B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH01152498A (ja) | 1989-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lee et al. | Allophone clustering for continuous speech recognition | |
KR950008539B1 (ko) | 음성 인식 시스템에서 데이타 축소 방법 및 장치 | |
EP1141939B1 (en) | System and method for segmentation of speech signals | |
CN108053814A (zh) | 一种模拟用户歌声的语音合成系统及方法 | |
JP2749811B2 (ja) | 標準パターン作成方式 | |
JPH07506202A (ja) | 音声符号器において使用するためのスペクトルノイズ重み付けフィルタを発生する方法 | |
CN113066475B (zh) | 一种基于生成式对抗网络的语音合成方法 | |
US7219061B1 (en) | Method for detecting the time sequences of a fundamental frequency of an audio response unit to be synthesized | |
CN104036775A (zh) | 一种视听融合的语音识别系统 | |
KR102655933B1 (ko) | 데이터 증강 방법 및 장치 | |
CN115862590A (zh) | 一种基于特征金字塔的文本驱动语音合成方法 | |
JP3379348B2 (ja) | ピッチ変換器 | |
JP3465734B2 (ja) | 音声信号変形接続方法 | |
JP2804265B2 (ja) | 音声認識方式 | |
RU2271578C2 (ru) | Способ распознавания речевых команд управления | |
JP3315565B2 (ja) | 音声認識装置 | |
JPH11338488A (ja) | 音声合成装置及び音声合成方法 | |
JP3071841B2 (ja) | カテゴリー識別方式 | |
JPH11212587A (ja) | 音声認識における雑音適応方法 | |
JP3448371B2 (ja) | Hmmの学習装置 | |
JP3412798B2 (ja) | 合成音声生成方法及び装置 | |
JPH07210192A (ja) | 出力データ制御方法及び装置 | |
JPS58201416A (ja) | デイジタルフイルタ | |
JPH1020882A (ja) | 音声認識装置および標準パターン登録方法 | |
KR950009332B1 (ko) | 음성인식시스템의 최대거리벡터분리를 이용한 벡터양자화코드북 설계방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |