JPH0229700A - 音声パターン照合方式 - Google Patents
音声パターン照合方式Info
- Publication number
- JPH0229700A JPH0229700A JP63179832A JP17983288A JPH0229700A JP H0229700 A JPH0229700 A JP H0229700A JP 63179832 A JP63179832 A JP 63179832A JP 17983288 A JP17983288 A JP 17983288A JP H0229700 A JPH0229700 A JP H0229700A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- contraction
- linear expansion
- feature quantity
- section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008602 contraction Effects 0.000 claims abstract description 26
- 238000000034 method Methods 0.000 claims description 17
- 238000005070 sampling Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 6
- 238000007781 pre-processing Methods 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
伎宜分災
本発明は、音声認識におけるパターン照合方式%式%
従来、音声認識における非線形伸縮法としてDPマツチ
ング方式があるが、これは演算量が大きいため、簡易な
方式では線形伸縮を用いる。しかしながら、線形伸縮は
マツチングパスが一意に決定されるためその精度が悪く
なる。そのため、例えばB T S P (B 1na
ry T 1ae−S pectrum Patter
n)方式などでは無音区間に着目した部分線形伸縮を導
入し、より精度を向上させようとしている(室井他:電
子通信学会誌 Vol−J 69− A No。
ング方式があるが、これは演算量が大きいため、簡易な
方式では線形伸縮を用いる。しかしながら、線形伸縮は
マツチングパスが一意に決定されるためその精度が悪く
なる。そのため、例えばB T S P (B 1na
ry T 1ae−S pectrum Patter
n)方式などでは無音区間に着目した部分線形伸縮を導
入し、より精度を向上させようとしている(室井他:電
子通信学会誌 Vol−J 69− A No。
1 1986、Jan r部分的な線形伸縮と荷重平均
辞書を用いる方法」)、シかしながら1水力式は無音区
間によって形成される有音ブロックに基いており、無音
区間が存在しない場合は無効となり、又、存在しても有
音ブロックが長い場合、さほど照合に寄与しない場合が
多々存在する。
辞書を用いる方法」)、シかしながら1水力式は無音区
間によって形成される有音ブロックに基いており、無音
区間が存在しない場合は無効となり、又、存在しても有
音ブロックが長い場合、さほど照合に寄与しない場合が
多々存在する。
第3図は、−船釣な特定話者方式の音声認識装置の構成
を説明するための図で、図中、1はマイクロフォン、2
は前処理部、3は特徴抽出部、4は登録部、5は音声区
間検出部、6は認識部、7は辞書メモリ、8は結果出力
部で、マイクロフォン1より入力された音声を前処理部
2でレベル補正などを行ったあと、特徴抽出部3におい
て例えばパワースペクトルやLPGケプストラムなどの
特徴量を抽出し、それを音声区間検出部5によって得ら
れた音声区間信号に基いてパターン照合を行う、このパ
ターンは登録時には単一発声又は数回の発声の特徴サン
プルを音声辞書として辞書メモリ7に登録され、認識時
に認識部6において入カバターンとパターン照合を行っ
て認識結果8を求める。これらの登録時、認識演算は先
述した様にシステムの簡素化を計るために線形伸縮が用
いられている場合があり、この場合、第4図に示す様に
マツチングパスAは始点Bと終点Cを一本の直線で結ぶ
事になる。この様に線形伸縮を用いた場合、−意に音声
の始点と終点を結ぶため、−単語内の時間的変動に対し
て比較的吸収できない。
を説明するための図で、図中、1はマイクロフォン、2
は前処理部、3は特徴抽出部、4は登録部、5は音声区
間検出部、6は認識部、7は辞書メモリ、8は結果出力
部で、マイクロフォン1より入力された音声を前処理部
2でレベル補正などを行ったあと、特徴抽出部3におい
て例えばパワースペクトルやLPGケプストラムなどの
特徴量を抽出し、それを音声区間検出部5によって得ら
れた音声区間信号に基いてパターン照合を行う、このパ
ターンは登録時には単一発声又は数回の発声の特徴サン
プルを音声辞書として辞書メモリ7に登録され、認識時
に認識部6において入カバターンとパターン照合を行っ
て認識結果8を求める。これらの登録時、認識演算は先
述した様にシステムの簡素化を計るために線形伸縮が用
いられている場合があり、この場合、第4図に示す様に
マツチングパスAは始点Bと終点Cを一本の直線で結ぶ
事になる。この様に線形伸縮を用いた場合、−意に音声
の始点と終点を結ぶため、−単語内の時間的変動に対し
て比較的吸収できない。
この点に鑑みてより正確にその時間変動を吸収するため
に導入されているのが無音区間に基いた部分線形伸縮法
で、第5図に示す様に、音声の音声区間信号に基いて検
出された入力の有音ブロックIB0.IBよとあらかじ
め登録もしくは記憶されている辞書データのDB、、D
B、と図に示す様に対応するブロック間IB0eDB、
、IB工0DB0で部分線形伸縮を行い、パターン照合
する事により、より正確に照合演算を行うものである。
に導入されているのが無音区間に基いた部分線形伸縮法
で、第5図に示す様に、音声の音声区間信号に基いて検
出された入力の有音ブロックIB0.IBよとあらかじ
め登録もしくは記憶されている辞書データのDB、、D
B、と図に示す様に対応するブロック間IB0eDB、
、IB工0DB0で部分線形伸縮を行い、パターン照合
する事により、より正確に照合演算を行うものである。
しかしながら、全ての単語に無音区間が存在している訳
ではなく、更に同じ有音区間内においても時間的変動を
有している事は周知の事実である。
ではなく、更に同じ有音区間内においても時間的変動を
有している事は周知の事実である。
且−一五
本発明は、上述のごとき実情に鑑みてなされたもので、
線形伸縮を用いる音声パターン照合方式において、より
正確にパターン照合を行う事を目的としてなされたもの
である。
線形伸縮を用いる音声パターン照合方式において、より
正確にパターン照合を行う事を目的としてなされたもの
である。
盈−一双
本発明は、上記目的を達成するために、音声波形からあ
るサンプル周期で音声の特徴量を得る手段と、その特徴
量又は別の特徴量からその音声の音声区間を生成する手
段を具備し、その得られた一発声による特徴パターン列
と他発声による特徴パターン列を音声の始端、終端によ
り線型に伸縮する手段と、その伸縮に基いて照合する手
段を有し、更に、一発声内に無音区間が存在する場合、
その無音区間に着目し、それぞれの有音区間同志をパタ
ーン照合する部分線形伸縮を有するパターン照合方式に
おいて、無音区間に基づく・有音区間内の第2の特徴量
を節として、線形伸縮を行う事を特徴としたものである
。以下1本発明の実施例に基いて説明する。
るサンプル周期で音声の特徴量を得る手段と、その特徴
量又は別の特徴量からその音声の音声区間を生成する手
段を具備し、その得られた一発声による特徴パターン列
と他発声による特徴パターン列を音声の始端、終端によ
り線型に伸縮する手段と、その伸縮に基いて照合する手
段を有し、更に、一発声内に無音区間が存在する場合、
その無音区間に着目し、それぞれの有音区間同志をパタ
ーン照合する部分線形伸縮を有するパターン照合方式に
おいて、無音区間に基づく・有音区間内の第2の特徴量
を節として、線形伸縮を行う事を特徴としたものである
。以下1本発明の実施例に基いて説明する。
第1図は、本発明の一実施例を説明するための構成図で
、図中、11はマイクロフォン、12は前処理部、13
は特徴抽出部、14は人カバターン生成部、15は部分
線形伸縮部、16は音声区間抽・山部、17は辞書メモ
リ、18はパターン照合部、19は類似度演算部、20
は結果出力部で、本発明は、上記従来技術の欠点に対し
て、無音区間に基く有音区間内に更に第2の特徴量を用
いて、それに基いて、さらに細い部分線形伸縮を行うこ
とによりより正確にパターン照合を行なわせるようにし
たものである。
、図中、11はマイクロフォン、12は前処理部、13
は特徴抽出部、14は人カバターン生成部、15は部分
線形伸縮部、16は音声区間抽・山部、17は辞書メモ
リ、18はパターン照合部、19は類似度演算部、20
は結果出力部で、本発明は、上記従来技術の欠点に対し
て、無音区間に基く有音区間内に更に第2の特徴量を用
いて、それに基いて、さらに細い部分線形伸縮を行うこ
とによりより正確にパターン照合を行なわせるようにし
たものである。
今、第2図に示す様な入力と辞書のパターン照合を行う
場合、先述の方式において示した様にIB、MDB、、
IB工4+DB、の部分線形伸縮−を行うが、本発明に
おいては、この部分線形内、に更に第2の特徴量を用い
、そのブロックを分割する。
場合、先述の方式において示した様にIB、MDB、、
IB工4+DB、の部分線形伸縮−を行うが、本発明に
おいては、この部分線形内、に更に第2の特徴量を用い
、そのブロックを分割する。
例えば、第2図に示す様に、無音区間Sが存在する場合
、その音声パワーを見て行くときに必ずパワーの最高点
Pが存在する。このパワーのピーク点を節として更に細
い部分線形伸縮を行う、つまり日本語などの場合、はと
んどの単語がCv(子音母音)の連絡でできており、そ
の母音の部分がピーク点となる。従って、2つのパター
ン間の照合を行う際に無音区間と、このパワーピーク点
を節として行えば更に細かいパターン照合を行う事が可
能となる。
、その音声パワーを見て行くときに必ずパワーの最高点
Pが存在する。このパワーのピーク点を節として更に細
い部分線形伸縮を行う、つまり日本語などの場合、はと
んどの単語がCv(子音母音)の連絡でできており、そ
の母音の部分がピーク点となる。従って、2つのパター
ン間の照合を行う際に無音区間と、このパワーピーク点
を節として行えば更に細かいパターン照合を行う事が可
能となる。
なお1以上においては例としてパワー包絡信号を用いた
が、もちろん、その他の有効な特徴量でも問題はない。
が、もちろん、その他の有効な特徴量でも問題はない。
仇−一来
以上の説明から明らかなように、本発明によると、従来
の無音区間に基づいた部分線形伸縮に対し、更に細かな
線形伸縮を導入し、より正確なパターン照合を行う事が
可能となった。
の無音区間に基づいた部分線形伸縮に対し、更に細かな
線形伸縮を導入し、より正確なパターン照合を行う事が
可能となった。
第1図は、本発明の一実施例を説明するための構成図、
第2図は、本発明の動作説明をするためのタイムチャー
ト、第3図は、−船釣な特定話者方式の音声認識装置の
一例を説明するための構成図、第4図及び第5図は、そ
の動作説明をするための図である。 11・・・マイクロフォン、12・・・前処理部、13
・・・特徴抽出部、14・・・入カバターン生成部、1
5・・・部分線形伸縮部、16・・・音声区間抽出部、
17・・・辞書メモリ、18・・・パターン照合部、1
9・・・類似度演算部、20・・・結果出力部。
第2図は、本発明の動作説明をするためのタイムチャー
ト、第3図は、−船釣な特定話者方式の音声認識装置の
一例を説明するための構成図、第4図及び第5図は、そ
の動作説明をするための図である。 11・・・マイクロフォン、12・・・前処理部、13
・・・特徴抽出部、14・・・入カバターン生成部、1
5・・・部分線形伸縮部、16・・・音声区間抽出部、
17・・・辞書メモリ、18・・・パターン照合部、1
9・・・類似度演算部、20・・・結果出力部。
Claims (1)
- 1、音声波形からあるサンプル周期で音声の特徴量を得
る手段と、その特徴量又は別の特徴量からその音声の音
声区間を生成する手段を具備し、その得られた一発声に
よる特徴パターン列と他発声による特徴パターン列を音
声の始端、終端により線型に伸縮する手段と、その伸縮
に基いて照合する手段を有し、更に、一発声内に無音区
間が存在する場合、その無音区間に着目し、それぞれの
有音区間同志をパターン照合する部分線形伸縮を有する
パターン照合方式において、無音区間に基づく有音区間
内の第2の特徴量を節として、線形伸縮を行う事を特徴
とする音声パターン照合方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63179832A JPH0229700A (ja) | 1988-07-19 | 1988-07-19 | 音声パターン照合方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63179832A JPH0229700A (ja) | 1988-07-19 | 1988-07-19 | 音声パターン照合方式 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH0229700A true JPH0229700A (ja) | 1990-01-31 |
Family
ID=16072676
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP63179832A Pending JPH0229700A (ja) | 1988-07-19 | 1988-07-19 | 音声パターン照合方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0229700A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0696026A2 (en) | 1994-08-02 | 1996-02-07 | Nec Corporation | Speech coding device |
-
1988
- 1988-07-19 JP JP63179832A patent/JPH0229700A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0696026A2 (en) | 1994-08-02 | 1996-02-07 | Nec Corporation | Speech coding device |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US4783802A (en) | Learning system of dictionary for speech recognition | |
JPS62232691A (ja) | 音声認識装置 | |
JPH0229700A (ja) | 音声パターン照合方式 | |
JPS5936759B2 (ja) | 音声認識方法 | |
JPS6147999A (ja) | 音声認識装置 | |
KR100349341B1 (ko) | 유사단어 및 문장 인식시의 인식율 개선 방법 | |
JPH0419700A (ja) | 音声パターンマッチング方法 | |
JP2712586B2 (ja) | 単語音声認識装置用パターンマッチング方式 | |
JPS6195399A (ja) | 音声パターン照合方法 | |
JPH0554118B2 (ja) | ||
JPS59170894A (ja) | 音声区間の切り出し方式 | |
JPH0554678B2 (ja) | ||
JPS63798B2 (ja) | ||
JPS62217297A (ja) | 単語音声認識装置 | |
JPS59219800A (ja) | 音声パターン比較方法 | |
JPS62245295A (ja) | 特定話者音声認識装置 | |
JPS58111992A (ja) | 話者認識装置 | |
JPS6255699A (ja) | 音声認識装置 | |
JPH02183299A (ja) | 音声認識装置 | |
JPS6317498A (ja) | 単語音声認識方式 | |
JPS6329756B2 (ja) | ||
JPS61252595A (ja) | 音声認識処理方式 | |
JPH08110797A (ja) | パターンマッチング装置 | |
JPS60217399A (ja) | 音声認識方式 | |
JPH0682277B2 (ja) | パタンマツチング方式 |