JPH03245193A - 単語音声認識方式 - Google Patents
単語音声認識方式Info
- Publication number
- JPH03245193A JPH03245193A JP2041302A JP4130290A JPH03245193A JP H03245193 A JPH03245193 A JP H03245193A JP 2041302 A JP2041302 A JP 2041302A JP 4130290 A JP4130290 A JP 4130290A JP H03245193 A JPH03245193 A JP H03245193A
- Authority
- JP
- Japan
- Prior art keywords
- section
- word
- speech
- word voice
- candidate section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims description 12
- 230000005236 sound signal Effects 0.000 claims description 2
- 238000001514 detection method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 239000013078 crystal Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
(産業上の利用分野)
本発明は、単語音声認識方式での環境雑音下における音
声区間の検出か困難な場合および認識対象単語に類似単
晶が含まれる場合の単語音声認識方式に関する。
声区間の検出か困難な場合および認識対象単語に類似単
晶が含まれる場合の単語音声認識方式に関する。
(従来の技術)
単語音声認識方式は、手入力による指示を行うことか難
しい荷物の仕訳作業等の運送分野などに広く利用されて
いる。また、単語音声認識装置として6周囲の環境に左
右されないすなわち周囲雑音等条件か変化しても、常に
高い正確さを以って単語音声を識別されねばならない。
しい荷物の仕訳作業等の運送分野などに広く利用されて
いる。また、単語音声認識装置として6周囲の環境に左
右されないすなわち周囲雑音等条件か変化しても、常に
高い正確さを以って単語音声を識別されねばならない。
しかしなから、従来の単語音声認識方式では、入力され
た音声信号の中から単語音声の始端と終端を固定的に発
見してこの区間の音声信号の特徴とあらかじめシステム
に記憶されている各単語毎の標準パターンとの間て動的
計画法(DP)によりもっと6距離が小さくなるような
対応付けを行っている。更に、このようにしてすべての
単語の標準パターンとの距離を求め、距離が最小の単語
を認識結果としている。
た音声信号の中から単語音声の始端と終端を固定的に発
見してこの区間の音声信号の特徴とあらかじめシステム
に記憶されている各単語毎の標準パターンとの間て動的
計画法(DP)によりもっと6距離が小さくなるような
対応付けを行っている。更に、このようにしてすべての
単語の標準パターンとの距離を求め、距離が最小の単語
を認識結果としている。
(発明が解決しようとする課M)
上述の従来技術においては、単語音声の始端と終端を決
定せねばならないか、環境雑音がある場合や、1話回線
経由の場合など音声信号と背景雑音の弁別が困難な場合
が数多く見られ、かつ環境雑音・背景雑音の特性は必ず
しも一定てはなく大きく変動することがしばしば発生す
る。このため、従来用いられている短時間平均エネルギ
ーと零交差数を組み合わせた音声検出方式では正確に音
声区間を検出することは困難であり、その結果誤った音
声区間と標準パターンとの間でDPマッチンクを行なっ
てしまい、発声単語を誤認識することが発生する。
定せねばならないか、環境雑音がある場合や、1話回線
経由の場合など音声信号と背景雑音の弁別が困難な場合
が数多く見られ、かつ環境雑音・背景雑音の特性は必ず
しも一定てはなく大きく変動することがしばしば発生す
る。このため、従来用いられている短時間平均エネルギ
ーと零交差数を組み合わせた音声検出方式では正確に音
声区間を検出することは困難であり、その結果誤った音
声区間と標準パターンとの間でDPマッチンクを行なっ
てしまい、発声単語を誤認識することが発生する。
本発明はこのような従来の課題を解決するものであり、
様々な環境下で6従来よりも単語音声を高い確率で認識
てきる単語音声認識方式を提供することを目的とする。
様々な環境下で6従来よりも単語音声を高い確率で認識
てきる単語音声認識方式を提供することを目的とする。
(課題を解決するための手段)
本発明はこのような従来の課題を解決する6のてあり、
様々な環境下でも従来よりも単語音声を高い確率で認識
できることを特徴とする単語音声認識方式である。
様々な環境下でも従来よりも単語音声を高い確率で認識
できることを特徴とする単語音声認識方式である。
本発明は、音声信号から単語音声を検出する際に音声の
エネルギー関数と零交差数の関係から単語音声の区間で
あろうと思われる区間をある幅をもって求め、その前後
に含まれる単語音声区間として不確かな区間を始端候補
区間と終端候補区間とし、 始端候補区間の任意の1点を始端とし終端候補区間の任
意の1点を終端とするすべての始端から終端までの単語
音声の区間絹み合わせ中の特徴パラメータの系列と、単
語音声標準パターンとを比較し距離を求め、 最も路側の小さい標準パターンの種別により音声単語を
識別する ことを特徴とする単語音声認識方式である。
エネルギー関数と零交差数の関係から単語音声の区間で
あろうと思われる区間をある幅をもって求め、その前後
に含まれる単語音声区間として不確かな区間を始端候補
区間と終端候補区間とし、 始端候補区間の任意の1点を始端とし終端候補区間の任
意の1点を終端とするすべての始端から終端までの単語
音声の区間絹み合わせ中の特徴パラメータの系列と、単
語音声標準パターンとを比較し距離を求め、 最も路側の小さい標準パターンの種別により音声単語を
識別する ことを特徴とする単語音声認識方式である。
(実施例)
本発明の実施例を第1図を以って説明する。
音響分析部1は入力された音声信号を短時間(本実施例
では10m5程度)毎に音響分析して特徴パラメータの
系列に変換するための手段である。
では10m5程度)毎に音響分析して特徴パラメータの
系列に変換するための手段である。
単語音声検出部2は特徴パラメータの系列から単語音声
の始端候補区間と終端候補区間を求める手段である。
の始端候補区間と終端候補区間を求める手段である。
最適経路発見部3は始端候補と終端候補のすべての組み
合わせを標準パターンとマツチングし、かつ標準パター
ンと最も距離の小さい組み合わせを発見する手段である
。
合わせを標準パターンとマツチングし、かつ標準パター
ンと最も距離の小さい組み合わせを発見する手段である
。
m*パターン記憶部4はシステムに登録された各単語の
標準パターンを記憶する標準パターン記憶手段である。
標準パターンを記憶する標準パターン記憶手段である。
上述、音声検出部2、最適経路発見部3が本発明を適用
した部分である。
した部分である。
次に本実施例の動作について説明する。
音声入力は音響分析部1により特徴パラメータの系列に
変換し、その結果を出力する。
変換し、その結果を出力する。
単語音声検出部2ては音声入力の特徴パラメータから単
語音声の始端候補区間及び終端候補区間を求める。以下
、第2図により始端候補区間及び終端候補区間の決定方
法を説明する。なお、特徴パラメータは短時間平均エネ
ルギ、零交差数、および音声スペクトルて構成しである
。
語音声の始端候補区間及び終端候補区間を求める。以下
、第2図により始端候補区間及び終端候補区間の決定方
法を説明する。なお、特徴パラメータは短時間平均エネ
ルギ、零交差数、および音声スペクトルて構成しである
。
まず、特徴パラメータの中から短時間平均エネルギか閾
値E2を越えた時点P2を求める。また、P2より以前
て平均エネルキか閾値E1を最6近傍で越えた時点P1
を求める。なお、閾値E1と閾値E2の関係はEl<E
2である。
値E2を越えた時点P2を求める。また、P2より以前
て平均エネルキか閾値E1を最6近傍で越えた時点P1
を求める。なお、閾値E1と閾値E2の関係はEl<E
2である。
時点PIより以前の250m秒゛の区間について特徴パ
ラメータの中の零交差数が閾値Nより大になる時点の数
か3以上あれは、Plから最6違い時点て零交差数かN
より大となった時点POを求め、そうでない場合はPl
より以前のある時点(本実施例では250m秒)をPO
とする。このPOからP2を始端候補区間とする。終端
候補区間については逆方向に同一の論理を適用して求め
る。
ラメータの中の零交差数が閾値Nより大になる時点の数
か3以上あれは、Plから最6違い時点て零交差数かN
より大となった時点POを求め、そうでない場合はPl
より以前のある時点(本実施例では250m秒)をPO
とする。このPOからP2を始端候補区間とする。終端
候補区間については逆方向に同一の論理を適用して求め
る。
つまり、特徴パラメータでP2以降について次のように
解析する。
解析する。
特徴パラメータの中から短時間平均エネルギが閾値E2
を割り込んだ時点P3を求める。また、P3より以降で
平均エネルギか閾値E1を最も近傍で割り込んだ時点P
4を求める。時点P4より以降の250m秒の区間につ
いて特徴パラメータの中の零交差数が閾値Nより大にな
る時点の数が3以上あれば、P4より最も遠い時点で零
交差数がNより大となった時点P5を求め、そうでない
場合はP4よりある時間(本実施例では250m秒)以
降の時点をP5とする。このP3からP5を終端候補区
間とする。
を割り込んだ時点P3を求める。また、P3より以降で
平均エネルギか閾値E1を最も近傍で割り込んだ時点P
4を求める。時点P4より以降の250m秒の区間につ
いて特徴パラメータの中の零交差数が閾値Nより大にな
る時点の数が3以上あれば、P4より最も遠い時点で零
交差数がNより大となった時点P5を求め、そうでない
場合はP4よりある時間(本実施例では250m秒)以
降の時点をP5とする。このP3からP5を終端候補区
間とする。
最適経路発見部3ては標準パターン記憶部4に記憶され
ている各単語の標準パターンと単語音声検出部2から得
られた単語音声の特徴パラメータとの間て、第3図に示
すような始端候補区間内に両者をマツチングさせる際の
始点があり、終端候補区間内に終点かある様なすべての
対応付けの中から、両者の距離か最小となる対応付けを
発見する。具体的には連続DPマツチング等の動的計画
法に基づく手法を適用する。
ている各単語の標準パターンと単語音声検出部2から得
られた単語音声の特徴パラメータとの間て、第3図に示
すような始端候補区間内に両者をマツチングさせる際の
始点があり、終端候補区間内に終点かある様なすべての
対応付けの中から、両者の距離か最小となる対応付けを
発見する。具体的には連続DPマツチング等の動的計画
法に基づく手法を適用する。
この様にして標準パターンとして登録しであるすべての
単語に対する最小距離を求めて、この中で最も小さい距
離を与える単語を認識結果として出力する。
単語に対する最小距離を求めて、この中で最も小さい距
離を与える単語を認識結果として出力する。
(発明の効果)
本発明は上記実施例より明らかなように、入力された単
語音声から始端候補区間と終端候補区間とを検出し、こ
の区間内に始端及び終端を有する様な標準パターンとの
最良のマツチングを与える組み合わせを発見することに
より、従来方式では雑音などの影響により単語音声の始
端及び終端の検出が困難な場合に対しても、適切な単語
音声区間と標準パターンとのマツチングが可能となり、
広範な環境下で正確な音声認識か行なえるという効果を
有する。
語音声から始端候補区間と終端候補区間とを検出し、こ
の区間内に始端及び終端を有する様な標準パターンとの
最良のマツチングを与える組み合わせを発見することに
より、従来方式では雑音などの影響により単語音声の始
端及び終端の検出が困難な場合に対しても、適切な単語
音声区間と標準パターンとのマツチングが可能となり、
広範な環境下で正確な音声認識か行なえるという効果を
有する。
第1図は本発明の実施例における単語音声認識装置のブ
ロック図、 第2図は始端候補区間および終端候補区間の検出方法の
説明図、 第3図は単語音声と標準パターンのマツチング経路に関
する説明図である。 1・・・音響分析部、2・・・単語音声検出部、3・・
・ 最適経路発見部、 4・・・ 標準パターン記憶部。
ロック図、 第2図は始端候補区間および終端候補区間の検出方法の
説明図、 第3図は単語音声と標準パターンのマツチング経路に関
する説明図である。 1・・・音響分析部、2・・・単語音声検出部、3・・
・ 最適経路発見部、 4・・・ 標準パターン記憶部。
Claims (1)
- 【特許請求の範囲】 入力された音声信号を音響分析し、あらかじめ記録さ
れている各々の単語音声の標準パターンとの間で距離が
最小となる対応付けを見いだし、その中で得られた距離
が最小の単語を認識結果とする単語音声認識方式におい
て、 音声信号から単語音声を検出する際に音声のエネルギー
関数と零交差数の関係から単語音声の区間をある幅をも
って求め、その前後に含まれる単語音声区間として不確
かな区間を始端候補区間と終端候補区間とし、 始端候補区間の任意の1点を始端とし終端候補区間の任
意の1点を終端とするすべての始端から終端までの単語
音声の区間組み合わせ中の特長パラメータの系列と、単
語音声標準パターンとを比較し距離を求め、 最も距離が小さい標準パターンとの種別により音声単語
を識別することを特徴とする単語音声認識方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2041302A JPH03245193A (ja) | 1990-02-23 | 1990-02-23 | 単語音声認識方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2041302A JPH03245193A (ja) | 1990-02-23 | 1990-02-23 | 単語音声認識方式 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH03245193A true JPH03245193A (ja) | 1991-10-31 |
Family
ID=12604682
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2041302A Pending JPH03245193A (ja) | 1990-02-23 | 1990-02-23 | 単語音声認識方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH03245193A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100396748B1 (ko) * | 1996-12-23 | 2003-11-28 | 엘지전자 주식회사 | 유음구간추출처리장치및방법 |
-
1990
- 1990-02-23 JP JP2041302A patent/JPH03245193A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100396748B1 (ko) * | 1996-12-23 | 2003-11-28 | 엘지전자 주식회사 | 유음구간추출처리장치및방법 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220343895A1 (en) | User-defined keyword spotting | |
JP2019053165A (ja) | 音声認識装置 | |
JPH04255900A (ja) | 音声認識装置 | |
JP3069531B2 (ja) | 音声認識方法 | |
EP0614169B1 (en) | Voice signal processing device | |
JPH03245193A (ja) | 単語音声認識方式 | |
KR100504982B1 (ko) | 환경 적응형 다중 음성인식 장치 및 음성인식 방법 | |
KR100940641B1 (ko) | 음소레벨 로그우도 비율 분포와 음소 지속시간 분포에 의한단어음색 모델 기반 발화검증 시스템 및 방법 | |
JPH04369698A (ja) | 音声認識方式 | |
Kepuska et al. | Wake-up-word speech recognition application for first responder communication enhancement | |
KR20010091093A (ko) | 음성 인식 및 끝점 검출방법 | |
JP2006010739A (ja) | 音声認識装置 | |
JP3031081B2 (ja) | 音声認識装置 | |
JP2666296B2 (ja) | 音声認識装置 | |
Fink et al. | Integrating speaker identification and learning with adaptive speech recognition | |
JP3357752B2 (ja) | パターンマッチング装置 | |
JPH0950292A (ja) | 音声認識装置 | |
JPH05210396A (ja) | 音声認識装置 | |
JPH08146996A (ja) | 音声認識装置 | |
JP2001034291A (ja) | 音声認識装置 | |
JPS61260299A (ja) | 音声認識装置 | |
JPS59170894A (ja) | 音声区間の切り出し方式 | |
JP2547541B2 (ja) | 単音節音声認識装置 | |
JPH03245194A (ja) | 単語音声認識方式 | |
van den Bosch et al. | Automatic detection of problematic turns in human-machine interactions |