JPH0469959B2 - - Google Patents

Info

Publication number
JPH0469959B2
JPH0469959B2 JP61108676A JP10867686A JPH0469959B2 JP H0469959 B2 JPH0469959 B2 JP H0469959B2 JP 61108676 A JP61108676 A JP 61108676A JP 10867686 A JP10867686 A JP 10867686A JP H0469959 B2 JPH0469959 B2 JP H0469959B2
Authority
JP
Japan
Prior art keywords
word
pattern
speech
pseudo
standard pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP61108676A
Other languages
English (en)
Other versions
JPS62265699A (ja
Inventor
Takayuki Fujimoto
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP61108676A priority Critical patent/JPS62265699A/ja
Publication of JPS62265699A publication Critical patent/JPS62265699A/ja
Publication of JPH0469959B2 publication Critical patent/JPH0469959B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 〔概要〕 認識対象入力単語音声パターンを単音節標準パ
ターンから作成された擬似単語標準パターンと照
合する単語音声認識装置において、照合時の各経
路が、認識対象入力単語音声パターン中の各音声
区間の各区分点に対応する擬似単語標準パターン
中の各単音節連結点に基づいて選定される特定の
点を通る様にする。これにより、認識率を向上さ
せると共に、処理量を低減させることが出来る。
〔産業上の利用分野〕
本発明は、単語音声を認識する単語音声認識装
置、特に、未知入力単語音声パターンを単音節標
準パターンから作成された擬似単語標準パターン
と照合して入力単語音声を認識する単語音声認識
装置において、照合時の経路の通過点に制限を付
けることにより、認識率を向上させると共に処理
量を低減させる様に改良した単語音声認識装置に
関する。
未知入力単語音声を認識する場合、入力単語音
声から作成された入力単語音声パターンを予め登
録されている単語標準パターンと照合する認識方
式が多く用いられている。
この単語音声認識方法において単語標準パター
ンを登録する場合、実際に発声された単語音声よ
り作成された単語標準パターンを用いる方式と、
予め登録されている単音節標準パターンを連結し
て作成された擬似単語標準パターンを用いる方式
がある。
前者の単語標準パターンを用いる方式は、認識
率は良好であるが、認識対象となる単語の数だけ
単語標準パターンを登録する必要がある為、認識
単語数が増加すると、登録作業に多くの手間と時
間が掛り、且つ、認識対象となる単語群のカテゴ
リが変更されると、再び登録をやり直さねばなら
ないという不都合がある。
これに対し、後者の擬似単語標準パターンを用
いる方式は、認識率の点では前者の方式より一般
的に劣るが、約100種類程の単音節標準パターン
を登録するだけで、任意の擬似単語標準パターン
を作成することが可能であり、認識対象となる単
語群のカテゴリが変更になつても再登録する必要
がないので、登録作業が簡単で済む利点がある。
なお、各単語は音節(シラブル)から成り立
ち、音節は音素から成り立つている。音素は音声
の最小基本単位で、母音と子音がある。各音節
は、通常1個の母音と1ないし2個の子音が結合
して形成され、日本語の場合、約100種の音節が
ある。
本発明は、後者の擬似単語標準パターンを用い
る単語音声認識方式に関する。
〔従来の技術〕
第8図は、従来の単音節標準パターンから作成
された擬似単語標準パターンによる単語音声認識
方式の基本構成をブロツク図で示したものであ
る。
第8図において、未知の入力単語音声が図示し
ないマイクロホンから入力されると、音声分析部
210は、入力単語音声の特徴を表すパラメタや
各音節の区間検出等を行つて音節対応の入力単語
音声パターンを作成し、単語認識部220に入力
する。
一方、単音節標準パターン辞書230には、各
単音節標準パターンが予め登録されており、認識
対象となる単語群のカテゴリが決ると、単音節標
準パターン辞書230から単音節標準パターンを
取り出して連結することにより、認識対象カテゴ
リに属する各単語に対応する擬似単語標準パター
ンが作成され、擬似単語標準パターン辞書240
に格納される。
単語認識部220は、音声分析部210より入
力された入力単語音声パターンを擬似単語標準パ
ターン辞書240中の各擬似単語標準パターンと
照合し、距離の最も小さい擬似単語標準パターン
の単語を認識単語とする。
単語認識部220における、前述の単語認識処
理は、DP法(Dynamic programming
natching)によつて行われる。
第9図aは、単語認識部220において行われ
るDPマツチング方式を示したもので、横軸は入
力単語音声パターンであり、縦軸は単音節標準パ
ターンを連結して作成された擬似単語標準パター
ンである。
いま、単語音声“イシカワ(石川);i ∫i ka
wa”が入力され、擬似単語標準パターン“イシ
カワ(i ∫i ka wa)”とマツチングしたとき、
そのDPパスは、図示の様に始端PからQ′,R′,
S′の各点を通り終端Tに終る経路をとる。
このDPパスは、入力単語音声パターンにおけ
る“イ(i)”、“シ(∫i)”及びカワ(ka wa)”が、
擬似単語標準パターンの“イ((i))”、“シ(∫i)”
及び“カワ(ka wa)”に正しくマツチングした
ときのDPパス、即ちP,Q,R,S及びTの各
点を通る正しいDPパスからずれたものとなつて
いる。この為、認識率が低下するという問題が生
じる。
DPパスが正しい経路からずれる原因の1つと
して、入力単語音声パターン中には無音区間(第
9図aでは、“シ(∫i)”と“カワ(ka wa)”の
間の区間)が存在するのに対し、擬似単語標準パ
ターンには、一般にこの様な無音区間が存在しな
いことが挙げられる。即ち、無音区間を含んだ入
力単語音声パターンと無音区間を含まない擬似単
語標準パターンとを照合する際、無理なDP等の
非線形伸縮を行つて対応付ける為、マツチング時
のDPパスが、第9図aに示す様に、正しいDPパ
スからずれたものとなる。
この問題を解決する為に、同じ出願人は、入力
単語音声パターンより無音区間パターンを除去
し、各有音区間パターンを詰めて作成された圧縮
単語音声パターンを用いて擬似単語標準パターン
と照合させる単語音声認識方式を提案した(この
単語音声認識方式については、本発明の実施例の
説明の中で合わせて説明する)。
この様な圧縮単語音声パターンを用いて擬似単
語標準パターンと照合すると、無音区間が存在し
ないことから、R,R′,S,S′の4点が共通とな
ることが許され良好な照合が行われ、認識率を向
上させることが出来る。
然しながら、無音区間の両側の有音区間パター
ンの影響等により第9図bに示す様に、マツチン
グ時のDPパスは、正しい経路点Rsからずれた
R′s点を通ることが許されており、誤認識の原因
となる。
又、マツチング時のDPパスが正しいRs点を通
つた場合でも、“イ((i))”及び“シ(∫i)”のDP
パスは変らないので、第9図aの様に、そのDP
パスが正しい経路点QからずれたQ′を通る場合
には、圧縮単語音声パターンを用いた場合も、第
4図bに示す様に、DPパスはQ′点を通ることに
なる。
〔発明が解決しようとする問題点〕
従来の入力単語音声パターンを単音節標準パタ
ーンから作成された擬似単語標準パターンと照合
する単語音声認識方式は、前述の様に、マツチン
グ時のDPパスが正しいパスからずれたものとな
つて正しい照合が行われない為に、認識率が低下
するという問題があつた。
本発明は、入力単語音声パターンを単音節標準
パターンから作成された擬似単語標準パターンと
照合して入力単語音声を認識する単語音声認識装
置において、マツチング時のDPパスとして、音
声学上不自然なパスを許さない様にすることによ
り認識率を向上させると共に処理量を低減させる
様にした単語音声認識装置を提供することを目的
とする。
〔問題点を解決するための手段〕
従来の入力単語音声パターンを単音節標準パタ
ーンから作成された擬似単語標準パターンと照合
する単語音声認識方式においては、マツチング時
のDPパスが正しいDPパスからずれる現象が生じ
るが、それは、DPパスが入力単語音声パターン
中の各音節区分点に対応する擬似単語標準パター
ン中の各音節連結点を通ることが、従来のDPマ
ツチング方式においては何等保証されていないこ
とに原因がある。即ち、従来のDPマツチング方
式では、始端と終端は保証されているが、その途
中においてDPパスが或る特定の点を通ることは
何ら保証されていない。このことは、圧縮単語音
声パターンを用いた場合も同様である。
本発明は、この点に着目し、DPパスが認識対
象となる入力単語音声パターン(圧縮単語音声パ
ターンである場合も含む)中の各音声区間の区分
点に対応する擬似単語標準パターン中の各音節連
結点を通る様に条件付けて、認識対象入力単語音
声パターンと擬似単語標準パターンとの照合を行
わせる様にしたものである。
以下、従来の単語音声認識方式における前述の
問題点を解決する為に本発明が講じた手段を、第
1図を参照して説明する。
第1図は、本発明の基本構成をブロツク図で示
したものである。
第1図において、110は認識用音声区間検出
手段で、入力単語音声パターンから各音声区間の
区分点の検出及び認識対象となる単語音声パター
ン、即ち、認識対象入力単語音声パターンの作成
を行う。
120は、擬似単語標準パターン作成手段で、
各単音節標準パターンより認識対象となるカテゴ
リの単語群に属する各単語の擬似単語標準パター
ンを作成する。
130は照合経路通過点選定手段で、認識用音
声区間検出手段110により検出された認識対象
入力単語音声パターン中の各音声区間パターンの
先頭フレームと各単音節標準パターンの先頭フレ
ームによつて選出される候補点中から照合経路通
過点として選定する。
140は単語認識手段で、照合経路通過点選定
手段130によつて選定された照合経路通過点を
通る経路により認識対象単語音声パターンと各擬
似単語標準パターンとを照合して単語認識を行
う。
〔作用〕
入力単語音声から作成された入力単語音声パタ
ーンが入力されると、認識用音声区間検出部11
0は、入力単語音声パターンから各音声区間の区
分点を検出すると共に、認識対象となる認識対象
入力単語音声パターンを作成する。この認識対象
入力単語音声パターンには、入力単語音声パター
ンより無音区間パターンを除去し、各有音区間パ
ターンを詰めて作成された圧縮単語音声パターン
も含まれるものである。又、各音声区間は、通常
1個の音節で形成されるが、複数個の音節を含む
場合もある。
一方、擬似単語標準パターン作成手段120に
は、各単音節標準パターンより認識対象となるカ
テゴリの単語群に属する各単語の擬似単語標準パ
ターンが、予め作成されている。
照合経路通過点選定手段130は、認識用音声
区間検出手段110により検出された認識対象入
力単語音声パターン中の各音声区間パターンの先
頭フレームと各単音節標準パターンの先頭フレー
ムによつて選出される候補点中から照合経路通過
点として選定する。
これにより、照合時の各経路は、認識対象単語
音声パターン中の各音声区間の区分点に対応する
擬似単語標準パターン中の各単音節連結点に基づ
いて選定された特定の点を通る様に条件付けられ
る。
単語認識手段140は、照合経路通過点選定手
段130によつて選定された照合経路通過点を通
る経路により認識対象単語音声パターンと各擬似
単語標準パターンとを照合して単語認識を行う。
以上のようにすることにより、認識対象単語音
声パターンを各擬似単語標準パターンと照合する
ときの各経路は、認識対象入力単語音声パターン
中の各音声区間パターンの先頭フレームと各単音
節標準パターンの先頭フレームによつて選出され
る候補点中から、特定の点を通る様に条件付けら
れるので、正しい照合が行われ、認識率を向上さ
せることが出来る。
又、各照合経路の共通の通過点が特定されるの
で、認識対象単語音声パターンを各擬似単語標準
パターンと照合する際の照合領域が削減され、照
合時の処理量を低減させることが出来る。
〔第1の発明の実施例〕 第1の発明の実施例を、第2図〜第5図を参照
して説明する。
第2図は本発明の一実施例の構成のブロツク説
明図、第3図は同実施例における区間検出方式の
説明図、第4図は同実施例における第1の照合経
路通過点選定方式の説明図、第5図は同実施例に
おけるDPマツチング方式の説明図である。
(A) 実施例の構成 第2図において、認識用音声区間検出手段1
10、擬似単語標準パターン作成手段120、
照合経路通過点選定手段130、単語認識手段
140については、第1図で説明した通りであ
る。
150はマイクロホンで、話者(図示せず)
の発声した単語音声又は単音節音声が入力され
る。
160はパラメタ抽出部で、マイクロホン1
50から入力された単語音声又は単音節音声の
特徴を表すパラメタを抽出して、入力単語音声
パターン又は入力単音節音声パターンを作成す
る。
170は切替え回路で、入力単語音声パター
ンと入力単音節音声パターンに応じた切替えを
行う。
認識用音声区間検出手段110において、1
11は、認識用音声区間検出部で、入力単語音
声パターンから各音声区間の区分点を検出する
と共に、認識対象となる認識対象入力単語音声
パターンを作成する。
112はパターン圧縮部で、認識用区間検出
部111から入力された各音声区間の区分点情
報及び認識対象入力単語音声パターンに基づい
て圧縮単語音声パターンを作成する。
擬似単語標準パターン作成手段120におい
て、121は登録用区間検出部で、登録用の単
音節音声パターンの区間検出を行つて単音節標
準パターンを作成する。
122は単音節標準パターン辞書で、作成さ
れた各単音節標準パターンが登録される。
123は単語辞書で、各単語の音節情報が格
納されている。
124は擬似単語標準パターン作成部で、単
語辞書123より認識対象となる単語群のカテ
ゴリに属する各単語を取り出し、各単語の音節
情報に基づいて単音節標準パターン辞書122
より所定の各単音節標準パターンを取り出し、
各単語毎の擬似単語標準パターンを作成する。
照合経路通過点選定手段130において、1
31はフレーム間距離計算部で、パターン圧縮
部112より入力された圧縮単語音声パターン
の各フレームと擬似単語標準パターン作成部1
24の作成した各擬似単語標準パターンの各フ
レームとのフレーム間距離を計算する。
132は、照合経路通過点選定部で、特定区
間におけるフレーム間距離を変更することによ
りDPパスが通る特定の点を選定する。
単語認識手段140において、141は累積
距離計算部で、認識対象入力単語音声パターン
(この実施例では圧縮単語音声パターン)と各
擬似単語音声パターン間の累積距離の計算を、
照合経路通過点選定部132によつて選定され
た特定の通過点を通るDPパスによつて計算す
る。
142は判定部で、累積距離計算部141に
よつて計算された各累積距離の中で最小値を与
える単語を認識単語とする。
(B) 実施例の動作 実施例の動作を、第2図〜第5図を参照し、
各動作に分けて説明する。
(B‐1) 登録動作 話者の発声した単語音声に対する認識処理
が行われる前に、単音節標準パターン辞書1
22には各単音節の標準パターンが登録さ
れ、更に、擬似単語標準パターンが作成され
る。
単音節標準パターン辞書122に各単音節
標準パターンを登録する場合は、切替え回路
170を登録用区間検出部121側に接続
し、マイクロホン150より単音節音声をパ
ラメタ抽出部160に入力する。
パラメタ抽出部160は、入力された単音
節音声の特徴を表すパラメタを抽出して、入
力単音節音声パターンSPを作成する。
作成された単音節音声パターンSPは、各
フレーム毎の特徴ベクトルの時系列であり、
各特徴ベクトルは、q個(例えば16個)の帯
域フイルタのパワースペクトルをq次のベク
トル量で表したものである。従つて、横軸に
時間tをとり、縦軸にパワーをとると、入力
単音節パターンSPは、第3図aに示す様な
パターンを形成する。
この入力単音節音声パターンSPに対し、
2種類の閾値h1及びh2を設ける。閾値h1は、
雑音レベルよりは高く、各入力単音節音声パ
ターンのパワーの最大値の中で最も低い値の
近傍に選定される。h2は雑音レベル、即ち無
音区間パターンのパワーレベルの最大値の近
傍に選定される。
登録用区間検出部121は、入力待ちにな
つてから、入力単音節音声パターンのパワー
が閾値h1を初めて越えたフレーム(f0)を探
し、このフレームf0から両側でパワーが閾値
h2以上である連続した区間(始端fs〜終端
fe)を単音節標準パターンの音声区間として
検出する(第3図a参照)。
これにより、雑音N1〜N3を除いた、始端
fsから終端fe間の入力単音節音声パターン部
分が登録用の単音節標準パターンとして抽出
されて、単音節標準パターン辞書122に登
録される。
認識対象となる単語群のカテゴリが決まる
と、擬似単語標準パターン作成部124は、
単語辞書123より認識対象となる単語群の
カテゴリに属する各単語を取り出し、各単語
の音節情報に基づいて単音節標準パターン辞
書122より所定の各単音節標準パターンを
取り出し、各単語毎の擬似単語標準パターン
を作成する。
(B‐2) 認識対象入力単語音声パターン作成動作
入力された単語音声パターンに対する認識処
理を行う場合は、切替え回路170を認識用
音声区間検出部111側に接続し、認識対象
入力単語音声パターンとしての圧縮単語音声
パターンの作成が行われる。
マイクロホン150より未知単語音声が入
力されると、前述の単音節標準パターンの登
録の場合と同様にして、パラメタ抽出部16
0は、入力単語音声パターンWPを作成して
認識用音声区間検出部111に入力する。
作成された入力単語音声パターンWPは、
入力単音節音声パターンと同様に、各フレー
ム毎の特徴ベクトルの時系列であり、各特徴
ベクトルはq個の帯域フイルタのパワースペ
クトルをq次のベクトル量で表したものであ
る。従つて、横軸に時間tをとり、縦軸にパ
ワーをとると、入力単語音声パターンWP
は、第3図bに示す様なパターンを形成す
る。
この入力単語音声パターンWPに対し、前
述の登録用区間検出部121の場合と同様な
閾値h1及びh2が設定される(第3図b参照)。
認識用音声区間検出部111は、入力待ち
になつてから、入力単語音声パターンWPの
パワーが閾値h1を初めて越えたフレーム
(f0)を探し、このフレームf0から両側でパ
ワーが閾値h2以上の区間(始端fs〜f1、f2
f3、f4〜fe)を探す。その際、閾値h2以下に
なる区間(f1〜f2、f3〜f4)が所定の長さLs
より小さいときは、無音区間として入力単語
音声パターンに含ませ、Lsを越えた場合
(例えばfo1〜fs、fe〜fo2)は、雑音として無
視する。Lsは、各単語音声中に含まれる各
無音区間中の最大値に基づいて選定される。
これにより、始端fsから終端fe間の入力単
語音声パターン部分が、認識対象となる入力
単語音声パターンとして抽出される。
認識用音声区間検出部111は、更に、こ
の認識対象入力単語音声パターンにおいて、
このパワーレベルが閾値h2以上である区間、
即ち有音区間(fs〜f1、f2〜f3、f4〜fe)と閾
値h2より低い区間、即ち無音区間(f1〜f2
(f3〜f4)及びその各区分点(fs〜fe)を検出
する(第3図b参照)。
パターン圧縮部112は、認識用音声区間
検出部111の検出した有音区間及び無音区
間情報に基づいて、圧縮対象となる入力単語
音声パターンより無音区間(f1〜f2、f3〜f4
のパターンを取り除き、各有音区間(fs〜
f1、f2〜f3、f4〜fe)の各パターンを詰めて、
圧縮単語音声パターンWPcを作成する。
以上の様に圧縮単語音声パターンWPcを
用いることにより、入力単語音声パターン中
に存在する無音区間パターンによる悪影響が
除去されて擬似単語標準パターンとの照合が
正しく行われ、入力単語音声の認識率を向上
させることが出来る。
なお、各音声区間の区分点は、前述のパワ
ーデイツプの存在によつて検出する方法の
他、パターン変動量のピークの存在によつて
検出する方法、公知の各種の方法によつて検
出することが出来る。
(B‐3) 照合経路通過点選定動作 第1の照合経路通過点選定方式による照合
経路通過点選定動作を、第4図を参照して説
明する。
フレーム間距離計算部131は、パターン
圧縮部112より入力された圧縮単語音声パ
ターンWPcの各フレームと擬似単語標準パ
ターン作成部124で作成した各擬似単語標
準パターンの各フレームとのフレーム間距離
を計算する。以下、圧縮単語音声パターン
WPcのiフレームと擬似単語標準パターン
のJフレームとのフレーム間距離をd(i、
j)で表すことにする。
照合経路通過点選定部132は、特定区間
におけるフレーム間距離を変更することによ
り、DPパスが通る特定の点を選定する。
第4図において、横軸は圧縮単語音声パタ
ーンWPcで、数字はそのフレーム番号を表
している。縦軸は擬似単語標準パターンで、
数字はそのフレーム数を表している。
圧縮単語音声パターンWPcとして“イシ
カワ(石川):i ∫i kawa”が例示されて
いる。この場合、“シ(∫i)”と“カワ
(kawa)”の間に存在していた無音区間パタ
ーンが除去されて圧縮され、“イ(i)”、“シ
(∫i)”及び“カワ(kawa)”の3音声パター
ンで形成される。フレーム6と7の境界点l1
が、“イ(i)”と“シ(∫i)”の区分点となり、
フレーム14と15の境界点l2が、“シ(∫i)”と
“カワ(kawa)”の区分点となつている“カ
(ka)”と“ワ(wa)”の間はパワーデイツ
プが少いので、区分点が検出されず、両者が
一体となつて一つの音声区間を形成してい
る。
縦軸には、“イ(i)”、“シ(∫i)”、“カ(ka)”
及び“ワ(wa)”の各端音節を連結した擬似
単語標準パターン“イシカワ(石川):i
∫i ka wa”が例示されている。この場合、
フレーム6と7の境界点C1が“イ(i)”と
“シ(∫i)”の連結点となり、フレーム12と13
の境界点C2が“シ(∫i)”と“カ(ka)”の
連結点となり、フレーム18と19の境界点C3
が“カ(ka)”と“ワ(wa)”の連結点とな
つている。
照合経路通過点選定部132は、認識用区
間検出部111より入力された各音声区間の
区分点情報に基づいて、フレーム間距離計算
部131で求められた圧縮単語音声パターン
WPcと擬似単語標準パターンの各フレーム
間距離d(i、j)の中、圧縮単語音声パタ
ーン中の各音声区間パターン(有音区間のパ
ターン)の先頭フレームと擬似単語標準パタ
ーンの各フレームとのフレーム間距離を、各
単音節標準パターンの先頭フレームを除き∞
に置換する。ここで、∞は、計算上表現し得
る最大値で、例えば、d(i、j)を2バイ
トで表現している場合は、“FFFF(16進)”
に置換する。
この置換処理により、第4図に示す様に、
圧縮単語音声パターンWPcの音声区間パタ
ーン“シ(∫i)”の先頭フレーム(フレーム
7)と擬似単語標準パターンの各フレームと
のフレーム間距離d(7、j)は、d(7、
7)、d(7、13)及びd(7、19)を除き
(即ち、j=1〜24、但し、j≠7、13、
19)、∞となる。
同様に、圧縮単語標準パターンWPcの音
声区間パターン“カワ(kawa)”の先端フ
レーム(フレーム15)と擬似単語標準パター
ンの各フレームとのフレーム間距離d(15、
j)は、d(15、7)、d(15、13)及びd
(15、19)を除き(即ち、j=1〜24、但し、
j≠7、13、19)、∞となる。
以上の様にすることにより、圧縮単語音声
パターンWPcの各音声区間の区分点l0〜l2
び擬似単語標準パターンの連結点C0〜C3
基づいて定まるlc00〜lc23が、照合経路通過
候補点として選定される。
DPパスの通過点は、照合時の時間伸縮率
や擬似単語標準パターンの特性等を考慮し
て、前述の照合経路通過候補点lc00〜lc23
全部又は任意の一部から適宜選定される。例
えば、時間伸縮率が図示のe1及びe2の範囲に
設定されたとすると、DPパスの通過点は、
lc11,lc12,lc22及びlc23に選定される。
以上の照合経路通過点選定処理が、他の擬
似単語標準パターンと圧縮単語音声パターン
WPcとの間で行われる。
(B‐4) 単語認識動作 累積距離計算部141は、照合経路通過点
選定部132より入力された圧縮単語音声パ
ターンの各フレームと各擬似単語標準パター
ンにおける各フレームとのフレーム間距離に
基づいて、圧縮単語音声パターンWPcと各
擬似単語標準パターン間の累積距離を計算す
る。
この累積距離計算は、公知のDP法によつ
て行われる。第4図において、各∞点を通る
DPパスによる累積距離は当然∞となるので、
実線で例示される様に、照合経路通過点選定
部132によつて選定された通過点lc11
lc12,lc22及びlc23を通るDPパスによる累積
距離が求められることになる。なお、DPパ
スは、一般には、非直線特性である。
判定部142は、累積距離計算部141に
よつて計算された各累積距離の中で最小値を
与える単語を認識単語とする。第4図の実施
例においては、明らかに始端Ts,lc11,lc22
及び終端Teを通るDPパスによる累積距離が
最小値を与えるので、正しい照合が行われ、
単語“イシカワ(石川)”が入力単語音声と
して誤りなく認識される。又、DPパス数が
削減されるので、照合時の処理量を低減させ
ることが出来る。このことは、次に説明する
他の実施例についても同様である。
第5図は、圧縮単語音声パターン“イシカ
ワ(i ∫i ka wa)”が擬似単語標準パター
ン“イシカワ(i ∫i ka wa)”とマツチン
グした状態及びそのときのDPパスを示した
ものである。
〔第2の発明の実施例〕 第2の発明の構成は第1の発明の構成と同じで
あり、照合経路通過点選定部132の動作のみが
異なるため、異なつた部分のみの説明を行う。
(C‐1) 第2の照合経路通過点選定方式 圧縮単語音声パターンの音声区間パターンの
語長(フレーム数)が単音節の語長に相当する
場合、その音声区間パターンが擬似単語標準パ
ターンの2個の単音節標準パターンの連結パタ
ーンとマツチングすると、誤つた認識が行われ
る。即ち、第4図において、lc11とl23を通る
DPパスは誤つたパスであり、この様なパスが
許されると、違う標準パターンWPcとの距離
が小さくなり誤つた認識結果を与える原因とな
る。
第2の方式は、この様な誤認識が生じない様
にする為に有効な照合経路通過点選定方式であ
り、第6図を参照して説明する。
第6図の横軸及びその圧縮単語音声パターン
WPc並びに縦軸及びその擬似単語標準パター
ンの内容は、第4図の場合と同じである。
照合経路通過点選定部132は、認識用区間
検出部111より入力された各音声区間の区分
点情報に基づいて、フレーム間距離計算部13
1で求められた圧縮単語音声パターンWPcと
擬似単語標準パターンの各フレーム間距離d
(i、j)の中、擬似単語標準パターン中の各
単音節標準パターンの先頭フレームと圧縮単語
音声パターンの各フレームとのフレーム間距離
を、各音声区間パターンの先頭フレームを除き
∞に置換する。
第6図には、擬似単語標準パターン中の単音
節標準パターン“カ(ka)”の先頭フレーム
(フレーム13)と圧縮単語音声パターンの各フ
レームとのフレーム間距離d(i、13)を、音
声区間パターン“イ(i)”、“シ(∫i)”及び“カ
ワ(kawa)”の先頭フレーム(フレーム17、
15)を除き(即ち、i=1〜26、i≠1、7、
15)∞にした場合が示されている。
これにより、DPパスは、lc12又はlc22を通る
ものに限定され、lc11とlc23の間を通るDPパス
は排除されることになる。この結果、圧縮単語
音声パターンWPcの音声区間パターン“シ
(∫i)”が2個の単音節標準パターン“シ(∫i)”
及び“カ(ka)”の連結パターンとマツチング
することがなくなり、認識率を向上させること
が出来る。
なお、DPパスの通過点は、以上の様にして
求められた各通過点候補の中から、その全部又
は任意の一部から適宜選定される。
即ち、第2の発明の実施例は、図示の場合に
限定されるものでなく、擬似単語標準パターン
の他の単音節標準パターンの先頭フレームと圧
縮単語音声パターンの各フレーム間距離につい
ても、同様に音声区間パターンの先頭フレーム
を除き∞に置換した場合も含むものである。
擬似単語標準パターンを形成する単音節標準
パターン中に無声破裂子音(例えば、/
p/、/t/、/k/、/ts/等)を先頭フレ
ームとするものがある場合は、この無声破裂子
音部の先頭フレームと圧縮単語音声パターン
WPcの各フレームとのフレーム間距離を、各
音声区間パターンの先頭フレームを除き∞とす
ると良好な認識結果が得られる。
〔第3の発明の実施例〕 第3の発明の構成は第1の発明と同じであり、
照合経路通過点選定部132の動作のみが異なる
ため、異なつた部分のみの説明を行う。
(C‐2) 第3の照合経路通過点選定方式 第1の発明の実施例では、圧縮単語音声パタ
ーン中の一つの音声区間パターンが、それより
も音節数の多い単音節標準パターンを連結した
ものとマツチングする恐れがあり、第2の発明
の実施例では、逆に、圧縮単語音声パターン中
の複数の音声区間パターンが、一つ単音節標準
パターンとマツチングする恐れがある。
第3の発明の実施例は、この様なミスマツチ
ングを阻止するに有効な照合経路通過点選定方
式であり、第7図を参照して説明する。
第7図の横軸及びその圧縮単語音声パターン
WPc並びに縦軸及びその擬似単語標準パター
ンの内容は、第4図及び第6図の場合と同じで
ある。
照合経路通過点選定部132は、認識用音声
区間検出部111より入力された各音声区間の
区分点情報に基づいて、フレーム間距離計算部
131で求められた圧縮単語音声パターン
WPcと擬似単語標準パターンの各フレーム間
距離d(i、j)の中、擬似単語標準パターン
中の各単音節標準パターンの先頭フレームと圧
縮単語音声パターンの各フレームとのフレーム
間距離を、各音節区間パターンの先頭フレーム
を除き∞に置換すると共に、圧縮単語音声パタ
ーン中の各音声区間パターンの先頭フレームと
擬似単語標準パターンの各フレームとのフレー
ム間距離を、各単音節標準パターンの先頭フレ
ームを除き∞に置換する。
以上の置換処理により、第7図に示す様に、圧
縮単語音声パターンWPcの各音声区間の区分点l0
〜l2及び擬似単語標準パターンの連結点C0〜C3
基づいて定まるlc00〜lc23が、照合経路通過候補
点として選出される。
DPパスの通過点は、これらの照合経路通過候
補点の中から、照合時の許容時間伸縮や擬似単語
標準パターンの特性等を考慮して、それらの全部
又は任意の一部から適宜選定される。
なお、前述の置換処理は、一部について行う様
にしてもよい。第7図には、擬似単語標準パター
ン中の単音節標準パターンの先頭フレームと圧縮
単語標準パターンWPcの各フレームとのフレー
ム間距離については、単音節標準パターン“カ
(ka)”の先頭フレーム(フレーム13)と圧縮単
語標準パターンWPcの各フレームとのフレーム
間距離を、各音声区間パターンの先頭フレームを
除き∞に置換する場合が例示されている。
この様に、置換をどこまで行うかは、未知入力
の各音節の先頭がどれだけ検出出来るかにかかつ
ている。通常、有声子音の/w/、/n/、/
m/、/j/、/r/、/g/、/b/、/d/
等は検出が困難であるが、/p/、/t/、/
k/等は容易に検出することが出来るので、第7
図の例は、本発明の典型的な実施例といえる。
以上の様にすることにより、誤認識及び処理量
を更に少なくすることが出来る。
〔発明の効果〕
以上説明した様に、本発明によれば、次の諸効
果が得られる。
(イ) 認識対象単語音声パターンを各擬似単語標準
パターンと照合するときの各経路は、認識対象
入力単語音声パターン中の各音声区間パターン
の先頭フレームと各単音節標準パターンの先頭
フレームによつて選出される候補点中から、特
定の点を通る様に条件付けられるので、正しい
照合が行われ、認識率を向上させることが出来
る。
又、各照合経路の共通の通過点が特定される
ので、認識対象単語音声パターンを各擬似単語
標準パターンと照合する際の照合領域が削減さ
れ、照合時の処理量を低減させることが出来
る。
(ロ) 照合時の各経路を、擬似単語標準パターン中
の各単音節標準パターンの先頭フレームと各音
声区間パターンの先頭フレームによつて選出さ
れる特定の点を通る様に条件付けられるので、
正しい照合が行われ、認識率を向上させること
が出来る。
(ハ) 照合時の各経路を、擬似単語標準パターン中
の各単音節標準パターンの先頭フレームと各音
声区間パターンの先頭フレームと共に、認識対
象入力単語音声パターン中の各音声区間パター
ンの先頭フレームと各単音節標準パターンの先
頭フレームにより選出される特定の点を通る様
に条件付けられるので、正しい照合が行われ、
認識率を向上させることが出来る。
【図面の簡単な説明】
第1図は本発明の基本構成の説明図、第2図は
本発明の一実施例の構成の説明図、第3図は同実
施例における区間検出方式の説明図、第4図は同
実施例における第1の照合経路通過点選定方式の
説明図、第5図は同実施例におけるDPマツチン
グ方式の説明図、第6図は本発明における第2の
照合経路通過点選定方式の説明図、第7図は本発
明における第3の照合経路通過点選定方式の説明
図、第8図は従来の擬似単語標準パターンによる
単語音声認識方式、第9図は従来の擬似単語標準
パターンによる単語音声認識方式におけるDPマ
ツチング方式の説明図。 第1図及び第2図において、110……認識用
音声区間検出手段、120……擬似単語標準パタ
ーン作成手段、130……照合経路通過点選定手
段、140……単語認識手段、150……マイク
ロホン、160……パラメタ抽出部、170……
切替え回路。

Claims (1)

  1. 【特許請求の範囲】 1 入力単語音声パターンを単音節標準パターン
    から作成された擬似単語標準パターンと照合して
    入力単語音声を認識する単語音声認識装置におい
    て、 (a) 入力単語音声パターンから各音声区間の区分
    点の検出及び認識対象入力単語音声パターンの
    作成を行う認識用音声区間検出手段110と、 (b) 各単音節標準パターンより認識対象となるカ
    テゴリの単語群に属する各単語の擬似単語標準
    パターンを作成する擬似単語標準パターン作成
    手段120と、 (c) 認識用音声区間検出手段110により検出さ
    れた認識対象入力単語音声パターン中の各音声
    区間パターンの先頭フレームと各単音節標準パ
    ターンの先頭フレームによつて選出される候補
    点中から照合経路通過点として選定する照合経
    路通過点選定手段130、 (d) 照合経路通過点選定手段130によつて選定
    された照合経路通過点を通る経路により認識対
    象入力単語音声パターンと各擬似単語標準パタ
    ーンとを照合して単語認識を行う単語認識手段
    140、 を備えたことを特徴とする単語音声認識装置。 2 入力単語音声パターンを単音節標準パターン
    から作成された擬似単語標準パターンと照合して
    入力単語音声を認識する単語音声認識装置におい
    て、 (a) 入力単語音声パターンから各音声区間の区分
    点の検出及び認識対象入力単語音声パターンの
    作成を行う認識用音声区間検出手段110と、 (b) 各単音節標準パターンより認識対象となるカ
    テゴリの単語群に属する各単語の擬似単語標準
    パターンを作成する擬似単語標準パターン作成
    手段120と、 (c) 認識用音声区間検出手段110により検出さ
    れた擬似単語標準パターン中の各単音節標準パ
    ターンの先頭フレームと各音声区間パターンの
    先頭フレームによつて選出される候補点中から
    照合経路通過点として選定する照合経路通過点
    選定手段130、 (d) 照合経路通過点選定手段130によつて選定
    された照合経路通過点を通る経路により認識対
    象入力単語音声パターンと各擬似単語標準パタ
    ーンとを照合して単語認識を行う単語認識手段
    140、 を備えたことを特徴とする単語音声認識装置。 3 入力単語音声パターンを単音節標準パターン
    から作成された擬似単語標準パターンと照合して
    入力単語音声を認識する単語音声認識装置におい
    て、 (a) 入力単語音声パターンから各音声区間の区分
    点の検出及び認識対象入力単語音声パターンの
    作成を行う認識用音声区間検出手段110と、 (b) 各単音節標準パターンより認識対象となるカ
    テゴリの単語群に属する各単語の擬似単語標準
    パターンを作成する擬似単語標準パターン作成
    手段120と、 (c) 認識用音声区間検出手段110により検出さ
    れた擬似単語標準パターン中の各単音節標準パ
    ターンの先頭フレーム各音声区間パターンの先
    頭フレームと共に、認識対象入力単語音声パタ
    ーン中の各音声区間パターンの先頭フレームと
    各単音節標準パターンの先頭フレームにより選
    出される候補点中から照合経路通過点として選
    定する照合経路通過点選定手段130、 (d) 照合経路通過点選定手段130によつて選定
    された照合経路通過点を通る経路により認識対
    象入力単語音声パターンと各擬似単語標準パタ
    ーンとを照合して単語認識を行う単語認識手段
    140、 を備えたことを特徴とする単語音声認識装置。
JP61108676A 1986-05-14 1986-05-14 単語音声認識装置 Granted JPS62265699A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61108676A JPS62265699A (ja) 1986-05-14 1986-05-14 単語音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61108676A JPS62265699A (ja) 1986-05-14 1986-05-14 単語音声認識装置

Publications (2)

Publication Number Publication Date
JPS62265699A JPS62265699A (ja) 1987-11-18
JPH0469959B2 true JPH0469959B2 (ja) 1992-11-09

Family

ID=14490847

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61108676A Granted JPS62265699A (ja) 1986-05-14 1986-05-14 単語音声認識装置

Country Status (1)

Country Link
JP (1) JPS62265699A (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01321498A (ja) * 1988-06-23 1989-12-27 Matsushita Electric Ind Co Ltd 音声認識装置
CN114746939A (zh) * 2019-12-13 2022-07-12 三菱电机株式会社 信息处理装置、检测方法和检测程序

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56138798A (en) * 1980-03-31 1981-10-29 Nippon Electric Co High speed voice recognition device
JPS597998A (ja) * 1982-07-06 1984-01-17 日本電気株式会社 連続音声認識装置
JPS614118A (ja) * 1984-06-18 1986-01-10 イリノイ ツ−ル ワ−クス インコ−ポレイテツド 低電圧電気スイツチ装置
JPS62255999A (ja) * 1986-04-30 1987-11-07 富士通株式会社 単語音声認識装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56138798A (en) * 1980-03-31 1981-10-29 Nippon Electric Co High speed voice recognition device
JPS597998A (ja) * 1982-07-06 1984-01-17 日本電気株式会社 連続音声認識装置
JPS614118A (ja) * 1984-06-18 1986-01-10 イリノイ ツ−ル ワ−クス インコ−ポレイテツド 低電圧電気スイツチ装置
JPS62255999A (ja) * 1986-04-30 1987-11-07 富士通株式会社 単語音声認識装置

Also Published As

Publication number Publication date
JPS62265699A (ja) 1987-11-18

Similar Documents

Publication Publication Date Title
JPH07146699A (ja) 音声認識方法
JPS62232691A (ja) 音声認識装置
US6574596B2 (en) Voice recognition rejection scheme
JP3069531B2 (ja) 音声認識方法
JPH0469959B2 (ja)
KR100669244B1 (ko) 음성인식 시스템에서의 svm 기반 멀티플 반모델을사용한 발화검증 장치 및 방법
JPS62255999A (ja) 単語音声認識装置
JPH11249688A (ja) 音声認識装置およびその方法
JPH0336436B2 (ja)
JP3357752B2 (ja) パターンマッチング装置
JPS62217297A (ja) 単語音声認識装置
JPS59143200A (ja) 連続音声認識装置
KR100476337B1 (ko) 음성인식기의유사단어인식방법
JPS58159598A (ja) 単音節音声認識方式
JPS5977500A (ja) 単語音声認識方式
JPS607492A (ja) 単音節音声認識方式
JPS6180298A (ja) 音声認識装置
JPH0336439B2 (ja)
JPS63798B2 (ja)
JPS58176699A (ja) 音声標準パタ−ン登録方式
JPH0337199B2 (ja)
JPH0431118B2 (ja)
JPH01262597A (ja) 音声認識装置
JPH05241592A (ja) 連続単語認識装置
JPH02183299A (ja) 音声認識装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees