JPS6029796A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPS6029796A JPS6029796A JP58138614A JP13861483A JPS6029796A JP S6029796 A JPS6029796 A JP S6029796A JP 58138614 A JP58138614 A JP 58138614A JP 13861483 A JP13861483 A JP 13861483A JP S6029796 A JPS6029796 A JP S6029796A
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- voice
- speech
- recognition device
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
技」し1厨−・
本発明は、音声認識装置に関する。
丈米抜檻 ・
近年、音声認識装置のようにパターンの類似度又はそれ
に準するものを計算し、そiシによってd、3識結果生
選、出する装置が種々前えらオしている。ところで音声
を取り扱う場合、このようなパターンの類似度を叶算末
る上で二つの問題点がある5、・つは発声速度の相違か
ら同じ単語音声パターンでも時間長が異なり、そのまま
パターンの比較をして類似厚の計算ができないこと、他
は話者が変わるとホルマント周波数が変化するため話者
間の差が太き(なってしまうことである。現在部名に対
して最も広鴫使われている方法として動的計画法(DP
)楊よるパターンマツチングがある。
に準するものを計算し、そiシによってd、3識結果生
選、出する装置が種々前えらオしている。ところで音声
を取り扱う場合、このようなパターンの類似度を叶算末
る上で二つの問題点がある5、・つは発声速度の相違か
ら同じ単語音声パターンでも時間長が異なり、そのまま
パターンの比較をして類似厚の計算ができないこと、他
は話者が変わるとホルマント周波数が変化するため話者
間の差が太き(なってしまうことである。現在部名に対
して最も広鴫使われている方法として動的計画法(DP
)楊よるパターンマツチングがある。
第1図によりDP、マツチングについて簡単に説明する
。パターンj(t )とg(t)の始端、終端を一致さ
せ1、かつIP、線形な時間軸方向の伸縮をゆるしてマ
ツチン、グを行ない類似度をめる場合である。f(tL
g(t)は一定間隔でサンプリングされたディスクリー
トな量となっており、各々のサンプル点をml 、 m
2 、 ”’m7y 、 nl 、 n2 、 ”’n
、yとすると、二つのパターンはf(ml)、f(m2
)+ −f(m、vL’ g(n+ L g(n2L
−g(n7V)で表わされる。パターンの始端f(m
+)とg(nt)、及び終端f(m、v)とg(n//
)が対応づけられるものとし、他の点は両パターン間の
距離が最小になるように対応づける。そのためにはf
(m)の中の一点f(mi)はg(ni)近傍の全ての
点に対応づけてみてその中から距離を最小にするような
点を選んで対応づける。その結果第1図に八にて示すよ
うな傾斜がまり、これに従ってf(1)をg(t)に写
影して類似度が計算できる。ところがこの方法は、演算
量が非常に多く、またパターンの時間長の変動は吸収す
ることができるが周波数上の変動を吸収することができ
ないという欠点がある。
。パターンj(t )とg(t)の始端、終端を一致さ
せ1、かつIP、線形な時間軸方向の伸縮をゆるしてマ
ツチン、グを行ない類似度をめる場合である。f(tL
g(t)は一定間隔でサンプリングされたディスクリー
トな量となっており、各々のサンプル点をml 、 m
2 、 ”’m7y 、 nl 、 n2 、 ”’n
、yとすると、二つのパターンはf(ml)、f(m2
)+ −f(m、vL’ g(n+ L g(n2L
−g(n7V)で表わされる。パターンの始端f(m
+)とg(nt)、及び終端f(m、v)とg(n//
)が対応づけられるものとし、他の点は両パターン間の
距離が最小になるように対応づける。そのためにはf
(m)の中の一点f(mi)はg(ni)近傍の全ての
点に対応づけてみてその中から距離を最小にするような
点を選んで対応づける。その結果第1図に八にて示すよ
うな傾斜がまり、これに従ってf(1)をg(t)に写
影して類似度が計算できる。ところがこの方法は、演算
量が非常に多く、またパターンの時間長の変動は吸収す
ることができるが周波数上の変動を吸収することができ
ないという欠点がある。
目 的
本発明は斯かる事情に鑑みてなされたもので、少ない計
算量で音声の時間変動を吸収してノ(ターンの照合をす
る音声認識装置を提供しようとするものである。
算量で音声の時間変動を吸収してノ(ターンの照合をす
る音声認識装置を提供しようとするものである。
構 成
本発明の構成について、以下、実施例に基づいて説明す
る。
る。
先ず、例を引きながら本発明の詳細な説明する。
ある話者が発声した単語”5ize”のパターンを第2
図に示す。この図は横軸に周波数、縦軸に時間をとって
’5ize”と発声した時のスペクトル分布を濃淡で表
わしたものであり黒く見える程レベルが大きい。周波数
は左側から右へ高くなり、250Hz−6,3に’Hz
を対数等間隔で15等分しである。同じ話者が同じ単語
を別の機会に発声した例を第3図に示す。図から明らか
なように両者は時間軸方向への長さが異なっている。
図に示す。この図は横軸に周波数、縦軸に時間をとって
’5ize”と発声した時のスペクトル分布を濃淡で表
わしたものであり黒く見える程レベルが大きい。周波数
は左側から右へ高くなり、250Hz−6,3に’Hz
を対数等間隔で15等分しである。同じ話者が同じ単語
を別の機会に発声した例を第3図に示す。図から明らか
なように両者は時間軸方向への長さが異なっている。
我々が発する音声を特徴づけるものにホルマントがある
。或いはスペクトルのローカルピークという概念〔音響
学会誌第32巻1号(1976)第12〜23頁〕を用
いても良いが、いずれにしても言語を発声するために我
々は声道の形態を変化させ、その影響が音声スペクトル
上にローカルピークとして現われる。従って、このよう
なローカルピークの時間変化には発せられた言語の特徴
が現われている。そこでローカルピークの時間変化を表
わす時間−周波数パターン(以下time−spect
rum pat’t’ern、略してT。
。或いはスペクトルのローカルピークという概念〔音響
学会誌第32巻1号(1976)第12〜23頁〕を用
いても良いが、いずれにしても言語を発声するために我
々は声道の形態を変化させ、その影響が音声スペクトル
上にローカルピークとして現われる。従って、このよう
なローカルピークの時間変化には発せられた言語の特徴
が現われている。そこでローカルピークの時間変化を表
わす時間−周波数パターン(以下time−spect
rum pat’t’ern、略してT。
S、Pと称する)の比較によって発せられた言語を認識
することを考える。第2図、第3図に示したどちらのT
、S、Pも冒頭の1’ O−15m sが/S/、次の
]、 OOm s位が/ a /、続< 10 m s
弱が/1/でその後の数+n sが/1./、最後が短
く/u/を表わすパターンである。ところで図に示され
たような時間長の変化の他に発声者の差がピークの周波
数変化として現わJしるが、そのどちらも極端なもので
はない。そこで二つのパターンを照合する場合に、周波
数変動と時間変動の幅を考慮して、一方のパターンの幅
ば′広(とっておき、他方のパターンは、幅のある線図
形から線の特徴を一佑11山士工に上爪−っ哄東ス★屈
伯ル凋−1−レっプ艷のほぼ中央近傍の点又は中心線を
取り出してかJ′)照合を行なう。この際1時間軸方向
も幅を狭めておくことが望ましい。こうすることによっ
て、一方のパターンの時間、周波数の両軸が変動しても
細線化した細い線パターンは幅の広いパターンからはみ
出す・ことなくマツチングがとれる。
することを考える。第2図、第3図に示したどちらのT
、S、Pも冒頭の1’ O−15m sが/S/、次の
]、 OOm s位が/ a /、続< 10 m s
弱が/1/でその後の数+n sが/1./、最後が短
く/u/を表わすパターンである。ところで図に示され
たような時間長の変化の他に発声者の差がピークの周波
数変化として現わJしるが、そのどちらも極端なもので
はない。そこで二つのパターンを照合する場合に、周波
数変動と時間変動の幅を考慮して、一方のパターンの幅
ば′広(とっておき、他方のパターンは、幅のある線図
形から線の特徴を一佑11山士工に上爪−っ哄東ス★屈
伯ル凋−1−レっプ艷のほぼ中央近傍の点又は中心線を
取り出してかJ′)照合を行なう。この際1時間軸方向
も幅を狭めておくことが望ましい。こうすることによっ
て、一方のパターンの時間、周波数の両軸が変動しても
細線化した細い線パターンは幅の広いパターンからはみ
出す・ことなくマツチングがとれる。
以上のような原理に基づく本発明の音声認識装置の一実
施例を第4図及び第5図に示す。
施例を第4図及び第5図に示す。
第4図において、1はマイクロフォン、2はスピーカ、
3は増幅器(アンプ)、4はフィルタIIY、5は音声
区間切り出し9部、6は辞書部、7は照合部、8は最大
類似度算出部、9は結果表示部、Sl、S2はスイッチ
で、最初に、19 IQパターンを辞■部に登録する方
法について説明する。まず、スイッチS1を閉じ、スイ
ッチS、7を辞書側にしてマイク1に向って発声する。
3は増幅器(アンプ)、4はフィルタIIY、5は音声
区間切り出し9部、6は辞書部、7は照合部、8は最大
類似度算出部、9は結果表示部、Sl、S2はスイッチ
で、最初に、19 IQパターンを辞■部に登録する方
法について説明する。まず、スイッチS1を閉じ、スイ
ッチS、7を辞書側にしてマイク1に向って発声する。
マイクlによって収集された音声信号は2分され、一方
はフイルダ群4を通って周波数分析され、他方はスイッ
チ”′S1を通して増幅され、スピーカ2からマイクl
に向って再生される。その再生音は再びマイク1へ達し
て音声信号に加えられる。このため、フィルタ群4の入
力は発声された音声とスピーカ2を通して入力された時
間遅れ分の加わった再生音の和となる。つまり、第2図
の如き時間・周波数パターンが時間方向に幅をもつパタ
ーンとなる。ただし。
はフイルダ群4を通って周波数分析され、他方はスイッ
チ”′S1を通して増幅され、スピーカ2からマイクl
に向って再生される。その再生音は再びマイク1へ達し
て音声信号に加えられる。このため、フィルタ群4の入
力は発声された音声とスピーカ2を通して入力された時
間遅れ分の加わった再生音の和となる。つまり、第2図
の如き時間・周波数パターンが時間方向に幅をもつパタ
ーンとなる。ただし。
増幅器3の利得を大きくとると、発声された量がマイク
−アンプースピーカのループを回り、発振状態になり
、いわゆるハウリングを引き起こすので、この様なこと
がないようにしなければならない。このようにして辞書
”登録音声の全てを時間幅を有するパターンとして辞書
に登録しておく。
−アンプースピーカのループを回り、発振状態になり
、いわゆるハウリングを引き起こすので、この様なこと
がないようにしなければならない。このようにして辞書
”登録音声の全てを時間幅を有するパターンとして辞書
に登録しておく。
次に、認識を行なう場合について説明する。この場合は
、スイッチS1を開き、スイッチS2を照・ 1戸 金側にしてマイクに向って発声する。すると、照合部7
へは第2図の如きパターンが伝達される。
、スイッチS1を開き、スイッチS2を照・ 1戸 金側にしてマイクに向って発声する。すると、照合部7
へは第2図の如きパターンが伝達される。
ここで、このパターンと辞書に登録された各パターンの
重ね合わせを照合部7において行ない重なりの度合によ
って未知入カバターンと#書中の各パターンとの類似度
をめる。そして、その類似度を持つものが認識結果とし
て表示部9に表示される。このようにすると、先に述へ
たように、一方のパターンが時間方向に幅が広いため発
声音声が時間内に変動してもこの幅の範囲内であればそ
れを吸収することができる。なお、以−にには時間的な
幅をもつパターンを辞店:登録した例を示したが、逆に
、幅を持たないパターンを登録し、未知人カバターンに
時間幅を持たせても良く、その場合はスイッチS1の開
閉は前記と逆になる。
重ね合わせを照合部7において行ない重なりの度合によ
って未知入カバターンと#書中の各パターンとの類似度
をめる。そして、その類似度を持つものが認識結果とし
て表示部9に表示される。このようにすると、先に述へ
たように、一方のパターンが時間方向に幅が広いため発
声音声が時間内に変動してもこの幅の範囲内であればそ
れを吸収することができる。なお、以−にには時間的な
幅をもつパターンを辞店:登録した例を示したが、逆に
、幅を持たないパターンを登録し、未知人カバターンに
時間幅を持たせても良く、その場合はスイッチS1の開
閉は前記と逆になる。
第5図は、本発明の他の実施例を示す構成図で、図中、
10は比較器、11は加算器を示し、その他、第4図と
同様の作用をする部分には第4図ど同一の参照番号をイ
リしである。この第5図に示【7た実施例においては、
辞書部りに際して、スイッツS1を閉じ、スイッチS7
を辞書側にして発声する。発声さ、1もだ音声はフィル
タilY’Iを通過して周波数に分析された後比較器1
0によっであるレベルより大きい部分だけをとり出し、
それ以下を0とする。この時、各フィルタ出方は加算器
11によって加算されて再び時間信号に戻されて増幅さ
れスピーカ2から発せられる。これによって前記と同様
の時間幅を有するパターンとなる。第4′図との差異は
第4図の方法が発声された全ての音声をフィードバック
するのに対し、第5図の方法ではレベルの大きい必要な
成分だけをフィードバックすることになる。辞書レジス
ターを少なくするために2値化してデータを扱うような
場合は第5図の方法が適している。なお、第5図の方法
での認識の仕方は第4図と等しい。どちらの場合も動的
n1区法の如き多量の演算をすることなく音声の時間変
動を吸収すること゛ができる。
10は比較器、11は加算器を示し、その他、第4図と
同様の作用をする部分には第4図ど同一の参照番号をイ
リしである。この第5図に示【7た実施例においては、
辞書部りに際して、スイッツS1を閉じ、スイッチS7
を辞書側にして発声する。発声さ、1もだ音声はフィル
タilY’Iを通過して周波数に分析された後比較器1
0によっであるレベルより大きい部分だけをとり出し、
それ以下を0とする。この時、各フィルタ出方は加算器
11によって加算されて再び時間信号に戻されて増幅さ
れスピーカ2から発せられる。これによって前記と同様
の時間幅を有するパターンとなる。第4′図との差異は
第4図の方法が発声された全ての音声をフィードバック
するのに対し、第5図の方法ではレベルの大きい必要な
成分だけをフィードバックすることになる。辞書レジス
ターを少なくするために2値化してデータを扱うような
場合は第5図の方法が適している。なお、第5図の方法
での認識の仕方は第4図と等しい。どちらの場合も動的
n1区法の如き多量の演算をすることなく音声の時間変
動を吸収すること゛ができる。
−仇一一釆
以」−の説明から明らかなように、本発明によると、少
ない演TI景で音声の時間変動を吸収したパターン照合
が可能となる。
ない演TI景で音声の時間変動を吸収したパターン照合
が可能となる。
第1図は、DPマツチングの説明図、第2図及び第3図
は、時間−周波数パターンを示す図、第4図及び第5図
は、それぞれ本発明の実施例を示す図である。 ■・・マイクロフォン、2・スピーカ、3・・・増l器
、4・・・フィルタ群、5音声区間切り出し部、に・・
・辞書部、7・・・照合部、8・・最大類似度算出部。 9・・・結果表示部、lo・・比較器、I I 力10
γi!K 、。 第1図 第4図
は、時間−周波数パターンを示す図、第4図及び第5図
は、それぞれ本発明の実施例を示す図である。 ■・・マイクロフォン、2・スピーカ、3・・・増l器
、4・・・フィルタ群、5音声区間切り出し部、に・・
・辞書部、7・・・照合部、8・・最大類似度算出部。 9・・・結果表示部、lo・・比較器、I I 力10
γi!K 、。 第1図 第4図
Claims (2)
- (1)、音声収集部と、収集された信号を周波数分析す
る手段と、音声の特徴パターンを格納する部分と、入力
された音声の特徴パターンと前記格納部に格納されたパ
ターンとを照合する部分とを有する音声認識装置におい
て、入力音声を収集し、増幅し、9!音体から前記音声
収集部に向けて発音する手段を有することを特徴とする
音声認識装置。 - (2)、音声収集部と、収集された信号を周波数分析す
る手段と、音声の特徴パターンを格納する部分と、入力
された音声の特徴パターンと前記格納部に格納されたパ
ターンとを照合する部分とを有する音声認識装置におい
て、入力音声を収集し。 周波数分析した後の各周波数成分のうち所定値よりも大
なる成分を増幅し1発音体から前記音声収集部に向けて
発音させることを特徴とする音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP58138614A JPS6029796A (ja) | 1983-07-28 | 1983-07-28 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP58138614A JPS6029796A (ja) | 1983-07-28 | 1983-07-28 | 音声認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPS6029796A true JPS6029796A (ja) | 1985-02-15 |
Family
ID=15226197
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP58138614A Pending JPS6029796A (ja) | 1983-07-28 | 1983-07-28 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS6029796A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02175996A (ja) * | 1988-12-28 | 1990-07-09 | Sanyo Kokusaku Pulp Co Ltd | 積層板用原紙およびその製造法 |
-
1983
- 1983-07-28 JP JP58138614A patent/JPS6029796A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02175996A (ja) * | 1988-12-28 | 1990-07-09 | Sanyo Kokusaku Pulp Co Ltd | 積層板用原紙およびその製造法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0077194B1 (en) | Speech recognition system | |
JPH02242298A (ja) | 声門波形に基づく話者識別装置 | |
JP2003532162A (ja) | 雑音に影響された音声の認識のためのロバストなパラメータ | |
JP2701431B2 (ja) | 音声認識装置 | |
JPS6257040B2 (ja) | ||
JPS6029796A (ja) | 音声認識装置 | |
Kajita et al. | Robust speech feature extraction using SBCOR analysis | |
US20090043566A1 (en) | Speech processing apparatus and method | |
JPS59137999A (ja) | 音声認識装置 | |
JPH04369698A (ja) | 音声認識方式 | |
JPH0430040B2 (ja) | ||
JP3100180B2 (ja) | 音声認識方法 | |
Kim et al. | Speech/music discrimination using Mel-Cepstrum modulation energy | |
JP2975808B2 (ja) | 音声認識装置 | |
JP3020999B2 (ja) | パターン登録方法 | |
JPS6022193A (ja) | 音声認識装置 | |
KR102148245B1 (ko) | 문자 음성변환 시스템 | |
JPS6031197A (ja) | 音声認識装置 | |
JPS59170894A (ja) | 音声区間の切り出し方式 | |
JPS59204898A (ja) | 音声認識装置 | |
KR100278640B1 (ko) | 이동 전화기를 위한 음성 다이얼링 장치 및방법 | |
JPH04347898A (ja) | 音声認識方法 | |
JPS6148898A (ja) | 音声の有声無声判定装置 | |
JPH03123399A (ja) | 音声認識装置 | |
JPH06138895A (ja) | 音声認識装置 |