JPS58223193A - 多数単語音声認識方式 - Google Patents
多数単語音声認識方式Info
- Publication number
- JPS58223193A JPS58223193A JP57105886A JP10588682A JPS58223193A JP S58223193 A JPS58223193 A JP S58223193A JP 57105886 A JP57105886 A JP 57105886A JP 10588682 A JP10588682 A JP 10588682A JP S58223193 A JPS58223193 A JP S58223193A
- Authority
- JP
- Japan
- Prior art keywords
- standard
- group
- pattern
- distance
- center
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
(1)発明の技術分野
本発明は多故単暗を対象とし!#定話者が発声した単賭
音声倉音豐分析し標準パターン−と照合し゛判定する多
数単語音声4繊方武に関するものである。
音声倉音豐分析し標準パターン−と照合し゛判定する多
数単語音声4繊方武に関するものである。
(2)従来技術とI!!趙点
従来の音声認識装置では、特定−′:4を対象とし、少
威単讃間の戚別を目的とする装置ヤ、不特定−者を対象
とした数字音声のd歳装置等がすでに荷#I:Jv仕分
は作業、−行の照会4務尋に実用化されている。
威単讃間の戚別を目的とする装置ヤ、不特定−者を対象
とした数字音声のd歳装置等がすでに荷#I:Jv仕分
は作業、−行の照会4務尋に実用化されている。
しかし、単語単位の認識勇武にJ?いて、多数単語t一
対象とした音声認識装置は特定話者についても米用化は
困−な現状である。これは対象率暗数が増大するに従い
、識別率の低下を招くとともに、日己憶童2よび照合の
ための計鼻時間停かばう大となることrc起因する。
対象とした音声認識装置は特定話者についても米用化は
困−な現状である。これは対象率暗数が増大するに従い
、識別率の低下を招くとともに、日己憶童2よび照合の
ための計鼻時間停かばう大となることrc起因する。
多数単鯖を対象とした音声認識方式では、特定話者の発
声した単語音声をfqI分析し標準バター7−と照合す
る方式が採られる。これに対し識別率の向上と記憶m−
v’ti算時間の短線を図るため、音響分析等の精密化
、情報圧縮方法の倹討等が適用されているし、また前処
理照合方式を用い照合対象となる標準パターンの数をS
t+減する方法が用いられている。その具体方法として
は、比較的識別し易い母音に着目し、その単鎖の母音系
列による分類を行なう方法等が包嵌的でめる。しかし、
これに関連する##−if繊別率が゛まだ不十分なこと
や、前処4照合時の手順が複雑なことが一点でbる。
声した単語音声をfqI分析し標準バター7−と照合す
る方式が採られる。これに対し識別率の向上と記憶m−
v’ti算時間の短線を図るため、音響分析等の精密化
、情報圧縮方法の倹討等が適用されているし、また前処
理照合方式を用い照合対象となる標準パターンの数をS
t+減する方法が用いられている。その具体方法として
は、比較的識別し易い母音に着目し、その単鎖の母音系
列による分類を行なう方法等が包嵌的でめる。しかし、
これに関連する##−if繊別率が゛まだ不十分なこと
や、前処4照合時の手順が複雑なことが一点でbる。
さらに単#数に対する要求もたとえば6ooo#という
ように増大しているから、前述の方法のみではこれに逼
匹付けない塊状で必る。
ように増大しているから、前述の方法のみではこれに逼
匹付けない塊状で必る。
(3)発明の目的
本aA興の目的は多数単一を対象とし物足話者が発声し
た単鎖音声′t−f’lli[分析し4s卓バター/詳
との前処鳩照tを高祠度に効率的に行なう、多数単暗音
声d繊方式を提供することでるる。
た単鎖音声′t−f’lli[分析し4s卓バター/詳
との前処鳩照tを高祠度に効率的に行なう、多数単暗音
声d繊方式を提供することでるる。
(4)発明の4!#成
前記目的を達成するため、本発明の多赦単語曾声−織方
式は多数単鎖を対象どじ物足話者が発声した単語fyI
!Iを音曽分析し標準パター7椰と照合し判定する多赦
単饋音声d織方武におして、前記4isパター/椰t−
相互の距−に応じてクラスタリング手法を用匹ることに
より複数のグループに分け、各グループg5にそのセン
タを求めて代宍標準パターンとし、入力音声の音畳分析
した結果のパターンを各グループの代表標準パターンと
照合し、距離の最小の代表標準パターンのグループの標
準パターンにつき最終の照合を行なうことを特徴とする
ものである。
式は多数単鎖を対象どじ物足話者が発声した単語fyI
!Iを音曽分析し標準パター7椰と照合し判定する多赦
単饋音声d織方武におして、前記4isパター/椰t−
相互の距−に応じてクラスタリング手法を用匹ることに
より複数のグループに分け、各グループg5にそのセン
タを求めて代宍標準パターンとし、入力音声の音畳分析
した結果のパターンを各グループの代表標準パターンと
照合し、距離の最小の代表標準パターンのグループの標
準パターンにつき最終の照合を行なうことを特徴とする
ものである。
(5)発明の実施例
1s1図(α) 、 (b)は本発明の原塩説明図であ
る。
る。
同図(α)において、゛まず特定−#がf縁のため、入
力音声1をit参分析2の結果、特徴抽出し襟単パター
/$44−登録しておき、これを!g繊織時入力音声の
fq1分析し7’C結釆のパターンと照合する。
力音声1をit参分析2の結果、特徴抽出し襟単パター
/$44−登録しておき、これを!g繊織時入力音声の
fq1分析し7’C結釆のパターンと照合する。
これらの標準パターン群との照合を間車化するため、同
図(6)に示すように、音#分析し%微抽出を行なつ7
’C績釆、得られる特徴ベクトルを標準パターンStと
する。そしてこれらの標準パターンをクラスタリング手
法を用いて複数のグループgl+ff1gg3・・・4
vc分ける。
図(6)に示すように、音#分析し%微抽出を行なつ7
’C績釆、得られる特徴ベクトルを標準パターンStと
する。そしてこれらの標準パターンをクラスタリング手
法を用いて複数のグループgl+ff1gg3・・・4
vc分ける。
いま、谷単語について1発声ずつ登録するものとすると
、標準パターンは と弐わされる。
、標準パターンは と弐わされる。
ここでこれらのパターン間の距離を次のように定義する
。
。
この距離定禰に基づき標準パターン群間でたとえばに一
ミーンズ(K−meαna)クラスタリング手法を用い
てクラスタリングを行なう。このに−ゼー/ズク2スタ
リング手法では、必らかじめクラスタの数を規定するこ
とができる。いま、クラスタの数をに11!lとする。
ミーンズ(K−meαna)クラスタリング手法を用い
てクラスタリングを行なう。このに−ゼー/ズク2スタ
リング手法では、必らかじめクラスタの数を規定するこ
とができる。いま、クラスタの数をに11!lとする。
そして、各クラスタのII/IM ifとしてSIQ
* S K2 +・・・SKKを与える。
* S K2 +・・・SKKを与える。
この初期値を仮センタとして(1)式の距趨足−に基づ
き残pの標準パターンt−最小薊−をもつ仮センタに分
配することを−返し複数のクラスタに分ける。次VC各
りラスタ内でパターン相互の距−を耐昇し、そのクラス
タ内の吾パメー/を仮のセンタとしfc場合の最も遠い
バター/との距離を求め、この距離の最小となる仮セン
タを基に残シのパターンを再分配し、前記の方法により
また#rたなセンタt−算出する。この操作を繰返し、
全てのセ/りが変化しなくなる収束体感で停止させる。
き残pの標準パターンt−最小薊−をもつ仮センタに分
配することを−返し複数のクラスタに分ける。次VC各
りラスタ内でパターン相互の距−を耐昇し、そのクラス
タ内の吾パメー/を仮のセンタとしfc場合の最も遠い
バター/との距離を求め、この距離の最小となる仮セン
タを基に残シのパターンを再分配し、前記の方法により
また#rたなセンタt−算出する。この操作を繰返し、
全てのセ/りが変化しなくなる収束体感で停止させる。
これを−膜形で謄わし、各クラスタI”tll”*・・
・gKのセ−?(gl)1gQ ベリK) ンタを代表標準パターンScm、 SC2、5cic
とする。
・gKのセ−?(gl)1gQ ベリK) ンタを代表標準パターンScm、 SC2、5cic
とする。
そして、このクラスタを##成する#4準パターン群金
G、=袋で゛ビ宕g″2.扇1)、、、、 眉(yH
)G・ml潴ゝ、詐2) 、 ?、F)、・・・tWG
K =”14 +ずgK)月(g−++マ12ここで
1≦11. Lm、−LK(nとする。
)G・ml潴ゝ、詐2) 、 ?、F)、・・・tWG
K =”14 +ずgK)月(g−++マ12ここで
1≦11. Lm、−LK(nとする。
このクラスタリングの標準パターン1!1のg141計
葺の1例を第2図(α) 、 (6)に示す。ナなわち
、同図(α)は登録のための入力f/”がi!#分析の
結果、周波数の谷頑城fs、fx、fa・・・における
平均の音声パワーPI # Pa v Ps・・・を氷
め、これが時間軸の時点t1゜kyts・・・で変化し
た時、これらのデータを同図(6)に示すように一64
語母にFs e FB HFB・・・と記憶した標準パ
ター/のデータテーブルを作成する。そしてこれらの4
11パタ一ン間の距離を求めるには、同図に示すように
比較すべき両パターンの同時点。
葺の1例を第2図(α) 、 (6)に示す。ナなわち
、同図(α)は登録のための入力f/”がi!#分析の
結果、周波数の谷頑城fs、fx、fa・・・における
平均の音声パワーPI # Pa v Ps・・・を氷
め、これが時間軸の時点t1゜kyts・・・で変化し
た時、これらのデータを同図(6)に示すように一64
語母にFs e FB HFB・・・と記憶した標準パ
ター/のデータテーブルを作成する。そしてこれらの4
11パタ一ン間の距離を求めるには、同図に示すように
比較すべき両パターンの同時点。
同周波畝函域の音声パワーを比較し、それぞれの距離を
求め、総合の距離を算出する。そして前述の手順によシ
セ/りを求める。
求め、総合の距離を算出する。そして前述の手順によシ
セ/りを求める。
このようにして決定されたクラスタリングにより、標準
バター/#の構成は否クラスタのセンタを包成標準パタ
ーンとし、それに従属する形で谷クラスタ内の4準パタ
ーンが連鎖することになる。
バター/#の構成は否クラスタのセンタを包成標準パタ
ーンとし、それに従属する形で谷クラスタ内の4準パタ
ーンが連鎖することになる。
次に#友に発声された1if−声が入“力された4汁、
その人力バター/は、まず谷クラスタのセンタである包
成標準パターン7gs’ + TC2’ e・・jf)
、照合計算を行なう。その結果、距離最小の代表標準バ
ター/が求められ、次にその代置標準パターン群とだけ
照付#を真を行ない、最小距離をMするパターンをその
入カバターフの織@結果とする。九とえば、入カバター
ンとの照合1it−sの細末、代表標準パター7−、(
g:ゝが最小距離を有するとした場合、Gltnldす
るdA$パターン奈11’ + ?1?・・E% ’(
!:照照合葬を行ない、その中で最小距illを有する
パターンを識別結果として出力する。
その人力バター/は、まず谷クラスタのセンタである包
成標準パターン7gs’ + TC2’ e・・jf)
、照合計算を行なう。その結果、距離最小の代表標準バ
ター/が求められ、次にその代置標準パターン群とだけ
照付#を真を行ない、最小距離をMするパターンをその
入カバターフの織@結果とする。九とえば、入カバター
ンとの照合1it−sの細末、代表標準パター7−、(
g:ゝが最小距離を有するとした場合、Gltnldす
るdA$パターン奈11’ + ?1?・・E% ’(
!:照照合葬を行ない、その中で最小距illを有する
パターンを識別結果として出力する。
この方法によシ、標準パターン群を構成すると、いまク
ラスタの数に個に対し、照合の対象となる標準パターン
数は、各クラスタに平均分配されたとしてを欠(n=1
率飴1標準パターンとじ九ときの標準パターン4畝)に
な9、全照合に比較してほぼ1/K a &に減少させ
ることができる。
ラスタの数に個に対し、照合の対象となる標準パターン
数は、各クラスタに平均分配されたとしてを欠(n=1
率飴1標準パターンとじ九ときの標準パターン4畝)に
な9、全照合に比較してほぼ1/K a &に減少させ
ることができる。
46図は上述のg塩に従う本発明の′A施例の構成説明
図であプ、特定話者による多数重ta音声4織装置を示
す。
図であプ、特定話者による多数重ta音声4織装置を示
す。
同図に2いて、入力媒体11から入力されfct声はA
/D変供器12でデジタル信号に変成され、分析部16
で[q1分析され、特徴抽出部14で第2図(α)で例
示したような特徴バター/が抽出され、同図(6)に示
したよりな標準パターンデータとして出力される。特定
話者の発声倉登録する場合には、モードvJ供tfls
IJ5を登鎌側にセットして、該標準パターンデータは
辞書リード/ライト部19を経由して辞蕾4梢s20に
膏込み蓄積する。対象単語全てを発声f録した後に、I
/’f4格納部2oにある標準パターンを辞書リード/
ライト部19を介してクラスタリング処瑣部18でクラ
スタリング分析を行ない、前述し丸ように、たとえばに
−ゼーンズクラスタリング手法を用いてf録されfc儂
標準ターンをクラスタ母にグループ化し、それぞれのセ
ンタを求めて再構成して再び1iniv−ド/ライト部
19を介して辞4F格納部20に格納する。この場合、
谷クラスタ内の標準パター/の先頭VC−tンタセンタ
標準パターンを配置し、その格納場所の先舗アドレスを
1!#齋アドレス瑣示部17にiii:!憶させる。
/D変供器12でデジタル信号に変成され、分析部16
で[q1分析され、特徴抽出部14で第2図(α)で例
示したような特徴バター/が抽出され、同図(6)に示
したよりな標準パターンデータとして出力される。特定
話者の発声倉登録する場合には、モードvJ供tfls
IJ5を登鎌側にセットして、該標準パターンデータは
辞書リード/ライト部19を経由して辞蕾4梢s20に
膏込み蓄積する。対象単語全てを発声f録した後に、I
/’f4格納部2oにある標準パターンを辞書リード/
ライト部19を介してクラスタリング処瑣部18でクラ
スタリング分析を行ない、前述し丸ように、たとえばに
−ゼーンズクラスタリング手法を用いてf録されfc儂
標準ターンをクラスタ母にグループ化し、それぞれのセ
ンタを求めて再構成して再び1iniv−ド/ライト部
19を介して辞4F格納部20に格納する。この場合、
谷クラスタ内の標準パター/の先頭VC−tンタセンタ
標準パターンを配置し、その格納場所の先舗アドレスを
1!#齋アドレス瑣示部17にiii:!憶させる。
次に、4紬の場曾はモード切議部15を4臓側にセット
し、入力バター7は辞★アドレス虐示s17のアドレス
指示により、まずセンタとなる標準バター/を続出し、
照脅部16で距喝耐算を行ない、判定部21で判定し最
小距鑵會有するセンタが代表するクラスタ内の標準パタ
ーンをJ@に続出し照合計算し、再び判定821で判定
し、最小距−を有する標準パターンt+S別結果として
出刃する。
し、入力バター7は辞★アドレス虐示s17のアドレス
指示により、まずセンタとなる標準バター/を続出し、
照脅部16で距喝耐算を行ない、判定部21で判定し最
小距鑵會有するセンタが代表するクラスタ内の標準パタ
ーンをJ@に続出し照合計算し、再び判定821で判定
し、最小距−を有する標準パターンt+S別結果として
出刃する。
本発明の特徴は多数単語の入カバターンを辞蕾内の標準
パターンと逐次照合するのではなく、標準パターン群を
11故グループに分けて、各グループのセンタを求め、
これと前照合を行なうことによp最小距離のセンタを有
するグループを抽出することであ夛、公知のクラスタリ
ング手法は上記のグループ分けとセンタを求める手段と
して用^たものである。
パターンと逐次照合するのではなく、標準パターン群を
11故グループに分けて、各グループのセンタを求め、
これと前照合を行なうことによp最小距離のセンタを有
するグループを抽出することであ夛、公知のクラスタリ
ング手法は上記のグループ分けとセンタを求める手段と
して用^たものである。
(6)発明の詳細
な説明したように、本発98vcよれば、特定話者を対
象とした多数単語音声認識装置において、発声登録され
た標準パターン群をクラスタリング手法を用いて谷クラ
スタ’svこグループ化し、そのクラスタのセンタを代
旗標準パターンとして定−することにより、入力発声パ
ターンとの本照合以前にこの代表標準パターンと前照合
C行なうことによシ、人力発声パターンとの本照会時の
対象標準パター/畝tたとえば前述のように1/Kに減
少することができ、照合時間を大幅に短縮することがo
J能とな9、かつ11aR繊率を^差に保つことができ
る。これによ勺特定話者による多数単語の音声4臓の実
用化に役立つところが大きいものでるる。
象とした多数単語音声認識装置において、発声登録され
た標準パターン群をクラスタリング手法を用いて谷クラ
スタ’svこグループ化し、そのクラスタのセンタを代
旗標準パターンとして定−することにより、入力発声パ
ターンとの本照合以前にこの代表標準パターンと前照合
C行なうことによシ、人力発声パターンとの本照会時の
対象標準パター/畝tたとえば前述のように1/Kに減
少することができ、照合時間を大幅に短縮することがo
J能とな9、かつ11aR繊率を^差に保つことができ
る。これによ勺特定話者による多数単語の音声4臓の実
用化に役立つところが大きいものでるる。
41図(a)、 (6)は本発明の原理説明図、第2図
に)。 (6)はjg1図の要部の具体例による説明図、嬉6図
は本発明の^臨画の構成説明図で69、図中、11は入
力媒体、12はVD変換器、15は分析部、14は%倣
抽出部、15はモードIIIIIII&部、16は照合
部、17は$4アドレス瑣承部、18はクラスタリング
処場部、19は辞膏リード/ライト部、20は辞齋格納
部、21は判定部を示す。 特許出願人 富士通株式会社 復代塩人 弁埴土 1)坂 豐 貞
に)。 (6)はjg1図の要部の具体例による説明図、嬉6図
は本発明の^臨画の構成説明図で69、図中、11は入
力媒体、12はVD変換器、15は分析部、14は%倣
抽出部、15はモードIIIIIII&部、16は照合
部、17は$4アドレス瑣承部、18はクラスタリング
処場部、19は辞膏リード/ライト部、20は辞齋格納
部、21は判定部を示す。 特許出願人 富士通株式会社 復代塩人 弁埴土 1)坂 豐 貞
Claims (1)
- 多数単m金対象とし特定話者が発声した単語音声を音響
分析し、標準パターン群と照合し判定する多数単語音声
4繊方式において、前記標準パターン群を相互の距離に
応じてクラスタリング手法を用いることにより複数のグ
ループに分け、各グループSVCそのセンタを求めて代
減儂準パターンとし、入力音声の音響分析した結果のバ
ター/を谷グループの代禰椰準パターンと照合し、距−
の戚小の代犬標準パターンのグループの標準パターンに
つきm終の照合を行なうこと金%黴とする多数単語音声
4繊方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP57105886A JPS58223193A (ja) | 1982-06-19 | 1982-06-19 | 多数単語音声認識方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP57105886A JPS58223193A (ja) | 1982-06-19 | 1982-06-19 | 多数単語音声認識方式 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS58223193A true JPS58223193A (ja) | 1983-12-24 |
JPH0252278B2 JPH0252278B2 (ja) | 1990-11-13 |
Family
ID=14419402
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP57105886A Granted JPS58223193A (ja) | 1982-06-19 | 1982-06-19 | 多数単語音声認識方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS58223193A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6340200A (ja) * | 1986-08-06 | 1988-02-20 | 日本電信電話株式会社 | 単語音声予備選択装置 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07230299A (ja) * | 1994-02-17 | 1995-08-29 | Sanyo Electric Co Ltd | 音声認識装置 |
WO2003088209A1 (fr) * | 2002-04-12 | 2003-10-23 | Mitsubishi Denki Kabushiki Kaisha | Systeme de navigation de voiture et dispositif de reconnaissance vocale de ce systeme |
JP5070591B2 (ja) * | 2007-05-25 | 2012-11-14 | 株式会社国際電気通信基礎技術研究所 | 雑音抑圧装置、コンピュータプログラム、及び音声認識システム |
JP2010204274A (ja) * | 2009-03-02 | 2010-09-16 | Toshiba Corp | 音声認識装置、その方法及びそのプログラム |
US11928430B2 (en) * | 2019-09-12 | 2024-03-12 | Oracle International Corporation | Detecting unrelated utterances in a chatbot system |
-
1982
- 1982-06-19 JP JP57105886A patent/JPS58223193A/ja active Granted
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6340200A (ja) * | 1986-08-06 | 1988-02-20 | 日本電信電話株式会社 | 単語音声予備選択装置 |
Also Published As
Publication number | Publication date |
---|---|
JPH0252278B2 (ja) | 1990-11-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Barker et al. | The third ‘CHiME’speech separation and recognition challenge: Dataset, task and baselines | |
Aggarwal et al. | Performance evaluation of sequentially combined heterogeneous feature streams for Hindi speech recognition system | |
CN110047504B (zh) | 身份矢量x-vector线性变换下的说话人识别方法 | |
US5864807A (en) | Method and apparatus for training a speaker recognition system | |
Lin et al. | Mixture representation learning for deep speaker embedding | |
Mansour et al. | Voice recognition Using back propagation algorithm in neural networks | |
JPH09507921A (ja) | ニューラルネットワークを使用した音声認識システムおよびその使用方法 | |
Li et al. | Dual-path modeling with memory embedding model for continuous speech separation | |
JPS58223193A (ja) | 多数単語音声認識方式 | |
Rahman et al. | Employing phonetic information in DNN speaker embeddings to improve speaker recognition performance | |
Kamble et al. | Emotion recognition for instantaneous Marathi spoken words | |
Zailan et al. | Comparative analysis of LPC and MFCC for male speaker recognition in text-independent context | |
Abdiche et al. | Text-independent speaker identification using mel-frequency energy coefficients and convolutional neural networks | |
CN112951256A (zh) | 语音处理方法及装置 | |
Hossan et al. | Speaker recognition utilizing distributed DCT-II based Mel frequency cepstral coefficients and fuzzy vector quantization | |
Bansod et al. | Speaker Recognition using Marathi (Varhadi) Language | |
He et al. | LSTM Based End-to-End Text-Independent Speaker Verification Using Raw Waveform | |
JP2980382B2 (ja) | 話者適応音声認識方法および装置 | |
Kekre et al. | Performance comparison of automatic speaker recognition using vector quantization by LBG KFCG and KMCG | |
Albaraq | ARABIC SPEAKER RECOGNITION SYSTEM USING GAUSSIAN MIXTURE MODEL AND EM ALGORITHM. | |
Rajoriya et al. | Enhanced recognition rate of spoken Hindi paired word using probabilistic neural network approach | |
Müller et al. | On using the auditory image model and invariant-integration for noise robust automatic speech recognition | |
Nair et al. | A Study on Automatic Speech Recognition | |
Hyyryläinen | Comparison of different features for neural network-based models in speaker identification | |
JPS5915993A (ja) | 音声認識装置 |