JPS58223193A

JPS58223193A - 多数単語音声認識方式

Info

Publication number: JPS58223193A
Application number: JP57105886A
Authority: JP
Inventors: 小林　敦仁; 清岩田; 奈良　泰弘
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1982-06-19
Filing date: 1982-06-19
Publication date: 1983-12-24
Also published as: JPH0252278B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（１）発明の技術分野本発明は多故単暗を対象とし！＃定話者が発声した単賭
音声倉音豐分析し標準パターン−と照合し゛判定する多
数単語音声４繊方武に関するものである。

（２）従来技術とＩ！！趙点従来の音声認識装置では、特定−′：４を対象とし、少
威単讃間の戚別を目的とする装置ヤ、不特定−者を対象
とした数字音声のｄ歳装置等がすでに荷＃Ｉ：Ｊｖ仕分
は作業、−行の照会４務尋に実用化されている。

しかし、単語単位の認識勇武にＪ？いて、多数単語ｔ一
対象とした音声認識装置は特定話者についても米用化は
困−な現状である。これは対象率暗数が増大するに従い
、識別率の低下を招くとともに、日己憶童２よび照合の
ための計鼻時間停かばう大となることｒｃ起因する。

多数単鯖を対象とした音声認識方式では、特定話者の発
声した単語音声をｆｑＩ分析し標準バター７−と照合す
る方式が採られる。これに対し識別率の向上と記憶ｍ−
ｖ’ｔｉ算時間の短線を図るため、音響分析等の精密化
、情報圧縮方法の倹討等が適用されているし、また前処
理照合方式を用い照合対象となる標準パターンの数をＳ
ｔ＋減する方法が用いられている。その具体方法として
は、比較的識別し易い母音に着目し、その単鎖の母音系
列による分類を行なう方法等が包嵌的でめる。しかし、
これに関連する＃＃−ｉｆ繊別率が゛まだ不十分なこと
や、前処４照合時の手順が複雑なことが一点でｂる。

さらに単＃数に対する要求もたとえば６ｏｏｏ＃という
ように増大しているから、前述の方法のみではこれに逼
匹付けない塊状で必る。

（３）発明の目的本ａＡ興の目的は多数単一を対象とし物足話者が発声し
た単鎖音声′ｔ−ｆ’ｌｌｉ［分析し４ｓ卓バター／詳
との前処鳩照ｔを高祠度に効率的に行なう、多数単暗音
声ｄ繊方式を提供することでるる。

（４）発明の４！＃成前記目的を達成するため、本発明の多赦単語曾声−織方
式は多数単鎖を対象どじ物足話者が発声した単語ｆｙＩ
！Ｉを音曽分析し標準パター７椰と照合し判定する多赦
単饋音声ｄ織方武におして、前記４ｉｓパター／椰ｔ−
相互の距−に応じてクラスタリング手法を用匹ることに
より複数のグループに分け、各グループｇ５にそのセン
タを求めて代宍標準パターンとし、入力音声の音畳分析
した結果のパターンを各グループの代表標準パターンと
照合し、距離の最小の代表標準パターンのグループの標
準パターンにつき最終の照合を行なうことを特徴とする
ものである。

（５）発明の実施例１ｓ１図（α）　、　（ｂ）は本発明の原塩説明図であ
る。

同図（α）において、゛まず特定−＃がｆ縁のため、入
力音声１をｉｔ参分析２の結果、特徴抽出し襟単パター
／＄４４−登録しておき、これを！ｇ繊織時入力音声の
ｆｑ１分析し７’Ｃ結釆のパターンと照合する。

これらの標準パターン群との照合を間車化するため、同
図（６）に示すように、音＃分析し％微抽出を行なつ７
’Ｃ績釆、得られる特徴ベクトルを標準パターンＳｔと
する。そしてこれらの標準パターンをクラスタリング手
法を用いて複数のグループｇｌ＋ｆｆ１ｇｇ３・・・４
ｖｃ分ける。

いま、谷単語について１発声ずつ登録するものとすると
、標準パターンはと弐わされる。

ここでこれらのパターン間の距離を次のように定義する
。

この距離定禰に基づき標準パターン群間でたとえばに一
ミーンズ（Ｋ−ｍｅαｎａ）クラスタリング手法を用い
てクラスタリングを行なう。このに−ゼー／ズク２スタ
リング手法では、必らかじめクラスタの数を規定するこ
とができる。いま、クラスタの数をに１１！ｌとする。

そして、各クラスタのＩＩ／ＩＭ　ｉｆとしてＳＩＱ　
＊　Ｓ　Ｋ２　＋・・・ＳＫＫを与える。

この初期値を仮センタとして（１）式の距趨足−に基づ
き残ｐの標準パターンｔ−最小薊−をもつ仮センタに分
配することを−返し複数のクラスタに分ける。次ＶＣ各
りラスタ内でパターン相互の距−を耐昇し、そのクラス
タ内の吾パメー／を仮のセンタとしｆｃ場合の最も遠い
バター／との距離を求め、この距離の最小となる仮セン
タを基に残シのパターンを再分配し、前記の方法により
また＃ｒたなセンタｔ−算出する。この操作を繰返し、
全てのセ／りが変化しなくなる収束体感で停止させる。

これを−膜形で謄わし、各クラスタＩ”ｔｌｌ”＊・・
・ｇＫのセ−？（ｇｌ）１ｇＱ　　ベリＫ）ンタを代表標準パターンＳｃｍ、　ＳＣ２、５ｃｉｃ　
とする。

そして、このクラスタを＃＃成する＃４準パターン群金Ｇ、＝袋で゛ビ宕ｇ″２．扇１）、、、、　　眉（ｙＨ
）Ｇ・ｍｌ潴ゝ、詐２）　、　？、Ｆ）、・・・ｔＷＧ
Ｋ　＝”１４　＋ずｇＫ）月（ｇ−＋＋マ１２ここで　
１≦１１．　Ｌｍ、−ＬＫ（ｎとする。

このクラスタリングの標準パターン１！１のｇ１４１計
葺の１例を第２図（α）　、　（６）に示す。ナなわち
、同図（α）は登録のための入力ｆ／”がｉ！＃分析の
結果、周波数の谷頑城ｆｓ、ｆｘ、ｆａ・・・における
平均の音声パワーＰＩ　＃　Ｐａ　ｖ　Ｐｓ・・・を氷
め、これが時間軸の時点ｔ１゜ｋｙｔｓ・・・で変化し
た時、これらのデータを同図（６）に示すように一６４
語母にＦｓ　ｅ　ＦＢ　ＨＦＢ・・・と記憶した標準パ
ター／のデータテーブルを作成する。そしてこれらの４
１１パタ一ン間の距離を求めるには、同図に示すように
比較すべき両パターンの同時点。

同周波畝函域の音声パワーを比較し、それぞれの距離を
求め、総合の距離を算出する。そして前述の手順によシ
セ／りを求める。

このようにして決定されたクラスタリングにより、標準
バター／＃の構成は否クラスタのセンタを包成標準パタ
ーンとし、それに従属する形で谷クラスタ内の４準パタ
ーンが連鎖することになる。

次に＃友に発声された１ｉｆ−声が入“力された４汁、
その人力バター／は、まず谷クラスタのセンタである包
成標準パターン７ｇｓ’　＋　ＴＣ２’　ｅ・・ｊｆ）
、照合計算を行なう。その結果、距離最小の代表標準バ
ター／が求められ、次にその代置標準パターン群とだけ
照付＃を真を行ない、最小距離をＭするパターンをその
入カバターフの織＠結果とする。九とえば、入カバター
ンとの照合１ｉｔ−ｓの細末、代表標準パター７−、（
ｇ：ゝが最小距離を有するとした場合、Ｇｌｔｎｌｄす
るｄＡ＄パターン奈１１’　＋　？１？・・Ｅ％　’（
！：照照合葬を行ない、その中で最小距ｉｌｌを有する
パターンを識別結果として出力する。

この方法によシ、標準パターン群を構成すると、いまク
ラスタの数に個に対し、照合の対象となる標準パターン
数は、各クラスタに平均分配されたとしてを欠（ｎ＝１
率飴１標準パターンとじ九ときの標準パターン４畝）に
な９、全照合に比較してほぼ１／Ｋ　ａ　＆に減少させ
ることができる。

４６図は上述のｇ塩に従う本発明の′Ａ施例の構成説明
図であプ、特定話者による多数重ｔａ音声４織装置を示
す。

同図に２いて、入力媒体１１から入力されｆｃｔ声はＡ
／Ｄ変供器１２でデジタル信号に変成され、分析部１６
で［ｑ１分析され、特徴抽出部１４で第２図（α）で例
示したような特徴バター／が抽出され、同図（６）に示
したよりな標準パターンデータとして出力される。特定
話者の発声倉登録する場合には、モードｖＪ供ｔｆｌｓ
ＩＪ５を登鎌側にセットして、該標準パターンデータは
辞書リード／ライト部１９を経由して辞蕾４梢ｓ２０に
膏込み蓄積する。対象単語全てを発声ｆ録した後に、Ｉ
／’ｆ４格納部２ｏにある標準パターンを辞書リード／
ライト部１９を介してクラスタリング処瑣部１８でクラ
スタリング分析を行ない、前述し丸ように、たとえばに
−ゼーンズクラスタリング手法を用いてｆ録されｆｃ儂
標準ターンをクラスタ母にグループ化し、それぞれのセ
ンタを求めて再構成して再び１ｉｎｉｖ−ド／ライト部
１９を介して辞４Ｆ格納部２０に格納する。この場合、
谷クラスタ内の標準パター／の先頭ＶＣ−ｔンタセンタ
標準パターンを配置し、その格納場所の先舗アドレスを
１！＃齋アドレス瑣示部１７にｉｉｉ：！憶させる。

次に、４紬の場曾はモード切議部１５を４臓側にセット
し、入力バター７は辞★アドレス虐示ｓ１７のアドレス
指示により、まずセンタとなる標準バター／を続出し、
照脅部１６で距喝耐算を行ない、判定部２１で判定し最
小距鑵會有するセンタが代表するクラスタ内の標準パタ
ーンをＪ＠に続出し照合計算し、再び判定８２１で判定
し、最小距−を有する標準パターンｔ＋Ｓ別結果として
出刃する。

本発明の特徴は多数単語の入カバターンを辞蕾内の標準
パターンと逐次照合するのではなく、標準パターン群を
１１故グループに分けて、各グループのセンタを求め、
これと前照合を行なうことによｐ最小距離のセンタを有
するグループを抽出することであ夛、公知のクラスタリ
ング手法は上記のグループ分けとセンタを求める手段と
して用＾たものである。

（６）発明の詳細な説明したように、本発９８ｖｃよれば、特定話者を対
象とした多数単語音声認識装置において、発声登録され
た標準パターン群をクラスタリング手法を用いて谷クラ
スタ’ｓｖこグループ化し、そのクラスタのセンタを代
旗標準パターンとして定−することにより、入力発声パ
ターンとの本照合以前にこの代表標準パターンと前照合
Ｃ行なうことによシ、人力発声パターンとの本照会時の
対象標準パター／畝ｔたとえば前述のように１／Ｋに減
少することができ、照合時間を大幅に短縮することがｏ
Ｊ能とな９、かつ１１ａＲ繊率を＾差に保つことができ
る。これによ勺特定話者による多数単語の音声４臓の実
用化に役立つところが大きいものでるる。

【図面の簡単な説明】

４１図（ａ）、　（６）は本発明の原理説明図、第２図
に）。（６）はｊｇ１図の要部の具体例による説明図、嬉６図
は本発明の＾臨画の構成説明図で６９、図中、１１は入
力媒体、１２はＶＤ変換器、１５は分析部、１４は％倣
抽出部、１５はモードＩＩＩＩＩＩＩ＆部、１６は照合
部、１７は＄４アドレス瑣承部、１８はクラスタリング
処場部、１９は辞膏リード／ライト部、２０は辞齋格納
部、２１は判定部を示す。特許出願人　富士通株式会社復代塩人　弁埴土　１）坂　豐　貞

Claims

【特許請求の範囲】

多数単ｍ金対象とし特定話者が発声した単語音声を音響
分析し、標準パターン群と照合し判定する多数単語音声
４繊方式において、前記標準パターン群を相互の距離に
応じてクラスタリング手法を用いることにより複数のグ
ループに分け、各グループＳＶＣそのセンタを求めて代
減儂準パターンとし、入力音声の音響分析した結果のバ
ター／を谷グループの代禰椰準パターンと照合し、距−
の戚小の代犬標準パターンのグループの標準パターンに
つきｍ終の照合を行なうこと金％黴とする多数単語音声
４繊方式。