JPH0252278B2 - - Google Patents

Info

Publication number
JPH0252278B2
JPH0252278B2 JP57105886A JP10588682A JPH0252278B2 JP H0252278 B2 JPH0252278 B2 JP H0252278B2 JP 57105886 A JP57105886 A JP 57105886A JP 10588682 A JP10588682 A JP 10588682A JP H0252278 B2 JPH0252278 B2 JP H0252278B2
Authority
JP
Japan
Prior art keywords
pattern
standard
group
standard pattern
patterns
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP57105886A
Other languages
English (en)
Other versions
JPS58223193A (ja
Inventor
Atsuhito Kobayashi
Kyoshi Iwata
Yasuhiro Nara
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP57105886A priority Critical patent/JPS58223193A/ja
Publication of JPS58223193A publication Critical patent/JPS58223193A/ja
Publication of JPH0252278B2 publication Critical patent/JPH0252278B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 (1) 発明の技術分野 本発明は多数単語を対象とし特定話者が発声し
た単語音声を音響分析し標準パターン群と照合し
判定する多数単語音声認識方式に関するものであ
る。
(2) 従来技術と問題点 従来の音声認識装置では、特定話者を対象と
し、少数単語間の識別を目的とする装置や、不特
定話者を対象とした数字音声の認識装置等がすで
に荷物の仕分け作業,銀行の照合業務等に実用化
されている。
しかし、単語単位の認識方式において、多数単
語を対象とした音声認識装置は特定話者について
も実用化は困難な現状である。これは対象単語数
が増大するに従い、識別率の低下を招くととも
に、記憶量および照合のための計算時間等がぼう
大となることに起因する。
多数単語を対象とした音声認識方式では、特定
話者の発声した単語音声を音響分析し標準パター
ン群と照合する方式が採られる。これに対し識別
率の向上と記憶量や計算時間の短縮を図るため、
音響分析等の精密化,情報圧縮方法の検討等が適
用されているし、また前処理照合方式を用い照合
対象となる標準パターンの数を削減する方法が用
いられている。その具体方法としては、比較的識
別し易い母音に着目し、その単語の母音系列によ
る分類を行なう方法等が代表的である。しかし、
これに関連する母音識別率がまだ不十分なこと
や、前処理照合時の手順が複雑なことが難点であ
る。さらに単語数に対する要求もたとえば3000語
というように増大しているから、前述の方法のみ
ではこれを追い付けない現状である。
(3) 発明の目的 本発明の目的は多数単語を対象とし特定話者が
発声した単語音声を音響分析し標準パターン群と
の前処理照合を高精度に効率的に行なう、多数単
語音声認識方式を提供することである。
(4) 発明の構成 前記目的を達成するため、本発明の多数単語音
声認識方式は多数単語を対象とし特定話者が発声
した単語音声を音響分析し標準パターン群と照合
し判定する多数単語音声認識方式において、前記
標準パターン群を相互の距離に応じてクラスタリ
ング手法を用いることにより複数のグループに分
け、各グループ毎にそのセンタを求めて代表標準
パターンとし、入力音声の音響分析した結果のパ
ターンを各グループの代表標準パターンと照合
し、距離の最小の代表標準パターンのグループの
標準パターンにつき最終の照合を行なうことを特
徴とするものである。
(5) 発明の実施例 第1図a,bは本発明の原理説明図である。同
図aにおいて、まず特定話者が登録のため、入力
音声1を音響分析2の結果、特徴抽出し標準パタ
ーン群4を登録しておき、これを認識時に入力音
声の音響分析した結果のパターンと照合する。こ
れらの標準パターン群との照合を簡単化するた
め、同図bに示すように、音響分析し特徴抽出を
行なつた結果、得られる特徴ベクトルを標準パタ
ーンS→iとする。そしてこれらの標準パターンを
クラスタリング手法を用いて複数のグループg1
g2,g3…等に分ける。
いま、各単語について1発声ずつ登録するもの
とすると、標準パターンは S→1,S→2,S→3,…,S→o(n;単語総数) と表わされる。
ここでこれらのパターン間の距離を次のように
定義する。
d=|S→i−S→j| (1≦i,j≦n,i
〓j) (1) この距離定義に基づき標準パターン群間でたと
えばK―ミーンズ(K―means)クラスタリング
手法を用いてクラスタリングを行なう。このK―
ミーンズクラスタリング手法では、あらかじめク
ラスタの数を規定することができる。いま、クラ
スタの数をK個とする。
そして、各クラスタの初期値としてS→K1,S→K
,…S→KKを与える。
この初期値を仮センタとして(1)式の距離定義に
基づき残りの標準パターンを最小距離をもつ仮セ
ンタに分配することを繰返し複数のクラスタに分
ける。次に各クラスタ内でパターン相互の距離を
計算し、そのクラスタ内の各パターンを仮のセン
タとした場合の最も遠いパターンとの距離を求
め、この距離の最小となる仮センタを基に残りの
パターンを再分配し、前記の方法によりまた新た
なセンタを算出する。この操作を繰返し、全ての
センタが変化しなくなる収束状態で停止させる。
これを一般形で表わし、各クラスタg1,g2,…gK
のセンタを代表標準パターンS→(g1) C1,S→(g2) C2
S→(gK) CK
とする。そして、このクラスタを構成する標準パ
ターン群を G1=S→(g1) C1,S→(g1) 1,S→(g1) 2,…S→(g1) l1 G2=S→(g2) C2,S→(g2) 1,S→(g2) 2,…S→(g2) l2 GK=S→(gK) CK,S→(gK) 1,S→(gK) 2,…S→(gK) lK ここで 1≦l1,l2,…lK<n とする。
このクラスタリングの標準パターン間の距離計
算の1例を第2図a,bに示す。すなわち、同図
aは登録のための入力音声が音響分析の結果、周
波数の各領域f1,f2,f3…における平均の音声パ
ワーP1,P2,P3…を求め、これが時間軸の時点
t1,t2,t3…で変化した時、これらのデータを同
図bに示すように各単語毎にF1,F2,F3…と記
憶した標準パターンのデータテーブルを作成す
る。そしてこれらの標準パターン間の距離を求め
るには、同図に示すように比較すべき両パターン
の同時点,同周波数領域の音声パワーを比較し、
それぞれの距離を求め、総合の距離を算出する。
そして前述の手順によりセンタを求める。
このようにして決定されたクラスタリングによ
り、標準パターン群の構成は各クラスタのセンタ
を代表標準パターンとし、それに従属する形で各
クラスタ内の標準パターンが連鎖することにな
る。
次に新たに発声された音声が入力された場合、
その入力パターンは、まず各クラスタのセンタで
ある代表標準パターンS→(g1) C1,S→(g2) C2,…S→
(gK) CKと照
合計算を行なう。その結果、距離最小の代表標準
パターンが求められ、次にその代表標準パターン
群とだけ照合計算を行ない、最小距離を有するパ
ターンをその入力パターンの識判結果とする。た
とえば、入力パターンとの照合計算の結果、代表
標準パターンS→(g1) C1が最小距離を有するとした場
合、G1を構成する標準パターンS→(g1) C1,S→(g1) 1
…S→
(g1) l1と照合計算を行ない、その中で最小距離を有
するパターンを識別結果として出力する。
この方法により、標準パターン群を構成する
と、いまクラスタの数K個に対し、照合の対象と
なる標準パターン数は、各クラスタに平均分配さ
れたとしてn/K(n:1単語1標準パターンと
したときの標準パターン総数)になり、全照合に
比較してほぼ1/K程度に減少させることができ
る。
第3図は上述の原理に従う本発明の実施例の構
成説明図であり、特定話者による多数単語音声認
識装置を示す。
同図において、入力媒体11から入力された音
声はA/D変換器12でデジタル信号に変換さ
れ、分析部13で音響分析され、特徴抽出部14
で第2図aで例示したような特徴パターンが抽出
され、同図bに示したような標準パターンデータ
として出力される。特定話者の発声を登録する場
合には、モード切換部15を登録側にセツトし
て、該標準パターンデータは辞書リード/ライト
部19を経由して辞書格納部20に書込み蓄積す
る。対象単語全てを発声登録した後に、辞書格納
部20にある標準パターンを辞書リード/ライト
部19を介してクラスタリング処理部18でクラ
スタリング分析を行ない、前述したように、たと
えばK―ミーンズクラスタリング手法を用いて登
録された標準パターンをクラスタ毎にグループ化
し、それぞれのセンタを求めて再構成して再び辞
書リード/ライト部19を介して辞書格納部20
に格納する。この場合、各クラスタ内の標準パタ
ーンの先頭にセンタとなる標準パターンを配置
し、その格納場所の先頭アドレスを辞書アドレス
指示部17に記憶させる。
次に、認識の場合はモード切換部15を認識側
にセツトし、入力パターンは辞書アドレス指示部
17のアドレス指示により、まずセンタとなる標
準パターンを読出し、照合部16で距離計算を行
ない、判定部21で判定し最小距離を有するセン
タが代表するクラスタ内の標準パターンを順に読
出し照合計算し、再び判定部21で判定し、最小
距離を有する標準パターンを識別結果として出力
する。
本発明の特徴は多数単語の入力パターンを辞書
内の標準パターンと逐次照合するのではなく、標
準パターン群を複数グループに分けて、各グルー
プのセンタを求め、これと前照合を行なうことに
より最小距離のセンタを有するグループを抽出す
ることであり、公知のクラスタリング手法は上記
のグループ分けとセンタを求める手段として用い
たものである。
(6) 発明の効果 以上説明したように、本発明によれば、特定話
者を対象とした多数単語音声認識装置において、
発声登録された標準パターン群をクラスタリング
手法を用いて各クラスタ毎にグループ化し、その
クラスタのセンタを代表標準パターンとして定義
することにより、入力発声パターンとの本照合以
前にこの代表標準パターンと前照合を行なうこと
により、入力発声パターンとの本照合時の対象標
準パターン数をたとえば前述のように1/Kに減
少することができ、照合時間を大幅に短縮するこ
とが可能となり、かつ認識率を高度に保つことが
できる。これにより特定話者による多数単語の音
声認識の実用化に役立つところが大きいものであ
る。
【図面の簡単な説明】
第1図a,bは本発明の原理説明図、第2図
a,bは第1図の要部の具体例による説明図、第
3図は本発明の実施例の構成説明図であり、図
中、11は入力媒体、12はA/D変換器、13
は分析部、14は特徴抽出部、15はモード切換
部、16は照合部、17は辞書アドレス指示部、
18はクラスタリング処理部、19は辞書リー
ド/ライト部、20は辞書格納部、21は判定部
を示す。

Claims (1)

    【特許請求の範囲】
  1. 1 多数単語を対象とし特定話者が発声した単語
    音声を音響分析し、標準パターン群と照合し判定
    する多数単語音声認識方式において、前記標準パ
    ターン群を相互の距離に応じてクラスタリング手
    法を用いることにより複数のグループに分け、各
    グループ毎にそのセンタを求めて代表標準パター
    ンとし、入力音声の音響分析した結果のパターン
    を各グループの代表標準パターンと照合し、距離
    の最小の代表標準パターンのグループの標準パタ
    ーンにつき最終の照合を行なうことを特徴とする
    多数単語音声認識方式。
JP57105886A 1982-06-19 1982-06-19 多数単語音声認識方式 Granted JPS58223193A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57105886A JPS58223193A (ja) 1982-06-19 1982-06-19 多数単語音声認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57105886A JPS58223193A (ja) 1982-06-19 1982-06-19 多数単語音声認識方式

Publications (2)

Publication Number Publication Date
JPS58223193A JPS58223193A (ja) 1983-12-24
JPH0252278B2 true JPH0252278B2 (ja) 1990-11-13

Family

ID=14419402

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57105886A Granted JPS58223193A (ja) 1982-06-19 1982-06-19 多数単語音声認識方式

Country Status (1)

Country Link
JP (1) JPS58223193A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07230299A (ja) * 1994-02-17 1995-08-29 Sanyo Electric Co Ltd 音声認識装置
WO2003088209A1 (fr) * 2002-04-12 2003-10-23 Mitsubishi Denki Kabushiki Kaisha Systeme de navigation de voiture et dispositif de reconnaissance vocale de ce systeme
JP2008292858A (ja) * 2007-05-25 2008-12-04 Advanced Telecommunication Research Institute International 雑音抑圧装置、コンピュータプログラム、及び音声認識システム
JP2010204274A (ja) * 2009-03-02 2010-09-16 Toshiba Corp 音声認識装置、その方法及びそのプログラム
US20210083994A1 (en) * 2019-09-12 2021-03-18 Oracle International Corporation Detecting unrelated utterances in a chatbot system

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2577891B2 (ja) * 1986-08-06 1997-02-05 日本電信電話株式会社 単語音声予備選択装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07230299A (ja) * 1994-02-17 1995-08-29 Sanyo Electric Co Ltd 音声認識装置
WO2003088209A1 (fr) * 2002-04-12 2003-10-23 Mitsubishi Denki Kabushiki Kaisha Systeme de navigation de voiture et dispositif de reconnaissance vocale de ce systeme
JPWO2003088209A1 (ja) * 2002-04-12 2005-08-25 三菱電機株式会社 カーナビゲーションシステム並びにその音声認識装置
JP2008292858A (ja) * 2007-05-25 2008-12-04 Advanced Telecommunication Research Institute International 雑音抑圧装置、コンピュータプログラム、及び音声認識システム
JP2010204274A (ja) * 2009-03-02 2010-09-16 Toshiba Corp 音声認識装置、その方法及びそのプログラム
US20210083994A1 (en) * 2019-09-12 2021-03-18 Oracle International Corporation Detecting unrelated utterances in a chatbot system
US11928430B2 (en) * 2019-09-12 2024-03-12 Oracle International Corporation Detecting unrelated utterances in a chatbot system

Also Published As

Publication number Publication date
JPS58223193A (ja) 1983-12-24

Similar Documents

Publication Publication Date Title
US10176811B2 (en) Neural network-based voiceprint information extraction method and apparatus
JP3337233B2 (ja) 音声符号化方法及び装置
US5794190A (en) Speech pattern recognition using pattern recognizers and classifiers
Apsingekar et al. Speaker model clustering for efficient speaker identification in large population applications
EP0709826B1 (en) Pattern recognition method
Bocchieri et al. Discriminative feature selection for speech recognition
Bharali et al. Speech recognition with reference to Assamese language using novel fusion technique
JP2980026B2 (ja) 音声認識装置
Saritha et al. A comprehensive review on speaker recognition
Laskar et al. Integrating DNN–HMM technique with hierarchical multi-layer acoustic model for text-dependent speaker verification
JPH0252278B2 (ja)
Chauhan et al. Comparative study of MFCC and LPC algorithms for Gujrati isolated word recognition
Gupta et al. Segment-level pyramid match kernels for the classification of varying length patterns of speech using SVMs
CN1963918A (zh) 说话人模板的压缩、合并装置和方法,以及说话人认证
Cai et al. Deep speaker embeddings with convolutional neural network on supervector for text-independent speaker recognition
Naik et al. Kernel based matching and a novel training approach for CNN-based QbE-STD
CN114175150A (zh) 语音处理设备、语音处理方法和存储程序的非暂时性计算机可读介质
JP3036509B2 (ja) 話者照合における閾値決定方法及び装置
JP3584002B2 (ja) 音声認識装置および音声認識方法
Huggins et al. The use of shibboleth words for automatically classifying speakers by dialect
JPH07160287A (ja) 標準パターン作成装置
JPH0323920B2 (ja)
JPS5934595A (ja) 音声認識処理方式
JP2000137495A (ja) 音声認識装置および音声認識方法
JP3293191B2 (ja) 音声認識装置