JPS58223193A - 多数単語音声認識方式 - Google Patents

多数単語音声認識方式

Info

Publication number
JPS58223193A
JPS58223193A JP57105886A JP10588682A JPS58223193A JP S58223193 A JPS58223193 A JP S58223193A JP 57105886 A JP57105886 A JP 57105886A JP 10588682 A JP10588682 A JP 10588682A JP S58223193 A JPS58223193 A JP S58223193A
Authority
JP
Japan
Prior art keywords
standard
group
pattern
distance
center
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP57105886A
Other languages
English (en)
Other versions
JPH0252278B2 (ja
Inventor
小林 敦仁
清 岩田
奈良 泰弘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP57105886A priority Critical patent/JPS58223193A/ja
Publication of JPS58223193A publication Critical patent/JPS58223193A/ja
Publication of JPH0252278B2 publication Critical patent/JPH0252278B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (1)発明の技術分野 本発明は多故単暗を対象とし!#定話者が発声した単賭
音声倉音豐分析し標準パターン−と照合し゛判定する多
数単語音声4繊方武に関するものである。
(2)従来技術とI!!趙点 従来の音声認識装置では、特定−′:4を対象とし、少
威単讃間の戚別を目的とする装置ヤ、不特定−者を対象
とした数字音声のd歳装置等がすでに荷#I:Jv仕分
は作業、−行の照会4務尋に実用化されている。
しかし、単語単位の認識勇武にJ?いて、多数単語t一
対象とした音声認識装置は特定話者についても米用化は
困−な現状である。これは対象率暗数が増大するに従い
、識別率の低下を招くとともに、日己憶童2よび照合の
ための計鼻時間停かばう大となることrc起因する。
多数単鯖を対象とした音声認識方式では、特定話者の発
声した単語音声をfqI分析し標準バター7−と照合す
る方式が採られる。これに対し識別率の向上と記憶m−
v’ti算時間の短線を図るため、音響分析等の精密化
、情報圧縮方法の倹討等が適用されているし、また前処
理照合方式を用い照合対象となる標準パターンの数をS
t+減する方法が用いられている。その具体方法として
は、比較的識別し易い母音に着目し、その単鎖の母音系
列による分類を行なう方法等が包嵌的でめる。しかし、
これに関連する##−if繊別率が゛まだ不十分なこと
や、前処4照合時の手順が複雑なことが一点でbる。
さらに単#数に対する要求もたとえば6ooo#という
ように増大しているから、前述の方法のみではこれに逼
匹付けない塊状で必る。
(3)発明の目的 本aA興の目的は多数単一を対象とし物足話者が発声し
た単鎖音声′t−f’lli[分析し4s卓バター/詳
との前処鳩照tを高祠度に効率的に行なう、多数単暗音
声d繊方式を提供することでるる。
(4)発明の4!#成 前記目的を達成するため、本発明の多赦単語曾声−織方
式は多数単鎖を対象どじ物足話者が発声した単語fyI
!Iを音曽分析し標準パター7椰と照合し判定する多赦
単饋音声d織方武におして、前記4isパター/椰t−
相互の距−に応じてクラスタリング手法を用匹ることに
より複数のグループに分け、各グループg5にそのセン
タを求めて代宍標準パターンとし、入力音声の音畳分析
した結果のパターンを各グループの代表標準パターンと
照合し、距離の最小の代表標準パターンのグループの標
準パターンにつき最終の照合を行なうことを特徴とする
ものである。
(5)発明の実施例 1s1図(α) 、 (b)は本発明の原塩説明図であ
る。
同図(α)において、゛まず特定−#がf縁のため、入
力音声1をit参分析2の結果、特徴抽出し襟単パター
/$44−登録しておき、これを!g繊織時入力音声の
fq1分析し7’C結釆のパターンと照合する。
これらの標準パターン群との照合を間車化するため、同
図(6)に示すように、音#分析し%微抽出を行なつ7
’C績釆、得られる特徴ベクトルを標準パターンStと
する。そしてこれらの標準パターンをクラスタリング手
法を用いて複数のグループgl+ff1gg3・・・4
vc分ける。
いま、谷単語について1発声ずつ登録するものとすると
、標準パターンは と弐わされる。
ここでこれらのパターン間の距離を次のように定義する
この距離定禰に基づき標準パターン群間でたとえばに一
ミーンズ(K−meαna)クラスタリング手法を用い
てクラスタリングを行なう。このに−ゼー/ズク2スタ
リング手法では、必らかじめクラスタの数を規定するこ
とができる。いま、クラスタの数をに11!lとする。
そして、各クラスタのII/IM ifとしてSIQ 
* S K2 +・・・SKKを与える。
この初期値を仮センタとして(1)式の距趨足−に基づ
き残pの標準パターンt−最小薊−をもつ仮センタに分
配することを−返し複数のクラスタに分ける。次VC各
りラスタ内でパターン相互の距−を耐昇し、そのクラス
タ内の吾パメー/を仮のセンタとしfc場合の最も遠い
バター/との距離を求め、この距離の最小となる仮セン
タを基に残シのパターンを再分配し、前記の方法により
また#rたなセンタt−算出する。この操作を繰返し、
全てのセ/りが変化しなくなる収束体感で停止させる。
これを−膜形で謄わし、各クラスタI”tll”*・・
・gKのセ−?(gl)1gQ  ベリK) ンタを代表標準パターンScm、 SC2、5cic 
とする。
そして、このクラスタを##成する#4準パターン群金 G、=袋で゛ビ宕g″2.扇1)、、、、  眉(yH
)G・ml潴ゝ、詐2) 、 ?、F)、・・・tWG
K =”14 +ずgK)月(g−++マ12ここで 
1≦11. Lm、−LK(nとする。
このクラスタリングの標準パターン1!1のg141計
葺の1例を第2図(α) 、 (6)に示す。ナなわち
、同図(α)は登録のための入力f/”がi!#分析の
結果、周波数の谷頑城fs、fx、fa・・・における
平均の音声パワーPI # Pa v Ps・・・を氷
め、これが時間軸の時点t1゜kyts・・・で変化し
た時、これらのデータを同図(6)に示すように一64
語母にFs e FB HFB・・・と記憶した標準パ
ター/のデータテーブルを作成する。そしてこれらの4
11パタ一ン間の距離を求めるには、同図に示すように
比較すべき両パターンの同時点。
同周波畝函域の音声パワーを比較し、それぞれの距離を
求め、総合の距離を算出する。そして前述の手順によシ
セ/りを求める。
このようにして決定されたクラスタリングにより、標準
バター/#の構成は否クラスタのセンタを包成標準パタ
ーンとし、それに従属する形で谷クラスタ内の4準パタ
ーンが連鎖することになる。
次に#友に発声された1if−声が入“力された4汁、
その人力バター/は、まず谷クラスタのセンタである包
成標準パターン7gs’ + TC2’ e・・jf)
、照合計算を行なう。その結果、距離最小の代表標準バ
ター/が求められ、次にその代置標準パターン群とだけ
照付#を真を行ない、最小距離をMするパターンをその
入カバターフの織@結果とする。九とえば、入カバター
ンとの照合1it−sの細末、代表標準パター7−、(
g:ゝが最小距離を有するとした場合、Gltnldす
るdA$パターン奈11’ + ?1?・・E% ’(
!:照照合葬を行ない、その中で最小距illを有する
パターンを識別結果として出力する。
この方法によシ、標準パターン群を構成すると、いまク
ラスタの数に個に対し、照合の対象となる標準パターン
数は、各クラスタに平均分配されたとしてを欠(n=1
率飴1標準パターンとじ九ときの標準パターン4畝)に
な9、全照合に比較してほぼ1/K a &に減少させ
ることができる。
46図は上述のg塩に従う本発明の′A施例の構成説明
図であプ、特定話者による多数重ta音声4織装置を示
す。
同図に2いて、入力媒体11から入力されfct声はA
/D変供器12でデジタル信号に変成され、分析部16
で[q1分析され、特徴抽出部14で第2図(α)で例
示したような特徴バター/が抽出され、同図(6)に示
したよりな標準パターンデータとして出力される。特定
話者の発声倉登録する場合には、モードvJ供tfls
IJ5を登鎌側にセットして、該標準パターンデータは
辞書リード/ライト部19を経由して辞蕾4梢s20に
膏込み蓄積する。対象単語全てを発声f録した後に、I
/’f4格納部2oにある標準パターンを辞書リード/
ライト部19を介してクラスタリング処瑣部18でクラ
スタリング分析を行ない、前述し丸ように、たとえばに
−ゼーンズクラスタリング手法を用いてf録されfc儂
標準ターンをクラスタ母にグループ化し、それぞれのセ
ンタを求めて再構成して再び1iniv−ド/ライト部
19を介して辞4F格納部20に格納する。この場合、
谷クラスタ内の標準パター/の先頭VC−tンタセンタ
標準パターンを配置し、その格納場所の先舗アドレスを
1!#齋アドレス瑣示部17にiii:!憶させる。
次に、4紬の場曾はモード切議部15を4臓側にセット
し、入力バター7は辞★アドレス虐示s17のアドレス
指示により、まずセンタとなる標準バター/を続出し、
照脅部16で距喝耐算を行ない、判定部21で判定し最
小距鑵會有するセンタが代表するクラスタ内の標準パタ
ーンをJ@に続出し照合計算し、再び判定821で判定
し、最小距−を有する標準パターンt+S別結果として
出刃する。
本発明の特徴は多数単語の入カバターンを辞蕾内の標準
パターンと逐次照合するのではなく、標準パターン群を
11故グループに分けて、各グループのセンタを求め、
これと前照合を行なうことによp最小距離のセンタを有
するグループを抽出することであ夛、公知のクラスタリ
ング手法は上記のグループ分けとセンタを求める手段と
して用^たものである。
(6)発明の詳細 な説明したように、本発98vcよれば、特定話者を対
象とした多数単語音声認識装置において、発声登録され
た標準パターン群をクラスタリング手法を用いて谷クラ
スタ’svこグループ化し、そのクラスタのセンタを代
旗標準パターンとして定−することにより、入力発声パ
ターンとの本照合以前にこの代表標準パターンと前照合
C行なうことによシ、人力発声パターンとの本照会時の
対象標準パター/畝tたとえば前述のように1/Kに減
少することができ、照合時間を大幅に短縮することがo
J能とな9、かつ11aR繊率を^差に保つことができ
る。これによ勺特定話者による多数単語の音声4臓の実
用化に役立つところが大きいものでるる。
【図面の簡単な説明】
41図(a)、 (6)は本発明の原理説明図、第2図
に)。 (6)はjg1図の要部の具体例による説明図、嬉6図
は本発明の^臨画の構成説明図で69、図中、11は入
力媒体、12はVD変換器、15は分析部、14は%倣
抽出部、15はモードIIIIIII&部、16は照合
部、17は$4アドレス瑣承部、18はクラスタリング
処場部、19は辞膏リード/ライト部、20は辞齋格納
部、21は判定部を示す。 特許出願人 富士通株式会社 復代塩人 弁埴土 1)坂 豐 貞

Claims (1)

    【特許請求の範囲】
  1. 多数単m金対象とし特定話者が発声した単語音声を音響
    分析し、標準パターン群と照合し判定する多数単語音声
    4繊方式において、前記標準パターン群を相互の距離に
    応じてクラスタリング手法を用いることにより複数のグ
    ループに分け、各グループSVCそのセンタを求めて代
    減儂準パターンとし、入力音声の音響分析した結果のバ
    ター/を谷グループの代禰椰準パターンと照合し、距−
    の戚小の代犬標準パターンのグループの標準パターンに
    つきm終の照合を行なうこと金%黴とする多数単語音声
    4繊方式。
JP57105886A 1982-06-19 1982-06-19 多数単語音声認識方式 Granted JPS58223193A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57105886A JPS58223193A (ja) 1982-06-19 1982-06-19 多数単語音声認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57105886A JPS58223193A (ja) 1982-06-19 1982-06-19 多数単語音声認識方式

Publications (2)

Publication Number Publication Date
JPS58223193A true JPS58223193A (ja) 1983-12-24
JPH0252278B2 JPH0252278B2 (ja) 1990-11-13

Family

ID=14419402

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57105886A Granted JPS58223193A (ja) 1982-06-19 1982-06-19 多数単語音声認識方式

Country Status (1)

Country Link
JP (1) JPS58223193A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6340200A (ja) * 1986-08-06 1988-02-20 日本電信電話株式会社 単語音声予備選択装置

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07230299A (ja) * 1994-02-17 1995-08-29 Sanyo Electric Co Ltd 音声認識装置
WO2003088209A1 (fr) * 2002-04-12 2003-10-23 Mitsubishi Denki Kabushiki Kaisha Systeme de navigation de voiture et dispositif de reconnaissance vocale de ce systeme
JP5070591B2 (ja) * 2007-05-25 2012-11-14 株式会社国際電気通信基礎技術研究所 雑音抑圧装置、コンピュータプログラム、及び音声認識システム
JP2010204274A (ja) * 2009-03-02 2010-09-16 Toshiba Corp 音声認識装置、その方法及びそのプログラム
US11928430B2 (en) * 2019-09-12 2024-03-12 Oracle International Corporation Detecting unrelated utterances in a chatbot system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6340200A (ja) * 1986-08-06 1988-02-20 日本電信電話株式会社 単語音声予備選択装置

Also Published As

Publication number Publication date
JPH0252278B2 (ja) 1990-11-13

Similar Documents

Publication Publication Date Title
Barker et al. The third ‘CHiME’speech separation and recognition challenge: Dataset, task and baselines
Aggarwal et al. Performance evaluation of sequentially combined heterogeneous feature streams for Hindi speech recognition system
CN110047504B (zh) 身份矢量x-vector线性变换下的说话人识别方法
US5864807A (en) Method and apparatus for training a speaker recognition system
Lin et al. Mixture representation learning for deep speaker embedding
Mansour et al. Voice recognition Using back propagation algorithm in neural networks
JPH09507921A (ja) ニューラルネットワークを使用した音声認識システムおよびその使用方法
Li et al. Dual-path modeling with memory embedding model for continuous speech separation
JPS58223193A (ja) 多数単語音声認識方式
Rahman et al. Employing phonetic information in DNN speaker embeddings to improve speaker recognition performance
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
Zailan et al. Comparative analysis of LPC and MFCC for male speaker recognition in text-independent context
Abdiche et al. Text-independent speaker identification using mel-frequency energy coefficients and convolutional neural networks
CN112951256A (zh) 语音处理方法及装置
Hossan et al. Speaker recognition utilizing distributed DCT-II based Mel frequency cepstral coefficients and fuzzy vector quantization
Bansod et al. Speaker Recognition using Marathi (Varhadi) Language
He et al. LSTM Based End-to-End Text-Independent Speaker Verification Using Raw Waveform
JP2980382B2 (ja) 話者適応音声認識方法および装置
Kekre et al. Performance comparison of automatic speaker recognition using vector quantization by LBG KFCG and KMCG
Albaraq ARABIC SPEAKER RECOGNITION SYSTEM USING GAUSSIAN MIXTURE MODEL AND EM ALGORITHM.
Rajoriya et al. Enhanced recognition rate of spoken Hindi paired word using probabilistic neural network approach
Müller et al. On using the auditory image model and invariant-integration for noise robust automatic speech recognition
Nair et al. A Study on Automatic Speech Recognition
Hyyryläinen Comparison of different features for neural network-based models in speaker identification
JPS5915993A (ja) 音声認識装置