JP3536380B2 - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP3536380B2
JP3536380B2 JP26527994A JP26527994A JP3536380B2 JP 3536380 B2 JP3536380 B2 JP 3536380B2 JP 26527994 A JP26527994 A JP 26527994A JP 26527994 A JP26527994 A JP 26527994A JP 3536380 B2 JP3536380 B2 JP 3536380B2
Authority
JP
Japan
Prior art keywords
template
unit
subspace
standard pattern
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP26527994A
Other languages
English (en)
Other versions
JPH08123466A (ja
Inventor
知弘 岩崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP26527994A priority Critical patent/JP3536380B2/ja
Publication of JPH08123466A publication Critical patent/JPH08123466A/ja
Application granted granted Critical
Publication of JP3536380B2 publication Critical patent/JP3536380B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、予め記憶してあるテ
ンプレートの選択による話者適応化機能を有する音声認
識装置に関するものである。
【0002】
【従来の技術】従来、話者適応化技術を用いて認識性能
を高めようとするこの種の音声認識装置としては多くの
ものが提案されている。ここでは特開平2−22620
0号公報に示されたものを一例として従来の技術を説明
する。従来の音声認識装置の構成を図5に示す。図5に
おいて従来の音声認識装置は、あらかじめ定められた標
準パターンとして音声を発声した話者に対してクラスタ
リングした話者クラスタ毎に対応し所定のカテゴリ毎に
分割されたテンプレートが格納されたカテゴリテーブル
を含む標準パターン部24と、この標準パターン部24
のテンプレートのうち音声を発声した話者に類似したテ
ンプレート30を選択するテンプレート選択部25と、
入力信号26を分析して入力パターン27に変換する分
析部21と、この分析部21の入力パターン27とテン
プレート選択部25において選択されたテンプレート3
1とのマッチング処理を行なうマッチング部22と、マ
ッチング部22のマッチング結果28に基づいて識別結
果29を出力する識別部23とを備える。
【0003】このような構成の音声認識装置の動作につ
いて説明する。認識に先だって標準パターン部24には
テンプレートが記憶されているものとする。まず、分析
部21は入力信号26を分析して入力パターン27に変
換する。マッチング部22は分析部21の入力パターン
27とテンプレート選択部25において選択されたテン
プレート31とのマッチング処理を行なう。識別部23
はマッチング部22のマッチング結果28に基づいて識
別結果29を出力する。テンプレート選択部25のテン
プレート選択の方法を図6に示す。テンプレート選択部
25では前回のマッチング処理の結果、入力パターン2
7に最も類似したテンプレート32を受けとり、この情
報から次にマッチングを行なう際に用いるテンプレート
を標準パターン部24の中から選択し、次にマッチング
に用いるテンプレート31として出力する。
【0004】ここでこのテンプレート選択部25での処
理をさらに詳しく説明する。図7は標準パターン部24
の内容を示した図である。まず話者クラスタ(Cn(1)、C
n(2)、...、Cn(I))とはあらかじめ定めれた標準パター
ンとして用いる音声を発声した話者に対してクラスタリ
ングしたものである。カテゴリ(Cw(1)、Cw(2)、...、
Cw(J))とは単語や音素などの区分を示す。まず、マッチ
ング部22からマッチング処理の結果、入力パターン2
7と最も類似したテンプレートとしてTijの情報を受け
とる。これより標準パターン部24のカテゴリテーブル
を参照して話者クラスタSiを見つける。もう一度標準パ
ターン部24のカテゴリテーブルを参照して話者クラス
タSiに属するテンプレートT(i,1)、T(i,2)、...、T
(i,J)を選択し、次のマッチングに用いるテンプレート
31としてマッチング部22へ出力する。このようなテ
ンプレート群をセット化テンプレートと呼ぶ。尚、特開
平2−226200号公報ではテンプレート選択部25
では複数の話者クラスタを選択するようになっている
が、ここでは簡単のためひとつの話者クラスタを選択す
るものとして説明する。
【0005】以下、話者クラスタの選択方法の一例につ
いてさらに詳しく説明する。同じ話者が過去に発声した
音声データはN個存在し、そのn番めの要素をX(n)とす
る。まずX(n)はカテゴリW(n)に対応することが分かった
とする。これは例えばX(n)に対する認識を行ない、その
認識結果によりカテゴリを判定するなどの方法により決
定できる。話者クラスタi、カテゴリW(n)のテンプレー
トT(i,W(n))と音声データX(n)との距離値をD(i,n)とす
ると、話者クラスタiの距離値Ds(i)は以下のように演算
される。
【0006】
【数1】
【0007】このうち最もDs(i)の小さなものを最も類
似した話者クラスタとして選択し、話者クラスタiに属
するテンプレートを選択する。
【0008】
【発明が解決しようとする課題】従来の音声認識装置は
以上のように構成されているので、全カテゴリにわたっ
て選択された話者クラスタに属するテンプレートを用い
なければならない。人間の音声の生成過程の複雑さを考
えると全カテゴリにおいて全く類似した音響特徴を有す
る話者は存在しないため、話者クラスタの数を増やして
もある程度以上は認識率が向上しないという問題点があ
った。
【0009】この発明は、上記のような問題点を解消す
るためになされたもので、より発声者の音声と類似度の
高いテンプレートを選択できるようにすることにより、
認識性能の良好な音声認識装置を提供するものである。
【0010】
【課題を解決するための手段】この発明に係る音声認識
装置は、入力された音声信号を分析し音声データに変換
する分析部と、予め音響的に類似する標準パターンから
構成されるカテゴリを分類して定めた部分空間毎に求め
た複数のセット化テンプレートを記憶する標準パターン
部と、この標準パターン部のセット化テンプレートから
各部分空間毎に前記入力された音声信号に類似したテン
プレートを選択するテンプレート選択部と、前記分析部
の出力と前記テンプレート選択部で選択されたテンプレ
ートとのマッチング処理を行なうマッチング部と、この
マッチング部の処理結果により認識結果を決定する識別
部とを備えたものである。
【0011】また、この発明に係る音声認識装置は、互
いに同じカテゴリを含む重複した部分空間毎に求めた複
数のセット化テンプレートを記憶する標準パターン部
と、各カテゴリ毎に信頼度の高い部分空間を選択し、こ
の選択した部分空間のセット化テンプレートからテンプ
レートを選択するテンプレート選択部とを備えたもので
ある。
【0012】
【作用】この発明に係る音声認識装置において、テンプ
レート選択部は、予め音響的にカテゴリを分類して定め
た部分空間毎に求めた複数のセット化テンプレートを記
憶する標準パターン部から、各部分空間毎に前記入力さ
れた音声信号に類似したテンプレートを選択する。
【0013】この発明に係る音声認識装置において、テ
ンプレート選択部は、互いに同じカテゴリを含む重複し
た部分空間毎に求めた複数のセット化テンプレートを記
憶する標準パターン部から、各カテゴリ毎に信頼度の高
い部分空間を選択し、この選択した部分空間のセット化
テンプレートからテンプレートを選択する。
【0014】
【実施例】
実施例1.以下、この発明の一実施例を説明する。この
発明における音声認識装置のブロック図を図1に示す。
図1において、1は入力された音声信号を分析し音声デ
ータに変換する分析部、2は分析部1の出力とテンプレ
ート選択部5で選択されたテンプレートとのマッチング
処理を行なうマッチング部、3はマッチング部2の処理
結果により認識結果を決定する識別部であり、この分析
部1、マッチング部2及び識別部3は、図5に示した従
来の音声認識装置の分析部21、マッチング部22及び
識別部23と基本的には同様のものである。4は予め音
響的にカテゴリを分類して定めた部分空間毎に求めた複
数のセット化テンプレートを記憶する標準パターン部で
ある。テンプレート選択部5は、標準パターン部4のセ
ット化テンプレートから各部分空間毎に前記入力された
音声信号に類似したテンプレートを選択するものであ
り、このテンプレート選択部5の動作が従来の音声認識
装置とは大きく異なり、この発明の主要な働きをなす。
以下、テンプレート選択部5について説明する。
【0015】この発明ではカテゴリを音響的に分類して
グループ化し、これを部分空間と呼ぶ。ここでは、この
部分空間数がK個であるとする。この情報は標準パター
ン部4に含まれている部分空間テーブルに記憶される。
部分空間テーブルの一例を図2に示す。図2ではK=2の
場合を示しており、部分空間Cp(1)に4個、部分空間Cp
(2)に5個のカテゴリが属している。部分空間は各カテ
ゴリの典型的な音響的特徴量に対するクラスタリングに
より求めることが可能である。各部分空間毎に話者クラ
スタリングにより話者クラスタを設定する。この様子を
図3に示す。図3は部分空間Cp(1)は2つの話者クラス
タに、部分空間Cp(2)は3つの話者クラスタにクラスタ
リングされている様子を示している。部分空間Cp(k)に
属するi番めの話者クラスタをCn(k,i)とする。話者クラ
スタCn(k,i)に属するカテゴリCw(j)を表すテンプレート
をT(k,i,j)とする。ただし、話者クラスタCn(k,i)では
部分空間Cp(k)に属するカテゴリしかテンプレートを持
たないものとする。
【0016】以下、本発明における話者クラスタの選択
方式の一例を説明する。まず従来の音声認識装置の説明
のときと同じく、同じ話者が過去に発声した音声データ
がN個存在し、そのn番めの要素をX(n)とする。X(n)に対
する認識を行ない、X(n)がカテゴリW(n)に対応すること
が分かったものとする。カテゴリW(n)が属する部分空間
毎にX(n)を再整列させ、部分空間Cp(k)に含まれるm番め
の音声データをX2(k,m)とする。音声データX2(k,m)の対
応するカテゴリはW2(k,m)とする。部分空間Cp(k)に含ま
れる音声データの個数はM(k)個であるとする。それぞれ
の部分空間について話者に類似した標準パターンを有す
る話者クラスタを選択する。テンプレートT(k,i,W2(k,
m))と音声データX2(k,m)との距離値をD(k,i,m)とすると
話者クラスタCn(k,i)の距離値は以下のように演算され
る。
【0017】
【数2】
【0018】そして部分空間Cp(k)について最もDs(k,i)
の小さな話者クラスタCn(k,i)を選択する。このように
して全ての部分空間について話者クラスタを選択し、そ
れぞれの話者クラスタCn(k,i)に属するテンプレートを
同じ発声者の次の発声に対するテンプレートとして用い
る。
【0019】実施例2.実施例1では各カテゴリがどれ
か一つの部分空間に属するものとして説明を行なった
が、複数の部分空間に属することによりより高い話者適
応化効果を得られる。図4はこのような部分空間の様子
を示す図である。Cp(1)は全体をひとつのセット化テン
プレートと考えるもので従来のセット化テンプレートに
相当する。Cp(2),Cp(3)は2つの部分空間によりなる
もので、実施例1の説明で用いたものである。Cp(4),C
p(5),Cp(6)はさらに細かく3つの部分空間に分類し、
それぞれ3つのカテゴリが属するとしたものである。細
かい部分空間に分割したほど、より類似度の高いセット
化テンプレートが得られると考えられる。しかし、実際
に本発明の音声認識装置を用いる場合には、発声が少な
く話者クラスタの選択に十分な量の音声データを得られ
ない場合もあり、その場合には誤った話者クラスタを選
択してしまう場合もある。そのため、部分空間の信頼度
の考え方を採り入れ、話者適応化が安定して働くように
工夫する必要がある。
【0020】話者クラスタの選択において、ここでは部
分空間の信頼度を属する音声データの個数により判定す
るとして説明を行なう。つまり属する音声データの個数
が多いほど信頼度が高く、少ないほど信頼度が低いと
し、部分空間に属する音声データの個数がTh個に満たな
い場合には、その部分空間は信頼度が低いと考える。実
施例1の説明と同じく部分空間Cp(k)にはM(k)個の音声
データが属するものとする。例えば図4においてカテゴ
リCw(3)は部分空Cp(1),Cp(2),Cp(4)に属してい
る。カテゴリCp(4)から話者クラスタを選択できるのが
望ましいが、M(4)がThに満たない場合には、次にCp
(2)を調べる。M(2)もThに満たない場合には次にCp
(1)を調べる。以上のように細かい部分空間から大きな
部分空間へと信頼度を調べてゆき、信頼度をたもたれる
部分空間から話者クラスタを選択するものとする。な
お、Cp(1)でも十分な信頼度が得られない場合には、話
者適応化を行なわず、不特定話者用のテンプレートを用
いるという処理を行なうこともできる。
【0021】
【発明の効果】以上のように請求項1の発明によれば、
入力された音声信号を分析し音声データに変換する分析
部と、予め音響的にカテゴリを分類して定めた部分空間
毎に求めた複数のセット化テンプレートを記憶する標準
パターン部と、この標準パターン部のセット化テンプレ
ートから各部分空間毎に前記入力された音声信号に類似
したテンプレートを選択するテンプレート選択部と、前
記分析部の出力と前記テンプレート選択部で選択された
テンプレートとのマッチング処理を行なうマッチング部
と、このマッチング部の処理結果により認識結果を決定
する識別部とを備えたことにより、予め設定した部分空
間毎に話者クラスタを定めることができ、かつ部分空間
毎に話者クラスタの選択が可能となり、発声者の音声に
類似度の高いテンプレートの選択が可能となり、より認
識性能の良好な音声認識装置を得られる効果がある。
【0022】また、請求項2の発明によれば、互いに同
じカテゴリを含む重複した部分空間毎に求めた複数のセ
ット化テンプレートを記憶する標準パターン部と、各カ
テゴリ毎に信頼度の高い部分空間を選択し、この選択し
た部分空間のセット化テンプレートからテンプレートを
選択するテンプレート選択部とを備えたことにより、話
者適応化に用いる音声データが少ない場合でも誤った話
者クラスタ選択を防ぐことができるため、認識性能の安
定した音声認識装置を得られる効果がある。
【図面の簡単な説明】
【図1】本発明による音声認識装置の構成の一例を示す
図である。
【図2】部分区間テーブルの内容の一例を示す図であ
る。
【図3】話者クラスタリングの様子を説明する図であ
る。
【図4】部分空間テーブルの内容の一例を示す図であ
る。
【図5】従来の音声認識装置の構成の一例を示す図であ
る。
【図6】従来の音声認識装置のテンプレート選択部の動
作を説明する図である。
【図7】カテゴリテーブルの内容を示す図である。
【符号の説明】
1 分析部 2 マッチング部 3 識別部 4 標準パターン部 5 テンプレート選択部 6 入力信号 7 入力パターン 8 マッチング結果 9 識別結果 10 テンプレート 11 テンプレート 12 テンプレート 21 分析部 22 マッチング部 23 識別部 24 標準パターン部 25 テンプレート選択部 26 入力信号 27 入力パターン 28 マッチング結果 29 識別結果 30 テンプレート 31 テンプレート 32 テンプレート
フロントページの続き (56)参考文献 特開 平1−161399(JP,A) 特開 昭59−119396(JP,A) 特開 平5−241593(JP,A) 特許3014177(JP,B2) 特許3176210(JP,B2) 井上, 中藤, 丸山, 松本,区分 線形写像による教師付話者適応方法,電 子情報通信学会技術研究報告[音声], 日本,1991年 6月20日,Vol.91, No.95, SP91−16,Pages 79−86 中村,音声認識における話者適応,電 子情報通信学会技術研究報告[音声], 日本,1994年 5月19日,Vol.94, No.42, SP94−3,Pages 17−24 岩崎, 阿部, 中島,部分空間セッ ト化テンプレートによる話者適応化法の 検討,日本音響学会平成6年度秋季研究 発表会講演論文集,日本,1994年10月31 日,2−8−23,Pages 83−84 (58)調査した分野(Int.Cl.7,DB名) G10L 15/06 JICSTファイル(JOIS)

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】 予め記憶しているテンプレートを用いて
    音声を認識する音声認識装置において、入力された音声
    信号を分析し音声データに変換する分析部と、予め音響
    的に類似する標準パターンから構成されるカテゴリを分
    類して定めた部分空間毎に求めた複数のセット化テンプ
    レートを記憶する標準パターン部と、この標準パターン
    部のセット化テンプレートから各部分空間毎に前記入力
    された音声信号に類似したテンプレートを選択するテン
    プレート選択部と、前記分析部の出力と前記テンプレー
    ト選択部で選択されたテンプレートとのマッチング処理
    を行なうマッチング部と、このマッチング部の処理結果
    により認識結果を決定する識別部とを備えたことを特徴
    とする音声認識装置。
  2. 【請求項2】 前記標準パターン部は、互いに同じカテ
    ゴリを含む重複した部分空間毎に求めた複数のセット化
    テンプレートを記憶し、前記テンプレート選択部は、各
    カテゴリ毎に信頼度の高い部分空間を選択し、この選択
    した部分空間のセット化テンプレートからテンプレート
    を選択することを特徴とする請求項1記載の音声認識装
    置。
JP26527994A 1994-10-28 1994-10-28 音声認識装置 Expired - Fee Related JP3536380B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP26527994A JP3536380B2 (ja) 1994-10-28 1994-10-28 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP26527994A JP3536380B2 (ja) 1994-10-28 1994-10-28 音声認識装置

Publications (2)

Publication Number Publication Date
JPH08123466A JPH08123466A (ja) 1996-05-17
JP3536380B2 true JP3536380B2 (ja) 2004-06-07

Family

ID=17415021

Family Applications (1)

Application Number Title Priority Date Filing Date
JP26527994A Expired - Fee Related JP3536380B2 (ja) 1994-10-28 1994-10-28 音声認識装置

Country Status (1)

Country Link
JP (1) JP3536380B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009122780A1 (ja) * 2008-03-31 2009-10-08 日本電気株式会社 適応話者選択装置および適応話者選択方法並びに記録媒体

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3014177B2 (ja) 1991-08-08 2000-02-28 富士通株式会社 話者適応音声認識装置
JP3176210B2 (ja) 1994-03-22 2001-06-11 株式会社エイ・ティ・アール音声翻訳通信研究所 音声認識方法及び音声認識装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3014177B2 (ja) 1991-08-08 2000-02-28 富士通株式会社 話者適応音声認識装置
JP3176210B2 (ja) 1994-03-22 2001-06-11 株式会社エイ・ティ・アール音声翻訳通信研究所 音声認識方法及び音声認識装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
中村,音声認識における話者適応,電子情報通信学会技術研究報告[音声],日本,1994年 5月19日,Vol.94, No.42, SP94−3,Pages 17−24
井上, 中藤, 丸山, 松本,区分線形写像による教師付話者適応方法,電子情報通信学会技術研究報告[音声],日本,1991年 6月20日,Vol.91, No.95, SP91−16,Pages 79−86
岩崎, 阿部, 中島,部分空間セット化テンプレートによる話者適応化法の検討,日本音響学会平成6年度秋季研究発表会講演論文集,日本,1994年10月31日,2−8−23,Pages 83−84

Also Published As

Publication number Publication date
JPH08123466A (ja) 1996-05-17

Similar Documents

Publication Publication Date Title
Eronen et al. Audio-based context recognition
US6278970B1 (en) Speech transformation using log energy and orthogonal matrix
JP2764277B2 (ja) 音声認識装置
US6418412B1 (en) Quantization using frequency and mean compensated frequency input data for robust speech recognition
Peacocke et al. An introduction to speech and speaker recognition
Kim et al. Audio classification based on MPEG-7 spectral basis representations
EP0109190B1 (en) Monosyllable recognition apparatus
US6347297B1 (en) Matrix quantization with vector quantization error compensation and neural network postprocessing for robust speech recognition
US6529866B1 (en) Speech recognition system and associated methods
EP0661690A1 (en) Speech recognition
CN1199488A (zh) 模式识别
JPS61262799A (ja) ヒドン形式マルコフモデル音声認識方法
US6243695B1 (en) Access control system and method therefor
US6131089A (en) Pattern classifier with training system and methods of operation therefor
US7844459B2 (en) Method for creating a speech database for a target vocabulary in order to train a speech recognition system
US5864807A (en) Method and apparatus for training a speaker recognition system
Prabavathy et al. An enhanced musical instrument classification using deep convolutional neural network
JP3536380B2 (ja) 音声認識装置
JPWO2016152132A1 (ja) 音声処理装置、音声処理システム、音声処理方法、およびプログラム
Sunny et al. Feature extraction methods based on linear predictive coding and wavelet packet decomposition for recognizing spoken words in malayalam
JPH02232696A (ja) 音声認識装置
US6934364B1 (en) Handset identifier using support vector machines
JPH04324499A (ja) 音声認識装置
JP2996925B2 (ja) 音素境界検出装置及び音声認識装置
JPH04273298A (ja) 音声認識装置

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040224

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040308

LAPS Cancellation because of no payment of annual fees