JPH07261785A - 音声認識方法及び音声認識装置 - Google Patents
音声認識方法及び音声認識装置Info
- Publication number
- JPH07261785A JPH07261785A JP5029694A JP5029694A JPH07261785A JP H07261785 A JPH07261785 A JP H07261785A JP 5029694 A JP5029694 A JP 5029694A JP 5029694 A JP5029694 A JP 5029694A JP H07261785 A JPH07261785 A JP H07261785A
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- voice recognition
- model
- voice
- phoneme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
(57)【要約】
【目的】 適応用音声データのサンプルを必要とせず、
従来例の方法に比較して音声認識率を改善することがで
きる音声認識方法及び音声認識装置を提供する。 【構成】 話者モデル記憶装置に予め格納された複数の
話者モデルを用いて、入力された文字列からなる発声音
声文を音声認識する音声認識方法及び装置において、入
力された発声音声文に基づいて、上記複数の話者モデル
からなる不特定話者モデルを用いて音声認識し、その音
声認識結果と上記入力された発声音声文とに基づいて、
上記複数の話者モデルのうちより最適な少なくとも1つ
の話者モデルを選択し、上記選択した話者モデルに基づ
いて上記発声音声文を再び音声認識し、その音声認識結
果を出力する。
従来例の方法に比較して音声認識率を改善することがで
きる音声認識方法及び音声認識装置を提供する。 【構成】 話者モデル記憶装置に予め格納された複数の
話者モデルを用いて、入力された文字列からなる発声音
声文を音声認識する音声認識方法及び装置において、入
力された発声音声文に基づいて、上記複数の話者モデル
からなる不特定話者モデルを用いて音声認識し、その音
声認識結果と上記入力された発声音声文とに基づいて、
上記複数の話者モデルのうちより最適な少なくとも1つ
の話者モデルを選択し、上記選択した話者モデルに基づ
いて上記発声音声文を再び音声認識し、その音声認識結
果を出力する。
Description
【0001】
【産業上の利用分野】本発明は、音声認識方法及び音声
認識方法及び音声認識装置に関し、特に、木構造話者ク
ラスタリングを用いた音声認識方法及び音声認識装置に
関する。
認識方法及び音声認識装置に関し、特に、木構造話者ク
ラスタリングを用いた音声認識方法及び音声認識装置に
関する。
【0002】
【従来の技術】従来、連続音声認識装置において、木構
造話者クラスタリングアルゴリズムを用いて音声認識を
実行し、そのアルゴリズムを高速話者適応する場合の方
法が、例えば小坂ほか,”話者適応のための木構造話者
クラスタリング”,電子情報通信学会技術報告,SP9
3−110,1993年12月において開示されてい
る。この従来例の方法では、クラスタリング木を上位レ
ベルから下位レベルに辿ることにより、話者の大局的特
徴から局所的特徴へと話者適応することができる。ここ
では、木構造を入力される音声にたいするモデルの尤度
を基準として探索し、尤度が最大となるノードにおける
モデルを選択することにより、話者適応を行う。すなわ
ち、発声音声に基づいた教師信号付き話者適応を行って
いる。この話者適応の方法では、パラメータの修正を行
わずに、クラスタリング木の枝の選択のみを行うので、
少数のサンプルで話者適応を行うことができるという利
点がある。この方法では、音素モデルセットとして、例
えば音素環境を効果的に表現した隠れマルコフ網を用い
ることができる。
造話者クラスタリングアルゴリズムを用いて音声認識を
実行し、そのアルゴリズムを高速話者適応する場合の方
法が、例えば小坂ほか,”話者適応のための木構造話者
クラスタリング”,電子情報通信学会技術報告,SP9
3−110,1993年12月において開示されてい
る。この従来例の方法では、クラスタリング木を上位レ
ベルから下位レベルに辿ることにより、話者の大局的特
徴から局所的特徴へと話者適応することができる。ここ
では、木構造を入力される音声にたいするモデルの尤度
を基準として探索し、尤度が最大となるノードにおける
モデルを選択することにより、話者適応を行う。すなわ
ち、発声音声に基づいた教師信号付き話者適応を行って
いる。この話者適応の方法では、パラメータの修正を行
わずに、クラスタリング木の枝の選択のみを行うので、
少数のサンプルで話者適応を行うことができるという利
点がある。この方法では、音素モデルセットとして、例
えば音素環境を効果的に表現した隠れマルコフ網を用い
ることができる。
【0003】
【発明が解決しようとする課題】しかしながら、上記の
従来例の方法では、いまだ発声リストに従った適応用音
声データのサンプルを必要とし、音声認識率も比較的低
いという問題点があった。本発明の目的は以上の問題点
を解決し、適応用音声データのサンプルを必要とせず、
従来例の方法に比較して音声認識率を改善することがで
きる音声認識方法及び音声認識装置装置を提供すること
にある。
従来例の方法では、いまだ発声リストに従った適応用音
声データのサンプルを必要とし、音声認識率も比較的低
いという問題点があった。本発明の目的は以上の問題点
を解決し、適応用音声データのサンプルを必要とせず、
従来例の方法に比較して音声認識率を改善することがで
きる音声認識方法及び音声認識装置装置を提供すること
にある。
【0004】
【課題を解決するための手段】本発明に係る請求項1記
載の音声認識方法は、話者モデル記憶装置に予め格納さ
れた複数の話者モデルを用いて、入力された文字列から
なる発声音声文を音声認識する音声認識方法において、
入力された発声音声文に基づいて、上記複数の話者モデ
ルからなる不特定話者モデルを用いて音声認識し、その
音声認識結果と上記入力された発声音声文とに基づい
て、上記複数の話者モデルのうちより最適な少なくとも
1つの話者モデルを選択し、上記選択した話者モデルに
基づいて上記発声音声文を再び音声認識し、その音声認
識結果を出力することを特徴とする。
載の音声認識方法は、話者モデル記憶装置に予め格納さ
れた複数の話者モデルを用いて、入力された文字列から
なる発声音声文を音声認識する音声認識方法において、
入力された発声音声文に基づいて、上記複数の話者モデ
ルからなる不特定話者モデルを用いて音声認識し、その
音声認識結果と上記入力された発声音声文とに基づい
て、上記複数の話者モデルのうちより最適な少なくとも
1つの話者モデルを選択し、上記選択した話者モデルに
基づいて上記発声音声文を再び音声認識し、その音声認
識結果を出力することを特徴とする。
【0005】また、請求項2記載の音声認識方法は、請
求項1記載の音声認識方法において、上記話者モデル記
憶装置に予め記憶された複数の話者モデルは、そのクラ
スタが階層化されて分類されていることを特徴とする。
さらに、請求項3記載の音声認識方法は、請求項2記載
の音声認識方法において、上記話者モデル記憶装置に予
め記憶された複数の話者モデルは、そのクラスタが木構
造で表現されていることを特徴とする。
求項1記載の音声認識方法において、上記話者モデル記
憶装置に予め記憶された複数の話者モデルは、そのクラ
スタが階層化されて分類されていることを特徴とする。
さらに、請求項3記載の音声認識方法は、請求項2記載
の音声認識方法において、上記話者モデル記憶装置に予
め記憶された複数の話者モデルは、そのクラスタが木構
造で表現されていることを特徴とする。
【0006】本発明に係る請求項4記載の音声認識装置
は、複数の話者モデルを格納する記憶装置と、入力され
た文字列からなる発声音声文に基づいて、上記記憶装置
に格納された複数の話者モデルからなる不特定話者モデ
ルを用いて音声認識する第1の音声認識手段と、上記第
1の音声認識手段による音声認識結果と上記入力された
発声音声文とに基づいて、上記記憶装置に格納された複
数の話者モデルのうちより最適な少なくとも1つの話者
モデルを選択する選択手段と、上記選択手段によって選
択された話者モデルに基づいて上記発声音声文を再び音
声認識し、その音声認識結果を出力する第2の音声認識
手段とを備えたことを特徴とする。
は、複数の話者モデルを格納する記憶装置と、入力され
た文字列からなる発声音声文に基づいて、上記記憶装置
に格納された複数の話者モデルからなる不特定話者モデ
ルを用いて音声認識する第1の音声認識手段と、上記第
1の音声認識手段による音声認識結果と上記入力された
発声音声文とに基づいて、上記記憶装置に格納された複
数の話者モデルのうちより最適な少なくとも1つの話者
モデルを選択する選択手段と、上記選択手段によって選
択された話者モデルに基づいて上記発声音声文を再び音
声認識し、その音声認識結果を出力する第2の音声認識
手段とを備えたことを特徴とする。
【0007】また、請求項5記載の音声認識装置は、請
求項4記載の音声認識装置において、上記話者モデル記
憶装置に予め記憶された複数の話者モデルは、そのクラ
スタが階層化されて分類されていることを特徴とする。
さらに、請求項6記載の音声認識装置は、請求項5記載
の音声認識装置において、上記話者モデル記憶装置に予
め記憶された複数の話者モデルは、そのクラスタが木構
造で表現されていることを特徴とする。
求項4記載の音声認識装置において、上記話者モデル記
憶装置に予め記憶された複数の話者モデルは、そのクラ
スタが階層化されて分類されていることを特徴とする。
さらに、請求項6記載の音声認識装置は、請求項5記載
の音声認識装置において、上記話者モデル記憶装置に予
め記憶された複数の話者モデルは、そのクラスタが木構
造で表現されていることを特徴とする。
【0008】
【作用】以上のように構成された音声認識装置において
は、上記第1の音声認識手段は、入力された文字列から
なる発声音声文に基づいて、上記記憶装置に格納された
複数の話者モデルからなる不特定話者モデルを用いて音
声認識し、次いで、上記選択手段は、上記第1の音声認
識手段による音声認識結果と上記入力された発声音声文
とに基づいて、上記記憶装置に格納された複数の話者モ
デルのうちより最適な少なくとも1つの話者モデルを選
択する。さらに、上記第2の音声認識手段は、上記選択
手段によって選択された話者モデルに基づいて上記発声
音声文を再び音声認識し、その音声認識結果を出力す
る。
は、上記第1の音声認識手段は、入力された文字列から
なる発声音声文に基づいて、上記記憶装置に格納された
複数の話者モデルからなる不特定話者モデルを用いて音
声認識し、次いで、上記選択手段は、上記第1の音声認
識手段による音声認識結果と上記入力された発声音声文
とに基づいて、上記記憶装置に格納された複数の話者モ
デルのうちより最適な少なくとも1つの話者モデルを選
択する。さらに、上記第2の音声認識手段は、上記選択
手段によって選択された話者モデルに基づいて上記発声
音声文を再び音声認識し、その音声認識結果を出力す
る。
【0009】また、好ましくは、上記話者モデル記憶装
置に予め記憶された複数の話者モデルは、そのクラスタ
が階層化されて分類されている。さらに、より好ましく
は、上記話者モデル記憶装置に予め記憶された複数の話
者モデルは、そのクラスタが木構造で表現されている。
置に予め記憶された複数の話者モデルは、そのクラスタ
が階層化されて分類されている。さらに、より好ましく
は、上記話者モデル記憶装置に予め記憶された複数の話
者モデルは、そのクラスタが木構造で表現されている。
【0010】
【実施例】以下、図面を参照して本発明に係る実施例に
ついて説明する。図1は、本発明に係る一実施例である
音声認識装置のブロック図であり、図2は、図1の音声
認識装置において用いる木構造話者クラスタリングの構
成を示す斜視図である。
ついて説明する。図1は、本発明に係る一実施例である
音声認識装置のブロック図であり、図2は、図1の音声
認識装置において用いる木構造話者クラスタリングの構
成を示す斜視図である。
【0011】本実施例の音声認識装置は、図2に示す従
来例の木構造話者クラスタリングを用いて音声認識を行
うが、特に、図1に示すように、隠れマルコフ網メモリ
(以下、HM網メモリという。)11に格納された不特
定話者音素モデルに基づいて音素照合部4と音素コンテ
キスト依存型LRパーザ(以下、LRパーザという。)
5とによって公知の方法で音声認識処理を実行し、次い
で、このときLRパーザ5から出力される音声認識結果
データを教師信号として話者モデル選択部30に入力
し、バッファメモリ3から入力される発声音声の特徴パ
ラメータと、上記音声認識結果データとに基づいてHM
網メモリ11に予め格納された隠れマルコフモデル(以
下、HMMという。)の上記木構造話者モデル内の複数
の話者モデルのうちより最適な少なくとも1つの話者モ
デルを選択して選択信号をHMMメモリ11に出力し、
これに応答して音素照合部4は当該HM網メモリ11内
の選択信号に対応する話者モデルのHMMを用いて音素
照合を実行して音声認識処理を実行することを特徴とし
ている。
来例の木構造話者クラスタリングを用いて音声認識を行
うが、特に、図1に示すように、隠れマルコフ網メモリ
(以下、HM網メモリという。)11に格納された不特
定話者音素モデルに基づいて音素照合部4と音素コンテ
キスト依存型LRパーザ(以下、LRパーザという。)
5とによって公知の方法で音声認識処理を実行し、次い
で、このときLRパーザ5から出力される音声認識結果
データを教師信号として話者モデル選択部30に入力
し、バッファメモリ3から入力される発声音声の特徴パ
ラメータと、上記音声認識結果データとに基づいてHM
網メモリ11に予め格納された隠れマルコフモデル(以
下、HMMという。)の上記木構造話者モデル内の複数
の話者モデルのうちより最適な少なくとも1つの話者モ
デルを選択して選択信号をHMMメモリ11に出力し、
これに応答して音素照合部4は当該HM網メモリ11内
の選択信号に対応する話者モデルのHMMを用いて音素
照合を実行して音声認識処理を実行することを特徴とし
ている。
【0012】まず、木構造話者クラスタリングの原理を
図2を参照して説明する。図2においては、階層化され
た木構造を有する話者モデルの一例が示されており、3
つの階層化されたレベルを有している。最上層のレベル
0では、m0 0(0)なるクラスタの話者モデルが1つの
み存在し、当該話者モデルは、いわゆる不特定話者モデ
ルである。また、中間層のレベル2では、それぞれレベ
ル1におけるm0 0(0)の話者モデルに属し、話者クラ
スタ1であるm0 0(1)の話者モデルと、話者クラスタ
2であるm0 1(1)の話者モデルとが存在する。さら
に、最下層のレベル3においては、レベル1の話者クラ
スタ1に属する2つの話者クラスタm0 0(2),m
0 1(2)の話者モデルが存在するとともに、レベル1の
話者クラスタ2に属する2つの話者クラスタm
0 0(2),m0 1(2)の話者モデルが存在する。例えば
図2においてハッチングを用いて選択された話者クラス
タを示しているが、ここで、レベル2におけるm
0 1(2)の話者クラスタの話者モデルのデータは、レベ
ル1の話者クラスタ1であるm0 0(1)の話者クラスタ
の話者モデルのデータに含まれており、レベル0の話者
モデルのデータはすべての話者モデルのデータをすべて
含んでいる。すなわち、レベルの番号が増大するにつれ
て、より詳細な分類の話者クラスタに分類された話者モ
デルに分割されている。従って、木構造の上層に属する
モデルは不特定多数の話者特徴を包含し、下層に属する
モデルは少数または特定話者の特徴を有する。図2の例
では階層数は3であるが、本発明はこれに限らず、複数
個であってもよい。
図2を参照して説明する。図2においては、階層化され
た木構造を有する話者モデルの一例が示されており、3
つの階層化されたレベルを有している。最上層のレベル
0では、m0 0(0)なるクラスタの話者モデルが1つの
み存在し、当該話者モデルは、いわゆる不特定話者モデ
ルである。また、中間層のレベル2では、それぞれレベ
ル1におけるm0 0(0)の話者モデルに属し、話者クラ
スタ1であるm0 0(1)の話者モデルと、話者クラスタ
2であるm0 1(1)の話者モデルとが存在する。さら
に、最下層のレベル3においては、レベル1の話者クラ
スタ1に属する2つの話者クラスタm0 0(2),m
0 1(2)の話者モデルが存在するとともに、レベル1の
話者クラスタ2に属する2つの話者クラスタm
0 0(2),m0 1(2)の話者モデルが存在する。例えば
図2においてハッチングを用いて選択された話者クラス
タを示しているが、ここで、レベル2におけるm
0 1(2)の話者クラスタの話者モデルのデータは、レベ
ル1の話者クラスタ1であるm0 0(1)の話者クラスタ
の話者モデルのデータに含まれており、レベル0の話者
モデルのデータはすべての話者モデルのデータをすべて
含んでいる。すなわち、レベルの番号が増大するにつれ
て、より詳細な分類の話者クラスタに分類された話者モ
デルに分割されている。従って、木構造の上層に属する
モデルは不特定多数の話者特徴を包含し、下層に属する
モデルは少数または特定話者の特徴を有する。図2の例
では階層数は3であるが、本発明はこれに限らず、複数
個であってもよい。
【0013】このように、階層的な話者クラスタリング
では話者特性を階層的に逐次分割することにより、話者
モデルの木構造を作成する。この木構造を、入力音声に
対するモデルの尤度を基準として探索することにより話
者選択による適応を行なうことができる。すなわち、こ
の木構造を上層から下層に辿りより最適な少なくとも1
つの話者モデルを選択することにより、話者適応が可能
となる。入力音声の特徴が木構造を構成する標準話者の
一人と似た特徴を有する場合、下層のモデルが選択され
ることが期待される。また標準話者の特徴とは似ていな
い場合は、上層のモデルが選択されると予想される。上
層のモデルが選択された場合、複数話者の特徴からの内
挿的な効果が得られると考えられる。
では話者特性を階層的に逐次分割することにより、話者
モデルの木構造を作成する。この木構造を、入力音声に
対するモデルの尤度を基準として探索することにより話
者選択による適応を行なうことができる。すなわち、こ
の木構造を上層から下層に辿りより最適な少なくとも1
つの話者モデルを選択することにより、話者適応が可能
となる。入力音声の特徴が木構造を構成する標準話者の
一人と似た特徴を有する場合、下層のモデルが選択され
ることが期待される。また標準話者の特徴とは似ていな
い場合は、上層のモデルが選択されると予想される。上
層のモデルが選択された場合、複数話者の特徴からの内
挿的な効果が得られると考えられる。
【0014】木構造を作成するためには、まず、複数の
話者のデータからそれぞれの話者用の特定話者音素モデ
ルセットが作成される。複数のモデルセットは、クラス
タリングアルゴリズムによりクラスタ化される。生成さ
れた個々のクラスターはさらにクラスタリングされサブ
クラスタが作成される。一つのクラスタが1名の話者に
なるまでこれを繰り返し、木構造を作成する。木構造が
作成された後、個々のクラスタに属する話者の音声デー
タにより統計的音素モデルセットを作成する。統計的モ
デルを用いるため、最適モデルの選択の基準として、モ
デルの出力する尤度が利用することができる。尤度が最
大となるノードにおけるモデルを選択することにより、
頑健性の低下を防ぐことが可能となる。また、従来法の
話者モデル選択による話者適応では、性能向上のために
は学習用話者数を増加する必要があるが、本実施例の方
法では木構造で話者クラスタを表現することにより、話
者が増加した場合の、適応に要する計算量の増大を防ぐ
という効果も得られる。
話者のデータからそれぞれの話者用の特定話者音素モデ
ルセットが作成される。複数のモデルセットは、クラス
タリングアルゴリズムによりクラスタ化される。生成さ
れた個々のクラスターはさらにクラスタリングされサブ
クラスタが作成される。一つのクラスタが1名の話者に
なるまでこれを繰り返し、木構造を作成する。木構造が
作成された後、個々のクラスタに属する話者の音声デー
タにより統計的音素モデルセットを作成する。統計的モ
デルを用いるため、最適モデルの選択の基準として、モ
デルの出力する尤度が利用することができる。尤度が最
大となるノードにおけるモデルを選択することにより、
頑健性の低下を防ぐことが可能となる。また、従来法の
話者モデル選択による話者適応では、性能向上のために
は学習用話者数を増加する必要があるが、本実施例の方
法では木構造で話者クラスタを表現することにより、話
者が増加した場合の、適応に要する計算量の増大を防ぐ
という効果も得られる。
【0015】本実施例においては、音声認識のための統
計的音素モデルセットとしてHM網を使用している。当
該HM網は効率的に表現された音素環境依存モデルであ
る。1つのHM網は多数の音素環境依存モデルを包含す
る。HM網はガウス分布を含む状態の結合で構成され、
個々の音素環境依存モデル間で状態が共有される。この
ためパラメータ推定のためのデータ数が不足する場合
も、頑健なモデルを作成することができる。このHM網
は逐次状態分割法(Successive State Splitting:以
下、SSSという。)を用いて自動作成される。上記S
SSではHM網のトポロジーの決定、異音クラスの決
定、各々の状態におけるガウス分布のパラメータの推定
を同時に行なう。本実施例においては、HM網のパラメ
ータとして、ガウス分布で表現される出力確率及び遷移
確率を有する。このため認識時には一般のHMMと同様
に扱うことができる。
計的音素モデルセットとしてHM網を使用している。当
該HM網は効率的に表現された音素環境依存モデルであ
る。1つのHM網は多数の音素環境依存モデルを包含す
る。HM網はガウス分布を含む状態の結合で構成され、
個々の音素環境依存モデル間で状態が共有される。この
ためパラメータ推定のためのデータ数が不足する場合
も、頑健なモデルを作成することができる。このHM網
は逐次状態分割法(Successive State Splitting:以
下、SSSという。)を用いて自動作成される。上記S
SSではHM網のトポロジーの決定、異音クラスの決
定、各々の状態におけるガウス分布のパラメータの推定
を同時に行なう。本実施例においては、HM網のパラメ
ータとして、ガウス分布で表現される出力確率及び遷移
確率を有する。このため認識時には一般のHMMと同様
に扱うことができる。
【0016】さらに、木構造の各ノードで行なうクラス
タリングのアルゴリズムについて述べる。ここでは、ス
プリット(SPLIT)法で用いられたクラスタリング
アルゴリズムに基づく方法を用いている。この方法で
は、2のべき乗のクラスタを作成する一般的な従来のL
BGアルゴリズムとは異なり、歪みが最大となるクラス
タを順次分割する。従って任意の数のクラスタを作成で
きる。またクラスタリングを行なう前に、あらかじめ要
素間の距離テーブルを作成する。これにより、クラスタ
中心の初期値をヒューリスティックに(偶発的に又は発
見的に)与えなくとも良いという利点がある。結局あら
かじめ与える必要があるのは距離に対するしきい値、又
はクラスタ数のみで、この値さえ与えれば完全に自動的
に結果が得られる。
タリングのアルゴリズムについて述べる。ここでは、ス
プリット(SPLIT)法で用いられたクラスタリング
アルゴリズムに基づく方法を用いている。この方法で
は、2のべき乗のクラスタを作成する一般的な従来のL
BGアルゴリズムとは異なり、歪みが最大となるクラス
タを順次分割する。従って任意の数のクラスタを作成で
きる。またクラスタリングを行なう前に、あらかじめ要
素間の距離テーブルを作成する。これにより、クラスタ
中心の初期値をヒューリスティックに(偶発的に又は発
見的に)与えなくとも良いという利点がある。結局あら
かじめ与える必要があるのは距離に対するしきい値、又
はクラスタ数のみで、この値さえ与えれば完全に自動的
に結果が得られる。
【0017】上述のクラスタリング法を用いて、話者ク
ラスタの木構造を作成する方法について述べる。ここで
提案する木構造作成アルゴリズムでは、各ノードにおけ
るクラスタ数Kを与えるだけで、自動的にクラスタの作
成を行なう。以下にアルゴリズムを示す。 <ステップ1> 複数N人の話者の音声データから、複
数N個の特定話者用HM網を作成する。 <ステップ2> クラスタリングアルゴリズムを用い
て、複数N個の定話者用HM網のクラスタリングを行な
い、複数K個のクラスタを作成する。その後、各クラス
タに属する話者のデータを用いてHM網を再学習して次
の数1で示す複数K個のHM網を作成する。
ラスタの木構造を作成する方法について述べる。ここで
提案する木構造作成アルゴリズムでは、各ノードにおけ
るクラスタ数Kを与えるだけで、自動的にクラスタの作
成を行なう。以下にアルゴリズムを示す。 <ステップ1> 複数N人の話者の音声データから、複
数N個の特定話者用HM網を作成する。 <ステップ2> クラスタリングアルゴリズムを用い
て、複数N個の定話者用HM網のクラスタリングを行な
い、複数K個のクラスタを作成する。その後、各クラス
タに属する話者のデータを用いてHM網を再学習して次
の数1で示す複数K個のHM網を作成する。
【0018】
【数1】 M0(j)={m0 0(j),...,m0 K-1(j)}, j=1,2,...,J
【0019】ここで、jは木構造の階層の深さを示す階
層番号であり、ここでは、Jは階層数である。
層番号であり、ここでは、Jは階層数である。
【0020】<ステップ3> s∈Sl(j)を満たす
話者sの数がK以下となったとき、クラスタlのクラス
タリングを終了する。ここで、Sl(j)はレベルの階
層jにおけるl番目のクラスタを表す。 <ステップ4> ステップ3で終了したクラスタを除
き、全てのl番目のクラスタについて、l番目のクラス
タSl(j)に属する話者をクラスタリングし、K個の
サブクラスタを作成する。その後サブクラスタに属する
話者のデータによりHM網を再学習し次の数2で表され
るK個のHM網を作成する。
話者sの数がK以下となったとき、クラスタlのクラス
タリングを終了する。ここで、Sl(j)はレベルの階
層jにおけるl番目のクラスタを表す。 <ステップ4> ステップ3で終了したクラスタを除
き、全てのl番目のクラスタについて、l番目のクラス
タSl(j)に属する話者をクラスタリングし、K個の
サブクラスタを作成する。その後サブクラスタに属する
話者のデータによりHM網を再学習し次の数2で表され
るK個のHM網を作成する。
【0021】
【数2】Ml(j+1)={ml 0(j+1),...,
ml K-1(j+1)}, j=1,2,...,J
ml K-1(j+1)}, j=1,2,...,J
【0022】<ステップ5> jを1だけインクリメン
トする。 <ステップ6> そして、ステップ3に戻る。
トする。 <ステップ6> そして、ステップ3に戻る。
【0023】さらに、本発明に係る木構造話者クラスタ
リングによる不特定話者音声認識の原理について述べ
る。本実施例では、1発話のみの評価データで教師なし
話者適応を行う。上記木構造話者クラスタリングによる
不特定話者音声認識の方法のアルゴリズムは、次のステ
ップを含む。 <ステップ1> 音素照合部4とLRパーザ5は、入力
音声を不特定話者音素モデルを用いて認識する。以下、
当該ステップの音声認識を第1の音声認識プロセスとい
う。 <ステップ2> 認識結果の音素系列をLRパーザ5か
ら話者モデル選択部30にフィードバックし、話者モデ
ル選択部30は、上記ステップ1において用いた入力音
声と、この音素系列を入力として話者選択を行なう。 <ステップ3> そして、音素照合部4とLRパーザ5
は、選択後の音素モデルを用いて入力音声を再び音声認
識してその結果データを出力する。以下、当該ステップ
の音声認識を第2の音声認識プロセスという。
リングによる不特定話者音声認識の原理について述べ
る。本実施例では、1発話のみの評価データで教師なし
話者適応を行う。上記木構造話者クラスタリングによる
不特定話者音声認識の方法のアルゴリズムは、次のステ
ップを含む。 <ステップ1> 音素照合部4とLRパーザ5は、入力
音声を不特定話者音素モデルを用いて認識する。以下、
当該ステップの音声認識を第1の音声認識プロセスとい
う。 <ステップ2> 認識結果の音素系列をLRパーザ5か
ら話者モデル選択部30にフィードバックし、話者モデ
ル選択部30は、上記ステップ1において用いた入力音
声と、この音素系列を入力として話者選択を行なう。 <ステップ3> そして、音素照合部4とLRパーザ5
は、選択後の音素モデルを用いて入力音声を再び音声認
識してその結果データを出力する。以下、当該ステップ
の音声認識を第2の音声認識プロセスという。
【0024】以上説明したように、上記第1と第2の音
声認識プロセスの、2回の音声認識プロセスで最終的な
音声認識結果を確定する。本実施例の音声認識方法で音
声認識率を向上するためには、誤認識するデータの認識
率を改善する必要がある。このため、誤った認識結果を
フィードバックしても、正しい方向へ学習をすすめる必
要があるという本質的な問題がある。しかしながら、音
声認識結果データは文法などの知識によりある程度修正
されたものであり、さらに文節で評価した場合誤ってい
るだけで、すべての音素系列が誤っているわけではな
い。実際に音声認識誤りのデータを調べると、助詞の部
分だけ誤ったものが多い。このことから誤認識結果のフ
ィードバックでも話者適応は十分可能と考えられる。
声認識プロセスの、2回の音声認識プロセスで最終的な
音声認識結果を確定する。本実施例の音声認識方法で音
声認識率を向上するためには、誤認識するデータの認識
率を改善する必要がある。このため、誤った認識結果を
フィードバックしても、正しい方向へ学習をすすめる必
要があるという本質的な問題がある。しかしながら、音
声認識結果データは文法などの知識によりある程度修正
されたものであり、さらに文節で評価した場合誤ってい
るだけで、すべての音素系列が誤っているわけではな
い。実際に音声認識誤りのデータを調べると、助詞の部
分だけ誤ったものが多い。このことから誤認識結果のフ
ィードバックでも話者適応は十分可能と考えられる。
【0025】次いで、上述の本実施例の音声認識方法を
用いた、SSS−LR(left-to-right rightmost型)
不特定話者連続音声認識装置に付いて説明する。この装
置は、メモリ11に格納されたHM網と呼ばれる音素環
境依存型の効率のよいHMMの表現形式を用いている。
また、上記SSSにおいては、音素の特徴空間上に割り
当てられた確率的定常信号源(状態)の間の確率的な遷
移により音声パラメータの時間的な推移を表現した確率
モデルに対して、尤度最大化の基準に基づいて個々の状
態をコンテキスト方向又は時間方向へ分割するという操
作を繰り返すことによって、モデルの精密化を逐次的に
実行する。
用いた、SSS−LR(left-to-right rightmost型)
不特定話者連続音声認識装置に付いて説明する。この装
置は、メモリ11に格納されたHM網と呼ばれる音素環
境依存型の効率のよいHMMの表現形式を用いている。
また、上記SSSにおいては、音素の特徴空間上に割り
当てられた確率的定常信号源(状態)の間の確率的な遷
移により音声パラメータの時間的な推移を表現した確率
モデルに対して、尤度最大化の基準に基づいて個々の状
態をコンテキスト方向又は時間方向へ分割するという操
作を繰り返すことによって、モデルの精密化を逐次的に
実行する。
【0026】図1において、話者の発声音声はマイクロ
ホン1に入力されて音声信号に変換された後、特徴抽出
部2に入力される。特徴抽出部2は、入力された音声信
号をA/D変換した後、例えばLPC分析を実行し、対
数パワー、16次ケプストラム係数、Δ対数パワー及び
16次Δケプストラム係数を含む34次元の特徴パラメ
ータを抽出する。抽出された特徴パラメータの時系列は
バッファメモリ3を介して音素照合部4及び話者モデル
選択部30に入力される。
ホン1に入力されて音声信号に変換された後、特徴抽出
部2に入力される。特徴抽出部2は、入力された音声信
号をA/D変換した後、例えばLPC分析を実行し、対
数パワー、16次ケプストラム係数、Δ対数パワー及び
16次Δケプストラム係数を含む34次元の特徴パラメ
ータを抽出する。抽出された特徴パラメータの時系列は
バッファメモリ3を介して音素照合部4及び話者モデル
選択部30に入力される。
【0027】音素照合部4に接続されるHM網メモリ1
1内のHM網は、各状態をノードとする複数のネットワ
ークとして表され、各状態はそれぞれ以下の情報を有す
る。 (a)状態番号 (b)受理可能なコンテキストクラス (c)先行状態、及び後続状態のリスト (d)出力確率密度分布のパラメータ (e)自己遷移確率及び後続状態への遷移確率
1内のHM網は、各状態をノードとする複数のネットワ
ークとして表され、各状態はそれぞれ以下の情報を有す
る。 (a)状態番号 (b)受理可能なコンテキストクラス (c)先行状態、及び後続状態のリスト (d)出力確率密度分布のパラメータ (e)自己遷移確率及び後続状態への遷移確率
【0028】なお、本実施例において用いるHM網は、
各分布がどの話者に由来するかを特定する必要があるた
め、所定の話者混合HM網を変換して作成する。ここ
で、出力確率密度関数は34次元の対角共分散行列をも
つ混合ガウス分布であり、各分布はある特定の話者のサ
ンプルを用いて学習されている。
各分布がどの話者に由来するかを特定する必要があるた
め、所定の話者混合HM網を変換して作成する。ここ
で、出力確率密度関数は34次元の対角共分散行列をも
つ混合ガウス分布であり、各分布はある特定の話者のサ
ンプルを用いて学習されている。
【0029】第1の音声認識プロセスにおいて、音素照
合部4は、音素コンテキスト依存型LRパーザ5からの
音素照合要求に応じて音素照合処理を実行する。そし
て、図2に示す最上層のレベル0の不特定話者モデルを
用いて音素照合区間内のデータに対する尤度が計算さ
れ、この尤度の値が音素照合スコアとしてLRパーザ5
に返される。このときに用いられるモデルは、HMMと
等価であるために、尤度の計算には通常のHMMで用い
られている前向きパスアルゴリズムをそのまま使用す
る。
合部4は、音素コンテキスト依存型LRパーザ5からの
音素照合要求に応じて音素照合処理を実行する。そし
て、図2に示す最上層のレベル0の不特定話者モデルを
用いて音素照合区間内のデータに対する尤度が計算さ
れ、この尤度の値が音素照合スコアとしてLRパーザ5
に返される。このときに用いられるモデルは、HMMと
等価であるために、尤度の計算には通常のHMMで用い
られている前向きパスアルゴリズムをそのまま使用す
る。
【0030】一方、文脈自由文法データベースメモリ2
0内の所定の文脈自由文法(CFG)を公知の通り自動
的に変換してLRテーブルを作成してLRテーブルメモ
リ13に格納される。LRパーザ5は、上記LRテーブ
ル13を参照して、入力された音素予測データについて
左から右方向に、後戻りなしに処理する。構文的にあい
まいさがある場合は、スタックを分割してすべての候補
の解析が平行して処理される。LRパーザ5は、LRテ
ーブルメモリ13内のLRテーブルから次にくる音素を
予測して音素予測データを音素照合部4に出力する。こ
れに応答して、音素照合部4は、その音素に対応するH
M網メモリ11内の情報を参照して照合し、その尤度を
音声認識スコアとしてLRパーザ5に戻し、順次音素を
連接していくことにより、連続音声の認識を行い、その
音声認識結果データを話者モデル選択部30にフィード
バックして出力する。上記連続音声の認識において、複
数の音素が予測された場合は、これらすべての存在をチ
ェックし、ビームサーチの方法により、部分的な音声認
識の尤度の高い部分木を残すという枝刈りを行って高速
処理を実現する。
0内の所定の文脈自由文法(CFG)を公知の通り自動
的に変換してLRテーブルを作成してLRテーブルメモ
リ13に格納される。LRパーザ5は、上記LRテーブ
ル13を参照して、入力された音素予測データについて
左から右方向に、後戻りなしに処理する。構文的にあい
まいさがある場合は、スタックを分割してすべての候補
の解析が平行して処理される。LRパーザ5は、LRテ
ーブルメモリ13内のLRテーブルから次にくる音素を
予測して音素予測データを音素照合部4に出力する。こ
れに応答して、音素照合部4は、その音素に対応するH
M網メモリ11内の情報を参照して照合し、その尤度を
音声認識スコアとしてLRパーザ5に戻し、順次音素を
連接していくことにより、連続音声の認識を行い、その
音声認識結果データを話者モデル選択部30にフィード
バックして出力する。上記連続音声の認識において、複
数の音素が予測された場合は、これらすべての存在をチ
ェックし、ビームサーチの方法により、部分的な音声認
識の尤度の高い部分木を残すという枝刈りを行って高速
処理を実現する。
【0031】次いで、これに応答して話者モデル選択部
30は、バッファメモリ3から入力される上記特徴パラ
メータのデータと、LRパーザ5からフィードバックさ
れる第1の音声認識プロセスにおける音声認識結果デー
タとに基づいて、図2に示した木構造話者クラスタリン
グの構造を有する話者モデル群の中から、好ましくは、
所定のしきい値以上の尤度を有する、より下層の話者ク
ラスタの話者モデルを選択し、より好ましくは、最大の
尤度を有する最下層の話者クラスタの話者モデルを選択
する。そして、選択した話者モデルの話者クラスタを示
す選択信号をHM網メモリ11に出力して、音素照合部
4で用いる話者モデル(以下、指定話者モデルとい
う。)を指定する。
30は、バッファメモリ3から入力される上記特徴パラ
メータのデータと、LRパーザ5からフィードバックさ
れる第1の音声認識プロセスにおける音声認識結果デー
タとに基づいて、図2に示した木構造話者クラスタリン
グの構造を有する話者モデル群の中から、好ましくは、
所定のしきい値以上の尤度を有する、より下層の話者ク
ラスタの話者モデルを選択し、より好ましくは、最大の
尤度を有する最下層の話者クラスタの話者モデルを選択
する。そして、選択した話者モデルの話者クラスタを示
す選択信号をHM網メモリ11に出力して、音素照合部
4で用いる話者モデル(以下、指定話者モデルとい
う。)を指定する。
【0032】そして、第2の音声認識プロセスにおい
て、音素照合部4は、音素コンテキスト依存型LRパー
ザ5からの音素照合要求に応じて音素照合処理を実行す
る。このときに、LRパーザ5からは、音素照合区間及
び照合対象音素とその前後の音素から成る音素コンテキ
スト情報が渡される。音素照合部4は、受け取った音素
コンテキスト情報に基づいて、上記指定話者モデルを用
いて音素照合区間内のデータに対する尤度が計算され、
この尤度の値が音素照合スコアとしてLRパーザ5に返
される。これに応答して、LRパーザ5は、第1の音声
認識プロセスと同様に、上記LRテーブル13を参照し
て、入力された音素予測データについて左から右方向
に、後戻りなしに処理する。構文的にあいまいさがある
場合は、スタックを分割してすべての候補の解析が平行
して処理される。LRパーザ5は、LRテーブルメモリ
13内のLRテーブルから次にくる音素を予測して音素
予測データを音素照合部4に出力する。これに応答し
て、音素照合部4は、その音素に対応する上記指定話者
モデルに関するHM網メモリ11内の情報を参照して照
合し、その尤度を音声認識スコアとしてLRパーザ5に
戻し、順次音素を連接していくことにより、連続音声の
認識を行う。ここで、第1の音声認識プロセスと同様
に、複数の音素が予測された場合は、これらすべての存
在をチェックし、ビームサーチの方法により、部分的な
音声認識の尤度の高い部分木を残すという枝刈りを行っ
て高速処理を実現する。入力された話者音声の最後まで
処理した後、全体の尤度が最大のもの又は所定の上位複
数個のものを、当該装置の認識結果データとして外部装
置に出力する。
て、音素照合部4は、音素コンテキスト依存型LRパー
ザ5からの音素照合要求に応じて音素照合処理を実行す
る。このときに、LRパーザ5からは、音素照合区間及
び照合対象音素とその前後の音素から成る音素コンテキ
スト情報が渡される。音素照合部4は、受け取った音素
コンテキスト情報に基づいて、上記指定話者モデルを用
いて音素照合区間内のデータに対する尤度が計算され、
この尤度の値が音素照合スコアとしてLRパーザ5に返
される。これに応答して、LRパーザ5は、第1の音声
認識プロセスと同様に、上記LRテーブル13を参照し
て、入力された音素予測データについて左から右方向
に、後戻りなしに処理する。構文的にあいまいさがある
場合は、スタックを分割してすべての候補の解析が平行
して処理される。LRパーザ5は、LRテーブルメモリ
13内のLRテーブルから次にくる音素を予測して音素
予測データを音素照合部4に出力する。これに応答し
て、音素照合部4は、その音素に対応する上記指定話者
モデルに関するHM網メモリ11内の情報を参照して照
合し、その尤度を音声認識スコアとしてLRパーザ5に
戻し、順次音素を連接していくことにより、連続音声の
認識を行う。ここで、第1の音声認識プロセスと同様
に、複数の音素が予測された場合は、これらすべての存
在をチェックし、ビームサーチの方法により、部分的な
音声認識の尤度の高い部分木を残すという枝刈りを行っ
て高速処理を実現する。入力された話者音声の最後まで
処理した後、全体の尤度が最大のもの又は所定の上位複
数個のものを、当該装置の認識結果データとして外部装
置に出力する。
【0033】本発明者による本実施例の音声認識装置を
用いたシミュレーション結果を次の表1に示す。
用いたシミュレーション結果を次の表1に示す。
【0034】
【表1】
【0035】表1から明らかなように、話者によってば
らつきはあるが、いずれの話者でも木構造話者クラスタ
リングを用いた実施例の方法が、話者混合法(例えば、
小坂ほか,”話者混合SSSによる不特定話者音声認識
と話者適応”,電子情報通信学会技術報告,SP92−
52,1992年9月参照。)による不特定話者音声認
識に比較して音声認識率が高くなっている。ここでは評
価対象として文節を用いているが、文節の平均時間長は
約0.9秒であり、この程度の長さの入力音声で教師な
し話者適応の効果が出なければ、不特定話者モードでの
認識率の向上は期待できない。実験によると音声認識率
は向上しているため、1秒以下の、文節中に誤りを含む
情報をフィードバックしても話者適応の効果が出ている
と考えられる。
らつきはあるが、いずれの話者でも木構造話者クラスタ
リングを用いた実施例の方法が、話者混合法(例えば、
小坂ほか,”話者混合SSSによる不特定話者音声認識
と話者適応”,電子情報通信学会技術報告,SP92−
52,1992年9月参照。)による不特定話者音声認
識に比較して音声認識率が高くなっている。ここでは評
価対象として文節を用いているが、文節の平均時間長は
約0.9秒であり、この程度の長さの入力音声で教師な
し話者適応の効果が出なければ、不特定話者モードでの
認識率の向上は期待できない。実験によると音声認識率
は向上しているため、1秒以下の、文節中に誤りを含む
情報をフィードバックしても話者適応の効果が出ている
と考えられる。
【0036】以上説明したように、本実施例によれば、
第1の音声認識プロセスによる音声認識結果のデータを
話者モデル選択部30にフィードバックし、当該フィー
ドバックされた音声認識結果のデータと、バッファメモ
リ3から入力される特徴パラメータとに基づいて木構造
話者クラスタリングを有するHM網内の複数の話者モデ
ルからより最適な少なくとも1つの話者モデルを選択し
て、当該選択された話者モデルに基づいて第2の音声認
識プロセスが実行され、この音声認識の結果が当該装置
の最終の認識結果データとして出力される。これによっ
て、より最適な話者モデルが選択されて、音声認識が実
行されるので、当該音声認識率が大幅に増大する。そし
て、発声話者リストに従った発声は不要となる。すなわ
ち、発声する話者に依存せず、従来例に比較して高い音
声認識率で音声認識を行うことができる。言い替えれ
ば、適応用音声データのサンプルを必要とせず、従来例
の方法に比較して音声認識率を改善することができる音
声認識装置を提供することができる。
第1の音声認識プロセスによる音声認識結果のデータを
話者モデル選択部30にフィードバックし、当該フィー
ドバックされた音声認識結果のデータと、バッファメモ
リ3から入力される特徴パラメータとに基づいて木構造
話者クラスタリングを有するHM網内の複数の話者モデ
ルからより最適な少なくとも1つの話者モデルを選択し
て、当該選択された話者モデルに基づいて第2の音声認
識プロセスが実行され、この音声認識の結果が当該装置
の最終の認識結果データとして出力される。これによっ
て、より最適な話者モデルが選択されて、音声認識が実
行されるので、当該音声認識率が大幅に増大する。そし
て、発声話者リストに従った発声は不要となる。すなわ
ち、発声する話者に依存せず、従来例に比較して高い音
声認識率で音声認識を行うことができる。言い替えれ
ば、適応用音声データのサンプルを必要とせず、従来例
の方法に比較して音声認識率を改善することができる音
声認識装置を提供することができる。
【0037】本発明に係る音声認識方法は、少なくと
も、話者モデル記憶装置に予め格納された複数の話者モ
デルを用いて、入力された文字列からなる発声音声文を
音声認識する音声認識方法において、入力された発声音
声文に基づいて、上記複数の話者モデルからなる不特定
話者モデルを用いて音声認識し、その音声認識結果と上
記入力された発声音声文とに基づいて、上記複数の話者
モデルのうちより最適な少なくとも1つの話者モデルを
選択し、上記選択した話者モデルに基づいて音声認識
し、その音声認識結果を出力することを特徴としてい
る。そして、上記HM網メモリ11である上記話者モデ
ル記憶装置に予め記憶された複数の話者モデルは、好ま
しくは、少なくとも、そのクラスタが階層化されて分類
されていればよい。さらには、より好ましくは、上記話
者モデル記憶装置に予め記憶された複数の話者モデル
は、そのクラスタが木構造で表現されていればよい。
も、話者モデル記憶装置に予め格納された複数の話者モ
デルを用いて、入力された文字列からなる発声音声文を
音声認識する音声認識方法において、入力された発声音
声文に基づいて、上記複数の話者モデルからなる不特定
話者モデルを用いて音声認識し、その音声認識結果と上
記入力された発声音声文とに基づいて、上記複数の話者
モデルのうちより最適な少なくとも1つの話者モデルを
選択し、上記選択した話者モデルに基づいて音声認識
し、その音声認識結果を出力することを特徴としてい
る。そして、上記HM網メモリ11である上記話者モデ
ル記憶装置に予め記憶された複数の話者モデルは、好ま
しくは、少なくとも、そのクラスタが階層化されて分類
されていればよい。さらには、より好ましくは、上記話
者モデル記憶装置に予め記憶された複数の話者モデル
は、そのクラスタが木構造で表現されていればよい。
【0038】本実施例において、以下に示す教師なし話
者適応の方法を用いて音声認識処理を実行するように構
成してもよい。すなわち、適応用の音声の入力に対し、
一旦認識系により音声認識を行い、その結果出力される
音素系列をフィードバックし、話者適応時の教師信号と
して用いることにより、見かけ上の教師なし話者適応を
実現することができる。この場合、木構造話者クラスタ
リングによる話者適応では、木構造の枝の選択のみを行
ない、平均値や分散などのパラメータの変更は行なわな
いため、少ないデータで教師なし学習が実現することが
できる。
者適応の方法を用いて音声認識処理を実行するように構
成してもよい。すなわち、適応用の音声の入力に対し、
一旦認識系により音声認識を行い、その結果出力される
音素系列をフィードバックし、話者適応時の教師信号と
して用いることにより、見かけ上の教師なし話者適応を
実現することができる。この場合、木構造話者クラスタ
リングによる話者適応では、木構造の枝の選択のみを行
ない、平均値や分散などのパラメータの変更は行なわな
いため、少ないデータで教師なし学習が実現することが
できる。
【0039】
【発明の効果】以上詳述したように本発明によれば、話
者モデル記憶装置に予め格納された複数の話者モデルを
用いて、入力された文字列からなる発声音声文を音声認
識する音声認識方法及び装置において、入力された発声
音声文に基づいて、上記複数の話者モデルからなる不特
定話者モデルを用いて音声認識し、その音声認識結果と
上記入力された発声音声文とに基づいて、上記複数の話
者モデルのうちより最適な少なくとも1つの話者モデル
を選択し、上記選択した話者モデルに基づいて上記発声
音声文を再び音声認識し、その音声認識結果を出力す
る。従って、より最適な話者モデルが選択されて、音声
認識が実行されるので、当該音声認識率が大幅に高くな
る。そして、発声話者リストに従った発声は不要とな
る。すなわち、発声する話者に依存せず、従来例に比較
して高い音声認識率で音声認識を行うことができるとい
う特有の効果がある。
者モデル記憶装置に予め格納された複数の話者モデルを
用いて、入力された文字列からなる発声音声文を音声認
識する音声認識方法及び装置において、入力された発声
音声文に基づいて、上記複数の話者モデルからなる不特
定話者モデルを用いて音声認識し、その音声認識結果と
上記入力された発声音声文とに基づいて、上記複数の話
者モデルのうちより最適な少なくとも1つの話者モデル
を選択し、上記選択した話者モデルに基づいて上記発声
音声文を再び音声認識し、その音声認識結果を出力す
る。従って、より最適な話者モデルが選択されて、音声
認識が実行されるので、当該音声認識率が大幅に高くな
る。そして、発声話者リストに従った発声は不要とな
る。すなわち、発声する話者に依存せず、従来例に比較
して高い音声認識率で音声認識を行うことができるとい
う特有の効果がある。
【図面の簡単な説明】
【図1】 本発明に係る一実施例である音声認識装置の
ブロック図である。
ブロック図である。
【図2】 図1の音声認識装置において用いる木構造話
者クラスタリングの構成を示す斜視図である。
者クラスタリングの構成を示す斜視図である。
1…マイクロホン、 2…特徴抽出部、 3…バッファメモリ、 4…音素照合部、 5…LRパーザ、 11…隠れマルコフ網メモリ、 13…LRテーブルメモリ、 20…文脈自由文法データベースメモリ、 30…話者モデル選択部。
Claims (6)
- 【請求項1】 話者モデル記憶装置に予め格納された複
数の話者モデルを用いて、入力された文字列からなる発
声音声文を音声認識する音声認識方法において、 入力された発声音声文に基づいて、上記複数の話者モデ
ルからなる不特定話者モデルを用いて音声認識し、その
音声認識結果と上記入力された発声音声文とに基づい
て、上記複数の話者モデルのうちより最適な少なくとも
1つの話者モデルを選択し、上記選択した話者モデルに
基づいて上記発声音声文を再び音声認識し、その音声認
識結果を出力することを特徴とする音声認識方法。 - 【請求項2】 上記話者モデル記憶装置に予め記憶され
た複数の話者モデルは、そのクラスタが階層化されて分
類されていることを特徴とする請求項1記載の音声認識
方法。 - 【請求項3】 上記話者モデル記憶装置に予め記憶され
た複数の話者モデルは、そのクラスタが木構造で表現さ
れていることを特徴とする請求項2記載の音声認識方
法。 - 【請求項4】 複数の話者モデルを格納する記憶装置
と、 入力された文字列からなる発声音声文に基づいて、上記
記憶装置に格納された複数の話者モデルからなる不特定
話者モデルを用いて音声認識する第1の音声認識手段
と、 上記第1の音声認識手段による音声認識結果と上記入力
された発声音声文とに基づいて、上記記憶装置に格納さ
れた複数の話者モデルのうちより最適な少なくとも1つ
の話者モデルを選択する選択手段と、 上記選択手段によって選択された話者モデルに基づいて
上記発声音声文を再び音声認識し、その音声認識結果を
出力する第2の音声認識手段とを備えたことを特徴とす
る音声認識装置。 - 【請求項5】 上記話者モデル記憶装置に予め記憶され
た複数の話者モデルは、そのクラスタが階層化されて分
類されていることを特徴とする請求項4記載の音声認識
装置。 - 【請求項6】 上記話者モデル記憶装置に予め記憶され
た複数の話者モデルは、そのクラスタが木構造で表現さ
れていることを特徴とする請求項5記載の音声認識装
置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP05029694A JP3176210B2 (ja) | 1994-03-22 | 1994-03-22 | 音声認識方法及び音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP05029694A JP3176210B2 (ja) | 1994-03-22 | 1994-03-22 | 音声認識方法及び音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH07261785A true JPH07261785A (ja) | 1995-10-13 |
JP3176210B2 JP3176210B2 (ja) | 2001-06-11 |
Family
ID=12854942
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP05029694A Expired - Fee Related JP3176210B2 (ja) | 1994-03-22 | 1994-03-22 | 音声認識方法及び音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3176210B2 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1998040875A1 (en) * | 1997-03-13 | 1998-09-17 | Telia Ab (Publ) | Speaker verification system |
US5983178A (en) * | 1997-12-10 | 1999-11-09 | Atr Interpreting Telecommunications Research Laboratories | Speaker clustering apparatus based on feature quantities of vocal-tract configuration and speech recognition apparatus therewith |
US6236963B1 (en) | 1998-03-16 | 2001-05-22 | Atr Interpreting Telecommunications Research Laboratories | Speaker normalization processor apparatus for generating frequency warping function, and speech recognition apparatus with said speaker normalization processor apparatus |
EP1063634A3 (en) * | 1999-06-21 | 2003-09-10 | Matsushita Electric Industrial Co., Ltd. | System for recognizing utterances alternately spoken by plural speakers with an improved recognition accuracy |
JP2006171185A (ja) * | 2004-12-14 | 2006-06-29 | Asahi Kasei Corp | 音声認識装置および音声認識方法 |
WO2007052884A1 (en) * | 2005-11-07 | 2007-05-10 | Electronics And Telecommunications Research Institute | Text input system and method based on voice recognition |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3536380B2 (ja) | 1994-10-28 | 2004-06-07 | 三菱電機株式会社 | 音声認識装置 |
JP4410265B2 (ja) | 2007-02-19 | 2010-02-03 | 株式会社東芝 | 音声認識装置及び方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6173199A (ja) * | 1984-09-18 | 1986-04-15 | 株式会社リコー | 大語彙単語音声予備選択方式 |
JPH04324499A (ja) * | 1991-04-24 | 1992-11-13 | Sharp Corp | 音声認識装置 |
-
1994
- 1994-03-22 JP JP05029694A patent/JP3176210B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6173199A (ja) * | 1984-09-18 | 1986-04-15 | 株式会社リコー | 大語彙単語音声予備選択方式 |
JPH04324499A (ja) * | 1991-04-24 | 1992-11-13 | Sharp Corp | 音声認識装置 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1998040875A1 (en) * | 1997-03-13 | 1998-09-17 | Telia Ab (Publ) | Speaker verification system |
US5983178A (en) * | 1997-12-10 | 1999-11-09 | Atr Interpreting Telecommunications Research Laboratories | Speaker clustering apparatus based on feature quantities of vocal-tract configuration and speech recognition apparatus therewith |
US6236963B1 (en) | 1998-03-16 | 2001-05-22 | Atr Interpreting Telecommunications Research Laboratories | Speaker normalization processor apparatus for generating frequency warping function, and speech recognition apparatus with said speaker normalization processor apparatus |
EP1063634A3 (en) * | 1999-06-21 | 2003-09-10 | Matsushita Electric Industrial Co., Ltd. | System for recognizing utterances alternately spoken by plural speakers with an improved recognition accuracy |
JP2006171185A (ja) * | 2004-12-14 | 2006-06-29 | Asahi Kasei Corp | 音声認識装置および音声認識方法 |
WO2007052884A1 (en) * | 2005-11-07 | 2007-05-10 | Electronics And Telecommunications Research Institute | Text input system and method based on voice recognition |
Also Published As
Publication number | Publication date |
---|---|
JP3176210B2 (ja) | 2001-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10176802B1 (en) | Lattice encoding using recurrent neural networks | |
US5812975A (en) | State transition model design method and voice recognition method and apparatus using same | |
EP0708960B1 (en) | Topic discriminator | |
US5999902A (en) | Speech recognition incorporating a priori probability weighting factors | |
US8532991B2 (en) | Speech models generated using competitive training, asymmetric training, and data boosting | |
JP2965537B2 (ja) | 話者クラスタリング処理装置及び音声認識装置 | |
WO2001022400A1 (en) | Iterative speech recognition from multiple feature vectors | |
EP0788649A2 (en) | Method and system for pattern recognition based on tree organised probability densities | |
US20050228666A1 (en) | Method, apparatus, and system for building context dependent models for a large vocabulary continuous speech recognition (lvcsr) system | |
JP3176210B2 (ja) | 音声認識方法及び音声認識装置 | |
Rose | Word spotting from continuous speech utterances | |
JP3364631B2 (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
JP2852210B2 (ja) | 不特定話者モデル作成装置及び音声認識装置 | |
JP2905674B2 (ja) | 不特定話者連続音声認識方法 | |
JPH08110792A (ja) | 話者適応化装置及び音声認識装置 | |
JPH09134192A (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
JP3216565B2 (ja) | 音声モデルの話者適応化方法及びその方法を用いた音声認識方法及びその方法を記録した記録媒体 | |
JP3104900B2 (ja) | 音声認識方法 | |
JP2880436B2 (ja) | 音声認識装置 | |
JP2905686B2 (ja) | 音声認識装置 | |
JP2888781B2 (ja) | 話者適応化装置及び音声認識装置 | |
JP3439700B2 (ja) | 音響モデル学習装置、音響モデル変換装置及び音声認識装置 | |
JP2875179B2 (ja) | 話者適応化装置及び音声認識装置 | |
Tachibana et al. | Frame-level AnyBoost for LVCSR with the MMI criterion | |
JPH08123468A (ja) | 不特定話者モデル作成装置及び音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (prs date is renewal date of database) |
Year of fee payment: 8 Free format text: PAYMENT UNTIL: 20090406 |
|
FPAY | Renewal fee payment (prs date is renewal date of database) |
Year of fee payment: 9 Free format text: PAYMENT UNTIL: 20100406 |
|
LAPS | Cancellation because of no payment of annual fees |