JP2923243B2 - 音声認識のための単語モデル生成装置及び音声認識装置 - Google Patents
音声認識のための単語モデル生成装置及び音声認識装置Info
- Publication number
- JP2923243B2 JP2923243B2 JP8068226A JP6822696A JP2923243B2 JP 2923243 B2 JP2923243 B2 JP 2923243B2 JP 8068226 A JP8068226 A JP 8068226A JP 6822696 A JP6822696 A JP 6822696A JP 2923243 B2 JP2923243 B2 JP 2923243B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- model
- phoneme
- sample
- segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Description
【0001】
【発明の属する技術分野】本発明は、音響的特徴量に基
づくセグメント単位(Acousticallyder
ived Segment Units:ASUs)を
用いた音声認識のための単語モデル生成装置及び音声認
識装置に関する。
づくセグメント単位(Acousticallyder
ived Segment Units:ASUs)を
用いた音声認識のための単語モデル生成装置及び音声認
識装置に関する。
【0002】
【従来の技術】音声認識に用いられる音響モデルは、実
際の発声される音響的特徴とは独立に先見的に決められ
た音響単位が広く用いられており、特に、多くは音素の
単位が用いられている。この先見的な音声単位の決定
は、とりわけ調音結合の激しい自然発話又は自由発話音
声認識を行う際に、入力音声の特徴と音響モデルの間に
不整合を生じ、結果として音声認識率の低下を引き起こ
すと考えられる。
際の発声される音響的特徴とは独立に先見的に決められ
た音響単位が広く用いられており、特に、多くは音素の
単位が用いられている。この先見的な音声単位の決定
は、とりわけ調音結合の激しい自然発話又は自由発話音
声認識を行う際に、入力音声の特徴と音響モデルの間に
不整合を生じ、結果として音声認識率の低下を引き起こ
すと考えられる。
【0003】音響的音声単位に基づく音声認識では、認
識対象語に対する音響的系列をいかに生成するかが重要
な課題である。これを解決するために、認識対象単語の
データベースを大量に用意して単語モデルを生成する方
法(以下、第1の従来例という。)が、例えば、文献1
「K.Paliwal,“Lexicon−build
ing methods for an acoust
ic sub−word based speech
recognizer”,Proceedings o
f ICASSP−90,pp.729−732,19
90年」において開示されている。
識対象語に対する音響的系列をいかに生成するかが重要
な課題である。これを解決するために、認識対象単語の
データベースを大量に用意して単語モデルを生成する方
法(以下、第1の従来例という。)が、例えば、文献1
「K.Paliwal,“Lexicon−build
ing methods for an acoust
ic sub−word based speech
recognizer”,Proceedings o
f ICASSP−90,pp.729−732,19
90年」において開示されている。
【0004】また、音素隠れマルコフモデル(以下、隠
れマルコフモデルをHMMという。)を学習し、これを
接続することにより、単語HMMモデルを生成する方法
(以下、第2の従来例という。)が、例えば、文献2
「鷹見淳一ほか,“逐次状態分割法による隠れマルコフ
モデル網の自動生成”,電子情報通信学会論文誌,D−
II,Vol.J76−D−II,No.10,pp.
2155−2164,1993年10月」において開示
されている。
れマルコフモデルをHMMという。)を学習し、これを
接続することにより、単語HMMモデルを生成する方法
(以下、第2の従来例という。)が、例えば、文献2
「鷹見淳一ほか,“逐次状態分割法による隠れマルコフ
モデル網の自動生成”,電子情報通信学会論文誌,D−
II,Vol.J76−D−II,No.10,pp.
2155−2164,1993年10月」において開示
されている。
【0005】
【発明が解決しようとする課題】しかしながら、第1の
従来例においては、単語モデルの学習のために、同一の
単語の大量の音声データベースを必要とするという問題
点がある。また、第2の従来例においては、状態を分割
するという方法をとっているために、長いコンテキスト
を考慮することが困難であり、また、音声認識率はいま
だ比較的低いという問題点があった。
従来例においては、単語モデルの学習のために、同一の
単語の大量の音声データベースを必要とするという問題
点がある。また、第2の従来例においては、状態を分割
するという方法をとっているために、長いコンテキスト
を考慮することが困難であり、また、音声認識率はいま
だ比較的低いという問題点があった。
【0006】本発明の目的は以上の問題点を解決し、大
量の音声データベースを必要とせず、音響的特徴量に基
づくセグメント単位(ASU)を用いて単語モデルを自
動的に生成することができ、しかも従来例に比較して音
声認識率を改善することができる音声認識のための単語
モデル生成装置及び音声認識装置を提供することにあ
る。
量の音声データベースを必要とせず、音響的特徴量に基
づくセグメント単位(ASU)を用いて単語モデルを自
動的に生成することができ、しかも従来例に比較して音
声認識率を改善することができる音声認識のための単語
モデル生成装置及び音声認識装置を提供することにあ
る。
【0007】
【課題を解決するための手段】本発明に係る請求項1記
載の音声認識のための単語モデル生成装置は、予め生成
された音響的特徴量に基づくセグメント単位の最尤セグ
メントコード系列と、単語毎の各音素の時間を含む音素
データベースとを比較することにより、処理音素の前後
のコンテキスト環境が一致する複数M個のセグメントコ
ードのサンプルを検出し、検出された複数M個のセグメ
ントコードのサンプルの中から最大尤度を有する代表の
セグメントコードのサンプルを検出し、上記代表のセグ
メントコードのサンプルと、上記複数M個のセグメント
コードのサンプルとの間の時間的な対応付けを動的時間
整合法により行って時間的に正規化を行い、時間的に正
規化された代表のセグメントコードのサンプルと、上記
複数M個のセグメントコードのサンプルとを各単語毎に
混合することにより、処理音素の前後のコンテキスト環
境が一致する音素列毎に音響的特徴量を含む各単語の音
素モデルを生成する第1の生成手段と、上記音素データ
ベースにおける同一の単語である複数N個の単語の音響
的特徴量から最大尤度を有する当該単語の代表のセグメ
ントコードのサンプルを検出し、検出された代表のセグ
メントのサンプルと、複数N個の単語のセグメントコー
ドのサンプルとの時間的な対応付けを動的時間整合法に
より行って時間的に正規化を行い、時間的に正規化され
た代表のセグメントコードのサンプルと、上記複数N個
のセグメントコードのサンプルとを各単語毎に混合する
ことにより、単語毎に音響的特徴量を含む第1の単語モ
デルを生成する第2の生成手段と、複数の単語の学習用
テキストデータから各単語を読み出して、上記音素デー
タベース中の各同一単語の複数の音素モデルを組み合わ
せることにより、各単語毎に音響的特徴量を含む第2の
単語モデルを生成する第3の生成手段と、上記第1の単
語モデルと上記第2の単語モデルとを、当該モデルの音
響的特徴量を用いて時間的な対応付けを動的時間整合法
により行って時間的に正規化を行い、時間的に正規化さ
れた第1と第2の単語モデルを混合することにより、単
語毎に音響的特徴量を含む第3の単語モデルを生成する
第4の生成手段とを備えたことを特徴とする。
載の音声認識のための単語モデル生成装置は、予め生成
された音響的特徴量に基づくセグメント単位の最尤セグ
メントコード系列と、単語毎の各音素の時間を含む音素
データベースとを比較することにより、処理音素の前後
のコンテキスト環境が一致する複数M個のセグメントコ
ードのサンプルを検出し、検出された複数M個のセグメ
ントコードのサンプルの中から最大尤度を有する代表の
セグメントコードのサンプルを検出し、上記代表のセグ
メントコードのサンプルと、上記複数M個のセグメント
コードのサンプルとの間の時間的な対応付けを動的時間
整合法により行って時間的に正規化を行い、時間的に正
規化された代表のセグメントコードのサンプルと、上記
複数M個のセグメントコードのサンプルとを各単語毎に
混合することにより、処理音素の前後のコンテキスト環
境が一致する音素列毎に音響的特徴量を含む各単語の音
素モデルを生成する第1の生成手段と、上記音素データ
ベースにおける同一の単語である複数N個の単語の音響
的特徴量から最大尤度を有する当該単語の代表のセグメ
ントコードのサンプルを検出し、検出された代表のセグ
メントのサンプルと、複数N個の単語のセグメントコー
ドのサンプルとの時間的な対応付けを動的時間整合法に
より行って時間的に正規化を行い、時間的に正規化され
た代表のセグメントコードのサンプルと、上記複数N個
のセグメントコードのサンプルとを各単語毎に混合する
ことにより、単語毎に音響的特徴量を含む第1の単語モ
デルを生成する第2の生成手段と、複数の単語の学習用
テキストデータから各単語を読み出して、上記音素デー
タベース中の各同一単語の複数の音素モデルを組み合わ
せることにより、各単語毎に音響的特徴量を含む第2の
単語モデルを生成する第3の生成手段と、上記第1の単
語モデルと上記第2の単語モデルとを、当該モデルの音
響的特徴量を用いて時間的な対応付けを動的時間整合法
により行って時間的に正規化を行い、時間的に正規化さ
れた第1と第2の単語モデルを混合することにより、単
語毎に音響的特徴量を含む第3の単語モデルを生成する
第4の生成手段とを備えたことを特徴とする。
【0008】また、請求項2記載の音声認識のための単
語モデル生成装置は、請求項1記載の音声認識のための
単語モデル生成装置において、上記第1の生成手段は、
処理音素の前後のコンテキスト環境が一致する度合いに
応じた混合比率を用いて、時間的に正規化された代表の
セグメントコードのサンプルと、上記複数M個のセグメ
ントコードのサンプルとを各単語毎に混合することを特
徴とする。
語モデル生成装置は、請求項1記載の音声認識のための
単語モデル生成装置において、上記第1の生成手段は、
処理音素の前後のコンテキスト環境が一致する度合いに
応じた混合比率を用いて、時間的に正規化された代表の
セグメントコードのサンプルと、上記複数M個のセグメ
ントコードのサンプルとを各単語毎に混合することを特
徴とする。
【0009】さらに、請求項3記載の音声認識のための
単語モデル生成装置は、請求項1又は2記載の音声認識
のための単語モデル生成装置において、上記第4の生成
手段は、学習用テキストデータ中に存在する生成すべき
単語モデルの単語のデータ量に応じた混合比率を用い
て、時間的に正規化された第1と第2の単語モデルを混
合することを特徴とする。
単語モデル生成装置は、請求項1又は2記載の音声認識
のための単語モデル生成装置において、上記第4の生成
手段は、学習用テキストデータ中に存在する生成すべき
単語モデルの単語のデータ量に応じた混合比率を用い
て、時間的に正規化された第1と第2の単語モデルを混
合することを特徴とする。
【0010】本発明に係る請求項4記載の音声認識装置
は、請求項1乃至3のうちの1つに記載の単語モデル生
成装置と、上記単語モデル生成装置によって作成された
第3の単語モデルを用いて、入力された文字列からなる
発声音声文の音声信号を音声認識する音声認識手段とを
備えたことを特徴とする。
は、請求項1乃至3のうちの1つに記載の単語モデル生
成装置と、上記単語モデル生成装置によって作成された
第3の単語モデルを用いて、入力された文字列からなる
発声音声文の音声信号を音声認識する音声認識手段とを
備えたことを特徴とする。
【0011】
【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。上述のように、先見的な
音声単位の決定は、とりわけ調音結合の激しい自然発話
又は自由発話音声認識を行う際に、入力音声の特徴と音
響モデルの間に不整合を生じ、結果として音声認識率の
低下を引き起こすが、本発明に係る単語モデル生成部1
0は、この不整合を緩和するために、本発明者は、音響
的特徴量又は音響的特徴パラメータに基づくセグメント
単位(以下、ASUという。)を用いた単語モデルを自
動的生成する装置である。ここで、ASUを用いたモデ
ル(以下、ASUモデルという。)は、例えば、文献3
「Y.Shiraki et al.,“LPCspe
ech coding based on varia
ble−length segment quanti
zation”,IEEE Transation o
n Acoustic Speech and Sig
nalProcessing,Vol.36,No.
9,pp.1437−1444,1988年」及び文献
4「H.Gish et al.,“A segmen
tal speech model with app
lication toword spottin
g”,Proceedings of ICASSP−
93,pp.II−477−II−450,1993
年」において開示され、音響的特徴量の平均値、音響的
特徴量の分散、当該ASUの継続時間とを含む時系列パ
ラメータからなり、複数の状態が縦続に連結されてなる
公知の確率的セグメントモデルであり、各ASU内の平
均値の時間変化は任意の多項式の軌跡として表される。
本実施形態では、音響的特徴量は、具体的には、ケプス
トラム係数を人間の聴覚に合わせて補正した10次元の
メル・ケプストラム係数(以下、MFCCという。)と
パワー(又はエネルギー)とを含む11個の特徴パラメ
ータである。以下では、まず音響的音声単位の生成法を
説明し、この単位を用いた認識対象語に対する単語モデ
ルの作成方法について述べる。
る実施形態について説明する。上述のように、先見的な
音声単位の決定は、とりわけ調音結合の激しい自然発話
又は自由発話音声認識を行う際に、入力音声の特徴と音
響モデルの間に不整合を生じ、結果として音声認識率の
低下を引き起こすが、本発明に係る単語モデル生成部1
0は、この不整合を緩和するために、本発明者は、音響
的特徴量又は音響的特徴パラメータに基づくセグメント
単位(以下、ASUという。)を用いた単語モデルを自
動的生成する装置である。ここで、ASUを用いたモデ
ル(以下、ASUモデルという。)は、例えば、文献3
「Y.Shiraki et al.,“LPCspe
ech coding based on varia
ble−length segment quanti
zation”,IEEE Transation o
n Acoustic Speech and Sig
nalProcessing,Vol.36,No.
9,pp.1437−1444,1988年」及び文献
4「H.Gish et al.,“A segmen
tal speech model with app
lication toword spottin
g”,Proceedings of ICASSP−
93,pp.II−477−II−450,1993
年」において開示され、音響的特徴量の平均値、音響的
特徴量の分散、当該ASUの継続時間とを含む時系列パ
ラメータからなり、複数の状態が縦続に連結されてなる
公知の確率的セグメントモデルであり、各ASU内の平
均値の時間変化は任意の多項式の軌跡として表される。
本実施形態では、音響的特徴量は、具体的には、ケプス
トラム係数を人間の聴覚に合わせて補正した10次元の
メル・ケプストラム係数(以下、MFCCという。)と
パワー(又はエネルギー)とを含む11個の特徴パラメ
ータである。以下では、まず音響的音声単位の生成法を
説明し、この単位を用いた認識対象語に対する単語モデ
ルの作成方法について述べる。
【0012】まず、ASUモデルの自動作成について以
下説明する。本実施形態において、この自動生成の処理
は、ASUモデル生成部20とビタビセグメンテーショ
ン処理部21とによって予め実行される公知の処理であ
って以下の手順を含む。 <ステップSS1>11個の特徴パラメータの平均値、
11個の特徴パラメータの分散及び継続時間とを含む2
3個のパラメータを単語毎に含む単語音声データベース
のメモリ30に基づいて、特徴パラメータの時系列を音
響的セグメンテーション処理を実行することにより、単
語毎の初期音声セグメントの時系列モデルを求める。 <ステップSS2>次いで、上記単語毎の初期音声セグ
メントの時系列モデルである音響的セグメントをクラス
タリングすることにより、単語毎の音声セグメントの時
系列を含むASUモデルを求め、ASUモデルパラメー
タメモリ32に書き込む。以上が、ASUモデル生成部
20による処理である。 <ステップSS3>さらに、ASUモデルパラメータメ
モリ32に記憶された単語毎の音声セグメントの時系列
に基づいて、ビタビセグメンテーション処理を実行する
ことにより、セグメント処理された、すなわち所定の時
間で区分された単語毎の音声セグメントの時系列を求め
る。 <ステップSS4>上記ビタビセグメンテーション処理
の処理結果である単語毎の音声セグメントの時系列に基
づいて、再度のクラスタリング処理によりASUモデル
を再計算して更新する。 <ステップSS5>必要ならば上記ステップSS3及び
SS4を繰り返して、最適に時間方向に区分された単語
毎の音声セグメントの時系列を含むASUモデルを求
め、その最尤セグメントコード系列を最尤セグメントコ
ード系列メモリ32に書き込む。以上が、ビタビセグメ
ンテーション処理部21による処理である。以下にこれ
らの各手順の詳細を示す。
下説明する。本実施形態において、この自動生成の処理
は、ASUモデル生成部20とビタビセグメンテーショ
ン処理部21とによって予め実行される公知の処理であ
って以下の手順を含む。 <ステップSS1>11個の特徴パラメータの平均値、
11個の特徴パラメータの分散及び継続時間とを含む2
3個のパラメータを単語毎に含む単語音声データベース
のメモリ30に基づいて、特徴パラメータの時系列を音
響的セグメンテーション処理を実行することにより、単
語毎の初期音声セグメントの時系列モデルを求める。 <ステップSS2>次いで、上記単語毎の初期音声セグ
メントの時系列モデルである音響的セグメントをクラス
タリングすることにより、単語毎の音声セグメントの時
系列を含むASUモデルを求め、ASUモデルパラメー
タメモリ32に書き込む。以上が、ASUモデル生成部
20による処理である。 <ステップSS3>さらに、ASUモデルパラメータメ
モリ32に記憶された単語毎の音声セグメントの時系列
に基づいて、ビタビセグメンテーション処理を実行する
ことにより、セグメント処理された、すなわち所定の時
間で区分された単語毎の音声セグメントの時系列を求め
る。 <ステップSS4>上記ビタビセグメンテーション処理
の処理結果である単語毎の音声セグメントの時系列に基
づいて、再度のクラスタリング処理によりASUモデル
を再計算して更新する。 <ステップSS5>必要ならば上記ステップSS3及び
SS4を繰り返して、最適に時間方向に区分された単語
毎の音声セグメントの時系列を含むASUモデルを求
め、その最尤セグメントコード系列を最尤セグメントコ
ード系列メモリ32に書き込む。以上が、ビタビセグメ
ンテーション処理部21による処理である。以下にこれ
らの各手順の詳細を示す。
【0013】ASUモデル生成部20によって実行され
る音響的セグメンテーション処理は、ダイナミックプロ
グラミング法(DTW法)により、次式で定義されるフ
レーム時刻iとjとの間のセグメント内距離D(i,
j)の総和のフレーム平均が予め定められた歪みより小
さくなる最小のセグメント数となるように時間的に正規
化することにより、音響的に区分された単語毎の音声セ
グメントの時系列を求める。
る音響的セグメンテーション処理は、ダイナミックプロ
グラミング法(DTW法)により、次式で定義されるフ
レーム時刻iとjとの間のセグメント内距離D(i,
j)の総和のフレーム平均が予め定められた歪みより小
さくなる最小のセグメント数となるように時間的に正規
化することにより、音響的に区分された単語毎の音声セ
グメントの時系列を求める。
【0014】
【数1】
【0015】ここで、xmは特徴ベクトルであり、xhm
はフレーム時刻mがiからjまでの間の平均軌跡ベクト
ルであり、Σは単語音声データベースメモリ30に記憶
された学習データ全体から求められた対角共分散行列で
ある。また、Tは転置行列を示す。ここで、各特徴パラ
メータは例えば10msのフレーム毎に計算される。次
いで、上記音響的セグメンテーション処理の方法により
得られた音声セグメントの時系列を、次式の尤度最大化
基準によるLBG(Linde Buzo Gray;
例えば、文献5「Linde et al.,“An
Algorithm for Vector Quan
tizer Design”,IEEETransat
ion,COM−28,No.1,pp.84−95,
1980年」参照。)法のアルゴリズムでクラスタリン
グし、初期ASUモデルを求める。当該ASUモデル
は、各単語毎に、詳細後述するように、11個の音響的
特徴量の平均値と、11個の音響的特徴量の分散と、継
続時間とを含む。
はフレーム時刻mがiからjまでの間の平均軌跡ベクト
ルであり、Σは単語音声データベースメモリ30に記憶
された学習データ全体から求められた対角共分散行列で
ある。また、Tは転置行列を示す。ここで、各特徴パラ
メータは例えば10msのフレーム毎に計算される。次
いで、上記音響的セグメンテーション処理の方法により
得られた音声セグメントの時系列を、次式の尤度最大化
基準によるLBG(Linde Buzo Gray;
例えば、文献5「Linde et al.,“An
Algorithm for Vector Quan
tizer Design”,IEEETransat
ion,COM−28,No.1,pp.84−95,
1980年」参照。)法のアルゴリズムでクラスタリン
グし、初期ASUモデルを求める。当該ASUモデル
は、各単語毎に、詳細後述するように、11個の音響的
特徴量の平均値と、11個の音響的特徴量の分散と、継
続時間とを含む。
【0016】
【数2】
【0017】ここで、Nはフレーム数で表されたセグメ
ント長であり、Mは特徴ベクトルの次元数であり、μh
mはクラスタの中心値であり、Σcはクラスタの中心値
の分散の広がりを表わすクラスタの共分散行列である。
次いで、繰り返しによるASUモデルの再推定処理(す
なわち、ビタビセグメンテーション処理)においては、
第3の従来例と同様の方法により、ASUモデルの再推
定処理を繰り返しにより行う。ここでは歪み最小基準で
はなく、尤度最大基準を用いている点が異なる。まず、
ASUを用いたビタビセグメンテーション処理を行ない
最尤セグメントコード系列を求める。これにより、セグ
メント位置が変化するため、各ASUの統計情報を再度
計算しASUモデルを更新する。尤度の増加分が予め設
定した所定のしきい値以下になるか、又は、最大繰り返
し数に達するまでこの処理を繰り返す。
ント長であり、Mは特徴ベクトルの次元数であり、μh
mはクラスタの中心値であり、Σcはクラスタの中心値
の分散の広がりを表わすクラスタの共分散行列である。
次いで、繰り返しによるASUモデルの再推定処理(す
なわち、ビタビセグメンテーション処理)においては、
第3の従来例と同様の方法により、ASUモデルの再推
定処理を繰り返しにより行う。ここでは歪み最小基準で
はなく、尤度最大基準を用いている点が異なる。まず、
ASUを用いたビタビセグメンテーション処理を行ない
最尤セグメントコード系列を求める。これにより、セグ
メント位置が変化するため、各ASUの統計情報を再度
計算しASUモデルを更新する。尤度の増加分が予め設
定した所定のしきい値以下になるか、又は、最大繰り返
し数に達するまでこの処理を繰り返す。
【0018】図7は、図1のASUモデル生成部20及
びビタビセグメンテーション処理部21によって実行さ
れるビタビセグメンテーション処理の各処理過程の音声
信号波形を示す信号波形図であり、(a)は音素コード
がラベル付けされた単語データベースメモリ内の単語
「あくまで」の音声信号波形図であり、(b)は音響的
セグメンテーション処理後の音声信号波形図であり、
(c)は1回のビタビセグメンテーション処理後の音声
信号波形図であり、(d)は1回のビタビセグメンテー
ション処理後の音声信号波形図である。上記図7(a)
の下側は各音素を示しており、図7(c)及び(d)の
下側はビタビセグメンテーション処理後の、音素を区分
した最尤セグメントコード系列を示す。上記繰り返しア
ルゴリズムにより、ASUモデルの尤度が単調に増加す
ること、従来の音素より高い尤度が得られることが実験
的に確かめられている。従って、ASUモデル生成部2
0によって単語毎の音響セグメンテーション処理後の
(例えば図7(b)の)ASUモデルパラメータがAS
Uモデルパラメータメモリ31に記憶される一方、ビタ
ビセグメンテーション処理後の(例えば図7(d)の)
最尤セグメントコードが最尤セグメントコード系列メモ
リ32に記憶される。
びビタビセグメンテーション処理部21によって実行さ
れるビタビセグメンテーション処理の各処理過程の音声
信号波形を示す信号波形図であり、(a)は音素コード
がラベル付けされた単語データベースメモリ内の単語
「あくまで」の音声信号波形図であり、(b)は音響的
セグメンテーション処理後の音声信号波形図であり、
(c)は1回のビタビセグメンテーション処理後の音声
信号波形図であり、(d)は1回のビタビセグメンテー
ション処理後の音声信号波形図である。上記図7(a)
の下側は各音素を示しており、図7(c)及び(d)の
下側はビタビセグメンテーション処理後の、音素を区分
した最尤セグメントコード系列を示す。上記繰り返しア
ルゴリズムにより、ASUモデルの尤度が単調に増加す
ること、従来の音素より高い尤度が得られることが実験
的に確かめられている。従って、ASUモデル生成部2
0によって単語毎の音響セグメンテーション処理後の
(例えば図7(b)の)ASUモデルパラメータがAS
Uモデルパラメータメモリ31に記憶される一方、ビタ
ビセグメンテーション処理後の(例えば図7(d)の)
最尤セグメントコードが最尤セグメントコード系列メモ
リ32に記憶される。
【0019】次いで、ASUモデルの混合による単語モ
デルの作成について述べる。上記ビタビセグメンテーシ
ョン処理により得られたASUを用いた学習データであ
る最尤セグメントコード系列と、音素データベースメモ
リ33に予め記憶された単語毎の音素データベースの音
素ラベル情報を用いて、以下の手順で単語モデルを作成
する。
デルの作成について述べる。上記ビタビセグメンテーシ
ョン処理により得られたASUを用いた学習データであ
る最尤セグメントコード系列と、音素データベースメモ
リ33に予め記憶された単語毎の音素データベースの音
素ラベル情報を用いて、以下の手順で単語モデルを作成
する。
【0020】<ステップSS11>混合のための代表サ
ンプルOhを、当該処理音素が一致するとともに、当該
処理音素の前の3つの音素と、当該処理音素の後の3つ
の音素との合計7音素のコンテキストが一致するように
当該処理音素の前後のコンテキスト環境が一致する(以
下、「処理音素の前後のコンテキスト環境が一致する」
という。)ASUモデルの時系列で表されたM個のサン
プルO(i),(i=1,2,…,M)の中から見つけ
る。ここで、サンプルとは、ASUモデルの時系列で表
され、パワー、詳細後述する11個の音響的特徴量の平
均値、11個の音響的特徴量の分散、及び継続時間のサ
ンプル情報を含む。
ンプルOhを、当該処理音素が一致するとともに、当該
処理音素の前の3つの音素と、当該処理音素の後の3つ
の音素との合計7音素のコンテキストが一致するように
当該処理音素の前後のコンテキスト環境が一致する(以
下、「処理音素の前後のコンテキスト環境が一致する」
という。)ASUモデルの時系列で表されたM個のサン
プルO(i),(i=1,2,…,M)の中から見つけ
る。ここで、サンプルとは、ASUモデルの時系列で表
され、パワー、詳細後述する11個の音響的特徴量の平
均値、11個の音響的特徴量の分散、及び継続時間のサ
ンプル情報を含む。
【0021】
【数3】
【0022】ここで、P(・)は2つのサンプルO
(m),O(i)間の類似性を示す対数尤度を表す。 <ステップSS12>代表サンプルOhと、M個のサン
プルO(i),(i=1,2,…,M)とのセグメント
間の時間的対応付けをASU内の音響的特徴量の平均値
を動的時間整合法(DTW法)により時間的に正規化し
て行う。
(m),O(i)間の類似性を示す対数尤度を表す。 <ステップSS12>代表サンプルOhと、M個のサン
プルO(i),(i=1,2,…,M)とのセグメント
間の時間的対応付けをASU内の音響的特徴量の平均値
を動的時間整合法(DTW法)により時間的に正規化し
て行う。
【0023】<ステップSS13>対応付けられた各セ
グメント間で、ASU内の音響的特徴量の平均値と分散
を用いて混合する。ここで、単語を構成する音素コンテ
キストとの一致度による重み付け(wcontext)を行
う。本実施形態では、左環境3音素,右環境3音素の合
計6音素のコンテキストを考慮している。図8に、上記
ステップSS11乃至SS13に対応し、詳細後述する
図3のステップS11乃至S13の処理を示し、3個の
サンプル(音素/a/:O(1),O(2),O
(3))を1つの音素モデルとして混合する一例を示
す。このようにして得られた音素モデルを連結すること
により、音素に基づく単語モデルが作成できる。
グメント間で、ASU内の音響的特徴量の平均値と分散
を用いて混合する。ここで、単語を構成する音素コンテ
キストとの一致度による重み付け(wcontext)を行
う。本実施形態では、左環境3音素,右環境3音素の合
計6音素のコンテキストを考慮している。図8に、上記
ステップSS11乃至SS13に対応し、詳細後述する
図3のステップS11乃至S13の処理を示し、3個の
サンプル(音素/a/:O(1),O(2),O
(3))を1つの音素モデルとして混合する一例を示
す。このようにして得られた音素モデルを連結すること
により、音素に基づく単語モデルが作成できる。
【0024】次いで、上記処理における「音素」を「単
語」へ拡張し、単語モデルを作成することを考える。す
なわち、上記ステップSS11において、対数尤度の総
和を最大とする単語の代表サンプルOwordをM個の単語
データから見つけ、上記ステップSS12及びSS13
処理と同様に単語モデルを作成する。ここでは音素コン
テキストによる重み付けは行なわない。次に、この単語
モデルと、音素レベルで作成された単語モデルとを、モ
デルの平均値を用いて時間的対応付けし、学習データ中
に存在する認識対象単語のデータ量nに応じた重み付け
wnを行ない混合する。これにより、学習データに認識
対象単語が多く存在する場合は、これらのデータを中心
に学習した精密な単語モデルとなり、全く存在しない場
合には、音素に基づく頑強な単語モデルが得られると考
えられる。
語」へ拡張し、単語モデルを作成することを考える。す
なわち、上記ステップSS11において、対数尤度の総
和を最大とする単語の代表サンプルOwordをM個の単語
データから見つけ、上記ステップSS12及びSS13
処理と同様に単語モデルを作成する。ここでは音素コン
テキストによる重み付けは行なわない。次に、この単語
モデルと、音素レベルで作成された単語モデルとを、モ
デルの平均値を用いて時間的対応付けし、学習データ中
に存在する認識対象単語のデータ量nに応じた重み付け
wnを行ない混合する。これにより、学習データに認識
対象単語が多く存在する場合は、これらのデータを中心
に学習した精密な単語モデルとなり、全く存在しない場
合には、音素に基づく頑強な単語モデルが得られると考
えられる。
【0025】図2は、単語モデル生成部10によって実
行される単語モデル生成処理のフローチャートである。
当該処理では、まず、ステップS1において、各単語の
音素モデル生成処理を実行し、次いで、ステップS2に
おいて、尤度最大の第1の単語モデル生成処理を実行
し、さらに、ステップS3において、音素モデルの組み
合わせによる第2の単語モデル生成処理を実行し、最後
に、ステップS4において、第1の単語モデルと第2の
単語モデルとの混合による単語モデル生成処理を実行し
て、当該単語モデル生成処理を終了する。
行される単語モデル生成処理のフローチャートである。
当該処理では、まず、ステップS1において、各単語の
音素モデル生成処理を実行し、次いで、ステップS2に
おいて、尤度最大の第1の単語モデル生成処理を実行
し、さらに、ステップS3において、音素モデルの組み
合わせによる第2の単語モデル生成処理を実行し、最後
に、ステップS4において、第1の単語モデルと第2の
単語モデルとの混合による単語モデル生成処理を実行し
て、当該単語モデル生成処理を終了する。
【0026】次いで、図1の単語モデル生成部10に接
続される各メモリ31乃至34及び41乃至43に記憶
されるデータの書式の一例を表1乃至表7に示す。
続される各メモリ31乃至34及び41乃至43に記憶
されるデータの書式の一例を表1乃至表7に示す。
【0027】
【表1】 ASUモデルパラメータメモリ31内のASUモデルパラメータ ─────────────────────────────────── ASUラベル モデルパラメータのデータ(23個) ─────────────────────────────────── A1 4.13,0.41,0.27,−0.03,…,…,…… A2 3.15,0.87,0.11,0.04,…,…,…… A3 …… A4 …… …… …… …… …… ───────────────────────────────────
【0028】表1から明らかなように、ASUモデルパ
ラメータメモリ31内のASUモデルパラメータは、A
SUラベルと、23個のモデルパラメータのデータとを
含む。ここで、ASUラベルはクラスタリングの数(例
えば120)だけあり、モデルパラメータのデータはA
SUラベルに対応する特徴量の平均値、分散、継続時間
を表わすものである。
ラメータメモリ31内のASUモデルパラメータは、A
SUラベルと、23個のモデルパラメータのデータとを
含む。ここで、ASUラベルはクラスタリングの数(例
えば120)だけあり、モデルパラメータのデータはA
SUラベルに対応する特徴量の平均値、分散、継続時間
を表わすものである。
【0029】
【表2】 最尤セグメントコード系列メモリ32内の最尤セグメントコード系列 ─────────────────────────── 単語 最尤セク゛メントコート゛ 開始フレーム番号 終了フレーム番号 ─────────────────────────── あくまで A1 0 3 A5 4 7 A4 8 12 A8 13 16 A12 17 21 ─────────────────────────── ……… ───────────────────────────
【0030】表2から明らかなように、最尤セグメント
コード系列メモリ32内の最尤セグメントコード系列
は、単語毎に、最尤セグメントコードと、開始フレーム
番号と、終了フレーム番号とを含む。ここで、最尤セグ
メントコード系列は、ビタビセグメンテーション処理部
21によって得られたものであり、単語をASU系列と
して表した場合の時間情報をもったラベル系列を示す。
コード系列メモリ32内の最尤セグメントコード系列
は、単語毎に、最尤セグメントコードと、開始フレーム
番号と、終了フレーム番号とを含む。ここで、最尤セグ
メントコード系列は、ビタビセグメンテーション処理部
21によって得られたものであり、単語をASU系列と
して表した場合の時間情報をもったラベル系列を示す。
【0031】
【表3】 音素データベースメモリ33内の音素データベース ─────────────────────────── 単語 音素ラベル 開始フレーム番号 終了フレーム番号 ─────────────────────────── あくまで a 0 3 k 4 6 u 7 9 m 10 12 a 13 17 d 18 19 e 20 21 ─────────────────────────── ……… ───────────────────────────
【0032】表3から明らかなように、音素データベー
スメモリ33内の音素データベースは、単語毎に、音素
ラベルと、開始フレーム番号と、終了フレーム番号とを
含む。
スメモリ33内の音素データベースは、単語毎に、音素
ラベルと、開始フレーム番号と、終了フレーム番号とを
含む。
【0033】
【表4】 学習用テキストデータメモリ34内の学習用テキストデータ ─────────────────────────── あくまで,うけたまわる,よやく,…,…,…………… ───────────────────────────
【0034】表4から明らかなように、学習用テキスト
データメモリ34内の学習用テキストデータは、複数の
単語のテキストデータを含む。
データメモリ34内の学習用テキストデータは、複数の
単語のテキストデータを含む。
【0035】
【表5】 音素モデルメモリ41内の音素モデル ──────────────────────────── 最大7個の音素 記憶データ からなる音素列 ──────────────────────────── aku/m/ade 縦続に連結された複数の状態毎の 11個の音響的特徴量の平均値、 11個の音響的特徴量の分散、及び 継続時間 ──────────────────────────── ………… ────────────────────────────
【0036】表5から明らかなように、音素モデルメモ
リ41内の音素モデルは、ステップS11における処理
音素の前後のコンテキスト環境が一致最大7個の音素か
らなる音素列毎に、縦続に連結された複数の状態毎の1
1個の音響的特徴量の平均値、11個の音響的特徴量の
分散、及び継続時間を含む。
リ41内の音素モデルは、ステップS11における処理
音素の前後のコンテキスト環境が一致最大7個の音素か
らなる音素列毎に、縦続に連結された複数の状態毎の1
1個の音響的特徴量の平均値、11個の音響的特徴量の
分散、及び継続時間を含む。
【0037】
【表6】 第1の単語モデルメモリ42内の第1の単語モデル ──────────────────────────── 単語 記憶データ ──────────────────────────── akumade 縦続に連結された複数の状態毎の 11個の音響的特徴量の平均値、 11個の音響的特徴量の分散、及び 継続時間 ──────────────────────────── ……… ────────────────────────────
【0038】表6から明らかなように、第1の単語モデ
ルメモリ42内の第1の単語モデルは、単語毎に、縦続
に連結された複数の状態毎の11個の音響的特徴量の平
均値、11個の音響的特徴量の分散、及び継続時間を含
む。
ルメモリ42内の第1の単語モデルは、単語毎に、縦続
に連結された複数の状態毎の11個の音響的特徴量の平
均値、11個の音響的特徴量の分散、及び継続時間を含
む。
【0039】
【表7】 第2の単語モデルメモリ43内の第2の単語モデル ──────────────────────────── 単語 記憶データ ──────────────────────────── akumade 縦続に連結された複数の状態毎の 11個の音響的特徴量の平均値、 11個の音響的特徴量の分散、及び 継続時間 ──────────────────────────── ……… ────────────────────────────
【0040】表7から明らかなように、第2の単語モデ
ルメモリ43内の第2の単語モデルは、単語毎に、縦続
に連結された複数の状態毎の11個の音響的特徴量の平
均値、11個の音響的特徴量の分散、及び継続時間を含
む。
ルメモリ43内の第2の単語モデルは、単語毎に、縦続
に連結された複数の状態毎の11個の音響的特徴量の平
均値、11個の音響的特徴量の分散、及び継続時間を含
む。
【0041】
【表8】 単語モデルメモリ7内の第3の単語モデル ──────────────────────────── 単語 記憶データ ──────────────────────────── akumade 縦続に連結された複数の状態毎の 11個の音響的特徴量の平均値、 11個の音響的特徴量の分散、及び 継続時間 ──────────────────────────── ……… ────────────────────────────
【0042】表8から明らかなように、単語モデルメモ
リ7内の第3の単語モデルは、単語毎に、縦続に連結さ
れた複数の状態毎の11個の音響的特徴量の平均値、1
1個の音響的特徴量の分散、及び継続時間を含む。
リ7内の第3の単語モデルは、単語毎に、縦続に連結さ
れた複数の状態毎の11個の音響的特徴量の平均値、1
1個の音響的特徴量の分散、及び継続時間を含む。
【0043】図3は、図2のサブルーチンである各単語
の音素モデル生成処理のフローチャートである。当該音
素モデル生成処理においては、上記ステップSS11乃
至SS13に対応するステップS1乃至S3を実行す
る。すなわち、図3に示すように、まず、ステップS1
1において、メモリ22内の最尤セグメントコード系列
とメモリ33内の音素データベースとを比較することに
より、処理音素の前後のコンテキスト環境が一致するM
個のサンプルの中から、上記数3で示す最大尤度を有す
る代表サンプルOmaxを見つける。次いで、ステップ
S12では、代表サンプルOmaxとM個のサンプルO
(i)との時間的対応付けを動的時間整合法を用いて時
間的に正規化することにより行う。本実施形態におい
て、時間的対応付けとは、2つのサンプルの時間長を合
わせるように時間的な対応付けを行うことである。さら
に、ステップS13では、時間的に正規化された代表サ
ンプルOmaxと各サンプルO(i),(i=1,2,
…,M)とを、1つの単語を構成する音素コンテキスト
の一致度による重み付けを行って混合することにより、
各単語の音素モデルを生成して、音素モデルメモリ41
に書き込む。すなわち、時間的に対応付けされた各セグ
メント間で次の数4によりASUの音響的特徴量の平均
値xph(m)と分散σphとを用いて混合し、混合後のA
SUの音響的特徴量の平均値xhphと分散σhphとを計
算する。
の音素モデル生成処理のフローチャートである。当該音
素モデル生成処理においては、上記ステップSS11乃
至SS13に対応するステップS1乃至S3を実行す
る。すなわち、図3に示すように、まず、ステップS1
1において、メモリ22内の最尤セグメントコード系列
とメモリ33内の音素データベースとを比較することに
より、処理音素の前後のコンテキスト環境が一致するM
個のサンプルの中から、上記数3で示す最大尤度を有す
る代表サンプルOmaxを見つける。次いで、ステップ
S12では、代表サンプルOmaxとM個のサンプルO
(i)との時間的対応付けを動的時間整合法を用いて時
間的に正規化することにより行う。本実施形態におい
て、時間的対応付けとは、2つのサンプルの時間長を合
わせるように時間的な対応付けを行うことである。さら
に、ステップS13では、時間的に正規化された代表サ
ンプルOmaxと各サンプルO(i),(i=1,2,
…,M)とを、1つの単語を構成する音素コンテキスト
の一致度による重み付けを行って混合することにより、
各単語の音素モデルを生成して、音素モデルメモリ41
に書き込む。すなわち、時間的に対応付けされた各セグ
メント間で次の数4によりASUの音響的特徴量の平均
値xph(m)と分散σphとを用いて混合し、混合後のA
SUの音響的特徴量の平均値xhphと分散σhphとを計
算する。
【0044】
【数4】
【数5】
【0045】ここで、重み係数wcontext(m)の一例
としては、前環境の音素の一致数をiとし、後環境の音
素の一致数をjとしたとき、重み係数wcontext(m)
は、例えば次の数6で与えられる。
としては、前環境の音素の一致数をiとし、後環境の音
素の一致数をjとしたとき、重み係数wcontext(m)
は、例えば次の数6で与えられる。
【0046】
【数6】wcontext(m)=i+j+k
【0047】ここで、i及びjはそれぞれ0以上の自然
数であって、iとjがともに1以上であるとき、例え
ば、k=20とし、一方、iとjの少なくとも一方が0
であるときはk=0とおく。
数であって、iとjがともに1以上であるとき、例え
ば、k=20とし、一方、iとjの少なくとも一方が0
であるときはk=0とおく。
【0048】従って、図3の各単語の音素モデル生成処
理は、予め生成された音響的特徴量に基づくセグメント
単位の最尤セグメントコード系列と、単語毎の各音素の
時間を含む音素データベースとを比較することにより、
処理音素の前後のコンテキスト環境が一致する複数M個
のセグメントコードのサンプルを検出し、検出された複
数M個のセグメントコードのサンプルの中から最大尤度
を有する代表のセグメントコードのサンプルを検出し、
上記代表のセグメントコードのサンプルと、上記複数M
個のセグメントコードのサンプルとの間の時間的な対応
付けを動的時間整合法により行って時間的に正規化を行
い、時間的に正規化された代表のセグメントコードのサ
ンプルと、上記複数M個のセグメントコードのサンプル
とを各単語毎に混合することにより、処理音素の前後の
コンテキスト環境が一致する音素列毎に音響的特徴量を
含む各単語の音素モデルを生成する処理である。
理は、予め生成された音響的特徴量に基づくセグメント
単位の最尤セグメントコード系列と、単語毎の各音素の
時間を含む音素データベースとを比較することにより、
処理音素の前後のコンテキスト環境が一致する複数M個
のセグメントコードのサンプルを検出し、検出された複
数M個のセグメントコードのサンプルの中から最大尤度
を有する代表のセグメントコードのサンプルを検出し、
上記代表のセグメントコードのサンプルと、上記複数M
個のセグメントコードのサンプルとの間の時間的な対応
付けを動的時間整合法により行って時間的に正規化を行
い、時間的に正規化された代表のセグメントコードのサ
ンプルと、上記複数M個のセグメントコードのサンプル
とを各単語毎に混合することにより、処理音素の前後の
コンテキスト環境が一致する音素列毎に音響的特徴量を
含む各単語の音素モデルを生成する処理である。
【0049】図4は、図2のサブルーチンである尤度最
大の第1の単語モデル生成処理のフローチャートであ
る。図4に示すように、まず、ステップS21におい
て、メモリ33内の音素データベースにおける同一の単
語であるN個の音響的特徴量から最大尤度を有する当該
単語の代表サンプルOwmaxを検出する。次いで、ス
テップS22において、代表サンプルOwmaxとN個
の単語のサンプルO(n)との時間的対応付けを動的時
間整合法を用いて時間的正規化することにより行う。さ
らに、ステップS23において、時間的正規化された代
表サンプルOwmaxと各サンプルO(n)とを混合す
ることにより、各単語の第1の単語モデルを生成して、
第1の単語モデルメモリ42に書き込む。すなわち、尤
度の総和を最大とする単語の代表サンプルOhwordをN
個の単語データから見つけ、認識対象語彙依存音素モデ
ルの生成処理のステップS12及びS13と同様に、対
応づけられた各セグメント間で次の数7を用いて、AS
Uの音響的特徴量の平均値xwd(n)と分散σwd(n)
とを用いて混合し、混合後のASUの音響的特徴量の平
均値xhwdと分散σhwdとを計算する。
大の第1の単語モデル生成処理のフローチャートであ
る。図4に示すように、まず、ステップS21におい
て、メモリ33内の音素データベースにおける同一の単
語であるN個の音響的特徴量から最大尤度を有する当該
単語の代表サンプルOwmaxを検出する。次いで、ス
テップS22において、代表サンプルOwmaxとN個
の単語のサンプルO(n)との時間的対応付けを動的時
間整合法を用いて時間的正規化することにより行う。さ
らに、ステップS23において、時間的正規化された代
表サンプルOwmaxと各サンプルO(n)とを混合す
ることにより、各単語の第1の単語モデルを生成して、
第1の単語モデルメモリ42に書き込む。すなわち、尤
度の総和を最大とする単語の代表サンプルOhwordをN
個の単語データから見つけ、認識対象語彙依存音素モデ
ルの生成処理のステップS12及びS13と同様に、対
応づけられた各セグメント間で次の数7を用いて、AS
Uの音響的特徴量の平均値xwd(n)と分散σwd(n)
とを用いて混合し、混合後のASUの音響的特徴量の平
均値xhwdと分散σhwdとを計算する。
【0050】
【数7】
【数8】
【0051】従って、図4の尤度最大の第1の単語モデ
ル生成処理は、上記音素データベースにおける同一の単
語である複数N個の単語の音響的特徴量から最大尤度を
有する当該単語の代表のセグメントコードのサンプルを
検出し、検出された代表のセグメントのサンプルと、複
数N個の単語のセグメントコードのサンプルとの時間的
な対応付けを動的時間整合法により行って時間的に正規
化を行い、時間的に正規化された代表のセグメントコー
ドのサンプルと、上記複数N個のセグメントコードのサ
ンプルとを各単語毎に混合することにより、単語毎に音
響的特徴量を含む第1の単語モデルを生成する処理であ
る。
ル生成処理は、上記音素データベースにおける同一の単
語である複数N個の単語の音響的特徴量から最大尤度を
有する当該単語の代表のセグメントコードのサンプルを
検出し、検出された代表のセグメントのサンプルと、複
数N個の単語のセグメントコードのサンプルとの時間的
な対応付けを動的時間整合法により行って時間的に正規
化を行い、時間的に正規化された代表のセグメントコー
ドのサンプルと、上記複数N個のセグメントコードのサ
ンプルとを各単語毎に混合することにより、単語毎に音
響的特徴量を含む第1の単語モデルを生成する処理であ
る。
【0052】図5は、図2のサブルーチンである第2の
単語モデル生成処理のフローチャートである。図5に示
すように、まず、ステップS31において、メモリ34
内の学習用テキストデータから各単語を読み出して、メ
モリ33内の音素データベース中の各同一単語の複数の
音素モデルを用いてそれらの音響的特徴量を組み合わせ
て混合することにより第2の単語モデルを生成して、第
2の単語モデルメモリ43に書き込む。
単語モデル生成処理のフローチャートである。図5に示
すように、まず、ステップS31において、メモリ34
内の学習用テキストデータから各単語を読み出して、メ
モリ33内の音素データベース中の各同一単語の複数の
音素モデルを用いてそれらの音響的特徴量を組み合わせ
て混合することにより第2の単語モデルを生成して、第
2の単語モデルメモリ43に書き込む。
【0053】図6は、図2のサブルーチンである混合に
よる単語モデル生成処理のフローチャートである。図6
に示すように、ステップS41において、メモリ42内
の第1の単語モデルと、メモリ43内の第2の単語モデ
ルとをモデルの音響的特徴量の平均値を用いて時間的に
対応付けを動的時間整合法を用いて時間的に正規化する
ことにより行う。次いで、ステップS42において、時
間的に正規化された第1と第2の単語モデルを、学習用
テキストデータ中に存在する単語のデータ量に応じた重
み付けを行って混合することにより各単語の第3の単語
モデルを生成して単語モデルメモリ7に書き込む。すな
わち、上記の認識対象語彙依存音素モデルと単語モデル
とを、モデルの平均値を用いて時間的に対応づけし、学
習データ中に存在する認識対象単語のデータ量Nに応じ
た重み付け係数wNを用いる重み付けを行い、次の数9
及び数10により最終的に計算したい認識対象語彙依存
単語モデルの平均値xhwordと分散σhwordを計算す
る。
よる単語モデル生成処理のフローチャートである。図6
に示すように、ステップS41において、メモリ42内
の第1の単語モデルと、メモリ43内の第2の単語モデ
ルとをモデルの音響的特徴量の平均値を用いて時間的に
対応付けを動的時間整合法を用いて時間的に正規化する
ことにより行う。次いで、ステップS42において、時
間的に正規化された第1と第2の単語モデルを、学習用
テキストデータ中に存在する単語のデータ量に応じた重
み付けを行って混合することにより各単語の第3の単語
モデルを生成して単語モデルメモリ7に書き込む。すな
わち、上記の認識対象語彙依存音素モデルと単語モデル
とを、モデルの平均値を用いて時間的に対応づけし、学
習データ中に存在する認識対象単語のデータ量Nに応じ
た重み付け係数wNを用いる重み付けを行い、次の数9
及び数10により最終的に計算したい認識対象語彙依存
単語モデルの平均値xhwordと分散σhwordを計算す
る。
【0054】
【数9】 xhword=(xhph+wN・xhwd)/(1+wN)
【数10】σhword=(σhph+wN・σhwd)/(1+w
N)+{(xhph−xhword)2+wN(xhwd−xhword)2}
/(1+wN)
N)+{(xhph−xhword)2+wN(xhwd−xhword)2}
/(1+wN)
【0055】重み付け係数wNの一例としては、例え
ば、学習用テキストデータの単語数(データ量)に0.
1を乗算した係数を用いる。従って、図6の混合による
単語モデル生成処理は、上記第1の単語モデルと上記第
2の単語モデルとを、当該モデルの音響的特徴量を用い
て時間的な対応付けを動的時間整合法により行って時間
的に正規化を行い、時間的に正規化された第1と第2の
単語モデルを混合することにより、単語毎に音響的特徴
量を含む第3の単語モデルを生成する処理である。
ば、学習用テキストデータの単語数(データ量)に0.
1を乗算した係数を用いる。従って、図6の混合による
単語モデル生成処理は、上記第1の単語モデルと上記第
2の単語モデルとを、当該モデルの音響的特徴量を用い
て時間的な対応付けを動的時間整合法により行って時間
的に正規化を行い、時間的に正規化された第1と第2の
単語モデルを混合することにより、単語毎に音響的特徴
量を含む第3の単語モデルを生成する処理である。
【0056】次いで、図1に示す自由発話音声認識装置
の構成及び動作について説明する。図1において、文字
列からなる発声音声文である話者の発声音声はマイクロ
ホン1に入力されて音声信号に変換された後、A/D変
換部2に入力される。A/D変換部2は、入力された音
声信号を所定のサンプリング周波数でA/D変換した
後、変換後のデジタルデータを特徴抽出部3に出力す
る。次いで、特徴抽出部3は、入力される音声信号のデ
ジタルデータに対して、例えばLPC分析を実行し、1
0次元のMFCCとパワーとを含む11次元の特徴パラ
メータを抽出する。抽出された特徴パラメータの時系列
はバッファメモリ4を介して単語レベル照合部5に入力
される。
の構成及び動作について説明する。図1において、文字
列からなる発声音声文である話者の発声音声はマイクロ
ホン1に入力されて音声信号に変換された後、A/D変
換部2に入力される。A/D変換部2は、入力された音
声信号を所定のサンプリング周波数でA/D変換した
後、変換後のデジタルデータを特徴抽出部3に出力す
る。次いで、特徴抽出部3は、入力される音声信号のデ
ジタルデータに対して、例えばLPC分析を実行し、1
0次元のMFCCとパワーとを含む11次元の特徴パラ
メータを抽出する。抽出された特徴パラメータの時系列
はバッファメモリ4を介して単語レベル照合部5に入力
される。
【0057】単語レベル照合部5に接続される単語モデ
ルメモリ7内の単語モデルは、前後の音素環境を連結す
る環境依存型音素モデルが縦続に連結されてなり、かつ
縦続に連結された複数の状態を含んで構成され、各状態
はそれぞれ以下の情報を有する。 (a)状態番号、(b)11次元の音響的特徴量の平均
値、(c)11次元の音響的特徴量の分散、(d)継続
時間、及び、(e)音素ラベルに対応するセグメントコ
ード。
ルメモリ7内の単語モデルは、前後の音素環境を連結す
る環境依存型音素モデルが縦続に連結されてなり、かつ
縦続に連結された複数の状態を含んで構成され、各状態
はそれぞれ以下の情報を有する。 (a)状態番号、(b)11次元の音響的特徴量の平均
値、(c)11次元の音響的特徴量の分散、(d)継続
時間、及び、(e)音素ラベルに対応するセグメントコ
ード。
【0058】単語レベル照合部5と文レベル照合部6と
は音声認識回路部を構成し、文レベル照合部6には、品
詞や単語の出力確率及び品詞間や単語間の遷移確率など
を含み文法規則メモリ8に記憶された文法規則と、シソ
ーラスの出力確率や対話管理規則を含み意味的規則メモ
リ9に記憶された意味的規則とが連結される。単語レベ
ル照合部5は、入力された音響的特徴量の時系列を上記
メモリ7内の単語モデルと照合して少なくとも1つの音
声認識候補単語を検出し、検出された候補単語に対して
尤度を計算し、最大の尤度を有する候補単語を認識結果
の単語として文レベル照合器6に出力する。さらに、文
レベル照合器6は入力された認識結果の単語に基づい
て、上記文法規則と意味的規則とを含む言語モデルを参
照して文レベルの照合処理を実行することにより、最終
的な音声認識結果の文を出力する。もし、言語モデルで
適合受理されない単語があれば、その情報を単語レベル
照合器5に帰還して再度単語レベルの照合を実行する。
単語レベル照合部5と文レベル照合部6は、複数の音素
からなる単語を順次連接していくことにより、自由発話
の連続音声の認識を行い、その音声認識結果データを出
力する。
は音声認識回路部を構成し、文レベル照合部6には、品
詞や単語の出力確率及び品詞間や単語間の遷移確率など
を含み文法規則メモリ8に記憶された文法規則と、シソ
ーラスの出力確率や対話管理規則を含み意味的規則メモ
リ9に記憶された意味的規則とが連結される。単語レベ
ル照合部5は、入力された音響的特徴量の時系列を上記
メモリ7内の単語モデルと照合して少なくとも1つの音
声認識候補単語を検出し、検出された候補単語に対して
尤度を計算し、最大の尤度を有する候補単語を認識結果
の単語として文レベル照合器6に出力する。さらに、文
レベル照合器6は入力された認識結果の単語に基づい
て、上記文法規則と意味的規則とを含む言語モデルを参
照して文レベルの照合処理を実行することにより、最終
的な音声認識結果の文を出力する。もし、言語モデルで
適合受理されない単語があれば、その情報を単語レベル
照合器5に帰還して再度単語レベルの照合を実行する。
単語レベル照合部5と文レベル照合部6は、複数の音素
からなる単語を順次連接していくことにより、自由発話
の連続音声の認識を行い、その音声認識結果データを出
力する。
【0059】以上のように構成された自由発話音声認識
装置において、A/D変換部2と、特徴抽出部3と、単
語レベル照合部5と、文レベル照合部6と、単語モデル
生成部10と、ASUモデル生成部20と、ビダビセグ
メンテーション処理部21とはそれぞれ、例えば、デジ
タル計算機によって構成される。また、バッファメモリ
4と、文法規則メモリ8と、意味的規則メモリ9と、単
語音声データベース30と、ASUモデルパラメータメ
モリ31と、最尤セグメントコード系列メモリ32と、
音素データベース33と、学習用テキストデータ34
と、音素モデルメモリ41と、第1の単語モデルメモリ
42と、第2の単語モデルメモリ43とはそれぞれ、例
えば、ハードディスクメモリによって構成される。
装置において、A/D変換部2と、特徴抽出部3と、単
語レベル照合部5と、文レベル照合部6と、単語モデル
生成部10と、ASUモデル生成部20と、ビダビセグ
メンテーション処理部21とはそれぞれ、例えば、デジ
タル計算機によって構成される。また、バッファメモリ
4と、文法規則メモリ8と、意味的規則メモリ9と、単
語音声データベース30と、ASUモデルパラメータメ
モリ31と、最尤セグメントコード系列メモリ32と、
音素データベース33と、学習用テキストデータ34
と、音素モデルメモリ41と、第1の単語モデルメモリ
42と、第2の単語モデルメモリ43とはそれぞれ、例
えば、ハードディスクメモリによって構成される。
【0060】以上の実施形態のステップSS11又はS
11においては、混合のための代表サンプルOを、当該
処理音素が一致するとともに、当該処理音素の前の3つ
の音素と、当該処理音素の後の3つの音素との合計7音
素のコンテキストが一致するASUモデルの時系列で表
されたM個のサンプルO(i),(i=1,2,…,
M)の中から見つけているが、本発明はこれに限らず、
当該処理音素の前の少なくとも1つの音素と、当該処理
音素の後の少なくとも1つの音素とのコンテキストが一
致するASUモデルの時系列で表されたM個のサンプル
O(i),(i=1,2,…,M)の中から見つけても
よい。
11においては、混合のための代表サンプルOを、当該
処理音素が一致するとともに、当該処理音素の前の3つ
の音素と、当該処理音素の後の3つの音素との合計7音
素のコンテキストが一致するASUモデルの時系列で表
されたM個のサンプルO(i),(i=1,2,…,
M)の中から見つけているが、本発明はこれに限らず、
当該処理音素の前の少なくとも1つの音素と、当該処理
音素の後の少なくとも1つの音素とのコンテキストが一
致するASUモデルの時系列で表されたM個のサンプル
O(i),(i=1,2,…,M)の中から見つけても
よい。
【0061】
【実施例】さらに、本発明者による、図1の自由発話音
声認識装置を用いて実験を行った結果について述べる。
上述の方法で作成される単語モデルを評価するために、
本出願人が所有する「旅行の申し込みのためのコーパ
ス」(例えば、文献6「Morimoto et a
l.,“A speech and language
database for speech trans
lation research”,Proceedi
ngs of ICSLP’94,pp.1791−1
794,1994年」参照。)のデータベースにおいて
含まれる200単語について特定話者の単語認識実験を
行なった。特徴パラメータの分析条件を表9に示し、A
SUの作成条件を表10に示す。
声認識装置を用いて実験を行った結果について述べる。
上述の方法で作成される単語モデルを評価するために、
本出願人が所有する「旅行の申し込みのためのコーパ
ス」(例えば、文献6「Morimoto et a
l.,“A speech and language
database for speech trans
lation research”,Proceedi
ngs of ICSLP’94,pp.1791−1
794,1994年」参照。)のデータベースにおいて
含まれる200単語について特定話者の単語認識実験を
行なった。特徴パラメータの分析条件を表9に示し、A
SUの作成条件を表10に示す。
【0062】
【表9】 分析条件 ─────────────────────── 標本化周波数:16kHz プリエンファシス:0.98 分析窓:ハミング窓 25.6ミリ秒 特徴パラメータ:MFCC10次元+エネルギー フレーム周期:10ミリ秒 ───────────────────────
【0063】
【表10】 ASU作成条件 ───────────────── 音響的セグメンテーション処理: (a)歪みしきい値:1.0 (b)モデル次数:0 (c)歪み尺度:マハラノビス ───────────────── クラスタリング: (a)コードブックサイズ:120 (b)歪み尺度:最尤 (c)共分散行列:対角 ─────────────────
【0064】本実験において、比較のために、例えば文
献2において開示されている逐次状態分割法による隠れ
マルコフ網の自動生成方法によって作成した環境依存モ
デルを用いた。ここで、総状態数は400であり、1状
態あたりの混合数は1である。この結果、逐次状態分割
法による認識率が80.0%に対して、本発明の方法が
82.0%(単語データを利用しない場合は80.5
%)となり、本発明の方法の有効性が確かめられた。
献2において開示されている逐次状態分割法による隠れ
マルコフ網の自動生成方法によって作成した環境依存モ
デルを用いた。ここで、総状態数は400であり、1状
態あたりの混合数は1である。この結果、逐次状態分割
法による認識率が80.0%に対して、本発明の方法が
82.0%(単語データを利用しない場合は80.5
%)となり、本発明の方法の有効性が確かめられた。
【0065】以上説明したように、音響的特徴量を用い
て音声単位を自動的に決定し、この単位を利用した新し
い音声認識装置を開示している。本発明の装置において
は、従来の音声単位として広く用いられている音素とい
う枠にとらわれることなく、かつ物理的な基準により一
貫性のある音声単位が得られるという特徴を有する。従
って、大量の音声データベースを必要とせず、しかも音
響的特徴量に基づくセグメント単位(ASU)を用いて
単語モデルを自動的に生成することができ、これによ
り、従来例に比較してより長い音素環境を考慮すること
ができるので、音声認識率を改善することができる音声
認識のための単語モデル生成装置及び音声認識装置を提
供することができる。
て音声単位を自動的に決定し、この単位を利用した新し
い音声認識装置を開示している。本発明の装置において
は、従来の音声単位として広く用いられている音素とい
う枠にとらわれることなく、かつ物理的な基準により一
貫性のある音声単位が得られるという特徴を有する。従
って、大量の音声データベースを必要とせず、しかも音
響的特徴量に基づくセグメント単位(ASU)を用いて
単語モデルを自動的に生成することができ、これによ
り、従来例に比較してより長い音素環境を考慮すること
ができるので、音声認識率を改善することができる音声
認識のための単語モデル生成装置及び音声認識装置を提
供することができる。
【0066】
【発明の効果】以上詳述したように本発明に係る請求項
1記載の音声認識のための単語モデル生成装置によれ
ば、予め生成された音響的特徴量に基づくセグメント単
位の最尤セグメントコード系列と、単語毎の各音素の時
間を含む音素データベースとを比較することにより、処
理音素の前後のコンテキスト環境が一致する複数M個の
セグメントコードのサンプルを検出し、検出された複数
M個のセグメントコードのサンプルの中から最大尤度を
有する代表のセグメントコードのサンプルを検出し、上
記代表のセグメントコードのサンプルと、上記複数M個
のセグメントコードのサンプルとの間の時間的な対応付
けを動的時間整合法により行って時間的に正規化を行
い、時間的に正規化された代表のセグメントコードのサ
ンプルと、上記複数M個のセグメントコードのサンプル
とを各単語毎に混合することにより、処理音素の前後の
コンテキスト環境が一致する音素列毎に音響的特徴量を
含む各単語の音素モデルを生成する第1の生成手段と、
上記音素データベースにおける同一の単語である複数N
個の単語の音響的特徴量から最大尤度を有する当該単語
の代表のセグメントコードのサンプルを検出し、検出さ
れた代表のセグメントのサンプルと、複数N個の単語の
セグメントコードのサンプルとの時間的な対応付けを動
的時間整合法により行って時間的に正規化を行い、時間
的に正規化された代表のセグメントコードのサンプル
と、上記複数N個のセグメントコードのサンプルとを各
単語毎に混合することにより、単語毎に音響的特徴量を
含む第1の単語モデルを生成する第2の生成手段と、複
数の単語の学習用テキストデータから各単語を読み出し
て、上記音素データベース中の各同一単語の複数の音素
モデルを組み合わせることにより、各単語毎に音響的特
徴量を含む第2の単語モデルを生成する第3の生成手段
と、上記第1の単語モデルと上記第2の単語モデルと
を、当該モデルの音響的特徴量を用いて時間的な対応付
けを動的時間整合法により行って時間的に正規化を行
い、時間的に正規化された第1と第2の単語モデルを混
合することにより、単語毎に音響的特徴量を含む第3の
単語モデルを生成する第4の生成手段とを備える。
1記載の音声認識のための単語モデル生成装置によれ
ば、予め生成された音響的特徴量に基づくセグメント単
位の最尤セグメントコード系列と、単語毎の各音素の時
間を含む音素データベースとを比較することにより、処
理音素の前後のコンテキスト環境が一致する複数M個の
セグメントコードのサンプルを検出し、検出された複数
M個のセグメントコードのサンプルの中から最大尤度を
有する代表のセグメントコードのサンプルを検出し、上
記代表のセグメントコードのサンプルと、上記複数M個
のセグメントコードのサンプルとの間の時間的な対応付
けを動的時間整合法により行って時間的に正規化を行
い、時間的に正規化された代表のセグメントコードのサ
ンプルと、上記複数M個のセグメントコードのサンプル
とを各単語毎に混合することにより、処理音素の前後の
コンテキスト環境が一致する音素列毎に音響的特徴量を
含む各単語の音素モデルを生成する第1の生成手段と、
上記音素データベースにおける同一の単語である複数N
個の単語の音響的特徴量から最大尤度を有する当該単語
の代表のセグメントコードのサンプルを検出し、検出さ
れた代表のセグメントのサンプルと、複数N個の単語の
セグメントコードのサンプルとの時間的な対応付けを動
的時間整合法により行って時間的に正規化を行い、時間
的に正規化された代表のセグメントコードのサンプル
と、上記複数N個のセグメントコードのサンプルとを各
単語毎に混合することにより、単語毎に音響的特徴量を
含む第1の単語モデルを生成する第2の生成手段と、複
数の単語の学習用テキストデータから各単語を読み出し
て、上記音素データベース中の各同一単語の複数の音素
モデルを組み合わせることにより、各単語毎に音響的特
徴量を含む第2の単語モデルを生成する第3の生成手段
と、上記第1の単語モデルと上記第2の単語モデルと
を、当該モデルの音響的特徴量を用いて時間的な対応付
けを動的時間整合法により行って時間的に正規化を行
い、時間的に正規化された第1と第2の単語モデルを混
合することにより、単語毎に音響的特徴量を含む第3の
単語モデルを生成する第4の生成手段とを備える。
【0067】従って、大量の音声データベースを必要と
せず、しかも音響的特徴量に基づくセグメント単位(A
SU)を用いて単語モデルを自動的に生成することがで
き、これにより、従来例に比較してより長い音素環境を
考慮することができるので、音声認識率を改善すること
ができる音声認識のための単語モデル生成装置を提供す
ることができる。
せず、しかも音響的特徴量に基づくセグメント単位(A
SU)を用いて単語モデルを自動的に生成することがで
き、これにより、従来例に比較してより長い音素環境を
考慮することができるので、音声認識率を改善すること
ができる音声認識のための単語モデル生成装置を提供す
ることができる。
【0068】また、本発明に係る請求項4記載の音声認
識装置は、請求項1乃至3のうちの1つに記載の単語モ
デル生成装置と、上記単語モデル生成装置によって作成
された第3の単語モデルを用いて、入力された文字列か
らなる発声音声文の音声信号を音声認識する音声認識手
段とを備える。
識装置は、請求項1乃至3のうちの1つに記載の単語モ
デル生成装置と、上記単語モデル生成装置によって作成
された第3の単語モデルを用いて、入力された文字列か
らなる発声音声文の音声信号を音声認識する音声認識手
段とを備える。
【0069】従って、大量の音声データベースを必要と
せず、しかも音響的特徴量に基づくセグメント単位(A
SU)を用いて単語モデルを自動的に生成することがで
き、これにより、従来例に比較してより長い音素環境を
考慮することができるので、音声認識率を改善すること
ができる音声認識装置を提供することができる。
せず、しかも音響的特徴量に基づくセグメント単位(A
SU)を用いて単語モデルを自動的に生成することがで
き、これにより、従来例に比較してより長い音素環境を
考慮することができるので、音声認識率を改善すること
ができる音声認識装置を提供することができる。
【図1】 本発明に係る一実施形態である自由発話音声
認識装置のブロック図である。
認識装置のブロック図である。
【図2】 単語モデル生成部10によって実行される単
語モデル生成処理のフローチャートである。
語モデル生成処理のフローチャートである。
【図3】 図2のサブルーチンである各単語の音素モデ
ル生成処理のフローチャートである。
ル生成処理のフローチャートである。
【図4】 図2のサブルーチンである尤度最大の第1の
単語モデル生成処理のフローチャートである。
単語モデル生成処理のフローチャートである。
【図5】 図2のサブルーチンである第2の単語モデル
生成処理のフローチャートである。
生成処理のフローチャートである。
【図6】 図2のサブルーチンである混合による単語モ
デル生成処理のフローチャートである。
デル生成処理のフローチャートである。
【図7】 図1のASUモデル生成部及びビタビセグメ
ンテーション処理部によって実行されるビタビセグメン
テーション処理の各処理過程の音声信号波形を示す信号
波形図であり、(a)は音素コードがラベル付けされた
単語データベースメモリ内の単語「あくまで」の音声信
号波形図であり、(b)は音響的セグメンテーション処
理後の音声信号波形図であり、(c)は1回のビタビセ
グメンテーション処理後の音声信号波形図であり、
(d)は1回のビタビセグメンテーション処理後の音声
信号波形図である。
ンテーション処理部によって実行されるビタビセグメン
テーション処理の各処理過程の音声信号波形を示す信号
波形図であり、(a)は音素コードがラベル付けされた
単語データベースメモリ内の単語「あくまで」の音声信
号波形図であり、(b)は音響的セグメンテーション処
理後の音声信号波形図であり、(c)は1回のビタビセ
グメンテーション処理後の音声信号波形図であり、
(d)は1回のビタビセグメンテーション処理後の音声
信号波形図である。
【図8】 図4のステップS11からステップS13ま
での処理を示すASUのセグメント列の模式図であり、
(a)は元のセグメント列であり、(b)はステップS
11の処理後の代表のセグメント列であり、(c)はス
テップS12の処理を示す代表のセグメント列と複数の
他のセグメント列であり、(d)はステップS13の処
理後のセグメント列である。
での処理を示すASUのセグメント列の模式図であり、
(a)は元のセグメント列であり、(b)はステップS
11の処理後の代表のセグメント列であり、(c)はス
テップS12の処理を示す代表のセグメント列と複数の
他のセグメント列であり、(d)はステップS13の処
理後のセグメント列である。
1…マイクロホン、 2…A/D変換部、 3…特徴抽出部、 4…バッファメモリ、 5…単語レベル照合部、 6…文レベル照合部、 7…単語モデルメモリ、 8…文法規則、 9…意味的規則、 10…単語モデル生成部、 20…ASU生成部、 21…ビタビセグメンテーション、 30…単語音声データベースメモリ、 31…ASUモデルパラメータメモリ、 32…最尤セグメントコード系列メモリ、 33…音素データベースメモリ、 34…学習用テキストデータメモリ、 41…音素モデルメモリ、 42…第1の単語モデルメモリ、 43…第2の単語モデルメモリ。
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平8−63182(JP,A) 特開 平7−13587(JP,A) 特開 平2−29799(JP,A) 特開 昭63−197998(JP,A) 特開 平3−282499(JP,A) (58)調査した分野(Int.Cl.6,DB名) G10L 3/00 - 9/18 JICSTファイル(JOIS)
Claims (4)
- 【請求項1】 予め生成された音響的特徴量に基づくセ
グメント単位の最尤セグメントコード系列と、単語毎の
各音素の時間を含む音素データベースとを比較すること
により、処理音素の前後のコンテキスト環境が一致する
複数M個のセグメントコードのサンプルを検出し、検出
された複数M個のセグメントコードのサンプルの中から
最大尤度を有する代表のセグメントコードのサンプルを
検出し、上記代表のセグメントコードのサンプルと、上
記複数M個のセグメントコードのサンプルとの間の時間
的な対応付けを動的時間整合法により行って時間的に正
規化を行い、時間的に正規化された代表のセグメントコ
ードのサンプルと、上記複数M個のセグメントコードの
サンプルとを各単語毎に混合することにより、処理音素
の前後のコンテキスト環境が一致する音素列毎に音響的
特徴量を含む各単語の音素モデルを生成する第1の生成
手段と、 上記音素データベースにおける同一の単語である複数N
個の単語の音響的特徴量から最大尤度を有する当該単語
の代表のセグメントコードのサンプルを検出し、検出さ
れた代表のセグメントのサンプルと、複数N個の単語の
セグメントコードのサンプルとの時間的な対応付けを動
的時間整合法により行って時間的に正規化を行い、時間
的に正規化された代表のセグメントコードのサンプル
と、上記複数N個のセグメントコードのサンプルとを各
単語毎に混合することにより、単語毎に音響的特徴量を
含む第1の単語モデルを生成する第2の生成手段と、 複数の単語の学習用テキストデータから各単語を読み出
して、上記音素データベース中の各同一単語の複数の音
素モデルを組み合わせることにより、各単語毎に音響的
特徴量を含む第2の単語モデルを生成する第3の生成手
段と、 上記第1の単語モデルと上記第2の単語モデルとを、当
該モデルの音響的特徴量を用いて時間的な対応付けを動
的時間整合法により行って時間的に正規化を行い、時間
的に正規化された第1と第2の単語モデルを混合するこ
とにより、単語毎に音響的特徴量を含む第3の単語モデ
ルを生成する第4の生成手段とを備えたことを特徴とす
る音声認識のための単語モデル生成装置。 - 【請求項2】 上記第1の生成手段は、処理音素の前後
のコンテキスト環境が一致する度合いに応じた混合比率
を用いて、時間的に正規化された代表のセグメントコー
ドのサンプルと、上記複数M個のセグメントコードのサ
ンプルとを各単語毎に混合することを特徴とする請求項
1記載の音声認識のための単語モデル生成装置。 - 【請求項3】 上記第4の生成手段は、学習用テキスト
データ中に存在する生成すべき単語モデルの単語のデー
タ量に応じた混合比率を用いて、時間的に正規化された
第1と第2の単語モデルを混合することを特徴とする請
求項1又は2記載の音声認識のための単語モデル生成装
置。 - 【請求項4】 請求項1乃至3のうちの1つに記載の単
語モデル生成装置と、 上記単語モデル生成装置によって作成された第3の単語
モデルを用いて、入力された文字列からなる発声音声文
の音声信号を音声認識する音声認識手段とを備えたこと
を特徴とする音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP8068226A JP2923243B2 (ja) | 1996-03-25 | 1996-03-25 | 音声認識のための単語モデル生成装置及び音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP8068226A JP2923243B2 (ja) | 1996-03-25 | 1996-03-25 | 音声認識のための単語モデル生成装置及び音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH09258766A JPH09258766A (ja) | 1997-10-03 |
JP2923243B2 true JP2923243B2 (ja) | 1999-07-26 |
Family
ID=13367692
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP8068226A Expired - Lifetime JP2923243B2 (ja) | 1996-03-25 | 1996-03-25 | 音声認識のための単語モデル生成装置及び音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2923243B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6789062B1 (en) * | 2000-02-25 | 2004-09-07 | Speechworks International, Inc. | Automatically retraining a speech recognition system |
JP4054507B2 (ja) | 2000-03-31 | 2008-02-27 | キヤノン株式会社 | 音声情報処理方法および装置および記憶媒体 |
JP6596924B2 (ja) * | 2014-05-29 | 2019-10-30 | 日本電気株式会社 | 音声データ処理装置、音声データ処理方法、及び、音声データ処理プログラム |
-
1996
- 1996-03-25 JP JP8068226A patent/JP2923243B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPH09258766A (ja) | 1997-10-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2965537B2 (ja) | 話者クラスタリング処理装置及び音声認識装置 | |
EP2192575B1 (en) | Speech recognition based on a multilingual acoustic model | |
US7689419B2 (en) | Updating hidden conditional random field model parameters after processing individual training samples | |
EP1647970B1 (en) | Hidden conditional random field models for phonetic classification and speech recognition | |
JP3114468B2 (ja) | 音声認識方法 | |
JP2003316386A (ja) | 音声認識方法および音声認識装置および音声認識プログラム | |
JP2003308091A (ja) | 音声認識装置、音声認識方法および音声認識プログラム | |
JP2001166789A (ja) | 初頭/末尾の音素類似度ベクトルによる中国語の音声認識方法及びその装置 | |
JP2955297B2 (ja) | 音声認識システム | |
JP3444108B2 (ja) | 音声認識装置 | |
JP2938866B1 (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
JP2923243B2 (ja) | 音声認識のための単語モデル生成装置及び音声認識装置 | |
JP2974621B2 (ja) | 音声認識用単語辞書作成装置及び連続音声認識装置 | |
JP2886118B2 (ja) | 隠れマルコフモデルの学習装置及び音声認識装置 | |
JP2938865B1 (ja) | 音声認識装置 | |
JP3029803B2 (ja) | 音声認識のための単語モデル生成装置及び音声認識装置 | |
JPH0823758B2 (ja) | 話者適応形音声認識装置 | |
JP2003271185A (ja) | 音声認識用情報作成装置及びその方法と、音声認識装置及びその方法と、音声認識用情報作成プログラム及びそのプログラムを記録した記録媒体と、音声認識プログラム及びそのプログラムを記録した記録媒体 | |
JPH09114482A (ja) | 音声認識のための話者適応化方法 | |
JP2976795B2 (ja) | 話者適応化方式 | |
JPH10254477A (ja) | 音素境界検出装置及び音声認識装置 | |
Mitrovski et al. | Towards a System for Automatic Media Transcription in Macedonian | |
Ibrahim et al. | AUTOMATIC SPEECH RECOGNITION USING MFCC IN FEATURE EXTRACTION BASED HMM FOR HUMAN COMPUTER INTERACTION IN HAUSA | |
Ibrahim et al. | A comparative survey of DTW and HMM using Hausa isolated digits recognition in human computer interaction sytem | |
JP3291073B2 (ja) | 音声認識方式 |