JP2000352993A - 音声認識システム及びヒドン・マルコフ・モデルの学習方法 - Google Patents
音声認識システム及びヒドン・マルコフ・モデルの学習方法Info
- Publication number
- JP2000352993A JP2000352993A JP11166569A JP16656999A JP2000352993A JP 2000352993 A JP2000352993 A JP 2000352993A JP 11166569 A JP11166569 A JP 11166569A JP 16656999 A JP16656999 A JP 16656999A JP 2000352993 A JP2000352993 A JP 2000352993A
- Authority
- JP
- Japan
- Prior art keywords
- label
- database
- data
- phoneme
- hmm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Abstract
(57)【要約】
【課題】 誤ったラベルを持つ学習データを精度よく自
動的に検出することができる音声認識システム及びヒド
ン・マルコフ・モデルの学習方法を提供する。 【解決手段】 音声認識システムは、学習用音声データ
を格納する音声データベース10と、単語で区切られた
ラベルデータを格納するラベルデータベース11と、音
素モデル、言語モデル及び単語辞書12を用いて、音声
データの音声認識を行い、単語列として出力するディク
テーション部13と、この単語列とラベルデータベース
11からのラベルの単語列とのDPマッチングを行い、
マッチング・スコアで類似度を算出する単語列比較部1
4と、音声データを登録する新音声データベース15と
を備え、学習用音声データベース10の各音声データに
ついて、まずディクテーション処理を行い、得られた結
果と与えられたラベルとを比較して、類似度が低い場合
には与えられたラベルが正しくないとして、音声データ
ベース10から該当する音声データを削除する。
動的に検出することができる音声認識システム及びヒド
ン・マルコフ・モデルの学習方法を提供する。 【解決手段】 音声認識システムは、学習用音声データ
を格納する音声データベース10と、単語で区切られた
ラベルデータを格納するラベルデータベース11と、音
素モデル、言語モデル及び単語辞書12を用いて、音声
データの音声認識を行い、単語列として出力するディク
テーション部13と、この単語列とラベルデータベース
11からのラベルの単語列とのDPマッチングを行い、
マッチング・スコアで類似度を算出する単語列比較部1
4と、音声データを登録する新音声データベース15と
を備え、学習用音声データベース10の各音声データに
ついて、まずディクテーション処理を行い、得られた結
果と与えられたラベルとを比較して、類似度が低い場合
には与えられたラベルが正しくないとして、音声データ
ベース10から該当する音声データを削除する。
Description
【0001】
【発明の属する技術分野】本発明は、ヒドン・マルコフ
・モデルの学習方法及びこれを用いた音声認識システム
に関し、詳細には、大語彙連続音声認識システムで用い
られるHMM音素モデルを学習する音声認識システム及
びヒドン・マルコフ・モデルの学習方法に関する。
・モデルの学習方法及びこれを用いた音声認識システム
に関し、詳細には、大語彙連続音声認識システムで用い
られるHMM音素モデルを学習する音声認識システム及
びヒドン・マルコフ・モデルの学習方法に関する。
【0002】
【従来の技術】音声認識技術として、古典的なパターン
・マッチング手法から、近年では統計的な手法に変わ
り、後者が主流になりつつある。後者の統計的な手法で
は、確率的な有限状態を持つマルコフ・モデルが提案さ
れており、通常、HMM(hiddenMarkov model:隠れマ
ルコフモデル)と呼ぶ。HMMでは、学習用音声データ
を用いて音声モデルの学習を行うことで高い認識率を上
げることが可能となっている。
・マッチング手法から、近年では統計的な手法に変わ
り、後者が主流になりつつある。後者の統計的な手法で
は、確率的な有限状態を持つマルコフ・モデルが提案さ
れており、通常、HMM(hiddenMarkov model:隠れマ
ルコフモデル)と呼ぶ。HMMでは、学習用音声データ
を用いて音声モデルの学習を行うことで高い認識率を上
げることが可能となっている。
【0003】近年、不特定話者の大語彙連続音声認識シ
ステムが実用化されつつあり、その研究もさかんであ
る。このような大語彙連続音声認識システムの構成要素
の1つに、音声をHMMに基づいてモデリングした不特
定話者HMM音素モデルがあり、この音素モデルの善し
悪しが認識精度に大きく影響する。そこで、このHMM
音素モデルをどのように作成するかが、優れた音声認識
システムを構築するための重要なポイントとなる。
ステムが実用化されつつあり、その研究もさかんであ
る。このような大語彙連続音声認識システムの構成要素
の1つに、音声をHMMに基づいてモデリングした不特
定話者HMM音素モデルがあり、この音素モデルの善し
悪しが認識精度に大きく影響する。そこで、このHMM
音素モデルをどのように作成するかが、優れた音声認識
システムを構築するための重要なポイントとなる。
【0004】一般に不特定話者HMM音素モデルは、複
数の話者が発生した音声データと、各音声データがなん
と言っているかを示す文字列(以下、これをラベルとい
う)から、HMM学習と呼ばれる方法によって得られ
る。以下では、この多量の音声データを学習用音声デー
タベース、対応したラベルの集合をラベルデータベース
と呼ぶ。
数の話者が発生した音声データと、各音声データがなん
と言っているかを示す文字列(以下、これをラベルとい
う)から、HMM学習と呼ばれる方法によって得られ
る。以下では、この多量の音声データを学習用音声デー
タベース、対応したラベルの集合をラベルデータベース
と呼ぶ。
【0005】また、連続音声認識システム用に音素モデ
ルを作成する際には、音声データとして、各話者が(複
数の)文章を読み上げたものを用いることが普通であ
る。これは、孤立単語を読み上げただけの音声データを
用いて音素モデルを作成した時と比べて、連続発声を認
識するには認識率が高いことが経験的にわかっているた
めである。そこで、以下では音声データとして、文章を
読み上げたものを仮定することにする。
ルを作成する際には、音声データとして、各話者が(複
数の)文章を読み上げたものを用いることが普通であ
る。これは、孤立単語を読み上げただけの音声データを
用いて音素モデルを作成した時と比べて、連続発声を認
識するには認識率が高いことが経験的にわかっているた
めである。そこで、以下では音声データとして、文章を
読み上げたものを仮定することにする。
【0006】この際、各音声データに対する対応したラ
ベルが正しいことが前提とされるが、多量のデータを扱
うため、音声データとラベルとが誤って対応づけられた
り、ラベルが部分的に誤っていることがしばしばある。
このような誤りはHMM学習の際に悪影響を及ぼし、生
成される音響モデルの精度を低下させる。したがって、
誤ったラベルを持つ音声データを検出し、それを排除し
て、正しい音声データベースを確保することがHMM学
習に先立って必要とされる。
ベルが正しいことが前提とされるが、多量のデータを扱
うため、音声データとラベルとが誤って対応づけられた
り、ラベルが部分的に誤っていることがしばしばある。
このような誤りはHMM学習の際に悪影響を及ぼし、生
成される音響モデルの精度を低下させる。したがって、
誤ったラベルを持つ音声データを検出し、それを排除し
て、正しい音声データベースを確保することがHMM学
習に先立って必要とされる。
【0007】この誤ラベルを検出することは、従来あま
り問題にされてこなかった。またその検出方法もあまり
系統だった方法が取られていないのが現状のようであ
る。とはいえ、種々のシステムを見てみると、誤ラベル
検出方法として、経験的に以下のような方法が取られて
いるようである。
り問題にされてこなかった。またその検出方法もあまり
系統だった方法が取られていないのが現状のようであ
る。とはいえ、種々のシステムを見てみると、誤ラベル
検出方法として、経験的に以下のような方法が取られて
いるようである。
【0008】一つは人手でラベルと音声データとの整合
性をチェックするものである。また、学習データすべて
について、適当なビーム幅で、与えられたラベルに従い
ビタビ照合を行い、それが失敗したデータについては誤
ラベルされたものとして排除する方法もある。または、
前記で、照合の成功・失敗だけではなく、照合した結果
の尤度(すなわち、べクトル列の出力確率)を用い、あ
る適当な閾値以下の尤度の学習データを排除することも
考えられる。
性をチェックするものである。また、学習データすべて
について、適当なビーム幅で、与えられたラベルに従い
ビタビ照合を行い、それが失敗したデータについては誤
ラベルされたものとして排除する方法もある。または、
前記で、照合の成功・失敗だけではなく、照合した結果
の尤度(すなわち、べクトル列の出力確率)を用い、あ
る適当な閾値以下の尤度の学習データを排除することも
考えられる。
【0009】
【発明が解決しようとする課題】しかしながら、このよ
うな従来のHMM学習方法にあっては、以下のような問
題点があった。
うな従来のHMM学習方法にあっては、以下のような問
題点があった。
【0010】すなわち、人手で音声データとそのラベル
との整合性をチェックするのは多大の労力を要する。ま
た、学習データに対するビタビ照合の成功・失敗という
判断基準では、評価が粗すぎるため、誤ったデータでも
受け入れてしまうケースがしばしば存在する。また、ビ
タビ照合時の尤度を計算して閾値との大小で判断する場
合、話者によっては、その話者が発声したほとんどの音
声データの尤度が低いケースがあり、その話者のデータ
すべてを排除してしまう可能性がある。こうなると、不
特定話者を対象とする音素モデルの作成には不向きであ
る。
との整合性をチェックするのは多大の労力を要する。ま
た、学習データに対するビタビ照合の成功・失敗という
判断基準では、評価が粗すぎるため、誤ったデータでも
受け入れてしまうケースがしばしば存在する。また、ビ
タビ照合時の尤度を計算して閾値との大小で判断する場
合、話者によっては、その話者が発声したほとんどの音
声データの尤度が低いケースがあり、その話者のデータ
すべてを排除してしまう可能性がある。こうなると、不
特定話者を対象とする音素モデルの作成には不向きであ
る。
【0011】本発明は、誤ったラベルを持つ学習データ
を精度よく自動的に検出することができる音声認識シス
テム及びヒドン・マルコフ・モデルの学習方法を提供す
ることを目的とする。
を精度よく自動的に検出することができる音声認識シス
テム及びヒドン・マルコフ・モデルの学習方法を提供す
ることを目的とする。
【0012】
【課題を解決するための手段】本発明に係る音声認識シ
ステムは、発声した音声データを格納する音声データベ
ースと、各音声データに対応する文字列をラベルデータ
として格納するラベルデータベースとを有し、音声デー
タ及びラベルデータからヒドン・マルコフ・モデル(H
MM)学習を行ってHMM音素モデルを作成し、該HM
M音素モデルを用いて音声認識を行う音声認識システム
において、あらかじめ用意した音素モデル、言語モデル
及び単語辞書を用いて、音声データの音声認識を行い、
単語列として出力する単語列認識手段と、単語列認識手
段により得られた単語列とラベルデータベースからのラ
ベルの単語列との類似度を算出する類似度算出手段と、
類似度に基づいて誤ったラベルを持つ音声データを音声
データベースから削除する判定手段とを備えたことを特
徴とする。
ステムは、発声した音声データを格納する音声データベ
ースと、各音声データに対応する文字列をラベルデータ
として格納するラベルデータベースとを有し、音声デー
タ及びラベルデータからヒドン・マルコフ・モデル(H
MM)学習を行ってHMM音素モデルを作成し、該HM
M音素モデルを用いて音声認識を行う音声認識システム
において、あらかじめ用意した音素モデル、言語モデル
及び単語辞書を用いて、音声データの音声認識を行い、
単語列として出力する単語列認識手段と、単語列認識手
段により得られた単語列とラベルデータベースからのラ
ベルの単語列との類似度を算出する類似度算出手段と、
類似度に基づいて誤ったラベルを持つ音声データを音声
データベースから削除する判定手段とを備えたことを特
徴とする。
【0013】本発明に係る音声認識システムは、発声し
た音声データを格納する音声データベースと、各音声デ
ータに対応する文字列をラベルデータとして格納するラ
ベルデータベースとを有し、音声データ及びラベルデー
タからヒドン・マルコフ・モデル(HMM)学習を行っ
てHMM音素モデルを作成し、該HMM音素モデルを用
いて音声認識を行う音声認識システムにおいて、あらか
じめ用意した音素モデルを用いて、音声データの発音内
容を音素のレベルで認識し、音素列として出力する音素
列認識手段と、ラベルデータベースの各ラベルデータを
音素列に変換する音素列変換手段と、音素列認識手段に
より得られた音素列と音素列変換手段により得られた音
素列との類似度を算出する類似度算出手段と、類似度に
基づいて誤ったラベルを持つ音声データを音声データベ
ースから削除する判定手段とを備えたことを特徴とす
る。
た音声データを格納する音声データベースと、各音声デ
ータに対応する文字列をラベルデータとして格納するラ
ベルデータベースとを有し、音声データ及びラベルデー
タからヒドン・マルコフ・モデル(HMM)学習を行っ
てHMM音素モデルを作成し、該HMM音素モデルを用
いて音声認識を行う音声認識システムにおいて、あらか
じめ用意した音素モデルを用いて、音声データの発音内
容を音素のレベルで認識し、音素列として出力する音素
列認識手段と、ラベルデータベースの各ラベルデータを
音素列に変換する音素列変換手段と、音素列認識手段に
より得られた音素列と音素列変換手段により得られた音
素列との類似度を算出する類似度算出手段と、類似度に
基づいて誤ったラベルを持つ音声データを音声データベ
ースから削除する判定手段とを備えたことを特徴とす
る。
【0014】本発明に係る音声認識システムは、ラベル
データベースの各ラベルが単語単位に区切られており、
単語列認識手段は、音声データの連続音声認識を行うも
のであってもよい。
データベースの各ラベルが単語単位に区切られており、
単語列認識手段は、音声データの連続音声認識を行うも
のであってもよい。
【0015】本発明に係る音声認識システムは、類似度
算出手段が、単語を単位とするDPマッチングを行い、
そのマッチング・スコアで類似度を算出するものであっ
てもよく、また、類似度算出手段が、音素を単位とする
DPマッチングを行い、そのマッチング・スコアで類似
度を算出するものであってもよい。
算出手段が、単語を単位とするDPマッチングを行い、
そのマッチング・スコアで類似度を算出するものであっ
てもよく、また、類似度算出手段が、音素を単位とする
DPマッチングを行い、そのマッチング・スコアで類似
度を算出するものであってもよい。
【0016】本発明に係る音声認識システムは、判定手
段が、算出された類似度が所定の閾値より下回ったとき
は、与えられたラベルは誤りと判定し、類似度が閾値以
上のときは、与えられたラベルは正しいと判定するもの
であってもよい。
段が、算出された類似度が所定の閾値より下回ったとき
は、与えられたラベルは誤りと判定し、類似度が閾値以
上のときは、与えられたラベルは正しいと判定するもの
であってもよい。
【0017】本発明に係る音声認識システムは、判定手
段が、算出された類似度が所定の閾値より下回ったとき
は、その音声データは誤ったラベルが付与されていると
して削除し、類似度が閾値以上のときは、与えられたラ
ベルは正しいとして、音声データを対応するラベルとと
もに音声データベースに登録するものであってもよい。
段が、算出された類似度が所定の閾値より下回ったとき
は、その音声データは誤ったラベルが付与されていると
して削除し、類似度が閾値以上のときは、与えられたラ
ベルは正しいとして、音声データを対応するラベルとと
もに音声データベースに登録するものであってもよい。
【0018】本発明に係る音声認識システムは、発声し
た音声データを格納する音声データベースと、各音声デ
ータに対応する文字列をラベルデータとして格納するラ
ベルデータベースとを有し、音声データ及びラベルデー
タからヒドン・マルコフ・モデル(HMM)学習を行っ
てHMM音素モデルを作成し、該HMM音素モデルを用
いて音声認識を行う音声認識システムにおいて、あらか
じめ用意した音素モデルを用いて、音声データの音声認
識を行い、認識結果の確からしさを示す認識尤度を出力
する認識手段と、音声データと与えられたラベルデータ
によるビタビ照合処理を行い、マッチング尤度を出力す
るビタビ照合手段と、認識手段により得られた認識尤度
とビタビ照合手段により得られた尤度から与えられたラ
ベルの正誤判定を行い、判定結果に基づいて誤ったラベ
ルを持つ音声データを音声データベースから削除する判
定手段とを備えたことを特徴とする。
た音声データを格納する音声データベースと、各音声デ
ータに対応する文字列をラベルデータとして格納するラ
ベルデータベースとを有し、音声データ及びラベルデー
タからヒドン・マルコフ・モデル(HMM)学習を行っ
てHMM音素モデルを作成し、該HMM音素モデルを用
いて音声認識を行う音声認識システムにおいて、あらか
じめ用意した音素モデルを用いて、音声データの音声認
識を行い、認識結果の確からしさを示す認識尤度を出力
する認識手段と、音声データと与えられたラベルデータ
によるビタビ照合処理を行い、マッチング尤度を出力す
るビタビ照合手段と、認識手段により得られた認識尤度
とビタビ照合手段により得られた尤度から与えられたラ
ベルの正誤判定を行い、判定結果に基づいて誤ったラベ
ルを持つ音声データを音声データベースから削除する判
定手段とを備えたことを特徴とする。
【0019】本発明に係る音声認識システムは、判定手
段が、認識手段により得られた認識尤度とビタビ照合手
段により得られた尤度の差分を取り、該差分値と所定の
閾値との比較によりラベルの正誤判定を行うものであっ
てもよい。
段が、認識手段により得られた認識尤度とビタビ照合手
段により得られた尤度の差分を取り、該差分値と所定の
閾値との比較によりラベルの正誤判定を行うものであっ
てもよい。
【0020】本発明に係る音声認識システムは、認識手
段が、請求項1に記載された単語列認識手段、若しくは
請求項2に記載された音素列認識手段の何れかであって
もよい。
段が、請求項1に記載された単語列認識手段、若しくは
請求項2に記載された音素列認識手段の何れかであって
もよい。
【0021】本発明に係る音声認識システムは、発声し
た音声データを格納する音声データベースと、各音声デ
ータに対応する文字列をラベルデータとして格納するラ
ベルデータベースとを有し、音声データ及びラベルデー
タからヒドン・マルコフ・モデル(HMM)学習を行っ
てHMM音素モデルを作成し、該HMM音素モデルを用
いて音声認識を行う音声認識システムにおいて、音声デ
ータベースの各音声データに対応した各ラベルの信頼度
を重み付け情報として計算する重み付け計算手段と、各
音声データに対して、対応した重み付け情報を用いてH
MM学習を行うHMM学習手段とを備えたことを特徴と
する。
た音声データを格納する音声データベースと、各音声デ
ータに対応する文字列をラベルデータとして格納するラ
ベルデータベースとを有し、音声データ及びラベルデー
タからヒドン・マルコフ・モデル(HMM)学習を行っ
てHMM音素モデルを作成し、該HMM音素モデルを用
いて音声認識を行う音声認識システムにおいて、音声デ
ータベースの各音声データに対応した各ラベルの信頼度
を重み付け情報として計算する重み付け計算手段と、各
音声データに対して、対応した重み付け情報を用いてH
MM学習を行うHMM学習手段とを備えたことを特徴と
する。
【0022】本発明に係る音声認識システムは、各音声
データに対して、対応した重み付け情報を格納する重み
データベースを備え、HMM学習手段が、重みデータベ
ースから対応した重み付け情報を取り出し、該重み付け
情報を用いてHMM学習を行うように構成したものであ
ってもよい。
データに対して、対応した重み付け情報を格納する重み
データベースを備え、HMM学習手段が、重みデータベ
ースから対応した重み付け情報を取り出し、該重み付け
情報を用いてHMM学習を行うように構成したものであ
ってもよい。
【0023】本発明に係る音声認識システムは、重み付
け計算手段が、請求項1又は2記載の類似度算出手段に
よる類似度、若しくは請求項9記載の判定手段による尤
度の差分値の何れかを用いて、各音声データに対応した
各ラベルの信頼度を計算するものであってもよい。
け計算手段が、請求項1又は2記載の類似度算出手段に
よる類似度、若しくは請求項9記載の判定手段による尤
度の差分値の何れかを用いて、各音声データに対応した
各ラベルの信頼度を計算するものであってもよい。
【0024】本発明に係る音声認識システムは、HMM
学習手段が、次式に示す方法でHMMモデル・パラメー
タの再推定を行うものであってもよい。
学習手段が、次式に示す方法でHMMモデル・パラメー
タの再推定を行うものであってもよい。
【0025】
【数2】 本発明に係る音声認識システムは、HMM音素モデル
が、音声をHMMに基づいてモデリングした不特定話者
HMM音素モデルであってもよく、また、音声データベ
ースが、話者が複数の文章を読み上げた連続発声音声デ
ータベースであってもよい。
が、音声をHMMに基づいてモデリングした不特定話者
HMM音素モデルであってもよく、また、音声データベ
ースが、話者が複数の文章を読み上げた連続発声音声デ
ータベースであってもよい。
【0026】本発明に係るヒドン・マルコフ・モデルの
学習方法は、音声データベース及びラベルデータベース
からヒドン・マルコフ・モデル(HMM)学習を行って
HMM音素モデルを作成するヒドン・マルコフ・モデル
の学習方法であって、あらかじめ用意した音素モデル、
言語モデル及び単語辞書を用いて、音声データの音声認
識を行い、単語列として出力する工程と、該単語列とラ
ベルデータベースからのラベルの単語列との類似度を算
出する工程と、類似度に基づいて誤ったラベルを持つ音
声データを音声データベースから削除する工程とを順次
実行することを特徴とする。
学習方法は、音声データベース及びラベルデータベース
からヒドン・マルコフ・モデル(HMM)学習を行って
HMM音素モデルを作成するヒドン・マルコフ・モデル
の学習方法であって、あらかじめ用意した音素モデル、
言語モデル及び単語辞書を用いて、音声データの音声認
識を行い、単語列として出力する工程と、該単語列とラ
ベルデータベースからのラベルの単語列との類似度を算
出する工程と、類似度に基づいて誤ったラベルを持つ音
声データを音声データベースから削除する工程とを順次
実行することを特徴とする。
【0027】本発明に係るヒドン・マルコフ・モデルの
学習方法は、音声データベース及びラベルデータベース
からヒドン・マルコフ・モデル(HMM)学習を行って
HMM音素モデルを作成するヒドン・マルコフ・モデル
の学習方法であって、あらかじめ用意した音素モデルを
用いて、音声データの発音内容を音素のレベルで認識
し、音素列として出力する認識工程と、ラベルデータベ
ースの各ラベルデータを音素列に展開する展開工程と、
認識工程により得られた音素列と展開工程で展開された
音素列との類似度を算出する工程と、類似度に基づいて
誤ったラベルを持つ音声データを音声データベースから
削除する工程とを順次実行することを特徴とする。
学習方法は、音声データベース及びラベルデータベース
からヒドン・マルコフ・モデル(HMM)学習を行って
HMM音素モデルを作成するヒドン・マルコフ・モデル
の学習方法であって、あらかじめ用意した音素モデルを
用いて、音声データの発音内容を音素のレベルで認識
し、音素列として出力する認識工程と、ラベルデータベ
ースの各ラベルデータを音素列に展開する展開工程と、
認識工程により得られた音素列と展開工程で展開された
音素列との類似度を算出する工程と、類似度に基づいて
誤ったラベルを持つ音声データを音声データベースから
削除する工程とを順次実行することを特徴とする。
【0028】本発明に係るヒドン・マルコフ・モデルの
学習方法は、音声データベース及びラベルデータベース
からヒドン・マルコフ・モデル(HMM)学習を行って
HMM音素モデルを作成するヒドン・マルコフ・モデル
の学習方法であって、あらかじめ用意した音素モデルを
用いて、音声データの音声認識を行い、認識結果の確か
らしさを示す認識尤度を出力する認識工程と、音声デー
タと与えられたラベルデータによるビタビ照合処理を行
い、マッチング尤度を出力するビタビ照合工程と、認識
工程により得られた認識尤度とビタビ照合工程により得
られた尤度から与えられたラベルの正誤判定を行い、判
定結果に基づいて誤ったラベルを持つ音声データを音声
データベースから削除する工程とを順次実行することを
特徴とする。
学習方法は、音声データベース及びラベルデータベース
からヒドン・マルコフ・モデル(HMM)学習を行って
HMM音素モデルを作成するヒドン・マルコフ・モデル
の学習方法であって、あらかじめ用意した音素モデルを
用いて、音声データの音声認識を行い、認識結果の確か
らしさを示す認識尤度を出力する認識工程と、音声デー
タと与えられたラベルデータによるビタビ照合処理を行
い、マッチング尤度を出力するビタビ照合工程と、認識
工程により得られた認識尤度とビタビ照合工程により得
られた尤度から与えられたラベルの正誤判定を行い、判
定結果に基づいて誤ったラベルを持つ音声データを音声
データベースから削除する工程とを順次実行することを
特徴とする。
【0029】本発明に係るヒドン・マルコフ・モデルの
学習方法は、音声データベース及びラベルデータベース
からヒドン・マルコフ・モデル(HMM)学習を行って
HMM音素モデルを作成するヒドン・マルコフ・モデル
の学習方法であって、音声データベースの各音声データ
に対応した各ラベルの信頼度を重み付け情報として計算
する工程と、各音声データに対して、対応した重み付け
情報を重みデータベースに格納する工程と、各音声デー
タに対して、重みデータベースから対応した重み付け情
報を取り出し、該重み付け情報を用いてHMM学習を行
う工程とを順次実行することを特徴とする。
学習方法は、音声データベース及びラベルデータベース
からヒドン・マルコフ・モデル(HMM)学習を行って
HMM音素モデルを作成するヒドン・マルコフ・モデル
の学習方法であって、音声データベースの各音声データ
に対応した各ラベルの信頼度を重み付け情報として計算
する工程と、各音声データに対して、対応した重み付け
情報を重みデータベースに格納する工程と、各音声デー
タに対して、重みデータベースから対応した重み付け情
報を取り出し、該重み付け情報を用いてHMM学習を行
う工程とを順次実行することを特徴とする。
【0030】本発明に係るヒドン・マルコフ・モデルの
学習方法は、重み付け計算工程が、請求項17又は18
記載の類似度算出工程による類似度、若しくは請求項1
9記載の判定工程による尤度の差分値の何れかを用い
て、各音声データに対応した各ラベルの信頼度を計算す
るものであってもよい。
学習方法は、重み付け計算工程が、請求項17又は18
記載の類似度算出工程による類似度、若しくは請求項1
9記載の判定工程による尤度の差分値の何れかを用い
て、各音声データに対応した各ラベルの信頼度を計算す
るものであってもよい。
【0031】
【発明の実施の形態】以下、図面を参照して本発明の実
施の形態について説明する。 第1の実施形態 まず、本発明の基本的な考え方について説明する。本発
明では、なんらかのHMM音素モデルがすでに用意され
ているものと仮定しこれを用いる。この音素モデルとし
ては、小規模ではあるが信頼性のある、孤立単語の発声
で構成された別の学習用音声データベースからHMM学
習により作成されたものを用いて良い。あるいは、同じ
学習用音声データベースを用い、ラベルデータベースの
ラベルの正誤チェックを行わないで従来法の通りHMM
学習を行い、その結果得られるHMM音素モデルを用い
ても良い。この場合には、もちろん、ラベルデータの誤
りによる悪影響が存在するHMM音素モデルができる
が、このHMM音素モデルを用いて本願が提案するHM
M学習方法を適用することにより、より精度の向上した
新しいHMM音素モデルが生成されることになる。
施の形態について説明する。 第1の実施形態 まず、本発明の基本的な考え方について説明する。本発
明では、なんらかのHMM音素モデルがすでに用意され
ているものと仮定しこれを用いる。この音素モデルとし
ては、小規模ではあるが信頼性のある、孤立単語の発声
で構成された別の学習用音声データベースからHMM学
習により作成されたものを用いて良い。あるいは、同じ
学習用音声データベースを用い、ラベルデータベースの
ラベルの正誤チェックを行わないで従来法の通りHMM
学習を行い、その結果得られるHMM音素モデルを用い
ても良い。この場合には、もちろん、ラベルデータの誤
りによる悪影響が存在するHMM音素モデルができる
が、このHMM音素モデルを用いて本願が提案するHM
M学習方法を適用することにより、より精度の向上した
新しいHMM音素モデルが生成されることになる。
【0032】図1は本発明の第1の実施形態に係るヒド
ン・マルコフ・モデルの学習方法の実施に用いられる装
置を示すブロック図である。
ン・マルコフ・モデルの学習方法の実施に用いられる装
置を示すブロック図である。
【0033】図1において、10は学習用音声データを
格納する音声データベース、11は単語で区切られたラ
ベルデータを格納するラベルデータベース、12は音素
モデル、言語モデル及び単語辞書であり、音素モデル、
言語モデル及び単語辞書12は、あらかじめ静かな環境
で録音された学習用音声データからΗMM学習により得
られた音声モデルである。また、13はディクテーショ
ン部(単語列認識手段)、14は単語列比較部(類似度
算出手段、判定手段)、15は音声データを登録する新
音声データベースである。
格納する音声データベース、11は単語で区切られたラ
ベルデータを格納するラベルデータベース、12は音素
モデル、言語モデル及び単語辞書であり、音素モデル、
言語モデル及び単語辞書12は、あらかじめ静かな環境
で録音された学習用音声データからΗMM学習により得
られた音声モデルである。また、13はディクテーショ
ン部(単語列認識手段)、14は単語列比較部(類似度
算出手段、判定手段)、15は音声データを登録する新
音声データベースである。
【0034】本実施形態は、学習用音声データベース1
0とそのラベルデータベース11とを入力とし、誤った
ラベルが付けられた音声データが排除された、新しい学
習用音声データを新音声データベース15に出力するも
のである。ここで、各ラベルは単語(形態素)で区切ら
れているものとする。
0とそのラベルデータベース11とを入力とし、誤った
ラベルが付けられた音声データが排除された、新しい学
習用音声データを新音声データベース15に出力するも
のである。ここで、各ラベルは単語(形態素)で区切ら
れているものとする。
【0035】ディクテーション部13は、その処理にあ
らかじめ用意した音素モデルと言語モデル、単語辞書を
用い、音声データのディクテーションを行う。
らかじめ用意した音素モデルと言語モデル、単語辞書を
用い、音声データのディクテーションを行う。
【0036】単語列比較部14は、ディクテーション部
13の出力のラベルと音声データに対応したラベルとを
単語単位で比較し、与えられたラベルの正誤判定を行
う。ラベルが正しいと判断された場合は、対応した音声
データを新音声データベース15に登録し、そうでない
場合は削除する。
13の出力のラベルと音声データに対応したラベルとを
単語単位で比較し、与えられたラベルの正誤判定を行
う。ラベルが正しいと判断された場合は、対応した音声
データを新音声データベース15に登録し、そうでない
場合は削除する。
【0037】上記ディクテーション部13及び単語列比
較部14は、全体として処理部16を構成する。
較部14は、全体として処理部16を構成する。
【0038】以下、上述のように構成された装置により
実施される音声認識システム及びヒドン・マルコフ・モ
デルの学習方法の動作を説明する。
実施される音声認識システム及びヒドン・マルコフ・モ
デルの学習方法の動作を説明する。
【0039】まず、学習用音声データベースの各音声デ
ータについて、ディクテーション部13で音声認識を行
う。
ータについて、ディクテーション部13で音声認識を行
う。
【0040】ディクテーション部13では、HMM音素
モデル、言語モデル、及び認識対象の単語とその音素列
での展開が示された単語辞書とをあらかじめ用意する必
要がある。本実施形態では、これらを音素モデル、言語
モデル及び単語辞書12に備えている。
モデル、言語モデル、及び認識対象の単語とその音素列
での展開が示された単語辞書とをあらかじめ用意する必
要がある。本実施形態では、これらを音素モデル、言語
モデル及び単語辞書12に備えている。
【0041】言語モデルは、通常、各単語の発生頻度を
示すユニグラム、ある単語の後にどの単語が現れやすい
かを示すバイグラム、ある2つの単語の後にどの単語が
現れやすいかを示すトリグラムからなる。
示すユニグラム、ある単語の後にどの単語が現れやすい
かを示すバイグラム、ある2つの単語の後にどの単語が
現れやすいかを示すトリグラムからなる。
【0042】ディクテーション部13では、通常の連続
発声のディクテーションを行う。すなわち、各音声デー
タの発声内容を言語モデルとHMM音素モデルとから推
定し、推定結果を単語辞書の中で定義されている単語の
列として出力する。こうして得られる単語列ラベルと、
ラベルデータベース11の単語列ラベルとを単語列比較
部14において比較する。
発声のディクテーションを行う。すなわち、各音声デー
タの発声内容を言語モデルとHMM音素モデルとから推
定し、推定結果を単語辞書の中で定義されている単語の
列として出力する。こうして得られる単語列ラベルと、
ラベルデータベース11の単語列ラベルとを単語列比較
部14において比較する。
【0043】この比較の方法としては、単語を単位とす
る通常のDP(dynamic programming)マッチングを行
い、そのマッチング・スコアで類似度を評価すればよ
い。但し、発声された文の長さによってスコアにばらつ
きが出るので、文の長さで正規化されたものを最終的な
類似度スコアとする。ここで文の長さとしては、ラベル
データベース11で与えられたラベルの単語数を用いる
のが最も簡単である。
る通常のDP(dynamic programming)マッチングを行
い、そのマッチング・スコアで類似度を評価すればよ
い。但し、発声された文の長さによってスコアにばらつ
きが出るので、文の長さで正規化されたものを最終的な
類似度スコアとする。ここで文の長さとしては、ラベル
データベース11で与えられたラベルの単語数を用いる
のが最も簡単である。
【0044】次いで、こうして得られた類似度スコアを
用いてラベルの判定を行う。すなわち、得られた類似度
スコアがあらかじめ決めた閾値より下回った場合、その
音声データは誤ったラベルが付与されていると見なして
これを排除する。類似度スコアが閾値以上のときは、与
えられたラベルは正しいと見なして、音声データをその
ラベルとともに新学習用音声データベース15に登録す
る。
用いてラベルの判定を行う。すなわち、得られた類似度
スコアがあらかじめ決めた閾値より下回った場合、その
音声データは誤ったラベルが付与されていると見なして
これを排除する。類似度スコアが閾値以上のときは、与
えられたラベルは正しいと見なして、音声データをその
ラベルとともに新学習用音声データベース15に登録す
る。
【0045】このように、連続発声音声データベース1
0とそのラベルデータベース11とからHMM学習によ
りHMM音素モデルを作成する際、あらかじめ、誤った
ラベルが与えられた音声データを同定し、これを音声デ
ータベース11から削除し、こうして誤りのない音声デ
ータベース15とラベルデータベース11を作成し、こ
のデータベースを用いてHMM学習を行うことで、精度
の高いHMM音素モデルを作成することができる。
0とそのラベルデータベース11とからHMM学習によ
りHMM音素モデルを作成する際、あらかじめ、誤った
ラベルが与えられた音声データを同定し、これを音声デ
ータベース11から削除し、こうして誤りのない音声デ
ータベース15とラベルデータベース11を作成し、こ
のデータベースを用いてHMM学習を行うことで、精度
の高いHMM音素モデルを作成することができる。
【0046】以上説明したように、第1の実施形態に係
る音声認識システム及びヒドン・マルコフ・モデルの学
習方法では、学習用音声データを格納する音声データベ
ース10と、単語で区切られたラベルデータを格納する
ラベルデータベース11と、音素モデル、言語モデル及
び単語辞書12を用いて、音声データの音声認識を行
い、単語列として出力するディクテーション部13と、
この単語列とラベルデータベース11からのラベルの単
語列とのDPマッチングを行い、マッチング・スコアで
類似度を算出する単語列比較部14と、音声データを登
録する新音声データベース15とを備え、学習用音声デ
ータベース10の各音声データについて、まずディクテ
ーション処理を行い、得られた結果と与えられたラベル
とを比較して、類似度が低い場合には与えられたラベル
が正しくないとして、音声データベース10から該当す
る音声データを削除するようにしたので、誤ったラべル
が付された音声データが排除された学習用音声データベ
ース15を得ることができ、この学習用音声データベー
ス15を用いてHMM学習を行うことで精度の高いHM
M音素モデルを得ることができる。
る音声認識システム及びヒドン・マルコフ・モデルの学
習方法では、学習用音声データを格納する音声データベ
ース10と、単語で区切られたラベルデータを格納する
ラベルデータベース11と、音素モデル、言語モデル及
び単語辞書12を用いて、音声データの音声認識を行
い、単語列として出力するディクテーション部13と、
この単語列とラベルデータベース11からのラベルの単
語列とのDPマッチングを行い、マッチング・スコアで
類似度を算出する単語列比較部14と、音声データを登
録する新音声データベース15とを備え、学習用音声デ
ータベース10の各音声データについて、まずディクテ
ーション処理を行い、得られた結果と与えられたラベル
とを比較して、類似度が低い場合には与えられたラベル
が正しくないとして、音声データベース10から該当す
る音声データを削除するようにしたので、誤ったラべル
が付された音声データが排除された学習用音声データベ
ース15を得ることができ、この学習用音声データベー
ス15を用いてHMM学習を行うことで精度の高いHM
M音素モデルを得ることができる。
【0047】これにより、HMM音素モデルを用いてΗ
MM学習する場合に、よい初期モデルを与えることで学
習を成功させ、結果として認識性能のよい音声認識シス
テムが実現できる。
MM学習する場合に、よい初期モデルを与えることで学
習を成功させ、結果として認識性能のよい音声認識シス
テムが実現できる。
【0048】したがって、HMMを用いた音声認識シス
テムに適用すれば、認識の際、上記ΗMM学習した音素
モデルを用いることにより高い認識率を達成することが
できる。 第2の実施形態 第1の実施形態では、ラベルデータベースとして、単語
で区切られたものを仮定した。ところが、日本語におい
ては、英語と異なり文章を書く場合、単語と単語の間に
空白を挿入する習慣がないので、この種のラベルを作成
するには人手で単語ごとに区切るか、あるいは形態素解
析等のプログラムで自動的に単語に区切るかしなければ
ならい。人手でやるには多大の労力が必要であり、か
つ、何をもって単語とするかは個人によって異なる場合
もあり、すべてのラベルに整合性を持たせるのは必ずし
も容易ではない。
テムに適用すれば、認識の際、上記ΗMM学習した音素
モデルを用いることにより高い認識率を達成することが
できる。 第2の実施形態 第1の実施形態では、ラベルデータベースとして、単語
で区切られたものを仮定した。ところが、日本語におい
ては、英語と異なり文章を書く場合、単語と単語の間に
空白を挿入する習慣がないので、この種のラベルを作成
するには人手で単語ごとに区切るか、あるいは形態素解
析等のプログラムで自動的に単語に区切るかしなければ
ならい。人手でやるには多大の労力が必要であり、か
つ、何をもって単語とするかは個人によって異なる場合
もあり、すべてのラベルに整合性を持たせるのは必ずし
も容易ではない。
【0049】形態素解析プログラムを用いれば、この手
間をかなり省けるものの、その解析誤りは避けられない
ので、最終的には人手でチェック、及び修正する作業が
必要である。第2の実施形態では、ラベルデータベース
が単語で区切られていることを仮定しないで、ラベルデ
ータベースを容易に構築するようにするものである。
間をかなり省けるものの、その解析誤りは避けられない
ので、最終的には人手でチェック、及び修正する作業が
必要である。第2の実施形態では、ラベルデータベース
が単語で区切られていることを仮定しないで、ラベルデ
ータベースを容易に構築するようにするものである。
【0050】図2は本発明の第2の実施形態に係るヒド
ン・マルコフ・モデルの学習方法の実施に用いられる装
置を示すブロック図である。本実施形態に係るヒドン・
マルコフ・モデルの学習方法の説明にあたり前記図1と
同一構成部分には同一符号を付している。
ン・マルコフ・モデルの学習方法の実施に用いられる装
置を示すブロック図である。本実施形態に係るヒドン・
マルコフ・モデルの学習方法の説明にあたり前記図1と
同一構成部分には同一符号を付している。
【0051】図2において、10は学習用音声データを
格納する音声データベース、21はラベルデータを格納
するラベルデータベース、22は音素モデルであり、音
素モデル22は、あらかじめ静かな環境で録音された学
習用音声データからΗMM学習により得られた音声モデ
ルである。また、23は音素タイプライタ部(音素列認
識手段)、24は音素列展開部(音素列変換手段)、2
5は音素列比較部(類似度算出手段、判定手段)、15
は音声データを登録する新音声データベースである。
格納する音声データベース、21はラベルデータを格納
するラベルデータベース、22は音素モデルであり、音
素モデル22は、あらかじめ静かな環境で録音された学
習用音声データからΗMM学習により得られた音声モデ
ルである。また、23は音素タイプライタ部(音素列認
識手段)、24は音素列展開部(音素列変換手段)、2
5は音素列比較部(類似度算出手段、判定手段)、15
は音声データを登録する新音声データベースである。
【0052】本実施形態は、学習用音声データベース1
0とそのラベルデータベース21とを入力とし、誤った
ラベルが付けられた音声データが排除された、新しい学
習用音声データを新音声データベース15に出力するも
のである。ここで、第1の実施形態とは異なり、各ラベ
ルは単語(形態素)で区切られている必要はない。
0とそのラベルデータベース21とを入力とし、誤った
ラベルが付けられた音声データが排除された、新しい学
習用音声データを新音声データベース15に出力するも
のである。ここで、第1の実施形態とは異なり、各ラベ
ルは単語(形態素)で区切られている必要はない。
【0053】音素タイプライタ部23は、あらかじめ作
成された音素モデルを用いて音声データの認識処理を行
い、認識された音素列を出力する。
成された音素モデルを用いて音声データの認識処理を行
い、認識された音素列を出力する。
【0054】音素列展開部24は、ラベルを入力し、そ
のラベルに対応した音素列に変換し、ラベルに対応した
音素列を出力する。
のラベルに対応した音素列に変換し、ラベルに対応した
音素列を出力する。
【0055】音素列比較部25は、音素タイプライタ部
23から出力された音素列と音素列展開部24から出力
された音素列とを音素単位で比較し、与えられたラベル
の正誤判定を行う。ラベルが正しいと判断された場合
は、対応した音声データを新音声データベース15に登
録し、そうでない場合は削除する。
23から出力された音素列と音素列展開部24から出力
された音素列とを音素単位で比較し、与えられたラベル
の正誤判定を行う。ラベルが正しいと判断された場合
は、対応した音声データを新音声データベース15に登
録し、そうでない場合は削除する。
【0056】上記音素タイプライタ部23、音素列展開
部24及び音素列比較部25は、全体として処理部26
を構成する。
部24及び音素列比較部25は、全体として処理部26
を構成する。
【0057】以下、上述のように構成された装置により
実施される音声認識システム及びヒドン・マルコフ・モ
デルの学習方法の動作を説明する。
実施される音声認識システム及びヒドン・マルコフ・モ
デルの学習方法の動作を説明する。
【0058】学習用音声データベース10の各音声デー
タは、音素タイプライタ部23に送られる。
タは、音素タイプライタ部23に送られる。
【0059】音素タイプライタ部23では、あらかじめ
用意されているHMM音素モデルを用いて、通常の音素
タイプライタ処理により音声データを音素系列へと変換
する。すなわち、各音声データの発声内容をHMM音素
モデルを用いて、音素のレベルで認識し、結果として音
素列を出力する。但し、ここでいう音素とは、発音記号
などで表されるような、発声の基本要素のことである。
用意されているHMM音素モデルを用いて、通常の音素
タイプライタ処理により音声データを音素系列へと変換
する。すなわち、各音声データの発声内容をHMM音素
モデルを用いて、音素のレベルで認識し、結果として音
素列を出力する。但し、ここでいう音素とは、発音記号
などで表されるような、発声の基本要素のことである。
【0060】例えば、音声データに、“あした(明
日)”と発声したものが収録されている場合、音素タイ
プライタ部23によって、“ashita”という、5
つの音素(a,sh,i,t,a)からなる系列が出力
されるはずである。実際には、音素タイプライタは認識
誤りの可能性が多分にあるので、結果は必ずしも正しく
ない。例えば、ここでは音素タイプライタの出力とし
て、“asida”が得られたとする。
日)”と発声したものが収録されている場合、音素タイ
プライタ部23によって、“ashita”という、5
つの音素(a,sh,i,t,a)からなる系列が出力
されるはずである。実際には、音素タイプライタは認識
誤りの可能性が多分にあるので、結果は必ずしも正しく
ない。例えば、ここでは音素タイプライタの出力とし
て、“asida”が得られたとする。
【0061】一方、ラベルデータベース21の各ラベル
データは、音素列展開部24によって、音素系列へと変
換される。上記の例では、先の音声データに対応したラ
ベルデータは、“あした”であり、これが音素列展開部
24によって、“ashita”という5つの音素から
なる音素系列へと変換される。こうして得られた2つの
音素系列、この例では、音素タイプライタ部23の出力
である“asida”と音素列展開部24の出力である
“ashita”とが、音素列比較部25に入力され、
類似度の度合が計算される。それには、音素を単位とし
た、通常のDPマッチングを行えば良い。
データは、音素列展開部24によって、音素系列へと変
換される。上記の例では、先の音声データに対応したラ
ベルデータは、“あした”であり、これが音素列展開部
24によって、“ashita”という5つの音素から
なる音素系列へと変換される。こうして得られた2つの
音素系列、この例では、音素タイプライタ部23の出力
である“asida”と音素列展開部24の出力である
“ashita”とが、音素列比較部25に入力され、
類似度の度合が計算される。それには、音素を単位とし
た、通常のDPマッチングを行えば良い。
【0062】この際、各音素の認識誤りの確率を表現し
たconfusion matrixを考慮したスコア
計算をすれば、音素の認識誤りにある程度ロバストな類
似度スコアが得られる。但し、この類似度スコアは音素
列の長さで正規化したものである。音素列の長さとして
は、音素列展開部24で得られた音素列の長さを用いれ
ば良い。
たconfusion matrixを考慮したスコア
計算をすれば、音素の認識誤りにある程度ロバストな類
似度スコアが得られる。但し、この類似度スコアは音素
列の長さで正規化したものである。音素列の長さとして
は、音素列展開部24で得られた音素列の長さを用いれ
ば良い。
【0063】次いで、こうして得られた類似度スコアを
用いてラベルの判定を行う。すなわち、得られた類似度
スコアがあらかじめ決めた閾値より下回った場合、その
音声データは誤ったラベルが付与されているとしてこれ
を排除する。類似度スコアが閾値以上のときは、与えら
れたラベルは正しいと見なして、音声データをそのラベ
ルとともに学習用音声データベース15に登録する。
用いてラベルの判定を行う。すなわち、得られた類似度
スコアがあらかじめ決めた閾値より下回った場合、その
音声データは誤ったラベルが付与されているとしてこれ
を排除する。類似度スコアが閾値以上のときは、与えら
れたラベルは正しいと見なして、音声データをそのラベ
ルとともに学習用音声データベース15に登録する。
【0064】以上説明したように、第2の実施形態に係
る音声認識システム及びヒドン・マルコフ・モデルの学
習方法では、あらかじめ用意した音素モデルを用いて、
音声データの発音内容を音素のレベルで認識し、音素列
として出力する音素タイプライタ部23と、ラベルデー
タベースの各ラベルデータを音素列に変換する音素列展
開部24と、音素タイプライタ部23により得られた音
素列と音素列展開部24により得られた音素列との類似
度を算出し、類似度に基づいて誤ったラベルを持つ音声
データを音声データベースから削除する音素列比較部2
5とを備えて構成したので、以下のような効果を得るこ
とができる。
る音声認識システム及びヒドン・マルコフ・モデルの学
習方法では、あらかじめ用意した音素モデルを用いて、
音声データの発音内容を音素のレベルで認識し、音素列
として出力する音素タイプライタ部23と、ラベルデー
タベースの各ラベルデータを音素列に変換する音素列展
開部24と、音素タイプライタ部23により得られた音
素列と音素列展開部24により得られた音素列との類似
度を算出し、類似度に基づいて誤ったラベルを持つ音声
データを音声データベースから削除する音素列比較部2
5とを備えて構成したので、以下のような効果を得るこ
とができる。
【0065】第2の実施形態は、音素タイプライタとい
う、精度があまり期待できない方法に基づくため、第1
の実施形態ほどの精度が得られないものの、ラベルデー
タベースを単語で区切る必要がないので、ラベルデータ
ベースを作成する労力が少なくて済む。また、第1の実
施形態のディクテーション部13で使用したような言語
モデル、単語辞書を必要としないので、システムを構築
するのが第1の実施形態に比べ容易である。さらに音素
タイプライタ部23は、第1の実施形態のディクテーシ
ョン部13より処理量が格段に少ないので、第1の実施
形態と比べて精度は劣るものの、高速処理が可能であ
る。 第3の実施形態 上記各実施形態では、以下に述べる不具合が考えられ
る。音声データ(A)に与えられたラベル(L)が正し
いとする。この音声データに対して、第1の実施形態の
ディクテーション部13において、認識誤りが生じた場
合、結果として出力する単語系列には誤りが含まれる
が、その度合が大きい場合、ラベル(L)との類似度が
小さくなり、結果としてこの音声データ(A)は正しい
ラベルが与えられているにもかかわらず、誤りラベルと
して排除されてしまう。このように、ディクテーション
部13が認識に失敗すると、正しいラベルデータも誤っ
ているとみなされてしまう危険性が存在する。このこと
は第2の実施形態の音素タイプライタ部23についても
当てはまる。
う、精度があまり期待できない方法に基づくため、第1
の実施形態ほどの精度が得られないものの、ラベルデー
タベースを単語で区切る必要がないので、ラベルデータ
ベースを作成する労力が少なくて済む。また、第1の実
施形態のディクテーション部13で使用したような言語
モデル、単語辞書を必要としないので、システムを構築
するのが第1の実施形態に比べ容易である。さらに音素
タイプライタ部23は、第1の実施形態のディクテーシ
ョン部13より処理量が格段に少ないので、第1の実施
形態と比べて精度は劣るものの、高速処理が可能であ
る。 第3の実施形態 上記各実施形態では、以下に述べる不具合が考えられ
る。音声データ(A)に与えられたラベル(L)が正し
いとする。この音声データに対して、第1の実施形態の
ディクテーション部13において、認識誤りが生じた場
合、結果として出力する単語系列には誤りが含まれる
が、その度合が大きい場合、ラベル(L)との類似度が
小さくなり、結果としてこの音声データ(A)は正しい
ラベルが与えられているにもかかわらず、誤りラベルと
して排除されてしまう。このように、ディクテーション
部13が認識に失敗すると、正しいラベルデータも誤っ
ているとみなされてしまう危険性が存在する。このこと
は第2の実施形態の音素タイプライタ部23についても
当てはまる。
【0066】第3の実施形態では、第1の実施形態のデ
ィクテーション部13または第2の実施形態の音素タイ
プライタ部23の認識誤りに対してロバストなラベル正
誤判定を行うことができるようにする。
ィクテーション部13または第2の実施形態の音素タイ
プライタ部23の認識誤りに対してロバストなラベル正
誤判定を行うことができるようにする。
【0067】図3は本発明の第3の実施形態に係るヒド
ン・マルコフ・モデルの学習方法の実施に用いられる装
置を示すブロック図である。本実施形態に係るヒドン・
マルコフ・モデルの学習方法の説明にあたり前記図1及
び図2と同一構成部分には同一符号を付している。
ン・マルコフ・モデルの学習方法の実施に用いられる装
置を示すブロック図である。本実施形態に係るヒドン・
マルコフ・モデルの学習方法の説明にあたり前記図1及
び図2と同一構成部分には同一符号を付している。
【0068】図3において、10は学習用音声データを
格納する音声データベース、21はラベルデータを格納
するラベルデータベース、22は音素モデルであり、音
素モデル22は、あらかじめ静かな環境で録音された学
習用音声データからΗMM学習により得られた音声モデ
ルである。また、31はディクテーション部(認識手
段)、32はビタビ照合部(ビタビ照合手段)、33は
尤度比較部(判定手段)、15は音声データを登録する
新音声データベースである。
格納する音声データベース、21はラベルデータを格納
するラベルデータベース、22は音素モデルであり、音
素モデル22は、あらかじめ静かな環境で録音された学
習用音声データからΗMM学習により得られた音声モデ
ルである。また、31はディクテーション部(認識手
段)、32はビタビ照合部(ビタビ照合手段)、33は
尤度比較部(判定手段)、15は音声データを登録する
新音声データベースである。
【0069】本実施形態は、学習用音声データベースと
そのラベルデータベースとを入力とし、誤ったラベルが
付けられた音声データが排除された学習用音声データベ
ースを出力するものである。
そのラベルデータベースとを入力とし、誤ったラベルが
付けられた音声データが排除された学習用音声データベ
ースを出力するものである。
【0070】ディクテーション部31は、第1の実施形
態のディクテーション部13とほぼ同一である。また、
このディクテーション部31の代わりに第2の実施形態
の音素タイプライタ部23を用いても良い。
態のディクテーション部13とほぼ同一である。また、
このディクテーション部31の代わりに第2の実施形態
の音素タイプライタ部23を用いても良い。
【0071】ディクテーション部31は、その処理にH
MM音素モデルと言語モデル及び単語辞書を用いて音声
データの認識を行い、認識の結果得られた尤度を出力す
る。また、ディクテーション部31に、前記音素タイプ
ライタ部23を使用した場合は、HMM音素モデルを用
いて音声データの認識を行い、認識の結果得られた尤度
を出力する。
MM音素モデルと言語モデル及び単語辞書を用いて音声
データの認識を行い、認識の結果得られた尤度を出力す
る。また、ディクテーション部31に、前記音素タイプ
ライタ部23を使用した場合は、HMM音素モデルを用
いて音声データの認識を行い、認識の結果得られた尤度
を出力する。
【0072】ビタビ照合部32は、HMM音素モデルと
音声データに対する与えられたラベルを入力し、ビタビ
・アライメントを行って、そのマッチング尤度を出力す
る。
音声データに対する与えられたラベルを入力し、ビタビ
・アライメントを行って、そのマッチング尤度を出力す
る。
【0073】尤度比較部33は、ディクテーション部3
1(または音素タイプライタ部23)で得られた尤度と
ビタビ照合部32で得られた尤度とを比較し、与えられ
たラベルの正誤判定を行う。正しいと判定されたラベル
を持った音声データは、学習用音声データベース15に
改めて登録され、そうでない音声データは音声データベ
ースから削除される。
1(または音素タイプライタ部23)で得られた尤度と
ビタビ照合部32で得られた尤度とを比較し、与えられ
たラベルの正誤判定を行う。正しいと判定されたラベル
を持った音声データは、学習用音声データベース15に
改めて登録され、そうでない音声データは音声データベ
ースから削除される。
【0074】上記ディクテーション部31、ビタビ照合
部32及び尤度比較部33は、全体として処理部34を
構成する。
部32及び尤度比較部33は、全体として処理部34を
構成する。
【0075】以下、上述のように構成された装置により
実施される音声認識システム及びヒドン・マルコフ・モ
デルの学習方法の動作を説明する。
実施される音声認識システム及びヒドン・マルコフ・モ
デルの学習方法の動作を説明する。
【0076】以下の説明ではディクテーション部31を
用いた例について行うが、音素タイプライタ部23を用
いたものについても同様のシステムが得られる。
用いた例について行うが、音素タイプライタ部23を用
いたものについても同様のシステムが得られる。
【0077】学習用音声データベースの各音声データに
ついて、第1の実施形態と同様にディクテーション部3
1において通常のディクテーション処理を行う。第1の
実施形態では、認識結果の単語列を出力したが、本実施
形態では出力として、認識結果の確からしさを示す尤度
を出力する。
ついて、第1の実施形態と同様にディクテーション部3
1において通常のディクテーション処理を行う。第1の
実施形態では、認識結果の単語列を出力したが、本実施
形態では出力として、認識結果の確からしさを示す尤度
を出力する。
【0078】なお、この尤度は通常のディクテーション
処理の副産物として得られるものであり、ディクテーシ
ョン部31に特別な処理を加える必要はない。また、こ
の尤度は音声データの長さで正規化しておく。例えば、
音声データの長さ(発声時間)で正規化すればよい。
処理の副産物として得られるものであり、ディクテーシ
ョン部31に特別な処理を加える必要はない。また、こ
の尤度は音声データの長さで正規化しておく。例えば、
音声データの長さ(発声時間)で正規化すればよい。
【0079】一方、ビタビ照合部32では、該当する音
声データに対して、与えられたラベルデータにより通常
のビタビ・アライメント処理を行う。すなわち、ラベル
と音声データとを時間軸の上で対応させ、音声データの
各部分が与えられたラベルのどの部分を発声したものか
を同定する。このビタビ・アライメント処理には、あら
かじめ用意されたHMM音素モデルを用いる。この音素
モデルはディクテーション部31で用いた音素モデルと
同一のものを用いるものとする。
声データに対して、与えられたラベルデータにより通常
のビタビ・アライメント処理を行う。すなわち、ラベル
と音声データとを時間軸の上で対応させ、音声データの
各部分が与えられたラベルのどの部分を発声したものか
を同定する。このビタビ・アライメント処理には、あら
かじめ用意されたHMM音素モデルを用いる。この音素
モデルはディクテーション部31で用いた音素モデルと
同一のものを用いるものとする。
【0080】ビタビ照合部32では、このビタビ・アラ
イメント処理の結果、副産物として得られる音声データ
と与えられたラベルとのマッチング尤度を出力する。こ
のマッチング尤度も音声データの長さで正規化されてい
るものとする。
イメント処理の結果、副産物として得られる音声データ
と与えられたラベルとのマッチング尤度を出力する。こ
のマッチング尤度も音声データの長さで正規化されてい
るものとする。
【0081】尤度比較部33では、2つの尤度、すなわ
ち、ディクテーション部31の出力である音声データの
認識尤度と、ビタビ照合部32の出力である与えられた
ラベルと音声データとのマッチング尤度とを入力とし、
与えられたラベルの正誤判定を行う。正誤判定は、以下
のように行われる。
ち、ディクテーション部31の出力である音声データの
認識尤度と、ビタビ照合部32の出力である与えられた
ラベルと音声データとのマッチング尤度とを入力とし、
与えられたラベルの正誤判定を行う。正誤判定は、以下
のように行われる。
【0082】いま、ディクテーション部31からの認識
尤度をP1、ビタビ照合部32からのマッチング尤度を
P2としたとき、次式(1)を計算する。
尤度をP1、ビタビ照合部32からのマッチング尤度を
P2としたとき、次式(1)を計算する。
【0083】 D=C(P2−P1) …(1) C:定数 ここで、上記定数Cは経験的に適当な値に設定すれば良
い。上記値Dとある閾値とを比較し、値Dが閾値以上で
あれば、音声データに与えられたラベルは正しいと判定
し、値Dが閾値より小さければ、与えられたラベルは誤
りであると判定する。この閾値は経験的に適当な値に設
定する。
い。上記値Dとある閾値とを比較し、値Dが閾値以上で
あれば、音声データに与えられたラベルは正しいと判定
し、値Dが閾値より小さければ、与えられたラベルは誤
りであると判定する。この閾値は経験的に適当な値に設
定する。
【0084】このようにラベルの正誤判定をする理由は
以下の通りである。
以下の通りである。
【0085】いま、音声データに与えられたラベルが正
しいものとする。この場合、ビタビ照合部32での音声
データとラベルのマッチング尤度P2は高いはずであ
る。一方において、ディクテーション部31の認識尤度
は与えられたラべルには関係しないので、相対的にP2
はP1より大きくなり、値Dはある閾値以上となる。逆
に、与えられたラベルが誤りであるとする。この場合マ
ッチング尤度P2は低い値となる。
しいものとする。この場合、ビタビ照合部32での音声
データとラベルのマッチング尤度P2は高いはずであ
る。一方において、ディクテーション部31の認識尤度
は与えられたラべルには関係しないので、相対的にP2
はP1より大きくなり、値Dはある閾値以上となる。逆
に、与えられたラベルが誤りであるとする。この場合マ
ッチング尤度P2は低い値となる。
【0086】一方、認識尤度はP1は与えられたラベル
に関係しないので、相対的にP2はP1より低くなり、
値Dは閾値を下回る。
に関係しないので、相対的にP2はP1より低くなり、
値Dは閾値を下回る。
【0087】さて、ラベルの正誤判定を音声データと与
えられたラベルとのマッチング尤度P2の大小だけで判
断せず、ディクテーションの認識尤度P1が関与した上
記式(1)の値Dで判定するのは次の理由による。
えられたラベルとのマッチング尤度P2の大小だけで判
断せず、ディクテーションの認識尤度P1が関与した上
記式(1)の値Dで判定するのは次の理由による。
【0088】すなわち、音声データによっては、正しい
ラベルが与えられてもマッチング尤度P2が低くなる場
合が存在する。これは、例えば、発声した人の個性など
の影響で、音声データがビタビ照合部32で用いている
音素モデルからかけ離れている場合に生ずる。
ラベルが与えられてもマッチング尤度P2が低くなる場
合が存在する。これは、例えば、発声した人の個性など
の影響で、音声データがビタビ照合部32で用いている
音素モデルからかけ離れている場合に生ずる。
【0089】このような場合に、単純にP2の大小だけ
で判断すると、正しいラベルが与えられているにもかか
わらず、ラベルは誤りであると判定されてしまう。とこ
ろが、上記式(1)で与えられる値Dを用いればこのよ
うな問題は生じない。なぜなら、話者の個性などの影響
で、用いた音素モデルとのミスマッチを起こしてP2の
値が小さくなれば、同じ理由でP1も同時に小さい値と
なり、従って、その差分P2−P1を取ればP2の減少
分がなくなり、値Dは決められた閾値より小さくなるこ
とはなく、与えられたラベルは誤りであると間違って判
定することはない。
で判断すると、正しいラベルが与えられているにもかか
わらず、ラベルは誤りであると判定されてしまう。とこ
ろが、上記式(1)で与えられる値Dを用いればこのよ
うな問題は生じない。なぜなら、話者の個性などの影響
で、用いた音素モデルとのミスマッチを起こしてP2の
値が小さくなれば、同じ理由でP1も同時に小さい値と
なり、従って、その差分P2−P1を取ればP2の減少
分がなくなり、値Dは決められた閾値より小さくなるこ
とはなく、与えられたラベルは誤りであると間違って判
定することはない。
【0090】以上説明したように、第3の実施形態に係
る音声認識システム及びヒドン・マルコフ・モデルの学
習方法では、あらかじめ用意した音素モデル22を用い
て、音声データの音声認識を行い、認識結果の確からし
さを示す認識尤度を出力するディクテーション部31
と、音声データと与えられたラベルデータによるビタビ
照合処理を行い、マッチング尤度を出力するビタビ照合
部32と、ディクテーション部31により得られた認識
尤度とビタビ照合部32により得られた尤度から与えら
れたラベルの正誤判定を行い、判定結果に基づいて誤っ
たラベルを持つ音声データを音声データベースから削除
する尤度比較部33とを備えて構成したので、ディクテ
ーション部(または音素タイプライタ部)で認識誤りが
生じた場合であっても高精度なラベル正誤判定を行うこ
とが可能になる。
る音声認識システム及びヒドン・マルコフ・モデルの学
習方法では、あらかじめ用意した音素モデル22を用い
て、音声データの音声認識を行い、認識結果の確からし
さを示す認識尤度を出力するディクテーション部31
と、音声データと与えられたラベルデータによるビタビ
照合処理を行い、マッチング尤度を出力するビタビ照合
部32と、ディクテーション部31により得られた認識
尤度とビタビ照合部32により得られた尤度から与えら
れたラベルの正誤判定を行い、判定結果に基づいて誤っ
たラベルを持つ音声データを音声データベースから削除
する尤度比較部33とを備えて構成したので、ディクテ
ーション部(または音素タイプライタ部)で認識誤りが
生じた場合であっても高精度なラベル正誤判定を行うこ
とが可能になる。
【0091】すなわち、第1及び第2の実施形態では、
誤りの可能性のあるディクテーション部13(または音
素タイプライタ部23)の認識結果の単語列(または音
素列)をそのまま用いて、与えられたラベルとの類似度
によってラベルの正誤判定を行ったため、高い精度が得
られなかった。これに対して、本実施形態では、認識結
果の単語列(または音素列)をそのまま用いるのではな
く、ディクテーション部31(または音素タイプライタ
部23)の認識結果の確からしさを示す認識尤度を用
い、この認識尤度とビタビ照合処理により得られたマッ
チング尤度とを比較してラベルの正誤判定を行うように
したので、ディクテーション部31(または音素タイプ
ライタ部23)の認識誤りに対してロバストであり、高
精度でラベル正誤判定が行うことができる。但し、ビタ
ビ照合部32での、与えられたラベルの尤度計算を行う
処理が新たに必要となるため、第1及び第2の実施形態
と比べて、システムの負荷は増大する。 第4の実施形態 上記各実施形態では、音声データに与えられたラベルを
正しいか誤りかという二者択一の判定をした。しかし、
100%正しい判定をすることは困難であり、また、与
えられたラベルが部分的に誤っている場合もあるので、
正しいか誤りかという二者択一の判定を行うより、その
ラベルがどの程度の信頼性があるかを例えば0〜1の区
間の数値で表現したほうが都合が良い。第4の実施形態
ではこのような観点からなされたものである。
誤りの可能性のあるディクテーション部13(または音
素タイプライタ部23)の認識結果の単語列(または音
素列)をそのまま用いて、与えられたラベルとの類似度
によってラベルの正誤判定を行ったため、高い精度が得
られなかった。これに対して、本実施形態では、認識結
果の単語列(または音素列)をそのまま用いるのではな
く、ディクテーション部31(または音素タイプライタ
部23)の認識結果の確からしさを示す認識尤度を用
い、この認識尤度とビタビ照合処理により得られたマッ
チング尤度とを比較してラベルの正誤判定を行うように
したので、ディクテーション部31(または音素タイプ
ライタ部23)の認識誤りに対してロバストであり、高
精度でラベル正誤判定が行うことができる。但し、ビタ
ビ照合部32での、与えられたラベルの尤度計算を行う
処理が新たに必要となるため、第1及び第2の実施形態
と比べて、システムの負荷は増大する。 第4の実施形態 上記各実施形態では、音声データに与えられたラベルを
正しいか誤りかという二者択一の判定をした。しかし、
100%正しい判定をすることは困難であり、また、与
えられたラベルが部分的に誤っている場合もあるので、
正しいか誤りかという二者択一の判定を行うより、その
ラベルがどの程度の信頼性があるかを例えば0〜1の区
間の数値で表現したほうが都合が良い。第4の実施形態
ではこのような観点からなされたものである。
【0092】図4は本発明の第4の実施形態に係るヒド
ン・マルコフ・モデルの学習方法の実施に用いられる装
置を示すブロック図である。本実施形態に係るヒドン・
マルコフ・モデルの学習方法の説明にあたり前記図1及
び図2と同一構成部分には同一符号を付している。
ン・マルコフ・モデルの学習方法の実施に用いられる装
置を示すブロック図である。本実施形態に係るヒドン・
マルコフ・モデルの学習方法の説明にあたり前記図1及
び図2と同一構成部分には同一符号を付している。
【0093】図4において、10は学習用音声データを
格納する音声データベース、21はラベルデータを格納
するラベルデータベース、41は音声データ重み付け計
算部(重み付け計算手段)、42は重みデータベース、
43は重み付けを考慮したHMM学習部(HMM学習手
段)、44はHMM音素モデルである。
格納する音声データベース、21はラベルデータを格納
するラベルデータベース、41は音声データ重み付け計
算部(重み付け計算手段)、42は重みデータベース、
43は重み付けを考慮したHMM学習部(HMM学習手
段)、44はHMM音素モデルである。
【0094】本実施形態は、学習用音声データベース1
0とそのラベルデータベース21とを入力とし、各音声
データについて、対応したラベルの信頼性で重み付けを
行い、その重み付け情報を考慮してHMM学習を行うこ
とで、精度の良い音素モデルを出力するものである。
0とそのラベルデータベース21とを入力とし、各音声
データについて、対応したラベルの信頼性で重み付けを
行い、その重み付け情報を考慮してHMM学習を行うこ
とで、精度の良い音素モデルを出力するものである。
【0095】音声データ重み付け計算部41は、音声デ
ータベース10の各音声データに対して、対応するラべ
ルの信頼性を評価し、これを該当音声データの重み付け
情報として、重みデータベース42に登録する。
ータベース10の各音声データに対して、対応するラべ
ルの信頼性を評価し、これを該当音声データの重み付け
情報として、重みデータベース42に登録する。
【0096】学習データの重み付けを考慮したHMM学
習部43は、重み付きの学習データから、各音声データ
の重みを反映してHMM学習を行い、音素モデルを出力
する。
習部43は、重み付きの学習データから、各音声データ
の重みを反映してHMM学習を行い、音素モデルを出力
する。
【0097】上記音声データ重み付け計算部41及び重
み付けを考慮したHMM学習部43は、全体として処理
部45を構成する。
み付けを考慮したHMM学習部43は、全体として処理
部45を構成する。
【0098】以下、上述のように構成された装置により
実施される音声認識システム及びヒドン・マルコフ・モ
デルの学習方法の動作を説明する。
実施される音声認識システム及びヒドン・マルコフ・モ
デルの学習方法の動作を説明する。
【0099】音声データ重み付け計算部41では、音声
データベースの各音声データについて、対応したラベル
の信頼性の評価を行う。この方法としては、上記各実施
形態のうち、ラベル正誤判定処理部分の何れかを用いる
ことができる。
データベースの各音声データについて、対応したラベル
の信頼性の評価を行う。この方法としては、上記各実施
形態のうち、ラベル正誤判定処理部分の何れかを用いる
ことができる。
【0100】例えば、第1の実施形態では、単語列比較
部14(図1)において単語単位でのDPマッチングに
よる類似度スコアを用い、これを適当な方法で0〜1の
間の数値にマッピングし、これを該当するラベルの信頼
度とすればよい。また、第2の実施形態では、音素列比
較部25(図2)において、音素単位でのDPマッチン
グによる類似度スコアを用い、これを適当な方法で0〜
1の間の数値にマッピングし、これを該当するラベルの
信頼度とすればよい。同様に、第3の実施形態では、尤
度比較部33(図3)での、前記式(1)で与えられる
値Dを用い、これを適当な方法で0〜1の間の数値にマ
ッピングし、これを該当するラベルの信頼度とすればよ
い。このようにして、各音声データに対応したラベルの
信頼度を計算し、それをその音声データに対する重み付
けとして、重みデータベース42に登録する。
部14(図1)において単語単位でのDPマッチングに
よる類似度スコアを用い、これを適当な方法で0〜1の
間の数値にマッピングし、これを該当するラベルの信頼
度とすればよい。また、第2の実施形態では、音素列比
較部25(図2)において、音素単位でのDPマッチン
グによる類似度スコアを用い、これを適当な方法で0〜
1の間の数値にマッピングし、これを該当するラベルの
信頼度とすればよい。同様に、第3の実施形態では、尤
度比較部33(図3)での、前記式(1)で与えられる
値Dを用い、これを適当な方法で0〜1の間の数値にマ
ッピングし、これを該当するラベルの信頼度とすればよ
い。このようにして、各音声データに対応したラベルの
信頼度を計算し、それをその音声データに対する重み付
けとして、重みデータベース42に登録する。
【0101】学習データの重み付けを考慮したHMM学
習部43では、各音声データに対して、対応した重み付
け情報を重みデータベース42から得て、各音声データ
の重みを反映させてHMM学習を行う。
習部43では、各音声データに対して、対応した重み付
け情報を重みデータベース42から得て、各音声データ
の重みを反映させてHMM学習を行う。
【0102】ここで、従来法のHMM学習方法について
説明する。詳細については、例えば、S.Young,J.Janse
n,J.Odell D.Ollason,P.Woodland "The HTK BOOK"の第
8章を参照。
説明する。詳細については、例えば、S.Young,J.Janse
n,J.Odell D.Ollason,P.Woodland "The HTK BOOK"の第
8章を参照。
【0103】HMM学習では、Baum-Welchアルゴリズム
に基づいてHMMモデルを生成する。これは、ある適当
なHMMパラメータを持つ初期HMMモデルから出発し
て、学習用の音声データを用いてHMMモデルのパラメ
ータを更新し、この更新作業を複数回繰り返すに従い、
HMMモデルのパラメータが徐々に改善されていくとい
うものである。このHMMパラメータの更新をHMMパ
ラメータの再推定と言う。この際、HMMパラメータの
再推定は、通常、各音声データからの寄与を平均化して
行われる。
に基づいてHMMモデルを生成する。これは、ある適当
なHMMパラメータを持つ初期HMMモデルから出発し
て、学習用の音声データを用いてHMMモデルのパラメ
ータを更新し、この更新作業を複数回繰り返すに従い、
HMMモデルのパラメータが徐々に改善されていくとい
うものである。このHMMパラメータの更新をHMMパ
ラメータの再推定と言う。この際、HMMパラメータの
再推定は、通常、各音声データからの寄与を平均化して
行われる。
【0104】以下、このHMMパラメータの再推定式を
示す。但し、以下のような記号を用いる。また、各音声
データは、音声分析されると、特徴べクトルの時系列が
生成されるが、この特徴べクトルの時系列を観測と呼
び、各特徴ベクトルを観測べクトルと呼ぶ。
示す。但し、以下のような記号を用いる。また、各音声
データは、音声分析されると、特徴べクトルの時系列が
生成されるが、この特徴べクトルの時系列を観測と呼
び、各特徴ベクトルを観測べクトルと呼ぶ。
【0105】r 観測を指定する指標 t 時間を指定する指標 ot 時刻tにおける観測べクトル ost 時刻tにおけるストリームsの観測べクトル orst 観測rの、時刻tにおけるストリームsの観測
ベクトル aij 状態iから状態jへの遷移確率 Cjsm 状態jのストリームsの混合成分mの重み μjsm 状態jのストリームsの混合成分mの平均べク
トル Σjsm 状態jのストリームsの混合成分mの分散行列 bj(o) 状態jでの観測ベクトルoの出力確率 Pr r番目の観測の出力確率 αi(t),βi(t) 前向き、後向き確率と呼ばれるパラメ
ータ HMMモデルのパラメータとしては、遷移確率
(aij)、確率密度関数における平均(μjsm)と分散
(Σjsm)、混合成分の重み(Cjsm)があり、それぞれ
以下の式(2)〜(5)のように再推定される。但し、
α^ijが再推定された後の遷移確率の値、aijが再推定
する前の遷移確率の値である。μjsm、Σjsm、c jsmに
ついても同様である。
ベクトル aij 状態iから状態jへの遷移確率 Cjsm 状態jのストリームsの混合成分mの重み μjsm 状態jのストリームsの混合成分mの平均べク
トル Σjsm 状態jのストリームsの混合成分mの分散行列 bj(o) 状態jでの観測ベクトルoの出力確率 Pr r番目の観測の出力確率 αi(t),βi(t) 前向き、後向き確率と呼ばれるパラメ
ータ HMMモデルのパラメータとしては、遷移確率
(aij)、確率密度関数における平均(μjsm)と分散
(Σjsm)、混合成分の重み(Cjsm)があり、それぞれ
以下の式(2)〜(5)のように再推定される。但し、
α^ijが再推定された後の遷移確率の値、aijが再推定
する前の遷移確率の値である。μjsm、Σjsm、c jsmに
ついても同様である。
【0106】
【数3】 ここで、Lr jsm(t)はr番目の観測において、時刻t
において、状態jのストリームsのm番目の混合成分の
占有する確率であり、次式(6)で与えられる。
において、状態jのストリームsのm番目の混合成分の
占有する確率であり、次式(6)で与えられる。
【0107】
【数4】 次に、本実施形態におけるHMM学習方法について説明
する。
する。
【0108】本実施形態では、従来方法におけるHMM
パラメータの再推定式において、各音声データによる平
均化の際に、各音声データの重みを掛けた形で平均化す
るようにすることで、音声データに対応したラベルの信
用度を反映させる。すなわち、従来法のHMMパラメー
タ再推定式を、音声データの重みを反映させて、次式
(7)、(8)のように変更する。
パラメータの再推定式において、各音声データによる平
均化の際に、各音声データの重みを掛けた形で平均化す
るようにすることで、音声データに対応したラベルの信
用度を反映させる。すなわち、従来法のHMMパラメー
タ再推定式を、音声データの重みを反映させて、次式
(7)、(8)のように変更する。
【0109】
【数5】 ここで、mrは観測rに対応した音声データの重みであ
る。Lr jsm(t)をこのように変更すれば、μjsm、Σ
jsm、cjsmについてはこの変更されたLr jsm(t)を用
いて従来法と同じ式(3)〜(5)で与えられる。
る。Lr jsm(t)をこのように変更すれば、μjsm、Σ
jsm、cjsmについてはこの変更されたLr jsm(t)を用
いて従来法と同じ式(3)〜(5)で与えられる。
【0110】このようなHMMパラメータ再推定式を用
いてHMM学習を行うことで、音声データに与えられた
ラベルの信頼性を反映した音素HMMモデルを生成する
ことができる。
いてHMM学習を行うことで、音声データに与えられた
ラベルの信頼性を反映した音素HMMモデルを生成する
ことができる。
【0111】以上説明したように、第4の実施形態に係
る音声認識システム及びヒドン・マルコフ・モデルの学
習方法では、音声データベースの各音声データに対応し
た各ラベルの信頼度を重み付け情報として計算する音声
データ重み付け計算部41と、各音声データに対して、
対応した重み付け情報を格納する重みデータベース42
と、各音声データに対して、対応した重み付け情報を用
いてHMM学習を行う重み付けを考慮したHMM学習部
43とを備え、各音声データに与えられたラベルを正し
いか、誤りかという二者択一の判定をせず、そのラべル
がどの程度信頼性があるかを0〜1の区間の数値で表現
して、その信頼性情報をHMM学習の際に音声データに
対する重み付けとして用いたので、ラベル正誤判定処理
の誤りに対してロバストであり、部分的な誤りを含んだ
ラベルに対しては、全面的に採用/排除するのに比べて
実情に即している。したがって、ラベル正誤判定方法の
誤り、ラベルの部分的誤りに対してロバストなHMM学
習を行うことができ、精度の高いHMM音素モデルを作
成することが可能である。
る音声認識システム及びヒドン・マルコフ・モデルの学
習方法では、音声データベースの各音声データに対応し
た各ラベルの信頼度を重み付け情報として計算する音声
データ重み付け計算部41と、各音声データに対して、
対応した重み付け情報を格納する重みデータベース42
と、各音声データに対して、対応した重み付け情報を用
いてHMM学習を行う重み付けを考慮したHMM学習部
43とを備え、各音声データに与えられたラベルを正し
いか、誤りかという二者択一の判定をせず、そのラべル
がどの程度信頼性があるかを0〜1の区間の数値で表現
して、その信頼性情報をHMM学習の際に音声データに
対する重み付けとして用いたので、ラベル正誤判定処理
の誤りに対してロバストであり、部分的な誤りを含んだ
ラベルに対しては、全面的に採用/排除するのに比べて
実情に即している。したがって、ラベル正誤判定方法の
誤り、ラベルの部分的誤りに対してロバストなHMM学
習を行うことができ、精度の高いHMM音素モデルを作
成することが可能である。
【0112】なお、上記各実施形態に係るヒドン・マル
コフ・モデルの学習方法は、例えば音素HMMに適用す
ることができるが、ダイフォンHMMやトライフォンH
MMに対しても、同様なHMM学習ができることは勿論
である。
コフ・モデルの学習方法は、例えば音素HMMに適用す
ることができるが、ダイフォンHMMやトライフォンH
MMに対しても、同様なHMM学習ができることは勿論
である。
【0113】また、上記各実施形態に係る音声認識シス
テムは、音声を入力とする音声認識方法には全て適用す
ることができ、また、学習用音声データからHMM学習
を行うものであればどのような音声認識でもよい。各種
端末に組み込まれる回路の一部として実施することもで
きる。
テムは、音声を入力とする音声認識方法には全て適用す
ることができ、また、学習用音声データからHMM学習
を行うものであればどのような音声認識でもよい。各種
端末に組み込まれる回路の一部として実施することもで
きる。
【0114】さらに、上記各実施形態に係る音声認識方
法及びシステムを構成する各処理部や各種プロセスの
数、種類接続状態などは前述した各実施形態に限られな
い。
法及びシステムを構成する各処理部や各種プロセスの
数、種類接続状態などは前述した各実施形態に限られな
い。
【0115】
【発明の効果】本発明に係る音声認識システム及びヒド
ン・マルコフ・モデルの学習方法では、音素モデル、言
語モデル及び単語辞書を用いて、音声データの音声認識
を行い、単語列として出力する単語列認識手段と、単語
列認識手段により得られた単語列とラベルデータベース
からのラベルの単語列との類似度を算出する類似度算出
手段と、類似度に基づいて誤ったラベルを持つ音声デー
タを音声データベースから削除する判定手段とを備えて
構成したので、誤ったラベルを持つ学習データを精度よ
く自動的に検出し、これを音声データベースから削除
し、こうして誤りのない音声データベースとラベルデー
タベースを用いてHMM学習を行うことで、認識性能の
よい音声認識システムを実現することができる。
ン・マルコフ・モデルの学習方法では、音素モデル、言
語モデル及び単語辞書を用いて、音声データの音声認識
を行い、単語列として出力する単語列認識手段と、単語
列認識手段により得られた単語列とラベルデータベース
からのラベルの単語列との類似度を算出する類似度算出
手段と、類似度に基づいて誤ったラベルを持つ音声デー
タを音声データベースから削除する判定手段とを備えて
構成したので、誤ったラベルを持つ学習データを精度よ
く自動的に検出し、これを音声データベースから削除
し、こうして誤りのない音声データベースとラベルデー
タベースを用いてHMM学習を行うことで、認識性能の
よい音声認識システムを実現することができる。
【0116】本発明に係る音声認識システム及びヒドン
・マルコフ・モデルの学習方法では、音素モデルを用い
て、音声データの発音内容を音素のレベルで認識し、音
素列として出力する音素列認識手段と、ラベルデータベ
ースの各ラベルデータを音素列に変換する音素列変換手
段と、音素列認識手段により得られた音素列と音素列変
換手段により得られた音素列との類似度を算出する類似
度算出手段と、類似度に基づいて誤ったラベルを持つ音
声データを音声データベースから削除する判定手段とを
備えて構成したので、ラベルデータベースの作成及びシ
ステムの構築が容易で高速処理が可能であり、誤ったラ
ベルを持つ学習データを精度よく自動的に検出すること
ができる。
・マルコフ・モデルの学習方法では、音素モデルを用い
て、音声データの発音内容を音素のレベルで認識し、音
素列として出力する音素列認識手段と、ラベルデータベ
ースの各ラベルデータを音素列に変換する音素列変換手
段と、音素列認識手段により得られた音素列と音素列変
換手段により得られた音素列との類似度を算出する類似
度算出手段と、類似度に基づいて誤ったラベルを持つ音
声データを音声データベースから削除する判定手段とを
備えて構成したので、ラベルデータベースの作成及びシ
ステムの構築が容易で高速処理が可能であり、誤ったラ
ベルを持つ学習データを精度よく自動的に検出すること
ができる。
【0117】本発明に係る音声認識システム及びヒドン
・マルコフ・モデルの学習方法では、音素モデルを用い
て、音声データの音声認識を行い、認識結果の確からし
さを示す認識尤度を出力する認識手段と、音声データと
与えられたラベルデータによるビタビ照合処理を行い、
マッチング尤度を出力するビタビ照合手段と、認識手段
により得られた認識尤度とビタビ照合手段により得られ
た尤度から与えられたラベルの正誤判定を行い、判定結
果に基づいて誤ったラベルを持つ音声データを音声デー
タベースから削除する判定手段とを備えて構成したの
で、より高精度でラベル正誤判定が行うことができ、認
識性能のよい音声認識システムを実現することができ
る。
・マルコフ・モデルの学習方法では、音素モデルを用い
て、音声データの音声認識を行い、認識結果の確からし
さを示す認識尤度を出力する認識手段と、音声データと
与えられたラベルデータによるビタビ照合処理を行い、
マッチング尤度を出力するビタビ照合手段と、認識手段
により得られた認識尤度とビタビ照合手段により得られ
た尤度から与えられたラベルの正誤判定を行い、判定結
果に基づいて誤ったラベルを持つ音声データを音声デー
タベースから削除する判定手段とを備えて構成したの
で、より高精度でラベル正誤判定が行うことができ、認
識性能のよい音声認識システムを実現することができ
る。
【0118】本発明に係る音声認識システム及びヒドン
・マルコフ・モデルの学習方法では、音声データベース
の各音声データに対応した各ラベルの信頼度を重み付け
情報として計算する重み付け計算手段と、各音声データ
に対して、対応した重み付け情報を用いてHMM学習を
行うHMM学習手段とを備えて構成したので、ラベル正
誤判定方法の誤り、ラベルの部分的誤りに対してロバス
トなHMM学習を行うことができ、より認識性能のよい
音声認識システムを実現することができる。
・マルコフ・モデルの学習方法では、音声データベース
の各音声データに対応した各ラベルの信頼度を重み付け
情報として計算する重み付け計算手段と、各音声データ
に対して、対応した重み付け情報を用いてHMM学習を
行うHMM学習手段とを備えて構成したので、ラベル正
誤判定方法の誤り、ラベルの部分的誤りに対してロバス
トなHMM学習を行うことができ、より認識性能のよい
音声認識システムを実現することができる。
【図1】本発明を適用した第1の実施形態に係るヒドン
・マルコフ・モデルの学習方法の実施に用いられる装置
を示すブロック図である。
・マルコフ・モデルの学習方法の実施に用いられる装置
を示すブロック図である。
【図2】本発明を適用した第2の実施形態に係るヒドン
・マルコフ・モデルの学習方法の実施に用いられる装置
を示すブロック図である。
・マルコフ・モデルの学習方法の実施に用いられる装置
を示すブロック図である。
【図3】本発明を適用した第3の実施形態に係るヒドン
・マルコフ・モデルの学習方法の実施に用いられる装置
を示すブロック図である。
・マルコフ・モデルの学習方法の実施に用いられる装置
を示すブロック図である。
【図4】本発明を適用した第4の実施形態に係るヒドン
・マルコフ・モデルの学習方法の実施に用いられる装置
を示すブロック図である。
・マルコフ・モデルの学習方法の実施に用いられる装置
を示すブロック図である。
10 音声データベース、11,21 ラベルデータベ
ース、12 音素モデル、言語モデル及び単語辞書、1
3,31 ディクテーション部(単語列認識手段、認識
手段)、14 単語列比較部(類似度算出手段、判定手
段)、15 新音声データベース、16,26,34,
45 処理部、22 音素モデル、23音素タイプライ
タ部(音素列認識手段)、24 音素列展開部(音素列
変換手段)、25 音素列比較部(類似度算出手段、判
定手段)、32 ビタビ照合部(ビタビ照合手段)、3
3 尤度比較部(判定手段)、41 音声データ重み付
け計算部(重み付け計算手段)、42 重みデータベー
ス、43 重み付けを考慮したHMM学習部(HMM学
習手段)、44 HMM音素モデル
ース、12 音素モデル、言語モデル及び単語辞書、1
3,31 ディクテーション部(単語列認識手段、認識
手段)、14 単語列比較部(類似度算出手段、判定手
段)、15 新音声データベース、16,26,34,
45 処理部、22 音素モデル、23音素タイプライ
タ部(音素列認識手段)、24 音素列展開部(音素列
変換手段)、25 音素列比較部(類似度算出手段、判
定手段)、32 ビタビ照合部(ビタビ照合手段)、3
3 尤度比較部(判定手段)、41 音声データ重み付
け計算部(重み付け計算手段)、42 重みデータベー
ス、43 重み付けを考慮したHMM学習部(HMM学
習手段)、44 HMM音素モデル
Claims (21)
- 【請求項1】 発声した音声データを格納する音声デー
タベースと、前記各音声データに対応する文字列をラベ
ルデータとして格納するラベルデータベースとを有し、
前記音声データ及び前記ラベルデータからヒドン・マル
コフ・モデル(HMM)学習を行ってHMM音素モデル
を作成し、該HMM音素モデルを用いて音声認識を行う
音声認識システムにおいて、 あらかじめ用意した音素モデル、言語モデル及び単語辞
書を用いて、音声データの音声認識を行い、単語列とし
て出力する単語列認識手段と、 前記単語列認識手段により得られた単語列と前記ラベル
データベースからのラベルの単語列との類似度を算出す
る類似度算出手段と、 前記類似度に基づいて誤ったラベルを持つ音声データを
音声データベースから削除する判定手段とを備えたこと
を特徴とする音声認識システム。 - 【請求項2】 発声した音声データを格納する音声デー
タベースと、前記各音声データに対応する文字列をラベ
ルデータとして格納するラベルデータベースとを有し、
前記音声データ及び前記ラベルデータからヒドン・マル
コフ・モデル(HMM)学習を行ってHMM音素モデル
を作成し、該HMM音素モデルを用いて音声認識を行う
音声認識システムにおいて、 あらかじめ用意した音素モデルを用いて、音声データの
発音内容を音素のレベルで認識し、音素列として出力す
る音素列認識手段と、 前記ラベルデータベースの各ラベルデータを音素列に変
換する音素列変換手段と、 前記音素列認識手段により得られた音素列と前記音素列
変換手段により得られた音素列との類似度を算出する類
似度算出手段と、 前記類似度に基づいて誤ったラベルを持つ音声データを
音声データベースから削除する判定手段とを備えたこと
を特徴とする音声認識システム。 - 【請求項3】 前記ラベルデータベースの各ラベルは単
語単位に区切られており、 前記単語列認識手段は、音声データの連続音声認識を行
うことを特徴とする請求項1記載の音声認識システム。 - 【請求項4】 前記類似度算出手段は、 単語を単位とするDPマッチングを行い、そのマッチン
グ・スコアで類似度を算出することを特徴とする請求項
1記載の音声認識システム。 - 【請求項5】 前記類似度算出手段は、 音素を単位とするDPマッチングを行い、そのマッチン
グ・スコアで類似度を算出することを特徴とする請求項
2記載の音声認識システム。 - 【請求項6】 前記判定手段は、 算出された類似度が所定の閾値より下回ったときは、与
えられたラベルは誤りと判定し、前記類似度が前記閾値
以上のときは、与えられたラベルは正しいと判定するこ
とを特徴とする請求項1又は2の何れかに記載の音声認
識システム。 - 【請求項7】 前記判定手段は、 算出された類似度が所定の閾値より下回ったときは、そ
の音声データは誤ったラベルが付与されているとして削
除し、前記類似度が前記閾値以上のときは、与えられた
ラベルは正しいとして、音声データを対応するラベルと
ともに音声データベースに登録することを特徴とする請
求項1又は2の何れかに記載の音声認識システム。 - 【請求項8】 発声した音声データを格納する音声デー
タベースと、前記各音声データに対応する文字列をラベ
ルデータとして格納するラベルデータベースとを有し、
前記音声データ及び前記ラベルデータからヒドン・マル
コフ・モデル(HMM)学習を行ってHMM音素モデル
を作成し、該HMM音素モデルを用いて音声認識を行う
音声認識システムにおいて、 あらかじめ用意した音素モデルを用いて、音声データの
音声認識を行い、認識結果の確からしさを示す認識尤度
を出力する認識手段と、 音声データと与えられたラベルデータによるビタビ照合
処理を行い、マッチング尤度を出力するビタビ照合手段
と、 前記認識手段により得られた認識尤度と前記ビタビ照合
手段により得られた尤度から与えられたラベルの正誤判
定を行い、前記判定結果に基づいて誤ったラベルを持つ
音声データを音声データベースから削除する判定手段と
を備えたことを特徴とする音声認識システム。 - 【請求項9】 前記判定手段は、 前記認識手段により得られた認識尤度と前記ビタビ照合
手段により得られた尤度の差分を取り、該差分値と所定
の閾値との比較によりラベルの正誤判定を行うことを特
徴とする請求項8記載の音声認識システム。 - 【請求項10】 前記認識手段は、 請求項1に記載された前記単語列認識手段、若しくは請
求項2に記載された前記音素列認識手段の何れかである
ことを特徴とする請求項8記載の音声認識システム。 - 【請求項11】 発声した音声データを格納する音声デ
ータベースと、前記各音声データに対応する文字列をラ
ベルデータとして格納するラベルデータベースとを有
し、前記音声データ及び前記ラベルデータからヒドン・
マルコフ・モデル(HMM)学習を行ってHMM音素モ
デルを作成し、該HMM音素モデルを用いて音声認識を
行う音声認識システムにおいて、 音声データベースの各音声データに対応した各ラベルの
信頼度を重み付け情報として計算する重み付け計算手段
と、 各音声データに対して、対応した重み付け情報を用いて
HMM学習を行うHMM学習手段とを備えたことを特徴
とする音声認識システム。 - 【請求項12】 各音声データに対して、対応した重み
付け情報を格納する重みデータベースを備え、 前記HMM学習手段は、 前記重みデータベースから対応した重み付け情報を取り
出し、該重み付け情報を用いてHMM学習を行うことを
特徴とする請求項11記載の音声認識システム。 - 【請求項13】 前記重み付け計算手段は、 請求項1又は2記載の類似度算出手段による類似度、若
しくは請求項9記載の判定手段による尤度の差分値の何
れかを用いて、各音声データに対応した各ラベルの信頼
度を計算することを特徴とする請求項11記載の音声認
識システム。 - 【請求項14】 前記HMM学習手段は、 次式に示す方法でHMMモデル・パラメータの再推定を
行う 【数1】 ことを特徴とする請求項11記載の音声認識システム。 - 【請求項15】 前記HMM音素モデルは、 音声をHMMに基づいてモデリングした不特定話者HM
M音素モデルであることを特徴とする請求項1、2、8
又は11の何れかに記載の音声認識システム。 - 【請求項16】 前記音声データベースは、 話者が複数の文章を読み上げた連続発声音声データベー
スであることを特徴とする請求項1、2、8又は11の
何れかに記載の音声認識システム。 - 【請求項17】 音声データベース及びラベルデータベ
ースからヒドン・マルコフ・モデル(HMM)学習を行
ってHMM音素モデルを作成するヒドン・マルコフ・モ
デルの学習方法であって、 あらかじめ用意した音素モデル、言語モデル及び単語辞
書を用いて、音声データの音声認識を行い、単語列とし
て出力する工程と、 該単語列と前記ラベルデータベースからのラベルの単語
列との類似度を算出する工程と、 前記類似度に基づいて誤ったラベルを持つ音声データを
音声データベースから削除する工程とを順次実行するこ
とを特徴とするヒドン・マルコフ・モデルの学習方法。 - 【請求項18】 音声データベース及びラベルデータベ
ースからヒドン・マルコフ・モデル(HMM)学習を行
ってHMM音素モデルを作成するヒドン・マルコフ・モ
デルの学習方法であって、 あらかじめ用意した音素モデルを用いて、音声データの
発音内容を音素のレベルで認識し、音素列として出力す
る認識工程と、 前記ラベルデータベースの各ラベルデータを音素列に展
開する展開工程と、 前記認識工程により得られた音素列と前記展開工程で展
開された音素列との類似度を算出する工程と、 前記類似度に基づいて誤ったラベルを持つ音声データを
音声データベースから削除する工程とを順次実行するこ
とを特徴とするヒドン・マルコフ・モデルの学習方法。 - 【請求項19】 音声データベース及びラベルデータベ
ースからヒドン・マルコフ・モデル(HMM)学習を行
ってHMM音素モデルを作成するヒドン・マルコフ・モ
デルの学習方法であって、 あらかじめ用意した音素モデルを用いて、音声データの
音声認識を行い、認識結果の確からしさを示す認識尤度
を出力する認識工程と、 音声データと与えられたラベルデータによるビタビ照合
処理を行い、マッチング尤度を出力するビタビ照合工程
と、 前記認識工程により得られた認識尤度と前記ビタビ照合
工程により得られた尤度から与えられたラベルの正誤判
定を行い、前記判定結果に基づいて誤ったラベルを持つ
音声データを音声データベースから削除する工程とを順
次実行することを特徴とするヒドン・マルコフ・モデル
の学習方法。 - 【請求項20】 音声データベース及びラベルデータベ
ースからヒドン・マルコフ・モデル(HMM)学習を行
ってHMM音素モデルを作成するヒドン・マルコフ・モ
デルの学習方法であって、 音声データベースの各音声データに対応した各ラベルの
信頼度を重み付け情報として計算する工程と、 各音声データに対して、対応した重み付け情報を重みデ
ータベースに格納する工程と、 各音声データに対して、前記重みデータベースから対応
した重み付け情報を取り出し、該重み付け情報を用いて
HMM学習を行う工程とを順次実行することを特徴とす
るヒドン・マルコフ・モデルの学習方法。 - 【請求項21】 前記重み付け計算工程は、 請求項17又は18記載の類似度算出工程による類似
度、若しくは請求項19記載の判定工程による尤度の差
分値の何れかを用いて、各音声データに対応した各ラベ
ルの信頼度を計算することを特徴とする請求項20記載
のヒドン・マルコフ・モデルの学習方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11166569A JP2000352993A (ja) | 1999-06-14 | 1999-06-14 | 音声認識システム及びヒドン・マルコフ・モデルの学習方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11166569A JP2000352993A (ja) | 1999-06-14 | 1999-06-14 | 音声認識システム及びヒドン・マルコフ・モデルの学習方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2000352993A true JP2000352993A (ja) | 2000-12-19 |
Family
ID=15833702
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP11166569A Withdrawn JP2000352993A (ja) | 1999-06-14 | 1999-06-14 | 音声認識システム及びヒドン・マルコフ・モデルの学習方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2000352993A (ja) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007065533A (ja) * | 2005-09-02 | 2007-03-15 | Advanced Telecommunication Research Institute International | 音響モデル生成装置、およびプログラム |
WO2007069573A1 (ja) * | 2005-12-16 | 2007-06-21 | Matsushita Electric Industrial Co., Ltd. | 移動体用入力装置、及び方法 |
JP2007322984A (ja) * | 2006-06-05 | 2007-12-13 | Nippon Telegr & Teleph Corp <Ntt> | モデル学習方法、情報抽出方法、モデル学習装置、情報抽出装置、モデル学習プログラム、情報抽出プログラム、およびそれらプログラムを記録した記録媒体 |
JP2008129527A (ja) * | 2006-11-24 | 2008-06-05 | Nippon Telegr & Teleph Corp <Ntt> | 音響モデル生成装置、方法、プログラム及びその記録媒体 |
WO2008105263A1 (ja) * | 2007-02-28 | 2008-09-04 | Nec Corporation | 重み係数学習システム及び音声認識システム |
JP2008292789A (ja) * | 2007-05-25 | 2008-12-04 | Nippon Telegr & Teleph Corp <Ntt> | 学習データのラベル誤り候補抽出装置、その方法及びプログラム、その記録媒体 |
JP2009251510A (ja) * | 2008-04-10 | 2009-10-29 | Nippon Hoso Kyokai <Nhk> | 音響処理装置およびプログラム |
JP2010055030A (ja) * | 2008-08-29 | 2010-03-11 | Nippon Hoso Kyokai <Nhk> | 音響処理装置およびプログラム |
JP2022058556A (ja) * | 2021-01-12 | 2022-04-12 | バイドゥ ユーエスエイ エルエルシー | 自律走行車両を利用するモデル訓練及び車中検証のためのオーディオロギング |
-
1999
- 1999-06-14 JP JP11166569A patent/JP2000352993A/ja not_active Withdrawn
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4654452B2 (ja) * | 2005-09-02 | 2011-03-23 | 株式会社国際電気通信基礎技術研究所 | 音響モデル生成装置、およびプログラム |
JP2007065533A (ja) * | 2005-09-02 | 2007-03-15 | Advanced Telecommunication Research Institute International | 音響モデル生成装置、およびプログラム |
WO2007069573A1 (ja) * | 2005-12-16 | 2007-06-21 | Matsushita Electric Industrial Co., Ltd. | 移動体用入力装置、及び方法 |
US8280742B2 (en) | 2005-12-16 | 2012-10-02 | Panasonic Corporation | Input device and input method for mobile body |
JP4805279B2 (ja) * | 2005-12-16 | 2011-11-02 | パナソニック株式会社 | 移動体用入力装置、及び方法 |
JP2007322984A (ja) * | 2006-06-05 | 2007-12-13 | Nippon Telegr & Teleph Corp <Ntt> | モデル学習方法、情報抽出方法、モデル学習装置、情報抽出装置、モデル学習プログラム、情報抽出プログラム、およびそれらプログラムを記録した記録媒体 |
JP2008129527A (ja) * | 2006-11-24 | 2008-06-05 | Nippon Telegr & Teleph Corp <Ntt> | 音響モデル生成装置、方法、プログラム及びその記録媒体 |
JP4705557B2 (ja) * | 2006-11-24 | 2011-06-22 | 日本電信電話株式会社 | 音響モデル生成装置、方法、プログラム及びその記録媒体 |
WO2008105263A1 (ja) * | 2007-02-28 | 2008-09-04 | Nec Corporation | 重み係数学習システム及び音声認識システム |
US8494847B2 (en) | 2007-02-28 | 2013-07-23 | Nec Corporation | Weighting factor learning system and audio recognition system |
JP2008292789A (ja) * | 2007-05-25 | 2008-12-04 | Nippon Telegr & Teleph Corp <Ntt> | 学習データのラベル誤り候補抽出装置、その方法及びプログラム、その記録媒体 |
JP2009251510A (ja) * | 2008-04-10 | 2009-10-29 | Nippon Hoso Kyokai <Nhk> | 音響処理装置およびプログラム |
JP2010055030A (ja) * | 2008-08-29 | 2010-03-11 | Nippon Hoso Kyokai <Nhk> | 音響処理装置およびプログラム |
JP2022058556A (ja) * | 2021-01-12 | 2022-04-12 | バイドゥ ユーエスエイ エルエルシー | 自律走行車両を利用するモデル訓練及び車中検証のためのオーディオロギング |
JP7316394B2 (ja) | 2021-01-12 | 2023-07-27 | バイドゥ ユーエスエイ エルエルシー | 自律走行車両を利用するモデル訓練及び車中検証のためのオーディオロギング |
US11735205B2 (en) | 2021-01-12 | 2023-08-22 | Baidu Usa Llc | Audio logging for model training and onboard validation utilizing autonomous driving vehicle |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4301102B2 (ja) | 音声処理装置および音声処理方法、プログラム、並びに記録媒体 | |
US6985863B2 (en) | Speech recognition apparatus and method utilizing a language model prepared for expressions unique to spontaneous speech | |
US7299178B2 (en) | Continuous speech recognition method and system using inter-word phonetic information | |
US6934683B2 (en) | Disambiguation language model | |
US5333275A (en) | System and method for time aligning speech | |
US6539353B1 (en) | Confidence measures using sub-word-dependent weighting of sub-word confidence scores for robust speech recognition | |
EP2048655B1 (en) | Context sensitive multi-stage speech recognition | |
US8271282B2 (en) | Voice recognition apparatus, voice recognition method and recording medium | |
JP2005227758A (ja) | 音声特性に基づく電話発信者の自動識別 | |
US7653541B2 (en) | Speech processing device and method, and program for recognition of out-of-vocabulary words in continuous speech | |
US6502072B2 (en) | Two-tier noise rejection in speech recognition | |
Serrino et al. | Contextual Recovery of Out-of-Lattice Named Entities in Automatic Speech Recognition. | |
JP2016177045A (ja) | 音声認識装置および音声認識プログラム | |
JP2000352993A (ja) | 音声認識システム及びヒドン・マルコフ・モデルの学習方法 | |
JP3444108B2 (ja) | 音声認識装置 | |
KR102299269B1 (ko) | 음성 및 스크립트를 정렬하여 음성 데이터베이스를 구축하는 방법 및 장치 | |
JP2006031278A (ja) | 音声検索システムおよび方法ならびにプログラム | |
WO2010024052A1 (ja) | 音声認識仮説検証装置、音声認識装置、それに用いられる方法およびプログラム | |
JP4391179B2 (ja) | 話者認識システム及び方法 | |
US6438521B1 (en) | Speech recognition method and apparatus and computer-readable memory | |
JP2006139185A (ja) | 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体 | |
JP6497651B2 (ja) | 音声認識装置および音声認識プログラム | |
JP3456444B2 (ja) | 音声判定装置及び方法並びに記録媒体 | |
CN113284487B (zh) | 基于语音识别结果的匹配方法 | |
JPH11249688A (ja) | 音声認識装置およびその方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20060905 |