JP2008129318A - 言語モデル作成装置及び言語モデル作成プログラム並びに音声認識装置及び音声認識プログラム - Google Patents

言語モデル作成装置及び言語モデル作成プログラム並びに音声認識装置及び音声認識プログラム Download PDF

Info

Publication number
JP2008129318A
JP2008129318A JP2006314121A JP2006314121A JP2008129318A JP 2008129318 A JP2008129318 A JP 2008129318A JP 2006314121 A JP2006314121 A JP 2006314121A JP 2006314121 A JP2006314121 A JP 2006314121A JP 2008129318 A JP2008129318 A JP 2008129318A
Authority
JP
Japan
Prior art keywords
character string
word
language model
probability
partial character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006314121A
Other languages
English (en)
Other versions
JP4741452B2 (ja
Inventor
Shinichi Honma
真一 本間
Toru Imai
亨 今井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2006314121A priority Critical patent/JP4741452B2/ja
Publication of JP2008129318A publication Critical patent/JP2008129318A/ja
Application granted granted Critical
Publication of JP4741452B2 publication Critical patent/JP4741452B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】未知語についてカナ文字出力を可能にする言語モデルを作成する言語モデル作成装置及び言語モデル作成プログラム並びに未知語の前後の単語について認識誤りを少なくすることができる音声認識装置及び音声認識プラグラムを提供する。
【解決手段】言語モデル作成装置3は、音声認識する際に用いられる辞書に登録されていない単語である未知語を、カナ文字列で表現した言語モデルを作成するもので、単語蓄積手段13と、音節単位分割手段15と、隠れマルコフモデル推定手段17と、部分文字列選択手段19と、正規化手段21と、情報量基準値計算手段23と、言語モデル作成手段25と、を備えた。
【選択図】図1

Description

本発明は、音声認識の際に用いられる言語モデルを作成する言語モデル作成装置及び言語モデル作成プログラム並びに、当該言語モデルを用いて音声信号を認識する音声認識装置及び音声認識プログラムに関する。
従来、音声認識装置に組みこまれ、音声信号(入力音声)を音声認識する際に用いられる辞書において、この辞書に登録できる単語数には制限があり、あらゆる単語を登録することは不可能であるので、一般的によく知られた単語や辞書を作成する際に利用する学習データの中で頻度の高い単語だけを登録することになる。このため、特殊な専門用語等は、当該辞書に登録されていない単語、すなわち、未知語になってしまう場合がある。
例えば、「動物」に関する放送番組の音声を音声認識しようとした場合、読み上げられる特殊な動物名が未知語になることが多く、一例として、「オオアリクイ」、「オオスズメバチ」、「オオサンショウウオ」、「クロサンショウウオ」という4つの動物名が未知語となる場合を想定する。
この場合、これらの動物名について音声認識を可能にするためには、「オ」、「ア」、「リ」、「ク」、「イ」等の単語よりも短い「文字の単位」を、音声認識装置に組み込まれている辞書に登録するという手法が考えられるが、実際に音声認識実験を行ってみると、辞書に「文字の単位」を登録するだけでは認識精度があまり改善されないことが分かっている。
また、音声認識装置に入力された音声信号に、辞書に登録されていない単語(未知語)が含まれていた場合に、当該単語を認識可能にする手法として、「連続音声認識システムniNjaへの未知語処理の導入」(非特許文献1)や「複数のマルコフモデルを用いた階層化言語モデルによる未登録語認識」(非特許文献2)が提案されている。
この「連続音声認識システムniNjaへの未知語処理の導入」は、未知語の音韻系列を推定するために、辞書に登録されている単語(登録単語)の辞書引きプロセスと並行して音韻タイプライタを駆動するというものであるが、ここで用いられる言語モデルは文法で記述したものが想定されている。
また、「複数のマルコフモデルを用いた階層化言語モデルによる未登録語認識」は、未知語を収集して性質が近い未知語同士をまとめてクラスに分類し、当該クラスごとに個別の言語モデルを割り当てることで性能の向上を図るものである。なお、この手法で用いられる言語モデルは、一般的なクラス言語モデルを改良した「複数マルコフモデルに基づく階層化言語モデル」と呼ばれるものが想定されている。
「連続音声認識システムniNjaへの未知語処理の導入」日本音響学会講演論文集 平成4年3月 pp.115−116 「複数のマルコフモデルを用いた階層化言語モデルによる未登録語認識」電子情報通信学会論文誌D−II Vol.J870D−II No.12 pp.2014−2111 2004年12月
しかしながら、従来の手法において、音声信号(入力音声)中に未知語が含まれている場合、非特許文献1に開示されている手法では、言語モデルによる単語内や単語間の制約が少ないため、認識精度に限界があり、非特許文献2に開示されている手法では、高頻度の音節列2−gramを用いる方法であるが、あらゆるパターンの音節列2−gramを学習することは現実的に困難であるため、学習されていない未知語の認識ができず、未知語の前後の単語においても認識誤りが生じやすいという問題があり、音声認識装置のユーザの間では、未知語について正確に認識できなくとも、カナ文字で出力可能になることが望まれていた。
そこで、本発明では、前記した問題を解決し、未知語についてカナ文字出力を可能にする言語モデルを作成する言語モデル作成装置及び言語モデル作成プログラム並びに未知語の前後の単語について認識誤りを少なくすることができる音声認識装置及び音声認識プラグラムを提供することを目的とする。
前記課題を解決するため、請求項1に記載の言語モデル作成装置は、音声認識する際に用いられる辞書に登録されていない単語である未知語をカナ文字列で表現し、このカナ文字列の部分集合である部分文字列が出現する確率である出現確率及び部分文字列同士が連鎖する確率である状態遷移確率と、前記部分文字列とを対応付けることで、音声認識する際に前記未知語の言語スコアを得る言語モデルを作成する言語モデル作成装置であって、単語蓄積手段と、音節単位分割手段と、隠れマルコフモデル推定手段と、部分文字列選択手段と、正規化手段と、情報量基準値計算手段と、言語モデル作成手段と、を備える構成とした。
かかる構成によれば、言語モデル作成装置は、単語蓄積手段にカナ文字列に書き下された複数の単語を蓄積しており、音節単位分割手段によって、単語蓄積手段に蓄積されている単語を音節単位に分割する。続いて、言語モデル作成装置は、隠れマルコフモデル推定手段によって、音節単位分割手段で分割された各単語に含まれる連続する音節の組み合わせである部分文字列それぞれの出現確率と状態遷移確率とを、隠れマルコフモデルの学習アルゴリズムに基づいて推定する。そして、言語モデル作成装置は、部分文字列選択手段によって、音節単位分割手段で分割した1音節からなる全ての部分文字列と、隠れマルコフモデル推定手段で推定した出現確率の確率値の最上位から所定数の部分文字列とを選択する。そして、言語モデル作成装置は、正規化手段によって、選択した部分文字列の確率値の和が1となるように、選択した部分文字列の確率値を正規化する。
そして、言語モデル作成装置は、情報量基準値計算手段によって、正規手段で確率値を正規化した部分文字列について、予め設定した情報量基準の値を計算する。その後、言語モデル作成装置は、言語モデル作成手段によって、情報量基準値計算手段で計算された情報量基準の値が最小となる最適数の部分文字列の出現確率及び状態遷移確率と当該部分文字列とを対応付けた言語モデルを作成する。なお、言語モデル作成装置は、情報量基準値計算手段で計算した情報量基準の値が最小となる前記最適数を得るように、部分文字列選択手段で部分文字列の選択を変更することと、前記正規化手段で正規化することと、前記隠れマルコフモデル推定手段で部分文字列の出現確率と状態遷移確率とを、隠れマルコフモデルの学習アルゴリズムに基づいて再推定することとを繰り返している。
この言語モデル作成装置では、未知語を表現するために用いるカナ文字列の単位(長さ)と、このカナ文字列が出現する確率及び遷移する確率とを言語モデルとして学習する際に、この言語モデルを学習(作成)することを、蓄積手段に蓄積したカナで書き下された複数の単語(大量のテキスト)について、長さが所定文字数以下の文字列の単位に最大の確率値を与えるように当該単語を分割する問題と捉えている。そして、言語モデル作成装置は、この問題を一般的な隠れマルコフモデルの推定問題とみなして解き、解いた結果から得られるカナ文字列の単位と確率値とを隠れマルコフモデルで表現することで、言語モデルを作成している。
請求項2に記載の言語モデル作成装置は、請求項1に記載の言語モデル作成装置において、前記情報量基準に赤池情報量基準又は最小記述長原理に基づく基準のいずれかを用いることを特徴とする。
かかる構成によれば、言語モデル作成装置は、情報量基準に赤池情報量基準又は最小記述長原理に基づく基準のいずれかを用いることで、言語モデルのパラメータが最適化される。
請求項3に記載の音声認識装置は、請求項1又は請求項2に記載の言語モデル作成装置で作成された言語モデルと、音声認識する際に用いられる辞書に登録されている単語である既知語について、Nグラムモデルの学習アルゴリズムに基づき推定した既知語言語モデルとを使用して、入力された音声信号の認識を行う音声認識装置であって、蓄積手段と、特徴抽出手段と、正解探索手段と、を備える構成とした。
かかる構成によれば、音声認識装置は、蓄積手段に、言語モデル及び既知語言語モデルと、既知語の文字列及び発音と部分文字列の文字列及び発音に関する情報を収めた発音辞書と、音声信号の音韻韻律に関する情報をモデル化した音響モデルとを蓄積している。まず、音声認識装置は、特徴抽出手段によって、音声信号の言語的な特徴量及び音響的な特徴量を抽出する。そして、音声認識装置は、正解探索手段によって、特徴抽出手段で抽出した言語的な特徴量に基づいて、既知語の言語スコアである既知語言語スコアを既知語言語モデルからのNグラム確率値を用いて得、未知語の言語スコアである未知語言語スコアを言語モデルからの確率値及びNグラム確率値を用いて得、音響的な特徴量に基づいて音響モデルから音響スコアを得て、得られた既知語言語スコアと音響スコアとの合計と、未知語言語スコアと音響スコアとの合計とを比較した結果に基づいて、発音辞書に登録されている文字列を探索して、探索した文字列を認識結果として出力する。
なお、この音声認識装置は、一般的なNグラム言語モデル(Nグラムモデル)を用いた大語彙連続音声認識システムを前提としたものであり、従来のNグラムモデルを用いた音声認識装置の簡易な改修によって構成されたものである。また、この音声認識装置では、未知語を認識するためのカナ文字列を出力する隠れマルコフモデルによる未知語言語モデルと、既知語を認識するための既知語言語モデル(一般的なNグラムモデル)とを搭載し、音声信号の音声認識を実行する際には、既知語のスコアについてNグラムモデルを利用して計算し、未知語のスコアについてNグラムモデルと隠れマルコフモデルの組み合わせによって計算し、得られたスコアの値を利用して認識結果を推定しているので、Nグラムモデルの性能を劣化させることなく、音声信号において、未知語を含む音声区間についても認識精度を低下させることがない。
請求項4に記載の音声認識装置は、請求項3に記載の音声認識装置において、前記正解探索手段で出力された認識結果に含まれている未知語を表現したカナ文字列を、カナ漢字文字列に変換するカナ漢字文字列変換手段を備えることを特徴とする。
かかる構成によれば、音声認識装置は、カナ漢字文字列変換手段によって、カナ文字列を、漢字を含めたカナ漢字文字列に変換して出力することができ、単にカナ文字が羅列するよりは、漢字が含まれることで未知語の適切な推測が可能になる。
請求項5に記載の言語モデル作成プログラムは、音声認識する際に用いられる辞書に登録されていない単語である未知語をカナ文字列で表現し、このカナ文字列の部分集合である部分文字列が出現する確率である出現確率及び部分文字列同士が連鎖する確率である状態遷移確率と、前記部分文字列とを対応付けることで、音声認識する際に前記未知語の言語スコアを得る言語モデルを作成するために、前記カナ文字列に書き下された単語を複数蓄積する単語蓄積手段を備えたコンピュータを、音節単位分割手段、隠れマルコフモデル推定手段、部分文字列選択手段、正規化手段、情報量基準値計算手段、言語モデル作成手段、として機能させる構成とした。
かかる構成によれば、言語モデル作成プログラムは、単語蓄積手段に蓄積されている単語を音節単位に分割し、隠れマルコフモデル推定手段によって、音節単位分割手段で分割された各単語に含まれる音節の連続する組み合わせである部分文字列それぞれの出現確率と状態遷移確率とを、隠れマルコフモデルの学習アルゴリズムに基づいて推定する。そして、言語モデル作成プログラムは、部分文字列選択手段によって、音節単位分割手段で分割された1音節からなる全ての部分文字列と、隠れマルコフモデル推定手段で推定された出現確率の確率値の最上位から所定数の部分文字列とを選択し、正規化手段によって、部分文字列選択手段で選択した部分文字列の確率値の和が1となるように、選択した部分文字列の前記確率値を正規化する。そして、言語モデル作成プログラムは、情報量基準値計算手段によって、正規化手段で確率値を正規化した部分文字列について、予め設定した情報量基準の値を計算し、言語モデル作成手段によって、情報量基準値計算手段で計算された情報量基準の値が最小となる部分文字列選択手段で選択された部分文字列について、当該部分文字列の出現確率及び状態遷移確率と当該部分文字列とを対応付けた言語モデルを作成する。
請求項6に記載の音声認識プログラムは、請求項1又は請求項2に記載の言語モデル作成装置で作成された言語モデルと、音声認識する際に用いられる辞書に登録されている単語である既知語について、Nグラムモデルの学習アルゴリズムに基づき推定した既知語言語モデルとを使用して、入力された音声信号の認識を行うために、前記言語モデル及び前記既知語言語モデルと、前記既知語の文字列及び発音と部分文字列の文字列及び発音に関する情報を収めた発音辞書と、音声信号の音韻韻律に関する情報をモデル化した音響モデルとを蓄積している蓄積手段を備えたコンピュータを、特徴抽出手段、正解探索手段、として機能させる構成とした。
かかる構成によれば、音声認識プログラムは、特徴抽出手段によって、音声信号の言語的な特徴量及び音響的な特徴量を抽出し、正解探索手段によって、特徴抽出手段で抽出した言語的な特徴量に基づいて、既知語の言語スコアである既知語言語スコアを既知語言語モデルからのNグラム確率値を用いて得、未知語の言語スコアである未知語言語スコアを言語モデルからの確率値及びNグラム確率値を用いて得、音響的な特徴量に基づいて音響モデルから音響スコアを得て、得られた既知語言語スコアと音響スコアとの合計と、未知語言語スコアと音響スコアとの合計とを比較した結果に基づいて、発音辞書に登録されている文字列を探索して、探索した文字列を認識結果として出力する。
請求項1、5に記載の発明によれば、未知語を表現するために用いるカナ文字列について、所定文字数以下の文字列に最大の確率値を与えるように単語を分割する問題と捉え、この問題を隠れマルコフモデルの推定問題とみなして解き、解いた結果から得られるカナ文字列の単位と確率値とを隠れマルコフモデルで表現することで、当該未知語についてカナ文字出力を可能にする言語モデルを作成することができる。
請求項2に記載の発明によれば、情報量基準に一般的な赤池情報量基準又は最小記述長原理のいずれかを用いることで、汎用的に言語モデルのパラメータを最適化することができる。
請求項3、6に記載の発明によれば、既知語について既知語言語モデルを用い、未知語について未知語言語モデルを用いることで、未知語の前後の単語について認識誤りを少なくすることができる。
請求項4に記載の発明によれば、カナ文字列を、漢字を含めたカナ漢字文字列に変換して出力することができ、単にカナ文字が羅列するよりは、漢字が含まれることで未知語の適切な推測を行うことができる。
次に、本発明の実施形態について、適宜、図面を参照しながら詳細に説明する。
図1は音声認識装置(言語モデル作成装置を内包)のブロック図である。この図1に示すように、音声認識装置1は、言語モデル作成装置3を備えると共に、特徴抽出手段5と、蓄積手段7と、正解探索手段9と、カナ漢字文字列変換手段11とを備えている。この音声認識装置1は、音声信号(入力音声)を入力として、認識結果(認識単語列)を出力するものである。この音声認識装置1の説明に先立ち、言語モデル作成装置3の説明を行う。
(言語モデル作成装置の構成)
言語モデル作成装置3は、辞書(発音辞書)に登録されていない単語である未知語を、カナ文字列として出力可能な言語モデル(未知語言語モデル)を、隠れマルコフモデルとして作成するもので、単語蓄積手段13と、音節単位分割手段15と、隠れマルコフモデル推定手段17と、部分文字列選択手段19と、正規化手段21と、情報量基準値計算手段23と、言語モデル作成手段25とを備えている。
単語蓄積手段13は、カナ文字(単にカナという)で書き下された大量の単語データ(又は学習用のテキストデータ)を蓄積しているもので、一般的な記録媒体(ハードディスク、メモリ等)によって構成されている。
音節単位分割手段15は、単語蓄積手段13に蓄積されている単語を、音節単位に分割するものである。例えば、単語が「オオアリクイ」であった場合、「オ」、「オ」、「ア」、「リ」、「ク」、「イ」と分割する。
隠れマルコフモデル推定手段17は、音節単位分割手段15で分割された各単語に含まれる音節の連続する組み合わせである部分文字列(サブワード)それぞれについて、出現確率と状態遷移確率とを、隠れマルコフモデルの学習アルゴリズムに基づいて推定するものである。例えば、単語が「アリクイ」の場合、「ア」、「リ」、「ク」、「イ」、「アリ」、「リク」、「クイ」、「アリク」、「リクイ」、「アリクイ」の10個の部分文字列について、出現確率と状態遷移確率とを推定する。
ここで、単語蓄積手段13に蓄積されている大量の単語データ(又は学習用のテキストデータ)の中の単語の集合をVと記述し、このVに含まれる単語をwと記述し、この単語wに含まれる部分文字列をoと記述する。そして、単語wの部分文字列の集合(単語wの読みから得られたカナ文字列の集合)を記号列o Tw=o,・・・,oTwであるとした場合、隠れマルコフモデルの学習アルゴリズムに基づいて推定するとは、条件付確率P(o Tw|M)を全ての単語について考慮した次に示す数式(1)を最大にするような言語モデルM(未知語言語モデル)を推定することである。すなわち、言語モデルMは、「全ての未知語(w←V)の出現確率を記録したもの」である。
Figure 2008129318
ここで言語モデルMの一例を、図2を参照して説明する。この図2に示すように、言語モデルMとして、left−to−right型の隠れマルコフモデル(HMM)を想定する。この図2では、記号列o Twが入力される前の初期状態が「状態0」であることを前提とし、この言語モデルMが、o,o,・・・,という順で一つずつ記号を出力していき、最終の記号oTwが出力された後、「状態S」(S=3)の最終状態に遷移して終了することを示している。なお、時刻tまでにt個の記号o が出力された時点では、状態遷移確率aijと、「状態1」と「状態2」で得られるため生成可能な任意の部分記号列oの出現確率とによりt個の記号o の出現確率を計算することができる。
そして、各状態から出力される記号列o Twの任意の部分記号列oの長さの最大値をNとした場合、言語モデルMが時刻tまでにt個の記号o を生成して状態j(j≦S)に到達する前向き確率α (w)(j)は、次に示す数式(2)により再帰的に計算することができる。以下、単語の集合Vに含まれる単語wそれぞれについて、得られる確率(α、β、γ)を区別するために、添え字を付すこととする。
Figure 2008129318
この数式(2)において、αの初期値は、t=0,j=0のときα (w)(j)=1、t=0,j≠0のときα (w)(j)=0とする。ちなみに、一般的な前向き確率の計算式では、各状態から出力される記号(シンボル)は、oだけを考慮するのが通常であるが、数式(2)では、各状態からot−1 、ot−2 、・・・、ot−(N−1) という長さN以下の任意の長さの部分文字列が出力されることを考慮している点に特徴がある。
また、数式(2)の前向き確率α (w)(j)の定義より、P(o Tw|M)は次に示す数式(3)によって求められる。
Figure 2008129318
なお、この数式(3)が時刻Twでなく、時刻Tw+1におけるαの和から導かれる理由は、図2に示したHMMの例が、最終の記号oTwが出力された後に、時刻Tw+1において、「状態S」の最終状態に到達するように定義しているためである。ちなみに、本発明と類似した手法として、「ICASSP 1995 pp.169−172」によるものがあるが、この類似した手法での前提は「状態iにおいて固定長nの記号列が出力され、全ての状態遷移確率は等確率」となっており、本発明との違いは、各状態から出力される記号列oの長さがN以下の可変長であり、状態遷移確率が等確率に限定していない点である。
次に、前向き確率α (w)(j)の計算方法の具体例を、図3を参照して説明する。
この図3は、トレリス(トレリス線図)と呼ばれているものであり、数式(2)において、t=4,j=2のときの前向き確率α (w)(j)の値を計算する様子を示したものである。なお、この図3において、HMM(言語モデルM)に入力した記号列(文字列)o Twは、“abcde”であり、各状態(状態1と状態2)において出力可能な部分記号列(部分文字列)の長さの最大値Nを3と設定している。
ここで、この記号列(文字列)o Twを単語wとみなして、Tw=3とした場合の例で示すと、w=[o]、[o][o]、[o][o]、[o][o][o]([]は部分文字列であることを示す)のようなパターンが存在することを前提としている。
この図3に示すように、t=4のときに、HMM(言語モデルM)に、4番目の文字dが入力され、このとき、各状態からはdからN(=3)以内において時刻をさかのぼって入力された文字dの確率がP(d)、文字列cdの確率がP(cd)、文字列bcdの確率がP(bcd)でそれぞれ出力される。
文字dを出力する直前の時刻がt=3であり、文字列cdを出力する直前の時刻がt=2であり、文字列bcdを出力する直前の時刻がt=1であり、それぞれの文字又は文字列が状態1及び状態2の両方において、出力された後に、現在の状態j=2に至っている。これらを考慮して、t=4,j=2のときの前向き確率α (w)(j)は、直前の時刻の各状態におけるαの値を利用することにより、次に示す数式(4)のように計算される。
Figure 2008129318
この数式(4)では、数式(2)と同様にして、時刻τでoτ Twを生成して状態i(≦S)に到達する後向き確率βτ (w)(i)は、次に示す数式(5)によって、再帰的に計算することができる。
Figure 2008129318
この数式(5)において、βの初期値は、t=Tw+1,j=Sのときβ (w)(j)=1、t=Tw+1,j≠0のときβ (w)(j)=0とする。なお、この数式(5)においても、数式(2)と同様に、oだけを考慮するのではなく、各状態からot−1 、ot−2 、・・・、ot−(N−1) という長さN以下の任意の長さの部分文字列が出力されることを考慮している点に特徴がある。
次に、記号列o Tw=o,・・・,oTwの出力に対し、状態iから状態jへの遷移が時刻tにおいて生じた確率γ (w)(i,j)を次に示す数式(6)によって求める。
Figure 2008129318
また、この数式(6)において、γ (w)(i)を次に示す数式(7)のように定義する。このγ (w)(i)は、時刻tに状態iに滞在した確率である。
Figure 2008129318
γ(i,j)及びγ (w)(i)を用いて、HMMの遷移確率(状態遷移確率)のパラメータaijの再推定を次に示す数式(8)のように行うことができる。
Figure 2008129318
また、記号o Twから生成される長さn(≦N)の任意の部分文字列をoとしたとき、HMMの状態jにおける出現確率の再推定は、次に示す数式(9)のように行うことができる。
Figure 2008129318
なお、実際に、HMMの遷移確率(状態遷移確率)aijと出現確率P(o)を求める際には、後記するように、aijとP(o)に適当な初期値を設定し、数式(8)と数式(9)とを用いて、各パラメータの再推定を繰り返し実行することになる。図1に戻る。
以上のように、隠れマルコフモデル推定手段17では、これらの処理によって、HMMの各パラメータの確率値(出現確率の確率値及び状態遷移確率の確率値)を推定している。つまり、隠れマルコフモデル推定手段17では、音節単位分割手段15で分割された単語データ(学習用のテキストデータ)に含まれる長さN以下の全てのカナ文字列(部分文字列、サブワード)の集合が入力された場合に、各状態におけるサブワードの出現確率と状態遷移確率(状態間の遷移確率)とを求めている。
部分文字列選択手段19は、音節単位分割手段15で分割された1音節の全ての部分文字列と、隠れマルコフモデル推定手段17で推定されたHMMの各パラメータにおける出現確率の確率値が上位となる所定文字数の部分文字列とを選択するものである。
正規化手段21は、1音節の部分文字列の出現確率の確率値と所定文字数の部分文字列の出現確率の確率値との和が1となるように、部分文字列選択手段19で選択された部分文字列の確率値を正規化するものである。なお、この正規化手段21は、情報量基準値計算手段23による計算結果(情報量基準値)によって、隠れマルコフモデル推定手段17で推定されたサブワードの出現確率の確率値が上位となる所定文字数が変更されることにより、繰り返し実行される。
情報量基準値計算手段23は、最小記述長原理(MDL)に基づいて、正規化手段21で正規化されたHMMの情報量基準値を計算するものである。この情報量基準値計算手段23では、次に示す数式(10)により、情報量基準値を計算している。そして、数式(10)によって計算された情報量基準値が最小になるとき、最適な言語モデルのパラメータの選択がなされたことになる。
Figure 2008129318
この数式(10)において、Xiが単語蓄積手段13に蓄積されるすべての単語w(単語データ)(=o Tw)であり、Nxがこの単語wの個数であり、言語モデルMのパラメータ数がmである。そして、このパラメータ数mが単語wから生成される長さN以下のカナ文字列(サブワード)oの数である。
つまり、この情報量基準値計算手段23では、計算した情報量基準値を記憶しておき、隠れマルコフモデル推定手段17で出現確率及び状態遷移確率が再推定され、正規化手段21で再正規化され、繰り返し情報量基準値を計算していくことで、最小の情報量基準値が得られた言語モデルのパラメータを特定することになる。
なお、この実施の形態では、情報量基準値計算手段23は、最小記述長原理(MDL)に基づいて、情報量基準値を計算しているが、これに限定されず、例えば、赤池情報量基準(AIC)に基づいて、情報量基準値を計算してもよい。
言語モデル作成手段25は、情報量基準値計算手段23で得られた言語モデルのパラメータから言語モデルを作成し、未知語言語モデルとして蓄積手段7に出力するものである。
ここで、隠れマルコフモデル推定手段17、部分文字列選択手段19、正規化手段21及び情報量基準値計算手段23で繰り返し実行される言語モデルのパラメータの特定の仕方(パラメータの最適化の手順(1)〜(7))について説明する。
(1)隠れマルコフモデル推定手段17において、数式(8)及び数式(9)により、HMMの各パラメータの確率値(出現確率の確率値及び状態遷移確率の確率値)を推定する。
(2)部分文字列選択手段19において、隠れマルコフモデル推定手段17で推定された出現確率の確率値により上位m個のパラメータを選択する(1音節の部分文字列と出現確率の確率値が上位となる所定文字数の部分文字列とを選択する)。
(3)正規化手段21において、m個のパラメータの出現確率の確率値の和が1になるように、確率値の正規化を行う。
(4)隠れマルコフモデル推定手段17において、正規化手段21で正規化したパラメータを初期値として、数式(8)及び数式(9)により、HMMの各パラメータの確率値(出現確率の確率値及び状態遷移確率の確率値)を再推定する。
(5)情報量基準値計算手段23において、数式(10)により、情報量基準値(MDL)を計算する。
(6)正規化手段21において、パラメータ数mを変えながら、(1)〜(5)の手順を繰り返して、情報量基準値計算手段23において、パラメータ数mの値と情報量基準値(MDL)との関係を求め、情報量基準値(MDL)が最小となるときのmの値を特定する。
(7)情報量基準値計算手段23において、m個のパラメータを、情報量基準値(MDL)から得た最適なパラメータとみなして、言語モデル作成手段25に出力する。
なお、正規化手段21において、上位m個のパラメータを選択する際(1音節の部分文字列と出現確率の確率値が上位となる所定文字数の部分文字列とを選択する際)に、選択された部分文字列(サブワード)の組み合わせでは、表現できない単語が発生する可能性がある。すなわち、数式(10)のP(Xi|M)の値が0になるために、この数式(10)による計算が不能になる場合がある。そこで、この言語モデル作成装置3では、パラメータとして、あらゆる単語を表現できる部分文字列(サブワード)の最小単位を、出現確率によらずに最低限保持しておく必要が生じる。
部分文字列の理論上の最小単位は「1文字」であり、部分文字列の数はこの「1文字」を順に組み合わせた全パターン数になる。しかし、音声認識装置1で処理される際に、部分文字列が音素と対応付けられている必要があるため、部分文字列の最小単位を「1文字」ではなく「1音節」(例えば、“キャ”等の拗音や、“アー”等の長音は分割しない)とし、この場合の部分文字列の数は「1音節」を順に組み合わせた全パターンの数になる。
また、ここで参考までに、言語モデル作成装置3によって、HMM(言語モデル)を作成した例(パラメータ選択を行う実験)について説明する。
単語蓄積手段13に蓄積する単語データとして、日本語の学習テキストから得られた単語の読みを用い、言語モデル作成装置3によって、HMM(言語モデル)のパラメータ選択を行う実験(部分文字列のパターンを選択する実験)をしたところ、約30,000個存在した部分文字列のパターンから約8300個の部分文字列のパターンが選択され、結果としてHMM(言語モデル)のパターン数を全パターン数の約3割に削減することができた。
さらに具体的な単語の例に挙げて説明する。「オオアリクイ」、「オオスズメバチ」、「オオサンショウウオ」、「クロサンショウウオ」という単語の場合、部分文字列の最大長N=5として作成したHMMのアルゴリズムを用いて、出現確率が最大となるように、これらの単語を言語モデル作成装置3によって、分割する実験を行ったところ、「オオ|アリクイ」、「オオ|スズメバチ」、「オオサ|ンショウウオ」、「クロ|サ|ンショウウオ」のように分割された。
この言語モデル作成装置3によれば、未知語を表現するために用いるカナ文字列について、所定文字数以下の文字列に最大の確率値を与えるように単語を分割する問題と捉え、隠れマルコフモデル推定手段17によって、この問題を隠れマルコフモデルの推定問題とみなして解き、解いた結果から得られるカナ文字列の単位と確率値とを隠れマルコフモデルで表現することで、当該未知語についてカナ文字出力を可能にする言語モデルを作成することができる。
また、この言語モデル作成装置3によれば、情報量基準値計算手段23によって、情報量基準に一般的な赤池情報量基準又は最小記述長原理に基づく基準のいずれかを用いることで、汎用的に言語モデルのパラメータを最適化することができる。
(音声認識装置の構成)
これより、音声認識装置1の他の構成について説明する。
特徴抽出手段5は、入力された音声信号を前処理するもので、具体的には、当該音声信号の音響的な特徴量を、特徴量ベクトルとして抽出するものである。この特徴量ベクトルの系列には、典型的な特徴量であるケプストラム係数の1種のMFCC(Mel−Frequency Cepstrum Coefficients)といった要素が含まれている。
蓄積手段7は、音声認識に関する各種データ及び当該各種データの設定値を蓄積しているもので、一般的な記録媒体によって構成されている。各種データは、音響モデル、発音辞書、言語モデルである。
音響モデルは、音声信号の音韻韻律に関する情報をモデル化したものである。
発音辞書は、入力された音声信号に含まれることが予測される単語(一般的な単語、既知語)とその読み(音素)との関係を記録したものであり、さらに、未知語を表現するためのカナ文字列とその読み(音素)との関係を記録したものである。
言語モデルは、既知語言語モデルと未知語言語モデルとからなり、既知語言語モデルは、入力された音声信号に含まれることが予測される単語(一般的な単語、既知語)の連鎖の確率(接続確率)を記録したものであり、未知語言語モデルは、未知語同士の連鎖の確率(接続確率)を記録したものである。さらに、図示を省略したが、言語モデルは、既知語と未知語間の連鎖の確率(接続確率)や、未知語を表現するために用いられるカナ文字列の出現確率や接続確率も記録している。
なお、既知語と未知語間の連鎖の確率(接続確率)は、単語蓄積手段13に含まれる単語で蓄積手段7の発音辞書に含まれていない単語を、例えば<UNK>という文字に置換し、そして、蓄積手段7の発音辞書に含まれる単語と、<UNK>との接続確率を計算することで求められる。
正解探索手段9は、音声認識を実行するもので、音響スコアと言語スコア(既知語言語スコア及び未知語言語スコア)とを得て、これらの合計スコアに基づいて、発音辞書に含まれている候補(音素)を探索し、認識結果(認識単語列)を出力するものである。一般的な音声認識は、音声信号から得られる特徴量ベクトルの系列Xが与えられた下で、条件付確率P(W|X)を最大化する単語系列Wを決定する問題として定式化されており、ここで条件付確率P(W|X)は次に示す数式(11)により計算される。
Figure 2008129318
この数式(11)において、分母が単語系列Wによらず、一定であることから、条件付確率P(W|X)を最大化する単語系列Wは次に示す数式(12)により与えられる。
Figure 2008129318
ここで、音響スコアは、条件付確率P(W|X)が単語系列Wの音響的な表れとして、特徴量ベクトルの系列Xの観測される確率(音響確率)を意味しており、この確率の対数値である。なお、音響スコアは、蓄積手段7に蓄積されている音響モデルを参照して計算される。
また、言語スコアは、P(W)が単語系列W自体の出現する確率(言語確率)を意味しており、この確率の対数値である。なお、言語スコアは、蓄積手段7に蓄積されている言語モデル(既知語言語モデル及び未知語言語モデル)を参照して計算される。
言語モデルとして、Nグラム言語モデルを用いる場合は、言語スコア(既知語言語スコア)は言語確率P(w|h)を用いて計算することができる。この言語確率P(w|h)において、wが正解単語の候補であり、hはwの直前のNグラムの履歴(N−1個の単語列)を指している。
ここで、uを音声認識装置1の発音辞書に登録されていない単語(未知語)とした場合、未知語uの言語スコア(未知語言語スコア)を推定する際には、次に示す数式(13)を利用する。
Figure 2008129318
この数式(13)において、<UNK>は未知語クラス、Mは前記した未知語を表現するHMM(言語モデル)を示している。なお、未知語クラス<UNK>は発音辞書に含まれていない単語を、すべて「<UNK>」という語に置換することによって得られるものを指している。
ここで、未知語uがQn個の部分文字列(サブワード)s,・・・,sQnからなるものであり、このQn個の部分文字列が言語モデルMの状態遷移系列Q=q,q,・・・,qQn,qQn+1から出力されるものとすれば、P(u|M)は次に示す数式(14)によって計算される。
Figure 2008129318
この数式(14)において、未知語uを構成する部分文字列(サブワード)のパターンとして様々組み合わせ(状態系列)を想定できるが、全ての系列パターンを考慮した上で、最大の確率値を与える系列(Viterbi系列)が出力される確率値をP(u|M)の値として採用することを意味している。なお、qはHMMの初期状態を、qQn+1はHMMの最終状態を示しており、図2で説明した例では、qは「状態0」、qQn+1は「状態3」に対応している。また、P(q|qi−1)は数式(8)で計算された状態遷移確率aijを参照し、P(s|q)は数式(9)で計算された出現確率P(o)を参照して求めればよい。
この数式(14)を用いることにより、音声認識装置1は、認識結果(認識単語列)として、未知語区間をカナ文字列で表したものを出力することが可能になる。
カナ漢字文字列変換手段11は、正解探索手段9から出力された認識結果(認識単語列)について、未知語区間をカナ漢字文字列(未知語区間カナ漢字混在認識単語列)に変換して出力するものである。
この音声認識装置1によれば、正解探索手段9によって、特徴量ベクトルが抽出された音声信号の音声認識を行う際に、既知語について既知語言語モデルを用い、未知語について未知語言語モデルを用いることで、未知語の前後の単語について認識誤りを少なくすることができる。
また、この音声認識装置1によれば、カナ漢字文字列変換手段11によって、認識結果の未知語区間であるカナ文字列を、漢字を含めたカナ漢字文字列に変換して出力することができ、単にカナ文字が羅列するよりは、漢字が含まれることで未知語の適切な推測を行うことができる。
(言語モデル作成装置の動作)
次に、図4に示すフローチャートを参照して、言語モデル作成装置3の動作について説明する(適宜、図1参照)。
まず、言語モデル作成装置3は、音節単位分割手段15によって、単語蓄積手段13に蓄積されているカナ文字列に書き下された単語(カナ表記の単語)を音節単位に分割する(ステップS1)。
続いて、言語モデル作成装置3は、隠れマルコフモデル推定手段17によって、HMM学習アルゴリズムにより、各単語から生成される部分文字列(サブワード)の出現確率と状態遷移確率を推定する(ステップS2)。
そして、言語モデル作成装置3は、部分文字列選択手段19及び正規化手段21によって、1音節の全ての部分文字列と出現確率の確率値が上位n個の部分文字列とを選択し、これら選択した1音節の全ての部分文字列の出現確率の確率値と上位n個の部分文字列の出現確率の確率値との和が1となるように部分文字列の確率値を正規化する(ステップS3)。
そうすると、言語モデル作成装置3は、隠れマルコフモデル推定手段17によって、HMM学習アルゴリズムにより、正規化手段21で正規化した確率値を初期値として、数式(8)及び数式(9)を用いて、選択された部分文字列の出現確率と状態遷移確率を再推定する(ステップS4)。
そして、言語モデル作成装置3は、情報量基準値計算手段23によって、nに対応するMDLを計算し、記憶しておく(ステップS5)。そして、言語モデル作成装置3は、計算したMDLを比較し、最小か否かを判定する(ステップS6)。言語モデル作成装置3は、情報量基準値計算手段23によって、MDLが最小と判定しなかった場合(ステップS6、No)、正規化手段21によって、nの値を変更し部分文字列を選択し直して(ステップS7)、ステップS3に戻り、選択し直した部分文字列の出現確率を再正規化し、ステップS4において、当該部分文字列の出現確率と状態遷移確率を再推定する。なお、最初は比較するMDLがないので、そのままステップS7に進む。
その後、言語モデル作成装置3は、これらステップS3〜ステップS5を繰り返した後、MDLが最小と判定した場合(ステップS6、Yes)には、言語モデル作成手段25によって、言語モデルを作成する(ステップS8)。
(音声認識装置の動作)
次に、図5に示すフローチャートを参照して、音声認識装置1の動作について説明する(適宜、図1参照)。
まず、音声認識装置1は、音声信号を入力すると(ステップS11)、特徴抽出手段5によって、当該音声信号の特徴量ベクトル(特徴量)を抽出する(ステップS12)。
そして、音声認識装置1は、正解探索手段9によって、蓄積手段7に蓄積されている音響モデル、発音辞書及び言語モデル(既知語言語モデル及び未知語言語モデル)を参照して、既知語言語スコアと音響スコアとの合計スコアと、未知語言語スコアと音響スコアとの合計スコアとを比較した結果に基づいて、認識結果(認識単語列)を出力する(ステップ13)。
そうすると、音声認識装置1は、未知語区間をカナ文字列で表した認識結果をそのまま出力するか否かを判定し(ステップS14)、そのまま出力すると判定した場合(ステップS14、Yes)には、そのまま出力し動作を終了する。また、音声認識装置1は、そのまま出力すると判定しなかった場合(ステップS14、No)、カナ漢字文字列変換手段11によって、未知語区間をカナ漢字文字列に変換した認識結果(未知語区間カナ漢字混在認識単語列)を出力(ステップS15)して動作を終了する。
以上、本発明の実施形態について説明したが、本発明は前記実施形態には限定されない。例えば、本実施形態では、言語モデル作成装置3及び音声認識装置1として説明したが、これらの各構成の処理を、コンピュータ言語で記述した言語モデル作成プログラム、音声認識プログラムとして構成することも可能である。これらの場合、言語モデル作成装置3及び音声認識装置1と同様の効果を奏する。
本発明の実施形態に係る音声認識装置のブロック図である。 言語モデルの一例を示した図である。 トレリス(線図)の一例を示した図である。 言語モデル作成装置の動作を示したフローチャートである。 音声認識装置の動作を示したフローチャートである。
符号の説明
1 音声認識装置
3 言語モデル作成装置
5 特徴抽出手段
7 蓄積手段
9 正解探索手段
11 カナ漢字文字列変換手段
13 単語蓄積手段
15 音節単位分割手段
17 隠れマルコフモデル推定手段
19 部分文字列選択手段
21 正規化手段
23 情報量基準計算手段
25 言語モデル作成手段

Claims (6)

  1. 音声認識する際に用いられる辞書に登録されていない単語である未知語をカナ文字列で表現し、このカナ文字列の部分集合である部分文字列が出現する確率である出現確率及び部分文字列同士が連鎖する確率である状態遷移確率と、前記部分文字列とを対応付けることで、音声認識する際に前記未知語の言語スコアを得る言語モデルを作成する言語モデル作成装置であって、
    前記カナ文字列に書き下された単語を複数蓄積する単語蓄積手段と、
    この単語蓄積手段に蓄積されている単語を音節単位に分割する音節単位分割手段と、
    この音節単位分割手段で分割された各単語に含まれる連続する音節の組み合わせである部分文字列それぞれの出現確率と状態遷移確率とを、隠れマルコフモデルの学習アルゴリズムに基づいて推定する隠れマルコフモデル推定手段と、
    前記音節単位分割手段で分割した1音節からなる全ての部分文字列と、前記隠れマルコフモデル推定手段で推定した出現確率の確率値の最上位から所定数の部分文字列とを選択する部分文字列選択手段と、
    この部分文字列選択手段で選択した部分文字列の確率値の和が1となるように、選択した部分文字列の前記確率値を正規化する正規化手段と、
    この正規化手段で確率値を正規化した部分文字列について、予め設定した情報量基準の値を計算する情報量基準値計算手段と、
    この情報量基準値計算手段で計算された情報量基準の値が最小となる前記部分文字列選択手段で選択された部分文字列について、当該部分文字列の出現確率及び状態遷移確率と当該部分文字列とを対応付けた前記言語モデルを作成する言語モデル作成手段と、
    を備えることを特徴とする言語モデル作成装置。
  2. 前記情報量基準に赤池情報量基準又は最小記述長原理に基づく基準のいずれかを用いることを特徴とする請求項1に記載の言語モデル作成装置。
  3. 請求項1又は請求項2に記載の言語モデル作成装置で作成された言語モデルと、音声認識する際に用いられる辞書に登録されている単語である既知語について、Nグラムモデルの学習アルゴリズムに基づき推定した既知語言語モデルとを使用して、入力された音声信号の認識を行う音声認識装置であって、
    前記言語モデル及び前記既知語言語モデルと、前記既知語の文字列及び発音並びに部分文字列の文字列及び発音に関する情報を収めた発音辞書と、音声信号の音韻韻律に関する情報をモデル化した音響モデルとを蓄積している蓄積手段と、
    前記音声信号の言語的な特徴量及び音響的な特徴量を抽出する特徴抽出手段と、
    この特徴抽出手段で抽出した言語的な特徴量に基づいて、既知語の言語スコアである既知語言語スコアを前記既知語言語モデルからのNグラム確率値を用いて得、未知語の言語スコアである未知語言語スコアを前記言語モデルからの確率値及びNグラム確率値を用いて得、前記音響的な特徴量に基づいて前記音響モデルから音響スコアを得て、得られた既知語言語スコアと音響スコアとの合計と、未知語言語スコアと音響スコアとの合計とを比較した結果、合計スコアの大きい方に基づいて、前記発音辞書に登録されている文字列を探索して、探索した文字列を認識結果として出力する正解探索手段と、
    を備えることを特徴とする音声認識装置。
  4. 前記正解探索手段で出力された認識結果に含まれている未知語を表現したカナ文字列を、カナ漢字文字列に変換するカナ漢字文字列変換手段を備えることを特徴とする請求項3に記載の音声認識装置。
  5. 音声認識する際に用いられる辞書に登録されていない単語である未知語をカナ文字列で表現し、このカナ文字列の部分集合である部分文字列が出現する確率である出現確率及び部分文字列同士が連鎖する確率である状態遷移確率と、前記部分文字列とを対応付けることで、音声認識する際に前記未知語の言語スコアを得る言語モデルを作成するために、前記カナ文字列に書き下された単語を複数蓄積する単語蓄積手段を備えたコンピュータを、
    前記単語蓄積手段に蓄積されている単語を音節単位に分割する音節単位分割手段、
    この音節単位分割手段で分割された各単語に含まれる連続する音節の組み合わせである部分文字列それぞれの出現確率と状態遷移確率とを、隠れマルコフモデルの学習アルゴリズムに基づいて推定する隠れマルコフモデル推定手段、
    前記音節単位分割手段で分割された1音節からなる全ての部分文字列と、前記隠れマルコフモデル推定手段で推定された出現確率の確率値の最上位から所定数の部分文字列とを選択する部分文字列選択手段、
    この部分文字列選択手段で選択した部分文字列の確率値の和が1となるように、選択した部分文字列の前記確率値を正規化する正規化手段、
    この正規化手段で確率値を正規化した部分文字列について、予め設定した情報量基準の値を計算する情報量基準値計算手段、
    この情報量基準値計算手段で計算された情報量基準の値が最小となる前記部分文字列選択手段で選択された部分文字列について、当該部分文字列の出現確率及び状態遷移確率と当該部分文字列とを対応付けた前記言語モデルを作成する言語モデル作成手段、
    として機能させることを特徴とする言語モデル作成プログラム。
  6. 請求項1又は請求項2に記載の言語モデル作成装置で作成された言語モデルと、音声認識する際に用いられる辞書に登録されている単語である既知語について、Nグラムモデルの学習アルゴリズムに基づき推定した既知語言語モデルとを使用して、入力された音声信号の認識を行うために、前記言語モデル及び前記既知語言語モデルと、前記既知語の文字列及び発音並びに部分文字列の文字列及び発音に関する情報を収めた発音辞書と、音声信号の音韻韻律に関する情報をモデル化した音響モデルとを蓄積している蓄積手段を備えたコンピュータを、
    前記音声信号の言語的な特徴量及び音響的な特徴量を抽出する特徴抽出手段、
    この特徴抽出手段で抽出した言語的な特徴量に基づいて、既知語の言語スコアである既知語言語スコアを前記既知語言語モデルからのNグラム確率値を用いて得、未知語の言語スコアである未知語言語スコアを前記言語モデルからの確率値及びNグラム確率値を用いて得、前記音響的な特徴量に基づいて前記音響モデルから音響スコアを得て、得られた既知語言語スコアと音響スコアとの合計と、未知語言語スコアと音響スコアとの合計とを比較した結果、合計スコアの大きい方に基づいて、前記発音辞書に登録されている文字列を探索して、探索した文字列を認識結果として出力する正解探索手段、
    として機能させることを特徴とする音声認識プログラム。
JP2006314121A 2006-11-21 2006-11-21 言語モデル作成装置及び言語モデル作成プログラム並びに音声認識装置及び音声認識プログラム Expired - Fee Related JP4741452B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006314121A JP4741452B2 (ja) 2006-11-21 2006-11-21 言語モデル作成装置及び言語モデル作成プログラム並びに音声認識装置及び音声認識プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006314121A JP4741452B2 (ja) 2006-11-21 2006-11-21 言語モデル作成装置及び言語モデル作成プログラム並びに音声認識装置及び音声認識プログラム

Publications (2)

Publication Number Publication Date
JP2008129318A true JP2008129318A (ja) 2008-06-05
JP4741452B2 JP4741452B2 (ja) 2011-08-03

Family

ID=39555185

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006314121A Expired - Fee Related JP4741452B2 (ja) 2006-11-21 2006-11-21 言語モデル作成装置及び言語モデル作成プログラム並びに音声認識装置及び音声認識プログラム

Country Status (1)

Country Link
JP (1) JP4741452B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10403267B2 (en) 2015-01-16 2019-09-03 Samsung Electronics Co., Ltd Method and device for performing voice recognition using grammar model
JP2019185400A (ja) * 2018-04-10 2019-10-24 日本放送協会 文生成装置、文生成方法及び文生成プログラム
CN116978354A (zh) * 2023-08-01 2023-10-31 支付宝(杭州)信息技术有限公司 韵律预测模型的训练方法及装置、语音合成方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0981182A (ja) * 1995-09-11 1997-03-28 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 隠れマルコフモデルの学習装置及び音声認識装置
JPH11352994A (ja) * 1998-06-12 1999-12-24 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 統計的シーケンスモデル生成装置、統計的言語モデル生成装置及び音声認識装置
JP2001236089A (ja) * 1999-12-17 2001-08-31 Atr Interpreting Telecommunications Res Lab 統計的言語モデル生成装置、音声認識装置、情報検索処理装置及びかな漢字変換装置
JP2001255889A (ja) * 2000-03-14 2001-09-21 Sony Corp 音声認識装置および音声認識方法、並びに記録媒体
JP2002041081A (ja) * 2000-07-28 2002-02-08 Sharp Corp 音声認識用辞書作成装置および音声認識用辞書作成方法、音声認識装置、携帯端末器、並びに、プログラム記録媒体
JP2004126143A (ja) * 2002-10-01 2004-04-22 Mitsubishi Electric Corp 音声認識装置および音声認識プログラム
JP2005258443A (ja) * 2004-03-10 2005-09-22 Microsoft Corp 発音グラフを使用して新しい単語の発音学習を改善すること
JP2005331600A (ja) * 2004-05-18 2005-12-02 Mitsubishi Electric Corp 音声語句選択装置及び音声語句選択プログラム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0981182A (ja) * 1995-09-11 1997-03-28 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 隠れマルコフモデルの学習装置及び音声認識装置
JPH11352994A (ja) * 1998-06-12 1999-12-24 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 統計的シーケンスモデル生成装置、統計的言語モデル生成装置及び音声認識装置
JP2001236089A (ja) * 1999-12-17 2001-08-31 Atr Interpreting Telecommunications Res Lab 統計的言語モデル生成装置、音声認識装置、情報検索処理装置及びかな漢字変換装置
JP2001255889A (ja) * 2000-03-14 2001-09-21 Sony Corp 音声認識装置および音声認識方法、並びに記録媒体
JP2002041081A (ja) * 2000-07-28 2002-02-08 Sharp Corp 音声認識用辞書作成装置および音声認識用辞書作成方法、音声認識装置、携帯端末器、並びに、プログラム記録媒体
JP2004126143A (ja) * 2002-10-01 2004-04-22 Mitsubishi Electric Corp 音声認識装置および音声認識プログラム
JP2005258443A (ja) * 2004-03-10 2005-09-22 Microsoft Corp 発音グラフを使用して新しい単語の発音学習を改善すること
JP2005331600A (ja) * 2004-05-18 2005-12-02 Mitsubishi Electric Corp 音声語句選択装置及び音声語句選択プログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10403267B2 (en) 2015-01-16 2019-09-03 Samsung Electronics Co., Ltd Method and device for performing voice recognition using grammar model
US10706838B2 (en) 2015-01-16 2020-07-07 Samsung Electronics Co., Ltd. Method and device for performing voice recognition using grammar model
US10964310B2 (en) 2015-01-16 2021-03-30 Samsung Electronics Co., Ltd. Method and device for performing voice recognition using grammar model
USRE49762E1 (en) 2015-01-16 2023-12-19 Samsung Electronics Co., Ltd. Method and device for performing voice recognition using grammar model
JP2019185400A (ja) * 2018-04-10 2019-10-24 日本放送協会 文生成装置、文生成方法及び文生成プログラム
JP7084761B2 (ja) 2018-04-10 2022-06-15 日本放送協会 文生成装置、文生成方法及び文生成プログラム
CN116978354A (zh) * 2023-08-01 2023-10-31 支付宝(杭州)信息技术有限公司 韵律预测模型的训练方法及装置、语音合成方法及装置
CN116978354B (zh) * 2023-08-01 2024-04-30 支付宝(杭州)信息技术有限公司 韵律预测模型的训练方法及装置、语音合成方法及装置

Also Published As

Publication number Publication date
JP4741452B2 (ja) 2011-08-03

Similar Documents

Publication Publication Date Title
JP6727607B2 (ja) 音声認識装置及びコンピュータプログラム
JP3933750B2 (ja) 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置
US5949961A (en) Word syllabification in speech synthesis system
JP4215418B2 (ja) 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム
US7299178B2 (en) Continuous speech recognition method and system using inter-word phonetic information
KR101153078B1 (ko) 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델
US10319373B2 (en) Information processing device, information processing method, computer program product, and recognition system
KR100845428B1 (ko) 휴대용 단말기의 음성 인식 시스템
JP2020505650A (ja) 音声認識システム及び音声認識の方法
JP5310563B2 (ja) 音声認識システム、音声認識方法、および音声認識用プログラム
JP2008275731A (ja) テキスト発音記号変換辞書作成装置、認識語彙辞書作成装置、及び音声認識装置
JP6884946B2 (ja) 音響モデルの学習装置及びそのためのコンピュータプログラム
US20100100379A1 (en) Voice recognition correlation rule learning system, voice recognition correlation rule learning program, and voice recognition correlation rule learning method
JPWO2007142102A1 (ja) 言語モデル学習システム、言語モデル学習方法、および言語モデル学習用プログラム
JPWO2008105263A1 (ja) 重み係数学習システム及び音声認識システム
KR101014086B1 (ko) 음성 처리 장치 및 방법, 및 기록 매체
JP2007047412A (ja) 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置
JP5276610B2 (ja) 言語モデル生成装置、そのプログラムおよび音声認識システム
JP5180800B2 (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
KR100930714B1 (ko) 음성인식 장치 및 방법
JP4741452B2 (ja) 言語モデル作成装置及び言語モデル作成プログラム並びに音声認識装置及び音声認識プログラム
JP6027754B2 (ja) 適応化装置、音声認識装置、およびそのプログラム
CN110189750B (zh) 词语检测系统、词语检测方法以及记录介质
KR100480790B1 (ko) 양방향 n-그램 언어모델을 이용한 연속 음성인식방법 및장치
Pylkkönen Towards efficient and robust automatic speech recognition: decoding techniques and discriminative training

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090319

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110328

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110412

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110506

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140513

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees