JP5692493B2 - 隠れマルコフモデル作成プログラム、情報記憶媒体、隠れマルコフモデル作成システム、音声認識システム及び音声認識方法 - Google Patents

隠れマルコフモデル作成プログラム、情報記憶媒体、隠れマルコフモデル作成システム、音声認識システム及び音声認識方法 Download PDF

Info

Publication number
JP5692493B2
JP5692493B2 JP2010024226A JP2010024226A JP5692493B2 JP 5692493 B2 JP5692493 B2 JP 5692493B2 JP 2010024226 A JP2010024226 A JP 2010024226A JP 2010024226 A JP2010024226 A JP 2010024226A JP 5692493 B2 JP5692493 B2 JP 5692493B2
Authority
JP
Japan
Prior art keywords
model
hidden markov
probability density
filler
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010024226A
Other languages
English (en)
Other versions
JP2010181884A (ja
Inventor
ダビュリュー シールズ ポール
ダビュリュー シールズ ポール
イー ダナチー マシュー
イー ダナチー マシュー
安俊 滝沢
安俊 滝沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Publication of JP2010181884A publication Critical patent/JP2010181884A/ja
Application granted granted Critical
Publication of JP5692493B2 publication Critical patent/JP5692493B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

本発明の幾つかの態様は、隠れマルコフモデル作成プログラム、情報記憶媒体、隠れマルコフモデル作成装置、音声認識システム及び音声認識方法等に関する。
ASRシステム(ASR:Automatic Speech Recognition等の音声認識システムは電子機器等の使い易いユーザーインターフェースを提供する。音声認識システムが直面している問題点の1つとして、どのようにして認識対象の単語(In Vocabulary(IV)と「あのー」や「えーと」や咳などの認識対象外(Out Of Vocabulary(OOV)の音を区別するかという問題点がある。
特許第2886117号
音声認識システムでは、スピーチの系列の中の音声をモデル化するのに、隠れマルコフモデルを使用できる。個々の音声の要素は、音素として知られており、それらはそれぞれ隠れマルコフモデルでモデル化することができる。認識対象の単語・文章は音素の組合せとして文法ファイルで定義される。文法ファイルは認識対象の単語・文章がどの音素(隠れマルコフモデル)の系列で構成されるかを定義したファイルである。そして入力された音声から抽出される特徴ベクターの系列と文法ファイルで定義された隠れマルコフモデル系列のマッチする確率により入力した音声を認識することができる。
ところが音声認識システムでは文法ファイルや辞書に存在しない信号(OOVサウンド)が入力されることがある。これらのOOVサウンドはOOVサウンドのモデルとマッチする確率とIV単語のモデルにマッチする確率を計算してOOVかIVかを判断する。
通常、これらのOOVサウンドをモデル化するのに使用される隠れマルコフモデルをフィラーモデルと呼ぶ。最先端のフィラーモデルの性能はまだ性能向上の余地がある。特に「false positive(OOVをIVと認識すること)」と「false negative(IVをOOVと認識すること)」の両方を最小にすること、すなわち認識したくない単語や音を認識せず、認識すべき単語は認識する音声認識装置を実現することは難しくこの部分で性能向上が図られている。
本発明は、以上のような技術的課題に鑑みてなされたものである。本発明の幾つかの態様によれば、既存の隠れマルコフモデルを用いて、フィラーモデルを構成する隠れマルコフモデルをコンピューターで自動生成することができる。
(1)本発明は、
所与の音声認識システムで音声認識に使用する隠れマルコフモデルを生成するためのプログラムであって、前記所与の音声認識システムで使用予定の複数の隠れマルコフモデルを含む使用予定モデル群を記憶する使用予定モデル群記憶部と、前記使用予定モデル群の全部又は少なくとも1部の隠れマルコフモデル群に基づき前記所与の音声認識システムでフィラーモデルとして使用する隠れマルコフモデルを生成するフィラーモデル生成部と、してコンピューターを機能させるプログラムに関する。
本発明によれば、所与の音声認識システムで使用予定の複数の隠れマルコフモデルを用いてフィラーモデルとして使用する隠れマルコフモデルを生成するので、実際に音声データを解析してフィラーモデルを生成する場合に比べ、必要な演算量と使用メモリ量を減らすことができる。
(2)このプログラムにおいて、
前記使用予定モデル群は、所与の音声認識システムで認識対象とする言語の発音を認識するための複数の要素に対応した隠れマルコフモデルの集合でもよい。
(3)このプログラムにおいて、
前記フィラーモデル生成部は、前記使用予定モデル群の全部又は少なくとも1部の隠れマルコフモデル群を構成する複数の確率密度関数を複数のクラスタに分類し、各クラスタに分類された1又は複数の確率密度関数を定義するための所与のパラメーターに基づき各クラスタの確率密度関数を定義するための所与のパラメーターを求め、求めた各クラスタの確率密度関数を定義するための所与のパラメーターに基づき、フィラーモデルとして使用する隠れマルコフモデルを構成する確率密度関数を定義するための所与のパラメーターを求めてもよい。
(4)このプログラムにおいて、
前記使用予定モデル群に属する隠れマルコフモデルは、複数のステートで構成され、各ステートは複数の確率密度関数を有しており、前記フィラーモデル生成部は、フィラーモデルとして使用する隠れマルコフモデルとして、前記使用予定モデル群に属する隠れマルコフモデルと同数のステートで構成された隠れマルコフモデルを生成するように構成され、前記使用予定モデル群の全部又は少なくとも1部の隠れマルコフモデル群の各ステートを構成する複数の確率密度関数を複数のクラスタに分類し、前記フィラーモデルとして使用する隠れマルコフモデルの前記各ステートを構成する確率密度関数を定義するための所与のパラメーターを求めてもよい。
(5)このプログラムにおいて、
前記フィラーモデル生成部は、前記フィラーモデルとして使用する隠れマルコフモデル又はそのステートを構成する複数の確率密度関数を、前記使用予定モデル群を構成する隠れマルコフモデル又はそのステートを構成する確率密度関数の数と同じ数のクラスタに分類してもよい。
(6)このプログラムにおいて、
前記フィラーモデル生成部は、各クラスタの確率密度関数を定義するための所与のパラメーターを求める際に、前記複数の確率密度関数を前記複数のクラスタに再分類して各クラスタの確率密度関数を定義するため所与のパラメーターを更新する処理を、規定の繰り返し回数に到達するか、更新時のクラスタの確率密度関数を定義するための所与のパラメーターの変化が規定の閾値を下回るまで行ってもよい。
(7)このプログラムにおいて、
前記フィラーモデル生成部は、各クラスタに分類された1又は複数の確率密度関数を定義するための平均に基づき前記フィラーモデルとして使用する隠れマルコフモデルまたはそのステートを構成する確率密度関数を定義するための平均を求め、各クラスタに分類された1又は複数の確率密度関数を定義するための分散に基づき前記フィラーモデルとして使用する隠れマルコフモデルを構成するステートを構成する確率密度関数を定義するための分散を求めてもよい。
(8)このプログラムにおいて、
前記フィラーモデル生成部は、前記使用予定モデル群の全部又は少なくとも1部の隠れマルコフモデル群のステート間の遷移確率を定義した遷移マトリックスに基づき、前記フィラーモデルとして使用する隠れマルコフモデルのステート間の遷移マトリクスを求めてもよい。
(9)このプログラムは、
前記使用予定モデル群からフィラーモデル生成に使用する隠れマルコフモデルを使用モデルとして選択する使用モデル選択部として、コンピューターを機能させ、前記フィラーモデル生成部は、使用モデルとして選択された隠れマルコフモデル群に基づき前記所与の音声認識システムでフィラーモデルとして使用する隠れマルコフモデルを生成してもよい。
(10)このプログラムにおいて、
前記使用モデル選択部は、指定された語彙又は文章を音声認識するために必要な要素を検出し、検出された要素以外の要素の隠れマルコフモデルを使用モデルとして選択してもよい。
(11)このプログラムにおいて、
前記使用モデル選択部は、入力されたテキストデータを音声認識するために必要な要素を検出し、検出された要素以外の要素の隠れマルコフモデルを使用モデルとして選択してもよい。
(12)本発明は、
コンピューターが読み取り可能な情報記憶媒体であって、上記のいずれかに記載のプログラムが記憶されている情報記憶媒体に関する。
(13)本発明は、
所与の音声認識システムで音声認識に使用する隠れマルコフモデルを生成する隠れマルコフモデル生成システムであって、前記所与の音声認識システムで使用予定の複数の隠れマルコフモデルを含む使用予定モデル群を記憶する使用予定モデル群記憶部と、前記使用予定モデル群の全部又は少なくとも1部の隠れマルコフモデル群に基づき前記所与の音声認識システムでフィラーモデルとして使用する隠れマルコフモデルを生成するフィラーモデル生成部と、を含む隠れマルコフモデル生成システムに関する。
(14)この隠れマルコフモデル生成システムにおいて、
前記使用予定モデル群は、所与の音声認識システムで認識対象とする言語の発音を認識するための複数の要素に対応した隠れマルコフモデルの集合でもよい。
(15)この隠れマルコフモデル生成システムにおいて、
前記フィラーモデル生成部は、前記使用予定モデル群の全部又は少なくとも1部の隠れマルコフモデル群を構成する複数の確率密度関数を複数のクラスタに分類し、各クラスタに分類された1又は複数の確率密度関数を定義するための所与のパラメーターに基づき各クラスタの確率密度関数を定義するための所与のパラメーターを求め、求めた各クラスタの確率密度関数を定義するための所与のパラメーターに基づき、フィラーモデルとして使用する隠れマルコフモデルを構成する確率密度関数を定義するための所与のパラメーターを求めてもよい。
(16)この隠れマルコフモデル生成システムにおいて、
前記使用予定モデル群に属する隠れマルコフモデルは、複数のステートで構成され、各ステートは複数の確率密度関数を有しており、前記フィラーモデル生成部は、フィラーモデルとして使用する隠れマルコフモデルとして、前記使用予定モデル群に属する隠れマルコフモデルと同数のステートで構成された隠れマルコフモデルを生成するように構成され、前記使用予定モデル群の全部又は少なくとも1部の隠れマルコフモデル群の各ステートを構成する複数の確率密度関数を複数のクラスタに分類し、前記フィラーモデルとして使用する隠れマルコフモデルの前記各ステートを構成する確率密度関数を定義するための所与のパラメーターを求めてもよい。
(17)この隠れマルコフモデル生成システムにおいて、
前記フィラーモデル生成部は、前記フィラーモデルとして使用する隠れマルコフモデル又はそのステートを構成する複数の確率密度関数を、前記使用予定モデル群を構成する隠れマルコフモデル又はそのステートを構成する確率密度関数の数と同じ数のクラスタに分類してもよい。
(18)この隠れマルコフモデル生成システムにおいて、
前記フィラーモデル生成部は、各クラスタの確率密度関数を定義するための所与のパラメーターを求める際に、前記複数の確率密度関数を前記複数のクラスタに再分類して各クラスタの確率密度関数を定義するための所与のパラメーターを更新する処理を、規定の繰り返し回数に到達するか、更新時のクラスタの確率密度関数を定義するための所与のパラメーターの変化が規定の閾値を下回るまで行ってもよい。
(19)この隠れマルコフモデル生成システムにおいて、
前記フィラーモデル生成部は、各クラスタに分類された1又は複数の確率密度関数を定義するための平均に基づき前記フィラーモデルとして使用する隠れマルコフモデルまたはそのステートを構成する確率密度関数を定義するための平均を求め、各クラスタに分類された1又は複数の確率密度関数を定義するための分散に基づき前記フィラーモデルとして使用する隠れマルコフモデル又はそのステートを構成する確率密度関数を定義するための分散を求めてもよい。
(20)この隠れマルコフモデル生成システムにおいて、
前記フィラーモデル生成部は、前記使用予定モデル群の全部又は少なくとも1部の隠れマルコフモデル群のステート間の遷移確率を定義する遷移マトリックスに基づき、前記フィラーモデルとして使用する隠れマルコフモデルのステート間の遷移マトリクスを求めてもよい。
(21)この隠れマルコフモデル生成システムにおいて、
前記前記使用予定モデル群からフィラーモデル生成に使用する隠れマルコフモデルを使用モデルとして選択する使用モデル選択部を含み、前記フィラーモデル生成部は、使用モデルとして選択された隠れマルコフモデル群に基づき前記所与の音声認識システムでフィラーモデルとして使用する隠れマルコフモデルを生成してもよい。
(22)この隠れマルコフモデル生成システムにおいて、
前記使用モデル選択部は、指定された語彙又は文章を音声認識するために必要な要素を検出し、検出された要素以外の要素の隠れマルコフモデルを使用モデルとして選択してもよい。
(23)この隠れマルコフモデル生成システムにおいて、
前記使用モデル選択部は、入力されたテキストデータを音声認識するために必要な要素を検出し、検出された要素以外の要素の隠れマルコフモデルを使用モデルとして選択してもよい。
(24)本発明は、
上記のいずれかに記載の隠れマルコフモデル生成システムと、前記隠れマルコフモデル生成システムによって生成された前記フィラーモデルとして使用する隠れマルコフモデルが記憶されたフィラーモデル記憶部と、音声データを入力し、特徴ベクターを生成する特徴抽出部と、前記特徴ベクターと前記使用予定モデル群を構成する隠れマルコフモデルと前記フィラーモデルとして使用する隠れマルコフモデルに基づき前記音声データの音声認識を行う音声認識処理部と、を含む音声認識システムに関する。
本発明によれば、より高いOOVのリジェクト性能を実現し、その結果より自然な音声インターフェースを提供することができる。
(25)本発明は、
コンピューターを用いて音声認識を行う方法であって、所与の音声認識システムで使用予定の複数の隠れマルコフモデル群の全部又は一部を記憶部から読み出して、前記使用予定モデル群の全部又は少なくとも1部の隠れマルコフモデル群に基づき前記所与の音声認識システムでフィラーモデルとして使用する隠れマルコフモデルを生成して記憶部に記憶させるステップと、音声データを入力し、特徴ベクターを生成するステップと、前記特徴ベクターと記憶部に記憶された使用予定の複数の隠れマルコフモデル群と前記フィラーモデルとして使用する隠れマルコフモデルモデルとに基づき前記音声データの音声認識を行う音声認識ステップと、を含む音声認識方法に関する。
本実施の形態の隠れマルコフモデル生成システムの機能ブロック図の一例。 本実施の形態の隠れマルコフモデルの構成について説明するための図。 本実施の形態の隠れマルコフモデルの構成について説明するための図。 本実施の形態の隠れマルコフモデル生成処理の流れを示すフローチャート。 本実施の形態の音声認識装置の機能ブロック図の一例。 本実施の形態の音声認識処理の流れを示すフローチャート。
以下、本発明の好適な実施の形態について図面を用いて詳細に説明する。なお以下に説明する実施の形態は、特許請求の範囲に記載された本発明の内容を限定するものではない。また以下で説明される構成の全てが本発明の必須構成要件であるとは限らない。
1.隠れマルコフモデル生成システム
図1は、本実施の形態の隠れマルコフモデル生成システムの機能ブロック図の一例である。
本実施形態の隠れマルコフモデル生成システム1は、図1の構成要素(各部)を全て含む必要はなく、その一部を省略した構成としてもよい。なお本実施の形態の隠れマルコフモデル生成システム1は、所与の音声認識システムで音声認識に使用する隠れマルコフモデルを生成するためのシステムであり、例えば汎用コンピューターを用いて、実現することができる。
本実施の形態の隠れマルコフモデル生成システム1は、記憶部20を含む。記憶部20は、プログラムやデータなどを格納するものであり、その機能はコンピューターにより読み取り可能な媒体(光ディスク(CD、DVD等)、光磁気ディスク(MO)、磁気ディスク、ハードディスク、磁気テープ、或いはメモリ(ROM))などのハードウェアにより実現できる。また記憶部20は、処理部10などのワーク領域となる一時記憶部としての機能を有するRAMなどのハードウェアを含めてもよい。
記憶部20には、本実施の形態の隠れマルコフモデル生成プログラム22が記憶されている。隠れマルコフモデル生成プログラム22は、コンピューター(処理部10,記憶部20)を以下に説明する各部(フィラーモデル生成部12、使用モデル選択部14,使用予定モデル群記憶部24)として機能させるためのプログラムである。
また記憶部20は使用予定モデル群記憶部24として機能する。
本実施の形態の隠れマルコフモデル生成システム1は、処理部10を含む。処理部10は、入力データ16やプログラム等に基づいて、各種処理を行うものであり、その機能は各種プロセッサ(CPU、DSP等)、ASIC(ゲートアレイ等)などのハードウェアや、プログラムにより実現できる。処理部10は、フィラーモデル生成部12、使用モデル選択部14として機能する。
本実施の形態の隠れマルコフモデル生成システム1は、所与の音声認識システムで音声認識に使用する隠れマルコフモデルを生成するための前記所与の音声認識システムで使用予定の複数の隠れマルコフモデルを含む使用予定モデル群を記憶する使用予定モデル群記憶部24と、前記使用予定モデル群の全部又は少なくとも1部の隠れマルコフモデル群に基づき前記所与の音声認識システムでフィラーモデルとして使用する隠れマルコフモデルを生成するフィラーモデル生成部12とを含む。
ここでフィラーモデルは、OOVモデルやガーベージモデルと呼ばれるものを含む概念である。前記フィラーモデルとして使用する隠れマルコフモデルは、前記使用予定モデル群の隠れマルコフモデルをすべて使用して生成してもよいし、その一部である複数の隠れマルコフモデルを使用して生成してもよい。例えば母音用のフィラーモデルとして使用する隠れマルコフモデルは母音の音素の隠れマルコフモデルのみを使用して生成されるようにしてもよい。
この様にすればフィラーモデルとして使用する隠れマルコフモデルを生成するのに必要な計算量と使用メモリ量が従来手法(例えばTrained HMM)に比べて少なくすることができる。
前記使用予定モデル群は、所与の音声認識システムで認識対象とする言語の発音を認識するための複数の要素に対応した隠れマルコフモデルの集合でもよい。要素とは、各言語に応じて音声をモデル化するための音素又は音韻や音素片と呼ばれるものであり、無音モデルを含んでもよい。例えば、所与の音声認識システムで認識対象とする言語が英語である場合には、音声をモデル化するために44個の音素モデルと1つの無音モデルで使用予定モデル群を構成してもよい。
フィラーモデルは、例えばシステムに予め登録されていない音や未登録語(システム認識対象外の単語(OOV))を認識するためのとして使用する隠れマルコフモデルである。
前記フィラーモデル生成部12は、前記使用予定モデル群の全部又は少なくとも1部の隠れマルコフモデル群を構成する複数の確率密度関数を複数のクラスタに分類し、各クラスタに分類された1又は複数の確率密度関数を定義するための所与のパラメーターに基づき各クラスタの確率密度関数のパラメーターを求め、求めた各クラスタの確率密度関数のパラメーターに基づき、フィラーモデルとして使用する隠れマルコフモデルを構成する確率密度関数を定義するための所与のパラメーターを求めてもよい。確率密度関数を定義するための所与のパラメーターとは、例えば正規分布のパラメーターである平均でもよい。
前記使用予定モデル群に属する隠れマルコフモデルは、複数のステートで構成され、各ステートは複数の確率密度関数を有しており、前記フィラーモデル生成部12は、フィラーモデルとして使用する隠れマルコフモデルとして、前記使用予定モデル群に属する隠れマルコフモデルと同数のステートで構成された隠れマルコフモデルを生成するように構成され、前記使用予定モデル群の全部又は少なくとも1部の隠れマルコフモデル群の各ステートを構成する複数の確率密度関数を複数のクラスタに分類し、前記フィラーモデルとして使用する隠れマルコフモデルの前記各ステートを構成する確率密度関数を定義するための所与のパラメーターを求めてもよい。
また前記フィラーモデル生成部12は、前記フィラーモデルとして使用する隠れマルコフモデル又はそのステートを構成する複数の確率密度関数を、前記使用予定モデル群を構成する隠れマルコフモデル又はそのステートを構成する確率密度分関数と同じ数のクラスタに分類してもよい。
この様にすると、システムが既に有している隠れマルコフモデル(使用予定モデル群を構成する隠れマルコフモデル)と同じ構成(例えば各ステートを構成する正規分布の数が同じ構成)のフィラーモデルとして使用する隠れマルコフモデルを生成することができる。従って、生成した隠れマルコフモデルを、所与の音声認識システムで使用する際のシステム変更を不要とすること、又はシステム変更を最小限に押さえることができる。
前記フィラーモデル生成部12は、各クラスタの確率密度関数を定義するための所与のパラメーターを求める際に、前記複数の確率密度関数を前記複数のクラスタに再分類して各クラスタの確率密度関数を定義するための所与のパラメーターを更新する処理を、規定の繰り返し回数に到達するか、更新時のクラスタの確率密度関数を定義するための所与のパラメーターの変化が規定の閾値を下回るまで行うようにしてもよい。
また前記フィラーモデル生成部12は、各クラスタに分類された1又は複数の確率密度関数を定義するための平均に基づき前記フィラーモデルとして使用する隠れマルコフモデル又はそのステートを構成する確率密度関数を定義するための平均を求め、各クラスタに分類された1又は複数の確率密度関数を定義するための分散に基づき前記フィラーモデルとして使用する隠れマルコフモデル又はそのステートを構成する確率密度関数を定義するための分散を求めてもよい。
例えばM個の確率密度関数に基づき前記フィラーモデルの分散を求める場合には、M個の分散を単純平均してフィラーモデルの分散を求めてもよい。またそれぞれの確率密度関数は重み付け係数をもっているのでそれを含めて計算してもよい。
また前記フィラーモデル生成部12は、前記使用予定モデル群の全部又は少なくとも1部の隠れマルコフモデル群のステート間の遷移確率を定義した遷移マトリックスに基づき、前記フィラーモデルとして使用する隠れマルコフモデルのステート間の遷移マトリクスを求めてもよい。
隠れマルコフモデルのステート間の遷移マトリックスは、所与のステートから次のステートに遷移する確率と同じステートに遷移する確率を定義したものであるが、どちらか一方のみが定義されているものでもよい。
本実施の形態の隠れマルコフモデル生成システム1は、前記使用予定モデル群からフィラーモデル生成に使用する隠れマルコフモデルを使用モデルとして選択する使用モデル選択部14を含み、前記フィラーモデル生成部12は、使用モデルとして選択された隠れマルコフモデル群に基づき前記所与の音声認識システムでフィラーモデルとして使用する隠れマルコフモデルを生成してもよい。
また前記使用モデル選択部24は、指定された語彙又は文章を音声認識するために必要な要素を検出し、検出された要素以外の要素の隠れマルコフモデルを使用モデルとして選択してもよい。
指定された語彙又は文章を構成する音素を指定された語彙又は文章を音声認識するために必要な要素として検出し、検出された音素以外の音素の隠れマルコフモデルを使用モデル群として選択してもよい。
音声認識に関連する語彙又は文章を指定することにより、音声認識対象を絞ることができる。そして絞られた音声認識対象を構成する音素以外の音素の隠れマルコフモデルに基づきフィラーモデルを生成することにより、OOVの認識精度の高いフィラーモデルを生成することができる。
また前記使用モデル選択部14は、入力されたテキストデータを音声認識するために必要な要素を検出し、検出された要素以外の要素の隠れマルコフモデルを使用モデルとして選択してもよい。
入力されたテキストデータを構成する音素を入力されたテキストデータを音声認識するために必要な要素を検出し、検出された音素以外の音素の隠れマルコフモデルを使用モデルとして抽出してもよい。
入力テキストデータを音声認識対象語とする場合、音声認識対象語を認識するために必要な音素を特定することができる。そして特定された音声認識対象を構成する音素以外の音素の隠れマルコフモデルに基づきフィラーモデルを生成することにより、OOVの認識精度の高いフィラーモデルを生成することができる。
2.隠れマルコフモデルの生成手法
次に本実施の形態の隠れマルコフモデル生成手法について説明する。ここでは、K平均法(K-Meansアルゴリズム)を使用することで1つ以上のフィラーモデルを生成するための方法を例にとり、隠れマルコフモデルを生成する手法(プログラム及びシステムよって実現される手法)について説明する。
マルコフモデルは統計的なステート・マシンであり、ステート間の変遷が確率によってモデル化されている確率モデルである。隠れマルコフモデルは、現在のステートが観察できないマルコフモデルである。現在のステート情報の代わりに、隠れマルコフモデルは1ステート(状態)あたり1つのシンボルを出力する。特定のステートが特定のシンボルを出力する確率は正規分布(確率密度関数の一例)のパラメーター(例えば平均や分散)でモデル化される。
音声認識システムでは、入力音声の系列は入力音声から抽出された特徴量の系列でモデル化できる。そしてこれらの特徴量の系列が認識する音声を定義した隠れマルコフモデルの系列群に含まれる確率を計算し、最も含まれる確率が高い隠れマルコフモデルの系列に対応する音声が話された音声と認識される。
フィラーモデルは、音声認識システムに予め登録されていない未登録語(システム認識対象の単語(OOV))を認識するための隠れマルコフモデルであり、ガーベージモデルやOOVサウンドモデル等と呼ばれているモデルも含む。
図2に一般的なleft-right(左から右への一方向の遷移のみ可能)n-ステートの隠れマルコフモデルのステートダイヤグラムを示す。このダイヤグラムで、ステート1とステートnは、状態遷移のみ可能でシンボルの出力はしない。他の状態ステート2からステートn-1はシンボルを出力する。各ステートに留まる(自分自身に遷移する)確率a22,a33、・・・an−1n−1と次の(右の)ステートに遷移する確率a23,a34、・・・an−1nとが定義されている。ここで各ステートに留まる(自分自身に遷移する)確率a22,a33、・・・an−1n−1と次の(右の)ステートに遷移する確率a23,a34、・・・an−1nとの各ステートにおける和は1となっている。
図3にAppleの構成要素である音素“@”の隠れマルコフモデルを示す。
音素に対応した隠れマルコフモデルは、言語毎に異なる音素区分をもつ。例えば英語では音声をモデル化するために44個の音素モデルと1つの無音モデルで構成されている。それぞれの音素はS個のステート(状態)をもつ。各状態はM個の確率密度関数と確率密度関数のパラメーター(例えば正規分布と平均、分散)と状態遷移確率をもつ。各確率密度関数は、N次元である(例えば正規分布の場合N個の平均と分散をもつ)。音声認識において入力音声をA/D変換、高速フーリエ変換(FFT)、ケプストラム計算等を施してN個の特徴ベクターを抽出するが、このNに対応して次元が決定される。
本実施の形態の使用予定モデル群に属する隠れマルコフモデルも、図2,図3に示すように複数のステート(例えばS個)で構成され、各ステートは複数の正規分布(確率密度関数の一例)(例えばM個の正規分布)を有しており、各正規分布は特徴ベクトルの数(例えばN個)の平均と分散を有している。
本実施の形態では、使用予定モデル群の隠れマルコフモデルに含まれるステートの数はいくつでも構わない。同様に、隠れマルコフモデル又はその各ステートに含まれる正規分布の数はいくつでも良い。
フィラーモデルとして使用される隠れマルコフモデルは、バウム-ウェルチアルゴリズムを使用して生成することができる。バウム-ウェルチアルゴリズムは、期待値を最大にするためのアルゴリズムである。規定の繰り返し回数に到達するか、更新時のモデルのパラメーターの変化が規定の閾値を下回るまで モデルのパラメーターを予測する処理、モデルの性能を評価する処理、評価の結果によりモデルのパラメーターを更新する処理を繰かえす。
K-meansアルゴリズム(K平均法とも呼ばれる)は、データをグループ(またはクラスタ)に分類するクラスタ化アルゴリズムである。本実施の形態では、使用予定モデル群の隠れマルコフモデルに含まれる正規分布の平均値をK-meansアルゴリズムでグループ化する。各グループをクラスタと呼ぶ。
本実施の形態では、使用予定モデル群の隠れマルコフモデルに含まれる正規分布の平均値をK-meansアルゴリズムでグループ化して、各グループ(クラスタと同義)の確率密度関数のパラメーター更新時のパラメーター(例えば正規分布の平均)の変化が規定の閾値を下回るまで 確率密度関数のパラメーターを更新する処理を行う。
図4は、本実施の形態の隠れマルコフモデル生成処理の流れを示すフローチャートである。フィラーモデルとして使用する隠れマルコフモデルの生成のアルゴリズムの一例を示しているが、アルゴリズムがここに記載されている内容に限られるわけではない。
必要なクラスタの数とデータポイントを最初に決める必要がある。クラスタの数は、それぞれの音素を構成する隠れマルコフモデルのステートに含まれる正規分布の数と同じ数を選んでもよい。データポイントには音素を構成する隠れマルコフモデルに含まれる正規分布の平均(確率密度関数のパラメーターの一例である)を使用する。
例えば英語の音声認識装置は音声をモデル化するために44個の音素と一つの無音モデルを使用する。音素の数は必要であれば変更できる。フィラーモデルとして使用する隠れマルコフモデルは44個の音素から生成してもよい。なおフィラーモデルとして使用する隠れマルコフモデルを生成するには44個全ての音素を使うこともできるし、その一部の音素を使うこともできる。例えば母音用のフィラーモデルは母音の音素のみ使って生成してもよい。それぞれの音素はS個のステート(状態)を持つ場合には、K-Meansアルゴリズムは各ステート毎に処理されるので、ステップS10〜S80の処理をS回繰り返すことになる。各ステートはM個の正規分布で構成されていて、正規分布はN個の平均とN個の分散で定義される。通常Nは39であり、これは音声認識の際に生成される音声の特徴ベクターの数に対応している。44×M個のデータポイントをK-Meansアルゴリズムの処理に使用し、これをS回繰り返すことになる。
N個の平均を使ってデータポイントとクラスタの平均の間の距離の計算を行う。
以下にK-meansアルゴリズムのフローチャートを説明する。
すべてステートの処理が終わるまで、ステップS10からS80の処理を繰り返す。すなわちK -MeansアルゴリズムをS回(ステートの数)繰り返す。すべてのステートについて処理が終了した場合にはステップS90にいく。
まず、使用モデル選択部で選択された隠れマルコフモデルの当該ステートに属する正規分布の平均をデータポイントとして配置し、クラスタの平均の初期値を決定する(ステップS20)。隠れマルコフモデルは登録語を認識するための音素を構成する隠れマルコフモデルのほか、無音モデルを含んでもよい。クラスタの平均の初期値を決定する方法は何種類かあるので、いずれかの方法を適宜採用することができる。初期値を決定する1つの方法として、ランダムにクラスタの平均の初期値を決めてもよい。また、データポイントの配置されている空間の中に均一に配置できるようにクラスタの平均の初期値を決めてもよい。また、主成分分析(PCA)を用いてデータポイントの数を減らし、その中から均一に分布するようにクラスタの平均値を選択してもよい。
各データポイントに対してどのクラスタの平均値がもっとも近いか調べる(ステップS30)。データポイントとクラスタの平均値との距離は数1に示すようにミンコフスキー距離の特殊形であるユークリッド距離を使って求めてもよい。ユークリッド距離の場合、数1でP=2である。また実施例ではd=39である。
Figure 0005692493
次に各データポイントを、それに最も近い平均を持つクラスタに関連づける(ステップS40)。
次に各クラスタに関連づけられたデータポイントから、各クラスタの平均値を数3を使い計算する。ここでCはクラスタに含まれるデータポイントの数、Kは各正規分布のパラメーターの数(本実施例では39個)を示す。(ステップS50)。
Figure 0005692493
次に各クラスタについて、新しく求められたクラスタの平均値と直前のクラスタの平均値の差を計算する。差の計算にはユークリッド距離を使う。(ステップS60)。
すべてのクラスタについて新しい平均値と直前の平均値の差が予め定めた閾値より小さいか否か判断し(ステップS70)、閾値より小さくない場合には、ステップS30から処理を繰り返す。
すべてのクラスタについて新しい平均値と直前の平均値の差が予め定めた閾値より小さい場合には、クラスタに含まれるデータポイントに対応する分散に基づきクラスタの分散を演算する(ステップS80)。クラスタに含まれる(関連つけられた)データポイントはそれに対応した39の分散を保持している。この39個の分散の平均をクラスタの分散とする。数2にクラスタの分散の計算方法を示す。ここでCはクラスタに含まれるデータポイントの数、Kは各正規分布のパラメーターの数(本実施例では39個)を示す。
Figure 0005692493
各正規分布は重み付け係数をもっているのでそれを含めて計算する。重み付けの方法の一つは、全ての重みつけを等しくすることである。例えば各ステートにM個の正規分布が含まれる場合には重みつけ係数は1/Mである。
次にフィラーモデルとして使用する隠れマルコフモデルの遷移マトリクスを演算する(ステップS90)。それぞれの隠れマルコフモデルは、図2、3で説明したように、あるステートから次のステートに遷移する確率と同じステートに遷移する確率を定義した遷移マトリックスを持っている。各音素の隠れマルコフモデルの遷移確率の平均をフィラーモデルとして使用する隠れマルコフモデルの遷移マトリックスとしてもよい。
次に生成したフィラーモデルとして使用する隠れマルコフモデルをファイルに出力する(ステップS100)。
上記実施の形態のようにk-means手法で生成されたフィラーモデルとして使用する隠れマルコフモデルは、従来のバウム-ウェルチアルゴリズムによるTrained HMM法で生成されたフィラーモデルよりも良い性能を提供する。
これはK-Meansで生成したフィラーモデルを使った認識の結果によると「false positive」と「false negative」が低いことで証明される。本実施の形態を応用した音声認識システムはより高いOOVのリジェクト性能を実現し、その結果より自然な音声インターフェースを提供することができる。またフィラーモデルとして使用する隠れマルコフモデルを生成するのに必要な計算量と使用メモリ量がTrained HMM法に比べて非常に少ないという利点がある。
3.音声認識システム
図5は、本実施の形態の音声認識際システムの機能ブロック図の一例である。
本実施形態の音声認識システム100は、図5の構成要素(各部)を全て含む必要はなく、その一部を省略した構成としてもよい。図1と同じ構成要素(各部)については、同じ符号を付しており、その機能は図1で説明した機能と同じなので説明を省略する。
本実施の形態の音声認識装システム100は、例えば汎用コンピューターを用いて実現してもよいし、専用のハードウエアで実現してもよい。
本実施の形態の音声入力装置100は、図1で説明した隠れマルコフモデル生成システム1と、隠れマルコフモデル生成システム1によって生成された前記フィラーモデルとして使用する隠れマルコフモデルが記憶されたフィラーモデル記憶部122と、音声データ133を入力特徴ベクター113を生成する特徴抽出部112と、特徴ベクター113と前記使用予定モデル群を構成する隠れマルコフモデル123と前記フィラーモデルとして使用する隠れマルコフモデル125に基づき前記音声データ133の音声認識を行う音声認識処理部114とを含む。
また本実施の形態の音声入力装置100は、話者の音声を入力する音声入力部132(例えばマイクロフォン等)を含んでもよい。
特徴抽出部112は、入力された音声データに対して、A/D変換、高速フーリエ変換(FFT)、ケプストラム計算等を施して特徴ベクターを抽出する処理を行う。
このようにして生成された隠れマルコフモデルをフィラーモデルとして使用して音声認識を行うとより高いOOVのリジェクト性能を実現し、その結果より自然な音声インターフェースを提供することができる。
図6は、本実施の形態の音声認識処理の流れを示すフローチャートである。
音声認識対象にするテキストデータを受け取り使用する音素を抽出する(ステップS110)。次に抽出した音素以外の隠れマルコフモデルを使用予定モデル群記憶部から読み出して、読み出した隠れマルコフモデルを用いて、フィラーモデルとして使用する隠れマルコフモデルを生成して記憶部に記憶させる(ステップS120)。次に入力された音声データに基づき特徴ベクターを生成する(ステップS130)。次に生成された特徴ベクターと、記憶部に記憶された隠れマルコフモデルとフィラーモデルガーベージ隠れマルコフモデルに基づいて音声認識を行う(ステップS140)。
このようにすると、音声認識対象にするテキストデータに基づきリアルタイムにフィラーモデルとして使用する隠れマルコフモデルを生成して、生成した隠れマルコフモデルを用いた音声認識を行うことができる。従って認識対象に応じて、最適なフィラーモデルを生成して音声認識を行うことができる音声認識システムを提供することができる。
なお、本発明は本実施形態に限定されず、本発明の要旨の範囲内で種々の変形実施が可能である。
本発明は、実施の形態で説明した構成と実質的に同一の構成(例えば、機能、方法及び結果が同一の構成、あるいは目的及び効果が同一の構成)を含む。また、本発明は、実施の形態で説明した構成の本質的でない部分を置き換えた構成を含む。また、本発明は、実施の形態で説明した構成と同一の作用効果を奏する構成又は同一の目的を達成することができる構成を含む。また、本発明は、実施の形態で説明した構成に公知技術を付加した構成を含む。
1 隠れマルコフモデル生成部、10 処理部、12 フィラーモデル生成部、14 使用モデル選択部、20 記憶部、22 隠れマルコフモデル生成プログラム、24 使用予定モデル群記憶部、100 音声認識装置、112 特徴抽出部、113 特徴ベクター、114 音声認識処理部、122 フィラーモデル記憶部

Claims (23)

  1. 所与の音声認識システムで音声認識に使用する隠れマルコフモデルを生成するためのプログラムであって、
    前記所与の音声認識システムで使用予定の隠れマルコフモデルである複数の使用予定モデルを記憶する使用予定モデル群記憶部と、
    前記複数の使用予定モデルに含まれる個(は2以上)の使用予定モデルに基づき前記所与の音声認識システムでフィラーモデルとして使用する隠れマルコフモデルを生成するフィラーモデル生成部としてコンピューターを機能させ、
    前記P個の使用予定モデルは、各々処理対象となるステートを含み、
    前記フィラーモデル生成部は、
    前記P個の使用予定モデルに各々含まれる前記処理対象となるステートがM個の確率密度関数で構成されている場合に、クラスタ数をMに決定し、
    前記P個の使用予定モデルの処理対象となるステートを構成するP×M個の確率密度関数を、前記確率密度関数の第1のパラメータに基づきM個のクラスタに分類する分類処理を行い、各クラスタに分類された確率密度関数に基づき、フィラーモデルとして使用する隠れマルコフモデルのステートを構成するM個の確率密度関数を求めるプログラム。
  2. 請求項1において、
    前記使用予定モデルは、所与の音声認識システムで認識対象とする言語の発音を認識するための複数の要素に対応した隠れマルコフモデルの集合であるプログラム。
  3. 請求項1又は2において、
    前記使用予定モデルは、複数のステートで構成され、
    前記フィラーモデル生成部は、
    前記使用予定モデルの前記複数のステートの各ステートについて、前記分類処理を行い、前記使用予定モデルのステートと同数のステートで構成されたフィラーモデルを生成するプログラム。
  4. 請求項1乃至3のいずれかにおいて、
    前記フィラーモデル生成部は、
    前記分類処理として、各クラスタに属する確率密度関数の前記第1のパラメータに基づき各クラスタのクラスタ値を求め、前記クラスタ値と前記確率密度関数の第1のパラメータとの距離に基づき、前記確率密度関数をM個のクラスタのいずれかに再分類し、再分類後の各クラスタに属する確率密度関数の前記第1のパラメータに基づき各クラスタの前記クラスタ値を更新する処理を、所定の条件を満たすまで行うプログラム。
  5. 請求項1乃至4のいずれかにおいて、
    前記確率密度関数の第1のパラメータは、前記確率密度関数の平均であるプログラム。
  6. 請求項1乃至5のいずれかにおいて、
    前記フィラーモデル生成部は、
    各クラスタに分類された確率密度関数の平均に基づき前記フィラーモデルとして使用する隠れマルコフモデルを構成する確率密度関数の平均を求め、
    各クラスタに分類された確率密度関数の分散に基づき前記フィラーモデルとして使用する隠れマルコフモデルを構成する確率密度関数の分散を求めるプログラム。
  7. 請求項1乃至6のいずれかにおいて、
    前記フィラーモデル生成部は、
    前記使用予定モデルのステート間の遷移確率を定義した遷移マトリックスに基づき、前記フィラーモデルとして使用する隠れマルコフモデルのステート間の遷移マトリクスを求めるプログラム。
  8. 請求項1乃至7のいずれかにおいて、
    前記複数の使用予定モデルからフィラーモデル生成に使用する使用モデルを選択する使用モデル選択部として、コンピューターを機能させ、
    前記フィラーモデル生成部は、
    選択された前記使用モデルに基づき前記所与の音声認識システムでフィラーモデルとして使用する隠れマルコフモデルを生成するプログラム。
  9. 請求項8において、
    前記使用モデル選択部は、
    指定された語彙又は文章を音声認識するために必要な要素を検出し、検出された要素以外の要素の隠れマルコフモデルを使用モデルとして選択するプログラム。
  10. 請求項8において、
    前記使用モデル選択部は、
    入力されたテキストデータを音声認識するために必要な要素を検出し、検出された要素以外の要素の隠れマルコフモデルを使用モデルとして選択するプログラム。
  11. コンピューターが読み取り可能な情報記憶媒体であって、請求項1乃至10のいずれかに記載のプログラムが記憶されている情報記憶媒体。
  12. 所与の音声認識システムで音声認識に使用する隠れマルコフモデルを生成する隠れマルコフモデル生成システムであって、
    前記所与の音声認識システムで使用予定の隠れマルコフモデルである複数の使用予定デルを記憶する使用予定モデル群記憶部と、
    前記複数の使用予定モデルに含まれる個(は2以上)の使用予定モデルに基づき前記所与の音声認識システムでフィラーモデルとして使用する隠れマルコフモデルを生成するフィラーモデル生成部と、を含み、
    前記P個の使用予定モデルは、各々処理対象となるステートを含み、
    前記フィラーモデル生成部は、
    前記P個の使用予定モデルに各々含まれる前記処理対象となるステートがM個の確率密度関数で構成されている場合に、クラスタ数をMに決定し、
    前記P個の使用予定モデルの処理対象となるステートを構成するP×M個の確率密度関数を、前記確率密度関数の第1のパラメータに基づきM個のクラスタに分類する分類処理を行い、各クラスタに分類された確率密度関数に基づき、フィラーモデルとして使用する隠れマルコフモデルのステートを構成するM個の確率密度関数を求める隠れマルコフモデル生成システム。
  13. 請求項12において、
    前記使用予定モデルは、所与の音声認識システムで認識対象とする言語の発音を認識するための複数の要素に対応した隠れマルコフモデルの集合である隠れマルコフモデル生成システム。
  14. 請求項12又は13において、
    前記使用予定モデルは、複数のステートで構成され、
    前記フィラーモデル生成部は、
    前記使用予定モデルの前記複数のステートの各ステートについて、前記分類処理を行い、前記使用予定モデルのステートと同数のステートで構成されたフィラーモデルを生成する隠れマルコフモデル生成システム。
  15. 請求項12乃至14のいずれかにおいて、
    前記フィラーモデル生成部は、
    前記分類処理として、各クラスタに属する確率密度関数の前記第1のパラメータに基づき各クラスタのクラスタ値を求め、前記クラスタ値と前記確率密度関数の第1のパラメータとの距離に基づき、前記確率密度関数をM個のクラスタのいずれかに再分類し、再分類後の各クラスタに属する確率密度関数の前記第1のパラメータに基づき各クラスタの前記クラスタ値を更新する処理を、所定の条件を満たすまで行う隠れマルコフモデル生成システム。
  16. 請求項12乃至15のいずれかにおいて、
    前記確率密度関数の第1のパラメータは、前記確率密度関数の平均である隠れマルコフモデル生成システム。
  17. 請求項12乃至16のいずれかにおいて、
    前記フィラーモデル生成部は、
    各クラスタに分類された確率密度関数の平均に基づき前記フィラーモデルとして使用する隠れマルコフモデルを構成する確率密度関数の平均を求め、
    各クラスタに分類された確率密度関数の分散に基づき前記フィラーモデルとして使用する隠れマルコフモデルを構成する確率密度関数の分散を求める隠れマルコフモデル生成システム。
  18. 請求項12乃至17のいずれかにおいて、
    前記フィラーモデル生成部は、
    前記使用予定モデルのステート間の遷移確率を定義した遷移マトリックスに基づき、前記フィラーモデルとして使用する隠れマルコフモデルのステート間の遷移マトリクスを求める隠れマルコフモデル生成システム。
  19. 請求項12乃至18のいずれかにおいて、
    前記複数の使用予定モデルからフィラーモデル生成に使用する使用モデルを選択する使用モデル選択部を含み、
    前記フィラーモデル生成部は、
    選択された前記使用モデルに基づき前記所与の音声認識システムでフィラーモデルとして使用する隠れマルコフモデルを生成する隠れマルコフモデル生成システム。
  20. 請求項19において、
    前記使用モデル選択部は、
    指定された語彙又は文章を音声認識するために必要な要素を検出し、検出された要素以外の要素の隠れマルコフモデルを使用モデルとして選択する隠れマルコフモデル生成システム。
  21. 請求項19において、
    前記使用モデル選択部は、
    入力されたテキストデータを音声認識するために必要な要素を検出し、検出された要素以外の要素の隠れマルコフモデルを使用モデルとして選択する隠れマルコフモデル生成システム。
  22. 請求項12乃至21のいずれかに記載の隠れマルコフモデル生成システムと、
    前記隠れマルコフモデル生成システムによって生成された前記フィラーモデルとして使用する隠れマルコフモデルが記憶されたフィラーモデル記憶部と、
    音声データを入力し、特徴ベクターを生成する特徴抽出部と、
    前記特徴ベクターと前記使用予定モデル群を構成する隠れマルコフモデルと前記フィラーモデルとして使用する隠れマルコフモデルに基づき前記音声データの音声認識を行う音声認識処理部と、を含む音声認識システム。
  23. コンピューターを用いて音声認識を行う方法であって、
    所与の音声認識システムで使用予定の隠れマルコフモデルである個(は2以上)の使用予定デルを記憶部から読み出して、前記個の使用予定モデルに基づき前記所与の音声認識システムでフィラーモデルとして使用する隠れマルコフモデルを生成して記憶部に記憶させるフィラーモデル生成ステップと、
    音声データを入力し、特徴ベクターを生成するステップと、
    前記特徴ベクターと記憶部に記憶された使用予定の複数の隠れマルコフモデル群と前記フィラーモデルとして使用する隠れマルコフモデルモデルとに基づき前記音声データの音声認識を行う音声認識ステップと、を含み、
    前記P個の使用予定モデルは、各々処理対象となるステートを含み、
    前記フィラーモデル生成ステップにおいて、
    前記P個の使用予定モデルに各々含まれる前記処理対象となるステートがM個の確率密度関数で構成されている場合に、クラスタ数をMに決定し、
    前記P個の使用予定モデルの処理対象となるステートを構成するP×M個の確率密度関数を、前記確率密度関数の第1のパラメータに基づきM個のクラスタに分類する分類処理を行い、各クラスタに分類された確率密度関数に基づき、フィラーモデルとして使用する隠れマルコフモデルのステートを構成するM個の確率密度関数を求める音声認識方法。
JP2010024226A 2009-02-05 2010-02-05 隠れマルコフモデル作成プログラム、情報記憶媒体、隠れマルコフモデル作成システム、音声認識システム及び音声認識方法 Active JP5692493B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15011409P 2009-02-05 2009-02-05
US61/150114 2009-02-05

Publications (2)

Publication Number Publication Date
JP2010181884A JP2010181884A (ja) 2010-08-19
JP5692493B2 true JP5692493B2 (ja) 2015-04-01

Family

ID=42631740

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010024226A Active JP5692493B2 (ja) 2009-02-05 2010-02-05 隠れマルコフモデル作成プログラム、情報記憶媒体、隠れマルコフモデル作成システム、音声認識システム及び音声認識方法

Country Status (2)

Country Link
US (1) US8595010B2 (ja)
JP (1) JP5692493B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102007033472A1 (de) * 2007-07-18 2009-01-29 Siemens Ag Verfahren zur Spracherkennung
FR2964223B1 (fr) * 2010-08-31 2016-04-01 Commissariat Energie Atomique Procede de configuration d'un dispositif de detection a capteur, programme d'ordinateur et dispositif adaptatif correspondants
KR101768438B1 (ko) * 2013-10-30 2017-08-16 삼성에스디에스 주식회사 데이터 분류 장치 및 방법과 이를 이용한 데이터 수집 시스템
US10360904B2 (en) * 2014-05-09 2019-07-23 Nuance Communications, Inc. Methods and apparatus for speech recognition using a garbage model
CN106663110B (zh) * 2014-06-29 2020-09-15 谷歌有限责任公司 音频序列对准的概率评分的导出
CN107112007B (zh) * 2014-12-24 2020-08-07 三菱电机株式会社 语音识别装置及语音识别方法
US9940932B2 (en) 2016-03-02 2018-04-10 Wipro Limited System and method for speech-to-text conversion
US11107461B2 (en) 2016-06-01 2021-08-31 Massachusetts Institute Of Technology Low-power automatic speech recognition device
CN114048333B (zh) * 2021-11-05 2024-06-04 深圳职业技术学院 一种多源融合语音交互式室内定位方法、终端及存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2886177B2 (ja) 1989-04-08 1999-04-26 株式会社吉田製作所 歯科用自動コップ給水装置
US6470315B1 (en) * 1996-09-11 2002-10-22 Texas Instruments Incorporated Enrollment and modeling method and apparatus for robust speaker dependent speech models
US6243677B1 (en) * 1997-11-19 2001-06-05 Texas Instruments Incorporated Method of out of vocabulary word rejection
JP4224250B2 (ja) * 2002-04-17 2009-02-12 パイオニア株式会社 音声認識装置、音声認識方法および音声認識プログラム
EP1505573B1 (en) * 2002-05-10 2008-09-03 Asahi Kasei Kabushiki Kaisha Speech recognition device
JP2003345384A (ja) * 2002-05-27 2003-12-03 Pioneer Electronic Corp 音声認識装置、音声認識方法および音声認識プログラム
EP1376537B1 (en) * 2002-05-27 2009-04-08 Pioneer Corporation Apparatus, method, and computer-readable recording medium for recognition of keywords from spontaneous speech
WO2004075168A1 (ja) * 2003-02-19 2004-09-02 Matsushita Electric Industrial Co., Ltd. 音声認識装置及び音声認識方法
JP4705023B2 (ja) * 2004-06-10 2011-06-22 パナソニック株式会社 音声認識装置、音声認識方法、及びプログラム
US7865357B2 (en) * 2006-03-14 2011-01-04 Microsoft Corporation Shareable filler model for grammar authoring

Also Published As

Publication number Publication date
JP2010181884A (ja) 2010-08-19
US20100217593A1 (en) 2010-08-26
US8595010B2 (en) 2013-11-26

Similar Documents

Publication Publication Date Title
JP5692493B2 (ja) 隠れマルコフモデル作成プログラム、情報記憶媒体、隠れマルコフモデル作成システム、音声認識システム及び音声認識方法
JP6596924B2 (ja) 音声データ処理装置、音声データ処理方法、及び、音声データ処理プログラム
CN104681036B (zh) 一种语言音频的检测系统及方法
JP6556575B2 (ja) 音声処理装置、音声処理方法及び音声処理プログラム
US8494853B1 (en) Methods and systems for providing speech recognition systems based on speech recordings logs
CN108538285B (zh) 一种基于多任务神经网络的多样例关键词检测方法
US20140025382A1 (en) Speech processing system
US11837236B2 (en) Speaker recognition based on signal segments weighted by quality
JP2018097191A (ja) 言語記憶方法及び言語対話システム
JP6148150B2 (ja) 音響分析フレーム信頼度計算装置と音響モデル適応装置と音声認識装置とそれらのプログラムと、音響分析フレーム信頼度計算方法
JP5376341B2 (ja) モデル適応装置、その方法及びそのプログラム
JP4796460B2 (ja) 音声認識装置及び音声認識プログラム
JP2016177045A (ja) 音声認識装置および音声認識プログラム
JP3919475B2 (ja) 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、並びに、プログラム記録媒体
JP6220733B2 (ja) 音声分類装置、音声分類方法、プログラム
JP5980101B2 (ja) 音響モデル学習用テキスト作成装置とその方法とプログラム
Abraham et al. Articulatory Feature Extraction Using CTC to Build Articulatory Classifiers Without Forced Frame Alignments for Speech Recognition.
Ahsan et al. Physical features based speech emotion recognition using predictive classification
JP5749186B2 (ja) 音響モデル適応装置と音声認識装置とそれらの方法と、プログラム
KR101539112B1 (ko) 음성 인식을 위한 감성 분류 장치 및 분류 방법
KR101925248B1 (ko) 음성 인증 최적화를 위해 음성 특징벡터를 활용하는 방법 및 장치
JP5104732B2 (ja) 拡張認識辞書学習装置、これを用いた音声認識システム、その方法及びそのプログラム
JP6274015B2 (ja) 音響モデル調整装置及びプログラム
JP5369079B2 (ja) 音響モデル作成方法とその装置とプログラム
JP4705535B2 (ja) 音響モデル作成装置及び音声認識装置並びに音響モデル作成プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121217

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131002

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131225

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140319

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140519

RD07 Notification of extinguishment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7427

Effective date: 20140619

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150107

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150120

R150 Certificate of patent or registration of utility model

Ref document number: 5692493

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350