JP2003263186A - 音声認識装置、音声認識方法および音声認識プログラムが記録された記録媒体 - Google Patents
音声認識装置、音声認識方法および音声認識プログラムが記録された記録媒体Info
- Publication number
- JP2003263186A JP2003263186A JP2002063229A JP2002063229A JP2003263186A JP 2003263186 A JP2003263186 A JP 2003263186A JP 2002063229 A JP2002063229 A JP 2002063229A JP 2002063229 A JP2002063229 A JP 2002063229A JP 2003263186 A JP2003263186 A JP 2003263186A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- parameter
- recognition
- pattern
- voice recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
も、認識システムのパラメータを高速に訓練することが
でき、高精度な音声認識を行なうことができる音声認識
装置、音声認識方法および音声認識プログラムが記録さ
れた記録媒体を提供する。 【解決手段】 音声データを分析して得られたパターン
を調整パラメータを用いて変換し、変換後のパターンを
特徴パターンとして認識し、調整パラメータを調整する
際には、音声データベースの音声データを用いた特徴パ
ターンを認識モデルで比較し、比較結果の損失を最小化
するように調整パラメータを調整する。
Description
声認識方法および音声認識プログラムが記録された記録
媒体に関し、詳しくは、音声の認識精度を高めるための
特徴パターンを提供することができる音声認識装置、音
声認識方法および音声認識プログラムが記録された記録
媒体に関する。
M)等の確率/統計モデルを用いた音声認識にあって
は、音声の認識率を高くするためには、モデルを表現す
るパラメータを精度よく調整することが重要である。こ
のパラメータ調整手法の一つに文献"Proceeding of IEE
E,Vol.86,no11,pp2354ー2372,November 1998"等に既説さ
れている識別訓練が知られている。
化する基準を用いて、パラメータを調整することができ
るため、高い識別力を実現できる。
音声認識装置は、例えば、特許第3090204号に記
載されているものがあり、この装置は、訓練時に提示す
る語を音節単位に分け、訓練時の語を構成する音節モデ
ルと対象言語を構成する全音節モデルとの間の誤分類度
を調べて、パラメータを調節するようになっている。こ
の方法により、訓練時に提示されていない語を認識する
場合においても高い識別カをもつモデルを提供してい
る。
度が高くなるのを防ぐため、全ての認識モデルのパラメ
ータを十分に調整することによって認識精度を高めてい
る。
精度の劣化は、使用環境の変化(例えば、静かな部屋で
の使用を屋外での使用に変える)によっても起り得るも
のであり、その対応が期待されている。
パラメータ推定が不十分であるというよりも、周囲の環
境の影響によって音声の特徴パターンが変形したために
精度が劣化すると考えられる。
ターンを生成できれば、前記の問題を解決できる。
うな従来の音声認識方法にあっては、特徴パターンを変
換するパラメータと認識モデルのパラメータとの区別は
なく、同一のものとして扱われるため、全認識モデルの
パラメータを再訓練することが必要であり、手間がかか
るという問題があった。
においても、認識システムのパラメータを高速に訓練す
ることができ、高精度な音声認識を行なうことができる
音声認識装置、音声認識方法および音声認識プログラム
が記録された記録媒体を提供することを目的としてい
る。
決するために、音声を入力する入力手段と、音声認識を
行なうための調整可能な調整パラメータおよび音声デー
タベースが格納された記憶手段と、前記入力手段から入
力された音声データの特徴パターンを作成し、この特徴
パターンを前記調整パラメータを有する認識モデルと比
較し、当該比較結果から判断したクラスに分類すること
によって音声認識を行なうとともに、前記音声データベ
ースの音声データを用いて前記調整パラメータを調整す
る制御手段とを備えた音声認識装置において、前記制御
手段は、前記音声データを分析して得られたパターンを
前記調整パラメータを用いて変換し、変換後のパターン
を前記特徴パターンとして認識し、前記調整パラメータ
を調整する際には、前記音声データベースの音声データ
を用いた前記特徴パターンを前記認識モデルで比較し、
比較した結果の損失を最小化するように前記調整パラメ
ータを調整することを特徴としている。
換するパラメータを調整できるようにしたので、使用環
境が変化した場合でも特徴パターンに変換するパラメー
タだけを調整することにより調整時間を短縮することが
できる。また、認識誤り数を最小にする基準を用いてパ
ラメータの訓練を行っているので、高精度な音声認識を
行なうことがきる。
に、音声認識で用いる調整可能な調整パラメータと音声
データベースを準備し、入力した音声データの特徴パタ
ーンを作成し、当該特徴パターンを前記調整パラメータ
を有する認識モデルと比較し、当該比較結果から判断し
たクラスに分類するとともに、前記音声データベースの
音声データを用いて前記調整パラメータを調整する音声
認識方法において、前記音声データを分析して得られた
パターンを前記調整パラメータを用いて変換し、変換後
のパターンを前記特徴パターンとして認識を行ない、前
記調整パラメータを調整する際には、前記音声データベ
ースの音声データを用いた前記特徴パターンを前記認識
モデルで比較し、判断した結果の損失を最小化するよう
に前記特徴パラメータを調整することを特徴としてい
る。
換するパラメータを調整できるようにしたので、使用環
境が変化した場合でも特徴パターンに変換するパラメー
タだけを調整することにより調整時間を短縮することが
できる。また、認識誤り数を最小にする基準を用いてパ
ラメータの訓練を行っているので、高精度な音声認識を
行なうことがきる。
記調整パラメータの調整は、変換処理で使用されるパラ
メータに対して行われることを特徴としている。このよ
うな方法により、誤り最小状態に到達する経路を安定さ
せることができ、調整時間を短縮することができる。
記調整パラメータの調整は、前記認識モデルが有するパ
ラメータに対して行われることを特徴としている。この
ような方法により、誤り最小状態に到達する経路を安定
させることができ、調整時間を短縮することができる。
記調整パラメータの調整は、前記変換処理で使用される
パラメータと前記認識モデルが有するパラメータとの何
れか一方に対して行なった後に、何れか他方のパラメー
タを調整することを特徴としている。
対象を特徴パターンに変換するパラメータと認識モデル
のパラメータとに分けて片方ずつ調整することにより、
誤り最小状態に到達する経路をより一層安定させること
ができるため、調整時間をより一層短縮することができ
る。
記パラメータの調整を繰り返すことを特徴としている。
対象を特徴パターンに変換するパラメータと認識モデル
のパラメータとに分けて片方ずつ調整する作業を繰返す
ことにより、誤り最小状態に到達する経路をより一層安
定させることができるため、調整時間をより一層短縮す
ることができる。
声を入力する入力手段と、音声認識を行なうための調整
可能な調整パラメータおよび音声データベースが格納さ
れた記憶手段とを有するコンピュータに、音声認識を行
なわせるための音声認識プログラムを記録した記録媒体
であって、前記音声データを分析して得られたパターン
を調整可能な調整パラメータを用いて変換する機能と、
変換後の特徴パターンを前記調整パラメータを有する認
識モデルと比較して当該比較結果から判断したクラスに
分類する処理を行なう機能と、前記音声データベースの
音声データを用いて前記特徴パターンを作成し、当該特
徴パターンを前記認識モデルと比較し、当該比較結果の
損失を最小化するように前記調整パラメータを調整する
機能とを行なわせるプログラムを記録している。
に変換するパラメータを調整できるようにしたので、使
用環境が変化した場合でも特徴パターンに変換するパラ
メータだけを調整することにより調整時間を短縮するこ
とができる。また、認識誤り数を最小にする基準を用い
てパラメータの訓練を行っているので、高精度な音声認
識を行なうことがきる。
基づいて説明する。図1、2は本発明に係る音声認識装
置および音声認識方法の一実施形態を示す図である。
て、音声入力装置は、入力装置(入力手段)1、制御装
置(制御手段)2および記憶装置(記憶手段)3から構
成されている。
あり、サウンドカード、マイクロフォンから構成されて
いる。記憶装置3には、音声データベースと音声認識に
用いられる調整可能なパラメータ(調整パラメータ)が
格納されており、図2に示すように音声データベース
4、特徴パターン設計用パラメータ5および認識モデル
設計用パラメータ6を格納している。
声データの特徴パターンを作成し、この特徴パターンを
調整可能なパラメータを有する認識モデルと比較し、当
該比較結果から判断したクラスに分類することによって
音声認識を行なうとともに、音声データベース4に格納
された音声データを用いて調整可能なパラメータを調整
するようになっている。
タを分析して得られたパターンを調整パラメータを用い
て変換し、変換後のパターンを特徴パターンとして認識
し、調整可能なパラメータを調整する際には、音声デー
タベース4に格納された音声データを用いた特徴パター
ンを認識モデルで比較し、比較結果の損失を最小化する
ように調整パラメータを調整するようになっている。
認識モデルの設計に用いられるパラメータが格納され、
認識モデル設計用パラメータ6は認識モデルの設計に用
いるパラメータが格納されている。
ず、特徴パターンyをクラス数U個の中から何れかのク
ラスu(u=1,...,U)に分類する場合について説
明する。クラスの種類は、分類したい対象により、音
素、単語、話者等に設定できる。
置2は音響分析を行なう。音響分析にはよく知られたL
PC(線形予測)分析等を用いることができる。例え
ば、分析条件を、標本化周波数:8KHz、高域強調:一
次差分、256点ハミング窓、移動幅:16ms、LP
C分析次数:20とし、10次元メルケプストラム係数
をフレーム単位のパターンとして抽出することができ
る。なお、音響分析は、上記に限定されるものではな
く、周波数分析など任意の方法を用いても構わない。
れているパラメータを読み出し、音響分析パターンを特
徴パターンに変換する。パラメータを用いた変換関数、
音響分析パターン、特徴パターンをそれぞれQ,xとす
れば特徴パターンyは以下により得られる。 y=Q(x).........(1)
yを、各クラスごとに用意された認識モデルで測り、得
点を求める。各認識モデルは、それぞれ記憶装置3に格
納されているパラメータを読み出すことにより、クラス
ごとの特性を持つ認識モデルとして表わされる。
ラスの得点は、以下のようになる。 hu=gu(y,Λ),(u=1,...,U).........(2) ここで、gu(y,Λ),(u=1,...U)は、クラス
uに対する判別関数である。また、huは特徴パターン
yとパラメータΛ(ラムダ)が与えられたときの得点を
表す。Λは、認識モデルと特徴パターンとの設計時に用
いる全パラメータを表す。
得点を持つクラスに特徴パターンを分類する。すなわち
以下の処理を行なう。
により選択の基準が最小値に設定される場合もあるが、
どちらにしても構わない。本実施形態では、後述の説明
の便宜上、前者を採用する。
識モデルとして文献「電子情報通信学会論文誌(D-I
I),vol.J82-no.5,pp.853−862,May1999」に示され
るような継続時間長制御型状態遷移(DST)モデルを
用いれば、式(2)は以下のように表せる。
状態との対応関係を表し、γ(n)を第n状態と対応す
る部分パターンの終了フレーム番号とする。また、Rn
は第n状態の継続時間に関する距離である。一方、Sn
は特徴パターンに関する第n状態の得点であり、以下の
ように定義する。
る局所距離を表わす。Dには以下のガウス型の距離を用
いる。
ベクトルの要素番号を表す。また、ym=(ymk)はフ
レーム番号mの音声特徴パターンであり、znはR nから
得られた得点の割合を調整する重みである。制御装置2
は、式(4)を、動的計画法に継続時間評価に関する得
点を組み込みながら状態探索を行なうことにより求め
る。
説明する。このとき、制御装置2は、音声データベース
4に蓄えられている訓練用音声データの特徴パターンを
用いて、以下の経験損失L(Λ)が最小になるようにパ
ラメータ調整量を求める。
作成したパターン数を表す。また、lα(y(i),Λ)
はi番目のパターンを入力したときのクラスαに対する
個々の損失である。煩雑になるのを避けるため、以降で
は、y(i)を単にyとし、個々の損失を以下のように定
義する。
単化した形式を用いると以下のようになる。
数値)が最も大きくなるクラスである。式(9)が負の
時にはymが正しく分類されたことを示し、正の時には
誤分類されたことを示す。以上のようにして得られた損
失により制御装置2はパラメータ調整量ΔΛを以下のよ
うにして求める。
置2が以下の繰り返し計算を実行することにより、パラ
メータが最適な状態に調整される。
メータの調整量を求める方法を説明する。例として、式
(1)の特徴パターンyが以下の式により得られた場合
について説明する。
い、特徴パターンに変換している。式(12)の変換は分
析パターンをフィルタリングする効果があり、本実施形
態によるパラメータ調整により、認識誤り数を最小化す
る最適な特徴パターンが認識モデルごとに得られる。
ンを変換しているが、全モデルに対して共通のパラメー
タαを使用することによってγに依存しない特徴パター
ンを得ることももちろん可能である。このとき、本実施
形態で調整されたパラメータは、使用環境において最適
なパターンを提供すると考えられる。
以下になる。
ラメータの更新処理が以下のように求まる。
α(y,Λ)である。
モデルn番目の状態に対応づけられた特徴パターンと分
析パターンのk次元目の要素を示す。
声認識の使用条件が変化しても認識誤りを最小にする特
徴パターンが得られるようになるため、性能の劣化を防
ぐことができる。また、認識モデルのパラメータを変更
する必要がないので、高速な訓練が可能となる。
た場合は、認識モデルのパラメータについても再調整す
ることにより、より精度よく認識を行なうことができ
る。本実施形態で挙げた認識モデルの平均値パラメータ
を調整する場合は、式(10)〜(11)に従って、以下の
ような更新処理を行なう。
表現する他のパラメータについても上記と同様に処理す
ることが可能である。
タに対して調整を同時に行なうと、損失の最小状態に到
達するまでの繰り返し処理に時間がかかってしまう場合
がある。これは、パラメータ数が増えるため、最小状態
への探索経路が不安定になるためである。
認識モデルのパラメータとを分けて以下のように処理す
ることにより、調整を高速に行なうことができる。 1)特徴パターン変換のパラメータを繰り返し調整す
る。 2)損失が減少しなくなったら、次に認識モデルのパラ
メータを繰り返し調整する。 3)損失が減少しなくなったら処理1に戻る。
メータを切り替えても損失が減少しなくなったら終了す
る。以上のようにすれば、ある訓練段階において調整対
象になっているパラメータ規模を小さく抑えることがで
きるので、認識誤り最小状態への探索経路が安定し、高
速に訓練を行える。
ンに変換するパラメータを調整できるようにしたので、
使用環境が変化した場合でも特徴パターンに変換するパ
ラメータだけを調整することにより調整時間を短縮する
ことができる。また、認識誤り数を最小にする基準を用
いてパラメータの訓練を行っているので、高精度な音声
認識を行なうことがきる。
用されるパラメータと認識モデルが有するパラメータと
の何れか一方に対して行なった後に、何れか他方のパラ
メータを調整するようにしたため、パラメータの調整対
象を特徴パターンに変換するパラメータと認識モデルの
パラメータとに分けて片方ずつ調整することにより、誤
り最小状態に到達する経路をより安定させることがで
き、調整時間をより短縮することができる。
を繰り返したため、誤り最小状態に到達する経路をより
一層安定させることができるため、調整時間をより一層
短縮することができる。
録媒体の一実施形態を示す図である。図3は音声認識装
置を示す図であり、図3において、音声認識装置は、ハ
ードディスク11、CPU(Central Processing Unit)1
2、メモリ13、サウンドカード14、マイクロフォン15、
CDーROMドライブ16から構成されている。
は、例えばソフトウェアパッケージ(CDーROM17等
の情報記録媒体)の形態で提供することができる。
実現した場合のハードウェア構成を示すものである。図
3において、CPU12にはメモリ13、入力装置であるサ
ウンドカード14、記憶装置であるハードディスク11、C
D−ROMドライブ16が接続されている。また、サウン
ドカード14には音声を入力するためのマイクロフォン15
が接続されている。
ム23、音声データベース21、パラメータ22、オペレーテ
ィングシステム(OS)が記憶されている。音声認識プ
ログラム23と音声データベース21、パラメータ22はCD
−ROM17に記憶されたものであり、これら音声認識プ
ログラム23と音声データベース21、パラメータ22はCD
−ROMドライブ16を介して、CD−ROM17からイン
ストールされたものである。
タを分析して得られたパターンを調整可能な調整パラメ
ータを用いて変換する機能と、変換後の特徴パターンを
調整パラメータを有する認識モデルと比較して当該比較
結果から判断したクラスに分類する処理を行なう機能
と、音声データベースの音声データを用いて特徴パター
ンを作成し、当該特徴パターンを認識モデルと比較し、
当該比較結果の損失を最小化するように調整パラメータ
を調整する機能とを行なわせるプログラムが記憶されて
おり、音声認識プログラムにはCD−ROM17のプログ
ラムがインストールされる。
と同じである。情報記録媒体とその媒体を駆動するため
のドライブは、CD−ROM17に限られるものではな
く、DVD−ROM、リムーバルディスク等が用いられ
てもよい。また、所定のサーバとネットワークで接続で
きるようにしておき、サーバからインストールしてもよ
い。
ン、パーソナルコンピュータ等の汎用計算機上に情報記
録媒体に記録されたプログラムを読込ませ、計算機のも
つハードウェア構成で所定の処理を実行できる。本プロ
グラムをハードディスクにインストールして実行するこ
とにより音声認識機能を実現することができる。
ータを分析して得られたパターンを調整パラメータを用
いて変換し、変換後のパターンを特徴パターンとして認
識し、調整パラメータを調整する際には、音声データベ
ースの音声データを用いた特徴パターンを認識モデルで
比較し、比較結果の損失を最小化するように調整パラメ
ータを調整するようにした。
ータを調整できるようにしたので、使用環境が変化した
場合でも特徴パターンに変換するパラメータだけを調整
することにより調整時間を短縮することができる。ま
た、認識誤り数を最小にする基準を用いてパラメータの
訓練を行っているので、高精度な音声認識を行なうこと
がきる。
声データを分析して得られたパターンを調整パラメータ
を用いて変換し、変換後のパターンを特徴パターンとし
て認識を行ない、調整パラメータを調整する際には、音
声データベースの音声データを用いた特徴パターンを認
識モデルで比較し、判断した結果の損失を最小化するよ
うに特徴パラメータを調整するようにした。
ータを調整できるようにしたので、使用環境が変化した
場合でも特徴パターンに変換するパラメータだけを調整
することにより調整時間を短縮することができる。ま
た、認識誤り数を最小にする基準を用いてパラメータの
訓練を行っているので、高精度な音声認識を行なうこと
がきる。
整パラメータの調整を、変換処理で使用されるパラメー
タに対して行なうようにしたので、誤り最小状態に到達
する経路を安定させることができ、調整時間を短縮する
ことができる。
整パラメータの調整を、認識モデルが有するパラメータ
に対して行なうようにしたので、誤り最小状態に到達す
る経路を安定させることができ、調整時間を短縮するこ
とができる。
整パラメータの調整を、変換処理で使用されるパラメー
タと認識モデルが有するパラメータとの何れか一方に対
して行なった後に、何れか他方のパラメータを調整する
ようにしたので、パラメータの調整対象を特徴パターン
に変換するパラメータと認識モデルのパラメータとに分
けて片方ずつ調整することにより、誤り最小状態に到達
する経路をより一層安定させることができるため、調整
時間をより一層短縮することができる。
ラメータの調整を繰り返すようにしたので、パラメータ
の調整対象を特徴パターンに変換するパラメータと認識
モデルのパラメータとに分けて片方ずつ調整する作業を
繰返すことにより、誤り最小状態に到達する経路をより
一層安定させることができるため、調整時間をより一層
短縮することができる。
て得られたパターンを調整整能な調整パラメータを用い
て変換する機能と、変換後の特徴パターンを調整パラメ
ータを有する認識モデルと比較して当該比較結果から判
断したクラスに分類する処理を行なう機能と、音声デー
タベースの音声データを用いて特徴パターンを作成し、
当該特徴パターンを認識モデルと比較し、当該比較結果
の損失を最小化するように調整パラメータを調整する機
能とを行なわせるプログラムを記録したので、特徴パタ
ーンに変換するパラメータを調整することができ、使用
環境が変化した場合でも特徴パターンに変換するパラメ
ータだけを調整することにより調整時間を短縮すること
ができる。また、認識誤り数を最小にする基準を用いて
パラメータの訓練を行っているので、高精度な音声認識
を行なうことがきる。
の一実施形態を示す図であり、その音声認識装置のブロ
ック図である。
記録媒体を示す図であり、音声認識装置のCPUを用い
て実現した場合のハードウェア構成を示す図である。
Claims (7)
- 【請求項1】音声を入力する入力手段と、 音声認識を行なうための調整可能な調整パラメータおよ
び音声データベースが格納された記憶手段と、 前記入力手段から入力された音声データの特徴パターン
を作成し、この特徴パターンを前記調整パラメータを有
する認識モデルと比較し、当該比較結果から判断したク
ラスに分類することによって音声認識を行なうととも
に、前記音声データベースの音声データを用いて前記調
整パラメータを調整する制御手段とを備えた音声認識装
置において、 前記制御手段は、前記音声データを分析して得られたパ
ターンを前記調整パラメータを用いて変換し、変換後の
パターンを前記特徴パターンとして認識し、前記調整パ
ラメータを調整する際には、前記音声データベースの音
声データを用いた前記特徴パターンを前記認識モデルで
比較し、比較した結果の損失を最小化するように前記調
整パラメータを調整することを特徴とする音声認識装
置。 - 【請求項2】音声認識で用いる調整可能な調整パラメー
タと音声データベースを準備し、入力した音声データの
特徴パターンを作成し、当該特徴パターンを前記調整パ
ラメータを有する認識モデルと比較し、当該比較結果か
ら判断したクラスに分類するとともに、前記音声データ
ベースの音声データを用いて前記調整パラメータを調整
する音声認識方法において、 前記音声データを分析して得られたパターンを前記調整
パラメータを用いて変換し、変換後のパターンを前記特
徴パターンとして認識を行ない、前記調整パラメータを
調整する際には、前記音声データベースの音声データを
用いた前記特徴パターンを前記認識モデルで比較し、判
断した結果の損失を最小化するように前記特徴パラメー
タを調整することを特徴とする音声認識方法。 - 【請求項3】前記調整パラメータの調整は、変換処理で
使用されるパラメータに対して行われることを特徴とす
る請求項2記載の音声認識方法。 - 【請求項4】前記調整パラメータの調整は、前記認識モ
デルが有するパラメータに対して行われることを特徴と
する請求項2または3記載の音声認識方法。 - 【請求項5】前記調整パラメータの調整は、前記変換処
理で使用されるパラメータと前記認識モデルが有するパ
ラメータとの何れか一方に対して行なった後に、何れか
他方のパラメータを調整することを特徴とする請求項2
〜4何れかに記載の音声認識方法。 - 【請求項6】前記パラメータの調整を繰り返すことを特
徴とするもの請求項5記載の音声認識方法。 - 【請求項7】音声を入力する入力手段と、音声認識を行
なうための調整可能な調整パラメータおよび音声データ
ベースが格納された記憶手段とを有するコンピュータ
に、音声認識を行なわせるための音声認識プログラムを
記録した記録媒体であって、 前記音声データを分析して得られたパターンを調整可能
な調整パラメータを用いて変換する機能と、変換後の特
徴パターンを前記調整パラメータを有する認識モデルと
比較して当該比較結果から判断したクラスに分類する処
理を行なう機能と、前記音声データベースの音声データ
を用いて前記特徴パターンを作成し、当該特徴パターン
を前記認識モデルと比較し、当該比較結果の損失を最小
化するように前記調整パラメータを調整する機能とを行
なわせるプログラムを記録した記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002063229A JP4008267B2 (ja) | 2002-03-08 | 2002-03-08 | 音声認識装置、音声認識方法および音声認識プログラムが記録された記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002063229A JP4008267B2 (ja) | 2002-03-08 | 2002-03-08 | 音声認識装置、音声認識方法および音声認識プログラムが記録された記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003263186A true JP2003263186A (ja) | 2003-09-19 |
JP4008267B2 JP4008267B2 (ja) | 2007-11-14 |
Family
ID=29196610
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002063229A Expired - Fee Related JP4008267B2 (ja) | 2002-03-08 | 2002-03-08 | 音声認識装置、音声認識方法および音声認識プログラムが記録された記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4008267B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005338358A (ja) * | 2004-05-26 | 2005-12-08 | Nippon Telegr & Teleph Corp <Ntt> | 音響モデル雑音適応化方法およびこの方法を実施する装置 |
-
2002
- 2002-03-08 JP JP2002063229A patent/JP4008267B2/ja not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005338358A (ja) * | 2004-05-26 | 2005-12-08 | Nippon Telegr & Teleph Corp <Ntt> | 音響モデル雑音適応化方法およびこの方法を実施する装置 |
JP4510517B2 (ja) * | 2004-05-26 | 2010-07-28 | 日本電信電話株式会社 | 音響モデル雑音適応化方法およびこの方法を実施する装置 |
Also Published As
Publication number | Publication date |
---|---|
JP4008267B2 (ja) | 2007-11-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8290773B2 (en) | Information processing apparatus, method and recording medium for generating acoustic model | |
JP5229216B2 (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
JP3053711B2 (ja) | 音声認識装置およびそのトレーニング方法ならびに装置 | |
US8315870B2 (en) | Rescoring speech recognition hypothesis using prosodic likelihood | |
US8019602B2 (en) | Automatic speech recognition learning using user corrections | |
Katagiri et al. | Pattern recognition using a family of design algorithms based upon the generalized probabilistic descent method | |
US8532991B2 (en) | Speech models generated using competitive training, asymmetric training, and data boosting | |
US8606580B2 (en) | Speech data process unit and speech data process unit control program for speech recognition | |
US7672847B2 (en) | Discriminative training of hidden Markov models for continuous speech recognition | |
KR100612840B1 (ko) | 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치 | |
JP2002366187A (ja) | 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体 | |
JP4515054B2 (ja) | 音声認識の方法および音声信号を復号化する方法 | |
JP2004512544A (ja) | 連続音声認識における識別訓練された混合モデル | |
US20030023438A1 (en) | Method and system for the training of parameters of a pattern recognition system, each parameter being associated with exactly one realization variant of a pattern from an inventory | |
Solera-Ureña et al. | Svms for automatic speech recognition: a survey | |
US8078462B2 (en) | Apparatus for creating speaker model, and computer program product | |
JP3919475B2 (ja) | 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、並びに、プログラム記録媒体 | |
JP4796460B2 (ja) | 音声認識装置及び音声認識プログラム | |
JP3403838B2 (ja) | 句境界確率計算装置および句境界確率利用連続音声認識装置 | |
JP3754613B2 (ja) | 話者特徴推定装置および話者特徴推定方法、クラスタモデル作成装置、音声認識装置、音声合成装置、並びに、プログラム記録媒体 | |
JP4008267B2 (ja) | 音声認識装置、音声認識方法および音声認識プログラムが記録された記録媒体 | |
JP3061292B2 (ja) | アクセント句境界検出装置 | |
KR100488121B1 (ko) | 화자간 변별력 향상을 위하여 개인별 켑스트럼 가중치를 적용한 화자 인증 장치 및 그 방법 | |
JP2001272994A (ja) | 学習装置および学習方法およびパターン認識装置およびパターン認識方法および記録媒体 | |
JP2000137495A (ja) | 音声認識装置および音声認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041117 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060718 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060919 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070227 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070501 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070828 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070829 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100907 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110907 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120907 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130907 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |