JP2003263186A - 音声認識装置、音声認識方法および音声認識プログラムが記録された記録媒体 - Google Patents

音声認識装置、音声認識方法および音声認識プログラムが記録された記録媒体

Info

Publication number
JP2003263186A
JP2003263186A JP2002063229A JP2002063229A JP2003263186A JP 2003263186 A JP2003263186 A JP 2003263186A JP 2002063229 A JP2002063229 A JP 2002063229A JP 2002063229 A JP2002063229 A JP 2002063229A JP 2003263186 A JP2003263186 A JP 2003263186A
Authority
JP
Japan
Prior art keywords
voice
parameter
recognition
pattern
voice recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002063229A
Other languages
English (en)
Other versions
JP4008267B2 (ja
Inventor
Yoshinaga Kato
喜永 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2002063229A priority Critical patent/JP4008267B2/ja
Publication of JP2003263186A publication Critical patent/JP2003263186A/ja
Application granted granted Critical
Publication of JP4008267B2 publication Critical patent/JP4008267B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 本発明は、使用環境が変化した場合において
も、認識システムのパラメータを高速に訓練することが
でき、高精度な音声認識を行なうことができる音声認識
装置、音声認識方法および音声認識プログラムが記録さ
れた記録媒体を提供する。 【解決手段】 音声データを分析して得られたパターン
を調整パラメータを用いて変換し、変換後のパターンを
特徴パターンとして認識し、調整パラメータを調整する
際には、音声データベースの音声データを用いた特徴パ
ターンを認識モデルで比較し、比較結果の損失を最小化
するように調整パラメータを調整する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識装置、音
声認識方法および音声認識プログラムが記録された記録
媒体に関し、詳しくは、音声の認識精度を高めるための
特徴パターンを提供することができる音声認識装置、音
声認識方法および音声認識プログラムが記録された記録
媒体に関する。
【0002】
【従来の技術】一般的に、Hidden Markov Model(HM
M)等の確率/統計モデルを用いた音声認識にあって
は、音声の認識率を高くするためには、モデルを表現す
るパラメータを精度よく調整することが重要である。こ
のパラメータ調整手法の一つに文献"Proceeding of IEE
E,Vol.86,no11,pp2354ー2372,November 1998"等に既説さ
れている識別訓練が知られている。
【0003】この手法によれば、直接認識誤り数を最小
化する基準を用いて、パラメータを調整することができ
るため、高い識別力を実現できる。
【0004】また、識別訓練による認識モデルを用いた
音声認識装置は、例えば、特許第3090204号に記
載されているものがあり、この装置は、訓練時に提示す
る語を音節単位に分け、訓練時の語を構成する音節モデ
ルと対象言語を構成する全音節モデルとの間の誤分類度
を調べて、パラメータを調節するようになっている。こ
の方法により、訓練時に提示されていない語を認識する
場合においても高い識別カをもつモデルを提供してい
る。
【0005】このように従来では、学習対象語への依存
度が高くなるのを防ぐため、全ての認識モデルのパラメ
ータを十分に調整することによって認識精度を高めてい
る。
【0006】このような音声認識方法にあっては、認識
精度の劣化は、使用環境の変化(例えば、静かな部屋で
の使用を屋外での使用に変える)によっても起り得るも
のであり、その対応が期待されている。
【0007】使用環境による変化は、認識モデル自体の
パラメータ推定が不十分であるというよりも、周囲の環
境の影響によって音声の特徴パターンが変形したために
精度が劣化すると考えられる。
【0008】したがって、環境の変化に適合した特徴パ
ターンを生成できれば、前記の問題を解決できる。
【0009】
【発明が解決しようとする課題】しかしながら、このよ
うな従来の音声認識方法にあっては、特徴パターンを変
換するパラメータと認識モデルのパラメータとの区別は
なく、同一のものとして扱われるため、全認識モデルの
パラメータを再訓練することが必要であり、手間がかか
るという問題があった。
【0010】そこで本発明は、使用環境が変化した場合
においても、認識システムのパラメータを高速に訓練す
ることができ、高精度な音声認識を行なうことができる
音声認識装置、音声認識方法および音声認識プログラム
が記録された記録媒体を提供することを目的としてい
る。
【0011】
【課題を解決するための手段】本発明は、上記課題を解
決するために、音声を入力する入力手段と、音声認識を
行なうための調整可能な調整パラメータおよび音声デー
タベースが格納された記憶手段と、前記入力手段から入
力された音声データの特徴パターンを作成し、この特徴
パターンを前記調整パラメータを有する認識モデルと比
較し、当該比較結果から判断したクラスに分類すること
によって音声認識を行なうとともに、前記音声データベ
ースの音声データを用いて前記調整パラメータを調整す
る制御手段とを備えた音声認識装置において、前記制御
手段は、前記音声データを分析して得られたパターンを
前記調整パラメータを用いて変換し、変換後のパターン
を前記特徴パターンとして認識し、前記調整パラメータ
を調整する際には、前記音声データベースの音声データ
を用いた前記特徴パターンを前記認識モデルで比較し、
比較した結果の損失を最小化するように前記調整パラメ
ータを調整することを特徴としている。
【0012】このような構成により、特徴パターンに変
換するパラメータを調整できるようにしたので、使用環
境が変化した場合でも特徴パターンに変換するパラメー
タだけを調整することにより調整時間を短縮することが
できる。また、認識誤り数を最小にする基準を用いてパ
ラメータの訓練を行っているので、高精度な音声認識を
行なうことがきる。
【0013】また、本発明は、上記課題を解決するため
に、音声認識で用いる調整可能な調整パラメータと音声
データベースを準備し、入力した音声データの特徴パタ
ーンを作成し、当該特徴パターンを前記調整パラメータ
を有する認識モデルと比較し、当該比較結果から判断し
たクラスに分類するとともに、前記音声データベースの
音声データを用いて前記調整パラメータを調整する音声
認識方法において、前記音声データを分析して得られた
パターンを前記調整パラメータを用いて変換し、変換後
のパターンを前記特徴パターンとして認識を行ない、前
記調整パラメータを調整する際には、前記音声データベ
ースの音声データを用いた前記特徴パターンを前記認識
モデルで比較し、判断した結果の損失を最小化するよう
に前記特徴パラメータを調整することを特徴としてい
る。
【0014】このような方法により、特徴パターンに変
換するパラメータを調整できるようにしたので、使用環
境が変化した場合でも特徴パターンに変換するパラメー
タだけを調整することにより調整時間を短縮することが
できる。また、認識誤り数を最小にする基準を用いてパ
ラメータの訓練を行っているので、高精度な音声認識を
行なうことがきる。
【0015】本発明は、上記課題を解決するために、前
記調整パラメータの調整は、変換処理で使用されるパラ
メータに対して行われることを特徴としている。このよ
うな方法により、誤り最小状態に到達する経路を安定さ
せることができ、調整時間を短縮することができる。
【0016】本発明は、上記課題を解決するために、前
記調整パラメータの調整は、前記認識モデルが有するパ
ラメータに対して行われることを特徴としている。この
ような方法により、誤り最小状態に到達する経路を安定
させることができ、調整時間を短縮することができる。
【0017】本発明は、上記課題を解決するために、前
記調整パラメータの調整は、前記変換処理で使用される
パラメータと前記認識モデルが有するパラメータとの何
れか一方に対して行なった後に、何れか他方のパラメー
タを調整することを特徴としている。
【0018】このような方法により、パラメータの調整
対象を特徴パターンに変換するパラメータと認識モデル
のパラメータとに分けて片方ずつ調整することにより、
誤り最小状態に到達する経路をより一層安定させること
ができるため、調整時間をより一層短縮することができ
る。
【0019】本発明は、上記課題を解決するために、前
記パラメータの調整を繰り返すことを特徴としている。
【0020】このような方法により、パラメータの調整
対象を特徴パターンに変換するパラメータと認識モデル
のパラメータとに分けて片方ずつ調整する作業を繰返す
ことにより、誤り最小状態に到達する経路をより一層安
定させることができるため、調整時間をより一層短縮す
ることができる。
【0021】本発明は、上記課題を解決するために、音
声を入力する入力手段と、音声認識を行なうための調整
可能な調整パラメータおよび音声データベースが格納さ
れた記憶手段とを有するコンピュータに、音声認識を行
なわせるための音声認識プログラムを記録した記録媒体
であって、前記音声データを分析して得られたパターン
を調整可能な調整パラメータを用いて変換する機能と、
変換後の特徴パターンを前記調整パラメータを有する認
識モデルと比較して当該比較結果から判断したクラスに
分類する処理を行なう機能と、前記音声データベースの
音声データを用いて前記特徴パターンを作成し、当該特
徴パターンを前記認識モデルと比較し、当該比較結果の
損失を最小化するように前記調整パラメータを調整する
機能とを行なわせるプログラムを記録している。
【0022】このような記録媒体により、特徴パターン
に変換するパラメータを調整できるようにしたので、使
用環境が変化した場合でも特徴パターンに変換するパラ
メータだけを調整することにより調整時間を短縮するこ
とができる。また、認識誤り数を最小にする基準を用い
てパラメータの訓練を行っているので、高精度な音声認
識を行なうことがきる。
【0023】
【発明の実施の形態】以下、本発明の実施形態を図面に
基づいて説明する。図1、2は本発明に係る音声認識装
置および音声認識方法の一実施形態を示す図である。
【0024】まず、構成を説明する。図1、2におい
て、音声入力装置は、入力装置(入力手段)1、制御装
置(制御手段)2および記憶装置(記憶手段)3から構
成されている。
【0025】入力装置1は音声を入力するためのもので
あり、サウンドカード、マイクロフォンから構成されて
いる。記憶装置3には、音声データベースと音声認識に
用いられる調整可能なパラメータ(調整パラメータ)が
格納されており、図2に示すように音声データベース
4、特徴パターン設計用パラメータ5および認識モデル
設計用パラメータ6を格納している。
【0026】制御装置2は入力装置1から入力された音
声データの特徴パターンを作成し、この特徴パターンを
調整可能なパラメータを有する認識モデルと比較し、当
該比較結果から判断したクラスに分類することによって
音声認識を行なうとともに、音声データベース4に格納
された音声データを用いて調整可能なパラメータを調整
するようになっている。
【0027】本実施形態では、制御手段2は、音声デー
タを分析して得られたパターンを調整パラメータを用い
て変換し、変換後のパターンを特徴パターンとして認識
し、調整可能なパラメータを調整する際には、音声デー
タベース4に格納された音声データを用いた特徴パター
ンを認識モデルで比較し、比較結果の損失を最小化する
ように調整パラメータを調整するようになっている。
【0028】なお、特徴パターン設計用パラメータ5は
認識モデルの設計に用いられるパラメータが格納され、
認識モデル設計用パラメータ6は認識モデルの設計に用
いるパラメータが格納されている。
【0029】次に、音声認識方法について説明する。ま
ず、特徴パターンyをクラス数U個の中から何れかのク
ラスu(u=1,...,U)に分類する場合について説
明する。クラスの種類は、分類したい対象により、音
素、単語、話者等に設定できる。
【0030】入力装置1から音声が入力されると制御装
置2は音響分析を行なう。音響分析にはよく知られたL
PC(線形予測)分析等を用いることができる。例え
ば、分析条件を、標本化周波数:8KHz、高域強調:一
次差分、256点ハミング窓、移動幅:16ms、LP
C分析次数:20とし、10次元メルケプストラム係数
をフレーム単位のパターンとして抽出することができ
る。なお、音響分析は、上記に限定されるものではな
く、周波数分析など任意の方法を用いても構わない。
【0031】次いで、制御装置2は記憶装置3に格納さ
れているパラメータを読み出し、音響分析パターンを特
徴パターンに変換する。パラメータを用いた変換関数、
音響分析パターン、特徴パターンをそれぞれQ,xとす
れば特徴パターンyは以下により得られる。 y=Q(x).........(1)
【0032】次いで、制御装置2は、変換後のパターン
yを、各クラスごとに用意された認識モデルで測り、得
点を求める。各認識モデルは、それぞれ記憶装置3に格
納されているパラメータを読み出すことにより、クラス
ごとの特性を持つ認識モデルとして表わされる。
【0033】具体例として判別関数を用いた場合、各ク
ラスの得点は、以下のようになる。 hu=gu(y,Λ),(u=1,...,U).........(2) ここで、gu(y,Λ),(u=1,...U)は、クラス
uに対する判別関数である。また、huは特徴パターン
yとパラメータΛ(ラムダ)が与えられたときの得点を
表す。Λは、認識モデルと特徴パターンとの設計時に用
いる全パラメータを表す。
【0034】制御装置2は、U個の得点を計算し、最大
得点を持つクラスに特徴パターンを分類する。すなわち
以下の処理を行なう。
【0035】
【数1】 ここで、bは分類されたクラスである。判別関数の設計
により選択の基準が最小値に設定される場合もあるが、
どちらにしても構わない。本実施形態では、後述の説明
の便宜上、前者を採用する。
【0036】判別関数に関してより詳細に説明する。認
識モデルとして文献「電子情報通信学会論文誌(D-I
I),vol.J82-no.5,pp.853−862,May1999」に示され
るような継続時間長制御型状態遷移(DST)モデルを
用いれば、式(2)は以下のように表せる。
【0037】
【数2】 γ(・)は照合により得られた特徴パターンとモデルの各
状態との対応関係を表し、γ(n)を第n状態と対応す
る部分パターンの終了フレーム番号とする。また、Rn
は第n状態の継続時間に関する距離である。一方、Sn
は特徴パターンに関する第n状態の得点であり、以下の
ように定義する。
【0038】
【数3】 ここで、Tn,Dはそれぞれバイアス値と各状態におけ
る局所距離を表わす。Dには以下のガウス型の距離を用
いる。
【0039】
【数4】 ここで、
【0040】
【数5】 は、それぞれ第n状態の平均、分散であり、kはK次元
ベクトルの要素番号を表す。また、ym=(ymk)はフ
レーム番号mの音声特徴パターンであり、znはR nから
得られた得点の割合を調整する重みである。制御装置2
は、式(4)を、動的計画法に継続時間評価に関する得
点を組み込みながら状態探索を行なうことにより求め
る。
【0041】次に、パラメータを調整する場合について
説明する。このとき、制御装置2は、音声データベース
4に蓄えられている訓練用音声データの特徴パターンを
用いて、以下の経験損失L(Λ)が最小になるようにパ
ラメータ調整量を求める。
【0042】
【数6】 ここで、Mは音声データベース4にある音声データから
作成したパターン数を表す。また、lα(y(i),Λ)
はi番目のパターンを入力したときのクラスαに対する
個々の損失である。煩雑になるのを避けるため、以降で
は、y(i)を単にyとし、個々の損失を以下のように定
義する。
【0043】
【数7】 ここで、dα(y,Λ)は、誤分類測度であり、特に簡
単化した形式を用いると以下のようになる。
【0044】
【数8】 ここで、αは正解を表し、βは、α以外で得点(判別関
数値)が最も大きくなるクラスである。式(9)が負の
時にはymが正しく分類されたことを示し、正の時には
誤分類されたことを示す。以上のようにして得られた損
失により制御装置2はパラメータ調整量ΔΛを以下のよ
うにして求める。
【0045】
【数9】 ここでηは正の小さな学習係数である。さらに、制御装
置2が以下の繰り返し計算を実行することにより、パラ
メータが最適な状態に調整される。
【0046】
【数10】 但し、t回適用後のパラメータをΛ(t)としている。
【0047】以降で、式(10)〜(11)の具体的なパラ
メータの調整量を求める方法を説明する。例として、式
(1)の特徴パターンyが以下の式により得られた場合
について説明する。
【0048】y=aγx.........(12) ここで、
【数11】 は、分析パターンを認識モデルγごとに重みづけを行な
い、特徴パターンに変換している。式(12)の変換は分
析パターンをフィルタリングする効果があり、本実施形
態によるパラメータ調整により、認識誤り数を最小化す
る最適な特徴パターンが認識モデルごとに得られる。
【0049】式(12)では、認識モデルγごとにパター
ンを変換しているが、全モデルに対して共通のパラメー
タαを使用することによってγに依存しない特徴パター
ンを得ることももちろん可能である。このとき、本実施
形態で調整されたパラメータは、使用環境において最適
なパターンを提供すると考えられる。
【0050】さて、ここで調整パラメータは、
【数12】 であるから、式(10)に従って、損失の勾配を求めると
以下になる。
【0051】
【数13】 式(13)を解き、式(11)に反映すれば、訓練によるパ
ラメータの更新処理が以下のように求まる。
【0052】
【数14】 ここで、l´α(y,Λ)={1−lα(y,Λ)}l
α(y,Λ)である。
【0053】また、yΘ(n)k,xΘ(n)kはそれぞれ認識
モデルn番目の状態に対応づけられた特徴パターンと分
析パターンのk次元目の要素を示す。
【0054】以上のようにパラメータを調整すれば、音
声認識の使用条件が変化しても認識誤りを最小にする特
徴パターンが得られるようになるため、性能の劣化を防
ぐことができる。また、認識モデルのパラメータを変更
する必要がないので、高速な訓練が可能となる。
【0055】ところで、訓練用の音声データが追加され
た場合は、認識モデルのパラメータについても再調整す
ることにより、より精度よく認識を行なうことができ
る。本実施形態で挙げた認識モデルの平均値パラメータ
を調整する場合は、式(10)〜(11)に従って、以下の
ような更新処理を行なう。
【0056】
【数15】 他に分散や継続時間長制御パラメータなど認識モデルを
表現する他のパラメータについても上記と同様に処理す
ることが可能である。
【0057】さて、音声認識処理を実現する全パラメー
タに対して調整を同時に行なうと、損失の最小状態に到
達するまでの繰り返し処理に時間がかかってしまう場合
がある。これは、パラメータ数が増えるため、最小状態
への探索経路が不安定になるためである。
【0058】そこで特徴パターン変換のパラメータと、
認識モデルのパラメータとを分けて以下のように処理す
ることにより、調整を高速に行なうことができる。 1)特徴パターン変換のパラメータを繰り返し調整す
る。 2)損失が減少しなくなったら、次に認識モデルのパラ
メータを繰り返し調整する。 3)損失が減少しなくなったら処理1に戻る。
【0059】処理1から3を繰り返し、調整対象のパラ
メータを切り替えても損失が減少しなくなったら終了す
る。以上のようにすれば、ある訓練段階において調整対
象になっているパラメータ規模を小さく抑えることがで
きるので、認識誤り最小状態への探索経路が安定し、高
速に訓練を行える。
【0060】以上のように本実施形態では、特徴パター
ンに変換するパラメータを調整できるようにしたので、
使用環境が変化した場合でも特徴パターンに変換するパ
ラメータだけを調整することにより調整時間を短縮する
ことができる。また、認識誤り数を最小にする基準を用
いてパラメータの訓練を行っているので、高精度な音声
認識を行なうことがきる。
【0061】また、パラメータの調整は、変換処理で使
用されるパラメータと認識モデルが有するパラメータと
の何れか一方に対して行なった後に、何れか他方のパラ
メータを調整するようにしたため、パラメータの調整対
象を特徴パターンに変換するパラメータと認識モデルの
パラメータとに分けて片方ずつ調整することにより、誤
り最小状態に到達する経路をより安定させることがで
き、調整時間をより短縮することができる。
【0062】本実施形態では、特に、パラメータの調整
を繰り返したため、誤り最小状態に到達する経路をより
一層安定させることができるため、調整時間をより一層
短縮することができる。
【0063】図3は音声認識プログラムが記録された記
録媒体の一実施形態を示す図である。図3は音声認識装
置を示す図であり、図3において、音声認識装置は、ハ
ードディスク11、CPU(Central Processing Unit)1
2、メモリ13、サウンドカード14、マイクロフォン15、
CDーROMドライブ16から構成されている。
【0064】本実施形態では、上述した音声認識機能
は、例えばソフトウェアパッケージ(CDーROM17等
の情報記録媒体)の形態で提供することができる。
【0065】図3は図1の制御装置2をCPUを用いて
実現した場合のハードウェア構成を示すものである。図
3において、CPU12にはメモリ13、入力装置であるサ
ウンドカード14、記憶装置であるハードディスク11、C
D−ROMドライブ16が接続されている。また、サウン
ドカード14には音声を入力するためのマイクロフォン15
が接続されている。
【0066】ハードディスク11には、音声認識プログラ
ム23、音声データベース21、パラメータ22、オペレーテ
ィングシステム(OS)が記憶されている。音声認識プ
ログラム23と音声データベース21、パラメータ22はCD
−ROM17に記憶されたものであり、これら音声認識プ
ログラム23と音声データベース21、パラメータ22はCD
−ROMドライブ16を介して、CD−ROM17からイン
ストールされたものである。
【0067】すなわち、CD−ROM17には、音声デー
タを分析して得られたパターンを調整可能な調整パラメ
ータを用いて変換する機能と、変換後の特徴パターンを
調整パラメータを有する認識モデルと比較して当該比較
結果から判断したクラスに分類する処理を行なう機能
と、音声データベースの音声データを用いて特徴パター
ンを作成し、当該特徴パターンを認識モデルと比較し、
当該比較結果の損失を最小化するように調整パラメータ
を調整する機能とを行なわせるプログラムが記憶されて
おり、音声認識プログラムにはCD−ROM17のプログ
ラムがインストールされる。
【0068】パラメータ22の内容は、図2で示したもの
と同じである。情報記録媒体とその媒体を駆動するため
のドライブは、CD−ROM17に限られるものではな
く、DVD−ROM、リムーバルディスク等が用いられ
てもよい。また、所定のサーバとネットワークで接続で
きるようにしておき、サーバからインストールしてもよ
い。
【0069】本実施形態によれば、ワークステーショ
ン、パーソナルコンピュータ等の汎用計算機上に情報記
録媒体に記録されたプログラムを読込ませ、計算機のも
つハードウェア構成で所定の処理を実行できる。本プロ
グラムをハードディスクにインストールして実行するこ
とにより音声認識機能を実現することができる。
【0070】
【発明の効果】本発明の音声認識装置によれば、音声デ
ータを分析して得られたパターンを調整パラメータを用
いて変換し、変換後のパターンを特徴パターンとして認
識し、調整パラメータを調整する際には、音声データベ
ースの音声データを用いた特徴パターンを認識モデルで
比較し、比較結果の損失を最小化するように調整パラメ
ータを調整するようにした。
【0071】すなわち、特徴パターンに変換するパラメ
ータを調整できるようにしたので、使用環境が変化した
場合でも特徴パターンに変換するパラメータだけを調整
することにより調整時間を短縮することができる。ま
た、認識誤り数を最小にする基準を用いてパラメータの
訓練を行っているので、高精度な音声認識を行なうこと
がきる。
【0072】また、本発明の音声認識方法によれば、音
声データを分析して得られたパターンを調整パラメータ
を用いて変換し、変換後のパターンを特徴パターンとし
て認識を行ない、調整パラメータを調整する際には、音
声データベースの音声データを用いた特徴パターンを認
識モデルで比較し、判断した結果の損失を最小化するよ
うに特徴パラメータを調整するようにした。
【0073】すなわち、特徴パターンに変換するパラメ
ータを調整できるようにしたので、使用環境が変化した
場合でも特徴パターンに変換するパラメータだけを調整
することにより調整時間を短縮することができる。ま
た、認識誤り数を最小にする基準を用いてパラメータの
訓練を行っているので、高精度な音声認識を行なうこと
がきる。
【0074】また、本発明の音声認識方法によれば、調
整パラメータの調整を、変換処理で使用されるパラメー
タに対して行なうようにしたので、誤り最小状態に到達
する経路を安定させることができ、調整時間を短縮する
ことができる。
【0075】また、本発明の音声認識方法によれば、調
整パラメータの調整を、認識モデルが有するパラメータ
に対して行なうようにしたので、誤り最小状態に到達す
る経路を安定させることができ、調整時間を短縮するこ
とができる。
【0076】また、本発明の音声認識方法によれば、調
整パラメータの調整を、変換処理で使用されるパラメー
タと認識モデルが有するパラメータとの何れか一方に対
して行なった後に、何れか他方のパラメータを調整する
ようにしたので、パラメータの調整対象を特徴パターン
に変換するパラメータと認識モデルのパラメータとに分
けて片方ずつ調整することにより、誤り最小状態に到達
する経路をより一層安定させることができるため、調整
時間をより一層短縮することができる。
【0077】また、本発明の音声認識方法によれば、パ
ラメータの調整を繰り返すようにしたので、パラメータ
の調整対象を特徴パターンに変換するパラメータと認識
モデルのパラメータとに分けて片方ずつ調整する作業を
繰返すことにより、誤り最小状態に到達する経路をより
一層安定させることができるため、調整時間をより一層
短縮することができる。
【0078】本発明の記録媒体は、音声データを分析し
て得られたパターンを調整整能な調整パラメータを用い
て変換する機能と、変換後の特徴パターンを調整パラメ
ータを有する認識モデルと比較して当該比較結果から判
断したクラスに分類する処理を行なう機能と、音声デー
タベースの音声データを用いて特徴パターンを作成し、
当該特徴パターンを認識モデルと比較し、当該比較結果
の損失を最小化するように調整パラメータを調整する機
能とを行なわせるプログラムを記録したので、特徴パタ
ーンに変換するパラメータを調整することができ、使用
環境が変化した場合でも特徴パターンに変換するパラメ
ータだけを調整することにより調整時間を短縮すること
ができる。また、認識誤り数を最小にする基準を用いて
パラメータの訓練を行っているので、高精度な音声認識
を行なうことがきる。
【図面の簡単な説明】
【図1】本発明に係る音声認識装置および音声認識方法
の一実施形態を示す図であり、その音声認識装置のブロ
ック図である。
【図2】一実施形態の記憶装置の構成図である。
【図3】本発明に係る音声認識プログラムが記録された
記録媒体を示す図であり、音声認識装置のCPUを用い
て実現した場合のハードウェア構成を示す図である。
【符号の説明】
1 入力装置(入力手段) 2 制御装置(制御手段) 3 記憶装置(記憶手段) 17 CD−ROM(記録媒体)

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】音声を入力する入力手段と、 音声認識を行なうための調整可能な調整パラメータおよ
    び音声データベースが格納された記憶手段と、 前記入力手段から入力された音声データの特徴パターン
    を作成し、この特徴パターンを前記調整パラメータを有
    する認識モデルと比較し、当該比較結果から判断したク
    ラスに分類することによって音声認識を行なうととも
    に、前記音声データベースの音声データを用いて前記調
    整パラメータを調整する制御手段とを備えた音声認識装
    置において、 前記制御手段は、前記音声データを分析して得られたパ
    ターンを前記調整パラメータを用いて変換し、変換後の
    パターンを前記特徴パターンとして認識し、前記調整パ
    ラメータを調整する際には、前記音声データベースの音
    声データを用いた前記特徴パターンを前記認識モデルで
    比較し、比較した結果の損失を最小化するように前記調
    整パラメータを調整することを特徴とする音声認識装
    置。
  2. 【請求項2】音声認識で用いる調整可能な調整パラメー
    タと音声データベースを準備し、入力した音声データの
    特徴パターンを作成し、当該特徴パターンを前記調整パ
    ラメータを有する認識モデルと比較し、当該比較結果か
    ら判断したクラスに分類するとともに、前記音声データ
    ベースの音声データを用いて前記調整パラメータを調整
    する音声認識方法において、 前記音声データを分析して得られたパターンを前記調整
    パラメータを用いて変換し、変換後のパターンを前記特
    徴パターンとして認識を行ない、前記調整パラメータを
    調整する際には、前記音声データベースの音声データを
    用いた前記特徴パターンを前記認識モデルで比較し、判
    断した結果の損失を最小化するように前記特徴パラメー
    タを調整することを特徴とする音声認識方法。
  3. 【請求項3】前記調整パラメータの調整は、変換処理で
    使用されるパラメータに対して行われることを特徴とす
    る請求項2記載の音声認識方法。
  4. 【請求項4】前記調整パラメータの調整は、前記認識モ
    デルが有するパラメータに対して行われることを特徴と
    する請求項2または3記載の音声認識方法。
  5. 【請求項5】前記調整パラメータの調整は、前記変換処
    理で使用されるパラメータと前記認識モデルが有するパ
    ラメータとの何れか一方に対して行なった後に、何れか
    他方のパラメータを調整することを特徴とする請求項2
    〜4何れかに記載の音声認識方法。
  6. 【請求項6】前記パラメータの調整を繰り返すことを特
    徴とするもの請求項5記載の音声認識方法。
  7. 【請求項7】音声を入力する入力手段と、音声認識を行
    なうための調整可能な調整パラメータおよび音声データ
    ベースが格納された記憶手段とを有するコンピュータ
    に、音声認識を行なわせるための音声認識プログラムを
    記録した記録媒体であって、 前記音声データを分析して得られたパターンを調整可能
    な調整パラメータを用いて変換する機能と、変換後の特
    徴パターンを前記調整パラメータを有する認識モデルと
    比較して当該比較結果から判断したクラスに分類する処
    理を行なう機能と、前記音声データベースの音声データ
    を用いて前記特徴パターンを作成し、当該特徴パターン
    を前記認識モデルと比較し、当該比較結果の損失を最小
    化するように前記調整パラメータを調整する機能とを行
    なわせるプログラムを記録した記録媒体。
JP2002063229A 2002-03-08 2002-03-08 音声認識装置、音声認識方法および音声認識プログラムが記録された記録媒体 Expired - Fee Related JP4008267B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002063229A JP4008267B2 (ja) 2002-03-08 2002-03-08 音声認識装置、音声認識方法および音声認識プログラムが記録された記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002063229A JP4008267B2 (ja) 2002-03-08 2002-03-08 音声認識装置、音声認識方法および音声認識プログラムが記録された記録媒体

Publications (2)

Publication Number Publication Date
JP2003263186A true JP2003263186A (ja) 2003-09-19
JP4008267B2 JP4008267B2 (ja) 2007-11-14

Family

ID=29196610

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002063229A Expired - Fee Related JP4008267B2 (ja) 2002-03-08 2002-03-08 音声認識装置、音声認識方法および音声認識プログラムが記録された記録媒体

Country Status (1)

Country Link
JP (1) JP4008267B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005338358A (ja) * 2004-05-26 2005-12-08 Nippon Telegr & Teleph Corp <Ntt> 音響モデル雑音適応化方法およびこの方法を実施する装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005338358A (ja) * 2004-05-26 2005-12-08 Nippon Telegr & Teleph Corp <Ntt> 音響モデル雑音適応化方法およびこの方法を実施する装置
JP4510517B2 (ja) * 2004-05-26 2010-07-28 日本電信電話株式会社 音響モデル雑音適応化方法およびこの方法を実施する装置

Also Published As

Publication number Publication date
JP4008267B2 (ja) 2007-11-14

Similar Documents

Publication Publication Date Title
US8290773B2 (en) Information processing apparatus, method and recording medium for generating acoustic model
JP5229216B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
US8315870B2 (en) Rescoring speech recognition hypothesis using prosodic likelihood
US8019602B2 (en) Automatic speech recognition learning using user corrections
Katagiri et al. Pattern recognition using a family of design algorithms based upon the generalized probabilistic descent method
US8532991B2 (en) Speech models generated using competitive training, asymmetric training, and data boosting
US8606580B2 (en) Speech data process unit and speech data process unit control program for speech recognition
US7672847B2 (en) Discriminative training of hidden Markov models for continuous speech recognition
KR100612840B1 (ko) 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치
JPH0612093A (ja) 音声認識装置およびそのトレーニング方法ならびに装置
JP2002366187A (ja) 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
JP4515054B2 (ja) 音声認識の方法および音声信号を復号化する方法
JP2004512544A (ja) 連続音声認識における識別訓練された混合モデル
WO2007046267A1 (ja) 音声判別システム、音声判別方法及び音声判別用プログラム
US20030023438A1 (en) Method and system for the training of parameters of a pattern recognition system, each parameter being associated with exactly one realization variant of a pattern from an inventory
Solera-Ureña et al. Svms for automatic speech recognition: a survey
KR20050083547A (ko) 음성 처리 장치 및 방법, 기록 매체와 프로그램
US8078462B2 (en) Apparatus for creating speaker model, and computer program product
JP4796460B2 (ja) 音声認識装置及び音声認識プログラム
JP3919475B2 (ja) 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、並びに、プログラム記録媒体
JP3403838B2 (ja) 句境界確率計算装置および句境界確率利用連続音声認識装置
JP3754613B2 (ja) 話者特徴推定装置および話者特徴推定方法、クラスタモデル作成装置、音声認識装置、音声合成装置、並びに、プログラム記録媒体
JP4008267B2 (ja) 音声認識装置、音声認識方法および音声認識プログラムが記録された記録媒体
JP3061292B2 (ja) アクセント句境界検出装置
KR100488121B1 (ko) 화자간 변별력 향상을 위하여 개인별 켑스트럼 가중치를 적용한 화자 인증 장치 및 그 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060718

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060919

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070227

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070501

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070828

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070829

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100907

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110907

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120907

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130907

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees