JP2002358094A

JP2002358094A - 音声認識システム

Info

Publication number: JP2002358094A
Application number: JP2001175927A
Authority: JP
Inventors: Yoshinaga Kato; 喜永加藤
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2001-03-29
Filing date: 2001-06-11
Publication date: 2002-12-13
Anticipated expiration: 2021-06-11
Also published as: JP4716605B2

Abstract

(57)【要約】【課題】使用環境や使用話者の入れ替わりといった使
用状況の変化が起きた場合に、認識処理に用いる変換パ
ラメータを変化に適応して用意し、或いは高速に訓練
し、高精度な音声認識を可能にする。【解決手段】認識手段１０Aの要素である音声特徴パ
ターンを写像変換する特徴パターン変換手段（人工神経
回路網）１１Aと認識モデル群１２Aを分けることによ
り、使用環境の変化に対し訓練手段３０を動作させ、パ
ラメータを調整する場合、変換手段１１A側だけのパラ
メータの調整で高速に対応することを可能にする。又、
複数のパラメータセットを用意し（認識手段内或いは外
部サーバに）、その中から使用状況の変化に対応するセ
ットを選択、使用することにより認識精度の劣化を防
ぐ。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、認識対象となる音
声を認識モデルによって定義されるクラスにより認識す
る音声認識システムに関し、より詳細には、音声特徴パ
ターンを写像により変換する手段を備え、写像変換のパ
ラメータのセットを選択可能にするとともに、写像変換
のパラメータと認識モデルのパラメータを別に調整可能
にして、パラメータの訓練を行うようにした前記音声認
識システムに関する。

【０００２】

【従来の技術】これまでに音声認識システムとして、ニ
ューラルネットワークを認識処理に用いたシステムが数
多く提案されている。提案されたニューラルネットワー
クを用いたシステムでは、認識精度を上げるためにネッ
トワークに学習をさせ、学習の結果をネットワークのパ
ラメータに反映させるという方法を採用している。この
場合、学習の対象の多くは、話者に関するもので、話者
の識別、或いは話者への適応化、即ち個々の話者から抽
出した特徴の標準化であった。

【０００３】

【発明が解決しようとする課題】しかしながら、話者へ
の適応化に関する従来の提案においては、認識システム
を使用する話者の周囲の環境の変化（例えば、静かな部
屋から屋外へ、といった入力に影響する使用環境の変
化）による影響、或いは使用話者の入れ替わりといった
変化に目を向けたものがなく、こうした使用状況の変化
によって起きる認識精度の劣化が未解決の課題として存
在する。本発明は、音声認識システムにおける従来技術
の上述の問題点に鑑みてなされたもので、その目的は、
認識対象の音声が有する特徴パターンを認識モデルによ
って定義されるクラスにより認識する音声認識システム
において、使用環境や使用話者の入れ替わりといった使
用状況の変化が起きた場合においても、認識システムの
認識処理に用いる変換パラメータを変化に適応して用意
できるようにし、或いは変化に適応して変換パラメータ
を高速に訓練し、高精度な音声認識を可能にするシステ
ムを提供することにある。

【０００４】

【課題を解決するための手段】請求項１の発明は、認識
対象の音声が有する特徴パターンを認識モデルによって
定義されるクラスにより認識する音声認識システムであ
って、音声特徴パターンを写像により変換する特徴パタ
ーン変換手段と、各クラスに対応する認識モデルと、前
記特徴パターン変換手段から出力された特徴パターンを
前記認識モデルにより測り、測定結果から最も一致度の
高いクラスを特定する認識処理手段を備えたことを特徴
とする音声認識システムである。

【０００５】請求項２の発明は、請求項１に記載された
音声認識システムにおいて、前記特徴パターン変換手段
が人工神経回路網であることを特徴とするものである。

【０００６】請求項３の発明は、請求項１又は２に記載
された音声認識システムにおいて、認識対象の音声特徴
パターンを前記特徴パターン変換手段を経由せずに、直
接、前記認識処理手段に入力する手段を設けたことを特
徴とするものである。

【０００７】請求項４の発明は、請求項１乃至３のいず
れかに記載された音声認識システムにおいて、前記特徴
パターン変換手段及び前記認識処理手段の少なくとも一
方で使用される処理用パラメータを複数種類格納する手
段と、指定された種類の処理用パラメータを前記パラメ
ータ格納手段から取り出し、音声特徴パターンの処理に
使用するために設定する手段を備えたことを特徴とする
ものである。

【０００８】請求項５の発明は、請求項４に記載された
音声認識システムにおいて、前記特徴パターン変換手段
及び前記認識処理手段と別に前記パラメータ格納手段を
設置し、前記設定手段は設定する処理用パラメータをパ
ラメータ格納手段から通信手段を介して取得するように
したことを特徴とするものである。

【０００９】請求項６の発明は、請求項１乃至３のいず
れかに記載された音声認識システムにおいて、前記特徴
パターン変換手段及び前記認識処理手段と別に設置し
た、前記特徴パターン変換手段及び前記認識処理手段の
少なくとも一方で使用される処理用パラメータを格納す
る手段と、該パラメータ格納手段から通信手段を介して
パラメータを取得し、取得したパラメータを音声特徴パ
ターンの処理に使用するために設定する手段を備えたこ
とを特徴とするものである。

【００１０】請求項７の発明は、請求項１乃至６のいず
れかに記載された音声認識システムにおいて、前記特徴
パターン変換手段及び前記認識処理手段の少なくとも一
方で使用される処理用パラメータを調整可能とし、認識
したクラスに対応する認識モデルによる損失を最小化す
るために、前記パラメータを調整する訓練手段を備えた
ことを特徴とするものである。

【００１１】請求項８の発明は、請求項７に記載された
音声認識システムにおいて、前記訓練手段は、前記特徴
パターン変換手段及び前記認識処理手段のいずれの処理
用パラメータも調整可能とし、処理用パラメータを調整
する手順として、特徴パターン変換手段で使用されるパ
ラメータと前記認識モデルで使用されるパラメータのど
ちらか一方に対して調整を行った後に、他方を調整する
ようにしたことを特徴とするものである。

【００１２】請求項９の発明は、請求項８に記載された
音声認識システムにおいて、前記訓練手段は、処理用パ
ラメータの前記調整手順を繰り返し行うようにしたこと
を特徴とするものである。

【００１３】

【発明の実施の形態】本発明に係わる音声認識システム
を添付する図面とともに示す以下の実施例に基づき説明
する。本実施例では、音声特徴パターンｘを認識モデル
のクラス数Ｕ個の中のいずれかのクラスｕ（ｕ＝１，
…，Ｕ）に分類する場合を考える。クラスの種類は、分
類したい対象により、音素、単語、話者などを設定す
る。図１は、本発明の音声認識システムに係わる認識手
段の実施例の構成を示すブロック図である。この音声認
識システムは、図１に示す認識手段１０を要部とするも
ので、認識手段１０には、入力される音声特徴パターン
ｘを写像変換する特徴パターン変換手段Ｑ１１と、変換
された音声特徴パターンｙを測定するための認識モデル
(1)１２₁，認識モデル(2)１２₂‥認識モデル(U)１２
_Uと、各認識モデルの測定データを比較して認識結果を
出力する比較手段１３を備える。

【００１４】図１の音声認識システムに係わる認識手段
の構成の詳細、及び音声特徴パターンの認識処理をその
手順に従い説明する。まず、音声を分析して得られた音
声特徴パターンｘを特徴パターン変換手段Ｑ１１によっ
て音声特徴パターンｙに写像変換する。この時の写像
を、次式で表す。

【００１５】

【数１】

【００１６】なお、音声特徴パターンｘを得るために
は、音響分析ではよく知られたＬＰＣ（線形予測）分析
などを用いることができる。例えば、分析条件を、標本
化周波数：8kHz、高域強調：一次差分、256点ハミング
窓、移動幅：16ms、ＬＰＣ分析次数：20とし、10次元メ
ルケプストラム係数をフレーム単位で抽出したものを特
徴パターンとすることができる。また、音響分析は、上
記に限定されるものではなく、周波数分析など音声特徴
パターンに分析できる任意の方法を用いて構わない。

【００１７】次に、変換後の音声特徴パターンｙを、各
クラスごとに用意された認識モデル(1)１２₁，認識モデ
ル(2)１２₂‥認識モデル(U)１２_Uで測る（照合する）こ
とにより、各クラスの得点（特徴パターンｙと認識モデ
ルｕの一致度の程度を評価する点）を求める。具体例と
して、その判別関数を用いると、各クラスの得点は、以
下のように表せる。

【００１８】

【数２】

【００１９】ここで、g_ｕ（ｙ，Λ），（ｕ＝１，‥，
Ｕ）は、クラスｕに対する判別関数である。また、ｈ_ｕ
は、特徴パターンｙとパラメータΛが与えられたときの
クラスｕに対する得点を表す。パラメータΛは、認識シ
ステム全体に関わり、認識モデル(1)１２₁，認識モデル
(2)１２₂‥認識モデル(U)１２_Uと特徴パターン変換手段
Ｑ１１を含んだ全パラメータを表す。その後、得られた
Ｕ個の得点ｈ_１，ｈ_２，‥，ｈ_ｕを比較手段１３により
比較することにより、音声特徴パターンｘの認識結果と
して、最大得点を持つ、即ち最も一致度の高いクラスｕ
に分類される。判別関数の設計により選択の基準が最小
得点値に設定される場合もあるが、どちらにしても構わ
ない。本実施例では、説明の便宜上、前者を採用する。

【００２０】判別関数に関し、より詳細に説明すると、
認識モデル(1)１２₁‥認識モデル(U)１２_Uとして、文献
“電子情報通信学会論文誌(D-II),vol,J82-D-II,no.5,P
P.853-862,May1999”に示されている継続時間長制御型
状態遷移（ＤＳＴ）モデルを用いれば、上記式（２）は
以下のように表せる。

【００２１】

【数３】

【００２２】式（３）において、ｒ（・）は、照合によ
り得られた音声特徴パターンと認識モデルの各状態の対
応関係を表し、ｒ（ｎ）を第ｎ状態と対応する部分パタ
ーンの終了フレーム番号とする。また、Ｒ_ｎは、第ｎ状
態の継続時間に関する距離である。一方、Ｓ_ｎは、特徴
量に関する第ｎ状態の得点であり、下記のように定義す
る。

【００２３】

【数４】

【００２４】式（４）において、ここでＴ_ｎ、Ｄは、そ
れぞれバイアス値と各状態における局所距離を表す。局
所距離Ｄには、下記に示すガウス型の距離を用いる。

【００２５】

【数５】

【００２６】式（５）において、μ_ｎ＝（μ_ｎｋ），σ
^２ _ｎ＝（σ^２ _ｎｋ），（ｋ＝１，…，Ｋ）は、それぞれ
第ｎ状態の平均，分散であり，ｋは、Ｋ次元ベクトルの
要素番号を表す。また，ｙ_ｍ＝（ｙ_ｍｋ）は，フレーム
番号ｍの音声特徴パターンであり、ｚ_ｎはＲ_ｎから得ら
れた得点の割合を調整する重みである。なお、式（３）
は、動的計画法に継続時間評価に関する得点を組み込み
ながら状態探索を行うことにより求めることができる。

【００２７】次に、本発明の音声認識システムにおける
パラメータ訓練に係わる実施例について説明する。図２
は、パラメータの訓練手段を設けた本発明の音声認識シ
ステムに係わる実施例の構成を示すブロック図である。
図２に示す実施例では、図１に示した認識手段１０に訓
練手段３０を付加して音声認識システムを構成する。訓
練手投３０では、下記の経験損失：Ｌ（Λ）が最小にな
るようにパラメータ調整量を求め、認識手段１０が有す
る特徴パターン変換手段Ｑ１１、認識モデル(1)１２₁，
認識モデル(2)１２₂‥認識モデル(U)１２_Uのパラメータ
を調整する。

【００２８】

【数６】

【００２９】式（６）において、Ｍは訓練パターン数を
表す。また、ｌ（ｙ_ｍ，Λ）は、ｍ番目のパターンを入
力したときの個々の損失であり、下記のように定義す
る。

【００３０】

【数７】

【００３１】式（７）において、ａ_ｕは、パターンｙ_ｍ
がクラスｕに属する可能性を表し、クラスの得点を用い
て下記のように表す。

【００３２】

【数８】

【００３３】一方、ｔ_ｕは正解を表す値である。ここで
は、正解クラスの得点が高くなるようにパラメータの訓
練を行う。従って、正解クラスがαである場合、ｔ_αが
最大になるようにｔ_１，…，ｔ_α，…，ｔ_Ｕを設定す
る。具体的に本実施例では、正解クラスαにのみ可能性
が存在する下記の値を用いる。

【００３４】

【数９】

【００３５】以上のようにして得られた損失を最小にす
るために、パラメータの訓練を行う。パラメータ修正量
ΔΛは、下記式（１０）で計算できる。

【００３６】

【数１０】

【００３７】式（１０）において、ηは正の小さな学習
係数である。さらに、確率的降下定理に基づき下記式
（１１）の繰り返し計算を実行することにより、パラメ
ータが最適な状態に調整されていく。

【００３８】

【数１１】

【００３９】ただし、式（１１）において、ｔ回適用後
のパラメータをΛ（ｔ）とする。

【００４０】以下に、式（７）〜（１１）に基づく計算
により、音声特徴パターン変換手段１１のパラメータの
調整量を求める方法を、より詳細に説明する。ここで
は、具体例として、式（１）の写像が文献“Paralell D
istributed Processing,Cambridge,MA:MIT”に示されて
いるような人工神経回路網によって与えられた場合の実
施例について述べる。図３は、この実施例の音声特徴パ
ターン変換手段１１に用いる人工神経回路網を模式的に
示した図である。ここで用いる人工神経回路網は、図３
に示すように、Ｉ層からなる階層形神経回路網であり、
変換前の音声特徴パターンｘを入力すると、変換後の音
声特徴パターンｙが最終層Ｉで得られる。Ｉ及び各層の
神経回路素子数は、式（１）の写像が十分可能な任意の
数に設定すればよい。ｉ層ｋ番目の素子への入力：ｃ_ｋ
^ｉは下記式（１２）で表すようになる。

【００４１】

【数１２】

【００４２】式（１２）において、ο_ｓ ^ｉ−１は（ｉ−
１）層ｓ番目素子の出力を表す。また、ｗ_ｋ，ｓ
^{ｉ，ｉ−１}は（ｉ−１）層ｓ番目の素子とｉ層ｋ番目の
素子との結合重みを表すパラメータである。素子の入出
力関係ｂには、下記式（１３）のシグモイド関数を用い
る。

【００４３】

【数１３】

【００４４】式（１２）において、ｉ＝１であるときの
ο_ｓ ^ｉ−１は、変換前の入力特徴パターンｘの要素ｘ
_ｍｓを表す。また、式（１３）においてｉ＝Ｉであると
きのο _ｓ ^ｉは変換後の特徴パターンの要素ｙ_ｍｓを表し
ている。さて、ここで訓練するパラメータは、ｗ_ｋ，ｓ
^{ｉ，ｉ−１}であるから、式（１０）に従って、損失の勾
配を求めると、それは下記式（１４）により表すように
なる。

【００４５】

【数１４】

【００４６】式（１４）を解き、式（１１）に反映すれ
ば、訓練によるパラメータの更新処理を行うための下記
式（１５）を求めることができる。

【００４７】

【数１５】

【００４８】式（１５）において、ｘ_{θ（ｎ）ｋ}は認識
モデルｎ番目の状態に対応づけられた変換前の特徴パタ
ーンｘのｋ次元目の要素を示す。さらに、δ_ｋ ^ｉは、各
層により下記式（１６）のように表せる。

【００４９】

【数１６】

【００５０】ただし、式（１６）において、ｂ′(・)＝
ｂ(・)｛１−ｂ(・)｝である。なお、認識モデルの平
均、分散には、クラスを表す添字ｕが付加してある。ま
た、ｙ _{θ（ｎ）ｋ}は、認識モデルｎ番目の状態に対応づ
けられた変換後の特徴パターンｙのｋ次元目の要素を示
す。以上のようにパラメータを訓練すれば、音声認識を
行う場合の周囲の使用環境や使用話者の入れ替わり等の
使用状況が変化しても認識誤りを最小にする特徴パター
ンが得られるようになるため、性能の劣化を防ぐことが
できる。また、音声特徴パターン変換手段１１だけのパ
ラメータの調整を行うことができ、認識モデル(1)１
２₁，認識モデル(2)１２₂‥認識モデル(U)１２_Uのパラ
メータを変更する必要がないので、高速な訓練が可能と
なる。

【００５１】次に、特定の使用状況において、さらに認
識性能を向上することを可能にするパラメータ訓練方法
により認識精度の向上を図る実施例について述べる。こ
こでは、このための手段として音声特徴パターン変換手
段１１のパラメータの調整に加えて、認識モデル(1)１
２₁，認識モデル(2)１２₂‥認識モデル(U)１２_Uのパラ
メータを訓練する。認識モデル(1)１２₁，認識モデル
(2)１２₂‥認識モデル(U)１２_Uの平均値パラメータを訓
練する揚合、式（１０）に従って、損失の勾配を求める
と、下記式（１７）により表すようになる。

【００５２】

【数１７】

【００５３】従って、訓練による平均値パラメータの更
新処理は、下記式（１８）に基づいて行うことが可能に
なる。

【００５４】

【数１８】

【００５５】他に分散や継続時間長制御パラメータなど
認識モデルを表現する他のパラメータについても、上記
と同様に処理することが可能である。

【００５６】ところで、上記した音声特徴パターン変換
手段１１と、認識モデル(1)１２₁，認識モデル(2)１２₂
‥認識モデル(U)１２_Uのパラメータ調整のように音声認
識システムを構成する全パラメータに対して更新処理を
同時に行うと、損失の最少状態に到達するまでに時間が
かかってしまう場合がある。これは、パラメータ数が増
えるため、最小状態への探索経路が不安定になるためで
ある。そこで、このような場合に訓練を高速に行うこと
を可能とするパラメータ訓練の方法がある。ここで、そ
の方法により訓練時間の短縮化を図るようにした実施例
について述べる。図４は、この方法により訓練を高速に
行うことを可能にした音声認識システムの実施例を示す
ブロック図である。図４に示すように、認識手段１０A
の音声特徴パターン変換手段１１Aと、認識モデル群１
２の各認識モデル(1)１２₁，認識モデル(2)１２₂‥認識
モデル(U)１２_Uへ調整量を入力する手段として、入力切
替スイッチを設け、Ａ、Ｂ間でスイッチを切り替え、図
２に示したパラメータの訓練を音声特徴パターン変換手
段１１Aと、認識モデル群１２とにわけて行うようにし
たものである。この訓練方法は、下記の手順にて行う。１．スイッチをＡ側にいれて音声特徴パターン変換手段
１１Aのパラメータを調整しながら、繰り返し変換手段
１１Aを訓練する。２．損失が減少しなくなったら、スイッチをＢ側に入れ
て認識モデル(1)１２₁，認識モデル(2)１２₂‥認識モデ
ル(U)１２_Uのパラメータを調整しながら、繰り返し認識
モデル群１２を訓練する。３．損失が減少しなくなったら、上記処理１．に戻る。
上記処理１．〜処理３．を繰り返し、スイッチを切り替
えても損失が減少しなくなったら、訓練を終了する。以上のように、処理を分けて行うことにより、訓練対象
となるパラメータ数を少なくすることができるので、認
識誤り最小状態への探索経路が安定し、高速に訓練を行
うことが可能になる。

【００５７】また、上記のように、訓練等の結果、或い
は使用環境等の使用状況の変化に対応するためのパラメ
ータ調整を音声特徴パターン変換手段１１Aと認識モデ
ル群１２の認識モデル(1)１２₁，認識モデル(2)１２₂‥
認識モデル(U)１２_Uに分けて行うように構成したので、
上記したような音声特徴パターン変換手段１１Aのパラ
メータの更新処理をした後、以前の使用条件に復帰させ
ることも可能になる。図５は、復帰動作を可能とした音
声認識システムの実施例を示すブロック図である。図５
に示すように、音声特徴パターン変換手段１１Aを経由
せずに、音声特徴パターンｘを認識処理を行う認識モデ
ル(1)１２₁，認識モデル(2)１２₂‥認識モデル(U)１２_U
に入力する手段として、認識手段１０Bに入力切替スイ
ッチを設け、Ａ側に入れてあったスイッチをＢ側に切り
替えれば、直接、特徴パターンｘを認識モデル(1)１
２₁，認識モデル(2)１２₂‥認識モデル(U)１２_Uに入力
することができる。従って、音声特徴パターン変換手段
１１Aによる特徴パターンの写像変換をする必要のない
使用状況に戻った場合にも、高精度な認識が可能にな
る。なお、この場合、認識モデル(1)１２₁，認識モデル
(2)１２₂‥認識モデル(U)１２_Uのパラメータを、使用環
境等の使用状況が通常状態であるときには、音声特徴パ
ターン変換手段１１Aなしで、正しい認識結果が得られ
るような設定にしておく。

【００５８】次に、使用環境等の使用状況が変化して
も、音声特徴パターン変換手段に使用条件に適したパラ
メータセットを設定することを可能にして、認識精度の
低下を回避する手段を備えた音声認識システムの実施例
について述べる。上記した図５に示した実施例では、音
声特徴パターン変換手段１１Aのパラメータの更新処理
をした後、以前の使用条件に復帰させる例を示したが、
本実施例では、先の実施例における選択の幅（二者択
一）を更に拡大しようとするもので、そのために複数の
パラメータセットを用意し、その中のいずれかを選択す
ることにより使用状況の変化に対応することを可能にす
る。図６は、本実施例の音声認識システムを構成する認
識手段１０Cを示すブロック図である。図６に示すよう
に、図１又は図４に示した実施例において音声特徴パタ
ーン変換手段１１（１１A）に格納されていたパラメー
タを、複数（ここではM個）の異なるパラメータセット
Γ₁１４₁，Γ₂１４₂，・・・，Γ_M１４_Mとして別に格納
するようにして、特徴パターン変換手段１１Bで用いる
パラメータセットを、格納されたパラメータセットΓ₁
１４₁，Γ₂１４₂，・・・，Γ_M１４_Mの中から１つを選
択して設定するようにしたものである。ここで、特徴パ
ターン変換手段１１Bが、上記実施例と同様に、人工神
経回路網である場合、このパラメータセットは、素子間
を接続する結合重みのセットとして実現でき、入力特徴
パターンｘを所望のｙに変換することができる。パラメ
ータセットは、使用環境(例えば、室内／屋外での使用)
によって分けてもよいし、話者が入れ替わった場合に対
応できるように、話者によって分けてもよい。本実施例
によれば、パラメータセットを選択することにより、入
力特徴パターンｘを使用条件に適した特徴パターンに変
換することができるので、音声認識精度の低下を回避
し、高い認識精度を維持することができる。

【００５９】次に、認識手段の装置規模を小さくし、か
つ高い認識精度を維持するための手段を備えた音声認識
システムの実施例について述べる。本実施例では、図６
の実施例に示した認識手段１０Cで持っていた複数の異
なるパラメータセットΓ₁１４₁，Γ₂１４₂，・・・，Γ
_M１４_Mを認識手段側では持たずに、外部に大規模なパラ
メータセットの格納手段を設けることにより、認識手段
の装置規模を小さくするとともに、認識手段で格納する
場合に制限されるパラメータセットの限界を越えてパラ
メータセットを選択できるようにして、かかる目的の実
現を図るものである。図７は、本実施例の音声認識シス
テムを示すブロック図である。図７に示すように、特徴
パターン変換手段１１Bで用いるパラメータセット１４
として設定するデータを外部から通信手段を用いて取得
するようにしたもので、通信網(例えば、インターネッ
ト)で認識手段１０Dと外部記憶手段（例えば、サーバ）
５０を接続し、両方にそれぞれ設けた送受信手段１５，
５５により、パラメータセットの送受信ができるように
なっている。従って、外部記憶手段（例えば、サーバ）
５０には、複数のパラメータセットΓ₁５１₁，Γ₂５
１₂，・・・，Γ_M５１_Mが格納(アップロード)されてい
る（例えば、認識手段１０Dで使用の際にパラメータの
変更を行った場合にも、認識手段１０D側から、パラメ
ータセットを全体的に管理するサーバ側の外部記憶手段
５０に変更後のデータを送り、その後の使用に供するよ
うにする）。

【００６０】使用環境や話者が入れ替わりにより使用条
件が変化した場合に、認識手段１０D側から外部記憶手
段５０に対し、変化に適合するパラメータセットのダウ
ンロードを要求すると、複数のパラメータセットΓ₁５
１₁，Γ₂５１₂，・・・，Γ_M５１_Mの中から要求された
パラメータセットを選択して、送り返し、そのデータに
より認識手段１０Dの特徴パターン変換手段１１Bのパラ
メータセットを書き換える。ここで行うダウンロード
は、一般によく知られた方法で実現できる。例えば，サ
ーバに接続された状態で、HTML形式で表示されたパラメ
ータセット名を指定してもよいし，ftp接続などにより
対応するパラメータセット名を指定するなどの方法を用
いることにより実現可能である。このように、本実施例
によれば、外部の大規模のデータを格納できるサーバか
ら最適なパラメータセットを取得できるので、音声認識
の精度が一層向上するとともに、認識手段１０D側に複
数のパラメータセットを格納する必要がないので装置の
小型化が可能になる。

【００６１】次に、認識手段内に選択・設定可能な複数
のパラメータセットを持った本発明の音声認識システム
（図６にその実施例を示す）におけるパラメータ訓練に
係わる実施例について説明する。図８は、パラメータの
訓練手段を設けた本発明の音声認識システムに係わる実
施例の構成を示すブロック図である。本実施例では、図
６に示した認識手段に訓練手段３０を付加して音声認識
システムを構成する。訓練時は、認識手段１０Eの特徴
パターン変換手段１１B、訓練手段３０をそれぞれに対
応するパラメータセットの端子Ｃ₁〜Ｃ_M、Ａ₁〜Ａ_Mを訓
練の対象とするパラメータセットΓ₁１４₁，Γ₂１４₂，
・・・，Γ_M１４_Mの同じパラメータセットに接続する。
訓練手段３０は、上記した図２及び図３に関して説明し
た実施例で述べた訓練手段３０と同様の処理を行うこと
で実現できる。即ち、認識システムの誤分類度から得ら
れる損失を最小化するようにパラメータ調整量を算出
し、接続先のパラメータセットのパラメータを更新し、
特徴パターン変換手段１１Bとして人工神経回路網を用
いた場合のパラメータ更新処理は、式(１５)を用いて実
現できる。このようにして、使用条件に応じてパラメー
タを訓練することにより、所望のパラメータセットが得
られる。なお、図７に示した音声認識システムにおける
認識手段１０Dのパラメータセットの訓練を上記と同様
に実施するようにしても良い。訓練の結果、変更された
パラメータセットのデータは、送受信手段１５，５５を
用いて外部記憶装置５０に送り、格納するようにし、再
使用を可能にする。

【００６２】

【発明の効果】（１）請求項１の発明に対応する効果音声認識システムの要素として、音声特徴パターンを写
像により変換する特徴パターン変換手段と、認識モデル
を分けることにより、使用条件の変化に対しパラメータ
を調整する場合、特徴パターン変換手段側だけのパラメ
ータの調整で高速に対応することが可能になる。（２）請求項２の発明に対応する効果上記（１）の効果に加えて、特徴パターン変換手段を人
工神経回路網としたことにより、認識精度を上げること
が可能になる。（３）請求項３の発明に対応する効果上記（１）、（２）の効果に加えて、切り替えにより、
特徴パターンの変換をする必要のない元の使用条件に応
じた設定に、即時に移すことが可能になり、システムの
高性能化を図ることができる。

【００６３】（４）請求項４の発明に対応する効果上記（１）〜（３）の効果に加えて、複数種類の処理用
パラメータから使用条件に適したパラメータを指定し、
そのパラメータを用いて音声特徴パターンの認識処理を
行うことにより、認識精度の劣化を防止し、システムの
高性能化を図ることが可能になる。（５）請求項５の発明に対応する効果上記（４）の効果に加えて、認識手段と別に設置した大
規模データが格納可能なサーバから最適なパラメータセ
ットを取得できるので、音声認識の精度が一層向上する
とともに、認識手段側に複数のパラメータセットを格納
する必要がないので装置の小型化が可能になる。（６）請求項６の発明に対応する効果上記（１）〜（３）の効果に加えて、認識手段と別に設
置した大規模データが格納可能なサーバから最適なパラ
メータセットを取得できるので、音声認識の精度が向上
するとともに、認識手段側に複数のパラメータセットを
格納する必要がないので装置の小型化が可能になる。

【００６４】（７）請求項７の発明に対応する効果上記（１）〜（６）の効果に加えて、認識したクラスに
対応する認識モデルによる損失を最小化するために、パ
ラメータを調整する訓練手段を備えたことにより、高精
度な音声認識を行うことができるようになる。また、特
徴パターン変換手段のパラメータだけを訓練できるよう
にした場合には、使用条件が変化持にも、高速に訓練を
することができる。（８）請求項８，９の発明に対応する効果上記（７）の効果に加えて、訓練の対象を特徴パターン
変換手段のパラメータと認識モデルのパラメータとに分
け、片方づつ訓練する手順をとるようにしたことによ
り、誤り最小状態に到達する経路が安定するため、高速
に訓練ができる。また、上記の手順を繰り返すようにし
たことにより、訓練対象となるパラメータ数を少なくす
ることができるので、認識誤り最小状態への探索経路が
さらに安定し、より高速化が可能になる。

【図面の簡単な説明】

【図１】本発明の音声認識システムに係わる認識手段
の実施例の構成を示すブロック図である。

【図２】パラメータの訓練手段を設けた本発明の音声
認識システムに係わる実施例の構成を示すブロック図で
ある。

【図３】音声特徴パターン変換に用いる人工神経回路
網を説明するための図である。

【図４】訓練手段を設けた本発明の音声認識システム
に係わる他の実施例の構成を示すブロック図である。

【図５】更新処理前の使用条件に復帰させることを可
能とした音声認識システムの実施例を示すブロック図で
ある。

【図６】音声認識システムを構成する認識手段の他の
実施例を示すブロック図である。

【図７】音声認識システムの他の実施例を示すブロッ
ク図である。

【図８】図６に示す認識手段にパラメータの訓練手段
を設けた音声認識システムに係わる実施例の構成を示す
ブロック図である。

【符号の説明】

１０，１０A，１０B，１０C，１０D，１０E…認識手
段、１１，１１A，１１B…特徴パターン変換手段、１２
…認識モデル群、１２₁〜１２_U…認識モデ
ル(1)〜(U)、１３…比較手段、１４…
パラメータセットΓ、１４₁〜１４_Ｍ…パラメータセッ
トΓ₁〜Γ_Ｍ、１５…送受信手段、３０
…訓練手段、５０…外部記憶手段、５１₁
〜５１_Ｍ…パラメータセットΓ₁〜Γ_Ｍ、５５…送受信
手段。

Claims

【特許請求の範囲】

【請求項１】認識対象の音声が有する特徴パターンを
認識モデルによって定義されるクラスにより認識する音
声認識システムであって、音声特徴パターンを写像によ
り変換する特徴パターン変換手段と、各クラスに対応す
る認識モデルと、前記特徴パターン変換手段から出力さ
れた特徴パターンを前記認識モデルにより測り、測定結
果から最も一致度の高いクラスを特定する認識処理手段
を備えたことを特徴とする音声認識システム。
【請求項２】請求項１に記載された音声認識システム
において、前記特徴パターン変換手段が人工神経回路網
であることを特徴とする音声認識システム。
【請求項３】請求項１又は２に記載された音声認識シ
ステムにおいて、認識対象の音声特徴パターンを前記特
徴パターン変換手段を経由せずに、直接、前記認識処理
手段に入力する手段を設けたことを特徴とする音声認識
システム。
【請求項４】請求項１乃至３のいずれかに記載された
音声認識システムにおいて、前記特徴パターン変換手段
及び前記認識処理手段の少なくとも一方で使用される処
理用パラメータを複数種類格納する手段と、指定された
種類の処理用パラメータを前記パラメータ格納手段から
取り出し、音声特徴パターンの処理に使用するために設
定する手段を備えたことを特徴とする音声認識システ
ム。
【請求項５】請求項４に記載された音声認識システム
において、前記特徴パターン変換手段及び前記認識処理
手段と別に前記パラメータ格納手段を設置し、前記設定
手段は設定する処理用パラメータをパラメータ格納手段
から通信手段を介して取得するようにしたことを特徴と
する音声認識システム。
【請求項６】請求項１乃至３のいずれかに記載された
音声認識システムにおいて、前記特徴パターン変換手段
及び前記認識処理手段と別に設置した、前記特徴パター
ン変換手段及び前記認識処理手段の少なくとも一方で使
用される処理用パラメータを格納する手段と、該パラメ
ータ格納手段から通信手段を介してパラメータを取得
し、取得したパラメータを音声特徴パターンの処理に使
用するために設定する手段を備えたことを特徴とする音
声認識システム。
【請求項７】請求項１乃至６のいずれかに記載された
音声認識システムにおいて、前記特徴パターン変換手段
及び前記認識処理手段の少なくとも一方で使用される処
理用パラメータを調整可能とし、認識したクラスに対応
する認識モデルによる損失を最小化するために、前記パ
ラメータを調整する訓練手段を備えたことを特徴とする
音声認識システム。
【請求項８】請求項７に記載された音声認識システム
において、前記訓練手段は、前記特徴パターン変換手段
及び前記認識処理手段のいずれの処理用パラメータも調
整可能とし、処理用パラメータを調整する手順として、
特徴パターン変換手段で使用されるパラメータと前記認
識モデルで使用されるパラメータのどちらか一方に対し
て調整を行った後に、他方を調整するようにしたことを
特徴とする音声認識システム。
【請求項９】請求項８に記載された音声認識システム
において、前記訓練手段は、処理用パラメータの前記調
整手順を繰り返し行うようにしたことを特徴とする音声
認識システム。