JP2002358094A - 音声認識システム - Google Patents

音声認識システム

Info

Publication number
JP2002358094A
JP2002358094A JP2001175927A JP2001175927A JP2002358094A JP 2002358094 A JP2002358094 A JP 2002358094A JP 2001175927 A JP2001175927 A JP 2001175927A JP 2001175927 A JP2001175927 A JP 2001175927A JP 2002358094 A JP2002358094 A JP 2002358094A
Authority
JP
Japan
Prior art keywords
feature pattern
recognition
recognition system
processing
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001175927A
Other languages
English (en)
Other versions
JP4716605B2 (ja
Inventor
Yoshinaga Kato
喜永 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2001175927A priority Critical patent/JP4716605B2/ja
Publication of JP2002358094A publication Critical patent/JP2002358094A/ja
Application granted granted Critical
Publication of JP4716605B2 publication Critical patent/JP4716605B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 使用環境や使用話者の入れ替わりといった使
用状況の変化が起きた場合に、認識処理に用いる変換パ
ラメータを変化に適応して用意し、或いは高速に訓練
し、高精度な音声認識を可能にする。 【解決手段】 認識手段10Aの要素である音声特徴パ
ターンを写像変換する特徴パターン変換手段(人工神経
回路網)11Aと認識モデル群12Aを分けることによ
り、使用環境の変化に対し訓練手段30を動作させ、パ
ラメータを調整する場合、変換手段11A側だけのパラ
メータの調整で高速に対応することを可能にする。又、
複数のパラメータセットを用意し(認識手段内或いは外
部サーバに)、その中から使用状況の変化に対応するセ
ットを選択、使用することにより認識精度の劣化を防
ぐ。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、認識対象となる音
声を認識モデルによって定義されるクラスにより認識す
る音声認識システムに関し、より詳細には、音声特徴パ
ターンを写像により変換する手段を備え、写像変換のパ
ラメータのセットを選択可能にするとともに、写像変換
のパラメータと認識モデルのパラメータを別に調整可能
にして、パラメータの訓練を行うようにした前記音声認
識システムに関する。
【0002】
【従来の技術】これまでに音声認識システムとして、ニ
ューラルネットワークを認識処理に用いたシステムが数
多く提案されている。提案されたニューラルネットワー
クを用いたシステムでは、認識精度を上げるためにネッ
トワークに学習をさせ、学習の結果をネットワークのパ
ラメータに反映させるという方法を採用している。この
場合、学習の対象の多くは、話者に関するもので、話者
の識別、或いは話者への適応化、即ち個々の話者から抽
出した特徴の標準化であった。
【0003】
【発明が解決しようとする課題】しかしながら、話者へ
の適応化に関する従来の提案においては、認識システム
を使用する話者の周囲の環境の変化(例えば、静かな部
屋から屋外へ、といった入力に影響する使用環境の変
化)による影響、或いは使用話者の入れ替わりといった
変化に目を向けたものがなく、こうした使用状況の変化
によって起きる認識精度の劣化が未解決の課題として存
在する。本発明は、音声認識システムにおける従来技術
の上述の問題点に鑑みてなされたもので、その目的は、
認識対象の音声が有する特徴パターンを認識モデルによ
って定義されるクラスにより認識する音声認識システム
において、使用環境や使用話者の入れ替わりといった使
用状況の変化が起きた場合においても、認識システムの
認識処理に用いる変換パラメータを変化に適応して用意
できるようにし、或いは変化に適応して変換パラメータ
を高速に訓練し、高精度な音声認識を可能にするシステ
ムを提供することにある。
【0004】
【課題を解決するための手段】請求項1の発明は、認識
対象の音声が有する特徴パターンを認識モデルによって
定義されるクラスにより認識する音声認識システムであ
って、音声特徴パターンを写像により変換する特徴パタ
ーン変換手段と、各クラスに対応する認識モデルと、前
記特徴パターン変換手段から出力された特徴パターンを
前記認識モデルにより測り、測定結果から最も一致度の
高いクラスを特定する認識処理手段を備えたことを特徴
とする音声認識システムである。
【0005】請求項2の発明は、請求項1に記載された
音声認識システムにおいて、前記特徴パターン変換手段
が人工神経回路網であることを特徴とするものである。
【0006】請求項3の発明は、請求項1又は2に記載
された音声認識システムにおいて、認識対象の音声特徴
パターンを前記特徴パターン変換手段を経由せずに、直
接、前記認識処理手段に入力する手段を設けたことを特
徴とするものである。
【0007】請求項4の発明は、請求項1乃至3のいず
れかに記載された音声認識システムにおいて、前記特徴
パターン変換手段及び前記認識処理手段の少なくとも一
方で使用される処理用パラメータを複数種類格納する手
段と、指定された種類の処理用パラメータを前記パラメ
ータ格納手段から取り出し、音声特徴パターンの処理に
使用するために設定する手段を備えたことを特徴とする
ものである。
【0008】請求項5の発明は、請求項4に記載された
音声認識システムにおいて、前記特徴パターン変換手段
及び前記認識処理手段と別に前記パラメータ格納手段を
設置し、前記設定手段は設定する処理用パラメータをパ
ラメータ格納手段から通信手段を介して取得するように
したことを特徴とするものである。
【0009】請求項6の発明は、請求項1乃至3のいず
れかに記載された音声認識システムにおいて、前記特徴
パターン変換手段及び前記認識処理手段と別に設置し
た、前記特徴パターン変換手段及び前記認識処理手段の
少なくとも一方で使用される処理用パラメータを格納す
る手段と、該パラメータ格納手段から通信手段を介して
パラメータを取得し、取得したパラメータを音声特徴パ
ターンの処理に使用するために設定する手段を備えたこ
とを特徴とするものである。
【0010】請求項7の発明は、請求項1乃至6のいず
れかに記載された音声認識システムにおいて、前記特徴
パターン変換手段及び前記認識処理手段の少なくとも一
方で使用される処理用パラメータを調整可能とし、認識
したクラスに対応する認識モデルによる損失を最小化す
るために、前記パラメータを調整する訓練手段を備えた
ことを特徴とするものである。
【0011】請求項8の発明は、請求項7に記載された
音声認識システムにおいて、前記訓練手段は、前記特徴
パターン変換手段及び前記認識処理手段のいずれの処理
用パラメータも調整可能とし、処理用パラメータを調整
する手順として、特徴パターン変換手段で使用されるパ
ラメータと前記認識モデルで使用されるパラメータのど
ちらか一方に対して調整を行った後に、他方を調整する
ようにしたことを特徴とするものである。
【0012】請求項9の発明は、請求項8に記載された
音声認識システムにおいて、前記訓練手段は、処理用パ
ラメータの前記調整手順を繰り返し行うようにしたこと
を特徴とするものである。
【0013】
【発明の実施の形態】本発明に係わる音声認識システム
を添付する図面とともに示す以下の実施例に基づき説明
する。本実施例では、音声特徴パターンxを認識モデル
のクラス数U個の中のいずれかのクラスu(u=1,
…,U)に分類する場合を考える。クラスの種類は、分
類したい対象により、音素、単語、話者などを設定す
る。図1は、本発明の音声認識システムに係わる認識手
段の実施例の構成を示すブロック図である。この音声認
識システムは、図1に示す認識手段10を要部とするも
ので、認識手段10には、入力される音声特徴パターン
xを写像変換する特徴パターン変換手段Q11と、変換
された音声特徴パターンyを測定するための認識モデル
(1)121,認識モデル(2)122‥認識モデル(U)12
Uと、各認識モデルの測定データを比較して認識結果を
出力する比較手段13を備える。
【0014】図1の音声認識システムに係わる認識手段
の構成の詳細、及び音声特徴パターンの認識処理をその
手順に従い説明する。まず、音声を分析して得られた音
声特徴パターンxを特徴パターン変換手段Q11によっ
て音声特徴パターンyに写像変換する。この時の写像
を、次式で表す。
【0015】
【数1】
【0016】なお、音声特徴パターンxを得るために
は、音響分析ではよく知られたLPC(線形予測)分析
などを用いることができる。例えば、分析条件を、標本
化周波数:8kHz、高域強調:一次差分、256点ハミング
窓、移動幅:16ms、LPC分析次数:20とし、10次元メ
ルケプストラム係数をフレーム単位で抽出したものを特
徴パターンとすることができる。また、音響分析は、上
記に限定されるものではなく、周波数分析など音声特徴
パターンに分析できる任意の方法を用いて構わない。
【0017】次に、変換後の音声特徴パターンyを、各
クラスごとに用意された認識モデル(1)121,認識モデ
ル(2)122‥認識モデル(U)12Uで測る(照合する)こ
とにより、各クラスの得点(特徴パターンyと認識モデ
ルuの一致度の程度を評価する点)を求める。具体例と
して、その判別関数を用いると、各クラスの得点は、以
下のように表せる。
【0018】
【数2】
【0019】ここで、g(y,Λ),(u=1,‥,
U)は、クラスuに対する判別関数である。また、h
は、特徴パターンyとパラメータΛが与えられたときの
クラスuに対する得点を表す。パラメータΛは、認識シ
ステム全体に関わり、認識モデル(1)121,認識モデル
(2)122‥認識モデル(U)12Uと特徴パターン変換手段
Q11を含んだ全パラメータを表す。その後、得られた
U個の得点h,h,‥,hを比較手段13により
比較することにより、音声特徴パターンxの認識結果と
して、最大得点を持つ、即ち最も一致度の高いクラスu
に分類される。判別関数の設計により選択の基準が最小
得点値に設定される場合もあるが、どちらにしても構わ
ない。本実施例では、説明の便宜上、前者を採用する。
【0020】判別関数に関し、より詳細に説明すると、
認識モデル(1)121‥認識モデル(U)12Uとして、文献
“電子情報通信学会論文誌(D-II),vol,J82-D-II,no.5,P
P.853-862,May1999”に示されている継続時間長制御型
状態遷移(DST)モデルを用いれば、上記式(2)は
以下のように表せる。
【0021】
【数3】
【0022】式(3)において、r(・)は、照合によ
り得られた音声特徴パターンと認識モデルの各状態の対
応関係を表し、r(n)を第n状態と対応する部分パタ
ーンの終了フレーム番号とする。また、Rは、第n状
態の継続時間に関する距離である。一方、Sは、特徴
量に関する第n状態の得点であり、下記のように定義す
る。
【0023】
【数4】
【0024】式(4)において、ここでT、Dは、そ
れぞれバイアス値と各状態における局所距離を表す。局
所距離Dには、下記に示すガウス型の距離を用いる。
【0025】
【数5】
【0026】式(5)において、μ=(μnk),σ
=(σ nk),(k=1,…,K)は、それぞれ
第n状態の平均,分散であり,kは、K次元ベクトルの
要素番号を表す。また,y=(ymk)は,フレーム
番号mの音声特徴パターンであり、zはRから得ら
れた得点の割合を調整する重みである。なお、式(3)
は、動的計画法に継続時間評価に関する得点を組み込み
ながら状態探索を行うことにより求めることができる。
【0027】次に、本発明の音声認識システムにおける
パラメータ訓練に係わる実施例について説明する。図2
は、パラメータの訓練手段を設けた本発明の音声認識シ
ステムに係わる実施例の構成を示すブロック図である。
図2に示す実施例では、図1に示した認識手段10に訓
練手段30を付加して音声認識システムを構成する。訓
練手投30では、下記の経験損失:L(Λ)が最小にな
るようにパラメータ調整量を求め、認識手段10が有す
る特徴パターン変換手段Q11、認識モデル(1)121
認識モデル(2)122‥認識モデル(U)12Uのパラメータ
を調整する。
【0028】
【数6】
【0029】式(6)において、Mは訓練パターン数を
表す。また、l(y,Λ)は、m番目のパターンを入
力したときの個々の損失であり、下記のように定義す
る。
【0030】
【数7】
【0031】式(7)において、aは、パターンy
がクラスuに属する可能性を表し、クラスの得点を用い
て下記のように表す。
【0032】
【数8】
【0033】一方、tは正解を表す値である。ここで
は、正解クラスの得点が高くなるようにパラメータの訓
練を行う。従って、正解クラスがαである場合、tα
最大になるようにt,…,tα,…,tを設定す
る。具体的に本実施例では、正解クラスαにのみ可能性
が存在する下記の値を用いる。
【0034】
【数9】
【0035】以上のようにして得られた損失を最小にす
るために、パラメータの訓練を行う。パラメータ修正量
ΔΛは、下記式(10)で計算できる。
【0036】
【数10】
【0037】式(10)において、ηは正の小さな学習
係数である。さらに、確率的降下定理に基づき下記式
(11)の繰り返し計算を実行することにより、パラメ
ータが最適な状態に調整されていく。
【0038】
【数11】
【0039】ただし、式(11)において、t回適用後
のパラメータをΛ(t)とする。
【0040】以下に、式(7)〜(11)に基づく計算
により、音声特徴パターン変換手段11のパラメータの
調整量を求める方法を、より詳細に説明する。ここで
は、具体例として、式(1)の写像が文献“Paralell D
istributed Processing,Cambridge,MA:MIT”に示されて
いるような人工神経回路網によって与えられた場合の実
施例について述べる。図3は、この実施例の音声特徴パ
ターン変換手段11に用いる人工神経回路網を模式的に
示した図である。ここで用いる人工神経回路網は、図3
に示すように、I層からなる階層形神経回路網であり、
変換前の音声特徴パターンxを入力すると、変換後の音
声特徴パターンyが最終層Iで得られる。I及び各層の
神経回路素子数は、式(1)の写像が十分可能な任意の
数に設定すればよい。i層k番目の素子への入力:c
は下記式(12)で表すようになる。
【0041】
【数12】
【0042】式(12)において、ο i−1は(i−
1)層s番目素子の出力を表す。また、wk,s
i,i−1は(i−1)層s番目の素子とi層k番目の
素子との結合重みを表すパラメータである。素子の入出
力関係bには、下記式(13)のシグモイド関数を用い
る。
【0043】
【数13】
【0044】式(12)において、i=1であるときの
ο i−1は、変換前の入力特徴パターンxの要素x
msを表す。また、式(13)においてi=Iであると
きのο は変換後の特徴パターンの要素ymsを表し
ている。さて、ここで訓練するパラメータは、wk,s
i,i−1であるから、式(10)に従って、損失の勾
配を求めると、それは下記式(14)により表すように
なる。
【0045】
【数14】
【0046】式(14)を解き、式(11)に反映すれ
ば、訓練によるパラメータの更新処理を行うための下記
式(15)を求めることができる。
【0047】
【数15】
【0048】式(15)において、xθ(n)kは認識
モデルn番目の状態に対応づけられた変換前の特徴パタ
ーンxのk次元目の要素を示す。さらに、δ は、各
層により下記式(16)のように表せる。
【0049】
【数16】
【0050】ただし、式(16)において、b′(・)=
b(・){1−b(・)}である。なお、認識モデルの平
均、分散には、クラスを表す添字uが付加してある。ま
た、y θ(n)kは、認識モデルn番目の状態に対応づ
けられた変換後の特徴パターンyのk次元目の要素を示
す。以上のようにパラメータを訓練すれば、音声認識を
行う場合の周囲の使用環境や使用話者の入れ替わり等の
使用状況が変化しても認識誤りを最小にする特徴パター
ンが得られるようになるため、性能の劣化を防ぐことが
できる。また、音声特徴パターン変換手段11だけのパ
ラメータの調整を行うことができ、認識モデル(1)1
1,認識モデル(2)122‥認識モデル(U)12Uのパラ
メータを変更する必要がないので、高速な訓練が可能と
なる。
【0051】次に、特定の使用状況において、さらに認
識性能を向上することを可能にするパラメータ訓練方法
により認識精度の向上を図る実施例について述べる。こ
こでは、このための手段として音声特徴パターン変換手
段11のパラメータの調整に加えて、認識モデル(1)1
1,認識モデル(2)122‥認識モデル(U)12Uのパラ
メータを訓練する。認識モデル(1)121,認識モデル
(2)122‥認識モデル(U)12Uの平均値パラメータを訓
練する揚合、式(10)に従って、損失の勾配を求める
と、下記式(17)により表すようになる。
【0052】
【数17】
【0053】従って、訓練による平均値パラメータの更
新処理は、下記式(18)に基づいて行うことが可能に
なる。
【0054】
【数18】
【0055】他に分散や継続時間長制御パラメータなど
認識モデルを表現する他のパラメータについても、上記
と同様に処理することが可能である。
【0056】ところで、上記した音声特徴パターン変換
手段11と、認識モデル(1)121,認識モデル(2)122
‥認識モデル(U)12Uのパラメータ調整のように音声認
識システムを構成する全パラメータに対して更新処理を
同時に行うと、損失の最少状態に到達するまでに時間が
かかってしまう場合がある。これは、パラメータ数が増
えるため、最小状態への探索経路が不安定になるためで
ある。そこで、このような場合に訓練を高速に行うこと
を可能とするパラメータ訓練の方法がある。ここで、そ
の方法により訓練時間の短縮化を図るようにした実施例
について述べる。図4は、この方法により訓練を高速に
行うことを可能にした音声認識システムの実施例を示す
ブロック図である。図4に示すように、認識手段10A
の音声特徴パターン変換手段11Aと、認識モデル群1
2の各認識モデル(1)121,認識モデル(2)122‥認識
モデル(U)12Uへ調整量を入力する手段として、入力切
替スイッチを設け、A、B間でスイッチを切り替え、図
2に示したパラメータの訓練を音声特徴パターン変換手
段11Aと、認識モデル群12とにわけて行うようにし
たものである。この訓練方法は、下記の手順にて行う。 1.スイッチをA側にいれて音声特徴パターン変換手段
11Aのパラメータを調整しながら、繰り返し変換手段
11Aを訓練する。 2.損失が減少しなくなったら、スイッチをB側に入れ
て認識モデル(1)121,認識モデル(2)122‥認識モデ
ル(U)12Uのパラメータを調整しながら、繰り返し認識
モデル群12を訓練する。 3.損失が減少しなくなったら、上記処理1.に戻る。
上記処理1.〜処理3.を繰り返し、スイッチを切り替
えても損失が減少しなくなったら、訓練を終了する。 以上のように、処理を分けて行うことにより、訓練対象
となるパラメータ数を少なくすることができるので、認
識誤り最小状態への探索経路が安定し、高速に訓練を行
うことが可能になる。
【0057】また、上記のように、訓練等の結果、或い
は使用環境等の使用状況の変化に対応するためのパラメ
ータ調整を音声特徴パターン変換手段11Aと認識モデ
ル群12の認識モデル(1)121,認識モデル(2)122
認識モデル(U)12Uに分けて行うように構成したので、
上記したような音声特徴パターン変換手段11Aのパラ
メータの更新処理をした後、以前の使用条件に復帰させ
ることも可能になる。図5は、復帰動作を可能とした音
声認識システムの実施例を示すブロック図である。図5
に示すように、音声特徴パターン変換手段11Aを経由
せずに、音声特徴パターンxを認識処理を行う認識モデ
ル(1)121,認識モデル(2)122‥認識モデル(U)12U
に入力する手段として、認識手段10Bに入力切替スイ
ッチを設け、A側に入れてあったスイッチをB側に切り
替えれば、直接、特徴パターンxを認識モデル(1)1
1,認識モデル(2)122‥認識モデル(U)12Uに入力
することができる。従って、音声特徴パターン変換手段
11Aによる特徴パターンの写像変換をする必要のない
使用状況に戻った場合にも、高精度な認識が可能にな
る。なお、この場合、認識モデル(1)121,認識モデル
(2)122‥認識モデル(U)12Uのパラメータを、使用環
境等の使用状況が通常状態であるときには、音声特徴パ
ターン変換手段11Aなしで、正しい認識結果が得られ
るような設定にしておく。
【0058】次に、使用環境等の使用状況が変化して
も、音声特徴パターン変換手段に使用条件に適したパラ
メータセットを設定することを可能にして、認識精度の
低下を回避する手段を備えた音声認識システムの実施例
について述べる。上記した図5に示した実施例では、音
声特徴パターン変換手段11Aのパラメータの更新処理
をした後、以前の使用条件に復帰させる例を示したが、
本実施例では、先の実施例における選択の幅(二者択
一)を更に拡大しようとするもので、そのために複数の
パラメータセットを用意し、その中のいずれかを選択す
ることにより使用状況の変化に対応することを可能にす
る。図6は、本実施例の音声認識システムを構成する認
識手段10Cを示すブロック図である。図6に示すよう
に、図1又は図4に示した実施例において音声特徴パタ
ーン変換手段11(11A)に格納されていたパラメー
タを、複数(ここではM個)の異なるパラメータセット
Γ1141,Γ2142,・・・,ΓM14Mとして別に格納
するようにして、特徴パターン変換手段11Bで用いる
パラメータセットを、格納されたパラメータセットΓ1
141,Γ2142,・・・,ΓM14Mの中から1つを選
択して設定するようにしたものである。ここで、特徴パ
ターン変換手段11Bが、上記実施例と同様に、人工神
経回路網である場合、このパラメータセットは、素子間
を接続する結合重みのセットとして実現でき、入力特徴
パターンxを所望のyに変換することができる。パラメ
ータセットは、使用環境(例えば、室内/屋外での使用)
によって分けてもよいし、話者が入れ替わった場合に対
応できるように、話者によって分けてもよい。本実施例
によれば、パラメータセットを選択することにより、入
力特徴パターンxを使用条件に適した特徴パターンに変
換することができるので、音声認識精度の低下を回避
し、高い認識精度を維持することができる。
【0059】次に、認識手段の装置規模を小さくし、か
つ高い認識精度を維持するための手段を備えた音声認識
システムの実施例について述べる。本実施例では、図6
の実施例に示した認識手段10Cで持っていた複数の異
なるパラメータセットΓ1141,Γ2142,・・・,Γ
M14Mを認識手段側では持たずに、外部に大規模なパラ
メータセットの格納手段を設けることにより、認識手段
の装置規模を小さくするとともに、認識手段で格納する
場合に制限されるパラメータセットの限界を越えてパラ
メータセットを選択できるようにして、かかる目的の実
現を図るものである。図7は、本実施例の音声認識シス
テムを示すブロック図である。図7に示すように、特徴
パターン変換手段11Bで用いるパラメータセット14
として設定するデータを外部から通信手段を用いて取得
するようにしたもので、通信網(例えば、インターネッ
ト)で認識手段10Dと外部記憶手段(例えば、サーバ)
50を接続し、両方にそれぞれ設けた送受信手段15,
55により、パラメータセットの送受信ができるように
なっている。従って、外部記憶手段(例えば、サーバ)
50には、複数のパラメータセットΓ1511,Γ2
2,・・・,ΓM51Mが格納(アップロード)されてい
る(例えば、認識手段10Dで使用の際にパラメータの
変更を行った場合にも、認識手段10D側から、パラメ
ータセットを全体的に管理するサーバ側の外部記憶手段
50に変更後のデータを送り、その後の使用に供するよ
うにする)。
【0060】使用環境や話者が入れ替わりにより使用条
件が変化した場合に、認識手段10D側から外部記憶手
段50に対し、変化に適合するパラメータセットのダウ
ンロードを要求すると、複数のパラメータセットΓ1
1,Γ2512,・・・,ΓM51Mの中から要求された
パラメータセットを選択して、送り返し、そのデータに
より認識手段10Dの特徴パターン変換手段11Bのパラ
メータセットを書き換える。ここで行うダウンロード
は、一般によく知られた方法で実現できる。例えば,サ
ーバに接続された状態で、HTML形式で表示されたパラメ
ータセット名を指定してもよいし,ftp接続などにより
対応するパラメータセット名を指定するなどの方法を用
いることにより実現可能である。このように、本実施例
によれば、外部の大規模のデータを格納できるサーバか
ら最適なパラメータセットを取得できるので、音声認識
の精度が一層向上するとともに、認識手段10D側に複
数のパラメータセットを格納する必要がないので装置の
小型化が可能になる。
【0061】次に、認識手段内に選択・設定可能な複数
のパラメータセットを持った本発明の音声認識システム
(図6にその実施例を示す)におけるパラメータ訓練に
係わる実施例について説明する。図8は、パラメータの
訓練手段を設けた本発明の音声認識システムに係わる実
施例の構成を示すブロック図である。本実施例では、図
6に示した認識手段に訓練手段30を付加して音声認識
システムを構成する。訓練時は、認識手段10Eの特徴
パターン変換手段11B、訓練手段30をそれぞれに対
応するパラメータセットの端子C1〜CM、A1〜AMを訓
練の対象とするパラメータセットΓ1141,Γ2142
・・・,ΓM14Mの同じパラメータセットに接続する。
訓練手段30は、上記した図2及び図3に関して説明し
た実施例で述べた訓練手段30と同様の処理を行うこと
で実現できる。即ち、認識システムの誤分類度から得ら
れる損失を最小化するようにパラメータ調整量を算出
し、接続先のパラメータセットのパラメータを更新し、
特徴パターン変換手段11Bとして人工神経回路網を用
いた場合のパラメータ更新処理は、式(15)を用いて実
現できる。このようにして、使用条件に応じてパラメー
タを訓練することにより、所望のパラメータセットが得
られる。なお、図7に示した音声認識システムにおける
認識手段10Dのパラメータセットの訓練を上記と同様
に実施するようにしても良い。訓練の結果、変更された
パラメータセットのデータは、送受信手段15,55を
用いて外部記憶装置50に送り、格納するようにし、再
使用を可能にする。
【0062】
【発明の効果】(1) 請求項1の発明に対応する効果 音声認識システムの要素として、音声特徴パターンを写
像により変換する特徴パターン変換手段と、認識モデル
を分けることにより、使用条件の変化に対しパラメータ
を調整する場合、特徴パターン変換手段側だけのパラメ
ータの調整で高速に対応することが可能になる。 (2) 請求項2の発明に対応する効果 上記(1)の効果に加えて、特徴パターン変換手段を人
工神経回路網としたことにより、認識精度を上げること
が可能になる。 (3) 請求項3の発明に対応する効果 上記(1)、(2)の効果に加えて、切り替えにより、
特徴パターンの変換をする必要のない元の使用条件に応
じた設定に、即時に移すことが可能になり、システムの
高性能化を図ることができる。
【0063】(4) 請求項4の発明に対応する効果 上記(1)〜(3)の効果に加えて、複数種類の処理用
パラメータから使用条件に適したパラメータを指定し、
そのパラメータを用いて音声特徴パターンの認識処理を
行うことにより、認識精度の劣化を防止し、システムの
高性能化を図ることが可能になる。 (5) 請求項5の発明に対応する効果 上記(4)の効果に加えて、認識手段と別に設置した大
規模データが格納可能なサーバから最適なパラメータセ
ットを取得できるので、音声認識の精度が一層向上する
とともに、認識手段側に複数のパラメータセットを格納
する必要がないので装置の小型化が可能になる。 (6) 請求項6の発明に対応する効果 上記(1)〜(3)の効果に加えて、認識手段と別に設
置した大規模データが格納可能なサーバから最適なパラ
メータセットを取得できるので、音声認識の精度が向上
するとともに、認識手段側に複数のパラメータセットを
格納する必要がないので装置の小型化が可能になる。
【0064】(7) 請求項7の発明に対応する効果 上記(1)〜(6)の効果に加えて、認識したクラスに
対応する認識モデルによる損失を最小化するために、パ
ラメータを調整する訓練手段を備えたことにより、高精
度な音声認識を行うことができるようになる。また、特
徴パターン変換手段のパラメータだけを訓練できるよう
にした場合には、使用条件が変化持にも、高速に訓練を
することができる。 (8) 請求項8,9の発明に対応する効果 上記(7)の効果に加えて、訓練の対象を特徴パターン
変換手段のパラメータと認識モデルのパラメータとに分
け、片方づつ訓練する手順をとるようにしたことによ
り、誤り最小状態に到達する経路が安定するため、高速
に訓練ができる。また、上記の手順を繰り返すようにし
たことにより、訓練対象となるパラメータ数を少なくす
ることができるので、認識誤り最小状態への探索経路が
さらに安定し、より高速化が可能になる。
【図面の簡単な説明】
【図1】 本発明の音声認識システムに係わる認識手段
の実施例の構成を示すブロック図である。
【図2】 パラメータの訓練手段を設けた本発明の音声
認識システムに係わる実施例の構成を示すブロック図で
ある。
【図3】 音声特徴パターン変換に用いる人工神経回路
網を説明するための図である。
【図4】 訓練手段を設けた本発明の音声認識システム
に係わる他の実施例の構成を示すブロック図である。
【図5】 更新処理前の使用条件に復帰させることを可
能とした音声認識システムの実施例を示すブロック図で
ある。
【図6】 音声認識システムを構成する認識手段の他の
実施例を示すブロック図である。
【図7】 音声認識システムの他の実施例を示すブロッ
ク図である。
【図8】 図6に示す認識手段にパラメータの訓練手段
を設けた音声認識システムに係わる実施例の構成を示す
ブロック図である。
【符号の説明】
10,10A,10B,10C,10D,10E…認識手
段、11,11A,11B…特徴パターン変換手段、12
…認識モデル群、 121〜12U…認識モデ
ル(1)〜(U)、13…比較手段、 14…
パラメータセットΓ、141〜14…パラメータセッ
トΓ1〜Γ、15…送受信手段、 30
…訓練手段、50…外部記憶手段、 511
〜51…パラメータセットΓ1〜Γ、55…送受信
手段。

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 認識対象の音声が有する特徴パターンを
    認識モデルによって定義されるクラスにより認識する音
    声認識システムであって、音声特徴パターンを写像によ
    り変換する特徴パターン変換手段と、各クラスに対応す
    る認識モデルと、前記特徴パターン変換手段から出力さ
    れた特徴パターンを前記認識モデルにより測り、測定結
    果から最も一致度の高いクラスを特定する認識処理手段
    を備えたことを特徴とする音声認識システム。
  2. 【請求項2】 請求項1に記載された音声認識システム
    において、前記特徴パターン変換手段が人工神経回路網
    であることを特徴とする音声認識システム。
  3. 【請求項3】 請求項1又は2に記載された音声認識シ
    ステムにおいて、認識対象の音声特徴パターンを前記特
    徴パターン変換手段を経由せずに、直接、前記認識処理
    手段に入力する手段を設けたことを特徴とする音声認識
    システム。
  4. 【請求項4】 請求項1乃至3のいずれかに記載された
    音声認識システムにおいて、前記特徴パターン変換手段
    及び前記認識処理手段の少なくとも一方で使用される処
    理用パラメータを複数種類格納する手段と、指定された
    種類の処理用パラメータを前記パラメータ格納手段から
    取り出し、音声特徴パターンの処理に使用するために設
    定する手段を備えたことを特徴とする音声認識システ
    ム。
  5. 【請求項5】 請求項4に記載された音声認識システム
    において、前記特徴パターン変換手段及び前記認識処理
    手段と別に前記パラメータ格納手段を設置し、前記設定
    手段は設定する処理用パラメータをパラメータ格納手段
    から通信手段を介して取得するようにしたことを特徴と
    する音声認識システム。
  6. 【請求項6】 請求項1乃至3のいずれかに記載された
    音声認識システムにおいて、前記特徴パターン変換手段
    及び前記認識処理手段と別に設置した、前記特徴パター
    ン変換手段及び前記認識処理手段の少なくとも一方で使
    用される処理用パラメータを格納する手段と、該パラメ
    ータ格納手段から通信手段を介してパラメータを取得
    し、取得したパラメータを音声特徴パターンの処理に使
    用するために設定する手段を備えたことを特徴とする音
    声認識システム。
  7. 【請求項7】 請求項1乃至6のいずれかに記載された
    音声認識システムにおいて、前記特徴パターン変換手段
    及び前記認識処理手段の少なくとも一方で使用される処
    理用パラメータを調整可能とし、認識したクラスに対応
    する認識モデルによる損失を最小化するために、前記パ
    ラメータを調整する訓練手段を備えたことを特徴とする
    音声認識システム。
  8. 【請求項8】 請求項7に記載された音声認識システム
    において、前記訓練手段は、前記特徴パターン変換手段
    及び前記認識処理手段のいずれの処理用パラメータも調
    整可能とし、処理用パラメータを調整する手順として、
    特徴パターン変換手段で使用されるパラメータと前記認
    識モデルで使用されるパラメータのどちらか一方に対し
    て調整を行った後に、他方を調整するようにしたことを
    特徴とする音声認識システム。
  9. 【請求項9】 請求項8に記載された音声認識システム
    において、前記訓練手段は、処理用パラメータの前記調
    整手順を繰り返し行うようにしたことを特徴とする音声
    認識システム。
JP2001175927A 2001-03-29 2001-06-11 音声認識装置及び音声認識方法 Expired - Fee Related JP4716605B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001175927A JP4716605B2 (ja) 2001-03-29 2001-06-11 音声認識装置及び音声認識方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2001-96243 2001-03-29
JP2001096243 2001-03-29
JP2001096243 2001-03-29
JP2001175927A JP4716605B2 (ja) 2001-03-29 2001-06-11 音声認識装置及び音声認識方法

Publications (2)

Publication Number Publication Date
JP2002358094A true JP2002358094A (ja) 2002-12-13
JP4716605B2 JP4716605B2 (ja) 2011-07-06

Family

ID=26612570

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001175927A Expired - Fee Related JP4716605B2 (ja) 2001-03-29 2001-06-11 音声認識装置及び音声認識方法

Country Status (1)

Country Link
JP (1) JP4716605B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006030282A (ja) * 2004-07-12 2006-02-02 Nissan Motor Co Ltd 対話理解装置
JP2009216760A (ja) * 2008-03-07 2009-09-24 Nec Corp 音響分析条件正規化システム、音響分析条件正規化方法および音響分析条件正規化プログラム
KR100998897B1 (ko) * 2003-08-25 2010-12-09 엘지전자 주식회사 음성인식 홈 오토메이션 시스템 및 이를 이용한 가정용기기 제어방법
JP2016501398A (ja) * 2012-11-20 2016-01-18 クゥアルコム・インコーポレイテッドQualcomm Incorporated 区分的線形ニューロンモデル化
WO2019005318A1 (en) * 2017-06-29 2019-01-03 Intel IP Corporation RESET BASED ON STATISTICAL ANALYSIS OF RECURRENT NEURAL NETWORKS FOR AUTOMATIC SPEECH RECOGNITION
CN110503944A (zh) * 2019-08-29 2019-11-26 苏州思必驰信息科技有限公司 语音唤醒模型的训练和使用方法及装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111009258A (zh) * 2020-03-11 2020-04-14 浙江百应科技有限公司 一种单声道说话人分离模型、训练方法和分离方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04151200A (ja) * 1990-10-15 1992-05-25 A T R Jido Honyaku Denwa Kenkyusho:Kk 話者適応化装置
JPH0990976A (ja) * 1995-09-26 1997-04-04 Sony Corp 識別関数算出装置および識別関数算出方法、識別装置および識別方法、並びに音声認識装置
JPH11311998A (ja) * 1998-04-30 1999-11-09 Sony Corp 特徴抽出装置および方法、パターン認識装置および方法、並びに提供媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04151200A (ja) * 1990-10-15 1992-05-25 A T R Jido Honyaku Denwa Kenkyusho:Kk 話者適応化装置
JPH0990976A (ja) * 1995-09-26 1997-04-04 Sony Corp 識別関数算出装置および識別関数算出方法、識別装置および識別方法、並びに音声認識装置
JPH11311998A (ja) * 1998-04-30 1999-11-09 Sony Corp 特徴抽出装置および方法、パターン認識装置および方法、並びに提供媒体

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100998897B1 (ko) * 2003-08-25 2010-12-09 엘지전자 주식회사 음성인식 홈 오토메이션 시스템 및 이를 이용한 가정용기기 제어방법
JP2006030282A (ja) * 2004-07-12 2006-02-02 Nissan Motor Co Ltd 対話理解装置
JP4610249B2 (ja) * 2004-07-12 2011-01-12 日産自動車株式会社 対話理解装置
JP2009216760A (ja) * 2008-03-07 2009-09-24 Nec Corp 音響分析条件正規化システム、音響分析条件正規化方法および音響分析条件正規化プログラム
JP2016501398A (ja) * 2012-11-20 2016-01-18 クゥアルコム・インコーポレイテッドQualcomm Incorporated 区分的線形ニューロンモデル化
WO2019005318A1 (en) * 2017-06-29 2019-01-03 Intel IP Corporation RESET BASED ON STATISTICAL ANALYSIS OF RECURRENT NEURAL NETWORKS FOR AUTOMATIC SPEECH RECOGNITION
US10255909B2 (en) 2017-06-29 2019-04-09 Intel IP Corporation Statistical-analysis-based reset of recurrent neural networks for automatic speech recognition
CN110503944A (zh) * 2019-08-29 2019-11-26 苏州思必驰信息科技有限公司 语音唤醒模型的训练和使用方法及装置
CN110503944B (zh) * 2019-08-29 2021-09-24 思必驰科技股份有限公司 语音唤醒模型的训练和使用方法及装置

Also Published As

Publication number Publication date
JP4716605B2 (ja) 2011-07-06

Similar Documents

Publication Publication Date Title
US8290773B2 (en) Information processing apparatus, method and recording medium for generating acoustic model
EP1394770A1 (en) Voice recognition apparatus and voice recognition method
JP4767754B2 (ja) 音声認識装置および音声認識プログラム
JP2019079034A (ja) 自己学習自然言語理解を伴うダイアログ・システム
JP2006285899A (ja) 学習装置および学習方法、生成装置および生成方法、並びにプログラム
EP1300831A1 (en) Method for detecting emotions involving subspace specialists
CN104835493A (zh) 语音合成字典生成装置和语音合成字典生成方法
JP5060006B2 (ja) 音声認識システムの自動的再学習
JP2014102578A (ja) 情報処理装置、制御方法、プログラム、及び記録媒体
CN108764475A (zh) 遗传小波神经网络的陀螺随机误差补偿方法及系统
JP2002358094A (ja) 音声認識システム
JPH0883098A (ja) パラメータ変換方法及び音声合成方法
Nilsson et al. On the estimation of differential entropy from data located on embedded manifolds
McDermott et al. Prototype-based discriminative training for various speech units
CN112911497B (zh) 一种合作类无人机轨迹实时预测方法及系统
JP7047849B2 (ja) 識別装置、識別方法、および識別プログラム
CN110558972B (zh) 一种心电信号深度学习模型的轻量化方法
CN110110853B (zh) 一种深度神经网络压缩方法、装置及计算机可读介质
US11475255B2 (en) Method for adaptive context length control for on-line edge learning
CN111539306B (zh) 基于激活表达可替换性的遥感图像建筑物识别方法
JP6943295B2 (ja) 学習装置、学習方法、および学習プログラム
WO2019116494A1 (ja) 学習装置、学習方法、分類方法、および記憶媒体
JP3550303B2 (ja) ピッチパターン生成方法およびピッチパターン生成装置
WO2024069726A1 (ja) 学習装置、変換装置、学習方法、変換方法及びプログラム
WO2019225539A1 (ja) 無線通信識別装置および無線通信識別方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080512

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101014

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101025

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101217

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110114

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110310

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110329

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110329

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140408

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees