JP2003099083A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP2003099083A
JP2003099083A JP2001291825A JP2001291825A JP2003099083A JP 2003099083 A JP2003099083 A JP 2003099083A JP 2001291825 A JP2001291825 A JP 2001291825A JP 2001291825 A JP2001291825 A JP 2001291825A JP 2003099083 A JP2003099083 A JP 2003099083A
Authority
JP
Japan
Prior art keywords
model
voice
speech
data
likelihood
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001291825A
Other languages
English (en)
Inventor
Shoe Sato
庄衛 佐藤
Toru Imai
亨 今井
Kazuho Onoe
和穂 尾上
Hiroyuki Segi
寛之 世木
Akio Ando
彰男 安藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2001291825A priority Critical patent/JP2003099083A/ja
Publication of JP2003099083A publication Critical patent/JP2003099083A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 認識結果出力までの遅延時間を短縮し、計算
コストを軽減することが可能な音声認識装置を提供する
こと。 【解決手段】 事前音声データの各クラスタについて、
音声クラスモデルを生成するための音声クラスモデル生
成手段と、各音声クラスモデルに基づいて複数の適応音
響モデル生成するための適応化処理手段と、音声クラス
モデルに対する入力音声の尤度を計算するための音声ク
ラスモデル尤度計算手段とを有する1以上のモデル生成
手段からなるモデル群生成手段40と、音声クラスモデ
ルに対する入力音声の尤度を基準に複数の適応音響モデ
ルの中から最適な適応音響モデルを選択するための適応
音響モデル選択手段60と、適応音響モデル選択手段が
選択した適応音響モデルを用いて入力音声の音声認識を
行うための音声認識手段50とを備え、音声クラスモデ
ル尤度計算手段は、入力音声の先頭近傍のデータを用い
て尤度を計算する構成を有する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、適応化音響モデル
を用いる音声認識装置に関し、特に、入力音声が不特定
話者によるものまたは背景雑音を含むものである場合の
音声認識において、認識結果を時間遅れなく出力するた
めに適応化音響モデルを用いる音声認識装置に関する。
【0002】
【従来の技術】従来、予め話者を特定すること、および
音声認識用の音響モデルをその話者に適応させるための
データ(以下、適応用データという。)を十分用意でき
る場合には、音響モデルの話者適応化は音声認識の認識
精度向上に有効な方法であることが知られている。一
方、話者を特定できない場合には、1人以上の話者につ
いて、音声データの集合からなるクラスタを作成し、ク
ラスタ毎に適応化した音響モデルを使用することが提案
されている。
【0003】クラスタの作成方法に関しては、以下に示
す事後クラスタリング法と事前クラスタリング法の2つ
の方法が提案されている。事後クラスタリング法は、エ
ス.イー.ジョンソン等著、「MLLR採用尤度の直接
最大化技術を用いた話者のクラスタリング」、ICAS
SP98、5巻、1775−1778頁(S.E.Jo
hnson et al.,“Speaker Clu
stering using Direct Maxi
mization of the MLLR−adop
ted Likelihood”,ICASSP98,
vol.5,pp1775−1778)に記載されてい
るように、すべての音声が入力された後に入力音声をク
ラスタリングしてクラスタ毎の適応音響モデルを作成す
る方法である。
【0004】事前クラスタリング法は、ワイ.ガオ.エ
ム等著、「事前話者学習に基づく話者適応化」、Eur
ospeech‘97、4巻、2091−2094ペー
ジ(Y.Gao.M.et al.,“Speaker
Adaptation Based on Pre−
clustering Training Speak
er”,Eurospeech’97,vol.4,p
p.2091−2094)に記載されているように、事
前に音響モデルの学習用データをクラスタリングし、そ
のクラスタリングされたデータを用いて適応音響モデル
を作成しておく方法である。
【0005】音声認識に上記のクラスタ毎の適応音響モ
デルを用いる場合は、複数ある適応音響モデルの中から
入力音声に対して最適な適応音響モデルを選択して音声
認識が行われる。上記の事後クラスタリング法では、全
ての音声が入力され、クラスタリングが行なわれた後に
適応音響モデルが決定される。一方、事前クラスタリン
グ法では、多くの場合、事前に用意された複数の適応音
響モデルについて、最適な適応音響モデルを選択するた
めの処理が同時に行われる。
【0006】
【発明が解決しようとする課題】しかしながら、従来の
事後クラスタリング法では、全ての音声が入力され、ク
ラスタリングが行なわれた後に最適な適応音響モデルの
選択が行われるため、音声入力から認識結果出力までの
遅延時間を短くする必要がある場合には利用できないと
いう問題がある。
【0007】また、従来の事前クラスタリング法では、
事前に用意された複数の適応音響モデルについて、最適
な適応音響モデルを選択するための処理が同時に行われ
るため、それに伴う計算コストが増大するという問題が
ある。
【0008】本発明は、かかる問題を解決するためにな
されたものであり、その目的は、認識結果出力までの遅
延時間を短縮し、計算コストを軽減することが可能な音
声認識装置を提供することにある。
【0009】
【課題を解決するための手段】以上の点を考慮して、請
求項1に係る発明は、複数の音声クラスモデルを生成す
るための音声クラスモデル生成手段と、前記各音声クラ
スモデルに基づいて複数の適応音響モデル生成するため
の適応化処理手段と、前記音声クラスモデルに対する入
力音声の尤度を計算するための音声クラスモデル尤度計
算手段とを有する1以上のモデル生成手段からなるモデ
ル群生成手段と、前記音声クラスモデルに対する入力音
声の尤度を基準に前記複数の適応音響モデルの中から最
適な適応音響モデルを選択するための適応音響モデル選
択手段と、前記適応音響モデル選択手段が選択した適応
音響モデルを用いて前記入力音声の音声認識を行うため
の音声認識手段とを備えた構成を有している。
【0010】この構成により、音声認識処理前に予め音
声クラスモデルおよび適応音響モデルを生成しておき、
音声クラスモデルに対する尤度に基づいて適応音響モデ
ルの選択を行うため、クラスタ依存の適応音響モデルを
短時間に選択することが可能な音声認識装置を実現でき
る。
【0011】また、請求項2に係る発明は、請求項1に
おいて、さらに、認識対象音声の所定の特性を有する事
前音声データを記憶するための事前音声データ記憶手段
と、前記事前音声データを、前記認識対象音声の特性別
にクラスタリングして1以上のクラスタを生成するため
のクラスタリング手段とを備え、前記音声クラスモデル
生成手段は、前記クラスタリング手段が生成したクラス
タに含まれる音声データをモデル化して前記音声クラス
モデルを生成する構成を有している。
【0012】この構成により、音声認識処理前に予め音
声クラスモデルおよび適応音響モデルを生成しておき、
音声クラスモデルに対する尤度に基づいて適応音響モデ
ルの選択を行うため、クラスタ依存の適応音響モデルを
短時間に選択することが可能な音声認識装置を実現でき
る。
【0013】また、請求項3に係る発明は、請求項1に
おいて、前記音声認識装置は、さらに、所定の音声デー
タを、前記事前音声データ記憶手段に記憶された事前音
声データの個数以上記憶するためのデータベースを備
え、前記各モデル群生成手段は、さらに、前記音声クラ
スモデルに基づいて、前記適応データ選択手段が前記適
応音響モデル生成のためのモデル適応化に用いる音声デ
ータである適応用データを、前記データベースに記憶さ
れた音声データ中から選択するための適応データ選択手
段を含む構成を有している。
【0014】この構成により、音声認識処理前に予め音
声クラスモデルを生成しておくと共に、適応データ選択
手段を設けてモデル適応化のために用いる音声データを
選択し、適応音響モデルを生成しておき、音声クラスモ
デルに対する尤度に基づいて適応音響モデルの選択を行
うため、クラスタ依存の適応音響モデルを短時間に選択
することが可能な音声認識装置を実現できる。
【0015】また、請求項4に係る発明は、請求項1に
おいて、前記音声クラスモデル尤度計算手段は、前記音
声クラスモデルに対する入力音声の尤度を、前記入力デ
ータの先頭近傍における所定部分のデータである先頭デ
ータを用いて計算し、前記適応音響モデル選択手段は、
前記先頭データを用いて計算された尤度の情報を用いて
前記適応音響モデルを選択する構成を有している。
【0016】この構成により、音声認識処理前に予め音
声クラスモデルおよび適応音響モデルを生成しておき、
音声認識時に入力音声の先頭データを用いてモデルの選
択を行うため、クラスタ依存の適応音響モデルを短時間
に、かつ低計算コストで選択することが可能な音声認識
装置を実現できる。
【0017】また、請求項5に係る発明は、請求項1ま
たは4において、前記音声クラスモデル尤度計算手段
は、前記先頭データが前記適応音響モデル選択に利用可
能なデータか否かを判断するための指標である信頼度を
生成し、前記適応音響モデル選択手段は、前記音声クラ
スモデルに対する入力音声の尤度の情報と前記信頼度の
情報とを用いて前記適応音響モデルを選択する構成を有
している。
【0018】この構成により、モデルの利用可能性の指
標である信頼度を生成し、その信頼度の情報を併用して
適応音響モデルの選択を行うこととしたため、背景雑音
のある環境下での音声入力に対しても適応音響モデルの
誤選択の割合が小さく、短時間に、かつ低計算コストで
選択することが可能な音声認識装置を実現できる。
【0019】また、請求項6に係る発明は、請求項1に
おいて、前記音声クラスモデル尤度計算手段は、モデル
出現確率の時系列データを時間に関して平滑化処理して
得られる局所尤度を、前記音声クラスモデルに対する入
力音声の尤度として生成する構成を有している。
【0020】この構成により、音声クラスモデルに対す
る尤度を時間に関して平滑化処理するため、尤度の時間
変動が激しい場合でも、適応音響モデルを、安定かつ短
時間に選択することが可能な音声認識装置を実現でき
る。
【0021】また、請求項7に係る発明は、請求項1、
4、5、6のいずれかにおいて、前記音声クラスモデル
は、所定の事前情報に基づいて複数のグループに分けら
れ、前記音声クラスモデル尤度計算手段は、前記各グル
ープについて、前記各グループを構成する各音声クラス
モデルに対する尤度の情報を用いて前記適応音響モデル
選択のための信頼度とする構成を有している。
【0022】この構成により、事前情報を反映した信頼
度を用いて音声データがモデル選択に使用できるものか
否かの判断を行うこととしたため、背景雑音のある環境
下での音声入力に対しても適応音響モデルの誤選択の割
合が小さく、短時間に、かつ低計算コストで選択するこ
とが可能な音声認識装置を実現できる。
【0023】
【発明の実施の形態】以下、添付図面を参照し、本発明
の第1の実施の形態に係る音声認識装置について説明す
る。図1に、本発明の第1の実施の形態に係る音声認識
装置の構成を模式的に示す。図1において、音声認識装
置100は、事前音声データ記憶部10、クラスタリン
グ部20、大規模データベース30、モデル群生成部4
0、切出部50、適応音響モデル選択部60、および音
声認識部70によって構成される。
【0024】事前音声データ記憶部10は、予め認識対
象音声の所定の特性を有する事前音声データを記憶する
ための記憶部である。クラスタリング部20は、音声デ
ータ記憶部10に記憶された事前音声データのうちの、
認識対象音声の特性を良くあらわした音声データを特性
別に1以上のクラスタにクラスタリングするための構成
部である。
【0025】ここで、上記の「認識対象音声の特性を良
くあらわした音声データ」として、例えば、放送音声の
認識の場合では、同一の番組で過去に放送された音声の
データがあげられる。大規模データベース30は、音響
モデルの適応化のために、事前に収集された多数の音響
データを格納しておくためのデータベースである。
【0026】モデル群生成部40の詳細な構成を図2お
よび3に示す。図2に示すように、モデル群生成部40
は、複数のモデル生成部41−i(i=1、2、・・
・、nの値をとる整数)によって構成され、各モデル生
成部41−iは、同一の構成を有する。また、各モデル
生成部41−iには、それぞれ、クラスタリング部20
から出力されたクラスタ、大規模データベース30から
出力された適応用データおよび切出部50から出力され
た切出データが入力され、後述する尤度データおよび適
応音響モデルが出力される。
【0027】図3に示すように、各モデル生成部41−
iは、それぞれ音声クラスモデル生成部42、適応デー
タ選択部43、適応化処理部44、および音声クラスモ
デル尤度計算部45によって構成される。音声クラスモ
デル生成部42は、クラスタリング部20から出力され
た各クラスタに含まれる音声データをモデル化して複数
の音声クラスモデルを作成するための構成部である。
【0028】この音声クラスモデルとしては、例えば、
エス.サト等著、「2段クラスタリングを用いたHMM
の選択的学習」、ICSLP2000、3巻、726−
729頁(S.Sato et al.,“Selec
tive Trainingof HMMs by u
sing two−stage Clusterin
g”,ICSLP2000,vol.3,pp726−
729)に記載されたGMM(Gaussian Mi
xture Model)を用いることができる。
【0029】適応データ選択部43は、音声クラスモデ
ル生成部42から出力された音声クラスモデルに基づい
て、大規模データベース30から出力される適応用デー
タの中から、元となる不特定話者用の音響モデルを適応
化するために用いる適応用データを選択するための構成
部である。適応化処理部44は、音声クラスモデル生成
部42から出力された音声クラスモデルに基づいて、適
応データ選択部43で選択された適応用データを用いて
音響モデルの適応化処理を行い、音声認識用の候補とし
ての適応音響モデルを生成する。
【0030】音響モデルの適応化には、シー.ジェイ.
レゲッター等著、「連続密度隠れマルコフモデルの話者
適応化のための最尤線形回帰」、Computer S
peech and Language、9号、171
−185頁、1995年9月(C.J.Leggett
er et al.,“Maximum likeli
hood linear regression fo
r speakeradaptation of co
ntinuous density hidden M
arkov models”,Computer Sp
eech and Language,No.9,p
p.171−185,Spe.1995)に記載のML
LR(Mximum Likelihood Line
ar Regression、)や、ジーン・リュック
コビアン等著、「マルコフの鎖の多変量ガウス混合観
測のための最尤後方推定」、IEEEtrans.,
S.A.P.、2巻、2号、291−298頁(Jea
n−luc Cauvianet al.,“Maxi
mum a Posteriori Estimati
on for Multivariate Gauss
ian Mixture Observations
of Markov Chains”,IEEEtra
ns.,S.A.P.,vol.2,No.2,pp.
291−298)に記載のMAP(Maximum a
Posteriori Estimation)等の
技術を用いることができる。
【0031】音声クラスモデル尤度計算部45は、音声
クラスモデル生成部42から出力される音声クラスモデ
ル対して、後述する切出部50から入力される入力音声
の切出データの尤度を計算するための構成部であり、計
算された尤度は適応音響モデル選択部60に出力され
る。尤度の計算方法は公知であり、その説明は省略す
る。
【0032】切出部50は、発話区間を検出し、その発
話区間の入力音声を所定の長さのデータとして切り出
し、切り出された音声データ(以下、切出データとい
う。)をモデル群生成部40と音声認識部70に出力す
る為の構成部である。適応音響モデル選択部60は、モ
デル群生成部40から出力された尤度の情報(以下、尤
度データという。)に基づいて、最も高い尤度を与える
音声クラスモデルに対応した適応音響モデルを、音声認
識に使用する適応音響モデルとして決定し、図1に示す
ように、モデル群生成部40から出力される複数の適応
音響モデルの中からその適応音響モデルを選択するため
の構成部である。
【0033】音声認識部70は、モデル群生成部40に
よって生成され、適応音響モデル選択部60によって選
択された適応音響モデルを用いて、切出部50から出力
された切出データの音声認識処理を行うための構成部で
ある。音声認識部70での音声認識処理の結果が、認識
結果として音声認識装置100から出力される。
【0034】なお、適応音響モデル選択部60は、入力
音声の先頭近傍における所定部分のデータ(以下、先頭
データという。)を用いて、上記の各音声クラスモデル
について尤度を計算することができる。上記の先頭デー
タとして、例えば、発話区間の検出と切り出しを行って
得られた各切出データの先頭部分のデータ等を用いるこ
とができる。これによって、各音声クラスモデルについ
ての尤度計算のための時間の短縮が図れ、適応音響モデ
ルの選択を短時間に行うことが可能となる。
【0035】また、一般に、発話区間の切り出しは音声
のレベルに基づいて行われる場合が多いが、背景雑音レ
ベルが高い状況下で入力された音声では、切出データに
おける先頭データがしばしば雑音で占められる場合があ
る。このような場合は、適応音響モデルの選択エラーが
発生し、認識精度が低下する一因となる。
【0036】そこで、適応音響モデル選択部60におけ
る選択処理として、上記の切出データにおける局所的な
データ(以下、局所データという。)に対するモデル選
択の指標である信頼度を導入し、信頼度の情報に基づい
てモデル選択の結果が信頼できると判断された時点で適
応音響モデルの選択を行うように処理することにするの
でも良い。以下に、上記の信頼度について説明する。
【0037】局所データに対するモデル選択の信頼度と
して、例えば、以下の式(1)で与えられる尤度比R(t
|λ)を用いることができる。 R(t|λ)=L(t−1|λ)−L(t|λ-) (1) ここで、tは時刻、λは音声クラスモデルを特定するた
めのパラメータであり、L(t|λ)は以下の式(2)に
定義される局所尤度である。
【0038】 L(t|λ)=(1−α)L(t−1|λ)+αP(xt|λ) (2) ここで、αは(0<α<1)の定数、P(xt|λ)は音声
クラスモデルλについて時刻tの入力音声xtの出力確
率密度である。したがって、局所尤度L(t|λ)は、音
声クラスモデルλの出力確率密度の時系列データを時間
に関して平滑化処理(スムージングともいう。)して得
られたものである。
【0039】また、λ-は、以下の式(3)によって定
義される。 L(t|λ-)=(1−α)L(t−1|λ-)+αΣλ≠λ'P(xt|λ’)(3) ここで、式(3)の総和は、上記の式(1)、(2)に
おける音声クラスモデルλと異なる音声クラスモデル
λ’についてとられる。
【0040】音声クラスモデルの選択は、以下の条件を
満たす音声クラスモデルλ^が選ばれるように行われ
る。 λ^=argmaxλ(R(t|λ)))if maxλ(R(t|λ))>Th (4) ここで、argmaxλは、引数の値が最大値になる引数を取
るようにλを選択する函数であり、Thは尤度比R(t|
λ)のしきい値である。
【0041】これによって、信頼度の目安である尤度比
R(t|λ)が所定のしきい値Thを超える入力音声と音声
クラスモデルλが存在したとき、尤度比R(t|λ)が最
大となる音声クラスモデルλを選択できることになる。
したがって、例えば局所データが雑音である場合は、尤
度比R(t|λ)がしきい値Thを超えないようにしておく
ことによって、いずれの音声クラスモデルλも選択され
ないようにすることができる。
【0042】適応音響モデルの選択に関しては、よく似
た音声クラスモデルが複数あることにより、上記の式
(4)で記載される判定だけでは異なる音声クラスモデ
ル間での尤度比の差が広がらないことが起こる。そのた
め、尤度比を用いて最適な適応音響モデルを確定するこ
とが困難となる場合もある。そこで、上記の式(4)で
前提とされる条件に加えて、あるいは代わりに、以下の
式(5)で表される条件を導入するのでも良い。
【0043】以下の式(5)は、性別という事前知識を
利用し、同性の音声クラスモデルをグルーピングして性
別モデル{Λm,Λf}を形成し、上記の単一の音声クラ
スモデルλの代わりに各性別モデルについて、出現確率
密度(あるいは、局所尤度比)がしきい値を超えている
か否かを判断するものである。 maxg∈{m、f}(Rg(t|Λg))>Thg (5)
【0044】ここで、Λmは、例えば男性の性別モデル
であり、Λfは、女性の性別モデルである。各性別モデ
ルについての出現確率密度(あるいは、局所尤度比)と
して、同一性別モデル内にある音声クラスモデルの出力
確率密度の和を取ることも、重み付きの和を取ることも
できる。上記の式(5)の条件を満たすことを条件とし
て併用することで、音声区間でのモデル選択精度の向上
を図ることができ、モデル確定の早期化と、認識精度を
大きく低下させる性別誤りを削減することができる。
【0045】以上説明したように、本発明の第1の実施
の形態に係る音声認識装置は、音声認識処理前に予め音
声クラスモデルと、その音声クラスモデルに基づいて適
応音響モデルを生成しておき、音声認識時に入力音声の
先頭データを用いてモデルの選択を行うため、クラスタ
依存の適応音響モデルを短時間に、かつ低計算コストで
選択することができる。また、信頼度を用いて音声デー
タがモデル選択に使用できるものか否かの判断を行うこ
ととしたため、背景雑音のある環境下での音声入力に対
しても適応音響モデルの誤選択の割合を低減できる。
【0046】
【発明の効果】以上説明したように、本発明は、認識結
果出力までの遅延時間を短縮し、計算コストを軽減する
ことが可能な音声認識装置を実現することができる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態に係る音声認識装置
の全体構成を示すブロック図である。
【図2】本発明の第1の実施の形態に係る音声認識装置
におけるモデル群生成部の全体構成を示すブロック図で
ある。
【図3】本発明の第1の実施の形態に係る音声認識装置
におけるモデル生成部の詳細な構成を示すブロック図で
ある。
【符号の説明】
10 事前音声データ記憶部 20 クラスタリング部 30 大規模データベース 40 モデル群生成部 41−i(i=1、2、・・・、n) モデル生成部 42 音声クラスモデル生成部 43 適応データ選択部 44 適応化処理部 45 音声クラスモデル尤度計算部 50 切出部 60 適応音響モデル選択部 70 音声認識部 100 音声認識装置
───────────────────────────────────────────────────── フロントページの続き (72)発明者 尾上 和穂 東京都世田谷区砧一丁目10番11号 日本放 送協会 放送技術研究所内 (72)発明者 世木 寛之 東京都世田谷区砧一丁目10番11号 日本放 送協会 放送技術研究所内 (72)発明者 安藤 彰男 東京都世田谷区砧一丁目10番11号 日本放 送協会 放送技術研究所内 Fターム(参考) 5D015 GG01 GG04 GG06

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】複数の音声クラスモデルを生成するための
    音声クラスモデル生成手段と、前記各音声クラスモデル
    に基づいて複数の適応音響モデル生成するための適応化
    処理手段と、前記音声クラスモデルに対する入力音声の
    尤度を計算するための音声クラスモデル尤度計算手段と
    を有する1以上のモデル生成手段からなるモデル群生成
    手段と、前記音声クラスモデルに対する入力音声の尤度
    を基準に前記複数の適応音響モデルの中から最適な適応
    音響モデルを選択するための適応音響モデル選択手段
    と、前記適応音響モデル選択手段が選択した適応音響モ
    デルを用いて前記入力音声の音声認識を行うための音声
    認識手段とを備えたことを特徴とする音声認識装置。
  2. 【請求項2】前記音声認識装置は、さらに、認識対象音
    声の所定の特性を有する事前音声データを記憶するため
    の事前音声データ記憶手段と、前記事前音声データを、
    前記認識対象音声の特性別にクラスタリングして1以上
    のクラスタを生成するためのクラスタリング手段とを備
    え、前記音声クラスモデル生成手段は、前記クラスタリ
    ング手段が生成したクラスタに含まれる音声データをモ
    デル化して前記音声クラスモデルを生成することを特徴
    とする請求項1記載の音声認識装置。
  3. 【請求項3】前記音声認識装置は、さらに、所定の音声
    データを、前記事前音声データ記憶手段に記憶された事
    前音声データの個数以上記憶するためのデータベースを
    備え、前記各モデル群生成手段は、さらに、前記音声ク
    ラスモデルに基づいて、前記適応データ選択手段が前記
    適応音響モデル生成のためのモデル適応化に用いる音声
    データである適応用データを、前記データベースに記憶
    された音声データ中から選択するための適応データ選択
    手段を有することを特徴とする請求項1記載の音声認識
    装置。
  4. 【請求項4】前記音声クラスモデル尤度計算手段は、前
    記音声クラスモデルに対する入力音声の尤度を、前記入
    力データの先頭近傍における所定部分のデータである先
    頭データを用いて計算し、前記適応音響モデル選択手段
    は、前記先頭データを用いて計算された尤度の情報を用
    いて前記適応音響モデルを選択することを特徴とする請
    求項1記載の音声認識装置。
  5. 【請求項5】前記音声クラスモデル尤度計算手段は、前
    記先頭データが前記適応音響モデル選択に利用可能なデ
    ータか否かを判断するための指標である信頼度を生成
    し、前記適応音響モデル選択手段は、前記音声クラスモ
    デルに対する入力音声の尤度の情報と前記信頼度の情報
    とを用いて前記適応音響モデルを選択することを特徴と
    する請求項1または4記載の音声認識装置。
  6. 【請求項6】前記音声クラスモデル尤度計算手段は、モ
    デル出現確率の時系列データを時間に関して平滑化処理
    して得られる局所尤度を、前記音声クラスモデルに対す
    る入力音声の尤度として生成することを特徴とする請求
    項1記載の音声認識装置。
  7. 【請求項7】前記音声クラスモデルは、所定の事前情報
    に基づいて複数のグループに分けられ、前記音声クラス
    モデル尤度計算手段は、前記各グループについて、前記
    各グループを構成する各音声クラスモデルに対する尤度
    の情報を用いて前記適応音響モデル選択のための信頼度
    とすることを特徴とする請求項1、4、5、6のいずれ
    かに記載の音声認識装置。
JP2001291825A 2001-09-25 2001-09-25 音声認識装置 Pending JP2003099083A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001291825A JP2003099083A (ja) 2001-09-25 2001-09-25 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001291825A JP2003099083A (ja) 2001-09-25 2001-09-25 音声認識装置

Publications (1)

Publication Number Publication Date
JP2003099083A true JP2003099083A (ja) 2003-04-04

Family

ID=19113902

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001291825A Pending JP2003099083A (ja) 2001-09-25 2001-09-25 音声認識装置

Country Status (1)

Country Link
JP (1) JP2003099083A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006171185A (ja) * 2004-12-14 2006-06-29 Asahi Kasei Corp 音声認識装置および音声認識方法
US7590537B2 (en) 2004-02-18 2009-09-15 Samsung Electronics Co., Ltd. Speaker clustering and adaptation method based on the HMM model variation information and its apparatus for speech recognition
JP2009210829A (ja) * 2008-03-04 2009-09-17 Nippon Hoso Kyokai <Nhk> 音響モデル学習装置およびプログラム
US8682132B2 (en) 2006-05-11 2014-03-25 Mitsubishi Electric Corporation Method and device for detecting music segment, and method and device for recording data
US8855796B2 (en) 2005-12-27 2014-10-07 Mitsubishi Electric Corporation Method and device for detecting music segment, and method and device for recording data

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7590537B2 (en) 2004-02-18 2009-09-15 Samsung Electronics Co., Ltd. Speaker clustering and adaptation method based on the HMM model variation information and its apparatus for speech recognition
JP2006171185A (ja) * 2004-12-14 2006-06-29 Asahi Kasei Corp 音声認識装置および音声認識方法
US8855796B2 (en) 2005-12-27 2014-10-07 Mitsubishi Electric Corporation Method and device for detecting music segment, and method and device for recording data
US8682132B2 (en) 2006-05-11 2014-03-25 Mitsubishi Electric Corporation Method and device for detecting music segment, and method and device for recording data
JP2009210829A (ja) * 2008-03-04 2009-09-17 Nippon Hoso Kyokai <Nhk> 音響モデル学習装置およびプログラム

Similar Documents

Publication Publication Date Title
US11513766B2 (en) Device arbitration by multiple speech processing systems
US10210862B1 (en) Lattice decoding and result confirmation using recurrent neural networks
US8612224B2 (en) Speech processing system and method
EP4018437B1 (en) Optimizing a keyword spotting system
CN106847259B (zh) 一种音频关键词模板的筛选和优化方法
EP1457968B1 (en) Noise adaptation system of speech model, noise adaptation method, and noise adaptation program for speech recognition
WO2010128560A1 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
US10199037B1 (en) Adaptive beam pruning for automatic speech recognition
KR20160059265A (ko) 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치
US20240029743A1 (en) Intermediate data for inter-device speech processing
CN108806691B (zh) 语音识别方法及系统
JP2003099083A (ja) 音声認識装置
KR101727306B1 (ko) 언어모델 군집화 기반 음성인식 장치 및 방법
JP3176210B2 (ja) 音声認識方法及び音声認識装置
Breslin et al. Generating complementary systems for speech recognition.
US11328713B1 (en) On-device contextual understanding
Andra et al. Contextual keyword spotting in lecture video with deep convolutional neural network
JP2004117624A (ja) 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム
JPH08110792A (ja) 話者適応化装置及び音声認識装置
JP2009025411A (ja) 音声認識装置およびプログラム
JP2888781B2 (ja) 話者適応化装置及び音声認識装置
Lei et al. DBN-based multi-stream models for Mandarin toneme recognition
JP2005091518A (ja) 音声認識装置及び音声認識プログラム
KR101134450B1 (ko) 음성인식 방법
Lei et al. Investigation of prosodie FO layers in hierarchical FO modeling for HMM-based speech synthesis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060324

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090318

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090331

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090728