JP2002268673A - 音声認識装置、音声認識方法、及び音声認識プログラム - Google Patents

音声認識装置、音声認識方法、及び音声認識プログラム

Info

Publication number
JP2002268673A
JP2002268673A JP2001070937A JP2001070937A JP2002268673A JP 2002268673 A JP2002268673 A JP 2002268673A JP 2001070937 A JP2001070937 A JP 2001070937A JP 2001070937 A JP2001070937 A JP 2001070937A JP 2002268673 A JP2002268673 A JP 2002268673A
Authority
JP
Japan
Prior art keywords
collation
dictionary
matching
partial
stored
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001070937A
Other languages
English (en)
Other versions
JP4104831B2 (ja
Inventor
Tomohiro Iwasaki
知弘 岩▲さき▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2001070937A priority Critical patent/JP4104831B2/ja
Publication of JP2002268673A publication Critical patent/JP2002268673A/ja
Application granted granted Critical
Publication of JP4104831B2 publication Critical patent/JP4104831B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 音声認識応答時間を短縮することのできる音
声認識装置、音声認識方法および音声認識方法を実行す
るための電子計算機用プログラムを記憶した記録媒体を
得ることを目的とする。 【解決手段】 音声入力をする音響分析手段1と、読み
出し速度の早い記憶媒体からなる第一辞書記憶手段6
と、読み出し速度の遅い記憶媒体からなる第二辞書記憶
手段7と、第一辞書記憶手段6に記憶された部分辞書を
読み出して照合データとして記憶する照合データ記憶手
段4と、第二辞書記憶手段7に記憶された部分辞書を読
み出して照合データとして遅延照合データ記憶手段8
と、先行して照合データ記憶手段4の照合データの照合
処理を進め、照合処理間で処理の遅れがなくなると、遅
延照合データ記憶手段8の照合データを照合データ記憶
手段4の照合データにマージするモデル照合手段5とを
有する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は音声により住所検
索などの大語彙認識を行う音声認識装置、音声認識方
法、及び音声認識プログラムに関するものである。
【0002】
【従来の技術】大語彙の音声認識を行う場合には、大規
模な単語辞書が必要である。全ての単語辞書を高速に参
照可能な内部メモリに置いて認識処理を行うことが望ま
しいが、組み込み機器など内部メモリ量が小さい場合に
は、一部の辞書を参照速度の遅い記憶媒体に記録して、
これらを参照しながら認識を行う必要がある場合があ
る。ここでは、特願平11−254286号明細書に記
述されている音声認識装置を一例として、従来の音声認
識装置の説明を行う。以下、音声認識方式としてはHM
M(Hidden Markov Model:隠れマ
ルコフモデル)を用い、認識対象を住所とし、認識する
単位であるノードを音節として説明を行う。
【0003】図6は従来の音声認識装置の構成を示す図
である。1は音声信号を入力し音響分析を行い特徴ベク
トルの時系列に変換する音響分析手段であり、2は認識
対象の標準モデルを記憶する標準モデル記憶手段であ
る。6は辞書を記憶した高速に参照可能な記録媒体から
なる第一辞書記憶手段であり、7は辞書を記憶した高速
では参照不可能な記録媒体からなる第二辞書記憶手段で
ある。3は部分辞書とその部分辞書が記録された記録媒
体との対応を表すために、部分辞書が記録された記憶媒
体またグループ名を記憶する記録媒体記憶手段である。
4は照合処理の作業領域として、第一辞書記憶手段6及
び第二辞書記憶手段7に記憶された部分辞書を読み出し
て照合データとして記憶する照合データ記憶手段であ
り、5は音響分析手段1からの特徴ベクトルに対し、標
準モデル記憶手段2からの標準モデルと、照合データ記
憶手段4に記憶された第一辞書記憶手段6及び第二辞書
記憶手段7から読み出された照合データとしての部分辞
書とを参照しながら、標準モデルと照合データとの照合
処理を行い、特徴ベクトルを認識した認識結果を出力す
るモデル照合手段である。
【0004】以下の説明では、第一辞書記憶手段6をR
AM(Random AccessMemory)、第
二辞書記憶手段7をDVD−ROM(Digital
Versatile Disk−Read Only
Memory)として説明を行う。RAMは高速に参照
可能な記録媒体であるが、コストが非常に高いという特
徴がある。これに対して、DVD−ROMは非常に大容
量でコストが安いが読み出し速度が遅いという特徴があ
る。
【0005】住所などの大語彙の認識を行う場合には単
語辞書の大きさが膨大となり、単語辞書をRAMに全部
記憶しておくことはコストが大きくなる。さらに、単語
辞書をすべてDVD−ROMに記憶した場合には、DV
D−ROMの参照回数が大きくなり、参照のオーバーヘ
ッドにより認識する時間が非常に長くなり、音声認識装
置としての応答速度に問題が生じる。そのため、辞書を
記憶する記憶媒体を2種類用い、選択された使用頻度の
高い部分辞書のみRAMに記憶し、使用頻度の低い部分
辞書はコストの安いDVD−ROMに記憶するものとす
る。
【0006】次に動作について説明する。図7は、認識
対象となる住所の例を示す図である。ここでは図7に示
す住所を認識対象とする場合の動作について説明する。
認識に先立ち標準モデル記憶手段2には標準モデルが、
第一辞書記憶手段(RAM)6および第二辞書記憶手段
(DVD−ROM)7には住所を表現する辞書が、各
々、収められているものとする。
【0007】図8は、第一辞書記憶手段6および第二辞
書記憶手段7に記憶されている単語辞書の内容を示す。
図8では、認識対象の住所の地名が四角形の枠の中に、
またその接続が矢印で示されている。各単語は角の丸い
枠で示されたnet1からnet12の部分辞書に分割
されて記憶されており、net1からnet12の各部
分辞書を単位としてモデル照合手段5に取り込まれ、照
合演算に用いることができる。三角は部分辞書へのエン
トリーポイントを示し、例えば部分辞書net5の「江
ノ島」は部分辞書net9の「1丁目」、「2丁目」、
「3丁目」のそれぞれに接続されていることを示す。
【0008】ここで、含まれる部分辞書の使用予想頻度
に応じて、その部分辞書を記憶する記録媒体をRAMか
らなる第一辞書記憶手段6あるいはDVD−ROMから
なる第二辞書記憶手段7に決定し、図16に示すように
各部分辞書が記憶された記録媒体を記憶媒体記憶手段3
に記録しているものとする。図8において、実線の角の
丸い枠で示された部分辞書(net1からnet4、n
et9、および、net12)は、RAMからなる第一
辞書記憶手段6に記憶されていて、破線の角の丸い枠で
示された部分辞書(net5からnet8、net1
0、および、net11)は、DVD−ROMからなる
第二辞書記憶手段7に記憶されている。
【0009】DVD−ROM(第二辞書記憶手段7)は
1回の参照に時間がかかるため、DVD−ROMに記憶
してある依存関係の強い部分辞書をひとまとめのグルー
プとして記憶して、参照する時に依存性の高い部分辞書
をまとめて読み出すことにより参照回数を減少させてい
る。
【0010】ここでは図8の一点鎖線に示すように、部
分辞書net5および部分辞書net6をグループgr
p1にまとめ、部分辞書net7、部分辞書net8、
部分辞書net10、及び部分辞書net11をgrp
2にまとめるものとする。基本的には県単位でグループ
化しているが、グループ選択の精度を向上させるため、
それぞれの先頭単語の部分辞書net3およびnet4
はRAM(第一辞書記憶手段6)上に置くものとする。
このように構成することにより、グループの選択時に先
読み情報としてnet3及びnet4を使用することが
できるため、認識時にグループの選択精度が向上する。
各部分辞書がどのグループに属するかは図16に示すよ
うに記録媒体記憶手段3に記憶されている。
【0011】図15に示した部分辞書net2を一例と
して、部分辞書の構造について説明する。net2はひ
とつのエントリーポイント(entry0)を有し、内
部に「神奈川県」と「香川県」の2単語を含む。神奈川
県は次に部分辞書net3のエントリーポイントent
ry0に接続され、香川県は次に部分辞書net4のエ
ントリーポイントentry0に接続される。香川県の
ノードに対してモデル照合する場合には、図18に示す
単語内のノード情報を用いる。
【0012】図16は香川県のノード情報を示した図で
ある。香川県は、「カ」、「ガ」、「ワ」、「ケ」、お
よび「ン」の5ノードから構成され、ここでは各ノード
にnode1からnode5までの番号が与えられてい
る。
【0013】図14は標準モデル記憶手段2の記憶内容
を示す図である。それぞれのノードに対応するHMMの
パラメータが記憶されている。HMMのパラメータとし
ては状態数、状態間の遷移確率などHMMの照合演算に
必要なパラメータがあらかじめ入っているものとする。
【0014】図9及び図10は、照合データ記憶手段4
の記憶内容を示す図である。図9に示すように、認識が
開始されるとまず、最初の単語である無音を含む部分辞
書net1がRAMからなる第一辞書記憶手段6より読
み出され、照合データ記憶手段4に読み出された部分辞
書に必要な作業領域が取られる。
【0015】認識処理が進められ、続く部分辞書の照合
処理が必要となると、図10に示すように部分辞書ne
t1に続く部分辞書net2がRAMより読み出され、
照合データ記憶手段4内に部分辞書net2に必要な作
業領域が確保される。このように認識処理が進むにつ
れ、第一辞書記憶手段6または第二辞書記憶手段7より
必要な部分辞書が読み出され、照合データ記憶手段4に
読み出された部分辞書に必要な作業領域が確保されてゆ
く。
【0016】次にモデル照合の動作について説明する。
音響分析手段1に音声信号が入力されると一定時間間隔
で音響分析が行われ、特徴ベクトルに変換されて出力さ
れる。音声信号が入力されている間、音響分析手段1か
らモデル照合手段5へは繰り返し特徴ベクトルが送られ
る。この特徴ベクトルが送られる時間間隔をフレームと
呼び、通常10ミリ秒程度の値のフレームが用いられ
る。
【0017】図11は、モデル照合手段5の内部で行わ
れる処理の流れ図である。モデル照合手段5の内部では
図11に示す流れ図で示される処理をフレーム単位で繰
り返す。
【0018】ステップST451ではノード内の状態に
対する照合演算を行うノード内演算処理が行われる。ス
テップST452ではビームサーチの評価値を決定する
評価値決定処理が行われる。
【0019】ステップST453ではビームサーチ処理
を行うビームサーチ演算処理が行われ、ステップST4
54ではノード間の演算を行うノード間演算処理が行わ
れる。
【0020】図12はノード(n)に対する照合データ
記憶手段4のデータ構造の詳細を説明する図である。図
9と図10では照合データ記憶手段4の記憶内容を単語
単位で示していたが、図12ではノードの内容について
記述してある。ノード(n)はSn(1)、Sn
(2)、Sn(3)の3状態から構成されているものと
する。
【0021】ノード(n)の左端の状態Sn(0)はノ
ード間演算のために用いられる疑似状態であり、Sn
(1)、Sn(2)、Sn(3)の3つの状態がモデル
の実体を表す。an(i,j)は状態iから状態jへの
遷移確率に基づくペナルティーを表し、bn(i)は状
態iの出力確率に基づくペナルティーを表す。ペナルテ
ィーは確率が小さいほど大きな値となる。これらの遷移
確率に基づくペナルティー、および出力確率に基づくペ
ナルティーはHMMを用いる認識では標準的に用いられ
るパラメータであり、ここでは詳細な説明は省略する。
【0022】これらのパラメータはあらかじめ図14に
示すように標準モデル記憶手段2に記憶されている。第
一辞書記憶手段6あるいは第二辞書記憶手段7からノー
ド(n)を含む部分辞書が読み出された場合に、図14
に示されたパラメータが標準モデル記憶手段2から読み
出され、照合データ記憶手段4の中に図12に示すよう
な照合データに対する領域が与えられる。
【0023】図11のステップST451でのノード内
演算処理においては、フレーム単位で特徴ベクトルに対
する出力確率と状態間の遷移確率を用いて式(1)に示
すモデル照合演算が行われ、Sn(i)の更新が行われ
る。式(1)のInはノード(n)の状態数を表す。出
力確率は入力された特徴ベクトルに対してそれぞれの状
態の音響特徴を表す分布に対する確率演算を行い求めら
れる。 Sn (i)=max((Sn (i)+an (i,i)), (Sn (i−1)+an (i−1,i))+bn (i) i=1,In (1)
【0024】図11のステップST452の評価値決定
処理では、式(2)より、ビームサーチのための評価値
Enode(n)と、ノード間遷移を行うための評価値
Earc(n)と、ビームサーチの基準値Ebestn
odeを求める。Ebestnodeはノードの中で最
も良いビームサーチの評価値で代表するものとする。 Enode(n)=max(Sn (i))1<i<In Earc(n)=Sn (In ) Ebestnode=max(Enode(n))1<n<N (2)
【0025】図11のステップST453のビームサー
チ演算処理では、式(2)により求められたビームサー
チのための評価値Enode(n)が以下の式(3)の
条件を満たさない場合、そのノードの照合演算を非活性
化して、演算量を下げるものである。非活性化されたノ
ードに対するノード内演算処理は行われない。式(3)
のTnodeはビームサーチのための閾値であり、予め
定められた規定値を用いる。 Enode(n)>Ebestnode−Tnode (3)
【0026】続いて図11のステップST454のノー
ド間演算処理では、式(2)で求められたノード間遷移
を行うための評価値Earc(n)が式(4)の条件を
満たすノードが照合データ記憶手段4に設けられた作業
領域内になかった場合には、第一辞書記憶手段6または
第二辞書記憶手段7より新たなノードを含む部分辞書が
読み出されて、照合データ記憶手段4に新たなノードの
作業領域を確保して、新たに読み込んだノードを活性化
してノード間照合演算を行う。 Earc(n)>Ebestnode−Tarc (4)
【0027】続くノードを(n+1)とした場合にノー
ド(n+1)の作業領域が確保された様子を図13に示
す。読み込まれた直後、ノード(n+1)の各状態のス
コアは最も低い値に初期化される。
【0028】続いてノード(n)とノード(n+1)の
間で式(5)に示すノード間の照合処理を行う。ノード
間の照合処理は以下の式で示される。 Sn+1 (0)=Sn (In ) (5)
【0029】続くノード(n+1)が照合データ記憶手
段4に作業領域が取られており、非活性化されていた場
合には再度活性化させて、式(5)に示すノード間の照
合演算を行う。
【0030】モデル照合手段5では特徴ベクトルが入力
されるたび繰り返し上記のように照合処理を進め、音声
信号のすべての特徴ベクトルに対する処理が終了した
ら、最終的に最もスコアの高かった単語列を認識結果と
して出力する。
【0031】上記のように構成することにより、例えば
「神奈川県藤沢市」という発声であれば藤沢市の最終ノ
ードが式(4)の条件を満たし、続く部分辞書net5
を読み込もうとする。また、「香川県大川郡」の発声で
あれば部分辞書net8を読み込もうとする。
【0032】ここで図17の記録媒体記憶手段3の記憶
内容を参照すると部分辞書net5や部分辞書net8
はDVD−ROM(第二辞書記憶手段7)上にあること
がわかる。DVD−ROM上の部分辞書はグループ化さ
れているため、同じく記録媒体記憶手段3を調べ含まれ
るグループ名を調べる。
【0033】部分辞書net8を参照する場合、部分辞
書net8はグループgrp2に属しているため、音声
認識装置はグループgrp2の中にある部分辞書net
7、部分辞書net8、部分辞書net10、部分辞書
net11をまとめて照合データ記憶手段4に取り込
む。これにより、今後発声が予測される部分辞書net
8の後続部分辞書である部分辞書net10、および部
分辞書net11も同時に読み込むことが可能であり、
DVD−ROMの参照回数の減少が可能である。この場
合、最終的に認識に用いない部分辞書も同時に取り込ん
でしまうという問題はあるが、参照回数のオーバーヘッ
ドを考えると、参照回数を減少させる方が応答時間の短
縮につながる。
【0034】図18を用いて音声認識装置の処理の流れ
を時間に沿って説明する。図18は一例として「香川
県」「高松市」「朝日町」に対する照合データ記憶手段
に記憶されている照合データを示す図である。縦軸は演
算範囲を図12に示す状態単位で示す。横軸は時間を表
す。演算された状態と時間の範囲を四角形の枠で示す。
四角形の枠の上に記載されているF1からF17までは
音声信号のフレームを表している。実際の音声信号はも
っと多くのフレームからなっているが、ここでは説明の
ため17フレームとして説明する。
【0035】まず、音声が入力されると、無音部に続い
て「香川県」の先頭のノードから処理が開始される。た
だし、この図では無音は表示していない。音声信号が1
フレーム分入力されるたびに、そのフレームに対する演
算範囲内のノードの演算が行われる。音声信号が入力さ
れるたびに認識対象範囲が進行してゆき、ビームサーチ
により古いノードが演算範囲からはずれてゆく。「高松
市」の最終ノードが式(4)の条件を満たした場合、D
VD−ROM上の部分辞書の参照が必要となる。
【0036】図18ではF7では式(4)の条件を満た
さず、F8で初めて満たすものとする。F8においてD
VD−ROMの参照が始まり、終了するまですべてのノ
ードに対する照合演算を停止する。DVD−ROMから
の必要な部分辞書のロードが終了した場合、F9から照
合処理が再開される。
【0037】
【発明が解決しようとする課題】従来の音声認識装置は
以上のように構成されているので、高速で参照すること
が不可能な記録媒体への参照が必要となった場合に、必
要な部分辞書のデータを取り込む間、音声認識処理が待
ち状態となり、結果として音声認識応答時間が遅くなる
といった課題があった。
【0038】また、従来の音声認識装置は、式(4)の
条件を満たしたグループよりDVD−ROMからのダウ
ンロードを開始するため、部分辞書の選択精度が不足し
ており、正解を含む部分辞書以外の参照が多くなり、特
に高速で参照することが不可能な記録媒体への参照が多
くなり、結果として音声認識反応時間が遅くなるといっ
た課題があった。また、DVD−ROMへの参照回数を
一定数に制限した場合に認識率の低下が大きい等の課題
があった。
【0039】この発明は、上記のような課題を解決する
ためになされたもので、音声認識応答時間を短縮するこ
とのできる音声認識装置、音声認識方法および音声認識
プログラムを得ることを目的とする。
【0040】
【課題を解決するための手段】この発明に係る音声認識
装置は、入力された音声に対し音響分析を行い特徴ベク
トルの時系列に変換する音響分析手段と、読み出し速度
の早い記憶媒体からなる第一辞書記憶手段と、読み出し
速度の遅い記憶媒体からなる第二辞書記憶手段と、第一
辞書記憶手段に記憶された部分辞書を読み出して照合演
算を行うための照合データとして記憶する照合データ記
憶手段と、第二辞書記憶手段に記憶された部分辞書を読
み出して照合演算を行うための照合データとして遅延照
合データ記憶手段と、第二辞書記憶手段に記憶された部
分辞書を読み出している間、先行して照合データ記憶手
段に記憶された照合データを用いて照合処理を進め、第
二辞書記憶手段からの読み出しが終了すると遅延照合デ
ータ記憶手段に記憶された照合データを用いて照合処理
を行い、照合データ記憶手段に記憶された照合データを
用いた照合処理と遅延照合データ記憶手段に記憶された
照合データを用いた照合処理との間で処理の遅れがなく
なると、遅延照合データ記憶手段に記憶された照合デー
タを照合データ記憶手段に記憶された照合データにマー
ジするモデル照合手段とを有するものである。
【0041】この発明に係る音声認識装置は、モデル照
合手段が、第二辞書記憶手段から部分辞書がダウンロー
ドされている間に、照合データ記憶手段に記憶された照
合データを用いた照合処理の照合結果により、ダウンロ
ードされている部分辞書に対応する照合データよりも評
価値の高い照合データが検出された場合に、第二辞書記
憶手段からダウンロードする部分辞書を評価値の高い照
合データに対応する部分辞書に切り替えてダウンロード
を行うものである。
【0042】この発明に係る音声認識装置は、モデル照
合手段が、一定時間待ってから、照合データ記憶手段に
より記憶された照合データを用いた照合処理の照合結果
により、第二辞書記憶手段に記憶された部分辞書のうち
からダウンロードを行う部分辞書を選択してダウンロー
ドを行うものである。
【0043】この発明に係る音声認識装置は、モデル照
合手段が、照合データ記憶手段に記憶された照合データ
の照合処理の結果が所定の値を超えると、第二辞書記憶
手段に記憶された部分辞書のうちその照合データに対応
する部分辞書をダウンロードするものである。
【0044】この発明に係る音声認識装置は、モデル照
合手段が、照合データ記憶手段に記憶された照合データ
の照合処理の結果が所定の値を超えてから一定時間の間
待って第二辞書記憶手段に記憶された部分辞書のうちか
らどの部分辞書をダウンロードするかを選択するもので
ある。
【0045】この発明に係る音声認識方法は、入力され
た音声に対し音響分析を行い特徴ベクトルの時系列に変
換する音響分析過程と、読み出し速度の早い記憶媒体に
部分辞書を記憶する第一辞書記憶過程と、読み出し速度
の遅い記憶媒体に部分辞書を記憶する第二辞書記憶過程
と、第一辞書記憶過程で記憶された部分辞書に対する照
合演算に用いる照合データを記憶する照合データ記憶過
程と、第二辞書記憶過程で記憶された部分辞書に対する
照合演算に用いる照合データを記憶する遅延照合データ
記憶過程と、上記第二辞書記憶過程で記憶された部分辞
書のダウンロードを行っている間、先行して照合データ
記憶過程で記憶された照合データを用いて照合処理を進
め、第二辞書記憶過程で記憶された部分辞書のダウンロ
ードが終了すると遅延照合データ記憶過程で記憶された
照合データを用いて照合処理を行い、照合データ記憶過
程で記憶された照合データを用いた照合処理と遅延照合
データ記憶過程で記憶された照合データを用いた照合処
理との間で処理の遅れがなくなると、遅延照合データ記
憶過程で記憶された照合データを照合データ記憶過程で
記憶された照合データにマージするモデル照合過程とを
有するものである。
【0046】この発明に係る音声認識方法は、モデル照
合過程において、第二辞書記憶過程で記憶された部分辞
書のダウンロードが行われている間に、照合データ記憶
過程で記憶された照合データを用いた照合処理の照合結
果により評価値の高い部分辞書が検出された場合に、ダ
ウンロードを行う部分辞書を切り替えるものである。
【0047】この発明に係る音声認識方法は、モデル照
合過程において、照合データ記憶過程で記憶された照合
データを用いた照合処理の照合結果が得られるのを一定
時間の間待ってから、ダウンロードを行う部分辞書を選
択してダウンロードを行うものである。
【0048】この発明に係る音声認識方法は、モデル照
合過程において、照合データ記憶過程で記憶された照合
データの照合処理の結果が所定の値を超えると、第二辞
書記憶過程で記憶された部分辞書のうちその照合データ
に対応する部分辞書をダウンロードするものである。
【0049】この発明に係る音声認識方法は、モデル照
合過程において、照合データ記憶過程で記憶された照合
データの照合処理の結果が所定の値を超えてから一定時
間の間待って第二辞書記憶過程で記憶された部分辞書の
うちからどの部分辞書をダウンロードするかを選択する
ものである。
【0050】この発明に係る音声認識プログラムは、入
力された音声に対し音響分析を行い特徴ベクトルの時系
列に変換する音響分析機能と、読み出し速度の早い記憶
媒体に部分辞書を記憶する第一辞書記憶機能と、読み出
し速度の遅い記憶媒体に部分辞書を記憶する第二辞書記
憶機能と、第一辞書記憶機能で記憶された部分辞書に対
する照合演算に用いる照合データを記憶する照合データ
記憶機能と、第二辞書記憶機能で記憶された部分辞書に
対する照合演算に用いる照合データを記憶する遅延照合
データ記憶機能と、第二辞書記憶機能で記憶された部分
辞書のダウンロードを行っている間、先行して照合デー
タ記憶機能で記憶された照合データを用いて照合処理を
進め、第二辞書記憶機能で記憶された部分辞書のダウン
ロードが終了すると遅延照合データ記憶機能で記憶され
た照合データを用いて照合処理を行い、照合データ記憶
機能で記憶された照合データを用いた照合処理と遅延照
合データ記憶機能で記憶された照合データを用いた照合
処理との間で処理の遅れがなくなると、遅延照合データ
記憶機能で記憶された照合データを照合データ記憶機能
で記憶された照合データにマージするモデル照合機能と
をコンピュータに実現させるための音声認識プログラム
である。
【0051】
【発明の実施の形態】以下、この発明の実施の一形態を
説明する。 実施の形態1.図1はこの発明の実施の形態1による音
声認識装置の構成を示す図である。図1において、8は
第二辞書記憶手段7の部分辞書に対する照合演算に用い
る遅延照合データ記憶手段である。5は第二辞書記憶手
段7からのダウンロードを行っている間、先行して照合
データ記憶手段4の照合データを用いて照合処理を進
め、第二辞書記憶手段7のダウンロードが終了すると遅
延照合データ記憶手段8のデータを用いて演算を行い、
第一辞書記憶手段6と第二辞書記憶手段7との間で処理
の遅れがなくなると遅延照合データ記憶手段8の照合デ
ータを照合データ記憶手段4の照合データにマージする
モデル照合手段である。その他の部分は図6に示した従
来の音声認識装置と同一のため、説明を省略する。
【0052】次に動作について説明する。以下、第一辞
書記憶手段6をRAM(Random Access
Memory)、第二辞書記憶手段7をDVD−ROM
(Digital Versatile Disk−R
ead Only Memory)として説明を行う。
【0053】この実施の形態1でも説明のために従来例
と同じ図7に示す住所を認識対象とし、図8に示す単語
辞書の構成を持っているものとする。また、図16に示
す記憶媒体記憶手段の内容も同じであるものとする。
【0054】また、認識処理の流れも従来の音声認識装
置と同一であるため、ここでは説明を省略する。ここで
はこの発明の大きな特徴である遅延照合データ記憶手段
8を中心として説明を行う。
【0055】以下、「香川県高松市朝日町」と発声した
場合について照合データ記憶手段4の記憶内容について
図2を用いて説明を行う。
【0056】正解を含む3つの単語「香川県」、「高松
市」、「朝日町」のみについて説明を行う。照合データ
記憶手段4の中には照合処理中に上記の3つの単語以外
の単語の照合データも生成される場合もあるが、わかり
やすくするためここでは表示しない。
【0057】図2は照合データ記憶手段4と遅延照合デ
ータ記憶手段8の記憶内容の変化について示す図であ
る。認識が開始されると、RAMからなる第一辞書記憶
手段6から部分辞書を読み込み、照合データ記憶手段4
に「香川県」の照合データが生成される(ステップ
1)。
【0058】次に「高松市」の部分辞書が必要となる
と、RAMからなる第一辞書記憶手段6より高松市の部
分辞書を読み込み、「高松市」の照合データが生成され
る(ステップ2)。ここまでは、従来の音声認識装置と
同じ動作である。
【0059】次に「朝日町」の部分辞書が必要となる
と、DVD−ROMからなる第二辞書記憶手段7からグ
ループgrp2(図8)を読み出し、内部に含まれてい
る部分辞書より遅延照合データ記憶手段8に照合データ
を生成する(ステップ3)。
【0060】DVD−ROMからなる第二辞書記憶手段
7上の部分辞書を参照するには、時間が必要であるた
め、「朝日町」を含むグループgrp2のダウンロード
中も、照合データ記憶手段4上の照合データの「香川
県」と「高松市」の照合処理を、「朝日町」の照合処理
とは非同期に継続する。グループgrp2のダウンロー
ドが終了すると、遅延照合データ記憶手段8に「朝日
町」に対して、遅延分をまとめて照合処理を行う。
【0061】次に、「朝日町」の遅延照合処理が終了す
ると、遅延照合データ記憶手段8から「朝日町」の照合
データが照合データ記憶手段4に移され、以後、「香川
県」、「高松市」と一緒に時間同期で照合処理が進めら
れる(ステップ4)。
【0062】さらに、詳しく説明を行う。図3は同じく
ノード「香川県」「高松市」「朝日町」に対する照合デ
ータ記憶手段4および遅延照合データ記憶手段8に記憶
されている照合データのうちモデル照合手段5による演
算の演算対象となっている範囲を示す図である。図3に
おいて縦軸は単語辞書をノード単位で示し、横軸は時間
をフレーム単位で表す。図3で四角形の枠で示している
ものが演算範囲である。四角形の枠の上に記載されてい
るF1からF17までは音声信号のフレームを表す。実
際の音声信号はもっと多くのフレームからなっている
が、ここでは説明のため17フレームとして説明する。
【0063】すでに述べたように、フレームとは、音声
信号が入力されている間、音響分析手段1からモデル照
合手段5へ繰り返し特徴ベクトルが送られる時間間隔の
ことで、通常10ミリ秒程度の値のフレームが用いられ
る。
【0064】図3の最上部に示しているステップ1から
ステップ4までは図2の各ステップとの対応を示すもの
である。図3の太い実線の四角形の枠で囲まれた部分
は、遅延照合データ記憶手段8を用いての遅延照合処理
を表し、太い破線の四角形で囲まれた部分は、照合デー
タ記憶手段4を用いての照合処理を表している。
【0065】まず、音声が入力されると、無音部に続い
て「香川県」の先頭のノードから処理が開始される。た
だし、この図3では無音は表示していない。音声信号が
1フレーム分入力されるたびに、そのフレームに対する
演算範囲内のノードの演算が行われる。式(4)の条件
を満たすたびに認識対象範囲が進行してゆき、ビームサ
ーチにより式(3)の条件を満たすたびに古い状態は演
算範囲からはずれてゆく。
【0066】「高松市」の最後のノードが式(4)の条
件を満たした場合、後続の「朝日町」の部分辞書をダウ
ンロードするため、DVD−ROMからなる第二辞書記
憶手段7の参照が生じる。図3ではフレームF7では式
(4)の条件を満たさず、フレームF8で初めて満たす
ものとする。フレームF8のモデル照合終了後にDVD
−ROMからなる第二辞書記憶手段7の参照が始まる。
【0067】この時、従来の音声認識装置ではDVD−
ROM(第二辞書記憶手段7)の参照が終了するまです
べての状態に対する照合演算は停止する。即ち、従来の
音声認識装置では、図17に示すように、「朝日町」の
照合データをDVD−ROMから参照する間は、フレー
ムF8に続くフレームF9の照合処理は行われない。
【0068】これに対し、この実施の形態1による音声
認識装置では照合データ記憶手段4に存在する照合デー
タに関しては照合処理を継続する。図3において「高松
市」の照合データは既に照合データ記憶手段4中に存在
するため、「高松市」の照合データに関しては、DVD
−ROM(第二辞書記憶手段7)からの「朝日町」の照
合データの転送中も、照合演算を継続する。つまり、D
VD−ROM(第二辞書記憶手段7)を参照することに
より遅延する照合データ(図3の場合には「朝日町」の
照合データ)を切り離し、フレーム同期でモデル照合処
理を継続することを意味する。遅延した照合データは別
の遅延照合データ記憶手段8を用いて、照合データ記憶
手段4とは独立して演算を行う。
【0069】DVD−ROM(第二辞書記憶手段7)か
らの必要な部分辞書は遅延照合データ記憶手段8に取り
込まれ、必要な部分辞書の遅延照合データ記憶手段8へ
のロードが終了してから照合処理が再開される。図3の
例では処理待ちとなっている演算範囲はフレームF9か
らフレームF13までの「朝日町」の照合データであ
る。
【0070】モデル照合手段5では、DVD−ROM
(第二辞書記憶手段7)内の必要な部分辞書の遅延照合
データ記憶手段8への転送が終了すると、照合データ記
憶手段4の照合データに対するモデル照合処理を中断
し、遅延照合データ記憶手段8の照合データに対する処
理を行う。
【0071】「朝日町」のフレームF9からフレームF
13に対する照合処理が終了すると、遅延照合データ記
憶手段8の「朝日町」の照合データは全て照合データ記
憶手段4に転送されて、照合データ記憶手段4の照合デ
ータと結合され(マージされ)、遅延照合データ記憶手
段8の中身はクリアされる。以後、照合データ記憶手段
4としてフレーム同期で処理が進められる。
【0072】このように構成することで、DVD−RO
M(第二辞書記憶手段7)に参照を行っている間にも、
依存しない照合処理を進めることができ、応答速度の速
い音声認識装置を構成できるという効果がある。
【0073】上記の説明ではRAM(第一辞書記憶手段
6)とDVD−ROM(第二辞書記憶手段7)を記憶媒
体として用いる場合を一例として説明したが、RAMの
代わりにフラッシュROM、EPROM、ROM、RA
Mなど、また、DVD−ROMの代わりにCD−RW、
DVD−RAM、DVD−RW、DVD−R/W、ハー
ドディスクなどであっても良く同様に効果を奏する。遅
い記憶媒体としてインターネットなど音声認識装置の外
部にある記憶媒体であっても良く、同様な効果を奏す
る。
【0074】また、上記の説明で用いた部分辞書のグル
ープへの分類は一例を示したものであり、他の分類の方
法でも良い。
【0075】また、上記の説明では2種類の記憶媒体を
用いる方法について説明したが、3種類以上の記憶媒体
を用いてもよく同様に効果を奏する。
【0076】また、上記の説明ではノードを単語として
説明したが、ノードは音素片、音素、半音節、音節、形
態素などの単位でも良く、同様に効果を奏する。また、
音声認識方式もHMMとして説明したが、これはDP
(Dynamic Programming)マッチン
グやニューラルネットを用いる音声認識方式でも良く同
様に効果を奏する。
【0077】以上説明したように、この実施の形態1の
音声認識装置は、音声入力を入力し音響分析を行い特徴
ベクトルの時系列に変換する音響分析手段1と、読み出
し速度の早い記憶媒体からなる第一辞書記憶手段6と、
読み出し速度の遅い記憶媒体からなる第二辞書記憶手段
7と、第一辞書記憶手段6に記憶された部分辞書を読み
出して照合演算を行うための照合データとして記憶する
照合データ記憶手段4と、第二辞書記憶手段7に記憶さ
れた部分辞書を読み出して照合演算を行うための照合デ
ータとして遅延照合データ記憶手段8と、第二辞書記憶
手段7に記憶された部分辞書を読み出している間、先行
して照合データ記憶手段4に記憶された照合データを用
いて照合処理を進め、第二辞書記憶手段7からの読み出
しが終了すると遅延照合データ記憶手段8に記憶された
照合データを用いて照合処理を行い、照合データ記憶手
段4に記憶された照合データを用いた照合処理と遅延照
合データ記憶手段8に記憶された照合データを用いた照
合処理との間で処理の遅れがなくなると、遅延照合デー
タ記憶手段8に記憶された照合データを照合データ記憶
手段4に記憶された照合データにマージするモデル照合
手段5とを有する。
【0078】また、以上の説明では、この実施の形態1
を音声認識装置としたが、この音声認識装置の各構成要
素が行う処理過程を備えた音声認識方法として、この実
施の形態1を実現することもできる。
【0079】即ち、この実施の形態1の音声認識方法
は、音声入力を入力し音響分析を行い特徴ベクトルの時
系列に変換する音響分析過程と、読み出し速度の早い記
憶媒体に部分辞書を記憶する第一辞書記憶過程と、読み
出し速度の遅い記憶媒体に部分辞書を記憶する第二辞書
記憶過程と、第一辞書記憶過程で記憶された部分辞書に
対する照合演算に用いる照合データを記憶する照合デー
タ記憶過程と、第二辞書記憶過程で記憶された部分辞書
に対する照合演算に用いる照合データを記憶する遅延照
合データ記憶過程と、第二辞書記憶過程で記憶された部
分辞書のダウンロードを行っている間、先行して上記照
合データ記憶過程で記憶された照合データを用いて照合
処理を進め、第二辞書記憶過程で記憶された部分辞書の
ダウンロードが終了すると遅延照合データ記憶過程で記
憶された照合データを用いて照合処理を行い、照合デー
タ記憶過程で記憶された照合データを用いた照合処理と
遅延照合データ記憶過程で記憶された照合データを用い
た照合処理との間で処理の遅れがなくなると、遅延照合
データ記憶過程で記憶された照合データを照合データ記
憶過程で記憶された照合データにマージするモデル照合
過程とを有する。
【0080】また、この実施の形態1は、この音声認識
装置の各構成要素が行う処理機能をコンピュータで実現
させるための音声認識プログラムとして実現することも
できる。
【0081】即ち、この実施の形態1の音声認識プログ
ラムは、音声入力を入力し音響分析を行い特徴ベクトル
の時系列に変換する音響分析機能と、読み出し速度の早
い記憶媒体に部分辞書を記憶する第一辞書記憶機能と、
読み出し速度の遅い記憶媒体に部分辞書を記憶する第二
辞書記憶機能と、第一辞書記憶機能で記憶された部分辞
書に対する照合演算に用いる照合データを記憶する照合
データ記憶機能と、第二辞書記憶機能で記憶された部分
辞書に対する照合演算に用いる照合データを記憶する遅
延照合データ記憶機能と、第二辞書記憶機能で記憶され
た部分辞書のダウンロードを行っている間、先行して照
合データ記憶機能で記憶された照合データを用いて照合
処理を進め、第二辞書記憶機能で記憶された部分辞書の
ダウンロードが終了すると遅延照合データ記憶機能で記
憶された照合データを用いて照合処理を行い、照合デー
タ記憶機能で記憶された照合データを用いた照合処理と
遅延照合データ記憶機能で記憶された照合データを用い
た照合処理との間で処理の遅れがなくなると、遅延照合
データ記憶機能で記憶された照合データを照合データ記
憶機能で記憶された照合データにマージするモデル照合
機能とをコンピュータに実現させるためのものである。
【0082】以上のように、この実施の形態1によれ
ば、DVD−ROM(第二辞書記憶手段)からのダウン
ロードを、RAM(第一辞書記憶手段)からのダウンロ
ードを行う照合データ記憶手段とは異なる遅延照合デー
タ記憶手段で行うようにしたので、DVD−ROM(第
二辞書記憶手段)に参照を行っている間にも、依存しな
い照合処理を進めることができ、応答速度の速い音声認
識装置を構成できるという効果が得られる。
【0083】実施の形態2.以下、第一辞書記憶手段6
をRAM、第二辞書記憶手段7をDVD−ROMとして
この発明の実施の形態2について説明を行う。
【0084】説明のために従来例と同じ図7に示す住所
を認識対象とし、図8に示す単語辞書の構成を持ってい
るものとする。また、図9に示す照合データ記憶手段4
の内容、図17に示す記録媒体記憶手段3の内容も同じ
であるものとする。
【0085】非常に参照速度が遅い記憶媒体を使用する
場合、参照は最低限にする必要がある場合がある。例え
ば、DVD−ROMへの参照を1回のみに留める場合、
従来の音声認識装置においてもDVD−ROMへの参照
の回数制限を行い、式(4)を最も早く満たした単語の
後続部分辞書を選択するという方法が採用されている。
【0086】具体的に説明すると、図8の単語辞書にお
いては「高松市」、「鎌倉市」、「藤沢市」、「大川
郡」の4単語がDVD−ROM上の部分辞書に接続され
ている。4単語の最後のノードに対して式(4)の評価
が行われ、条件を満たした場合DVD−ROM上から部
分辞書が読み込まれる。ここで回数制限をかけることに
より、他のノードからDVD−ROMへの参照要求があ
っても許可しないことにより、DVD−ROMへの参照
を1回のみに留めることも可能である。しかし、ここで
正解を含むグループを選択できなかったら、認識不能と
なる。正解を含むグループは早期に参照される傾向にあ
るが、ここではさらに、別の評価値をもって識別能力を
向上する実施の形態2について説明を行う。
【0087】この実施の形態2における音声認識装置の
構成は図1に示した実施の形態1と同じのためここでは
説明を省略する。
【0088】この実施の形態2は、モデル照合手段5の
機能が実施の形態1と異なっているため、以下にモデル
照合手段5の機能について説明を行う。
【0089】図4は、この実施の形態2によるグループ
選択の動作を説明する図である。図4において、縦軸
は、以下の式(6)により求められる表価値E(n,
F)の値を表し、横軸は、フレーム単位で表現した時間
を表している。
【0090】DVD−ROMからなる第二辞書記憶手段
7の転送要求をわかりやすくするため、式(6)で「高
松市」、「鎌倉市」、「藤沢市」、「大川郡」の最終ノ
ードの評価値の時間変化を示してみる。 E(n,F) ={Ebestnode−Earc[n]}f=F (6)
【0091】式(6)の評価値E(n,F)が−Tar
cを上回った場合、式(4)の条件に合致することを意
味する。
【0092】このため図4の例では、フレームF7にお
いては「鎌倉市」が条件を満たし、フレームF8におい
ては「高松市」が条件を満たし、各フレームにおいて条
件を満たす照合データ(「鎌倉市」及び「高松市」)の
後続部分辞書についてのDVD−ROM(第二辞書記憶
手段7)へのダウンロード要求が発生することを意味す
る。「鎌倉市」の後続部分辞書はgrp1に属してお
り、「高松市」の後続部分辞書はgrp2に属してい
る。このため、フレームF7において「鎌倉市」の後続
グループgrp1の読み出しを開始する。
【0093】実施の形態1では、モデル照合手段5は
「鎌倉市」の後続グループgrp1のダウンロードの終
了を待って、「高松市」の後続グループgrp2のダウ
ンロードを開始する。この実施の形態2におけるモデル
照合手段5はグループ選択機能を有し、このグループ選
択機能では、正解が含まれると予測される評価値を用い
て、評価値の低いグループの読み込み処理を中断し、よ
り評価値の高いグループを優先して読み込むことを特徴
とする。
【0094】式(6)の評価値は、「鎌倉市」の後続グ
ループgrp1のダウンロード中も照合データ記憶手段
5の「鎌倉市」及び「高松市」の照合データのモデル照
合処理を継続することにより、更新されているため、g
rp1のダウンロード中に、より適切なグループを選択
することが可能である。
【0095】この評価値は式(7)に示すように式
(6)のE(n,F)の先頭フレームから現在のフレー
ムまでの最小値とする。
【数1】
【0096】先頭フレームから現在フレームまでのEm
in(n,F)の最大値をグループ選択の基準とするこ
ととする。図4においてはフレームF8において式
(7)の値より「鎌倉市」の後続グループよりは「高松
市」の後続グループ方が確からしいと判断できる。その
場合、図4の横軸の下に模式的に表したように、グルー
プ選択機能により、「鎌倉市」の後続グループgrp1
の読込みを中断して、「高松市」の後続グループgrp
2の読み出しを開始する。
【0097】この後、「高松市」の後続グループの条件
を上回る候補はないため、DVD−ROMからの部分辞
書の読込みが終了し、高松市の住所に関する遅延照合演
算が行われる。
【0098】このように、式(4)の条件を満たす順番
に加え、式(7)のようなダウンロードの評価値を導入
することによりDVD−ROMからのダウンロードを行
うグループ選択の精度を向上することができる。
【0099】音声認識装置をこのように構成することに
より、参照速度の遅い記憶媒体からダウンロードしてい
る間に、評価値の更新を行い、ダウンロード元をより確
からしいグループへ切り替えることができるため、この
結果、応答速度の良好な音声認識装置を得られる効果が
ある。
【0100】なお、式(7)の評価値は一例を示したも
のであり、他の評価値を用いても同様に効果がある。
【0101】以上説明したように、この実施の形態2の
音声認識装置は、実施の形態1の音声認識装置におい
て、モデル照合手段5が、第二辞書記憶手段7から部分
辞書がダウンロードされている間に、照合データ記憶手
段4に記憶された照合データを用いた照合処理の照合結
果により、上記ダウンロードされている部分辞書に対応
する照合データよりも評価値の高い照合データが検出さ
れた場合に、上記第二辞書記憶手段7からダウンロード
する部分辞書を上記表価値の高い照合データに対応する
部分辞書に切り替えてダウンロードを行うものである。
【0102】また、この実施の形態2の音声認識装置
は、モデル照合手段5が、照合データ記憶手段4に記憶
された照合データの照合処理の結果が所定の値を超える
と、第二辞書記憶手段7に記憶された部分辞書のうちそ
の照合データに対応する部分辞書をダウンロードするも
のである。
【0103】以上の説明では、この実施の形態2を音声
認識装置として説明したが、この音声認識装置の各構成
要素において行われる処理過程を有する音声認識方法と
してこの実施の形態2を実現することもできる。
【0104】即ち、この実施の形態2の音声認識方法
は、実施の形態1の音声認識方法において、モデル照合
過程において、第二辞書記憶過程で記憶された部分辞書
のダウンロードが行われている間に、照合データ記憶過
程で記憶された照合データを用いた照合処理の照合結果
により評価値の高い部分辞書が検出された場合に、ダウ
ンロードを行う部分辞書を切り替えるものである。
【0105】また、この実施の形態2の音声認識方法
は、モデル照合過程において、照合データ記憶過程で記
憶された照合データの照合処理の結果が所定の値を超え
ると、第二辞書記憶過程で記憶された部分辞書のうちそ
の照合データに対応する部分辞書をダウンロードするも
のである。
【0106】また、この実施の形態2は、音声認識装置
の各構成要素が行う処理機能をコンピュータで実現させ
るための音声認識プログラムとして実現することもでき
る。
【0107】即ち、この実施の形態2の音声認識プログ
ラムは、実施の形態1の音声認識プログラムにおいて、
モデル照合機能において、第二辞書記憶機能で記憶され
た部分辞書のダウンロードが行われている間に、照合デ
ータ記憶機能で記憶された照合データを用いた照合処理
の照合結果により評価値の高い部分辞書が検出された場
合に、ダウンロードを行う部分辞書を切り替えるもので
ある。
【0108】また、この実施の形態2の音声認識プログ
ラムは、モデル照合機能において、照合データ記憶機能
で記憶された照合データの照合処理の結果が所定の値を
超えると、第二辞書記憶機能で記憶された部分辞書のう
ちその照合データに対応する部分辞書をダウンロードす
るものである。
【0109】以上のように、この実施の形態2によれ
ば、式(4)の条件を満たす順番に加え、式(7)のよ
うなダウンロードの評価値を導入することにより、DV
D−ROMからのダウンロードを行うグループ選択の精
度を向上することができる効果が得られる。
【0110】また、参照速度の遅い記憶媒体からダウン
ロードしている間に、評価値の更新を行うようにしたの
で、ダウンロード元をより確からしいグループへ切り替
えることができるため、応答速度の良好な音声認識装置
を得られる効果が得られる。
【0111】実施の形態3.上記の実施の形態2では式
(7)の評価値により、グループの読み込みを中断する
ものであったが、この実施の形態3では、一定時間内の
評価値の変化を見て読み込むグループを判定するもので
ある。
【0112】説明のために従来例と同じ図7に示す住所
を認識対象とし、図8に示す単語辞書の構成を持ってい
るものとする。また、図9に示す照合データ記憶手段4
の内容、図17に示す記録媒体記憶手段3の内容も同じ
であるものとする。
【0113】この実施の形態3の構成は図1に示す実施
の形態1と同じのため、ここでは説明を省略する。
【0114】また、モデル照合手段5以外の動作は実施
の形態2と同じのため、ここでは説明を省略する。
【0115】ここではモデル照合手段5の動作について
説明を行う。図5はこの実施の形態3によるグループ選
択機能の動作を説明する図である。図5においても、図
4と同様に、縦軸は、式(6)により求められる表価値
E(n,F)の値を表し、横軸は、フレーム単位で表現
した時間を表している。
【0116】この実施の形態3においても図4に示す評
価値の変化であったものとする。フレームF7において
「鎌倉市」の最終ノードの評価値が式(4)の条件を満
たすため、図5の横軸の下に模式的に表したように、グ
ループ選択機能により「鎌倉市」の後続グループがダウ
ンロード待ち状態になる。この実施の形態3ではこれか
ら時間T経過後、式(7)の条件で全ての後続グループ
を調べる判定が行われ、最も評価値の高い上位Nグルー
プをダウンロードするものである。
【0117】図5ではN=1の場合を示し、時間T経過
後、「高松市」の後続グループが最も評価値が高いため
ダウンロードされ、遅延照合処理が実行される。「鎌倉
市」の後続グループはダウンロードされないため、認識
対象とはならない。
【0118】音声認識装置をこのように構成することに
より、参照速度の遅い記憶媒体からダウンロードするグ
ループの選択精度を向上することができるため、ダウン
ロードする部分辞書の量を減少させることができ、この
結果、応答速度の良好な音声認識装置を得られる効果が
ある。
【0119】以上説明したように、この実施の形態3の
音声認識装置は、実施の形態1の音声認識装置におい
て、モデル照合手段5が、一定時間待ってから、照合デ
ータ記憶手段4により記憶された照合データを用いた照
合処理の照合結果により、第二辞書記憶手段7に記憶さ
れた部分辞書のうちからダウンロードを行う部分辞書を
選択してダウンロードを行うものである。
【0120】また、この実施の形態3の音声認識装置
は、モデル照合手段5が、照合データ記憶手段4に記憶
された照合データの照合処理の結果が所定の値を超えて
から一定時間の間待って第二辞書記憶手段7に記憶され
た部分辞書のうちからどの部分辞書をダウンロードする
かを選択するものである。
【0121】以上の説明では、この実施の形態3を音声
認識装置として説明したが、この音声認識装置の各構成
要素において行われる処理過程を有する音声認識方法と
してこの実施の形態3を実現することもできる。即ち、
この実施の形態3の音声認識方法は、実施の形態1の音
声認識方法において、モデル照合過程において、照合デ
ータ記憶過程で記憶された照合データを用いた照合処理
の照合結果が得られるのを一定時間の間待ってから、ダ
ウンロードを行う部分辞書を選択してダウンロードを行
うものである。
【0122】また、この実施の形態3の音声認識方法
は、モデル照合過程において、照合データ記憶過程で記
憶された照合データの照合処理の結果が所定の値を超え
てから一定時間の間待って第二辞書記憶過程で記憶され
た部分辞書のうちからどの部分辞書をダウンロードする
かを選択するものである。
【0123】また、この実施の形態3は、音声認識装置
の各構成要素が行う処理機能をコンピュータで実現させ
るための音声認識プログラムとして実現することもでき
る。
【0124】即ち、この実施の形態3の音声認識プログ
ラムは、実施の形態1の音声認識プグラムにおいて、モ
デル照合機能において、照合データ記憶機能で記憶され
た照合データを用いた照合処理の照合結果が得られるの
を一定時間の間待ってから、ダウンロードを行う部分辞
書を選択してダウンロードを行うものである。
【0125】また、この実施の形態3の音声認識プログ
ラムは、モデル照合機能において、照合データ記憶機能
で記憶された照合データの照合処理の結果が所定の値を
超えてから一定時間の間待って第二辞書記憶機能で記憶
された部分辞書のうちからどの部分辞書をダウンロード
するかを選択するものである。
【0126】以上のように、この実施の形態3によれ
ば、評価値の更新を一定時間の間待ってから行いその評
価値に基づいてダウンロードする部分辞書を選択してダ
ウンロードするようにしたので、参照速度の遅い記憶媒
体からダウンロードするグループの選択精度を向上する
ことができ、ダウンロードする部分辞書の量を減少さ
せ、応答速度の良好な音声認識装置を得られる効果が得
られる。
【0127】
【発明の効果】以上のように、この発明によれば、参照
速度の遅い記憶媒体からのダウンロードを参照速度の速
い記憶媒体からのダウンロードを行う記憶手段とは異な
る記憶手段で行うようにしたので、参照速度の遅い記憶
媒体に参照を行っている間にも、その参照速度の遅い記
憶媒体への参照動作に依存しない照合処理を進めること
ができ、応答速度の速い音声認識装置を得られる効果が
ある。
【0128】この発明によれば、ダウンロードの評価値
を導入することにより、参照速度の遅い記憶媒体からの
ダウンロードを行うグループ選択の精度を向上すること
ができる効果がある。また、参照速度の遅い記憶媒体か
らダウンロードしている間に、評価値の更新を行うよう
にしたので、ダウンロード元をより確からしいグループ
へ切り替えることができるため、応答速度の良好な音声
認識装置を得られる効果がある。
【0129】この発明によれば、評価値の更新を一定時
間の間待ってから行いその評価値に基づいてダウンロー
ドする部分辞書を選択してダウンロードするようにした
ので、参照速度の遅い記憶媒体からダウンロードするグ
ループの選択精度を向上することができ、ダウンロード
する部分辞書の量を減少させ、応答速度の良好な音声認
識装置を得られる効果がある。
【0130】この発明によれば、参照速度の遅い記憶媒
体からのダウンロードを参照速度の速い記憶媒体からの
ダウンロードを行う記憶過程とは異なる記憶過程で行う
ようにしたので、参照速度の遅い記憶媒体に参照を行っ
ている間にも、その参照速度の遅い記憶媒体への参照動
作に依存しない照合処理を進めることができ、応答速度
の速い音声認識方法を得られる効果がある。
【0131】この発明によれば、ダウンロードの評価値
を導入することにより、参照速度の遅い記憶媒体からの
ダウンロードを行うグループ選択の精度を向上すること
ができる効果がある。また、参照速度の遅い記憶媒体か
らダウンロードしている間に、評価値の更新を行うよう
にしたので、ダウンロード元をより確からしいグループ
へ切り替えることができるため、応答速度の良好な音声
認識方法を得られる効果がある。
【0132】この発明によれば、評価値の更新を一定時
間の間待ってから行いその評価値に基づいてダウンロー
ドする部分辞書を選択してダウンロードするようにした
ので、参照速度の遅い記憶媒体からダウンロードするグ
ループの選択精度を向上することができ、ダウンロード
する部分辞書の量を減少させ、応答速度の良好な音声認
識方法を得られる効果がある。
【0133】この発明によれば、参照速度の遅い記憶媒
体からのダウンロードを参照速度の速い記憶媒体からの
ダウンロードを行う記憶機能とは異なる記憶機能で行う
ようにしたので、参照速度の遅い記憶媒体に参照を行っ
ている間にも、その参照速度の遅い記憶媒体への参照動
作に依存しない照合処理を進めることができ、応答速度
の速い音声認識プログラムを得られる効果がある。
【図面の簡単な説明】
【図1】 この発明の実施の形態1の音声認識装置の構
成を説明する図である。
【図2】 この発明の実施の形態1の音声認識装置の照
合データ記憶手段の記憶内容の構成を説明する図であ
る。
【図3】 演算範囲を説明する図である。
【図4】 この発明の実施の形態2の音声認識装置グル
ープ選択の動作を説明する図である。
【図5】 この発明の実施の形態3の音声認識装置グル
ープ選択の動作を説明する図である。
【図6】 従来の音声認識装置の構成を説明する図であ
る。
【図7】 認識対象の住所の一例を表す図である。
【図8】 単語辞書の構成を示す図である。
【図9】 照合データ記憶手段の記憶内容を示す図であ
る。
【図10】 照合データ記憶手段の記憶内容を示す図で
ある。
【図11】 モデル照合部の動作を説明する図である。
【図12】 照合データ記憶手段のHMMの内容を示す
図である。
【図13】 照合データ記憶手段のHMMの内容を示す
図である。
【図14】 標準モデル記憶手段の内容を示す図であ
る。
【図15】 部分辞書の構造を示す図である。
【図16】 単語データの内部情報を表す図である。
【図17】 記録媒体記憶手段の記憶内容を示す図であ
る。
【図18】 従来の音声認識装置の演算範囲を説明する
図である。
【符号の説明】
1 音響分析手段、2 標準モデル記憶手段、3 記録
媒体記憶手段、4 照合データ記憶手段、5 モデル照
合手段、6 第一辞書記憶手段、7 第二辞書記憶手
段、8 遅延照合データ記憶手段。

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】 入力された音声に対し音響分析を行い特
    徴ベクトルの時系列に変換する音響分析手段と、 読み出し速度の早い記憶媒体からなる第一辞書記憶手段
    と、 読み出し速度の遅い記憶媒体からなる第二辞書記憶手段
    と、 上記第一辞書記憶手段に記憶された部分辞書を読み出し
    て照合演算を行うための照合データとして記憶する照合
    データ記憶手段と、 上記第二辞書記憶手段に記憶された部分辞書を読み出し
    て照合演算を行うための照合データとして遅延照合デー
    タ記憶手段と、 上記第二辞書記憶手段に記憶された部分辞書を読み出し
    ている間、先行して上記照合データ記憶手段に記憶され
    た照合データを用いて照合処理を進め、上記第二辞書記
    憶手段からの読み出しが終了すると上記遅延照合データ
    記憶手段に記憶された照合データを用いて照合処理を行
    い、上記照合データ記憶手段に記憶された照合データを
    用いた照合処理と上記遅延照合データ記憶手段に記憶さ
    れた照合データを用いた照合処理との間で処理の遅れが
    なくなると、上記遅延照合データ記憶手段に記憶された
    照合データを上記照合データ記憶手段に記憶された照合
    データにマージするモデル照合手段とを有することを特
    徴とする音声認識装置。
  2. 【請求項2】 モデル照合手段が、 第二辞書記憶手段から部分辞書がダウンロードされてい
    る間に、照合データ記憶手段に記憶された照合データを
    用いた照合処理の照合結果により、上記ダウンロードさ
    れている部分辞書に対応する照合データよりも評価値の
    高い照合データが検出された場合に、上記第二辞書記憶
    手段からダウンロードする部分辞書を上記評価値の高い
    照合データに対応する部分辞書に切り替えてダウンロー
    ドを行うことを特徴とする請求項1記載の音声認識装
    置。
  3. 【請求項3】 モデル照合手段が、 一定時間待ってから、照合データ記憶手段により記憶さ
    れた照合データを用いた照合処理の照合結果により、第
    二辞書記憶手段に記憶された部分辞書のうちからダウン
    ロードを行う部分辞書を選択してダウンロードを行うこ
    とを特徴とする請求項1記載の音声認識装置。
  4. 【請求項4】 モデル照合手段が、 照合データ記憶手段に記憶された照合データの照合処理
    の結果が所定の値を超えると、第二辞書記憶手段に記憶
    された部分辞書のうちその照合データに対応する部分辞
    書をダウンロードすることを特徴とする請求項2記載の
    音声認識装置。
  5. 【請求項5】 モデル照合手段が、 照合データ記憶手段に記憶された照合データの照合処理
    の結果が所定の値を超えてから一定時間の間待って第二
    辞書記憶手段に記憶された部分辞書のうちからどの部分
    辞書をダウンロードするかを選択することを特徴とする
    請求項3記載の音声認識装置。
  6. 【請求項6】 入力された音声に対し音響分析を行い特
    徴ベクトルの時系列に変換する音響分析過程と、 読み出し速度の早い記憶媒体に部分辞書を記憶する第一
    辞書記憶過程と、 読み出し速度の遅い記憶媒体に部分辞書を記憶する第二
    辞書記憶過程と、 上記第一辞書記憶過程で記憶された部分辞書に対する照
    合演算に用いる照合データを記憶する照合データ記憶過
    程と、 上記第二辞書記憶過程で記憶された部分辞書に対する照
    合演算に用いる照合データを記憶する遅延照合データ記
    憶過程と、 上記第二辞書記憶過程で記憶された部分辞書のダウンロ
    ードを行っている間、先行して上記照合データ記憶過程
    で記憶された照合データを用いて照合処理を進め、上記
    第二辞書記憶過程で記憶された部分辞書のダウンロード
    が終了すると上記遅延照合データ記憶過程で記憶された
    照合データを用いて照合処理を行い、上記照合データ記
    憶過程で記憶された照合データを用いた照合処理と上記
    遅延照合データ記憶過程で記憶された照合データを用い
    た照合処理との間で処理の遅れがなくなると、上記遅延
    照合データ記憶過程で記憶された照合データを上記照合
    データ記憶過程で記憶された照合データにマージするモ
    デル照合過程とを有することを特徴とする音声認識方
    法。
  7. 【請求項7】 モデル照合過程において、 第二辞書記憶過程で記憶された部分辞書のダウンロード
    が行われている間に、照合データ記憶過程で記憶された
    照合データを用いた照合処理の照合結果により評価値の
    高い部分辞書が検出された場合に、ダウンロードを行う
    部分辞書を切り替えることを特徴とする請求項6記載の
    音声認識方法。
  8. 【請求項8】 モデル照合過程において、 照合データ記憶過程で記憶された照合データを用いた照
    合処理の照合結果が得られるのを一定時間の間待ってか
    ら、ダウンロードを行う部分辞書を選択してダウンロー
    ドを行うことを特徴とする請求項6記載の音声認識方
    法。
  9. 【請求項9】 モデル照合過程において、 照合データ記憶過程で記憶された照合データの照合処理
    の結果が所定の値を超えると、第二辞書記憶過程で記憶
    された部分辞書のうちその照合データに対応する部分辞
    書をダウンロードすることを特徴とする請求項7記載の
    音声認識方法。
  10. 【請求項10】 モデル照合過程において、 照合データ記憶過程で記憶された照合データの照合処理
    の結果が所定の値を超えてから一定時間の間待って第二
    辞書記憶過程で記憶された部分辞書のうちからどの部分
    辞書をダウンロードするかを選択することを特徴とする
    請求項8記載の音声認識方法。
  11. 【請求項11】 入力された音声に対し音響分析を行い
    特徴ベクトルの時系列に変換する音響分析機能と、 読み出し速度の早い記憶媒体に部分辞書を記憶する第一
    辞書記憶機能と、 読み出し速度の遅い記憶媒体に部分辞書を記憶する第二
    辞書記憶機能と、 上記第一辞書記憶機能で記憶された部分辞書に対する照
    合演算に用いる照合データを記憶する照合データ記憶機
    能と、 上記第二辞書記憶機能で記憶された部分辞書に対する照
    合演算に用いる照合データを記憶する遅延照合データ記
    憶機能と、 上記第二辞書記憶機能で記憶された部分辞書のダウンロ
    ードを行っている間、先行して上記照合データ記憶機能
    で記憶された照合データを用いて照合処理を進め、上記
    第二辞書記憶機能で記憶された部分辞書のダウンロード
    が終了すると上記遅延照合データ記憶機能で記憶された
    照合データを用いて照合処理を行い、上記照合データ記
    憶機能で記憶された照合データを用いた照合処理と上記
    遅延照合データ記憶機能で記憶された照合データを用い
    た照合処理との間で処理の遅れがなくなると、上記遅延
    照合データ記憶機能で記憶された照合データを上記照合
    データ記憶機能で記憶された照合データにマージするモ
    デル照合機能とをコンピュータに実現させるための音声
    認識プログラム。
JP2001070937A 2001-03-13 2001-03-13 音声認識装置、音声認識方法、及び音声認識プログラム Expired - Fee Related JP4104831B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001070937A JP4104831B2 (ja) 2001-03-13 2001-03-13 音声認識装置、音声認識方法、及び音声認識プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001070937A JP4104831B2 (ja) 2001-03-13 2001-03-13 音声認識装置、音声認識方法、及び音声認識プログラム

Publications (2)

Publication Number Publication Date
JP2002268673A true JP2002268673A (ja) 2002-09-20
JP4104831B2 JP4104831B2 (ja) 2008-06-18

Family

ID=18928718

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001070937A Expired - Fee Related JP4104831B2 (ja) 2001-03-13 2001-03-13 音声認識装置、音声認識方法、及び音声認識プログラム

Country Status (1)

Country Link
JP (1) JP4104831B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007271772A (ja) * 2006-03-30 2007-10-18 Fujitsu Ltd 音声認識装置、音声認識方法、音声認識プログラム
JP2008197338A (ja) * 2007-02-13 2008-08-28 Denso Corp 音声認識装置
CN105122354A (zh) * 2012-12-12 2015-12-02 亚马逊技术有限公司 分布式语音识别系统中的语音模型检索
JP2016080863A (ja) * 2014-10-16 2016-05-16 日本放送協会 音声認識誤り修正装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007271772A (ja) * 2006-03-30 2007-10-18 Fujitsu Ltd 音声認識装置、音声認識方法、音声認識プログラム
JP4671898B2 (ja) * 2006-03-30 2011-04-20 富士通株式会社 音声認識装置、音声認識方法、音声認識プログラム
US8315869B2 (en) 2006-03-30 2012-11-20 Fujitsu Limited Speech recognition apparatus, speech recognition method, and recording medium storing speech recognition program
JP2008197338A (ja) * 2007-02-13 2008-08-28 Denso Corp 音声認識装置
CN105122354A (zh) * 2012-12-12 2015-12-02 亚马逊技术有限公司 分布式语音识别系统中的语音模型检索
JP2015537258A (ja) * 2012-12-12 2015-12-24 アマゾン テクノロジーズ インコーポレーテッド 分散音声認識システムにおける音声モデル検索
US10152973B2 (en) 2012-12-12 2018-12-11 Amazon Technologies, Inc. Speech model retrieval in distributed speech recognition systems
JP2016080863A (ja) * 2014-10-16 2016-05-16 日本放送協会 音声認識誤り修正装置

Also Published As

Publication number Publication date
JP4104831B2 (ja) 2008-06-18

Similar Documents

Publication Publication Date Title
US10741170B2 (en) Speech recognition method and apparatus
JP5331801B2 (ja) 言語モデル先読み確率を計算する方法および装置
JP4414088B2 (ja) 音声認識において無音を使用するシステム
JP4322815B2 (ja) 音声認識システム及び方法
US10319373B2 (en) Information processing device, information processing method, computer program product, and recognition system
KR100845428B1 (ko) 휴대용 단말기의 음성 인식 시스템
JP3459712B2 (ja) 音声認識方法及び装置及びコンピュータ制御装置
JPH07219578A (ja) 音声認識方法
KR19980702723A (ko) 음성 인식 방법 및 장치
JP4289715B2 (ja) 音声認識装置及び音声認識方法並びにその方法に用いられる木構造辞書の作成方法
JP2002215187A (ja) 音声認識方法及びその装置
JP2010139745A (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
JP4940057B2 (ja) 音声認識装置及びその方法
US20090222266A1 (en) Apparatus, method, and recording medium for clustering phoneme models
JPH08505957A (ja) 音声認識システム
JP4104831B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP4528540B2 (ja) 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体
JP4729078B2 (ja) 音声認識装置とその方法と、プログラムとその記録媒体
KR100277690B1 (ko) 화행 정보를 이용한 음성 인식 방법
CN112259084A (zh) 语音识别方法、装置和存储介质
JP5120749B2 (ja) 木構造辞書を記録した記憶媒体、木構造辞書作成装置、及び木構造辞書作成プログラム
JP3969079B2 (ja) 音声認識装置および方法、記録媒体、並びにプログラム
JP4705535B2 (ja) 音響モデル作成装置及び音声認識装置並びに音響モデル作成プログラム
JPH08123471A (ja) 音声認識装置
JP3484077B2 (ja) 音声認識装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050707

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20071109

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20071109

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20071109

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20071225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080226

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080326

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110404

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120404

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees