JPH0934486A - 音声認識方法、情報形成方法、音声認識装置および記録媒体 - Google Patents

音声認識方法、情報形成方法、音声認識装置および記録媒体

Info

Publication number
JPH0934486A
JPH0934486A JP7182851A JP18285195A JPH0934486A JP H0934486 A JPH0934486 A JP H0934486A JP 7182851 A JP7182851 A JP 7182851A JP 18285195 A JP18285195 A JP 18285195A JP H0934486 A JPH0934486 A JP H0934486A
Authority
JP
Japan
Prior art keywords
word
recognition target
words
speech recognition
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7182851A
Other languages
English (en)
Other versions
JP3627299B2 (ja
Inventor
Katsuki Minamino
活樹 南野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP18285195A priority Critical patent/JP3627299B2/ja
Priority to EP96305260A priority patent/EP0755046B1/en
Priority to DE69626344T priority patent/DE69626344T2/de
Priority to US08/683,488 priority patent/US5787395A/en
Priority to CN96112292A priority patent/CN1151573A/zh
Priority to KR1019960030282A priority patent/KR100397402B1/ko
Publication of JPH0934486A publication Critical patent/JPH0934486A/ja
Application granted granted Critical
Publication of JP3627299B2 publication Critical patent/JP3627299B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/12Score normalisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/085Methods for reducing search complexity, pruning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】 【課題】 認識率を劣化させることなく、認識結果を得
るための認識対象ワードの検索を高速化する。 【解決手段】 各認識対象ワードW1〜W10 に対応した
音声データから求められるスコアの期待値あるいは平均
値をもとに、スコアの高い順に全認識対象ワードW1
10 を順序付けたときの順位をワード間の相関値とし
て用いて、認識対象ワードW1〜W10 を階層構造あるい
は重複を許す木構造に構造化しておき、この階層構造に
構造化された辞書を用いて、未知の入力音声信号に対し
てスコア計算を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識方法、情
報形成方法、音声認識装置および記録媒体に関し、入力
音声信号に対して、与えられた辞書の中から対応する語
をひとつまたは複数選び出すような音声認識方法、装
置、音声認識用の辞書が記録された記録媒体および辞書
を形成するための情報形成方法に関するものである。
【0002】
【従来の技術】入力された音声信号から言語情報を取り
出すための音声認識の分野においては、与えられた辞書
の中から入力に対応したワードを選び出すという問題が
頻繁に発生する。
【0003】例えば、地名に対する音声認識の場合、対
象候補ワードとなる地名それぞれに対して、標準パター
ンを作成しておき、入力音声信号を分析して得られる特
徴量パターンと全標準パターンとのマッチングをとるこ
と、すなわち距離計算を行なうことで最も類似したもの
を選び出すということを行なう。これは隠れマルコフモ
デル(Hidden Markov Model:HMM )という確率モデ
ルを用いた場合も同様で、やはり各地名に対応したHM
Mを作成しておき、入力音声信号に対して、その生起確
率が最も大きくなるモデルを選び出すということが必要
になる。
【0004】一般に、音声認識においては、対象となる
ワードと入力音声信号とのマッチングをとるために距離
計算を行なったり、あるいは各ワードの確率モデルを用
いて生起確率を計算したりするなどして、全ワードに対
してスコアづけを行ない、そのスコアに基づいて、最も
スコアの高いものを認識結果として選択するということ
を行なう。
【0005】例えば、上記HMM(隠れマルコフモデ
ル)においては、認識対象ワードそれぞれに対して確率
モデルを予め作成しておき、未知の入力音声信号を分析
して得られる特徴量から生起確率を求め、これをもとに
全ワードに対してスコア付けを行い、最もスコアの高い
ものを認識結果として選択する。
【0006】ここで、スコアが高いとは、距離などの場
合は距離が小さいことに対応し、生起確率などの場合は
その確率が大きいことに対応するなど、その評価値に対
応させた表現として用いるものとする。
【0007】
【発明が解決しようとする課題】ところで、小語彙の認
識システムの場合には、全ての対象候補に対して上述の
ようなスコア計算を行なっても、その処理量はあまり問
題になることはない。
【0008】しかし、中語彙や大語彙の認識を行なう場
合には、対象となる認識辞書の全てのワードに対してス
コア計算をする、いわゆる全探索を行うことは、演算量
の増大につながり、その結果、応答時間の遅延をもたら
すという問題を引き起こすことになる。
【0009】この問題を解決するため、全ワードに対す
るスコア計算を行なう前に、簡単な評価式を用いて予備
選択を行ない、その結果から精密にスコア計算を行なう
べき対象ワードを絞り込む方法や、予め対象となる認識
ワードを木構造にクラス分けしておき、その構造に従っ
て探索していくことで認識ワードを制限する方法などが
ある。
【0010】一般に、現在の音声認識では、精密なスコ
ア計算、例えばマッチングや確率計算を行なっても認識
がなかなか難しいのが現状であり、前者の方法のよう
に、簡単な評価による予備選択を行なった場合、絞り込
みの段階で本来残すべきワードを除外してしまい、認識
率の低下を引き起こすという問題が生じる虞がある。さ
らに、簡単な評価式といっても、全ワードに対して行な
えば、相当な演算量になってしまうという欠点もある。
【0011】これに対して、後者の木構造にクラス分け
しておく方法としては、一般の探索問題においては、対
象候補を二値木(バイナリーツリー)に構造化してお
き、その二値木をたどることによって探索を行なう、と
いう二値木探索と呼ばれる手法が広く用いられている。
しかし、このような構造化を用いる手法では、予め決定
しておいた探索木をもとに探索範囲を制限する、すなわ
ち局所的な探索をするわけであるから、どのように構造
化し、その構造を用いてどのように探索するかが重要で
あり、全探索に比べて、歪みをできるだけ増加させず
に、すなわち認識率をできるだけ低下させずに、演算量
を低減させることが要求される。
【0012】その意味では、二値木探索は、演算量の大
幅な削減が得られるかわりに歪みを増大させてしまうと
いう問題が発生しやすく、特に、音声認識においては、
これは認識率の低下を意味し、大きな問題となる。
【0013】また、上記HMMを用いた音声認識は、認
識対象ワードそれぞれに対して確率モデルを予め作成し
ておき、未知入力音声信号を分析して得られる特徴量か
ら生起確率を求め、これをもとに全ワードに対してスコ
ア付けを行い、最もスコアの高いものを認識結果として
選択するものである。このHMMを用いた音声認識で
は、スコア計算過程において、途中結果を用いて枝苅り
を行なうことで、演算量を削減するビームサーチ法とい
う演算量の削減方法がある。しかし、これもやはりスコ
アの途中結果で制限をかけるために、本来残すべきワー
ドを除去してしまい、ひいては歪みを増大させ、認識率
の低下を招いてしまうという問題を引き起こしてしま
う。
【0014】なお、音声認識に限らず、このような探索
問題では、探索を高速化するために必要となる探索木な
どが占める記憶容量の大きさも重要な問題となる。
【0015】本発明は、このような実情に鑑みてなされ
たものであり、演算量を低減しながら認識率の劣化を防
止し得るような音声認識方法、情報形成方法、音声認識
装置、および記録媒体の提供を目的とする。
【0016】また、本発明は、スコア計算を行う音声認
識対象ワードの数を制限して演算量を低減し、音声認識
の高速化が図れるとともに、必要とされる記憶容量の増
大も少なくて済み、しかも探索による歪みの増大や認識
率の低下を招くことがないような音声認識方法、情報形
成方法、音声認識装置、および記録媒体の提供を目的と
する。
【0017】さらに、本発明の他の目的は、スコア計算
を行う音声認識対象ワードを制限するための階層構造化
に用いられる相関値を、音声データを用いずに計算でき
るようにすることである。
【0018】
【課題を解決するための手段】本発明は、上述した課題
を解決するため、複数の音声認識対象ワードが与えら
れ、未知の入力音声信号に対して、予め求めておいたパ
ラメータを用いて、上記音声認識対象ワードにスコア付
けを行なうことで、対応する音声認識対象ワードを抽出
し認識する際に、上記各音声認識対象ワード間の相関値
を用いて上記各音声認識対象ワードを予め重複を許す木
構造に構造化しておき、この木構造を用いて、上記未知
の入力音声信号に対してスコア計算を行なう音声認識対
象ワードを限定することを特徴とする。
【0019】ここで、上記複数の音声認識対象ワードに
対する確率モデルを用意し、上記未知の入力音声信号に
対して、上記各確率モデルの生起確率を計算し、その生
起確率に従って、対応する音声認識対象ワードを抽出し
認識するようにし、上記各音声認識対象ワードに対応す
る確率モデルの状態遷移確率をもとに状態遷移系列を決
定し、その状態遷移に対応する出力シンボル確率をもと
にシンボル系列を決定し、得られたシンボル系列の生起
確率を上記各音声認識対象ワードに対応するモデルに対
して計算し、この生起確率に基づく音声認識対象ワード
間の相関値を用いて上記各音声認識対象ワードを階層構
造に構造化しておくことが好ましい。
【0020】また、本発明に係る情報形成方法は、複数
のパターン認識対象が与えられ、未知の入力信号に対し
て、予め求めておいたパラメータを用いて、上記パター
ン認識対象にスコア付けを行なうことで、対応するパタ
ーン認識対象ワードを抽出し認識するパターン認識方法
に用いられるパターン認識対象の情報を形成する際に、
上記各パターン認識対象間の相関値をもとに、相互に相
関値が小さくなるパターン認識対象どうしをグループ化
して行き、各グループの代表となるパターン認識対象を
選び出すことで、代表のパターン認識対象とそれに属す
るパターン認識対象の集合という関係にグループ化する
工程と、上記グループ化の過程で、各グループの代表に
選ばれなかったパターン認識対象に関しては、さらに、
上記相関値が小さく、かつ、いずれかのグループの代表
となっているパターン認識対象に対して、その代表のパ
ターン認識対象のグループにも属するようにする工程
と、上記グループ化と上記グループへの追加を行うこと
で得られた代表のパターン認識対象に対して新たにグル
ープ化とグループへの追加を行なう工程とを有し、これ
らの工程を任意の回数繰り返すことで、階層構造に構造
化することを特徴としている。
【0021】さらに、上記階層構造に構造化された音声
認識対象ワード等のパターン認識対象の情報を記録媒体
に記録しておくことができる。
【0022】なお、上記パターン認識対象としては、上
記音声認識対象ワード以外に、図形認識や文字認識のよ
うな画像情報におけるパターン認識の対象にも適用でき
るものである。
【0023】このように、音声認識対象ワード(一般的
にはパターン認識対象、以下同様)を予め階層構造ある
いは重複を許す木構造に構造化しておき、その構造に従
って検索することで音声認識対象ワードの数を制限し、
演算量を低減する。しかも、新たなワード間の相関値の
定義と、その相関値に基づく認識ワードの構造化方法に
よって、局所的な探索であっても、スコアの高くなるこ
とが期待されるワードは探索範囲に含まれるようにな
り、最終的に歪みをほとんど増大させることがなく、認
識率の低下を防止できる。
【0024】また、ワード間の相関値を、HMM(隠れ
マルコフモデル)のような確率モデルのパラメータから
計算するようにすることで、認識辞書に対応する実音声
データを大量に必要とすることを回避できる。
【0025】
【発明の実施の形態】以下、本発明に係る好ましい実施
の形態について、図面を参照しながら詳細に説明する。
本発明の実施の形態においては、音声認識を例として取
り上げているが、この他、映像や画像あるいは文字等の
各種パターン認識に本発明を適用することも容易であ
る。
【0026】第1の実施の形態 以下の本発明の第1の実施の形態の説明においては、ま
ず音声認識に関して簡単に説明し、その音声認識を高速
化するための方式として、音声認識対象ワード(以下単
にワードともいう)間の相関値の定義、その相関値を用
いたワードの構造化の方法、およびその構造を用いた認
識手法に関して説明する。次に、記憶容量、および演算
量の見積りを行なった後、シミュレーション結果を説明
し、その有効性を説明する。
【0027】<音声認識>音声認識に用いられる装置
は、一般的に図1に示すように、入力部11、音響分析
部12、認識部13、パラメータ記憶部14、出力部1
5から構成されることが多い。
【0028】入力部11は、マイクなどの音声信号を入
力する装置とその入力信号を増幅するアンプ、およびデ
ジタル信号に変換するAD変換器などによって構成され
る。そして、入力信号を、例えば12kHzでサンプリン
グした後、音響分析部12へ送信する。
【0029】音響分析部12では、入力された音声信号
から認識に必要な特徴量の抽出を行なう。例えば、単純
な信号のエネルギや零交差(ゼロクロス)数、ピッチな
どの抽出を行なったり、線形予測分析(LPC)、高速
フーリエ変換(FFT)、バンドパスフィルター(BP
F)、さらにはWavlet変換などによって周波数分析を行
なったりする。そして、例えば帯域分割されたエネルギ
ーなどを要素とするベクトル時系列として、特徴量の抽
出を行なったりする。また、その特徴量の変化量とし
て、例えば差分データも特徴量の一つとして同時に抽出
することもある。こうして得られた特徴量に対し、カル
ーネンレーブ(KL)変換や、ニューラルネットワーク
などの適当な写像を施すことで、分離度の大きな特徴量
にさらに変換する場合もある。また、ベクトル量子化な
どにより、特徴量ベクトルを圧縮し、量子化された特徴
量に変換する場合もある。
【0030】このように、音響分析部12では、認識に
必要な特徴量の時系列を入力された音声信号から抽出
し、これを認識部13に送信する。
【0031】認識部13では、予め学習用の音声データ
を音響分析して得られる特徴量をもとに作成しておいた
パラメータ記憶部14のパラメータを用いて、未知音声
データに対する認識処理を行なう。ここで、認識とは、
入力された音声信号に対して、与えられた認識辞書の中
から、入力に対応したワードを選び出すことである。こ
の認識手法としては、主なものとして、DPマッチン
グ、ニューラルネットワーク、HMM(隠れマルコフモ
デル)などを用いたものが使われる。
【0032】DPマッチングは、各音声信号を分析して
得られる特徴量からテンプレートと呼ばれる標準パター
ンを予めパラメータとして求めておき、未知音声の特徴
量と比較して最も近いと判定されるものを見つけるとい
う方式である。発話速度の変動を吸収するため、ダイナ
ミックタイムワーピング(dynamic time warping)と呼
ばれる手法により、テンプレートとの歪みを最小化する
ように時間軸の伸縮を行なう方法がよく用いられる。
【0033】ニューラルネットワークは、人間の脳の構
造を模倣するネットワークモデルによって認識を行なお
うとするもので、学習過程により予めパスの重み係数を
パラメータとして決定しておき、そのネットワークに未
知音声の特徴量を入力して得られる出力をもとに、辞書
内の各ワードとの距離を求め、認識ワードを決定しよう
とするものである。
【0034】また、HMMは、確率モデルにより認識を
行なおうとするもので、予め状態遷移モデルに対して、
その遷移確率と出力シンボル確率を学習データをもとに
決定しておき、未知音声の特徴量に対する各モデルの生
起確率から認識ワードの決定を行なおうとする方式であ
る。このHMMについては、本発明の第2の実施の形態
として後で詳述する。
【0035】以上述べたように、一般に、認識処理とし
ては、学習過程として、予め学習用データから決定され
たパラメータ、すなわちテンプレートや、ネットワーク
モデルの重み係数、確率モデルの統計的パラメータなど
を求めておき、これをパラメータ記憶部14に記憶して
おく。
【0036】そして、認識過程では、入力された未知音
声信号を音響分析した後、与えられた辞書の中のワード
それぞれに対して、その認識手法に応じた距離や生起確
率などのスコア付けを行ない、そのスコアが最も高いも
の、あるいは上位複数個、を認識結果として選び出すと
いうことを行なう。そして、得られた認識結果を出力部
15に送信する。
【0037】出力部15では、送信されてきた認識結果
を画面に表示したり、音として出力したり、さらには、
その認識結果を用いて、他の装置を動作させたりなどの
指令を行なう。
【0038】<ワード間の相関値>上述したような音声
認識の処理において、認識部13のスコア計算は、入力
された未知音声信号に対して、与えられた辞書、すなわ
ち音声認識対象ワードの集合内の全ワードとの間で計算
される。小語彙の認識であれば、その処理量はあまり問
題にならない。しかし、中語彙や大語彙の認識では、非
常に重要な問題となる。
【0039】そこで、認識対象ワードを予め階層構造あ
るいは重複を許す木構造に構造化しておき、その構造を
用いることで、スコア計算を行なうワード数を削減する
ことが、本発明の目的である。これを簡単に示したのが
図2である。
【0040】すなわち、図2において、全ての音声認識
対象ワードの分布空間20内において、各ワードW間の
関係を用いてその分布構造を予め求めておけば、ある入
力21とワードWの分布構造との関係から、その入力2
1に対し、スコア計算を行なう必要のあるワードの集合
22(すなわち上位でスコアを競い合うもの)と、必要
のないワードすなわちスコアが高くなりそうもないもの
と、を決定することができるようになる。そして、スコ
ア計算の必要のないワードを削除する、すなわちスコア
の計算対象から外すことにより、認識部の処理量あるい
は演算量を低減させようとするものである。
【0041】このような目的にあったワードの分布構造
を決定するためには、ワード間の関係を知るための距離
尺度のようなものが必要となる。
【0042】一般に、音声認識において、各ワードに対
応したモデル、すなわちテンプレートやネットワークモ
デル、確率モデルなどを作成し、学習過程においてその
モデルのパラメータを決定し、認識過程においてそのモ
デルを用いたスコア計算、すなわち距離計算や確率計算
を行なうわけであるから、その意味では実音声信号とワ
ードとの距離尺度は、実音声信号を音響分析して得られ
る特徴量とワードに対応したモデルとから計算されるス
コアによって定義されていると考えられる。
【0043】ところで、音声認識で用いられるスコア
は、話者の違いや、発話速度、環境の変化などによっ
て、大きく変動する傾向が見られる。例えば、同じよう
に発声された二つの音声信号に対して、同じモデルでス
コア計算を行なった場合、そのスコアに差異が生じるこ
とは珍しくない。また、同じように発声した二つの音声
信号に対して、異なる二つのモデルを用いてスコア計算
をした場合、一方の音声信号については、片方のモデル
に対するスコアの方が高く、もう一方の音声信号につい
ては、もう片方のモデルの方がスコアが高いという現象
(順序が入れ代わる現象)もしばしば見られる。
【0044】そこで、この変動を吸収するため、それぞ
れの認識手法において用いられるスコアの期待値によっ
て、ワード間の相関値を定義することを考える。
【0045】まず、認識対象ワードをWi (1<i<
N)と表し、各ワードWi に対応する実音声信号の集合
をXi ={Xi 1,Xi 2,Xi 3,・・・}とする。ここ
で、Nは認識対象ワード数、すなわち辞書に含まれるワ
ード数とする。
【0046】そして、ある音声信号Xj kを音響分析して
得られる特徴量と、学習によって既にパラメータが決定
されているワードWi に対応したモデルとの間で計算さ
れるスコア、例えば、DPマッチングにおけるテンプレ
ートとの距離や、HMMにおける生起確率など、をS
(Xj k,Wi)と記述することにする。
【0047】ただし、このスコアは
【0048】
【数1】
【0049】のように正規化してあるものとする。この
(1)式で、Sorg(Xj k,Wi) は正規化前のスコア、
S(Xj k,Wi)は正規化されたスコアである。
【0050】今、ワードW1 に対応するある音声信号X
1 1を用いれば、各ワードに対してスコアS(X1 1,Wi
を求めることができる。同様に、音声信号X1 2を用いて
スコアS(X1 2,Wi)が求まる。以下同様にすれば、W
1 に対応する音声信号の集合X1 ={X1 1,X1 2
1 3,・・・}を用いてスコアがそれぞれ計算できる。
そこで、この音声信号の集合X1 に対して各ワードごと
に求まるスコアの期待値、例えば平均値をSe(X1
i)と表すことにすれば、
【0051】
【数2】
【0052】のように計算することができる。ここで、
KはW1 に対応する音声信号のデータ数であり、十分大
きいものとする。
【0053】同じようにして、ワードWj に対応する音
声信号の集合Xj ={Xj 1,Xj 2,Xj 3,・・・}と各
ワードとの間で、スコアの期待値を次式のように求める
ことができる。
【0054】
【数3】
【0055】もし、認識性能がある程度保証された音声
認識の方式を用いるならば、ワードW1 に対応した音声
信号の集合X1 に対しては、上記(3)式で求まるスコ
アの期待値の中で、Se(X1,W1)が最も高くなること
が期待できる。同様に、ワードWj に対応した音声信号
の集合Xj に対しては、(3)式で求まるスコアの期待
値の中で、Se(Xj,Wj)が最も高くなることが期待で
きる。そして、Xj に対してスコアの期待値Se(Xj,
i)が高いWi というのは、未知音声信号Xj kに対し
てもスコアS(Xj k,Wi)が高くなることが期待でき、
逆に、Xj に対するスコアの期待値Se(Xj,Wi)が低
いWi というのは、未知音声信号Xj kに対してもスコア
S(Xj k,Wi)が低くなることが期待できる。
【0056】そこで、上記(3)式によって求まるスコ
アの期待値Se(Xj,Wi)をワードWj に対するワード
i の距離尺度D(Wj,Wi)としてとらえる。
【0057】
【数4】
【0058】ただし、この(4)式の距離尺度D
(Wj,Wi)は、スコアS(Xj k,Wi)としてテンプレ
ートとの距離などを用いる場合には、小さければ小さい
ほどWj に対してWi が近いことを意味し、HMMなど
の生起確率を用いる場合には、逆に大きければ大きいほ
どWj に対してWi が近いことを意味する。
【0059】このとき、距離尺度D(W1,Wi)にもと
づいて、ワードW1 に対してワードWi (i=1,2,
・・・,N)を近い順に並べることができる。同様に、
ワードW2,W3,・・・,WN に対しても、ワードWi
(i=1,2,・・・,N)を近い順に並べることがで
きる。
【0060】そこで、その順位、つまりWj に対して近
い順にワードWi を並べたときの順位を、ワードWj
対するワードWi の相関値R(Wj,Wi)として定義す
る。例えば、一番近いものは1、二番目に近いものは
2、以下同様にして、最も遠いものはNとする。
【0061】なお、上記(4)式のの距離尺度D
(Wj,Wi)が同じになり、順位が同じとなるようなも
のがある場合は、これに無理矢理順序をつけることはせ
ず、ともに同じ相関値を設定するものとする。例えば、
3位のものが二つある場合は、ともに3を設定する。
【0062】以上のようにして定義された相関値R(W
j,Wi)は、1からNまでの整数値をとることになり、
小さいほど相関が高く、大きいほど相関が低いと見なす
ことができる。すなわち、相関が高いあるいは相関値R
(Wj,Wi)が小さいとは、ワードWj に対応した未知
音声信号Xj kに対してワードWi のモデルから求まるス
コアS(Xj k,Wi)が高くなることが期待できることを
意味し、相関が低いあるいは相関値R(Wj,Wi)が大
きいとは、ワードWj に対応した未知音声信号Xj kに対
してワードWi のモデルから求まるスコアS(Xj k,
i)が低くなることが期待できることを意味する。こ
こで、R(Wj,Wi)とR(Wi,Wj)は、定義からわ
かるように、必ずしも同じになるとは限らないというこ
とは注意が必要である。
【0063】次に、このような相関値をもとに、目的と
する音声認識対象ワードを構造化する方法について説明
する。
【0064】<認識対象ワードの構造化>音声認識対象
ワードの構造化の方法に関して述べる前に、どのように
構造化すべきかについて簡単に説明する。
【0065】基本的には、音声認識対象ワードを代表ワ
ードとそれに属するワードとに分離し、実際に認識を行
なう場合には、入力音声信号に対して、まず代表ワード
の中だけで認識処理を行なう。これは、図2における全
認識対象ワードの分布空間20において、どのあたりに
入力されたかを調べることにあたる。この認識処理の結
果により、さらに認識処理を行なうべきワードを限定
し、最終的には、代表ワードとある一部のワードに対す
る認識処理、すなわち局所的な探索だけで認識結果を求
めようとすることになる。
【0066】例えば、図3に示されるような関係、すな
わち代表ワード31としての例えば5つのワードW1
5 、W7 、W10と、それに属するワード32としての
例えば6つのワードW2 、W3 、W4 、W6 、W8 、W
9 との間の従属関係が得られた場合、先ず、代表ワード
だけで認識処理を行ない、その結果をもとに、ある判定
基準に基づいて、次に認識処理を行なうべきワードを選
び出すことになる。例えば代表ワードW7 に属するワー
ドが選び出されたとすれば、結局は、代表ワード31と
なる5つのワードW1 、W5 、W7 、W10と、ワードW
7 に属するワードW6 、W8 、W9 に対してだけ認識処
理を行ない、その中から最もスコアの高いものが選ばれ
ることになる。
【0067】したがって、全探索で正解が得られる、す
なわち入力音声信号に対応するワードのスコアが最も高
くなるようなら、代表ワードに対応する入力音声信号に
対しては必ず正解が得られることになる。
【0068】これに対して、代表ワード以外のワードに
対応する入力音声信号に対しては、先ず、代表ワードの
中だけで認識処理を行なった場合、当然、正解は得られ
るはずはない。しかし、代表ワードに対するスコアづけ
を行なえば、その中でスコアの高いもの、すなわち相関
が高いと思われるもの、を抽出することができる。
【0069】そこで、正解となるワードにとって相関の
高い、すなわち相関値の小さいワードが代表ワードの中
に含まれており、かつ、その代表に属するワードの中に
その正解となるワードが含まれているならば、代表ワー
ドの中でスコアの高いものを求め、それに属するワード
を抽出し、その中でさらに認識処理を行なうことで、最
終的に正解が得られることが期待できる。
【0070】以上の考えに基づいて、認識対象ワードを
構造化する方法について、図4を参照しながら説明す
る。
【0071】手順1.グループ化(ステップS41) 相関値R(Wj,Wi)とR(Wi,Wj)が共に小さいワ
ードWi とWj とは、どちらのワードに対応した入力音
声信号Xに対しても、スコアS(X,Wi),S(X,
j)が高くなることが期待できることから、この二つ
をグループ化する。この際、どちらか一方を代表ワード
とし、他方をその属するワードとする。また、グループ
化されないワードに関しては、自分自身を代表ワードと
し、単一グループとする。
【0072】手順2.グループへの追加(ステップS4
2) いずれかのグループに属してしまい、代表ワードになら
なかったWj に関しては、さらに、R(Wj,Wi)が小
さいWi の中で代表ワードに選ばれたWi のグループに
も属するようにする。これは、代表に選ばれなかったW
j の属するグループとして、Wj に対して相関の高いW
i が代表ワードとなっているものを、できる限り多くし
ておくために行なわれる処理である。
【0073】手順3.階層化 上記グループ化およびグループへの追加を一まとまりの
ステップとしてグループ分けを行ない、同様にして各グ
ループの代表ワードに対して改めてグループ分けを行な
い、さらにその代表ワードに対してグループ分けを行な
うということを繰り返し、階層構造の探索木を作成す
る。つまり、上記グループ化およびグループへの追加の
処理によって、ある階層において、相関のあるワードが
グループ化され、各グループに対する代表がひとつ選ば
れることになる。そして、その代表ワードが、その上の
階層の構成要素となるわけである。
【0074】図4のフローチャートにおいては、先ず、
ステップS41で上記グループ化を行い、ステップS4
2で上記グループへの追加を行い、ステップS43で上
記代表ワードを選び出す。この選び出された代表ワード
に対して、再びステップS1のグループ化とステップS
2のグループへの追加を行い、これを繰り返していき、
階層構造に構造化していくわけである。
【0075】図5はこのようなグループ分けの具体例を
示している。まず、図5のAに示す与えられた音声認識
対象ワードWi (i=1,2,・・・,10)に対し
て、上記各ステップS41、S42により図5のBに示
すようなグループ分けが行なわれ、上記ステップS43
により代表ワードW1 、W5 、W7 、W10が選び出され
る。次に、この代表ワードに対して、同様に上記各ステ
ップS41、S42の処理を行ない、図5のCに示すよ
うなグループ分けがなされ、ステップS43により代表
ワードW1 、W7 が選び出される。そして、最終的に図
6に示すような探索木が得られることになる。
【0076】次に、上記の構造化に関して、具体例を述
べる。
【0077】グループ化について 手順1.まず、各ワードWi に対応したグループGi
つくり、そのグループの要素数をn(Gi) で表すことに
する。
【0078】初期状態は、 Gi={Wi}, n(Gi)=1 ・・・ (5) とし、各グループGi の代表ワードをWi とする。 手順2.各ワードWj に対して、相関値R(Wj,Wi
(ただしi=1,2,・・・,N)を求める。 手順3.i=1 手順4.j=i+1 手順5.R(Wj,Wi)≦r、かつR(Wi,Wj)≦r
となる場合、この(i,j)に対して以下を行なう。そ
れ以外の場合は次の手順6.へ。 (1) n(Gi)≧1 かつ n(Gj)≦1の場合、下記の処理
(I) を実行。 (2) n(Gi)≦1 かつ n(Gj)≧1の場合、下記の処理
(II)を実行。 (3) n(Gi)>1 かつ n(Gj)<1の場合、グループG
i に含まれるWi 以外の要素と、グループGj に含まれ
るWj 以外の要素が同じであれば、下記の処理(I)(また
は、処理(II))を実行。ただし、処理(I),(II)とは次の
ような処理である。 処理(I):グループGiにワードWjが既に属していれば何
も行なわず、属していなければ、グループGiにワード
jを追加し、n(Gi)は1増加し、n(Gi)=0とす
る。 処理(II):グループGjにワードWiが既に属していれば
何も行なわず、属していなければ、グループGjにワー
ドWiを追加し、n(Gi)は1増加し、n(Gi)=0とす
る。 手順6.jを1増加させ、j≦Nならば上記手順5.へ
戻り、j>Nならば次の手順7.へ。 手順7.iを1増加させ、i≦N−1ならば上記手順
4.へ戻り、i>N−1ならば終了する。
【0079】上記のグループ化の方法に関して、図7の
フローチャートを参照しながら簡単に説明する。
【0080】ステップS71でグループの初期化を行な
い、ステップS72で相関値を求め、ステップS73に
おいて、上記手順3.〜手順7.に相当する処理、すな
わち異なるWi とWj に対して、相関値をもとにグルー
プ化を行なっていく。その判定基準としては、上記手順
5.の処理におけるような R(Wj,Wi)≦r かつ R(Wi,Wj)≦r ・・・(6) を用いる。ここで、rは、1よりは大きく認識対象ワー
ド数Nよりは(十分)小さな整数(例えば、2から10
くらい)を設定する。すなわち、相関値R(Wj,Wi
とR(Wi,Wj)が共に小さくなるようなWi ,Wj
対してグループ化を行なっていくわけである。
【0081】そして、そのようなWi とWj とが見つか
った場合には、基本的には上記手順5.に示す(1),(2)
の場合のように、まだ代表ワードになっていない方を、
既に代表ワードになっている方のグループに属させるよ
うにする。すなわち上記処理(I) または処理(II)を行
う。例えば、G1 ={W1 ,W2 },G3 ={W3 }の
場合に、W1 とW3 の間で上記(6)式が成り立てば、
1 ={W1 ,W2 ,W3 }に変更し、G3 は空集合に
すればよい。
【0082】ただし、どちらのグループにも、既に代表
ワード以外に属する要素が存在する場合、すなわち上記
手順5.の(3) の場合には、その代表ワード以外の要素
が同じ時のみ、上記処理(I)(または処理(II)) を実行す
る。例えば、G5 ={W1 ,W5 },G7 ={W2 ,W
7 }の場合に、W5 とW7 に対して上記(6)式が成り
立っても、グループ化は行なわないが、G5 ={W1
2 ,W5 },G7 ={W1 ,W2 ,W7 }の場合に、
5 とW7 に対して(6)式が成り立てば、G5 ={W
1 ,W2 ,W5 ,W7 }に変更し、G7 は空集合にする
ことになる。逆に、G5 を空集合にし、G7 ={W1
2 ,W5 ,W7 }と変更してもよい。
【0083】また、n(Gi)=1かつn(Gj)=1の場合
に、Wi とWj に対して上記(6)式が成り立つような
ときは、上記処理(I) と処理(II)のどちらを実行しても
よい。
【0084】なお、判定条件の上記(6)式におけるr
は、小さければ小さいほど、グループ化が行なわれる条
件が厳しくなる。その意味では、最初r=2に設定し
て、上記手順1.から手順7.の処理を行ない、次にr
=3に設定して、上記手順3.から手順7.の処理を行
ない、同様にしてrを1ずつ増加させながら、r≦ra
を満たす間、上記手順3.から手順7.の処理を繰り返
すようにすることで、最も相関のあるワードどうしがま
ずグループ化されてから、次に相関のあるもの、その次
に相関のあるものという風に、順にグループ化されてい
くことになり、代表に選ばれないワードにとっては、よ
り相関の強いワードが初期の段階で代表ワードになって
くれるという点で、効果のある構造化が得られるように
なる。ここで、ra には、2よりは大きく認識対象ワー
ド数Nよりは十分小さな整数(例えば、3から10くら
い)を設定するものとする。
【0085】これを図8に示す。図8の各ステップS8
1、S82、S83は、それぞれ上記図7の各ステップ
S71、S72、S73に対応するが、上記手順3.か
ら手順7.の処理に相当するステップS83について
は、rを1ずつ増加させながらr≦ra を満たす間、処
理を繰り返すようにしている。
【0086】さらにまた、判定条件の上記(6)式の代
わりに、 R(Wj,Wi)≦rj かつ R(Wi,Wj)≦ri ・・・ (7) のようにWj にはそれに応じたrj を設定するように
し、例えば、 rj=n(Gj)+r−1 (j=1,2,・・・,N) ・・・ (8) のように、n(Gj) に応じて変動させるような方法も考
えられる。この場合、最初はr=2、すなわちrj =2
に設定して、上記手順1.から手順7.の処理を行な
い、得られた各グループの要素数に従って、r=3とし
て上記(8)式によりrj を設定し直し、上記手順3.
から手順7.の処理を行ない、同様にして、rを1ずつ
増加させるとともに、グループの要素数に応じて上記
(8)式によってrj を設定し直しながら、r≦ra
満たす間、上記手順3.から手順7.の処理を繰り返す
ようにする。このようにすることで、本来非常に相関の
あるWiとWj がグループ化されないような状況、特
に、Wj にとってさらに相関のあるWk が多数存在して
いたために、相関値R(Wj,Wi)が少し大きくなって
しまい、Wi とWj がグループ化されないような状況を
緩和することができる。
【0087】例えば、W5 に対して、R(W5,W1)=
2であったとしても、W1 に対して、R(W1,W3)=
2,R(W1,W8)=3,R(W1,W5)=4であるよ
うな場合、r≧4として上記(6)式の判定を行なわな
ければ、W1 とW5 はグループ化されない。しかし、も
し、G1 ={W1 ,W3 ,W8 }のようにグループ化さ
れた後に、r=2として上記(7)式の判定を行なえ
ば、W1 とW5 はグループ化されることになる。これ
は、上記(8)式により、r1 =5,r5 =3となるか
らである。
【0088】したがって、さらに効率的に構造化が行な
えるようになる。ここで、ra には、前と同様、2より
は大きく認識対象ワード数Nよりは十分小さな整数(例
えば、3から10くらい)を設定するものとする。
【0089】グループへの追加について 手順1.j=1 手順2.Wj が代表ワードでない場合、すなわちn
(Gj)=0 の場合、以下を行なう。それ以外の場合は、
次の手順3.へ。 (a) i=1 (b) Wi が代表ワードの場合、すなわちn(Gi)>0 の
場合、以下を行なう。それ以外の場合は、(c)へ。R
(Wj,Wi)≦rb の場合、下記の処理(III)を実行。 (c) iを1増加させ、i≦Nならば(b)へ戻り、i>
Nならば次の手順3.へ。ただし、処理(III)とは次の
ような処理である。 処理(III):グループGiにワードWjが既に属していれば
何も行なわず、属していなければ、グループGiにワー
ドWjを追加し、n(Gi)を1増加させる。 手順3.jを1増加させ、j≦Nならば上記手順2.へ
戻り、j>Nならば終了。
【0090】上記のグループへの追加に関して、簡単に
説明を加えると、まず、前記のグループ化によって、代
表ワードとそれに属するワードに分離されることにな
る。そして、認識過程では、この代表ワードだけで、ま
ず認識処理を行ない、その結果から、さらに認識処理の
必要なワードを選び出すことが行なわれる。
【0091】つまり、代表に選ばれなかったワードにと
っては、相関の強いワードができるかぎり代表ワードに
含まれており、かつその代表ワードのグループに属して
いることが重要になるといえる。
【0092】そこで、上記の手順1.,手順2.,手順
3.の処理を通して、代表ワードに選ばれてないワード
j に着目し、代表に選ばれているWi の中で相関の強
いワード、すなわち R(Wj,Wi)≦rb (9) を満たすWi を探しだし、対応するグループGi にWj
がまだ属していない場合は、そのグループの要素として
j を追加するわけである。
【0093】なお、上記(9)式のrb は、2よりは大
きく認識対象ワード数Nよりは小さな整数(例えば、3
から20くらい)を設定するものとする。ただし、認識
性能を劣化させないためには、前述のグループ化におけ
る(6)式のrや(7)式のri ,rj はあまり大きく
しない方が良い、すなわち判定条件を厳しくした方が良
いのに対して、上記(9)式のrb はできるだけ大きめ
に設定する方が良いと言える。
【0094】なぜなら、代表ワードに選ばれないワード
に関しては、認識過程において、認識処理(スコア計
算)が行なわれる対象ワード内に含まれない危険性があ
り、その意味では、グループ化を行なう際に、相関のあ
まり強くないワードどうしはグループ化を、すなわち片
方を代表ワードとし、もう片方をそれに属するワードと
することを、しない方が良いといえる。したがって、上
記(6)式のrや(7)式のri ,rj はあまり大きく
しない方が良い。
【0095】これに対して、一旦グループ化が行なわれ
た後、代表ワードに選ばれかったワードは、できるだけ
多くのグループに属している方が、認識過程において、
認識処理(スコア計算)が行なわれる対象ワード内に含
まれる確度が高くなり、その意味では、上記(9)式の
b はできるだけ大きい方が良いわけである。特に、そ
のワードにとって相関の高いワードが代表となっている
グループに含まれることは、より効果が期待できるわけ
である。
【0096】しかし、上記(9)式のrb を大きくする
ことは、認識過程における探索範囲の拡大、すなわちス
コア計算が行なわれるワード数が大きくなることにつな
がり、本来の目的である、認識過程の処理量(演算量)
を縮小したいという意味ではあまり大きくし過ぎてはい
けない。したがって、結局rb としては、上記(6)式
のrや上記(7)式のri ,rj よりは少し大き目くら
いに設定するのが好ましい。
【0097】階層化について 手順1.全認識対象ワード{Wi :i=1,2,・・
・,N}に対し、Wi をWi 0などと表記することにす
る。また、N0 =Nとする。 手順2.m=1 手順3.ワード{Wi m-1:i=1,2,・・・,
m-1 }に対して、前述のグループ化とグループへの追
加の処理を1ステップとするグループ分けを行なう。得
られた代表ワードを{Wi m:i=1,2,・・・,
m }と表すことにする。ただし、Nm は得られた代表
ワードの数である。 手順4.mを1増加させ、m≦Mならば手順3.へ戻
り、m>Mならば終了。
【0098】上記の階層化に関して、上記図4を参照し
ながら簡単に説明する。まず、m=1 における上記手
順3.の処理は、全認識対象ワードに対して、前述のス
テップS41でのグループ化と、ステップS42でのグ
ループへの追加を行なうことにあたり、最初に行なうス
テップS41のグループ化によって、相関の強いものど
うしがグループ化され、その従属関係が決定されること
になる。
【0099】次に、m=2とし、m=1において得られ
た代表ワードに対するグループ分けを行なうわけである
が、やはり最初に行なうグループ化によって、相関の強
いものどうしがグループ化され、その従属関係が決定さ
れることになる。
【0100】以後、同様にm>Mとなるまで、同じよう
にグループ分けを行っていき、図6に示されるような階
層構造の探索木が得られることになるわけであるが、そ
の作成過程を考えれば、ある階層のワードには、相互に
相関の強いワードが代表ワードとしてその上の階層に存
在し、パスがつながっていることが期待できる。つま
り、最も下の階層、すなわち全認識対象ワードの集合、
にあるワードにとって、相互に相関の強いワードへのパ
スが上の階層へとつながっていくことが期待できる。
【0101】例えば、図9に示されるように、ワードW
1 とW5 の間に上記(6)式あるいは(7)式のような
関係が成立し、W1 が代表ワード、W5 がW1 に属する
ワードになったとする。さらに、ワードW1 とW9 がと
もに代表として選ばれた後、再度グループ化を行なった
結果、ワードW1 とW9 の間に、上記(6)式あるいは
(7)式ような関係が成立し、W9 が代表ワード、W1
がW9 に属するワードになったとする。この場合、ワー
ドW5 とW9 の相関も強いことが期待できるわけであ
る。
【0102】しかしながら、最も下の階層のワードにと
って、上の階層へのパスをたどっていって得られるワー
ドとの相関の強さは、上の階層へ行けば行くほど、弱く
なることが予想される。したがって、もし得られた探索
木をもとに、認識処理をすべきワードを制限するものと
した場合、あまり上の階層のワードから最も下のワード
に対する制限をかけるのは、歪みの増大、すなわち認識
率の低下を招くことが予想され、好ましくないといえ
る。その意味からすれば、上記のような階層化によって
得られる探索木の最上位の階層Mは、あまり大きくし過
ぎない方が良い。
【0103】なお、Wi mを第m階層のワードと呼ぶこと
にする。例えば、認識対象ワードの集合は第0階層のワ
ードであり、そこから選ばれた代表ワードの集合は第1
階層のワードと呼ぶことにする。
【0104】<認識手法>つづいて、上記認識対象ワー
ドを上述したように階層構造に構造化することによって
得られる探索木を用いた認識手法に関して述べる。
【0105】この音声認識には、図1に代わって、図1
0のような構成が用いられる。
【0106】ここで、入力部101、音響分析部10
2、パラメータ記憶部104、出力部105に関して
は、その動作は前述した図1の各部11、12、14、
15とそれぞれ同じである。
【0107】すなわち、入力部101から入力された音
声信号が、音響分析部102で音響分析され、得られた
特徴量が認識部103へ送られる。
【0108】学習過程では、学習用の音声データをもと
に、認識処理に用いられるパラメータが決定され、その
パラメータがパラメータ記憶部104に記憶される。そ
して新たに、前述した認識対象ワードの構造化を、実音
声データを用いて行ない、得られた探索木を探索木記憶
部106に記憶する。すなわち、各認識対象ワードに対
応した実音声データに対して、認識部103におけるス
コア計算を行ない、前述の構造化の方法に基づいて探索
木を作成し、探索木記憶部106に記憶する。
【0109】認識過程においては、入力部101より入
力された未知音声信号に対して、音響分析部102にお
いて音響分析を行ない、得られた特徴量が認識部103
へ送られる。そして、以下のような認識処理を行なう。
【0110】手順1.第M階層のワードに対してスコア
計算を行ない、最もスコアの高いものから上位p個を選
び出す。 手順2.m=Mとする。 手順3.第m階層において選ばれた最もスコアの高いも
のから上位p個のワードに対して、探索木記憶部106
の探索木をもとに、そのワードに属する第m−1階層の
ワードを抽出する。そして、それらのワードに対して、
再びスコア計算を行ない、最もスコアの高いものから上
位p個を選び出す。 手順4.mを1減少させ、m>0ならば3へ戻り、m=
0ならば次の手順5.へ。 手順5.第0階層において抽出されたワードの中から、
最もスコアの高いもの、あるいは上位複数個、を選び出
す。そして、上記手順5.において選び出された最もス
コアの高いワード、あるいは上位複数個を、出力部10
5へ送信する。
【0111】出力部105では、送信されてきた認識結
果を画面に表示したり、音として出力したり、さらに
は、その認識結果を用いて、他の装置を動作させたりな
どの指令を行なう。上記手順1.の処理を初期探索とい
い、上記手順2.から手順4.までの処理を構造探索と
呼ぶ。
【0112】ここで、図11は、上記認識処理の概要を
説明するためのフローチャートである。この図11の最
初のステップS111において、初期探索として、上記
第M階層の探索を行い、その後、処理ルーチン112に
より、第M−1階層の探索から第0階層の探索までの構
造探索を行う。この処理ルーチン112において、ステ
ップS113では第m階層のワードを抽出し、この抽出
されたワードに対して、ステップS114でスコア計算
が既に行われているか否かを判別し、NOのときはステ
ップS115に進んでスコア計算を行った後、ステップ
S116に進み、YESのときは直接ステップS116
に進んでいる。ステップS116では、計算されたスコ
アの高いものから上位p個を選び出している。
【0113】上記初期探索は、認識過程において最初に
行なう最上位階層の代表ワードに対するスコア計算にあ
たり、構造探索は、探索木をもとに、一つ上の階層の探
索で選び出されたp個の代表ワードに属するワードに対
してスコア計算を行なっていく処理にあたる。また、以
上のような構造探索においては、代表ワードとして既に
スコア計算をしたものや、抽出した二つ以上のグループ
に重複して含まれているものがあるため、一旦スコア計
算を行なったワードに関しては、そのスコアを記憶して
おき、同じワードに対するスコア計算の重複を避けるよ
うにするものとする。
【0114】<記憶容量の見積り>以上のような探索木
を用いた認識処理において、探索木に必要な記憶容量の
見積りをしておく。全ワード数をNとする。グループ化
によって、ある階層のワードがそのワード数の約2分の
1のグループに縮退し、かつ各グループの平均要素数が
10ワードになると仮定すれば、階層mのワード数は (1/2)mN (10) で与えられ、各ワードから一つ下の階層のワードへの従
属関係として平均10本の探索木のパスを記憶しなけれ
ばならず、したがって、第1階層から第M階層までの全
ワードに対しては、
【0115】
【数5】
【0116】のパスを記憶する必要があることになる。
ここで、Mは探索木の最上位階層である。したがって、
記憶容量としては、Mを十分大きくしたとしても、
【0117】
【数6】
【0118】のパス情報を記憶すればよいことになる。
【0119】なお、この値は認識対象となるワードのセ
ットに大きく依存したものであり、上記(6)式のr
や、上記(9)式のrb によっても大きく変動すること
から、ひとつの目安として示したものである。
【0120】<演算量の見積り>次に、探索木を用いた
認識処理における、演算量の見積りをしておく。前述し
た記憶容量の見積りにおいて想定するような探索木が得
られたとする。つまり、全ワード数をNとし、各階層に
おいて約2分の1のグループに縮退し、かつ各グループ
の平均要素数が10ワードであるとすれば、認識におけ
る初期探索のワード数は (1/2)MN (13) 構造探索のワード数は、
【0121】
【数7】
【0122】で与えられることになる。ただし、Mは認
識時の初期探索を行なう階層、pは第m階層で抽出する
スコアの高いワード数とする。
【0123】参考として、1000ワードと4000ワードの認
識において、 p=10 の場合のスコア計算すべきワード
数、すなわち初期探索のワード数と構造探索のワード数
を見積もったのが次の表1, 表2である。
【0124】
【表1】
【0125】
【表2】
【0126】それぞれ、初期探索の階層Mに対する初期
探索のワード数と構造探索のワード数、およびその合
計、すなわち最終的にスコア計算を行なうワード数を示
している。ここで、M=0は全探索に対応しているもの
とする。構造化による演算量の削減としては、表1に示
す1000ワードの認識の場合、第6階層を初期探索の階層
とすれば、初期探索 250ワード、構造探索 200ワード、
合計 450ワードのスコア計算を行なうことになり、約6
割減になるものと思われる。また、表2に示す4000ワー
ドの場合、第4階層を初期探索の階層とすれば、初期探
索 250ワード、構造探索 400ワード、合計 650ワードの
スコア計算を行なうことになり、約8割減になるものと
思われる。しかも、代表ワードとして既にスコア計算し
たものや、抽出した二つ以上のグループに重複して含ま
れるものなど、同じワードに対するスコア計算の重複は
避けることから、さらに演算量を削減できることが期待
できる。
【0127】なお、このような探索木を用いた認識処理
を行なう場合には、スコア計算と別に、構造探索におい
てスコア計算すべきワードを抽出するための処理などが
加わるが、この演算量は、スコア計算にかかる演算量に
比べれば十分小さなものになると考え、考慮に入れてい
ない。
【0128】<シミュレーション結果>実際に、938
個の単語認識を、全探索と本発明の構造化を用いた探索
とで比較した結果について述べる。ただし、構造化の方
法としては、グループ化を行なうために上記(7)式を
用い、rを2から8まで増加させながら、上記(8)式
でrj を変動させてグループ化を行なった。また、グル
ープへの追加を行なうために上記(9)式においてrb
=20を用いた。そして、M=2階層の構造化を行なっ
た。その結果、初期探索のワード数が150個となる2
階層の探索木で、各階層のあるワードからその下の階層
のワードへのパスとしては、平均12本つながっている
ようなものが得られた。
【0129】まず、全探索による認識では、認識率が9
8.7%、スコア計算を行なったワード数が938個で
あった。これに対して、各階層でスコアの高いワードを
p=8個抽出するような構造化を用いた認識処理を行な
った結果、認識率は96.6%とわずかの劣化しか見せ
ず、スコア計算を行なったワード数は、初期探索に15
0個、構造探索に平均135個、合計285個(平均)
となった。つまり、全探索に比べ、計算量を約7割低減
することが可能となったことがわかる。
【0130】以上示したように、本発明の上述した第1
の実施の形態によれば、認識対象ワードを予め木構造に
構造化しておき、その構造に従って探索することで認識
ワードを制限でき、演算量を大幅に低減することが可能
となる。しかも、新たなワード間の相関値R(Wj
i)の定義と、その相関値に基づく認識ワードの構造
化方法によって、局所的な探索であっても、スコアの高
くなることが期待されるワードは探索範囲に含まれるよ
うになり、最終的に、歪みをほとんど増大させることは
ない。つまり、認識率をほとんど劣化させることはな
い。さらに、余分に必要な記憶容量もワード数に対して
その約10倍程度パス情報を持っておけばよいだけであ
り、比較的小さなものとなる。
【0131】第2の実施の形態 次に、本発明の第2の実施の形態として、本発明をHM
M(隠れマルコフモデル)を用いた音声認識に適用した
場合の例について説明する。
【0132】これは、上述した第1の実施の形態におい
て、相関値を計算するために音声データを用いる必要が
あった点を改良し、音声データを用いずにHMMのパラ
メータから直接計算できるようにしたものである。もち
ろん、上述した実施の形態と同様、歪みの増大による認
識率の低下をほとんど招くことなく、演算量を大幅に低
減することを可能とする。しかも、余分に必要とされる
記憶容量も比較的小さなものとなる。
【0133】以下、HMMを用いた音声認識に関して簡
単に説明し、その音声認識を高速化するための方式とし
て、ワード間の相関値の定義、その相関値を用いた認識
ワードの構造化の方法、およびその構造を用いた認識手
法に関して述べる。
【0134】<HMMを用いた音声認識>認識すべきワ
ードをW1,W2,・・・,Wpとする。今、観測された音声
信号の特徴パラメータがYであったとき、YがワードW
i である確率は、P(Wi|Y) で与えられる。したがっ
て、P(Wi|Y) (i=1,2,・・・,p) の中で最大
の確率を与えるWi をYの属するワード、すなわちワー
ドWi が発声されたものと判定すればよい。ここで、ベ
イズ(Bayes) の定理より、 P(Wi|Y)=P(Wi)P(Y|Wi)/P(Y) (15) が成り立ち、分母のP(Y)はWi には関係ないことか
ら、分子のP(Wi)P(Y|Wi)(i=1,2,・・・,
p) を最大にするWi を求めれば良いことがわかる。
P(Wi) はワードWi が発声される事前確率であり、P
(Y|Wi) はワードWiが発声されたときに、特徴パラ
メータYが得られる確率である。
【0135】HMM法とは、(1)式を最大にするWi
を、確率モデル(HMM)によって推定する手法であ
る。
【0136】HMM(Hidden Markov Model :隠れマル
コフモデル)は、非決定有限状態オートマトンとして定
義され、図12に示すように、いくつかの状態S1,S2,
・・・,SN(状態数N)と、その状態間の遷移を表すパ
スから構成される。そして、各状態の遷移過程はマルコ
フ過程とし、状態が遷移するときに出力シンボルをひと
つ発生するものとする。
【0137】なお、音声認識では、図13に示されるよ
うな自己遷移と次の状態への遷移のみを許すような、初
期状態と最終状態を持つレフトツーライト(left-to-rig
ht)モデルが用いられることが多い。
【0138】HMM法のうち、離散型HMM法では、音
声の特徴ベクトルを例えばベクトル量子化することなど
により得られるシンボル系列Y=y1・y2・・・y
T (Tは観測系列の長さ)が各モデルで生起する確率
(事後確率)を計算し、その確率が最も大きいモデルを
認識結果とすることになる。
【0139】<HMMの定式化>ここで、ワードWに対
応した離散型HMMは次のように定式化される。
【0140】S:状態の有限集合(Nは状態数) S={S1,S2,・・・,SN} (16) V:出力シンボルの集合(Mは出力シンボル数) V={v1,v2,・・・,vM} (17) A:状態遷移確率の集合(aijは状態Siから状態Sj
の遷移確率)
【0141】
【数8】
【0142】B:状態遷移時の出力確率の集合(b
ij(vk) は状態Siから状態Sjへの遷移の際にシンボル
k を出力する確率)
【0143】
【数9】
【0144】π:初期状態確率の集合(πi は初期状態
がSi である確率)
【0145】
【数10】
【0146】このようにして定義されたHMMから、シ
ンボル系列Y=y1・y2・・・yTが次のようにして生
起される。
【0147】手順1.初期状態確率πに従って、初期状
態x0=Siを選ぶ。 手順2.t=0とする。 手順3.状態遷移確率aijに従って、状態xt=Siから
状態xt+1=Sjへの遷移を選択する。 手順4.出力シンボル確率bij(vk) に従って、状態S
iから状態Sjに遷移するときに出力されるシンボルyt
=vkを選択する。 手順5.t<Tならば、t=t+1とし、手順3.へ戻
る。それ以外は終了。
【0148】ただし、状態遷移の時刻をt=0,1,2,
・・・ とし、時刻tにおいて遷移した状態をxt とし
た。
【0149】以上のように、HMMを定義するには、
N,Mの指定、出力シンボルの集合、確率A,B,πが
必要であり、これを簡単に表記するため、 λ={A,B,π} (21) と表すことにする。つまり、ワード一つ一つにモデルが
決定されることになる。
【0150】<HMMの確率計算>音声認識において
は、前に述べたように初期状態と最終状態を一つとする
left-to-right モデルを用いることが多く、以下では初
期状態と最終状態をSi,SNに限定したモデルを考え
る。
【0151】モデルλが、シンボル系列y1・y2・・・
T を出力して、時刻tに状態Siに達する前方予測確
率をαi(t)とすると、上述したモデルのシンボル出力の
定義から、次の漸化式
【0152】
【数11】
【0153】によってαi(t)を計算することができる。
ここで、上式のjに関するサンメーションは、与えられ
たモデルにおいて、状態Sj から状態Si への遷移が許
されている場合のみとられるものとする。
【0154】以上をもとに、モデルλがシンボル系列Y
=y1・y2・・・yT を出力する確率P(Y|λ)は、 P(Y|λ) =αN(T) (24) で求まることになる。そして、HMM法を用いた音声認
識では、音声から生成されたシンボル系列Y=y1・y2
・・・yT に対して、上式から計算される確率P(Y|
λ)を最大にするモデルλが認識結果とされる。
【0155】また、P(Y|λ)を求める別の方法とし
て、ビタビ(Viterbi) アルゴリズムを用いた計算方法と
いうものがある。これを簡単に説明すると、上記(2
3)式のαi(t) の代わりに
【0156】
【数12】
【0157】によって、時刻tに状態Si である確率~
αi(t)を計算する。ここで、上記(25)式のjに関
する{}の最大値とは、与えられたモデルにおいて、状
態Sj から状態Si への遷移が許されているものに関し
てのみ考えるものとする。このような~αi(t)をもと
に、
【0158】
【数13】
【0159】を求めるというものである。
【0160】ここで、上記(25)式によって決まる状
態遷移系列として、最終状態がSNとなるものは唯一に
決まり、これを最適パスと呼ぶ。この最適パスは Viter
biアルゴリズムの上記(25)式の計算において、その
際に遷移してきた前状態を記憶しておくようにし、最終
状態まで計算し終ったら、そこから前状態をたどってい
けば得られる。
【0161】また、log P(Y|λ)を求めるようにすれ
ば、乗算が加算の演算で置き換えられ、計算効率がよく
なる。
【0162】<HMMのパラメータ推定>次に、シンボ
ル系列Y=y1・y2・・・yT に対して、確率P(Y|
λ)を最大にするモデルのパラメータとしての遷移確率
A={αij}、出力確率B={bij(vk)} の推定方法
について述べる。
【0163】なお、最初の推定時における遷移確率{α
ij}、出力確率{bij(vk)} には、所定の初期値が用
いられる。
【0164】まず、モデルの学習では、学習用のシンボ
ル系列Yから、上述した前方予測確率αi(t)が求められ
るとともに、時刻tにおいて状態Si に存在し、以後、
シンボル系列yt+1・yt+2・・・yT を出力する後方予
測確率βi(t)が次式によって求められる。
【0165】手順1.t=Tのとき βi(T)=0 (i=1,2,・・・,N−1) βN(T)=1 (27) 手順2.t=T−1,T−2,・・・,0のとき、
【0166】
【数14】
【0167】ここで、上記(28)式のjに関するサン
メーションは、与えられたモデルにおいて、状態Si
ら状態Sj への遷移が許されている場合のみとられるも
のとする。
【0168】このとき、出力シンボル系列Y=y1・y2
・・・yT に対して、状態Si から状態Sj への遷移が
時刻tに生じる確率をγij(t)と記せば、
【0169】
【数15】
【0170】で与えられることになる。そして、次式に
従ってモデルのパラメータとしての遷移確率aij、出力
確率bij(vk) が更新、すなわち学習される。
【0171】
【数16】
【0172】なお、上式において ^を付したaij、また
はbij(vk) は、更新、すなわち再推定した遷移確率ま
たは出力確率をそれぞれ意味する。また、上式のhに関
するサンメーションは、状態Si から状態Sj への遷移
が許されている場合のみとられる。さらに、t:yt
kに関するサンメーションは、時刻tにおいて、vk
るシンボルyt が生起される場合についてのみとられ
る。
【0173】上式に従って、遷移確率aij、出力確率b
ij(vk) が更新、すなわち再推定されることにより、そ
れぞれは、局所的に最適な値へ収束する。
【0174】なお、上述のようにして遷移確率aij、出
力確率bij(vk) を更新、すなわち再推定する方法は、
Baum-Welchの再推定法 と呼ばれる。
【0175】ここで上記(30)、(31)式で計算される
遷移確率aij、出力確率bij(vk)は、ある学習用のシ
ンボル系列1つに対してだけであり、これにより学習が
行なわれたモデルは、ある1つのシンボル系列を高い確
率で出力するようになる。しかしながら、音声には調音
結合や話者によるばらつきがあり、単一のシンボル系列
のみ高い確率で出力するモデルでは、このばらつきに対
処することができない。
【0176】そこで、いくつかのシンボル系列を高い確
率で出力するように、モデルλの学習を行なう必要があ
る。これには、例えばQ種類のシンボル系列のq番目の
シンボル系列をYq=y1 q・y2 q・・・yT q としたと
き、各シンボル系列Yq (q=1,2,...,Q)が観測される確
率P(Yq|λ) の積が最大になるように、モデルλの学
習を行なえばよい。
【0177】これは、上述したBaum-Welchの再推定法を
多重系列に拡張することにより次のように再帰的に求め
ることができる。すなわち、Yq によるαi(t),βi(t),
γij(t) をそれぞれ αi q(t),βi q(t),γij q(t) とすれ
ば、
【0178】
【数17】
【0179】のように計算される。
【0180】次に、上記(33), (34)式で計算される
遷移確率aij、出力確率bij(vk)は、モデルの学習を
個別に行なっていることに他ならない。過去、HMM法
は、単語認識に適用されるときが多く、従って単語に対
応するモデルの学習を、上述したように個別に行なうだ
けで問題はなかった。
【0181】しかしながら、最近では、意味のある音声
(例えば、単語や文など)の認識を、音韻(音素)に対応す
るモデルを連結したものを用いて行なうのが一般的にな
り、このため、モデルの連結学習を行なう必要が生じて
きた。
【0182】モデルの連結学習では、例えば予め用意し
た単語辞書に登録されている単語に基づき、音韻または
音素モデルどうしを連結し、それを単語モデルとみなし
て、単語の学習用のシンボル系列として用意されたシン
ボル系列Yq に対する学習が行なわれる。
【0183】すなわちち、W個の音韻または音素モデル
の学習を個別に行なった場合において、そのうちのw番
目のモデル(すなわちモデルw)のパラメータ、すなわ
ち遷移確率、出力確率それぞれをaij w、bij w(vk) と
表し、そのモデルwに音韻あるいは音素モデルを連結し
たモデル(すなわち連結モデル)の状態をSm またはS
n で表す。さらに、連結モデルの状態が、Sm からSn
へ遷移する場合において、状態Sm がモデルwに属する
状態であることを(m→n)∈wと表すと、上記式(3
3),(34) を変形した次式に従って、モデルwの遷移
確率aij、出力確率bij(vk) が更新、すなわち再推定
される。
【0184】
【数18】
【0185】ここで、連結モデルがモデルwを複数使用
して構成されている場合、すなわち連結モデルが、例え
ば3状態S1,S2,S3 からなるモデルwを2回使用して
構成されている場合、連結モデルは、S1,S2,S3,S1,
2,S3 の6状態を有することになる。従って、この場
合、モデルwの状態S1,S2,S3 のうちの、例えば先頭
の状態S1 は、連結モデルの状態S1,S2,S3,S1,S2,
3 の先頭の状態、および先頭から4番目の状態と同一
であり、このように連結モデルの複数の状態mがモデル
wの1つの状態Si と同一であるときがある。
【0186】上記(35),(36) 式において、m≡i、
n≡jに関するサンメーション(総和)は、上述したよ
うに、連結モデルの状態Sm またはSn が、モデルwの
状態Si またはSj とそれぞれ同一である場合について
とられる。さらに、m≡iに関するサンメーションは、
連結モデルの状態Sm がモデルwの状態Si と同一であ
る場合についてとられる。
【0187】また、h:(m→h)∈wに関するサンメ
ーションは、連結モデルの状態Smから状態Sh への遷
移が許されている場合に、連結モデルの状態Sm が、モ
デルwに属するときのみとられる。
【0188】さらに、上記(35),(36) 式において、
モデルwの後続にモデルが連結されており、連結モデル
のある状態Sm がモデルwの最終状態(Sm=SN)とな
った場合、状態Sm からの遷移先である状態Sn は、モ
デルwの直後に連結したモデルの初期状態となるものと
する。
【0189】次に、以上説明した離散HMM法を用いて
音声認識が行なわれる場合には、まず学習用に用意され
た学習系列Yを用い、上述した(33),(34)式または
(35),(36)式に従ってモデルの学習、すなわち連結
学習が行なわれ、モデルλの遷移確率aijおよび出力確
率bij(vk) が求められる。以下の説明においては、上
記(35),(36) 式におけるaij w、bij w(vk) は、上
記(33),(34) 式における場合と同様にそれぞれ
ij、bij(vk) と記載する。
【0190】そして、認識時において、音声から、シン
ボル系列Yが観測された場合には、モデルλがそのシン
ボル系列を出力すなわち生起する確率P(Y|λ)が、上
記(23)式に従って計算される。
【0191】以上の処理が、モデルλ以外のモデルに対
しても行なわれ、前述したように、確率P(Y|λ)が最
も大きいモデルが認識結果とされることになる。
【0192】ところで、離散型HMMでは、上述したよ
うに、音声の特徴ベクトルを例えばベクトル量子化処理
することなどにより得られるシンボルが、学習および認
識に用いられる。したがって、シンボルは量子化誤差を
含むので、その結果音声の認識率が劣化する問題があっ
た。
【0193】そこで、離散的な確率分布である、シンボ
ルvk に関する出力確率bij(vk)を連続確率分布に変
更した混合連続HMM法が知られている。
【0194】混合連続HMM法では、HMMが連続確率
密度分布、すなわち連続分布をもち、離散HMM法にお
ける出力確率bij(vk) をL個の連続分布の混合で近似
するようになされている。即ち、モデルλが音声の特徴
ベクトルyを生起する出力確率bij(vk) が、次式によ
って計算される。
【0195】
【数19】
【0196】ただし、cijl は分岐確率(branch proba
bility)で、l(l=1,2,...,L) 番目の出現確率を表
し、bijl(y) は分岐密度(branch density)で、l番
目の確率密度分布を表す。また、これらには、次のよう
な条件が成り立つ。
【0197】
【数20】
【0198】なお、確率密度分布bijl(y) としては、
通常、ガウス分布(正規分布)が仮定される。そこで、
確率密度分布bijl(y) が、その共分散行列Σijl と、
平均値μijl とをパラメータとするn次元正規分布に従
うと仮定すると、l番目の確率密度分布bijl(y) は、
次式で与えられる。
【0199】
【数21】
【0200】ここで、上記(40)式において、右肩の
T,−1は、それぞれ転置、逆行列を表す。また、|Σ
ijl| は共分散行列Σijl の行列式を表す。
【0201】この場合、上述したBaum-Welchの再推定法
によれば、次式に従って、出現確率cijl 、並びに確率
密度分布bijl(y) の共分散行列Σijl および平均値μ
ijlを求める、すなわち再推定することができる。な
お、遷移確率aijは、上述した(35)式、または(33)
式に従って求めることができる。
【0202】
【数22】
【0203】ここで、上式において ^を付したcijl
ijlijl は更新された出現確率、共分散行列、平均値
をそれぞれ意味する。
【0204】また、P(Y,ht=l|λ) は、モデルλ
によって、音声の特徴ベクトルyの系列Y=y1・y2
・・yT が出力される場合において、時刻tに特徴ベク
トルyt がl番目の分布から出力される確率を意味す
る。ht=l は、特徴ベクトルyt がl番目に出力され
ることを示す確率変数である。
【0205】以上のように出力確率bij(y)をL個の連
続分布の混合で近似する混合連続HMM法に基づいて学
習がなされたモデルを用いて音声を認識する場合には、
離散型HMM法における場合と同様に、音声から観測
(抽出)された特徴ベクトル系列をモデルλが出力あるい
は生起する確率P(Y|λ)が上記(23),(24) 式また
は、(25),(26)式によって計算される。
【0206】さらに、この確率Pが、モデルλ以外のモ
デルに対しても行なわれ、前述したように、確率Pを最
も大きくするモデルが認識結果とされる。
【0207】また、上述の推定方法の代わりに、次のよ
うな手法が用いられることもある。訓練サンプル集合
{yq} の各々に対して、ビタビ(Viterbi) アルゴリ
ズムによって最適状態遷移系列を求め、状態Si から状
態Sj への遷移時の出力ベクトル集合{yij}を求め
る。これをクラスタリング手法によってL個のクラスに
分類し、各々のクラスのベクトル集合を標本集団とみな
し、ガウス分布を推定する。分岐確率はクラス内のベク
トル数を全体に対する比によって求める。この操作をパ
ラメータが収束するまで繰り返すというものである。
【0208】次に、上記HMMを用いた場合のワード間
の相関値を説明する。
【0209】<音声認識>上述したようなHMMを用い
た音声認識装置の構成は、前述した図1、あるいは図1
0に示すようなものとなり、構成および作用も同様であ
る。
【0210】ただし、図1の音響分析部12で入力され
た音声信号から認識に必要な特徴量の抽出を行なった
り、得られた特徴量に対し、KL変換や、ニューラルネ
ットワークなどの適当な写像を施すことで、分離度の大
きな特徴量にさらに変換して、認識部13に送信するわ
けであるが、離散HMMを用いる場合には、さらにベク
トル量子化を行なった後、認識部13に送信するように
している。
【0211】また、認識部13では、予め学習用の音声
データを音響分析して得られる特徴量をもとに推定して
おいたモデルのパラメータを用いて、未知音声データに
対する認識処理を行なう。つまり、学習過程として、予
め学習用データから決定されるHMMの遷移確率aij
よび出力確率bij(vk) (ただし連続HMMの場合はb
ij(y) )を求めておき、これをパラメータ記憶部14
に記憶しておく。そして、認識過程では、入力された未
知音声信号を音響分析して得られる特徴量に対し、与え
られた辞書の中の各ワードに対応するモデルそれぞれの
生起確率を求め、その確率(スコア)が最も高いもの、
あるいは上位複数個、を認識結果として選び出すという
ことを行なう。そして、得られた認識結果を出力部15
に送信する。出力部15では、送信されてきた認識結果
を画面に表示したり、音として出力したり、さらには、
その認識結果を用いて、他の装置を動作させたりなどの
指令を行なう。
【0212】以上のような音声認識の処理の中で、認識
部13の確率(スコア)計算は、入力された未知音声信
号に対して、与えられた辞書、すなわち認識対象ワード
の集合の内の全ワードとの間で計算される。小語彙の認
識であれば、その処理量はあまり問題にならない。しか
し、中語彙や大語彙の認識では、非常に重要な問題とな
る。
【0213】これを解決するため、前述したように認識
対象ワードを予め構造化しておき、その構造を用いるこ
とで、スコア計算を行なうワード数を削減することが本
発明の実施の形態における目的であり、これを簡単に示
したのが上記図2である。このように、スコア計算の必
要のないワードを削除することにより、認識部の処理量
すなわち演算量を低減させようとするものでる。
【0214】このような目的にあったワードの分布構造
を決定するためには、ワード間の関係を知るための距離
尺度のようなものが必要となる。
【0215】本発明の上記第1の実施の形態において
は、実音声信号から求まる各モデルの生起確率(スコ
ア)の期待値により、ワード間の相関値を定義した。こ
の定義されたワード間の相関値に基づいて、認識対象ワ
ードを構造化するわけであるが、この方式を用いる場
合、上記(4)式からワード間の距離尺度を計算するた
めに、認識対象ワードに対応した実音声データが必要に
なり、中語彙や大語彙の認識システムを作成する上で
は、これが大きな問題となる。
【0216】そこで、本発明の第2の実施の形態におい
ては、上記(4)式に代わる新たなワード間の距離尺度
を導入するものである。
【0217】<HMMのモデルのパラメータを用いたワ
ード間の相関値>上記HMMの定式化の項目において述
べたように、モデルλ={A,B,π}が与えられたと
き、そのモデルのパラメータに従って、シンボル系列Y
=y1・y2・・・yT を生起することができる。例え
ば、離散HMMを用いた場合、 手順1.初期状態確率πに従って、初期状態x0=Si
選ぶ。 手順2.t=0とする。 手順3.状態遷移確率aijに従って、状態xt=Siから
状態xt+1=Sjへの遷移を選択する。 手順4.出力シンボル確率bij(vk) に従って、状態S
iから状態Sjに遷移するときに出力されるシンボルyt
=vkを選択する。 手順5.t<Tならばt=t+1とし手順3.へ戻る。
それ以外は終了。 のようにして生成できる。
【0218】連続HMMを用いた場合は、上記手順4.
の代わりに、上記(37)式で与えられる出力シンボル
確率bij(y)に従ってシンボルyt を決定すればよい。
ただし、状態遷移の時刻をt=0,1,2,... とし、時刻t
において遷移した状態をxtとする。
【0219】特に、上記図13に示されるようなleft-t
o-right モデルの場合は、初期状態と最終状態をS1,S
N に限定できる。そこで、遷移確率aijに従って、各状
態で自己遷移する回数の期待値を求めることで、状態遷
移系列X=x0,x1,...,xTが一つ決定される。
【0220】ここで、状態Si でn回自己遷移した後、
状態Si に遷移する確率は、 aii nij=aii n(1−aii) (44) で与えられるから、nの期待値は
【0221】
【数23】
【0222】を計算すれば求まる。これを計算すると、 E[n]=aii/(1−aii) (46) が得られる。
【0223】以下これを証明する。先ず、
【0224】
【数24】
【0225】とおく。この(47)式にaiiをかけて、
【0226】
【数25】
【0227】上記(47)式から(48)式を引いて、
【0228】
【数26】
【0229】よって、上記(47)式より、 E[n]=aii/(1−aii) (50) すなわち、上記(46)式が得られる。
【0230】したがって、例えばaii=0.5の場合は
上記E[n]=1、aii=0.8の場合は上記E[n]=4
などが求められることになる。ここで上記(46)式は、
iiが1に近づくと急激に増大するため、E[n]に 0≦E[n]≦3 (51) のような上限下限を設け、例えば、
【0231】
【数27】
【0232】のような近似を行なうことも考えられる。
【0233】以上に基づき、状態Si で自己遷移する回
数の期待値が求まり、それをつなげれば状態遷移系列が
一つ決定される。そして、その状態遷移に従って、出力
確率bij(vk) が最も高いシンボルvk を出力させれ
ば、対応するシンボル系列を得ることが可能となる。
【0234】例えば、 a11=0.5, a12=0.5、 a22=0.8, a23=0.2、 a33=0.3,... (53) のような遷移確率が与えられた場合、上記のようにして
決定される状態遷移系列は、もし上記(52)式を用いる
ならば、 S1,S1,S2,S2,S2,S2,S3,... (54) となる。つまり、最初のS1 は初期状態であり、次のS
1 はa11=0.5から決まる1回の自己遷移によるもの
である。そして、次にS2 に遷移し、a22=0.8より
2 で3回の自己遷移を行なう。その後、S3 に遷移
し、というふうにして、状態遷移系列が決定されたもの
である。
【0235】そして、上記(54)式の状態遷移系列に従
って、 b11(vk),b11(vk),b12(vk),b22(vk),b22(vk),b22(vk),b22(vk),b23(vk),... (55) をそれぞれ最大にするシンボルvk の系列を得ることが
できる。もし、連続HMMを用いる場合には、上記(5
5)式のbij(vk) の代わりに、上記(37)式で与えら
れる出力確率を用いて、 b11(y),b11(y),b12(y),b22(y),b22(y),b22(y),b22(y),b23(y),... (56) をそれぞれ最大にするシンボルyの系列を求めればよ
い。特に、分岐密度bijl(y) が上記(40)式のような
正規分布に従うような場合には、分岐確率cijl の最も
高いlに対する分岐密度bijl(y)の平均値μijl を求め
るシンボルyとすることなどが考えられる。
【0236】以上のようにして、あるワードWj に対応
するモデルλj={Aj,Bjj}からシンボル系列Zi
がひとつ得られることになる。このとき、モデルλi
対するZj の生起確率P(Zj|λi) が上記(23),(2
4)式、または、上記(25),(26)式によって計算され
る。そして、Zj の生成方法を考えると、モデルλj
対する生起確率P(Zj|λj)は非常に高いものとなるこ
とが期待できる。
【0237】ここで、もしHMMを用いることによっ
て、各ワードに対応した良いモデルλi 、すなわち、対
応する音声信号を音響分析して得られるシンボル系列の
生起確率が高くなるようなモデルが得られるならば、上
記のような方法によって、モデルからシンボル系列を生
成した場合、対応するワードを発声した音声信号を音響
分析して得られるシンボル系列と類似した特性を持つこ
とが期待できる。
【0238】すなわち、認識対象ワードWj に対応する
モデルをλj (1<j<p)とした場合、 特性1.モデルλj から生成したシンボル系列Zj に対
して、生起確率P(Zj|λi)の最も高くなるモデルλi
は、λj である。 特性2.ワードWj に対応する実音声信号を音響分析し
て得られるシンボル系列Yj に対し、生起確率P(Yj
λi)が高くなるモデルλi を用いて、λj から上記の方
法で生成したシンボル系列Zj の生起確率P(Zj|λi)
を計算すれば同様に高くなる。 特性3.ワードWj に対応する実音声信号を音響分析し
て得られるシンボル系列Yj に対し、生起確率P(Yj
λi)が低くなるモデルλi を用いて、λj から上記の方
法で生成したシンボル系列Zj の生起確率P(Zj|λi)
を計算すれば同様に低くなる。 のような特性を持つことが期待できる。
【0239】そこで、上記のようにして求まるシンボル
系列を用いることで、上記第1の実施の形態に代わるワ
ード間の相関値を定義することが可能となる。
【0240】各認識対象ワードWj (1<j<p)に対
応したモデルをλj とする。そして、そのモデルから上
記のような方法により生成されるシンボル系列をZj
する。このとき、λi から求まるZj の生起確率を、ワ
ードWj に対するワードWiの距離尺度D(Wj,Wi) と
して定義する。
【0241】 D(Wj,Wi)≡P(Zj|λi) (i=1,2,...,p) (57) ただし、生起確率P(Zj|λi)は
【0242】
【数28】
【0243】のように正規化するものとする。
【0244】そして、この距離尺度D(Wj,Wi) をもと
に、ワード間の相関値を上記第1の実施の形態と同様に
定義する。
【0245】すなわち、ワードW1 に対してワードWi
(i=1,2,...,p) を近い順、すなわち距離尺度D(W1,
i) の大きい順に並べる。同様に、ワードW2,
3,...,Wpに対しても、ワードWi (i=1,2,...,p)
を近い順に並べる。
【0246】そして、その順位、つまりWj に対して近
い順にワードWi を並べたときの順位をワードWj に対
するワードWi の相関値R(Wj,Wi) として定義する。
すなわち、例えば、一番近いものは1、二番目に近いも
のは2、以下同様にして、最も遠いものはpとする。そ
の結果、この相関値は1からpまでの整数値をとること
になり、小さいほど相関が高く、大きいほど相関が低い
と見なすことができるようになる。
【0247】ここで、相関が高い、すなわち相関値R
(Wj,Wi) が小さいとは、ワードWjに対応した未知音
声信号Xj kを音響分析して得られる特徴量Yj kに対して
ワードWi のモデルλi から求まる生起確率P(Yj k
λi) が高くなることが期待できることを意味し、相関
が低い、すなわち相関値R(Wj,Wi) が大きいとは、特
徴量Yj kに対してモデルλi から求まる生起確率P(Yj
k|λi) が低くなることが期待できることを意味する。
【0248】なお、以上の処理をまとめたのが、図14
である。簡単に説明すると、まずステップS141にお
いて、各ワードWj に対応するモデルλj の遷移確率か
ら、状態遷移系列Xj を決定する。そして、それに従っ
て、ステップS142において、出力確率をもとにシン
ボル系列Zj を決定する。次のステップS143におい
て、各Zj に対するモデルλi の生起確率から距離尺度
D(Wj,Wi) を求め、ステップS144に進んで、それ
に基づき、各Wj に対して、Wi (1≦i≦p)を近い
順に順序付ける。そして、その順位をもとに、ステップ
S145において相関値R(Wj,Wi) を計算する。
【0249】ここで、ステップS144の順序付けにお
いて、順位が同じとなるようなものがある場合には、と
もに同じ相関値を設定するものとする。
【0250】また、上記のように、ステップS141に
おいて、上記(46)式、または上記(52)式を用いて状
態遷移系列を決定したり、ステップS142において、
出力確率の最も大きなシンボル系列を求めたりする代わ
りに、乱数を発生させ、遷移確率と出力確率に従って、
状態を遷移させながらシンボル系列を生成する方法も考
えられる。この場合は、モデルλj からいくつものシン
ボル系列を生成することが可能となるので、これを
j 1, Zj 2, Zj 3,...とし、上記(59)式の代わりに、
【0251】
【数29】
【0252】によって、ワードWj に対するワードWi
の距離尺度D(Wj,Wi) を定義することになる。
【0253】以上のようにしてワードの相関値を定義す
ることで、認識対象ワードに対応するモデルだけから、
相関値を計算することが可能となり、認識対象ワードに
対応する実音声信号のデータを必ずしも用意する必要が
なくなる。特に、音韻(音素)モデルを連結することで、
各認識対象ワードに対応するモデルを構成するような場
合で、各音素モデルを学習するのに、認識対象ワードに
対応する実音声信号データを用いないような場合には、
その効果が期待できる。
【0254】<認識対象ワードの構造化>上述したよう
な手法で求められた相関値に基づいて、認識対象ワード
を構造化する方法は、前述した第1の実施の形態と同様
であるため、説明を省略する。
【0255】ただし、前述したスコアS(X,Wi)と
は、音声信号Xを音響分析して得られる特徴量Yのモデ
ルλi に対する生起確率P(Y|λi) のことである。
【0256】また、認識手法、記憶容量の見積り、及び
演算量の見積りについても、前述した第1の実施の形態
と同様であるため、説明を省略する。
【0257】<シミュレーション結果>実際に、326
5個の単語認識を、全探索と本発明の構造化を用いた探
索とで比較した結果について述べる。ただし、構造化の
方法としては、ワード間の距離尺度に上記(57)式を用
いて相関値を計算し、上記認識対象ワードの構造化の項
で述べた構造化の方法を用いた。その結果、初期探索の
ワード数が231個となる4階層の探索木で、各階層の
あるワードからその下の階層のワードへのパスとして
は、平均11本つながっているようなものが得られた。
【0258】この探索木を用いて、ある階層で抽出する
スコアの高いワード数をn=15として認識処理を行な
ってみた。まず、全探索による認識処理の場合、認識率
は90.2%、スコア計算を行なったワード数は326
5個であった。これに対して、上記のような探索木を用
いた認識処理の場合、認識率は89.9%とわずかの劣
化しか見せず、スコア計算を行なったワード数は、初期
探索に231個、構造探索に平均276個、合計508
個(平均)となった。つまり、全探索に比べ、計算量を
約8割低減することが可能となったことがわかる。
【0259】このような本発明の第2の実施の形態によ
れば、前述した本発明の第1の実施の形態と同様に、認
識ワードを制限して演算量を大幅に低減でき、局所的な
探索であってもスコアの高くなることが期待されるワー
ドは探索範囲に含まれるようになり、最終的に歪みをほ
とんど増大させることがなく、認識率の低下を防止でき
る。
【0260】さらに、本発明の第2の実施の形態によれ
ば、音声認識対象ワードに対する確率モデルとしてのH
MM(隠れマルコフモデル)を用意し、このモデルのパ
ラメータとしての上記遷移確率aijおよび出力確率bij
(vk) (連続HMMの場合はbij(y))から、ワード間
の相関値R(Wj,Wi) を計算できるようにしたこと
で、認識辞書に対応する実音声データを大量に必要とす
ることがなくなり、探索木を効率的に求めることが可能
となる。
【0261】なお、本発明は、上述した実施の形態のみ
に限定されるものではなく、例えば、音声認識方法や装
置に適用する他に、音声認識用の辞書の形成方法、音声
認識用の辞書が記録された記録媒体等にも容易に適用で
きる。また、音声認識以外に、図形認識や文字認識等に
本発明を適用することもできる。
【0262】
【発明の効果】本発明によれば、音声認識対象ワードを
予め階層構造あるいは重複を許す木構造に構造化してお
き、その構造に従って探索することで認識ワードを制限
でき、演算量を大幅に低減することが可能となる。しか
も、あらたなワード間の相関値の定義と、その相関値に
基づく認識ワードの構造化方法によって、局所的な探索
であっても、スコアの高くなることが期待されるワード
は探索範囲に含まれるようになり、最終的に、歪みをほ
とんど増大させることはない。すなわち、認識率をほと
んど劣化させることはない。さらに、余分に必要な記憶
容量もワード数に対してその約10倍程度パス情報を持
っておけばよいだけであり、比較的小さなものとなる。
【0263】このような本発明は、音声認識以外に、図
形認識や文字認識等にも適用でき、この場合には、音声
認識対象ワードは一般的にパターン認識対象となり、こ
れらのパターン認識対象を階層構造あるいは重複を許す
木構造に階層化しておくことになる。
【0264】また、音声認識対象ワードあるいはパター
ン認識対象に対する確率モデルとしてのHMM(隠れマ
ルコフモデル)を用意し、このモデルのパラメータから
ワード間の相関値を計算できるようにしたことで、認識
辞書に対応する実音声データのような実データを大量に
必要とすることがなくなり、探索木を効率的に求めるこ
とが可能となる。
【図面の簡単な説明】
【図1】一般的な音声認識のシステムの構成を概略的に
示すブロック図である。
【図2】構造化を用いた認識の概念を説明するためのワ
ード分布を示す図である。
【図3】代表ワードとその属するワードの関係の例を示
す図である。
【図4】認識対象ワードを階層構造に構造化する方法を
説明するためのフローチャートである。
【図5】階層構造に構造化していく過程の概念を説明す
るための図である。
【図6】本発明の構造化によって得られる階層構造及び
探索木の例を示す図である。
【図7】グループ化に関する基本的な方法を説明するた
めのフローチャートである。
【図8】グループ化の方法を改良した方法を説明するた
めのフローチャートである。
【図9】相関の強いワード関係を説明するための図であ
る。
【図10】本発明の実施の形態が適用される音声認識シ
ステムの構成の一例を示すブロック図である。
【図11】本発明に係る実施の形態により階層構造化さ
れた探索木を用いた認識方法を説明するためのフローチ
ャートである。
【図12】隠れマルコフモデル(HMM)の一般的な状
態遷移モデルを示す図である。
【図13】HMMのレフトツーライト(left-to-right
)モデルを示す図である。
【図14】ワード間の相関値の計算過程を説明するため
のフローチャートである。
【符号の説明】
1、101 入力部 2、102 音響分析部 3、103 認識部 4、104 パラメータ記憶部 5、105 出力部 106 探索木記憶部

Claims (20)

    【特許請求の範囲】
  1. 【請求項1】 複数の音声認識対象ワードが与えられ、
    未知の入力音声信号に対して、予め求めておいたパラメ
    ータを用いて、上記音声認識対象ワードにスコア付けを
    行なうことで、対応する音声認識対象ワードを抽出し認
    識する音声認識方法において、 上記各音声認識対象ワード間の相関値を用いて上記各音
    声認識対象ワードを予め階層構造に構造化しておき、こ
    の階層構造に構造化された音声認識対象ワードの辞書を
    用いて、上記未知の入力音声信号に対してスコア計算を
    行なう音声認識対象ワードを限定することを特徴とする
    音声認識方法。
  2. 【請求項2】 上記各音声認識対象ワード間の相関値と
    して、 各認識対象ワードに対応した音声データから求まるスコ
    アの期待値に基づく値をもとにスコアの高い順に全認識
    対象ワードを順序付けたときの順位を用いることを特徴
    とする請求項1記載の音声認識方法。
  3. 【請求項3】 上記階層構造に構造化された音声認識対
    象ワードの辞書を用い、未知音声信号に対する認識処理
    を行なう際に、 上記階層構造のある適当な階層の音声認識対象ワードに
    対するスコア計算と、そこから決定されるスコアの高い
    ワードに属する一つ下の階層のワードに対するスコア計
    算と、さらにそこから決定されるスコアの高いワードに
    属するもう一つ下の階層のワードに対するスコア計算
    と、以下同様に最下位の階層に至るまでワードの抽出と
    スコア計算とを行なっていき、最終的には、それらのス
    コア計算を行なったワードの中から、少なくともスコア
    の最も高いものを選び出すことを特徴とする請求項1記
    載の音声認識方法。
  4. 【請求項4】 上記スコア計算を一旦行なったワードに
    関しては、そのスコアを記憶しておき、以後スコア計算
    が必要な場合には、記憶されたスコアを用いるようにす
    ることで、重複したスコア計算を行なわないようにする
    ことを特徴とする請求項3記載の音声認識方法。
  5. 【請求項5】 上記複数の音声認識対象ワードに対する
    確率モデルを用意し、上記未知の入力音声信号に対し
    て、上記各確率モデルの生起確率を計算し、その生起確
    率に従って、対応する音声認識対象ワードを抽出し認識
    する音声認識方法であって、 上記各音声認識対象ワードに対応する確率モデルの状態
    遷移確率をもとに状態遷移系列を決定し、その状態遷移
    に対応する出力シンボル確率をもとにシンボル系列を決
    定し、得られたシンボル系列の生起確率を上記各音声認
    識対象ワードに対応するモデルに対して計算し、この生
    起確率に基づく音声認識対象ワード間の相関値を用いて
    上記各音声認識対象ワードを階層構造に構造化しておく
    ことを特徴とする請求項3記載の音声認識方法。
  6. 【請求項6】 上記各音声認識対象ワードに対応する上
    記確率モデルの状態遷移確率をもとに状態遷移系列を複
    数決定し、それぞれの状態遷移系列から、その状態遷移
    に対応する出力シンボル確率をもとにシンボル系列を決
    定し、得られた複数のシンボル系列の生起確率を各ワー
    ドに対応するモデルに対して計算し、それらの生起確率
    を各ワードに対応するモデルに対して計算し、それらの
    生起確率の期待値の高い順に全音声認識対象ワードを順
    序付け、その順位をワード間の上記相関値として用いる
    ことを特徴とする請求項5記載の音声認識方法。
  7. 【請求項7】 複数のパターン認識対象が与えられ、未
    知の入力信号に対して、予め求めておいたパラメータを
    用いて、上記パターン認識対象にスコア付けを行なうこ
    とで、対応するパターン認識対象ワードを抽出し認識す
    るパターン認識方法に用いられるパターン認識対象の情
    報を形成する情報形成方法において、 上記各パターン認識対象間の相関値をもとに、相互に相
    関値が小さくなるパターン認識対象どうしをグループ化
    して行き、各グループの代表となるパターン認識対象を
    選び出すことで、代表のパターン認識対象とそれに属す
    るパターン認識対象の集合という関係にグループ化する
    工程と、 上記グループ化の過程で、各グループの代表に選ばれな
    かったパターン認識対象に関しては、さらに、上記相関
    値が小さく、かつ、いずれかのグループの代表となって
    いるパターン認識対象に対して、その代表のパターン認
    識対象のグループにも属するようにする工程と、 上記グループ化と上記グループへの追加を行うことで得
    られた代表のパターン認識対象に対して新たにグループ
    化とグループへの追加を行なう工程とを有し、 これらの工程を任意の回数繰り返すことで、階層構造に
    構造化することを特徴とする情報形成方法。
  8. 【請求項8】 上記相互に相関値が小さくなるパターン
    認識対象をグループ化する際に、その相関値ができるだ
    け小さいものどうしからグループ化を行なっていくこと
    を特徴とする請求項7記載の情報形成方法。
  9. 【請求項9】 上記相関値が小さいかどうかの判定条件
    を、そのグループ化の状況に応じて、各パターン認識対
    象ごとに緩くしたり厳しくしたりすることを特徴とする
    請求項7記載の情報形成方法。
  10. 【請求項10】 上記パターン認識は音声認識であり、
    パターン認識対象は音声認識対象ワードであることを特
    徴とする請求項7記載の情報形成方法。
  11. 【請求項11】 複数の音声認識対象ワードが与えら
    れ、未知の入力音声信号に対して、予め求めておいたパ
    ラメータを用いて、上記音声認識対象ワードにスコア付
    けを行なうことで、対応する音声認識対象ワードを抽出
    し認識する音声認識装置において、 上記各音声認識対象ワード間の相関値を用いて上記各音
    声認識対象ワードを予め階層構造に構造化しておき、こ
    の階層構造に構造化された音声認識対象ワードの辞書を
    用いて、上記未知の入力音声信号に対してスコア計算を
    行なう音声認識対象ワードを限定することを特徴とする
    音声認識装置。
  12. 【請求項12】 上記各音声認識対象ワード間の相関値
    として、 各認識対象ワードに対応した音声データから求まるスコ
    アの期待値に基づく値をもとにスコアの高い順に全認識
    対象ワードを順序付けたときの順位を用いることを特徴
    とする請求項11記載の音声認識装置。
  13. 【請求項13】 上記階層構造に構造化された音声認識
    対象ワードの辞書を用い、未知音声信号に対する認識処
    理を行なう際に、 上記階層構造のある適当な階層の音声認識対象ワードに
    対するスコア計算と、そこから決定されるスコアの高い
    ワードに属する一つ下の階層のワードに対するスコア計
    算と、さらにそこから決定されるスコアの高いワードに
    属するもう一つ下の階層のワードに対するスコア計算
    と、以下同様に最下位の階層に至るまでワードの抽出と
    スコア計算とを行なっていき、最終的には、それらのス
    コア計算を行なったワードの中から、少なくともスコア
    の最も高いものを選び出すことを特徴とする請求項11
    記載の音声認識装置。
  14. 【請求項14】 上記スコア計算を一旦行なったワード
    に関しては、そのスコアを記憶しておき、以後スコア計
    算が必要な場合には、記憶されたスコアを用いるように
    することで、重複したスコア計算を行なわないようにす
    ることを特徴とする請求項13記載の音声認識装置。
  15. 【請求項15】 上記複数の音声認識対象ワードに対す
    る確率モデルを用意し、上記未知の入力音声信号に対し
    て、上記各確率モデルの生起確率を計算し、その生起確
    率に従って、対応する音声認識対象ワードを抽出し認識
    する音声認識装置であって、 上記各音声認識対象ワードに対応する確率モデルの状態
    遷移確率をもとに状態遷移系列を決定し、その状態遷移
    に対応する出力シンボル確率をもとにシンボル系列を決
    定し、得られたシンボル系列の生起確率を上記各音声認
    識対象ワードに対応するモデルに対して計算し、この生
    起確率に基づく音声認識対象ワード間の相関値を用いて
    上記各音声認識対象ワードを階層構造に構造化しておく
    ことを特徴とする請求項13記載の音声認識装置。
  16. 【請求項16】 上記各音声認識対象ワードに対応する
    上記確率モデルの状態遷移確率をもとに状態遷移系列を
    複数決定し、それぞれの状態遷移系列から、その状態遷
    移に対応する出力シンボル確率をもとにシンボル系列を
    決定し、得られた複数のシンボル系列の生起確率を各ワ
    ードに対応するモデルに対して計算し、それらの生起確
    率を各ワードに対応するモデルに対して計算し、それら
    の生起確率の期待値の高い順に全音声認識対象ワードを
    順序付け、その順位をワード間の上記相関値として用い
    ることを特徴とする請求項15記載の音声認識装置。
  17. 【請求項17】 複数のパターン認識対象が与えられ、
    未知の入力信号に対して、予め求めておいたパラメータ
    を用いて、上記パターン認識対象にスコア付けを行なう
    ことで、対応するパターン認識対象ワードを抽出し認識
    するパターン認識方法に用いられるパターン認識対象の
    情報が記録される記録媒体において、 上記各パターン認識対象間の相関値をもとに、相互に相
    関値が小さくなるパターン認識対象どうしをグループ化
    して行き、各グループの代表となるパターン認識対象を
    選び出すことで、代表のパターン認識対象とそれに属す
    るパターン認識対象の集合という関係にグループ化し、 上記グループ化の過程で、各グループの代表に選ばれな
    かったパターン認識対象に関しては、さらに、上記相関
    値が小さく、かつ、いずれかのグループの代表となって
    いるパターン認識対象に対して、その代表のパターン認
    識対象のグループにも属するようにし、 上記グループ化と上記グループへの追加を行うことで得
    られた代表のパターン認識対象に対して新たにグループ
    化とグループへの追加を行ない、 これらの工程を任意の回数繰り返すことで、階層構造に
    構造化されたパターン認識対象の情報が記録されること
    を特徴とする記録媒体。
  18. 【請求項18】 上記相互に相関値が小さくなるパター
    ン認識対象をグループ化する際に、その相関値ができる
    だけ小さいものどうしからグループ化を行なっていくこ
    とを特徴とする請求項17記載の記録媒体。
  19. 【請求項19】 上記相関値が小さいかどうかの判定条
    件を、そのグループ化の状況に応じて、各パターン認識
    対象ごとに緩くしたり厳しくしたりすることを特徴とす
    る請求項17記載の記録媒体。
  20. 【請求項20】 上記パターン認識は音声認識であり、
    パターン認識対象は音声認識対象ワードであることを特
    徴とする請求項17記載の記録媒体。
JP18285195A 1995-07-19 1995-07-19 音声認識方法及び装置 Expired - Fee Related JP3627299B2 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP18285195A JP3627299B2 (ja) 1995-07-19 1995-07-19 音声認識方法及び装置
EP96305260A EP0755046B1 (en) 1995-07-19 1996-07-17 Speech recogniser using a hierarchically structured dictionary
DE69626344T DE69626344T2 (de) 1995-07-19 1996-07-17 Ein hierarchisch strukturiertes Wörterbuch verwendender Spracherkenner
US08/683,488 US5787395A (en) 1995-07-19 1996-07-18 Word and pattern recognition through overlapping hierarchical tree defined by relational features
CN96112292A CN1151573A (zh) 1995-07-19 1996-07-19 声音识别方法,信息形成方法,声音识别装置和记录介质
KR1019960030282A KR100397402B1 (ko) 1995-07-19 1996-07-19 음성인식방법,정보형성방법,음성인식장치및기록매체

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP18285195A JP3627299B2 (ja) 1995-07-19 1995-07-19 音声認識方法及び装置

Publications (2)

Publication Number Publication Date
JPH0934486A true JPH0934486A (ja) 1997-02-07
JP3627299B2 JP3627299B2 (ja) 2005-03-09

Family

ID=16125573

Family Applications (1)

Application Number Title Priority Date Filing Date
JP18285195A Expired - Fee Related JP3627299B2 (ja) 1995-07-19 1995-07-19 音声認識方法及び装置

Country Status (6)

Country Link
US (1) US5787395A (ja)
EP (1) EP0755046B1 (ja)
JP (1) JP3627299B2 (ja)
KR (1) KR100397402B1 (ja)
CN (1) CN1151573A (ja)
DE (1) DE69626344T2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6112173A (en) * 1997-04-01 2000-08-29 Nec Corporation Pattern recognition device using tree structure data
JP2004094257A (ja) * 2002-09-03 2004-03-25 Microsoft Corp 音声処理のためのデシジョン・ツリーの質問を生成するための方法および装置
KR100509797B1 (ko) * 1998-04-29 2005-08-23 마쯔시다덴기산교 가부시키가이샤 결정 트리에 의한 스펠형 문자의 복합 발음 발생과 스코어를위한 장치 및 방법
US7627474B2 (en) 2006-02-09 2009-12-01 Samsung Electronics Co., Ltd. Large-vocabulary speech recognition method, apparatus, and medium based on multilayer central lexicons

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7359720B2 (en) * 1996-09-27 2008-04-15 Openwave Systems Inc. Mobility extended telephone application programming interface and method of use
DE19719381C1 (de) * 1997-05-07 1998-01-22 Siemens Ag Verfahren zur Spracherkennung durch einen Rechner
DE69941499D1 (de) * 1998-10-09 2009-11-12 Sony Corp Vorrichtungen und Verfahren zum Lernen und Anwenden eines Abstand-Transition-Modelles
US20020032564A1 (en) * 2000-04-19 2002-03-14 Farzad Ehsani Phrase-based dialogue modeling with particular application to creating a recognition grammar for a voice-controlled user interface
AU5451800A (en) 1999-05-28 2000-12-18 Sehda, Inc. Phrase-based dialogue modeling with particular application to creating recognition grammars for voice-controlled user interfaces
JP2001075964A (ja) * 1999-08-31 2001-03-23 Sony Corp 情報処理装置および情報処理方法、並びに記録媒体
US6334102B1 (en) * 1999-09-13 2001-12-25 International Business Machines Corp. Method of adding vocabulary to a speech recognition system
EP1143735A1 (en) * 2000-03-01 2001-10-10 Texas Instruments Incorporated Telescopic reconstruction of facial features from a speech pattern
US6614466B2 (en) 2001-02-22 2003-09-02 Texas Instruments Incorporated Telescopic reconstruction of facial features from a speech pattern
US7192283B2 (en) * 2002-04-13 2007-03-20 Paley W Bradford System and method for visual analysis of word frequency and distribution in a text
JP2004191705A (ja) * 2002-12-12 2004-07-08 Renesas Technology Corp 音声認識装置
JP3991914B2 (ja) * 2003-05-08 2007-10-17 日産自動車株式会社 移動体用音声認識装置
DE102004055230B3 (de) * 2004-11-16 2006-07-20 Siemens Ag Verfahren zur Spracherkennung aus einem vorgebbaren Vokabular
US7634406B2 (en) * 2004-12-10 2009-12-15 Microsoft Corporation System and method for identifying semantic intent from acoustic information
WO2007046267A1 (ja) * 2005-10-20 2007-04-26 Nec Corporation 音声判別システム、音声判別方法及び音声判別用プログラム
KR100770896B1 (ko) * 2006-03-07 2007-10-26 삼성전자주식회사 음성 신호에서 음소를 인식하는 방법 및 그 시스템
US8332212B2 (en) * 2008-06-18 2012-12-11 Cogi, Inc. Method and system for efficient pacing of speech for transcription
WO2010061751A1 (ja) * 2008-11-25 2010-06-03 旭化成株式会社 重み係数生成装置、音声認識装置、ナビゲーション装置、車両、重み係数生成方法、及び重み係数生成プログラム
TWI412019B (zh) 2010-12-03 2013-10-11 Ind Tech Res Inst 聲音事件偵測模組及其方法
US8645404B2 (en) * 2011-10-21 2014-02-04 International Business Machines Corporation Memory pattern searching via displaced-read memory addressing
CN108369451B (zh) * 2015-12-18 2021-10-29 索尼公司 信息处理装置、信息处理方法及计算机可读存储介质
JP6618884B2 (ja) * 2016-11-17 2019-12-11 株式会社東芝 認識装置、認識方法およびプログラム
US10832658B2 (en) * 2017-11-15 2020-11-10 International Business Machines Corporation Quantized dialog language model for dialog systems
KR20190106902A (ko) * 2019-08-29 2019-09-18 엘지전자 주식회사 사운드 분석 방법 및 장치
US11875780B2 (en) * 2021-02-16 2024-01-16 Vocollect, Inc. Voice recognition performance constellation graph

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6173199A (ja) * 1984-09-18 1986-04-15 株式会社リコー 大語彙単語音声予備選択方式
JPH0252278A (ja) * 1988-08-17 1990-02-21 Hitachi Medical Corp シンチレーシヨンカメラ
JPH02250188A (ja) * 1989-03-24 1990-10-05 Nippon I B M Kk マルチテンプレートを用いるdpマツチング方法及び装置
JPH07146852A (ja) * 1993-11-24 1995-06-06 Ricoh Co Ltd ニューラルネットワークの構造簡略化方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
USRE31188E (en) * 1978-10-31 1983-03-22 Bell Telephone Laboratories, Incorporated Multiple template speech recognition system
US4837831A (en) * 1986-10-15 1989-06-06 Dragon Systems, Inc. Method for creating and using multiple-word sound models in speech recognition
US5033087A (en) * 1989-03-14 1991-07-16 International Business Machines Corp. Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system
US5546499A (en) * 1994-05-27 1996-08-13 Kurzweil Applied Intelligence, Inc. Speech recognition system utilizing pre-calculated similarity measurements
US5537488A (en) * 1993-09-16 1996-07-16 Massachusetts Institute Of Technology Pattern recognition system with statistical classification
US5621859A (en) * 1994-01-19 1997-04-15 Bbn Corporation Single tree method for grammar directed, very large vocabulary speech recognizer

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6173199A (ja) * 1984-09-18 1986-04-15 株式会社リコー 大語彙単語音声予備選択方式
JPH0252278A (ja) * 1988-08-17 1990-02-21 Hitachi Medical Corp シンチレーシヨンカメラ
JPH02250188A (ja) * 1989-03-24 1990-10-05 Nippon I B M Kk マルチテンプレートを用いるdpマツチング方法及び装置
JPH07146852A (ja) * 1993-11-24 1995-06-06 Ricoh Co Ltd ニューラルネットワークの構造簡略化方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6112173A (en) * 1997-04-01 2000-08-29 Nec Corporation Pattern recognition device using tree structure data
KR100509797B1 (ko) * 1998-04-29 2005-08-23 마쯔시다덴기산교 가부시키가이샤 결정 트리에 의한 스펠형 문자의 복합 발음 발생과 스코어를위한 장치 및 방법
JP2004094257A (ja) * 2002-09-03 2004-03-25 Microsoft Corp 音声処理のためのデシジョン・ツリーの質問を生成するための方法および装置
JP4499389B2 (ja) * 2002-09-03 2010-07-07 マイクロソフト コーポレーション 音声処理のためのデシジョン・ツリーの質問を生成するための方法および装置
US7788096B2 (en) 2002-09-03 2010-08-31 Microsoft Corporation Method and apparatus for generating decision tree questions for speech processing
US7627474B2 (en) 2006-02-09 2009-12-01 Samsung Electronics Co., Ltd. Large-vocabulary speech recognition method, apparatus, and medium based on multilayer central lexicons

Also Published As

Publication number Publication date
DE69626344T2 (de) 2003-12-04
KR980011007A (ko) 1998-04-30
US5787395A (en) 1998-07-28
EP0755046A3 (en) 1998-04-22
CN1151573A (zh) 1997-06-11
DE69626344D1 (de) 2003-04-03
JP3627299B2 (ja) 2005-03-09
KR100397402B1 (ko) 2003-12-24
EP0755046B1 (en) 2003-02-26
EP0755046A2 (en) 1997-01-22

Similar Documents

Publication Publication Date Title
JPH0934486A (ja) 音声認識方法、情報形成方法、音声認識装置および記録媒体
US5956679A (en) Speech processing apparatus and method using a noise-adaptive PMC model
KR100612840B1 (ko) 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치
JP2871561B2 (ja) 不特定話者モデル生成装置及び音声認識装置
JP3933750B2 (ja) 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置
JP2795058B2 (ja) 時系列信号処理装置
KR100924399B1 (ko) 음성 인식 장치 및 음성 인식 방법
JP6506074B2 (ja) 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法及びプログラム
JP5294086B2 (ja) 重み係数学習システム及び音声認識システム
JPWO2017135148A1 (ja) 音声認識装置、音響モデル学習装置、音声認識方法、音響モデル学習方法及びプログラム
JP2751856B2 (ja) 木構造を用いたパターン適応化方式
JPH1185186A (ja) 不特定話者音響モデル生成装置及び音声認識装置
JP4964194B2 (ja) 音声認識モデル作成装置とその方法、音声認識装置とその方法、プログラムとその記録媒体
Benkhellat et al. Genetic algorithms in speech recognition systems
JP3589044B2 (ja) 話者適応化装置
Karanasou et al. I-vectors and structured neural networks for rapid adaptation of acoustic models
JP2000075886A (ja) 統計的言語モデル生成装置及び音声認識装置
US5774848A (en) Reference pattern training system and speech recognition system using the same
JP5161174B2 (ja) 経路探索装置、音声認識装置、これらの方法及びプログラム
JP2888781B2 (ja) 話者適応化装置及び音声認識装置
JPH10254477A (ja) 音素境界検出装置及び音声認識装置
JP2005321660A (ja) 統計モデル作成方法、その装置、パターン認識方法、その装置、これらのプログラム、その記録媒体
JP2008197463A (ja) 音声認識装置及び音声認識方法
JP4678464B2 (ja) 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
CN117059112A (zh) 语音识别方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040329

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040601

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040802

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20041116

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20041129

LAPS Cancellation because of no payment of annual fees