JPH09244686A

JPH09244686A - 情報処理方法及び装置

Info

Publication number: JPH09244686A
Application number: JP9026970A
Authority: JP
Inventors: Tsuirukeruuhankotsuku Eri; ツィルケル−ハンコックエリ; Arekusandaa Keiraa Robaato; アレクサンダーケイラーロバート
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1996-02-09
Filing date: 1997-02-10
Publication date: 1997-09-19
Also published as: US7062435B2; DE69736751D1; US20020032566A1; EP0789349A2; HK1002468A1; EP0789349B1; US5960395A; DE69714880T2; EP0789349A3; DE69714880D1

Abstract

(57)【要約】【課題】連続音声コマンドによって電話サービスにアク
セスすることを可能とし、電話システムの操作性を向上
する。【解決手段】ローカル交換機２７３が複数の電話機２７
１やモデム２７２と接続される。ローカル交換機は複数
の電話線２７５を介して公衆交換機２７７に接続され
る。ローカル交換機２７３は、電話機２７１やモデム２
７２より入力される音声コマンドを受信する音声認識ユ
ーザインターフェース３０３を有する。これは、ローカ
ル交換機２７３によって提供される電話サービスを制御
する。制御され得る電話サービスは、他ユーザへのコー
ル、他ユーザへの呼の転送、現在のコールの保留、電話
会議の開始と制御、メールボックス機能の制御等であ
る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明はパターンマッチング
のための情報処理方法及び装置に関する。本発明は特
に、ダイナミックパッチング技術を実施するための方法
に関するが、これに限定されるものではない。実施形態
においては、ダイナミックプログラミングマッチング技
術が音声認識システムに採用されている。

【０００２】また、本発明は、電話の機能を制御するた
めの情報処理方法及び装置に関する。本発明は特に、音
声コマンドによる電話サービスの起動と制御に関する
が、これに限られるものではない。

【０００３】

【従来の技術】音声認識は未知の発声音声を認識する処
理である。現在、数種類の異なるタイプの有用な音声認
識システムが存在し、これらは数種類の方法で分類され
る。例えば、あるシステムは話者依存型であり、他のも
のは話者非依存型である。また、あるシステムは大量の
語彙（１００００ワード以上）に関して動作し、他のも
のは限られた量の語彙（１０００ワード以下）に関して
動作する。幾つかのシステムは分離ワード（単語）のみ
を認識し得るものであり、他のものは一連の連続単語を
含むフレーズを認識しうる。

【０００４】限定語彙のシステムでは、未知の発声音声
の特徴とデータベースに格納されている既知のワードの
特徴とを比較することで音声認識を遂行する。既知のワ
ードの特徴は、一つもしくはそれ以上の既知ワードのサ
ンプルを用いて標準パターンを生成する学習セッション
において決定される。

【０００５】未知の発声音声を認識するために、音声認
識装置は、発声音声からパターン（或いは特徴）を抽出
し、それをデータベースに格納された各標準パターンと
比較する。スコア付けの技術は、各標準パターン或いは
それらの組み合わせが、入力された発声音声から抽出さ
れたパターンにどれだけ良くマッチングするかを示す尺
度を提供するのに用いられる。こうして、未知の発声音
声は、この発声音声に最も良くマッチする標準パターン
に関連付けられたワードとして認識される。

【０００６】典型的には、スコア付けはダイナミックプ
ログラミング技術を用いて達成される。このダイナミッ
クプログラミング技術によれば、局所的に一つのパター
ンの時間軸の伸長をパターン対の間で最適なマッチング
が得られるまで行うことで、各標準パターンと未知発声
音声から抽出されたパターンとの間の最適時間における
関連付けを提供する。最良のスコアを有する標準パター
ンもしくはそのシーケンスは、入力された発声音声に最
も良く対応するワードもしくはワード列を特定すること
になる。

【０００７】また、現代の通信システムにおいて、ユー
ザには大量の電話サービスが提供されている。例えば、
ユーザは、現在処理中のコール（呼）を保留にしたり、
コールを他のユーザへ転送したり、複数の他のユーザと
電話会議を行ったりする機能を利用できる。加えて、多
くのシステムは、コールに応答することができない場合
に、各ユーザのためのメッセージを格納できる。これら
の電話サービスに対処するために、電話機製造者は、電
話機のキーパッドにファンクションキーを追加し、結果
的に電話機のサイズや操作の煩雑さが増した。電話サー
ビスにアクセスするために、ユーザは複数のキーを順番
にあるいは同時に押さなければならない。

【０００８】

【発明が解決しようとする課題】しかしながら、ダイナ
ミックプログラミングマッチング技術は、比較的計算コ
ストが高く、メモリ消費量が多い。これは、そのマッチ
ング技術が、入力発声音声と各標準モデルとの間の多く
のマッチング候補について処理を行わなければならない
からである。

【０００９】ＵＳＰ4,592,086（出願人、日本電気株式
会社）は、ダイナミックプログラミングマッチングを用
いた接続的数値音声認識システムを開示する。ＵＳＰ4,
592,086は、ダイナミックプログラミングパスの終点に
ある標準モデルのパターンが逆方向の順序で処理される
場合、マッチングプロセスに要求されるメモリの量を減
らすことができることを開示している。

【００１０】また、上述ような電話サービスへのアクセ
スを可能とした電話機の有する問題点は、ユーザが良く
使用する電話サービスに関連するキーコンビネーション
については慣れ親しむが、他のサービスを木津するため
に要求されるキーコンビネーションについてはそうはな
らないということである。従って、実際のところ、ユー
ザは、彼にとって有用な電話システムの能力を十分に活
用していない。

【００１１】最近、Wildfire Communications Inc. に
よって提案されたシステムは、既存の電話システムが有
するこれらの問題の多くを解決する。特に、そのシステ
ムは、ユーザが電話機能に音声コマンドを用いてアクセ
スすることを可能とする音声認識ユーザインターフェー
スを有する。しかし、このシステムは単一コマンドによ
るアクセスであり、ユーザは他のユーザの識別情報に加
えて、幾つかのプリセットされたコマンドを入力しなけ
ればならないという問題がある。これは、対話的な処理
においては、骨の折れることであると共に時間的浪費を
伴うものである。

【００１２】従って、本発明は、ダイナミックプログラ
ミングプロセスを適用したパターンマッチングにおい
て、その処理量及びメモリ消費量を低減する情報処理方
法及び装置を提供することを目的とする。

【００１３】また、本発明の他の目的は、連続音声コマ
ンドによって電話サービスにアクセスすることを可能と
し、操作性を向上した情報処理方法及び装置を提供する
ことを目的とする。

【００１４】

【課題を解決するための手段】本発明の一つの態様によ
れば、モデルのアクティブパターンが逆シーケンス方向
に処理され、最終アクティブポインタがパターンに対す
る要求された処理を制御する、ダイナミックプログラミ
ングマッチングテクニックを用いるパターンマッチング
方法及び装置が提供される。

【００１５】本発明の一態様の情報処理方法は、入力信
号を表す入力パターンシーケンスと複数の格納された標
準パターンシーケンスとの間のダイナミックプログラミ
ングマッチング処理を実行する方法であって、該標準パ
ターンシーケンスは標準信号を表し、該方法は少なくと
も標準信号の幾つかに関連して各入力パターンを順次処
理するものであり、（１）処理中の現入力パターンに対
するダイナミックプログラミングパスの終点における標
準信号の標準パターンをアクティブパターンとして定義
し、該現入力パターンに関するアクティブパターンを現
アクティブリストに登録し、（２）各アクティブパター
ンに対して、当該アクティブパターンに対応して設けら
れた格納部に、前記現入力パターンに対する当該アクテ
ィブパターンで終わるダイナミックプログラミングパス
のスコアを表す累積値を格納し、（３）現標準信号の各
アクティブパターンを逆方向順に処理することによっ
て、ダイナミックプログラミングパスに課された制限に
基づいて、前記累積値を更新するとともに前記ダイナミ
ックプログラミングパスを伝搬させるために、（Ａ）前
記現入力パターンを用いて、処理中の現アクティブパタ
ーンに関連する格納部に格納された累積値を更新し、
（Ｂ）前記現アクティブパターンに関連するダイナミッ
クプログラミングパスを伝搬させ、もしそれがリストに
無ければ、次の入力パターンのためのダイナミックプロ
グラミングパスの終点となる標準信号の各標準パターン
を新規アクティブリストに登録し、そして、現在の標準
信号の各ダイナミックプログラミングパスの伝搬が現標
準信号に関連するポインタを用いて制御され、該ポイン
タは、前回のアクティブパターンの完了の後に、前記新
規アクティブリストにリストされた現標準信号のパター
ンのシーケンスにおける最も手前の標準パターンを特定
し、これによって、現標準信号の内のどの標準パターン
が先行するアクティブパターンを処理した結果として新
規アクティブリストに登録されたかを検索する必要なし
に各ダイナミックプログラミングパスの伝搬が達成され
る。また、現入力パターンの処理は、次の入力パターン
が処理のための準備ができる前に完了する。また、各標
準信号は、それに関連する現アクティブリストと新規ア
クティブリストを有する。

【００１６】また、好ましい態様では、パターンマッチ
ング方法は音声認識システムに用いられる。

【００１７】また、本発明の別の態様によれば、既存の
標準モデルを新規のユーザに対応させる得る方法及び装
置が提供される。また、その標準モデルには、統計的な
代替技術が適用可能である。

【００１８】更に本発明の他の態様によれば、パターン
マッチングシステムで用いられる既存の標準モデルを更
新する方法が提供される。ここで、該標準モデルの各々
は標準パターンシーケンスを有し、該方法は、（ａ）内
容が既知である複数の入力信号を入力し、（ｂ）入力パ
ターンを表すシーケンスを生成するために入力信号の各
々を処理する処理し、（ｃ）各入力信号に対して、前記
入力パターンを表すシーケンスと、当該入力信号中に存
在することがわかっている信号の既存の標準モデルの標
準パターンシーケンスに関連付けを行い、（ｄ）１つま
たはそれ以上の入力信号の複数の入力パターンに関連付
けられた各標準パターンについて、（ｉ）関連付けれた
入力信号の入力パターンを結合する工程と、（ii）当該
標準パターンを前記工程（ｉ）において結合された入力
パターンで置き換える工程とを備える。

【００１９】また、本発明の別の態様によれば、電話シ
ステムを制御する制御システムが提供される。ここで、
該制御システムは、前記電話システムを制御するための
音声コマンドの入力を可能とする音声認識ユーザインタ
ーフェースと、前記音声認識ユーザインターフェースに
応じて、入力音声コマンドに従って前記電話システムを
制御する制御手段とを備え、前記音声認識ユーザインタ
ーフェースは連続的な音声コマンドを認識可能に適応さ
せられ、該音声コマンドは電話コマンドと他のユーザを
識別する識別情報を有し、その認識は、音声コマンドと
格納された言語モデルとを比較することによって行なわ
れる。また、好ましくは、格納された言語モデルはユー
ザに適応可能となっている。

【００２０】更に、本発明の他の態様によれば、電話シ
ステムが提供される。ここで、該電話システムは、シス
テムによって提供される電話サービスを制御するための
音声コマンドの入力を可能とする音声認識ユーザインタ
ーフェースと、前記言語認識インターフェースに応じ
て、音声コマンドに対応する機能を実行する実行手段と
を備え、前記システムの各ユーザは電話番号及び関連付
けられた識別情報によって識別され、前記実行手段は、
ユーザが前記音声認識ユーザインターフェースを介して
別のユーザの識別情報のみを入力した場合に、どの電話
サービスを欲しているかを予測する。

【００２１】また、本発明の他の態様によれば、電話シ
ステムで用いるメールボックス装置が提供される。ここ
で、メールボックス装置は、メールボックス機能を制御
するためのユーザによる音声コマンドの入力を可能とす
る音声認識ユーザインターフェースと、前記インターフ
ェースよりの認識結果出力に応じて、前記入力された音
声コマンドに従って前記メールボックス機能を制御する
制御手段と、ユーザがコールに応答できない場合に、発
呼者によって残されたメッセージを格納する格納手段と
を備え、前記メールボックスに格納された各メッセージ
は、当該メッセージを残した発呼者の電話番号が関連付
けられ、これによって、ユーザは、音声認識ユーザイン
ターフェースを介して、前記メールボックス機能に特定
の発呼者からのメッセージを読ませ得る。

【００２２】更に他の態様によれば、上記本発明の態様
に従った機能を実行する方法が提供される。

【００２３】

【発明の実施の形態】以下、添付の図面を参照して本発
明の一実施形態を説明する。

【００２４】本発明の実施形態はコンピュータのハード
ウェアで実施され得るが、以下に説明する実施形態は、
例えばパーソナルコンピュータ、ワークステーション、
複写機、ファクシミリ等の装置の処理ハードウェアとと
もに動作するソフトウェアにおいても用いられ得るもの
である。

【００２５】図１は、本発明の一実施形態を処理するよ
うに構成されたパーソナルコンピュータ（ＰＣ）１を示
す。キーボード３、ポインティングデバイス５、マイク
ロフォン７および電話線９は、インタフェース１１を介
して接続される。キーボード３およびポインティングデ
バイス５によって、ユーザはシステムを制御できる。マ
イクロフォン７は、ユーザの音響的音声信号をそれに相
当する電気信号に変換し、この電気信号をＰＣ１に処理
のために供給する。本実施形態において、処理されるべ
き入力音声の始点および終点は、入力発声音が継続され
ている間キーボード３上のスペースバーを押すことによ
って認識される。このような方法で、システムは認識さ
れるべき入力発声音を処理する。内蔵モデムおよび音声
受信回路（図示されていない）は電話線９に接続され、
ＰＣ１は、例えば遠隔地のコンピュータまたはユーザと
通信することができる。

【００２６】本発明で規定するようにＰＣ１を動作させ
るためのプログラム命令は、既存のＰＣで用いるために
磁気ディスク１３のような記憶装置上に供給されてもよ
いし、または電話線９を介してリモートコンピュータと
通信する内蔵モデムによって供給されてもよい。

【００２７】本実施形態の限定された語彙による連続音
声認識システムの処理を、図２を参照して説明する。例
えば、マイクロフォン７からの入力音声を示す電気信号
は、プリプロセッサ（PREPROCESSOR）１５に入力され
る。プリプロセッサ１５は、入力音声信号をパラメータ
フレームのシーケンスに変換する。ここで、各パラメー
タフレームは、入力音声信号に対応する時間フレームを
示すものである。次に、パラメータフレームのシーケン
スは、認識ブロック（RECOGNITION）１７に供給され
る。認識ブロック１７において、入力されたパラメータ
フレームのシーケンスを標準モデル即ちワードモデル
（WORD MODELS）１９と比較することによって、入力音
声が認識される。標準モデル、即ちワードモデル１９の
各モデルは、認識されるべき入力音声と同様の種類のパ
ラメータで表されるパラメータフレームのシーケンスで
構成されている。

【００２８】言語モデル（LANGUAGE MODEL）２１および
ノイズモデル（NOISE MODEL）２３も認識ブロック１７
に対する入力として供給され、認識プロセスにおいて用
いられる。本実施形態において、ノイズモデルは沈黙ま
たはバックグラウンドのノイズを示し、認識されるべき
入力音声信号のパラメータフレームと同様のタイプの１
つのパラメータフレームから構成される。言語モデル２
１が用いられ、システムに認知されたワードのシーケン
スに適応させるように、認識ブロック１７から出力され
たワードの取り得るシーケンスを制限する。認識ブロッ
ク１７から出力されたワードシーケンスはコピーされ、
例えばワードプロセッシングパッケージ等で用いられ
る。または、そのワードシーケンスは、オペレータコマ
ンドとして用いられ、ＰＣ１の動作を開始したり、中止
させたりまたは修正したりする。

【００２９】以下、上記の装置に関するより詳細な説明
を行う。

【００３０】＜プリプロセッサ＞プリプロセッサ１５に
ついて図３〜図１０を参照して説明する。

【００３１】プリプロセッサ１５の機能は、必要な情報
を音声から抽出することにより処理されるべきデータを
削減することである。音声分析の技術分野において、音
声を前処理する方法は多数知られており、以下に説明す
る方法は、一実施形態として示されているものである。
よって、以下に説明するような方法に限定されると解釈
されるべきではない。本実施形態において、プリプロセ
ッサ１５は、「フォルマント（formant）」関連情報を
抽出するように設計されている。フォルマントとは、ユ
ーザの声道の共振周波数として定義され、声道の変化に
したがって変化する。

【００３２】図３は、入力音声信号に対して行われる前
処理を示すブロック図である。マイクロフォン７または
電話線９からの入力音声Ｓ（ｔ）は、フィルタブロック
（FILTER）６１に供給され、入力音声信号内のあまり重
要でない情報を含む周波数を除去する。音声信号の中
で、もっとも重要な情報は、４ＫＨｚ以下の周波数に含
まれる。したがって、フィルタブロック６１は、４ＫＨ
ｚを上回るすべての周波数を除去する。その後、濾過音
声信号は、ＡＤコンバータ（ＡＤＣ）６３によって、デ
ィジタルサンプルに変換される。ナイキストサンプリン
グ基準にしたがって、ＡＤＣ６３は、８０００回／秒の
レートで濾過信号をサンプリングする。本実施形態にお
いて、全入力発声音声はディジタルサンプルに変換さ
れ、音声信号を処理するための次のステップの前に、バ
ッファ（図示されていない）に記憶される。

【００３３】入力音声が抽出された後、入力音声は、分
割ブロック（DIVISION INTO FLAMES）６５で互いに一部
が重なり合う等しい長さのフレームに分割される。入力
音声をフレームに分割する理由をより詳細に説明する。
上記のとおり、連続的に音声が発せられる間、フォルマ
ント関連情報は連続的に変化し、その変化の割合は、生
理学的抑制によって制限される音声発声器官の動作の割
合に直接的に関連する。したがって、変化するフォルマ
ント周波数を追跡するためには、音声信号は短時間の周
期または短いフレームで分析されなければならない。こ
の方法は、音声分析の技術分野において、「短時間」音
声分析として知られている。短時間分析を行う際、考慮
しなければならない点が２つある。すなわち、（ｉ）ど
のくらいの速度で、時間フレームが音声信号から抽出さ
れなければならないか、（ｉｉ）どのくらいの大きさの
時間フレームが用いられなければならないか、という２
点である。

【００３４】第１の考慮に関しては、音声発声器官の動
作速度に依存する。すなわち、重要なイベントを見逃さ
ないことを保証するとともに、適当な連続性を保証する
ようように、フレームは十分に近寄っている必要があ
る。本実施形態において、１つのフレームは１０ｍｓｅ
ｃに１回の割合で抽出される。第２の考慮に関しては、
フレーム間の音声信号の特性が一定になるような十分に
短い時間フレームと、フォルマントを区別するのに十分
な周波数を提供するのに十分に長い時間フレームとの間
の妥協しうる点で決定される。本実施形態において、
フレームの長さは２０ｍｓｅｃであり、上記サンプリン
グ速度で、１つのフレームにつき１６０個のサンプルに
相当する。

【００３５】これらのフレームを音声サンプルから直接
抽出することによって発生させる場合、かなりの周波数
のひずみが生じる。したがって、このようなひずみを低
減するため、スムーズウィンドウ機能を用いるべきであ
る。ハミング（Hamming）、ハニング（Hanning）、ブラ
ックマン（Blackman）、バートレット（Bartlett）およ
びカイザー（Kaiser）等のようなウィンドウは多数存在
し、何れも適用可能である。これらすべてのウィンドウ
は、音声分析の当業者に知られている。本実施形態にお
いて、ハミングウィンドウが用いられ、これは以下の等
式によって表される。

【００３６】

【数１】

【００３７】ここで、Nsはウィンドウ内のサンプルの
数、すなわち、１６０個のサンプルを示す。

【００３８】図４は、本実施形態において行われる短時
間分析処理を詳細に示す図である。フレーム１（Flame
1）、すなわち、時刻ａと時刻ｂとの間の音声信号に、
上記の式（１）で求められるウィンドウ関数が乗算され
る。さらに、選択されたフレームの速度およびフレーム
の長さに従って、次のフレームであるフレーム２は、フ
レーム１の中間、すなわち時刻ｃから始まる。

【００３９】入力音声信号のフレームがいったん抽出さ
れると、ブロック６７（ＤＦＴ６７）においてフレーム
の離散フーリエ変換（ＤＦＴ）の振幅が計算される。す
なわち、｜Sk(f)｜が計算される。ここで、ｆは離散周
波数変数を示す。このプリプロセッサの多くの態様は、
人間の聴覚システムの動作をシミュレートするために設
計されているので、振幅情報のみが必要であり、入力音
声信号の位相に対しては比較的敏感でない。図５は、１
６０個のサンプル、すなわちｒ＝０，１，．．．１５９
から構成される１つのフレームSk(r)の典型的な音声信
号を示す。高速フーリエ変換（ＦＦＴ）アルゴリズムを
ＤＦＴの計算で有効に用いるため、フレームSk(r)内の
サンプルの数を２のべき乗まで増加させる必要がある。
これを達成する方法の１つとして、１６０個のサンプル
の後に９６個の０を追加し、２５６個のサンプルを得る
ことが挙げられる。この技術は「０の充填」として知ら
れ、音声分析の分野において公知であるので、これ以上
の説明はしない。

【００４０】Sk(r)のＤＦＴをコンピュータで演算する
場合、計算処理のために、スペクトルの第１の１２８個
のサンプルだけが必要である。なぜならば、音声は実際
の信号であり、後半の１２８個のサンプルは前半の１２
８個のサンプルの鏡像だからである。図６は、図５に示
されるフレームSk(r)内の音声信号のＤＦＴ｜ Sk(f)｜
の振幅の最初の１２８個のサンプルを示し、最終のサン
プルはサンプリング周波数の半分の周波数、すなわち、
４ＫＨｚの周波数で発生するものとなる。

【００４１】上記のとおり、プリプロセッサ１５の目的
は、データレートを低減し、入力音声信号の特定成分を
強調することである。１つのフレームにつき１２８個の
サンプルしか存在しないので、ＤＦＴによるデータレー
トの低減はわずかである。さらにデータレートを低減す
る方法の１つとして、スペクトルを等しい周波数帯に分
割し、各周波数帯内のサンプルを平均化することが挙げ
られる。すなわち、図６に示されるサンプルをフィルタ
バンクに通過させることである。

【００４２】人間の聴覚システムに関する研究によれ
ば、耳の周波数分解能が周波数が増加するとともに減少
することが示されている。従って、高周波数領域と比較
して低周波数領域の中に多くの周波数帯を有するフィル
タバンク、すなわち対数スペースフィルタバンクは、直
線スペースフィルタバンクよりも好ましい。なぜなら、
対数スペースフィルタバンクの方が知覚的に重要な情報
をより多く保持することができるからである。

【００４３】本実施形態において、４０個の周波数帯を
有するメルスペースフィルタバンク（MEL FILTER BAN
K）６９が用いられる。メルスケールは音声分析の分野
で公知であり、音声の知覚周波数を線形スケール上にマ
ップしようとする対数スケールである。図７は、メルス
ペースフィルタバンク６９の出力｜S~k(f')｜を示し、
図６に示されるサンプルがバンク６９を通過したときの
出力を示す。振幅スペクトルの結果エンベロープ１００
は、フィルタバンク６９の平均化効果のためにかなりな
めらかであるが、フィルタバンクの対数スペースのため
に低周波数帯ではなめらかではない。

【００４４】次に、フォルマント関連情報が、図３のブ
ロック７１、７３および７５を用いて、下記のプロセス
によって音声から抽出される。

【００４５】励起信号E(t)およびフィルタV(t)の項を用
いて、ユーザの音声信号S(t)をモデルにすることができ
る。ここで、励起信号E(t)は声道に入る空気流を示し、
フィルタV(t)は声道の濾過効果を示す。結果的に、音声
信号の周波数スペクトル｜S(f)｜の振幅は、励起信号の
周波数スペクトル｜E(f)｜の振幅と声道フィルタのスペ
クトル｜V(f)｜の振幅を乗算することによって求められ
る。すなわち、以下の（２）式によって求められる。

【００４６】

【数２】

【００４７】ケプストラム法（cepstral method）とし
て知られる方法、すなわち、音域情報を入力音声から抽
出する方法の一つを以下に示す。この方法は、音声振幅
応答｜S(f)｜の対数を取ることによって、音域フィルタ
振幅応答｜V(f)｜を励起振幅応答｜E(f)｜から分離する
ことを含む。この結果、励起および声道フィルタの特性
の和で表わされるようになる。すなわち、（３）式によ
って求められる。

【００４８】

【数３】

【００４９】図８は、メルフィルタバンク６９からのロ
グ出力のエンベロープ、すなわち、log｜S~k(f')｜を示
し、２つの成分１０１および１０３の加算性を図示する
ものである。成分１０１は、声道特性、すなわち、 log
｜V(f)｜を示す。成分１０３は、励起特性、すなわち、
log｜E(f)｜を示す。成分１０１のピークは、声道のフ
ォルマント周波数で発生する。また、成分１０３の等間
隔のピークは、話者のピッチのハーモニック周波数で発
生する。

【００５０】声道特性１０１は、ブロック（ＬＯＧ）７
１から出力されたサンプルに離散コサイン変換（ＤＣ
Ｔ）を行い、その結果をフィルタリングすることによっ
て、励起特性１０３から抽出できる。

【００５１】図９は、ＤＣＴブロック７３の出力を示
す。これは、ケプストラム（cepstrum）Ck(m)として知
られている。ケプストラムの独立変数（図９のｘ軸）は
時間の次元を有し、「クエフレンシ（quefrency）」と
名づけられている。図８に示される強い周期性を有する
成分１０３は、話者のピッチ周期Ｔに等しい位置で、ケ
プストラムのピーク１０５になる。また、図８に示され
るゆっくり変化する成分１０１は、ケプストラムの原点
付近の多数の小さいピーク１０に変換され、その位置お
よび振幅はフォルマントに依存する。

【００５２】音声の声道特性および励起特性がクエフレ
ンシスケール上の分離した部分にあらわれるので、これ
らは、濾過プロセスまたはケプストラム用語で言ういわ
ゆる「リフタリング（liftering）」プロセスによっ
て、互いに分離される。図９に示されるケプストラムCk
(m)は、１組の離散ケプストラム係数（discrete cepstr
al coefficient）（C0, C1, ... C39）から構成され
る。したがって、リフタリングは、１つの矩形ウィンド
ウによって達成されうる。しかしながら、信頼性が劣る
と考えられるスペクトルの部分を強調しないようにする
ため、より漸次的なウィンドウ機能が好ましい。本実施
形態において、以下のウィンドウ機能が、リフタリング
ブロック（LIFTERING）７５で用いられる。

【００５３】

【数４】

【００５４】ここで、 Ncは、リフタリングブロック７
５から各フレーム毎に出力されたケプストラム係数の所
望の個数であり、本実施形態では１２である。

【００５５】また、上記の１２個のケプストラム係数に
加えて、各フレーム内の音声信号のパワー、すなわち、
「フレームパワー」もまた計算される。これは、フレー
ム内の入力音声信号が発生音声信号に対応するか否かを
示すのに用いられるので、とりわけ重要な特徴である。
フレームパワーは、音声分析の分野では公知の一般的な
方法を用いて、図３に示されるフレームパワーブロック
（FRAME POWER）８１で計算される。変化しうる記録環
境や音の大きさ等に影響されないように、ブロック８１
で決定されたパワーは、パワー正規化ブロック（POWER
NORMALIZING）８３で正規化され、パワー係数Pkを求め
る。パワー係数Pkは、リフタリングブロック７５から出
力されたケプストラム係数に結合される。パワーは、バ
ッファ（図示されていない）に記憶された発声音全域に
わたって最大パワー（ｄＢ）を決定し、これを各フレー
ムのパワーから減じ、その結果と正規化定数とを掛ける
ことによって、ブロック８３で正規化される。

【００５６】本実施形態においては、各フレーム内の入
力音声信号のパワーが決定されるが、各フレーム内の入
力音声信号を示す他の値も用いられる。例えば、フレー
ム内の入力音声信号の平均振幅の尺度が決定され、正規
化され得る。

【００５７】以上のように、プリプロセッサ１５は、各
時間フレームで、１組の係数、すなわち、１２個のケプ
ストラム係数および１つのパワー係数を出力する。便宜
上、フレームｋを示す係数は、パラメータフレームｆk
として示され、次のフレームを示す係数は、パラメータ
フレームｆk+1等として示す。

【００５８】＜バッファ＞プリプロセッサ１５から出力
されたパラメータフレームｆkは、図２に示されるバッ
ファ（BUFFER）１６に供給される。本実施形態におい
て、バッファ１６は、ＡＤＣ６３から出力された入力音
声のディジタルサンプルを記憶するバッファ（図示され
ていない）に記憶された音声に関して生成されたすべて
のパラメータフレームを記憶するのに十分な容量を有す
る。全入力発声音がプリプロセッサ１５によって処理さ
れた後、バッファ１６に記憶されたパラメータフレーム
は、それらが受信された順番で認識ブロック１７に供給
され、入力発声音が認識される。

【００５９】＜標準モデル＞上記のとおり、どのワード
がプリプロセッサ１５からの出力信号によって表現され
ているかを決定するため、出力信号は記憶されている標
準モデルと比較される。この記憶された標準モデルは、
システムに既に認知されたワードおよびシステム周辺の
音響環境をモデルにしたものである。特定のワードに関
連する各モデルは、上記プリプロセッサ１５から出力さ
れたパラメータフレームと同じタイプのパラメータフレ
ームのシーケンスで構成される。しかしながら、ワード
モデルのフレームと認識されるべき入力発声音のフレー
ムとを区別するため、ワードモデルのフレームはステー
ト（state）と表現することにする。

【００６０】本実施形態による音声認識システムの１つ
の特徴は、ワードモデル、環境（または、ノイズ）モデ
ルまたは言語モデルがシステムに前もって記憶されてい
ないエンドユーザに供給され得ることである。これによ
って、ユーザは自由にシステムを学習させ、ユーザが必
要とするフレーズを認識させるようにすることができ
る。さらに、ユーザにとって有用でないワードが予め記
憶されていることで、システムが過負荷となることを防
止できる。さらに、以下の記載から明らかなように、記
載された特定の学習方法はこの状況において特に適して
いる。なぜならば、それは、学習のために費やされる時
間を必要とせずに新しいフレーズがシステムによって学
習されることを可能とするからである。さらに、標準モ
デルは、すべてのワードに対応し、音素には対応しない
ので、システムは、いかなる言語または言語の組み合わ
せに対しても動作する。学習プロセスを、図１０から図
１７を参照してより詳細に説明する。

【００６１】＜学習＞図１０は、学習プロセスで用いら
れる構築／更新モジュール（BUILD/UPDATE MODULE）９
１を示す概略図である。特に、構築／更新モジュール９
１は、システムによって学習されるべき１つ以上のワー
ドを示すパラメータフレームｆkのシーケンスと、矢印
９２で示される１つ以上の入力音声ワードに対応するテ
キストを示すユーザ情報とを受ける。十分な情報が構築
／更新モジュール９１に入力されると、入力ワードに対
応するワードモデルを発生し、言語モデル２１を更新す
る。本実施形態において、ワードモデルおよび言語モデ
ルの両方は、ハードディスク９３のような高容量のデー
タ記憶装置に記憶される。

【００６２】ノイズモデル２３が本実施形態において決
定される方法を以下に説明する。まず、ユーザは新しい
ノイズモデルを構築したり、または既存のノイズモデル
２３を変化させる必要があることを指示する。この指示
に応じて、システムは、ユーザに沈黙を示す音を入力す
るよう促す。この処理は、沈黙状態の間、ユーザがキー
ボード３上のスペースバーを押すことによって行われ
る。沈黙の周期の終わりには、ユーザはワードを発生し
なければならない。システムが沈黙を示すべく生成され
たパラメータフレームのパワー係数を正規化できるよう
にするためである。ユーザが沈黙の周期の終わりにワー
ドを発声しない場合、ノイズモデル２３のパワー係数が
非現実的に高くなり、非認識エラーが生じることにな
る。最後に、ノイズモデル２３を決定するため、システ
ムは沈黙の期間に対して生成されたパラメータフレーム
を平均化し、ノイズモデル２３として用いられる１つの
パラメータフレームを形成する。

【００６３】本実施形態の音声認識システムは、連続的
に発声されるワード、すなわち、フレーズ内に含まれる
ワードを認識するために設計されている。良い認識結果
を得るため、標準モデル（または、連続ワードモデル）
は、重要なワードを含むフレーズ例から得るべきであ
る。好ましくないことに、連続的に発声されたフレーズ
内のワードの始めと終わりを確認する作業は容易ではな
い。本実施形態が連続ワードモデルを発生させる方法の
概略を以下に示す。まず、システムは、分離的に発声さ
れたワードからワードモデルを決定する。このモデル
は、分離ワードモデルとして示す。しかし、音声認識の
当業者が以下の記載から理解するように、これらの分離
ワードモデルは、本技術分野における一般的な分離モデ
ルには相当しない。システムは分離ワードモデルを用
い、分離ワードモデルとそれに相当するワードを含むフ
レーズ例とを比較することによって、連続ワードモデル
を生成する。

【００６４】分離ワードモデルを生成するため、ワード
は、マイクロフォン７または電話線を介して分離的にシ
ステムに入力されなければならない。上記のとおり、ス
ペースバーが用いられ、各入力発声音を確認する。した
がって、分離的に発声されたワードの発声音を示すパラ
メータフレームのシーケンスは、沈黙に対応するパラメ
ータフレームをワードの始めと終わりに有する。次にシ
ステムは、分離ワードの発声音と当該ワードを含むフレ
ーズ例とを比較する。この比較によって、分離的発声音
内のワードのおよその始めと終わりを確認する。この始
点と終点は平均化され、そのワードに対する分離ワード
モデルは、確認された始点と終点との間にある平均化さ
れたパラメータフレームのシーケンスを抽出することに
よって、決定される。この方法で分離ワードモデルを決
定することによって、ワードの始めと終わりの沈黙を除
去するだけではなく、そのワードの部分であって、連続
的な発声音声の間において発音されない部分も除去され
る。したがって、本実施形態の分離ワードモデルは一般
的な分離的ワードモデルには対応せず、沈黙を入力発声
音の始めと終わりから除去することによって決定され、
連続音声が発せられているときのワードをより適切に表
すものとなる。

【００６５】いったん分離ワードモデルが決定される
と、フレーズ内の当該ワードの位置を確認するために、
当該ワードを含むフレーズ例と整合される。最後に、標
準ワードモデルまたは連続ワードモデルは、フレーズに
おける確認位置からの音声を抽出及び結合することによ
って、決定される。システムがワードモデルを生成する
方法の詳細について、以下に説明する。

【００６６】ユーザがシステムに１つ以上の新しいフレ
ーズを教えたい場合、図１１に示されるサブルーチンを
起動する。ステップＳ１で、ユーザは、新しいワードま
たはフレーズのテキストをキーボード３を介してシステ
ムに入力する。システムは、ステップＳ３において、そ
のワードまたはフレーズが既知のものであるか否かをチ
ェックし、そのワードまたはフレーズが未知のものであ
れば同じワードまたはフレーズをマイクロフォン７を介
して入力するようユーザに促す。そして、ステップＳ１
に入力されたワードまたはフレーズに対応するテキスト
に、マイクロフォン７を介して入力されたフレーズを関
連させる。次にステップＳ５において、ＰＣ１は、前も
って入力されていたすべてのテキストを用い、フレーズ
内のどのワードが（分離された状態で）既知となってい
るかをチェックし、未入力（未知）のワードをマイクロ
フォン７を介して入力するようユーザに促す。

【００６７】ステップＳ５の後、ユーザは、ステップＳ
７にて他の新しいワードまたはフレーズを入力するかど
うかを決定する。新たに入力する場合は、ステップＳ１
に戻る。他方、ユーザがこれ以上ワードを入力しないこ
とを決定した場合、処理はステップＳ９に移動する。ス
テップＳ９において、標準モデルは、システムに入力さ
れた少なくとも２つのフレーズに含まれる未知ワードに
ついて生成される。例えば、学習フレーズが入力されて
おらず、システムには標準モデルがまだ記憶されていな
い状態で、ユーザが「get an image（画像を得る）」お
よび「get theearth（接地する）」という２つのフレー
ズを入力し、ステップＳ７でユーザがこれ以上フレーズ
を入力する意志がないことを指示した場合を説明する。
この場合、入力フレーズの両方に含まれるワードは「ge
t（得る）」の１つだけなので、システムは「get」とい
うワードのワードモデルを生成するだけでよい。他方、
ユーザが「get an image（画像を得る）」というフレー
ズを２回入力する場合、システムは、当該フレーズ内の
各ワードの標準モデルを生成させ得る。さらに、上記の
前者の例を取れば、ユーザが「get an image（画像を得
る）」および「get the earth（接地する）」という２
つのフレーズを入力した後、第２の学習セッションで
「get the earth（接地する）」というフレーズを入力
した場合、「get（得る）」というワードは既に分離し
て入力されているので、システムは、ステップＳ５で
「get（得る）」というワードを入力する必要がないこ
とをユーザに伝える。さらに、「the（その）」及び
「アース（earth）」というワードはシステムに入力さ
れている２つのフレーズによって表されるので、システ
ムは「the（その）」及び「アース（earth）」というワ
ードの標準モデルを発生させることができる。この方法
で学習を進めることにより、ユーザはシステムをユーザ
にとって都合よく学習させることができる。

【００６８】図１２を参照すると、上記方法で入力され
た各フレーズは、フレーズ番号Ｐを付され、ハードディ
スク９３のフレーズアレー１１５に記憶される。同様
に、入力される各分離ワードにはワード番号Ｗが付さ
れ、ハードディスク９３のワードアレー１１７に記憶さ
れる。図１２に示されるように、フレーズアレー１１５
内の各フレーズＰは、自身に関連する次のようなデータ
を有する。すなわち、パラメータフレーム（PARAMETER
FRAMES）１２３、フレーズを形成するワードシーケンス
（PHRASE WORDS）１２５およびステータスフラグ（STAT
US）１２７を有する。ワードシーケンス１２５内の各ワ
ードは、自身に関連するテキスト（TEXT）１２９、フレ
ーズ番号Ｐ、ワード番号（WORD No.）１３１（すなわ
ち、フレーズ内のワードの位置）、フレーズ内のワード
の（最初は認知されていない）時間境界（TIME BOUNDRI
ES）１３３、およびワードアレー１１７内の対応するワ
ードＷを示すワードインデックス（WORD INDEX）１３５
を有する。

【００６９】ワードアレー１１７内の各分離ワードＷ
は、自身に関連する次のようなデータを有する。すなわ
ち、パラメータフレーム（PARAMETER FRAMES）１３７、
当該ワードが見出されたフレーズへの戻りを示す発声音
インデックス（UTTERANCE INDEX）１３９およびステー
タスフラグ（STATUS）１４１を有する。まず、分離ワー
ドおよび分離フレーズがシステムに入力されると、各ワ
ードまたはフレーズに関連するステータスフラグ１２７
および１４１は、それらがまだ処理されていないことを
示すFLEXIにセットされる。なお、時間境界１３３は、
フレーズのワードシーケンス内の各ワード毎に存在し、
UNKNOWN（未知）に設定される。

【００７０】次に、図１１のステップＳ９で行われる未
知ワードのワードモデルを生成するための処理の詳細を
図１２から図１６を参照して説明する。ここでは、学習
フレーズとして「get an image（画像を得る）」という
フレーズが２回、「get theearth（接地する）」という
フレーズが１回入力された場合を例として用いて説明す
る。したがって、フレーズアレー１１５には３つの要素
Ｐ１、Ｐ２およびＰ３が存在し、「get an image（画像
を得る）」という発声音声のフレーズが２つと「get th
e earth（接地する）」という発声音声のフレーズが１
つ含まれる。さらに、ワードアレー１１７には５つの要
素Ｗ１、Ｗ２、Ｗ３、Ｗ４、Ｗ５があり、上記２種類の
フレーズを構成するそれぞれ異なるワードが１つずつ含
まれる。上記のとおり、各フレーズおよび異なる各ワー
ドに対応するパラメータフレームのシーケンスは、フレ
ーズアレー１１５およびワードアレー１１７の各対応す
る要素毎に記憶される。

【００７１】図１３には、２つの「get an image（画像
を得る）」のフレーズの発声音を示す音声信号１５１お
よび１５３と、「get the earth（接地する）」のフレ
ーズの発声音を示す音声信号１５５とが示されている。
また、図１３には、「get（得る）」、「an（１つ
の）」および「image（画像）」という各ワードの分離
的発声音を示す発声信号１５７、１５９および１６１も
示されている。更に、図１３には、「get an image（画
像を得る）」の２つのフレーズの発声音に相当するパラ
メータフレーム１５２および１５４と、「get the eart
h（接地する）」のフレーズの発声音に相当するパラメ
ータフレーム１５６と、「得る（get）」、「１つの（a
n）」および「画像（image）」という各分離ワードの発
声音に相当するパラメータフレーム１５８、１６０、１
６２も示す。なお、「the（その）」および「earth（接
地）」というワードについては、それらが入力された２
つ以上のフレーズに含まれていないためワードモデルは
生成されない。従って、これら、「その（the）」およ
び「接地（earth）」というワードは、図１３には示さ
れていない。

【００７２】図１４は、各未知ワードのワードモデルを
生成するために必要な処理を詳細に示すフローチャート
である。ステップＳ２１で、未知ワードを含むフレーズ
に対応するパラメータフレームシーケンスが、分離して
発声された当該未知ワードに対応するパラメータフレー
ムシーケンスと関連付けられる。この関連付け処理に
は、フレキシブルダイナミックプログラミングアライン
メント処理が用いられる。このアラインメント処理は、
そのプロセスの初期段階における未知ワードの始点と終
点に関する情報の欠乏を緩和する、特に、各ワードの最
適アラインメントパスが始まらなければならない場所或
いは終わらなければならない場所を制限しないフレキシ
ブルダイナミックプログラミングアラインメントプロセ
スが用いられる。このフレキシブルダイナミックアライ
ンメントプロセスについては、ダイナミックプログラミ
ングアラインメントについて論じた後に、詳細に後述す
る。

【００７３】このフレキシブルダイナミックプログラミ
ングアラインメントの結果、未知ワードに対するパラメ
ータフレームシーケンス内の当該未知ワードのおよその
始点および終点が特定される。例えば、「get an image
（画像を得る）」というフレーズの第１の発声音に相当
するパラメータフレームシーケンス１５２が、未知ワー
ド「get（得る）」の発声音に相当するパラメータフレ
ームシーケンス１５８に関連付けられるとき、パラメー
タフレームシーケンス１５８内の始点および終点は上記
アラインメントの結果から確認される。上記のとおり、
始点前および終点後のパラメータフレームは、バックグ
ラウンドのノイズまたはフレーズ例におけるワードの発
音されない部分に相当しているので、除去される。

【００７４】ステップＳ２１において、学習フレーズ例
に対して行われるアラインメントでは、「get（得
る）」というワードの３組の始点および終点と（「ge
t」というワードは３つのフレーズに含まれているた
め）、「an（１つの）」と「image（画像）」のワード
の２組の始点および終点と（「an」と「image」のワー
ドは、２つのフレーズに示されているので）を確認す
る。ステップＳ２３で、それぞれの未知ワードの平均始
点および平均終点が決定され、平均スタートフレームの
前にあるフレームおよび平均エンドフレームの後にある
フレームが捨てられる。例えば、「get」というワード
をステップＳ２１で処理した後、３つのフレーズ１５
１、１５３、１５５を用いて確認された始点がそれぞれ
フレームｆ8W1、フレームｆ9W1、フレームｆ13W1である
場合、その平均はフレームｆ10W1（［８＋９＋１３］／
３）である。そして、フレームｆ10W1の前にあるパラメ
ータフレーム１５８のシーケンス内のすべてのフレーム
は、捨てられる。終点についても、捨てられるフレーム
がエンドフレームを越えるものであるという点を除い
て、上記した始点の場合と同様の手順が用いられる。そ
の結果、各ワードのパラメータフレームシーケンスは、
上記のワードの分離ワードモデルとなる。

【００７５】図１５は、「get」、「an」、「image」の
各ワードの分離ワードモデル音声信号１５７'、１５
９'、１６１'、およびそれぞれに対応するパラメータフ
レームシーケンス１５８'、１６０'、１６２'を示す。
処理のこの段階で、処理された各ワードのステータスフ
ラッグ１４１（図１２）は、FLEXIからCHOPPEDに変わ
る。なお、CHOPPEDは、未知ワードが始めと終わりが除
去されたフレームシーケンスを有していることを示す。

【００７６】次に、図１４に示されるステップＳ２５に
おいて、未知ワードを含むフレーズに対応するパラメー
タフレームシーケンスは、当該ワードの分離ワードモデ
ルのパラメータフレームシーケンスに関連付けられる。
例えば、「get」というワードが出現するフレーズの発
声音に対応するパラメータフレームシーケンス１５２、
１５４、１５６の各シーケンスと、「get」というワー
ドの分離ワードモデル１５８’に対応するパラメータフ
レームシーケンスとの整合がチェックされる。図１６
は、本例を行った対応付け（アラインメント）の結果を
示し、ここで破線は、フレーム間のアラインメントを示
す。例えば、パラメータフレームシーケンス１５２と分
離ワードモデルのパラメータフレームシーケンス１５
８’とのパラメータフレームのシーケンスとの間のアラ
インメントでは、フレームｆ2P1およびｆ3P1がフレーム
ｆ10W1に関連付けられ、フレームｆ4P1およびｆ5P1がフ
レームｆ11W1に関連付けられる等、アラインメントが確
立されている。

【００７７】次に、図１４のステップＳ２７において、
分離ワードモデルの個々のフレームを、フレーズに対応
するパラメータフレームのシーケンスからの関連フレー
ムの平均で置き換えることによって未知ワードの標準モ
デルが生成される。例えば、図１６に示される分離ワー
ドモデル１５８'のパラメータフレームシーケンスにお
いて、フレームｆ10W1は、フレームｆ2P1、ｆ3P1、ｆ
1P2、ｆ2P3の平均に置き換えられる。また、フレーム
ｆ11W1は、フレームｆ4P1、ｆ5P1、ｆ2P2、ｆ3P2、ｆ
3P3の平均に置き換えられる。分離ワードモデルのフレ
ームの１つに関連付けられるフレームがフレーズに存在
しない場合、そのフレームは、隣接する置き換えられた
フレームの間を捕間するかまたはフレームから外挿する
ことによって得られるフレームに置き換えられる。例え
ば、図１６に示されるパラメータフレーム１５８'のシ
ーケンスにおいて、フレームｆ12W1は、パラメータフレ
ームシーケンス１５２、１５４または１５６内のいずれ
のフレームにも関連付けられない。従って、ｆ12W1は、
ｆ11W1、ｆ13W1の置換後のフレームで捕間することに
よって得られたフレームに置き換えられる。或いは、分
離ワードモデル内における、入力フレーズのいずれのフ
レームにも関連しないフレームを捨てるように構成して
も良い。

【００７８】ステップＳ２７で生成された基準ワードモ
デルは、システムの音声認識部で用いられるものであ
り、その詳細を以下に示す。なお、処理された各ワード
のステータスフラグ１４１は、CHOPPEDからIN-USEに変
化する。

【００７９】いったん標準ワードモデルがフレーズ内の
すべてのワードについて生成されると、フレーズは、図
２に示される言語モデル２１に追加される。本実施形態
において、言語モデル２１は、バイグラムモデル（Bigr
am Model）と同様で、網目上に相互に接続するノードを
備える。ここで、相互接続は、システムに既知となった
ワードを示す。しかしながら、この相互接続には、例え
ば、正しい英語の用法に関する文法規則は含まれていな
い。すなわち、システムに認知されたフレーズに従っ
て、どのワードが他のどのワードに続くかを制限するだ
けである。図１７ａは、以下の各フレーズがシステムに
よって学習されたときに取り出される言語モデル２１を
示す。

【００８０】

【表１】

【００８１】図１７ａに示されるように、スタートノー
ドＮ0、エンドノードＮn、８個の中間ノードＮ1からＮ8
がある。認識されるべき入力フレーズのために、システ
ムは、スタートノードＮ0からエンドノードＮnまでのパ
スを見つけなければならない。しかしながら、システム
は一度学習されると妥当な程度にフレキシブルになり、
ユーザが「make it smaller」というフレーズの代わり
に「make smaller」と入力しても、システムはその入力
されたフレーズを認識することができる。しかしなが
ら、フレーズの個々のワードが既知であっても、そのフ
レーズがシステムに認知されていない場合、システムは
フレーズを認識しない。例えば、上記の言語モデルにお
いて、ユーザが「save the image」と言った場合、たと
えシステムにとって「save」、「the」、「image」の各
ワードが既知であっても、システムはこの入力フレーズ
（「save the image」）を認識しない。

【００８２】言語モデル２１は、図１１のステップＳ３
で入力されたテキストによって示される必要なワードの
シーケンスを抽出することによって作成され、各新しい
フレーズが入力された後に更新され、フレーズ内の各ワ
ードにはワードモデルが提供される。言語モデル２１を
更新する方法について、図１７ｂを参照して以下に説明
する。

【００８３】新しいフレーズが入力され、入力フレーズ
の各ワードに対応するワードモデルが決定されると、ス
テップＳ３０においてシステムは、フレーズの第１のワ
ードがスタートノードＮ0の出力に接続されているかど
うかを判断する。接続されている場合、処理はステップ
Ｓ３２に進む。他方、第１のワードがスタートノードＮ
0の出力にまだ接続されていない場合は、ステップＳ３
１でスタートノードＮ0からの新しい出力として第１の
ワードが追加される。

【００８４】処理はステップＳ３２に進み、ここでシス
テムはワードループカウンタｗを初期化する。以降の処
理で、システムは、このワードループカウンタｗを用い
て、当該フレーズ内の全ワードを数える。処理はステッ
プＳ３３に進み、ここでシステムはワードｗが当該フレ
ーズの最後のワードか否かを判断する。ワードｗが最後
のワードでない場合、処理はステップＳ３４に進み、ワ
ードｗがノード（エンドノードＮnを除いた）の入力に
接続されているか否かを判断する。接続されていれば処
理はステップＳ３６に進み、ここでシステムは、次のワ
ードｗ＋１がワードｗを入力として有するノードの出力
に接続されているかどうかをチェックする。他方、ステ
ップＳ３４で、ワードｗがいずれのノードの入力にも接
続されていないとシステムが判断した場合、処理はステ
ップＳ３５に進み、ここで新しいノードが作成され、ワ
ードｗは、新しいノードの入力に接続される。それか
ら、上記のとおり、処理はステップＳ３６に進む。

【００８５】ステップＳ３６で、次のワードｗ＋１がワ
ードｗを入力として有するノードの出力に接続されてい
ないとシステムが判断した場合、処理はステップＳ３７
に進む。ステップＳ３７では、次のワードｗ＋１が当該
ノードの出力として追加される。一方、ステップＳ３６
で、次のワードｗ＋１が既にワードｗを入力として有す
るノードの出力に接続されているとシステムが判断した
場合は、そのままステップＳ３８に進み、ここでワード
カウンタｗがインクリメントされる。そして、処理はス
テップＳ３３に戻り、入力フレーズの次のワードに対し
て同様の処理が行われる。また、ステップＳ３３で、ワ
ードｗがフレーズの最後のワードであることを判定され
た場合、処理はステップＳ３９に進む。ステップＳ３９
において、システムは、最後のワードがエンドノードＮ
nの入力に接続されているか否かを判断する。最後のワ
ードがエンドノードＮnの入力に接続されていない場
合、処理はステップＳ４０に進み、ここでシステムは、
フレーズの最後のワードをエンドノードＮnの入力に接
続する。最後のワードがエンドノードＮnに既に接続さ
れているか、またはステップＳ４０で最後のワードがエ
ンドノードＮnに接続されると、本処理を完了し、処理
された入力フレーズは言語モデル２１の一部を形成する
ことになる。

【００８６】本学習プロセスの特徴の１つは、システム
に個々にフレーズを学習させることもできるし、一度に
多数のフレーズを学習させることもできる。新しいフレ
ーズが入力され、この時点でシステムが既にフレーズ内
のいくつかのワードのワードモデルを有する場合、シス
テムは言語モデル２１を更新する前に、当該フレーズの
未知ワードについてワードモデルを生成する必要があ
る。

【００８７】＜ダイナミックプログラミング（ＤＰ）＞
図１４のステップＳ２１およびＳ２５で行われる処理に
おいて、フレーズのパラメータフレームとワードのパラ
メータフレームとを関連付けるために、アラインメント
処理が用いられた。より効果的な方法で２つのシーケン
スを関連させるため、アラインメントプロセスは、例え
ば、ワードが分離して発せられたり、ワードが連続的に
発せられるフレーズに含まれる場合に生じるワードの発
声速度の差を補償することが要求される。上記のダイナ
ミックプログラミング（ＤＰ）のアラインメントプロセ
スは、あるワードを別のワードに合致させる一つの方法
である。これは、最適な非線形の時間スケールのひずみ
を適用して、すべての時点で最適にマッチさせる方法で
行われる。

【００８８】ＤＰマッチングプロセスの概略を、図１８
から図２０を参照して以下に説明する。図１８は、横座
標方向に入力ワードを示すパラメータフレームのシーケ
ンスを示し、縦座標方向にワードモデルを示すパラメー
タフレームのシーケンスを示す。本例を図１４のステッ
プＳ２５で行われる処理と比較すると、入力ワードを示
すパラメータフレームは、入力フレーズの１つに相当す
るパラメータフレームシーケンスの一部分を示す。ま
た、ワードモデルを示すパラメータフレームシーケンス
は、切り出されたワードの１つに相当するフレームシー
ケンスを示す。

【００８９】ワードモデルと入力ワードとのトータル的
な違いを見つけるため、図１８の左下隅と右上隅との間
のあらゆるパスに沿って最短累積距離が得られる数対の
フレームに関してすべての距離の和を求める必要があ
る。この限定は、類似するワードの対応するフレームが
正しく関連付けられることを保証する。このような総距
離を計算する１つの方法は、すべてのありうるパスを考
慮し、各パスに沿った各点のｄ（ｋ，ｊ）の値（フレー
ムｋとフレームｊとの間の距離）を加算することであ
る。２つのワードの間で評価された距離の最小値を取
り、累積距離を求める。この方法は正しい答えを与える
が、有効パスの数が増加するので、実用的な音声認識シ
ステムのためのコンピュータ処理は不可能となる。

【００９０】ダイナミックプログラミングは数学的技術
であり、すべての取り得るパスの距離を計算することは
行わずに、最適なパスの累積距離を求めることができ
る。累積距離が計算されるべきパスの数は、さらにＤＰ
プロセスを制限することによって、低減される。例え
ば、最適パスは負の傾斜にはなり得ない。負方向の傾斜
に進む場合、ワードの１つは他のワードの時間を逆にさ
かのぼる状態になる。ＤＰプロセスに対するもう１つの
制限は、基準ワードに対する入力ワードの時間圧縮／拡
張の最大量を制限することである。本実施形態におい
て、この制限は、マッチングプロセスで飛ばされたりま
たは繰り返されるフレームの数を制限することによっ
て、実現される。例えば、図１９において、フレームシ
ーケンスは、フレームｆkがフレームｆjmに合致する場
合、フレームｆk+1がフレームｆjm、ｆj+1m、ｆj+2mま
たはｆj+3mに合致するように制限される。したがって、
入力ワードのフレームｆkおよびワードモデルのフレー
ムｆjmが最適パス上にある場合、上記制限において、最
適パス上で直ちに処理する点は、図２０に示すように、
（ｋ−１，ｊ）、（ｋ−１，ｊ−１）、（ｋ−１，ｊ−
２）、（ｋ−１，ｊ−３）のいずれかである。

【００９１】図１８は、フレームｆk-1まで伝わる「有
効パス」を示し、入力ワードとワードモデルとの間のマ
ッチング候補を示す。フレームｆkが認識ブロック１７
に入力されるとき、各有効パスは、現フレームｆkと有
効パスの最後にあるワードモデルのフレームとの間の局
部距離を有する。この局部距離は累積距離に追加される
べきものである。多数のパスが同じ点で出会う場合、最
短の累積距離の有効パスが継続され、他のパスは捨てら
れる。例えば、図１８で、パスＡ、Ｂ、Ｃは点（ｋ，
ｊ）で出会うが、最短累積距離を有するパス（Ａ、Ｂま
たはＣのいずれか）は継続され、その他の２つのパスは
捨てられる。

【００９２】したがって、Ｄ（ｋ，ｊ）を、ワードの始
めから点（ｋ，ｊ）までの有効パスに沿った累積距離と
すれば、

【００９３】

【数５】

【００９４】で表される。

【００９５】また、上述した制限は以下のとおりであ
る。すなわち、

【００９６】

【数６】

【００９７】となる。

【００９８】上記制限で、Ｄ（０，０）の値は、ｄ
（０，０）、ｄ（１，０）、ｄ（２，０）またはｄ
（３，０）と等しくなければならず、すべてのパスはこ
れらの点のうちの１つから始まらなければならない。し
たがって、始点の１つから始め、Ｄ（ｋ，ｊ）の値は、
帰納的な処理ルーチンを介して決定され得る。ルーチン
がマッチングされるべきワードの終わりに到達すると、
ＤＰプロセスによって計算された最小累積距離は、２つ
のワードをマッチさせる最適なパスのスコアを示す。認
識されるべき入力発声音がワードシーケンスから構成さ
れる場合、採用された方向を示すバックポインタが用い
られなければならない。ＤＰプロセスが最適のパスの終
わりを示した後、そのバックポインタで戻りながら跡を
たどることによって、入力発声音を認識することができ
るようにするためである。

【００９９】上記のＤＰプロセスは、すべてのパスを網
羅して探索することと比較して、大幅にコンピュータ処
理の付加を低減するが、各入力ワードとのマッチングを
行うために多数のワードモデルと比較しなければならな
い場合、他のコンピュータ処理も重要となり得る。した
がって、認識結果の精度に大した影響を及ぼさないコン
ピュータ処理を省略することは望ましい。可能なコンピ
ュータ処理の省略は、スコアの悪いパスが必要以上に形
成されることを防ぐことである。成長するパスが木の枝
に似ているので、この処理は「刈り込み（pruning）」
として知られている。このようにパスの刈り込みによっ
て、最適パスの両側の候補パスを含むパスの狭帯のみが
考慮される。このような借り込みが用いられる部分で
は、ダイナミックプログラミングプロセスが最適のパス
を確実に見つけるとは限らないことが認められる。しか
しながら、刈り込みしきい値を用いて、例えば５〜１０
の要因でコンピュータ処理の平均量を低減し、ワードが
よく類似する場合であれば殆ど常時正しいパスが求めら
れる。

【０１００】なお、本実施形態において、図２に示され
る認識ブロック１７は、上記と同様のダイナミックプロ
グラミングマッチングプロセスを用い、ワードモデル１
９およびノイズモデル２３で認識されるべき発声音のパ
ラメータフレームのシーケンスのマッチングを行う。

【０１０１】＜認識検索＞本実施形態による音声認識シ
ステムのもう１つの特徴は、ダイナミックプログラミン
グプロセスが行われる方法にある。特に、本実施形態
は、上記等式（６）で行われた最小値の計算、すなわ
ち、以下の式（７）が処理される現フレームｆkに影響
されないことを利用する。したがって、前フレームｆk-
1が処理されるとき、等式（６）のこの部分が計算され
る。

【０１０２】

【数７】

【０１０３】ダイナミックプログラミングプロセスを実
施する方法を、図２１〜図３１を参照して以下に説明す
る。

【０１０４】図２１は、認識すべき入力発声音を入力し
た際に、認識ブロック１７で行われる処理を示すフロー
チャートである。システムは、プリプロセッサ１５によ
って生成された入力発声音のパラメータフレームシーケ
ンスを処理する。フレームカウンタ変数ｋはこの処理に
供され、変数ｋは、ステップＳ４１で０に初期化され、
各フレームが処理される毎にステップＳ６１で順次イン
クリメントされる。処理される各フレームは、ステップ
Ｓ４７で用いられ、各ワードモデル内の他の有効パスの
累積距離を更新する。ワードカウンタｗはこの処理に供
され、ステップＳ４３で０に初期化され、ステップＳ４
７の後、ステップＳ４９でインクリメントされる。ステ
ップＳ４５で、システムは、現フレームを用いて、すべ
てのワードモデルが処理されたかどうかをチェックす
る。すなわち、システムは、ワードカウンタｗがシステ
ムに認識されたワードの数ｎwを下回るかどうかをチェ
ックする。

【０１０５】現フレームｆkを用いて、全ワードモデル
がいったん処理されると、処理はステップＳ５１に進
み、ここで図１７ａに示される言語モデル２１のノード
が、現フレームを用いて処理される。ステップＳ５１で
行われる処理は、現パラメータフレームが、入力音声の
始めと終わりまたは入力音声の許されたワードシーケン
ス間の沈黙に対応するという状況を処理する。また、こ
の処理は、有効パスが、許容されたワードシーケンスの
範囲に沿って成長するのを保証する。

【０１０６】ステップＳ５１でノードが処理された後、
各ワードモデルの始め、即ち「エントリステート」の１
つで終わる有効パスの累積距離がステップＳ５７で更新
される。この処理は、現パラメータフレームｆkがある
ワードモデルの終わりにマッチングするときに、次のパ
ラメータフレームｆk+1が他のワードモデルの始めに合
致するという状況に対処する。これを達成するため、ワ
ードカウンタｗは、ステップＳ５３で再度初期化され
る。ステップＳ５５でシステムは、すべてのワードモデ
ルが処理されているかどうかをチェックする。ステップ
Ｓ５７でシステムは、現ワードモデルのエントリステー
トに対する累積距離を更新し、ワードカウンタｗが、ス
テップＳ５９でインクリメントされる。そして処理は、
ステップＳ５５に戻る。

【０１０７】すべてのワードモデルが現パラメータフレ
ームｆkについて処理された後、パラメータフレームカ
ウンタ変数ｋは、ステップＳ６１でインクリメントされ
る。ステップＳ６３でシステムは、処理されるべき入力
発声音がこれ以上存在するかどうかを判断する。これは
ステップＳ６３で変数ｋをシステム限界（ＬＩＭＩＴ）
及び音声終了識別子（ＥＯＳ）と比較することによっ
て、この処理は行われる。システム限界は、図３に示さ
れるＡＤＣ６３から出力された音声サンプルを記憶する
ために用いられるバッファの容量によって決定される。

【０１０８】入力発声音のすべてのパラメータフレーム
が処理された場合、ＤＰプロセスが完了し、回帰アルゴ
リズムを用いて最適パスを決定し、それによって、認識
結果を決定する。他方、ステップＳ６３でシステムが処
理されるべきパラメータフレームがさらに存在すると判
断された場合、ステップＳ６５でシステムは刈り込みし
きい値を調整し、ステップＳ４３に戻る。刈り込みしき
い値Ｔｈは、次の入力フレームが処理されるとき、ステ
ップＳ４７、Ｓ５１、Ｓ５７で処理される有効パスの数
を制限するべくステップＳ６５で調整される。

【０１０９】図２１のステップＳ４７で行われる処理の
詳細を、ワードモデルの特定の例を示す図２２から図２
６を参照して以下に説明する。図２２は、ワードモデル
２０１の一例を示す。特に例示されているワードモデル
２０１は、学習セッションの間に得られたステートＳ0
〜Ｓ9のシーケンスと、ワードモデル２０１の終わりの
出口ステートＳDとを備える。これらの目的を以下に説
明する。

【０１１０】ワードモデル（WORD）２０１の各ステート
Ｓは、そのステートで終わる有効パスの累積距離を記憶
する累積距離記憶Ｄ[Ｓ]を有する。本実施形態におい
て、ワードモデル２０１は、現フレームｆkの現アクテ
ィブリスト（ACTIVE LIST）２０３を有する。ここで、
現アクティブリストは、現フレームｆkの有効パスの終
わりにあるワードモデルのステートを降順に登録する。
したがって、現アクティブリスト２０３の各ステート
は、そのステートで終わる各有効パスの累積距離を記憶
する。この例において、現フレームｆkの現アクティブ
リスト２０３は、ステートＳ7、Ｓ5、Ｓ4、Ｓ3、Ｓ2、
Ｓ1、Ｓ0を登録している。現アクティブリスト２０３に
掲載されたステートはアクティブステートとして示され
る。本実施形態において、ワードモデル２０１は、関連
付けられた新アクティブリスト（NEW ACTIVE LIST）２
０５も有する。この新アクティブリスト２０５は、ステ
ップＳ４７で行われる処理の間に完成し、次のフレーム
ｆk+1のための有効パスの終わりにおけるワードモデル
２０１のステートを登録する。

【０１１１】現アクティブリスト２０３および新アクテ
ィブリスト２０５の重要性を図２３を参照して説明す
る。図２３は、ｐ１〜ｐ７の７つの有効パスを示し、７
つの有効パスは、入力されたワードとワードモデル２０
１との間の現フレームｆkまでの７つのマッチング候補
を示す。図示されるとおり、７つの有効パスｐ１〜ｐ７
はそれぞれ、ワードモデル２０１のステートＳ7、Ｓ5、
Ｓ4、Ｓ3、Ｓ2、Ｓ1、Ｓ0で終わっている。現アクティ
ブリスト２０３で降順に登録されているのは、これら有
効パスの終わりのステートである。新アクティブリスト
２０５に登録すべきステートを決定するため、すなわ
ち、次の入力フレームｆk+1に残るパスを決定するた
め、ある入力パラメータフレームから他のパラメータフ
レームへの移行が許可されている状態を考慮しなければ
ならない。

【０１１２】入力発声音に対する標準モデルの時間圧縮
の最大量は、入力発声音の隣接するフレーム間において
スキップできるステートの最大数によって決定される。
本実施形態において、この最大数は２に設定される。す
なわち、ＤＰプロセスは、図１９に示される状態遷移図
に従う。入力発声音に対する標準モデルの時間伸長の最
大量は、同じステートにマッチし得る連続した入力フレ
ームの最大数によって決定される。本実施形態において
は、続いて入力される２つの連続フレームが同じステー
トにマッチし得る。これらの状態を監視するため、各ス
テートＳは、関連する自己反復カウンタ、すなわち、SE
LFを有する。SELFは、対応する有効パスが入力フレーム
ｆkから次のフレームｆk+1が同じステートで終わる度に
インクリメントされる。したがって、例えば、パスｐ５
は、図２３に破線で示されるパス２０７の１つまたはす
べてに沿って伝わる。図２３に示される他のパスｐ１〜
ｐ４およびｐ６、ｐ７も、同様の方法で伝わる。２つ以
上のパスが同じ点で合う場合、最小の累積距離を有する
パスが維持され、他のパスは捨てられる。さらに、パス
の累積距離が刈り込みしきい値より大きい場合、このパ
スも捨てられる。このように、新しいパスが連続的に作
成され、一方、他のパスは捨てられる。刈り込みしきい
値の目的は、各入力パラメータフレームのために処理さ
れる有効パスの数を制限し、それによって、アルゴリズ
ムに必要な時間量およびメモリを制限することである。

【０１１３】図２４は、図２１のステップＳ４７で行わ
れる処理ステップを詳細に示す。まず、ステップＳ７１
でポインタＬＡが初期化される。また、ワードモデル２
０１の出口ステートに記憶される累積距離、すなわちＤ
［ＳD］は、大きい値を示すHUGEに設定される。ポイン
タＬＡは、新アクティブリスト２０５に登録された最後
のアクティブステートを示すのに用いられる。最初、新
アクティブリスト２０５にはアクティブステートがな
く、従って、ポインタＬＡは、出口ステートＳDを示す
ように設定される。ステップＳ７３でシステムは、現ア
クティブリスト２０３にアクティブなステートがあるか
どうかをチェックする。言い換えれば、現ワードにおけ
る、現フレームｆkで終わる有効パスがあるかどうかチ
ェックする。本例では、現アクティブリスト２０３には
７つのアクティブステートがあり、システムは各アクテ
ィブステートを順次処理する。カウント変数ｉが与えら
れ、カウント変数ｉは、現アクティブリスト２０３にお
けるアクティブステートすべてをカウントするために用
いられる。カウント変数ｉは、ステップＳ７５で０に設
定され、現アクティブリスト２０３の全アクティブステ
ートが処理されるまで、ステップＳ７９でインクリメン
トされる。システムは、ステップＳ８１でカウント変数
ｉと現アクティブリスト２０３のアクティブステートの
数ｎａとを比較することによって、すべてのアクティブ
ステートが処理されたかどうかを判断する。

【０１１４】現アクティブリスト２０３のすべてのアク
ティブステートがいったん処理されると、ステップＳ７
７の処理の間に発生された新アクティブリスト２０５
が、ステップＳ８３にて、処理されるべき入力発声音の
次のフレームｆk+1の現アクティブリスト２０３に置き
換えられる。実際には、２つのアクティブリストを示す
ために用いられるポインタを交換することによってこの
処理は行われる。古くなった現アクティブリストは、次
の入力フレームｆk+1の処理中に新アクティブリストと
して上書きされる。最後に、ステップＳ８５において、
アクティブステートになり、新アクティブリスト２０５
に登録された、ポインタＬＡによって示される最終ステ
ートが図２１に示されるステップＳ５７で用いるために
格納される。

【０１１５】ステップＳ７７で行われる処理の概略を、
アクティブステートＳ7、Ｓ5を例に揚げて説明する。図
２３に示されるように、アクティブステートＳ7、Ｓ5は
それぞれ、パスｐ１、ｐ２の終わりである。図２５は、
２つの有効パスｐ１、ｐ２の一部分を示し、有効パスｐ
１、ｐ２はそれぞれ、現フレームｆkのアクティブステ
ートＳ7、Ｓ5で終わる。図２５の破線は、各２つのパス
ｐ１、ｐ２が次のフレームｆk+1に伝わり得る態様を示
す。破線２１３で示すように、パスｐ１は、フレームｆ
k+1で他のワードに拡張することができる。したがっ
て、（アクティブステートＳ7に記憶される）パスｐ１
の累積距離は、出口ステートＳDに複写される。破線２
１５、２１７、２１９で示すように、パスｐ１は、ステ
ートＳ9、Ｓ8、Ｓ7のそれぞれにも伝わり得る。したが
って、パスｐ１の累積距離がステートＳ9、Ｓ8、Ｓ7に
複写される。更に、ステートＳ9、Ｓ8、Ｓ7は、降順に
新アクティブリスト２０５に追加され（ただし、入力フ
レームと比較されず、当該ワードを離れる全てのパスの
最短累積距離を記憶するためだけに用いられる出口ステ
ートは追加されない）、最終アクティブポインタＬＡ
は、最後に追加されたステート（すなわち、ステートＳ
7）を示すように設定される。

【０１１６】図２６ａは、現アクティブリスト２０３の
第１のステートＳ7が処理された後の新アクティブリス
ト２０５を示す。図示されるように、ステートＳ9、Ｓ
8、Ｓ7はそれぞれ、新アクティブリスト２０５の最初の
３つの要素で、最終アクティブポインタＬＡは、ステー
トＳ7を示す。

【０１１７】図２５をもう一度参照すると、破線２２
１、２２３、２２５、２２７で示すように、パスｐ２
は、ステートＳ8、Ｓ7、Ｓ6、Ｓ5それぞれに伝わリ得
る。しかしながら、２つのステートＳ8、Ｓ7は次のフレ
ームｆk+1のために記憶された累積距離をすでに有する
ので、パスｐ２の累積距離を単に各ステートにコピーす
るという処理だけではない。すなわち、これら２つのス
テートＳ8、Ｓ7では、すでに記憶されている累積距離と
パスｐ２に関連する累積距離とを比較し、最小の累積距
離がこれら２つのステートにコピーされることになる。
言い換えれば、図２３に示されるパスのステートＳ8、
Ｓ7に記憶されるべき累積距離は、アクティブステート
Ｓ5を処理した後に、min(D[S7], D[S5])によって求めら
れる。一方アクティブステートＳ5に記憶された累積距
離はステートＳ6に直接に複写される。ステートＳ6に
は、次のフレームｆk+1に対する累積距離が記憶されて
いないからである。２つのステートＳ6、Ｓ5は、新アク
ティブリスト２０５に追加され、最終アクティブポイン
タＬＡは、ステートＳ5を示すように設定される。

【０１１８】図２６ｂは、現アクティブリスト２０３の
第２番目のアクティブステートＳ5が処理された後の新
アクティブリスト２０５を示す。図示されるように、ス
テートＳ8、Ｓ7、Ｓ6、Ｓ5はそれぞれ、新アクティブリ
スト２０５の最初の５つの要素となり、最終アクティブ
ポインタＬＡは、ステートＳ5を示す。現アクティブリ
スト２０３の他のアクティブステートも同様の方法で処
理され、処理は図２１で示されるステップＳ４９に進
み、ここでワードカウントがインクリメントされる。

【０１１９】最終アクティブポインタＬＡが設けられて
いるので、システムは比較処理を必要とするステートお
よび比較を必要としないステートを確認するために新ア
クティブリスト２０５を検査する必要が無くなる。即
ち、ステートがアクティブポインタＬＡによって示され
たステート番号と等しいかまたは上回る場合、比較処理
が必要であることがわかる。また、ステート番号よりも
下回る場合、累積距離がそのステートにコピーされれば
よい。

【０１２０】図２４に示されるステップＳ７７で行われ
る処理を、図２２に示されるワードモデル２０１の例を
用いて、図２７ａおよび図２７ｂを参照して詳細に説明
する。ステップＳ７７でｉ＝０の場合に、処理をしなけ
ればならない第１のアクティブステートＳは、ステート
Ｓ7である。したがって、図２７ａのステップＳ９１
で、システムは、ステートＳ7で終わる有効パスの累積
距離が刈り込みしきい値Ｔｈを下回るかどうかをチェッ
クする、すなわち、Ｄ［Ｓ7］はＴｈと比較される。Ｄ
［Ｓ7］が刈り込みしきい値Ｔｈを上回る場合、このパ
スは捨てられ、処理は、図２４に示されるステップＳ７
９に移行する。Ｄ［Ｓ7］が刈り込みしきい値Ｔｈを下
回る場合、処理は、ステップＳ９２に進み、ここで現フ
レームｆkのために処理されるアクティブステートの総
数を数えるために用いられる変数ACOUNTをインクリメン
トする。ステップＳ９３で、システムは、処理中である
現アクティブステートＳ7と処理中である現フレームｆk
との間の局部距離を計算し、この計算結果を累積距離Ｄ
［Ｓ7］に加算する。

【０１２１】本実施形態においては、以下のユークリッ
ドの距離公式を用い、現フレームｆkと現アクティブス
テートＳとの間の局部距離の値を得る。

【０１２２】

【数８】

【０１２３】累積距離Ｄ［Ｓ7］がステップＳ９３で更
新された後、ステップＳ９５でシステムは、現アクティ
ブステートＳ7で終わる有効パスが次の入力フレームｆk
+1でワードから離れ得るかどうかをチェックする。上記
ＤＰの制限によって、この処理では、処理される現アク
ティブステートＳの先の３つ目のステートがワードモデ
ル２０１の最後のステートの先に進むかどうかを決定し
て示す。本例では、現アクティブステートＳ7の先の３
つのステートが最後のステートＳ9を過ぎているので、
ステップＳ９７に進み、ワードモデル２０１の終わりで
ある出口ステートＳDを示すようにポインタｊが設定さ
れる。ステップＳ１０１で、ポインタｊによって示され
るステートが最終アクティブポインタＬＡによって示さ
れるステートと比較される。この処理は（現時点で
は）、処理されるべき現アクティブリスト２０３内の第
１番目のアクティブステートであるので、最終アクティ
ブポインタＬＡは、出口ステートＳDを示している（図
２４に示されるステップＳ７１を参照）。したがって、
処理はステップＳ１０３に進み、ここでポインタｊによ
って示されたステート、すなわち、出口ステートＳDに
記憶された累積距離が、処理される現アクティブステー
トＳ7で終わる有効パスｐ１の累積距離と比較される。

【０１２４】図２４のステップＳ７１で、出口ステー
ト、すなわち、Ｄ［ＳD］に記憶された累積距離は、大
きな値を示すHUGEに設定されている。したがって、累積
距離は、処理される現アクティブステートＳ7に記憶さ
れている累積距離を上回る。結果的に、処理は、ステッ
プＳ１０５に進み、ここでＤ［Ｓ7］がＤ［ＳD］にコピ
ーされる。次に、ステップＳ１０７で、ポインタｊによ
って示されるステート、すなわち、出口ステートＳDに
対応する自己反復カウンタは０に設定される。ステップ
Ｓ１０９で、ポインタｊはデクリメントされ、ステート
Ｓ9を示すようになり、処理はステップＳ１０１に戻
る。

【０１２５】次に、ポインタｊによって示されるステー
ト（ステートＳ9）は、最終アクティブポインタＬＡに
よって示されるステート（ステートＳD）の前なので、
処理は図２７ｂに示されるステップＳ１１１に進む。ス
テップＳ１１１で、システムは、ポインタｊによって示
されるステート、すなわち、ステートＳ9が処理される
現アクティブステートＳ7と等しいかどうかをチェック
する。ここでは、等しくないので、処理はステップＳ１
１３に進み、ここでステートＳ9に記憶された累積距離
が現アクティブステートＳ7に記憶された累積距離と等
しくされる。言い換えれば、パスｐ１の累積距離がステ
ートＳ9に複写される。そして、ステップＳ１１５で、
ステートＳ9が、図２２に示される新アクティブリスト
２０５に追加される。ステップＳ１１７で、ステートＳ
9に対応する自己反復カウンタが０に再設定される。そ
して、続くステップＳ１１９でポインタｊがデクリメン
トされ、ポインタｊはステートＳ8を示す。処理はステ
ップＳ１１１に戻り、ステートＳ8はステートＳ9と同様
の方法で処理される。

【０１２６】ステートＳ8がステップＳ１１３、Ｓ１１
５、Ｓ１１７で処理された後、ｊはステップＳ１１９で
デクリメントされてステートＳ7を示すようになる。ス
テートＳ7は処理される現アクティブステートでもあ
る。したがって、このとき、処理はステップＳ１１１か
らステップＳ１２１に進み、ここでステートＳ7に関連
する自己反復カウンタがチェックされる。すなわち、ス
テートＳ7で終わる有効パスが、当該入力発声音の過去
の２つのフレームに渡ってそこで終わったかどうかをチ
ェックする。ステートＳ7に対応する自己反復カウンタ
の値が２つのフレームと等しい場合、ステートＳ7は新
アクティブリスト２０５には追加されず、処理はステッ
プＳ１２３に進む。ステップＳ１２３では、最終アクテ
ィブポインタＬＡが、現アクティブステートに１を加え
られた値に設定され、ステートＳ8を示すようになる。
このルーチンによって、現アクティブステートに対応す
る自己反復カウンタが２つのフレームと等しいかどうか
確認され、等しい場合には現アクティブステートで終わ
る有効パスが、次のフレームｆk+1の同じステートに伝
わることを防ぐ。図２３に示されるパスの例において
は、現フレームｆkのステートＳ7で終わるパスｐ１はス
テートＳ6から入るので、自己反復カウンタは０となっ
ている。結果的に、ステートＳ7は、ステップＳ１２５
で新アクティブリスト２０５に追加される。ステートＳ
7の自己反復カウンタは、ステップＳ１２７でインクリ
メントされ、ステップＳ１２９で、最終アクティブポイ
ンタＬＡが現アクティブステート、すなわち、ステート
Ｓ7を示すように設定される。

【０１２７】ステップＳ１２９またはステップＳ１２３
の後、処理はステップＳ１３１に進み、ここで現アクテ
ィブステートＳ7に記憶された累積距離は、現フレーム
ｆkのために処理されたすべてのワードにおけるすべて
の有効パスの最短累積距離MINSCOREと比較される。ステ
ートＳ7に記憶された累積距離がMINSCORE を下回る場合
は、ステップＳ１３３でMINSCOREがステートＳ7に記憶
された累積距離に置き換えられる。その後、処理は、図
２４に示されるステップＳ７９に戻る。一方、MINSCORE
に記憶された累積距離が現ステートＳ7に対応する累積
距離を下回る場合、処理は、そのまま図２４に示される
ステップＳ７９に戻る。ステップＳ７９に戻ると、カウ
ント変数ｉがインクリメントされ、現アクティブリスト
２０３の次のアクティブステート、すなわち、ステート
Ｓ5が、ステップＳ７７で処理されることになる。

【０１２８】アクティブステートＳ5は、上記アクティ
ブステートＳ7と同様の方法で処理される。ステートＳ5
で終わる有効パスの累積距離が刈り込みしきい値Ｔｈを
下回る場合、ステップＳ９３で、システムは、現アクテ
ィブステートＳ5と処理される現フレームｆkとの間の局
部距離を計算し、その計算結果を現アクティブステート
Ｓ5に記憶された累積距離に加算する。ステップＳ９５
で、システムは、現アクティブステートＳ5で終わるパ
スｐ２が、上記ＤＰの制限によって、次のフレームｆk+
1の他のワードに拡張できないと判断する。言い換えれ
ば、ステートＳ5から３つ目のステートは、ステートＳD
と等しくないかまたはステートＳDを越えないので、処
理はステップＳ９９に進み、ここでポインタｊが、ステ
ートＳ5の３段階先のステート、すなわち、ステートＳ8
を示すように設定される。次に、ステップＳ１０１で、
ポインタｊによって示されるステートが、最終アクティ
ブポインタＬＡによって示されるステートと比較され
る。

【０１２９】この時点において、最終アクティブポイン
タＬＡはステートＳ7を示し、ポインタｊはステートＳ8
を示す。したがって、処理がステップＳ１０３に進み、
ここで（アクティブステートＳ7の処理の結果として）
ステートＳ8にすでに記憶されていた累積距離が、アク
ティブステートＳ5に記憶された累積距離と比較され
る。ステートＳ8に記憶された累積距離がステートＳ5に
記憶された累積距離を上回る場合、ステートＳ8に記憶
された累積距離は、ステートＳ5に記憶された累積距離
に置き換えられる。ステップＳ１０７で、ステートＳ8
に関連する自己反復カウンタは０に再設定され、ポイン
タｊは、ステップＳ１０９でデクリメントされ、ステー
トＳ7を示すようになる。そして、処理はステップＳ１
０１に進み、ここで上記と同様の処理が行われる。

【０１３０】この再帰処理ルーチンは、システムに認知
されたすべての標準ワードの全ての現アクティブステー
トについて行われる。

【０１３１】現フレームｆkについて上記方法で各ワー
ドを処理した後、言語モデル２１の各ノードが順次処理
される。上記のとおり、言語モデル２１は、許容される
ワードのシーケンスを決定する。この情報は、ノードに
よって、特にノードの入力および出力に接続されるワー
ドによって、決定される。図２１のステップＳ５１のノ
ードの処理によって、有効パスは確実に許容されたワー
ドシーケンスの中を伝わる。以下、ステップＳ５１で行
われる処理を、図２８を参照して詳細に説明する。

【０１３２】まず、ノードを処理する前に、バックグラ
ウンドのノイズを示すフレームと現フレームｆk（すな
わち、d(noise, ｆk)）との間の局部距離が、ステップ
Ｓ１５１で計算される。ステップＳ１５３で、ノードポ
インタｖがスタートノードＮ0を示すように初期化され
る。ステップＳ１５５で、ノードポインタｖによって示
されるノードに記憶された累積距離、すなわち、Ｄ
［ｖ］が、刈り込みしきい値Ｔｈと比較される。Ｄ
［ｖ］が刈り込みしきい値Ｔｈを下回る場合、処理はス
テップＳ１５７に進み、ここでd(noise, ｆk)が、処理
される現ノードｖに記憶された累積距離に加算される。
ステップＳ１５９で、システムは、Ｄ［ｖ］と最小値記
憶MINSCOREに記憶された値を比較する。Ｄ［ｖ］がMIN
SCOREに記憶された値を下回る場合、ステップＳ１６１
でＤ［ｖ］をMINSCOREにコピーする。カウント値ACOUNT
（現フレームのために処理されたアクティブステートお
よびノードの数を示す）はステップＳ１６３でインクリ
メントされ、処理はステップＳ１６５に進む。一方、ス
テップＳ１５５において、Ｄ［ｖ］が刈り込みしきい値
Ｔｈを上回る場合は、ステップＳ１６７でＤ［ｖ］は大
きな値を示すHUGEに設定され、処理はステップＳ１６５
に進む。

【０１３３】ステップＳ１６５、Ｓ１６８で行われる処
理について、図２９に示されるノードＮを例にして説明
する。図示のノードＮには、３つのワード「get」、「s
ave」、「load」がその入力に接続され、２つのワード
「an」、「the」がその出力に接続されている。このよ
うなノードの生成は、図１７ｂに示される手順を用いて
は実現できないが、ダイナミックプログラミングプロセ
スがより複雑な言語モデルのために動作することを示す
ために本例が選択されている。特に、定型文法では、ノ
ードが図２９に示されるようなものが一般的である。

【０１３４】ステップＳ１６５で、システムは、ノード
Ｎの入力に接続されたワードの出口ステート、すなわ
ち、ワード「get」、「save」、「load」の出口ステー
トに記憶されたすべての累積距離の最小値を決定する。
一般的な場合、この計算は以下の式によって、示され
る。

【０１３５】

【数９】

【０１３６】ここで、Ｉｗ［ｖ］は、ノードｖの入力に
接続されたすべてのワードを示す。システムがノードＮ
についてこの最小累積距離を決定した後、その最小累積
距離がすでに記憶されている累積距離を下回る場合に
は、当該最小累積距離がノードＮに記憶された累積距離
Ｄ［Ｎ］に複写される。事実上、これは、当該ノードの
入力に接続されたワードの一つであって、現在そのノー
ドにおいて成長しているパスの累積距離よりも小さい累
積距離を有する有効パスが存在するかどうかの判断であ
る。

【０１３７】バックグラウンドのノイズフレームにマッ
チするギャップが、フレーズ内の各ワードの手前、間及
び終わりに存在し得るので、有効パスはそのノード内を
伝わることができる。図２９の矢印２３１が示すよう
に、有効パスが、入力されたフレームから次の入力フレ
ームまでの間１つのノードに残ることもできる。この場
合、有効パスはノードＮを出発してノードＮに戻る。ワ
ードモデルのステートと異なり、パスは、連続して入力
されたフレームのいくつ分でも、ノード内に残ることが
可能である。システムがステップＳ１６５の処理を行っ
た後、ノードＮに記憶された累積距離がすでに記憶され
ている値より小さい場合、ノードＮに記憶された累積距
離は、ステップＳ１６８で、一時的記憶INSCOREに複写
される。この一時的記憶INSCOREは、ワード「an」、「t
he」のためのボックス２３３、２３５で示される。２つ
以上のワードがノードの出力に接続されるので、比較処
理が行われなければならない。接続ワードに伝わるのは
最小累積距離を有するパスだけだからである。図２１に
示されるステップＳ５７の処理において、ワードの一時
的記憶INSCOREに記憶された累積距離を用いて当該ワー
ドのエントリステートが更新される。

【０１３８】ステップＳ１６９で、システムは、Ｄ
［ｖ］がHUGEに等しいかどうかをチェックする。等しい
場合、終了する有効パスが無いかまたは、ノードｖを通
過して次のフレームｆk+1に接続されたワードに入って
いる有効パスが無いことを示す。Ｄ［ｖ］が値HUGEを下
回る場合、有効パスが、ノードｖで終わっているかまた
は、ノードｖを通過して、次のフレームｆk+1でノード
ｖに接続されているワードに入っていることを示す。し
たがって、次のフレームｆk+1における潜在的にアクテ
ィブなステート（およびノード）の数を表すカウンタPA
COUNTは、そのノードに関連する沈黙ステートが次のフ
レームｆk+1でアクティブステートとなり得るので、ス
テップＳ１７１でインクリメントされる。ノードポイン
タｖは、ステップＳ１７３でインクリメントされ、言語
モデル２１の次のノードを示すようになる。システム
は、ステップＳ１７５で、ノードポインタｖが言語モデ
ル２１のエンドノードＮnを越えるノードを示すかどう
かをチェックすることによって、言語モデル２１のすべ
てのノードが処理されているかどうかをチェックする。
システムがすべてのノード処理を完了していない場合、
処理はステップＳ１５５に戻る。一方、処理を完了して
いる場合、処理は図２１に示されるステップＳ５３に戻
る。

【０１３９】次に、図２１に示されるステップＳ５７で
行われる処理を、図２２に示されるワードモデル２０
１、図３０および図３１を参照して、詳細に説明する。
図３０において、ステップＳ１８１でシステムは、INSC
OREに記憶された累積距離がHUGEと等しいかどうかをチ
ェックする。等しい場合、次の時点でこのワードに入る
有効パスがないことを示す。したがって、このワードを
再処理する必要がないので、処理はステップＳ２０７に
進み、ここで次の入力フレームｆk+1のアクティブステ
ートの数（図２４のステップＳ８３の処理によって現ア
クティブリスト２０３に現在記憶されているステートの
数となる）が、カウントPACOUNTに加算される。その
後、処理は、図２１に示されるステップＳ５９に戻り、
ここでワードカウントがインクリメントされ、次のワー
ドモデルが処理される。

【０１４０】他方、INSCOREがHUGEと等しくない場合
は、有効パスが先のワードを出て、処理すべき現ワード
に入っていることを示す。したがって、別のワードモデ
ル（エントリステート）から延びてきたパスによって到
達され得る現ワードモデルのステートは、INSCOREに記
憶された累積距離を用いて更新されなければならない。
上記ＤＰ制限を用いる本実施形態において、エントリス
テートは、ステートＳ0、Ｓ1、Ｓ2である。この更新手
順は、以下の方法で行われる。まず、ステップＳ１８３
で、システムは、処理される現ワードを示すワードモデ
ルが（出口ステートは含まない）３つより多いステート
を含むことをチェックする。３つより多いステートがあ
る場合、ステップＳ１８５でステートＳ２を示すように
ステータスポインタｊが設定される。他方、現ワードの
ステートが３つより少ない場合、ステップＳ１８７でス
テータスポインタｊが、当該処理ワードの終わりの出口
ステートＳDを示すべく設定される。このように、ステ
ップＳ１８７またはＳ１８５でステートＳD、Ｓ2のいず
れかに向かうようにステータスポインタｊが設定される
と、処理はステップＳ１８９に進み、ポインタｊによっ
て示されたステートと最終アクティブポインタＬＡによ
って示されるステートとが比較される。

【０１４１】図２７ａおよび２７ｂにおいてステップの
シーケンスで行われた処理のように、ポインタｊによっ
て示されるステートが、アクティブポインタＬＡによっ
て示されるステートを越える場合、そのステートに既に
記憶された累積距離とINSCOREに記憶された累積距離が
比較される。

【０１４２】図２３に示されるＤＰパスの例として、パ
スｐ７は、次のフレームｆk+1でステートＳ1、Ｓ2、Ｓ3
に伝わり得るが、ステートＳ0には伝わらない。パスｐ
７が先の２つのフレームにおいてステートＳ0で終わっ
ているからである。したがって、最終アクティブポイン
タＬＡは、ステートＳ1を示すようになる（ステップＳ
１２１、１２３）。

【０１４３】図３１は、図２２に示されるワードモデル
２０１のエントリステート（すなわち、最初の３つのス
テート）を示す。図示されるように、アクティブポイン
タＬＡは、ステートＳ1に向かう。ワードモデル２０１
に３つよりも多くのステートがあるので、ステータスポ
インタｊは、ステートＳ2を示す。ステップＳ１８９
で、システムは、ポインタｊによって示されたステート
が、最終アクティブポインタＬＡによって示されたステ
ート、すなわちステートＳ1を過ぎているかどうかを判
断する。したがって、ここでは、処理はステップＳ１９
１に進む。ステップＳ１９１で、システムは、ステート
Ｓ2に記憶された累積距離と、ワードモデル２０１に関
連する一時的記憶INSCOREに記憶された累積距離とを比
較する。ワードモデル２０１の一時的記憶INSCOREは、
図３１に示される矩形のボックス２４１で示される。IN
SCOREに記憶された累積距離がステートＳ2に記憶された
累積距離より小さい場合、ステップＳ１９３でINSCORE
に記憶された累積距離がステートＳ2に複写される。そ
して、ステップＳ１９５で、ステートＳ2の自己反復カ
ウンタが０に再設定され、処理はステップＳ１９７に進
む。一方、INSCOREに記憶された累積距離がステートＳ2
に記憶された累積距離より大きい場合、ステートＳ2に
記憶された累積距離は変化せず、処理はステップＳ１９
７に進む。ステップＳ１９７において、ポインタｊはデ
クリメントされ、ステートＳ1を示すようになる。処理
はステップＳ１８９に戻り、同様の処理が、ステートＳ
1について行われる。

【０１４４】ステートＳ1について処理した後、ポイン
タｊは、ステップＳ１９７で再びデクリメントされ、ス
テートＳ0を示すようになる。したがって、処理はステ
ップＳ１８９からステップＳ１９８に進み、ここでシス
テムは、処理すべきステートがあるかどうかをチェック
する。本例の場合、ステートＳ0がまだ処理されるべき
であるので、処理はステップＳ１９９に進む。ステップ
Ｓ１９９において、INSCOREに記憶された累積距離が、
ステートＳ0に複写される。このステートは、最終アク
ティブポインタＬＡによって示される最後のアクティブ
ステートの手前なので、ステートＳ0について累積距離
の比較は行われない。ステップＳ２０１で、システム
は、ステートＳ0を現アクティブリスト（このリスト
は、図２４のステップＳ８３の処理の前では新アクティ
ブリスト２０５だったものである）に追加する。そし
て、ステップＳ２０３で、ポインタｊはデクリメントさ
れ、ステートＳー1を示すようになる。その後、処理はス
テップＳ１９８に戻り、ここでシステムは、処理される
べき現ワードにエントリステートがこれ以上ないと判断
する。従って処理はステップＳ２０５に進み、ここで対
応する一時的記憶INSCOREに記憶された累積距離が、HUG
Eに再設定される。そして、ステップＳ２０７で、現ア
クティブリストのステートの数が、カウントPACOUNTに
追加され、処理は、図２１に示されるステップＳ５９に
戻る。

【０１４５】＜刈り込み（Pruning）＞図２１によれ
ば、ステップＳ６３で、処理されるべき入力フレームが
更に存在するとシステムが判断した場合、処理はステッ
プＳ６５に進み、ここで刈り込みしきい値Ｔｈが調整さ
れる。刈り込みを用いる目的は、ある時点からつぎの時
点まで伝わるＤＰパスの数を制限することである。特
に、本実施形態では、刈り込みしきい値を調整し、実際
に処理されるアクティブステートの数を前もって決めら
れた範囲に制限できるようにすることを狙う。なお、こ
の限られた範囲は、利用できる動作メモリの量および処
理時間によって左右される。さらに、本実施形態の目的
は、高価なコンピュータ処理のオーバーヘッドを必要と
せずに、以上の目的を達成させることである。本実施形
態において、刈り込みしきい値は、可変差分値（PRUNIN
G）を処理された入力フレームのために決定されたすべ
ての最小累積スコアMINSCOREに追加することによって、
決定される。すなわち、刈り込みしきい値は、等式（１
０）によって、求められる。

【０１４６】

【数１０】

【０１４７】アクティブステートの設定数のみが各入力
フレームのために処理されることを確実にする方法の１
つは、そこに記憶された累積距離を増加させるために、
処理されつつある入力フレームに対するすべてのアクテ
ィブリストにあるアクティブステートをソートし、最小
累積距離を有する入力フレームで始まる所望の数を処理
する。しかしながら、この技術は、アクティブステート
をソートするために長時間のコンピュータ処理時間を要
する。コストのかかるコンピュータ処理によるソートを
行うのではなく、本実施形態で用いられる技術は、最後
の入力フレームを処理した後に利用できる情報を用い
る。特に、本実施形態において、差分値（PRUNING）
は、処理されるべき次の入力フレームの潜在的なアクテ
ィブステートの数（PACOUNTに格納されている）に依存
して変化し、実際に処理されるステートの数を２つのし
きい値の間にあるように維持する。刈り込みしきい値Ｔ
ｈが調整される方法を、図３２を参照して詳細に説明す
る。

【０１４８】ステップＳ２１１において、システムは、
処理される次のフレームの潜在的アクティブステートの
数（PACOUNTに記憶される）とステートしきい値（STATE
TH）を比較する。ここで、ステートしきい値（STATET
H）は、利用できる動作メモリの量によって決定される
絶対的最大ステートしきい値を下回るが、その値の付近
に設定される。PACOUNTに記憶された値がSTATETHを下回
る場合、すべての潜在的なアクティブステートが処理さ
れ得ることを意味するので、直前の時点で用いられた差
分値PRUNINGは増加される。したがって、ステップＳ２
１３で、調整定数ｄｐ１が既存の差分値PRUNINGに追加
される。ｄｐ１の値は、妥当な局部距離を上回るように
設定されるので、すべてではないがほとんどの潜在的ア
クティブステートが処理される。

【０１４９】PRUNINGに記憶された値は、ステップＳ２
１５で、高い刈り込みしきい値HIGHPRTHと比較される。
上限が差分値PRUNINGに設定されているので、これ以上
進む必要のない最大差分値が存在する。 PRUNINGに記憶
された値がHIGHPRTHを下回る場合、処理はステップＳ２
１９に進む。一方、PRUNINGに記憶された値がHIGHPRTH
を上回る場合、PRUNINGは、ステップＳ２１７で、HIGHP
RTHに設定される。ステップＳ２１５またはＳ２１７の
処理の後、システムは、差分値PRUNINGを追加された他
の有効パスの最小累積距離MINSCOREとPRUNINGとの和に
等しくなるように刈り込みしきい値Ｔｈが設定される。
そして、処理は、図２１に示されるステップＳ４３に戻
る。

【０１５０】ステップＳ２１１で、次のフレームの潜在
的アクティブステートの数（PACOUNT）がSTATETHを上回
るとシステムが判断した場合、ステップＳ２２１で、シ
ステムは、直前の入力フレームの処理においてアクティ
ブステートとして処理されたステートの数（ACOUNTに記
憶されている）と、低ステートしきい値LOWSTTHとを比
較する。このLOWSTTHの値は、ACOUNTがLOWSTTHを下回っ
た場合には、多くの時間またはメモリ量を費やさずに次
の入力フレームのすべての潜在的なアクティブステート
を処理できることを保証できるような値に設定される。
したがって、ACOUNTがLOWSTTHを下回る場合、処理はス
テップＳ２２１からステップＳ２１３に進み、上述した
ような処理によって差分値PRUNINGが調整される。他
方、ACOUNTがLOWSTTHを上回る場合、すべての潜在的ア
クティブステートが処理された場合に、それほどの処理
時間またはメモリ量を費やさずに済むという保証は無
い。したがって、差分値PRUNINGを低減する必要がある
かもしれない。

【０１５１】差分値PRUNINGを低減させる必要があるか
どうかを判断するため、システムは、ステップＳ２２３
で、ACOUNTとSTATETHを比較する。ACOUNTがSTATETHを下
回る場合、システムは、差分値PRUNINGがHIGHPRTHと等
しいかどうかをチェックする。差分値PRUNINGがHIGHPRT
Hと等しい場合、システムはすべてのアクティブステー
トを処理するように試みてきたことを示す。したがっ
て、次の入力フレームのために処理されるアクティブス
テートの数によって、長時間の処理時間または大容量メ
モリを要する処理になってしまうようなことはまず起こ
らないとみてよい。したがって、差分値PRUNINGを変化
させずにステップＳ２１９に処理を進め、ここで刈り込
みしきい値は、MINSCOREに差分値PRUNINGを加算したも
のと等しくなるように設定される。他方、差分値PRUNIN
GがHIGHPRTHと等しくない場合（この場合、差分値PRUNI
NGがHIGHPRTH を下回ることになる）、次の入力フレー
ムのために処理されるアクティブステートの数は、長時
間の処理時間または大容量のメモリを費やす可能性があ
る。したがって、処理されるアクティブステートの実際
の数が計算されなければならない。この計算は、変更さ
せていない差分値PRUNINGを用いてステップＳ２３１で
設定された刈り込みしきい値を用いてステップＳ２３３
で行われる。

【０１５２】ステップＳ２２３に戻って、ACOUNTがSTAT
ETHを上回るとシステムが判断した場合、ステップＳ２
２５で、差分値PRUNINGは、調整定数ｄｐ１によって低
減される。ステップＳ２２５で差分値PRUNINGが減らさ
れた後、システムはステップＳ２２７において、差分値
PRUNINGが低刈り込みしきい値LOWPRTHを下回るかどうか
を判断する。低刈り込みしきい値は、次の入力フレーム
について処理されるアクティブステートの数が設定され
た非常しきい値EMGSTTHを上回ることを保証するのに用
いる。この処理を行う理由は、大量に刈り込まれた場
合、ダイナミックプログラミングプロセスが行えないか
らである。差分値PRUNINGが低刈り込みしきい値LOWPRTH
を下回る場合、ステップＳ２２９で差分値PRUNINGをLOW
PRTHに等しくする。ステップＳ２３１では、調整された
差分値PRUNINGをMINSCOREに加算したもの等しくなるよ
うに刈り込みしきい値Ｔｈが設定される。次にステップ
Ｓ２３３で、システムは、次の入力フレームのために処
理されるアクティブステートの数をカウントする。この
処理は、すべてのアクティブステートに記憶された累積
距離と、新たに決定された刈り込みしきい値Ｔｈを有す
るすべてのノードに記憶された累積距離とを比較するこ
とによって行われる。

【０１５３】総数（ｎsa）は、次の入力フレームに関し
て処理されるアクティブステートとノードの総数を示
す。総数ｎsaが非常しきい値EMGSTTHを下回る場合、刈
り込みしきい値の設定が低すぎることを意味する。従っ
て、処理はステップＳ２１３に進み、ここで差分値PRUN
INGが増加され、刈り込みしきい値Ｔｈが再設定され
る。一方、ｎsaが非常しきい値EMGSTTHを下回らない場
合、ステップＳ２３７で、ｎsaはLOWSTTHと比較され
る。ｎsaがLOWSTTHを上回る場合、ステップＳ２３１で
設定された刈り込みしきい値Ｔｈは受け入れ可能であ
り、処理は、図２１に示されるステップＳ４３に戻る。
他方、ｎsaがLOWSTTHを下回る場合、刈り込みしきい値
は増加させることができる。よって、ステップＳ２１９
で刈り込みしきい値Ｔｈが再設定される前に、ステップ
Ｓ２３９で、第２の調整定数ｄｐ２を差分値PRUNINGに
加算する。本実施形態において、この第２の調整定数ｄ
ｐ２は、調整定数ｄｐ１の半分に設定される。

【０１５４】当業者には明らかなように、刈り込みしき
い値を変化させる方法はコンピュータ処理に高価なコス
トを費やさせない。さらに、各時点で処理されるアクテ
ィブステートの数を制限するという方法を用いて刈り込
みしきい値が調整される。このため、割り当てられる処
理時間およびメモリが限界を越えないように調整するこ
とができる。

【０１５５】図２１に示される処理ステップのシーケン
スを用いて入力シーケンスのすべてのフレームが処理さ
れた後、ダイナミックプログラミングプロセスによって
決定された最適パスにより正しいパスを決定するために
バックトラッキングルーチンが要求される。本実施形態
において、バックトラッキングルーチンは、各パスが伝
わるワードのシーケンスを示すバックポインタを追跡す
る。このようなバックトラッキングルーチン（再帰ルー
チン）が行われる方法、およびポインタを発生させる方
法の詳細については、音声処理の当業者によく知られて
いるので、これ以上説明はしない。

【０１５６】＜初期化＞システムに入力発声音を認識さ
せる前に、認識処理中に用いられるシステムのしきい値
および変数を初期化しなければならない。この処理は、
以下の方法で行われる。まず、スタートノードＮ0に記
憶される累積距離は０に設定され、他のノードに記憶さ
れる累積距離は、大きな値を示すHUGEに等しくなるよう
に設定される。各ワードモデルに関連付けられ、潜在的
なアクティブステートの数をカウントするカウンタPACO
UNTは０に設定される。各ワードモデルに関連付けられ
た最終アクティブポインタＬＡは、それぞれのモデルの
エンドステートＳDを示すように設定される。各ワード
モデルに関連付けられた一時的記憶INSCOREは、大きい
値を示すHUGEに設定される。その後、すべてのノードが
処理され、各ワードの入力に接続されるすべてのノード
の累積距離の最小値は、各ワードに関連付けられた一時
的記憶INSCOREに複写される。これは、スタートノード
Ｎ0に接続された各ワードの一時的記憶INSCOREが０に設
定されることを保証する。最後に、各ワードのINSCORE
に記憶された値を用いて、各ワードモデルのエントリス
テートを作動させ、初期化する。各ワードモデルのエン
トリステートを初期化する処理ステップは、図３０を参
照して上述したエントリステートを更新するために用い
られる処理ステップと同一である。刈り込みしきい値お
よび差分値PRUNINGもまた、第１の入力フレームを処理
する前に、初期化される。特に、刈り込みしきい値Ｔｈ
は大きい値を示すHUGEに設定され、差分値PRUNINGは、
高刈り込みしきい値HIGHPRTHと等しくなるように設定さ
れる。

【０１５７】＜フレキシブルダイナミックプログラミン
グアラインメント＞上記において、本実施形態における
ワードモデルの生成方法について、図１３から図１６を
参照して詳細に説明を行った。特に、先ずはじめに、フ
レーズに含まれるワードについて分離ワードモデルが、
フレキシブルダイナミックプログラミングアラインメン
トを用いて生成される。すなわち、フレキシブルダイナ
ミックプログラミングアラインメントを用いて、そのフ
レーズに対応するパラメータフレームのシーケンスを、
分離して発声された当該フレーズに含まれるワードに対
応するパラメータフレームに関連付けることで分離ワー
ドモデルが生成される。以下、このフレキシブルアライ
ンメントプロセスについて詳細に説明する。なお、ここ
では、学習フレーズ「get an image」が与えられ、か
つ、そのフレーズに存在するワードに対するワードモデ
ルが無い場合を例に揚げて説明する。

【０１５８】図３３は、「get an image」というフレー
ズの発声音声に対応するパラメータフレームシーケンス
１５２と、「get」、「an」及び「image」の各分離ワー
ドの発声音声に対応するパラメータフレームシーケンス
１５８、１６０及び１６２を示す。パラメータフレーム
シーケンス１５２におけるパラメータフレームの幾つか
はバックグラウンドノイズもしくは沈黙に対応するの
で、フレーズに含まれる各分離ワードの間、先頭の分離
ワードの開始部分、最終の分離ワードの後部分にノード
２５１、２５３、２５５、２５７が提供される。これら
のノードは図１７ａで示された言語モデル中のノードに
類似の態様で動作し、処理中であるパラメータフレーム
１５２の現パラメータフレームが沈黙もしくはバックグ
ラウンドノイズに対応したものであるという状況に対応
可能である。この可能性は、図３３において、ノード２
５１，２５３、２５５及び２５７における沈黙フレーム
ｆsil（これは図１０において示されたノイズモデル２
３である）によって示されている。

【０１５９】パラメータフレームシーケンス１５８、１
６０、１６２のそれぞれの開始部分もしくは終了部分に
おけるフレームのいくつかは沈黙或いはバックグラウン
ドノイズに対応するものであるかもしれないが、パラメ
ータフレームシーケンス１５２内の沈黙或いはバックグ
ラウンドノイズに対応するパラメータフレームは、シー
ケンス１５８、１６０及び１６２内の沈黙に対応するフ
レームよりも、ノード２５１，２５２、２５５及び２５
７に格納された沈黙フレームｆsilによりよくマッチす
る。これは、沈黙フレームｆsilが全沈黙フレームの平
均を示すものであり、シーケンス１５２内の沈黙に対応
するフレームと沈黙フレームｆsilとの間の変動量が、
シーケンス１５２内の沈黙に対応するフレームと各シー
ケンス１５８、１６０及び１６２内の沈黙に対応するフ
レームとの間の変動量よりも小さいからである。

【０１６０】フレキシブルアラインメントプロセスが実
行される方法は、図１８〜３２を参照して説明したよう
な、入力音声が、格納されている標準モデルに関連付け
られる方法に類似している。特に、パラメータフレーム
１５８、１６０及び１６２を標準モデルとして、ノード
２５１，２５３、２５５、２５７、そしてシーケンスフ
レーム１５２を入力されたフレームとして用いる場合、
フレキシブルアラインメントプロセスの全体的な処理ス
テップは図２１に示されたフローチャートに従う。混乱
を避けるために、分離的に発声されたワードを表すパラ
メータフレームシーケンス１５８、１６０、１６２は、
ステートと称する。未知の入力音声を認識するために用
いられた標準モデルのステートと同様に、これらのステ
ートも関連する累積距離格納部を有する。この累積距離
格納部は、処理中のシーケンス１５２の現フレームに関
して、当該ステートまでのダイナミックプログラミング
パスの累積距離を格納する。

【０１６１】フレキシブルアラインメントプロセスと未
知の入力発声音声を認識するために用いられたアライン
メントプロセスとの主要な相違は次の通りである。すな
わち、フレキシブルアラインメントにおいては、（ｉ）
各ダイナミックプログラミングパスがあらゆる位置で
（エントリステートの一つに限らず）ワードに入ること
ができる、（ii）各ダイナミックプログラミングパスは
そこに存在するあらゆるステートから出ることができ
る。

【０１６２】フレキシブルアラインメントプロセスの動
作を上記例を用いて以下に説明する。なお、以下の説明
は、シーケンスパラメータフレーム１５２のはじめの少
しのパラメータフレームについて行う。

【０１６３】まず、第１のフレームを処理する前に、ノ
ード及びワードモデル内のステートの累積距離スコアを
初期化する。この初期化処理手順は、上述の、未知入力
音声を認識するのに先立って実行される初期化処理に類
似している。特に、スタートノード、すなわちノード２
５１に格納される累積距離はゼロに設定され、他の全て
のノードに格納される累積距離は大きな値を示すHUGEに
設定される。その後、ワードＷ１、Ｗ２及びＷ３におけ
るステートの累積距離スコアは、それらのワードの入力
に接続されたノードに格納された累積距離スコアを用い
て更新される。これは、フレームｆ0P1が処理されてい
るときに、ダイナミックプログラミングパスが第１のワ
ードＷ１及び第１のノード２５１の各ステートからスタ
ートできることを保証する。

【０１６４】初期化の後、第１フレームｆ0P1が、ワー
ドＷ１、Ｗ２及びＷ３に関して順次処理される。しかし
ながら、ワードＷ２及びＷ３内のステートに関連した累
積距離は値HUGEを有するので、第１ワードＷ１内のステ
ートに関してのみ、第１フレームが処理されることにな
る。ワードＷ１に関して第１フレームを処理する際、フ
レームｆ0P1とワードＷ１内の各ステートとの間の距離
は各ステートに対応付けられた累積距離格納部に格納さ
れる。フレキシブルアラインメントプロセスは図２８に
示された処理ステップを用いて、ノード２５１，２５
３、２５５及び２５７を順次処理する。最後に、ノード
処理の結果を用いてワードＷ１、Ｗ２及びＷ３内のステ
ートの累積距離スコアを更新することにより、第１フレ
ームｆ0P1の処理が完了する。この更新処理は、エント
リステート（すなわち、最初の３つのステート）だけで
なくワード内の全てのステートが更新されるということ
を除けば、図３０に示される処理と同様である。

【０１６５】シーケンス１５２の第１のパラメータフレ
ームが処理されると、第１のパラメータフレームｆ0P1
の処理によってスタートされたダイナミックプログラミ
ングパスを成長させるために第２のパラメータフレーム
ｆ1P1が処理される。入力された発声音声の認識に用い
られたダイナミックプログラミング手法で行ったよう
に、各ワードＷ１、Ｗ２及びＷ３のステートは逆方向の
順序で処理される。ここで、本実施形態において、図１
９及び図２０を参照して記述された伝搬の制限に類似し
た制限が用いられる。相違点は、未知の入力音声を認識
する場合では最後の３つのステートからのみ現ワードを
抜けることが許されたが、あらゆるステートから現ワー
ドを抜けることができるという点のみである。ワードＷ
１、Ｗ２及びＷ３が第２のパラメータフレームｆ1P1を
用いて処理されると、各ノード内で現在伝わっているダ
イナミックプログラミングパスを更新するために、ノー
ド２５１，２５３、２５５及び２５７が処理される。こ
の処理がなされると、ノード処理の結果を考慮するた
め、ダイナミックプログラミングパスを更新するため
に、ワードＷ１、Ｗ２及びＷ３が再び処理される。

【０１６６】パラメータフレームシーケンス１５２の残
りのパラメータフレームも、同様の方法で順次処理され
る。シーケンス１５２内の全てのパラメータフレームが
処理されると、最も低い累積スコアを有するダイナミッ
クプログラミングパスが決定される。パラメータフレー
ムシーケンス１５８、１６０及び１６２内の開始及び終
了フレームを特定するために、フレキシブルアラインメ
ントプロセスの間の各ダイナミックプログラミングパス
の成長が記録される。ここで、これら開始及び終了フレ
ームは、対応するワードを表す（沈黙は表さない）それ
らパラメータフレームの境界を示す。

【０１６７】特に、ダイナミックプログラミングパスが
手前のワードから、あるいはワードの手前からワードへ
入ったときはいつも、そのダイナミックプログラミング
パスが入ったステートが記録され、そのパスに関連付け
られる。同様に、ダイナミックプログラミングパスがワ
ードから出て、それが出たステートが記録されたとき、
そのパスに関連するスコアはそのワードから出た全ての
前のダイナミックプログラミングパスに関連するスコア
よりも低い。従って、パラメータフレームシーケンス１
５２内の最後のパラメータフレームが処理され、最良の
スコアを有するダイナミックプログラミングパスが特定
されると、パラメータフレームシーケンス１５８、１６
０、１６２内のワードのおおよその開始及び終了位置
が、ダイナミックプログラミングパスに関連する記録を
参照することにより、特定される。

【０１６８】当業者には明らかなように、フレキシブル
アラインメントプロセスに関する上記記載は、入力フレ
ーズ中に含まれる各ワードについてワードモデルが存在
しないという状況に特化されたものである。しかしなが
ら、標準モデルの学習は自然に増加するように、すなわ
ちユーザが適宜システムに学習させることができるよう
に設計されているので、入力フレーズ中のワードに対す
るワードモデルが既に存在するという状況が発生し得
る。この場合、フレーズとこのワードとの間のアライン
メントの最中において、既にワードモデルを有するワー
ドに対しては通常のダイナミックプログラミングプロセ
スを適用し、まだワードモデルの存在しない他のワード
に対してはフレキシブルダイナミックプログラミングア
ラインメントを適用するという、混合型のダイナミック
プログラミングアラインメントプロセスが採用される。

【０１６９】図１４のステップＳ２５、Ｓ２６を参照し
て説明したように、フレーズ内の未知のワードに対して
分離ワードモデルが決定されると、それらはワードを含
む入力フレーズのパラメータフレームシーケンスに関連
付けられ、ワードモデルがその結果から生成される。

【０１７０】＜ワードモデルの適用＞本実施形態による
音声認識システムの他の特徴は、図１０のワードモデル
１９、ノイズモデル２３および言語モデル２１が構築／
更新モジュール９１によって更新され、修正されること
である。したがって、記憶されたワードモデル１９は、
別のユーザの入力音声によって、修正されたり適応させ
られたりする。

【０１７１】図３４は、ワードモデル１９が別のユーザ
に適用される方法を示すフローチャートである。ステッ
プＳ２５１で、新しいユーザは、既知のワードまたはフ
レーズをマイクロフォン７またはキーボード３を介して
システムに入力する。したがって、構築／更新モジュー
ル９１は、新しいユーザから入力された発声音に対応す
るパラメータフレームのシーケンスと、キーボード３を
介して入力された対応するテキストとを有することにな
る。ステップＳ２５３で、システムは、入力発声音と、
当該発声音に存在することが認知されているワードの既
存のワードモデルとを、ダイナミックプログラミングル
ーチンを用いて関連付ける。すなわち、ダイナミックプ
ログラミングルーチンは入力発声音のパラメータフレー
ムと適切なワードモデルとを関連付ける。ステップＳ２
５５で、システムは、ワードモデルのステートをそのワ
ードモデルに関連付けられたパラメータフレームのシー
ケンスで直接に置き換える。ステップＳ２５７で、新し
いユーザが他のフレーズを入力することを決定した場
合、処理はステップＳ２５１に戻り、同様のルーチンが
次の入力発声音のために再度行われる。ステップＳ２５
７で、新しいユーザがこれ以上フレーズを用いないと決
定した場合、当該処理は完了する。

【０１７２】図３５は、ワードモデル１９が別のユーザ
のために用いられる第２の方法を示すフローチャートで
ある。ステップＳ２６１で、新しいユーザは、マイクロ
フォンを介して複数回およびキーボードを介して１回、
既知のワードまたはフレーズをシステムに入力する。し
たがって、構築／更新モジュール９１は、パラメータフ
レームの複数のシーケンスおよびキーボード３を介して
入力された対応テキストを有するようになる。ここで、
これら複数のシーケンスは、新しいユーザによって発声
された既知のワードまたはフレーズに対応する。ステッ
プＳ２６３で、システムは、各入力発声音と、当該発声
音に含まれることが既知であるワードに対応する既存の
ワードモデルとを、ダイナミックプログラミングルーチ
ンを用いて関連付ける。

【０１７３】ダイナミックプログラミングルーチンは、
各入力発声音のパラメータフレームと、適正なワードモ
デルのステートとを関連付ける。ステップＳ２６５で、
システムは、ワードモデルのステートをワードモデルに
関連付けられたパラメータフレームの平均で置き換え
る。本実施形態において、ワードモデルのステートが発
声音のパラメータフレームのいずれにも関連付けられな
かった場合、システムは、置き換えられた隣接ステート
を用いて捕間または外挿する。ステップＳ２６７で、新
しいユーザが他のフレーズを用いることを決定する場
合、処理はステップＳ２６１に戻り、同様のルーチンが
次のフレーズに対して再度行われる。ステップＳ２６７
で、新しいユーザがこれ以上フレーズを入力しないこと
を決定すると、処理は完了する。したがって、当業者に
明らかなように、新しいユーザは、ユーザの便宜上、既
存のワードモデルを増加させながら用いることができ
る。さらに、新しいユーザは、新しいワードまたはフレ
ーズを上述した方法でシステムに追加することもでき
る。

【０１７４】＜他の実施形態＞多数の変形が、本発明の
進歩性の概念から逸脱することなく、上記音声認識シス
テムになされ得る。これら種々の変形例のいくつかを以
下に説明する。

【０１７５】上記実施形態においては、すべての発声音
が処理される前に受信されるが、本システムは、音声を
受信しながら処理するというように、ワードモデルを漸
進的に動作させることができる。このような実施形態に
おいて、入力バッファが必要であるが、１つのフレーム
に相当する入力音声、すなわち、２０ｍｓｅｃの音声を
記憶しさえすればよい。当業者には明らかなように、本
システムを動作させるため、入力された音声の１つのフ
レームに対する処理のすべて（プリプロセッサおよび認
識ブロックで行なわれる）は、入力音声のその次のフレ
ームについて、処理のための準備が整う前に完了してい
なければならない。上記フレーム速度およびフレーム継
続時間を用いれば、入力音声のフレームを処理するため
に費やされる時間は１０ｍｓｅｃを下回るにちがいな
い。これは現在のプロセッサで達成し得るものである。
さらに、入力発声音の各フレームのパワーパラメータ
は、異なる方法で正規化されなければならない。このよ
うな実施形態におけるパワーの正規化の方法の１つとし
ては、例えば過去の２０個にわたる入力音声のパワーに
基づいて適応される適応正規化係数を用いることが揚げ
られる。

【０１７６】また、第１の実施形態において、ダイナミ
ックプログラミングパスの終わりにあったワードモデル
のステートは、そのワードモデルに対応するアクティブ
リストに登録されていた。他の実施形態においては、総
括アクティブリストを１つ備え、そこに、すべてのワー
ドモデルのすべてのアクティブステートを登録する。こ
のような他の実施形態においては、総括アクティブリス
トに関連して、特定のアクティブステートがどのワード
モデルに属するかの情報が記憶されなければならない。

【０１７７】第１の実施形態において、ワードモデルの
ステートは、持続時間において、認識されるべき入力音
声のフレームと対応する。他の実施形態において、ワー
ドモデルの各ステートは、持続時間に関して、例えば入
力音声の３つの連続フレームと等しい。このような他の
実施形態において、入力フレームは、３つのフレームグ
ループによって平均化され、ワードモデルのステートに
関連付けられる。

【０１７８】さらに、他の実施形態は、ワードモデルに
統計モデル、例えば隠れマルコフモデルを採用するもの
であり、これは音声認識の当業者に知られている。この
ような実施形態においては、入力発声音とワードモデル
のシーケンスとの間の最小累積距離を決定するのではな
く、隠れマルコフモデルの特定のシーケンスによって入
力シーケンスが生成された最大の可能性が決定される。
このような実施形態において、隠れマルコフモデルは、
第１の実施形態で発生された連続標準モデルと同様の方
法で発生される。特に、ワードの分離標準モデルは、ワ
ードの発声音とそのワードを含むフレーズの１つ以上の
発声音とを比較することによって、生成される。平均パ
ラメータフレームおよび隠れマルコフモデルのステート
の共分散マトリクスを生成し、ステートの遷移確率を生
成するために、分離標準モデルはワードを含む複数のフ
レーズ例とともに用いられる。この処理が行われる方法
は、音声認識の当業者には明らかである。

【０１７９】第１の実施形態において用いられる標準モ
デルは、すべてのワードに対応する。当業者に明らかな
ように、このことは本質的なことではない。標準モデル
は、ワードの部分、例えば、音節、複数のワード、個々
の音素にさえ相当する。しかしながら、音素に相当する
標準モデルを用いると、システムが言語に依存するよう
になり、不利である。すべてのワードに対応する標準モ
デルは、すべてのフレーズに対応する標準モデルより好
ましい。なぜなら、時間およびコンピュータ処理の手間
を節約することができるからである。特に、フレーズ内
のワードをモデルにし、言語モデルを用いることによっ
て、システムに少量のワードしか用いない多くの異なる
フレーズを教えられる。他方、標準モデルがすべてのフ
レーズに相当する場合、標準モデルは、システムによっ
て学習されるべき種々のフレーズのそれぞれに必要とな
る。また、この利点に加えて、ワードに相当する標準モ
デルを用いると、フレーズのワード間の間隔に対するシ
ステムの柔軟性が増す。これは、フレーズの始めまたは
終わりおよびフレーズのワードの間に現れる環境モデル
によって可能になる。

【０１８０】さらに他の実施形態において、モデルの連
続フレームが類似する場合、標準モデルは圧縮される。
標準モデルが圧縮されると、類似の連続フレームは、１
つのフレームに置き換えられる。このような実施形態に
おいて、入力発声音の連続フレームが２回までしかワー
ドモデルの同じステートに関連付けられないというよう
なダイナミックプログラミングプロセスに対する制限
は、除去されなければならない。

【０１８１】図１７に示される言語モデルにおいて、あ
るワードに２つの異なるワードが続く場合、それら２つ
のワードの何れが当該ワードに続くかについて優先度は
ない。他の実施形態においては、いくつかのワードのシ
ーケンスに他のシーケンスより優先度を高めるよう、重
みを付けることができる。例えば、図１７ａに示される
フレーズについては、「make it more…」（ここで、
「…」の部分には色名称が続く）というフレーズは、
「make it smaller」または「makr it larger」または
「make it brighter」というフレーズより一般的である
ことが知られているとする。従って、この場合は、ノー
ドＮ７からノードＮ８までの遷移が、ノードＮ７からノ
ードＮnまでの遷移よりも強くなるように設定される。
これは、ノードＮ７から「more」、「smaller」、「lar
ger」、「brighter」というワードへ伝わる累積距離に
重み付けを行う重み係数を用いることによって達成され
る。

【０１８２】当業者には明らかなように、許容されたワ
ードのシーケンスを決めるために用いられる言語モデル
は、バイグラム（二重字）モデルである必要はないが、
いかなる知られたタイプの言語モデル、例えば定型文法
モデルでもよい。用いられた言語モデルのタイプが変更
される場合、上記のダイナミックプログラミングマッチ
ングプロセスにはいくつかの変更が必要となるが、この
ような改造は、音声認識の当業者には明らかである。し
かしながら、マッチングプロセスの重要な特徴部分は変
化されないままとなる。どんなパターンの合致プロセス
にも合うように設計されているからである。

【０１８３】第１の実施形態において、あるワードの標
準モデルを生成する前に、そのワードを含む少なくとも
２つのフレーズが入力されなければならない。これは、
操作上の好ましい方法であり、ワードモデルを、そのワ
ードを含む１つのフレーズ例のみから各ワード毎に発生
させることもできる。しかしながら、このような実施形
態によって得られる標準モデルは、どのようなフレーズ
が与えられた場合でも、あまり典型的なものとはならな
い。さらに、第１の実施形態で用いられた学習方法にお
いて、１つのワードに対していったん標準モデルを決定
すると、ワードモデルは、次の入力学習フレーズがその
ワードを含むかどうかに関らず、変更されない。他の実
施形態においては、すでにワードモデルがあるワード例
を含む入力フレーズを用いて、学習セッション中に既存
のワードモデルを更新することを可能とする。

【０１８４】ユーザが音声認識システムを学習させて、
既に分離して入力された複数のワードを含むフレーズを
入力すると、システムは、それらのワードについて分離
した状態で再度入力するようユーザに促すことはしな
い。これに対して、他の実施形態においては、システム
は、ユーザにそのようなワードを再度入力するよう促
し、ワードの２つの発声音が大して違わないことを確認
するべくチェックを実行する。

【０１８５】第１の実施形態において、標準モデルが学
習されたりまたは用いられる場合、ユーザはテキストを
入力し、それに相当する音声コマンド入力しなければな
らない。音声認識の当業者には分かるように、これは必
須ではない。テキストを入力する代わりに、ユーザはキ
ーボード、ファクシミリ、複写機等の相当するキーまた
はキーの組み合わせを押すようにしてもよい。例えば、
複写機で用いるためにシステムに学習させる場合におい
て、音声コマンド「copy（複写）」と入力し、これに対
する所望の機械の応答は、ユーザが複写ボタンを押しさ
えすれば、入力される。

【０１８６】さらに、上記のダイナミックプログラミン
グマッチングプロセス、標準モデルの発生および適応プ
ロセスを実行させる方法が、他のタイプのパターンマッ
チングのためにも用いられることは、パターンマッチン
グの当業者に明らかである。例えば、上記パターン合致
プロセスは、手書き文字の認識または他のパターン合致
技術で用いられることが考えられる。

【０１８７】連続ワード音声認識システム（文音声認識
システム）は、上記の第１の実施形態に記載されている
が、記載されたシステムの多くの特徴が他の種類の音声
認識システムにも等しく適用できることは当業者には明
らかである。例えば、分離ワードモデルを決定する方法
および上記分離ワードモデルは、分離ワード音声認識シ
ステム（単語音声認識システム）で用いられる。同様
に、ダイナミックプログラミングプロセスが行われる方
法の多くの特徴および刈り込みしきい値が調整される方
法は、いずれの音声認識システムでも用いられ、ここで
標準モデルは、音声のいかなる部分、例えば音素、音節
等にも対応させ得る。

【０１８８】第１の実施形態に記載された音声認識シス
テムは、多くの異なるソフトウェアアプリケーション、
例えばスプレッドシートパッケージ、グラフィックパッ
ケージ、ワードプロセッサパッケージ等とともに用いる
ことができる。音声認識システムがそのような複数のソ
フトウェアパッケージとともに用いられる場合、特に、
各アプリケーションで用いられるフレーズが異なる場
合、各パッケージ毎にワードおよび言語モデルを分ける
ことが有利である。この理由は、ワードモデルの数が増
加したり、言語モデルのサイズが大きくなるにつれて、
システムが入力発声音を認識するための時間が長くなる
からである。したがって、各アプリケーション毎にワー
ドおよび言語モデルを分けることによって、音声認識シ
ステムの速度を維持できる。さらに、いくつかのワード
および言語モデルは、各アプリケーションに用いられ得
る。

【０１８９】さらに、当業者に明らかなように、上記音
声認識システムは、多くの異なるタイプのハードウェア
でも用いられる。例えば、パーソナルコンピュータ等の
機器で用いられるのは明らかであるが、それ以外に、音
声認識システムは、ファクシミリ、電話、プリンタ、複
写機等、人間と機械のインタフェースを有する各種機器
のユーザインタフェースとして用いられ得る。

【０１９０】＜適用例＞上記音声認識システムにおける
一つの応用は電話システムである。図３６はオフィス環
境において用いられる典型的な電話システムの構成を示
す図である。システムは複数のアナログ或いはディジタ
ル電話機２７１と、モデム２７２（これはコンピュータ
に接続されてよもい）と、これらをオフィスに設けられ
たローカル交換機（LOCAL EXCHANGE）２７３へつなぐ電
話線２９３とを備える。各電話機２７１は、通常、一人
のユーザもしくは複数ユーザのグループに対して設けら
れ、発呼者ＩＤによってローカル交換機２７３によって
特定される。これは、建物内のユーザが単に他のユーザ
に設けられた電話機の発呼者ＩＤをダイヤルすることで
当該他のユーザをコールすることを可能とする。ローカ
ル交換機２７３は複数の電話線２７５を介して、公衆交
換機２７７とも接続され、遠隔地のユーザがオフィス内
のユーザにコンタクトすること、及びその逆を可能とし
ている。ローカル交換機２７３に直接に接続されている
ユーザ、及び音声認識ユーザインターフェースにアクセ
スできるユーザを、以降ローカルユーザと称する。ま
た、夫れ以外のユーザはリモートユーザと称する。ロー
カル交換機２７３の目的は、内部の電話機２７１の間の
接続や、公衆交換機２７７との間でやりとりされる（コ
ール）の接続を制御することである。更に、ローカル交
換機２７３は内部電話２７１に対して電話サービスを提
供し、公衆交換機２７７によって提供されるサービスの
機能を制御する。

【０１９１】図３７は、図３６で示される電話機２７１
の一つの外観を示す図である。電話機２７１は、コード
２８５によって電話機本体２８３に接続されたハンドセ
ット２８１を有する。電話機本体２８３は液晶表示器２
８７、標準的な１２ボタンキーパッド２８９、複数のフ
ァンクションキー２９１を有する。電話機２７１は電話
線２９３によってローカル交換機２７３に接続されてい
る。この実施形態において、ローカル交換機２７３は、
発声コマンドを受け付け可能である。この発声コマンド
は、ローカルユーザ間のコールをセットアップするため
のもの、ローカルユーザとリモートユーザ間のコールを
セットアップするためのもの、ローカル交換機２７３や
公衆交換機２７７によって提供される電話サービスにア
クセスするためのものを含む。ローカル交換機２７３が
音声コマンドとユーザ間の通常の会話とを区別できるよ
うに、各ハンドセット２８１は制御ボタン２９５を備え
る。この制御ボタン２９５は、ローカルユーザによって
なされる音声コマンドと通常の会話音声との境界を示す
のに用いられる。例えば、電話機２７１の一つのローカ
ルユーザがオフィス内のもう一人のローカルユーザをコ
ールしたい場合、ローカルユーザはボタン２９５を押
し、ハンドセット２８１内のマイクロフォンに「ｃａｌ
ｌ」と音声を入力する。このとき、コール先のユーザの
発呼者ＩＤかもしくはコール先のユーザの名前のような
その発呼者ＩＤに協動する識別子も音声入力する。ボタ
ン２９５からの信号は、ローカルユーザの発声音声に対
応する音声信号とともにローカル交換機２７３に電話線
２９３を介して供給される。そして、ここで音声コマン
ドが認識され、適切な接続が実行される。ローカル交換
機の音声認識能力の更なる詳細を以下に説明する。

【０１９２】図３８はローカル交換機２７３の部分的構
造を詳細に示すブロック図である。ローカル交換機２７
３はスイッチングネットワーク（SWITCHING UNIT）３０
１及び制御ユニット（CONTROL UNIT）３０３を有する。
電話機２７１よりの音声信号は電話線２９３ａを介して
ローカル交換機２７３へ供給される。そして、スイッチ
ングネットワーク３０１か制御ユニット３０３のいずれ
かに供給される。この切り換えは、ボタン２９５よりの
信号（矢印３０６によって示されている）によって制御
されるスイッチ３０５によって行われる。ボタン２９５
が押されていない場合、スイッチ３０５はターミナルａ
に接続され、ローカルユーザからの音声信号はスイッチ
ングネットワーク３０１に供給される。そして、ローカ
ル交換機から電話線３０７ｂを介して要求された目的地
へ供給されることになる。一方、ボタン２９５が押下さ
れている場合は、スイッチ３０５はターミナルＢに接続
され、電話線２９３ａ上の音声信号は制御ユニット３０
３へ供給される。制御ユニット３０３はその音声信号を
認識し、ローカル交換機２７３の動作を制御するための
制御信号３０９を出力する。この実施形態において、制
御ユニット３０３はライン３１０によって、音声コマン
ドの入力に使用された電話機上のＬＣＤ表示器２８７に
接続されている。このようにして、制御ユニット３０３
は、確認等の目的のためにユーザとコミュニケーション
することができる。或いは、制御ユニット３０３は電話
機２７１の拡声器を介して合成音声を出力することによ
りユーザとコミュニケーションすることもできる。完全
多重の通信路を提供するために、第２の通信路がローカ
ル交換機２７３を通じて電話機２７１に提供されてい
る。この第２の通信路は図３８においてライン２９３ｂ
及びライン３０７ａとして示され、これらはスイッチン
グネットワーク３０１を介して互いに接続される。次
に、図３９を参照して制御ユニット３０３のより詳細な
説明を行う。図３９は、図３８に示された制御ユニット
３０３の主要な要素を示したブロック図である。電話機
２７１よりの音声信号は認識ユニット（RECOGNITION UN
IT）３２１に供給される。認識ユニット３２１は音声信
号と予め格納されたモデルとを比較し、その認識結果を
ライン３２３上に出力することでコマンド解析部（COMM
AND INTERPRETER）３２５に供給する。コマンド解析部
３２５は、認識結果とメモリ（MEMORY）３２７に予め格
納された辞書３２８及び３３０とを比較することによ
り、あらゆるコマンド及び・或いは識別子を識別する。
これにより、コマンド解析部はライン３２９上に制御信
号を出力する。この制御信号は、コマンド実行部（COMM
AND EXECUTER）３３１の動作を制御する。そして、この
コマンド実行部３３１は、ユーザのコンフィグレーショ
ンを制御し、誤った情報をユーザに与えないことを保証
するとともに、適切な電話サービスを制御する。これら
の各構成について更に詳細に説明する。

【０１９３】認識ユニット３２１には上述のものと同様
の音声認識システムを用いる。従って、認識ユニット３
２１は、連続的に発声された音声を認識することができ
る。認識ユニット３２１は、有効な電話サービスに対応
する予め定義された複数の認識結果をを有する。この実
施形態において、認識結果は英語であるが、システムは
あらゆる言語に適用可能である。電話サービスへのアク
セスを可能とするために、各ローカルユーザは、特定の
入力音声信号と対応する認識結果とが関連するように認
識ユニット３２１を学習させなければならない。この学
習の過程は、各ローカルユーザに対するワードモデル、
ノイズモデル、言語モデルのセットを生成する。従っ
て、各ローカルユーザは自身のモデルのセットを持つこ
とになるので、各ローカルユーザより入力される実際の
音声コマンドは同一である必要はない。例えば、自動ダ
イヤル電話サービスにアクセスするために、第１のロー
カルユーザは「ring」という音声コマンドを音声認識ユ
ニット３２１を学習させ、他方、第２のローカルユーザ
はそのサービスにアクセスするための音声コマンドを
「call」という音声コマンドで音声認識ユニット３２１
を学習させるという状況に対応しうる。

【０１９４】新規ユーザがローカル交換機２７３に加え
られた場合、初期学習ルーチンが最も基本的な電話サー
ビスをアクセスするために入力される音声コマンドのた
めのワードモデルを確立する。ここで、初期学習ルーチ
ンは、そのローカルユーザが電話機２７１上のファンク
ションキー２９１の一つを押すことによって起動され
る。また、初期学習ルーチンで扱われる基本的な電話サ
ービスとしては、自動ダイヤル、着信転送、着信保持等
が揚げられる。こうして、その新規ローカルユーザは、
限られた範囲で、ローカル交換機２７３の音声認識ユー
ザインターフェースを利用することができるようにな
る。その他の電話サービスに音声認識インターフェース
を介してアクセスできるようにするために、新規ローカ
ルユーザは、それらのサービスにアクセスするのに用い
る音声コマンドで音声認識ユニット３２１を学習させな
ければならない。この更なる学習は、漸進的に、そして
ユーザの都合に応じて進めることができる。本実施形態
において、この付加的な学習は、電話機２７１上のもう
一つのファンクションキー２９１をその新規ユーザが押
すことによって開始される。起動に際して、ローカル交
換機２７３は、ＬＣＤディスプレイ２８７を介して、そ
の新規ユーザに、ワードモデルを生成し言語モデルを更
新させようとしている電話サービスに対してアクセスす
るための通常の操作で、電話機２７１上のキーもしくは
キーの組み合わせを押すように促す。続いて、ローカル
交換機２７３は新規ユーザに対して、ＬＣＤディスプレ
イ２８７を介して、その電話サービスに関連する適切な
ワードモデルを生成するため、そのサービスに対して用
いられる音声コマンドをハンドセット２８１を介して１
回もしくはそれ以上入力するよう促す。ワードモデルが
生成されると、言語モデルはその新しい音声コマンドを
組み込むように更新される。

【０１９５】動作について説明する。ローカルユーザが
ハンドセット２８１に対して発生し、同時にボタン２９
５を押すと、認識ユニット３２１は発声音声の認識を開
始し、本実施形態においては、入力音声に対応する認識
結果が出力される。しかしながら、この段階において認
識ユニット３２１より出力されたワード或いはワードの
シーケンスは当該電話システムにとって意味をなしてい
ない。意味を持つ認識結果を与えるためには、コマンド
解析部３２５によって解析されなければならない。

【０１９６】認識結果に意味を与えるために、コマンド
解析部３２５は認識結果を、当該音声コマンドを入力し
たローカルユーザに関連付けられた言語特定辞書３２５
及び電話帳３３０と比較する。辞書３２８と電話帳３３
０はともにメモリ３２７に格納されている。言語特定辞
書３２８は前もって設定され、ローカル交換機２７３に
よって提供されうる電話サービスと音声認識ユニット３
２１より出力されるワードの言語に依存する。辞書は認
識ユニット３２１より出力されたワードの幾つかを、対
応する電話サービスに関連付ける。ユーザ定義される電
話帳３３０は、当該ローカル交換機２７３に接続された
他のローカルユーザや公衆交換機２７７に接続されたリ
モートユーザの電話番号や識別子を格納する。

【０１９７】本実施形態において、ローカル交換機２７
３に接続された各ローカルユーザは、関連する電話帳３
３０を有する。そして、使用された電話機２７１もしく
は他の識別処理によってローカルユーザが特定される
と、対応するワードモデル、ノイズモデル及び言語モデ
ルが認識ユニット３２１にロードされ、対応する電話帳
３３０がメモリ３２７にロードされる。電話帳３３０は
プリストアされた辞書３２８と同様に機能するが、ユー
ザによって更新可能である点が異なる。例えば、新しい
エントリを追加したり、既存のエントリに対応する電話
番号を変更したりすることができる。ユーザの電話帳３
３０に新規エントリが追加される場合、そのユーザを特
定するために入力される音声を認識可能とすべく、音声
認識ユニット３２１を学習させなければならない。

【０１９８】本実施形態において、ローカルユーザは新
規エントリの電話帳３３０への追加を以下の手順で行う
ことができる。最初に、ローカルユーザは、ローカル交
換機２７３に対して新規エントリを電話帳３３０に追加
したい旨を通知する。この通知は、音声認識ユーザイン
ターフェースを介して「new entry」という音声コマン
ドを入力することで行う。これに応答して、ローカル交
換機２７３は、ＬＣＤディスプレイ２８７を介して、キ
ーパッド２８９を用いてそのユーザの識別子をテキスト
形態で入力するように促す。ローカルユーザが適切な識
別子をタイプすると、ローカル交換機２７３は、ＬＣＤ
ディスプレイ２８７を介して、電話帳３３０に追加され
るべきユーザの電話番号を入力するよう促す。ローカル
ユーザが適当な番号をキーパッド２８９を用いて入力す
ると、ローカル交換機２７３は電話帳３３０に適切なエ
ントリを生成する。最後に、ローカル交換機２７３は、
液晶ディスプレイ２８７を介して、そのユーザを識別す
るために入力されることになる発声音を１回以上音声形
態で入力するよう促す。これにより、認識ユニット３２
１は適切なワードモデルを生成できるとともに、言語モ
デルを適応させることができる。

【０１９９】コマンド解析部３２５は、どの電話サービ
スが要求されたかを識別するために、及び／或いは、別
のユーザの識別子及び電話番号を識別するために、音声
認識ユニット３２１より出力された認識結果を入力して
これを解析する。コマンド実行部３３１は、コマンド解
析部３２５の出力を受けて、システムチェックを開始す
る。このシステムチェックにより、要求された電話サー
ビスが既に当該システムで発生したものと矛盾を生じな
いかを確認する。要求された電話サービスが有効であれ
ば、コマンド実行部３３１は、ＬＣＤディスプレイ２８
７を介して、コマンド実行部３３１が実行しようとして
いるものがそのローカルユーザが欲しているものである
かどうかを確認するよう、ローカルユーザに促す。確認
信号を受けると、コマンド実行部は適切な電話サービス
を実行する。

【０２００】例えば、ローカルユーザが音声コマンド
「Call Tom」を入力したとすると、認識及び解析の後
に、コマンド実行部３３１はＬＣＤディスプレイ２８７
上に、「Tomをコールしたいのですか？（do you want t
o call Tom?）」と表示し、確認信号を待つ。確認信号
が受信されるとこれに応答して、例えば、音声コマンド
「はい（yes）」の入力に応答して、コマンド実行部は
ローカル交換機２７３に適切な処理を行わせる。どうよ
うに、コマンド実行部３３１が、コマンド解析部によっ
て特定された電話サービス（要求された電話サービス）
が、既に当該システムで発生しているものと矛盾を生じ
てしまう場合、その音声コマンドが何故有効でないかを
ローカルユーザに通知する。例えば、入力された音声コ
マンドが「Call Tom」である上記状況において、コマン
ド実行部３３１にステータスチェックがそのユーザが既
にTomと通話していることを示すと、コマンド実行部は
ディスプレイ上に「あなたは既にTomと通話中です（you
are already speaking to Tom）」と表示するための出
力を行う。

【０２０１】本実施形態において、ローカル交換機２７
３は、とりわけ、各ローカルユーザに対して、即ちロー
カル交換機２７３に接続されている各電話機２７１に対
して、コマンド実行部３３１によって使用されるべく以
下のようなステータス情報（STATUS）３３２を有する。
すなわち、そのユーザは通話している相手そのユーザがダイヤルしている相手そのユーザが保留している相手そのユーザがメッセージを行っているか否かそのユーザを保留した相手（もし知っていれば）そのユーザが電話会議をした相手（もし知っていれば）である。

【０２０２】この情報を格納することにより、コマンド
実行部３３１は、コマンド解析部３２５によって特定さ
れた電話サービスが有効であるか否かを確認することが
できる。上記ステータス情報３３２に加えて、コマンド
実行部３３１は、コマンド解析部３２５から受信した最
終の出力を、アクション保留変数に格納する。このアク
ション保留変数に格納された出力は、確認信号がローカ
ルユーザによって入力されるまで、或いはローカルユー
ザによって入力された新しい音声コマンドに対応する新
しい出力によって置き換えられるまで、そこに保持され
る。

【０２０３】ステータス情報３３２は、コマンド実行部
３３１が音声コマンドが有効であるか否かをチェックす
るための便利な方法を提供するばかりでなく、認識結果
が識別子のみを備えるような場合にコマンド実行部３３
１に対して重要な情報を提供することになる。例えば、
コマンド解析部３２５が、認識結果から、ローカルユー
ザが識別子である「Tom」だけを入力したことを確認し
た場合、コマンド解析部３２５はTomという識別子及び
関連する電話番号とともにジェネラルコマンドを出力す
る。このジェネラルコマンドにより、コマンド実行部３
３１はステータス情報３３２をチェックし、どのコマン
ドが有効となるかを調べる。上記の例によれば、コマン
ド実行部３３１は、ジェネラルコマンドにより、ユーザ
Tomが保留中か否かを調べ、もしそうでなければ当該ロ
ーカルユーザが現在Tomと通話しているか否かを調べ
る。そして、通話中でなければ、コマンド実行部３３１
は「Tomをコールしますか（do you want to call Tom
?）」をＬＣＤディスプレイ２８７上に表示出力し、ア
クション保留変数に「Call Tom」を格納する。

【０２０４】一方、識別子が「ライン１（line 1）」
（システムによって知られていない者からの外部よりの
着信があったことを示す）であった場合は、これは関連
する発呼者ＩＤを持たないが、コマンド解析部３２５は
識別子「ライン１」を、機能限定付コマンドとともにコ
マンド実行部に出力する。この機能限定付コマンドは、
当該コマンドは「ライン１をコールする」というコマン
ドにはなり得ない（そのようなコマンドは意味をなさな
い）ことをコマンド実行３３１に知らせる。

【０２０５】確認要求の出力に加えて、コマンド実行部
は、特にステータスが変化したときに、ユーザとの間で
現在進行しているコールのステータス情報をＬＣＤディ
スプレイ２８７に出力することも行う。例えば、Tomが
ユーザDavidと通話中である場合に、TomがDavidを保留
状態にすることを要求した場合、コマンドの確認等を行
った後、コマンド実行部３３１はDavidを保留とし、Tom
のディスプレイ上には「Davidは保留中です（David is
on hold）」という表示を行い、Davidのディスプレイ上
には、もしもDavidがローカルユーザであれば、「Tomは
あなたを保留としました（Tom has put on you on hol
d）」という表示を行う。しかしながら、ローカル交換
機２７３のステータスが高速に変化する原因となるイベ
ントが発生した場合は、混乱が生じる。例えば、「Davi
dを保留にする（put David on hold）」というコマンド
の確認段階においてDavidが電話を切った場合、コマン
ド実行部は「Davidが電話を切りました（David has run
g off）」という出力を行う。そして、その直後に、Tom
が彼のコマンドである「put David on hold」に対する
確認を行った場合、実際にはDavidは電話を切っている
のだが、コマンド実行部３３１は「Davidは保留中です
（David is on hold）」という出力を行ってしまう。こ
のような対立するメッセージの問題を回避するため、シ
ステムが確認段階にはっている間は、システムのステー
タス情報は保持、固定され、あらゆる新しいステータス
情報はバッファに格納される。加えて、コマンド実行部
３３１から出力されたメッセージを読むための時間をユ
ーザに与えるために、各メッセージは設定された時間分
表示され続ける。

【０２０６】上述したように、現在の電話システムは、
着信に応じられない場合に、関連するメールボックスに
各ユーザに対するメッセージを格納することができるこ
の実施形態において、ローカル交換機２７３は発呼者か
らのメッセージを各メールボックスに３つの概念的なリ
ストにして登録する。一つは新規メッセージをリストす
るもの、一つはユーザに対して再生済みの旧メッセージ
をリストするもの、そして残りの一つは再生されるべき
メッセージの現在の選択をリストするものである。加え
て、各メールボックスは、メッセージを消去の前に一時
的に格納するいわゆるウエイストバスケット（waste ba
sket）を有する。実際、メッセージは一つのリストに登
録される。そして、各メッセージは複数の識別子を有
し、ローカル交換機２７３に対して各メッセージがどの
リストに属するかを知らせる。図４０は新規メッセージ
リスト３５１、旧メッセージリスト３５３、現メッセー
ジリスト３５５及びウエイストバスケット３５７を示す
図である。

【０２０７】発声によるメッセージを格納するのに加え
て、ローカル交換機２７３はそのメッセージが残された
時刻及び日付とそのメッセージを残した発呼者ＩＤを格
納する。発呼者ＩＤは内線番号或いは公衆交換機に接続
された電話の電話番号であってもよい。従って、本実施
形態では、ローカルユーザが、特定の発呼者（当該ロー
カルユーザに関連する電話帳３３０に登録されている発
呼者）によってなんらかのメッセージが残されているか
どうかに興味がある場合、その発呼者からのメッセージ
を再生するようにシステムに要求することができる。ま
た、本実施形態を変形し、ローカルユーザが、電話帳３
３０に存在しない発呼者からのメッセージを再生するべ
く、このメッセージ回収システムを用いることができ
る。しかし、そのような実施形態においては、音声認識
ユニットは連続的に発声される数字を、それがいかなる
順序で入力されても、認識できなければならい。これ
は、上述のような音声認識システムを用いることの実施
を困難にする。なぜならば、これに対応する言語モデル
が必要だからである。従って、そのようなシステムにお
いては、２つの並列的な音声認識ユニットが用いられ
る。ここで、一方は、通常の音声コマンドを認識し、他
方は数字を認識する。

【０２０８】図４１は、特定の発呼者からの新規メッセ
ージを再生するようにローカルユーザがローカル交換機
２７３に要求したときの処理ステップを示すフローチャ
ートである。ステップＳ３０１において、ローカル交換
機２７３は特定の発呼者の発呼者ＩＤと、新規メッセー
ジリスト３５１に格納されたメッセージに対応する発呼
者ＩＤとを比較する。ステップＳ３０２において、ロー
カル交換機がマッチングするものが無いと判断した場合
はステップＳ３０３へ進む。ステップＳ３０３におい
て、ローカル交換機が当該ローカルユーザのディスプレ
イ２８７を用いて、その特定の発呼者からのメッセージ
が無いことを表示し、本処理を終了する。一方、ステッ
プＳ３０２においてマッチするものがあると判断された
場合、ステップＳ３０４においてローカル交換機２７３
は適応するメッセージを現メッセージリスト３５５に登
録する。そして、ユーザに音声コマンドの確認を要求す
る。確認が得られない場合、もしくは別の音声コマンド
が入力された場合は、当該処理を終了する。確認が得ら
れた場合は、処理はステップＳ３０６へ進む。ステップ
Ｓ３０６において、現メッセージリストの最初のメッセ
ージを再生する。更に、図４０の矢印３５２によって示
されるように、現メッセージリストよりメッセージが再
生されると、それは新規メッセージリスと３５１から旧
メッセージリスと３５３へ移動される。

【０２０９】第１のメッセージが再生された後、ステッ
プＳ３０７において、ローカル交換機２７３は現リスト
３５５内の全メッセージが再生されたかどうかを判断す
る。現メッセージリスト３５５の全てのメッセージが再
生されていなければ、ローカル交換機２７３は、ステッ
プＳ３０９において、次の音声コマンドをローカルユー
ザが入力するのを待つ。そして、そのローカルユーザに
よって入力された次の音声コマンドが次のメッセージの
再生要求であれば、ローカル交換機２７３は現メッセー
ジリスト３５５上の次のメッセージを再生し、処理をス
テップＳ３０７へ戻す。ローカルユーザが次のメッセー
ジの再生を要求せず、直前のメッセージを再生すること
を要求した場合は、ローカル交換機２７３は最後に再生
したメッセージを再び再生し、ステップＳ３０９へ戻
る。

【０２１０】ローカルユーザがメッセージを再生してい
るときでも、メールボックス機能に関する音声コマンド
は制限されない。例えば、最初のメッセージが再生され
た後、次のメッセージを聞くよりも、そのメッセージを
伝えるために別のユーザをコールしたいような場合があ
る。そして、このような作業を終えた後に、次のメッセ
ージを再生するように要求するという場合もある。これ
を達成するために、現メッセージリスト３５５上の再生
された最終メッセージを示すポインタが用いられる。

【０２１１】現メッセージリスト３５５の全てのメッセ
ージが再生されると、ローカル交換機２７３はローカル
ユーザにこの旨をディスプレイ２８７を介して伝える。
現メッセージリスト３５５は、電話機のハンドセット２
８１が電話機本体２８３に再度置かれるまで、もしくは
再生されるべきメッセージの別の選択によってそれが上
書きされるまで初期化されない。新規メッセージを再生
するのと同様の方法で、旧メッセージもまた再生すべく
選択されうる。一度メッセージが再生されるか、もしく
は保持しておく必要が無くなった場合、ローカルユーザ
はそのメッセージを消去するために適切な音声コマンド
を入力することができる。例えば、ローカルユーザがユ
ーザDavidからの全ての新規メッセージを再生し終えた
場合、「Davidからの旧メッセージを消去する（Delete
old messages from David）」という音声コマンドを入
力することができる。確認の後、ローカル交換機は、Da
vidからの全ての旧メッセージをウエイストバスケット
３５７に移動する。例えば、以上のように、ローカルユ
ーザはローカル交換機２７３に対して動作を繰り返すこ
とを要求できる。これを可能とするために、ローカル交
換機２７３は格納変数に、直前の繰り返しが可能な動作
を格納する。それゆえ、ローカルユーザが「繰り返し
（repeat）」という音声コマンドを入力した場合、ロー
カル交換機２７３はその変数に格納された動作を実行す
る。更に、コマンドを繰り返すことを容易とするため
に、システムは、ユーザが現在どの機能（例えばメール
ボックス機能や電話呼び出し機能等）が使用中であるか
をローカル交換機に示すジェネラルポインタを用いる。
このポインタは、曖昧なコマンドが入力された場合に何
が要求されているかを決定するための時間を節約するの
にも用いられる。例えば、ユーザが、メッセージの再生
を止めるために、或いは誰かへのダイヤルを止めるため
に、「音声コマンド「停止（stop）」を入力した場合、
このジェネラルポインタを用いてどの機能をユーザが現
在使用しているかを識別することにより、ローカル交換
機２７３が各機能において現在処理中となっている全て
の動作を確認するという必要が無くなる。

【０２１２】上述したように、本実施形態の電話システ
ムは、複数ユーザ間による電話会議の確率及び制御が可
能である。本実施形態において、電話会議は以下の手順
で開始される。まず、ローカルユーザは他のユーザ、例
えばTomをコールし、その後彼を保留とする。そして、
ローカルユーザは、その会議に参加すべきもう一人のユ
ーザ、例えばDavidをコールする。そして、Davidとの通
話中にハンドセット２８１のボタン２９５を押して音声
コマンド「include」を、Tomに対する識別子と共に入力
する。ローカル交換機２７３は、ローカルユーザのディ
スプレイ２８７に、「Tomを参加させたいですか（do yo
u want to include Tom?）」という質問を表示する。そ
して、ローカルユーザによる確認の後、ローカル交換機
２７３は、当該ローカルユーザがTomとDavidの両方に接
続されるように、スイッチングユニット３０１を介して
適切な接続を行う。

【０２１３】この方法において、ローカルユーザはTom
をコールし、彼にDavidと一緒に会議を行いたい旨を通
知する。そして、Tomを保留にしている間に、ローカル
ユーザはDavidをコールし、Tomが別のラインで保留状態
にあること、TomとDavidの両方と話がしたい旨を伝え
る。この方法において、TomとDavidの両方は電話会議に
参加させられようとしていること、誰が会議に参加する
ことになるのかを知ることができる。他のユーザも同様
の方法で会議に参加させることができる。

【０２１４】この実施形態においては、説明を簡単にす
るために、最初のコールを行ったローカルユーザのみが
会議の統制を行い、ある人の会議の接続を断ったり、会
議中にある人を保留状態にしたり、会議中に更に他の人
を参加させたりできるようにした。しかしながら、この
実施形態を、公衆交換機２７７からの発呼者さえも含
む、会議中のあらゆる発呼者が当該会議の拡張を制御で
きるように変形できることは明らかである。公衆交換機
２７７からの発呼者は、適切な制御信号を送ることがで
きる場合に会議を制御することができる。例えば、ユー
ザのハンドセットに設けられたキーによって生成される
トーン信号を音声コマンドと共に回線２７５を介してロ
ーカル交換機２７３に入力できる必要がある。これによ
り、音声コマンドは、スイッチングユニット３０１では
なく、制御ユニット３０３に導かれる。

【０２１５】上述の電話システムでは単一の制御ユニッ
ト３０３が用いられたが、このような制御ユニットを複
数並列的に用いて、同時に一人以上のユーザが音声コマ
ンドを入力できるように構成することも可能である。或
いは、制御ユニット３０３は時分割でもよく、これによ
り複数の異なるユーザが同時に制御ユニット３０３を用
いることが可能となる。別の実施形態では、各電話機２
７１が制御ユニット３０３を有し音声コマンドを処理す
るようにもできる。しかし、この実施形態は、特別なソ
フトウエア及びハードウエアを各電話機２７１に組み込
む必要を生じ、各電話機のコストが著しく高くなるとい
う欠点を有する。

【０２１６】ワードモデルを格納し、入力されたワード
の許可されたシーケンスを特定するための言語モデルを
用いる音声認識システムを用いることにより、音声認識
インターフェースは、単一の発声音において、電話サー
ビスの要求と別のユーザの識別子の両方を受け付け得
る。これにより、ユーザとインターフェース間の反復的
な処理の必要性が緩和される。

【０２１７】更に、本実施形態の電話システムでは図１
〜３４を参照して説明された音声認識システムを用いる
が、他の音声認識システムも適用し得る。しかしなが
ら、図１〜３４で説明した音声認識システムを用いるこ
とにより、予めモデルが格納されない状態で、本電話シ
ステムをエンドユーザに提供することができる。更に、
システムは入力されたコマンドをここのワードに細分化
するので、音声コマンドを作成するワードの複製が大量
にある場合、標準モデルを格納するために要求される格
納スペースが減少する。

【０２１８】また、本発明は上記実施形態によって限定
されるものではなく、種々の変形および実施形態が当業
者には明らかである。

【０２１９】なお、本発明は、複数の機器（例えばホス
トコンピュータ，インタフェイス機器，リーダ，プリン
タなど）から構成されるシステムに適用しても、一つの
機器からなる装置（例えば、複写機，ファクシミリ装置
など）に適用してもよい。

【０２２０】また、本発明の目的は、前述した実施形態
の機能を実現するソフトウェアのプログラムコードを記
録した記憶媒体を、システムあるいは装置に供給し、そ
のシステムあるいは装置のコンピュータ（またはＣＰＵ
やＭＰＵ）が記憶媒体に格納されたプログラムコードを
読出し実行することによっても、達成されることは言う
までもない。

【０２２１】この場合、記憶媒体から読出されたプログ
ラムコード自体が前述した実施形態の機能を実現するこ
とになり、そのプログラムコードを記憶した記憶媒体は
本発明を構成することになる。

【０２２２】プログラムコードを供給するための記憶媒
体としては、例えば、フロッピディスク，ハードディス
ク，光ディスク，光磁気ディスク，ＣＤ−ＲＯＭ，ＣＤ
−Ｒ，磁気テープ，不揮発性のメモリカード，ＲＯＭな
どを用いることができる。

【０２２３】また、コンピュータが読出したプログラム
コードを実行することにより、前述した実施形態の機能
が実現されるだけでなく、そのプログラムコードの指示
に基づき、コンピュータ上で稼働しているＯＳ（オペレ
ーティングシステム）などが実際の処理の一部または全
部を行い、その処理によって前述した実施形態の機能が
実現される場合も含まれることは言うまでもない。

【０２２４】さらに、記憶媒体から読出されたプログラ
ムコードが、コンピュータに挿入された機能拡張ボード
やコンピュータに接続された機能拡張ユニットに備わる
メモリに書込まれた後、そのプログラムコードの指示に
基づき、その機能拡張ボードや機能拡張ユニットに備わ
るＣＰＵなどが実際の処理の一部または全部を行い、そ
の処理によって前述した実施形態の機能が実現される場
合も含まれることは言うまでもない。

【０２２５】

【発明の効果】以上説明したように、本発明によれば、
ダイナミックプログラミングプロセスを適用したパター
ンマッチングにおいて、その処理量及びメモリ消費量を
低減することが可能となる。

【０２２６】また、本発明によれば、連続音声コマンド
によって電話サービスにアクセスすることが可能とな
り、操作性が向上する。

【０２２７】

【図面の簡単な説明】

【図１】本発明の一実施形態を操作するためにプログラ
ムされ得るコンピュータの概略図である。

【図２】音声認識システムの概略構成を示すブロック図
である。

【図３】図２に示されたシステムの一部であるプリプロ
セッサの構成を示すとともに、入力音声信号に行われる
処理ステップを示すブロック図である。

【図４】入力音声信号Ｓ（ｔ）を一連の時間フレーム
（FRAME）に分割した状態を示す図である。

【図５】１つの時間フレームの典型的な音声信号例を示
す線図である。

【図６】図５に示される音声信号の離散フーリエ変換の
振幅応答を示す図でる。

【図７】メルスケールフィルタバンクの平均振幅応答出
力を示す図である。

【図８】メルスケールフィルタバンクからの出力の対数
振幅スペクトルを示す図である。

【図９】図８に示される対数振幅スペクトルのセプスト
ラムを示す図である。

【図１０】学習処理中に用いられる標準モデル構築部の
恒星を示すブロック図である。

【図１１】音声認識システムで用いるワードモデルを発
生させるための学習処理中に行われる処理を示すフロー
チャートである。

【図１２】学習処理中に学習フレーズおよび学習ワード
が記憶される一形態例を示す図である。

【図１３】複数の入力フレーズ及び入力ワードと、それ
らのフレーズ及びワードに対応するパラメータフレーム
シーケンスを示す図である。

【図１４】学習処理中に入力された入力発声音からワー
ドモデルを決定するための処理を示すフローチャートで
ある。

【図１５】端の部分が切り捨てられた学習ワード及びそ
れに対応するパラメータフレームシーケンスを示す図で
ある。

【図１６】図１５に示されるワードのパラメータフレー
ムと、そのワードが含まれる入力フレーズのパラメータ
フレームとの関連付けを示す図である。

【図１７Ａ】複数の入力フレーズ例を学習処理してい
る間に発生された言語モデル例を示す図である。

【図１７Ｂ】システムが新しいフレーズを言語モデル
に追加する方法を示すフローチャートである。

【図１８】ダイナミック処理技術を用いて入力ワードが
ワードモデルに関連付けられる際の処理を説明する図で
ある。

【図１９】ある入力フレームから次の入力フレームのス
テートへの許可された移行シーケンスを示す図である。

【図２０】図１９に示される許容された状態移行シーケ
ンスの他の例を示す図である。

【図２１】第１の実施形態で用いられるダイナミックプ
ログラミングアラインメント技術の実行手順を示すフロ
ーチャートである。

【図２２】ワードモデル、現アクティブリストおよびそ
れらに関連する新アクティブリストを示す概略図であ
る。

【図２３】標準モデル内で伝わるダイナミックプログラ
ミングパスの複数の例を示す図である。

【図２４】図２１のステップＳ４７に含まれる処理を示
すフローチャートである。

【図２５】図２３で示された２つのダイナミックプログ
ラミングパスが現入力フレームから次の入力フレームに
伝わる方法を説明する図である。

【図２６Ａ】図２２に示されるワードモデルの現アク
ティブリストの第１の状態が処理された後の新アクティ
ブリストの内容を示す図である。

【図２６Ｂ】図２２に示されるワードモデルの現アク
ティブリストの第２の状態が処理された後の新アクティ
ブリストの内容を示す図である。

【図２７Ａ】図２４のステップＳ７７で行われる処理
を示すフローチャートである。

【図２７Ｂ】図２４のステップＳ７７で行われる処理
を示すフローチャートである。

【図２８】図２１のステップＳ５１で行われる処理を示
すフローチャートである。

【図２９】図２８に示される処理中において、ノードＮ
に対して行われる処理を示す図である。

【図３０】図２１のステップＳ５７で行なわれる処理を
示すフローチャートである。

【図３１】図２２に示されるワードモデルのエントリス
テートを示す図である。

【図３２】図２１のステップＳ６５で行われる処理を示
すフローチャートである。

【図３３】入力フレーズのパラメータフレームシーケン
スと、入力フレーズ内に含まれるワードの分離的発声に
よるパラメータフレームシーケンスとを示す図である。

【図３４】他の実施形態による第１の代替技術を用い
て、ワードモデルを異なるユーザに適用するための処理
を示すフローチャートである。

【図３５】他の実施形態による第２の代替技術を用い
て、ワードモデルを異なるユーザに適用するための処理
を示すフローチャートである。

【図３６】本発明の一実施形態による電話システムの概
要を示す図である。

【図３７】図３６に示した電話システムに用いられる電
話機を示す図である。

【図３８】図３６に示した電話システムにおけるローカ
ル交換機の幾つかの内部構成を示すブロック図である。

【図３９】図３８に示したローカル交換機の制御ユニッ
トの主要な恒星を示すブロック図である。

【図４０】本発明の実施形態による電話システムのメー
ルボックス機能によって使用される新規メッセージリス
ト、旧メッセージリスト、現メッセージリスト及びウエ
イストバスケットを示す図である。

【図４１】図４０のメールボックス機能よりメッセージ
を再生する処理を示すフローチャートである。

Claims

【特許請求の範囲】

【請求項１】入力信号を表す入力パターンシーケンス
と複数の格納された標準パターンシーケンスとの間のダ
イナミックプログラミングマッチング処理を実行する方
法であって、該標準パターンシーケンスは標準信号を表
し、該方法は少なくとも標準信号の幾つかに関連して各
入力パターンを順次処理するものであり、（１）処理中の現入力パターンに対するダイナミックプ
ログラミングパスの終点における標準信号の標準パター
ンをアクティブパターンとして定義し、各パスは標準パ
ターンシーケンスと、該現入力パターンまでの入力パタ
ーンシーケンスとの間のマッチング候補を表し、そして
該現入力パターンに関するアクティブパターンを現アク
ティブリストに登録し、（２）各アクティブパターンに対して、当該アクティブ
パターンに対応して設けられた格納部に、前記現入力パ
ターンに対する当該アクティブパターンで終わるダイナ
ミックプログラミングパスのスコアを表す累積値を格納
し、（３）現標準信号の各アクティブパターンを逆方向順に
処理することによって、ダイナミックプログラミングパ
スに課された制限に基づいて、前記累積値を更新すると
ともに前記ダイナミックプログラミングパスを伝搬させ
るために、（Ａ）前記現入力パターンを用いて、処理中
の現アクティブパターンに関連する格納部に格納された
累積値を更新し、（Ｂ）前記現アクティブパターンに関
連するダイナミックプログラミングパスを伝搬させ、も
しそれがリストに無ければ、次の入力パターンのための
ダイナミックプログラミングパスの終点となる標準信号
の各標準パターンを新規アクティブリストに登録し、現在の標準信号の各ダイナミックプログラミングパスの
伝搬が現標準信号にに関連するポインタを用いて制御さ
れ、該ポインタは、前回のアクティブパターンの完了の
後に、前記新規アクティブリストにリストされた現標準
信号のパターンのシーケンスにおける最も手前の標準パ
ターンを特定し、これによって、現標準信号の内のどの
標準パターンが先行するアクティブパターンを処理した
結果として新規アクティブリストに登録されたかを検索
する必要なしに各ダイナミックプログラミングパスの伝
搬が達成されることを特徴とする情報処理方法。
【請求項２】前記工程（３）の（Ｂ）において、（ｉ）ダイナミックプログラミングパスの伝搬に課せら
れた前記制限に基づいて、現標準信号のどの標準パター
ンが、前記次の入力パターンについて前記現アクティブ
パターンで終わるダイナミックプログラミングパスの終
点に存在する可能性のあるかを判断し、（ii）工程（ｉ）で決定された各標準パターンを処理す
ることにより、ダイナミックプログラミングパスを伝搬
させ、新規アクティブリストを更新し、工程（ｉ）で決
定された標準パターンに関連する格納部に適切な累積値
を複写することを特徴とする請求項１に記載の情報処理
方法。
【請求項３】前記工程（ｉ）において決定される標準
パターンについて、現アクティブパターンが該標準パタ
ーンの一つであればこれを除き、残された標準パターン
の各々が（ａ）処理中の現標準パターンが前記ポインタによって
特定されるどの標準パターンをも越えていまうかどうか
判断し、（ｂ）シーケンス上において、現標準パターンが特定さ
れた標準パターンと同じ位置かもしくはそれを越える場
合であって、前記現アクティブパターンに関連する格納
部に格納された累積値が現標準パターンに関連する格納
部に既に格納されている累積値よりも良い場合、該現ア
クティブパターンに関連する格納部に格納された累積値
を該現標準パターンに関連する格納部にコピーし、（ｃ）シーケンス上において現標準パターンが特定され
た標準パターンよりも前であるか、前記新規アクティブ
リスト内に現標準信号の標準パターンが無い場合、前記
現アクティブパターンに関連する格納部に格納された累
積値を前記現標準パターンに関連する格納部にコピー
し、前記新規アクティブリストに該現標準パターンを登
録することを特徴とする請求項２に記載の情報処理方
法。
【請求項４】前記工程（ｉ）において決定された標準
パターンの一つが現アクティブパターンである場合、前
記工程（ii）における現アクティブパターンの処理は、
該現アクティブパターンがダイナミックプログラミング
プロセスに課せられたいかなる制限にも違反しない場合
に、該現アクティブパターンを前記新規アクティブリス
トに登録することを特徴とする請求項または３に記載
の情報処理方法。
【請求項５】現アクティブパターンの処理によって前
記新規アクティブリストを更新した後に、現標準信号に
関連する前記ポインタが、新規アクティブリスト上の、
現標準信号のパターンのシーケンスにおける最も早い標
準パターンを指示するように設定されることを特徴とす
る請求項１乃至４のいずれかに記載の情報処理方法。
【請求項６】現入力パターンの処理は次の入力パター
ンが受信される前に実行されることを特徴とする請求項
１乃至５のいずれかに記載の情報処理方法。
【請求項７】最初の入力パターンが処理される前に入
力信号全体が受信されることを特徴とする請求項１乃至
５のいずれかに記載の情報処理方法。
【請求項８】各標準信号がそれに関連付けられた現ア
クティブリストと新規アクティブリストを有することを
特徴とする請求項１乃至７のいずれかに記載の情報処理
方法。
【請求項９】標準パターンが前記新規アクティブリス
トに追加される場合に、それが当該リストの最後に置か
れることを特徴とする請求項１乃至８のいずれかに記載
の情報処理方法。
【請求項１０】前記工程（ii）において処理された標
準パターンが、シーケンスの方向と逆方向に処理される
ことを特徴とする請求項２乃至９のいずれかに記載の情
報処理方法。
【請求項１１】現アクティブパターンに関連する累積
値がしきい値よりも良好である場合、該現アクティブパ
ターンに対して前記工程（３）のみを実行することを特
徴とする請求項１乃至１１のいずれかに記載の情報処理
方法。
【請求項１２】前記しきい値は、各入力パターンにつ
いて処理されるアクティブパターンの数を与えられた最
大数よりも小さく保つように変更されることを特徴とす
る請求項１１に記載の情報処理方法。
【請求項１３】次の入力パターンの処理を行う間に用
いられる前記しきい値が、現入力パターンの処理中に、
新規アクティブリスト中の、もしくは次の入力パターン
のためのリスト中の標準パターンの数の合計に基づいて
決定されることを特等とする請求項１２に記載の情報処
理方法。
【請求項１４】前記ダイナミックプログラミングの制
限の一つが、同じダイナミックプログラミングパス上に
おいて、標準パターンがマッチし得る連続的な入力パタ
ーンの数に関する制限であることを特徴とする請求項１
乃至１３のいずれかに記載の情報処理方法。
【請求項１５】前記ダイナミックプログラミングの制
限の一つが、標準パターンが入力パターンとマッチする
場合に、同一のダイナミックプログラミングパス上にお
いて、シーケンス上当該標準パターンを越える位置にあ
る標準パターンのうちの、次の入力パターンにマッチン
グさせることが可能な標準パターンの数を制限すること
を特徴とする請求項１乃至１４のいずれかに記載の情報
処理方法。
【請求項１６】前記ダイナミックプログラミングの制
限の一つが、標準パターンが入力パターンとマッチする
場合に、同一のダイナミックプログラミングパス上にお
いて、シーケンス上、その標準パターンよりも手前にあ
る標準パターンは次に入力されたパターンとマッチング
させることができないことであることを特徴とする請求
項１乃至１５のいずれかに記載の情報処理方法。
【請求項１７】前記標準パターンはテンプレートで表
され、前記累積値は距離の尺度であることを特徴とする
請求項１乃至１６のいずれかに記載の情報処理方法。
【請求項１８】前記標準パターンは統計的モデルを表
し、前記累積値は確率的尺度であることを特徴とする請
求項１乃至１６のいずれかに記載の情報処理装置。
【請求項１９】一つの標準信号内を伝わるダイナミッ
クプログラミングパスが続いて他の標準信号に伝わるこ
とを可能とすることにより、前記入力信号を前記標準信
号のシーケンスとマッチング可能とすることを特徴とす
る請求項１乃至１８のいずれかに記載の情報処理方法。
【請求項２０】標準パターンから現入力パターンへ出
る全てのダイナミックプログラミングパスのうち、最良
の累積値を有するダイナミックプログラミングパスのみ
が先へ進みうることを特徴とする請求項１９に記載の情
報処理方法。
【請求項２１】入力信号がマッチングされ得る前記標
準信号のシーケンスは、特定された規則によって制限さ
れることを特徴とする請求項１９または２０に記載の情
報処理方法。
【請求項２２】現入力パターンが標準信号に関して処
理された後、新規アクティブリストを更新するために、
及びそれら標準信号の開始点における標準パターンであ
って対応する標準信号に入っているダイナミックプログ
ラミングパスの終点に対応する可能性のある標準パター
ンに関する累積値を更新するために、当該標準信号に入
りうる全てのダイナミックプログラミングパスの最良の
累積値を用いて、前記制限に基づいてそれら標準信号を
処理することを特徴とする請求項１９乃至２１のいずれ
かに記載の情報処理方法。
【請求項２３】前記入力信号は音声信号を表し、各入
力パターンは対応する時間フレーム間の音声信号の音響
的特徴を表す複数のパラメータを備えることを特徴とす
る請求項１乃至２２のいずれかに記載の情報処理方法。
【請求項２４】前記入力音声信号は標準音声信号のシ
ーケンスにマッチングされ、該シーケンスは言語モデル
によって規定されることを特徴とする請求項２３に記載
の情報処理方法。
【請求項２５】前記現入力パターンの処理において、
標準信号を出るダイナミックプログラミングパスの終点
が以降に入力されるパターンのためのバックグラウンド
ノイズを表すパターンとマッチングされることを特徴と
する請求項２４に記載の情報処理方法。
【請求項２６】入力音声信号を複数の標準音声信号と
比較することによって認識する音声認識方法であって、前記入力音声信号を表す入力パターンシーケンスを抽出
する抽出工程と、標準パターンシーケンスを格納する格納工程と、該標準
パターンシーケンスの各々は対応する標準音声信号を表
し、請求項２３乃至２５のいずれかに記載の方法を用いて、
前記入力パターンシーケンスと前記標準音声信号とのマ
ッチングを行うマッチング工程と、前記マッチング工程で決定された累積値より認識結果を
提供する工程とを備えることを特徴とする音声認識方
法。
【請求項２７】前記認識結果は、前記シーケンスにお
ける最終の入力パターンにて終わるダイナミックプログ
ラミングパスのうちの、最良の累積値を有するパスを決
定することによって提供されることを特徴とする請求項
２６に記載の音声認識方法。
【請求項２８】パターンマッチングシステムで用いら
れる既存の標準モデルを更新する方法であって、該標準
モデルの各々は標準パターンシーケンスを有し、（ａ）内容が既知である複数の入力信号を入力し、（ｂ）入力パターンを表すシーケンスを生成するために
入力信号の各々を処理し、（ｃ）各入力信号に対して、前記入力パターンを表すシ
ーケンスと、当該入力信号中に存在することがわかって
いる信号の既存の標準モデルの標準パターンシーケンス
に関連付けを行い、（ｄ）１つまたはそれ以上の入力信号の複数の入力パタ
ーンに関連付けられた各標準パターンについて、（ｉ）
関連付けれた入力信号の入力パターンを結合する工程
と、（ii）当該標準パターンを前記工程（ｉ）において
結合された入力パターンで置き換える工程とを備えるこ
とを特徴とする情報処理方法。
【請求項２９】前記関連付けられた入力パターンは、
それらを平均化することにより結合されることを特徴と
する請求項２８に記載の情報処理方法。
【請求項３０】前記標準モデルは音声を表し、前記入
力信号は、その音声内容が既知の音声信号であることを
特徴とする請求項２８または２９に記載の情報処理方
法。
【請求項３１】各標準モデルが１つまたはそれ以上の
ワードを表すことを特徴とする請求項３０に記載の情報
処理方法。
【請求項３２】少なくとも一つの入力信号との関連付
けが行なわれた標準モデルの各標準パターンにおいて、
前記入力信号の入力パターンのいずれにも関連付けられ
ない標準パターンを、当該標準モデル内の既に置き換え
られた標準パターンのうちの隣接する標準パターンを用
いて補間もしくは外挿を行って得られたパターンで置き
換えることを特徴とする請求項２８乃至３１のいずれか
に記載の情報処理方法。
【請求項３３】前記標準パターンは、最も近くの隣接
する標準パターンを用いて得られた補間値もしくは外挿
値で置き換えられることを特徴とする請求項３２に記載
の情報処理方法。
【請求項３４】入力パターンシーケンスと複数の標準
パターンシーケンスとの間でダイナミックプログラミン
グパターンマッチングを実行する方法であって、実質的
に添付の図１８乃至図３２に示されるように処理を行う
ことを特徴とする情報処理方法。
【請求項３５】請求項１乃至３４のいずれかに記載の
方法を実行するためのソフトウエアプログラムを格納す
るデータ保持媒体。
【請求項３６】請求項１乃至３４のいずれかに従う方
法を実行することを特徴とする情報処理装置。
【請求項３７】電話システムを制御する制御システム
であって、前記電話システムを制御するための音声コマンドの入力
を可能とするとともに、入力された音声コマンドと予め
格納された標準モデルとの比較に基づいて認識結果を出
力する音声認識ユーザインターフェースと、前記インターフェースから出力された前記認識結果に応
じて、入力音声コマンドに従って前記電話システムを制
御する制御手段とを備え、前記音声認識ユーザインターフェース連続的な音声コマ
ンドを認識可能に適応させられ、該音声コマンドは所望
の電話サービス及び他ユーザの識別を特定する複数のワ
ードを有し、その認識は、格納された言語モデルによっ
て許可されるワードモデルのシーケンスと入力された音
声コマンドを比較することによって行なわれ、前記制御
手段が入力された音声コマンドに対応する機能を実行す
る実行手段を備えることを特徴とする制御システム。
【請求項３８】システムによって提供される電話サー
ビスを制御するための音声コマンドの入力を可能とする
とともに、入力された音声コマンドと予め格納された標
準モデルとの比較に基づいて認識結果を出力する音声認
識ユーザインターフェースと、前記インターフェースからの認識結果出力に基づいて、
音声コマンドに対応する機能を実行する実行手段とを備
え、前記システムの各ユーザは電話番号及び関連付けられた
識別情報によって識別され、前記実行手段は、ユーザが
前記音声認識ユーザインターフェースを介して別のユー
ザの識別情報のみを入力した場合に、現在のシステム状
態情報を用いてどの電話サービスを欲しているかを予測
することを特徴とする制御システム。
【請求項３９】前記実行手段は、当該システムの現在
の状態を表す情報に依存して当該システムのユーザと通
話するよう適応され、該実行手段が、ｉ）現在のシステム状態情報を保持し、 ii）音声コマンドに対応する機能が現在のシステム状態
情報と対立しないことをチェックし、 iii）対立が無ければ、実行に先立って前記音声コマン
ドの確認をユーザに要求し、前記実行手段がユーザの確認を待つ間に生成される新た
なシステム状態情報をバッファリングするためのバッフ
ァが提供されることを特徴とする請求項３７または３８
に記載の制御システム。
【請求項４０】前記状態情報は、各ユーザについて、
該ユーザは現在誰と通話しているか、該ユーザが誰にダ
イヤルしているか、誰が保留されているか、誰が該ユー
ザに電話しようとしているか、当該ユーザはメッセージ
を再生しているか否か、誰が該ユーザを保留している
か、誰が該ユーザを電話会議に招いたか、の少なくとも
１つを備えることを特徴とする請求項３８または３９に
記載の制御システム。
【請求項４１】前記電話サービスは、発呼の設定、呼
の転送、呼の保留、呼の戻し、会議の設定、メッセージ
の選択と再生の少なくとも１つを備えることを特徴とす
る請求項３７乃至４０のいずれかに記載の制御システ
ム。
【請求項４２】前記制御手段は、出荷時に予め格納さ
れた自余を用いて、認識結果を補間する補間手段を更に
備えることを特徴とする請求項３７乃至４１のいずれか
に記載の制御システム。
【請求項４３】前記システムにおける各ユーザは関連
する格納手段を有し、外格納手段は、他のユーザの電話
番号及び関連付けられた識別情報を格納し、これによっ
て、各ユーザは、前記音声認識ユーザインターフェース
に対応する識別情報を音声入力することで、該システム
の別のユーザを指示できることを特徴とする請求項３７
乃至４２のいずれかに記載の制御システム。
【請求項４４】前記実行手段は、ユーザが前記音声認
識ユーザインターフェースを介して別のユーザの識別情
報のみを入力した場合に、現在のシステム状態情報を用
いてどの電話サービスを欲しているかを予測することを
特徴とする、請求項２に従属するものを除いた、請求項
３７乃至４３のいずれかに記載の制御システム。
【請求項４５】前記音声認識ユーザインターフェース
は新しい音声コマンドを認識するべく学習が可能である
ことを特徴とする請求項３７乃至４４のいずれかに記載
の制御システム。
【請求項４６】各ユーザが個別に、関連する標準モデ
ルのセットを有することを特徴とする請求項３７乃至４
５のいずれかに記載の制御システム。
【請求項４７】ローカル交換機に提供されることを特
徴とする請求項３７乃至４６のいずれかに記載の制御シ
ステム。
【請求項４８】電話システムを制御する請求項１乃至
１１のいずれかに記載の制御システムと、該電話システ
ムのユーザによって使用される複数の通信装置とを備
え、外複数の通新装置がローカル交換機を介して接続さ
れることを特徴とする電話システム。
【請求項４９】前記実行手段は、各ユーザがそれぞれ
の通信装置を介した通話と、該システムの現在の状態を
表す情報に適応することを特徴とする請求項４８に記載
の電話システム。
【請求項５０】前記通信装置の少なくとも１つは表示
器を有し、該表示器は、入力された音声コマンドに対応
する機能を表すメッセージを所定時間の間表示するべく
適用されることを特徴とする請求項４８または４９に記
載の電話システム。
【請求項５１】前記ローカル交換機は、該ローカル交
換機に接続されたユーザが公衆交換機に接続されたりモ
ードユーザと通信可能とするように、該公衆交換機に接
続されることを特徴とする請求項４８乃至５０のいずれ
かに記載の電話システム。
【請求項５２】前記システムのユーザが着信に応答で
きなかった場合に、該ユーザに対して発呼者によって残
されたメッセージを格納するメールボックス機能を更に
備えることを特徴とする請求項４８乃至５１のいずれか
に記載の電話システム。
【請求項５３】前記メールボックス機能に格納された
各メッセージに、そのメッセージを残した発呼者の電話
番号が関連付けらていることを特徴とする請求項５２に
記載の電話システム。
【請求項５４】前記音声認識ユーザインターフェース
を介して、ユーザは前記メールボックス機能に対して特
定の発呼者からのメッセージを再生するよう要求できる
ことを特徴とする請求項５３に記載の電話システム。
【請求項５５】選択された複数のメッセージの一つを
再生した後に、ユーザは他の電話サービスをアクセスで
きると共に、それら他の電話サービスへのアクセスの後
に、再び前記選択された複数のメッセージの残りを再生
可能であることを特徴とする請求項５４に記載の電話シ
ステム。
【請求項５６】前記音声認識ユーザインターフェース
及び前記実行手段が、複数のユーザによって時分割で使
用されることを特徴とする請求項４８乃至５６のいずれ
かに記載の電話システム。
【請求項５７】複数の異なるユーザによる同時的な使
用のために、複数の音声認識ユーザインターフェース及
び複数の実行手段が提供されることを特徴とする請求項
４８乃至５６のいずれかに記載の電話システム。
【請求項５８】前記システムが通信装置に提供される
ことを特徴とする請求項３７乃至４５のいずれかに記載
の制御システム。
【請求項５９】電話システムを制御するための方法で
あって、請求項３７乃至５８のいずれかに記載のシステムを提供
し、前記音声認識インターフェースを介して前記システムに
音声コマンドを入力し、前記音声認識インターフェースにより、前記入力された
音声コマンドと予め格納された標準モデルとの比較に基
づいて認識結果を出力し、前記認識結果に基づいて前記電話システムを制御するこ
とを特徴とする制御方法。
【請求項６０】請求項５９に従った方法を実行するた
めのソフトウエアプログラムを格納するデータ保持媒
体。
【請求項６１】添付の図３６乃至４１で実質的に示さ
れる電話システム。
【請求項６２】電話システムで用いるメールボックス
装置であって、メールボックス機能を制御するためのユーザによる音声
コマンドの入力を可能とすると共に、入力音声コマンド
と予め格納された標準モデルとの比較に基づいて認識結
果を出力する音声認識ユーザインターフェースと、前記インターフェースよりの認識結果出力に応じて、前
記入力された音声コマンドに従って前記メールボックス
機能を制御する制御手段と、ユーザがコールに応答できない場合に、発呼者によって
残されたメッセージを格納する格納手段とを備え、前期メールボックスに格納された各メッセージは、当該
メッセージを残した発呼者の電話番号が関連付けられ、
これによって、ユーザは、音声認識ユーザインターフェ
ースを介して、前記メールボックス機能に特定の発呼者
からのメッセージを再生させ得ることを特徴とするメ-
ボックス装置。