JPH05127692A

JPH05127692A - 音声認識装置

Info

Publication number: JPH05127692A
Application number: JP3278896A
Authority: JP
Inventors: Masafumi Nishimura; 雅史西村; Akihiro Kuroda; 明裕黒田; Koichi Toshioka; 晃一年岡
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1991-10-01
Filing date: 1991-10-01
Publication date: 1993-05-25
Anticipated expiration: 2012-10-08
Also published as: JP2662120B2; US5353377A; EP0535909B1; DE69224953T2; DE69224953D1; EP0535909A2; BR9203745A; EP0535909A3

Abstract

(57)【要約】【目的】パーソナル・コンピュータ１のバス２に実装さ
れた信号処理カード５において音声の信号処理だけでな
く信号処理データを利用した音声認識を行えるようにす
る。【構成】パーソナル・コンピュータ１のバス２に実装さ
れた信号処理カード５はバス・マスタ６を有し、このバ
ス・マスタ６を利用してパーソナル・コンピュータ１の
主メモリ４をアクセスする。音声認識に必要な膨大な確
率値のテーブルを主メモリ４に保持し、処理対象のラベ
ルの到来ごとに、テーブルの必要部分をバス・マスタ６
のＤＭＡ転送により主メモリ４から信号処理カード５の
メモリ９に読み込み、音声認識の処理を行う。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は音声認識に関し、とく
にパーソナル・コンピュータ（以下ＰＣと略記）のバス
に実装された信号処理カードで、大語彙、実時間の認識
を行えるようにしたものである。

【０００２】

【従来の技術】現存する大語彙音声認識装置は、その実
装形態から、大きく分けてつぎの２種がある。（１）一時点で認識可能な語彙に関するデータを、すべ
て認識装置上に保持して音声認識を行ない、認識結果を
ＰＣなどに（通常、ＲＳ−２３２Ｃなどの通信回線を介
して）出力するタイプのもの。これは、ボックス型（ス
タンド・アロン型）の認識装置に多くみられる。このタ
イプの認識装置は、大量のデータを装置内に保持するた
めのハードウェアが必要となるため、非常に高価なもの
となっている。この種の音声認識装置としてはたとえば
日本電気株式会社のＤＰ−３０００音声認識装置があ
る。（２）ＰＣのバスに実装される信号処理カードを用い、
カード上では音声の特徴量抽出のみ（または、特徴量抽
出とラベル付けのみ）を行ない、音声認識のための主な
処理はＰＣのプロセッサにより行うタイプのもの。この
方式は、安価に実現可能であるが、ＰＣのプロセッサの
処理能力の大半を音声認識そのもののために使用する必
要があり、音声認識を利用した大規模なアプリケーショ
ンの構築に支障をきたしたり、逆に音声認識の実時間性
（応答速度）に問題が生じたりすることが多い。この種
の音声認識装置としてはたとえば米国ドラゴン・システ
ムズ・インクのドラゴン・ライタ−１０００がある。

【０００３】現在の音声認識装置で、大語彙音声認識
を、ＰＣのプロセッサに負担をかけない形で、かつ安価
に実現した例はない。

【０００４】

【発明が解決しようとする問題点】この発明は以上の事
情を考慮してなされたものであり、ＰＣのバスに実装さ
れた信号処理カードにより大語彙音声認識を行い、か
つ、ＰＣのプロセッサに負担をかけない形で、かつ安価
に、実時間音声認識を達成する音声認識装置を実現する
ことを目的としている。

【０００５】

【問題点を解決するための手段】この発明では以上の目
的を達成するために、信号処理カードのＰＣバス・イン
ターフェースとして、バス・マスタの機能を有している
ものを使用する。そして膨大な確率値テーブルはＰＣの
主メモリに保持する。そして、単語発声によって得られ
たラベル列に応じて、テーブルの必要部分のみを、信号
処理カードのバス・マスタのＤＭＡ転送で、ＰＣの主メ
モリから信号処理カードのメモリに読みこみ、カード上
で音声認識の処理を行う。これにより、小規模なメモリ
しか持たない信号処理カード上で、大語彙の実時間音声
認識を実現することを可能にする。

【０００６】

【実施例】以下、この発明をフェノニック・マルコフ・
モデルに基づく１，０００単語音声認識に適用した一実
施例について、図面を参照しながら説明する。

【０００７】（１）音声認識の概要本実施例では、予備選択法としてポーリング高速マッチ
を使用し、詳細マッチングにはフェノニック・マルコフ
・モデルに基づく手法を用い、これらの手法を併用する
ことで大語彙認識装置を実現した。まず、ポーリング高
速マッチおよびフェノニック・マルコフ・モデルに基づ
く詳細マッチングについて概説する。

【０００８】（１−１）ポーリング高速マッチ各単語について、約１０ミリ秒の音響分析区間毎（この
単位を以下「フレーム」と呼ぶ）に得られたラベルに対
応して、ボーティング関数による投票を行い、発生終了
時に上位スコアを与えたもののみ（本実施例では、１，
０００単語中上位２５単語）を候補単語として詳細マッ
チングに渡す。これはフレーム毎のラベル生起確率のみ
に注目し、ラベル系列の時間構造を含まないものである
が、高速なマッチング手段であり、大語彙音声認識の予
備選択方式として有効である。ここでボーティング関数
は、例えばlogPr(L(t)|W(i))で与えられる。これは、各
単語W(i)が時刻tに観測されたラベルL(t)を発生させる
確率の対数値と考えることができる。なおポーリング高
速マッチについては特開昭６２−２２０９９６号公報
（米国特許明細書第４７１８０９４号）にも詳細な説明
がある。

【０００９】（１−２）詳細マッチングフェノニック・マルコフ・モデルと呼ばれるヒドゥン・
マルコフ・モデルの一種を用い、単語発声により得られ
るラベル系列の時間構造を含めた形の詳細なマッチング
処理を行う。なおフェノニック・マルコフ・モデル（フ
ィーニーム・マルコフ・モデルともいう）については特
開昭６２−１７８９９９号公報（米国特許明細書第４８
３３７１２号）にも詳細な説明がある。

【００１０】［パラメータ及びモデル］図１は、本実施
例で用いられているフェノニック・マルコフ・モデルの
構造を示す。ここでPr(B(k)|F(j))は、フェノニック・
マルコフ・モデルF(j)が遷移B(k)を起こす遷移確率であ
る。また、Pr(L(t)|F(j))は、フェノニック・マルコフ
・モデルF(j)が時刻tにおいてラベルL(t)を出力するラ
ベル出力確率である。

【００１１】［単語音声モデル］まず各単語発声により
得られるラベル列（これをベース・フォームという）を
作る。図２に示されるように、このラベル列のラベル番
号に一対一対応するようにフェノニック・マルコフ・モ
デルが順次連結されたものをフェノニック単語音声モデ
ルと呼ぶ。ベース・フォームは、認識対象単語毎に実際
の発声から作成され、ベース・フォーム・テーブルに登
録される。

【００１２】［認識］入力音声ラベル列L(t)及び各候補
単語W(i)に対し、ビタービ・アルゴリズムを使って、ス
コアである対数尤度を求め、最大スコアを与える単語W
(i)を認識結果とする。

【００１３】（２）システム構成システム構成について、図３を参照しながら説明する。
図３は、本発明を日本アイ・ビー・エム（株）のＰＣ、
ＰＳ／５５（米国インターナショナル・ビジネス・マシ
ーンズ社の商標）を使って実現した例である。

【００１４】ＰＣ１は、その内部にＰＣバス（マイクロ
チャネル、米国インターナショナル・ビジネス・マシー
ンズ社の商標）２を持っており、上述ＰＣバス２にはＰ
Ｃのプロセッサ３と、上述プロセッサ３の主メモリ４が
接続されている。上述主メモリ４は、通常、数ＭＢから
十数ＭＢの大きさであり（本実施例では６ＭＢ）、一時
点で認識可能な語彙（本実施例では１，０００単語）に
関する全データを保持している。なお、上述主メモリ４
内の具体的なデータの内容およびその配置（メモリ・マ
ップ）は、（３）主メモリ内のデータ構成およびその転
送方法で説明する。

【００１５】一方、信号処理カード（ＳＰＣ）５も、Ｐ
Ｃバス・インターフェース６を介してＰＣバス２に接続
されている。信号処理カード（ＳＰＣ）５は、その内部
にＳＰＣ内部バス７を持っており、ＳＰＣ内部バス７に
は、ＰＣバス・インターフェース６に加えて、高速の信
号処理プロセッサ（ＤＳＰ）８、信号処理プロセッサ
（ＤＳＰ）８のための高速なＤＳＰ用メモリ９およびア
ナログ・デジタル（Ａ／Ｄ）コンバータ１２が接続され
ている。ＤＳＰ用メモリ９は、通常数十ＫＢの容量であ
り（本実施例では６４ＫＢ）、認識対象語彙に関する全
データを保持することはできない。ＰＣ１の主メモリ４
と同程度の大きさのメモリを持てば、上述全データを保
持することはもちろん可能であるが、ＤＳＰ８のスピー
ドに見合った高速のメモリを大量に搭載すると非常に高
価なものとなってしまう。

【００１６】ところで、上述ＰＣバス・インターフェー
ス６は、バス・マスタの機能を有している。バス・マス
タ機能により、ＰＣバスの使用権を一時的に確保し、み
ずからがＰＣバス２をコントロールしつつ、ダイレクト
・メモリ・アクセス（ＤＭＡ）転送を行うことができ
る。

【００１７】入力音声は、マイクロフォン１０および増
幅器１１を介して、Ａ／Ｄコンバータ１２に供給され、
ここでデジタル・データとされた後、ＳＰＣ内部バス７
を通ってＤＳＰ用メモリ９に格納される。信号処理プロ
セッサ（ＤＳＰ）８はこのデータを使ってフレーム毎に
音響分析を行ない、特徴量抽出およびラベル付けを行
う。

【００１８】フレーム毎にＤＳＰ用メモリ９内に得られ
るこのラベルを使って、信号処理プロセッサ（ＤＳＰ）
８は、フレーム同期型で、ポーリング高速マッチを行
う。即ち、入力ラベルが得られる毎に、各単語に対する
ポーリング高速マッチのスコアを更新する。ポーリング
高速マッチのための全ラベル（本実施例では２５６ラベ
ル）に関するデータは主メモリ４に格納されているが、
上述の理由から、現フレームで得られた当該ラベル（１
つのラベル）に関するデータだけをＤＳＰ用メモリ９内
に得れば、ポーリング高速マッチを行うことができる。
よって、信号処理プロセッサ（ＤＳＰ）８は、ＰＣバス
・インターフェース６のバス・マスタ機能を使用して、
ＤＭＡ転送を行ない、主メモリ４からＤＳＰ用メモリ９
へ現フレームで得られた当該ラベルに関するデータのみ
を転送し、ポーリング高速マッチを行う。

【００１９】フレーム毎のラベル付けおよびポーリング
高速マッチと並行して、信号処理プロセッサ（ＤＳＰ）
８は音声区間の検出も行う。そして音声区間の終端が得
られたら、その時点でのポーリング高速マッチのスコア
をもとに、詳細マッチングを行う候補単語を選ぶ。本実
施例では、上位２５単語を候補として残した。詳細マッ
チングのための全単語（本実施例では１，０００単語）
に関するデータ（ベース・フォーム）および全フェノニ
ック・マルコフ・モデルのラベル出力確率は主メモリ４
に格納されているが（遷移確率はデータ量が少ないので
ＤＳＰ用メモリの上に常駐している）、詳細マッチング
はフレーム同期型で行うので、２５個の候補単語に関す
るデータのほかには、ラベル１つ１つに対応してラベル
出力確率をＤＳＰ用メモリ９内に順次転送すれば、詳細
マッチングを行うことができる。よって、信号処理プロ
セッサ（ＤＳＰ）８は、ＰＣバス・インターフェース６
のバス・マスタ機能を使用して、ＤＭＡ転送を行ない、
主メモリ４からＤＳＰ用メモリ９へ上述２種類のデータ
を転送し、詳細マッチングを行う。

【００２０】（３）主メモリ内のデータ構成およびその転送方法主メモリ４内のデータ構成およびその転送方法につい
て、図４を参照しながら説明する。本実施例に関連する
３つのテーブルの構成およびその転送方法について各々
説明する。（３−１）ポーリング高速マッチ・テーブル２１本実施例に用いたボーティング関数は、logPr(L(t)|W
(i))で表され、これは、ある単語W(i)が与えられた時、
時刻tにおいて観測されたラベルL(t)の出現確率の対数
値と考えられる。スコアＳw(i)は、このボーティング関
数をtについて足しこむことにより与えられ、入力ラベ
ルが得られる毎に、各単語に関するスコアが更新され
る。スコアを求めるには、この確率値テーブル（ポーリ
ング高速マッチ・テーブル２１）を保持する必要がある
が、本実施例の場合、対象語彙１，０００語、ラベルの
種類２５６であり、各要素を２バイトとした場合、テー
ブル・サイズは５１２ＫＢとなり、ＤＳＰ用メモリにテ
ーブル全体を格納することはできない。よって、前述の
ように、このテーブルをＰＣ１の主メモリ４に保持し、
入力ラベルL(t)が得られる毎に、信号処理カード（ＳＰ
Ｃ）５は、主メモリ４からＤＳＰ用メモリ９へ現フレー
ムで得られた当該ラベルに関するデータ２２のみ（本実
施例では２ＫＢ）をＤＭＡ転送し、ポーリング高速マッ
チを行う。なお、ポーリング高速マッチ・テーブル２１
は、ＤＭＡ転送およびアドレッシングが容易なように、
主メモリ上ではラベル毎に全対象語彙に対する出現確率
値が並べられている。このように、信号処理カード（Ｓ
ＰＣ）５上でポーリング高速マッチを行うために必要と
される記憶量は、２ＫＢのＤＭＡ転送用バッファとスコ
アＳw(i)を保持するための２ＫＢ、計４ＫＢのみとな
る。なお、同一ラベルが続く場合（定常母音部など）
は、繰り返してＤＭＡ転送する必要はない。

【００２１】（３−２）ラベル出力確率テーブル２３フェノニック・マルコフ・モデルF(j)のラベルL(t)の出
力確率は、logPr(L(t)|F(j))で表される。各単語モデル
の入力ラベル列に対する尤度を求めるには、ラベル出力
確率テーブル２３が必要であるが、本実施例の場合、フ
ェノニック・マルコフ・モデルおよびラベルの種類が各
々２５６であり、各要素を２バイトとした場合、テーブ
ル・サイズは１３１ＫＢとなり、ＤＳＰ用メモリ９にテ
ーブル全体を格納することはできない。よって、ポーリ
ング高速マッチ・テーブル２１と同様に、このテーブル
２３をＰＣ１の主メモリ４に保持する。そして、詳細マ
ッチングをフレーム同期型で行ない、信号処理カード
（ＳＰＣ）５は、主メモリ４からＤＳＰ用メモリ９へ、
入力ラベルL(t)１つ１つについて順次、当該ラベルに関
する全フェノニック・マルコフ・モデル分のデータ２４
だけ（本実施例では５１２バイト）をＤＭＡ転送を使っ
て読みこむ。なお、ラベル出力確率テーブル２３につい
ても、ＤＭＡ転送およびアドレッシングが容易なよう
に、主メモリ上ではラベル毎に全フェノニック・マルコ
フ・モデルに対する出力確率値が並べられている。この
ように、信号処理カード（ＳＰＣ）５上で出力確率値を
保持するために必要とされる記憶量は、５１２バイトの
みとなる。なお、この場合も、同一ラベルが続く場合
（定常母音部など）は、繰り返してＤＭＡ転送する必要
はない。

【００２２】（３−３）ベース・フォーム・テーブル２
５本実施例の場合、対象語彙１，０００語であり、平均単
語長を１００フレームとすると、全単語のベース・フォ
ームを保持するには１００ＫＢのメモリ容量が必要であ
り、ＤＳＰ用メモリ９に全単語のベース・フォームを格
納することはできない。よって、上述２例と同様に、こ
のベース・フォーム・テーブル２５をＰＣ１の主メモリ
４に保持し、信号処理カード（ＳＰＣ）５は、ポーリン
グ高速マッチのスコアをもとに、詳細マッチングを行う
候補単語（本実施例の場合２５個）に関するベース・フ
ォーム・データ２６のみを主メモリからＤＳＰ用メモリ
９へ、ＤＭＡ転送を使って読みこむ。

【００２３】（４）処理の流れ本実施例を処理の流れの観点から、図５を参照しながら
説明する。

【００２４】入力音声は、マイクロフォン１０および増
幅器１１を介して、Ａ／Ｄコンバータ１２に供給され、
ここでデジタル・データとされる（ステップＳ１〜Ｓ
３）。そして、フレームごとにステップＳ４で特徴量抽
出、ステップＳ５でラベル付けがなされる。ステップＳ
６では、当該ラベルに関するポーリング高速マッチ用の
データ２２を主メモリ４からＤＳＰ用メモリ９へＤＭＡ
転送する。そのデータ２２を使って、ステップＳ７で、
ポーリング高速マッチのためのボーティングを行う。ス
テップＳ４からＳ７を、音声区間の終端が検出されるま
でくり返す。そして、ステップＳ８で音声区間の検出が
行なわれると、ステップＳ９で音声の終端検出時のポー
リング高速マッチのスコアから、詳細マッチングを行う
候補単語２５個が選ばれ、ステップＳ１０でその２５単
語のベース・フォーム２６が、主メモリ４からＤＳＰ用
メモリ９へＤＭＡ転送される。続いて、フレーム同期型
の詳細マッチングを行うために、ステップＳ１１で入力
ラベル毎に出力確率が主メモリ４からＤＳＰ用メモリ９
へＤＭＡ転送される。そして、上述ベース・フォームと
上述のラベル出力確率とＤＳＰ用メモリ９に常駐してい
る遷移確率とを使って、ステップＳ１２で、フレーム同
期型の詳細マッチングを行う。ステップＳ１１とＳ１２
は、発声のフレーム数（ラベル数）だけくり返され、最
終的に最も尤度の高い単語を、ステップＳ１３で認識結
果として出力する。

【００２５】

【発明の効果】以上説明したように、この発明によれ
ば、ＰＣのバスに実装された信号処理カードにより大語
彙音声認識を行う場合、ＰＣのプロセッサに負担をかけ
ない形で、かつ安価に、実時間音声認識を実現すること
が可能となる。

【図面の簡単な説明】

【図１】この発明の実施例で用いられているフェノニッ
ク・マルコフ・モデルの構造を示す図である。

【図２】上述実施例で用いられるフェノニック単語音声
モデルの説明のための図である。

【図３】上述実施例の構成を示すブロック図である。

【図４】上述実施例における、主メモリ内のデータ構成
およびその転送方法を説明するための図である。

【図５】上述実施例の処理の流れを説明するためのフロ
ー・チャートである。

【符合の説明】

１…パーソナル・コンピュータ２…パーソナル・コンピュータのバス３…プロセッサ４…主メモリ５…信号処理カード６…パーソナル・コンピュータのバス・インターフェー
ス７…信号処理カードの内部バス８…信号処理プロセッサ９…信号処理プロセッサ用メモリ

───────────────────────────────────────────────────── フロントページの続き (72)発明者黒田明裕東京都千代田区三番町５−19 日本アイ・ビー・エム株式会社東京基礎研究所内 (72)発明者年岡晃一東京都千代田区三番町５−19 日本アイ・ビー・エム株式会社東京基礎研究所内

Claims

【特許請求の範囲】

【請求項１】語彙単語の音声モデルを規定するマルコ
フ・モデルの確率値の情報と、微小な時間間隔に割り当
て可能な音響タイプを表す一組のラベルの情報とを保持
し、入力音声に基づいて、対応するラベルを順次に生成
して上記入力音声のラベル列を生成し、上記語彙単語の
音声モデルと上記ラベル列とに基づいて上記マルコフ・
モデルの確率値を累積し、この累積値に基づいて音声認
識を行う音声認識装置において、バスと、上記バスに接続されたプロセッサと、上記バスに接続された、上記プロセッサの主メモリであ
って、上記マルコフ・モデルの確率値を上記ラベルごと
にアクセス可能に保持するものと、上記バスに接続される信号処理ユニットとを有し、上記信号処理ユニットは、上記一組のラベルの情報を保持する手段と、上記一組のラベルの情報に基づいて入力音声を上記ラベ
ル列に変換する手段と、上記ラベル列に含まれるラベルごとに、当該ラベルに関
連する上記マルコフ・モデルの確率値を上記主メモリか
らダイレクト・メモリ・アクセス転送により取り込む手
段と、上記取り込んだ確率値に基づいて、上記語彙中の各単語
ごとに、確率値を累積する手段と、上記累積された確率値に応じて１または複数の単語を認
識結果と決定する手段とを含むことを特徴とする音声認
識装置。
【請求項２】上記ダイレクト・メモリ・アクセス転送
により取り込む手段はバス・マスタである請求項１記載
の音声認識装置。
【請求項３】上記信号処理カードは上記取り込まれる
確率値を一時記憶するとともに上記確率値の累積値を保
持する、上記主メモリより高速のメモリを有する請求項
２記載の音声認識装置。
【請求項４】プロセッサ、主メモリおよび入出力装置
とをバスに共通接続してなるコンピュータ・システムの
上記バスに接続可能な音声認識用処理ユニットにおい
て、微小な時間間隔に割り当て可能な音響タイプを表す一組
のラベルの情報に基づいて入力音声を上記ラベル列に変
換する手段と、語彙単語の音声モデルを規定するマルコフ・モデルの確
率値の情報であって、上記ラベルごとにアクセス可能に
配列されたものを予め保持している、上記主メモリか
ら、上記ラベル列に含まれるラベルごとに、当該ラベル
に関連する上記マルコフ・モデルの確率値をダイレクト
・メモリ・アクセス転送により取り込む手段と、上記取り込んだ確率値に基づいて、上記語彙中の各単語
ごとに、確率値を累積する手段と、上記累積された確率値に応じて１または複数の単語を認
識結果と決定する手段とを有することを特徴とする音声
認識用処理ユニット。
【請求項５】微小な時間間隔に割り当て可能な音響タ
イプを表す一組の第１ラベルの情報と、上記第１ラベル
の各々が語彙単語の発生において生成される確率の情報
と、微小な時間間間隔に割り当て可能な音響タイプを表
す第２ラベルにそれぞれ対応する一組のマルコフ・モデ
ルの連鎖として表される、語彙単語の音声モデルの情報
と、上記マルコフ・モデルの確率値の情報とを保持し、
入力音声に基づいて、対応する第１ラベルを順次に生成
して上記入力音声の第１ラベルの列を生成し、上記第１
ラベルの列と、上記第１ラベルの各々が語彙単語の発生
において生成される確率とを用いて、上記語彙単語の認
識候補かどうかを判別し、上記認識候補の音声モデルと
上記第１ラベルの列とに基づいて上記マルコフ・モデル
の確率値を累積し、この累積値に基づいて詳細な音声認
識を行う音声認識装置において、バスと、上記バスに接続されたプロセッサと、上記バスに接続された、上記プロセッサの主メモリであ
って、上記一組の第１ラベルが上記語彙単語の発生にお
いて生成される確率値の情報を上記第１ラベルごとにア
クセス可能に保持し、さらに上記語彙単語の音声モデル
の情報を語彙単語ごとにアクセス可能に保持するもの
と、上記バスに接続された信号処理ユニットとを有し、上記信号処理ユニットは、入力音声を第１ラベルの列に変換する手段と、上記第１ラベルの列に含まれるラベルごとの、当該第１
ラベルを上記語彙単語が生成する確率値の情報を上記主
メモリからダイレクト・メモリ・アクセス転送により取
り込む手段と、上記第１ラベルの列に含まれるラベルごとに、上記取り
込んだ確率値に基づいて、上記語彙単語の確率値を累積
する手段と、上記累積された確率値に応じて候補単語を決定する手段
と、候補単語の音声モデルの情報をダイレクト・メモリ・ア
クセス転送により上記主メモリから取り込む手段と、上記第１ラベルの列に含まれる第１ラベルごとに当該ラ
ベルを種々の遷移で生成する確率値の情報をダイレクト
・メモリ・アクセス転送により上記主メモリから取り込
む手段と、上記音声モデルの情報と上記第１ラベルごとに取り込ま
れる確率値の情報とに応じて上記単語候補が上記入力音
声である尤度を計算する手段と、上記尤度に基づいて認
識結果を生成する手段とを有することを特徴とする音声
認識装置。