JPH03141398A

JPH03141398A - 連続音声認識用構文処理装置

Info

Publication number: JPH03141398A
Application number: JP1280442A
Authority: JP
Inventors: Yasushi Ishikawa; 泰石川
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1989-10-27
Filing date: 1989-10-27
Publication date: 1991-06-17
Anticipated expiration: 2010-01-30
Also published as: JPH077273B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕この発明は連続音声認識装置で入力音声を音響的に処理
する音響処理装置から入力単語候補を受け構文規則を適
用して音声認識結果を得る構文処理装置に関する。

〔従来の技術〕

第７図は例えば文献（共立出版・情報科学講座Ｅ　、１
９．３　、音声認識、１３９頁〜１４２頁、１９７９）
に示された従来例の連続音声認識用構文処理装置の機能
ブロック図である。

図において■は入力音声を音響的に処理して得られる入
力単語候補０１）を単語列候補記憶手段（５０）から読
出した単語列候補（２２）に対して構文規則記憶手段（
６０）から検索した構文規則（３３）を適用して構文検
定をし接続条件を充足する単語列候補（２２）に入力単
語候補０１）を接続して成る新たな単語列候補（２２）
を単語列候補記憶手段（５０）に追加記憶をさせる構文
判定手段、　（４０）は入力単語候補（１１）の入力を
全て終えろと単語列候補記憶手段（５０）から総合音響
距離値が最小の単語列候補（２２）を読出して音声認識
結果（７７）として出力する認識結果判定手段。

（５０）は構文処理で生成される単語列候補（２２）を
記憶する単語列候補記憶手段、　（６０）は構文状態遷
移網で記述した構文規則（３３）を記憶する構文規則記
憶手段である。

上記従来例の連続音声認識用構文処理装置は。

まず構文判定手段（２０）で第８図のように入力音声の
先頭から時間軸方向に沿って処理していく前向き法（ｌ
ｅｆｔ−ｔｏ−ｒｉｇｈｔ　ｍｅｔｈｏｄ）により入力
音声を音響的に処理して得られる入力単語候補（＋１＞
の単語名Ｗが単語列候補記憶手段（５０）から読出した
単語列候補（２２）の最終状態ｐで受理されるか否かを
構文規則記憶手段（６０）から検索した構文規則（３３
）を適用して構文検定をする。このとき受理・生成され
る単語列候補（文章仮説）の全てについて第９図のよう
に　その構成する各単語の総合音響距離値（音響距離値
の総合評価値）の大きいもの即ち尤度の低いものを棄却
し、小さいもの即ち尤度の高いものｔ！けをその時点で
の最終的な単語列候補として採用し次の入力単語候補０
１）を処理していくビーム探索法（ｂｅａｍ　５ｅａｒ
ｃｈ　ｍｅｔｈｏｄ）て仮説検定をする。

第９図で節点に付した数字は尤度、丸印は検定を進める
仮説、黒点印は棄却する仮説をそれぞれ示す。この構文
検定の結果、接続条件を充足する単語列候補（２２）に
入力単語候補（１１）を接続して成る新たな単語列候補
（２２）を単語列候補記憶手段（５０）に追加記憶をす
る。

次に発声を終り入力単語候補（１１）の入力を全て終え
たとき認識結果判定手段（４０）で単語列候補記憶手段
（５０）から総合音響距離値が最小の単語列候補（２２
）を読出して音声認識結果（７７）として出力する。

なお処理の方向として上記前向き法を用いる方式に対し
て第１０図のように最初に入力単語候補（１１）をいっ
たん全て記憶しておいた中から最も確からしい単語候補
を初期仮説としその初期仮説から文頭側または文末側に
拡張しながら時間軸の前後方向に残りの部分を処理して
いく高駆動法（ｉ　ｓ　ｌ　ａｎｄｄｒｉｖｅｎ　ｍｅ
ｔｈｏｃｌ）を用いる方式もある。

〔発明が解決しようとする課題〕

上記のような従来の連続音声認識用構文処理装置では、
前向き法を用いる方式は仮説の評価検証を時間軸方向に
処理するから、途中で正しい仮説をいったん棄却してし
まうと正しい認識結果を得られず、また発声の先頭付近
の単語候補は音響距離値が小さいとは限らず正しい認識
結果を得るためには多くの仮説をたてる必要があり、更
に棄却を少なくして文認識率を向上させろためには音響
距離値が比較的大きい単語候補まで同様に扱う必要があ
り処理量が膨大になる。

一方、島駆動法を用いる方式は処理の初期に正しい仮説
を棄却する可能性が低く高い認識率を期待できるが２発
声文章中の一単語候補を初期仮説とすることはその対象
の単語が出現する構文的な状態を全て仮説とすることに
なるから、その検証に必要な処理量は大きくなる。また
発声文章中の全ての単語候補を検出してから初期仮説を
決定すろので実時間処理ができない。

従来の技術では以上のような課題があった。

この発明が解決しようとする課題は、この発明の構文処
理装置を用いる連続音声認識装置が従来と比べ文認識率
を低下させないで処理量を低減し。

かつ実時間処理を可能にすることである。

〔課題を解決するための手段〕

上記課題を達成するためこの発明の連続音声認識用構文
処理装置は、下記の手段を含むことを特徴とするもので
ある。

連続音声認識装置で入力音声を音響的に処理する音響処
理装置から入力単語候補を受け構文規則を適用して音声
認識結果を得る構文処理装置において、　ｈｑ構文処理
生成される単語列候補を記憶する単語列候補記憶手段と
、ある状態とその状態から受理できる単語名とその単語
を受理したときに遷移する状態とで表わされる構文状態
遷移網で記述した構文規則を記憶する構文規則記憶手段
と。

ある単語名とその単語の前に接続でさる単語名と接続し
ｔコときに遷移する状態とで表わされる構文状態遷移網
で記述した逆引き構文規則を記憶する逆引き構文規則記
憶手段と、単語列候補に属する可能性の低い単語候補を
記憶する単語候補記憶手段とを設け、前記入力単語候補
の音響距離値の閾値判定をし、前記入力単語候補を構文
判定させるかいったん前記単語候補記憶手段に記憶させ
るかを判断する閾値判定手段、この閾値判定手段からの
前記入力単語候補が接続できる可能性のある単語列候補
を前記単語列候補記憶手段から読出し前記構文規則記憶
手段から検索した構文規則を適用して構文判定をし、新
たな単語列候補として前記単語列候補記憶手段に追加記
憶をさせるか前記入力単語候補を更に後向き構文判定さ
せるかを判断する構文判定手段、この構文判定手段から
の前記入力単語候補が接続できる単語候補を前記単語候
補記憶手段から読出し前記逆引き構文規則記憶手段から
検索した逆引き構文規則を適用し、更にその単語候補が
接続できる単語列候補を前記単語列候補記憶手段から読
出し同様に逆引き構文規則を適用して後向き構文判定を
し、新たな単語列候補として前記単語列候補記憶手段に
追加記憶をさせるか否かを判断する後向き構文判定手段
、入力音声の音響的処理を終えて音響処理終了信号を入
力すると前記単語列候補記憶手段から終端位置が入力音
声の終端位置付近で総合音響距離値が最小の単語列候補
を読出し音声認識結果として出力する認識結果判定手段
を備える。

〔作　用〕

上記のように構成した連続音声認識用構文処理装置は、
まず閾値判定手段で入力音声を音響的に処理して得られ
る入力単語候補が音声認識結果に含まれる可能性を判断
し、可能性の低い入力単語候補はいったん記憶する。

次に構文判定手段で、閾値判定手段で音声認識結果に含
まれる可能性が高いと判定された入力単語候補が単語列
候補の後に接続できるか否かを構文規則を適用すること
で判定し、接続可能な入力単語候補はその単語列候補に
接続して成る新たな単語列候補として追加記憶をする。

更に後向き構文判定手段で、構文判定手段で単語列候補
に接続できないと判定された入力単語候補が記憶してお
いｔコ単語候補の前に接続でき更にその単語候補が単語
列候補の後に接続できるか否かを逆引き構文規則を適用
することで判定し、接続可能な入力単語候補はその単語
候補と単語列候補に接続して成る新たな単語列候補とし
て追加記憶をする。

最後に認識結果判定手段で音響処理終了信号が入力され
ると上記構文処理で生成されｔコ単語列候補の終端位置
が入力音声の終端位置付近にあり総合音響距離値が最小
のものを音声認識結果として出力する。

〔実施例〕

第１図はこの発明の一実施例を示す連続音声認識用構文
処理装置の機能ブロック図である。

図において（１）は入力音声を音響的に処理して得られ
る入力単語候補（１１）の音響距離値の閾値判定をし、
その入力単語候補（ＩＩ）を構文判定させるか、あるい
は単語候補としていったん記憶させるかを判断する閾値
判定手段、（２）はこの閾値判定手段からの入力単語候
補（］１）の始端位置が単語列候補記憶手段（５）から
読出した単語列候補（２２）の終端位置と隣接し、更（
とその単語列候補（２２）の最終状態ｐで入力単語候補
０１）の単語名Ｗが受理されることを示す構文規則（３
３）が構文規則記憶手段（６）から検索できるとき、そ
の単語列候補（２２）と入力単語候補０１）を接続して
成る新たな単語列候補の総合音響距離値の閾値判定をし
、新たな単語列候補（２２）として追加記憶をさせるか
、あるいは接続できる単語列候補がないとして入力単語
候補０１）を更に後向き構文判定させるかを判断する構
文＋Ｕ定平手段（３）はこの構文判定手段からの入力単
語候補（１１）の始端位置が単語候補記憶手段（８）か
ら読出した単語候補（５５）の終端位置と隣接し、かつ
その単語候補（５５）の始端位置が単語列候補記憶手段
（５）から読出した単語列候補（２２）の終端位置と隣
接し、更にその単語伺候？！　（２２）の最終状態Ｓで
単語候補（５５）の単語名Ｗ′とその後の入力単語候補
０１）の単語名Ｗが接続されることを示す逆引き構文規
則（４４）を逆引き構文規則記憶手段（７）から検索で
きるとき、その単語列候補（２２）と単語候補（５５）
と入力単語候補（１１）を接続して成る新たな単語列候
補の総合音響距離値の閾値判定をし、新たな単語列候補
（２２）として追加記憶をさせるか否かを判断する後向
き構文判定手段、（４）は全ての入力単語候補θ１）の
入力を終えて音響処理終了信号（６６）が入力されろと
上記構文処理で生成された単語列候補の終端位置が入力
音声の終端位置付近にあり総合音響距離値が最小のもの
を単語列候補記憶手段（５）から読出し音声認識結果（
７７）として出力する認識結果判定手段、（５）は構文
処理で生成された単語列候補（２２）を第２図のように
単語列中の各単語のアドレス、単語名、単語音響距離値
、単語列総合音響距離値、始端位置、終端位Ｕ。

文頭からの単語数、状態および各単語の前単語が記憶さ
れているアドレスの構成で記憶する単語列候補記憶手段
、（６）はある状態ｐとその状態から受理できる単語名
Ｗとその単語を受理したときに遷移する状態ｑとを第３
図のように構文状態遷移網で記述した構文規則（３３）
を予め記憶し、第４図のように　ある状態ｐｌと単語名
ｆｌｌＪをキーとして先頭の２ワードとの比較で遷移状
態がｑＩ７であることを検索できるように構成された構
文規則記憶手段。

（７）はある単語名Ｗとその単語の前に接続できる単語
８冑′と接続したときに遷移する状態ｓｙＰ＋ｑとを第
５図のように構文状態遷移網で記述しｔコ逆引き構文規
則（４４）を予め記憶し、第６図のようにある単語名１
ｆｌの前には単語名Ｗ’（４が接続できそれによる遷移
状態がｆｆ１Ｊｌｌ）ｌＪＩＩ？ｌｊであることを時間
軸の逆方向に遡って検索できるように構成された逆引き
構文規則記憶手段、（８）は単語列候補（２２）に属す
る可能性の低い単語候補（ＩＩ）を記憶する単語候補記
憶手段である。

上記実施例の連続音声認識用構文処理装置は。

まず連続音声４エ装置で入力音声を音響的に処理する音
響処理装置が生成し単語名と始端・終端位置と音響圧ｇ
ｌ値の各情報を含む入力単語候補θｌ）を受ける。

次に閾値判定手段（１）で入力単語候補Ｏｆ）の音響距
離値が閾値以下のときはその入力単語候補０１）が音声
認識結果（７７）に含まれる可能性が高いとして構文判
定手段（２）に入力単語候補０１）を送信する。一方間
値を越えるとき（よ同様の可能性が低いとして単語候補
記憶手段（８）に入力単語候補（ＩＩ＞をいったん記憶
する。また構文判定手段（２）で入力単語候補Ｏｆ）の
始端位置が単語列候補記憶手段（５）から読出した単語
列候補（２２）の終端位置と隣接し、更にその単語列候
補（２２）の最終状態ｐ＋で入力単語候補（１１＞の単
語名ｗ１Ｊが受理されることを示す構文規則（３３）が
構文規則記憶手段（６）から検索できるとき、その単語
列候補（２２）と入力単語候補θｌ）を接続して成る新
たな単語列候補の総合音響距離値が閾値以下のときは入
力単語候補ＯＤが読出した単語列候補（２２）に接続可
能と判定し、単語列候補記憶手段（５）に新たな単語伺
候？ｌｌ！（’２２）として追加記憶をする。一方間値
を越えて入力単語候補０１〉を接続できる単語列候補が
存在しないときは後向き構文判定手段（３）に入力単語
候補（１１）を送信する。

更に後向き構文判定手段（３）で入力単語候補（１１）
の始端位置が単語候補記憶手段（８）から読出した単語
候補（５５）の終端位置と隣接し、かつその単語候補（
５５）の始端位置が単語列候補記憶手段（５）から読出
した単語列候補（２２）の終端位置と隣接し、更にその
単語列候補（２２）の最終状態Ｓ、ｊで単語候補（５５
）の単語名Ｗ’ｌｌとその前の入力単語候補（１１）の
単語名ｗｌが接続されることを示す逆引き構文規則（４
４）が逆引き構文規則記憶手段（７）から検索できると
き。

その単語列候補（２２）と単語候補（５５）と入力単語
候？ｌｆｌ　（＋１＞を接続して成る新たな単語列候補
の総合音響距離値が閾値以下のときは入力単語候補０１
）が読出１７た単語候補（５５）と単語列候補（２２）
に接続可能と判定し、単語列候補記憶手段（５）に新た
な単語列候補（２２）として追加記憶をする。

全ての入力単語候補０１）に対して上記の閾値判定。

構文判定および後向き構文判定処理をし全ての入力を終
えると音響処理装置から音響処理終了信号（６６）を受
ける。

最後に認識結果判定手段（４）で単語列候補記憶手段（
５）から上記処理で生成された単語列候補（２２）の終
端位置が入力音声の終端位置付近にあり総合音響距離値
が最小のものを読出し音声認識結果（７７）として出力
する。

〔発明の効果〕

この発明は以上説明したように構成されており。

従来のように全ての入力単語候補に対して構文判定をし
ないで音響距離値が小さく音声認識結果に含まれる可能
性の高い入力単語候補だけ構文判定をし可能性の低いも
のはいったん記憶しておいて。

音響距離値が小さくても単語列候補に接続できる可能性
の低いときは記憶しておいた単語候補に戻って構文判定
をするようにしたから、従来の前向き法を用いる方式の
問題点であった膨大な処理量を正しい仮説の棄却をしな
いで低減できる。また一部後向きの処理はあっても基本
的には時間軸方向に処理しているようにしたから、従来
の高駆動法を用いる方式の問題点であった発声終了後で
ないと処理を開始できないことも解消できる。

従って、この発明の構文処理装置を用いる連続音声認識
装置は従来装置に比べ文認識率を低下させないで処理量
を低減し、かつ実時間処理を可能にする効果がある。

【図面の簡単な説明】

第１図はこの発明の一実施例を示す連続音声認識用構文
処理装置の機能ブロック図、第２図は第１図の単語列候
補記憶手段の記憶構成例を示す図。第３図と第４図は第１図の構文規則記憶手段の構文規則
を記述する構文状態遷移網とその記憶構成例を示す図、
第５図と第６図は第１図の逆引き構文規則記憶手段の逆
引き構文規則を記述する構文状ｉ遷移網とその記憶構成
例を示す図、第７図は従来例を示す連続音声認識用構文
処理装置の機能ブロック図、第８図と第９図と第１０図
は第７図の従来例で的向き法とビーム探索法と高駆動法
を用いる方式を示す図である。図において（１）は閾値判定手段、（２）は構文判定手
段、（３）は後向き構文判定手段、（４）は認識結果判
定手段、（５）は単語列候補記憶手段、（６）は構文規
則記憶手段、（７）は逆引き構文規則記憶手段、（８）
は単語候補記憶手段、　（＋１＞は入力単語候補、　（
２２）は単語列候補、　（３３）は構文規則、　（４４
１は逆引き構文規則。（５５）は単語候補、　（６６）は音響処理終了信号、
　（７７）ば音声認識結果。なお２図中、同一符号は同−又は相当部分を示す。

Claims

【特許請求の範囲】

連続音声認識装置で入力音声を音響的に処理する音響処
理装置から入力単語候補を受け構文規則を適用して音声
認識結果を得る構文処理装置において、構文処理で生成
される単語列候補を記憶する単語列候補記憶手段と、あ
る状態とその状態から受理できる単語名と、その単語を
受理したときに遷移する状態とで表わされる構文状態遷
移網で記述した構文規則を記憶する構文規則記憶手段と
、ある単語名とその単語の前に接続できる単語名と接続
したときに遷移する状態とで表わされる構文状態遷移網
で記述した逆引き構文規則を記憶する逆引き構文規則記
憶手段と、単語列候補に属する可能性の低い単語候補を
記憶する単語候補記憶手段とを設け、前記入力単語候補
の音響距離値（入力音声の音響的特徴量と標準パターン
の基準値との差違）の閾値判定をし、前記入力単語候補
を構文判定させるかいったん前記単語候補記憶手段に記
憶させるかを判断する閾値判定手段、この閾値判定手段
からの前記入力単語候補が接続できる可能性のある単語
列候補を前記単語列候補記憶手段から読出し前記構文規
則記憶手段から検索した構文規則を適用して構文判定を
し、新たな単語列候補として前記単語列候補記憶手段に
追加記憶をさせるか前記入力単語候補を更に後向き構文
判定させるかを判断する構文判定手段、この構文判定手
段からの前記入力単語候補が接続できる単語候補を前記
単語候補記憶手段から読出し前記逆引き構文規則記憶手
段から検索した逆引き構文規則を適用し、更にその単語
候補が接続できる単語列候補を前記単語列候補記憶手段
から読出し同様に逆引き構文規則を適用して後向き構文
判定をし、新たな単語列候補として前記単語列候補記憶
手段に追加記憶させるか否かを判断する後向き構文判定
手段、入力音声の音響的処理を終えて音響処理終了信号
を入力すると前記単語列候補記憶手段から終端位置が入
力音声の終端位置付近で総合音響距離値が最小の単語列
候補を読出し音声認識結果として出力する認識結果判定
手段を備えたことを特徴とする連続音声認識用構文処理
装置。