JP3766111B2

JP3766111B2 - 音声認識装置

Info

Publication number: JP3766111B2
Application number: JP20301191A
Authority: JP
Inventors: 宏之坪井; 秀樹橋本
Original assignee: Toshiba Corp; Toshiba Digital Media Engineering Corp
Current assignee: Toshiba Corp; Toshiba Development and Engineering Corp
Priority date: 1991-08-13
Filing date: 1991-08-13
Publication date: 2006-04-12
Anticipated expiration: 2021-04-12
Also published as: JPH0546658A

Description

【０００１】
【産業上の利用分野】
本発明は、構文解析を用いた音声認識装置に関するものである。
【０００２】
【従来の技術】
最近、人間が機械に対して直接音声により指令を与えるような試みが成されており、音声認識のための各種の技術が開発されている。
【０００３】
しかして、従来、人間の音声言語に対する処理には、音声からその意味内容を抽出する方法として、音声エネルギーの変化や零交差回数などの情報を利用して、発声された音声区間の始終端を検出し、構文・意味処理により意味内容を抽出する方法がある。この方法の場合、その検出の単位の殆どは、単語単位や発話と呼ばれる単文レベルの単位である。そして、始終端区間から抽出された音声特徴パラメータを音声認識辞書のパターンと照合し、この結果として抽出された単語や音韻などの系列に対して、文法に記述された構文的意味的な制約を利用して構文・意味解析を行うようにしている。
【０００４】
このような方法では、人間の音声から意味の単位である発話（単文）の検出を音響的な特徴によってのみ行うようになるため、認識すべき本来の意味とは本質的に無関係にその発話の始終端が決定されてしまう。
【０００５】
そこで、従来では、音声入力を固定長の小さな単位（フレーム）に区切り、上述の各処理をパイプライン的に行うことで音声区間、つまり文の終端位置に自由度を持たせる解析方法が提案されている。しかし、この場合でも、発話の少なくとも始端は、予め固定したものとして取り扱われるため、そこに内在する問題は、始終端が固定された場合と同じである。
【０００６】
また、認識単位の始終端に自由度を持たせる方法としてワードスポッティング法が知られている。この方法では、始終端に自由度があるのは認識単位としての単語であり、入力系列から文の単位で意味を抽出する際には、やはり単語認識以前に文として扱う範囲を決定することが要求される。しかし、このように構文や意味により入力信号系列から文の始終端を検出する方法は、今日まで確立していない。
【０００７】
このため、従来の音声認識装置では、こうした発話の意味内容と無関係な音声区間が決定されることから、音声インターフェースとして、１文単位の人間の音声入力を促す入力モードと、入力を受けて解析・処理を行う処理モードの少なくとも２つを用意しなければならず、複数の文を連続的に発声するような人間の自然な発話が疎外されてしまう。
【０００８】
人間の対話での発話は、書物に書かれた文章に比べ非常に曖昧である。文法的に曖昧であり、文の単位や文の境界自体も明確でない。加えて、無意味な語や、言い淀み、雑音を含んでいる。従来の音声認識装置においては、基本的に上述した音声区間に依存する音韻や単語の系列を隙間無く意味を持つ系列と見なして解析しようとする。そのため、音声区間の中に雑音であるとか「あのー」「ええと」のようなそれ自体は意味を持たない語や、文中の間（無音区間）、言い淀み、それに対する認識誤りや省略などの不確定な要素が存在する場合、その音声区間全体の構文・意味解析が失敗してしまう。
【０００９】
そこで、これらの対策として、例えば雑音や無音区間にカテゴリなどの意味を与え、他の意味を持つ要素と同様の制約下で解析する方法も考案されているが、これら各要素の出現の不確定さゆえに計算量の著しい増大を招き易く、対処できる範囲も限定されてしまう。
【００１０】
さらに、従来では、ワードスポッティング法を用いた音声認識に構文解析を組み合わせる方法も考えられているが、この方法の場合、認識部から構文解析部に単語を送るタイミングが単語の始端位置を基準（始端同期）としているため、認識から構文解析により文候補を得るまでの間に少なくとも認識対象単語の最大単語長だけ時間遅延が発生する。これは人間が発声してから音声認識装置がそれに反応するまでの間に少なくともその最大単語長だけ時間遅延が生じることを意味し、人間の発話をイベントとしたイベント駆動型のシステムを考えた場合、その遅延時間は、人間の自然な発生を疎外し、マン・マシーンインターフェースの見地から、そのシステム自体に致命傷を与え兼ねない。
【００１１】
【発明が解決しようとする課題】
このように従来の音声認識装置にあっては、構文や意味により入力信号系列から文の始終端を検出する考えが確立されていないことから、音声インターフェースとして、１文単位の人間の音声入力を促す入力モードと入力を受けて解析・処理を行う処理モードをそれぞれ用意しなければならず、複数の文を連続的に発生するような人間の自然な発話に対しては処理ができず、特に、「あのー」「ええと」のようなそれ自体は意味を持たない語や、文中の間（無音区間）、言い淀み、それに対する認識誤りや省略などの不確定な要素が存在するような場合にも、その音声区間全体の構文・意味解析が失敗してしまうことがある。また、ワードスポッティング法を用いた音声認識に構文解析を組み合わせる方法によっても音声入力から構文解析までに著しい時間遅延を生じるるなどの問題点があった。
【００１２】
本発明は上記事情に鑑みてなされたもので、複数の文を連続的に発生するような発話に対しては勿論、無意味な語の発話についても対応でき、さらに音声入力から構文解析までにの時間遅延を最小に抑えることが可能な音声認識装置を提供することを目的とする。
【００１３】
【課題を解決するための手段】
本発明の音声認識装置は、音声信号を入力する音声入力手段と、前記音声入力手段に入力された音声信号を分析して特徴パラメータの時系列を求め、所定の音声区間条件を満たし且つ一つの終端を基準にしてそれぞれ始端が異なる複数の区間についての特徴パラメータの時系列のなかから、所定の音声認識辞書との比較類似度に基づいて一つの単語候補を認識するとともに、前記終端を連続的に異ならせて複数の単語候補の時系列を出力する単語認識手段と、前記単語認識手段により得られた複数の単語候補の時系列について、少なくとも一つの単語候補に対し、時間的な連接可能条件に従い認識対象外の音または語を除き、連接させることが可能な単語候補を判定する第１の判定手段と、前記単語認識手段により得られた複数の単語候補の時系列について、少なくとも一つの単語候補に対し、構文的な連接可能条件に従い認識対象外の音または語を除き、連接させることが可能な単語候補を判定する第２の判定手段と、前記第１、第２の判定手段による判定結果に基づき前記複数の単語候補の時系列の一部を連接して部分文候補を生成する部分文候補生成手段と、前記部分文候補生成手段により生成された部分文候補に前記複数の単語候補のいずれかを組み合わせて構文解析する構文解析手段により構成されている。
【００１４】
また、本発明は、単語認識手段より出力される各単語候補に対する処理を構文解析の処理単位の終端位置を基準にして行うように構成されている。
【００１５】
【作用】
この結果、本発明によれば、複数の文を連続的に発生するような人間の自然な発話に対する処理が可能となり、特に、「あのー」「ええと」のようなそれ自体は意味を持たない語や、文中の間（無音区間）、言い淀み、それに対する認識誤りや省略などの不確定な要素が存在するような場合にも、その構文・意味解析が可能になる。また、音声入力から構文解析までの時間遅延を最小限に抑えることも可能になる。
【００１６】
【実施例】
以下、本発明の一実施例を図面に従い説明する。
【００１７】
図１は、同実施例の概略構成を示している。図において、１は音声入力部で、この音声入力部１は、マイクロホン等を介して入力される音声信号をデジタル信号に変換するようにしている。また、音声入力部１では入力された音声の特徴、例えばエネルギーや零交差数などを用いて音声の区間の検出を行う。これは後述する音声認識部２、構文解析部３での処理範囲を決めるために用いられる。
【００１８】
そして、この音声入力部１によりデジタル化された音声信号は、音声認識部２に送られる。
【００１９】
この場合、音声認識部２は、例えば図４に示すような複数の認識対象単語を予め用意した音声認識辞書２１を有するもので、この音声認識辞書２１の認識対象単語に基づいて、例えばワードスポッティング法による音声認識が実行されるようになっている。つまり、音声入力部１から入力される音声信号に対して、ＦＦＴ、フィルタ分析、ＬＰＣ分析、ケプストラム処理などの各種処理を実行し、音声特徴パラメータを検出するようになる。ここでは、ある一定の時間間隔（例えば８ｍｓｅｃ）毎に、例えば１６次元のフィルタバンク出力を用いた音声の特徴パラメータを計算する。そして、抽出された特徴パラメータ系列は、８ｍｓｅｃのフレーム周期毎に始終端検出を経ずに、音声認識辞書２１の内容と連続的に照合されるようになる。その照合は、最新フレームの特徴パラメータを基準とした終端同期で、発声速度の変化に対応するため単語始端に自由度を持たせた形で行なわれる。そして、この音声認識部２での認識結果は、単語ラティス形式で構文解析部３に送られる
構文解析部３は、音声認識部２から送られる単語ラティス形式の認識結果を入力として構文解析を行うようにしている。ここでの単語ラティス中の個々の単語は、少なくとも始端、終端、尤度、単語名の４つの情報を有している。本実施例では、単語名は統語カテゴリ（品詞）と同一と見なすが、構文解析用の辞書の記述および、構文解析のための単語名による辞書検索も可能としている。
【００２０】
ここで、単語の尤もらしさを表す尤度の基準尺度としては、距離、類似度、確率などが考えられ、そして、このような尤度を用いて後述の解析を行い、文候補としての尤度を評価関数により求めるようになる。ここでの評価関数としては、単語尤度の重み付けを考慮した和、積、対数値の和などが用いられる。
【００２１】
構文解析部３は、図２に示すように文始端判定部３１、文候補解析部３２、文終端判定部３３、文候補処理部３４から構成している。また、構文解析部３には、参照データとして解析の構文的意味的制約を記述した文法辞書４の他に、データテーブルとして入力単語テーブル５および文候補テーブル６を接続している。
この場合、文法辞書４は、文脈自由文法を格納したもので、入力系列の構文・意味解析を行う際の制約として利用される。図５は、同実施例に用いられる文法の一例を示している。同文法では、統語カテゴリ以外の意味情報を扱うことができるように拡張可能であり、その拡張によって構文解析部３は、構文解析とともに、意味解析を平行して行なうことも可能にしている。
【００２２】
入力単語テーブル５は、音声認識部２から渡された単語を一時的に蓄積するテーブルであり、少なくとも最大文長のサイズを持つＦＩＦＯである。
【００２３】
文候補テーブル６は、構文解析部３が解析中の文候補を蓄積するためのテーブルで、このテーブル中に存在する文候補は解析の中間結果で部分文候補と呼ばれる。そして、各部分文候補には、解析で参照した入力単語へのポインタを持たせ、入力単語の情報を参照させることができるようにしている。
【００２４】
なお、構文解析部３で利用する構文解析法は、例えば冨田法(M.Tomita, "An Efficient Word Lattice Parsing Algorithm for Cotinuous Speech Recognition", Proc.ICASSP'86, pp.1569-1572, Nov., 1986)を基本としたものを採用することもできる。その他、アーリーのアルゴリズム、チャート法など、横型の構文解析法であれば、トップダウン法、ボトムアップ法のいずれを問わずに利用することが可能である。また、単語の認識から構文解析に亘って小さな単位でパイプライン処理をさせる必要が無ければ、縦型の構文解析法も採用できる。いずれにしても、本実施例の構文解析部３で従来の解析方式と異なるのは、逐次、検出単語が入力される毎に文始端判定、文候補解析、文終端判定を行い、文としての構文を満たすものをすべて出力すること、および文解析を入力検出単語区間の終端を基準にして行うことである。
【００２５】
なお、発話が長い間されない場合には、音声入力部１で検出した音声区間情報から解析処理を終了し、新たな入力に対して処理を開始する。
【００２６】
次に、以上のように構成した実施例の動作を説明する。
【００２７】
いま、音声入力部１にマイクロホン等を介して音声信号が入力されると、ここでデジタル信号に変換され音声認識部２に送られる。
【００２８】
音声認識部２では、図４に示すような認識対象単語を格納した音声認識辞書２１に基づいて、例えばワードスポッティング法による音声認識が実行される。この場合、図３に示すような連続する音声パターンＶＰの照合は、基本的には、音声入力部１より入力される音声信号の分析により求められる特徴パラメータの系列から、その特徴パラメータを求めた各分析フレームをそれぞれ終端点Ｅに仮定し、これら終端点Ｅを基準にして、ある音声区間条件を満たす複数の始端点からなる始端点候補区間Ｓを仮定する。そして、これら始終端点で示される仮の音声区間の特徴パラメータの系列を時間軸方向にリサンプル処理し、音声区間を異にする所定の次元数の特徴ベクトルの終端点Ｅを基準にして求める。次いで、このように終端点Ｅを時間軸方向にシフトしながら順次連続的に抽出し、各特徴ベクトルと音声認識辞書２１との類似度をそれぞれ求めるとともに、各特徴ベクトルについて求められた類似度系列から各カテゴリごとに最大類似度を示す音声特徴ベクトルと始終端情報を求めるようにする。このようにすることでワードスポッティングが可能になり、その結果として後述する図７のＷ１〜Ｗ６に示すような単語候補（単語ラスティス）を時系列に生成することになる。
【００２９】
音声認識部２において認識された単語候補は、入力単語テーブル５に書き込まれる。また、これと同時に文始端判定部３１において、単語候補が構文的な制約から文の先頭として出現し得る単語であるか否かの判定を行なう。この場合、到達可能を表すテーブルあるいは構文解析法として冨田法を基本として採用している場合には、文法から構成されるＬＲパーズ表を参照することで判定できる。図６は、文法辞書４の内容に基づいて作成されたＬＲパーズ表である。この表では、全認識単語のうち縦軸の状態０に対し動作の記述された単語、ここではHAMB, CHEESB, POTATO, COFFEE, COLA が文の先頭となりうる単語である。
【００３０】
文始端判定部３１で文頭になり得ると判定されたならば、その単語候補を先頭とした新しい部分文候補を作成し文候補テーブル６に書き込む。文の先頭とならない単語候補対しては、ここでは何も行なわない。
【００３１】
次に、文候補解析部３２において、前フレームまでに解析された文候補テーブル６の中の部分文候補のうちで、文始端判定部３１で新たに作成された候補以外の全てと構文解析部３に入力された単語候補の全ての組み合せに対して、構文解析処理を行なう。この場合、各単語候補についての構文解析をフレームの終端同期で行うようになる。冨田法でいえば、先に述べたＬＲパーズ表を参照しながら、部分文候補と単語の組み合せに対して解析を進めていく。ここでは、構文解析と同時に構文木や意味表現等を構成し、各部分文候補に保持させることができる。
【００３２】
ここで、文候補解析部３２での動作を詳述すると、かかる文候補解析部３２では、構文解析処理の前に、文候補テーブル６の中の全ての部分文候補と入力された全ての単語候補の時間的な連接可能性を判定する。その判定には各部分文候補の終端点と、各単語の始端点の情報を利用する。この場合、各部分文候補の両点の時間的にある程度の重なりとある程度の距離は許すものとし、例えば、重なりは１００ｍｓｅｃ、距離は４００ｍｓｅｃと設定する。勿論、単語毎に値を設定することも考えられる。そして、この時に連接しうる単語間の距離をより大きくとることで、例えば、「あのー」や「えーと」などの無意味な語や、非言語的な雑音、認識対象外の単語、言い淀み、それらに対する誤認識単語を除いた形の部分文候補をも生成して解析を進めるようにしている。また、このように単語候補の時間的な連接関係を調べると同時に、部分文候補が最後に解析に利用した単語と、構文解析部３に入力された現在解析中の単語を用いた単語組文法（word pair grammar ）を構文解析と同時に適用することで、解析に必要な計算量の減少を可能にしている。さらに、認識対象単語に日本語の形態素解析で一般的な左右の連接属性を与え、あらかじめその属性に従って記述した連接テーブルを参照し、単語同士の連接可能性を判断することも可能にしている。
【００３３】
図７は、音声信号として「ハンバーガーと、えーとコーヒーを下さい。」が入力され、音声認識部２より単語候補としてＷ１〜Ｗ６が与えられた場合を示している。この場合、ハンバーガーＷ１に連接可能な単語の始端は、ハンバーガーＷ１の終端を基準にして−Ｌ１〜＋Ｌ２の区間としている。これは不要語や助詞などが発話される文の意味内容理解に必要なキーワード（図示例ではハンバーガ、コーヒー、下さい）以外の部分の時間長を考慮して決められる。ここでは、−Ｌ１〜＋Ｌ２の区間には１個Ｗ２、２個Ｗ３、コーヒーＷ４の始端があるため、それぞれがハンバーガーＷ１に時間的な関係から連接可能であると判断される。そして、文法的にも接続可能であると判断されれば、Ｗ１とＷ２、Ｗ１とＷ３、Ｗ１とＷ４の部分文候補が生成されるようになる。
【００３４】
その後、文終端判定部３３において、文候補テーブル６の部分文候補の全てに対して、各部分文候補が文として成立しているか否かを文法辞書４を利用して判定を下し、文として成立しているならば候補文として出力するようになる。
【００３５】
ここで、文法の曖昧性により、その候補が次フレーム以降に出現する単語を用いてさらに解析を進める可能性がある場合には、元の候補を複製して文候補テーブル６中に残すようになる。
【００３６】
また、文終端判定部３３での単語の文終端の判定法は、部分文候補を解析すると同時に解析木を作成する場合で言えば、解析木の根ノードが文法の開始記号と同一となった場合に、その部分文候補は文法制約上、完全な文として成立したと見なすようにしている。そして、文終端判定部３３からの出力は、結果として文ラティスの形式を持つものである。
【００３７】
次に、文候補テーブル６に残された文候補全てに対し、文候補処理部３４において、例えば予め決ったフレーム数以上の長さの文候補を文候補テーブル６から削除する。これは次フレーム以降に認識される単語候補が連接し得ない文候補を削除することを意味する。この処理により、無限の入力単語系列に対する解析を有限の記憶領域の下で連続的に行なうことができる。
【００３８】
また、文候補の爆発を押え、計算量を少なくするために、全ての文候補に何らかの評価関数を適用して評価を行ない、その評価結果によりソートし、あらかじめ定めた候補数（ビーム幅）に外れる評価の低いものを枝刈する処理は、文候補処理部３４で行うこともできる。ここで生き残った文候補は、次フレーム以降の入力を使って認識された単語との解析処理に利用される。
【００３９】
ここで、図８は、構文解析部３で処理されるデータの時間的な対応を示すものである。図において、ＶＰは時間とともに変化する入力音声エネルギー、ＦＰが現在の解析時点、ＦＵが最小の解析単位であるフレームの長さである。また、Ｗ１〜Ｗ３は現時点で認識された単語候補、Ｃ１〜Ｃ８は現在解析中の部分文候補、Ａ１〜Ａ５は文として成立して出力される処理済みの文候補である。
【００４０】
しかして、図において、例えば単語候補Ｗ１が文の始端にとなり得る単語であれば、その単語Ｗ１を先頭とした新しい部分文候補Ｃ９が生成される。また、部分文候補Ｃ６が単語候補Ｗ３を利用して構文解析を進められるならば、その部分文候補Ｃ６は複製され、部分文候補Ｃ１０として生成される。さらに、その部分文候補Ｃ１０の最後の単語候補Ｗ３が文の終端となり得るものならば、部分文候補Ｃ１０は複製され文候補Ａ６として出力されるようになる。
【００４１】
なお、図中ＣＲは、解析時点ＦＰを起点とした部分文候補の生存範囲であり、終端点がＣＲから外れた部分文候補は削除される。
【００４２】
そして、現時点で認識された単語候補Ｗ１〜Ｗ３に対する全ての解析が終わったならば、解析時点ＦＰを次処理のために１だけインクリメントするようになる。つまり、ここでは、各単語候補Ｗ１〜Ｗ３を終端同期で構文解析するようになっている。
【００４３】
次に、その具体例として図９に示すように「ハンバーガーとコーヒー下さい。あ、それとポテトも追加して」の２つの文を連続して発声し、且つ２番目の文の頭に雑音が混入したような場合を説明する。
【００４４】
この場合、音声認識部２において認識された単語候補としてＷ１〜Ｗ１１が与えられたとする。そして、これら単語候補Ｗ１〜Ｗ１１は、入力単語テーブル５に書き込まれ、構文解析部３で上述した方法に従って構文解析が行われる。まず、文始端判定部３１で、各単語候補について構文的な制約から文の先頭として出現し得る単語であるか否かが判定される。最初に「ハンバーガー」Ｗ２が該当する。そして、次に「ハンバーガー」Ｗ２に連接可能な単語の始端が調べられる。ここで、「コーヒー」Ｗ４、「コーラ」Ｗ５、「下さい」Ｗ６が該当するものとすると、解析結果としての文候補Ｓ１、Ｓ２、Ｓ４が生成される。次に、文の先頭として出現し得る単語として「コーヒー」Ｗ４が該当すると、今度は「コーヒー」Ｗ４に連接可能な単語の始端が調べられ、文候補Ｓ３が生成される。以下同様にして文候補Ｓ５、Ｓ６が生成される。
【００４５】
このようにして、従来方法では克服が難しかった、雑音、無意味な語、それに対する誤認識、単語の湧出、無音区間、連続文などに対処することが可能となり、単語ラティスを構文的意味的に切り分け、解析結果としての文候補Ｓ１〜Ｓ６が得られることになる。なお、同図では、単語候補Ｗ１〜Ｗ１１により同じ時間区間内に複数の文候補（Ｓ１〜Ｓ４とＳ５〜Ｓ６）が生成されている場合を示しているが、これら文候補は単語候補Ｗ１〜Ｗ１１に対して全部でなく、その一部である。
【００４６】
その後、このような各候補の終端が調べられ、文候補が生成されることになる。そして、これらの候補文のうちから最終的候補の選択は、文候補解析部３の出力を図示しない音声言語処理装置に与え、ここで音響的な特徴、文候補のもつ尤度、文脈情報などの様々な情報を利用することにより実現できる。
【００４７】
従って、このようにすれば、無限長を持つ音声入力に対して連続的に構文解析を行ない文候補を抽出することで、解析された文候補は、ラティス形式で連続的に出力できるようになり、入力音声系列自体を本来の意味とは無関係に、構文解析の前にあらかじめ区切ることなく文法的意味的な制約を利用して入力系列に対する文単位のセグメンテーションを連続的に行なうことが可能となる。
【００４８】
また、各単語候補に対して実行される構文解析を各フレームの終端を基準にして行う終端同期を採用しているので、音声入力からこれらを終端に接続される文候補の生成までの時間的な遅延を最小限に抑えることもできる。
【００４９】
なお、このように無限長を持つ音声入力に対して連続的に構文解析を行ない文候補を抽出することになると、連続出力される文候補を記憶するための記憶領域の有限性の問題が発生するが、現在の対話の流れから関連がないと思われるような、例えば１０分前に発話された文候補は強制的に捨てるという文候補を残すためのある種の境界を設定するようにすれば問題は回避できる。また、音声入力部１の音声区間と組み合わせることにより発話の有無を解析処理の制御に用いることができる。
【００５０】
また、図１０のタイムチャートに示すように、音声の入力ａから単語の終端同期による認識および入力単語終端同期の構文解析ｂを１フレーム毎にパイプライン的に進めるようにすれば、音声入力から文解析結果を出力するまでの時間的な遅延を最低に抑えることができる。その遅延の最小は１フレーム分の時間（この例では８ｍｓｅｃ）である。
【００５１】
次に、本発明の他の実施例を図１１に従って説明する。
【００５２】
この場合、図では、音声認識部１２に接続される構文解析部１３を、文始端判定部１３１、文候補解析部１３２、文終端判定部１３３、文候補処理部１３４の他に単語予測部１３５を設けたもので構成している。
【００５３】
音声認識部１２での認識対象単語が増大すると、それに比例して認識処理時間が増大するが、このような場合でも、単語予測部１３５により解析中の部分文候補と文法知識を利用して次フレームに出現可能な単語を予測することにより認識単語セットが縮小し計算量を軽減することができる。つまり、単語予測部１３５では、現在入力された単語に対して構文解析が終了した時点で、文候補テーブル中の解析進行中の文候補と文法を使って、次に出現すべき単語を予測する。これは、例えば、冨田法を利用した場合には、ＬＲパーズ表を利用して容易に行えるが、予測自体は特定の構文解析法に依存しない。
【００５４】
そして、単語予測部１３５での予測結果は、音声認識部１２に送られ、次フレームの入力の認識に利用される。これにより全ての認識対象単語のうち予測されたもののみが処理され、これを構文解析部１３に送るようになる。
【００５５】
図１２は、音声の入力ａ、単語の終端同期による認識および入力単語終端同期の構文解析ｂそして、単語予測ｃを１フレーム毎にパイプライン的に進めるようにした処理のタイムチャートを示すもので、このようにしても音声入力から文解析結果を出力するまでの時間を短縮することが可能になる。
【００５６】
【発明の効果】
以上に述べたように、本発明によれば、複数の文を連続的に発声するような人間の自然な発話に対する処理が可能となり、特に、「あのー」「ええと」のようなそれ自体意味を持たない語や、文中の間（無音区間）、言い淀み、それに対する認識誤りや省略などの不確定な要素が存在するような場合にも、その構文・意味解析が可能になる。また、音声入力から構文解析までの時間遅延を最小限に抑えることも可能になる。これにより実際場面での人間と機械の自然な発話を実現できることから、マンマシン・インタフェースの飛躍的な向上も期待できる。
【図面の簡単な説明】
【図１】本発明の一実施例の概略構成を示す図。
【図２】図１に示す実施例に用いられる構文解析部を示すブロック図。
【図３】図１に示す実施例に用いられる音声認識部の出力例を示す説明図、
【図４】図１に示す実施例に用いられる音声認識辞書を示す図。
【図５】図１に示す実施例に用いられる文法辞書を示す図。
【図６】図５の文法辞書の文法より作成されたＬＲパーズ表を示す図。
【図７】構文解析部での単語の時間的な連続可能性を説明するための図。
【図８】構文解析部より生成された単語、部分文候補、文候補の関係を説明するための図。
【図９】構文解析の具体例を説明するための図。
【図１０】図１に示す実施例の処理を説明するためのタイムチャート。
【図１１】本発明の他の実施例の概略構成を示す図。
【図１２】図１２に示す他の実施例の処理を説明するためのタイムチャート。
【符号の説明】
１…音声入力部、２、１２…音声認識部、２１…音声認識辞書、３、１３…構文解析部、４…文法辞書、５‥‥入力単語テーブル、６…文候補テーブル、３１、１３１…文始端判定部、３２、１３２…文候補解析部、３３、１３３…文終端判定部、３４、１３４…文候補処理部、１３５…単語予測部。

Claims

音声信号を入力する音声入力手段と、
前記音声入力手段に入力された音声信号を分析し複数の単語候補の時系列を出力する単語認識手段と、
前記単語認識手段から出力された複数の単語候補の時系列について、少なくとも一つの単語候補に対し、時間的な位置関係および構文的な連接可能条件に従い認識対象外の音または語を除き、連接させることが可能な単語候補を判定する判定手段と、
前記判定手段による判定結果に基づき前記複数の単語候補の時系列の一部を連接して部分文候補を生成する部分文候補生成手段と、
所定の構文制約条件の下に、前記部分文候補生成手段により生成された部分文候補が一の文として成立するか否かを判定し、成立するならば該部分文候補を文候補として出力する文終端判定手段と、
を具備することを特徴とする音声認識装置。
前記所定の構文の制約条件の下に、文の先頭として出現し得る単語候補を判定する文始端判定手段をさらに具備することを特徴とする請求項１に記載の音声認識装置。
音声信号を入力する音声入力手段と、
前記音声入力手段に入力された音声信号を分析し複数の単語候補の時系列を出力する単語認識手段と、
前記単語認識手段から出力された複数の単語候補の時系列について、少なくとも一つの単語候補に対し、時間的な位置関係および構文的な連接可能条件に従い認識対象外の音または語を除き、連接させることが可能な単語候補を判定する判定手段と、
前記判定手段による判定結果に基づき前記複数の単語候補の時系列の一部を連接して部分文候補を生成する部分文候補生成手段と、
所定の構文の制約条件の下に、文の先頭として出現し得る単語候補を判定する文始端判定手段と、
前記所定の構文の制約条件の下に、前記部分文候補生成手段により生成された部分文候補が一の文として成立するか否かを判定し、成立するならば該部分文候補を文候補として出力する文終端判定手段と、
を具備することを特徴とする音声認識装置。
前記単語認識手段より出力される各単語候補に対する各処理を構文解析の処理単位の終端位置を基準して行うことを特徴とする請求項１乃至３のいずれかに記載の音声認識装置。