JP3766111B2 - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
JP3766111B2
JP3766111B2 JP20301191A JP20301191A JP3766111B2 JP 3766111 B2 JP3766111 B2 JP 3766111B2 JP 20301191 A JP20301191 A JP 20301191A JP 20301191 A JP20301191 A JP 20301191A JP 3766111 B2 JP3766111 B2 JP 3766111B2
Authority
JP
Japan
Prior art keywords
word
sentence
candidate
candidates
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP20301191A
Other languages
English (en)
Other versions
JPH0546658A (ja
Inventor
宏之 坪井
秀樹 橋本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Development and Engineering Corp
Original Assignee
Toshiba Corp
Toshiba Digital Media Engineering Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Digital Media Engineering Corp filed Critical Toshiba Corp
Priority to JP20301191A priority Critical patent/JP3766111B2/ja
Publication of JPH0546658A publication Critical patent/JPH0546658A/ja
Application granted granted Critical
Publication of JP3766111B2 publication Critical patent/JP3766111B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【0001】
【産業上の利用分野】
本発明は、構文解析を用いた音声認識装置に関するものである。
【0002】
【従来の技術】
最近、人間が機械に対して直接音声により指令を与えるような試みが成されており、音声認識のための各種の技術が開発されている。
【0003】
しかして、従来、人間の音声言語に対する処理には、音声からその意味内容を抽出する方法として、音声エネルギーの変化や零交差回数などの情報を利用して、発声された音声区間の始終端を検出し、構文・意味処理により意味内容を抽出する方法がある。この方法の場合、その検出の単位の殆どは、単語単位や発話と呼ばれる単文レベルの単位である。そして、始終端区間から抽出された音声特徴パラメータを音声認識辞書のパターンと照合し、この結果として抽出された単語や音韻などの系列に対して、文法に記述された構文的意味的な制約を利用して構文・意味解析を行うようにしている。
【0004】
このような方法では、人間の音声から意味の単位である発話(単文)の検出を音響的な特徴によってのみ行うようになるため、認識すべき本来の意味とは本質的に無関係にその発話の始終端が決定されてしまう。
【0005】
そこで、従来では、音声入力を固定長の小さな単位(フレーム)に区切り、上述の各処理をパイプライン的に行うことで音声区間、つまり文の終端位置に自由度を持たせる解析方法が提案されている。しかし、この場合でも、発話の少なくとも始端は、予め固定したものとして取り扱われるため、そこに内在する問題は、始終端が固定された場合と同じである。
【0006】
また、認識単位の始終端に自由度を持たせる方法としてワードスポッティング法が知られている。この方法では、始終端に自由度があるのは認識単位としての単語であり、入力系列から文の単位で意味を抽出する際には、やはり単語認識以前に文として扱う範囲を決定することが要求される。しかし、このように構文や意味により入力信号系列から文の始終端を検出する方法は、今日まで確立していない。
【0007】
このため、従来の音声認識装置では、こうした発話の意味内容と無関係な音声区間が決定されることから、音声インターフェースとして、1文単位の人間の音声入力を促す入力モードと、入力を受けて解析・処理を行う処理モードの少なくとも2つを用意しなければならず、複数の文を連続的に発声するような人間の自然な発話が疎外されてしまう。
【0008】
人間の対話での発話は、書物に書かれた文章に比べ非常に曖昧である。文法的に曖昧であり、文の単位や文の境界自体も明確でない。加えて、無意味な語や、言い淀み、雑音を含んでいる。従来の音声認識装置においては、基本的に上述した音声区間に依存する音韻や単語の系列を隙間無く意味を持つ系列と見なして解析しようとする。そのため、音声区間の中に雑音であるとか「あのー」「ええと」のようなそれ自体は意味を持たない語や、文中の間(無音区間)、言い淀み、それに対する認識誤りや省略などの不確定な要素が存在する場合、その音声区間全体の構文・意味解析が失敗してしまう。
【0009】
そこで、これらの対策として、例えば雑音や無音区間にカテゴリなどの意味を与え、他の意味を持つ要素と同様の制約下で解析する方法も考案されているが、これら各要素の出現の不確定さゆえに計算量の著しい増大を招き易く、対処できる範囲も限定されてしまう。
【0010】
さらに、従来では、ワードスポッティング法を用いた音声認識に構文解析を組み合わせる方法も考えられているが、この方法の場合、認識部から構文解析部に単語を送るタイミングが単語の始端位置を基準(始端同期)としているため、認識から構文解析により文候補を得るまでの間に少なくとも認識対象単語の最大単語長だけ時間遅延が発生する。これは人間が発声してから音声認識装置がそれに反応するまでの間に少なくともその最大単語長だけ時間遅延が生じることを意味し、人間の発話をイベントとしたイベント駆動型のシステムを考えた場合、その遅延時間は、人間の自然な発生を疎外し、マン・マシーンインターフェースの見地から、そのシステム自体に致命傷を与え兼ねない。
【0011】
【発明が解決しようとする課題】
このように従来の音声認識装置にあっては、構文や意味により入力信号系列から文の始終端を検出する考えが確立されていないことから、音声インターフェースとして、1文単位の人間の音声入力を促す入力モードと入力を受けて解析・処理を行う処理モードをそれぞれ用意しなければならず、複数の文を連続的に発生するような人間の自然な発話に対しては処理ができず、特に、「あのー」「ええと」のようなそれ自体は意味を持たない語や、文中の間(無音区間)、言い淀み、それに対する認識誤りや省略などの不確定な要素が存在するような場合にも、その音声区間全体の構文・意味解析が失敗してしまうことがある。また、ワードスポッティング法を用いた音声認識に構文解析を組み合わせる方法によっても音声入力から構文解析までに著しい時間遅延を生じるるなどの問題点があった。
【0012】
本発明は上記事情に鑑みてなされたもので、複数の文を連続的に発生するような発話に対しては勿論、無意味な語の発話についても対応でき、さらに音声入力から構文解析までにの時間遅延を最小に抑えることが可能な音声認識装置を提供することを目的とする。
【0013】
【課題を解決するための手段】
本発明の音声認識装置は、音声信号を入力する音声入力手段と、前記音声入力手段に入力された音声信号を分析して特徴パラメータの時系列を求め、所定の音声区間条件を満たし且つ一つの終端を基準にしてそれぞれ始端が異なる複数の区間についての特徴パラメータの時系列のなかから、所定の音声認識辞書との比較類似度に基づいて一つの単語候補を認識するとともに、前記終端を連続的に異ならせて複数の単語候補の時系列を出力する単語認識手段と、前記単語認識手段により得られた複数の単語候補の時系列について、少なくとも一つの単語候補に対し、時間的な連接可能条件に従い認識対象外の音または語を除き、連接させることが可能な単語候補を判定する第1の判定手段と、前記単語認識手段により得られた複数の単語候補の時系列について、少なくとも一つの単語候補に対し、構文的な連接可能条件に従い認識対象外の音または語を除き、連接させることが可能な単語候補を判定する第2の判定手段と、前記第1、第2の判定手段による判定結果に基づき前記複数の単語候補の時系列の一部を連接して部分文候補を生成する部分文候補生成手段と、前記部分文候補生成手段により生成された部分文候補に前記複数の単語候補のいずれかを組み合わせて構文解析する構文解析手段により構成されている。
【0014】
また、本発明は、単語認識手段より出力される各単語候補に対する処理を構文解析の処理単位の終端位置を基準にして行うように構成されている。
【0015】
【作用】
この結果、本発明によれば、複数の文を連続的に発生するような人間の自然な発話に対する処理が可能となり、特に、「あのー」「ええと」のようなそれ自体は意味を持たない語や、文中の間(無音区間)、言い淀み、それに対する認識誤りや省略などの不確定な要素が存在するような場合にも、その構文・意味解析が可能になる。また、音声入力から構文解析までの時間遅延を最小限に抑えることも可能になる。
【0016】
【実施例】
以下、本発明の一実施例を図面に従い説明する。
【0017】
図1は、同実施例の概略構成を示している。図において、1は音声入力部で、この音声入力部1は、マイクロホン等を介して入力される音声信号をデジタル信号に変換するようにしている。また、音声入力部1では入力された音声の特徴、例えばエネルギーや零交差数などを用いて音声の区間の検出を行う。これは後述する音声認識部2、構文解析部3での処理範囲を決めるために用いられる。
【0018】
そして、この音声入力部1によりデジタル化された音声信号は、音声認識部2に送られる。
【0019】
この場合、音声認識部2は、例えば図4に示すような複数の認識対象単語を予め用意した音声認識辞書21を有するもので、この音声認識辞書21の認識対象単語に基づいて、例えばワードスポッティング法による音声認識が実行されるようになっている。つまり、音声入力部1から入力される音声信号に対して、FFT、フィルタ分析、LPC分析、ケプストラム処理などの各種処理を実行し、音声特徴パラメータを検出するようになる。ここでは、ある一定の時間間隔(例えば8msec)毎に、例えば16次元のフィルタバンク出力を用いた音声の特徴パラメータを計算する。そして、抽出された特徴パラメータ系列は、8msecのフレーム周期毎に始終端検出を経ずに、音声認識辞書21の内容と連続的に照合されるようになる。その照合は、最新フレームの特徴パラメータを基準とした終端同期で、発声速度の変化に対応するため単語始端に自由度を持たせた形で行なわれる。そして、この音声認識部2での認識結果は、単語ラティス形式で構文解析部3に送られる
構文解析部3は、音声認識部2から送られる単語ラティス形式の認識結果を入力として構文解析を行うようにしている。ここでの単語ラティス中の個々の単語は、少なくとも始端、終端、尤度、単語名の4つの情報を有している。本実施例では、単語名は統語カテゴリ(品詞)と同一と見なすが、構文解析用の辞書の記述および、構文解析のための単語名による辞書検索も可能としている。
【0020】
ここで、単語の尤もらしさを表す尤度の基準尺度としては、距離、類似度、確率などが考えられ、そして、このような尤度を用いて後述の解析を行い、文候補としての尤度を評価関数により求めるようになる。ここでの評価関数としては、単語尤度の重み付けを考慮した和、積、対数値の和などが用いられる。
【0021】
構文解析部3は、図2に示すように文始端判定部31、文候補解析部32、文終端判定部33、文候補処理部34から構成している。また、構文解析部3には、参照データとして解析の構文的意味的制約を記述した文法辞書4の他に、データテーブルとして入力単語テーブル5および文候補テーブル6を接続している。
この場合、文法辞書4は、文脈自由文法を格納したもので、入力系列の構文・意味解析を行う際の制約として利用される。図5は、同実施例に用いられる文法の一例を示している。同文法では、統語カテゴリ以外の意味情報を扱うことができるように拡張可能であり、その拡張によって構文解析部3は、構文解析とともに、意味解析を平行して行なうことも可能にしている。
【0022】
入力単語テーブル5は、音声認識部2から渡された単語を一時的に蓄積するテーブルであり、少なくとも最大文長のサイズを持つFIFOである。
【0023】
文候補テーブル6は、構文解析部3が解析中の文候補を蓄積するためのテーブルで、このテーブル中に存在する文候補は解析の中間結果で部分文候補と呼ばれる。そして、各部分文候補には、解析で参照した入力単語へのポインタを持たせ、入力単語の情報を参照させることができるようにしている。
【0024】
なお、構文解析部3で利用する構文解析法は、例えば冨田法(M.Tomita, "An Efficient Word Lattice Parsing Algorithm for Cotinuous Speech Recognition", Proc.ICASSP'86, pp.1569-1572, Nov., 1986)を基本としたものを採用することもできる。その他、アーリーのアルゴリズム、チャート法など、横型の構文解析法であれば、トップダウン法、ボトムアップ法のいずれを問わずに利用することが可能である。また、単語の認識から構文解析に亘って小さな単位でパイプライン処理をさせる必要が無ければ、縦型の構文解析法も採用できる。いずれにしても、本実施例の構文解析部3で従来の解析方式と異なるのは、逐次、検出単語が入力される毎に文始端判定、文候補解析、文終端判定を行い、文としての構文を満たすものをすべて出力すること、および文解析を入力検出単語区間の終端を基準にして行うことである。
【0025】
なお、発話が長い間されない場合には、音声入力部1で検出した音声区間情報から解析処理を終了し、新たな入力に対して処理を開始する。
【0026】
次に、以上のように構成した実施例の動作を説明する。
【0027】
いま、音声入力部1にマイクロホン等を介して音声信号が入力されると、ここでデジタル信号に変換され音声認識部2に送られる。
【0028】
音声認識部2では、図4に示すような認識対象単語を格納した音声認識辞書21に基づいて、例えばワードスポッティング法による音声認識が実行される。この場合、図3に示すような連続する音声パターンVPの照合は、基本的には、音声入力部1より入力される音声信号の分析により求められる特徴パラメータの系列から、その特徴パラメータを求めた各分析フレームをそれぞれ終端点Eに仮定し、これら終端点Eを基準にして、ある音声区間条件を満たす複数の始端点からなる始端点候補区間Sを仮定する。そして、これら始終端点で示される仮の音声区間の特徴パラメータの系列を時間軸方向にリサンプル処理し、音声区間を異にする所定の次元数の特徴ベクトルの終端点Eを基準にして求める。次いで、このように終端点Eを時間軸方向にシフトしながら順次連続的に抽出し、各特徴ベクトルと音声認識辞書21との類似度をそれぞれ求めるとともに、各特徴ベクトルについて求められた類似度系列から各カテゴリごとに最大類似度を示す音声特徴ベクトルと始終端情報を求めるようにする。このようにすることでワードスポッティングが可能になり、その結果として後述する図7のW1〜W6に示すような単語候補(単語ラスティス)を時系列に生成することになる。
【0029】
音声認識部2において認識された単語候補は、入力単語テーブル5に書き込まれる。また、これと同時に文始端判定部31において、単語候補が構文的な制約から文の先頭として出現し得る単語であるか否かの判定を行なう。この場合、到達可能を表すテーブルあるいは構文解析法として冨田法を基本として採用している場合には、文法から構成されるLRパーズ表を参照することで判定できる。図6は、文法辞書4の内容に基づいて作成されたLRパーズ表である。この表では、全認識単語のうち縦軸の状態0に対し動作の記述された単語、ここではHAMB, CHEESB, POTATO, COFFEE, COLA が文の先頭となりうる単語である。
【0030】
文始端判定部31で文頭になり得ると判定されたならば、その単語候補を先頭とした新しい部分文候補を作成し文候補テーブル6に書き込む。文の先頭とならない単語候補対しては、ここでは何も行なわない。
【0031】
次に、文候補解析部32において、前フレームまでに解析された文候補テーブル6の中の部分文候補のうちで、文始端判定部31で新たに作成された候補以外の全てと構文解析部3に入力された単語候補の全ての組み合せに対して、構文解析処理を行なう。この場合、各単語候補についての構文解析をフレームの終端同期で行うようになる。冨田法でいえば、先に述べたLRパーズ表を参照しながら、部分文候補と単語の組み合せに対して解析を進めていく。ここでは、構文解析と同時に構文木や意味表現等を構成し、各部分文候補に保持させることができる。
【0032】
ここで、文候補解析部32での動作を詳述すると、かかる文候補解析部32では、構文解析処理の前に、文候補テーブル6の中の全ての部分文候補と入力された全ての単語候補の時間的な連接可能性を判定する。その判定には各部分文候補の終端点と、各単語の始端点の情報を利用する。この場合、各部分文候補の両点の時間的にある程度の重なりとある程度の距離は許すものとし、例えば、重なりは100msec、距離は400msecと設定する。勿論、単語毎に値を設定することも考えられる。そして、この時に連接しうる単語間の距離をより大きくとることで、例えば、「あのー」や「えーと」などの無意味な語や、非言語的な雑音、認識対象外の単語、言い淀み、それらに対する誤認識単語を除いた形の部分文候補をも生成して解析を進めるようにしている。また、このように単語候補の時間的な連接関係を調べると同時に、部分文候補が最後に解析に利用した単語と、構文解析部3に入力された現在解析中の単語を用いた単語組文法(word pair grammar )を構文解析と同時に適用することで、解析に必要な計算量の減少を可能にしている。さらに、認識対象単語に日本語の形態素解析で一般的な左右の連接属性を与え、あらかじめその属性に従って記述した連接テーブルを参照し、単語同士の連接可能性を判断することも可能にしている。
【0033】
図7は、音声信号として「ハンバーガーと、えーとコーヒーを下さい。」が入力され、音声認識部2より単語候補としてW1〜W6が与えられた場合を示している。この場合、ハンバーガーW1に連接可能な単語の始端は、ハンバーガーW1の終端を基準にして−L1〜+L2の区間としている。これは不要語や助詞などが発話される文の意味内容理解に必要なキーワード(図示例ではハンバーガ、コーヒー、下さい)以外の部分の時間長を考慮して決められる。ここでは、−L1〜+L2の区間には1個W2、2個W3、コーヒーW4の始端があるため、それぞれがハンバーガーW1に時間的な関係から連接可能であると判断される。そして、文法的にも接続可能であると判断されれば、W1とW2、W1とW3、W1とW4の部分文候補が生成されるようになる。
【0034】
その後、文終端判定部33において、文候補テーブル6の部分文候補の全てに対して、各部分文候補が文として成立しているか否かを文法辞書4を利用して判定を下し、文として成立しているならば候補文として出力するようになる。
【0035】
ここで、文法の曖昧性により、その候補が次フレーム以降に出現する単語を用いてさらに解析を進める可能性がある場合には、元の候補を複製して文候補テーブル6中に残すようになる。
【0036】
また、文終端判定部33での単語の文終端の判定法は、部分文候補を解析すると同時に解析木を作成する場合で言えば、解析木の根ノードが文法の開始記号と同一となった場合に、その部分文候補は文法制約上、完全な文として成立したと見なすようにしている。そして、文終端判定部33からの出力は、結果として文ラティスの形式を持つものである。
【0037】
次に、文候補テーブル6に残された文候補全てに対し、文候補処理部34において、例えば予め決ったフレーム数以上の長さの文候補を文候補テーブル6から削除する。これは次フレーム以降に認識される単語候補が連接し得ない文候補を削除することを意味する。この処理により、無限の入力単語系列に対する解析を有限の記憶領域の下で連続的に行なうことができる。
【0038】
また、文候補の爆発を押え、計算量を少なくするために、全ての文候補に何らかの評価関数を適用して評価を行ない、その評価結果によりソートし、あらかじめ定めた候補数(ビーム幅)に外れる評価の低いものを枝刈する処理は、文候補処理部34で行うこともできる。ここで生き残った文候補は、次フレーム以降の入力を使って認識された単語との解析処理に利用される。
【0039】
ここで、図8は、構文解析部3で処理されるデータの時間的な対応を示すものである。図において、VPは時間とともに変化する入力音声エネルギー、FPが現在の解析時点、FUが最小の解析単位であるフレームの長さである。また、W1〜W3は現時点で認識された単語候補、C1〜C8は現在解析中の部分文候補、A1〜A5は文として成立して出力される処理済みの文候補である。
【0040】
しかして、図において、例えば単語候補W1が文の始端にとなり得る単語であれば、その単語W1を先頭とした新しい部分文候補C9が生成される。また、部分文候補C6が単語候補W3を利用して構文解析を進められるならば、その部分文候補C6は複製され、部分文候補C10として生成される。さらに、その部分文候補C10の最後の単語候補W3が文の終端となり得るものならば、部分文候補C10は複製され文候補A6として出力されるようになる。
【0041】
なお、図中CRは、解析時点FPを起点とした部分文候補の生存範囲であり、終端点がCRから外れた部分文候補は削除される。
【0042】
そして、現時点で認識された単語候補W1〜W3に対する全ての解析が終わったならば、解析時点FPを次処理のために1だけインクリメントするようになる。つまり、ここでは、各単語候補W1〜W3を終端同期で構文解析するようになっている。
【0043】
次に、その具体例として図9に示すように「ハンバーガーとコーヒー下さい。あ、それとポテトも追加して」の2つの文を連続して発声し、且つ2番目の文の頭に雑音が混入したような場合を説明する。
【0044】
この場合、音声認識部2において認識された単語候補としてW1〜W11が与えられたとする。そして、これら単語候補W1〜W11は、入力単語テーブル5に書き込まれ、構文解析部3で上述した方法に従って構文解析が行われる。まず、文始端判定部31で、各単語候補について構文的な制約から文の先頭として出現し得る単語であるか否かが判定される。最初に「ハンバーガー」W2が該当する。そして、次に「ハンバーガー」W2に連接可能な単語の始端が調べられる。ここで、「コーヒー」W4、「コーラ」W5、「下さい」W6が該当するものとすると、解析結果としての文候補S1、S2、S4が生成される。次に、文の先頭として出現し得る単語として「コーヒー」W4が該当すると、今度は「コーヒー」W4に連接可能な単語の始端が調べられ、文候補S3が生成される。以下同様にして文候補S5、S6が生成される。
【0045】
このようにして、従来方法では克服が難しかった、雑音、無意味な語、それに対する誤認識、単語の湧出、無音区間、連続文などに対処することが可能となり、単語ラティスを構文的意味的に切り分け、解析結果としての文候補S1〜S6が得られることになる。なお、同図では、単語候補W1〜W11により同じ時間区間内に複数の文候補(S1〜S4とS5〜S6)が生成されている場合を示しているが、これら文候補は単語候補W1〜W11に対して全部でなく、その一部である。
【0046】
その後、このような各候補の終端が調べられ、文候補が生成されることになる。そして、これらの候補文のうちから最終的候補の選択は、文候補解析部3の出力を図示しない音声言語処理装置に与え、ここで音響的な特徴、文候補のもつ尤度、文脈情報などの様々な情報を利用することにより実現できる。
【0047】
従って、このようにすれば、無限長を持つ音声入力に対して連続的に構文解析を行ない文候補を抽出することで、解析された文候補は、ラティス形式で連続的に出力できるようになり、入力音声系列自体を本来の意味とは無関係に、構文解析の前にあらかじめ区切ることなく文法的意味的な制約を利用して入力系列に対する文単位のセグメンテーションを連続的に行なうことが可能となる。
【0048】
また、各単語候補に対して実行される構文解析を各フレームの終端を基準にして行う終端同期を採用しているので、音声入力からこれらを終端に接続される文候補の生成までの時間的な遅延を最小限に抑えることもできる。
【0049】
なお、このように無限長を持つ音声入力に対して連続的に構文解析を行ない文候補を抽出することになると、連続出力される文候補を記憶するための記憶領域の有限性の問題が発生するが、現在の対話の流れから関連がないと思われるような、例えば10分前に発話された文候補は強制的に捨てるという文候補を残すためのある種の境界を設定するようにすれば問題は回避できる。また、音声入力部1の音声区間と組み合わせることにより発話の有無を解析処理の制御に用いることができる。
【0050】
また、図10のタイムチャートに示すように、音声の入力aから単語の終端同期による認識および入力単語終端同期の構文解析bを1フレーム毎にパイプライン的に進めるようにすれば、音声入力から文解析結果を出力するまでの時間的な遅延を最低に抑えることができる。その遅延の最小は1フレーム分の時間(この例では8msec)である。
【0051】
次に、本発明の他の実施例を図11に従って説明する。
【0052】
この場合、図では、音声認識部12に接続される構文解析部13を、文始端判定部131、文候補解析部132、文終端判定部133、文候補処理部134の他に単語予測部135を設けたもので構成している。
【0053】
音声認識部12での認識対象単語が増大すると、それに比例して認識処理時間が増大するが、このような場合でも、単語予測部135により解析中の部分文候補と文法知識を利用して次フレームに出現可能な単語を予測することにより認識単語セットが縮小し計算量を軽減することができる。つまり、単語予測部135では、現在入力された単語に対して構文解析が終了した時点で、文候補テーブル中の解析進行中の文候補と文法を使って、次に出現すべき単語を予測する。これは、例えば、冨田法を利用した場合には、LRパーズ表を利用して容易に行えるが、予測自体は特定の構文解析法に依存しない。
【0054】
そして、単語予測部135での予測結果は、音声認識部12に送られ、次フレームの入力の認識に利用される。これにより全ての認識対象単語のうち予測されたもののみが処理され、これを構文解析部13に送るようになる。
【0055】
図12は、音声の入力a、単語の終端同期による認識および入力単語終端同期の構文解析bそして、単語予測cを1フレーム毎にパイプライン的に進めるようにした処理のタイムチャートを示すもので、このようにしても音声入力から文解析結果を出力するまでの時間を短縮することが可能になる。
【0056】
【発明の効果】
以上に述べたように、本発明によれば、複数の文を連続的に発声するような人間の自然な発話に対する処理が可能となり、特に、「あのー」「ええと」のようなそれ自体意味を持たない語や、文中の間(無音区間)、言い淀み、それに対する認識誤りや省略などの不確定な要素が存在するような場合にも、その構文・意味解析が可能になる。また、音声入力から構文解析までの時間遅延を最小限に抑えることも可能になる。これにより実際場面での人間と機械の自然な発話を実現できることから、マンマシン・インタフェースの飛躍的な向上も期待できる。
【図面の簡単な説明】
【図1】本発明の一実施例の概略構成を示す図。
【図2】図1に示す実施例に用いられる構文解析部を示すブロック図。
【図3】図1に示す実施例に用いられる音声認識部の出力例を示す説明図、
【図4】図1に示す実施例に用いられる音声認識辞書を示す図。
【図5】図1に示す実施例に用いられる文法辞書を示す図。
【図6】図5の文法辞書の文法より作成されたLRパーズ表を示す図。
【図7】構文解析部での単語の時間的な連続可能性を説明するための図。
【図8】構文解析部より生成された単語、部分文候補、文候補の関係を説明するための図。
【図9】構文解析の具体例を説明するための図。
【図10】図1に示す実施例の処理を説明するためのタイムチャート。
【図11】本発明の他の実施例の概略構成を示す図。
【図12】図12に示す他の実施例の処理を説明するためのタイムチャート。
【符号の説明】
1…音声入力部、2、12…音声認識部、21…音声認識辞書、3、13…構文解析部、4…文法辞書、5‥‥入力単語テーブル、6…文候補テーブル、31、131…文始端判定部、32、132…文候補解析部、33、133…文終端判定部、34、134…文候補処理部、135…単語予測部。

Claims (4)

  1. 音声信号を入力する音声入力手段と、
    前記音声入力手段に入力された音声信号を分析し複数の単語候補の時系列を出力する単語認識手段と、
    前記単語認識手段から出力された複数の単語候補の時系列について、少なくとも一つの単語候補に対し、時間的な位置関係および構文的な連接可能条件に従い認識対象外の音または語を除き、連接させることが可能な単語候補を判定する判定手段と、
    前記判定手段による判定結果に基づき前記複数の単語候補の時系列の一部を連接して部分文候補を生成する部分文候補生成手段と、
    所定の構文制約条件の下に、前記部分文候補生成手段により生成された部分文候補が一の文として成立するか否かを判定し、成立するならば該部分文候補を文候補として出力する文終端判定手段と、
    を具備することを特徴とする音声認識装置。
  2. 前記所定の構文の制約条件の下に、文の先頭として出現し得る単語候補を判定する文始端判定手段をさらに具備することを特徴とする請求項1に記載の音声認識装置。
  3. 音声信号を入力する音声入力手段と、
    前記音声入力手段に入力された音声信号を分析し複数の単語候補の時系列を出力する単語認識手段と、
    前記単語認識手段から出力された複数の単語候補の時系列について、少なくとも一つの単語候補に対し、時間的な位置関係および構文的な連接可能条件に従い認識対象外の音または語を除き、連接させることが可能な単語候補を判定する判定手段と、
    前記判定手段による判定結果に基づき前記複数の単語候補の時系列の一部を連接して部分文候補を生成する部分文候補生成手段と、
    所定の構文の制約条件の下に、文の先頭として出現し得る単語候補を判定する文始端判定手段と、
    前記所定の構文の制約条件の下に、前記部分文候補生成手段により生成された部分文候補が一の文として成立するか否かを判定し、成立するならば該部分文候補を文候補として出力する文終端判定手段と、
    を具備することを特徴とする音声認識装置。
  4. 前記単語認識手段より出力される各単語候補に対する各処理を構文解析の処理単位の終端位置を基準して行うことを特徴とする請求項1乃至3のいずれかに記載の音声認識装置。
JP20301191A 1991-08-13 1991-08-13 音声認識装置 Expired - Lifetime JP3766111B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP20301191A JP3766111B2 (ja) 1991-08-13 1991-08-13 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP20301191A JP3766111B2 (ja) 1991-08-13 1991-08-13 音声認識装置

Publications (2)

Publication Number Publication Date
JPH0546658A JPH0546658A (ja) 1993-02-26
JP3766111B2 true JP3766111B2 (ja) 2006-04-12

Family

ID=16466863

Family Applications (1)

Application Number Title Priority Date Filing Date
JP20301191A Expired - Lifetime JP3766111B2 (ja) 1991-08-13 1991-08-13 音声認識装置

Country Status (1)

Country Link
JP (1) JP3766111B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9583095B2 (en) 2009-07-17 2017-02-28 Nec Corporation Speech processing device, method, and storage medium

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07122879B2 (ja) * 1993-03-30 1995-12-25 日本電気株式会社 マルチモーダル入力解析装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9583095B2 (en) 2009-07-17 2017-02-28 Nec Corporation Speech processing device, method, and storage medium

Also Published As

Publication number Publication date
JPH0546658A (ja) 1993-02-26

Similar Documents

Publication Publication Date Title
CN108305634B (zh) 解码方法、解码器及存储介质
JPH05197389A (ja) 音声認識装置
US10074363B2 (en) Method and apparatus for keyword speech recognition
JP5040909B2 (ja) 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム
EP2048655B1 (en) Context sensitive multi-stage speech recognition
US20030216912A1 (en) Speech recognition method and speech recognition apparatus
CA2680304A1 (en) Decoding-time prediction of non-verbalized tokens
JPH08278794A (ja) 音声認識装置および音声認識方法並びに音声翻訳装置
KR100930714B1 (ko) 음성인식 장치 및 방법
JP2000029492A (ja) 音声翻訳装置、音声翻訳方法、音声認識装置
US20040006469A1 (en) Apparatus and method for updating lexicon
KR101424496B1 (ko) 음향 모델 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
JP3766111B2 (ja) 音声認識装置
JP2886117B2 (ja) 音声認識装置
JP2871557B2 (ja) 音声認識装置
Cettolo et al. Automatic detection of semantic boundaries based on acoustic and lexical knowledge.
JP2905686B2 (ja) 音声認識装置
EP2948943B1 (en) False alarm reduction in speech recognition systems using contextual information
JP3061292B2 (ja) アクセント句境界検出装置
JP3110025B2 (ja) 発声変形検出装置
JPH08123479A (ja) 連続音声認識装置
JPH09114484A (ja) 音声認識装置
JP3577725B2 (ja) 音声認識装置
JPH05303391A (ja) 音声認識装置
JPH0695684A (ja) 音声認識システム

Legal Events

Date Code Title Description
A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060126

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100203

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100203

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110203

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120203

Year of fee payment: 6

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120203

Year of fee payment: 6