JP2006184371A

JP2006184371A - 音声認識装置および音声認識方法

Info

Publication number: JP2006184371A
Application number: JP2004375648A
Authority: JP
Inventors: Kengo Suzuki; 堅悟鈴木
Original assignee: Nissan Motor Co Ltd
Current assignee: Nissan Motor Co Ltd
Priority date: 2004-12-27
Filing date: 2004-12-27
Publication date: 2006-07-13
Anticipated expiration: 2024-12-27
Also published as: JP4736423B2

Abstract

【課題】複数語彙が認識された場合、ＯＲ検索か、通過地指定か、時間的に早くに発話された語彙を後続の語彙で訂正するのか等、発話者の意図を反映させて音声認識を精度よく、かつ出来るだけ簡単な構成で実行出来る音声認識装置の実現を目的とした。
【解決手段】発話され入力された音声信号から、同一カテゴリに属する複数の語彙と、発話者の意図を表現するキーフレーズとを認識抽出し、このキーフレーズを含まない場合と、時間的に先行する語彙を否定するキーフレーズを有する場合は訂正処理を、ＯＲ検索か、通過地指定かを示すキーフレーズが存在する場合はそれぞれ該当する処理を行う。この処理結果を用いて発話者が確認用の応答文を作成し、出力する音声認識装置。
【選択図】図１

Description

本発明は、音声認識装置の利用者である発話者の意図を判断して音声認識を行う装置およびその方法に関する。

各種装置の動作を利用者が制御する方法としてはリモコン、キースイッチ、タッチパネル等各種制御器器の利用があるが、何れも制御機器の取り扱い方を理解しておくことが要求される。これに対し音声入力を利用する場合には、制御機器操作のための学習等を必要とせず、利用者は単に発声するのみで所望の操作を実行することが出来る。

しかし、音声入力特有の問題点としては、利用者（発話者）が言い間違いをした場合等のように、受話側に常に送られてきた情報全てを受理してよいものではないということである。この点では、従来の手紙、ファックス等では原稿の修正、再送信等の手段により誤発信の修正が可能である。電話の場合、言い間違いは送信されてしまうが、受信側が人間であるため修正動作は可能な状態である。しかし、装置制御のための音声入力装置においては、このような修正は適用できない。このため、例えば、下記「特許文献１」に記載の方法が知られている。

すなわち、「特許文献１」に記載の方法によれば、音声認識を実行する際に、言い間違い等の不要語を含んだままで先ず音声認識処理を行う。ここで、同一カテゴリに属する候補単語が複数ある場合は最後に発話された語を高い優先順位の認識語としてする方法が開示されている。この従来例によれば、同一カテゴリに属する複数の単語が存在する場合、言い間違いによる訂正を前提として処理されることになるため、例えば、この複数の語が言い間違いによる訂正処理を要求するものか、例えば経由地を列挙しているものか、ＯＲ検索により何れかを検索するものであるかを区別することが出来ない。

特開２００３−１６２５２４号公報

以上述べたように、従来公知の技術においては、同一カテゴリの語彙が複数存在する場合で、誤発話による語彙以外に特別な意図があって同一カテゴリに属する複数の語彙が発話されるような場合であっても、最後に発話された一つの単語から優先順位の高い入力語彙であるとして判断される。すなわち、従来技術によれば、同一カテゴリに属する複数の語彙が存在する場合、ＯＲ検索なのか、経由地を示すのか、訂正処理を要求しているのかの区別がつけられず、全て一つの目的地にされてしまう問題があった。本発明は、この問題を解決し、利用者の意図するＯＲ検索か、経由地指定か、時間的に前の段階で発話された語彙の訂正かの区別を可能にした音声認識装置の提供を目的としている。

上記目的を達成するために、本発明においては、入力された利用者（発話者）の入力文から、事前にメモリに登録しておいた認識用単語辞書を用いて単語列を生成する。この単語列を用いて発話意図判定手段においてＯＲ検索、経由地指定、訂正の何れかの処理を選択し、これに基づき、上記装置側での判定結果が正しいか否かを利用者に確認するため、装置側からの応答文を生成し、利用者に再生して提示する。これで提示した応答文が利用者の意図した通りのものであれば一連の処理は終了し、意図したものでなかった場合は再度入力を求める構成としている。

本発明の構成により、ＯＲ検索、経由地、語彙の訂正等について区別して処理を実行することが出来るようになった。また、文法的に記述するのが困難な場合の訂正処理について、特に、言い直しに対応するためには、本来であれば複雑な文法の定義や多くの語彙の登録等を行う必要があったが、本発明による方法であれば認識辞書としては特別に大きな物を必要とせず、普通のサイズの辞書で済む上に、辞書記述コストの増大を招くことはない。

以下、本発明による音声認識装置を、駅名を指定して、目的駅に至るまでのルート案内を行うことを例に説明する。
図１に本発明による音声認識装置の基本構成を示す。図１において、利用者が音声入力を実行する場合、先ず、音声操作開始指示手段１０１により音声認識装置を立ち上げ、音声入力の開始信号を入力する。この音声操作開始指示手段１０１としては例えば音声スイッチ等が用いられる。
音声入力指示信号が入力されたことを音声認識装置が判断すると、認識用単語辞書１０７の内容を音声認識手段１０３に内蔵のメモリに書き込み、音声認識装置はスタンバイの状態を維持する。
次に、利用者が発話を開始し、音声入力手段１０２を介してこの発話内容を取り込む。この音声入力手段１０２はマイクロホン等で構成された音声信号入力装置である。この発話入力が終了すると、予め認識用単語辞書１０７の内容が内蔵のメモリに読み込まれている音声認識手段１０３において入力された音声信号、すなわち利用者発話の音声認識処理が実行される。

ここで、認識用単語辞書１０７から音声認識手段１０３に読み込む内容としては、本認識装置の利用タスクに応じた単語セット（例えば、駅名を認識する場合は駅名単語辞書）および利用者意図を検出するための単語（例えば、複数の駅名から目的の駅名を選択するＯＲ検索を行う場合を示す語である「池袋駅か品川駅」の「か」、あるいは経由地指定を意味する語である「池袋駅を通って品川駅」の「…を通って…」等）がある。

次に、上記の処理により認識され、利用者発話内容から抽出された単語列において同一カテゴリに属する単語が二つ以上存在する場合には、利用者の発話意図の判定を発話意図判定手段１０４において実行する。この時、発話意図判定手段１０４において、上記認識過程で利用者の意図を検出するための単語が検出されていた場合には、認識結果に該当する意図（ＯＲ検索あるいは経由地指定等）を実行し、同一カテゴリに属する単語が二つ以上認識されたにもかかわらず、利用者の意図を判定するための単語が検出されない場合（例えば「池袋駅、品川駅に行きたい。」等二つ以上の駅名の羅列または先頭語に続いて言い淀みのある後続語がある場合、あるいは「池袋じゃなくて品川」等最初の語彙を否定する語が存在する場合か、ＯＲ検索または経由地を判断させる語がない場合）には利用者の発話意図は訂正であったと判断する。

以上のように発話意図判定手段１０４で利用者の発話意図が判定されると、このシステムにより判定された利用者の意図が正しいか否かを発話者である利用者にフィードバックし確認をとる対話を行うために、応答生成手段１０５においてシステム側の応答としてのシステム応答文を生成する。ここで生成されたシステム応答文は応答再生手段１０６において音声合成の手段を用いて、例えば「品川駅までのルートを探します。」等のように発話者の発話内容を復唱する形で確認音声を出力する。

図２は、上記図１で示したシステム構成図において実行される処理手順を示すフロー図である。図２において、「スタート（ＳＴＡＲＴ）」で音声操作開始指示の信号が入力されると、音声認識手段１０３内蔵のメモリに認識用単語辞書１０７の関連する内容を読み込む（ステップ；Ｓ２０１）。この読み込み処理が完了すると利用者音声の「入力待ち」の状態となる（ステップ；Ｓ２０２）。次いで利用者からの「音声入力」が行われ（ステップ；Ｓ２０３）、認識処理が実行され（ステップ；Ｓ２０４）、例えば「池袋駅」、「渋谷駅」、「行く」のように単語列として認識結果が得られる。ここで、認識結果の中に同一カテゴリに属する単語が一つのみの場合は、本発明におけるこれ以後の処理は不要であるから処理は終了する（ステップ；Ｓ２０５のＹｅｓ）。

また、駅名のカテゴリに属する単語が二つ存在する場合（ステップ；Ｓ２０５のＮｏ）は、利用者が最初に発話した単語を訂正するのか、複数の駅名の中から何れか一つを求めるＯＲ検索を行うのか、あるいは経由駅名を確認するのか等、利用者の意図を判定するための単語（例えば、「池袋駅か渋谷駅」、「池袋駅を通って渋谷駅」等）が含まれているか否かを調べる（ステップ；Ｓ２０６）。

ここで、ＯＲ検索または経由駅名を確認することを示す単語が含まれておれば（ステップ；Ｓ２０６のＹｅｓ）、この単語から利用者がどちらの処理を意図しているのかを判定する（ステップ；Ｓ２０７およびＳ２０８，Ｓ２０９）。またこれら意図を示す単語が含まれない場合（ステップ；Ｓ２０６のＮｏ），あるいは単なる駅名の羅列であるか、または最初に発話された単語の後に否定する語（「池袋駅じゃなくて「品川駅」等）が付加されている場合等は全て訂正を意図しているものと判断して（ステップ；Ｓ２１０）は始めの方に発話された単語を訂正する意図であると判定する（ステップ２１０）。

次に、ステップ２０８乃至ステップ２１０による利用者の意図の判定結果に対して、利用者の意図はどれであったかを選択する（ステップ２１１）。
以上の各判定処理から利用者の意図がどれを意図したものであるかを確認するために、以上の判定結果に基づいた利用者側の発話内容を推定しシステム応答文を生成し、この応答文を利用者に提示し確認を求める処理を行う。
このため、先ず、上記認識結果から利用者の判定された意図を選択し（ステップ２０９）、次いでこの選択結果に基づいて発話内容の推定を行い（ステップ；Ｓ２１０）、利用者に提示する応答文を生成する。この生成された応答文を再生して利用者の意図の判定結果が正しかったか否かの確認を利用者に求める（ステップ；Ｓ２１１）。この判定結果が正しければ（ステップ；Ｓ２１１のＹｅｓ）利用者はスイッチ等の手段により確認の入力を行うか、あるいは所定の時間以内に利用者からの意思表示がなければ、システムの判断内容は正しかったとして、一連の処理を終了し（ステップ；Ｓ２１１のＹｅｓ）、間違っていれば（ステップ；Ｓ２１１のＮｏ）再度発話を要求（ステップ；Ｓ２１２のＮｏ）の処理に入ることを指示する。

以上述べたように、本発明においては、入力された発話内容を、認識処理をした後、単語列に置き換え、この単語列を生成する。例えば、単語列として「本厚木」、「愛甲石田」、「行く」の３単語が得られたとする。この場合想定される発話文は
ａ）愛甲石田に行く。（「本厚木」を「愛甲石田」に訂正）
ｂ）本厚木を通って愛甲石田まで行く。（経由駅名）
ｃ）本厚木か愛甲石田まで行く。（ＯＲ検索）
が想定される。ここで、明確な文法の定義を設けて判定できるのはｂ）およびｃ）であるが、ａ）の訂正処理の可否を判定する方法に関しては、言い淀み、言い差し、その他無音状態の語間等文法的に定義出来ない場合がある。本発明においては、前記のように文法的に記述できる発話があった場合は、上記の予め定義された文法で発語者の意図を判定し、この文法に合致しない発話が入力された場合は、同じカテゴリの単語のうち時間的に後から発話された単語を入力値として受理することにしている。以上述べた判定ルールにより、以下の処理で発話意図を判定する。

１）利用者の発話内容にＯＲ検索（「…か…」または「…または…」等）あるいは経由駅名（「…を通って…」または「…経由で…」等）を意味する語が存在すれば、それぞれの意図を示す語を含むシステム応答文が生成される。
２）以下の各ケースにおいては、直前に発話した語を後続の語に訂正する処理を行うこととする。
ａ）同一カテゴリに属する語彙（駅名等）が二つ以上存在し、且つ、上記２）に該当する語を含まない場合、
ｂ）初めに発話した語を明らかに否定する語が存在する場合（例えば、「…じゃなくて…」または「…ではなくて…」等）。
上記、１）および２）に記載の各ケースに対する利用者発話文とシステム応答文の例を表１に示す。

表１において、項番１における「…か…」、項番２における「…を通って…」、項番３「…じゃなくて…」に示したように、利用者の意図を示す明確なキーフレーズが含まれており、これらの項番に対しては利用者すなわち発話者の意図は明確に表現されているが、項番４および項番５に示すように言い淀み、言い差しのある場合のように明確なキーフレーズの認識が困難な場合、あるいは含まない場合がある。このような場合は明確にこれを特定することは出来ないが、考えられるパターンはあまり多くないので、特に該当すると考えられる他のパターンに当てはまるものがなければ、訂正発話であると判断しても差し支えない。

以上述べたように、本発明においては単語の認識と、利用者の発話パターンから利用者の意図を推定することにより、大規模な認識用単語辞書を用意することなく容易に発話者の意図を判定することを可能にしている。

本発明による音声認識装置の基本構成図。本発明における信号処理の手順を示すフロー図。

符号の説明

１０１：音声操作開始指示手段１０２：音声入力手段
１０３：音声認識手段１０４：発話意図判定手段
１０５：応答生成手段１０６：応答再生手段

Claims

利用者の発話を入力する音声入力手段と、
認識処理に使用する音声認識用単語辞書と、
前記音声認識用単語辞書の必要とする内容が登録されているメモリを有する音声認識手段とを有する音声認識装置において、
前記利用者により音声入力された発話文から該利用者の意図を判定する発話意図判定手段と、
前記発話意図判定手段の判定結果により前記利用者が該判定結果の内容を確認するための応答文を生成する応答生成手段と、
前記音声認識手段により認識された結果から得られる前記利用者が確認するための前記応答文を前記利用者に対して出力する応答再生手段と、
を有することを特徴とする音声認識装置。
請求項１に記載の音声認識装置において、
前記認識用単語辞書は、目的とする音声認識処理に必要なカテゴリの語彙と、前記利用者の意図を表現する語彙とを含むものであることを特徴とする音声認識装置。
音声操作開始指示手段により発生された開始信号で音声認識装置を立ち上げ、
該開始信号により、音声認識用単語辞書の内容を音声認識手段に内蔵の記憶装置に登録し、
次いで利用者の発話を音声入力手段により取り込み、
前記利用者の発話により入力された入力文から前記音声認識手段が同一カテゴリに属する語彙を検出し、
かつ、前記利用者の意図を示す表現語彙の有無を発話意図判定手段において調べ、該表現語彙が検出された場合は当該語彙が示す意図の処理を行い、
該表現語彙が検出されなかった場合は前記発話意図判定手段は訂正処理を行うものと判定し、時間的に後から発話された語彙を入力値として受理することを特徴とする音声認識方法。
前記請求項３に記載の音声認識方法において、
前記入力文から利用者の意図を前記発話意図判定手段により判定し、
前記発話意図判定手段の判定結果により判定結果確認用の応答文を応答生成手段を用いて生成し、
応答再生手段により前記応答文を前記利用者に提示することを特徴とする音声認識方法。