JP2006184371A - 音声認識装置および音声認識方法 - Google Patents

音声認識装置および音声認識方法 Download PDF

Info

Publication number
JP2006184371A
JP2006184371A JP2004375648A JP2004375648A JP2006184371A JP 2006184371 A JP2006184371 A JP 2006184371A JP 2004375648 A JP2004375648 A JP 2004375648A JP 2004375648 A JP2004375648 A JP 2004375648A JP 2006184371 A JP2006184371 A JP 2006184371A
Authority
JP
Japan
Prior art keywords
user
speech recognition
intention
utterance
vocabulary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004375648A
Other languages
English (en)
Other versions
JP4736423B2 (ja
Inventor
Kengo Suzuki
堅悟 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nissan Motor Co Ltd
Original Assignee
Nissan Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nissan Motor Co Ltd filed Critical Nissan Motor Co Ltd
Priority to JP2004375648A priority Critical patent/JP4736423B2/ja
Publication of JP2006184371A publication Critical patent/JP2006184371A/ja
Application granted granted Critical
Publication of JP4736423B2 publication Critical patent/JP4736423B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】複数語彙が認識された場合、OR検索か、通過地指定か、時間的に早くに発話された語彙を後続の語彙で訂正するのか等、発話者の意図を反映させて音声認識を精度よく、かつ出来るだけ簡単な構成で実行出来る音声認識装置の実現を目的とした。
【解決手段】発話され入力された音声信号から、同一カテゴリに属する複数の語彙と、発話者の意図を表現するキーフレーズとを認識抽出し、このキーフレーズを含まない場合と、時間的に先行する語彙を否定するキーフレーズを有する場合は訂正処理を、OR検索か、通過地指定かを示すキーフレーズが存在する場合はそれぞれ該当する処理を行う。この処理結果を用いて発話者が確認用の応答文を作成し、出力する音声認識装置。
【選択図】図1

Description

本発明は、音声認識装置の利用者である発話者の意図を判断して音声認識を行う装置およびその方法に関する。
各種装置の動作を利用者が制御する方法としてはリモコン、キースイッチ、タッチパネル等各種制御器器の利用があるが、何れも制御機器の取り扱い方を理解しておくことが要求される。これに対し音声入力を利用する場合には、制御機器操作のための学習等を必要とせず、利用者は単に発声するのみで所望の操作を実行することが出来る。
しかし、音声入力特有の問題点としては、利用者(発話者)が言い間違いをした場合等のように、受話側に常に送られてきた情報全てを受理してよいものではないということである。この点では、従来の手紙、ファックス等では原稿の修正、再送信等の手段により誤発信の修正が可能である。電話の場合、言い間違いは送信されてしまうが、受信側が人間であるため修正動作は可能な状態である。しかし、装置制御のための音声入力装置においては、このような修正は適用できない。このため、例えば、下記「特許文献1」に記載の方法が知られている。
すなわち、「特許文献1」に記載の方法によれば、音声認識を実行する際に、言い間違い等の不要語を含んだままで先ず音声認識処理を行う。ここで、同一カテゴリに属する候補単語が複数ある場合は最後に発話された語を高い優先順位の認識語としてする方法が開示されている。この従来例によれば、同一カテゴリに属する複数の単語が存在する場合、言い間違いによる訂正を前提として処理されることになるため、例えば、この複数の語が言い間違いによる訂正処理を要求するものか、例えば経由地を列挙しているものか、OR検索により何れかを検索するものであるかを区別することが出来ない。
特開2003−162524号公報
以上述べたように、従来公知の技術においては、同一カテゴリの語彙が複数存在する場合で、誤発話による語彙以外に特別な意図があって同一カテゴリに属する複数の語彙が発話されるような場合であっても、最後に発話された一つの単語から優先順位の高い入力語彙であるとして判断される。すなわち、従来技術によれば、同一カテゴリに属する複数の語彙が存在する場合、OR検索なのか、経由地を示すのか、訂正処理を要求しているのかの区別がつけられず、全て一つの目的地にされてしまう問題があった。本発明は、この問題を解決し、利用者の意図するOR検索か、経由地指定か、時間的に前の段階で発話された語彙の訂正かの区別を可能にした音声認識装置の提供を目的としている。
上記目的を達成するために、本発明においては、入力された利用者(発話者)の入力文から、事前にメモリに登録しておいた認識用単語辞書を用いて単語列を生成する。この単語列を用いて発話意図判定手段においてOR検索、経由地指定、訂正の何れかの処理を選択し、これに基づき、上記装置側での判定結果が正しいか否かを利用者に確認するため、装置側からの応答文を生成し、利用者に再生して提示する。これで提示した応答文が利用者の意図した通りのものであれば一連の処理は終了し、意図したものでなかった場合は再度入力を求める構成としている。
本発明の構成により、OR検索、経由地、語彙の訂正等について区別して処理を実行することが出来るようになった。また、文法的に記述するのが困難な場合の訂正処理について、特に、言い直しに対応するためには、本来であれば複雑な文法の定義や多くの語彙の登録等を行う必要があったが、本発明による方法であれば認識辞書としては特別に大きな物を必要とせず、普通のサイズの辞書で済む上に、辞書記述コストの増大を招くことはない。
以下、本発明による音声認識装置を、駅名を指定して、目的駅に至るまでのルート案内を行うことを例に説明する。
図1に本発明による音声認識装置の基本構成を示す。図1において、利用者が音声入力を実行する場合、先ず、音声操作開始指示手段101により音声認識装置を立ち上げ、音声入力の開始信号を入力する。この音声操作開始指示手段101としては例えば音声スイッチ等が用いられる。
音声入力指示信号が入力されたことを音声認識装置が判断すると、認識用単語辞書107の内容を音声認識手段103に内蔵のメモリに書き込み、音声認識装置はスタンバイの状態を維持する。
次に、利用者が発話を開始し、音声入力手段102を介してこの発話内容を取り込む。この音声入力手段102はマイクロホン等で構成された音声信号入力装置である。この発話入力が終了すると、予め認識用単語辞書107の内容が内蔵のメモリに読み込まれている音声認識手段103において入力された音声信号、すなわち利用者発話の音声認識処理が実行される。
ここで、認識用単語辞書107から音声認識手段103に読み込む内容としては、本認識装置の利用タスクに応じた単語セット(例えば、駅名を認識する場合は駅名単語辞書)および利用者意図を検出するための単語(例えば、複数の駅名から目的の駅名を選択するOR検索を行う場合を示す語である「池袋駅か品川駅」の「か」、あるいは経由地指定を意味する語である「池袋駅を通って品川駅」の「…を通って…」等)がある。
次に、上記の処理により認識され、利用者発話内容から抽出された単語列において同一カテゴリに属する単語が二つ以上存在する場合には、利用者の発話意図の判定を発話意図判定手段104において実行する。この時、発話意図判定手段104において、上記認識過程で利用者の意図を検出するための単語が検出されていた場合には、認識結果に該当する意図(OR検索あるいは経由地指定等)を実行し、同一カテゴリに属する単語が二つ以上認識されたにもかかわらず、利用者の意図を判定するための単語が検出されない場合(例えば「池袋駅、品川駅に行きたい。」等二つ以上の駅名の羅列または先頭語に続いて言い淀みのある後続語がある場合、あるいは「池袋じゃなくて品川」等最初の語彙を否定する語が存在する場合か、OR検索または経由地を判断させる語がない場合)には利用者の発話意図は訂正であったと判断する。
以上のように発話意図判定手段104で利用者の発話意図が判定されると、このシステムにより判定された利用者の意図が正しいか否かを発話者である利用者にフィードバックし確認をとる対話を行うために、応答生成手段105においてシステム側の応答としてのシステム応答文を生成する。ここで生成されたシステム応答文は応答再生手段106において音声合成の手段を用いて、例えば「品川駅までのルートを探します。」等のように発話者の発話内容を復唱する形で確認音声を出力する。
図2は、上記図1で示したシステム構成図において実行される処理手順を示すフロー図である。図2において、「スタート(START)」で音声操作開始指示の信号が入力されると、音声認識手段103内蔵のメモリに認識用単語辞書107の関連する内容を読み込む(ステップ;S201)。この読み込み処理が完了すると利用者音声の「入力待ち」の状態となる(ステップ;S202)。次いで利用者からの「音声入力」が行われ(ステップ;S203)、認識処理が実行され(ステップ;S204)、例えば「池袋駅」、「渋谷駅」、「行く」のように単語列として認識結果が得られる。ここで、認識結果の中に同一カテゴリに属する単語が一つのみの場合は、本発明におけるこれ以後の処理は不要であるから処理は終了する(ステップ;S205のYes)。
また、駅名のカテゴリに属する単語が二つ存在する場合(ステップ;S205のNo)は、利用者が最初に発話した単語を訂正するのか、複数の駅名の中から何れか一つを求めるOR検索を行うのか、あるいは経由駅名を確認するのか等、利用者の意図を判定するための単語(例えば、「池袋駅か渋谷駅」、「池袋駅を通って渋谷駅」等)が含まれているか否かを調べる(ステップ;S206)。
ここで、OR検索または経由駅名を確認することを示す単語が含まれておれば(ステップ;S206のYes)、この単語から利用者がどちらの処理を意図しているのかを判定する(ステップ;S207およびS208,S209)。またこれら意図を示す単語が含まれない場合(ステップ;S206のNo),あるいは単なる駅名の羅列であるか、または最初に発話された単語の後に否定する語(「池袋駅じゃなくて「品川駅」等)が付加されている場合等は全て訂正を意図しているものと判断して(ステップ;S210)は始めの方に発話された単語を訂正する意図であると判定する(ステップ210)。
次に、ステップ208乃至ステップ210による利用者の意図の判定結果に対して、利用者の意図はどれであったかを選択する(ステップ211)。
以上の各判定処理から利用者の意図がどれを意図したものであるかを確認するために、以上の判定結果に基づいた利用者側の発話内容を推定しシステム応答文を生成し、この応答文を利用者に提示し確認を求める処理を行う。
このため、先ず、上記認識結果から利用者の判定された意図を選択し(ステップ209)、次いでこの選択結果に基づいて発話内容の推定を行い(ステップ;S210)、利用者に提示する応答文を生成する。この生成された応答文を再生して利用者の意図の判定結果が正しかったか否かの確認を利用者に求める(ステップ;S211)。この判定結果が正しければ(ステップ;S211のYes)利用者はスイッチ等の手段により確認の入力を行うか、あるいは所定の時間以内に利用者からの意思表示がなければ、システムの判断内容は正しかったとして、一連の処理を終了し(ステップ;S211のYes)、間違っていれば(ステップ;S211のNo)再度発話を要求(ステップ;S212のNo)の処理に入ることを指示する。
以上述べたように、本発明においては、入力された発話内容を、認識処理をした後、単語列に置き換え、この単語列を生成する。例えば、単語列として「本厚木」、「愛甲石田」、「行く」の3単語が得られたとする。この場合想定される発話文は
a)愛甲石田に行く。(「本厚木」を「愛甲石田」に訂正)
b)本厚木を通って愛甲石田まで行く。(経由駅名)
c)本厚木か愛甲石田まで行く。(OR検索)
が想定される。ここで、明確な文法の定義を設けて判定できるのはb)およびc)であるが、a)の訂正処理の可否を判定する方法に関しては、言い淀み、言い差し、その他無音状態の語間等文法的に定義出来ない場合がある。本発明においては、前記のように文法的に記述できる発話があった場合は、上記の予め定義された文法で発語者の意図を判定し、この文法に合致しない発話が入力された場合は、同じカテゴリの単語のうち時間的に後から発話された単語を入力値として受理することにしている。以上述べた判定ルールにより、以下の処理で発話意図を判定する。
1)利用者の発話内容にOR検索(「…か…」または「…または…」等)あるいは経由駅名(「…を通って…」または「…経由で…」等)を意味する語が存在すれば、それぞれの意図を示す語を含むシステム応答文が生成される。
2)以下の各ケースにおいては、直前に発話した語を後続の語に訂正する処理を行うこととする。
a)同一カテゴリに属する語彙(駅名等)が二つ以上存在し、且つ、上記2)に該当する語を含まない場合、
b)初めに発話した語を明らかに否定する語が存在する場合(例えば、「…じゃなくて…」または「…ではなくて…」等)。
上記、1)および2)に記載の各ケースに対する利用者発話文とシステム応答文の例を表1に示す。
Figure 2006184371
表1において、項番1における「…か…」、項番2における「…を通って…」、項番3「…じゃなくて…」に示したように、利用者の意図を示す明確なキーフレーズが含まれており、これらの項番に対しては利用者すなわち発話者の意図は明確に表現されているが、項番4および項番5に示すように言い淀み、言い差しのある場合のように明確なキーフレーズの認識が困難な場合、あるいは含まない場合がある。このような場合は明確にこれを特定することは出来ないが、考えられるパターンはあまり多くないので、特に該当すると考えられる他のパターンに当てはまるものがなければ、訂正発話であると判断しても差し支えない。
以上述べたように、本発明においては単語の認識と、利用者の発話パターンから利用者の意図を推定することにより、大規模な認識用単語辞書を用意することなく容易に発話者の意図を判定することを可能にしている。
本発明による音声認識装置の基本構成図。 本発明における信号処理の手順を示すフロー図。
符号の説明
101:音声操作開始指示手段 102:音声入力手段
103:音声認識手段 104:発話意図判定手段
105:応答生成手段 106:応答再生手段

Claims (4)

  1. 利用者の発話を入力する音声入力手段と、
    認識処理に使用する音声認識用単語辞書と、
    前記音声認識用単語辞書の必要とする内容が登録されているメモリを有する音声認識手段とを有する音声認識装置において、
    前記利用者により音声入力された発話文から該利用者の意図を判定する発話意図判定手段と、
    前記発話意図判定手段の判定結果により前記利用者が該判定結果の内容を確認するための応答文を生成する応答生成手段と、
    前記音声認識手段により認識された結果から得られる前記利用者が確認するための前記応答文を前記利用者に対して出力する応答再生手段と、
    を有することを特徴とする音声認識装置。
  2. 請求項1に記載の音声認識装置において、
    前記認識用単語辞書は、目的とする音声認識処理に必要なカテゴリの語彙と、前記利用者の意図を表現する語彙とを含むものであることを特徴とする音声認識装置。
  3. 音声操作開始指示手段により発生された開始信号で音声認識装置を立ち上げ、
    該開始信号により、音声認識用単語辞書の内容を音声認識手段に内蔵の記憶装置に登録し、
    次いで利用者の発話を音声入力手段により取り込み、
    前記利用者の発話により入力された入力文から前記音声認識手段が同一カテゴリに属する語彙を検出し、
    かつ、前記利用者の意図を示す表現語彙の有無を発話意図判定手段において調べ、 該表現語彙が検出された場合は当該語彙が示す意図の処理を行い、
    該表現語彙が検出されなかった場合は前記発話意図判定手段は訂正処理を行うものと判定し、時間的に後から発話された語彙を入力値として受理することを特徴とする音声認識方法。
  4. 前記請求項3に記載の音声認識方法において、
    前記入力文から利用者の意図を前記発話意図判定手段により判定し、
    前記発話意図判定手段の判定結果により判定結果確認用の応答文を応答生成手段を用いて生成し、
    応答再生手段により前記応答文を前記利用者に提示することを特徴とする音声認識方法。
JP2004375648A 2004-12-27 2004-12-27 音声認識装置および音声認識方法 Expired - Fee Related JP4736423B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004375648A JP4736423B2 (ja) 2004-12-27 2004-12-27 音声認識装置および音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004375648A JP4736423B2 (ja) 2004-12-27 2004-12-27 音声認識装置および音声認識方法

Publications (2)

Publication Number Publication Date
JP2006184371A true JP2006184371A (ja) 2006-07-13
JP4736423B2 JP4736423B2 (ja) 2011-07-27

Family

ID=36737561

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004375648A Expired - Fee Related JP4736423B2 (ja) 2004-12-27 2004-12-27 音声認識装置および音声認識方法

Country Status (1)

Country Link
JP (1) JP4736423B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018093110A1 (ko) * 2016-11-16 2018-05-24 삼성전자 주식회사 사용자의 음성 입력에 대한 답변 메시지를 제공하는 디바이스 및 방법
WO2019035373A1 (ja) * 2017-08-17 2019-02-21 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP2020021040A (ja) * 2018-08-03 2020-02-06 ソフトバンク株式会社 情報処理装置、音声出力方法、音声出力プログラム
JP2020187773A (ja) * 2020-07-10 2020-11-19 ソフトバンク株式会社 情報処理装置、音声出力方法、音声出力プログラム
US11501766B2 (en) 2016-11-16 2022-11-15 Samsung Electronics Co., Ltd. Device and method for providing response message to voice input of user

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1039892A (ja) * 1996-07-24 1998-02-13 Denso Corp 音声認識方法及び音声認識装置
JPH1078961A (ja) * 1996-09-04 1998-03-24 Nippon Telegr & Teleph Corp <Ntt> 発話解析装置
JP2003162524A (ja) * 2001-11-26 2003-06-06 Toyota Central Res & Dev Lab Inc 言語処理装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1039892A (ja) * 1996-07-24 1998-02-13 Denso Corp 音声認識方法及び音声認識装置
JPH1078961A (ja) * 1996-09-04 1998-03-24 Nippon Telegr & Teleph Corp <Ntt> 発話解析装置
JP2003162524A (ja) * 2001-11-26 2003-06-06 Toyota Central Res & Dev Lab Inc 言語処理装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018093110A1 (ko) * 2016-11-16 2018-05-24 삼성전자 주식회사 사용자의 음성 입력에 대한 답변 메시지를 제공하는 디바이스 및 방법
US11501766B2 (en) 2016-11-16 2022-11-15 Samsung Electronics Co., Ltd. Device and method for providing response message to voice input of user
WO2019035373A1 (ja) * 2017-08-17 2019-02-21 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JPWO2019035373A1 (ja) * 2017-08-17 2020-10-08 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP7279636B2 (ja) 2017-08-17 2023-05-23 ソニーグループ株式会社 情報処理装置、情報処理方法、およびプログラム
JP2020021040A (ja) * 2018-08-03 2020-02-06 ソフトバンク株式会社 情報処理装置、音声出力方法、音声出力プログラム
JP2020187773A (ja) * 2020-07-10 2020-11-19 ソフトバンク株式会社 情報処理装置、音声出力方法、音声出力プログラム
JP7058305B2 (ja) 2020-07-10 2022-04-21 ソフトバンク株式会社 情報処理装置、音声出力方法、音声出力プログラム

Also Published As

Publication number Publication date
JP4736423B2 (ja) 2011-07-27

Similar Documents

Publication Publication Date Title
US5797116A (en) Method and apparatus for recognizing previously unrecognized speech by requesting a predicted-category-related domain-dictionary-linking word
JP4680714B2 (ja) 音声認識装置および音声認識方法
US20120296653A1 (en) Speech recognition of character sequences
JP2006048628A (ja) マルチモーダル入力方法
JP2008009153A (ja) 音声対話システム
KR101836430B1 (ko) 음성 인식과 번역 방법 및 그를 위한 단말 장치와 서버
JP5263875B2 (ja) 発話入力の音声認識のためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム
JP2010020102A (ja) 音声認識装置、音声認識方法及びコンピュータプログラム
JP2010079647A (ja) 音声翻訳装置、方法、およびプログラム
WO2006093092A1 (ja) 会話システムおよび会話ソフトウェア
JP2006208486A (ja) 音声入力装置
JP4736423B2 (ja) 音声認識装置および音声認識方法
JP2004045900A (ja) 音声対話装置及びプログラム
JP2013050742A (ja) 音声認識装置および音声認識方法
JP4661239B2 (ja) 音声対話装置及び音声対話方法
JP2012003090A (ja) 音声認識装置および音声認識方法
JP4639990B2 (ja) 音声対話装置及び音声理解結果生成方法
KR101945190B1 (ko) 음성인식 작동 시스템 및 방법
JP4220151B2 (ja) 音声対話装置
JP4951422B2 (ja) 音声認識装置、および音声認識方法
JP2010197709A (ja) 音声認識応答方法、音声認識応答システム、及びそのプログラム
JP2007264229A (ja) 対話装置
JP4635743B2 (ja) 音声対話装置及び音声理解結果生成方法
JP2003263190A (ja) 音声自動質問応答装置
JP2006171077A (ja) 音声認識装置および音声認識方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100831

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20101001

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101005

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20101028

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110105

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110126

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110405

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110418

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140513

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees