JP2007272123A - 音声操作システム - Google Patents

音声操作システム Download PDF

Info

Publication number
JP2007272123A
JP2007272123A JP2006100540A JP2006100540A JP2007272123A JP 2007272123 A JP2007272123 A JP 2007272123A JP 2006100540 A JP2006100540 A JP 2006100540A JP 2006100540 A JP2006100540 A JP 2006100540A JP 2007272123 A JP2007272123 A JP 2007272123A
Authority
JP
Japan
Prior art keywords
voice
response information
utterance
operator
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006100540A
Other languages
English (en)
Inventor
Kinichi Wada
錦一 和田
Tsukasa Shimizu
司 清水
Hiroyuki Hoshino
博之 星野
Hiroaki Sekiyama
博昭 関山
Toshiyuki Nanba
利行 難波
Shinji Sugiyama
真治 杉山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Toyota Central R&D Labs Inc
Original Assignee
Toyota Motor Corp
Toyota Central R&D Labs Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp, Toyota Central R&D Labs Inc filed Critical Toyota Motor Corp
Priority to JP2006100540A priority Critical patent/JP2007272123A/ja
Publication of JP2007272123A publication Critical patent/JP2007272123A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Navigation (AREA)

Abstract

【課題】オペレータを呼び出すか否かをシステムの利用開始時の最初の発話の入力から容易に判断することができ、誤応答を低減することができる音声操作システムを提供する。
【解決手段】音声操作システム10を、利用者の発話による音声を入力する音声入力部12と、該入力された音声を認識してテキスト変換する音声認識部14と、該入力された音声及び前記変換されたテキストの少なくとも一方に基づいて、システムが正しい応答情報を生成できるか否かを判定する発話判定部18と、正しい応答情報を生成できると判定されたときに、発話の内容に適した応答情報を生成して応答するシステム応答部20と、正しい応答情報を生成できないと判定されたときに、オペレータを呼び出すオペレータ呼出部と、を含めて構成する。
【選択図】図1

Description

本発明は、音声操作システムに係り、特に、音声認識技術を用い、音声で操作可能な音声操作システムに関する。
近年、音声認識技術を利用した対話操作が可能なシステムが、カーナビゲーションシステムなどに広く用いられている。しかしながら、音声認識に誤りがあったり、音声認識の結果は正しいが発話内容が複雑であったりすると、システムの誤応答が生じる。
そこで、利用者がシステムに対して対話的に操作を進めていく途中で、操作不能になったことをトリガとしてオペレータを呼び出す音声対話システムが知られている(例えば、特許文献1参照。)。
このシステムでは、利用者が特定の単語音声(例:オペレータ)を入力した場合や、利用者が物理的にオペレータ呼び出しボタンを押した場合、発話に対応する応答をシステムが有するデータベースから探し出すことができなかった回数が限界回数を超えた場合などにオペレータを呼び出すようにしている。
さらにまた、このシステムでは、利用者毎の対話履歴を予め記録しておき、この対話履歴に基づいてオペレータを呼び出すか否かを判断している。具体的には、記録しておいた対話履歴に基づいて算出した利用者の応答ごとの平均反応時間が長すぎるか短すぎる場合、記録しておいた対話履歴に基づいて算出した利用者の入力音声の音質の評価値が高すぎるか低すぎる場合、記録しておいた対話履歴に基づいて求めた利用者がシステムと対話を開始してからの対話時間と対話数による対話進捗度が著しく低い場合などに、オペレータを呼び出すようにしている。
特開2002−202882号公報
しかしながら、上記従来の音声対話システムでは、システムとの対話が開始されてから時間がある程度経過してからオペレータを呼び出すか否かを判定している。すなわち、対話の最初から判定するわけではないため、最初の段階でシステムとの対話が何度も失敗するような事態も生じ得る。特に、システムに不慣れな利用者がそのシステムを利用した場合には、最初の段階でシステムが許容できないような発話をする可能性が高く、結果として何度も失敗した後でオペレータを呼び出すことになる。すなわち、ある程度対話が進んだところでシステムが誤応答し、最初から全てやり直すような事態が生じる場合もある。
これではシステムとの間で正しいやりとりを行えるようになるまで時間がかかり、利用者にとって非常に使い勝手が悪く、利便性に劣る。
また、従来の音声対話システムでは、利用者毎の過去の対話履歴を用いてオペレータを呼び出すか否かを判断しているため、システムが複雑化する、という問題もある。
本発明は上述した問題を解決するためになされたものであり、オペレータを呼び出すか否かをシステムの利用開始時の最初の発話の入力から容易に判断することができ、誤応答を低減することができる音声操作システムを提供することを目的とする。
上記目的を達成するために、本発明の音声操作システムは、利用者の発話による音声を入力する音声入力手段と、前記入力された音声を認識してテキスト変換する音声認識手段と、前記入力された音声及び前記変換されたテキストの少なくとも一方に基づいて、システムが正しい応答情報を生成できるか否かを判定する判定手段と、前記判定手段で正しい応答情報を生成できると判定されたときに、前記発話の内容に適した応答情報を生成して応答する応答手段と、前記判定手段で正しい応答情報を生成できないと判定されたときに、オペレータを呼び出す呼出手段と、を含んで構成されている。
このように、入力された音声及び音声から変換されたテキストの少なくとも一方に基づいて、システムが正しい応答情報を生成できるか否かを判定し、正しい応答情報を生成できると判定したときには発話の内容に適した応答情報を生成して応答し、正しい応答情報を生成できないと判定したときにはオペレータを呼び出すようにしたため、オペレータを呼び出すか否かをシステムの利用開始時の最初の発話の入力から容易に判断することができ、誤応答を低減することができる。また、利用者毎の過去の対話履歴は用いないため、簡易にシステムを構築できる。
なお、前記判定手段は、前記入力された音声の時間長が閾値を超える場合、前記変換されたテキストが示す単音節の個数が閾値を超える場合、及び正しい応答情報を生成できないと判定すべき予め定められた文字列が前記変換されたテキストに含まれている場合、の少なくとも1つの場合に、正しい応答情報を生成できないと判定することができる。
これにより、システムが正しい応答情報を生成できるか否かを極めて容易に判定できる。
以上説明したように、本発明によれば、オペレータを呼び出すか否かをシステムの利用開始時の最初の発話の入力から容易に判断することができ、誤応答を低減することができる、という優れた効果を奏する。
以下、図面を参照して、本発明の実施の形態について詳細に説明する。
図1は、本発明の実施の形態に係る音声操作システム10の概略的な構成を示すブロック図である。
音声操作システム10は、利用者の発話による音声を入力するマイク等の音声入力部12と、入力された音声を認識してテキスト変換する音声認識部14と、音声認識辞書を記憶した音声認識データベース(DB)16とを備えている。
音声認識部14は、音声入力部12に入力された音声について、音声認識データベース16に記憶されている音声認識辞書を用いて音声認識処理を行い、この音声認識処理によって音声から変換したテキストを音声認識結果として発話判定部18に出力する。
発話判定部18は、音声入力部12に入力された音声及び音声認識部14で変換されたテキストに基づいて、発話が簡潔か否か、すなわち発話の内容に対してシステム応答部20で正しい応答情報を生成できるか否かを判定する。
発話判定部18は、発話が簡潔でシステム応答部20で正しい応答情報を生成できると判定した場合には、システム応答部20に音声認識部14で変換されたテキストを出力する。また、発話判定部18は、発話が簡潔でなくシステム応答部20で正しい応答情報を生成できないと判定した場合には、オペレータ呼出部22を介してオペレータを呼び出すと共に音声入力部12から入力された音声をオペレータに出力する。
システム応答部20は、GPSセンサを用いてGPS電波を受信して現在位置を検出したり、目的地の検索やルート探索を行ったりするカーナビゲーションシステム(カーナビシステム)26、液晶表示板からなる表示パネル上にタッチパネルが重ねられたユーザインタフェースとしてのタッチパネルディスプレイ24、及び音声等を出力するスピーカ28に接続されている。
システム応答部20は、発話判定部18を介して入力されたテキストを解釈し、そのテキストの内容に適した応答情報を生成する。例えば、そのテキストの内容が目的地までのルートの検索を指示する内容であれば、カーナビシステム26から情報を取得して、目的地までのルートに関する情報を応答情報として生成し、この応答情報に基づいてタッチパネルディスプレイ24に画像を表示することにより目的地までのルートを提示したり、スピーカ28から音声で出力したりする。
また、例えば、テキストの内容が、この音声操作システム10或いはこの音声操作システム10を搭載した装置において実行可能な何らかの操作を実行するという内容であれば、その操作を実行するための応答情報を生成して、該応答情報に基づいて利用者が自らその動作を実行できるような案内をタッチパネルディスプレイ24やスピーカ28から出力したり、或いはその操作を装置側で自動的に実行するように制御したりする。なお、何らかの操作とは、例えば、音声操作システム10のシャットダウンの操作や、タッチパネルディスプレイ24にメニュー画面を表示させるための操作等をいう。
オペレータ呼出部22は、無線通信制御回路を備え、発話判定部18からオペレータの呼出指令が入力されたときに、遠隔地で待機するオペレータを無線通信で呼び出し、その後、発話判定部18から入力された音声をオペレータに出力する。またオペレータから受信した音声をスピーカ28に出力する。すなわち、オペレータ呼出部22は、オペレータとの音声による通信を制御する。これにより、利用者はオペレータとの間で音声によるやりとりを行うことができる。
以下、この音声操作システム10における音声操作の流れを説明する。
まず、システムの利用者は、音声でシステムを操作するために発話音声を発する。音声入力部12は、この音声を入力すると、音声認識部14及び発話判定部18に出力する。音声認識部14は、音声をテキスト変換して発話判定部18に出力する。
図2は、発話判定部18で実行される発話判定処理ルーチンを示すフローチャートである。
ステップ100では、音声入力部12から音声が入力されると共に音声認識部14から音声認識結果(変換されたテキスト)が入力されたか否かを判断する。
音声及びテキストの双方が入力されたと判断した場合には、ステップ102で、音声の時間長が閾値TH1以下であるか否かを判断する。
一般的な音声認識技術では、音声の時間長(発声時間)が長いほど、音声認識の誤りは多くなり誤応答する確率が高くなる。
従って、ステップ102で、音声の時間長が予め定められた閾値TH1を超えたと判断した場合には、発話は簡潔でなく、このシステムのシステム応答部20でこの発話に対して正しく応答情報を生成することはできないと判定し、ステップ110に移行する。
ステップ110では、オペレータ呼出部22に対してオペレータを呼び出すための呼出指令を出力すると共に、音声入力部12から入力された音声を出力する。オペレータ呼出部22は、呼出指令を受信すると、無線通信によりオペレータを呼び出すと共に、オペレータに利用者の音声を送信し、オペレータとの音声による通信を開始する。以後は、オペレータと利用者とが直接会話をすることができるため、オペレータは利用者が求める情報を提示する、あるいは利用者が希望する操作を実行することができる。
一方、ステップ102で、音声の時間長が予め定められた閾値TH1以下であると判断した場合には、ステップ104に移行し、音声認識部14で変換されたテキストを全てひらがな読みにしたときの単音節数が、予め定められた閾値TH2以下か否かを判断する。
単音節数が多いということは、利用者が一度に多くのことを話したことを意味する。従って、この場合には、発話が複雑になる傾向が高く、システムが正しく応答情報を生成できない確率が高い。加えて、音声の時間長も長くなるので、音声認識の誤りから誤応答する確率が高くなる。
従って、ステップ104で、単音節数が予め定められた閾値TH2を超えたと判断した場合には、発話は簡潔でなく、このシステムのシステム応答部20でこの発話に対して正しく応答情報を生成することはできないと判定し、ステップ110に移行する。
一方、ステップ104で、単音節数が予め定められた閾値TH2以下であると判断した場合には、ステップ106に移行し、テキストの中に予め定められた文字列が含まれているか否かを判断する。
例えば、テキストに「ので」「けど」「から」のように、原因や状況を述べる際に付随する言い回しの語尾や、「とか」「ような」など、あいまいな語尾を含む場合には、発話が簡潔でなく、複雑になる傾向が高く、システムが内容を理解にしくい場合が多いため、システムが正しく応答情報を生成できない確率が高い。
より具体的には、例えば、「今日は天気が良いので、どこかに出かけたいんだけど、秋だから、栗とか、マツタケとか、そういうものが美味しいところはどこかにないかな?」のような複雑な発話では、出かけることが目的なのか、美味しいものが食べられるお店を探すことが目的なのかを判断することは困難であるため、システムが誤応答する可能性が高い。
従って、この音声操作システム10では、「ので」「けど」「から」「とか」など、内容や目的が理解しにくくなるような文字列を予め不図示のメモリに記憶しておき、これら文字列の少なくとも1つがテキストに含まれているか否かを判断する。
ステップ106で、テキストの中に予め定められた文字列が含まれていると判断した場合には、発話は簡潔でなく、このシステムのシステム応答部20でこの発話に対して正しく応答情報を生成することはできないと判定し、ステップ110に移行する。
一方、ステップ106で、テキストの中に予め定められた文字列は含まれていないと判断した場合には、発話は簡潔であり、このシステムのシステム応答部20でこの発話に対して正しく応答情報を生成することができると判定し、ステップ108に移行する。
ステップ108では、システム応答部20に音声認識部14で変換されたテキストを出力する。テキストを受信したシステム応答部20では、該テキストを解釈し、そのテキストの内容に適した応答情報を生成し、タッチパネルディスプレイ24に画像を表示することにより提示したり、スピーカ28から音声で出力したりする。
一連の応答が終了した後は本処理ルーチンを終了し、リセットした後、再び本処理ルーチンを起動して利用者からの発話音声を受け付けるため待機する。以後、システムはこの一連の流れを繰り返す。
以上説明したように、入力された音声及び音声から変換されたテキストの少なくとも一方に基づいて、システムが正しい応答情報を生成できるか否かを判定し、正しい応答情報を生成できると判定したときには、システム応答部20で発話の内容に適した応答情報を生成して応答するように上記変換されたテキストを出力し、正しい応答情報を生成できないと判定したときには、オペレータ呼出部22を介してオペレータを呼び出し、オペレータと直接会話できるようにしたため、オペレータを呼び出すか否かをシステムの利用開始時の最初の発話の入力から容易に判断することができ、誤応答を低減することができる。従って、従来の対話的なシステムのように対話が進んだ最後にシステムが誤応答し、全てやり直すという不具合は発生せず、利用者の利便性が格段に向上する。また、利用者毎の過去の対話履歴は用いないため、簡易にシステムを構築できる。
本発明の実施の形態に係る音声操作システムの概略的な構成を示すブロック図である。 発話判定部で実行される発話判定処理処理ルーチンを示すフローチャートである。
符号の説明
10 音声操作システム
12 音声入力部
14 音声認識部
16 音声認識データベース
18 発話判定部
20 システム応答部
22 オペレータ呼出部
24 タッチパネルディスプレイ
26 カーナビシステム
28 スピーカ

Claims (2)

  1. 利用者の発話による音声を入力する音声入力手段と、
    前記入力された音声を認識してテキスト変換する音声認識手段と、
    前記入力された音声及び前記変換されたテキストの少なくとも一方に基づいて、システムが正しい応答情報を生成できるか否かを判定する判定手段と、
    前記判定手段で正しい応答情報を生成できると判定されたときに、前記発話の内容に適した応答情報を生成して応答する応答手段と、
    前記判定手段で正しい応答情報を生成できないと判定されたときに、オペレータを呼び出す呼出手段と、
    を含む音声操作システム。
  2. 前記判定手段は、前記入力された音声の時間長が閾値を超える場合、前記変換されたテキストが示す単音節の個数が閾値を超える場合、及び正しい応答情報を生成できないと判定すべき予め定められた文字列が前記変換されたテキストに含まれている場合、の少なくとも1つの場合に、正しい応答情報を生成できないと判定する請求項1記載の音声操作システム。
JP2006100540A 2006-03-31 2006-03-31 音声操作システム Pending JP2007272123A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006100540A JP2007272123A (ja) 2006-03-31 2006-03-31 音声操作システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006100540A JP2007272123A (ja) 2006-03-31 2006-03-31 音声操作システム

Publications (1)

Publication Number Publication Date
JP2007272123A true JP2007272123A (ja) 2007-10-18

Family

ID=38674944

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006100540A Pending JP2007272123A (ja) 2006-03-31 2006-03-31 音声操作システム

Country Status (1)

Country Link
JP (1) JP2007272123A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011203349A (ja) * 2010-03-24 2011-10-13 Toyota Motor Corp 音声認識システム及び自動検索システム
WO2013035330A1 (ja) 2011-09-06 2013-03-14 株式会社カプコン ゲームプログラムを記憶した記憶媒体、ゲームシステムおよびゲーム制御方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000293194A (ja) * 1999-04-08 2000-10-20 Mitsubishi Electric Corp 音声対話装置
JP2002116792A (ja) * 2000-10-11 2002-04-19 Sony Corp ロボット制御装置およびロボット制御方法、並びに記録媒体
JP2002150039A (ja) * 2000-08-31 2002-05-24 Hitachi Ltd サービス仲介装置
JP2002202882A (ja) * 2000-12-28 2002-07-19 Fujitsu Ltd 音声対話システム及び音声対話方法
JP2004310692A (ja) * 2003-04-10 2004-11-04 Mitsubishi Electric Corp 障害解決支援装置
JP2005027283A (ja) * 2003-06-30 2005-01-27 Microsoft Corp 自動化有効性の予測およびオペレータ負荷の予測に基づく自動システムから人間のオペレータへの呼処理の理想的な転送

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000293194A (ja) * 1999-04-08 2000-10-20 Mitsubishi Electric Corp 音声対話装置
JP2002150039A (ja) * 2000-08-31 2002-05-24 Hitachi Ltd サービス仲介装置
JP2002116792A (ja) * 2000-10-11 2002-04-19 Sony Corp ロボット制御装置およびロボット制御方法、並びに記録媒体
JP2002202882A (ja) * 2000-12-28 2002-07-19 Fujitsu Ltd 音声対話システム及び音声対話方法
JP2004310692A (ja) * 2003-04-10 2004-11-04 Mitsubishi Electric Corp 障害解決支援装置
JP2005027283A (ja) * 2003-06-30 2005-01-27 Microsoft Corp 自動化有効性の予測およびオペレータ負荷の予測に基づく自動システムから人間のオペレータへの呼処理の理想的な転送

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011203349A (ja) * 2010-03-24 2011-10-13 Toyota Motor Corp 音声認識システム及び自動検索システム
WO2013035330A1 (ja) 2011-09-06 2013-03-14 株式会社カプコン ゲームプログラムを記憶した記憶媒体、ゲームシステムおよびゲーム制御方法

Similar Documents

Publication Publication Date Title
JP5064404B2 (ja) モバイルデバイスにおける音声および代替入力手法の組み合わせ
JP4517260B2 (ja) 自動通訳システム、自動通訳方法、および自動通訳用プログラムを記録した記憶媒体
JP4481972B2 (ja) 音声翻訳装置、音声翻訳方法及び音声翻訳プログラム
JP3662780B2 (ja) 自然言語を用いた対話システム
US9570076B2 (en) Method and system for voice recognition employing multiple voice-recognition techniques
JP6150268B2 (ja) 単語登録装置及びそのためのコンピュータプログラム
JP2015018265A (ja) コンテキスト情報を使用した音声認識修正
JP2005331882A (ja) 音声認識装置、音声認識方法、および音声認識プログラム
JP2003308087A (ja) 文法更新システム及び方法
JP6897677B2 (ja) 情報処理装置及び情報処理方法
JP6675078B2 (ja) 誤認識訂正方法、誤認識訂正装置及び誤認識訂正プログラム
JPWO2007111162A1 (ja) テキスト表示装置、テキスト表示方法およびプログラム
JP2009210703A (ja) 音声認識装置
JP2007272123A (ja) 音声操作システム
JP2009104047A (ja) 情報処理方法及び情報処理装置
JP2007127896A (ja) 音声認識装置及び音声認識方法
JP2006259641A (ja) 音声認識装置及び音声認識用プログラム
JP2006337942A (ja) 音声対話装置及び割り込み発話制御方法
JP2001236091A (ja) 音声認識結果の誤り訂正方法およびその装置
JP2009003205A (ja) 音声認識装置、および音声認識方法
JP2007183516A (ja) 音声対話装置及び音声認識方法
JP2005283797A (ja) 音声認識装置および音声認識方法
US20080256071A1 (en) Method And System For Selection Of Text For Editing
JP2014149490A (ja) 音声認識誤り修正装置及びそのプログラム
JP2015036826A (ja) コミュニケーション処理装置、コミュニケーション処理方法、及び、コミュニケーション処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081211

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110301

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110927