JP5271330B2 - 音声対話システム、方法、及びプログラム - Google Patents

音声対話システム、方法、及びプログラム Download PDF

Info

Publication number
JP5271330B2
JP5271330B2 JP2010219986A JP2010219986A JP5271330B2 JP 5271330 B2 JP5271330 B2 JP 5271330B2 JP 2010219986 A JP2010219986 A JP 2010219986A JP 2010219986 A JP2010219986 A JP 2010219986A JP 5271330 B2 JP5271330 B2 JP 5271330B2
Authority
JP
Japan
Prior art keywords
voice
unit
audio
sound
saving signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010219986A
Other languages
English (en)
Other versions
JP2012073536A (ja
Inventor
政秀 蟻生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2010219986A priority Critical patent/JP5271330B2/ja
Priority to US13/048,193 priority patent/US8719036B2/en
Publication of JP2012073536A publication Critical patent/JP2012073536A/ja
Application granted granted Critical
Publication of JP5271330B2 publication Critical patent/JP5271330B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Navigation (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本発明の実施形態は、音声対話システム、方法、及びプログラムに関する。
入力されたユーザの音声を認識し、当該音声に対応する音声応答を選択制御し、当該音声応答を出力することにより、ユーザとシステムとの間で対話を行なう音声対話システムがある。
このような音声対話システムでは、効率よく音声対話を行なうことが可能なものが望まれている。
特開2004−333543号公報
本発明が解決しようとする課題は、効率よく音声対話を行なうことが可能な音声対話システム、方法、及びプログラムを提供することである。
上記課題を解決するために、本発明の実施形態に係る音声対話システムは、検出部と、取得部と、生成部と、出力部と、キャンセル判定部と、実行部と、履歴記憶部と、音声記憶部とを備える。
履歴記憶部は、現在までに実行された動作の動作名と、その実行回数とを対応付けた動作履歴を記憶する。音声記憶部は、各々の前記動作名に対応する音声データを記憶する。
検出部は、ユーザからの音声入力を省略することを示す省音声信号を検出する。取得部は、前記検出部が前記省音声信号を検出した場合、前記履歴記憶部から、最も実行回数の多い動作名を取得する。生成部は、取得された前記動作名に対応する音声データを前記音声記憶部から読み出し、音声信号を生成する。出力部は、前記音声信号を音声に変換して出力する。キャンセル判定部は、前記音声の出力が終了するまでに前記省音声信号がキャンセルされたか否かを判定する。実行部は、前記省音声信号がキャンセルされていない場合に、前記動作名に対応する動作を実行することを特徴とする。
第1の実施の形態に係る音声対話システム1の構成を表すブロック図。 音声対話システム1の処理を表すフローチャート。 第1の実施の形態における履歴記憶部51が記憶する動作履歴を表す図。 第1の実施の形態における音声記憶部52が記憶する音声データを表す図。 第2の実施の形態に係る音声対話システム2の構成を表すブロック図。 第2の実施形態における「対話状態」を説明するための概念図。 第2の実施の形態における履歴記憶部51が記憶する動作履歴を表す図。 第2の実施の形態における音声記憶部52が記憶する音声データを表す図。 第2の実施の形態に係る音声対話システム2の処理を表すフローチャート。 算出部23の処理を説明するため図。
(第1の実施の形態)
第1の実施の形態に係る音声対話システム1は、例えば、カーナビゲーションシステム等に用いられる。
音声対話システム1は、ユーザからの音声入力の内容に応じて、異なる動作(例えば、「目的地を自宅に設定する」動作や、「現在位置を表示する」動作等)を実行する。音声対話システム1は、過去に実行した動作の実行回数の履歴を、動作毎に記憶する。音声対話システム1は、ユーザから入力された、音声入力を省略することを意図する信号である省音声信号を検出した場合、各動作の過去の実行回数に基づいて、実行する動作を決定する。音声対話システム1は、省音声信号が一定時間継続されている場合、当該動作を実行する。
これにより、音声対話システム1が現在までに多く行なっている動作であれば、ユーザは音声入力をすることなしに、音声対話システム1が行う動作を指定することできる。
図1は、音声対話システム1の構成を表すブロック図である。音声対話システム1は、検出部11と、計測部12と、取得部13と、回数判定部14と、生成部15と、出力部16と、キャンセル判定部17と、実行部18と、履歴記憶部51と、音声記憶部52とを備える。
履歴記憶部51は、後述する実行部18が現在までに実行した各動作の動作名と、その実行回数とを対応付けた履歴を記憶する。音声記憶部52は、各動作名に対応した音声データを記憶する。また、音声記憶部52は、音声対話システム1の操作方法を説明する操作説明の音声データを記憶する。
検出部11は、省音声信号を検出する。計測部12は、省音声信号が検出され始めた時刻を開始時刻とし、省音声信号の継続時間を計測する。
取得部13は、実行回数が最多である動作(以下、最多動作)の動作名とその実行回数とを履歴記憶部51から取得する。また、取得部13は、全ての動作の実行回数を履歴記憶部51から取得し、それらを合計した総実行回数を求める。回数判定部14は、総実行回数が、所定の閾値以上であるか否かを判定する。
総実行回数が所定の閾値以上である場合、生成部15は、最多動作の動作名に対応する音声データを音声記憶部52から読み出し、その音声信号を生成する。総実行回数が所定の閾値未満である場合、生成部15は、操作説明の音声データを音声記憶部52から読み出し、その音声信号を生成する。出力部16は、音声信号を音声として出力する。
キャンセル判定部17は、出力部16が音声を出力が終了するまでに、ユーザにより省音声信号がキャンセルされたか否かを判定する。本実施形態において、キャンセル判定部17は、出力部16が音声を出力が終了するまでに、省音声信号が継続しているか否かを、計測部12を参照することにより判定する。省音声信号が継続している場合、実行部18は、最多動作又は操作説明を実行する。
検出部11と、計測部12と、取得部13と、回数判定部14と、生成部15と、出力部16と、キャンセル判定部17と、実行部18と、履歴記憶部51と、音声記憶部52とは、中央演算処理装置(CPU)及びCPUが用いるメモリにより実現されてよい。また、履歴記憶部51と、音声記憶部52とは、補助記憶装置を用いて実現されてよい。
図2は、音声対話システム1の処理を表すフローチャートである。検出部11は、省音声信号を検出したか否かを判定する(S201)。例えば、検出部11は、ユーザにより発話ボタン(ユーザが、発話による音声入力をする際に押下するボタン)(不図示)が一定時間押下されたことを判定することにより、省音声信号を検出したか否かを判定してよい。
また、発声ボタンが単位時間あたり一定回数以上押下されたことを判定することにより、省音声信号を検出したか否かを判定してよい。また、ユーザの視線を検出する公知の技術を用いて、ユーザが所定の方向を一定時間見ていた場合に、省音声信号を検出したと判定してもよい。
なお、検出部11は、省音声信号が終了したことも検出できることが望ましい。すなわち、発声ボタンを再度の押下することや、所定時間以上に押下された発話ボタンの押下の終了や、発声ボタンが単位時間あたりに一定回数以上押されなくなったことや、ユーザの視線が所定の方向以外の方向を向いたことを、撮像装置等を用いて検出することにより、省音声信号が終了したと判定することができる。
ステップS201における判定がNOの場合、検出部11は、省音声信号を検出するまで、ステップS201の処理を行なう。
ステップS201における判定がYESの場合、計測部12は、省音声信号が入力されたと検出部11が判定した時刻を開始時刻とし、開始時刻以降の省音声信号の継続時間を計測し始める(S202)。
図3は、履歴記憶部51が記憶する動作履歴を表す図である。図3に示すように、履歴記憶部51には動作を識別するための動作名と、当該動作名に対応する動作と、当該動作内容の現在までの利用回数とが対応付けられて記憶されている。ただし、操作説明の実行回数はカウントしないため、操作説明の動作についての履歴は記憶されない。
取得部13は、最多動作の動作名と実行回数とを履歴記憶部51から読み出す(S203)。この際、取得部13は、総実行回数を求める。図3の例において、最多動作の動作名は「自宅」であるため、取得部13は、動作名「自宅」と、利用回数「20」とを履歴記憶部51から読み出す。また、取得部13は、各動作(「自宅」、「現在地」、「承認」)の実行回数を合計し、総実行回数を「42(20+15+7)回」と求める。
また、図3では動作は3つしか表されていないが、ユーザからの音声を認識する認識部(不図示)がユーザの音声を認識し、新たな動作が実行部18により実行された場合、実行部18は、履歴記憶部51に当該動作を追加して書き込んでもよい。また、既に履歴記憶部51が記憶している動作が実行された場合、制御部17は、その動作の利用回数を加算してもよい。
回数判定部14は、総実行回数が所定閾値以上であるか否かを判定する(S204)。所定閾値は、予め定められていても構わない。本例において所定閾値は「10回」としている。
ステップS204における判定がYESの場合、生成部15は、最多動作に対応する音声データを音声記憶部52から読み出し、その音声信号を生成する(S205)。ステップS204における判定がNOの場合、生成部15は、操作説明の動作に対応する音声データを音声記憶部52から読み出し、その音声信号を生成する(S206)。
図4は、音声記憶部52が記憶する音声データを表す図である。音声記憶部52は、各動作の動作名について、出力される音声を対応付けて記憶している。
本例の場合、総実行回数は42回である。よって、ステップS204における判定はYESとなるため、生成部15は、最多動作「自宅」に対応する音声データ「自宅を目的地に設定します」を音声記憶部52から読み出し、その音声信号を生成する。
なお、音声データは、文字データ列の形式で記憶されていてもよい。この場合、生成部15は、公知の音声合成技術を用いて、文字データ列から音声信号を生成してよい。
生成部15は、音声信号を出力部16に供給する。出力部16は、音声信号を音声として出力する(S207)。
キャンセル判定部17は、出力部16が音声信号を出力し終わった時点において、省音声信号が継続しているか否かを、計測部12を参照することにより判定する(S208)。ステップS208における判定がYESの場合、実行部18は、最多動作又は操作説明の動作を実行する(S209)。本例の場合、実行部18は、「自宅を目的地に設定」という動作を実行する。ステップS208における判定がNOの場合、実行部18は、最多動作又は操作説明の動作を実行せず、ステップS201に遷移する。
なお、キャンセル判定部17は、出力部16が音声信号を出力し終わった時点から、所定の時間経過した時点において、省音声信号が継続しているか否かを、計測部12を参照することにより判定しても構わない。
また、本実施形態において、取得部13は最多動作の動作名とその実行回数を取得し、総実行回数を求めたが、最多動作の動作名のみを取得して生成部15へ供給しても構わない。
また、本実施形態において、取得部は履歴数に対する重みも設定することができ、最多の実行回数を決める際に「重み×履歴数」を用いて最多動作を決定しても構わない。この重みは動作に応じて予め与えられていても構わないし、対応する動作と現在地との距離(物理的な距離や費用的なコストでも構わない。距離の取得方法は公知の技術で実現できるとする)の関数で得られても構わない。
また、本実施形態において、取得部は実行回数において降順の、複数の動作名とその実行回数を取得しても構わない。この場合の回数判定部での判定の実施例については後述する。
また、本実施形態において、回数判定部14は、履歴記憶部51に記憶されている動作の総実行回数に基づいて、図2におけるステップS204〜S206を行なっていたが、これに限られない。前述のように取得部において実行回数で降順の複数の動作名とその実行回数が得られた場合に、最多とその次に実行回数が多い動作の、その実行回数の差が設定された閾値より大きいか否かで判定を行うことも考えられる。この場合、1位と2位の実行回数の差が所定の閾値以上かの判定(S204に対応)を行い、YES判定ならば最多動作についての音声信号の生成(S205に対応)に進み、NO判定ならば操作説明の代わりに“省音声信号に対応する動作はない”動作、つまり省音声で処理を行わずに通常通りの操作を促す(S206を変更)ことも考えられる。いずれにせよ、回数判定部14は、履歴記憶部51に記憶されている各動作の実行回数に基づいて判定を行なうものであればよい。
本実施形態によれば、ユーザは、自らが意図する動作の内容を音声対話システム1が、音声出力している場合、省音声信号の入力を続けることにより、音声対話システム1に当該動作を実行させることができる。これにより、音声対話を省略することができる。また、過去の利用回数から決定される動作をユーザに音声で提示する一方、ユーザは当該音声を聞きながら省音声信号の入力を継続することで決定された動作を音声対話システム1が行なってもよいか否かの判断を音声対話システム1に伝えることができる。すなわち、音声対話システム1が多く行う動作であれば、ユーザは音声入力をすることなしに、音声対話システム1が行う動作を指定することできる。
また、本実施形態では、ユーザが、一の発話ボタンを用いて省音声信号を入力し、当該発話ボタンを離すことにより、省音声信号の入力を終了する例について説明したが、これに限られない。例えば、音声対話システム1は、省音声信号を入力する第1のボタン(不図示)と、省音声信号の入力をキャンセルする第2のボタン(不図示)を有していても構わない。
この場合、計測部12は、第1のボタンが押下されてから、第2のボタンが押下されるまで、継続時間を計測してよい。この例において、ユーザは、第1のボタンを押下することにより、省音声信号を入力する。そして、ユーザは、出力部16から出力される音声が、自らの意図しない動作の内容である場合、第2のボタンを押下する。
これにより、ユーザは、決定された動作を音声対話システム1が行なってもよいか否かの判断を音声対話システム1に伝えることができる。
(第2の実施の形態)
第2の実施の形態に係る音声対話システム2は、ユーザとの対話の進捗の状態を表す「対話状態」に応じて、省音声信号に対する動作を決定できる点が、第1の実施の形態と異なる。
図5は、音声対話システム2の構成を表すブロック図である。音声対話システム2は、第1の実施の形態の音声対話装置1に対して、認識部21と、管理部22と、算出部23と、状態記憶部53とをさらに備える。また、音声対話システム2は、音声対話システム1と比較して、履歴記憶部51と、音声記憶部52が記憶する内容が異なる。また、キャンセル判定部17が、音声出力における参照点(後述)をさらに用いて、判定を行なう点が異なる。
認識部21は、マイク(不図示)等を通して入力されたユーザの音声(音声信号)を認識する。状態記憶部53は、ユーザとシステムとの現在の対話状態を記憶する。管理部22は、状態記憶部53を用いて、ユーザとシステムとの現在の対話状態を管理する。算出部23は、検出部11が、省音声信号を検出しなくなった時点において、出力部16が出力している音声を、「参照点」の情報を基に算出する。詳細は後述する。
ここで、「対話状態」について説明する。図6は、本実施形態における「対話状態」を説明するための概念図である。ここでは、カーナビゲーションの音声対話システムを例として説明する。図6において、白丸印(○)が「対話状態」を表す。ここでは説明のために、対話状態を木構造で表現している。
状態記憶部53は、対話状態を記憶する。管理部22は、状態記憶部53を用いて、対話状態を管理する。
最初の対話開始時は「ルート」という状態(状態A)にあるものとする。この状態で、ユーザが「住所検索」あるいは「電話をかける」と発声すると、認識部21が音声認識を行う。管理部22が、各々の認識結果に応じた状態(例えば、「住所検索」なら状態B)に、現在の対話状態を遷移させる。
また、図6には、対話状態の他に動作の状態も記載している。例えば、図6における「動作B」の状態には、ルートの状態から、「住所検索」→「神奈川県」→「川崎市」→「幸区」→「小向東芝町1」→「目的地にする」という発声で到達することができ、動作としては「神奈川県川崎市幸区小向東芝町1」の地点をカーナビゲーションの目的地に設定する動作である。図6における三角括弧(<>)の内容は、その状態に遷移した際に、出力部16が出力する音声の内容を表す。
また、図6中の動作に対応する状態には、履歴記憶部51が記憶する、動作の実行回数も記載している。例えば、動作Bに対応する動作は15回行なっているものとして記載している。
本実施形態における履歴記憶部51は、第1の実施形態に対して、対話状態についても履歴を記憶できる点が異なる。図7は、本実施形態における履歴記憶部51が記憶する動作履歴を表す図である。履歴記憶部51は、各状態(状態A、B、C等)に対して、行われた一又は複数の動作と、その実行回数が記憶されている。
図8は、本実施形態における音声記憶部52が記憶する音声データを表す図である。音声記憶部52は、各状態と、各状態から実行され得る一又は複数の動作の動作名と、各動作における音声データとを対応付けて記憶している。音声記憶部52は、各状態の遷移によって出力される出力音声を連ねたものを音声データの内容としている。
また、音声記憶部52は、音声データの中で、現在どの状態を出力部16が出力しているのかを表す参照点も音声データの一要素として記憶していてよい。図8におけるピリオドが参照点を表している。また各参照点は対応する「対話状態」に関する情報を持っていても構わない。参照点に対応する対話状態の情報を持つことで、後述するように参照点が選ばれた時に、管理部を用いて対応する対話状態に遷移することができる。ここでの実施形態の説明では、図6と図8から、各参照点が図6の各状態に対応する旨で説明しているため、図8の各参照点が対応する対話状態については、明示はしていないが存在するものとする。
図9は、音声対話システム2の処理を表すフローチャートである。検出部11は、省音声信号を検出したか否かを判定する(S901)。ステップS901における判定がNOの場合、検出部11は、省音声信号を検出するまで、ステップS901の処理を行なう。
ステップS901における判定がYESの場合、計測部12は、省音声信号が入力されたと検出部11が判定した時刻を開始時刻とし、開始時刻以降の省音声信号の継続時間を計測し始める(S902)。
管理部22は、省音声信号が検出された時点における対話状態を状態記憶部53から読み出し、取得部13に通知する(S903)。例えば、省音声信号が検出された時点における対話状態が「状態B」である場合、管理部22は、現在の対話状態が「状態B」であることを取得部13に通知する。
取得部13は、履歴記憶部51を参照し、通知された状態に対応する動作の中で、最も実行回数の多い動作(最多動作)の動作名と、その実行回数を取得する。また、通知された状態に対応する全ての動作を合計した総実行回数を求める(S904)。
例えば、取得部13は、履歴記憶部51を参照し、「状態B」に対応する動作において、最多動作である「動作B」と、その実行回数「15」とを取得する。また、「状態B」に対応する動作の総実行回数(37回(15+10+12))を求める。
回数判定部14は、総実行回数が所定閾値以上であるか否かを判定する(S905)。所定閾値は、予め定められていても構わない。本例において所定閾値は「10回」としている。
ステップS905における判定がYESの場合、生成部15は、最多動作に対応する音声データを音声記憶部52から読み出し、その音声信号を生成する(S906)。ステップS204における判定がNOの場合、生成部15は、操作説明の動作に対応する音声データを音声記憶部52から読み出し、その音声信号を生成する(S907)。出力部16は、音声信号を音声として出力する(S908)。
キャンセル判定部17は、出力部16が音声信号を出力し終わった時点において、省音声信号が継続しているか否かを、計測部12を参照することにより判定する(S909)。ステップS909における判定がYESの場合、実行部18は、最多動作又は操作説明の動作を実行する(S910)。本例の場合、実行部18は、「「神奈川県川崎市幸区小向東芝町1」を目的地に設定」という動作を実行する。
ステップS909における判定がNOの場合、算出部23は、省音声信号の検出が終了した時点で、出力部16が出力していた音声を参照点の位置を基に求め、管理部22に通知する。管理部22は、当該音声に対応する状態に、現在の対話状態を遷移させ、状態記憶部53を更新する(S911)。
算出部23について説明する。図10は、算出部23の処理を説明するため図である。例えば、上記例のように、出力される音声の内容が「神奈川県.川崎市.幸区.小向東芝町1.この住所を目的地に設定します」となったとする(ピリオドは参照点を表す)。そして出力部16からこの音声が出力されている途中の「幸区」の辺りで省音声信号の検出が終了されたとする。すなわち、これは、ユーザがシステムに「動作C」を行うことを意図していたのにも関わらず、「川崎市」の後に出力される音声が「川崎区」ではなく「幸区」であったことから、省音声信号をここでキャンセルしたことに相当する。
このとき、ステップS909における判定はNOとなるので、算出部23は、省音声信号の検出終了時点の直前にある音声信号の参照点を取り出す。これは、出力中の音声の各時点で、現在どの参照点が過去に通過した中で最新のものかを管理することで実現できる。このようにして、算出部23は、省音声信号の終了直前の参照点を求めることができる。
また、ここでは単に省音声信号の検出終了時点の直前の参照点としたが、所定のバッファを設けることもできる。この場合、省音声信号の検出終了時点から、その直前の参照点まで時間の長さが所定の時間以内ならば、さらにひとつ前の参照点を求めるようにすることができる。これにより、ユーザが出力音声を聞いてから、その内容を判断するまでの時間を考慮することができる。
本実施形態の音声対話システム2は、対話状態を管理することにより、各対話状態に応じて実行する動作を決定することができる。
上述の実施形態により、効率よく音声対話を行なうことができる。
また、取得部13は、第1の実施形態でも説明したように、履歴記憶部51を参照し、通知された状態に対応する動作の中で、最も実行回数の多い動作(最多動作)の動作名と、その次に実行回数の多い動作(第2動作と呼ぶ)の動作名と、それらの実行回数を取得してもよい。
この場合、認識部11は、第2動作の音声データに対応する音声を認識の対象とする(これは、公知の音声認識技術により実現することができる)。そして、ユーザは、出力部16から出力される最多動作の音声が、自らの意図するものでない場合、第2動作に対応する音声を発声することにより、実行部18が実行する動作を最多動作から第2動作に修正するようにしてもよい。これにより、ユーザは、音声により実行部18が実行する動作を変更させることができる。
これまで、本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
1、2 音声対話システム
11 検出部
12 計測部
13 取得部
14 回数判定部
15 生成部
16 出力部
17 キャンセル判定部
18 実行部
51 履歴記憶部
52 音声記憶部

Claims (8)

  1. ユーザとの音声対話により、動作を実行する音声対話システムであって、
    現在までに実行された前記動作の動作名と、その実行回数とを対応付けた動作履歴を記憶する履歴記憶部と、
    各々の前記動作名に対応する音声データを記憶する音声記憶部と、
    ユーザからの音声入力を省略することを示す省音声信号を検出する検出部と、
    前記検出部が前記省音声信号を検出した場合、前記履歴記憶部から、最も実行回数の多い動作名を取得する取得部と、
    取得された前記動作名に対応する音声データを前記音声記憶部から読み出し、音声信号を生成する生成部と、
    前記音声信号を音声に変換して出力する出力部と、
    前記音声の出力が終了するまでに前記省音声信号がキャンセルされたか否かを判定するキャンセル判定部と、
    前記省音声信号がキャンセルされていない場合に、前記動作名に対応する動作を実行する実行部と
    を備える音声対話システム。
  2. 前記キャンセル判定部は、
    前記音声の出力が終了するまでに前記省音声信号がキャンセルされたか否かを、前記検出部が前記省音声信号の検出を継続しているか否かで判定する、
    請求項1記載の音声対話システム。
  3. 前記検出部が前記省音声信号の検出を開始した時刻から、前記省音声信号の継続時間を計測する計測部をさらに備え、
    前記キャンセル判定部は、
    前記音声の出力が終了した時点において、前記省音声信号が継続されているか否かを前記継続時間に基づいて判定する、
    請求項2記載の音声対話システム。
  4. 前記取得部は、
    前記検出部が前記省音声信号を検出した場合、前記履歴記憶部から、各動作の実行回数を取得し、それらを合計した値である総実行回数を求め、
    前記総実行回数が所定の閾値以下であるか否かを判定する回数判定部をさらに備え、
    前記実行部は、
    前記回数判定部における判定が真の場合に、前記動作名に対応する動作を実行する、
    請求項3記載の音声対話システム。
  5. 省音声信号を発生させるボタンをさらに有し、
    前記ボタンは、
    押下された状態では省音声信号を発生し、押下されない状態では省音声信号を発生しない、
    請求項1〜4記載の音声対話システム。
  6. 前記音声記憶部は、
    前記音声データを前記対話状態に対応させて記憶し、
    前記管理部は、
    前記検出部が、前記省音声信号の検出を終了した時刻に前記出力部が出力している音声の前記音声データに対応する状態に、前記対話状態を遷移させる
    請求項5記載の音声対話システム。
  7. ユーザとの音声対話により、動作を実行する音声対話方法であって、
    履歴記憶部が、現在までに実行された前記動作の動作名と、その実行回数とを対応付けた動作履歴を記憶し、
    音声記憶部が、各々の前記動作名に対応する音声データを記憶し、
    検出部が、ユーザからの音声入力を省略することを示す省音声信号を検出し、
    取得部が、前記検出部が前記省音声信号を検出した場合、前記履歴記憶部から、最も実行回数の多い動作名を取得し、
    生成部が、取得された前記動作名に対応する音声データを前記音声記憶部から読み出し、音声信号を生成し、
    出力部が、前記音声信号を音声に変換して出力し、
    キャンセル判定部が、前記音声の出力が終了するまでに前記省音声信号がキャンセルされたか否かを判定し、
    実行部が、前記省音声信号がキャンセルされていない場合に、前記動作名に対応する動作を実行する
    音声対話方法。
  8. コンピュータを、
    現在までに実行された前記動作の動作名と、その実行回数とを対応付けた動作履歴を記憶する手段と、
    各々の前記動作名に対応する音声データを記憶する手段と、
    ユーザからの音声入力を省略することを示す省音声信号を検出する手段と、
    前記省音声信号を検出した場合、前記動作履歴を記憶する手段から、最も実行回数の多い動作名を取得する手段と、
    取得された前記動作名に対応する音声データを、前記音声データを記憶する手段から読み出し、音声信号を生成する手段と、
    前記音声信号を音声に変換して出力する手段と、
    前記音声の出力が終了するまでに前記省音声信号がキャンセルされたか否かを判定する
    手段と、
    前記省音声信号がキャンセルされていない場合に、前記動作名に対応する動作を実行する手段と
    して機能させるための音声対話プログラム。
JP2010219986A 2010-09-29 2010-09-29 音声対話システム、方法、及びプログラム Active JP5271330B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2010219986A JP5271330B2 (ja) 2010-09-29 2010-09-29 音声対話システム、方法、及びプログラム
US13/048,193 US8719036B2 (en) 2010-09-29 2011-03-15 Voice dialogue system, method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010219986A JP5271330B2 (ja) 2010-09-29 2010-09-29 音声対話システム、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2012073536A JP2012073536A (ja) 2012-04-12
JP5271330B2 true JP5271330B2 (ja) 2013-08-21

Family

ID=45871530

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010219986A Active JP5271330B2 (ja) 2010-09-29 2010-09-29 音声対話システム、方法、及びプログラム

Country Status (2)

Country Link
US (1) US8719036B2 (ja)
JP (1) JP5271330B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140054643A (ko) * 2012-10-29 2014-05-09 삼성전자주식회사 음성인식장치 및 음성인식방법
KR101406181B1 (ko) 2013-04-30 2014-06-13 현대엠엔소프트 주식회사 음성인식 네비게이션 장치의 음성안내 및 응답방법
US20180239442A1 (en) * 2015-03-17 2018-08-23 Sony Corporation Information processing apparatus, information processing method, and program
TWI614676B (zh) * 2016-08-26 2018-02-11 Walton Advanced Eng Inc 數位語音導引裝置及其方法
KR102695306B1 (ko) * 2018-06-27 2024-08-16 현대자동차주식회사 대화 시스템, 그를 가지는 차량 및 차량의 제어 방법
US20190385711A1 (en) 2018-06-19 2019-12-19 Ellipsis Health, Inc. Systems and methods for mental health assessment
JP2021529382A (ja) 2018-06-19 2021-10-28 エリプシス・ヘルス・インコーポレイテッド 精神的健康評価のためのシステム及び方法
US11691076B2 (en) 2020-08-10 2023-07-04 Jocelyn Tan Communication with in-game characters

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0460237A (ja) 1990-06-29 1992-02-26 Sumitomo Heavy Ind Ltd 撓み噛合い式歯車噛合構造
US5470233A (en) * 1994-03-17 1995-11-28 Arkenstone, Inc. System and method for tracking a pedestrian
JP3919210B2 (ja) * 2001-02-15 2007-05-23 アルパイン株式会社 音声入力案内方法及び装置
JP4137399B2 (ja) * 2001-03-30 2008-08-20 アルパイン株式会社 音声検索装置
JP3724461B2 (ja) * 2002-07-25 2005-12-07 株式会社デンソー 音声制御装置
JP2004333543A (ja) 2003-04-30 2004-11-25 Matsushita Electric Ind Co Ltd 音声対話システム及び音声対話方法
JP4060237B2 (ja) 2003-05-30 2008-03-12 日本電信電話株式会社 音声対話システム、音声対話方法及び音声対話プログラム
JP2004354942A (ja) * 2003-05-30 2004-12-16 Nippon Telegr & Teleph Corp <Ntt> 音声対話システム、音声対話方法及び音声対話プログラム
JP2007052397A (ja) * 2005-07-21 2007-03-01 Denso Corp 操作装置
US8219407B1 (en) * 2007-12-27 2012-07-10 Great Northern Research, LLC Method for processing the output of a speech recognizer
JP2009300696A (ja) * 2008-06-12 2009-12-24 Toyota Motor Corp 音声認識装置
JP2010078851A (ja) * 2008-09-25 2010-04-08 Nissan Motor Co Ltd 音声入力装置及び音声入力方法
US10540976B2 (en) * 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US8294683B2 (en) * 2009-09-25 2012-10-23 Mitac International Corp. Method of processing touch commands and voice commands in parallel in an electronic device supporting speech recognition

Also Published As

Publication number Publication date
JP2012073536A (ja) 2012-04-12
US8719036B2 (en) 2014-05-06
US20120078634A1 (en) 2012-03-29

Similar Documents

Publication Publication Date Title
JP5271330B2 (ja) 音声対話システム、方法、及びプログラム
KR101801308B1 (ko) 음성 입력의 워드-레벨 수정
KR102115541B1 (ko) 외부 데이터 소스들을 사용한 스피치 재-인식
KR102196400B1 (ko) 핫워드 적합성을 결정하는 방법 및 장치
WO2015151157A1 (ja) 意図理解装置および方法
US10850745B2 (en) Apparatus and method for recommending function of vehicle
US20180090132A1 (en) Voice dialogue system and voice dialogue method
JP6812843B2 (ja) 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法
WO2010084881A1 (ja) 音声対話装置、対話制御方法及び対話制御プログラム
JP2018081185A (ja) 音声認識装置、音声認識システム
JP2010020102A (ja) 音声認識装置、音声認識方法及びコンピュータプログラム
JP2014202848A (ja) テキスト生成装置、方法、及びプログラム
JP6576968B2 (ja) 話し終わり判定装置、話し終わり判定方法およびプログラム
JP4967519B2 (ja) 音声認識装置
JP2019197182A (ja) 音声対話システム、音声対話方法及びプログラム
KR101562222B1 (ko) 발음의 정확도 평가 장치 및 그 방법
JP2010039099A (ja) 音声認識および車載装置
JP2019045831A (ja) 音声処理装置、方法およびプログラム
JP2015038526A (ja) 音声処理装置、及び音声処理方法
JP6391925B2 (ja) 音声対話装置、方法およびプログラム
CN112863496B (zh) 一种语音端点检测方法以及装置
JP6499228B2 (ja) テキスト生成装置、方法、及びプログラム
JP2018132623A (ja) 音声対話装置
JP2005283646A (ja) 音声認識率推定装置
JP2009020352A (ja) 音声処理装置およびプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120816

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120831

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130419

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130510

R151 Written notification of patent or utility model registration

Ref document number: 5271330

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350