JP2010197858A - 音声対話システム - Google Patents

音声対話システム Download PDF

Info

Publication number
JP2010197858A
JP2010197858A JP2009044460A JP2009044460A JP2010197858A JP 2010197858 A JP2010197858 A JP 2010197858A JP 2009044460 A JP2009044460 A JP 2009044460A JP 2009044460 A JP2009044460 A JP 2009044460A JP 2010197858 A JP2010197858 A JP 2010197858A
Authority
JP
Japan
Prior art keywords
voice
dialogue
sentence
dictionary
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009044460A
Other languages
English (en)
Inventor
Yuzo Takahashi
優三 高橋
Takashi Kato
隆 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Urimina
URIMINA KK
Gifu University NUC
Original Assignee
Urimina
URIMINA KK
Gifu University NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Urimina, URIMINA KK, Gifu University NUC filed Critical Urimina
Priority to JP2009044460A priority Critical patent/JP2010197858A/ja
Publication of JP2010197858A publication Critical patent/JP2010197858A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】話者側からの聞返し及び確認に係る音声を認識し、これに基づいた回答や処理を実行することが可能な音声対話システムを提供することを課題とする。
【解決手段】音声対話システムの対話コンピュータ2は、音声情報9を音声情報取得手段10と、共通聞返辞書12b及び個別聞返辞書12cを有する対話語彙辞書12aを記憶する辞書記憶手段13と、対話語彙辞書12aに基づいて対話文3を生成する対話文生成手段15と、対話文3を音声出力する対話文出力手段16と、話者が発する聞返音声を検出し、聞返情報15として取得する聞返情報取得手段18と、共通聞返辞書12b及び個別聞返辞書12cに基づいて、応答する応答文22を生成する応答文生成手段23と、応答文22を音声出力する応答文出力手段24とを具備する。
【選択図】図2

Description

本発明は、音声対話システムに関するものであり、特に、通常の会話の中で頻繁に行われる会話内容の確認のための所謂「聞返し」に係る音声を認識し、これに基づいてスムーズな対話を成立させることが可能な音声対話システムに関するものである。
従来から、話者が発声する音声をマイク等の音声入力手段によって受付け、これを音声情報として取得し、さらに当該音声情報を解析することにより音声を認識する音声認識技術の開発が進められている。係る技術によって、キーボードやマウス等の操作入力機器を利用することなく、音声入力のみでコンピュータ等を操作することが可能となり、コンピュータの操作に不慣れな高齢者や手肢の動きが制限される要介護者であっても、コンピュータ等の操作が容易に行えるようになる。また、カーナビゲーションシステム等に音声入力及び音声認識技術を採用することにより、運転者がハンドルから手を離すことなく、目的地の設定や案内の開始を音声によって実行することが可能となり、安全性を高めることができる。このように、音声入力及び音声認識に係る技術は、幅広い分野で使用され、さらに新たな技術分野での使用が期待されている。
ここで、音声認識に係る技術において、話者の発声した音声を正確に認識できない場合、システム等の誤動作やエラーに繋がるおそれがある。そのため、音声入力の際の認識率(判別率)が実用化の点で特に重要となる。そこで、音声認識の過程において、話者の音声を認識する際に、適切な聞返し処理を行うことにより、誤認識を抑制することができる音声認識装置が開発されている(特許文献1参照)。これによると、音声入力によって特定された文章に含まれる語彙の確信度に応じて、話者に対する聞返しの要否を判定し、聞返しが必要と判断された場合に話者に対して聞返しの問い掛けを行うものである。これにより、認識の確信度が低い語彙について再確認を装置側が問い掛けることにより、当該語彙についての確信度を向上させることができ、最終定に高い認識率を維持した状態で音声認識を行うことが可能な音声認識装置を構築することができる。
しかしながら、上記に示した音声認識装置の場合、下記に掲げるような問題点を生じる可能性があった。すなわち、従来技術において、聞返しの要否を判断し、問い掛けを行う主体は、あくまでも音声認識装置側に限定され、カーナビゲーション等の音声入力時の認識率を向上させることを主たる目的とするものであった。そのため、聞返しに応答する対象も人間である話者に限定されていた。
一方、音声認識技術を利用し、医学生等の訓練者が問診技術に係る訓練を実施可能な問診シミュレータ等の教育訓練装置の開発も進められている。この場合、訓練者から問診シミュレータに対して質問、若しくは質問に対する回答に対し、さらに行う再質問(次質問)が音声によって行われることがある。このとき、問診シミュレータからは、音声に係る質問に対し、音声または画面上に表示された文字情報として質問に対する回答が出力されていた。このとき、訓練生が問診シミュレータからの回答に係る音声出力を聞き逃す場合、或いは周囲の雑音やノイズによって一部の回答内容しか聞き取れなかった場合がある。しかしながら、従来型の問診シミュレータの場合、訓練生が回答に係る音声出力に対し、再出力を求めたり、音声出力された回答の内容の認識が正しいのか否かについての確認を行うことができなかった。すなわち、話者(訓練者)側からの内容確認や再出力の要求等の所謂「聞返し」を行う処理ができない場合があった。その結果、音声認識技術に基づいて行われる訓練者と問診シミュレータ等との間で交わされる対話がスムーズに実施されることができず、問診シミュレータとしての十分な効果が得られないことがあった。さらに、聞返しによる確認ができないため、誤った認識の内容で話者がさらに発言をすすめるため、音声対話システムにおける話者の音声の認識率が著しく低下するおそれがあった。
そこで、本発明は、上記実情に鑑み、話者側からの聞返しを可能とし、当該聞返しに基づいた音声出力処理をコンピュータが実行することが可能な音声対話システムの提供を課題とするものである。
上記の課題を解決するため、本発明の音声対話システムは、「話者の音声を検出し、音声情報として取得する音声情報取得手段と、前記音声情報に基づいて前記音声の内容を認識するための音声認識辞書、及び認識された前記音声に対応し、前記話者と対話するための語彙を含んで予め構築された対話辞書を記憶する辞書記憶手段と、取得した前記音声情報及び前記音声認識辞書に基づいて前記音声の内容を認識する音声認識手段と、認識された前記音声に対し、前記話者と対話するための対話文を前記対話辞書を利用して生成する対話文生成手段と、生成された前記対話文を前記話者に対して出力する対話文出力手段と、出力された前記対話文を認識した前記話者が発する音声による聞返し、前記対話文の内容に関する確認、及び前記対話文に関する要求を含む聞返音声を検出し、聞返情報として取得する聞返情報取得手段と、前記聞返情報に基づいて前記聞返音声の内容を認識するための聞返音声認識辞書を記憶する聞返辞書記憶手段と、取得した前記聞返情報及び前記聞返音声認識辞書に基づいて前記聞返音声の内容を認識する聞返音声認識手段と、認識された前記聞返音声に対する応答文を前記対話辞書を利用して生成する応答文生成手段と、生成された前記応答文を前記話者に対して出力する応答文出力手段と」を具備して主に構成されている。
ここで、音声情報取得手段、音声認識辞書等の辞書記憶手段、及び音声認識手段は、周知の音声認識技術を利用することができる。また、聞返情報取得手段とは、音声認識処理に基づいて話者に対して音声または文字情報として出力した対話文に対する確認や要求等を含む聞返音声を検出し、聞返情報として取得するものである。すなわち、通常の会話においても、聞き逃しや聞き漏らし等が発声し、発声者に対して再度発声してくれるように頼むことや、内容の確認を行うことがある。つまり、“・・・ですね?”、“・・・と同じ意味ですね?”、或いは、“もう一度仰ってください”等の確認及び要求を含む聞返しの音声が相当する。この話者の聞返しの発言(音声)を聞返情報として取得し、これを認識することが行われる。なお、対話文に対して聞返音声以外の音声が発せられた場合には、通常の音声情報として取得され、新たな対話文の生成及び出力処理が行われる。
聞返情報を取得し、これを認識した後、対話辞書に基づいて応答文が生成され、出力される。ここで、応答文は、聞返音声に対応する内容を含み、例えば、聞返音声が“もう一度仰ってください”であれば、先に音声出力をした対話文を再び出力できるような処理を行う。ここで、話者の音声に対する対話文及び聞返音声に対する応答文の出力は、話者がその内容を視覚又は聴覚を通じて認識することができるもので足り、例えば、スピーカー等の音声出力機器を介して音声出力するものであっても、或いは液晶ディスプレイ等を利用して文字情報として出力するもののいずれであっても構わない。
したがって、本発明の音声対話システムによれば、音声若しくは文字等による対話文の出力に対し、話者が何らかの確認や要求等を含む聞返音声を発声した場合、これを認識し、その内容に応じた応答文を音声若しくは文字等によって出力することが可能となる。その結果、話者及び音声対話システムの間で交わされる対話において、通常の会話の中で頻繁に行われる聞返しを認識し、これに対する応答をすることができる。対話中の誤認識の可能性が低くなり、スムーズな対話が可能となる。特に、音声を発する話者(人間)側からの聞返しに対し、システム側が対応することが可能となり、シミュレータ等の音声認識機器を構築する上で有用な効果を得ることができる。
さらに、本発明の音声対話システムは、上記構成に加え、「前記対話辞書は、前記話者との全ての対話において共通的に想定され、前記対話文の再出力要求、前記対話文の出力音量の調整、前記対話文の出力速度の調整を含む音声を前記聞返音声として認識可能な複数の語彙が予め記憶された共通聞返辞書を含んで構築され、前記応答文作成手段は、前記共通聞返辞書を利用し、前記対話文の再出力、前記対話文の出力音量の増減、前記対話文の出力速度の加減を含んだ前記応答文を生成する共通応答生成手段」を具備するものであっても構わない。
したがって、本発明の音声対話システムによれば、対話辞書は、各々の対話で共通に想定される語彙を予め記憶した共通聞返辞書を含んでいる。すなわち、音声出力された対話文の再出力(例えば、“もう一度仰って下さい”、“えっ?”、“はぁ?”等)の音声、“もっと大きな声で”或いは“もっとゆっくり話して”等の話者からの確認や要求は、一般の会話の中であっても頻繁に使用され、いずれの対話においても発生する頻度が極めて高いことが予想される。そのため、これらの聞返音声を、特に共通聞返辞書に予め記憶しておくことにより、話者から対話文に対して発せられたこれらの言葉を容易に認識することができ、これに対する応答文の生成及び出力を容易に行うことができる。
さらに、本発明の音声対話システムは、上記構成に加え、「前記対話辞書は、前記話者とのそれぞれ個別の対話において想定され、前記対話文を全く同一に繰り返すオウム返し音声、前記対話文を同意の語彙に置換し、前記対話文の内容の確認を行う置換確認音声、及び前記対話文に関連する単語を含み、前記対話文の内容の確認を行う関連単語音声を前記聞返音声として認識可能な複数の語彙が予め記憶された個別聞返辞書を含んで構築され、前記応答文生成手段は、前記個別聞返辞書を利用し、前記オウム返し音声に対する応答、前記置換確認音声に対する認否、及び前記関連単語音声に対する認否を含む前記応答分を生成する個別応答生成手段を」具備するものであっても構わない。
したがって、本発明の音声対話システムによれば、対話辞書は、各対話毎に個別に想定される語彙を予め記憶した個別聞返辞書を含んで構成されている。すなわち、通常の会話の中で一方が発した音声を、他方がそのまま繰返して発する所謂「オウム返し」の音声や、対話文の内容を認識した上で確認するための同意の語彙に言替えたり、関連する単語による音声を含む聞返音声が出力されることが予想される。係る聞返音声は、各対話毎に特有の内容を含むものであり、先に示した共通聞返辞書と区別して構築することが行われる。そのため、それぞれの対話毎に個別聞返辞書のみを変更し、共通聞返辞書をそのまま残す構成の対話辞書を構築することも可能である。
さらに、本発明の音声対話システムは、上記構成に加え、「前記対話文出力手段及び前記応答文出力手段は、前記対話文及び前記応答文の少なくとも一方が音声によって出力される」ものであっても構わない。
したがって、本発明の音声対話システムによれば、話者による音声及び聞返音声の発声、及び音声対話システム側からの対話文または応答文のいずれもを音声によって行うことが可能となり、両者の間の対話をスムーズに行うことができる。
本発明の効果として、通常の会話の中で頻繁に交わされる所謂「聞返し」に対応した音声認識処理に係るシステムを構築することができる。これにより、聞返しによる音声の誤認識を解消し、安定した対話を音声対話システムとの間で実施することができる。
本実施形態の音声対話システムの概略構成を示す説明図である。 音声対話システムにおける対話コンピュータの機能的構成を示すブロック図である。 対話コンピュータの処理の流れを示すフローチャートである。 対話コンピュータの処理の流れを示すフローチャートである。
以下、本発明の一実施形態である対話システム1(以下、単に「対話システム1」と称す)について、図1乃至図4に基づいて説明する。ここで、図1は本実施形態の対話システム1の概略構成を示す説明図であり、図2は対話システム1における対話コンピュータ2の機能的構成を示すブロック図であり、図3及び図4は対話コンピュータ2の処理の流れを示すフローチャートである。
本実施形態の対話システム1は、図1乃至図4に示すように、音声認識装置として機能する対話コンピュータ2によって主に構成されている。ここで、対話コンピュータ2は、図1及び図2に特に示すように、市販のパーソナルコンピュータを利用して構成され、話者Sが発する音声V及び対話コンピュータ2からの音声V及び対話コンピュータから出力される音声Vに対応する対話文3についての確認及び聞返し等を行う聞返音声V’を取得するマイク等の音声入力機器4と、各種データの入力及び操作を行うためのキーボード等の操作入力機器5と、各種データ等を表示する液晶ディスプレイ6と、対話文3を出力するためのスピーカ等の音声出力機器7とがそれぞれコンピュータ本体8に接続されて主に構成されている。
また、コンピュータ本体8の内部には、接続された各機器4,5,6,7等との信号を送受するためのインターフェイスや制御機構、インターネット等のネットワーク環境への接続を可能とする通信機能、及び対話型対話システム1として機能させるための音声対話システム用ソフトウェア(図示しない)を内蔵するハードディスク等の記憶手段27、音声対話システム用ソフトウェアに基づいて各種処理を行うためのCPUを含む演算処理部等を含んで構成されている。これらのパーソナルコンピュータの構成及び機能については、既に周知のものであるため、ここでは説明を省略する。
ここで、対話コンピュータ2は、その機能的構成として、図2に示すように、話者Sから対話コンピュータ2に対して発せられる音声Vを音声入力機器4を介して検出し、音声情報9として取得する音声情報取得手段10と、取得した音声情報9に基づいて音声Vの内容を認識するための音声認識辞書11、認識された音声Vに対応し、話者Sと対話するための語彙を含んで予め構築された対話語彙辞書12a、対話文3に対する話者Sによる聞返音声V’を認識するための共通聞返辞書12b及び個別聞返辞書12cを有する対話辞書12をそれぞれ記憶する辞書記憶手段13と、取得した音声情報9及び記憶された音声認識辞書11に基づいて音声Vの内容を認識する音声認識手段14と、認識された音声Vに対し、話者Sと対話するための対話文3を対話辞書12に含まれる対話語彙辞書12aを利用して生成する対話文生成手段15と、生成された対話文3を話者Sに対し、スピーカー等の音声出力機器7を介して音声によって出力する対話文出力手段16と、音声出力された対話文3の内容について話者Sが応え、発声する内容確認等のための聞返音声V’を検出し、聞返情報17として取得する聞返情報取得手段18と、取得した聞返情報17及び聞返音声認識辞書19に基づいて聞返音声V’の内容を認識する聞返音声認識手段21と、認識された聞返音声V’に対する応答文22を対話辞書12を利用して生成する応答文生成手段23と、生成された応答文22を話者に対して音声出力機器7を介して出力する応答文出力手段24とを主に具備している。また、辞書記憶手段13には、聞返情報17に基づいて聞返音声V’の内容を認識するための聞返音声認識辞書19が記憶されている。
さらに、本実施形態の対話システム1は、その他の機能的構成として、応答文生成手段23の中に、辞書記憶手段13に記憶された共通聞返辞書12bに基づいて、個々の対話文3に共通する聞返音声V’に係る応答文22を生成する共通応答生成手段25と、辞書記憶手段13に記憶された個別聞返辞書12cに基づいて、個々の対話文3に特有の聞返音声V’に係る応答文22を生成する個別応答生成手段26とを含んで構成されている。また、辞書記憶手段13を包含し、音声情報9等の各種情報を記憶するための記憶手段27を有している。
ここで、聞返音声V’に応答するための共通聞返辞書12b及び個別聞返辞書12cについて、さらに詳細に説明する。共通聞返辞書12bには、話者Sとの対話において共通して想定される聞返しに係る音声を認識するための語彙が含まれている。例えば、対話文3に対し、“もう一度話して下さい”、“聞こえませんでした”等の対話文3の音声出力を再び対話コンピュータ2に対して要求するような音声(再出力要求音声)、或いは“もっと大きな声で言ってください”、“もっと小さな声で言ってください”等の音声出力の音量の増減の調整を要求する音声(出力音量の調整要求音声)、“もっとゆっくり言ってください”等の対話文3の再生速度の調整を要求する音声(再生速度の調整要求音声)を含む聞返音声を認識するための語彙が含まれている。これにより、対話コンピュータ2によって出力された対話文3を話者Sが聞き逃したり、一部を聞き漏らした場合であっても、対話コンピュータ2に対して聞返しを行い、話者Sが対話内容を誤認識することを防ぐことが可能となる。
一方、個別聞返辞書12cは、それぞれの対話において想定される特有の聞返に係る音声を認識するための語彙が含まれている。例えば、対話文3に対し、対話文3をそのまま繰り返す、所謂「オウム返し」の聞返音声V’を認識するもの、対話文3を同意の語彙で言換えまたは置換した言換音声、対話文に関連する単語を使用して確認した関連音声を含む聞返音声を認識するためのものである。すなわち、個別聞返辞書12cは、主に対話文3の内容についての確認を対話コンピュータ2に対して行うものを認識するためのものである。
次に、本実施形態の対話システム1における音声対話の処理の一例について、図3及び図4に基づいて説明する。初めに、話者Sは対話システム1の音声入力機器4に対して音声Vを発声する。これに対し、対話システム1の対話コンピュータ2は、話者Sの発した音声Vを音声入力機器4を介して検出する(ステップS1)。ここで、音声Vが検出される場合(ステップS1においてYES)、これを音声情報9として取得する(ステップS2)。一方、音声Vの検出がされない場合(ステップS1においてNO)、音声Vが検出されるまでステップS1の処理を継続する。そして、対話システム1は、取得した音声情報9の内容を音声認識辞書11を利用して認識する(ステップS3)。ここで、係る認識は周知の音声認識技術を応用することによって達せられる。なお、音声認識辞書11には、予め話者Sが発すると想定される複数の語彙が登録され、取得された音声情報9に含まれる語彙と、当該音声認識辞書11に登録された語彙とを照合することにより、音声認識をすることが可能となっている。
これにより、対話システム1は、話者Sの発した音声Vの内容を認識することができる。そして、係る音声Vに対応し、話者Sと対話システム1との間で対話を成立させるための対話文3が生成される(ステップS4)。ここで、対話文3を生成するために、対話辞書12に含まれる対話語彙辞書12aが利用される。対話語彙辞書12aには、認識された音声Vに含まれる語彙と関連づけられた語彙が予め登録され、当該語彙を抽出し、文章化して作成することにより対話文3が生成される。係る対話文3の作成処理については、周知の音声認識技術及び文章作成技術を応用することができる。そして、電子データとして生成された対話文3が音声出力機器7(スピーカー等)を介して話者Sに対して音声出力される(ステップS5)。なお、音声認識による音声情報9及び作成した対話文3に係る電子データを記憶手段27に記憶することができる。
その後、対話システム1は、音声出力された対話文3に対し、話者Sから発せられる音声Vを検出する(ステップS6)。ここで、音声Vが検出される場合(ステップS6においてYES)、当該音声Vが対話文3に対する確認や要求等を含む聞返音声V’であるか否かを判定する(ステップS7)。すなわち、話者Sから発せられた音声が聞返音声V’に相当する場合(ステップS7においてYES)、これを聞返情報17として取得する(ステップS8)。一方、話者Sから発せられた音声が聞返音声V’でない場合(ステップS7においてNO)、、換言すれば通常の音声Vとして認識される場合、ステップS2の処理に移行し、通常の音声Vによる音声情報9として取得され、ステップS2からステップS6に係る処理が繰り返される。すなわち、本実施形態の場合、対話文3の出力に対して必ずしも聞返音声V’が話者Sから発せるものではなく、通常の音声Vが発せられる可能性もある。そこで、聞返音声V’の判定を行うことにより、通常の音声Vによる対話が可能となる。なお、通常の音声Vか聞返音声V’かの判定は、辞書記憶手段13に記憶された音声認識辞書11または対話辞書12に含まれる語彙によって行われる。このとき、それぞれの音声V(聞返音声V’)の内容について認識処理は未だ実施されていない。
ここで、聞返情報17を取得した場合(ステップS8)、取得した聞返情報17の内容を認識し、辞書記憶手段13の対話辞書12における共通聞返辞書12bまたは個別聞返辞書12cのいずれかに対応したものであるかの判定を行う(ステップS9)。ここで、聞返情報17が共通聞返辞書12bの内容に対応するものである場合(ステップ9においてYES)、共通聞返辞書12bを利用して聞返情報17の内容を認識する(ステップS10)。共通聞返辞書12bは、前述したように、話者Sとのそれぞれの対話において、共通化された確認のための問い掛けや、再出力等の要求を含む語彙が予め登録されている。そして、一方、聞返情報17が対話についての個別の内容に基づくもので有る場合(ステップS9においてNO)、換言すれば、共通聞返辞書12bによる認識がされない場合、個別聞返辞書12cを利用して聞返情報17の内容を認識する(ステップS11)。なお、聞返音声V’に対する音声認識は、周知の音声認識技術を利用することができる。
その後、それぞれの辞書12b,12cによって認識された聞返音声V’の内容に基づいて応答文22を生成し(ステップS12)、これを話者Sに対して音声出力機器7を介して音声によって出力する(ステップS13)。その後、係る応答文22に対する話者Sから発せられる音声Vを検出する(ステップS14)。ここで、音声Vを検出する場合(ステップS14においてYES)、ステップS7の処理に移行し、当該音声Vが再び聞返音声V’であるか、或いは応答文18との対話に係る対話文3かを判定処理し、上記の対話処理を繰り返す。一方、応答文18に対する音声Vが検出されない場合(ステップS14においてNO)、システム終了の指示の有無を検出する(ステップS15)。これにより、音声Vまたは聞返音声V’による対話システム1と話者Sとの間の対話が成立することとなる。
一方、ステップS6において応答文22に対する話者Sからの音声Vの検出がない場合(ステップS6においてNO)、ステップS7からステップS14の処理をキャンセルし、上記と同様にシステム終了の指示の有無を検出する(ステップS15)。そして、システム終了の指示が有る場合(ステップS15においてYES)、システムを終了する(ステップS16)。一方、システム終了の指示がない場合(ステップS15においてNO)、ステップS1の処理に戻り、新たに話者Sによって音声Vが発せられるのを待機する。
これにより、話者Sと対話システム1との間で行われる対話において、話者Sが聞き逃したり、聞き漏らした対話文3について、聞返音声V’を発することにより、当該聞返音声V’に相当する応答文22を出力することが可能となる。これにより、話者Sと対話システム1との間の対話を確実に行うことができる。すなわち、従来の対話形式の音声認識システムでは、聞返しや確認に係る音声を単純に認識するのみであり、これに対する対応を音声認識システムはとることが困難であった。これに対し、例えば、本実施形態の対話システム1を音声認識システムの一部機能として採用した場合、上述の聞返音声V’の認識及びこれに対応する応答文22の出力に係る処理は、通常の音声認識に係る処理と区別することができる。その結果、音声認識によって最終的に出力される認識結果の認識率が向上し、誤認識の少ない安定した文章を出力することが可能となる。
以上、本発明について好適な実施形態を挙げて説明したが、本発明はこれらの実施形態に限定されるものではなく、以下に示すように、本発明の要旨を逸脱しない範囲において、種々の改良及び設計の変更が可能である。
すなわち、本実施形態の対話システム1において、共通聞返辞書12b及び個別聞返辞書12cの双方を有する対話辞書11を具備するものを示したがこれに限定されるものではなく、想定される語彙が限定されるものである場合には、これらの辞書を統合した聞返辞書を構築するものであっても構わない。さらに、必要に応じて対話語彙辞書12aとも統合し、一つの辞書として構築するものであっても構わない。
さらに、本実施形態の対話システム1において、対話文3の出力及び応答文22の出力を音声出力機器7を介して音声によって出力するものを示したが、これに限定されるものではない。すなわち、対話システム1の対話コンピュータ2からのこれらの出力は、話者Sが視覚または聴覚等を通じて認識可能であるものでよく、音声による以外の方法、例えば、液晶ディスプレイ6に表示して出力するものであっても構わない。さらに、音声及び表示の双方で行うものであっても構わない。
1 対話システム(音声対話システム)
2 対話コンピュータ
3 対話文
4 音声入力機器
7 音声出力機器
9 音声情報
10 音声情報取得手段
11 音声認識辞書
12 対話辞書
12a 対話語彙辞書
12b 共通聞返辞書
12c 個別聞返辞書
13 辞書記憶手段
14 音声認識手段
15 対話文生成手段
16 対話文出力手段
17 聞返情報
18 聞返情報取得手段
21 聞返音声認識手段
22 応答文
23 応答文生成手段
24 応答文出力手段
25 共通応答生成手段
26 個別応答生成手段
S 話者
V 音声
V’ 聞返音声
特開2008ー52178号公報

Claims (4)

  1. 話者の音声を検出し、音声情報として取得する音声情報取得手段と、
    前記音声情報に基づいて前記音声の内容を認識するための音声認識辞書、及び認識された前記音声に対応し、前記話者と対話するための語彙を含んで予め構築された対話辞書を記憶する辞書記憶手段と、
    取得した前記音声情報及び前記音声認識辞書に基づいて前記音声の内容を認識する音声認識手段と、
    認識された前記音声に対し、前記話者と対話するための対話文を前記対話辞書を利用して生成する対話文生成手段と、
    生成された前記対話文を前記話者に対して出力する対話文出力手段と、
    出力された前記対話文を認識した前記話者が発する音声による聞返し、前記対話文の内容に関する確認、及び前記対話文に関する要求を含む聞返音声を検出し、聞返情報として取得する聞返情報取得手段と、
    前記聞返情報に基づいて前記聞返音声の内容を認識するための聞返音声認識辞書を記憶する聞返辞書記憶手段と、
    取得した前記聞返情報及び前記聞返音声認識辞書に基づいて前記聞返音声の内容を認識する聞返音声認識手段と、
    認識された前記聞返音声に対する応答文を前記対話辞書を利用して生成する応答文生成手段と、
    生成された前記応答文を前記話者に対して出力する応答文出力手段と
    を具備することを特徴とする聞返対話システム。
  2. 前記対話辞書は、
    前記話者との全ての対話において共通的に想定され、前記対話文の再出力要求、前記対話文の出力音量の調整、前記対話文の出力速度の調整を含む音声を前記聞返音声として認識可能な複数の語彙が予め記憶された共通聞返辞書を含んで構築され、
    前記応答文作成手段は、
    前記共通聞返辞書を利用し、前記対話文の再出力、前記対話文の出力音量の増減、前記対話文の出力速度の加減を含んだ前記応答文を生成する共通応答生成手段をさらに具備することを特徴とする請求項1に記載の聞返対話システム。
  3. 前記対話辞書は、
    前記話者とのそれぞれ個別の対話において想定され、前記対話文を全く同一に繰り返すオウム返し音声、前記対話文を同意の語彙に置換し、前記対話文の内容の確認を行う置換確認音声、及び前記対話文に関連する単語を含み、前記対話文の内容の確認を行う関連単語音声を前記聞返音声として認識可能な複数の語彙が予め記憶された個別聞返辞書を含んで構築され、
    前記応答文生成手段は、
    前記個別聞返辞書を利用し、前記オウム返し音声に対する応答、前記置換確認音声に対する認否、及び前記関連単語音声に対する認否を含む前記応答分を生成する個別応答生成手段をさらに具備することを特徴とする請求項1に記載の聞返対話システム。
  4. 前記対話文出力手段及び前記応答文出力手段は、
    前記対話文及び前記応答文の少なくとも一方が音声によって出力されることを特徴とする請求項1乃至請求項3のいずれか一つに記載の聞返対話システム。

JP2009044460A 2009-02-26 2009-02-26 音声対話システム Pending JP2010197858A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009044460A JP2010197858A (ja) 2009-02-26 2009-02-26 音声対話システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009044460A JP2010197858A (ja) 2009-02-26 2009-02-26 音声対話システム

Publications (1)

Publication Number Publication Date
JP2010197858A true JP2010197858A (ja) 2010-09-09

Family

ID=42822616

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009044460A Pending JP2010197858A (ja) 2009-02-26 2009-02-26 音声対話システム

Country Status (1)

Country Link
JP (1) JP2010197858A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016042815A1 (en) * 2014-09-18 2016-03-24 Kabushiki Kaisha Toshiba Speech interaction apparatus and method
JP2019505011A (ja) * 2015-12-07 2019-02-21 エスアールアイ インターナショナルSRI International 統合化された物体認識および顔表情認識を伴うvpa
WO2020121638A1 (ja) * 2018-12-13 2020-06-18 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
US11270691B2 (en) 2018-05-31 2022-03-08 Toyota Jidosha Kabushiki Kaisha Voice interaction system, its processing method, and program therefor
JP7032681B1 (ja) 2020-12-10 2022-03-09 富士通クライアントコンピューティング株式会社 情報処理装置及びプログラム

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6240577A (ja) * 1985-08-16 1987-02-21 Toshiba Corp 音声対話装置
JPH07219961A (ja) * 1994-01-31 1995-08-18 Hitachi Ltd 音声対話システム
JPH08146991A (ja) * 1994-11-17 1996-06-07 Canon Inc 情報処理装置及びその制御方法
US5694558A (en) * 1994-04-22 1997-12-02 U S West Technologies, Inc. Method and system for interactive object-oriented dialogue management
US5748841A (en) * 1994-02-25 1998-05-05 Morin; Philippe Supervised contextual language acquisition system
JPH10326176A (ja) * 1997-05-23 1998-12-08 Oki Hokuriku Syst Kaihatsu:Kk 音声対話制御方法
US5999904A (en) * 1997-07-02 1999-12-07 Lucent Technologies Inc. Tracking initiative in collaborative dialogue interactions
JP2001188787A (ja) * 1999-12-28 2001-07-10 Sony Corp 会話処理装置および方法、並びに記録媒体
JP2003330487A (ja) * 2002-05-09 2003-11-19 Nec Corp 対話エージェント
JP2007188510A (ja) * 2007-01-24 2007-07-26 P To Pa:Kk 会話制御システム、会話制御方法、プログラム及びプログラムを記録した記録媒体

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6240577A (ja) * 1985-08-16 1987-02-21 Toshiba Corp 音声対話装置
JPH07219961A (ja) * 1994-01-31 1995-08-18 Hitachi Ltd 音声対話システム
US5748841A (en) * 1994-02-25 1998-05-05 Morin; Philippe Supervised contextual language acquisition system
US5694558A (en) * 1994-04-22 1997-12-02 U S West Technologies, Inc. Method and system for interactive object-oriented dialogue management
JPH08146991A (ja) * 1994-11-17 1996-06-07 Canon Inc 情報処理装置及びその制御方法
JPH10326176A (ja) * 1997-05-23 1998-12-08 Oki Hokuriku Syst Kaihatsu:Kk 音声対話制御方法
US5999904A (en) * 1997-07-02 1999-12-07 Lucent Technologies Inc. Tracking initiative in collaborative dialogue interactions
JP2001188787A (ja) * 1999-12-28 2001-07-10 Sony Corp 会話処理装置および方法、並びに記録媒体
JP2003330487A (ja) * 2002-05-09 2003-11-19 Nec Corp 対話エージェント
JP2007188510A (ja) * 2007-01-24 2007-07-26 P To Pa:Kk 会話制御システム、会話制御方法、プログラム及びプログラムを記録した記録媒体

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
家守正人他: ""自然言語対話処理のための聞き返し発話生成手法"", 言語処理学会第8回年次大会発表論文集, JPN6013030934, March 2002 (2002-03-01), pages 264 - 266, ISSN: 0002565758 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016042815A1 (en) * 2014-09-18 2016-03-24 Kabushiki Kaisha Toshiba Speech interaction apparatus and method
JP2019505011A (ja) * 2015-12-07 2019-02-21 エスアールアイ インターナショナルSRI International 統合化された物体認識および顔表情認識を伴うvpa
JP7022062B2 (ja) 2015-12-07 2022-02-17 エスアールアイ インターナショナル 統合化された物体認識および顔表情認識を伴うvpa
US11270691B2 (en) 2018-05-31 2022-03-08 Toyota Jidosha Kabushiki Kaisha Voice interaction system, its processing method, and program therefor
WO2020121638A1 (ja) * 2018-12-13 2020-06-18 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
US12002460B2 (en) 2018-12-13 2024-06-04 Sony Group Corporation Information processing device, information processing system, and information processing method, and program
JP7032681B1 (ja) 2020-12-10 2022-03-09 富士通クライアントコンピューティング株式会社 情報処理装置及びプログラム
JP2022092529A (ja) * 2020-12-10 2022-06-22 富士通クライアントコンピューティング株式会社 情報処理装置及びプログラム

Similar Documents

Publication Publication Date Title
US20210104238A1 (en) Voice enablement and disablement of speech processing functionality
US11145222B2 (en) Language learning system, language learning support server, and computer program product
US6996528B2 (en) Method for efficient, safe and reliable data entry by voice under adverse conditions
US20020123894A1 (en) Processing speech recognition errors in an embedded speech recognition system
Alonso-Martín et al. Integration of a voice recognition system in a social robot
KR20210114518A (ko) 종단간 음성 변환
KR20220124295A (ko) 제작자 제공 콘텐츠 기반 인터랙티브 대화 애플리케이션 테일링
JP7557085B2 (ja) 対話中のテキスト-音声の瞬時学習
JP2005331882A (ja) 音声認識装置、音声認識方法、および音声認識プログラム
WO2019031268A1 (ja) 情報処理装置、及び情報処理方法
WO2011033834A1 (ja) 音声翻訳システム、音声翻訳方法および記録媒体
US20150254238A1 (en) System and Methods for Maintaining Speech-To-Speech Translation in the Field
JP2010197858A (ja) 音声対話システム
CN111902831B (zh) 演示支援系统
KR20230020508A (ko) 텍스트 에코 제거
Sirikongtham et al. Improving speech recognition using dynamic multi-pipeline API
JP5818753B2 (ja) 音声対話システム及び音声対話方法
Ward et al. Hands-free documentation
JP2010197859A (ja) 発話差音声認識システム
Garg et al. Automation and presentation of word document using speech recognition
JP2004021028A (ja) 音声対話装置及び音声対話プログラム
US12125477B2 (en) Hot-word free pre-emption of automated assistant response presentation
US20230395066A1 (en) Hot-word free pre-emption of automated assistant response presentation
JP7274376B2 (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
US20240220738A1 (en) Increasing Comprehension Through Playback of Translated Speech

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20120220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130206

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130619

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130702

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130822

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20131029