JP2018054790A - 音声対話システムおよび音声対話方法 - Google Patents
音声対話システムおよび音声対話方法 Download PDFInfo
- Publication number
- JP2018054790A JP2018054790A JP2016189382A JP2016189382A JP2018054790A JP 2018054790 A JP2018054790 A JP 2018054790A JP 2016189382 A JP2016189382 A JP 2016189382A JP 2016189382 A JP2016189382 A JP 2016189382A JP 2018054790 A JP2018054790 A JP 2018054790A
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- response
- dialogue
- user
- scenario
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 26
- 238000000034 method Methods 0.000 title claims description 13
- 230000004044 response Effects 0.000 claims abstract description 84
- 230000002452 interceptive effect Effects 0.000 abstract description 7
- 230000008569 process Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000008451 emotion Effects 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 206010025482 malaise Diseases 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】音声対話システムにおいて、ユーザの発話が短単語であった場合でも意味をくみ取って応答を返す。【解決手段】音声対話システムは、複数の対話シナリオを格納した対話シナリオ記憶手段と、音声認識の結果に基づいてユーザ発話に応答する対話文を生成する対話文生成手段と、を備える。対話シナリオは、第1のシステム発話の内容と、当該第1のシステム発話に対する応答として期待するユーザ発話の内容と、期待するユーザ発話に対する応答である第2のシステム発話の内容との3つが1組となったものである。対話文生成手段は、前記ユーザ発話が1つ前のシステム発話の応答として期待されるものであるかを判断し、そうである場合には、当該当該ユーザ発話に対する応答として対話シナリオに定義されている第2のシステム発話を、前記ユーザ発話に応答する対話文として生成する。【選択図】図5
Description
本発明は、音声対話システムに関する。
音声対話システムでは、ユーザとのあいだで自然な流れの対話を行えることが望まれる。
特許文献1では、ユーザ発話の意図を解釈し、情報の検索を要求するものであるか否かを判断する。この判断は、文章中に所定の文字列が含まれるか否かなどによって行われる。ユーザ発話の意図が情報の検索である場合には、外部のサーチエンジンなどを利用して情報を検索して、検索結果を取得する。一方、ユーザ発話の意図が情報の検索ではない場合は、あらかじめ決められた雑談データの中から発話に応じたものを抽出する。
特許文献2では、自然言語による文書に含まれる文について、文同士、単語同士、および文と単語との対応付けを行ってその情報を会話データベースに格納する。ユーザから自然言語による質問文の入力を受け付けると、会話データベースに蓄積された文と入力された質問文の類似度を算出して、類似度が高い文を返答文として選択する。
特許文献1,2はいずれも、ユーザの発話に対する応答文を決定するものであるが、ユーザの1つの発話から応答を決定するため、適切なシステム応答を決定できない場合がある。例えば、ユーザがYESまたはNOのみの返答をした場合には、会話を続けることが困難となる。
本発明は、ユーザの発話が短単語であった場合でも意味をくみ取って応答を返すことができる音声対話システムを提供することを目的とする。
本発明の第一の態様は、
ユーザ発話の音声認識の結果を取得する音声認識手段と、
複数の対話シナリオを格納した対話シナリオ記憶手段と、
前記音声認識の結果に基づいて、前記ユーザ発話に応答する対話文を生成する対話文生成手段と、
を備え、
前記対話シナリオは、第1のシステム発話の内容と、当該第1のシステム発話に対する応答として期待するユーザ発話の内容と、期待するユーザ発話に対する応答である第2のシステム発話の内容との3つが1組となったものであり、
前記対話文生成手段は、前記ユーザ発話が1つ前のシステム発話の応答として期待されるものであるかを判断し、そうである場合には、当該当該ユーザ発話に対する応答として対話シナリオに定義されている第2のシステム発話を、前記ユーザ発話に応答する対話文として生成する、
音声対話システムである。
ユーザ発話の音声認識の結果を取得する音声認識手段と、
複数の対話シナリオを格納した対話シナリオ記憶手段と、
前記音声認識の結果に基づいて、前記ユーザ発話に応答する対話文を生成する対話文生成手段と、
を備え、
前記対話シナリオは、第1のシステム発話の内容と、当該第1のシステム発話に対する応答として期待するユーザ発話の内容と、期待するユーザ発話に対する応答である第2のシステム発話の内容との3つが1組となったものであり、
前記対話文生成手段は、前記ユーザ発話が1つ前のシステム発話の応答として期待されるものであるかを判断し、そうである場合には、当該当該ユーザ発話に対する応答として対話シナリオに定義されている第2のシステム発話を、前記ユーザ発話に応答する対話文として生成する、
音声対話システムである。
このような構成によれば、対話シナリオ(会話テンプレート)を用いているので、ユーザ発話の長短に関わらず、1つ前のシステム発話の内容も考慮した自然な応答を返すことができる。
1つの対話シナリオにおいて、第1のシステム発話に対して期待するユーザ発話を複数定義してもよい。この場合、ユーザ発話の内容に応じて第2のシステム発話の内容がそれぞれ登録される。したがって、同じシステム発話に対して、ユーザの応答に応じてシステムの第2の応答を容易に異ならせることができる。
本発明において、前記対話文生成手段は、前記ユーザ発話が1つ前のシステム発話の応答として期待されるものではない場合は、前記対話シナリオ記憶手段に格納されている複数の対話シナリオからいずれかの対話シナリオを選択して、選択された対話シナリオにおける第1のシステム発話の内容を前記ユーザ発話に応答する対話文として生成してもよい。この際、それまでの会話の話題、現在の状況(シーン)、ユーザの感情などを考慮して、対話シナリオを選択することも好ましい。このような選択を可能とするために、対話シナリオ記憶手段には、対話シナリオと関連付けて会話の話題、状況、ユーザの感情を記憶しておくとよい。
また、本発明において、対話シナリオを選択して対話文の生成および音声出力をした後にユーザ発話を取得した場合、前記ユーザ発話が1つ前のシステム発話の応答として期待されるものであるかの判断は、前記ユーザ発話が前記選択された対話シナリオにおいて期待する応答として格納されたものであるか否かに基づいて行えばよい。
また、本発明において、前記対話シナリオ記憶手段には、少なくとも一部の対話シナリオにおける第2のシステム発話の内容を第1のシステム発話の内容として有する別の対話シナリオが格納されてもよい。1つの対話シナリオに3発話よりも長い対話を定義することも考えられるが、3発話のシナリオを複数用意しこれらをつなぎ合わせて対話を行うようにすれば、対話シナリオの管理が容易となる。
なお、本発明は、上記手段の少なくとも一部を備える音声対話システムとして捉えることもできる。本発明はまた、音声対話システムを構成する音声対話装置あるいは対話サーバとして捉えることもできる。本発明は、また、上記処理の少なくとも一部を実行する音声対話方法として捉えることができる。また、本発明は、この方法をコンピュータに実行させるためのコンピュータプログラム、あるいはこのコンピュータプログラムを非一時的に記憶したコンピュータ可読記憶媒体として捉えることもできる。上記手段および処理の各々は可能な限り互いに組み合わせて本発明を構成することができる。
本発明によれば、音声対話システムにおいて、ユーザの発話が短単語であった場合でも意味をくみ取って応答を返すことが可能となる。
以下に図面を参照して、この発明の好適な実施の形態を例示的に詳しく説明する。以下で説明される実施形態は音声対話ロボットを音声対話端末として用いたシステムであるが、音声対話端末はロボットである必要はなく任意の情報処理装置や音声対話インタフェースなどを用いることができる。
<システム構成>
図1は、本実施形態に係る音声対話システム(音声対話ロボット)の構成を示す図である。本実施形態に係る音声対話ロボット100は、マイク101、センサ103、スピーカー108、およびマイクロプロセッサなどの演算装置、メモリ、通信装置などを含むコンピュータである。マイクロプロセッサがプログラムを実行することにより、音声対話ロボット100は、音声認識部102、シーン推定部104、対話文生成部105、対話シナリオ記憶部106、音声合成部107として機能する。図示はしていないが、音声対話ロボット100は、画像取得装置(カメラ)や可動関節部や移動手段などを備えていてもよい。
図1は、本実施形態に係る音声対話システム(音声対話ロボット)の構成を示す図である。本実施形態に係る音声対話ロボット100は、マイク101、センサ103、スピーカー108、およびマイクロプロセッサなどの演算装置、メモリ、通信装置などを含むコンピュータである。マイクロプロセッサがプログラムを実行することにより、音声対話ロボット100は、音声認識部102、シーン推定部104、対話文生成部105、対話シナリオ記憶部106、音声合成部107として機能する。図示はしていないが、音声対話ロボット100は、画像取得装置(カメラ)や可動関節部や移動手段などを備えていてもよい。
音声認識部102は、マイク101から入力されたユーザ発話の音声データに対して、雑音除去、音源分離、特徴量抽出などの処理を行い、ユーザ発話の内容をテキスト化する。音声認識部102は、ユーザ発話の内容から話題を推定したり、ユーザ発話の内容あるいは音声特徴量からユーザの感情を推定したりする。
シーン推定部104は、センサ103から得られるセンサ情報から現在のシーンを推定する。センサ103は周囲の情報を取得できるものであれば、どのようなものであっても良い。例えば、位置情報を取得するGPSセンサを用いて、現在のシーンが自宅滞在中なのか、職場で勤務中か、あるいは観光地に滞在中なのかなどを判断できる。これ以外にも、クロック(時刻取得)、照度センサ、降雨センサ、速度センサ、加速度センサなどをセンサ103として用いて現在のシーンを推定するようにしてもよい。
対話文生成部105は、ユーザに向けて発話するシステム発話の内容を決定する。典型的には、対話文生成部105は、ユーザ発話の内容や現在の会話の話題、ユーザの感情、現在のシーンなどに基づいて対話文を生成する。
対話文生成部105は、対話シナリオ記憶部106に記憶された会話テンプレート(対話シナリオ)を参照して対話文を決定する。会話テンプレートは、(1)システム発話、(2)システム発話の応答として期待するユーザ発話、(3)期待されるユーザ発話に応答するシステム発話、の3つが1組となったものである。対話文生成部105は、会話テンプレートにしたがって発話した後にユーザから得られた応答が、最初のシステム発話の応答として期待されるものであれば、会話テンプレートに定義されているシステム応答をユーザ発話に対する応答用の対話文として決定する。詳細は後ほど説明する。
音声合成部107は、発話内容のテキストを対話文生成部105から受け取り、音声合成を行って応答音声データを生成する。音声合成部107によって生成された応答音声データは、スピーカー108から再生される。
なお、音声対話ロボット100は、1つの装置として構成される必要はない。例えば図2に示すように、マイク101、センサ103、スピーカー108、カメラ、可動関節部などを含むロボット装置109(フロントエンド装置)と、各種の処理を実行するスマートフォン110(あるいはその他のコンピュータ)の2つの装置から構成することができる。この場合、ロボット装置とコンピュータは、Bluetooth(登録商標)などの
無線通信により接続され、ロボット装置が取得したデータはコンピュータに送られ、コンピュータによる処理結果に基づいて応答文などの再生がロボット装置から行われる。
無線通信により接続され、ロボット装置が取得したデータはコンピュータに送られ、コンピュータによる処理結果に基づいて応答文などの再生がロボット装置から行われる。
また、音声認識処理や対話文生成処理を音声対話ロボット100で行う必要は無く、図2に示すように、音声認識サーバ200や対話サーバ300においてこれらの処理を行ってもよい。またこれらの処理は1つのサーバによって行われてもよい。このように外部サーバを用いて処理を行う場合、スマートフォン110(あるいはロボット装置109)がサーバとのあいだの連携を制御する。
<対話シナリオ(会話テンプレート)>
図3(A)は、本実施形態における対話シナリオの一例を示す図である。例えば、欄301は、システムが「元気ですか?」という発話をしたときに、ユーザが「元気ですよ」と返したらシステムがさらに「それは良かった」と応答し、ユーザが「元気じゃない」と返したらシステムがさらに「あら、それは残念」と応答する対話シナリオが定義されている。
図3(A)は、本実施形態における対話シナリオの一例を示す図である。例えば、欄301は、システムが「元気ですか?」という発話をしたときに、ユーザが「元気ですよ」と返したらシステムがさらに「それは良かった」と応答し、ユーザが「元気じゃない」と返したらシステムがさらに「あら、それは残念」と応答する対話シナリオが定義されている。
欄302は、「どこに行ったの?」というシステム発話に対して、ユーザが「京都だよ」と返したらシステムがさらに「京都かぁ。清水寺行った?」と応答し、ユーザが「東京だよ」と返したらシステムがさらに「東京かぁ。東京タワー行った?」と応答する対話シナリオである。欄303は、「今日は、何食べたの?」というシステム発話に対して、ユーザが「ラーメンだよ」と返したらシステムがさらに「いいなぁ。僕も食べたい」と応答し、ユーザが「うどんだよ」と返したらシステムがさらに「そっかぁ。うどんすき?」と応答する対話シナリオである。
このような対話シナリオを個別に定義するのは手間がかかるので、本実施形態では対話シナリオは、単語または文の属性情報を用いた会話テンプレートによって表され対話シナリオ記憶部106に格納される。
図3(B)は会話テンプレートを用いた対話シナリオの例を示す。欄311は、欄301の対話シナリオに対応する会話テンプレートであり、「元気ですか?」というシステム発話に、ユーザが肯定的な応答を返したらシステムが「それは良かった」と応答し、ユーザが否定的な応答を返したらシステムが「あら、それは残念」と応答することが定義されている。ここで、<肯定>あるいは<否定>は、ユーザの応答文が全体として肯定あるいは否定を表すことを意味する属性情報である。肯定的な文には「元気です」「絶好調」「はい」「うん」などが含まれ、否定的な文には「元気じゃない」「調子悪い」「いいえ」などが含まれる。
欄312は、欄302の対話シナリオに対応する会話テンプレートである。「どこに行ったの」というシステム発話に対し、ユーザが場所や施設名に関する応答をした場合に、システムは、ユーザが発話した場所・施設名を繰り返し、さらにその場所・施設に関連する場所に行ったかどうかを質問する。関連する場所は、対話文生成部105がデータベースを参照することで取得できる。
欄313は、欄303の対話シナリオに対する会話テンプレートである。「今日は、何食べたの?」というシステム発話に対して、ユーザの好物を食べたと返した場合には、「いいなぁ。僕も食べたい」とシステムが応答し、ユーザが好きかどうかをシステムが把握していない食べ物を食べたと返した場合には、その食べ物が好きかどうかをユーザに質問する。ここで、ユーザ発話に含まれる食べ物がユーザの好物であるか否かは、ユーザ情報を格納したデータベースを参照することで判断できる。
図4は、本実施形態における対話文生成処理の流れを示すフローチャートである。ここでは、音声対話システムがユーザから発話を受けた後の応答を生成する場合の処理を説明する。
ステップS11において、対話文生成部105は音声認識部102からユーザ発話の認識結果を取得し、ユーザの発話が期待した応答であるか否かを判断する。
ユーザ発話が期待した応答である(S11−YES)というのは、音声対話システムがある対話シナリオにしたがった発話をして、この対話シナリオにおいて期待される応答として定義されている応答をユーザが返した場合が相当する。例えば、図3(B)の欄312の対話シナリオにしたがって「どこに行ったの?」と音声対話システムがユーザに問いかけた際に、ユーザが場所や施設名を答えた場合が相当する。
ユーザ発話が期待した応答である場合(S11−YES)は、ステップS12において、対話文生成部105は、対話シナリオに定義されている応答を、システム応答として決定する。上記の例では、ユーザが応答した場所や施設名に関連する場所に行ったかどうかの質問(「<場所・施設名>かあ。<関連場所>は行った?」)が、システム応答として決定される。
一方、ユーザ発話が期待した応答ではない(S11−NO)というのは上記以外が該当する。すなわち、音声対話システムがある対話シナリオにしたがったシステム発話をして、この対話シナリオにおいて期待される応答として定義されている以外の応答をユーザが返した場合が相当する。また、ユーザがシステムの発話に応答して発話したのではなく、ユーザが自発的にシステムに話しかけた場合も相当する。
ユーザ発話が期待した応答ではない場合(S11−NO)は、ステップS13において、対話文生成部105は、ユーザ発話の内容や推定シーンなどに基づいて、採用する対話シナリオを新たに選択する。ステップS14において、対話文生成部105は、選択された対話シナリオにおける発話内容を、システム応答として決定する。なお、どの対話シナリオが選択されたかは、記憶部に記憶される。
図5は本実施形態にしたがって行われるシステムとユーザのあいだの対話の例を示す。まず、ステップS21において、ユーザが「今日は旅行に行ったよ」とシステムに話しかける。ユーザのこの発話によって会話が始まり、その時点ではシステムは対話シナリオに基づく対話を開始していない。したがって、ステップS21のユーザ発話は、システムが期待する応答には該当しない(S11−NO)。
そこで、ステップS22において、対話文生成部105は、ユーザ発話の内容を考慮してその応答として適切な対話シナリオ(図3(B)の欄312)を選択し、「どこに行ったの?」という発話を行う(S13〜S14)。
これに対してユーザは、ステップS23において、「京都だよ」と答える。この応答は、対話シナリオにおいて期待される応答(<場所・施設名>)に該当する(S11−YES)。したがって、対話文生成部105は、現在の対話シナリオにおいて定義されている応答(<場所・施設名>かあ。<関連場所>は行った?)を応答とする。この際、<場所・施設名>にはユーザ発話に含まれる「京都」がそのまま代入され、<関連場所>には「京都」に関連する場所として決定される「清水寺」が代入される。そして、ステップS24において、「京都かぁ。清水寺は行った?」というシステム応答が返される(S12)。
なお、ステップS23におけるユーザ発話が「夜に帰ってきたんだ」というものであれば、これは対話シナリオにおいて期待されている応答ではない(S11−NO)。この場合、対話文生成部105は、現在の対話シナリオにおいて定義されている「<場所・施設名>かあ。<関連場所>は行った?」という応答は採用せずに、再度全ての対話シナリオ(会話テンプレート)の中から選択を行って、選択した対話シナリオに定義される発話を行う(S13〜S14)。
<本実施形態の有利な効果>
本実施形態によれば、対話シナリオに沿った対話が行われるので、システム発話に対するユーザの応答が短いものであっても、最初のシステム発話の内容を考慮した自然な応答を返すことができる。
本実施形態によれば、対話シナリオに沿った対話が行われるので、システム発話に対するユーザの応答が短いものであっても、最初のシステム発話の内容を考慮した自然な応答を返すことができる。
また、対話シナリオを3発話を1組として管理しているので、対話シナリオデータベースの生成・管理が容易であるという利点がある。
また、ある対話シナリオにおける3発話目を1発話目とする別の対話シナリオを用意しておけば、複数の対話シナリオをつなぎ合わせた長い対話が可能となる。対話文生成部105は、ある対話シナリオにおいてユーザに期待する応答が得られたときに、その対話シナリオに定義されている応答を発話文として決定すると共に、当該発話文を第1発話として定義している別の対話シナリオを選択して、この別の対話シナリオを現在利用中の対話シナリオとして記憶し直せばよい。
<変形例>
上記で説明した対話シナリオは一例に過ぎず、種々の変形を採用可能である。例えば、上記の説明では、ユーザ発話の文言(テキスト)のみを考慮して対話シナリオを定義しているが、ユーザの感情に応じてどのような応答を返すかを異ならせてもよい。例えば、「どこに行ったの?」や「何を食べたの?」という問いかけに対してユーザが同じ応答をした場合であっても、ユーザが楽しそうなのか悲しそうなのかなどに応じて異なるシステム応答を返すように対話シナリオを定義することもできる。同様に、ユーザが置かれている状況(シーン)に応じて、システム応答を返すように対話シナリオを定義することもできる。
上記で説明した対話シナリオは一例に過ぎず、種々の変形を採用可能である。例えば、上記の説明では、ユーザ発話の文言(テキスト)のみを考慮して対話シナリオを定義しているが、ユーザの感情に応じてどのような応答を返すかを異ならせてもよい。例えば、「どこに行ったの?」や「何を食べたの?」という問いかけに対してユーザが同じ応答をした場合であっても、ユーザが楽しそうなのか悲しそうなのかなどに応じて異なるシステム応答を返すように対話シナリオを定義することもできる。同様に、ユーザが置かれている状況(シーン)に応じて、システム応答を返すように対話シナリオを定義することもできる。
<その他>
上記の実施形態および変形例の構成は、本発明の技術的思想を逸脱しない範囲内で、適宜組み合わせて利用することができる。また、本発明は、その技術的思想を逸脱しない範囲で適宜変更を加えて実現しても構わない。
上記の実施形態および変形例の構成は、本発明の技術的思想を逸脱しない範囲内で、適宜組み合わせて利用することができる。また、本発明は、その技術的思想を逸脱しない範囲で適宜変更を加えて実現しても構わない。
100:音声対話ロボット
101:マイク
102:音声認識部
103:マイク
104:シーン推定部
105:対話文生成部
106:対話シナリオ記憶部
107:音声合成部
108:スピーカー
101:マイク
102:音声認識部
103:マイク
104:シーン推定部
105:対話文生成部
106:対話シナリオ記憶部
107:音声合成部
108:スピーカー
Claims (6)
- ユーザ発話の音声認識の結果を取得する音声認識手段と、
複数の対話シナリオを格納した対話シナリオ記憶手段と、
前記音声認識の結果に基づいて、前記ユーザ発話に応答する対話文を生成する対話文生成手段と、
を備え、
前記対話シナリオは、第1のシステム発話の内容と、当該第1のシステム発話に対する応答として期待するユーザ発話の内容と、期待するユーザ発話に対する応答である第2のシステム発話の内容との3つが1組となったものであり、
前記対話文生成手段は、前記ユーザ発話が1つ前のシステム発話の応答として期待されるものであるかを判断し、そうである場合には、当該当該ユーザ発話に対する応答として対話シナリオに定義されている第2のシステム発話を、前記ユーザ発話に応答する対話文として生成する、
音声対話システム。 - 前記対話文生成手段は、前記ユーザ発話が1つ前のシステム発話の応答として期待されるものではない場合は、前記対話シナリオ記憶手段に格納されている複数の対話シナリオからいずれかの対話シナリオを選択して、選択された対話シナリオにおける第1のシステム発話の内容を、前記ユーザ発話に応答する対話文として生成する、
請求項1に記載の音声対話システム。 - 対話シナリオを選択して対話文の生成および音声出力をした後にユーザ発話を取得した場合、前記ユーザ発話が1つ前のシステム発話の応答として期待されるものであるかの判断は、前記ユーザ発話が前記選択された対話シナリオにおいて期待する応答として格納されたものであるか否かに基づいて行われる、
請求項2に記載の音声対話システム。 - 前記対話シナリオ記憶手段には、少なくとも一部の対話シナリオにおける第2のシステム発話の内容を第1のシステム発話の内容として有する別の対話シナリオが格納される、
請求項1から3のいずれか1項に記載の音声対話システム。 - ユーザ発話の音声認識の結果を取得する音声認識ステップと、
前記音声認識の結果に基づいて、前記ユーザ発話に応答する対話文を生成する対話文生成ステップと、
を含み、
前記対話文生成ステップは、
第1のシステム発話の内容と、当該第1のシステム発話に対する応答として期待するユーザ発話の内容と、期待するユーザ発話に対する応答である第2のシステム発話の内容との3つが1組として定義された対話シナリオを参照して対話文を生成するものであり、
前記ユーザ発話が1つ前のシステム発話の応答として期待されるものであるかを判断し、そうである場合には、当該当該ユーザ発話に対する応答として対話シナリオに定義されている第2のシステム発話を、前記ユーザ発話に応答する対話文として生成する、
音声対話方法。 - 請求項5に記載の方法の各ステップをコンピュータに実行させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016189382A JP2018054790A (ja) | 2016-09-28 | 2016-09-28 | 音声対話システムおよび音声対話方法 |
US15/704,518 US20180090132A1 (en) | 2016-09-28 | 2017-09-14 | Voice dialogue system and voice dialogue method |
CN201710894058.9A CN107871502A (zh) | 2016-09-28 | 2017-09-28 | 语音对话系统以及语音对话方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016189382A JP2018054790A (ja) | 2016-09-28 | 2016-09-28 | 音声対話システムおよび音声対話方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2018054790A true JP2018054790A (ja) | 2018-04-05 |
Family
ID=61685620
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016189382A Pending JP2018054790A (ja) | 2016-09-28 | 2016-09-28 | 音声対話システムおよび音声対話方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20180090132A1 (ja) |
JP (1) | JP2018054790A (ja) |
CN (1) | CN107871502A (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020034694A (ja) * | 2018-08-29 | 2020-03-05 | 富士通株式会社 | 対話方法、対話プログラム及び情報処理装置 |
JP2020042184A (ja) * | 2018-09-11 | 2020-03-19 | 株式会社デンソーアイティーラボラトリ | 対話プラン作成支援装置、対話プラン作成支援方法、及びプログラム |
WO2020250595A1 (ja) * | 2019-06-14 | 2020-12-17 | ソニー株式会社 | 情報処理装置及び情報処理方法 |
WO2021153325A1 (ja) * | 2020-01-27 | 2021-08-05 | ソニーグループ株式会社 | 情報処理装置、情報処理システム及び情報処理方法 |
US11657806B2 (en) | 2020-07-28 | 2023-05-23 | Toyota Jidosha Kabushiki Kaisha | Information output system and information output method |
JP7350384B1 (ja) | 2022-05-30 | 2023-09-26 | 真由美 稲場 | 対話システム、及び対話方法 |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10514881B2 (en) * | 2016-02-18 | 2019-12-24 | Sony Corporation | Information processing device, information processing method, and program |
JP6515897B2 (ja) | 2016-09-28 | 2019-05-22 | トヨタ自動車株式会社 | 音声対話システムおよび発話意図理解方法 |
WO2020036190A1 (ja) * | 2018-08-15 | 2020-02-20 | 日本電信電話株式会社 | 要点抽出装置、要点抽出方法、及びプログラム |
JP7060106B2 (ja) * | 2018-10-05 | 2022-04-26 | 日本電信電話株式会社 | 対話装置、その方法、およびプログラム |
CN110473522B (zh) * | 2019-08-23 | 2021-11-09 | 百可录(北京)科技有限公司 | 一种精确分析短语音片段的方法 |
CN111881254A (zh) * | 2020-06-10 | 2020-11-03 | 百度在线网络技术(北京)有限公司 | 话术生成方法、装置、电子设备及存储介质 |
US20240054282A1 (en) * | 2022-08-15 | 2024-02-15 | International Business Machines Corporation | Elucidated natural language artifact recombination with contextual awareness |
CN116994597B (zh) * | 2023-09-26 | 2023-12-15 | 广州市升谱达音响科技有限公司 | 一种音频处理系统、方法及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004021121A (ja) * | 2002-06-19 | 2004-01-22 | Nec Corp | 音声対話制御装置 |
JP2005148724A (ja) * | 2003-10-21 | 2005-06-09 | Zenrin Datacom Co Ltd | 音声認識を用いた情報入力を伴う情報処理装置 |
JP2016045253A (ja) * | 2014-08-20 | 2016-04-04 | シャープ株式会社 | データ構造、音声対話装置及び電子機器 |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020032564A1 (en) * | 2000-04-19 | 2002-03-14 | Farzad Ehsani | Phrase-based dialogue modeling with particular application to creating a recognition grammar for a voice-controlled user interface |
GB2372864B (en) * | 2001-02-28 | 2005-09-07 | Vox Generation Ltd | Spoken language interface |
JP2004530982A (ja) * | 2001-05-04 | 2004-10-07 | ユニシス コーポレーション | Webサーバからの音声アプリケーション情報の動的な生成 |
US7552055B2 (en) * | 2004-01-10 | 2009-06-23 | Microsoft Corporation | Dialog component re-use in recognition systems |
US20120253823A1 (en) * | 2004-09-10 | 2012-10-04 | Thomas Barton Schalk | Hybrid Dialog Speech Recognition for In-Vehicle Automated Interaction and In-Vehicle Interfaces Requiring Minimal Driver Processing |
US20060123358A1 (en) * | 2004-12-03 | 2006-06-08 | Lee Hang S | Method and system for generating input grammars for multi-modal dialog systems |
US20060155546A1 (en) * | 2005-01-11 | 2006-07-13 | Gupta Anurag K | Method and system for controlling input modalities in a multimodal dialog system |
JP4680691B2 (ja) * | 2005-06-15 | 2011-05-11 | 富士通株式会社 | 対話システム |
US7640160B2 (en) * | 2005-08-05 | 2009-12-29 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US7924986B2 (en) * | 2006-01-27 | 2011-04-12 | Accenture Global Services Limited | IVR system manager |
US20070203708A1 (en) * | 2006-02-28 | 2007-08-30 | Intervoice Limited Partnership | System and method for providing transcription services using a speech server in an interactive voice response system |
US20080010069A1 (en) * | 2006-07-10 | 2008-01-10 | Microsoft Corporation | Authoring and running speech related applications |
US8503665B1 (en) * | 2007-04-18 | 2013-08-06 | William S. Meisel | System and method of writing and using scripts in automated, speech-based caller interactions |
CN101075435B (zh) * | 2007-04-19 | 2011-05-18 | 深圳先进技术研究院 | 一种智能聊天系统及其实现方法 |
US20140122083A1 (en) * | 2012-10-26 | 2014-05-01 | Duan Xiaojiang | Chatbot system and method with contextual input and output messages |
USRE49014E1 (en) * | 2013-06-19 | 2022-04-05 | Panasonic Intellectual Property Corporation Of America | Voice interaction method, and device |
WO2015075975A1 (ja) * | 2013-11-25 | 2015-05-28 | 三菱電機株式会社 | 対話制御装置及び対話制御方法 |
JP6236303B2 (ja) * | 2013-11-26 | 2017-11-22 | 株式会社デンソーアイティーラボラトリ | 制御装置、制御方法およびプログラム |
US10726831B2 (en) * | 2014-05-20 | 2020-07-28 | Amazon Technologies, Inc. | Context interpretation in natural language processing using previous dialog acts |
US9767794B2 (en) * | 2014-08-11 | 2017-09-19 | Nuance Communications, Inc. | Dialog flow management in hierarchical task dialogs |
WO2016054230A1 (en) * | 2014-10-01 | 2016-04-07 | XBrain, Inc. | Voice and connection platform |
US9666185B2 (en) * | 2014-10-06 | 2017-05-30 | Nuance Communications, Inc. | Automatic data-driven dialog discovery system |
US9747279B2 (en) * | 2015-04-17 | 2017-08-29 | Microsoft Technology Licensing, Llc | Context carryover in language understanding systems or methods |
CN105161105A (zh) * | 2015-07-31 | 2015-12-16 | 北京奇虎科技有限公司 | 一种交互系统的语音识别方法和装置 |
JP6515897B2 (ja) * | 2016-09-28 | 2019-05-22 | トヨタ自動車株式会社 | 音声対話システムおよび発話意図理解方法 |
-
2016
- 2016-09-28 JP JP2016189382A patent/JP2018054790A/ja active Pending
-
2017
- 2017-09-14 US US15/704,518 patent/US20180090132A1/en not_active Abandoned
- 2017-09-28 CN CN201710894058.9A patent/CN107871502A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004021121A (ja) * | 2002-06-19 | 2004-01-22 | Nec Corp | 音声対話制御装置 |
JP2005148724A (ja) * | 2003-10-21 | 2005-06-09 | Zenrin Datacom Co Ltd | 音声認識を用いた情報入力を伴う情報処理装置 |
JP2016045253A (ja) * | 2014-08-20 | 2016-04-04 | シャープ株式会社 | データ構造、音声対話装置及び電子機器 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020034694A (ja) * | 2018-08-29 | 2020-03-05 | 富士通株式会社 | 対話方法、対話プログラム及び情報処理装置 |
JP7124565B2 (ja) | 2018-08-29 | 2022-08-24 | 富士通株式会社 | 対話方法、対話プログラム及び情報処理装置 |
JP2020042184A (ja) * | 2018-09-11 | 2020-03-19 | 株式会社デンソーアイティーラボラトリ | 対話プラン作成支援装置、対話プラン作成支援方法、及びプログラム |
JP7117951B2 (ja) | 2018-09-11 | 2022-08-15 | 株式会社デンソーアイティーラボラトリ | 対話プラン作成支援装置、対話プラン作成支援方法、及びプログラム |
WO2020250595A1 (ja) * | 2019-06-14 | 2020-12-17 | ソニー株式会社 | 情報処理装置及び情報処理方法 |
WO2021153325A1 (ja) * | 2020-01-27 | 2021-08-05 | ソニーグループ株式会社 | 情報処理装置、情報処理システム及び情報処理方法 |
US11657806B2 (en) | 2020-07-28 | 2023-05-23 | Toyota Jidosha Kabushiki Kaisha | Information output system and information output method |
JP7350384B1 (ja) | 2022-05-30 | 2023-09-26 | 真由美 稲場 | 対話システム、及び対話方法 |
Also Published As
Publication number | Publication date |
---|---|
US20180090132A1 (en) | 2018-03-29 |
CN107871502A (zh) | 2018-04-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2018054790A (ja) | 音声対話システムおよび音声対話方法 | |
US20200312329A1 (en) | Performing speech recognition using a local language context including a set of words with descriptions in terms of components smaller than the words | |
KR102100389B1 (ko) | 개인화된 엔티티 발음 학습 | |
JP5545467B2 (ja) | 音声翻訳システム、制御装置、および情報処理方法 | |
EP2587478A2 (en) | Speech recognition repair using contextual information | |
JP6515897B2 (ja) | 音声対話システムおよび発話意図理解方法 | |
JP2017107078A (ja) | 音声対話方法、音声対話装置及び音声対話プログラム | |
JPWO2015151157A1 (ja) | 意図理解装置および方法 | |
WO2014183373A1 (en) | Systems and methods for voice identification | |
JP7347217B2 (ja) | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム | |
KR20150017662A (ko) | 텍스트-음성 변환 방법, 장치 및 저장 매체 | |
JP2020507165A (ja) | データ可視化のための情報処理方法及び装置 | |
JP5606951B2 (ja) | 音声認識システムおよびこれを用いた検索システム | |
JP6468258B2 (ja) | 音声対話装置および音声対話方法 | |
WO2019239659A1 (ja) | 情報処理装置および情報処理方法 | |
CN111556999A (zh) | 通过即时提供实质性回答以提供自然语言对话的方法、计算机装置及计算机可读存储介质 | |
US20170263250A1 (en) | Voice processing system and voice processing method | |
JP2018155980A (ja) | 対話装置および対話方法 | |
JP2018045192A (ja) | 音声対話装置および発話音量調整方法 | |
JP7058588B2 (ja) | 会話システムおよび会話プログラム | |
JP6772881B2 (ja) | 音声対話装置 | |
KR20210098250A (ko) | 전자 장치 및 이의 제어 방법 | |
JP2020184183A (ja) | 情報処理装置、情報処理システム、情報処理装置の制御方法 | |
JP6790791B2 (ja) | 音声対話装置および対話方法 | |
JP2020034832A (ja) | 辞書生成装置、音声認識システムおよび辞書生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20181015 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181023 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181221 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20190402 |