JP2021015266A

JP2021015266A - 音声対話方法及び装置

Info

Publication number: JP2021015266A
Application number: JP2020038898A
Authority: JP
Inventors: ドンリリウ; Dongli Liu; シャオチェンダイ; Xiaocheng Dai; ジアンペン; Jian Peng
Original assignee: Baidu Online Network Technology Beijing Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd
Priority date: 2019-07-15
Filing date: 2020-03-06
Publication date: 2021-02-12
Anticipated expiration: 2040-03-06
Also published as: CN110390935B; US20210020174A1; CN110390935A; JP7153681B2; US11341967B2

Abstract

【課題】ユーザとより没入感の強いやり取りをし、ユーザ体験を改善する音声対話方法及び装置を提供する。【解決手段】スマート機器分野に属する音声対話方法において、外部入力を受信するステップと、外部入力に応答して、現在の時刻を検出するステップと、音声番組を呼び出すステップと、現在の時刻と呼び出された音声番組とに基づいて、質問を発出し、呼び出された音声番組を再生するステップと、を含む。【選択図】図１

Description

本開示はスマート機器に関し、具体的には音声対話方法及び装置に関する。

現在では、スマート音声対話機器（スマートスピーカー、スマートロボット等を含む）において、音声番組の再生中に、コンテンツの生産者又は編集者がユーザとやり取りをしようとする場合、ユーザへ質問を発出することができる。しかしながら、スマート音声対話機器のユーザにとって、機器とのやり取りが少い場合や、スマート音声対話機器からの質問が時宜に適しなったり、物語の筋との関連性が弱ったりして、ユーザの没入感が不足となる場合がある。

本願の実施例は、ユーザとより没入感の強いやり取りをして、ユーザ体験を改善することができる音声対話方法及び装置を提供することを目的とする。

上記目的を達成するために、本願の実施例は、音声対話方法であって、外部入力を受信するステップと、前記外部入力に応答して、現在の時刻を検出するステップと、音声番組を呼び出すステップと、前記現在の時刻と呼び出された音声番組とに基づいて、質問を発出し、前記呼び出された音声番組を再生するステップと、を含む音声対話方法音声対話方法を提供する。

また、問題を提出した後、該方法は外部音声入力を受信するステップと、前記外部音声入力が、前記発出された質問の正解と一致するか否かを判断するステップと、前記外部音声入力が、前記発出された質問の正解と一致する場合、音声提示情報を出力するステップと、を更に含んでもよい。

また、前記現在の時刻と呼び出された音声番組とに基づいて、質問を発出し、前記呼び出された音声番組を再生するステップは、まず、前記呼び出された音声番組を再生し、それから、前記呼び出された音声番組の再生が完了すると、前記現在の時刻と前記呼び出された音声番組とに基づいて、質問を発出すること、或いは、まず、前記現在の時刻と前記呼び出された音声番組とに基づいて質問を発出し、それから、前記呼び出された音声番組を再生すること、或いは、前記呼び出された音声番組を再生すると同時に、前記現在の時刻と前記呼び出された音声番組とに基づいて質問を発出すること、をさらに含んでもよい。

また、前記外部音声入力が、前記発出された質問の正解と一致するか否かを判断するステップは、前記外部音声入力には、前記発出された質問の正解におけるキーワードが含まれているか否かを判断するステップと、前記外部音声入力に、前記発出された質問の正解におけるキーワードが含まれている場合に、前記外部音声入力が前記発出された質問の正解と一致すると判定するステップと、を含んでもよい。

また、前記現在の時刻及び前記呼び出された音声番組とに基づいて質問を発出すことは、前記現在の時刻が予め設定された時間帯内である場合、前記呼び出された音声番組に対応する質問を発出すること、前記現在の時刻が予め設定された時間帯内である場合、前記呼び出された音声番組及び前記予め設定された時間帯に対応する質問を発出すること、を含んでもよい。

本願の実施例は、音声対話装置であって、外部入力を受信するように構成される受信ユニットと、前記外部入力に応答して、現在の時刻を検出するように構成される検出ユニットと、音声番組を呼び出すように構成される処理ユニットと、前記現在の時刻と前記呼び出された音声番組とに基づいて質問を発出し、前記呼び出された音声番組を再生するように構成される再生ユニットと、を備える音声対話装置さらに提供する。

また、前記受信ユニットは、質問の発出の後に、外部音声入力を受信するようにさらに構成されており、前記処理ユニットは、質問の発出の後に、前記外部音声入力が前記発出された質問の正解と一致するか否かを判断するようにさらに構成されており、前記再生ユニットは、質問の発出の後に、前記外部音声入力が前記発出された質問の正解と一致する場合、音声提示情報を出力するようにさらに構成されていてもよい。

また、前記現在の時刻と呼び出された音声番組とに基づいて、質問を発出し、前記呼び出された音声番組を再生することは、まず、前記呼び出された音声番組を再生し、それから、前記呼び出された音声番組の再生が完了すると、前記現在の時刻と前記呼び出された音声番組とに基づいて、質問を発出すること、或いは、まず、前記現在の時刻と前記呼び出された音声番組とに基づいて質問を発出し、それから、前記呼び出された音声番組を再生すること、或いは、前記呼び出された音声番組を再生すると同時に、前記現在の時刻と前記呼び出された音声番組とに基づいて質問を発出することを含んでもよい。

また、前記外部音声入力が、前記発出された質問の正解と一致するか否かを判断することは、前記外部音声入力には、前記発出された質問の正解におけるキーワードが含まれているか否かを判断することと、前記外部音声入力に、前記発出された質問の正解におけるキーワードが含まれている場合に、前記外部音声入力が前記発出された質問の正解と一致すると判定することと、を含んでもよい。

上記技術案によれば、本願による音声対話方法及び装置によって、外部入力を受信し、続いて、前記外部入力に応答して現在の時刻を検出し、それから、音声番組を呼び出し、最後に、前記現在の時刻と呼び出された音声番組とに基づいて質問を発出し、前記呼び出された音声番組を再生し、ユーザとより没入感の強いやり取りを行うことができ、ユーザ体験を改善することができる。

本願実施利の他の特徴や利点は、後述の発明を実施するための形態の部分において詳細に記述する。

図面は、本願実施例を限定するものではなく、本開示の実施例がよく理解できるように、明細書の一部として、後述の発明を実施するための形態と一緒に本願実施例を説明するためのものである。
本願の一実施例にかかる音声対話方法のフローチャートである。本願の他の実施例にかかる音声対話方法のフローチャートである。本願の他の実施例にかかる音声対話方法のフローチャートである。本願の他の実施例にかかる音声対話方法のフローチャートである。本願の別の他の一実施例にかかる音声対話装置の模式的構造図である。

以下は図面を参照しながら、本願の実施例の具体的な実施形態を詳細に説明する。ここで記述する具体的な実施形態は、本願の実施例を説明、解釈するために用いられ、本願の実施例を限定するものではないと理解されたい。

図１は本願の一実施例にかかる音声対話方法のフローチャートである。図１に示すように、該方法は、ステップＳ１１〜１４を含む。
ステップＳ１１において、外部入力を受信する。
ステップＳ１２において、前記外部入力に応答して、現在の時刻を検出する。
ステップＳ１３において、音声番組を呼び出す。
ステップＳ１４において、上記の現在の時刻と呼び出された音声番組とに基づいて質問を発出し、且つ、呼び出された音声番組を再生する。

ステップＳ１１において、外部入力を受信する。ここで、外部入力は、押しボタンを介した外部入力であってもよく、音声を介した外部入力であってもよい。音声を介した外部入力は、「物語を聞きたい」というような番組リクエストに関係する指示であってもよく、「しばらく私と一緒に遊びましょう」というような番組リクエストに関係しない指示であってもよい。

ステップＳ１２において、外部入力に応じて、例えば、朝８時、夜９時等の現在の時刻を検出する。

ステップＳ１３において、音声番組を呼び出す。音声番組を、音声対話機器に予め記憶されていてもよく、人間の声で音声番組をオーディオファイルとして記録して記憶してもよい。

ステップＳ１４において、音声番組の再生と質問の発出との間の順番は、以下の場合がある。第１の場合は、まず、呼び出された音声番組を再生し、それから、呼び出された音声番組の再生が完了すると、前記現在の時刻と呼び出された音声番組とに基づいて質問を発出する。第２の場合は、まず、前記現在の時刻と呼び出された音声番組とに基づいて質問を提出し、その後、呼び出された音声番組を再生する。第３の場合は、呼び出された音声番組の再生と同時に、前記現在の時刻と呼び出された音声番組とに基づいて質問を発出する。なお、詳細には後述するが、再生された音声番組は、現在の時刻が位置する時間帯に対応する特定の質問が存在する場合、該特定の質問を発出する。質問の発出は、音声対話機器に記憶された質問のテキストを機械が音声として合成して出力することにより行われても良く、または人間の声で質問をオーディオとして記録して音声対話機器に記憶したものを出力することにより行われてもよい。

図２は本願の他の実施例にかかる音声対話方法のフローチャートである。図２に示すように、問題を提出した後、該方法はステップＳ２１〜２４を含む。
ステップＳ２１において、外部音声入力を受信する。
ステップＳ２２において、前記外部音声入力が発出された質問の正解と一致するか否かを判断する。
ステップＳ２３において、前記外部音声入力が発出された質問の正解と一致する場合、正しいことを示す音声提示情報を出力する。
ステップＳ２４において、前記外部音声入力が発出された質問の正解と一致しない場合、正しくないことを示す音声提示情報を出力する。

ステップＳ２１において、このとき受信された外部音声入力は、デフォルトで、発出された質問に対するユーザの答えであると認定されている。音声対話機器は質問を発出した後、マイクロフォンを自動的に起動させ、ユーザが直接回答するようにしてもよい。マイクロフォンが自動的に起動できない場合、ユーザは手動でマイクロフォンを起動して、回答するようにしてもよい。その後、音声対話機器はユーザの発話した回答を取得することができる。

ステップＳ２２において、外部音声入力が発出された質問の正解と一致するか否かを判定する。ここでは、発出された質問の正解が一つだけである場合があり、例えば、発出された質問は
（白い羽は青々とした水面に浮かび）の次の文が何ですか？」とすると、正しい答えは一つだけの
（紅い水かきで、清らかな小波を掻き分ける）であるので、当該正しい答えを言い出してこそ、当該発出された質問の正解と一致する。一方、発出された質問の正解が一つだけではない場合、複数の正解を予め記憶しておくようにしてもよい。

ステップＳ２３及びステップＳ２４において、発出された質問の正解と一致する回答をユーザが言い出すと、正しいことを示す音声提示情報を提供するとともに、次の番組に進むか、又は他の機能が実行される旨をユーザに提示する。発出された質問の正解と一致しない回答を、ユーザが言い出すと、再度回答することを誘導するように、正解の関連提示をユーザに提供することができる。有限回の提示で、ユーザが依然として発出の質問の正解と一致しない回答を与える場合、直接正解を知らせるとともに、次の番組に進むか、又は他の機能が実行される旨をユーザに提示する。

図３は本願の他の実施例にかかる音声対話方法のフローチャートである。図３に示すように、問題を提出した後、該方法はステップＳ３１〜３６を含む。
ステップＳ３１において、外部音声入力を受信する。
ステップＳ３２において、前記外部音声入力には、発出された質問の正解におけるキーワードが含まれるか否かを判断する。
ステップＳ３３において、前記外部音声入力には、発出された質問の正解におけるキーワードが含まれる場合、前記外部音声入力が発出の質問の正解と一致すると判断する。
ステップＳ３４において、前記外部音声入力が発出された質問の正解と一致する場合、正しいことを示す音声提示情報を出力する。
ステップＳ３５において、前記外部音声入力には、発出された質問の正解におけるキーワードが含まれない場合、前記外部音声入力が発出の質問の正解と一致しないと判断する。
ステップＳ３６において、前記外部音声入力が発出の質問の正解と一致しない場合、正しくないことを示す音声提示情報を出力する。

本願の実施例において、上述した発出の質問に対して、正解が唯一ではない場合のマッチング方法を提供する。

ステップＳ３２において、前記外部音声入力には、発出された質問の正解におけるキーワードが含まれているか否かが判断する。例えば、「百獣の王は何ですか」という問題が発出されると、正解が「虎」であり、キーワードが「虎」であるので、外部音声入力に「虎」が含まれているか否かを判断する。

ステップＳ３３及びステップＳ３５において、外部音声入力が「虎（中国語では「老虎」）」、「大きい虎（中国語では「大老虎」）」、「虎です」等の、「虎」が含まれたものである限り、発出の質問の正解と一致していると判定する一方、「スロット」が含まれていない場合、発出の質問の正解と一致していないと判定する。

その他のステップの具体的な実施は上記実施例と同様であるので、ここでは説明を繰り返さない。

図４は、本願の他の実施例にかかる音声対話方法のフローチャートである。図４に示すように、該方法はステップＳ４３〜４６を含む。
ステップＳ４１において、外部入力を受信する。
ステップＳ４２において、前記外部入力に応答して、現在の時刻を検出する。
ステップＳ４３において、音声番組を呼び出す。
ステップＳ４４において、前記現在の時刻が予め設定された時間帯内であるか否かを判断する。
ステップＳ４５において、前記現在の時刻が予め設定された時間帯以外である場合、呼び出された音声番組に対応する質問を発出し、前記音声番組を再生する。
ステップＳ４６において、前記現在の時刻が予め設定された時間帯内である場合、呼び出された音声番組及び前記予め設定された時間帯に対応する問題及び前記音声番組を再生する。

本実施例では、再生される音声番組が位置する時間帯に基づいて、発出される問題を調整することについて詳細に記述する。

具体的には、ステップＳ４４において、前記現在の時刻が予め設定された時間帯内であるか否かを判断する。例えば、予め設定された時間帯が、朝７時〜８時、または、夜９時〜１１時であることを想定する。当該時間帯は、起きた直後や就寝直前であることが一般的である。現在の時刻が当該予め設定された時間帯内であれば、他の時間帯と異なる質問を発出する。

ステップＳ４５及びステップＳ４６において、ユーザは、例えば「歯磨きの良習の関連物語」を聞く場合を想定すると、現在の時刻が所定時間帯以外である場合、「歯磨きが必要なことですか」との質問を発出してもよい。現在時刻が予め設定された時間帯以外である場合、「朝は歯を磨くべきですか」や、「夜は歯を磨くべきですか」というような特定の設定時間と強く関連されている特定の質問を発出してもよい。上述のように、説明の便宜上、予め設定された時間は朝７時〜８時、又は、夜９時〜１１時である例が挙げられたが、この時間は一例に過ぎず、本願はこれに対し限定するものではない。

図５は本願の別の一実施例にかかる音声対話装置の模式的構造図である。図５に示すように、該装置は、受信ユニット１と、検出ユニット２と、処理ユニット３と、再生ユニット４とを含み、そのうち、前記受信ユニット１は、外部入力を受信するために用いられ、前記検出ユニット２は、前記外部入力に応答して現在の時刻を検出するために用いられ、前記処理ユニット３は、音声番組を呼び出すために用いられ、前記再生ユニット４は、前記現在の時刻と呼び出された音声番組とに基づいて質問を発出し、呼び出された音声番組を再生するために用いられる。

また、質問の発出の後、前記受信ユニット１は、さらに外部音声入力を受信するために用いられ、前記処理ユニット３は、さらに前記外部音声入力が発出の質問の正解と一致するか否かを判断するために用いられ、前記再生ユニット４は、さらに前記外部音声入力が発出の質問の正解と一致する場合、音声提示情報を出力するために用いられる。

また、前記現在の時刻と呼び出された音声番組とに基づいて質問を発出し、呼び出された音声番組を再生することは、まず、呼び出された音声番組を再生し、それから、呼び出された音声番組の再生が完了すると、前記現在の時刻と呼び出された音声番組とに基づいて質問を発出すること、或いは、前記現在の時刻と呼び出された音声番組とに基づいて質問を発出し、そして、前記質問を発出した後、呼び出された音声番組を再生すること、或いは、呼び出された音声番組を再生すると同時に、前記現在の時刻と呼び出された音声番組とに基づいて質問を発出することを含む。

また、前記外部音声入力が発出の質問の正解と一致するか否かを判断することは、前記外部音声入力には発出の質問の正解におけるキーワードが含まれるか否かを判断することと、前記外部音声入力に発出の質問の正解におけるキーワードが含まれる場合、前記外部音声入力が発出の質問の正解と一致すると判断することを含む。

また、前記現在の時刻及び呼び出された音声番組とに基づいて質問を発出することは、前記現在の時刻が予め設定された時間帯以外である場合、呼び出された音声番組に対応する質問を発出することと、前記現在の時刻が予め設定された時間帯内である場合、呼び出された音声番組及び前記所定時間に対応する質問を発出する。

上記音声対話装置の実施例は前述の音声対話方法の実施例と同様であるので、ここでは説明を繰り返さない。

上記技術案によれば、本願にかかる音声対話方法及び装置を利用して、外部入力を受信し、続いて前記外部入力に応答し、現在の時刻を検出し、それから、音声番組を呼び出し、最後に前記現在の時刻と呼び出された音声番組とに基づいて質問を発出し、呼び出された音声番組を再生することにより、ユーザとより没入感の強いやり取りを行うことができ、ユーザ体験を改善することができる。

以上は図面を参照して本願の実施例の選択可能な実施形態を詳細に説明し、しかし、本願の実施例は上記実施形態における具体的な詳細に限定されるものではなく、本願の実施例の技術的思想の範囲内において、本願の実施例の技術的解決手段に対して複数の簡単な変形を行うことができ、これらの簡単な変形はいずれも本願の実施例の保護範囲に属する。

また、上記具体的な実施形態に記載された各具体的な技術的特徴は、矛盾しない場合、任意の適切な方式によって組み合わせられる。不要な重複を避けるために、本願の実施例は様々な可能な組み合わせ方式については別途説明しない。

当業者であれば上記実施例の方法における全部又は一部のステップを実現することはプログラムによって関連するハードウェアを指示することによって実施することができる。該プログラムは、記憶媒体に記憶されているものであって、ワンチップマイコン、チップ又はプロセッサ（ｐｒｏｃｅｓｓｏｒ）に本出願の各実施例に記載の方法の全部又は一部のステップを実行させるように、複数の指示を含む。前記記憶媒体は、Ｕディスク、モバイルハードディスク、リードオンリーメモリ（ＲＯＭ：Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）、ランダムアクセスメモリ（ＲＡＭ：ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、磁気ディスク又は光ディスク等の、各種のプログラムコードを記憶す可能媒体を含んでもよい。

また、本願の実施例の様々な異なる実施形態の間に任意の組み合わせを行うことができ、それは本願の実施例の思想に反しない限り、それは同様に本願の実施例に開示された内容と見なすべきである。

Claims

音声対話方法であって、
外部入力を受信するステップと、
前記外部入力に応答して、現在の時刻を検出するステップと、
音声番組を呼び出すステップと、
前記現在の時刻と呼び出された音声番組とに基づいて、質問を発出し、前記呼び出された音声番組を再生するステップと、
を含むことを特徴とする、音声対話方法。
前記質問を出した後に、
外部音声入力を受信するステップと、
前記外部音声入力が、前記発出された質問の正解と一致するか否かを判断するステップと、
前記外部音声入力が、前記発出された質問の正解と一致する場合、音声提示情報を出力するステップと、
を更に含むことを特徴とする、請求項１に記載の音声対話方法。
前記現在の時刻と呼び出された音声番組とに基づいて、質問を発出し、前記呼び出された音声番組を再生するステップは、
まず、前記呼び出された音声番組を再生し、それから、前記呼び出された音声番組の再生が完了すると、前記現在の時刻と前記呼び出された音声番組とに基づいて、質問を発出すること、或いは
まず、前記現在の時刻と前記呼び出された音声番組とに基づいて質問を発出し、それから、前記呼び出された音声番組を再生すること、或いは
前記呼び出された音声番組を再生すると同時に、前記現在の時刻と前記呼び出された音声番組とに基づいて質問を発出すること、
をさらに含むことを特徴とする、請求項１に記載の音声対話方法。
前記外部音声入力が、前記発出された質問の正解と一致するか否かを判断するステップは、
前記外部音声入力には、前記発出された質問の正解におけるキーワードが含まれているか否かを判断するステップと、
前記外部音声入力に、前記発出された質問の正解におけるキーワードが含まれている場合に、前記外部音声入力が前記発出された質問の正解と一致すると判定するステップと、
を含むことを特徴とする請求項２に記載の音声対話方法。
前記現在の時刻及び前記呼び出された音声番組とに基づいて質問を発出すことは、
前記現在の時刻が予め設定された時間帯内である場合、前記呼び出された音声番組に対応する質問を発出すること、
前記現在の時刻が予め設定された時間帯内である場合、前記呼び出された音声番組及び前記予め設定された時間帯に対応する質問を発出すること、
を含むことを特徴とする請求項１に記載の音声対話方法。
音声対話装置であって、
外部入力を受信するように構成される受信ユニットと、
前記外部入力に応答して、現在の時刻を検出するように構成される検出ユニットと、
音声番組を呼び出すように構成される処理ユニットと、
前記現在の時刻と前記呼び出された音声番組とに基づいて質問を発出し、前記呼び出された音声番組を再生するように構成される再生ユニットと、
を備えることを特徴とする音声対話装置。
前記受信ユニットは、質問の発出の後に、外部音声入力を受信するようにさらに構成されており、
前記処理ユニットは、質問の発出の後に、前記外部音声入力が前記発出された質問の正解と一致するか否かを判断するようにさらに構成されており、
前記再生ユニットは、質問の発出の後に、前記外部音声入力が前記発出された質問の正解と一致する場合、音声提示情報を出力するようにさらに構成されている、
ことを特徴とする請求項６に記載の音声対話装置。
前記現在の時刻と呼び出された音声番組とに基づいて、質問を発出し、前記呼び出された音声番組を再生することは、
まず、前記呼び出された音声番組を再生し、それから、前記呼び出された音声番組の再生が完了すると、前記現在の時刻と前記呼び出された音声番組とに基づいて、質問を発出すること、或いは
まず、前記現在の時刻と前記呼び出された音声番組とに基づいて質問を発出し、それから、前記呼び出された音声番組を再生すること、或いは
前記呼び出された音声番組を再生すると同時に、前記現在の時刻と前記呼び出された音声番組とに基づいて質問を発出すること
を含むことを特徴とする請求項６に記載の音声対話装置。
前記外部音声入力が、前記発出された質問の正解と一致するか否かを判断することは、
前記外部音声入力には、前記発出された質問の正解におけるキーワードが含まれているか否かを判断することと、
前記外部音声入力に、前記発出された質問の正解におけるキーワードが含まれている場合に、前記外部音声入力が前記発出された質問の正解と一致すると判定することと、
を含むことを特徴とする請求項７に記載の音声対話装置。
前記現在の時刻及び前記呼び出された音声番組とに基づいて質問を発出すことは、
前記現在の時刻が予め設定された時間帯内である場合、前記呼び出された音声番組に対応する質問を発出すること、
前記現在の時刻が予め設定された時間帯内である場合、前記呼び出された音声番組及び前記予め設定された時間帯に対応する質問を発出すること、
を含む請求項６に記載の音声対話装置。