JP7053693B2

JP7053693B2 - 音声スキルの終了方法、装置、デバイスおよび記憶媒体

Info

Publication number: JP7053693B2
Application number: JP2020019049A
Authority: JP
Inventors: ホアンタン; シャオチョウ; リャンチョンウー
Original assignee: バイドゥオンラインネットワークテクノロジー（ペキン）カンパニーリミテッド; シャンハイシャオドゥテクノロジーカンパニーリミテッド
Priority date: 2019-07-02
Filing date: 2020-02-06
Publication date: 2022-04-12
Anticipated expiration: 2040-02-06
Also published as: CN110322873B; CN110322873A; US11580974B2; JP2021009350A; US20210005193A1

Description

本発明は、通信技術の分野に関し、特に音声スキルの終了方法、装置、デバイス、および記憶媒体に関する。

近年、人工知能の急速な発展に伴って、スマート音声技術はスマートスピーカー、スマートセットトップボックスなどの各種スマートデバイスに広く応用されており、スマートデバイスの音声インタラクションも消費者を引き付ける重要な要素の一つとなっている。スマート音声技術の分野では、音声スキルとは、特に音声を通じて提供される機能またはサービスを指す。例えば「天気を確認する」は音声スキルであり、「音楽を聞く」も一つのスキルである。したがって、音声スキルは音声機能を抽象化したものであり、多くの分散した音声機能を異なる種類の音声スキルとして抽象化する。

従来の技術では、ユーザが音声スキルを終了する必要がある場合、どの音声スキルを終了するかを明確に発声する必要があり、スマートデバイスによって識別され、音声スキルを終了する動作を実行することができる。実際のアプリケーションでは、ユーザがどの音声スキルを終了するかを明確に発声しない場合があり、またはユーザが音声スキルの名前を知らないなどの複雑な状況があり得ることで、スマートデバイスがユーザの終了意図を正確に認識できなくなり、ユーザの音声スキルに対する終了要求を満たすことができなくなり、音声インタラクションの流暢さが悪くなり、ユーザが音声スキルを使用する際の終了体験に影響を与える可能性がある。

本発明の実施例は、音声スキルに対するユーザの異なる終了要求に合致するために、音声スキルの終了方法、装置、デバイス、および記憶媒体を提供し、ユーザとデバイスとのインタラクションの流暢さと利便性を向上させ、ユーザが音声スキルを使用する際の終了体験を向上させる。

本発明の実施例の第１の態様では、音声スキルの終了方法が提供され、前記方法は、
ユーザの音声コマンドを受信するステップと、
前記ユーザの音声コマンドと予め設定された終了意図の文法的ルールに基づき、前記ユーザの音声コマンドに対応する目標終了意図を識別するステップと、
前記目標終了意図に応じて、デバイスの現在の音声スキルに対応する動作を行うステップと、を含む。

本発明の実施例の第２の態様では、音声スキルの終了装置が提供され、前記装置は、
ユーザの音声コマンドを受信するための受信モジュールと、
前記ユーザの音声コマンドと予め設定された終了意図の文法的ルールに基づき、前記ユーザの音声コマンドに対応する目標終了意図を識別するための意図識別モジュールと、
前記目標終了意図に応じて、デバイスの現在の音声スキルに対応する動作を行うための実行モジュールと、を含む。

本発明の実施例の第３の態様では、音声スキルの終了デバイスが提供され、前記デバイスは、
メモリと、
プロセッサと、
コンピュータプログラムと、を含み、
前記コンピュータプログラムは前記メモリに記憶され、前記プロセッサによって実行されることで、第１の態様に記載の方法を実現するように構成される。

本発明の実施例の第４の態様では、コンピュータプログラムが記憶されているコンピュータ可読記憶媒体が提供され、
前記コンピュータプログラムは、プロセッサによって実行されると、第１の態様に記載の方法を実現する。

本発明の実施例で提供される音声スキルの終了方法、装置、デバイス、および記憶媒体は、ユーザの音声コマンドを受信することによって、前記ユーザの音声コマンドと予め設定された終了意図の文法的ルールに基づき、前記ユーザの音声コマンドに対応する目標終了意図を識別し、前記目標終了意図に応じて、デバイスの現在の音声スキルに対応する動作を行う。本発明の実施例は、ユーザの終了意図を細分化して拡張し、ユーザの音声コマンドが属する目標終了意図を識別した後、目標終了意図に応じて対応する動作を行うことにより、ユーザの音声スキルに対する異なる終了要求により一致し、ユーザとデバイスとのインタラクションの流暢さと利便性を向上させ、ユーザが音声スキルを使用する際の終了体験を向上させる。

本発明の実施例又は従来技術の技術的解決手段をより明確に説明するため、以下に実施例又は従来技術の記述において必要な図面を用いて簡単に説明を行うが、当然ながら、以下に記載する図面は本発明のいくつかの実施例であり、当業者であれば、創造的な労力を要することなく、これらの図面に基づいて他の図面に想到しうる。

本発明の実施例によって提供される音声スキルの終了方法のフローチャートである。本発明の実施例によって提供される音声スキルの終了装置の構成図である。本発明の実施例によって提供される音声スキルの終了デバイスの構成図である。

以下、本発明の実施例に係る図面を参照しながら、その技術的解決手段について明瞭、且つ完全に説明し、当然のことながら、記載される実施例は本発明の実施例の一部にすぎず、そのすべての実施例ではない。当業者が本発明における実施例に基づいて創造的な労力を要することなく取得されたその他のすべての実施例は、いずれも本発明の保護範囲に属する。

図１は、本発明の実施例によって提供される音声スキルの終了方法のフローチャートである。本実施例は、音声スキルの終了方法を提供し、当該方法の具体的なステップは以下の通りである。
Ｓ１０１、ユーザの音声コマンドを受信する。

本実施例では、ユーザの音声をデバイス上のマイクロフォンで収集し、ユーザの音声コマンドを取得することができる。具体的には、音声認識技術（ＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ，ＡＳＲ）などの技術により音声をテキストに変換することができ、ユーザの音声コマンドを得ることができる。

Ｓ１０２、前記ユーザの音声コマンドと予め設定された終了意図の文法的ルールに基づき、前記ユーザ音声コマンドに対応する目標終了意図を識別する。

本実施例では、予め異なる状況に従って終了意図を異なる種類に区分して、例えば、終了意図は、電源オフの意図、明確な終了意図、曖昧な終了意図のうちの少なくとも１つを含むことができる。異なる終了意図に応じて対応する動作を行う必要があるが、その中で電源オフの意図は、ユーザの音声コマンドには、デバイスの電源オフの必要性を明確に示すものである。例えば、ユーザの音声コマンドは「シャットダウンしてくれ」であり、その対応する動作はデバイスをシャットダウンすることである。明確な終了意図は、ユーザの音声コマンドには、デバイスの現在の音声スキル（現在の機能または現在のサービス）を終了する必要があることが明確に示されているものである。例えば、ユーザの音声コマンドは「終了してくれ」であり、その対応する動作はデバイスの現在の音声スキルを終了することである。曖昧な終了意図は、終了、停止するなどの意図があるが、ユーザの音声コマンドには、デバイスの現在の音声スキルを終了する必要が明確に示されていない。例えば、「寝る／お風呂に入る／仕事する」、「やめる」、「止めてくれ」など曖昧な終了意図があるユーザの音声コマンドには、デバイスの現在の音声スキルを終了する必要があるとは明確に示されていない。そのため、その対応する動作は、電源オフの意図、明確な終了意図と比べてより複雑であり、デバイスの現在の音声スキル、シーンなどの様々な要因に従って具体的に分析する必要がある。例えば、デバイスの現在の音声スキルによってユーザの音声コマンドに応答したり、デバイスの現在の音声スキルを一時停止したり、デバイスの現在の音声スキルを終了したりすることができる。

本実施例では、異なる予め設定された終了意図について、異なる文法的ルールをそれぞれ配置することにより、ユーザの音声コマンドを予め設定された終了意図の各文法的ルールにマッチし、さらにユーザの音声コマンドに対応する目標終了意図を識別することができる。例えば、電源オフの意図の文法的ルールは、「［シャットダウン／オフオフ］してよ／してくれ／して／してくれよ／しろ／する」、または「［デバイス／スピーカー／小度在家（モニタ付スピーカーの商品名）／小度スピーカー（スピーカーの商品名）］を＋［ターンオフ／オフ／クローズ／電源オフ／シャットダウン］してよ／してくれ／して／してくれよ／しろ／する」である。文法的ルールにはいくつかのキーワードが含まれ、ユーザの音声コマンドを文法的ルールにマッチすることができる。ユーザの音声コマンドが、ある文法的ルールのすべてのキーワードを含む場合、当該文法的ルールとマッチすることを表し、さらに当該文法的ルールに対応する予め設定された終了意図がユーザの音声コマンドに対応する目標終了コマンドであることを確認することができる。また、マッチングの過程においても、ユーザの音声コマンドを分詞し、分詞結果を文法的ルールのキーワードにマッチすることができる。

Ｓ１０３、前記目標終了意図に応じて、デバイスの現在の音声スキルに対応する動作を行う。

本実施例では、ユーザの音声コマンドに対応する目標終了意図を取得した後、目標終了コマンドに従ってデバイスの現在の音声スキルに対応する動作を行う。具体的には、例えば目標終了意図が電源オフの意図である場合には、デバイスに対してシャットダウンの動作を行うことができ、目標終了意図が明確な終了意図である場合には、デバイスの現在の音声スキルを終了し、目標終了意図が曖昧な終了意図である場合には、さらなる判断を経て対応動作を行うことができる。

本発明の実施例で提供される音声スキルの終了方法、装置、デバイス、および記憶媒体は、ユーザの音声コマンドを受信することによって、前記ユーザの音声コマンドと予め設定された終了意図の文法的ルールに基づき、前記ユーザの音声コマンドに対応する目標終了意図を識別し、前記目標終了意図に応じて、デバイスの現在の音声スキルに対応する動作を行う。本実施例は、ユーザの終了意図を細分化して拡張し、ユーザの音声コマンドが属する目標終了意図を識別した後、目標終了意図に応じて対応する動作を行うことにより、ユーザの音声スキルに対する異なる終了要求により一致し、ユーザとデバイスとのインタラクションの流暢さと利便性を向上させ、ユーザが音声スキルを使用する際の終了体験を向上させる。

上記の実施例に基づき、Ｓ１０３に記載の前記目標終了意図に応じて、デバイスの現在の音声スキルに対応する動作を行うステップは、具体的に、
前記目標終了意図が前記電源オフの意図であると識別されると、前記電源オフの意図に応じて前記デバイスをシャットダウンするステップを含む。

本実施例では、電源オフの意図の文法的ルールを予め設定しておくことができ、具体的には、以下に示したようなものであってよく、
［シャットダウン／オフオフ］してよ／してくれ／して／してくれよ／しろ／する
［デバイス／スピーカー／小度在家／小度スピーカー］を＋［ターンオフ／オフ／クローズ／電源オフ／シャットダウン］してよ／してくれ／して／してくれよ／しろ／する
［シャットダウン］してくれ／する／したい／してくれないか／して／していい／してくれないかしら／してください／してくださいませんか
［デバイス／スピーカー／小度在家／小度スピーカー］を＋［ターンオフ／オフ／クローズ／電源オフ／シャットダウン］してくれ／する／したい／してくれないか／して／していい／してくれないかしら／してください／してくださいませんか
上記の文法的ルールには、「シャットダウン」「デバイスをターンオフ」などのキーワードが明確に含まれている必要があり、そうでないと、ユーザが本当にシャットダウンする意図があるかどうかを正確に判断できなくなり、誤ってシャットダウンすることになりうる。本実施例では、ユーザの音声コマンドを上記の文法的ルールにマッチすることができ、マッチできれば、ユーザの音声コマンドに対応する目標終了意図は電源オフの意図であると判断することができ、さらに、電源オフの意図に応じてデバイスをターンオフにすることができる。また、ユーザの音声コマンドには、シャットダウン時間、再開始時間などのデバイスのシャットダウンに関するパラメータが含まれてもよく、目標終了意図が電源オフの意図であると決定された後、ユーザの音声コマンドからシャットダウンに関するパラメータを取り込むことができ、さらにシャットダウンに関するパラメータに基づいてデバイスをシャットダウンすることができる。

上記のいずれかの実施例に基づき、Ｓ１０３に記載の前記目標終了意図に応じて、デバイスの現在の音声スキルに対応する動作を行うステップは、
前記目標終了意図が前記明確な終了意図であると識別されると、前記明確な終了意図に応じて前記デバイスの現在の音声スキルを終了するステップを含む。

本実施例では、明確な終了意図の文法的ルールを予め設定しておくことができ、具体的には、以下に示したようなものであってよく、
［終了／終了、終了／エグジット／ターンオフ／オフ］してよ／してくれ／して／してくれよ／しろ／する
［スキル／サービス／アプリケーション／ゲーム］を＋［終了／終了、終了／エグジット／ターンオフ／オフ］してよ／してくれ／して／してくれよ／しろ／する
［終了／終了、終了／エグジット／ターンオフ／オフ］してくれ／する／したい／してくれないか／して／していい／してくれないかしら／してください／してくださいませんか
［スキル／サービス／アプリケーション／ゲーム］を＋［終了／終了、終了／エグジット／ターンオフ／オフ］してくれ／する／したい／してくれないか／して／していい／してくれないかしら／してください／してくださいませんか
上記の文法的ルールには、「終了」「スキルをターンオフ」などのキーワードが明確に含まれている必要があり、そうでないと、ユーザが本当に音声スキルを終了する意図があるかどうかを正確に判断できなくなる。つまり、明確な終了意図であるかどうかも正確に判断できなくなり、誤って終了することになりうる。本実施例では、ユーザの音声コマンドを上記の文法的ルールにマッチすることができ、マッチできれば、ユーザの音声コマンドに対応する目標終了意図は明確な終了意図であると決定することができ、さらに、明確な終了意図に応じてデバイスの現在の音声スキルを終了することができる。

上記のいずれかの実施例に基づき、Ｓ１０３に記載の前記目標終了意図に応じて、デバイスの現在の音声スキルに対応する動作を行うステップは、
前記目標終了意図が前記曖昧な終了意図であると識別されると、前記デバイスの現在の音声スキルが前記ユーザの音声コマンドに応答することができるかどうかを判断するステップ、
前記デバイスの現在の音声スキルが応答できる場合、前記デバイスの現在の音声スキルによって前記ユーザの音声コマンドに対応する応答動作を実行するステップ、及び／又は
前記デバイスの現在の音声スキルが応答できない場合、前記デバイスの現在の音声スキルを終了するステップ、を含む。

本実施例では、曖昧な終了意図の文法的ルールを予め設定しておくことができ、具体的には、以下に示したようなものであってよく、
［戻る／休憩／休憩、休憩／寝る／風呂に入る／宿題を書く／仕事をする］してよ／してくれ／して／してくれよ／しろ／する
［戻る／休憩／休憩、休憩／寝る／寝］＋してくれ／したい／してくれないか／して／していい／してくれないかしら／してください／してくださいませんか
［風呂に入る／宿題を書く／仕事をする］＋してくれ／したい／しに行く／する
［遊ぶ］ない／したくない／ないで／ないよ
上記の文法的ルールには音声スキルを終了するキーワードが明確に含まれていないが、ある程度の終了意向を持っている。デバイスの現在の音声スキルは上記の文法的ルールを満たすユーザの音声コマンドにも応答できる可能性がある。例えば、ユーザの音声コマンドは「もう寝る」であり、デバイスの現在の音声スキルは当該ユーザの音声コマンドに応答することができ、子守唄や睡眠に効く物語などを再生したりする。この際、デバイスの現在の音声スキルを終了すると、子守唄や睡眠に効く物語を再生するユーザのニーズが満たされない可能性がある。したがって、ユーザの音声コマンドが上記の文法的ルールにマッチできる場合、デバイスの現在の音声スキルがユーザの音声コマンドに応答できるかどうかを判断する必要があり、応答可能であれば、デバイスの現在の音声スキルによってユーザの音声コマンドに対応する応答動作を実行することができ、応答できない場合、デバイスの現在の音声スキルを終了する。

なお、デバイスの現在の音声スキルがユーザの音声コマンドに応答できると判断した場合、現在の音声スキルによる応答と、デバイスの現在の音声スキルを終了する動作との間の優先度をユーザによって予め設定し、当該優先度に基づいて具体的にどの動作を採用するかを決定してもよい。例えば、上記のユーザの音声コマンドは「もう寝る」というものであり、デバイスの現在の音声スキルが当該ユーザの音声コマンドに応答できる場合、ユーザで設定された、デバイスの現在の音声スキルを終了する動作の優先度が現在の音声スキルによる応答の優先度より高く設定されていると、たとえ現在の音声スキルが「もう寝る」に応答し、子守唄や睡眠に効く物語を再生したりすることができるとしても、現在の音声スキルを終了する動作を優先することになる。

上記のいずれかの実施例に基づき、Ｓ１０３に記載の前記目標終了意図に応じて、デバイスの現在の音声スキルに対応する動作を行うステップは、
前記目標終了意図が前記曖昧な終了意図であると識別されると、前記デバイスの現在の音声スキルのシーンを判断するステップ、
前記デバイスの現在の音声スキルのシーンがマルチメディア再生シーンである場合、マルチメディアの再生を一時停止するステップ、及び／又は
前記デバイスの現在の音声スキルのシーンがマルチメディア再生シーンでない場合、前記デバイスの現在の音声スキルを終了するステップ、を含む。

本実施例では、他の曖昧な終了意図の文法的ルールを予め設定しておくことができ、具体的には、以下に示したようなものであってよく、
［停止／止める／ストップ／ポーズ］してよ／してくれ／して／してくれよ／しろ／する
［機能／サービス／アプリケーション／ゲーム／ステージクリア／クイズ］＋［停止／止める／ストップ／ポーズ］
［機能／サービス／アプリケーション／ゲーム／ステージクリア／クイズ］＋［停止／止める／ストップ／ポーズ］＋［してくれ／したい／してくれないか／して／していい／してくれないかしら／してください／してくださいませんか］
［話さないでください／話さないで／やめて／やめてくれ／話すのをやめて／静かにしてくれ／静かにして／静かに／騒がないで／話さないでくれ］
上記の文法的ルールにも音声スキルを終了するキーワードが明確に含まれていないが、ある程度の終了意向がある。ユーザの音声コマンドが上記の文法的ルールにマッチする場合、デバイスの現在の音声スキルのシーンを取得し、さらに現在の音声スキルのシーンに応じて対応動作を行うことができる。具体的には、デバイスの現在の音声スキルのシーンがマルチメディア再生シーンである場合、例えば、音楽、ビデオ、ゲーム、ステージクリア、クイズなどを再生したりする場合には、ユーザの音声コマンドに従ってマルチメディアの再生を一時停止することができ、上記のマルチメディア再生シーンでない場合には、デバイスの現在の音声スキルを終了することより、マルチメディア再生シーンでのユーザの一時停止、およびその他のシーンでのデバイスの現在の音声スキルを終了するなど異なる動作を実現できる。

さらに、上記の実施例に基づき、目標終了意図が曖昧な終了意図であることを識別した後、デバイスの現在の音声スキルが前記ユーザの音声コマンドに応答できるかどうかを先に判断することができる。応答できる場合、デバイスの現在の音声スキルによってユーザの音声コマンドに対応する応答動作が実行され、応答できない場合、デバイスの現在の音声スキルのシーンがマルチメディア再生シーンであるかどうかを判断し、そうである場合は、マルチメディアの再生を一時停止し、そうでない場合は、前記デバイスの現在の音声スキルを終了する。

上記の実施例に基づき、予め設定された終了意図が、電源オフの意図、明確な終了意図、曖昧な終了意図を含む場合には、電源オフの意図の優先度を最も高く、次に明確な終了意図、曖昧な終了意図を最も低く設定することができる。すなわち、マッチする場合には、まずユーザ音声コマンドを電源オフの意図の文法的ルールにマッチし、マッチングが成功の場合、他の予め設定された終了意図にマッチする必要がなく、マッチングが成功できない場合、ユーザの音声コマンドを明確な終了意図の文法ルールにマッチする。同じように、マッチングが成功の場合、曖昧な終了意図の文法的ルールにマッチする必要がなく、マッチングが成功できない場合、最後に、音声コマンドを曖昧な終了意図の文法ルールにマッチする。

図２は、本発明の実施例によって提供される音声スキルの終了装置の構成図である。本実施例によって提供される音声スキルの終了装置は、音声スキルの終了方法の実施例で提供された処理プロセスを実行することができ、図２に示すように、前記音声スキルの終了装置は、受信モジュール２１と、意図識別モジュール２２と、実行モジュール２３とを含む。

受信モジュール２１は、ユーザの音声コマンドを受信するためのものであり、
意図識別モジュール２２は、前記ユーザの音声コマンドと予め設定された終了意図の文法的ルールに基づき、前記ユーザの音声コマンドに対応する目標終了意図を識別するためのものであり、
実行モジュール２３は、前記目標終了意図に応じて、デバイスの現在の音声スキルに対応する動作を行うためのものである。

上記のいずれかの実施例に基づき、前記予め設定された終了意図は、電源オフの意図、明確な終了意図、曖昧な終了意図のうちの少なくとも１つを含む。

上記のいずれかの実施例に基づき、前記実行モジュール２３は、
前記目標終了意図が電源オフの意図であると識別されると、前記電源オフの意図に応じて前記デバイスをシャットダウンするためのものである。

上記のいずれかの実施例に基づき、前記実行モジュール２３は、
前記目標終了意図が明確な終了意図であると識別されると、前記明確な終了意図に応じて前記デバイスの現在の音声スキルを終了するためのものである。

上記のいずれかの実施例に基づき、前記実行モジュール２３は、
前記目標終了意図が前記曖昧な終了意図であると識別されると、前記デバイスの現在の音声スキルが前記ユーザの音声コマンドに応答するかどうかを判断すること、
前記デバイスの現在の音声スキルが応答できる場合、前記デバイスの現在の音声スキルによって前記ユーザの音声コマンドに対応する応答動作を実行すること、及び／又は
前記デバイスの現在の音声スキルが応答できない場合、前記デバイスの現在の音声スキルを終了することに用いられる。

上記のいずれかの実施例に基づき、前記実行モジュール２３は、
前記目標終了意図が前記曖昧な終了意図であると識別されると、前記デバイスの現在の音声スキルのシーンを判断すること、
前記デバイスの現在の音声スキルのシーンがマルチメディア再生シーンである場合、マルチメディアの再生を一時停止すること、及び／又は
前記デバイスの現在の音声スキルのシーンがマルチメディア再生シーンでない場合、前記デバイスの現在の音声スキルを終了することに用いられる。

本発明の実施例によって提供される音声スキルの終了装置は、具体的に上記の図１によって提供される方法の実施例を実行するためのものであってもよく、具体的な機能について、ここでは説明を省略する。

本発明の実施例で提供される音声スキルの終了装置は、ユーザの音声コマンドを受信することによって、前記ユーザの音声コマンドと予め設定された終了意図の文法的ルールに基づき、前記ユーザの音声コマンドに対応する目標終了意図を識別し、前記目標終了意図に応じて、デバイスの現在の音声スキルに対応する動作を行う。本発明の実施例は、ユーザの終了意図を細分化して拡張し、ユーザの音声コマンドが属する目標終了意図を識別した後、目標終了意図に応じて対応する動作を行うことにより、ユーザの音声スキルに対する異なる終了要求により一致し、ユーザとデバイスとのインタラクションの流暢さと利便性を向上させ、ユーザが音声スキルを使用する際の終了体験を向上させる。

図３は、本発明の実施例によって提供される音声スキルの終了装置の構成図である。本発明の実施例によって提供される音声スキルの終了デバイスは、音声スキルの終了方法の実施例で提供された処理プロセスを実行することができ、図３に示すように、音声スキルの終了デバイス３０は、メモリ３１、プロセッサ３２、コンピュータプログラムおよび通信インタフェース３３を含み、コンピュータプログラムはメモリ３１に記憶され、プロセッサ３３によって上記の実施例に記載の音声スキルの終了方法が実行されるように構成されている。

図３に示す実施例の音声スキルの終了デバイスは、上記の方法の実施例の技術的な解決手段を実行するためのものであってもよく、その実現原理と技術的効果は同様であり、ここでは説明を省略する。

さらに、本実施例は、上述した実施例に記載の音声スキルの終了方法を実現するために、プロセッサによって実行されるコンピュータプログラムを記憶したコンピュータ可読記憶媒体を提供する。

本発明によって提供されるいくつかの実施例では、開示した装置および方法は、他の方法で実現され得ることが理解されるべきである。例えば、上述した装置の実施例は単に概略的なものであり、例えば、ユニットの区分は、論理機能の区分にすぎず、実際に実装される場合は、他の区分があってもよい。例えば、複数のユニットまたはコンポーネントは、結合してもよく、または別のシステムに統合されてもよく、または一部の特徴は無視されてもよく、または実行されなくてもよい。または、表示または議論された相互間のカップリングまたは直接カップリングまたは通信接続は、いくつかのインタフェース、装置またはユニットの間接カップリングまたは通信接続を介して行われ、電気的、機械的または他の形態であってもよい。

分離手段として説明されたユニットは、物理的に分離されていてもよいし、いなくてもよい。ユニットとして表示された構成要素は、物理的なユニットであってもよいし、でなくてもよい。つまり、一箇所に位置しても良いし、あるいは複数のネットワークユニットに分散しても良い。本実施例の解決手段の目的は、実際の必要に応じて、その中の一部または全部のユニットを選択して実現することができる。

また、本発明の各実施例における各機能ユニットは、１つの処理ユニットに統合されてもよく、各ユニットが個別に物理的に存在してもよく、２つ又は２つ以上のユニットが１つのユニットに統合されてもよい。上述の統合されたユニットは、ハードウェアとして実現されてもよく、ハードウェアプラスソフトウェアの機能ユニットとして実現されてもよい。

上記のソフトウェア機能ユニットとして実現された統合されたユニットは、コンピュータ読み取り可能記憶媒体に記憶されてもよい。上記のソフトウェア機能ユニットは、１つの記憶媒体に格納され、１台のコンピュータデバイス（パーソナルコンピュータ、サーバ、またはネットワークデバイスなどであってよい）またはプロセッサ（ｐｒｏｃｅｓｓｏｒ）が本発明の様々な実施例における方法の一部のステップを実行するようにするためのいくつかの命令を含む。上記の記憶媒体は、Ｕディスク、リムーバブルハードディスク、リードオンリーメモリ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ，ＲＯＭ）、ランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ，ＲＡＭ）、磁気ディスクまたは光ディスクなど、プログラムコードを記憶することができる様々な媒体を含む。

当業者であれば、説明の便利さと簡潔さのために、上述の各機能モジュールの区分のみを例に挙げて説明したが、実際の応用では、上述の機能の割り当ては、必要に応じて異なる機能モジュールによって行われてもよく、すなわち、装置の内部構造は、上述の機能の全部または一部を完了するために異なる機能ブロックに分割されることになることを明瞭に理解することができる。上記で説明した装置の具体的な動作手順は、上記の方法の実施例における対応するプロセスを参照してもよく、ここでは説明を省略する。

最後に説明すべきものとして、以上の各実施例は、本発明の技術的解決手段を説明するためのものであって、これを制限するものではなく、前述の各実施例を参照しながら本発明を詳細に説明するが、当業者であれば、依然として前述の各実施例に記載の技術的解決手段を修正するか、又はそのうちの一部又はすべての技術的特徴に対して同等置換を行うことができ、これらの修正又は置換は、対応する技術的解決手段の本質を本発明の各実施例の技術的解決手段の範囲から逸脱しないと理解すべきである。

Claims

ユーザの音声コマンドを受信するステップと、
前記ユーザの音声コマンドと予め設定された終了意図の文法的ルールに基づき、前記ユーザの音声コマンドに対応する目標終了意図を識別するステップであって、前記予め設定された終了意図は、電源オフの意図、明確な終了意図、及び曖昧な終了意図を含む、識別するステップと、
前記目標終了意図に応じて、デバイスの現在の音声スキルに対応する動作を行うステップと、を含み、
前記目標終了意図に応じて、デバイスの現在の音声スキルに対応する動作を行うステップは、
前記目標終了意図が前記曖昧な終了意図であると識別されると、前記デバイスの現在の音声スキルが前記ユーザの音声コマンドに応答するかどうかを判断するステップ、
前記デバイスの現在の音声スキルが応答できる場合、前記デバイスの現在の音声スキルによって前記ユーザの音声コマンドに対応する応答動作を実行するステップ、及び／又は、
前記デバイスの現在の音声スキルが応答できない場合、前記デバイスの現在の音声スキルを終了するステップ、を含むことを特徴とする、音声スキルの終了方法。
前記目標終了意図に応じて、デバイスの現在の音声スキルに対応する動作を行うステップは、
前記目標終了意図が前記電源オフの意図であると識別されると、前記電源オフの意図に応じて前記デバイスをシャットダウンするステップ、を含むことを特徴とする請求項１に記載の方法。
前記目標終了意図に応じて、デバイスの現在の音声スキルに対応する動作を行うステップは、
前記目標終了意図が前記明確な終了意図であると識別されると、前記明確な終了意図に応じて前記デバイスの現在の音声スキルを終了するステップ、を含むことを特徴とする請求項１に記載の方法。
前記目標終了意図に応じて、デバイスの現在の音声スキルに対応する動作を行うステップは、
前記目標終了意図が前記曖昧な終了意図であると識別されると、前記デバイスの現在の音声スキルのシーンを判断するステップ、
前記デバイスの現在の音声スキルのシーンがマルチメディア再生シーンである場合、マルチメディアの再生を一時停止するステップ、及び／又は、
前記デバイスの現在の音声スキルのシーンがマルチメディア再生シーンでない場合、前記デバイスの現在の音声スキルを終了するステップ、を含むことを特徴とする請求項１に記載の方法。
前記電源オフの意図、前記明確な終了意図、及び前記曖昧な終了意図の優先度を予め設定することを特徴とする請求項１に記載の方法。
ユーザの音声コマンドを受信するための受信モジュールと、
前記ユーザの音声コマンドと予め設定された終了意図の文法的ルールに基づき、前記ユーザの音声コマンドに対応する目標終了意図を識別するための意図識別モジュールであって、前記予め設定された終了意図は、電源オフの意図、明確な終了意図、及び曖昧な終了意図を含む意図識別モジュールと、
前記目標終了意図に応じて、デバイスの現在の音声スキルに対応する動作を行うための実行モジュールと、を含み、
前記実行モジュールは、
前記目標終了意図が前記曖昧な終了意図であると識別されると、前記デバイスの現在の音声スキルが前記ユーザの音声コマンドに応答するかどうかを判断し、
前記デバイスの現在の音声スキルが応答できる場合、前記デバイスの現在の音声スキルによって前記ユーザの音声コマンドに対応する応答動作を実行し、及び／又は、
前記デバイスの現在の音声スキルが応答できない場合、前記デバイスの現在の音声スキルを終了するように構成されていることを特徴とする、音声スキルの終了装置。
前記実行モジュールは、
前記目標終了意図が電源オフの意図であると識別されると、前記電源オフの意図に応じて前記デバイスをシャットダウンするように構成されていることを特徴とする請求項６に記載の装置。
前記実行モジュールは、
前記目標終了意図が前記明確な終了意図であると識別されると、前記明確な終了意図に応じて前記デバイスの現在の音声スキルを終了するように構成されていることを特徴とする請求項６に記載の装置。
前記実行モジュールは、
前記目標終了意図が前記曖昧な終了意図であると識別されると、前記デバイスの現在の音声スキルのシーンを判断し、
前記デバイスの現在の音声スキルのシーンがマルチメディア再生シーンである場合、マルチメディアの再生を一時停止し、及び／又は
前記デバイスの現在の音声スキルのシーンがマルチメディア再生シーンでない場合、前記デバイスの現在の音声スキルを終了するように構成されていることを特徴とする請求項６に記載の装置。
前記電源オフの意図、前記明確な終了意図、及び前記曖昧な終了意図の優先度を予め設定することを特徴とする請求項６に記載の装置。
メモリと、
プロセッサと、
コンピュータプログラムと、を含み、
前記コンピュータプログラムは前記メモリに記憶され、前記プロセッサによって実行されることで、請求項１～請求項５のいずれか１項に記載の方法を実現するように構成されることを特徴とする、音声スキルの終了デバイス。
記憶されているコンピュータプログラムは、プロセッサによって実行されると、請求項１～請求項５のいずれか１項に記載の方法を実現することを特徴とする、コンピュータ可読記憶媒体。