JP7053693B2 - 音声スキルの終了方法、装置、デバイスおよび記憶媒体 - Google Patents

音声スキルの終了方法、装置、デバイスおよび記憶媒体 Download PDF

Info

Publication number
JP7053693B2
JP7053693B2 JP2020019049A JP2020019049A JP7053693B2 JP 7053693 B2 JP7053693 B2 JP 7053693B2 JP 2020019049 A JP2020019049 A JP 2020019049A JP 2020019049 A JP2020019049 A JP 2020019049A JP 7053693 B2 JP7053693 B2 JP 7053693B2
Authority
JP
Japan
Prior art keywords
intention
skill
user
voice
current voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020019049A
Other languages
English (en)
Other versions
JP2021009350A (ja
Inventor
ホアン タン
シャオ チョウ
リャンチョン ウー
Original Assignee
バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド
シャンハイ シャオドゥ テクノロジー カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド, シャンハイ シャオドゥ テクノロジー カンパニー リミテッド filed Critical バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド
Publication of JP2021009350A publication Critical patent/JP2021009350A/ja
Application granted granted Critical
Publication of JP7053693B2 publication Critical patent/JP7053693B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本発明は、通信技術の分野に関し、特に音声スキルの終了方法、装置、デバイス、および記憶媒体に関する。
近年、人工知能の急速な発展に伴って、スマート音声技術はスマートスピーカー、スマートセットトップボックスなどの各種スマートデバイスに広く応用されており、スマートデバイスの音声インタラクションも消費者を引き付ける重要な要素の一つとなっている。スマート音声技術の分野では、音声スキルとは、特に音声を通じて提供される機能またはサービスを指す。例えば「天気を確認する」は音声スキルであり、「音楽を聞く」も一つのスキルである。したがって、音声スキルは音声機能を抽象化したものであり、多くの分散した音声機能を異なる種類の音声スキルとして抽象化する。
従来の技術では、ユーザが音声スキルを終了する必要がある場合、どの音声スキルを終了するかを明確に発声する必要があり、スマートデバイスによって識別され、音声スキルを終了する動作を実行することができる。実際のアプリケーションでは、ユーザがどの音声スキルを終了するかを明確に発声しない場合があり、またはユーザが音声スキルの名前を知らないなどの複雑な状況があり得ることで、スマートデバイスがユーザの終了意図を正確に認識できなくなり、ユーザの音声スキルに対する終了要求を満たすことができなくなり、音声インタラクションの流暢さが悪くなり、ユーザが音声スキルを使用する際の終了体験に影響を与える可能性がある。
本発明の実施例は、音声スキルに対するユーザの異なる終了要求に合致するために、音声スキルの終了方法、装置、デバイス、および記憶媒体を提供し、ユーザとデバイスとのインタラクションの流暢さと利便性を向上させ、ユーザが音声スキルを使用する際の終了体験を向上させる。
本発明の実施例の第1の態様では、音声スキルの終了方法が提供され、前記方法は、
ユーザの音声コマンドを受信するステップと、
前記ユーザの音声コマンドと予め設定された終了意図の文法的ルールに基づき、前記ユーザの音声コマンドに対応する目標終了意図を識別するステップと、
前記目標終了意図に応じて、デバイスの現在の音声スキルに対応する動作を行うステップと、を含む。
本発明の実施例の第2の態様では、音声スキルの終了装置が提供され、前記装置は、
ユーザの音声コマンドを受信するための受信モジュールと、
前記ユーザの音声コマンドと予め設定された終了意図の文法的ルールに基づき、前記ユーザの音声コマンドに対応する目標終了意図を識別するための意図識別モジュールと、
前記目標終了意図に応じて、デバイスの現在の音声スキルに対応する動作を行うための実行モジュールと、を含む。
本発明の実施例の第3の態様では、音声スキルの終了デバイスが提供され、前記デバイスは、
メモリと、
プロセッサと、
コンピュータプログラムと、を含み、
前記コンピュータプログラムは前記メモリに記憶され、前記プロセッサによって実行されることで、第1の態様に記載の方法を実現するように構成される。
本発明の実施例の第4の態様では、コンピュータプログラムが記憶されているコンピュータ可読記憶媒体が提供され、
前記コンピュータプログラムは、プロセッサによって実行されると、第1の態様に記載の方法を実現する。
本発明の実施例で提供される音声スキルの終了方法、装置、デバイス、および記憶媒体は、ユーザの音声コマンドを受信することによって、前記ユーザの音声コマンドと予め設定された終了意図の文法的ルールに基づき、前記ユーザの音声コマンドに対応する目標終了意図を識別し、前記目標終了意図に応じて、デバイスの現在の音声スキルに対応する動作を行う。本発明の実施例は、ユーザの終了意図を細分化して拡張し、ユーザの音声コマンドが属する目標終了意図を識別した後、目標終了意図に応じて対応する動作を行うことにより、ユーザの音声スキルに対する異なる終了要求により一致し、ユーザとデバイスとのインタラクションの流暢さと利便性を向上させ、ユーザが音声スキルを使用する際の終了体験を向上させる。
本発明の実施例又は従来技術の技術的解決手段をより明確に説明するため、以下に実施例又は従来技術の記述において必要な図面を用いて簡単に説明を行うが、当然ながら、以下に記載する図面は本発明のいくつかの実施例であり、当業者であれば、創造的な労力を要することなく、これらの図面に基づいて他の図面に想到しうる。
本発明の実施例によって提供される音声スキルの終了方法のフローチャートである。 本発明の実施例によって提供される音声スキルの終了装置の構成図である。 本発明の実施例によって提供される音声スキルの終了デバイスの構成図である。
以下、本発明の実施例に係る図面を参照しながら、その技術的解決手段について明瞭、且つ完全に説明し、当然のことながら、記載される実施例は本発明の実施例の一部にすぎず、そのすべての実施例ではない。当業者が本発明における実施例に基づいて創造的な労力を要することなく取得されたその他のすべての実施例は、いずれも本発明の保護範囲に属する。
図1は、本発明の実施例によって提供される音声スキルの終了方法のフローチャートである。本実施例は、音声スキルの終了方法を提供し、当該方法の具体的なステップは以下の通りである。
S101、ユーザの音声コマンドを受信する。
本実施例では、ユーザの音声をデバイス上のマイクロフォンで収集し、ユーザの音声コマンドを取得することができる。具体的には、音声認識技術(Automatic Speech Recognition,ASR)などの技術により音声をテキストに変換することができ、ユーザの音声コマンドを得ることができる。
S102、前記ユーザの音声コマンドと予め設定された終了意図の文法的ルールに基づき、前記ユーザ音声コマンドに対応する目標終了意図を識別する。
本実施例では、予め異なる状況に従って終了意図を異なる種類に区分して、例えば、終了意図は、電源オフの意図、明確な終了意図、曖昧な終了意図のうちの少なくとも1つを含むことができる。異なる終了意図に応じて対応する動作を行う必要があるが、その中で電源オフの意図は、ユーザの音声コマンドには、デバイスの電源オフの必要性を明確に示すものである。例えば、ユーザの音声コマンドは「シャットダウンしてくれ」であり、その対応する動作はデバイスをシャットダウンすることである。明確な終了意図は、ユーザの音声コマンドには、デバイスの現在の音声スキル(現在の機能または現在のサービス)を終了する必要があることが明確に示されているものである。例えば、ユーザの音声コマンドは「終了してくれ」であり、その対応する動作はデバイスの現在の音声スキルを終了することである。曖昧な終了意図は、終了、停止するなどの意図があるが、ユーザの音声コマンドには、デバイスの現在の音声スキルを終了する必要が明確に示されていない。例えば、「寝る/お風呂に入る/仕事する」、「やめる」、「止めてくれ」など曖昧な終了意図があるユーザの音声コマンドには、デバイスの現在の音声スキルを終了する必要があるとは明確に示されていない。そのため、その対応する動作は、電源オフの意図、明確な終了意図と比べてより複雑であり、デバイスの現在の音声スキル、シーンなどの様々な要因に従って具体的に分析する必要がある。例えば、デバイスの現在の音声スキルによってユーザの音声コマンドに応答したり、デバイスの現在の音声スキルを一時停止したり、デバイスの現在の音声スキルを終了したりすることができる。
本実施例では、異なる予め設定された終了意図について、異なる文法的ルールをそれぞれ配置することにより、ユーザの音声コマンドを予め設定された終了意図の各文法的ルールにマッチし、さらにユーザの音声コマンドに対応する目標終了意図を識別することができる。例えば、電源オフの意図の文法的ルールは、「[シャットダウン/オフオフ]してよ/してくれ/して/してくれよ/しろ/する」、または「[デバイス/スピーカー/小度在家(モニタ付スピーカーの商品名)/小度スピーカー(スピーカーの商品名)]を+[ターンオフ/オフ/クローズ/電源オフ/シャットダウン]してよ/してくれ/して/してくれよ/しろ/する」である。文法的ルールにはいくつかのキーワードが含まれ、ユーザの音声コマンドを文法的ルールにマッチすることができる。ユーザの音声コマンドが、ある文法的ルールのすべてのキーワードを含む場合、当該文法的ルールとマッチすることを表し、さらに当該文法的ルールに対応する予め設定された終了意図がユーザの音声コマンドに対応する目標終了コマンドであることを確認することができる。また、マッチングの過程においても、ユーザの音声コマンドを分詞し、分詞結果を文法的ルールのキーワードにマッチすることができる。
S103、前記目標終了意図に応じて、デバイスの現在の音声スキルに対応する動作を行う。
本実施例では、ユーザの音声コマンドに対応する目標終了意図を取得した後、目標終了コマンドに従ってデバイスの現在の音声スキルに対応する動作を行う。具体的には、例えば目標終了意図が電源オフの意図である場合には、デバイスに対してシャットダウンの動作を行うことができ、目標終了意図が明確な終了意図である場合には、デバイスの現在の音声スキルを終了し、目標終了意図が曖昧な終了意図である場合には、さらなる判断を経て対応動作を行うことができる。
本発明の実施例で提供される音声スキルの終了方法、装置、デバイス、および記憶媒体は、ユーザの音声コマンドを受信することによって、前記ユーザの音声コマンドと予め設定された終了意図の文法的ルールに基づき、前記ユーザの音声コマンドに対応する目標終了意図を識別し、前記目標終了意図に応じて、デバイスの現在の音声スキルに対応する動作を行う。本実施例は、ユーザの終了意図を細分化して拡張し、ユーザの音声コマンドが属する目標終了意図を識別した後、目標終了意図に応じて対応する動作を行うことにより、ユーザの音声スキルに対する異なる終了要求により一致し、ユーザとデバイスとのインタラクションの流暢さと利便性を向上させ、ユーザが音声スキルを使用する際の終了体験を向上させる。
上記の実施例に基づき、S103に記載の前記目標終了意図に応じて、デバイスの現在の音声スキルに対応する動作を行うステップは、具体的に、
前記目標終了意図が前記電源オフの意図であると識別されると、前記電源オフの意図に応じて前記デバイスをシャットダウンするステップを含む。
本実施例では、電源オフの意図の文法的ルールを予め設定しておくことができ、具体的には、以下に示したようなものであってよく、
[シャットダウン/オフオフ]してよ/してくれ/して/してくれよ/しろ/する
[デバイス/スピーカー/小度在家/小度スピーカー]を+[ターンオフ/オフ/クローズ/電源オフ/シャットダウン]してよ/してくれ/して/してくれよ/しろ/する
[シャットダウン]してくれ/する/したい/してくれないか/して/していい/してくれないかしら/してください/してくださいませんか
[デバイス/スピーカー/小度在家/小度スピーカー]を+[ターンオフ/オフ/クローズ/電源オフ/シャットダウン]してくれ/する/したい/してくれないか/して/していい/してくれないかしら/してください/してくださいませんか
上記の文法的ルールには、「シャットダウン」「デバイスをターンオフ」などのキーワードが明確に含まれている必要があり、そうでないと、ユーザが本当にシャットダウンする意図があるかどうかを正確に判断できなくなり、誤ってシャットダウンすることになりうる。本実施例では、ユーザの音声コマンドを上記の文法的ルールにマッチすることができ、マッチできれば、ユーザの音声コマンドに対応する目標終了意図は電源オフの意図であると判断することができ、さらに、電源オフの意図に応じてデバイスをターンオフにすることができる。また、ユーザの音声コマンドには、シャットダウン時間、再開始時間などのデバイスのシャットダウンに関するパラメータが含まれてもよく、目標終了意図が電源オフの意図であると決定された後、ユーザの音声コマンドからシャットダウンに関するパラメータを取り込むことができ、さらにシャットダウンに関するパラメータに基づいてデバイスをシャットダウンすることができる。
上記のいずれかの実施例に基づき、S103に記載の前記目標終了意図に応じて、デバイスの現在の音声スキルに対応する動作を行うステップは、
前記目標終了意図が前記明確な終了意図であると識別されると、前記明確な終了意図に応じて前記デバイスの現在の音声スキルを終了するステップを含む。
本実施例では、明確な終了意図の文法的ルールを予め設定しておくことができ、具体的には、以下に示したようなものであってよく、
[終了/終了、終了/エグジット/ターンオフ/オフ]してよ/してくれ/して/してくれよ/しろ/する
[スキル/サービス/アプリケーション/ゲーム]を+[終了/終了、終了/エグジット/ターンオフ/オフ]してよ/してくれ/して/してくれよ/しろ/する
[終了/終了、終了/エグジット/ターンオフ/オフ]してくれ/する/したい/してくれないか/して/していい/してくれないかしら/してください/してくださいませんか
[スキル/サービス/アプリケーション/ゲーム]を+[終了/終了、終了/エグジット/ターンオフ/オフ]してくれ/する/したい/してくれないか/して/していい/してくれないかしら/してください/してくださいませんか
上記の文法的ルールには、「終了」「スキルをターンオフ」などのキーワードが明確に含まれている必要があり、そうでないと、ユーザが本当に音声スキルを終了する意図があるかどうかを正確に判断できなくなる。つまり、明確な終了意図であるかどうかも正確に判断できなくなり、誤って終了することになりうる。本実施例では、ユーザの音声コマンドを上記の文法的ルールにマッチすることができ、マッチできれば、ユーザの音声コマンドに対応する目標終了意図は明確な終了意図であると決定することができ、さらに、明確な終了意図に応じてデバイスの現在の音声スキルを終了することができる。
上記のいずれかの実施例に基づき、S103に記載の前記目標終了意図に応じて、デバイスの現在の音声スキルに対応する動作を行うステップは、
前記目標終了意図が前記曖昧な終了意図であると識別されると、前記デバイスの現在の音声スキルが前記ユーザの音声コマンドに応答することができるかどうかを判断するステップ、
前記デバイスの現在の音声スキルが応答できる場合、前記デバイスの現在の音声スキルによって前記ユーザの音声コマンドに対応する応答動作を実行するステップ、及び/又は
前記デバイスの現在の音声スキルが応答できない場合、前記デバイスの現在の音声スキルを終了するステップ、を含む。
本実施例では、曖昧な終了意図の文法的ルールを予め設定しておくことができ、具体的には、以下に示したようなものであってよく、
[戻る/休憩/休憩、休憩/寝る/風呂に入る/宿題を書く/仕事をする]してよ/してくれ/して/してくれよ/しろ/する
[戻る/休憩/休憩、休憩/寝る/寝]+してくれ/したい/してくれないか/して/していい/してくれないかしら/してください/してくださいませんか
[風呂に入る/宿題を書く/仕事をする]+してくれ/したい/しに行く/する
[遊ぶ]ない/したくない/ないで/ないよ
上記の文法的ルールには音声スキルを終了するキーワードが明確に含まれていないが、ある程度の終了意向を持っている。デバイスの現在の音声スキルは上記の文法的ルールを満たすユーザの音声コマンドにも応答できる可能性がある。例えば、ユーザの音声コマンドは「もう寝る」であり、デバイスの現在の音声スキルは当該ユーザの音声コマンドに応答することができ、子守唄や睡眠に効く物語などを再生したりする。この際、デバイスの現在の音声スキルを終了すると、子守唄や睡眠に効く物語を再生するユーザのニーズが満たされない可能性がある。したがって、ユーザの音声コマンドが上記の文法的ルールにマッチできる場合、デバイスの現在の音声スキルがユーザの音声コマンドに応答できるかどうかを判断する必要があり、応答可能であれば、デバイスの現在の音声スキルによってユーザの音声コマンドに対応する応答動作を実行することができ、応答できない場合、デバイスの現在の音声スキルを終了する。
なお、デバイスの現在の音声スキルがユーザの音声コマンドに応答できると判断した場合、現在の音声スキルによる応答と、デバイスの現在の音声スキルを終了する動作との間の優先度をユーザによって予め設定し、当該優先度に基づいて具体的にどの動作を採用するかを決定してもよい。例えば、上記のユーザの音声コマンドは「もう寝る」というものであり、デバイスの現在の音声スキルが当該ユーザの音声コマンドに応答できる場合、ユーザで設定された、デバイスの現在の音声スキルを終了する動作の優先度が現在の音声スキルによる応答の優先度より高く設定されていると、たとえ現在の音声スキルが「もう寝る」に応答し、子守唄や睡眠に効く物語を再生したりすることができるとしても、現在の音声スキルを終了する動作を優先することになる。
上記のいずれかの実施例に基づき、S103に記載の前記目標終了意図に応じて、デバイスの現在の音声スキルに対応する動作を行うステップは、
前記目標終了意図が前記曖昧な終了意図であると識別されると、前記デバイスの現在の音声スキルのシーンを判断するステップ、
前記デバイスの現在の音声スキルのシーンがマルチメディア再生シーンである場合、マルチメディアの再生を一時停止するステップ、及び/又は
前記デバイスの現在の音声スキルのシーンがマルチメディア再生シーンでない場合、前記デバイスの現在の音声スキルを終了するステップ、を含む。
本実施例では、他の曖昧な終了意図の文法的ルールを予め設定しておくことができ、具体的には、以下に示したようなものであってよく、
[停止/止める/ストップ/ポーズ]してよ/してくれ/して/してくれよ/しろ/する
[機能/サービス/アプリケーション/ゲーム/ステージクリア/クイズ]+[停止/止める/ストップ/ポーズ]
[機能/サービス/アプリケーション/ゲーム/ステージクリア/クイズ]+[停止/止める/ストップ/ポーズ]+[してくれ/したい/してくれないか/して/していい/してくれないかしら/してください/してくださいませんか]
[話さないでください/話さないで/やめて/やめてくれ/話すのをやめて/静かにしてくれ/静かにして/静かに/騒がないで/話さないでくれ]
上記の文法的ルールにも音声スキルを終了するキーワードが明確に含まれていないが、ある程度の終了意向がある。ユーザの音声コマンドが上記の文法的ルールにマッチする場合、デバイスの現在の音声スキルのシーンを取得し、さらに現在の音声スキルのシーンに応じて対応動作を行うことができる。具体的には、デバイスの現在の音声スキルのシーンがマルチメディア再生シーンである場合、例えば、音楽、ビデオ、ゲーム、ステージクリア、クイズなどを再生したりする場合には、ユーザの音声コマンドに従ってマルチメディアの再生を一時停止することができ、上記のマルチメディア再生シーンでない場合には、デバイスの現在の音声スキルを終了することより、マルチメディア再生シーンでのユーザの一時停止、およびその他のシーンでのデバイスの現在の音声スキルを終了するなど異なる動作を実現できる。
さらに、上記の実施例に基づき、目標終了意図が曖昧な終了意図であることを識別した後、デバイスの現在の音声スキルが前記ユーザの音声コマンドに応答できるかどうかを先に判断することができる。応答できる場合、デバイスの現在の音声スキルによってユーザの音声コマンドに対応する応答動作が実行され、応答できない場合、デバイスの現在の音声スキルのシーンがマルチメディア再生シーンであるかどうかを判断し、そうである場合は、マルチメディアの再生を一時停止し、そうでない場合は、前記デバイスの現在の音声スキルを終了する。
上記の実施例に基づき、予め設定された終了意図が、電源オフの意図、明確な終了意図、曖昧な終了意図を含む場合には、電源オフの意図の優先度を最も高く、次に明確な終了意図、曖昧な終了意図を最も低く設定することができる。すなわち、マッチする場合には、まずユーザ音声コマンドを電源オフの意図の文法的ルールにマッチし、マッチングが成功の場合、他の予め設定された終了意図にマッチする必要がなく、マッチングが成功できない場合、ユーザの音声コマンドを明確な終了意図の文法ルールにマッチする。同じように、マッチングが成功の場合、曖昧な終了意図の文法的ルールにマッチする必要がなく、マッチングが成功できない場合、最後に、音声コマンドを曖昧な終了意図の文法ルールにマッチする。
図2は、本発明の実施例によって提供される音声スキルの終了装置の構成図である。本実施例によって提供される音声スキルの終了装置は、音声スキルの終了方法の実施例で提供された処理プロセスを実行することができ、図2に示すように、前記音声スキルの終了装置は、受信モジュール21と、意図識別モジュール22と、実行モジュール23とを含む。
受信モジュール21は、ユーザの音声コマンドを受信するためのものであり、
意図識別モジュール22は、前記ユーザの音声コマンドと予め設定された終了意図の文法的ルールに基づき、前記ユーザの音声コマンドに対応する目標終了意図を識別するためのものであり、
実行モジュール23は、前記目標終了意図に応じて、デバイスの現在の音声スキルに対応する動作を行うためのものである。
上記のいずれかの実施例に基づき、前記予め設定された終了意図は、電源オフの意図、明確な終了意図、曖昧な終了意図のうちの少なくとも1つを含む。
上記のいずれかの実施例に基づき、前記実行モジュール23は、
前記目標終了意図が電源オフの意図であると識別されると、前記電源オフの意図に応じて前記デバイスをシャットダウンするためのものである。
上記のいずれかの実施例に基づき、前記実行モジュール23は、
前記目標終了意図が明確な終了意図であると識別されると、前記明確な終了意図に応じて前記デバイスの現在の音声スキルを終了するためのものである。
上記のいずれかの実施例に基づき、前記実行モジュール23は、
前記目標終了意図が前記曖昧な終了意図であると識別されると、前記デバイスの現在の音声スキルが前記ユーザの音声コマンドに応答するかどうかを判断すること、
前記デバイスの現在の音声スキルが応答できる場合、前記デバイスの現在の音声スキルによって前記ユーザの音声コマンドに対応する応答動作を実行すること、及び/又は
前記デバイスの現在の音声スキルが応答できない場合、前記デバイスの現在の音声スキルを終了することに用いられる。
上記のいずれかの実施例に基づき、前記実行モジュール23は、
前記目標終了意図が前記曖昧な終了意図であると識別されると、前記デバイスの現在の音声スキルのシーンを判断すること、
前記デバイスの現在の音声スキルのシーンがマルチメディア再生シーンである場合、マルチメディアの再生を一時停止すること、及び/又は
前記デバイスの現在の音声スキルのシーンがマルチメディア再生シーンでない場合、前記デバイスの現在の音声スキルを終了することに用いられる。
本発明の実施例によって提供される音声スキルの終了装置は、具体的に上記の図1によって提供される方法の実施例を実行するためのものであってもよく、具体的な機能について、ここでは説明を省略する。
本発明の実施例で提供される音声スキルの終了装置は、ユーザの音声コマンドを受信することによって、前記ユーザの音声コマンドと予め設定された終了意図の文法的ルールに基づき、前記ユーザの音声コマンドに対応する目標終了意図を識別し、前記目標終了意図に応じて、デバイスの現在の音声スキルに対応する動作を行う。本発明の実施例は、ユーザの終了意図を細分化して拡張し、ユーザの音声コマンドが属する目標終了意図を識別した後、目標終了意図に応じて対応する動作を行うことにより、ユーザの音声スキルに対する異なる終了要求により一致し、ユーザとデバイスとのインタラクションの流暢さと利便性を向上させ、ユーザが音声スキルを使用する際の終了体験を向上させる。
図3は、本発明の実施例によって提供される音声スキルの終了装置の構成図である。本発明の実施例によって提供される音声スキルの終了デバイスは、音声スキルの終了方法の実施例で提供された処理プロセスを実行することができ、図3に示すように、音声スキルの終了デバイス30は、メモリ31、プロセッサ32、コンピュータプログラムおよび通信インタフェース33を含み、コンピュータプログラムはメモリ31に記憶され、プロセッサ33によって上記の実施例に記載の音声スキルの終了方法が実行されるように構成されている。
図3に示す実施例の音声スキルの終了デバイスは、上記の方法の実施例の技術的な解決手段を実行するためのものであってもよく、その実現原理と技術的効果は同様であり、ここでは説明を省略する。
さらに、本実施例は、上述した実施例に記載の音声スキルの終了方法を実現するために、プロセッサによって実行されるコンピュータプログラムを記憶したコンピュータ可読記憶媒体を提供する。
本発明によって提供されるいくつかの実施例では、開示した装置および方法は、他の方法で実現され得ることが理解されるべきである。例えば、上述した装置の実施例は単に概略的なものであり、例えば、ユニットの区分は、論理機能の区分にすぎず、実際に実装される場合は、他の区分があってもよい。例えば、複数のユニットまたはコンポーネントは、結合してもよく、または別のシステムに統合されてもよく、または一部の特徴は無視されてもよく、または実行されなくてもよい。または、表示または議論された相互間のカップリングまたは直接カップリングまたは通信接続は、いくつかのインタフェース、装置またはユニットの間接カップリングまたは通信接続を介して行われ、電気的、機械的または他の形態であってもよい。
分離手段として説明されたユニットは、物理的に分離されていてもよいし、いなくてもよい。ユニットとして表示された構成要素は、物理的なユニットであってもよいし、でなくてもよい。つまり、一箇所に位置しても良いし、あるいは複数のネットワークユニットに分散しても良い。本実施例の解決手段の目的は、実際の必要に応じて、その中の一部または全部のユニットを選択して実現することができる。
また、本発明の各実施例における各機能ユニットは、1つの処理ユニットに統合されてもよく、各ユニットが個別に物理的に存在してもよく、2つ又は2つ以上のユニットが1つのユニットに統合されてもよい。上述の統合されたユニットは、ハードウェアとして実現されてもよく、ハードウェアプラスソフトウェアの機能ユニットとして実現されてもよい。
上記のソフトウェア機能ユニットとして実現された統合されたユニットは、コンピュータ読み取り可能記憶媒体に記憶されてもよい。上記のソフトウェア機能ユニットは、1つの記憶媒体に格納され、1台のコンピュータデバイス(パーソナルコンピュータ、サーバ、またはネットワークデバイスなどであってよい)またはプロセッサ(processor)が本発明の様々な実施例における方法の一部のステップを実行するようにするためのいくつかの命令を含む。上記の記憶媒体は、Uディスク、リムーバブルハードディスク、リードオンリーメモリ(Read-Only Memory,ROM)、ランダムアクセスメモリ(Random Access Memory,RAM)、磁気ディスクまたは光ディスクなど、プログラムコードを記憶することができる様々な媒体を含む。
当業者であれば、説明の便利さと簡潔さのために、上述の各機能モジュールの区分のみを例に挙げて説明したが、実際の応用では、上述の機能の割り当ては、必要に応じて異なる機能モジュールによって行われてもよく、すなわち、装置の内部構造は、上述の機能の全部または一部を完了するために異なる機能ブロックに分割されることになることを明瞭に理解することができる。上記で説明した装置の具体的な動作手順は、上記の方法の実施例における対応するプロセスを参照してもよく、ここでは説明を省略する。
最後に説明すべきものとして、以上の各実施例は、本発明の技術的解決手段を説明するためのものであって、これを制限するものではなく、前述の各実施例を参照しながら本発明を詳細に説明するが、当業者であれば、依然として前述の各実施例に記載の技術的解決手段を修正するか、又はそのうちの一部又はすべての技術的特徴に対して同等置換を行うことができ、これらの修正又は置換は、対応する技術的解決手段の本質を本発明の各実施例の技術的解決手段の範囲から逸脱しないと理解すべきである。

Claims (12)

  1. ユーザの音声コマンドを受信するステップと、
    前記ユーザの音声コマンドと予め設定された終了意図の文法的ルールに基づき、前記ユーザの音声コマンドに対応する目標終了意図を識別するステップであって、前記予め設定された終了意図は、電源オフの意図、明確な終了意図、及び曖昧な終了意図を含む、識別するステップと、
    前記目標終了意図に応じて、デバイスの現在の音声スキルに対応する動作を行うステップと、を含み、
    前記目標終了意図に応じて、デバイスの現在の音声スキルに対応する動作を行うステップは、
    前記目標終了意図が前記曖昧な終了意図であると識別されると、前記デバイスの現在の音声スキルが前記ユーザの音声コマンドに応答するかどうかを判断するステップ、
    前記デバイスの現在の音声スキルが応答できる場合、前記デバイスの現在の音声スキルによって前記ユーザの音声コマンドに対応する応答動作を実行するステップ、及び/又は、
    前記デバイスの現在の音声スキルが応答できない場合、前記デバイスの現在の音声スキルを終了するステップ、を含むことを特徴とする、音声スキルの終了方法。
  2. 前記目標終了意図に応じて、デバイスの現在の音声スキルに対応する動作を行うステップは、
    前記目標終了意図が前記電源オフの意図であると識別されると、前記電源オフの意図に応じて前記デバイスをシャットダウンするステップ、を含むことを特徴とする請求項1に記載の方法。
  3. 前記目標終了意図に応じて、デバイスの現在の音声スキルに対応する動作を行うステップは、
    前記目標終了意図が前記明確な終了意図であると識別されると、前記明確な終了意図に応じて前記デバイスの現在の音声スキルを終了するステップ、を含むことを特徴とする請求項1に記載の方法。
  4. 前記目標終了意図に応じて、デバイスの現在の音声スキルに対応する動作を行うステップは、
    前記目標終了意図が前記曖昧な終了意図であると識別されると、前記デバイスの現在の音声スキルのシーンを判断するステップ、
    前記デバイスの現在の音声スキルのシーンがマルチメディア再生シーンである場合、マルチメディアの再生を一時停止するステップ、及び/又は、
    前記デバイスの現在の音声スキルのシーンがマルチメディア再生シーンでない場合、前記デバイスの現在の音声スキルを終了するステップ、を含むことを特徴とする請求項1に記載の方法。
  5. 前記電源オフの意図、前記明確な終了意図、及び前記曖昧な終了意図の優先度を予め設定することを特徴とする請求項1に記載の方法。
  6. ユーザの音声コマンドを受信するための受信モジュールと、
    前記ユーザの音声コマンドと予め設定された終了意図の文法的ルールに基づき、前記ユーザの音声コマンドに対応する目標終了意図を識別するための意図識別モジュールであって、前記予め設定された終了意図は、電源オフの意図、明確な終了意図、及び曖昧な終了意図を含む意図識別モジュールと、
    前記目標終了意図に応じて、デバイスの現在の音声スキルに対応する動作を行うための実行モジュールと、を含み、
    前記実行モジュールは、
    前記目標終了意図が前記曖昧な終了意図であると識別されると、前記デバイスの現在の音声スキルが前記ユーザの音声コマンドに応答するかどうかを判断し、
    前記デバイスの現在の音声スキルが応答できる場合、前記デバイスの現在の音声スキルによって前記ユーザの音声コマンドに対応する応答動作を実行し、及び/又は、
    前記デバイスの現在の音声スキルが応答できない場合、前記デバイスの現在の音声スキルを終了するように構成されていることを特徴とする、音声スキルの終了装置。
  7. 前記実行モジュールは、
    前記目標終了意図が電源オフの意図であると識別されると、前記電源オフの意図に応じて前記デバイスをシャットダウンするように構成されていることを特徴とする請求項に記載の装置。
  8. 前記実行モジュールは、
    前記目標終了意図が前記明確な終了意図であると識別されると、前記明確な終了意図に応じて前記デバイスの現在の音声スキルを終了するように構成されていることを特徴とする請求項に記載の装置。
  9. 前記実行モジュールは、
    前記目標終了意図が前記曖昧な終了意図であると識別されると、前記デバイスの現在の音声スキルのシーンを判断し、
    前記デバイスの現在の音声スキルのシーンがマルチメディア再生シーンである場合、マルチメディアの再生を一時停止し、及び/又は
    前記デバイスの現在の音声スキルのシーンがマルチメディア再生シーンでない場合、前記デバイスの現在の音声スキルを終了するように構成されていることを特徴とする請求項に記載の装置。
  10. 前記電源オフの意図、前記明確な終了意図、及び前記曖昧な終了意図の優先度を予め設定することを特徴とする請求項に記載の装置。
  11. メモリと、
    プロセッサと、
    コンピュータプログラムと、を含み、
    前記コンピュータプログラムは前記メモリに記憶され、前記プロセッサによって実行されることで、請求項1~請求項のいずれか1項に記載の方法を実現するように構成されることを特徴とする、音声スキルの終了デバイス。
  12. 記憶されているコンピュータプログラムは、プロセッサによって実行されると、請求項1~請求項のいずれか1項に記載の方法を実現することを特徴とする、コンピュータ可読記憶媒体。
JP2020019049A 2019-07-02 2020-02-06 音声スキルの終了方法、装置、デバイスおよび記憶媒体 Active JP7053693B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910587670.0 2019-07-02
CN201910587670.0A CN110322873B (zh) 2019-07-02 2019-07-02 语音技能的退出方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
JP2021009350A JP2021009350A (ja) 2021-01-28
JP7053693B2 true JP7053693B2 (ja) 2022-04-12

Family

ID=68122324

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020019049A Active JP7053693B2 (ja) 2019-07-02 2020-02-06 音声スキルの終了方法、装置、デバイスおよび記憶媒体

Country Status (3)

Country Link
US (1) US11580974B2 (ja)
JP (1) JP7053693B2 (ja)
CN (1) CN110322873B (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110784384B (zh) * 2019-10-16 2021-11-02 杭州九阳小家电有限公司 一种家电语音技能的生成方法及智能家电

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015535971A (ja) 2012-09-12 2015-12-17 サムスン エレクトロニクス カンパニー リミテッド ディスプレイ装置及びその制御方法
US20180308483A1 (en) 2017-04-21 2018-10-25 Lg Electronics Inc. Voice recognition apparatus and voice recognition method

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6505155B1 (en) * 1999-05-06 2003-01-07 International Business Machines Corporation Method and system for automatically adjusting prompt feedback based on predicted recognition accuracy
JP2001221480A (ja) * 2000-02-08 2001-08-17 Mitsubishi Heavy Ind Ltd 空気調和機およびその制御方法
US6978247B1 (en) * 2000-06-07 2005-12-20 Avaya Technology Corp. Multimedia customer care center having a layered control architecture
JP2010183205A (ja) * 2009-02-03 2010-08-19 Panasonic Electric Works Co Ltd 通話システム
US9570086B1 (en) * 2011-11-18 2017-02-14 Google Inc. Intelligently canceling user input
CN102538143B (zh) * 2012-02-06 2014-02-26 美的集团股份有限公司 语音智能搜索引擎空调系统及其控制方法
US9734839B1 (en) * 2012-06-20 2017-08-15 Amazon Technologies, Inc. Routing natural language commands to the appropriate applications
CN103945044A (zh) * 2013-01-22 2014-07-23 中兴通讯股份有限公司 一种信息处理方法和移动终端
CN103414830A (zh) * 2013-08-28 2013-11-27 上海斐讯数据通信技术有限公司 基于语音实现快速关机的方法及系统
CN104599669A (zh) * 2014-12-31 2015-05-06 乐视致新电子科技(天津)有限公司 一种语音控制方法和装置
CN106356059A (zh) * 2015-07-17 2017-01-25 中兴通讯股份有限公司 语音控制方法、装置及投影仪设备
CN106992009B (zh) * 2017-05-03 2020-04-24 深圳车盒子科技有限公司 车载语音交互方法、系统及计算机可读存储介质
CN107274899B (zh) * 2017-07-20 2020-08-04 广东美的制冷设备有限公司 空调器语音控制方法、装置、空调器及可读存储介质
US10796687B2 (en) * 2017-09-06 2020-10-06 Amazon Technologies, Inc. Voice-activated selective memory for voice-capturing devices
CN109474843B (zh) 2017-09-08 2021-09-03 腾讯科技(深圳)有限公司 语音操控终端的方法、客户端、服务器
CN107657031A (zh) * 2017-09-28 2018-02-02 四川长虹电器股份有限公司 基于Android系统管理智能音箱语音技能的方法
CN107833573B (zh) * 2017-10-23 2021-02-09 上海百芝龙网络科技有限公司 一种基于机器学习的家庭场景语义理解辅助方法
CN109903758B (zh) * 2017-12-08 2023-06-23 阿里巴巴集团控股有限公司 音频处理方法、装置及终端设备
CN108831470A (zh) * 2018-08-24 2018-11-16 深圳伊讯科技有限公司 一种通过语音控制bms的方法与系统
CN109358856B (zh) * 2018-10-12 2020-12-15 四川长虹电器股份有限公司 一种语音技能发布方法
CN109710129A (zh) * 2018-12-20 2019-05-03 斑马网络技术有限公司 语音技能命令引导方法、装置、存储介质及电子设备
CN109901899A (zh) * 2019-01-28 2019-06-18 百度在线网络技术(北京)有限公司 视频语音技能处理方法、装置、设备及可读存储介质
CN110234032B (zh) * 2019-05-07 2022-02-25 百度在线网络技术(北京)有限公司 一种语音技能创建方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015535971A (ja) 2012-09-12 2015-12-17 サムスン エレクトロニクス カンパニー リミテッド ディスプレイ装置及びその制御方法
US20180308483A1 (en) 2017-04-21 2018-10-25 Lg Electronics Inc. Voice recognition apparatus and voice recognition method

Also Published As

Publication number Publication date
CN110322873B (zh) 2022-03-01
CN110322873A (zh) 2019-10-11
US11580974B2 (en) 2023-02-14
JP2021009350A (ja) 2021-01-28
US20210005193A1 (en) 2021-01-07

Similar Documents

Publication Publication Date Title
EP3721605B1 (en) Streaming radio with personalized content integration
US20140036022A1 (en) Providing a conversational video experience
CN109326289A (zh) 免唤醒语音交互方法、装置、设备及存储介质
CN111050201B (zh) 数据处理方法、装置、电子设备及存储介质
WO2017084185A1 (zh) 基于语义分析的智能终端控制方法、系统及智能终端
US10298640B1 (en) Overlaying personalized content on streaming audio
JP6783339B2 (ja) 音声を処理する方法及び装置
EP3916538B1 (en) Creating a cinematic storytelling experience using network-addressable devices
WO2021196617A1 (zh) 一种语音交互方法、装置、电子设备及存储介质
JP7051799B2 (ja) 音声認識制御方法、装置、電子デバイス及び読み取り可能な記憶媒体
WO2019137114A1 (zh) 语音控制处理方法及装置
CN106792048B (zh) 一种识别智能电视用户语音命令的方法和装置
CN111294606B (zh) 直播处理方法、装置、直播客户端及介质
CN110751948A (zh) 一种语音识别方法、装置、存储介质及语音设备
CN110769280A (zh) 一种接续播放文件的方法及装置
WO2019228138A1 (zh) 音乐播放方法、装置、存储介质及电子设备
CN106648530A (zh) 语音控制方法及终端
WO2020135773A1 (zh) 数据处理方法、装置及计算机可读存储介质
CN111001156A (zh) 应用于猜成语游戏的语音处理方法及装置
CN113779208A (zh) 用于人机对话的方法和装置
JP7053693B2 (ja) 音声スキルの終了方法、装置、デバイスおよび記憶媒体
CN109903762B (zh) 一种语音控制方法、装置、存储介质及语音设备
CN109524024B (zh) 一种音频播放方法、介质、装置和计算设备
US20160163313A1 (en) Information processing method and electronic device
CN112786031B (zh) 人机对话方法及系统

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200206

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210316

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20210531

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210614

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20211026

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220221

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20220221

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20220303

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20220308

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220322

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220331

R150 Certificate of patent or registration of utility model

Ref document number: 7053693

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150