JP2021056485A

JP2021056485A - 音声制御方法、音声制御装置、電子デバイス、および読み取り可能な記憶媒体

Info

Publication number: JP2021056485A
Application number: JP2019238252A
Authority: JP
Inventors: ヨンシールォ，; Yongxi Luo; シャシャワン，; Shasha Wang
Original assignee: Baidu Online Network Technology Beijing Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd
Priority date: 2019-09-29
Filing date: 2019-12-27
Publication date: 2021-04-08
Also published as: KR20210038277A; CN112581969A; EP3799038A1; US20210097992A1

Abstract

【課題】ユーザは、ウェイクワードを連続的に入力する必要がなく、ユーザ設定期間内にオーディオストリームを連続的に入力するだけで、電子デバイスとの連続的なインタラクションを実現することができ、ユーザの操作を簡素化し、異なるタイプのユーザのニーズを満たし、ユーザ体験を改善する。【解決手段】ウェイクワードに基づいてオーディオクリップを収集するように第１動作状態を実行し、オーディオクリップの第１制御意図を取得し、次にユーザ設定期間内にオーディオを連続的に収集してオーディオストリームを取得し、オーディオストリームの第２制御意図を取得するように、第１制御意図にマッチングする制御命令を実行し、実行されている前記第１動作状態を第２動作状態に切り替え、次に前記第２制御意図にマッチングする制御命令を実行する。【選択図】図１

Description

本出願は、音声認識および人工知能の技術分野に関し、特に、音声制御方法、音声制御装置、電子デバイス、および読み取り可能な記憶媒体に関する。

人工知能技術および端末技術の持続的な発展に伴い、人工知能製品、たとえばスマートスピーカなどの電子デバイスが絶えずに普及され、ユーザは、対応する制御命令を実行するように電子デバイスを音声で制御することができる。ユーザが電子デバイスと音声インタラクションを行うとき、電子デバイスの所定のリスリング時間が短すぎるため、ユーザは、電子デバイスとインタラクションできるように、ウェイクワードを繰り返し入力する必要が有り、ユーザ体験に影響する。

本出願は、関連技術における技術的課題の少なくとも１つをある程度解決することを目的とする。
本出願は、ユーザがリスニング時間をカスタマイズすることにより、電子デバイスと音声インタラクションする際に、異なるタイプのユーザのニーズを満たし、ユーザ体験を向上させることができる音声制御方法、音声制御装置、電子デバイス、および読み取り可能な記憶媒体を提供する。

本出願の第１態様の実施例は、ウェイクワードに基づいてオーディオクリップを収集するように第１動作状態を実行するステップと、前記オーディオクリップの第１制御意図を取得するステップと、ユーザ設定期間内にオーディオを連続的に収集してオーディオストリームを取得し、前記オーディオストリームの第２制御意図を取得するように、前記第１制御意図にマッチングする制御命令を実行し、実行されている前記第１動作状態を第２動作状態に切り替えるステップと、前記第２制御意図にマッチングする制御命令を実行するステップと、を含む音声制御方法を提供する。

本出願の実施例の第１の可能な実施例として、ユーザ設定期間内にオーディオを連続的に収集してオーディオストリームを取得し、前記オーディオストリームの音声認識によって得られた第２制御意図を取得するステップは、前記第２動作状態の構成情報を読み出し、ユーザの操作に応答して設定された前記ユーザ設定期間を取得するステップと、前記ユーザ設定期間内にオーディオを連続的に収集してオーディオストリームを取得し、前記オーディオストリームの第２制御意図を取得するステップと、前記ユーザ設定期間内に前記第２制御意図が取得されなかった場合、前記第２動作状態を前記第１動作状態に切り替えるステップと、を含む。

本出願の実施例の第２の可能な実施例として、前記オーディオストリームの第２制御意図を取得するステップは、オーディオストリームの音声認識によって得られた情報ストリームを取得するステップと、前記情報ストリームから各候補意図を取得するステップと、各候補意図から、現在のシーンにマッチングする第２制御意図をスクリーニングするステップと、を含む。

本出願の実施例の第３の可能な実施例として、前記情報ストリームから各候補意図を取得するステップの後に、現在のシーンにマッチングしない候補意図への応答を拒否するステップをさらに含む。

本出願の実施例の第４の可能な実施例として、前記第１動作状態を第２動作状態に切り替えるステップの前に、前記第１制御意図が現在のシーンにマッチングすると決定するステップをさらに含む。

本出願の第２態様の実施例は、ウェイクワードに基づいてオーディオクリップを収集するように第１動作状態を実行するように構成される実行モジュールと、前記オーディオクリップの第１制御意図を取得するように構成される取得モジュールと、ユーザ設定期間内にオーディオを連続的に収集してオーディオストリームを取得し、前記オーディオストリームの第２制御意図を取得するように、前記第１制御意図にマッチングする制御命令を実行し、実行されている前記第１動作状態を第２動作状態に切り替えるように構成される切り替えモジュールと、前記第２制御意図にマッチングする制御命令を実行するように構成される制御モジュールと、を含む音声制御装置を提供する。

本出願の第３態様の実施例は、電子デバイスを提供し、前記電子デバイスは、少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサに通信可能に接続されたメモリとを含み、前記メモリに前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、前記命令は前記少なくとも１つのプロセッサによって実行されることにより、前記少なくとも１つのプロセッサは本出願の第１態様に係る音声制御方法を実行可能である。

本出願の第４態様の実施例は、コンピュータ命令の非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、本出願の第１態様の実施例に係る音声制御方法をコンピュータに実行させるためのものである。

上記出願の実施例は、以下の利点または有益な効果を有する。
ウェイクワードに基づいてオーディオクリップを収集するように第１動作状態を実行し、オーディオクリップの第１制御意図を取得し、かつユーザ設定期間内にオーディオを連続的に収集してオーディオストリームを取得し、オーディオストリームの第２制御意図を取得するように、第１制御意図にマッチングする制御命令を実行し、実行されている第１動作状態を第２動作状態に切り替え、第２制御意図にマッチングする制御命令を実行する。これにより、ユーザは、ウェイクワードを連続的に入力する必要がなく、ユーザ設定期間内にオーディオストリームを連続的に入力するだけで、電子デバイスとの連続的なインタラクションを実現することができ、ユーザの操作を簡素化し、異なるタイプのユーザのニーズを満たし、ユーザ体験を改善することができる。

上記の選択可能な実施例が有する他の効果について、具体的な実施例と併せて以下に説明する。

図面は、本出願の構成をよりよく理解するためのものであり、本出願を限定するものではない。本出願の上記および／または追加の態様および利点は、図面と併せて実施例の以下の説明により明らかになり、理解されやすくなる。
本出願の実施例１に係る音声制御方法の概略フローチャートである。本出願の実施例２に係る音声制御方法の概略フローチャートである。本出願の実施例３に係る音声制御方法の概略フローチャートである。本出願の実施例４に係る音声制御装置の概略構成図である。本出願の実施例５に係る電子デバイスの概略構成図である。

本出願の例示的な実施例について、図面を参照して以下に説明する。理解を容易にするために、その中に本出願の実施例の様々な詳細が含まれ、それらは単なる例示と見なされるべきである。したがって、当業者は、本出願の範囲および精神から逸脱することなく、本明細書に記載の実施例に様々な変更および修正を加えることができることを認識すべきである。また、明確さおよび簡潔さのために、周知の機能および構成の説明は、以下の説明では省略される。

本発明の実施例に係る音声制御方法、音声制御装置、電子デバイス、及び読み取り可能な記録媒体について、図面を参照して以下に説明する。

図１は、本出願の実施例１に係る音声制御方法の概略フローチャートである。
本発明の実施例において、音声制御方法が音声制御装置で構成されることを例示している。当該音声制御装置は、任意の電子デバイスに適用されることにより、電子デバイスが音声制御機能を実行することができる。

ここで、電子デバイスは、パーソナルコンピュータ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ、ＰＣと略称する）、クラウドデバイス、モバイルデバイス、スマートスピーカなどであってもよい。モバイルデバイスは、たとえば、携帯電話、タブレットコンピュータ、携帯情報端末、ウェアラブルデバイス、カーデバイスなどの、さまざまなオペレーティングシステム、タッチスクリーンおよび／またはディスプレイを搭載したハードウェアデバイスであってもよい。

図１に示すように、当該音声制御方法は、以下のステップ１０１〜ステップ１０４を含むことができる。

ステップ１０１において、ウェイクワードに基づいてオーディオクリップを収集するように第１動作状態を実行する。

本発明の実施例において、第１動作状態は非リスニング状態であってもよい。当該電子デバイスが当該非リスニング状態にあるとき、ユーザは、ウェイクワードを音声で入力し、ユーザによって入力されたウェイクワードに基づいてオーディオクリップを収集することができる。

本出願の実施例では、ウェイクワードは、電子デバイスの内蔵プログラムによって予め設定されてもよく、または、ユーザのパーソナライズニーズを満たすために、ウェイクワードは、自分のニーズに応じてユーザによって設定されてもよく、本出願はこれについて限定しない。たとえば、電子デバイスがスマートスピーカである場合、ウェイクワードは「小度小度（ドちゃんドちゃん）」であってもよい。

本出願の実施例では、電子デバイスが第１動作状態にあるとき、電子デバイスは、ユーザがウェイクワードを入力したか否かを検出することができる。ユーザがウェイクワードを入力したと検出された場合、ユーザがウェイクワードに続いて入力したオーディオクリップを収集して、音声認識を行うことができる。

たとえば、電子デバイスがスマートスピーカである場合、当該スマートスピーカが当該第１動作状態にあるとき、スマートスピーカのウェイクワード「小度小度」であることを例とする。ユーザが「小度小度、歌Ａを再生してください」または「小度小度、歌を聴きたい」という音声を入力したことが検出された場合、電子デバイスは、ウェイクワードに続くオーディオクリップ「歌Ａを再生してください」または「歌を聴きたい」を認識することができる。

ステップ１０２において、オーディオクリップの第１制御意図を取得する。

本出願の実施例では、制御意図は、電子デバイスの内蔵プログラムによって予め設定されてもよく、または、当該方法の柔軟性および適用可能性を向上させるために、制御意図は、キーワードを介してユーザによって設定されてもよく、これについて限定しない。たとえば、制御意図は、音声ビデオの再生、天気のクエリ、目覚まし時計の設定などであってもよい。

なお、後に収集されるユーザによって入力されたオーディオストリームに対応する制御意図と区別するために、電子デバイスが第１動作状態にあるときに取得されたオーディオクリップに対応する制御意図を第１制御意図とする。

本出願の実施例では、電子デバイスが第１動作状態にあるとき、ユーザがウェイクワードを入力した後、ユーザによって入力されたウェイクワードに続くオーディオクリップを収集して、音声認識を行い、オーディオクリップの第１制御意図を取得する。

たとえば、電子デバイスがスマートスピーカであることを例とし、ユーザが音声で「小度小度、明日の午前９時に目覚まし時計を設定してください」または「小度小度、目覚まし時計を設定したい」と入力したことが検出されると、当該スマートスピーカは、ウェイクワードに続く「明日の午前９時に目覚まし時計を設定してください」または「目覚まし時計を設定したい」というオーディオクリップを認識することができる。当該オーディオクリップに対応する第１制御意図は、目覚まし時計を設定することである。

ステップ１０３において、ユーザ設定期間内にオーディオを連続的に収集してオーディオストリームを取得し、オーディオストリームの第２制御意図を取得するように、第１制御意図にマッチングする制御命令を実行し、実行されている第１動作状態を第２動作状態に切り替える。

ここで、ユーザ設定期間は、ユーザの操作に応答して電子デバイスによって設定される任意の時間であってもよく、設定期間は、無限であってもよいし、短いものであってもよく、本明細書では限定されない。たとえば、設定期間は、３０秒であってもよいし、３分間などであってもよい。

本出願の実施例では、第２動作状態は、リスニング状態であってもよい。電子デバイスが当該リスニング状態にあるとき、ユーザは、ウェイクワードを音声で入力する必要がなく、リアルタイムで音声制御命令を入力して、電子デバイスとインタラクションすることができる。

本出願の実施例では、第２制御意図は、電子デバイスの内蔵プログラムによって予め設定されてもよく、または、当該方法の柔軟性および適用性を向上させるために、第２制御意図は、ユーザによって設定されてもよく、本出願はこれについて限定しない。上記の第１制御意図と区別するために、第２動作状態ではオーディオストリームの音声認識によって得られた制御意図を第２制御意図とする。

本出願の実施例では、電子デバイスが第１動作状態にあるとき、ユーザがウェイクワードを入力した後に収集されたオーディオクリップに対応する第１制御意図が取得された後、第１制御意図が現在のシーンにマッチングすると決定された場合、第１制御意図にマッチングする制御命令を実行する。ユーザと電子デバイスとのリアルタイムまたは連続的なインタラクションを容易にするために、ウェイクワードを入力する必要はなく、この場合、ユーザ設定期間内にオーディオを連続的に収集してオーディオストリームを取得し、オーディオストリームの第２制御意図を取得するように、電子デバイスを第１動作状態から第２動作状態に切り替えることができる。

たとえば、現在のシーンがゲームシーンであり、電子デバイスが第１動作状態にあるときに取得された第１制御意図は「装備を購入」することであり、当該第１制御意図がゲームシーンにマッチングすると仮定すると、当該第１制御意図に対応する制御命令を実行する。

本出願の実施例では、電子デバイスが第２動作状態にあるとき、電子デバイスは、オーディオストリームに対応する第２制御意図を取得するために、オーディオストリームを取得するために、ユーザ設定期間内に連続的に音声を取得してもよい。したがって、ユーザが電子デバイスとのリアルタイムのインタラクションまたは連続的なインタラクションが必要な場合、ユーザ設定期間内に、ユーザは、ウェイクワードを連続的に入力する必要がなく、オーディオストリームを連続的に入力するだけで、電子デバイスとの連続的なインタラクションを実現することができ、ユーザの操作を簡素化し、異なるタイプのユーザのニーズを満たし、ユーザ体験を改善することができる。

依然として上記の例を例とし、ユーザ設定期間を３０秒にすると、スマートスピーカがリスニング状態にあるとき、ユーザは、第１制御意図にマッチングする制御命令を実行してからの３０秒内にウェイクワードを入力する必要がなく、オーディオストリームを音声で連続的に入力するだけで、「明日の天気はいかがですか」、「歌を再生しましょう」など、スマートスピーカと連続的にインタラクションして、ユーザによって連続的に入力された音声データに対応する第２制御意図を取得することができる。これにより、ユーザは、電子デバイスがリスニング状態にあるときのリスニング時間を自ら設定することができ、異なるタイプのユーザのニーズを満たすことができる。

ステップ１０４において、第２制御意図にマッチングする制御命令を実行する。
本出願の実施例では、電子デバイスが第２動作状態にあるとき、電子デバイスは、ユーザ設定期間内にオーディオを連続的に収集してオーディオストリームを取得し、オーディオストリームの音声認識を行い、オーディオストリームに対応する第２制御意図を取得した後、第２制御意図にマッチングする制御命令を実行する。

なお、「第１」、「第２」の用語は単に説明するためのものであり、比較的な重要性を指示又は暗示するか、又は示された技術的特徴の数を黙示的に指示すると理解してはならない。したがって、「第１」、「第２」が限定された特徴は、少なくとも１つの前記特徴を含むことを明示又は暗示する。

本発明の実施例に係る音声制御方法は、ウェイクワードに基づいてオーディオクリップを収集するように第１動作状態を実行し、オーディオクリップの第１制御意図を取得し、次にユーザ設定期間内にオーディオを連続的に収集してオーディオストリームを取得し、オーディオストリームの第２制御意図を取得するように、第１制御意図にマッチングする制御命令を実行し、実行されている第１動作状態を第２動作状態に切り替え、次に第２制御意図にマッチングする制御命令を実行する。これにより、ユーザは、ウェイクワードを連続的に入力する必要がなく、ユーザ設定期間内にオーディオストリームを連続的に入力するだけで、電子デバイスとの連続的なインタラクションを実現することができ、ユーザの操作を簡素化し、異なるタイプのユーザのニーズを満たし、ユーザ体験を改善することができる。

上記の実施例に基づいて、別の可能な場合では、上記のステップ１０３において、電子デバイスが第２動作状態にあるとき、電子デバイスは、ユーザ設定期間内にオーディオを連続的に収集してオーディオストリームを取得し、オーディオストリームの音声認識によって得られた第２制御意図を取得する際、ユーザ設定期間内に第２制御意図が取得されなかった場合、第２動作状態を第１動作状態に切り替える。上記のプロセスについて、実施例２と併せて以下に詳細に説明する。

図２は、本出願の実施例２に係る音声制御方法の概略フローチャートである。
図２に示すように、図１に示す実施例に基づいて、当該音声制御方法は、以下のステップ２０１〜ステップ２０５をさらに含むことができる。

ステップ２０１において、第２動作状態の構成情報を読み出し、ユーザの操作に応答して設定されたユーザ設定期間を取得する。
本出願の実施例では、電子デバイスが第１制御意図にマッチングする制御命令を実行し、第１状態を第２状態に切り替える場合、第２状態にある電子デバイスの構成情報を読み出して、ユーザ設定期間を取得する。

なお、ユーザ設定期間は、ユーザの操作に応答して電子デバイスによって設定される時間であり、ユーザのニーズに応じて設定された任意の時間であってもよく、無限であってもよいし、短いものであってもよく、本明細書では限定されない。

たとえば、第２動作状態がリスニング状態である場合、電子デバイスはリスニング状態にあり、電子デバイスとインタラクションするユーザの習慣は異なる。電子デバイスを常にリスニング状態にしようとするユーザがいれば、電子デバイスのリスニング時間が長過ぎると感じるユーザもいる。したがって、本発明の実施例において、電子デバイスのリスニング時間は、ユーザによって設定することができる。たとえば、異なるタイプのユーザのニーズを満たし、ユーザ体験を向上させために、リスニング時間を３分間に設定してもよいし、３０秒に設定してもよい。

ステップ２０２において、ユーザ設定期間内にオーディオを連続的に収集してオーディオストリームを取得し、オーディオストリームの第２制御意図を取得する。

本出願の実施例では、電子デバイスが第２動作状態にあるとき、電子デバイスは、ユーザ設定期間内にオーディオを連続的に収集してオーディオストリームを取得し、オーディオストリームに対応する第２制御意図を取得することができる。これにより、ユーザが電子デバイスとリアルタイムのインタラクションまたは連続的なインタラクションを実行する必要がある場合、ユーザ設定期間内に、ウェイクワードを連続的に入力する必要はなく、ユーザ設定期間内にオーディオストリームに対応する第２制御意図を連続的に収集するだけで、電子デバイスとの連続的なインタラクションを実現することができ、ユーザの操作を簡素化し、ユーザ使用体験を向上させることができる。

スステップ２０３において、ユーザ設定期間内に第２制御意図が取得されたか否かを判断する。
本出願の実施例では、電子デバイスが第２動作状態にあるとき、音声制御装置は、モニタリング方式で、ユーザ設定期間内に、ユーザが音声データを連続的に入力したか否かをモニタリングすることができる。ユーザ設定期間内に音声が連続的に収集されてオーディオストリームが取得された場合、ユーザ設定期間内に第２制御意図が取得されたか否かを判断する必要がある。

ステップ２０４において、ユーザ設定期間内に第２制御意図が取得されなかった場合、第２動作状態を第１動作状態に切り替える。
本出願の実施例では、電子デバイスが第２動作状態にあるとき、ユーザ設定期間内にオーディオを連続的に収集してオーディオストリームを取得し、オーディオストリームの第２制御意図を取得する。ユーザ設定期間内に第２制御意図が取得されなかった場合、電子デバイスを第２動作状態から第１動作状態に切り替える。

たとえば、電子デバイスがリスニング状態に入るとき、ユーザ設定期間内にユーザによって入力された音声データが収集されなかった場合、または電子デバイスが認識されたオーディオストリームから第２制御意図を取得できなかった場合、リスニング状態を終了し、非リスニング状態に切り替えることができる。たとえば、ユーザにより設定されたリスニング時間は３０秒であり、３０秒内に電子デバイスが第２制御意図を得なかった場合、電子デバイスを非リスニング状態に切り替える。この場合、ユーザは、電子デバイスとインタラクションし、ユーザが電子デバイスを制御したい場合は、ユーザは、対応するウェイクワードも入力する必要がある。

本出願の実施例では、ユーザ設定期間内に第２制御意図が取得されなかった場合、電子デバイスを第２動作状態から第１動作状態に切り替える。これにより、ユーザが電子デバイスを制御する意図がない場合、第２動作状態を終了するように電子デバイスを制御することにより、電子デバイスが常にリスニング状態または動作状態にあるという状況を回避し、電子デバイスのエネルギ消費を削減することができる。

本出願の実施例の可能な一実現形態として、電子デバイスが第２動作状態にあるとき、電子デバイスの表示インターフェィスにおける第１要素を第２要素に置き換え、第３要素を表示することができる。ここで、第１要素は、電子デバイスが第１動作状態にあることを提示するためのものであり、第２要素は、電子デバイスが第２動作状態にあることを提示するためのものであり、第３要素は、ウェイクワードを提示する、および／または、オーディオまたはビデオを再生するためのものである。

１つの適用シーンとして、現在のシーンがゲームシーンであることを例とし、電子デバイスが第２動作状態にあるとき、すなわち、電子デバイスがリスニング状態にあるとき、ユーザが電子デバイスの現在の状態情報を知ることを容易にするために、電子デバイスのインターフェイスにおける第１要素を第２要素に置き換えることができる。電子デバイスがユーザ設定期間内に第２制御状態を得ていないため、電子デバイスは第２動作状態を終了する。この場合、ユーザはウェイクワードを再入力する必要がある。したがって、第３要素を表示してウェイクワードを提示する必要がある。

ステップ２０５において、ユーザ設定期間内に第２制御意図が得られた場合、第２制御意図にマッチングする制御命令を実行する。
本出願の実施例では、電子デバイスは、ユーザ設定期間内に第２制御意図を得た場合、第２制御意図にマッチングする制御命令を実行する。

本発明の実施例に係る音声制御方法は、第２動作状態の構成情報を読み出して、ユーザ設定期間を取得し、ユーザ設定期間内にオーディオを連続的に収集してオーディオストリームを取得し、オーディオストリームの第２制御意図を取得する。ユーザ設定期間内に第２制御意図が取得されなかった場合、第２動作状態を第１動作状態に切り替え、ユーザ設定期間内に第２制御意図が得られた場合、第２制御意図にマッチングする制御命令を実行する。したがって、ユーザ設定期間内に、ユーザが電子デバイスを制御する意図がない場合、第２動作状態を終了するように電子デバイスを制御することにより、電子デバイスが常にリスニング状態または動作状態にあるという状況を回避し、電子デバイスのエネルギ消費を削減することができる。

上記の実施例に基づいて、可能な一シーンでは、電子デバイスが第２動作状態にあるとき、ユーザ設定期間内にオーディオストリームの第２制御意図を取得する場合、オーディオストリームの音声認識を行って情報ストリームを取得し、情報ストリームから各候補意図を取得し、各候補意図から現在のシーンにマッチングする第２制御意図をフィルタリングすることができる。これにより、ユーザが電子デバイスを使用する際に、他のシーンに切り替えてユーザの没入感に影響を与える問題が回避される。以上のプロセスについて、実施例３と併せて以下に詳細に説明する。

図３は、本出願の実施例３に係る音声制御方法の概略フローチャートである。
図３に示すように、ステップ１０３は、以下のステップ３０１〜ステップ３０４をさらに含むことができる。

ステップ３０１において、オーディオストリームの音声認識によって得された情報ストリームを取得する。
本出願の実施例では、電子デバイスが第２動作状態にあるとき、ユーザがユーザ設定期間内に音声データを入力した後、電子デバイスは、オーディオストリームを収集し、当該オーディオストリームの音声認識を行って、対応する情報ストリームを決定することができる。

ステップ３０２において、情報ストリームから各候補意図を取得する。
本出願の実施例では、情報ストリームが取得された後、当該情報ストリームに対してセマンティクス認識を行い、情報ストリームに対応する制御意図を決定することができ、情報ストリームに対応する制御意図から各候補意図をスクリーニングすることができる。

ステップ３０３において、各候補意図から、現在のシーンにマッチングする第２制御意図をスクリーニングする。
本出願の実施例では、情報ストリームから各候補意図が取得された後、各候補意図をスクリーニングして、現在のシーンにマッチングする第２制御意図をスクリーニングして、第２制御意図にマッチングする制御命令を実行する。

たとえば、現在のシーンがゲームシーンである場合、情報ストリームから電子デバイスによって取得された各候補意図は、「歌を再生」、「装備を購入」を含み、候補意図をスクリーニングして、ゲームシーンにマッチングする「装備を購入」という第２制御意図を得る。

ステップ３０４において、現在のシーンにマッチングしない候補意図への応答を拒否する。

本出願の実施例では、情報ストリームから各候補意図が取得された後、候補意図をスクリーニングし、現在のシーンにマッチングしない候補意図がスクリーニングされた場合、電子デバイスは、現在のシーンにマッチングしない候補意図への応答を拒否する。これにより、現在のシーンでのユーザの没入感が確保される。

依然として上記の例を例とし、現在のシーンがゲームシーンである場合、情報ストリームから電子デバイスによって取得された各意図候補は、「歌を再生」、「装備を購入」を含み、意図候補をスクリーニングして、ゲームシーンの制御意図にマッチングしない「歌を再生」という候補意図を得る。この場合、電子デバイスは、「歌を再生」という候補意図への応答を拒否することにより、ゲーム中にユーザが中断されてユーザの没入型ゲーム体験に影響を与えることが回避される。

本発明の実施例に係る音声制御方法は、情報ストリームを取得し、情報ストリームから各候補意図を取得し、各候補意図から現在のシーンにマッチングする第２制御意図をスクリーニングし、現在のシーンにマッチングしない候補意図への応答を拒否する。これにより、電子デバイスが第２動作状態にあるとき、ユーザは音声データを入力し続け、現在のシーンにマッチングする制御意図にのみ応答するため、現在のシーンでのユーザの没入感が確保され、ユーザの使用体験が改善される。

上記の実施例を実現するために、本出願は、音声制御装置をさらに提供する。図４は、本発明の実施例４に係る音声制御装置の概略構成図である。

図４に示すように、当該音声制御装置４００は、実行モジュール４１０、取得モジュール４２０、切り替えモジュール４３０および制御モジュール４４０を含む。

実行モジュール４１０は、ウェイクワードに基づいてオーディオクリップを収集するように第１動作状態を実行するように構成される。
取得モジュール４２０は、オーディオクリップの第１制御意図を取得するように構成される。

切り替えモジュール４３０は、ユーザ設定期間内にオーディオを連続的に収集してオーディオストリームを取得し、オーディオストリームの第２制御意図を取得するように、第１制御意図にマッチングする制御命令を実行し、実行している第１動作状態を第２動作状態に切り替えるように構成される。
制御モジュール４４０は、第２制御意図にマッチングする制御命令を実行するように構成される。

さらに、本出願の実施例の可能な一実施例として、切り替えモジュール４３０は、第２動作状態の構成情報を読み出し、ユーザの操作に応答して設定されたユーザ設定期間を取得し、ユーザ設定期間内にオーディオを連続的に収集してオーディオストリームを取得し、オーディオストリームの第２制御意図を取得し、ユーザ設定期間内に第２制御意図が取得されなかった場合、第２動作状態を第１動作状態に切り替えるように構成される。

本出願の実施例の可能な一実施例として、切り替えモジュール４３０は、さらに、オーディオストリームの音声認識によって得られた情報ストリームを取得し、情報ストリームから各候補意図を取得し、各候補意図から、現在のシーンにマッチングする第２制御意図をスクリーニングするように構成される。

本出願の実施例の可能な一実施例として、切り替えモジュール４３０は、さらに、現在のシーンにマッチングしない候補意図への応答を拒否するように構成される。

本出願の実施例の可能な一実施例として、当該音声制御装置は、第１制御意図が現在のシーンにマッチングすると決定するように構成される決定モジュールをさらに含む。

なお、音声制御方法の実施例の前述の説明は、この実施例の音声制御装置にも適用可能であり、ここでは説明を省略する。

本発明の実施例に係る音声制御装置は、ウェイクワードに基づいてオーディオクリップを収集するように第１動作状態を実行し、オーディオクリップの第１制御意図を取得し、次にユーザ設定期間内にオーディオを連続的に収集してオーディオストリームを取得し、オーディオストリームの第２制御意図を取得するように、第１制御意図にマッチングする制御命令を実行し、実行している第１動作状態を第２動作状態に切り替え、次に第２制御意図にマッチングする制御命令を実行する。これにより、ユーザは、ウェイクワードを連続的に入力する必要がなく、ユーザ設定期間内にオーディオストリームを連続的に入力するだけで、電子デバイスとの連続的なインタラクションを実現することができ、ユーザの操作を簡素化し、異なるタイプのユーザのニーズを満たし、ユーザ体験を改善することができる。

上記の実施例を実現するために、本出願は、電子デバイスをさらに提供し、前記電子デバイスは、少なくとも１つのプロセッサと、少なくとも１つのプロセッサに通信可能に接続されたメモリとを含み、メモリに少なくとも１つのプロセッサによって実行可能な命令が記憶され、命令が少なくとも１つのプロセッサによって実行されることにより、少なくとも１つのプロセッサは、本出願の前述の実施例に係る音声制御方法を実行可能である。

上記の実施例を実現するために、本出願は、コンピュータ命令の非一時的なコンピュータ読み取り可能な記憶媒体をさらに提供し、コンピュータ命令は、本出願の前述の実施例に係る音声制御方法をコンピュータに実行させるためのものである。

本出願の実施例によれば、本出願は、電子デバイスおよび読み取り可能な記憶媒体をさらに提供する。

図５に示すように、本発明の一実施例に係る音声制御方法の電子デバイスのブロック図である。電子デバイスは、ラップトップコンピュータ、デスクトップコンピュータ、ワークベンチ、携帯情報端末、サーバ、ブレードサーバ、メインフレームコンピュータ、およびその他の適切なコンピュータなど、さまざまな形式のデジタルコンピュータを表すことを目的としている。電子デバイスは、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、その他の同様のコンピューティングデバイスなど、さまざまな形態のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続および関係、およびそれらの機能は単なる例であり、本明細書で説明および／または必要とされる本出願の実現を限定することを意図するものではない。

図５に示すように、当該電子デバイスは、１つまたは複数のプロセッサ５０１、メモリ５０２、および高速インターフェイスおよび低速インターフェイスを含む様々なコンポーネントを接続するためのインターフェイスを含む。さまざまなコンポーネントは、異なるバスを使用して相互接続され、共通のマザーボードに取り付けられるか、必要に応じて取り付けられてもよい。プロセッサは、外部入力／出力デバイス（たとえば、インターフェイスに結合されたディスプレイデバイス）にＧＵＩのグラフィカル情報を表示するためにメモリに記憶されている命令を含む、電子デバイス内で実行される命令を処理することができる。他の実施例では、必要に応じて、複数のプロセッサおよび／または複数のバスを複数のメモリとともに使用することができる。同様に、複数の電子デバイスを接続し、それぞれの電子デバイスが必要な操作（たとえば、サーバアレイ、１グループのブレードサーバ、マルチプロセッサシステム）の一部を提供できます。図５では、１つのプロセッサ５０１を例に挙げている。

メモリ５０２は、本出願によって提供される非一時的なコンピュータ読み取り可能な記憶媒体である。前記メモリは、少なくとも１つのプロセッサによって実行可能な命令を記憶し、その結果として、前記少なくとも１つのプロセッサは、本出願に係る音声制御方法を実行する。本出願の非一時的なコンピュータ読み取り可能な記憶媒体は、本出願によって提供される音声制御方法をコンピュータに実行させるためのコンピュータ命令を記憶する。

メモリ５０２は、非一時的なコンピュータ読み取り可能な記憶媒体として、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能プログラム、および本出願の実施例の音声制御方法に対応するプログラム命令／モジュール（
たとえば、図４に示される実行モジュール４１０、第１取得モジュール４２０、切り替えモジュール４３０、および制御モジュール４４０）を記憶することができる。プロセッサ５０１は、メモリ５０２に記憶されている非一時的なソフトウェアプログラム、命令、およびモジュールを実行することにより、サーバの様々な機能的アプリケーションおよびデータ処理を実行し、すなわち、前述の方法の実施例における音声制御方法を実現する。

メモリ５０２は、ストレージプログラム領域およびストレージデータ領域を含むことができ、ストレージプログラム領域は、少なくとも１つの機能に必要なオペレーティングシステムおよびアプリケーションプログラムを記憶することができる。ストレージデータ領域は、電子デバイスの使用に基づいて作成されたデータを記憶することができる。また、メモリ５０２は、高速ランダムアクセスメモリを含むことができるし、少なくとも１つの磁気ディスク記憶装置、フラッシュメモリ装置、または他の非一時的な固体記憶装置などの非一時的なメモリも含むことができる。いくつかの実施例では、メモリ５０２は、プロセッサ５０１に対して遠隔に配置されたメモリを選択可能に含むことができ、これらの遠隔メモリは、ネットワークを介して電子デバイスに接続され得る。上記のネットワークの例としては、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、およびそれらの組み合わせを含むが、これらに限定されない。

電子デバイスは、入力装置５０３および出力装置５０４をさらに含むことができる。プロセッサ５０１、メモリ５０２、入力装置５０３、および出力装置５０４は、バスまたは他の方式を介して接続することができ、図５では、バスを介した接続を例に挙げている。

入力装置５０３は、入力された数字または文字情報を受信し、電子デバイスのユーザ設定および機能制御に関するキー信号入力を生成することができ、たとえば、タッチスクリーン、キーパッド、マウス、トラックパネル、タッチパネル、ポインティングスティック、１つまたは複数のマウスボタン、トラックボール、ジョイスティックなどの入力デバイス電子デバイス。出力装置５０４は、表示装置、補助照明装置（たとえば、ＬＥＤ）、触覚フィードバック装置（たとえば、振動モータ）などを含んでもよい。当該表示装置は、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、およびプラズマディスプレイを含んでもよいが、これらに限定されない。いくつかの実施例では、表示装置はタッチスクリーンであってもよい。

本明細書で説明されるシステムおよび技術の様々な実施例は、デジタル電子回路、集積回路システム、特定用途向けＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組み合わせで実現され得る。これらの様々な実施例は、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステム上で実行可能および／または解釈可能な１つまたは複数のコンピュータプログラムで実装されてもよく、当プログラマブルプロセッサは、ストレージシステム、少なくとも１つの入力装置、および少なくとも１つの出力装置からデータおよび命令を受信し、データおよび命令を当該ストレージシステム、当該少なくとも１つの入力装置、および当該少なくとも１つの出力装置に送信することができる専用または汎用のプログラマブルプロセッサであってもよい。

これらのコンピューティングプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードともいう）は、プログラマブルプロセッサの機械命令を含み、されに高レベルの手続き型および／またはオブジェクト指向プログラミング言語、および／またはアセンブリ／機械言語を用いてこれらのンピューティングプログラムを実施することができる。本明細書で使用される「機械読み取り可能な媒体」および「コンピュータ読み取り可能な媒体」という用語は、機械命令および／またはデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、デバイス、および／または装置（たとえば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ）を指し、機械読み取り可能な信号としての機械命令を受信する機械読み取り可能な媒体を含む、「機械読み取り可能な信号」という用語は、機械命令および／またはデータをプログラマブルプロセッサに提供するための信号を指す。

ユーザとのインタラクションを提供するために、本明細書に記載のシステムおよび技術は、ユーザに情報を表示するための表示装置（たとえば、ＣＲＴ（陰極線管）またはＬＣＤ（液晶ディスプレイ）モニター）と、キーボードおよびポインティング装置（たとえば、マウスまたはトラックボール）とを有するコンピュータで実施されてもよく、ユーザは当該キーボードおよび当該ポインティング装置を介してコンピュータに入力を提供できる。他の種類の装置を使用してユーザとのインタラクションを提供することもできる。たとえば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック（たとえば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック）であってもよく、任意の形式（たとえば、音響入力、音声入力、または触覚入力）を用いてユーザからの入力を受信することができる。

本明細書に記載のシステムおよび技術の各実施例は、バックエンドコンポーネントを含むコンピューティングシステム（たとえば、データサーバとして）、またはミドルコンポーネントを含むコンピューティングシステム（たとえば、アプリケーションサーバ）、またはフロントエンドコンポーネントを含むコンピューティングシステム（たとえば、グラフィカルユーザインターフェイスまたはＷｅｂブラウザを備えたユーザコンピュータ。ユーザは、当該グラフィカルユーザインターフェイスまたは当該Ｗｅｂブラウザを介して、ここで説明されるシステムおよび技術の実施例とインタラクションできる）、またはこのようなバックエンドコンポーネント、ミドルコンポーネント、またはフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。デジタルデータ通信の任意の形式または媒体（たとえば、通信ネットワーク）によってシステムのコンポーネントを相互接続してもよい。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、およびインターネットを含む。

コンピュータシステムは、クライアントとサーバとを含むことができる。通常、クライアントとサーバとは互いにリモートであり、通常は通信ネットワークを介してインタラクションする。それぞれのコンピュータで実行され、互いにクライアントとサーバとの関係を持つコンピュータプログラムによってクライアントとサーバとの関係を生成する。

本出願の実施例の技術的解決策によれば、ウェイクワードに基づいてオーディオクリップを収集するように第１動作状態を実行し、オーディオクリップの第１制御意図を取得し、次にユーザ設定期間内にオーディオを連続的に収集してオーディオストリームを取得し、オーディオストリームの第２制御意図を取得するように、第１制御意図にマッチングする制御命令を実行し、実行されている第１動作状態を第２動作状態に切り替え、次に第２制御意図にマッチングする制御命令を実行する。これにより、ユーザは、ウェイクワードを連続的に入力する必要がなく、ユーザ設定期間内にオーディオストリームを連続的に入力するだけで、電子デバイスとの連続的なインタラクションを実現することができ、ユーザの操作を簡素化し、異なるタイプのユーザのニーズを満たし、ユーザ体験を改善することができる。

なお、上記のさまざまな形態のプロセスを使用して、ステップを並べ替え、追加、または削除できることを理解されたい。たとえば、本出願で説明されている各ステップは、並列、順次、または異なる順序で実行できる。本出願で開示された技術的解決策の望ましい結果が達成できれば、本明細書は、ここで限定しない。

前述した具体的な実施例は、本出願の保護範囲を制限しない。設計要件および他の要因に応じて、さまざまな修正、組み合わせ、サブ組み合わせ、および置き換えを行うことができることを当業者は理解すべきである。本出願の思想および原則の範囲内で行われた修正、同等の置き換え、および改善は、いずれも本出願の保護範囲に含まれるものとする。

Claims

ウェイクワードに基づいてオーディオクリップを収集するように第１動作状態を実行するステップと、
前記オーディオクリップの第１制御意図を取得するステップと、
ユーザ設定期間内にオーディオを連続的に収集してオーディオストリームを取得し、前記オーディオストリームの第２制御意図を取得するように、前記第１制御意図にマッチングする制御命令を実行し、実行されている前記第１動作状態を第２動作状態に切り替えるステップと、
前記第２制御意図にマッチングする制御命令を実行するステップと、を含むことを特徴とする、音声制御方法。
ユーザ設定期間内にオーディオを連続的に収集してオーディオストリームを取得し、前記オーディオストリームの第２制御意図を取得するステップは、
前記第２動作状態の構成情報を読み出し、ユーザの操作に応答して設定された前記ユーザ設定期間を取得するステップと、
前記ユーザ設定期間内にオーディオを連続的に収集してオーディオストリームを取得し、前記オーディオストリームの第２制御意図を取得するステップと、
前記ユーザ設定期間内に前記第２制御意図が取得されなかった場合、前記第２動作状態を前記第１動作状態に切り替えるステップと、を含むことを特徴とする、請求項１に記載の音声制御方法。
前記オーディオストリームの第２制御意図を取得するステップは、
前記オーディオストリームの音声認識によって得られた情報ストリームを取得するステップと、
前記情報ストリームから各候補意図を取得するステップと、
各候補意図から、現在のシーンにマッチングする第２制御意図をスクリーニングするステップと、を含むことを特徴とする、請求項２に記載の音声制御方法。
前記情報ストリームから各候補意図を取得するステップの後に、
現在のシーンにマッチングしない候補意図への応答を拒否するステップをさらに含むことを特徴とする、請求項３に記載の音声制御方法。
前記第１動作状態を第２動作状態に切り替えるステップの前に、
前記第１制御意図が現在のシーンにマッチングすると決定するステップをさらに含むことを特徴とする、請求項１から４のいずれかに記載の音声制御方法。
ウェイクワードに基づいてオーディオクリップを収集するように第１動作状態を実行するように構成される実行モジュールと、
前記オーディオクリップの第１制御意図を取得するように構成される取得モジュールと、
ユーザ設定期間内にオーディオを連続的に収集してオーディオストリームを取得し、前記オーディオストリームの第２制御意図を取得するように、前記第１制御意図にマッチングする制御命令を実行し、実行されている前記第１動作状態を第２動作状態に切り替えるように構成される切り替えモジュールと、
前記第２制御意図にマッチングする制御命令を実行するように構成される制御モジュールと、を含むことを特徴とする、音声制御装置。
前記切り替えモジュールは、さらに、
前記第２動作状態の構成情報を読み出し、ユーザの操作に応答して設定された前記ユーザ設定期間を取得し、
前記ユーザ設定期間内にオーディオを連続的に収集してオーディオストリームを取得し、前記オーディオストリームの第２制御意図を取得し、
前記ユーザ設定期間内に前記第２制御意図が取得されなかった場合、前記第２動作状態を前記第１動作状態に切り替えるように構成されることを特徴とする、請求項６に記載の音声制御装置。
前記切り替えモジュールは、さらに、
前記オーディオストリームの音声認識によって得られた情報ストリームを取得し、
前記情報ストリームから各候補意図を取得し、
各候補意図から、現在のシーンにマッチングする第２制御意図をスクリーニングするように構成されることを特徴とする、請求項７に記載の音声制御装置。
前記切り替えモジュールは、さらに、
現在のシーンにマッチングしない候補意図への応答を拒否するように構成されることを特徴とする、請求項８に記載の音声制御装置。
前記装置は、
前記第１制御意図が現在のシーンにマッチングすると決定するように構成される決定モジュールをさらに含むことを特徴とする、請求項６から９のいずれかに記載の音声制御装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信可能に接続されたメモリと、を含む電子デバイスであって、
前記メモリに前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、前記命令は前記少なくとも１つのプロセッサによって実行されることにより、前記少なくとも１つのプロセッサが請求項１〜５のいずれかに記載の音声制御方法を実行することを特徴とする、電子デバイス。
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、請求項１〜５のいずれかに記載の音声制御方法を前記コンピュータに実行させることを特徴とする、非一時的なコンピュータ読み取り可能な記憶媒体。