JP2021056486A

JP2021056486A - 音声制御方法、音声制御装置、電子デバイス、および読み取り可能な記憶媒体

Info

Publication number: JP2021056486A
Application number: JP2019238253A
Authority: JP
Inventors: ヨンシールォ，; Yongxi Luo; シャシャワン，; Shasha Wang
Original assignee: Baidu Online Network Technology Beijing Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd
Priority date: 2019-09-29
Filing date: 2019-12-27
Publication date: 2021-04-08
Anticipated expiration: 2039-12-27
Also published as: JP7051800B2; EP3799039A1; US20210097991A1; KR20210038278A; CN112581945A

Abstract

【課題】ターゲットシーンで、ユーザが入力した音声データを連続的に取得した後、他のシーンに切り替えることなく、ユーザ体験を向上する音声制御方法、音声制御装置、電子デバイス、および読み取り可能な記憶媒体を提供する。【解決手段】音声制御方法は、ターゲットシーンで、ウェイクワードに基づいてオーディオクリップを収集するように第１動作状態を実行し、オーディオクリップの音声認識によって取得された第１制御意図を取得し、第１制御意図にマッチングする制御命令を実行し、第１動作状態を第２動作状態に切り替え、第２動作状態では、オーディオを連続的に収集してオーディオストリームを取得し、オーディオストリームの音声認識を行い、音声認識によってターゲットシーンに合致する第２制御意図が取得された場合、第２制御意図にマッチングする制御命令を実行する。【選択図】図１

Description

本出願は、音声認識および人工知能の技術分野に関し、特に、音声制御方法、音声制御装置、電子デバイス、および読み取り可能な記憶媒体に関する。

人工知能技術および端末技術の持続的な発展に伴い、人工知能製品、たとえばスマートスピーカなどの電子デバイスが絶えず普及され、ユーザは、対応する制御命令を実行するように電子デバイスを音声で制御することができる。ユーザが電子デバイスを使用してゲームをプレイする間に、ユーザが電子デバイスと音声インタラクションを行い、ユーザによって入力された制御命令がゲームに関連していない場合でも、電子デバイスは、対応する制御命令に応答し、他の動作シーンに切り替える。この場合、ユーザのゲームプレイプロセスが中断され、ユーザ体験に影響する。

本出願は、関連技術における技術的課題の少なくとも１つをある程度解決することを目的とする。
本出願は、ターゲットシーンで、ユーザが入力した音声データを連続的に取得した後、他のシーンに切り替えることなく、ユーザ体験を向上する音声制御方法、音声制御装置、電子デバイス、および読み取り可能な記憶媒体を提供する。

本出願の第１態様の実施例は、ターゲットシーンで、ウェイクワードに基づいてオーディオクリップを収集するように第１動作状態を実行するステップと、前記オーディオクリップの音声認識によって取得された第１制御意図を取得するステップと、前記第１制御意図にマッチングする制御命令を実行し、前記第１動作状態を第２動作状態に切り替えるステップと、前記第２動作状態で、オーディオを連続的に収集してオーディオストリームを取得し、前記オーディオストリームの音声認識を行うステップと、音声認識によって前記ターゲットシーンに合致する第２制御意図が取得された場合、前記第２制御意図にマッチングする制御命令を実行するステップと、を含む音声制御方法を提供する。

本出願の実施例の第１の可能な実施形態として、前記第２動作状態で、オーディオを連続的に収集してオーディオストリームを取得し、前記オーディオストリームの音声認識を行うステップの後に、オーディオストリームの音声認識によって取得された情報ストリームを取得するステップと、前記情報ストリームから各候補意図を取得するステップと、各候補意図から、前記ターゲットシーンの制御意図にマッチングする第２制御意図をスクリーニングするステップと、所定期間内に前記第２制御意図が取得されなかった場合、前記第２動作状態を終了するステップと、をさらに含み、前記所定期間の範囲は、２０秒〜４０秒である。

本出願の実施例の第２の可能な実施形態として、前記情報ストリームから各候補意図を取得するステップの後に、前記ターゲットシーンの制御意図にマッチングしない候補意図への応答を拒否するステップをさらに含む。

本出願の実施例の第３の可能な実施形態として、前記第１動作状態を第２動作状態に切り替えるステップの後に、前記第２動作状態で、インターフェイスにおける第１要素を第２要素に置き換え、第３要素を表示するステップを更に含み、前記第１要素は、第１動作状態にあることを提示するためのものであり、前記第２要素は、第２動作状態にあることを提示するためのものであり、前記第３要素は、前記ウェイクワードを提示する、および／または、オーディオまたはビデオを再生するためのものである。

本出願の実施例の第４の可能な実施形態として、前記第１動作状態を第２動作状態に切り替えるステップの前に、前記第１制御意図が前記ターゲットシーンにマッチングすると決定するステップをさらに含む。

本出願の実施例の第５の可能な実施形態として、前記ターゲットシーンはゲームシーンを含む。

本出願の第２態様の実施例は、ターゲットシーンで、ウェイクワードに基づいてオーディオクリップを収集するように第１動作状態を実行するように構成される実行モジュールと、前記オーディオクリップの音声認識によって取得された第１制御意図を取得するように構成される第１取得モジュールと、前記第１制御意図にマッチングする制御命令を実行し、前記第１動作状態を第２動作状態に切り替えるように構成される切り替えモジュールと、前記第２動作状態では、オーディオを連続的に収集してオーディオストリームを取得し、前記オーディオストリームの音声認識を行うように構成される認識モジュールと、音声認識によって前記ターゲットシーンに合致する第２制御意図が取得された場合、前記第２制御意図にマッチングする制御命令を実行するように構成される制御モジュールと、を含む音声制御装置を提供する。

本出願の第３態様の実施例は、電子デバイスを提供し、前記電子デバイスは、少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサに通信可能に接続されたメモリとを含み、前記メモリに前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、前記命令は前記少なくとも１つのプロセッサによって実行されることにより、前記少なくとも１つのプロセッサは本出願の第１態様に係る音声制御方法を実行する。

本出願の第４態様の実施例は、コンピュータ命令の非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、本出願の第１態様の実施例に係る音声制御方法をコンピュータに実行させるためのものである。

上記出願の実施例は、以下の利点または有益な効果を有する。
ターゲットシーンで、ウェイクワードに基づいてオーディオクリップを収集するように第１動作状態を実行し、オーディオクリップの音声認識によって取得された第１制御意図を取得し、第１制御意図にマッチングする制御命令を実行し、第１動作状態を第２動作状態に切り替え、第２動作状態では、オーディオを連続的に収集してオーディオストリームを取得し、オーディオストリームの音声認識を行い、音声認識によってターゲットシーンに合致する第２制御意図が取得された場合、第２制御意図にマッチングする制御命令を実行する。これにより、ユーザが電子デバイスと連続的にインタラクションする場合、ユーザによって連続的に入力されたオーディオストリームの音声認識を行い、音声認識によってターゲットシーンに合致する第２制御意図が取得された場合に限って、対応する制御命令を実行するので、ウェイクワードを連続的に入力する必要がないだけでなく、ユーザ操作が簡素化され、シーンの切り替えに起因するユーザ体験が悪くなるという技術的な問題が回避される。

上記の選択可能な実施形態が有する他の効果について、具体的な実施例と併せて以下に説明する。

図面は、本出願の構成をよりよく理解するためのものであり、本出願を限定するものではない。本出願の上記および／または追加の態様および利点は、図面と併せて実施例の以下の説明により明らかになり、理解されやすくなる。
本出願の実施例１に係る音声制御方法の概略フローチャートである。本出願の実施例２に係る音声制御方法の概略フローチャートである。本出願の実施例３に係る音声制御方法の概略フローチャートである。本出願の実施例４に係る音声制御装置の概略構成図である。本出願の実施例５に係る電子デバイスの概略構成図である。

本出願の例示的な実施例について、図面を参照して以下に説明する。理解を容易にするために、その中に本出願の実施例の様々な詳細が含まれ、それらは単なる例示と見なされるべきである。したがって、当業者は、本出願の範囲および精神から逸脱することなく、本明細書に記載の実施例に様々な変更および修正を加えることができることを認識すべきである。また、明確さおよび簡潔さのために、周知の機能および構成の説明は、以下の説明では省略される。

本発明の実施例に係る音声制御方法、音声制御装置、電子デバイス、及び読み取り可能な記録媒体について、図面を参照して以下に説明する。

図１は、本出願の実施例１に係る音声制御方法の概略フローチャートである。
本発明の実施例において、音声制御方法が音声制御装置で構成されることを例とし、当該音声制御装置は、任意の電子デバイスに適用されることにより、電子デバイスが音声制御機能を実行することができる。

ここで、電子デバイスは、パーソナルコンピュータ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ、ＰＣと略称する）、クラウドデバイス、モバイルデバイス、スマートスピーカなどであってもよい。モバイルデバイスは、たとえば、携帯電話、タブレットコンピュータ、携帯情報端末、ウェアラブルデバイス、カーデバイスなどの、さまざまなオペレーティングシステム、タッチスクリーンおよび／またはディスプレイを搭載したハードウェアデバイスであってもよい。

図１に示すように、当該音声制御方法は、以下のステップ１０１〜ステップ１０５を含むことができる。

ステップ１０１において、ターゲットシーンで、ウェイクワードに基づいてオーディオクリップを収集するように第１動作状態を実行する。

可能なシーンとして、ターゲットシーンはゲームシーンを含む。なお、ターゲットシーンは、子供のシーンなど他の可能なシーンであってもよく、これについて限定しない。

本発明の実施例において、第１動作状態は非リスニング状態であってもよく、ターゲットシーンで、電子デバイスは、ユーザの音声によって入力されたウェイクワードに基づいて音声フラグメントを収集するように、当該非リスニング状態を実行する。

本出願の実施例では、ウェイクワードは、電子デバイスの内蔵プログラムによって予め設定されてもよく、または、ユーザのパーソナライズニーズを満たすために、自分のニーズに応じてユーザによって設定されてもよく、本出願はこれについて限定しない。たとえば、電子デバイスがスマートスピーカである場合、ウェイクワードは「小度小度（ドちゃんドちゃん）」であってもよい。

本出願の実施例では、ターゲットシーンで、電子デバイスが第１動作状態を実行するとき、電子デバイスは、ユーザがウェイクワードを入力したか否かを検出することができる。ユーザがウェイクワードを入力したと検出された場合、ユーザがウェイクワードに続いて入力したオーディオクリップを収集して、音声認識を行うことができる。たとえば、電子デバイスがスマートスピーカである場合、当該スマートスピーカが当該第１動作状態にあるとき、ユーザが歌を再生したい場合、ユーザは、「小度小度、歌Ａを再生してください」または「小度小度、歌を聴きたい」を音声で入力することができる。そうすると、電子デバイスは、ウェイクワードに続く「歌Ａを再生してください」または「歌を聴きたい」というオーディオクリップを認識することができる。

本出願の実施例では、電子デバイスが第１動作状態にあるとき、音声制御装置は、監視モードで、ユーザによって入力されたウェイクワードを監視することができる。ユーザによって入力されたウェイクワードを監視した場合、ウェイクワードに続くオーディオクリップを認識することができる。ユーザによって入力されたウェイクワードを監視していない場合、ユーザによって入力されたウェイクワードを引き続き監視することができる。つまり、ユーザによって入力されたウェイクワードを監視していない場合、電子デバイスは、依然として第１動作状態、すなわち非リスニング状態にある。このとき、ユーザが音声で電子デバイスを制御したい場合は、対応するウェイクワードを音声で入力する必要もある。たとえば、ユーザが歌を再生したい場合、ユーザは、「小度小度、歌を聞きたい」と入力することができる。

ステップ１０２において、オーディオクリップの音声認識によって取得された第１制御意図を取得する。

本出願の実施例において、第１制御意図は、電子デバイスの内蔵プログラムによって予め設定されてもよく、または、当該方法の柔軟性および適用可能性を向上させるために、第１制御意図は、ユーザによって設定されてもよく、これについて限定しない。たとえば、ゲームシーンでは、第１制御意図は、エネルギの増加、装備の購入などであってもよい。

本出願の実施例では、電子デバイスが第１動作状態にあり、電子デバイスが、ユーザによって入力されたウェイクワードを検出した後、ユーザによって入力されたウェイクワードに続くオーディオクリップを収集し、次にオーディオクリップの音声認識を行い、オーディオクリップの音声認識によって得られた第１制御意図を取得する。

たとえば、ターゲットシーンがゲームシーンである場合、ゲームシーンでは、電子デバイスが第１動作状態を実行するとき、ユーザがゲーム装備を変更したい場合、ユーザがウェイクワード「小度小度」を音声で入力した後、ユーザは、「装備を変更したい」または「装備Ａを変更してください」と音声で入力することができる。そうすると、電子デバイスは、ウェイクワードに続くオーディオクリップを認識して、「装備を変更したい」または「装備Ａを変更してください」という第１制御意図を取得することができる。

ステップ１０３において、第１制御意図にマッチングする制御命令を実行し、第１動作状態を第２動作状態に切り替える。
本出願の実施例において、第２動作状態は、リスニング状態であってもよい。電子デバイスが当該リスニング状態にあるとき、ユーザは、ウェイクワードを音声で入力する必要がなく、リアルタイムで音声命令を入力して、電子デバイスとインタラクションすることができる。

なお、ゲームシーンでは、電子デバイスがリスニング状態にあるとき、電子デバイスの音声やビデオは、引き続き再生され、端末でのゲームプロセスは終了しないことを説明する必要がある。

本出願の実施例では、電子デバイスがオーディオクリップの音声認識によって取得された第１制御意図を取得した場合、第１制御意図にマッチングする制御命令を実行する。この場合、ターゲットシーンでユーザが電子デバイスとリアルタイムのインタラクションまたは連続的なインタラクションを実行するニーズがあることを示す。

たとえば、電子デバイスがスマートスピーカであり、ターゲットシーンがゲームシーンであり、第１制御意図がエネルギの補充であることを例とし、ユーザが「小度小度、私にエネルギを補充してください」と音声で入力した場合、スマートスピーカは、ユーザによって入力されたオーディオクリップを収集して認識した後、ウェイクワードに続くオーディオクリップの意図が「エネルギを補充」であると判定することができ、この場合、非リスリング状態からリスリング状態に切り替えるように電子デバイスの動作状態を制御するとともに、ユーザのゲームキャラクタにエネルギを補充し、エネルギの補充が終了した後、スマートスピーカは、「エネルギ補充終了」のような提示情報を音声で再生するか、インターフェイスに表示することができる。

ステップ１０４において、第２動作状態では、オーディオを連続的に収集してオーディオストリームを取得し、オーディオストリームを認識する。
本出願の実施例において、電子デバイスが第２動作状態にあるとき、電子デバイスはオーディオを連続的に収集してオーディオストリームを取得して音声認識することができる。したがって、ユーザが電子デバイスとリアルタイムのインタラクションまたは連続的なインタラクションを実行するニーズがある場合、ウェイクワードを連続的に入力する必要はなく、電子デバイスが動作状態にあるとき、オーディオストリームを連続的に入力し、オーディオストリームの音声認識を行えば、ユーザの操作を簡素化し、ユーザ体験を向上させることができる。

依然として上記の例を例とし、スマートスピーカがリスニング状態にあるとき、ユーザはウェイクワードを入力する必要がなく、スマートスピーカと連続的なインタラクションを行うことにより、電子デバイスは、「装備を変更」、「装備を購入」など、ユーザによって入力されたオーディオストリームを連続的に収集し、オーディオストリームの音声認識を行うことができる。

ステップ１０５において、音声認識によってターゲットシーンにマッチングする第２制御意図が取得された場合、第２制御意図にマッチングする制御命令を実行する。
本出願の実施例において、第２制御意図は、電子デバイスの内蔵プログラムによって予め設定されてもよく、または、方法の柔軟性および適用可能性を向上させるために、第２制御意図はユーザによって設定されてもよく、これについて限定しない。上記の第１制御意図と区別するために、第２動作状態でオーディオストリームの音声認識によって取得された、ターゲットシーンに合致する制御意図を第２制御意図と名付ける。

本出願の実施例において、電子デバイスが第２動作状態にあるとき、電子デバイスは、ユーザによって入力されたオーディオを連続的に収集してオーディオストリームを取得し、オーディオストリームの音声認識を行う。１つの可能な場合、オーディオストリームの音声認識を行うことによって取得された制御意図が、ターゲットシーンに合致する第２制御意図である場合、第２制御意図にマッチングする制御命令を実行する。

たとえば、ターゲットシーンがゲームシーンであることを例とし、電子デバイスが第２動作状態にあるとき、電子デバイスは、ユーザによって入力されたオーディオを連続的に収集してオーディオストリームを取得し、オーディオストリームの音声認識によって取得された第２制御意図は「装備を購入」である。「装備を購入」という制御意図はゲームシーンに合致するため、電子デバイスは「装備を購入」にマッチングする制御命令を実行する。

別の可能な場合では、電子デバイスがオーディオストリームの音声認識を行うことによって得られた制御意図が、ターゲットシーンに合致しない第２制御意図である場合、電子デバイスは何の動作も実行しない。

たとえば、対象シーンをゲームシーンであることを例とし、電子デバイスが第２作動状態にあるとき、電子デバイスは、ユーザによって入力されたオーディオを連続的に収集してオーディオストリームを取得し、オーディオストリームの音声認識を行うことによって取得された第２制御意図は「今日の天気はどう」である。オーディオストリームの音声認識を行うことによって取得された第２制御意図はゲームシーンに合致しないため、この場合、電子デバイスは何の応答もしない。その結果、ゲームのプレイ中のユーザの没入感が向上し、ゲーム中の他のスキルによる干渉が回避される。

なお、「第１」、「第２」の用語は単に説明するためのものであり、比較的な重要性を指示又は暗示するか、又は示された技術的特徴の数を黙示的に指示すると理解してはならない。したがって、「第１」、「第２」で限定された特徴は、少なくとも１つの前記特徴を含むことを明示又は暗示する。

本発明の実施例に係る音声制御方法は、ターゲットシーンで、ウェイクワードに基づいてオーディオクリップを収集するように第１動作状態を実行し、オーディオクリップの音声認識によって取得された第１制御意図を取得し、第１制御意図にマッチングする制御命令を実行し、第１動作状態を第２動作状態に切り替え、第２動作状態では、オーディオを連続的に収集してオーディオストリームを取得し、オーディオストリームの音声認識を行い、音声認識によってターゲットシーンに合致する第２制御意図が取得された場合、第２制御意図にマッチングする制御命令を実行することにより、ユーザが電子デバイスと連続的にインタラクションする場合、ユーザによって連続的に入力されるオーディオストリームの音声認識を行い、音声認識によってターゲットシーンに合致する第２制御意図が取得された場合に限って、対応する制御命令を実行するので、ウェイクワードを連続的に入力する必要がないだけでなく、ユーザ操作が簡素化され、シーンの切り替えによるユーザ体験が悪くなるという技術的な問題が回避される。

上記の実施例に基づいて、別の可能な場合では、電子デバイスが第２動作状態にあるとき、電子デバイスは、オーディオを連続的に収集してオーディオストリームを取得し、オーディオストリームの音声認識を行って情報ストリームを取得し、情報ストリームから各候補意図を取得し、各候補意図にはターゲットシーンの制御意図にマッチングする第２制御意図が含まれているか否かを判断し、第２制御意図が含まれていない場合、第２動作状態を終了し、ターゲットシーンの制御意図にマッチングしない意図候補への応答を拒否する。上記のプロセスについて実施例２と併せて詳細に説明する。

図２は、本出願の実施例２に係る音声制御方法の概略フローチャートである。
図２に示すように、図１に示す実施例に基づいて、当該音声制御方法はさらに以下のステップ２０１〜ステップ２０４をさらに含むことができる。

ステップ２０１において、オーディオストリームの音声認識によって得られた情報ストリームを取得する。
本出願の実施例では、ユーザが音声データを入力した後、電子デバイスは、オーディオストリームを収集し、オーディオストリームの音声認識を行って、対応する情報ストリームを決定することができる。

ステップ２０２において、情報ストリームから各候補意図を取得する。

本出願の実施例において、情報ストリームが取得された後、当該情報ストリームに対してセマンティクス認識を行い、情報ストリームに対応する制御意図を決定することができ、情報ストリームに対応する制御意図から各候補意図をスクリーニングすることができる。

ステップ２０３において、各候補意図から、ターゲットシーンの制御意図にマッチングする第２制御意図をスクリーニングする。
本出願の実施例では、情報ストリームから各候補意図が取得された後、各候補意図をスクリーニングして、ターゲットシーンの制御意図にマッチングする第２制御意図をスクリーニングする。

たとえば、ターゲットシーンがゲームシーンである場合、情報ストリームから電子デバイスによって取得された各候補意図は、「歌を再生」、「装備を購入」を含み、候補意図をスクリーニングして、ゲームシーンの制御意図にマッチングする「装備を購入」という第２制御意図を得る。

本出願の実施例では、情報ストリームから各候補意図が取得された後、候補意図をスクリーニングし、ターゲットシーンの制御意図にマッチングしない候補意図がスクリーニングされた場合、電子デバイスは、ターゲットシーンの制御意図にマッチングしない候補意図への応答を拒否する。これにより、ターゲットシーンでのユーザの没入感が確保される。

依然として上記の例を例とし、ターゲットシーンがゲームシーンである場合、情報ストリームから電子デバイスによって取得された各意図候補は、「歌を再生」、「装備を購入」を含み、意図候補をスクリーニングして、ゲームシーンの制御意図にマッチングしない「歌を再生」という候補意図を得る。この場合、電子デバイスは、「歌を再生」という候補意図への応答を拒否することにより、ゲームのプレイ中にユーザが中断されてユーザの没入型のゲーム体験に影響を与えることが回避される。

ステップ２０４において、所定期間内に第２制御意図が得られない場合、第２動作状態を終了し、所定期間の範囲は２０秒〜４０秒である。
本発明の実施例において、所定期間は予め設定され、たとえば、電子デバイスの内蔵プログラムによって予め設定されるか、またはユーザによって設定されてもよく、これは限定されない。たとえば、所定期間の範囲は２０秒〜４０秒である。

本出願の実施例において、所定期間内にターゲットシーンの制御意図にマッチングする第２制御意図がスクリーニングされなかった場合、この時点では、ターゲットシーンでユーザが電子デバイスを連続的に制御する意図がないことを示す。したがって、第２動作状態を終了することができる。

たとえば、所定期間が３０秒であるとすると、電子デバイスがリスニング状態になったとき、ユーザが所定期間内に音声データを入力しなかった場合、または、電子デバイスが各候補意図からターゲットシーンの制御意図にマッチングする第２制御意図をスクリーニングしなかった場合、リスニング状態を終了することができる。

本発明の実施例に係る音声制御方法は、情報ストリームを取得し、情報ストリームから各候補意図を取得し、各候補意図からターゲットシーンの制御意図にマッチングする第２制御意図をスクリーニングし、所定期間内に第２制御意図が取得されなかった場合、第２動作状態を終了する。これにより、ターゲットシーンの制御意図にマッチングする第２制御意図が所定期間内に候補意図からスクリーニングされなかった場合、第２動作状態を終了するように電子デバイスを制御することで、電子デバイスが常にリスニング状態または動作状態にあることを回避し、電子デバイスのエネルギ消費を削減することができる。

本発明の実施例において、ターゲットシーンで、オーディオクリップの音声認識によって取得された第１制御意図が取得された後、まず、第１制御意図がターゲットシーンにマッチングすることを決定し、次に第１制御意図にマッチングする制御命令を実行し、第１動作状態を第２動作状態に切り替えた後、インターフェイスにおける第１要素を第２要素に置き換え、第３要素を表示する。上記のプロセスを実施例３と併せて以下に詳細に説明する。

図３は、本出願の実施例３に係る音声制御方法の概略フローチャートである。
図３に示すように、当該音声制御方法は、以下のステップ３０１〜ステップ３０５をさらに含むことができる。

ステップ３０１において、ターゲットシーンで、ウェイクワードに基づいてオーディオクリップを収集するように第１動作状態を実行する。
ステップ３０２において、オーディオクリップの音声認識によって取得された第１制御意図を取得する。

本出願の実施例において、ステップ３０１および３０２の実行プロセスについては、実施例１におけるステップ１０１およびステップ１０２を参照し、ここでは詳細な説明を省略する。

ステップ３０３において、第１制御意図がターゲットシーンにマッチングすることを決定する。

本出願の実施例において、ターゲットシーンで、電子デバイスが第１動作状態にあるとき、ユーザによって音声で入力されたウェイクワードに基づいてオーディオクリップを収集する。さらに、電子デバイスは、オーディオクリップの音声認識によって取得された第１制御意図を取得した後、第１制御意図がターゲットシーンにマッチングするか否かを判定する。制御意図がターゲットシーンにマッチングする場合に、ステップ３０４を実行する。制御意図がターゲットシーンにマッチングしない場合、電子デバイスは、当該第１制御意図への応答を拒否し、第１動作状態を実行し続ける。

たとえば、ターゲットシーンがゲームシーンであるとすると、電子デバイスは、非リスニング状態で、ユーザがウェイクワードを音声で入力した後にオーディオクリップを収集し、オーディオクリップの音声認識を行って、「装備を購入」という第１制御意図を取得する。「装備を購入」の制御意図はゲームシーンにマッチングするため、電子デバイスは、「装備を購入」にマッチングする制御命令を実行し続ける。

ステップ３０４において、第１制御意図にマッチングする制御命令を実行し、第１動作状態を第２動作状態に切り替える。

本出願の実施例において、ステップ３０４の実行プロセスについては、上記の実施例１のステップ１０３を参照し、ここでは説明を省略する。

ステップ３０５において、第２動作状態では、インターフェイスにおける第１要素を第２要素に置き換え、第３要素を表示する。

本出願の実施例の可能な実施形態として、電子デバイスが第２動作状態にあるとき、電子デバイスの表示インターフェイスにおける第１要素を第２要素に置き換え、第３要素を表示することができる。ここで、第１要素は、電子デバイスが第１動作状態にあることを提示するためのものであり、第２要素は、電子デバイスが第２動作状態にあることを提示するためのものであり、第３要素は、ウェイクワードを提示するおよび/またはオーディオまたはビデオを再生するためのものである。

１つの適用シーンとして、ターゲットシーンがゲームシーンであることを例とし、電子デバイスが第２動作状態にあるとき、すなわち、電子デバイスがリスニング状態にあるとき、ユーザが電子デバイスの現在の状態情報をわかりやすくするために、電子デバイスのインターフェイスにおける第１要素を第２要素に置き換えることができる。電子デバイスが所定期間内に第２制御状態を得ていないため、電子デバイスは第２動作状態を終了する。この場合、ユーザはウェイクワードを再入力する必要がある。したがって、第３要素を表示してウェイクワードを提示する必要がある。

ステップ３０６において、第２動作状態では、オーディオを連続的に収集してオーディオストリームを取得し、オーディオストリームを認識する。
ステップ３０７において、音声認識によってターゲットシーンに合致する第２制御意図が取得された場合、第２制御意図にマッチングする制御命令を実行する。

本出願の実施例において、ステップ３０６およびステップ３０７の実行プロセスについては、実施例１におけるステップ１０４および１０５を参照し、ここでは、説明を省略する。

本出願の実施例において、電子デバイスが第２動作状態にあるとき、インターフェイスにおける第１要素を第２要素に置き換え、第３要素を表示することにより、ユーザは電子デバイスの現在の動作状態をさらに了解し、ユーザの使用体験を向上させることができる。

上記の実施例を実現するために、本出願は、音声制御装置をさらに提供する。
図４は、本発明の実施例４に係る音声制御装置の概略構成図である。

図４に示すように、当該音声制御装置４００は、実行モジュール４１０、第１取得モジュール４２０、切り替えモジュール４３０、認識モジュール４４０、および制御モジュール４５０を含む。

実行モジュール４１０は、ターゲットシーンで、ウェイクワードに基づいてオーディオクリップを収集するように第１動作状態を実行するように構成される。
第１取得モジュール４２０は、オーディオクリップの音声認識によって取得された第１制御意図を取得するように構成される。

切り替えモジュール４３０は、第１制御意図にマッチングする制御命令を実行し、第１動作状態を第２動作状態に切り替えるように構成される。
認識モジュール４４０は、第２動作状態では、オーディオを連続的に収集してオーディオストリームを取得し、オーディオストリームの音声認識を行うように構成される。
制御モジュール４５０は、音声認識によってターゲットシーンにマッチングする第２制御意図が取得された場合、第２制御意図にマッチングする制御命令を実行するように構成される。

さらに、本出願の実施例の可能な一実施形態において、当該音声制御装置４００は、オーディオストリームの音声認識によって得られた情報ストリームを取得するように構成される第２取得モジュールと、情報ストリームから各候補意図を取得するように構成される第３取得モジュールと、各候補意図からターゲットシーンの制御意図にマッチングする第２制御意図をスクリーニングするように構成されるスクリーニングモジュールと、所定期間内に第２制御意図が取得されなかった場合、第２動作状態を終了するように構成される終了モジュールと、をさらに含むことができる。所定期間の範囲は２０秒〜４０秒である。

本出願の実施例の別の可能な実施形態では、当該音声制御装置４００は、前記ターゲットシーンの制御意図にマッチングしない候補意図への応答を拒否するように構成される応答拒否モジュールをさらに含むことができる。

本出願の実施例の別の可能な実施形態では、当該音声制御装置４００は、インターフェイスにおける第１要素を第２要素に置き換え、第３要素を表示するように構成される切り替えモジュールをさらに含み、前記第１要素は、第１動作状態にあることを提示するためのものであり、前記第２要素は、第２動作状態にあることを提示するためのものであり、前記第３要素は、前記ウェイクワードを提示するおよび／またはオーディオまたはビデオを再生するためのものである。

本出願の実施例の別の可能な実施形態では、当該音声制御装置４００は、第１制御意図がターゲットシーンにマッチングすることを決定するように構成される決定モジュールをさらに含むことができる。

本出願の実施例の別の可能な実施形態では、前記ターゲットシーンはゲームシーンを含む。

なお、音声制御方法の実施例の前述の説明は、この実施例の音声制御装置にも適用可能であり、ここでは説明を省略する。

本発明の実施例に係る音声制御装置は、ターゲットシーンで、ウェイクワードに基づいてオーディオクリップを収集するように第１動作状態を実行し、オーディオクリップの音声認識によって取得された第１制御意図を取得し、第１制御意図にマッチングする制御命令を実行し、第１動作状態を第２動作状態に切り替え、第２動作状態では、オーディオを連続的に収集してオーディオストリームを取得し、オーディオストリームの音声認識を行い、音声認識によってターゲットシーンに合致する第２制御意図が取得された場合、第２制御意図にマッチングする制御命令を実行する。これにより、ユーザが電子デバイスと連続的にインタラクションする場合、ユーザによって連続的に入力されたオーディオストリームの音声認識を行い、音声認識によってターゲットシーンに合致する第２制御意図が取得された場合に限って、対応する制御命令を実行するので、ウェイクワードを連続的に入力する必要がないだけでなく、ユーザ操作が簡素化され、シーンの切り替えに起因してユーザ体験が悪くなるという技術的な問題が回避される。

上記の実施例を実現するために、本出願は、電子デバイスをさらに提供し、前記電子デバイスは、少なくとも１つのプロセッサと、少なくとも１つのプロセッサに通信可能に接続されたメモリとを含み、メモリに少なくとも１つのプロセッサによって実行可能な命令が記憶され、命令が少なくとも１つのプロセッサによって実行されることにより、少なくとも１つのプロセッサは、本出願の前述の実施例に係る音声制御方法を実行する。

上記の実施例を実現するために、本出願は、コンピュータ命令の非一時的なコンピュータ読み取り可能な記憶媒体をさらに提供し、コンピュータ命令は、本出願の前述の実施例に係る音声制御方法をコンピュータに実行させるためのものである。

本出願の実施例によれば、本出願は、電子デバイスおよび読み取り可能な記憶媒体をさらに提供する。

図５は、本発明の一実施例に係る音声制御方法の電子デバイスのブロック図を示している。電子デバイスは、ラップトップコンピュータ、デスクトップコンピュータ、ワークベンチ、携帯情報端末、サーバ、ブレードサーバ、メインフレームコンピュータ、およびその他の適切なコンピュータなど、さまざまな形式のデジタルコンピュータを含んでもよい。電子デバイスは、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、その他の同様のコンピューティングデバイスなど、さまざまな形態のモバイルデバイスを含んでもよい。
本明細書で示されるコンポーネント、それらの接続および関係、およびそれらの機能は単なる例であり、本明細書で説明および/または必要とされる本出願の実現を限定することを意図するものではない。

図５に示すように、当該電子デバイスは、１つまたは複数のプロセッサ５０１、メモリ５０２、および高速インターフェイスおよび低速インターフェイスを含む様々なコンポーネントを接続するためのインターフェイスを含む。さまざまなコンポーネントは、異なるバスを使用して相互接続され、共通のマザーボードに取り付けられるか、必要に応じて取り付けられてもよい。プロセッサは、外部入力/出力デバイス（たとえば、インターフェイスに結合されたディスプレイデバイス）にＧＵＩのグラフィカル情報を表示するためにメモリに記憶された命令を含む、電子デバイス内で実行される命令を処理することができる。他の実施例では、必要に応じて、複数のプロセッサおよび／または複数のバスを複数のメモリとともに使用することができる。同様に、複数の電子デバイスを接続し、それぞれの電子デバイスが必要な操作（たとえば、サーバアレイ、１グループのブレードサーバ、マルチプロセッサシステム）の一部を提供することができる。図５では、１つのプロセッサ５０１を例に挙げている。

メモリ５０２は、本出願によって提供される非一時的なコンピュータ読み取り可能な記憶媒体である。前記メモリは、少なくとも１つのプロセッサによって実行可能な命令を記憶し、その結果、前記少なくとも１つのプロセッサは、本出願に係る音声制御方法を実行する。本出願の非一時的なコンピュータ読み取り可能な記憶媒体は、本出願によって提供される音声制御方法をコンピュータに実行させるためのコンピュータ命令を記憶する。

メモリ５０２は、非一時的なコンピュータ読み取り可能な記憶媒体として、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能プログラム、および本出願の実施例の音声制御方法に対応するプログラム命令/モジュール（たとえば、図４に示される実行モジュール４１０、第１取得モジュール４２０、切り替えモジュール４３０、認識モジュール４４０、および制御モジュール４５０）を記憶することができる。プロセッサ５０１は、メモリ５０２に記憶された非一時的なソフトウェアプログラム、命令、およびモジュールを実行することにより、サーバの様々な機能的アプリケーションおよびデータ処理を実行し、すなわち、前述の方法の実施例における音声制御方法を実現する。

メモリ５０２は、ストレージプログラム領域およびストレージデータ領域を含むことができ、ストレージプログラム領域は、少なくとも１つの機能に必要なオペレーティングシステムおよびアプリケーションプログラムを記憶することができる。ストレージデータ領域は、電子デバイスの使用に基づいて作成されたデータを記憶することができる。また、メモリ５０２は、高速ランダムアクセスメモリを含むことができるし、少なくとも１つの磁気ディスク記憶装置、フラッシュメモリ装置、または他の非一時的な固体記憶装置などの非一時的なメモリも含むことができる。いくつかの実施例では、メモリ５０２は、プロセッサ５０１に対して遠隔に配置されたメモリを選択可能に含むことができ、これらの遠隔メモリは、ネットワークを介して電子デバイスに接続され得る。上記のネットワークの例としては、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、およびそれらの組み合わせを含むが、これらに限定されない。

電子デバイスは、入力装置５０３および出力装置５０４をさらに含むことができる。プロセッサ５０１、メモリ５０２、入力装置５０３、および出力装置５０４は、バスまたは他の方式を介して接続することができ、図５では、バスを介した接続を例に挙げている。

入力装置５０３は、入力された数字または文字情報を受信し、電子デバイスのユーザ設定および機能制御に関するキー信号入力を生成することができ、たとえば、タッチスクリーン、キーパッド、マウス、トラックパネル、タッチパネル、ポインティングスティック、１つまたは複数のマウスボタン、トラックボール、ジョイスティックなどの入力デバイスや電子デバイスである。出力装置５０４は、表示装置、補助照明装置（たとえば、ＬＥＤ）、触覚フィードバック装置（たとえば、振動モータ）などを含んでもよい。当該表示装置は、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、およびプラズマディスプレイを含んでもよいが、これらに限定されない。いくつかの実施例では、表示装置はタッチスクリーンであってもよい。

本明細書で説明されるシステムおよび技術の様々な実施形態は、デジタル電子回路、集積回路システム、特定用途向けＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせで実現され得る。これらの様々な実施例は、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステム上で実行可能および／または解釈可能な１つまたは複数のコンピュータプログラムで実装されてもよく、当プログラマブルプロセッサは、ストレージシステム、少なくとも１つの入力装置、および少なくとも１つの出力装置からデータおよび命令を受信し、データおよび命令を当該ストレージシステム、当該少なくとも１つの入力装置、および当該少なくとも１つの出力装置に送信することができる専用または汎用のプログラマブルプロセッサであってもよい。

これらのコンピューティングプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも言える）は、プログラマブルプロセッサの機械命令を含み、さらに高レベルの手続き型および/またはオブジェクト指向プログラミング言語、および/またはアセンブリ/機械言語を用いてこれらのンピューティングプログラムを実施することができる。本明細書で使用される「機械読み取り可能な媒体」および「コンピュータ読み取り可能な媒体」という用語は、機械命令および/またはデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、デバイス、および/または装置（たとえば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））を指し、機械読み取り可能な信号としての機械命令を受信する機械読み取り可能な媒体を含む。「機械読み取り可能な信号」という用語は、機械命令および/またはデータをプログラマブルプロセッサに提供するための信号を指す。

ユーザとのインタラクションを提供するために、本明細書に記載のシステムおよび技術は、ユーザに情報を表示するための表示装置（たとえば、ＣＲＴ（陰極線管）またはＬＣＤ（液晶ディスプレイ）モニター）と、キーボードおよびポインティング装置（たとえば、マウスまたはトラックボール）とを有するコンピュータで実施されてもよく、ユーザは当該キーボードおよび当該ポインティング装置を介してコンピュータに入力を提供できる。他の種類の装置を使用してユーザとのインタラクションを提供することもできる。たとえば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック（たとえば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック）であってもよく、任意の形式（たとえば、音響入力、音声入力、または触覚入力）を用いてユーザからの入力を受信することができる。

本明細書に記載のシステムおよび技術の各実施形態は、バックエンドコンポーネントを含むコンピューティングシステム（たとえば、データサーバとして）、またはミドルコンポーネントを含むコンピューティングシステム（たとえば、アプリケーションサーバ）、またはフロントエンドコンポーネントを含むコンピューティングシステム（たとえば、グラフィカルユーザインターフェイスまたはWebブラウザを備えたユーザコンピュータであり、ユーザは、当該グラフィカルユーザインターフェイスまたは当該Ｗｅｂブラウザを介して、ここで説明されるシステムおよび技術の実施形態とインタラクションできる）、またはこのようなバックエンドコンポーネント、ミドルコンポーネント、またはフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。デジタルデータ通信の任意の形式または媒体（たとえば、通信ネットワーク）によってシステムのコンポーネントを相互接続してもよい。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、およびインターネットを含む。

コンピュータシステムは、クライアントとサーバとを含むことができる。通常、クライアントとサーバとは互いにリモートであり、通常は通信ネットワークを介してインタラクションする。それぞれのコンピュータで実行され、互いにクライアントとサーバとの関係を持つコンピュータプログラムによってクライアントとサーバとの関係を生成する。

本出願の実施例の技術的解決策によれば、ターゲットシーンで、ウェイクワードに基づいてオーディオクリップを収集するように第１動作状態を実行し、オーディオクリップの音声認識によって取得された第１制御意図を取得し、第１制御意図にマッチングする制御命令を実行し、第１動作状態を第２動作状態に切り替え、第２動作状態では、オーディオを連続的に収集してオーディオストリームを取得し、オーディオストリームの音声認識を行い、音声認識によってターゲットシーンに合致する第２制御意図が取得された場合、第２制御意図にマッチングする制御命令を実行する。これにより、ユーザが電子デバイスと連続的にインタラクションする場合、ユーザによって連続的に入力されたオーディオストリームの音声認識を行い、音声認識によってターゲットシーンに合致する第２制御意図が取得された場合に限って、対応する制御命令を実行するので、ウェイクワードを連続的に入力する必要がないだけでなく、ユーザ操作が簡素化され、シーンの切り替えに起因してユーザ体験が悪くなるという技術的な問題が回避される。

なお、上記のさまざまな形態のプロセスを使用して、ステップを並べ替え、追加、または削除できることを理解されたい。たとえば、本出願で説明されている各ステップは、並列、順次、または異なる順序で実行できる。本出願で開示された技術的解決策の望ましい結果が達成できれば、本明細書は、ここで限定しない。

前述した具体的な実施形態は、本出願の保護範囲を制限しない。設計要件および他の要因に応じて、さまざまな修正、組み合わせ、サブ組み合わせ、および置き換えを行うことができることを当業者は理解するべきである。本出願の思想および原則の範囲内で行われた修正、同等の置き換え、および改善は、いずれも本出願の保護範囲に含まれるものとする。

Claims

ターゲットシーンで、ウェイクワードに基づいてオーディオクリップを収集するように、第１動作状態を実行するステップと、
前記オーディオクリップの音声認識によって取得された第１制御意図を取得するステップと、
前記第１制御意図にマッチングする制御命令を実行し、前記第１動作状態を第２動作状態に切り替えるステップと、
前記第２動作状態で、オーディオを連続的に収集してオーディオストリームを取得し、前記オーディオストリームの音声認識を行うステップと、
音声認識によって前記ターゲットシーンに合致する第２制御意図が取得された場合、前記第２制御意図にマッチングする制御命令を実行するステップと、を含む音声制御方法。
前記第２動作状態で、オーディオを連続的に収集してオーディオストリームを取得し、前記オーディオストリームの音声認識を行うステップの後に、
前記オーディオストリームの音声認識によって取得された情報ストリームを取得するステップと、
前記情報ストリームから各候補意図を取得するステップと、
各候補意図から、前記ターゲットシーンの制御意図にマッチングする第２制御意図をスクリーニングするステップと、
所定期間内に前記第２制御意図が取得されなかった場合、前記第２動作状態を終了するステップと、をさらに含み、
前記所定期間の範囲は、２０秒〜４０秒である請求項１に記載の音声制御方法。
前記情報ストリームから各候補意図を取得するステップの後に、
前記ターゲットシーンの制御意図にマッチングしない候補意図への応答を拒否するステップをさらに含む請求項２に記載の音声制御方法。
前記第１動作状態を第２動作状態に切り替えるステップの後に、
前記第２動作状態で、インターフェイスにおける第１要素を第２要素に置き換え、第３要素を表示するステップをさらに含み、
前記第１要素は、第１動作状態にあることを提示するためのものであり、前記第２要素は、第２動作状態にあることを提示するためのものであり、前記第３要素は、前記ウェイクワードを提示する、および／または、オーディオまたはビデオを再生するためのものである請求項１から３のいずれかに記載の音声制御方法。
前記第１動作状態を第２動作状態に切り替えるステップの前に、
前記第１制御意図が前記ターゲットシーンにマッチングすると決定するステップをさらに含む請求項１から３のいずれかに記載の音声制御方法。
前記ターゲットシーンは、ゲームシーンを含む請求項１から３のいずれかに記載の音声制御方法。
ターゲットシーンで、ウェイクワードに基づいてオーディオクリップを収集するように、第１動作状態を実行するように構成される実行モジュールと、
前記オーディオクリップの音声認識によって取得された第１制御意図を取得するように構成される第１取得モジュールと、
前記第１制御意図にマッチングする制御命令を実行し、前記第１動作状態を第２動作状態に切り替えるように構成される切り替えモジュールと、
前記第２動作状態で、オーディオを連続的に収集してオーディオストリームを取得し、前記オーディオストリームの音声認識を行うように構成される認識モジュールと、
音声認識によって前記ターゲットシーンに合致する第２制御意図が取得された場合、前記第２制御意図にマッチングする制御命令を実行するように構成される制御モジュールと、を含む音声制御装置。
前記装置は、
前記オーディオストリームの音声認識によって取得された情報ストリームを取得するように構成される第２取得モジュールと、
前記情報ストリームから各候補意図を取得するように構成される第３取得モジュールと、
各候補意図から、前記ターゲットシーンの制御意図にマッチングする第２制御意図をスクリーニングするように構成されるスクリーニングモジュールと、
所定期間内に前記第２制御意図が取得されなかった場合、前記第２動作状態を終了するように構成される終了モジュールと、をさらに含み、
前記所定期間の範囲は、２０秒〜４０秒である請求項７に記載の音声制御装置。
前記装置は、
前記ターゲットシーンの制御意図にマッチングしない候補意図への応答を拒否するように構成される応答拒否モジュールをさらに含む請求項８に記載の音声制御装置。
前記装置は、
前記第２動作状態で、インターフェイスにおける第１要素を第２要素に置き換え、第３要素を表示するように構成される切り替えモジュールをさらに含み、
前記第１要素は、第１動作状態にあることを提示するためのものであり、前記第２要素は、第２動作状態にあることを提示するためのものであり、前記第３要素は、前記ウェイクワードを提示する、および／または、オーディオまたはビデオを再生するためのものである請求項７から９のいずれかに記載の音声制御装置。
前記装置は、
前記第１制御意図が前記ターゲットシーンにマッチングすると決定するように構成される決定モジュールをさらに含む請求項７から９のいずれかに記載の音声制御装置。
前記ターゲットシーンは、ゲームシーンを含む請求項７から９のいずれかに記載の音声制御装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信可能に接続されたメモリと、を含む電子デバイスであって、
前記メモリに前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、前記命令は前記少なくとも１つのプロセッサによって実行されることにより、前記少なくとも１つのプロセッサが、請求項１から６のいずれかに記載の音声制御方法を実行する電子デバイス。
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、請求項１から６のいずれかに記載の音声制御方法を前記コンピュータに実行させる非一時的なコンピュータ読み取り可能な記憶媒体。