JP6814871B2

JP6814871B2 - 電子デバイスの音声制御方法、電子デバイスの音声制御装置、コンピュータ機器及び記憶媒体

Info

Publication number: JP6814871B2
Application number: JP2019236057A
Authority: JP
Inventors: ヨンシルオ，; シャシャワン，; ガンチャン，
Original assignee: バイドゥオンラインネットワークテクノロジー（ベイジン）カンパニーリミテッド
Priority date: 2019-05-31
Filing date: 2019-12-26
Publication date: 2021-01-20
Anticipated expiration: 2039-12-26
Also published as: EP3745253A1; KR102331660B1; KR20200138644A; CN112017650A; US20200380994A1; EP3745253B1; JP2020197695A

Description

本出願は、人工知能技術の分野に関し、特に、電子デバイスの音声制御方法、電子デバイスの音声制御装置、コンピュータ機器及び記憶媒体に関する。

現在、インターネット技術とスマートデバイスの急速な発展に伴い、ユーザはスマートデバイスと音声対話を行うことによって関連ニーズを満たすことができ、例えば、スマートスピーカーと対話することによって、音楽を再生するニーズを満たすことができる。

関連技術では、スマートデバイスとインタラクションを行う前に、スマートデバイスをウェイクアップ（ｗａｋｅｕｐ）する必要があり、つまり、スマートデバイスとインタラクションを行うたびに、スマートデバイスをウェイクアップする操作を一回行う必要がある。さらに、スマートデバイスの動作状態で、スマートデバイスをウェイクアップする操作によって、現在の動作状態が停止することになり、これにより、操作が煩雑であり、スマートデバイスの通常動作に影響する。

本出願は、関連技術における少なくとも一つの技術的課題をある程度解決することを目的とする。

そのため、本出願では、従来技術においてユーザが電子デバイスと音声インタラクションを行う時に操作が煩雑であり、電子デバイスの通常動作に影響し、ユーザが電子デバイスを使用する体験が悪いという技術的課題を解決するための電子デバイスの音声制御方法、音声制御装置、コンピュータ機器及び記憶媒体が提供される。音楽モードに入った後の所定の期間内に、電子デバイスの全二重リスニング状態を開始し、ウェイクアップワードを有しない第１のタイプのユーザ命令を直接認識し、第１のタイプのユーザ命令が音楽モードに関する命令である場合に限って実行されることによって、ユーザが音声で命令を開始するコストを節約し、電子デバイスが通常に音声を再生することを確保し、ユーザの使用体験を向上させることができる。

上記の目的を達成するために、本出願の第１態様は、電子デバイスの音声制御方法を提供する。電子デバイスの音声制御方法は、ユーザの第１の音声命令を受信し、該第１の音声命令に従って音楽モードに入るステップと、前記音楽モードに入った後の所定の期間内に、前記電子デバイスの全二重リスニング状態を開始するステップであって、前記全二重リスニング状態では、前記電子デバイスが第１のタイプのユーザ命令を認識し、前記第１のタイプのユーザ命令にはウェイクアップワードを有しないステップと、前記全二重リスニング状態で、前記第１のタイプのユーザ命令を取得し、前記第１のタイプのユーザ命令を認識するステップと、前記第１のタイプのユーザ命令が前記音楽モードに関する命令である場合、前記第１のタイプのユーザ命令を実行するステップと、前記第１のタイプのユーザ命令が前記音楽モードに関する命令でない場合、前記第１のタイプのユーザ命令を実行しないステップと、前記所定の期間後に、前記全二重リスニング状態を終了するステップとを含む。

本態様において、電子デバイスの音声制御方法は、ユーザの第１の音声命令を受信し、第１の音声命令に従って音楽モードに入り、音楽モードに入った後の所定の期間内に、電子デバイスの全二重リスニング状態を開始し、全二重リスニング状態では、電子デバイスは第１のタイプのユーザ命令を認識し、第１のタイプのユーザ命令にはウェイクアップワードを有しない。全二重リスニング状態で、第１のタイプのユーザ命令を取得し、第１のタイプのユーザ命令を認識し、第１のタイプのユーザ命令が音楽モードに関する命令である場合、第１のタイプのユーザ命令を実行し、第１のタイプのユーザ命令が音楽モードに関する命令でない場合、第１のタイプのユーザ命令を実行しなく、所定の期間後に、全二重リスニング状態を終了する。これにより、従来技術においてユーザが電子デバイスと音声対話を行う時の操作が煩雑であり、電子デバイスの通常動作に影響し、ユーザが電子デバイスを使用する体験が悪いという技術的課題が解決され、音楽モードに入った後の所定の期間内に、電子デバイスの全二重リスニング状態を開始することによって、ウェイクアップワードを有しない第１のタイプのユーザ命令を直接認識する。第１のタイプのユーザ命令が音楽モードに関する命令である場合に限って実行されることによって、ユーザが音声で命令を開始するコストを節約し、電子デバイスが音声を通常に再生することを確保し、ユーザの使用体験を向上させることができる。

上記の目的を達成するために、本出願の第２態様は、電子デバイスの音声制御装置を提供する。電子デバイスの音声制御装置は、ユーザの第１の音声命令を受信し、該第１の音声命令に従って音楽モードに入る受信モジュールと、前記音楽モードに入った後の所定の期間内に、前記電子デバイスの全二重リスニング状態を開始する開始モジュールであって、前記全二重リスニング状態では、前記電子デバイスが第１のタイプのユーザ命令を認識し、前記第１のタイプのユーザ命令にはウェイクアップワードを有しない開始モジュールと、前記全二重リスニング状態で、前記第１のタイプのユーザ命令を取得する取得モジュールと、前記第１のタイプのユーザ命令を認識する認識モジュールと、前記第１のタイプのユーザ命令が前記音楽モードに関する命令である場合、前記第１のタイプのユーザ命令を実行し、前記第１のタイプのユーザ命令が前記音楽モードに関する命令でない場合、前記第１のタイプのユーザ命令を実行しない処理モジュールと、前記所定の期間後に、前記全二重リスニング状態を終了する終了モジュールとを備える。

本態様において、電子デバイスの音声制御装置は、ユーザの第１の音声命令を受信し、第１の音声命令に従って音楽モードに入り、音楽モードに入った後の所定の期間内に、電子デバイスの全二重リスニング状態を開始し、全二重リスニング状態では、電子デバイスが第１のタイプのユーザ命令を認識し、第１のタイプのユーザ命令にはウェイクアップワードを有しない。全二重リスニング状態で、第１のタイプのユーザ命令を取得し、第１のタイプのユーザ命令を認識し、第１のタイプのユーザ命令が音楽モードに関する命令である場合、第１のタイプのユーザ命令を実行し、第１のタイプのユーザ命令が音楽モードに関する命令でない場合、第１のタイプのユーザ命令を実行しなく、所定の期間後に、全二重リスニング状態を終了する。これにより、従来技術においてユーザが電子デバイスと音声対話を行う時の操作が煩雑であり、電子デバイスの通常動作に影響し、ユーザが電子デバイスを使用する体験が悪いという技術的課題が解決され、音楽モードに入った後の所定の期間内に、電子デバイスの全二重リスニング状態を開始することによって、ウェイクアップワードを有しない第１のタイプのユーザ命令を直接認識する。第１のタイプのユーザ命令が音楽モードに関する命令である場合に限って実行されることによって、ユーザの音声開始命令コストを節約し、電子デバイスが音声を通常に再生することを確保し、ユーザの使用体験を向上させることができる。

上記の目的を達成するために、本出願の第３態様は、コンピュータ機器を提供する。コンピュータ機器は、プロセッサとメモリとを備え、前記プロセッサが前記メモリに記憶されている実行可能なプログラムコードを読み出して前記実行可能なプログラムコードに対応するプログラムを実行することによって、上記の電子デバイスの音声制御方法を実現する。

上記の目的を達成するために、本出願の第４態様は、コンピュータプログラムが記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供する。記憶媒体は、前記コンピュータプログラムがプロセッサにより実行される場合に、上記の電子デバイスの音声制御方法が実現される。

上記の目的を達成するために、本出願の第５態様は、コンピュータプログラム製品を提供する。コンピュータプログラム製品は、該コンピュータプログラム製品における命令がプロセッサによって実行される場合に、上記の電子デバイスの音声制御方法が実現される。

本出願の付加的な特徴及び利点は、一部が以下の説明において示され、一部が以下の説明により明らかになり、又は本出願の実践により理解される。

本出願の上記及び／又は付加的な特徴及び利点は、実施例について図面を参照して以下に説明することにより、明らかになり、理解されやすくなる。
本出願の一実施形態に係る電子デバイスの音声制御方法の概略フローチャートである。本出願の一実施形態の変形例の電子デバイスの音声制御方法の概略フローチャートである。本出願の一実施形態に係る電子デバイスの表示の例を示す図である。本出願の一実施形態に係る電子デバイスの音声制御装置の概略構成図である。本出願の一実施形態に係る変形例電子デバイスの音声制御装置の概略構成図である。本出願の一実施形態に係る他の変形例の電子デバイスの音声制御装置の概略構成図である。本出願の一実施形態に係るコンピュータ機器の概略構成図である。

以下、本出願の一実施形態を詳細に説明する。一実施形態における一例が図面に示され、同一又は類似する符号は、常に同一又は類似する素子、或いは、同一又は類似する機能を有する素子を示す。以下に、図面を参照しながら説明される一実施形態は例示的なものであり、本出願を解釈するためだけに用いられ、本出願を限定するものと理解してはならない。

以下、図面を参照して本出願の一実施形態に係る電子デバイスの音声制御方法、電子デバイスの音声制御装置、コンピュータ機器及び記憶媒体を説明する。

図１は、本出願の一実施形態に係る電子デバイスの音声制御方法の概略フローチャートである。

図１に示されるように、電子デバイスの音声制御方法は、以下のステップ１０１〜ステップ１０６を含む。
ステップ１０１では、ユーザの第１の音声命令を受信し、第１の音声命令に従って音楽モードに入る。

具体的には、ユーザは電子デバイスと音声対話を行うことができ、ここで、電子デバイスは、ロボット、スマートスピーカー、スマート学習マシンなどであってもよく、実際の使用ニーズに応じて選択することができる。

実際の使用では、ユーザが一つの音声命令を開始した後、電子デバイスは、音楽モードに入って音楽再生を行い、電子デバイスはユーザの音声命令をリスニングしなくなり、ユーザが再び音声命令を開始する場合、「小度小度」のようなウェイクアップワードを予め設定して電子デバイスをウェイクアップする必要があり、この時、音楽は一時停止され、電子デバイスはユーザ命令をリスニングして認識し、認識が完了した後に当該ユーザ命令に応答する。

したがって、ユーザが再び音声命令を開始する場合、所定のウェイクアップワードによって電子デバイスを再びウェイクアップする必要があることが分かり、ユーザにとって音声コストがあり、且つ電子デバイスが「スマート」ではないように見える。つまり、ユーザが再び音声命令を開始する場合、スピーカー及びマイクの一方しか動作できず、この時スピーカーはオフになり、音楽の再生が一時停止され、マイクはオンになり、電子デバイスはユーザ命令をリスニングして認識する。スピーカーがオフになっているため、ユーザが音楽を聴く体験が連続的ではない。再び音声命令を開始するたびに、音楽が中断され、電子デバイスの通常動作が影響され、ユーザが電子デバイスを使用する体験が悪くなる。

上記の問題に対して、本出願は、電子デバイスの音声制御方法を提供する。音楽モードに入った後の所定の期間内に、電子デバイスの全二重リスニング状態を開始することによって、ウェイクアップワードを有しない第１のタイプのユーザ命令を直接認識し、第１のタイプのユーザ命令が音楽モードに関する命令である場合に限って実行されることによって、ユーザが音声で命令を開始するコストを節約し、電子デバイスが音声を通常に再生することを確保し、ユーザの使用体験を向上させることができる。

まず、ユーザの第１の音声命令を受信し、第１の音声命令に従って音楽モードに入り、ここで、第１の音声命令は、例えば、「ジェイ・チョウの七里香（ＱｉＬｉＸｉａｎｇ）を再生」であり、電子デバイスは、「七里香」を再生する音楽モードに入る。なお、ユーザの第１の音声命令を受信する時に、電子デバイスはウェイクアップ状態にあることを理解されたい。

ステップ１０２では、音楽モードに入った後の所定の期間内に、電子デバイスの全二重リスニング状態を開始し、全二重リスニング状態では、電子デバイスは第１のタイプのユーザ命令を認識し、第１のタイプのユーザ命令にはウェイクアップワードを有しない。

ステップ１０３では、全二重リスニング状態で、第１のタイプのユーザ命令を取得し、第１のタイプのユーザ命令を認識する。

具体的には、音楽モードに入った後の所定の期間内に、電子デバイスの全二重リスニング状態を開始し、実際の用途に基づいて所定の期間の選択設定を行い、ユーザ操作習慣及び電子デバイスのエネルギー消費の問題を考慮して、２０秒〜４０秒とすることが好ましい。

ここで、ユーザの使用体験をさらに向上させるため、又は現在全二重リスニング状態にあるか否かをユーザが決定できるようにするために、電子デバイスの全二重リスニング状態を開始した後、電子デバイスのディスプレイスクリーンに関連パターン又は文字などの形態でユーザに提示し、例えば、電子デバイスのロゴパターンをカラーで表示する。

ここで、電子デバイスの全二重リスニング状態は、スピーカー及びマイクが同時に動作する状態であり、ユーザが第１の音声命令を開始した後、電子デバイスは、３０秒などの所定の期間内にリスニングし続ける（この時、音楽が通常に再生され、音楽を聴く体験に影響しない）。

ここで、全二重リスニング状態で第１のタイプのユーザ命令を取得する方式は、様々であり、以下に例を挙げて説明する。
第１の例では、電子デバイスの現在再生中の音声情報を取得し、現在再生中の音声情報に基づいてユーザの音声情報を現在の音声情報から分離し、ユーザの音声情報を認識して第１のタイプのユーザ命令を取得する。

第２の例では、予め設定して入力されたユーザ声紋特徴に基づいて、直接に現在の音声情報からユーザ声紋特徴に対応するユーザの音声情報を抽出し、ユーザの音声情報を認識して第１のタイプのユーザ命令を取得する。

なお、全二重リスニング状態で、ウェイクアップワードを有しない第１のタイプのユーザ命令を取得し、第１のタイプのユーザ命令を直接認識することができることを理解されたい。第１のタイプのユーザ命令の形態は様々であることを理解されたい。一例として、第１のタイプのユーザ命令を取得した後に音声テキスト変換方法によってテキストに変換し、次にテキスト形態の第１のタイプのユーザ命令に対して単語分割処理又はキーワード抽出などを行い、所定の命令テーブルとマッチングさせることによって、対応するターゲット命令を取得し、第１のタイプのユーザ命令の認識操作を完了する。

ステップ１０４では、第１のタイプのユーザ命令が音楽モードに関する命令である場合、第１のタイプのユーザ命令を実行する。

ステップ１０５では、第１のタイプのユーザ命令が音楽モードに関する命令でない場合、第１のタイプのユーザ命令を実行しない。

ステップ１０６では、所定の期間後に、全二重リスニング状態を終了する。

具体的には、第１のタイプのユーザ命令は、音楽モードに関する命令であってもよく、音楽モードに関する命令でなくてもよく、例えば、電子デバイスが、「七里香」を再生する音楽モードを実行する第１のタイプのユーザ命令が「次の曲を再生する」と「音量を上げる」などであることを認識した場合、第１のタイプのユーザ命令が音楽モードに関する命令であると考えることができ、第１のタイプのユーザ命令を直接実行することができる。また、例えば、電子デバイスが、「七里香」を再生する音楽モードを行い、第１のタイプのユーザ命令が「今日の天気はどうですか」などであることを認識した場合、第１のタイプのユーザ命令が音楽モードに関する命令ではないと考えることができ、第１のタイプのユーザ命令を実行しない。

ステップ１０６では、電子デバイスの航続能力を向上させ、ユーザの操作要求を満たすために、所定の期間後に、全二重リスニング状態を終了する。

本実施形態に係る電子デバイスの音声制御方法は、ユーザの第１の音声命令を受信し、第１の音声命令に従って音楽モードに入り、音楽モードに入った後の所定の期間内に、電子デバイスの全二重リスニング状態を開始し、全二重リスニング状態では、電子デバイスは第１のタイプのユーザ命令を認識し、第１のタイプのユーザ命令にはウェイクアップワードを有しない。全二重リスニング状態で、第１のタイプのユーザ命令を取得し、第１のタイプのユーザ命令を認識し、第１のタイプのユーザ命令が音楽モードに関する命令である場合、第１のタイプのユーザ命令を実行し、第１のタイプのユーザ命令が音楽モードに関する命令でない場合、第１のタイプのユーザ命令を実行しなく、所定の期間後に、全二重リスニング状態を終了する。これにより、従来技術においてユーザが電子デバイスと音声対話を行う時の操作が煩雑であり、電子デバイスの通常動作に影響し、ユーザが電子デバイスを使用する体験が悪いという技術的課題が解決され、音楽モードに入った後の所定の期間内に、電子デバイスの全二重リスニング状態を開始することによって、ウェイクアップワードを有しない第１のタイプのユーザ命令を直接認識する。第１のタイプのユーザ命令が音楽モードに関する命令である場合に限って実行されることによって、ユーザの音声開始命令コストを節約し、電子デバイスが音声を通常に再生することを確保し、ユーザの使用体験を向上させることができる。

図２は、本出願の一実施形態の変形例の電子デバイスの音声制御方法の概略フローチャートである。

図２に示されるように、電子デバイスの音声制御方法は、以下のステップ２０１〜ステップ２０７を含む。
ステップ２０１では、ユーザの第１の音声命令を受信し、第１の音声命令に従って音楽モードに入る。

ステップ２０２では、音楽モードに入った後の所定の期間内に、電子デバイスの全二重リスニング状態を開始し、全二重リスニング状態では、電子デバイスは第１のタイプのユーザ命令を認識し、第１のタイプのユーザ命令にはウェイクアップワードを有しない。

なお、ステップ２０１およびステップ２０２は、上記の一実施形態のステップ１０１およびステップ１０２と同じであり、具体的な説明は、ステップ１０１およびステップ１０２の説明を参照されたく、ここでは詳細に説明しない。

ステップ２０３では、全二重リスニング状態で、電子デバイスの現在再生中の音声情報を取得し、現在再生中の音声情報に基づいてユーザの音声情報を現在の音声情報から分離し、ユーザの音声情報を認識して第１のタイプのユーザ命令を取得し、第１のタイプのユーザ命令を認識する。

全二重リスニング状態では、スピーカー及びマイクの両方は動作しており、つまり、マイクが受信した現在の音声情報は、スピーカーで現在再生中の音声とユーザの音声情報とを含むため、現在再生中の音声情報に基づいてユーザの音声情報を現在の音声情報から分離する必要がある。ユーザの音声情報を認識して第１のタイプのユーザ命令を取得し、第１のタイプのユーザ命令を認識することによって、音声認識の精度を向上させることを理解されたい。

ステップ２０４では、電子デバイスのディスプレイスクリーンに第１のタイプのユーザ命令を表示する。

具体的には、ユーザの体験をさらに向上させるために、電子デバイスのディスプレイスクリーンに第１のタイプのユーザ命令を表示することができ、一例を挙げて以下に説明する。
第１の例では、第１のタイプのユーザ命令が音楽モードに関する命令である場合、第１のフォント色で第１のタイプのユーザ命令を表示し、第１のタイプのユーザ命令が音楽モードに関する命令でない場合、第２のフォント色で第１のタイプのユーザ命令を表示し、第１のフォント色は第２のフォント色より濃い。図３に示されるように、音楽モードに関する第１のタイプのユーザ命令である場合、フォントは、青色になり、音楽モードに関する第１のタイプのユーザ命令でない場合、フォントは、グレーになる。

第２の例では、第１のタイプのユーザ命令が音楽モードに関する命令である場合、第１のフォントサイズで第１のタイプのユーザ命令を表示し、第１のタイプのユーザ命令が音楽モードに関する命令でない場合、第２のフォントサイズで第１のタイプのユーザ命令を表示し、ここで、第１のフォントサイズは、第２のフォントサイズより大きい。

なお、フォント色、フォントの色サイズ、及び異なるフォントに限らず、速度、位置などの表示形態であってもよい。

ステップ２０５では、第１のタイプのユーザ命令が音楽モードに関する命令である場合、第１のタイプのユーザ命令を実行し、第１のタイプのユーザ命令が音楽モードに関する命令でない場合、第１のタイプのユーザ命令を実行しない。

ステップ２０６では、所定の期間後に、全二重リスニング状態を終了する。

具体的には、第１のタイプのユーザ命令は、音楽モードに関する命令であってもよく、音楽モードに関する命令でなくてもよい。例えば、電子デバイスが、「七里香」を再生する音楽モードを行い、第１のタイプのユーザ命令が「次の曲を再生する」と「音量を上げる」などであることを認識した場合、第１のタイプのユーザ命令が音楽モードに関する命令であると考えることができ、第１のタイプのユーザ命令を直接実行することができる。また、例えば、電子デバイスが「七里香」を再生する音楽モードを行い、第１のタイプのユーザ命令が「今日の天気はどうですか」などであることを認識した場合、第１のタイプのユーザ命令が音楽モードに関する命令ではないと考えることができ、第１のタイプのユーザ命令を実行しない。

ステップ２０６では、電子デバイスの航続能力を向上させ、ユーザの操作要求を満たすために、所定の期間後に、全二重リスニング状態を終了する。

ステップ２０７では、第２のタイプのユーザ命令を取得し、第２のタイプのユーザ命令を認識し、ここで、第２のタイプのユーザ命令にはウェイクアップワードを有し、第２のタイプのユーザ命令を実行する。

具体的には、全二重リスニング状態を終了した後、マイクのみが動作しているため、ウェイクアップワードを有する第２のタイプのユーザ命令を取得し、第２のタイプのユーザ命令を実行する。

これにより、ユーザによって一つの音声命令が開始された後、カラー電子デバイスの画像の方式で電子デバイスのディスプレイスクリーンに表示され、直接に音楽に関する音声命令を再開始することができ、直接に音楽を聴いている時に開始することができ、ユーザが音声で命令を開始するコストが節約され、音楽を中断する必要がなく、音楽を聴く体験は連続的且つ完全である。

上記の実施形態を実現するために、本出願は、電子デバイスの音声制御装置をさらに提供する。

図４は、本出願の一実施形態に係る電子デバイスの音声制御装置の概略構成図である。
図４に示されるように、電子デバイスの音声制御装置は、受信モジュール４０１と、開始モジュール４０２と、取得モジュール４０３と、認識モジュール４０４と、処理モジュール４０５と、終了モジュール４０６とを備えている。

受信モジュール４０１は、ユーザの第１の音声命令を受信し、第１の音声命令に従って音楽モードに入るように構成される。

開始モジュール４０２は、前記音楽モードに入った後の所定の期間内に、電子デバイスの全二重リスニング状態を開始するように構成され、全二重リスニング状態では、電子デバイスは第１のタイプのユーザ命令を認識し、第１のタイプのユーザ命令にはウェイクアップワードを有しない。

取得モジュール４０３は、全二重リスニング状態で、第１のタイプのユーザ命令を取得するように構成される。

認識モジュール４０４は、第１のタイプのユーザ命令を認識するように構成される。

処理モジュール４０５は、第１のタイプのユーザ命令が音楽モードに関する命令である場合、第１のタイプのユーザ命令を実行するように構成される。

また、処理モジュール４０５は、第１のタイプのユーザ命令が音楽モードに関する命令でない場合、第１のタイプのユーザ命令を実行しないように構成される。

終了モジュール４０６は、所定の期間後に、全二重リスニング状態を終了するように構成される。

本出願の一実施形態の変形例では、図５に示されるように、図４の電子デバイスの音声制御装置が、取得認識モジュール４０７と実行モジュール４０８とをさらに備えている。

ここで、取得認識モジュール４０７は、ウェイクアップワードを有する第２のタイプのユーザ命令を取得し、第２のタイプのユーザ命令を認識するように構成される。

実行モジュール４０８は、第２のタイプのユーザ命令を実行するように構成される。

本出願の一実施形態の他の変形例では、図６に示されるように、図４の電子デバイスの音声制御装置が、表示モジュール４０９をさらに備えている。

表示モジュール４０９は、電子デバイスのディスプレイスクリーンに第１のタイプのユーザ命令を表示するように構成される。

本出願の一実施形態の他の変形例では、表示モジュール４０９は、具体的には、第１のタイプのユーザ命令が音楽モードに関する命令である場合、第１のフォント色で第１のタイプのユーザ命令を表示し、第１のタイプのユーザ命令が音楽モードに関する命令でない場合、第２のフォント色で第１のタイプのユーザ命令を表示するように構成される。また、第１のフォント色は第２のフォント色より濃い。

本出願の一実施形態の変形例において、取得モジュール４０３は、具体的には、ユーザの音声情報と現在再生中の音声情報とを含む現在の音声情報を収集し、電子デバイスの前記現在再生中の音声情報を取得し、現在再生中の音声情報に基づいてユーザの音声情報を現在の音声情報から分離し、ユーザの音声情報を認識して第１のタイプのユーザ命令を取得するように構成される。

本出願の一実施形態の変形例においては、所定の期間は２０秒〜４０秒である。

なお、上記の電子デバイスの音声制御方法の一実施形態に対する説明は、一実施形態の電子デバイスの音声制御装置にも適用可能であり、その実現原理は類似しており、ここでは詳細に説明しない。

本出願の一実施形態の電子デバイスの音声制御装置は、ユーザの第１の音声命令を受信し、第１の音声命令に従って音楽モードに入り、音楽モードに入った後の所定の期間内に、電子デバイスの全二重リスニング状態を開始し、全二重リスニング状態では、電子デバイスは第１のタイプのユーザ命令を認識し、第１のタイプのユーザ命令にはウェイクアップワードを有しない。全二重リスニング状態で、第１のタイプのユーザ命令を取得し、第１のタイプのユーザ命令を認識し、第１のタイプのユーザ命令が音楽モードに関する命令である場合、第１のタイプのユーザ命令を実行し、第１のタイプのユーザ命令が音楽モードに関する命令でない場合、第１のタイプのユーザ命令を実行しなく、所定の期間後に、全二重リスニング状態を終了する。これにより、従来技術においてユーザが電子デバイスと音声対話を行う時の操作が煩雑であり、電子デバイスの通常動作に影響し、ユーザが電子デバイスを使用する体験が悪いという技術的課題が解決され、音楽モードに入った後の所定の期間内に、電子デバイスの全二重リスニング状態を開始することによって、ウェイクアップワードを有しない第１のタイプのユーザ命令を直接認識する。第１のタイプのユーザ命令が音楽モードに関する命令である場合に限って実行されることによって、ユーザが音声で命令を開始するコストを節約し、電子デバイスが音声を通常に再生することを確保し、ユーザの使用体験を向上させることができる。

上記の一実施形態を実現するために、本出願は、プロセッサとメモリとを備えるコンピュータ機器をさらに提供する。コンピュータ機器は、プロセッサがメモリに記憶されている実行可能なプログラムコードを読み出して、実行可能なプログラムコードに対応するプログラムを実行することによって、上記実施形態の電子デバイスの音声制御方法を実現する。

図７は、本出願の一実施形態に係るコンピュータ機器の概略構成図であり、本出願の一実施形態の実現に適する例示的なコンピュータ機器９０のブロック図を示す。図７に示されるコンピュータ機器９０は、単なる一例であり、本出願の一実施形態の機能及び使用範囲を一切限定しない。

図７に示されるように、コンピュータ機器９０は、汎用コンピューティング機器の形態で示されている。コンピュータ機器９０の構成要素は、少なくとも一つのプロセッサ又は処理ユニット９０６と、システムメモリ９１０と、異なるシステム構成要素（システムメモリ９１０と処理ユニット９０６とを備える）を接続するバス９０８とを備えているが、これらに限定されない。

バス９０８は、メモリバス又はメモリコントローラ、周辺バス、アクセラレーテッドグラフィックスポート、プロセッサ又は多様なバス構造のうちのいずれかのバス構造を使用するローカルバスを含む、複数種類のバス構造のうち少なくとも一つを表す。一例を挙げると、これらのアーキテクチャは、インダストリスタンダードアーキテクチャ（ＩｎｄｕｓｔｒｙＳｔａｎｄａｒｄＡｒｃｈｉｔｅｃｔｕｒｅ、以下ＩＳＡと略する）バス、マイクロチャネルアーキテクチャ（ＭｉｃｒｏＣｈａｎｎｅｌＡｒｃｈｉｔｅｃｔｕｒｅ、以下ＭＡＣと略する）バス、拡張ＩＳＡバス、ビデオエレクトロニクススタンダーズアソシエーション（ＶｉｄｅｏＥｌｅｃｔｒｏｎｉｃｓＳｔａｎｄａｒｄｓＡｓｓｏｃｉａｔｉｏｎ、以下ＶＥＳＡと略する）ローカルバス、及びペリフェラルコンポーネントインターコネクト（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔｉｏｎ、以下ＰＣＩと略する）バスを含むが、これらに限定されない。

コンピュータ機器９０は、典型的には、複数種類のコンピュータシステム読み取り可能な媒体を含む。これらの媒体は、コンピュータ機器９０がアクセスすることができる任意の使用可能な媒体であってもよく、揮発性媒体及び不揮発性媒体、リムーバブル媒体及びノンリムーバブル媒体を含む。

システムメモリ９１０は、ランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、以下ＲＡＭと略する）９１１及び／又はキャッシュメモリ９１２などの揮発性メモリの形態のコンピュータシステム読み取り可能な媒体を含んでもよい。コンピュータ機器９０は、他のリムーバブル／ノンリムーバブル、揮発性／不揮発性コンピュータシステム記憶媒体をさらに含んでもよい。単なる一例として、ストレージシステム９１３は、ノンリムーバブル、不揮発性磁気媒体（図７に示されていないが、通常「ハードドライブ」という）に対して読み出し及び書き込みをするために用いることができる。図７に示されていないが、リムーバブル不揮発性磁気ディスク（例えば、「フロッピーディスク」）に対して読み出し及び書き込みをするための磁気ディスクドライブ、及びリムーバブル不揮発性光学ディスク（例えば、コンパクトディスク読み出し専用リメモリ(ＣｏｍｐａｃｔＤｉｓｃＲｅａｄＯｎｌｙＭｅｍｏｒｙ、以下ＣＤ−ＲＯＭと略する)、ディーブイディーロム(ＤｉｇｉｔａｌＶｉｄｅｏＤｉｓｃＲｅａｄＯｎｌｙＭｅｍｏｒｙ、以下ＤＶＤ−ＲＯＭと略する)又は他の光学媒体）に対して読み出し及び書き込みをするための光学ディスクドライブを提供することができる。これらの場合、各ドライブは、一つ又は複数のデータメディアインターフェイスを介してバス９０８に接続することができる。システムメモリ９１０は、本発明の各実施例に記載の機能を実行するように構成される１セット（例えば、少なくとも一つ）のプログラムモジュールを有する少なくとも一つのプログラム製品を含んでもよい。

コンピュータ読み取り可能な信号媒体は、ベースバンドにおける、又は搬送波の一部として伝播するデータ信号を含むことができ、その中にはコンピュータ読み取り可能なプログラムコードが搭載されている。この伝播するデータ信号は様々な形式を採用することができ、電磁信号、光信号又は上記の任意の適切な組み合わせを含むがこれらに限定されない。コンピュータ読み取り可能な信号媒体は、さらに、コンピュータ読み取り可能な記憶媒体以外の任意のコンピュータ読み取り可能な媒体であってもよく、コンピュータ読み取り可能な媒体は、命令実行システム、装置又はデバイスにより使用され、或いはそれらと組み合わせて使用されるプログラムを送信、伝播又は伝送することができる。

コンピュータ読み取り可能な媒体に含まれるプログラムコードは、無線、有線、光ケーブル、ＲＦなど、又は上記の任意の適切な組み合わせを含むがこれらに限定されない任意の適切な媒体によって伝送することができる。

少なくとも一つのプログラミング言語又はそれらの組み合わせで本発明の動作を実行するためのコンピュータプログラムコードを作成することができ、プログラミング言語は、Ｊａｖａ（登録商標）、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などのプロジェクト指向のプログラミング言語を含み、さらに、「Ｃ」言語又は同様のプログラミング言語といった従来の手続き型プログラミング言語をも含む。プログラムコードは、完全にユーザーコンピュータで実行されてもよいし、部分的にユーザーコンピュータに実行されてもよいし、スタンドアロンソフトウェアパッケージとして実行されてもよいし、部分的にユーザーコンピュータで、部分的にリモートコンピュータで実行されてもよい、又は完全にリモートコンピュータ又はサーバーで実行してもよい。

１セットの（少なくとも１つ）プログラムモジュール９１４０を有するプログラム/ユーティリティ９１４は、例えば、システムメモリ９１０に記憶されてもよく、このようなプログラムモジュール９１４０は、オペレーティングシステム、少なくとも一つのアプリケーションプログラム、他のプログラムモジュールおよびプログラムデータを含むが、これらに限定されない。これらの一例のそれぞれまたはある組み合わせには、ネットワーキング環境の実装が含まれる可能性がある。プログラムモジュール９１４０は、一般的に、本開示に記載の一実施形態における機能および／または方法を実行する。

コンピュータ機器９０は、少なくとも一つの外部デバイス１０（例えば、キーボード、ポインティングデバイス、ディスプレイ１００など）と通信することができ、また、ユーザがコンピュータ機器９０とインタラクションすることを可能にする少なくとも一つのデバイスと通信することができ、および／または、コンピュータ機器９０が少なくとも一つの他のコンピューティングデバイスと通信することを可能にする任意のデバイス（例えば、ネットワークカード、モデムなど）と通信することもできる。そのような通信は、入力／出力（Ｉ／Ｏ）インターフェイス９０２を介して行うことができる。また、コンピュータ機器９０は、ネットワークアダプタ９００を介して、少なくとも一つのネットワーク（例えば、ローカルエリアネットワーク（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ、以下ＬＡＮと略する）、ワイドエリアネットワーク（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ、以下ＷＡＮと略する）、および／またはパブリックネットワーク、例えば、インターネット）と通信することができる。図７に示されるように、ネットワークアダプタ９００は、バス９０８を介してコンピュータ機器９０の他のモジュールと通信する。なお、図７に示されていないが、マイクロコード、デバイスドライバ、冗長化処理ユニット、外部ディスク駆動アレイ、ＲＡＩＤシステム、テープドライバ、およびデータバックアップストレージシステムなどを含むが、これらに限定されない他のハードウェアおよび／またはソフトウェアモジュールをコンピュータ機器９０と組み合わせて使用することができる。

処理ユニット９０６は、システムメモリ９１０に記憶されているプログラムを実行することにより、多様な機能アプリケーションおよび車載シーンに基づく電子デバイスの音声制御を実行し、例えば、上記実施形態に係る電子デバイスの音声制御方法を実現する。

上記の一実施形態を実現するために、本出願は、コンピュータプログラムが記憶されている非一時的なコンピュータ読み取り可能な記憶媒体をさらに提供する。記憶媒体は、コンピュータプログラムがプロセッサにより実行される場合に、上記実施形態に係る電子デバイスの音声制御方法が実現される。

上記実施形態を実現するために、本出願は、コンピュータプログラム製品をさらに提供する。コンピュータプログラム製品は、コンピュータプログラム製品における命令がプロセッサによって実行される場合に、上記実施形態に係る電子デバイスの音声制御方法が実現される。

本明細書の説明において、「一実施形態」、「一部の実施形態」、「一例」、「具体的な一例」、或いは「変形例」などの用語を参照した説明とは、実施形態或いは実施例を合わせて説明された具体的な特徴、構成、材料或いは特性が、本開示の少なくとも１つの実施形態或いは実施例に含まれることである。本明細書において、上記用語に対する例示的な説明は、必ずしも同じ実施形態或いは実施例を示すものではない。また、説明された具体的な特徴、構成、材料或いは特性は、少なくとも一つの実施形態又は実施例において適切に結合することができる。なお、相互に矛盾しない限り、当業者は、本明細書において説明された異なる実施形態又は実施例、及び異なる実施形態又は変形例の特徴を結合し、組み合わせることができる。

本発明の説明において、「第１」、「第２」の用語は、単に説明するためのものであり、比較的な重要性を指示又は暗示するか、或いは示された技術的特徴の数を黙示的に指示すると理解してはいけない。よって、「第１」、「第２」が限定されている特徴は少なくとも１つの特徴を含むことを明示又は暗示するものである。本開示の説明において、明確且つ具体的な限定がない限り、「複数」とは、少なくとも２つ、例えば、２つ、３つなどを意味する。

フローチャート、又はここで他の方式により説明されるいかなるプロセス又は方法の説明は、特定のロジック機能又はプロセスのステップを実現するための少なくとも一つの実行可能な命令のコードを含むモジュール、セグメント又は部分と理解されてもよい。また、本出願の好ましい実施形態の範囲は、他の実現形態が含まれており、例示され又は議論された順序に従わなくてもよく、言及された機能が実質的に同時に、又は逆の順序に応じて機能を実行することを含む。本出願の一実施形態が属する技術分野の当業者は、これを理解すべきである。

フローチャートで示された又はここで他の形態で説明されたロジック及び／又はステップは、例えば、ロジック機能を実現するための実行可能な命令の順番付けられたリストと見なすことができ、任意のコンピュータ読み取り可能な記憶媒体に具体的に実装されて、命令実行システム、装置、又はデバイス（例えばコンピュータに基づいたシステム、プロセッサを含むシステム、又は他の命令実行システム、装置又はデバイスから命令を獲得して命令を実行するシステム）に利用されるか、又はこれらの命令実行システム、装置又はデバイスと組み合わせて利用される。本願明細書において、「コンピュータ読み取り可能な記憶媒体」は、命令実行システム、装置又はデバイスによって、又は、命令実行システム、装置又はデバイスと組み合わせて使用するためのプログラムを含む、格納する、通信する、伝播する、又は伝送することができる任意の装置であってもよい。コンピュータ読み取り可能な記憶媒体のより具体的な例（非限定的なリスト）として、少なくとも一つの配線を備える電気接続部（電子デバイス）、ポータブルコンピュータディスクカートリッジ（磁気デバイス）、ランダムアクセスメモリ（ＲＡＭ）読み出し専用メモリ（ＲＯＭ）、消去可能なプログラマブル読み出し専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバデバイス、及びポータブルコンパクトディスク読み出し専用リメモリ（ＣＤ−ＲＯＭ）を含む。また、コンピュータ読み取り可能な記憶媒体は、コンピュータプログラムが印刷され得る紙又は他の適切な媒体であってもよく、これは、例えば、紙や他の媒体を光学的スキャンし、次に編集し、解釈し、又は必要な場合に他の適切な形態で処理してコンピュータプログラムを電子的に取得して、そしてコンピュータメモリに格納するからである。

なお、本出願の各部分は、ハードウェア、ソフトウェア、ファームウェア、又はこれらの組み合わせにより実現できる。上記実施形態では、複数のステップ又は方法は、メモリに記憶され、且つ適切なコマンド実行システムによって実行されるソフトウェア又はファームウェアにより実現することができる。例えば、ハードウェアにより実現される場合は、他の実施形態と同じく、本分野の以下の公知技術のうちいずれか一つ又はこれらの組み合わせにより実現することができる。データ信号のロジック機能を実現するための論理ゲート回路を備えたディスクリート論理回路、適切な組み合わせ論理ゲート回路を備えた専用集積回路、プログラム可能なゲートアレイ（ＰＧＡ）、フィールドプログラム可能なゲートアレイ（ＦＰＧＡ）などである。

当業者は、上記実施形態に係る方法に含まれている全部又は一部のステップが、プログラムにより関連するハードウェアを命令することにより完成できることを理解できる。コンピュータプログラムは、コンピュータ読み取り可能な媒体に記憶されてもよく、コンピュータプログラムは実行時に、方法の実施形態における一つのステップ又はその組み合わせを含むことができる。

また、本出願の各実施形態に係る各機能ユニットは、一つの処理モジュールに集積されてもよく、各ユニットが物理的に独立して存在してもよく、二つ又は二つ以上のユニットが一つのモジュールに集積されてもよい。上記集積されたモジュールは、ハードウェアの形式により実現されてもよく、ソフトウェアの機能モジュールの形式により実現されてもよい。上記集積されたモジュールがソフトウェアの機能モジュールの形式により実現され、独立の製品として販売又は使用される場合、一つのコンピュータ読み取り可能な記憶媒体に記憶することもできる。

上記の記憶媒体は、読み出し専用メモリや磁気ディスク、光ディスクなどであってもよい。以上に本出願の一実施形態を示して説明したが、上記実施形態は、例示的なものであり、本出願を限定するものと理解してはいけない。当業者は、本出願の範囲内に、上記実施形態に対して変化、修正、取り替え及び変形を行うことができる。

Claims

電子デバイスの音声制御方法であって、
ユーザの第１の音声命令を受信し、該第１の音声命令に従って音楽モードに入るステップと、
前記音楽モードに入った後の所定の期間内に、前記電子デバイスの全二重リスニング状態を開始するステップであって、前記全二重リスニング状態では、前記電子デバイスが第１のタイプのユーザ命令を認識し、前記第１のタイプのユーザ命令にはウェイクアップワードを有しないステップと、
前記全二重リスニング状態で、前記第１のタイプのユーザ命令を取得し、前記第１のタイプのユーザ命令を認識するステップと、
前記第１のタイプのユーザ命令が前記音楽モードに関する命令である場合、前記第１のタイプのユーザ命令を実行するステップと、
前記第１のタイプのユーザ命令が前記音楽モードに関する命令でない場合、前記第１のタイプのユーザ命令を実行しないステップと、
前記所定の期間後に、前記全二重リスニング状態を終了するステップとを含む電子デバイスの音声制御方法。
前記全二重リスニング状態を終了するステップの後に、
ウェイクアップワードを有する第２のタイプのユーザ命令を取得し、前記第２のタイプのユーザ命令を認識するステップと、
前記第２のタイプのユーザ命令を実行するステップとをさらに含む請求項１に記載の電子デバイスの音声制御方法。
前記第１のタイプのユーザ命令を認識するステップの後に、
前記電子デバイスのディスプレイスクリーンに前記第１のタイプのユーザ命令を表示するステップをさらに含む請求項１に記載の電子デバイスの音声制御方法。
前記電子デバイスの前記ディスプレイスクリーンに前記第１のタイプのユーザ命令を表示するステップは、
前記第１のタイプのユーザ命令が前記音楽モードに関する命令である場合、第１のフォント色で前記第１のタイプのユーザ命令を表示するステップと、
前記第１のタイプのユーザ命令が前記音楽モードに関する命令でない場合、第２のフォント色で前記第１のタイプのユーザ命令を表示するステップとを含み、
前記第１のフォント色が前記第２のフォント色より濃い請求項３に記載の電子デバイスの音声制御方法。
前記全二重リスニング状態で、前記第１のタイプのユーザ命令を取得するステップは、
ユーザの音声情報と現在再生中の音声情報とを含む現在の音声情報を収集するステップと、
前記電子デバイスの前記現在再生中の音声情報を取得するステップと、
前記現在再生中の音声情報に基づいて前記ユーザの音声情報を前記現在の音声情報から分離するステップと、
前記ユーザの音声情報を認識して前記第１のタイプのユーザ命令を取得するステップとを含む請求項１に記載の電子デバイスの音声制御方法。
前記所定の期間が２０秒〜４０秒である請求項１に記載の電子デバイスの音声制御方法。
電子デバイスの音声制御装置であって、
ユーザの第１の音声命令を受信し、該第１の音声命令に従って音楽モードに入る受信モジュールと、
前記音楽モードに入った後の所定の期間内に、前記電子デバイスの全二重リスニング状態を開始する開始モジュールであって、前記全二重リスニング状態では、前記電子デバイスが第１のタイプのユーザ命令を認識し、前記第１のタイプのユーザ命令にはウェイクアップワードを有しない開始モジュールと、
前記全二重リスニング状態で、前記第１のタイプのユーザ命令を取得する取得モジュールと、
前記第１のタイプのユーザ命令を認識する認識モジュールと、
前記第１のタイプのユーザ命令が前記音楽モードに関する命令である場合、前記第１のタイプのユーザ命令を実行し、前記第１のタイプのユーザ命令が前記音楽モードに関する命令でない場合、前記第１のタイプのユーザ命令を実行しない処理モジュールと、
前記所定の期間後に、前記全二重リスニング状態を終了する終了モジュールとを備える電子デバイスの音声制御装置。
ウェイクアップワードを有する第２のタイプのユーザ命令を取得し、前記第２のタイプのユーザ命令を認識する取得認識モジュールと、
前記第２のタイプのユーザ命令を実行する実行モジュールとをさらに備える請求項７に記載の電子デバイスの音声制御装置。
前記電子デバイスのディスプレイスクリーンに前記第１のタイプのユーザ命令を表示する表示モジュールをさらに備える請求項７に記載の電子デバイスの音声制御装置。
前記表示モジュールは、具体的には、
前記第１のタイプのユーザ命令が前記音楽モードに関する命令である場合、第１のフォント色で前記第１のタイプのユーザ命令を表示し、
前記第１のタイプのユーザ命令が前記音楽モードに関する命令でない場合、第２のフォント色で前記第１のタイプのユーザ命令を表示し、
前記第１のフォント色が前記第２のフォント色より濃い請求項９に記載の電子デバイスの音声制御装置。
前記取得モジュールは、具体的には、
ユーザの音声情報と現在再生中の音声情報とを含む現在の音声情報を収集し、
前記電子デバイスの前記現在再生中の音声情報を取得し、
前記現在再生中の音声情報に基づいて前記ユーザの音声情報を前記現在の音声情報から分離し、
前記ユーザの音声情報を認識して前記第１のタイプのユーザ命令を取得する請求項７に記載の電子デバイスの音声制御装置。
前記所定の期間が２０秒〜４０秒である請求項７に記載の電子デバイスの音声制御装置。
プロセッサとメモリとを備えるコンピュータ機器であって、
前記プロセッサが前記メモリに記憶されている実行可能なプログラムコードを読み出して前記実行可能なプログラムコードに対応するプログラムを実行することにより、請求項１から請求項６のいずれかに記載の電子デバイスの音声制御方法を実現するコンピュータ機器。
コンピュータプログラムが記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータプログラムがプロセッサにより実行される場合に、請求項１から請求項６のいずれかに記載の電子デバイスの音声制御方法が実現される非一時的なコンピュータ読み取り可能な記憶媒体。