JP6814871B2 - 電子デバイスの音声制御方法、電子デバイスの音声制御装置、コンピュータ機器及び記憶媒体 - Google Patents

電子デバイスの音声制御方法、電子デバイスの音声制御装置、コンピュータ機器及び記憶媒体 Download PDF

Info

Publication number
JP6814871B2
JP6814871B2 JP2019236057A JP2019236057A JP6814871B2 JP 6814871 B2 JP6814871 B2 JP 6814871B2 JP 2019236057 A JP2019236057 A JP 2019236057A JP 2019236057 A JP2019236057 A JP 2019236057A JP 6814871 B2 JP6814871 B2 JP 6814871B2
Authority
JP
Japan
Prior art keywords
type
user
user instruction
electronic device
instruction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019236057A
Other languages
English (en)
Other versions
JP2020197695A (ja
Inventor
ヨンシ ルオ,
ヨンシ ルオ,
シャシャ ワン,
シャシャ ワン,
ガン チャン,
ガン チャン,
Original Assignee
バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド, バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド filed Critical バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
Publication of JP2020197695A publication Critical patent/JP2020197695A/ja
Application granted granted Critical
Publication of JP6814871B2 publication Critical patent/JP6814871B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Description

本出願は、人工知能技術の分野に関し、特に、電子デバイスの音声制御方法、電子デバイスの音声制御装置、コンピュータ機器及び記憶媒体に関する。
現在、インターネット技術とスマートデバイスの急速な発展に伴い、ユーザはスマートデバイスと音声対話を行うことによって関連ニーズを満たすことができ、例えば、スマートスピーカーと対話することによって、音楽を再生するニーズを満たすことができる。
関連技術では、スマートデバイスとインタラクションを行う前に、スマートデバイスをウェイクアップ(wake up)する必要があり、つまり、スマートデバイスとインタラクションを行うたびに、スマートデバイスをウェイクアップする操作を一回行う必要がある。さらに、スマートデバイスの動作状態で、スマートデバイスをウェイクアップする操作によって、現在の動作状態が停止することになり、これにより、操作が煩雑であり、スマートデバイスの通常動作に影響する。
本出願は、関連技術における少なくとも一つの技術的課題をある程度解決することを目的とする。
そのため、本出願では、従来技術においてユーザが電子デバイスと音声インタラクションを行う時に操作が煩雑であり、電子デバイスの通常動作に影響し、ユーザが電子デバイスを使用する体験が悪いという技術的課題を解決するための電子デバイスの音声制御方法、音声制御装置、コンピュータ機器及び記憶媒体が提供される。音楽モードに入った後の所定の期間内に、電子デバイスの全二重リスニング状態を開始し、ウェイクアップワードを有しない第1のタイプのユーザ命令を直接認識し、第1のタイプのユーザ命令が音楽モードに関する命令である場合に限って実行されることによって、ユーザが音声で命令を開始するコストを節約し、電子デバイスが通常に音声を再生することを確保し、ユーザの使用体験を向上させることができる。
上記の目的を達成するために、本出願の第1態様は、電子デバイスの音声制御方法を提供する。電子デバイスの音声制御方法は、ユーザの第1の音声命令を受信し、該第1の音声命令に従って音楽モードに入るステップと、前記音楽モードに入った後の所定の期間内に、前記電子デバイスの全二重リスニング状態を開始するステップであって、前記全二重リスニング状態では、前記電子デバイスが第1のタイプのユーザ命令を認識し、前記第1のタイプのユーザ命令にはウェイクアップワードを有しないステップと、前記全二重リスニング状態で、前記第1のタイプのユーザ命令を取得し、前記第1のタイプのユーザ命令を認識するステップと、前記第1のタイプのユーザ命令が前記音楽モードに関する命令である場合、前記第1のタイプのユーザ命令を実行するステップと、前記第1のタイプのユーザ命令が前記音楽モードに関する命令でない場合、前記第1のタイプのユーザ命令を実行しないステップと、前記所定の期間後に、前記全二重リスニング状態を終了するステップとを含む。
本態様において、電子デバイスの音声制御方法は、ユーザの第1の音声命令を受信し、第1の音声命令に従って音楽モードに入り、音楽モードに入った後の所定の期間内に、電子デバイスの全二重リスニング状態を開始し、全二重リスニング状態では、電子デバイスは第1のタイプのユーザ命令を認識し、第1のタイプのユーザ命令にはウェイクアップワードを有しない。全二重リスニング状態で、第1のタイプのユーザ命令を取得し、第1のタイプのユーザ命令を認識し、第1のタイプのユーザ命令が音楽モードに関する命令である場合、第1のタイプのユーザ命令を実行し、第1のタイプのユーザ命令が音楽モードに関する命令でない場合、第1のタイプのユーザ命令を実行しなく、所定の期間後に、全二重リスニング状態を終了する。これにより、従来技術においてユーザが電子デバイスと音声対話を行う時の操作が煩雑であり、電子デバイスの通常動作に影響し、ユーザが電子デバイスを使用する体験が悪いという技術的課題が解決され、音楽モードに入った後の所定の期間内に、電子デバイスの全二重リスニング状態を開始することによって、ウェイクアップワードを有しない第1のタイプのユーザ命令を直接認識する。第1のタイプのユーザ命令が音楽モードに関する命令である場合に限って実行されることによって、ユーザが音声で命令を開始するコストを節約し、電子デバイスが音声を通常に再生することを確保し、ユーザの使用体験を向上させることができる。
上記の目的を達成するために、本出願の第2態様は、電子デバイスの音声制御装置を提供する。電子デバイスの音声制御装置は、ユーザの第1の音声命令を受信し、該第1の音声命令に従って音楽モードに入る受信モジュールと、前記音楽モードに入った後の所定の期間内に、前記電子デバイスの全二重リスニング状態を開始する開始モジュールであって、前記全二重リスニング状態では、前記電子デバイスが第1のタイプのユーザ命令を認識し、前記第1のタイプのユーザ命令にはウェイクアップワードを有しない開始モジュールと、前記全二重リスニング状態で、前記第1のタイプのユーザ命令を取得する取得モジュールと、前記第1のタイプのユーザ命令を認識する認識モジュールと、前記第1のタイプのユーザ命令が前記音楽モードに関する命令である場合、前記第1のタイプのユーザ命令を実行し、前記第1のタイプのユーザ命令が前記音楽モードに関する命令でない場合、前記第1のタイプのユーザ命令を実行しない処理モジュールと、前記所定の期間後に、前記全二重リスニング状態を終了する終了モジュールとを備える。
本態様において、電子デバイスの音声制御装置は、ユーザの第1の音声命令を受信し、第1の音声命令に従って音楽モードに入り、音楽モードに入った後の所定の期間内に、電子デバイスの全二重リスニング状態を開始し、全二重リスニング状態では、電子デバイスが第1のタイプのユーザ命令を認識し、第1のタイプのユーザ命令にはウェイクアップワードを有しない。全二重リスニング状態で、第1のタイプのユーザ命令を取得し、第1のタイプのユーザ命令を認識し、第1のタイプのユーザ命令が音楽モードに関する命令である場合、第1のタイプのユーザ命令を実行し、第1のタイプのユーザ命令が音楽モードに関する命令でない場合、第1のタイプのユーザ命令を実行しなく、所定の期間後に、全二重リスニング状態を終了する。これにより、従来技術においてユーザが電子デバイスと音声対話を行う時の操作が煩雑であり、電子デバイスの通常動作に影響し、ユーザが電子デバイスを使用する体験が悪いという技術的課題が解決され、音楽モードに入った後の所定の期間内に、電子デバイスの全二重リスニング状態を開始することによって、ウェイクアップワードを有しない第1のタイプのユーザ命令を直接認識する。第1のタイプのユーザ命令が音楽モードに関する命令である場合に限って実行されることによって、ユーザの音声開始命令コストを節約し、電子デバイスが音声を通常に再生することを確保し、ユーザの使用体験を向上させることができる。
上記の目的を達成するために、本出願の第3態様は、コンピュータ機器を提供する。コンピュータ機器は、プロセッサとメモリとを備え、前記プロセッサが前記メモリに記憶されている実行可能なプログラムコードを読み出して前記実行可能なプログラムコードに対応するプログラムを実行することによって、上記の電子デバイスの音声制御方法を実現する。
上記の目的を達成するために、本出願の第4態様は、コンピュータプログラムが記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供する。記憶媒体は、前記コンピュータプログラムがプロセッサにより実行される場合に、上記の電子デバイスの音声制御方法が実現される。
上記の目的を達成するために、本出願の第5態様は、コンピュータプログラム製品を提供する。コンピュータプログラム製品は、該コンピュータプログラム製品における命令がプロセッサによって実行される場合に、上記の電子デバイスの音声制御方法が実現される。
本出願の付加的な特徴及び利点は、一部が以下の説明において示され、一部が以下の説明により明らかになり、又は本出願の実践により理解される。
本出願の上記及び/又は付加的な特徴及び利点は、実施例について図面を参照して以下に説明することにより、明らかになり、理解されやすくなる。
本出願の一実施形態に係る電子デバイスの音声制御方法の概略フローチャートである。 本出願の一実施形態の変形例の電子デバイスの音声制御方法の概略フローチャートである。 本出願の一実施形態に係る電子デバイスの表示の例を示す図である。 本出願の一実施形態に係る電子デバイスの音声制御装置の概略構成図である。 本出願の一実施形態に係る変形例電子デバイスの音声制御装置の概略構成図である。 本出願の一実施形態に係る他の変形例の電子デバイスの音声制御装置の概略構成図である。 本出願の一実施形態に係るコンピュータ機器の概略構成図である。
以下、本出願の一実施形態を詳細に説明する。一実施形態における一例が図面に示され、同一又は類似する符号は、常に同一又は類似する素子、或いは、同一又は類似する機能を有する素子を示す。以下に、図面を参照しながら説明される一実施形態は例示的なものであり、本出願を解釈するためだけに用いられ、本出願を限定するものと理解してはならない。
以下、図面を参照して本出願の一実施形態に係る電子デバイスの音声制御方法、電子デバイスの音声制御装置、コンピュータ機器及び記憶媒体を説明する。
図1は、本出願の一実施形態に係る電子デバイスの音声制御方法の概略フローチャートである。
図1に示されるように、電子デバイスの音声制御方法は、以下のステップ101〜ステップ106を含む。
ステップ101では、ユーザの第1の音声命令を受信し、第1の音声命令に従って音楽モードに入る。
具体的には、ユーザは電子デバイスと音声対話を行うことができ、ここで、電子デバイスは、ロボット、スマートスピーカー、スマート学習マシンなどであってもよく、実際の使用ニーズに応じて選択することができる。
実際の使用では、ユーザが一つの音声命令を開始した後、電子デバイスは、音楽モードに入って音楽再生を行い、電子デバイスはユーザの音声命令をリスニングしなくなり、ユーザが再び音声命令を開始する場合、「小度小度」のようなウェイクアップワードを予め設定して電子デバイスをウェイクアップする必要があり、この時、音楽は一時停止され、電子デバイスはユーザ命令をリスニングして認識し、認識が完了した後に当該ユーザ命令に応答する。
したがって、ユーザが再び音声命令を開始する場合、所定のウェイクアップワードによって電子デバイスを再びウェイクアップする必要があることが分かり、ユーザにとって音声コストがあり、且つ電子デバイスが「スマート」ではないように見える。つまり、ユーザが再び音声命令を開始する場合、スピーカー及びマイクの一方しか動作できず、この時スピーカーはオフになり、音楽の再生が一時停止され、マイクはオンになり、電子デバイスはユーザ命令をリスニングして認識する。スピーカーがオフになっているため、ユーザが音楽を聴く体験が連続的ではない。再び音声命令を開始するたびに、音楽が中断され、電子デバイスの通常動作が影響され、ユーザが電子デバイスを使用する体験が悪くなる。
上記の問題に対して、本出願は、電子デバイスの音声制御方法を提供する。音楽モードに入った後の所定の期間内に、電子デバイスの全二重リスニング状態を開始することによって、ウェイクアップワードを有しない第1のタイプのユーザ命令を直接認識し、第1のタイプのユーザ命令が音楽モードに関する命令である場合に限って実行されることによって、ユーザが音声で命令を開始するコストを節約し、電子デバイスが音声を通常に再生することを確保し、ユーザの使用体験を向上させることができる。
まず、ユーザの第1の音声命令を受信し、第1の音声命令に従って音楽モードに入り、ここで、第1の音声命令は、例えば、「ジェイ・チョウの七里香(Qi Li Xiang)を再生」であり、電子デバイスは、「七里香」を再生する音楽モードに入る。なお、ユーザの第1の音声命令を受信する時に、電子デバイスはウェイクアップ状態にあることを理解されたい。
ステップ102では、音楽モードに入った後の所定の期間内に、電子デバイスの全二重リスニング状態を開始し、全二重リスニング状態では、電子デバイスは第1のタイプのユーザ命令を認識し、第1のタイプのユーザ命令にはウェイクアップワードを有しない。
ステップ103では、全二重リスニング状態で、第1のタイプのユーザ命令を取得し、第1のタイプのユーザ命令を認識する。
具体的には、音楽モードに入った後の所定の期間内に、電子デバイスの全二重リスニング状態を開始し、実際の用途に基づいて所定の期間の選択設定を行い、ユーザ操作習慣及び電子デバイスのエネルギー消費の問題を考慮して、20秒〜40秒とすることが好ましい。
ここで、ユーザの使用体験をさらに向上させるため、又は現在全二重リスニング状態にあるか否かをユーザが決定できるようにするために、電子デバイスの全二重リスニング状態を開始した後、電子デバイスのディスプレイスクリーンに関連パターン又は文字などの形態でユーザに提示し、例えば、電子デバイスのロゴパターンをカラーで表示する。
ここで、電子デバイスの全二重リスニング状態は、スピーカー及びマイクが同時に動作する状態であり、ユーザが第1の音声命令を開始した後、電子デバイスは、30秒などの所定の期間内にリスニングし続ける(この時、音楽が通常に再生され、音楽を聴く体験に影響しない)。
ここで、全二重リスニング状態で第1のタイプのユーザ命令を取得する方式は、様々であり、以下に例を挙げて説明する。
第1の例では、電子デバイスの現在再生中の音声情報を取得し、現在再生中の音声情報に基づいてユーザの音声情報を現在の音声情報から分離し、ユーザの音声情報を認識して第1のタイプのユーザ命令を取得する。
第2の例では、予め設定して入力されたユーザ声紋特徴に基づいて、直接に現在の音声情報からユーザ声紋特徴に対応するユーザの音声情報を抽出し、ユーザの音声情報を認識して第1のタイプのユーザ命令を取得する。
なお、全二重リスニング状態で、ウェイクアップワードを有しない第1のタイプのユーザ命令を取得し、第1のタイプのユーザ命令を直接認識することができることを理解されたい。第1のタイプのユーザ命令の形態は様々であることを理解されたい。一例として、第1のタイプのユーザ命令を取得した後に音声テキスト変換方法によってテキストに変換し、次にテキスト形態の第1のタイプのユーザ命令に対して単語分割処理又はキーワード抽出などを行い、所定の命令テーブルとマッチングさせることによって、対応するターゲット命令を取得し、第1のタイプのユーザ命令の認識操作を完了する。
ステップ104では、第1のタイプのユーザ命令が音楽モードに関する命令である場合、第1のタイプのユーザ命令を実行する。
ステップ105では、第1のタイプのユーザ命令が音楽モードに関する命令でない場合、第1のタイプのユーザ命令を実行しない。
ステップ106では、所定の期間後に、全二重リスニング状態を終了する。
具体的には、第1のタイプのユーザ命令は、音楽モードに関する命令であってもよく、音楽モードに関する命令でなくてもよく、例えば、電子デバイスが、「七里香」を再生する音楽モードを実行する第1のタイプのユーザ命令が「次の曲を再生する」と「音量を上げる」などであることを認識した場合、第1のタイプのユーザ命令が音楽モードに関する命令であると考えることができ、第1のタイプのユーザ命令を直接実行することができる。また、例えば、電子デバイスが、「七里香」を再生する音楽モードを行い、第1のタイプのユーザ命令が「今日の天気はどうですか」などであることを認識した場合、第1のタイプのユーザ命令が音楽モードに関する命令ではないと考えることができ、第1のタイプのユーザ命令を実行しない。
ステップ106では、電子デバイスの航続能力を向上させ、ユーザの操作要求を満たすために、所定の期間後に、全二重リスニング状態を終了する。
本実施形態に係る電子デバイスの音声制御方法は、ユーザの第1の音声命令を受信し、第1の音声命令に従って音楽モードに入り、音楽モードに入った後の所定の期間内に、電子デバイスの全二重リスニング状態を開始し、全二重リスニング状態では、電子デバイスは第1のタイプのユーザ命令を認識し、第1のタイプのユーザ命令にはウェイクアップワードを有しない。全二重リスニング状態で、第1のタイプのユーザ命令を取得し、第1のタイプのユーザ命令を認識し、第1のタイプのユーザ命令が音楽モードに関する命令である場合、第1のタイプのユーザ命令を実行し、第1のタイプのユーザ命令が音楽モードに関する命令でない場合、第1のタイプのユーザ命令を実行しなく、所定の期間後に、全二重リスニング状態を終了する。これにより、従来技術においてユーザが電子デバイスと音声対話を行う時の操作が煩雑であり、電子デバイスの通常動作に影響し、ユーザが電子デバイスを使用する体験が悪いという技術的課題が解決され、音楽モードに入った後の所定の期間内に、電子デバイスの全二重リスニング状態を開始することによって、ウェイクアップワードを有しない第1のタイプのユーザ命令を直接認識する。第1のタイプのユーザ命令が音楽モードに関する命令である場合に限って実行されることによって、ユーザの音声開始命令コストを節約し、電子デバイスが音声を通常に再生することを確保し、ユーザの使用体験を向上させることができる。
図2は、本出願の一実施形態の変形例の電子デバイスの音声制御方法の概略フローチャートである。
図2に示されるように、電子デバイスの音声制御方法は、以下のステップ201〜ステップ207を含む。
ステップ201では、ユーザの第1の音声命令を受信し、第1の音声命令に従って音楽モードに入る。
ステップ202では、音楽モードに入った後の所定の期間内に、電子デバイスの全二重リスニング状態を開始し、全二重リスニング状態では、電子デバイスは第1のタイプのユーザ命令を認識し、第1のタイプのユーザ命令にはウェイクアップワードを有しない。
なお、ステップ201およびステップ202は、上記の一実施形態のステップ101およびステップ102と同じであり、具体的な説明は、ステップ101およびステップ102の説明を参照されたく、ここでは詳細に説明しない。
ステップ203では、全二重リスニング状態で、電子デバイスの現在再生中の音声情報を取得し、現在再生中の音声情報に基づいてユーザの音声情報を現在の音声情報から分離し、ユーザの音声情報を認識して第1のタイプのユーザ命令を取得し、第1のタイプのユーザ命令を認識する。
全二重リスニング状態では、スピーカー及びマイクの両方は動作しており、つまり、マイクが受信した現在の音声情報は、スピーカーで現在再生中の音声とユーザの音声情報とを含むため、現在再生中の音声情報に基づいてユーザの音声情報を現在の音声情報から分離する必要がある。ユーザの音声情報を認識して第1のタイプのユーザ命令を取得し、第1のタイプのユーザ命令を認識することによって、音声認識の精度を向上させることを理解されたい。
ステップ204では、電子デバイスのディスプレイスクリーンに第1のタイプのユーザ命令を表示する。
具体的には、ユーザの体験をさらに向上させるために、電子デバイスのディスプレイスクリーンに第1のタイプのユーザ命令を表示することができ、一例を挙げて以下に説明する。
第1の例では、第1のタイプのユーザ命令が音楽モードに関する命令である場合、第1のフォント色で第1のタイプのユーザ命令を表示し、第1のタイプのユーザ命令が音楽モードに関する命令でない場合、第2のフォント色で第1のタイプのユーザ命令を表示し、第1のフォント色は第2のフォント色より濃い。図3に示されるように、音楽モードに関する第1のタイプのユーザ命令である場合、フォントは、青色になり、音楽モードに関する第1のタイプのユーザ命令でない場合、フォントは、グレーになる。
第2の例では、第1のタイプのユーザ命令が音楽モードに関する命令である場合、第1のフォントサイズで第1のタイプのユーザ命令を表示し、第1のタイプのユーザ命令が音楽モードに関する命令でない場合、第2のフォントサイズで第1のタイプのユーザ命令を表示し、ここで、第1のフォントサイズは、第2のフォントサイズより大きい。
なお、フォント色、フォントの色サイズ、及び異なるフォントに限らず、速度、位置などの表示形態であってもよい。
ステップ205では、第1のタイプのユーザ命令が音楽モードに関する命令である場合、第1のタイプのユーザ命令を実行し、第1のタイプのユーザ命令が音楽モードに関する命令でない場合、第1のタイプのユーザ命令を実行しない。
ステップ206では、所定の期間後に、全二重リスニング状態を終了する。
具体的には、第1のタイプのユーザ命令は、音楽モードに関する命令であってもよく、音楽モードに関する命令でなくてもよい。例えば、電子デバイスが、「七里香」を再生する音楽モードを行い、第1のタイプのユーザ命令が「次の曲を再生する」と「音量を上げる」などであることを認識した場合、第1のタイプのユーザ命令が音楽モードに関する命令であると考えることができ、第1のタイプのユーザ命令を直接実行することができる。また、例えば、電子デバイスが「七里香」を再生する音楽モードを行い、第1のタイプのユーザ命令が「今日の天気はどうですか」などであることを認識した場合、第1のタイプのユーザ命令が音楽モードに関する命令ではないと考えることができ、第1のタイプのユーザ命令を実行しない。
ステップ206では、電子デバイスの航続能力を向上させ、ユーザの操作要求を満たすために、所定の期間後に、全二重リスニング状態を終了する。
ステップ207では、第2のタイプのユーザ命令を取得し、第2のタイプのユーザ命令を認識し、ここで、第2のタイプのユーザ命令にはウェイクアップワードを有し、第2のタイプのユーザ命令を実行する。
具体的には、全二重リスニング状態を終了した後、マイクのみが動作しているため、ウェイクアップワードを有する第2のタイプのユーザ命令を取得し、第2のタイプのユーザ命令を実行する。
これにより、ユーザによって一つの音声命令が開始された後、カラー電子デバイスの画像の方式で電子デバイスのディスプレイスクリーンに表示され、直接に音楽に関する音声命令を再開始することができ、直接に音楽を聴いている時に開始することができ、ユーザが音声で命令を開始するコストが節約され、音楽を中断する必要がなく、音楽を聴く体験は連続的且つ完全である。
本実施形態に係る電子デバイスの音声制御方法は、ユーザの第1の音声命令を受信し、第1の音声命令に従って音楽モードに入り、音楽モードに入った後の所定の期間内に、電子デバイスの全二重リスニング状態を開始し、全二重リスニング状態では、電子デバイスは第1のタイプのユーザ命令を認識し、第1のタイプのユーザ命令にはウェイクアップワードを有しない。全二重リスニング状態で、第1のタイプのユーザ命令を取得し、第1のタイプのユーザ命令を認識し、第1のタイプのユーザ命令が音楽モードに関する命令である場合、第1のタイプのユーザ命令を実行し、第1のタイプのユーザ命令が音楽モードに関する命令でない場合、第1のタイプのユーザ命令を実行しなく、所定の期間後に、全二重リスニング状態を終了する。これにより、従来技術においてユーザが電子デバイスと音声対話を行う時の操作が煩雑であり、電子デバイスの通常動作に影響し、ユーザが電子デバイスを使用する体験が悪いという技術的課題が解決され、音楽モードに入った後の所定の期間内に、電子デバイスの全二重リスニング状態を開始することによって、ウェイクアップワードを有しない第1のタイプのユーザ命令を直接認識する。第1のタイプのユーザ命令が音楽モードに関する命令である場合に限って実行されることによって、ユーザの音声開始命令コストを節約し、電子デバイスが音声を通常に再生することを確保し、ユーザの使用体験を向上させることができる。
上記の実施形態を実現するために、本出願は、電子デバイスの音声制御装置をさらに提供する。
図4は、本出願の一実施形態に係る電子デバイスの音声制御装置の概略構成図である。
図4に示されるように、電子デバイスの音声制御装置は、受信モジュール401と、開始モジュール402と、取得モジュール403と、認識モジュール404と、処理モジュール405と、終了モジュール406とを備えている。
受信モジュール401は、ユーザの第1の音声命令を受信し、第1の音声命令に従って音楽モードに入るように構成される。
開始モジュール402は、前記音楽モードに入った後の所定の期間内に、電子デバイスの全二重リスニング状態を開始するように構成され、全二重リスニング状態では、電子デバイスは第1のタイプのユーザ命令を認識し、第1のタイプのユーザ命令にはウェイクアップワードを有しない。
取得モジュール403は、全二重リスニング状態で、第1のタイプのユーザ命令を取得するように構成される。
認識モジュール404は、第1のタイプのユーザ命令を認識するように構成される。
処理モジュール405は、第1のタイプのユーザ命令が音楽モードに関する命令である場合、第1のタイプのユーザ命令を実行するように構成される。
また、処理モジュール405は、第1のタイプのユーザ命令が音楽モードに関する命令でない場合、第1のタイプのユーザ命令を実行しないように構成される。
終了モジュール406は、所定の期間後に、全二重リスニング状態を終了するように構成される。
本出願の一実施形態の変形例では、図5に示されるように、図4の電子デバイスの音声制御装置が、取得認識モジュール407と実行モジュール408とをさらに備えている。
ここで、取得認識モジュール407は、ウェイクアップワードを有する第2のタイプのユーザ命令を取得し、第2のタイプのユーザ命令を認識するように構成される。
実行モジュール408は、第2のタイプのユーザ命令を実行するように構成される。
本出願の一実施形態の他の変形例では、図6に示されるように、図4の電子デバイスの音声制御装置が、表示モジュール409をさらに備えている。
表示モジュール409は、電子デバイスのディスプレイスクリーンに第1のタイプのユーザ命令を表示するように構成される。
本出願の一実施形態の他の変形例では、表示モジュール409は、具体的には、第1のタイプのユーザ命令が音楽モードに関する命令である場合、第1のフォント色で第1のタイプのユーザ命令を表示し、第1のタイプのユーザ命令が音楽モードに関する命令でない場合、第2のフォント色で第1のタイプのユーザ命令を表示するように構成される。また、第1のフォント色は第2のフォント色より濃い。
本出願の一実施形態の変形例において、取得モジュール403は、具体的には、ユーザの音声情報と現在再生中の音声情報とを含む現在の音声情報を収集し、電子デバイスの前記現在再生中の音声情報を取得し、現在再生中の音声情報に基づいてユーザの音声情報を現在の音声情報から分離し、ユーザの音声情報を認識して第1のタイプのユーザ命令を取得するように構成される。
本出願の一実施形態の変形例においては、所定の期間は20秒〜40秒である。
なお、上記の電子デバイスの音声制御方法の一実施形態に対する説明は、一実施形態の電子デバイスの音声制御装置にも適用可能であり、その実現原理は類似しており、ここでは詳細に説明しない。
本出願の一実施形態の電子デバイスの音声制御装置は、ユーザの第1の音声命令を受信し、第1の音声命令に従って音楽モードに入り、音楽モードに入った後の所定の期間内に、電子デバイスの全二重リスニング状態を開始し、全二重リスニング状態では、電子デバイスは第1のタイプのユーザ命令を認識し、第1のタイプのユーザ命令にはウェイクアップワードを有しない。全二重リスニング状態で、第1のタイプのユーザ命令を取得し、第1のタイプのユーザ命令を認識し、第1のタイプのユーザ命令が音楽モードに関する命令である場合、第1のタイプのユーザ命令を実行し、第1のタイプのユーザ命令が音楽モードに関する命令でない場合、第1のタイプのユーザ命令を実行しなく、所定の期間後に、全二重リスニング状態を終了する。これにより、従来技術においてユーザが電子デバイスと音声対話を行う時の操作が煩雑であり、電子デバイスの通常動作に影響し、ユーザが電子デバイスを使用する体験が悪いという技術的課題が解決され、音楽モードに入った後の所定の期間内に、電子デバイスの全二重リスニング状態を開始することによって、ウェイクアップワードを有しない第1のタイプのユーザ命令を直接認識する。第1のタイプのユーザ命令が音楽モードに関する命令である場合に限って実行されることによって、ユーザが音声で命令を開始するコストを節約し、電子デバイスが音声を通常に再生することを確保し、ユーザの使用体験を向上させることができる。
上記の一実施形態を実現するために、本出願は、プロセッサとメモリとを備えるコンピュータ機器をさらに提供する。コンピュータ機器は、プロセッサがメモリに記憶されている実行可能なプログラムコードを読み出して、実行可能なプログラムコードに対応するプログラムを実行することによって、上記実施形態の電子デバイスの音声制御方法を実現する。
図7は、本出願の一実施形態に係るコンピュータ機器の概略構成図であり、本出願の一実施形態の実現に適する例示的なコンピュータ機器90のブロック図を示す。図7に示されるコンピュータ機器90は、単なる一例であり、本出願の一実施形態の機能及び使用範囲を一切限定しない。
図7に示されるように、コンピュータ機器90は、汎用コンピューティング機器の形態で示されている。コンピュータ機器90の構成要素は、少なくとも一つのプロセッサ又は処理ユニット906と、システムメモリ910と、異なるシステム構成要素(システムメモリ910と処理ユニット906とを備える)を接続するバス908とを備えているが、これらに限定されない。
バス908は、メモリバス又はメモリコントローラ、周辺バス、アクセラレーテッドグラフィックスポート、プロセッサ又は多様なバス構造のうちのいずれかのバス構造を使用するローカルバスを含む、複数種類のバス構造のうち少なくとも一つを表す。一例を挙げると、これらのアーキテクチャは、インダストリスタンダードアーキテクチャ(Industry Standard Architecture、以下ISAと略する)バス、マイクロチャネルアーキテクチャ(Micro Channel Architecture、以下MACと略する)バス、拡張ISAバス、ビデオエレクトロニクススタンダーズアソシエーション(Video Electronics Standards Association、以下VESAと略する)ローカルバス、及びペリフェラルコンポーネントインターコネクト(Peripheral Component Interconnection、以下PCIと略する)バスを含むが、これらに限定されない。
コンピュータ機器90は、典型的には、複数種類のコンピュータシステム読み取り可能な媒体を含む。これらの媒体は、コンピュータ機器90がアクセスすることができる任意の使用可能な媒体であってもよく、揮発性媒体及び不揮発性媒体、リムーバブル媒体及びノンリムーバブル媒体を含む。
システムメモリ910は、ランダムアクセスメモリ(Random Access Memory、以下RAMと略する)911及び/又はキャッシュメモリ912などの揮発性メモリの形態のコンピュータシステム読み取り可能な媒体を含んでもよい。コンピュータ機器90は、他のリムーバブル/ノンリムーバブル、揮発性/不揮発性コンピュータシステム記憶媒体をさらに含んでもよい。単なる一例として、ストレージシステム913は、ノンリムーバブル、不揮発性磁気媒体(図7に示されていないが、通常「ハードドライブ」という)に対して読み出し及び書き込みをするために用いることができる。図7に示されていないが、リムーバブル不揮発性磁気ディスク(例えば、「フロッピーディスク」)に対して読み出し及び書き込みをするための磁気ディスクドライブ、及びリムーバブル不揮発性光学ディスク(例えば、コンパクトディスク読み出し専用リメモリ(Compact Disc Read Only Memory、以下CD−ROMと略する)、ディーブイディーロム(Digital Video Disc Read Only Memory、以下DVD−ROMと略する)又は他の光学媒体)に対して読み出し及び書き込みをするための光学ディスクドライブを提供することができる。これらの場合、各ドライブは、一つ又は複数のデータメディアインターフェイスを介してバス908に接続することができる。システムメモリ910は、本発明の各実施例に記載の機能を実行するように構成される1セット(例えば、少なくとも一つ)のプログラムモジュールを有する少なくとも一つのプログラム製品を含んでもよい。
コンピュータ読み取り可能な信号媒体は、ベースバンドにおける、又は搬送波の一部として伝播するデータ信号を含むことができ、その中にはコンピュータ読み取り可能なプログラムコードが搭載されている。この伝播するデータ信号は様々な形式を採用することができ、電磁信号、光信号又は上記の任意の適切な組み合わせを含むがこれらに限定されない。コンピュータ読み取り可能な信号媒体は、さらに、コンピュータ読み取り可能な記憶媒体以外の任意のコンピュータ読み取り可能な媒体であってもよく、コンピュータ読み取り可能な媒体は、命令実行システム、装置又はデバイスにより使用され、或いはそれらと組み合わせて使用されるプログラムを送信、伝播又は伝送することができる。
コンピュータ読み取り可能な媒体に含まれるプログラムコードは、無線、有線、光ケーブル、RFなど、又は上記の任意の適切な組み合わせを含むがこれらに限定されない任意の適切な媒体によって伝送することができる。
少なくとも一つのプログラミング言語又はそれらの組み合わせで本発明の動作を実行するためのコンピュータプログラムコードを作成することができ、プログラミング言語は、Java(登録商標)、Smalltalk、C++などのプロジェクト指向のプログラミング言語を含み、さらに、「C」言語又は同様のプログラミング言語といった従来の手続き型プログラミング言語をも含む。プログラムコードは、完全にユーザーコンピュータで実行されてもよいし、部分的にユーザーコンピュータに実行されてもよいし、スタンドアロンソフトウェアパッケージとして実行されてもよいし、部分的にユーザーコンピュータで、部分的にリモートコンピュータで実行されてもよい、又は完全にリモートコンピュータ又はサーバーで実行してもよい。
1セットの(少なくとも1つ)プログラムモジュール9140を有するプログラム/ユーティリティ914は、例えば、システムメモリ910に記憶されてもよく、このようなプログラムモジュール9140は、オペレーティングシステム、少なくとも一つのアプリケーションプログラム、他のプログラムモジュールおよびプログラムデータを含むが、これらに限定されない。これらの一例のそれぞれまたはある組み合わせには、ネットワーキング環境の実装が含まれる可能性がある。プログラムモジュール9140は、一般的に、本開示に記載の一実施形態における機能および/または方法を実行する。
コンピュータ機器90は、少なくとも一つの外部デバイス10(例えば、キーボード、ポインティングデバイス、ディスプレイ100など)と通信することができ、また、ユーザがコンピュータ機器90とインタラクションすることを可能にする少なくとも一つのデバイスと通信することができ、および/または、コンピュータ機器90が少なくとも一つの他のコンピューティングデバイスと通信することを可能にする任意のデバイス(例えば、ネットワークカード、モデムなど)と通信することもできる。そのような通信は、入力/出力(I/O)インターフェイス902を介して行うことができる。また、コンピュータ機器90は、ネットワークアダプタ900を介して、少なくとも一つのネットワーク(例えば、ローカルエリアネットワーク(Local Area Network、以下LANと略する)、ワイドエリアネットワーク(Wide Area Network、以下WANと略する)、および/またはパブリックネットワーク、例えば、インターネット)と通信することができる。図7に示されるように、ネットワークアダプタ900は、バス908を介してコンピュータ機器90の他のモジュールと通信する。なお、図7に示されていないが、マイクロコード、デバイスドライバ、冗長化処理ユニット、外部ディスク駆動アレイ、RAIDシステム、テープドライバ、およびデータバックアップストレージシステムなどを含むが、これらに限定されない他のハードウェアおよび/またはソフトウェアモジュールをコンピュータ機器90と組み合わせて使用することができる。
処理ユニット906は、システムメモリ910に記憶されているプログラムを実行することにより、多様な機能アプリケーションおよび車載シーンに基づく電子デバイスの音声制御を実行し、例えば、上記実施形態に係る電子デバイスの音声制御方法を実現する。
上記の一実施形態を実現するために、本出願は、コンピュータプログラムが記憶されている非一時的なコンピュータ読み取り可能な記憶媒体をさらに提供する。記憶媒体は、コンピュータプログラムがプロセッサにより実行される場合に、上記実施形態に係る電子デバイスの音声制御方法が実現される。
上記実施形態を実現するために、本出願は、コンピュータプログラム製品をさらに提供する。コンピュータプログラム製品は、コンピュータプログラム製品における命令がプロセッサによって実行される場合に、上記実施形態に係る電子デバイスの音声制御方法が実現される。
本明細書の説明において、「一実施形態」、「一部の実施形態」、「一例」、「具体的な一例」、或いは「変形例」などの用語を参照した説明とは、実施形態或いは実施例を合わせて説明された具体的な特徴、構成、材料或いは特性が、本開示の少なくとも1つの実施形態或いは実施例に含まれることである。本明細書において、上記用語に対する例示的な説明は、必ずしも同じ実施形態或いは実施例を示すものではない。また、説明された具体的な特徴、構成、材料或いは特性は、少なくとも一つの実施形態又は実施例において適切に結合することができる。なお、相互に矛盾しない限り、当業者は、本明細書において説明された異なる実施形態又は実施例、及び異なる実施形態又は変形例の特徴を結合し、組み合わせることができる。
本発明の説明において、「第1」、「第2」の用語は、単に説明するためのものであり、比較的な重要性を指示又は暗示するか、或いは示された技術的特徴の数を黙示的に指示すると理解してはいけない。よって、「第1」、「第2」が限定されている特徴は少なくとも1つの特徴を含むことを明示又は暗示するものである。本開示の説明において、明確且つ具体的な限定がない限り、「複数」とは、少なくとも2つ、例えば、2つ、3つなどを意味する。
フローチャート、又はここで他の方式により説明されるいかなるプロセス又は方法の説明は、特定のロジック機能又はプロセスのステップを実現するための少なくとも一つの実行可能な命令のコードを含むモジュール、セグメント又は部分と理解されてもよい。また、本出願の好ましい実施形態の範囲は、他の実現形態が含まれており、例示され又は議論された順序に従わなくてもよく、言及された機能が実質的に同時に、又は逆の順序に応じて機能を実行することを含む。本出願の一実施形態が属する技術分野の当業者は、これを理解すべきである。
フローチャートで示された又はここで他の形態で説明されたロジック及び/又はステップは、例えば、ロジック機能を実現するための実行可能な命令の順番付けられたリストと見なすことができ、任意のコンピュータ読み取り可能な記憶媒体に具体的に実装されて、命令実行システム、装置、又はデバイス(例えばコンピュータに基づいたシステム、プロセッサを含むシステム、又は他の命令実行システム、装置又はデバイスから命令を獲得して命令を実行するシステム)に利用されるか、又はこれらの命令実行システム、装置又はデバイスと組み合わせて利用される。本願明細書において、「コンピュータ読み取り可能な記憶媒体」は、命令実行システム、装置又はデバイスによって、又は、命令実行システム、装置又はデバイスと組み合わせて使用するためのプログラムを含む、格納する、通信する、伝播する、又は伝送することができる任意の装置であってもよい。コンピュータ読み取り可能な記憶媒体のより具体的な例(非限定的なリスト)として、少なくとも一つの配線を備える電気接続部(電子デバイス)、ポータブルコンピュータディスクカートリッジ(磁気デバイス)、ランダムアクセスメモリ(RAM)読み出し専用メモリ(ROM)、消去可能なプログラマブル読み出し専用メモリ(EPROM又はフラッシュメモリ)、光ファイバデバイス、及びポータブルコンパクトディスク読み出し専用リメモリ(CD−ROM)を含む。また、コンピュータ読み取り可能な記憶媒体は、コンピュータプログラムが印刷され得る紙又は他の適切な媒体であってもよく、これは、例えば、紙や他の媒体を光学的スキャンし、次に編集し、解釈し、又は必要な場合に他の適切な形態で処理してコンピュータプログラムを電子的に取得して、そしてコンピュータメモリに格納するからである。
なお、本出願の各部分は、ハードウェア、ソフトウェア、ファームウェア、又はこれらの組み合わせにより実現できる。上記実施形態では、複数のステップ又は方法は、メモリに記憶され、且つ適切なコマンド実行システムによって実行されるソフトウェア又はファームウェアにより実現することができる。例えば、ハードウェアにより実現される場合は、他の実施形態と同じく、本分野の以下の公知技術のうちいずれか一つ又はこれらの組み合わせにより実現することができる。データ信号のロジック機能を実現するための論理ゲート回路を備えたディスクリート論理回路、適切な組み合わせ論理ゲート回路を備えた専用集積回路、プログラム可能なゲートアレイ(PGA)、フィールドプログラム可能なゲートアレイ(FPGA)などである。
当業者は、上記実施形態に係る方法に含まれている全部又は一部のステップが、プログラムにより関連するハードウェアを命令することにより完成できることを理解できる。コンピュータプログラムは、コンピュータ読み取り可能な媒体に記憶されてもよく、コンピュータプログラムは実行時に、方法の実施形態における一つのステップ又はその組み合わせを含むことができる。
また、本出願の各実施形態に係る各機能ユニットは、一つの処理モジュールに集積されてもよく、各ユニットが物理的に独立して存在してもよく、二つ又は二つ以上のユニットが一つのモジュールに集積されてもよい。上記集積されたモジュールは、ハードウェアの形式により実現されてもよく、ソフトウェアの機能モジュールの形式により実現されてもよい。上記集積されたモジュールがソフトウェアの機能モジュールの形式により実現され、独立の製品として販売又は使用される場合、一つのコンピュータ読み取り可能な記憶媒体に記憶することもできる。
上記の記憶媒体は、読み出し専用メモリや磁気ディスク、光ディスクなどであってもよい。以上に本出願の一実施形態を示して説明したが、上記実施形態は、例示的なものであり、本出願を限定するものと理解してはいけない。当業者は、本出願の範囲内に、上記実施形態に対して変化、修正、取り替え及び変形を行うことができる。

Claims (14)

  1. 電子デバイスの音声制御方法であって、
    ユーザの第1の音声命令を受信し、該第1の音声命令に従って音楽モードに入るステップと、
    前記音楽モードに入った後の所定の期間内に、前記電子デバイスの全二重リスニング状態を開始するステップであって、前記全二重リスニング状態では、前記電子デバイスが第1のタイプのユーザ命令を認識し、前記第1のタイプのユーザ命令にはウェイクアップワードを有しないステップと、
    前記全二重リスニング状態で、前記第1のタイプのユーザ命令を取得し、前記第1のタイプのユーザ命令を認識するステップと、
    前記第1のタイプのユーザ命令が前記音楽モードに関する命令である場合、前記第1のタイプのユーザ命令を実行するステップと、
    前記第1のタイプのユーザ命令が前記音楽モードに関する命令でない場合、前記第1のタイプのユーザ命令を実行しないステップと、
    前記所定の期間後に、前記全二重リスニング状態を終了するステップとを含む電子デバイスの音声制御方法。
  2. 前記全二重リスニング状態を終了するステップの後に、
    ウェイクアップワードを有する第2のタイプのユーザ命令を取得し、前記第2のタイプのユーザ命令を認識するステップと、
    前記第2のタイプのユーザ命令を実行するステップとをさらに含む請求項1に記載の電子デバイスの音声制御方法。
  3. 前記第1のタイプのユーザ命令を認識するステップの後に、
    前記電子デバイスのディスプレイスクリーンに前記第1のタイプのユーザ命令を表示するステップをさらに含む請求項1に記載の電子デバイスの音声制御方法。
  4. 前記電子デバイスの前記ディスプレイスクリーンに前記第1のタイプのユーザ命令を表示するステップは、
    前記第1のタイプのユーザ命令が前記音楽モードに関する命令である場合、第1のフォント色で前記第1のタイプのユーザ命令を表示するステップと、
    前記第1のタイプのユーザ命令が前記音楽モードに関する命令でない場合、第2のフォント色で前記第1のタイプのユーザ命令を表示するステップとを含み、
    前記第1のフォント色が前記第2のフォント色より濃い請求項3に記載の電子デバイスの音声制御方法。
  5. 前記全二重リスニング状態で、前記第1のタイプのユーザ命令を取得するステップは、
    ユーザの音声情報と現在再生中の音声情報とを含む現在の音声情報を収集するステップと、
    前記電子デバイスの前記現在再生中の音声情報を取得するステップと、
    前記現在再生中の音声情報に基づいて前記ユーザの音声情報を前記現在の音声情報から分離するステップと、
    前記ユーザの音声情報を認識して前記第1のタイプのユーザ命令を取得するステップとを含む請求項1に記載の電子デバイスの音声制御方法。
  6. 前記所定の期間が20秒〜40秒である請求項1に記載の電子デバイスの音声制御方法。
  7. 電子デバイスの音声制御装置であって、
    ユーザの第1の音声命令を受信し、該第1の音声命令に従って音楽モードに入る受信モジュールと、
    前記音楽モードに入った後の所定の期間内に、前記電子デバイスの全二重リスニング状態を開始する開始モジュールであって、前記全二重リスニング状態では、前記電子デバイスが第1のタイプのユーザ命令を認識し、前記第1のタイプのユーザ命令にはウェイクアップワードを有しない開始モジュールと、
    前記全二重リスニング状態で、前記第1のタイプのユーザ命令を取得する取得モジュールと、
    前記第1のタイプのユーザ命令を認識する認識モジュールと、
    前記第1のタイプのユーザ命令が前記音楽モードに関する命令である場合、前記第1のタイプのユーザ命令を実行し、前記第1のタイプのユーザ命令が前記音楽モードに関する命令でない場合、前記第1のタイプのユーザ命令を実行しない処理モジュールと、
    前記所定の期間後に、前記全二重リスニング状態を終了する終了モジュールとを備える電子デバイスの音声制御装置。
  8. ウェイクアップワードを有する第2のタイプのユーザ命令を取得し、前記第2のタイプのユーザ命令を認識する取得認識モジュールと、
    前記第2のタイプのユーザ命令を実行する実行モジュールとをさらに備える請求項7に記載の電子デバイスの音声制御装置。
  9. 前記電子デバイスのディスプレイスクリーンに前記第1のタイプのユーザ命令を表示する表示モジュールをさらに備える請求項7に記載の電子デバイスの音声制御装置。
  10. 前記表示モジュールは、具体的には、
    前記第1のタイプのユーザ命令が前記音楽モードに関する命令である場合、第1のフォント色で前記第1のタイプのユーザ命令を表示し、
    前記第1のタイプのユーザ命令が前記音楽モードに関する命令でない場合、第2のフォント色で前記第1のタイプのユーザ命令を表示し、
    前記第1のフォント色が前記第2のフォント色より濃い請求項9に記載の電子デバイスの音声制御装置。
  11. 前記取得モジュールは、具体的には、
    ユーザの音声情報と現在再生中の音声情報とを含む現在の音声情報を収集し、
    前記電子デバイスの前記現在再生中の音声情報を取得し、
    前記現在再生中の音声情報に基づいて前記ユーザの音声情報を前記現在の音声情報から分離し、
    前記ユーザの音声情報を認識して前記第1のタイプのユーザ命令を取得する請求項7に記載の電子デバイスの音声制御装置。
  12. 前記所定の期間が20秒〜40秒である請求項7に記載の電子デバイスの音声制御装置。
  13. プロセッサとメモリとを備えるコンピュータ機器であって、
    前記プロセッサが前記メモリに記憶されている実行可能なプログラムコードを読み出して前記実行可能なプログラムコードに対応するプログラムを実行することにより、請求項1から請求項6のいずれかに記載の電子デバイスの音声制御方法を実現するコンピュータ機器。
  14. コンピュータプログラムが記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータプログラムがプロセッサにより実行される場合に、請求項1から請求項6のいずれかに記載の電子デバイスの音声制御方法が実現される非一時的なコンピュータ読み取り可能な記憶媒体。
JP2019236057A 2019-05-31 2019-12-26 電子デバイスの音声制御方法、電子デバイスの音声制御装置、コンピュータ機器及び記憶媒体 Active JP6814871B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910468915.8A CN112017650A (zh) 2019-05-31 2019-05-31 电子设备的语音控制方法、装置、计算机设备和存储介质
CN201910468915.8 2019-05-31

Publications (2)

Publication Number Publication Date
JP2020197695A JP2020197695A (ja) 2020-12-10
JP6814871B2 true JP6814871B2 (ja) 2021-01-20

Family

ID=69055851

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019236057A Active JP6814871B2 (ja) 2019-05-31 2019-12-26 電子デバイスの音声制御方法、電子デバイスの音声制御装置、コンピュータ機器及び記憶媒体

Country Status (5)

Country Link
US (1) US20200380994A1 (ja)
EP (1) EP3745253B1 (ja)
JP (1) JP6814871B2 (ja)
KR (1) KR102331660B1 (ja)
CN (1) CN112017650A (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112732340B (zh) * 2019-10-14 2022-03-15 思必驰科技股份有限公司 人机对话处理方法及装置
US11735181B2 (en) * 2020-02-05 2023-08-22 Canon Kabushiki Kaisha Voice input apparatus, control method thereof, and storage medium for executing processing corresponding to voice instruction
CN112700775A (zh) * 2020-12-29 2021-04-23 维沃移动通信有限公司 语音接收周期的更新方法、装置和电子设备
CN113066493B (zh) * 2021-03-30 2023-01-06 联想(北京)有限公司 一种设备控制方法、系统及第一电子设备
CN114038468B (zh) * 2022-01-07 2022-04-15 深圳市声扬科技有限公司 语音数据比对处理方法、装置、电子设备和存储介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6744452B1 (en) * 2000-05-04 2004-06-01 International Business Machines Corporation Indicator to show that a cached web page is being displayed
JP4285371B2 (ja) * 2003-11-14 2009-06-24 株式会社デンソー 音場制御システム
CN103593348B (zh) * 2012-08-14 2019-02-19 腾讯科技(深圳)有限公司 浏览器标签的显示方法及装置
CN102915732A (zh) * 2012-10-31 2013-02-06 黑龙江省电力有限公司信息通信分公司 抑制背景广播的语音指令识别方法与装置
CN103870155B (zh) * 2014-02-21 2017-08-25 联想(北京)有限公司 信息处理的方法及电子设备
CN105810211B (zh) * 2015-07-13 2019-11-29 维沃移动通信有限公司 一种音频数据的处理方法及终端
US20170125016A1 (en) * 2015-11-02 2017-05-04 Le Holdings (Beijing) Co., Ltd. Method and electronic device for processing voice messages
CN106855797A (zh) * 2015-12-09 2017-06-16 阿里巴巴集团控股有限公司 一种界面元素颜色的设置方法及装置
US10743101B2 (en) * 2016-02-22 2020-08-11 Sonos, Inc. Content mixing
KR101889279B1 (ko) * 2017-01-16 2018-08-21 주식회사 케이티 음성 명령에 기반하여 서비스를 제공하는 시스템 및 방법
KR20180084392A (ko) * 2017-01-17 2018-07-25 삼성전자주식회사 전자 장치 및 그의 동작 방법
CN107122160A (zh) * 2017-04-26 2017-09-01 海信集团有限公司 用于语音输入控制指令的显示方法、装置和终端
KR102098633B1 (ko) * 2017-08-22 2020-04-08 네이버 주식회사 인공지능 기기에서의 연속 대화 기능

Also Published As

Publication number Publication date
EP3745253A1 (en) 2020-12-02
KR102331660B1 (ko) 2021-11-26
KR20200138644A (ko) 2020-12-10
CN112017650A (zh) 2020-12-01
US20200380994A1 (en) 2020-12-03
EP3745253B1 (en) 2023-10-04
JP2020197695A (ja) 2020-12-10

Similar Documents

Publication Publication Date Title
JP6814871B2 (ja) 電子デバイスの音声制御方法、電子デバイスの音声制御装置、コンピュータ機器及び記憶媒体
CN108520743B (zh) 智能设备的语音控制方法、智能设备及计算机可读介质
CN108133707B (zh) 一种内容分享方法及系统
US11502859B2 (en) Method and apparatus for waking up via speech
JP6848147B2 (ja) 音声インタラクション実現方法、装置、コンピュータデバイス及びプログラム
CN107340991A (zh) 语音角色的切换方法、装置、设备以及存储介质
JP2019185011A (ja) アプリケーションプログラムをウェイクアップする処理方法、装置及び記憶媒体
CN107256707B (zh) 一种语音识别方法、系统及终端设备
JP7158217B2 (ja) 音声認識方法、装置及びサーバ
CN103197571A (zh) 一种控制方法及装置、系统
EP3647914B1 (en) Electronic apparatus and controlling method thereof
JP2019015951A (ja) 電子機器のウェイクアップ方法、装置、デバイス及びコンピュータ可読記憶媒体
JP7308335B2 (ja) 車載音声機器のテスト方法、装置、電子機器及び記憶媒体
JP7152384B2 (ja) 電子デバイスの音声制御方法、電子デバイスの音声制御装置、コンピュータ機器及び記憶媒体
WO2022228377A1 (zh) 录音方法、装置、电子设备和可读存储介质
US20230054740A1 (en) Audio generation method, related apparatus, and storage medium
KR102380717B1 (ko) 사용자 발화를 처리하는 전자 장치 및 이 전자 장치의 제어 방법
CN113157240A (zh) 语音处理方法、装置、设备、存储介质及计算机程序产品
CN113611316A (zh) 人机交互方法、装置、设备以及存储介质
CN113066491A (zh) 显示设备及语音交互方法
CN109616117A (zh) 一种基于语音识别技术的手机游戏控制系统及方法
CN115136233B (zh) 一种基于自建模板的多模态快速转写及标注系统
CN213024346U (zh) 一种智能交互设备
CN117373437A (zh) 一种配置表情的方法、装置、车辆和存储介质
CN112037779A (zh) 智能家电及语音交互方法、装置及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191226

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201215

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201221

R150 Certificate of patent or registration of utility model

Ref document number: 6814871

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250