JP7114721B2 - 音声ウェイクアップ方法及び装置 - Google Patents

音声ウェイクアップ方法及び装置 Download PDF

Info

Publication number
JP7114721B2
JP7114721B2 JP2020545333A JP2020545333A JP7114721B2 JP 7114721 B2 JP7114721 B2 JP 7114721B2 JP 2020545333 A JP2020545333 A JP 2020545333A JP 2020545333 A JP2020545333 A JP 2020545333A JP 7114721 B2 JP7114721 B2 JP 7114721B2
Authority
JP
Japan
Prior art keywords
interaction
user
state
information
wake
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020545333A
Other languages
English (en)
Other versions
JP2021516361A (ja
Inventor
ソン,ヤナン
パン,ジャ
ウー,グォピン
Original Assignee
アイフライテック カンパニー,リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アイフライテック カンパニー,リミテッド filed Critical アイフライテック カンパニー,リミテッド
Publication of JP2021516361A publication Critical patent/JP2021516361A/ja
Application granted granted Critical
Publication of JP7114721B2 publication Critical patent/JP7114721B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)

Description

相互参照
本出願は、2018年04月04日に提出した発明名称が「音声ウェイクアップ方法及び装置」である第2018102988451号中国特許出願に基づくものであり、そのすべての内容はここで参照として本出願に引用される。
本開示の実施例は、コンピュータ応用技術分野に関し、具体的には音声ウェイクアップ方法及び装置に関する。
音声インタラクション技術の発展に伴い、音声ウェイクアップ機能を備えるスマート端末が増えている。すなわち、ユーザー音声データの音声情報を理解することにより、スマート端末をウェイクアップするという目的を達成する。関連技術では、音声ウェイクアップ方法が提供され、それは、ユーザーがウェイクアップワードを予めに設定し、音声信号を受信した後、音声信号とウェイクアップワードが合致するかどうかを判断することである。両者が合致した場合、スリープ状態にあるスマートデバイスをウェイクアップし、両者が合致しなかった場合、ウェイクアップを実行しない。ここで、スマートデバイスはウェイクアップされるとインタラクションプロセスが開始する。インタラクションプロセスが中断した場合、もう一度スマートデバイスをウェイクアップし、最初からインタラクションプロセスを開始しなければならない。
インタラクションプロセスが中断した後に、もう一度スマートデバイスをウェイクアップして最初からインタラクションプロセスを開始する必要があるため、ユーザーが中断の終了後に中断前のインタラクションプロセスに復帰しようとする場合、中断した前にすでに実行されたインタラクションプロセスを繰り返す必要があるため、インタラクションコストが増加し、ユーザーのインタラクション体験が低減される。
上記の問題の全部又は一部を解決するために、本開示の実施例は、関連技術においてインタラクションプロセスが中断した後、もう一度ウェイクアップする時にインタラクションプロセスを新規開始するという欠陥を解決し、スリープ前のインタラクションプロセスの継続を実現する音声ウェイクアップ装置及び方法を提供する。
本開示の実施例の第1の態様によって、音声ウェイクアップ方法を提供し、当該方法は、
ユーザーインタラクション状態に基づき、次回のインタラクションプロセスに使用されるリアルタイム・ウェイクアップ・シソーラスを決定するステップと、
ユーザーから入力された音声信号を取得し、前記リアルタイム・ウェイクアップ・シソーラス及び前記音声信号に基づきウェイクアップを行うステップとを含む。
本開示の実施例の第2の態様によって、音声ウェイクアップ装置を提供し、当該装置は、
ユーザーインタラクション状態に基づき、次回のインタラクションプロセスに使用されるリアルタイム・ウェイクアップ・シソーラスを決定するように構成される第1の決定モジュールと、
ユーザーから入力された音声信号を取得し、前記リアルタイム・ウェイクアップ・シソーラス及び前記音声信号に基づきウェイクアップを行うように構成されるウェイクアップ
モジュールとを含む。
本開示の実施例の第3の態様によって、音声ウェイクアップデバイスを提供し、当該デバイスは、
少なくとも1つのプロセッサと、
プロセッサに通信可能に接続される少なくとも1つのメモリとを含み、ここで、
メモリには、プロセッサによって実行されるプログラム命令が格納され、プロセッサは、プログラム命令を呼び出し、第1の態様に係る音声ウェイクアップ方法を実行できる。
本開示の実施例の第4の態様によって、非一時的なコンピュータ可読記憶媒体を提供し、非一時的なコンピュータ可読記憶媒体はコンピュータ命令を格納し、コンピュータ命令はコンピュータに第1の態様に係る音声ウェイクアップ方法を実行させるものである。
本開示の実施例に係る方法では、ユーザーインタラクション状態に基づきリアルタイム・ウェイクアップ・シソーラスを決定し、ユーザーから入力された音声信号を取得し、前記リアルタイム・ウェイクアップ・シソーラス及び前記音声信号に基づきウェイクアップを行う。前回のインタラクションプロセスが中断した後、リアルタイム・ウェイクアップ・シソーラスに基づきウェイクアップを行い、再度ウェイクアップを行う時に、ユーザーにスリープで気付かないというユーザー体験を与えるので、ユーザーが直接的にスリープ前のインタラクションシーンを繋ぐことができ、以前に実行されたインタラクションプロセスを繰り返す必要がない。したがって、インタラクションコストを低減させ、ユーザー体験を向上させる。
本開示の実施例又は従来技術の技術案をより明確にするためには、以下、実施例又は従来技術を説明するために必要な図面を簡単に説明する。明らかに、以下説明される図面は、本開示の実施例の一部であり、当業者であれば、創造的な労力を払うことなくこれらの図面に従って他の図面を得ることができる。
本開示の一実施例に係る音声ウェイクアップ方法のフローチャートである。 本開示の別の実施例に係る音声ウェイクアップ方法のフローチャートである。 本開示のもう一つの実施例に係る音声ウェイクアップ方法のフローチャートである。 本開示の一実施例に係るウェイクアップ・ネットワークの構造を示す図である。 本開示の一実施例に係る音声ウェイクアップ装置の構造を示す図である。 本開示の一実施例に係る音声ウェイクアップデバイスの構造を示す図である。
本開示の実施例の目的、技術案及び利点をより明確にするために、以下、本開示の実施例の図面を参照しながら、本開示の実施例の技術案を明確且つ完全に説明する。明らかに、説明される実施例は、すべての実施例ではなく、本開示の一部の実施例である。本開示の実施例に基づき、当業者が創造的な労働をせずに取得したすべての他の実施例も本開示の保護範囲に属する。
音声ウェイクアップは、ユーザーの音声信号を理解することにより、スマートデバイスをウェイクアップすることを目的とする。関連技術におけるウェイクアップ過程において、スマートデバイスをスマートスピーカーとし、ユーザーが予め生成した「ディンドンディンドン」をウェイクアップワードとすると、スマートスピーカーは、ユーザーから入力
された「ディンドンディンドン」の音声信号(すなわち、語義のない音声信号であって、スマートスピーカーのウェイクアップだけに使用されるもの)を検出した場合、次のようにユーザーとのインタラクションを開始することができる。
ユーザー:ディンドンディンドン。
スマートスピーカー:ご用件はなんでしょうか?
ユーザー:音楽を聞きたいんです。
スマートスピーカー:はい、わかりました。お気に入りの歌手や曲がありますか?
ユーザー:周杰倫。
スマートスピーカー:周杰倫が歌った特定の曲をリクエストしますか。
スマートスピーカーは「周杰倫が歌った特定の曲をリクエストしますか」と質問をしてから、一定時間内にユーザーから当該質問の有効な応答が得られなかった場合、周杰倫の曲をランダムに再生し、その後にスリープ状態に入る。ここで、有効な応答が得られないことは、所定の時間内に応答が得られなかったこと、又は所定の時間内に質問とは関係のない応答(質問に対して見当違いな回答)が得られたことを含む。スマートスピーカーがスリープ状態に入った後、ユーザーが再びスマートスピーカーをウェイクアップしようとする場合、「ディンドンディンドン」と言ってインタラクションプロセスを再開する。この場合、ユーザーがスマートスピーカーをウェイクアップする目的は周杰倫の曲を聞くことであれば、次のようなインタラクションプロセスが実行される。
ユーザー:ディンドンディンドン。
スマートスピーカー:ご用件はなんでしょうか?
ユーザー:音楽を聞きたいんです。
スマートスピーカー:はい、わかりました。お気に入りの歌手や曲がありますか?
ユーザー:周杰倫。
このようなことから、上記のインタラクションプロセスが繰り返されることが分かる。上記の状況に対し、本開示の実施例は音声ウェイクアップ方法を提供する。当該方法の実行主体としては、ウェアラブルデバイス、車載デバイス、モバイルデバイス、PC、スマート家電などのスマートデバイスが挙げられ、本開示の実施例は特にこれに制限しない。当該方法は異なるインタラクションシーン(家電の使用シーン、カスタマーサービスインタラクションシーン、チケット購入シーンなど)に応用されることができ、本開示の実施例は特にこれに制限しない。図1に示すように、当該方法は、ユーザーインタラクション状態に基づき、次回のインタラクションプロセスに使用されるリアルタイム・ウェイクアップ・シソーラスを決定するステップ101と、ユーザーから入力された音声信号を取得し、リアルタイム・ウェイクアップ・シソーラス及び音声信号に基づきウェイクアップを行うステップ102とを含む。
ステップ101を実行する前に、スマートデバイスはすでにユーザーによってウェイクアップされ、ユーザーとインタラクションプロセス(すなわち、前回のインタラクションプロセス)を確立した。前回のインタラクションプロセスにおいて、スマートデバイスは、定義済みのウェイクアップ・シソーラスを用いてスマートデバイスをウェイクアップすることができる。ここで、定義済みのウェイクアップ・シソーラスは、初期のウェイクアップ・シソーラスとして使用されることができる。初期のウェイクアップ・シソーラスは、スマートデバイスの工場出荷時に自動的に設定されることができ、又は下記の方式によって生成される。まず、スマートデバイスは、ユーザーから入力されたウェイクアップワードのテキスト或いは音声信号を受信する。ここで、ウェイクアップワードのテキストは、ユーザーが予め定義して確認した後に得られたものであってもよく、音声信号は、意味のある音声又は意味のない音声であってもよい。
スマートデバイスが受信したのはウェイクアップワードテキストである場合、ウェイクアップワードのテキストに対し単語分割を行い、各単語と音素の間のマッピングリストに応じて、ウェイクアップワードの音素或いはマルコフ状態レベルのシーケンスを決定し、ウェイクアップ・シソーラス生成プログラムを呼び出し、音素或いは状態レベルのシーケンスに基づき、初期のウェイクアップ・シソーラスを生成し、ユーザーは、新しいウェイクアップワードを決定した後、初期のウェイクアップ・シソーラスを用いてスマートデバイスをウェイクアップすることができる。
スマートデバイスが受信したのは音声信号である場合、音声信号の音響的特徴(filter bank特徴など)を抽出し、音素或いは状態レベルの復号化シソーラスを構築し、音響モデルを呼び出し、音素或いは状態レベルの復号化シソーラスに対し、音響的特徴を復号化し、ウェイクアップワードの音素或いは状態レベルのシーケンスを取得し、ウェイクアップ・シソーラス生成プログラムを呼び出し、音素或いは状態レベルのシーケンスに基づき、初期のウェイクアップ・シソーラスを生成する。
スマートデバイスでは、前回のインタラクションプロセスのある段階においてユーザーからの有効な応答が得られないまま、スリープ状態に入ることがある。スマートデバイスは、スリープ状態に入った後、現在のユーザーインタラクション状態を決定することができる。ここで、ユーザーインタラクション状態は、次回のインタラクションプロセスにおいて、ユーザーがスリープ前のインタラクションプロセスを続けようとする状態と、次回のインタラクションプロセスにおいて、ユーザーが新しいインタラクションプロセスを開始しようとする状態との二種類に分けられる。リアルタイム・ウェイクアップ・シソーラスを決定した後、ユーザーから入力された音声信号を取得し、リアルタイム・ウェイクアップ・シソーラス及び音声信号に基づきウェイクアップを行うことができる。
本開示の実施例に係る方法では、ユーザーインタラクション状態に基づきリアルタイム・ウェイクアップ・シソーラスを決定し、ユーザーから入力された音声信号を取得し、リアルタイム・ウェイクアップ・シソーラス及び音声信号に基づきウェイクアップを行う。前回のインタラクションプロセスが中断した後、リアルタイム・ウェイクアップ・シソーラスに基づきウェイクアップを行い、再度ウェイクアップを行う時に、ユーザーにスリープで気付かないというユーザー体験を与えるので、ユーザーが直接的にスリープ前のインタラクションシーンを繋ぐことができ、以前に実行されたインタラクションプロセスを繰り返す必要がない。したがって、インタラクションコストを低減させ、ユーザー体験を向上させる。
上述した実施例の内容に基づき、本開示の実施例は、ユーザーインタラクション状態に基づきリアルタイム・ウェイクアップ・シソーラスを決定する方法を提供し、当該方法は、ユーザーインタラクション状態がスリープ前のインタラクションプロセスの継続である場合、前回のインタラクションプロセスの第1のインタラクション情報のキーワードを取得し、キーワードを初期のウェイクアップ・シソーラスに追加し、リアルタイム・ウェイクアップ・シソーラスが得られるステップと、ユーザーインタラクション状態がインタラクションプロセスの新規開始である場合、初期のウェイクアップ・シソーラスをリアルタイム・ウェイクアップ・シソーラスとするステップとを含む。
具体的には、ユーザーインタラクション状態がスリープ前のインタラクションプロセスの継続である場合、キーワード情報規則に応じて、前回のインタラクションプロセスの第1のインタラクション情報のキーワードを取得することができる。前回のインタラクションプロセスの第1のインタラクション情報のキーワードを取得する時に、第1のインタラクション情報は、前回のインタラクションプロセスにおける異なるインタラクション段階
に関わるインタラクション情報であってもよく、前回のインタラクションプロセスにおけるユーザー需要に基づいて取得された情報であってもよく、本開示の実施例は特にこれに制限しない。キーワードは、スリープ前のインタラクションプロセスにおける異なるインタラクション段階に関わる名詞及び動詞であってもよく、インタラクション段階におけるユーザーからの質問に応じて検索によって得られた名詞であってもよく、本開示の実施例は特にこれに制限しない。キーワードを初期のウェイクアップ・シソーラスに追加し、リアルタイム・ウェイクアップ・シソーラスが得られる。ユーザーから入力された音声信号を取得した後、リアルタイム・ウェイクアップ・シソーラス及び音声信号に基づきウェイクアップを行うことができる。
例えば、スマートデバイスをスマートスピーカーとし、スリープ前の前回のインタラクションプロセスについて、上記の例を参照することができる。前述のことに応じて、キーワードは、インタラクションプロセスにおける異なるインタラクション段階に関わる、「聞く」、「周杰倫」、「曲」のような名詞及び動詞であってもよく、インタラクション段階におけるユーザーからの質問に応じて検索によって得られた、周杰倫ミュージックライブラリの曲名「簡単愛」、「竜巻」のような名詞であってもよい。上記のキーワードを用いてリアルタイム・ウェイクアップ・シソーラスを決定することができ、ユーザーから音声信号(例えば、「周杰倫」)が入力された場合、リアルタイム・ウェイクアップ・シソーラスを通じて音声信号を識別し、識別結果に基づき、スマートデバイスをウェイクアップし、スリープ前のインタラクションプロセスを続け、次のアクションとして周杰倫のプロファイル情報ではなく周杰倫の曲を再生することを決定する。リアルタイム・ウェイクアップ・シソーラスを構築する時に、インタラクション段階におけるユーザーからの質問に応じて検索によって得られた名詞(曲名「簡単愛」など)をキーワードとするため、ユーザーから入力された音声信号は「簡単愛を再生する」である場合にも、スマートデバイスをウェイクアップして「簡単愛」の曲を再生することができる。また、ユーザーから入力された音声信号は、「簡単愛を聞く」或いは「簡単愛」である場合にも、「簡単愛」の曲を再生することができる。
上述した実施例の内容に基づき、代替的な実施例として、本開示の実施例は、キーワード情報規則に基づき、前回のインタラクションプロセスの第1のインタラクション情報のキーワードを取得する方式に特に制限しない。当該方式は、品詞及び/又は文の要素に応じて、前回のインタラクションプロセスの第1のインタラクション情報のキーワードを取得することを含むが、これに限らない。
ここで、キーワード情報規則は、第1のインタラクション情報からキーワードを選択するための選択規則であってもよい。具体的には、キーワード情報規則は、品詞及び/又は文の要素により選択することができ、例えば、品詞により名詞、形容詞などを選択し、及び/又は文の要素により述語、目的語などを選択し、本開示の実施例は、キーワード情報規則の内容に特に制限しない。
上述した実施例の内容に基づき、代替的な実施例として、第1のインタラクション情報は、ユーザー命令情報、機器返信情報及び検索情報のいずれか1つを含む。ここで、ユーザー命令情報は、ユーザーとスマートデバイスとのインタラクション時のユーザーからの命令又は質問であり、機器返信情報は、ユーザーからの命令又は質問に対するスマートデバイスの返信情報であり、検索情報は、ユーザーの需要に基づいてスマートデバイスの検索によって得られた情報である。キーワード情報規則に応じてインタラクション情報のキーワードを取得した後、キーワードに基づきウェイクアップ・シソーラスを構築することができる。説明すべき点については、キーワードの取得処理が予めに実行させられるため、初期のウェイクアップ・シソーラスの更新速度を高めることができる。
説明すべき点については、キーワードを抽出する前に、さらにインタラクションシーンに基づき、語義理解モデルをトレーニングし、インタラクション情報の要約情報を抽出でき、その後、キーワード情報規則に基づき、要約情報からキーワードを抽出でき、本開示の実施例は、これに特に制限しない。
第1のインタラクション情報のキーワードを取得した後、さらにキーワードの同義拡張を実行できるため、キーワード及び同義拡張を実行したキーワードに基づき、リアルタイム・ウェイクアップ・シソーラスを決定することができる。この場合、リアルタイム・ウェイクアップ・シソーラスには、第1のインタラクション情報のキーワード内容に加えて、拡張キーワードの内容も含まれるため、その後、ユーザーからスリープ前の第1のインタラクション情報の語義に関連する音声信号が入力された場合にも、識別とウェイクアップを行うことができるので、ウェイクアップ方式の柔軟性を増加させる。
上述した実施例の内容に基づき、ステップ101を実行する前に、代替的な実施例として、本開示の実施例はユーザーインタラクション状態の決定方法をさらに提供し、当該方法は、ユーザー状態特徴及びインタラクション論理特徴に基づき、ユーザーインタラクション状態を決定することを含む。
ここで、ユーザー状態特徴は、インタラクション時のユーザー状態を示すように構成され、インタラクション論理特徴は、インタラクション時のインタラクション論理を示すように構成される。具体的に、ユーザー状態特徴は、ユーザーとスマートデバイスのインタラクション時の応答時間、及びスマートデバイスでユーザーの応答を取得する時のユーザーの置かれる状態を記述するように構成され、インタラクション論理特徴は、スマートデバイスのスリープ前に得られた音声信号の語義と質問の関連性を記述するように構成される。
上述した実施例の内容に基づき、代替的な実施例として、本開示の実施例は、ユーザー状態特徴及びインタラクション論理特徴に基づくユーザーインタラクション状態の決定方式に特に制限されず、当該方式は、ユーザー状態特徴及びインタラクション論理特徴をインタラクション状態予測モデルに入力し、ユーザーインタラクション状態を出力する方式と、ユーザー状態特徴及びインタラクション論理特徴を正則化し、正則化した結果に応じてユーザーインタラクション状態を決定する方式とを含むが、これに限らない。
上述した第1の方式については、インタラクション状態予測モデルは、ユーザー状態のサンプル特徴及びインタラクション論理のサンプル特徴をトレーニングした後に得られる。具体的に、ユーザーの異なるインタラクション状態におけるユーザー状態特徴及びインタラクション論理特徴をそれぞれ予めに決定することができる。つまり、ユーザーがスリープ前のインタラクションプロセスを続けしようとする場合、その時点のユーザー状態特徴及びインタラクション論理特徴を決定する。ユーザーが新しいインタラクションプロセスを開始しようとする場合、その時点のユーザー状態特徴及びインタラクション論理特徴を決定する。ユーザーの異なるインタラクション状態におけるユーザー状態特徴及びインタラクション論理特徴をサンプル特徴とし、サンプル特徴を初期モデルの入力とし、ユーザーのインタラクション状態を出力とし、初期モデルをトレーニングしてインタラクション状態予測モデルが得られる。トレーニングによってインタラクション状態予測モデルが得られた後、トレーニングによって得られたインタラクション状態予測モデルは、ユーザーインタラクション状態を決定することができる。
上述した第2の方式については、ユーザー状態特徴及びインタラクション論理特徴は、次元の異なるデータである可能性があるため、ユーザー状態特徴及びインタラクション論理特徴を正則化し、同じ次元のデータを正則化した後、正則化したユーザー状態特徴及び
インタラクション論理特徴を重み付け加算し、加算結果が所定の閾値より大きい場合、スリープ前のインタラクションプロセスがすでに終了し、次回ユーザーが新しいインタラクションプロセスを開始しようとすることを意味する。加算結果が所定の閾値以下の場合、スリープ前のインタラクションプロセスはまだ終了しておらず、次回ユーザーがスリープ前のインタラクションプロセスを続けようとすることを意味する。ここで、必要に応じて所定の閾値を設定し、本開示の実施例はこれに特に制限しない。
上述した実施例の内容に基づき、代替的な実施例として、ユーザー状態特徴及びインタラクション論理特徴には複数の情報が含まれ、ここで、ユーザー状態特徴は、ユーザー応答時間、ユーザー距離、ユーザー肢体の状態、ユーザーの顔の状態及びユーザーの身元という5つの情報のうち、少なくともいずれか1つを含み、インタラクション論理特徴は、インタラクション論理完全性及び前文インタラクション語義関連性という2つの情報のうち、少なくともいずれか1つを含む。
具体的に、ユーザー応答時間は、スマートデバイスのスリープ前の前回のインタラクションプロセスにおける最後のインタラクション(最後のインタラクション後にスマートデバイスがスリープに入る)からユーザーの音声信号を受信するまでの時間間隔であってもよい。もちろん、ユーザー応答時間は、スマートデバイスがスリープに入ってからユーザーの音声信号を受信するまでの時間間隔、又は、スリープ時刻から現在時刻までの時間間隔であってもよく、本開示の実施例はこれに特に制限しない。ここで、ユーザー応答時間が長いほど、ユーザーから入力された音声信号(スリープ後の応答)がスリープ前の前回のインタラクションプロセスとの関係のない可能性も高い。
ユーザー距離は、ユーザーとスマートデバイス間の物理的距離を示す。ここで、ユーザー距離が長いほど、ユーザーとスマートデバイスの間隔距離も遠いことを意味する。この場合、ユーザーから入力された音声信号は、スリープ前の前回のインタラクションプロセスとの関係のない可能性が高い。ユーザー距離は、スマートデバイスまでの声音減衰の程度に応じて推定されることができ、又は赤外検出方式により推定されることができ、本開示の実施例はこれに特に制限しない。
ユーザー肢体の状態は、ユーザーの動作を示し、ユーザーがスマートデバイスに向かって特定の動作(例えば、予めに設定されたジェスチャ動作)を行う時に、ユーザーから入力された音声信号がスリープ前のインタラクションプロセスとの関係のある可能性が高いことを意味する。ユーザー肢体の状態は、スマートデバイスに搭載されているカメラを介して検出されることができ、本開示の実施例は、これに特に制限しない。
ユーザーの顔の状態は、顔の表情及び/又は顔の向きを含むことができ、本開示の実施例、これに特に制限しない。顔の向きを含むユーザーの顔の状態を例にすると、顔の向きは、ユーザーの顔の結像角度を示す。ここで、ユーザーの顔の向きがスマートデバイスの所在方位に近づくほど、ユーザーから入力された音声信号がスリープ前のインタラクションプロセスとの関係のある可能性も高いことを意味する。ユーザーの顔の向きは、スマートデバイスのカメラをマウントし、顔認識技術を用いて決定し、本開示の実施例は、これに特に制限しない。
ユーザーの身元によって、スマートデバイスのスリープ前の前回のインタラクションプロセス及び次回のインタラクションプロセスにおいてインタラクションに関与するユーザーが同一人物であるかどうかを判定することができる。2回のインタラクションプロセスにおいてインタラクションに関与するユーザーが同一人物である場合、ユーザーから入力された音声信号がスリープ前の前回のインタラクションプロセスとの関係のある可能性が高いことを意味する。ユーザーの身元は、顔認識の方式で決定され、本開示の実施例は、
これに特に制限しない。
インタラクション論理完全性は、スマートデバイスのスリープ前に、ユーザーがスマートデバイスからの質問に対する応答をしたかどうかを示す。インタラクション論理完全性は、質問に対するユーザーの応答程度と正の相関があり、質問に対するユーザーの応答程度が高いほど、インタラクション論理完全性も高い。
前文インタラクション語義関連性は、スマートデバイスのスリープ前にスマートデバイスからの質問に対するユーザーの応答が質問と関連するかどうかを示す。ここで、ユーザーからの応答が質問との関連性が高いほど、前文インタラクション語義関連性も高い。
説明すべき点については、上述した実施例から分かるように、ユーザーインタラクション状態を決定する場合、重み付け加算又はインタラクション状態予測モデルにより決定することができる。インタラクション状態予測モデルによりユーザーインタラクション状態を決定する場合は、上記の7つの情報の1つ又は複数のものをインタラクション状態予測モデルに入力し、ユーザーインタラクション状態を出力することができる。重み付け加算によりユーザーインタラクション状態を決定する場合は、ユーザー状態特徴及びインタラクション論理特徴は1つ又は複数の情報を含むため、各情報を重み付け加算することができる。ユーザー状態特徴に上記の3つの情報が含まれ、インタラクション論理特徴に上記の2つの情報が含まれることを例にすると、上記の次元の異なる情報を正則化し、正則化したデータを重み付け加算し、加算結果が得られる。具体的に次の式を参照する。
Y=a*T+a*L+a*alpha+a*R+a*S+a
上記の式において、Yは加算結果を表す。Tは、段階ごとに正則化したユーザー応答時間、Lは、段階ごとに正則化したユーザー距離、alphaは、段階ごとに正則化したユーザ
ーの顔の向き、Rは、インタラクション論理完全性、Sは、前文インタラクション語義関連性、a1、a2…a5は、それぞれ各自の重み、a6は、固定の重みパラメータを表す。
上述した実施例の内容に基づき、代替的な実施例として、本開示の実施例は、前文インタラクション語義関連性の決定方法を提供する。図2に示すように、当該方法は、前回のインタラクションプロセスの第2のインタラクション情報を取得し、インタラクション情報のワードベクトルを抽出するステップ201と、ワードベクトルを、インタラクション情報サンプルに基づいてトレーニングして得られた質疑応答関連性モデルに入力し、前文インタラクション語義関連性を出力するステップ202とを含む。
上記のステップ201において、第2のインタラクション情報は、ユーザー命令情報及び機器返信情報を含むことができ、本開示の実施例は、これに特に制限しない。ステップ202を実行する前に、予め大量のインタラクション情報サンプル(すなわち、スマートデバイスとユーザーの間の質疑応答情報)を収集し、インタラクション情報サンプルのワードベクトルを抽出し、ワードベクトルを初期モデルの入力とし、トレーニングにより2値分類又は回帰質疑応答関連性モデルが得られる。ここで、モデルのモデリング方法は、RNN又はCNNであってもよく、本開示の実施例は、これに特に制限しない。スリープ前のインタラクションプロセスにおけるインタラクション情報は、予めに作成した記録及び音声識別により取得され、本開示の実施例は、これにも特に制限しない。
上述した実施例の内容に基づき、代替的な実施例として、本開示の実施例は、リアルタイム・ウェイクアップ・シソーラスに基づくリアルタイム・ウェイクアップ・ネットワークの決定方法を提供する。図3に示すように、当該方法は、各キーワードをウェイクアッ
プワードとし、各ウェイクアップワードに対応する音素シーケンス或いはマルコフ状態シーケンスを取得するステップ301と、すべてのウェイクアップワードに対応する音素シーケンス或いはマルコフ状態シーケンスを接続し、リアルタイム・ウェイクアップ・ネットワークを構築するステップ302とを含む。
具体的に、「テキスト・音素」のマッピングリストを用いて、ウェイクアップワードを音素シーケンス或いはマルコフ状態シーケンスにマッピングすることができる。ここで、シーケンスの粒度を、音響的特徴を復号化するように構成される音響モデルのモデリング粒度と一致させることができる。上述した例に基づき構築されたリアルタイム・ウェイクアップ・ネットワークの構造を図4に示す。図4に示すように、Keywordは、キーワード
である。
前述のことに応じて、構築されたリアルタイム・ウェイクアップ・ネットワークが有効になった後、リアルタイム・ウェイクアップ・ネットワークに基づき、音声信号を識別すると、ユーザーの実行しようとする命令を決定することができる。例えば、音声信号の内容は、「簡単愛を聞く」とし、リアルタイム・ウェイクアップ・ネットワークを通じてスマートデバイスをウェイクアップし、「簡単愛の曲を再生する」命令をトリガーすることができる。スリープ前の前回のインタラクションプロセスにおけるキーワード及び同義拡張キーワードは、リアルタイム・ウェイクアップ・ネットワーク内に保存されるため、新しいインタラクションプロセスを開始する必要がなく、スリープ前のインタラクションプロセスを続けることができる。
説明すべき点については、構築されたウェイクアップ・シソーラスは、スリープ前の前回のインタラクションプロセスに適用するが、当該ウェイクアップした後、スマートデバイスは再びスリープに入った場合、以前に構築されたリアルタイム・ウェイクアップ・シソーラスはもうウェイクアップに適用しない可能性がある。したがって、現在のインタラクションを行った後に、自動的に構築されたリアルタイム・ウェイクアップ・シソーラスを削除し、次回のウェイクアップ段階において、本開示の実施例に係る方法により新しいリアルタイム・ウェイクアップ・シソーラスを生成することができる。又は、ユーザーインタラクション状態がインタラクションプロセスの新規開始である場合、以前に追加されたウェイクアップワードを削除し、又は直接的に初期のウェイクアップ・シソーラスをリアルタイム・ウェイクアップ・シソーラスとする。
説明すべき点については、上記のすべての代替的な実施例を任意に組み合わせて本開示の代替的な実施例を形成させることができるため、ここでは省略する。
上述した実施例の内容に基づき、本開示の実施例は、音声ウェイクアップ装置を提供し、当該音声ウェイクアップ装置は、上記の方法実施例における音声ウェイクアップ方法を実行するように構成される。図5に示すように、当該装置は、
ユーザーインタラクション状態に基づき、次回のインタラクションプロセスに使用されるリアルタイム・ウェイクアップ・シソーラスを決定するように構成される第1の決定モジュール501と、
ユーザーから入力された音声信号を取得し、リアルタイム・ウェイクアップ・シソーラス及び音声信号に基づきウェイクアップを行うように構成されるウェイクアップモジュール502とを含む。
代替的な実施例として、第1の決定モジュール501は、
前記ユーザーインタラクション状態がスリープ前のインタラクションプロセスの継続である場合、キーワード情報規則に基づき、前回のインタラクションプロセスの第1のインタラクション情報のキーワードを取得し、前記キーワードを初期のウェイクアップ・シソー
ラスに追加し、前記リアルタイム・ウェイクアップ・シソーラスが得られるように構成される第1の取得ユニットと、
前記ユーザーインタラクション状態がインタラクションプロセスの新規開始である場合、前記初期のウェイクアップ・シソーラスを前記リアルタイム・ウェイクアップ・シソーラスとするように構成される第2の取得ユニットとを含む。
代替的な実施例として、第1の取得ユニットは、品詞及び/又は文の要素に応じて、前回のインタラクションプロセスの第1のインタラクション情報のキーワードを取得するように構成される。
代替的な実施例として、第1のインタラクション情報は、ユーザー命令情報、機器返信情報及び検索情報のいずれか1つを含む。
代替的な実施例として、当該装置は、
インタラクション時のユーザー状態を示すように構成されるユーザー状態特徴、及び又は、インタラクション時のインタラクション論理を示すように構成されるインタラクション論理特徴に基づき、前記ユーザーインタラクション状態を決定するように構成される第2の決定モジュールをさらに含む。
代替的な実施例として、前記第2の決定モジュールは、前記ユーザー状態特徴及び/又は前記インタラクション論理特徴をインタラクション状態予測モデルに入力し、前記ユーザーインタラクション状態を出力するよう、又は、前記ユーザー状態特徴及び前記インタラクション論理特徴を正則化し、正則化した結果に応じて前記ユーザーインタラクション状態を決定するように構成される。
代替的な実施例として、前記ユーザー状態特徴は、ユーザー応答時間、ユーザー距離、ユーザー肢体の状態、ユーザーの顔の状態及びユーザーの身元という5つの情報のうち、少なくともいずれか1つを含む。
前記インタラクション論理特徴は、インタラクション論理完全性及び前文インタラクション語義関連性という2つの情報のうち、少なくともいずれか1つを含む。
代替的な実施例として、当該装置は、
前回のインタラクションプロセスの第2のインタラクション情報を取得し、前記インタラクション情報のワードベクトルを抽出するように構成される取得モジュールと、
前記ワードベクトルを、インタラクション情報サンプルに基づいてトレーニングして得られた質疑応答関連性モデルに入力し、前記前文インタラクション語義関連性を出力するように構成される出力モジュールとをさらに含む。
本開示の実施例に係る装置は、ユーザーインタラクション状態に基づきリアルタイム・ウェイクアップ・シソーラスを決定し、ユーザーから入力された音声信号を取得し、リアルタイム・ウェイクアップ・シソーラス及び音声信号に基づきウェイクアップを行う。前回のインタラクションプロセスが中断した後、リアルタイム・ウェイクアップ・シソーラスに基づきウェイクアップを行い、再度ウェイクアップを行う時に、ユーザーにスリープで気付かないというユーザー体験を与えるので、ユーザーが直接的にスリープ前のインタラクションシーンを繋ぐことができ、以前に実行されたインタラクションプロセスを繰り返す必要がない。したがって、インタラクションコストを低減させ、ユーザー体験を向上させる。
図6は、音声ウェイクアップデバイスの実体構造を示す図であり、図6に示すように、
当該デバイスは、プロセッサ(processor)610、通信インターフェース(Communications Interface)620、メモリ(memory)630及びバス640を含み、ここで、プロ
セッサ610、通信インターフェース620、メモリ630は、バス640を介して相互に通信を行う。通信インターフェース640は、サーバとスマートテレビとの間の情報伝送に用いられることができる。下記の方法を実行するように、プロセッサ610はメモリ630の論理命令を呼び出すことができる。当該方法は、ユーザーインタラクション状態に基づき、次回のインタラクションプロセスに使用されるリアルタイム・ウェイクアップ・シソーラスを決定するステップと、ユーザーから入力された音声信号を取得し、前記リアルタイム・ウェイクアップ・シソーラス及び前記音声信号に基づきウェイクアップを行うステップとを含む。
また、上記のメモリ630の論理命令は、ソフトウェア機能ユニットを介して実現され、独立した製品として販売又は使用された場合、コンピュータの可読記憶媒体に格納されることができる。このような理解に基づいて、本質的には、本開示の技術案、又は従来技術に貢献する部分或いは当該技術案の部分はソフトウェア製品の形式で具現化することができ、当該コンピュータソフトウェア製品は、記憶媒体に格納されることができ、1台のコンピュータ装置(パソコン、サーバ、又はシソーラスデバイスなどであってもよい)に本開示の各実施例に記載される方法の全部又は一部のステップを実行させるためのいくつかの命令を含む。前記記憶媒体は、Uディスク、モバイルハードウェア、読み取り専用メモリ(ROM、Read-Only Memory)、ランダムアクセスメモリ(RAM、Random Access Memory)、磁気ディスク又は光ディスクなど、プログラムコードを格納する様々な媒体を含む。
本開示の実施例は、非一時的なコンピュータ可読記憶媒体を提供し、当該非一時的なコンピュータ可読記憶媒体はコンピュータ命令を格納し、当該コンピュータ命令は、コンピュータに上記の実施例に係る音声ウェイクアップ方法(例えば、ユーザーインタラクション状態に基づき、次回のインタラクションプロセスに使用されるリアルタイム・ウェイクアップ・シソーラスを決定するステップと、ユーザーから入力された音声信号を取得し、リアルタイム・ウェイクアップ・シソーラス及び音声信号に基づいてウェイクアップを行うステップとを含む)を実行させる。
当業者であれば、上述した方法実施例の全部又は一部のステップを実現するには、プログラム命令に関するハードウェアによって行われ、前記プログラムは、コンピュータ可読記憶媒体に格納され、当該プログラムは実行されると、上記の方法実施例のステップは実行され、また、前記記憶媒体は、ROM、RAM、磁気ディスク又は光ディスクなど、プログラムコードを格納する様々な媒体を含む。
以上のように記載される装置の実施例は例示的なものであり、ここで、前記分割部件として述べられたユニットは物理的な分割であってもなくてもよい。ユニットとして示される部品は物理的なユニットであってもなくてもよい。また、1つの箇所に位置するか、複数のシソーラスユニットに分散する場合がある。実際のニーズに応じて、その一部又は全部のモジュールを選択して、本実施例の解決案の目的を果たすことができる。当業者であれば、創造的な労働をせずに容易に理解して実施することができる。
以上の実施形態の説明から、当業者は、各実施形態がソフトウェアと必要な汎用ハードウェアプラットフォームと結合する方式又はハードウェアで実現され得ることを明確に理解することができる。このような理解に基づいて、上記の技術案は本質的に、又は現有技術に貢献する部分はソフトウェア製品の形式で具現化することができ、当該コンピュータソフトウェア製品は、ROM/RAM、磁気ディスク、光ディスクなど、コンピュータ読取可能な記憶媒体に格納されることができ、1台のコンピュータ装置(パソコン、サーバ
、又はシソーラス機器などであってもよい)に各実施例又は実施例の一部に記載の方法を実行させるためのいくつかの命令を含む。
最後には説明すべきこととして、以上の実施例は、本開示の技術案を説明するために使用されているだけで、それらを限定するものではない。本開示は、前述の実施例を参照して詳細に説明されているが、当業者は、前述の各実施例に記載される技術案を修正するか、その技術的特徴の均等置換を行うことができ、そしてそれらの修正又は置換によって、対応する技術案が本発明の実施例の技術案の精神と範囲から逸脱せず、本開示の保護範囲内であると、理解すべきである。

Claims (18)

  1. スリープ状態に入った後、現在のユーザーインタラクション状態を決定するステップと、
    ユーザーインタラクション状態に基づき、次回のインタラクションプロセスに使用されるリアルタイム・ウェイクアップ・シソーラスを決定するステップと、
    ユーザーから入力された音声信号を取得し、前記リアルタイム・ウェイクアップ・シソーラス及び前記音声信号に基づきウェイクアップを行うステップとを含
    前記ユーザーインタラクション状態は、スリープ前のインタラクションプロセスの継続、又は、インタラクションプロセスの新規開始である、
    ことを特徴とする音声ウェイクアップ方法。
  2. ユーザーインタラクション状態に基づきリアルタイム・ウェイクアップ・シソーラスを決定することは、
    前記ユーザーインタラクション状態がスリープ前のインタラクションプロセスの継続である場合、キーワード情報規則に応じて、前回のインタラクションプロセスの第1のインタラクション情報のキーワードを取得し、前記キーワードを初期のウェイクアップ・シソーラスに追加し、前記リアルタイム・ウェイクアップ・シソーラスが得られることと、
    前記ユーザーインタラクション状態がインタラクションプロセスの新規開始である場合、前記初期のウェイクアップ・シソーラスを前記リアルタイム・ウェイクアップ・シソーラスとすることとを含む、
    ことを特徴とする請求項1に記載の音声ウェイクアップ方法。
  3. キーワード情報規則に応じて、前回のインタラクションプロセスの第1のインタラクション情報のキーワードを取得することは、
    品詞及び/又は文の要素に応じて、前回のインタラクションプロセスの第1のインタラクション情報のキーワードを取得することを含む、
    ことを特徴とする請求項2に記載の音声ウェイクアップ方法。
  4. 前記第1のインタラクション情報は、ユーザー命令情報、機器返信情報及び検索情報のいずれか1つを含む、
    ことを特徴とする請求項2又は3に記載の音声ウェイクアップ方法。
  5. 前記現在のユーザーインタラクション状態を決定するステップは、インタラクション時のユーザー状態を示すように構成されるユーザー状態特徴、及び/又は、インタラクション時のインタラクション論理を示すように構成されるインタラクション論理特徴に基づき、前記ユーザーインタラクション状態を決定することを含む、
    ことを特徴とする請求項1に記載の音声ウェイクアップ方法。
  6. ユーザー状態特徴及び/又はインタラクション論理特徴に基づき、前記ユーザーインタラクション状態を決定することは、
    前記ユーザー状態特徴及び/又は前記インタラクション論理特徴をインタラクション状態予測モデルに入力し、前記ユーザーインタラクション状態を出力すること、
    前記ユーザー状態特徴及び/又は前記インタラクション論理特徴を正則化し、正則化した結果に応じて前記ユーザーインタラクション状態を決定することを含む、
    ことを特徴とする請求項5に記載の音声ウェイクアップ方法。
  7. 前記ユーザー状態特徴は、ユーザー応答時間、ユーザー距離、ユーザー肢体の状態、ユーザーの顔の状態及びユーザーの身元という5つの情報のうち、少なくともいずれか1つを含み、
    前記インタラクション論理特徴は、インタラクション論理完全性及び前文インタラクション語義関連性という2つの情報のうち、少なくともいずれか1つを含む、
    ことを特徴とする請求項5又は6に記載の音声ウェイクアップ方法。
  8. 前回のインタラクションプロセスの第2のインタラクション情報を取得し、前記インタラクション情報のワードベクトルを抽出するステップと、
    前記ワードベクトルを、インタラクション情報サンプルに基づいてトレーニングして得られた質疑応答関連性モデルに入力し、前記前文インタラクション語義関連性を出力するステップとをさらに含む、
    ことを特徴とする請求項7に記載の音声ウェイクアップ方法。
  9. スリープ状態に入った後、現在のユーザーインタラクション状態を決定するように構成される第2の決定モジュールと、
    ユーザーインタラクション状態に基づき、次回のインタラクションプロセスに使用されるリアルタイム・ウェイクアップ・シソーラスを決定するように構成される第1の決定モジュールと、
    ユーザーから入力された音声信号を取得し、前記リアルタイム・ウェイクアップ・シソーラス及び前記音声信号に基づいてウェイクアップを行うように構成されるウェイクアップモジュールとを含
    前記ユーザーインタラクション状態は、スリープ前のインタラクションプロセスの継続、又は、インタラクションプロセスの新規開始である、
    ことを特徴とする音声ウェイクアップ装置。
  10. 前記第1の決定モジュールは、
    前記ユーザーインタラクション状態がスリープ前のインタラクションプロセスの継続である場合、キーワード情報規則に応じて、前回のインタラクションプロセスの第1のインタラクション情報のキーワードを取得し、前記キーワードを初期のウェイクアップ・シソーラスに追加し、前記リアルタイム・ウェイクアップ・シソーラスが得られるように構成される第1の取得ユニットと、
    前記ユーザーインタラクション状態がインタラクションプロセスの新規開始である場合、前記初期のウェイクアップ・シソーラスを前記リアルタイム・ウェイクアップ・シソーラスとするように構成される第2の取得ユニットとを含む、
    ことを特徴とする請求項9に記載の音声ウェイクアップ装置。
  11. 前記第1の取得ユニットは、品詞及び/又は文の要素に応じて、前回のインタラクションプロセスの第1のインタラクション情報のキーワードを取得するように構成される、
    ことを特徴とする請求項10に記載の音声ウェイクアップ装置。
  12. 前記第1のインタラクション情報は、ユーザー命令情報、機器返信情報及び検索情報のいずれか1つを含む、
    ことを特徴とする請求項10又は11に記載の音声ウェイクアップ装置。
  13. 前記第2の決定モジュールは、インタラクション時のユーザー状態を示すように構成されるユーザー状態特徴、及び/又は、インタラクション時のインタラクション論理を示すように構成されるインタラクション論理特徴に基づき、前記ユーザーインタラクション状態を決定するように構成される、
    ことを特徴とする請求項9に記載の音声ウェイクアップ装置。
  14. 前記第2の決定モジュールは、前記ユーザー状態特徴及び/又は前記インタラクション論理特徴をインタラクション状態予測モデルに入力し、前記ユーザーインタラクション状態を出力するよう、又は、前記ユーザー状態特徴及び/又は前記インタラクション論理特徴を正則化し、正則化した結果に応じて前記ユーザーインタラクション状態を決定するように構成される、
    ことを特徴とする請求項13に記載の音声ウェイクアップ装置。
  15. 前記ユーザー状態特徴は、ユーザー応答時間、ユーザー距離、ユーザー肢体の状態、ユーザーの顔の状態及びユーザーの身元という5つの情報のうち、少なくともいずれか1つを含み、
    前記インタラクション論理特徴は、インタラクション論理完全性及び前文インタラクション語義関連性という2つの情報のうち、少なくともいずれか1つを含む、
    ことを特徴とする請求項13又は14に記載の音声ウェイクアップ装置。
  16. 前回のインタラクションプロセスの第2のインタラクション情報を取得し、前記インタラクション情報のワードベクトルを抽出するように構成される取得モジュールと、
    前記ワードベクトルを、インタラクション情報サンプルに基づいてトレーニングして得られた質疑応答関連性モデルに入力し、前記前文インタラクション語義関連性を出力するように構成される出力モジュールとをさらに含む、
    ことを特徴とする請求項15に記載の音声ウェイクアップ装置。
  17. 音声ウェイクアップデバイスであって、
    少なくとも1つのプロセッサと、
    前記プロセッサに通信可能に接続される少なくとも1つのメモリとを含み、
    前記メモリには、前記プロセッサによって実行されるプログラム命令が格納され、前記プロセッサは、前記プログラム命令を呼び出し、請求項1から8のいずれか1項に記載の方法を実行できる、
    ことを特徴とする音声ウェイクアップデバイス。
  18. 請求項1から8のいずれか1項に記載の方法をコンピュータに実行させるコンピュータ命令を格納することを特徴とする非一時的なコンピュータ可読記憶媒体。
JP2020545333A 2018-04-04 2019-01-28 音声ウェイクアップ方法及び装置 Active JP7114721B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201810298845.1A CN108538298B (zh) 2018-04-04 2018-04-04 语音唤醒方法及装置
CN201810298845.1 2018-04-04
PCT/CN2019/073417 WO2019192250A1 (zh) 2018-04-04 2019-01-28 语音唤醒方法及装置

Publications (2)

Publication Number Publication Date
JP2021516361A JP2021516361A (ja) 2021-07-01
JP7114721B2 true JP7114721B2 (ja) 2022-08-08

Family

ID=63481860

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020545333A Active JP7114721B2 (ja) 2018-04-04 2019-01-28 音声ウェイクアップ方法及び装置

Country Status (6)

Country Link
EP (1) EP3779972A4 (ja)
JP (1) JP7114721B2 (ja)
KR (1) KR102437944B1 (ja)
CN (1) CN108538298B (ja)
RU (1) RU2760368C1 (ja)
WO (1) WO2019192250A1 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108538298B (zh) * 2018-04-04 2021-05-04 科大讯飞股份有限公司 语音唤醒方法及装置
CN109493861A (zh) * 2018-12-05 2019-03-19 百度在线网络技术(北京)有限公司 利用语音控制电器的方法、装置、设备和可读存储介质
CN111312235B (zh) * 2018-12-11 2023-06-30 阿里巴巴集团控股有限公司 一种语音交互方法、装置及系统
CN111506289A (zh) * 2019-01-31 2020-08-07 阿里巴巴集团控股有限公司 一种数据处理方法、装置、设备和机器可读介质
CN110012166B (zh) * 2019-03-31 2021-02-19 联想(北京)有限公司 一种信息处理方法及装置
CN111754997B (zh) * 2019-05-09 2023-08-04 北京汇钧科技有限公司 控制装置及其操作方法,和语音交互装置及其操作方法
CN110164443B (zh) * 2019-06-28 2021-09-14 联想(北京)有限公司 用于电子设备的语音处理方法、装置以及电子设备
CN110718225A (zh) * 2019-11-25 2020-01-21 深圳康佳电子科技有限公司 一种语音控制方法、终端以及存储介质
CN110992953A (zh) * 2019-12-16 2020-04-10 苏州思必驰信息科技有限公司 一种语音数据处理方法、装置、系统及存储介质
CN111161726B (zh) * 2019-12-24 2023-11-03 广州索答信息科技有限公司 一种智能语音交互方法、设备、介质及系统
CN110970036B (zh) * 2019-12-24 2022-07-12 网易(杭州)网络有限公司 声纹识别方法及装置、计算机存储介质、电子设备
CN111192581A (zh) * 2020-01-07 2020-05-22 百度在线网络技术(北京)有限公司 语音唤醒方法、设备及存储介质
CN111402866B (zh) * 2020-03-23 2024-04-05 北京声智科技有限公司 语义识别方法、装置及电子设备
CN111554298B (zh) * 2020-05-18 2023-03-28 阿波罗智联(北京)科技有限公司 语音交互方法、语音交互设备和电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001154694A (ja) 1999-09-13 2001-06-08 Matsushita Electric Ind Co Ltd 音声認識装置及び方法
WO2013080406A1 (ja) 2011-11-28 2013-06-06 Necソフト株式会社 対話システム、冗長メッセージ排除方法および冗長メッセージ排除プログラム
JP2016526205A (ja) 2013-05-07 2016-09-01 クゥアルコム・インコーポレイテッドQualcomm Incorporated 音声アクティブ化を制御するための方法および装置
WO2017179335A1 (ja) 2016-04-11 2017-10-19 ソニー株式会社 情報処理装置、情報処理方法およびプログラム

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7188066B2 (en) * 2002-02-04 2007-03-06 Microsoft Corporation Speech controls for use with a speech system
JP4107093B2 (ja) * 2003-01-30 2008-06-25 株式会社日立製作所 対話型端末装置及び対話アプリケーション提供方法
JP5073024B2 (ja) * 2010-08-10 2012-11-14 株式会社東芝 音声対話装置
SG187286A1 (en) * 2011-07-29 2013-02-28 Smart Communications Inc System and method for activating a mobile device to initiate a communication
US8768712B1 (en) * 2013-12-04 2014-07-01 Google Inc. Initiating actions based on partial hotwords
US8938394B1 (en) * 2014-01-09 2015-01-20 Google Inc. Audio triggers based on context
US9646607B2 (en) * 2014-03-10 2017-05-09 Dell Products, L.P. Managing wake-on-voice buffer quality based on system boot profiling
CN105206271A (zh) * 2015-08-25 2015-12-30 北京宇音天下科技有限公司 智能设备的语音唤醒方法及实现所述方法的系统
CN105654943A (zh) * 2015-10-26 2016-06-08 乐视致新电子科技(天津)有限公司 一种语音唤醒方法、装置及系统
US9940929B2 (en) * 2015-12-09 2018-04-10 Lenovo (Singapore) Pte. Ltd. Extending the period of voice recognition
CN107622652B (zh) * 2016-07-15 2020-10-02 青岛海尔智能技术研发有限公司 家电系统的语音控制方法与家电控制系统
US10621992B2 (en) * 2016-07-22 2020-04-14 Lenovo (Singapore) Pte. Ltd. Activating voice assistant based on at least one of user proximity and context
CN107818782B (zh) * 2016-09-12 2020-10-09 上海声瀚信息科技有限公司 一种实现家用电器智能控制的方法及系统
JP2018049230A (ja) * 2016-09-23 2018-03-29 シャープ株式会社 辞書作成装置、辞書作成プログラム、音声認識装置、音声認識プログラムおよび記録媒体
CN106653021B (zh) * 2016-12-27 2020-06-02 上海智臻智能网络科技股份有限公司 语音唤醒的控制方法、装置及终端
CN106898352B (zh) * 2017-02-27 2020-09-25 联想(北京)有限公司 语音控制方法及电子设备
CN107195304A (zh) * 2017-06-30 2017-09-22 珠海格力电器股份有限公司 一种电器设备的语音控制电路和方法
CN107360157A (zh) * 2017-07-10 2017-11-17 绵阳美菱软件技术有限公司 一种用户注册方法、装置及智能空调器
CN107610695B (zh) * 2017-08-08 2021-07-06 大众问问(北京)信息科技有限公司 驾驶人语音唤醒指令词权重的动态调整方法
CN107564518B (zh) * 2017-08-21 2021-10-22 百度在线网络技术(北京)有限公司 智能设备控制方法、装置及计算机设备
CN107704275B (zh) * 2017-09-04 2021-07-23 百度在线网络技术(北京)有限公司 智能设备唤醒方法、装置、服务器及智能设备
CN107578776B (zh) * 2017-09-25 2021-08-06 咪咕文化科技有限公司 一种语音交互的唤醒方法、装置及计算机可读存储介质
CN108538298B (zh) * 2018-04-04 2021-05-04 科大讯飞股份有限公司 语音唤醒方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001154694A (ja) 1999-09-13 2001-06-08 Matsushita Electric Ind Co Ltd 音声認識装置及び方法
WO2013080406A1 (ja) 2011-11-28 2013-06-06 Necソフト株式会社 対話システム、冗長メッセージ排除方法および冗長メッセージ排除プログラム
JP2016526205A (ja) 2013-05-07 2016-09-01 クゥアルコム・インコーポレイテッドQualcomm Incorporated 音声アクティブ化を制御するための方法および装置
WO2017179335A1 (ja) 2016-04-11 2017-10-19 ソニー株式会社 情報処理装置、情報処理方法およびプログラム

Also Published As

Publication number Publication date
WO2019192250A1 (zh) 2019-10-10
KR102437944B1 (ko) 2022-08-30
KR20200130352A (ko) 2020-11-18
EP3779972A4 (en) 2022-04-13
JP2021516361A (ja) 2021-07-01
RU2760368C1 (ru) 2021-11-24
EP3779972A1 (en) 2021-02-17
CN108538298A (zh) 2018-09-14
CN108538298B (zh) 2021-05-04

Similar Documents

Publication Publication Date Title
JP7114721B2 (ja) 音声ウェイクアップ方法及び装置
JP7150770B2 (ja) 対話方法、装置、コンピュータ可読記憶媒体、及びプログラム
KR102608469B1 (ko) 자연어 생성 방법 및 장치
KR102309540B1 (ko) 사용자의 입력 입력에 기초하여 타겟 디바이스를 결정하고, 타겟 디바이스를 제어하는 서버 및 그 동작 방법
CN107644638B (zh) 语音识别方法、装置、终端和计算机可读存储介质
US10504513B1 (en) Natural language understanding with affiliated devices
US8589163B2 (en) Adapting language models with a bit mask for a subset of related words
KR20200007882A (ko) 자동 비서를 위한 명령 번들 제안 제공
CN111081280B (zh) 与文本无关的语音情感识别方法及装置、用于识别情感的算法模型的生成方法
JP7300435B2 (ja) 音声インタラクションするための方法、装置、電子機器、およびコンピュータ読み取り可能な記憶媒体
CN111199732B (zh) 一种基于情感的语音交互方法、存储介质及终端设备
CN111832308B (zh) 语音识别文本连贯性处理方法和装置
US20190042185A1 (en) Flexible voice-based information retrieval system for virtual assistant
CN111161725B (zh) 一种语音交互方法、装置、计算设备及存储介质
US20200265843A1 (en) Speech broadcast method, device and terminal
US11398226B1 (en) Complex natural language processing
CN109741735A (zh) 一种建模方法、声学模型的获取方法和装置
US11580182B2 (en) Content generation framework
CN111292733A (zh) 一种语音交互方法和装置
JP2021076818A (ja) 音声対話するための方法、装置、デバイス及びコンピュータ読み取り可能な記憶媒体
US10861453B1 (en) Resource scheduling with voice controlled devices
CN108492826B (zh) 音频处理方法、装置、智能设备及介质
CN111508481B (zh) 语音唤醒模型的训练方法、装置、电子设备及存储介质
US11657095B1 (en) Supplemental content placement for natural language interfaces
US20230306964A1 (en) Device-specific skill processing

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200903

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211013

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220712

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220727

R150 Certificate of patent or registration of utility model

Ref document number: 7114721

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150