JP7114721B2

JP7114721B2 - 音声ウェイクアップ方法及び装置

Info

Publication number: JP7114721B2
Application number: JP2020545333A
Authority: JP
Inventors: ソン，ヤナン; パン，ジャ; ウー，グォピン
Original assignee: アイフライテックカンパニー，リミテッド
Priority date: 2018-04-04
Filing date: 2019-01-28
Publication date: 2022-08-08
Anticipated expiration: 2039-01-28
Also published as: WO2019192250A1; KR102437944B1; KR20200130352A; EP3779972A4; JP2021516361A; RU2760368C1; EP3779972A1; CN108538298A; CN108538298B

Description

相互参照

本出願は、２０１８年０４月０４日に提出した発明名称が「音声ウェイクアップ方法及び装置」である第２０１８１０２９８８４５１号中国特許出願に基づくものであり、そのすべての内容はここで参照として本出願に引用される。

本開示の実施例は、コンピュータ応用技術分野に関し、具体的には音声ウェイクアップ方法及び装置に関する。

音声インタラクション技術の発展に伴い、音声ウェイクアップ機能を備えるスマート端末が増えている。すなわち、ユーザー音声データの音声情報を理解することにより、スマート端末をウェイクアップするという目的を達成する。関連技術では、音声ウェイクアップ方法が提供され、それは、ユーザーがウェイクアップワードを予めに設定し、音声信号を受信した後、音声信号とウェイクアップワードが合致するかどうかを判断することである。両者が合致した場合、スリープ状態にあるスマートデバイスをウェイクアップし、両者が合致しなかった場合、ウェイクアップを実行しない。ここで、スマートデバイスはウェイクアップされるとインタラクションプロセスが開始する。インタラクションプロセスが中断した場合、もう一度スマートデバイスをウェイクアップし、最初からインタラクションプロセスを開始しなければならない。

インタラクションプロセスが中断した後に、もう一度スマートデバイスをウェイクアップして最初からインタラクションプロセスを開始する必要があるため、ユーザーが中断の終了後に中断前のインタラクションプロセスに復帰しようとする場合、中断した前にすでに実行されたインタラクションプロセスを繰り返す必要があるため、インタラクションコストが増加し、ユーザーのインタラクション体験が低減される。

上記の問題の全部又は一部を解決するために、本開示の実施例は、関連技術においてインタラクションプロセスが中断した後、もう一度ウェイクアップする時にインタラクションプロセスを新規開始するという欠陥を解決し、スリープ前のインタラクションプロセスの継続を実現する音声ウェイクアップ装置及び方法を提供する。

本開示の実施例の第１の態様によって、音声ウェイクアップ方法を提供し、当該方法は、
ユーザーインタラクション状態に基づき、次回のインタラクションプロセスに使用されるリアルタイム・ウェイクアップ・シソーラスを決定するステップと、
ユーザーから入力された音声信号を取得し、前記リアルタイム・ウェイクアップ・シソーラス及び前記音声信号に基づきウェイクアップを行うステップとを含む。

本開示の実施例の第２の態様によって、音声ウェイクアップ装置を提供し、当該装置は、
ユーザーインタラクション状態に基づき、次回のインタラクションプロセスに使用されるリアルタイム・ウェイクアップ・シソーラスを決定するように構成される第１の決定モジュールと、
ユーザーから入力された音声信号を取得し、前記リアルタイム・ウェイクアップ・シソーラス及び前記音声信号に基づきウェイクアップを行うように構成されるウェイクアップ
モジュールとを含む。

本開示の実施例の第３の態様によって、音声ウェイクアップデバイスを提供し、当該デバイスは、
少なくとも１つのプロセッサと、
プロセッサに通信可能に接続される少なくとも１つのメモリとを含み、ここで、
メモリには、プロセッサによって実行されるプログラム命令が格納され、プロセッサは、プログラム命令を呼び出し、第１の態様に係る音声ウェイクアップ方法を実行できる。

本開示の実施例の第４の態様によって、非一時的なコンピュータ可読記憶媒体を提供し、非一時的なコンピュータ可読記憶媒体はコンピュータ命令を格納し、コンピュータ命令はコンピュータに第１の態様に係る音声ウェイクアップ方法を実行させるものである。

本開示の実施例に係る方法では、ユーザーインタラクション状態に基づきリアルタイム・ウェイクアップ・シソーラスを決定し、ユーザーから入力された音声信号を取得し、前記リアルタイム・ウェイクアップ・シソーラス及び前記音声信号に基づきウェイクアップを行う。前回のインタラクションプロセスが中断した後、リアルタイム・ウェイクアップ・シソーラスに基づきウェイクアップを行い、再度ウェイクアップを行う時に、ユーザーにスリープで気付かないというユーザー体験を与えるので、ユーザーが直接的にスリープ前のインタラクションシーンを繋ぐことができ、以前に実行されたインタラクションプロセスを繰り返す必要がない。したがって、インタラクションコストを低減させ、ユーザー体験を向上させる。

本開示の実施例又は従来技術の技術案をより明確にするためには、以下、実施例又は従来技術を説明するために必要な図面を簡単に説明する。明らかに、以下説明される図面は、本開示の実施例の一部であり、当業者であれば、創造的な労力を払うことなくこれらの図面に従って他の図面を得ることができる。
本開示の一実施例に係る音声ウェイクアップ方法のフローチャートである。本開示の別の実施例に係る音声ウェイクアップ方法のフローチャートである。本開示のもう一つの実施例に係る音声ウェイクアップ方法のフローチャートである。本開示の一実施例に係るウェイクアップ・ネットワークの構造を示す図である。本開示の一実施例に係る音声ウェイクアップ装置の構造を示す図である。本開示の一実施例に係る音声ウェイクアップデバイスの構造を示す図である。

本開示の実施例の目的、技術案及び利点をより明確にするために、以下、本開示の実施例の図面を参照しながら、本開示の実施例の技術案を明確且つ完全に説明する。明らかに、説明される実施例は、すべての実施例ではなく、本開示の一部の実施例である。本開示の実施例に基づき、当業者が創造的な労働をせずに取得したすべての他の実施例も本開示の保護範囲に属する。

音声ウェイクアップは、ユーザーの音声信号を理解することにより、スマートデバイスをウェイクアップすることを目的とする。関連技術におけるウェイクアップ過程において、スマートデバイスをスマートスピーカーとし、ユーザーが予め生成した「ディンドンディンドン」をウェイクアップワードとすると、スマートスピーカーは、ユーザーから入力
された「ディンドンディンドン」の音声信号（すなわち、語義のない音声信号であって、スマートスピーカーのウェイクアップだけに使用されるもの）を検出した場合、次のようにユーザーとのインタラクションを開始することができる。

ユーザー：ディンドンディンドン。
スマートスピーカー：ご用件はなんでしょうか？
ユーザー：音楽を聞きたいんです。
スマートスピーカー：はい、わかりました。お気に入りの歌手や曲がありますか？
ユーザー：周杰倫。
スマートスピーカー：周杰倫が歌った特定の曲をリクエストしますか。

スマートスピーカーは「周杰倫が歌った特定の曲をリクエストしますか」と質問をしてから、一定時間内にユーザーから当該質問の有効な応答が得られなかった場合、周杰倫の曲をランダムに再生し、その後にスリープ状態に入る。ここで、有効な応答が得られないことは、所定の時間内に応答が得られなかったこと、又は所定の時間内に質問とは関係のない応答（質問に対して見当違いな回答）が得られたことを含む。スマートスピーカーがスリープ状態に入った後、ユーザーが再びスマートスピーカーをウェイクアップしようとする場合、「ディンドンディンドン」と言ってインタラクションプロセスを再開する。この場合、ユーザーがスマートスピーカーをウェイクアップする目的は周杰倫の曲を聞くことであれば、次のようなインタラクションプロセスが実行される。

ユーザー：ディンドンディンドン。
スマートスピーカー：ご用件はなんでしょうか？
ユーザー：音楽を聞きたいんです。
スマートスピーカー：はい、わかりました。お気に入りの歌手や曲がありますか？
ユーザー：周杰倫。

このようなことから、上記のインタラクションプロセスが繰り返されることが分かる。上記の状況に対し、本開示の実施例は音声ウェイクアップ方法を提供する。当該方法の実行主体としては、ウェアラブルデバイス、車載デバイス、モバイルデバイス、ＰＣ、スマート家電などのスマートデバイスが挙げられ、本開示の実施例は特にこれに制限しない。当該方法は異なるインタラクションシーン（家電の使用シーン、カスタマーサービスインタラクションシーン、チケット購入シーンなど）に応用されることができ、本開示の実施例は特にこれに制限しない。図１に示すように、当該方法は、ユーザーインタラクション状態に基づき、次回のインタラクションプロセスに使用されるリアルタイム・ウェイクアップ・シソーラスを決定するステップ１０１と、ユーザーから入力された音声信号を取得し、リアルタイム・ウェイクアップ・シソーラス及び音声信号に基づきウェイクアップを行うステップ１０２とを含む。

ステップ１０１を実行する前に、スマートデバイスはすでにユーザーによってウェイクアップされ、ユーザーとインタラクションプロセス（すなわち、前回のインタラクションプロセス）を確立した。前回のインタラクションプロセスにおいて、スマートデバイスは、定義済みのウェイクアップ・シソーラスを用いてスマートデバイスをウェイクアップすることができる。ここで、定義済みのウェイクアップ・シソーラスは、初期のウェイクアップ・シソーラスとして使用されることができる。初期のウェイクアップ・シソーラスは、スマートデバイスの工場出荷時に自動的に設定されることができ、又は下記の方式によって生成される。まず、スマートデバイスは、ユーザーから入力されたウェイクアップワードのテキスト或いは音声信号を受信する。ここで、ウェイクアップワードのテキストは、ユーザーが予め定義して確認した後に得られたものであってもよく、音声信号は、意味のある音声又は意味のない音声であってもよい。

スマートデバイスが受信したのはウェイクアップワードテキストである場合、ウェイクアップワードのテキストに対し単語分割を行い、各単語と音素の間のマッピングリストに応じて、ウェイクアップワードの音素或いはマルコフ状態レベルのシーケンスを決定し、ウェイクアップ・シソーラス生成プログラムを呼び出し、音素或いは状態レベルのシーケンスに基づき、初期のウェイクアップ・シソーラスを生成し、ユーザーは、新しいウェイクアップワードを決定した後、初期のウェイクアップ・シソーラスを用いてスマートデバイスをウェイクアップすることができる。

スマートデバイスが受信したのは音声信号である場合、音声信号の音響的特徴（ｆｉｌｔｅｒｂａｎｋ特徴など）を抽出し、音素或いは状態レベルの復号化シソーラスを構築し、音響モデルを呼び出し、音素或いは状態レベルの復号化シソーラスに対し、音響的特徴を復号化し、ウェイクアップワードの音素或いは状態レベルのシーケンスを取得し、ウェイクアップ・シソーラス生成プログラムを呼び出し、音素或いは状態レベルのシーケンスに基づき、初期のウェイクアップ・シソーラスを生成する。

スマートデバイスでは、前回のインタラクションプロセスのある段階においてユーザーからの有効な応答が得られないまま、スリープ状態に入ることがある。スマートデバイスは、スリープ状態に入った後、現在のユーザーインタラクション状態を決定することができる。ここで、ユーザーインタラクション状態は、次回のインタラクションプロセスにおいて、ユーザーがスリープ前のインタラクションプロセスを続けようとする状態と、次回のインタラクションプロセスにおいて、ユーザーが新しいインタラクションプロセスを開始しようとする状態との二種類に分けられる。リアルタイム・ウェイクアップ・シソーラスを決定した後、ユーザーから入力された音声信号を取得し、リアルタイム・ウェイクアップ・シソーラス及び音声信号に基づきウェイクアップを行うことができる。

本開示の実施例に係る方法では、ユーザーインタラクション状態に基づきリアルタイム・ウェイクアップ・シソーラスを決定し、ユーザーから入力された音声信号を取得し、リアルタイム・ウェイクアップ・シソーラス及び音声信号に基づきウェイクアップを行う。前回のインタラクションプロセスが中断した後、リアルタイム・ウェイクアップ・シソーラスに基づきウェイクアップを行い、再度ウェイクアップを行う時に、ユーザーにスリープで気付かないというユーザー体験を与えるので、ユーザーが直接的にスリープ前のインタラクションシーンを繋ぐことができ、以前に実行されたインタラクションプロセスを繰り返す必要がない。したがって、インタラクションコストを低減させ、ユーザー体験を向上させる。

上述した実施例の内容に基づき、本開示の実施例は、ユーザーインタラクション状態に基づきリアルタイム・ウェイクアップ・シソーラスを決定する方法を提供し、当該方法は、ユーザーインタラクション状態がスリープ前のインタラクションプロセスの継続である場合、前回のインタラクションプロセスの第１のインタラクション情報のキーワードを取得し、キーワードを初期のウェイクアップ・シソーラスに追加し、リアルタイム・ウェイクアップ・シソーラスが得られるステップと、ユーザーインタラクション状態がインタラクションプロセスの新規開始である場合、初期のウェイクアップ・シソーラスをリアルタイム・ウェイクアップ・シソーラスとするステップとを含む。

具体的には、ユーザーインタラクション状態がスリープ前のインタラクションプロセスの継続である場合、キーワード情報規則に応じて、前回のインタラクションプロセスの第１のインタラクション情報のキーワードを取得することができる。前回のインタラクションプロセスの第１のインタラクション情報のキーワードを取得する時に、第１のインタラクション情報は、前回のインタラクションプロセスにおける異なるインタラクション段階
に関わるインタラクション情報であってもよく、前回のインタラクションプロセスにおけるユーザー需要に基づいて取得された情報であってもよく、本開示の実施例は特にこれに制限しない。キーワードは、スリープ前のインタラクションプロセスにおける異なるインタラクション段階に関わる名詞及び動詞であってもよく、インタラクション段階におけるユーザーからの質問に応じて検索によって得られた名詞であってもよく、本開示の実施例は特にこれに制限しない。キーワードを初期のウェイクアップ・シソーラスに追加し、リアルタイム・ウェイクアップ・シソーラスが得られる。ユーザーから入力された音声信号を取得した後、リアルタイム・ウェイクアップ・シソーラス及び音声信号に基づきウェイクアップを行うことができる。

例えば、スマートデバイスをスマートスピーカーとし、スリープ前の前回のインタラクションプロセスについて、上記の例を参照することができる。前述のことに応じて、キーワードは、インタラクションプロセスにおける異なるインタラクション段階に関わる、「聞く」、「周杰倫」、「曲」のような名詞及び動詞であってもよく、インタラクション段階におけるユーザーからの質問に応じて検索によって得られた、周杰倫ミュージックライブラリの曲名「簡単愛」、「竜巻」のような名詞であってもよい。上記のキーワードを用いてリアルタイム・ウェイクアップ・シソーラスを決定することができ、ユーザーから音声信号（例えば、「周杰倫」）が入力された場合、リアルタイム・ウェイクアップ・シソーラスを通じて音声信号を識別し、識別結果に基づき、スマートデバイスをウェイクアップし、スリープ前のインタラクションプロセスを続け、次のアクションとして周杰倫のプロファイル情報ではなく周杰倫の曲を再生することを決定する。リアルタイム・ウェイクアップ・シソーラスを構築する時に、インタラクション段階におけるユーザーからの質問に応じて検索によって得られた名詞（曲名「簡単愛」など）をキーワードとするため、ユーザーから入力された音声信号は「簡単愛を再生する」である場合にも、スマートデバイスをウェイクアップして「簡単愛」の曲を再生することができる。また、ユーザーから入力された音声信号は、「簡単愛を聞く」或いは「簡単愛」である場合にも、「簡単愛」の曲を再生することができる。

上述した実施例の内容に基づき、代替的な実施例として、本開示の実施例は、キーワード情報規則に基づき、前回のインタラクションプロセスの第１のインタラクション情報のキーワードを取得する方式に特に制限しない。当該方式は、品詞及び／又は文の要素に応じて、前回のインタラクションプロセスの第１のインタラクション情報のキーワードを取得することを含むが、これに限らない。

ここで、キーワード情報規則は、第１のインタラクション情報からキーワードを選択するための選択規則であってもよい。具体的には、キーワード情報規則は、品詞及び／又は文の要素により選択することができ、例えば、品詞により名詞、形容詞などを選択し、及び／又は文の要素により述語、目的語などを選択し、本開示の実施例は、キーワード情報規則の内容に特に制限しない。

上述した実施例の内容に基づき、代替的な実施例として、第１のインタラクション情報は、ユーザー命令情報、機器返信情報及び検索情報のいずれか１つを含む。ここで、ユーザー命令情報は、ユーザーとスマートデバイスとのインタラクション時のユーザーからの命令又は質問であり、機器返信情報は、ユーザーからの命令又は質問に対するスマートデバイスの返信情報であり、検索情報は、ユーザーの需要に基づいてスマートデバイスの検索によって得られた情報である。キーワード情報規則に応じてインタラクション情報のキーワードを取得した後、キーワードに基づきウェイクアップ・シソーラスを構築することができる。説明すべき点については、キーワードの取得処理が予めに実行させられるため、初期のウェイクアップ・シソーラスの更新速度を高めることができる。

説明すべき点については、キーワードを抽出する前に、さらにインタラクションシーンに基づき、語義理解モデルをトレーニングし、インタラクション情報の要約情報を抽出でき、その後、キーワード情報規則に基づき、要約情報からキーワードを抽出でき、本開示の実施例は、これに特に制限しない。

第１のインタラクション情報のキーワードを取得した後、さらにキーワードの同義拡張を実行できるため、キーワード及び同義拡張を実行したキーワードに基づき、リアルタイム・ウェイクアップ・シソーラスを決定することができる。この場合、リアルタイム・ウェイクアップ・シソーラスには、第１のインタラクション情報のキーワード内容に加えて、拡張キーワードの内容も含まれるため、その後、ユーザーからスリープ前の第１のインタラクション情報の語義に関連する音声信号が入力された場合にも、識別とウェイクアップを行うことができるので、ウェイクアップ方式の柔軟性を増加させる。

上述した実施例の内容に基づき、ステップ１０１を実行する前に、代替的な実施例として、本開示の実施例はユーザーインタラクション状態の決定方法をさらに提供し、当該方法は、ユーザー状態特徴及びインタラクション論理特徴に基づき、ユーザーインタラクション状態を決定することを含む。

ここで、ユーザー状態特徴は、インタラクション時のユーザー状態を示すように構成され、インタラクション論理特徴は、インタラクション時のインタラクション論理を示すように構成される。具体的に、ユーザー状態特徴は、ユーザーとスマートデバイスのインタラクション時の応答時間、及びスマートデバイスでユーザーの応答を取得する時のユーザーの置かれる状態を記述するように構成され、インタラクション論理特徴は、スマートデバイスのスリープ前に得られた音声信号の語義と質問の関連性を記述するように構成される。

上述した実施例の内容に基づき、代替的な実施例として、本開示の実施例は、ユーザー状態特徴及びインタラクション論理特徴に基づくユーザーインタラクション状態の決定方式に特に制限されず、当該方式は、ユーザー状態特徴及びインタラクション論理特徴をインタラクション状態予測モデルに入力し、ユーザーインタラクション状態を出力する方式と、ユーザー状態特徴及びインタラクション論理特徴を正則化し、正則化した結果に応じてユーザーインタラクション状態を決定する方式とを含むが、これに限らない。

上述した第１の方式については、インタラクション状態予測モデルは、ユーザー状態のサンプル特徴及びインタラクション論理のサンプル特徴をトレーニングした後に得られる。具体的に、ユーザーの異なるインタラクション状態におけるユーザー状態特徴及びインタラクション論理特徴をそれぞれ予めに決定することができる。つまり、ユーザーがスリープ前のインタラクションプロセスを続けしようとする場合、その時点のユーザー状態特徴及びインタラクション論理特徴を決定する。ユーザーが新しいインタラクションプロセスを開始しようとする場合、その時点のユーザー状態特徴及びインタラクション論理特徴を決定する。ユーザーの異なるインタラクション状態におけるユーザー状態特徴及びインタラクション論理特徴をサンプル特徴とし、サンプル特徴を初期モデルの入力とし、ユーザーのインタラクション状態を出力とし、初期モデルをトレーニングしてインタラクション状態予測モデルが得られる。トレーニングによってインタラクション状態予測モデルが得られた後、トレーニングによって得られたインタラクション状態予測モデルは、ユーザーインタラクション状態を決定することができる。

上述した第２の方式については、ユーザー状態特徴及びインタラクション論理特徴は、次元の異なるデータである可能性があるため、ユーザー状態特徴及びインタラクション論理特徴を正則化し、同じ次元のデータを正則化した後、正則化したユーザー状態特徴及び
インタラクション論理特徴を重み付け加算し、加算結果が所定の閾値より大きい場合、スリープ前のインタラクションプロセスがすでに終了し、次回ユーザーが新しいインタラクションプロセスを開始しようとすることを意味する。加算結果が所定の閾値以下の場合、スリープ前のインタラクションプロセスはまだ終了しておらず、次回ユーザーがスリープ前のインタラクションプロセスを続けようとすることを意味する。ここで、必要に応じて所定の閾値を設定し、本開示の実施例はこれに特に制限しない。

上述した実施例の内容に基づき、代替的な実施例として、ユーザー状態特徴及びインタラクション論理特徴には複数の情報が含まれ、ここで、ユーザー状態特徴は、ユーザー応答時間、ユーザー距離、ユーザー肢体の状態、ユーザーの顔の状態及びユーザーの身元という５つの情報のうち、少なくともいずれか１つを含み、インタラクション論理特徴は、インタラクション論理完全性及び前文インタラクション語義関連性という２つの情報のうち、少なくともいずれか１つを含む。

具体的に、ユーザー応答時間は、スマートデバイスのスリープ前の前回のインタラクションプロセスにおける最後のインタラクション（最後のインタラクション後にスマートデバイスがスリープに入る）からユーザーの音声信号を受信するまでの時間間隔であってもよい。もちろん、ユーザー応答時間は、スマートデバイスがスリープに入ってからユーザーの音声信号を受信するまでの時間間隔、又は、スリープ時刻から現在時刻までの時間間隔であってもよく、本開示の実施例はこれに特に制限しない。ここで、ユーザー応答時間が長いほど、ユーザーから入力された音声信号（スリープ後の応答）がスリープ前の前回のインタラクションプロセスとの関係のない可能性も高い。

ユーザー距離は、ユーザーとスマートデバイス間の物理的距離を示す。ここで、ユーザー距離が長いほど、ユーザーとスマートデバイスの間隔距離も遠いことを意味する。この場合、ユーザーから入力された音声信号は、スリープ前の前回のインタラクションプロセスとの関係のない可能性が高い。ユーザー距離は、スマートデバイスまでの声音減衰の程度に応じて推定されることができ、又は赤外検出方式により推定されることができ、本開示の実施例はこれに特に制限しない。

ユーザー肢体の状態は、ユーザーの動作を示し、ユーザーがスマートデバイスに向かって特定の動作（例えば、予めに設定されたジェスチャ動作）を行う時に、ユーザーから入力された音声信号がスリープ前のインタラクションプロセスとの関係のある可能性が高いことを意味する。ユーザー肢体の状態は、スマートデバイスに搭載されているカメラを介して検出されることができ、本開示の実施例は、これに特に制限しない。

ユーザーの顔の状態は、顔の表情及び／又は顔の向きを含むことができ、本開示の実施例、これに特に制限しない。顔の向きを含むユーザーの顔の状態を例にすると、顔の向きは、ユーザーの顔の結像角度を示す。ここで、ユーザーの顔の向きがスマートデバイスの所在方位に近づくほど、ユーザーから入力された音声信号がスリープ前のインタラクションプロセスとの関係のある可能性も高いことを意味する。ユーザーの顔の向きは、スマートデバイスのカメラをマウントし、顔認識技術を用いて決定し、本開示の実施例は、これに特に制限しない。

ユーザーの身元によって、スマートデバイスのスリープ前の前回のインタラクションプロセス及び次回のインタラクションプロセスにおいてインタラクションに関与するユーザーが同一人物であるかどうかを判定することができる。２回のインタラクションプロセスにおいてインタラクションに関与するユーザーが同一人物である場合、ユーザーから入力された音声信号がスリープ前の前回のインタラクションプロセスとの関係のある可能性が高いことを意味する。ユーザーの身元は、顔認識の方式で決定され、本開示の実施例は、
これに特に制限しない。

インタラクション論理完全性は、スマートデバイスのスリープ前に、ユーザーがスマートデバイスからの質問に対する応答をしたかどうかを示す。インタラクション論理完全性は、質問に対するユーザーの応答程度と正の相関があり、質問に対するユーザーの応答程度が高いほど、インタラクション論理完全性も高い。

前文インタラクション語義関連性は、スマートデバイスのスリープ前にスマートデバイスからの質問に対するユーザーの応答が質問と関連するかどうかを示す。ここで、ユーザーからの応答が質問との関連性が高いほど、前文インタラクション語義関連性も高い。

説明すべき点については、上述した実施例から分かるように、ユーザーインタラクション状態を決定する場合、重み付け加算又はインタラクション状態予測モデルにより決定することができる。インタラクション状態予測モデルによりユーザーインタラクション状態を決定する場合は、上記の７つの情報の１つ又は複数のものをインタラクション状態予測モデルに入力し、ユーザーインタラクション状態を出力することができる。重み付け加算によりユーザーインタラクション状態を決定する場合は、ユーザー状態特徴及びインタラクション論理特徴は１つ又は複数の情報を含むため、各情報を重み付け加算することができる。ユーザー状態特徴に上記の３つの情報が含まれ、インタラクション論理特徴に上記の２つの情報が含まれることを例にすると、上記の次元の異なる情報を正則化し、正則化したデータを重み付け加算し、加算結果が得られる。具体的に次の式を参照する。

Ｙ＝ａ_１＊Ｔ＋ａ_２＊Ｌ＋ａ_３＊alpha＋ａ_４＊Ｒ＋ａ_５＊Ｓ＋ａ_６

上記の式において、Ｙは加算結果を表す。Ｔは、段階ごとに正則化したユーザー応答時間、Ｌは、段階ごとに正則化したユーザー距離、alphaは、段階ごとに正則化したユーザ
ーの顔の向き、Ｒは、インタラクション論理完全性、Ｓは、前文インタラクション語義関連性、ａ１、ａ２…ａ５は、それぞれ各自の重み、ａ６は、固定の重みパラメータを表す。

上述した実施例の内容に基づき、代替的な実施例として、本開示の実施例は、前文インタラクション語義関連性の決定方法を提供する。図２に示すように、当該方法は、前回のインタラクションプロセスの第２のインタラクション情報を取得し、インタラクション情報のワードベクトルを抽出するステップ２０１と、ワードベクトルを、インタラクション情報サンプルに基づいてトレーニングして得られた質疑応答関連性モデルに入力し、前文インタラクション語義関連性を出力するステップ２０２とを含む。

上記のステップ２０１において、第２のインタラクション情報は、ユーザー命令情報及び機器返信情報を含むことができ、本開示の実施例は、これに特に制限しない。ステップ２０２を実行する前に、予め大量のインタラクション情報サンプル（すなわち、スマートデバイスとユーザーの間の質疑応答情報）を収集し、インタラクション情報サンプルのワードベクトルを抽出し、ワードベクトルを初期モデルの入力とし、トレーニングにより２値分類又は回帰質疑応答関連性モデルが得られる。ここで、モデルのモデリング方法は、ＲＮＮ又はＣＮＮであってもよく、本開示の実施例は、これに特に制限しない。スリープ前のインタラクションプロセスにおけるインタラクション情報は、予めに作成した記録及び音声識別により取得され、本開示の実施例は、これにも特に制限しない。

上述した実施例の内容に基づき、代替的な実施例として、本開示の実施例は、リアルタイム・ウェイクアップ・シソーラスに基づくリアルタイム・ウェイクアップ・ネットワークの決定方法を提供する。図３に示すように、当該方法は、各キーワードをウェイクアッ
プワードとし、各ウェイクアップワードに対応する音素シーケンス或いはマルコフ状態シーケンスを取得するステップ３０１と、すべてのウェイクアップワードに対応する音素シーケンス或いはマルコフ状態シーケンスを接続し、リアルタイム・ウェイクアップ・ネットワークを構築するステップ３０２とを含む。

具体的に、「テキスト・音素」のマッピングリストを用いて、ウェイクアップワードを音素シーケンス或いはマルコフ状態シーケンスにマッピングすることができる。ここで、シーケンスの粒度を、音響的特徴を復号化するように構成される音響モデルのモデリング粒度と一致させることができる。上述した例に基づき構築されたリアルタイム・ウェイクアップ・ネットワークの構造を図４に示す。図４に示すように、Keywordは、キーワード
である。

前述のことに応じて、構築されたリアルタイム・ウェイクアップ・ネットワークが有効になった後、リアルタイム・ウェイクアップ・ネットワークに基づき、音声信号を識別すると、ユーザーの実行しようとする命令を決定することができる。例えば、音声信号の内容は、「簡単愛を聞く」とし、リアルタイム・ウェイクアップ・ネットワークを通じてスマートデバイスをウェイクアップし、「簡単愛の曲を再生する」命令をトリガーすることができる。スリープ前の前回のインタラクションプロセスにおけるキーワード及び同義拡張キーワードは、リアルタイム・ウェイクアップ・ネットワーク内に保存されるため、新しいインタラクションプロセスを開始する必要がなく、スリープ前のインタラクションプロセスを続けることができる。

説明すべき点については、構築されたウェイクアップ・シソーラスは、スリープ前の前回のインタラクションプロセスに適用するが、当該ウェイクアップした後、スマートデバイスは再びスリープに入った場合、以前に構築されたリアルタイム・ウェイクアップ・シソーラスはもうウェイクアップに適用しない可能性がある。したがって、現在のインタラクションを行った後に、自動的に構築されたリアルタイム・ウェイクアップ・シソーラスを削除し、次回のウェイクアップ段階において、本開示の実施例に係る方法により新しいリアルタイム・ウェイクアップ・シソーラスを生成することができる。又は、ユーザーインタラクション状態がインタラクションプロセスの新規開始である場合、以前に追加されたウェイクアップワードを削除し、又は直接的に初期のウェイクアップ・シソーラスをリアルタイム・ウェイクアップ・シソーラスとする。

説明すべき点については、上記のすべての代替的な実施例を任意に組み合わせて本開示の代替的な実施例を形成させることができるため、ここでは省略する。

上述した実施例の内容に基づき、本開示の実施例は、音声ウェイクアップ装置を提供し、当該音声ウェイクアップ装置は、上記の方法実施例における音声ウェイクアップ方法を実行するように構成される。図５に示すように、当該装置は、
ユーザーインタラクション状態に基づき、次回のインタラクションプロセスに使用されるリアルタイム・ウェイクアップ・シソーラスを決定するように構成される第１の決定モジュール５０１と、
ユーザーから入力された音声信号を取得し、リアルタイム・ウェイクアップ・シソーラス及び音声信号に基づきウェイクアップを行うように構成されるウェイクアップモジュール５０２とを含む。

代替的な実施例として、第１の決定モジュール５０１は、
前記ユーザーインタラクション状態がスリープ前のインタラクションプロセスの継続である場合、キーワード情報規則に基づき、前回のインタラクションプロセスの第１のインタラクション情報のキーワードを取得し、前記キーワードを初期のウェイクアップ・シソー
ラスに追加し、前記リアルタイム・ウェイクアップ・シソーラスが得られるように構成される第１の取得ユニットと、
前記ユーザーインタラクション状態がインタラクションプロセスの新規開始である場合、前記初期のウェイクアップ・シソーラスを前記リアルタイム・ウェイクアップ・シソーラスとするように構成される第２の取得ユニットとを含む。

代替的な実施例として、第１の取得ユニットは、品詞及び／又は文の要素に応じて、前回のインタラクションプロセスの第１のインタラクション情報のキーワードを取得するように構成される。

代替的な実施例として、第１のインタラクション情報は、ユーザー命令情報、機器返信情報及び検索情報のいずれか１つを含む。

代替的な実施例として、当該装置は、
インタラクション時のユーザー状態を示すように構成されるユーザー状態特徴、及び又は、インタラクション時のインタラクション論理を示すように構成されるインタラクション論理特徴に基づき、前記ユーザーインタラクション状態を決定するように構成される第２の決定モジュールをさらに含む。

代替的な実施例として、前記第２の決定モジュールは、前記ユーザー状態特徴及び／又は前記インタラクション論理特徴をインタラクション状態予測モデルに入力し、前記ユーザーインタラクション状態を出力するよう、又は、前記ユーザー状態特徴及び前記インタラクション論理特徴を正則化し、正則化した結果に応じて前記ユーザーインタラクション状態を決定するように構成される。

代替的な実施例として、前記ユーザー状態特徴は、ユーザー応答時間、ユーザー距離、ユーザー肢体の状態、ユーザーの顔の状態及びユーザーの身元という５つの情報のうち、少なくともいずれか１つを含む。

前記インタラクション論理特徴は、インタラクション論理完全性及び前文インタラクション語義関連性という２つの情報のうち、少なくともいずれか１つを含む。

代替的な実施例として、当該装置は、
前回のインタラクションプロセスの第２のインタラクション情報を取得し、前記インタラクション情報のワードベクトルを抽出するように構成される取得モジュールと、
前記ワードベクトルを、インタラクション情報サンプルに基づいてトレーニングして得られた質疑応答関連性モデルに入力し、前記前文インタラクション語義関連性を出力するように構成される出力モジュールとをさらに含む。

本開示の実施例に係る装置は、ユーザーインタラクション状態に基づきリアルタイム・ウェイクアップ・シソーラスを決定し、ユーザーから入力された音声信号を取得し、リアルタイム・ウェイクアップ・シソーラス及び音声信号に基づきウェイクアップを行う。前回のインタラクションプロセスが中断した後、リアルタイム・ウェイクアップ・シソーラスに基づきウェイクアップを行い、再度ウェイクアップを行う時に、ユーザーにスリープで気付かないというユーザー体験を与えるので、ユーザーが直接的にスリープ前のインタラクションシーンを繋ぐことができ、以前に実行されたインタラクションプロセスを繰り返す必要がない。したがって、インタラクションコストを低減させ、ユーザー体験を向上させる。

図６は、音声ウェイクアップデバイスの実体構造を示す図であり、図６に示すように、
当該デバイスは、プロセッサ（processor）６１０、通信インターフェース（Communications Interface）６２０、メモリ（memory）６３０及びバス６４０を含み、ここで、プロ
セッサ６１０、通信インターフェース６２０、メモリ６３０は、バス６４０を介して相互に通信を行う。通信インターフェース６４０は、サーバとスマートテレビとの間の情報伝送に用いられることができる。下記の方法を実行するように、プロセッサ６１０はメモリ６３０の論理命令を呼び出すことができる。当該方法は、ユーザーインタラクション状態に基づき、次回のインタラクションプロセスに使用されるリアルタイム・ウェイクアップ・シソーラスを決定するステップと、ユーザーから入力された音声信号を取得し、前記リアルタイム・ウェイクアップ・シソーラス及び前記音声信号に基づきウェイクアップを行うステップとを含む。

また、上記のメモリ６３０の論理命令は、ソフトウェア機能ユニットを介して実現され、独立した製品として販売又は使用された場合、コンピュータの可読記憶媒体に格納されることができる。このような理解に基づいて、本質的には、本開示の技術案、又は従来技術に貢献する部分或いは当該技術案の部分はソフトウェア製品の形式で具現化することができ、当該コンピュータソフトウェア製品は、記憶媒体に格納されることができ、１台のコンピュータ装置（パソコン、サーバ、又はシソーラスデバイスなどであってもよい）に本開示の各実施例に記載される方法の全部又は一部のステップを実行させるためのいくつかの命令を含む。前記記憶媒体は、Ｕディスク、モバイルハードウェア、読み取り専用メモリ（ＲＯＭ、Read-Only Memory）、ランダムアクセスメモリ（ＲＡＭ、Random Access Memory）、磁気ディスク又は光ディスクなど、プログラムコードを格納する様々な媒体を含む。

本開示の実施例は、非一時的なコンピュータ可読記憶媒体を提供し、当該非一時的なコンピュータ可読記憶媒体はコンピュータ命令を格納し、当該コンピュータ命令は、コンピュータに上記の実施例に係る音声ウェイクアップ方法（例えば、ユーザーインタラクション状態に基づき、次回のインタラクションプロセスに使用されるリアルタイム・ウェイクアップ・シソーラスを決定するステップと、ユーザーから入力された音声信号を取得し、リアルタイム・ウェイクアップ・シソーラス及び音声信号に基づいてウェイクアップを行うステップとを含む）を実行させる。

当業者であれば、上述した方法実施例の全部又は一部のステップを実現するには、プログラム命令に関するハードウェアによって行われ、前記プログラムは、コンピュータ可読記憶媒体に格納され、当該プログラムは実行されると、上記の方法実施例のステップは実行され、また、前記記憶媒体は、ＲＯＭ、ＲＡＭ、磁気ディスク又は光ディスクなど、プログラムコードを格納する様々な媒体を含む。

以上のように記載される装置の実施例は例示的なものであり、ここで、前記分割部件として述べられたユニットは物理的な分割であってもなくてもよい。ユニットとして示される部品は物理的なユニットであってもなくてもよい。また、１つの箇所に位置するか、複数のシソーラスユニットに分散する場合がある。実際のニーズに応じて、その一部又は全部のモジュールを選択して、本実施例の解決案の目的を果たすことができる。当業者であれば、創造的な労働をせずに容易に理解して実施することができる。

以上の実施形態の説明から、当業者は、各実施形態がソフトウェアと必要な汎用ハードウェアプラットフォームと結合する方式又はハードウェアで実現され得ることを明確に理解することができる。このような理解に基づいて、上記の技術案は本質的に、又は現有技術に貢献する部分はソフトウェア製品の形式で具現化することができ、当該コンピュータソフトウェア製品は、ＲＯＭ／ＲＡＭ、磁気ディスク、光ディスクなど、コンピュータ読取可能な記憶媒体に格納されることができ、１台のコンピュータ装置（パソコン、サーバ
、又はシソーラス機器などであってもよい）に各実施例又は実施例の一部に記載の方法を実行させるためのいくつかの命令を含む。

最後には説明すべきこととして、以上の実施例は、本開示の技術案を説明するために使用されているだけで、それらを限定するものではない。本開示は、前述の実施例を参照して詳細に説明されているが、当業者は、前述の各実施例に記載される技術案を修正するか、その技術的特徴の均等置換を行うことができ、そしてそれらの修正又は置換によって、対応する技術案が本発明の実施例の技術案の精神と範囲から逸脱せず、本開示の保護範囲内であると、理解すべきである。

Claims

スリープ状態に入った後、現在のユーザーインタラクション状態を決定するステップと、
ユーザーインタラクション状態に基づき、次回のインタラクションプロセスに使用されるリアルタイム・ウェイクアップ・シソーラスを決定するステップと、
ユーザーから入力された音声信号を取得し、前記リアルタイム・ウェイクアップ・シソーラス及び前記音声信号に基づきウェイクアップを行うステップとを含み、
前記ユーザーインタラクション状態は、スリープ前のインタラクションプロセスの継続、又は、インタラクションプロセスの新規開始である、
ことを特徴とする音声ウェイクアップ方法。
ユーザーインタラクション状態に基づきリアルタイム・ウェイクアップ・シソーラスを決定することは、
前記ユーザーインタラクション状態がスリープ前のインタラクションプロセスの継続である場合、キーワード情報規則に応じて、前回のインタラクションプロセスの第１のインタラクション情報のキーワードを取得し、前記キーワードを初期のウェイクアップ・シソーラスに追加し、前記リアルタイム・ウェイクアップ・シソーラスが得られることと、
前記ユーザーインタラクション状態がインタラクションプロセスの新規開始である場合、前記初期のウェイクアップ・シソーラスを前記リアルタイム・ウェイクアップ・シソーラスとすることとを含む、
ことを特徴とする請求項１に記載の音声ウェイクアップ方法。
キーワード情報規則に応じて、前回のインタラクションプロセスの第１のインタラクション情報のキーワードを取得することは、
品詞及び／又は文の要素に応じて、前回のインタラクションプロセスの第１のインタラクション情報のキーワードを取得することを含む、
ことを特徴とする請求項２に記載の音声ウェイクアップ方法。
前記第１のインタラクション情報は、ユーザー命令情報、機器返信情報及び検索情報のいずれか１つを含む、
ことを特徴とする請求項２又は３に記載の音声ウェイクアップ方法。
前記現在のユーザーインタラクション状態を決定するステップは、インタラクション時のユーザー状態を示すように構成されるユーザー状態特徴、及び／又は、インタラクション時のインタラクション論理を示すように構成されるインタラクション論理特徴に基づき、前記ユーザーインタラクション状態を決定することを含む、
ことを特徴とする請求項１に記載の音声ウェイクアップ方法。
ユーザー状態特徴及び／又はインタラクション論理特徴に基づき、前記ユーザーインタラクション状態を決定することは、
前記ユーザー状態特徴及び／又は前記インタラクション論理特徴をインタラクション状態予測モデルに入力し、前記ユーザーインタラクション状態を出力すること、
前記ユーザー状態特徴及び／又は前記インタラクション論理特徴を正則化し、正則化した結果に応じて前記ユーザーインタラクション状態を決定することを含む、
ことを特徴とする請求項５に記載の音声ウェイクアップ方法。
前記ユーザー状態特徴は、ユーザー応答時間、ユーザー距離、ユーザー肢体の状態、ユーザーの顔の状態及びユーザーの身元という５つの情報のうち、少なくともいずれか１つを含み、
前記インタラクション論理特徴は、インタラクション論理完全性及び前文インタラクション語義関連性という２つの情報のうち、少なくともいずれか１つを含む、
ことを特徴とする請求項５又は６に記載の音声ウェイクアップ方法。
前回のインタラクションプロセスの第２のインタラクション情報を取得し、前記インタラクション情報のワードベクトルを抽出するステップと、
前記ワードベクトルを、インタラクション情報サンプルに基づいてトレーニングして得られた質疑応答関連性モデルに入力し、前記前文インタラクション語義関連性を出力するステップとをさらに含む、
ことを特徴とする請求項７に記載の音声ウェイクアップ方法。
スリープ状態に入った後、現在のユーザーインタラクション状態を決定するように構成される第２の決定モジュールと、
ユーザーインタラクション状態に基づき、次回のインタラクションプロセスに使用されるリアルタイム・ウェイクアップ・シソーラスを決定するように構成される第１の決定モジュールと、
ユーザーから入力された音声信号を取得し、前記リアルタイム・ウェイクアップ・シソーラス及び前記音声信号に基づいてウェイクアップを行うように構成されるウェイクアップモジュールとを含み、
前記ユーザーインタラクション状態は、スリープ前のインタラクションプロセスの継続、又は、インタラクションプロセスの新規開始である、
ことを特徴とする音声ウェイクアップ装置。
前記第１の決定モジュールは、
前記ユーザーインタラクション状態がスリープ前のインタラクションプロセスの継続である場合、キーワード情報規則に応じて、前回のインタラクションプロセスの第１のインタラクション情報のキーワードを取得し、前記キーワードを初期のウェイクアップ・シソーラスに追加し、前記リアルタイム・ウェイクアップ・シソーラスが得られるように構成される第１の取得ユニットと、
前記ユーザーインタラクション状態がインタラクションプロセスの新規開始である場合、前記初期のウェイクアップ・シソーラスを前記リアルタイム・ウェイクアップ・シソーラスとするように構成される第２の取得ユニットとを含む、
ことを特徴とする請求項９に記載の音声ウェイクアップ装置。
前記第１の取得ユニットは、品詞及び／又は文の要素に応じて、前回のインタラクションプロセスの第１のインタラクション情報のキーワードを取得するように構成される、
ことを特徴とする請求項１０に記載の音声ウェイクアップ装置。
前記第１のインタラクション情報は、ユーザー命令情報、機器返信情報及び検索情報のいずれか１つを含む、
ことを特徴とする請求項１０又は１１に記載の音声ウェイクアップ装置。
前記第２の決定モジュールは、インタラクション時のユーザー状態を示すように構成されるユーザー状態特徴、及び／又は、インタラクション時のインタラクション論理を示すように構成されるインタラクション論理特徴に基づき、前記ユーザーインタラクション状態を決定するように構成される、
ことを特徴とする請求項９に記載の音声ウェイクアップ装置。
前記第２の決定モジュールは、前記ユーザー状態特徴及び／又は前記インタラクション論理特徴をインタラクション状態予測モデルに入力し、前記ユーザーインタラクション状態を出力するよう、又は、前記ユーザー状態特徴及び／又は前記インタラクション論理特徴を正則化し、正則化した結果に応じて前記ユーザーインタラクション状態を決定するように構成される、
ことを特徴とする請求項１３に記載の音声ウェイクアップ装置。
前記ユーザー状態特徴は、ユーザー応答時間、ユーザー距離、ユーザー肢体の状態、ユーザーの顔の状態及びユーザーの身元という５つの情報のうち、少なくともいずれか１つを含み、
前記インタラクション論理特徴は、インタラクション論理完全性及び前文インタラクション語義関連性という２つの情報のうち、少なくともいずれか１つを含む、
ことを特徴とする請求項１３又は１４に記載の音声ウェイクアップ装置。
前回のインタラクションプロセスの第２のインタラクション情報を取得し、前記インタラクション情報のワードベクトルを抽出するように構成される取得モジュールと、
前記ワードベクトルを、インタラクション情報サンプルに基づいてトレーニングして得られた質疑応答関連性モデルに入力し、前記前文インタラクション語義関連性を出力するように構成される出力モジュールとをさらに含む、
ことを特徴とする請求項１５に記載の音声ウェイクアップ装置。
音声ウェイクアップデバイスであって、
少なくとも１つのプロセッサと、
前記プロセッサに通信可能に接続される少なくとも１つのメモリとを含み、
前記メモリには、前記プロセッサによって実行されるプログラム命令が格納され、前記プロセッサは、前記プログラム命令を呼び出し、請求項１から８のいずれか１項に記載の方法を実行できる、
ことを特徴とする音声ウェイクアップデバイス。
請求項１から８のいずれか１項に記載の方法をコンピュータに実行させるコンピュータ命令を格納することを特徴とする非一時的なコンピュータ可読記憶媒体。