JP7324313B2

JP7324313B2 - 音声対話方法及び装置、端末、並びに記憶媒体

Info

Publication number: JP7324313B2
Application number: JP2021569122A
Authority: JP
Inventors: シー，ズージュエン; ニエ，ウエイゥラン
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2019-08-15
Filing date: 2020-02-13
Publication date: 2023-08-09
Anticipated expiration: 2040-02-13
Also published as: WO2021027267A1; JP2022534371A; US20210183386A1; CN112397062A; US11922935B2; EP3933830A1; EP3933830A4

Description

本出願は、2019年8月15日に出願され、”VOICE INTERACTION METHOD AND APPARATUS, TERMINAL, AND STORAGE MEDIUM”と題する中国特許出願第２01910755150.6号に対する優先権を主張するものであり、その全体は参照により本明細書に組み込まれる。

本出願は、端末技術の分野に関し、特に音声対話方法及び装置、端末、並びに記憶媒体に関する。

端末技術の発達に伴い、ますます多くの端末が音声対話（voice interaction）機能をサポートしている。ユーザは、音声を介して端末とのヒューマンコンピュータインタラクション（human-computer interaction）を行うことができ、その結果、両手が自由になり、ヒューマンコンピュータインタラクションの効率が向上する。

現在、音声対話プロシージャは、通常：ユーザが端末と音声対話を行うことを望む場合、最初に、ユーザはウェイクアップワード（wakeup word）を発し、端末は音声命令を収集し、音声命令がウェイクアップワードを含むかどうかを決定する。音声命令がウェイクアップワードを含む場合は、端末は待機状態から動作状態に切り替えられる、言い換えれば、端末はウェイクアップされる。そして、ユーザは、端末によって処理する必要のあるサービスを伝え、端末は、音声命令を再度収集し、音声命令に従って、処理する必要のあるサービスを決定し、サービスを処理する。１つの例示のシナリオにおいて、車載端末のウェイクアップワードが「ハロー、アリス（"Hello, Alice）」と仮定する。運転中、ユーザがラジオ局を起動し、車載端末が曲を再生することを期待するとき、ユーザは「ハロー、アリス」と言う必要があり、端末はウェイクアップされる。車載端末が「イーストラジオ局（East Radio Station）の曲を再生してください」と言うと、車載端末は自動的にラジオ局をイーストラジオ局に調整し、イーストラジオ局の曲を再生する。

前述の方法を使用して音声対話を実行するとき、ユーザは、最初に、サービスを処理するために端末を覚醒させるためにウェイクアップワードを発する必要があり、比較的煩わしい操作及び低効率を引き起こす。

本出願の実施形態は、関連する技術における音声対話における煩わしい操作及び低効率の技術的問題を解決するために、音声対話方法及び装置、端末、並びに記憶媒体を提供する。技術的解決策は以下の通りである：

第１の態様によれば、音声対話方法が提供される。本方法は：ターゲットイベントが検出されたことを決定するステップであって、ターゲットイベントは音声対話をトリガすることができるイベントである、ステップと；サービスタイプセットを取得するために、ターゲットイベントに基づいてマッピング関係を照会する（querying）ステップであって、サービスタイプセットは、１つ又は複数のターゲットサービスタイプを含む、ステップと；音声命令を収集するステップと；音声命令に対応する意味情報（semantic information）に基づいて、意味情報に対応する第１のサービスを取得するステップと；第１のサービスのサービスタイプがサービスタイプセットのいずれかのターゲットサービスタイプである場合、音声命令に従って第１のサービスを実行するステップと；を含む。

本実施形態は、ウェイクアップワード無しの音声対話をトリガする方法を提供する。ユーザが音声対話意図を有するサービスタイプセットが、音声対話をトリガすることができるターゲットイベントに基づいて予測される。音声命令によって表される第１のサービスのサービスタイプが、サービスタイプセットのターゲットサービスタイプである場合、第１のサービスが実行される。ユーザが音声対話プロセスにおいて頻繁にウェイクアップワードを発する必要がある煩わしい操作は省略され、その結果、ウェイクアップワードを頻繁に発することによって引き起こされる極めて低い音声対話効率の問題が解決され、操作がより便利になり、音声対話プロセスがより自然でパーソナライズされ、それによって、音声対話のユーザ体験が向上する。

オプションで、ターゲットイベントが検出されたことを決定するステップは：ユーザの第１操作が検出されたことを決定するステップを含み；
サービスタイプセットを取得するために、ターゲットイベントに基づいてマッピング関係を照会するステップは：サービスタイプセットを取得するために、第１操作に基づいてマッピング関係を照会するステップであって、サービスタイプセットに含まれるターゲットサービスタイプは、１つ又は複数のターゲット第２操作に対応するサービスタイプであり、１つ又は複数のターゲット第２操作は第１操作に関連付けられる連続操作である、ステップを含む。

一般に、ユーザが何らかの操作を実行する場合、ユーザは次の操作を連続的に実行し、したがって、次の操作に対応するサービスに対して音声対話を実行する意図が発生する。このオプションの方法では、特定の確率で実行されることになる次の操作に対応するサービスタイプに、ユーザが現在実行している操作をマッピングするために、操作が連続しているというルールが完全に使用され、その結果、ユーザが操作を実行するとき、ユーザが音声対話を実行したいサービスタイプが正確に予測されることができ、それによって、ターゲットサービスタイプの精度を保証する。

オプションで、ターゲットイベントが検出されたことを決定するステップは：オペレーティングシステム又はアプリケーションからの通知メッセージを受信するステップを含み；
サービスタイプセットを取得するために、ターゲットイベントに基づいてマッピング関係を照会するステップは：
サービスタイプセットを取得するために、通知メッセージに基づいてマッピング関係を照会するステップであって、サービスタイプセットに含まれるターゲットサービスタイプは、通知メッセージに対応するメッセージ閲覧（message viewing）又はメッセージ処理である、ステップを含む。

一般に、端末が通知メッセージを受信する場合、ユーザは、通知メッセージを閲覧又は処理する要求（requirement）を有し、したがって、メッセージを閲覧又は処理する音声対話の意図が生成される。このオプションの方法では、通知メッセージを受信するイベントをメッセージ閲覧又は処理のサービスタイプにマッピングするために、通知メッセージを閲覧又は処理するユーザの要求が十分に考慮され、その結果、通知メッセージが受信されるとき、ユーザが音声対話を実行することを望むサービスタイプが正確に予測されることができ、それによって、ターゲットサービスタイプの精度を保証する。

オプションで、通知メッセージは、通話（call）通知、ショートメッセージサービスメッセージ、インスタントメッセージングメッセージ、及びアラームメッセージのうちの少なくとも１つを含み；サービスタイプセットを取得するために、通知メッセージに基づいてマッピング関係を照会するステップは、以下のうちの少なくとも１つを含む：
サービスタイプセットを取得するために、通話通知に基づいてマッピング関係を照会するステップであって、サービスタイプセットに含まれるターゲットサービスタイプは通話応答（call answering）である、ステップ；
サービスタイプセットを取得するために、ショートメッセージサービスメッセージ又はインスタントメッセージングメッセージに基づいてマッピング関係を照会するステップであって、サービスタイプセットに含まれるターゲットサービスタイプはメッセージ閲覧又はメッセージ返信である、ステップ；及び
サービスタイプセットを取得するために、アラームメッセージに基づいてマッピング関係を照会するステップであって、サービスタイプセットに含まれるターゲットサービスタイプはトラブルシューティング又は情報照会である、ステップ。

オプションで、ターゲットイベントが検出されたことを決定するステップは：現在の環境パラメータが第１の条件を満たすことを決定するステップを含み；
サービスタイプセットを取得するために、ターゲットイベントに基づいてマッピング関係を照会するステップは：サービスタイプセットを取得するために、環境パラメータに基づいてマッピング関係を照会するステップであって、サービスタイプセットに含まれるターゲットサービスタイプは環境パラメータ調整である、ステップを含む。

一般に、環境は、ユーザの知覚に影響を与え、ユーザは、環境に応答する要求を有する。例えば、環境パラメータが変化する場合、ユーザは、環境パラメータを調整する要求を有し、従って、環境パラメータを調整する音声対話意図が生成される。このオプションの方法では、環境パラメータが第１の条件を満たすイベントを環境パラメータ調整のサービスタイプにマッピングするために、環境に応答するユーザ要求が十分に考慮され、その結果、環境パラメータが第１の条件を満たすとき、ユーザが音声対話を実行したいサービスタイプが正確に予測されることができ、それによってターゲットサービスタイプの精度を保証する。

オプションで、ターゲットイベントが検出されたことを決定するステップは：現在のサービスの進捗が第２の条件を満たすことを決定するステップを含み；
サービスタイプセットを取得するために、ターゲットイベントに基づいてマッピング関係を照会するステップは：サービスタイプセットを取得するために、現在のサービスに基づいてマッピング関係を照会するステップであって、サービスタイプセットに含まれるターゲットサービスタイプは現在のサービスのサービスタイプである、ステップを含む。

一般に、現在のサービスの進捗は、ユーザの知覚に影響を与え、ユーザは、現在のサービスに応答する要求を有する。例えば、現在のサービスが終了する場合、ユーザは通常、現在のサービスを再実行すること、現在のサービスの実行を停止すること、又は現在のサービスを調整することを望む。このオプションの方法では、現在のサービスの進捗が第２の条件を満たすイベントを現在のサービスのサービスタイプにマッピングするために、サービス変更に応答するというユーザ要求が十分に考慮され、その結果、現在のサービスの進捗が第２の条件を満たすとき、ユーザが音声対話を実行することを望むサービスタイプが正確に予測されことができ、それによって、ターゲットサービスタイプの正確性を保証する。

上述した複数のオプションの方法を参照すると、複数のモードのターゲットイベントが存在することができ、任意のモードのターゲットイベントが対応するサービスタイプの音声対話機能をトリガすることができ、その結果、複数のアプリケーションシナリオにおいてウェイクアップワード無しのウェイクアップ機能がサポートされることができ、それによって、アプリケーション範囲を拡大する。

オプションで、マッピング関係を確立するプロセスが：
過去の（historical）レコードに基づいて、過去のターゲットイベントに関連付けられた過去のサービスを取得するステップ、及び、過去のサービスのサービスタイプ及び過去のターゲットイベントをマッピング関係に書き込むステップを含む。

このオプションの方法では、同じユーザの個人的な行動モードは規則的であるので、一般的に、現在のターゲットイベントが発生した後にユーザによって生成される音声対話意図は、過去のターゲットイベントが過去の時間に発生した後に生成される音声対話意図と同じ又は類似している可能性が非常に高い。したがって、現在のターゲットイベントが発生した後に実行されることになるサービスは、過去のターゲットイベントが過去の時間に発生した後に実行されることになるサービスと同じ又は類似している可能性が非常に高い。従って、過去のレコードに基づいて、現在の音声対話意図が関連するターゲットサービスタイプを予測することは、ターゲットサービスタイプの精度を改善することができる。

オプションで、マッピング関係を確立するプロセスは：機械学習モデルを呼び出すステップ、機械学習モデルにサンプルターゲットイベントを入力するステップ、サービスタイプを出力するステップ、並びに出力されたサービスタイプ及びサンプルターゲットイベントをマッピング関係に書き込むステップを含み、機械学習モデルは、イベントに基づいてサービスタイプを予測するために使用される。

このオプションの方法では、機械学習モデルがイベントとサービスタイプの間のマッピング関係を学習するように、事前トレーニングが、機械学習モデルを取得するために、大量のサンプルを使用することによって実行されることができる。従って、機械学習モデルを使用することにより、比較的正確なマッピング関係が確立されることができる。

オプションで、音声命令に対応する意味情報に基づいて、意味情報に対応する第１のサービスを取得するステップの後に、この方法は、さらに：第１のサービスのサービスタイプがサービスタイプセットの全てのターゲットサービスタイプと異なる場合、第１のサービスのサービスタイプをマッピング関係に書き込むステップを含む。

このオプションの方法では、ターゲットイベントが次に検出されるとき、取得したサービスタイプセットは、マッピング関係が照会された後の第１のサービスのサービスタイプを含むので、ユーザが音声命令を使用することによって第１のサービスのサービスタイプを表した後、第１のサービスが、音声命令に応答して実行される。従って、端末の過去の実行プロセスでは、イベントＸが検出されるたびに、ユーザは、音声を通じて、サービスタイプＹに対して音声対話を実行する意図を表し、イベントＸ及びサービスタイプＹは、マッピング関係に追加され得る。この方法では、音声対話プロセスが進行するにつれて、イベントとサービスタイプとの間の関連性（association）が見出されることができ、意味情報に対応するイベント及びサービスタイプが、補足及び改善のために使用されることができる。加えて、サービスが拡大するにつれて、端末は、マッピング関係に新たに追加されたイベント及び新たに追加されたサービスタイプを追加することができ、その結果、マッピング関係の拡張性及び適時性を改善することができる。

オプションで、サービスタイプセットを取得するために、ターゲットイベントに基づいてマッピング関係を照会するステップは：サービスタイプセット及びサービスタイプセットの各ターゲットサービスタイプに対応する確率を取得するために、ターゲットイベントに基づいてマッピング関係を照会するステップであって、確率は、ターゲットサービスタイプに対応するサービスを実行する可能性を示す、ステップを含む。音声命令に従って第１のサービスを実行するステップの前に、第１のサービスのサービスタイプがサービスタイプセットのいずれかのターゲットサービスタイプである場合、本方法は、さらに：確率が確率閾値を満たさないターゲットサービスタイプをサービスタイプセットからフィルタ除去する（filtering out）ステップを含む。

オプションで、音声命令に対応する意味情報に基づいて、意味情報に対応する第１のサービスを取得するステップの後に、本方法は、さらに：音声命令に対応する意味情報に基づいて、マッピング関係における確率を更新するステップを含む。

このオプションの方法では、ターゲットイベントが発生するたびに、確率は、ユーザによって現在表されている意味情報に基づいて動的に調整され、その結果、予測されるサービスタイプの正確さを評価することによって、確率は、自己学習的な方法で反復を通して常に修正され、マッピング関係における各サービスタイプの確率は、ターゲットイベントの発生及びユーザによって表された意味に基づいて常に最適化され、ユーザの個人的な行動習慣に徐々により良く一致し、それによって、より正確なマッピング関係を保証する。

オプションで、音声命令に対応する意味情報に基づいて、マッピング関係における確率を更新するステップは：
第１のサービスのサービスタイプが、サービスタイプセットのいずれかのターゲットサービスタイプである場合、マッピング関係における第１のサービスのサービスタイプに対応する確率を増加させるステップを含む。

このオプションの方法では、ターゲットイベントＸがターゲットサービスタイプＹに対応し、ターゲットイベントＸが検出されるたびに、ユーザが音声を介して実行されることになるターゲットサービスタイプＹのサービスを必要とする場合、ターゲットサービスタイプＹは、まさに、ターゲットイベントＸが発生した後にユーザが音声対話意図を有するサービスタイプであることを示す。このオプションの方法では、ターゲットサービスタイプＹの確率は絶えず（constantly）増加する。したがって、ターゲットイベントがその後再び検出されるとき、ターゲットサービスタイプＹの確率が確率閾値を満たし、その結果、ターゲットサービスタイプＹが選択され、音声命令がターゲットサービスタイプＹの意味情報を表す場合、端末は音声命令に応答してサービスを処理する。

オプションで、音声命令に対応する意味情報に基づいて、マッピング関係における確率を更新するステップは：
意味情報に対応するサービスタイプが１つ又は複数のターゲットサービスタイプの全てと異なる場合、マッピング関係におけるターゲットイベント及び１つ又は複数のターゲットサービスタイプに対応する確率を減少させるステップを含む。

このオプションの方法では、ターゲットイベントＸがターゲットサービスタイプＹに対応し、ターゲットイベントＸが検出されるたびに、ユーザは、音声を介して、実行されることになるターゲットサービスタイプＹのサービスを必要としない場合、ターゲットサービスタイプＹは、ターゲットイベントＸが発生した後にユーザが音声対話意図を有するサービスタイプではないことを示す。このオプションの方法では、ターゲットサービスタイプＹの確率は絶えず減少する。したがって、ターゲットイベントＸがその後再び検出されるとき、ターゲットサービスタイプＹの確率は確率閾値を満たさず、その結果、ターゲットサービスタイプＹはフィルタ除去され（filtered out）、端末はターゲットサービスタイプＹのサービスを処理せず、それによって、誤ったウェイクアップを回避する。

オプションで、音声命令に対応する意味情報に基づいて、マッピング関係における確率を更新するステップは：意味情報がウェイクアップワードを含む場合、マッピング関係における第１のサービスのサービスタイプに対応する確率を増加させるステップを含む。

このオプションの方法では、ターゲットイベントＸがターゲットサービスタイプＹに対応し、ターゲットイベントＸが検出されるたびに、ユーザがウェイクアップワードを発する場合、ターゲットサービスタイプＹは、ターゲットイベントＸが発生した後にユーザが音声対話意図を有するサービスタイプであることを示す。このオプションの方法では、ターゲットサービスタイプＹの確率は絶えず増加する。したがって、ターゲットイベントがその後再び検出されるとき、ターゲットサービスタイプＹの確率は確率閾値を満たし、その結果、ターゲットサービスタイプＹが選択され、音声命令がターゲットサービスタイプＹの意味情報を表す場合、端末は音声命令に応答してサービスを処理する。

オプションで、音声命令に対応する意味情報に基づいて、意味情報に対応する第１のサービスを取得するステップの後に、本方法は、さらに：第１のサービスのサービスタイプが、サービスタイプセットの全てのターゲットサービスタイプと異なる場合、音声命令を破棄するステップを含む。

このオプションの方法では、サービスタイプセットが第１のサービスのサービスタイプを含まない場合、音声を介してユーザによって表されたサービスタイプが予測サービスタイプ範囲の外にあり（falls beyond）、端末がサービスタイプを誤って予測し、ユーザが音声対話意図を持たないことを示す。したがって、端末は音声命令に応答せず、音声命令を破棄して、音声命令に従うサービス処理によって引き起こされる誤ったウェイクアップを回避し、音声命令によって占有されるバッファ空間を節約し得る。

第２の態様によれば、音声対話装置が提供される。音声対話装置は、第１の態様及び第１の態様のオプションの方法のいずれか１つの音声対話を実装する機能を有する。装置は、少なくとも１つのモジュールを含み、少なくとも１つのモジュールは、第１の態様及び第１の態様のオプションの方法のいずれか１つで提供される音声対話方法を実装するように構成される。

第３の態様によれば、端末が提供される。端末は、１つ又は複数のプロセッサ及び１つ又は複数のメモリを含み、１つ又は複数のメモリは、少なくとも１つの命令を記憶し、命令は、第１の態様及び第１の態様のオプションの方法のいずれか１つで提供される音声対話方法を実装するように、１つ又は複数のプロセッサによってロード及び実行される。

第４の態様によれば、コンピュータ読取可能記憶媒体が提供される。記憶媒体は、少なくとも１つの命令を記憶し、命令は、第１の態様及び第１の態様のオプションの方法のいずれか１つで提供される音声対話方法を実装するように、プロセッサによってロード及び実行される。

第５の態様によれば、コンピュータプログラム製品が提供される。コンピュータプログラム製品は、コンピュータプログラムコードを含み、コンピュータプログラムコードが端末で実行されるとき、端末は、第１の態様及び第１の態様のオプションの方法のいずれか１つで提供される音声対話方法を実行する。

第６の態様によれば、チップが提供される。チップは、チップがインストールされた端末が、第１の態様及び第１の態様のオプションの方法のいずれか１つで提供される音声対話方法を実行するように、メモリからメモリに記憶された命令を起動し、その命令を実行するように構成されたプロセッサを含む。

第７の態様によれば、別のチップが提供される。チップは、入力インターフェース、出力インターフェース、プロセッサ、及びメモリを含み、入力インターフェース、出力インターフェース、プロセッサ、及びメモリは、内部接続パスを介して接続され、プロセッサは、メモリ内のコードを実行するように構成され、コードが実行されるとき、プロセッサは、第１の態様及び第１の態様のオプションの方法のいずれか１つで提供される音声対話方法を実行するように構成される。

本出願の一実施形態による音声対話方法の実装環境の概略図である。

本出願の一実施形態による端末１００の概略構造図である。

本出願の一実施形態による端末１００の機能アーキテクチャ図である。

本出願の一実施形態による音声対話方法のフローチャートである。

本出願の一実施形態による音声対話システムのソフトウェアアーキテクチャ図である。

本出願の一実施形態による車載端末の概略構造図である。

本出願の一実施形態による音声対話装置の概略構造図である。

本出願の目的、技術的解決策、及び利点をより明確にするために、以下は、添付の図面を参照して、本出願の実施をさらに詳細に説明する。

以下は、本出願の用語を説明する。

サービスタイプは、サービスのタイプの集合的な用語であり、サービスフィールドとも呼ばれ得る。例えば、サービスタイプは、メッセージ閲覧、メッセージ処理、環境パラメータ調整、ナビゲーション、スケジュール相談、エアコン、ラジオ局、音楽、車両制御、走行距離照会、質疑応答相談、ゲーム、システム設定、車両制御、充電、メンテナンス、及びコミュニケーションを含み得る。メッセージ閲覧は、ショートメッセージサービスメッセージを閲覧すること、インスタントメッセージングアプリケーションのインスタントメッセージングメッセージを閲覧すること、及びリソース推薦アプリケーションのプッシュメッセージを閲覧することを含み得、メッセージ処理は、通話応答、メッセージ返信、トラブルシューティング、情報照会などを含み得る。環境パラメータ調整は、ダスト濃度調整、湿度調整、ライト調整、ノイズ強度調整、温度調整などを含み得る。

サービスは、特定の実行されることになるトランザクションである。例えば、メッセージ閲覧のサービスタイプのサービスは、ユーザＡによって送信されたセッションメッセージＸを閲覧すること、グループチャットに最近ポストされたグループ通知Ｙを閲覧すること、ショッピングアプリケーションによって本日ポストされた割引メッセージを閲覧することなどであり得る；環境パラメータ調整のサービスタイプのサービスは、エアコンを用いることによって温度を２５°に調整することであり得る；音楽のサービスタイプのサービスは、歌手Ｂの最新の歌Ｚを再生することであり得る；ナビゲーションのサービスタイプのサービスは、Ｃ市のＤ区内の道路ＥのセルＦへのナビゲーションを実行することであり得る；通話応答のサービスタイプのサービスは、発信者ＺＺの呼び出しに応答することであり得る；メッセージ返信のサービスタイプのサービスは、ショートメッセージサービスメッセージ「運転しているので後ほど連絡します」を用いて連絡先Ｇに返信することであり得る；ラジオ局のサービスタイプのサービスは、イーストラジオ局を開始することであり得る。

以下は実装環境の例示の説明を提供する。

図１は、本出願の一実施形態による音声対話方法の実装環境の概略図である。実装環境は、端末１００及び音声対話プラットフォーム２００を含む。

端末１００は、無線ネットワーク又は有線ネットワークを使用して音声対話プラットフォーム２００に接続される。端末１００は、スマートフォン、インテリジェントサウンドボックス、ロボット、インテリジェントカー、車載端末、ホームデバイス、ゲームホスト、デスクトップコンピュータ、タブレットコンピュータ、電子書籍リーダ、スマートテレビ、ＭＰ３（動画エキスパートグループオーディオレイヤＩＩＩ、moving picture experts group audio layer III）プレーヤ、又はＭＰ４（動画エキスパートグループオーディオレイヤＩＶ、moving picture experts group audio layer IV）プレーヤ、及びポータブルラップトップコンピュータの少なくとも１つであり得る。音声対話をサポートするアプリケーションが、端末１００上にインストールされ、実行される。アプリケーションは、音声アシスタント、インテリジェント質疑応答アプリケーションなどであり得る。例えば、端末１００は、ユーザによって使用される端末であり、ユーザカウントが、端末１００上で動作するアプリケーションにログインするために使用される。

音声対話プラットフォーム２００は、１つのサーバ、複数のサーバ、クラウドコンピューティングプラットフォーム、及び仮想化センターのうちの少なくとも１つを含む。音声対話プラットフォーム２００は、音声対話をサポートするアプリケーションのためのバックグラウンドサービスを提供するように構成される。例えば、音声対話プラットフォームは、以下の方法の実施形態で提供されるマッピング関係を確立し得、端末１００にマッピング関係を送信し得、その結果、端末１００はマッピング関係に基づいて音声対話を実行する。

オプションで、音声対話プラットフォーム２００は、音声対話サーバ２０１及びデータベース２０２を含む。音声対話サーバ２０１は、音声対話に関するバックグラウンドサービスを提供するように構成される。１つ又は複数の音声対話サーバ２０１があり得る。複数の音声対話サーバ２０１がある場合、少なくとも２つの音声対話サーバ２０１は、異なるサービスを提供するように構成される、及び／又は少なくとも２つの音声対話サーバ２０１は、同じサービスを提供するように、例えば、負荷分散を通じて同じサービスを提供するように構成される。これは、本出願のこの実施形態において限定されない。データベース２０２は、マッピング関係を記憶するように構成され得る。加えて、データベース２０２は、サンプルイベント及びサンプルサービスタイプを記憶し得、その結果、音声対話サーバ２０１は、サンプルイベント及びサンプルサービスタイプをデータベース２０２から読み取り、サンプルイベント及びサンプルサービスタイプに基づくトレーニングを通じて機械学習モデルを取得し、機械学習モデルを使用することによってマッピング関係を確立する。

端末１００は、複数の端末のうちの１つであり得る。この実施形態では、端末１００は、説明のための一例として単に使用される。当業者は、より多くの又はより少ない端末１００があり得ることを知ることができる。例えば、１つの端末１００があり得る、又は、数十個、数百個、若しくはより大きい量の端末１００があり、この場合、音声対話システムは、別の端末をさらに含む。端末１００の量及び端末１００のデバイスタイプは、本出願のこの実施形態において限定されない。

以下は、端末のハードウェア構造の例示の説明を提供する。

図２は、本出願の一実施形態による端末１００の概略構造図である。

端末１００は、プロセッサ１１０、外部メモリインターフェース１２０、内部メモリ１２１、ユニバーサルシリアルバス（universal serial bus、ＵＳＢ）インターフェース１３０、充電管理モジュール１４０、電力管理モジュール１４１、バッテリ１４２、アンテナ１、アンテナ２、移動通信モジュール１５０、無線通信モジュール１６０、オーディオモジュール１７０、スピーカ１７０Ａ、電話受信機１７０Ｂ、マイクロホン１７０Ｃ、ヘッドセットジャック１７０Ｄ、センサモジュール１８０、キー１９０、モータ１９１、インジケータ１９２、カメラ１９３、ディスプレイ１９４、及び加入者識別モジュール（subscriber identification module、ＳＩＭ）カードインターフェース１９５を含み得る。センサモジュール１８０は、圧力センサ１８０Ａ、ジャイロスコープセンサ１８０Ｂ、気圧センサ１８０Ｃ、磁気センサ１８０Ｄ、加速度センサ１８０Ｅ、距離センサ１８０Ｆ、光学近接センサ１８０Ｇ、指紋センサ１８０Ｈ、温度センサ１８０Ｊ、タッチセンサ１８０Ｋ、周辺光センサ１８０Ｌ、骨伝導センサ１８０Ｍなどを含み得る。

本出願のこの実施形態に示される構造は、端末１００に対する特定の限定を構成しないことが理解されるであろう。この出願の他の実施形態では、端末１００は、図に示されているものよりも多い又は少ないコンポーネントを含んでもよく、或いは、いくつかのコンポーネントを組み合わせてもよく、或いは、いくつかのコンポーネントを分割してもよく、或いは、異なるコンポーネント配置を有してもよい。図に示されるコンポーネントは、ハードウェア、ソフトウェア、又はソフトウェア及びハードウェアの組み合わせを使用することによって実装され得る。

プロセッサ１１０は、１つ又は複数の処理ユニットを含み得る。例えば、プロセッサ１１０は、アプリケーションプロセッサ（application processor、ＡＰ）、モデムプロセッサ、グラフィックス処理ユニット（graphics processing unit、ＧＰＵ）、画像信号プロセッサ（image signal processor、ＩＳＰ）、コントローラ、ビデオコーデック、デジタル信号プロセッサ（digital signal processor、ＤＳＰ）、ベースバンドプロセッサ、及び／又はニューラルネットワーク処理ユニット（neural-network processing unit、ＮＰＵ）を含み得る。異なる処理ユニットは、スタンドアロンコンポーネントであってもよく、又は１つ又は複数のプロセッサに統合されてもよい。

コントローラは、命令フェッチ及び命令実行制御を完了するために、命令動作コード及びタイミング信号に基づいて動作制御信号を生成し得る。

メモリが、さらに、プロセッサ１１０内に配置され得、命令及びデータを記憶するように構成される。いくつかの実施形態では、プロセッサ１１０のメモリはキャッシュメモリであり、メモリは、プロセッサ１１０によって単に使用される又は周期的に使用される命令又はデータを記憶し得る。プロセッサ１１０が命令又はデータを再度使用する必要がある場合、プロセッサ１１０は、メモリから命令又はデータを直接呼び出し得る。従って、繰り返されるアクセスが回避され、プロセッサ１１０の待ち時間が短縮され、それによってシステムの効率が向上する。

いくつかの実施形態では、プロセッサ１１０は、１つ又は複数のインターフェースを含み得る。インターフェースは、集積回路間（inter-integrated circuit、Ｉ２Ｃ）インターフェース、集積回路間サウンド（inter-integrated circuit sound、Ｉ２Ｓ）インターフェース、パルスコード変調（pulse code modulation、ＰＣＭ）インターフェース、ユニバーサル非同期受信機／送信機（universal asynchronous receiver/transmitter、ＵＡＲＴ）インターフェース、モバイルインダストリプロセッサインターフェース（mobile industry processor interface、ＭＩＰＩ）、汎用入出力（general-purpose input/output、ＧＰＩＯ）インターフェース、加入者識別モジュール（subscriber identity module、ＳＩＭ）インターフェース、ユニバーサルシリアルバス（universal serial bus、ＵＳＢ）インターフェース等を含み得る。

Ｉ２Ｃインターフェースは、双方向同期シリアルバスであり、シリアルデータライン（serial data line、ＳＤＡ）及びシリアルクロックライン（serial clock line、ＳＣＬ）を含む。いくつかの実施形態では、プロセッサ１１０は、Ｉ２Ｃバスの複数のグループを含み得る。プロセッサ１１０は、異なるＩ２Ｃバスインターフェースを使用することによって、タッチセンサ１８０Ｋ、充電器、フラッシュ、カメラ１９３などに結合され得る。例えば、プロセッサ１１０は、Ｉ２Ｃインターフェースを使用することによってタッチセンサ１８０Ｋに結合され得、その結果、プロセッサ１１０は、端末１００のタッチ機能を実装するために、Ｉ２Ｃバスインターフェースを介してタッチセンサ１８０Ｋと通信し得る。

Ｉ２Ｓインターフェースはオーディオ通信に使用され得る。いくつかの実施形態では、プロセッサ１１０は、Ｉ２Ｓバスの複数のグループを含み得る。プロセッサ１１０は、プロセッサ１１０とオーディオモジュール１７０との間の通信を実装するために、Ｉ２Ｓバスを使用することによってオーディオモジュール１７０に結合され得る。いくつかの実施形態では、オーディオモジュール１７０は、Ｂｌｕｅｔｏｏｔｈ（ブルートゥース）（登録商標）ヘッドセットを使用して通話に応答する機能を実装するために、Ｉ２Ｓインターフェースを通じてオーディオ信号を無線通信モジュール１６０に送信し得る。

ＰＣＭインターフェースはまた、アナログ信号のサンプリング、量子化、及びコーディングを実行するためにオーディオ通信に使用され得る。いくつかの実施形態では、オーディオモジュール１７０は、ＰＣＭバスインターフェースを使用することによって無線通信モジュール１６０に結合され得る。いくつかの実施形態では、オーディオモジュール１７０はまた、Ｂｌｕｅｔｏｏｔｈヘッドセットを使用して通話に応答する機能を実装するために、ＰＣＭインターフェースを通じて無線通信モジュール１６０にオーディオ信号を送信し得る。Ｉ２Ｓインターフェース及びＰＣＭインターフェースの両方はオーディオ通信に使用され得る。

ＵＡＲＴインターフェースは汎用シリアルデータバスであり、非同期通信に使用される。バスは、双方向通信バスであり得る。ＵＡＲＴインターフェースは、シリアル通信とパラレル通信との間で送信されることになるデータを変換する。いくつかの実施形態では、ＵＡＲＴインターフェースは、通常、プロセッサ１１０と無線通信モジュール１６０とを接続するように構成される。例えば、プロセッサ１１０は、Ｂｌｕｅｔｏｏｔｈ機能を実装するために、ＵＡＲＴインターフェースを通じて無線通信モジュール１６０内のＢｌｕｅｔｏｏｔｈモジュールと通信する。いくつかの実施形態では、オーディオモジュール１７０は、Ｂｌｕｅｔｏｏｔｈヘッドセットを使用して音楽を再生する機能を実装するために、ＵＡＲＴインターフェースを通じてオーディオ信号を無線通信モジュール１６０に送信し得る。

ＭＩＰＩインターフェースは、プロセッサ１１０と、ディスプレイ１９４又はカメラ１９３などの周辺コンポーネントとを接続するように構成され得る。ＭＩＰＩインターフェースは、カメラシリアルインターフェース（camera serial interface、ＣＳＩ）、ディスプレイシリアルインターフェース（display serial interface、ＤＳＩ）などを含む。いくつかの実施形態では、プロセッサ１１０は、端末１００の写真撮影機能を実装するために、ＣＳＩインターフェースを通じてカメラ１９３と通信する。プロセッサ１１０は、端末１００の表示機能を実現するために、ＤＳＩインターフェースを通じてディスプレイ１９４と通信する。

ＧＰＩＯインターフェースは、ソフトウェアを使用することによって設定され得る。ＧＰＩＯインターフェースは、制御信号として構成され得る、又はデータ信号として構成され得る。いくつかの実施形態では、ＧＰＩＯインターフェースは、プロセッサ１１０と、カメラ１９３、ディスプレイ１９４、無線通信モジュール１６０、オーディオモジュール１７０、センサモジュール１８０などを接続するように構成され得る。代替的には、ＧＰＩＯインターフェースは、Ｉ２Ｃインターフェース、Ｉ２Ｓインターフェース、ＵＡＲＴインターフェース、ＭＩＰＩインターフェースなどとして構成され得る。

ＵＳＢインターフェース１３０は、ＵＳＢ規格に準拠したインターフェースであり、特に、ミニＵＳＢインターフェース、マイクロＵＳＢインターフェース、ＵＳＢタイプＣインターフェースなどであり得る。ＵＳＢインターフェース１３０は、端末１００を充電するための充電器に接続するように構成され得、また、端末１００と周辺デバイスとの間でデータを送信するように構成され得る。ＵＳＢインターフェース１３０はまた、ヘッドセットを使用することによってオーディオを再生するためにヘッドセットに接続するように構成され得る。インターフェースは、ＡＲデバイスなどの別の端末に接続するようにさらに構成され得る。

本出願のこの実施形態で示されるモジュール間のインターフェース接続関係は、単なる概略説明であり、端末１００の構造的限定を構成しないことが理解されよう。代替的に、本出願の他の実施形態では、端末１００は、前述の実施形態とは異なるインターフェース接続方法、又は複数のインターフェース接続方法の組み合わせを使用し得る。

充電管理モジュール１４０は、充電器からの充電入力を受けるように構成される。充電器は無線充電器であり得る、又は有線充電器であり得る。有線充電のいくつかの実施形態では、充電管理モジュール１４０は、ＵＳＢインターフェース１３０を通じて有線充電器からの充電入力を受け得る。無線充電のいくつかの実施形態では、充電管理モジュール１４０は、端末１００の無線充電コイルを通じて無線充電入力を受け得る。バッテリ１４２を充電するとき、充電管理モジュール１４０は、電力管理モジュール１４１を使用することによって端末に電力をさらに供給し得る。

電力管理モジュール１４１は、バッテリ１４２、充電管理モジュール１４０、及びプロセッサ１１０に接続するように構成される。電力管理モジュール１４１は、バッテリ１４２及び／又は充電管理モジュール１４０から入力を受け、プロセッサ１１０、内部メモリ１２１、ディスプレイ１９４、カメラ１９３、無線通信モジュール１６０などに電力を供給する。電力管理モジュール１４１は、さらに、バッテリ容量、バッテリサイクルの量、及びバッテリの健全性状態（リーク又はインピーダンス）などのパラメータを監視するように構成され得る。他の実施形態では、電力管理モジュール１４１はまた、プロセッサ１１０内に配置され得る。他の実施形態では、電力管理モジュール１４１及び充電管理モジュール１４０は、同じコンポーネント内に配置され得る。

端末１００の無線通信機能は、アンテナ１、アンテナ２、移動通信モジュール１５０、無線通信モジュール１６０、モデムプロセッサ、ベースバンドプロセッサなどを使用することによって実装され得る。

アンテナ１及びアンテナ２は、電磁波信号を送受信するように構成される。端末１００の各アンテナは、１つ又は複数の通信周波数帯域をカバーするように構成され得る。異なるアンテナが、アンテナ利用率を向上させるために多重化され得る。例えば、アンテナ１は、無線ローカルエリアネットワークのダイバーシティアンテナに多重化され得る。他の実施形態では、アンテナは、同調スイッチと組み合わせて使用され得る。

移動通信モジュール１５０は、端末１００に適用され、２Ｇ／３Ｇ／４Ｇ／５Ｇなどの無線通信を含む解決策を提供し得る。移動通信モジュール１５０は、少なくとも１つのフィルタ、スイッチ、電力増幅器、低ノイズ増幅器（low noise amplifier、ＬＮＡ）などを含み得る。移動通信モジュール１５０は、アンテナ１を使用することによって電磁波を受信し得、受信した電磁波に対するフィルタリング及び増幅などの処理を実行し得、処理後に得られた電磁波を復調のためにモデムプロセッサに送信し得る。移動通信モジュール１５０はさらに、モデムプロセッサによる変調後に得られた信号を増幅し得、その信号を電磁波に変換し得、アンテナ１を使用することによって電磁波を放射し得る。いくつかの実施形態では、移動通信モジュール１５０の少なくともいくつかの機能モジュールは、プロセッサ１１０に配置され得る。いくつかの実施形態では、移動通信モジュール１５０の少なくともいくつかの機能モジュールは、プロセッサ１１０の少なくともいくつかのモジュールと同じコンポーネントに配置され得る。

モデムプロセッサは、変調器及び復調器を含み得る。変調器は、送信されることになる低周波ベースバンド信号を中間高周波信号に変調するように構成される。復調器は、受信した電磁波信号を低周波ベースバンド信号に復調するように構成される。次に、復調器は、復調によって得られた低周波ベースバンド信号を処理のためにベースバンドプロセッサに送信する。ベースバンドプロセッサによって処理された後、低周波ベースバンド信号はアプリケーションプロセッサに送信される。アプリケーションプロセッサは、オーディオデバイス（スピーカ１７０Ａ、電話受信機１７０Ｂなどに限定されない）を使用することによって音響信号を出力する、又は、ディスプレイ１９４を使用することによって画像又はビデオを表示する。いくつかの実施形態では、モデムプロセッサは、スタンドアロンコンポーネントであり得る。他の実施形態では、モデムプロセッサは、プロセッサ１１０から独立し得、移動通信モジュール１５０又は他の機能モジュールと同じコンポーネントに配置され得る。

無線通信モジュール１６０は、端末１００に適用され、無線ローカルエリアネットワーク（wireless local area networks、ＷＬＡＮ）（例えば、ワイヤレスフィデリティ（wireless fidelity、Wi-Fi）ネットワーク）、Ｂｌｕｅｔｏｏｔｈ（ブルートゥース、ＢＴ）、グローバルナビゲーション衛星システム（global navigation satellite system、ＧＮＳＳ）、周波数変調（frequency modulation、ＦＭ）、近距離無線通信（near field communication、ＮＦＣ）、及び赤外（infrared、ＩＲ）技術などの無線通信を含む解決策を提供し得る。無線通信モジュール１６０は、少なくとも１つの通信処理モジュールと一体化された１つ又は複数のコンポーネントであり得る。無線通信モジュール１６０は、アンテナ２を使用することによって電磁波を受信し、電磁波信号に対して周波数変調及びフィルタ処理を実行し、処理後に得られた信号をプロセッサ１１０に送信する。無線通信モジュール１６０は、さらに、プロセッサ１１０から送信されることになる信号を受信し得、送信されることになる信号に対して周波数変調及び増幅を実行し得、信号を電磁波に変換し得、アンテナ２を使用することによって電磁波を放射し得る。

いくつかの実施形態では、端末１００のアンテナ１は移動通信モジュール１５０に結合され、アンテナ２は無線通信モジュール１６０に結合され、その結果、端末１００は、無線通信技術を使用することによって、ネットワーク及び他のデバイスと通信することができる。無線通信技術は、移動体通信のためのグローバルシステム（global system for mobile communications、ＧＳＭ）、汎用パケット無線サービス（general packet radio service、ＧＰＲＳ）、符号分割多元接続（code division multiple access、ＣＤＭＡ）、広帯域符号分割多元接続（wideband code division multiple access、ＷＣＤＭＡ）、時分割符号分割多元接続（time-division code division multiple access、ＴＤ－ＳＣＤＭＡ）、ロングタームエボリューション（long term evolution、ＬＴＥ）、ＢＴ、ＧＮＳＳ、ＷＬＡＮ、ＮＦＣ、ＦＭ、ＩＲ技術などを含み得る。ＧＮＳＳは、全地球測位システム（global positioning system、ＧＰＳ）、全地球ナビゲーション衛星システム（global navigation satellite system、ＧＬＯＮＡＳＳ）、北斗ナビゲーション衛星システム（beidou navigation satellite system、ＢＤＳ）、準天頂衛星システム（quasi-zenith satellite system、ＱＺＳＳ）、及び／又は衛星ベースの増強システム（satellite based augmentation system、ＳＢＡＳ）を含み得る。

端末１００は、ＧＰＵ、ディスプレイ１９４、アプリケーションプロセッサ等を使用することによってディスプレイ機能を実装する。ＧＰＵは画像処理のためのマイクロプロセッサであり、ディスプレイ１９４及びアプリケーションプロセッサに接続される。ＧＰＵは、グラフィックスレンダリングのための数学的及び幾何学的計算を実行するように構成される。プロセッサ１１０は、表示情報を生成又は変更するようにプログラム命令を実行する１つ又は複数のＧＰＵを含み得る。

ディスプレイ１９４は、画像、ビデオ等を表示するように構成される。ディスプレイ１９４は、ディスプレイパネルを含む。表示パネルは、液晶ディスプレイ（liquid crystal display、ＬＣＤ）、有機発光ダイオード（organic light-emitting diode、ＯＬＥＤ）、アクティブマトリックス有機発光ダイオード（active-matrix organic light emitting diode、ＡＭＯＬＥＤ）、フレキシブル発光ダイオード（flex light-emitting diode、ＦＬＥＤ）、ミニＬＥＤ、マイクロＬＥＤ、マイクロＯＬＥＤ、量子ドット発光ダイオード（quantum dot light emitting diodes、ＱＬＥＤ）などを使用し得る。いくつかの実施形態では、端末１００は、１つ又はＮ個のディスプレイ１９４を含み得、ここで、Ｎは、1より大きい正の整数である。

端末１００は、ＩＳＰ、カメラ１９３、ビデオコーデック、ＧＰＵ、ディスプレイ１９４、アプリケーションプロセッサなどを使用することによって、撮影機能を実装し得る。

ＩＳＰは、カメラ１９３によってフィードバックされたデータを処理するように構成される。例えば、撮影の間、シャッターが開かれ、光がレンズを使用することによってカメラ感光素子に伝達され、光信号が電気信号に変換され、カメラ感光素子は処理のためにＩＳＰに電気信号を送信し、その結果、電気信号は、肉眼で見ることができる画像に変換される。ＩＳＰはさらに、画像のノイズ、輝度、及びスキンカラーに関してアルゴリズム最適化を実行し得る。ＩＳＰはさらに、撮影シーンの露光及び色温度などのパラメータを最適化し得る。いくつかの実施形態では、ＩＳＰは、カメラ１９３に配置され得る。

カメラ１９３は、静止画又はビデオをキャプチャするように構成される。物体の光学画像が、レンズを使用することによって生成され、感光素子上に投影される。感光素子は、電荷結合素子（charge coupled device、ＣＣＤ）又は相補型金属－酸化物－半導体（complementary metal-oxide-semiconductor、ＣＭＯＳ）フォトトランジスタであり得る。感光素子は、光信号を電気信号に変換し、その後、電気信号をデジタル画像信号に変換するために、電気信号をＩＳＰに送信する。ＩＳＰは、デジタル画像信号を処理のためにＤＳＰに出力する。ＤＳＰは、デジタル画像信号をＲＧＢ又はＹＵＶなどの標準フォーマットの画像信号に変換する。いくつかの実施形態では、端末１００は、１つ又はＮ個のカメラ１９３を含み得、ここで、Ｎは、１より大きい正の整数である。

デジタル信号プロセッサは、デジタル信号を処理するように構成される。デジタル画像信号に加えて、デジタル信号プロセッサは、別のデジタル信号を処理し得る。例えば、端末１００が周波数を選択するとき、デジタル信号プロセッサは、周波数エネルギに対してフーリエ変換などを実行するように構成される。

ビデオコーデックは、デジタルビデオを圧縮又は解凍するように構成される。端末１００は、１つ又は複数のビデオコーデックをサポートし得る。この場合、端末１００は、複数のエンコーディングフォーマット、例えば、動画専門家グループ（moving picture experts group、ＭＰＥＧ）－１、ＭＰＥＧ－２、ＭＰＥＧ－３、及びＭＰＥＧ－４でビデオを再生又は記録し得る。

ＮＰＵは、ニューラルネットワーク（neural-network、ＮＮ）コンピューティングプロセッサである。生体ニューラルネットワーク構造を使用することによって、例えば、ヒト脳ニューロン間の伝達モードを使用することによって、ＮＰＵは、入力情報を迅速に処理し、さらに、自己学習を継続的に実行し得る。端末１００のインテリジェント認識のアプリケーション、例えば、画像認識、顔認識、音声認識、テキスト理解は、ＮＰＵを使用することによって実装され得る。

外部メモリインターフェース１２０は、端末１００の記憶能力を拡張するために、マイクロＳＤカードなどの外部記憶カードに接続するように構成され得る。外部記憶カードは、データ記憶機能を実装するために、外部記憶インターフェース１２０を通じてプロセッサ１１０と通信する。例えば、音楽又はビデオなどのファイルが外部記憶カードに記憶される。

内部メモリ１２１は、コンピュータ実行可能プログラムコードを記憶するように構成され得る。実行可能プログラムコードは命令を含む。内部メモリ１２１は、プログラム記憶領域及びデータ記憶領域を含み得る。プログラム記憶領域は、オペレーティングシステム、少なくとも１つの機能（例えば、音声再生機能又は画像再生機能）によって必要とされるアプリケーションなどを記憶し得る。データ記憶領域は、端末１００を使用するプロセスで作成されたデータ（例えば、オーディオデータ又はアドレス帳）などを記憶し得る。加えて、内部メモリ１２１は、高速ランダムアクセスメモリを含み得る、又は少なくとも１つの磁気ディスク記憶コンポーネント、フラッシュメモリコンポーネント、又はユニバーサルフラッシュ記憶装置（universal flash storage、ＵＦＳ）などの不揮発性メモリを含み得る。プロセッサ１１０は、内部メモリ１２１に記憶された命令及び／又はプロセッサに配置されたメモリに記憶された命令を実行することによって、端末１００の様々な機能アプリケーション及びデータ処理を実行する。

端末１００は、オーディオモジュール１７０、スピーカ１７０Ａ、電話受信機１７０Ｂ、マイクロホン１７０Ｃ、ヘッドセットジャック１７０Ｄ、アプリケーションプロセッサなどを使用することによって、音楽再生又は録音などのオーディオ機能を実装し得る。

オーディオモジュール１７０は、デジタルオーディオ情報をアナログオーディオ信号出力に変換するように構成され、アナログオーディオ入力をデジタルオーディオ信号に変換するように構成される。オーディオモジュール１７０は、さらに、オーディオ信号をエンコード及びデコードするように構成され得る。いくつかの実施形態では、オーディオモジュール１７０は、プロセッサ１１０に配置され得る、又は、オーディオモジュール１７０のいくつかの機能モジュールは、プロセッサ１１０に配置され得る。

スピーカ１７０Ａは、「ホーン」とも呼ばれ、オーディオ電気信号を音響信号に変換するように構成される。端末１００は、スピーカ１７０Ａを使用することによって、音楽を聞く又はハンズフリー通話を聞き得る。

「イヤピース」とも呼ばれる電話受信機１７０Ｂは、オーディオ電気信号を音響信号に変換するように構成される。通話又は音声情報を聞くとき、端末１００は、電話受信機１７０Ｂを耳の近くに置くことによって音声を聞き得る。

マイクロホン１７０Ｃは、音響信号を電気信号に変換するように構成される。通話を行う又は音声情報を送信するとき、ユーザは、口をマイクロホン１７０Ｃに近づけることによって音声を発し得、マイクロホン１７０Ｃに音響信号を入力し得る。少なくとも１つのマイクロホン１７０Ｃが、端末１００に配置され得る。他の実施形態では、２つのマイクロホン１７０Ｃが、音響信号を収集することに加えて、ノイズ除去機能を実装するために、端末１００に配置され得る。他の実施形態では、３つ、４つ、又はそれより多くのマイクロホン１７０Ｃが、音響信号を収集し、ノイズ除去を実行し、音源を識別し、方向記録機能を実装するなどのために、端末１００に配置され得る。

ヘッドセットジャック１７０Ｄは、有線ヘッドセットに接続するように構成される。ヘッドセットジャック１７０Ｄは、ＵＳＢインターフェース１３０、３．５ｍｍオープンモバイル端末プラットフォーム（open mobile terminal platform、ＯＭＴＰ）標準インターフェース、又は米国のセルラー電気通信工業会（cellular telecommunications industry association of the USA、ＣＴＩＡ）標準インターフェースであり得る。

圧力センサ１８０Ａは、圧力信号を感知するように構成され、圧力信号を電気信号に変換し得る。いくつかの実施形態では、圧力センサ１８０Ａは、ディスプレイ１９４に配置され得る。多くのタイプの圧力センサ１８０Ａ、例えば、抵抗圧力センサ、誘導圧力センサ、及び容量性圧力センサがある。容量性圧力センサは、導電性材料を有する少なくとも２つの平行なプレートを含み得る。圧力センサ１８０Ａに力が作用するとき、電極間の静電容量が変化する。端末１００は、静電容量の変化に基づいて圧力強度を決定する。タッチ操作がディスプレイ１９４上で実行されるとき、端末１００は、圧力センサ１８０Ａに基づいてタッチ操作の強さを検出する。端末１００はまた、検出された圧力センサ１８０Ａの信号に基づいてタッチ位置を計算し得る。いくつかの実施形態では、同じタッチ位置で実行されるが、異なるタッチ操作強度を有するタッチ操作は、異なる操作命令に対応し得る。例えば、ショートメッセージサービスメッセージアプリケーションアイコンに対して、タッチ操作強度が第１の圧力閾値未満であるタッチ操作が実行されるとき、ショートメッセージサービスメッセージを閲覧するための命令が実行される；又は、ショートメッセージサービスメッセージアプリケーションアイコンに対して、タッチ操作強度が第１の圧力閾値以上のタッチ操作が実行されるとき、ショートメッセージサービスメッセージを新規に作成するための命令が実行される。

ジャイロスコープセンサ１８０Ｂは、端末１００の運動姿勢（motion posture）を決定するように構成され得る。いくつかの実施形態では、３つの軸（すなわち、ｘ、ｙ、及びｚ軸）上の端末１００の角速度が、ジャイロスコープセンサ１８０Ｂを使用することによって決定され得る。ジャイロスコープセンサ１８０Ｂは、撮影安定化のために使用され得る。例えば、シャッターが押されるとき、ジャイロスコープセンサ１８０Ｂは、端末１００のジッタ角度を検出し、その角度に基づいて、レンズモジュールによって補償される必要のある距離を計算し、その結果、レンズは、逆の動き（reverse motion）を通じて端末１００のジッタを除去し、それによって、安定化を実装する。ジャイロスコープセンサ１８０Ｂは、さらに、ナビゲーション及び体性感覚ゲームのシナリオのために使用され得る。

気圧センサ１８０Ｃは、気圧を測定するように構成される。いくつかの実施形態では、端末１００は、位置決め及びナビゲーションを支援するために、測定を通じて気圧センサ１８０Ｃによって取得される気圧値を使用することによって高度を計算する。

磁気センサ１８０Ｄは、ホール効果センサを含む。端末１００は、磁気センサ１８０Ｄを使用することによって、フリップレザーケースの開閉を検出し得る。いくつかの実施形態では、端末１００がフリップ電話である場合、端末１００は、磁気センサ１８０Ｄに基づいてフリップカバーの開閉を検出し得る。さらに、フリップオープンの場合の自動ロック解除などの機能が、レザーケース又はフリップカバーの検出された開／閉状態に基づいて設定される。

加速度センサ１８０Ｅは、各方向（通常は３軸）における端末１００の加速度の値を検出し得る。端末１００が静止しているとき、加速度センサ１８０Ｅは、重力の値及び方向を検出し得る。加速度センサ１８０Ｅは、さらに、端末の姿勢を識別するように構成され得、横向きモードと縦向きモードとの間のスクリーン切り替え及び歩数計などのアプリケーションに適用される。

距離センサ１８０Ｆは、距離を測定するように構成される。端末１００は、赤外線又はレーザーを使用することによって距離を測定し得る。いくつかの実施形態では、撮影シナリオにおいて、端末１００は、高速焦点合わせを実装するために、距離センサ１８０Ｆを使用することによって距離を測定し得る。

光学近接センサ１８０Ｇは、例えば、発光ダイオード（ＬＥＤ）と、フォトダイオードのような光学検出器とを含み得る。発光ダイオードは赤外線発光ダイオードであり得る。端末１００は、発光ダイオードを使用することによって赤外線を放射する。端末１００は、フォトダイオードを使用することによって、近くの物体から来る反射された赤外線を検出する。十分な反射光が検出されるとき、端末１００の近くに物体があると決定され得る。不十分な反射光が検出される場合、端末１００は、物体が端末１００の近くにないと決定し得る。端末１００は、光学近接センサ１８０Ｇを使用することによって、ユーザによって保持される端末１００が通話のために耳の近くにあることを検出して、電力を節約するためにスクリーンを自動的にオフにし得る。光学近接センサ１８０Ｇはまた、自動的なロック解除及びロックのためにレザーケースモード及びポケットモードで使用され得る。

周辺光センサ１８０Ｌは、辺囲光輝度を感知するように構成される。端末１００は、感知された周辺光輝度に基づいてディスプレイ１９４の輝度を適応的に調整し得る。周辺光センサ１８０Ｌはまた、撮影中にホワイトバランスを自動的に調整するように構成され得る。周辺光センサ１８０Ｌは、さらに、端末１００がポケットにあるかどうかを検出するために光学近接センサ１８０Ｇと協働し得、それによって、誤ったタッチを回避する。

指紋センサ１８０Ｈは、指紋を収集するように構成される。端末１００は、収集された指紋機能を使用することによって、指紋ロック解除、アプリケーションロックアクセス、指紋撮影、指紋ベースの通話応答などを実装し得る。

温度センサ１８０Ｊは、温度を検出するように構成される。いくつかの実施形態では、端末１００は、温度センサ１８０Ｊによって検出される温度を使用することによって温度処理方針を実行する。例えば、温度センサ１８０Ｊによって報告された温度が閾値を超えるとき、端末１００は、電力消費を低減し、熱保護を実現するために、温度センサ１８０Ｊ近くのプロセッサのパフォーマンスを低下させる。他の実施形態では、温度が別の閾値未満であるとき、端末１００は、低温によって引き起こされる端末１００の異常なシャットダウンを回避するために、バッテリ１４２を加熱する。他の実施形態では、温度がさらに別の閾値未満である場合、端末１００は、低温によって引き起こされる異常なシャットダウンを回避するために、バッテリ１４２の出力電圧をブーストする。

タッチセンサ１８０Ｋは、「タッチコンポーネント」とも呼ばれる。タッチセンサ１８０Ｋは、ディスプレイ１９４に配置され得る。タッチスクリーンは、タッチセンサ１８０Ｋ及びディスプレイ１９４を含む。タッチセンサ１８０Ｋは、タッチセンサ１８０Ｋ上又はその近くで実行されるタッチ操作を検出するように構成される。タッチセンサは、タッチイベントタイプを判定するために、検出されたタッチ操作をアプリケーションプロセッサに送信し得る。タッチ操作に関連する視覚出力は、ディスプレイ１９４を使用することによって提供され得る。他の実施形態では、タッチセンサ１８０Ｋは、端末１００の表面上に配置され得、ディスプレイ１９４の表面とは異なる位置に配置される。

骨伝導センサ１８０Ｍは、振動信号を取得し得る。いくつかの実施形態では、骨伝導センサ１８０Ｍは、ヒトの音響振動骨ブロックの振動信号を取得し得る。骨伝導センサ１８０Ｍはまた、血圧ビート信号を受信するために、人間の脈と接触し得る。いくつかの実施形態では、骨伝導センサ１８０Ｍはまた、骨伝導ヘッドセットを形成するためにヘッドセットに配置され得る。オーディオモジュール１７０は、音声機能を実装するために、音響振動骨ブロックの振動信号であり及び骨伝導センサ１８０Ｍによって取得される振動信号に基づく解析を通じて音声命令を取得し得る。アプリケーションプロセッサは、心拍数検出機能を実装するために、骨伝導センサ１８０Ｍによって取得された血圧ビート信号に基づく解析を通じて心拍数情報を取得し得る。

キー１９０は、電源オンキー、ボリュームキー等を含む。キー１９０は、機械的キーであり得る、又はタッチキーであり得る。端末１００は、端末１００のユーザ設定及び機能制御に関連するキー信号入力を生成するためにキー入力を受信し得る。

モータ１９１は、振動プロンプトを生成し得る。モータ１９１は、通話振動プロンプトのために使用され得る、又は、タッチ振動フィードバックのために使用され得る。例えば、異なるアプリケーション（例えば、撮影及びオーディオ再生）に対して実行されるタッチ操作は、異なる振動フィードバック効果に対応し得る。モータ１９１はまた、タッチ操作がディスプレイ１９４の異なる領域で実行されるとき、異なる振動フィードバック効果に対応し得る。異なる応用シナリオ（例えば、時間リマインダ、情報受信、目覚まし時計、及びゲーム）もまた、異なる振動フィードバック効果に対応し得る。タッチ振動フィードバック効果は、さらにカスタマイズされ得る。

インジケータ１９２は、インジケータランプであり得、充電状態及び電源変更を示すように構成され得、またメッセージ、不在着信、通知などを示すために使用され得る。

ＳＩＭカードインターフェース１９５は、ＳＩＭカードに接続するように構成される。ＳＩＭカードは、端末１００との接触及び端末１００からの分離を実装するために、ＳＩＭカードインターフェース１９５に挿入され得る又はＳＩＭカードインターフェース１９５から取り外され得る。端末１００は、１つ又はＮ個のＳＩＭカードインターフェースをサポートし得、Ｎは１より大きい正の整数である。ＳＩＭカードインターフェース１９５は、ナノＳＩＭカード、マイクロＳＩＭカード、ＳＩＭカードなどをサポートし得る。複数のカードが同じＳＩＭカードインターフェース１９５に挿入され得る。複数のカードは、同じタイプ又は異なるタイプのものであり得る。ＳＩＭカードインターフェース１９５はまた、異なるタイプのＳＩＭカードと互換性があり得る。ＳＩＭカードインターフェース１９５はまた、外部記憶カードと互換性があり得る。端末１００は、通話及びデータ通信などの機能を実装するために、ＳＩＭカードを使用することによってネットワークと相互作用する。いくつかの実施態様では、端末１００は、ｅＳＩＭカード、すなわち、埋め込みＳＩＭカードを使用する。ｅＳＩＭカードは、端末１００に埋め込まれ得、端末１００から分離することはできない。端末１００のソフトウェアシステムは、階層アーキテクチャ、イベント駆動アーキテクチャ、マイクロカーネルアーキテクチャ、マイクロサービスアーキテクチャ、又はクラウドアーキテクチャを使用し得る。

階層アーキテクチャのアンドロイド（Android）システムが、端末１００のソフトウェア構造を記述するために例として使用される。

図３は、本出願の一実施形態による端末１００の機能アーキテクチャ図である。

階層アーキテクチャでは、ソフトウェアはいくつかの層を含む。各層は明確な役割と機能を有する。これらの層は、ソフトウェアインターフェースを通じて互いに通信する。いくつかの実施態様では、アンドロイドシステムは、上から下に４つの層：アプリケーション層、アプリケーションフレームワーク層、アンドロイドランタイム（Android runtime）及びシステムライブラリ、並びにカーネル層に分割される。

アプリケーション層は、一連のアプリケーションパッケージを含み得る。

図３に示すように、アプリケーションパッケージは、カメラ、アルバム、カレンダ、電話、マップ、ナビゲーション、ＷＬＡＮ、ブルートゥース、音楽、ビデオ、及びメッセージなどのアプリケーションを含み得る。

アプリケーションフレームワーク層は、アプリケーションプログラミングインターフェース（application programming interface、ＡＰＩ）と、アプリケーション層におけるアプリケーションのためのプログラミングフレームワークを提供する。アプリケーションフレームワーク層は、いくつかの定義済みの機能を含む。

図３に示すように、アプリケーションフレームワーク層は、ウィンドウマネージャ、コンテンツプロバイダ、ビューシステム、電話マネージャ、リソースマネージャ、通知マネージャなどを含み得る。

ウィンドウマネージャは、ウィンドウプログラムを管理するために使用される。ウィンドウマネージャは、画面サイズを取得し、ステータスバーがあるかどうかを決定し、画面をロックし、画面をキャプチャするなどを行い得る。

コンテンツプロバイダは、データを記憶し、取得し、そのデータをアプリケーションがアクセスできるようにするために使用される。データは、ビデオ、画像、オーディオ、発信及び受信される通話、閲覧履歴、ブックマーク、アドレス帳などを含み得る。

ビューシステムは、テキストを表示するための制御及び画像を表示するための制御などの視覚的制御を含む。ビューシステムは、アプリケーションを構築するために使用され得る。ディスプレイインターフェースは、１つ又は複数のビューを含み得る。例えば、ショートメッセージサービスメッセージ通知アイコンを含む表示インターフェースは、テキストを表示するためのビューと、画像を表示するためのビューとを含み得る。

電話マネージャは、端末１００の通信機能、例えば、通話状態管理（接続、ハングアップ等を含む）を提供するために使用される。

リソースマネージャは、アプリケーションのためのローカライズされた文字列、アイコン、ピクチャ、レイアウトファイル、及びビデオファイルなどのさまざまなリソースを提供する。

通知マネージャは、アプリケーションが通知情報をステータスバーに表示することを可能にし、通知タイプのメッセージを伝達するために使用され得る。メッセージは、ユーザインタラクションなしに、短い滞在の後に自動的に消滅し得る。例えば、通知マネージャは、ダウンロード完了、メッセージリマインダ等を通知するために使用される。通知マネージャはまた、チャート又はスクロールバーのテキストの形式でシステムの上部のステータスバーに現れる通知、例えば、バックグラウンドで実行中のアプリケーションの通知であり得る、又は画面上のダイアログウィンドウの形式で現れる通知であり得る。例えば、テキスト情報がステータスバーに表示され、アラート音が鳴り、端末が振動し、インジケータランプが点滅する。

アンドロイドランタイムは、カーネルライブラリ及び仮想マシンを含む。アンドロイドランタイムは、アンドロイドシステムのスケジューリングと管理を担当する。

カーネルライブラリは、２つの部分：Ｊａｖａ言語で呼び出されることになる関数とアンドロイドカーネルライブラリを含む。

アプリケーション層及びアプリケーションフレームワーク層は、仮想マシンで動作する。仮想マシンは、バイナリファイルを取得するために、アプリケーション層とアプリケーションフレームワーク層のＪａｖａファイルを実行する。仮想マシンは、オブジェクトのライフサイクル管理、スタック管理、スレッド管理、セキュリティ及び異常管理、並びにガーベジコレクションなどの機能を実行するために使用される。

システムライブラリは、複数の機能モジュール、例えば、サーフェスマネージャ（surface manager）、メディアライブラリ（Media Libraries）、３次元グラフィックス処理ライブラリ（例えば、ＯｐｅｎＧＬＥＳ）、及び２Ｄグラフィックスエンジン（例えば、ＳＧＬ）を含み得る。

サーフェスマネージャは、表示サブシステムを管理し、複数のアプリケーションのために２Ｄ及び３Ｄ層の融合を提供するために使用される。

メディアライブラリは、複数の一般的に使用されるオーディオ及びビデオフォーマット、静止画像ファイルなどの再生及び記録をサポートする。メディアライブラリは、MPEG-4、H.264、MP3、AAC、AMR、JPG、及びPNGなどの複数のオーディオ及びビデオエンコーディングフォーマットをサポートし得る。

３次元グラフィックス処理ライブラリは、３次元グラフィックス描画、画像レンダリング、合成、レイヤ処理などを実装するために使用される。

２Ｄグラフィックスエンジンは２Ｄ描画のための描画エンジンである。

カーネル層は、ハードウェアとソフトウェアの間の層である。カーネル層は、少なくともディスプレイドライバ、カメラドライバ、オーディオドライバ、及びセンサドライバを含む。

以下は、イベント検出シナリオを参照した端末１００のソフトウェア及びハードウェアの動作プロセスの例示の説明を提供する。

例えば、ターゲットイベントは、タッチ操作がインターフェース上で実行されることである。トリガ操作を検出する手順は次を含み得る：タッチセンサ１８０Ｋがタッチ操作を受け取るとき、対応するハードウェア割り込みがカーネル層に送られる。カーネル層は、タッチ操作を処理してオリジナル入力イベント（タッチ操作のタッチ座標及びタイムスタンプなどの情報を含む）にする。オリジナル入力イベントはカーネル層に格納される。アプリケーションフレームワーク層は、タッチ操作が発生したことを検出するために、カーネル層からオリジナル入力イベントを取得し、入力イベントに対応する制御を識別する。例えば、タッチ操作はクリック操作であり、クリック操作に対応する制御は音楽アプリケーションのアイコンである。音楽アプリケーションは、音楽アプリケーションを起動し、ディスプレイ１９４を使用することによって音楽アプリケーションのインターフェースをさらに表示するために、アプリケーションフレームワーク層のインターフェースを起動する。

以下は、本出願の実施形態の適用シナリオの例示的説明を提供する。

本出願の実施形態は、音声対話を実行するために端末がウェイクアップされるシナリオに適用され得る。関連技術では、端末がサービスを実行することをユーザが期待するたびに、ユーザは、一度、端末のウェイクアップワードを発する必要がある。以下の方法の実施形態で提供される方法によれば、ウェイクアップワード無しのウェイクアップ機能が実装されることができる。例えば、端末のウェイクアップワードは「ハロー、アリス」である。以下は、シナリオ１～シナリオ８を参照して、比較説明を提供する：

シナリオ１：運転中、ユーザは、車載端末が曲を再生することを期待する。

関連技術では、シナリオは、次のステップ１乃至ステップ７を含む：

ステップ１：ユーザは「ハロー、アリス」と言う。

ステップ２：車載端末は、音声命令を収集し、音声命令が「ハロー、アリス」を含むと決定し、この場合、車載端末は、ユーザの音声命令に応答して、ウェイクアップされ、音声「私はここにいます」を再生する。その後、車載端末がプリセットされた期間内に音声命令を収集しなかった場合、車載端末は再びスリープする。

ステップ３：ユーザがラジオ局スイッチ（radio station switch）をオンにする。

ステップ４：ユーザは「ハロー、アリス」と言う。

ステップ５：車載端末は、音声命令を収集し、音声命令が「ハロー、アリス」を含むと決定し、この場合、車載端末は、再びウェイクアップされ、ユーザの音声命令に応答して、音声「私はここにいます」を再生する。

ステップ６：ユーザは「イーストラジオ局の曲を再生してください」と言う。

ステップ７：車載端末は、音声命令を収集し、音声命令が「ハロー、アリス」を含むと決定し、この場合、車載端末は、イーストラジオ局にラジオ局を調整し、イーストラジオ局の曲を再生する。

しかしながら、この実施形態で提供される方法では、シナリオは、以下のステップ１乃至ステップ４を含み得る：

ステップ１：ユーザがラジオ局スイッチをオンにする。

ステップ２：ラジオ局スイッチが車載端末に信号を送信し、車載端末は、ラジオ局スイッチに対するオン操作が検出されたと決定し、ターゲットサービスタイプが音楽であることを知り、ユーザが音楽のサービスタイプのサービスに対して音声対話を実行する意図を有することを予測するために、ラジオ局スイッチに対するオン操作に基づいてマッピング関係を照会する。

ステップ３：ユーザは「イーストラジオ局の曲を再生してください」と言う。

ステップ４：車載端末は、音声命令を収集し、「イーストラジオ局の曲を再生して下さい」に対応するサービスタイプが音楽であることを知り、予測されるターゲットサービスタイプが音声を通じてユーザによって表されたサービスタイプと同じであると決定し、イーストラジオ局の曲を再生する。加えて、ステップ３においてユーザが表したコンテンツが音楽と無関係である場合、車載端末はユーザによって表されたコンテンツに応答しなくてよい。

前述の説明から、ユーザは、ラジオ局スイッチをオンにすることによって、音楽のサービスタイプのサービスに対する車載端末のウェイクアップワード無しの音声対話機能をアクティブにし（activate）得、それによって、ユーザによるウェイクアップワードを頻繁に発するステップを省略することを知ることができる。

シナリオ２：運転中、ユーザはインスタントメッセージングメッセージを閲覧することを望む。

関連技術では、シナリオは、次のステップ１乃至ステップ７を含む。

ステップ１：携帯電話で動作しているアプリケーションＡがインスタントメッセージングメッセージを受信する。

ステップ２：ユーザは「ハロー、アリス」と言う。

ステップ３：端末は、音声命令を収集し、音声命令が「ハロー、アリス」を含むと決定し、この場合、携帯電話がウェイクアップされ、ユーザの音声命令に応じて音声「私はここにいます」を再生する。その後、携帯電話がプリセットされた期間内に音声命令を収集しなかった場合、車載端末は再びスリープする。

ステップ４：ユーザは「ハロー、アリス」と言う。

ステップ５：携帯電話は、音声命令を収集し、音声命令が「ハロー、アリス」を含むと決定し、この場合、携帯電話は、ユーザの音声命令に応じて再びウェイクアップし、音声「私はここにいます」を再生する。

ステップ６：ユーザは「アプリケーションＡが何を言っているか確認」と言う。

ステップ７：携帯電話は、音声命令を収集し、音声命令が「アプリケーションＡが何を言っているのか確認」を含むと決定し、この場合、携帯電話は、アプリケーションＡによって受信されたインスタントメッセージングメッセージ「午後７時にホットポットを食べよう」を取得し、音声「午後７時にホットポットを食べよう」を再生する。

しかし、この実施形態で提供される方法では、シナリオは、以下のステップ１乃至ステップ４を含み得る：

ステップ２：携帯電話は、ターゲットサービスタイプがアプリケーションＡであることを知り、ユーザがアプリケーションＡのタイプのサービスに対する音声対話を実行する意図を有することを予測するために、受信したインスタントメッセージングメッセージに基づいてマッピング関係を照会する。

ステップ３：ユーザは「アプリケーションＡが何を言っているか確認」と言う。

ステップ４：携帯電話は、音声命令を収集し、「アプリケーションＡが何を言っているか確認」に対応するサービスタイプがアプリケーションＡであることを知り、この場合、携帯電話は、予測されるターゲットサービスタイプが、音声を通じてユーザによって表されたサービスタイプと同じであると決定し、携帯電話は、アプリケーションＡによって受信されたインスタントメッセージングメッセージ「午後７時にホットポットを食べよう」を取得し、音声「午後７時にホットポットを食べよう」を再生する。加えて、ステップ３においてユーザによって表されたコンテンツがアプリケーションＡと無関係である場合、携帯電話は、ユーザによって表されたコンテンツに応答しないことがあり、それによって誤ったウェイクアップを回避する。

前述の説明から、インスタントメッセージングメッセージが受信された場合、インスタントメッセージングアプリケーションのサービスに対する携帯電話のウェイクアップワード無しの音声対話機能がアクティブにされ得、それによって、ユーザによるウェイクアップワードを頻繁に発するステップを省略することを知ることができる。

シナリオ３：ある曲が終了すると、ユーザは別の曲を再生することを望む。

関連技術では、シナリオは、次のステップ１乃至ステップ５を含む：

ステップ１：インテリジェントサウンドボックスによって現在再生されている曲Ａが終了する。

ステップ２：ユーザは「ハロー、アリス」と言う。

ステップ３：インテリジェントサウンドボックスは、音声命令を収集し、音声命令が「ハロー、アリス」を含むと決定し、この場合、インテリジェントサウンドボックスは、ユーザの音声命令に応答してウェイクアップされ、音声「私はここにいます」を再生する。

ステップ４：ユーザは、「曲Ｂを再生」と言う

ステップ５：インテリジェントサウンドボックスは、音声命令を収集し、音声命令が「曲Ｂを再生」を含むと決定し、この場合、インテリジェントサウンドボックスは曲Ｂを再生する。

しかし、この実施形態で提供される方法では、シナリオは以下のステップ１乃至ステップ３を含み得る：

ステップ１：インテリジェントサウンドボックスによって現在再生されている曲Ａが終了する場合、インテリジェントサウンドボックスは、現在のサービスの進行が条件を満たしていると決定し、インテリジェントサウンドボックスは、ターゲットサービスタイプが音楽であることを知り、ユーザが音楽のサービスタイプのサービスに対して音声対話を実行する意図を有することを予測するために、現在のサービス、すなわち、音楽に基づいてマッピング関係を照会する。

ステップ２：ユーザは、「曲Ｂを再生」と言う。

ステップ３：インテリジェントサウンドボックスは、音声命令を収集し、「曲Ｂを再生」に対応するサービスタイプが音楽であることを知り、この場合、予測されるターゲットサービスタイプが、音声を通じてユーザによって表されたサービスタイプと同じであると決定し、曲Ｂを再生する。加えて、ステップ２においてユーザによって表されたコンテンツが音楽と無関係である場合、インテリジェントサウンドボックスは、ユーザによって表されたコンテンツに対して応答しなくてよい。

前述の説明から、現在再生されている曲が終了する場合、音楽のサービスタイプのサービスに対する携帯電話のウェイクアップワード無しの音声対話機能がアクティブにされ得、それによって、ユーザによるウェイクアップワードを頻繁に発するステップを省略することを知ることができる。

シナリオ4：運転中に突然雨が降る。

関連技術では、シナリオは、次のステップ１乃至ステップ４を含む。

ステップ１：ユーザは「ハロー、アリス」と言う。

ステップ２：車載端末は、音声命令を収集し、音声命令が「ハロー、アリス」を含むと決定し、この場合、車載端末は、ユーザの音声命令に応答して、ウェイクアップされ、音声「私はここにいます」を再生する。

ステップ３：ユーザは、「フロントガラスワイパーオン」と言う。

ステップ４：車載端末は、音声命令を収集し、音声命令が「フロントガラスワイパーオン」を含むと決定し、この場合、車載端末は、車両のコントローラに信号を送信し、コントローラは、フロントガラスワイパーを回転させて駆動するように、フロントガラスワイパーの駆動回路を制御する。

しかし、本実施形態で提供される方法では、シナリオは次のステップ１乃至ステップ３を含み得る：

ステップ１：車載端末は、雨滴センサを使用することによって、降雨が検出されていると決定し、ターゲットサービスタイプがフロントガラスワイパーであることを知り、ユーザがフロントガラスワイパーのサービスタイプのサービスに対する音声対話を実行する意図を有することを予測するために、降雨に基づいてマッピング関係を照会する。

ステップ２：ユーザは、「フロントガラスワイパーオン」と言う。

ステップ３：車載端末は、音声命令を収集し、「フロントガラスワイパーオン」に対応するサービスタイプがフロントガラスワイパーであることを知り、予測されるターゲットサービスタイプが、音声を通じてユーザによって表されたサービスタイプと同じであると決定し、この場合、車載端末は車両のコントローラに信号を送信し、コントローラは、フロントガラスワイパーを回転させて駆動するように、フロントガラスワイパーの駆動回路に命令する。加えて、ステップ２においてユーザによって表されたコンテンツがフロントガラスワイパーと無関係である場合、車載端末はユーザによって表されたコンテンツに応答しなくてよい。

前述の説明から、雨が降る場合、フロントガラスワイパーのサービスタイプのサービスに対する携帯電話のウェイクアップワード無しの音声対話機能がアクティブにされ得、それによって、ユーザによるウェイクアップワードを頻繁に発するステップを省略することを知ることができる。

シナリオ５：運転中に車両が燃料不足である。

関連技術では、シナリオは、次のステップ１乃至ステップ４を含む：

ステップ１：ユーザは「ハロー、アリス」と言う。

ステップ２：車載端末は、音声命令を収集し、音声命令が「ハロー、アリス」を含むと決定し、この場合、携帯電話が、ユーザの音声命令に応答して、ウェイクアップされ、音声「私はここにいます」を再生する。

ステップ３：ユーザは「最も近いガソリンスタンドはどこ」と言う。

ステップ４：車載端末は、音声命令を収集し、音声命令が「最も近いガソリンスタンドはどこ」を含むと決定し、この場合、車載端末は、ナビゲーションアプリケーションのインターフェースを呼び出し、クエリを通じてガソリンスタンドのアドレスを取得し、音声「ガソリンスタンドの住所は地区Ｘの道路Ｙにある」を再生する。

ステップ１：車載端末は、車両の燃料容量を検出し、燃料容量が閾値未満であると決定し、サービスタイプセットがガソリンスタンド及びナビゲーションを含むことを知り、ユーザがガソリンスタンド及びナビゲーションの２つのサービスタイプのサービスに対して音声対話を実行する意図を有することを予測するために、燃料容量に基づいてマッピング関係を照会する。

ステップ２：ユーザは「最も近いガソリンスタンドはどこ」と言う。

ステップ３：車載端末は、音声命令を収集し、「最も近いガソリンスタンドはどこ」に対応するサービスタイプがナビゲーションであることを知り、この場合、予測されるターゲットサービスタイプが、音声を通じてユーザによって表されたサービスタイプと同じであると決定し、ナビゲーションアプリケーションのインターフェースを呼び出し、クエリを通じてガソリンスタンドの住所を取得し、音声「ガソリンスタンドの住所は地区Ｘの道路Ｙにある」を再生する。加えて、ステップ２においてユーザによって表されたコンテンツがナビゲーションと無関係な場合、車載端末はユーザによって表されたコンテンツに応答しなくてよい。

前述の説明から、車両が十分な燃料を有していない場合、ガソリンスタンド及びナビゲーションの２つのサービスタイプのサービスに対する車載端末のウェイクアップワード無しの音声対話機能がアクティブにされ得、それによって、ユーザによるウェイクアップワードを頻繁に発するステップを省略することを知ることができる。

シナリオ6：電話に出る。

ステップ１：携帯電話が発信者からの通話要求を受け、携帯電話のオペレーティングシステムが通話通知をプッシュする。

ステップ２：ユーザは「ハロー、アリス」と言う。

ステップ３：端末は音声命令を収集し、音声命令が「ハロー、アリス」を含むと決定し、この場合、携帯電話は、ウェイクアップされ、音声「私はここにいます」を再生する。

ステップ４：ユーザは「私への電話に出る」と言う。

ステップ５：携帯電話は、音声命令を収集し、音声命令が「私への電話に出る」を含むと決定し、この場合、携帯電話が電話を受ける。

しかし、この実施形態で提供される方法では、シナリオは次のステップ１乃至ステップ３を含み得る：

ステップ１：携帯電話は発信者からの通話要求を受け、携帯電話のオペレーティングシステムは通話通知をプッシュし、携帯電話は通話通知を検出し、ターゲットサービスタイプがコミュニケーションであることを知り、ユーザがコミュニケーションのサービスタイプのサービスに対して音声対話を実行する意図を有することを予測するために、通話通知に基づいてマッピング関係を照会する。

ステップ２：ユーザは「私への電話に出る」と言う。

ステップ３：携帯電話は、音声命令を収集し、「私への電話に出る」に対応する意味情報「電話に出る」に基づき、意味情報「電話に出る」に対応するサービスタイプがコミュニケーションタイプであることを知り、この場合、予測されるターゲットサービスタイプが、音声を通じてユーザによって表されたサービスタイプと同じであると決定し、電話を受ける。加えて、ステップにおいてユーザによって表されたコンテンツがコミュニケーションと無関係である場合、車載端末はユーザによって表されたコンテンツに応答しなくてよい。

前述の説明から、携帯電話が通話を受信する場合、コミュニケーションのサービスタイプのサービスに対する携帯電話のウェイクアップワード無しの音声対話機能がアクティブにされ得、それによってユーザによるウェイクアップワードを頻繁に発するステップを省略することを知ることができる。

シナリオ７：車両が空気の質が悪い地域を走行する。

関連する技術では、シナリオは、次のステップ１乃至ステップ４を含む：

ステップ１：ユーザは「ハロー、アリス」と言う。

ステップ２：端末は音声命令を収集し、音声命令が「ハロー、アリス」を含むと決定し、この場合、携帯電話は、ユーザの音声命令に応答して、ウェイクアップされ、音声「私はここにいます」を再生する。

ステップ３：ユーザは「空気清浄器オン」と言う。

ステップ４：車載端末は、音声命令を収集し、音声命令が「空気清浄器オン」を含むと決定し、この場合、車載端末は、車両のコントローラに信号を送り、コントローラは空気清浄器を始動するように制御する。

ステップ１：空気清浄器のセンサが、ダスト濃度を検出し、検出されたダスト濃度を車載端末に送信し、車載端末は、ダスト濃度が閾値を超えると決定し、ターゲットサービスタイプが空気清浄器であることを知り、ユーザが空気清浄器のタイプのサービスに対して音声対話を実行する意図を有することを予測するために、ダスト濃度に基づいてマッピング関係を照会する。

ステップ２：ユーザは「空気清浄器オン」と言う。

ステップ３：車載端末は、音声命令を収集し、「空気清浄器オン」に対応するサービスタイプが空気清浄器であることを知り、予測されるターゲットサービスタイプが、音声を通じてユーザによって表されたサービスタイプと同じであると決定し、この場合、車載端末は、車両のコントローラに信号を送信し、コントローラは、空気清浄器の始動を制御する。加えて、ステップ２においてユーザによって表されコンテンツが空気清浄器と無関係である場合、車載端末は、ユーザによって表されたコンテンツに応答しなくてよい。

前述の説明から、ダスト濃度が閾値を超える場合、空気清浄器のサービスタイプのサービスに対する車載端末のウェイクアップワード無しの音声対話機能がアクティブにされ得、それによって、ユーザによるウェイクアップワードを頻繁に発するステップを省略することを知ることができる。

シーン８：運転中、車両のサンシールド（sun shield）が半分開かれており、ユーザはサンシールドが開かれ続けないことを期待している。

ステップ１：ユーザは「ハロー、アリス」と言う。

ステップ２：車載端末は、音声命令を収集し、音声命令が「ハロー、アリス」を含んでいると決定し、この場合、車載端末は、ユーザの音声命令に応答して、ウェイクアップされ、音声「私はここにいます」を再生する。

ステップ３：ユーザは「サンシールドを下げるのをやめる」と言う。

ステップ４：車載端末は、音声命令を収集し、音声命令が「サンシールドを下げるのをやめる」を含むと決定し、この場合、車載端末は、車両のコントローラに停止信号を送信し、停止信号は、サンシールドを開き続けることを停止するよう命令するために使用され、コントローラは、停止信号を受信した後、コントローラは、サンシールドを開き続けることを停止するように、サンシールドの駆動回路を制御する。

ステップ１：サンシールドは、車載端末に現在の状態を送信し、車載端末は、サンシールドの状態に基づいて、サンシールドの開度が条件を満たしていると決定し、ターゲットサービスタイプが「サンシールド」であることを知り、ユーザが「サンシールド」のタイプのサービスに対して音声対話を実行する意図を有することを予測するために、サンシールドに基づいてマッピング関係に照会する。

ステップ２：ユーザは「サンシールドを下げるのをやめる」と言う。

ステップ３：車載端末は、音声命令を収集し、音声命令に対応する意味情報「サンシールドを下げるのを止める」に基づいて、意味情報「サンシールドを下げるのを止める」に対応するサービスタイプがサンシールドであることを知り、この場合、車載端末は、車両のコントローラに停止信号を送信し、停止信号は、サンシールドを開き続けるのを止めるように命令するために使用され、コントローラが停止信号を受信した後、コントローラは、サンシールドを開き続けるのを止めるように、サンシールドの駆動回路を制御する。加えて、ステップ２においてユーザによって表されたコンテンツがサンシールドと無関係である場合、車載端末はユーザによって表されたコンテンツに応答しなくてよい。

前述の説明から、サンシールドの開度が条件を満たす場合、サンシールドのサービスタイプのサービスに対する車載端末のウェイクアップワード無しの音声対話機能がアクティブにされ得、それによって、ユーザによるウェイクアップワードを頻繁に発するステップを省略することを知ることができる。

以下に、この出願の方法の手順の例示の説明を提供する。

図４は、本出願の一実施形態による音声対話方法のフローチャートである。この実施形態は、実行主体が端末である例を使用することによって説明される。図４を参照すると、本方法は、以下のステップを含む。

４０１．端末は、ターゲットイベントが検出されたと決定する。

ターゲットイベントは、音声対話をトリガすることができるイベントである。ターゲットイベントが発生する場合、ユーザが音声対話を実行する意図を有し、音声対話を実行するために端末をウェイクアップする要求がある特定の確率が存在する。これを考慮して、端末は、ターゲットイベントを検出し、その結果、ターゲットイベントが検出されたと決定するとき、端末は、ターゲットイベント及び音声命令を参照して、音声対話機能をアクティブにするかどうかを決定する。

オプションで、ターゲットイベントは、１つ又は複数のモードを有し得る。モードは、ターゲットイベントの形態（form）又は次元（dimension）である。例えば、ターゲットイベントのモードは、ユーザの操作であり得る、ターゲットイベントのモードは、通知メッセージであり得る、ターゲットイベントのモードは、環境パラメータが第１の条件を満たすことであり得る、又は、ターゲットイベントのモードは、現在のサービスの進行が第２の条件を満たすことであり得る。確かに、ターゲットイベントのモードは、サービス要求に基づいて別のモードに置き換えられ得る。ターゲットイベントのモードは、この実施形態において限定されない。

ユーザの操作は、物理キーに対する操作、インターフェースに対する操作、音声命令、及びブラウジング行動のうちの１つ又は複数であり得るが、これらに限定されない。物理キーは、端末のキーであり得る、又は端末への通信接続を確立する他のデバイスのキーであり得る。例えば、端末が車載端末である場合、物理キーは、車両に取り付けられた任意のデバイスのキーであり得る。例えば、物理キーは、車両のエアコンスイッチ又はラジオ局スイッチであり得る。ユーザが物理キーに対する操作を実行する場合、物理キーは、端末に信号を送信し得、端末は、物理キーに対する操作が検出されると決定する。インターフェースは、システムインターフェース又は端末のアプリケーションのインターフェースであり得る。ユーザがインターフェースに対する操作を実行する場合、インターフェースのスクリーンは、端末に信号を送信し得、端末は、インターフェースに対する操作が検出されると決定する。音声命令は、マイクロホンを使用することによって収集され得る。ブラウジング行動は、ユーザによる端末のインターフェースをブラウジングする行動であり得る。ユーザがブラウジング行動を有する場合、端末は、ブラウジング行動が検出されると決定するために、カメラを使用することによってユーザの視線をキャプチャし得る。操作は、プレス操作、クリック操作、スライド操作などであり得る。特定のタイプの操作はこの実施形態では限定されない。

通知メッセージは、オペレーティングシステム又はアプリケーションによってプッシュされるメッセージであり得る。例えば、通知メッセージは、通話通知、ショートメッセージサービスメッセージ、インスタントメッセージングメッセージ、アラームメッセージ、及びリソース推薦メッセージのうちの１つ又は複数であり得る。アラームメッセージは、端末が故障していることを示し得、例えば、電力が総電力の１０％未満であること、メモリが不足していること、又は端末がネットワークによって攻撃されていることを示し得る。アラームメッセージは、代替的には、端末への通信接続を確立する他のデバイスが故障していることを示し得る。例えば、車載端末のアラームメッセージは、車両のモータが故障していることを示し得る。リソース推薦メッセージは、ユーザに推薦されるリソースを示し得、例えば、ニュースアプリケーションによって推薦されるニュース、電子商取引アプリケーションによって推薦される商品若しくはサービス、又はゲームアプリケーションによって推薦される仮想記事であり得る。

環境パラメータは、騒音、温度、湿度、輝度、ダスト濃度、及び燃料容量のうちの１つ又は複数であり得るが、これらに限定されない。第１の条件は、環境パラメータがパラメータ閾値を超えている又は環境パラメータ変化量が変化量閾値を超えている条件であり得るが、これに限定されない。

環境パラメータが第１の条件を満たすことを検出する特定のプロセスに対して、センサは、環境パラメータをリアルタイム又は定期的に収集し得、収集した環境パラメータを端末に送信し得る。例えば、温度センサは、温度を収集して端末に温度を送信し得、湿度センサは、湿度を収集して端末に湿度を送信し得、ダストセンサは、ダスト濃度を収集して端末にダスト濃度を送信し得、輝度センサは、輝度を収集して端末に輝度を送信し得、マイクロホンは、ノイズ強度を収集して端末にノイズ強度を送信し得、燃料容量センサは、車両の現在の残存燃料容量を収集して端末に燃料容量を送信し得る。端末は、センサから環境パラメータを受信し得る。端末は、環境パラメータがパラメータ閾値を超えるかどうかを決定し得る。環境パラメータがパラメータ閾値を超える場合、端末は、環境パラメータが第１の条件を満たすと決定する。代替的には、端末は、現在取得されている環境パラメータ及び過去に取得された環境パラメータに基づいて環境パラメータ変化量を取得し得、環境パラメータ変化量が変化量閾値を超えているかどうかを決定し得る。環境パラメータ変化量が変化量閾値を超える場合、それは環境が変化したことを示し、環境パラメータが第１の条件を満たしていると決定される。

現在のサービスは、端末によって現在実行されているサービスであり得る、又は端末への通信接続を確立する他のデバイスによって現在実行されているサービスであり得る。例えば、車載端末である場合、車載端末は、車両のコントローラを使用することにより、車両に搭載されたエアコン、サンシールド、又はフロントガラスワイパーへの通信接続を確立し得、現在のサービスは、車載端末で現在実行されているナビゲーションサービス又は音楽サービス、エアコンによって実行される温度調整サービス、フロントガラスワイパーによって実行される回転サービス、又はサンシールドによって実行されるドロップサービスであり得る。

第２の条件は、サービスの進捗状況の変化であり得るが、これに限定されない。例えば、第２の条件は、サービスの進捗が閾値を超えていること又はサービスの進捗変化量が変化量閾値を超えていることであり得る。例えば、第２の条件は、サービスが終了する又はサービスの半分が実行されることであり得る。例えば、エアコンについて、現在のサービスの進捗が第２の条件を満たすことは、エアコンが温度調整サービスを開始する、例えば、エアコンが温度設定を開始する又はエアコンが風量を増加させることを開始することであり得る；又は、現行サービスの進捗が第２の条件を満たすことは、エアコンによって実行される温度調整サービスの進捗が変化する、例えば、エアコンの温度センサが、温度が変化することを検出することであり得る。

現在のサービスの進捗が第２の条件を満たすことを検出する特定のプロセスに対して、端末は、現在のサービスの進捗を取得し得、現在のサービスの進捗が閾値を超えるかどうかを決定し得、現在のサービスの進捗が閾値を超える場合、現在のサービスの進捗が第２の条件を満たすと決定し得る。代替的には、端末は、現在のサービスの進捗及び現在のサービスの過去の進捗に基づいて現在のサービス進捗変化量を取得し得、変化量が変化量閾値を超えているかどうかを決定し得る。現在のサービス進捗変化量が変化量閾値を超えている場合、現在のサービスが変化していることを示し、現在のサービスの進捗が第２の条件を満たしていると決定される。変化量及び変化量閾値は、変化率（change percentages）によって表され得る、又は変化時間によって表され得る、又はもちろん別の次元のデータによって表され得る。これは、この実施形態において限定されない。

ユーザの操作、通知メッセージ、環境パラメータが第１の条件を満たすモード、及び現在のサービスの進捗が第２の条件を満たすモードは、単なるターゲットイベントの例であり、ターゲットイベントはそれらに限定されるものではないことが留意されるべきである。ターゲットイベントのモードは、端末の実際のサービスに基づいて対応して拡張され得、音声対話をトリガすることができる任意のイベントがターゲットイベントとして提供され得ることが理解されるべきである。ターゲットイベントは、この実施形態において限定されない。

４０２．端末は、サービスタイプセットを取得するために、ターゲットイベントに基づいてマッピング関係を照会する。

サービスタイプセットは１つ又は複数のターゲットサービスタイプを含み、各ターゲットサービスタイプは、音声対話意図に対応するサービスタイプである。端末は、サービスタイプセットを取得するために、ターゲットイベントに基づいてユーザの音声対話意図を予測し得る。ターゲットサービスタイプは、端末によって実行されるサービスタイプであり得る、又は端末との通信接続を確立する他のデバイスによって実行されるサービスタイプであり得る。例えば、端末が車両のコントローラである場合、ターゲットサービスタイプは、車両に搭載されたエアコン又はランプなどの装置によって実行されるサービスのタイプであり得る。例えば、ターゲットサービスタイプは、ナビゲーション、スケジュール相談、エアコン、ラジオ局、音楽、車両制御、走行距離照会、質疑応答相談、ゲーム、システム設定、車両制御、充電、メンテナンス、及びコミュニケーションのうちの１つ又は複数であり得る。

マッピング関係は、１つ又は複数のイベント及び１つ又は複数のサービスタイプを含み得る。マッピング関係は、イベントとサービスタイプの間の対応を示し得る。マッピング関係における各イベントは、１つ又は複数のサービスタイプに対応し得る。マッピング関係におけるイベントは、第１のエントリであり得、イベントに対応するサービスタイプは、第２のエントリであり得、第１のエントリの場所は、第２のエントリの場所に対応する。例えば、第１のエントリ及び第２のエントリは、同じ行に配置され得る。例えば、マッピング関係は次の表１に示され得る。

端末は、サービスタイプセットを取得するために、マッピング関係を照会するためのインデックスとして、ターゲットイベントを使用し得る。例えば、検出されたターゲットイベントがメインスイッチに対する操作である場合、表１は、サービスタイプセットがナビゲーション、音楽、及びスケジュール相談であることを知るするために照会される。オプションで、マッピング関係は、ユーザの操作と操作に対応するサービスタイプとの間の第１のマッピング関係、通知メッセージと閲覧又はメッセージ処理との間の第２のマッピング関係、環境パラメータと環境パラメータ調整との間の第３のマッピング関係、及び現在のサービスと現在のサービスのサービスタイプとの間の第４のマッピング関係のうちの１つ又は複数を具体的に含み得る。第１のマッピング関係は、１つ又は複数の操作及び１つ又は複数の操作に対応するサービスタイプを含み得る。いずれの操作も１つ又は複数のサービスタイプに対応し得る。例えば、第１のマッピング関係は次の表２に示され得る。

いくつかの可能な実施形態では、第１のマッピング関係は、操作の連続性ルール（operation consecutiveness rule）に基づいて確立され得る。操作の連続性ルールは、操作Ａと操作Ｂが連続した操作であるかどうかを意味し、ユーザが操作Ａを実行する場合、ユーザが操作Ｂを実行する意図を有することが予測され得る。したがって、連続した操作は、操作Ａを実行した直後にユーザが操作Ｂを実行することを意味する。簡単に説明すると、本明細書では、操作Ａ（ユーザの現在の操作）は第１操作とし、操作Ｂ（第１操作に関連付けられる連続した操作）をターゲット第２操作とする。ターゲット第２操作は、第１操作が実行された後に特定の確率で実行されることになる操作であり、ターゲット第２操作は予測される操作であり、ターゲット第２操作は実行されてもされなくてもよく、ターゲット第２操作は、第１操作の後に最初に実行される操作であり得る。第１のマッピング関係は、第１操作と１つ又は複数のサービスタイプとの間のマッピング関係を含み得、第１のマッピング関係における各サービスタイプは、ターゲット第２操作に対応するサービスタイプであり、１つ又は複数のターゲット第２操作は、第１操作に関連付けられる連続した操作である。例えば、表２を参照すると、メインスイッチをオンにすること（第１操作）と目的地へのナビゲーションを実行すること（ターゲット第２操作）は連続操作であり、メインスイッチをオンにすること（第１操作）と曲再生ボタンをクリックすること（ターゲット第２操作）も連続操作であり、メインスイッチをオンにすること（第１操作）と本日のスケジュールを閲覧すること（ターゲット第２操作）も連続操作であり、目的地へのナビゲーションを実行する操作のサービスタイプはナビゲーションであり、曲再生ボタンをクリックする操作に対応するサービスタイプは音楽であり、本日のスケジュールを閲覧する操作のサービスタイプはスケジュール相談である。従って、第１マッピング関係が確立されているとき、メインスイッチに対する操作は、第１操作として使用され得、ナビゲーション、音楽、及びスケジュール相談は、ターゲット第２操作に対応するサービスタイプとして使用され得、メインスイッチに対する操作、ナビゲーション、音楽、及びスケジュール相談は、第１のマッピング関係に書き込まれる。他の例について、ナビゲーションインターフェースを開くこと（第１操作）及びナビゲーションインターフェースにおいてナビゲーション目的地を入力すること（ターゲット第２操作）は連続した操作であり、ナビゲーション目的地を入力する操作に対応するサービスタイプはナビゲーションである。従って、第１のマッピング関係が確立されているとき、メインスイッチに対する操作は第１操作として使用され得、ナビゲーションはターゲット第２操作に対応するサービスタイプとして使用され得、ナビゲーションインターフェースを開くこととナビゲーションとの間のマッピング関係は、第１のマッピング関係に記憶される。この場合、ユーザがナビゲーションインターフェースを開くとき、端末はナビゲーションがターゲットサービスタイプであると予測し得る。

第２のマッピング関係は、１つ又は複数の通知メッセージ及びメッセージ閲覧又はメッセージ処理を含む。メッセージ閲覧は、ショートメッセージサービスメッセージを閲覧すること、インスタントメッセージングアプリケーションのインスタントメッセージングメッセージを閲覧すること、リソース推薦アプリケーションのプッシュメッセージを閲覧することであり得る。メッセージ処理は、通話応答、トラブルシューティング、及び情報照会を含み得る。例えば、第２のマッピング関係は、次の表３に示され得る。

いくつかの可能な実施形態では、第２のマッピング関係は、通知メッセージを閲覧又は処理するユーザ要求に基づいて確立され得る。具体的には、通知メッセージが受信される場合、ユーザは通知メッセージを閲覧又は処理する意図を有すると予測され得る。従って、第２のマッピング関係は、通知メッセージとメッセージ閲覧との間のマッピング関係であり得る、又は、第２のマッピング関係は、通知メッセージとメッセージ処理との間のマッピング関係であり得る。例えば、表３を参照すると、インスタントメッセージングアプリケーションがインスタントメッセージングメッセージをプッシュする場合、ユーザはインスタントメッセージングメッセージを閲覧する意図を有することが予測され得、インスタントメッセージングメッセージを閲覧することに対応するサービスタイプはインスタントメッセージングアプリケーションであり得る。従って、第２のマッピング関係が確立されているとき、インスタントメッセージングメッセージ及びインスタントメッセージングアプリケーションの識別子は、第２のマッピング関係に書き込まれ得る。

第３のマッピング関係は、１つ又は複数の環境パラメータ及び環境パラメータ調整を含む。例えば、第３のマッピング関係は次の表４に示され得る。

いくつかの可能な実施形態では、第３のマッピング関係は、環境変化に応答するユーザ要求に基づいて確立され得る。具体的には、環境パラメータが条件を満たすとき、ユーザの知覚が影響を受けることを考慮すると、ユーザは、環境パラメータを調整する意図を有することが予測され得る。したがって、第３のマッピング関係は、環境パラメータと、環境パラメータ調整に対応するサービスタイプとの間のマッピング関係を含み得る。例えば、表４を参照すると、温度変化量が閾値を満たす場合、ユーザは温度を調整する要求を有することが予測され得る。温度調整に対応するサービスタイプがエアコンであるため、第３のマッピング関係が確立されているとき、温度変化量が閾値を満たす場合とエアコンとのマッピング関係が第３のマッピング関係に記憶され得る。

第４のマッピング関係は、１つ又は複数の現在のサービス及び現在のサービスのサービスタイプを含み得る。例えば、第４のマッピング関係は次の表５に示され得る。

いくつかの可能な実施形態では、第４のマッピング関係は、ユーザの応答要求に基づいて確立され得る。具体的には、現在のサービスの進捗が条件を満たす場合、ユーザの知覚が影響を受けることを考慮すると、ユーザは、現在のサービスを再度有効にする、現在のサービスを停止する、又は現在のサービスを調整する意図を有することが予測され得る。従って、第４のマッピング関係は、現在のサービスと現在のサービスのサービスタイプとの間のマッピング関係であり得る。例えば、表５を参照すると、現在再生されている音楽が終了する場合、ユーザは、次の曲を再生すること、曲を再生するのを停止すること、又は曲を繰り返し再生すること（replaying）の要求を有することが予測され得る。次の曲を再生すること、曲を再生するのを停止すること、又は曲を繰り返し再生することに対応するサービスタイプは音楽であるため、第４のマッピング関係が確立されている場合、音楽が終わる場合と音楽との間のマッピング関係が第４のマッピング関係に記憶され得る。

いくつかの可能な実施形態では、マッピング関係を確立するプロセスは、次の実装１及び実装２を含み得る。

実装１：端末は、過去のレコードに基づいて、過去のターゲットイベントに関連付けられた過去のサービスを取得し、過去のサービスのサービスタイプ及び過去のターゲットイベントをマッピング関係に書き込む。

この実装では、マッピング関係は、過去の歴史的な音声対話プロセスに基づいて確立され得る。具体的には、端末が過去のターゲットイベントを過去の時点で検出した後、ユーザが端末との音声対話を実行し、その結果、端末がユーザの音声命令に応答して過去のサービスを実行する場合、端末は、過去のターゲットイベントと過去のサービスのサービスタイプとの間のマッピング関係を確立し得る。続いて、ターゲットイベントを検出した後、端末はウェイクアップされることができ、音声命令に対応するサービスタイプが過去のサービスのサービスタイプと同じである場合、端末は音声命令に応答してサービスを実行する。

過去のレコードは、過去のターゲットイベント及び過去のターゲットイベントに関連付けられる過去のサービスを含む。過去のターゲットイベントに関連付けられる過去のサービスは、過去のターゲットイベントが検出された後に実行されるサービスであり、過去のターゲットイベントが検出された後、初めて音声対話を通じて実行されるサービスであり得る。例えば、メインスイッチに対してトリガされた操作が昨日検出され、音声対話を通じて初めて実行されるサービスがセルＡへのナビゲーションを実行することである場合、過去のレコードは、メインスイッチに対してトリガされ、セルＡへのナビゲーションを実行する操作を含み得、メインスイッチに対してトリガされ、セルＡへのナビゲーションを実行する操作は、マッピング関係に書き込まれ得る。端末が現在メインスイッチに対してトリガされた操作を検出している場合、端末は、サービスタイプセットのターゲットサービスタイプがナビゲーションを含むことを知るために、メインスイッチに対する操作に基づいてマッピング関係を照会し得る。

オプションで、端末は、最近実行された過去のサービスのサービスタイプをマッピング関係に書き込み得る。具体的には、端末は、現在の時点及びプリセットされた期間に基づいて、過去の期間を取得し得、過去のレコードに基づいて、過去の期間にあり、かつ、過去のターゲットイベントに関連付けられる過去のサービスを取得し得、過去のサービスのサービスタイプ及び過去のターゲットイベントをマッピング関係に書き込み得る。過去の期間は、今から１日前、１週間前、又は１ヶ月前であり得る。具体的には、過去の期間の終点は、現在の時点であり得、プリセットされた期間は、1日、1週間などであり得る。このようにして、マッピング関係の適時性が確実にされることができ、その結果、マッピング関係はユーザの最近の行動習慣をよりよく反映することができる。

オプションで、端末は頻繁に実行される過去のサービスをマッピング関係に書き込み得る。具体的には、端末は、過去のレコードに基づいて、ターゲットイベントに関連付けられる各過去のサービスの実行時間の量を取得し得る。端末は、複数の過去のサービスから最大の実行時間の量を持つ過去のサービスを選択し得、最大の実行時間の量を持つ過去のサービスのサービスタイプ及び過去のターゲットイベントをマッピング関係に書き込み得る。代替的には、端末は、実行時間の量が量の閾値を超える過去のサービスを選択し得、マッピング関係に、実行時間の量が量の閾値を超える過去のサービスに対応するサービスタイプ及び過去のターゲットイベントを書き込み得る。

実装１では、同じユーザの個人行動モードが規則的であるため、概して、現在のターゲットイベントが発生した後にユーザによって生成される音声対話の意図は、過去のターゲットイベントが過去に発生した後に生成される音声対話の意図と同じ又は類似している可能性が非常に高い。したがって、現在のターゲットイベントが発生した後に実行されることになるサービスは、過去のターゲットイベントが発生した後に実行されることになる関連サービスと同じ又は類似している可能性が非常に高い。従って、過去のレコードに基づいて、現在の音声対話の意図が関係するターゲットサービスタイプを予測することは、ターゲットサービスタイプの精度を改善することができる。

実装２：端末は、機械学習モデルを呼び出し、機械学習モデルにサンプルターゲットイベントを入力し、サービスタイプを出力し、マッピング関係に出力サービスタイプとサンプルターゲットイベントを書き込む。

機械学習モデルは、イベントに基づいてサービスタイプを予測するために使用される。例えば、現在のイベントに関連付けられるサービスのサービスタイプは、イベントに基づいて予測され得る。可能な実装では、モデルトレーニングが、機械学習モデルを取得するために、複数のサンプルイベント及び複数のサンプルサービスタイプを使用することによって、実行され得る。サンプルイベントは、サンプルユーザの端末によって実行されるイベントであり得る、又は端末の過去のレコードに記録されたイベントであり得る。サンプルサービスタイプは、サンプルイベントに関連付けられるサービスのサービスタイプである。機械学習モデルは、ニューラルネットワークモデルであり得るが、これに限定されない。

実装２では、機械学習モデルは、事前に大量のサンプルを使用することにより、イベントとサービスタイプとの間のマッピング関係を学習することができる。従って、機械学習モデルは、ターゲットサービスタイプの精度を改善するために、現在のターゲットイベントに基づいて、音声対話意図が関連するターゲットサービスタイプを正確に予測することができる。

マッピング関係は端末によって確立され得る；又は、マッピング関係は、端末以外の他のデバイスによって確立され得、その後他のデバイスは確立されたマッピング関係を端末に送信し、端末は、マッピング関係を取得するために、マッピング関係を受信し得ることが留意されるべきである。他のデバイスは、図１に示す音声対話プラットフォーム２００であり得るが、これに限定されない。確かに、端末は、別の方法でマッピング関係を取得し得る。例えば、マッピング関係は、リンクアドレスを使用することによって公開され得、端末は、リンクアドレスにアクセスして、インターネットからマッピング関係をダウンロードし得る。端末がマッピング関係を取得する方法は、本実施形態において具体的には限定されない。

イベントの特定のモードを参照すると、ステップ４０２は、次のケース（１）乃至ケース（４）のうちの１つ又は複数であり得るが、これらに限定されない：

ケース（１）：端末は、サービスタイプセットを取得するために、第１操作に基づいてマッピング関係を照会する。サービスタイプセットに含まれるターゲットサービスタイプは、１つ又は複数のターゲット第２操作に対応するサービスタイプであり、１つ又は複数のターゲット第２操作は、第１操作に関連付けられる連続した操作である。

ユーザが第１操作を実行する場合、ユーザの音声対話意図は、ターゲット第２操作を実行することであると予測され得る。したがって、端末は、ターゲット第２操作に対応するサービスタイプをターゲットサービスタイプとして使用し得る。１つの第１操作は、１つ又は複数のターゲット第２操作に対応し得る。例えば、ユーザがエアコンボタンに対する確認操作をトリガする場合、一般に、ユーザは、ユーザがエアコンボタンに対する確認操作をトリガした直後に温度を調整するため、エアコンボタンに対する確認操作は第１操作であり、温度調整がターゲット第２操作である。温度調整に対応したサービスタイプはエアコンであるため、端末は、エアコンがターゲットサービスタイプであることを知り得る。別の例として、ユーザが音楽検索オプションをクリックする場合、一般に、ユーザは、ユーザが音楽検索オプションをクリックした直後に曲名を入力するため、音楽検索オプションをクリックすることが第１操作であり、曲名を入力することがターゲット第２操作である。曲名の入力することに対応するサービスタイプは音楽であるため、端末は、音楽がターゲットサービスタイプであることを知り得る。別の例として、ユーザが故障表示オプションをクリックする場合、一般に、ユーザは、ユーザが故障表示オプションをクリックした直後に、表示された故障情報に基づいてトラブルシューティング方法を検索する又は故障を診断するので、故障表示オプションをクリックすることが第１操作であり、トラブルシューティング方法を検索すること又は故障のトラブルシューティングすることがターゲット第２操作である。トラブルシューティング方法の検索又は故障のトラブルシューティングに対応するサービスタイプは、故障、車両制御、又は検索であるため、端末は故障、車両制御、又は検索がターゲットサービスタイプであることを知り得る。

一般に、ユーザが何らかの操作を行う場合、ユーザは次の操作を連続的に行い、したがって、次の操作に対応するサービスに対して音声対話を実行する意図が発生する。このように、特定の確率で実行されることになる次の操作に対応するサービスタイプに、ユーザによって現在実行されている操作をマッピングするために、操作が連続的であるというルールが完全に使用され、その結果、ユーザが操作を実行するとき、ユーザが音声対話を実行したいサービスタイプは正確に予測されることができ、それによってターゲットサービスタイプの精度を保証する。

ケース（１）のターゲットサービスタイプを取得する特定のプロセスに対して、可能な実装の中で、端末は、サービスタイプセットを取得するために、第１操作に基づいて第１のマッピング関係を照会し得る。

ケース（２）：端末は、サービスタイプセットを取得するためにマッピング関係を照会する。サービスタイプセットに含まれるターゲットサービスタイプは、通知メッセージに対応するメッセージ閲覧又はメッセージ処理である。

例えば、メッセージ閲覧は、通知メッセージをプッシュするアプリケーションを使用することによって通知メッセージを閲覧することであり得る。例えば、通知メッセージがインスタントメッセージングメッセージである場合、メッセージ閲覧は、インスタントメッセージングアプリケーションを使用することによってインスタントメッセージングメッセージを閲覧することであり得る；又は、通知メッセージがニュース推薦メッセージである場合、メッセージ閲覧は、ニュースアプリケーションを使用することによってニュースメッセージを閲覧することであり得る。代替的には、メッセージ閲覧は、通知メッセージを再生すること、通知メッセージをスクリーンに表示すること、通知メッセージを投影することなどであり得る。メッセージ処理は、通知メッセージの検索を実行すること、通知メッセージに返信すること、又は通知メッセージに対応する障害のトラブルシューティングを行うことであり得る。

一般に、端末が通知メッセージを受信する場合、ユーザはメッセージを閲覧又は処理する要求を有し、したがって、メッセージを閲覧又は処理する音声対話の意図が生成される。このようにして、通知メッセージを受信するターゲットイベントを、メッセージを閲覧する及びメッセージを処理する２つのターゲットサービスタイプにマッピングするために、メッセージを閲覧又は処理するユーザ要求が十分に考慮され、その結果、通知メッセージが受信されるとき、ユーザが音声対話を実行することを望むサービスタイプが正確に予測されることができ、それによって、ターゲットサービスタイプの精度を保証する。

具体的には、ケース（２）は、次のケース（２．１）乃至ケース（２．３）のうちの１つ又は複数を含み得る。

ケース（２．１）：サービスタイプセットを取得するために、通話通知に基づいてマッピング関係を照会し、ここでサービスタイプセットに含まれるターゲットサービスタイプは通話応答である。
する。

ケース（２．２）：サービスタイプセットを取得するために、ショートメッセージサービスメッセージ又はインスタントメッセージングメッセージに基づいてマッピング関係を照会し、ここでサービスタイプセットに含まれるターゲットサービスタイプはメッセージ閲覧又はメッセージ返信である。

例えば、メッセージ閲覧は、ショートメッセージサービスメッセージ又はインスタントメッセージングメッセージをテキストから音声に変換し、ショートメッセージサービスメッセージ又はインスタントメッセージングメッセージを音声の形態で再生することであり得る。例えば、メッセージ返信は、ショートメッセージサービスメッセージ又はインスタントメッセージングメッセージに基づいて、ショートメッセージサービスメッセージ又はインスタントメッセージングメッセージに対応する返信情報を取得し、ショートメッセージサービスメッセージ又はインスタントメッセージングメッセージを送信するユーザに返信情報を送信すること；又はユーザによって入力された返信情報を受信し、ショートメッセージサービスメッセージ又はインスタントメッセージングメッセージを送信するユーザに返信情報を送信することであり得る。

ケース（２．３）：サービスタイプセットを取得するために、アラームメッセージに基づいてマッピング関係を照会し、ここでサービスタイプセットに含まれるターゲットサービスタイプはトラブルシューティング又は情報照会である。

トラブルシューティングは、トラブルシューティング解決策を出力すること、メンテナンスを実行することなどであり得る。例えば、アラームメッセージが低バッテリメッセージである場合、トラブルシューティングは、走行距離照会又は充電ステーションである。アラームメッセージがモータ故障メッセージである場合、トラブルシューティングは、質疑応答相談、モータメンテナンスなどであり得る。情報照会は、クエリを通じてトラブルシューティング解決策を取得すること、クエリを通じて故障原因を取得することなどであり得る。

ケース（２．１）乃至ケース（２．３）では、対応するターゲットサービスタイプが通知メッセージ毎に予測され、その結果、通知メッセージが受信される種々のアプリケーションシナリオがサポートされることができ、それによって適用範囲を拡大する。

ケース（２）におけるターゲットサービスタイプを取得する特定のプロセスについて、可能な実装において、端末は、１つ以上のターゲットサービスタイプを取得するために、通知メッセージに基づいて第２のマッピング関係を照会し得る。

ケース（３）：サービスタイプセットを取得するために、環境パラメータに基づいてマッピング関係を照会し、ここでサービスタイプセットに含まれるターゲットサービスタイプは環境パラメータ調整である。

環境パラメータの調整は、空気清浄器を使用することによってダスト濃度を低下させること、加湿器を使用することによって湿度を増加させること、エアコン又は自動車の窓を使用することによって温度を調整すること、サンシールド又は自動車の窓を使用することによって光の強度を調整すること、フロントガラスワイパーを使用することによって降雨量に合わせることなどであり得る。

一般に、環境は、ユーザの知覚に影響を与え、ユーザは、環境に応答する要求を有する。例えば、環境パラメータが変化する場合、ユーザは、環境パラメータを調整する要求があり、従って、環境パラメータを調整する音声対話意図が生成される。このようにして、環境パラメータが第１の条件を満たすターゲットイベントを環境パラメータ調整のターゲットサービスタイプにマッピングするために、環境に応答するユーザ要求が十分に考慮され、その結果、環境パラメータが第１の条件を満たすとき、ユーザが音声対話を実行することを望むサービスタイプが正確に予測されることができ、それによってターゲットサービスタイプの精度を保証する。

ケース（３）におけるターゲットサービスタイプを取得する特定のプロセスについて、可能な実装において、端末は、１つ又は複数のターゲットサービスタイプを取得するために、環境パラメータに基づいて第３のマッピング関係を照会し得る。

ケース（４）：サービスタイプセットを取得するために、現在のサービスに基づいてマッピング関係を照会し、ここでサービスタイプセットに含まれるターゲットサービスタイプは現在のサービスのサービスタイプである。

現在のサービスのサービスタイプは、現在のサービスを再実行すること、現在のサービスを実行するのを停止すること、又は現在のサービスを調整することであり得るが、これらに限定されない。例えば、現在のサービスが音楽を再生することである場合、現在のサービスのサービスタイプは、他の音楽を再生すること、音楽を繰り返し再生すること、又は音楽を再生するのを停止することである。

一般に、現在のサービスの進捗は、ユーザの知覚に影響を与え、ユーザは、現在のサービスに応答する要求を有する。例えば、現在のサービスが終わる場合、ユーザは通常、現在のサービスを再実行すること、現在のサービスの実行を停止すること、又は現在のサービスを調整することを望む。このように、現在のサービスの進捗が第２の条件を満たすターゲットイベントを現在のサービスのサービスタイプにマッピングするために、サービス変更に応答するユーザ要求が十分に考慮され、その結果、現在のサービスの進捗が第２の条件を満たすとき、ユーザが音声対話を実行することを望むサービスタイプが正確に予測されることができ、それによって、ターゲットサービスタイプの精度を保証する。

オプションで、ステップ４０２は、次のものと置き換えられ得る：端末は、過去のレコードに基づいて、過去のターゲットイベントに関連付けられる過去のサービスを取得し、ターゲットサービスタイプとして、過去のサービスに対応するサービスタイプを決定する。言い換えると、ターゲットサービスタイプは、過去のレコードに基づいてマッピング関係を確立する必要なしに、過去のレコードを照会することによって取得され得る。

オプションで、ステップ４０２は、次のものと置き換えられ得る：端末は、機械学習モデルを呼び出し、ターゲットイベントを機械学習モデルに入力し、１つ又は複数のターゲットサービスタイプを出力する。機械学習モデルは、ターゲットイベントに基づいてターゲットサービスタイプを予測するために使用される。言い換えれば、ターゲットサービスタイプは、機械学習モデルに基づいてマッピング関係を確立する必要なしに、機械学習モデルを使用することによって取得され得る。

オプションで、マッピング関係は、各ターゲットサービスタイプの確率をさらに含み得、ステップ４０２は、次のものと置き換えられ得る：端末は、サービスタイプセット及びサービスタイプセットの各ターゲットサービスタイプに対応する確率を取得するために、ターゲットイベントに基づいてマッピング関係を照会する。

確率は、ターゲットサービスタイプに対応するサービスを実行する可能性を示す。より高い確率は、対応するイベントが検出された後に対応するターゲットサービスタイプのサービスが実行されることになることのより高い可能性を示す。例えば、ターゲットイベントｉと、ターゲットサービスタイプｊと、ターゲットサービスタイプｊに対応する確率１と、ターゲットサービスタイプｋと、ターゲットサービスタイプｋに対応する確率２との間にマッピング関係がある場合、マッピング関係は、ターゲットイベントｉが検出される場合、ターゲットサービスタイプｊ又はターゲットサービスタイプｋのサービスが実行されることが予測され、ターゲットサービスタイプｊのサービスを実行する確率は確率１であり、ターゲットサービスタイプｋのサービスを実行する確率は確率２であり、ここでｉはターゲットイベントの識別子であり、ｊ及びｋはターゲットサービスタイプの識別子である。

例えば、マッピング関係は、次の表６に示され得、ここで、表６の「／」は空白を示す。表６に基づき、メインスイッチに対する操作が検出された場合、サービスタイプセットがナビゲーション、音楽、及びスケジュール照会であることが知られ得る。ナビゲーションに対応する確率は０．６、音楽に対応する確率は０．７、スケジュール照会に対応する確率は０．４である。

表６に示すマッピング関係は、マルチモードウェイクアップモデルとして提供され得ることが留意されるべきである。マルチモードウェイクアップモデルの入力パラメータは、ターゲットイベントを含み、マルチモードウェイクアップモデルの出力パラメータは、サービスタイプセット及び確率を含む。マルチモードウェイクアップモデルは、検出されたターゲットイベントに基づいてサービスタイプセットを予測するために使用され得る。ユーザは、端末上でマルチモードのウェイクアップモデルを実行し得る又は使用のために第三者にマルチモードウェイクアップモデルを販売し得る。

４０３．端末は、確率が確率閾値を満たさないターゲットサービスタイプをサービスタイプセットからフィルタ除去する。

サービスタイプセットの各ターゲットサービスタイプに対して、端末は、ターゲットサービスタイプに対応する確率を確率閾値と比較し得る。ターゲットサービスタイプに対応する確率が確率閾値を満たす場合、端末はターゲットサービスタイプを選択し、その後に収集される音声命令に対応する第１のサービスのサービスタイプがターゲットサービスタイプである場合、端末は第１のサービスを実行する。ターゲットサービスタイプに対応する確率が確率閾値を満たさない場合、端末はターゲットサービスタイプをフィルタ除去し、その後ターゲットサービスタイプのサービスを実行しない。

可能な実装では、同じ確率閾値が全てのターゲットサービスタイプにプリセットされ得、確率閾値は端末に予め記憶される。この場合、端末は、各ターゲットサービスタイプに対応する確率を同じ確率閾値と比較し得る。別の可能な実装では、対応する確率閾値が各ターゲットサービスタイプに対して設定され得、各ターゲットサービスタイプに対応する確率閾値はマッピング関係に書き込まれる。この場合、端末は、各ターゲットサービスタイプに対応する確率閾値を取得するためにマッピング関係を照会し得、各ターゲットサービスタイプに対応する確率を対応する確率閾値と比較し得る。異なるサービスタイプに対応する確率閾値は、同じであっても異なってもよい。これは、この実施形態において限定されない。

例えば、マッピング関係は、次の表７を含み得る。サービスタイプセットがナビゲーション、音楽、スケジュール相談の場合、表６によれば、ナビゲーションに対応する確率は０．６、音楽に対応する確率は０．７、スケジュール相談に対応する確率は０．４である。表７によれば、ナビゲーションに対応する確率閾値は０．５であり、音楽に対応する確率閾値は０．５であり、スケジュール相談に対応する確率閾値は０．５であることが知られ得る。ナビゲーションの確率０．６は確率閾値０．５より大きく、音楽の確率０．７は確率閾値０．５より大きく、スケジュール相談の確率０．４は確率閾値０．５より小さい。したがって、ナビゲーションと音楽が選択され、スケジュール相談がフィルタ除去される。

ターゲットサービスタイプの確率が確率閾値を満たさない場合、ターゲットサービスタイプが、ユーザの音声対話意図が関連するサービスタイプである可能性が相対的に低いことを示す。ターゲットサービスタイプのサービスがその後処理される場合、誤ったウェイクアップの可能性が比較的高い。誤ったウェイクアップは、ユーザへの妨害及び端末に対する非常に大きな負荷をもたらす。従って、ターゲットサービスタイプがフィルタ除去され、その結果、端末は、その後、意味情報がターゲットサービスタイプのサービスである音声命令に応答せず、それによって、誤ったウェイクアップの確率を減らし、誤ったウェイクアップに起因するユーザにもたらされる妨害及び端末にもたらされる負荷を回避する。

ステップ４０３は、必須ステップの代わりのオプションのステップであることが留意されるべきである。いくつかの可能な実施形態では、１つ又は複数のターゲットサービスタイプが取得された後、次のステップが、全ての取得されたターゲットサービスタイプに基づいて実行され得る。

４０４．端末は音声命令を収集する。

いくつかの可能な実施形態では、端末は、ターゲットイベントが検出されたことを決定するときに監視することを開始し得、監視期間の後に監視することを終了し得る。監視中に、ユーザが音声を発する場合、端末は、マイクロホンを使用することによって音声命令を収集し得る。監視を開始することと監視を終了することとの間の期間は、受信ウインドウと呼ばれ得、監視期間は、実験、経験、又は要求に基づいて設定され得、端末に予め記憶され得る。オプションで、同じ監視期間が全てのサービスタイプに対して設定され得る、又は、異なる監視期間が異なるサービスタイプに対して設定され得る。サービスタイプと監視期間との間のマッピング関係が端末に記憶される。これは、この実施形態では限定されない。

４０５．端末は、音声命令に対応する意味情報に基づき、意味情報に対応する第１のサービスを取得する。

いくつかの可能な実施形態では、端末は、テキスト情報を取得するために音声命令に対して音声認識（自動音声認識、ＡＳＲ）を実行し、意味情報を取得するためにテキスト情報に対して意味認識を実行し、意味情報に基づいてクエリを通じて第１のサービスを取得し得る。例えば、意味情報が「アリス、セルＸＸのビルＹＹへのルートを計画してください」の場合、第１のサービスは「セルＸＸのビルＹＹへのナビゲーションを実行」である；又は、意味情報が「アリス、曲ＺＺを再生してください」の場合、第１のサービスは「曲ＺＺを再生」である。

４０６．第１のサービスのサービスタイプがサービスタイプセットのいずれかのターゲットサービスタイプである場合、端末は音声命令に従って第１のサービスを実行する。

端末は、第１のサービスのサービスタイプを、サービスタイプセットの各ターゲットサービスタイプと比較し得る。第１のサービスのサービスタイプがいずれかのターゲットサービスタイプと同じである場合、それは、音声を通じてユーザによって表されたサービスタイプが予測されるサービスタイプの範囲内であることを示し、端末は、サービスタイプを正しく予測し、ユーザは本当に音声対話意図を有する。したがって、端末は、うまくウェイクアップされ、音声命令に応答して音声対話機能をアクティブにし、音声命令にしたがって第１のサービスを実行する、言い換えれば、音声命令によって表されたサービスを実行する。例えば、サービスタイプセットがナビゲーション及び音楽であり、第１のサービスが「セルＸＸのビルＹＹへのナビゲーションを実行する」である場合、第１のサービスのサービスタイプはナビゲーションであり、第１のサービスのサービスタイプはサービスタイプセットのナビゲーションのターゲットサービスタイプと同じであり、端末はセルＸＸのビルＹＹへのナビゲーションを実行する。

４０７．第１のサービスのサービスタイプが、サービスタイプセットの全てのターゲットサービスタイプと異なる場合、端末は音声命令を破棄する。

サービスタイプセットが、第１のサービスのサービスタイプを含まない場合、音声を通じてユーザによって表されたサービスタイプが予測されるサービスタイプの範囲の外にあることを示し、端末は、サービスタイプを誤って予測し、ユーザは音声対話意図を有さない。したがって、端末は、音声命令にしたがうサービス処理によってもたらされる誤ったウェイクアップを回避するために、音声命令に応答せず、音声命令を破棄し、音声命令によって占められるバッファ空間を節約し得る。例えば、サービスタイプセットがナビゲーション及び音楽であり、第１のサービスが「エアコンをオンにする」である場合、第１のサービスのサービスタイプはエアコンであり、第１のサービスタイプはサービスタイプセットの全てのターゲットサービスタイプとは異なり、端末は、音声命令に応答しない、言い換えれば、エアコンをオンにしない。

加えて、端末は、ターゲットイベントを検出するとき計時を開始し得る。記録された期間がプリセットされた期間に達し、端末が音声命令を受信しなかった場合、端末は、監視を停止する。

ステップ４０７は、必須ステップの代わりのオプションのステップであることが留意されるべきである。

４０８．端末は、音声命令に対応する意味情報に基づいてマッピング関係における確率を更新する。

このオプションの方法では、ターゲットイベントが発生するたびに、確率は、ユーザによって現在表されている意味情報に基づいて動的に調整され得、その結果、確率は、予測されるターゲットサービスタイプの正確さを評価することによって自己学習する（self-learning）方法で反復を通じて常に修正され、マッピング関係は、ターゲットイベントの発生及びユーザによって表された意味に基づいて常に最適化されることができ、ユーザの個人的行動習慣に徐々により良く一致することができ、それによって、より正確なマッピング関係を保証する。

具体的には、更新方法は、次の以下の方法（１）乃至方法（３）のうちの１つ又は複数を含み得る。

方法１：第１のサービスのサービスタイプが、サービスタイプセットのいずれかのターゲットサービスタイプである場合、マッピング関係における第１のサービスのサービスタイプに対応する確率を増加させる。

例えば、メインスイッチに対する操作が検出されたことが決定された後、サービスタイプセットがナビゲーション及び音楽であり、第１のサービスのサービスタイプがナビゲーションである場合、端末はナビゲーションに対応する確率を増加させる。

ターゲットイベントＸが検出されるたびに、ユーザが音声を通じてターゲットサービスタイプＹのサービスが実行されることを要求する場合、ターゲットサービスタイプＹは、正確に、ターゲットイベントＸが発生した後にユーザが音声対話意図を有するサービスタイプであることを示す。このオプションの方法では、ターゲットサービスタイプＹの確率は絶えず増加する。したがって、ターゲットイベントがその後再び検出されるとき、ターゲットサービスタイプＹの確率が確率閾値を満たし、その結果、ターゲットサービスタイプＹが選択され、音声命令に対応する意味情報に対応する第１のサービスがターゲットサービスタイプＹのサービスである場合、端末は、音声命令に応答してターゲットサービスタイプＹのサービスを実行する。

第１のサービスのサービスタイプが、サービスタイプセットの全てのターゲットサービスタイプと異なる場合、端末は、第１のサービスのサービスタイプをマッピング関係に書き込み得ることが留意されるべきである。具体的には、マッピング関係がターゲットイベントを含まない場合、又はマッピング関係が第１サービスのサービスタイプを含まれない場合、又はマッピング関係のターゲットイベントが第１サービスのサービスタイプに対応しない場合、３つの場合のいずれか１つにおいて、端末は、ターゲットイベント及び第１サービスのサービスタイプをマッピング関係に書き込み得、その結果、ターゲットイベント及び第１サービスのサービスタイプがマッピング関係に新たに追加される。

このオプションの方法では、次にターゲットイベントが検出されるとき、マッピング関係は、第１のサービスのサービスタイプを取得するために照会され得、第１のサービスのサービスタイプは、ターゲットサービスタイプとして決定され得る。従って、端末の過去の実行プロセスにおいて、イベントＸが検出されるたびに、ユーザは、音声を通じて、サービスタイプＹに対して音声対話を実行する意図を表し、イベントＸ及びサービスタイプＹはマッピング関係に書き込まれ得、その結果、イベントＸ及びサービスタイプＹはマッピング関係に新たに追加される。このようにして、音声対話プロセスが進行するにつれて、イベントとサービスタイプとの間の関連付け（association）が見出されることができ、マッピング関係が補足され、改善されることができる。加えて、サービスが拡大するにつれて、端末は、新たに追加されたイベント及び新たに追加されたサービスタイプをマッピング関係に追加することができ、その結果、マッピング関係の拡張性及び適時性を改善することができる。

加えて、オプションで、第１のサービスのサービスタイプに対応する確率が生成され得、生成された確率は、マッピング関係に書き込まれる。具体的には、確率は、ターゲットイベントを検出する回数及び音声命令の意味情報が第１のサービスのサービスタイプを示す回数に基づいて決定され得る。例えば、ターゲットイベントＡがＡ回検出され、意味情報が第１のサービスのサービスタイプをＢ回示す場合、Ａ対Ｂの比率が、取得され、確率として用いられ得る。例えば、イベントＸが１０回検出され、ユーザが、音声を通じて７回、サービスタイプＹについての音声対話を実行する意図を表した場合、サービスタイプＹに対応する確率７／１０、すなわち０．７が取得され得、サービスタイプＹと確率０．７がマッピング関係に書き込まれる。もちろん、デフォルト確率が、第１のサービスのサービスタイプに対応する確率として使用されてもよく、第１のサービスのサービスタイプ及びデフォルト確率がマッピング関係に書き込まれる。その後、デフォルト確率は、ステップ４０８に示されるプロセスを通じて調整される。

方法（２）：第１のサービスのサービスタイプが、サービスタイプセットの全てのターゲットサービスタイプと異なる場合、マッピング関係におけるサービスタイプセットの各ターゲットサービスタイプに対応する確率を減少させる。

例えば、メインスイッチに対する操作が検出されたことが決定された後、サービスタイプセットがナビゲーション及び音楽であり、第１のサービスのサービスタイプがエアコンである場合、端末はナビゲーション及び音楽に対応する確率を減少させる。

ターゲットイベントＸがターゲットサービスタイプＹに対応し、ターゲットイベントＸが検出されるたびに、ユーザが、音声を通じて、ターゲットサービスタイプＹのサービスが実行されることを必要としない場合、ターゲットサービスタイプＹは、ターゲットイベントＸが発生した後にユーザが音声対話意図を有するサービスタイプではないことを示す。このオプションの方法では、ターゲットサービスタイプＹの確率は常に減少する。したがって、ターゲットイベントＸがその後再び検出されるとき、ターゲットサービスタイプＹの確率は確率閾値を満たさず、その結果、ターゲットサービスタイプＹはフィルタ除去され、端末は、ターゲットサービスタイプＹのサービスを処理せず、それによって誤ったウェイクアップを回避する。

方法（３）：意味情報がウェイクアップワードを含む場合は、マッピング関係における第１のサービスのサービスタイプに対応する確率を増加させる。

例えば、メインスイッチに対する操作が検出された後、意味情報が「ハロー、アリス、目的地、すなわち、特定のセルの特定のビルへのナビゲーションを実行」である場合、端末はナビゲーションに対応する確率を増加させる。

ターゲットイベントＸがターゲットサービスタイプＹに対応し、ターゲットイベントＸが検出されるたびに、ユーザがウェイクアップワードを発する場合、ターゲットサービスタイプＹは、まさに、ターゲットイベントＸが発生した後にユーザが音声対話意図を有するサービスタイプであることを示す。このオプションの方法では、ターゲットサービスタイプＹの確率は絶えず増加する。したがって、ターゲットイベントがその後再び検出されるとき、ターゲットサービスタイプＹの確率は確率閾値を満たし、その結果、ターゲットサービスタイプＹが選択され、音声命令がターゲットサービスタイプＹの意味情報を表す場合、端末は、音声命令に応答してサービスを処理する。

ステップ４０８は、必須ステップの代わりのオプションのステップであることが留意されるべきである。

この実施形態は、ウェイクアップワード無しの音声対話をトリガする方法を提供する。ユーザが音声対話意図を有するサービスタイプセットが、音声対話をトリガすることができるターゲットイベントに基づいて予測される。音声命令によって表される第１のサービスのサービスタイプが予測されるターゲットサービスタイプである場合、第１のサービスが実行される。音声対話プロセスにおいて、ユーザが頻繁にウェイクアップワードを発する必要がある煩わしい操作は省略され、その結果、ウェイクアップワードを頻繁に発することによって引き起こされる極めて低い音声対話効率の問題が解決され、操作がより便利になり、音声対話プロセスがより自然でパーソナライズされ、それによって、音声対話のユーザ体験が向上する。加えて、複数のモードのターゲットイベントが存在することができ、任意のモードのターゲットイベントが対応するサービスタイプの音声対話機能をトリガすることができ、その結果、ウェイクアップワード無しのウェイクアップ機能が、複数のアプリケーションシナリオにおいてサポートされることができ、それによって、適用範囲を拡大する。

前述の方法の実施形態を参照すると、以下は、本出願における特定のソフトウェアアーキテクチャの例示的な説明を提供する。

図５は、本出願の一実施形態による音声対話システムのソフトウェアアーキテクチャ図である。システムは、次の機能モジュール：音声アクティビティ検出（voice activity detection、ＶＡＤ）モジュール又はフロントエンドスピーチ（front-end speech）モジュール、音声認識（自動音声認識（automatic speech recognition）、ＡＳＲ）モジュール、マルチモード検出モジュール、ユーザ意図予測モジュール、口語理解（spoken language understanding、ＳＬＵ）モジュール又はダイアログ管理（dialog management、ＤＭ）モジュール、過去のデータ学習モジュール、及び応答発生器（response generator、ＲＧ）／テキストから音声（text to speech、ＴＴＳ）モジュールを含み、各モジュールはソフトウェアモジュールであり得る。

ＶＡＤモジュール又はフロントエンドスピーチモジュールは：オーディオ信号を収集し、収集されたオーディオ信号に対してノイズ除去処理及び強調処理を実行し、オーディオ信号が音声命令であるか非音声命令であるかを検出し、オーディオ信号が音声命令である場合、音声命令をＡＳＲモジュールに入力するように構成される。非音声命令は、ノイズ信号、音楽信号などであり得る。

ＡＳＲモジュールは：ＶＡＤモジュール又はフロントエンドスピーチモジュールから音声命令を受信し、音声命令をテキスト情報に変換し、テキスト情報をＳＬＵモジュール又はダイアログ管理モジュールに入力するように構成される。

マルチモード検出モジュールは：ターゲットイベントを検出し、ターゲットイベントが検出された場合、ターゲットイベントをユーザ意図予測モジュールに入力するように構成される。例えば、マルチモード検出モジュールは、オペレーティングシステム又はアプリケーションによってプッシュされた通知メッセージ、例えば、ショートメッセージサービスメッセージ、通話、アプリケーションの推薦メッセージ、又はアラームメッセージを受信し得る；又は、マルチモード検出モジュールは、１つ又は複数のモードの操作、例えば、物理キー若しくはインターフェースの操作又は音声命令を検出するように構成される；又は、マルチモード検出モジュールは、環境変化又はサービス変更、例えば、温度低下、空気の質のレベルが基準を超える、又は、音楽が終わることを検出するように構成される。

ユーザ意図予測モジュールは：マルチモード検出モジュールからターゲットイベントを受信し、ユーザ操作の連続性ルール、閲覧、処理、又は応答のユーザ要求、及びユーザ知覚に対する環境又はサービスの影響を考慮してユーザの音声対話意図を予測し、サービスタイプセット及びサービスタイプセット内の各ターゲットサービスタイプに対応する確率を出力するように構成される。

ＳＬＵモジュール又はＤＭモジュールは：音声認識モジュールのテキスト情報に基づいてユーザ意図を識別し、ユーザ意図をシステム操作に変換し、ダイアログのコンテキスト状態に基づいてダイアログの応答コンテンツを取得し、ＲＧモジュール又はＴＴＳモジュールに応答コンテンツを出力するように構成される。

過去のデータ学習モジュールは、ユーザの過去の操作データに基づいて、ユーザ意図予測モジュール内のデータに対して反復更新を実行するように構成される。

ＲＧモジュール／ＴＴＳモジュールは：ダイアログ管理モジュールから受信された応答コンテンツをテキスト情報に変換し、テキスト情報を出力する、又は応答コンテンツを音声命令に変換して音声を再生するように構成される。

図５に示すシステムアーキテクチャを参照すると、端末が車載端末である例では、車載端末は、ハードウェアとソフトウェアの組み合わせを使用することによって実現され得る。車載端末の構造を図６に示され得、車載端末は、中央処理装置（ＣＰＵ）、内部メモリ又は他のメモリ、データバス（Ｄ－ＢＵＳ）、オーディオマネージャ、ゲートウェイ、コントローラエリアネットワーク（英語：Controller Area Network、略してＣＡＮ）バス、及びクラウドサービス管理モジュールを含む。

ＣＰＵは：内部メモリ又は他のメモリ内の各機能モジュールにアクセスし、各機能モジュールを実行するように構成され、さらに、データバスを通じてメモリ及びオーディオマネージャにアクセスし得る。加えて、ＣＰＵは、ネットワークインターフェースを通じて様々なクラウドサービス及びクラウドサービス管理モジュールにアクセスし得る。ＣＰＵは、さらに、車両及び車両に搭載された様々なデバイスのデータを読み取り、車両及び車両に搭載された様々なデバイスを制御するために、ゲートウェイを使用することによってＣＡＮバスにアクセスし得る。

メモリは、内部メモリ及び磁気ディスクメモリを含み、記憶されたコンテンツは、図５に示す機能モジュールを含む。

オーディオマネージャは、車載スピーカ、マイクロホンアレイ、又は他のオーディオデバイスを管理するように構成される。

前述のものは、本出願の実施形態における音声対話方法を説明する。次のものは、本出願の実施形態において提供される音声対話装置を説明する。音声対話装置は、前述の音声対話方法における端末のいずれの機能も有することが理解されるべきである。

図７は、本出願の一実施形態による音声対話装置の概略構造図である。図７に示すように、装置は：
ステップ４０１を実行するように構成された決定モジュール７０１；ステップ４０２を実行するように構成された照会モジュール７０２；ステップ４０４を実行するように構成された収集モジュール７０３；ステップ４０５を実行するようにさらに構成された取得モジュール７０４；及びステップ４０６を実行するように構成された処理モジュール７０５；を含む。

オプションで、決定モジュール７０１は、ユーザの第１操作が検出されることを決定するように構成され、照会モジュール７０２は、ステップ４０２のケース（１）を実行するように構成される。

オプションで、決定モジュール７０１は、オペレーティングシステム又はアプリケーションから通知メッセージを受信するように構成され、照会モジュール７０２は、ステップ４０２のケース（２）を実行するように構成される。

オプションで、決定モジュール７０１は、現在の環境パラメータが第１の条件を満たすことを決定するように構成され、照会モジュール７０２は、ステップ４０２のケース（３）を実行するように構成される。

オプションで、決定モジュール７０１は、現在のサービスの進捗が第２の条件を満たすことを決定するように構成され、照会モジュール７０２は、ステップ４０２のケース（４）を実行するように構成される。

オプションで、装置はさらに：第１のサービスのサービスタイプが、サービスタイプセットの全てのターゲットサービスタイプと異なる場合、第１のサービスのサービスタイプをマッピング関係に書き込むように構成された書き込みモジュールを含む。

オプションで、照会モジュール７０２はさらに、サービスタイプセット及びサービスタイプセットの各ターゲットサービスタイプに対応する確率を取得するために、ターゲットイベントに基づいてマッピング関係を照会するように構成される。

装置は、さらに、ステップ４０８を実施するように構成されたフィルタリングモジュールを含む。

オプションで、装置はさらに、ステップ４０８を実行するように構成された更新モジュールを含む。

オプションで、更新モジュールは、特に、ステップ４０８の方法（１）乃至方法（３）のうちの１つ又は複数を実行するように構成される。

オプションで、装置は、さらに、ステップ４０７を実行するように構成された廃棄モジュールを含む。

前述の実施形態で提供された音声対話装置は、音声対話中に前述の機能モジュールの部分のみを用いて説明されている。実際には、機能は、必要に応じて、実装のために異なる機能モジュールに割り当てられ得る。具体的には、端末の内部構造が、上述の機能の一部又は全部を実装するために、異なる機能モジュールに分割される。加えて、前述の実施形態で提供された音声対話装置及び音声対話方法の実施形態は、同じ概念に属する。具体的な実装プロセスについては、本方法の実施形態を参照されたい。詳細は、ここでは再度説明しない。

前述のオプションの技術的解決策の全てが、本出願のオプションの実施形態を形成するようにランダムに組み合わされ得、詳細は本明細書には記載されない。

例示的な実施形態は、さらに、命令を含むメモリなどのコンピュータ読取可能記憶媒体を提供する。この命令は、前述の実施形態における音声対話方法を完成させるために、端末のプロセッサによって実行され得る。コンピュータ読取可能記憶媒体は、非一時的であり得る。例えば、コンピュータ読取可能記憶媒体は、読取専用メモリ（Read-Only Memory、略してＲＯＭ）、ランダムアクセスメモリ（Random Access Memory、略してＲＡＭ）、コンパクトディスク読取専用メモリ（Compact Disc Read-Only Memory、略してＣＤ－ＲＯＭ）、磁気テープ、フロッピー（登録商標）ディスク、又は光学データ記憶装置であり得る。

例示的な実施形態は、さらに、コンピュータプログラム製品を提供する。コンピュータプログラム製品は、コンピュータプログラムコードを含み、コンピュータプログラムコードが端末で実行されるとき、端末は、前述の実施形態の音声対話方法を実行する。

例示的実施形態は、チップを提供する。チップは、メモリからメモリに記憶された命令を呼び出し、命令を実行するように構成されたプロセッサを含み、その結果、チップが搭載されたデバイスが、前述の実施形態の音声対話方法を実行する。

例示的な実施形態は、別のチップを提供する。チップは、入力インターフェース、出力インターフェース、プロセッサ、及びメモリを含み、入力インターフェース、出力インターフェース、プロセッサ、及びメモリは、内部接続パスを通じて接続され、プロセッサは、メモリ内のコードを実行するように構成され、コードが実行されるとき、プロセッサは、前述の実施形態の音声対話方法を実行するように構成される。

前述の実施形態の全て又は一部は、ソフトウェア、ハードウェア、ファームウェア、又はそれらの任意の組み合わせを使用することによって実装され得る。本実施形態を実装するためにソフトウェアを使用する場合、実施形態の全て又は一部は、コンピュータプログラム製品の形態で実装され得る。コンピュータプログラム製品は、１つ又は複数のコンピュータプログラム命令を含む。コンピュータプログラム命令がロードされ、コンピュータで実行されるとき、本出願の実施形態による手順又は機能の全て又は一部が生成される。コンピュータは、汎用コンピュータ、専用コンピュータ、コンピュータネットワーク、又は他のプログラム可能な装置であり得る。コンピュータ命令は、コンピュータ読取可能記憶媒体に記憶され得る、又はコンピュータ読取可能記憶媒体から別のコンピュータ読取可能記憶媒体に送信され得る。例えば、コンピュータ命令は、ウェブサイト、コンピュータ、サーバ、又はデータセンターから他のウェブサイト、コンピュータ、サーバ、又はデータセンターに有線又は無線で送信され得る。コンピュータ読取可能記憶媒体は、コンピュータによってアクセス可能な任意の使用可能な媒体、又は１つ又は複数の使用可能な媒体を統合するサーバ又はデータセンターなどのデータ記憶装置であり得る。使用可能な媒体は、磁気媒体（例えば、フロッピーディスク、ハードディスク、又は磁気テープ）、光学媒体（例えば、デジタルビデオディスク（digital video disc、ＤＶＤ））、半導体媒体（例えば、ソリッドステートドライブ）であり得る。

この出願における用語「及び／又は（and/or）」は、関連するオブジェクト間の関連関係のみを記述し、３つの関係が存在し得ることを表す。例えば、Ａ及び／又はＢは、次の３つの場合：Ａのみが存在する、ＡとＢの両方が存在する、Ｂのみが存在する、を表し得る。加えて、この出願における文字「／」は、一般に、関連するオブジェクト間の「又は（ｏｒ）」の関係を表す。

この出願において、用語「複数」は、２以上を意味する。例えば、複数のデータパケットは、２つ以上のデータパケットを意味する。

この出願における「第１」又は「第２」などの用語は、基本的に同一の機能又は目的を有する同じアイテム又は類似のアイテムの間を区別するために使用される。当業者は、「第１」及び「第２」などの用語が、数量及び実行順序を限定するものではないことを理解することができる。

当業者であれば、実施形態のステップの全て又は一部が、関連するハードウェアに指示するハードウェア又はプログラムによって実装され得ることを理解するであろう。プログラムは、コンピュータ読取可能記憶媒体に記憶され得る。記憶媒体は、読取専用メモリ、磁気ディスク、光ディスクなどであり得る。

前述の説明は、この出願の単なるオプションの実施形態であるが、この出願を限定することを意図するものではない。本出願の精神及び原理から逸脱することなくなされるいかなる修正、均等の代替、又は改良も、本出願の保護範囲に入るべきである。

Claims

音声対話方法であって、前記方法は：
ターゲットイベントが検出されたことを決定するステップであって、前記ターゲットイベントは音声対話をトリガすることができるイベントである、ステップと；
サービスタイプセットを取得するために、前記ターゲットイベントに基づいてマッピング関係を照会するステップであって、前記サービスタイプセットは、１つ又は複数のターゲットサービスタイプを含む、ステップと；
音声命令を収集するステップと；
前記音声命令に対応する意味情報に基づいて、前記意味情報に対応する第１のサービスを取得するステップと；
前記第１のサービスのサービスタイプが前記サービスタイプセットのいずれかのターゲットサービスタイプである場合、前記音声命令に従って前記第１のサービスを実行するステップと；を含み、
前記マッピング関係を確立するプロセスは：
過去のレコードに基づいて、過去のターゲットイベントに関連付けられた過去のサービスを取得するステップ、及び、前記過去のサービスのサービスタイプ及び前記過去のターゲットイベントを前記マッピング関係に書き込むステップ；及び
機械学習モデルを呼び出すステップ、前記機械学習モデルにサンプルターゲットイベントを入力するステップ、サービスタイプを出力するステップ、並びに、出力された前記サービスタイプ及び前記サンプルターゲットイベントを前記マッピング関係に書き込むステップ、を含み、前記機械学習モデルは、イベントに基づいてサービスタイプを予測するために使用される、
方法。
音声対話方法であって、前記方法は：
ターゲットイベントが検出されたことを決定するステップであって、前記ターゲットイベントは音声対話をトリガすることができるイベントである、ステップと；
サービスタイプセットを取得するために、前記ターゲットイベントに基づいてマッピング関係を照会するステップであって、前記サービスタイプセットは、１つ又は複数のターゲットサービスタイプを含む、ステップと；
音声命令を収集するステップと；
前記音声命令に対応する意味情報に基づいて、前記意味情報に対応する第１のサービスを取得するステップと；
前記第１のサービスのサービスタイプが前記サービスタイプセットのいずれかのターゲットサービスタイプである場合、前記音声命令に従って前記第１のサービスを実行するステップと；を含み、
前記のサービスタイプセットを取得するために、前記ターゲットイベントに基づいてマッピング関係を照会するステップは：前記サービスタイプセット及び前記サービスタイプセットの各ターゲットサービスタイプに対応する確率を取得するために、前記ターゲットイベントに基づいて前記マッピング関係を照会するステップであって、前記確率は、前記ターゲットサービスタイプに対応するサービスを実行する可能性を示す、ステップを含み；
前記の前記音声命令に従って前記第１のサービスを実行するステップの前に、前記第１のサービスのサービスタイプが前記サービスタイプセットのいずれかのターゲットサービスタイプである場合、前記方法は、さらに：確率が確率閾値を満たさないターゲットサービスタイプを前記サービスタイプセットからフィルタ除去するステップを含む、
方法。
前記のターゲットイベントが検出されたことを決定するステップは：ユーザの第１操作が検出されたことを決定するステップを含み；
前記のサービスタイプセットを取得するために、前記ターゲットイベントに基づいてマッピング関係を照会するステップは：前記サービスタイプセットを取得するために、前記第１操作に基づいて前記マッピング関係を照会するステップであって、前記サービスタイプセットに含まれる前記ターゲットサービスタイプは、１つ又は複数のターゲット第２操作に対応するサービスタイプであり、前記１つ又は複数のターゲット第２操作は前記第１操作に関連付けられる連続操作である、ステップを含む、
請求項１又は２に記載の方法。
前記のターゲットイベントが検出されたことを決定するステップは：オペレーティングシステム又はアプリケーションからの通知メッセージを受信するステップを含み；
前記のサービスタイプセットを取得するために、前記ターゲットイベントに基づいてマッピング関係を照会するステップは：
前記サービスタイプセットを取得するために、前記通知メッセージに基づいて前記マッピング関係を照会するステップであって、前記サービスタイプセットに含まれる前記ターゲットサービスタイプは、前記通知メッセージに対応するメッセージ閲覧又はメッセージ処理である、ステップを含む、
請求項１又は２に記載の方法。
前記通知メッセージは、通話通知、ショートメッセージサービスメッセージ、インスタントメッセージングメッセージ、及びアラームメッセージのうちの少なくとも１つを含み；前記の前記サービスタイプセットを取得するために、前記通知メッセージに基づいて前記マッピング関係を照会するステップは、次の：
前記サービスタイプセットを取得するために、前記通話通知に基づいて前記マッピング関係を照会するステップであって、前記サービスタイプセットに含まれる前記ターゲットサービスタイプは通話応答である、ステップ；
前記サービスタイプセットを取得するために、前記ショートメッセージサービスメッセージ又は前記インスタントメッセージングメッセージに基づいて前記マッピング関係を照会するステップであって、前記サービスタイプセットに含まれる前記ターゲットサービスタイプはメッセージ閲覧又はメッセージ返信である、ステップ；及び
前記サービスタイプセットを取得するために、前記アラームメッセージに基づいて前記マッピング関係を照会するステップであって、前記サービスタイプセットに含まれる前記ターゲットサービスタイプはトラブルシューティング又は情報照会である、ステップ；
のうちの少なくとも１つを含む、
請求項４に記載の方法。
前記のターゲットイベントが検出されたことを決定するステップは：現在の環境パラメータが第１の条件を満たすことを決定するステップを含み；
前記のサービスタイプセットを取得するために、前記ターゲットイベントに基づいてマッピング関係を照会するステップは：前記サービスタイプセットを取得するために、前記環境パラメータに基づいて前記マッピング関係を照会するステップであって、前記サービスタイプセットに含まれる前記ターゲットサービスタイプは環境パラメータ調整である、ステップを含む、
請求項１又は２に記載の方法。
前記のターゲットイベントが検出されたことを決定するステップは：現在のサービスの進捗が第２の条件を満たすことを決定するステップを含み；
前記のサービスタイプセットを取得するために、前記ターゲットイベントに基づいてマッピング関係を照会するステップは：前記サービスタイプセットを取得するために、前記現在のサービスに基づいて前記マッピング関係を照会するステップであって、前記サービスタイプセットに含まれる前記ターゲットサービスタイプは前記現在のサービスのサービスタイプである、ステップを含む、
請求項１又は２に記載の方法。
前記マッピング関係を確立するプロセスが：
過去のレコードに基づいて、過去のターゲットイベントに関連付けられた過去のサービスを取得するステップ、及び、前記過去のサービスのサービスタイプ及び前記過去のターゲットイベントを前記マッピング関係に書き込むステップ；及び
機械学習モデルを呼び出すステップ、前記機械学習モデルにサンプルターゲットイベントを入力するステップ、サービスタイプを出力するステップ、並びに、出力された前記サービスタイプ及び前記サンプルターゲットイベントを前記マッピング関係に書き込むステップ、を含み、前記機械学習モデルは、イベントに基づいてサービスタイプを予測するために使用される、
請求項２、又は請求項２を引用する請求項３乃至７のいずれか１項に記載の方法。
前記の前記音声命令に対応する意味情報に基づいて、前記意味情報に対応する第１のサービスを取得するステップの後に、前記方法は、さらに：
前記第１のサービスの前記サービスタイプが前記サービスタイプセットの全てのターゲットサービスタイプと異なる場合、前記第１のサービスの前記サービスタイプを前記マッピング関係に書き込むステップを含む、
請求項１又は２に記載の方法。
前記の前記音声命令に対応する意味情報に基づいて、前記意味情報に対応する第１のサービスを取得するステップの後に、前記方法は、さらに：
前記音声命令に対応する前記意味情報に基づいて、前記マッピング関係における確率を更新するステップを含む、
請求項２、又は請求項２を引用する請求項３乃至８のいずれか１項に記載の方法。
前記の前記音声命令に対応する前記意味情報に基づいて、前記マッピング関係における確率を更新するステップは、次の：
前記第１のサービスの前記サービスタイプが、前記サービスタイプセットのいずれかのターゲットサービスタイプである場合、前記マッピング関係における前記第１のサービスの前記サービスタイプに対応する確率を増加させるステップ；
前記第１のサービスの前記サービスタイプが、前記サービスタイプセットの全てのターゲットサービスタイプと異なる場合、前記マッピング関係における前記サービスタイプセットの各ターゲットサービスタイプに対応する前記確率を減少させるステップ；及び
前記意味情報がウェイクアップワードを含む場合、前記マッピング関係における前記第１のサービスの前記サービスタイプに対応する前記確率を増加させるステップ；
のうちのいずれか１つを含む、
請求項１０に記載の方法。
前記の前記音声命令に対応する意味情報に基づいて、前記意味情報に対応する第１のサービスを取得するステップの後に、前記方法は、さらに：
前記第１のサービスの前記サービスタイプが、前記サービスタイプセットの全てのターゲットサービスタイプと異なる場合、前記音声命令を破棄するステップを含む、
請求項１乃至１１のいずれか１項に記載の方法。
音声対話装置であって、前記装置は：
ターゲットイベントが検出されたことを決定するように構成される決定モジュールであって、前記ターゲットイベントは音声対話をトリガすることができるイベントである、決定モジュールと；
サービスタイプセットを取得するために、前記ターゲットイベントに基づいてマッピング関係を照会するように構成される照会モジュールであって、前記サービスタイプセットは、１つ又は複数のターゲットサービスタイプを含む、照会モジュールと；
音声命令を収集するように構成される収集モジュールと；
前記音声命令に対応する意味情報に基づいて、前記意味情報に対応する第１のサービスを取得するように構成される、取得モジュールと；
前記第１のサービスのサービスタイプが前記サービスタイプセットのいずれかのターゲットサービスタイプである場合、前記音声命令に従って前記第１のサービスを実行するように構成されるサービス実行モジュールと；を有し、
前記マッピング関係を確立するプロセスが：
過去のレコードに基づいて、過去のターゲットイベントに関連付けられた過去のサービスを取得するステップ、及び、前記過去のサービスのサービスタイプ及び前記過去のターゲットイベントを前記マッピング関係に書き込むステップ；及び
機械学習モデルを呼び出すステップ、前記機械学習モデルにサンプルターゲットイベントを入力するステップ、サービスタイプを出力するステップ、並びに、出力された前記サービスタイプ及び前記サンプルターゲットイベントを前記マッピング関係に書き込むステップ、を含み、前記機械学習モデルは、イベントに基づいてサービスタイプを予測するために使用される、
装置。
音声対話装置であって、前記装置は：
ターゲットイベントが検出されたことを決定するように構成される決定モジュールであって、前記ターゲットイベントは音声対話をトリガすることができるイベントである、決定モジュールと；
サービスタイプセットを取得するために、前記ターゲットイベントに基づいてマッピング関係を照会するように構成される照会モジュールであって、前記サービスタイプセットは、１つ又は複数のターゲットサービスタイプを含む、照会モジュールと；
音声命令を収集するように構成される収集モジュールと；
前記音声命令に対応する意味情報に基づいて、前記意味情報に対応する第１のサービスを取得するように構成される、取得モジュールと；
前記第１のサービスのサービスタイプが前記サービスタイプセットのいずれかのターゲットサービスタイプである場合、前記音声命令に従って前記第１のサービスを実行するように構成されるサービス実行モジュールと；を有し、
前記照会モジュールは、さらに、前記サービスタイプセット及び前記サービスタイプセットの各ターゲットサービスタイプに対応する確率を取得するために、前記ターゲットイベントに基づいて前記マッピング関係を照会するように構成され、前記確率は、前記ターゲットサービスタイプに対応するサービスを実行する可能性を示し、
前記装置はさらに：確率が確率閾値を満たさないターゲットサービスタイプを前記１つ又は複数のターゲットサービスタイプからフィルタ除去するように構成される、フィルタリングモジュールを有する、
装置。
前記決定モジュールは、ユーザの第１操作が検出されたことを決定するように構成され；
前記照会モジュールは、前記サービスタイプセットを取得するために、前記第１操作に基づいて前記マッピング関係を照会するように構成され、前記サービスタイプセットに含まれる前記ターゲットサービスタイプは、１つ又は複数のターゲット第２操作に対応するサービスタイプであり、前記１つ又は複数のターゲット第２操作は、前記第１操作に関連付けられる連続操作である、
請求項１３又は１４に記載の装置。
前記決定モジュールは、オペレーティングシステム又はアプリケーションから通知メッセージを受信するように構成され；
前記照会モジュールは、前記サービスタイプセットを取得するために、前記通知メッセージに基づいて前記マッピング関係を照会するように構成され、前記サービスタイプセットに含まれる前記ターゲットサービスタイプは、前記通知メッセージに対応するメッセージ閲覧又はメッセージ処理である、
請求項１３又は１４に記載の装置。
前記通知メッセージは、通話通知、ショートメッセージサービスメッセージ、インスタントメッセージングメッセージ、及びアラームメッセージのうちの少なくとも１つを含み；前記照会モジュールは、次の：
前記サービスタイプセットを取得するために、前記通話通知に基づいて前記マッピング関係を照会するステップであって、前記サービスタイプセットに含まれる前記ターゲットサービスタイプは通話応答である、ステップ；
前記サービスタイプセットを取得するために、前記ショートメッセージサービスメッセージ又は前記インスタントメッセージングメッセージに基づいて前記マッピング関係を照会するステップであって、前記サービスタイプセットに含まれる前記ターゲットサービスタイプはメッセージ閲覧又はメッセージ返信である、ステップ；及び
前記サービスタイプセットを取得するために、前記アラームメッセージに基づいて前記マッピング関係を照会するステップであって、前記サービスタイプセットに含まれる前記ターゲットサービスタイプはトラブルシューティング又は情報照会である、ステップ；
のうちの少なくとも１つを実行するように構成される、
請求項１６に記載の装置。
前記決定モジュールは、現在の環境パラメータが第１の条件を満たすことを決定するように構成され；
前記照会モジュールは、前記サービスタイプセットを取得するために、前記環境パラメータに基づいて前記マッピング関係を照会するように構成され、前記サービスタイプセットに含まれる前記ターゲットサービスタイプは環境パラメータ調整である、
請求項１３又は１４に記載の装置。
前記決定モジュールは、現在のサービスの進捗が第２の条件を満たすことを決定するように構成され；
前記照会モジュールは、前記サービスタイプセットを取得するために、前記現在のサービスに基づいて前記マッピング関係を照会するように構成され、前記サービスタイプセットに含まれる前記ターゲットサービスタイプは前記現在のサービスのサービスタイプである、
請求項１３又は１４に記載の装置。
前記マッピング関係を確立するプロセスが：
過去のレコードに基づいて、過去のターゲットイベントに関連付けられた過去のサービスを取得するステップ、及び、前記過去のサービスのサービスタイプ及び前記過去のターゲットイベントを前記マッピング関係に書き込むステップ；及び
機械学習モデルを呼び出すステップ、前記機械学習モデルにサンプルターゲットイベントを入力するステップ、サービスタイプを出力するステップ、並びに、出力された前記サービスタイプ及び前記サンプルターゲットイベントを前記マッピング関係に書き込むステップ、を含み、前記機械学習モデルは、イベントに基づいてサービスタイプを予測するために使用される、
請求項１４、又は請求項１４を引用する請求項１５乃至１９のいずれか１項に記載の装置。
前記装置は、さらに：
前記第１のサービスの前記サービスタイプが前記サービスタイプセットの全てのターゲットサービスタイプと異なる場合、前記第１のサービスの前記サービスタイプを前記マッピング関係に書き込むように構成される、書き込みモジュールを有する、
請求項１３又は１４に記載の装置。
前記装置は、さらに：
前記音声命令に対応する前記意味情報に基づいて、前記マッピング関係における確率を更新するように構成される更新モジュールを有する、
請求項１４、又は請求項１４を引用する請求項１５乃至１９のいずれか１項に記載の装置。
前記更新モジュールは、次の：
前記第１のサービスの前記サービスタイプが、前記サービスタイプセットのいずれかのターゲットサービスタイプである場合、前記マッピング関係における前記第１のサービスの前記サービスタイプに対応する確率を増加させるステップ；
前記第１のサービスの前記サービスタイプが、前記サービスタイプセットの全てのターゲットサービスタイプと異なる場合、前記マッピング関係における前記サービスタイプセットの各ターゲットサービスタイプに対応する前記確率を減少させるステップ；及び
前記意味情報がウェイクアップワードを含む場合、前記マッピング関係における前記第１のサービスの前記サービスタイプに対応する前記確率を増加させるステップ；
のうちのいずれか１つを実行するように構成される、
請求項２２に記載の装置。
前記装置はさらに：
前記第１のサービスの前記サービスタイプが、前記サービスタイプセットの全てのターゲットサービスタイプと異なる場合、前記音声命令を破棄するように構成される破棄モジュールを有する、
請求項１３乃至２３のいずれか１項に記載の装置。
端末であって、前記端末は、１つ又は複数のプロセッサ及び１つ又は複数のメモリを有し、前記１つ又は複数のメモリは、少なくとも１つの命令を記憶し、前記命令は、請求項１乃至１２のいずれか１項に記載の音声対話方法を実装するように、前記１つ又は複数のプロセッサによってロード及び実行される、端末。
コンピュータ読取可能記憶媒体であって、前記記憶媒体は、少なくとも１つの命令を記憶し、前記命令は、請求項１乃至１２のいずれか１項に記載の音声対話方法を実装するように、プロセッサによってロード及び実行される、コンピュータ読取可能記憶媒体。