本出願の目的、技術的解決策、及び利点をより明確にするために、以下は、添付の図面を参照して、本出願の実施をさらに詳細に説明する。
以下は、本出願の用語を説明する。
サービスタイプは、サービスのタイプの集合的な用語であり、サービスフィールドとも呼ばれ得る。例えば、サービスタイプは、メッセージ閲覧、メッセージ処理、環境パラメータ調整、ナビゲーション、スケジュール相談、エアコン、ラジオ局、音楽、車両制御、走行距離照会、質疑応答相談、ゲーム、システム設定、車両制御、充電、メンテナンス、及びコミュニケーションを含み得る。メッセージ閲覧は、ショートメッセージサービスメッセージを閲覧すること、インスタントメッセージングアプリケーションのインスタントメッセージングメッセージを閲覧すること、及びリソース推薦アプリケーションのプッシュメッセージを閲覧することを含み得、メッセージ処理は、通話応答、メッセージ返信、トラブルシューティング、情報照会などを含み得る。環境パラメータ調整は、ダスト濃度調整、湿度調整、ライト調整、ノイズ強度調整、温度調整などを含み得る。
サービスは、特定の実行されることになるトランザクションである。例えば、メッセージ閲覧のサービスタイプのサービスは、ユーザAによって送信されたセッションメッセージXを閲覧すること、グループチャットに最近ポストされたグループ通知Yを閲覧すること、ショッピングアプリケーションによって本日ポストされた割引メッセージを閲覧することなどであり得る;環境パラメータ調整のサービスタイプのサービスは、エアコンを用いることによって温度を25°に調整することであり得る;音楽のサービスタイプのサービスは、歌手Bの最新の歌Zを再生することであり得る;ナビゲーションのサービスタイプのサービスは、C市のD区内の道路EのセルFへのナビゲーションを実行することであり得る;通話応答のサービスタイプのサービスは、発信者ZZの呼び出しに応答することであり得る;メッセージ返信のサービスタイプのサービスは、ショートメッセージサービスメッセージ「運転しているので後ほど連絡します」を用いて連絡先Gに返信することであり得る;ラジオ局のサービスタイプのサービスは、イーストラジオ局を開始することであり得る。
以下は実装環境の例示の説明を提供する。
図1は、本出願の一実施形態による音声対話方法の実装環境の概略図である。実装環境は、端末100及び音声対話プラットフォーム200を含む。
端末100は、無線ネットワーク又は有線ネットワークを使用して音声対話プラットフォーム200に接続される。端末100は、スマートフォン、インテリジェントサウンドボックス、ロボット、インテリジェントカー、車載端末、ホームデバイス、ゲームホスト、デスクトップコンピュータ、タブレットコンピュータ、電子書籍リーダ、スマートテレビ、MP3(動画エキスパートグループオーディオレイヤIII、moving picture experts group audio layer III)プレーヤ、又はMP4(動画エキスパートグループオーディオレイヤIV、moving picture experts group audio layer IV)プレーヤ、及びポータブルラップトップコンピュータの少なくとも1つであり得る。音声対話をサポートするアプリケーションが、端末100上にインストールされ、実行される。アプリケーションは、音声アシスタント、インテリジェント質疑応答アプリケーションなどであり得る。例えば、端末100は、ユーザによって使用される端末であり、ユーザカウントが、端末100上で動作するアプリケーションにログインするために使用される。
音声対話プラットフォーム200は、1つのサーバ、複数のサーバ、クラウドコンピューティングプラットフォーム、及び仮想化センターのうちの少なくとも1つを含む。音声対話プラットフォーム200は、音声対話をサポートするアプリケーションのためのバックグラウンドサービスを提供するように構成される。例えば、音声対話プラットフォームは、以下の方法の実施形態で提供されるマッピング関係を確立し得、端末100にマッピング関係を送信し得、その結果、端末100はマッピング関係に基づいて音声対話を実行する。
オプションで、音声対話プラットフォーム200は、音声対話サーバ201及びデータベース202を含む。音声対話サーバ201は、音声対話に関するバックグラウンドサービスを提供するように構成される。1つ又は複数の音声対話サーバ201があり得る。複数の音声対話サーバ201がある場合、少なくとも2つの音声対話サーバ201は、異なるサービスを提供するように構成される、及び/又は少なくとも2つの音声対話サーバ201は、同じサービスを提供するように、例えば、負荷分散を通じて同じサービスを提供するように構成される。これは、本出願のこの実施形態において限定されない。データベース202は、マッピング関係を記憶するように構成され得る。加えて、データベース202は、サンプルイベント及びサンプルサービスタイプを記憶し得、その結果、音声対話サーバ201は、サンプルイベント及びサンプルサービスタイプをデータベース202から読み取り、サンプルイベント及びサンプルサービスタイプに基づくトレーニングを通じて機械学習モデルを取得し、機械学習モデルを使用することによってマッピング関係を確立する。
端末100は、複数の端末のうちの1つであり得る。この実施形態では、端末100は、説明のための一例として単に使用される。当業者は、より多くの又はより少ない端末100があり得ることを知ることができる。例えば、1つの端末100があり得る、又は、数十個、数百個、若しくはより大きい量の端末100があり、この場合、音声対話システムは、別の端末をさらに含む。端末100の量及び端末100のデバイスタイプは、本出願のこの実施形態において限定されない。
以下は、端末のハードウェア構造の例示の説明を提供する。
図2は、本出願の一実施形態による端末100の概略構造図である。
端末100は、プロセッサ110、外部メモリインターフェース120、内部メモリ121、ユニバーサルシリアルバス(universal serial bus、USB)インターフェース130、充電管理モジュール140、電力管理モジュール141、バッテリ142、アンテナ1、アンテナ2、移動通信モジュール150、無線通信モジュール160、オーディオモジュール170、スピーカ170A、電話受信機170B、マイクロホン170C、ヘッドセットジャック170D、センサモジュール180、キー190、モータ191、インジケータ192、カメラ193、ディスプレイ194、及び加入者識別モジュール(subscriber identification module、SIM)カードインターフェース195を含み得る。センサモジュール180は、圧力センサ180A、ジャイロスコープセンサ180B、気圧センサ180C、磁気センサ180D、加速度センサ180E、距離センサ180F、光学近接センサ180G、指紋センサ180H、温度センサ180J、タッチセンサ180K、周辺光センサ180L、骨伝導センサ180Mなどを含み得る。
本出願のこの実施形態に示される構造は、端末100に対する特定の限定を構成しないことが理解されるであろう。この出願の他の実施形態では、端末100は、図に示されているものよりも多い又は少ないコンポーネントを含んでもよく、或いは、いくつかのコンポーネントを組み合わせてもよく、或いは、いくつかのコンポーネントを分割してもよく、或いは、異なるコンポーネント配置を有してもよい。図に示されるコンポーネントは、ハードウェア、ソフトウェア、又はソフトウェア及びハードウェアの組み合わせを使用することによって実装され得る。
プロセッサ110は、1つ又は複数の処理ユニットを含み得る。例えば、プロセッサ110は、アプリケーションプロセッサ(application processor、AP)、モデムプロセッサ、グラフィックス処理ユニット(graphics processing unit、GPU)、画像信号プロセッサ(image signal processor、ISP)、コントローラ、ビデオコーデック、デジタル信号プロセッサ(digital signal processor、DSP)、ベースバンドプロセッサ、及び/又はニューラルネットワーク処理ユニット(neural-network processing unit、NPU)を含み得る。異なる処理ユニットは、スタンドアロンコンポーネントであってもよく、又は1つ又は複数のプロセッサに統合されてもよい。
コントローラは、命令フェッチ及び命令実行制御を完了するために、命令動作コード及びタイミング信号に基づいて動作制御信号を生成し得る。
メモリが、さらに、プロセッサ110内に配置され得、命令及びデータを記憶するように構成される。いくつかの実施形態では、プロセッサ110のメモリはキャッシュメモリであり、メモリは、プロセッサ110によって単に使用される又は周期的に使用される命令又はデータを記憶し得る。プロセッサ110が命令又はデータを再度使用する必要がある場合、プロセッサ110は、メモリから命令又はデータを直接呼び出し得る。従って、繰り返されるアクセスが回避され、プロセッサ110の待ち時間が短縮され、それによってシステムの効率が向上する。
いくつかの実施形態では、プロセッサ110は、1つ又は複数のインターフェースを含み得る。インターフェースは、集積回路間(inter-integrated circuit、I2C)インターフェース、集積回路間サウンド(inter-integrated circuit sound、I2S)インターフェース、パルスコード変調(pulse code modulation、PCM)インターフェース、ユニバーサル非同期受信機/送信機(universal asynchronous receiver/transmitter、UART)インターフェース、モバイルインダストリプロセッサインターフェース(mobile industry processor interface、MIPI)、汎用入出力(general-purpose input/output、GPIO)インターフェース、加入者識別モジュール(subscriber identity module、SIM)インターフェース、ユニバーサルシリアルバス(universal serial bus、USB)インターフェース等を含み得る。
I2Cインターフェースは、双方向同期シリアルバスであり、シリアルデータライン(serial data line、SDA)及びシリアルクロックライン(serial clock line、SCL)を含む。いくつかの実施形態では、プロセッサ110は、I2Cバスの複数のグループを含み得る。プロセッサ110は、異なるI2Cバスインターフェースを使用することによって、タッチセンサ180K、充電器、フラッシュ、カメラ193などに結合され得る。例えば、プロセッサ110は、I2Cインターフェースを使用することによってタッチセンサ180Kに結合され得、その結果、プロセッサ110は、端末100のタッチ機能を実装するために、I2Cバスインターフェースを介してタッチセンサ180Kと通信し得る。
I2Sインターフェースはオーディオ通信に使用され得る。いくつかの実施形態では、プロセッサ110は、I2Sバスの複数のグループを含み得る。プロセッサ110は、プロセッサ110とオーディオモジュール170との間の通信を実装するために、I2Sバスを使用することによってオーディオモジュール170に結合され得る。いくつかの実施形態では、オーディオモジュール170は、Bluetooth(ブルートゥース)(登録商標)ヘッドセットを使用して通話に応答する機能を実装するために、I2Sインターフェースを通じてオーディオ信号を無線通信モジュール160に送信し得る。
PCMインターフェースはまた、アナログ信号のサンプリング、量子化、及びコーディングを実行するためにオーディオ通信に使用され得る。いくつかの実施形態では、オーディオモジュール170は、PCMバスインターフェースを使用することによって無線通信モジュール160に結合され得る。いくつかの実施形態では、オーディオモジュール170はまた、Bluetoothヘッドセットを使用して通話に応答する機能を実装するために、PCMインターフェースを通じて無線通信モジュール160にオーディオ信号を送信し得る。I2Sインターフェース及びPCMインターフェースの両方はオーディオ通信に使用され得る。
UARTインターフェースは汎用シリアルデータバスであり、非同期通信に使用される。バスは、双方向通信バスであり得る。UARTインターフェースは、シリアル通信とパラレル通信との間で送信されることになるデータを変換する。いくつかの実施形態では、UARTインターフェースは、通常、プロセッサ110と無線通信モジュール160とを接続するように構成される。例えば、プロセッサ110は、Bluetooth機能を実装するために、UARTインターフェースを通じて無線通信モジュール160内のBluetoothモジュールと通信する。いくつかの実施形態では、オーディオモジュール170は、Bluetoothヘッドセットを使用して音楽を再生する機能を実装するために、UARTインターフェースを通じてオーディオ信号を無線通信モジュール160に送信し得る。
MIPIインターフェースは、プロセッサ110と、ディスプレイ194又はカメラ193などの周辺コンポーネントとを接続するように構成され得る。MIPIインターフェースは、カメラシリアルインターフェース(camera serial interface、CSI)、ディスプレイシリアルインターフェース(display serial interface、DSI)などを含む。いくつかの実施形態では、プロセッサ110は、端末100の写真撮影機能を実装するために、CSIインターフェースを通じてカメラ193と通信する。プロセッサ110は、端末100の表示機能を実現するために、DSIインターフェースを通じてディスプレイ194と通信する。
GPIOインターフェースは、ソフトウェアを使用することによって設定され得る。GPIOインターフェースは、制御信号として構成され得る、又はデータ信号として構成され得る。いくつかの実施形態では、GPIOインターフェースは、プロセッサ110と、カメラ193、ディスプレイ194、無線通信モジュール160、オーディオモジュール170、センサモジュール180などを接続するように構成され得る。代替的には、GPIOインターフェースは、I2Cインターフェース、I2Sインターフェース、UARTインターフェース、MIPIインターフェースなどとして構成され得る。
USBインターフェース130は、USB規格に準拠したインターフェースであり、特に、ミニUSBインターフェース、マイクロUSBインターフェース、USBタイプCインターフェースなどであり得る。USBインターフェース130は、端末100を充電するための充電器に接続するように構成され得、また、端末100と周辺デバイスとの間でデータを送信するように構成され得る。USBインターフェース130はまた、ヘッドセットを使用することによってオーディオを再生するためにヘッドセットに接続するように構成され得る。インターフェースは、ARデバイスなどの別の端末に接続するようにさらに構成され得る。
本出願のこの実施形態で示されるモジュール間のインターフェース接続関係は、単なる概略説明であり、端末100の構造的限定を構成しないことが理解されよう。代替的に、本出願の他の実施形態では、端末100は、前述の実施形態とは異なるインターフェース接続方法、又は複数のインターフェース接続方法の組み合わせを使用し得る。
充電管理モジュール140は、充電器からの充電入力を受けるように構成される。充電器は無線充電器であり得る、又は有線充電器であり得る。有線充電のいくつかの実施形態では、充電管理モジュール140は、USBインターフェース130を通じて有線充電器からの充電入力を受け得る。無線充電のいくつかの実施形態では、充電管理モジュール140は、端末100の無線充電コイルを通じて無線充電入力を受け得る。バッテリ142を充電するとき、充電管理モジュール140は、電力管理モジュール141を使用することによって端末に電力をさらに供給し得る。
電力管理モジュール141は、バッテリ142、充電管理モジュール140、及びプロセッサ110に接続するように構成される。電力管理モジュール141は、バッテリ142及び/又は充電管理モジュール140から入力を受け、プロセッサ110、内部メモリ121、ディスプレイ194、カメラ193、無線通信モジュール160などに電力を供給する。電力管理モジュール141は、さらに、バッテリ容量、バッテリサイクルの量、及びバッテリの健全性状態(リーク又はインピーダンス)などのパラメータを監視するように構成され得る。他の実施形態では、電力管理モジュール141はまた、プロセッサ110内に配置され得る。他の実施形態では、電力管理モジュール141及び充電管理モジュール140は、同じコンポーネント内に配置され得る。
端末100の無線通信機能は、アンテナ1、アンテナ2、移動通信モジュール150、無線通信モジュール160、モデムプロセッサ、ベースバンドプロセッサなどを使用することによって実装され得る。
アンテナ1及びアンテナ2は、電磁波信号を送受信するように構成される。端末100の各アンテナは、1つ又は複数の通信周波数帯域をカバーするように構成され得る。異なるアンテナが、アンテナ利用率を向上させるために多重化され得る。例えば、アンテナ1は、無線ローカルエリアネットワークのダイバーシティアンテナに多重化され得る。他の実施形態では、アンテナは、同調スイッチと組み合わせて使用され得る。
移動通信モジュール150は、端末100に適用され、2G/3G/4G/5Gなどの無線通信を含む解決策を提供し得る。移動通信モジュール150は、少なくとも1つのフィルタ、スイッチ、電力増幅器、低ノイズ増幅器(low noise amplifier、LNA)などを含み得る。移動通信モジュール150は、アンテナ1を使用することによって電磁波を受信し得、受信した電磁波に対するフィルタリング及び増幅などの処理を実行し得、処理後に得られた電磁波を復調のためにモデムプロセッサに送信し得る。移動通信モジュール150はさらに、モデムプロセッサによる変調後に得られた信号を増幅し得、その信号を電磁波に変換し得、アンテナ1を使用することによって電磁波を放射し得る。いくつかの実施形態では、移動通信モジュール150の少なくともいくつかの機能モジュールは、プロセッサ110に配置され得る。いくつかの実施形態では、移動通信モジュール150の少なくともいくつかの機能モジュールは、プロセッサ110の少なくともいくつかのモジュールと同じコンポーネントに配置され得る。
モデムプロセッサは、変調器及び復調器を含み得る。変調器は、送信されることになる低周波ベースバンド信号を中間高周波信号に変調するように構成される。復調器は、受信した電磁波信号を低周波ベースバンド信号に復調するように構成される。次に、復調器は、復調によって得られた低周波ベースバンド信号を処理のためにベースバンドプロセッサに送信する。ベースバンドプロセッサによって処理された後、低周波ベースバンド信号はアプリケーションプロセッサに送信される。アプリケーションプロセッサは、オーディオデバイス(スピーカ170A、電話受信機170Bなどに限定されない)を使用することによって音響信号を出力する、又は、ディスプレイ194を使用することによって画像又はビデオを表示する。いくつかの実施形態では、モデムプロセッサは、スタンドアロンコンポーネントであり得る。他の実施形態では、モデムプロセッサは、プロセッサ110から独立し得、移動通信モジュール150又は他の機能モジュールと同じコンポーネントに配置され得る。
無線通信モジュール160は、端末100に適用され、無線ローカルエリアネットワーク(wireless local area networks、WLAN)(例えば、ワイヤレスフィデリティ(wireless fidelity、Wi-Fi)ネットワーク)、Bluetooth(ブルートゥース、BT)、グローバルナビゲーション衛星システム(global navigation satellite system、GNSS)、周波数変調(frequency modulation、FM)、近距離無線通信(near field communication、NFC)、及び赤外(infrared、IR)技術などの無線通信を含む解決策を提供し得る。無線通信モジュール160は、少なくとも1つの通信処理モジュールと一体化された1つ又は複数のコンポーネントであり得る。無線通信モジュール160は、アンテナ2を使用することによって電磁波を受信し、電磁波信号に対して周波数変調及びフィルタ処理を実行し、処理後に得られた信号をプロセッサ110に送信する。無線通信モジュール160は、さらに、プロセッサ110から送信されることになる信号を受信し得、送信されることになる信号に対して周波数変調及び増幅を実行し得、信号を電磁波に変換し得、アンテナ2を使用することによって電磁波を放射し得る。
いくつかの実施形態では、端末100のアンテナ1は移動通信モジュール150に結合され、アンテナ2は無線通信モジュール160に結合され、その結果、端末100は、無線通信技術を使用することによって、ネットワーク及び他のデバイスと通信することができる。無線通信技術は、移動体通信のためのグローバルシステム(global system for mobile communications、GSM)、汎用パケット無線サービス(general packet radio service、GPRS)、符号分割多元接続(code division multiple access、CDMA)、広帯域符号分割多元接続(wideband code division multiple access、WCDMA)、時分割符号分割多元接続(time-division code division multiple access、TD-SCDMA)、ロングタームエボリューション(long term evolution、LTE)、BT、GNSS、WLAN、NFC、FM、IR技術などを含み得る。GNSSは、全地球測位システム(global positioning system、GPS)、全地球ナビゲーション衛星システム(global navigation satellite system、GLONASS)、北斗ナビゲーション衛星システム(beidou navigation satellite system、BDS)、準天頂衛星システム(quasi-zenith satellite system、QZSS)、及び/又は衛星ベースの増強システム(satellite based augmentation system、SBAS)を含み得る。
端末100は、GPU、ディスプレイ194、アプリケーションプロセッサ等を使用することによってディスプレイ機能を実装する。GPUは画像処理のためのマイクロプロセッサであり、ディスプレイ194及びアプリケーションプロセッサに接続される。GPUは、グラフィックスレンダリングのための数学的及び幾何学的計算を実行するように構成される。プロセッサ110は、表示情報を生成又は変更するようにプログラム命令を実行する1つ又は複数のGPUを含み得る。
ディスプレイ194は、画像、ビデオ等を表示するように構成される。ディスプレイ194は、ディスプレイパネルを含む。表示パネルは、液晶ディスプレイ(liquid crystal display、LCD)、有機発光ダイオード(organic light-emitting diode、OLED)、アクティブマトリックス有機発光ダイオード(active-matrix organic light emitting diode、AMOLED)、フレキシブル発光ダイオード(flex light-emitting diode、FLED)、ミニLED、マイクロLED、マイクロOLED、量子ドット発光ダイオード(quantum dot light emitting diodes、QLED)などを使用し得る。いくつかの実施形態では、端末100は、1つ又はN個のディスプレイ194を含み得、ここで、Nは、1より大きい正の整数である。
端末100は、ISP、カメラ193、ビデオコーデック、GPU、ディスプレイ194、アプリケーションプロセッサなどを使用することによって、撮影機能を実装し得る。
ISPは、カメラ193によってフィードバックされたデータを処理するように構成される。例えば、撮影の間、シャッターが開かれ、光がレンズを使用することによってカメラ感光素子に伝達され、光信号が電気信号に変換され、カメラ感光素子は処理のためにISPに電気信号を送信し、その結果、電気信号は、肉眼で見ることができる画像に変換される。ISPはさらに、画像のノイズ、輝度、及びスキンカラーに関してアルゴリズム最適化を実行し得る。ISPはさらに、撮影シーンの露光及び色温度などのパラメータを最適化し得る。いくつかの実施形態では、ISPは、カメラ193に配置され得る。
カメラ193は、静止画又はビデオをキャプチャするように構成される。物体の光学画像が、レンズを使用することによって生成され、感光素子上に投影される。感光素子は、電荷結合素子(charge coupled device、CCD)又は相補型金属-酸化物-半導体(complementary metal-oxide-semiconductor、CMOS)フォトトランジスタであり得る。感光素子は、光信号を電気信号に変換し、その後、電気信号をデジタル画像信号に変換するために、電気信号をISPに送信する。ISPは、デジタル画像信号を処理のためにDSPに出力する。DSPは、デジタル画像信号をRGB又はYUVなどの標準フォーマットの画像信号に変換する。いくつかの実施形態では、端末100は、1つ又はN個のカメラ193を含み得、ここで、Nは、1より大きい正の整数である。
デジタル信号プロセッサは、デジタル信号を処理するように構成される。デジタル画像信号に加えて、デジタル信号プロセッサは、別のデジタル信号を処理し得る。例えば、端末100が周波数を選択するとき、デジタル信号プロセッサは、周波数エネルギに対してフーリエ変換などを実行するように構成される。
ビデオコーデックは、デジタルビデオを圧縮又は解凍するように構成される。端末100は、1つ又は複数のビデオコーデックをサポートし得る。この場合、端末100は、複数のエンコーディングフォーマット、例えば、動画専門家グループ(moving picture experts group、MPEG)-1、MPEG-2、MPEG-3、及びMPEG-4でビデオを再生又は記録し得る。
NPUは、ニューラルネットワーク(neural-network、NN)コンピューティングプロセッサである。生体ニューラルネットワーク構造を使用することによって、例えば、ヒト脳ニューロン間の伝達モードを使用することによって、NPUは、入力情報を迅速に処理し、さらに、自己学習を継続的に実行し得る。端末100のインテリジェント認識のアプリケーション、例えば、画像認識、顔認識、音声認識、テキスト理解は、NPUを使用することによって実装され得る。
外部メモリインターフェース120は、端末100の記憶能力を拡張するために、マイクロSDカードなどの外部記憶カードに接続するように構成され得る。外部記憶カードは、データ記憶機能を実装するために、外部記憶インターフェース120を通じてプロセッサ110と通信する。例えば、音楽又はビデオなどのファイルが外部記憶カードに記憶される。
内部メモリ121は、コンピュータ実行可能プログラムコードを記憶するように構成され得る。実行可能プログラムコードは命令を含む。内部メモリ121は、プログラム記憶領域及びデータ記憶領域を含み得る。プログラム記憶領域は、オペレーティングシステム、少なくとも1つの機能(例えば、音声再生機能又は画像再生機能)によって必要とされるアプリケーションなどを記憶し得る。データ記憶領域は、端末100を使用するプロセスで作成されたデータ(例えば、オーディオデータ又はアドレス帳)などを記憶し得る。加えて、内部メモリ121は、高速ランダムアクセスメモリを含み得る、又は少なくとも1つの磁気ディスク記憶コンポーネント、フラッシュメモリコンポーネント、又はユニバーサルフラッシュ記憶装置(universal flash storage、UFS)などの不揮発性メモリを含み得る。プロセッサ110は、内部メモリ121に記憶された命令及び/又はプロセッサに配置されたメモリに記憶された命令を実行することによって、端末100の様々な機能アプリケーション及びデータ処理を実行する。
端末100は、オーディオモジュール170、スピーカ170A、電話受信機170B、マイクロホン170C、ヘッドセットジャック170D、アプリケーションプロセッサなどを使用することによって、音楽再生又は録音などのオーディオ機能を実装し得る。
オーディオモジュール170は、デジタルオーディオ情報をアナログオーディオ信号出力に変換するように構成され、アナログオーディオ入力をデジタルオーディオ信号に変換するように構成される。オーディオモジュール170は、さらに、オーディオ信号をエンコード及びデコードするように構成され得る。いくつかの実施形態では、オーディオモジュール170は、プロセッサ110に配置され得る、又は、オーディオモジュール170のいくつかの機能モジュールは、プロセッサ110に配置され得る。
スピーカ170Aは、「ホーン」とも呼ばれ、オーディオ電気信号を音響信号に変換するように構成される。端末100は、スピーカ170Aを使用することによって、音楽を聞く又はハンズフリー通話を聞き得る。
「イヤピース」とも呼ばれる電話受信機170Bは、オーディオ電気信号を音響信号に変換するように構成される。通話又は音声情報を聞くとき、端末100は、電話受信機170Bを耳の近くに置くことによって音声を聞き得る。
マイクロホン170Cは、音響信号を電気信号に変換するように構成される。通話を行う又は音声情報を送信するとき、ユーザは、口をマイクロホン170Cに近づけることによって音声を発し得、マイクロホン170Cに音響信号を入力し得る。少なくとも1つのマイクロホン170Cが、端末100に配置され得る。他の実施形態では、2つのマイクロホン170Cが、音響信号を収集することに加えて、ノイズ除去機能を実装するために、端末100に配置され得る。他の実施形態では、3つ、4つ、又はそれより多くのマイクロホン170Cが、音響信号を収集し、ノイズ除去を実行し、音源を識別し、方向記録機能を実装するなどのために、端末100に配置され得る。
ヘッドセットジャック170Dは、有線ヘッドセットに接続するように構成される。ヘッドセットジャック170Dは、USBインターフェース130、3.5mmオープンモバイル端末プラットフォーム(open mobile terminal platform、OMTP)標準インターフェース、又は米国のセルラー電気通信工業会(cellular telecommunications industry association of the USA、CTIA)標準インターフェースであり得る。
圧力センサ180Aは、圧力信号を感知するように構成され、圧力信号を電気信号に変換し得る。いくつかの実施形態では、圧力センサ180Aは、ディスプレイ194に配置され得る。多くのタイプの圧力センサ180A、例えば、抵抗圧力センサ、誘導圧力センサ、及び容量性圧力センサがある。容量性圧力センサは、導電性材料を有する少なくとも2つの平行なプレートを含み得る。圧力センサ180Aに力が作用するとき、電極間の静電容量が変化する。端末100は、静電容量の変化に基づいて圧力強度を決定する。タッチ操作がディスプレイ194上で実行されるとき、端末100は、圧力センサ180Aに基づいてタッチ操作の強さを検出する。端末100はまた、検出された圧力センサ180Aの信号に基づいてタッチ位置を計算し得る。いくつかの実施形態では、同じタッチ位置で実行されるが、異なるタッチ操作強度を有するタッチ操作は、異なる操作命令に対応し得る。例えば、ショートメッセージサービスメッセージアプリケーションアイコンに対して、タッチ操作強度が第1の圧力閾値未満であるタッチ操作が実行されるとき、ショートメッセージサービスメッセージを閲覧するための命令が実行される;又は、ショートメッセージサービスメッセージアプリケーションアイコンに対して、タッチ操作強度が第1の圧力閾値以上のタッチ操作が実行されるとき、ショートメッセージサービスメッセージを新規に作成するための命令が実行される。
ジャイロスコープセンサ180Bは、端末100の運動姿勢(motion posture)を決定するように構成され得る。いくつかの実施形態では、3つの軸(すなわち、x、y、及びz軸)上の端末100の角速度が、ジャイロスコープセンサ180Bを使用することによって決定され得る。ジャイロスコープセンサ180Bは、撮影安定化のために使用され得る。例えば、シャッターが押されるとき、ジャイロスコープセンサ180Bは、端末100のジッタ角度を検出し、その角度に基づいて、レンズモジュールによって補償される必要のある距離を計算し、その結果、レンズは、逆の動き(reverse motion)を通じて端末100のジッタを除去し、それによって、安定化を実装する。ジャイロスコープセンサ180Bは、さらに、ナビゲーション及び体性感覚ゲームのシナリオのために使用され得る。
気圧センサ180Cは、気圧を測定するように構成される。いくつかの実施形態では、端末100は、位置決め及びナビゲーションを支援するために、測定を通じて気圧センサ180Cによって取得される気圧値を使用することによって高度を計算する。
磁気センサ180Dは、ホール効果センサを含む。端末100は、磁気センサ180Dを使用することによって、フリップレザーケースの開閉を検出し得る。いくつかの実施形態では、端末100がフリップ電話である場合、端末100は、磁気センサ180Dに基づいてフリップカバーの開閉を検出し得る。さらに、フリップオープンの場合の自動ロック解除などの機能が、レザーケース又はフリップカバーの検出された開/閉状態に基づいて設定される。
加速度センサ180Eは、各方向(通常は3軸)における端末100の加速度の値を検出し得る。端末100が静止しているとき、加速度センサ180Eは、重力の値及び方向を検出し得る。加速度センサ180Eは、さらに、端末の姿勢を識別するように構成され得、横向きモードと縦向きモードとの間のスクリーン切り替え及び歩数計などのアプリケーションに適用される。
距離センサ180Fは、距離を測定するように構成される。端末100は、赤外線又はレーザーを使用することによって距離を測定し得る。いくつかの実施形態では、撮影シナリオにおいて、端末100は、高速焦点合わせを実装するために、距離センサ180Fを使用することによって距離を測定し得る。
光学近接センサ180Gは、例えば、発光ダイオード(LED)と、フォトダイオードのような光学検出器とを含み得る。発光ダイオードは赤外線発光ダイオードであり得る。端末100は、発光ダイオードを使用することによって赤外線を放射する。端末100は、フォトダイオードを使用することによって、近くの物体から来る反射された赤外線を検出する。十分な反射光が検出されるとき、端末100の近くに物体があると決定され得る。不十分な反射光が検出される場合、端末100は、物体が端末100の近くにないと決定し得る。端末100は、光学近接センサ180Gを使用することによって、ユーザによって保持される端末100が通話のために耳の近くにあることを検出して、電力を節約するためにスクリーンを自動的にオフにし得る。光学近接センサ180Gはまた、自動的なロック解除及びロックのためにレザーケースモード及びポケットモードで使用され得る。
周辺光センサ180Lは、辺囲光輝度を感知するように構成される。端末100は、感知された周辺光輝度に基づいてディスプレイ194の輝度を適応的に調整し得る。周辺光センサ180Lはまた、撮影中にホワイトバランスを自動的に調整するように構成され得る。周辺光センサ180Lは、さらに、端末100がポケットにあるかどうかを検出するために光学近接センサ180Gと協働し得、それによって、誤ったタッチを回避する。
指紋センサ180Hは、指紋を収集するように構成される。端末100は、収集された指紋機能を使用することによって、指紋ロック解除、アプリケーションロックアクセス、指紋撮影、指紋ベースの通話応答などを実装し得る。
温度センサ180Jは、温度を検出するように構成される。いくつかの実施形態では、端末100は、温度センサ180Jによって検出される温度を使用することによって温度処理方針を実行する。例えば、温度センサ180Jによって報告された温度が閾値を超えるとき、端末100は、電力消費を低減し、熱保護を実現するために、温度センサ180J近くのプロセッサのパフォーマンスを低下させる。他の実施形態では、温度が別の閾値未満であるとき、端末100は、低温によって引き起こされる端末100の異常なシャットダウンを回避するために、バッテリ142を加熱する。他の実施形態では、温度がさらに別の閾値未満である場合、端末100は、低温によって引き起こされる異常なシャットダウンを回避するために、バッテリ142の出力電圧をブーストする。
タッチセンサ180Kは、「タッチコンポーネント」とも呼ばれる。タッチセンサ180Kは、ディスプレイ194に配置され得る。タッチスクリーンは、タッチセンサ180K及びディスプレイ194を含む。タッチセンサ180Kは、タッチセンサ180K上又はその近くで実行されるタッチ操作を検出するように構成される。タッチセンサは、タッチイベントタイプを判定するために、検出されたタッチ操作をアプリケーションプロセッサに送信し得る。タッチ操作に関連する視覚出力は、ディスプレイ194を使用することによって提供され得る。他の実施形態では、タッチセンサ180Kは、端末100の表面上に配置され得、ディスプレイ194の表面とは異なる位置に配置される。
骨伝導センサ180Mは、振動信号を取得し得る。いくつかの実施形態では、骨伝導センサ180Mは、ヒトの音響振動骨ブロックの振動信号を取得し得る。骨伝導センサ180Mはまた、血圧ビート信号を受信するために、人間の脈と接触し得る。いくつかの実施形態では、骨伝導センサ180Mはまた、骨伝導ヘッドセットを形成するためにヘッドセットに配置され得る。オーディオモジュール170は、音声機能を実装するために、音響振動骨ブロックの振動信号であり及び骨伝導センサ180Mによって取得される振動信号に基づく解析を通じて音声命令を取得し得る。アプリケーションプロセッサは、心拍数検出機能を実装するために、骨伝導センサ180Mによって取得された血圧ビート信号に基づく解析を通じて心拍数情報を取得し得る。
キー190は、電源オンキー、ボリュームキー等を含む。キー190は、機械的キーであり得る、又はタッチキーであり得る。端末100は、端末100のユーザ設定及び機能制御に関連するキー信号入力を生成するためにキー入力を受信し得る。
モータ191は、振動プロンプトを生成し得る。モータ191は、通話振動プロンプトのために使用され得る、又は、タッチ振動フィードバックのために使用され得る。例えば、異なるアプリケーション(例えば、撮影及びオーディオ再生)に対して実行されるタッチ操作は、異なる振動フィードバック効果に対応し得る。モータ191はまた、タッチ操作がディスプレイ194の異なる領域で実行されるとき、異なる振動フィードバック効果に対応し得る。異なる応用シナリオ(例えば、時間リマインダ、情報受信、目覚まし時計、及びゲーム)もまた、異なる振動フィードバック効果に対応し得る。タッチ振動フィードバック効果は、さらにカスタマイズされ得る。
インジケータ192は、インジケータランプであり得、充電状態及び電源変更を示すように構成され得、またメッセージ、不在着信、通知などを示すために使用され得る。
SIMカードインターフェース195は、SIMカードに接続するように構成される。SIMカードは、端末100との接触及び端末100からの分離を実装するために、SIMカードインターフェース195に挿入され得る又はSIMカードインターフェース195から取り外され得る。端末100は、1つ又はN個のSIMカードインターフェースをサポートし得、Nは1より大きい正の整数である。SIMカードインターフェース195は、ナノSIMカード、マイクロSIMカード、SIMカードなどをサポートし得る。複数のカードが同じSIMカードインターフェース195に挿入され得る。複数のカードは、同じタイプ又は異なるタイプのものであり得る。SIMカードインターフェース195はまた、異なるタイプのSIMカードと互換性があり得る。SIMカードインターフェース195はまた、外部記憶カードと互換性があり得る。端末100は、通話及びデータ通信などの機能を実装するために、SIMカードを使用することによってネットワークと相互作用する。いくつかの実施態様では、端末100は、eSIMカード、すなわち、埋め込みSIMカードを使用する。eSIMカードは、端末100に埋め込まれ得、端末100から分離することはできない。端末100のソフトウェアシステムは、階層アーキテクチャ、イベント駆動アーキテクチャ、マイクロカーネルアーキテクチャ、マイクロサービスアーキテクチャ、又はクラウドアーキテクチャを使用し得る。
階層アーキテクチャのアンドロイド(Android)システムが、端末100のソフトウェア構造を記述するために例として使用される。
図3は、本出願の一実施形態による端末100の機能アーキテクチャ図である。
階層アーキテクチャでは、ソフトウェアはいくつかの層を含む。各層は明確な役割と機能を有する。これらの層は、ソフトウェアインターフェースを通じて互いに通信する。いくつかの実施態様では、アンドロイドシステムは、上から下に4つの層:アプリケーション層、アプリケーションフレームワーク層、アンドロイドランタイム(Android runtime)及びシステムライブラリ、並びにカーネル層に分割される。
アプリケーション層は、一連のアプリケーションパッケージを含み得る。
図3に示すように、アプリケーションパッケージは、カメラ、アルバム、カレンダ、電話、マップ、ナビゲーション、WLAN、ブルートゥース、音楽、ビデオ、及びメッセージなどのアプリケーションを含み得る。
アプリケーションフレームワーク層は、アプリケーションプログラミングインターフェース(application programming interface、API)と、アプリケーション層におけるアプリケーションのためのプログラミングフレームワークを提供する。アプリケーションフレームワーク層は、いくつかの定義済みの機能を含む。
図3に示すように、アプリケーションフレームワーク層は、ウィンドウマネージャ、コンテンツプロバイダ、ビューシステム、電話マネージャ、リソースマネージャ、通知マネージャなどを含み得る。
ウィンドウマネージャは、ウィンドウプログラムを管理するために使用される。ウィンドウマネージャは、画面サイズを取得し、ステータスバーがあるかどうかを決定し、画面をロックし、画面をキャプチャするなどを行い得る。
コンテンツプロバイダは、データを記憶し、取得し、そのデータをアプリケーションがアクセスできるようにするために使用される。データは、ビデオ、画像、オーディオ、発信及び受信される通話、閲覧履歴、ブックマーク、アドレス帳などを含み得る。
ビューシステムは、テキストを表示するための制御及び画像を表示するための制御などの視覚的制御を含む。ビューシステムは、アプリケーションを構築するために使用され得る。ディスプレイインターフェースは、1つ又は複数のビューを含み得る。例えば、ショートメッセージサービスメッセージ通知アイコンを含む表示インターフェースは、テキストを表示するためのビューと、画像を表示するためのビューとを含み得る。
電話マネージャは、端末100の通信機能、例えば、通話状態管理(接続、ハングアップ等を含む)を提供するために使用される。
リソースマネージャは、アプリケーションのためのローカライズされた文字列、アイコン、ピクチャ、レイアウトファイル、及びビデオファイルなどのさまざまなリソースを提供する。
通知マネージャは、アプリケーションが通知情報をステータスバーに表示することを可能にし、通知タイプのメッセージを伝達するために使用され得る。メッセージは、ユーザインタラクションなしに、短い滞在の後に自動的に消滅し得る。例えば、通知マネージャは、ダウンロード完了、メッセージリマインダ等を通知するために使用される。通知マネージャはまた、チャート又はスクロールバーのテキストの形式でシステムの上部のステータスバーに現れる通知、例えば、バックグラウンドで実行中のアプリケーションの通知であり得る、又は画面上のダイアログウィンドウの形式で現れる通知であり得る。例えば、テキスト情報がステータスバーに表示され、アラート音が鳴り、端末が振動し、インジケータランプが点滅する。
アンドロイドランタイムは、カーネルライブラリ及び仮想マシンを含む。アンドロイドランタイムは、アンドロイドシステムのスケジューリングと管理を担当する。
カーネルライブラリは、2つの部分:Java言語で呼び出されることになる関数とアンドロイドカーネルライブラリを含む。
アプリケーション層及びアプリケーションフレームワーク層は、仮想マシンで動作する。仮想マシンは、バイナリファイルを取得するために、アプリケーション層とアプリケーションフレームワーク層のJavaファイルを実行する。仮想マシンは、オブジェクトのライフサイクル管理、スタック管理、スレッド管理、セキュリティ及び異常管理、並びにガーベジコレクションなどの機能を実行するために使用される。
システムライブラリは、複数の機能モジュール、例えば、サーフェスマネージャ(surface manager)、メディアライブラリ(Media Libraries)、3次元グラフィックス処理ライブラリ(例えば、OpenGL ES)、及び2Dグラフィックスエンジン(例えば、SGL)を含み得る。
サーフェスマネージャは、表示サブシステムを管理し、複数のアプリケーションのために2D及び3D層の融合を提供するために使用される。
メディアライブラリは、複数の一般的に使用されるオーディオ及びビデオフォーマット、静止画像ファイルなどの再生及び記録をサポートする。メディアライブラリは、MPEG-4、H.264、MP3、AAC、AMR、JPG、及びPNGなどの複数のオーディオ及びビデオエンコーディングフォーマットをサポートし得る。
3次元グラフィックス処理ライブラリは、3次元グラフィックス描画、画像レンダリング、合成、レイヤ処理などを実装するために使用される。
2Dグラフィックスエンジンは2D描画のための描画エンジンである。
カーネル層は、ハードウェアとソフトウェアの間の層である。カーネル層は、少なくともディスプレイドライバ、カメラドライバ、オーディオドライバ、及びセンサドライバを含む。
以下は、イベント検出シナリオを参照した端末100のソフトウェア及びハードウェアの動作プロセスの例示の説明を提供する。
例えば、ターゲットイベントは、タッチ操作がインターフェース上で実行されることである。トリガ操作を検出する手順は次を含み得る:タッチセンサ180Kがタッチ操作を受け取るとき、対応するハードウェア割り込みがカーネル層に送られる。カーネル層は、タッチ操作を処理してオリジナル入力イベント(タッチ操作のタッチ座標及びタイムスタンプなどの情報を含む)にする。オリジナル入力イベントはカーネル層に格納される。アプリケーションフレームワーク層は、タッチ操作が発生したことを検出するために、カーネル層からオリジナル入力イベントを取得し、入力イベントに対応する制御を識別する。例えば、タッチ操作はクリック操作であり、クリック操作に対応する制御は音楽アプリケーションのアイコンである。音楽アプリケーションは、音楽アプリケーションを起動し、ディスプレイ194を使用することによって音楽アプリケーションのインターフェースをさらに表示するために、アプリケーションフレームワーク層のインターフェースを起動する。
以下は、本出願の実施形態の適用シナリオの例示的説明を提供する。
本出願の実施形態は、音声対話を実行するために端末がウェイクアップされるシナリオに適用され得る。関連技術では、端末がサービスを実行することをユーザが期待するたびに、ユーザは、一度、端末のウェイクアップワードを発する必要がある。以下の方法の実施形態で提供される方法によれば、ウェイクアップワード無しのウェイクアップ機能が実装されることができる。例えば、端末のウェイクアップワードは「ハロー、アリス」である。以下は、シナリオ1~シナリオ8を参照して、比較説明を提供する:
シナリオ1:運転中、ユーザは、車載端末が曲を再生することを期待する。
関連技術では、シナリオは、次のステップ1乃至ステップ7を含む:
ステップ1:ユーザは「ハロー、アリス」と言う。
ステップ2:車載端末は、音声命令を収集し、音声命令が「ハロー、アリス」を含むと決定し、この場合、車載端末は、ユーザの音声命令に応答して、ウェイクアップされ、音声「私はここにいます」を再生する。その後、車載端末がプリセットされた期間内に音声命令を収集しなかった場合、車載端末は再びスリープする。
ステップ3:ユーザがラジオ局スイッチ(radio station switch)をオンにする。
ステップ4:ユーザは「ハロー、アリス」と言う。
ステップ5:車載端末は、音声命令を収集し、音声命令が「ハロー、アリス」を含むと決定し、この場合、車載端末は、再びウェイクアップされ、ユーザの音声命令に応答して、音声「私はここにいます」を再生する。
ステップ6:ユーザは「イーストラジオ局の曲を再生してください」と言う。
ステップ7:車載端末は、音声命令を収集し、音声命令が「ハロー、アリス」を含むと決定し、この場合、車載端末は、イーストラジオ局にラジオ局を調整し、イーストラジオ局の曲を再生する。
しかしながら、この実施形態で提供される方法では、シナリオは、以下のステップ1乃至ステップ4を含み得る:
ステップ1:ユーザがラジオ局スイッチをオンにする。
ステップ2:ラジオ局スイッチが車載端末に信号を送信し、車載端末は、ラジオ局スイッチに対するオン操作が検出されたと決定し、ターゲットサービスタイプが音楽であることを知り、ユーザが音楽のサービスタイプのサービスに対して音声対話を実行する意図を有することを予測するために、ラジオ局スイッチに対するオン操作に基づいてマッピング関係を照会する。
ステップ3:ユーザは「イーストラジオ局の曲を再生してください」と言う。
ステップ4:車載端末は、音声命令を収集し、「イーストラジオ局の曲を再生して下さい」に対応するサービスタイプが音楽であることを知り、予測されるターゲットサービスタイプが音声を通じてユーザによって表されたサービスタイプと同じであると決定し、イーストラジオ局の曲を再生する。加えて、ステップ3においてユーザが表したコンテンツが音楽と無関係である場合、車載端末はユーザによって表されたコンテンツに応答しなくてよい。
前述の説明から、ユーザは、ラジオ局スイッチをオンにすることによって、音楽のサービスタイプのサービスに対する車載端末のウェイクアップワード無しの音声対話機能をアクティブにし(activate)得、それによって、ユーザによるウェイクアップワードを頻繁に発するステップを省略することを知ることができる。
シナリオ2:運転中、ユーザはインスタントメッセージングメッセージを閲覧することを望む。
関連技術では、シナリオは、次のステップ1乃至ステップ7を含む。
ステップ1:携帯電話で動作しているアプリケーションAがインスタントメッセージングメッセージを受信する。
ステップ2:ユーザは「ハロー、アリス」と言う。
ステップ3:端末は、音声命令を収集し、音声命令が「ハロー、アリス」を含むと決定し、この場合、携帯電話がウェイクアップされ、ユーザの音声命令に応じて音声「私はここにいます」を再生する。その後、携帯電話がプリセットされた期間内に音声命令を収集しなかった場合、車載端末は再びスリープする。
ステップ4:ユーザは「ハロー、アリス」と言う。
ステップ5:携帯電話は、音声命令を収集し、音声命令が「ハロー、アリス」を含むと決定し、この場合、携帯電話は、ユーザの音声命令に応じて再びウェイクアップし、音声「私はここにいます」を再生する。
ステップ6:ユーザは「アプリケーションAが何を言っているか確認」と言う。
ステップ7:携帯電話は、音声命令を収集し、音声命令が「アプリケーションAが何を言っているのか確認」を含むと決定し、この場合、携帯電話は、アプリケーションAによって受信されたインスタントメッセージングメッセージ「午後7時にホットポットを食べよう」を取得し、音声「午後7時にホットポットを食べよう」を再生する。
しかし、この実施形態で提供される方法では、シナリオは、以下のステップ1乃至ステップ4を含み得る:
ステップ1:携帯電話で動作しているアプリケーションAがインスタントメッセージングメッセージを受信する。
ステップ2:携帯電話は、ターゲットサービスタイプがアプリケーションAであることを知り、ユーザがアプリケーションAのタイプのサービスに対する音声対話を実行する意図を有することを予測するために、受信したインスタントメッセージングメッセージに基づいてマッピング関係を照会する。
ステップ3:ユーザは「アプリケーションAが何を言っているか確認」と言う。
ステップ4:携帯電話は、音声命令を収集し、「アプリケーションAが何を言っているか確認」に対応するサービスタイプがアプリケーションAであることを知り、この場合、携帯電話は、予測されるターゲットサービスタイプが、音声を通じてユーザによって表されたサービスタイプと同じであると決定し、携帯電話は、アプリケーションAによって受信されたインスタントメッセージングメッセージ「午後7時にホットポットを食べよう」を取得し、音声「午後7時にホットポットを食べよう」を再生する。加えて、ステップ3においてユーザによって表されたコンテンツがアプリケーションAと無関係である場合、携帯電話は、ユーザによって表されたコンテンツに応答しないことがあり、それによって誤ったウェイクアップを回避する。
前述の説明から、インスタントメッセージングメッセージが受信された場合、インスタントメッセージングアプリケーションのサービスに対する携帯電話のウェイクアップワード無しの音声対話機能がアクティブにされ得、それによって、ユーザによるウェイクアップワードを頻繁に発するステップを省略することを知ることができる。
シナリオ3:ある曲が終了すると、ユーザは別の曲を再生することを望む。
関連技術では、シナリオは、次のステップ1乃至ステップ5を含む:
ステップ1:インテリジェントサウンドボックスによって現在再生されている曲Aが終了する。
ステップ2:ユーザは「ハロー、アリス」と言う。
ステップ3:インテリジェントサウンドボックスは、音声命令を収集し、音声命令が「ハロー、アリス」を含むと決定し、この場合、インテリジェントサウンドボックスは、ユーザの音声命令に応答してウェイクアップされ、音声「私はここにいます」を再生する。
ステップ4:ユーザは、「曲Bを再生」と言う
ステップ5:インテリジェントサウンドボックスは、音声命令を収集し、音声命令が「曲Bを再生」を含むと決定し、この場合、インテリジェントサウンドボックスは曲Bを再生する。
しかし、この実施形態で提供される方法では、シナリオは以下のステップ1乃至ステップ3を含み得る:
ステップ1:インテリジェントサウンドボックスによって現在再生されている曲Aが終了する場合、インテリジェントサウンドボックスは、現在のサービスの進行が条件を満たしていると決定し、インテリジェントサウンドボックスは、ターゲットサービスタイプが音楽であることを知り、ユーザが音楽のサービスタイプのサービスに対して音声対話を実行する意図を有することを予測するために、現在のサービス、すなわち、音楽に基づいてマッピング関係を照会する。
ステップ2:ユーザは、「曲Bを再生」と言う。
ステップ3:インテリジェントサウンドボックスは、音声命令を収集し、「曲Bを再生」に対応するサービスタイプが音楽であることを知り、この場合、予測されるターゲットサービスタイプが、音声を通じてユーザによって表されたサービスタイプと同じであると決定し、曲Bを再生する。加えて、ステップ2においてユーザによって表されたコンテンツが音楽と無関係である場合、インテリジェントサウンドボックスは、ユーザによって表されたコンテンツに対して応答しなくてよい。
前述の説明から、現在再生されている曲が終了する場合、音楽のサービスタイプのサービスに対する携帯電話のウェイクアップワード無しの音声対話機能がアクティブにされ得、それによって、ユーザによるウェイクアップワードを頻繁に発するステップを省略することを知ることができる。
シナリオ4:運転中に突然雨が降る。
関連技術では、シナリオは、次のステップ1乃至ステップ4を含む。
ステップ1:ユーザは「ハロー、アリス」と言う。
ステップ2:車載端末は、音声命令を収集し、音声命令が「ハロー、アリス」を含むと決定し、この場合、車載端末は、ユーザの音声命令に応答して、ウェイクアップされ、音声「私はここにいます」を再生する。
ステップ3:ユーザは、「フロントガラスワイパーオン」と言う。
ステップ4:車載端末は、音声命令を収集し、音声命令が「フロントガラスワイパーオン」を含むと決定し、この場合、車載端末は、車両のコントローラに信号を送信し、コントローラは、フロントガラスワイパーを回転させて駆動するように、フロントガラスワイパーの駆動回路を制御する。
しかし、本実施形態で提供される方法では、シナリオは次のステップ1乃至ステップ3を含み得る:
ステップ1:車載端末は、雨滴センサを使用することによって、降雨が検出されていると決定し、ターゲットサービスタイプがフロントガラスワイパーであることを知り、ユーザがフロントガラスワイパーのサービスタイプのサービスに対する音声対話を実行する意図を有することを予測するために、降雨に基づいてマッピング関係を照会する。
ステップ2:ユーザは、「フロントガラスワイパーオン」と言う。
ステップ3:車載端末は、音声命令を収集し、「フロントガラスワイパーオン」に対応するサービスタイプがフロントガラスワイパーであることを知り、予測されるターゲットサービスタイプが、音声を通じてユーザによって表されたサービスタイプと同じであると決定し、この場合、車載端末は車両のコントローラに信号を送信し、コントローラは、フロントガラスワイパーを回転させて駆動するように、フロントガラスワイパーの駆動回路に命令する。加えて、ステップ2においてユーザによって表されたコンテンツがフロントガラスワイパーと無関係である場合、車載端末はユーザによって表されたコンテンツに応答しなくてよい。
前述の説明から、雨が降る場合、フロントガラスワイパーのサービスタイプのサービスに対する携帯電話のウェイクアップワード無しの音声対話機能がアクティブにされ得、それによって、ユーザによるウェイクアップワードを頻繁に発するステップを省略することを知ることができる。
シナリオ5:運転中に車両が燃料不足である。
関連技術では、シナリオは、次のステップ1乃至ステップ4を含む:
ステップ1:ユーザは「ハロー、アリス」と言う。
ステップ2:車載端末は、音声命令を収集し、音声命令が「ハロー、アリス」を含むと決定し、この場合、携帯電話が、ユーザの音声命令に応答して、ウェイクアップされ、音声「私はここにいます」を再生する。
ステップ3:ユーザは「最も近いガソリンスタンドはどこ」と言う。
ステップ4:車載端末は、音声命令を収集し、音声命令が「最も近いガソリンスタンドはどこ」を含むと決定し、この場合、車載端末は、ナビゲーションアプリケーションのインターフェースを呼び出し、クエリを通じてガソリンスタンドのアドレスを取得し、音声「ガソリンスタンドの住所は地区Xの道路Yにある」を再生する。
しかし、この実施形態で提供される方法では、シナリオは以下のステップ1乃至ステップ3を含み得る:
ステップ1:車載端末は、車両の燃料容量を検出し、燃料容量が閾値未満であると決定し、サービスタイプセットがガソリンスタンド及びナビゲーションを含むことを知り、ユーザがガソリンスタンド及びナビゲーションの2つのサービスタイプのサービスに対して音声対話を実行する意図を有することを予測するために、燃料容量に基づいてマッピング関係を照会する。
ステップ2:ユーザは「最も近いガソリンスタンドはどこ」と言う。
ステップ3:車載端末は、音声命令を収集し、「最も近いガソリンスタンドはどこ」に対応するサービスタイプがナビゲーションであることを知り、この場合、予測されるターゲットサービスタイプが、音声を通じてユーザによって表されたサービスタイプと同じであると決定し、ナビゲーションアプリケーションのインターフェースを呼び出し、クエリを通じてガソリンスタンドの住所を取得し、音声「ガソリンスタンドの住所は地区Xの道路Yにある」を再生する。加えて、ステップ2においてユーザによって表されたコンテンツがナビゲーションと無関係な場合、車載端末はユーザによって表されたコンテンツに応答しなくてよい。
前述の説明から、車両が十分な燃料を有していない場合、ガソリンスタンド及びナビゲーションの2つのサービスタイプのサービスに対する車載端末のウェイクアップワード無しの音声対話機能がアクティブにされ得、それによって、ユーザによるウェイクアップワードを頻繁に発するステップを省略することを知ることができる。
シナリオ6:電話に出る。
関連技術では、シナリオは、次のステップ1乃至ステップ5を含む:
ステップ1:携帯電話が発信者からの通話要求を受け、携帯電話のオペレーティングシステムが通話通知をプッシュする。
ステップ2:ユーザは「ハロー、アリス」と言う。
ステップ3:端末は音声命令を収集し、音声命令が「ハロー、アリス」を含むと決定し、この場合、携帯電話は、ウェイクアップされ、音声「私はここにいます」を再生する。
ステップ4:ユーザは「私への電話に出る」と言う。
ステップ5:携帯電話は、音声命令を収集し、音声命令が「私への電話に出る」を含むと決定し、この場合、携帯電話が電話を受ける。
しかし、この実施形態で提供される方法では、シナリオは次のステップ1乃至ステップ3を含み得る:
ステップ1:携帯電話は発信者からの通話要求を受け、携帯電話のオペレーティングシステムは通話通知をプッシュし、携帯電話は通話通知を検出し、ターゲットサービスタイプがコミュニケーションであることを知り、ユーザがコミュニケーションのサービスタイプのサービスに対して音声対話を実行する意図を有することを予測するために、通話通知に基づいてマッピング関係を照会する。
ステップ2:ユーザは「私への電話に出る」と言う。
ステップ3:携帯電話は、音声命令を収集し、「私への電話に出る」に対応する意味情報「電話に出る」に基づき、意味情報「電話に出る」に対応するサービスタイプがコミュニケーションタイプであることを知り、この場合、予測されるターゲットサービスタイプが、音声を通じてユーザによって表されたサービスタイプと同じであると決定し、電話を受ける。加えて、ステップにおいてユーザによって表されたコンテンツがコミュニケーションと無関係である場合、車載端末はユーザによって表されたコンテンツに応答しなくてよい。
前述の説明から、携帯電話が通話を受信する場合、コミュニケーションのサービスタイプのサービスに対する携帯電話のウェイクアップワード無しの音声対話機能がアクティブにされ得、それによってユーザによるウェイクアップワードを頻繁に発するステップを省略することを知ることができる。
シナリオ7:車両が空気の質が悪い地域を走行する。
関連する技術では、シナリオは、次のステップ1乃至ステップ4を含む:
ステップ1:ユーザは「ハロー、アリス」と言う。
ステップ2:端末は音声命令を収集し、音声命令が「ハロー、アリス」を含むと決定し、この場合、携帯電話は、ユーザの音声命令に応答して、ウェイクアップされ、音声「私はここにいます」を再生する。
ステップ3:ユーザは「空気清浄器オン」と言う。
ステップ4:車載端末は、音声命令を収集し、音声命令が「空気清浄器オン」を含むと決定し、この場合、車載端末は、車両のコントローラに信号を送り、コントローラは空気清浄器を始動するように制御する。
しかし、この実施形態で提供される方法では、シナリオは以下のステップ1乃至ステップ3を含み得る:
ステップ1:空気清浄器のセンサが、ダスト濃度を検出し、検出されたダスト濃度を車載端末に送信し、車載端末は、ダスト濃度が閾値を超えると決定し、ターゲットサービスタイプが空気清浄器であることを知り、ユーザが空気清浄器のタイプのサービスに対して音声対話を実行する意図を有することを予測するために、ダスト濃度に基づいてマッピング関係を照会する。
ステップ2:ユーザは「空気清浄器オン」と言う。
ステップ3:車載端末は、音声命令を収集し、「空気清浄器オン」に対応するサービスタイプが空気清浄器であることを知り、予測されるターゲットサービスタイプが、音声を通じてユーザによって表されたサービスタイプと同じであると決定し、この場合、車載端末は、車両のコントローラに信号を送信し、コントローラは、空気清浄器の始動を制御する。加えて、ステップ2においてユーザによって表されコンテンツが空気清浄器と無関係である場合、車載端末は、ユーザによって表されたコンテンツに応答しなくてよい。
前述の説明から、ダスト濃度が閾値を超える場合、空気清浄器のサービスタイプのサービスに対する車載端末のウェイクアップワード無しの音声対話機能がアクティブにされ得、それによって、ユーザによるウェイクアップワードを頻繁に発するステップを省略することを知ることができる。
シーン8:運転中、車両のサンシールド(sun shield)が半分開かれており、ユーザはサンシールドが開かれ続けないことを期待している。
関連技術では、シナリオは、次のステップ1乃至ステップ4を含む:
ステップ1:ユーザは「ハロー、アリス」と言う。
ステップ2:車載端末は、音声命令を収集し、音声命令が「ハロー、アリス」を含んでいると決定し、この場合、車載端末は、ユーザの音声命令に応答して、ウェイクアップされ、音声「私はここにいます」を再生する。
ステップ3:ユーザは「サンシールドを下げるのをやめる」と言う。
ステップ4:車載端末は、音声命令を収集し、音声命令が「サンシールドを下げるのをやめる」を含むと決定し、この場合、車載端末は、車両のコントローラに停止信号を送信し、停止信号は、サンシールドを開き続けることを停止するよう命令するために使用され、コントローラは、停止信号を受信した後、コントローラは、サンシールドを開き続けることを停止するように、サンシールドの駆動回路を制御する。
しかし、この実施形態で提供される方法では、シナリオは次のステップ1乃至ステップ3を含み得る:
ステップ1:サンシールドは、車載端末に現在の状態を送信し、車載端末は、サンシールドの状態に基づいて、サンシールドの開度が条件を満たしていると決定し、ターゲットサービスタイプが「サンシールド」であることを知り、ユーザが「サンシールド」のタイプのサービスに対して音声対話を実行する意図を有することを予測するために、サンシールドに基づいてマッピング関係に照会する。
ステップ2:ユーザは「サンシールドを下げるのをやめる」と言う。
ステップ3:車載端末は、音声命令を収集し、音声命令に対応する意味情報「サンシールドを下げるのを止める」に基づいて、意味情報「サンシールドを下げるのを止める」に対応するサービスタイプがサンシールドであることを知り、この場合、車載端末は、車両のコントローラに停止信号を送信し、停止信号は、サンシールドを開き続けるのを止めるように命令するために使用され、コントローラが停止信号を受信した後、コントローラは、サンシールドを開き続けるのを止めるように、サンシールドの駆動回路を制御する。加えて、ステップ2においてユーザによって表されたコンテンツがサンシールドと無関係である場合、車載端末はユーザによって表されたコンテンツに応答しなくてよい。
前述の説明から、サンシールドの開度が条件を満たす場合、サンシールドのサービスタイプのサービスに対する車載端末のウェイクアップワード無しの音声対話機能がアクティブにされ得、それによって、ユーザによるウェイクアップワードを頻繁に発するステップを省略することを知ることができる。
以下に、この出願の方法の手順の例示の説明を提供する。
図4は、本出願の一実施形態による音声対話方法のフローチャートである。この実施形態は、実行主体が端末である例を使用することによって説明される。図4を参照すると、本方法は、以下のステップを含む。
401.端末は、ターゲットイベントが検出されたと決定する。
ターゲットイベントは、音声対話をトリガすることができるイベントである。ターゲットイベントが発生する場合、ユーザが音声対話を実行する意図を有し、音声対話を実行するために端末をウェイクアップする要求がある特定の確率が存在する。これを考慮して、端末は、ターゲットイベントを検出し、その結果、ターゲットイベントが検出されたと決定するとき、端末は、ターゲットイベント及び音声命令を参照して、音声対話機能をアクティブにするかどうかを決定する。
オプションで、ターゲットイベントは、1つ又は複数のモードを有し得る。モードは、ターゲットイベントの形態(form)又は次元(dimension)である。例えば、ターゲットイベントのモードは、ユーザの操作であり得る、ターゲットイベントのモードは、通知メッセージであり得る、ターゲットイベントのモードは、環境パラメータが第1の条件を満たすことであり得る、又は、ターゲットイベントのモードは、現在のサービスの進行が第2の条件を満たすことであり得る。確かに、ターゲットイベントのモードは、サービス要求に基づいて別のモードに置き換えられ得る。ターゲットイベントのモードは、この実施形態において限定されない。
ユーザの操作は、物理キーに対する操作、インターフェースに対する操作、音声命令、及びブラウジング行動のうちの1つ又は複数であり得るが、これらに限定されない。物理キーは、端末のキーであり得る、又は端末への通信接続を確立する他のデバイスのキーであり得る。例えば、端末が車載端末である場合、物理キーは、車両に取り付けられた任意のデバイスのキーであり得る。例えば、物理キーは、車両のエアコンスイッチ又はラジオ局スイッチであり得る。ユーザが物理キーに対する操作を実行する場合、物理キーは、端末に信号を送信し得、端末は、物理キーに対する操作が検出されると決定する。インターフェースは、システムインターフェース又は端末のアプリケーションのインターフェースであり得る。ユーザがインターフェースに対する操作を実行する場合、インターフェースのスクリーンは、端末に信号を送信し得、端末は、インターフェースに対する操作が検出されると決定する。音声命令は、マイクロホンを使用することによって収集され得る。ブラウジング行動は、ユーザによる端末のインターフェースをブラウジングする行動であり得る。ユーザがブラウジング行動を有する場合、端末は、ブラウジング行動が検出されると決定するために、カメラを使用することによってユーザの視線をキャプチャし得る。操作は、プレス操作、クリック操作、スライド操作などであり得る。特定のタイプの操作はこの実施形態では限定されない。
通知メッセージは、オペレーティングシステム又はアプリケーションによってプッシュされるメッセージであり得る。例えば、通知メッセージは、通話通知、ショートメッセージサービスメッセージ、インスタントメッセージングメッセージ、アラームメッセージ、及びリソース推薦メッセージのうちの1つ又は複数であり得る。アラームメッセージは、端末が故障していることを示し得、例えば、電力が総電力の10%未満であること、メモリが不足していること、又は端末がネットワークによって攻撃されていることを示し得る。アラームメッセージは、代替的には、端末への通信接続を確立する他のデバイスが故障していることを示し得る。例えば、車載端末のアラームメッセージは、車両のモータが故障していることを示し得る。リソース推薦メッセージは、ユーザに推薦されるリソースを示し得、例えば、ニュースアプリケーションによって推薦されるニュース、電子商取引アプリケーションによって推薦される商品若しくはサービス、又はゲームアプリケーションによって推薦される仮想記事であり得る。
環境パラメータは、騒音、温度、湿度、輝度、ダスト濃度、及び燃料容量のうちの1つ又は複数であり得るが、これらに限定されない。第1の条件は、環境パラメータがパラメータ閾値を超えている又は環境パラメータ変化量が変化量閾値を超えている条件であり得るが、これに限定されない。
環境パラメータが第1の条件を満たすことを検出する特定のプロセスに対して、センサは、環境パラメータをリアルタイム又は定期的に収集し得、収集した環境パラメータを端末に送信し得る。例えば、温度センサは、温度を収集して端末に温度を送信し得、湿度センサは、湿度を収集して端末に湿度を送信し得、ダストセンサは、ダスト濃度を収集して端末にダスト濃度を送信し得、輝度センサは、輝度を収集して端末に輝度を送信し得、マイクロホンは、ノイズ強度を収集して端末にノイズ強度を送信し得、燃料容量センサは、車両の現在の残存燃料容量を収集して端末に燃料容量を送信し得る。端末は、センサから環境パラメータを受信し得る。端末は、環境パラメータがパラメータ閾値を超えるかどうかを決定し得る。環境パラメータがパラメータ閾値を超える場合、端末は、環境パラメータが第1の条件を満たすと決定する。代替的には、端末は、現在取得されている環境パラメータ及び過去に取得された環境パラメータに基づいて環境パラメータ変化量を取得し得、環境パラメータ変化量が変化量閾値を超えているかどうかを決定し得る。環境パラメータ変化量が変化量閾値を超える場合、それは環境が変化したことを示し、環境パラメータが第1の条件を満たしていると決定される。
現在のサービスは、端末によって現在実行されているサービスであり得る、又は端末への通信接続を確立する他のデバイスによって現在実行されているサービスであり得る。例えば、車載端末である場合、車載端末は、車両のコントローラを使用することにより、車両に搭載されたエアコン、サンシールド、又はフロントガラスワイパーへの通信接続を確立し得、現在のサービスは、車載端末で現在実行されているナビゲーションサービス又は音楽サービス、エアコンによって実行される温度調整サービス、フロントガラスワイパーによって実行される回転サービス、又はサンシールドによって実行されるドロップサービスであり得る。
第2の条件は、サービスの進捗状況の変化であり得るが、これに限定されない。例えば、第2の条件は、サービスの進捗が閾値を超えていること又はサービスの進捗変化量が変化量閾値を超えていることであり得る。例えば、第2の条件は、サービスが終了する又はサービスの半分が実行されることであり得る。例えば、エアコンについて、現在のサービスの進捗が第2の条件を満たすことは、エアコンが温度調整サービスを開始する、例えば、エアコンが温度設定を開始する又はエアコンが風量を増加させることを開始することであり得る;又は、現行サービスの進捗が第2の条件を満たすことは、エアコンによって実行される温度調整サービスの進捗が変化する、例えば、エアコンの温度センサが、温度が変化することを検出することであり得る。
現在のサービスの進捗が第2の条件を満たすことを検出する特定のプロセスに対して、端末は、現在のサービスの進捗を取得し得、現在のサービスの進捗が閾値を超えるかどうかを決定し得、現在のサービスの進捗が閾値を超える場合、現在のサービスの進捗が第2の条件を満たすと決定し得る。代替的には、端末は、現在のサービスの進捗及び現在のサービスの過去の進捗に基づいて現在のサービス進捗変化量を取得し得、変化量が変化量閾値を超えているかどうかを決定し得る。現在のサービス進捗変化量が変化量閾値を超えている場合、現在のサービスが変化していることを示し、現在のサービスの進捗が第2の条件を満たしていると決定される。変化量及び変化量閾値は、変化率(change percentages)によって表され得る、又は変化時間によって表され得る、又はもちろん別の次元のデータによって表され得る。これは、この実施形態において限定されない。
ユーザの操作、通知メッセージ、環境パラメータが第1の条件を満たすモード、及び現在のサービスの進捗が第2の条件を満たすモードは、単なるターゲットイベントの例であり、ターゲットイベントはそれらに限定されるものではないことが留意されるべきである。ターゲットイベントのモードは、端末の実際のサービスに基づいて対応して拡張され得、音声対話をトリガすることができる任意のイベントがターゲットイベントとして提供され得ることが理解されるべきである。ターゲットイベントは、この実施形態において限定されない。
402. 端末は、サービスタイプセットを取得するために、ターゲットイベントに基づいてマッピング関係を照会する。
サービスタイプセットは1つ又は複数のターゲットサービスタイプを含み、各ターゲットサービスタイプは、音声対話意図に対応するサービスタイプである。端末は、サービスタイプセットを取得するために、ターゲットイベントに基づいてユーザの音声対話意図を予測し得る。ターゲットサービスタイプは、端末によって実行されるサービスタイプであり得る、又は端末との通信接続を確立する他のデバイスによって実行されるサービスタイプであり得る。例えば、端末が車両のコントローラである場合、ターゲットサービスタイプは、車両に搭載されたエアコン又はランプなどの装置によって実行されるサービスのタイプであり得る。例えば、ターゲットサービスタイプは、ナビゲーション、スケジュール相談、エアコン、ラジオ局、音楽、車両制御、走行距離照会、質疑応答相談、ゲーム、システム設定、車両制御、充電、メンテナンス、及びコミュニケーションのうちの1つ又は複数であり得る。
マッピング関係は、1つ又は複数のイベント及び1つ又は複数のサービスタイプを含み得る。マッピング関係は、イベントとサービスタイプの間の対応を示し得る。マッピング関係における各イベントは、1つ又は複数のサービスタイプに対応し得る。マッピング関係におけるイベントは、第1のエントリであり得、イベントに対応するサービスタイプは、第2のエントリであり得、第1のエントリの場所は、第2のエントリの場所に対応する。例えば、第1のエントリ及び第2のエントリは、同じ行に配置され得る。例えば、マッピング関係は次の表1に示され得る。
端末は、サービスタイプセットを取得するために、マッピング関係を照会するためのインデックスとして、ターゲットイベントを使用し得る。例えば、検出されたターゲットイベントがメインスイッチに対する操作である場合、表1は、サービスタイプセットがナビゲーション、音楽、及びスケジュール相談であることを知るするために照会される。オプションで、マッピング関係は、ユーザの操作と操作に対応するサービスタイプとの間の第1のマッピング関係、通知メッセージと閲覧又はメッセージ処理との間の第2のマッピング関係、環境パラメータと環境パラメータ調整との間の第3のマッピング関係、及び現在のサービスと現在のサービスのサービスタイプとの間の第4のマッピング関係のうちの1つ又は複数を具体的に含み得る。第1のマッピング関係は、1つ又は複数の操作及び1つ又は複数の操作に対応するサービスタイプを含み得る。いずれの操作も1つ又は複数のサービスタイプに対応し得る。例えば、第1のマッピング関係は次の表2に示され得る。
いくつかの可能な実施形態では、第1のマッピング関係は、操作の連続性ルール(operation consecutiveness rule)に基づいて確立され得る。操作の連続性ルールは、操作Aと操作Bが連続した操作であるかどうかを意味し、ユーザが操作Aを実行する場合、ユーザが操作Bを実行する意図を有することが予測され得る。したがって、連続した操作は、操作Aを実行した直後にユーザが操作Bを実行することを意味する。簡単に説明すると、本明細書では、操作A(ユーザの現在の操作)は第1操作とし、操作B(第1操作に関連付けられる連続した操作)をターゲット第2操作とする。ターゲット第2操作は、第1操作が実行された後に特定の確率で実行されることになる操作であり、ターゲット第2操作は予測される操作であり、ターゲット第2操作は実行されてもされなくてもよく、ターゲット第2操作は、第1操作の後に最初に実行される操作であり得る。第1のマッピング関係は、第1操作と1つ又は複数のサービスタイプとの間のマッピング関係を含み得、第1のマッピング関係における各サービスタイプは、ターゲット第2操作に対応するサービスタイプであり、1つ又は複数のターゲット第2操作は、第1操作に関連付けられる連続した操作である。例えば、表2を参照すると、メインスイッチをオンにすること(第1操作)と目的地へのナビゲーションを実行すること(ターゲット第2操作)は連続操作であり、メインスイッチをオンにすること(第1操作)と曲再生ボタンをクリックすること(ターゲット第2操作)も連続操作であり、メインスイッチをオンにすること(第1操作)と本日のスケジュールを閲覧すること(ターゲット第2操作)も連続操作であり、目的地へのナビゲーションを実行する操作のサービスタイプはナビゲーションであり、曲再生ボタンをクリックする操作に対応するサービスタイプは音楽であり、本日のスケジュールを閲覧する操作のサービスタイプはスケジュール相談である。従って、第1マッピング関係が確立されているとき、メインスイッチに対する操作は、第1操作として使用され得、ナビゲーション、音楽、及びスケジュール相談は、ターゲット第2操作に対応するサービスタイプとして使用され得、メインスイッチに対する操作、ナビゲーション、音楽、及びスケジュール相談は、第1のマッピング関係に書き込まれる。他の例について、ナビゲーションインターフェースを開くこと(第1操作)及びナビゲーションインターフェースにおいてナビゲーション目的地を入力すること(ターゲット第2操作)は連続した操作であり、ナビゲーション目的地を入力する操作に対応するサービスタイプはナビゲーションである。従って、第1のマッピング関係が確立されているとき、メインスイッチに対する操作は第1操作として使用され得、ナビゲーションはターゲット第2操作に対応するサービスタイプとして使用され得、ナビゲーションインターフェースを開くこととナビゲーションとの間のマッピング関係は、第1のマッピング関係に記憶される。この場合、ユーザがナビゲーションインターフェースを開くとき、端末はナビゲーションがターゲットサービスタイプであると予測し得る。
第2のマッピング関係は、1つ又は複数の通知メッセージ及びメッセージ閲覧又はメッセージ処理を含む。メッセージ閲覧は、ショートメッセージサービスメッセージを閲覧すること、インスタントメッセージングアプリケーションのインスタントメッセージングメッセージを閲覧すること、リソース推薦アプリケーションのプッシュメッセージを閲覧することであり得る。メッセージ処理は、通話応答、トラブルシューティング、及び情報照会を含み得る。例えば、第2のマッピング関係は、次の表3に示され得る。
いくつかの可能な実施形態では、第2のマッピング関係は、通知メッセージを閲覧又は処理するユーザ要求に基づいて確立され得る。具体的には、通知メッセージが受信される場合、ユーザは通知メッセージを閲覧又は処理する意図を有すると予測され得る。従って、第2のマッピング関係は、通知メッセージとメッセージ閲覧との間のマッピング関係であり得る、又は、第2のマッピング関係は、通知メッセージとメッセージ処理との間のマッピング関係であり得る。例えば、表3を参照すると、インスタントメッセージングアプリケーションがインスタントメッセージングメッセージをプッシュする場合、ユーザはインスタントメッセージングメッセージを閲覧する意図を有することが予測され得、インスタントメッセージングメッセージを閲覧することに対応するサービスタイプはインスタントメッセージングアプリケーションであり得る。従って、第2のマッピング関係が確立されているとき、インスタントメッセージングメッセージ及びインスタントメッセージングアプリケーションの識別子は、第2のマッピング関係に書き込まれ得る。
第3のマッピング関係は、1つ又は複数の環境パラメータ及び環境パラメータ調整を含む。例えば、第3のマッピング関係は次の表4に示され得る。
いくつかの可能な実施形態では、第3のマッピング関係は、環境変化に応答するユーザ要求に基づいて確立され得る。具体的には、環境パラメータが条件を満たすとき、ユーザの知覚が影響を受けることを考慮すると、ユーザは、環境パラメータを調整する意図を有することが予測され得る。したがって、第3のマッピング関係は、環境パラメータと、環境パラメータ調整に対応するサービスタイプとの間のマッピング関係を含み得る。例えば、表4を参照すると、温度変化量が閾値を満たす場合、ユーザは温度を調整する要求を有することが予測され得る。温度調整に対応するサービスタイプがエアコンであるため、第3のマッピング関係が確立されているとき、温度変化量が閾値を満たす場合とエアコンとのマッピング関係が第3のマッピング関係に記憶され得る。
第4のマッピング関係は、1つ又は複数の現在のサービス及び現在のサービスのサービスタイプを含み得る。例えば、第4のマッピング関係は次の表5に示され得る。
いくつかの可能な実施形態では、第4のマッピング関係は、ユーザの応答要求に基づいて確立され得る。具体的には、現在のサービスの進捗が条件を満たす場合、ユーザの知覚が影響を受けることを考慮すると、ユーザは、現在のサービスを再度有効にする、現在のサービスを停止する、又は現在のサービスを調整する意図を有することが予測され得る。従って、第4のマッピング関係は、現在のサービスと現在のサービスのサービスタイプとの間のマッピング関係であり得る。例えば、表5を参照すると、現在再生されている音楽が終了する場合、ユーザは、次の曲を再生すること、曲を再生するのを停止すること、又は曲を繰り返し再生すること(replaying)の要求を有することが予測され得る。次の曲を再生すること、曲を再生するのを停止すること、又は曲を繰り返し再生することに対応するサービスタイプは音楽であるため、第4のマッピング関係が確立されている場合、音楽が終わる場合と音楽との間のマッピング関係が第4のマッピング関係に記憶され得る。
いくつかの可能な実施形態では、マッピング関係を確立するプロセスは、次の実装1及び実装2を含み得る。
実装1:端末は、過去のレコードに基づいて、過去のターゲットイベントに関連付けられた過去のサービスを取得し、過去のサービスのサービスタイプ及び過去のターゲットイベントをマッピング関係に書き込む。
この実装では、マッピング関係は、過去の歴史的な音声対話プロセスに基づいて確立され得る。具体的には、端末が過去のターゲットイベントを過去の時点で検出した後、ユーザが端末との音声対話を実行し、その結果、端末がユーザの音声命令に応答して過去のサービスを実行する場合、端末は、過去のターゲットイベントと過去のサービスのサービスタイプとの間のマッピング関係を確立し得る。続いて、ターゲットイベントを検出した後、端末はウェイクアップされることができ、音声命令に対応するサービスタイプが過去のサービスのサービスタイプと同じである場合、端末は音声命令に応答してサービスを実行する。
過去のレコードは、過去のターゲットイベント及び過去のターゲットイベントに関連付けられる過去のサービスを含む。過去のターゲットイベントに関連付けられる過去のサービスは、過去のターゲットイベントが検出された後に実行されるサービスであり、過去のターゲットイベントが検出された後、初めて音声対話を通じて実行されるサービスであり得る。例えば、メインスイッチに対してトリガされた操作が昨日検出され、音声対話を通じて初めて実行されるサービスがセルAへのナビゲーションを実行することである場合、過去のレコードは、メインスイッチに対してトリガされ、セルAへのナビゲーションを実行する操作を含み得、メインスイッチに対してトリガされ、セルAへのナビゲーションを実行する操作は、マッピング関係に書き込まれ得る。端末が現在メインスイッチに対してトリガされた操作を検出している場合、端末は、サービスタイプセットのターゲットサービスタイプがナビゲーションを含むことを知るために、メインスイッチに対する操作に基づいてマッピング関係を照会し得る。
オプションで、端末は、最近実行された過去のサービスのサービスタイプをマッピング関係に書き込み得る。具体的には、端末は、現在の時点及びプリセットされた期間に基づいて、過去の期間を取得し得、過去のレコードに基づいて、過去の期間にあり、かつ、過去のターゲットイベントに関連付けられる過去のサービスを取得し得、過去のサービスのサービスタイプ及び過去のターゲットイベントをマッピング関係に書き込み得る。過去の期間は、今から1日前、1週間前、又は1ヶ月前であり得る。具体的には、過去の期間の終点は、現在の時点であり得、プリセットされた期間は、1日、1週間などであり得る。このようにして、マッピング関係の適時性が確実にされることができ、その結果、マッピング関係はユーザの最近の行動習慣をよりよく反映することができる。
オプションで、端末は頻繁に実行される過去のサービスをマッピング関係に書き込み得る。具体的には、端末は、過去のレコードに基づいて、ターゲットイベントに関連付けられる各過去のサービスの実行時間の量を取得し得る。端末は、複数の過去のサービスから最大の実行時間の量を持つ過去のサービスを選択し得、最大の実行時間の量を持つ過去のサービスのサービスタイプ及び過去のターゲットイベントをマッピング関係に書き込み得る。代替的には、端末は、実行時間の量が量の閾値を超える過去のサービスを選択し得、マッピング関係に、実行時間の量が量の閾値を超える過去のサービスに対応するサービスタイプ及び過去のターゲットイベントを書き込み得る。
実装1では、同じユーザの個人行動モードが規則的であるため、概して、現在のターゲットイベントが発生した後にユーザによって生成される音声対話の意図は、過去のターゲットイベントが過去に発生した後に生成される音声対話の意図と同じ又は類似している可能性が非常に高い。したがって、現在のターゲットイベントが発生した後に実行されることになるサービスは、過去のターゲットイベントが発生した後に実行されることになる関連サービスと同じ又は類似している可能性が非常に高い。従って、過去のレコードに基づいて、現在の音声対話の意図が関係するターゲットサービスタイプを予測することは、ターゲットサービスタイプの精度を改善することができる。
実装2:端末は、機械学習モデルを呼び出し、機械学習モデルにサンプルターゲットイベントを入力し、サービスタイプを出力し、マッピング関係に出力サービスタイプとサンプルターゲットイベントを書き込む。
機械学習モデルは、イベントに基づいてサービスタイプを予測するために使用される。例えば、現在のイベントに関連付けられるサービスのサービスタイプは、イベントに基づいて予測され得る。可能な実装では、モデルトレーニングが、機械学習モデルを取得するために、複数のサンプルイベント及び複数のサンプルサービスタイプを使用することによって、実行され得る。サンプルイベントは、サンプルユーザの端末によって実行されるイベントであり得る、又は端末の過去のレコードに記録されたイベントであり得る。サンプルサービスタイプは、サンプルイベントに関連付けられるサービスのサービスタイプである。機械学習モデルは、ニューラルネットワークモデルであり得るが、これに限定されない。
実装2では、機械学習モデルは、事前に大量のサンプルを使用することにより、イベントとサービスタイプとの間のマッピング関係を学習することができる。従って、機械学習モデルは、ターゲットサービスタイプの精度を改善するために、現在のターゲットイベントに基づいて、音声対話意図が関連するターゲットサービスタイプを正確に予測することができる。
マッピング関係は端末によって確立され得る;又は、マッピング関係は、端末以外の他のデバイスによって確立され得、その後他のデバイスは確立されたマッピング関係を端末に送信し、端末は、マッピング関係を取得するために、マッピング関係を受信し得ることが留意されるべきである。他のデバイスは、図1に示す音声対話プラットフォーム200であり得るが、これに限定されない。確かに、端末は、別の方法でマッピング関係を取得し得る。例えば、マッピング関係は、リンクアドレスを使用することによって公開され得、端末は、リンクアドレスにアクセスして、インターネットからマッピング関係をダウンロードし得る。端末がマッピング関係を取得する方法は、本実施形態において具体的には限定されない。
イベントの特定のモードを参照すると、ステップ402は、次のケース(1)乃至ケース(4)のうちの1つ又は複数であり得るが、これらに限定されない:
ケース(1):端末は、サービスタイプセットを取得するために、第1操作に基づいてマッピング関係を照会する。サービスタイプセットに含まれるターゲットサービスタイプは、1つ又は複数のターゲット第2操作に対応するサービスタイプであり、1つ又は複数のターゲット第2操作は、第1操作に関連付けられる連続した操作である。
ユーザが第1操作を実行する場合、ユーザの音声対話意図は、ターゲット第2操作を実行することであると予測され得る。したがって、端末は、ターゲット第2操作に対応するサービスタイプをターゲットサービスタイプとして使用し得る。1つの第1操作は、1つ又は複数のターゲット第2操作に対応し得る。例えば、ユーザがエアコンボタンに対する確認操作をトリガする場合、一般に、ユーザは、ユーザがエアコンボタンに対する確認操作をトリガした直後に温度を調整するため、エアコンボタンに対する確認操作は第1操作であり、温度調整がターゲット第2操作である。温度調整に対応したサービスタイプはエアコンであるため、端末は、エアコンがターゲットサービスタイプであることを知り得る。別の例として、ユーザが音楽検索オプションをクリックする場合、一般に、ユーザは、ユーザが音楽検索オプションをクリックした直後に曲名を入力するため、音楽検索オプションをクリックすることが第1操作であり、曲名を入力することがターゲット第2操作である。曲名の入力することに対応するサービスタイプは音楽であるため、端末は、音楽がターゲットサービスタイプであることを知り得る。別の例として、ユーザが故障表示オプションをクリックする場合、一般に、ユーザは、ユーザが故障表示オプションをクリックした直後に、表示された故障情報に基づいてトラブルシューティング方法を検索する又は故障を診断するので、故障表示オプションをクリックすることが第1操作であり、トラブルシューティング方法を検索すること又は故障のトラブルシューティングすることがターゲット第2操作である。トラブルシューティング方法の検索又は故障のトラブルシューティングに対応するサービスタイプは、故障、車両制御、又は検索であるため、端末は故障、車両制御、又は検索がターゲットサービスタイプであることを知り得る。
一般に、ユーザが何らかの操作を行う場合、ユーザは次の操作を連続的に行い、したがって、次の操作に対応するサービスに対して音声対話を実行する意図が発生する。このように、特定の確率で実行されることになる次の操作に対応するサービスタイプに、ユーザによって現在実行されている操作をマッピングするために、操作が連続的であるというルールが完全に使用され、その結果、ユーザが操作を実行するとき、ユーザが音声対話を実行したいサービスタイプは正確に予測されることができ、それによってターゲットサービスタイプの精度を保証する。
ケース(1)のターゲットサービスタイプを取得する特定のプロセスに対して、可能な実装の中で、端末は、サービスタイプセットを取得するために、第1操作に基づいて第1のマッピング関係を照会し得る。
ケース(2):端末は、サービスタイプセットを取得するためにマッピング関係を照会する。サービスタイプセットに含まれるターゲットサービスタイプは、通知メッセージに対応するメッセージ閲覧又はメッセージ処理である。
例えば、メッセージ閲覧は、通知メッセージをプッシュするアプリケーションを使用することによって通知メッセージを閲覧することであり得る。例えば、通知メッセージがインスタントメッセージングメッセージである場合、メッセージ閲覧は、インスタントメッセージングアプリケーションを使用することによってインスタントメッセージングメッセージを閲覧することであり得る;又は、通知メッセージがニュース推薦メッセージである場合、メッセージ閲覧は、ニュースアプリケーションを使用することによってニュースメッセージを閲覧することであり得る。代替的には、メッセージ閲覧は、通知メッセージを再生すること、通知メッセージをスクリーンに表示すること、通知メッセージを投影することなどであり得る。メッセージ処理は、通知メッセージの検索を実行すること、通知メッセージに返信すること、又は通知メッセージに対応する障害のトラブルシューティングを行うことであり得る。
一般に、端末が通知メッセージを受信する場合、ユーザはメッセージを閲覧又は処理する要求を有し、したがって、メッセージを閲覧又は処理する音声対話の意図が生成される。このようにして、通知メッセージを受信するターゲットイベントを、メッセージを閲覧する及びメッセージを処理する2つのターゲットサービスタイプにマッピングするために、メッセージを閲覧又は処理するユーザ要求が十分に考慮され、その結果、通知メッセージが受信されるとき、ユーザが音声対話を実行することを望むサービスタイプが正確に予測されることができ、それによって、ターゲットサービスタイプの精度を保証する。
具体的には、ケース(2)は、次のケース(2.1)乃至ケース(2.3)のうちの1つ又は複数を含み得る。
ケース(2.1):サービスタイプセットを取得するために、通話通知に基づいてマッピング関係を照会し、ここでサービスタイプセットに含まれるターゲットサービスタイプは通話応答である。
する。
ケース(2.2):サービスタイプセットを取得するために、ショートメッセージサービスメッセージ又はインスタントメッセージングメッセージに基づいてマッピング関係を照会し、ここでサービスタイプセットに含まれるターゲットサービスタイプはメッセージ閲覧又はメッセージ返信である。
例えば、メッセージ閲覧は、ショートメッセージサービスメッセージ又はインスタントメッセージングメッセージをテキストから音声に変換し、ショートメッセージサービスメッセージ又はインスタントメッセージングメッセージを音声の形態で再生することであり得る。例えば、メッセージ返信は、ショートメッセージサービスメッセージ又はインスタントメッセージングメッセージに基づいて、ショートメッセージサービスメッセージ又はインスタントメッセージングメッセージに対応する返信情報を取得し、ショートメッセージサービスメッセージ又はインスタントメッセージングメッセージを送信するユーザに返信情報を送信すること;又はユーザによって入力された返信情報を受信し、ショートメッセージサービスメッセージ又はインスタントメッセージングメッセージを送信するユーザに返信情報を送信することであり得る。
ケース(2.3):サービスタイプセットを取得するために、アラームメッセージに基づいてマッピング関係を照会し、ここでサービスタイプセットに含まれるターゲットサービスタイプはトラブルシューティング又は情報照会である。
トラブルシューティングは、トラブルシューティング解決策を出力すること、メンテナンスを実行することなどであり得る。例えば、アラームメッセージが低バッテリメッセージである場合、トラブルシューティングは、走行距離照会又は充電ステーションである。アラームメッセージがモータ故障メッセージである場合、トラブルシューティングは、質疑応答相談、モータメンテナンスなどであり得る。情報照会は、クエリを通じてトラブルシューティング解決策を取得すること、クエリを通じて故障原因を取得することなどであり得る。
ケース(2.1)乃至ケース(2.3)では、対応するターゲットサービスタイプが通知メッセージ毎に予測され、その結果、通知メッセージが受信される種々のアプリケーションシナリオがサポートされることができ、それによって適用範囲を拡大する。
ケース(2)におけるターゲットサービスタイプを取得する特定のプロセスについて、可能な実装において、端末は、1つ以上のターゲットサービスタイプを取得するために、通知メッセージに基づいて第2のマッピング関係を照会し得る。
ケース(3):サービスタイプセットを取得するために、環境パラメータに基づいてマッピング関係を照会し、ここでサービスタイプセットに含まれるターゲットサービスタイプは環境パラメータ調整である。
環境パラメータの調整は、空気清浄器を使用することによってダスト濃度を低下させること、加湿器を使用することによって湿度を増加させること、エアコン又は自動車の窓を使用することによって温度を調整すること、サンシールド又は自動車の窓を使用することによって光の強度を調整すること、フロントガラスワイパーを使用することによって降雨量に合わせることなどであり得る。
一般に、環境は、ユーザの知覚に影響を与え、ユーザは、環境に応答する要求を有する。例えば、環境パラメータが変化する場合、ユーザは、環境パラメータを調整する要求があり、従って、環境パラメータを調整する音声対話意図が生成される。このようにして、環境パラメータが第1の条件を満たすターゲットイベントを環境パラメータ調整のターゲットサービスタイプにマッピングするために、環境に応答するユーザ要求が十分に考慮され、その結果、環境パラメータが第1の条件を満たすとき、ユーザが音声対話を実行することを望むサービスタイプが正確に予測されることができ、それによってターゲットサービスタイプの精度を保証する。
ケース(3)におけるターゲットサービスタイプを取得する特定のプロセスについて、可能な実装において、端末は、1つ又は複数のターゲットサービスタイプを取得するために、環境パラメータに基づいて第3のマッピング関係を照会し得る。
ケース(4):サービスタイプセットを取得するために、現在のサービスに基づいてマッピング関係を照会し、ここでサービスタイプセットに含まれるターゲットサービスタイプは現在のサービスのサービスタイプである。
現在のサービスのサービスタイプは、現在のサービスを再実行すること、現在のサービスを実行するのを停止すること、又は現在のサービスを調整することであり得るが、これらに限定されない。例えば、現在のサービスが音楽を再生することである場合、現在のサービスのサービスタイプは、他の音楽を再生すること、音楽を繰り返し再生すること、又は音楽を再生するのを停止することである。
一般に、現在のサービスの進捗は、ユーザの知覚に影響を与え、ユーザは、現在のサービスに応答する要求を有する。例えば、現在のサービスが終わる場合、ユーザは通常、現在のサービスを再実行すること、現在のサービスの実行を停止すること、又は現在のサービスを調整することを望む。このように、現在のサービスの進捗が第2の条件を満たすターゲットイベントを現在のサービスのサービスタイプにマッピングするために、サービス変更に応答するユーザ要求が十分に考慮され、その結果、現在のサービスの進捗が第2の条件を満たすとき、ユーザが音声対話を実行することを望むサービスタイプが正確に予測されることができ、それによって、ターゲットサービスタイプの精度を保証する。
オプションで、ステップ402は、次のものと置き換えられ得る:端末は、過去のレコードに基づいて、過去のターゲットイベントに関連付けられる過去のサービスを取得し、ターゲットサービスタイプとして、過去のサービスに対応するサービスタイプを決定する。言い換えると、ターゲットサービスタイプは、過去のレコードに基づいてマッピング関係を確立する必要なしに、過去のレコードを照会することによって取得され得る。
オプションで、ステップ402は、次のものと置き換えられ得る:端末は、機械学習モデルを呼び出し、ターゲットイベントを機械学習モデルに入力し、1つ又は複数のターゲットサービスタイプを出力する。機械学習モデルは、ターゲットイベントに基づいてターゲットサービスタイプを予測するために使用される。言い換えれば、ターゲットサービスタイプは、機械学習モデルに基づいてマッピング関係を確立する必要なしに、機械学習モデルを使用することによって取得され得る。
オプションで、マッピング関係は、各ターゲットサービスタイプの確率をさらに含み得、ステップ402は、次のものと置き換えられ得る:端末は、サービスタイプセット及びサービスタイプセットの各ターゲットサービスタイプに対応する確率を取得するために、ターゲットイベントに基づいてマッピング関係を照会する。
確率は、ターゲットサービスタイプに対応するサービスを実行する可能性を示す。より高い確率は、対応するイベントが検出された後に対応するターゲットサービスタイプのサービスが実行されることになることのより高い可能性を示す。例えば、ターゲットイベントiと、ターゲットサービスタイプjと、ターゲットサービスタイプjに対応する確率1と、ターゲットサービスタイプkと、ターゲットサービスタイプkに対応する確率2との間にマッピング関係がある場合、マッピング関係は、ターゲットイベントiが検出される場合、ターゲットサービスタイプj又はターゲットサービスタイプkのサービスが実行されることが予測され、ターゲットサービスタイプjのサービスを実行する確率は確率1であり、ターゲットサービスタイプkのサービスを実行する確率は確率2であり、ここでiはターゲットイベントの識別子であり、j及びkはターゲットサービスタイプの識別子である。
例えば、マッピング関係は、次の表6に示され得、ここで、表6の「/」は空白を示す。表6に基づき、メインスイッチに対する操作が検出された場合、サービスタイプセットがナビゲーション、音楽、及びスケジュール照会であることが知られ得る。ナビゲーションに対応する確率は0.6、音楽に対応する確率は0.7、スケジュール照会に対応する確率は0.4である。
表6に示すマッピング関係は、マルチモードウェイクアップモデルとして提供され得ることが留意されるべきである。マルチモードウェイクアップモデルの入力パラメータは、ターゲットイベントを含み、マルチモードウェイクアップモデルの出力パラメータは、サービスタイプセット及び確率を含む。マルチモードウェイクアップモデルは、検出されたターゲットイベントに基づいてサービスタイプセットを予測するために使用され得る。ユーザは、端末上でマルチモードのウェイクアップモデルを実行し得る又は使用のために第三者にマルチモードウェイクアップモデルを販売し得る。
403. 端末は、確率が確率閾値を満たさないターゲットサービスタイプをサービスタイプセットからフィルタ除去する。
サービスタイプセットの各ターゲットサービスタイプに対して、端末は、ターゲットサービスタイプに対応する確率を確率閾値と比較し得る。ターゲットサービスタイプに対応する確率が確率閾値を満たす場合、端末はターゲットサービスタイプを選択し、その後に収集される音声命令に対応する第1のサービスのサービスタイプがターゲットサービスタイプである場合、端末は第1のサービスを実行する。ターゲットサービスタイプに対応する確率が確率閾値を満たさない場合、端末はターゲットサービスタイプをフィルタ除去し、その後ターゲットサービスタイプのサービスを実行しない。
可能な実装では、同じ確率閾値が全てのターゲットサービスタイプにプリセットされ得、確率閾値は端末に予め記憶される。この場合、端末は、各ターゲットサービスタイプに対応する確率を同じ確率閾値と比較し得る。別の可能な実装では、対応する確率閾値が各ターゲットサービスタイプに対して設定され得、各ターゲットサービスタイプに対応する確率閾値はマッピング関係に書き込まれる。この場合、端末は、各ターゲットサービスタイプに対応する確率閾値を取得するためにマッピング関係を照会し得、各ターゲットサービスタイプに対応する確率を対応する確率閾値と比較し得る。異なるサービスタイプに対応する確率閾値は、同じであっても異なってもよい。これは、この実施形態において限定されない。
例えば、マッピング関係は、次の表7を含み得る。サービスタイプセットがナビゲーション、音楽、スケジュール相談の場合、表6によれば、ナビゲーションに対応する確率は0.6、音楽に対応する確率は0.7、スケジュール相談に対応する確率は0.4である。表7によれば、ナビゲーションに対応する確率閾値は0.5であり、音楽に対応する確率閾値は0.5であり、スケジュール相談に対応する確率閾値は0.5であることが知られ得る。ナビゲーションの確率0.6は確率閾値0.5より大きく、音楽の確率0.7は確率閾値0.5より大きく、スケジュール相談の確率0.4は確率閾値0.5より小さい。したがって、ナビゲーションと音楽が選択され、スケジュール相談がフィルタ除去される。
ターゲットサービスタイプの確率が確率閾値を満たさない場合、ターゲットサービスタイプが、ユーザの音声対話意図が関連するサービスタイプである可能性が相対的に低いことを示す。ターゲットサービスタイプのサービスがその後処理される場合、誤ったウェイクアップの可能性が比較的高い。誤ったウェイクアップは、ユーザへの妨害及び端末に対する非常に大きな負荷をもたらす。従って、ターゲットサービスタイプがフィルタ除去され、その結果、端末は、その後、意味情報がターゲットサービスタイプのサービスである音声命令に応答せず、それによって、誤ったウェイクアップの確率を減らし、誤ったウェイクアップに起因するユーザにもたらされる妨害及び端末にもたらされる負荷を回避する。
ステップ403は、必須ステップの代わりのオプションのステップであることが留意されるべきである。いくつかの可能な実施形態では、1つ又は複数のターゲットサービスタイプが取得された後、次のステップが、全ての取得されたターゲットサービスタイプに基づいて実行され得る。
404. 端末は音声命令を収集する。
いくつかの可能な実施形態では、端末は、ターゲットイベントが検出されたことを決定するときに監視することを開始し得、監視期間の後に監視することを終了し得る。監視中に、ユーザが音声を発する場合、端末は、マイクロホンを使用することによって音声命令を収集し得る。監視を開始することと監視を終了することとの間の期間は、受信ウインドウと呼ばれ得、監視期間は、実験、経験、又は要求に基づいて設定され得、端末に予め記憶され得る。オプションで、同じ監視期間が全てのサービスタイプに対して設定され得る、又は、異なる監視期間が異なるサービスタイプに対して設定され得る。サービスタイプと監視期間との間のマッピング関係が端末に記憶される。これは、この実施形態では限定されない。
405. 端末は、音声命令に対応する意味情報に基づき、意味情報に対応する第1のサービスを取得する。
いくつかの可能な実施形態では、端末は、テキスト情報を取得するために音声命令に対して音声認識(自動音声認識、ASR)を実行し、意味情報を取得するためにテキスト情報に対して意味認識を実行し、意味情報に基づいてクエリを通じて第1のサービスを取得し得る。例えば、意味情報が「アリス、セルXXのビルYYへのルートを計画してください」の場合、第1のサービスは「セルXXのビルYYへのナビゲーションを実行」である;又は、意味情報が「アリス、曲ZZを再生してください」の場合、第1のサービスは「曲ZZを再生」である。
406. 第1のサービスのサービスタイプがサービスタイプセットのいずれかのターゲットサービスタイプである場合、端末は音声命令に従って第1のサービスを実行する。
端末は、第1のサービスのサービスタイプを、サービスタイプセットの各ターゲットサービスタイプと比較し得る。第1のサービスのサービスタイプがいずれかのターゲットサービスタイプと同じである場合、それは、音声を通じてユーザによって表されたサービスタイプが予測されるサービスタイプの範囲内であることを示し、端末は、サービスタイプを正しく予測し、ユーザは本当に音声対話意図を有する。したがって、端末は、うまくウェイクアップされ、音声命令に応答して音声対話機能をアクティブにし、音声命令にしたがって第1のサービスを実行する、言い換えれば、音声命令によって表されたサービスを実行する。例えば、サービスタイプセットがナビゲーション及び音楽であり、第1のサービスが「セルXXのビルYYへのナビゲーションを実行する」である場合、第1のサービスのサービスタイプはナビゲーションであり、第1のサービスのサービスタイプはサービスタイプセットのナビゲーションのターゲットサービスタイプと同じであり、端末はセルXXのビルYYへのナビゲーションを実行する。
407. 第1のサービスのサービスタイプが、サービスタイプセットの全てのターゲットサービスタイプと異なる場合、端末は音声命令を破棄する。
サービスタイプセットが、第1のサービスのサービスタイプを含まない場合、音声を通じてユーザによって表されたサービスタイプが予測されるサービスタイプの範囲の外にあることを示し、端末は、サービスタイプを誤って予測し、ユーザは音声対話意図を有さない。したがって、端末は、音声命令にしたがうサービス処理によってもたらされる誤ったウェイクアップを回避するために、音声命令に応答せず、音声命令を破棄し、音声命令によって占められるバッファ空間を節約し得る。例えば、サービスタイプセットがナビゲーション及び音楽であり、第1のサービスが「エアコンをオンにする」である場合、第1のサービスのサービスタイプはエアコンであり、第1のサービスタイプはサービスタイプセットの全てのターゲットサービスタイプとは異なり、端末は、音声命令に応答しない、言い換えれば、エアコンをオンにしない。
加えて、端末は、ターゲットイベントを検出するとき計時を開始し得る。記録された期間がプリセットされた期間に達し、端末が音声命令を受信しなかった場合、端末は、監視を停止する。
ステップ407は、必須ステップの代わりのオプションのステップであることが留意されるべきである。
408. 端末は、音声命令に対応する意味情報に基づいてマッピング関係における確率を更新する。
このオプションの方法では、ターゲットイベントが発生するたびに、確率は、ユーザによって現在表されている意味情報に基づいて動的に調整され得、その結果、確率は、予測されるターゲットサービスタイプの正確さを評価することによって自己学習する(self-learning)方法で反復を通じて常に修正され、マッピング関係は、ターゲットイベントの発生及びユーザによって表された意味に基づいて常に最適化されることができ、ユーザの個人的行動習慣に徐々により良く一致することができ、それによって、より正確なマッピング関係を保証する。
具体的には、更新方法は、次の以下の方法(1)乃至方法(3)のうちの1つ又は複数を含み得る。
方法1:第1のサービスのサービスタイプが、サービスタイプセットのいずれかのターゲットサービスタイプである場合、マッピング関係における第1のサービスのサービスタイプに対応する確率を増加させる。
例えば、メインスイッチに対する操作が検出されたことが決定された後、サービスタイプセットがナビゲーション及び音楽であり、第1のサービスのサービスタイプがナビゲーションである場合、端末はナビゲーションに対応する確率を増加させる。
ターゲットイベントXが検出されるたびに、ユーザが音声を通じてターゲットサービスタイプYのサービスが実行されることを要求する場合、ターゲットサービスタイプYは、正確に、ターゲットイベントXが発生した後にユーザが音声対話意図を有するサービスタイプであることを示す。このオプションの方法では、ターゲットサービスタイプYの確率は絶えず増加する。したがって、ターゲットイベントがその後再び検出されるとき、ターゲットサービスタイプYの確率が確率閾値を満たし、その結果、ターゲットサービスタイプYが選択され、音声命令に対応する意味情報に対応する第1のサービスがターゲットサービスタイプYのサービスである場合、端末は、音声命令に応答してターゲットサービスタイプYのサービスを実行する。
第1のサービスのサービスタイプが、サービスタイプセットの全てのターゲットサービスタイプと異なる場合、端末は、第1のサービスのサービスタイプをマッピング関係に書き込み得ることが留意されるべきである。具体的には、マッピング関係がターゲットイベントを含まない場合、又はマッピング関係が第1サービスのサービスタイプを含まれない場合、又はマッピング関係のターゲットイベントが第1サービスのサービスタイプに対応しない場合、3つの場合のいずれか1つにおいて、端末は、ターゲットイベント及び第1サービスのサービスタイプをマッピング関係に書き込み得、その結果、ターゲットイベント及び第1サービスのサービスタイプがマッピング関係に新たに追加される。
このオプションの方法では、次にターゲットイベントが検出されるとき、マッピング関係は、第1のサービスのサービスタイプを取得するために照会され得、第1のサービスのサービスタイプは、ターゲットサービスタイプとして決定され得る。従って、端末の過去の実行プロセスにおいて、イベントXが検出されるたびに、ユーザは、音声を通じて、サービスタイプYに対して音声対話を実行する意図を表し、イベントX及びサービスタイプYはマッピング関係に書き込まれ得、その結果、イベントX及びサービスタイプYはマッピング関係に新たに追加される。このようにして、音声対話プロセスが進行するにつれて、イベントとサービスタイプとの間の関連付け(association)が見出されることができ、マッピング関係が補足され、改善されることができる。加えて、サービスが拡大するにつれて、端末は、新たに追加されたイベント及び新たに追加されたサービスタイプをマッピング関係に追加することができ、その結果、マッピング関係の拡張性及び適時性を改善することができる。
加えて、オプションで、第1のサービスのサービスタイプに対応する確率が生成され得、生成された確率は、マッピング関係に書き込まれる。具体的には、確率は、ターゲットイベントを検出する回数及び音声命令の意味情報が第1のサービスのサービスタイプを示す回数に基づいて決定され得る。例えば、ターゲットイベントAがA回検出され、意味情報が第1のサービスのサービスタイプをB回示す場合、A対Bの比率が、取得され、確率として用いられ得る。例えば、イベントXが10回検出され、ユーザが、音声を通じて7回、サービスタイプYについての音声対話を実行する意図を表した場合、サービスタイプYに対応する確率7/10、すなわち0.7が取得され得、サービスタイプYと確率0.7がマッピング関係に書き込まれる。もちろん、デフォルト確率が、第1のサービスのサービスタイプに対応する確率として使用されてもよく、第1のサービスのサービスタイプ及びデフォルト確率がマッピング関係に書き込まれる。その後、デフォルト確率は、ステップ408に示されるプロセスを通じて調整される。
方法(2):第1のサービスのサービスタイプが、サービスタイプセットの全てのターゲットサービスタイプと異なる場合、マッピング関係におけるサービスタイプセットの各ターゲットサービスタイプに対応する確率を減少させる。
例えば、メインスイッチに対する操作が検出されたことが決定された後、サービスタイプセットがナビゲーション及び音楽であり、第1のサービスのサービスタイプがエアコンである場合、端末はナビゲーション及び音楽に対応する確率を減少させる。
ターゲットイベントXがターゲットサービスタイプYに対応し、ターゲットイベントXが検出されるたびに、ユーザが、音声を通じて、ターゲットサービスタイプYのサービスが実行されることを必要としない場合、ターゲットサービスタイプYは、ターゲットイベントXが発生した後にユーザが音声対話意図を有するサービスタイプではないことを示す。このオプションの方法では、ターゲットサービスタイプYの確率は常に減少する。したがって、ターゲットイベントXがその後再び検出されるとき、ターゲットサービスタイプYの確率は確率閾値を満たさず、その結果、ターゲットサービスタイプYはフィルタ除去され、端末は、ターゲットサービスタイプYのサービスを処理せず、それによって誤ったウェイクアップを回避する。
方法(3):意味情報がウェイクアップワードを含む場合は、マッピング関係における第1のサービスのサービスタイプに対応する確率を増加させる。
例えば、メインスイッチに対する操作が検出された後、意味情報が「ハロー、アリス、目的地、すなわち、特定のセルの特定のビルへのナビゲーションを実行」である場合、端末はナビゲーションに対応する確率を増加させる。
ターゲットイベントXがターゲットサービスタイプYに対応し、ターゲットイベントXが検出されるたびに、ユーザがウェイクアップワードを発する場合、ターゲットサービスタイプYは、まさに、ターゲットイベントXが発生した後にユーザが音声対話意図を有するサービスタイプであることを示す。このオプションの方法では、ターゲットサービスタイプYの確率は絶えず増加する。したがって、ターゲットイベントがその後再び検出されるとき、ターゲットサービスタイプYの確率は確率閾値を満たし、その結果、ターゲットサービスタイプYが選択され、音声命令がターゲットサービスタイプYの意味情報を表す場合、端末は、音声命令に応答してサービスを処理する。
ステップ408は、必須ステップの代わりのオプションのステップであることが留意されるべきである。
この実施形態は、ウェイクアップワード無しの音声対話をトリガする方法を提供する。ユーザが音声対話意図を有するサービスタイプセットが、音声対話をトリガすることができるターゲットイベントに基づいて予測される。音声命令によって表される第1のサービスのサービスタイプが予測されるターゲットサービスタイプである場合、第1のサービスが実行される。音声対話プロセスにおいて、ユーザが頻繁にウェイクアップワードを発する必要がある煩わしい操作は省略され、その結果、ウェイクアップワードを頻繁に発することによって引き起こされる極めて低い音声対話効率の問題が解決され、操作がより便利になり、音声対話プロセスがより自然でパーソナライズされ、それによって、音声対話のユーザ体験が向上する。加えて、複数のモードのターゲットイベントが存在することができ、任意のモードのターゲットイベントが対応するサービスタイプの音声対話機能をトリガすることができ、その結果、ウェイクアップワード無しのウェイクアップ機能が、複数のアプリケーションシナリオにおいてサポートされることができ、それによって、適用範囲を拡大する。
前述の方法の実施形態を参照すると、以下は、本出願における特定のソフトウェアアーキテクチャの例示的な説明を提供する。
図5は、本出願の一実施形態による音声対話システムのソフトウェアアーキテクチャ図である。システムは、次の機能モジュール:音声アクティビティ検出(voice activity detection、VAD)モジュール又はフロントエンドスピーチ(front-end speech)モジュール、音声認識(自動音声認識(automatic speech recognition)、ASR)モジュール、マルチモード検出モジュール、ユーザ意図予測モジュール、口語理解(spoken language understanding、SLU)モジュール又はダイアログ管理(dialog management、DM)モジュール、過去のデータ学習モジュール、及び応答発生器(response generator、RG)/テキストから音声(text to speech、TTS)モジュールを含み、各モジュールはソフトウェアモジュールであり得る。
VADモジュール又はフロントエンドスピーチモジュールは:オーディオ信号を収集し、収集されたオーディオ信号に対してノイズ除去処理及び強調処理を実行し、オーディオ信号が音声命令であるか非音声命令であるかを検出し、オーディオ信号が音声命令である場合、音声命令をASRモジュールに入力するように構成される。非音声命令は、ノイズ信号、音楽信号などであり得る。
ASRモジュールは:VADモジュール又はフロントエンドスピーチモジュールから音声命令を受信し、音声命令をテキスト情報に変換し、テキスト情報をSLUモジュール又はダイアログ管理モジュールに入力するように構成される。
マルチモード検出モジュールは:ターゲットイベントを検出し、ターゲットイベントが検出された場合、ターゲットイベントをユーザ意図予測モジュールに入力するように構成される。例えば、マルチモード検出モジュールは、オペレーティングシステム又はアプリケーションによってプッシュされた通知メッセージ、例えば、ショートメッセージサービスメッセージ、通話、アプリケーションの推薦メッセージ、又はアラームメッセージを受信し得る;又は、マルチモード検出モジュールは、1つ又は複数のモードの操作、例えば、物理キー若しくはインターフェースの操作又は音声命令を検出するように構成される;又は、マルチモード検出モジュールは、環境変化又はサービス変更、例えば、温度低下、空気の質のレベルが基準を超える、又は、音楽が終わることを検出するように構成される。
ユーザ意図予測モジュールは:マルチモード検出モジュールからターゲットイベントを受信し、ユーザ操作の連続性ルール、閲覧、処理、又は応答のユーザ要求、及びユーザ知覚に対する環境又はサービスの影響を考慮してユーザの音声対話意図を予測し、サービスタイプセット及びサービスタイプセット内の各ターゲットサービスタイプに対応する確率を出力するように構成される。
SLUモジュール又はDMモジュールは:音声認識モジュールのテキスト情報に基づいてユーザ意図を識別し、ユーザ意図をシステム操作に変換し、ダイアログのコンテキスト状態に基づいてダイアログの応答コンテンツを取得し、RGモジュール又はTTSモジュールに応答コンテンツを出力するように構成される。
過去のデータ学習モジュールは、ユーザの過去の操作データに基づいて、ユーザ意図予測モジュール内のデータに対して反復更新を実行するように構成される。
RGモジュール/TTSモジュールは:ダイアログ管理モジュールから受信された応答コンテンツをテキスト情報に変換し、テキスト情報を出力する、又は応答コンテンツを音声命令に変換して音声を再生するように構成される。
図5に示すシステムアーキテクチャを参照すると、端末が車載端末である例では、車載端末は、ハードウェアとソフトウェアの組み合わせを使用することによって実現され得る。車載端末の構造を図6に示され得、車載端末は、中央処理装置(CPU)、内部メモリ又は他のメモリ、データバス(D-BUS)、オーディオマネージャ、ゲートウェイ、コントローラエリアネットワーク(英語:Controller Area Network、略してCAN)バス、及びクラウドサービス管理モジュールを含む。
CPUは:内部メモリ又は他のメモリ内の各機能モジュールにアクセスし、各機能モジュールを実行するように構成され、さらに、データバスを通じてメモリ及びオーディオマネージャにアクセスし得る。加えて、CPUは、ネットワークインターフェースを通じて様々なクラウドサービス及びクラウドサービス管理モジュールにアクセスし得る。CPUは、さらに、車両及び車両に搭載された様々なデバイスのデータを読み取り、車両及び車両に搭載された様々なデバイスを制御するために、ゲートウェイを使用することによってCANバスにアクセスし得る。
メモリは、内部メモリ及び磁気ディスクメモリを含み、記憶されたコンテンツは、図5に示す機能モジュールを含む。
オーディオマネージャは、車載スピーカ、マイクロホンアレイ、又は他のオーディオデバイスを管理するように構成される。
前述のものは、本出願の実施形態における音声対話方法を説明する。次のものは、本出願の実施形態において提供される音声対話装置を説明する。音声対話装置は、前述の音声対話方法における端末のいずれの機能も有することが理解されるべきである。
図7は、本出願の一実施形態による音声対話装置の概略構造図である。図7に示すように、装置は:
ステップ401を実行するように構成された決定モジュール701;ステップ402を実行するように構成された照会モジュール702;ステップ404を実行するように構成された収集モジュール703;ステップ405を実行するようにさらに構成された取得モジュール704;及びステップ406を実行するように構成された処理モジュール705;を含む。
オプションで、決定モジュール701は、ユーザの第1操作が検出されることを決定するように構成され、照会モジュール702は、ステップ402のケース(1)を実行するように構成される。
オプションで、決定モジュール701は、オペレーティングシステム又はアプリケーションから通知メッセージを受信するように構成され、照会モジュール702は、ステップ402のケース(2)を実行するように構成される。
オプションで、決定モジュール701は、現在の環境パラメータが第1の条件を満たすことを決定するように構成され、照会モジュール702は、ステップ402のケース(3)を実行するように構成される。
オプションで、決定モジュール701は、現在のサービスの進捗が第2の条件を満たすことを決定するように構成され、照会モジュール702は、ステップ402のケース(4)を実行するように構成される。
オプションで、装置はさらに:第1のサービスのサービスタイプが、サービスタイプセットの全てのターゲットサービスタイプと異なる場合、第1のサービスのサービスタイプをマッピング関係に書き込むように構成された書き込みモジュールを含む。
オプションで、照会モジュール702はさらに、サービスタイプセット及びサービスタイプセットの各ターゲットサービスタイプに対応する確率を取得するために、ターゲットイベントに基づいてマッピング関係を照会するように構成される。
装置は、さらに、ステップ408を実施するように構成されたフィルタリングモジュールを含む。
オプションで、装置はさらに、ステップ408を実行するように構成された更新モジュールを含む。
オプションで、更新モジュールは、特に、ステップ408の方法(1)乃至方法(3)のうちの1つ又は複数を実行するように構成される。
オプションで、装置は、さらに、ステップ407を実行するように構成された廃棄モジュールを含む。
前述の実施形態で提供された音声対話装置は、音声対話中に前述の機能モジュールの部分のみを用いて説明されている。実際には、機能は、必要に応じて、実装のために異なる機能モジュールに割り当てられ得る。具体的には、端末の内部構造が、上述の機能の一部又は全部を実装するために、異なる機能モジュールに分割される。加えて、前述の実施形態で提供された音声対話装置及び音声対話方法の実施形態は、同じ概念に属する。具体的な実装プロセスについては、本方法の実施形態を参照されたい。詳細は、ここでは再度説明しない。
前述のオプションの技術的解決策の全てが、本出願のオプションの実施形態を形成するようにランダムに組み合わされ得、詳細は本明細書には記載されない。
例示的な実施形態は、さらに、命令を含むメモリなどのコンピュータ読取可能記憶媒体を提供する。この命令は、前述の実施形態における音声対話方法を完成させるために、端末のプロセッサによって実行され得る。コンピュータ読取可能記憶媒体は、非一時的であり得る。例えば、コンピュータ読取可能記憶媒体は、読取専用メモリ(Read-Only Memory、略してROM)、ランダムアクセスメモリ(Random Access Memory、略してRAM)、コンパクトディスク読取専用メモリ(Compact Disc Read-Only Memory、略してCD-ROM)、磁気テープ、フロッピー(登録商標)ディスク、又は光学データ記憶装置であり得る。
例示的な実施形態は、さらに、コンピュータプログラム製品を提供する。コンピュータプログラム製品は、コンピュータプログラムコードを含み、コンピュータプログラムコードが端末で実行されるとき、端末は、前述の実施形態の音声対話方法を実行する。
例示的実施形態は、チップを提供する。チップは、メモリからメモリに記憶された命令を呼び出し、命令を実行するように構成されたプロセッサを含み、その結果、チップが搭載されたデバイスが、前述の実施形態の音声対話方法を実行する。
例示的な実施形態は、別のチップを提供する。チップは、入力インターフェース、出力インターフェース、プロセッサ、及びメモリを含み、入力インターフェース、出力インターフェース、プロセッサ、及びメモリは、内部接続パスを通じて接続され、プロセッサは、メモリ内のコードを実行するように構成され、コードが実行されるとき、プロセッサは、前述の実施形態の音声対話方法を実行するように構成される。
前述の実施形態の全て又は一部は、ソフトウェア、ハードウェア、ファームウェア、又はそれらの任意の組み合わせを使用することによって実装され得る。本実施形態を実装するためにソフトウェアを使用する場合、実施形態の全て又は一部は、コンピュータプログラム製品の形態で実装され得る。コンピュータプログラム製品は、1つ又は複数のコンピュータプログラム命令を含む。コンピュータプログラム命令がロードされ、コンピュータで実行されるとき、本出願の実施形態による手順又は機能の全て又は一部が生成される。コンピュータは、汎用コンピュータ、専用コンピュータ、コンピュータネットワーク、又は他のプログラム可能な装置であり得る。コンピュータ命令は、コンピュータ読取可能記憶媒体に記憶され得る、又はコンピュータ読取可能記憶媒体から別のコンピュータ読取可能記憶媒体に送信され得る。例えば、コンピュータ命令は、ウェブサイト、コンピュータ、サーバ、又はデータセンターから他のウェブサイト、コンピュータ、サーバ、又はデータセンターに有線又は無線で送信され得る。コンピュータ読取可能記憶媒体は、コンピュータによってアクセス可能な任意の使用可能な媒体、又は1つ又は複数の使用可能な媒体を統合するサーバ又はデータセンターなどのデータ記憶装置であり得る。使用可能な媒体は、磁気媒体(例えば、フロッピーディスク、ハードディスク、又は磁気テープ)、光学媒体(例えば、デジタルビデオディスク(digital video disc、DVD))、半導体媒体(例えば、ソリッドステートドライブ)であり得る。
この出願における用語「及び/又は(and/or)」は、関連するオブジェクト間の関連関係のみを記述し、3つの関係が存在し得ることを表す。例えば、A及び/又はBは、次の3つの場合:Aのみが存在する、AとBの両方が存在する、Bのみが存在する、を表し得る。加えて、この出願における文字「/」は、一般に、関連するオブジェクト間の「又は(or)」の関係を表す。
この出願において、用語「複数」は、2以上を意味する。例えば、複数のデータパケットは、2つ以上のデータパケットを意味する。
この出願における「第1」又は「第2」などの用語は、基本的に同一の機能又は目的を有する同じアイテム又は類似のアイテムの間を区別するために使用される。当業者は、「第1」及び「第2」などの用語が、数量及び実行順序を限定するものではないことを理解することができる。
当業者であれば、実施形態のステップの全て又は一部が、関連するハードウェアに指示するハードウェア又はプログラムによって実装され得ることを理解するであろう。プログラムは、コンピュータ読取可能記憶媒体に記憶され得る。記憶媒体は、読取専用メモリ、磁気ディスク、光ディスクなどであり得る。
前述の説明は、この出願の単なるオプションの実施形態であるが、この出願を限定することを意図するものではない。本出願の精神及び原理から逸脱することなくなされるいかなる修正、均等の代替、又は改良も、本出願の保護範囲に入るべきである。