JP2019195221A

JP2019195221A - 音声インタラクション方法、端末機器、サーバ及びコンピュータ読み取り可能な記憶媒体

Info

Publication number: JP2019195221A
Application number: JP2019132233A
Authority: JP
Inventors: 玉樹曹; yu shu Cao; 慶司; Qing Si; 清龍賀; qing long He; 向東薛; Xiang Dong Xue
Original assignee: Baidu Online Network Technology Beijing Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd
Priority date: 2018-09-30
Filing date: 2019-07-17
Publication date: 2019-11-07
Anticipated expiration: 2039-07-17
Also published as: CN109243444A; US20190333513A1; JP7227866B2; CN109243444B; US11282519B2

Abstract

【課題】ユーザに柔軟で、利便性の高い音声サービスを提供する。【解決手段】音声インタラクション方法は、モード制御コマンドを取得するステップ２０１と、モード制御コマンドに応じて、端末機器を第１のモードから第２のモードに切り替えるステップ２０２と、端末機器が第２のモードにある場合、ユーザの音声情報を取得するステップ２０３と、音声情報に応じて、サーバからユーザの所望する目標情報を取得するステップ２０４と、目標情報に対応するオーディオ情報を再生するステップ２０５と、を含む。【選択図】図２

Description

本発明の実施例は、コンピュータ技術の分野に関し、詳しく言えば、音声インタラクション方法、端末機器、サーバ及びコンピュータ読み取り可能な記憶媒体に関する。

人工知能技術の爆発的な発展及び音声技術の漸進的な成熟に伴い、対話ストリームを主とする人間型対話インタラクションは既に新たな革新的インタラクションの一つになり、主流となるスマート機器のインタラクションモードはタッチインタラクションからタッチと対話を並行するインタラクションモードへと変わりつつある。

現在、スマートスピーカーはユーザがインターネットにアクセスするためのツールになり、ユーザがスマートスピーカーによって歌を選択したり、オンラインショップで買い物したり、天気の状況を把握したりなどできるが、スマートスピーカーが重く嵩むため、ユーザが持ち歩くことはできない。そのため随時使用できるわけではなく、ユーザに柔軟で、利便性の高い音声サービスを提供することができない。

本発明の実施例は音声インタラクション方法、端末機器、サーバ及びコンピュータ読み取り可能な記憶媒体を提供し、ユーザに柔軟で、利便性の高い音声サービスを提供する。

第１の態様によれば、本発明の実施例にて提供される音声インタラクション方法は、モード制御コマンドを取得するステップと、前記モード制御コマンドに応じて、端末機器を第１のモードから第２のモードに切り替えるステップと、前記端末機器が前記第２のモードにある場合、ユーザの音声情報を取得するステップと、前記音声情報に応じて、サーバから前記ユーザの所望する目標情報を取得するステップと、前記目標情報に対応するオーディオ情報を再生するステップと、を含む。

第２の態様によれば、本発明の実施例にて提供される音声インタラクション方法は、第１のモード及び第２のモードを含む端末機器の現在の音声インタラクションモードを取得するステップと、前記端末機器が第２のモードにある場合、前記端末機器から送信されたユーザ音声情報に応じて、前記ユーザの所望する目標情報を確定するステップと、前記端末機器が前記目標情報に対応するオーディオ情報を再生するように前記目標情報を前記端末機器に送信するステップと、を含む。

第３の態様によれば、本発明の実施例にて提供される端末機器は、メモリと、プロセッサと、前記メモリに記憶されているコンピュータプログラムとを含む端末機器であって、前記コンピュータプログラムが前記プロセッサにより実行されて、モード制御コマンドを取得し、前記モード制御コマンドに応じて、前記端末機器を第１のモードから第２のモードに切り替え、前記端末機器が前記第２のモードにある場合、ユーザの音声情報を取得し、前記音声情報に応じて、サーバから前記ユーザの所望する目標情報を取得し、前記目標情報に対応するオーディオ情報を再生する操作を実行するように構成されている。

第４の態様によれば、本発明の実施例にて提供されるサーバは、メモリと、プロセッサと、通信インタフェースと、前記メモリに記憶されているコンピュータプログラムとを含むサーバであって、前記コンピュータプログラムが前記プロセッサにより実行されて、第１のモード及び第２のモードを含む端末機器の現在の音声インタラクションモードを取得し、前記端末機器が第２のモードにある場合、前記端末機器から送信されたユーザ音声情報に応じて、前記ユーザの所望する目標情報を確定し、前記端末機器が前記目標情報に対応するオーディオ情報を再生するように前記通信インタフェースによって前記目標情報を前記端末機器に送信するという操作を実行するように構成されている。

第５の態様によれば、本発明の実施例にて提供されるコンピュータ読み取り可能な記憶媒体は、第１の態様又は第２の態様に記載の方法を実現するようにプロセッサに実行されるコンピュータプログラムが記憶されている。

第６の態様によれば、本発明の実施例にて提供される端末機器は、モード制御コマンドを取得するための第１の取得モジュールと、前記モード制御コマンドに応じて、端末機器を第１のモードから第２のモードに切り替えるためのモード切り替えモジュールと、前記端末機器が前記第２のモードにある場合、ユーザの音声情報を取得するための第２の取得モジュールと、前記音声情報に応じて、サーバから前記ユーザの所望する目標情報を取得するための第３の取得モジュールと、前記目標情報に対応するオーディオ情報を再生するための再生モジュールと、を含む。

第７の態様によれば、本発明の実施例にて提供されるサーバは、第１のモード及び第２のモードを含む端末機器の現在の音声インタラクションモードを取得するための取得モジュールと、前記端末機器が第２のモードにある場合、前記端末機器から送信されたユーザ音声情報に応じて、前記ユーザの所望する目標情報を確定するための確定モジュールと、前記端末機器が前記目標情報に対応するオーディオ情報を再生するように前記目標情報を前記端末機器に送信するための送信モジュールと、を含む。

本発明の実施例に係る音声インタラクション方法、端末機器、サーバ及びコンピュータ読み取り可能な記憶媒体は、端末機器を近距離音声インタラクションモードから遠距離音声インタラクションモードに切り替えることで、端末機器が遠距離音声インタラクションモードにある場合、ユーザの音声情報を取得し、且つ音声情報に応じて、サーバからユーザの所望する目標情報を取得し、端末機器により音声手段で目標情報を再生する。端末機器、例えば携帯電話、タブレットコンピュータなどのユーザ端末が遠距離音声インタラクションモードではディスプレイ付きのスマートスピーカーに変わり、近距離音声インタラクションモードでは常用の携帯電話又はタブレットコンピュータとなる。このような端末機器はユーザにとっては持ち歩きに便利であり、ユーザがいつでもどこでも端末機器の遠距離音声インタラクション機能を使用でき、これによりユーザに柔軟で、利便性の高い音声サービスを提供する。

以下の図面によって、本開示の明確な実施例を示し、さらに詳しい説明は後述する。これらの図面及び文字による説明は、いずれかの形態によって本開示の構想の範囲を制限するためのものではなく、特定の実施例を参照することにより当業者に本開示の概念を説明するためのものである。
本発明の実施例に係るアプリケーションシーンの概略図である。本発明の実施例に係る音声インタラクション方法のフローチャートである。本発明の実施例に係る別のアプリケーションシーンの概略図である。本発明の実施例に係る別のアプリケーションシーンの概略図である。本発明の実施例に係る別のアプリケーションシーンの概略図である。本発明の実施例に係る別のアプリケーションシーンの概略図である。本発明の別の実施例に係る音声インタラクション方法のフローチャートである。本発明の別の実施例に係るページ切り替えの概略図である。本発明の別の実施例に係る音声インタラクション方法のフローチャートである。本発明の別の実施例に係る音声インタラクション方法のフローチャートである。本発明の実施例に係る音声インタラクション方法のフローチャートである。本発明の別の実施例に係る音声インタラクション方法のフローチャートである。本発明の別の実施例に係るリモートサーバ内の機能モジュールの概略図である。本発明の実施例に係る端末機器の構造概略図である。本発明の実施例に係るサーバの構造概略図である。本発明の実施例に係る端末機器の構造概略図である。本発明の実施例に係るサーバの構造概略図である。

ここで例示的な実施例を詳細に説明すべく、その一例が図面に示される。以下の図面に関する説明において、特に明記されない場合、異なる図面における同一の数字は同一又は類似の要素を示す。以下の例示的な実施例において説明する実施形態は、本開示内容と一致する全ての実施形態ではない。逆に、それらは付帯する請求項に詳述されるような、本開示の一部の態様と一致する装置及び方法の例にすぎない。

本発明が提供する音声インタラクション方法は、図１に示される通信システムに適用され得る。図１に示すように、通信システムは、端末機器１１と、サーバ１２と、を含む。端末機器１１は具体的には携帯電話、タブレットコンピュータなどのユーザ端末であってよい。

本発明が提供する音声インタラクション方法は、従来技術に存在する上記のような技術的問題を解決するためである。

以下では、具体的な実施例を挙げて本発明の技術的解決手段及び本願の技術的解決手段を用いてどのように上記技術的問題を解決するかについて詳細に説明する。以下のこれらの具体的な実施例を互いに組み合わせてもよく、同じ又は類似の概念又は過程についていくつかの実施例では繰り返し説明しない。以下、図面を参照しながら、本発明の実施例について説明する。

図２は本発明の実施例に係る音声インタラクション方法のフローチャートである。本発明の実施例は従来技術に存在する上記のような技術的問題に対して、音声インタラクション方法を提供し、その方法の具体的なステップは以下のとおりである。

ステップ２０１では、モード制御コマンドを取得する。

本実施例に係る音声インタラクション方法の実行主体は、端末機器でよく、端末機器は具体的には携帯電話、タブレットコンピュータなどのユーザ端末でよい。図３に示すように、端末機器３１は、同時に第１のモード及び第２のモードをサポートし、そのうち、第１のモードは具体的には携帯電話、タブレットコンピュータなどのユーザ端末の元の動作モードでよく、第２のモードは携帯電話、タブレットコンピュータなどのユーザ端末に外付け機器を接続した後にユーザ端末にスマートスピーカー機能を持たせるときの動作モードである。本実施例では、第１のモードは近距離音声インタラクションモードを含み、第２のモードは遠距離音声インタラクションモードを含む。いわゆる近距離音声インタラクションモードとは、ユーザが端末機器３１から比較的近い範囲で、例えば、ユーザが端末機器３１から０．５メートルの範囲内で音声インタラクションを行い、端末機器３１がユーザから各方向に発せられた音声情報を認識できるモードである。いわゆる遠距離音声インタラクションモードとは、ユーザが端末機器３１から比較的遠い範囲で音声インタラクションを行うことができ、例えば、ユーザが端末機器３１から３〜５メートルの範囲内で端末機器３１と音声インタラクションを行うモードである。本実施例では、ユーザは端末機器３１を近距離音声インタラクションモードから遠距離音声インタラクションモードに切り替えるように制御でき、或いは、端末機器３１を遠距離音声インタラクションモードから近距離音声インタラクションモードに切り替えるように制御できる。ここで、端末機器３１を近距離音声インタラクションモードから遠距離音声インタラクションモードに切り替えることを例として、切り替えの手段は具体的には端末機器３１がモード制御コマンドを取得し、且つモード制御コマンドに応じて端末機器３１を近距離音声インタラクションモードから遠距離音声インタラクションモードに切り替える手段であってよい。

選択的に、モード制御コマンドを取得するステップは以下のいくつかの実行可能な実現形態を含む。

１つの実行可能な実現形態としては、ユーザによる端末機器におけるアプリケーションプログラムに対する操作を検出し、且つ操作に応じてモード制御コマンドを生成する。

図３に示すように、端末機器３１に複数種類のアプリケーションプログラムがインストールされており、端末機器３１のユーザインタフェースに複数のアプリケーションプログラムのアイコンを表示し、そのうちのアプリケーションプログラム３２は端末機器３１を近距離音声インタラクションモードから遠距離音声インタラクションモードに切り替えるように制御するために用いられてよく、アプリケーションプログラム３２は具体的には端末機器３１のユーザを設定するためのアプリケーションプログラムであり得、ユーザはクリックしてアプリケーションプログラム３２に進んだ後、対応する音声インタラクションモード設定を選択し、例えば、遠距離音声インタラクションモードの機能キーをオンにし、又は近距離音声インタラクションモードの機能キーをオフにする。端末機器３１がユーザによるアプリケーションプログラム３２に対する操作、及びユーザによる遠距離音声インタラクションモードに対する設定操作を検出した後、ユーザの操作に応じてモード制御コマンドを生成する。

別の実行可能な実現形態としては、端末機器に外付け機器が接続されているか否かを検出し、端末機器に外付け機器が接続されている場合、モード制御コマンドを生成する。

例えば、端末機器３１は、様々なタイプの外付け機器と接続することも可能である。選択的に、外付け機器は充電スタンド、スピーカー、イヤホン、携帯電話ホルダのうちの少なくとも１種を含む。ここでは概略的な説明にすぎず、外付け機器の具体的なタイプを限定するものではなく、端末機器３１と外付け機器との間の接続形態を限定するものでもない。選択的に、端末機器３１と外付け機器は例えばユニバーサルシリアルバス（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ、ＵＳＢ）インタフェース、３．５ｍｍオーディオインタフェース、Ｌｉｇｈｔｉｎｇインタフェースなどの有線形態で接続され、或いは、端末機器３１と外付け機器は例えばブルートゥース（登録商標）、ワイヤレスファイデリティ（Ｗｉｒｅｌｅｓｓ−Ｆｉｄｅｌｉｔｙ、ｗｉｆｉ）などの無線形態で接続される。

図４に示すように、端末機器３１が充電スタンド４１に接続されると、端末機器３１を近距離音声インタラクションモードから遠距離音声インタラクションモードに切り替えるようにトリガできる。具体的には、端末機器３１は端末機器３１が外付け機器例えば充電スタンド４１に接続されているか否かをリアルタイムで検出し、端末機器３１は端末機器３１が充電スタンド４１に接続されていることを検出した場合、モード制御コマンドを生成する。

ステップ２０２では、モード制御コマンドに応じて、端末機器を第１のモードから第２のモードに切り替える。

具体的には、端末機器３１はモード制御コマンドに応じて、端末機器３１を近距離音声インタラクションモードから遠距離音声インタラクションモードに切り替える。遠距離音声インタラクションモードでは、ユーザは比較的遠い距離範囲内で端末機器３１と音声インタラクションを行うことができる。つまり、端末機器３１が近距離音声インタラクションモードにある場合、端末機器３１は元の携帯電話又はタブレットコンピュータの機能を実現する。端末機器３１が遠距離音声インタラクションモードにある場合、端末機器３１はスマートスピーカーの機能を実現することができる。

選択的に、端末機器が近距離音声パス及び遠距離音声パスを含み、端末機器を第１のモードから第２のモードに切り替えるステップは、近距離音声パスをオフにし、且つ遠距離音声パスをオンにすることを含む。

本実施例では、端末機器３１の駆動層に近距離音声パス及び遠距離音声パスが設置され、近距離音声パス及び遠距離音声パスが互いに分離し、互いに独立する音声パスであり、端末機器３１が近距離音声インタラクションモードにある場合、端末機器３１は近距離音声パスによって音声情報処理を行う。端末機器３１が遠距離音声インタラクションモードにある場合、端末機器３１は遠距離音声パスによって音声情報処理を行う。本実施例では、遠距離音声パスはリニア２ｍｉｃ、４ｍｉｃ、又は６ｍｉｃの音声情報処理をサポートできる。ユーザがユーザインタフェースにおいてアプリケーションプログラムによって端末機器３１を近距離音声インタラクションモードから遠距離音声インタラクションモードに切り替えるように設定する場合、端末機器３１の駆動層は具体的には近距離音声パスをオフにし、遠距離音声パスをオンにすることができる。或いは、端末機器３１が外付け機器に接続されて端末機器３１を近距離音声インタラクションモードから遠距離音声インタラクションモードに切り替えるようにトリガするとき、端末機器３１の駆動層は具体的には近距離音声パスをオフにし、遠距離音声パスをオンにすることができる。

ステップ２０３では、端末機器が第２のモードにある場合、ユーザの音声情報を取得する。

図３に示すように、端末機器３１が遠距離音声インタラクションモードにある場合、端末機器３１はユーザの音声情報をリアルタイムで収集し、且つ遠距離音声パスによって音声情報処理を行うことができる。

選択的に、ユーザの音声情報を取得するステップは、外付け機器によってユーザの音声情報を収集することを含む。

図４に示すように、端末機器３１が外付け機器例えば充電スタンドに接続されている場合、充電スタンドにマイクが装着されていると、充電スタンドのマイクによってユーザの音声情報を収集し、さらに充電スタンドによりユーザの音声情報を端末機器３１に伝送することができる。

ステップ２０４では、音声情報に応じて、サーバからユーザの所望する目標情報を取得する。

端末機器３１がユーザの音声情報を取得した後、音声情報をリモートサーバに送信し、リモートサーバにより意味解析を実行し、ユーザの所望する目標情報を確定でき、例えば、端末機器３１が収集した音声情報が「張学友の歌を再生する」である場合、端末機器３１が音声情報をリモートサーバに送信した後、リモートサーバは歌曲類オーディオ情報がユーザの所望する目標情報であり、歌手が張学友であることがオーディオ情報の満たすべき条件であると確定し、リモートサーバはデータベースから要件を満たすオーディオ情報を取得し、且つオーディオ情報を端末機器３１に送信する。

他の実施例では、音声情報に応じて、サーバからユーザの所望する目標情報を取得するステップは、遠距離音声パスによって音声情報を処理し、ユーザの所望する目標情報を確定することと、サーバからユーザの所望する目標情報を取得することと、を含む。

図４に示すように、端末機器３１が充電スタンド４１に接続され、端末機器３１が遠距離音声インタラクションモードに進み、ユーザ４２が端末機器３１から遠く離れる箇所で「張学友の歌を再生する」と言うと、充電スタンド４１がユーザ４２の音声情報を収集し、且つ音声情報を端末機器３１に伝送し、端末機器３１が遠距離音声パスによって音声情報を処理し、歌曲類オーディオ情報がユーザの所望する目標情報であり、歌手が張学友であることがオーディオ情報の満たすべき条件であると確定し、端末機器３１は目標情報に対応する例えばオーディオ情報、歌手が張学友であるという情報などの特徴情報をリモートサーバ４３に送信し、リモートサーバ４３によりデータベースから要件を満たす目標情報を取得し、且つ目標情報を端末機器３１に送信する。

ステップ２０５では、目標情報に対応するオーディオ情報を再生する。

端末機器３１がリモートサーバ４３から配信された目標情報を受信した後、目標情報に対応するオーディオ情報を再生する。例えば、張学友の歌を再生する。

選択的に、目標情報に対応するオーディオ情報を再生するステップは、外付け機器によって目標情報に対応するオーディオ情報を再生することを含む。

図４に示すように、充電スタンド４１にまたスピーカーが装着されてもよく、端末機器３１がリモートサーバ４３から配信されたユーザの所望するオーディオ情報例えば音楽を受信すると、端末機器１３は充電スタンド４１によって音楽例えば張学友の歌を再生することができる。

なお、ここでは概略的な説明にすぎず、ユーザと端末機器の具体的な音声インタラクションコンテンツを限定するものではなく、リモートサーバ４３から配信された目標情報の具体的なフォーマットを限定するものでもなく、目標情報は具体的にはテキスト情報、オーディオ情報、ビデオ情報、画像情報のうちの少なくとも１種でもよい。例えば、図４に示すように、ユーザ４２が遠距離内で「今日の天気はどう」と言うと、端末機器１３がユーザの音声情報を検出した後、音声情報をリモートサーバ４３に送信し、リモートサーバ４３がユーザの所在位置に応じて、ユーザの現在位置の天気情報を確定し、且つ天気情報を端末機器１３に配信し、端末機器１３が天気情報を再生すると同時に、端末機器１３の画面に文字様態で天気情報を表示することもできる。さらに例えば、リモートサーバ４３はユーザの家庭内のスマートホームを制御することもでき、例えば、ユーザの居間内のライトはモノのインターネットにおけるスマートホームに属し、図４に示すように、ユーザ４２が遠距離内で「居間のライトを点灯してください」と言うと、端末機器１３がユーザの音声情報を検出した後、音声情報をリモートサーバ４３に送信し、リモートサーバ４３が音声情報に応じてライトを制御する制御コマンドを生成し、且つモノのインターネットによってユーザの居間内のライトに制御コマンドを送信し、ユーザの居間内のライトを点灯するように制御する。

他の実施例では、リモートサーバ４３は第三者サーバ又は他の端末機器によって提供されたメディア情報を受信することもできる。図５に示すように、他のユーザの端末機器５１がローカルに記憶又は録画されたメディア情報例えば筝演奏ビデオをリモートサーバ４３に送信し、リモートサーバ４３がメディア情報をデータベースに記憶できる。例えば、ユーザ４２が端末機器１３に「筝ビデオを再生する」と言うと、端末機器１３が音声情報をリモートサーバ４３に送信し、リモートサーバ４３が端末機器５１から受信した筝演奏ビデオを端末機器１３に送信でき、端末機器１３が筝演奏ビデオを再生する。さらに或いは、図６に示すように、リモートサーバ４３は第三者サーバ６１から送信されたメディア情報を受信することもでき、例えば、第三者サーバ６１は例えば画像情報、ビデオ情報、オーディオ情報などの最新の娯楽情報をリモートサーバ４３に送信する。ユーザ４２が端末機器１３に「娯楽情報を再生する」と言うと、端末機器１３が音声情報をリモートサーバ４３に送信し、リモートサーバ４３が第三者サーバ６１から受信した最新の娯楽情報を端末機器１３に送信でき、端末機器１３が娯楽情報を再生し、例えば、端末機器１３が娯楽情報を充電スタンド４１に伝送し、充電スタンド４１のスピーカーにより娯楽情報を再生する。

本発明の実施例は、端末機器を近距離音声インタラクションモードから遠距離音声インタラクションモードに切り替えることで、端末機器が遠距離音声インタラクションモードにある場合、ユーザの音声情報を取得し、且つ音声情報に応じて、サーバからユーザの所望する目標情報を取得し、端末機器により音声形態で目標情報を再生し、端末機器例えば携帯電話、タブレットコンピュータなどのユーザ端末が遠距離音声インタラクションモードでディスプレイ付きのスマートスピーカーに変わることができ、近距離音声インタラクションモードで常用の携帯電話又はタブレットコンピュータであり、端末機器がユーザにとっては持ち歩きに便利であり、ユーザがいつでもどこでも端末機器の遠距離音声インタラクション機能を使用でき、これによりユーザに柔軟で、便利な音声サービスを提供する。

図７は本発明の別の実施例に係る音声インタラクション方法のフローチャートである。上記実施例に加えて、本実施例に係る音声インタラクション方法はさらにステップ７０１と、ステップ７０２と、を含む。

ステップ７０１では、端末機器が第１のモードにある場合、端末機器が第１のインタフェースを表示するように制御する。

図８に示すように、端末機器が近距離音声インタラクションモードにある場合、端末機器は第１のインタフェース８１を表示し、第１のインタフェース８１は具体的には端末機器の元のシステムデスクトップでもよく、システムデスクトップに複数の異なるアプリケーションプログラムのアイコンが表示されている。

ステップ７０２では、端末機器が第１のモードから第２のモードに切り替えられる場合、端末機器が第２のインタフェースを表示するように制御する。

図３に示すように、ユーザがクリックしてアプリケーションプログラム３２に進み、且つ遠距離音声インタラクションモードの機能キーをオンにするか、又は近距離音声インタラクションモードの機能キーをオフにするとき、端末機器３１は近距離音声インタラクションモードから遠距離音声インタラクションモードに切り替えられる。

或いは、図４に示すように、端末機器３１が外付け機器に接続されると、端末機器３１が近距離音声インタラクションモードから遠距離音声インタラクションモードに切り替えられるようにトリガする。

本実施例では、端末機器３１が近距離音声インタラクションモードから遠距離音声インタラクションモードに切り替えられるとき、端末機器３１の画面に第２のインタフェース８２を表示し、第２のインタフェース８２が遠距離音声インタラクションモードに対応するシステムデスクトップであってよく、選択的に、第２のインタフェース８２に第三者アプリケーションプログラムアイコンを有さず、ユーザが主に音声インタラクションモードによって端末機器３１とインタラクションする。選択的に、第２のインタフェース８２は遠距離音声インタラクションモードを終了するキーを表示してよく、ユーザがキーをクリックするとき、端末機器３１は遠距離音声インタラクションモードから近距離音声インタラクションモードに切り替えられると同時に、端末機器３１が表示したインタフェースは第２のインタフェース８２から第１のインタフェース８１に切り替えられる。或いは、図４に示すように、端末機器１３が外付け機器から分離するとき、端末機器３１が遠距離音声インタラクションモードから近距離音声インタラクションモードに切り替えられるようにトリガすると同時に、端末機器３１が表示したインタフェースは第２のインタフェース８２から第１のインタフェース８１に切り替えられる。

本実施例では、端末機器３１が遠距離音声インタラクションモードにある場合、端末機器１３がユーザと音声インタラクションを行うとき、端末機器１３はユーザの音声情報に応じて、ユーザの声紋情報を認識することもでき、声紋情報はユーザの認識情報として用いることができ、選択的に、端末機器１３は複数の家族メンバーが使用することをサポートでき、具体的には、端末機器１３は各家族メンバーの声紋情報を予め記憶することができ、端末機器１３が音声情報を収集したとき、まず音声情報に対応する声紋情報を認識し、且つ声紋情報がある家族メンバーの声紋情報であるか否かを判断し、そうであれば、端末機器１３はさらに家族メンバーと音声インタラクションを行い、さらに、端末機器１３は家族メンバーの声紋情報に応じて、家族メンバーの家庭におけるキャラクタを確定でき、端末機器１３は声紋情報が子供の声紋情報であると確定する場合、端末機器１３はまた対応する子供モードを起動でき、例えば、子供が端末機器１３を用いて音声インタラクションを行う時間を制限する。端末機器１３は声紋情報が最大の権限を有する家族メンバーの声紋情報であると確定する場合、端末機器１３はまた対応する権限モードを起動でき、例えば、他の家族メンバーが端末機器１３と音声インタラクションを行うとき、毎回端末機器１３を覚醒させることができるキーワードを言う必要があり、最大の権限を有する家族メンバーが端末機器１３と音声インタラクションを行うとき、キーワードを言う必要がなく、直接ユーザのニーズを言うだけでよい。例えば、同様に娯楽情報を再生するとき、他の家族メンバーは「小度、小度、娯楽情報を再生してください」と言う必要があるが、最大の権限を有する家族メンバーは「娯楽情報を再生してください」と言うだけでよく、ただし、「小度、小度」はすなわち端末機器１３を覚醒させるキーワードである。本実施例に係る子供モード及び権限モードは端末機器１３が遠距離音声インタラクションモードにあるときの特定の用途にすぎず、遠距離音声インタラクションモードと並行しているモードではないことが理解されることができる。

本発明の実施例は端末機器が近距離音声インタラクションモードにあるとき、端末機器が第１のインタフェースを表示するように制御し、端末機器が近距離音声インタラクションモードから遠距離音声インタラクションモードに切り替えられるとき、端末機器が第２のインタフェースを表示するように制御することで、第２のインタフェースで、ユーザにスマート音声インタラクション体験を提供する。

図９は本発明の別の実施例に係る音声インタラクション方法のフローチャートである。上記実施例から明らかなように、端末機器３１は近距離音声インタラクションモードで第１のインタフェース８１を表示し、遠距離音声インタラクションモードで第２のインタフェース８２を表示でき、第１のインタフェース８１に各種の異なるアプリケーションプログラムアイコンが表示されているため、端末機器３１が近距離音声インタラクションモードにある場合、端末機器３１は異なるアプリケーションプログラムのインタラクションインタフェースを表示でき、端末機器３１が遠距離音声インタラクションモードにある場合、端末機器３１が異なるアプリケーションプログラムのインタラクションインタフェースを表示できるか否かは、本実施例に係る方法によって実現され得る。本実施例に係る音声インタラクション方法はさらにステップ９０１と、ステップ９０２と、ステップ９０３と、を含む。

ステップ９０１では、非ユーザートリガーのアプリケーションプログラムを起動するか又は終了するように制御するためのアプリケーションプログラム制御コマンドを取得する。

選択的に、端末機器３１が近距離音声インタラクションモードにあるとき、ユーザは端末機器３１内のアプリケーションプログラムの起動又は終了形態を制御でき、例えば、ユーザは、端末機器３１が遠距離音声インタラクションモードにあるとき、非ユーザートリガーのアプリケーションプログラムを起動するか又は終了するように設定できる。ここでは具体的な設定手段を限定せず、音声手段で設定してもよく、またアプリケーションプログラムを操作する手段で設定してもよい。選択的に、ユーザが対応して設定した後、端末機器１３は対応するアプリケーションプログラム制御コマンドを生成し、例えば、ユーザは、端末機器３１が遠距離音声インタラクションモードにあるとき、非ユーザートリガーのアプリケーションプログラムを起動するように設定する場合、アプリケーションプログラム制御コマンドは非ユーザートリガーのアプリケーションプログラムを起動するように制御するために用いられる。ユーザは、端末機器３１が遠距離音声インタラクションモードにあるとき、非ユーザートリガーのアプリケーションプログラムを終了するように設定する場合、アプリケーションプログラム制御コマンドは非ユーザートリガーのアプリケーションプログラムを終了するように制御するために用いられる。

ステップ９０２では、アプリケーションプログラム制御コマンドが非ユーザートリガーのアプリケーションプログラムを起動するように制御するために用いられる場合、端末機器が第２のモードにあり且つアプリケーションプログラムが起動されたとき、第２のインタフェースにアプリケーションプログラムに対応するユーザインタフェースを表示する。

例えば、アプリケーションプログラム制御コマンドが非ユーザートリガーのアプリケーションプログラムを起動するように制御するために用いられる場合、端末機器３１が遠距離音声インタラクションモードにあるとき、端末機器３１は第２のインタフェース８２を表示し、このとき、端末機器３１の近距離音声インタラクションモードでのいずれかのアプリケーションプログラム例えばウィーチャットがインスタント通信メッセージを受信すると、端末機器３１は第２のインタフェース８２にインスタント通信メッセージに対応する例えばタスクバー、通知バー、ポップアップボックスなどの提示情報を表示でき、ユーザが提示情報をクリックするとき、端末機器３１は第２のインタフェース８２からウィーチャットユーザインタフェースにジャンプすることができる。

ステップ９０３では、アプリケーションプログラム制御コマンドが非ユーザートリガーのアプリケーションプログラムを終了するように制御するために用いられる場合、端末機器が第２のモードにあり且つアプリケーションプログラムが起動されたとき、第２のインタフェースにアプリケーションプログラムに対応するユーザインタフェースを表示しない。

例えば、アプリケーションプログラム制御コマンドが非ユーザートリガーのアプリケーションプログラムを終了するように制御するために用いられる場合、端末機器３１が遠距離音声インタラクションモードにあるとき、端末機器３１は第２のインタフェース８２を表示し、このとき、端末機器３１の近距離音声インタラクションモードでのいずれかのアプリケーションプログラム例えばウィーチャットがインスタント通信メッセージを受信したが、第２のインタフェース８２に何らかの提示情報を表示せず、端末機器３１が第２のインタフェース８２を表示するとき、近距離音声インタラクションモードでのアプリケーションプログラムをマスクできることに相当する。

また、他の実施例では、ユーザはまた、端末機器３１が遠距離音声インタラクションモードにあるとき、アプリケーションプログラムに対応するタスクバー、通知バー、ポップアップボックスなどのみを表示し、他のアプリケーションプログラムに対応するタスクバー、通知バー、ポップアップボックスなどを表示しないように、あるアプリケーションプログラムを設定することができる。

本発明の実施例では、ユーザは非ユーザートリガーのアプリケーションプログラムを起動するか又は終了するように制御でき、ユーザが非ユーザートリガーのアプリケーションプログラムを起動するように制御する場合、端末機器が遠距離音声インタラクションモードにあるとき、端末機器３１の近距離音声インタラクションモードでのアプリケーションプログラムは起動可能であり、且つアプリケーションプログラムに対応するタスクバー、通知バー、ポップアップボックスなどはいずれも画面に表示可能であり、これによりユーザはアプリケーションプログラムのメッセージをリアルタイムで受信できる。ユーザが非ユーザートリガーのアプリケーションプログラムを終了するように制御する場合、端末機器が遠距離音声インタラクションモードにあるとき、端末機器３１の近距離音声インタラクションモードでのアプリケーションプログラムは起動不能になり、且つアプリケーションプログラムに対応するタスクバー、通知バー、ポップアップボックスなどはいずれも画面に表示されず、ユーザの遠距離音声インタラクションモードでの音声インタラクションが遮断されることを回避する。

図１０は本発明の別の実施例に係る音声インタラクション方法のフローチャートである。上記実施例に加えて、本実施例に係る音声インタラクション方法はさらにステップ１００１と、ステップ１００２と、を含む。

ステップ１００１では、端末機器が第２のモードにある場合、サーバからリアルタイムで送信されたプッシュメッセージを受信する。

本実施例では、端末機器が近距離音声インタラクションモードから遠距離音声インタラクションモードに切り替えられ、すなわち端末機器が表示したインタフェースが図８に示される第１のインタフェース８１から第２のインタフェース８２に切り替えられたとき、リモートサーバは端末機器にプッシュメッセージをリアルタイムで送信し、プッシュメッセージはリモートサーバがランダムに確定するものであってもよく、またリモートサーバが最新のリアルタイムホットスポット情報、ユーザ履歴記録情報及びユーザ画像のうちの少なくとも１つに応じて生成するものであってもよい。

本実施例はプッシュメッセージの具体的な形式及び数を限定せず、例えば、プッシュメッセージは文字情報、画像情報、ビデオ情報、オーディオ情報のうちの少なくとも１種であってもよい。

ステップ１００２では、端末機器にプッシュメッセージを表示する。

端末機器がリモートサーバから配信されたプッシュメッセージを受信した後、第２のインタフェース８２にプッシュメッセージをリアルタイムで表示し、例えば、プッシュメッセージが具体的にはデスクトップ背景及び文字情報であってよく、リモートサーバが毎回異なるデスクトップ背景及び文字情報を配信し、文字情報が現在最新のホットスポットメッセージ、天気情報、ニュースなどのリアルタイムメッセージであり得る。具体的には、端末機器はプッシュメッセージを順番に表示できる。端末機器がプッシュメッセージをリアルタイムで表示する過程で、端末機器がユーザの音声情報を検出すると、上記実施例に係る方法にしたがって音声情報をリモートサーバに送信し、リモートサーバによりユーザの所望する目標情報を確定し、或いは、端末機器は音声情報に応じてユーザの所望する目標情報を確定し、且つ目標情報を取得するように要求する要求メッセージをリモートサーバに送信する。端末機器がリモートサーバから配信された目標情報を受信したとき、端末機器は前述のプッシュメッセージの表示を一時停止し、且つ目標情報を再生し、目標情報の再生が終了した後、端末機器は一時停止した前述のプッシュメッセージの表示を再開する。本実施例では、端末機器及びリモートサーバはネットワークの持続接続を維持し、リモートサーバから配信された最新のプッシュメッセージをリアルタイムで取得することができる。

本発明の実施例は端末機器が遠距離音声インタラクションモードにあるとき、サーバからリアルタイムで送信されたプッシュメッセージを受信し、且つ端末機器にプッシュメッセージを表示することで、ユーザが遠距離音声インタラクションモードで端末機器と遠距離音声インタラクションを行うことができるだけでなく、またサーバから配信されたプッシュメッセージをリアルタイムで閲覧でき、ユーザにより多くのネットワークコンサルティングを知ってもらうことに便利である。

図１１は本発明の実施例に係る音声インタラクション方法のフローチャートである。本発明の実施例は従来技術に存在する上記のような技術的問題に対して、音声インタラクション方法を提供し、その方法の具体的なステップは以下のとおりである。ステップ１１０１では、第１のモード及び第２のモードを含む端末機器の現在の音声インタラクションモードを取得する。ステップ１１０２では、端末機器が第２のモードにある場合、端末機器から送信されたユーザ音声情報に応じて、ユーザの所望する目標情報を確定する。ステップ１１０３では、端末機器が目標情報に対応するオーディオ情報を再生するように目標情報を端末機器に送信する。

本実施例に係る音声インタラクション方法の実行主体は、サーバであってもよく、サーバは具体的には上記実施例に係るリモートサーバであってよい。本実施例に係る方法の実現形態及び具体的な原理はいずれも上記実施例と一致するので、ここでは説明を省略する。

本発明の実施例は、端末機器を近距離音声インタラクションモードから遠距離音声インタラクションモードに切り替えることで、端末機器が遠距離音声インタラクションモードにある場合、ユーザの音声情報を取得し、且つ音声情報に応じて、サーバからユーザの所望する目標情報を取得し、端末機器により音声手段で目標情報を再生し、端末機器例えば携帯電話、タブレットコンピュータなどのユーザ端末が遠距離音声インタラクションモードでディスプレイ付きのスマートスピーカーに変わることができ、近距離音声インタラクションモードで常用の携帯電話又はタブレットコンピュータであり、端末機器がユーザにとっては持ち歩きに便利であり、ユーザがいつでもどこでも端末機器の遠距離音声インタラクション機能を使用でき、これによりユーザに柔軟で、便利な音声サービスを提供する。

図１２は本発明の別の実施例に係る音声インタラクション方法のフローチャートである。上記実施例に加えて、本実施例に係る音声インタラクション方法はさらにステップ１２０１と、ステップ１２０２と、を含む。

ステップ１２０１では、端末機器が第２のモードにある場合、プッシュメッセージを生成する。

本実施例では、端末機器が近距離音声インタラクションモードから遠距離音声インタラクションモードに切り替えられ、すなわち端末機器が表示したインタフェースが図８に示される第１のインタフェース８１から第２のインタフェース８２に切り替えられたとき、リモートサーバは端末機器にプッシュメッセージをリアルタイムで送信し、プッシュメッセージはリモートサーバがランダムに確定するものであってよく、またリモートサーバが最新のリアルタイムホットスポット情報、ユーザ履歴記録情報及びユーザ画像のうちの少なくとも１つに応じて生成するものであってもよい。

選択的に、プッシュメッセージを生成するステップは、最新のリアルタイムホットスポット情報、ユーザ履歴記録情報及びユーザ画像のうちの少なくとも１つに応じて、プッシュメッセージを生成することを含む。

選択的に、最新のリアルタイムホットスポット情報、ユーザ履歴記録情報及びユーザ画像のうちの少なくとも１つに応じて、プッシュメッセージを生成するステップは、ユーザ履歴記録情報に応じてユーザ行動情報を予測することと、ユーザ行動情報に応じて、複数の推薦コンテンツを取得することと、複数の推薦コンテンツ及び最新のリアルタイムホットスポット情報に応じて、プッシュメッセージを確定することと、を含む。

選択的に、複数の推薦コンテンツ及び最新のリアルタイムホットスポット情報に応じて、プッシュメッセージを確定するステップは、複数の推薦コンテンツ及び最新のリアルタイムホットスポット情報をソートし、複数の推薦コンテンツ及び最新のリアルタイムホットスポット情報のソート結果を得ることと、ソート結果に応じて、プッシュメッセージを確定することと、を含む。

本実施例では、リモートサーバは図１３に示されるユーザ行動解析モジュールと、スマート行動予測モジュールと、ソート処理モジュールと、運営解析モジュールと、を含んでよく、そのうち、ユーザ行動解析モジュールはユーザ履歴記録情報を解析することに用いられ、ユーザ履歴記録情報が具体的にはユーザ履歴音声情報でよく、ユーザ履歴音声情報に応じてユーザが履歴的に申請した目標情報を確定でき、また、端末機器１３がリモートサーバから配信された目標情報を受信した後、端末機器１３はまたユーザがクリックして目標情報を閲覧したか否かを検出でき、ユーザがクリックして目標情報を閲覧しないと、端末機器１３はユーザがクリックして閲覧しない記録情報をリモートサーバに送信してもよく、ユーザ行動解析モジュールはユーザがどの目標情報を再生したか、どの目標情報を再生しないかを確定でき、ユーザ行動解析モジュールはユーザが再生した目標情報及び再生しない目標情報に応じてユーザ行動情報を予測し、例えば、ユーザが取得しようとする情報タイプを予測し、情報タイプが例えば冒険タイプである。ユーザ行動解析モジュールは予測したユーザ行動情報をスマート行動予測モジュールに送信し、スマート行動予測モジュールは情報タイプ例えば冒険タイプに応じて、データベースから複数の推薦コンテンツ例えば複数の冒険タイプのビデオ情報、例えばビデオ情報Ａ、ビデオ情報Ｂ、ビデオ情報Ｃを取得し、同時に、スマート行動予測モジュールはまたビデオ情報Ａ、ビデオ情報Ｂ、ビデオ情報Ｃのそれぞれの重み係数を算出でき、重み係数はスマート行動予測モジュールがユーザの閲覧したビデオ記録、及びビデオ情報がクリックされた回数などの要因に応じて確定されてよい。さらに、スマート行動予測モジュールは複数の推薦コンテンツ例えばビデオ情報Ａ、ビデオ情報Ｂ、ビデオ情報Ｃ、及び各ビデオ情報に対応する重み係数をソート処理モジュールに送信し、ソート処理モジュールはスマート行動予測モジュールから送信されたビデオ情報Ａ、ビデオ情報Ｂ、ビデオ情報Ｃを受信するだけでなく、同時にまた運営解析モジュールから送信された最新のリアルタイムホットスポット情報及び最新のリアルタイムホットスポット情報に対応する重み係数を受信し、ソート処理モジュールは重み係数に応じて、ビデオ情報Ａ、ビデオ情報Ｂ、ビデオ情報Ｃ及び最新のリアルタイムホットスポット情報をソートし、なお、ここでは概略的な説明にすぎず、運営解析モジュールがソート処理モジュールに送信した最新のリアルタイムホットスポット情報の数を限定するものではない。リモートサーバはソート処理モジュールによるビデオ情報Ａ、ビデオ情報Ｂ、ビデオ情報Ｃ及び最新のリアルタイムホットスポット情報に対するソート結果に応じて、端末機器にプッシュメッセージを配信できる。リモートサーバはソート結果にしたがって順次プッシュする場合があり、リモートサーバはソート結果から重み係数の高い情報を切り出して端末機器にプッシュする場合もある。

ステップ１２０２では、端末機器にプッシュメッセージをリアルタイムで送信する。

本発明の実施例はサーバが最新のリアルタイムホットスポット情報、ユーザ履歴記録情報及びユーザ画像のうちの少なくとも１つに応じて、プッシュメッセージを生成することで、プッシュメッセージがユーザのニーズにより適合し、ユーザの体験を向上させる。

図１４は本発明の実施例に係る端末機器の構造概略図である。本発明の実施例に係る端末機器は音声インタラクション方法の実施例に係る処理フローを実行でき、図１４に示すように、端末機器１４０は、メモリ１４１と、プロセッサ１４２と、コンピュータプログラムと、通信インタフェース１４３と、を含み、そのうち、コンピュータプログラムはメモリ１４１に記憶されており、且つプロセッサ１４２により、モード制御コマンドを取得し、モード制御コマンドに応じて、端末機器を第１のモードから第２のモードに切り替え、端末機器が第２のモードにある場合、ユーザの音声情報を取得し、音声情報に応じて、サーバからユーザの所望する目標情報を取得し、目標情報に対応するオーディオ情報を再生するという操作を実行するように配置されている。

選択的に、プロセッサ１４２がモード制御コマンドを取得するとき、具体的には、ユーザによる端末機器におけるアプリケーションプログラムに対する操作を検出し、且つ操作に応じてモード制御コマンドを生成することと、端末機器に外付け機器が接続されているか否かを検出し、端末機器に外付け機器が接続されている場合、モード制御コマンドを生成することとのうちの少なくとも１種に用いられる。

選択的に、外付け機器は充電スタンド、スピーカー、イヤホン、携帯電話ホルダのうちの少なくとも１種を含む。

選択的に、プロセッサ１４２は、ユーザの音声情報を取得するとき、具体的には、外付け機器によってユーザの音声情報を収集することに用いられ、プロセッサ１４２は、目標情報に対応するオーディオ情報を再生するとき、具体的には、外付け機器によって目標情報に対応するオーディオ情報を再生することに用いられる。

選択的に、端末機器が近距離音声パス及び遠距離音声パスを含み、プロセッサ１４２は、端末機器を第１のモードから第２のモードに切り替えるとき、具体的には、近距離音声パスをオフにし、且つ遠距離音声パスをオンにすることに用いられ、プロセッサ１４２は、音声情報に応じて、サーバからユーザの所望する目標情報を取得するとき、具体的には、遠距離音声パスによって音声情報を処理し、ユーザの所望する目標情報を確定し、サーバからユーザの所望する目標情報を取得することに用いられる。

選択的に、プロセッサ１４２はさらに、端末機器が第１のモードにある場合、端末機器が第１のインタフェースを表示するように制御し、端末機器が第１のモードから第２のモードに切り替えられる場合、端末機器が第２のインタフェースを表示するように制御する。

選択的に、プロセッサ１４２はさらに、非ユーザートリガーのアプリケーションプログラムを起動するか又は終了するように制御するためのアプリケーションプログラム制御コマンドを取得し、アプリケーションプログラム制御コマンドが非ユーザートリガーのアプリケーションプログラムを起動するように制御するために用いられる場合、端末機器が第２のモードにあり且つアプリケーションプログラムが起動されたとき、第２のインタフェースにアプリケーションプログラムに対応するユーザインタフェースを表示し、アプリケーションプログラム制御コマンドが非ユーザートリガーのアプリケーションプログラムを終了するように制御するために用いられる場合、端末機器が第２のモードにあり且つアプリケーションプログラムが起動されたとき、第２のインタフェースにアプリケーションプログラムに対応するユーザインタフェースを表示しない。

選択的に、プロセッサ１４２はさらに、端末機器が第２のモードにある場合、通信インタフェース１４３によってサーバからリアルタイムで送信されたプッシュメッセージを受信し、端末機器にプッシュメッセージを表示することに用いられる。

図１４に示される実施例の端末機器は上記方法の実施例の技術的解決手段を実行するために用いることができ、その実現原理及び技術的効果が類似するため、ここでは説明を省略する。

図１５は本発明の実施例に係るサーバの構造概略図である。サーバは具体的には上記実施例に係るリモートサーバでよい。本発明の実施例に係るサーバは音声インタラクション方法の実施例に係る処理フローを実行でき、図１５に示すように、サーバ１５０は、メモリ１５１と、プロセッサ１５２と、コンピュータプログラムと、通信インタフェース１５３と、を含み、そのうち、コンピュータプログラムはメモリ１５１に記憶されており、且つプロセッサ１５２により、第１のモード及び第２のモードを含む端末機器の現在の音声インタラクションモードを取得し、端末機器が第２のモードにある場合、端末機器から送信されたユーザ音声情報に応じて、ユーザの所望する目標情報を確定し、端末機器が目標情報に対応するオーディオ情報を再生するように通信インタフェース１５３によって目標情報を端末機器に送信するという操作を実行するように配置されている。

選択的に、プロセッサ１５２はさらに、端末機器が第２のモードにある場合、プッシュメッセージを生成し、通信インタフェースによって端末機器にプッシュメッセージをリアルタイムで送信することに用いられる。

選択的に、プロセッサ１５２は、プッシュメッセージを生成するとき、具体的には、最新のリアルタイムホットスポット情報、ユーザ履歴記録情報及びユーザ画像のうちの少なくとも１つに応じて、プッシュメッセージを生成することに用いられる。

選択的に、プロセッサ１５２は、最新のリアルタイムホットスポット情報、ユーザ履歴記録情報及びユーザ画像のうちの少なくとも１つに応じて、プッシュメッセージを生成するとき、具体的には、ユーザ履歴記録情報に応じてユーザ行動情報を予測し、ユーザ行動情報に応じて、複数の推薦コンテンツを取得し、複数の推薦コンテンツ及び最新のリアルタイムホットスポット情報に応じて、プッシュメッセージを確定することに用いられる。

選択的に、プロセッサ１５２は、複数の推薦コンテンツ及び最新のリアルタイムホットスポット情報に応じて、プッシュメッセージを確定するとき、具体的には、複数の推薦コンテンツ及び最新のリアルタイムホットスポット情報をソートし、複数の推薦コンテンツ及び最新のリアルタイムホットスポット情報のソート結果を得て、ソート結果に応じて、プッシュメッセージを確定することに用いられる。

図１５に示される実施例のサーバは上記方法の実施例の技術的解決手段を実行するために用いることができ、その実現原理及び技術的効果が類似するため、ここでは説明を省略する。

また、本実施例は、上記実施例に係る音声インタラクション方法を実現するようにプロセッサに実行されるコンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体を提供する。

図１６は本発明の実施例に係る端末機器の構造概略図である。本発明の実施例に係る端末機器は音声インタラクション方法の実施例に係る処理フローを実行でき、図１６に示すように、端末機器１６０は、モード制御コマンドを取得するための第１の取得モジュール１６１と、モード制御コマンドに応じて、端末機器を第１のモードから第２のモードに切り替えるためのモード切り替えモジュール１６２と、端末機器が第２のモードにある場合、ユーザの音声情報を取得するための第２の取得モジュール１６３と、音声情報に応じて、サーバからユーザの所望する目標情報を取得するための第３の取得モジュール１６４と、目標情報に対応するオーディオ情報を再生するための再生モジュール１６５と、を含む。

選択的に、第１の取得モジュール１６１がモード制御コマンドを取得するとき、具体的には、
ユーザによる端末機器におけるアプリケーションプログラムに対する操作を検出し、且つ操作に応じてモード制御コマンドを生成することと、
端末機器に外付け機器が接続されているか否かを検出し、端末機器に外付け機器が接続されている場合、モード制御コマンドを生成することとのうちの少なくとも１種に用いられる。

選択的に、第２の取得モジュール１６３は、ユーザの音声情報を取得するとき、具体的には、外付け機器によってユーザの音声情報を収集することに用いられ、再生モジュール１６５は、目標情報に対応するオーディオ情報を再生するとき、具体的には、外付け機器によって目標情報に対応するオーディオ情報を再生することに用いられる。

選択的に、端末機器が近距離音声パス及び遠距離音声パスを含み、モード切り替えモジュール１６２は、端末機器を第１のモードから第２のモードに切り替えるとき、具体的には、近距離音声パスをオフにし、且つ遠距離音声パスをオンにすることに用いられ、第３の取得モジュール１６４は、音声情報に応じて、サーバからユーザの所望する目標情報を取得するとき、具体的には、遠距離音声パスによって音声情報を処理し、ユーザの所望する目標情報を確定し、サーバからユーザの所望する目標情報を取得することに用いられる。

選択的に、端末機器はさらに、端末機器が第１のモードにある場合、端末機器が第１のインタフェースを表示するように制御し、端末機器が第１のモードから第２のモードに切り替えられる場合、端末機器が第２のインタフェースを表示するように制御するための制御モジュール１６６を含む。

選択的に、第１の取得モジュール１６１はさらに、非ユーザートリガーのアプリケーションプログラムを起動するか又は終了するように制御するためのアプリケーションプログラム制御コマンドを取得することに用いられ、アプリケーションプログラム制御コマンドが非ユーザートリガーのアプリケーションプログラムを起動するように制御するために用いられる場合、端末機器が第２のモードにあり且つアプリケーションプログラムが起動されたとき、第２のインタフェースにアプリケーションプログラムに対応するユーザインタフェースを表示し、アプリケーションプログラム制御コマンドが非ユーザートリガーのアプリケーションプログラムを終了するように制御するために用いられる場合、端末機器が第２のモードにあり且つアプリケーションプログラムが起動されたとき、第２のインタフェースにアプリケーションプログラムに対応するユーザインタフェースを表示しない。

選択的に、端末機器はさらに、端末機器が第２のモードにある場合、サーバからリアルタイムで送信されたプッシュメッセージを受信し、端末機器にプッシュメッセージを表示するための受信モジュール１６７を含む。

図１６に示される実施例の端末機器は上記方法の実施例の技術的解決手段を実行するために用いることができ、その実現原理及び技術的効果が類似するため、ここでは説明を省略する。

図１７は本発明の実施例に係るサーバの構造概略図である。サーバは具体的には上記実施例に係るリモートサーバでよい。本発明の実施例に係るサーバは音声インタラクション方法の実施例に係る処理フローを実行でき、図１７に示すように、サーバ１７０は、第１のモード及び第２のモードを含む端末機器の現在の音声インタラクションモードを取得するための取得モジュール１７１と、端末機器が第２のモードにある場合、端末機器から送信されたユーザ音声情報に応じて、ユーザの所望する目標情報を確定するための確定モジュール１７２と、端末機器が目標情報に対応するオーディオ情報を再生するように目標情報を端末機器に送信するための送信モジュール１７３と、を含む。

選択的に、サーバはさらに端末機器が第２のモードにある場合、プッシュメッセージを生成するためのプッシュメッセージ生成モジュール１７４を含み、送信モジュール１７３はさらに端末機器にプッシュメッセージをリアルタイムで送信することに用いられる。本実施例では、プッシュメッセージ生成モジュール１７４は具体的には図１３に示されるユーザ行動解析モジュールと、スマート行動予測モジュールと、ソート処理モジュールと、運営解析モジュールと、を含んでよく、具体的な原理についてここでは説明を省略する。

選択的に、プッシュメッセージ生成モジュール１７４は、プッシュメッセージを生成するとき、具体的には、最新のリアルタイムホットスポット情報、ユーザ履歴記録情報及びユーザ画像のうちの少なくとも１つに応じて、プッシュメッセージを生成することに用いられる。

選択的に、プッシュメッセージ生成モジュール１７４は、最新のリアルタイムホットスポット情報、ユーザ履歴記録情報及びユーザ画像のうちの少なくとも１つに応じて、プッシュメッセージを生成するとき、具体的には、ユーザ履歴記録情報に応じてユーザ行動情報を予測し、ユーザ行動情報に応じて、複数の推薦コンテンツを取得し、複数の推薦コンテンツ及び最新のリアルタイムホットスポット情報に応じて、プッシュメッセージを確定することに用いられる。

選択的に、プッシュメッセージ生成モジュール１７４は、複数の推薦コンテンツ及び最新のリアルタイムホットスポット情報に応じて、プッシュメッセージを確定するとき、具体的には、複数の推薦コンテンツ及び最新のリアルタイムホットスポット情報をソートし、複数の推薦コンテンツ及び最新のリアルタイムホットスポット情報のソート結果を得て、ソート結果に応じて、プッシュメッセージを確定することに用いられる。

図１７に示される実施例のサーバは上記方法の実施例の技術的解決手段を実行するために用いることができ、その実現原理及び技術的効果が類似するため、ここでは説明を省略する。

本発明によって提供されるいくつかの実施例において、理解すべきは、指摘する装置及び方法は、他の形態でも実現できることである。例えば、以上で説明した装置の実施例は単なる概略的なものであり、例えば、ユニットの区分は、単なる論理機能の区分であって、実際に実現する際には別の区分手段が可能であり、例えば複数のユニット又はアセンブリを組み合わせるか、又は他のシステムに集積でき、又はいくつかの特徴を無視するか、又は実行しないようにすることができる。また、表示又は討論する相互間の結合、又は直接結合、又は通信接続は、いくつかのインタフェース、装置、又はユニットによる間接結合、又は通信接続であってもよく、電気、機械、又は他の形式であってもよい。

分離部品として説明したユニットは、物理的に分離しても、或いは分離しなくてもよく、ユニットとして表示する部品は物理ユニットであっても、又は物理ユニットでなくてもよく、すなわち同一の場所に位置してもよく、又は複数のネットワークユニットに配置してもよい。実際の必要に応じて、その一部又は全てのユニットを選択して、本実施例の手段の目的を実現することができる。

また、本発明の各実施例における各機能ユニットは、同一の処理ユニットに集積されてもよく、各ユニットは独立して物理的に存在してもよく、２つ、或いは２つ以上のユニットを１つのユニットに集積してもよい。集積した上記ユニットは、ハードウェアの形式で実現でき、ハードウェアとソフトウェア機能ユニットを組み合わせる形式による実現も可能である。

集積した上記ユニットは、ソフトウェア機能ユニットの形式で実現し、コンピュータ読み取り可能な記憶媒体に記憶できる。上記ソフトウェア機能ユニットは記憶媒体に記憶され、それはコンピュータ機器（パーソナルコンピュータ、サーバ、又はネットワーク機器などであってよい）又はプロセッサ（ｐｒｏｃｅｓｓｏｒ）が、本発明の各実施例における方法のステップの一部を実行するための複数のコマンドを含む。前述した記憶媒体は、プログラムコードを記憶できるＵディスク、モバイルハードディスク、読み出し専用メモリ（Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ、ＲＯＭ）、ランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＲＡＭ）、磁気ディスク又は光ディスクなどの各種の媒体を含む。

当業者であれば明らかに認識できるように、説明を容易且つ簡潔にするために、上記各機能モジュールの区分のみを例に説明しており、実際の応用において、必要に応じて上記機能の配分を異なる機能モジュールで達成することができ、すなわち装置の内部構造を異なる機能モジュールに区分し、それによって以上で説明された全て又は一部の機能を完了する。上記説明する装置の具体的な動作過程は、前述の方法の実施例における対応する過程を参照することができ、ここでは説明を省略する。

最後に説明すべきこととして、以上の各実施例は本発明の実施例の技術的解決手段の説明にすぎず、それを限定するものではない。前述した各実施例を参照して本発明の実施例について詳細に説明したが、当業者には明らかなように、依然として前述した各実施例に記載の技術的解決手段を変更し、又は技術的特徴の一部又は全てについて等価の置換を行うことができる。これらの変更又は等価の置換は、対応する技術的解決手段の本質を本発明の実施例の技術的解決手段の範囲から逸脱させるものではない。

Claims

モード制御コマンドを取得するステップと、
前記モード制御コマンドに応じて、端末機器を第１のモードから第２のモードに切り替えるステップと、
前記端末機器が前記第２のモードにある場合、ユーザの音声情報を取得するステップと、
前記音声情報に応じて、サーバから前記ユーザの所望する目標情報を取得するステップと、
前記目標情報に対応するオーディオ情報を再生するステップと、を含むことを特徴とする音声インタラクション方法。
前記モード制御コマンドを取得するステップは、
ユーザによる前記端末機器におけるアプリケーションプログラムに対する操作を検出し、且つ前記操作に応じて前記モード制御コマンドを生成することと、
前記端末機器に外付け機器が接続されているか否かを検出し、前記端末機器に外付け機器が接続されている場合、前記モード制御コマンドを生成することとのうちの少なくとも１つを含むことを特徴とする請求項１に記載の音声インタラクション方法。
前記外付け機器は充電スタンド、スピーカー、イヤホン、携帯電話ホルダのうちの少なくとも１つを含むことを特徴とする請求項２に記載の音声インタラクション方法。
前記ユーザの音声情報を取得するステップは、前記外付け機器によって前記ユーザの音声情報を収集することを含み、
前記目標情報に対応するオーディオ情報を再生するステップは、前記外付け機器によって前記目標情報に対応するオーディオ情報を再生することを含むことを特徴とする請求項３に記載の音声インタラクション方法。
前記端末機器が近距離音声パス及び遠距離音声パスを含み、
前記端末機器を第１のモードから第２のモードに切り替えるステップは、前記近距離音声パスをオフにし、且つ前記遠距離音声パスをオンにすることを含み、
前記音声情報に応じて、サーバから前記ユーザの所望する目標情報を取得するステップは、
前記遠距離音声パスによって前記音声情報を処理し、前記ユーザの所望する目標情報を確定することと、
前記サーバから前記ユーザの所望する目標情報を取得することと、を含むことを特徴とする請求項１〜４のいずれか一項に記載の音声インタラクション方法。
前記端末機器が第１のモードにある場合、前記端末機器が第１のインタフェースを表示するように制御するステップと、
前記端末機器が前記第１のモードから前記第２のモードに切り替えられる場合、前記端末機器が第２のインタフェースを表示するように制御するステップと、をさらに含むことを特徴とする請求項１〜４のいずれか一項に記載の音声インタラクション方法。
非ユーザートリガーのアプリケーションプログラムを起動するか又は終了するように制御するためのアプリケーションプログラム制御コマンドを取得するステップと、
前記アプリケーションプログラム制御コマンドが非ユーザートリガーのアプリケーションプログラムを起動するように制御するために用いられる場合、前記端末機器が前記第２のモードにあり且つ前記アプリケーションプログラムが起動されたとき、前記第２のインタフェースに前記アプリケーションプログラムに対応するユーザインタフェースを表示するステップと、
前記アプリケーションプログラム制御コマンドが非ユーザートリガーのアプリケーションプログラムを終了するように制御するために用いられる場合、前記端末機器が前記第２のモードにあり且つ前記アプリケーションプログラムが起動されたとき、前記第２のインタフェースに前記アプリケーションプログラムに対応するユーザインタフェースを表示しないステップと、をさらに含むことを特徴とする請求項６に記載の音声インタラクション方法。
前記端末機器が前記第２のモードにある場合、サーバからリアルタイムで送信されたプッシュメッセージを受信するステップと、
前記端末機器に前記プッシュメッセージを表示するステップと、をさらに含むことを特徴とする請求項１〜７のいずれか一項に記載の音声インタラクション方法。
第１のモード及び第２のモードを含む端末機器の現在の音声インタラクションモードを取得するステップと、
前記端末機器が第２のモードにある場合、前記端末機器から送信されたユーザ音声情報に応じて、前記ユーザの所望する目標情報を確定するステップと、
前記端末機器が前記目標情報に対応するオーディオ情報を再生するように前記目標情報を前記端末機器に送信するステップと、を含むことを特徴とする音声インタラクション方法。
前記端末機器が第２のモードにある場合、プッシュメッセージを生成するステップと、
前記端末機器に前記プッシュメッセージをリアルタイムで送信するステップと、を含むことを特徴とする請求項９に記載の音声インタラクション方法。
前記プッシュメッセージを生成するステップは、
最新のリアルタイムホットスポット情報、ユーザ履歴記録情報及びユーザ画像のうちの少なくとも１つに応じて、前記プッシュメッセージを生成することを含むことを特徴とする請求項１０に記載の音声インタラクション方法。
前記最新のリアルタイムホットスポット情報、ユーザ履歴記録情報及びユーザ画像のうちの少なくとも１つに応じて、前記プッシュメッセージを生成することは、
前記ユーザ履歴記録情報に応じてユーザ行動情報を予測することと、
前記ユーザ行動情報に応じて、複数の推薦コンテンツを取得することと、
前記複数の推薦コンテンツ及び前記最新のリアルタイムホットスポット情報に応じて、前記プッシュメッセージを確定することと、を含むことを特徴とする請求項１１に記載の音声インタラクション方法。
前記複数の推薦コンテンツ及び前記最新のリアルタイムホットスポット情報に応じて、前記プッシュメッセージを確定することは、
前記複数の推薦コンテンツ及び前記最新のリアルタイムホットスポット情報をソートしてソート結果を得ることと、
前記ソート結果に応じて、前記プッシュメッセージを確定することと、を含むことを特徴とする請求項１２に記載の音声インタラクション方法。
メモリと、プロセッサと、前記メモリに記憶されているコンピュータプログラムとを含む端末機器であって、
前記コンピュータプログラムが前記プロセッサにより実行されて、
モード制御コマンドを取得し、
前記モード制御コマンドに応じて、前記端末機器を第１のモードから第２のモードに切り替え、
前記端末機器が前記第２のモードにある場合、ユーザの音声情報を取得し、
前記音声情報に応じて、サーバから前記ユーザの所望する目標情報を取得し、
前記目標情報に対応するオーディオ情報を再生する操作を実行するように構成されていることを特徴とする端末機器。
前記プロセッサが、前記モード制御コマンドを取得するとき、
ユーザによる前記端末機器におけるアプリケーションプログラムに対する操作を検出し、且つ前記操作に応じて前記モード制御コマンドを生成することと、
前記端末機器に外付け機器が接続されているか否かを検出し、前記端末機器に外付け機器が接続されている場合、前記モード制御コマンドを生成することとのうちの少なくとも１つに用いられることを特徴とする請求項１４に記載の端末機器。
前記外付け機器は充電スタンド、スピーカー、イヤホン、携帯電話ホルダのうちの少なくとも１つを含むことを特徴とする請求項１５に記載の端末機器。
前記プロセッサは、ユーザの音声情報を取得するとき、前記外付け機器によって前記ユーザの音声情報を収集することに用いられ、
前記プロセッサは、前記目標情報に対応するオーディオ情報を再生するとき、前記外付け機器によって前記目標情報に対応するオーディオ情報を再生することに用いられることを特徴とする請求項１６に記載の端末機器。
前記端末機器が近距離音声パス及び遠距離音声パスを含み、
前記プロセッサは、前記端末機器を第１のモードから第２のモードに切り替えるとき、前記近距離音声パスをオフにし、且つ前記遠距離音声パスをオンにすることに用いられ、
前記プロセッサは、前記音声情報に応じて、サーバから前記ユーザの所望する目標情報を取得するとき、前記遠距離音声パスによって前記音声情報を処理し、前記ユーザの所望する目標情報を確定し、サーバから前記ユーザの所望する目標情報を取得することに用いられることを特徴とする請求項１４〜１７のいずれか１項に記載の端末機器。
前記プロセッサはさらに、
前記端末機器が第１のモードにある場合、前記端末機器が第１のインタフェースを表示するように制御し、
前記端末機器が前記第１のモードから前記第２のモードに切り替えられる場合、前記端末機器が第２のインタフェースを表示するように制御することに用いられることを特徴とする請求項１４〜１７のいずれか１項に記載の端末機器。
前記プロセッサはさらに、
非ユーザートリガーのアプリケーションプログラムを起動するか又は終了するように制御するためのアプリケーションプログラム制御コマンドを取得し、
前記アプリケーションプログラム制御コマンドが非ユーザートリガーのアプリケーションプログラムを起動するように制御するために用いられる場合、前記端末機器が前記第２のモードにあり且つ前記アプリケーションプログラムが起動されたとき、前記第２のインタフェースに前記アプリケーションプログラムに対応するユーザインタフェースを表示し、
前記アプリケーションプログラム制御コマンドが非ユーザートリガーのアプリケーションプログラムを終了するように制御するために用いられる場合、前記端末機器が前記第２のモードにあり且つ前記アプリケーションプログラムが起動されたとき、前記第２のインタフェースに前記アプリケーションプログラムに対応するユーザインタフェースを表示しないことを特徴とする請求項１９に記載の端末機器。
通信インタフェースをさらに含み、
前記プロセッサはさらに、
前記端末機器が前記第２のモードにある場合、前記通信インタフェースによってサーバからリアルタイムで送信されたプッシュメッセージを受信し、前記端末機器に前記プッシュメッセージを表示することに用いられることを特徴とする請求項１４〜２０のいずれか１項に記載の端末機器。
メモリと、プロセッサと、通信インターフェースと、前記メモリに記憶されているコンピュータプログラムとを含むサーバであって、
前記コンピュータプログラムが前記プロセッサにより実行されて、
第１のモード及び第２のモードを含む端末機器の現在の音声インタラクションモードを取得し、
前記端末機器が第２のモードにある場合、前記端末機器から送信されたユーザ音声情報に応じて、前記ユーザの所望する目標情報を確定し、
前記端末機器が前記目標情報に対応するオーディオ情報を再生するように前記通信インタフェースによって前記目標情報を前記端末機器に送信するという操作を実行するように構成されていることを特徴とするサーバ。
前記プロセッサはさらに、前記端末機器が第２のモードにある場合、プッシュメッセージを生成し、前記通信インタフェースによって前記端末機器に前記プッシュメッセージをリアルタイムで送信することに用いられることを特徴とする請求項２２に記載のサーバ。
前記プロセッサは、プッシュメッセージを生成するとき、最新のリアルタイムホットスポット情報、ユーザ履歴記録情報及びユーザ画像のうちの少なくとも１つに応じて、前記プッシュメッセージを生成することに用いられることを特徴とする請求項２３に記載のサーバ。
前記プロセッサは、最新のリアルタイムホットスポット情報、ユーザ履歴記録情報及びユーザ画像のうちの少なくとも１つに応じて、前記プッシュメッセージを生成するとき、
前記ユーザ履歴記録情報に応じてユーザ行動情報を予測し、
前記ユーザ行動情報に応じて、複数の推薦コンテンツを取得し、
前記複数の推薦コンテンツ及び前記最新のリアルタイムホットスポット情報に応じて、前記プッシュメッセージを確定することに用いられることを特徴とする請求項２４に記載のサーバ。
前記プロセッサは、前記複数の推薦コンテンツ及び前記最新のリアルタイムホットスポット情報に応じて、前記プッシュメッセージを確定するとき、
前記複数の推薦コンテンツ及び前記最新のリアルタイムホットスポット情報をソートしてソート結果を得て、前記ソート結果に応じて、前記プッシュメッセージを確定することに用いられることを特徴とする請求項２５に記載のサーバ。
請求項１〜１３のいずれか１項に記載の方法を実現するようにプロセッサに実行されるコンピュータプログラムが記憶されていることを特徴とするコンピュータ読み取り可能な記憶媒体。