JP7173670B2

JP7173670B2 - 音声制御コマンド生成方法および端末

Info

Publication number: JP7173670B2
Application number: JP2021506536A
Authority: JP
Inventors: シュ、ジュン
Original assignee: ホアウェイ・テクノロジーズ・カンパニー・リミテッド
Priority date: 2018-08-07
Filing date: 2018-08-07
Publication date: 2022-11-16
Anticipated expiration: 2038-08-07
Also published as: US11848016B2; CN111742539A; WO2020029094A1; EP3826280A1; JP2021532500A; EP3826280A4; KR20210040424A; CN111742539B; KR102527178B1; US20210295839A1; CN115050358A; EP3826280B1

Description

本願の実施形態は、音声制御技術の分野に関し、特に、音声制御コマンド生成方法および端末に関する。

音声アシスタントは、端末（例えば携帯電話）の重要なアプリケーションである。音声アシスタントは、ユーザとのインテリジェントな会話、即時の質問および回答ベースのインテリジェントなインタラクションを実行し得る。音声アシスタントのカスタム音声制御は、音声アシスタントの開発のトレンドになっている。

音声アシスタントのカスタム音声制御とは、音声アシスタントが、ユーザによって入力されたカスタムコマンド（音声データまたはテキスト情報）を受信し、カスタムコマンドと、ユーザが当該カスタムコマンドを使用することによって端末を制御して実行させたい操作とをバインドし得ることを意味する。このようにして、音声アシスタントが、次回にカスタムコマンドに対応する音声コマンドを受信したとき、端末はカスタムコマンドにバインドされた操作を自動的に実行できる。

いくつかの端末は、音声アシスタントのカスタム音声制御機能を提供できる。しかしながら、カスタムコマンドにバインドできる操作は予め定義される。具体的には、ユーザは、予め定義された操作のみから、カスタムコマンドにバインドされる必要がある操作を選択できる。ユーザがカスタムコマンドを使用することによって端末を制御して実行したい操作が上述の予め定義された操作に含まれない場合、音声アシスタントはカスタム音声制御機能を提供できない。言い換えれば、端末は、ユーザのパーソナライズされたカスタム音声制御を実装できない。

上述の問題を解決するべく、いくつかの他の端末の音声アシスタントは、ユーザによって入力されたカスタムコマンド（例えば、「タオバオで牛乳を購入」）を受信し、端末におけるユーザのカスタムコマンドに対応する操作（例えば、「タオバオ」アプリケーションアイコンをタップして「タオバオ」のホームページの検索ボックスに「牛乳」と入力する）を学習し、カスタムコマンドと、ユーザの当該カスタムコマンドに対応する操作とをバインドし得る。このようにして、音声アシスタントが、次回にカスタムコマンドに対応する音声コマンド（例えば「タオバオで牛乳を購入」）を受信したとき、端末は、カスタムコマンドに対応する操作（例えば、「タオバオ」アプリケーションアイコンをタップして、「タオバオ」のホームページ上の検索ボックスにおいて「牛乳」と入力する）をユーザ実行がすることを模擬するインタフェースを順次表示し得る。最後に、端末は、カスタムコマンドに対応する結果インタフェース、例えば、ユーザが「タオバオ」のホームページ上の「検索ボックス」に「牛乳」と入力した後に取得される検索結果インタフェースを表示し得る。

しかしながら、音声アシスタントは、端末におけるユーザのカスタムコマンドに対応する操作を学習することにより、ユーザのパーソナライズされたカスタム音声制御を実装し得るが、音声アシスタントがカスタムコマンドとユーザの当該カスタムコマンドに対応する操作とをバインドすると、端末は、ユーザが次回に当該カスタムコマンドの対応する音声コマンド（例えば、「タオバオで牛乳を購入」）を一字一句違わずに話すときだけ、カスタムコマンドに対応する操作を実行し得る。音声アシスタントが、カスタムコマンドに対応する音声コマンドに類似した音声コマンドを受信した場合でも、端末は、カスタムコマンドに対応する操作を実行しない。したがって、端末のカスタム音声制御機能の柔軟性が低く、それにより、ユーザエクスペリエンスが影響を受ける。

本願の実施形態は、音声制御コマンド生成方法および端末を提供することにより、カスタム音声制御の柔軟性を改善してユーザエクスペリエンスを改善する。

第１態様によれば、本願の実施形態は音声制御コマンド生成方法を提供する。音声制御コマンド生成方法は、以下を含み得る。端末が、第１操作に応答して、記録対象操作を入力するようにユーザを促すために使用されるプロンプト情報を表示する。端末は、ユーザによって入力された１または複数の操作を受信する。端末は、ユーザによって入力された第２操作に応答して、１または複数の操作に対応する操作情報を記録する。端末は、ユーザによって入力された第３操作に基づいて、操作情報に対応する第１テキスト情報を決定する。端末は第１音声コマンドを受信する。第１音声コマンドに対応するテキストが第１テキスト情報と一致するとき、端末は、操作情報に基づいて対応する操作を実行する。

本願の本実施形態において、端末は最初に、１または複数の操作に対応する操作情報を取得し、次に、ユーザの第３操作に基づいて、操作情報に対応する第１テキスト情報、すなわち、１または複数の操作に対応するテキスト情報を決定し得る。第１テキスト情報は、ユーザによって選択される、ユーザの言語習慣に適合するコマンドである。端末が第１音声コマンドを受信した後に、端末は、ユーザがテキスト情報に対応する音声コマンドを一字一句違わずに話すときのみ対応する操作を実行するのではなく、第１音声コマンドのテキストが第１テキスト情報に一致するという条件で、操作情報に基づいて対応する操作を実行し得る。本解決手段によれば、カスタム音声制御の柔軟性を改善でき、ユーザエクスペリエンスを改善できる。

第１態様に関連して、可能な設計方式において、第１テキスト情報は少なくとも１つの第１部分および第２部分を含む。第１音声コマンドに対応するテキストが第１テキスト情報に一致することは、第１音声コマンドに対応するテキストにおける少なくとも１つの第３部分が少なくとも１つの第１部分と同一であり、第１音声コマンドにおける少なくとも１つの第３部分と第４部分との間の位置関係が、第１テキスト情報における少なくとも１つの第１部分と第２部分との間の位置関係と同一であることを含む。

操作情報は、第１アプリケーション識別子、第１インタフェース識別子、第１検索語および操作指示情報を含む。第１アプリケーション識別子は、１または複数の操作に対応する操作オブジェクトアプリケーションの識別子であり、第１インタフェース識別子は１または複数の操作に対応する操作オブジェクトインタフェースの識別子であり、操作指示情報は、１または複数の操作を通じて操作オブジェクトインタフェースにおいて実行される操作を示すために使用される。

少なくとも１つの第１部分は、第１アプリケーション識別子および／または第１インタフェース識別子を含み、第２部分は第１検索語を含むと理解されたい。言い換えれば、第１音声コマンドにおける第３部分が第１アプリケーション識別子および／または第１インタフェース識別子であり、第１音声コマンドにおける第４部分と第３部分との間の位置関係が、第１テキスト情報における第１部分と第２部分との間の位置関係と同一であるとき、第１音声コマンドは第１テキスト情報に一致する。

第１態様に関連して、別の可能な設計方式において、端末が第１操作に応答してプロンプト情報を表示する方法は、以下を含み得る。端末は第１操作に応答して音声アシスタントの第１インタフェースにおいてプロンプト情報を表示する。第１操作は、端末の「設定」アプリケーションにおける「カスタム音声制御」インタフェースにおける「カスタムコマンドを追加」オプションに対してユーザによって実行されるタップ操作（例えばシングルタップ操作）であり得る。代替的に、第１操作は、音声アシスタントの音声制御インタフェースにおける、ユーザによる事前設定音声コマンドの入力であり得る。例えば、事前設定音声コマンドは「学習開始」であり得る。音声アシスタントの第１インタフェースは、カスタムコマンドを追加するために使用される、音声アシスタントにおける「カスタムコマンドを追加」インタフェースであり得る。

端末がユーザによって入力された１または複数の操作を受信する方法は、以下を含み得る。端末は、第１インタフェースにおいて、ユーザによって実行された第４操作に応答して第２インタフェースを表示する。端末は第２インタフェースにおいてユーザによって入力された１または複数の操作を受信する。第２インタフェースは、１または複数の操作を入力するためにユーザによって使用される。例えば、第４操作は、第１インタフェースにおいてユーザによって入力される第２事前設定ジェスチャ、例えば、レ点ジェスチャ、上スライドジェスチャ、下スライドジェスチャ、または円形ジェスチャなどの任意のジェスチャであり得る。代替的に、第１インタフェースは、記録対象操作を学習するように端末をトリガするために使用される「学習開始」ボタンを含む。第４操作は、第１インタフェースにおける「学習開始」ボタンに対してユーザによって実行されるタップ操作（例えばシングルタップ操作）であり得る。

第１態様に関連して、別の可能な設計方式において、端末がユーザによって入力された第３操作に基づいて、操作情報に対応するテキスト情報を決定する前に、本願の本実施形態における方法は更に、端末が第２操作に応答して第３インタフェースを表示する段階を含む。第３インタフェースは、少なくとも２つのテキスト情報を含み、少なくとも２つのテキスト情報は、接続語を使用することによって、事前設定位置関係に基づいて、第１アプリケーション識別子および／または第１インタフェース識別子と第１検索語とを接続することによって形成されるステートメントである。端末がユーザによって入力される第３操作に基づいて、操作情報に対応するテキスト情報を決定することは、端末が第３インタフェースにおける少なくとも２つのテキスト情報のうちの第１テキスト情報に対してユーザによって実行される第３操作を受信することを含む。端末は、第３操作に応答して、操作情報に対応するテキスト情報として第１テキスト情報を決定する。第３操作は、少なくとも２つのテキスト情報から第１テキスト情報を選択するために使用される。

１または複数の操作に対応する操作情報を取得した後に、端末は、接続語を使用してステートメントを形成することによって、事前設定位置関係に基づいて、第１アプリケーション識別子および／または第１インタフェース識別子と第１検索語とを接続して複数のテキスト情報を取得し、複数のテキスト情報を含む第３インタフェースを表示し、その結果、ユーザは複数のテキスト情報から、ユーザの言語習慣に適合する第１テキスト情報を選択する。第１テキスト情報は、ユーザによって選択される、ユーザの言語習慣に適合するコマンドである。したがって、端末が第１音声コマンドを受信した後に、端末は、ユーザがテキスト情報に対応する音声コマンドを一字一句違わずに話すときのみ対応する操作を実行するのではなく、第１音声コマンドのテキストが第１テキスト情報に一致するという条件で、操作情報に基づいて対応する操作を実行し得る。本解決手段によれば、カスタム音声制御の柔軟性を改善でき、ユーザエクスペリエンスを改善できる。

第１態様に関連して、別の可能な設計方式において、端末が第３操作に応答して第１テキスト情報を操作情報に対応するテキスト情報として決定した後に、端末が第１音声コマンドを受信する前に、本願の本実施形態における方法は更に、以下を含み得る。端末は第１テンプレートテキストを生成し、その結果、第１音声コマンドを受信した後に、端末１００は、より迅速かつ正確に、第１音声コマンドが第１テキスト情報に一致する音声コマンドであると識別し、次に、操作情報に基づいて対応する操作を実行する。第１テンプレートテキストは、第１テキスト情報における第２部分を第１検索語のタイプ情報で置換することによって生成される。第１音声コマンドのテキストが第１テキスト情報に一致することは、具体的には、第１音声コマンドのテキストが第１テンプレートテキストに一致することである。第１音声コマンドのテキストが第１テンプレートテキストに一致することは、第１音声コマンドに対応するテキストにおける少なくとも１つの第３部分が少なくとも１つの第１部分と同一であり、第１音声コマンドにおける少なくとも１つの第３部分と第４部分との間の位置関係が、第１テキスト情報における少なくとも１つの第１部分と第２部分との間の位置関係と同一であり、第４部分が第１テンプレートテキストにおけるタイプ情報によって示されるタイプの単語であることを含む。

端末は、第１テキスト情報における第１検索語を、第１検索語のタイプ情報で置換して、第１テンプレートテキストを取得し得る。端末１００がテンプレートテキストに一致する音声コマンドを次回に受信した場合、音声コマンドに対応する操作が端末に記録されていない場合でも、端末は、ユーザが端末をトリガして音声コマンドに対応する操作を実行するようことを模擬し、対応する操作インタフェースを表示し得る。このように、カスタム音声制御の柔軟性を改善でき、ユーザエクスペリエンスを改善できる。

第１態様に関連して、別の可能な設計方式において、端末が第１テンプレートテキストを生成した後に、端末が第１音声コマンドを受信する前に、本願の本実施形態における方法は更に以下を含み得る。端末は、対応する操作を実行するよう端末をトリガするための第４インタフェースを表示する。第４インタフェースは、音声アシスタントを通じて、第１テンプレートテキストに一致する第１音声コマンドを送信するようユーザに促すために使用される。任意選択で、第４インタフェースは更に、第１テンプレートテキストのステートメントインスタンスを含み得る。例えば、第１テンプレートテキスト「タオバオを通じて～を購入」のステートメントインスタンスは、「タオバオを通じてペンを購入」および「タオバオを通じて牛乳を購入」を含み得る。第４インタフェースは、対応する操作を実行するよう端末をトリガするために、第１テンプレートテキストに一致する音声コマンドを使用するようユーザを促すために使用され得、その結果、ユーザは、対応する操作を実行するよう端末にトリガするために、音声アシスタントを通じて、第４インタフェースによって示される音声コマンドを送信できる。

第１態様に関連して、別の可能な設計方式において、ユーザが同一のオブジェクトに対して異なる名前（またはステートメント）を有し得ることを考慮して、第４インタフェースを表示する前に、端末は更に、エイリアス入力ボックスを含む第５インタフェースを表示し得る。エイリアス入力ボックスは、第２テキスト情報を受信するために使用される。第２テキスト情報は、第１テキスト情報についてユーザによって作成されるエイリアスである。このように、ユーザは、エイリアス入力ボックスにおいて、第１テキスト情報についてのエイリアスを作成し得る。

任意選択で、第５インタフェースは更に、エイリアス入力ボックスに第２テキスト情報を入力するようユーザに示すために使用されるプロンプト情報を含み得る。例えば、第５インタフェースは更に、「ヒント：上述のコマンドのエイリアスをエイリアス入力ボックスに入力できます」というプロンプト情報を含む。

一部のユーザは、第５インタフェースにおけるエイリアス入力ボックスに第２テキスト情報を入力しない。言い換えれば、当該ユーザは、第１テキスト情報のエイリアスを作成しない。この場合、端末は、第５インタフェースにおいてユーザによって実行される第５操作を受信する。端末は、第５操作に応答して、第４インタフェースを直接表示し得る。

一部の他のユーザは、第１テキスト情報のエイリアスを作成するために、第５インタフェースにおけるエイリアス入力ボックスに第２テキスト情報を入力する。この場合、端末が第５インタフェースを表示した後に、端末は、エイリアス入力ボックスにおいてユーザによって入力された第２テキスト情報を受信し、第２テキスト情報をエイリアス入力ボックスに表示し得る。これに対応して、端末は、第５インタフェースにおいてユーザによって実行される第５操作に応答して、第２テキスト情報、および、第２テキスト情報と操作情報との対応関係を格納し得る。このように、テキストが第２テキスト情報と同一である第２音声コマンドを受信した後に、端末は、第２テキスト情報に対応する操作情報に基づいて、操作情報に対応する操作を実行し得る。任意選択で、端末によって表示される第４インタフェースは更に、第２テキスト情報を含む。

第１態様に関連して、別の可能な設計方式において、端末は更に、音声アシスタントを通じてユーザによって入力された第２音声コマンドを受信し得る。第２音声コマンドのテキストが第２テキスト情報と同一であるとき、端末は、第２テキスト情報と操作情報との間の対応関係に基づいて、操作情報に対応する操作を実行する。

本願の本実施形態において、端末は更に、第１テキスト情報についてユーザによって作成されたエイリアス（すなわち第２テキスト情報）のサービスを提供し得る。加えて、第２テキスト情報を受信したとき、端末の音声アシスタントはまた、ユーザが端末をトリガして第２音声コマンドに対応する操作を実行することを模擬し、対応する操作インタフェースを表示し得る。このように、カスタム音声制御の柔軟性を改善でき、ユーザエクスペリエンスを改善できる。

第２態様によれば、本願の実施形態は端末を提供する。端末は、表示ユニット、入力ユニット、記録ユニット、決定ユニット、および実行ユニットを含む。表示ユニットは、第１操作に応答してプロンプト情報を表示するよう構成され、プロンプト情報は、記録対象操作を入力するようユーザを促すために使用される。入力ユニットは、ユーザによって入力される１または複数の操作を受信し、ユーザによって入力される第２操作を受信するよう構成される。記録ユニットは、ユーザによって入力される第２操作に応答して、１または複数の操作に対応する操作情報を記録するよう構成される。決定ユニットは、ユーザによって入力される第３操作に基づいて、操作情報に対応する第１テキスト情報を決定するよう構成される。入力ユニットは更に、第１音声コマンドを受信するよう構成される。実行ユニットは、入力ユニットによって受信された第１音声コマンドに対応するテキストが、決定ユニットによって決定された第１テキスト情報と一致するとき、端末によって、操作情報に基づいて対応する操作を実行するよう構成される。

第２態様に関連して、可能な設計方式において、第１テキスト情報は少なくとも１つの第１部分および第２部分を含む。第１音声コマンドに対応するテキストが第１テキスト情報に一致することは、第１音声コマンドに対応するテキストにおける少なくとも１つの第３部分が少なくとも１つの第１部分と同一であり、第１音声コマンドにおける少なくとも１つの第３部分と第４部分との間の位置関係が、第１テキスト情報における少なくとも１つの第１部分と第２部分との間の位置関係と同一であることを含む。

第２態様に関連して、別の可能な設計方式において、操作情報は、第１アプリケーション識別子、第１インタフェース識別子、第１検索語、および操作指示情報を含み、第１アプリケーション識別子は、１または複数の操作に対応する操作オブジェクトアプリケーションの識別子であり、第１インタフェース識別子は、１または複数の操作に対応する操作オブジェクトインタフェースの識別子であり、操作指示情報は、１または複数の操作を通じて操作オブジェクトインタフェースにおいて実行される操作を示すために使用される。少なくとも１つの第１部分は、第１アプリケーション識別子および／または第１インタフェース識別子を含み、第２部分は第１検索語を含む。

第２態様に関連して、別の可能な設計方式において、表示ユニットが第１操作に応答してプロンプト情報を表示するよう構成されることは、表示ユニットは、第１操作に応答して音声アシスタントの第１インタフェースにおいてプロンプト情報を表示するよう構成されることを含む。表示ユニットは更に、第２インタフェースを表示するよう構成される。第２インタフェースは、１または複数の操作を入力するためにユーザによって使用される。入力ユニットが、ユーザによって入力される１または複数の操作を受信するよう構成されることは、入力ユニットが、表示ユニットによって表示される第２インタフェースにおいてユーザによって入力される１または複数の操作を受信するよう構成されることを含む。

第２態様に関連して、別の可能な設計方式において、表示ユニットは更に、決定ユニットがユーザによって入力された第３操作に基づいて、操作情報に対応するテキスト情報を決定する前に、端末によって、第２操作に応答して第３インタフェースを表示するよう構成される。第３インタフェースは、少なくとも２つのテキスト情報を含み、少なくとも２つのテキスト情報は、接続語を使用することによって、事前設定位置関係に基づいて、第１アプリケーション識別子および／または第１インタフェース識別子と第１検索語とを接続することによって形成されるステートメントである。入力ユニットは更に、表示ユニットによって表示される第３インタフェースにおいて、少なくとも２つのテキスト情報における第１テキスト情報に対してユーザによって実行される第３操作を受信するよう構成される。第３操作は、少なくとも２つのテキスト情報から第１テキスト情報を選択するために使用される。決定ユニットが、ユーザによって入力された第３操作に基づいて、操作情報に対応するテキスト情報を決定するよう構成されることは、決定ユニットが、入力ユニットによって受信された第３操作に応答して、第１テキスト情報を、操作情報に対応するテキスト情報として決定するよう構成されることを含む。

第２態様に関連して、別の可能な設計方式において、端末は更に、生成ユニットを含み得る。生成ユニットは、決定ユニットが第１テキスト情報を操作情報に対応するテキスト情報として決定した後に、入力ユニットが第１音声コマンドを受信する前に、第１テンプレートテキストを生成するよう構成される。第１テンプレートテキストは、第１テキスト情報における第２部分を第１検索語のタイプ情報で置換することによって生成される。第１音声コマンドのテキストが第１テキスト情報に一致することは、具体的には、第１音声コマンドのテキストが第１テンプレートテキストに一致することであり得る。第１音声コマンドのテキストが第１テンプレートテキストに一致することは、第１音声コマンドに対応するテキストにおける少なくとも１つの第３部分が少なくとも１つの第１部分と同一であり、第１音声コマンドにおける少なくとも１つの第３部分と第４部分との間の位置関係が、第１テキスト情報における少なくとも１つの第１部分と第２部分との間の位置関係と同一であり、第４部分が第１テンプレートテキストにおけるタイプ情報によって示されるタイプの単語であることを含む。

第２態様に関連して別の可能な設計方式において、表示ユニットは更に、生成ユニットが第１テンプレートテキストを生成した後に、入力ユニットが第１音声コマンドを受信する前に、第４インタフェースを表示するよう構成され、第４インタフェースは、対応する操作を実行するよう端末をトリガするために、音声アシスタントを通じて、第１テンプレートテキストに一致する第１音声コマンドを送信するようユーザに促すために使用される。

第２態様に関連して、別の可能な設計において、表示ユニットは更に、第４インタフェースを表示する前に第５インタフェースを表示するよう構成される。第５インタフェースは、エイリアス入力ボックスを含み、エイリアス入力ボックスは、第２テキスト情報を受信するために使用され、第２テキスト情報は、第１テキスト情報のために、ユーザによって作成されるエイリアスである。入力ユニットは更に、表示ユニットが第５インタフェースを表示した後に、入力ユニットが第５インタフェースにおいてユーザによって実行される第５操作を受信する前に、エイリアス入力ボックスにおいてユーザによって入力された第２テキスト情報を受信するよう構成される。表示ユニットは更に、入力ユニットによって受信された第２テキスト情報をエイリアス入力ボックスに表示するよう構成される。入力ユニットは更に、表示ユニットによって表示される第５インタフェースにおいてユーザによって実行される第５操作を受信するよう構成され、第５操作は、テキスト情報の記録を終了するよう端末をトリガするために使用される。表示ユニットは更に、第５操作に応答して第４インタフェースを表示するよう構成される。

端末は更にストレージユニットを含み得る。ストレージユニットは、入力ユニットによって受信された第５操作に応答して、第２テキスト情報、および、第２テキスト情報と操作情報との間の対応関係を格納するよう構成される。表示ユニットによって表示される第４インタフェースは更に第２テキスト情報を含む。

第２態様に関連して、別の可能な設計方式において、入力ユニットは更に、音声アシスタントを通じてユーザによって入力された第２音声コマンドを受信するよう構成される。実行ユニットは更に、入力ユニットによって受信された第２音声コマンドのテキストがストレージユニットに格納された第２テキスト情報と同一であるとき、第２テキスト情報と操作情報との間の対応関係に基づいて操作情報に対応する操作を端末によって実行するよう構成される。

第３態様によれば、本願の実施形態は端末を提供する。端末は１または複数のプロセッサ、メモリおよびディスプレイを含む。メモリおよびディスプレイはプロセッサに連結される。ディスプレイは、プロセッサによって生成される画像を表示するよう構成される。メモリは、音声アシスタントのコンピュータプログラムコードおよび関連情報を格納するよう構成される。コンピュータプログラムコードはコンピュータ命令を含む。プロセッサがコンピュータ命令を実行するとき、プロセッサは、第１操作に応答して、プロンプト情報を表示するようディスプレイを制御するよう構成される。ここで、プロンプト情報は、記録対象操作を入力するようユーザに促すために使用される。プロセッサは更に、ユーザによって入力された１または複数の操作を受信し、ユーザによって入力された第２操作に応答して、１または複数の操作に対応する操作情報を記録し、操作情報をメモリに格納するよう構成される。プロセッサは更に、ユーザによって入力される第３操作に基づいて、操作情報に対応する第１テキスト情報を決定し、第１音声コマンドを受信し、第１音声コマンドに対応するテキストが第１テキスト情報に一致するとき、操作情報に基づいて対応する操作を実行するよう構成される。

第３態様に関連して、可能な設計方式において、プロセッサによって決定される第１テキスト情報は、少なくとも１つの第１部分および第２部分を含む。プロセッサは更に、第１音声コマンドに対応するテキストにおける少なくとも１つの第３部分が少なくとも１つの第１部分と同一であり、第１音声コマンドにおける少なくとも１つの第３部分と第４部分との間の位置関係が、第１テキスト情報における少なくとも１つの第１部分と第２部分との間の位置関係と同一であるとき、第１音声コマンドに対応するテキストが第１テキスト情報に一致すると決定するよう構成される。

第３態様に関連して、別の可能な設計方式において、プロセッサによって記録される操作情報は、第１アプリケーション識別子、第１インタフェース識別子、第１検索語、および操作指示情報を含み、第１アプリケーション識別子は、１または複数の操作に対応する操作オブジェクトアプリケーションの識別子であり、第１インタフェース識別子は、１または複数の操作に対応する操作オブジェクトインタフェースの識別子であり、操作指示情報は、１または複数の操作を通じて操作オブジェクトインタフェースにおいて実行される操作を示すために使用される。少なくとも１つの第１部分は、第１アプリケーション識別子および／または第１インタフェース識別子を含み、第２部分は第１検索語を含む。

第３態様に関連して、別の可能な設計方式において、プロセッサが、第１操作に応答して、プロンプト情報を表示するようにディスプレイを制御するよう構成されることは、プロセッサが、第１操作に応答して、音声アシスタントの第１インタフェースにおいてプロンプト情報を表示するようディスプレイを制御するよう構成されることを含む。プロセッサが、ユーザによって入力された１または複数の操作を受信するよう構成されることは、プロセッサが、ディスプレイによって表示される第１インタフェースにおいてユーザによって実行される第４操作に応答して、第２インタフェースを表示するようディスプレイを制御し（第２インタフェースは、１または複数の操作を入力するためにユーザによって使用される）、ディスプレイによって表示される第２インタフェースにおいてユーザによって入力された１または複数の操作を受信するよう構成されることを含む。

第３態様に関連して、別の可能な設計方式において、プロセッサは更に以下のように構成される。ユーザによって入力された第３操作に基づいて、操作情報に対応するテキスト情報を決定する前に、第２操作に応答して、第３インタフェースを表示するようディスプレイを制御し、第３インタフェースは、少なくとも２つのテキスト情報を含み、少なくとも２つのテキスト情報は、接続語を使用することによって、事前設定位置関係に基づいて、第１アプリケーション識別子および／または第１インタフェース識別子と第１検索語とを接続することによって形成されるステートメントである。プロセッサが、ユーザによって入力された第３操作に基づいて、操作情報に対応するテキスト情報を決定するよう構成されることは、プロセッサが、ディスプレイによって表示される第３インタフェースにおいて少なくとも２つのテキスト情報における第１テキスト情報に対してユーザによって実行される第３操作を受信し、第３操作に応答して、第１テキスト情報を、操作情報に対応するテキスト情報として決定するよう構成されることを含む。第３操作は、少なくとも２つのテキスト情報から第１テキスト情報を選択するために使用される。

第３態様に関連して、別の可能な設計方式において、プロセッサは更に、第３操作に応答して、第１テキスト情報を操作情報に対応するテキスト情報として決定した後に、第１音声コマンドを受信する前に、第１テンプレートテキストを生成するよう構成され、第１テンプレートテキストは、第１テキスト情報における第２部分を第１検索語のタイプ情報で置換することによって生成される。プロセッサは更に、第１音声コマンドのテキストが第１テキスト情報に一致するとき、第１音声コマンドのテキストが第１テンプレートテキストに一致すると決定するよう構成される。第１音声コマンドのテキストが第１テンプレートテキストに一致することは、第１音声コマンドに対応するテキストにおける少なくとも１つの第３部分が少なくとも１つの第１部分と同一であり、第１音声コマンドにおける少なくとも１つの第３部分と第４部分との間の位置関係が、第１テキスト情報における少なくとも１つの第１部分と第２部分との間の位置関係と同一であり、第４部分が第１テンプレートテキストにおけるタイプ情報によって示されるタイプの単語であることを含む。

第３態様に関連して、別の可能な設計方式において、プロセッサは更に、第１テンプレートテキストを生成した後に、第１音声コマンドを受信する前に、第４インタフェースを表示するようディスプレイを制御するよう構成され、第４インタフェースは、対応する操作を実行するよう端末をトリガするために、音声アシスタントを通じて、第１テンプレートテキストに一致する第１音声コマンドを送信するようにユーザを促すために使用される。

第３態様に関連して、別の可能な設計方式において、プロセッサは更に、第４インタフェースを表示するようディスプレイを制御する前に、第５インタフェースを表示するようディスプレイを制御するよう構成され、第５インタフェースはエイリアス入力ボックスを含み、エイリアス入力ボックスは、第２テキスト情報を受信するために使用され、第２テキスト情報は、第１テキスト情報についてユーザによって作成されるエイリアスである。プロセッサが第４インタフェースを表示するようディスプレイを制御するよう構成されることは、プロセッサが、ディスプレイによって表示される第５インタフェースにおいてユーザによって実行される第５操作を受信し（第５操作は、テキスト情報の記録を終了するよう端末をトリガするために使用される）、第５操作に応答して、第４インタフェースを表示するようディスプレイを制御するよう構成されることを含み、プロセッサは更に、第５操作に応答して、第２テキスト情報、および、第２テキスト情報と操作情報との間の対応関係をメモリに格納するよう構成される。ディスプレイによって表示される第４インタフェースは更に、第２テキスト情報を含む。

第３態様に関連して、別の可能な設計方式において、プロセッサは更に、音声アシスタントを通じてユーザによって入力される第２音声コマンドを受信するよう構成され、第２音声コマンドのテキストが第２テキスト情報と同一であるとき、第２テキスト情報と操作情報との間の対応関係に基づいて、操作情報に対応する操作を実行するよう構成される。

第４態様によれば、本願の実施形態はコンピュータ記憶媒体を提供する。コンピュータ記憶媒体は、コンピュータ命令を含み、コンピュータ命令が端末上で動作するとき、端末は、第１態様、および、第１態様の可能な設計方式に従って音声制御コマンド生成方法を実行することが可能である。

第５態様によれば、本願の実施形態はコンピュータプログラム製品を提供する。コンピュータプログラム製品がコンピュータ上で動作するとき、コンピュータは第１態様、および、第１態様の可能な設計方式に従って音声制御コマンド生成方法を実行することが可能である。

加えて、第２態様または第３態様、および、第２態様または第３態様の設計方式のいずれか１つによる端末によってもたらされる技術的効果、または、第４態様によるコンピュータ記憶媒体によってもたらされる技術的効果、および、第５態様によるコンピュータプログラム製品によってもたらされる技術的効果については、第１態様、および、第１態様の異なる設計方式によってもたらされる技術的効果を参照されたい。詳細はここで再度説明しない。

本願の実施形態による端末のハードウェア構造の概略図である。

本願の実施形態による音声制御コマンド生成方法のフローチャート１である。

本願の実施形態による端末の表示インタフェースのインスタンスの概略図１である。本願の実施形態による端末の表示インタフェースのインスタンスの概略図１である。本願の実施形態による端末の表示インタフェースのインスタンスの概略図１である。本願の実施形態による端末の表示インタフェースのインスタンスの概略図１である。

本願の実施形態による端末の表示インタフェースのインスタンスの概略図２である。本願の実施形態による端末の表示インタフェースのインスタンスの概略図２である。本願の実施形態による端末の表示インタフェースのインスタンスの概略図２である。

本願の実施形態による端末の表示インタフェースのインスタンスの概略図３である。本願の実施形態による端末の表示インタフェースのインスタンスの概略図３である。本願の実施形態による端末の表示インタフェースのインスタンスの概略図３である。

本願の実施形態による端末の表示インタフェースのインスタンスの概略図４である。本願の実施形態による端末の表示インタフェースのインスタンスの概略図４である。

本願の実施形態による端末の表示インタフェースのインスタンスの概略図５である。本願の実施形態による端末の表示インタフェースのインスタンスの概略図５である。

本願の実施形態による端末の表示インタフェースのインスタンスの概略図６である。本願の実施形態による端末の表示インタフェースのインスタンスの概略図６である。本願の実施形態による端末の表示インタフェースのインスタンスの概略図６である。本願の実施形態による端末の表示インタフェースのインスタンスの概略図６である。

本願の実施形態による音声制御コマンド生成方法のフローチャート２である。

本願の実施形態による端末の表示インタフェースのインスタンスの概略図７である。本願の実施形態による端末の表示インタフェースのインスタンスの概略図７である。本願の実施形態による端末の表示インタフェースのインスタンスの概略図７である。

本願の実施形態による端末の表示インタフェースのインスタンスの概略図８である。本願の実施形態による端末の表示インタフェースのインスタンスの概略図８である。本願の実施形態による端末の表示インタフェースのインスタンスの概略図８である。

本願の実施形態による端末表示インタフェースのインスタンスの概略図９である。本願の実施形態による端末表示インタフェースのインスタンスの概略図９である。本願の実施形態による端末表示インタフェースのインスタンスの概略図９である。本願の実施形態による端末表示インタフェースのインスタンスの概略図９である。

本願の実施形態による端末の表示インタフェースのインスタンスの概略図１０である。本願の実施形態による端末の表示インタフェースのインスタンスの概略図１０である。本願の実施形態による端末の表示インタフェースのインスタンスの概略図１０である。本願の実施形態による端末の表示インタフェースのインスタンスの概略図１０である。

本願の実施形態による端末の概略構造組成図１である。

本願の実施形態による端末の概略構造組成図２である。

端末がユーザによって送信された音声コマンドに対して音声一般化を実行できないことが原因でカスタム音声制御の柔軟性が比較的低いという問題を解決するために、本願の実施形態は音声制御コマンド生成方法を提供する。音声制御コマンド生成方法は、端末が音声アシスタントを通じてカスタムコマンドおよびカスタム音声コマンドに対応する操作を記録するプロセスに適用され得る。

本願の実施形態における端末は、ポータブルコンピュータ（例えば携帯電話）、ノートブックコンピュータ、パーソナルコンピュータ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ、ＰＣ）、ウェアラブル電子デバイス（例えばスマートウォッチ）、タブレットコンピュータ、拡張現実（ａｕｇｍｅｎｔｅｄｒｅａｌｉｔｙ、ＡＲ）デバイス／仮想現実（ｖｉｒｔｕａｌｒｅａｌｉｔｙ、ＶＲ）デバイス、車載コンピュータなどであり得る。端末の具体的な形式は、以下の実施形態に特に限定されない。

図１は、本願の実施形態による端末１００の構造ブロック図である。端末１００は、プロセッサ１１０、外部メモリインタフェース１２０、内部メモリ１２１、ユニバーサルシリアルバス（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ，ＵＳＢ）インタフェース１３０、充電管理モジュール１４０、電力管理モジュール１４１、バッテリ１４２、アンテナ１、アンテナ２、無線周波数モジュール１５０、通信モジュール１６０、オーディオモジュール１７０、スピーカ１７０Ａ、受信機１７０Ｂ、マイクロフォン１７０Ｃ、ヘッドセットジャック１７０Ｄ、センサモジュール１８０、ボタン１９０、モータ１９１、インジケータ１９２、カメラ１９３、表示画面１９４、加入者識別モジュール（ＳｕｂｓｃｒｉｂｅｒＩｄｅｎｔｉｆｉｃａｔｉｏｎＭｏｄｕｌｅ，ＳＩＭ）カードインタフェース１９５などを含み得る。センサモジュール１８０は、圧力センサ１８０Ａ、ジャイロセンサ１８０Ｂ、気圧センサ１８０Ｃ、磁気センサ１８０Ｄ、加速度センサ１８０Ｅ、距離センサ１８０Ｆ、光学式近接センサ１８０Ｇ、指紋センサ１８０Ｈ、温度センサ１８０Ｊ、タッチセンサ１８０Ｋ、周辺光センサ１８０Ｌ、骨伝導センサ１８０Ｍなどを含み得る。

本願の本実施形態に示される構造は、端末１００に対する限定を構成しない。端末１００は、図に示されるものより多くの、または、少ないコンポーネントを含んでも、または、いくつかのコンポーネントを組み合わせても、または、いくつかのコンポーネントを分割しても、または、異なるコンポーネント配置を有してもよい。図に示されるコンポーネントは、ハードウェア、ソフトウェア、またはソフトウェアおよびハードウェアの組み合わせにより実装され得る。

プロセッサ１１０は１または複数の処理ユニットを含み得る。例えば、プロセッサ１１０は、アプリケーションプロセッサ（ＡｐｐｌｉｃａｔｉｏｎＰｒｏｃｅｓｓｏｒ，ＡＰ）、モデムプロセッサ、グラフィック処理装置（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ，ＧＰＵ）、画像信号プロセッサ（ＩｍａｇｅＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ，ＩＳＰ）、コントローラ、メモリ、ビデオコーデック、デジタル信号プロセッサ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ，ＤＳＰ）、ベースバンドプロセッサ、および／またはニューラルネットワーク処理ユニット（Ｎｅｕｒａｌ－ｎｅｔｗｏｒｋＰｒｏｃｅｓｓｉｎｇＵｎｉｔ，ＮＰＵ）を含み得る。異なる処理ユニットは別個のデバイスであり得る、または、１または複数のプロセッサに統合され得る。

コントローラは、命令に従って作業を調整するように端末１００の各コンポーネントに指令する決定部であり得る。コントローラは、端末１００の中枢部であり、コマンド中心である。コントローラは、命令操作コードおよび時間シーケンス信号に基づいて、操作制御信号を生成し、命令フェッチおよび命令実行の制御を完了する。

メモリは更に、命令およびデータを格納するためにプロセッサ１１０に配置され得る。いくつかの実施形態において、プロセッサ１１０におけるメモリはキャッシュであり、プロセッサ１１０によって１回使用される、または、周期的に使用される命令またはデータを格納し得る。プロセッサ１１０が命令またはデータを再度使用する必要がある場合、プロセッサ１１０は、メモリから命令またはデータを直接呼び出し得る。これにより、反復アクセスを回避し、プロセッサ１１０の待機時間を低減し、それにより、システム効率を改善する。

いくつかの実施形態において、プロセッサ１１０はインタフェースを含み得る。インタフェースは集積回路間（Ｉｎｔｅｒ－ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ，Ｉ２Ｃ）インタフェース、集積回路間サウンド（Ｉｎｔｅｒ－ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔＳｏｕｎｄ，Ｉ２Ｓ）インタフェース、パルスコード変調（ＰｕｌｓｅＣｏｄｅＭｏｄｕｌａｔｉｏｎ，ＰＣＭ）インタフェース、汎用非同期送受信回路（ＵｎｉｖｅｒｓａｌＡｓｙｎｃｈｒｏｎｏｕｓＲｅｃｅｉｖｅｒ／Ｔｒａｎｓｍｉｔｔｅｒ，ＵＡＲＴ）インタフェース、モバイル業界プロセッサインタフェース（ＭｏｂｉｌｅＩｎｄｕｓｔｒｙＰｒｏｃｅｓｓｏｒＩｎｔｅｒｆａｃｅ，ＭＩＰＩ）、汎用入力／出力（Ｇｅｎｅｒａｌ－ＰｕｒｐｏｓｅＩｎｐｕｔ／ｏｕｔｐｕｔ，ＧＰＩＯ）インタフェース、ＳＩＭインタフェース、ＵＳＢインタフェースおよび／または同様のものを含み得る。

Ｉ２Ｃインタフェースは双方向同期シリアルバスであり、シリアルデータライン（ＳｅｒｉａｌＤａｔａＬｉｎｅ，ＳＤＡ）およびシリアルクロックライン（ＳｅｒａｉｌＣｌｏｃｋＬｉｎｅ，ＳＣＬ）を含む。いくつかの実施形態において、プロセッサ１１０は、複数の組のＩ２Ｃバスを含み得る。プロセッサ１１０は、タッチセンサ１８０Ｋ、充電器、フラッシュ、カメラ１９３などに、異なるＩ２Ｃバスインタフェースを通じて別々に連結され得る。例えば、プロセッサ１１０は、Ｉ２Ｃインタフェースを通じてタッチセンサ１８０Ｋに連結され得る。その結果、プロセッサ１１０は、Ｉ２Ｃバスインタフェースを通じてタッチセンサ１８０Ｋと通信し、端末１００のタッチ機能を実装する。

Ｉ２Ｓインタフェースは、オーディオ通信に使用され得る。いくつかの実施形態において、プロセッサ１１０は複数の組のＩ２Ｓバスを含み得る。プロセッサ１１０は、プロセッサ１１０とオーディオモジュール１７０との間の通信を実装するために、Ｉ２Ｓバスを使用することによってオーディオモジュール１７０に連結され得る。いくつかの実施形態において、オーディオモジュール１７０は、Ｂｌｕｅｔｏｏｔｈ（登録商標）ヘッドセットを使用することによって呼び出しに応答する機能を実装するために、Ｉ２Ｓインタフェースを通じてオーディオ信号を通信モジュール１６０へ送信し得る。

ＰＣＭインタフェースはまた、オーディオ通信を実行し、アナログ信号をサンプリング、量子化、および符号化するよう構成され得る。いくつかの実施形態において、オーディオモジュール１７０は、ＰＣＭバスインタフェースを通じて通信モジュール１６０に連結され得る。いくつかの実施形態において、オーディオモジュール１７０はまた、Ｂｌｕｅｔｏｏｔｈ（登録商標）ヘッドセットを使用することによって呼び出しに応答する機能を実装するために、ＰＣＭインタフェースを通じてオーディオ信号を通信モジュール１６０へ送信し得る。Ｉ２ＳインタフェースおよびＰＣＭインタフェースの両方は、オーディオ通信に使用され得、２つのインタフェースのサンプリングレートは異なる。

ＵＡＲＴインタフェースは汎用シリアルデータバスであり、非同期通信に使用される。バスは双方向通信バスである。バスは送信対象データを直列通信と並列通信との間で変換する。いくつかの実施形態において、ＵＡＲＴインタフェースは通常、プロセッサ１１０を通信モジュール１６０に接続するよう構成される。例えば、プロセッサ１１０は、Ｂｌｕｅｔｏｏｔｈ（登録商標）機能を実装するために、ＵＡＲＴインタフェースを通じてＢｌｕｅｔｏｏｔｈ（登録商標）モジュールと通信する。いくつかの実施形態において、オーディオモジュール１７０は、Ｂｌｕｅｔｏｏｔｈ（登録商標）ヘッドセットを使用することによって音楽を再生する機能を実装するために、ＵＡＲＴインタフェースを通じてオーディオ信号を通信モジュール１６０へ送信し得る。

ＭＩＰＩインタフェースは、プロセッサ１１０を表示画面１９４またはカメラ１９３などの周辺機器に接続するよう構成され得る。ＭＩＰＩインタフェースは、カメラシリアルインタフェース（ＣａｍｅｒａＳｅｒｉａｌＩｎｔｅｒｆａｃｅ，ＣＳＩ）およびディスプレイシリアルインタフェース（ＤｉｓｐｌａｙＳｅｒｉａｌＩｎｔｅｒｆａｃｅ，ＤＳＩ）などを含む。いくつかの実施形態において、プロセッサ１１０は、端末１００の撮影機能を実装するために、ＣＳＩインタフェースを通じてカメラ１９３と通信する。プロセッサ１１０は、端末１００の表示機能を実装するために、ＤＳＩインタフェースを通じて表示画面１９４と通信する。

ＧＰＩＯインタフェースはソフトウェアを使用することによって構成され得る。ＧＰＩＯインタフェースは、制御信号として構成され得る、または、データ信号として構成され得る。いくつかの実施形態において、ＧＰＩＯインタフェースは、プロセッサ１１０をカメラ１９３、表示画面１９４、通信モジュール１６０、オーディオモジュール１７０、またはセンサモジュール１８０などに接続するよう構成され得る。ＧＰＩＯインタフェースは代替的に、Ｉ２Ｃインタフェース、Ｉ２Ｓインタフェース、ＵＡＲＴインタフェース、ＭＩＰＩインタフェースなどとして構成され得る。

ＵＳＢインタフェース１３０は、ミニＵＳＢインタフェース、マイクロＵＳＢインタフェース、またはＵＳＢタイプＣインタフェースなどであり得る。ＵＳＢインタフェース１３０は、端末１００を充電するために充電器に接続するよう構成され得る、または、端末１００と周辺機器との間でデータを送信するよう構成され得る、または、ヘッドセットを使用することによってオーディオを再生するためにヘッドセットに接続するよう構成され得る。ＵＳＢインタフェース１３０は代替的に、別の電子デバイス、例えばＡＲデバイスに接続するよう構成され得る。

本願の本実施形態に示されるモジュール間のインタフェース接続関係は、単に説明のための例であり、端末１００の構造に対する限定を構成するものではない。端末１００は、本願の本実施形態において、異なるインタフェース接続方式、または、複数のインタフェース接続方式の組み合わせを使用し得る。

充電管理モジュール１４０は、充電入力を充電器から受信するよう構成される。充電器は無線充電器であり得る、または、有線充電器であり得る。有線充電のいくつかの実施形態において、充電管理モジュール１４０は、ＵＳＢインタフェース１３０を通じて充電入力を有線充電器から受信し得る。無線充電のいくつかの実施形態において、充電管理モジュール１４０は、端末１００の無線充電コイルを使用することにより無線充電入力を受信し得る。充電管理モジュール１４０は更に、バッテリ１４２を充電しながら、電力管理モジュール１４１を使用することによって、電力を端末１００に供給し得る。

電力管理モジュール１４１は、バッテリ１４２、充電管理モジュール１４０、およびプロセッサ１１０に接続するよう構成される。電力管理モジュール１４１は、入力をバッテリ１４２および／または充電管理モジュール１４０から受信し、電力をプロセッサ１１０、内部メモリ１２１、外部メモリインタフェース１２０、表示画面１９４、カメラ１９３、通信モジュール１６０などに供給する。電力管理モジュール１４１は更に、バッテリ容量、バッテリサイクル数、および、バッテリ健康状態（電気漏洩またはインピーダンス）などのパラメータをモニタリングするよう構成され得る。いくつかの実施形態において、電力管理モジュール１４１は代替的に、プロセッサ１１０に配置され得る。いくつかの実施形態において、電力管理モジュール１４１および充電管理モジュール１４０は代替的に、同一のデバイスに配置され得る。

端末１００の無線通信機能は、アンテナ１、アンテナ２、無線周波数モジュール１５０、通信モジュール１６０、モデム、ベースバンドプロセッサなどを使用することによって実装され得る。

アンテナ１およびアンテナ２は、電磁波信号を送信および受信するよう構成される。端末１００における各アンテナは、１または複数の通信周波数帯域を網羅するよう構成され得る。異なるアンテナは更に、アンテナ利用率を改善するために、多重化され得る。例えば、セルラーネットワークアンテナは、無線ローカルエリアネットワークダイバーシティアンテナとして多重化され得る。いくつかの実施形態において、アンテナは、チューニングスイッチと組み合わせて使用され得る。

無線周波数モジュール１５０は、端末１００に適用される、２Ｇ／３Ｇ／４Ｇ／５Ｇなどの無線通信の解決手段を含む通信プロセッサモジュールを提供し得る。無線周波数モジュール１５０は、少なくとも１つのフィルタ、スイッチ、電力増幅器、低ノイズ増幅器（ＬｏｗＮｏｉｓｅＡｍｐｌｉｆｉｅｒ，ＬＮＡ）などを含み得る。無線周波数モジュール１５０は、アンテナ１を使用することによって電磁波を受信し、受信された電磁波に対してフィルタリングまたは増幅などの処理を実行し、復調のために電磁波をモデムへ転送する。無線周波数モジュール１５０は更に、モデムによって変調される信号を増幅し、アンテナ１を使用することによって、信号を放射のための電磁波に変換し得る。いくつかの実施形態において、無線周波数モジュール１５０における少なくともいくつかの機能モジュールはプロセッサ１１０に配置され得る。いくつかの実施形態において、無線周波数モジュール１５０における少なくともいくつかの機能モジュールは、プロセッサ１１０における少なくともいくつかのモジュールと同一のデバイスに配置され得る。

モデムは、変調機および復調機を含み得る。変調機は、送信対象の低周波数ベースバンド信号を、中～高周波数信号に変調するよう構成される。復調機は、受信された電磁波信号を低周波数ベースバンド信号に復調するよう構成される。次に、復調機は、復調を通じて取得される低周波数ベースバンド信号を、処理のためにベースバンドプロセッサへ送信する。低周波数ベースバンド信号は、ベースバンドプロセッサによって処理され、次に、アプリケーションプロセッサへ送信される。アプリケーションプロセッサは、オーディオデバイス（非限定的な例としてスピーカ１７０Ａ、または受信機１７０Ｂなど）を使用することによってサウンド信号を出力する、または、表示画面１９４を使用することによって画像またはビデオを表示する。いくつかの実施形態において、モデムは独立のデバイスであり得る。いくつかの実施形態において、モデムは、プロセッサ１１０から独立し得、無線周波数モジュール１５０または別の機能モジュールと同一のデバイスに配置される。

通信モジュール１６０は、端末１００に適用される、無線ローカルエリアネットワーク（ＷｉｒｅｌｅｓｓＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ，ＷＬＡＮ）（例えば、ワイヤレスフィデリティ（ＷｉｒｅｌｅｓｓＦｉｄｅｌｉｔｙ，Ｗｉ－Ｆｉ（登録商標））ネットワーク）、ブルートゥース（登録商標）（Ｂｌｕｅｔｏｏｔｈ（登録商標）、ＢＴ）、全球測位衛星システム（ＧｌｏｂａｌＮａｖｉｇａｔｉｏｎＳａｔｅｌｌｉｔｅＳｙｓｔｅｍ，ＧＮＳＳ）、周波数変調（ＦｒｅｑｕｅｎｃｙＭｏｄｕｌａｔｉｏｎ，ＦＭ））、近距離無線通信（ＮｅａｒＦｉｅｌｄＣｏｍｍｕｎｉｃａｔｉｏｎ，ＮＦＣ）技術、または、赤外線（Ｉｎｆｒａｒｅｄ，ＩＲ）技術などの無線通信の解決手段を含む通信プロセッサモジュールを提供し得る。通信モジュール１６０は、少なくとも１つの通信プロセッサモジュールを組み込んだ１または複数のデバイスであり得る。通信モジュール１６０は、アンテナ２を使用することによって電磁波を受信し、電磁波信号に対して周波数変調およびフィルタリング処理を実行し、処理信号をプロセッサ１１０へ送信する。通信モジュール１６０は更に、送信対象信号をプロセッサ１１０から受信し、信号に対して周波数変調および増幅を実行し、アンテナ２を使用することによって、信号を放射のための電磁波に変換し得る。

いくつかの実施形態において、端末１００におけるアンテナ１および無線周波数モジュール１５０は連結され、端末１００におけるアンテナ２および通信モジュール１６０は連結され、その結果、端末１００は、無線通信技術を使用することによって、ネットワークおよび別のデバイスと通信できる。無線通信技術は、移動通信のためのグローバルシステム（ＧｌｏｂａｌＳｙｓｔｅｍＦｏｒＭｏｂｉｌｅＣｏｍｍｕｎｉｃａｔｉｏｎｓ，ＧＳＭ（登録商標））、汎用パケット無線サービス（ＧｅｎｅｒａｌＰａｃｋｅｔＲａｄｉｏＳｅｒｖｉｃｅ，ＧＰＲＳ）、符号分割多元接続（ＣｏｄｅＤｉｖｉｓｉｏｎＭｕｌｔｉｐｌｅＡｃｃｅｓｓ，ＣＤＭＡ）、広帯域符号分割多元接続（ＷｉｄｅｂａｎｄＣｏｄｅＤｉｖｉｓｉｏｎＭｕｌｔｉｐｌｅＡｃｃｅｓｓ，ＷＣＤＭＡ（登録商標））、時分割符号分割多元接続（Ｔｉｍｅ－ＤｉｖｉｓｉｏｎＣｏｄｅＤｉｖｉｓｉｏｎＭｕｌｔｉｐｌｅＡｃｃｅｓｓ，ＴＤ－ＳＣＤＭＡ）、ロングタームエボリューション（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ，ＬＴＥ）、ＢＴ、ＧＮＳＳ、ＷＬＡＮ、ＮＦＣ、ＦＭ、ＩＲ技術および／または同様のものを含み得る。ＧＮＳＳは、グローバルポジショニングシステム、全球測位衛星システム（ＧｌｏｂａｌＮａｖｉｇａｔｉｏｎＳａｔｅｌｌｉｔｅＳｙｓｔｅｍ，ＧＬＯＮＡＳＳ）、北斗測位衛星システム（ＢｅｉＤｏｕＮａｖｉｇａｔｉｏｎＳａｔｅｌｌｉｔｅＳｙｓｔｅｍ，ＢＤＳ）、準天頂衛星システム（Ｑｕａｓｉ－ＺｅｎｉｔｈＳａｔｅｌｌｉｔｅＳｙｓｔｅｍ，ＱＺＳＳ）、および／または、静止衛星型補強システム（ＳａｔｅｌｌｉｔｅＢａｓｅｄＡｕｇｍｅｎｔａｔｉｏｎＳｙｓｔｅｍ，ＳＢＡＳ）を含み得る。

端末１００は、ＧＰＵ、表示画面１９４、アプリケーションプロセッサなどを使用することによって、表示機能を実装する。ＧＰＵは、画像処理のためのマイクロプロセッサであり、表示画面１９４およびアプリケーションプロセッサに接続される。ＧＰＵは、数学および幾何学演算を実行するよう構成され、グラフィックスレンダリングに使用される。プロセッサ１１０は、ディスプレイ情報を生成または変更するためにプログラム命令を実行する１または複数のＧＰＵを含み得る。

表示画面１９４は、画像、ビデオなどを表示するよう構成される。表示画面１９４は表示パネルを含む。表示パネルは、液晶ディスプレイ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ，ＬＣＤ）、有機発光ダイオード（ＯｒｇａｎｉｃＬｉｇｈｔ－ＥｍｉｔｔｉｎｇＤｉｏｄｅ，ＯＬＥＤ）、アクティブマトリクス有機発光ダイオード（Ａｃｔｉｖｅ－ＭａｔｒｉｘＯｒｇａｎｉｃＬｉｇｈｔ－ＥｍｉｔｔｉｎｇＤｉｏｄｅ，ＡＭＯＬＥＤ）、フレキシブル発光ダイオード（ＦｌｅｘｉｂｌｅＬｉｇｈｔ－ＥｍｉｔｔｉｎｇＤｉｏｄｅ，ＦＬＥＤ）、ミニＬＥＤ、マイクロＬＥＤ、マイクロＯＬＥＤ、または量子ドット発光ダイオード（ＱｕａｎｔｕｍＤｏｔＬｉｇｈｔ－ＥｍｉｔｔｉｎｇＤｉｏｄｅ，ＱＬＥＤ）などであり得る。いくつかの実施形態において、端末１００は、１またはＮ個の表示画面１９４を含み得、Ｎは１より大きい正の整数である。

端末１００は、ＩＳＰ、カメラ１９３、ビデオコーデック、ＧＰＵ、表示画面、アプリケーションプロセッサなどを使用することによって撮影機能を実装できる。

ＩＳＰは、カメラ１９３によってフィードバックされるデータを処理するよう構成される。例えば、撮影中に、シャッタが押下され、照明がレンズを通じてカメラの感光素子へ伝えられ、光信号が電気信号に変換され、カメラの感光素子は、処理のために電気信号をＩＳＰへ伝え、電気信号は可視画像に変換される。ＩＳＰは更に、画像のノイズ、明度、および、色に対してアルゴリズム最適化を実行し得る。ＩＳＰは更に、撮影シナリオの露出および色温度などのパラメータを最適化し得る。いくつかの実施形態において、ＩＳＰは、カメラ１９３に配置され得る。

カメラ１９３は静止画像またはビデオをキャプチャするよう構成される。レンズを使用することにより、光学画像が物体について生成され、光学画像は感光素子に投影される。感光素子は、電荷結合素子（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ，ＣＣＤ）または相補型金属酸化膜半導体（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌ－Ｏｘｉｄｅ－Ｓｅｍｉｃｏｎｄｕｃｔｏｒ，ＣＭＯＳ）フォトトランジスタであり得る。感光素子は、光信号を電気信号に変換し、次に、電気信号をデジタル画像信号に変換するために電気信号をＩＳＰへ送信する。ＩＳＰは、処理のためにデジタル画像信号をＤＳＰへ出力する。ＤＳＰは、ＲＧＢフォーマットまたはＹＵＶフォーマットなどで、デジタル画像信号を標準画像信号に変換する。いくつかの実施形態において、端末１００は、１またはＮ個のカメラ１９３を含み得、Ｎは１より大きい正の整数である。

デジタル信号プロセッサはデジタル信号を処理するよう構成される。デジタル画像信号に加えて、デジタル信号プロセッサは更に、別のデジタル信号を処理し得る。例えば、端末１００が周波数を選択するとき、デジタル信号プロセッサは、周波数エネルギーなどに対して、フーリエ変換を実行するよう構成される。

ビデオコーデックは、デジタルビデオを圧縮または展開するよう構成される。端末１００は、１または複数のビデオコーデックをサポートし得る。このように、端末１００は、複数の符号化フォーマット、例えば、ムービングピクチャーエクスパーツグループ（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐ，ＭＰＥＧ）‐１、ＭＰＥＧ‐２、ＭＰＥＧ‐３、およびＭＰＥＧ‐４でビデオを再生または記録できる。

ＮＰＵは、ニューラルネットワーク（Ｎｅｕｒａｌ－Ｎｅｔｗｏｒｋ，ＮＮ）コンピューティングプロセッサであり、生体神経ネットワークの構造を参照することにより、例えば、人間の脳神経細胞間の転送モードを参照することにより、入力された情報を迅速に処理し、更に、自己学習を継続的に実行し得る。端末１００のインテリジェント認識などのアプリケーションは、ＮＰＵ、例えば、画像認識、顔認識、音声認識、およびテキスト理解を使用することによって実装され得る。

外部メモリインタフェース１２０は、端末１００のストレージ容量を拡張するために、外部ストレージカード、例えば、マイクロＳＤカードに接続するよう構成され得る。外部ストレージカードは、データストレージ機能を実装するために、外部メモリインタフェース１２０を通じてプロセッサ１１０と通信する。例えば、音楽およびビデオなどのファイルは、外部ストレージカードに格納される。

内部メモリ１２１は、コンピュータ実行可能なプログラムコードを格納するよう構成され得、実行可能なプログラムコードは命令を含む。プロセッサ１１０は、内部メモリ１２１に格納される命令を実行することにより、端末１００の様々な機能的アプリケーションおよびデータ処理を実行する。メモリ１２１は、プログラム格納領域およびデータ格納エリアを含み得る。プログラム格納領域は、オペレーティングシステム、および、少なくとも１つの機能（例えば、サウンド再生機能、または、画像再生機能）に必要なアプリケーションなどを格納し得る。データ格納エリアは、端末１００の使用中に作成されるデータ（例えば、オーディオデータまたは電話帳）などを格納し得る。加えて、メモリ１２１は、高速ランダムアクセスメモリを含み得、更に、非揮発性メモリ、例えば、少なくとも１つの磁気ディスクストレージデバイス、フラッシュストレージデバイス、別の揮発性ソリッドステートストレージデバイス、またはユニバーサルフラッシュストレージ（ＵｎｉｖｅｒｓａｌＦｌａｓｈＳｔｏｒａｇｅ，ＵＦＳ）などを含み得る。

端末１００は、オーディオモジュール１７０、スピーカ１７０Ａ、受信機１７０Ｂ、マイクロフォン１７０Ｃ、ヘッドセットジャック１７０Ｄ、アプリケーションプロセッサなどを使用することによって、音楽再生または録音などのオーディオ機能を実装できる。

オーディオモジュール１７０は、デジタルオーディオ情報を出力のためのアナログオーディオ信号に変換するよう構成され、また、アナログオーディオ入力をデジタルオーディオ信号に変換するよう構成される。オーディオモジュール１７０は更に、オーディオ信号を符号化および復号するよう構成され得る。いくつかの実施形態において、オーディオモジュール１７０は、プロセッサ１１０に配置され得る、または、オーディオモジュール１７０のいくつかの機能モジュールはプロセッサ１１０に配置される。

「ホーン」とも称されるスピーカ１７０Ａは、オーディオ電気信号をサウンド信号に変換するよう構成される。端末１００は、スピーカ１７０Ａを介して、音楽を聴く、または、ハンズフリーモードで呼び出しに応答するために使用され得る。

「イヤーピース」とも称される受信機１７０Ｂは、オーディオ電気信号をサウンド信号に変換するよう構成される。端末１００を使用することによって呼び出しが応答される、または、音声情報が聴かれるとき、受信機１７０Ｂは、音声を聴くために人間の耳の近くに配置され得る。

「マイク」または「マイクロフォン」とも称されるマイクロフォン１７０Ｃは、サウンド信号を電気信号に変換するよう構成される。通話を行う、または、音声情報を送信するとき、ユーザは、サウンド信号をマイクロフォン１７０Ｃに入力するために、口をマイクロフォン１７０Ｃの近くに動かし、音を発し得る。少なくとも１つのマイクロフォン１７０Ｃが端末１００に配置され得る。いくつかの実施形態において、２つのマイクロフォン１７０Ｃが、サウンド信号を収集し、更にノイズ低減機能を実装するために端末１００に配置され得る。いくつかの実施形態において、代替的に、サウンド信号を収集し、ノイズを低減し、更に音源を識別し、指向性録音機能などを実装するために、３、４、またはより多くのマイクロフォン１７０Ｃが端末１００に配置され得る。

ヘッドセットジャック１７０Ｄは有線ヘッドセットに接続されるよう構成される。ヘッドセットジャック１７０ＤはＵＳＢインタフェース１３０、３．５ｍｍオープンモバイル端末プラットフォーム（ＯｐｅｎＭｏｂｉｌｅＴｅｒｍｉｎａｌＰｌａｔｆｏｒｍ，ＯＭＴＰ）標準インタフェース、または、米国電気通信工業会（ＣｅｌｌｕｌａｒＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓＩｎｄｕｓｔｒｙＡｓｓｏｃｉａｔｉｏｎｏｆｔｈｅＵＳＡ，ＣＴＩＡ）標準インタフェースであり得る。

圧力センサ１８０Ａは圧力信号を検知するよう構成され、圧力信号を電気信号に変換し得る。いくつかの実施形態において、圧力センサ１８０Ａは、表示画面１９４に配置され得る。多くのタイプの圧力センサ１８０Ａ、例えば、抵抗型圧力センサ、誘導型圧力センサ、および静電容量型圧力センサがあり得る。静電容量型圧力センサは、導電性材料を有する少なくとも２つの平行なプレートを含み得る。圧力センサに力が加えられるとき、電極間のキャパシタンスが変化する。端末１００は、キャパシタンスの変化に基づいて、圧力強度を決定する。タッチ操作が表示画面１９４上で実行されるとき、端末１００は、圧力センサ１８０Ａを使用することによってタッチ操作の強度を検出する。端末１００は更に、圧力センサ１８０Ａの検出信号に基づいて、タッチ位置を算出し得る。いくつかの実施形態において、同一のタッチ位置で実行されるが、異なるタッチ操作強度を有するタッチ操作は、異なる操作命令に対応し得る。例えば、タッチ操作強度が第１圧力閾値より低いタッチ操作がメッセージアイコンに対して実行されるとき、ＳＭＳメッセージを見るための命令が実行される。または、タッチ操作強度が第１圧力閾値以上であるタッチ操作がメッセージアイコンに対して実行されるとき、ＳＭＳメッセージを作成するための命令が実行される。

ジャイロセンサ１８０Ｂは、端末１００の移動の向きを決定するよう構成され得る。いくつかの実施形態において、３軸（すなわち、ｘ軸、ｙ軸、ｚ軸）の周りの端末１００の角速度は、ジャイロセンサ１８０Ｂを使用することによって決定され得る。ジャイロスコープセンサ１８０Ｂは、撮影中に画像安定化のために使用され得る。例えば、シャッタが押下されるとき、ジャイロセンサ１８０Ｂは、端末１００が揺れる角度を検出し、当該角度に基づいて、レンズモジュールが補償する必要がある距離を算出し、レンズに逆の動きを通じて端末１００の揺れを打ち消させ、画像安定化を実装する。ジャイロスコープセンサ１８０Ｂは更に、ナビゲーションおよびモーション検知ゲームのシナリオにおいて使用され得る。

気圧センサ１８０Ｃは、気圧を測定するよう構成される。いくつかの実施形態において、端末１００は、位置決定およびナビゲーションを補助するために、気圧センサ１８０Ｃによって測定された気圧の値を使用することによって、高度を算出する。

磁気センサ１８０Ｄはホールセンサを含む。端末１００は、磁気センサ１８０Ｄを使用することによって、フリップレザーケースの開閉を検出し得る。いくつかの実施形態において、端末１００が折り畳み式電話であるとき、端末１００は、磁気センサ１８０Ｄを使用することによって、フリップカバーの開閉を検出し得る。更に、フリップカバーの自動ロック解除などの特徴は、検出されたレザーケースの開閉状態、または、検出されたフリップカバーの開閉状態に基づいて設定される。

加速度センサ１８０Ｅは、端末１００の様々な方向（通常は３軸）の加速度の値を検出し得、端末１００が静止しているときは高度および重力の方向を検出し得る。加速度センサ１８０Ｅは更に、端末の向きを識別するよう構成され得、横モードと縦モードとの間の切り替え、または、歩数計などの用途に適用される。

距離センサ１８０Ｆは距離を測定するよう構成される。端末１００は、赤外線またはレーザの方式で距離を測定し得る。いくつかの実施形態において、撮影シナリオにおいて、端末１００は、距離センサ１８０Ｆを使用して迅速な焦点合わせを実装することにより、距離を測定し得る。

例えば、光学式近接センサ１８０Ｇは、発光ダイオード（ＬＥＤ）および光検出器、例えばフォトダイオードを含み得る。発光ダイオードは赤外線発光ダイオードであり得る。発光ダイオードは赤外線光を照射するよう構成される。フォトダイオードは、近くの物体からの赤外線反射光を検出するよう構成される。十分な反射光が検出されたとき、端末１００の近くに物体があると決定され得る。不十分な反射光が検出されたとき、端末１００の近くに物体が無いと決定され得る。端末１００は、光学式近接センサ１８０Ｇを使用することにより、ユーザが通話するために端末１００を耳の近くに持っていることを検出して、電力節約のための画面オフを自動的に実行し得る。光学式近接センサ１８０Ｇはまた、レザーケースモードまたはポケットモードにおける自動画面ロックまたはロック解除に使用され得る。

周辺光センサ１８０Ｌは周辺光の輝度を検知するよう構成される。端末１００は、検知された周辺光の明度に基づいて、表示画面の明度を適合性に調整し得る。周辺光センサ１８０Ｌはまた、撮影中にホワイトバランスを自動的に調整するよう構成され得る。周辺光センサ１８０Ｌは更に、偶然の接触を回避するべく、光学式近接センサ１８０Ｇと協働して、端末１００がポケットにあるかどうかを検出し得る。

指紋センサ１８０Ｈは指紋を収集するよう構成される。端末１００は、収集された指紋の特徴を使用して、指紋ベースのロック解除、アプリケーションロックアクセス、指紋ベース撮影、指紋ベース呼び出し応答などを実装し得る。

温度センサ１８０Ｊは温度を検出するよう構成される。いくつかの実施形態において、端末１００は、温度センサ１８０Ｊによって検出された温度を使用することにより、温度処理ポリシーを実行する。例えば、温度センサ１８０Ｊによって報告された温度が閾値を超えるとき、端末１００は、温度センサ１８０Ｊの近くのプロセッサの性能を低下させ、熱保護のために電力消費を低減する。

タッチセンサ１８０Ｋはまた、「タッチパネル」と称され、表示画面１９４に配置され得る。タッチセンサ１８０Ｋは、タッチセンサ１８０Ｋ上で、またはその近くで実行されるタッチ操作を検出するよう構成される。タッチセンサ１８０Ｋは、検出されたタッチ操作をアプリケーションプロセッサへ転送して、タッチイベントのタイプを決定し、表示画面１９４を使用することによって対応する視覚的出力を提供し得る。

骨伝導センサ１８０Ｍは振動信号を取得し得る。いくつかの実施形態において、骨伝導センサ１８０Ｍは、人間の発声部の振動骨の振動信号を取得し得る。骨伝導センサ１８０Ｍはまた、人間の脈に接触して、血圧鼓動信号を受信し得る。いくつかの実施形態において、骨伝導センサ１８０Ｍはまた、ヘッドセットに配置され得る。オーディオモジュール１７０は、音声機能を実装するために、骨伝導センサ１８０Ｍによって取得される、発声部の振動骨の振動信号に基づく解析を通じて、音声信号を取得し得る。アプリケーションプロセッサは、心拍数検出機能を実装するために、骨伝導センサ１８０Ｍによって取得される血圧鼓動信号に基づいて、心拍数情報を解析し得る。

ボタン１９０は電源ボタン、ボリュームボタンなどを含む。ボタン１９０は機械的ボタンであり得る、または、タッチボタンであり得る。端末１００は、ボタン１９０の入力を受信し、端末１００のユーザ設定および機能制御に関連するボタン信号入力を生成する。

モータ１９１は振動プロンプトを生成し得る。モータ１９１は、着信振動プロンプトに使用され得る、または、タッチ振動フィードバックに使用され得る。例えば、異なるアプリケーション（例えば、撮影アプリケーションおよびオーディオ再生アプリケーション）上で実行されるタッチ操作は異なる振動フィードバック効果に対応し得る。表示画面１９４の異なる領域上で実行されるタッチ操作はまた、異なる振動フィードバック効果に対応し得る。異なるアプリケーションシナリオ（例えば、時間リマインダ、情報受信、アラームクロック、ゲームなど）はまた、異なる振動フィードバック効果に対応し得る。タッチ振動フィードバック効果は更にカスタマイズされ得る。

インジケータ１９２はインジケータライトであり得、充電ステータスおよび電力変化を示すよう構成され得る、または、メッセージ、不在着信、通知などを示すよう構成され得る。

ＳＩＭカードインタフェース１９５はＳＩＭカードに接続するよう構成される。ＳＩＭカードは、端末１００との間の接触または分離を実装するために、ＳＩＭカードインタフェース１９５に挿入され得る、または、ＳＩＭカードインタフェース１９５から取り外され得る。端末１００は、１またはＮ個のＳＩＭカードインタフェースをサポートし得る、Ｎは１より大きい正の整数である。ＳＩＭカードインタフェース１９５は、ナノＳＩＭカード、マイクロＳＩＭカード、ＳＩＭカードなどをサポートし得る。複数のカードが同一のＳＩＭカードインタフェース１９５に同時に挿入され得る。複数のカードは、同一タイプであり得る、または、異なるタイプであり得る。ＳＩＭカードインタフェース１９５はまた、ＳＩＭカードの異なるタイプと互換性を有し得る。ＳＩＭカードインタフェース１９５はまた、外部ストレージカードと互換性があり得る。端末１００は、会話およびデータ通信などの機能を実装するために、ＳＩＭカードを使用することによってネットワークとインタラクトする。いくつかの実施形態において、端末１００は、ｅＳＩＭ、すなわち、組み込みＳＩＭカードを使用する。ｅＳＩＭカードは、端末１００に組み込まれて端末１００から分離できないことがあり得る。

本願の実施形態において提供される起動キーワード更新方法は端末１００において実装され得る。

本願の実施形態は音声制御コマンド生成方法を提供する。端末１００は、第１操作に応答して、記録対象操作を入力するようユーザに促すために使用されるプロンプト情報を表示し得る。端末１００は、ユーザによって入力された１または複数の操作を受信する。端末１００は、ユーザによって入力された第２操作に応答して、１または複数の操作に対応する操作情報を記録する。端末１００は、ユーザによって入力された第３操作に基づいて、操作情報に対応する第１テキスト情報を決定する。端末１００は第１音声コマンドを受信する。第１音声コマンドのテキストが第１テキスト情報に一致するとき、端末１００は、操作情報に基づいて、対応する操作を実行する。

操作情報は、１または複数の操作に対応する第１アプリケーション識別子、第１インタフェース識別子、第１検索語、および操作指示情報を含み得る。第１アプリケーション識別子は、１または複数の操作の操作オブジェクトアプリケーション（例えば第１アプリケーション）の識別子である。第１インタフェース識別子は、１または複数の操作に対応する操作オブジェクトインタフェースの識別子である。ユーザは、第１アプリケーションの異なるインタフェースにおいて操作を実行し得る。第１インタフェース識別子は、１または複数の操作が実行された第１アプリケーションの１または複数のインタフェースの識別子を含み得る。操作指示情報は、１または複数の操作を通じて、操作オブジェクトインタフェースにおいて実行される操作を示すために使用される。

１または複数の操作の操作情報を記録した後に、端末１００は、ユーザによって入力された第３操作に基づいて、操作情報に対応する第１テキスト情報を決定し得る。第１テキスト情報は、第３操作を使用することによってユーザによって選択される、１または複数の操作に対応するテキスト情報である。

本願の本実施形態において、第１テキスト情報は、少なくとも１つの第１部分および第２部分を含む。少なくとも１つの第１部分は、第１アプリケーション識別子および／または第１インタフェース識別子を含み、第２部分は第１検索語を含む。第１音声コマンドは少なくとも１つの第３部分および第４部分を含む。第１音声コマンドのテキストが第１テキスト情報に一致することは、具体的には、第１音声コマンドに対応するテキストの少なくとも１つの第３部分が少なくとも１つの第１部分と同一であり、第１音声コマンドにおける少なくとも１つの第３部分と第４部分との間の位置関係が、第１テキスト情報における少なくとも１つの第１部分と第２部分との間の位置関係と同一であることであり得る。

言い換えれば、第１音声コマンドにおける少なくとも１つの第３部分と第４部分との間の位置関係が、第１テキスト情報における少なくとも１つの第１部分と第２部分との間の位置関係と同一であるとき、第１音声コマンドにおける少なくとも１つの第３部分は、第１テキスト情報における少なくとも１つの第１部分（すなわち、第１アプリケーション識別子および／または第１インタフェース識別子）と完全に同一であり、端末１００は、第１音声コマンドに対応するテキストが第１テキスト情報に一致すると決定し得る。

本願の本実施形態において提供される音声制御コマンド生成方法によれば、端末１００は最初に、１または複数の操作に対応する操作情報を取得し、次に、ユーザの第３操作に基づいて、操作情報に対応する第１テキスト情報、すなわち、１または複数の操作に対応するテキスト情報を決定し得る。第１テキスト情報は、ユーザによって選択される、ユーザの言語習慣に適合するコマンドである。端末１００が第１音声コマンドを受信した後に、端末１００は、ユーザがテキスト情報に対応する音声コマンドを一字一句違わずに話すときのみ対応する操作を実行するのではなく、第１音声コマンドのテキストが第１テキスト情報に一致するという条件で、操作情報に基づいて対応する操作を実行し得る。本解決手段によれば、カスタム音声制御の柔軟性を改善でき、ユーザエクスペリエンスを改善できる。

本願の実施形態は音声制御コマンド生成方法を提供する。図２に示されるように、音声制御コマンド生成方法はＳ２０１～Ｓ２０６を含み得る。

Ｓ２０１：端末１００が第１操作に応答して、音声アシスタントの第１インタフェースにおいてプロンプト情報を表示する。プロンプト情報は、記録対象操作を入力するようユーザに促すために使用される。

音声アシスタントは、端末１００にインストールされたアプリケーション（Ａｐｐｌｉｃａｔｉｏｎ，ＡＰＰ）であり得る、または、端末１００のオペレーティングシステムに統合されたシステム機能であり得る。音声アシスタントは、端末１００における組み込みアプリケーション（すなわち、端末のシステムアプリケーション）、または、ダウンロード可能なアプリケーションであり得る。組み込みアプリケーションは、端末１００（例えば携帯電話）の一部として提供されるアプリケーションである。例えば、組み込みアプリケーションは、「設定」アプリケーション、「メッセージ」アプリケーション、または「カメラ」アプリケーションなどであり得る。ダウンロード可能なアプリケーションは、ダウンロード可能なアプリケーションのインターネットプロトコルマルチメディアサブシステム（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌＭｕｌｔｉｍｅｄｉａＳｕｂｓｙｓｔｅｍ，ＩＭＳ）接続を提供し得るアプリケーションである。ダウンロード可能なアプリケーションは、端末にプリインストールされたアプリケーションであり得る、または、ユーザによってダウンロードされて端末にインストールされ得るサードパーティアプリケーションであり得る。例えば、ダウンロード可能なアプリケーションは、「ＷｅＣｈａｔ（登録商標）」アプリケーション、「Ａｌｉｐａｙ」アプリケーション、または「Ｅｍａｉｌ」アプリケーションなどであり得る。

音声アシスタントは起動後、ユーザによって入力された音声コマンド（すなわち音声制御コマンド）を受信し、音声コマンドに対応する操作を実行するよう端末１００をトリガし得る。例えば、端末１００は、図３ａ、図３ｂ、図３ｃおよび図３ｄに示される携帯電話３００である。音声アシスタントは、携帯電話３００における「音声アシスタント」アプリケーションであり得る。第１インタフェースは、「カスタムコマンド」を追加するために使用される、音声アシスタント（例えば、「音声アシスタント」アプリケーション）の表示インタフェースであるインタフェースであり得る。第１インタフェースにおいて、ユーザは、端末１００をトリガして、記録対象操作の記録を開始し得る。

例えば、端末１００は、図３ａ、図３ｂ、図３ｃおよび図３ｄに示される携帯電話３００であり、音声アシスタントは、携帯電話３００における「音声アシスタント」アプリケーションである。携帯電話３００は、携帯電話３００のホーム画面３０１上の「音声アシスタント」アプリケーションアイコン３０２上でユーザによって実行されるタップ操作（例えばシングルタップ操作）を受信し得る。携帯電話３００は、「音声アシスタント」アプリケーションアイコン３０２上でユーザによって実行されたタップ操作に応答して、図３ｂに示される音声制御インタフェース３０３を表示し得る。音声制御インタフェース３０３は「記録」ボタン３０４および「設定」オプション３０６を含む。携帯電話３００は、「記録」ボタン３０４上でユーザによって実行されるタップ操作（例えばタッチアンドホールド操作）に応答して、ユーザによって送信された音声コマンドを受信し、音声コマンドに対応する操作を実行するよう携帯電話３００をトリガし得る。「設定」オプション３０６は、「音声アシスタント」アプリケーションの様々な機能およびパラメータを設定するために使用される。携帯電話３００は、音声制御インタフェース３０３における「設定」オプション３０６上でユーザによって実行されるタップ操作を受信し得る。携帯電話３００は、「設定」オプション３０６上でユーザによって実行されるタップ操作に応答して、図３ｄに示される「音声アシスタント」インタフェース３０７を表示し得る。任意選択で、音声制御インタフェース３０３は、プロンプト情報３０５を更に含み得る。プロンプト情報３０５は、「音声アシスタント」アプリケーションの頻繁に使用される機能をユーザに示すために使用される。

任意選択で、携帯電話３００は更に、「設定」アプリケーションアイコン上でユーザによって実行されるタップ操作（例えばシングルタップ操作）を受信し得る。携帯電話３００は、「設定」アプリケーションアイコン上でユーザによって実行されるタップ操作に応答して、図３ｃに示される設定インタフェース３１０を表示し得る。設定インタフェース１１０は、「飛行機モデル」オプション、「ＷＬＡＮ」オプション、「Ｂｌｕｅｔｏｏｔｈ（登録商標）」オプション、「モバイルネットワーク」オプション、「音声アシスタント」オプション３１１などを含み得る。「飛行機モデル」オプション、「ＷＬＡＮ」オプション、「Ｂｌｕｅｔｏｏｔｈ（登録商標）」オプション、および「モバイルネットワーク」オプションの具体的な機能については、従来の技術における具体的な説明を参照されたい。ここで、本願の本実施形態において、詳細は説明しない。携帯電話３００は、「音声アシスタント」オプション３１１上でユーザによって実行されるタップ操作（例えばシングルタップ操作）を受信し得る。携帯電話１００は、「音声アシスタント」オプション３１１上でユーザによって実行されるタップ操作に応答して、図３ｄに示される「音声アシスタント」インタフェース３０７を表示し得る。

「音声アシスタント」インタフェース３０７は、「音声起動」オプション３０８および「カスタム音声制御」オプション３０９を含む。「音声起動」オプション３０８は、携帯電話３００の起動キーワードを設定するために使用され、起動キーワードは、「音声アシスタント」アプリケーションを起動するために使用される。携帯電話３００は、ユーザによって送信される、起動キーワードに一致する音声データを受信したとき、図３ｂに示される音声制御インタフェース３０３を表示し得る。「カスタム音声制御」オプション３０９は、カスタムコマンド（すなわち、本願の本実施形態におけるテキスト情報）を設定するために使用される。具体的には、携帯電話３００は、「カスタム音声制御」オプション３０９上でユーザによって実行されるタップ操作（例えば、シングルタップ操作）に応答して、図４ａに示される「カスタム音声制御」インタフェース４０１を表示し得る。

「カスタム音声制御」インタフェース４０１は、「カスタム音声制御」ボタン４０２、携帯電話３００に追加されたカスタムコマンド（例えば、「カスタムコマンド１」４０４および「カスタムコマンド２」４０５）、「カスタムコマンドを追加」オプション４０６などを含む。「カスタム音声制御」ボタン４０２は、カスタム音声制御機能を有効にするために使用される。カスタム音声制御機能が有効になった後で初めて、携帯電話３００は、「カスタムコマンド１」４０４または「カスタムコマンド２」４０５に応答して、対応するイベントを実行することが可能となる。加えて、カスタム音声制御機能が有効になった後で初めて、ユーザは、第１事前設定ジェスチャ（例えばＳ字ジェスチャ）を使用することによって、「カスタムコマンドを追加」インタフェース４０７を表示するよう携帯電話３００をトリガできる。例えば、「カスタム音声制御」インタフェース４０１は、プロンプト情報４０３、例えば、「機能が有効になった後で、ユーザはＳ字ジェスチャを使用することによって、カスタムコマンドを追加するために使用されるインタフェースを表示するように携帯電話をトリガできます」を更に含み得る。

第１操作は、図４ａに示される「カスタム音声制御」インタフェース４０１において「カスタムコマンドを追加」オプション４０６上でユーザによって実行されるタップ操作（例えば、シングルタップ操作）であり得る。代替的に、第１操作は、図３ａ、図３ｂ、図３ｃ、図３ｄに示される携帯電話３００上でユーザによって実行される操作、および、「カスタムコマンドを追加」オプション４０６上でユーザによって実行されるタップ操作を含み得る。携帯電話３００は、「カスタムコマンドを追加」オプション４０６上でユーザによって実行されるタップ操作に応答して、図４ｂに示される「カスタムコマンドを追加」インタフェース４０７（すなわち第１インタフェース）を表示し得る。第１インタフェースは、記録対象操作を入力するようユーザに促すために使用される。例えば、「カスタムコマンドを追加」インタフェース４０７は、「学習開始」ボタン４０８を含む。「学習開始」ボタン４０８は、記録対象操作を学習するように携帯電話３００をトリガするために使用される。第１インタフェース４０７は更に、記録対象操作を入力するようユーザを促すために使用されるプロンプト情報を含み得る。例えば、第１インタフェース４０７は更に、「学習開始」ボタン４０８をタップするようユーザを促すために使用されるプロンプト情報、例えば、「ボタンをタップして、追加したいカスタムコマンドに対応する操作を学習するように携帯電話をトリガしてください」を含み得る。

任意選択で、第１操作は代替的に、図３ｂに示される音声制御インタフェース３０３において、ユーザが事前設定音声コマンドを入力することであり得る。例えば、事前設定音声コマンドは「学習開始」であり得る。携帯電話３００は、音声制御インタフェース３０３においてユーザによって入力される音声コマンド「学習開始」を受信することに応答して、図４ｂに示される「カスタムコマンドを追加」インタフェース４０７（すなわち第１インタフェース）を表示し得る。

Ｓ２０２：端末１００は、第１インタフェースにおいてユーザによって実行される第４操作に応答して第２インタフェースを表示する。第２インタフェースは、ユーザが１または複数の操作を入力するために使用される。

第４操作は、第１インタフェースにおいてユーザによって入力される第２事前設定ジェスチャ、例えば、レ点ジェスチャ、上スライドジェスチャ、下スライドジェスチャ、または円形ジェスチャなどの任意のジェスチャであり得る。代替的に、第１インタフェースは、記録対象操作を学習するように端末１００をトリガするために使用される「学習開始」ボタンを含む。第４操作は、第１インタフェースにおける「学習開始」ボタンに対してユーザによって実行されるタップ操作（例えばシングルタップ操作）であり得る。例えば、「テキスト情報を追加」インタフェース４０７は「学習開始」ボタン４０８を含む。第４操作は、「学習開始」ボタン４０８上でユーザによって実行されるシングルタップ操作であり得る。

Ｓ２０３：端末１００は、ユーザによって入力された第２操作に応答して、１または複数の操作に対応する操作情報を記録する。

端末１００によって記録される必要がある操作は、端末１００上でユーザによって実行される１または複数の操作を含み得ることを理解されたい。端末１００が複数の操作を記録する必要がある場合、複数の操作は、異なるインタフェースにおいてユーザによって実行される操作であり得る。言い換えれば、第４操作に応答して、端末１００によって表示される第２インタフェースは、複数の操作を受信するために使用される複数のインタフェースの一般用語である。本願の本実施形態において、複数の操作を受信するために使用されるインタフェースはそれぞれ、サブインタフェース（例えば第１サブインタフェースおよび第２サブインタフェース）と称される。ユーザによって入力される１または複数の操作を受信するために使用される１または複数のサブインタフェースは第２インタフェースと総称され得る。本願の本実施形態において、１または複数の操作は、異なるサブインタフェース（例えば第１サブインタフェースおよび第２サブインタフェース）においてユーザによって実行されるサブ操作の一般用語であり得る。例えば、第１サブインタフェースにおいてユーザによって実行される操作は、第１サブ操作と称され、第２サブインタフェースにおいてユーザによって実行される操作は、第２サブ操作と称される。

通常、端末１００は最初に、第４操作に応答して第１サブインタフェースを表示し得る。第１サブインタフェースは端末１００のホーム画面および第１プロンプト情報を含む。端末１００のホーム画面は端末１００のホーム画面アイコンを含む。第１プロンプト情報は、記録対象操作に対応するアプリケーションに入るために、ホーム画面アイコンをタップするようにユーザを促すために使用される。例えば、携帯電話３００は、図４ｂに示される「学習開始」ボタン４０８上でユーザによって実行されるタップ操作（すなわち第４操作）に応答して、図４ｃに示される第１サブインタフェース４０９を表示し得る。第１サブインタフェース４０９は、携帯電話３００のホーム画面４１１を含む。ホーム画面４１１は、ホーム画面アイコン、例えば、「Ｅｍａｉｌ」アプリケーションアイコン、「カメラ」アプリケーションアイコン、「設定」アプリケーションアイコン、および「タオバオ」アプリケーションアイコンを含む。第１サブインタフェース４０９は更に、第１プロンプト情報４１０、例えば、「ホーム画面アイコンをタップして、追加したいカスタムコマンドに対応するアプリに入ってください」を含み得る。ページが第１サブインタフェース４０９におけるホーム画面４１１上で左または右へめくられ、携帯電話３００の別のホーム画面を表示し得る。任意選択で、第１サブインタフェース４０９は更に、プロンプト情報４１３、例えば、「ページをめくるにはホーム画面上で左または右にスライドしてください」を含み得る。

次に、端末１００は、第１サブインタフェースにおいて任意のアプリケーションアイコン上でユーザによって実行されるタップ操作（すなわち第１サブ操作、例えば、シングルタップ操作）を受信し得る。端末１００は、任意のアプリケーションアイコン上でユーザによって実行されるタップ操作に応答して第２サブインタフェースを表示し得る。第２サブインタフェースは、アプリケーションホームページ（ユーザによってタップされたアプリケーションアイコンに対応するアプリケーションのホームページ）および第２プロンプト情報を含む。第２プロンプト情報は、テキスト情報に対応する１または複数の操作をアプリケーションホームページ上で入力するようユーザに促すために使用される。端末１００は更に、第２サブインタフェースにおいてユーザによって実行される第２サブ操作を受信し、１または複数の操作の記録を終了するよう端末１００をトリガするために使用される第２操作を端末１００が受信するまで、第３サブインタフェースを表示し得る。

例えば、ユーザが第１サブインタフェース４０９において「タオバオ」アプリケーションアイコンをタップすることを想定する。携帯電話３００は、第１サブインタフェース４０９において「タオバオ」アプリケーションアイコン上でユーザによって実行されるタップ操作（すなわち第１サブ操作）に応答して、図５ａに示される第２サブインタフェース５０１を表示し得る。第２サブインタフェース５０１は、第２プロンプト情報５０２、および、「タオバオ」ホームページ５０３を含む。例えば、第２プロンプト情報５０２は、「以下のサードパーティアプリケーションのインタフェースにおいて、カスタムコマンドに対応する操作を入力してください」である。図５ｂに示されるように、ユーザは、第２サブインタフェース５０１における検索ボックス５０４に「牛乳」という検索語を入力し得る。携帯電話３００は、検索ボックス５０４における検索ボタン上でユーザによって実行されるタップ操作（例えばシングルタップ操作）に応答して、図５ｃに示される第３サブインタフェース５０６を表示し得る。検索ボックス５０４においてユーザが「牛乳」という検索語を入力する操作、および、検索ボックス５０４における検索ボタン上でユーザによって実行されるタップ操作は、第２サブ操作と称され得る。第３サブインタフェース５０６は、第２プロンプト情報、および、第２サブ操作に対応する表示インタフェース５０７を含む。１または複数の操作は、第１サブインタフェース４０９における「タオバオ」アプリケーションアイコン上でユーザによって実行されるタップ操作、第２サブインタフェース５０１における検索ボックス５０４に「牛乳」という検索語を入力する操作、および、検索ボックス５０４における検索ボタン上でユーザによって実行されるタップ操作を含み得る。

端末１００は、サブインタフェース（例えば、第１サブインタフェースおよび第２サブインタフェース）上でユーザによって実行される操作に応答して、１または複数の操作に対応する操作情報を取得し得ることを理解されたい。操作情報は、第１アプリケーション識別子、第１インタフェース識別子、第１検索語、および、１または複数の操作に対応する操作指示情報を含む。操作指示情報は、対応するインタフェースにおいてユーザによって実行される操作を示すために使用される。

例えば、端末１００は、第１サブインタフェース４０９における「タオバオ」アプリケーション上でユーザによって実行されるタップ操作に応答して、「タオバオ」アプリケーションアイコンのアプリケーション識別子、および、「タオバオ」ホームページ５０３のインタフェース識別子を取得し得る。端末１００は、第２サブインタフェース５０１における検索ボックス５０４においてユーザが「牛乳」という検索語を入力する操作に応答して、ユーザが「タオバオ」ホームページ５０３上の検索ボックス５０４に検索語を入力すること、および、「牛乳」という検索語を示すために使用される操作指示情報ａを取得し得る。端末１００は、検索ボックス５０４における検索ボタン上でユーザによって実行されるタップ操作に応答して、検索ボックス５０４における検索ボタンをユーザがタップすることを示すために使用される操作指示情報ｂ、および、図５ｃに示される表示インタフェース５０７のインタフェース識別子を取得し得る。

本願の本実施形態におけるアプリケーション識別子は、アプリケーションの名称であり得る。例えば、「タオバオ」アプリケーションのアプリケーション識別子は「タオバオ」であり得る。本願の本実施形態におけるインタフェース識別子（例えば第１インタフェース識別子）は、アプリケーションにおけるインタフェースの名称であり得る。インタフェースの名称は、インタフェースのアドレスリンクではなく、ユーザによるアプリケーションにおけるインタフェースの名称であり得る。例えば、本願の本実施形態において、図１２ｃは、鉄道乗車券を予約するために使用される、「旅行」アプリケーションであるインタフェース１２０４を示す。本願の本実施形態において、鉄道乗車券を予約するために使用されるインタフェース１２０４のインタフェース識別子は、「鉄道乗車券」として決定され得る。

端末１００は、インタフェース識別子に基づいて、対応するインタフェースを表示し得る。具体的には、端末１００は、各アプリケーションにおける各インタフェースのインタフェース識別子と、対応するインタフェースのアドレスリンクとの間の対応関係を格納し得る。端末は、インタフェース識別子に基づいてインタフェース識別子に対応するアドレスリンクを検索し、次に、見つかったアドレスリンクに基づいて、対応するインタフェースを表示し得る。

サブインタフェース（例えば第１サブインタフェースおよび第２サブインタフェース）は各々、記録対象操作、例えば終了ボタンの記録を終了するよう端末１００をトリガするために使用されるボタンを含む。第２操作は、終了ボタン上でユーザによって実行されるタップ操作（例えばシングルタップ操作、ダブルタップ操作、またはタッチアンドホールド操作）であり得る。端末１００は、任意のサブインタフェースにおける終了ボタン上でユーザによって実行されるタップ操作に応答して、１または複数の操作に対応する操作情報を記録し得る。

例えば、図４ｃに示される第１サブインタフェース４０９は、終了ボタン４１２を含む。図５ａに示される第２サブインタフェースは終了ボタン５０５を含む。図５ｂに示される第３サブインタフェースは終了ボタン５０５を含む。図５ｃに示される第４サブインタフェースは終了ボタン５０５を含む。例えば、携帯電話３００は、図５ｃに示される第４サブインタフェース５０７における終了ボタン５０５に対してユーザによって実行されるタップ操作に応答して、１または複数の操作に対応する操作情報を記録し得る。

代替的に、第２操作は、任意のサブインタフェースにおいてユーザによって入力される第３事前設定ジェスチャであり得る。例えば、第３事前設定ジェスチャは、Ｓ字ジェスチャ、上スライドジェスチャ、または下スライドジェスチャなどのいずれか１つであり得る。端末１００は、任意のサブインタフェースにおいてユーザによって入力された第３事前設定ジェスチャに応答して、１または複数の操作に対応する操作情報を記録し得る。

Ｓ２０４：端末１００は、第２操作に応答して、第３インタフェースを表示する。第３インタフェースは、少なくとも２つのテキスト情報を含み、少なくとも２つのテキスト情報は、接続語を使用することによって、事前設定された位置関係に基づいて、第１アプリケーション識別子および／または第１インタフェース識別子と、第１検索語とを接続することによって形成されるステートメントである。

異なる接続語は異なるユーザステートメントテンプレートに対応する。少なくとも２つのテキスト情報は、ユーザステートメントテンプレートにおける第１充填項目において、第１アプリケーション識別子および／または第１インタフェース識別子を充填し、ユーザステートメントテンプレートにおける第２充填項目において、第１検索語を充填することによって取得される。端末１００は、複数のユーザステートメントテンプレートを格納する。具体的には、端末１００は、異なるタイプのアプリケーションについて複数のユーザステートメントテンプレートを別々に構成し得、その結果、端末１００は、第２操作に応答して、第１アプリケーション識別子によって示されるアプリケーションに対応するユーザステートメントテンプレートにおいて操作情報を充填して、少なくとも２つのテキスト情報を取得できる。

複数のユーザステートメントテンプレートは、ユーザが異なるタイプのアプリケーションを使用するときのステートメント習慣についての統計を収集することによって決定される。本願の本実施形態におけるアプリケーションは、ショッピングアプリケーション、旅行アプリケーション、ビデオアプリケーションなどを含み得る。例えば、ショッピングアプリケーションは、「タオバオ」アプリケーション、「Ｊｉｎｇｄｏｎｇ」アプリケーションなどを含み得る。旅行アプリケーションは、「Ｃｔｒｉｐ」アプリケーションおよび「Ｑｕｎａｒ」アプリケーションを含み得る。ビデオアプリケーションは、「ｉＱＩＹＩ」アプリケーション、「Ｙｏｕｋｕ」アプリケーションなどを含み得る。

ショッピングアプリケーション「タオバオ」は例として使用される。「タオバオ」を使用して物（例えば牛乳）を購入するとき、ユーザは通常、「タオバオで牛乳を購入」、「タオバオを通じて牛乳を購入」、「タオバオで牛乳を検索」などと話す。したがって、ショッピングアプリケーションの場合、「（アプリケーション識別子）を通じて［検索語］を購入」、「（アプリケーション識別子）で［検索語］を購入」、「（アプリケーション識別子）で［検索語］を検索」、「（アプリケーション識別子）の（インタフェース識別子）で［検索語］を検索」などの複数のユーザステートメントテンプレートが端末１００において構成され得る。ユーザステートメントテンプレート「（アプリケーション識別子）を通じて［検索語］を購入」の接続語は、「...を通じて...を購入」である。ユーザステートメントテンプレート「（アプリケーション識別子）で［検索語］を購入」の接続語は、「...で...を購入」である。ユーザステートメントテンプレート「（アプリケーション識別子）で［検索語］を検索」の接続語は「...で...を検索」である。

第１テキスト情報における少なくとも１つの第１部分は、第１アプリケーション識別子および／または第１インタフェース識別子を含むだけでなく、第１テキスト情報における接続語も含む。例えば、第１テキスト情報「タオバオを通じて牛乳を購入」は、第１アプリケーション識別子「タオバオ」および接続語「購入」の両方を含む。

旅行アプリケーション「Ｃｔｒｉｐ」は、例として使用される。「Ｃｔｒｉｐ」を使用して鉄道乗車券を予約するとき、ユーザは通常、「Ａ地点からＢ地点までの鉄道乗車券をＣｔｒｉｐで予約」、「Ａ地点からＢ地点までの鉄道乗車券を購入」、「Ａ地点からＢ地点まで鉄道乗車券」などと話す。この場合、旅行アプリケーションについては、「（アプリケーション識別子）を通じて［検索語１］から［検索語２］まで（インタフェース識別子）を購入」、「［検索語１］から［検索語２］までの（インタフェース識別子）を購入」、「［検索語１］から［検索語２］までの（インタフェース識別子）」、「［検索語２］までの（インタフェース識別子）」などの複数のユーザステートメントテンプレートが端末１００において構成され得る。ユーザステートメントテンプレート「（アプリケーション識別子）を通じて［検索語１］から［検索語２］までの（インタフェース識別子）を購入する」の接続語は、「...を通じて...から...まで...を購入」である。

本願の本実施形態におけるユーザステートメントテンプレートは、第１充填項目および第２充填項目を含み得る。第１充填項目は、端末１００によって取得されるアプリケーション識別子および／またはインタフェース識別子を充填するために使用される。第２充填項目は、端末１００によって取得される検索語を充填するために使用される。第１充填項目は、第１テキスト情報における少なくとも１つの第１部分に対応し、第２充填項目は、第１テキスト情報における第２部分に対応する。上述のユーザステートメントテンプレートにおいて、（）は第１充填項目であり、［］は第２充填項目である。第１充填項目（）は、端末１００によって取得されるアプリケーション識別子および／またはインタフェース識別子を充填するために使用される。第２充填項目［］は、端末１００によって取得される検索語を充填するために使用される。

例えば、操作情報は、アプリケーション識別子「タオバオ」、インタフェース識別子「タオバオのホームページ」、および検索語「牛乳」を含むと想定する。端末１００は、ショッピングアプリケーションのユーザステートメントテンプレートにおいて操作情報を充填し、テキスト情報「（タオバオ）を通じて［牛乳］を購入」、「（タオバオ）で［牛乳］を購入」、「（タオバオ）で［牛乳］を検索」、「（タオバオ）（ホームページ）で［牛乳］を検索」などを取得する。

操作情報は、アプリケーション識別子「旅行」、インタフェース識別子「鉄道乗車券」、検索語１「西安」および検索語２「深セン」を含むと想定する。端末１００は、旅行アプリケーションのユーザステートメントテンプレートに操作情報を充填し、テキスト情報「［旅行］を通じて［西安］から［深セン］までの（鉄道乗車券）を購入」、「［西安］から「深セン」までの（鉄道乗車券）を購入」、「［西安］から［深セン］までの（鉄道乗車券）」などを取得する。

例えば、携帯電話３００は、図５ｃに示される終了ボタン５０５上でユーザによって実行されるタップ操作に応答して、図６ａに示される第３インタフェース６０１を表示し得る。第３インタフェース６０１は、複数のテキスト情報、例えば、「（タオバオ）を通じて［牛乳］を購入」６０２、「（タオバオ）で［牛乳］を購入」、「（タオバオ）で［牛乳］を検索」、および、「（タオバオ）（ホームページ）で［牛乳］を検索」を含む。

Ｓ２０４の後、端末１００は、第３インタフェースにおいてユーザによって入力された第３操作に基づいて、操作情報に対応する第１テキスト情報を決定し得る。具体的には、Ｓ２０４の後に、本願の本実施形態における方法は更に、Ｓ２０５およびＳ２０６を含み得る。

Ｓ２０５：端末１００は、第３インタフェースにおいて少なくとも２つのテキスト情報における第１テキスト情報に対してユーザによって実行される第３操作を受信する。

第３操作は、少なくとも２つのテキスト情報から第１テキスト情報を選択するために使用される。端末１００は、少なくとも２つのテキスト情報における１または複数のテキスト情報に対してユーザによって実行される選択操作、すなわち、第３操作を受信し得る。例えば、図６ａに示されるように、携帯電話３００は、図６ａに示される「（タオバオ）を通じて［牛乳］を購入」６０２に対してユーザによって実行される選択操作を受信し得る。

Ｓ２０６：端末１００は、第３操作に応答して、第１テキスト情報を、操作情報に対応するテキスト情報として決定する。

第１テキスト情報は、第１ユーザステートメントテンプレートへの充填を通じて生成される。具体的には、第１テキスト情報は、第１アプリケーション識別子および／または第１インタフェース識別子を第１ユーザステートメントテンプレートにおける第１充填項目に充填し、第１検索語を第１ユーザステートメントテンプレートにおける第２充填項目に充填することによって生成される。

例えば、図６ａに示される第３インタフェース６０１において、ユーザはコマンドオプション「（タオバオ）を通じて［牛乳］を購入」６０２を選択すると想定する。携帯電話３００は、図６ａに示される第３インタフェース６０１における「ＯＫ」ボタンに対してユーザによって実行されるタップ操作に応答して、「（タオバオ）を通じて［牛乳］を購入」は、上述の操作情報に対応するテキストであると決定し得る。その後、テキストが第１テキスト情報に一致する音声コマンドを端末１００が受信した場合、端末１００は、操作情報に基づいて、対応する操作を自動的に実行し得る。

第１テキスト情報を生成した後に、端末１００は、第１テキスト情報を格納し得る。携帯電話３００は例として使用される。携帯電話３００が第１テキスト情報を格納した後に、図７ａに示されるように、「カスタムコマンド３」が、図４ａに示される「カスタム音声制御」インタフェース４０１と比較して携帯電話３００によって表示される「カスタム音声制御」インタフェース７０１に追加される。

Ｓ２０７：端末１００は第１音声コマンドを受信する。

例えば、端末１００は、図３ａ、図３ｂ、図３ｃ、および図３ｄに示される携帯電話３００である。携帯電話１００は、図３ｂに示される、音声アシスタントの音声制御インタフェース３０３を表示し得る。携帯電話３００は、「記録」ボタン３０４上でユーザによって実行されるタッチアンドホールド操作に応答して、ユーザによって入力される第１音声コマンドを受信し得る。

Ｓ２０８：第１音声コマンドのテキストが第１テキスト情報に一致するとき、端末１００は、操作情報に基づいて、対応する操作を実行する。

第１音声コマンドのテキストが第１テキスト情報に一致することは、第１音声コマンドに対応するテキストにおける少なくとも１つの第３部分が少なくとも１つの第１部分と同一であり、第１音声コマンドにおける少なくとも１つの第３部分と第４部分との間の位置関係が、第１テキスト情報における少なくとも１つの第１部分と第２部分との間の位置関係と同一であることを含む。

上述の例に関連して、第１テキスト情報は、「（タオバオ）を通じて［牛乳］を購入」であり、第１アプリケーション識別子は「タオバオ」であり、「第１検索語」は「牛乳」であると想定する。具体的には、第１テキスト情報における少なくとも１つの第１部分は「タオバオ」であり、第１テキスト情報における第２部分は「牛乳」である。第１音声コマンドが「タオバオを通じてウインドブレーカを購入」である場合、端末１００は、第１音声コマンドにおける少なくとも１つの第３部分が「タオバオ」であり、第１音声コマンドにおける第４部分が「ウインドブレーカ」であると決定し得る。第１テキスト情報における少なくとも１つの第１部分「タオバオ」は、第１音声コマンドにおける少なくとも１つの第３部分「タオバオ」と同一であり、第１音声コマンド「タオバオを通じてウインドブレーカを購入」における少なくとも１つの第３部分「タオバオ」と第４部分「ウインドブレーカ」との間の位置関係は、第１テキスト情報「タオバオを通じて牛乳を購入」における少なくとも１つの第１部分「タオバオ」と第２部分「牛乳」との間の位置関係と同一である。したがって、端末１００は、第１音声コマンド「タオバオを通じてウインドブレーカを購入」が第１テキスト情報「タオバオを通じて牛乳を購入」と一致すると決定し得る。

少なくとも１つの第１部分は、第１アプリケーション識別子および／または第１インタフェース識別子を含み、第２部分は第１検索語を含む。言い換えれば、第１音声コマンドにおける第３部分が第１アプリケーション識別子および／または第１インタフェース識別子であり、第１音声コマンドにおける第４部分と第３部分との間の位置関係が、第１テキスト情報における第１部分と第２部分との間の位置関係と同一であるとき、端末１００は、第１音声コマンドが第１テキスト情報に一致すると決定し得る。

端末１００が操作情報に基づいて、対応する操作を実行する方法は、端末１００が第１アプリケーション識別子、第１インタフェース識別子、操作指示情報、および第４部分（例えば第２検索語）に対応する操作を実行することを含み得る。例えば、上述の例に関連して、携帯電話３００は、図８ａに示される音声制御インタフェース８０１における「記録」ボタン８０２上でユーザによって実行されるタッチアンドホールド操作に応答して、ユーザによって入力される第１音声コマンド、例えば、「タオバオを通じてウインドブレーカを購入」を受信し得る。携帯電話３００は、第１音声コマンド「タオバオを通じてウインドブレーカを購入」が第１テキスト情報「（タオバオ）を通じて［牛乳］を購入」と一致すると決定し得る。したがって、携帯電話３００は、図８ｂから図８ｄに示される操作インタフェースを順次表示し得る。具体的には、携帯電話３００は、アプリケーション識別子「タオバオ」に基づいて、「タオバオアプリケーション」を開始し、図８ｂに示されるタオバオのホームページ８０４を表示し得る。携帯電話３００は、操作指示情報ａおよび検索語「ウインドブレーカ」に基づいて、タオバオのホームページ８０４上の検索ボックスをユーザがタップする操作を模擬し、図８ｂに示されるタオバオのホームページ８０４上に、ユーザの指が検索ボックスをタップするインタフェースを表示し、タオバオのホームページ８０４上の検索ボックスにユーザが検索語を入力する操作を模擬し、タオバオのホームページ８０４上に、ユーザによって入力される、第２操作情報である検索語「ウインドブレーカ」を表示し得る。携帯電話３００は、操作指示情報ｂ（ユーザが検索ボックスにおける検索ボタンをタップすることを示すために使用される指示情報）に基づいて、検索ボックスにおける検索ボタンをユーザがタップすることを模擬し、図８ｃに示される表示インタフェース８０６を表示し得る。その後、携帯電話３００は、図８ｃに示される検索ボックスにおける検索ボタン上でユーザによって実行されるタップ操作に応答して、図８ｄに示される検索結果インタフェース８０８を表示し得る。

図５ａ、図５ｂ、図５ｃ、図６ａ、図６ｂに示されるように、携帯電話３００によって記録される第１テキスト情報は、「タオバオを通じて牛乳を購入」であるが、第１テキスト情報に一致する音声コマンドを受信した後に、携帯電話３００は、端末１００によって記録される、第１テキスト情報に対応する操作情報に基づいて、対応する操作を実行し得る。このように、携帯電話３００の音声アシスタントによって受信される、例えば図８ａに示される「タオバオを通じて」ウインドブレーカを購入」など、「タオバオを通じて牛乳を購入」に一致する音声コマンドがいかなるものでも、携帯電話３００は、ユーザが「タオバオを通じてウインドブレーカを購入」に対応する操作を実行するよう携帯電話３００をトリガすることを模擬し、図８ｂ～図８ｄに対応する操作インタフェースを表示し得る。

本願の本実施形態において、図８ｂに示される指アイコン８０５、および、図８ｃに示される指アイコン８０７の各々は、携帯電話３００がユーザの操作を模擬するときに表示される、ユーザの指を表すために使用される。図８ａに示される指アイコン８０３は、携帯電話３００がユーザの実際の操作を受信するときに表示される、ユーザの指を表すために使用される。図８ｂに示される指アイコン８０５は、図８ａに示される指アイコン８０３と異なる。

任意選択で、第１音声コマンドが第１テキスト情報に一致すると決定した後に、端末１００は、第１音声コマンドに対応する操作結果インタフェースを直接表示し得る。例えば、図８ａに示される音声制御インタフェース８０１においてユーザによって入力される音声コマンド「タオバオを通じてウインドブレーカを購入」を受信した後に、携帯電話３００は、図８ｄに示されるインタフェース８０８を直接表示し得る。

本願の本実施形態において音声制御コマンド生成方法が提供される。端末１００は最初に、１または複数の操作に対応する操作情報を取得し、次に、接続語を使用してステートメントを形成することによって、事前設定された位置関係に基づいて、第１アプリケーション識別子および／または第１インタフェース識別子と、第１検索語とを接続し、複数のテキスト情報を取得し、複数のテキスト情報を含む第３インタフェースを表示し得、その結果、ユーザは、複数のテキスト情報から、ユーザの言語習慣に適合する第１テキスト情報を選択する。第１テキスト情報は、ユーザの言語習慣に適合する、ユーザによって選択されるコマンドである。端末１００が第１音声コマンドを受信した後に、端末１００は、ユーザがテキスト情報に対応する音声コマンドを一字一句違わずに話すときのみ対応する操作を実行するのではなく、第１音声コマンドのテキストが第１テキスト情報に一致するという条件で、操作情報に基づいて対応する操作を実行し得る。本解決手段によれば、カスタム音声制御の柔軟性を改善でき、ユーザエクスペリエンスを改善できる。

更に、端末１００が第１テキスト情報を操作情報に対応するテキスト情報として決定した（すなわちＳ２０６）後に、端末１００が第１音声コマンドを受信する（すなわちＳ２０７）前に、本願の本実施形態における方法はＳ９０１を含み得、その結果、端末１００は、第１音声コマンドを受信した後に、第１音声コマンドが第１テキスト情報に一致する音声コマンドであるとより迅速かつ正確に識別し、次に、操作情報に基づいて対応する操作を実行できる。図９に示されるように、図２に示されるＳ２０６の後に、Ｓ２０７の前に、本願の本実施形態における方法は更にＳ９０１を含み得る。

Ｓ９０１：端末１００は第１テンプレートテキストを生成する。

第１テンプレートテキストは、第１テキスト情報の第２部分を第１検索語のタイプ情報で置換することによって生成される。言い換えれば、第１テキスト情報が第１ユーザステートメントテンプレートにおける充填を通じて生成される場合、第１テンプレートテキストは、第１アプリケーション識別子および／または第１インタフェース識別子を第１ユーザステートメントテンプレートにおける第１充填項目に充填し、第１検索語のタイプ情報を第１ユーザステートメントテンプレートにおける第２充填項目に充填することによって生成される。

端末１００は、第１検索語のタイプ情報を取得し、第１テキスト情報における第１検索語を第１検索語のタイプ情報で置換して、第１テンプレートコマンドを取得し得る。代替的に、端末１００は、第１検索語のタイプ情報を取得し、第１アプリケーション識別子および／または第１インタフェース識別子を第１ユーザステートメントテンプレートの第１充填項目に充填し、第１検索語のタイプ情報を第１ユーザステートメントテンプレートの第２充填項目に充填して、第１テンプレートテキストを取得し得る。

例えば、上述の例に関連して、第１テキスト情報は「（タオバオ）を通じて［牛乳］を購入」であると想定する。携帯電話３００は、第１検索語「牛乳」のタイプ情報が「商品」であると学習し得る。次に、携帯電話３００は、「（タオバオ）を通じて［牛乳］を購入」における［牛乳］を、「商品」と置換し、第１テンプレートテキスト「（タオバオ）を通じて（商品）を購入」を取得し得る。代替的に、第１テキスト情報が「（タオバオ）を通じて［牛乳］を購入」であり、第１ユーザステートメントテンプレートが「（アプリケーション識別子）を通じて［検索語］を購入」であると想定すると、第１検索語が「牛乳」であり、第１アプリケーション識別子が「タオバオ」である。携帯電話３００は、第１検索語「牛乳」のタイプ情報が「商品」であると学習し得る。次に、携帯電話３００は、第１アプリケーション識別子「タオバオ」を第１充填項目（）に充填し、第１検索語「牛乳」を第２充填項目［］に充填し、第１テンプレートテキスト「（タオバオ）を通じて［商品］を購入」を取得し得る。

第１音声コマンドのテキストが第１テキスト情報に一致することは、具体的には、第１音声コマンドのテキストが第１テンプレートテキストに一致することであり得る。図９に示されるように、図２に示されるＳ２０８はＳ９０２を含み得る。

Ｓ９０２：第１音声コマンドのテキストが第１テンプレートテキストに一致するとき、端末１００は、操作情報に基づいて対応する操作を実行し得る。

第１音声コマンドのテキストが第１テンプレートテキストに一致することは、第１音声コマンドに対応するテキストにおける少なくとも１つの第３部分が少なくとも１つの第１部分と同一であり、第１音声コマンドにおける少なくとも１つの第３部分と第４部分との間の位置関係が、第１テキスト情報における少なくとも１つの第１部分と第２部分との間の位置関係と同一であり、第４部分が第１テンプレートテキストにおけるタイプ情報によって示されるタイプの単語であることを含み得る。

上述の例に関連して、第１テンプレートテキストは「タオバオを通じて［商品］を購入」であると想定する。第１音声コマンドが「タオバオを通じてウインドブレーカを購入」である場合、端末１００は、第１音声コマンド「タオバオを通じてウインドブレーカを購入」の少なくとも１つの第３部分「タオバオ」が第１テンプレートテキストにおける少なくとも１つの第１部分「タオバオ」と同一であり、第１音声コマンド「タオバオを通じてウインドブレーカを購入」における少なくとも１つの第３部分「タオバオ」と第４部分「ウインドブレーカ」との間の位置関係が、第１テキスト情報「タオバオを通じて牛乳を購入」における少なくとも１つの第１部分「タオバオ」と第２部分「牛乳」との間の位置関係と同一であり、第４部分「ウインドブレーカ」が、第１テンプレートテキスト「（タオバオ）を通じて［商品］を購入」における「商品」によって示される商品タイプの単語であると決定し得る。したがって、端末１００は、第１音声コマンド「タオバオを通じてウインドブレーカを購入」が第１テキスト情報「タオバオを通じて牛乳を購入」と一致すると決定し得る。

代替的に、第１ユーザステートメントテンプレートが「（アプリケーション識別子）を通じて［検索語］を購入」であり、第１テキスト情報が「（タオバオ）を通じて［牛乳］を購入」であると想定すると、第１アプリケーション識別子は「タオバオ」であり、第１検索語は「牛乳」であり、第１検索語「牛乳」のタイプ情報は「商品」である。端末１００は、第１テンプレートテキスト「タオバオを通じて［商品］を購入」を生成し得る。

第１音声コマンドが「タオバオを通じてウインドブレーカを購入」である場合、端末１００は、第１音声コマンド「タオバオを通じてウインドブレーカを購入」が、第１ユーザステートメントテンプレート「（アプリケーション識別子）を通じて［検索語］を購入」に適合すると決定し得る。第１音声コマンド「タオバオを通じてウインドブレーカを購入」は第１アプリケーション識別子「タオバオ」を含み、第１音声コマンド「タオバオを通じてウインドブレーカを購入」に含まれる第２検索語「ウインドブレーカ」は商品タイプの単語である。したがって、端末１００は、第１音声コマンド「タオバオを通じてウインドブレーカを購入」が第１テンプレートテキスト「タオバオを通じて［商品］を購入」に一致すると決定し得る。

端末１００は、操作情報を取得した後に、操作情報（第１操作情報と称される）を格納し得る。端末１００は更に、第１テンプレートテキストを生成した後に、第１テンプレートテキストと操作情報との間の対応関係を格納し得る。このように、第１音声コマンドが第１テンプレートテキストに一致すると決定した後、端末１００は、第１テンプレートテキストに対応する第１操作情報を発見し得る。第１操作情報は第１アプリケーション識別子、第１インタフェース識別子、第１検索語、および操作指示情報を含み、第１音声コマンドは第２検索語を含む。したがって、端末１００は、第１アプリケーション識別子、第１インタフェース識別子、第２検索語、および操作指示情報を含む第２操作情報を取得し得る。端末１００は、第１アプリケーション識別子、第１インタフェース識別子、操作指示情報、および第２検索語（すなわち第２操作情報）に対応する操作を実行し得る。

例えば、上述の例に関連して、第１テンプレートテキストが「タオバオで［商品］を購入」であり、第１音声コマンドが「タオバオで［ウインドブレーカ］を購入」であると想定すると、第２操作情報は、アプリケーション識別子「タオバオ」、インタフェース識別子「タオバオのホームページ」、および検索語「ウインドブレーカ」を含み得る。携帯電話３００は、図８ａに示される音声制御インタフェース８０１における「記録」ボタン８０２上でユーザによって実行されるタッチアンドホールド操作に応答して、ユーザによって入力された第１音声コマンド、例えば、「タオバオを通じてウインドブレーカを購入」を受信し得る。携帯電話３００は、第１音声コマンド「タオバオを通じてウインドブレーカを購入」が第１テンプレートテキスト「タオバオで［商品］を購入」に一致すると決定し得る。したがって、携帯電話３００は、図８ｂから図８ｄに示される操作インタフェースを順次表示し得る。具体的には、携帯電話３００は、第２操作情報におけるアプリケーション識別子「タオバオ」に基づいて「タオバオ」アプリケーションを開始し、図８ｂに示されるタオバオのホームページ８０４を表示し得る。携帯電話３００は、操作指示情報ａおよび検索語「ウインドブレーカ」に基づいて、タオバオのホームページ８０４上の検索ボックスをユーザがタップする操作を模擬し、図８ｂに示されるタオバオのホームページ８０４上で、ユーザの指が検索ボックスをタップするインタフェース８０４を表示し、タオバオのホームページ８０４上の検索ボックスにユーザが検索語を入力する操作を模擬し、タオバオのホームページ８０４上に、ユーザによって入力される、第２操作情報である検索語「ウインドブレーカ」を表示し得る。携帯電話３００は、操作指示情報ｂ（ユーザが検索ボックスにおける検索ボタンをタップすることを示すために使用される指示情報）に基づいて、検索ボックスにおける検索ボタンをユーザがタップすることを模擬し、図８ｃに示される表示インタフェースを表示し得る。その後、携帯電話３００は、図８ｃに示される検索ボックスにおける検索ボタン上でユーザによって実行されるタップ操作に応答して、図８ｄに示される検索結果インタフェース８０８を表示し得る。

図５ａ、図５ｂ、および図５ｃ、ならびに図６ａ、図６ｂに示されるように、携帯電話３００によって記録される第１テキスト情報は「タオバオを通じて牛乳を購入」であるが、携帯電話３００は、第１テキスト情報の第１テンプレートテキスト「タオバオを通じて商品を購入」を生成し得る。このように、携帯電話３００の音声アシスタントによって受信される、例えば図８ａに示される「タオバオを通じて」ウインドブレーカを購入」など、「タオバオを通じて商品を購入」に一致する音声コマンドがいかなるものでも、携帯電話３００は、ユーザが「タオバオを通じてウインドブレーカを購入」に対応するイベントを実行するよう携帯電話３００をトリガするときに実行される操作を模擬し、図８ｂ～図８ｄに対応する操作インタフェースを表示し得る。

任意選択で、端末１００は、第１音声コマンドが第１テンプレートテキストに一致すると決定した後に、第２操作情報に対応する操作結果インタフェースを直接表示し得る。例えば、図８ａに示される音声制御インタフェース８０１においてユーザによって入力される音声コマンド「タオバオを通じてウインドブレーカを購入」を受信した後に、携帯電話３００は、第２操作情報に基づいて、図８ｄに示されるインタフェース８０８を直接表示し得る。

端末１００は、第１テンプレートテキストを生成した後に、第１テンプレートテキストを格納し得る。携帯電話３００は例として使用される。図７ｂに示されるように、携帯電話３００が第１テンプレートテキストを格納した後に、１つのテキスト情報７０３、例えば、「タオバオを通じて商品（牛乳）を購入」が、図４ａに示される「カスタム音声制御」インタフェース４０１と比較される、携帯電話３００によって表示される「カスタム音声制御」インタフェース７０２に追加される。

任意選択で、端末１００は更に、第１テンプレートテキストを生成した後に、第４インタフェースを表示し得る。第４インタフェースは、対応する操作を実行するよう端末１００をトリガするために、第１テンプレートテキストに一致する第１音声コマンドを、音声アシスタントを通じて送信するようユーザに促すために使用される。

例えば、ユーザが図６ａに示される第３インタフェース６０１においてコマンドオプション「（タオバオ）を通じて［牛乳］を購入」６０２を選択すると想定する。図６ａに示される第３インタフェース６０１における「ＯＫ」ボタン上でユーザによって実行されるタップ操作に応答して、携帯電話３００は、第１テンプレートテキスト「（タオバオ）を通じて［商品］を購入」を生成し、図６ｂに示される第４インタフェース６０３を表示し得る。第４インタフェース６０３は、第３プロンプト情報「あなたの操作に基づき、次回からは音声アシスタントに対して「タオバオを通じて＊＊を購入」と話せます」６０４を含み得る。任意選択で、図６ｂに示されるように、第４インタフェース６０３は更に、第１テンプレートテキスト「タオバオを通じて＊＊を購入」のステートメントインスタンス、例えば、「タオバオを通じてペンを購入」および「タオバオを通じて牛乳を購入」を含み得る。

本願の本実施形態において、端末１００は最初に、１または複数の操作に対応する操作情報を取得し、次に、複数のテキスト情報を含む第３インタフェースを表示し得、その結果、ユーザは、複数のテキスト情報から、ユーザの音声習慣に適合する第１テキスト情報を選択する。複数のテキスト情報は、端末１００に格納されたユーザステートメントテンプレートに操作情報を充填することによって生成される。端末１００は、第１ユーザステートメントテンプレートにおける第１充填項目に第１アプリケーション識別子および／または第１インタフェース識別子を充填し、第１ユーザステートメントテンプレートにおける第２充填項目に第１検索語のタイプ情報を充填し、第１テンプレートテキストを生成し得る。端末１００が、テンプレートテキストに一致する音声コマンドを次回に受信した場合、音声コマンドに対応する操作が端末１００に記録されない場合でも、端末１００は、ユーザが音声コマンドに対応する操作を実行するよう端末１００をトリガすることを模擬し、対応する操作インタフェースを表示し得る。このように、カスタム音声制御の柔軟性を改善でき、ユーザエクスペリエンスを改善できる。

本願の本実施形態において、ここでは「旅行」アプリケーション上でユーザによって実行される１または複数の操作を端末が記録する例を使用して、本願の本実施形態における方法を説明する。

端末１００は、第１インタフェースにおいてユーザによって実行される第４操作に応答して第２インタフェースを表示し得る。第２インタフェースは、１または複数の操作を受信するために使用される複数のインタフェースの一般用語である。通常、端末１００は最初に、第４操作に応答して第１サブインタフェースを表示し得る。例えば、端末１００は携帯電話３００である。携帯電話３００は、図４ｃに示される第１サブインタフェース４０９を表示し得る。

ユーザは第１サブインタフェース４０９における「旅行」アプリケーションアイコンをタップすると想定する。第１サブインタフェース４０９における「旅行」アプリケーションアイコン上でユーザによって実行されるタップ操作（すなわち、第１サブ操作）に応答して、携帯電話３００は、図１０ａに示される第２サブインタフェース１００１を表示し、第１アプリケーション識別子「旅行」を取得し得る。第２サブインタフェース１００１は第２プロンプト情報１００２および「旅行」ホームページ１００３を含む。例えば、第２プロンプト情報１００３は、「旅行」アプリケーションのインタフェースにテキスト情報に対応する１または複数の操作を入力してください」である。携帯電話３００は、第２サブインタフェース１００１における「鉄道乗車券」オプション上でユーザによって実行されるタップ操作を受信し得る。携帯電話３００は、「鉄道乗車券」オプション上でユーザによって実行されるタップ操作に応答して、図１０ｂに示される第３サブインタフェース１００５を表示し得る。第３サブインタフェース１００５は第２プロンプト情報および鉄道乗車券インタフェース１００６を含む。携帯電話３００は、「鉄道乗車券」オプション上でユーザによって実行されるタップ操作に応答して、ユーザが「鉄道乗車券」オプションをタップすることを示すために使用される操作指示情報ｃ、および、鉄道乗車券インタフェース１００６のインタフェース識別子を取得し得る。ユーザは、出発地を修正するために、鉄道乗車券インタフェース１００６における「出発地」オプションをタップし得る。図１０ｂに示されるように、「出発地」オプションに現在表示されている出発地は上海である。ユーザは更に、到着地を修正するために、鉄道乗車券インタフェース１００６における「到着地」オプションをタップし得る。図１０ｂに示されるように、「到着地」オプションに現在表示されている到着地は北京である。例えば、ユーザは到着地を修正する。図１０ｂに示されるように、ユーザは、到着地を深センに修正するために、「到着地」オプションを操作すると想定する。携帯電話３００は、「到着地」オプション上でユーザによって実行される操作に応答して、図１０ｃに示される第４サブインタフェース１００７を表示し得る。第３サブインタフェース１００５は、第２プロンプト情報および鉄道乗車券インタフェース１００６を含む。鉄道乗車券インタフェース１００８における「到着地」オプションに現在表示されている到着地は深センである。携帯電話３００は、「出発地」オプションおよび「到着地」オプション上でユーザによって実行される操作に応答して、ユーザが「出発地」オプションおよび到着地をオプション修正することを示すために使用される操作指示情報ｄ、「出発地」オプションにおいてユーザによって入力される検索語「西安」、および、「到着地」オプションにおいてユーザによって入力される検索語「深セン」を取得し得る。

結論として、携帯電話３００によって取得される操作情報は、「旅行」アプリケーションのアプリケーション識別子、「旅行」アプリケーションのホームページ識別子、操作指示情報ｃ、鉄道乗車券インタフェース１００６のインタフェース識別子、操作指示情報ｄ、「出発地」オプションに入力された検索語「西安」、および、「到着地」オプションに入力された検索語「深セン」を含み得る。

図１０ａ～図１０ｃの各々は終了ボタン１００４を含む。例えば、図１０ｃに示される終了ボタン１００４上でユーザによって実行されるタップ操作（すなわち第２操作）に応答して、携帯電話３００は、１または複数の操作の記録を終了し、第３インタフェースを表示し得る。

旅行アプリケーションについては、「（アプリケーション識別子）において［検索語１］から［検索語２］までの（インタフェース識別子）を購入」、「［検索語１］から［検索語２］までの（インタフェース識別子）を購入」、「［検索語１］から［検索語２］までの（インタフェース識別子）」、「［検索語２］までの（インタフェース識別子）」などの複数のユーザステートメントテンプレートが端末１００において構成され得る。操作情報は、アプリケーション識別子「旅行」、鉄道乗車券インタフェース１００６のインタフェース識別子、「出発地」オプションに入力された検索語「西安」、「到着地」オプションに入力された検索語「深セン」、および、鉄道乗車券インタフェース１００８のインタフェース識別子を含むと想定する。携帯電話３００は、旅行アプリケーションのユーザステートメントテンプレートに操作情報を充填し、テキスト情報「（旅行）で［西安］から［深セン］までの（鉄道乗車券）を購入」、「［西安］から［深セン］までの（鉄道乗車券）を購入」、「［西安］から［深セン］までの（鉄道乗車券）」などを取得する。

例えば、携帯電話３００は、図１０ｃに示される終了ボタン１００４上でユーザによって実行されるタップ操作に応答して、図１１ａに示される第３インタフェース１１０１を表示し得る。第３インタフェース１１０１は、複数のテキスト情報、例えば、「（旅行）で［西安］から［深セン］までの（鉄道乗車券）を購入」、「［西安］から［深セン］までの（鉄道乗車券）を購入」、「［西安］から［深セン］までの（鉄道乗車券）」１１０２、および「［深セン］までの（鉄道乗車券）」１１０３を含む。

端末１００は、第３インタフェースにおける１または複数のテキスト情報に対してユーザによって実行される選択操作を受信し得る。例えば、携帯電話３００は、第３インタフェース１１０１においてテキスト情報「［西安］から［深セン］までの（鉄道乗車券）」１１０２および「［深セン］までの（鉄道乗車券）」１１０３に対してユーザによって実行される選択操作を受信し得る。携帯電話３００は、第３インタフェース１１０１に表示されるテキスト情報「［西安］から［深セン］までの（鉄道乗車券）」１１０２に対してユーザによって実行される選択操作に応答して、第１ユーザステートメントテンプレート「［出発地］から［到着地］への（インタフェース識別子）」を使用することにより、第１テンプレートテキスト「［出発地］から「到着地」までの（鉄道乗車券）」を生成し得る。携帯電話３００は、第３インタフェース１１０１に表示されるテキスト情報「［深セン］への（鉄道乗車券）」１１０３に対してユーザによって実行される選択操作に応答して、第１ユーザステートメントテンプレート「［到着地］への（インタフェース識別子）」を使用することによって、第１テンプレートテキスト「［到着地］への（鉄道乗車券）」を生成し得る。

携帯電話３００は、第１テキスト情報「［西安］から［深セン］までの（鉄道乗車券）」１１０２および「［深セン］までの（鉄道乗車券）」１１０３に対してユーザによって実行される選択操作に応答して、図１１ｃに示される第４インタフェース１１０８を表示し得る。第４インタフェース１１０８は、第３プロンプト情報「あなたの操作に基づき、次回からは、音声アシスタントに対して、［出発地］から［到着地］までの（鉄道乗車券）、および、［到着地］までの（鉄道乗車券）と話せます」を含み得る。任意選択で、図１１ｃに示されるように、第４インタフェース１１０８は更に、第１テンプレートテキスト「［出発地］から［到着地］までの（鉄道乗車券）」のステートメントインスタンス、例えば、「上海から西安までの鉄道乗車券」、および、第１テンプレートテキスト「［到着地］までの（鉄道乗車券）」のステートメントインスタンス、例えば、「西安までの鉄道乗車券」を含み得る。

携帯電話３００は、図１２ａに示される音声制御インタフェース１２０１における「記録」ボタン１２０２に対してユーザによって実行されるタッチアンドホールド操作に応答して、ユーザによって入力される第１音声コマンド、例えば、「上海から西安までの鉄道乗車券」を受信し得る。携帯電話３００は、第１音声コマンド「上海から西安までの鉄道乗車券」が、第１テンプレートテキスト「［出発地］から［到着地］までの（鉄道乗車券）」に一致すると決定し得る。したがって、携帯電話３００は、図１２ｂから図１２ｄに示される操作インタフェースを順次表示し得る。

操作情報（すなわち第１操作情報）は、「旅行」アプリケーションのアプリケーション識別子、「旅行」アプリケーションのホームページ識別子、操作指示情報ｃ、鉄道乗車券インタフェース１００６のインタフェース識別子、操作指示情報ｄ、「出発地」オプションに入力される検索語「西安」、「到着地」オプションに入力される検索語「深セン」を含み、第１音声コマンドは、「上海から西安までの鉄道乗車券」である。したがって、第２操作情報は、「旅行」アプリケーションのアプリケーション識別子、「旅行」アプリケーションのホームページ識別子、操作指示情報ｃ、鉄道乗車券インタフェースのインタフェース識別子、操作指示情報ｄ、「出発地」オプションに入力された検索語「上海」、および、「到着地」オプションに入力された検索語「西安」を含む。

音声制御インタフェース１２０１においてユーザによって入力された第１音声コマンド「上海から西安までの鉄道乗車券」に応答して、携帯電話３００は、第２操作情報におけるアプリケーション識別子「旅行」に基づいて、「旅行」アプリケーションを開始し、「旅行」アプリケーションのホームページ識別子に基づいて「旅行」アプリケーションのホームページを表示し得る。携帯電話３００は、操作指示情報ｃ（ユーザが「旅行」アプリケーションのホームページ上の「鉄道乗車券」オプションをタップすることを示すために使用される操作指示情報）に基づいて、ユーザが「旅行」アプリケーションのホームページ上の「鉄道乗車券」オプションをタップすることを模擬して、図１２ｂに示されるインタフェース１２０３を表示し得る。その後、携帯電話３００は、鉄道乗車券インタフェースのインタフェース識別子に基づいて、鉄道乗車券インタフェースを表示し、操作指示情報ｄ（ユーザが「出発地」オプションおよび「到着地」オプションを修正することを示すために使用される操作指示情報）に基づいて、「出発地」オプションおよび「到着地」オプションを修正するために使用される操作指示情報を模擬し、図１２ｃに示されるインタフェース１２０４を表示し得る。加えて、携帯電話３００は、「出発地」オプションに入力された検索語「上海」および「到着地」オプションに入力された検索語「西安」に基づいて、図１２ｄに示される表示インタフェース１２０５を表示し得る。このように、図１２ａに示される音声制御インタフェース１２０１において、ユーザが音声コマンド「上海から西安までの鉄道乗車券」を携帯電話３００に入力した後に、携帯電話３００は、図１２ｂ～図１２ｄに示される操作インタフェースを自動的に表示し得る。ユーザは、図１２ｄに示されるインタフェース１２０５における「問い合わせ」ボタンをタップするだけで、上海から西安までの鉄道乗車券を問い合わせるように携帯電話３００をトリガできる。

ユーザが同一のオブジェクトについて異なる名前（またはステートメント）を有し得ることを考慮して、端末１００は更に、第４インタフェースを表示する前に、エイリアス入力ボックスを含む第５インタフェースを表示し得る。このように、ユーザは、エイリアス入力ボックスにおいて第１テキスト情報のエイリアスを作成し得る。具体的には、端末１００が第４インタフェースを表示することは、端末１００が第５インタフェースを表示することを含み得る。第５インタフェースはエイリアス入力ボックスを含む。エイリアス入力ボックスは第２テキスト情報を受信するために使用され、第２テキスト情報は第１テキスト情報についてユーザによって作成されるエイリアスである。端末１００は、第５インタフェースにおいてユーザによって実行される第５操作を受信する。第５操作は、テキスト情報の記録を終了するように端末１００をトリガするために使用される。端末１００は、第５操作に応答して第４インタフェースを表示する。

例えば、携帯電話３００は、図１１ａに示される第３インタフェース１１０１における第１テキスト情報「［西安］から［深セン］までの（鉄道乗車券）」１１０２および「［深セン］までの（鉄道乗車券）」１１０３に対してユーザによって実行される選択操作に応答して、図１１ｂに示される第５インタフェース１１０４を表示し得る。第５インタフェース１１０４はエイリアス入力ボックス１１０７を含む。

携帯電話３００は、図１３ａに示される第３インタフェース１３０１における第１テキスト情報「［タオバオ］を通じて（牛乳）を購入」１３０２に対してユーザによって実行される選択操作に応答して、図１３ｂに示される第５インタフェース１３０３を表示し得る。第５インタフェース１３０３はエイリアス入力ボックス１３０５を含む。

任意選択で、第５インタフェースは更に、エイリアス入力ボックスに第２テキスト情報を入力するようユーザに示すために使用されるプロンプト情報を含み得る。例えば、図１３ｂに示される第５インタフェース１３０３は更に、「ヒント：上述のコマンドのエイリアスをエイリアス入力ボックスに入力できます」というプロンプト情報を含む。

任意選択で、第５インタフェースは更に第４プロンプト情報を含み得る。第４プロンプト情報は、ユーザによって選択される第１テキスト情報を示すために使用される。例えば、図１１ｂに示される第５インタフェース１１０４は更に、第４プロンプト情報「［西安］から［深セン］までの（鉄道乗車券）」１１０５および「［深セン］までの（鉄道乗車券）」１１０６を含む。図１３ｂに示される第５インタフェース１３０３は更に、第４プロンプト情報「［タオバオ］を通じて（牛乳）を購入」１３０４を含む。

第５インタフェースにおいてユーザによって実行される第５操作は、第５インタフェースにおける「ＯＫ」ボタン上でユーザによって実行されるタップ操作（）例えばシングルタップ操作であり得る。例えば、第５操作は、図１１ｂに示される「ＯＫ」ボタン上でユーザによって実行されるタップ操作であり得る。代替的に、第５インタフェースにおいてユーザによって実行される第５操作は、第５インタフェースにおいてユーザによって入力される事前設定ジェスチャであり得る。例えば、事前設定ジェスチャは、上スライドジェスチャ、またはＳ字ジェスチャなどであり得る。

一部のユーザは、第５インタフェースにおけるエイリアス入力ボックスに第２テキスト情報を入力しないことを理解されたい。言い換えれば、ユーザは、第１テキスト情報についてエイリアスを作成しない。この場合、端末１００は、第５操作に応答して第４インタフェースを直接表示し得る。例えば、携帯電話３００は、図１１ｂに示される「ＯＫ」ボタン上でユーザによって実行されるタップ操作に応答して、図１１ｃに示される第４インタフェース１１０８を表示し得る。

一部の他のユーザは、第５インタフェースにおけるエイリアス入力ボックスにおいて第２テキスト情報を入力し、第１テキスト情報についてのエイリアスを作成し得る。この場合、端末１００が第５インタフェースを表示した後に、端末１００は、エイリアス入力ボックスにおいてユーザによって入力された第２テキスト情報を受信し、第２テキスト情報をエイリアス入力ボックスに表示し得る。これに対応して、端末１００は、第５インタフェースにおいてユーザによって実行される第５操作に応答して、第２テキスト情報、および、第２テキスト情報と操作情報との対応関係を格納し得る。このように、テキストが第２テキスト情報と同一である第２音声コマンドを受信した後に、端末１００は、第２テキスト情報に対応する操作情報に基づいて、操作情報に対応する操作を実行し得る。

例えば、携帯電話３００は、図１３ｂに示される第５インタフェース１３０３におけるエイリアス入力ボックス１３０５においてユーザによって入力された第２テキスト情報「タオバオで牛乳」を受信し、図１３ｃに示される第５インタフェース１３０６を表示し得る。図１３ｃに示される第５インタフェース１３０６において、第２テキスト情報「タオバオで牛乳」は、エイリアス入力ボックス１３０５に表示される。携帯電話３００は、図１３ｃに示される「ＯＫ」ボタン上でユーザによって実行されるタップ操作に応答して、第２テキスト情報「タオバオで牛乳」１３１０を含む、図１３ｄに示される第４インタフェース１３０８を表示し得る。

第２テキスト情報は「タオバオで牛乳」であり、操作情報は、アプリケーション識別子「タオバオ」、操作指示情報ａ、操作指示情報ｂ、および検索語「牛乳」を含むと想定する。携帯電話３００は、第２テキスト情報「タオバオで牛乳」と、アプリケーション識別子「タオバオ」、操作指示情報ａ、操作指示情報ｂ、および検索語「牛乳」を含む操作情報との間の対応関係を格納し得る。第２テキスト情報と操作情報との間の対応関係は、テキストが第２テキスト情報と同一である第２音声コマンドを端末１００が受信したとき、第２音声コマンドに対応する操作を実行するよう端末１００をトリガするようにユーザを模擬することを端末１００に示し、対応する操作インタフェースを表示するために使用される。

本願の本実施形態において提供される音声制御コマンド生成方法によれば、端末１００は更に、第１テキスト情報についてユーザによって作成されるエイリアス（すなわち第２テキスト情報）のサービスを提供し得る。加えて、第２テキスト情報を受信したとき、端末１００の音声アシスタントはまた、ユーザが端末１００をトリガして第２音声コマンドに対応する操作を実行することを模擬し、対応する操作インタフェースを表示し得る。このように、カスタム音声制御の柔軟性を改善でき、ユーザエクスペリエンスを改善できる。

上述の機能を実装するために、端末などは、機能を実行するための対応するハードウェア構造および／またはソフトウェアモジュールを含むと理解されたい。当業者であれば、本明細書に開示される実施形態、に関連して説明される例、本願の実施形態におけるユニット、アルゴリズムおよび段階は、ハードウェア、または、ハードウェアおよびコンピュータソフトウェアの組み合わせによって実装できることに容易に気付くはずである。ある機能がハードウェアで実行されるのか、またはコンピュータソフトウェアで駆動するハードウェアで実行されるのかは、技術的解決手段の特定の用途及び設計上の制約条件に依存する。当業者は、説明された機能を各特定の用途のために実装すべく、異なる方法を使用してよいが、当該実装が、本願の実施形態の範囲を超えるものとみなされるべきではない。

本願の実施形態において、端末などは、上述の方法の例に基づいて、機能モジュールに分割され得る。例えば、各機能モジュールは、対応する各機能に基づく分割によって取得されてもよく、２つ以上の機能が１つの処理モジュールに統合されてもよい。統合されたモジュールは、ハードウェアの形式で実装され得るか、または、ソフトウェア機能モジュールの形式で実装され得る。本願の実施形態において、モジュールの分割は例であり、単に論理的な機能分割であり、実際の実装においては他の分割もあり得ることに留意すべきである。

各機能モジュールが対応する各機能に基づく分割を通じて取得されるとき、図１４は、上述の実施形態における端末の考えられる概略構造図である。端末１４００は、表示ユニット１４０１、入力ユニット１４０２、記録ユニット１４０３、決定ユニット１４０４、および実行ユニット１４０５を含む。

表示ユニット１４０１は、「第１操作に応答してプロンプト情報を表示する」操作、上記の方法の実施形態におけるＳ２０１、Ｓ２０２、およびＳ２０４の実行において端末１４００をサポートするよう構成され、および／または、本明細書において説明される技術の別のプロセスを実行するよう構成される。

入力ユニット１４０２は、上記の方法の実施形態における、「ユーザによって入力された第１操作を受信する」操作、「ユーザによって入力された第２操作を受信する」操作、「第１インタフェースにおいてユーザによって入力された第４操作を受信する」操作、Ｓ２０５、Ｓ２０７、「ユーザによって入力された第５操作を受信する」操作、および、「エイリアス入力ボックスにおいてユーザによって入力された第２テキスト情報を受信する」操作の実行において端末１４００をサポートするよう構成され、および／または、本明細書において説明される技術の別のプロセスを実行するよう構成される。記録ユニット１４０３は、上記の方法の実施形態におけるＳ２０３の実行において端末１４００をサポートするよう構成され、および／または、本明細書において説明される技術の別のプロセスを実行するよう構成される。決定ユニット１４０４は、上記の方法の実施形態におけるＳ２０６の実行において端末１４００をサポートするよう構成される、および／または、本明細書において説明される技術の別のプロセスを実行するよう構成される。実行ユニット１４０５は、上記の方法の実施形態におけるＳ２０８およびＳ９０２の実行において端末１４００をサポートするよう構成され、および／または、本明細書において説明される技術の別のプロセスを実行するよう構成される。

端末１４００は更に、生成ユニットおよびストレージユニットを含み得る。生成ユニットは、上記の方法の実施形態におけるＳ９０１の実行において端末１４００をサポートするよう構成され、および／または、本明細書において説明される技術の別のプロセスを実行するよう構成される。

ストレージユニットは、操作情報、第１テキスト情報、第２テキスト情報、第１テンプレートテキスト、第２テキスト情報と操作情報との間の対応関係などを格納するよう構成される。

上記の方法の実施形態における段階の全部の関連内容は、対応する機能モジュールの機能説明において引用され得る。詳細は、再度ここで説明しない。

当然、端末１４００は、上で列挙されたユニットおよびモジュールを含むが、それらに限定されない。例えば端末１４００は受信ユニットおよび送信ユニットを更に含み得る。受信ユニットは、別の端末によって送信されたデータまたは命令を受信するよう構成される。送信ユニットは、別の端末へデータまたは命令を送信するよう構成される。加えて、具体的には機能ユニットによって実装できる機能は、上述の例における方法の段階に対応する機能を含むが、それらに限定されない。端末１４００の他のユニットの詳細な説明については、ユニットに対応する方法の段階の詳細な説明を参照されたい。本願の本実施形態において、詳細はここで再び説明しない。

統合ユニットが使用されるとき、図１５は、上述の実施形態における端末の考えられる概略構造図である。端末１５００は、処理モジュール１５０１、ストレージモジュール１５０２、および表示モジュール１５０３を含む。処理モジュール１５０１は、端末１５００の動作を制御および管理するよう構成される。表示モジュール１５０３は、処理モジュール１５０１によって生成される画像を表示するよう構成される。ストレージモジュール１５０２は、端末のプログラムコードおよびデータを格納するよう構成される。例えば、ストレージモジュール１５０２は、操作情報、第１テキスト情報、第２テキスト情報、第１テンプレートテキスト、第２テキスト情報と操作情報との間の対応関係などを格納する。任意選択で、端末１５００は更に、別のネットワークエンティティとの通信において端末をサポートするよう構成される通信モジュールを含み得る。端末１５００に含まれるユニットの詳細な説明については、上記の方法の実施形態における説明を参照されたい。詳細は、再度ここで説明しない。

処理モジュール１５０１は、プロセッサまたはコントローラであり得、例えば、中央処理装置（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ，ＣＰＵ）、汎用プロセッサ、デジタル信号プロセッサ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ，ＤＳＰ）、特定用途向け集積回路（Ａｐｐｌｉｃａｔｉｏｎ－ＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ，ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ，ＦＰＧＡ）、別のプログラマブル論理デバイス、トランジスタ論理デバイス、ハードウェアコンポーネント、またはそれらの任意の組み合わせであり得る。プロセッサは、本願に開示される内容に関連して説明される様々な例の論理ブロック、モジュール、回路を実装または実行し得る。プロセッサは代替的に、コンピューティング機能を実装するプロセッサの組み合わせ、例えば、１または複数のマイクロプロセッサの組み合わせ、または、ＤＳＰおよびマイクロプロセッサの組み合わせであり得る。通信モジュールは、送受信機、送受信機回路、通信インタフェースなどであり得る。ストレージモジュール１５０２はメモリであり得る。

処理モジュール１５０１がプロセッサ（例えば図１に示されるプロセッサ１１０）であるとき、通信モジュールは、Ｗｉ－Ｆｉ（登録商標）モジュールおよびＢｌｕｅｔｏｏｔｈ（登録商標）モジュール（例えば、図１に示される通信モジュール１６０）を含む。Ｗｉ－ＦｉモジュールおよびＢｌｕｅｔｏｏｔｈ（登録商標）モジュールなどの通信モジュールは、通信インタフェースと総称され得る。ストレージモジュール１５０２は、メモリ（例えば、図１に示される内部メモリ１２１）である。表示モジュール１５０３がタッチスクリーン（図１に示される表示画面１９４を含む）であるとき、本願の本実施形態において提供される端末は、図１に示される端末１００であり得る。プロセッサ、通信インタフェース、タッチスクリーン、およびメモリは、バスを使用することによって、共に連結され得る。

本願の実施形態は更に、コンピュータ記憶媒体を提供する。コンピュータ記憶媒体はコンピュータプログラムコードを格納し、プロセッサがコンピュータプログラムコードを実行するとき、端末は、図２または図９における関連する方法の段階を実行して、上述の実施形態における方法を実装する。

本願の実施形態は更に、コンピュータプログラム製品を提供する。コンピュータプログラム製品がコンピュータ上で動作するとき、コンピュータは、図２または図９における関連する方法の段階を実行して、上述の実施形態における方法を実装することが可能となる。

本願の実施形態において提供される端末１４００、端末１５００、コンピュータ記憶媒体、およびコンピュータプログラム製品の各々は、上で提供される対応する方法を実行するよう構成される。したがって、端末１４００、端末１５００、コンピュータ記憶媒体、およびコンピュータプログラム製品によって達成できる有益な効果については、上で提供される対応する方法における有益な効果を参照されたい。詳細は、再度ここで説明しない。

上述の実装の説明に基づいて、当業者であれば、便利で簡潔な説明を目的として、上述の機能モジュールへの分割は単に説明のための例として使用されることを明確に理解し得る。実際の用途において、上述の機能は、要件に基づく実装のために、異なるモジュールに割り当てることができる。すなわち、上で説明された機能の全部または一部を実装するために、機器の内部構造は、異なる機能モジュールに分割される。

本願において提供される複数の実施形態において、開示された機器および方法は別の方式で実装され得ることが理解されるべきである。例えば、記載される機器の実施形態は単に例である。例えば、モジュールまたはユニットへの分割は単に、論理的な機能分割であり、実際の実装において、他の分割であり得る。例えば、複数のユニットまたはコンポーネントは、組み合わされ得る、または、別の機器に統合され得る、または、いくつかの特徴が無視され得る、もしくは実行されないことがあり得る。加えて、表示または説明された相互結合または直接結合もしくは通信接続は、いくつかのインタフェースを通じて実装され得る。機器またはユニットの間の間接的な結合または通信接続は、電子的形式、機械的形式、または別の形式で実装され得る。

別個の部分として説明されるユニットは、物理的に別個でも、そうでなくてもよく、ユニットとして表示される部分は、１または複数の物理的ユニットであり得、１つの場所に配置され得る、または、異なる場所に分布し得る。実施形態の解決手段の目的を達成するために、ユニットの一部または全部は、実際の要件に基づいて選択され得る。

加えて、本願の実施形態における機能ユニットは、１つの処理ユニットに統合され得る、または、ユニットの各々は物理的に単独で存在し得る、または、２つ以上のユニットが１つのユニットに統合され得る。統合ユニットは、ハードウェアの形式で実装され得る、または、ソフトウェア機能ユニットの形式で実装され得る。

統合ユニットがソフトウェア機能ユニットの形式で実装され、独立の製品として販売または使用されるとき、統合ユニットは、可読記憶媒体に格納され得る。そのような理解に基づき、本願の実施形態の技術的解決手段は基本的に、または、従来技術に貢献する部分、または、技術的解決手段の全部もしくは一部は、ソフトウェア製品の形式で実装され得る。ソフトウェア製品は記憶媒体に格納され、本願の実施形態における方法の段階の全部または一部を実行するようにデバイス（シングルチップマイクロコンピュータ、またはチップなどであり得る）またはプロセッサ（ｐｒｏｃｅｓｓｏｒ）に命令するための複数の命令を含む。記憶媒体は、プログラムコードを格納できる任意の媒体、例えば、ＵＳＢフラッシュドライブ、リムーバブルハードディスク、ＲＯＭ、ＲＡＭ、磁気ディスク、または光学ディスクを含む。

上述の説明は単に、本願の特定の実装であり、本願の保護範囲を限定する意図は無い。本願において開示される技術的範囲内の任意の変形または置換は、本願の保護範囲内に含まれるものとする。したがって、本願の保護範囲は、請求項の保護範囲の対象となる。
他の可能な請求項（項目１）音声制御コマンド生成方法であって、
端末が、第１操作に応答して、プロンプト情報を表示する段階であって、上記プロンプト情報は、記録対象操作を入力するようユーザに促すために使用される、段階と、
上記端末が、上記ユーザによって入力される１または複数の操作を受信する段階と、
上記端末が、上記ユーザによって入力される第２操作に応答して、上記１または複数の操作に対応する操作情報を記録する段階と、
上記端末が、上記ユーザによって入力される第３操作に基づいて、上記操作情報に対応する第１テキスト情報を決定する段階と、
上記端末が第１音声コマンドを受信する段階と、
上記第１音声コマンドに対応するテキストが上記第１テキスト情報に一致するとき、上記端末が、上記操作情報に基づいて対応する操作を実行する段階と
を備える音声制御コマンド生成方法。（項目２）上記第１テキスト情報は少なくとも１つの第１部分および第２部分を含み、
上記第１音声コマンドに対応する上記テキストが上記第１テキスト情報に一致することは、
上記第１音声コマンドに対応する上記テキストにおける少なくとも１つの第３部分が、上記少なくとも１つの第１部分と同一であり、上記第１音声コマンドにおける上記少なくとも１つの第３部分とｚ第４部分との間の位置関係が、上記第１テキスト情報における上記少なくとも１つの第１部分と上記第２部分との間の位置関係と同一であることを含む、
項目１に記載の音声制御コマンド生成方法。（項目３）上記操作情報は、第１アプリケーション識別子、第１インタフェース識別子、第１検索語、および操作指示情報を含み、上記第１アプリケーション識別子は、上記１または複数の操作に対応する操作オブジェクトアプリケーションの識別子であり、上記第１インタフェース識別子は、上記１または複数の操作に対応する操作オブジェクトインタフェースの識別子であり、上記操作指示情報は、上記１または複数の操作を通じて上記操作オブジェクトインタフェースにおいて実行される操作を示すために使用され、
上記少なくとも１つの第１部分は、上記第１アプリケーション識別子および／または上記第１インタフェース識別子を含み、上記第２部分は上記第１検索語を含む、
項目２に記載の音声制御コマンド生成方法。（項目４）端末が第１操作に応答してプロンプト情報を表示する上記段階は、
上記端末が、上記第１操作に応答して音声アシスタントの第１インタフェースに上記プロンプト情報を表示する段階を含み、
上記端末が、上記ユーザによって入力される１または複数の操作を受信する段階は、
上記端末が、上記第１インタフェースにおいて上記ユーザによって実行される第４操作に応答して、第２インタフェースを表示する段階であって、上記第２インタフェースは、上記１または複数の操作を入力するために上記ユーザによって使用される、段階と、
上記端末が、上記第２インタフェースにおいて上記ユーザによって入力される上記１または複数の操作を受信する段階と
を含む、項目１から３のいずれか一項に記載の音声制御コマンド生成方法。（項目５）上記端末が、上記ユーザによって入力された第３操作に基づいて、上記操作情報に対応する上記テキスト情報を決定する上記段階の前に、上記方法は更に、
上記端末が、上記第２操作に応答して、第３インタフェースを表示する段階であって、上記第３インタフェースは、少なくとも２つのテキスト情報を含み、上記少なくとも２つのテキスト情報は、接続語を使用することによって、事前設定された位置関係に基づいて、上記第１アプリケーション識別子および／または第１インタフェース識別子と上記第１検索語とを接続することによって形成されるステートメントである、段階を含み、
上記端末が、上記ユーザによって入力される第３操作に基づいて、上記操作情報に対応する上記テキスト情報を決定する上記段階は、
上記端末が、上記第３インタフェースにおける上記少なくとも２つのテキスト情報における上記第１テキスト情報に対して上記ユーザによって実行される上記第３操作を受信する段階であって、上記第３操作は、上記少なくとも２つのテキスト情報から上記第１テキスト情報を選択するために使用される、段階と、
上記端末が、上記第３操作に応答して、上記第１テキスト情報を上記操作情報に対応する上記テキスト情報として決定する段階と
を含む、項目３に記載の音声制御コマンド生成方法。（項目６）上記端末が、上記第３操作に応答して、上記第１テキスト情報を上記操作情報に対応する上記テキスト情報として決定した後に、上記端末が第１音声コマンドを受信する上記段階の前に、上記方法は更に、
上記端末が、第１テンプレートテキストを生成する段階であって、上記第１テンプレートテキストは、上記第１テキスト情報における上記第２部分を上記第１検索語のタイプ情報で置換することによって生成される、段階を含み、
上記第１音声コマンドの上記テキストが上記第１テキスト情報に一致することは、具体的には、上記第１音声コマンドの上記テキストが上記第１テンプレートテキストに一致することであり、
上記第１音声コマンドの上記テキストが上記第１テンプレートテキストに一致することは、上記第１音声コマンドに対応する上記テキストにおける少なくとも１つの上記第３部分が、少なくとも１つの上記第１部分と同一であり、上記第１音声コマンドにおける少なくとも１つの上記第３部分と上記第４部分との間の上記位置関係は、上記第１テキスト情報における少なくとも１つの上記第１部分と上記第２部分との間の上記位置関係と同一であり、上記第４部分は、上記第１テンプレートテキストにおけるタイプ情報によって示されるタイプの単語であることを含む、
項目３または５に記載の音声制御コマンド生成方法。（項目７）上記端末が第１テンプレートテキストを生成する上記段階の後に、上記端末が第１音声コマンドを受信する上記段階の前に、上記方法は更に、
上記端末が第４インタフェースを表示する段階であって、上記第４インタフェースは、対応する操作を実行するよう上記端末をトリガするために、上記第１テンプレートテキストに一致する上記第１音声コマンドを、音声アシスタントを通じて送信するように上記ユーザを促すために使用される、段階を備える、項目６に記載の音声制御コマンド生成方法。（項目８）上記端末が第４インタフェースを表示する上記段階の前に、上記方法は更に、
上記端末が、第５インタフェースを表示する段階であって、上記第５インタフェースはエイリアス入力ボックスを含み、上記エイリアス入力ボックスは、第２テキスト情報を受信するために使用され、上記第２テキスト情報は、上記第１テキスト情報について上記ユーザによって作成されるエイリアスである、段階と、
上記端末が、上記エイリアス入力ボックスにおいて上記ユーザによって入力された上記第２テキスト情報を受信し、上記エイリアス入力ボックスに上記第２テキスト情報を表示する段階と
を備え、
上記端末が第４インタフェースを表示する上記段階は、
上記端末が、上記第５インタフェースにおいて上記ユーザによって実行される第５操作を受信する段階であって、上記第５操作は、テキスト情報の記録を終了するように上記端末をトリガするために使用される、段階と、
上記端末が、上記第５操作に応答して、上記第４インタフェースを表示する段階と
を含み、
上記方法は更に、
上記端末が、上記第５操作に応答して、上記第２テキスト情報、および、上記第２テキスト情報と上記操作情報との間の対応関係を格納する段階を含み、
上記端末によって表示される上記第４インタフェースは更に上記第２テキスト情報を含む、
項目７に記載の音声制御コマンド生成方法。（項目９）上記方法は更に、
上記端末が、上記音声アシスタントを通じて上記ユーザによって入力された第２音声コマンドを受信する段階と、
上記第２音声コマンドのテキストが上記第２テキスト情報と同一であるとき、上記端末が、上記第２テキスト情報と上記操作情報との間の上記対応関係に基づいて、上記操作情報に対応する操作を実行する段階と
を備える、項目８に記載の音声制御コマンド生成方法。（項目１０）端末であって、
上記端末は、１または複数のプロセッサ、メモリ、およびディスプレイを備え、上記メモリおよび上記ディスプレイは、上記プロセッサに連結され、上記ディスプレイは、上記プロセッサによって生成される画像を表示するよう構成され、上記メモリは、音声アシスタントのコンピュータプログラムコードおよび関連情報を格納するよう構成され、上記コンピュータプログラムコードはコンピュータ命令を含み、上記プロセッサが上記コンピュータ命令を実行するとき、
上記プロセッサは、第１操作に応答して、プロンプト情報を表示するよう上記ディスプレイを制御、するよう構成され、上記プロンプト情報は、記録対象操作を入力するようにユーザを促すために使用され、
上記プロセッサは更に、上記ユーザによって入力された１または複数の操作を受信し、上記ユーザによって入力された第２操作に応答して、上記１または複数の操作に対応する操作情報を記録し、上記操作情報を上記メモリに格納するよう構成され、
上記プロセッサは更に、上記ユーザによって入力された第３操作に基づいて、上記操作情報に対応する第１テキスト情報を決定し、第１音声コマンドを受信し、上記第１音声コマンドに対応するテキストが、上記第１テキスト情報に一致するとき、上記操作情報に基づいて、対応する操作を実行するよう構成される、
端末。（項目１１）上記プロセッサによって決定される上記第１テキスト情報は、少なくとも１つの第１部分、および、第２部分を含み、
上記プロセッサは更に、上記第１音声コマンドに対応する上記テキストにおける少なくとも１つの第３部分が、上記少なくとも１つの第１部分と同一であり、上記第１音声コマンドにおける上記少なくとも１つの第３部分と第４部分との間の位置関係が、上記第１テキスト情報における上記少なくとも１つの第１部分と上記第２部分との間の位置関係と同一であるとき、上記第１音声コマンドに対応する上記テキストは上記第１テキスト情報に一致すると決定するよう構成される、
項目１０に記載の端末。（項目１２）上記プロセッサによって記録された上記操作情報は、第１アプリケーション識別子、第１インタフェース識別子、第１検索語および操作指示情報を含み、上記第１アプリケーション識別子は、上記１または複数の操作に対応する操作オブジェクトアプリケーションの識別子であり、上記第１インタフェース識別子は、上記１または複数の操作に対応する操作オブジェクトインタフェースの識別子であり、上記操作指示情報は、上記１または複数の操作を通じて上記操作オブジェクトインタフェースにおいて実行される操作を示すために使用され、
上記少なくとも１つの第１部分は、上記第１アプリケーション識別子および／または上記第１インタフェース識別子を含み、上記第２部分は、上記第１検索語を含む、
項目１１に記載の端末。（項目１３）上記プロセッサが、第１操作に応答して、プロンプト情報を表示するよう上記ディスプレイを制御するよう構成されることは、
上記プロセッサが、上記第１操作に応答して、上記音声アシスタントの第１インタフェースにおいて上記プロンプト情報を表示するよう上記ディスプレイを制御するよう構成されることを含み、
上記プロセッサが、上記ユーザによって入力された１または複数の操作を受信するよう構成されることは、
上記プロセッサが、上記ディスプレイによって表示される上記第１インタフェースにおいて上記ユーザによって実行される第４操作に応答して、上記１または複数の操作を入力するために上記ユーザによって使用される第２インタフェースを表示するよう上記ディスプレイを制御し、上記ディスプレイによって表示される上記第２インタフェースにおいて上記ユーザによって入力される上記１または複数の操作を受信するよう構成されることを含む、
項目１０または１２のいずれか一項に記載の端末。（項目１４）上記プロセッサは更に、上記ユーザによって入力される上記第３操作に基づいて、上記操作情報に対応する上記テキスト情報を決定する前に、上記第２操作に応答して、第３インタフェースを表示するよう上記ディスプレイを制御するよう構成され、上記第３インタフェースは、少なくとも２つのテキスト情報を含み、上記少なくとも２つのテキスト情報は、接続語を使用することによって、事前設定された位置関係に基づいて、上記第１アプリケーション識別子および／または上記第１インタフェース識別子と上記第１検索語とを接続することによって形成されるステートメントであり、
上記プロセッサが、上記ユーザによって入力される第３操作に基づいて、上記操作情報に対応する上記テキスト情報を決定するよう構成されることは、
上記プロセッサが、上記ディスプレイによって表示される上記第３インタフェースにおける上記少なくとも２つのテキスト情報における上記第１テキスト情報に対して上記ユーザによって実行される上記第３操作を受信し、上記第３操作に応答して、上記第１テキスト情報を、上記操作情報に対応する上記テキスト情報として決定するよう構成されることを含み、上記第３操作は、上記少なくとも２つのテキスト情報から第１テキスト情報を選択するために使用される、
項目１２に記載の端末。（項目１５）上記プロセッサは更に、上記第３操作に応答して、上記第１テキスト情報を、上記操作情報に対応するテキスト情報として決定した後に、上記第１音声コマンドを受信する前に、第１テンプレートテキストを生成するよう構成され、上記第１テンプレートテキストは、上記第１テキスト情報における上記第２部分を上記第１検索語のタイプ情報で置換することによって生成され、
上記プロセッサは更に、上記第１音声コマンドの上記テキストが上記第１テンプレートテキストに一致するとき、上記第１音声コマンドの上記テキストが上記第１テキスト情報に一致すると決定するよう構成され、
上記第１音声コマンドの上記テキストが上記第１テンプレートテキストに一致することは、上記第１音声コマンドに対応する上記テキストにおける少なくとも１つの上記第３部分が、少なくとも１つの上記第１部分と同一であり、上記第１音声コマンドにおける少なくとも１つの上記第３部分と上記第４部分との間の上記位置関係が、上記第１テキスト情報における少なくとも１つの上記第１部分と上記第２部分との間の上記位置関係と同一であり、上記第４部分は、上記第１テンプレートテキストのタイプ情報によって示されるタイプの単語であることを含む、
項目１２または１４に記載の端末。（項目１６）上記プロセッサは更に、上記第１テンプレートテキストを生成した後に、上記第１音声コマンドを受信する前に、第４インタフェースを表示するよう上記ディスプレイを制御するよう構成され、上記第４インタフェースは、対応する操作を実行するよう上記端末をトリガするために、上記第１テンプレートテキストに一致する上記第１音声コマンドを、上記音声アシスタントを通じて送信するよう上記ユーザを促すために使用される、項目１５に記載の端末。（項目１７）上記プロセッサは更に、上記第４インタフェースを表示するよう上記ディスプレイを制御する前に、第５インタフェースを表示するよう上記ディスプレイを制御するよう構成され、上記第５インタフェースは、エイリアス入力ボックスを含み、上記エイリアス入力ボックスは、第２テキスト情報を受信するために使用され、上記第２テキスト情報は、上記第１テキスト情報について上記ユーザによって作成されるエイリアスであり、
上記プロセッサが第４インタフェースを表示するよう上記ディスプレイを制御するよう構成されることは、
上記プロセッサが、上記ディスプレイによって表示される上記第５インタフェースにおいて上記ユーザによって実行される第５操作を受信し、上記第５操作に応答して、上記第４インタフェースを表示するよう上記ディスプレイを制御するよう構成されることを含み、上記第５操作は、テキスト情報の記録を終了するよう上記端末をトリガするために使用され、
上記プロセッサは更に、上記第５操作に応答して、上記第２テキスト情報、および、上記第２テキスト情報と上記操作情報との間の対応関係を上記メモリに格納するよう構成され、
上記ディスプレイによって表示される上記第４インタフェースは更に、上記第２テキスト情報を含む、
項目１６に記載の端末。（項目１８）上記プロセッサは更に、上記音声アシスタントを通じて上記ユーザによって入力される第２音声コマンドを受信し、上記第２音声コマンドのテキストが上記第２テキスト情報と同一であるとき、上記第２テキスト情報と上記操作情報との間の上記対応関係に基づいて、上記操作情報に対応する操作を実行するよう構成される、項目１７に記載の端末。（項目１９）コンピュータ命令を含むコンピュータ記憶媒体であって、上記コンピュータ命令が端末上で実行されるとき、上記端末は、項目１から９のいずれか一項に記載の音声制御コマンド生成方法を実行することが可能である、コンピュータ記憶媒体。（項目２０）コンピュータプログラム製品であって、上記コンピュータプログラム製品がコンピュータ上で実行されるとき、上記コンピュータは、項目１から９のいずれか一項に記載の音声制御コマンド生成方法を実行することが可能である、コンピュータプログラム製品。

Claims

音声制御コマンド生成方法であって、
端末が第１操作に応答してプロンプト情報を表示する段階であって、前記プロンプト情報は、記録対象操作を入力するようユーザを促すために使用される、段階と、
前記端末が、前記ユーザによって入力された１または複数の操作を受信する段階と、
前記端末が、前記ユーザによって入力された第２操作に応答して、前記１または複数の操作に対応する操作情報を記録する段階と、
前記端末が、前記ユーザによって入力された第３操作に基づいて、前記操作情報に対応する第１テキスト情報を決定する段階であって、前記第１テキスト情報は第１部分および第２部分を有する、段階と、
前記端末が、第１音声コマンドを受信する段階と、
前記第１音声コマンドに対応するテキストが前記第１テキスト情報に一致するとき、前記端末が、前記操作情報に基づいて、対応する操作を実行する段階と
を備え、前記第１音声コマンドに対応する前記テキストが前記第１テキスト情報に一致することは、
前記第１音声コマンドに対応する前記テキストが、前記第１テキスト情報と同一でなく、前記第１音声コマンドに対応する前記テキストにおける第３部分と第４部分との間の位置関係が、前記第１テキスト情報における前記第１部分と前記第２部分との間の位置関係と同一であり、前記第３部分は、前記第１部分と異なる、または、前記第４部分は前記第２部分と異なることを有する、
音声制御コマンド生成方法。
前記操作情報は、第１アプリケーション識別子、第１インタフェース識別子、第１検索語、および操作指示情報を含み、前記第１アプリケーション識別子は、前記１または複数の操作に対応する操作オブジェクトアプリケーションの識別子であり、前記第１インタフェース識別子は、前記１または複数の操作に対応する操作オブジェクトインタフェースの識別子であり、前記操作指示情報は、前記１または複数の操作を通じて前記操作オブジェクトインタフェースにおいて実行される操作を示すために使用され、
前記第１部分は、前記第１アプリケーション識別子および／または前記第１インタフェース識別子を含み、前記第２部分は前記第１検索語を含む、
請求項１に記載の音声制御コマンド生成方法。
端末が第１操作に応答してプロンプト情報を表示する前記段階は、
前記端末が、前記第１操作に応答して音声アシスタントの第１インタフェースに前記プロンプト情報を表示する段階を有し、
前記端末が、前記ユーザによって入力される１または複数の操作を受信する前記段階は、
前記端末が、前記第１インタフェースにおいて前記ユーザによって実行される第４操作に応答して、第２インタフェースを表示する段階であって、前記第２インタフェースは、前記１または複数の操作を入力するために前記ユーザによって使用される、段階と、
前記端末が、前記第２インタフェースにおいて前記ユーザによって入力される前記１または複数の操作を受信する段階と
を有する、請求項１または２に記載の音声制御コマンド生成方法。
前記端末が、前記ユーザによって入力された第３操作に基づいて、前記操作情報に対応する前記第１テキスト情報を決定する前記段階の前に、前記音声制御コマンド生成方法は更に、
前記端末が、前記第２操作に応答して、第３インタフェースを表示する段階であって、前記第３インタフェースは、少なくとも２つのテキスト情報を有し、前記少なくとも２つのテキスト情報は、接続語を使用することによって、事前設定された位置関係に基づいて、前記第１アプリケーション識別子および／または前記第１インタフェース識別子と前記第１検索語とを接続することによって形成されるステートメントである、段階を備え、
前記端末が、前記ユーザによって入力される第３操作に基づいて、前記操作情報に対応する前記第１テキスト情報を決定する前記段階は、
前記端末が、前記第３インタフェースにおける前記少なくとも２つのテキスト情報における前記第１テキスト情報に対して前記ユーザによって実行される前記第３操作を受信する段階であって、前記第３操作は、前記少なくとも２つのテキスト情報から前記第１テキスト情報を選択するために使用される、段階と、
前記端末が、前記第３操作に応答して、前記第１テキスト情報を前記操作情報に対応する前記テキスト情報として決定する段階と
を有する、請求項２に記載の音声制御コマンド生成方法。
前記端末が、前記ユーザによって入力された第３操作に基づいて、前記操作情報に対応する第１テキスト情報を決定する前記段階の後に、前記端末が第１音声コマンドを受信する前記段階の前に、前記音声制御コマンド生成方法は更に、
前記端末が、第１テンプレートテキストを生成する段階であって、前記第１テンプレートテキストは、前記第１テキスト情報における前記第２部分を前記第１検索語のタイプ情報で置換することによって生成される、段階を備え、
前記第１音声コマンドの前記テキストが前記第１テキスト情報に一致することは、具体的には、前記第１音声コマンドの前記テキストが前記第１テンプレートテキストに一致することであり、
前記第１音声コマンドの前記テキストが前記第１テンプレートテキストに一致することは、前記第１音声コマンドに対応する前記テキストにおける前記第３部分が、前記第１部分と同一であり、前記第１音声コマンドにおける前記第３部分と前記第４部分との間の前記位置関係は、前記第１テキスト情報における前記第１部分と前記第２部分との間の前記位置関係と同一であり、前記第４部分は、前記第１テンプレートテキストにおけるタイプ情報によって示されるタイプの単語であることを有する、
請求項２または４に記載の音声制御コマンド生成方法。
前記端末が第１テンプレートテキストを生成する前記段階の後に、前記端末が第１音声コマンドを受信する前記段階の前に、前記音声制御コマンド生成方法は更に、
前記端末が第４インタフェースを表示する段階であって、前記第４インタフェースは、対応する操作を実行するよう前記端末をトリガするために、前記第１テンプレートテキストに一致する前記第１音声コマンドを、音声アシスタントを通じて送信するように前記ユーザを促すために使用される、段階を備える、請求項５に記載の音声制御コマンド生成方法。
前記端末が第４インタフェースを表示する前記段階の前に、前記音声制御コマンド生成方法は更に、
前記端末が、第５インタフェースを表示する段階であって、前記第５インタフェースはエイリアス入力ボックスを含み、前記エイリアス入力ボックスは、第２テキスト情報を受信するために使用され、前記第２テキスト情報は、前記第１テキスト情報について前記ユーザによって作成されるエイリアスである、段階と、
前記端末が、前記エイリアス入力ボックスにおいて前記ユーザによって入力される前記第２テキスト情報を受信し、前記エイリアス入力ボックスに前記第２テキスト情報を表示する段階と
を備え、
前記端末が第４インタフェースを表示する前記段階は、
前記端末が、前記第５インタフェースにおいて前記ユーザによって実行される第５操作を受信する段階であって、前記第５操作は、テキスト情報の記録を終了するように前記端末をトリガするために使用される、段階と、
前記端末が、前記第５操作に応答して、前記第４インタフェースを表示する段階と
を有し、
前記音声制御コマンド生成方法は更に、
前記端末が、前記第５操作に応答して、前記第２テキスト情報、および、前記第２テキスト情報と前記操作情報との間の対応関係を格納する段階を備え、
前記端末によって表示される前記第４インタフェースは更に前記第２テキスト情報を含む、
請求項６に記載の音声制御コマンド生成方法。
前記音声制御コマンド生成方法は更に、
前記端末が、前記音声アシスタントを通じて前記ユーザによって入力される第２音声コマンドを受信する段階と、
前記第２音声コマンドのテキストが前記第２テキスト情報と同一であるとき、前記端末が、前記第２テキスト情報と前記操作情報との間の前記対応関係に基づいて、前記操作情報に対応する操作を実行する段階と
を備える、請求項７に記載の音声制御コマンド生成方法。
端末であって、
前記端末は、１または複数のプロセッサ、メモリ、およびディスプレイを備え、前記メモリおよび前記ディスプレイは、前記１または複数のプロセッサに連結され、前記ディスプレイは、前記１または複数のプロセッサによって生成される画像を表示するよう構成され、前記メモリは、音声アシスタントのコンピュータプログラムコードおよび関連情報を格納するよう構成され、前記コンピュータプログラムコードはコンピュータ命令を有し、前記１または複数のプロセッサが前記コンピュータ命令を実行するとき、
前記１または複数のプロセッサは、第１操作に応答して、プロンプト情報を表示するよう前記ディスプレイを制御するよう構成され、前記プロンプト情報は、記録対象操作を入力するようにユーザを促すために使用され、
前記１または複数のプロセッサは更に、前記ユーザによって入力された１または複数の操作を受信し、前記ユーザによって入力された第２操作に応答して、前記１または複数の操作に対応する操作情報を記録し、前記操作情報を前記メモリに格納するよう構成され、
前記１または複数のプロセッサは更に、前記ユーザによって入力された第３操作に基づいて、第１部分および第２部分を有し、前記操作情報に対応する第１テキスト情報を決定し、第１音声コマンドを受信し、前記第１音声コマンドに対応するテキストが前記第１テキスト情報に一致するとき、前記操作情報に基づいて、対応する操作を実行するよう構成され、前記第１音声コマンドに対応する前記テキストが前記第１テキスト情報に一致することは、
前記第１音声コマンドに対応する前記テキストが、前記第１テキスト情報と同一でなく、前記第１音声コマンドに対応する前記テキストにおける第３部分と第４部分との間の位置関係が、前記第１テキスト情報における前記第１部分と前記第２部分との間の位置関係と同一であることを有し、前記第３部分は前記第１部分と異なる、または、前記第４部分は、前記第２部分と異なる、
端末。
前記１または複数のプロセッサによって記録された前記操作情報は、第１アプリケーション識別子、第１インタフェース識別子、第１検索語および操作指示情報を含み、前記第１アプリケーション識別子は、前記１または複数の操作に対応する操作オブジェクトアプリケーションの識別子であり、前記第１インタフェース識別子は、前記１または複数の操作に対応する操作オブジェクトインタフェースの識別子であり、前記操作指示情報は、前記１または複数の操作を通じて前記操作オブジェクトインタフェースにおいて実行される操作を示すために使用され、
前記第１部分は、前記第１アプリケーション識別子および／または前記第１インタフェース識別子を含み、前記第２部分は、前記第１検索語を含む、
請求項９に記載の端末。
前記１または複数のプロセッサが、第１操作に応答して、プロンプト情報を表示するよう前記ディスプレイを制御するよう構成されることは、
前記１または複数のプロセッサが、前記第１操作に応答して、前記音声アシスタントの第１インタフェースにおいて前記プロンプト情報を表示するよう前記ディスプレイを制御するよう構成されることを有し、
前記１または複数のプロセッサが、前記ユーザによって入力された１または複数の操作を受信するよう構成されることは、
前記１または複数のプロセッサが、前記ディスプレイによって表示される前記第１インタフェースにおいて前記ユーザによって実行される第４操作に応答して、前記１または複数の操作を入力するために前記ユーザによって使用される第２インタフェースを表示するよう前記ディスプレイを制御し、前記ディスプレイによって表示される前記第２インタフェースにおいて前記ユーザによって入力される前記１または複数の操作を受信するよう構成されることを有する、
請求項９または１０に記載の端末。
前記１または複数のプロセッサは更に、前記ユーザによって入力される前記第３操作に基づいて、前記操作情報に対応する前記第１テキスト情報を決定する前に、前記第２操作に応答して、第３インタフェースを表示するよう前記ディスプレイを制御するよう構成され、前記第３インタフェースは、少なくとも２つのテキスト情報を含み、前記少なくとも２つのテキスト情報は、接続語を使用することによって、事前設定された位置関係に基づいて、前記第１アプリケーション識別子および／または前記第１インタフェース識別子と前記第１検索語とを接続することによって形成されるステートメントであり、
前記１または複数のプロセッサが、前記ユーザによって入力される第３操作に基づいて、前記操作情報に対応する前記第１テキスト情報を決定するよう構成されることは、
前記１または複数のプロセッサが、前記ディスプレイによって表示される前記第３インタフェースにおける前記少なくとも２つのテキスト情報における前記第１テキスト情報に対して前記ユーザによって実行される前記第３操作を受信し、前記第３操作に応答して、前記第１テキスト情報を、前記操作情報に対応する前記テキスト情報として決定するよう構成されることを有し、前記第３操作は、前記少なくとも２つのテキスト情報から前記第１テキスト情報を選択するために使用される、
請求項１０に記載の端末。
前記１または複数のプロセッサは更に、前記ユーザによって入力される前記第３操作に基づいて、前記操作情報に対応する前記第１テキスト情報を決定した後に、前記第１音声コマンドを受信する前に、第１テンプレートテキストを生成するよう構成され、前記第１テンプレートテキストは、前記第１テキスト情報における前記第２部分を前記第１検索語のタイプ情報で置換することによって生成され、
前記１または複数のプロセッサは更に、前記第１音声コマンドの前記テキストが前記第１テンプレートテキストに一致するとき、前記第１音声コマンドの前記テキストが前記第１テキスト情報に一致すると決定するよう構成され、
前記第１音声コマンドの前記テキストが前記第１テンプレートテキストに一致することは、前記第１音声コマンドに対応する前記テキストにおける前記第３部分が、前記第１部分と同一であり、前記第１音声コマンドにおける前記第３部分と前記第４部分との間の前記位置関係が、前記第１テキスト情報における前記第１部分と前記第２部分との間の前記位置関係と同一であり、前記第４部分は、前記第１テンプレートテキストにおけるタイプ情報によって示されるタイプの単語であることを有する、
請求項１０または１２に記載の端末。
前記１または複数のプロセッサは更に、前記第１テンプレートテキストを生成した後に、前記第１音声コマンドを受信する前に、第４インタフェースを表示するよう前記ディスプレイを制御するよう構成され、前記第４インタフェースは、対応する操作を実行するよう前記端末をトリガするために、前記第１テンプレートテキストに一致する前記第１音声コマンドを、前記音声アシスタントを通じて送信するよう前記ユーザを促すために使用される、請求項１３に記載の端末。
前記１または複数のプロセッサは更に、前記第４インタフェースを表示するよう前記ディスプレイを制御する前に、第５インタフェースを表示するよう前記ディスプレイを制御するよう構成され、前記第５インタフェースは、エイリアス入力ボックスを含み、前記エイリアス入力ボックスは、第２テキスト情報を受信するために使用され、前記第２テキスト情報は、前記第１テキスト情報について前記ユーザによって作成されるエイリアスであり、
前記１または複数のプロセッサが第４インタフェースを表示するよう前記ディスプレイを制御するよう構成されることは、
前記１または複数のプロセッサが、前記ディスプレイによって表示される前記第５インタフェースにおいて前記ユーザによって実行される第５操作を受信し、前記第５操作に応答して、前記第４インタフェースを表示するよう前記ディスプレイを制御するよう構成され、前記第５操作は、テキスト情報の記録を終了するよう前記端末をトリガするために使用されることを含み、
前記１または複数のプロセッサは更に、前記第５操作に応答して、前記第２テキスト情報、および、前記第２テキスト情報と前記操作情報との間の対応関係を前記メモリに格納するよう構成され、
前記ディスプレイによって表示される前記第４インタフェースは更に、前記第２テキスト情報を含む、
請求項１４に記載の端末。
前記１または複数のプロセッサは更に、前記音声アシスタントを通じて前記ユーザによって入力される第２音声コマンドを受信し、前記第２音声コマンドのテキストが前記第２テキスト情報と同一であるとき、前記第２テキスト情報と前記操作情報との間の前記対応関係に基づいて、前記操作情報に対応する操作を実行するよう構成される、請求項１５に記載の端末。
コンピュータ命令を備えるコンピュータ記憶媒体であって、前記コンピュータ命令が端末で実行されるとき、前記端末は、請求項１から８のいずれか一項に記載の音声制御コマンド生成方法を実行することが可能である、コンピュータ記憶媒体。
請求項１から８のいずれか一項に記載の音声制御コマンド生成方法をコンピュータに実行させるプログラム。