JP7173670B2 - 音声制御コマンド生成方法および端末 - Google Patents

音声制御コマンド生成方法および端末 Download PDF

Info

Publication number
JP7173670B2
JP7173670B2 JP2021506536A JP2021506536A JP7173670B2 JP 7173670 B2 JP7173670 B2 JP 7173670B2 JP 2021506536 A JP2021506536 A JP 2021506536A JP 2021506536 A JP2021506536 A JP 2021506536A JP 7173670 B2 JP7173670 B2 JP 7173670B2
Authority
JP
Japan
Prior art keywords
information
interface
terminal
text
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021506536A
Other languages
English (en)
Other versions
JP2021532500A (ja
Inventor
シュ、ジュン
Original Assignee
ホアウェイ・テクノロジーズ・カンパニー・リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ホアウェイ・テクノロジーズ・カンパニー・リミテッド filed Critical ホアウェイ・テクノロジーズ・カンパニー・リミテッド
Publication of JP2021532500A publication Critical patent/JP2021532500A/ja
Application granted granted Critical
Publication of JP7173670B2 publication Critical patent/JP7173670B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72448User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/26Devices for calling a subscriber
    • H04M1/27Devices whereby a plurality of signals may be stored simultaneously
    • H04M1/271Devices whereby a plurality of signals may be stored simultaneously controlled by voice recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/193Formal grammars, e.g. finite state automata, context free grammars or word networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means

Description

本願の実施形態は、音声制御技術の分野に関し、特に、音声制御コマンド生成方法および端末に関する。
音声アシスタントは、端末(例えば携帯電話)の重要なアプリケーションである。音声アシスタントは、ユーザとのインテリジェントな会話、即時の質問および回答ベースのインテリジェントなインタラクションを実行し得る。音声アシスタントのカスタム音声制御は、音声アシスタントの開発のトレンドになっている。
音声アシスタントのカスタム音声制御とは、音声アシスタントが、ユーザによって入力されたカスタムコマンド(音声データまたはテキスト情報)を受信し、カスタムコマンドと、ユーザが当該カスタムコマンドを使用することによって端末を制御して実行させたい操作とをバインドし得ることを意味する。このようにして、音声アシスタントが、次回にカスタムコマンドに対応する音声コマンドを受信したとき、端末はカスタムコマンドにバインドされた操作を自動的に実行できる。
いくつかの端末は、音声アシスタントのカスタム音声制御機能を提供できる。しかしながら、カスタムコマンドにバインドできる操作は予め定義される。具体的には、ユーザは、予め定義された操作のみから、カスタムコマンドにバインドされる必要がある操作を選択できる。ユーザがカスタムコマンドを使用することによって端末を制御して実行したい操作が上述の予め定義された操作に含まれない場合、音声アシスタントはカスタム音声制御機能を提供できない。言い換えれば、端末は、ユーザのパーソナライズされたカスタム音声制御を実装できない。
上述の問題を解決するべく、いくつかの他の端末の音声アシスタントは、ユーザによって入力されたカスタムコマンド(例えば、「タオバオで牛乳を購入」)を受信し、端末におけるユーザのカスタムコマンドに対応する操作(例えば、「タオバオ」アプリケーションアイコンをタップして「タオバオ」のホームページの検索ボックスに「牛乳」と入力する)を学習し、カスタムコマンドと、ユーザの当該カスタムコマンドに対応する操作とをバインドし得る。このようにして、音声アシスタントが、次回にカスタムコマンドに対応する音声コマンド(例えば「タオバオで牛乳を購入」)を受信したとき、端末は、カスタムコマンドに対応する操作(例えば、「タオバオ」アプリケーションアイコンをタップして、「タオバオ」のホームページ上の検索ボックスにおいて「牛乳」と入力する)をユーザ実行がすることを模擬するインタフェースを順次表示し得る。最後に、端末は、カスタムコマンドに対応する結果インタフェース、例えば、ユーザが「タオバオ」のホームページ上の「検索ボックス」に「牛乳」と入力した後に取得される検索結果インタフェースを表示し得る。
しかしながら、音声アシスタントは、端末におけるユーザのカスタムコマンドに対応する操作を学習することにより、ユーザのパーソナライズされたカスタム音声制御を実装し得るが、音声アシスタントがカスタムコマンドとユーザの当該カスタムコマンドに対応する操作とをバインドすると、端末は、ユーザが次回に当該カスタムコマンドの対応する音声コマンド(例えば、「タオバオで牛乳を購入」)を一字一句違わずに話すときだけ、カスタムコマンドに対応する操作を実行し得る。音声アシスタントが、カスタムコマンドに対応する音声コマンドに類似した音声コマンドを受信した場合でも、端末は、カスタムコマンドに対応する操作を実行しない。したがって、端末のカスタム音声制御機能の柔軟性が低く、それにより、ユーザエクスペリエンスが影響を受ける。
本願の実施形態は、音声制御コマンド生成方法および端末を提供することにより、カスタム音声制御の柔軟性を改善してユーザエクスペリエンスを改善する。
第1態様によれば、本願の実施形態は音声制御コマンド生成方法を提供する。音声制御コマンド生成方法は、以下を含み得る。端末が、第1操作に応答して、記録対象操作を入力するようにユーザを促すために使用されるプロンプト情報を表示する。端末は、ユーザによって入力された1または複数の操作を受信する。端末は、ユーザによって入力された第2操作に応答して、1または複数の操作に対応する操作情報を記録する。端末は、ユーザによって入力された第3操作に基づいて、操作情報に対応する第1テキスト情報を決定する。端末は第1音声コマンドを受信する。第1音声コマンドに対応するテキストが第1テキスト情報と一致するとき、端末は、操作情報に基づいて対応する操作を実行する。
本願の本実施形態において、端末は最初に、1または複数の操作に対応する操作情報を取得し、次に、ユーザの第3操作に基づいて、操作情報に対応する第1テキスト情報、すなわち、1または複数の操作に対応するテキスト情報を決定し得る。第1テキスト情報は、ユーザによって選択される、ユーザの言語習慣に適合するコマンドである。端末が第1音声コマンドを受信した後に、端末は、ユーザがテキスト情報に対応する音声コマンドを一字一句違わずに話すときのみ対応する操作を実行するのではなく、第1音声コマンドのテキストが第1テキスト情報に一致するという条件で、操作情報に基づいて対応する操作を実行し得る。本解決手段によれば、カスタム音声制御の柔軟性を改善でき、ユーザエクスペリエンスを改善できる。
第1態様に関連して、可能な設計方式において、第1テキスト情報は少なくとも1つの第1部分および第2部分を含む。第1音声コマンドに対応するテキストが第1テキスト情報に一致することは、第1音声コマンドに対応するテキストにおける少なくとも1つの第3部分が少なくとも1つの第1部分と同一であり、第1音声コマンドにおける少なくとも1つの第3部分と第4部分との間の位置関係が、第1テキスト情報における少なくとも1つの第1部分と第2部分との間の位置関係と同一であることを含む。
操作情報は、第1アプリケーション識別子、第1インタフェース識別子、第1検索語および操作指示情報を含む。第1アプリケーション識別子は、1または複数の操作に対応する操作オブジェクトアプリケーションの識別子であり、第1インタフェース識別子は1または複数の操作に対応する操作オブジェクトインタフェースの識別子であり、操作指示情報は、1または複数の操作を通じて操作オブジェクトインタフェースにおいて実行される操作を示すために使用される。
少なくとも1つの第1部分は、第1アプリケーション識別子および/または第1インタフェース識別子を含み、第2部分は第1検索語を含むと理解されたい。言い換えれば、第1音声コマンドにおける第3部分が第1アプリケーション識別子および/または第1インタフェース識別子であり、第1音声コマンドにおける第4部分と第3部分との間の位置関係が、第1テキスト情報における第1部分と第2部分との間の位置関係と同一であるとき、第1音声コマンドは第1テキスト情報に一致する。
第1態様に関連して、別の可能な設計方式において、端末が第1操作に応答してプロンプト情報を表示する方法は、以下を含み得る。端末は第1操作に応答して音声アシスタントの第1インタフェースにおいてプロンプト情報を表示する。第1操作は、端末の「設定」アプリケーションにおける「カスタム音声制御」インタフェースにおける「カスタムコマンドを追加」オプションに対してユーザによって実行されるタップ操作(例えばシングルタップ操作)であり得る。代替的に、第1操作は、音声アシスタントの音声制御インタフェースにおける、ユーザによる事前設定音声コマンドの入力であり得る。例えば、事前設定音声コマンドは「学習開始」であり得る。音声アシスタントの第1インタフェースは、カスタムコマンドを追加するために使用される、音声アシスタントにおける「カスタムコマンドを追加」インタフェースであり得る。
端末がユーザによって入力された1または複数の操作を受信する方法は、以下を含み得る。端末は、第1インタフェースにおいて、ユーザによって実行された第4操作に応答して第2インタフェースを表示する。端末は第2インタフェースにおいてユーザによって入力された1または複数の操作を受信する。第2インタフェースは、1または複数の操作を入力するためにユーザによって使用される。例えば、第4操作は、第1インタフェースにおいてユーザによって入力される第2事前設定ジェスチャ、例えば、レ点ジェスチャ、上スライドジェスチャ、下スライドジェスチャ、または円形ジェスチャなどの任意のジェスチャであり得る。代替的に、第1インタフェースは、記録対象操作を学習するように端末をトリガするために使用される「学習開始」ボタンを含む。第4操作は、第1インタフェースにおける「学習開始」ボタンに対してユーザによって実行されるタップ操作(例えばシングルタップ操作)であり得る。
第1態様に関連して、別の可能な設計方式において、端末がユーザによって入力された第3操作に基づいて、操作情報に対応するテキスト情報を決定する前に、本願の本実施形態における方法は更に、端末が第2操作に応答して第3インタフェースを表示する段階を含む。第3インタフェースは、少なくとも2つのテキスト情報を含み、少なくとも2つのテキスト情報は、接続語を使用することによって、事前設定位置関係に基づいて、第1アプリケーション識別子および/または第1インタフェース識別子と第1検索語とを接続することによって形成されるステートメントである。端末がユーザによって入力される第3操作に基づいて、操作情報に対応するテキスト情報を決定することは、端末が第3インタフェースにおける少なくとも2つのテキスト情報のうちの第1テキスト情報に対してユーザによって実行される第3操作を受信することを含む。端末は、第3操作に応答して、操作情報に対応するテキスト情報として第1テキスト情報を決定する。第3操作は、少なくとも2つのテキスト情報から第1テキスト情報を選択するために使用される。
1または複数の操作に対応する操作情報を取得した後に、端末は、接続語を使用してステートメントを形成することによって、事前設定位置関係に基づいて、第1アプリケーション識別子および/または第1インタフェース識別子と第1検索語とを接続して複数のテキスト情報を取得し、複数のテキスト情報を含む第3インタフェースを表示し、その結果、ユーザは複数のテキスト情報から、ユーザの言語習慣に適合する第1テキスト情報を選択する。第1テキスト情報は、ユーザによって選択される、ユーザの言語習慣に適合するコマンドである。したがって、端末が第1音声コマンドを受信した後に、端末は、ユーザがテキスト情報に対応する音声コマンドを一字一句違わずに話すときのみ対応する操作を実行するのではなく、第1音声コマンドのテキストが第1テキスト情報に一致するという条件で、操作情報に基づいて対応する操作を実行し得る。本解決手段によれば、カスタム音声制御の柔軟性を改善でき、ユーザエクスペリエンスを改善できる。
第1態様に関連して、別の可能な設計方式において、端末が第3操作に応答して第1テキスト情報を操作情報に対応するテキスト情報として決定した後に、端末が第1音声コマンドを受信する前に、本願の本実施形態における方法は更に、以下を含み得る。端末は第1テンプレートテキストを生成し、その結果、第1音声コマンドを受信した後に、端末100は、より迅速かつ正確に、第1音声コマンドが第1テキスト情報に一致する音声コマンドであると識別し、次に、操作情報に基づいて対応する操作を実行する。第1テンプレートテキストは、第1テキスト情報における第2部分を第1検索語のタイプ情報で置換することによって生成される。第1音声コマンドのテキストが第1テキスト情報に一致することは、具体的には、第1音声コマンドのテキストが第1テンプレートテキストに一致することである。第1音声コマンドのテキストが第1テンプレートテキストに一致することは、第1音声コマンドに対応するテキストにおける少なくとも1つの第3部分が少なくとも1つの第1部分と同一であり、第1音声コマンドにおける少なくとも1つの第3部分と第4部分との間の位置関係が、第1テキスト情報における少なくとも1つの第1部分と第2部分との間の位置関係と同一であり、第4部分が第1テンプレートテキストにおけるタイプ情報によって示されるタイプの単語であることを含む。
端末は、第1テキスト情報における第1検索語を、第1検索語のタイプ情報で置換して、第1テンプレートテキストを取得し得る。端末100がテンプレートテキストに一致する音声コマンドを次回に受信した場合、音声コマンドに対応する操作が端末に記録されていない場合でも、端末は、ユーザが端末をトリガして音声コマンドに対応する操作を実行するようことを模擬し、対応する操作インタフェースを表示し得る。このように、カスタム音声制御の柔軟性を改善でき、ユーザエクスペリエンスを改善できる。
第1態様に関連して、別の可能な設計方式において、端末が第1テンプレートテキストを生成した後に、端末が第1音声コマンドを受信する前に、本願の本実施形態における方法は更に以下を含み得る。端末は、対応する操作を実行するよう端末をトリガするための第4インタフェースを表示する。第4インタフェースは、音声アシスタントを通じて、第1テンプレートテキストに一致する第1音声コマンドを送信するようユーザに促すために使用される。任意選択で、第4インタフェースは更に、第1テンプレートテキストのステートメントインスタンスを含み得る。例えば、第1テンプレートテキスト「タオバオを通じて~を購入」のステートメントインスタンスは、「タオバオを通じてペンを購入」および「タオバオを通じて牛乳を購入」を含み得る。第4インタフェースは、対応する操作を実行するよう端末をトリガするために、第1テンプレートテキストに一致する音声コマンドを使用するようユーザを促すために使用され得、その結果、ユーザは、対応する操作を実行するよう端末にトリガするために、音声アシスタントを通じて、第4インタフェースによって示される音声コマンドを送信できる。
第1態様に関連して、別の可能な設計方式において、ユーザが同一のオブジェクトに対して異なる名前(またはステートメント)を有し得ることを考慮して、第4インタフェースを表示する前に、端末は更に、エイリアス入力ボックスを含む第5インタフェースを表示し得る。エイリアス入力ボックスは、第2テキスト情報を受信するために使用される。第2テキスト情報は、第1テキスト情報についてユーザによって作成されるエイリアスである。このように、ユーザは、エイリアス入力ボックスにおいて、第1テキスト情報についてのエイリアスを作成し得る。
任意選択で、第5インタフェースは更に、エイリアス入力ボックスに第2テキスト情報を入力するようユーザに示すために使用されるプロンプト情報を含み得る。例えば、第5インタフェースは更に、「ヒント:上述のコマンドのエイリアスをエイリアス入力ボックスに入力できます」というプロンプト情報を含む。
一部のユーザは、第5インタフェースにおけるエイリアス入力ボックスに第2テキスト情報を入力しない。言い換えれば、当該ユーザは、第1テキスト情報のエイリアスを作成しない。この場合、端末は、第5インタフェースにおいてユーザによって実行される第5操作を受信する。端末は、第5操作に応答して、第4インタフェースを直接表示し得る。
一部の他のユーザは、第1テキスト情報のエイリアスを作成するために、第5インタフェースにおけるエイリアス入力ボックスに第2テキスト情報を入力する。この場合、端末が第5インタフェースを表示した後に、端末は、エイリアス入力ボックスにおいてユーザによって入力された第2テキスト情報を受信し、第2テキスト情報をエイリアス入力ボックスに表示し得る。これに対応して、端末は、第5インタフェースにおいてユーザによって実行される第5操作に応答して、第2テキスト情報、および、第2テキスト情報と操作情報との対応関係を格納し得る。このように、テキストが第2テキスト情報と同一である第2音声コマンドを受信した後に、端末は、第2テキスト情報に対応する操作情報に基づいて、操作情報に対応する操作を実行し得る。任意選択で、端末によって表示される第4インタフェースは更に、第2テキスト情報を含む。
第1態様に関連して、別の可能な設計方式において、端末は更に、音声アシスタントを通じてユーザによって入力された第2音声コマンドを受信し得る。第2音声コマンドのテキストが第2テキスト情報と同一であるとき、端末は、第2テキスト情報と操作情報との間の対応関係に基づいて、操作情報に対応する操作を実行する。
本願の本実施形態において、端末は更に、第1テキスト情報についてユーザによって作成されたエイリアス(すなわち第2テキスト情報)のサービスを提供し得る。加えて、第2テキスト情報を受信したとき、端末の音声アシスタントはまた、ユーザが端末をトリガして第2音声コマンドに対応する操作を実行することを模擬し、対応する操作インタフェースを表示し得る。このように、カスタム音声制御の柔軟性を改善でき、ユーザエクスペリエンスを改善できる。
第2態様によれば、本願の実施形態は端末を提供する。端末は、表示ユニット、入力ユニット、記録ユニット、決定ユニット、および実行ユニットを含む。表示ユニットは、第1操作に応答してプロンプト情報を表示するよう構成され、プロンプト情報は、記録対象操作を入力するようユーザを促すために使用される。入力ユニットは、ユーザによって入力される1または複数の操作を受信し、ユーザによって入力される第2操作を受信するよう構成される。記録ユニットは、ユーザによって入力される第2操作に応答して、1または複数の操作に対応する操作情報を記録するよう構成される。決定ユニットは、ユーザによって入力される第3操作に基づいて、操作情報に対応する第1テキスト情報を決定するよう構成される。入力ユニットは更に、第1音声コマンドを受信するよう構成される。実行ユニットは、入力ユニットによって受信された第1音声コマンドに対応するテキストが、決定ユニットによって決定された第1テキスト情報と一致するとき、端末によって、操作情報に基づいて対応する操作を実行するよう構成される。
第2態様に関連して、可能な設計方式において、第1テキスト情報は少なくとも1つの第1部分および第2部分を含む。第1音声コマンドに対応するテキストが第1テキスト情報に一致することは、第1音声コマンドに対応するテキストにおける少なくとも1つの第3部分が少なくとも1つの第1部分と同一であり、第1音声コマンドにおける少なくとも1つの第3部分と第4部分との間の位置関係が、第1テキスト情報における少なくとも1つの第1部分と第2部分との間の位置関係と同一であることを含む。
第2態様に関連して、別の可能な設計方式において、操作情報は、第1アプリケーション識別子、第1インタフェース識別子、第1検索語、および操作指示情報を含み、第1アプリケーション識別子は、1または複数の操作に対応する操作オブジェクトアプリケーションの識別子であり、第1インタフェース識別子は、1または複数の操作に対応する操作オブジェクトインタフェースの識別子であり、操作指示情報は、1または複数の操作を通じて操作オブジェクトインタフェースにおいて実行される操作を示すために使用される。少なくとも1つの第1部分は、第1アプリケーション識別子および/または第1インタフェース識別子を含み、第2部分は第1検索語を含む。
第2態様に関連して、別の可能な設計方式において、表示ユニットが第1操作に応答してプロンプト情報を表示するよう構成されることは、表示ユニットは、第1操作に応答して音声アシスタントの第1インタフェースにおいてプロンプト情報を表示するよう構成されることを含む。表示ユニットは更に、第2インタフェースを表示するよう構成される。第2インタフェースは、1または複数の操作を入力するためにユーザによって使用される。入力ユニットが、ユーザによって入力される1または複数の操作を受信するよう構成されることは、入力ユニットが、表示ユニットによって表示される第2インタフェースにおいてユーザによって入力される1または複数の操作を受信するよう構成されることを含む。
第2態様に関連して、別の可能な設計方式において、表示ユニットは更に、決定ユニットがユーザによって入力された第3操作に基づいて、操作情報に対応するテキスト情報を決定する前に、端末によって、第2操作に応答して第3インタフェースを表示するよう構成される。第3インタフェースは、少なくとも2つのテキスト情報を含み、少なくとも2つのテキスト情報は、接続語を使用することによって、事前設定位置関係に基づいて、第1アプリケーション識別子および/または第1インタフェース識別子と第1検索語とを接続することによって形成されるステートメントである。入力ユニットは更に、表示ユニットによって表示される第3インタフェースにおいて、少なくとも2つのテキスト情報における第1テキスト情報に対してユーザによって実行される第3操作を受信するよう構成される。第3操作は、少なくとも2つのテキスト情報から第1テキスト情報を選択するために使用される。決定ユニットが、ユーザによって入力された第3操作に基づいて、操作情報に対応するテキスト情報を決定するよう構成されることは、決定ユニットが、入力ユニットによって受信された第3操作に応答して、第1テキスト情報を、操作情報に対応するテキスト情報として決定するよう構成されることを含む。
第2態様に関連して、別の可能な設計方式において、端末は更に、生成ユニットを含み得る。生成ユニットは、決定ユニットが第1テキスト情報を操作情報に対応するテキスト情報として決定した後に、入力ユニットが第1音声コマンドを受信する前に、第1テンプレートテキストを生成するよう構成される。第1テンプレートテキストは、第1テキスト情報における第2部分を第1検索語のタイプ情報で置換することによって生成される。第1音声コマンドのテキストが第1テキスト情報に一致することは、具体的には、第1音声コマンドのテキストが第1テンプレートテキストに一致することであり得る。第1音声コマンドのテキストが第1テンプレートテキストに一致することは、第1音声コマンドに対応するテキストにおける少なくとも1つの第3部分が少なくとも1つの第1部分と同一であり、第1音声コマンドにおける少なくとも1つの第3部分と第4部分との間の位置関係が、第1テキスト情報における少なくとも1つの第1部分と第2部分との間の位置関係と同一であり、第4部分が第1テンプレートテキストにおけるタイプ情報によって示されるタイプの単語であることを含む。
第2態様に関連して別の可能な設計方式において、表示ユニットは更に、生成ユニットが第1テンプレートテキストを生成した後に、入力ユニットが第1音声コマンドを受信する前に、第4インタフェースを表示するよう構成され、第4インタフェースは、対応する操作を実行するよう端末をトリガするために、音声アシスタントを通じて、第1テンプレートテキストに一致する第1音声コマンドを送信するようユーザに促すために使用される。
第2態様に関連して、別の可能な設計において、表示ユニットは更に、第4インタフェースを表示する前に第5インタフェースを表示するよう構成される。第5インタフェースは、エイリアス入力ボックスを含み、エイリアス入力ボックスは、第2テキスト情報を受信するために使用され、第2テキスト情報は、第1テキスト情報のために、ユーザによって作成されるエイリアスである。入力ユニットは更に、表示ユニットが第5インタフェースを表示した後に、入力ユニットが第5インタフェースにおいてユーザによって実行される第5操作を受信する前に、エイリアス入力ボックスにおいてユーザによって入力された第2テキスト情報を受信するよう構成される。表示ユニットは更に、入力ユニットによって受信された第2テキスト情報をエイリアス入力ボックスに表示するよう構成される。入力ユニットは更に、表示ユニットによって表示される第5インタフェースにおいてユーザによって実行される第5操作を受信するよう構成され、第5操作は、テキスト情報の記録を終了するよう端末をトリガするために使用される。表示ユニットは更に、第5操作に応答して第4インタフェースを表示するよう構成される。
端末は更にストレージユニットを含み得る。ストレージユニットは、入力ユニットによって受信された第5操作に応答して、第2テキスト情報、および、第2テキスト情報と操作情報との間の対応関係を格納するよう構成される。表示ユニットによって表示される第4インタフェースは更に第2テキスト情報を含む。
第2態様に関連して、別の可能な設計方式において、入力ユニットは更に、音声アシスタントを通じてユーザによって入力された第2音声コマンドを受信するよう構成される。実行ユニットは更に、入力ユニットによって受信された第2音声コマンドのテキストがストレージユニットに格納された第2テキスト情報と同一であるとき、第2テキスト情報と操作情報との間の対応関係に基づいて操作情報に対応する操作を端末によって実行するよう構成される。
第3態様によれば、本願の実施形態は端末を提供する。端末は1または複数のプロセッサ、メモリおよびディスプレイを含む。メモリおよびディスプレイはプロセッサに連結される。ディスプレイは、プロセッサによって生成される画像を表示するよう構成される。メモリは、音声アシスタントのコンピュータプログラムコードおよび関連情報を格納するよう構成される。コンピュータプログラムコードはコンピュータ命令を含む。プロセッサがコンピュータ命令を実行するとき、プロセッサは、第1操作に応答して、プロンプト情報を表示するようディスプレイを制御するよう構成される。ここで、プロンプト情報は、記録対象操作を入力するようユーザに促すために使用される。プロセッサは更に、ユーザによって入力された1または複数の操作を受信し、ユーザによって入力された第2操作に応答して、1または複数の操作に対応する操作情報を記録し、操作情報をメモリに格納するよう構成される。プロセッサは更に、ユーザによって入力される第3操作に基づいて、操作情報に対応する第1テキスト情報を決定し、第1音声コマンドを受信し、第1音声コマンドに対応するテキストが第1テキスト情報に一致するとき、操作情報に基づいて対応する操作を実行するよう構成される。
第3態様に関連して、可能な設計方式において、プロセッサによって決定される第1テキスト情報は、少なくとも1つの第1部分および第2部分を含む。プロセッサは更に、第1音声コマンドに対応するテキストにおける少なくとも1つの第3部分が少なくとも1つの第1部分と同一であり、第1音声コマンドにおける少なくとも1つの第3部分と第4部分との間の位置関係が、第1テキスト情報における少なくとも1つの第1部分と第2部分との間の位置関係と同一であるとき、第1音声コマンドに対応するテキストが第1テキスト情報に一致すると決定するよう構成される。
第3態様に関連して、別の可能な設計方式において、プロセッサによって記録される操作情報は、第1アプリケーション識別子、第1インタフェース識別子、第1検索語、および操作指示情報を含み、第1アプリケーション識別子は、1または複数の操作に対応する操作オブジェクトアプリケーションの識別子であり、第1インタフェース識別子は、1または複数の操作に対応する操作オブジェクトインタフェースの識別子であり、操作指示情報は、1または複数の操作を通じて操作オブジェクトインタフェースにおいて実行される操作を示すために使用される。少なくとも1つの第1部分は、第1アプリケーション識別子および/または第1インタフェース識別子を含み、第2部分は第1検索語を含む。
第3態様に関連して、別の可能な設計方式において、プロセッサが、第1操作に応答して、プロンプト情報を表示するようにディスプレイを制御するよう構成されることは、プロセッサが、第1操作に応答して、音声アシスタントの第1インタフェースにおいてプロンプト情報を表示するようディスプレイを制御するよう構成されることを含む。プロセッサが、ユーザによって入力された1または複数の操作を受信するよう構成されることは、プロセッサが、ディスプレイによって表示される第1インタフェースにおいてユーザによって実行される第4操作に応答して、第2インタフェースを表示するようディスプレイを制御し(第2インタフェースは、1または複数の操作を入力するためにユーザによって使用される)、ディスプレイによって表示される第2インタフェースにおいてユーザによって入力された1または複数の操作を受信するよう構成されることを含む。
第3態様に関連して、別の可能な設計方式において、プロセッサは更に以下のように構成される。ユーザによって入力された第3操作に基づいて、操作情報に対応するテキスト情報を決定する前に、第2操作に応答して、第3インタフェースを表示するようディスプレイを制御し、第3インタフェースは、少なくとも2つのテキスト情報を含み、少なくとも2つのテキスト情報は、接続語を使用することによって、事前設定位置関係に基づいて、第1アプリケーション識別子および/または第1インタフェース識別子と第1検索語とを接続することによって形成されるステートメントである。プロセッサが、ユーザによって入力された第3操作に基づいて、操作情報に対応するテキスト情報を決定するよう構成されることは、プロセッサが、ディスプレイによって表示される第3インタフェースにおいて少なくとも2つのテキスト情報における第1テキスト情報に対してユーザによって実行される第3操作を受信し、第3操作に応答して、第1テキスト情報を、操作情報に対応するテキスト情報として決定するよう構成されることを含む。第3操作は、少なくとも2つのテキスト情報から第1テキスト情報を選択するために使用される。
第3態様に関連して、別の可能な設計方式において、プロセッサは更に、第3操作に応答して、第1テキスト情報を操作情報に対応するテキスト情報として決定した後に、第1音声コマンドを受信する前に、第1テンプレートテキストを生成するよう構成され、第1テンプレートテキストは、第1テキスト情報における第2部分を第1検索語のタイプ情報で置換することによって生成される。プロセッサは更に、第1音声コマンドのテキストが第1テキスト情報に一致するとき、第1音声コマンドのテキストが第1テンプレートテキストに一致すると決定するよう構成される。第1音声コマンドのテキストが第1テンプレートテキストに一致することは、第1音声コマンドに対応するテキストにおける少なくとも1つの第3部分が少なくとも1つの第1部分と同一であり、第1音声コマンドにおける少なくとも1つの第3部分と第4部分との間の位置関係が、第1テキスト情報における少なくとも1つの第1部分と第2部分との間の位置関係と同一であり、第4部分が第1テンプレートテキストにおけるタイプ情報によって示されるタイプの単語であることを含む。
第3態様に関連して、別の可能な設計方式において、プロセッサは更に、第1テンプレートテキストを生成した後に、第1音声コマンドを受信する前に、第4インタフェースを表示するようディスプレイを制御するよう構成され、第4インタフェースは、対応する操作を実行するよう端末をトリガするために、音声アシスタントを通じて、第1テンプレートテキストに一致する第1音声コマンドを送信するようにユーザを促すために使用される。
第3態様に関連して、別の可能な設計方式において、プロセッサは更に、第4インタフェースを表示するようディスプレイを制御する前に、第5インタフェースを表示するようディスプレイを制御するよう構成され、第5インタフェースはエイリアス入力ボックスを含み、エイリアス入力ボックスは、第2テキスト情報を受信するために使用され、第2テキスト情報は、第1テキスト情報についてユーザによって作成されるエイリアスである。プロセッサが第4インタフェースを表示するようディスプレイを制御するよう構成されることは、プロセッサが、ディスプレイによって表示される第5インタフェースにおいてユーザによって実行される第5操作を受信し(第5操作は、テキスト情報の記録を終了するよう端末をトリガするために使用される)、第5操作に応答して、第4インタフェースを表示するようディスプレイを制御するよう構成されることを含み、プロセッサは更に、第5操作に応答して、第2テキスト情報、および、第2テキスト情報と操作情報との間の対応関係をメモリに格納するよう構成される。ディスプレイによって表示される第4インタフェースは更に、第2テキスト情報を含む。
第3態様に関連して、別の可能な設計方式において、プロセッサは更に、音声アシスタントを通じてユーザによって入力される第2音声コマンドを受信するよう構成され、第2音声コマンドのテキストが第2テキスト情報と同一であるとき、第2テキスト情報と操作情報との間の対応関係に基づいて、操作情報に対応する操作を実行するよう構成される。
第4態様によれば、本願の実施形態はコンピュータ記憶媒体を提供する。コンピュータ記憶媒体は、コンピュータ命令を含み、コンピュータ命令が端末上で動作するとき、端末は、第1態様、および、第1態様の可能な設計方式に従って音声制御コマンド生成方法を実行することが可能である。
第5態様によれば、本願の実施形態はコンピュータプログラム製品を提供する。コンピュータプログラム製品がコンピュータ上で動作するとき、コンピュータは第1態様、および、第1態様の可能な設計方式に従って音声制御コマンド生成方法を実行することが可能である。
加えて、第2態様または第3態様、および、第2態様または第3態様の設計方式のいずれか1つによる端末によってもたらされる技術的効果、または、第4態様によるコンピュータ記憶媒体によってもたらされる技術的効果、および、第5態様によるコンピュータプログラム製品によってもたらされる技術的効果については、第1態様、および、第1態様の異なる設計方式によってもたらされる技術的効果を参照されたい。詳細はここで再度説明しない。
本願の実施形態による端末のハードウェア構造の概略図である。
本願の実施形態による音声制御コマンド生成方法のフローチャート1である。
本願の実施形態による端末の表示インタフェースのインスタンスの概略図1である。 本願の実施形態による端末の表示インタフェースのインスタンスの概略図1である。 本願の実施形態による端末の表示インタフェースのインスタンスの概略図1である。 本願の実施形態による端末の表示インタフェースのインスタンスの概略図1である。
本願の実施形態による端末の表示インタフェースのインスタンスの概略図2である。 本願の実施形態による端末の表示インタフェースのインスタンスの概略図2である。 本願の実施形態による端末の表示インタフェースのインスタンスの概略図2である。
本願の実施形態による端末の表示インタフェースのインスタンスの概略図3である。 本願の実施形態による端末の表示インタフェースのインスタンスの概略図3である。 本願の実施形態による端末の表示インタフェースのインスタンスの概略図3である。
本願の実施形態による端末の表示インタフェースのインスタンスの概略図4である。 本願の実施形態による端末の表示インタフェースのインスタンスの概略図4である。
本願の実施形態による端末の表示インタフェースのインスタンスの概略図5である。 本願の実施形態による端末の表示インタフェースのインスタンスの概略図5である。
本願の実施形態による端末の表示インタフェースのインスタンスの概略図6である。 本願の実施形態による端末の表示インタフェースのインスタンスの概略図6である。 本願の実施形態による端末の表示インタフェースのインスタンスの概略図6である。 本願の実施形態による端末の表示インタフェースのインスタンスの概略図6である。
本願の実施形態による音声制御コマンド生成方法のフローチャート2である。
本願の実施形態による端末の表示インタフェースのインスタンスの概略図7である。 本願の実施形態による端末の表示インタフェースのインスタンスの概略図7である。 本願の実施形態による端末の表示インタフェースのインスタンスの概略図7である。
本願の実施形態による端末の表示インタフェースのインスタンスの概略図8である。 本願の実施形態による端末の表示インタフェースのインスタンスの概略図8である。 本願の実施形態による端末の表示インタフェースのインスタンスの概略図8である。
本願の実施形態による端末表示インタフェースのインスタンスの概略図9である。 本願の実施形態による端末表示インタフェースのインスタンスの概略図9である。 本願の実施形態による端末表示インタフェースのインスタンスの概略図9である。 本願の実施形態による端末表示インタフェースのインスタンスの概略図9である。
本願の実施形態による端末の表示インタフェースのインスタンスの概略図10である。 本願の実施形態による端末の表示インタフェースのインスタンスの概略図10である。 本願の実施形態による端末の表示インタフェースのインスタンスの概略図10である。 本願の実施形態による端末の表示インタフェースのインスタンスの概略図10である。
本願の実施形態による端末の概略構造組成図1である。
本願の実施形態による端末の概略構造組成図2である。
端末がユーザによって送信された音声コマンドに対して音声一般化を実行できないことが原因でカスタム音声制御の柔軟性が比較的低いという問題を解決するために、本願の実施形態は音声制御コマンド生成方法を提供する。音声制御コマンド生成方法は、端末が音声アシスタントを通じてカスタムコマンドおよびカスタム音声コマンドに対応する操作を記録するプロセスに適用され得る。
本願の実施形態における端末は、ポータブルコンピュータ(例えば携帯電話)、ノートブックコンピュータ、パーソナルコンピュータ(Personal Computer、PC)、ウェアラブル電子デバイス(例えばスマートウォッチ)、タブレットコンピュータ、拡張現実(augmented reality、AR)デバイス/仮想現実(virtual reality、VR)デバイス、車載コンピュータなどであり得る。端末の具体的な形式は、以下の実施形態に特に限定されない。
図1は、本願の実施形態による端末100の構造ブロック図である。端末100は、プロセッサ110、外部メモリインタフェース120、内部メモリ121、ユニバーサルシリアルバス(Universal Serial Bus, USB)インタフェース130、充電管理モジュール140、電力管理モジュール141、バッテリ142、アンテナ1、アンテナ2、無線周波数モジュール150、通信モジュール160、オーディオモジュール170、スピーカ170A、受信機170B、マイクロフォン170C、ヘッドセットジャック170D、センサモジュール180、ボタン190、モータ191、インジケータ192、カメラ193、表示画面194、加入者識別モジュール(Subscriber Identification Module, SIM)カードインタフェース195などを含み得る。センサモジュール180は、圧力センサ180A、ジャイロセンサ180B、気圧センサ180C、磁気センサ180D、加速度センサ180E、距離センサ180F、光学式近接センサ180G、指紋センサ180H、温度センサ180J、タッチセンサ180K、周辺光センサ180L、骨伝導センサ180Mなどを含み得る。
本願の本実施形態に示される構造は、端末100に対する限定を構成しない。端末100は、図に示されるものより多くの、または、少ないコンポーネントを含んでも、または、いくつかのコンポーネントを組み合わせても、または、いくつかのコンポーネントを分割しても、または、異なるコンポーネント配置を有してもよい。図に示されるコンポーネントは、ハードウェア、ソフトウェア、またはソフトウェアおよびハードウェアの組み合わせにより実装され得る。
プロセッサ110は1または複数の処理ユニットを含み得る。例えば、プロセッサ110は、アプリケーションプロセッサ(Application Processor, AP)、モデムプロセッサ、グラフィック処理装置(Graphics Processing Unit, GPU)、画像信号プロセッサ(Image Signal Processor, ISP)、コントローラ、メモリ、ビデオコーデック、デジタル信号プロセッサ(Digital Signal Processor, DSP)、ベースバンドプロセッサ、および/またはニューラルネットワーク処理ユニット(Neural-network Processing Unit, NPU)を含み得る。異なる処理ユニットは別個のデバイスであり得る、または、1または複数のプロセッサに統合され得る。
コントローラは、命令に従って作業を調整するように端末100の各コンポーネントに指令する決定部であり得る。コントローラは、端末100の中枢部であり、コマンド中心である。コントローラは、命令操作コードおよび時間シーケンス信号に基づいて、操作制御信号を生成し、命令フェッチおよび命令実行の制御を完了する。
メモリは更に、命令およびデータを格納するためにプロセッサ110に配置され得る。いくつかの実施形態において、プロセッサ110におけるメモリはキャッシュであり、プロセッサ110によって1回使用される、または、周期的に使用される命令またはデータを格納し得る。プロセッサ110が命令またはデータを再度使用する必要がある場合、プロセッサ110は、メモリから命令またはデータを直接呼び出し得る。これにより、反復アクセスを回避し、プロセッサ110の待機時間を低減し、それにより、システム効率を改善する。
いくつかの実施形態において、プロセッサ110はインタフェースを含み得る。インタフェースは集積回路間(Inter-Integrated Circuit, I2C)インタフェース、集積回路間サウンド(Inter-Integrated Circuit Sound, I2S)インタフェース、パルスコード変調(Pulse Code Modulation, PCM)インタフェース、汎用非同期送受信回路(Universal Asynchronous Receiver/Transmitter, UART)インタフェース、モバイル業界プロセッサインタフェース(Mobile Industry Processor Interface, MIPI)、汎用入力/出力(General-Purpose Input/output, GPIO)インタフェース、SIMインタフェース、USBインタフェースおよび/または同様のものを含み得る。
I2Cインタフェースは双方向同期シリアルバスであり、シリアルデータライン(Serial Data Line, SDA)およびシリアルクロックライン(Serail Clock Line, SCL)を含む。いくつかの実施形態において、プロセッサ110は、複数の組のI2Cバスを含み得る。プロセッサ110は、タッチセンサ180K、充電器、フラッシュ、カメラ193などに、異なるI2Cバスインタフェースを通じて別々に連結され得る。例えば、プロセッサ110は、I2Cインタフェースを通じてタッチセンサ180Kに連結され得る。その結果、プロセッサ110は、I2Cバスインタフェースを通じてタッチセンサ180Kと通信し、端末100のタッチ機能を実装する。
I2Sインタフェースは、オーディオ通信に使用され得る。いくつかの実施形態において、プロセッサ110は複数の組のI2Sバスを含み得る。プロセッサ110は、プロセッサ110とオーディオモジュール170との間の通信を実装するために、I2Sバスを使用することによってオーディオモジュール170に連結され得る。いくつかの実施形態において、オーディオモジュール170は、Bluetooth(登録商標)ヘッドセットを使用することによって呼び出しに応答する機能を実装するために、I2Sインタフェースを通じてオーディオ信号を通信モジュール160へ送信し得る。
PCMインタフェースはまた、オーディオ通信を実行し、アナログ信号をサンプリング、量子化、および符号化するよう構成され得る。いくつかの実施形態において、オーディオモジュール170は、PCMバスインタフェースを通じて通信モジュール160に連結され得る。いくつかの実施形態において、オーディオモジュール170はまた、Bluetooth(登録商標)ヘッドセットを使用することによって呼び出しに応答する機能を実装するために、PCMインタフェースを通じてオーディオ信号を通信モジュール160へ送信し得る。I2SインタフェースおよびPCMインタフェースの両方は、オーディオ通信に使用され得、2つのインタフェースのサンプリングレートは異なる。
UARTインタフェースは汎用シリアルデータバスであり、非同期通信に使用される。バスは双方向通信バスである。バスは送信対象データを直列通信と並列通信との間で変換する。いくつかの実施形態において、UARTインタフェースは通常、プロセッサ110を通信モジュール160に接続するよう構成される。例えば、プロセッサ110は、Bluetooth(登録商標)機能を実装するために、UARTインタフェースを通じてBluetooth(登録商標)モジュールと通信する。いくつかの実施形態において、オーディオモジュール170は、Bluetooth(登録商標)ヘッドセットを使用することによって音楽を再生する機能を実装するために、UARTインタフェースを通じてオーディオ信号を通信モジュール160へ送信し得る。
MIPIインタフェースは、プロセッサ110を表示画面194またはカメラ193などの周辺機器に接続するよう構成され得る。MIPIインタフェースは、カメラシリアルインタフェース(Camera Serial Interface, CSI)およびディスプレイシリアルインタフェース(Display Serial Interface, DSI)などを含む。いくつかの実施形態において、プロセッサ110は、端末100の撮影機能を実装するために、CSIインタフェースを通じてカメラ193と通信する。プロセッサ110は、端末100の表示機能を実装するために、DSIインタフェースを通じて表示画面194と通信する。
GPIOインタフェースはソフトウェアを使用することによって構成され得る。GPIOインタフェースは、制御信号として構成され得る、または、データ信号として構成され得る。いくつかの実施形態において、GPIOインタフェースは、プロセッサ110をカメラ193、表示画面194、通信モジュール160、オーディオモジュール170、またはセンサモジュール180などに接続するよう構成され得る。GPIOインタフェースは代替的に、I2Cインタフェース、I2Sインタフェース、UARTインタフェース、MIPIインタフェースなどとして構成され得る。
USBインタフェース130は、ミニUSBインタフェース、マイクロUSBインタフェース、またはUSBタイプCインタフェースなどであり得る。USBインタフェース130は、端末100を充電するために充電器に接続するよう構成され得る、または、端末100と周辺機器との間でデータを送信するよう構成され得る、または、ヘッドセットを使用することによってオーディオを再生するためにヘッドセットに接続するよう構成され得る。USBインタフェース130は代替的に、別の電子デバイス、例えばARデバイスに接続するよう構成され得る。
本願の本実施形態に示されるモジュール間のインタフェース接続関係は、単に説明のための例であり、端末100の構造に対する限定を構成するものではない。端末100は、本願の本実施形態において、異なるインタフェース接続方式、または、複数のインタフェース接続方式の組み合わせを使用し得る。
充電管理モジュール140は、充電入力を充電器から受信するよう構成される。充電器は無線充電器であり得る、または、有線充電器であり得る。有線充電のいくつかの実施形態において、充電管理モジュール140は、USBインタフェース130を通じて充電入力を有線充電器から受信し得る。無線充電のいくつかの実施形態において、充電管理モジュール140は、端末100の無線充電コイルを使用することにより無線充電入力を受信し得る。充電管理モジュール140は更に、バッテリ142を充電しながら、電力管理モジュール141を使用することによって、電力を端末100に供給し得る。
電力管理モジュール141は、バッテリ142、充電管理モジュール140、およびプロセッサ110に接続するよう構成される。電力管理モジュール141は、入力をバッテリ142および/または充電管理モジュール140から受信し、電力をプロセッサ110、内部メモリ121、外部メモリインタフェース120、表示画面194、カメラ193、通信モジュール160などに供給する。電力管理モジュール141は更に、バッテリ容量、バッテリサイクル数、および、バッテリ健康状態(電気漏洩またはインピーダンス)などのパラメータをモニタリングするよう構成され得る。いくつかの実施形態において、電力管理モジュール141は代替的に、プロセッサ110に配置され得る。いくつかの実施形態において、電力管理モジュール141および充電管理モジュール140は代替的に、同一のデバイスに配置され得る。
端末100の無線通信機能は、アンテナ1、アンテナ2、無線周波数モジュール150、通信モジュール160、モデム、ベースバンドプロセッサなどを使用することによって実装され得る。
アンテナ1およびアンテナ2は、電磁波信号を送信および受信するよう構成される。端末100における各アンテナは、1または複数の通信周波数帯域を網羅するよう構成され得る。異なるアンテナは更に、アンテナ利用率を改善するために、多重化され得る。例えば、セルラーネットワークアンテナは、無線ローカルエリアネットワークダイバーシティアンテナとして多重化され得る。いくつかの実施形態において、アンテナは、チューニングスイッチと組み合わせて使用され得る。
無線周波数モジュール150は、端末100に適用される、2G/3G/4G/5Gなどの無線通信の解決手段を含む通信プロセッサモジュールを提供し得る。無線周波数モジュール150は、少なくとも1つのフィルタ、スイッチ、電力増幅器、低ノイズ増幅器(Low Noise Amplifier, LNA)などを含み得る。無線周波数モジュール150は、アンテナ1を使用することによって電磁波を受信し、受信された電磁波に対してフィルタリングまたは増幅などの処理を実行し、復調のために電磁波をモデムへ転送する。無線周波数モジュール150は更に、モデムによって変調される信号を増幅し、アンテナ1を使用することによって、信号を放射のための電磁波に変換し得る。いくつかの実施形態において、無線周波数モジュール150における少なくともいくつかの機能モジュールはプロセッサ110に配置され得る。いくつかの実施形態において、無線周波数モジュール150における少なくともいくつかの機能モジュールは、プロセッサ110における少なくともいくつかのモジュールと同一のデバイスに配置され得る。
モデムは、変調機および復調機を含み得る。変調機は、送信対象の低周波数ベースバンド信号を、中~高周波数信号に変調するよう構成される。復調機は、受信された電磁波信号を低周波数ベースバンド信号に復調するよう構成される。次に、復調機は、復調を通じて取得される低周波数ベースバンド信号を、処理のためにベースバンドプロセッサへ送信する。低周波数ベースバンド信号は、ベースバンドプロセッサによって処理され、次に、アプリケーションプロセッサへ送信される。アプリケーションプロセッサは、オーディオデバイス(非限定的な例としてスピーカ170A、または受信機170Bなど)を使用することによってサウンド信号を出力する、または、表示画面194を使用することによって画像またはビデオを表示する。いくつかの実施形態において、モデムは独立のデバイスであり得る。いくつかの実施形態において、モデムは、プロセッサ110から独立し得、無線周波数モジュール150または別の機能モジュールと同一のデバイスに配置される。
通信モジュール160は、端末100に適用される、無線ローカルエリアネットワーク(Wireless Local Area Network, WLAN)(例えば、ワイヤレスフィデリティ(Wireless Fidelity, Wi-Fi(登録商標))ネットワーク)、ブルートゥース(登録商標)(Bluetooth(登録商標)、BT)、全球測位衛星システム(Global Navigation Satellite System, GNSS)、周波数変調(Frequency Modulation, FM))、近距離無線通信(Near Field Communication, NFC)技術、または、赤外線(Infrared, IR)技術などの無線通信の解決手段を含む通信プロセッサモジュールを提供し得る。通信モジュール160は、少なくとも1つの通信プロセッサモジュールを組み込んだ1または複数のデバイスであり得る。通信モジュール160は、アンテナ2を使用することによって電磁波を受信し、電磁波信号に対して周波数変調およびフィルタリング処理を実行し、処理信号をプロセッサ110へ送信する。通信モジュール160は更に、送信対象信号をプロセッサ110から受信し、信号に対して周波数変調および増幅を実行し、アンテナ2を使用することによって、信号を放射のための電磁波に変換し得る。
いくつかの実施形態において、端末100におけるアンテナ1および無線周波数モジュール150は連結され、端末100におけるアンテナ2および通信モジュール160は連結され、その結果、端末100は、無線通信技術を使用することによって、ネットワークおよび別のデバイスと通信できる。無線通信技術は、移動通信のためのグローバルシステム(Global System For Mobile Communications, GSM(登録商標))、汎用パケット無線サービス(General Packet Radio Service, GPRS)、符号分割多元接続(Code Division Multiple Access, CDMA)、広帯域符号分割多元接続(Wideband Code Division Multiple Access, WCDMA(登録商標))、時分割符号分割多元接続(Time-Division Code Division Multiple Access, TD-SCDMA)、ロングタームエボリューション(Long Term Evolution, LTE)、BT、GNSS、WLAN、NFC、FM、IR技術および/または同様のものを含み得る。GNSSは、グローバルポジショニングシステム、全球測位衛星システム(Global Navigation Satellite System, GLONASS)、北斗測位衛星システム(BeiDou Navigation Satellite System, BDS)、準天頂衛星システム(Quasi-Zenith Satellite System, QZSS)、および/または、静止衛星型補強システム(Satellite Based Augmentation System, SBAS)を含み得る。
端末100は、GPU、表示画面194、アプリケーションプロセッサなどを使用することによって、表示機能を実装する。GPUは、画像処理のためのマイクロプロセッサであり、表示画面194およびアプリケーションプロセッサに接続される。GPUは、数学および幾何学演算を実行するよう構成され、グラフィックスレンダリングに使用される。プロセッサ110は、ディスプレイ情報を生成または変更するためにプログラム命令を実行する1または複数のGPUを含み得る。
表示画面194は、画像、ビデオなどを表示するよう構成される。表示画面194は表示パネルを含む。表示パネルは、液晶ディスプレイ(Liquid Crystal Display, LCD)、有機発光ダイオード(Organic Light-Emitting Diode, OLED)、アクティブマトリクス有機発光ダイオード(Active-Matrix Organic Light-Emitting Diode, AMOLED)、フレキシブル発光ダイオード(Flexible Light-Emitting Diode, FLED)、ミニLED、マイクロLED、マイクロOLED、または量子ドット発光ダイオード(Quantum Dot Light-Emitting Diode, QLED)などであり得る。いくつかの実施形態において、端末100は、1またはN個の表示画面194を含み得、Nは1より大きい正の整数である。
端末100は、ISP、カメラ193、ビデオコーデック、GPU、表示画面、アプリケーションプロセッサなどを使用することによって撮影機能を実装できる。
ISPは、カメラ193によってフィードバックされるデータを処理するよう構成される。例えば、撮影中に、シャッタが押下され、照明がレンズを通じてカメラの感光素子へ伝えられ、光信号が電気信号に変換され、カメラの感光素子は、処理のために電気信号をISPへ伝え、電気信号は可視画像に変換される。ISPは更に、画像のノイズ、明度、および、色に対してアルゴリズム最適化を実行し得る。ISPは更に、撮影シナリオの露出および色温度などのパラメータを最適化し得る。いくつかの実施形態において、ISPは、カメラ193に配置され得る。
カメラ193は静止画像またはビデオをキャプチャするよう構成される。レンズを使用することにより、光学画像が物体について生成され、光学画像は感光素子に投影される。感光素子は、電荷結合素子(Charge Coupled Device, CCD)または相補型金属酸化膜半導体(Complementary Metal-Oxide-Semiconductor, CMOS)フォトトランジスタであり得る。感光素子は、光信号を電気信号に変換し、次に、電気信号をデジタル画像信号に変換するために電気信号をISPへ送信する。ISPは、処理のためにデジタル画像信号をDSPへ出力する。DSPは、RGBフォーマットまたはYUVフォーマットなどで、デジタル画像信号を標準画像信号に変換する。いくつかの実施形態において、端末100は、1またはN個のカメラ193を含み得、Nは1より大きい正の整数である。
デジタル信号プロセッサはデジタル信号を処理するよう構成される。デジタル画像信号に加えて、デジタル信号プロセッサは更に、別のデジタル信号を処理し得る。例えば、端末100が周波数を選択するとき、デジタル信号プロセッサは、周波数エネルギーなどに対して、フーリエ変換を実行するよう構成される。
ビデオコーデックは、デジタルビデオを圧縮または展開するよう構成される。端末100は、1または複数のビデオコーデックをサポートし得る。このように、端末100は、複数の符号化フォーマット、例えば、ムービングピクチャーエクスパーツグループ(Moving Picture Experts Group, MPEG)‐1、MPEG‐2、MPEG‐3、およびMPEG‐4でビデオを再生または記録できる。
NPUは、ニューラルネットワーク(Neural-Network, NN)コンピューティングプロセッサであり、生体神経ネットワークの構造を参照することにより、例えば、人間の脳神経細胞間の転送モードを参照することにより、入力された情報を迅速に処理し、更に、自己学習を継続的に実行し得る。端末100のインテリジェント認識などのアプリケーションは、NPU、例えば、画像認識、顔認識、音声認識、およびテキスト理解を使用することによって実装され得る。
外部メモリインタフェース120は、端末100のストレージ容量を拡張するために、外部ストレージカード、例えば、マイクロSDカードに接続するよう構成され得る。外部ストレージカードは、データストレージ機能を実装するために、外部メモリインタフェース120を通じてプロセッサ110と通信する。例えば、音楽およびビデオなどのファイルは、外部ストレージカードに格納される。
内部メモリ121は、コンピュータ実行可能なプログラムコードを格納するよう構成され得、実行可能なプログラムコードは命令を含む。プロセッサ110は、内部メモリ121に格納される命令を実行することにより、端末100の様々な機能的アプリケーションおよびデータ処理を実行する。メモリ121は、プログラム格納領域およびデータ格納エリアを含み得る。プログラム格納領域は、オペレーティングシステム、および、少なくとも1つの機能(例えば、サウンド再生機能、または、画像再生機能)に必要なアプリケーションなどを格納し得る。データ格納エリアは、端末100の使用中に作成されるデータ(例えば、オーディオデータまたは電話帳)などを格納し得る。加えて、メモリ121は、高速ランダムアクセスメモリを含み得、更に、非揮発性メモリ、例えば、少なくとも1つの磁気ディスクストレージデバイス、フラッシュストレージデバイス、別の揮発性ソリッドステートストレージデバイス、またはユニバーサルフラッシュストレージ(Universal Flash Storage, UFS)などを含み得る。
端末100は、オーディオモジュール170、スピーカ170A、受信機170B、マイクロフォン170C、ヘッドセットジャック170D、アプリケーションプロセッサなどを使用することによって、音楽再生または録音などのオーディオ機能を実装できる。
オーディオモジュール170は、デジタルオーディオ情報を出力のためのアナログオーディオ信号に変換するよう構成され、また、アナログオーディオ入力をデジタルオーディオ信号に変換するよう構成される。オーディオモジュール170は更に、オーディオ信号を符号化および復号するよう構成され得る。いくつかの実施形態において、オーディオモジュール170は、プロセッサ110に配置され得る、または、オーディオモジュール170のいくつかの機能モジュールはプロセッサ110に配置される。
「ホーン」とも称されるスピーカ170Aは、オーディオ電気信号をサウンド信号に変換するよう構成される。端末100は、スピーカ170Aを介して、音楽を聴く、または、ハンズフリーモードで呼び出しに応答するために使用され得る。
「イヤーピース」とも称される受信機170Bは、オーディオ電気信号をサウンド信号に変換するよう構成される。端末100を使用することによって呼び出しが応答される、または、音声情報が聴かれるとき、受信機170Bは、音声を聴くために人間の耳の近くに配置され得る。
「マイク」または「マイクロフォン」とも称されるマイクロフォン170Cは、サウンド信号を電気信号に変換するよう構成される。通話を行う、または、音声情報を送信するとき、ユーザは、サウンド信号をマイクロフォン170Cに入力するために、口をマイクロフォン170Cの近くに動かし、音を発し得る。少なくとも1つのマイクロフォン170Cが端末100に配置され得る。いくつかの実施形態において、2つのマイクロフォン170Cが、サウンド信号を収集し、更にノイズ低減機能を実装するために端末100に配置され得る。いくつかの実施形態において、代替的に、サウンド信号を収集し、ノイズを低減し、更に音源を識別し、指向性録音機能などを実装するために、3、4、またはより多くのマイクロフォン170Cが端末100に配置され得る。
ヘッドセットジャック170Dは有線ヘッドセットに接続されるよう構成される。ヘッドセットジャック170DはUSBインタフェース130、3.5mmオープンモバイル端末プラットフォーム(Open Mobile Terminal Platform, OMTP)標準インタフェース、または、米国電気通信工業会(Cellular Telecommunications Industry Association of the USA, CTIA)標準インタフェースであり得る。
圧力センサ180Aは圧力信号を検知するよう構成され、圧力信号を電気信号に変換し得る。いくつかの実施形態において、圧力センサ180Aは、表示画面194に配置され得る。多くのタイプの圧力センサ180A、例えば、抵抗型圧力センサ、誘導型圧力センサ、および静電容量型圧力センサがあり得る。静電容量型圧力センサは、導電性材料を有する少なくとも2つの平行なプレートを含み得る。圧力センサに力が加えられるとき、電極間のキャパシタンスが変化する。端末100は、キャパシタンスの変化に基づいて、圧力強度を決定する。タッチ操作が表示画面194上で実行されるとき、端末100は、圧力センサ180Aを使用することによってタッチ操作の強度を検出する。端末100は更に、圧力センサ180Aの検出信号に基づいて、タッチ位置を算出し得る。いくつかの実施形態において、同一のタッチ位置で実行されるが、異なるタッチ操作強度を有するタッチ操作は、異なる操作命令に対応し得る。例えば、タッチ操作強度が第1圧力閾値より低いタッチ操作がメッセージアイコンに対して実行されるとき、SMSメッセージを見るための命令が実行される。または、タッチ操作強度が第1圧力閾値以上であるタッチ操作がメッセージアイコンに対して実行されるとき、SMSメッセージを作成するための命令が実行される。
ジャイロセンサ180Bは、端末100の移動の向きを決定するよう構成され得る。いくつかの実施形態において、3軸(すなわち、x軸、y軸、z軸)の周りの端末100の角速度は、ジャイロセンサ180Bを使用することによって決定され得る。ジャイロスコープセンサ180Bは、撮影中に画像安定化のために使用され得る。例えば、シャッタが押下されるとき、ジャイロセンサ180Bは、端末100が揺れる角度を検出し、当該角度に基づいて、レンズモジュールが補償する必要がある距離を算出し、レンズに逆の動きを通じて端末100の揺れを打ち消させ、画像安定化を実装する。ジャイロスコープセンサ180Bは更に、ナビゲーションおよびモーション検知ゲームのシナリオにおいて使用され得る。
気圧センサ180Cは、気圧を測定するよう構成される。いくつかの実施形態において、端末100は、位置決定およびナビゲーションを補助するために、気圧センサ180Cによって測定された気圧の値を使用することによって、高度を算出する。
磁気センサ180Dはホールセンサを含む。端末100は、磁気センサ180Dを使用することによって、フリップレザーケースの開閉を検出し得る。いくつかの実施形態において、端末100が折り畳み式電話であるとき、端末100は、磁気センサ180Dを使用することによって、フリップカバーの開閉を検出し得る。更に、フリップカバーの自動ロック解除などの特徴は、検出されたレザーケースの開閉状態、または、検出されたフリップカバーの開閉状態に基づいて設定される。
加速度センサ180Eは、端末100の様々な方向(通常は3軸)の加速度の値を検出し得、端末100が静止しているときは高度および重力の方向を検出し得る。加速度センサ180Eは更に、端末の向きを識別するよう構成され得、横モードと縦モードとの間の切り替え、または、歩数計などの用途に適用される。
距離センサ180Fは距離を測定するよう構成される。端末100は、赤外線またはレーザの方式で距離を測定し得る。いくつかの実施形態において、撮影シナリオにおいて、端末100は、距離センサ180Fを使用して迅速な焦点合わせを実装することにより、距離を測定し得る。
例えば、光学式近接センサ180Gは、発光ダイオード(LED)および光検出器、例えばフォトダイオードを含み得る。発光ダイオードは赤外線発光ダイオードであり得る。発光ダイオードは赤外線光を照射するよう構成される。フォトダイオードは、近くの物体からの赤外線反射光を検出するよう構成される。十分な反射光が検出されたとき、端末100の近くに物体があると決定され得る。不十分な反射光が検出されたとき、端末100の近くに物体が無いと決定され得る。端末100は、光学式近接センサ180Gを使用することにより、ユーザが通話するために端末100を耳の近くに持っていることを検出して、電力節約のための画面オフを自動的に実行し得る。光学式近接センサ180Gはまた、レザーケースモードまたはポケットモードにおける自動画面ロックまたはロック解除に使用され得る。
周辺光センサ180Lは周辺光の輝度を検知するよう構成される。端末100は、検知された周辺光の明度に基づいて、表示画面の明度を適合性に調整し得る。周辺光センサ180Lはまた、撮影中にホワイトバランスを自動的に調整するよう構成され得る。周辺光センサ180Lは更に、偶然の接触を回避するべく、光学式近接センサ180Gと協働して、端末100がポケットにあるかどうかを検出し得る。
指紋センサ180Hは指紋を収集するよう構成される。端末100は、収集された指紋の特徴を使用して、指紋ベースのロック解除、アプリケーションロックアクセス、指紋ベース撮影、指紋ベース呼び出し応答などを実装し得る。
温度センサ180Jは温度を検出するよう構成される。いくつかの実施形態において、端末100は、温度センサ180Jによって検出された温度を使用することにより、温度処理ポリシーを実行する。例えば、温度センサ180Jによって報告された温度が閾値を超えるとき、端末100は、温度センサ180Jの近くのプロセッサの性能を低下させ、熱保護のために電力消費を低減する。
タッチセンサ180Kはまた、「タッチパネル」と称され、表示画面194に配置され得る。タッチセンサ180Kは、タッチセンサ180K上で、またはその近くで実行されるタッチ操作を検出するよう構成される。タッチセンサ180Kは、検出されたタッチ操作をアプリケーションプロセッサへ転送して、タッチイベントのタイプを決定し、表示画面194を使用することによって対応する視覚的出力を提供し得る。
骨伝導センサ180Mは振動信号を取得し得る。いくつかの実施形態において、骨伝導センサ180Mは、人間の発声部の振動骨の振動信号を取得し得る。骨伝導センサ180Mはまた、人間の脈に接触して、血圧鼓動信号を受信し得る。いくつかの実施形態において、骨伝導センサ180Mはまた、ヘッドセットに配置され得る。オーディオモジュール170は、音声機能を実装するために、骨伝導センサ180Mによって取得される、発声部の振動骨の振動信号に基づく解析を通じて、音声信号を取得し得る。アプリケーションプロセッサは、心拍数検出機能を実装するために、骨伝導センサ180Mによって取得される血圧鼓動信号に基づいて、心拍数情報を解析し得る。
ボタン190は電源ボタン、ボリュームボタンなどを含む。ボタン190は機械的ボタンであり得る、または、タッチボタンであり得る。端末100は、ボタン190の入力を受信し、端末100のユーザ設定および機能制御に関連するボタン信号入力を生成する。
モータ191は振動プロンプトを生成し得る。モータ191は、着信振動プロンプトに使用され得る、または、タッチ振動フィードバックに使用され得る。例えば、異なるアプリケーション(例えば、撮影アプリケーションおよびオーディオ再生アプリケーション)上で実行されるタッチ操作は異なる振動フィードバック効果に対応し得る。表示画面194の異なる領域上で実行されるタッチ操作はまた、異なる振動フィードバック効果に対応し得る。異なるアプリケーションシナリオ(例えば、時間リマインダ、情報受信、アラームクロック、ゲームなど)はまた、異なる振動フィードバック効果に対応し得る。タッチ振動フィードバック効果は更にカスタマイズされ得る。
インジケータ192はインジケータライトであり得、充電ステータスおよび電力変化を示すよう構成され得る、または、メッセージ、不在着信、通知などを示すよう構成され得る。
SIMカードインタフェース195はSIMカードに接続するよう構成される。SIMカードは、端末100との間の接触または分離を実装するために、SIMカードインタフェース195に挿入され得る、または、SIMカードインタフェース195から取り外され得る。端末100は、1またはN個のSIMカードインタフェースをサポートし得る、Nは1より大きい正の整数である。SIMカードインタフェース195は、ナノSIMカード、マイクロSIMカード、SIMカードなどをサポートし得る。複数のカードが同一のSIMカードインタフェース195に同時に挿入され得る。複数のカードは、同一タイプであり得る、または、異なるタイプであり得る。SIMカードインタフェース195はまた、SIMカードの異なるタイプと互換性を有し得る。SIMカードインタフェース195はまた、外部ストレージカードと互換性があり得る。端末100は、会話およびデータ通信などの機能を実装するために、SIMカードを使用することによってネットワークとインタラクトする。いくつかの実施形態において、端末100は、eSIM、すなわち、組み込みSIMカードを使用する。eSIMカードは、端末100に組み込まれて端末100から分離できないことがあり得る。
本願の実施形態において提供される起動キーワード更新方法は端末100において実装され得る。
本願の実施形態は音声制御コマンド生成方法を提供する。端末100は、第1操作に応答して、記録対象操作を入力するようユーザに促すために使用されるプロンプト情報を表示し得る。端末100は、ユーザによって入力された1または複数の操作を受信する。端末100は、ユーザによって入力された第2操作に応答して、1または複数の操作に対応する操作情報を記録する。端末100は、ユーザによって入力された第3操作に基づいて、操作情報に対応する第1テキスト情報を決定する。端末100は第1音声コマンドを受信する。第1音声コマンドのテキストが第1テキスト情報に一致するとき、端末100は、操作情報に基づいて、対応する操作を実行する。
操作情報は、1または複数の操作に対応する第1アプリケーション識別子、第1インタフェース識別子、第1検索語、および操作指示情報を含み得る。第1アプリケーション識別子は、1または複数の操作の操作オブジェクトアプリケーション(例えば第1アプリケーション)の識別子である。第1インタフェース識別子は、1または複数の操作に対応する操作オブジェクトインタフェースの識別子である。ユーザは、第1アプリケーションの異なるインタフェースにおいて操作を実行し得る。第1インタフェース識別子は、1または複数の操作が実行された第1アプリケーションの1または複数のインタフェースの識別子を含み得る。操作指示情報は、1または複数の操作を通じて、操作オブジェクトインタフェースにおいて実行される操作を示すために使用される。
1または複数の操作の操作情報を記録した後に、端末100は、ユーザによって入力された第3操作に基づいて、操作情報に対応する第1テキスト情報を決定し得る。第1テキスト情報は、第3操作を使用することによってユーザによって選択される、1または複数の操作に対応するテキスト情報である。
本願の本実施形態において、第1テキスト情報は、少なくとも1つの第1部分および第2部分を含む。少なくとも1つの第1部分は、第1アプリケーション識別子および/または第1インタフェース識別子を含み、第2部分は第1検索語を含む。第1音声コマンドは少なくとも1つの第3部分および第4部分を含む。第1音声コマンドのテキストが第1テキスト情報に一致することは、具体的には、第1音声コマンドに対応するテキストの少なくとも1つの第3部分が少なくとも1つの第1部分と同一であり、第1音声コマンドにおける少なくとも1つの第3部分と第4部分との間の位置関係が、第1テキスト情報における少なくとも1つの第1部分と第2部分との間の位置関係と同一であることであり得る。
言い換えれば、第1音声コマンドにおける少なくとも1つの第3部分と第4部分との間の位置関係が、第1テキスト情報における少なくとも1つの第1部分と第2部分との間の位置関係と同一であるとき、第1音声コマンドにおける少なくとも1つの第3部分は、第1テキスト情報における少なくとも1つの第1部分(すなわち、第1アプリケーション識別子および/または第1インタフェース識別子)と完全に同一であり、端末100は、第1音声コマンドに対応するテキストが第1テキスト情報に一致すると決定し得る。
本願の本実施形態において提供される音声制御コマンド生成方法によれば、端末100は最初に、1または複数の操作に対応する操作情報を取得し、次に、ユーザの第3操作に基づいて、操作情報に対応する第1テキスト情報、すなわち、1または複数の操作に対応するテキスト情報を決定し得る。第1テキスト情報は、ユーザによって選択される、ユーザの言語習慣に適合するコマンドである。端末100が第1音声コマンドを受信した後に、端末100は、ユーザがテキスト情報に対応する音声コマンドを一字一句違わずに話すときのみ対応する操作を実行するのではなく、第1音声コマンドのテキストが第1テキスト情報に一致するという条件で、操作情報に基づいて対応する操作を実行し得る。本解決手段によれば、カスタム音声制御の柔軟性を改善でき、ユーザエクスペリエンスを改善できる。
本願の実施形態は音声制御コマンド生成方法を提供する。図2に示されるように、音声制御コマンド生成方法はS201~S206を含み得る。
S201:端末100が第1操作に応答して、音声アシスタントの第1インタフェースにおいてプロンプト情報を表示する。プロンプト情報は、記録対象操作を入力するようユーザに促すために使用される。
音声アシスタントは、端末100にインストールされたアプリケーション(Application, APP)であり得る、または、端末100のオペレーティングシステムに統合されたシステム機能であり得る。音声アシスタントは、端末100における組み込みアプリケーション(すなわち、端末のシステムアプリケーション)、または、ダウンロード可能なアプリケーションであり得る。組み込みアプリケーションは、端末100(例えば携帯電話)の一部として提供されるアプリケーションである。例えば、組み込みアプリケーションは、「設定」アプリケーション、「メッセージ」アプリケーション、または「カメラ」アプリケーションなどであり得る。ダウンロード可能なアプリケーションは、ダウンロード可能なアプリケーションのインターネットプロトコルマルチメディアサブシステム(Internet Protocol Multimedia Subsystem, IMS)接続を提供し得るアプリケーションである。ダウンロード可能なアプリケーションは、端末にプリインストールされたアプリケーションであり得る、または、ユーザによってダウンロードされて端末にインストールされ得るサードパーティアプリケーションであり得る。例えば、ダウンロード可能なアプリケーションは、「WeChat(登録商標)」アプリケーション、「Alipay」アプリケーション、または「Email」アプリケーションなどであり得る。
音声アシスタントは起動後、ユーザによって入力された音声コマンド(すなわち音声制御コマンド)を受信し、音声コマンドに対応する操作を実行するよう端末100をトリガし得る。例えば、端末100は、図3a、図3b、図3cおよび図3dに示される携帯電話300である。音声アシスタントは、携帯電話300における「音声アシスタント」アプリケーションであり得る。第1インタフェースは、「カスタムコマンド」を追加するために使用される、音声アシスタント(例えば、「音声アシスタント」アプリケーション)の表示インタフェースであるインタフェースであり得る。第1インタフェースにおいて、ユーザは、端末100をトリガして、記録対象操作の記録を開始し得る。
例えば、端末100は、図3a、図3b、図3cおよび図3dに示される携帯電話300であり、音声アシスタントは、携帯電話300における「音声アシスタント」アプリケーションである。携帯電話300は、携帯電話300のホーム画面301上の「音声アシスタント」アプリケーションアイコン302上でユーザによって実行されるタップ操作(例えばシングルタップ操作)を受信し得る。携帯電話300は、「音声アシスタント」アプリケーションアイコン302上でユーザによって実行されたタップ操作に応答して、図3bに示される音声制御インタフェース303を表示し得る。音声制御インタフェース303は「記録」ボタン304および「設定」オプション306を含む。携帯電話300は、「記録」ボタン304上でユーザによって実行されるタップ操作(例えばタッチアンドホールド操作)に応答して、ユーザによって送信された音声コマンドを受信し、音声コマンドに対応する操作を実行するよう携帯電話300をトリガし得る。「設定」オプション306は、「音声アシスタント」アプリケーションの様々な機能およびパラメータを設定するために使用される。携帯電話300は、音声制御インタフェース303における「設定」オプション306上でユーザによって実行されるタップ操作を受信し得る。携帯電話300は、「設定」オプション306上でユーザによって実行されるタップ操作に応答して、図3dに示される「音声アシスタント」インタフェース307を表示し得る。任意選択で、音声制御インタフェース303は、プロンプト情報305を更に含み得る。プロンプト情報305は、「音声アシスタント」アプリケーションの頻繁に使用される機能をユーザに示すために使用される。
任意選択で、携帯電話300は更に、「設定」アプリケーションアイコン上でユーザによって実行されるタップ操作(例えばシングルタップ操作)を受信し得る。携帯電話300は、「設定」アプリケーションアイコン上でユーザによって実行されるタップ操作に応答して、図3cに示される設定インタフェース310を表示し得る。設定インタフェース110は、「飛行機モデル」オプション、「WLAN」オプション、「Bluetooth(登録商標)」オプション、「モバイルネットワーク」オプション、「音声アシスタント」オプション311などを含み得る。「飛行機モデル」オプション、「WLAN」オプション、「Bluetooth(登録商標)」オプション、および「モバイルネットワーク」オプションの具体的な機能については、従来の技術における具体的な説明を参照されたい。ここで、本願の本実施形態において、詳細は説明しない。携帯電話300は、「音声アシスタント」オプション311上でユーザによって実行されるタップ操作(例えばシングルタップ操作)を受信し得る。携帯電話100は、「音声アシスタント」オプション311上でユーザによって実行されるタップ操作に応答して、図3dに示される「音声アシスタント」インタフェース307を表示し得る。
「音声アシスタント」インタフェース307は、「音声起動」オプション308および「カスタム音声制御」オプション309を含む。「音声起動」オプション308は、携帯電話300の起動キーワードを設定するために使用され、起動キーワードは、「音声アシスタント」アプリケーションを起動するために使用される。携帯電話300は、ユーザによって送信される、起動キーワードに一致する音声データを受信したとき、図3bに示される音声制御インタフェース303を表示し得る。「カスタム音声制御」オプション309は、カスタムコマンド(すなわち、本願の本実施形態におけるテキスト情報)を設定するために使用される。具体的には、携帯電話300は、「カスタム音声制御」オプション309上でユーザによって実行されるタップ操作(例えば、シングルタップ操作)に応答して、図4aに示される「カスタム音声制御」インタフェース401を表示し得る。
「カスタム音声制御」インタフェース401は、「カスタム音声制御」ボタン402、携帯電話300に追加されたカスタムコマンド(例えば、「カスタムコマンド1」404および「カスタムコマンド2」405)、「カスタムコマンドを追加」オプション406などを含む。「カスタム音声制御」ボタン402は、カスタム音声制御機能を有効にするために使用される。カスタム音声制御機能が有効になった後で初めて、携帯電話300は、「カスタムコマンド1」404または「カスタムコマンド2」405に応答して、対応するイベントを実行することが可能となる。加えて、カスタム音声制御機能が有効になった後で初めて、ユーザは、第1事前設定ジェスチャ(例えばS字ジェスチャ)を使用することによって、「カスタムコマンドを追加」インタフェース407を表示するよう携帯電話300をトリガできる。例えば、「カスタム音声制御」インタフェース401は、プロンプト情報403、例えば、「機能が有効になった後で、ユーザはS字ジェスチャを使用することによって、カスタムコマンドを追加するために使用されるインタフェースを表示するように携帯電話をトリガできます」を更に含み得る。
第1操作は、図4aに示される「カスタム音声制御」インタフェース401において「カスタムコマンドを追加」オプション406上でユーザによって実行されるタップ操作(例えば、シングルタップ操作)であり得る。代替的に、第1操作は、図3a、図3b、図3c、図3dに示される携帯電話300上でユーザによって実行される操作、および、「カスタムコマンドを追加」オプション406上でユーザによって実行されるタップ操作を含み得る。携帯電話300は、「カスタムコマンドを追加」オプション406上でユーザによって実行されるタップ操作に応答して、図4bに示される「カスタムコマンドを追加」インタフェース407(すなわち第1インタフェース)を表示し得る。第1インタフェースは、記録対象操作を入力するようユーザに促すために使用される。例えば、「カスタムコマンドを追加」インタフェース407は、「学習開始」ボタン408を含む。「学習開始」ボタン408は、記録対象操作を学習するように携帯電話300をトリガするために使用される。第1インタフェース407は更に、記録対象操作を入力するようユーザを促すために使用されるプロンプト情報を含み得る。例えば、第1インタフェース407は更に、「学習開始」ボタン408をタップするようユーザを促すために使用されるプロンプト情報、例えば、「ボタンをタップして、追加したいカスタムコマンドに対応する操作を学習するように携帯電話をトリガしてください」を含み得る。
任意選択で、第1操作は代替的に、図3bに示される音声制御インタフェース303において、ユーザが事前設定音声コマンドを入力することであり得る。例えば、事前設定音声コマンドは「学習開始」であり得る。携帯電話300は、音声制御インタフェース303においてユーザによって入力される音声コマンド「学習開始」を受信することに応答して、図4bに示される「カスタムコマンドを追加」インタフェース407(すなわち第1インタフェース)を表示し得る。
S202:端末100は、第1インタフェースにおいてユーザによって実行される第4操作に応答して第2インタフェースを表示する。第2インタフェースは、ユーザが1または複数の操作を入力するために使用される。
第4操作は、第1インタフェースにおいてユーザによって入力される第2事前設定ジェスチャ、例えば、レ点ジェスチャ、上スライドジェスチャ、下スライドジェスチャ、または円形ジェスチャなどの任意のジェスチャであり得る。代替的に、第1インタフェースは、記録対象操作を学習するように端末100をトリガするために使用される「学習開始」ボタンを含む。第4操作は、第1インタフェースにおける「学習開始」ボタンに対してユーザによって実行されるタップ操作(例えばシングルタップ操作)であり得る。例えば、「テキスト情報を追加」インタフェース407は「学習開始」ボタン408を含む。第4操作は、「学習開始」ボタン408上でユーザによって実行されるシングルタップ操作であり得る。
S203:端末100は、ユーザによって入力された第2操作に応答して、1または複数の操作に対応する操作情報を記録する。
端末100によって記録される必要がある操作は、端末100上でユーザによって実行される1または複数の操作を含み得ることを理解されたい。端末100が複数の操作を記録する必要がある場合、複数の操作は、異なるインタフェースにおいてユーザによって実行される操作であり得る。言い換えれば、第4操作に応答して、端末100によって表示される第2インタフェースは、複数の操作を受信するために使用される複数のインタフェースの一般用語である。本願の本実施形態において、複数の操作を受信するために使用されるインタフェースはそれぞれ、サブインタフェース(例えば第1サブインタフェースおよび第2サブインタフェース)と称される。ユーザによって入力される1または複数の操作を受信するために使用される1または複数のサブインタフェースは第2インタフェースと総称され得る。本願の本実施形態において、1または複数の操作は、異なるサブインタフェース(例えば第1サブインタフェースおよび第2サブインタフェース)においてユーザによって実行されるサブ操作の一般用語であり得る。例えば、第1サブインタフェースにおいてユーザによって実行される操作は、第1サブ操作と称され、第2サブインタフェースにおいてユーザによって実行される操作は、第2サブ操作と称される。
通常、端末100は最初に、第4操作に応答して第1サブインタフェースを表示し得る。第1サブインタフェースは端末100のホーム画面および第1プロンプト情報を含む。端末100のホーム画面は端末100のホーム画面アイコンを含む。第1プロンプト情報は、記録対象操作に対応するアプリケーションに入るために、ホーム画面アイコンをタップするようにユーザを促すために使用される。例えば、携帯電話300は、図4bに示される「学習開始」ボタン408上でユーザによって実行されるタップ操作(すなわち第4操作)に応答して、図4cに示される第1サブインタフェース409を表示し得る。第1サブインタフェース409は、携帯電話300のホーム画面411を含む。ホーム画面411は、ホーム画面アイコン、例えば、「Email」アプリケーションアイコン、「カメラ」アプリケーションアイコン、「設定」アプリケーションアイコン、および「タオバオ」アプリケーションアイコンを含む。第1サブインタフェース409は更に、第1プロンプト情報410、例えば、「ホーム画面アイコンをタップして、追加したいカスタムコマンドに対応するアプリに入ってください」を含み得る。ページが第1サブインタフェース409におけるホーム画面411上で左または右へめくられ、携帯電話300の別のホーム画面を表示し得る。任意選択で、第1サブインタフェース409は更に、プロンプト情報413、例えば、「ページをめくるにはホーム画面上で左または右にスライドしてください」を含み得る。
次に、端末100は、第1サブインタフェースにおいて任意のアプリケーションアイコン上でユーザによって実行されるタップ操作(すなわち第1サブ操作、例えば、シングルタップ操作)を受信し得る。端末100は、任意のアプリケーションアイコン上でユーザによって実行されるタップ操作に応答して第2サブインタフェースを表示し得る。第2サブインタフェースは、アプリケーションホームページ(ユーザによってタップされたアプリケーションアイコンに対応するアプリケーションのホームページ)および第2プロンプト情報を含む。第2プロンプト情報は、テキスト情報に対応する1または複数の操作をアプリケーションホームページ上で入力するようユーザに促すために使用される。端末100は更に、第2サブインタフェースにおいてユーザによって実行される第2サブ操作を受信し、1または複数の操作の記録を終了するよう端末100をトリガするために使用される第2操作を端末100が受信するまで、第3サブインタフェースを表示し得る。
例えば、ユーザが第1サブインタフェース409において「タオバオ」アプリケーションアイコンをタップすることを想定する。携帯電話300は、第1サブインタフェース409において「タオバオ」アプリケーションアイコン上でユーザによって実行されるタップ操作(すなわち第1サブ操作)に応答して、図5aに示される第2サブインタフェース501を表示し得る。第2サブインタフェース501は、第2プロンプト情報502、および、「タオバオ」ホームページ503を含む。例えば、第2プロンプト情報502は、「以下のサードパーティアプリケーションのインタフェースにおいて、カスタムコマンドに対応する操作を入力してください」である。図5bに示されるように、ユーザは、第2サブインタフェース501における検索ボックス504に「牛乳」という検索語を入力し得る。携帯電話300は、検索ボックス504における検索ボタン上でユーザによって実行されるタップ操作(例えばシングルタップ操作)に応答して、図5cに示される第3サブインタフェース506を表示し得る。検索ボックス504においてユーザが「牛乳」という検索語を入力する操作、および、検索ボックス504における検索ボタン上でユーザによって実行されるタップ操作は、第2サブ操作と称され得る。第3サブインタフェース506は、第2プロンプト情報、および、第2サブ操作に対応する表示インタフェース507を含む。1または複数の操作は、第1サブインタフェース409における「タオバオ」アプリケーションアイコン上でユーザによって実行されるタップ操作、第2サブインタフェース501における検索ボックス504に「牛乳」という検索語を入力する操作、および、検索ボックス504における検索ボタン上でユーザによって実行されるタップ操作を含み得る。
端末100は、サブインタフェース(例えば、第1サブインタフェースおよび第2サブインタフェース)上でユーザによって実行される操作に応答して、1または複数の操作に対応する操作情報を取得し得ることを理解されたい。操作情報は、第1アプリケーション識別子、第1インタフェース識別子、第1検索語、および、1または複数の操作に対応する操作指示情報を含む。操作指示情報は、対応するインタフェースにおいてユーザによって実行される操作を示すために使用される。
例えば、端末100は、第1サブインタフェース409における「タオバオ」アプリケーション上でユーザによって実行されるタップ操作に応答して、「タオバオ」アプリケーションアイコンのアプリケーション識別子、および、「タオバオ」ホームページ503のインタフェース識別子を取得し得る。端末100は、第2サブインタフェース501における検索ボックス504においてユーザが「牛乳」という検索語を入力する操作に応答して、ユーザが「タオバオ」ホームページ503上の検索ボックス504に検索語を入力すること、および、「牛乳」という検索語を示すために使用される操作指示情報aを取得し得る。端末100は、検索ボックス504における検索ボタン上でユーザによって実行されるタップ操作に応答して、検索ボックス504における検索ボタンをユーザがタップすることを示すために使用される操作指示情報b、および、図5cに示される表示インタフェース507のインタフェース識別子を取得し得る。
本願の本実施形態におけるアプリケーション識別子は、アプリケーションの名称であり得る。例えば、「タオバオ」アプリケーションのアプリケーション識別子は「タオバオ」であり得る。本願の本実施形態におけるインタフェース識別子(例えば第1インタフェース識別子)は、アプリケーションにおけるインタフェースの名称であり得る。インタフェースの名称は、インタフェースのアドレスリンクではなく、ユーザによるアプリケーションにおけるインタフェースの名称であり得る。例えば、本願の本実施形態において、図12cは、鉄道乗車券を予約するために使用される、「旅行」アプリケーションであるインタフェース1204を示す。本願の本実施形態において、鉄道乗車券を予約するために使用されるインタフェース1204のインタフェース識別子は、「鉄道乗車券」として決定され得る。
端末100は、インタフェース識別子に基づいて、対応するインタフェースを表示し得る。具体的には、端末100は、各アプリケーションにおける各インタフェースのインタフェース識別子と、対応するインタフェースのアドレスリンクとの間の対応関係を格納し得る。端末は、インタフェース識別子に基づいてインタフェース識別子に対応するアドレスリンクを検索し、次に、見つかったアドレスリンクに基づいて、対応するインタフェースを表示し得る。
サブインタフェース(例えば第1サブインタフェースおよび第2サブインタフェース)は各々、記録対象操作、例えば終了ボタンの記録を終了するよう端末100をトリガするために使用されるボタンを含む。第2操作は、終了ボタン上でユーザによって実行されるタップ操作(例えばシングルタップ操作、ダブルタップ操作、またはタッチアンドホールド操作)であり得る。端末100は、任意のサブインタフェースにおける終了ボタン上でユーザによって実行されるタップ操作に応答して、1または複数の操作に対応する操作情報を記録し得る。
例えば、図4cに示される第1サブインタフェース409は、終了ボタン412を含む。図5aに示される第2サブインタフェースは終了ボタン505を含む。図5bに示される第3サブインタフェースは終了ボタン505を含む。図5cに示される第4サブインタフェースは終了ボタン505を含む。例えば、携帯電話300は、図5cに示される第4サブインタフェース507における終了ボタン505に対してユーザによって実行されるタップ操作に応答して、1または複数の操作に対応する操作情報を記録し得る。
代替的に、第2操作は、任意のサブインタフェースにおいてユーザによって入力される第3事前設定ジェスチャであり得る。例えば、第3事前設定ジェスチャは、S字ジェスチャ、上スライドジェスチャ、または下スライドジェスチャなどのいずれか1つであり得る。端末100は、任意のサブインタフェースにおいてユーザによって入力された第3事前設定ジェスチャに応答して、1または複数の操作に対応する操作情報を記録し得る。
S204:端末100は、第2操作に応答して、第3インタフェースを表示する。第3インタフェースは、少なくとも2つのテキスト情報を含み、少なくとも2つのテキスト情報は、接続語を使用することによって、事前設定された位置関係に基づいて、第1アプリケーション識別子および/または第1インタフェース識別子と、第1検索語とを接続することによって形成されるステートメントである。
異なる接続語は異なるユーザステートメントテンプレートに対応する。少なくとも2つのテキスト情報は、ユーザステートメントテンプレートにおける第1充填項目において、第1アプリケーション識別子および/または第1インタフェース識別子を充填し、ユーザステートメントテンプレートにおける第2充填項目において、第1検索語を充填することによって取得される。端末100は、複数のユーザステートメントテンプレートを格納する。具体的には、端末100は、異なるタイプのアプリケーションについて複数のユーザステートメントテンプレートを別々に構成し得、その結果、端末100は、第2操作に応答して、第1アプリケーション識別子によって示されるアプリケーションに対応するユーザステートメントテンプレートにおいて操作情報を充填して、少なくとも2つのテキスト情報を取得できる。
複数のユーザステートメントテンプレートは、ユーザが異なるタイプのアプリケーションを使用するときのステートメント習慣についての統計を収集することによって決定される。本願の本実施形態におけるアプリケーションは、ショッピングアプリケーション、旅行アプリケーション、ビデオアプリケーションなどを含み得る。例えば、ショッピングアプリケーションは、「タオバオ」アプリケーション、「Jingdong」アプリケーションなどを含み得る。旅行アプリケーションは、「Ctrip」アプリケーションおよび「Qunar」アプリケーションを含み得る。ビデオアプリケーションは、「iQIYI」アプリケーション、「Youku」アプリケーションなどを含み得る。
ショッピングアプリケーション「タオバオ」は例として使用される。「タオバオ」を使用して物(例えば牛乳)を購入するとき、ユーザは通常、「タオバオで牛乳を購入」、「タオバオを通じて牛乳を購入」、「タオバオで牛乳を検索」などと話す。したがって、ショッピングアプリケーションの場合、「(アプリケーション識別子)を通じて[検索語]を購入」、「(アプリケーション識別子)で[検索語]を購入」、「(アプリケーション識別子)で[検索語]を検索」、「(アプリケーション識別子)の(インタフェース識別子)で[検索語]を検索」などの複数のユーザステートメントテンプレートが端末100において構成され得る。ユーザステートメントテンプレート「(アプリケーション識別子)を通じて[検索語]を購入」の接続語は、「...を通じて...を購入」である。ユーザステートメントテンプレート「(アプリケーション識別子)で[検索語]を購入」の接続語は、「...で...を購入」である。ユーザステートメントテンプレート「(アプリケーション識別子)で[検索語]を検索」の接続語は「...で...を検索」である。
第1テキスト情報における少なくとも1つの第1部分は、第1アプリケーション識別子および/または第1インタフェース識別子を含むだけでなく、第1テキスト情報における接続語も含む。例えば、第1テキスト情報「タオバオを通じて牛乳を購入」は、第1アプリケーション識別子「タオバオ」および接続語「購入」の両方を含む。
旅行アプリケーション「Ctrip」は、例として使用される。「Ctrip」を使用して鉄道乗車券を予約するとき、ユーザは通常、「A地点からB地点までの鉄道乗車券をCtripで予約」、「A地点からB地点までの鉄道乗車券を購入」、「A地点からB地点まで鉄道乗車券」などと話す。この場合、旅行アプリケーションについては、「(アプリケーション識別子)を通じて[検索語1]から[検索語2]まで(インタフェース識別子)を購入」、「[検索語1]から[検索語2]までの(インタフェース識別子)を購入」、「[検索語1]から[検索語2]までの(インタフェース識別子)」、「[検索語2]までの(インタフェース識別子)」などの複数のユーザステートメントテンプレートが端末100において構成され得る。ユーザステートメントテンプレート「(アプリケーション識別子)を通じて[検索語1]から[検索語2]までの(インタフェース識別子)を購入する」の接続語は、「...を通じて...から...まで...を購入」である。
本願の本実施形態におけるユーザステートメントテンプレートは、第1充填項目および第2充填項目を含み得る。第1充填項目は、端末100によって取得されるアプリケーション識別子および/またはインタフェース識別子を充填するために使用される。第2充填項目は、端末100によって取得される検索語を充填するために使用される。第1充填項目は、第1テキスト情報における少なくとも1つの第1部分に対応し、第2充填項目は、第1テキスト情報における第2部分に対応する。上述のユーザステートメントテンプレートにおいて、()は第1充填項目であり、[]は第2充填項目である。第1充填項目()は、端末100によって取得されるアプリケーション識別子および/またはインタフェース識別子を充填するために使用される。第2充填項目[]は、端末100によって取得される検索語を充填するために使用される。
例えば、操作情報は、アプリケーション識別子「タオバオ」、インタフェース識別子「タオバオのホームページ」、および検索語「牛乳」を含むと想定する。端末100は、ショッピングアプリケーションのユーザステートメントテンプレートにおいて操作情報を充填し、テキスト情報「(タオバオ)を通じて[牛乳]を購入」、「(タオバオ)で[牛乳]を購入」、「(タオバオ)で[牛乳]を検索」、「(タオバオ)(ホームページ)で[牛乳]を検索」などを取得する。
操作情報は、アプリケーション識別子「旅行」、インタフェース識別子「鉄道乗車券」、検索語1「西安」および検索語2「深セン」を含むと想定する。端末100は、旅行アプリケーションのユーザステートメントテンプレートに操作情報を充填し、テキスト情報「[旅行]を通じて[西安]から[深セン]までの(鉄道乗車券)を購入」、「[西安]から「深セン」までの(鉄道乗車券)を購入」、「[西安]から[深セン]までの(鉄道乗車券)」などを取得する。
例えば、携帯電話300は、図5cに示される終了ボタン505上でユーザによって実行されるタップ操作に応答して、図6aに示される第3インタフェース601を表示し得る。第3インタフェース601は、複数のテキスト情報、例えば、「(タオバオ)を通じて[牛乳]を購入」602、「(タオバオ)で[牛乳]を購入」、「(タオバオ)で[牛乳]を検索」、および、「(タオバオ)(ホームページ)で[牛乳]を検索」を含む。
S204の後、端末100は、第3インタフェースにおいてユーザによって入力された第3操作に基づいて、操作情報に対応する第1テキスト情報を決定し得る。具体的には、S204の後に、本願の本実施形態における方法は更に、S205およびS206を含み得る。
S205:端末100は、第3インタフェースにおいて少なくとも2つのテキスト情報における第1テキスト情報に対してユーザによって実行される第3操作を受信する。
第3操作は、少なくとも2つのテキスト情報から第1テキスト情報を選択するために使用される。端末100は、少なくとも2つのテキスト情報における1または複数のテキスト情報に対してユーザによって実行される選択操作、すなわち、第3操作を受信し得る。例えば、図6aに示されるように、携帯電話300は、図6aに示される「(タオバオ)を通じて[牛乳]を購入」602に対してユーザによって実行される選択操作を受信し得る。
S206:端末100は、第3操作に応答して、第1テキスト情報を、操作情報に対応するテキスト情報として決定する。
第1テキスト情報は、第1ユーザステートメントテンプレートへの充填を通じて生成される。具体的には、第1テキスト情報は、第1アプリケーション識別子および/または第1インタフェース識別子を第1ユーザステートメントテンプレートにおける第1充填項目に充填し、第1検索語を第1ユーザステートメントテンプレートにおける第2充填項目に充填することによって生成される。
例えば、図6aに示される第3インタフェース601において、ユーザはコマンドオプション「(タオバオ)を通じて[牛乳]を購入」602を選択すると想定する。携帯電話300は、図6aに示される第3インタフェース601における「OK」ボタンに対してユーザによって実行されるタップ操作に応答して、「(タオバオ)を通じて[牛乳]を購入」は、上述の操作情報に対応するテキストであると決定し得る。その後、テキストが第1テキスト情報に一致する音声コマンドを端末100が受信した場合、端末100は、操作情報に基づいて、対応する操作を自動的に実行し得る。
第1テキスト情報を生成した後に、端末100は、第1テキスト情報を格納し得る。携帯電話300は例として使用される。携帯電話300が第1テキスト情報を格納した後に、図7aに示されるように、「カスタムコマンド3」が、図4aに示される「カスタム音声制御」インタフェース401と比較して携帯電話300によって表示される「カスタム音声制御」インタフェース701に追加される。
S207:端末100は第1音声コマンドを受信する。
例えば、端末100は、図3a、図3b、図3c、および図3dに示される携帯電話300である。携帯電話100は、図3bに示される、音声アシスタントの音声制御インタフェース303を表示し得る。携帯電話300は、「記録」ボタン304上でユーザによって実行されるタッチアンドホールド操作に応答して、ユーザによって入力される第1音声コマンドを受信し得る。
S208:第1音声コマンドのテキストが第1テキスト情報に一致するとき、端末100は、操作情報に基づいて、対応する操作を実行する。
第1音声コマンドのテキストが第1テキスト情報に一致することは、第1音声コマンドに対応するテキストにおける少なくとも1つの第3部分が少なくとも1つの第1部分と同一であり、第1音声コマンドにおける少なくとも1つの第3部分と第4部分との間の位置関係が、第1テキスト情報における少なくとも1つの第1部分と第2部分との間の位置関係と同一であることを含む。
上述の例に関連して、第1テキスト情報は、「(タオバオ)を通じて[牛乳]を購入」であり、第1アプリケーション識別子は「タオバオ」であり、「第1検索語」は「牛乳」であると想定する。具体的には、第1テキスト情報における少なくとも1つの第1部分は「タオバオ」であり、第1テキスト情報における第2部分は「牛乳」である。第1音声コマンドが「タオバオを通じてウインドブレーカを購入」である場合、端末100は、第1音声コマンドにおける少なくとも1つの第3部分が「タオバオ」であり、第1音声コマンドにおける第4部分が「ウインドブレーカ」であると決定し得る。第1テキスト情報における少なくとも1つの第1部分「タオバオ」は、第1音声コマンドにおける少なくとも1つの第3部分「タオバオ」と同一であり、第1音声コマンド「タオバオを通じてウインドブレーカを購入」における少なくとも1つの第3部分「タオバオ」と第4部分「ウインドブレーカ」との間の位置関係は、第1テキスト情報「タオバオを通じて牛乳を購入」における少なくとも1つの第1部分「タオバオ」と第2部分「牛乳」との間の位置関係と同一である。したがって、端末100は、第1音声コマンド「タオバオを通じてウインドブレーカを購入」が第1テキスト情報「タオバオを通じて牛乳を購入」と一致すると決定し得る。
少なくとも1つの第1部分は、第1アプリケーション識別子および/または第1インタフェース識別子を含み、第2部分は第1検索語を含む。言い換えれば、第1音声コマンドにおける第3部分が第1アプリケーション識別子および/または第1インタフェース識別子であり、第1音声コマンドにおける第4部分と第3部分との間の位置関係が、第1テキスト情報における第1部分と第2部分との間の位置関係と同一であるとき、端末100は、第1音声コマンドが第1テキスト情報に一致すると決定し得る。
端末100が操作情報に基づいて、対応する操作を実行する方法は、端末100が第1アプリケーション識別子、第1インタフェース識別子、操作指示情報、および第4部分(例えば第2検索語)に対応する操作を実行することを含み得る。例えば、上述の例に関連して、携帯電話300は、図8aに示される音声制御インタフェース801における「記録」ボタン802上でユーザによって実行されるタッチアンドホールド操作に応答して、ユーザによって入力される第1音声コマンド、例えば、「タオバオを通じてウインドブレーカを購入」を受信し得る。携帯電話300は、第1音声コマンド「タオバオを通じてウインドブレーカを購入」が第1テキスト情報「(タオバオ)を通じて[牛乳]を購入」と一致すると決定し得る。したがって、携帯電話300は、図8bから図8dに示される操作インタフェースを順次表示し得る。具体的には、携帯電話300は、アプリケーション識別子「タオバオ」に基づいて、「タオバオアプリケーション」を開始し、図8bに示されるタオバオのホームページ804を表示し得る。携帯電話300は、操作指示情報aおよび検索語「ウインドブレーカ」に基づいて、タオバオのホームページ804上の検索ボックスをユーザがタップする操作を模擬し、図8bに示されるタオバオのホームページ804上に、ユーザの指が検索ボックスをタップするインタフェースを表示し、タオバオのホームページ804上の検索ボックスにユーザが検索語を入力する操作を模擬し、タオバオのホームページ804上に、ユーザによって入力される、第2操作情報である検索語「ウインドブレーカ」を表示し得る。携帯電話300は、操作指示情報b(ユーザが検索ボックスにおける検索ボタンをタップすることを示すために使用される指示情報)に基づいて、検索ボックスにおける検索ボタンをユーザがタップすることを模擬し、図8cに示される表示インタフェース806を表示し得る。その後、携帯電話300は、図8cに示される検索ボックスにおける検索ボタン上でユーザによって実行されるタップ操作に応答して、図8dに示される検索結果インタフェース808を表示し得る。
図5a、図5b、図5c、図6a、図6bに示されるように、携帯電話300によって記録される第1テキスト情報は、「タオバオを通じて牛乳を購入」であるが、第1テキスト情報に一致する音声コマンドを受信した後に、携帯電話300は、端末100によって記録される、第1テキスト情報に対応する操作情報に基づいて、対応する操作を実行し得る。このように、携帯電話300の音声アシスタントによって受信される、例えば図8aに示される「タオバオを通じて」ウインドブレーカを購入」など、「タオバオを通じて牛乳を購入」に一致する音声コマンドがいかなるものでも、携帯電話300は、ユーザが「タオバオを通じてウインドブレーカを購入」に対応する操作を実行するよう携帯電話300をトリガすることを模擬し、図8b~図8dに対応する操作インタフェースを表示し得る。
本願の本実施形態において、図8bに示される指アイコン805、および、図8cに示される指アイコン807の各々は、携帯電話300がユーザの操作を模擬するときに表示される、ユーザの指を表すために使用される。図8aに示される指アイコン803は、携帯電話300がユーザの実際の操作を受信するときに表示される、ユーザの指を表すために使用される。図8bに示される指アイコン805は、図8aに示される指アイコン803と異なる。
任意選択で、第1音声コマンドが第1テキスト情報に一致すると決定した後に、端末100は、第1音声コマンドに対応する操作結果インタフェースを直接表示し得る。例えば、図8aに示される音声制御インタフェース801においてユーザによって入力される音声コマンド「タオバオを通じてウインドブレーカを購入」を受信した後に、携帯電話300は、図8dに示されるインタフェース808を直接表示し得る。
本願の本実施形態において音声制御コマンド生成方法が提供される。端末100は最初に、1または複数の操作に対応する操作情報を取得し、次に、接続語を使用してステートメントを形成することによって、事前設定された位置関係に基づいて、第1アプリケーション識別子および/または第1インタフェース識別子と、第1検索語とを接続し、複数のテキスト情報を取得し、複数のテキスト情報を含む第3インタフェースを表示し得、その結果、ユーザは、複数のテキスト情報から、ユーザの言語習慣に適合する第1テキスト情報を選択する。第1テキスト情報は、ユーザの言語習慣に適合する、ユーザによって選択されるコマンドである。端末100が第1音声コマンドを受信した後に、端末100は、ユーザがテキスト情報に対応する音声コマンドを一字一句違わずに話すときのみ対応する操作を実行するのではなく、第1音声コマンドのテキストが第1テキスト情報に一致するという条件で、操作情報に基づいて対応する操作を実行し得る。本解決手段によれば、カスタム音声制御の柔軟性を改善でき、ユーザエクスペリエンスを改善できる。
更に、端末100が第1テキスト情報を操作情報に対応するテキスト情報として決定した(すなわちS206)後に、端末100が第1音声コマンドを受信する(すなわちS207)前に、本願の本実施形態における方法はS901を含み得、その結果、端末100は、第1音声コマンドを受信した後に、第1音声コマンドが第1テキスト情報に一致する音声コマンドであるとより迅速かつ正確に識別し、次に、操作情報に基づいて対応する操作を実行できる。図9に示されるように、図2に示されるS206の後に、S207の前に、本願の本実施形態における方法は更にS901を含み得る。
S901:端末100は第1テンプレートテキストを生成する。
第1テンプレートテキストは、第1テキスト情報の第2部分を第1検索語のタイプ情報で置換することによって生成される。言い換えれば、第1テキスト情報が第1ユーザステートメントテンプレートにおける充填を通じて生成される場合、第1テンプレートテキストは、第1アプリケーション識別子および/または第1インタフェース識別子を第1ユーザステートメントテンプレートにおける第1充填項目に充填し、第1検索語のタイプ情報を第1ユーザステートメントテンプレートにおける第2充填項目に充填することによって生成される。
端末100は、第1検索語のタイプ情報を取得し、第1テキスト情報における第1検索語を第1検索語のタイプ情報で置換して、第1テンプレートコマンドを取得し得る。代替的に、端末100は、第1検索語のタイプ情報を取得し、第1アプリケーション識別子および/または第1インタフェース識別子を第1ユーザステートメントテンプレートの第1充填項目に充填し、第1検索語のタイプ情報を第1ユーザステートメントテンプレートの第2充填項目に充填して、第1テンプレートテキストを取得し得る。
例えば、上述の例に関連して、第1テキスト情報は「(タオバオ)を通じて[牛乳]を購入」であると想定する。携帯電話300は、第1検索語「牛乳」のタイプ情報が「商品」であると学習し得る。次に、携帯電話300は、「(タオバオ)を通じて[牛乳]を購入」における[牛乳]を、「商品」と置換し、第1テンプレートテキスト「(タオバオ)を通じて(商品)を購入」を取得し得る。代替的に、第1テキスト情報が「(タオバオ)を通じて[牛乳]を購入」であり、第1ユーザステートメントテンプレートが「(アプリケーション識別子)を通じて[検索語]を購入」であると想定すると、第1検索語が「牛乳」であり、第1アプリケーション識別子が「タオバオ」である。携帯電話300は、第1検索語「牛乳」のタイプ情報が「商品」であると学習し得る。次に、携帯電話300は、第1アプリケーション識別子「タオバオ」を第1充填項目()に充填し、第1検索語「牛乳」を第2充填項目[]に充填し、第1テンプレートテキスト「(タオバオ)を通じて[商品]を購入」を取得し得る。
第1音声コマンドのテキストが第1テキスト情報に一致することは、具体的には、第1音声コマンドのテキストが第1テンプレートテキストに一致することであり得る。図9に示されるように、図2に示されるS208はS902を含み得る。
S902:第1音声コマンドのテキストが第1テンプレートテキストに一致するとき、端末100は、操作情報に基づいて対応する操作を実行し得る。
第1音声コマンドのテキストが第1テンプレートテキストに一致することは、第1音声コマンドに対応するテキストにおける少なくとも1つの第3部分が少なくとも1つの第1部分と同一であり、第1音声コマンドにおける少なくとも1つの第3部分と第4部分との間の位置関係が、第1テキスト情報における少なくとも1つの第1部分と第2部分との間の位置関係と同一であり、第4部分が第1テンプレートテキストにおけるタイプ情報によって示されるタイプの単語であることを含み得る。
上述の例に関連して、第1テンプレートテキストは「タオバオを通じて[商品]を購入」であると想定する。第1音声コマンドが「タオバオを通じてウインドブレーカを購入」である場合、端末100は、第1音声コマンド「タオバオを通じてウインドブレーカを購入」の少なくとも1つの第3部分「タオバオ」が第1テンプレートテキストにおける少なくとも1つの第1部分「タオバオ」と同一であり、第1音声コマンド「タオバオを通じてウインドブレーカを購入」における少なくとも1つの第3部分「タオバオ」と第4部分「ウインドブレーカ」との間の位置関係が、第1テキスト情報「タオバオを通じて牛乳を購入」における少なくとも1つの第1部分「タオバオ」と第2部分「牛乳」との間の位置関係と同一であり、第4部分「ウインドブレーカ」が、第1テンプレートテキスト「(タオバオ)を通じて[商品]を購入」における「商品」によって示される商品タイプの単語であると決定し得る。したがって、端末100は、第1音声コマンド「タオバオを通じてウインドブレーカを購入」が第1テキスト情報「タオバオを通じて牛乳を購入」と一致すると決定し得る。
代替的に、第1ユーザステートメントテンプレートが「(アプリケーション識別子)を通じて[検索語]を購入」であり、第1テキスト情報が「(タオバオ)を通じて[牛乳]を購入」であると想定すると、第1アプリケーション識別子は「タオバオ」であり、第1検索語は「牛乳」であり、第1検索語「牛乳」のタイプ情報は「商品」である。端末100は、第1テンプレートテキスト「タオバオを通じて[商品]を購入」を生成し得る。
第1音声コマンドが「タオバオを通じてウインドブレーカを購入」である場合、端末100は、第1音声コマンド「タオバオを通じてウインドブレーカを購入」が、第1ユーザステートメントテンプレート「(アプリケーション識別子)を通じて[検索語]を購入」に適合すると決定し得る。第1音声コマンド「タオバオを通じてウインドブレーカを購入」は第1アプリケーション識別子「タオバオ」を含み、第1音声コマンド「タオバオを通じてウインドブレーカを購入」に含まれる第2検索語「ウインドブレーカ」は商品タイプの単語である。したがって、端末100は、第1音声コマンド「タオバオを通じてウインドブレーカを購入」が第1テンプレートテキスト「タオバオを通じて[商品]を購入」に一致すると決定し得る。
端末100は、操作情報を取得した後に、操作情報(第1操作情報と称される)を格納し得る。端末100は更に、第1テンプレートテキストを生成した後に、第1テンプレートテキストと操作情報との間の対応関係を格納し得る。このように、第1音声コマンドが第1テンプレートテキストに一致すると決定した後、端末100は、第1テンプレートテキストに対応する第1操作情報を発見し得る。第1操作情報は第1アプリケーション識別子、第1インタフェース識別子、第1検索語、および操作指示情報を含み、第1音声コマンドは第2検索語を含む。したがって、端末100は、第1アプリケーション識別子、第1インタフェース識別子、第2検索語、および操作指示情報を含む第2操作情報を取得し得る。端末100は、第1アプリケーション識別子、第1インタフェース識別子、操作指示情報、および第2検索語(すなわち第2操作情報)に対応する操作を実行し得る。
例えば、上述の例に関連して、第1テンプレートテキストが「タオバオで[商品]を購入」であり、第1音声コマンドが「タオバオで[ウインドブレーカ]を購入」であると想定すると、第2操作情報は、アプリケーション識別子「タオバオ」、インタフェース識別子「タオバオのホームページ」、および検索語「ウインドブレーカ」を含み得る。携帯電話300は、図8aに示される音声制御インタフェース801における「記録」ボタン802上でユーザによって実行されるタッチアンドホールド操作に応答して、ユーザによって入力された第1音声コマンド、例えば、「タオバオを通じてウインドブレーカを購入」を受信し得る。携帯電話300は、第1音声コマンド「タオバオを通じてウインドブレーカを購入」が第1テンプレートテキスト「タオバオで[商品]を購入」に一致すると決定し得る。したがって、携帯電話300は、図8bから図8dに示される操作インタフェースを順次表示し得る。具体的には、携帯電話300は、第2操作情報におけるアプリケーション識別子「タオバオ」に基づいて「タオバオ」アプリケーションを開始し、図8bに示されるタオバオのホームページ804を表示し得る。携帯電話300は、操作指示情報aおよび検索語「ウインドブレーカ」に基づいて、タオバオのホームページ804上の検索ボックスをユーザがタップする操作を模擬し、図8bに示されるタオバオのホームページ804上で、ユーザの指が検索ボックスをタップするインタフェース804を表示し、タオバオのホームページ804上の検索ボックスにユーザが検索語を入力する操作を模擬し、タオバオのホームページ804上に、ユーザによって入力される、第2操作情報である検索語「ウインドブレーカ」を表示し得る。携帯電話300は、操作指示情報b(ユーザが検索ボックスにおける検索ボタンをタップすることを示すために使用される指示情報)に基づいて、検索ボックスにおける検索ボタンをユーザがタップすることを模擬し、図8cに示される表示インタフェースを表示し得る。その後、携帯電話300は、図8cに示される検索ボックスにおける検索ボタン上でユーザによって実行されるタップ操作に応答して、図8dに示される検索結果インタフェース808を表示し得る。
図5a、図5b、および図5c、ならびに図6a、図6bに示されるように、携帯電話300によって記録される第1テキスト情報は「タオバオを通じて牛乳を購入」であるが、携帯電話300は、第1テキスト情報の第1テンプレートテキスト「タオバオを通じて商品を購入」を生成し得る。このように、携帯電話300の音声アシスタントによって受信される、例えば図8aに示される「タオバオを通じて」ウインドブレーカを購入」など、「タオバオを通じて商品を購入」に一致する音声コマンドがいかなるものでも、携帯電話300は、ユーザが「タオバオを通じてウインドブレーカを購入」に対応するイベントを実行するよう携帯電話300をトリガするときに実行される操作を模擬し、図8b~図8dに対応する操作インタフェースを表示し得る。
本願の本実施形態において、図8bに示される指アイコン805、および、図8cに示される指アイコン807の各々は、携帯電話300がユーザの操作を模擬するときに表示される、ユーザの指を表すために使用される。図8aに示される指アイコン803は、携帯電話300がユーザの実際の操作を受信するときに表示される、ユーザの指を表すために使用される。図8bに示される指アイコン805は、図8aに示される指アイコン803と異なる。
任意選択で、端末100は、第1音声コマンドが第1テンプレートテキストに一致すると決定した後に、第2操作情報に対応する操作結果インタフェースを直接表示し得る。例えば、図8aに示される音声制御インタフェース801においてユーザによって入力される音声コマンド「タオバオを通じてウインドブレーカを購入」を受信した後に、携帯電話300は、第2操作情報に基づいて、図8dに示されるインタフェース808を直接表示し得る。
端末100は、第1テンプレートテキストを生成した後に、第1テンプレートテキストを格納し得る。携帯電話300は例として使用される。図7bに示されるように、携帯電話300が第1テンプレートテキストを格納した後に、1つのテキスト情報703、例えば、「タオバオを通じて商品(牛乳)を購入」が、図4aに示される「カスタム音声制御」インタフェース401と比較される、携帯電話300によって表示される「カスタム音声制御」インタフェース702に追加される。
任意選択で、端末100は更に、第1テンプレートテキストを生成した後に、第4インタフェースを表示し得る。第4インタフェースは、対応する操作を実行するよう端末100をトリガするために、第1テンプレートテキストに一致する第1音声コマンドを、音声アシスタントを通じて送信するようユーザに促すために使用される。
例えば、ユーザが図6aに示される第3インタフェース601においてコマンドオプション「(タオバオ)を通じて[牛乳]を購入」602を選択すると想定する。図6aに示される第3インタフェース601における「OK」ボタン上でユーザによって実行されるタップ操作に応答して、携帯電話300は、第1テンプレートテキスト「(タオバオ)を通じて[商品]を購入」を生成し、図6bに示される第4インタフェース603を表示し得る。第4インタフェース603は、第3プロンプト情報「あなたの操作に基づき、次回からは音声アシスタントに対して「タオバオを通じて**を購入」と話せます」604を含み得る。任意選択で、図6bに示されるように、第4インタフェース603は更に、第1テンプレートテキスト「タオバオを通じて**を購入」のステートメントインスタンス、例えば、「タオバオを通じてペンを購入」および「タオバオを通じて牛乳を購入」を含み得る。
本願の本実施形態において、端末100は最初に、1または複数の操作に対応する操作情報を取得し、次に、複数のテキスト情報を含む第3インタフェースを表示し得、その結果、ユーザは、複数のテキスト情報から、ユーザの音声習慣に適合する第1テキスト情報を選択する。複数のテキスト情報は、端末100に格納されたユーザステートメントテンプレートに操作情報を充填することによって生成される。端末100は、第1ユーザステートメントテンプレートにおける第1充填項目に第1アプリケーション識別子および/または第1インタフェース識別子を充填し、第1ユーザステートメントテンプレートにおける第2充填項目に第1検索語のタイプ情報を充填し、第1テンプレートテキストを生成し得る。端末100が、テンプレートテキストに一致する音声コマンドを次回に受信した場合、音声コマンドに対応する操作が端末100に記録されない場合でも、端末100は、ユーザが音声コマンドに対応する操作を実行するよう端末100をトリガすることを模擬し、対応する操作インタフェースを表示し得る。このように、カスタム音声制御の柔軟性を改善でき、ユーザエクスペリエンスを改善できる。
本願の本実施形態において、ここでは「旅行」アプリケーション上でユーザによって実行される1または複数の操作を端末が記録する例を使用して、本願の本実施形態における方法を説明する。
端末100は、第1インタフェースにおいてユーザによって実行される第4操作に応答して第2インタフェースを表示し得る。第2インタフェースは、1または複数の操作を受信するために使用される複数のインタフェースの一般用語である。通常、端末100は最初に、第4操作に応答して第1サブインタフェースを表示し得る。例えば、端末100は携帯電話300である。携帯電話300は、図4cに示される第1サブインタフェース409を表示し得る。
ユーザは第1サブインタフェース409における「旅行」アプリケーションアイコンをタップすると想定する。第1サブインタフェース409における「旅行」アプリケーションアイコン上でユーザによって実行されるタップ操作(すなわち、第1サブ操作)に応答して、携帯電話300は、図10aに示される第2サブインタフェース1001を表示し、第1アプリケーション識別子「旅行」を取得し得る。第2サブインタフェース1001は第2プロンプト情報1002および「旅行」ホームページ1003を含む。例えば、第2プロンプト情報1003は、「旅行」アプリケーションのインタフェースにテキスト情報に対応する1または複数の操作を入力してください」である。携帯電話300は、第2サブインタフェース1001における「鉄道乗車券」オプション上でユーザによって実行されるタップ操作を受信し得る。携帯電話300は、「鉄道乗車券」オプション上でユーザによって実行されるタップ操作に応答して、図10bに示される第3サブインタフェース1005を表示し得る。第3サブインタフェース1005は第2プロンプト情報および鉄道乗車券インタフェース1006を含む。携帯電話300は、「鉄道乗車券」オプション上でユーザによって実行されるタップ操作に応答して、ユーザが「鉄道乗車券」オプションをタップすることを示すために使用される操作指示情報c、および、鉄道乗車券インタフェース1006のインタフェース識別子を取得し得る。ユーザは、出発地を修正するために、鉄道乗車券インタフェース1006における「出発地」オプションをタップし得る。図10bに示されるように、「出発地」オプションに現在表示されている出発地は上海である。ユーザは更に、到着地を修正するために、鉄道乗車券インタフェース1006における「到着地」オプションをタップし得る。図10bに示されるように、「到着地」オプションに現在表示されている到着地は北京である。例えば、ユーザは到着地を修正する。図10bに示されるように、ユーザは、到着地を深センに修正するために、「到着地」オプションを操作すると想定する。携帯電話300は、「到着地」オプション上でユーザによって実行される操作に応答して、図10cに示される第4サブインタフェース1007を表示し得る。第3サブインタフェース1005は、第2プロンプト情報および鉄道乗車券インタフェース1006を含む。鉄道乗車券インタフェース1008における「到着地」オプションに現在表示されている到着地は深センである。携帯電話300は、「出発地」オプションおよび「到着地」オプション上でユーザによって実行される操作に応答して、ユーザが「出発地」オプションおよび到着地をオプション修正することを示すために使用される操作指示情報d、「出発地」オプションにおいてユーザによって入力される検索語「西安」、および、「到着地」オプションにおいてユーザによって入力される検索語「深セン」を取得し得る。
結論として、携帯電話300によって取得される操作情報は、「旅行」アプリケーションのアプリケーション識別子、「旅行」アプリケーションのホームページ識別子、操作指示情報c、鉄道乗車券インタフェース1006のインタフェース識別子、操作指示情報d、「出発地」オプションに入力された検索語「西安」、および、「到着地」オプションに入力された検索語「深セン」を含み得る。
図10a~図10cの各々は終了ボタン1004を含む。例えば、図10cに示される終了ボタン1004上でユーザによって実行されるタップ操作(すなわち第2操作)に応答して、携帯電話300は、1または複数の操作の記録を終了し、第3インタフェースを表示し得る。
旅行アプリケーションについては、「(アプリケーション識別子)において[検索語1]から[検索語2]までの(インタフェース識別子)を購入」、「[検索語1]から[検索語2]までの(インタフェース識別子)を購入」、「[検索語1]から[検索語2]までの(インタフェース識別子)」、「[検索語2]までの(インタフェース識別子)」などの複数のユーザステートメントテンプレートが端末100において構成され得る。操作情報は、アプリケーション識別子「旅行」、鉄道乗車券インタフェース1006のインタフェース識別子、「出発地」オプションに入力された検索語「西安」、「到着地」オプションに入力された検索語「深セン」、および、鉄道乗車券インタフェース1008のインタフェース識別子を含むと想定する。携帯電話300は、旅行アプリケーションのユーザステートメントテンプレートに操作情報を充填し、テキスト情報「(旅行)で[西安]から[深セン]までの(鉄道乗車券)を購入」、「[西安]から[深セン]までの(鉄道乗車券)を購入」、「[西安]から[深セン]までの(鉄道乗車券)」などを取得する。
例えば、携帯電話300は、図10cに示される終了ボタン1004上でユーザによって実行されるタップ操作に応答して、図11aに示される第3インタフェース1101を表示し得る。第3インタフェース1101は、複数のテキスト情報、例えば、「(旅行)で[西安]から[深セン]までの(鉄道乗車券)を購入」、「[西安]から[深セン]までの(鉄道乗車券)を購入」、「[西安]から[深セン]までの(鉄道乗車券)」1102、および「[深セン]までの(鉄道乗車券)」1103を含む。
端末100は、第3インタフェースにおける1または複数のテキスト情報に対してユーザによって実行される選択操作を受信し得る。例えば、携帯電話300は、第3インタフェース1101においてテキスト情報「[西安]から[深セン]までの(鉄道乗車券)」1102および「[深セン]までの(鉄道乗車券)」1103に対してユーザによって実行される選択操作を受信し得る。携帯電話300は、第3インタフェース1101に表示されるテキスト情報「[西安]から[深セン]までの(鉄道乗車券)」1102に対してユーザによって実行される選択操作に応答して、第1ユーザステートメントテンプレート「[出発地]から[到着地]への(インタフェース識別子)」を使用することにより、第1テンプレートテキスト「[出発地]から「到着地」までの(鉄道乗車券)」を生成し得る。携帯電話300は、第3インタフェース1101に表示されるテキスト情報「[深セン]への(鉄道乗車券)」1103に対してユーザによって実行される選択操作に応答して、第1ユーザステートメントテンプレート「[到着地]への(インタフェース識別子)」を使用することによって、第1テンプレートテキスト「[到着地]への(鉄道乗車券)」を生成し得る。
携帯電話300は、第1テキスト情報「[西安]から[深セン]までの(鉄道乗車券)」1102および「[深セン]までの(鉄道乗車券)」1103に対してユーザによって実行される選択操作に応答して、図11cに示される第4インタフェース1108を表示し得る。第4インタフェース1108は、第3プロンプト情報「あなたの操作に基づき、次回からは、音声アシスタントに対して、[出発地]から[到着地]までの(鉄道乗車券)、および、[到着地]までの(鉄道乗車券)と話せます」を含み得る。任意選択で、図11cに示されるように、第4インタフェース1108は更に、第1テンプレートテキスト「[出発地]から[到着地]までの(鉄道乗車券)」のステートメントインスタンス、例えば、「上海から西安までの鉄道乗車券」、および、第1テンプレートテキスト「[到着地]までの(鉄道乗車券)」のステートメントインスタンス、例えば、「西安までの鉄道乗車券」を含み得る。
携帯電話300は、図12aに示される音声制御インタフェース1201における「記録」ボタン1202に対してユーザによって実行されるタッチアンドホールド操作に応答して、ユーザによって入力される第1音声コマンド、例えば、「上海から西安までの鉄道乗車券」を受信し得る。携帯電話300は、第1音声コマンド「上海から西安までの鉄道乗車券」が、第1テンプレートテキスト「[出発地]から[到着地]までの(鉄道乗車券)」に一致すると決定し得る。したがって、携帯電話300は、図12bから図12dに示される操作インタフェースを順次表示し得る。
操作情報(すなわち第1操作情報)は、「旅行」アプリケーションのアプリケーション識別子、「旅行」アプリケーションのホームページ識別子、操作指示情報c、鉄道乗車券インタフェース1006のインタフェース識別子、操作指示情報d、「出発地」オプションに入力される検索語「西安」、「到着地」オプションに入力される検索語「深セン」を含み、第1音声コマンドは、「上海から西安までの鉄道乗車券」である。したがって、第2操作情報は、「旅行」アプリケーションのアプリケーション識別子、「旅行」アプリケーションのホームページ識別子、操作指示情報c、鉄道乗車券インタフェースのインタフェース識別子、操作指示情報d、「出発地」オプションに入力された検索語「上海」、および、「到着地」オプションに入力された検索語「西安」を含む。
音声制御インタフェース1201においてユーザによって入力された第1音声コマンド「上海から西安までの鉄道乗車券」に応答して、携帯電話300は、第2操作情報におけるアプリケーション識別子「旅行」に基づいて、「旅行」アプリケーションを開始し、「旅行」アプリケーションのホームページ識別子に基づいて「旅行」アプリケーションのホームページを表示し得る。携帯電話300は、操作指示情報c(ユーザが「旅行」アプリケーションのホームページ上の「鉄道乗車券」オプションをタップすることを示すために使用される操作指示情報)に基づいて、ユーザが「旅行」アプリケーションのホームページ上の「鉄道乗車券」オプションをタップすることを模擬して、図12bに示されるインタフェース1203を表示し得る。その後、携帯電話300は、鉄道乗車券インタフェースのインタフェース識別子に基づいて、鉄道乗車券インタフェースを表示し、操作指示情報d(ユーザが「出発地」オプションおよび「到着地」オプションを修正することを示すために使用される操作指示情報)に基づいて、「出発地」オプションおよび「到着地」オプションを修正するために使用される操作指示情報を模擬し、図12cに示されるインタフェース1204を表示し得る。加えて、携帯電話300は、「出発地」オプションに入力された検索語「上海」および「到着地」オプションに入力された検索語「西安」に基づいて、図12dに示される表示インタフェース1205を表示し得る。このように、図12aに示される音声制御インタフェース1201において、ユーザが音声コマンド「上海から西安までの鉄道乗車券」を携帯電話300に入力した後に、携帯電話300は、図12b~図12dに示される操作インタフェースを自動的に表示し得る。ユーザは、図12dに示されるインタフェース1205における「問い合わせ」ボタンをタップするだけで、上海から西安までの鉄道乗車券を問い合わせるように携帯電話300をトリガできる。
ユーザが同一のオブジェクトについて異なる名前(またはステートメント)を有し得ることを考慮して、端末100は更に、第4インタフェースを表示する前に、エイリアス入力ボックスを含む第5インタフェースを表示し得る。このように、ユーザは、エイリアス入力ボックスにおいて第1テキスト情報のエイリアスを作成し得る。具体的には、端末100が第4インタフェースを表示することは、端末100が第5インタフェースを表示することを含み得る。第5インタフェースはエイリアス入力ボックスを含む。エイリアス入力ボックスは第2テキスト情報を受信するために使用され、第2テキスト情報は第1テキスト情報についてユーザによって作成されるエイリアスである。端末100は、第5インタフェースにおいてユーザによって実行される第5操作を受信する。第5操作は、テキスト情報の記録を終了するように端末100をトリガするために使用される。端末100は、第5操作に応答して第4インタフェースを表示する。
例えば、携帯電話300は、図11aに示される第3インタフェース1101における第1テキスト情報「[西安]から[深セン]までの(鉄道乗車券)」1102および「[深セン]までの(鉄道乗車券)」1103に対してユーザによって実行される選択操作に応答して、図11bに示される第5インタフェース1104を表示し得る。第5インタフェース1104はエイリアス入力ボックス1107を含む。
携帯電話300は、図13aに示される第3インタフェース1301における第1テキスト情報「[タオバオ]を通じて(牛乳)を購入」1302に対してユーザによって実行される選択操作に応答して、図13bに示される第5インタフェース1303を表示し得る。第5インタフェース1303はエイリアス入力ボックス1305を含む。
任意選択で、第5インタフェースは更に、エイリアス入力ボックスに第2テキスト情報を入力するようユーザに示すために使用されるプロンプト情報を含み得る。例えば、図13bに示される第5インタフェース1303は更に、「ヒント:上述のコマンドのエイリアスをエイリアス入力ボックスに入力できます」というプロンプト情報を含む。
任意選択で、第5インタフェースは更に第4プロンプト情報を含み得る。第4プロンプト情報は、ユーザによって選択される第1テキスト情報を示すために使用される。例えば、図11bに示される第5インタフェース1104は更に、第4プロンプト情報「[西安]から[深セン]までの(鉄道乗車券)」1105および「[深セン]までの(鉄道乗車券)」1106を含む。図13bに示される第5インタフェース1303は更に、第4プロンプト情報「[タオバオ]を通じて(牛乳)を購入」1304を含む。
第5インタフェースにおいてユーザによって実行される第5操作は、第5インタフェースにおける「OK」ボタン上でユーザによって実行されるタップ操作()例えばシングルタップ操作であり得る。例えば、第5操作は、図11bに示される「OK」ボタン上でユーザによって実行されるタップ操作であり得る。代替的に、第5インタフェースにおいてユーザによって実行される第5操作は、第5インタフェースにおいてユーザによって入力される事前設定ジェスチャであり得る。例えば、事前設定ジェスチャは、上スライドジェスチャ、またはS字ジェスチャなどであり得る。
一部のユーザは、第5インタフェースにおけるエイリアス入力ボックスに第2テキスト情報を入力しないことを理解されたい。言い換えれば、ユーザは、第1テキスト情報についてエイリアスを作成しない。この場合、端末100は、第5操作に応答して第4インタフェースを直接表示し得る。例えば、携帯電話300は、図11bに示される「OK」ボタン上でユーザによって実行されるタップ操作に応答して、図11cに示される第4インタフェース1108を表示し得る。
一部の他のユーザは、第5インタフェースにおけるエイリアス入力ボックスにおいて第2テキスト情報を入力し、第1テキスト情報についてのエイリアスを作成し得る。この場合、端末100が第5インタフェースを表示した後に、端末100は、エイリアス入力ボックスにおいてユーザによって入力された第2テキスト情報を受信し、第2テキスト情報をエイリアス入力ボックスに表示し得る。これに対応して、端末100は、第5インタフェースにおいてユーザによって実行される第5操作に応答して、第2テキスト情報、および、第2テキスト情報と操作情報との対応関係を格納し得る。このように、テキストが第2テキスト情報と同一である第2音声コマンドを受信した後に、端末100は、第2テキスト情報に対応する操作情報に基づいて、操作情報に対応する操作を実行し得る。
例えば、携帯電話300は、図13bに示される第5インタフェース1303におけるエイリアス入力ボックス1305においてユーザによって入力された第2テキスト情報「タオバオで牛乳」を受信し、図13cに示される第5インタフェース1306を表示し得る。図13cに示される第5インタフェース1306において、第2テキスト情報「タオバオで牛乳」は、エイリアス入力ボックス1305に表示される。携帯電話300は、図13cに示される「OK」ボタン上でユーザによって実行されるタップ操作に応答して、第2テキスト情報「タオバオで牛乳」1310を含む、図13dに示される第4インタフェース1308を表示し得る。
第2テキスト情報は「タオバオで牛乳」であり、操作情報は、アプリケーション識別子「タオバオ」、操作指示情報a、操作指示情報b、および検索語「牛乳」を含むと想定する。携帯電話300は、第2テキスト情報「タオバオで牛乳」と、アプリケーション識別子「タオバオ」、操作指示情報a、操作指示情報b、および検索語「牛乳」を含む操作情報との間の対応関係を格納し得る。第2テキスト情報と操作情報との間の対応関係は、テキストが第2テキスト情報と同一である第2音声コマンドを端末100が受信したとき、第2音声コマンドに対応する操作を実行するよう端末100をトリガするようにユーザを模擬することを端末100に示し、対応する操作インタフェースを表示するために使用される。
本願の本実施形態において提供される音声制御コマンド生成方法によれば、端末100は更に、第1テキスト情報についてユーザによって作成されるエイリアス(すなわち第2テキスト情報)のサービスを提供し得る。加えて、第2テキスト情報を受信したとき、端末100の音声アシスタントはまた、ユーザが端末100をトリガして第2音声コマンドに対応する操作を実行することを模擬し、対応する操作インタフェースを表示し得る。このように、カスタム音声制御の柔軟性を改善でき、ユーザエクスペリエンスを改善できる。
上述の機能を実装するために、端末などは、機能を実行するための対応するハードウェア構造および/またはソフトウェアモジュールを含むと理解されたい。当業者であれば、本明細書に開示される実施形態、に関連して説明される例、本願の実施形態におけるユニット、アルゴリズムおよび段階は、ハードウェア、または、ハードウェアおよびコンピュータソフトウェアの組み合わせによって実装できることに容易に気付くはずである。ある機能がハードウェアで実行されるのか、またはコンピュータソフトウェアで駆動するハードウェアで実行されるのかは、技術的解決手段の特定の用途及び設計上の制約条件に依存する。当業者は、説明された機能を各特定の用途のために実装すべく、異なる方法を使用してよいが、当該実装が、本願の実施形態の範囲を超えるものとみなされるべきではない。
本願の実施形態において、端末などは、上述の方法の例に基づいて、機能モジュールに分割され得る。例えば、各機能モジュールは、対応する各機能に基づく分割によって取得されてもよく、2つ以上の機能が1つの処理モジュールに統合されてもよい。統合されたモジュールは、ハードウェアの形式で実装され得るか、または、ソフトウェア機能モジュールの形式で実装され得る。本願の実施形態において、モジュールの分割は例であり、単に論理的な機能分割であり、実際の実装においては他の分割もあり得ることに留意すべきである。
各機能モジュールが対応する各機能に基づく分割を通じて取得されるとき、図14は、上述の実施形態における端末の考えられる概略構造図である。端末1400は、表示ユニット1401、入力ユニット1402、記録ユニット1403、決定ユニット1404、および実行ユニット1405を含む。
表示ユニット1401は、「第1操作に応答してプロンプト情報を表示する」操作、上記の方法の実施形態におけるS201、S202、およびS204の実行において端末1400をサポートするよう構成され、および/または、本明細書において説明される技術の別のプロセスを実行するよう構成される。
入力ユニット1402は、上記の方法の実施形態における、「ユーザによって入力された第1操作を受信する」操作、「ユーザによって入力された第2操作を受信する」操作、「第1インタフェースにおいてユーザによって入力された第4操作を受信する」操作、S205、S207、「ユーザによって入力された第5操作を受信する」操作、および、「エイリアス入力ボックスにおいてユーザによって入力された第2テキスト情報を受信する」操作の実行において端末1400をサポートするよう構成され、および/または、本明細書において説明される技術の別のプロセスを実行するよう構成される。記録ユニット1403は、上記の方法の実施形態におけるS203の実行において端末1400をサポートするよう構成され、および/または、本明細書において説明される技術の別のプロセスを実行するよう構成される。決定ユニット1404は、上記の方法の実施形態におけるS206の実行において端末1400をサポートするよう構成される、および/または、本明細書において説明される技術の別のプロセスを実行するよう構成される。実行ユニット1405は、上記の方法の実施形態におけるS208およびS902の実行において端末1400をサポートするよう構成され、および/または、本明細書において説明される技術の別のプロセスを実行するよう構成される。
端末1400は更に、生成ユニットおよびストレージユニットを含み得る。生成ユニットは、上記の方法の実施形態におけるS901の実行において端末1400をサポートするよう構成され、および/または、本明細書において説明される技術の別のプロセスを実行するよう構成される。
ストレージユニットは、操作情報、第1テキスト情報、第2テキスト情報、第1テンプレートテキスト、第2テキスト情報と操作情報との間の対応関係などを格納するよう構成される。
上記の方法の実施形態における段階の全部の関連内容は、対応する機能モジュールの機能説明において引用され得る。詳細は、再度ここで説明しない。
当然、端末1400は、上で列挙されたユニットおよびモジュールを含むが、それらに限定されない。例えば端末1400は受信ユニットおよび送信ユニットを更に含み得る。受信ユニットは、別の端末によって送信されたデータまたは命令を受信するよう構成される。送信ユニットは、別の端末へデータまたは命令を送信するよう構成される。加えて、具体的には機能ユニットによって実装できる機能は、上述の例における方法の段階に対応する機能を含むが、それらに限定されない。端末1400の他のユニットの詳細な説明については、ユニットに対応する方法の段階の詳細な説明を参照されたい。本願の本実施形態において、詳細はここで再び説明しない。
統合ユニットが使用されるとき、図15は、上述の実施形態における端末の考えられる概略構造図である。端末1500は、処理モジュール1501、ストレージモジュール1502、および表示モジュール1503を含む。処理モジュール1501は、端末1500の動作を制御および管理するよう構成される。表示モジュール1503は、処理モジュール1501によって生成される画像を表示するよう構成される。ストレージモジュール1502は、端末のプログラムコードおよびデータを格納するよう構成される。例えば、ストレージモジュール1502は、操作情報、第1テキスト情報、第2テキスト情報、第1テンプレートテキスト、第2テキスト情報と操作情報との間の対応関係などを格納する。任意選択で、端末1500は更に、別のネットワークエンティティとの通信において端末をサポートするよう構成される通信モジュールを含み得る。端末1500に含まれるユニットの詳細な説明については、上記の方法の実施形態における説明を参照されたい。詳細は、再度ここで説明しない。
処理モジュール1501は、プロセッサまたはコントローラであり得、例えば、中央処理装置(Central Processing Unit, CPU)、汎用プロセッサ、デジタル信号プロセッサ(Digital Signal Processor, DSP)、特定用途向け集積回路(Application-Specific Integrated Circuit, ASIC)、フィールドプログラマブルゲートアレイ(Field Programmable Gate Array, FPGA)、別のプログラマブル論理デバイス、トランジスタ論理デバイス、ハードウェアコンポーネント、またはそれらの任意の組み合わせであり得る。プロセッサは、本願に開示される内容に関連して説明される様々な例の論理ブロック、モジュール、回路を実装または実行し得る。プロセッサは代替的に、コンピューティング機能を実装するプロセッサの組み合わせ、例えば、1または複数のマイクロプロセッサの組み合わせ、または、DSPおよびマイクロプロセッサの組み合わせであり得る。通信モジュールは、送受信機、送受信機回路、通信インタフェースなどであり得る。ストレージモジュール1502はメモリであり得る。
処理モジュール1501がプロセッサ(例えば図1に示されるプロセッサ110)であるとき、通信モジュールは、Wi-Fi(登録商標)モジュールおよびBluetooth(登録商標)モジュール(例えば、図1に示される通信モジュール160)を含む。Wi-FiモジュールおよびBluetooth(登録商標)モジュールなどの通信モジュールは、通信インタフェースと総称され得る。ストレージモジュール1502は、メモリ(例えば、図1に示される内部メモリ121)である。表示モジュール1503がタッチスクリーン(図1に示される表示画面194を含む)であるとき、本願の本実施形態において提供される端末は、図1に示される端末100であり得る。プロセッサ、通信インタフェース、タッチスクリーン、およびメモリは、バスを使用することによって、共に連結され得る。
本願の実施形態は更に、コンピュータ記憶媒体を提供する。コンピュータ記憶媒体はコンピュータプログラムコードを格納し、プロセッサがコンピュータプログラムコードを実行するとき、端末は、図2または図9における関連する方法の段階を実行して、上述の実施形態における方法を実装する。
本願の実施形態は更に、コンピュータプログラム製品を提供する。コンピュータプログラム製品がコンピュータ上で動作するとき、コンピュータは、図2または図9における関連する方法の段階を実行して、上述の実施形態における方法を実装することが可能となる。
本願の実施形態において提供される端末1400、端末1500、コンピュータ記憶媒体、およびコンピュータプログラム製品の各々は、上で提供される対応する方法を実行するよう構成される。したがって、端末1400、端末1500、コンピュータ記憶媒体、およびコンピュータプログラム製品によって達成できる有益な効果については、上で提供される対応する方法における有益な効果を参照されたい。詳細は、再度ここで説明しない。
上述の実装の説明に基づいて、当業者であれば、便利で簡潔な説明を目的として、上述の機能モジュールへの分割は単に説明のための例として使用されることを明確に理解し得る。実際の用途において、上述の機能は、要件に基づく実装のために、異なるモジュールに割り当てることができる。すなわち、上で説明された機能の全部または一部を実装するために、機器の内部構造は、異なる機能モジュールに分割される。
本願において提供される複数の実施形態において、開示された機器および方法は別の方式で実装され得ることが理解されるべきである。例えば、記載される機器の実施形態は単に例である。例えば、モジュールまたはユニットへの分割は単に、論理的な機能分割であり、実際の実装において、他の分割であり得る。例えば、複数のユニットまたはコンポーネントは、組み合わされ得る、または、別の機器に統合され得る、または、いくつかの特徴が無視され得る、もしくは実行されないことがあり得る。加えて、表示または説明された相互結合または直接結合もしくは通信接続は、いくつかのインタフェースを通じて実装され得る。機器またはユニットの間の間接的な結合または通信接続は、電子的形式、機械的形式、または別の形式で実装され得る。
別個の部分として説明されるユニットは、物理的に別個でも、そうでなくてもよく、ユニットとして表示される部分は、1または複数の物理的ユニットであり得、1つの場所に配置され得る、または、異なる場所に分布し得る。実施形態の解決手段の目的を達成するために、ユニットの一部または全部は、実際の要件に基づいて選択され得る。
加えて、本願の実施形態における機能ユニットは、1つの処理ユニットに統合され得る、または、ユニットの各々は物理的に単独で存在し得る、または、2つ以上のユニットが1つのユニットに統合され得る。統合ユニットは、ハードウェアの形式で実装され得る、または、ソフトウェア機能ユニットの形式で実装され得る。
統合ユニットがソフトウェア機能ユニットの形式で実装され、独立の製品として販売または使用されるとき、統合ユニットは、可読記憶媒体に格納され得る。そのような理解に基づき、本願の実施形態の技術的解決手段は基本的に、または、従来技術に貢献する部分、または、技術的解決手段の全部もしくは一部は、ソフトウェア製品の形式で実装され得る。ソフトウェア製品は記憶媒体に格納され、本願の実施形態における方法の段階の全部または一部を実行するようにデバイス(シングルチップマイクロコンピュータ、またはチップなどであり得る)またはプロセッサ(processor)に命令するための複数の命令を含む。記憶媒体は、プログラムコードを格納できる任意の媒体、例えば、USBフラッシュドライブ、リムーバブルハードディスク、ROM、RAM、磁気ディスク、または光学ディスクを含む。
上述の説明は単に、本願の特定の実装であり、本願の保護範囲を限定する意図は無い。本願において開示される技術的範囲内の任意の変形または置換は、本願の保護範囲内に含まれるものとする。したがって、本願の保護範囲は、請求項の保護範囲の対象となる。
他の可能な請求項(項目1) 音声制御コマンド生成方法であって、
端末が、第1操作に応答して、プロンプト情報を表示する段階であって、上記プロンプト情報は、記録対象操作を入力するようユーザに促すために使用される、段階と、
上記端末が、上記ユーザによって入力される1または複数の操作を受信する段階と、
上記端末が、上記ユーザによって入力される第2操作に応答して、上記1または複数の操作に対応する操作情報を記録する段階と、
上記端末が、上記ユーザによって入力される第3操作に基づいて、上記操作情報に対応する第1テキスト情報を決定する段階と、
上記端末が第1音声コマンドを受信する段階と、
上記第1音声コマンドに対応するテキストが上記第1テキスト情報に一致するとき、上記端末が、上記操作情報に基づいて対応する操作を実行する段階と
を備える音声制御コマンド生成方法。(項目2) 上記第1テキスト情報は少なくとも1つの第1部分および第2部分を含み、
上記第1音声コマンドに対応する上記テキストが上記第1テキスト情報に一致することは、
上記第1音声コマンドに対応する上記テキストにおける少なくとも1つの第3部分が、上記少なくとも1つの第1部分と同一であり、上記第1音声コマンドにおける上記少なくとも1つの第3部分とz第4部分との間の位置関係が、上記第1テキスト情報における上記少なくとも1つの第1部分と上記第2部分との間の位置関係と同一であることを含む、
項目1に記載の音声制御コマンド生成方法。(項目3) 上記操作情報は、第1アプリケーション識別子、第1インタフェース識別子、第1検索語、および操作指示情報を含み、上記第1アプリケーション識別子は、上記1または複数の操作に対応する操作オブジェクトアプリケーションの識別子であり、上記第1インタフェース識別子は、上記1または複数の操作に対応する操作オブジェクトインタフェースの識別子であり、上記操作指示情報は、上記1または複数の操作を通じて上記操作オブジェクトインタフェースにおいて実行される操作を示すために使用され、
上記少なくとも1つの第1部分は、上記第1アプリケーション識別子および/または上記第1インタフェース識別子を含み、上記第2部分は上記第1検索語を含む、
項目2に記載の音声制御コマンド生成方法。(項目4) 端末が第1操作に応答してプロンプト情報を表示する上記段階は、
上記端末が、上記第1操作に応答して音声アシスタントの第1インタフェースに上記プロンプト情報を表示する段階を含み、
上記端末が、上記ユーザによって入力される1または複数の操作を受信する段階は、
上記端末が、上記第1インタフェースにおいて上記ユーザによって実行される第4操作に応答して、第2インタフェースを表示する段階であって、上記第2インタフェースは、上記1または複数の操作を入力するために上記ユーザによって使用される、段階と、
上記端末が、上記第2インタフェースにおいて上記ユーザによって入力される上記1または複数の操作を受信する段階と
を含む、項目1から3のいずれか一項に記載の音声制御コマンド生成方法。(項目5) 上記端末が、上記ユーザによって入力された第3操作に基づいて、上記操作情報に対応する上記テキスト情報を決定する上記段階の前に、上記方法は更に、
上記端末が、上記第2操作に応答して、第3インタフェースを表示する段階であって、上記第3インタフェースは、少なくとも2つのテキスト情報を含み、上記少なくとも2つのテキスト情報は、接続語を使用することによって、事前設定された位置関係に基づいて、上記第1アプリケーション識別子および/または第1インタフェース識別子と上記第1検索語とを接続することによって形成されるステートメントである、段階を含み、
上記端末が、上記ユーザによって入力される第3操作に基づいて、上記操作情報に対応する上記テキスト情報を決定する上記段階は、
上記端末が、上記第3インタフェースにおける上記少なくとも2つのテキスト情報における上記第1テキスト情報に対して上記ユーザによって実行される上記第3操作を受信する段階であって、上記第3操作は、上記少なくとも2つのテキスト情報から上記第1テキスト情報を選択するために使用される、段階と、
上記端末が、上記第3操作に応答して、上記第1テキスト情報を上記操作情報に対応する上記テキスト情報として決定する段階と
を含む、項目3に記載の音声制御コマンド生成方法。(項目6) 上記端末が、上記第3操作に応答して、上記第1テキスト情報を上記操作情報に対応する上記テキスト情報として決定した後に、上記端末が第1音声コマンドを受信する上記段階の前に、上記方法は更に、
上記端末が、第1テンプレートテキストを生成する段階であって、上記第1テンプレートテキストは、上記第1テキスト情報における上記第2部分を上記第1検索語のタイプ情報で置換することによって生成される、段階を含み、
上記第1音声コマンドの上記テキストが上記第1テキスト情報に一致することは、具体的には、上記第1音声コマンドの上記テキストが上記第1テンプレートテキストに一致することであり、
上記第1音声コマンドの上記テキストが上記第1テンプレートテキストに一致することは、上記第1音声コマンドに対応する上記テキストにおける少なくとも1つの上記第3部分が、少なくとも1つの上記第1部分と同一であり、上記第1音声コマンドにおける少なくとも1つの上記第3部分と上記第4部分との間の上記位置関係は、上記第1テキスト情報における少なくとも1つの上記第1部分と上記第2部分との間の上記位置関係と同一であり、上記第4部分は、上記第1テンプレートテキストにおけるタイプ情報によって示されるタイプの単語であることを含む、
項目3または5に記載の音声制御コマンド生成方法。(項目7) 上記端末が第1テンプレートテキストを生成する上記段階の後に、上記端末が第1音声コマンドを受信する上記段階の前に、上記方法は更に、
上記端末が第4インタフェースを表示する段階であって、上記第4インタフェースは、対応する操作を実行するよう上記端末をトリガするために、上記第1テンプレートテキストに一致する上記第1音声コマンドを、音声アシスタントを通じて送信するように上記ユーザを促すために使用される、段階を備える、項目6に記載の音声制御コマンド生成方法。(項目8) 上記端末が第4インタフェースを表示する上記段階の前に、上記方法は更に、
上記端末が、第5インタフェースを表示する段階であって、上記第5インタフェースはエイリアス入力ボックスを含み、上記エイリアス入力ボックスは、第2テキスト情報を受信するために使用され、上記第2テキスト情報は、上記第1テキスト情報について上記ユーザによって作成されるエイリアスである、段階と、
上記端末が、上記エイリアス入力ボックスにおいて上記ユーザによって入力された上記第2テキスト情報を受信し、上記エイリアス入力ボックスに上記第2テキスト情報を表示する段階と
を備え、
上記端末が第4インタフェースを表示する上記段階は、
上記端末が、上記第5インタフェースにおいて上記ユーザによって実行される第5操作を受信する段階であって、上記第5操作は、テキスト情報の記録を終了するように上記端末をトリガするために使用される、段階と、
上記端末が、上記第5操作に応答して、上記第4インタフェースを表示する段階と
を含み、
上記方法は更に、
上記端末が、上記第5操作に応答して、上記第2テキスト情報、および、上記第2テキスト情報と上記操作情報との間の対応関係を格納する段階を含み、
上記端末によって表示される上記第4インタフェースは更に上記第2テキスト情報を含む、
項目7に記載の音声制御コマンド生成方法。(項目9) 上記方法は更に、
上記端末が、上記音声アシスタントを通じて上記ユーザによって入力された第2音声コマンドを受信する段階と、
上記第2音声コマンドのテキストが上記第2テキスト情報と同一であるとき、上記端末が、上記第2テキスト情報と上記操作情報との間の上記対応関係に基づいて、上記操作情報に対応する操作を実行する段階と
を備える、項目8に記載の音声制御コマンド生成方法。(項目10) 端末であって、
上記端末は、1または複数のプロセッサ、メモリ、およびディスプレイを備え、上記メモリおよび上記ディスプレイは、上記プロセッサに連結され、上記ディスプレイは、上記プロセッサによって生成される画像を表示するよう構成され、上記メモリは、音声アシスタントのコンピュータプログラムコードおよび関連情報を格納するよう構成され、上記コンピュータプログラムコードはコンピュータ命令を含み、上記プロセッサが上記コンピュータ命令を実行するとき、
上記プロセッサは、第1操作に応答して、プロンプト情報を表示するよう上記ディスプレイを制御、するよう構成され、上記プロンプト情報は、記録対象操作を入力するようにユーザを促すために使用され、
上記プロセッサは更に、上記ユーザによって入力された1または複数の操作を受信し、上記ユーザによって入力された第2操作に応答して、上記1または複数の操作に対応する操作情報を記録し、上記操作情報を上記メモリに格納するよう構成され、
上記プロセッサは更に、上記ユーザによって入力された第3操作に基づいて、上記操作情報に対応する第1テキスト情報を決定し、第1音声コマンドを受信し、上記第1音声コマンドに対応するテキストが、上記第1テキスト情報に一致するとき、上記操作情報に基づいて、対応する操作を実行するよう構成される、
端末。(項目11) 上記プロセッサによって決定される上記第1テキスト情報は、少なくとも1つの第1部分、および、第2部分を含み、
上記プロセッサは更に、上記第1音声コマンドに対応する上記テキストにおける少なくとも1つの第3部分が、上記少なくとも1つの第1部分と同一であり、上記第1音声コマンドにおける上記少なくとも1つの第3部分と第4部分との間の位置関係が、上記第1テキスト情報における上記少なくとも1つの第1部分と上記第2部分との間の位置関係と同一であるとき、上記第1音声コマンドに対応する上記テキストは上記第1テキスト情報に一致すると決定するよう構成される、
項目10に記載の端末。(項目12) 上記プロセッサによって記録された上記操作情報は、第1アプリケーション識別子、第1インタフェース識別子、第1検索語および操作指示情報を含み、上記第1アプリケーション識別子は、上記1または複数の操作に対応する操作オブジェクトアプリケーションの識別子であり、上記第1インタフェース識別子は、上記1または複数の操作に対応する操作オブジェクトインタフェースの識別子であり、上記操作指示情報は、上記1または複数の操作を通じて上記操作オブジェクトインタフェースにおいて実行される操作を示すために使用され、
上記少なくとも1つの第1部分は、上記第1アプリケーション識別子および/または上記第1インタフェース識別子を含み、上記第2部分は、上記第1検索語を含む、
項目11に記載の端末。(項目13) 上記プロセッサが、第1操作に応答して、プロンプト情報を表示するよう上記ディスプレイを制御するよう構成されることは、
上記プロセッサが、上記第1操作に応答して、上記音声アシスタントの第1インタフェースにおいて上記プロンプト情報を表示するよう上記ディスプレイを制御するよう構成されることを含み、
上記プロセッサが、上記ユーザによって入力された1または複数の操作を受信するよう構成されることは、
上記プロセッサが、上記ディスプレイによって表示される上記第1インタフェースにおいて上記ユーザによって実行される第4操作に応答して、上記1または複数の操作を入力するために上記ユーザによって使用される第2インタフェースを表示するよう上記ディスプレイを制御し、上記ディスプレイによって表示される上記第2インタフェースにおいて上記ユーザによって入力される上記1または複数の操作を受信するよう構成されることを含む、
項目10または12のいずれか一項に記載の端末。(項目14) 上記プロセッサは更に、上記ユーザによって入力される上記第3操作に基づいて、上記操作情報に対応する上記テキスト情報を決定する前に、上記第2操作に応答して、第3インタフェースを表示するよう上記ディスプレイを制御するよう構成され、上記第3インタフェースは、少なくとも2つのテキスト情報を含み、上記少なくとも2つのテキスト情報は、接続語を使用することによって、事前設定された位置関係に基づいて、上記第1アプリケーション識別子および/または上記第1インタフェース識別子と上記第1検索語とを接続することによって形成されるステートメントであり、
上記プロセッサが、上記ユーザによって入力される第3操作に基づいて、上記操作情報に対応する上記テキスト情報を決定するよう構成されることは、
上記プロセッサが、上記ディスプレイによって表示される上記第3インタフェースにおける上記少なくとも2つのテキスト情報における上記第1テキスト情報に対して上記ユーザによって実行される上記第3操作を受信し、上記第3操作に応答して、上記第1テキスト情報を、上記操作情報に対応する上記テキスト情報として決定するよう構成されることを含み、上記第3操作は、上記少なくとも2つのテキスト情報から第1テキスト情報を選択するために使用される、
項目12に記載の端末。(項目15) 上記プロセッサは更に、上記第3操作に応答して、上記第1テキスト情報を、上記操作情報に対応するテキスト情報として決定した後に、上記第1音声コマンドを受信する前に、第1テンプレートテキストを生成するよう構成され、上記第1テンプレートテキストは、上記第1テキスト情報における上記第2部分を上記第1検索語のタイプ情報で置換することによって生成され、
上記プロセッサは更に、上記第1音声コマンドの上記テキストが上記第1テンプレートテキストに一致するとき、上記第1音声コマンドの上記テキストが上記第1テキスト情報に一致すると決定するよう構成され、
上記第1音声コマンドの上記テキストが上記第1テンプレートテキストに一致することは、上記第1音声コマンドに対応する上記テキストにおける少なくとも1つの上記第3部分が、少なくとも1つの上記第1部分と同一であり、上記第1音声コマンドにおける少なくとも1つの上記第3部分と上記第4部分との間の上記位置関係が、上記第1テキスト情報における少なくとも1つの上記第1部分と上記第2部分との間の上記位置関係と同一であり、上記第4部分は、上記第1テンプレートテキストのタイプ情報によって示されるタイプの単語であることを含む、
項目12または14に記載の端末。(項目16) 上記プロセッサは更に、上記第1テンプレートテキストを生成した後に、上記第1音声コマンドを受信する前に、第4インタフェースを表示するよう上記ディスプレイを制御するよう構成され、上記第4インタフェースは、対応する操作を実行するよう上記端末をトリガするために、上記第1テンプレートテキストに一致する上記第1音声コマンドを、上記音声アシスタントを通じて送信するよう上記ユーザを促すために使用される、項目15に記載の端末。(項目17) 上記プロセッサは更に、上記第4インタフェースを表示するよう上記ディスプレイを制御する前に、第5インタフェースを表示するよう上記ディスプレイを制御するよう構成され、上記第5インタフェースは、エイリアス入力ボックスを含み、上記エイリアス入力ボックスは、第2テキスト情報を受信するために使用され、上記第2テキスト情報は、上記第1テキスト情報について上記ユーザによって作成されるエイリアスであり、
上記プロセッサが第4インタフェースを表示するよう上記ディスプレイを制御するよう構成されることは、
上記プロセッサが、上記ディスプレイによって表示される上記第5インタフェースにおいて上記ユーザによって実行される第5操作を受信し、上記第5操作に応答して、上記第4インタフェースを表示するよう上記ディスプレイを制御するよう構成されることを含み、上記第5操作は、テキスト情報の記録を終了するよう上記端末をトリガするために使用され、
上記プロセッサは更に、上記第5操作に応答して、上記第2テキスト情報、および、上記第2テキスト情報と上記操作情報との間の対応関係を上記メモリに格納するよう構成され、
上記ディスプレイによって表示される上記第4インタフェースは更に、上記第2テキスト情報を含む、
項目16に記載の端末。(項目18) 上記プロセッサは更に、上記音声アシスタントを通じて上記ユーザによって入力される第2音声コマンドを受信し、上記第2音声コマンドのテキストが上記第2テキスト情報と同一であるとき、上記第2テキスト情報と上記操作情報との間の上記対応関係に基づいて、上記操作情報に対応する操作を実行するよう構成される、項目17に記載の端末。(項目19) コンピュータ命令を含むコンピュータ記憶媒体であって、上記コンピュータ命令が端末上で実行されるとき、上記端末は、項目1から9のいずれか一項に記載の音声制御コマンド生成方法を実行することが可能である、コンピュータ記憶媒体。(項目20) コンピュータプログラム製品であって、上記コンピュータプログラム製品がコンピュータ上で実行されるとき、上記コンピュータは、項目1から9のいずれか一項に記載の音声制御コマンド生成方法を実行することが可能である、コンピュータプログラム製品。

Claims (18)

  1. 音声制御コマンド生成方法であって、
    端末が第1操作に応答してプロンプト情報を表示する段階であって、前記プロンプト情報は、記録対象操作を入力するようユーザを促すために使用される、段階と、
    前記端末が、前記ユーザによって入力された1または複数の操作を受信する段階と、
    前記端末が、前記ユーザによって入力された第2操作に応答して、前記1または複数の操作に対応する操作情報を記録する段階と、
    前記端末が、前記ユーザによって入力された第3操作に基づいて、前記操作情報に対応する第1テキスト情報を決定する段階であって、前記第1テキスト情報は第1部分および第2部分を有する、段階と、
    前記端末が、第1音声コマンドを受信する段階と、
    前記第1音声コマンドに対応するテキストが前記第1テキスト情報に一致するとき、前記端末が、前記操作情報に基づいて、対応する操作を実行する段階と
    を備え、前記第1音声コマンドに対応する前記テキストが前記第1テキスト情報に一致することは、
    前記第1音声コマンドに対応する前記テキストが、前記第1テキスト情報と同一でなく、前記第1音声コマンドに対応する前記テキストにおける第3部分と第4部分との間の位置関係が、前記第1テキスト情報における前記第1部分と前記第2部分との間の位置関係と同一であり、前記第3部分は、前記第1部分と異なる、または、前記第4部分は前記第2部分と異なることを有する、
    音声制御コマンド生成方法。
  2. 前記操作情報は、第1アプリケーション識別子、第1インタフェース識別子、第1検索語、および操作指示情報を含み、前記第1アプリケーション識別子は、前記1または複数の操作に対応する操作オブジェクトアプリケーションの識別子であり、前記第1インタフェース識別子は、前記1または複数の操作に対応する操作オブジェクトインタフェースの識別子であり、前記操作指示情報は、前記1または複数の操作を通じて前記操作オブジェクトインタフェースにおいて実行される操作を示すために使用され、
    前記第1部分は、前記第1アプリケーション識別子および/または前記第1インタフェース識別子を含み、前記第2部分は前記第1検索語を含む、
    請求項1に記載の音声制御コマンド生成方法。
  3. 端末が第1操作に応答してプロンプト情報を表示する前記段階は、
    前記端末が、前記第1操作に応答して音声アシスタントの第1インタフェースに前記プロンプト情報を表示する段階を有し、
    前記端末が、前記ユーザによって入力される1または複数の操作を受信する前記段階は、
    前記端末が、前記第1インタフェースにおいて前記ユーザによって実行される第4操作に応答して、第2インタフェースを表示する段階であって、前記第2インタフェースは、前記1または複数の操作を入力するために前記ユーザによって使用される、段階と、
    前記端末が、前記第2インタフェースにおいて前記ユーザによって入力される前記1または複数の操作を受信する段階と
    を有する、請求項1または2に記載の音声制御コマンド生成方法。
  4. 前記端末が、前記ユーザによって入力された第3操作に基づいて、前記操作情報に対応する前記第1テキスト情報を決定する前記段階の前に、前記音声制御コマンド生成方法は更に、
    前記端末が、前記第2操作に応答して、第3インタフェースを表示する段階であって、前記第3インタフェースは、少なくとも2つのテキスト情報を有し、前記少なくとも2つのテキスト情報は、接続語を使用することによって、事前設定された位置関係に基づいて、前記第1アプリケーション識別子および/または前記第1インタフェース識別子と前記第1検索語とを接続することによって形成されるステートメントである、段階を備え、
    前記端末が、前記ユーザによって入力される第3操作に基づいて、前記操作情報に対応する前記第1テキスト情報を決定する前記段階は、
    前記端末が、前記第3インタフェースにおける前記少なくとも2つのテキスト情報における前記第1テキスト情報に対して前記ユーザによって実行される前記第3操作を受信する段階であって、前記第3操作は、前記少なくとも2つのテキスト情報から前記第1テキスト情報を選択するために使用される、段階と、
    前記端末が、前記第3操作に応答して、前記第1テキスト情報を前記操作情報に対応する前記テキスト情報として決定する段階と
    を有する、請求項2に記載の音声制御コマンド生成方法。
  5. 前記端末が、前記ユーザによって入力された第3操作に基づいて、前記操作情報に対応する第1テキスト情報を決定する前記段階の後に、前記端末が第1音声コマンドを受信する前記段階の前に、前記音声制御コマンド生成方法は更に、
    前記端末が、第1テンプレートテキストを生成する段階であって、前記第1テンプレートテキストは、前記第1テキスト情報における前記第2部分を前記第1検索語のタイプ情報で置換することによって生成される、段階を備え、
    前記第1音声コマンドの前記テキストが前記第1テキスト情報に一致することは、具体的には、前記第1音声コマンドの前記テキストが前記第1テンプレートテキストに一致することであり、
    前記第1音声コマンドの前記テキストが前記第1テンプレートテキストに一致することは、前記第1音声コマンドに対応する前記テキストにおける前記第3部分が、前記第1部分と同一であり、前記第1音声コマンドにおける前記第3部分と前記第4部分との間の前記位置関係は、前記第1テキスト情報における前記第1部分と前記第2部分との間の前記位置関係と同一であり、前記第4部分は、前記第1テンプレートテキストにおけるタイプ情報によって示されるタイプの単語であることを有する、
    請求項2または4に記載の音声制御コマンド生成方法。
  6. 前記端末が第1テンプレートテキストを生成する前記段階の後に、前記端末が第1音声コマンドを受信する前記段階の前に、前記音声制御コマンド生成方法は更に、
    前記端末が第4インタフェースを表示する段階であって、前記第4インタフェースは、対応する操作を実行するよう前記端末をトリガするために、前記第1テンプレートテキストに一致する前記第1音声コマンドを、音声アシスタントを通じて送信するように前記ユーザを促すために使用される、段階を備える、請求項5に記載の音声制御コマンド生成方法。
  7. 前記端末が第4インタフェースを表示する前記段階の前に、前記音声制御コマンド生成方法は更に、
    前記端末が、第5インタフェースを表示する段階であって、前記第5インタフェースはエイリアス入力ボックスを含み、前記エイリアス入力ボックスは、第2テキスト情報を受信するために使用され、前記第2テキスト情報は、前記第1テキスト情報について前記ユーザによって作成されるエイリアスである、段階と、
    前記端末が、前記エイリアス入力ボックスにおいて前記ユーザによって入力される前記第2テキスト情報を受信し、前記エイリアス入力ボックスに前記第2テキスト情報を表示する段階と
    を備え、
    前記端末が第4インタフェースを表示する前記段階は、
    前記端末が、前記第5インタフェースにおいて前記ユーザによって実行される第5操作を受信する段階であって、前記第5操作は、テキスト情報の記録を終了するように前記端末をトリガするために使用される、段階と、
    前記端末が、前記第5操作に応答して、前記第4インタフェースを表示する段階と
    を有し、
    前記音声制御コマンド生成方法は更に、
    前記端末が、前記第5操作に応答して、前記第2テキスト情報、および、前記第2テキスト情報と前記操作情報との間の対応関係を格納する段階を備え、
    前記端末によって表示される前記第4インタフェースは更に前記第2テキスト情報を含む、
    請求項6に記載の音声制御コマンド生成方法。
  8. 前記音声制御コマンド生成方法は更に、
    前記端末が、前記音声アシスタントを通じて前記ユーザによって入力される第2音声コマンドを受信する段階と、
    前記第2音声コマンドのテキストが前記第2テキスト情報と同一であるとき、前記端末が、前記第2テキスト情報と前記操作情報との間の前記対応関係に基づいて、前記操作情報に対応する操作を実行する段階と
    を備える、請求項7に記載の音声制御コマンド生成方法。
  9. 端末であって、
    前記端末は、1または複数のプロセッサ、メモリ、およびディスプレイを備え、前記メモリおよび前記ディスプレイは、前記1または複数のプロセッサに連結され、前記ディスプレイは、前記1または複数のプロセッサによって生成される画像を表示するよう構成され、前記メモリは、音声アシスタントのコンピュータプログラムコードおよび関連情報を格納するよう構成され、前記コンピュータプログラムコードはコンピュータ命令を有し、前記1または複数のプロセッサが前記コンピュータ命令を実行するとき、
    前記1または複数のプロセッサは、第1操作に応答して、プロンプト情報を表示するよう前記ディスプレイを制御するよう構成され、前記プロンプト情報は、記録対象操作を入力するようにユーザを促すために使用され、
    前記1または複数のプロセッサは更に、前記ユーザによって入力された1または複数の操作を受信し、前記ユーザによって入力された第2操作に応答して、前記1または複数の操作に対応する操作情報を記録し、前記操作情報を前記メモリに格納するよう構成され、
    前記1または複数のプロセッサは更に、前記ユーザによって入力された第3操作に基づいて、第1部分および第2部分を有し、前記操作情報に対応する第1テキスト情報を決定し、第1音声コマンドを受信し、前記第1音声コマンドに対応するテキストが前記第1テキスト情報に一致するとき、前記操作情報に基づいて、対応する操作を実行するよう構成され、前記第1音声コマンドに対応する前記テキストが前記第1テキスト情報に一致することは、
    前記第1音声コマンドに対応する前記テキストが、前記第1テキスト情報と同一でなく、前記第1音声コマンドに対応する前記テキストにおける第3部分と第4部分との間の位置関係が、前記第1テキスト情報における前記第1部分と前記第2部分との間の位置関係と同一であることを有し、前記第3部分は前記第1部分と異なる、または、前記第4部分は、前記第2部分と異なる、
    端末。
  10. 前記1または複数のプロセッサによって記録された前記操作情報は、第1アプリケーション識別子、第1インタフェース識別子、第1検索語および操作指示情報を含み、前記第1アプリケーション識別子は、前記1または複数の操作に対応する操作オブジェクトアプリケーションの識別子であり、前記第1インタフェース識別子は、前記1または複数の操作に対応する操作オブジェクトインタフェースの識別子であり、前記操作指示情報は、前記1または複数の操作を通じて前記操作オブジェクトインタフェースにおいて実行される操作を示すために使用され、
    前記第1部分は、前記第1アプリケーション識別子および/または前記第1インタフェース識別子を含み、前記第2部分は、前記第1検索語を含む、
    請求項9に記載の端末。
  11. 前記1または複数のプロセッサが、第1操作に応答して、プロンプト情報を表示するよう前記ディスプレイを制御するよう構成されることは、
    前記1または複数のプロセッサが、前記第1操作に応答して、前記音声アシスタントの第1インタフェースにおいて前記プロンプト情報を表示するよう前記ディスプレイを制御するよう構成されることを有し、
    前記1または複数のプロセッサが、前記ユーザによって入力された1または複数の操作を受信するよう構成されることは、
    前記1または複数のプロセッサが、前記ディスプレイによって表示される前記第1インタフェースにおいて前記ユーザによって実行される第4操作に応答して、前記1または複数の操作を入力するために前記ユーザによって使用される第2インタフェースを表示するよう前記ディスプレイを制御し、前記ディスプレイによって表示される前記第2インタフェースにおいて前記ユーザによって入力される前記1または複数の操作を受信するよう構成されることを有する、
    請求項9または10に記載の端末。
  12. 前記1または複数のプロセッサは更に、前記ユーザによって入力される前記第3操作に基づいて、前記操作情報に対応する前記第1テキスト情報を決定する前に、前記第2操作に応答して、第3インタフェースを表示するよう前記ディスプレイを制御するよう構成され、前記第3インタフェースは、少なくとも2つのテキスト情報を含み、前記少なくとも2つのテキスト情報は、接続語を使用することによって、事前設定された位置関係に基づいて、前記第1アプリケーション識別子および/または前記第1インタフェース識別子と前記第1検索語とを接続することによって形成されるステートメントであり、
    前記1または複数のプロセッサが、前記ユーザによって入力される第3操作に基づいて、前記操作情報に対応する前記第1テキスト情報を決定するよう構成されることは、
    前記1または複数のプロセッサが、前記ディスプレイによって表示される前記第3インタフェースにおける前記少なくとも2つのテキスト情報における前記第1テキスト情報に対して前記ユーザによって実行される前記第3操作を受信し、前記第3操作に応答して、前記第1テキスト情報を、前記操作情報に対応する前記テキスト情報として決定するよう構成されることを有し、前記第3操作は、前記少なくとも2つのテキスト情報から前記第1テキスト情報を選択するために使用される、
    請求項10に記載の端末。
  13. 前記1または複数のプロセッサは更に、前記ユーザによって入力される前記第3操作に基づいて、前記操作情報に対応する前記第1テキスト情報を決定した後に、前記第1音声コマンドを受信する前に、第1テンプレートテキストを生成するよう構成され、前記第1テンプレートテキストは、前記第1テキスト情報における前記第2部分を前記第1検索語のタイプ情報で置換することによって生成され、
    前記1または複数のプロセッサは更に、前記第1音声コマンドの前記テキストが前記第1テンプレートテキストに一致するとき、前記第1音声コマンドの前記テキストが前記第1テキスト情報に一致すると決定するよう構成され、
    前記第1音声コマンドの前記テキストが前記第1テンプレートテキストに一致することは、前記第1音声コマンドに対応する前記テキストにおける前記第3部分が、前記第1部分と同一であり、前記第1音声コマンドにおける前記第3部分と前記第4部分との間の前記位置関係が、前記第1テキスト情報における前記第1部分と前記第2部分との間の前記位置関係と同一であり、前記第4部分は、前記第1テンプレートテキストにおけるタイプ情報によって示されるタイプの単語であることを有する、
    請求項10または12に記載の端末。
  14. 前記1または複数のプロセッサは更に、前記第1テンプレートテキストを生成した後に、前記第1音声コマンドを受信する前に、第4インタフェースを表示するよう前記ディスプレイを制御するよう構成され、前記第4インタフェースは、対応する操作を実行するよう前記端末をトリガするために、前記第1テンプレートテキストに一致する前記第1音声コマンドを、前記音声アシスタントを通じて送信するよう前記ユーザを促すために使用される、請求項13に記載の端末。
  15. 前記1または複数のプロセッサは更に、前記第4インタフェースを表示するよう前記ディスプレイを制御する前に、第5インタフェースを表示するよう前記ディスプレイを制御するよう構成され、前記第5インタフェースは、エイリアス入力ボックスを含み、前記エイリアス入力ボックスは、第2テキスト情報を受信するために使用され、前記第2テキスト情報は、前記第1テキスト情報について前記ユーザによって作成されるエイリアスであり、
    前記1または複数のプロセッサが第4インタフェースを表示するよう前記ディスプレイを制御するよう構成されることは、
    前記1または複数のプロセッサが、前記ディスプレイによって表示される前記第5インタフェースにおいて前記ユーザによって実行される第5操作を受信し、前記第5操作に応答して、前記第4インタフェースを表示するよう前記ディスプレイを制御するよう構成され、前記第5操作は、テキスト情報の記録を終了するよう前記端末をトリガするために使用されることを含み、
    前記1または複数のプロセッサは更に、前記第5操作に応答して、前記第2テキスト情報、および、前記第2テキスト情報と前記操作情報との間の対応関係を前記メモリに格納するよう構成され、
    前記ディスプレイによって表示される前記第4インタフェースは更に、前記第2テキスト情報を含む、
    請求項14に記載の端末。
  16. 前記1または複数のプロセッサは更に、前記音声アシスタントを通じて前記ユーザによって入力される第2音声コマンドを受信し、前記第2音声コマンドのテキストが前記第2テキスト情報と同一であるとき、前記第2テキスト情報と前記操作情報との間の前記対応関係に基づいて、前記操作情報に対応する操作を実行するよう構成される、請求項15に記載の端末。
  17. コンピュータ命令を備えるコンピュータ記憶媒体であって、前記コンピュータ命令が端末で実行されるとき、前記端末は、請求項1から8のいずれか一項に記載の音声制御コマンド生成方法を実行することが可能である、コンピュータ記憶媒体。
  18. 請求項1から8のいずれか一項に記載の音声制御コマンド生成方法をコンピュータに実行させるプログラム。
JP2021506536A 2018-08-07 2018-08-07 音声制御コマンド生成方法および端末 Active JP7173670B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2018/099253 WO2020029094A1 (zh) 2018-08-07 2018-08-07 一种语音控制命令生成方法及终端

Publications (2)

Publication Number Publication Date
JP2021532500A JP2021532500A (ja) 2021-11-25
JP7173670B2 true JP7173670B2 (ja) 2022-11-16

Family

ID=69413951

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021506536A Active JP7173670B2 (ja) 2018-08-07 2018-08-07 音声制御コマンド生成方法および端末

Country Status (6)

Country Link
US (1) US11848016B2 (ja)
EP (1) EP3826280B1 (ja)
JP (1) JP7173670B2 (ja)
KR (1) KR102527178B1 (ja)
CN (2) CN111742539B (ja)
WO (1) WO2020029094A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112447177B (zh) * 2019-09-04 2022-08-23 思必驰科技股份有限公司 全双工语音对话方法及系统
US11474782B2 (en) * 2020-03-31 2022-10-18 Brother Kogyo Kabushiki Kaisha Information processing apparatus, information processing method and non-transitory computer-readable medium
CN114697717A (zh) * 2020-12-28 2022-07-01 深圳Tcl新技术有限公司 一种文本输入方法和终端设备
CN114979366B (zh) * 2021-02-24 2023-10-13 腾讯科技(深圳)有限公司 一种控件提示方法、装置、终端以及存储介质
CN114115790A (zh) * 2021-11-12 2022-03-01 上汽通用五菱汽车股份有限公司 语音对话提示方法、装置、设备及计算机可读存储介质
CN114237025A (zh) * 2021-12-17 2022-03-25 上海小度技术有限公司 语音交互方法、装置、设备以及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080140413A1 (en) 2006-12-07 2008-06-12 Jonathan Travis Millman Synchronization of audio to reading
JP2011199902A (ja) 2011-06-09 2011-10-06 Kyocera Corp 通信端末装置
CN102510426A (zh) 2011-11-29 2012-06-20 安徽科大讯飞信息科技股份有限公司 个人助理应用访问方法及系统
US20140278419A1 (en) 2013-03-14 2014-09-18 Microsoft Corporation Voice command definitions used in launching application with a command
US20160155442A1 (en) 2014-11-28 2016-06-02 Microsoft Technology Licensing, Llc Extending digital personal assistant action providers
US20160225369A1 (en) 2015-01-30 2016-08-04 Google Technology Holdings LLC Dynamic inference of voice command for software operation from user manipulation of electronic device
CN106128456A (zh) 2016-06-16 2016-11-16 美的集团股份有限公司 智能家电的语音控制方法、终端及系统
CN107861706A (zh) 2017-11-07 2018-03-30 成都野望数码科技有限公司 一种语音指令的响应方法及装置
JP2018077696A (ja) 2016-11-10 2018-05-17 株式会社リコー 機器、情報処理装置、情報処理システム、情報処理方法及びプログラム

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4734191B2 (ja) 2006-07-31 2011-07-27 富士通株式会社 オペレータ支援プログラム、オペレータ支援装置およびオペレータ支援方法
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
KR101699720B1 (ko) * 2010-08-03 2017-01-26 삼성전자주식회사 음성명령 인식 장치 및 음성명령 인식 방법
CN202798881U (zh) * 2012-07-31 2013-03-13 北京播思软件技术有限公司 一种使用语音命令控制移动设备运行的装置
CN102855872B (zh) * 2012-09-07 2015-08-05 深圳市信利康电子有限公司 基于终端及互联网语音交互的家电控制方法及系统
KR101505127B1 (ko) * 2013-03-15 2015-03-26 주식회사 팬택 음성 명령에 의한 오브젝트 실행 장치 및 방법
EP3261087A1 (en) 2013-09-03 2017-12-27 Panasonic Intellectual Property Corporation of America Voice interaction control method
CN104951458B (zh) 2014-03-26 2019-03-01 华为技术有限公司 基于语义识别的帮助处理方法及设备
US9966065B2 (en) * 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
CN105354199B (zh) 2014-08-20 2019-10-08 北京羽扇智信息科技有限公司 一种基于场景信息的实体含义识别方法和系统
KR102301880B1 (ko) 2014-10-14 2021-09-14 삼성전자 주식회사 전자 장치 및 이의 음성 대화 방법
KR102245747B1 (ko) * 2014-11-20 2021-04-28 삼성전자주식회사 사용자 명령어 등록을 위한 디스플레이 장치 및 방법
CN105869640B (zh) 2015-01-21 2019-12-31 上海墨百意信息科技有限公司 识别针对当前页面中的实体的语音控制指令的方法和装置
CN105895093A (zh) 2015-11-02 2016-08-24 乐视致新电子科技(天津)有限公司 语音信息处理方法及装置
CN106528531B (zh) 2016-10-31 2019-09-03 北京百度网讯科技有限公司 基于人工智能的意图分析方法及装置
CN108010523B (zh) * 2016-11-02 2023-05-09 松下电器(美国)知识产权公司 信息处理方法以及记录介质
CN107015962A (zh) 2017-03-16 2017-08-04 北京光年无限科技有限公司 面向智能机器人的自定义意图识别的实现方法及装置
CN107015964B (zh) 2017-03-22 2021-10-19 北京光年无限科技有限公司 面向智能机器人开发的自定义意图实现方法及装置
CN107122179A (zh) 2017-03-31 2017-09-01 阿里巴巴集团控股有限公司 语音的功能控制方法和装置
CN107277904A (zh) 2017-07-03 2017-10-20 上海斐讯数据通信技术有限公司 一种终端及语音唤醒方法
CN107506434A (zh) 2017-08-23 2017-12-22 北京百度网讯科技有限公司 基于人工智能分类语音输入文本的方法和装置
KR102361458B1 (ko) * 2018-01-25 2022-02-10 삼성전자주식회사 사용자 발화 응답 방법 및 이를 지원하는 전자 장치

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080140413A1 (en) 2006-12-07 2008-06-12 Jonathan Travis Millman Synchronization of audio to reading
JP2011199902A (ja) 2011-06-09 2011-10-06 Kyocera Corp 通信端末装置
CN102510426A (zh) 2011-11-29 2012-06-20 安徽科大讯飞信息科技股份有限公司 个人助理应用访问方法及系统
US20140278419A1 (en) 2013-03-14 2014-09-18 Microsoft Corporation Voice command definitions used in launching application with a command
US20160155442A1 (en) 2014-11-28 2016-06-02 Microsoft Technology Licensing, Llc Extending digital personal assistant action providers
US20160225369A1 (en) 2015-01-30 2016-08-04 Google Technology Holdings LLC Dynamic inference of voice command for software operation from user manipulation of electronic device
CN106128456A (zh) 2016-06-16 2016-11-16 美的集团股份有限公司 智能家电的语音控制方法、终端及系统
JP2018077696A (ja) 2016-11-10 2018-05-17 株式会社リコー 機器、情報処理装置、情報処理システム、情報処理方法及びプログラム
CN107861706A (zh) 2017-11-07 2018-03-30 成都野望数码科技有限公司 一种语音指令的响应方法及装置

Also Published As

Publication number Publication date
US11848016B2 (en) 2023-12-19
CN111742539A (zh) 2020-10-02
WO2020029094A1 (zh) 2020-02-13
EP3826280A1 (en) 2021-05-26
JP2021532500A (ja) 2021-11-25
EP3826280A4 (en) 2021-07-21
KR20210040424A (ko) 2021-04-13
CN111742539B (zh) 2022-05-06
KR102527178B1 (ko) 2023-04-27
US20210295839A1 (en) 2021-09-23
CN115050358A (zh) 2022-09-13
EP3826280B1 (en) 2023-05-24

Similar Documents

Publication Publication Date Title
CN112231025B (zh) Ui组件显示的方法及电子设备
EP3800876B1 (en) Method for terminal to switch cameras, and terminal
JP7173670B2 (ja) 音声制御コマンド生成方法および端末
CN110244893B (zh) 一种分屏显示的操作方法及电子设备
CN110347269B (zh) 一种空鼠模式实现方法及相关设备
CN113691842B (zh) 一种跨设备的内容投射方法及电子设备
CN112312366B (zh) 一种通过nfc标签实现功能的方法、电子设备及系统
CN112119641B (zh) 通过转发模式连接的多tws耳机实现自动翻译的方法及装置
CN112383664B (zh) 一种设备控制方法、第一终端设备、第二终端设备及计算机可读存储介质
CN114827581A (zh) 同步时延测量方法、内容同步方法、终端设备及存储介质
CN113805825B (zh) 设备之间的数据通信方法、设备及可读存储介质
WO2022007757A1 (zh) 跨设备声纹注册方法、电子设备及存储介质
CN114822525A (zh) 语音控制方法和电子设备
CN113867851A (zh) 电子设备操作引导信息录制方法、获取方法和终端设备
US20230275986A1 (en) Accessory theme adaptation method, apparatus, and system
US20240045651A1 (en) Audio Output Method, Media File Recording Method, and Electronic Device
CN113905334B (zh) 信息共享的方法及装置
WO2023093778A1 (zh) 一种截屏方法及相关装置
CN115185441A (zh) 控制方法、装置、电子设备及可读存储介质
CN115048193A (zh) 一种多设备分布式调度方法及相关设备
CN114079809A (zh) 终端及其输入方法与装置
CN114095600A (zh) 配件主题自适应方法、装置和系统
CN112463086A (zh) 一种显示控制方法及电子设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210316

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220328

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220329

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220526

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221004

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221031

R150 Certificate of patent or registration of utility model

Ref document number: 7173670

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150