JP6869354B2 - 音声機能制御方法および装置 - Google Patents

音声機能制御方法および装置 Download PDF

Info

Publication number
JP6869354B2
JP6869354B2 JP2019535874A JP2019535874A JP6869354B2 JP 6869354 B2 JP6869354 B2 JP 6869354B2 JP 2019535874 A JP2019535874 A JP 2019535874A JP 2019535874 A JP2019535874 A JP 2019535874A JP 6869354 B2 JP6869354 B2 JP 6869354B2
Authority
JP
Japan
Prior art keywords
application program
user
voice
function
recognition result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019535874A
Other languages
English (en)
Other versions
JP2020510852A (ja
Inventor
シェン・パン
Original Assignee
アドバンスド ニュー テクノロジーズ カンパニー リミテッド
アドバンスド ニュー テクノロジーズ カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アドバンスド ニュー テクノロジーズ カンパニー リミテッド, アドバンスド ニュー テクノロジーズ カンパニー リミテッド filed Critical アドバンスド ニュー テクノロジーズ カンパニー リミテッド
Publication of JP2020510852A publication Critical patent/JP2020510852A/ja
Application granted granted Critical
Publication of JP6869354B2 publication Critical patent/JP6869354B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephone Function (AREA)
  • Stored Programmes (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本出願はネットワーク通信技術の分野に関し、特に、音声機能制御(voice function control)方法および装置に関する。
音声アシスタントは、端末上で動作するソフトウェアであり、音声によってユーザと通信し、ユーザが、情報検索および端末動作など、ユーザによって指定された様々な機能を実施するのを支援することができる。Apple(登録商標)が音声アシスタントSiri(登録商標)を市場に出してから、ユーザは、音声アシスタント分野により多くの注意を払い、音声アシスタントタイプのソフトウェアをより頻繁に使用しており、これは、音声アシスタントの発展を促進している。
現在、音声アシスタントは、端末にインストールされたアプリケーションプログラムと組み合わせられ得る。ユーザが、あるタスクを実行するための命令を音声アシスタントに送り、音声アシスタントは、そのタスクを完了するために、対応するアプリケーションプログラムを呼び出す。それにより、ユーザが単一のエントリとして音声アシスタントを使用することによって完了することができる機能が、非常に豊富になる。
既存の技術では、一例としてSiriが使用される。Siriは、6つのタイプのアプリケーションプログラム(タクシー配車、通信、写真検索、支払い取引、ネットワークフォン、およびフィットネス)と協働することができる。ユーザの音声入力を受信すると、Siriは、ユーザの意図を決定し、その意図を処理すべきなのか、その意図を処理するためのアプリケーションプログラムを呼び出すべきなのかを決定する。Siriが、アプリケーションプログラムを呼び出すことを決定した場合、Siriは、Siriによって生成されたユーザ音声認識の結果から関係情報を抽出し、関係情報をアプリケーションプログラムに与える。アプリケーションプログラムは、Siriによって与えられた情報に基づいて、その情報において指定された機能を実施する。
Siriによって与えられた情報が、ユーザによって指定されたタスクを正しく完了するための基礎であることが学習され得る。Siriが入力音声を正確に識別することができないとき、ユーザは、音声によって満足なレベルの機能制御を達成することが困難である。
前述の説明に鑑みて、本出願は、音声機能制御方法を提供する。本音声機能制御方法は、端末の音声アシスタントに適用され、ユーザの入力音声を認識した結果に基づいて、関連アプリケーションプログラムを決定するステップであって、関連アプリケーションプログラムが、ユーザによって使用されるべき機能を実施するように構成された、ステップと、関連アプリケーションプログラムがユーザの入力音声を認識し、認識結果に基づいて機能を実施するように、ユーザの入力音声を関連アプリケーションプログラムに渡すステップとを含む。
本出願は、音声機能制御方法を提供する。本音声機能制御方法は、音声アシスタントとは異なる別の機能を実施するように構成された端末アプリケーションプログラムに適用され、音声アシスタントからユーザの入力音声を受信するステップと、ユーザの入力音声を認識するステップと、認識結果に基づいて、ユーザによって使用されるべき機能を実施するステップとを含む。
本出願は、音声機能制御装置をさらに提供する。本音声機能制御装置は、端末の音声アシスタントに適用され、ユーザの入力音声を認識した結果に基づいて、関連アプリケーションプログラムを決定するように構成された関連アプリケーションプログラムユニットであって、関連アプリケーションプログラムが、ユーザによって使用されるべき機能を実施するように構成された、関連アプリケーションプログラムユニットと、関連アプリケーションプログラムがユーザの入力音声を認識し、認識結果に基づいて機能を実施するように、ユーザの入力音声を関連アプリケーションプログラムに渡すように構成された入力音声受渡ユニットとを含む。
本出願は、音声機能制御装置を提供する。本音声機能制御装置は、音声アシスタントとは異なる別の機能を実施するように構成された端末アプリケーションプログラムに適用され、音声アシスタントからユーザの入力音声を受信するように構成された入力音声受信ユニットと、ユーザの入力音声を認識することと、認識結果に基づいて、ユーザによって使用されるべき機能を実施することとを行うように構成された機能実施ユニットとを含む。
本出願の実施形態では、ユーザの入力音声を認識した結果に基づいて、関連アプリケーションプログラムを決定した後に、音声アシスタントは、ユーザの入力音声を関連アプリケーションプログラムに渡し、関連アプリケーションプログラムは、入力音声を認識し、次いで、ユーザ命令を実行することが、前述の技術的解決策から学習され得る。各関連アプリケーションプログラムは、専用フィールド(field)に適用される。たとえば、Gaode map(登録商標)アプリケーションプログラムは、マップおよびナビゲーションフィールドに適用される。したがって、たいていの場合、関連アプリケーションプログラムが属する機能タイプにおける関連アプリケーションプログラムの音声認識精度が、すべての機能タイプに共通である音声アシスタントの精度よりも高く、したがって、ユーザによって必要とされる機能が、より正確に、迅速に完了され、それにより、音声機能制御効率を改善することができる。
本出願の一実施形態による、端末の音声アシスタントに適用される音声機能制御方法を示すフローチャートである。 本出願の一実施形態による、端末のアプリケーションプログラムに適用される音声機能制御方法を示すフローチャートである。 本出願による、適用例の作業原理を示す概略図である。 端末を示す構造的ハードウェア図である。 本出願の一実施形態による、端末の音声アシスタントに適用される音声機能制御装置を示す論理構造図である。 本出願の一実施形態による、端末のアプリケーションプログラムに適用される音声機能制御装置を示す論理構造図である。
既存の技術では、端末にインストールされた非音声アシスタントタイプの多くのアプリケーションプログラムも、ユーザの音声入力を受信し、ユーザの音声命令を認識および実行し、ユーザによって使用されるべき機能を実施できる。簡単のために、以下では、音声アシスタントタイプのアプリケーションプログラムは音声アシスタントと呼ばれ、非音声アシスタントタイプのものであり、音声アシスタントとは異なる別の機能を実施するように構成されたアプリケーションプログラムは、アプリケーションプログラムと呼ばれる。
音声アシスタントは、元来、ユーザとの音声対話のための統一エントリとして働くように設計されており、音声アシスタントは、ユーザが関与し得るすべての機能タイプの命令を認識することに加えて、ユーザとチャットすることを必要とする。したがって、音声アシスタントの辞書(lexicon)は、極めて広い辞書的範囲(lexical range)を有し、すべてのタイプの語彙(vocabulary)の認識レートが、音声アシスタントの音声認識アルゴリズムの最適化中に考慮される必要がある。しかしながら、アプリケーションプログラムは、通常、いくつかの主要な機能を実施することに焦点を当てる。たとえば、マップタイプのアプリケーションプログラムは、アドレス指定、測位、およびナビゲーションに焦点を当て、ショッピングタイプのアプリケーションプログラムは、商品および取引に焦点を当てる。ユーザがこれらのアプリケーションプログラムを使用するとき、アプリケーションプログラムが焦点を当てる機能をユーザが使用しようとすることが基本的に決定される。したがって、アプリケーションプログラムにおける音声認識のために使用される辞書の辞書的範囲は、アプリケーションプログラムが焦点を当てる機能フィールドにも焦点を当て、音声認識アルゴリズムの最適化も、アプリケーションプログラムが焦点を当てる機能フィールドに焦点を当てる。
ユーザが音声命令を送った時間から、端末が応答を与える時間までの待機持続時間は、ユーザエクスペリエンスに大いに影響を及ぼす。したがって、音声認識のために利用可能な時間は、極めて限られている。限られた時間内で、任意の特定の機能フィールドにおいて、ユーザが、そのフィールドにおけるある機能を使用しようとするので、音声アシスタントが、ユーザによって入力された音声を認識したとき、精度に関して、音声アシスタントは、その機能フィールドに属するアプリケーションプログラムに追いつくことが困難である。
たとえば、ロケーション名に関して、Gaode mapアプリケーションプログラムの辞書は、Siriの辞書よりも包括的および正確である。さらに、ロケーション検索に関する長期的累積により、Gaode mapアプリケーションプログラムの認識アルゴリズムも、ロケーション名認識に関してSiriの認識アルゴリズムよりも正確である。本出願のシナリオでは、Siriは、Siriの認識アルゴリズムを最適化するための基準として、ロケーション名およびロケーションなど、より信頼できるデータを有しない。
既存の技術では、音声アシスタントが認識結果をアプリケーションプログラムに配信することが、実際は、ある作業が得意でない当事者(party)がその作業を完了し、その作業が得意である他の当事者に不正確な作業結果を配信し、他の当事者が、比較的不十分な作業結果に基づいてタスクを完了しなければならないことを意味することが学習され得る。したがって、良好な結果を達成することは当然困難である。
前述の考えに基づいて、本出願の実施形態は、新しい音声機能制御方法を提供する。音声アシスタントは、ユーザの入力音声を認識することによって、ユーザの意図を実施することができる関連アプリケーションプログラムを決定し、次いで、入力音声を関連アプリケーションプログラムに渡す。関連アプリケーションプログラムは、音声を認識し、次いで、ユーザによって使用されるべき機能を実施する。したがって、アプリケーションプログラムは、元の入力音声に基づいてユーザ命令を実行し、したがって、アプリケーションプログラムは、音声アシスタントの望ましくない結果ではなく、それ自体の認識結果に基づいて機能を実施することができる。したがって、ユーザによって必要とされる機能は、既存の技術における問題を緩和するために、より正確に、迅速に実施され得る。
本出願の実施形態では、音声アシスタントおよびアプリケーションプログラムの両方が、ユーザの端末上で動作する。音声アシスタントは、端末のオペレーティングシステム層において動作することができるか、またはオペレーティングシステムの上位層アプリケーションとして動作することができる。実施形態は限定されない。ユーザの端末は、モバイルフォン、タブレットコンピュータ、パーソナルコンピュータ(PC)、ノートブックコンピュータ、またはサーバなど、音声入力機能と、計算機能と、記憶機能とを有する任意のデバイスであり得る。実施形態は同じく限定されない。
本出願の実施形態では、音声機能制御方法が音声アシスタントに適用されるプロセスが、図1に示されており、音声機能制御方法がアプリケーションプログラムに適用されるプロセスが、図2に示されている。
ステップ110:音声アシスタントは、ユーザの入力音声を認識した結果に基づいて、関連アプリケーションプログラムを決定し、関連アプリケーションプログラムは、ユーザによって使用されるべき機能を実施するように構成される。
ユーザの音声入力を受信した後に、音声アシスタントはユーザの音声を認識する。ユーザ命令がある機能の使用を伴わない場合、またはユーザによって使用されるべき機能が音声アシスタントによって実施され得る場合、音声アシスタントは、認識結果に基づいて、ユーザの入力に返答するか、またはユーザ命令を実行する。音声アシスタントの認識結果が、アプリケーションプログラムによって実施されるある機能をユーザが使用する必要があるということである場合、音声アシスタントは、その機能を実施する関連アプリケーションプログラムを決定する。
ユーザは、入力音声において、ユーザが使用することを希望するアプリケーションプログラムを指定することができる。この場合、音声アシスタントは、ユーザの入力音声を認識した結果からアプリケーションプログラム名を抽出し、関連アプリケーションプログラムとしてそのアプリケーションプログラム(すなわち、入力音声においてユーザによって指定されたアプリケーションプログラム)を使用することができる。たとえば、ユーザが「DiDi(登録商標)で私にタクシーを呼んで」と音声アシスタントに言った場合、音声アシスタントは、アプリケーションプログラム名「DiDi」を認識し、したがって、関連アプリケーションプログラムとしてアプリケーションプログラムDiDiを使用する。
ユーザが、入力音声において、ユーザが使用することを希望するアプリケーションプログラムを指定しない場合、音声アシスタントは、ユーザの入力音声を認識した結果に基づいて、ユーザによって使用されるべき機能を決定し、次いで、ユーザによって使用されるべき機能に基づいて、端末にインストールされたアプリケーションプログラムから、関連アプリケーションプログラムを決定することができる。音声アシスタントによって、認識結果からユーザによって使用されるべき機能を決定するための方法が、様々な既存の技術に関して実施され得る。たとえば、各機能のいくつかのキーワードが、あらかじめ決定され得る。ある機能キーワードが、ユーザの音声を認識した結果においてヒットした場合、ユーザが使用することを希望する機能が知られ得る。
ユーザによって使用されるべき機能に基づいて、関連アプリケーションプログラムを決定するやり方が、実際のアプリケーションシナリオの要求に基づいて決定され得る。以下は、説明のための例として2つの実施形態を使用する。
第1の実施形態では、ユーザによって使用されるべき機能を認識した後に、音声アシスタントは、ユーザによって使用されるべき機能を実施し、端末における音声入力をサポートすることができる、1つのアプリケーションプログラムから複数のアプリケーションプログラムを候補アプリケーションプログラムとして使用し、候補アプリケーションプログラムの名前を選択のためにユーザに表示することができる。ユーザの選択結果を受信した後に、音声アシスタントは、関連アプリケーションプログラムとして、ユーザによって選択されたアプリケーションプログラムを決定する。
第2の実施形態では、使用されるべき機能とアプリケーションプログラムとの間のマッピング関係が、端末において維持され得る。ユーザによって使用されるべき機能を認識した後に、音声アシスタントは、関連アプリケーションプログラムとして、ユーザによって使用されるべき機能とのマッピング関係を有するアプリケーションプログラムを使用することができる。ユーザによって使用されるべき機能を反映するために機能キーワードが使用される、前述の例では、機能キーワードとアプリケーションプログラムとの間のマッピング関係のテーブルが、端末に記憶され得る。ユーザの入力音声を認識した結果から機能キーワードを抽出した後に、音声アシスタントは、関連アプリケーションプログラムとして、機能キーワードとのマッピング関係を有するアプリケーションプログラムを使用することができる。
第2の実施形態では、使用されるべき機能とアプリケーションプログラムとの間のマッピング関係は、ユーザによって設定および/または変更され得るか、あるいは音声アシスタントまたはオペレーティングシステムによって生成され得るか、あるいはその両方のやり方で生成され得る。本出願の実施形態では、実施形態は限定されない。一例では、音声を入力するとき、ユーザは、音声アシスタントまたはオペレーティングシステムによって与えられる設定項目において、使用されるべき機能と関連アプリケーションプログラムとの間のマッピング関係(1つの機能から複数の機能が1つのアプリケーションプログラムに対応する)を設定することができる。別の例では、ある機能を実施するためにユーザによって最も頻繁に使用されるアプリケーションプログラムが、その機能とのマッピング関係を有するアプリケーションプログラムとして使用され得る。端末にインストールされた1つのアプリケーションプログラムのみが、ある機能を実施することができる場合、アプリケーションプログラムは、その機能とのマッピング関係を有するアプリケーションプログラムとして使用される。端末にインストールされた2つ以上のアプリケーションプログラムが、ある機能を実施することができる場合、オペレーティングシステムによって計数された頻度であって、その機能を実施することができる各アプリケーションプログラムをユーザが使用した頻度に基づいて、最も頻繁に使用されるアプリケーションプログラムが、その機能とのマッピング関係を有するアプリケーションプログラムとして使用され得る。第3の例では、ある機能を実施することができるアプリケーションプログラムでは、ユーザは、音声が入力されたとき、アプリケーションプログラムを、その機能とのマッピング関係を有するアプリケーションプログラムにさらに設定することができる。ユーザの設定命令を受信した後に、アプリケーションプログラムは、アプリケーションプログラムと使用されるべき機能との間のマッピング関係を音声アシスタントに提示する。たとえば、Gaode mapアプリケーションプログラムでは、ユーザは、音声が入力されたとき、Gaode mapアプリケーションプログラムを、機能キーワード「ナビゲーション」とのマッピング関係にあると設定する。この場合、Gaode mapアプリケーションプログラムは、ユーザ操作に基づいて設定項目をSiriに提示し、Siriは、マッピング関係を記憶し、その後、ユーザが音声「…にナビゲートしてください」を入力したとき、マッピング関係に基づいて、関連アプリケーションプログラムとしてGaode mapアプリケーションプログラムを使用する。
関連アプリケーションプログラムを決定する、前述の2つのやり方は、代替的に組合せで適用され得ることに留意されたい。たとえば、ユーザによって使用されるべき機能を決定した後に、音声アシスタントは、機能とアプリケーションプログラムとの間の記憶されたマッピング関係を照会する。音声アシスタントが、使用されるべき機能とのマッピング関係を有するアプリケーションプログラムを見つけることができる場合、音声アシスタントは、マッピング関係に基づいて、関連アプリケーションプログラムを決定する。音声アシスタントが、使用されるべき機能とのマッピング関係を有するアプリケーションプログラムを見つけることができない場合、音声アシスタントは、使用されるべき機能を実施し、端末における音声入力をサポートすることができるアプリケーションプログラムを選択のためにユーザに与え、ユーザ選択に基づいて、関連アプリケーションプログラムを決定する。ユーザ選択の後に、ユーザは、機能のデフォルトの関連アプリケーションプログラムを設定することを要求され得る。ユーザが、機能のデフォルトの関連アプリケーションプログラムを設定した場合、音声アシスタントは、機能と、ユーザによって設定されたアプリケーションプログラムとの間のマッピング関係を記憶する。ユーザが、機能のデフォルトの関連アプリケーションプログラムを設定しない場合、音声アシスタントは、ユーザが機能を実施するためにアプリケーションプログラムを選択した回数と、ユーザが機能を実施するためにアプリケーションプログラムを選択した頻度の両方が、指定されたしきい値を超えた後に、アプリケーションプログラムと機能との間のマッピング関係を記憶することができる。たとえば、機能とアプリケーションプログラムとの間のマッピング関係の、Siriによって維持されるテーブルは、「ナビゲーション」機能のマッピング関係を含まない。ユーザが音声命令「…にナビゲートして」を5回与えた後、Siriは、端末にインストールされたGaode mapアプリケーションプログラム、Baidu map(登録商標)、およびSogou map(商標)のアプリケーションプログラム名をユーザに表示し、ユーザは、ナビゲーションのために1つのアプリケーションプログラムを使用することを選ぶ。ユーザがGaode mapアプリケーションプログラムを4回選択した場合、Siriは、「ナビゲーション」機能とGaode mapアプリケーションプログラムとの間のマッピング関係をマッピング関係テーブルに記憶する。次いで、ユーザがナビゲーションのための音声命令を与えたとき、Siriは、関連アプリケーションプログラムとしてGaode mapアプリケーションプログラムを直接使用する。
ステップ120:音声アシスタントは、関連アプリケーションプログラムがユーザの入力音声を認識し、認識結果に基づいて機能を実施するように、ユーザの入力音声を関連アプリケーションプログラムに渡す。
ステップ210:関連アプリケーションプログラムは、音声アシスタントからユーザの入力音声を受信する。
ユーザによって使用されるべき機能を実施することができる関連アプリケーションプログラムを決定した後に、音声アシスタントは、関連アプリケーションプログラムを開き(関連アプリケーションプログラムを開始すること、関連アプリケーションプログラムを実行のためにフォアグラウンドに置くことなどを含む)、ユーザの入力音声を関連アプリケーションプログラムに渡す。
ステップ220:関連アプリケーションプログラムは、ユーザの入力音声を認識し、認識結果に基づいて、ユーザによって使用されるべき機能を実施する。
関連アプリケーションプログラムは、音声アシスタントからのユーザの入力音声を認識し、認識結果に基づいて、関連アプリケーションプログラムのサービス処理論理を実行して、ユーザによって使用されるべき機能を実施する。関連アプリケーションプログラムは、既存の技術に基づいて、音声認識および機能実施を行うことができる。簡単のために、詳細はここでは省略される。
一例では、音声アシスタントは、ユーザの入力音声を認識したそれ自体の結果とともに、ユーザの入力音声を関連アプリケーションプログラムに渡すことができる。関連アプリケーションプログラムは、ユーザの入力音声を認識し、関連アプリケーションプログラムの認識結果と音声アシスタントからの認識結果とに基づいて、ユーザによって使用されるべき機能を実施する。音声アシスタントの認識結果は、関連アプリケーションプログラムによって音声を認識するための基準として使用されて、さらに認識精度を改善することができる。
本出願の実施形態では、音声アシスタントが、ユーザの入力音声を認識することによって、ユーザによって使用されるべき機能を実施することができる関連アプリケーションプログラムを決定し、入力音声を関連アプリケーションプログラムに渡し、関連アプリケーションプログラムが、入力音声を認識し、次いでユーザ命令を実行することが学習され得る。したがって、アプリケーションプログラムが属する機能タイプにおけるアプリケーションプログラムのより正確な音声認識結果が、ユーザによって必要とされる機能をより正確に、迅速に完了するために使用され、それにより、音声機能制御効率を改善することができる。
本出願の適用例では、音声アシスタントSiri、および様々な機能を完了することができるアプリケーションプログラムが、ユーザのApple端末にインストールされる。Siriは、機能キーワードとアプリケーションプログラムとの間のマッピング関係のテーブルを記憶する。マッピング関係テーブルの一例を表1に示す。
Figure 0006869354
本適用例の作業原理を図3に示す。ユーザの入力音声を受信した後に、Siriは入力音声を認識する。ユーザによって使用されるべき機能が別のアプリケーションプログラムによって実施される必要があると仮定すると、Siriは、認識結果からユーザによって使用されるべき機能を表す機能キーワードを抽出し、機能キーワードに基づいてマッピング関係テーブルを検索する。Siriが、機能キーワードに対応するアプリケーションプログラムを見つけた場合、Siriは、関連アプリケーションプログラムとしてそのアプリケーションプログラムを使用する。Siriがテーブル中で機能キーワードを見つけなかった場合、Siriは、端末にインストールされ、機能を実施し、音声入力をサポートすることができる、すべてのアプリケーションプログラムの名前をユーザに表示して、希望されるアプリケーションプログラムを選択することをユーザに要求する。Siriは、関連アプリケーションプログラムとして、ユーザによって選択されたアプリケーションプログラムを使用する。
Siriは、関連アプリケーションプログラムを実行のためにフォアグラウンドに置き、オペレーティングシステムを使用することによってユーザの入力音声を関連アプリケーションプログラムに送信する。関連アプリケーションプログラムは、ユーザの入力音声を認識し、関連アプリケーションプログラムの認識結果とサービスプロセスとに基づいて、ユーザによって指定されたタスクを完了する。
たとえば、ユーザは、Siriに「2000をZhang Sanに送金して」と言った。この場合、Siriは、機能キーワード「送金」を認識し、表1から、関連アプリケーションプログラムがALIPAY(登録商標)であることを見つける。Siriは、ALIPAYを開き、ユーザの入力音声をALIPAYに渡す。ALIPAYは、入力音声を認識し、送金サービスプロセスを開始し、「受取人:Zhang San」および「送金額:2000」などのコンテンツをユーザに表示する。送金は、ユーザがパスワードを入力したかまたは指紋認証を完了した後、完了され得る。
前述のプロセス実施形態に対応して、本出願の実施形態は、端末音声アシスタントに適用される音声機能制御装置と、端末アプリケーションプログラムに適用される音声機能制御装置とをさらに提供する。両方の音声機能制御装置は、ソフトウェアによって実施され得るか、ハードウェアによって実施され得るか、またはハードウェアとソフトウェアとの組合せによって実施され得る。ソフトウェア実施形態が、一例として使用される。論理装置として、音声機能制御装置は、端末の中央処理ユニット(CPU)を使用することによって、対応するコンピュータプログラム命令をメモリに読み込むことによって形成される。ハードウェア実施形態に関して、図4に示されているCPU、メモリ、および不揮発性メモリに加えて、音声制御装置が配置される端末は、通常、無線信号を送信および受信するためのチップなどの他のハードウェア、ならびに/またはネットワーク通信機能を実施するように構成されたカードなどの他のハードウェアをさらに含む。
図5は、本出願の一実施形態による、音声機能制御装置を示す。音声機能制御装置は、端末の音声アシスタントに適用され、関連アプリケーションプログラムユニットと入力音声受渡ユニットとを含む。関連アプリケーションプログラムユニットは、ユーザの入力音声を認識した結果に基づいて、関連アプリケーションプログラムを決定するように構成され、関連アプリケーションプログラムは、ユーザによって使用されるべき機能を実施するように構成される。入力音声受渡ユニットは、関連アプリケーションプログラムがユーザの入力音声を認識し、認識結果に基づいて機能を実施するように、ユーザの入力音声を関連アプリケーションプログラムに渡すように構成される。
一例では、使用されるべき機能とアプリケーションプログラムとの間のマッピング関係が端末において維持され、関連アプリケーションプログラムユニットは、詳細には、ユーザの入力音声を認識した結果に基づいて、ユーザによって使用されるべき機能を決定することと、関連アプリケーションプログラムとして、ユーザによって使用されるべき機能とのマッピング関係を有するアプリケーションプログラムを使用することとを行うように構成される。
前述の例では、使用されるべき機能とアプリケーションプログラムとの間のマッピング関係は、機能キーワードとアプリケーションプログラムとの間のマッピング関係を含み、関連アプリケーションプログラムユニットは、詳細には、ユーザの入力音声を認識した結果から機能キーワードを抽出することと、関連アプリケーションプログラムとして、機能キーワードとのマッピング関係を有するアプリケーションプログラムを使用することとを行うように構成される。
前述の例では、使用されるべき機能とアプリケーションプログラムとの間のマッピング関係は、使用されるべき機能とアプリケーションプログラムとの間の、ユーザによって設定されたマッピング関係、および/または使用されるべき機能とのマッピング関係を有するアプリケーションプログラムとして、使用されるべき機能を実施するために、ユーザによって最も頻繁に使用されるアプリケーションプログラムを決定すること、および/またはアプリケーションプログラムと使用されるべき機能との間の、あるアプリケーションプログラムによって提示されるマッピング関係を含む。
随意に、関連アプリケーションプログラムユニットは、ユーザの入力音声を認識した結果に基づいて、ユーザによって使用されるべき機能を決定することと、機能を実施し、音声入力をサポートすることができるアプリケーションプログラムの名前を選択のためにユーザに表示することと、関連アプリケーションプログラムとして、ユーザによって選択されたアプリケーションプログラムを決定することとを行うように構成される。
随意に、関連アプリケーションプログラムユニットは、ユーザの入力音声を認識した結果からアプリケーションプログラム名を抽出することと、関連アプリケーションプログラムとして、入力音声において指定されたアプリケーションプログラムを使用することとを行うように構成される。
随意に、入力音声受渡ユニットは、関連アプリケーションプログラムが、ユーザの入力音声を認識し、関連アプリケーションプログラムの認識結果と音声アシスタントの認識結果とに基づいて、機能を実施するように、認識結果とユーザの入力音声とを関連アプリケーションプログラムに渡すように構成される。
図6は、本出願の一実施形態による、音声機能制御装置を示す。音声機能制御装置は、音声アシスタントとは異なる別の機能を実施するように構成された端末アプリケーションプログラムに適用され、入力音声受信ユニットと機能実施ユニットとを含む。入力音声受信ユニットは、音声アシスタントからユーザの入力音声を受信するように構成される。機能実施ユニットは、ユーザの入力音声を認識することと、認識結果に基づいて、ユーザによって使用されるべき機能を実施することとを行うように構成される。
随意に、入力音声受信ユニットは、音声アシスタントから、ユーザの入力音声と、音声アシスタントによって入力音声を認識した結果とを受信するように構成され、機能実施ユニットは、ユーザの入力音声を認識することと、それ自体の認識結果と音声アシスタントからの認識結果とに基づいて、ユーザによって使用されるべき機能を実施することとを行うように構成される。
一例では、音声機能制御装置は、ユーザ命令に基づいて、アプリケーションプログラムと使用されるべき機能との間のマッピング関係を音声アシスタントに提示するように構成された、マッピング関係サブミッションユニットをさらに含む。
前述の例では、アプリケーションプログラムと使用されるべき機能との間のマッピング関係は、アプリケーションプログラムと機能キーワードとの間のマッピング関係を含む。
前述の説明は、本出願の実施形態の例にすぎず、本出願を限定するものではない。本出願の趣旨および原理から逸脱することなく行われるいかなる修正、等価な置換、改善なども、本出願の保護範囲内に入るべきである。
典型的な構成では、コンピューティングデバイスは、1以上のプロセッサ(CPU)と、1以上の入出力インターフェースと、1以上のネットワークインターフェースと、1以上のメモリとを含む。
メモリは、非永続的メモリ、ランダムアクセスメモリ(RAM)、および/あるいはコンピュータ可読媒体における不揮発性メモリ、たとえば、読取り専用メモリ(ROM)またはフラッシュメモリ(フラッシュRAM)を含むことができる。メモリはコンピュータ可読媒体の一例である。
コンピュータ可読媒体は、任意の方法または技術を使用することによって情報を記憶することができる永続的、非永続的、可動、および非可動媒体を含む。情報は、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータであり得る。コンピュータ記憶媒体の例は、限定はしないが、相変化RAM(PRAM)、スタティックRAM(SRAM)、ダイナミックRAM(DRAM)、別のタイプのRAM、ROM、電気的消去可能プログラマブルROM(EEPROM)、フラッシュメモリまたは別のメモリ技術、コンパクトディスクROM(CD-ROM)、デジタル多用途ディスク(DVD)または別の光ストレージ、カセット、カセット磁気ディスクストレージまたは別の磁気ストレージデバイス、あるいは任意の他の非送信媒体を含む。コンピュータ記憶媒体は、コンピューティングデバイスにとって利用可能な情報を記憶するように構成され得る。本出願で説明されたように、コンピュータ可読媒体は、被変調データ信号および搬送波など、コンピュータ可読一時的媒体を含まない。
「含む(include)」および「備える、含む(comprise)」という用語、またはそれらの任意の他の変形態は、非排他的包含をカバーするものとし、したがって、要素のリストを含むプロセス、方法、製品、またはデバイスが、それらの要素を含むだけでなく、明確にリストされない他の要素をも含むか、あるいは、そのようなプロセス、方法、製品、またはデバイスに固有の要素をさらに含むことにさらに留意することが有益である。さらなる制約がなければ、「を含む」の前にある要素は、その要素を含むプロセス、方法、製品、またはデバイス中の追加の同等の要素の存在を妨げない。
本出願の実施形態が、方法、システム、またはコンピュータプログラム製品として提供され得ることを、当業者は理解されよう。したがって、本出願は、ハードウェアのみの実施形態、ソフトウェアのみの実施形態、またはソフトウェアとハードウェアとの組合せをもつ実施形態の形態を使用することができる。さらに、本出願は、コンピュータ使用可能プログラムコードを含む(限定はしないが、磁気ディスクストレージ、CD-ROM、光メモリなどを含む)1以上のコンピュータ使用可能記憶媒体上で実施されるコンピュータプログラム製品の形態を使用することができる。

Claims (11)

  1. 音声機能制御のための方法であって、前記方法は、
    端末の音声アシスタントによってユーザの入力音声を認識した第1認識結果に基づいて、前記端末の関連アプリケーションプログラムを決定するステップであって、前記関連アプリケーションプログラムが、前記ユーザによって使用される機能を実施するように構成されている、ステップと、
    前記第1認識結果及び前記ユーザの前記入力音声を前記関連アプリケーションプログラムに渡し、それにより、前記関連アプリケーションプログラムが、前記ユーザの前記入力音声を認識し、第2認識結果を生成するステップと
    を含み、
    前記関連アプリケーションプログラムが、前記第2認識結果及び前記第1認識結果に基づいて前記機能を実施する、方法。
  2. 使用される前記機能とアプリケーションプログラムとの間のマッピング関係が、前記端末において維持される、請求項1に記載の方法。
  3. 前記ユーザの入力音声を認識した前記第1認識結果に基づいて、前記関連アプリケーションプログラムを決定する前記ステップが、
    前記第1認識結果に基づいて、前記ユーザによって使用される前記機能を決定するステップと、
    前記関連アプリケーションプログラムとして、前記ユーザによって使用される前記機能とのマッピング関係を有するアプリケーションプログラムを決定するステップと
    を含む、請求項2に記載の方法。
  4. 使用される前記機能とアプリケーションプログラムとの間の前記マッピング関係が、機能キーワードとアプリケーションプログラムとの間の前記マッピング関係を含む、請求項3に記載の方法。
  5. 前記ユーザの前記入力音声を認識した前記第1認識結果に基づいて、前記関連アプリケーションプログラムを決定する前記ステップが、
    前記第1認識結果から機能キーワードを抽出するステップと、
    前記関連アプリケーションプログラムとして、前記機能キーワードとのマッピング関係を有するアプリケーションプログラムを決定するステップと
    を含む、請求項4に記載の方法。
  6. 使用される前記機能と前記アプリケーションプログラムとの間の前記マッピング関係が、
    前記ユーザによって設定された使用される前記機能と前記アプリケーションプログラムとの間の前記マッピング関係、または
    使用される前記機能との前記マッピング関係を有する前記アプリケーションプログラムとして、使用される前記機能を実施するために、前記ユーザによって最も頻繁に使用される前記アプリケーションプログラムを決定するステップ、または、
    前記アプリケーションプログラムと使用される前記機能との間の、あるアプリケーションプログラムによって提示される前記マッピング関係
    を含む、請求項5に記載の方法。
  7. 前記ユーザの前記入力音声を認識した前記第1認識結果に基づいて、前記関連アプリケーションプログラムを決定する前記ステップが、
    前記第1認識結果に基づいて、前記ユーザによって使用される前記機能を決定し、前記機能を実施して音声入力をサポートすることができるアプリケーションプログラムの名前を選択のために前記ユーザに表示するステップと、
    前記関連アプリケーションプログラムとして、前記ユーザによって選択された前記アプリケーションプログラムを決定するステップと
    を含む、請求項1に記載の方法。
  8. 前記ユーザの前記入力音声を認識した前記第1認識結果に基づいて、前記関連アプリケーションプログラムを決定する前記ステップが、
    前記第1認識結果からアプリケーションプログラム名を抽出するステップと、
    前記関連アプリケーションプログラムとして、前記入力音声において指定されたアプリケーションプログラムを決定するステップと
    を含む、請求項1に記載の方法。
  9. 前記音声アシスタントから前記ユーザの入力音声を受信するステップ
    をさらに含む、請求項1に記載の方法。
  10. 前記音声アシスタントが、
    前記アプリケーションプログラムの機能フィールドに焦点を当てる語彙範囲
    を含む、請求項1に記載の方法。
  11. 音声機能制御のための装置であって、前記装置が、請求項1から10のいずれか一項に記載の方法を行うように構成された複数のモジュールを備える、音声機能制御のための装置。
JP2019535874A 2017-03-31 2018-03-26 音声機能制御方法および装置 Active JP6869354B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201710210831.5 2017-03-31
CN201710210831.5A CN107122179A (zh) 2017-03-31 2017-03-31 语音的功能控制方法和装置
PCT/CN2018/080436 WO2018177233A1 (zh) 2017-03-31 2018-03-26 语音的功能控制方法和装置

Publications (2)

Publication Number Publication Date
JP2020510852A JP2020510852A (ja) 2020-04-09
JP6869354B2 true JP6869354B2 (ja) 2021-05-12

Family

ID=59725277

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019535874A Active JP6869354B2 (ja) 2017-03-31 2018-03-26 音声機能制御方法および装置

Country Status (9)

Country Link
US (2) US10643615B2 (ja)
EP (1) EP3575957B1 (ja)
JP (1) JP6869354B2 (ja)
KR (1) KR102228964B1 (ja)
CN (1) CN107122179A (ja)
MY (1) MY194401A (ja)
PH (1) PH12019501488A1 (ja)
TW (1) TWI665656B (ja)
WO (1) WO2018177233A1 (ja)

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107122179A (zh) 2017-03-31 2017-09-01 阿里巴巴集团控股有限公司 语音的功能控制方法和装置
CN107783705A (zh) * 2017-10-20 2018-03-09 珠海市魅族科技有限公司 展示应用程序的方法、装置、计算机装置及存储介质
KR102455199B1 (ko) * 2017-10-27 2022-10-18 엘지전자 주식회사 인공지능 디바이스
US10747954B2 (en) * 2017-10-31 2020-08-18 Baidu Usa Llc System and method for performing tasks based on user inputs using natural language processing
CN107919123B (zh) * 2017-12-07 2022-06-03 北京小米移动软件有限公司 多语音助手控制方法、装置及计算机可读存储介质
CN108231081A (zh) * 2017-12-29 2018-06-29 北京视觉世界科技有限公司 一种语音处理方法、装置、电子设备和存储介质
CN108231076A (zh) * 2018-01-04 2018-06-29 广州视源电子科技股份有限公司 一种语音控制方法、装置、设备及存储介质
CN108255462A (zh) * 2018-01-17 2018-07-06 北京网信云服信息科技有限公司 应用程序的操作方法及装置
CN108364647A (zh) * 2018-02-09 2018-08-03 智慧海派科技有限公司 基于语音识别的应用程序显示方法及移动终端
CN108391009A (zh) * 2018-02-13 2018-08-10 广东欧珀移动通信有限公司 应用页面的显示方法、装置、存储介质及电子设备
CN110231863B (zh) * 2018-03-06 2023-03-24 斑马智行网络(香港)有限公司 语音交互方法和车载设备
CN108428451B (zh) * 2018-03-12 2021-05-18 联想(北京)有限公司 语音控制方法、电子设备和语音控制系统
CN108877811B (zh) * 2018-04-24 2022-05-06 中国地质大学(武汉) 一种基于声纹选择词汇的方法、设备及存储设备
CN108735211A (zh) * 2018-05-16 2018-11-02 智车优行科技(北京)有限公司 语音处理方法、装置、车辆、电子设备、程序及介质
US11487501B2 (en) * 2018-05-16 2022-11-01 Snap Inc. Device control using audio data
CN108897552A (zh) * 2018-06-15 2018-11-27 联想(北京)有限公司 功能实现方法及系统
CN110620705B (zh) * 2018-06-19 2022-03-18 芜湖美的厨卫电器制造有限公司 智能浴室的控制终端和控制方法、电子设备
CN110166417B (zh) * 2018-08-01 2021-10-01 腾讯科技(深圳)有限公司 任务执行方法、装置、计算机设备和存储介质
CN112262381B (zh) * 2018-08-07 2024-04-09 谷歌有限责任公司 汇编和评估对隐私问题的自动助理响应
US11848016B2 (en) 2018-08-07 2023-12-19 Huawei Technologies Co., Ltd. Voice control command generation method and terminal
CN110874201B (zh) * 2018-08-29 2023-06-23 斑马智行网络(香港)有限公司 交互方法、设备、存储介质和操作系统
CN108986814A (zh) * 2018-09-04 2018-12-11 出门问问信息科技有限公司 一种唤醒应用服务的方法及装置
CN109065047B (zh) * 2018-09-04 2021-05-04 出门问问信息科技有限公司 一种唤醒应用服务的方法及装置
US20220036897A1 (en) * 2018-12-07 2022-02-03 Sony Group Corporation Response processing apparatus, response processing method, and response processing program
CN109658934B (zh) * 2018-12-27 2020-12-01 苏州思必驰信息科技有限公司 通过语音控制多媒体app的方法及装置
CN109903763B (zh) 2019-01-11 2022-02-22 百度在线网络技术(北京)有限公司 服务控制方法、装置及设备
CN109828787A (zh) * 2019-01-17 2019-05-31 维沃移动通信有限公司 一种运行文件的方法、电子设备和云服务器
WO2020159190A1 (en) * 2019-01-28 2020-08-06 Samsung Electronics Co., Ltd. Method and apparatus for supporting voice instructions
CN111724775B (zh) * 2019-03-22 2023-07-28 华为技术有限公司 一种语音交互方法及电子设备
CN110866179A (zh) * 2019-10-08 2020-03-06 上海博泰悦臻网络技术服务有限公司 一种基于语音助手的推荐方法、终端及计算机存储介质
CN110851104A (zh) * 2019-10-28 2020-02-28 爱钱进(北京)信息科技有限公司 语音控制应用程序的方法、装置以及存储介质
CN114391165A (zh) * 2019-10-29 2022-04-22 深圳市欢太科技有限公司 语音信息处理方法、装置、设备及存储介质
CN111048087A (zh) * 2019-12-24 2020-04-21 深圳Tcl新技术有限公司 共享式语音交互方法、装置、设备及存储介质
CN113053370B (zh) * 2019-12-27 2024-04-05 北京沃东天骏信息技术有限公司 唤醒应用的方法和装置
CN111429597B (zh) * 2020-03-31 2021-11-02 腾讯科技(成都)有限公司 语音打卡方法、装置及存储介质
WO2022160911A1 (zh) * 2021-01-29 2022-08-04 青岛海信传媒网络技术有限公司 显示设备上语音方案的切换方法、显示设备及控制装置
CN113093596A (zh) * 2021-03-29 2021-07-09 北京金山云网络技术有限公司 一种控制指令的处理方法和装置
CN113496703A (zh) * 2021-07-23 2021-10-12 北京百度网讯科技有限公司 通过语音方式控制程序的方法、设备及程序产品
CN116189673A (zh) * 2021-11-29 2023-05-30 中兴通讯股份有限公司 语音控制方法、终端设备、服务器及存储介质
US12055405B2 (en) 2022-03-08 2024-08-06 Telenav, Inc. Navigation system with voice assistant mechanism and method of operation thereof

Family Cites Families (70)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000076040A (ja) * 1998-09-03 2000-03-14 Matsushita Electric Ind Co Ltd 音声入力ネットワーク端末装置
US7194409B2 (en) * 2000-11-30 2007-03-20 Bruce Balentine Method and system for preventing error amplification in natural language dialogues
US7209880B1 (en) * 2001-03-20 2007-04-24 At&T Corp. Systems and methods for dynamic re-configurable speech recognition
US20030008193A1 (en) 2001-06-28 2003-01-09 Foamex L.P. Liquid fuel delivery system for fuel cells
US8150872B2 (en) * 2005-01-24 2012-04-03 The Intellection Group, Inc. Multimodal natural language query system for processing and analyzing voice and proximity-based queries
US20070174214A1 (en) * 2005-04-13 2007-07-26 Robert Welsh Integrated fraud management systems and methods
US8234494B1 (en) * 2005-12-21 2012-07-31 At&T Intellectual Property Ii, L.P. Speaker-verification digital signatures
US9318108B2 (en) * 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8214208B2 (en) * 2006-09-28 2012-07-03 Reqall, Inc. Method and system for sharing portable voice profiles
US7528713B2 (en) * 2006-09-28 2009-05-05 Ektimisi Semiotics Holdings, Llc Apparatus and method for providing a task reminder based on travel history
US20110054895A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Utilizing user transmitted text to improve language model in mobile dictation application
US20110054894A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Speech recognition through the collection of contact information in mobile dictation application
KR20100114945A (ko) * 2008-04-02 2010-10-26 교세라 가부시키가이샤 유저인터페이스생성장치
US9292307B2 (en) * 2008-07-30 2016-03-22 Kyocera Corporation User interface generation apparatus
US20120310652A1 (en) * 2009-06-01 2012-12-06 O'sullivan Daniel Adaptive Human Computer Interface (AAHCI)
US9858925B2 (en) * 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10706373B2 (en) * 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10366336B2 (en) * 2009-09-02 2019-07-30 Sri International Method and apparatus for exploiting human feedback in an intelligent automated assistant
US8326624B2 (en) * 2009-10-26 2012-12-04 International Business Machines Corporation Detecting and communicating biometrics of recorded voice during transcription process
US20110099507A1 (en) * 2009-10-28 2011-04-28 Google Inc. Displaying a collection of interactive elements that trigger actions directed to an item
EP2390756A1 (en) * 2010-05-25 2011-11-30 Samsung Electronics Co., Ltd. Method and apparatus for managing an application being executed in a portable terminal
US20120136572A1 (en) * 2010-06-17 2012-05-31 Norton Kenneth S Distance and Location-Aware Reminders in a Calendar System
US8775156B2 (en) * 2010-08-05 2014-07-08 Google Inc. Translating languages in response to device motion
US8359020B2 (en) * 2010-08-06 2013-01-22 Google Inc. Automatically monitoring for voice input based on context
US8473289B2 (en) * 2010-08-06 2013-06-25 Google Inc. Disambiguating input based on context
US8812321B2 (en) * 2010-09-30 2014-08-19 At&T Intellectual Property I, L.P. System and method for combining speech recognition outputs from a plurality of domain-specific speech recognizers via machine learning
US20120123924A1 (en) * 2010-10-20 2012-05-17 Mark Rose Virtual currency configuration apparatuses, methods and systems
US20120108221A1 (en) * 2010-10-28 2012-05-03 Microsoft Corporation Augmenting communication sessions with applications
US20120158422A1 (en) * 2010-12-21 2012-06-21 General Electric Company Methods and systems for scheduling appointments in healthcare systems
CN102651217A (zh) * 2011-02-25 2012-08-29 株式会社东芝 用于合成语音的方法、设备以及用于语音合成的声学模型训练方法
US8862255B2 (en) * 2011-03-23 2014-10-14 Audible, Inc. Managing playback of synchronized content
CN103688279A (zh) * 2011-04-25 2014-03-26 韦韦欧股份有限公司 用于智能个人时间表助理的系统和方法
US10057736B2 (en) * 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10672399B2 (en) * 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US9122981B1 (en) * 2011-06-15 2015-09-01 Amazon Technologies, Inc. Detecting unexpected behavior
US20130006633A1 (en) * 2011-07-01 2013-01-03 Qualcomm Incorporated Learning speech models for mobile device users
US8768707B2 (en) * 2011-09-27 2014-07-01 Sensory Incorporated Background speech recognition assistant using speaker verification
US8452597B2 (en) * 2011-09-30 2013-05-28 Google Inc. Systems and methods for continual speech recognition and detection in mobile computing devices
CA2791277C (en) * 2011-09-30 2019-01-15 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
KR101934998B1 (ko) * 2011-10-04 2019-01-04 삼성전자주식회사 복수의 애플리케이션에 대한 사용자 인터페이스를 제공하는 방법 및 시스템
AU2013214801B2 (en) * 2012-02-02 2018-06-21 Visa International Service Association Multi-source, multi-dimensional, cross-entity, multimedia database platform apparatuses, methods and systems
JP5887162B2 (ja) * 2012-02-23 2016-03-16 株式会社Nttドコモ 通信端末、制御方法及びプログラム
US20130238326A1 (en) * 2012-03-08 2013-09-12 Lg Electronics Inc. Apparatus and method for multiple device voice control
US10019994B2 (en) * 2012-06-08 2018-07-10 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
CN103915095B (zh) * 2013-01-06 2017-05-31 华为技术有限公司 语音识别的方法、交互设备、服务器和系统
CN113470641B (zh) * 2013-02-07 2023-12-15 苹果公司 数字助理的语音触发器
WO2014144579A1 (en) * 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
CN103219005B (zh) * 2013-04-28 2016-01-20 北京云知声信息技术有限公司 一种语音识别方法及装置
US9292254B2 (en) * 2013-05-15 2016-03-22 Maluuba Inc. Interactive user interface for an intelligent assistant
TW201505023A (zh) * 2013-07-19 2015-02-01 Richplay Information Co Ltd 個人化語音助理之方法
CN104346151B (zh) * 2013-07-30 2018-04-27 联想(北京)有限公司 一种信息处理方法及电子设备
US9489171B2 (en) * 2014-03-04 2016-11-08 Microsoft Technology Licensing, Llc Voice-command suggestions based on user identity
KR102261552B1 (ko) * 2014-06-30 2021-06-07 삼성전자주식회사 음성 명령어 제공 방법 및 이를 지원하는 전자 장치
CN204390737U (zh) * 2014-07-29 2015-06-10 科大讯飞股份有限公司 一种家庭语音处理系统
US9548066B2 (en) * 2014-08-11 2017-01-17 Amazon Technologies, Inc. Voice application architecture
CN105469786A (zh) * 2014-08-22 2016-04-06 中兴通讯股份有限公司 语音识别的控制方法和装置
JP2016095383A (ja) * 2014-11-14 2016-05-26 株式会社ATR−Trek 音声認識クライアント装置及びサーバ型音声認識装置
US9824207B1 (en) * 2014-12-15 2017-11-21 Amazon Technologies, Inc. Authentication information update based on fraud detection
US10147421B2 (en) 2014-12-16 2018-12-04 Microcoft Technology Licensing, Llc Digital assistant voice input integration
US9398361B1 (en) * 2015-02-20 2016-07-19 Vxi Corporation Headset system with user-configurable function button
CN106157955A (zh) * 2015-03-30 2016-11-23 阿里巴巴集团控股有限公司 一种语音控制方法及装置
US9921805B2 (en) 2015-06-17 2018-03-20 Lenovo (Singapore) Pte. Ltd. Multi-modal disambiguation of voice assisted input
CN105094717B (zh) * 2015-07-15 2019-02-26 百度在线网络技术(北京)有限公司 基于语音输入的打印方法、打印装置和打印机
US9811305B2 (en) * 2015-08-13 2017-11-07 Dell Products L.P. Systems and methods for remote and local host-accessible management controller tunneled audio capability
CN105183422B (zh) * 2015-08-31 2018-06-05 百度在线网络技术(北京)有限公司 语音控制应用程序的方法和装置
US9875081B2 (en) * 2015-09-21 2018-01-23 Amazon Technologies, Inc. Device selection for providing a response
TWI557599B (zh) * 2015-11-05 2016-11-11 宏碁股份有限公司 語音控制方法及語音控制系統
CN105719649B (zh) * 2016-01-19 2019-07-05 百度在线网络技术(北京)有限公司 语音识别方法及装置
CN105825851B (zh) * 2016-05-17 2020-07-21 Tcl科技集团股份有限公司 一种基于Android系统的语音控制方法及系统
CN107122179A (zh) 2017-03-31 2017-09-01 阿里巴巴集团控股有限公司 语音的功能控制方法和装置

Also Published As

Publication number Publication date
EP3575957B1 (en) 2021-07-07
US20200219510A1 (en) 2020-07-09
US10643615B2 (en) 2020-05-05
US10991371B2 (en) 2021-04-27
PH12019501488A1 (en) 2020-03-02
TW201837896A (zh) 2018-10-16
CN107122179A (zh) 2017-09-01
WO2018177233A1 (zh) 2018-10-04
TWI665656B (zh) 2019-07-11
MY194401A (en) 2022-11-30
EP3575957A1 (en) 2019-12-04
US20190304461A1 (en) 2019-10-03
JP2020510852A (ja) 2020-04-09
KR102228964B1 (ko) 2021-03-18
KR20190089032A (ko) 2019-07-29
EP3575957A4 (en) 2020-01-01

Similar Documents

Publication Publication Date Title
JP6869354B2 (ja) 音声機能制御方法および装置
WO2019085575A1 (zh) 一种声纹认证方法、账号注册方法及装置
JP6599906B2 (ja) ログインアカウントのプロンプト
US20190384801A1 (en) Application processing method, computer device, and storage medium
US11829433B2 (en) Contextual deep bookmarking
WO2016062173A1 (zh) 用户属性数值转移方法及终端
US9646438B2 (en) Device operations based on configurable input sequences
US20150039988A1 (en) Form processing
US11449874B2 (en) Method for provisioning merchant-specific payment apparatus
US11769507B2 (en) Voice-assistant activated virtual card replacement
EP3848878A1 (en) Service processing method and apparatus
US20150277751A1 (en) Gesture selection data input method and data storage medium having gesture selection software tool stored thereon for implementing the same
CN106201153B (zh) 一种操作入口展示方法及装置
WO2024114163A1 (zh) 资源转移处理的方法及装置
US9830362B2 (en) Techniques for ranking character searches
US20130042204A1 (en) Automatic data entry to an automated response system (ars)
TW201606667A (zh) 充值提示方法和充值提示裝置
CN107391591B (zh) 数据处理方法、装置及服务器

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190826

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190826

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200925

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201005

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201116

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20201228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210329

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210413

R150 Certificate of patent or registration of utility model

Ref document number: 6869354

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250