JP6869354B2

JP6869354B2 - 音声機能制御方法および装置

Info

Publication number: JP6869354B2
Application number: JP2019535874A
Authority: JP
Inventors: シェン・パン
Original assignee: アドバンスドニューテクノロジーズカンパニーリミテッド
Priority date: 2017-03-31
Filing date: 2018-03-26
Publication date: 2021-05-12
Anticipated expiration: 2038-03-26
Also published as: US10991371B2; TW201837896A; EP3575957A4; US10643615B2; KR20190089032A; JP2020510852A; EP3575957B1; US20190304461A1; TWI665656B; CN107122179A; MY194401A; PH12019501488A1; WO2018177233A1; KR102228964B1; EP3575957A1; US20200219510A1

Description

本出願はネットワーク通信技術の分野に関し、特に、音声機能制御(voice function control)方法および装置に関する。

音声アシスタントは、端末上で動作するソフトウェアであり、音声によってユーザと通信し、ユーザが、情報検索および端末動作など、ユーザによって指定された様々な機能を実施するのを支援することができる。Apple（登録商標）が音声アシスタントSiri（登録商標）を市場に出してから、ユーザは、音声アシスタント分野により多くの注意を払い、音声アシスタントタイプのソフトウェアをより頻繁に使用しており、これは、音声アシスタントの発展を促進している。

現在、音声アシスタントは、端末にインストールされたアプリケーションプログラムと組み合わせられ得る。ユーザが、あるタスクを実行するための命令を音声アシスタントに送り、音声アシスタントは、そのタスクを完了するために、対応するアプリケーションプログラムを呼び出す。それにより、ユーザが単一のエントリとして音声アシスタントを使用することによって完了することができる機能が、非常に豊富になる。

既存の技術では、一例としてSiriが使用される。Siriは、６つのタイプのアプリケーションプログラム（タクシー配車、通信、写真検索、支払い取引、ネットワークフォン、およびフィットネス）と協働することができる。ユーザの音声入力を受信すると、Siriは、ユーザの意図を決定し、その意図を処理すべきなのか、その意図を処理するためのアプリケーションプログラムを呼び出すべきなのかを決定する。Siriが、アプリケーションプログラムを呼び出すことを決定した場合、Siriは、Siriによって生成されたユーザ音声認識の結果から関係情報を抽出し、関係情報をアプリケーションプログラムに与える。アプリケーションプログラムは、Siriによって与えられた情報に基づいて、その情報において指定された機能を実施する。

Siriによって与えられた情報が、ユーザによって指定されたタスクを正しく完了するための基礎であることが学習され得る。Siriが入力音声を正確に識別することができないとき、ユーザは、音声によって満足なレベルの機能制御を達成することが困難である。

前述の説明に鑑みて、本出願は、音声機能制御方法を提供する。本音声機能制御方法は、端末の音声アシスタントに適用され、ユーザの入力音声を認識した結果に基づいて、関連アプリケーションプログラムを決定するステップであって、関連アプリケーションプログラムが、ユーザによって使用されるべき機能を実施するように構成された、ステップと、関連アプリケーションプログラムがユーザの入力音声を認識し、認識結果に基づいて機能を実施するように、ユーザの入力音声を関連アプリケーションプログラムに渡すステップとを含む。

本出願は、音声機能制御方法を提供する。本音声機能制御方法は、音声アシスタントとは異なる別の機能を実施するように構成された端末アプリケーションプログラムに適用され、音声アシスタントからユーザの入力音声を受信するステップと、ユーザの入力音声を認識するステップと、認識結果に基づいて、ユーザによって使用されるべき機能を実施するステップとを含む。

本出願は、音声機能制御装置をさらに提供する。本音声機能制御装置は、端末の音声アシスタントに適用され、ユーザの入力音声を認識した結果に基づいて、関連アプリケーションプログラムを決定するように構成された関連アプリケーションプログラムユニットであって、関連アプリケーションプログラムが、ユーザによって使用されるべき機能を実施するように構成された、関連アプリケーションプログラムユニットと、関連アプリケーションプログラムがユーザの入力音声を認識し、認識結果に基づいて機能を実施するように、ユーザの入力音声を関連アプリケーションプログラムに渡すように構成された入力音声受渡ユニットとを含む。

本出願は、音声機能制御装置を提供する。本音声機能制御装置は、音声アシスタントとは異なる別の機能を実施するように構成された端末アプリケーションプログラムに適用され、音声アシスタントからユーザの入力音声を受信するように構成された入力音声受信ユニットと、ユーザの入力音声を認識することと、認識結果に基づいて、ユーザによって使用されるべき機能を実施することとを行うように構成された機能実施ユニットとを含む。

本出願の実施形態では、ユーザの入力音声を認識した結果に基づいて、関連アプリケーションプログラムを決定した後に、音声アシスタントは、ユーザの入力音声を関連アプリケーションプログラムに渡し、関連アプリケーションプログラムは、入力音声を認識し、次いで、ユーザ命令を実行することが、前述の技術的解決策から学習され得る。各関連アプリケーションプログラムは、専用フィールド(field)に適用される。たとえば、Gaode map（登録商標）アプリケーションプログラムは、マップおよびナビゲーションフィールドに適用される。したがって、たいていの場合、関連アプリケーションプログラムが属する機能タイプにおける関連アプリケーションプログラムの音声認識精度が、すべての機能タイプに共通である音声アシスタントの精度よりも高く、したがって、ユーザによって必要とされる機能が、より正確に、迅速に完了され、それにより、音声機能制御効率を改善することができる。

本出願の一実施形態による、端末の音声アシスタントに適用される音声機能制御方法を示すフローチャートである。本出願の一実施形態による、端末のアプリケーションプログラムに適用される音声機能制御方法を示すフローチャートである。本出願による、適用例の作業原理を示す概略図である。端末を示す構造的ハードウェア図である。本出願の一実施形態による、端末の音声アシスタントに適用される音声機能制御装置を示す論理構造図である。本出願の一実施形態による、端末のアプリケーションプログラムに適用される音声機能制御装置を示す論理構造図である。

既存の技術では、端末にインストールされた非音声アシスタントタイプの多くのアプリケーションプログラムも、ユーザの音声入力を受信し、ユーザの音声命令を認識および実行し、ユーザによって使用されるべき機能を実施できる。簡単のために、以下では、音声アシスタントタイプのアプリケーションプログラムは音声アシスタントと呼ばれ、非音声アシスタントタイプのものであり、音声アシスタントとは異なる別の機能を実施するように構成されたアプリケーションプログラムは、アプリケーションプログラムと呼ばれる。

音声アシスタントは、元来、ユーザとの音声対話のための統一エントリとして働くように設計されており、音声アシスタントは、ユーザが関与し得るすべての機能タイプの命令を認識することに加えて、ユーザとチャットすることを必要とする。したがって、音声アシスタントの辞書(lexicon)は、極めて広い辞書的範囲(lexical range)を有し、すべてのタイプの語彙(vocabulary)の認識レートが、音声アシスタントの音声認識アルゴリズムの最適化中に考慮される必要がある。しかしながら、アプリケーションプログラムは、通常、いくつかの主要な機能を実施することに焦点を当てる。たとえば、マップタイプのアプリケーションプログラムは、アドレス指定、測位、およびナビゲーションに焦点を当て、ショッピングタイプのアプリケーションプログラムは、商品および取引に焦点を当てる。ユーザがこれらのアプリケーションプログラムを使用するとき、アプリケーションプログラムが焦点を当てる機能をユーザが使用しようとすることが基本的に決定される。したがって、アプリケーションプログラムにおける音声認識のために使用される辞書の辞書的範囲は、アプリケーションプログラムが焦点を当てる機能フィールドにも焦点を当て、音声認識アルゴリズムの最適化も、アプリケーションプログラムが焦点を当てる機能フィールドに焦点を当てる。

ユーザが音声命令を送った時間から、端末が応答を与える時間までの待機持続時間は、ユーザエクスペリエンスに大いに影響を及ぼす。したがって、音声認識のために利用可能な時間は、極めて限られている。限られた時間内で、任意の特定の機能フィールドにおいて、ユーザが、そのフィールドにおけるある機能を使用しようとするので、音声アシスタントが、ユーザによって入力された音声を認識したとき、精度に関して、音声アシスタントは、その機能フィールドに属するアプリケーションプログラムに追いつくことが困難である。

たとえば、ロケーション名に関して、Gaode mapアプリケーションプログラムの辞書は、Siriの辞書よりも包括的および正確である。さらに、ロケーション検索に関する長期的累積により、Gaode mapアプリケーションプログラムの認識アルゴリズムも、ロケーション名認識に関してSiriの認識アルゴリズムよりも正確である。本出願のシナリオでは、Siriは、Siriの認識アルゴリズムを最適化するための基準として、ロケーション名およびロケーションなど、より信頼できるデータを有しない。

既存の技術では、音声アシスタントが認識結果をアプリケーションプログラムに配信することが、実際は、ある作業が得意でない当事者(party)がその作業を完了し、その作業が得意である他の当事者に不正確な作業結果を配信し、他の当事者が、比較的不十分な作業結果に基づいてタスクを完了しなければならないことを意味することが学習され得る。したがって、良好な結果を達成することは当然困難である。

前述の考えに基づいて、本出願の実施形態は、新しい音声機能制御方法を提供する。音声アシスタントは、ユーザの入力音声を認識することによって、ユーザの意図を実施することができる関連アプリケーションプログラムを決定し、次いで、入力音声を関連アプリケーションプログラムに渡す。関連アプリケーションプログラムは、音声を認識し、次いで、ユーザによって使用されるべき機能を実施する。したがって、アプリケーションプログラムは、元の入力音声に基づいてユーザ命令を実行し、したがって、アプリケーションプログラムは、音声アシスタントの望ましくない結果ではなく、それ自体の認識結果に基づいて機能を実施することができる。したがって、ユーザによって必要とされる機能は、既存の技術における問題を緩和するために、より正確に、迅速に実施され得る。

本出願の実施形態では、音声アシスタントおよびアプリケーションプログラムの両方が、ユーザの端末上で動作する。音声アシスタントは、端末のオペレーティングシステム層において動作することができるか、またはオペレーティングシステムの上位層アプリケーションとして動作することができる。実施形態は限定されない。ユーザの端末は、モバイルフォン、タブレットコンピュータ、パーソナルコンピュータ(PC)、ノートブックコンピュータ、またはサーバなど、音声入力機能と、計算機能と、記憶機能とを有する任意のデバイスであり得る。実施形態は同じく限定されない。

本出願の実施形態では、音声機能制御方法が音声アシスタントに適用されるプロセスが、図１に示されており、音声機能制御方法がアプリケーションプログラムに適用されるプロセスが、図２に示されている。

ステップ１１０：音声アシスタントは、ユーザの入力音声を認識した結果に基づいて、関連アプリケーションプログラムを決定し、関連アプリケーションプログラムは、ユーザによって使用されるべき機能を実施するように構成される。

ユーザの音声入力を受信した後に、音声アシスタントはユーザの音声を認識する。ユーザ命令がある機能の使用を伴わない場合、またはユーザによって使用されるべき機能が音声アシスタントによって実施され得る場合、音声アシスタントは、認識結果に基づいて、ユーザの入力に返答するか、またはユーザ命令を実行する。音声アシスタントの認識結果が、アプリケーションプログラムによって実施されるある機能をユーザが使用する必要があるということである場合、音声アシスタントは、その機能を実施する関連アプリケーションプログラムを決定する。

ユーザは、入力音声において、ユーザが使用することを希望するアプリケーションプログラムを指定することができる。この場合、音声アシスタントは、ユーザの入力音声を認識した結果からアプリケーションプログラム名を抽出し、関連アプリケーションプログラムとしてそのアプリケーションプログラム（すなわち、入力音声においてユーザによって指定されたアプリケーションプログラム）を使用することができる。たとえば、ユーザが「DiDi（登録商標）で私にタクシーを呼んで」と音声アシスタントに言った場合、音声アシスタントは、アプリケーションプログラム名「DiDi」を認識し、したがって、関連アプリケーションプログラムとしてアプリケーションプログラムDiDiを使用する。

ユーザが、入力音声において、ユーザが使用することを希望するアプリケーションプログラムを指定しない場合、音声アシスタントは、ユーザの入力音声を認識した結果に基づいて、ユーザによって使用されるべき機能を決定し、次いで、ユーザによって使用されるべき機能に基づいて、端末にインストールされたアプリケーションプログラムから、関連アプリケーションプログラムを決定することができる。音声アシスタントによって、認識結果からユーザによって使用されるべき機能を決定するための方法が、様々な既存の技術に関して実施され得る。たとえば、各機能のいくつかのキーワードが、あらかじめ決定され得る。ある機能キーワードが、ユーザの音声を認識した結果においてヒットした場合、ユーザが使用することを希望する機能が知られ得る。

ユーザによって使用されるべき機能に基づいて、関連アプリケーションプログラムを決定するやり方が、実際のアプリケーションシナリオの要求に基づいて決定され得る。以下は、説明のための例として２つの実施形態を使用する。

第１の実施形態では、ユーザによって使用されるべき機能を認識した後に、音声アシスタントは、ユーザによって使用されるべき機能を実施し、端末における音声入力をサポートすることができる、１つのアプリケーションプログラムから複数のアプリケーションプログラムを候補アプリケーションプログラムとして使用し、候補アプリケーションプログラムの名前を選択のためにユーザに表示することができる。ユーザの選択結果を受信した後に、音声アシスタントは、関連アプリケーションプログラムとして、ユーザによって選択されたアプリケーションプログラムを決定する。

第２の実施形態では、使用されるべき機能とアプリケーションプログラムとの間のマッピング関係が、端末において維持され得る。ユーザによって使用されるべき機能を認識した後に、音声アシスタントは、関連アプリケーションプログラムとして、ユーザによって使用されるべき機能とのマッピング関係を有するアプリケーションプログラムを使用することができる。ユーザによって使用されるべき機能を反映するために機能キーワードが使用される、前述の例では、機能キーワードとアプリケーションプログラムとの間のマッピング関係のテーブルが、端末に記憶され得る。ユーザの入力音声を認識した結果から機能キーワードを抽出した後に、音声アシスタントは、関連アプリケーションプログラムとして、機能キーワードとのマッピング関係を有するアプリケーションプログラムを使用することができる。

第２の実施形態では、使用されるべき機能とアプリケーションプログラムとの間のマッピング関係は、ユーザによって設定および／または変更され得るか、あるいは音声アシスタントまたはオペレーティングシステムによって生成され得るか、あるいはその両方のやり方で生成され得る。本出願の実施形態では、実施形態は限定されない。一例では、音声を入力するとき、ユーザは、音声アシスタントまたはオペレーティングシステムによって与えられる設定項目において、使用されるべき機能と関連アプリケーションプログラムとの間のマッピング関係（１つの機能から複数の機能が１つのアプリケーションプログラムに対応する）を設定することができる。別の例では、ある機能を実施するためにユーザによって最も頻繁に使用されるアプリケーションプログラムが、その機能とのマッピング関係を有するアプリケーションプログラムとして使用され得る。端末にインストールされた１つのアプリケーションプログラムのみが、ある機能を実施することができる場合、アプリケーションプログラムは、その機能とのマッピング関係を有するアプリケーションプログラムとして使用される。端末にインストールされた２つ以上のアプリケーションプログラムが、ある機能を実施することができる場合、オペレーティングシステムによって計数された頻度であって、その機能を実施することができる各アプリケーションプログラムをユーザが使用した頻度に基づいて、最も頻繁に使用されるアプリケーションプログラムが、その機能とのマッピング関係を有するアプリケーションプログラムとして使用され得る。第３の例では、ある機能を実施することができるアプリケーションプログラムでは、ユーザは、音声が入力されたとき、アプリケーションプログラムを、その機能とのマッピング関係を有するアプリケーションプログラムにさらに設定することができる。ユーザの設定命令を受信した後に、アプリケーションプログラムは、アプリケーションプログラムと使用されるべき機能との間のマッピング関係を音声アシスタントに提示する。たとえば、Gaode mapアプリケーションプログラムでは、ユーザは、音声が入力されたとき、Gaode mapアプリケーションプログラムを、機能キーワード「ナビゲーション」とのマッピング関係にあると設定する。この場合、Gaode mapアプリケーションプログラムは、ユーザ操作に基づいて設定項目をSiriに提示し、Siriは、マッピング関係を記憶し、その後、ユーザが音声「…にナビゲートしてください」を入力したとき、マッピング関係に基づいて、関連アプリケーションプログラムとしてGaode mapアプリケーションプログラムを使用する。

関連アプリケーションプログラムを決定する、前述の２つのやり方は、代替的に組合せで適用され得ることに留意されたい。たとえば、ユーザによって使用されるべき機能を決定した後に、音声アシスタントは、機能とアプリケーションプログラムとの間の記憶されたマッピング関係を照会する。音声アシスタントが、使用されるべき機能とのマッピング関係を有するアプリケーションプログラムを見つけることができる場合、音声アシスタントは、マッピング関係に基づいて、関連アプリケーションプログラムを決定する。音声アシスタントが、使用されるべき機能とのマッピング関係を有するアプリケーションプログラムを見つけることができない場合、音声アシスタントは、使用されるべき機能を実施し、端末における音声入力をサポートすることができるアプリケーションプログラムを選択のためにユーザに与え、ユーザ選択に基づいて、関連アプリケーションプログラムを決定する。ユーザ選択の後に、ユーザは、機能のデフォルトの関連アプリケーションプログラムを設定することを要求され得る。ユーザが、機能のデフォルトの関連アプリケーションプログラムを設定した場合、音声アシスタントは、機能と、ユーザによって設定されたアプリケーションプログラムとの間のマッピング関係を記憶する。ユーザが、機能のデフォルトの関連アプリケーションプログラムを設定しない場合、音声アシスタントは、ユーザが機能を実施するためにアプリケーションプログラムを選択した回数と、ユーザが機能を実施するためにアプリケーションプログラムを選択した頻度の両方が、指定されたしきい値を超えた後に、アプリケーションプログラムと機能との間のマッピング関係を記憶することができる。たとえば、機能とアプリケーションプログラムとの間のマッピング関係の、Siriによって維持されるテーブルは、「ナビゲーション」機能のマッピング関係を含まない。ユーザが音声命令「…にナビゲートして」を５回与えた後、Siriは、端末にインストールされたGaode mapアプリケーションプログラム、Baidu map（登録商標）、およびSogou map（商標）のアプリケーションプログラム名をユーザに表示し、ユーザは、ナビゲーションのために１つのアプリケーションプログラムを使用することを選ぶ。ユーザがGaode mapアプリケーションプログラムを４回選択した場合、Siriは、「ナビゲーション」機能とGaode mapアプリケーションプログラムとの間のマッピング関係をマッピング関係テーブルに記憶する。次いで、ユーザがナビゲーションのための音声命令を与えたとき、Siriは、関連アプリケーションプログラムとしてGaode mapアプリケーションプログラムを直接使用する。

ステップ１２０：音声アシスタントは、関連アプリケーションプログラムがユーザの入力音声を認識し、認識結果に基づいて機能を実施するように、ユーザの入力音声を関連アプリケーションプログラムに渡す。

ステップ２１０：関連アプリケーションプログラムは、音声アシスタントからユーザの入力音声を受信する。

ユーザによって使用されるべき機能を実施することができる関連アプリケーションプログラムを決定した後に、音声アシスタントは、関連アプリケーションプログラムを開き（関連アプリケーションプログラムを開始すること、関連アプリケーションプログラムを実行のためにフォアグラウンドに置くことなどを含む）、ユーザの入力音声を関連アプリケーションプログラムに渡す。

ステップ２２０：関連アプリケーションプログラムは、ユーザの入力音声を認識し、認識結果に基づいて、ユーザによって使用されるべき機能を実施する。

関連アプリケーションプログラムは、音声アシスタントからのユーザの入力音声を認識し、認識結果に基づいて、関連アプリケーションプログラムのサービス処理論理を実行して、ユーザによって使用されるべき機能を実施する。関連アプリケーションプログラムは、既存の技術に基づいて、音声認識および機能実施を行うことができる。簡単のために、詳細はここでは省略される。

一例では、音声アシスタントは、ユーザの入力音声を認識したそれ自体の結果とともに、ユーザの入力音声を関連アプリケーションプログラムに渡すことができる。関連アプリケーションプログラムは、ユーザの入力音声を認識し、関連アプリケーションプログラムの認識結果と音声アシスタントからの認識結果とに基づいて、ユーザによって使用されるべき機能を実施する。音声アシスタントの認識結果は、関連アプリケーションプログラムによって音声を認識するための基準として使用されて、さらに認識精度を改善することができる。

本出願の実施形態では、音声アシスタントが、ユーザの入力音声を認識することによって、ユーザによって使用されるべき機能を実施することができる関連アプリケーションプログラムを決定し、入力音声を関連アプリケーションプログラムに渡し、関連アプリケーションプログラムが、入力音声を認識し、次いでユーザ命令を実行することが学習され得る。したがって、アプリケーションプログラムが属する機能タイプにおけるアプリケーションプログラムのより正確な音声認識結果が、ユーザによって必要とされる機能をより正確に、迅速に完了するために使用され、それにより、音声機能制御効率を改善することができる。

本出願の適用例では、音声アシスタントSiri、および様々な機能を完了することができるアプリケーションプログラムが、ユーザのApple端末にインストールされる。Siriは、機能キーワードとアプリケーションプログラムとの間のマッピング関係のテーブルを記憶する。マッピング関係テーブルの一例を表１に示す。

本適用例の作業原理を図３に示す。ユーザの入力音声を受信した後に、Siriは入力音声を認識する。ユーザによって使用されるべき機能が別のアプリケーションプログラムによって実施される必要があると仮定すると、Siriは、認識結果からユーザによって使用されるべき機能を表す機能キーワードを抽出し、機能キーワードに基づいてマッピング関係テーブルを検索する。Siriが、機能キーワードに対応するアプリケーションプログラムを見つけた場合、Siriは、関連アプリケーションプログラムとしてそのアプリケーションプログラムを使用する。Siriがテーブル中で機能キーワードを見つけなかった場合、Siriは、端末にインストールされ、機能を実施し、音声入力をサポートすることができる、すべてのアプリケーションプログラムの名前をユーザに表示して、希望されるアプリケーションプログラムを選択することをユーザに要求する。Siriは、関連アプリケーションプログラムとして、ユーザによって選択されたアプリケーションプログラムを使用する。

Siriは、関連アプリケーションプログラムを実行のためにフォアグラウンドに置き、オペレーティングシステムを使用することによってユーザの入力音声を関連アプリケーションプログラムに送信する。関連アプリケーションプログラムは、ユーザの入力音声を認識し、関連アプリケーションプログラムの認識結果とサービスプロセスとに基づいて、ユーザによって指定されたタスクを完了する。

たとえば、ユーザは、Siriに「２０００をZhang Sanに送金して」と言った。この場合、Siriは、機能キーワード「送金」を認識し、表１から、関連アプリケーションプログラムがALIPAY（登録商標）であることを見つける。Siriは、ALIPAYを開き、ユーザの入力音声をALIPAYに渡す。ALIPAYは、入力音声を認識し、送金サービスプロセスを開始し、「受取人：Zhang San」および「送金額：２０００」などのコンテンツをユーザに表示する。送金は、ユーザがパスワードを入力したかまたは指紋認証を完了した後、完了され得る。

前述のプロセス実施形態に対応して、本出願の実施形態は、端末音声アシスタントに適用される音声機能制御装置と、端末アプリケーションプログラムに適用される音声機能制御装置とをさらに提供する。両方の音声機能制御装置は、ソフトウェアによって実施され得るか、ハードウェアによって実施され得るか、またはハードウェアとソフトウェアとの組合せによって実施され得る。ソフトウェア実施形態が、一例として使用される。論理装置として、音声機能制御装置は、端末の中央処理ユニット(CPU)を使用することによって、対応するコンピュータプログラム命令をメモリに読み込むことによって形成される。ハードウェア実施形態に関して、図4に示されているCPU、メモリ、および不揮発性メモリに加えて、音声制御装置が配置される端末は、通常、無線信号を送信および受信するためのチップなどの他のハードウェア、ならびに／またはネットワーク通信機能を実施するように構成されたカードなどの他のハードウェアをさらに含む。

図５は、本出願の一実施形態による、音声機能制御装置を示す。音声機能制御装置は、端末の音声アシスタントに適用され、関連アプリケーションプログラムユニットと入力音声受渡ユニットとを含む。関連アプリケーションプログラムユニットは、ユーザの入力音声を認識した結果に基づいて、関連アプリケーションプログラムを決定するように構成され、関連アプリケーションプログラムは、ユーザによって使用されるべき機能を実施するように構成される。入力音声受渡ユニットは、関連アプリケーションプログラムがユーザの入力音声を認識し、認識結果に基づいて機能を実施するように、ユーザの入力音声を関連アプリケーションプログラムに渡すように構成される。

一例では、使用されるべき機能とアプリケーションプログラムとの間のマッピング関係が端末において維持され、関連アプリケーションプログラムユニットは、詳細には、ユーザの入力音声を認識した結果に基づいて、ユーザによって使用されるべき機能を決定することと、関連アプリケーションプログラムとして、ユーザによって使用されるべき機能とのマッピング関係を有するアプリケーションプログラムを使用することとを行うように構成される。

前述の例では、使用されるべき機能とアプリケーションプログラムとの間のマッピング関係は、機能キーワードとアプリケーションプログラムとの間のマッピング関係を含み、関連アプリケーションプログラムユニットは、詳細には、ユーザの入力音声を認識した結果から機能キーワードを抽出することと、関連アプリケーションプログラムとして、機能キーワードとのマッピング関係を有するアプリケーションプログラムを使用することとを行うように構成される。

前述の例では、使用されるべき機能とアプリケーションプログラムとの間のマッピング関係は、使用されるべき機能とアプリケーションプログラムとの間の、ユーザによって設定されたマッピング関係、および／または使用されるべき機能とのマッピング関係を有するアプリケーションプログラムとして、使用されるべき機能を実施するために、ユーザによって最も頻繁に使用されるアプリケーションプログラムを決定すること、および／またはアプリケーションプログラムと使用されるべき機能との間の、あるアプリケーションプログラムによって提示されるマッピング関係を含む。

随意に、関連アプリケーションプログラムユニットは、ユーザの入力音声を認識した結果に基づいて、ユーザによって使用されるべき機能を決定することと、機能を実施し、音声入力をサポートすることができるアプリケーションプログラムの名前を選択のためにユーザに表示することと、関連アプリケーションプログラムとして、ユーザによって選択されたアプリケーションプログラムを決定することとを行うように構成される。

随意に、関連アプリケーションプログラムユニットは、ユーザの入力音声を認識した結果からアプリケーションプログラム名を抽出することと、関連アプリケーションプログラムとして、入力音声において指定されたアプリケーションプログラムを使用することとを行うように構成される。

随意に、入力音声受渡ユニットは、関連アプリケーションプログラムが、ユーザの入力音声を認識し、関連アプリケーションプログラムの認識結果と音声アシスタントの認識結果とに基づいて、機能を実施するように、認識結果とユーザの入力音声とを関連アプリケーションプログラムに渡すように構成される。

図６は、本出願の一実施形態による、音声機能制御装置を示す。音声機能制御装置は、音声アシスタントとは異なる別の機能を実施するように構成された端末アプリケーションプログラムに適用され、入力音声受信ユニットと機能実施ユニットとを含む。入力音声受信ユニットは、音声アシスタントからユーザの入力音声を受信するように構成される。機能実施ユニットは、ユーザの入力音声を認識することと、認識結果に基づいて、ユーザによって使用されるべき機能を実施することとを行うように構成される。

随意に、入力音声受信ユニットは、音声アシスタントから、ユーザの入力音声と、音声アシスタントによって入力音声を認識した結果とを受信するように構成され、機能実施ユニットは、ユーザの入力音声を認識することと、それ自体の認識結果と音声アシスタントからの認識結果とに基づいて、ユーザによって使用されるべき機能を実施することとを行うように構成される。

一例では、音声機能制御装置は、ユーザ命令に基づいて、アプリケーションプログラムと使用されるべき機能との間のマッピング関係を音声アシスタントに提示するように構成された、マッピング関係サブミッションユニットをさらに含む。

前述の例では、アプリケーションプログラムと使用されるべき機能との間のマッピング関係は、アプリケーションプログラムと機能キーワードとの間のマッピング関係を含む。

前述の説明は、本出願の実施形態の例にすぎず、本出願を限定するものではない。本出願の趣旨および原理から逸脱することなく行われるいかなる修正、等価な置換、改善なども、本出願の保護範囲内に入るべきである。

典型的な構成では、コンピューティングデバイスは、１以上のプロセッサ(CPU)と、１以上の入出力インターフェースと、１以上のネットワークインターフェースと、１以上のメモリとを含む。

メモリは、非永続的メモリ、ランダムアクセスメモリ(RAM)、および/あるいはコンピュータ可読媒体における不揮発性メモリ、たとえば、読取り専用メモリ(ROM)またはフラッシュメモリ(フラッシュRAM)を含むことができる。メモリはコンピュータ可読媒体の一例である。

コンピュータ可読媒体は、任意の方法または技術を使用することによって情報を記憶することができる永続的、非永続的、可動、および非可動媒体を含む。情報は、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータであり得る。コンピュータ記憶媒体の例は、限定はしないが、相変化RAM(PRAM)、スタティックRAM(SRAM)、ダイナミックRAM(DRAM)、別のタイプのRAM、ROM、電気的消去可能プログラマブルROM(EEPROM)、フラッシュメモリまたは別のメモリ技術、コンパクトディスクROM(CD-ROM)、デジタル多用途ディスク(DVD)または別の光ストレージ、カセット、カセット磁気ディスクストレージまたは別の磁気ストレージデバイス、あるいは任意の他の非送信媒体を含む。コンピュータ記憶媒体は、コンピューティングデバイスにとって利用可能な情報を記憶するように構成され得る。本出願で説明されたように、コンピュータ可読媒体は、被変調データ信号および搬送波など、コンピュータ可読一時的媒体を含まない。

「含む(include)」および「備える、含む(comprise)」という用語、またはそれらの任意の他の変形態は、非排他的包含をカバーするものとし、したがって、要素のリストを含むプロセス、方法、製品、またはデバイスが、それらの要素を含むだけでなく、明確にリストされない他の要素をも含むか、あるいは、そのようなプロセス、方法、製品、またはデバイスに固有の要素をさらに含むことにさらに留意することが有益である。さらなる制約がなければ、「を含む」の前にある要素は、その要素を含むプロセス、方法、製品、またはデバイス中の追加の同等の要素の存在を妨げない。

本出願の実施形態が、方法、システム、またはコンピュータプログラム製品として提供され得ることを、当業者は理解されよう。したがって、本出願は、ハードウェアのみの実施形態、ソフトウェアのみの実施形態、またはソフトウェアとハードウェアとの組合せをもつ実施形態の形態を使用することができる。さらに、本出願は、コンピュータ使用可能プログラムコードを含む(限定はしないが、磁気ディスクストレージ、CD-ROM、光メモリなどを含む)１以上のコンピュータ使用可能記憶媒体上で実施されるコンピュータプログラム製品の形態を使用することができる。

Claims

音声機能制御のための方法であって、前記方法は、
端末の音声アシスタントによってユーザの入力音声を認識した第１認識結果に基づいて、前記端末の関連アプリケーションプログラムを決定するステップであって、前記関連アプリケーションプログラムが、前記ユーザによって使用される機能を実施するように構成されている、ステップと、
前記第１認識結果及び前記ユーザの前記入力音声を前記関連アプリケーションプログラムに渡し、それにより、前記関連アプリケーションプログラムが、前記ユーザの前記入力音声を認識し、第２認識結果を生成するステップと
を含み、
前記関連アプリケーションプログラムが、前記第２認識結果及び前記第１認識結果に基づいて前記機能を実施する、方法。
使用される前記機能とアプリケーションプログラムとの間のマッピング関係が、前記端末において維持される、請求項１に記載の方法。
前記ユーザの入力音声を認識した前記第１認識結果に基づいて、前記関連アプリケーションプログラムを決定する前記ステップが、
前記第１認識結果に基づいて、前記ユーザによって使用される前記機能を決定するステップと、
前記関連アプリケーションプログラムとして、前記ユーザによって使用される前記機能とのマッピング関係を有するアプリケーションプログラムを決定するステップと
を含む、請求項２に記載の方法。
使用される前記機能とアプリケーションプログラムとの間の前記マッピング関係が、機能キーワードとアプリケーションプログラムとの間の前記マッピング関係を含む、請求項３に記載の方法。
前記ユーザの前記入力音声を認識した前記第１認識結果に基づいて、前記関連アプリケーションプログラムを決定する前記ステップが、
前記第１認識結果から機能キーワードを抽出するステップと、
前記関連アプリケーションプログラムとして、前記機能キーワードとのマッピング関係を有するアプリケーションプログラムを決定するステップと
を含む、請求項４に記載の方法。
使用される前記機能と前記アプリケーションプログラムとの間の前記マッピング関係が、
前記ユーザによって設定された使用される前記機能と前記アプリケーションプログラムとの間の前記マッピング関係、または
使用される前記機能との前記マッピング関係を有する前記アプリケーションプログラムとして、使用される前記機能を実施するために、前記ユーザによって最も頻繁に使用される前記アプリケーションプログラムを決定するステップ、または、
前記アプリケーションプログラムと使用される前記機能との間の、あるアプリケーションプログラムによって提示される前記マッピング関係
を含む、請求項５に記載の方法。
前記ユーザの前記入力音声を認識した前記第１認識結果に基づいて、前記関連アプリケーションプログラムを決定する前記ステップが、
前記第１認識結果に基づいて、前記ユーザによって使用される前記機能を決定し、前記機能を実施して音声入力をサポートすることができるアプリケーションプログラムの名前を選択のために前記ユーザに表示するステップと、
前記関連アプリケーションプログラムとして、前記ユーザによって選択された前記アプリケーションプログラムを決定するステップと
を含む、請求項１に記載の方法。
前記ユーザの前記入力音声を認識した前記第１認識結果に基づいて、前記関連アプリケーションプログラムを決定する前記ステップが、
前記第１認識結果からアプリケーションプログラム名を抽出するステップと、
前記関連アプリケーションプログラムとして、前記入力音声において指定されたアプリケーションプログラムを決定するステップと
を含む、請求項１に記載の方法。
前記音声アシスタントから前記ユーザの入力音声を受信するステップ
をさらに含む、請求項１に記載の方法。
前記音声アシスタントが、
前記アプリケーションプログラムの機能フィールドに焦点を当てる語彙範囲
を含む、請求項１に記載の方法。
音声機能制御のための装置であって、前記装置が、請求項１から１０のいずれか一項に記載の方法を行うように構成された複数のモジュールを備える、音声機能制御のための装置。