JP2022518339A

JP2022518339A - 音声制御される電子装置のコマンド生成技術

Info

Publication number: JP2022518339A
Application number: JP2021531853A
Authority: JP
Inventors: キュブクク，バラン
Original assignee: ベステルエレクトロニクサナイーベティカレトエー．エス．
Priority date: 2018-12-06
Filing date: 2018-12-06
Publication date: 2022-03-15
Also published as: US20210311701A1; CN113196383A; EP3891730A1; KR20210099629A; WO2020114599A1; EP3891730B1

Abstract

音声制御される電子装置によって処理されるコマンドを生成するための技術が開示される。本技術の方法の実用化は、電子装置によって処理されるコマンドの第１の部分を表す音声入力を受信し（Ｓ２０２）、電子装置のスクリーン上に表示されたコンテンツの選択を受信し（Ｓ２０４）、選択されたコンテンツは電子装置によって処理されるコマンドの第２の部分を表し、音声入力と選択されたコンテンツとの組合せに基づいてコマンドを生成する（Ｓ２０６）こと、を含む。【選択図】図２

Description

本開示は一般に、電子装置の分野に関する。特に、音声制御される電子装置によって処理されるコマンドを生成するための技術が提示される。この技術は、方法、コンピュータプログラム、および電子装置で実施することができる。

「スピーチ・トゥ・テキスト」技術としても知られる音声認識技術は話し言葉をテキストに変換するためのコンピュータ実行の支援を提供するために、ここ数十年にわたって開発されてきており、その間、様々な応用分野で採用されてきた。特に、近年、家庭用機器の音声制御や、バーチャルアシスタント、すなわち、ユーザの言葉による要求に応じてタスクを実行したりサービスを提供したりすることができるソフトウェアエージェントの実行などの電子装置の音声制御のために、音声認識技術がますます採用されるようになってきている。既知のバーチャルアシスタントには、ＡｐｐｌｅＳｉｒｉ、ＧｏｏｇｌｅＡｓｓｉｓｔａｎｔ、ＡｍａｚｏｎＡｌｅｘａ、ＭｉｃｒｏｓｏｆｔＣｏｒｔａｎａなどがある。

電子装置の音声制御は、音声コマンドに含まれるキーワードが明確に認識できない場合、一般にその限界に達する可能性があり、そのため、入力されたコマンドは、制御が実行されることが望ましくない結果をもたらす可能性のある、意図しない要素を潜在的に含む。このような状況は特に、音声コマンドが音声認識のデフォルト言語とは異なる言語の用語を含む場合、音声コマンドが音声認識に使用される語彙に含まれていない用語を含む場合、または音声コマンドがユーザによって不明瞭に発音された用語を含む場合に、生じることがある。

一例として、音声認識のデフォルト言語が英語であり、ユーザが音声コマンドの要素として日本語表現を入力しようとする（例えば、「電視とは何か」を尋ねる）場合、ユーザによる誤った発音のため、または異なる言語の認識（異なる文字セットに基づくこともある）が認識エンジンによってサポートされていないために、日本語表現の認識を失敗することがある。別の例として、ユーザが音声コマンドの要素として珍しい名前を入力しようとする（例えば、「ウラジーミル・ベスチャツニフとは誰か」と尋ねる）場合、ユーザによる誤った発音のために、または名前が音声認識に使用される語彙の一部ではないために、名前の認識を失敗することがある。さらに別の例では、ユーザが、語彙に含まれているが不明瞭に発音されたときに曖昧な変換をもたらす可能性がある用語を入力しようとする場合、ユーザによる不明瞭な発音（例えば、「Ｖｅｓｔｅｌ（ヴェステル）はどこか」と尋ねても、「ｖｅｓｓｅｌ（ヴェセル、船）はどこか」と認識される）のために用語の認識は失敗する可能性がある。

これらの例を考慮すると、電子装置にコマンドを入力する単なる言葉による方法は、音声制御に対して必ずしも満足のいく結果をもたらすとは限らないことが明らかである。したがって、本開示の目的は、これらの問題または他の問題のうちの１つまたは複数を回避するための、音声制御される電子装置によって処理されるコマンドを生成する技術を提供することである。

第１の態様によれば、音声制御される電子装置によって処理されるコマンドを生成するための方法が提供される。この方法は、電子装置によって処理されるコマンドの第１の部分を表す音声入力を受信し、電子装置のスクリーン上に表示されたコンテンツの選択を受信し、選択されたコンテンツは電子装置によって処理されるコマンドの第２の部分を表し、音声入力と選択されたコンテンツとの組合せに基づいてコマンドを生成すること、とを含む。

電子装置は、音声制御が可能な任意の種類の電子装置であってもよい。これは例えば、スマートフォン、タブレットコンピュータ、ラップトップ、及びパーソナルコンピュータのような家庭用電化製品、並びに冷蔵庫、調理器、食器洗い機、洗濯機、及びエアコンのような家庭用電化製品を含んでもよいが、これらに限定されない。電子装置は、音声コマンド（またはより一般的には音声入力）を受信するためのマイクを備えてもよく、受信した音声コマンドを処理し、それに従って動作を行うように構成されたエージェント（例えば、ソフトウェアエージェント）を実行してもよい。一実施形態では、ユーザから受信した音声コマンドに応答して、すなわち言い換えると、ユーザの言葉による要求に応じて、サービスを提供することができるバーチャルアシスタントの形態で提供されてもよい。

完全に音声ベースのコマンドを使用する代わりに、本明細書に提示される技術に従って、処理されるコマンドは、音声入力と電子装置のスクリーンから選択されたコンテンツの組み合わせから生成されるコマンドに対応してもよい。したがって、コマンドは２つのタイプの入力、すなわち、コマンドの第１の部分を表す音声入力と、生成されるコマンドの第２の部分を表すディスプレイから選択された視覚入力（電子装置のスクリーン上の表示されたコンテンツの選択に対応する）と、から生成されてもよい。次に、完全なコマンドは、コマンドの第１の部分と第２の部分とを組み合わせることによって生成されてもよい。いったん完全なコマンドが生成されると、コマンドは、電子装置によって処理されてもよい。本明細書で生成されるコマンドの第１の部分および第２の部分に言及する場合、「第１の」および「第２の」という用語は、生成されるコマンドのそれぞれの部分を単に区別することができるが、必ずしも生成されるコマンドのそれぞれの部分の順序（またはそれらの間の時間的関係）を意味するわけではない。したがって、第２の部分はコマンドの第１の部分の前に入力され、コマンドの最初の部分を表し、その後にコマンドの第１の部分が続く、またはその逆であることが考えられる。

上述したように、音声入力に対して音声認識を実行することは、不明瞭な発音または音声認識エンジンに未知の単語がある場合に、曖昧な認識または不正確な認識を引き起こす可能性があるが、電子装置のディスプレイ上のコンテンツの選択は、一般により正確な入力方法を提供し得ることから、音声入力からではほとんど認識できないコマンドの部分に対する入力方法として好ましい。特に、コンテンツの視覚的選択は、音声認識エンジンのデフォルト言語とは異なる言語である用語、音声認識エンジンの語彙に含まれない用語、および／または曖昧な変換をもたらす可能性が高い用語（例えば、ユーザによって発音されるような、平均的な変換の曖昧性が所定の閾値を超える用語）を含むコマンドの部分の入力に使用されてもよい。視覚的選択を使用することによって、一般に、コマンドをより正確に作成することができ、不適切なコマンド要素の生成を回避することができる。したがって、実行される音声制御の望ましくない結果を防ぐことができる。

コマンドは、電子装置によって解釈可能な任意のタイプのコマンドに対応することができる。具体的には、例えば、家庭用機器の動作を制御するためのコマンド、または電子装置上で実行されバーチャルアシスタントを制御するためのコマンドなど、電子装置の機能を制御するための制御コマンドに対応することができる。このコマンドは電子装置の音声制御機能の起動に応答して入力されるコマンドに対応してもよく、このようにして、このコマンドは電子装置の音声制御機能によって処理されるコマンドを反映してもよい。コマンドは例えば、電子装置の音声制御機能を作動させるホットワードの入力時に入力されてもよい。一例として、コマンドは電子装置上で実行されるバーチャルアシスタントへのクエリ、例えば、バーチャルアシスタントからサービスを要求するためのクエリに対応してもよい。バーチャルアシスタントの既知のホットワードには、例えば、ＡｐｐｌｅＳｉｒｉの場合は「ＨｅｙＳｉｒｉ」、Ｇｏｏｇｌｅアシスタントの場合は「ＯｋＧｏｏｇｌｅ」がある。

電子装置のスクリーン上のコンテンツの選択は、例えば、パーソナルコンピュータの場合にはマウスまたはキーボードを使用するなど、任意の種類の入力手段を使用して行うことができるが、一実施形態ではスクリーンはタッチスクリーンであってもよく、コンテンツの選択はタッチスクリーン上のタッチ入力によって行うことができることを理解されたい。タッチ入力は、コンテンツが選択されるスクリーン上の表示領域を指定するタッチジェスチャーに対応してもよい。一例として、タッチ入力は、選択されるコンテンツをカバーするスライディングジェスチャーに対応してもよい。これは、例えば、選択されるコンテンツ（例えば、テキスト部分）上をスライドすること、または選択されるコンテンツを取り囲む／フレーミングすることを含んでもよい。

選択されるコンテンツは、電子装置のスクリーン上に現在表示されているテキストの一部に対応してもよい。テキスト部分は選択可能なテキスト（例えば、一般的なコピー／ペースト動作で知られている一般的なユーザインターフェース機能を使用してマーク可能／選択可能なテキスト）を含んでもよく、もしくは、テキスト部分は選択不可能なテキストを含んでもよい。後者の場合、選択されたコンテンツは選択不可能なテキスト部分を含むスクリーン上の選択された表示領域に対応してもよく、テキスト部分は例えばスクリーン上に表示されたイメージのようなテキスト以外の表示要素の一部を形成してもよい。選択されるコンテンツは、電子装置のスクリーンに表示されるキーボードからの入力と対応しなくてもよい。

音声入力と選択されたコンテンツ（ここでも、それぞれ処理されるコマンドの第１の部分と第２の部分を表す）を組み合わせる前に、音声入力と選択されたコンテンツの両方を、例えば、（限定されないが）テキストへのように、同じフォーマットに変換してもよい。この目的のために、音声認識を用いて音声入力をテキストに変換してもよい。選択したコンテンツが選択可能なテキストに対応する場合、選択したテキストをさらに変換する必要がない場合がある。一方、選択されたコンテンツが選択不可能なテキスト（例えば、スクリーン上に表示されたイメージに含まれるテキスト）を含む表示領域に対応する場合、選択された表示領域は選択されたコンテンツのテキスト表現を得るために、テキスト認識の対象になり得る。

したがって、一変形例では、コンテンツの選択がテキスト（すなわち、選択可能なテキスト）の選択を含む場合、音声入力を選択されたコンテンツと組み合わせることは、音声入力の変換を選択されたテキストと組み合わせること（たとえば、音声入力の変換と選択されたテキストとを結合すること）を含んでもよい。別の変形例では、コンテンツの選択がスクリーン上の表示領域の選択（例えば、コマンドの第２の部分として使用されるテキストを含むスクリーン上に表示されるイメージに対応する）を含む場合、音声入力を選択されたコンテンツと組み合わせることは、選択された表示領域上でテキスト認識を実行して、選択されたテキストとしてその中に含まれるテキストを取得することと、音声入力の変換を選択されたテキストと組み合わせること（例えば、音声入力の変換と選択されたテキストとを結合すること）とを含んでもよい。すなわち、表示領域を指定するタッチ入力によってコンテンツの選択が行われた場合、電子機器は表示領域に何が書き込まれているかを認識し、認識されたテキストを生成するコマンドの第２の部分として使用することができる。このようにして、スクリーン上に表示される任意のテキスト部分を、一般に、コマンドが生成されるための第２の部分として選択することができる。これは、例えば、スマートフォン上で実行されるウェブブラウザまたはメッセージングアプリケーション内に表示されるテキスト部分を含んでもよく、コマンドの第２の部分として使用される単語またはフレーズは、例えば、スクリーン上の単語またはフレーズ上のタッチによって単純に選択することができる。

一実施形態では、音声入力の変換の言語と、選択されたテキストの言語は異なっていてもよい。また、音声入力の変換の文字セットと、選択されたテキストの文字セットは異なっていてもよい。したがって、一例として、音声入力の変換の言語と文字セットの両方が英語に基づいていたとしても、ユーザは生成されるコマンドのための第２の部分として日本語で表示されるテキストを選択してもよい。単なる例として、ユーザはコマンドの第１の部分を表す音声入力として「Ｗｈａｔｉｓ」と言い、次いで、コマンドの第２の入力を表すスクリーン上で「電視」を選択して、完全なコマンド「Ｗｈａｔｉｓ電視」が生成されてもよい。同様の使用例では、ユーザが電子装置のカメラアプリケーションを使用して関心のあるコンテンツの画像をキャプチャし、生成されるコマンドの第２の部分として使用されるキャプチャされた画像内の領域を選択することができる。例えば、ユーザは、「何であるか」という日本語の看板をキャプチャし、キャプチャされた画像上の看板に書かれた日本語テキスト上に指をスライドさせて、電子装置によって処理される対応するコマンドを生成することができる。

いくつかの実施形態では音声入力が電子装置によって処理される命令を含むことができ、選択されたコンテンツは命令に関連するパラメータに対応し得る。例えば、命令はコピー動作に対応してもよく、命令に関連するパラメータはコピーされる要素に対応してもよい。例えば、ユーザがウェブページを読んで、ウェブページのテキスト部分を友人と共有したい場合、ユーザは「単語をコピーして」と言い、スクリーン上の所望のテキスト部分を選択して、対応するコマンドを生成することができる。コマンドを処理するとき、電子装置は選択されたテキスト部分を電子装置のクリップボードにコピーし、友人と共有するために他のどこかに貼り付け可能な状態になっている。

コマンドの第１の部分を表す音声入力を受信し、コマンドの第２の部分を表すコンテンツの選択を受信することは、単独して動作する２段階入力手順の形で実行されてもよいが、コマンドを完全な音声コマンドとして変換することに失敗した場合のフォールバック手順として２段階入力手順が実行されることも考えられる。そのため、一変形例では、コンテンツの選択は、コンテンツを表す音声入力を正しく変換できなかったときに受信されることがある。音声入力を正しく変換できないことは、例えば、スクリーン上の音声入力の変換を検討する際に、ユーザによって判断され得る。

コマンドの第１の部分がコマンドの第２の部分の前に入力されるコマンドの最初の部分を表す場合、電子装置は第１のステップで受信された音声入力がまだ完全なコマンドを表していないことを認識し（例えば、さらなる指定なしに「ｗｈａｔｉｓ」と言う）、電子装置は、ユーザからのさらなる入力を待つように構成され得る。コメントの第１の部分を表す入力音声が完全なコマンドを表していないことを認識すると、電子装置はコンテンツの選択を待つことができる。このような変形例の１つでは、電子装置が完全なコマンドがまだ利用可能でないことを検出したときに、スクリーン上のコンテンツの選択を実行するようにユーザに積極的に促すことができる。

第２の態様によれば、コンピュータプログラム製品が提供される。コンピュータプログラム製品はコンピュータプログラム製品が１つ以上のコンピュータ装置上で実行されるときに、第１の態様の方法を実行するためのプログラムコード部分を含む。コンピュータプログラム製品は、半導体メモリ、ＤＶＤ、ＣＤ－ＲＯＭなどのコンピュータで読み取り可能な記録媒体に記憶することができる。

第３の態様によれば、電子装置によって処理されるコマンドを生成するための音声制御される電子装置が提供される。電子装置は少なくとも１つのプロセッサと、少なくとも１つのメモリとを含み、少なくとも１つのメモリは、電子装置が第１の態様に関して本明細書に提示される方法ステップを実行するように動作可能であるように、少なくとも１つのプロセッサによって実行可能な命令を含む。

本明細書で説明される態様のすべては、ハードウェア回路および／またはソフトウェアによって実行することができる。電子装置に関して本明細書にいくつか態様が説明される場合であっても、これらの態様は方法として、または方法を実行または実行するためのコンピュータプログラムとして実行することができる。同様に、電子機器の構成要素または手段によって、あるいはコンピュータプログラムの手段によって、または方法に関連して説明された態様が実現されてもよい。

以下では、本開示が図面に示される例示的な実施を参照してさらに説明される。

図１は、本開示による音声制御される電子装置の例示的なハードウェア構成を概略的に示す。図２は、図１の電子装置によって実行され得る方法のフローチャートを示す。図３は、本開示による電子装置のスクリーン上に表示されるコンテンツの例示的な選択を示す。

以下の説明では、本開示の完全な理解を提供するために、限定するためでなく説明のために具体的な詳細が記載されている。本開示はこれらの特定の詳細から逸脱する他の実施形態で実施され得ることが、当業者には明らかであろう。

図１は、電子装置１００の例示的なハードウェア構成を示す。電子装置１００は少なくとも１つのプロセッサ１０２と、少なくとも１つのメモリ１０４とを含み、少なくとも１つのメモリ１０４は電子装置が本明細書に記載する機能、サービス、またはステップを実行するように動作可能であるように、少なくとも１つのプロセッサによって実行可能な命令を含む。電子装置１００は、音声制御が可能な任意の種類の電子装置であってもよい。これは例えば、スマートフォン、タブレットコンピュータ、ラップトップ、及びパーソナルコンピュータのような家庭用電子装置、並びに冷蔵庫、調理器、食器洗い機、洗濯機、及びエアコンディショナのような家庭用器具を含んでもよいが、これらに限定されない。電子装置１００は、音声コマンド（またはより一般的には音声入力）を受信するためのマイク１０６を備え、受信された音声コマンドを処理し、それに従って動作を行うように構成され得るエージェント（例えば、ソフトウェアエージェント）を実行し得る。一実施形態では、エージェントはユーザからの音声コマンドに応答して、すなわち、言い換えると、ユーザの言葉による要求に応じて、サービスを提供することができるバーチャルアシスタントの形態で提供されてもよい。電子装置１００は、ユーザのために選択可能であり得るコンテンツを表示するためのスクリーン１０８をさらに備える。

図２は、本開示による電子装置１００によって実行され得る方法を示す。この方法は電子装置１００によって処理されるコマンドの生成に特化し、ステップＳ２０２において電子装置１００によって処理されるコマンドの第１の部分を表す音声入力を受信することと、ステップＳ２０４において電子装置１００のスクリーン上に表示されるコンテンツの選択を受信することと、選択されたコンテンツが、電子装置１００によって処理されるコマンドの第２の部分を表すことと、ステップＳ２０６において音声入力と選択されたコンテンツとの組合せに基づいてコマンドを生成することと、を含む。最後に、ステップＳ２０８において、生成されたコマンドは、電子装置１００によって処理されてもよい。

完全に音声ベースのコマンドを使用する代わりに、本明細書で提示する技術によれば、電子装置１００によって処理されるコマンドは、音声入力と電子装置１００のスクリーン１０８から選択されたコンテンツとの組合せから生成されるコマンドに対応することができる。したがって、コマンドは２つのタイプの入力、すなわち、コマンドの第１の部分を表す音声入力と、生成されるコマンドの第２の部分を表すディスプレイから選択された視覚入力（電子装置１００のスクリーン１０８上の表示されたコンテンツの選択に対応する）と、から生成されてもよい。次に、コマンドの第１の部分と第２の部分とを組み合わせることによって、完全なコマンドを生成することができる。本明細書で生成されるコマンドの第１の部分および第２の部分に言及する場合、「第１の」および「第２の」という用語は、生成されるコマンドのそれぞれの部分を単に区別することができるが、必ずしも生成されるコマンドのそれぞれの部分の順序（またはそれらの間の時間的関係）を意味するわけではない。したがって、第２の部分はコマンドの第１の部分の前に入力され、コマンドの最初の部分を表し、その後にコマンドの第１の部分が続く、またはその逆であることが考えられる。

上述したように、音声入力に対して音声認識を実行することは、不明瞭な発音または音声認識エンジンに未知の単語がある場合に、曖昧な認識または不正確な認識を引き起こす可能性があるが、電子装置１００のディスプレイ上のコンテンツの選択は、一般に、より正確な入力方法を提供し得ることから、音声入力からほとんど認識できないコマンドの部分に対する入力方法として好ましい。特に、コンテンツの視覚的選択は、音声認識エンジンのデフォルト言語とは異なる言語である用語、音声認識エンジンの語彙に含まれない用語、および／または曖昧な変換をもたらす可能性が高い用語（例えば、ユーザによって発音されるような、平均的な変換の曖昧性が所定の閾値を超える用語）を含むコマンドの部分入力に使用されてもよい。視覚的選択を使用することによって、一般に、コマンドをより正確に作成することができ、不適切なコマンド要素の生成を回避することができる。したがって、実行される音声制御の望ましくない結果を防ぐことができる。

コマンドは、電子装置１００によって解釈可能な任意のタイプのコマンドに対応することができる。具体的には、コマンドが例えば、家庭用機器の動作を制御するためのコマンド、または電子装置１００上で実行されるバーチャルアシスタントを制御するためのコマンドなど、電子装置１００の機能を制御するための制御コマンドに対応することができる。コマンドは電子装置１００の音声制御機能の起動に応答して入力されるコマンドに対応することができ、したがって、コマンドは、電子装置１００の音声制御機能によって処理されるコマンドを反映することができる。コマンドは例えば、電子装置１００の音声制御機能を作動させるホットワードの入力時に入力されてもよい。一例として、コマンドは電子装置１００上で実行されるバーチャルアシスタントへのクエリ、例えば、バーチャルアシスタントからサービスを要求するためのクエリに対応してもよい。バーチャルアシスタントの既知のホットワードには、例えば、ＡｐｐｌｅＳｉｒｉの場合は「ＨｅｙＳｉｒｉ」、Ｇｏｏｇｌｅアシスタントの場合は「ＯｋＧｏｏｇｌｅ」がある。

電子装置１００のスクリーン１０８上のコンテンツの選択は、例えば、パーソナルコンピュータの場合にはマウスまたはキーボードを使用するなど、任意の種類の入力手段を使用して行うことができるが、一実施形態ではスクリーン１０８はタッチスクリーンであってもよく、コンテンツの選択はタッチスクリーン上のタッチ入力によって行うことができることを理解されたい。タッチ入力は、コンテンツが選択されるスクリーン１０８上の表示領域を指定するタッチジェスチャーに対応し得る。一例として、タッチ入力は、選択されるコンテンツをカバーするスライディングジェスチャーに対応することができる。これは、例えば、選択されるコンテンツ（例えば、テキスト部分）上をスライドすること、または選択されるコンテンツを取り囲む／フレーミングすることを含み得る。

選択されるコンテンツは、電子装置１００のスクリーン１０８上に現在表示されているテキストの一部に対応し得る。テキスト部分は選択可能なテキスト（例えば、一般的なコピー／ペースト動作で知られている一般的なユーザインターフェース機能を使用してマーク可能／選択可能なテキスト）を含んでもよく、また、テキスト部分は選択不可能なテキストを含んでもよい。後者の場合、選択されたコンテンツは選択不可能なテキスト部分を含むスクリーン１０８上の選択された表示領域に対応してもよく、テキスト部分は例えばスクリーン上に表示されたイメージのようなテキスト以外の表示要素の一部を形成してもよい。選択されるコンテンツは、電子装置１００のスクリーンに表示されるキーボードからの入力に対応しない場合がある。

音声入力と選択されたコンテンツ（ここでも、それぞれ処理されるコマンドの第１の部分と第２の部分を表す）を組み合わせる前に、音声入力と選択されたコンテンツの両方を、例えば、（限定されないが）テキストへのように、同じフォーマットに変換することができる。この目的のために、音声認識を用いて音声入力をテキストに変換することができる。選択したコンテンツが選択可能なテキストに対応する場合、選択したテキストをさらに変換する必要がない場合がある。一方で選択されたコンテンツが選択不可能なテキスト（例えば、スクリーン上に表示されたイメージに含まれるテキスト）を含む表示領域に対応する場合、選択された表示領域は選択されたコンテンツのテキスト表現を得るために、テキスト認識を受けることができる。

したがって、一変形例ではコンテンツの選択がテキスト（すなわち、選択可能なテキスト）の選択を含む場合、音声入力を選択されたコンテンツと組み合わせることは、音声入力の変換を選択されたテキストと組み合わせること（たとえば、音声入力の変換と選択されたテキストとを結合すること）を含むことができる。別の変形例では、コンテンツの選択がスクリーン１０８上の表示領域の選択（例えば、コマンドの第２の部分として使用されるテキストを含むスクリーン１０８上に表示されるイメージに対応する）を含む場合、音声入力を選択されたコンテンツと組み合わせることは、選択されたテキストとしてその中に含まれるテキストを取得するために、選択された表示領域上でテキスト認識を実行することと、音声入力の変換を選択されたテキストと組み合わせること（例えば、音声入力の変換と選択されたテキストとを結合すること）とを含むことができる。すなわち、表示領域を指定するタッチ入力によってコンテンツの選択が行われた場合、電子機器１００は表示領域に何が書き込まれているかを認識し、認識したテキストを生成するコマンドの第２の部分として用いることができる。このようにして、スクリーン１０８上に表示される任意のテキスト部分を、コマンドが生成されるための第２の部分として一般に選択することができる。これは、例えば、スマートフォン上で実行されるウェブブラウザまたはメッセージングアプリケーション内に表示されるテキスト部分を含むことができ、コマンドの第２の部分として使用される単語またはフレーズは、例えば、スクリーン上の単語またはフレーズ上のタッチによって単純に選択することができる。

一実施形態では、音声入力変換の言語と、選択されたテキストの言語とは異なっていてもよい。また、音声入力の変換の文字セットと選択されたテキストの文字セットと異なっていてもよい。したがって、一例として、音声入力変換の言語と文字セットの両方が英語に基づいていてもよいが、ユーザは生成されるコマンドのための第２の部分として日本語で表示されるテキストを選択してもよい。単なる例として、ユーザはコマンドの第１の部分を表す音声入力として「Ｗｈａｔｉｓ」と言い、次いで、コマンドの第２の入力を表すスクリーン上で「電視」を選択して、完全なコマンド「ｗｈａｔｉｓ電視」が生成されてもよい。同様の使用例では、ユーザが電子装置１００のカメラアプリケーションを使用して関心のあるコンテンツの画像をキャプチャし、生成されるコマンドの第２の部分として使用されるキャプチャされた画像内の領域を選択することができる。例えば、ユーザは、「何であるか」という日本語の看板をキャプチャし、キャプチャされた画像上の看板に書かれた日本語テキスト上に指をスライドさせて、電子装置によって処理される対応するコマンドを生成することができる。

いくつかの実施形態では音声入力が電子装置１００によって処理される命令を含むことができ、選択されたコンテンツは命令に関連するパラメータに対応することができる。例えば、命令はコピー動作に対応してもよく、命令に関連するパラメータはコピーされる要素に対応してもよい。例えば、ユーザがウェブページを読んで、ウェブページのテキスト部分を友人と共有したい場合、ユーザは「単語をコピーして」と言い、スクリーン上の所望のテキスト部分を選択して、対応するコマンドを生成することができる。コマンドを処理するとき、電子装置は選択されたテキスト部分を電子装置１００のクリップボードにコピーし、友人と共有するために他のどこかに貼り付け可能な状態になっている。

コマンドの第１の部分を表す音声入力を受信し、コマンドの第２の部分を表すコンテンツの選択を受信することは、単独して動作する２段階入力手順の形で実行されてもよいが、コマンドを完全な音声コマンドとして変換することに失敗した場合のフォールバック手順として２段階入力手順が実行されることも考えられる。そのため、一変形例では、コンテンツの選択が、コンテンツを表す音声入力を正しく変換できなかったときに受信されてもよい。音声入力を正しく変換できないことは、例えば、スクリーン上の音声入力の変換を検討する際に、ユーザによって判断され得る。

コマンドの第１の部分がコマンドの第２の部分の前に入力されるコマンドの最初の部分を表す場合、電子装置１００は第１のステップで受信された音声入力がまだ完全なコマンドを表していないことを認識し（例えば、さらなる指定なしに「Ｗｈａｔｉｓ」と言う）、電子装置１００はユーザからのさらなる入力を待つように構成され得る。コメントの第１の部分を表す音声入力が完全なコマンドを表していないことを認識すると、電子装置１００は、コンテンツの選択を待つことができる。そのような変形例の１つでは、電子装置１００が完全なコマンドがまだ利用可能でないことを検出したときに、スクリーン１０８上のコンテンツの選択を実行するようにユーザに積極的に促すことができる。

図３は、図中ではタッチスクリーンを有するスマートフォンとして示される電子装置１００のスクリーン１０８上に表示されるコンテンツの例示的な選択を示す。図示の例では、スマートフォン１００のユーザがメッセージングアプリケーションを介して人物「Ａ」と通信していると仮定する。図示のように、ユーザは「Ｈｉ，Ｉ’ｍｎｏｗｉｎＶＥＳＴＥＬ（こんにちは、私はＶＥＳＴＥＬにいます）」というメッセージを人物Ａから受信したとする。ユーザが、ＶＥＳＴＥＬがどこにあるかを知らないと仮定し、ユーザはスマートフォン１００のバーチャルアシスタントに「ＶＥＳＴＥＬはどこか」と尋ねたとする。ユーザによる十分に明確でない発音のために、バーチャルアシスタントはユーザによって入力された音声コマンドとして誤って「ｖｅｓｓｅｌ（船の意味）」と認識する可能性がある（図示せず）。この不適切な認識を訂正するために、ユーザは自分の質問を繰り返すことができるが、今回は本明細書に提示された技術を使用する。したがって、ユーザは「どこ」と言うことができ、バーチャルアシスタントは「どこ」がまだ完全なコマンドを表していないことを認識することができる。したがって、バーチャルアシスタントはユーザからの追加の入力を待つことができる。図に示すように、追加の入力は、生成されるコマンドの後続の入力として単語「ＶＥＳＴＥＬ」という単語を選択するために、スクリーン１０８上で単語「ＶＥＳＴＥＬ」の上にユーザの指を置いてスライドさせることによって提供される。次に、バーチャルアシスタントは音声入力「どこ」をコンテンツ選択「ＶＥＳＴＥＬ」と組み合わせて、完全なコマンド「ＶＥＳＴＥＬはどこ」を取得することができる。その後、バーチャルアシスタントはコマンドを処理し、ユーザの質問に対応する回答を提供することができる。このようにして、ユーザは最初に認識された「ｖｅｓｓｅｌ（船）はどこ」という不適切な質問ではなく、正しい質問に対する回答を得ることができる。

本明細書に提示される技術の利点は、前述の説明から完全に理解されると考えられ、本開示の範囲から逸脱することなく、またはその有利な効果のすべてを犠牲にすることなく、その例示的な態様の形態、構成、および配置に様々な変更を行うことができることが明らかになるのであろう。本明細書で提示される技術は多くの方法で変更することができるので、本開示は以下の特許請求の範囲によってのみ限定されるべきであることが理解されるのであろう。

Claims

電子装置（１００）によって処理されるコマンドの第１の部分を表す音声入力を受信し（Ｓ２０２）、
前記電子装置（１００）のスクリーン（１０８）上に表示されたコンテンツの選択を受信し（Ｓ２０４）、選択されたコンテンツは前記電子装置（１００）によって処理される前記コマンドの第２の部分を表し、
前記音声入力と前記選択されたコンテンツとの組合せに基づいて前記コマンドを生成する（Ｓ２０６）こと、を含む、音声制御される電子装置（１００）によって処理されるコマンドを生成する方法。
前記コマンドは、前記電子装置（１００）上で実行されるバーチャルアシスタントへのクエリに対応する、請求項１に記載の方法。
前記スクリーン（１０８）はタッチスクリーンであり、前記コンテンツの選択は、前記タッチスクリーンへのタッチ入力によって行われる、請求項１または２に記載の方法。
前記タッチ入力は、選択されるコンテンツをカバーするスライドジェスチャに対応する、請求項３に記載の方法。
前記コンテンツの選択がテキストの選択を含む場合、前記音声入力を前記選択されたコンテンツと組み合わせることは、前記音声入力の変換を選択されたテキストと組み合わせることを含む、請求項１乃至４のいずれか１項に記載の方法。
前記コンテンツの選択が、前記スクリーン（１０８）上の表示領域の選択を含む場合、前記音声入力を前記選択されたコンテンツと組み合わせることは、
選択されたテキストとしてその中に含まれるテキストを取得するために、選択された表示領域上でテキスト認識を実行し、
前記音声入力の変換を前記選択されたテキストと組み合わせること、を含む、請求項１乃至４のいずれか１項に記載の方法。
前記音声入力の変換の言語と、前記選択されたテキストの言語とが異なる、請求項５または６に記載の方法。
前記音声入力の変換の文字セットと、前記選択されたテキストの文字セットとが異なる、請求項５乃至７のいずれか１項に記載の方法。
前記音声入力は、前記電子装置（１００）によって処理される命令を含み、前記選択されたコンテンツは、前記命令に関連付けられたパラメータに対応する、請求項１乃至８のいずれか１項に記載の方法。
前記コンテンツの選択は、前記コンテンツを表す音声入力を正しく変換できなかった場合に受信される、請求項１乃至９のいずれか１項に記載の方法。
前記コマンドの前記第１の部分を表す前記音声入力が完全なコマンドを表していないことを認識すると、前記電子装置（１００）は、前記コンテンツの選択を待つ、請求項１乃至１０のいずれか１項に記載の方法。
コンピュータプログラム製品が１つ以上のコンピュータ装置上で実行されるときに、請求項１乃至１１のいずれか１項に記載の方法を実行するためのプログラムコード部分を含む、コンピュータプログラム製品。
コンピュータ可読記録媒体に格納された、請求項１２に記載のコンピュータプログラム製品。
電子装置（１００）によって処理されるコマンドを生成するための音声制御される電子装置（１００）であって、前記電子装置（１００）は、少なくとも１つのプロセッサ（１０２）と、少なくとも１つのメモリ（１０４）と、を備え、前記少なくとも１つのメモリ（１０４）は前記電子装置（１００）が請求項１乃至１１のいずれか１項に記載の方法を実行するように動作可能であるように、少なくとも１つのプロセッサ（１０２）によって実行可能な命令を含む、音声制御される電子装置（１００）。