JP2022518339A - 音声制御される電子装置のコマンド生成技術 - Google Patents

音声制御される電子装置のコマンド生成技術 Download PDF

Info

Publication number
JP2022518339A
JP2022518339A JP2021531853A JP2021531853A JP2022518339A JP 2022518339 A JP2022518339 A JP 2022518339A JP 2021531853 A JP2021531853 A JP 2021531853A JP 2021531853 A JP2021531853 A JP 2021531853A JP 2022518339 A JP2022518339 A JP 2022518339A
Authority
JP
Japan
Prior art keywords
electronic device
command
content
text
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
JP2021531853A
Other languages
English (en)
Inventor
キュブクク,バラン
Original Assignee
ベステル エレクトロニク サナイー ベ ティカレト エー.エス.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ベステル エレクトロニク サナイー ベ ティカレト エー.エス. filed Critical ベステル エレクトロニク サナイー ベ ティカレト エー.エス.
Publication of JP2022518339A publication Critical patent/JP2022518339A/ja
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04883Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures for inputting data by handwriting, e.g. gesture or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

音声制御される電子装置によって処理されるコマンドを生成するための技術が開示される。本技術の方法の実用化は、電子装置によって処理されるコマンドの第1の部分を表す音声入力を受信し(S202)、電子装置のスクリーン上に表示されたコンテンツの選択を受信し(S204)、選択されたコンテンツは電子装置によって処理されるコマンドの第2の部分を表し、音声入力と選択されたコンテンツとの組合せに基づいてコマンドを生成する(S206)こと、を含む。【選択図】 図2

Description

本開示は一般に、電子装置の分野に関する。特に、音声制御される電子装置によって処理されるコマンドを生成するための技術が提示される。この技術は、方法、コンピュータプログラム、および電子装置で実施することができる。
「スピーチ・トゥ・テキスト」技術としても知られる音声認識技術は話し言葉をテキストに変換するためのコンピュータ実行の支援を提供するために、ここ数十年にわたって開発されてきており、その間、様々な応用分野で採用されてきた。特に、近年、家庭用機器の音声制御や、バーチャルアシスタント、すなわち、ユーザの言葉による要求に応じてタスクを実行したりサービスを提供したりすることができるソフトウェアエージェントの実行などの電子装置の音声制御のために、音声認識技術がますます採用されるようになってきている。既知のバーチャルアシスタントには、Apple Siri、Google Assistant、Amazon Alexa、Microsoft Cortanaなどがある。
電子装置の音声制御は、音声コマンドに含まれるキーワードが明確に認識できない場合、一般にその限界に達する可能性があり、そのため、入力されたコマンドは、制御が実行されることが望ましくない結果をもたらす可能性のある、意図しない要素を潜在的に含む。このような状況は特に、音声コマンドが音声認識のデフォルト言語とは異なる言語の用語を含む場合、音声コマンドが音声認識に使用される語彙に含まれていない用語を含む場合、または音声コマンドがユーザによって不明瞭に発音された用語を含む場合に、生じることがある。
一例として、音声認識のデフォルト言語が英語であり、ユーザが音声コマンドの要素として日本語表現を入力しようとする(例えば、「電視とは何か」を尋ねる)場合、ユーザによる誤った発音のため、または異なる言語の認識(異なる文字セットに基づくこともある)が認識エンジンによってサポートされていないために、日本語表現の認識を失敗することがある。別の例として、ユーザが音声コマンドの要素として珍しい名前を入力しようとする(例えば、「ウラジーミル・ベスチャツニフとは誰か」と尋ねる)場合、ユーザによる誤った発音のために、または名前が音声認識に使用される語彙の一部ではないために、名前の認識を失敗することがある。さらに別の例では、ユーザが、語彙に含まれているが不明瞭に発音されたときに曖昧な変換をもたらす可能性がある用語を入力しようとする場合、ユーザによる不明瞭な発音(例えば、「Vestel(ヴェステル)はどこか」と尋ねても、「vessel(ヴェセル、船)はどこか」と認識される)のために用語の認識は失敗する可能性がある。
これらの例を考慮すると、電子装置にコマンドを入力する単なる言葉による方法は、音声制御に対して必ずしも満足のいく結果をもたらすとは限らないことが明らかである。したがって、本開示の目的は、これらの問題または他の問題のうちの1つまたは複数を回避するための、音声制御される電子装置によって処理されるコマンドを生成する技術を提供することである。
第1の態様によれば、音声制御される電子装置によって処理されるコマンドを生成するための方法が提供される。この方法は、電子装置によって処理されるコマンドの第1の部分を表す音声入力を受信し、電子装置のスクリーン上に表示されたコンテンツの選択を受信し、選択されたコンテンツは電子装置によって処理されるコマンドの第2の部分を表し、音声入力と選択されたコンテンツとの組合せに基づいてコマンドを生成すること、とを含む。
電子装置は、音声制御が可能な任意の種類の電子装置であってもよい。これは例えば、スマートフォン、タブレットコンピュータ、ラップトップ、及びパーソナルコンピュータのような家庭用電化製品、並びに冷蔵庫、調理器、食器洗い機、洗濯機、及びエアコンのような家庭用電化製品を含んでもよいが、これらに限定されない。電子装置は、音声コマンド(またはより一般的には音声入力)を受信するためのマイクを備えてもよく、受信した音声コマンドを処理し、それに従って動作を行うように構成されたエージェント(例えば、ソフトウェアエージェント)を実行してもよい。一実施形態では、ユーザから受信した音声コマンドに応答して、すなわち言い換えると、ユーザの言葉による要求に応じて、サービスを提供することができるバーチャルアシスタントの形態で提供されてもよい。
完全に音声ベースのコマンドを使用する代わりに、本明細書に提示される技術に従って、処理されるコマンドは、音声入力と電子装置のスクリーンから選択されたコンテンツの組み合わせから生成されるコマンドに対応してもよい。したがって、コマンドは2つのタイプの入力、すなわち、コマンドの第1の部分を表す音声入力と、生成されるコマンドの第2の部分を表すディスプレイから選択された視覚入力(電子装置のスクリーン上の表示されたコンテンツの選択に対応する)と、から生成されてもよい。次に、完全なコマンドは、コマンドの第1の部分と第2の部分とを組み合わせることによって生成されてもよい。いったん完全なコマンドが生成されると、コマンドは、電子装置によって処理されてもよい。本明細書で生成されるコマンドの第1の部分および第2の部分に言及する場合、「第1の」および「第2の」という用語は、生成されるコマンドのそれぞれの部分を単に区別することができるが、必ずしも生成されるコマンドのそれぞれの部分の順序(またはそれらの間の時間的関係)を意味するわけではない。したがって、第2の部分はコマンドの第1の部分の前に入力され、コマンドの最初の部分を表し、その後にコマンドの第1の部分が続く、またはその逆であることが考えられる。
上述したように、音声入力に対して音声認識を実行することは、不明瞭な発音または音声認識エンジンに未知の単語がある場合に、曖昧な認識または不正確な認識を引き起こす可能性があるが、電子装置のディスプレイ上のコンテンツの選択は、一般により正確な入力方法を提供し得ることから、音声入力からではほとんど認識できないコマンドの部分に対する入力方法として好ましい。特に、コンテンツの視覚的選択は、音声認識エンジンのデフォルト言語とは異なる言語である用語、音声認識エンジンの語彙に含まれない用語、および/または曖昧な変換をもたらす可能性が高い用語(例えば、ユーザによって発音されるような、平均的な変換の曖昧性が所定の閾値を超える用語)を含むコマンドの部分の入力に使用されてもよい。視覚的選択を使用することによって、一般に、コマンドをより正確に作成することができ、不適切なコマンド要素の生成を回避することができる。したがって、実行される音声制御の望ましくない結果を防ぐことができる。
コマンドは、電子装置によって解釈可能な任意のタイプのコマンドに対応することができる。具体的には、例えば、家庭用機器の動作を制御するためのコマンド、または電子装置上で実行されバーチャルアシスタントを制御するためのコマンドなど、電子装置の機能を制御するための制御コマンドに対応することができる。このコマンドは電子装置の音声制御機能の起動に応答して入力されるコマンドに対応してもよく、このようにして、このコマンドは電子装置の音声制御機能によって処理されるコマンドを反映してもよい。コマンドは例えば、電子装置の音声制御機能を作動させるホットワードの入力時に入力されてもよい。一例として、コマンドは電子装置上で実行されるバーチャルアシスタントへのクエリ、例えば、バーチャルアシスタントからサービスを要求するためのクエリに対応してもよい。バーチャルアシスタントの既知のホットワードには、例えば、Apple Siriの場合は「Hey Siri」、Googleアシスタントの場合は「Ok Google」がある。
電子装置のスクリーン上のコンテンツの選択は、例えば、パーソナルコンピュータの場合にはマウスまたはキーボードを使用するなど、任意の種類の入力手段を使用して行うことができるが、一実施形態ではスクリーンはタッチスクリーンであってもよく、コンテンツの選択はタッチスクリーン上のタッチ入力によって行うことができることを理解されたい。タッチ入力は、コンテンツが選択されるスクリーン上の表示領域を指定するタッチジェスチャーに対応してもよい。一例として、タッチ入力は、選択されるコンテンツをカバーするスライディングジェスチャーに対応してもよい。これは、例えば、選択されるコンテンツ(例えば、テキスト部分)上をスライドすること、または選択されるコンテンツを取り囲む/フレーミングすることを含んでもよい。
選択されるコンテンツは、電子装置のスクリーン上に現在表示されているテキストの一部に対応してもよい。テキスト部分は選択可能なテキスト(例えば、一般的なコピー/ペースト動作で知られている一般的なユーザインターフェース機能を使用してマーク可能/選択可能なテキスト)を含んでもよく、もしくは、テキスト部分は選択不可能なテキストを含んでもよい。後者の場合、選択されたコンテンツは選択不可能なテキスト部分を含むスクリーン上の選択された表示領域に対応してもよく、テキスト部分は例えばスクリーン上に表示されたイメージのようなテキスト以外の表示要素の一部を形成してもよい。選択されるコンテンツは、電子装置のスクリーンに表示されるキーボードからの入力と対応しなくてもよい。
音声入力と選択されたコンテンツ(ここでも、それぞれ処理されるコマンドの第1の部分と第2の部分を表す)を組み合わせる前に、音声入力と選択されたコンテンツの両方を、例えば、(限定されないが)テキストへのように、同じフォーマットに変換してもよい。この目的のために、音声認識を用いて音声入力をテキストに変換してもよい。選択したコンテンツが選択可能なテキストに対応する場合、選択したテキストをさらに変換する必要がない場合がある。一方、選択されたコンテンツが選択不可能なテキスト(例えば、スクリーン上に表示されたイメージに含まれるテキスト)を含む表示領域に対応する場合、選択された表示領域は選択されたコンテンツのテキスト表現を得るために、テキスト認識の対象になり得る。
したがって、一変形例では、コンテンツの選択がテキスト(すなわち、選択可能なテキスト)の選択を含む場合、音声入力を選択されたコンテンツと組み合わせることは、音声入力の変換を選択されたテキストと組み合わせること(たとえば、音声入力の変換と選択されたテキストとを結合すること)を含んでもよい。別の変形例では、コンテンツの選択がスクリーン上の表示領域の選択(例えば、コマンドの第2の部分として使用されるテキストを含むスクリーン上に表示されるイメージに対応する)を含む場合、音声入力を選択されたコンテンツと組み合わせることは、選択された表示領域上でテキスト認識を実行して、選択されたテキストとしてその中に含まれるテキストを取得することと、音声入力の変換を選択されたテキストと組み合わせること(例えば、音声入力の変換と選択されたテキストとを結合すること)とを含んでもよい。すなわち、表示領域を指定するタッチ入力によってコンテンツの選択が行われた場合、電子機器は表示領域に何が書き込まれているかを認識し、認識されたテキストを生成するコマンドの第2の部分として使用することができる。このようにして、スクリーン上に表示される任意のテキスト部分を、一般に、コマンドが生成されるための第2の部分として選択することができる。これは、例えば、スマートフォン上で実行されるウェブブラウザまたはメッセージングアプリケーション内に表示されるテキスト部分を含んでもよく、コマンドの第2の部分として使用される単語またはフレーズは、例えば、スクリーン上の単語またはフレーズ上のタッチによって単純に選択することができる。
一実施形態では、音声入力の変換の言語と、選択されたテキストの言語は異なっていてもよい。また、音声入力の変換の文字セットと、選択されたテキストの文字セットは異なっていてもよい。したがって、一例として、音声入力の変換の言語と文字セットの両方が英語に基づいていたとしても、ユーザは生成されるコマンドのための第2の部分として日本語で表示されるテキストを選択してもよい。単なる例として、ユーザはコマンドの第1の部分を表す音声入力として「What is」と言い、次いで、コマンドの第2の入力を表すスクリーン上で「電視」を選択して、完全なコマンド「What is電視」が生成されてもよい。同様の使用例では、ユーザが電子装置のカメラアプリケーションを使用して関心のあるコンテンツの画像をキャプチャし、生成されるコマンドの第2の部分として使用されるキャプチャされた画像内の領域を選択することができる。例えば、ユーザは、「何であるか」という日本語の看板をキャプチャし、キャプチャされた画像上の看板に書かれた日本語テキスト上に指をスライドさせて、電子装置によって処理される対応するコマンドを生成することができる。
いくつかの実施形態では音声入力が電子装置によって処理される命令を含むことができ、選択されたコンテンツは命令に関連するパラメータに対応し得る。例えば、命令はコピー動作に対応してもよく、命令に関連するパラメータはコピーされる要素に対応してもよい。例えば、ユーザがウェブページを読んで、ウェブページのテキスト部分を友人と共有したい場合、ユーザは「単語をコピーして」と言い、スクリーン上の所望のテキスト部分を選択して、対応するコマンドを生成することができる。コマンドを処理するとき、電子装置は選択されたテキスト部分を電子装置のクリップボードにコピーし、友人と共有するために他のどこかに貼り付け可能な状態になっている。
コマンドの第1の部分を表す音声入力を受信し、コマンドの第2の部分を表すコンテンツの選択を受信することは、単独して動作する2段階入力手順の形で実行されてもよいが、コマンドを完全な音声コマンドとして変換することに失敗した場合のフォールバック手順として2段階入力手順が実行されることも考えられる。そのため、一変形例では、コンテンツの選択は、コンテンツを表す音声入力を正しく変換できなかったときに受信されることがある。音声入力を正しく変換できないことは、例えば、スクリーン上の音声入力の変換を検討する際に、ユーザによって判断され得る。
コマンドの第1の部分がコマンドの第2の部分の前に入力されるコマンドの最初の部分を表す場合、電子装置は第1のステップで受信された音声入力がまだ完全なコマンドを表していないことを認識し(例えば、さらなる指定なしに「what is」と言う)、電子装置は、ユーザからのさらなる入力を待つように構成され得る。コメントの第1の部分を表す入力音声が完全なコマンドを表していないことを認識すると、電子装置はコンテンツの選択を待つことができる。このような変形例の1つでは、電子装置が完全なコマンドがまだ利用可能でないことを検出したときに、スクリーン上のコンテンツの選択を実行するようにユーザに積極的に促すことができる。
第2の態様によれば、コンピュータプログラム製品が提供される。コンピュータプログラム製品はコンピュータプログラム製品が1つ以上のコンピュータ装置上で実行されるときに、第1の態様の方法を実行するためのプログラムコード部分を含む。コンピュータプログラム製品は、半導体メモリ、DVD、CD-ROMなどのコンピュータで読み取り可能な記録媒体に記憶することができる。
第3の態様によれば、電子装置によって処理されるコマンドを生成するための音声制御される電子装置が提供される。電子装置は少なくとも1つのプロセッサと、少なくとも1つのメモリとを含み、少なくとも1つのメモリは、電子装置が第1の態様に関して本明細書に提示される方法ステップを実行するように動作可能であるように、少なくとも1つのプロセッサによって実行可能な命令を含む。
本明細書で説明される態様のすべては、ハードウェア回路および/またはソフトウェアによって実行することができる。電子装置に関して本明細書にいくつか態様が説明される場合であっても、これらの態様は方法として、または方法を実行または実行するためのコンピュータプログラムとして実行することができる。同様に、電子機器の構成要素または手段によって、あるいはコンピュータプログラムの手段によって、または方法に関連して説明された態様が実現されてもよい。
以下では、本開示が図面に示される例示的な実施を参照してさらに説明される。
図1は、本開示による音声制御される電子装置の例示的なハードウェア構成を概略的に示す。 図2は、図1の電子装置によって実行され得る方法のフローチャートを示す。 図3は、本開示による電子装置のスクリーン上に表示されるコンテンツの例示的な選択を示す。
以下の説明では、本開示の完全な理解を提供するために、限定するためでなく説明のために具体的な詳細が記載されている。本開示はこれらの特定の詳細から逸脱する他の実施形態で実施され得ることが、当業者には明らかであろう。
図1は、電子装置100の例示的なハードウェア構成を示す。電子装置100は少なくとも1つのプロセッサ102と、少なくとも1つのメモリ104とを含み、少なくとも1つのメモリ104は電子装置が本明細書に記載する機能、サービス、またはステップを実行するように動作可能であるように、少なくとも1つのプロセッサによって実行可能な命令を含む。電子装置100は、音声制御が可能な任意の種類の電子装置であってもよい。これは例えば、スマートフォン、タブレットコンピュータ、ラップトップ、及びパーソナルコンピュータのような家庭用電子装置、並びに冷蔵庫、調理器、食器洗い機、洗濯機、及びエアコンディショナのような家庭用器具を含んでもよいが、これらに限定されない。電子装置100は、音声コマンド(またはより一般的には音声入力)を受信するためのマイク106を備え、受信された音声コマンドを処理し、それに従って動作を行うように構成され得るエージェント(例えば、ソフトウェアエージェント)を実行し得る。一実施形態では、エージェントはユーザからの音声コマンドに応答して、すなわち、言い換えると、ユーザの言葉による要求に応じて、サービスを提供することができるバーチャルアシスタントの形態で提供されてもよい。電子装置100は、ユーザのために選択可能であり得るコンテンツを表示するためのスクリーン108をさらに備える。
図2は、本開示による電子装置100によって実行され得る方法を示す。この方法は電子装置100によって処理されるコマンドの生成に特化し、ステップS202において電子装置100によって処理されるコマンドの第1の部分を表す音声入力を受信することと、ステップS204において電子装置100のスクリーン上に表示されるコンテンツの選択を受信することと、選択されたコンテンツが、電子装置100によって処理されるコマンドの第2の部分を表すことと、ステップS206において音声入力と選択されたコンテンツとの組合せに基づいてコマンドを生成することと、を含む。最後に、ステップS208において、生成されたコマンドは、電子装置100によって処理されてもよい。
完全に音声ベースのコマンドを使用する代わりに、本明細書で提示する技術によれば、電子装置100によって処理されるコマンドは、音声入力と電子装置100のスクリーン108から選択されたコンテンツとの組合せから生成されるコマンドに対応することができる。したがって、コマンドは2つのタイプの入力、すなわち、コマンドの第1の部分を表す音声入力と、生成されるコマンドの第2の部分を表すディスプレイから選択された視覚入力(電子装置100のスクリーン108上の表示されたコンテンツの選択に対応する)と、から生成されてもよい。次に、コマンドの第1の部分と第2の部分とを組み合わせることによって、完全なコマンドを生成することができる。本明細書で生成されるコマンドの第1の部分および第2の部分に言及する場合、「第1の」および「第2の」という用語は、生成されるコマンドのそれぞれの部分を単に区別することができるが、必ずしも生成されるコマンドのそれぞれの部分の順序(またはそれらの間の時間的関係)を意味するわけではない。したがって、第2の部分はコマンドの第1の部分の前に入力され、コマンドの最初の部分を表し、その後にコマンドの第1の部分が続く、またはその逆であることが考えられる。
上述したように、音声入力に対して音声認識を実行することは、不明瞭な発音または音声認識エンジンに未知の単語がある場合に、曖昧な認識または不正確な認識を引き起こす可能性があるが、電子装置100のディスプレイ上のコンテンツの選択は、一般に、より正確な入力方法を提供し得ることから、音声入力からほとんど認識できないコマンドの部分に対する入力方法として好ましい。特に、コンテンツの視覚的選択は、音声認識エンジンのデフォルト言語とは異なる言語である用語、音声認識エンジンの語彙に含まれない用語、および/または曖昧な変換をもたらす可能性が高い用語(例えば、ユーザによって発音されるような、平均的な変換の曖昧性が所定の閾値を超える用語)を含むコマンドの部分入力に使用されてもよい。視覚的選択を使用することによって、一般に、コマンドをより正確に作成することができ、不適切なコマンド要素の生成を回避することができる。したがって、実行される音声制御の望ましくない結果を防ぐことができる。
コマンドは、電子装置100によって解釈可能な任意のタイプのコマンドに対応することができる。具体的には、コマンドが例えば、家庭用機器の動作を制御するためのコマンド、または電子装置100上で実行されるバーチャルアシスタントを制御するためのコマンドなど、電子装置100の機能を制御するための制御コマンドに対応することができる。コマンドは電子装置100の音声制御機能の起動に応答して入力されるコマンドに対応することができ、したがって、コマンドは、電子装置100の音声制御機能によって処理されるコマンドを反映することができる。コマンドは例えば、電子装置100の音声制御機能を作動させるホットワードの入力時に入力されてもよい。一例として、コマンドは電子装置100上で実行されるバーチャルアシスタントへのクエリ、例えば、バーチャルアシスタントからサービスを要求するためのクエリに対応してもよい。バーチャルアシスタントの既知のホットワードには、例えば、Apple Siriの場合は「Hey Siri」、Googleアシスタントの場合は「Ok Google」がある。
電子装置100のスクリーン108上のコンテンツの選択は、例えば、パーソナルコンピュータの場合にはマウスまたはキーボードを使用するなど、任意の種類の入力手段を使用して行うことができるが、一実施形態ではスクリーン108はタッチスクリーンであってもよく、コンテンツの選択はタッチスクリーン上のタッチ入力によって行うことができることを理解されたい。タッチ入力は、コンテンツが選択されるスクリーン108上の表示領域を指定するタッチジェスチャーに対応し得る。一例として、タッチ入力は、選択されるコンテンツをカバーするスライディングジェスチャーに対応することができる。これは、例えば、選択されるコンテンツ(例えば、テキスト部分)上をスライドすること、または選択されるコンテンツを取り囲む/フレーミングすることを含み得る。
選択されるコンテンツは、電子装置100のスクリーン108上に現在表示されているテキストの一部に対応し得る。テキスト部分は選択可能なテキスト(例えば、一般的なコピー/ペースト動作で知られている一般的なユーザインターフェース機能を使用してマーク可能/選択可能なテキスト)を含んでもよく、また、テキスト部分は選択不可能なテキストを含んでもよい。後者の場合、選択されたコンテンツは選択不可能なテキスト部分を含むスクリーン108上の選択された表示領域に対応してもよく、テキスト部分は例えばスクリーン上に表示されたイメージのようなテキスト以外の表示要素の一部を形成してもよい。選択されるコンテンツは、電子装置100のスクリーンに表示されるキーボードからの入力に対応しない場合がある。
音声入力と選択されたコンテンツ(ここでも、それぞれ処理されるコマンドの第1の部分と第2の部分を表す)を組み合わせる前に、音声入力と選択されたコンテンツの両方を、例えば、(限定されないが)テキストへのように、同じフォーマットに変換することができる。この目的のために、音声認識を用いて音声入力をテキストに変換することができる。選択したコンテンツが選択可能なテキストに対応する場合、選択したテキストをさらに変換する必要がない場合がある。一方で選択されたコンテンツが選択不可能なテキスト(例えば、スクリーン上に表示されたイメージに含まれるテキスト)を含む表示領域に対応する場合、選択された表示領域は選択されたコンテンツのテキスト表現を得るために、テキスト認識を受けることができる。
したがって、一変形例ではコンテンツの選択がテキスト(すなわち、選択可能なテキスト)の選択を含む場合、音声入力を選択されたコンテンツと組み合わせることは、音声入力の変換を選択されたテキストと組み合わせること(たとえば、音声入力の変換と選択されたテキストとを結合すること)を含むことができる。別の変形例では、コンテンツの選択がスクリーン108上の表示領域の選択(例えば、コマンドの第2の部分として使用されるテキストを含むスクリーン108上に表示されるイメージに対応する)を含む場合、音声入力を選択されたコンテンツと組み合わせることは、選択されたテキストとしてその中に含まれるテキストを取得するために、選択された表示領域上でテキスト認識を実行することと、音声入力の変換を選択されたテキストと組み合わせること(例えば、音声入力の変換と選択されたテキストとを結合すること)とを含むことができる。すなわち、表示領域を指定するタッチ入力によってコンテンツの選択が行われた場合、電子機器100は表示領域に何が書き込まれているかを認識し、認識したテキストを生成するコマンドの第2の部分として用いることができる。このようにして、スクリーン108上に表示される任意のテキスト部分を、コマンドが生成されるための第2の部分として一般に選択することができる。これは、例えば、スマートフォン上で実行されるウェブブラウザまたはメッセージングアプリケーション内に表示されるテキスト部分を含むことができ、コマンドの第2の部分として使用される単語またはフレーズは、例えば、スクリーン上の単語またはフレーズ上のタッチによって単純に選択することができる。
一実施形態では、音声入力変換の言語と、選択されたテキストの言語とは異なっていてもよい。また、音声入力の変換の文字セットと選択されたテキストの文字セットと異なっていてもよい。したがって、一例として、音声入力変換の言語と文字セットの両方が英語に基づいていてもよいが、ユーザは生成されるコマンドのための第2の部分として日本語で表示されるテキストを選択してもよい。単なる例として、ユーザはコマンドの第1の部分を表す音声入力として「What is」と言い、次いで、コマンドの第2の入力を表すスクリーン上で「電視」を選択して、完全なコマンド「what is電視」が生成されてもよい。同様の使用例では、ユーザが電子装置100のカメラアプリケーションを使用して関心のあるコンテンツの画像をキャプチャし、生成されるコマンドの第2の部分として使用されるキャプチャされた画像内の領域を選択することができる。例えば、ユーザは、「何であるか」という日本語の看板をキャプチャし、キャプチャされた画像上の看板に書かれた日本語テキスト上に指をスライドさせて、電子装置によって処理される対応するコマンドを生成することができる。
いくつかの実施形態では音声入力が電子装置100によって処理される命令を含むことができ、選択されたコンテンツは命令に関連するパラメータに対応することができる。例えば、命令はコピー動作に対応してもよく、命令に関連するパラメータはコピーされる要素に対応してもよい。例えば、ユーザがウェブページを読んで、ウェブページのテキスト部分を友人と共有したい場合、ユーザは「単語をコピーして」と言い、スクリーン上の所望のテキスト部分を選択して、対応するコマンドを生成することができる。コマンドを処理するとき、電子装置は選択されたテキスト部分を電子装置100のクリップボードにコピーし、友人と共有するために他のどこかに貼り付け可能な状態になっている。
コマンドの第1の部分を表す音声入力を受信し、コマンドの第2の部分を表すコンテンツの選択を受信することは、単独して動作する2段階入力手順の形で実行されてもよいが、コマンドを完全な音声コマンドとして変換することに失敗した場合のフォールバック手順として2段階入力手順が実行されることも考えられる。そのため、一変形例では、コンテンツの選択が、コンテンツを表す音声入力を正しく変換できなかったときに受信されてもよい。音声入力を正しく変換できないことは、例えば、スクリーン上の音声入力の変換を検討する際に、ユーザによって判断され得る。
コマンドの第1の部分がコマンドの第2の部分の前に入力されるコマンドの最初の部分を表す場合、電子装置100は第1のステップで受信された音声入力がまだ完全なコマンドを表していないことを認識し(例えば、さらなる指定なしに「What is」と言う)、電子装置100はユーザからのさらなる入力を待つように構成され得る。コメントの第1の部分を表す音声入力が完全なコマンドを表していないことを認識すると、電子装置100は、コンテンツの選択を待つことができる。そのような変形例の1つでは、電子装置100が完全なコマンドがまだ利用可能でないことを検出したときに、スクリーン108上のコンテンツの選択を実行するようにユーザに積極的に促すことができる。
図3は、図中ではタッチスクリーンを有するスマートフォンとして示される電子装置100のスクリーン108上に表示されるコンテンツの例示的な選択を示す。図示の例では、スマートフォン100のユーザがメッセージングアプリケーションを介して人物「A」と通信していると仮定する。図示のように、ユーザは「Hi, I’m now in VESTEL(こんにちは、私はVESTELにいます)」というメッセージを人物Aから受信したとする。ユーザが、VESTELがどこにあるかを知らないと仮定し、ユーザはスマートフォン100のバーチャルアシスタントに「VESTELはどこか」と尋ねたとする。ユーザによる十分に明確でない発音のために、バーチャルアシスタントはユーザによって入力された音声コマンドとして誤って「vessel(船の意味)」と認識する可能性がある(図示せず)。この不適切な認識を訂正するために、ユーザは自分の質問を繰り返すことができるが、今回は本明細書に提示された技術を使用する。したがって、ユーザは「どこ」と言うことができ、バーチャルアシスタントは「どこ」がまだ完全なコマンドを表していないことを認識することができる。したがって、バーチャルアシスタントはユーザからの追加の入力を待つことができる。図に示すように、追加の入力は、生成されるコマンドの後続の入力として単語「VESTEL」という単語を選択するために、スクリーン108上で単語「VESTEL」の上にユーザの指を置いてスライドさせることによって提供される。次に、バーチャルアシスタントは音声入力「どこ」をコンテンツ選択「VESTEL」と組み合わせて、完全なコマンド「VESTELはどこ」を取得することができる。その後、バーチャルアシスタントはコマンドを処理し、ユーザの質問に対応する回答を提供することができる。このようにして、ユーザは最初に認識された「vessel(船)はどこ」という不適切な質問ではなく、正しい質問に対する回答を得ることができる。
本明細書に提示される技術の利点は、前述の説明から完全に理解されると考えられ、本開示の範囲から逸脱することなく、またはその有利な効果のすべてを犠牲にすることなく、その例示的な態様の形態、構成、および配置に様々な変更を行うことができることが明らかになるのであろう。本明細書で提示される技術は多くの方法で変更することができるので、本開示は以下の特許請求の範囲によってのみ限定されるべきであることが理解されるのであろう。

Claims (14)

  1. 電子装置(100)によって処理されるコマンドの第1の部分を表す音声入力を受信し(S202)、
    前記電子装置(100)のスクリーン(108)上に表示されたコンテンツの選択を受信し(S204)、選択されたコンテンツは前記電子装置(100)によって処理される前記コマンドの第2の部分を表し、
    前記音声入力と前記選択されたコンテンツとの組合せに基づいて前記コマンドを生成する(S206)こと、を含む、音声制御される電子装置(100)によって処理されるコマンドを生成する方法。
  2. 前記コマンドは、前記電子装置(100)上で実行されるバーチャルアシスタントへのクエリに対応する、請求項1に記載の方法。
  3. 前記スクリーン(108)はタッチスクリーンであり、前記コンテンツの選択は、前記タッチスクリーンへのタッチ入力によって行われる、請求項1または2に記載の方法。
  4. 前記タッチ入力は、選択されるコンテンツをカバーするスライドジェスチャに対応する、請求項3に記載の方法。
  5. 前記コンテンツの選択がテキストの選択を含む場合、前記音声入力を前記選択されたコンテンツと組み合わせることは、前記音声入力の変換を選択されたテキストと組み合わせることを含む、請求項1乃至4のいずれか1項に記載の方法。
  6. 前記コンテンツの選択が、前記スクリーン(108)上の表示領域の選択を含む場合、前記音声入力を前記選択されたコンテンツと組み合わせることは、
    選択されたテキストとしてその中に含まれるテキストを取得するために、選択された表示領域上でテキスト認識を実行し、
    前記音声入力の変換を前記選択されたテキストと組み合わせること、を含む、請求項1乃至4のいずれか1項に記載の方法。
  7. 前記音声入力の変換の言語と、前記選択されたテキストの言語とが異なる、請求項5または6に記載の方法。
  8. 前記音声入力の変換の文字セットと、前記選択されたテキストの文字セットとが異なる、請求項5乃至7のいずれか1項に記載の方法。
  9. 前記音声入力は、前記電子装置(100)によって処理される命令を含み、前記選択されたコンテンツは、前記命令に関連付けられたパラメータに対応する、請求項1乃至8のいずれか1項に記載の方法。
  10. 前記コンテンツの選択は、前記コンテンツを表す音声入力を正しく変換できなかった場合に受信される、請求項1乃至9のいずれか1項に記載の方法。
  11. 前記コマンドの前記第1の部分を表す前記音声入力が完全なコマンドを表していないことを認識すると、前記電子装置(100)は、前記コンテンツの選択を待つ、請求項1乃至10のいずれか1項に記載の方法。
  12. コンピュータプログラム製品が1つ以上のコンピュータ装置上で実行されるときに、請求項1乃至11のいずれか1項に記載の方法を実行するためのプログラムコード部分を含む、コンピュータプログラム製品。
  13. コンピュータ可読記録媒体に格納された、請求項12に記載のコンピュータプログラム製品。
  14. 電子装置(100)によって処理されるコマンドを生成するための音声制御される電子装置(100)であって、前記電子装置(100)は、少なくとも1つのプロセッサ(102)と、少なくとも1つのメモリ(104)と、を備え、前記少なくとも1つのメモリ(104)は前記電子装置(100)が請求項1乃至11のいずれか1項に記載の方法を実行するように動作可能であるように、少なくとも1つのプロセッサ(102)によって実行可能な命令を含む、音声制御される電子装置(100)。
JP2021531853A 2018-12-06 2018-12-06 音声制御される電子装置のコマンド生成技術 Ceased JP2022518339A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2018/083802 WO2020114599A1 (en) 2018-12-06 2018-12-06 Technique for generating a command for a voice-controlled electronic device

Publications (1)

Publication Number Publication Date
JP2022518339A true JP2022518339A (ja) 2022-03-15

Family

ID=64664278

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021531853A Ceased JP2022518339A (ja) 2018-12-06 2018-12-06 音声制御される電子装置のコマンド生成技術

Country Status (6)

Country Link
US (1) US20210311701A1 (ja)
EP (1) EP3891730B1 (ja)
JP (1) JP2022518339A (ja)
KR (1) KR20210099629A (ja)
CN (1) CN113196383A (ja)
WO (1) WO2020114599A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200094839A (ko) * 2019-01-23 2020-08-10 삼성전자주식회사 사용자 입력에 대한 피드백 정보를 제공하는 전자 장치 및 그 동작 방법

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007094194A (ja) * 2005-09-29 2007-04-12 Toshiba Corp 音声翻訳装置及び音声翻訳方法
US20080153465A1 (en) * 2006-12-26 2008-06-26 Voice Signal Technologies, Inc. Voice search-enabled mobile device
US20110081083A1 (en) * 2009-10-07 2011-04-07 Google Inc. Gesture-based selective text recognition
WO2016054230A1 (en) * 2014-10-01 2016-04-07 XBrain, Inc. Voice and connection platform
JP2017211430A (ja) * 2016-05-23 2017-11-30 ソニー株式会社 情報処理装置および情報処理方法
US20180113672A1 (en) * 2016-10-25 2018-04-26 Microsoft Technology Licensing, Llc Force-based interactions with digital agents

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6223150B1 (en) * 1999-01-29 2001-04-24 Sony Corporation Method and apparatus for parsing in a spoken language translation system
US20080235029A1 (en) * 2007-03-23 2008-09-25 Cross Charles W Speech-Enabled Predictive Text Selection For A Multimodal Application
US20090112572A1 (en) * 2007-10-30 2009-04-30 Karl Ola Thorn System and method for input of text to an application operating on a device
US9257115B2 (en) * 2012-03-08 2016-02-09 Facebook, Inc. Device for extracting information from a dialog
KR101992191B1 (ko) * 2012-11-01 2019-06-24 엘지전자 주식회사 이동 단말기 및 그 제어방법
US9383910B2 (en) * 2013-10-04 2016-07-05 Microsoft Technology Licensing, Llc Autoscroll regions
KR20170046958A (ko) * 2015-10-22 2017-05-04 삼성전자주식회사 전자 장치 및 그의 음성 인식을 이용한 기능 실행 방법

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007094194A (ja) * 2005-09-29 2007-04-12 Toshiba Corp 音声翻訳装置及び音声翻訳方法
US20080153465A1 (en) * 2006-12-26 2008-06-26 Voice Signal Technologies, Inc. Voice search-enabled mobile device
US20110081083A1 (en) * 2009-10-07 2011-04-07 Google Inc. Gesture-based selective text recognition
WO2016054230A1 (en) * 2014-10-01 2016-04-07 XBrain, Inc. Voice and connection platform
JP2017535823A (ja) * 2014-10-01 2017-11-30 エクスブレイン・インコーポレーテッド 音声および接続プラットフォーム
JP2017211430A (ja) * 2016-05-23 2017-11-30 ソニー株式会社 情報処理装置および情報処理方法
US20180113672A1 (en) * 2016-10-25 2018-04-26 Microsoft Technology Licensing, Llc Force-based interactions with digital agents

Also Published As

Publication number Publication date
US20210311701A1 (en) 2021-10-07
CN113196383A (zh) 2021-07-30
EP3891730A1 (en) 2021-10-13
KR20210099629A (ko) 2021-08-12
WO2020114599A1 (en) 2020-06-11
EP3891730B1 (en) 2023-07-05

Similar Documents

Publication Publication Date Title
JP6710740B2 (ja) 提案される音声ベースのアクションクエリの提供
JP7111682B2 (ja) 非表音文字体系を使用する言語のための音声支援型アプリケーションプロトタイプの試験中の音声コマンドマッチング
CN110050303B (zh) 基于第三方代理内容的语音到文本转换
KR102476621B1 (ko) 사용자, 자동화된 어시스턴트 및 컴퓨팅 서비스 간의 다중 모드 상호 작용
CN111627436B (zh) 一种语音控制的方法及装置
JP2018511095A5 (ja)
US20110288859A1 (en) Language context sensitive command system and method
KR102399420B1 (ko) 텍스트 독립 화자 인식
KR20220007710A (ko) 선택가능한 그래픽 엘리먼트를 통해 자동화된 에이전트로 대화를 초기화하기
US20240169989A1 (en) Multimodal responses
CN112313606A (zh) 为自动助理扩展物理运动手势词典
JP5856708B1 (ja) 翻訳システム及びサーバ
EP3939033B1 (en) Automated assistant control of external applications lacking automated assistant application programming interface functionality
JP2022518339A (ja) 音声制御される電子装置のコマンド生成技術
KR20230121150A (ko) 파라미터(들)로 제한될 수 있는 사용자 입력에 대한응답으로 비-어시스턴트 애플리케이션 동작(들)의 자동화된 어시스턴트 수행
TW201937480A (zh) 適性調整語音輸入等待時間系統及其方法
US9613311B2 (en) Receiving voice/speech, replacing elements including characters, and determining additional elements by pronouncing a first element
US20200075002A1 (en) Multimodal responses
Raveendran et al. Speech only interface approach for personal computing environment
JP7462995B1 (ja) 情報処理システム、情報処理方法及びプログラム
CN112262430B (zh) 自动确定经由自动助理界面接收到的口头话语的语音识别的语言
CN112262430A (zh) 自动确定经由自动助理界面接收到的口头话语的语音识别的语言
WO2018148949A1 (en) Remote control of applications
TWM561897U (zh) 適性調整語音輸入等待時間系統
KR20240090703A (ko) 사용자, 자동화된 어시스턴트 및 컴퓨팅 서비스 간의 다중 모드 상호 작용

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211108

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221026

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221101

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230516

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231024

A045 Written measure of dismissal of application [lapsed due to lack of payment]

Free format text: JAPANESE INTERMEDIATE CODE: A045

Effective date: 20240227