JP6545716B2 - 改善された音声認識を容易にする視覚的コンテンツの修正 - Google Patents
改善された音声認識を容易にする視覚的コンテンツの修正 Download PDFInfo
- Publication number
- JP6545716B2 JP6545716B2 JP2016567801A JP2016567801A JP6545716B2 JP 6545716 B2 JP6545716 B2 JP 6545716B2 JP 2016567801 A JP2016567801 A JP 2016567801A JP 2016567801 A JP2016567801 A JP 2016567801A JP 6545716 B2 JP6545716 B2 JP 6545716B2
- Authority
- JP
- Japan
- Prior art keywords
- visual content
- user
- visual
- display
- layout
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000000007 visual effect Effects 0.000 title claims description 282
- 238000012986 modification Methods 0.000 title description 20
- 230000004048 modification Effects 0.000 title description 20
- 238000000034 method Methods 0.000 claims description 39
- 230000004044 response Effects 0.000 claims description 10
- 238000009877 rendering Methods 0.000 claims description 7
- 238000012544 monitoring process Methods 0.000 claims description 5
- 230000005236 sound signal Effects 0.000 claims description 4
- 230000001755 vocal effect Effects 0.000 description 21
- 230000006870 function Effects 0.000 description 9
- 238000003860 storage Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 210000003128 head Anatomy 0.000 description 6
- 238000012937 correction Methods 0.000 description 5
- 239000013598 vector Substances 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 210000004087 cornea Anatomy 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 210000000554 iris Anatomy 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 210000001747 pupil Anatomy 0.000 description 2
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 241001025261 Neoraja caerulea Species 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 239000010454 slate Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/106—Display of layout of documents; Previewing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/174—Form filling; Merging
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/18—Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
- H04N7/183—Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a single remote source
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- User Interface Of Digital Computer (AREA)
- Rehabilitation Tools (AREA)
- Eye Examination Apparatus (AREA)
- Controls And Circuits For Display Device (AREA)
- Road Signs Or Road Markings (AREA)
- Digital Computer Display Output (AREA)
Description
コンピューティングデバイスによって実行される方法であって、ディスプレイの上に提示するための視覚的コンテンツを受信するステップと、視覚的コンテンツが、ディスプレイの上に提示されるようにさせるステップに先立って、コンピューティングデバイスが自動音声認識(ASR)をサポートすること、およびコンピューティングデバイスが視覚的注意の監視をサポートすることに基づいて、視覚的コンテンツが、新しい視覚的コンテンツを生成するように修正するステップと、視覚的コンテンツを修正するステップに応じて、新しい視覚的コンテンツが、ディスプレイの上に提示されるようにさせるステップと、を含む方法。
視覚的コンテンツは、第1のレイアウトを有しており、またそこでは新しい視覚的コンテンツを生成するように視覚的コンテンツを修正するステップは、第1のレイアウトを第2のレイアウトに変換するステップを含む、実施例1に記載の方法。
第1のレイアウトは、その間に第1の距離を有する第1の要素と、第2の要素とを含み、またそこでは新しい視覚的コンテンツを生成するように視覚的コンテンツを修正するステップは、第2のレイアウトにおいて、第2の距離が、第2の要素から第1の要素を分離するように、第1の要素と、第2の要素との間の距離を変更するステップを含む、実施例1に記載の方法。
第1の要素は、第1のワードまたはワードシーケンスを含んでおり、第2の要素は、第2のワードまたはワードシーケンスを含んでおり、本方法は、第1のワードまたはワードシーケンスと、第2のワードまたはワードシーケンスとの間の音響学的類似性を示している値を計算するステップと、第1のワードまたはワードシーケンスと、第2のワードまたはワードシーケンスとの間の音響学的類似性を示している値に基づいて、修正された視覚的コンテンツを生成するように視覚的コンテンツを修正するステップとをさらに含む、実施例1に記載の方法。
視覚的コンテンツは、第1のズームレベルを有しており、またそこでは新しい視覚的コンテンツを生成するように視覚的コンテンツを修正するステップは、第1のズームレベルを第2のズームレベルに変更するステップを含む、実施例1〜4のいずれかに記載の方法。
ディスプレイの視聴者を含む画像を受信するステップと、画像に基づいて、見られているディスプレイの上に提示される新しい視覚的コンテンツの中の要素を識別するステップと、要素についての識別するステップに基づいて、ASRシステムをカスタマイズするステップとをさらに含む、実施例1〜5のいずれかに記載の方法。
マイクロフォンから口頭による発話を表す信号を受信するステップと、ASRシステムをカスタマイズするステップに応じて、口頭による発話を認識するステップとをさらに含む、実施例1〜6のいずれかに記載の方法。
ディスプレイの視聴者を含む信号を受信するステップと、信号に基づいて、新しい視覚的コンテンツの中の要素が見られていることを推定するステップと、要素が見られていることを推定するステップに応じて、要素が見られているように推定されたことを示す出力を生成するステップとをさらに含む、実施例1に記載の方法。
出力を生成するステップは、修正された視覚的コンテンツの中の要素に視覚的インジケータを割り当てるステップを含む、実施例8に記載の方法。
そこでは要素は、フォーム入力可能フィールドである、実施例8〜9のいずれかに記載の方法。
視覚的コンテンツは、第1のフォーム入力可能フィールドと、第2のフォーム入力可能フィールドとを含み、また新しい視覚的コンテンツを生成するように視覚的コンテンツを修正するステップは、第1のフォーム入力可能フィールドが、第2のフォーム入力可能フィールドからさらに遠くに位置づけられるように、第1のフォーム入力可能フィールドまたは第2のフォーム入力可能フィールドのうちの少なくとも一方を位置づけ直すステップを含む、実施例1〜10のいずれかに記載の方法。
プロセッサと、プロセッサによって実行される複数のコンポーネントを備えているメモリとを備えているコンピューティングデバイスであって、複数のコンポーネントは、ディスプレイの上で提示されるべきである視覚的コンテンツを受信するレイアウトジェネレータコンポーネントであって、視覚的コンテンツは、第1のレイアウトを有しており、レイアウトジェネレータコンポーネントは、視覚的コンテンツがディスプレイの上で提示されることに先立って、視覚的コンテンツが、修正されるときに、第2のレイアウトを有するように、視覚的コンテンツを修正し、レイアウトジェネレータコンポーネントは、ディスプレイに対して追跡されている視覚的注意に基づいて、視覚的コンテンツを修正し、そこでは第2のレイアウトは第1のレイアウトとは異なる、レイアウトジェネレータコンポーネントと、レイアウトジェネレータコンポーネントと通信しているレンダリングコンポーネントであって、レンダリングコンポーネントは、ディスプレイの上で提示するために第2のレイアウトを用いて視覚的コンテンツをレンダリングする、レンダリングコンポーネントとを備えている、コンピューティングデバイス。
複数のコンポーネントは、カメラから画像を受信する注視トラッカーコンポーネントをさらに備えており、注視トラッカーコンポーネントは、画像に基づいて、注視方向を識別し、注視トラッカーコンポーネントは、注視方向に基づいて、ディスプレイの上で見られている要素を推定し、そこではレイアウトジェネレータコンポーネントは、グラフィカルデータが、要素が見られているように推定されることを示すディスプレイの上に提示されるようにさせる、実施例12に記載のコンピューティングデバイス。
要素は、フォーム入力可能フィールドであり、またグラフィカルデータは、フォーム入力可能フィールドの強調表示である、実施例13に記載のコンピューティングデバイス。
複数のコンポーネントは、カメラから画像を受信する注視トラッカーコンポーネントをさらに備えており、注視トラッカーコンポーネントは、画像に基づいて、注視方向を識別し、注視トラッカーコンポーネントは、注視方向に基づいて、ディスプレイの上で見られている要素を推定し、メモリは、プロセッサによって実行される自動音声認識(ASR)システムをさらに備えており、ASRシステムは、オーディオ信号を受信し、またオーディオ信号の形で口頭による発話を認識するように構成されており、音声認識システムは、注視トラッカーコンポーネントによって見られているように推定される要素に基づいて、口頭による発話を認識する、実施例12〜14のいずれかに記載のコンピューティングデバイス。
複数のコンポーネントは、注視トラッカーコンポーネントによって見られているように推定される要素に基づいて、ASRシステムをカスタマイズするカスタマイザコンポーネントをさらに備えている、実施例15に記載のコンピューティングデバイス。
そこでは第1のレイアウトは、互いに対する第1の位置にある、第1の要素と、第2の要素とを含み、またそこでは第2のレイアウトは、互いに対する第2の位置にある第1の要素と、第2の要素とを含む、実施例12〜16のいずれかに記載のコンピューティングデバイス。
そこではレイアウトジェネレータコンポーネントは、第1の要素と、第2の要素との間の音響学的類似性を示している値に基づいて、視覚的コンテンツを修正する、実施例17に記載のコンピューティングデバイス。
視覚的コンテンツは、ディスプレイの上に表示されるべきであるウェブページの中に含まれる、実施例12〜18のいずれかに記載のコンピューティングデバイス。
プロセッサによって実行されるときに、ディスプレイの上に提示するための、互いに第1の距離にある第1の視覚的要素と、第2の視覚的要素とを含むページを受信するステップと、互いに第2の距離にある第1の視覚的要素と、第2の視覚的要素とを含む修正されたページを生成するようにページを修正するステップであって、ページの修正するステップは、第1の視覚的要素に対応する少なくとも1つのワードと、第2の視覚的要素に対応する少なくとも1つのワードとの間の発音の類似性に基づいている、修正するステップと、修正されたページが、ディスプレイの上に表示されるようにさせるステップと、を含む動作を、プロセッサが、実行するようにさせる命令を含むコンピュータ読取り可能ストレージ媒体。
コンピューティングシステムが、本明細書において説明され、そこではコンピューティングシステムは、視覚的注意トラッキングを実行するための手段と、自動音声認識を実行するための手段と、視覚的注意トラッキングを実行するための手段と自動音声認識を実行するための手段とに基づいてページのグラフィカルレイアウトを修正するための手段と、を備えている。
Claims (14)
- コンピューティングデバイスによって実行される方法であって、
ディスプレイの上に提示するために視覚的コンテンツを受信するステップであって、前記視覚的コンテンツは、第1のレイアウトを有しており、前記第1のレイアウトは、その間に第1の距離を有する要素と、第2の要素とを含んでいる、ステップと、
前記視覚的コンテンツが、前記ディスプレイの上に提示されるようにさせるステップに先立って、
前記コンピューティングデバイスが自動音声認識(ASR)をサポートすること、
前記コンピューティングデバイスが視覚的注意の監視をサポートすること、および
前記要素と前記第2の要素との間の音響学的類似性を示す値を計算すること
に基づいて、前記第1のレイアウトとは異なる第2のレイアウトを有する新しい視覚的コンテンツを生成するように前記視覚的コンテンツを修正するステップであって、前記第2のレイアウトは、その間に第2の距離を有する前記要素と、前記第2の要素とを含んでいる、ステップと、
前記視覚的コンテンツを修正するステップに応じて、前記新しい視覚的コンテンツが、前記ディスプレイの上に提示されるようにさせるステップと
を含む方法。 - 視聴者が前記新しい視覚的コンテンツの要素を見ていることを推定するステップと、
前記視聴者が前記新しい視覚的コンテンツの要素を見ていることを推定することに応じて、前記新しい視覚的コンテンツの前記要素に視覚的インジケータを割り当てるステップと
をさらに含む、請求項1に記載の方法。 - 前記新しい視覚的コンテンツを生成するように前記視覚的コンテンツを修正するステップは、前記第2のレイアウトにおいて、前記第2の距離が、前記第2の要素から前記要素を分離するように、前記要素と、前記第2の要素との間の距離を変更するステップを含む、請求項1に記載の方法。
- 前記要素は、第1のワードまたはワードシーケンスを含んでおり、前記第2の要素は、第2のワードまたはワードシーケンスを含んでおり、
前記要素と前記第2の要素との間の音響学的類似性を示す値を計算することは、前記第1のワードまたはワードシーケンスと、前記第2のワードまたはワードシーケンスとの間の音響学的類似性を示す値を計算することを含む、請求項1に記載の方法。 - 前記視聴者によって見られていると推定される要素に基づいて、ASRシステムをカスタマイズするステップ
をさらに含む、請求項2に記載の方法。 - 前記新しい視覚的コンテンツの前記要素に前記視覚的インジケータを割り当てることに続いて、前記視聴者が前記新しい視覚的コンテンツの第2の要素を見ていることを推定するステップと、
前記視聴者が前記第2の要素を見ていることを推定することに応じて、前記第2の要素に前記視覚的インジケータを割り当てて、前記要素から前記視覚的インジケータを取り除くステップと
をさらに含む、請求項2に記載の方法。 - 前記視覚的インジケータは強調表示である、請求項6に記載の方法。
- 前記視覚的コンテンツは、第1のフォーム入力可能フィールドと、第2のフォーム入力可能フィールドとを含んでおり、また前記新しい視覚的コンテンツを生成するように前記視覚的コンテンツを修正するステップは、前記第1のフォーム入力可能フィールドが、前記第2のフォーム入力可能フィールドからさらに遠くに位置づけられるように、前記第1のフォーム入力可能フィールドまたは前記第2のフォーム入力可能フィールドのうちの少なくとも一方を位置づけ直すステップを含む、請求項1に記載の方法。
- 少なくとも1つのプロセッサと、
命令を記憶するメモリとを備えているコンピューティングデバイスであって、
前記命令は、前記少なくとも1つのプロセッサによって実行されると、前記少なくともも1つのプロセッサに、
ディスプレイの上に提示されるべき視覚的コンテンツを受信するステップであって、視覚的コンテンツは、第1のレイアウトを有しており、前記第1のレイアウトは、互いに対して第1の位置にある第1の要素と第2の要素とを含む、ステップと
前記視覚的コンテンツが前記ディスプレイの上で提示されることに先立って、前記ディスプレイに対して追跡されている視覚的注意および前記第1の要素と前記第2の要素との間の音響学的類似性を示す値に基づいて、前記視覚的コンテンツが修正されるときに、前記第1のレイアウトとは異なる第2のレイアウトを有するように前記視覚的コンテンツを修正するステップであって、前記第2のレイアウトは、互いに対して第2の位置にある第1の要素と第2の要素とを含む、ステップと、
前記ディスプレイの上で提示するために前記第2のレイアウトを用いて前記視覚的コンテンツをレンダリングするステップと
を含む動作を実行させる、コンピューティングデバイス。 - 前記動作は、
カメラから画像を受信するステップであって、前記画像は前記ディスプレイを見ているユーザを取り込む、ステップと、
前記画像に基づいて、前記ユーザの注視方向を識別するステップと、
前記注視方向に基づいて、前記ユーザによって見られている第1の要素を推定するステップと、
前記第1の要素が前記ユーザによって見られているように推定されることを示すグラフィカルデータが、前記ディスプレイの上に提示されるようにさせるステップと
をさらに含む、請求項9に記載のコンピューティングデバイス。 - 前記第1の要素は、フォーム入力可能フィールドであり、前記グラフィカルデータは、前記フォーム入力可能フィールドの強調表示である、請求項10に記載のコンピューティングデバイス。
- 前記動作は、
カメラから画像を受信するステップであって、前記画像は前記ディスプレイを見ているユーザを取り込む、ステップと、
前記画像に基づいて、前記ユーザの注視方向を識別するステップと、
前記注視方向に基づいて、前記ユーザによって見られている第1の要素を推定するステップと、
前記ユーザによって示される口頭による発話を含むオーディオ信号を受信するステップと、
自動音声認識(ASR)システムが、前記ユーザによって見られているように推定される前記第1の要素に基づいて、前記オーディオ信号の前記口頭による発話を認識するステップと
をさらに含む、請求項9に記載のコンピューティングデバイス。 - 前記動作は、前記ユーザによって見られているように推定される前記第1の要素に基づいて、前記ASRシステムをカスタマイズするステップをさらに含む、請求項12に記載のコンピューティングデバイス。
- 前記視覚的コンテンツは、前記ディスプレイの上に表示されることになるウェブページの中に含まれる、請求項9に記載のコンピューティングデバイス。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/297,742 | 2014-06-06 | ||
US14/297,742 US9583105B2 (en) | 2014-06-06 | 2014-06-06 | Modification of visual content to facilitate improved speech recognition |
PCT/US2015/033865 WO2015187756A2 (en) | 2014-06-06 | 2015-06-03 | Modification of visual content to facilitate improved speech recognition |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2017525002A JP2017525002A (ja) | 2017-08-31 |
JP2017525002A5 JP2017525002A5 (ja) | 2018-06-14 |
JP6545716B2 true JP6545716B2 (ja) | 2019-07-17 |
Family
ID=54540159
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016567801A Active JP6545716B2 (ja) | 2014-06-06 | 2015-06-03 | 改善された音声認識を容易にする視覚的コンテンツの修正 |
Country Status (11)
Country | Link |
---|---|
US (1) | US9583105B2 (ja) |
EP (1) | EP3152754B1 (ja) |
JP (1) | JP6545716B2 (ja) |
KR (1) | KR102393147B1 (ja) |
CN (1) | CN106463119B (ja) |
AU (1) | AU2015271726B2 (ja) |
BR (1) | BR112016026904B1 (ja) |
CA (1) | CA2948523C (ja) |
MX (1) | MX361307B (ja) |
RU (1) | RU2684475C2 (ja) |
WO (1) | WO2015187756A2 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9613267B2 (en) * | 2012-05-31 | 2017-04-04 | Xerox Corporation | Method and system of extracting label:value data from a document |
KR102342117B1 (ko) * | 2015-03-13 | 2021-12-21 | 엘지전자 주식회사 | 단말기, 및 이를 구비하는 홈 어플라이언스 시스템 |
KR101904889B1 (ko) | 2016-04-21 | 2018-10-05 | 주식회사 비주얼캠프 | 표시 장치와 이를 이용한 입력 처리 방법 및 시스템 |
WO2017183943A1 (ko) * | 2016-04-21 | 2017-10-26 | 주식회사 비주얼캠프 | 표시 장치와 이를 이용한 입력 처리 방법 및 시스템 |
SG11201908535XA (en) * | 2017-03-17 | 2019-10-30 | Uilicious Private Ltd | Systems, methods and computer readable media for ambiguity resolution in instruction statement interpretation |
US10142686B2 (en) * | 2017-03-30 | 2018-11-27 | Rovi Guides, Inc. | System and methods for disambiguating an ambiguous entity in a search query based on the gaze of a user |
CN109445757B (zh) * | 2018-09-21 | 2022-07-29 | 深圳变设龙信息科技有限公司 | 新设计图生成方法、装置及终端设备 |
JP7414231B2 (ja) | 2019-07-11 | 2024-01-16 | 中部電力株式会社 | マルチモーダル音声認識装置およびマルチモーダル音声認識方法 |
KR20210133600A (ko) * | 2020-04-29 | 2021-11-08 | 현대자동차주식회사 | 차량 음성 인식 방법 및 장치 |
Family Cites Families (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3530591B2 (ja) * | 1994-09-14 | 2004-05-24 | キヤノン株式会社 | 音声認識装置及びこれを用いた情報処理装置とそれらの方法 |
US6629074B1 (en) * | 1997-08-14 | 2003-09-30 | International Business Machines Corporation | Resource utilization indication and commit mechanism in a data processing system and method therefor |
US7720682B2 (en) | 1998-12-04 | 2010-05-18 | Tegic Communications, Inc. | Method and apparatus utilizing voice input to resolve ambiguous manually entered text input |
DE50104533D1 (de) | 2000-01-27 | 2004-12-23 | Siemens Ag | System und verfahren zur blickfokussierten sprachverarbeitung |
US6741791B1 (en) * | 2000-01-31 | 2004-05-25 | Intel Corporation | Using speech to select a position in a program |
US7036080B1 (en) | 2001-11-30 | 2006-04-25 | Sap Labs, Inc. | Method and apparatus for implementing a speech interface for a GUI |
US20050182558A1 (en) * | 2002-04-12 | 2005-08-18 | Mitsubishi Denki Kabushiki Kaisha | Car navigation system and speech recognizing device therefor |
US7158779B2 (en) * | 2003-11-11 | 2007-01-02 | Microsoft Corporation | Sequential multimodal input |
CN102272827B (zh) * | 2005-06-01 | 2013-07-10 | 泰吉克通讯股份有限公司 | 利用语音输入解决模糊的手工输入文本输入的方法和装置 |
US7627819B2 (en) * | 2005-11-01 | 2009-12-01 | At&T Intellectual Property I, L.P. | Visual screen indicator |
JP4399607B2 (ja) * | 2006-02-13 | 2010-01-20 | 国立大学法人埼玉大学 | 視線制御表示装置と表示方法 |
BRPI0708456A2 (pt) * | 2006-03-03 | 2011-05-31 | Koninkl Philips Electronics Nv | método para prover um sumário de diversas imagens, dispositivo adaptado para gerar um sumário de diversas imagens, sistema, código de programa executável por computador, e, portador de dados |
US9250703B2 (en) | 2006-03-06 | 2016-02-02 | Sony Computer Entertainment Inc. | Interface with gaze detection and voice input |
US8793620B2 (en) | 2011-04-21 | 2014-07-29 | Sony Computer Entertainment Inc. | Gaze-assisted computer interface |
US20080141166A1 (en) * | 2006-12-11 | 2008-06-12 | Cisco Technology, Inc. | Using images in alternative navigation |
US7983915B2 (en) * | 2007-04-30 | 2011-07-19 | Sonic Foundry, Inc. | Audio content search engine |
JP5230120B2 (ja) * | 2007-05-07 | 2013-07-10 | 任天堂株式会社 | 情報処理システム、情報処理プログラム |
US20130125051A1 (en) * | 2007-09-28 | 2013-05-16 | Adobe Systems Incorporated | Historical review using manipulable visual indicators |
US8386260B2 (en) * | 2007-12-31 | 2013-02-26 | Motorola Mobility Llc | Methods and apparatus for implementing distributed multi-modal applications |
US8438485B2 (en) * | 2009-03-17 | 2013-05-07 | Unews, Llc | System, method, and apparatus for generating, customizing, distributing, and presenting an interactive audio publication |
US9197736B2 (en) | 2009-12-31 | 2015-11-24 | Digimarc Corporation | Intuitive computing methods and systems |
US9507418B2 (en) * | 2010-01-21 | 2016-11-29 | Tobii Ab | Eye tracker based contextual action |
JP2012022589A (ja) * | 2010-07-16 | 2012-02-02 | Hitachi Ltd | 商品選択支援方法 |
US10120438B2 (en) * | 2011-05-25 | 2018-11-06 | Sony Interactive Entertainment Inc. | Eye gaze to alter device behavior |
US9423870B2 (en) | 2012-05-08 | 2016-08-23 | Google Inc. | Input determination method |
US9823742B2 (en) * | 2012-05-18 | 2017-11-21 | Microsoft Technology Licensing, Llc | Interaction and management of devices using gaze detection |
KR102156175B1 (ko) * | 2012-10-09 | 2020-09-15 | 삼성전자주식회사 | 멀티 모달리티를 활용한 유저 인터페이스를 제공하는 인터페이싱 장치 및 그 장치를 이용한 방법 |
-
2014
- 2014-06-06 US US14/297,742 patent/US9583105B2/en active Active
-
2015
- 2015-06-03 EP EP15793931.5A patent/EP3152754B1/en active Active
- 2015-06-03 BR BR112016026904-7A patent/BR112016026904B1/pt active IP Right Grant
- 2015-06-03 JP JP2016567801A patent/JP6545716B2/ja active Active
- 2015-06-03 KR KR1020167037034A patent/KR102393147B1/ko active IP Right Grant
- 2015-06-03 CA CA2948523A patent/CA2948523C/en active Active
- 2015-06-03 MX MX2016016131A patent/MX361307B/es active IP Right Grant
- 2015-06-03 WO PCT/US2015/033865 patent/WO2015187756A2/en active Application Filing
- 2015-06-03 CN CN201580029986.8A patent/CN106463119B/zh active Active
- 2015-06-03 AU AU2015271726A patent/AU2015271726B2/en active Active
- 2015-06-03 RU RU2016147071A patent/RU2684475C2/ru active
Also Published As
Publication number | Publication date |
---|---|
WO2015187756A3 (en) | 2016-01-28 |
JP2017525002A (ja) | 2017-08-31 |
EP3152754B1 (en) | 2018-01-10 |
RU2684475C2 (ru) | 2019-04-09 |
MX361307B (es) | 2018-12-03 |
AU2015271726B2 (en) | 2020-04-09 |
RU2016147071A3 (ja) | 2018-12-29 |
AU2015271726A1 (en) | 2016-11-17 |
KR20170016399A (ko) | 2017-02-13 |
CA2948523C (en) | 2021-12-07 |
KR102393147B1 (ko) | 2022-04-29 |
WO2015187756A2 (en) | 2015-12-10 |
CA2948523A1 (en) | 2015-12-10 |
RU2016147071A (ru) | 2018-06-01 |
US20150356971A1 (en) | 2015-12-10 |
BR112016026904A2 (pt) | 2017-08-15 |
US9583105B2 (en) | 2017-02-28 |
BR112016026904A8 (pt) | 2021-07-13 |
EP3152754A2 (en) | 2017-04-12 |
MX2016016131A (es) | 2017-03-08 |
CN106463119B (zh) | 2020-07-10 |
CN106463119A (zh) | 2017-02-22 |
BR112016026904B1 (pt) | 2023-03-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6545716B2 (ja) | 改善された音声認識を容易にする視覚的コンテンツの修正 | |
US11862151B2 (en) | Low-latency intelligent automated assistant | |
EP3404653B1 (en) | Methods and systems for phonetic matching in digital assistant services | |
US10255907B2 (en) | Automatic accent detection using acoustic models | |
EP4078528A1 (en) | Using text for avatar animation | |
US20170358301A1 (en) | Digital assistant providing whispered speech | |
US20160093298A1 (en) | Caching apparatus for serving phonetic pronunciations | |
EP3480811A1 (en) | Multi-command single utterance input method | |
JP2017536600A (ja) | 複数モードでの会話的対話における話された言語の理解のための凝視 | |
EP3596728B1 (en) | Low-latency intelligent automated assistant | |
WO2019087811A1 (ja) | 情報処理装置、及び情報処理方法 | |
US20200301659A1 (en) | Graphical interface for speech-enabled processing | |
KR20150144031A (ko) | 음성 인식을 이용하는 사용자 인터페이스 제공 방법 및 사용자 인터페이스 제공 장치 | |
JP2020003926A (ja) | 対話システムの制御方法、対話システム及びプログラム | |
EP4022424A1 (en) | Rehearsal-based presentation assistance | |
JPWO2020116001A1 (ja) | 情報処理装置および情報処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180425 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180425 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20181221 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181227 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190320 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190528 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190619 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6545716 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |