JP2009521745A - 音声で起動されるネットワーク動作 - Google Patents
音声で起動されるネットワーク動作 Download PDFInfo
- Publication number
- JP2009521745A JP2009521745A JP2008547239A JP2008547239A JP2009521745A JP 2009521745 A JP2009521745 A JP 2009521745A JP 2008547239 A JP2008547239 A JP 2008547239A JP 2008547239 A JP2008547239 A JP 2008547239A JP 2009521745 A JP2009521745 A JP 2009521745A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- client
- response
- search
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000001960 triggered effect Effects 0.000 title description 2
- 230000004044 response Effects 0.000 claims description 109
- 230000009471 action Effects 0.000 claims description 54
- 238000000034 method Methods 0.000 claims description 38
- 230000006854 communication Effects 0.000 claims description 24
- 238000004891 communication Methods 0.000 claims description 24
- 238000012546 transfer Methods 0.000 claims description 9
- 230000001413 cellular effect Effects 0.000 claims description 8
- 230000000007 visual effect Effects 0.000 claims 5
- 238000006243 chemical reaction Methods 0.000 description 41
- 230000006870 function Effects 0.000 description 13
- 230000015654 memory Effects 0.000 description 10
- 238000012790 confirmation Methods 0.000 description 9
- 230000007246 mechanism Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000010006 flight Effects 0.000 description 7
- 230000004913 activation Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000033001 locomotion Effects 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 230000002730 additional effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000003796 beauty Effects 0.000 description 1
- 230000007175 bidirectional communication Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
- H04M3/4938—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals comprising a voice browser which renders and interprets, e.g. VoiceXML
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/40—Support for services or applications
- H04L65/4061—Push-to services, e.g. push-to-talk or push-to-video
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/10—Architectures or entities
- H04L65/1016—IP multimedia subsystem [IMS]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/40—Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/60—Medium conversion
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computer Networks & Wireless Communication (AREA)
- Information Transfer Between Computers (AREA)
- Telephonic Communication Services (AREA)
Abstract
音声で起動されるネットワーク動作の実施形態が本明細書に提示される。
Description
本発明は、音声により起動されるネットワークオペレーションに関する。
ラップトップコンピュータ、ワイヤレス電話機、携帯情報端末、ワイヤレス機器、ゲームシステム、オーディオプレーヤ等の携帯型の電子機器が普及してきている。ユーザは、そうした機器の1つまたは複数を、電子メール、インスタントメッセージ等の使用を通じて互いと通信する等の各種の活動に使用することができる。さらに、ユーザは、そうした機器の1つまたは複数を、ネットワークを介して各種のコンテンツにアクセスするために使用することができる。しかし、携帯型電子機器が小型であることが、ユーザの活動の妨げとなる場合がある。
例えば、小型の携帯型電子機器は、テキストの入力にはあまり適さない。また、運転中や移動中など、「活動中」に携帯型電子機器に情報を入力するのは困難、安全でない、かつ/または不便である場合もある。
他の入力機構が望ましくない、不便、あるいは不可能である時等に、ユーザが動作を行うのを助けるために利用することができる、音声による動作の起動が記載される。ユーザがクライアント機器に音声を提供する。音声はテキストに変換される。そのテキストが使用されて動作を行い、結果を得る。応答が形成されて動作の結果をクライアント機器に伝える。応答は、テキスト部分と非テキスト部分(例えばグラフィック、音声等)を組み込む等、各種の形でフォーマットされることができる。例えば、検索エンジンによって行われる検索動作がユーザの音声で起動されることができる。検索の結果がユーザに提供される。そして、ユーザは、その検索結果を使用してさらなる音声でさらなる動作を起動することができる。
この概要は、下記の詳細な説明でさらに説明される概念のうち選択されたものを簡略化した形で紹介するために提供される。この概要は、特許権が請求される主題の主要な特徴または必須の特徴を明らかにするものでも、クレームに記載される主題の範囲を定める助けとして使用されるべきものでもない。
説明中の事例では、同様の構造および構成要素は、同じ参照符号を利用して参照する。
概要
状況によっては、コンピューティング機器、ハンドヘルドまたはモバイル機器への手動の入力(例えば手での入力)が、不便、安全でない、あるいは不可能な場合がある。各種の実装で、口頭のコマンドまたは単語等の音声を介して動作を起動するために利用することが可能な技術が記載される。
状況によっては、コンピューティング機器、ハンドヘルドまたはモバイル機器への手動の入力(例えば手での入力)が、不便、安全でない、あるいは不可能な場合がある。各種の実装で、口頭のコマンドまたは単語等の音声を介して動作を起動するために利用することが可能な技術が記載される。
例えばユーザが、携帯電話、コンピューティング機器、携帯情報端末(PDA)等のクライアント機器に音声を提供することができる。次いでその音声がテキストに変換される。次いで、変換されたテキストがサービスによって使用されて、変換されたテキストに基づいて1つまたは複数の動作を行うことができる。各種の動作が企図される。
例えば、変換されたテキストが、検索を行うためにインターネットの検索エンジンに提供される検索語として使用されることができる。動作の結果が得られる。その結果を含む応答が形成され、その応答が次いでユーザのためにクライアント機器に提供される。応答は、電子メール、HTML(ハイパーテキストマークアップ言語)、インスタントメッセージ、音響等、各種の形で提供され得る。例えば、最も近くにある飲食店を尋ねる口頭の要求に応答して、地図と飲食店のリストを伴うHTML文書をユーザに提供することができる。一実装では、クライアント機器の場所によって自動的に動作を絞り込むことができる。したがって、飲食店の検索は、クライアント機器の場所に基づいて最も近い5軒の飲食店を自動的に返すことができる。
以下の説明では、音声起動動作を提供する技術を用いるように動作可能な例示的環境を初めに説明する。次いで、その例示的環境ならびに他の環境で音声起動動作の技術を提供するように動作可能な例示的な手順とユーザインターフェースを説明する。
例示的環境
図1は、音声起動動作技術を用いるように動作可能な例示的実装の環境100の図である。環境100は、ネットワーク104に通信可能に結合された複数のクライアント102(1)、102(2)、102(3)、...、102(N)を含むものと図示される。以下の説明における複数のクライアント102(1)〜102(N)は、クライアント102(n)(「n」は1〜「N」の任意の整数)とも称される場合がある。複数のクライアント102(n)は、各種の形で構成されてよい。例えば、クライアント102(n)の1つまたは複数は、デスクトップコンピュータ、モバイル局、ゲーム機、娯楽機器、表示装置に通信可能に結合されたセットトップボックス、ワイヤレス電話機等、ネットワーク104を通じて通信することが可能なコンピュータとして構成することができる。クライアント102(n)は、ラップトップ機、携帯電話102(2)、携帯情報端末(PDA)102(3)、オーディオプレーヤ等の携帯型の電子機器であってもよい。クライアント102(n)は、無線接続、配線接続等を介してネットワーク104にアクセスするように構成することができる。クライアント102(n)の範囲は、相当量のメモリとプロセッサ資源を持つフル資源機器(例えばパーソナルコンピュータ、ハードディスク搭載のテレビレコーダ、ゲーム機)から、メモリおよび/または処理資源が限られた低資源機器(例えば従来のセットトップボックス)にわたりうる。以下の説明では、クライアント102(n)は、クライアントを操作する人物および/またはエンティティに関連する場合もある。すなわち、クライアント102(n)は、ユーザおよび/またはマシンを含む論理的なクライアントを表すことができる。
図1は、音声起動動作技術を用いるように動作可能な例示的実装の環境100の図である。環境100は、ネットワーク104に通信可能に結合された複数のクライアント102(1)、102(2)、102(3)、...、102(N)を含むものと図示される。以下の説明における複数のクライアント102(1)〜102(N)は、クライアント102(n)(「n」は1〜「N」の任意の整数)とも称される場合がある。複数のクライアント102(n)は、各種の形で構成されてよい。例えば、クライアント102(n)の1つまたは複数は、デスクトップコンピュータ、モバイル局、ゲーム機、娯楽機器、表示装置に通信可能に結合されたセットトップボックス、ワイヤレス電話機等、ネットワーク104を通じて通信することが可能なコンピュータとして構成することができる。クライアント102(n)は、ラップトップ機、携帯電話102(2)、携帯情報端末(PDA)102(3)、オーディオプレーヤ等の携帯型の電子機器であってもよい。クライアント102(n)は、無線接続、配線接続等を介してネットワーク104にアクセスするように構成することができる。クライアント102(n)の範囲は、相当量のメモリとプロセッサ資源を持つフル資源機器(例えばパーソナルコンピュータ、ハードディスク搭載のテレビレコーダ、ゲーム機)から、メモリおよび/または処理資源が限られた低資源機器(例えば従来のセットトップボックス)にわたりうる。以下の説明では、クライアント102(n)は、クライアントを操作する人物および/またはエンティティに関連する場合もある。すなわち、クライアント102(n)は、ユーザおよび/またはマシンを含む論理的なクライアントを表すことができる。
また、ネットワーク104はインターネットとして図示しているが、このネットワークは、幅広い種類の構成をとることが可能である。例えば、ネットワーク104は、ワイドエリアネットワーク(WAN)、ローカルエリアネットワーク(LAN)、ワイヤレスネットワーク、公衆電話網、イントラネット等を含んでよい。さらに、図には単一のネットワーク104を示すが、ネットワーク104は、複数のネットワークを含むように構成されてよい。例えば、複数のクライアント102(n)がワイヤレスネットワークを介して結合されて互いに通信してよい。それらの各クライアントは、インターネットを通じて、図1に図示される複数のサービス106(s)(「s」は1〜「S」の任意の整数)の1つまたは複数にも通信可能に結合されてよい。各種の他の例も企図される。
図1に示すように、複数のサービス106(s)は、クライアント102(n)にネットワーク104を介してアクセスできるようにしてよい。サービス106(s)は、各種の形で構成することができる。サービス106(s)は一般に、ネットワーク104を介して、資源(例えばサービスやコンテンツ)をクライアント102(n)に提供する。資源は、ウェブページ、音楽、映像、画像、ユーザフォーラム、テンプレート、アドイン、ウェブログ(ブログ)等の各種のコンテンツとして構成されてよい。さらに、サービス106(s)は、インスタントメッセージサービス、電子メールサービス、検索サービス、オンラインショッピング、金融サービス等のサービスである資源を提供してもよい。クライアントは、サービス106(s)にアクセスして、通信、検索、アカウントへのアクセス、ファイル管理、消費者活動等の各種の活動を起動することができる。
複数のクライアント102(n)はそれぞれ、複数の通信モジュール108(n)の個々の1つを含むものと図示される。図の実装では、複数の通信モジュール108(n)はそれぞれ、複数のクライアント102(n)の個々の1つで実行可能であり、複数のクライアント102(n)同士、クライアント102と1つまたは複数のサービス106(s)との間等に通信方式を提供する。したがって、通信モジュール108(n)は、情報、音声データ、メッセージ等をネットワーク104を通じて送受信するためにクライアント102(n)に提供される機能を表す。
例えば、通信モジュール108(n)の1つまたは複数は、電子メールを送受信するように構成されてよい。電子メールは、ルータや他のコンピューティング機器(例えば電子メールサーバ)等の複数の機器を利用して電子メールがネットワーク104を介して配信されるようにアドレス指定および経路指定するための標準と規定を用いる。このようにして、電子メールは、イントラネットを通じて会社内を、インターネットを使用して世界規模等で転送されることができる。例えば電子メールは、ヘッダとユーザ指定のペイロードとを含むことができ、ペイロードは、テキストと、例えば文書、コンピュータ実行可能ファイル等の添付ファイル等である。ヘッダは、送信元についての技術情報を含んでおり、しばしば、メッセージが送信者から受信者までの間にとった経路を記述する場合がある。
通信モジュール108(n)は、セルラまたはワイヤレスの音声サービスを提供するように構成されてもよい。ワイヤレスの音声サービスは、複数のクライアント102(n)間および/またはクライアント102(n)とサービス106(s)との間で音声データを通信するための機構を提供する。例えば、クライアント102(n)は、リアルタイムまたは準リアルタイムで別のクライアントに音声データを通信することができる。したがって、複数のクライアント102(n)がワイヤレスネットワークを介して会話に参加することができる。クライアント102(n)は、サービス106(s)の1つまたは複数に音声データを通信することもできる。
さらに、通信モジュール108(n)は、push−to−talk over cellular(PoC)機能を提供するように構成されてもよい。PoCは、1つまたは複数のクライアント102(n)間および/またはサービス106間のほぼ即時の通信を可能にする、双方向形式の通信である。通信モジュール108(n)は、PoCセッションを起動するために選択することが可能なPoC連絡先またはグループのリストを提供することができる。クライアント102(n)は、PoCセッション中に押して話をすることが可能なPoCボタンを備えるよう構成されてよい。PoCセッションを通じて、受信側の連絡先またはグループは、自身の側では何の動作も行わずに送信者の声を聞くことができる。したがって、PoCは、「ウォーキートーキー(walkie talkie)」あるいはインターホンを使用することに似ている。PoCは、ワイヤレス音声ネットワーク、ピアツーピアネットワーク、インターネット等を介して実装することができる。PoCは、その名前は「セルラ」を示すが、携帯電話、ラップトップ、ハンドヘルド機器、デスクトップコンピューティング機器等を含む、各種の形で構成されたクライアント102(n)で利用することが可能である。例えば、デスクトップコンピューティング機器とサービス106(n)との間に、インターネットを介してPoCセッションを確立することができる。
別の例で、通信モジュール108(n)の1つまたは複数は、インスタントメッセージを送受信するように構成されてよい。インスタントメッセージは、各クライアント102(n)がインスタントメッセージセッションに参加している時に互いにテキストメッセージを送信できるように機構を提供する。インスタントメッセージは、インスタントメッセージセッションを介して音声データを交換できるように音声のインスタントメッセージ機能を提供することも可能である。インスタントメッセージは、通例はリアルタイムで通信するが、クライアント102(n)の1つが使用不可、例えばオフライン状態の時には、テキストメッセージを記録しておくなどにより、遅延配信も利用することができる。このように、インスタントメッセージは、メッセージ交換を支援し、双方向のライブチャット用に設計されているという点で、電子メールとインターネットチャットの組合せと考えることができる。したがって、インスタントメッセージは、同期通信に利用することができる。例えば、音声の電話呼のように、インスタントメッセージセッションは、各ユーザが、インスタントメッセージが受信されると他の各ユーザに応答できるようにリアルタイムで行うことができる。
PoC、ワイヤレス音声サービス、インスタントメッセージ、および電子メールを記載したが、通信方式は、その主旨および範囲から逸脱することなく、各種の他の構成をとることができる。さらに、個々のクライアント102(n)(より詳細にはクライアント102(n)の通信モジュール)は、インスタントメッセージとワイヤレス音声の両方を提供するなど、通信方式の各種の異なる組合せを提供するように構成されてよい。
通信モジュール108(n)は、さらに、口頭のコマンドを受信し、サービス106(s)と通信する機能を提供することができる。図1には、複数のクライアント102(n)の1つまたは複数を使用できる様々なユーザを表すユーザ110を示す。ユーザ110は、クライアント102(1)に音声112を提供するものと図示される。音声112は、サービス106(s)によって行われるべき動作を指定することができる、ユーザ110等のユーザによって話された単語を表す。音声112は、クライアント102(1)に受信され、通信モジュール108(1)によりネットワーク104を介してサービス106(s)に通信されることができる。下記で詳細に説明するように、音声112は、音声データとして、または変換された音声データ(例えばテキスト)としてサービス106に通信されることができる。
各サービス106(s)は、それぞれ1つまたは複数の動作モジュール114(s)を備える。動作モジュール114(s)は、ユーザ110の音声112で指定される1つまたは複数の動作を行うために実行可能な機能を表す。したがって、音声112を使用して、動作モジュール114(s)による動作を起動することができる。動作モジュール114(s)は、音声112で指定された動作の結果を含む応答116(p)をフォーマットする機能も表す。動作モジュール114(s)は、各種の動作を提供するように構成されることができる。動作モジュール114(s)によって行われることが可能な動作には、これらに限定しないが、検索、商品の購入、サービスの予約(例えば飲食店、美容院、自動車修理等)、旅行の予約、アカウントへのアクセス、コンテンツへのアクセス、記憶されたコンテンツの取り出し、項目のダウンロード等が含まれる。
一実装では、動作モジュール114(s)は、動作モジュール114(s)によって行われた動作の結果を含む応答116(p)をクライアント102(n)に提供するように構成することができる。応答116(p)は、各種のテキスト部分および/または非テキスト部分(例えばグラフィックメッセージ、音声メッセージ等)を含む等、各種の形で構成されてよい。各種の応答116(p)についてのさらなる解説は、図2との関連で得ることができる。
一実装では、サービス106(s)は、音声112を音声データとして受け取ることができる。しかし、いくつかの事例では、動作モジュール114(s)は、音声データを理解せず、指定された動作を行わない場合がある。そのため、変換が行われてよい。例えば、各サービス106(s)は、個々の変換モジュール118(s)を有して図示されている。変換モジュール118(s)は、サービス106(s)の動作モジュール114(s)等の、所望の動作を行うように構成されたモジュールが理解できるように、音声データとテキストコマンド間の変換を行う機能を表す。例えば、音声データとして受信された音声112は、変換モジュール118(s)によって、動作モジュール114(s)が理解できるテキストに変換され得る。そして、動作モジュール114(s)は、変換された音声(例えばテキスト)を使用して、音声112で指定された動作を行うことができる。一実装では、変換モジュール118(s)は、応答116(p)を、クライアント102(n)に通信する音声データに変換するように構成されてもよい。
サービス106(s)における変換モジュール118(s)の実行を説明したが、クライアント102(n)も同様の機能を利用してよい。例えば、図1では、各クライアント102(1)〜102(N)が、個々の変換モジュール118(1)〜118(N)を備えている。一実装では、クライアント102(n)によって受信された音声112は、そのクライアントでテキストに変換されることができる。サービス106(s)、詳細には動作モジュール114(s)は次いで、行うべき動作を指定する、動作モジュール114(s)に理解可能なテキストを受け取る。また、クライアント102(n)に提供された非音声応答116(p)またはその一部が、クライアント102(n)によって音声に変換されてよい。変換モジュール118を介した音声データの変換についてのさらなる解説は、図2との関連で得ることができる。
一実装では、単一のサービス106(s)が多数の動作を行うことができる。例えば、ユーザ110が音声112を提供し、その結果、サービス106(s)が、ウェブページ、映像、音声等の利用可能なコンテンツの検索を行うことができる。ユーザ110は、事前にコンテンツを契約または購入している、あるいはコンテンツを購入することを希望している場合がある。コンテンツは、ネットワーク104を介してクライアント102(n)からアクセス可能なストレージ等にユーザによって保持されている項目であってもよい。検索は、利用可能なコンテンツを列挙した検索結果を生成し、その検索結果がクライアント102(n)に提供される。次いで、ユーザ110は、利用可能なコンテンツを閲覧し、追加的な音声112を提供して、検索結果に含まれるコンテンツ項目をクライアントにストリーミングする、コンテンツをダウンロードする、コンテンツを購入する等、追加的な動作を起動することができる。
あるいは、複数のサービス106(s)をが組み合わせて使用して、多数の動作を行ってもよい。したがって、同じサービス106または別のサービス106(s)によって追加的な動作を行うことができる。別の例で、ユーザ110は音声112を使用して、複数のサービス106(s)の1つを使用して、利用可能な飛行便等の旅行のオプションの検索を起動することができる。そして、検索結果を受け取ると、ユーザ110は、追加的な音声を使用して、複数のサービス106(s)のうち別のサービスを介して、検索結果に示された特定の便を予約する動作を起動することができる。音声に応答した動作の実施についてのさらなる解説は、図3〜7との関連で得られる。
一般に、本明細書に記載される機能はいずれも、ソフトウェア、ファームウェア(例えば固定論理回路)、手動処理、またはそれらの実装の組合せを使用して実装することができる。本明細書で使用される用語「モジュール」および「論理」は、一般に、ソフトウェア、ファームウェア、またはソフトウェアとファームウェアの組合せを表す。ソフトウェア実装の場合、モジュール、機能、または論理は、プロセッサ(例えば1つまたは複数のCPU)で実行された時に、指定されたタスクを行うプログラムコードを表す。プログラムコードは、1つまたは複数のコンピュータ可読の記憶装置に記憶することができ、これについてのさらなる説明は、図2との関連で得られる。下記で説明する音声技術の特徴は、プラットフォームに依存しないことであり、すなわち、それらの技術は、各種のプロセッサを有する各種の市販コンピューティングプラットフォームで実装されることができる。
図2は、図1の例示的なクライアント102(n)とサービス106(s)をより詳細に示した例示的実装のシステム200の図である。図で、サービス106(s)は、複数のサーバ202(a)(「a」は1〜「A」の任意の整数)によって実装されており、クライアント102(n)は、クライアント機器として図示されている。各サーバ202(a)と各クライアント102(n)は、それぞれのプロセッサ204(a)、206(n)と、それぞれのメモリ208(a)、210(n)を有するものと図示している。
プロセッサは、形成材料または内部で用いられる処理機構によって制限されない。例えば、プロセッサは、半導体および/またはトランジスタ(例えば電子集積回路(IC))で構成することができる。そのような状況では、プロセッサ実行可能命令は、電子的に実行可能な命令であってよい。それに代えて、プロセッサの機構またはプロセッサのための機構、およびしたがって、コンピューティング機器の機構とコンピューティング機器のための機構には、これらに限定しないが、量子コンピューティング、光コンピューティング、機械コンピューティング(例えばナノテクノロジーを使用する)等が含まれうる。また、図にはそれぞれ単一のメモリ208(a)、210(n)を示すが、サーバ202(a)とクライアント102(n)には、RAM(ランダムアクセスメモリ)、ハードディスクメモリ、取り外し可能媒体メモリ等、幅広い種類および組合せのメモリが用いられてよい。
図には、動作モジュール114(a)および変換モジュール118(a)は、サーバ202(a)のプロセッサ204(a)で実行されるものと示している。無論、動作モジュール114(a)と変換モジュール118(a)は、同じサービス106(s)内、または、図1に図示される複数のサービス106のうち異なるサービス内のそれぞれ異なるサーバ202に提供されてもよい。本明細書に記載される各種モジュールに関連する機能は、本発明の主旨および範囲から逸脱することなく、さらに組み合わせ、または分割され得ることに留意されたい。例えば、動作モジュール114(a)と変換モジュール118(a)は別々に図示しているが、各自の機能が単一のモジュールに提供されてもよい。
変換モジュール118(a)はさらに、音声/テキスト変換モジュール212およびテキスト/音声変換モジュール214を有するものと図示される。音声/テキスト変換モジュール212は、クライアント102(2)から音声データとして提供された音声112を、動作を行うために動作モジュール114(a)が使用することが可能なテキストに変換する機能を表す。テキスト/音声変換モジュール214は、動作の結果(例えば応答116(p)またはその一部)を音声データ(例えば可聴音)に変換することができる機能を表す。テキスト/音声変換モジュール214は、リアルタイムの音響の結果をクライアント102(n)に通信するように構成することができる。あるいは、テキスト/音声変換モジュール214は、クライアント102(n)からアクセスできる状態となった、ボイスメール、音声ファイル等の音声の録音として保存される音響の結果を生成してもよい。
一実装では、1つまたは複数のサービス102(s)が音声起動の検索動作を提供することができる。図2に示す動作モジュール114(a)は、検索動作を提供するように構成されている。図では、検索エンジン216がプロセッサ204(a)の動作モジュール114(a)内で実行され、メモリ208(a)に記憶することができる。検索エンジン216を使用して各種の検索を行うことができる。それらの検索には、これらに限定しないが、一般的なウェブまたはインターネット、個人のデスクトップ、映像、音声、企業、写真、および/またはローカルの検索が含まれる。そうした検索は、ユーザ110から音声としてクライアント102(n)に提供されるキーワードに基づくことができる。あるいは、ユーザ110の音声112は、記憶された検索を識別し、その検索が検索エンジン216に検索語を提供してもよい。無論、検索動作は、単一の動作モジュール114(a)の中で他の動作と組み合わせられてよい。すなわち、検索を提供するように構成された動作モジュール114(a)は、検索の提供に限定されなくてよい。
一実装では、動作モジュール114(a)は、応答モジュール218を備える。応答モジュール218は、サービス106(s)によって行われた動作の結果を含む応答116(p)を形成する機能を表す。応答116(p)は、ネットワーク104を介してクライアント102(n)に通信されるように構成される。あるいは、結果は、リモートに記憶され、クライアント102(n)から、またはクライアント102(n)または別の機器を介してユーザ110からアクセスできるようにしてもよい。無論、応答116(p)中の結果は、単一の動作モジュール114(a)によるものでも、単一のサービス106(s)の複数の動作によるものでも、複数のサービス106(s)によって行われた多数の動作を組み合わせた集約等であってもよい。
応答116(p)は、各種の形で構成されることができる。図では、サーバ202(a)のメモリ208(a)内のストレージ220に各種の応答116(p)が示される。応答116(p)は、テキストとグラフィックを組み合わせたグラフィックな応答であってよい。そのため、ユーザ110は、音響入力(例えば音声112)に対して、クライアント102(n)を介して、別の形式の応答116(p)、例えば音響でない応答を受け取ることができる。あるいは、ユーザ110は、音響部分とテキストおよびグラフィック部分を組み合わせた応答を受け取ることもできる。このように、応答116(p)は、テキスト、グラフィック、映像、音声等の組合せを含んでよい。
例えば図2に示すように、応答116(p)は、電子メール116(1)、HTML文書116(2)、インスタントメッセージ116(3)、映像応答116(4)、コンピュータ可読ファイル116(5)等として構成することができる。さらに、各種の応答116(p)は、単独で、または互いと組み合わせて使用されてよい。例えば、電子メールとインスタントメッセージ116(3)の両方がクライアント102(2)に返され得る。また、インスタントメッセージ116(3)は、添付されたワード処理ファイルまたは他のコンピュータ可読ファイル116(5)を有するように形成されることもできる。各種の他の組合せも企図される。
同様に、図2には音響の応答116(6)が示され、これは単独で、または他の応答116(p)と併用され得る。音響の応答116(6)は、クライアント102(n)に提供されて例えばクライアントに音声として「聞かれる」応答または応答の一部を表す。例えば、音声112で起動された検索に応答してHTML文書116(2)が生成されることができる。HTML応答116(2)は、クライアント102(n)に送信される。また、テキスト/音声変換モジュール214がHTML116(2)またはその一部分を音響音声に変換し、音響応答116(6)を返してもよい。HTML文書はテキスト/音声変換モジュール214によって変換されるため、音響応答は、例えばリアルタイム、または準リアルタイムで返される。したがって、音響入力(例えば音声112)に対して、ユーザ110は、クライアント102(n)を介して、その全体または一部が音響応答116(6)である応答116(p)を受け取ることができる。変換は代わりにクライアント102(n)で行われてもよいことに留意されたい。そのため、クライアント102(n)は、テキストから音声への変換と音声からテキストへの変換の両方を行うように構成されることが可能な個々の変換モジュール118(n)を有するものと図示される。
検索エンジン216によって行われる検索の場合、応答116は、検索結果222を含むことができる。図では、サーバ202(a)のメモリ208(a)の中のストレージ224に複数の検索結果222(m)が示されている。検索結果222(m)は、検索エンジン216の実行によって得ることができる。
動作モジュール114(a)は、検索結果222(m)を各種方式で絞り込むように構成されることができる。動作モジュール114(a)は、クライアント102(n)またはユーザ110に関する情報を使用して自動的に検索を絞り込むことができる。この情報には、クライアント102(n)の場所、ユーザ110のプロファイル、ユーザ110に関連付けられた検索履歴、ユーザ110の嗜好または好み等が含まれうる。この情報は、クライアント機器102(n)から動作モジュールに提供され得る。あるいは、サービス106(s)が、この情報を保持するか、クライアント102(n)から、または、サービス106(s)の複数のサーバ202(a)の1つから、または別のサービス等からこの情報を取得してもよい。
例えば、検索結果222(m)は、要求したクライアント102(n)の場所に基づいてフィルタリングされてよい。そのため、動作モジュール114(a)は、検索を要求したクライアント102(n)の場所を判定するように構成することができる。例えば、クライアントの場所は、クライアント102(n)とサービス106(s)間の通信で提供される識別子によって判定されることができる。識別子は、クライアント機器102(n)や通信をルーティングする機器等に関連付けられた識別子とすることができる。一例では、動作モジュール114(a)は、識別子を使用してクライアント102(n)が「シカゴ」にいると判断することができる。したがって、飲食店、ホテル、道案内等の検索に対する検索結果222(m)は、自動的に「シカゴ」に限定されることができる。場所を判定するために各種の他の技術も使用されてよい。
例示的手順
以下の解説は、上記のシステムおよび機器を利用して実装されることが可能な音声起動動作の説明である。各手順の態様は、ハードウェア、ファームウェア、ソフトウェア、またはそれらの組合せとして実装することができる。これらの手順は、1つまたは複数の機器によって行われる動作を指定するブロックのセットとして示され、必ずしも、個々のブロックによって動作を行うために図示される順序に限定されない。以下の説明の一部では、図1の環境100と図2のシステム200を参照する。
以下の解説は、上記のシステムおよび機器を利用して実装されることが可能な音声起動動作の説明である。各手順の態様は、ハードウェア、ファームウェア、ソフトウェア、またはそれらの組合せとして実装することができる。これらの手順は、1つまたは複数の機器によって行われる動作を指定するブロックのセットとして示され、必ずしも、個々のブロックによって動作を行うために図示される順序に限定されない。以下の説明の一部では、図1の環境100と図2のシステム200を参照する。
図3は、サービスが、クライアントからの音声データに基づいて動作を実行し、応答を生成する手順300を示す。サービスが、ネットワークを介してクライアントから音声データを受信する(ブロック302)。例えば、図1に示されるサービス106(s)が、音声112としてクライアント102(1)に入力された音声データを受信することができる。クライアント102(1)は、ネットワーク104に接続されたワイヤレス対応のラップトップ機等のモバイルコンピューティング機器として構成されてよい。クライアント102(2)の個々の通信モジュール108(1)が実行されて、クライアント102(2)とサービス106(1)間に音声インスタントメッセージセッションを提供することができる。したがって、クライアント102(2)からネットワーク104を通じて音声インスタントメッセージセッションを介して音声112が送信され、サービス106(s)がその音声112を受信する(例えば「聞く」)ことができる。
変換モジュール118(s)が実行されて、音声データをテキスト文字列に変換する(ブロック304)。例えば、上記の例で受信された音声112がテキスト306に変換されることができる。図1に示される変換モジュール118(s)が実行されて音声112を変換することができる。音声112は、「1」、「食品」、「実行する」、「買う」等の単純なコマンドを指定することができ、または、音声112は、例えば「イタリア料理店を見つける」のようなフレーズや文章であってもよい。このように、変換モジュール118(s)は、音声112を、命令、コマンド、単語等の形のテキスト306に変換し、その命令、コマンド、単語等がサービス106(s)によって利用されて、1つまたは複数の動作を起動することができる。
動作モジュールにテキストが提供され、動作モジュールはそのテキストを使用して、動作を行い、結果を得る(ブロック308)。上記の例を続けると、テキスト306がコマンド、例えば「商品2を買う」であるとする。図1の動作モジュール114(s)がテキスト306を受け取る。動作モジュール114(s)は、テキスト306を使用して購入動作を行うように構成することができる。例えば、サービス106(s)は、事前に、音声インスタントメッセージセッションの際に、または、電子メール、インターネットを介して等、販売商品のリストをユーザ110に提供している場合がある。ユーザ110は、リストを見て、リストにある商品2を買うことを決める。ユーザ110は、クライアント102(1)(例えばワイヤレスのラップトップ)を介して、フレーズ「商品2を買う」を音声としてクライアント102(1)に提供して、希望商品の購入を起動する。
動作モジュール114(s)は、変換されたコマンドをテキスト306として受け取り、購入動作を起動する。動作の結果310が得られる。例えば、この例における結果は、取引の完了、受領証、情報を購入するためのプロンプト等である。動作モジュールは、図1のサービス106(s)またはサービス106(s)の任意の1つまたは複数によって行うことが可能な購入のシーケンスを起動してよいことに留意されたい。したがって、サービス106(s)は、1つの動作全体を扱うように、または、リモートで(例えば、特定のサービス106(s)内ではない)行うことが可能な動作を起動し、結果を得るように構成されてよい。無論、音声112に応答して、上記で説明した各種の動作が行われてよい。
動作モジュールは、結果を含む、クライアントに通信される応答を生成する(ブロック312)。上記の例では、動作モジュール114(s)は、購入動作、例えば「商品2を買う」のコマンドの結果310を含む応答116(p)を形成する。結果310は、例えば、購入の確認である。その確認を含んだテキストのインスタントメッセージが形成され得る。確認を含んだインスタントメッセージは、クライアント102(1)とサービス106(s)間のインスタントメッセージセッションを介して通信され得る。したがって、ユーザ110は、音声の購入コマンドに対して、希望商品の購入を確認するテキストのインスタントメッセージ応答を受信する。種々の入力と応答の方式を持つ能力は、特定のクライアント機器で、または特定の時に、テキストまたはグラフィックの応答を読むことより、テキストまたはグラフィックの応答を形成することが難しい事例で望ましい場合がある。そのため、口頭で要求を入力し、異なるまたは複数の方式で(例えばテキスト、グラフィック、音声等)応答を受信する能力は、特定の事例で特定のユーザにとって有利である場合がある。
別の例で、動作モジュールは、音響の応答を形成することができる。例えば、購入の確認を伴うテキストのインスタントメッセージはが、変換モジュール118(s)を介して、テキストから音声に変換され得る。変換された確認は、例えば、音声インスタントメッセージセッションを介してリアルタイムで通信されることができ、ユーザ110には音響の購入確認が提供される。変換された応答は、合成音声、録音された音声等である。この音響応答は、別の応答に加えて、または別の応答の代わりに提供され得る。先に述べたように、「出先」や運転中など、特定の時には、ユーザにとって音響の応答の方が便利または安全である場合がある。
別の例で、購入の確認を伴うテキストのインスタントメッセージ等のグラフィック応答が、単純な音響応答と共に提供され得る。例えば、「完了しました」、「成功しました」、「結果を送信しました」、「再度試して下さい」等の短い音響応答が提供され得る。変換モジュール118(s)は、この短い音響応答を形成するように構成され得る。この例では、ユーザ110には、希望した購入の音響の確認とテキストの確認の両方が提供される。応答方式の各種の他の組合せも企図され、それらの応答方式には、電子メール、インスタントメッセージ、画像、映像、音声、ファイル、HTML文書等の1つまたは複数が含まれうる。
図4は、音声を使用してサービスにおいて検索を起動する例示的手順400を示す。音声として受け取られた検索語がサービスに通信されてウェブ検索を起動する(ブロック402)。例えば、図2に示すユーザ110が、携帯電話として構成されたクライアント機器102(n)を介して検索を起動することができる。そのため、通信モジュール108(n)は、ネットワーク104を介してワイヤレスの音声サービスを提供するように構成され、したがって、クライアント102(n)は、1つまたは複数のサービス106(s)に音声データを通信することができる。この例では、携帯電話として構成されたクライアント機器102(n)のユーザ110は、イリノイ州シカゴを旅行しており、イタリア料理を食べたいと思っている。ユーザ110は、携帯電話を使用して、例えば検索サービスを提供するように構成された図2のサービス106(s)に通話することができる。ユーザ110は、番号をダイヤルする、連絡先のリストからサービス106(s)を選択する、その他(例えば音声で始動されるダイヤル)等によりサービスと対話を起動する。
このように、サービス106(s)とクライアント機器102(n)の間でワイヤレスの音声通話が起動される。ユーザ110は、クライアント機器102(n)(携帯電話)に音声112を提供して検索を起動する。音声112は、「イタリア料理店、シカゴ」等の検索語を含むことができる。クライアント機器102(n)は、検索語(例えば音声112)をサービス106(s)に通信する。音声112は、テキストに変換され得る。次いで、サービス106(s)は、テキストの語を検索エンジン216に提供してウェブ検索を起動する。
サービスから、ウェブ検索の結果を含む応答が受信される(ブロック404)。最後の例では、例えば、サービス106(s)は、話された語「イタリア料理店、シカゴ」によって起動されたウェブ検索の結果としてイタリア料理店のリストを得ることができる。サービス106(s)、より詳細には応答モジュール218は、イタリア料理店のリストを含む応答116(p)を形成する。応答は、料理店を列挙した電子メールなどの単純なリストであってよい。応答は、料理店のリスト、シカゴの地図、および、地図上でリストの料理店がある場所の表示を含むHTML文書等、テキストとグラフィック(例えばグラフィックの応答)の組合せを有してもよい。クライアント102(2)は、サービス106(s)から応答を受信し、その後応答はユーザ110によって使用され得る。テキスト、グラフィック、音声等を組み合わせた各種の他の応答116(p)も企図される。
一実装では、サービス106(s)は、検索または検索結果を各種方式で絞り込むように構成され得る。1つ前の例におけるサービス106(s)は、サービス106(s)によって判定されたクライアント102(n)の場所を使用して検索を自動的に絞り込むことができる。例えば、サービス106(s)は、ワイヤレスの音声通話がシカゴで発信されたこと、またはクライアント機器102(n)が現在シカゴにあることを判定する。この例では、検索を起動させる音声112は、簡略化されてよい。ユーザ110は、「イタリア料理店、シカゴ」と言うのではなく、「イタリア料理店」と言ってよい。検索は、サービス106(s)によって判定されたクライアントの場所に基づいて自動的に絞り込まれる。したがって、クライアント機器102(n)に音声として入力された検索語「イタリア料理店」に応答して、ユーザは、現在いる場所、この例ではシカゴにあるイタリア料理店、またはその近辺のイタリア料理店についての検索結果を受信することができる。
図5は、音声で起動された動作の結果を含む応答が形成される例示的手順500を示す。クライアントで音声として受け取られた音声データで指定される動作が行われる(ブロック502)。ここで、図1に示すユーザ110が、図1に示す携帯情報端末(PDA)102(3)等のハンドヘルドコンピューティング機器を使用してファイルを転送したいとする。ファイルは、プレゼンテーション、テキスト文書、音声の録音等の任意のコンピュータ可読ファイルでよい。この場合、ユーザは、ファイル「file.txt」を1人または複数の同僚と共有したい。ファイルは、物理的にPDA102(3)に置かれているか、リモートのストレージにあってネットワーク104、ピアツーピアネットワーク等を介してユーザ110からアクセスすることができる。この例では、ユーザ110は、音声を使用してPDA102(3)から、または遠隔の場所から、1人または複数の同僚がアクセス可能なネットワークストレージ等の別の場所へのファイルの転送を起動することができる。ユーザ110は、PDA102(3)を使用して、ネットワーク104を通じて音声112をサービス106(s)に通信する。例えば、ユーザ110は、「file.txt、転送」等のコマンドあるいはフレーズを話し、それが音声112としてPDAに受信される。音声112で指定される動作は、サービス106(s)に通信される。一実装では、音声112は、音声データとして通信される。音声112は、動作モジュール114(s)に理解可能な命令に変換されることができ、動作モジュール114(s)は次いで、指定された動作を行うことができる。例えば、変換モジュール118(s)が音声112を音声からテキストの命令に変換することができる。あるいは、PDA102(3)等のクライアント102が、サービス106(s)に通信するために音声データをテキストに変換するように構成されてもよい。PDA102(3)に含まれる変換モジュール118(n)が、音声112の音声からテキストへの変換を行い、次いでテキストの命令がサービス106(s)に送信される。
サービス106(s)は、音声112によって指定された動作を行う。例えば、動作モジュール114(s)が実行されて、PDA102(3)とネットワークストレージの場所との間でファイル「file.txt」を転送することができる。このようにして、ユーザ110は、ファイルを、他の者(例えば、1人または複数の同僚)がそのファイルにアクセスできる場所に移動することができる。無論、ファイルは、例えばサービス102(s)または他のネットワークストレージからPDA102(3)へ等、別の方向に転送されてもよい。
クライアントに通信するために、動作の結果を含む応答が形成される(ブロック504)。上記の例では、結果は、ファイルの転送が成功したかどうかを示すことができる。例えば、「完了しました」と言う音響応答116(p)が形成され得る。応答116(p)は、転送場所にあるファイルの一覧を提供するテキストメッセージ、HTMLメッセージ等でもよい。転送を確認するインスタントメッセージを、「成功しました」等の音響応答と併せる等、応答116(p)の組合せも形成することができる。変換モジュール118(s)が実行されて、リアルタイムの音声応答をPDA102(3)に提供することができる。
無論、この手順を使用して、ファイルの取り出し、メッセージの送信、アカウントへのアクセス、商品の購入、1人または複数の受信者へのファイルの電子メール送信、リモートのコンピューティング機器での実行可能命令の起動等の各種の他の動作を行うことが可能である。
図6は、PoC(push−to−talk over cellular)を使用して音声起動動作を行う例示的手順600を示す。PoC(push−to−talk over cellular)セッションが確立される(ブロック602)。例えば、図2に示すクライアント機器102(n)がPoC対応の携帯電話として構成されることができる。携帯電話クライアント102(n)は、PoCの連絡先リストを保持することができる。1つまたは複数のサービス106(s)がPoC連絡先であってよい。ユーザ110は、サービス106(s)のコンテンツを所望しているとする。サービス106(s)は、音声、映像、ウェブページ等の各種のコンテンツをネットワーク104を介して提供するように構成することができる。この場合、ユーザ110は、サービス106(s)の音声コンテンツを求めている。ユーザは、PoC連絡先を選択し、PoCセッションを起動する。例えば、ユーザは、連絡先の中からサービス106(s)を選択し、PoCボタンを押してセッションを起動することができる。携帯電話のクライアント102(n)とサービス106(s)の間にPoCセッションが確立される。サービス106(s)は、PoCセッションを介して携帯電話クライアント102(n)からの音声を即座に「聞く」ことができる。
PoCセッションを介してクライアントから音声データが受信される(ブロック604)。例えば、図2のユーザ110が携帯電話のクライアント102(n)に音声112を提供し、その音声がPoCセッションを介して瞬時に(またはほぼ瞬時に)サービス106(s)で聞かれる。音声112は、所望の音声コンテンツに対する要求であってよい。例えば、ユーザの音声112は、歌の題名、アーティスト、再生リスト、場所等を含むことができる。
音声データがテキストに変換される(ブロック606)。先の例を続けると、所望の音声コンテンツの要求は、サービス106(s)、詳細には、所望の動作を起動しようとする動作モジュール114(a)には即座に理解できない場合がある。そのため、要求は音声からテキスト、例えば動作モジュール114(a)が理解可能な命令に変換され得る。図2に示すように、変換モジュール118(a)がサービス106(s)のプロセッサ204(a)で実行されて、受信された音声112をテキストに変換することができる。この例では、音声112で指定された音声コンテンツの取り出しを起動する命令を提供するテキストが生成され得る。
そのテキストを使用して動作が行われる(ブロック608)。例えば、変換モジュール118(a)によって生成されたテキスト(例えば、命令)が動作モジュール114(a)に提供され、動作モジュール114(a)はそのテキストを使用して動作、この例では音声コンテンツの取り出しを行う。所望の音声コンテンツは、サーバ202(a)から、またはサービス106(s)の複数のサーバ202の1つから、またはネットワーク104を介してアクセス可能な別のサービス106あるいはリモートの場所を含む各種の場所から取り出されることができる。
クライアントに通信するために、動作の結果を含む応答が形成される(ブロック610)。例えば、選択された音声コンテンツへのハイパーリンクを提供するHTML文書として構成された応答116(p)が形成され得る。応答116(p)を受信すると、ユーザ110は、ハイパーリンクを使用してコンテンツにアクセスすることができる。コンテンツは、ストリーミングまたは非ストリーミングの方式で提供され得る。応答116(p)は、所望のコンテンツ自体を返すことを含んでもよい。例えば、応答116(p)は、携帯電話クライアント102(n)に音声ファイルを非ストリーミング方式で、単独で、またはインスタントメッセージや電子メール等のグラフィック応答と共に提供することができる。
一実装では、確立されたPoCセッションを使用して音響応答をクライアントに通信することができる。例えば、音響応答は、所望のコンテンツが入手可能または入手不可能であること、グラフィック応答が送信されたこと、コンテンツを入手できる場所等を知らせることができる。したがって、図2の応答モジュール218を使用して応答116(p)を形成することができる。応答は、変換モジュール118(a)を介してテキストから音声に変換され得る。変換の結果は、PoCセッションを介してリアルタイムで携帯電話クライアント102(n)に送信され得る。別の実装では、所望の音声コンテンツは、当該PoCセッションまたは別のPoCセッションを介してクライアントにストリーミングされ得る。PoCを介した音響応答は、他の応答方式に追加するものでも、他の応答方式の代わりであってもよい。例えば、先に述べたように、インスタントメッセージ、HTML、テキスト、電子メール、および音響応答が各種の組合せで形成されてよい。
図7は、音声起動検索の結果を利用して追加的な音声起動動作を行う手順700を示す。クライアントで音声として入力された語を使用して検索が行われる(ブロック702)。例えば、ユーザ110は、飛行便の予約をしたいと思っている。ユーザ110は、図1に示すクライアント機器102(n)の1つを使用して、ネットワーク104を介して予約を提供するように構成されたサービス106(s)と通信することができる。ユーザ110は、音声112を提供して利用可能な飛行便の検索を起動する。例えば、ユーザが4月1日のオレゴン州ポートランドとイリノイ州シカゴ間の飛行便を見つけたい場合、ユーザ110は、「飛行便、PDXからORD、4月1日」等の検索語を伴う音声112を提供することができる。検索エンジン216がサービス106(s)で実行されて、音声112で指定された検索を行うことができる。検索エンジン216には、変換モジュール118(a)による音声112の変換から生成されたテキストの検索語が提供され得る。図では変換モジュール118(a)は検索エンジン216と同じサーバにあるが、変換は、別のサーバ202や、クライアント102の変換モジュール118等で行われてもよい。
検索の結果がクライアントに通信される(ブロック704)。上記の飛行便検索の例に対して、ユーザ110は、4月1日のオレゴン州ポートランドとイリノイ州シカゴ間の5便のリストを含んだ応答116(p)を受信することができる。この応答は、HTML文書、インスタントメッセージ、電子メール等、上記の各種方式のいずれでフォーマットされてもよい。
検索結果に関連し、クライアントに音声として入力される命令に基づいて、追加的な動作が行われる(ブロック706)。先の例のユーザ110は、例えば5つの可能な飛行便を含んだ検索の結果を受信し、閲覧する。そして、ユーザ110は、それら飛行便のうち1つを予約したいとする。したがって、ユーザは、検索結果に関連する追加的な音声112を提供することができる。例えば、追加的なユーザの音声112は、検索結果に列挙された飛行便の1つに対応する「99便を予約」と指示することができる。一実装では、検索結果を使用してさらなる動作を起動する方法をユーザに指示してもよい。例えば、検索結果の項目1は、「この便を予約するには『1を予約』と言って下さい」と指示することができる。追加的な音声112で指定された動作がサービス102(s)に通信される。サービスは、検索を行ったサービス102(s)と同じサービスであっても、異なるサービス102であってもよい。そして、サービスは、先に提供された検索結果に関連する追加的な動作を行う。
このように、音声で起動された検索の結果が活用されて、音声で起動される追加的な動作を行うことができる。無論、音声で起動された検索結果の活用を用いて、ファイル転送、ファイルの取り出し、取引の購入、旅行の予約、ホテルおよび飲食店の予約等の様々な動作を行うことができる。追加的な動作は、さらなる検索であっても、検索結果の絞り込みであってもよい。
結論
本発明について、構造的特徴および/または方法論的動作に固有の術語で説明したが、添付の特許請求の範囲に定義される本発明は、ここに記載される具体的な特徴または動作に必ずしも限定されないことを理解されたい。それら具体的な特徴および動作は、特許請求される本発明を実施する例示的形態として開示される。
本発明について、構造的特徴および/または方法論的動作に固有の術語で説明したが、添付の特許請求の範囲に定義される本発明は、ここに記載される具体的な特徴または動作に必ずしも限定されないことを理解されたい。それら具体的な特徴および動作は、特許請求される本発明を実施する例示的形態として開示される。
Claims (20)
- ネットワークを介して受信された音声コマンドを変換することと、
前記変換されたコマンドを行って、視覚的応答を形成することと、
前記ネットワークを介して前記音声コマンドの送信者に通信する、前記視覚的応答を含む通信を形成することと
を備えることを特徴とする方法。 - 前記視覚的応答は電子メールであることを特徴とする請求項1に記載の方法。
- 前記視覚的応答は、ハイパーテキストマークアップ言語(HTML)文書であることを特徴とする請求項1に記載の方法。
- 前記視覚的応答は、インスタントメッセージであることを特徴とする請求項1に記載の方法。
- 前記音声コマンドは、PoC(push−to−talk over cellular)セッションを介して受信されることを特徴とする請求項1に記載の方法。
- 前記音声コマンドは、ハンドヘルド型のクライアント機器から受信されることを特徴とする請求項1に記載の方法。
- 前記音声コマンドは、音声インスタントメッセージセッションを介して受信されることを特徴とする請求項1に記載の方法。
- 前記音声コマンドは行われるべき少なくとも1つの動作を、
検索、
金融取引、
購入取引、
ファイルの転送、
予約、および
ダウンロード
からなるグループから選択して指定することを特徴とする請求項1に記載の方法。 - クライアントが音声として受信した音声データによって、指定された検索を行うことと、
前記音声データの発生元である前記クライアントにネットワークを通じて通信する、検索結果を含む応答を形成することと
を備えることを特徴とする方法。 - 前記音声データをテキストの検索語に変換することをさらに備えることを特徴とする請求項9に記載の方法。
- 前記変換された音声データは、前記検索を行うモジュールによって理解することができ、前記音声データは、前記モジュールによって理解できないことを特徴とする請求項9に記載の方法。
- 前記応答は、
電子メール、
テキスト、
HTML文書、
インスタントメッセージ、
画像、および
音響
からなるグループから選択される1つまたは複数の項目を含むことを特徴とする請求項9に記載の方法。 - 前記検索結果は、前記クライアントの場所に基づいて自動的に絞り込まれることを特徴とする請求項9に記載の方法。
- 前記検索結果をテキストから音響の応答に変換することをさらに備えることを特徴とする請求項9に記載の方法。
- 前記応答は、リアルタイムの音響の応答であることを特徴とする請求項9に記載の方法。
- 前記検索結果に関連した、前記クライアントに音声として入力される追加的な音声データに基づいて動作を行うことをさらに備えることを特徴とする請求項9に記載の方法。
- モバイル機器を介して入力された音声データを、インターネットの検索エンジンに入力するためのテキストの検索文字列に変換するように、コンピュータで実行されると前記コンピュータに指示するコンピュータ実行可能命令を備えることを特徴とする1つまたは複数のコンピュータ可読媒体。
- 前記音声データは、PoC(push−to−talk over cellular)セッションを介して前記インターネットの検索エンジンに通信されることを特徴とする請求項17に記載の1つまたは複数の媒体。
- 前記音声データの送信者に検索結果を提供する命令をさらに備えることを特徴とする請求項17に記載の1つまたは複数の媒体。
- 前記送信者に提供される前記検索結果は、非音響であることを特徴とする請求項18に記載の1つまたは複数の媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/275,324 US7996228B2 (en) | 2005-12-22 | 2005-12-22 | Voice initiated network operations |
PCT/US2006/044920 WO2007075238A1 (en) | 2005-12-22 | 2006-11-17 | Voice initiated network operations |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009521745A true JP2009521745A (ja) | 2009-06-04 |
Family
ID=38195040
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008547239A Pending JP2009521745A (ja) | 2005-12-22 | 2006-11-17 | 音声で起動されるネットワーク動作 |
Country Status (6)
Country | Link |
---|---|
US (1) | US7996228B2 (ja) |
EP (1) | EP1963991A4 (ja) |
JP (1) | JP2009521745A (ja) |
KR (1) | KR20080086465A (ja) |
CN (1) | CN101341482A (ja) |
WO (1) | WO2007075238A1 (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012215673A (ja) * | 2011-03-31 | 2012-11-08 | Toshiba Corp | 音声処理装置、及び音声処理方法 |
JP2015106203A (ja) * | 2013-11-28 | 2015-06-08 | Necパーソナルコンピュータ株式会社 | 情報処理装置、情報処理方法、及びプログラム |
JP2016517253A (ja) * | 2014-04-02 | 2016-06-09 | シャオミ・インコーポレイテッド | 音声通話方法、音声再生方法、装置、プログラム、及び記録媒体 |
JP2018517917A (ja) * | 2015-03-13 | 2018-07-05 | アリババ グループ ホウルディング リミテッド | 通信ソフトウェアにおいて音声により業務を起動する方法及びこれに対応する装置 |
JP2019505023A (ja) * | 2016-12-30 | 2019-02-21 | グーグル エルエルシー | 音声起動されたデータ・パケットのデータ構造プーリング |
JP2019523918A (ja) * | 2016-05-10 | 2019-08-29 | グーグル エルエルシー | デバイス上の音声アシスタントの実装 |
US11017428B2 (en) | 2008-02-21 | 2021-05-25 | Google Llc | System and method of data transmission rate adjustment |
US11860933B2 (en) | 2016-05-13 | 2024-01-02 | Google Llc | Personalized and contextualized audio briefing |
Families Citing this family (244)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
ITFI20010199A1 (it) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
EP1781053B1 (en) * | 2005-10-28 | 2012-05-02 | TELEFONAKTIEBOLAGET LM ERICSSON (publ) | Methods and apparatus for push to talk type service |
US8200268B2 (en) * | 2006-06-27 | 2012-06-12 | Alcatel Lucent | Home intercom / push-to-talk interface |
US11481834B2 (en) | 2006-07-07 | 2022-10-25 | Joseph R. Dollens | Method and system for managing and displaying product images with progressive resolution display with artificial realities |
US11049175B2 (en) * | 2006-07-07 | 2021-06-29 | Joseph R. Dollens | Method and system for managing and displaying product images with progressive resolution display with audio commands and responses |
US20080031475A1 (en) * | 2006-07-08 | 2008-02-07 | Personics Holdings Inc. | Personal audio assistant device and method |
US11450331B2 (en) | 2006-07-08 | 2022-09-20 | Staton Techiya, Llc | Personal audio assistant device and method |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
WO2008085201A2 (en) | 2006-12-29 | 2008-07-17 | Prodea Systems, Inc. | Managed file backup and restore at remote storage locations through multi-services gateway device at user premises |
US9569587B2 (en) | 2006-12-29 | 2017-02-14 | Kip Prod Pi Lp | Multi-services application gateway and system employing the same |
US20170344703A1 (en) | 2006-12-29 | 2017-11-30 | Kip Prod P1 Lp | Multi-services application gateway and system employing the same |
US11783925B2 (en) | 2006-12-29 | 2023-10-10 | Kip Prod P1 Lp | Multi-services application gateway and system employing the same |
US11316688B2 (en) | 2006-12-29 | 2022-04-26 | Kip Prod P1 Lp | Multi-services application gateway and system employing the same |
US9602880B2 (en) | 2006-12-29 | 2017-03-21 | Kip Prod P1 Lp | Display inserts, overlays, and graphical user interfaces for multimedia systems |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US7805131B2 (en) * | 2007-05-03 | 2010-09-28 | Sonus Networks, Inc. | Personal service integration on a network |
US8630840B1 (en) * | 2007-09-11 | 2014-01-14 | United Services Automobile Association (Usaa) | Systems and methods for communication with foreign language speakers |
US9053089B2 (en) | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
US8700008B2 (en) | 2008-06-27 | 2014-04-15 | Microsoft Corporation | Providing data service options in push-to-talk using voice recognition |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8768702B2 (en) | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US8898568B2 (en) | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
KR101829865B1 (ko) | 2008-11-10 | 2018-02-20 | 구글 엘엘씨 | 멀티센서 음성 검출 |
US9959870B2 (en) | 2008-12-11 | 2018-05-01 | Apple Inc. | Speech recognition involving a mobile device |
US8862252B2 (en) | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
US8554831B2 (en) * | 2009-06-02 | 2013-10-08 | Ford Global Technologies, Llc | System and method for executing hands-free operation of an electronic calendar application within a vehicle |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10540976B2 (en) | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8788267B2 (en) * | 2009-09-10 | 2014-07-22 | Mitsubishi Electric Research Laboratories, Inc. | Multi-purpose contextual control |
US8682649B2 (en) | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
WO2011089450A2 (en) | 2010-01-25 | 2011-07-28 | Andrew Peter Nelson Jerram | Apparatuses, methods and systems for a digital conversation management platform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US20120310642A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Automatically creating a mapping between text data and audio data |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
US8515766B1 (en) | 2011-09-30 | 2013-08-20 | Google Inc. | Voice application finding and user invoking applications related to a single entity |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US10255914B2 (en) | 2012-03-30 | 2019-04-09 | Michael Boukadakis | Digital concierge and method |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US20130311276A1 (en) * | 2012-05-18 | 2013-11-21 | Stan Wei Wong, JR. | Methods for voice activated advertisement compression and devices thereof |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
WO2013185109A2 (en) | 2012-06-08 | 2013-12-12 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
DE102013001219B4 (de) * | 2013-01-25 | 2019-08-29 | Inodyn Newmedia Gmbh | Verfahren und System zur Sprachaktivierung eines Software-Agenten aus einem Standby-Modus |
KR20150104615A (ko) | 2013-02-07 | 2015-09-15 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
CN110096712B (zh) | 2013-03-15 | 2023-06-20 | 苹果公司 | 通过智能数字助理的用户培训 |
CN105144133B (zh) | 2013-03-15 | 2020-11-20 | 苹果公司 | 对中断进行上下文相关处理 |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
CN105027197B (zh) | 2013-03-15 | 2018-12-14 | 苹果公司 | 训练至少部分语音命令系统 |
US9197336B2 (en) | 2013-05-08 | 2015-11-24 | Myine Electronics, Inc. | System and method for providing customized audio content to a vehicle radio system using a smartphone |
US9430465B2 (en) * | 2013-05-13 | 2016-08-30 | Facebook, Inc. | Hybrid, offline/online speech translation system |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US20140362024A1 (en) * | 2013-06-07 | 2014-12-11 | Barnesandnoble.Com Llc | Activating voice command functionality from a stylus |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
EP3008641A1 (en) | 2013-06-09 | 2016-04-20 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
AU2014278595B2 (en) | 2013-06-13 | 2017-04-06 | Apple Inc. | System and method for emergency calls initiated by voice command |
CN105453026A (zh) | 2013-08-06 | 2016-03-30 | 苹果公司 | 基于来自远程设备的活动自动激活智能响应 |
US10229450B2 (en) * | 2013-10-02 | 2019-03-12 | Paypal, Inc. | Generating sale transactions from voice data input by a user |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
RU2580431C2 (ru) | 2014-03-27 | 2016-04-10 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и сервер для обработки поискового запроса и машиночитаемый носитель |
CN103929540A (zh) * | 2014-04-25 | 2014-07-16 | 浙江翼信科技有限公司 | 一种消息操作方法及装置 |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9606986B2 (en) | 2014-09-29 | 2017-03-28 | Apple Inc. | Integrated word N-gram and class M-gram language models |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
CN105683963A (zh) * | 2016-01-07 | 2016-06-15 | 马岩 | 网络链接的搜索方法及系统 |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10600418B2 (en) * | 2016-12-07 | 2020-03-24 | Google Llc | Voice to text conversion based on third-party agent content |
WO2018117565A1 (en) * | 2016-12-19 | 2018-06-28 | Samsung Electronics Co., Ltd. | Methods and apparatus for managing control data |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US10051442B2 (en) | 2016-12-27 | 2018-08-14 | Motorola Solutions, Inc. | System and method for determining timing of response in a group communication using artificial intelligence |
US11593668B2 (en) | 2016-12-27 | 2023-02-28 | Motorola Solutions, Inc. | System and method for varying verbosity of response in a group communication using artificial intelligence |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
US10496705B1 (en) | 2018-06-03 | 2019-12-03 | Apple Inc. | Accelerated task performance |
US10341824B1 (en) * | 2018-06-11 | 2019-07-02 | Motorola Solutions, Inc. | Method for real-time authorization within a push to talk for the internet of things system |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
DK201970510A1 (en) | 2019-05-31 | 2021-02-11 | Apple Inc | Voice identification in digital assistant systems |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
WO2021056255A1 (en) | 2019-09-25 | 2021-04-01 | Apple Inc. | Text detection using global geometry estimators |
US11043220B1 (en) | 2020-05-11 | 2021-06-22 | Apple Inc. | Digital assistant hardware abstraction |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002215670A (ja) * | 2001-01-15 | 2002-08-02 | Omron Corp | 音声応答装置、音声応答方法、音声応答プログラム、音声応答プログラムを記録した記録媒体および予約システム |
JP2003058565A (ja) * | 2001-08-15 | 2003-02-28 | Asahi Kasei Corp | 情報検索システム、情報検索サーバ、情報提供方法及びプログラム |
JP2003115929A (ja) * | 2001-10-02 | 2003-04-18 | Hitachi Ltd | 音声入力システムおよび音声ポータルサーバおよび音声入力端末 |
JP2004005600A (ja) * | 2002-04-25 | 2004-01-08 | Mitsubishi Electric Research Laboratories Inc | データベースに格納された文書をインデックス付け及び検索する方法及びシステム |
JP2004038252A (ja) * | 2002-06-28 | 2004-02-05 | Toshiba Solutions Corp | 情報提供支援システム及び情報提供支援方法 |
JP2004265217A (ja) * | 2003-03-03 | 2004-09-24 | Nec Corp | 音声認識機能を有する移動通信端末とその端末を利用したキーワード検索方法 |
JP2004297548A (ja) * | 2003-03-27 | 2004-10-21 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索配信方法およびシステム |
JP2005004782A (ja) * | 2004-07-02 | 2005-01-06 | Sony Corp | 情報処理システム、情報処理装置および情報処理方法、並びに携帯型情報端末装置 |
JP2005513649A (ja) * | 2001-12-20 | 2005-05-12 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 音声対応消費者トランザクションシステム |
JP2005210157A (ja) * | 2004-01-20 | 2005-08-04 | Nec Corp | 情報配信システム、その方法、サーバ、端末装置およびプログラム |
JP2005275925A (ja) * | 2004-03-25 | 2005-10-06 | Railway Technical Res Inst | サーバシステム |
JP2005278109A (ja) * | 2004-03-26 | 2005-10-06 | Nec Corp | 会話サーバ |
JP2005352776A (ja) * | 2004-06-10 | 2005-12-22 | Nippon Telegr & Teleph Corp <Ntt> | 会話情報適応型情報サービス提供方法および会話情報適応型情報サービス提供システム、ならびにそのための装置とプログラム |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5870454A (en) * | 1997-04-01 | 1999-02-09 | Telefonaktiebolaget L M Ericsson | Telecommunications speech/text conversion and message delivery system |
WO1999063425A1 (fr) | 1998-06-02 | 1999-12-09 | Sony Corporation | Procede et appareil de traitement d'informations et support de fourniture d'informations |
US6480819B1 (en) | 1999-02-25 | 2002-11-12 | Matsushita Electric Industrial Co., Ltd. | Automatic search of audio channels by matching viewer-spoken words against closed-caption/audio content for interactive television |
US6434527B1 (en) * | 1999-05-17 | 2002-08-13 | Microsoft Corporation | Signalling and controlling the status of an automatic speech recognition system for use in handsfree conversational dialogue |
US6339706B1 (en) | 1999-11-12 | 2002-01-15 | Telefonaktiebolaget L M Ericsson (Publ) | Wireless voice-activated remote control device |
US7047196B2 (en) * | 2000-06-08 | 2006-05-16 | Agiletv Corporation | System and method of voice recognition near a wireline node of a network supporting cable television and/or video delivery |
EP1299989A2 (en) * | 2000-07-07 | 2003-04-09 | Science Applications International Corporation | A system or method for calling a vanity number using speech recognition |
FI114358B (fi) * | 2002-05-29 | 2004-09-30 | Nokia Corp | Menetelmä digitaalisessa verkkojärjestelmässä päätelaitteen lähetyksen ohjaamiseksi |
US7548858B2 (en) * | 2003-03-05 | 2009-06-16 | Microsoft Corporation | System and method for selective audible rendering of data to a user based on user input |
US7107017B2 (en) * | 2003-05-07 | 2006-09-12 | Nokia Corporation | System and method for providing support services in push to talk communication platforms |
US7558736B2 (en) * | 2003-12-31 | 2009-07-07 | United States Cellular Corporation | System and method for providing talker arbitration in point-to-point/group communication |
US7197502B2 (en) * | 2004-02-18 | 2007-03-27 | Friendly Polynomials, Inc. | Machine-implemented activity management system using asynchronously shared activity data objects and journal data items |
US20060075429A1 (en) * | 2004-04-30 | 2006-04-06 | Vulcan Inc. | Voice control of television-related information |
US7155207B2 (en) * | 2004-09-09 | 2006-12-26 | Nextel Communications Inc. | System and method of analyzing communications between a calling party and a called party |
US20060136224A1 (en) * | 2004-12-22 | 2006-06-22 | Eaton William C | Communications devices including positional circuits and methods of operating the same |
US20060167676A1 (en) * | 2005-01-26 | 2006-07-27 | Research In Motion Limited | Method and apparatus for correction of spelling errors in text composition |
US20060182236A1 (en) * | 2005-02-17 | 2006-08-17 | Siemens Communications, Inc. | Speech conversion for text messaging |
US7949529B2 (en) * | 2005-08-29 | 2011-05-24 | Voicebox Technologies, Inc. | Mobile systems and methods of supporting natural language human-machine interactions |
US20080214151A1 (en) * | 2005-09-14 | 2008-09-04 | Jorey Ramer | Methods and systems for mobile coupon placement |
US20070112571A1 (en) * | 2005-11-11 | 2007-05-17 | Murugappan Thirugnana | Speech recognition at a mobile terminal |
US7991895B2 (en) * | 2005-12-09 | 2011-08-02 | Nokia Corporation | Limiting access to network functions based on personal characteristics of the user |
-
2005
- 2005-12-22 US US11/275,324 patent/US7996228B2/en active Active
-
2006
- 2006-11-17 EP EP06844440A patent/EP1963991A4/en not_active Ceased
- 2006-11-17 JP JP2008547239A patent/JP2009521745A/ja active Pending
- 2006-11-17 KR KR1020087015106A patent/KR20080086465A/ko not_active Application Discontinuation
- 2006-11-17 WO PCT/US2006/044920 patent/WO2007075238A1/en active Application Filing
- 2006-11-17 CN CNA2006800481274A patent/CN101341482A/zh active Pending
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002215670A (ja) * | 2001-01-15 | 2002-08-02 | Omron Corp | 音声応答装置、音声応答方法、音声応答プログラム、音声応答プログラムを記録した記録媒体および予約システム |
JP2003058565A (ja) * | 2001-08-15 | 2003-02-28 | Asahi Kasei Corp | 情報検索システム、情報検索サーバ、情報提供方法及びプログラム |
JP2003115929A (ja) * | 2001-10-02 | 2003-04-18 | Hitachi Ltd | 音声入力システムおよび音声ポータルサーバおよび音声入力端末 |
JP2005513649A (ja) * | 2001-12-20 | 2005-05-12 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 音声対応消費者トランザクションシステム |
JP2004005600A (ja) * | 2002-04-25 | 2004-01-08 | Mitsubishi Electric Research Laboratories Inc | データベースに格納された文書をインデックス付け及び検索する方法及びシステム |
JP2004038252A (ja) * | 2002-06-28 | 2004-02-05 | Toshiba Solutions Corp | 情報提供支援システム及び情報提供支援方法 |
JP2004265217A (ja) * | 2003-03-03 | 2004-09-24 | Nec Corp | 音声認識機能を有する移動通信端末とその端末を利用したキーワード検索方法 |
JP2004297548A (ja) * | 2003-03-27 | 2004-10-21 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索配信方法およびシステム |
JP2005210157A (ja) * | 2004-01-20 | 2005-08-04 | Nec Corp | 情報配信システム、その方法、サーバ、端末装置およびプログラム |
JP2005275925A (ja) * | 2004-03-25 | 2005-10-06 | Railway Technical Res Inst | サーバシステム |
JP2005278109A (ja) * | 2004-03-26 | 2005-10-06 | Nec Corp | 会話サーバ |
JP2005352776A (ja) * | 2004-06-10 | 2005-12-22 | Nippon Telegr & Teleph Corp <Ntt> | 会話情報適応型情報サービス提供方法および会話情報適応型情報サービス提供システム、ならびにそのための装置とプログラム |
JP2005004782A (ja) * | 2004-07-02 | 2005-01-06 | Sony Corp | 情報処理システム、情報処理装置および情報処理方法、並びに携帯型情報端末装置 |
Non-Patent Citations (2)
Title |
---|
CSNB200700409001; 薮崎 正実 他: 移動通信ネットワーク技術 第1版, 20050601, pp.142-143., 社団法人電子情報通信学会 他 * |
JPN6012062240; 薮崎 正実 他: 移動通信ネットワーク技術 第1版, 20050601, pp.142-143., 社団法人電子情報通信学会 他 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11017428B2 (en) | 2008-02-21 | 2021-05-25 | Google Llc | System and method of data transmission rate adjustment |
JP2012215673A (ja) * | 2011-03-31 | 2012-11-08 | Toshiba Corp | 音声処理装置、及び音声処理方法 |
JP2015106203A (ja) * | 2013-11-28 | 2015-06-08 | Necパーソナルコンピュータ株式会社 | 情報処理装置、情報処理方法、及びプログラム |
US10057424B2 (en) | 2014-04-02 | 2018-08-21 | Xiaomi Inc. | Method for voice calling, method for voice playing and devices thereof |
JP2016517253A (ja) * | 2014-04-02 | 2016-06-09 | シャオミ・インコーポレイテッド | 音声通話方法、音声再生方法、装置、プログラム、及び記録媒体 |
JP2018517917A (ja) * | 2015-03-13 | 2018-07-05 | アリババ グループ ホウルディング リミテッド | 通信ソフトウェアにおいて音声により業務を起動する方法及びこれに対応する装置 |
JP2019523918A (ja) * | 2016-05-10 | 2019-08-29 | グーグル エルエルシー | デバイス上の音声アシスタントの実装 |
US11341964B2 (en) | 2016-05-10 | 2022-05-24 | Google Llc | Voice-controlled media play in smart media environment |
US11355116B2 (en) | 2016-05-10 | 2022-06-07 | Google Llc | Implementations for voice assistant on devices |
US11922941B2 (en) | 2016-05-10 | 2024-03-05 | Google Llc | Implementations for voice assistant on devices |
US11935535B2 (en) | 2016-05-10 | 2024-03-19 | Google Llc | Implementations for voice assistant on devices |
US11990126B2 (en) | 2016-05-10 | 2024-05-21 | Google Llc | Voice-controlled media play in smart media environment |
US11860933B2 (en) | 2016-05-13 | 2024-01-02 | Google Llc | Personalized and contextualized audio briefing |
JP2019505023A (ja) * | 2016-12-30 | 2019-02-21 | グーグル エルエルシー | 音声起動されたデータ・パケットのデータ構造プーリング |
US10719515B2 (en) | 2016-12-30 | 2020-07-21 | Google Llc | Data structure pooling of voice activated data packets |
US11625402B2 (en) | 2016-12-30 | 2023-04-11 | Google Llc | Data structure pooling of voice activated data packets |
Also Published As
Publication number | Publication date |
---|---|
US20070150286A1 (en) | 2007-06-28 |
EP1963991A4 (en) | 2010-05-05 |
WO2007075238A1 (en) | 2007-07-05 |
US7996228B2 (en) | 2011-08-09 |
CN101341482A (zh) | 2009-01-07 |
KR20080086465A (ko) | 2008-09-25 |
EP1963991A1 (en) | 2008-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2009521745A (ja) | 音声で起動されるネットワーク動作 | |
US11232162B1 (en) | In-conversation search | |
US11216522B2 (en) | State-dependent query response | |
US10182028B1 (en) | Method and system for storing real-time communications in an email inbox | |
US9105262B2 (en) | Audio output of a document from mobile device | |
CN102427493B (zh) | 用应用扩充通信会话 | |
CN110574004B (zh) | 经由可选的图形元素初始化与自动代理的交谈 | |
JP5394738B2 (ja) | 音声制御型ワイヤレス通信デバイス・システム | |
US20050266884A1 (en) | Methods and systems for conducting remote communications | |
US20120259633A1 (en) | Audio-interactive message exchange | |
JP2012503364A (ja) | 無線機器に対する既定の応答方法及び装置 | |
US20110091022A1 (en) | Method and apparatus for unified interface for heterogeneous session management | |
Lazzari | Spoken translation: challenges and opportunities | |
JP4354354B2 (ja) | データ処理のシステム及び方法 | |
KR20090044362A (ko) | 사용자 커뮤니케이션을 위한 메시징 서비스 제공 방법 및그 시스템 | |
US20140279239A1 (en) | Computer Implemented Search System | |
JP2002252708A (ja) | 通話仲介システム、通話仲介方法、及びプログラム | |
WO2006112825A2 (en) | Methods and systems for conducting remote communications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20091019 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120502 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120802 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20121130 |