JP2009521745A - 音声で起動されるネットワーク動作 - Google Patents

音声で起動されるネットワーク動作 Download PDF

Info

Publication number
JP2009521745A
JP2009521745A JP2008547239A JP2008547239A JP2009521745A JP 2009521745 A JP2009521745 A JP 2009521745A JP 2008547239 A JP2008547239 A JP 2008547239A JP 2008547239 A JP2008547239 A JP 2008547239A JP 2009521745 A JP2009521745 A JP 2009521745A
Authority
JP
Japan
Prior art keywords
voice
client
response
search
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008547239A
Other languages
English (en)
Inventor
ミラー クェンティン
ジェイ.オストルント ジョン
ラーマクリシュナ アナンド
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2009521745A publication Critical patent/JP2009521745A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4938Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals comprising a voice browser which renders and interprets, e.g. VoiceXML
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/40Support for services or applications
    • H04L65/4061Push-to services, e.g. push-to-talk or push-to-video
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/10Architectures or entities
    • H04L65/1016IP multimedia subsystem [IMS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/60Medium conversion

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Information Transfer Between Computers (AREA)
  • Telephonic Communication Services (AREA)

Abstract

音声で起動されるネットワーク動作の実施形態が本明細書に提示される。

Description

本発明は、音声により起動されるネットワークオペレーションに関する。
ラップトップコンピュータ、ワイヤレス電話機、携帯情報端末、ワイヤレス機器、ゲームシステム、オーディオプレーヤ等の携帯型の電子機器が普及してきている。ユーザは、そうした機器の1つまたは複数を、電子メール、インスタントメッセージ等の使用を通じて互いと通信する等の各種の活動に使用することができる。さらに、ユーザは、そうした機器の1つまたは複数を、ネットワークを介して各種のコンテンツにアクセスするために使用することができる。しかし、携帯型電子機器が小型であることが、ユーザの活動の妨げとなる場合がある。
例えば、小型の携帯型電子機器は、テキストの入力にはあまり適さない。また、運転中や移動中など、「活動中」に携帯型電子機器に情報を入力するのは困難、安全でない、かつ/または不便である場合もある。
他の入力機構が望ましくない、不便、あるいは不可能である時等に、ユーザが動作を行うのを助けるために利用することができる、音声による動作の起動が記載される。ユーザがクライアント機器に音声を提供する。音声はテキストに変換される。そのテキストが使用されて動作を行い、結果を得る。応答が形成されて動作の結果をクライアント機器に伝える。応答は、テキスト部分と非テキスト部分(例えばグラフィック、音声等)を組み込む等、各種の形でフォーマットされることができる。例えば、検索エンジンによって行われる検索動作がユーザの音声で起動されることができる。検索の結果がユーザに提供される。そして、ユーザは、その検索結果を使用してさらなる音声でさらなる動作を起動することができる。
この概要は、下記の詳細な説明でさらに説明される概念のうち選択されたものを簡略化した形で紹介するために提供される。この概要は、特許権が請求される主題の主要な特徴または必須の特徴を明らかにするものでも、クレームに記載される主題の範囲を定める助けとして使用されるべきものでもない。
説明中の事例では、同様の構造および構成要素は、同じ参照符号を利用して参照する。
概要
状況によっては、コンピューティング機器、ハンドヘルドまたはモバイル機器への手動の入力(例えば手での入力)が、不便、安全でない、あるいは不可能な場合がある。各種の実装で、口頭のコマンドまたは単語等の音声を介して動作を起動するために利用することが可能な技術が記載される。
例えばユーザが、携帯電話、コンピューティング機器、携帯情報端末(PDA)等のクライアント機器に音声を提供することができる。次いでその音声がテキストに変換される。次いで、変換されたテキストがサービスによって使用されて、変換されたテキストに基づいて1つまたは複数の動作を行うことができる。各種の動作が企図される。
例えば、変換されたテキストが、検索を行うためにインターネットの検索エンジンに提供される検索語として使用されることができる。動作の結果が得られる。その結果を含む応答が形成され、その応答が次いでユーザのためにクライアント機器に提供される。応答は、電子メール、HTML(ハイパーテキストマークアップ言語)、インスタントメッセージ、音響等、各種の形で提供され得る。例えば、最も近くにある飲食店を尋ねる口頭の要求に応答して、地図と飲食店のリストを伴うHTML文書をユーザに提供することができる。一実装では、クライアント機器の場所によって自動的に動作を絞り込むことができる。したがって、飲食店の検索は、クライアント機器の場所に基づいて最も近い5軒の飲食店を自動的に返すことができる。
以下の説明では、音声起動動作を提供する技術を用いるように動作可能な例示的環境を初めに説明する。次いで、その例示的環境ならびに他の環境で音声起動動作の技術を提供するように動作可能な例示的な手順とユーザインターフェースを説明する。
例示的環境
図1は、音声起動動作技術を用いるように動作可能な例示的実装の環境100の図である。環境100は、ネットワーク104に通信可能に結合された複数のクライアント102(1)、102(2)、102(3)、...、102(N)を含むものと図示される。以下の説明における複数のクライアント102(1)〜102(N)は、クライアント102(n)(「n」は1〜「N」の任意の整数)とも称される場合がある。複数のクライアント102(n)は、各種の形で構成されてよい。例えば、クライアント102(n)の1つまたは複数は、デスクトップコンピュータ、モバイル局、ゲーム機、娯楽機器、表示装置に通信可能に結合されたセットトップボックス、ワイヤレス電話機等、ネットワーク104を通じて通信することが可能なコンピュータとして構成することができる。クライアント102(n)は、ラップトップ機、携帯電話102(2)、携帯情報端末(PDA)102(3)、オーディオプレーヤ等の携帯型の電子機器であってもよい。クライアント102(n)は、無線接続、配線接続等を介してネットワーク104にアクセスするように構成することができる。クライアント102(n)の範囲は、相当量のメモリとプロセッサ資源を持つフル資源機器(例えばパーソナルコンピュータ、ハードディスク搭載のテレビレコーダ、ゲーム機)から、メモリおよび/または処理資源が限られた低資源機器(例えば従来のセットトップボックス)にわたりうる。以下の説明では、クライアント102(n)は、クライアントを操作する人物および/またはエンティティに関連する場合もある。すなわち、クライアント102(n)は、ユーザおよび/またはマシンを含む論理的なクライアントを表すことができる。
また、ネットワーク104はインターネットとして図示しているが、このネットワークは、幅広い種類の構成をとることが可能である。例えば、ネットワーク104は、ワイドエリアネットワーク(WAN)、ローカルエリアネットワーク(LAN)、ワイヤレスネットワーク、公衆電話網、イントラネット等を含んでよい。さらに、図には単一のネットワーク104を示すが、ネットワーク104は、複数のネットワークを含むように構成されてよい。例えば、複数のクライアント102(n)がワイヤレスネットワークを介して結合されて互いに通信してよい。それらの各クライアントは、インターネットを通じて、図1に図示される複数のサービス106(s)(「s」は1〜「S」の任意の整数)の1つまたは複数にも通信可能に結合されてよい。各種の他の例も企図される。
図1に示すように、複数のサービス106(s)は、クライアント102(n)にネットワーク104を介してアクセスできるようにしてよい。サービス106(s)は、各種の形で構成することができる。サービス106(s)は一般に、ネットワーク104を介して、資源(例えばサービスやコンテンツ)をクライアント102(n)に提供する。資源は、ウェブページ、音楽、映像、画像、ユーザフォーラム、テンプレート、アドイン、ウェブログ(ブログ)等の各種のコンテンツとして構成されてよい。さらに、サービス106(s)は、インスタントメッセージサービス、電子メールサービス、検索サービス、オンラインショッピング、金融サービス等のサービスである資源を提供してもよい。クライアントは、サービス106(s)にアクセスして、通信、検索、アカウントへのアクセス、ファイル管理、消費者活動等の各種の活動を起動することができる。
複数のクライアント102(n)はそれぞれ、複数の通信モジュール108(n)の個々の1つを含むものと図示される。図の実装では、複数の通信モジュール108(n)はそれぞれ、複数のクライアント102(n)の個々の1つで実行可能であり、複数のクライアント102(n)同士、クライアント102と1つまたは複数のサービス106(s)との間等に通信方式を提供する。したがって、通信モジュール108(n)は、情報、音声データ、メッセージ等をネットワーク104を通じて送受信するためにクライアント102(n)に提供される機能を表す。
例えば、通信モジュール108(n)の1つまたは複数は、電子メールを送受信するように構成されてよい。電子メールは、ルータや他のコンピューティング機器(例えば電子メールサーバ)等の複数の機器を利用して電子メールがネットワーク104を介して配信されるようにアドレス指定および経路指定するための標準と規定を用いる。このようにして、電子メールは、イントラネットを通じて会社内を、インターネットを使用して世界規模等で転送されることができる。例えば電子メールは、ヘッダとユーザ指定のペイロードとを含むことができ、ペイロードは、テキストと、例えば文書、コンピュータ実行可能ファイル等の添付ファイル等である。ヘッダは、送信元についての技術情報を含んでおり、しばしば、メッセージが送信者から受信者までの間にとった経路を記述する場合がある。
通信モジュール108(n)は、セルラまたはワイヤレスの音声サービスを提供するように構成されてもよい。ワイヤレスの音声サービスは、複数のクライアント102(n)間および/またはクライアント102(n)とサービス106(s)との間で音声データを通信するための機構を提供する。例えば、クライアント102(n)は、リアルタイムまたは準リアルタイムで別のクライアントに音声データを通信することができる。したがって、複数のクライアント102(n)がワイヤレスネットワークを介して会話に参加することができる。クライアント102(n)は、サービス106(s)の1つまたは複数に音声データを通信することもできる。
さらに、通信モジュール108(n)は、push−to−talk over cellular(PoC)機能を提供するように構成されてもよい。PoCは、1つまたは複数のクライアント102(n)間および/またはサービス106間のほぼ即時の通信を可能にする、双方向形式の通信である。通信モジュール108(n)は、PoCセッションを起動するために選択することが可能なPoC連絡先またはグループのリストを提供することができる。クライアント102(n)は、PoCセッション中に押して話をすることが可能なPoCボタンを備えるよう構成されてよい。PoCセッションを通じて、受信側の連絡先またはグループは、自身の側では何の動作も行わずに送信者の声を聞くことができる。したがって、PoCは、「ウォーキートーキー(walkie talkie)」あるいはインターホンを使用することに似ている。PoCは、ワイヤレス音声ネットワーク、ピアツーピアネットワーク、インターネット等を介して実装することができる。PoCは、その名前は「セルラ」を示すが、携帯電話、ラップトップ、ハンドヘルド機器、デスクトップコンピューティング機器等を含む、各種の形で構成されたクライアント102(n)で利用することが可能である。例えば、デスクトップコンピューティング機器とサービス106(n)との間に、インターネットを介してPoCセッションを確立することができる。
別の例で、通信モジュール108(n)の1つまたは複数は、インスタントメッセージを送受信するように構成されてよい。インスタントメッセージは、各クライアント102(n)がインスタントメッセージセッションに参加している時に互いにテキストメッセージを送信できるように機構を提供する。インスタントメッセージは、インスタントメッセージセッションを介して音声データを交換できるように音声のインスタントメッセージ機能を提供することも可能である。インスタントメッセージは、通例はリアルタイムで通信するが、クライアント102(n)の1つが使用不可、例えばオフライン状態の時には、テキストメッセージを記録しておくなどにより、遅延配信も利用することができる。このように、インスタントメッセージは、メッセージ交換を支援し、双方向のライブチャット用に設計されているという点で、電子メールとインターネットチャットの組合せと考えることができる。したがって、インスタントメッセージは、同期通信に利用することができる。例えば、音声の電話呼のように、インスタントメッセージセッションは、各ユーザが、インスタントメッセージが受信されると他の各ユーザに応答できるようにリアルタイムで行うことができる。
PoC、ワイヤレス音声サービス、インスタントメッセージ、および電子メールを記載したが、通信方式は、その主旨および範囲から逸脱することなく、各種の他の構成をとることができる。さらに、個々のクライアント102(n)(より詳細にはクライアント102(n)の通信モジュール)は、インスタントメッセージとワイヤレス音声の両方を提供するなど、通信方式の各種の異なる組合せを提供するように構成されてよい。
通信モジュール108(n)は、さらに、口頭のコマンドを受信し、サービス106(s)と通信する機能を提供することができる。図1には、複数のクライアント102(n)の1つまたは複数を使用できる様々なユーザを表すユーザ110を示す。ユーザ110は、クライアント102(1)に音声112を提供するものと図示される。音声112は、サービス106(s)によって行われるべき動作を指定することができる、ユーザ110等のユーザによって話された単語を表す。音声112は、クライアント102(1)に受信され、通信モジュール108(1)によりネットワーク104を介してサービス106(s)に通信されることができる。下記で詳細に説明するように、音声112は、音声データとして、または変換された音声データ(例えばテキスト)としてサービス106に通信されることができる。
各サービス106(s)は、それぞれ1つまたは複数の動作モジュール114(s)を備える。動作モジュール114(s)は、ユーザ110の音声112で指定される1つまたは複数の動作を行うために実行可能な機能を表す。したがって、音声112を使用して、動作モジュール114(s)による動作を起動することができる。動作モジュール114(s)は、音声112で指定された動作の結果を含む応答116(p)をフォーマットする機能も表す。動作モジュール114(s)は、各種の動作を提供するように構成されることができる。動作モジュール114(s)によって行われることが可能な動作には、これらに限定しないが、検索、商品の購入、サービスの予約(例えば飲食店、美容院、自動車修理等)、旅行の予約、アカウントへのアクセス、コンテンツへのアクセス、記憶されたコンテンツの取り出し、項目のダウンロード等が含まれる。
一実装では、動作モジュール114(s)は、動作モジュール114(s)によって行われた動作の結果を含む応答116(p)をクライアント102(n)に提供するように構成することができる。応答116(p)は、各種のテキスト部分および/または非テキスト部分(例えばグラフィックメッセージ、音声メッセージ等)を含む等、各種の形で構成されてよい。各種の応答116(p)についてのさらなる解説は、図2との関連で得ることができる。
一実装では、サービス106(s)は、音声112を音声データとして受け取ることができる。しかし、いくつかの事例では、動作モジュール114(s)は、音声データを理解せず、指定された動作を行わない場合がある。そのため、変換が行われてよい。例えば、各サービス106(s)は、個々の変換モジュール118(s)を有して図示されている。変換モジュール118(s)は、サービス106(s)の動作モジュール114(s)等の、所望の動作を行うように構成されたモジュールが理解できるように、音声データとテキストコマンド間の変換を行う機能を表す。例えば、音声データとして受信された音声112は、変換モジュール118(s)によって、動作モジュール114(s)が理解できるテキストに変換され得る。そして、動作モジュール114(s)は、変換された音声(例えばテキスト)を使用して、音声112で指定された動作を行うことができる。一実装では、変換モジュール118(s)は、応答116(p)を、クライアント102(n)に通信する音声データに変換するように構成されてもよい。
サービス106(s)における変換モジュール118(s)の実行を説明したが、クライアント102(n)も同様の機能を利用してよい。例えば、図1では、各クライアント102(1)〜102(N)が、個々の変換モジュール118(1)〜118(N)を備えている。一実装では、クライアント102(n)によって受信された音声112は、そのクライアントでテキストに変換されることができる。サービス106(s)、詳細には動作モジュール114(s)は次いで、行うべき動作を指定する、動作モジュール114(s)に理解可能なテキストを受け取る。また、クライアント102(n)に提供された非音声応答116(p)またはその一部が、クライアント102(n)によって音声に変換されてよい。変換モジュール118を介した音声データの変換についてのさらなる解説は、図2との関連で得ることができる。
一実装では、単一のサービス106(s)が多数の動作を行うことができる。例えば、ユーザ110が音声112を提供し、その結果、サービス106(s)が、ウェブページ、映像、音声等の利用可能なコンテンツの検索を行うことができる。ユーザ110は、事前にコンテンツを契約または購入している、あるいはコンテンツを購入することを希望している場合がある。コンテンツは、ネットワーク104を介してクライアント102(n)からアクセス可能なストレージ等にユーザによって保持されている項目であってもよい。検索は、利用可能なコンテンツを列挙した検索結果を生成し、その検索結果がクライアント102(n)に提供される。次いで、ユーザ110は、利用可能なコンテンツを閲覧し、追加的な音声112を提供して、検索結果に含まれるコンテンツ項目をクライアントにストリーミングする、コンテンツをダウンロードする、コンテンツを購入する等、追加的な動作を起動することができる。
あるいは、複数のサービス106(s)をが組み合わせて使用して、多数の動作を行ってもよい。したがって、同じサービス106または別のサービス106(s)によって追加的な動作を行うことができる。別の例で、ユーザ110は音声112を使用して、複数のサービス106(s)の1つを使用して、利用可能な飛行便等の旅行のオプションの検索を起動することができる。そして、検索結果を受け取ると、ユーザ110は、追加的な音声を使用して、複数のサービス106(s)のうち別のサービスを介して、検索結果に示された特定の便を予約する動作を起動することができる。音声に応答した動作の実施についてのさらなる解説は、図3〜7との関連で得られる。
一般に、本明細書に記載される機能はいずれも、ソフトウェア、ファームウェア(例えば固定論理回路)、手動処理、またはそれらの実装の組合せを使用して実装することができる。本明細書で使用される用語「モジュール」および「論理」は、一般に、ソフトウェア、ファームウェア、またはソフトウェアとファームウェアの組合せを表す。ソフトウェア実装の場合、モジュール、機能、または論理は、プロセッサ(例えば1つまたは複数のCPU)で実行された時に、指定されたタスクを行うプログラムコードを表す。プログラムコードは、1つまたは複数のコンピュータ可読の記憶装置に記憶することができ、これについてのさらなる説明は、図2との関連で得られる。下記で説明する音声技術の特徴は、プラットフォームに依存しないことであり、すなわち、それらの技術は、各種のプロセッサを有する各種の市販コンピューティングプラットフォームで実装されることができる。
図2は、図1の例示的なクライアント102(n)とサービス106(s)をより詳細に示した例示的実装のシステム200の図である。図で、サービス106(s)は、複数のサーバ202(a)(「a」は1〜「A」の任意の整数)によって実装されており、クライアント102(n)は、クライアント機器として図示されている。各サーバ202(a)と各クライアント102(n)は、それぞれのプロセッサ204(a)、206(n)と、それぞれのメモリ208(a)、210(n)を有するものと図示している。
プロセッサは、形成材料または内部で用いられる処理機構によって制限されない。例えば、プロセッサは、半導体および/またはトランジスタ(例えば電子集積回路(IC))で構成することができる。そのような状況では、プロセッサ実行可能命令は、電子的に実行可能な命令であってよい。それに代えて、プロセッサの機構またはプロセッサのための機構、およびしたがって、コンピューティング機器の機構とコンピューティング機器のための機構には、これらに限定しないが、量子コンピューティング、光コンピューティング、機械コンピューティング(例えばナノテクノロジーを使用する)等が含まれうる。また、図にはそれぞれ単一のメモリ208(a)、210(n)を示すが、サーバ202(a)とクライアント102(n)には、RAM(ランダムアクセスメモリ)、ハードディスクメモリ、取り外し可能媒体メモリ等、幅広い種類および組合せのメモリが用いられてよい。
図には、動作モジュール114(a)および変換モジュール118(a)は、サーバ202(a)のプロセッサ204(a)で実行されるものと示している。無論、動作モジュール114(a)と変換モジュール118(a)は、同じサービス106(s)内、または、図1に図示される複数のサービス106のうち異なるサービス内のそれぞれ異なるサーバ202に提供されてもよい。本明細書に記載される各種モジュールに関連する機能は、本発明の主旨および範囲から逸脱することなく、さらに組み合わせ、または分割され得ることに留意されたい。例えば、動作モジュール114(a)と変換モジュール118(a)は別々に図示しているが、各自の機能が単一のモジュールに提供されてもよい。
変換モジュール118(a)はさらに、音声/テキスト変換モジュール212およびテキスト/音声変換モジュール214を有するものと図示される。音声/テキスト変換モジュール212は、クライアント102(2)から音声データとして提供された音声112を、動作を行うために動作モジュール114(a)が使用することが可能なテキストに変換する機能を表す。テキスト/音声変換モジュール214は、動作の結果(例えば応答116(p)またはその一部)を音声データ(例えば可聴音)に変換することができる機能を表す。テキスト/音声変換モジュール214は、リアルタイムの音響の結果をクライアント102(n)に通信するように構成することができる。あるいは、テキスト/音声変換モジュール214は、クライアント102(n)からアクセスできる状態となった、ボイスメール、音声ファイル等の音声の録音として保存される音響の結果を生成してもよい。
一実装では、1つまたは複数のサービス102(s)が音声起動の検索動作を提供することができる。図2に示す動作モジュール114(a)は、検索動作を提供するように構成されている。図では、検索エンジン216がプロセッサ204(a)の動作モジュール114(a)内で実行され、メモリ208(a)に記憶することができる。検索エンジン216を使用して各種の検索を行うことができる。それらの検索には、これらに限定しないが、一般的なウェブまたはインターネット、個人のデスクトップ、映像、音声、企業、写真、および/またはローカルの検索が含まれる。そうした検索は、ユーザ110から音声としてクライアント102(n)に提供されるキーワードに基づくことができる。あるいは、ユーザ110の音声112は、記憶された検索を識別し、その検索が検索エンジン216に検索語を提供してもよい。無論、検索動作は、単一の動作モジュール114(a)の中で他の動作と組み合わせられてよい。すなわち、検索を提供するように構成された動作モジュール114(a)は、検索の提供に限定されなくてよい。
一実装では、動作モジュール114(a)は、応答モジュール218を備える。応答モジュール218は、サービス106(s)によって行われた動作の結果を含む応答116(p)を形成する機能を表す。応答116(p)は、ネットワーク104を介してクライアント102(n)に通信されるように構成される。あるいは、結果は、リモートに記憶され、クライアント102(n)から、またはクライアント102(n)または別の機器を介してユーザ110からアクセスできるようにしてもよい。無論、応答116(p)中の結果は、単一の動作モジュール114(a)によるものでも、単一のサービス106(s)の複数の動作によるものでも、複数のサービス106(s)によって行われた多数の動作を組み合わせた集約等であってもよい。
応答116(p)は、各種の形で構成されることができる。図では、サーバ202(a)のメモリ208(a)内のストレージ220に各種の応答116(p)が示される。応答116(p)は、テキストとグラフィックを組み合わせたグラフィックな応答であってよい。そのため、ユーザ110は、音響入力(例えば音声112)に対して、クライアント102(n)を介して、別の形式の応答116(p)、例えば音響でない応答を受け取ることができる。あるいは、ユーザ110は、音響部分とテキストおよびグラフィック部分を組み合わせた応答を受け取ることもできる。このように、応答116(p)は、テキスト、グラフィック、映像、音声等の組合せを含んでよい。
例えば図2に示すように、応答116(p)は、電子メール116(1)、HTML文書116(2)、インスタントメッセージ116(3)、映像応答116(4)、コンピュータ可読ファイル116(5)等として構成することができる。さらに、各種の応答116(p)は、単独で、または互いと組み合わせて使用されてよい。例えば、電子メールとインスタントメッセージ116(3)の両方がクライアント102(2)に返され得る。また、インスタントメッセージ116(3)は、添付されたワード処理ファイルまたは他のコンピュータ可読ファイル116(5)を有するように形成されることもできる。各種の他の組合せも企図される。
同様に、図2には音響の応答116(6)が示され、これは単独で、または他の応答116(p)と併用され得る。音響の応答116(6)は、クライアント102(n)に提供されて例えばクライアントに音声として「聞かれる」応答または応答の一部を表す。例えば、音声112で起動された検索に応答してHTML文書116(2)が生成されることができる。HTML応答116(2)は、クライアント102(n)に送信される。また、テキスト/音声変換モジュール214がHTML116(2)またはその一部分を音響音声に変換し、音響応答116(6)を返してもよい。HTML文書はテキスト/音声変換モジュール214によって変換されるため、音響応答は、例えばリアルタイム、または準リアルタイムで返される。したがって、音響入力(例えば音声112)に対して、ユーザ110は、クライアント102(n)を介して、その全体または一部が音響応答116(6)である応答116(p)を受け取ることができる。変換は代わりにクライアント102(n)で行われてもよいことに留意されたい。そのため、クライアント102(n)は、テキストから音声への変換と音声からテキストへの変換の両方を行うように構成されることが可能な個々の変換モジュール118(n)を有するものと図示される。
検索エンジン216によって行われる検索の場合、応答116は、検索結果222を含むことができる。図では、サーバ202(a)のメモリ208(a)の中のストレージ224に複数の検索結果222(m)が示されている。検索結果222(m)は、検索エンジン216の実行によって得ることができる。
動作モジュール114(a)は、検索結果222(m)を各種方式で絞り込むように構成されることができる。動作モジュール114(a)は、クライアント102(n)またはユーザ110に関する情報を使用して自動的に検索を絞り込むことができる。この情報には、クライアント102(n)の場所、ユーザ110のプロファイル、ユーザ110に関連付けられた検索履歴、ユーザ110の嗜好または好み等が含まれうる。この情報は、クライアント機器102(n)から動作モジュールに提供され得る。あるいは、サービス106(s)が、この情報を保持するか、クライアント102(n)から、または、サービス106(s)の複数のサーバ202(a)の1つから、または別のサービス等からこの情報を取得してもよい。
例えば、検索結果222(m)は、要求したクライアント102(n)の場所に基づいてフィルタリングされてよい。そのため、動作モジュール114(a)は、検索を要求したクライアント102(n)の場所を判定するように構成することができる。例えば、クライアントの場所は、クライアント102(n)とサービス106(s)間の通信で提供される識別子によって判定されることができる。識別子は、クライアント機器102(n)や通信をルーティングする機器等に関連付けられた識別子とすることができる。一例では、動作モジュール114(a)は、識別子を使用してクライアント102(n)が「シカゴ」にいると判断することができる。したがって、飲食店、ホテル、道案内等の検索に対する検索結果222(m)は、自動的に「シカゴ」に限定されることができる。場所を判定するために各種の他の技術も使用されてよい。
例示的手順
以下の解説は、上記のシステムおよび機器を利用して実装されることが可能な音声起動動作の説明である。各手順の態様は、ハードウェア、ファームウェア、ソフトウェア、またはそれらの組合せとして実装することができる。これらの手順は、1つまたは複数の機器によって行われる動作を指定するブロックのセットとして示され、必ずしも、個々のブロックによって動作を行うために図示される順序に限定されない。以下の説明の一部では、図1の環境100と図2のシステム200を参照する。
図3は、サービスが、クライアントからの音声データに基づいて動作を実行し、応答を生成する手順300を示す。サービスが、ネットワークを介してクライアントから音声データを受信する(ブロック302)。例えば、図1に示されるサービス106(s)が、音声112としてクライアント102(1)に入力された音声データを受信することができる。クライアント102(1)は、ネットワーク104に接続されたワイヤレス対応のラップトップ機等のモバイルコンピューティング機器として構成されてよい。クライアント102(2)の個々の通信モジュール108(1)が実行されて、クライアント102(2)とサービス106(1)間に音声インスタントメッセージセッションを提供することができる。したがって、クライアント102(2)からネットワーク104を通じて音声インスタントメッセージセッションを介して音声112が送信され、サービス106(s)がその音声112を受信する(例えば「聞く」)ことができる。
変換モジュール118(s)が実行されて、音声データをテキスト文字列に変換する(ブロック304)。例えば、上記の例で受信された音声112がテキスト306に変換されることができる。図1に示される変換モジュール118(s)が実行されて音声112を変換することができる。音声112は、「1」、「食品」、「実行する」、「買う」等の単純なコマンドを指定することができ、または、音声112は、例えば「イタリア料理店を見つける」のようなフレーズや文章であってもよい。このように、変換モジュール118(s)は、音声112を、命令、コマンド、単語等の形のテキスト306に変換し、その命令、コマンド、単語等がサービス106(s)によって利用されて、1つまたは複数の動作を起動することができる。
動作モジュールにテキストが提供され、動作モジュールはそのテキストを使用して、動作を行い、結果を得る(ブロック308)。上記の例を続けると、テキスト306がコマンド、例えば「商品2を買う」であるとする。図1の動作モジュール114(s)がテキスト306を受け取る。動作モジュール114(s)は、テキスト306を使用して購入動作を行うように構成することができる。例えば、サービス106(s)は、事前に、音声インスタントメッセージセッションの際に、または、電子メール、インターネットを介して等、販売商品のリストをユーザ110に提供している場合がある。ユーザ110は、リストを見て、リストにある商品2を買うことを決める。ユーザ110は、クライアント102(1)(例えばワイヤレスのラップトップ)を介して、フレーズ「商品2を買う」を音声としてクライアント102(1)に提供して、希望商品の購入を起動する。
動作モジュール114(s)は、変換されたコマンドをテキスト306として受け取り、購入動作を起動する。動作の結果310が得られる。例えば、この例における結果は、取引の完了、受領証、情報を購入するためのプロンプト等である。動作モジュールは、図1のサービス106(s)またはサービス106(s)の任意の1つまたは複数によって行うことが可能な購入のシーケンスを起動してよいことに留意されたい。したがって、サービス106(s)は、1つの動作全体を扱うように、または、リモートで(例えば、特定のサービス106(s)内ではない)行うことが可能な動作を起動し、結果を得るように構成されてよい。無論、音声112に応答して、上記で説明した各種の動作が行われてよい。
動作モジュールは、結果を含む、クライアントに通信される応答を生成する(ブロック312)。上記の例では、動作モジュール114(s)は、購入動作、例えば「商品2を買う」のコマンドの結果310を含む応答116(p)を形成する。結果310は、例えば、購入の確認である。その確認を含んだテキストのインスタントメッセージが形成され得る。確認を含んだインスタントメッセージは、クライアント102(1)とサービス106(s)間のインスタントメッセージセッションを介して通信され得る。したがって、ユーザ110は、音声の購入コマンドに対して、希望商品の購入を確認するテキストのインスタントメッセージ応答を受信する。種々の入力と応答の方式を持つ能力は、特定のクライアント機器で、または特定の時に、テキストまたはグラフィックの応答を読むことより、テキストまたはグラフィックの応答を形成することが難しい事例で望ましい場合がある。そのため、口頭で要求を入力し、異なるまたは複数の方式で(例えばテキスト、グラフィック、音声等)応答を受信する能力は、特定の事例で特定のユーザにとって有利である場合がある。
別の例で、動作モジュールは、音響の応答を形成することができる。例えば、購入の確認を伴うテキストのインスタントメッセージはが、変換モジュール118(s)を介して、テキストから音声に変換され得る。変換された確認は、例えば、音声インスタントメッセージセッションを介してリアルタイムで通信されることができ、ユーザ110には音響の購入確認が提供される。変換された応答は、合成音声、録音された音声等である。この音響応答は、別の応答に加えて、または別の応答の代わりに提供され得る。先に述べたように、「出先」や運転中など、特定の時には、ユーザにとって音響の応答の方が便利または安全である場合がある。
別の例で、購入の確認を伴うテキストのインスタントメッセージ等のグラフィック応答が、単純な音響応答と共に提供され得る。例えば、「完了しました」、「成功しました」、「結果を送信しました」、「再度試して下さい」等の短い音響応答が提供され得る。変換モジュール118(s)は、この短い音響応答を形成するように構成され得る。この例では、ユーザ110には、希望した購入の音響の確認とテキストの確認の両方が提供される。応答方式の各種の他の組合せも企図され、それらの応答方式には、電子メール、インスタントメッセージ、画像、映像、音声、ファイル、HTML文書等の1つまたは複数が含まれうる。
図4は、音声を使用してサービスにおいて検索を起動する例示的手順400を示す。音声として受け取られた検索語がサービスに通信されてウェブ検索を起動する(ブロック402)。例えば、図2に示すユーザ110が、携帯電話として構成されたクライアント機器102(n)を介して検索を起動することができる。そのため、通信モジュール108(n)は、ネットワーク104を介してワイヤレスの音声サービスを提供するように構成され、したがって、クライアント102(n)は、1つまたは複数のサービス106(s)に音声データを通信することができる。この例では、携帯電話として構成されたクライアント機器102(n)のユーザ110は、イリノイ州シカゴを旅行しており、イタリア料理を食べたいと思っている。ユーザ110は、携帯電話を使用して、例えば検索サービスを提供するように構成された図2のサービス106(s)に通話することができる。ユーザ110は、番号をダイヤルする、連絡先のリストからサービス106(s)を選択する、その他(例えば音声で始動されるダイヤル)等によりサービスと対話を起動する。
このように、サービス106(s)とクライアント機器102(n)の間でワイヤレスの音声通話が起動される。ユーザ110は、クライアント機器102(n)(携帯電話)に音声112を提供して検索を起動する。音声112は、「イタリア料理店、シカゴ」等の検索語を含むことができる。クライアント機器102(n)は、検索語(例えば音声112)をサービス106(s)に通信する。音声112は、テキストに変換され得る。次いで、サービス106(s)は、テキストの語を検索エンジン216に提供してウェブ検索を起動する。
サービスから、ウェブ検索の結果を含む応答が受信される(ブロック404)。最後の例では、例えば、サービス106(s)は、話された語「イタリア料理店、シカゴ」によって起動されたウェブ検索の結果としてイタリア料理店のリストを得ることができる。サービス106(s)、より詳細には応答モジュール218は、イタリア料理店のリストを含む応答116(p)を形成する。応答は、料理店を列挙した電子メールなどの単純なリストであってよい。応答は、料理店のリスト、シカゴの地図、および、地図上でリストの料理店がある場所の表示を含むHTML文書等、テキストとグラフィック(例えばグラフィックの応答)の組合せを有してもよい。クライアント102(2)は、サービス106(s)から応答を受信し、その後応答はユーザ110によって使用され得る。テキスト、グラフィック、音声等を組み合わせた各種の他の応答116(p)も企図される。
一実装では、サービス106(s)は、検索または検索結果を各種方式で絞り込むように構成され得る。1つ前の例におけるサービス106(s)は、サービス106(s)によって判定されたクライアント102(n)の場所を使用して検索を自動的に絞り込むことができる。例えば、サービス106(s)は、ワイヤレスの音声通話がシカゴで発信されたこと、またはクライアント機器102(n)が現在シカゴにあることを判定する。この例では、検索を起動させる音声112は、簡略化されてよい。ユーザ110は、「イタリア料理店、シカゴ」と言うのではなく、「イタリア料理店」と言ってよい。検索は、サービス106(s)によって判定されたクライアントの場所に基づいて自動的に絞り込まれる。したがって、クライアント機器102(n)に音声として入力された検索語「イタリア料理店」に応答して、ユーザは、現在いる場所、この例ではシカゴにあるイタリア料理店、またはその近辺のイタリア料理店についての検索結果を受信することができる。
図5は、音声で起動された動作の結果を含む応答が形成される例示的手順500を示す。クライアントで音声として受け取られた音声データで指定される動作が行われる(ブロック502)。ここで、図1に示すユーザ110が、図1に示す携帯情報端末(PDA)102(3)等のハンドヘルドコンピューティング機器を使用してファイルを転送したいとする。ファイルは、プレゼンテーション、テキスト文書、音声の録音等の任意のコンピュータ可読ファイルでよい。この場合、ユーザは、ファイル「file.txt」を1人または複数の同僚と共有したい。ファイルは、物理的にPDA102(3)に置かれているか、リモートのストレージにあってネットワーク104、ピアツーピアネットワーク等を介してユーザ110からアクセスすることができる。この例では、ユーザ110は、音声を使用してPDA102(3)から、または遠隔の場所から、1人または複数の同僚がアクセス可能なネットワークストレージ等の別の場所へのファイルの転送を起動することができる。ユーザ110は、PDA102(3)を使用して、ネットワーク104を通じて音声112をサービス106(s)に通信する。例えば、ユーザ110は、「file.txt、転送」等のコマンドあるいはフレーズを話し、それが音声112としてPDAに受信される。音声112で指定される動作は、サービス106(s)に通信される。一実装では、音声112は、音声データとして通信される。音声112は、動作モジュール114(s)に理解可能な命令に変換されることができ、動作モジュール114(s)は次いで、指定された動作を行うことができる。例えば、変換モジュール118(s)が音声112を音声からテキストの命令に変換することができる。あるいは、PDA102(3)等のクライアント102が、サービス106(s)に通信するために音声データをテキストに変換するように構成されてもよい。PDA102(3)に含まれる変換モジュール118(n)が、音声112の音声からテキストへの変換を行い、次いでテキストの命令がサービス106(s)に送信される。
サービス106(s)は、音声112によって指定された動作を行う。例えば、動作モジュール114(s)が実行されて、PDA102(3)とネットワークストレージの場所との間でファイル「file.txt」を転送することができる。このようにして、ユーザ110は、ファイルを、他の者(例えば、1人または複数の同僚)がそのファイルにアクセスできる場所に移動することができる。無論、ファイルは、例えばサービス102(s)または他のネットワークストレージからPDA102(3)へ等、別の方向に転送されてもよい。
クライアントに通信するために、動作の結果を含む応答が形成される(ブロック504)。上記の例では、結果は、ファイルの転送が成功したかどうかを示すことができる。例えば、「完了しました」と言う音響応答116(p)が形成され得る。応答116(p)は、転送場所にあるファイルの一覧を提供するテキストメッセージ、HTMLメッセージ等でもよい。転送を確認するインスタントメッセージを、「成功しました」等の音響応答と併せる等、応答116(p)の組合せも形成することができる。変換モジュール118(s)が実行されて、リアルタイムの音声応答をPDA102(3)に提供することができる。
無論、この手順を使用して、ファイルの取り出し、メッセージの送信、アカウントへのアクセス、商品の購入、1人または複数の受信者へのファイルの電子メール送信、リモートのコンピューティング機器での実行可能命令の起動等の各種の他の動作を行うことが可能である。
図6は、PoC(push−to−talk over cellular)を使用して音声起動動作を行う例示的手順600を示す。PoC(push−to−talk over cellular)セッションが確立される(ブロック602)。例えば、図2に示すクライアント機器102(n)がPoC対応の携帯電話として構成されることができる。携帯電話クライアント102(n)は、PoCの連絡先リストを保持することができる。1つまたは複数のサービス106(s)がPoC連絡先であってよい。ユーザ110は、サービス106(s)のコンテンツを所望しているとする。サービス106(s)は、音声、映像、ウェブページ等の各種のコンテンツをネットワーク104を介して提供するように構成することができる。この場合、ユーザ110は、サービス106(s)の音声コンテンツを求めている。ユーザは、PoC連絡先を選択し、PoCセッションを起動する。例えば、ユーザは、連絡先の中からサービス106(s)を選択し、PoCボタンを押してセッションを起動することができる。携帯電話のクライアント102(n)とサービス106(s)の間にPoCセッションが確立される。サービス106(s)は、PoCセッションを介して携帯電話クライアント102(n)からの音声を即座に「聞く」ことができる。
PoCセッションを介してクライアントから音声データが受信される(ブロック604)。例えば、図2のユーザ110が携帯電話のクライアント102(n)に音声112を提供し、その音声がPoCセッションを介して瞬時に(またはほぼ瞬時に)サービス106(s)で聞かれる。音声112は、所望の音声コンテンツに対する要求であってよい。例えば、ユーザの音声112は、歌の題名、アーティスト、再生リスト、場所等を含むことができる。
音声データがテキストに変換される(ブロック606)。先の例を続けると、所望の音声コンテンツの要求は、サービス106(s)、詳細には、所望の動作を起動しようとする動作モジュール114(a)には即座に理解できない場合がある。そのため、要求は音声からテキスト、例えば動作モジュール114(a)が理解可能な命令に変換され得る。図2に示すように、変換モジュール118(a)がサービス106(s)のプロセッサ204(a)で実行されて、受信された音声112をテキストに変換することができる。この例では、音声112で指定された音声コンテンツの取り出しを起動する命令を提供するテキストが生成され得る。
そのテキストを使用して動作が行われる(ブロック608)。例えば、変換モジュール118(a)によって生成されたテキスト(例えば、命令)が動作モジュール114(a)に提供され、動作モジュール114(a)はそのテキストを使用して動作、この例では音声コンテンツの取り出しを行う。所望の音声コンテンツは、サーバ202(a)から、またはサービス106(s)の複数のサーバ202の1つから、またはネットワーク104を介してアクセス可能な別のサービス106あるいはリモートの場所を含む各種の場所から取り出されることができる。
クライアントに通信するために、動作の結果を含む応答が形成される(ブロック610)。例えば、選択された音声コンテンツへのハイパーリンクを提供するHTML文書として構成された応答116(p)が形成され得る。応答116(p)を受信すると、ユーザ110は、ハイパーリンクを使用してコンテンツにアクセスすることができる。コンテンツは、ストリーミングまたは非ストリーミングの方式で提供され得る。応答116(p)は、所望のコンテンツ自体を返すことを含んでもよい。例えば、応答116(p)は、携帯電話クライアント102(n)に音声ファイルを非ストリーミング方式で、単独で、またはインスタントメッセージや電子メール等のグラフィック応答と共に提供することができる。
一実装では、確立されたPoCセッションを使用して音響応答をクライアントに通信することができる。例えば、音響応答は、所望のコンテンツが入手可能または入手不可能であること、グラフィック応答が送信されたこと、コンテンツを入手できる場所等を知らせることができる。したがって、図2の応答モジュール218を使用して応答116(p)を形成することができる。応答は、変換モジュール118(a)を介してテキストから音声に変換され得る。変換の結果は、PoCセッションを介してリアルタイムで携帯電話クライアント102(n)に送信され得る。別の実装では、所望の音声コンテンツは、当該PoCセッションまたは別のPoCセッションを介してクライアントにストリーミングされ得る。PoCを介した音響応答は、他の応答方式に追加するものでも、他の応答方式の代わりであってもよい。例えば、先に述べたように、インスタントメッセージ、HTML、テキスト、電子メール、および音響応答が各種の組合せで形成されてよい。
図7は、音声起動検索の結果を利用して追加的な音声起動動作を行う手順700を示す。クライアントで音声として入力された語を使用して検索が行われる(ブロック702)。例えば、ユーザ110は、飛行便の予約をしたいと思っている。ユーザ110は、図1に示すクライアント機器102(n)の1つを使用して、ネットワーク104を介して予約を提供するように構成されたサービス106(s)と通信することができる。ユーザ110は、音声112を提供して利用可能な飛行便の検索を起動する。例えば、ユーザが4月1日のオレゴン州ポートランドとイリノイ州シカゴ間の飛行便を見つけたい場合、ユーザ110は、「飛行便、PDXからORD、4月1日」等の検索語を伴う音声112を提供することができる。検索エンジン216がサービス106(s)で実行されて、音声112で指定された検索を行うことができる。検索エンジン216には、変換モジュール118(a)による音声112の変換から生成されたテキストの検索語が提供され得る。図では変換モジュール118(a)は検索エンジン216と同じサーバにあるが、変換は、別のサーバ202や、クライアント102の変換モジュール118等で行われてもよい。
検索の結果がクライアントに通信される(ブロック704)。上記の飛行便検索の例に対して、ユーザ110は、4月1日のオレゴン州ポートランドとイリノイ州シカゴ間の5便のリストを含んだ応答116(p)を受信することができる。この応答は、HTML文書、インスタントメッセージ、電子メール等、上記の各種方式のいずれでフォーマットされてもよい。
検索結果に関連し、クライアントに音声として入力される命令に基づいて、追加的な動作が行われる(ブロック706)。先の例のユーザ110は、例えば5つの可能な飛行便を含んだ検索の結果を受信し、閲覧する。そして、ユーザ110は、それら飛行便のうち1つを予約したいとする。したがって、ユーザは、検索結果に関連する追加的な音声112を提供することができる。例えば、追加的なユーザの音声112は、検索結果に列挙された飛行便の1つに対応する「99便を予約」と指示することができる。一実装では、検索結果を使用してさらなる動作を起動する方法をユーザに指示してもよい。例えば、検索結果の項目1は、「この便を予約するには『1を予約』と言って下さい」と指示することができる。追加的な音声112で指定された動作がサービス102(s)に通信される。サービスは、検索を行ったサービス102(s)と同じサービスであっても、異なるサービス102であってもよい。そして、サービスは、先に提供された検索結果に関連する追加的な動作を行う。
このように、音声で起動された検索の結果が活用されて、音声で起動される追加的な動作を行うことができる。無論、音声で起動された検索結果の活用を用いて、ファイル転送、ファイルの取り出し、取引の購入、旅行の予約、ホテルおよび飲食店の予約等の様々な動作を行うことができる。追加的な動作は、さらなる検索であっても、検索結果の絞り込みであってもよい。
結論
本発明について、構造的特徴および/または方法論的動作に固有の術語で説明したが、添付の特許請求の範囲に定義される本発明は、ここに記載される具体的な特徴または動作に必ずしも限定されないことを理解されたい。それら具体的な特徴および動作は、特許請求される本発明を実施する例示的形態として開示される。
音声起動動作技術を用いるように動作可能な例示的実装の環境を示す図である。 図1の例示的クライアントとサービスをより詳細に示した例示的実装のシステムの図である。 音声起動動作が行われ、応答が生成される、例示的実装における手順を示す流れ図である。 音声によってウェブ検索が起動される、例示的実装の手順を示す流れ図である。 音声起動動作が行われ、応答が生成される、別の例示的実装の手順を示す流れ図である。 音声起動動作にPoC(push−to−talk over cellular)セッションが利用される、例示的実装の手順を示す流れ図である。 音声起動検索の結果が追加的な音声起動動作に利用される、例示的実装の手順を示す流れ図である。

Claims (20)

  1. ネットワークを介して受信された音声コマンドを変換することと、
    前記変換されたコマンドを行って、視覚的応答を形成することと、
    前記ネットワークを介して前記音声コマンドの送信者に通信する、前記視覚的応答を含む通信を形成することと
    を備えることを特徴とする方法。
  2. 前記視覚的応答は電子メールであることを特徴とする請求項1に記載の方法。
  3. 前記視覚的応答は、ハイパーテキストマークアップ言語(HTML)文書であることを特徴とする請求項1に記載の方法。
  4. 前記視覚的応答は、インスタントメッセージであることを特徴とする請求項1に記載の方法。
  5. 前記音声コマンドは、PoC(push−to−talk over cellular)セッションを介して受信されることを特徴とする請求項1に記載の方法。
  6. 前記音声コマンドは、ハンドヘルド型のクライアント機器から受信されることを特徴とする請求項1に記載の方法。
  7. 前記音声コマンドは、音声インスタントメッセージセッションを介して受信されることを特徴とする請求項1に記載の方法。
  8. 前記音声コマンドは行われるべき少なくとも1つの動作を、
    検索、
    金融取引、
    購入取引、
    ファイルの転送、
    予約、および
    ダウンロード
    からなるグループから選択して指定することを特徴とする請求項1に記載の方法。
  9. クライアントが音声として受信した音声データによって、指定された検索を行うことと、
    前記音声データの発生元である前記クライアントにネットワークを通じて通信する、検索結果を含む応答を形成することと
    を備えることを特徴とする方法。
  10. 前記音声データをテキストの検索語に変換することをさらに備えることを特徴とする請求項9に記載の方法。
  11. 前記変換された音声データは、前記検索を行うモジュールによって理解することができ、前記音声データは、前記モジュールによって理解できないことを特徴とする請求項9に記載の方法。
  12. 前記応答は、
    電子メール、
    テキスト、
    HTML文書、
    インスタントメッセージ、
    画像、および
    音響
    からなるグループから選択される1つまたは複数の項目を含むことを特徴とする請求項9に記載の方法。
  13. 前記検索結果は、前記クライアントの場所に基づいて自動的に絞り込まれることを特徴とする請求項9に記載の方法。
  14. 前記検索結果をテキストから音響の応答に変換することをさらに備えることを特徴とする請求項9に記載の方法。
  15. 前記応答は、リアルタイムの音響の応答であることを特徴とする請求項9に記載の方法。
  16. 前記検索結果に関連した、前記クライアントに音声として入力される追加的な音声データに基づいて動作を行うことをさらに備えることを特徴とする請求項9に記載の方法。
  17. モバイル機器を介して入力された音声データを、インターネットの検索エンジンに入力するためのテキストの検索文字列に変換するように、コンピュータで実行されると前記コンピュータに指示するコンピュータ実行可能命令を備えることを特徴とする1つまたは複数のコンピュータ可読媒体。
  18. 前記音声データは、PoC(push−to−talk over cellular)セッションを介して前記インターネットの検索エンジンに通信されることを特徴とする請求項17に記載の1つまたは複数の媒体。
  19. 前記音声データの送信者に検索結果を提供する命令をさらに備えることを特徴とする請求項17に記載の1つまたは複数の媒体。
  20. 前記送信者に提供される前記検索結果は、非音響であることを特徴とする請求項18に記載の1つまたは複数の媒体。
JP2008547239A 2005-12-22 2006-11-17 音声で起動されるネットワーク動作 Pending JP2009521745A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/275,324 US7996228B2 (en) 2005-12-22 2005-12-22 Voice initiated network operations
PCT/US2006/044920 WO2007075238A1 (en) 2005-12-22 2006-11-17 Voice initiated network operations

Publications (1)

Publication Number Publication Date
JP2009521745A true JP2009521745A (ja) 2009-06-04

Family

ID=38195040

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008547239A Pending JP2009521745A (ja) 2005-12-22 2006-11-17 音声で起動されるネットワーク動作

Country Status (6)

Country Link
US (1) US7996228B2 (ja)
EP (1) EP1963991A4 (ja)
JP (1) JP2009521745A (ja)
KR (1) KR20080086465A (ja)
CN (1) CN101341482A (ja)
WO (1) WO2007075238A1 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012215673A (ja) * 2011-03-31 2012-11-08 Toshiba Corp 音声処理装置、及び音声処理方法
JP2015106203A (ja) * 2013-11-28 2015-06-08 Necパーソナルコンピュータ株式会社 情報処理装置、情報処理方法、及びプログラム
JP2016517253A (ja) * 2014-04-02 2016-06-09 シャオミ・インコーポレイテッド 音声通話方法、音声再生方法、装置、プログラム、及び記録媒体
JP2018517917A (ja) * 2015-03-13 2018-07-05 アリババ グループ ホウルディング リミテッド 通信ソフトウェアにおいて音声により業務を起動する方法及びこれに対応する装置
JP2019505023A (ja) * 2016-12-30 2019-02-21 グーグル エルエルシー 音声起動されたデータ・パケットのデータ構造プーリング
JP2019523918A (ja) * 2016-05-10 2019-08-29 グーグル エルエルシー デバイス上の音声アシスタントの実装
US11017428B2 (en) 2008-02-21 2021-05-25 Google Llc System and method of data transmission rate adjustment
US11860933B2 (en) 2016-05-13 2024-01-02 Google Llc Personalized and contextualized audio briefing

Families Citing this family (244)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
EP1781053B1 (en) * 2005-10-28 2012-05-02 TELEFONAKTIEBOLAGET LM ERICSSON (publ) Methods and apparatus for push to talk type service
US8200268B2 (en) * 2006-06-27 2012-06-12 Alcatel Lucent Home intercom / push-to-talk interface
US11481834B2 (en) 2006-07-07 2022-10-25 Joseph R. Dollens Method and system for managing and displaying product images with progressive resolution display with artificial realities
US11049175B2 (en) * 2006-07-07 2021-06-29 Joseph R. Dollens Method and system for managing and displaying product images with progressive resolution display with audio commands and responses
US20080031475A1 (en) * 2006-07-08 2008-02-07 Personics Holdings Inc. Personal audio assistant device and method
US11450331B2 (en) 2006-07-08 2022-09-20 Staton Techiya, Llc Personal audio assistant device and method
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
WO2008085201A2 (en) 2006-12-29 2008-07-17 Prodea Systems, Inc. Managed file backup and restore at remote storage locations through multi-services gateway device at user premises
US9569587B2 (en) 2006-12-29 2017-02-14 Kip Prod Pi Lp Multi-services application gateway and system employing the same
US20170344703A1 (en) 2006-12-29 2017-11-30 Kip Prod P1 Lp Multi-services application gateway and system employing the same
US11783925B2 (en) 2006-12-29 2023-10-10 Kip Prod P1 Lp Multi-services application gateway and system employing the same
US11316688B2 (en) 2006-12-29 2022-04-26 Kip Prod P1 Lp Multi-services application gateway and system employing the same
US9602880B2 (en) 2006-12-29 2017-03-21 Kip Prod P1 Lp Display inserts, overlays, and graphical user interfaces for multimedia systems
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US7805131B2 (en) * 2007-05-03 2010-09-28 Sonus Networks, Inc. Personal service integration on a network
US8630840B1 (en) * 2007-09-11 2014-01-14 United Services Automobile Association (Usaa) Systems and methods for communication with foreign language speakers
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US8700008B2 (en) 2008-06-27 2014-04-15 Microsoft Corporation Providing data service options in push-to-talk using voice recognition
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
KR101829865B1 (ko) 2008-11-10 2018-02-20 구글 엘엘씨 멀티센서 음성 검출
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US8862252B2 (en) 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US8554831B2 (en) * 2009-06-02 2013-10-08 Ford Global Technologies, Llc System and method for executing hands-free operation of an electronic calendar application within a vehicle
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8788267B2 (en) * 2009-09-10 2014-07-22 Mitsubishi Electric Research Laboratories, Inc. Multi-purpose contextual control
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US20120310642A1 (en) 2011-06-03 2012-12-06 Apple Inc. Automatically creating a mapping between text data and audio data
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US8515766B1 (en) 2011-09-30 2013-08-20 Google Inc. Voice application finding and user invoking applications related to a single entity
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US10255914B2 (en) 2012-03-30 2019-04-09 Michael Boukadakis Digital concierge and method
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US20130311276A1 (en) * 2012-05-18 2013-11-21 Stan Wei Wong, JR. Methods for voice activated advertisement compression and devices thereof
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
WO2013185109A2 (en) 2012-06-08 2013-12-12 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
DE102013001219B4 (de) * 2013-01-25 2019-08-29 Inodyn Newmedia Gmbh Verfahren und System zur Sprachaktivierung eines Software-Agenten aus einem Standby-Modus
KR20150104615A (ko) 2013-02-07 2015-09-15 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
CN110096712B (zh) 2013-03-15 2023-06-20 苹果公司 通过智能数字助理的用户培训
CN105144133B (zh) 2013-03-15 2020-11-20 苹果公司 对中断进行上下文相关处理
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
CN105027197B (zh) 2013-03-15 2018-12-14 苹果公司 训练至少部分语音命令系统
US9197336B2 (en) 2013-05-08 2015-11-24 Myine Electronics, Inc. System and method for providing customized audio content to a vehicle radio system using a smartphone
US9430465B2 (en) * 2013-05-13 2016-08-30 Facebook, Inc. Hybrid, offline/online speech translation system
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US20140362024A1 (en) * 2013-06-07 2014-12-11 Barnesandnoble.Com Llc Activating voice command functionality from a stylus
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3008641A1 (en) 2013-06-09 2016-04-20 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
AU2014278595B2 (en) 2013-06-13 2017-04-06 Apple Inc. System and method for emergency calls initiated by voice command
CN105453026A (zh) 2013-08-06 2016-03-30 苹果公司 基于来自远程设备的活动自动激活智能响应
US10229450B2 (en) * 2013-10-02 2019-03-12 Paypal, Inc. Generating sale transactions from voice data input by a user
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
RU2580431C2 (ru) 2014-03-27 2016-04-10 Общество С Ограниченной Ответственностью "Яндекс" Способ и сервер для обработки поискового запроса и машиночитаемый носитель
CN103929540A (zh) * 2014-04-25 2014-07-16 浙江翼信科技有限公司 一种消息操作方法及装置
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
CN105683963A (zh) * 2016-01-07 2016-06-15 马岩 网络链接的搜索方法及系统
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10600418B2 (en) * 2016-12-07 2020-03-24 Google Llc Voice to text conversion based on third-party agent content
WO2018117565A1 (en) * 2016-12-19 2018-06-28 Samsung Electronics Co., Ltd. Methods and apparatus for managing control data
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10051442B2 (en) 2016-12-27 2018-08-14 Motorola Solutions, Inc. System and method for determining timing of response in a group communication using artificial intelligence
US11593668B2 (en) 2016-12-27 2023-02-28 Motorola Solutions, Inc. System and method for varying verbosity of response in a group communication using artificial intelligence
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US10341824B1 (en) * 2018-06-11 2019-07-02 Motorola Solutions, Inc. Method for real-time authorization within a push to talk for the internet of things system
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
US11043220B1 (en) 2020-05-11 2021-06-22 Apple Inc. Digital assistant hardware abstraction

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002215670A (ja) * 2001-01-15 2002-08-02 Omron Corp 音声応答装置、音声応答方法、音声応答プログラム、音声応答プログラムを記録した記録媒体および予約システム
JP2003058565A (ja) * 2001-08-15 2003-02-28 Asahi Kasei Corp 情報検索システム、情報検索サーバ、情報提供方法及びプログラム
JP2003115929A (ja) * 2001-10-02 2003-04-18 Hitachi Ltd 音声入力システムおよび音声ポータルサーバおよび音声入力端末
JP2004005600A (ja) * 2002-04-25 2004-01-08 Mitsubishi Electric Research Laboratories Inc データベースに格納された文書をインデックス付け及び検索する方法及びシステム
JP2004038252A (ja) * 2002-06-28 2004-02-05 Toshiba Solutions Corp 情報提供支援システム及び情報提供支援方法
JP2004265217A (ja) * 2003-03-03 2004-09-24 Nec Corp 音声認識機能を有する移動通信端末とその端末を利用したキーワード検索方法
JP2004297548A (ja) * 2003-03-27 2004-10-21 Nippon Telegr & Teleph Corp <Ntt> 情報検索配信方法およびシステム
JP2005004782A (ja) * 2004-07-02 2005-01-06 Sony Corp 情報処理システム、情報処理装置および情報処理方法、並びに携帯型情報端末装置
JP2005513649A (ja) * 2001-12-20 2005-05-12 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声対応消費者トランザクションシステム
JP2005210157A (ja) * 2004-01-20 2005-08-04 Nec Corp 情報配信システム、その方法、サーバ、端末装置およびプログラム
JP2005275925A (ja) * 2004-03-25 2005-10-06 Railway Technical Res Inst サーバシステム
JP2005278109A (ja) * 2004-03-26 2005-10-06 Nec Corp 会話サーバ
JP2005352776A (ja) * 2004-06-10 2005-12-22 Nippon Telegr & Teleph Corp <Ntt> 会話情報適応型情報サービス提供方法および会話情報適応型情報サービス提供システム、ならびにそのための装置とプログラム

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5870454A (en) * 1997-04-01 1999-02-09 Telefonaktiebolaget L M Ericsson Telecommunications speech/text conversion and message delivery system
WO1999063425A1 (fr) 1998-06-02 1999-12-09 Sony Corporation Procede et appareil de traitement d'informations et support de fourniture d'informations
US6480819B1 (en) 1999-02-25 2002-11-12 Matsushita Electric Industrial Co., Ltd. Automatic search of audio channels by matching viewer-spoken words against closed-caption/audio content for interactive television
US6434527B1 (en) * 1999-05-17 2002-08-13 Microsoft Corporation Signalling and controlling the status of an automatic speech recognition system for use in handsfree conversational dialogue
US6339706B1 (en) 1999-11-12 2002-01-15 Telefonaktiebolaget L M Ericsson (Publ) Wireless voice-activated remote control device
US7047196B2 (en) * 2000-06-08 2006-05-16 Agiletv Corporation System and method of voice recognition near a wireline node of a network supporting cable television and/or video delivery
EP1299989A2 (en) * 2000-07-07 2003-04-09 Science Applications International Corporation A system or method for calling a vanity number using speech recognition
FI114358B (fi) * 2002-05-29 2004-09-30 Nokia Corp Menetelmä digitaalisessa verkkojärjestelmässä päätelaitteen lähetyksen ohjaamiseksi
US7548858B2 (en) * 2003-03-05 2009-06-16 Microsoft Corporation System and method for selective audible rendering of data to a user based on user input
US7107017B2 (en) * 2003-05-07 2006-09-12 Nokia Corporation System and method for providing support services in push to talk communication platforms
US7558736B2 (en) * 2003-12-31 2009-07-07 United States Cellular Corporation System and method for providing talker arbitration in point-to-point/group communication
US7197502B2 (en) * 2004-02-18 2007-03-27 Friendly Polynomials, Inc. Machine-implemented activity management system using asynchronously shared activity data objects and journal data items
US20060075429A1 (en) * 2004-04-30 2006-04-06 Vulcan Inc. Voice control of television-related information
US7155207B2 (en) * 2004-09-09 2006-12-26 Nextel Communications Inc. System and method of analyzing communications between a calling party and a called party
US20060136224A1 (en) * 2004-12-22 2006-06-22 Eaton William C Communications devices including positional circuits and methods of operating the same
US20060167676A1 (en) * 2005-01-26 2006-07-27 Research In Motion Limited Method and apparatus for correction of spelling errors in text composition
US20060182236A1 (en) * 2005-02-17 2006-08-17 Siemens Communications, Inc. Speech conversion for text messaging
US7949529B2 (en) * 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
US20080214151A1 (en) * 2005-09-14 2008-09-04 Jorey Ramer Methods and systems for mobile coupon placement
US20070112571A1 (en) * 2005-11-11 2007-05-17 Murugappan Thirugnana Speech recognition at a mobile terminal
US7991895B2 (en) * 2005-12-09 2011-08-02 Nokia Corporation Limiting access to network functions based on personal characteristics of the user

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002215670A (ja) * 2001-01-15 2002-08-02 Omron Corp 音声応答装置、音声応答方法、音声応答プログラム、音声応答プログラムを記録した記録媒体および予約システム
JP2003058565A (ja) * 2001-08-15 2003-02-28 Asahi Kasei Corp 情報検索システム、情報検索サーバ、情報提供方法及びプログラム
JP2003115929A (ja) * 2001-10-02 2003-04-18 Hitachi Ltd 音声入力システムおよび音声ポータルサーバおよび音声入力端末
JP2005513649A (ja) * 2001-12-20 2005-05-12 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声対応消費者トランザクションシステム
JP2004005600A (ja) * 2002-04-25 2004-01-08 Mitsubishi Electric Research Laboratories Inc データベースに格納された文書をインデックス付け及び検索する方法及びシステム
JP2004038252A (ja) * 2002-06-28 2004-02-05 Toshiba Solutions Corp 情報提供支援システム及び情報提供支援方法
JP2004265217A (ja) * 2003-03-03 2004-09-24 Nec Corp 音声認識機能を有する移動通信端末とその端末を利用したキーワード検索方法
JP2004297548A (ja) * 2003-03-27 2004-10-21 Nippon Telegr & Teleph Corp <Ntt> 情報検索配信方法およびシステム
JP2005210157A (ja) * 2004-01-20 2005-08-04 Nec Corp 情報配信システム、その方法、サーバ、端末装置およびプログラム
JP2005275925A (ja) * 2004-03-25 2005-10-06 Railway Technical Res Inst サーバシステム
JP2005278109A (ja) * 2004-03-26 2005-10-06 Nec Corp 会話サーバ
JP2005352776A (ja) * 2004-06-10 2005-12-22 Nippon Telegr & Teleph Corp <Ntt> 会話情報適応型情報サービス提供方法および会話情報適応型情報サービス提供システム、ならびにそのための装置とプログラム
JP2005004782A (ja) * 2004-07-02 2005-01-06 Sony Corp 情報処理システム、情報処理装置および情報処理方法、並びに携帯型情報端末装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNB200700409001; 薮崎 正実 他: 移動通信ネットワーク技術 第1版, 20050601, pp.142-143., 社団法人電子情報通信学会 他 *
JPN6012062240; 薮崎 正実 他: 移動通信ネットワーク技術 第1版, 20050601, pp.142-143., 社団法人電子情報通信学会 他 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11017428B2 (en) 2008-02-21 2021-05-25 Google Llc System and method of data transmission rate adjustment
JP2012215673A (ja) * 2011-03-31 2012-11-08 Toshiba Corp 音声処理装置、及び音声処理方法
JP2015106203A (ja) * 2013-11-28 2015-06-08 Necパーソナルコンピュータ株式会社 情報処理装置、情報処理方法、及びプログラム
US10057424B2 (en) 2014-04-02 2018-08-21 Xiaomi Inc. Method for voice calling, method for voice playing and devices thereof
JP2016517253A (ja) * 2014-04-02 2016-06-09 シャオミ・インコーポレイテッド 音声通話方法、音声再生方法、装置、プログラム、及び記録媒体
JP2018517917A (ja) * 2015-03-13 2018-07-05 アリババ グループ ホウルディング リミテッド 通信ソフトウェアにおいて音声により業務を起動する方法及びこれに対応する装置
JP2019523918A (ja) * 2016-05-10 2019-08-29 グーグル エルエルシー デバイス上の音声アシスタントの実装
US11341964B2 (en) 2016-05-10 2022-05-24 Google Llc Voice-controlled media play in smart media environment
US11355116B2 (en) 2016-05-10 2022-06-07 Google Llc Implementations for voice assistant on devices
US11922941B2 (en) 2016-05-10 2024-03-05 Google Llc Implementations for voice assistant on devices
US11935535B2 (en) 2016-05-10 2024-03-19 Google Llc Implementations for voice assistant on devices
US11990126B2 (en) 2016-05-10 2024-05-21 Google Llc Voice-controlled media play in smart media environment
US11860933B2 (en) 2016-05-13 2024-01-02 Google Llc Personalized and contextualized audio briefing
JP2019505023A (ja) * 2016-12-30 2019-02-21 グーグル エルエルシー 音声起動されたデータ・パケットのデータ構造プーリング
US10719515B2 (en) 2016-12-30 2020-07-21 Google Llc Data structure pooling of voice activated data packets
US11625402B2 (en) 2016-12-30 2023-04-11 Google Llc Data structure pooling of voice activated data packets

Also Published As

Publication number Publication date
US20070150286A1 (en) 2007-06-28
EP1963991A4 (en) 2010-05-05
WO2007075238A1 (en) 2007-07-05
US7996228B2 (en) 2011-08-09
CN101341482A (zh) 2009-01-07
KR20080086465A (ko) 2008-09-25
EP1963991A1 (en) 2008-09-03

Similar Documents

Publication Publication Date Title
JP2009521745A (ja) 音声で起動されるネットワーク動作
US11232162B1 (en) In-conversation search
US11216522B2 (en) State-dependent query response
US10182028B1 (en) Method and system for storing real-time communications in an email inbox
US9105262B2 (en) Audio output of a document from mobile device
CN102427493B (zh) 用应用扩充通信会话
CN110574004B (zh) 经由可选的图形元素初始化与自动代理的交谈
JP5394738B2 (ja) 音声制御型ワイヤレス通信デバイス・システム
US20050266884A1 (en) Methods and systems for conducting remote communications
US20120259633A1 (en) Audio-interactive message exchange
JP2012503364A (ja) 無線機器に対する既定の応答方法及び装置
US20110091022A1 (en) Method and apparatus for unified interface for heterogeneous session management
Lazzari Spoken translation: challenges and opportunities
JP4354354B2 (ja) データ処理のシステム及び方法
KR20090044362A (ko) 사용자 커뮤니케이션을 위한 메시징 서비스 제공 방법 및그 시스템
US20140279239A1 (en) Computer Implemented Search System
JP2002252708A (ja) 通話仲介システム、通話仲介方法、及びプログラム
WO2006112825A2 (en) Methods and systems for conducting remote communications

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091019

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120502

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120802

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20121130