JP2017515141A - 言語モデルカスタマイズのためのフレキシブルスキーマ - Google Patents

言語モデルカスタマイズのためのフレキシブルスキーマ Download PDF

Info

Publication number
JP2017515141A
JP2017515141A JP2016559328A JP2016559328A JP2017515141A JP 2017515141 A JP2017515141 A JP 2017515141A JP 2016559328 A JP2016559328 A JP 2016559328A JP 2016559328 A JP2016559328 A JP 2016559328A JP 2017515141 A JP2017515141 A JP 2017515141A
Authority
JP
Japan
Prior art keywords
hint
language modeling
modeling components
list
domains
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016559328A
Other languages
English (en)
Other versions
JP2017515141A5 (ja
JP6571106B2 (ja
Inventor
レヴィット,マイケル
ゲルマン,ヘルナン
チャーン,シュワーンユイ
パルタサラティ,サランガラジャン
デュムラン,ブノワ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2017515141A publication Critical patent/JP2017515141A/ja
Publication of JP2017515141A5 publication Critical patent/JP2017515141A5/ja
Application granted granted Critical
Publication of JP6571106B2 publication Critical patent/JP6571106B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/02Digital computers in general; Data processing equipment in general manually operated with input through keyboard and computation using a built-in program, e.g. pocket calculators
    • G06F15/0225User interface arrangements, e.g. keyboard, display; Interfaces to other computer systems
    • G06F15/0233User interface arrangements, e.g. keyboard, display; Interfaces to other computer systems with printing provisions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Information Transfer Between Computers (AREA)
  • User Interface Of Digital Computer (AREA)
  • Stored Programmes (AREA)
  • Machine Translation (AREA)

Abstract

本発明は音声認識のための言語モデリングコンポーネントのカスタム化をもたらす。リストのうちの複数の言語モデリングコンポーネントを組み合わせるために、ヒントが認識サービスプロバイダに送信される。ヒントは多数の様々なドメインに基づいてよい。ヒントに基づく言語モデリングコンポーネントのカスタマイズされた組み合わせが、認識サービスプロバイダから受信される。

Description

スマートフォン、デスクトップ、ラップトップ、タブレット、ゲームコンソール等のような多くのコンピューティングデバイスは、音声検索及びショートメッセージ口述(dictation)のような多数の様々なドメインにわたって使用する自動音声認識(automatic speech recognition:ASR)を組み込むアプリケーションを利用している。音声認識の質を改善するために、(例えば、ショッピング、ゲーム、音楽、映画などの)言語モデルがしばしば使用され、様々な分野にフォーカスされた音声の認識を促す。言語モデルを利用することに関連する現在の弱点は、異なるドメインが認識サービスプロバイダにより同時に供給されなければならないASR状況を含む。これらの状況では、多数の潜在的に大きな言語モデルがメモリに維持されなければならず、認識サービスプロバイダのリソースに負担をかけてしまう。本発明の様々な形態はこれら及び他の観点からなされている。
この概要の欄は、以下の詳細な説明で更に説明される概念のうち選択されたものを簡易な形式で紹介するために設けられている。この概要の欄は、請求項に係る対象事項についての主要な特徴又は本質的特徴を識別するためには意図されておらず、請求項に係る対象事項の範囲を判断する材料としても意図されてもいない。
実施例は音声認識のための言語モデリングコンポーネントのカスタマイズをもたらす。言語モデルコンポーネントのリストは、コンピューティングデバイスにより利用可能にされる。そして、リスト中の複数の言語モデルコンポーネントを組み合わせるために認識サービスプロバイダにヒントが送られる。ヒントは多数の異なるドメインに基づいていてもよい。言語モデリングコンポーネントのうちのカスタム化された組み合わせは、ヒントに基づいて、コンピューティングデバイスにより受信される。
これら及び他の特徴並びに利点は、以下の詳細な説明を読むとともに関連する図面を閲覧することにより更に明らかになるであろう。上記の一般的な説明及び以下の詳細な説明は何れも例示であるに過ぎず、請求項に係る発明の限定ではないことが、理解されるべきである。
図1は音声認識のための言語モデリングコンポーネントをカスタム化する一実施例によるシステムを示すブロック図である。
図2は一実施例による図1のシステムにより使用される様々なヒントを示すブロック図である。
図3は一実施例による図1のシステムにより使用される様々なドメインを示すブロック図である。
図4は一実施例による音声認識のための言語モデリングコンポーネントをカスタム化するルーチンを示す一実施例によるフローチャートである。
図5は様々な形態が実施されてよいコンピューティングデバイスの簡略化されたブロック図である。
図6Aは様々な形態が実施されてよいモバイルコンピューティングデバイスについての概略ブロック図である。
図6Bは様々な形態が実施されてよいモバイルコンピューティングデバイスについての概略ブロック図である。
図7は様々な形態が実施されてよい分散型コンピューティングシステムについての概略ブロック図である。
実施例は音声認識のための言語モデリングコンポーネントのカスタム化をもたらす。言語モデリングコンポーネントのリストは、コンピューティングデバイスのために利用可能にされる。そして、リスト中の複数の言語モデルコンポーネントを組み合わせるために認識サービスプロバイダにヒントが送られる。ヒントは複数のドメインのうちの何れかに基づいてよい。言語モデリングコンポーネントのうちのカスタム化された組み合わせは、ヒントに基づいて、コンピューティングデバイスにより受信される。
以下の詳細な説明では、本願の一部を為す添付図面が参照され、図面には具体的な形態又は具体例が例示的に示されている。本発明の精神又は範囲から逸脱することなく、これらの形態は組み合わせられてもよいし、他の形態が使用されてもよいし、構造的な変更が施されてもよい。従って以下の詳細な説明は限定的な意味で解釈されるべきでなく、本発明の範囲は添付の特許請求の範囲とその均等物によって規定される。
各図を通じて同様な番号は同様な要素を表現する各図面を参照しながら、本発明の様々な側面が説明される。図1は音声認識のための言語モデリングコンポーネントをカスタム化するために使用されてよい一実施例によるシステム100を示すブロック図である。システム100は、コンピューティングデバイス150と通信する認識サービスプロバイダ102を含み、コンピューティングデバイス150は、1人以上のユーザー(図示せず)から音声及び/又は文字の入力を受信するように構成される。一実施例では、認識サービスプロバイダ102は、コンピューティングデバイス150(すなわち、「ヒント」)上で動作するアプリケーション170により提供される「ヒント」160(すなわち、ガイダンス)に基づいて、特定の音声認識ドメイン又はシナリオに特化された言語モデリングコンポーネントの様々な組み合わせを目指して、音声認識の「オンザフライ」又はオンラインの言語モデル補間を行うように構成される。特に、本願で詳細に説明されるように、アプリケーション170により提供されるヒント160は、認識サービスプロバイダ102による言語モデルカスタム化のための柔軟なスキーマを形成する。
様々な実施例において、コンピューティングデバイス150は、デスクトップコンピュータ、ラップトップコンピュータ、スマートフォン、ビデオゲームコンソール又はテレビジョンを含んでよいが、これらに限定されない。コンピューティングデバイス150は、スピーチ(又は音声)を検出し及びビデオ/画像を受信するために使用される1つ以上の記録装置(図示せず)を含んでもよいし或いはそれらと通信する(そのような装置は、例えば、「MICROSOFT KINECT」(登録商標)、マイクロフォン等である)。コンピューティングデバイス150は、ヒント160を提供するように構成されるアプリケーション170を保存し、ヒント160は言語モデリング(LM)コンポーネント120をカスタム化するために認識サービスプロバイダ102により使用されてよい。一実施例によれば(以下において詳細に説明されるように)、アプリケーション170は、LMコンポーネント120を含むLMコンポーネントリスト165を生成するように構成されてよい。一実施例では、LMコンポーネント120は、音声認識に使用されてよいコンポーネント125A-125Nを含んでよい。一実施例では、コンポーネント125A-125Nの様々な組み合わせが、特定のドメイン、シナリオ又は状況に基づいて、包含される又はウェイト130とともに(例えば、アプリケーション開発者により)提供される。例えば、ゲームに主に使用されるドメイン又はシナリオに向けて特化されたコンポーネント125A-125Nの組み合わせを含む言語モデルは、以下のように適用されるウェイトを有してもよい(ゲーム0.5,映画0.3及び音楽0.2。他のコンポーネントタイプ(例えば、ショッピング等)及びウェイトの組み合わせも可能である。
一実施例では、LMコンポーネント120は、アプリケーション170から受信したヒント160に含まれるガイダンスに基づいて認識サービスプロバイダ102によりカスタム化されるコンポーネントコンビネーション(コンポーネントの組み合わせ)の選択において使用される(すなわち、言語モデル105)。特に、言語モデル105は、プレコンパイルされた(又は事前にまとめられた)コンポーネントコンビネーション110、トピックに基づくコンポーネントコンビネーション112、固定ウェイトのコンポーネントコンビネーション114及び他のコンポーネントコンビネーション116を含んでよいが、これらに限定されない。例えば、プレコンパイルされたコンポーネントコンビネーション110を含む言語モデルは、ショートメッセージ口述の音声検索のような特定のドメインに対して特化されてもよく;トピックに基づくコンポーネントコンビネーション112を含む言語モデルは、システム100で現在利用可能なLMコンポーネントに対応する1つ以上のトピック/スタイルに基づく利用可能なアイテムのプレコンパイルされたリスト(例えば、ショッピング、ゲーム、音楽など)に基づいてもよく;固定ウェイトのコンポーネントコンビネーション114を含む言語モデルは、特定のシナリオに対する開発者の知識(intuition)に対して特化されたLMコンポーネントの既存の固定ウェイトの組み合わせを含んでよい(例えば、ウェイト130はLMコンポーネントに適用される)。
本願で詳細に説明されるように、認識サービスプロバイダ102は、様々な認識状況又はシナリオに対して最適なLMコンポーネントコンビネーションを選択する際にヒント160を活用する。一実施例では、ヒント160は、認識リクエスト175言語モデル補間の一部として(すなわち、「オンザフライ」)、認識サービスプロバイダ102に、アプリケーション170により送られる。別の実施例では、ヒント160は、オフライン初期化プロセスの一部として、認識サービスプロバイダ102に、アプリケーション170により送られる。一実施例によれば、アプリケーション170は音声認識アプリケーションを含み、音声認識アプリケーションは、例えば、ワシントン州レドモンドのマイクロソフトコーポレーションによる「BING VOICE SEARCH」、「WINDOWS(登録商標) PHONE SHORT MESSAGE DICTATION」及び「XBOX MARKET PLACE VOICE SEARCH」のアプリケーション等であってよい。しかしながら、本願で説明される様々な形態に従って、他の業者による他のアプリケーション(オペレーティングシステムを含む)が代替的に使用されてもよいことが、理解されるべきである。
図2は一実施例による図1のシステム100により使用される様々なヒント160を示すブロック図である。ヒント160は、事前設定されたコンビネーションヒント210、認識トピックヒント220、再利用の既存のコンビネーションヒント230、テキストコーパスヒント240、及び、オーディオコーパスヒント250を含む。事前設定されたコンビネーションヒント210は、音声サーチ、ショートメッセージ口述などのような広範囲に及ぶドメインをカバーするLMコンポーネント(例えば、LMコンポーネント120)についての予め為された(例えば、アプリケーション開発者により為された)選択を含んでよい。所定の選択は、例えば、認識サービスプロバイダ102による「オンザフライ」コンポーネント補間のためのLMコンポーネントの既存の固定ウェイト組み合わせ又は予めコンパイルされた言語モデルを含んでよい。
認識トピックヒント220は、LMコンポーネント120に対応する利用可能なアイテムの予めコンパイルされたリストの中からの1つ又はそれ以上のトピック/スタイルのマニュアルによる選択を含んでよい。例えば、LMコンポーネントがショッピング、ゲーム、音楽、映画などを含む場合、予めコンパイルされたリストは、(例えば、ゲームコンソールのための音楽、映画、ゲームなどのような)特定の音声認識アプリケーションに適切であるように、アプリケーション開発者により選択されたLMコンポーネントに対応するアイテムを含んでもよい。上述したように、一実施例では、LMコンポーネントはアプリケーション開発者によるウェイトとともに提供されてもよい。認識サービスプロバイダ102が認識トピックヒント220を受信した後に、認識サービスプロバイダ102は、アプリケーション170から認識リクエストを受信した場合に、提供されたウェイトとともに、選択されたLMコンポーネントを加えてよいことが、認められるべきである。
再利用の既存のコンビネーションヒント230は、LMコンポーネントの既存のシナリオ固有の組み合わせの再利用を考慮する。例えば、アプリケーション開発者が既存の認識アプリケーションを既に有し、その既存の認識アプリケーションに関し、LMコンポーネントの組み合わせが既に最適化されているかもしれない。再利用の既存のコンビネーションヒント230に応じて、認識サービスプロバイダ102により、同じコンビネーションが、新しいが類似するシナリオについて再利用されてよい。
テキストコーパスヒント240は、そのコーパスに関し、最適なLMコンポーネント補間係数を学習するために、システムのドメイン内テキストコーパスを含む。例えば、アプリケーション開発者がソフトウェア関連トランスクリプト(software-related transcripts)の集まりを提供する場合、その結果の言語モデルは、ソフトウェア関連オーディオリクエストを取り扱うように期待される。LMコンポーネントのウェイトベクトルをコーパスに関して最適化するために、期待値最大化(Expectation Maximization)アルゴリズムのような技術が利用されてよいことを、当業者は認めるべきである。上記のヒント210-230とは異なり、テキストコーパスヒント240(及び口述するオーディオコーパスヒント)は、黙示的なヒントであることが、理解されるべきである。
オーディオコーパスヒント250は、コーパスに関して最適なLMコンポーネント補間係数を学習するため、システム100のドメイン内オーディオコーパスを含んでよい。一実施例では、類似する認識精度に到達するために、ドメイン内テキストコーパスに必要なサンプルよりも、かなり多数のサンプルが必要とされるかもしれないことが、理解されるべきである。
図3は一実施例による図1のシステム100において使用されてよい様々なドメイン300を示すブロック図である。ドメイン300は、音声サーチドメイン310及びショートメッセージ口述ドメイン320等のような広範囲に及ぶドメインを含んでよい。ドメイン300は、ゲームコンソールドメイン330等のような狭い範囲のドメインを含んでもよい。一実施例において、アプリケーション170は、LMコンポーネントコンビネーションを指定するために直感的なドメイン名(例えば、「XBOXドメイン」)を指定するように構成されてよい。ドメイン300は、上述したものに加えて広い又は狭いドメインを含み得る他のドメイン340を含んでよい。
図4は一実施例による音声認識のための言語モデリングコンポーネントをカスタム化するルーチン400を示す一実施例によるフローチャートである。ここに提示されるルーチンの議論を考察する場合、本発明の様々な実施例の論理的な動作は、(1)コンピュータにより実行される一連の動作又はコンピューティングシステムで動作するプログラムモジュールとして、及び/又は、(2)コンピューティングシステム内の相互接続されたマシン論理回路又は回路モジュールとして実現されてよいことが、認められるべきである。実現手段は、本発明を実現するコンピューティングシステムのパフォーマンス条件に依存して選択される事項である。従って、図4に示される及び本願で説明される様々な実施例を為す論理的な動作は、動作、構造デバイス、処理あるいはモジュールのように様々に言及されてよい。本願の特許請求の範囲に記載されるような本発明の精神及び範囲から逸脱することなく、これらの動作、構造デバイス、処理及びモジュールは、ソフトウェア、ハードウェア、ファームウェア、特定用途向けディジタル論理装置、及び、それらの任意の組み合わせにより実現されてよいことが当業者に認められるであろう。
ルーチン400は動作405において始まり、コンピューティングデバイス150で動作するアプリケーション170が、ユーザー(例えば、アプリケーション開発者)による選択のために、言語モデリング(LM)コンポーネントのリストを提示する。様々な実施例において、リストは、ユーザーインターフェース155に表示されてもよいし、代替的に、プログラム的アクセス(programmatic access)によりアプリケーション開発者に提供されてもよい。例えば、リストは図1に関連して上述したLMコンポーネントリスト165を含んでもよい。
動作405から、ルーチン400は動作410に続き、コンピューティングデバイス150で動作するアプリケーション170は、リストから選択されるLMコンポーネントを組み合わせるためのヒントを送信する。ヒント160は1つ以上のドメイン300に基づいていてよい。例えば、一実施例では、ヒント160は、1つ以上のドメインに基づくプレコンパイルされた言語モデル(例えば、プレコンパイルされたコンポーネントコンビネーション110)の選択肢を含んでよい。別の実施例では、ヒント160は、1つ以上のドメインに基づくLMコンポーネントの固定ウェイトの組み合わせの選択肢(例えば、固定ウェイトのコンポーネントコンビネーション114)を含んでよい。更に別の実施例では、ヒント160は、1つ以上のLMコンポーネントに対応する(例えば、プレコンパイルされたリストからの)1つ以上の認識トピックの選択肢(例えば、トピックに基づくコンポーネントコンビネーション112)を含んでよい。図1に関連して上述したように、1つ以上のウェイト130がLMコンポーネントに適用されてもよい。別の実施例では、ヒント160は、図2に関連して上述したような、ドメイン内テキストコーパス或いはドメイン内オーディオコーパスを含んでよい。更に別の実施例では、ヒント160は、再利用のためのLMコンポーネントの既存の組み合わせを含んでよい。一実施例では、ヒント160は、認識リクエストとともに、認識サービスプロバイダ102へアプリケーション170により送信されてよいことが、理解されるべきである。別の実施例では、ヒント160は、オフライン初期化プロセスの一部として、認識リクエストを送信する前に認識サービスプロバイダへ送信されてもよい。例えば、アプリケーション開発者は、登録プロセスの一部として、アプリケーションを起動する前にヒント160を送信し、これにより、ヒント160を処理するための十分な時間を認識サービスプロバイダ102に提供してもよい。ドメイン内テキストコーパス及びドメイン内オーディオコーパス(上述)のような黙示的なヒントが、この形式で提出されてもよいことが、認められるべきである。
動作410から、ルーチン400は動作415に続き、コンピューティングデバイス150で動作するアプリケーション170は、ヒント160に基づいてカスタマイズされたLMコンポーネントの組み合わせを受信する。特に、コンピューティングデバイス150は、ヒント160において受信されるガイダンスに基づいて認識サービスプロバイダ102によりカスタマイズされた言語モデル(例えば、何れかの言語モデル105)を受信する。
動作415から、ルーチン400は動作420に続き、コンピューティングデバイス150で動作するアプリケーション170は、提出したヒントと関連するLMコンポーネントとの間のコネクション(又は関連性又は結び付き)を維持してもよい。例えば、アプリケーション開発者によりマニュアルで選択されたトピックを含むヒントと、認識サービスプロバイダ102によりカスタマイズされた対応するLMコンビネーション又は言語モデルのライフサイクルとの間の安定したコネクションを維持するように、アプリケーション170は構成されてもよい。特に、一実施例によれば、アプリケーション開発者は固有のIDの提供を受け、固有のIDは、アプリケーション開発者により識別される特定のシナリオ(又はそれに匹敵するシナリオ)に応じた認識に使用される特定のカスタマイズされた言語モデルを参照するために使用される。上記のアプローチは様々な粒度レベル(granularity level)で適用されてよいことが理解されるべきであり、粒度レベルは例えばドメイン毎、シナリオ毎、アプリケーション毎、アプリケーション分野毎、アプリケーションユーザー毎、及びこれらの組み合わせを含んでよいが、これらに限定されない。動作420を経てルーチン400は終了する。
図5ないし図7及び関連する記述は、本発明の実施例が使用されてよい様々な動作環境を議論している。しかしながら、図5ないし図7に関連して図示及び説明されるデバイス及びシステムは、例示及び説明を目的としており、本願で説明される発明形態を実施するために使用されてよい膨大な数のコンピューティングデバイスの構成についての限定ではない。
図5は様々な形態が実施されてよいコンピューティングデバイス500の具体的な物理構成を示すブロック図である。基本構成では、コンピューティングデバイス500は少なくとも1つの処理ユニット502及びシステムメモリ504を含んでよい。コンピューティングデバイスの構成及び種類に依存して、システムメモリ504は、揮発性メモリ(例えば、ランダムアクセスメモリ(RAM))、不揮発性メモリ(例えば、リードオンリメモリ(ROM))、フラッシュメモリ又はそれらの任意の組み合わせを含んでよいが、これらに限定されない。システムメモリ504は、オペレーティングシステム505及びアプリケーション170を含んでよい。オペレーティングシステム505は、例えば、コンピューティングデバイス500の動作を制御することに適しており、一実施例では、ワシントン州レドモンドのマイクロソフトコーポレーションによるウィンドウズ(登録商標)オペレーティングシステムを有する。アプリケーション170(一実施例では、オペレーティングシステム505に含まれてよい)は、例えば、(図4のルーチン400の動作に関して上述したような)言語モデリングコンポーネントをカスタマイズすることを含むルーチンを実行する機能を含んでよい。
コンピューティングデバイス500は追加的な特徴又は機能を有してよい。例えば、コンピューティングデバイス500は、例えば、磁気ディスク、光ディスク、ソリッドステートストレージデバイス(SSD)、フラッシュメモリ又はテープ等のような追加的な(取り外し可能な及び/又は取り外し可能でない)データストレージデバイスを含んでよい。そのような追加的なストレージは、取り外し可能なストレージ509及び取り外し可能でないストレージ510により、図5に示されている。コンピューティングデバイス500は、キーボード、マウス、ペン、音声入力デバイス(例えば、マイクロフォン)、ジェスチャを受け付けるタッチ入力デバイス、加速度計又は回転センサ等のような入力デバイスも有する。ディスプレイ、スピーカ、プリンタ等のような出力デバイス514が含まれていてもよい。上記のデバイスは具体例であり、それ以外のものが使用されてもよい。コンピューティングデバイス500は、他のコンピューティングデバイス518との通信を可能にする1つ以上の通信コネクション516を含んでよい。適切な通信コネクション516の具体例は、RF送信機、受信機、及び/又はトランシーバ回路;ユニバーサルシリアルバス(USB)、パラレル及び/又はシリアルポート等を含んでよいが、これらに限定されない。
更に、様々な形態が電気回路又はシングルチップで実施されてもよく、その電気回路は、個別電子素子、論理ゲートを含むパッケージングされた又は集積された電子チップ、マイクロプロセッサを使用する回路を含み、シングルチップは電子素子又はマイクロプロセッサを含む。例えば、様々な形態はシステムオンチップ(SOC)により実施されてもよく、その場合、図5に示される各々又は複数のコンポーネントは、単独の集積回路に統合されてもよい。そのようなSOCデバイスは、1つ以上の処理ユニット、グラフィックスユニット、通信ユニット、システム可視化ユニット、及び、様々なアプリケーション機能を含み、それらの機能は全て単独の集積回路としてチップ基板上で集積されてよい(又は「焼き付け」られてよい)。SOCにより動作する場合、上記の機能は、単独の集積回路(チップ)上でコンピューティングデバイス/システム500の他のコンポーネントとともに統合されるアプリケーション固有の論理装置により動作してよい。実施例は、例えば、AND、OR及びNOT等のような論理動作を実行することが可能な他の技術を利用して実施されてよく、他の技術は、機械的技術、光学的技術、流体的技術及び量子的技術を含んでよいが、これらに限定されない。更に、実施例は、汎用コンピュータの中で又は何らかの他の回路若しくはシステムにおいて実施されてよい。
本願で使用されるようなコンピュータ読み取り可能な媒体という用語はコンピュータ記憶媒体(又は記録媒体)を含んでよい。コンピュータ記憶媒体は、情報を保存するための任意の方法又は技術で実施される揮発性及び不揮発性の、着脱可能及び着脱可能でないものを含んでよく、情報は、例えばコンピュータ読み取り可能な命令、データ構造又はプログラムモジュール等である。システムメモリ504、取り外し可能なストレージデバイス509及び取り外し可能でないストレージデバイス510は、全て、コンピュータ記憶媒体(すなわち、メモリストレージ)の具体例である。コンピュータ記憶媒体は、RAM、ROM、EEPROM(電気的に消去可能なリードオンリメモリ)、フラッシュメモリ又は他のメモリ技術、CD-ROM、ディジタル多用途ディスク(DVD)又は他の光ストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ又は他の磁気ストレージデバイス、或いは、他の何らかの製品を含んでよく、その製品は、情報を保存するために使用されることが可能であり且つコンピューティングデバイス500によりアクセスされることが可能である。そのような何らかのコンピュータ記憶媒体は、コンピューティングデバイス500の一部分であってもよい。コンピュータ記憶媒体は、搬送波を含まず、及び、伝搬又は変調されるデータ信号を含まない。
通信媒体は、コンピュータ読み取り可能な命令、データ構造、プログラムモジュール、又は、例えば搬送波などのような変調されたデータ信号における他のデータ、又は、他の伝送手段により実現されてよく、及び、任意の情報配信媒体を含んでよい。「変調されたデータ信号」という用語は、信号中の情報をエンコードするためのそのような方法で設定又は変更された1つ以上の特性を有する信号を表す。非限定的な具体例として、通信媒体は、有線媒体(例えば、有線ネットワーク又は直接配線されたコネクション)、及び、無線媒体(例えば、音響、無線周波数(RF)、赤外線及び他の無線媒体)を含んでよい。
図6A及び図6Bは、様々な形態が実施されてよい例えばモバイルコンピューティングデバイス650である適切なモバイルコンピューティング環境を示し、モバイルコンピューティングデバイス650は、例えば、スマートフォン、タブレットパーソナルコンピュータ、ラップトップコンピュータ等を含んでよいが、 これらに限定されない。図6Aを参照すると、実施形態の一例によるモバイルコンピューティングデバイス650が示されている。基本構成では、モバイルコンピューティングデバイス650は、入力要素及び出力要素の双方を有する携帯用コンピュータである。入力要素は、タッチスクリーンディスプレイ625及び入力ボタン610を含み、モバイルコンピューティングデバイス650に情報を入力することをユーザーに許容する。モバイルコンピューティングデバイス650は、別のユーザー入力を許容する選択的な側面入力要素620を組み込んでもよい。選択的な側面入力要素620は、回転スイッチ、ボタン、又は、他の任意の種類のマニュアル入力要素であってよい。代替的な実施例では、モバイルコンピューティングデバイス650は、より多数の又はより少数の要素を組み込んでいてもよい。更に別の代替例では、モバイルコンピューティングデバイスは、ディスプレイ625及び入力ボタン610を有するセルラー電話機などのような携帯電話システムである。モバイルコンピューティングデバイス650は選択的なキーパッド605を含んでもよい。選択的なキーパッド605は、タッチスクリーンディスプレイ上で生成される「ソフト」キーパッド又は物理的なキーパッドであってよい。
モバイルコンピューティングデバイス650は、ディスプレイ625のような出力要素を組み込んでおり、ディスプレイはグラフィックユーザーインターフェース(GUI)を表示することが可能である。他の出力要素はスピーカ630及びLED680である。更に、モバイルコンピューティングデバイス650はバイブレーションモジュール(図示せず)を組み込んでおり、バイブレーションモジュールは、ユーザーにイベントを通知するためにモバイルコンピューティングデバイス650を振動させる。更に別の形態では、モバイルコンピューティングデバイス650は、出力信号を提供する別の手段を提供するヘッドフォンジャック(図示せず)を組み込んでいてもよい。
モバイルコンピューティングデバイス650との組み合わせで説明されているが、代替的な形態は、デスクトップ環境、ラップトップ又はノートブックコンピュータシステム、マイクロプロセッサシステム、マイクロプロセッサベースの又はプログラム可能なコンシューマ電子装置、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ等のような任意のコンピュータシステムとの組み合わせで使用されてよい。様々な形態は、遠隔した(複数の)処理デバイスによりタスクが実行される分散型コンピューティング環境で実施されてもよく、その処理デバイスは分散型コンピューティング環境における通信ネットワークを介してリンクされ;プログラムは、ローカル及びリモート双方のメモリストレージデバイスに配置されてよい。要するに、複数の環境センサ、ユーザーに通知を提供する複数の出力要素、及び、複数の通知イベントタイプを有する任意のコンピュータシステムは、本願で説明される様々な形態を組み込んでよい。
図6Bは、図6Aに示されるモバイルコンピューティングデバイス650のような一形態で使用されるモバイルコンピューティングデバイスのうちのコンポーネントを示すブロック図である。すなわち、モバイルコンピューティングデバイス650は或る形態を実現するようにシステム602を組み込むことが可能である。例えば、システム602は、デスクトップ又はノートブックコンピュータのアプリケーションと類似する1つ以上のアプリケーションを実行することが可能な「スマートフォン」を実現する際に使用されることが可能である。一実施例では、システム602は、統合されたパーソナルディジタルアシスタント(PDA)及びワイヤレスフォンのようなコンピューティングデバイスとして統合されている。
アプリケーション170は、メモリ662にロードされ、オペレーティングシステム664上で又はそれに関連して動作する。システム602はメモリ662内に不揮発性ストレージ668を含む。不揮発性ストレージ668は、システム602の電源が遮断された場合でも失われるべきでない永続的な情報を保存するために使用される。アプリケーション170は不揮発性ストレージ668における情報を使用し及びそこに保存する。アプリケーション170は、例えばルーチンを実行する機能を有し、ルーチンは例えば図4のルーチン400の動作に関して上述したような言語モデリングコンポーネントをカスタマイズすることを含んでよい。同期アプリケーション(図示せず)がシステム602に常駐し、それはホストコンピュータに存在する対応する同期アプリケーションと相互作用するようにプログラムされ、ホストに保存される対応する情報と同期して不揮発性ストレージ668に保存される情報を維持する。他のアプリケーションがメモリ662にロードされ、コンピューティングデバイス650上で動作してよいことも、理解されるべきである。
システム602は、1つ以上のバッテリとして実現されてよい電源供給部670を有する。電源供給部670は、ACアダプタのような外部電源、又は、バッテリを補足又は再充電する給電されるドッキングクレードル(cradle)を含んでもよい。
システム602は無線部672(すなわち、無線インターフェースレイヤ)を含み、無線部は無線周波数通信信号を送信及び受信する機能を実行する。無線部672は、通信キャリア又はサービスプロバイダにより、システム602と「外の世界(outside world)」との間の無線接続を促進する。無線部672への及びそこからの通信は、OS664の制御の下で行われる。言い換えれば、無線部672により受信された通信信号はOS664を介してアプリケーション170に拡布され、その逆も行われる。
無線部672は、ネットワークを介して行うような他のコンピューティングデバイスとの通信をシステム602に許容する。無線部672は通信媒体の一例である。システム602の実施例は、(1)視覚的な通知を提供するために使用されることが可能なLED680及び(2)聴覚的な通知を提供するためにスピーカ630とともに使用されることが可能なオーディオインターフェース674という2種類の通知出力デバイスを有するように示されている。これらのデバイスは電源供給部670に直接的に結合され、デバイスが起動されると、たとえプロセッサ660及び他のコンポーネントがバッテリ電力を節約するためにシャットダウンされたとしても、通知手段により指示される期間にわたってデバイスがそのまま残るようにする。LED680は、ユーザーが動作を行うまでいつまでも、デバイスのパワーオン状態を表示したままであるようにプログラムされてよい。オーディオインターフェース674は、可聴信号をユーザーへ提供する及びユーザーから可聴信号を受信するために使用される。例えば、スピーカ630に結合されることに加えて、オーディオインターフェース674は、例えば電話の会話を促すように可聴(例えば、音声)の入力を受信するためにマイクロフォン(図示せず)にも結合されてよい。一実施例によれば、マイクロフォンは、通知の制御を促すためのオーディオセンサとして機能する。システム602は、更に、静止画及びビデオストリーム等を記録するためにオンボードカメラの動作を実行させるビデオインターフェースを含んでよい。
システム602を実現するモバイルコンピューティングデバイスは追加的な特徴又は機能を有してよい。例えば、デバイスは、例えば、磁気ディスク、光ディスク又はテープ等のような(取り外し可能な及び/又は取り外し可能でない)追加的なデータストレージデバイスを含んでよい。そのような追加的なストレージは、図6Bにおいてストレージ668として示されている。
モバイルコンピューティングデバイス650により生成又は取得され、システム602により保存されたデータ/情報は、上述したように、モバイルコンピューティングデバイス650にローカルに保存されてもよいし、或いは、データは、モバイルコンピューティングデバイス650とモバイルコンピューティングデバイス650に関連する別個のコンピューティングデバイス(例えば、インターネットのような分散型コンピューティングネットワークにおけるサーバーコンピュータ)との間の有線接続又は無線接続を介して、デバイスによりアクセスされる任意のストレージ媒体に保存されてよい。そのようなデータ/情報は、無線部672により又は分散コンピューティングネットワークを経由して、モバイルコンピューティングデバイス650によりアクセスされてよいことが、理解されるべきである。同様に、そのようなデータ/情報は、ストレージのたえの子ピューティングデバイス同士の間で容易に転送され、周知のデータ/情報転送及びストレージ手段により使用されてよく、そのような手段は電子メール及び協調的なデータ/情報共有システムを含む。
図7は様々な形態が実施されてよい分散型コンピューティングシステムについての概略ブロック図である。分散型コンピューティングシステムは、コンピューティングデバイス703、タブレットコンピューティングデバイス705及びモバイルコンピューティングデバイス710等のような多数のクラインとデバイスを含んでよい。クライアントデバイス703,705及び710は、分散型コンピューティングネットワーク715(例えば、インターネット)と通信してよい。サーバー720は、ネットワーク715を介して、クライアントデバイス703,705及び710と通信する。サーバー720はルーチンを実行するアプリケーション170を保存し、ルーチンは、例えば、図4のルーチン400の動作に関連して上述した言語モデリングコンポーネントをカスタマイズすることを含む。
開発されたコンテンツ、アプリケーションと相互作用するコンテンツ、又は、アプリケーション170に関連して編集されるコンテンツは、様々な通信チャネル又は他のストレージタイプに保存されてよい。例えば、様々な文書は、ディレクトリサービス722、ウェブポータル724、メールボックスサービス726、インスタントメッセージングストア(保存部)728、又は、ソーシャルネットワーキングサイト730を利用して保存されてよい。アプリケーション170は、本願で説明されるようにデータの利用を可能にするために、システムのこれらのタイプのうち何れかを使用する。サーバー720はクライアントに対するプロキシミティアプリケーション170を提供する。一例として、サーバー720は、ウェブ上でアプリケーション170を提供するウェブサーバーであってもよい。サーバー720はネットワーク715によりクライアントにウェブを介してアプリケーション170を提供する。一例として、コンピューティングデバイス10は、コンピューティングデバイス703として実現され、パーソナルコンピュータ、タブレットコンピューティングデバイス705及び/又はモバイルコンピューティングデバイス710(例えば、スマートフォン)に組み込まれてもよい。これら任意の形態のコンピューティングデバイス703,705及び710は、ストア716からコンテンツを取得する。
以上、方法、システム、コンピュータプログラムプロダクト等の動作例及び/又はブロックを参照しながら、様々な形態が説明されてきた。ブロックに示される機能/処理は、何らかのフローチャートに示されているものと異なる順序でなされてもよい。例えば、連続的に示される2つのブロックが実質的に事実上同時に実行されてもよいし、関連する機能/動作に依存して、複数のブロックはしばしば逆の順序で実行されてもよい。
本願に示される1つ以上の実施例の記述及び説明は、如何なる方法によっても、請求項に係る発明の範囲を限定及び制限するようには意図されていない。実施例、具体例、及び、本願に示される詳細な事項は、請求項に係る発明のベストモードの理解を促し且つ当業者がそれを生成及び使用できる程度に十分であると考えられる。請求項に係る発明は、実施例、具体例、及び、本願に示される詳細な事項の何れかに限定されるように解釈されるべきでない。組み合わせ又は個別的な形式で図示及び説明されているか否かによらず、(構造及び方法の双方の)様々な特徴は、特定の一群の特徴を備える実施例をもたらすように、選択的に包含又は省略されるように意図されている。本願についての記述及び説明が提供されることにより、当業者は、本願に組み込まれる一般的な発明概念の広範囲に及ぶ精神の範囲内に属する変形例、修正例及び代替例を想定してもよく、その変形例などは、請求項に係る発明の広範囲に及ぶ目的から逸脱するものではない。

Claims (10)

  1. 言語モデリングコンポーネントをカスタマイズする方法であって:
    コンピューティングデバイスが、言語モデリングコンポーネントのリストを提示するステップ;
    前記コンピューティングデバイスが、前記リストのうちの複数の言語モデリングコンポーネントを組み合わせるためのヒントを送信するステップであって、前記ヒントは複数のドメインのうちの1つ以上に基づく、ステップ;及び
    前記コンピューティングデバイスが、前記ヒントに基づく前記複数の言語モデリングコンポーネントのカスタマイズされた組み合わせを受信するステップ;
    を有する方法。
  2. 前記複数の言語モデリングコンポーネントのうちの1つ以上と前記ヒントとの間のコネクションを維持するステップを更に有する請求項1に記載の方法。
  3. 前記コンピューティングデバイスが、前記リストのうちの複数の言語モデリングコンポーネントを組み合わせるためのヒントを送信することが、前記複数のドメインのうちの1つ以上に基づいて予めコンパイルされた言語モデルの選択肢を送信することを含む、請求項1に記載の方法。
  4. 前記コンピューティングデバイスが、前記リストのうちの複数の言語モデリングコンポーネントを組み合わせるためのヒントを送信することが、前記複数のドメインのうちの1つ以上に基づいて、前記複数の言語モデリングコンポーネントについての固定ウェイトの組み合わせの選択肢を送信することを含む、請求項1に記載の方法。
  5. 言語モデリングコンポーネントをカスタマイズするシステムであって:
    実行可能なプログラムコードを保存するメモリ;及び
    前記メモリに機能的に結合されるプロセッサ;
    を有し、前記プロセッサは、前記プログラムコードに含まれるコンピュータ実行可能な命令に応じて動作を行い、前記動作は:
    言語モデリングコンポーネントのリストを提示するステップ;
    前記リストのうちの複数の言語モデリングコンポーネントを組み合わせるためのヒントを送信するステップであって、前記ヒントは複数のドメインのうちの1つ以上に基づく、ステップ;
    前記ヒントに基づく前記複数の言語モデリングコンポーネントのカスタマイズされた組み合わせを受信するステップ;及び
    前記複数の言語モデリングコンポーネントのうちの1つ以上と前記ヒントとの間のコネクションを維持するステップ;
    を有することを特徴とするシステム。
  6. 前記プロセッサは、前記リストのうちの複数の言語モデリングコンポーネントを組み合わせるためのヒントを送信する際に、前記複数のドメインのうちの1つ以上に基づいて予めコンパイルされた言語モデルの選択肢を送信するように動作する、請求項5に記載のシステム。
  7. 前記プロセッサは、前記リストのうちの複数の言語モデリングコンポーネントを組み合わせるためのヒントを送信する際に、前記複数のドメインのうちの1つ以上に基づいて、前記複数の言語モデリングコンポーネントについての固定ウェイトの組み合わせの選択肢を送信するように動作する、請求項5に記載のシステム。
  8. コンピュータ実行可能な命令を保存するコンピュータ読み取り可能な記録媒体であって、前記命令は、コンピュータにより実行されると、言語モデリングコンポーネントをカスタマイズする方法をコンピュータに実行させ、前記方法は:
    言語モデリングコンポーネントのリストを提示するステップ;
    前記リストのうちの複数の言語モデリングコンポーネントを組み合わせるためのヒントを送信するステップであって、前記ヒントは複数のドメインのうちの1つ以上に基づいて、前記複数のドメインのうちの1つ以上は、音声サーチドメイン及びショートメッセージ口述ドメインのうちの1つ以上を含む、ステップ;
    前記ヒントに基づく前記複数の言語モデリングコンポーネントのカスタマイズされた組み合わせを受信するステップ;及び
    前記複数の言語モデリングコンポーネントのうちの1つ以上と前記ヒントとの間のコネクションを維持するステップ;
    を有することを特徴とする記録媒体。
  9. 前記リストのうちの複数の言語モデリングコンポーネントを組み合わせるためのヒントを送信することが、前記複数のドメインのうちの1つ以上に基づいて予めコンパイルされた言語モデルの選択肢を送信することを含む、請求項8に記載の記録媒体。
  10. 前記リストのうちの複数の言語モデリングコンポーネントを組み合わせるためのヒントを送信することが、前記複数のドメインのうちの1つ以上に基づいて、前記複数の言語モデリングコンポーネントについての固定ウェイトの組み合わせの選択肢を送信することを含む、請求項8に記載の記録媒体。
JP2016559328A 2014-03-27 2015-03-23 言語モデルカスタマイズのための方法、システム、コンピュータプログラム及び記憶媒体 Active JP6571106B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/227,492 2014-03-27
US14/227,492 US9529794B2 (en) 2014-03-27 2014-03-27 Flexible schema for language model customization
PCT/US2015/021921 WO2015148333A1 (en) 2014-03-27 2015-03-23 Flexible schema for language model customization

Publications (3)

Publication Number Publication Date
JP2017515141A true JP2017515141A (ja) 2017-06-08
JP2017515141A5 JP2017515141A5 (ja) 2018-04-05
JP6571106B2 JP6571106B2 (ja) 2019-09-04

Family

ID=53039568

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016559328A Active JP6571106B2 (ja) 2014-03-27 2015-03-23 言語モデルカスタマイズのための方法、システム、コンピュータプログラム及び記憶媒体

Country Status (10)

Country Link
US (2) US9529794B2 (ja)
EP (1) EP3123467B1 (ja)
JP (1) JP6571106B2 (ja)
KR (1) KR102315104B1 (ja)
CN (1) CN106133826B (ja)
AU (1) AU2015236417B2 (ja)
CA (1) CA2940430C (ja)
MX (2) MX2016012195A (ja)
RU (1) RU2689203C2 (ja)
WO (1) WO2015148333A1 (ja)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8181205B2 (en) 2002-09-24 2012-05-15 Russ Samuel H PVR channel and PVR IPG information
US9728184B2 (en) 2013-06-18 2017-08-08 Microsoft Technology Licensing, Llc Restructuring deep neural network acoustic models
US9589565B2 (en) 2013-06-21 2017-03-07 Microsoft Technology Licensing, Llc Environmentally aware dialog policies and response generation
US9311298B2 (en) 2013-06-21 2016-04-12 Microsoft Technology Licensing, Llc Building conversational understanding systems using a toolset
CN104281626B (zh) * 2013-07-12 2018-01-19 阿里巴巴集团控股有限公司 基于图片化处理的网页展示方法及网页展示装置
US9324321B2 (en) 2014-03-07 2016-04-26 Microsoft Technology Licensing, Llc Low-footprint adaptation and personalization for a deep neural network
US9529794B2 (en) 2014-03-27 2016-12-27 Microsoft Technology Licensing, Llc Flexible schema for language model customization
US9614724B2 (en) 2014-04-21 2017-04-04 Microsoft Technology Licensing, Llc Session-based device configuration
US9520127B2 (en) 2014-04-29 2016-12-13 Microsoft Technology Licensing, Llc Shared hidden layer combination for speech recognition systems
US10111099B2 (en) 2014-05-12 2018-10-23 Microsoft Technology Licensing, Llc Distributing content in managed wireless distribution networks
US9384335B2 (en) 2014-05-12 2016-07-05 Microsoft Technology Licensing, Llc Content delivery prioritization in managed wireless distribution networks
US9874914B2 (en) 2014-05-19 2018-01-23 Microsoft Technology Licensing, Llc Power management contracts for accessory devices
US10037202B2 (en) 2014-06-03 2018-07-31 Microsoft Technology Licensing, Llc Techniques to isolating a portion of an online computing service
US9367490B2 (en) 2014-06-13 2016-06-14 Microsoft Technology Licensing, Llc Reversible connector for accessory devices
US9717006B2 (en) 2014-06-23 2017-07-25 Microsoft Technology Licensing, Llc Device quarantine in a wireless network
CN110111780B (zh) * 2018-01-31 2023-04-25 阿里巴巴集团控股有限公司 数据处理方法和服务器
US11182565B2 (en) 2018-02-23 2021-11-23 Samsung Electronics Co., Ltd. Method to learn personalized intents
US11314940B2 (en) 2018-05-22 2022-04-26 Samsung Electronics Co., Ltd. Cross domain personalized vocabulary learning in intelligent assistants
CN110908667B (zh) * 2019-11-18 2021-11-16 北京迈格威科技有限公司 神经网络联合编译的方法、装置和电子设备
CN111161739B (zh) * 2019-12-28 2023-01-17 科大讯飞股份有限公司 语音识别方法及相关产品

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002091477A (ja) * 2000-09-14 2002-03-27 Mitsubishi Electric Corp 音声認識システム、音声認識装置、音響モデル管理サーバ、言語モデル管理サーバ、音声認識方法及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2003280683A (ja) * 2002-03-20 2003-10-02 Toshiba Corp 音声認識装置、音声認識装置における音声認識制御方法、音声処理に関する辞書管理装置
JP2005266192A (ja) * 2004-03-18 2005-09-29 Matsushita Electric Ind Co Ltd 音声認識装置および音声認識方法
JP2007264128A (ja) * 2006-03-27 2007-10-11 Toshiba Corp 音声認識装置及びその方法
JP2009075582A (ja) * 2007-08-29 2009-04-09 Advanced Media Inc 端末装置、言語モデル作成装置、および分散型音声認識システム
JP2009230068A (ja) * 2008-03-25 2009-10-08 Denso Corp 音声認識装置及びナビゲーションシステム

Family Cites Families (130)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2631864B2 (ja) 1988-06-13 1997-07-16 大成建設株式会社 偏平トンネルの施工方法
US5170499A (en) 1989-03-06 1992-12-08 Motorola, Inc. Method and apparatus for adjusting the volume level of a radio
DE69126983T2 (de) 1991-08-19 1998-03-05 Lernout & Hauspie Speechprod Einrichtung zur mustererkennung mit einem kuenstlichen neuronalen netzwerk fuer kontextabhaengige modellierung
US5233681A (en) 1992-04-24 1993-08-03 International Business Machines Corporation Context-dependent speech recognizer using estimated next word context
US6405132B1 (en) 1997-10-22 2002-06-11 Intelligent Technologies International, Inc. Accident avoidance system
US6167377A (en) 1997-03-28 2000-12-26 Dragon Systems, Inc. Speech recognition language models
KR100241901B1 (ko) * 1997-08-28 2000-02-01 윤종용 핸드셋과 핸즈프리킷 공용 음성인식기의 등록 엔트리 관리방법
ITTO980383A1 (it) 1998-05-07 1999-11-07 Cselt Centro Studi Lab Telecom Procedimento e dispositivo di riconoscimento vocale con doppio passo di riconoscimento neurale e markoviano.
US20050091057A1 (en) 1999-04-12 2005-04-28 General Magic, Inc. Voice application development methodology
US6647270B1 (en) 1999-09-10 2003-11-11 Richard B. Himmelstein Vehicletalk
US7392185B2 (en) 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US6263308B1 (en) 2000-03-20 2001-07-17 Microsoft Corporation Methods and apparatus for performing speech recognition using acoustic models which are improved through an interactive process
US7788602B2 (en) 2000-06-06 2010-08-31 Microsoft Corporation Method and system for providing restricted actions for recognized semantic categories
DE60102242T2 (de) 2000-06-29 2005-01-27 Aspen Technology, Inc., Cambridge Rechnerverfahren und gerät zur beschränkung einer nicht-linearen gleichungsnäherung eines empirischen prozesses
US6807536B2 (en) 2000-11-16 2004-10-19 Microsoft Corporation Methods and systems for computing singular value decompositions of matrices and low rank approximations of matrices
US6622136B2 (en) 2001-02-16 2003-09-16 Motorola, Inc. Interactive tool for semi-automatic creation of a domain model
US20050234727A1 (en) 2001-07-03 2005-10-20 Leo Chiu Method and apparatus for adapting a voice extensible markup language-enabled voice system for natural speech recognition and system response
US6970947B2 (en) 2001-07-18 2005-11-29 International Business Machines Corporation Method and apparatus for providing a flexible and scalable context service
US20030149566A1 (en) 2002-01-02 2003-08-07 Esther Levin System and method for a spoken language interface to a large database of changing records
US7006972B2 (en) 2002-03-20 2006-02-28 Microsoft Corporation Generating a task-adapted acoustic model from one or more different corpora
US7191119B2 (en) 2002-05-07 2007-03-13 International Business Machines Corporation Integrated development tool for building a natural language understanding application
US7548847B2 (en) 2002-05-10 2009-06-16 Microsoft Corporation System for automatically annotating training data for a natural language understanding system
US7398209B2 (en) 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7756531B2 (en) 2002-09-04 2010-07-13 Farhad John Aminzadeh Method and apparatus for avoiding call disturbances and facilitating urgent calls based on a caller's decision
US7274741B2 (en) * 2002-11-01 2007-09-25 Microsoft Corporation Systems and methods for generating a comprehensive user attention model
JP2004227468A (ja) 2003-01-27 2004-08-12 Canon Inc 情報提供装置、情報提供方法
US20040176083A1 (en) 2003-02-25 2004-09-09 Motorola, Inc. Method and system for reducing distractions of mobile device users
US7366655B1 (en) 2003-04-02 2008-04-29 At&T Corp. Method of generating a labeling guide for spoken dialog services
US7835910B1 (en) 2003-05-29 2010-11-16 At&T Intellectual Property Ii, L.P. Exploiting unlabeled utterances for spoken language understanding
CA2473195C (en) * 2003-07-29 2014-02-04 Microsoft Corporation Head mounted multi-sensory audio input system
CN1830025A (zh) 2003-08-01 2006-09-06 皇家飞利浦电子股份有限公司 驱动对话系统的方法
US20050065789A1 (en) 2003-09-23 2005-03-24 Sherif Yacoub System and method with automated speech recognition engines
US7774196B2 (en) 2003-10-01 2010-08-10 Dictaphone Corporation System and method for modifying a language model and post-processor information
JP2005157494A (ja) 2003-11-20 2005-06-16 Aruze Corp 会話制御装置及び会話制御方法
EP2506252B1 (en) 2003-11-21 2019-06-05 Nuance Communications, Inc. Topic specific models for text formatting and speech recognition
CN100539763C (zh) 2003-11-27 2009-09-09 国际商业机器公司 控制来自移动车辆的无线通信的方法
US8412521B2 (en) 2004-08-20 2013-04-02 Multimodal Technologies, Llc Discriminative training of document transcription system
US7693713B2 (en) 2005-06-17 2010-04-06 Microsoft Corporation Speech models generated using competitive training, asymmetric training, and data boosting
US7640160B2 (en) 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7620549B2 (en) 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
US8321220B1 (en) 2005-11-30 2012-11-27 At&T Intellectual Property Ii, L.P. System and method of semi-supervised learning for spoken language understanding using semantic role labeling
US20070128979A1 (en) 2005-12-07 2007-06-07 J. Shackelford Associates Llc. Interactive Hi-Tech doll
US7835911B2 (en) 2005-12-30 2010-11-16 Nuance Communications, Inc. Method and system for automatically building natural language understanding models
US7603330B2 (en) 2006-02-01 2009-10-13 Honda Motor Co., Ltd. Meta learning for question classification
DE102006006551B4 (de) 2006-02-13 2008-09-11 Siemens Ag Verfahren und System zum Bereitstellen von Sprachdialoganwendungen sowie mobiles Endgerät
IL174522A0 (en) 2006-03-23 2006-08-01 Jonathan Agmon Method for predictive typing
US7627536B2 (en) 2006-06-13 2009-12-01 Microsoft Corporation Dynamic interaction menus from natural language representations
US7716049B2 (en) 2006-06-30 2010-05-11 Nokia Corporation Method, apparatus and computer program product for providing adaptive language model scaling
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
WO2008081543A1 (ja) 2006-12-28 2008-07-10 Fujitsu Limited 携帯端末装置、その通話制御プログラム、その通話制御プログラムを格納した記録媒体、及びその通話制御方法
US7912700B2 (en) 2007-02-08 2011-03-22 Microsoft Corporation Context based word prediction
TW200836893A (en) 2007-03-01 2008-09-16 Benq Corp Interactive home entertainment robot and method of controlling the same
US20090030697A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Using contextual information for delivering results generated from a speech recognition facility using an unstructured language model
US8838457B2 (en) * 2007-03-07 2014-09-16 Vlingo Corporation Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility
US20070150428A1 (en) 2007-03-20 2007-06-28 Brandyn Webb Inference engine for discovering features and making predictions using generalized incremental singular value decomposition
JP2008233678A (ja) 2007-03-22 2008-10-02 Honda Motor Co Ltd 音声対話装置、音声対話方法、及び音声対話用プログラム
US8301757B2 (en) 2007-06-11 2012-10-30 Enghouse Interactive Inc. System and method for obtaining in-use statistics for voice applications in interactive voice response systems
US8275615B2 (en) 2007-07-13 2012-09-25 International Business Machines Corporation Model weighting, selection and hypotheses combination for automatic speech recognition and machine translation
CN101415039A (zh) 2007-10-17 2009-04-22 宏达国际电子股份有限公司 通话管理方法
US8229729B2 (en) 2008-03-25 2012-07-24 International Business Machines Corporation Machine translation in continuous space
US8332394B2 (en) 2008-05-23 2012-12-11 International Business Machines Corporation System and method for providing question and answers with deferred type evaluation
US8364481B2 (en) 2008-07-02 2013-01-29 Google Inc. Speech recognition with parallel recognition tasks
US8412529B2 (en) 2008-10-29 2013-04-02 Verizon Patent And Licensing Inc. Method and system for enhancing verbal communication sessions
US20100114890A1 (en) 2008-10-31 2010-05-06 Purediscovery Corporation System and Method for Discovering Latent Relationships in Data
JP5475795B2 (ja) * 2008-11-05 2014-04-16 グーグル・インコーポレーテッド カスタム言語モデル
RU2509350C2 (ru) 2008-11-07 2014-03-10 Матрокс Профешнл Инк Способ семантической обработки естественного языка с использованием графического языка-посредника
US20100128863A1 (en) 2008-11-21 2010-05-27 Robert Bosch Gmbh Context aware voice communication proxy
US8447608B1 (en) * 2008-12-10 2013-05-21 Adobe Systems Incorporated Custom language models for audio content
CA2751557A1 (en) 2009-02-16 2010-08-19 Comverse, Ltd. Context-aware communications
US8930179B2 (en) 2009-06-04 2015-01-06 Microsoft Corporation Recognition using re-recognition and statistical classification
US9177557B2 (en) 2009-07-07 2015-11-03 General Motors Llc. Singular value decomposition for improved voice recognition in presence of multi-talker background noise
US8886641B2 (en) * 2009-10-15 2014-11-11 Yahoo! Inc. Incorporating recency in network search using machine learning
US8571866B2 (en) 2009-10-23 2013-10-29 At&T Intellectual Property I, L.P. System and method for improving speech recognition accuracy using textual context
KR101622111B1 (ko) 2009-12-11 2016-05-18 삼성전자 주식회사 대화 시스템 및 그의 대화 방법
US8249627B2 (en) 2009-12-21 2012-08-21 Julia Olincy “I am driving/busy” automatic response system for mobile phones
US8315597B2 (en) 2009-12-21 2012-11-20 Julia Olincy “I am driving/busy” automatic response system for mobile phones
EP4318463A3 (en) 2009-12-23 2024-02-28 Google LLC Multi-modal input on an electronic device
US8400332B2 (en) 2010-02-09 2013-03-19 Ford Global Technologies, Llc Emotive advisory system including time agent
JP2012038239A (ja) 2010-08-11 2012-02-23 Sony Corp 情報処理装置、情報処理方法、及び、プログラム
US8972253B2 (en) 2010-09-15 2015-03-03 Microsoft Technology Licensing, Llc Deep belief network for large vocabulary continuous speech recognition
FR2965377A1 (fr) * 2010-09-24 2012-03-30 Univ D Avignon Et Des Pays De Vaucluse Procede de classification de donnees biometriques
JP2012075047A (ja) 2010-09-29 2012-04-12 Toshiba Corp Ip交換システム及びip交換装置
US8812321B2 (en) 2010-09-30 2014-08-19 At&T Intellectual Property I, L.P. System and method for combining speech recognition outputs from a plurality of domain-specific speech recognizers via machine learning
JP5704692B2 (ja) * 2010-11-30 2015-04-22 独立行政法人情報通信研究機構 パターン分類装置の学習装置及びそのためのコンピュータプログラム
US8352245B1 (en) 2010-12-30 2013-01-08 Google Inc. Adjusting language models
US20130317822A1 (en) 2011-02-03 2013-11-28 Takafumi Koshinaka Model adaptation device, model adaptation method, and program for model adaptation
US9081760B2 (en) * 2011-03-08 2015-07-14 At&T Intellectual Property I, L.P. System and method for building diverse language models
US9679561B2 (en) * 2011-03-28 2017-06-13 Nuance Communications, Inc. System and method for rapid customization of speech recognition models
US9244984B2 (en) 2011-03-31 2016-01-26 Microsoft Technology Licensing, Llc Location based conversational understanding
US8489529B2 (en) 2011-03-31 2013-07-16 Microsoft Corporation Deep convex network with joint use of nonlinear random projection, Restricted Boltzmann Machine and batch-based parallelizable optimization
US10642934B2 (en) 2011-03-31 2020-05-05 Microsoft Technology Licensing, Llc Augmented conversational understanding architecture
EP2691877A4 (en) 2011-03-31 2015-06-24 Microsoft Technology Licensing Llc LEARNING AND CORRECTION OF A CONVERSATIONAL DIALOGUE
US8260615B1 (en) 2011-04-25 2012-09-04 Google Inc. Cross-lingual initialization of language models
US20120290293A1 (en) 2011-05-13 2012-11-15 Microsoft Corporation Exploiting Query Click Logs for Domain Detection in Spoken Language Understanding
US8918352B2 (en) 2011-05-23 2014-12-23 Microsoft Corporation Learning processes for single hidden layer neural networks with linear output units
US20130031476A1 (en) 2011-07-25 2013-01-31 Coin Emmett Voice activated virtual assistant
KR20130022513A (ko) 2011-08-24 2013-03-07 한국전자통신연구원 결합 쌍일차 변환 공간 기반의 화자 적응 방법 및 장치
EP2575128A3 (en) 2011-09-30 2013-08-14 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US8698621B2 (en) 2011-11-22 2014-04-15 Verizon Patent And Licensing Inc. Method and system for providing notifications of a mobile device in motion to determine call treatment
US9235799B2 (en) * 2011-11-26 2016-01-12 Microsoft Technology Licensing, Llc Discriminative pretraining of deep neural networks
US9082402B2 (en) 2011-12-08 2015-07-14 Sri International Generic virtual personal assistant platform
US9324323B1 (en) * 2012-01-13 2016-04-26 Google Inc. Speech recognition using topic-specific language models
US9263040B2 (en) 2012-01-17 2016-02-16 GM Global Technology Operations LLC Method and system for using sound related vehicle information to enhance speech recognition
JP2012128440A (ja) 2012-02-06 2012-07-05 Denso Corp 音声対話装置
CN102609264A (zh) 2012-02-14 2012-07-25 深圳市同洲视讯传媒有限公司 一种调用应用程序编程接口生成调用代码的方法及装置
US9524730B2 (en) * 2012-03-30 2016-12-20 Ohio State Innovation Foundation Monaural speech filter
US8346563B1 (en) 2012-04-10 2013-01-01 Artificial Solutions Ltd. System and methods for delivering advanced natural language interaction applications
GB201208373D0 (en) 2012-05-14 2012-06-27 Touchtype Ltd Mechanism for synchronising devices,system and method
US8600525B1 (en) 2012-05-31 2013-12-03 Honeywell Asca Inc. Efficient quadratic programming (QP) solver for process control and optimization
US9053708B2 (en) 2012-07-18 2015-06-09 International Business Machines Corporation System, method and program product for providing automatic speech recognition (ASR) in a shared resource environment
US10026394B1 (en) 2012-08-31 2018-07-17 Amazon Technologies, Inc. Managing dialogs on a speech recognition platform
US8527276B1 (en) * 2012-10-25 2013-09-03 Google Inc. Speech synthesis using deep neural networks
US10282419B2 (en) 2012-12-12 2019-05-07 Nuance Communications, Inc. Multi-domain natural language processing architecture
KR101559124B1 (ko) 2013-02-28 2015-10-12 한양대학교 산학협력단 리튬황전지용 양극, 이를 포함하는 리튬황전지 및 이의 제조 방법
US9177550B2 (en) 2013-03-06 2015-11-03 Microsoft Technology Licensing, Llc Conservatively adapting a deep neural network in a recognition system
US9728184B2 (en) 2013-06-18 2017-08-08 Microsoft Technology Licensing, Llc Restructuring deep neural network acoustic models
US9311298B2 (en) 2013-06-21 2016-04-12 Microsoft Technology Licensing, Llc Building conversational understanding systems using a toolset
US9589565B2 (en) 2013-06-21 2017-03-07 Microsoft Technology Licensing, Llc Environmentally aware dialog policies and response generation
CN103400577B (zh) * 2013-08-01 2015-09-16 百度在线网络技术(北京)有限公司 多语种语音识别的声学模型建立方法和装置
CN103456299B (zh) * 2013-08-01 2016-06-15 百度在线网络技术(北京)有限公司 一种控制语音识别的方法和装置
US9280968B2 (en) 2013-10-04 2016-03-08 At&T Intellectual Property I, L.P. System and method of using neural transforms of robust audio features for speech processing
US9721561B2 (en) 2013-12-05 2017-08-01 Nuance Communications, Inc. Method and apparatus for speech recognition using neural networks with speaker adaptation
US9373324B2 (en) 2013-12-06 2016-06-21 International Business Machines Corporation Applying speaker adaption techniques to correlated features
US9400955B2 (en) 2013-12-13 2016-07-26 Amazon Technologies, Inc. Reducing dynamic range of low-rank decomposition matrices
KR101937655B1 (ko) 2013-12-31 2019-01-11 코오롱인더스트리 주식회사 복합 중공사막 및 그 제조방법
US10339920B2 (en) 2014-03-04 2019-07-02 Amazon Technologies, Inc. Predicting pronunciation in speech recognition
US9324321B2 (en) 2014-03-07 2016-04-26 Microsoft Technology Licensing, Llc Low-footprint adaptation and personalization for a deep neural network
US9529794B2 (en) 2014-03-27 2016-12-27 Microsoft Technology Licensing, Llc Flexible schema for language model customization
US9520127B2 (en) 2014-04-29 2016-12-13 Microsoft Technology Licensing, Llc Shared hidden layer combination for speech recognition systems
US20150325236A1 (en) 2014-05-08 2015-11-12 Microsoft Corporation Context specific language model scale factors

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002091477A (ja) * 2000-09-14 2002-03-27 Mitsubishi Electric Corp 音声認識システム、音声認識装置、音響モデル管理サーバ、言語モデル管理サーバ、音声認識方法及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2003280683A (ja) * 2002-03-20 2003-10-02 Toshiba Corp 音声認識装置、音声認識装置における音声認識制御方法、音声処理に関する辞書管理装置
JP2005266192A (ja) * 2004-03-18 2005-09-29 Matsushita Electric Ind Co Ltd 音声認識装置および音声認識方法
JP2007264128A (ja) * 2006-03-27 2007-10-11 Toshiba Corp 音声認識装置及びその方法
JP2009075582A (ja) * 2007-08-29 2009-04-09 Advanced Media Inc 端末装置、言語モデル作成装置、および分散型音声認識システム
JP2009230068A (ja) * 2008-03-25 2009-10-08 Denso Corp 音声認識装置及びナビゲーションシステム

Also Published As

Publication number Publication date
KR20160138424A (ko) 2016-12-05
MX2021008012A (es) 2021-08-05
EP3123467B1 (en) 2019-09-11
CA2940430A1 (en) 2015-10-01
RU2016138130A (ru) 2018-04-27
CN106133826A (zh) 2016-11-16
US20150278191A1 (en) 2015-10-01
AU2015236417A1 (en) 2016-09-08
CN106133826B (zh) 2019-12-17
RU2689203C2 (ru) 2019-05-24
US20170103753A1 (en) 2017-04-13
AU2015236417B2 (en) 2019-12-19
KR102315104B1 (ko) 2021-10-19
US10497367B2 (en) 2019-12-03
WO2015148333A1 (en) 2015-10-01
EP3123467A1 (en) 2017-02-01
JP6571106B2 (ja) 2019-09-04
US9529794B2 (en) 2016-12-27
CA2940430C (en) 2022-05-03
RU2016138130A3 (ja) 2018-10-19
MX2016012195A (es) 2017-01-05

Similar Documents

Publication Publication Date Title
JP6571106B2 (ja) 言語モデルカスタマイズのための方法、システム、コンピュータプログラム及び記憶媒体
US9324321B2 (en) Low-footprint adaptation and personalization for a deep neural network
US9942358B2 (en) Recommending applications
RU2667717C2 (ru) Диалоговые политики на основе параметров окружающей среды и генерация ответа
US20150325236A1 (en) Context specific language model scale factors
US20130110992A1 (en) Electronic device management using interdomain profile-based inferences
CN113407278A (zh) 到第三方应用的数字助理可扩展性
US9171099B2 (en) System and method for providing calculation web services for online documents
US20170300090A1 (en) Accommodating sensors and touch in a unified experience
US11301345B2 (en) Desktop sound source discovery
US10805358B2 (en) Universal casting service
EP3475821A1 (en) Enabling interaction with an external service feature
KR102368945B1 (ko) 외부 콘텐츠 아이템과의 인코딩된 연관을 제공하는 기법
US10404765B2 (en) Re-homing embedded web content via cross-iframe signaling
US20180114034A1 (en) Container Based Device Usage Sessions
KR101532909B1 (ko) 메신저 서비스의 첨부파일 관리 방법, 이를 위한 시스템 및 이를 위한 단말 장치
CN113646057A (zh) 用于增强游戏体验的跨设备附件输入和输出

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180220

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180220

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181206

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181218

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190312

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190709

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190807

R150 Certificate of patent or registration of utility model

Ref document number: 6571106

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250