JP2015509618A - 位置ベース言語モデリングを使用した自動入力信号認識 - Google Patents

位置ベース言語モデリングを使用した自動入力信号認識 Download PDF

Info

Publication number
JP2015509618A
JP2015509618A JP2014561047A JP2014561047A JP2015509618A JP 2015509618 A JP2015509618 A JP 2015509618A JP 2014561047 A JP2014561047 A JP 2014561047A JP 2014561047 A JP2014561047 A JP 2014561047A JP 2015509618 A JP2015509618 A JP 2015509618A
Authority
JP
Japan
Prior art keywords
language model
local
input signal
location
local language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014561047A
Other languages
English (en)
Inventor
ホン エム. チェン,
ホン エム. チェン,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Apple Inc
Original Assignee
Apple Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Apple Inc filed Critical Apple Inc
Publication of JP2015509618A publication Critical patent/JP2015509618A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

音声認識などの入力信号認識が、位置ベース情報を合体することによって改善され得る。そのような情報は、ローカル道路名、事業名、ランドマークなどの事前定義された地理的位置に固有のデータをそれぞれ含む1つ以上の言語モデルを作成することによって組み込まれ得る。入力信号と関連付けられた位置を使用することによって、1つ以上のローカル言語モデルを選択することができる。ローカル言語モデルにはそれぞれ、ローカル言語モデルと関連付けられ、位置の、事前定義された重心への近さを表す重みを割り当てられ得る。1つ以上のローカル言語モデルをグローバル言語モデルとマージして、認識プロセスで使用される複合言語モデルを生成することができる。

Description

1.技術分野
本開示は、自動入力信号認識に関し、より具体的には位置ベース言語モデリングを使用した自動入力信号認識の改善に関する。
2.前書
音声認識などの入力信号認識技術は、近年、急激に拡大している。その用途は、自動電話応答システムなどの語彙が制限されたきわめて特定の使用事例から、任意の発言に対応した音声認識まで拡大している。しかしながら、可能な入力信号の数とタイプが拡大したため、正確な結果を提供するには課題が残っている。そのことは、特に、すべての入力信号に対してグローバル言語モデルに依存する認識システムに当てはまる。そのような事例では、特定の地理的領域に固有の入力信号は、間違って認識されることが多い。
この問題の1つの解決策は、入力信号の位置に基づいて特定の言語モデルを選択するローカル言語モデルを作成することであってよい。例えば、サービスエリアを複数の地理的領域に分割でき、また各領域のローカル言語モジュールを構成することができる。しかしながら、そのような手法は、逆方向に歪められた認識結果をもたらす可能性がある。即ち、言語モデルが、ローカルワードシーケンスをより重く重み付けするので、特定領域に固有でない入力信号が、ローカルワードシーケンスとして間違って認識されることがある。更に、そのような解決策は、1つの地理的領域だけを考慮しており、位置が地理的領域の境界に近くかつ入力信号が近隣の地理的領域内の固有のワードシーケンスに対応する場合には、不正確な結果をもたらす可能性がある。
本開示の更なる特徴及び利点は、後続の明細書本文に記載されており、部分的にはその明細書本文から明らかとなるか、又は本明細書に開示される原理を実施することによって理解できるであろう。開示の特徴及び利点は、添付の特許請求の範囲に詳細に示された機器及び組み合わせによって実現し獲得することができる。本開示の前述及び他の特徴は、下掲の明細書本文及び添付の特許請求の範囲からより詳細に明らかになるか、又は本明細書に記載された原理を実施することによって把握され得る。
本開示は、入力信号を自動認識してワードシーケンスを作成するためのシステム、方法及び永続的コンピュータ可読媒体について述べる。方法は、音声信号などの入力信号と、関連付けられた位置とを受け取ることを含む。位置に基づいて、第1のローカル言語モデルが選択される。いくつかの構成では、各ローカル言語モデルは、関連付けられ事前定義された地理的領域を有する。この場合、ローカル言語モデルは、最初に、位置に適合する地理的領域を識別することによって選択される。地理的領域は、位置がその地理的領域内に含まれかつ/又は位置がその地理的領域に割り当てられた重心から指定しきい値距離内にあるため選択され得る。次に、第1のローカル言語モデルが、グローバル言語モデルとマージされて複合言語モデルが生成される。入力信号は、入力信号に対応する可能性が統計的に最も高いワードシーケンスを識別することによって、複合言語モデルに基づいて認識される。
いくつかの構成では、位置に基づいて1組の追加のローカル言語モデルを選択することができる。次に、第1のローカル言語モデルと、1組の追加の言語モデル内の各言語モデルをグローバル言語モデルとをマージして、複合言語モデルを生成することができる。更に、場合によっては、マージ前に、1つ以上のローカル言語モデルに重みを割り当てることができる。重みは、ローカル言語モデルを構築するために使用されるローカル情報の認知精度及び/又は位置の地理的領域の重心からの距離などの様々な因子に基づくことができる。重みを割り当てるとき、重みを使用してマージステップに影響を及ぼすことができる。
いくつかの実施態様に従って、入力信号認識方法が提供され、この方法は、入力信号及び入力信号と関連付けられた位置を受け取ることと、位置に基づいて複数のローカル言語モデルから第1の言語モデルを選択することと、プロセッサによって、第1のローカル言語モデルとグローバル言語モデルをマージして複合言語モデルを生成することと、入力信号に対応する可能性が統計的に最も高いワードシーケンスを識別することによって、複合言語モデルに基づいて入力信号を認識することとを含む。
いくつかの実施態様では、入力信号は、音声信号である。いくつかの実施態様では、第1のローカル言語モデルは、位置と関連付けられた地理的領域にマッピングされ、地理的領域は重心を含む。いくつかの実施態様では、位置は、地理的領域内に含まれる。いくつかの実施態様では、位置は、重心から指定しきい値距離内にある。いくつかの実施態様では、地理的領域は、確立された地理的位置によって定義される。
いくつかの実施態様において、本方法は、位置に基づいて複数のローカル言語モデルから第2のローカル言語モデルを選択することと、更に、第1のローカル言語モデル、第2のローカル言語モデル及びグローバル言語モデルをマージして複合言語モデルを生成することとを含む。いくつかの実施態様において、本方法は、第1のローカル言語モデル、第2のローカル言語モデル及びグローバル言語モデルをマージする前に、第1の重み値(及び/又は倍率)を第1のローカル言語モデルに割り当て、第2の重み値(及び/又は倍率)を第2のローカル言語モデルに割り当てることを含む。いくつかの実施態様では、第1又は第2の重み値(及び/又は倍率)の少なくとも一方は、選択された地理的領域内に含まれる重心から位置までの距離に少なくとも部分的に基づく。いくつかの実施態様では、第1又は第2の重み値(及び/又は倍率)の少なくとも一方が、ローカル言語モデルに割り当てられた精度レベルに少なくとも部分的に基づく。いくつかの実施態様では、位置が、その位置と関連付けられた地理的領域外にあるとき、第1又は第2の重み値の少なくとも一方が、第1又は第2のローカル言語モデルにそれぞれ適用される。
いくつかの実施態様において、第1のローカル言語モデルは、ローカル道路名、ローカル近隣名、ローカル事業名、ローカルランドマーク名及びローカルアトラクション名のうちの少なくとも1つを含む。いくつかの実施態様では、第1及び第2のローカル言語の少なくとも1つが、統計言語モデルであり、統計言語モデルが、ローカル電話帳、ローカル職業別電話帳、ローカル紙、ローカル地図、ローカル広告及びローカルブログのうちの少なくとも1つを使用して構築される。
いくつかの実施態様によれば、電子装置は、1つ以上のプロセッサ、メモリ、及び1つ以上のプログラムを含み、この1つ以上のプログラムが、メモリに記憶され、1つ以上のプロセッサによって実行されるように構成され、1つ以上のプログラムが、前述の方法及び/又は技術のいずれかの動作を行なうための命令を含む。いくつかの実施態様によれば、コンピュータ可読記憶媒体は内部に命令を記憶し、この命令は電子装置によって実行されると、機器に上記に述べた方法及び/又は技術のいずれかの動作を実行させる。いくつかの実施態様によれば、電子装置は、前述の方法及び/又は技術のいずれかの動作を実行するための手段を含み、いくつかの実施態様によれば、情報処理装置は、電子装置で使用するために、前述の方法及び/又は技術のいずれかの動作を行う手段を含む。
いくつかの実施態様によれば、電子装置は、入力受信ユニットと、入力受信ユニットに結合された処理ユニットとを含み、入力受信ユニットは、入力信号と、入力信号と関連付けられた位置とを受け取るように構成され、処理ユニットは、位置に基づいて複数のローカル言語モデルから第1の言語モデルを選択し、第1のローカル言語モデルとグローバル言語モデルをマージして複合言語モデルを生成し、入力信号に対応する可能性が統計的に最も高いワードシーケンスを識別することによって複合言語モデルに基づいた入力信号を認識するように構成される。
前述並びに他の本開示の利点及び特徴を達成し得る方法について説明するために、添付図面に図示される本発明の具体的な実施形態を参照することによって、先に概説した原理に関して更に詳細に説明する。これらの図面は、開示の例示的な実施形態だけを示し、したがって開示の範囲の限定と見なされるべきでなく、本明細書における原理が、添付図面を使用することにより、より具体的かつ詳細に示され説明される。
システムの実施形態例を図示する図である。 位置ベース入力信号認識のための例示的なクライアントサーバ構成を示す図である。 例示的な1組の地理的領域を示す図である。 例示的な音声認識プロセスを示す図である。 位置に基づいた例示的な重み付け方式を示す図である。 単一ローカル言語モデルを使用して入力信号を認識する例示的な方法の実施形態を示す図である。 複数のローカル言語モデルを使用して入力信号を認識する例示的な方法の実施形態を示す図である。 位置ベース入力信号認識のための例示的なクライアント装置構成を示す図である。 クライアント装置上の位置ベース入力信号認識のための例示的な方法の実施形態を示す図である。 いくつかの実施形態による電子装置の機能ブロック図である。
本開示の様々な実施形態について以下に説明する。特定の実施態様を説明するが、これは説明のためにのみ行われることを理解されたい。他のコンポーネント及び構成が本開示の趣旨及び範囲から逸脱することなく使用できることは、関連技術の当業者によって認識されるであろう。
本開示は、当該技術分野において、音声認識やキーボードからの入力の自動補完などの改善された自動入力信号認識の必要性に取り組む。この技術を使用して、入力信号の位置に関連した情報を使用して認識結果を改善することができる。これは、特に、入力信号が、大域的には低い出現確率を有するが特定の地理的領域内ではずっと高い出現確率を有するワードシーケンスを含むときに当てはまる。例えば、入力信号が、語られた言葉「goat hill」であると仮定する。大域的には、このワードシーケンスは、きわめて低い出現確率を有することがあるため、入力信号が、「good will」などのより一般的なワードシーケンスとして認識され得る。しかしながら、入力信号が、Goat Hillと呼ばれる評判のカフェのある市内の人によって語られた場合は、入力信号が「Goat Hill」として認識されるように話者が意図した可能性が高い。本技術は、ローカル情報を認識プロセスに組み込むことによって、この欠陥に対処する。
本開示は、最初に、本明細書に開示された概念を実施するために使用できる図1の基本汎用システム又はコンピューティング装置を説明し、その後で自動入力信号認識のより詳細な説明に戻る。図1を参照すると、例示的システムは、汎用コンピューティング装置100を含み、汎用コンピューティング装置100は、処理ユニット(CPU又はプロセッサ)120と、読み出し専用メモリ(ROM)140及びランダムアクセスメモリ(RAM)150などのシステムメモリ130を含む様々なシステム構成要素をプロセッサ120に結合するシステムバス110とを含む。装置100は、プロセッサ120に直接接続されるか、プロセッサ120のごく近くに接続されるか、プロセッサ120の一部として統合されたキャッシュ122を含むことができる。装置100は、プロセッサ120によるアクセスを迅速にするために、メモリ130及び/又は記憶装置160(ハードディスクを含むことがある)からのデータをキャッシュに複写する。このようにして、キャッシュは、データを待っている間のプロセッサ120の遅延を防いで性能向上を提供する。これら及び他のモジュールは、様々なアクションを実行するようにプロセッサ120を制御するか又は制御するように構成され得る。他のシステムメモリ130も同様に使用できることがある。メモリ130は、様々な性能特性を備えた複数の異なるタイプのメモリを含むことができる。本開示が、2つ以上のプロセッサ120を有するコンピューティング装置100上、又は一緒にネットワーク接続されたグループ又はクラスタのコンピューティング装置上で動作して、より高い処理性能を提供し得ることが理解される。プロセッサ120は、任意の汎用プロセッサ、記憶装置160に記憶されプロセッサ120を制御するように構成されたモジュール1(「MOD1」)(162)、モジュール2(「MOD2」)(164)、モジュール3(「MOD3」)(166)などのハードウェアモジュール又はソフトウェアモジュール、並びにソフトウェア命令が実際のプロセッサ設計に組み込まれる専用プロセッサを含むことができる。プロセッサ120は、本質的に、複数のコア又はプロセッサ、バス、メモリコントローラ、キャッシュなどを含む、完全自立型コンピューティングシステムでよい。マルチコアプロセッサは、対称でもよく非対称でもよい。
システムバス110は、メモリバス又はメモリコントローラ、周辺バス、及び様々なバスアーキテクチャのいずれかを使用するローカルバスを含むいくつかのタイプのいずれかのバス構造でよい。ROM140などに記憶された基本入出力システム(BIOS)は、起動中などにコンピューティングデバイス100内の要素間で情報を伝えるのを支援する基本ルーチンを提供することがある。コンピューティング装置100は、更に、ハードディスクドライブ、磁気ディスクドライブ、光ディスクドライブ、テープドライブ、ソリッドステートドライブなどの記憶装置160を含む。記憶装置160は、プロセッサ120を制御するソフトウェアモジュール162、164、166を含むことができる。他のハードウェア又はソフトウェアモジュールが検討される。記憶装置160は、ドライブインタフェースによりシステムバス110に接続される。ドライブ及び関連付けられたコンピュータ可読記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、及び他のデータの不揮発性記憶装置をコンピューティング装置100に提供する。一態様では、特定の機能を実行するハードウェアモジュールは、その機能を実行するために、プロセッサ120、バス110、出力装置170などの必要なハードウェア構成要素と関連付けられた永続的コンピュータ可読媒体に記憶されたソフトウェア構成要素を含む。基本コンポーネントは、当業者に知られており、装置100が、小さなハンドヘルドのコンピューティング装置か、デスクトップコンピュータか、又はコンピュータサーバかなどの装置のタイプにより、適切な変動が考慮される。
本明細書で述べる例示的な実施形態は、記憶装置160のためのハードディスクを使用するが、当業者は、磁気カセット、フラッシュメモリカード、DVD、カートリッジ、ランダムアクセスメモリ(RAM)150、読み出し専用メモリ(ROM)140、ビットストリームを含む有線又は無線信号など、コンピュータによってアクセス可能なデータを記憶することができる他のタイプのコンピュータ可読媒体が、例示的な動作環境で使用されてもよいことを理解されるだろう。永続的コンピュータ可読記憶媒体は、エネルギー、キャリア信号、電磁波、信号などの媒体を明示的に除外する。
コンピューティングデバイス100に対するユーザの対話操作を可能にする任意の数の入力メカニズム、例えば、会話用のマイクロフォン、ジェスチャ又は図形入力用のタッチセンシティブスクリーン、キーボード、マウス、モーション入力、スピーチなどが、入力デバイス190で表してある。出力装置170はまた、当業者に公知の多くの出力メカニズムのうちの1つ以上であり得る。幾つかの例では、マルチモーダルシステムは、ユーザに、コンピューティングデバイス100との通信の複数の入力のタイプを提供できるようにする。ユーザ入力及びシステム出力は一般に、通信インタフェース180によって統制、管理される。任意の特定のハードウェア構成で動作することに制限はなく、したがって、本明細書の基本的特徴は、改善されたハードウェア又はファームウェア構成が開発されるのに応じて容易に置換され得る。
説明を分かりやすくするために、例示されるシステム実施形態は、「プロセッサ」又はプロセッサ120と表記された機能ブロックを含む個々の機能ブロックを含むように提示される。これらのブロックが表わす機能は、ソフトウェアを実行可能なハードウェアであって、プロセッサ120などの、汎用プロセッサ上で実行するソフトウェアと同等品として動作するように、目的向けに構築されたハードウェアを含むがこれらに限定されない共用又は専用ハードウェアを使用することにより提供されてもよい。例えば、図1に示す1つ以上のプロセッサの機能は、単一の共有プロセッサ又は複数のプロセッサによって提供され得る。(「プロセッサ」という用語の使用は、ソフトウェアを実行できるハードウェアだけを指すものと解釈してはならない。)例示的な実施形態は、マイクロプロセッサ及び/又はデジタルシグナルプロセッサ(DSP)ハードウェア、後述する動作を実行するソフトウェアを記憶するための読み出し専用メモリ(ROM)140、及び結果を記憶するランダムアクセスメモリ(RAM)150を含み得る。汎用DSP回路と組み合わせたカスタムVLSI回路に加えて、超大規模集積回路(VLSI)ハードウェアの実施形態もまた提供され得る。
様々な実施形態の論理演算は、(1)汎用コンピュータ内のプログラマブル回路上で実行される、コンピュータに実装された一連のステップ、操作又は手順と、(2)特定用途プログラマブル回路上で実行される、コンピュータに実装された一連のステップ、操作又は手順及び/又は(3)プログラマブル回路内の相互接続されたマシンモジュール又はプログラムエンジンとして実装される。図1に示された装置100は、列挙された方法のすべて又は一部を実施できるか、列挙されたシステムの一部であり得るか、及び/又は列挙された永続的コンピュータ可読記憶媒体内の命令にしたがって動作することができる。そのような論理演算は、プロセッサ120を制御してモジュールのプログラミングにしたがって特定の機能を実行するように構成されたモジュールとして実装されてもよい。例えば、図1は、プロセッサ120を制御するように構成されたモジュールである3つのモジュール1(162)、モジュール2(164)、及びモジュール3(166)を示す。これらのモジュールは、記憶装置160に記憶されて、RAM150又はメモリ130に実行時にロードされてもよく、又は当該技術分野で知られるように、他のコンピュータ可読メモリの位置に記憶されてもよい。
本技術の詳細な説明を開示する前に、本開示は、音声信号などの任意の入力信号を認識してワードシーケンスを生成できる方法についての簡潔な導入的説明を行う。この導入的説明は、統計的言語モデリングに基づく認識プロセスを開示する。しかしながら、当業者は、代替の言語モデリング技法も使用できることを理解するであろう。
音声認識やキーボードからの入力の自動補完などの自動入力信号認識において、入力信号を受け取り、言語モデルを使用して、入力信号に対応する可能性が最も高いワードシーケンスを識別することができる。例えば、自動音声認識では、言語モデルを使用して、音響信号を、話された可能性が最も高いワードシーケンスに変換することができる。
入力信号認識で使用される言語モデルは、言語の特性を獲得するように設計され得る。入力信号をワードシーケンスに変換するために使用される1つの一般的な言語モデリング技術は、統計言語モデリングである。統計言語モデリングにおいて、言語モデルは、ターゲット言語の大規模なサンプルを分析して確率分布を生成することによって構築され、次にその確率分布を使用して、m個の単語のシーケンス:P(wl、...、wm)に確率を割り当てることができる。次に、統計言語モデルを使用して、入力信号を1つ以上のワードシーケンスにマッピングすることができる。次に、最も高い出現確率を有するワードシーケンスを選択することができる。例えば、入力信号は、ワードシーケンス「good will」、「good hill」、「goat hill」及び「goat will」にマッピングされ得る。ワードシーケンス「good will」が、最も高い出現確率を有する場合、「good will」が、認識プロセスの出力になる。
当業者は、この開示が、この技術を説明するためにしばしば音声認識を使用するが、種々様々な入力信号に認識プロセスを適用できることを理解するであろう。例えば、この技術は、情報検索システムにおいて、キーワード検索用語を提案するため又はキーボードからの入力を自動補完するためにも使用され得る。例えば、この技術を自動補完に使用して、自動補完リスト内で関心ローカルポイントをより高く格付けすることができる。
統計言語モデルを使用してワードシーケンスを生成するために任意の入力信号を認識できる方法についての導入的説明を開示したが、本開示は、次に、位置ベース言語モデリングを使用して入力信号を自動認識に関する説明に戻る。当業者は、この開示が、認識プロセスを説明するために統計言語モデルを使用するが、当該技術の趣旨及び範囲から離れることなく代替の言語モデルも可能であることを理解するであろう。
図2は、位置ベース入力信号認識の例示的なクライアントサーバ構成200を示す。例示的なクライアントサーバ構成200において、認識システム206は、図1の装置100のような汎用コンピューティング装置などのサーバ上に存在するように構成され得る。
システム構成200において、認識システム206は、直接及び/又は間接通信によってネットワーク204に接続された1つ以上のクライアント装置2021、2022、...、202n(集合的に「202」)と通信することができる。認識システム206は、デスクトップコンピュータ、モバイルコンピュータ、携帯型通信装置(例えば、移動電話、スマートフォン、タブレット)、及び/又は任意の他のネットワーク対応通信装置など、様々なクライアント装置からの接続に対応することができる。更に、認識システム206は、複数のクライアント装置202からの接続を同時に受け入れて対話することができる。
認識システム206は、クライアント装置202から入力信号を受信することができる。入力信号は、表現するワードシーケンスにマッピングすることができる任意のタイプの信号であってよい。例えば、入力信号は、認識システム206が、入力音声信号を表わす可能性が統計的に最も高いワードシーケンスを生成できる音声信号であり得る。あるいは、入力シーケンスは、テキストシーケンスであってよい。この場合、認識システムは、受信した入力テキスト信号を完成させる可能性が統計的に最も高いワードシーケンスを生成するように構成することができ、例えば、入力テキスト信号が、「good」になり、生成ワードシーケンスが、「good day」になることがある。
認識システム206は、クライアント装置202と関連付けられた位置も受信することができる。この位置は、緯度及び/又は経度、GPS座標、郵便番号、市、州、市外局番などの様々な形式で表され得る。クライアント装置202の位置を識別するには、例えばGPS、三角測量、IPアドレスなどの様々な自動化方法が可能である。更に、いくつかの構成では、クライアント装置のユーザは、クライアント装置202が現在ある位置を表す郵便番号、市、州、市外局番などの位置を入力することができる。更に、いくつかの構成において、クライアント装置のユーザは、クライアント装置のデフォルト位置を設定することができ、その結果、デフォルト位置は、常に現在位置の代わりに提供されるか、クライアント装置が現在位置を決定できないときに提供される。位置は、入力信号と共に受信されてもよく、クライアント装置202との他の対話によって得てもよい。
認識システム206は、入力信号の認識を容易にするためにいくつかの構成要素を含むことができる。構成要素は、1つ以上のデータベース(例えば、グローバル言語モデルデータベース214、ローカル言語モデルデータベース216)、データベースと対話しかつ/又は入力信号を認識するための1つ以上のモジュール(例えば、通信インタフェース208、ローカル言語モデルセレクタ209、複合言語モデルビルダ210、認識エンジン212)を含むことができる。当業者には、図2に示された構成が単に1つの可能な構成であり、これより多いか又は少ない構成要素を有する他の構成も可能であることが理解されるであろう。
図2の例示的な構成200において、認識システム206は、2つのデータベースを維持する。グローバル言語モデルデータベース214は、1つ以上のグローバル言語モデルを含むことができる。前述のように、言語モデルは、言語の特性を獲得するために使用され、入力信号をワードシーケンスに変換するか又はワードシーケンスを予測するために使用され得る。グローバル言語モデルは、言語の一般的性質を獲得するように設計される。即ち、このモデルは、母集団の一部分、又は地理的領域内で高い出現確率を有することがあるワードシーケンスとは対照的に、普遍的ワードシーケンスを獲得するように設計される。例えば、英語のために、英語を話す人の大部分によって幅広く使用されるワードシーケンスを獲得するグローバル言語モデルが構築され得る。言語モデルは、言語の特性を獲得するために使用されるので、いくつかの構成では、グローバル言語モデルデータベース214は、例えば英語、スペイン語、フランス語、日本語などの様々な言語に対して異なる言語モデルを維持することができ、電話帳、職業別電話帳、地方紙、ブログ、地図、地方広告などを含む様々なサンプルローカルテキストを使用して構築され得る。
ローカル言語モデルデータベース216は、1つ以上のローカル言語モデルを含むことができる。ローカル言語モデルは、特定の地理的領域に固有であってよいワードシーケンスを獲得するように設計され得る。各ローカル言語モデルは、ローカル道路名、事業名、近隣名、ランドマーク名称、アトラクション、珍味などのローカル情報を使用して作成され得る。
各ローカル言語モデルは、あらかじめ定義された地理的領域、即ち地理的領域と関連付けられ得る。地理的領域は、様々な方法で定義され得る。例えば、地理的領域は、郵便番号、市外局番、市、国などの十分に確立された地理的領域に基づいてもよい。あるいは、地理的領域は、例えば、ユーザの分布に基づいてサービスエリアを複数の地理的領域に分割することによって、など、任意の地理的領域を使用して定義され得る。更に、地理的領域は、重複又は相互排他的であるように定義され得る。更に、いくつかの構成では、地理的領域間に隙間があってもよい。即ち、地理的領域の一部ではない領域である。
図3は、例示的な1組の地理的領域300を示す。例示的な1組の地理的領域300は、図3に示されるように、様々なサイズ(例えば、地理的領域304及び306)及び形状(例えば、地理的領域302、304、308及び310)であってよい複数の地理的領域を含むことができる。更に、地理的領域は、地理的領域304及び306によって示されるように、重複することができる。更に、地理的領域の間に隙間があってもよく、その結果、地理的領域による対象とならない領域ができる。例えば、受信位置が、地理的領域304と308の間にある場合は、地理的領域に含まれない。
各地理的領域は、重心と関連付けられてもよく、重心を含んでもよい。重心は、位置によって定義された地理的領域の事前定義された中心であってよい。重心の位置は、幾つかの異なる方法で選択することができる。例えば、重心の位置は、位置の地理的中心であってよい。あるいは、重心の位置は、市庁舎などの市の中心に基づいて定義されてもよい。重心の位置は、また、ローカル言語モデルを構築するために使用される情報の集中に基づくことができる。即ち、ほとんどの情報が、特定位置の近くに極度に集中される場合は、その位置を重心として選択することができる。また、人口分布など、重心を位置決めする追加の方法が可能である。
図2に戻ると、当業者には、認識システム206がこれより多いか少ないデータベースで構成され得ることが理解されるであろう。例えば、グローバル言語モデルとローカル言語モデルは、単一データベース内に維持されてもよい。あるいは、認識システム206は、サポートされた各言語のデータベースを維持するように構成されてもよく、その場合、個々のデータベースがグローバル言語モデルとその言語の全てのローカル言語モデルの両方を含む。グローバル言語モデルとローカル言語モデルを配分する追加の方法も可能である。
図2の例示的構成において、認識システム206は、データベースと対話しかつ/又は入力信号を認識するための4つのモジュールを維持する。通信インタフェース208は、クライアント装置202から入力信号及び関連付けられた位置を受け取るように構成され得る。入力信号と位置を受け取った後で、通信インタフェースは、その入力信号と位置を認識システム206内の他のモジュールに送信して入力信号を認識できるようにする。
認識システム206は、また、ローカル言語モデルセレクタ209を維持することができる。ローカル言語モデルセレクタ209は、通信インタフェース208から位置を受信するように構成され得る。その位置に基づいて、ローカル言語モデルセレクタ209は、複合言語モデルビルダ210に渡すことができる1つ以上のローカル言語モデルを選択することができる。複合言語モデルビルダ210は、1つ以上のローカル言語モデルと1つのグローバル言語モデルをマージして複合言語モデルを作成することができる。最後に、認識エンジン212は、複合言語モデルビルダ210によって構築された複合言語モデルを受け取って入力信号を認識することができる。
前述のように、この技術の一態様は、位置情報の収集と使用である。本開示は、この技術の位置ベースデータを使用してユーザを利することができることを理解する。例えば、位置ベースデータを使用して入力信号認識結果を改善することができる。本開示は、更に、位置ベースデータの収集及び/又は使用の役割を負う実体が、位置ベースデータを非公開かつセキュアに維持するための産業又は行政の要求事項を満たすか又は上回ると、一般に理解されたプライバシポリシーと慣行を実装し一貫して使用すべきであると考える。例えば、ユーザからの位置ベースデータは、実体の合法的かつ妥当な使用のために収集されるべきであり、それらの合法的な使用以外で共有も販売もされるべきでない。更に、そのような収集は、ユーザに状況を説明して同意を得た後にのみ行われるべきである。更に、そのような実体は、そのような位置ベースデータへのアクセスを防衛し保護し、また位置ベースデータに対するアクセス権を有する他者がそのプライバシ及びセキュリティポリシー及び手順を遵守することを保証するのに必要なステップを取るべきである。更に、そのような実体は、広く受け入れられるプライバシポリシー及び慣行に対する遵守を明らかにするために、第三者による評価を受けることができる。
前述のことがらにもかかわらず、本開示は、ユーザが位置ベースデータの使用又はそれに対するアクセスを選択的に阻止する実施形態も考えている。即ち、本開示は、そのような位置ベースデータへのアクセスを防止又は阻止するハードウェア及び/又はソフトウェア要素を提供することができることを意図する。例えば、この技術は、ユーザが、サービスの登録中又はプリファレンス設定によって、位置ベースデータの収集への参加の「オプトイン」又は「オプトアウト」を選択することを可能にするように構成され得る。別の例では、ユーザは、入力信号認識システムに提供される位置情報の粒度を指定することができ、例えば、ユーザは、クライアント装置が郵便番号を送信する許可を与えるが、GPS座標を送信する許可を与えない。
したがって、本開示は、1つ以上の様々な開示された実施形態を実現するために位置ベースデータの使用を幅広くカバーするが、本開示は、様々な実施形態が、また位置ベースデータの様々な粒度を使用して実現され得ることも意図する。即ち、この技術の様々な実施形態は、位置ベースデータの粒度の欠如によって使用不能にはならない。
図4は、認識システム206に基づく例示的な入力信号認識プロセス400を示す。前述したように、通信インタフェース208は、入力信号及び関連付けられた位置を受信するように構成され得る。通信インタフェース208は、位置情報をローカル言語モデルセレクタ209に伝達することができる。
ローカル言語モデルセレクタ209は、通信インタフェース208から位置を受信するように構成され得る。その位置に基づいて、ローカル言語セレクタは、地理的領域を識別することができる。地理的領域は、様々な方法で選択され得る。いくつかの例では、地理的領域を位置包含(location containment)に基づいて選択することができる。即ち、地理的領域は、その位置がその地理的領域内に含まれる場合に選択することができる。あるいは、地理的領域は、位置の近さに基づいて選択され得る。例えば、位置が地理的領域の重心に最も近い場合にその地理的領域を選択することができる。地理的領域が重なるときや、位置が2つの異なる重心から等距離のときなど、複数の地理的領域が等しく選択可能な場合、タイブレークの指針を確立することができる。例えば、位置が複数の地理的領域内に含まれる場合は、重心又は最も近い境界までの近さを使用してタイブレークすることができる。同様に、位置が複数の重心から等距離のときは、包含又は境界からの距離をタイブレーカとして使用することができる。また、代替のタイブレーク方法も可能である。ローカル言語モデルセレクタ209が地理的領域を選択した後で、ローカル言語モデルセレクタ209は、例えばローカル言語モデルデータベース216から取り出すことなどによって、対応するローカル言語モデルを得ることができる。
いくつかの実施形態では、ローカル言語モデルセレクタ209は、追加の地理的領域を選択するように構成され得る。例えば、ローカル言語モデルセレクタ209は、その位置が含まれる全ての地理的領域及び/又はその位置が地理的領域の重心からしきい値距離以内にあるすべての地理的領域を選択するように構成され得る。そのような構成において、ローカル言語モデルセレクタ209は、追加の地理的領域それぞれに対応するローカル言語モデルを得ることもできる。
また、ローカル言語モデルセレクタ209は、選択されたローカル言語モデルの1つ以上に重み又は倍率を割り当てるように構成されてもよく、場合によっては、ローカル言語モデルのサブセットだけが重みを割り当てられる。例えば、地理的領域が両方とも、包含と近さに基づいて選択された場合、ローカル言語モデルセレクタ209は、近さに基づいて選択された地理的領域に対応するローカル言語モデルの寄与を少なくするように設計された重みを割り当てることができる。即ち、更に遠くにある地理的領域に対応するローカル言語モデルは、ごく小さい重みなどの、重みが与えられてもよく、その結果、それらのローカル言語モデルは、重要性が低くなる。あるいは、ローカル言語モデルセレクタ209は、関連付けられた地理的領域の重心からその位置までの距離が指定しきい値を超える場合に、言語モデルに重みを割り当てるように構成され得る。再び、重みは、ローカル言語モデルの寄与を低減するように設計され得る。この場合、重みは、地理的領域内の位置包含にかかわらず割り当てられ得る。また、重み又は倍率が割り当てられるローカル言語モデルのサブセットを選択する付加的な方法が可能である。
いくつかの構成において、重みは、関連付けられた地理的領域の重心からの距離に基づくことができる。例えば、図5は、重心からの距離に基づく例示的な重み付け方式500を示す。この例では、位置L1に対して、3つの地理的領域502、504及び506が選択されている。位置L1が地理的領域502及び504内に含まれるが、重みは、対応するローカル言語モデルのそれぞれに割り当てられる。重みw1が、地理的領域502と関連付けられたローカル言語モデルに割り当てられ、重みw2が、地理的領域504と関連付けられたローカル言語モデルに割り当てられ、重みw3が、地理的領域506と関連付けられたローカル言語モデルに割り当てられる。
図5に示された重み付け方式500を使用すると、位置が重心からより遠い場合に、ローカル言語モデルは、より低い重みが割り当てられ得る。例えば、重みは、重心からの距離に反比例してもよい。これは、位置がより遠い場合に、入力信号がその地理的領域の固有ワードシーケンスと対応する可能性が低い、という考えに基づく。あるいは、重みは、重心からの距離の他の関数であってもよい。例えば、機械学習技術を使用して、最適な関数タイプ及び関数の任意のパラメータを決定することができる。
重みは、また、ローカル言語モデルを構築するために使用されるローカル情報の認知精度に少なくとも部分的に基づいてもよい。例えば、情報が、公文書、電話帳、職業別電話帳リストなどの信頼できるソースから収集された場合、ローカル言語モデルは、ブログなどのあまり信頼できないソースから収集されたものより高い重みが与えられ得る。追加の重み付け方式も可能である。
図4に戻ると、ローカル言語モデルセレクタ209は、任意の関連付けられた重みを有する1つ以上のローカル言語モデルを複合言語モデルビルダ210に渡すことができる。複合言語モデルビルダ210は、例えばグローバル言語モデルデータベース214からグローバル言語モデルを取得するように構成され得る。次に、複合言語モデルビルダ210はグローバル言語モデル及び1つ以上のローカル言語モデルをマージして複合言語モデルを生成することができ、いくつかの実施形態では、マージが、1つ以上のローカル言語モデルと関連付けられた1つ以上の重みによって影響を受け得る。例えば、図5の位置L1に基づいて生成された複合言語モデル(HLM)は、次のようにマージされ得る。
HLM=GLM+(w1*LLM1)+(w2*LLM2)+(w3*LLM3)
ここで、GLMは、グローバル言語モデルであり、LLM1は、地理的領域502と関連付けられたローカル言語モデルであり、LLM2は、地理的領域504と関連付けられたローカル言語モデルであり、LLM3は、地理的領域506と関連付けられたローカル言語モデルである。
図4で、複合言語モデルビルダ210が、複合言語モデルを生成した後、複合言語モデルを認識エンジン212に渡すことができる。認識エンジン212は、また、通信インタフェース208から入力信号を受け取ることができる。認識エンジン212は、複合言語モデルを使用して、入力信号に対応するワードシーケンスを生成することができる。前述のように、複合言語モデルは、統計言語モデルであってよい。この場合、認識エンジン212は、複合言語モデルを使用して、入力シーケンスに対応する可能性が統計的に最も高いワードシーケンスを識別することができる。
図6は、単一のローカル言語モデルを使用して入力信号を自動認識するための例示的な方法600を示すフローチャートである。分かり易くするため、この方法は、図2に示されたような例示的な認識システムに関して説明される。図6に特定のステップが示されているが、他の実施形態では、方法は、これより多いか少ないステップを有してもよい。自動入力信号認識プロセス600が、ステップ602で始まり、認識システムが、入力信号を受け取る。いくつかの構成では、入力信号は、音声信号であってよい。認識システムは、また、GPS座標、市、郵便番号などの入力信号と関連付けられた位置を受け取ることができる(604)。いくつかの構成において、位置は、入力信号と併せて受信され得る。あるいは、位置は、クライアント装置との他の対話によって受信され得る。
認識システムが、入力信号及び関連付けられた位置を受け取ると、認識システムは、位置に基づいてローカル言語モデルを選択することができる(606)。いくつかの構成では、認識システムは、位置に適合する地理的領域を最初に識別することによって、ローカル言語モデルを選択することができる。いくつかの例では、地理的領域は、地理的領域内の位置の包含に基づいて識別され得る。あるいは、地理的領域は、地理的領域の重心に対する位置の近さに基づいて選択され得る。複数の地理的領域が等しく選択可能である場合、前述のようなタイブレーカ法を使用することができる。地理的領域が識別された後、対応するローカル言語モデルを選択することができる。いくつかの構成では、ローカル言語モデルは、統計言語モデルであってよい。
次に、選択されたローカル言語モデルをグローバル言語モデルとマージして複合言語モデルを生成することができる(608)。いくつかの構成では、マージプロセスは、ローカル言語モデルの重みを組み込むことができる。即ち、ローカル言語モデルが、生成された複合言語モデルにどれだけ影響を及ぼすかを示す重みが、使用されるローカル言語モデルに割り当てられる。割り当てられた重みは、ローカル言語モデルの認知精度及び/又は地理的領域の重心に対する位置の近さなど、様々な因子に基づくことができる。次に、複合言語モデルを使用して、入力信号に対応する可能性が最も高いワードシーケンスを識別することによって、入力信号を認識することができる(610)。
図7は、複数のローカル言語モデルを使用して入力信号を自動認識する例示的な方法700を示すフローチャートである。分かり易くするために、この方法は、図2に示されたような例示的な認識システムに関して説明される。図7に特定のステップを示すが、他の実施形態では、方法は、これより多いか少ないステップを有してもよい。自動入力信号認識プロセス700は、ステップ702で始まり、認識システムが入力信号及び関連付けられた位置を受け取る。いくつかの構成において、入力信号及び関連付けられた位置は、クライアント装置との単一の通信において対で受信され得る。あるいは、入力信号及び関連付けられた位置は、クライアント装置との別個の通信によって受信することができる。
入力信号及び関連付けられた位置を受け取った後で、認識システムは、地理的領域を取得し(704)、その位置が、地理的領域内にあるか又は地理的領域の重心の指定しきい値距離以内に含まれるかどうかを確認することができる(706)。そのような場合、認識システムは、地理的領域と関連付けられたローカル言語モデルを取得し(708)、ローカル言語モデルに重みを割り当てることができる(710)。いくつかの構成において、重みは、地理的領域の重心からの位置の距離に基づく。重みは、また、ローカル言語モデルを構築するために使用されるローカル情報の認知精度に少なくとも部分的に基づくことができ、いくつかの構成では、認識システムは、ローカル言語モデルのサブセットだけに重みを割り当てることができる。いくつかの例では、ローカル言語モデルが重みを割り当てられるかどうかは、重みのタイプに基づくことができる。例えば、重みが認知精度に基づく場合、ローカル言語モデルは、認知精度のレベルが指定しきい値より高い場合に、重みを割り当てられないことがある。あるいは、認識システムは、位置がローカル言語モデルと関連付けられた地理的領域外にある場合だけ、距離重みを割り当てるように構成され得る。この場合、距離重みは、位置と地理的領域の重心との間の距離に基づくことができる。次に、認識システムは、ローカル言語モデルとその関連付けられた重みを、1組の選択されたローカル言語モデルに追加することができる(712)。
単一の地理的領域を処理した後、認識プロセスは、追加の地理的領域があるかどうかを確認することによって継続することができる(714)。そのような場合、ローカル言語モデル選択プロセスは、ステップ704で継続することにより繰り返す。位置に対応する全てのローカル言語モデルが識別された後で、認識システムは、1組の選択されたローカル言語モデルをグローバル言語とマージして(716)、複合言語モデルを生成することができる。マージは、ローカル言語モデルと関連付けられた重みによる影響を受けることがある。いくつかの例では、あまり信頼できない情報を有しかつ/又はより離れた地理的領域と関連付けられたローカル言語モデルは、生成された複合言語モデルに対する統計的影響が少ないことがある。
次に、認識システムは、複合言語モデルに基づいて入力信号をワードシーケンスに変換することによって、入力信号を認識することができる(718)。いくつかの構成において、複合言語モデルは統計言語モデルであり、したがって、入力信号に対応する確率が最も高い複合言語モデル内のワードシーケンスを識別することによって、入力信号を変換することができる。
図8は、位置ベース入力信号認識の例示的なクライアント装置構成を示す。例示的なクライアント装置802は、図1の装置100など、汎用コンピューティング装置に常駐するように構成され得る。クライアント装置802は、デスクトップコンピュータ、モバイルコンピュータなどのネットワーク対応コンピューティングデバイス、携帯型通信装置(例えば、携帯電話、スマートフォン、タブレット)、及び/又は任意の他のネットワーク対応通信装置であってよい。
クライアント装置802は、入力信号を受け取るように構成され得る。入力信号は、表現するワードシーケンスにマッピングすることができる任意のタイプの信号であってよい。例えば、入力信号は、クライアント装置802が、入力音声信号を表わす可能性が統計的に最も高いワードシーケンスを生成することができる音声信号であってよい。あるいは、入力シーケンスは、テキストシーケンスであってよい。この場合、クライアント装置は、受信した入力テキスト信号を完成させるか又は受け取ったテキスト信号と同等である可能性が統計的に最も高いワードシーケンスを生成するように構成され得る。
クライアント装置802が入力信号を受け取る方法は、装置の構成及び/又は入力信号のタイプにより変化することができる。例えば、入力信号が音声信号の場合、クライアント装置802は、マイクロフォンを介して入力信号を受け取るように構成され得る。あるいは、入力信号がテキスト信号の場合、クライアント装置802は、キーボードを介して入力信号を受け取るように構成され得る。入力信号を受け取る追加の方法も可能である。
クライアント装置802は、また、クライアント装置の位置を表す位置を受け取ることができる。位置は、緯度及び/又は経度、GPS座標、郵便番号、市、州、市外局番などの様々な形式で表わすことができる。クライアント装置802が位置を受け取る方法は、装置の構成により変化することができる。例えば、クライアント装置の位置を識別する様々な方法(例えば、GPS、三角測量、IPアドレスなど)が可能である。いくつかの例では、クライアント装置802は、これらの位置識別技術の1つ以上を備えることができる。更に、いくつかの構成では、クライアント装置のユーザは、クライアント装置802の現在位置を表わす郵便番号、市、州及び/又は市外局番などの位置を入力することができる。更に、いくつかの構成では、クライアント装置802のユーザは、クライアント装置のデフォルト位置を設定することができ、その結果、デフォルト位置は、常に、現在位置の代わりに提供されるか、クライアント装置が現在位置を決定できないときに提供される。
クライアント装置802は1つ以上のローカル言語モデル及び1つのグローバル言語モデルを受信するために、ネットワーク804を介して、言語モデル提供者806と通信するように構成することができる。上に開示されたように、言語モデルは、入力信号をワードシーケンスに変換するために言語の特性を獲得するために使用され得る任意のモデルであってよい。いくつかの構成では、クライアント装置802は、複数の言語モデル提供者と通信することができる。例えば、クライアント装置802は、ある言語モデル提供者と通信してグローバル言語モデルを受け取り、別の言語モデル提供者と通信して1つ以上のローカル言語モデルを受け取ることができる。あるいは、クライアント装置802は、装置の位置により様々な言語提供者と通信することができる。例えば、クライアント装置802が、ある地理的領域から別の地理的領域に移動する場合、クライアント装置は、様々な言語モデル提供者から言語モデルを受け取ることができる。
クライアント装置802が、入力信号の認識を容易にする幾つかの構成要素を含むことができる。構成要素は、言語モデル提供者と対話しかつ/又は入力信号を認識するための1つ以上のモジュール(例えば、通信インタフェース808、複合言語モデルビルダ810、認識エンジン812)を含むことができる。当業者は、図8に示された構成が、単に1つの可能な構成であり、これより多いか又は少ない構成要素を有する他の構成も可能であることを理解されたい。
通信インタフェース808は、言語モデル提供者806と通信して言語モデル提供者806に要求を送り、要求した言語モデルを受け取るように構成され得る。前述のように、ローカル言語モデルはそれぞれ、事前定義された地理的領域、即ち地理的領域と関連付けられ得る。地理的領域は、様々な方法で定義することができる。例えば、地理的領域は、郵便番号、市外局番、市、国などの十分に確立した地理的領域に基づくことができる。あるいは、地理的領域は、ユーザの分布に基づいてサービスエリアを複数の地理的領域に分割することなどによって、任意の地理的領域を使用して定義され得る。更に、地理的領域は、重複するか相互排他的であるように定義されてもよい。更に、いくつかの構成では、地理的領域間に隙間があってもよい。
更に、前述のように、各地理的領域は、重心と関連付けられるか、又は重心を含んでもよい。重心は、位置によって定義された地理的領域の事前定義された中心であってよい。重心の位置は、いくつかの異なる方法で選択され得る。例えば、重心の位置は、位置の地理的中心であってよい。あるいは、重心の位置は、市庁舎などの市の中心に基づいて定義され得る。また、重心の位置は、ローカル言語モデルを構築するために使用される情報の集中に基づいてもよい。即ち、情報の大部分が特定の位置のまわりに極度に集中した場合、その位置を重心として選択することができる。また、人口分布など、重心を位置決めする追加の方法が可能である。
いくつかの構成において、クライアント装置802は、位置の地理的領域を識別することができる。この場合、クライアント装置802が、言語モデル提供者806からローカル言語モデルを要求するとき、要求は、地理的領域識別子を含むことができる。あるいは、クライアント装置802が、要求と共に位置を送信するように構成されてもよく、言語モデル提供者806は、適切な地理的領域を識別することができる。いくつかの構成では、クライアント装置802は、ローカル言語モデルと共に重心を受け取ることができる。重心は、ローカル言語モデルと関連付けられた地理的領域の重心であってよい。
いくつかの構成において、受け取ったローカル言語モデルは、関連付けられた重みを有することもできる。重みのタイプは、構成により異なってもよい。例えば、場合によって、重みは、ローカル言語モデルを構築するために使用されたローカル情報の認知精度に少なくとも部分的に基づくことができる。クライアント装置が要求と共に位置を供給したような構成では、重みは、地理的領域の重心からの位置の距離に基づくことができる。あるいは、距離又は近さに基づく重みは、位置と、クライアントが選択した地理的領域と関連付けられた重心若しくはローカル言語モデルと共に受け取られた重心を使用して、クライアント装置によって計算することができる。いくつかの構成では、ローカル言語モデルのサブセットだけに重みが割り当てられる。いくつかの例では、ローカル言語モデルに重みが割り当てられるかどうかは、重みのタイプに基づくことができる。例えば、重みが認知精度に基づく場合、ローカル言語モデルは、認知精度のレベルが指定しきい値より上にある場合に、重みを割り当てられないことがある。あるいは、位置が、ローカル言語モデルと関連付けられた地理的領域外にある場合、ローカル言語には距離重みだけが割り当てられることがある。
通信インタフェース808は、受け取ったグローバル言語モデル及び1つ以上のローカル言語モデルを複合言語モデルビルダ810に渡すように構成され得る。複合言語モデルビルダ810は、グローバル言語モデル及び1つ以上のローカル言語モデルをマージして複合言語モデルを生成するように構成され得る。いくつかの実施形態では、マージは、1つ以上のローカル言語モデルと関連付けられた1つ以上の重みによる影響を受け得る。複合言語モデルビルダ810が複合言語モデルを生成した後、複合言語モデルを認識エンジン812に渡すことができる。認識エンジンは、複合言語モデルを使用して、入力信号に対応するワードシーケンスを生成することができる。前述のように、複合言語モデルは、統計言語モデルであってよい。この場合、認識エンジン812は、複合言語モデルを使用して、入力シーケンスに対応する可能性が統計的に最も高いワードシーケンスを識別することができる。
図9は、入力信号を自動認識する例示的な方法900を示すフローチャートである。分かりやすくするために、この方法は、図8に示されたような例示的なクライアント装置に関して説明される。特定のステップを図9に示したが、他の実施形態では、方法はこれより多いか少ないステップを有し得る。自動入力信号認識方法900は、ステップ902で始まり、クライアント装置が、入力信号及び関連付けられた位置を受け取る。いくつかの構成において、入力信号は、音声信号であってよい。
クライアント装置が、入力信号及び関連付けられた位置を受け取った後、クライアント装置は、要求に応じて、ローカル言語モデルとグローバル言語モデルを受け取ることができる(904)。いくつかの構成では、要求は、位置を含むことができる。あるいは、要求は、クライアント装置が位置に適合すると識別した地理的領域を含むことができる。いくつかの構成では、受け取ったローカル言語モデルは、関連付けられた地理的領域重心を有することができる。
クライアント装置は、また、ローカル言語モデルの要求に応答して、1組の追加のローカル言語を受け取ることができる(906)。いくつかの構成では、この要求は、元の要求と別であってもよい。あるいは、クライアント装置は、1組のローカル言語モデルと1つのグローバル言語モデルの単一要求をすることができる。最初に受け取ったローカル言語モデルと同じように、1組の追加のローカル言語モデルのローカル言語モデルはそれぞれ、関連付けられた地理的領域の重心を有することができる。
1つ以上のローカル言語モデルを受け取った後で、クライアント装置は、それぞれのローカル言語モデルの重みを識別することができる(908)。いくつかの構成では、言語モデル提供者は、重みを割り当てることができ、したがって、クライアント装置は、重みを検出するだけでよい。しかしながら、他の場合、クライアント装置は、重みを計算することができる。いくつかの構成では、重みは、位置と関連付けられた重心との間の距離に基づくことができる。更に、場合によって、計算された重みは、認知精度の重みなどのローカル言語モデルと既に関連付けられている重みを反映することができる。
次に、1つ以上のローカル言語モデルをグローバル言語モデルとマージして、複合言語モデルを生成することができる(910)。いくつかの構成では、マージは、ローカル言語モデルと関連付けられた重みによって影響を受けることがある。例えば、あまり信頼できない情報を有する及び/又はより離れた地理的領域と関連付けられたローカル言語モデルが、生成された複合言語モデルに対して統計的影響をあまり与えないようにすることができる。
統計言語モデルを使用すると、クライアント装置は、入力信号に対応する可能性がある1組のワードシーケンスを識別することができる(912)。いくつかの構成では、複合言語モデルは、統計言語モデルであり、したがって、可能性があるワードシーケンスはそれぞれ、関連付けられた出現確率を有することができる。この場合、クライアント装置は、出現確率が最も高いワードシーケンスを選択することによって、入力信号を認識することができる(914)。
いくつかの実施によれば、図10は、前述のように本発明の原理に従って構成された電子装置1000の機能ブロック図を示す。この装置の機能ブロックは、本発明の原理を実行するためにハードウェア、ソフトウェア、又はハードウェアとソフトウェアとの組み合わせにより実施することができる。当業者によれば、図10に述べられる機能ブロックは、上記に述べたような本発明の原理を実施するために組み合わせるか、又はサブブロックに分割することができる。したがって、本明細書における説明は、あらゆる可能な組み合わせ若しくは分割、又は本明細書に述べられる更なる機能ブロックの定義を支持しうるものである。
図10に示されたように、電子装置1000は処理ユニット1006に結合された入力受信ユニット1002を含む。いくつかの実施態様では、処理ユニット1006は、言語モデル選択ユニット1008、言語モデルマージユニット1010、入力信号認識ユニット1012、及び言語モデル重み付けユニット1014を含む。
入力受信ユニット1002は、入力信号と、入力信号と関連付けられた位置とを受信するように構成される。いくつかの実施態様では、入力信号は、音声信号である。
処理ユニット1006は、位置に基づいて複数のローカル言語モデルから第1の言語モデルを選択し(例えば、言語モデル選択ユニット1008によって)、第1のローカル言語モデルとグローバル言語モデルをマージして複合言語モデルを生成し(例えば、言語モデルマージユニット1010によって)、入力信号に対応する可能性が統計的に最も高くかつ/又は入力信号に対応する確率が最も高いワードシーケンスを識別することによって複合言語モデルに基づいて入力信号を認識する(例えば、入力信号認識ユニット1012によって)ように構成される。
いくつかの実施態様では、第1のローカル言語モデルは、位置と関連付けられる地理的領域にマッピングされ、その地理的領域は重心を含む。いくつかの実施態様では、位置は地理的領域内に含まれている。いくつかの実施態様では、位置が重心の指定しきい値距離内にある。いくつかの実施態様では、地理的領域は確立された地理的位置によって定義される。
いくつかの実施態様では、処理ユニット1006は、更に、位置に基づいて複数のローカル言語モデルから第2のローカル言語モデルを選択し(例えば、言語モデル選択ユニット1008によって)、第1のローカル言語モデル、第2のローカル言語モデル及びグローバル言語モデルをマージして、複合言語モデルを生成する(例えば、言語モデルマージユニット1010によって)ように構成される。
いくつかの実施態様において、処理ユニット1006は、更に、第1の重み値(及び/又は倍率)を第1のローカル言語モデルに割り当て、第2の重み値(及び/又は倍率)を第2のローカル言語モデルに割り当てて、その後で、第1のローカル言語モデル、第2のローカル言語モデル、及びグローバル言語モデル(例えば、言語モデル重み付けユニット1014)をマージするように構成される。いくつかの実施態様において、第1又は第2の重み値(及び/又は倍率)の少なくとも一方が、選択された地理的領域内に含まれる重心から位置までの距離に少なくとも部分的に基づく。いくつかの実施態様では、第1又は第2の重み値(及び/又は倍率)の少なくとも一方は、ローカル言語モデルに割り当てられた精度レベルに少なくとも部分的に基づく。
いくつかの実施態様では、位置がその位置と関連付けられた地理的領域外にあるとき、第1又は第2の重み値(及び/又は倍率)の少なくとも一方が、第1又は第2のローカル言語モデルにそれぞれ適用される。
いくつかの実施態様では、第1のローカル言語モデルは、ローカル道路名、ローカル近隣名、ローカル事業名、ローカルランドマーク名、及びローカルアトラクション名のうちの少なくとも1つを含む。いくつかの実施態様では、第1及び第2のローカル言語の少なくとも1つは、統計言語モデルであり、統計言語モデルは、ローカル電話帳、ローカル職業別電話帳、ローカル紙、ローカル地図、ローカル広告、及びローカルブログのうちの少なくとも1つを使用して構築される。
本開示の範囲内の実施形態は、また、記憶されたコンピュータ実行可能命令若しくはデータ構造を保持又は有する有形の及び/若しくは永続的コンピュータ可読記憶媒体を含んでもよい。そのような永続的コンピュータ可読記憶媒体は、前述のような任意の専用プロセッサの機能設計を含む、汎用又は専用コンピュータがアクセスできる任意の利用可能な媒体であってよい。一例として、また限定するものではなく、そのような永続的コンピュータ可読媒体には、RAM、ROM、EEPROM、CD−ROM、又は他の光ディスク記憶装置、磁気ディスク記憶装置若しくは他の磁気記憶装置、又はコンピュータ実行可能命令、データ構造、又はプロセッサチップ設計の形で所望のプログラムコード手段を保持又は記憶するために使用することができる、その他任意の媒体が挙げられる。情報が、ネットワーク又は通信接続(有線、無線、又はこれらの組み合わせ)を介してコンピュータに転送又は提供されるとき、コンピュータは、その接続をコンピュータ可読媒体と見なすことは適切である。したがって、任意のそのような接続は、コンピュータ可読媒体と呼ばれることが適切である。上記の組み合わせもまた、コンピュータ可読媒体の範囲内に包含されなければならない。
コンピュータ実行可能命令は、例えば、汎用コンピュータ、専用コンピュータ、又は専用処理装置に特定の機能若しくは機能群を実行させる命令及びデータを含む。コンピュータ実行可能命令は、また、コンピュータによってスタンドアロン又はネットワーク環境で実行されるプログラムモジュールを含む。一般に、プログラムモジュールは、特定のタスクを実行するか特定の抽象データ型を実装する、専用プロセッサなどの設計に固有のルーチン、プログラム、コンポーネント、データ構造、オブジェクト、及び関数を含む。コンピュータ実行可能命令、関連データ構造、及びプログラムモジュールは、本明細書に開示された方法のステップを実行するためのプログラムコード手段の例を表わす。そのような実行可能命令の特定のシーケンス又は関連したデータ構造は、これらのステップで述べられた機能を実装するための対応する操作の例を表わす。
当業者は、本開示のその他の実施形態が、パーソナルコンピュータ、ハンドヘルド装置、マルチプロセッサシステム、マイクロプロセサベースの又はプログラム可能な民生電子装置、ネットワークPC、ミニコンピュータ、メインフレームコンピュータなどを含む、多くのタイプのコンピュータシステム構成を含むネットワークコンピューティング環境で実施されてもよいことを理解するであろう。実施形態は、また、通信ネットワーク経由で(有線接続、無線接続、又はこれらの組み合わせによって)結合されたローカル及びリモート処理装置によってタスクが実行される分散コンピューティング環境で実施されてもよい。分散コンピューティング環境では、プログラムモジュールは、ローカルとリモートの両方の記憶装置に配置されてもよい。
以上述べた様々な実施形態は、説明のためにのみ提供され、開示の範囲を限定するように解釈されるべきでない。当業者は、本明細書に示され説明された例示的な実施形態及び用途に従うことなく、開示の趣旨及び範囲から逸脱することなく、本明細書で述べた原理にしたがって行われ得る様々な修正及び変更を容易に理解するであろう。

Claims (44)

  1. 入力信号認識のためにコンピュータにより実行される方法であって、
    入力信号と、前記入力信号と関連付けられた位置とを受け取ることと、
    前記位置に基づいて複数のローカル言語モデルから第1の言語モデルを選択することと、
    プロセッサによって、前記第1のローカル言語モデルとグローバル言語モデルをマージして複合言語モデルを生成することと、
    前記入力信号に対応する可能性が統計的に最も高いワードシーケンスを識別することによって、前記複合言語モデルに基づいて前記入力信号を認識することと、を含む方法。
  2. 前記入力信号が音声信号である、請求項1に記載の方法。
  3. 前記第1のローカル言語モデルが、前記位置と関連付けられた地理的領域にマッピングされ、前記地理的領域が重心を含む、請求項1又は2に記載の方法。
  4. 前記位置が、前記地理的領域内に含まれる、請求項3に記載の方法。
  5. 前記位置が、前記重心から指定しきい値距離内にある、請求項3又は4に記載の方法。
  6. 前記位置に基づいて前記複数のローカル言語モデルから第2のローカル言語モデルを選択することと、
    前記第1のローカル言語モデル、前記第2のローカル言語モデル及び前記グローバル言語モデルをマージして前記複合言語モデルを生成することと、を更に含む、請求項1〜5のいずれか一項に記載の方法。
  7. 前記第1のローカル言語モデル、前記第2のローカル言語モデル及び前記グローバル言語モデルをマージする前に、第1の重み値を前記第1のローカル言語モデルに割り当て、第2の重み値を前記第2のローカル言語モデルに割り当てることを更に含む、請求項6に記載の方法。
  8. 前記第1又は第2の重み値の少なくとも一方が、選択された地理的領域内に含まれる重心から前記位置までの距離に少なくとも部分的に基づく、請求項7に記載の方法。
  9. 前記第1又は第2の重み値の少なくとも一方が、ローカル言語モデルに割り当てられた精度レベルに少なくとも部分的に基づく、請求項7又は8に記載の方法。
  10. 前記第1のローカル言語モデルが、ローカル道路名、ローカル近隣名、ローカル事業名、ローカルランドマーク名、及びローカルアトラクション名のうちの少なくとも1つを含む、請求項1〜9のいずれか一項に記載の方法。
  11. 前記地理的領域が、確立された地理的位置によって定義される、請求項3に記載の方法。
  12. 入力信号認識のためのシステムであって、
    サーバと、
    前記サーバで、入力信号と、前記入力信号と関連付けられた位置とを受け取ることと、
    前記位置に対応する第1のローカル言語モデルをグローバル言語モデルに合体することによって複合言語モデルを生成することと、
    前記複合言語モデルを使用して前記入力信号に対応する最も高い確率を有するワードシーケンスを選択することと、を備えるシステム。
  13. 前記第1のローカル言語モデルが、重心を有する地理的領域を通じて前記位置に対応する、請求項12に記載のシステム。
  14. 同じく前記位置に対応する第2のローカル言語モデルを前記グローバル言語モデルに合体し前記複合言語モデルを生成することを更に備える、請求項12〜13のいずれか一項に記載のシステム。
  15. 前記第1のローカル言語モデルと前記第2のローカル言語モデルを前記グローバル言語モデルに合体する前に、第1の倍率を前記第1のローカル言語モデルに割り当て、第2の倍率を前記第2のローカル言語モデルに割り当てることと、
    前記第1のローカル言語モデルと前記第2のローカル言語モデルを前記グローバル言語モデルに、前記それぞれの第1と第2の倍率に基づいて合体させることによって複合言語モデルを生成することとを更に備える、請求項14に記載のシステム。
  16. 前記位置が、前記言語モデルと関連付けられた地理的領域外にあるときに、前記第1又は第2のローカル言語モデルの少なくとも一方に倍率が適用される、請求項15に記載のシステム。
  17. 前記位置が、前記地理的領域内に含まれる、請求項13〜15のいずれか一項に記載のシステム。
  18. 前記位置が、前記重心から指定しきい値距離内にある、請求項13〜17のいずれか一項に記載のシステム。
  19. コンピューティング装置によって実行されたとき、前記コンピューティング装置に入力信号を認識させる命令を記憶する永続的コンピュータ可読記憶媒体であって、前記命令が、
    入力信号と、前記入力信号と関連付けられた位置とを受け取ることと、
    前記位置に基づく第1のローカル言語モデルと、グローバル言語モデルとを取得することと、
    前記第1のローカル言語モデルと前記グローバル言語モデルをマージすることによって複合言語モデルを生成することと、
    前記入力信号に対して、関連付けられた出現確率をそれぞれ有する1組の可能性があるワードシーケンスを識別し、最も高い確率を有する前記ワードシーケンスを選択することによって、入力信号を認識することと、を含む、永続的コンピュータ可読記憶媒体。
  20. 前記命令が、前記位置に基づいて第2のローカル言語モデルを取得する命令と、前記第1のローカル言語モデル、前記第2のローカル言語モデル及び前記グローバル言語モデルをマージして前記複合言語モデルを生成する命令と、を更に含む、請求項19に記載の永続的コンピュータ可読記憶媒体。
  21. 前記命令が、
    前記第1のローカル言語モデル、前記第2のローカル言語モデル及び前記グローバル言語モデルをマージする前に、前記第1のローカル言語モデルに第1の重みを割り当て、前記第2のローカル言語モデルに第2の重みを割り当てる命令と、
    前記第1のローカル言語モデル、前記第2のローカル言語モデル及び前記グローバル言語モデルをマージすることによって前記複合言語モデルを生成する命令であって、前記マージが前記第1及び第2の重みによる影響を受ける命令と、を更に含む、請求項20に記載の永続的コンピュータ可読記憶媒体。
  22. 前記第1のローカル言語モデルが、事前定義された地理的領域と関連付けられ、前記地理的領域が重心を含む、請求項19〜21のいずれか一項に記載の永続的コンピュータ可読記憶媒体。
  23. 前記位置が、前記第1のローカル言語モデルと関連付けられた前記地理的領域内に含まれる、請求項22に記載の永続的コンピュータ可読記憶媒体。
  24. 前記位置が、前記第1のローカル言語モデルと関連付けられた前記地理的領域内に含まれる前記重心から指定しきい値距離内にある、請求項22〜23のいずれか一項に記載の永続的コンピュータ可読記憶媒体。
  25. 前記第1及び第2のローカル言語モデルの少なくとも一方が、統計言語モデルであり、前記統計言語モデルが、ローカル電話帳、ローカル職業別電話帳リスト、ローカル紙、ローカル地図、ローカル広告、及びローカルブログのうちの少なくとも1つを使用して構築される、請求項20〜24のいずれか一項に記載の永続的コンピュータ可読記憶媒体。
  26. 入力信号と、前記入力信号と関連付けられた位置とを受け取るように構成された入力受信ユニットと、
    前記入力受信ユニットに結合されるように構成された処理ユニットであって、前記処理ユニットが、
    前記位置に基づいて複数のローカル言語モデルから第1の言語モデルを選択し、
    前記第1のローカル言語モデルとグローバル言語モデルをマージして複合言語モデルを生成し、
    前記入力信号に対応する可能性が統計的に最も高いワードシーケンスを識別することによって、前記複合言語モデルに基づいて前記入力信号を認識するように構成された、処理ユニットと、を備える電子装置。
  27. 前記入力信号が、音声信号である、請求項26に記載の電子装置。
  28. 前記第1のローカル言語モデルが、前記位置と関連付けられた重心を含む地理的領域にマッピングされる、請求項26〜27のいずれか一項に記載の電子装置。
  29. 前記位置が、前記地理的領域内に含まれる、請求項28に記載の電子装置。
  30. 前記位置が、前記重心から指定しきい値距離内にある、請求項28〜29のいずれか一項に記載の電子装置。
  31. 前記処理ユニットが、
    前記位置に基づいて前記複数のローカル言語モデルから第2のローカル言語モデルを選択し、
    前記第1のローカル言語モデル、前記第2のローカル言語モデル及び前記グローバル言語モデルをマージして前記複合言語モデルを生成するように、更に構成された、請求項28〜30のいずれか一項に記載の電子装置。
  32. 前記処理ユニットが、前記第1のローカル言語モデル、前記第2のローカル言語モデル及び前記グローバル言語モデルをマージする前に、前記第1のローカル言語モデルに第1の重み値を割り当て、前記第2のローカル言語モデルに第2の重み値を割り当てるように、更に構成された、請求項31に記載の電子装置。
  33. 前記第1又は第2の重み値の少なくとも一方が、前記地理的領域内に含まれる重心から前記位置までの距離に少なくとも部分的に基づく、請求項32に記載の電子装置。
  34. 前記第1又は第2の重み値の少なくとも一方が、ローカル言語モデルに割り当てられた精度レベルに少なくとも部分的に基づく、請求項32〜33のいずれか一項に記載の電子装置。
  35. 前記第1のローカル言語モデルが、ローカル道路名、ローカル近隣名、ローカル事業名、ローカルランドマーク名及びローカルアトラクション名のうちの少なくとも1つを含む、請求項28〜34のいずれか一項に記載の電子装置。
  36. 前記地理的領域が、確立された地理的位置によって定義された、請求項28〜35のいずれか一項に記載の電子装置。
  37. 前記位置が、前記地理的領域外にあるとき、前記第1又は第2の重み値の少なくとも一方が、前記第1又は第2のローカル言語モデルにそれぞれ適用される、請求項32〜36のいずれか一項に記載の電子装置。
  38. 前記第1及び第2のローカル言語モデルの少なくとも1つが、統計言語モデルであり、前記統計言語モデルが、ローカル電話帳、ローカル職業別電話帳リスト、ローカル紙、ローカル地図、ローカル広告、及びローカルブログのうちの少なくとも1つを使用して構築される、請求項31〜37のいずれか一項に記載の電子装置。
  39. 入力信号と、前記入力信号と関連付けられた位置とを受け取る手段と、
    前記位置に基づいて複数のローカル言語モデルから第1の言語モデルを選択する手段と、
    プロセッサによって、前記第1のローカル言語モデルとグローバル言語モデルをマージして複合言語モデルを生成する手段と、
    前記入力信号に対応する可能性が統計的に最も高いワードシーケンスを識別することによって、前記複合言語モデルに基づいて前記入力信号を認識する手段と、を含む電子装置。
  40. 電子装置に使用するための情報処理装置であって、
    入力信号と、前記入力信号と関連付けられた位置とを受け取るための手段と、
    前記位置に基づいて複数のローカル言語モデルから第1の言語モデルを選択する手段と、
    複合言語モデルを生成するために、プロセッサによって、前記第1のローカル言語モデルとグローバル言語モデルをマージする手段と、
    前記入力信号に対応する可能性が統計的に最も高いワードシーケンスを識別することによって、前記複合言語モデルに基づいて前記入力信号を認識する手段と、を含む情報処理装置。
  41. 1つ以上のプロセッサと、請求項1〜11に記載の方法のいずれかを実行するための命令を含む、前記1つ以上のプロセッサにより実行されるための1つ以上のプログラムを記憶したメモリと、を備える、電子装置。
  42. 請求項1〜11に記載の方法のいずれかを実行するための手段を備える、電子装置。
  43. 請求項1〜11に記載の方法のいずれかを実行するための手段を備える、電子装置において使用するための情報処理装置。
  44. 1つ以上のプロセッサにより実行されるための1つ以上のプログラムを記憶する永続的コンピュータ可読記憶媒体であって、前記1つ以上のプログラムが、請求項1〜11に記載の方法のいずれかを実行するための命令を含む、コンピュータ可読記憶媒体。
JP2014561047A 2012-03-06 2013-03-05 位置ベース言語モデリングを使用した自動入力信号認識 Pending JP2015509618A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/412,923 2012-03-06
US13/412,923 US20130238332A1 (en) 2012-03-06 2012-03-06 Automatic input signal recognition using location based language modeling
PCT/US2013/029156 WO2013134287A1 (en) 2012-03-06 2013-03-05 Automatic input signal recognition using location based language modeling

Publications (1)

Publication Number Publication Date
JP2015509618A true JP2015509618A (ja) 2015-03-30

Family

ID=47884615

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014561047A Pending JP2015509618A (ja) 2012-03-06 2013-03-05 位置ベース言語モデリングを使用した自動入力信号認識

Country Status (7)

Country Link
US (1) US20130238332A1 (ja)
EP (1) EP2805323A1 (ja)
JP (1) JP2015509618A (ja)
KR (1) KR20140137352A (ja)
CN (1) CN104160440A (ja)
AU (1) AU2013230105A1 (ja)
WO (1) WO2013134287A1 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9747895B1 (en) * 2012-07-10 2017-08-29 Google Inc. Building language models for a user in a social network from linguistic information
US9966064B2 (en) * 2012-07-18 2018-05-08 International Business Machines Corporation Dialect-specific acoustic language modeling and speech recognition
US9569080B2 (en) 2013-01-29 2017-02-14 Apple Inc. Map language switching
US10199035B2 (en) * 2013-11-22 2019-02-05 Nuance Communications, Inc. Multi-channel speech recognition
US9904851B2 (en) 2014-06-11 2018-02-27 At&T Intellectual Property I, L.P. Exploiting visual information for enhancing audio signals via source separation and beamforming
CN107683504B (zh) * 2015-06-10 2021-05-28 赛伦斯运营公司 用于运动自适应语音处理的方法、系统和计算机可读介质
KR101642918B1 (ko) * 2015-08-03 2016-07-27 서치콘주식회사 코드네임 프로토콜을 이용한 네트워크 접속 제어 방법, 이를 수행하는 네트워크 접속 제어 서버 및 이를 저장하는 기록매체
CN105957516B (zh) * 2016-06-16 2019-03-08 百度在线网络技术(北京)有限公司 多语音识别模型切换方法及装置
US10670415B2 (en) * 2017-07-06 2020-06-02 Here Global B.V. Method and apparatus for providing mobility-based language model adaptation for navigational speech interfaces
US9998334B1 (en) * 2017-08-17 2018-06-12 Chengfu Yu Determining a communication language for internet of things devices
US11886473B2 (en) 2018-04-20 2024-01-30 Meta Platforms, Inc. Intent identification for agent matching by assistant systems
US11676220B2 (en) 2018-04-20 2023-06-13 Meta Platforms, Inc. Processing multimodal user input for assistant systems
US11307880B2 (en) 2018-04-20 2022-04-19 Meta Platforms, Inc. Assisting users with personalized and contextual communication content
US10963273B2 (en) 2018-04-20 2021-03-30 Facebook, Inc. Generating personalized content summaries for users
US11715042B1 (en) 2018-04-20 2023-08-01 Meta Platforms Technologies, Llc Interpretability of deep reinforcement learning models in assistant systems
CN109243461B (zh) * 2018-09-21 2020-04-14 百度在线网络技术(北京)有限公司 语音识别方法、装置、设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0666591A (ja) * 1992-08-20 1994-03-08 Ricoh Co Ltd 車載用ナビゲート装置
JPH0764480A (ja) * 1993-08-25 1995-03-10 Honda Motor Co Ltd 車載情報処理用音声認識装置
JPH07303053A (ja) * 1994-05-02 1995-11-14 Oki Electric Ind Co Ltd 地域判定装置及び音声認識装置
JPH08179790A (ja) * 1994-12-21 1996-07-12 Oki Electric Ind Co Ltd 音声認識装置
JP2000122686A (ja) * 1998-10-12 2000-04-28 Brother Ind Ltd 音声認識装置およびそれを用いた電子機器
JP2001249686A (ja) * 2000-03-08 2001-09-14 Matsushita Electric Ind Co Ltd 音声認識方法、音声認識装置、およびナビゲーション装置
JP2003004470A (ja) * 2001-06-18 2003-01-08 Alpine Electronics Inc ナビゲーション用音声認識装置
US20110093265A1 (en) * 2009-10-16 2011-04-21 Amanda Stent Systems and Methods for Creating and Using Geo-Centric Language Models

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6904405B2 (en) * 1999-07-17 2005-06-07 Edwin A. Suominen Message recognition using shared language model
US7774388B1 (en) * 2001-08-31 2010-08-10 Margaret Runchey Model of everything with UR-URL combination identity-identifier-addressing-indexing method, means, and apparatus
US7328155B2 (en) * 2002-09-25 2008-02-05 Toyota Infotechnology Center Co., Ltd. Method and system for speech recognition using grammar weighted based upon location information
US8041568B2 (en) * 2006-10-13 2011-10-18 Google Inc. Business listing search
US8219406B2 (en) * 2007-03-15 2012-07-10 Microsoft Corporation Speech-centric multimodal user interface design in mobile technology
US8140335B2 (en) * 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US8239129B2 (en) * 2009-07-27 2012-08-07 Robert Bosch Gmbh Method and system for improving speech recognition accuracy by use of geographic information
US9171541B2 (en) * 2009-11-10 2015-10-27 Voicebox Technologies Corporation System and method for hybrid processing in a natural language voice services environment

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0666591A (ja) * 1992-08-20 1994-03-08 Ricoh Co Ltd 車載用ナビゲート装置
JPH0764480A (ja) * 1993-08-25 1995-03-10 Honda Motor Co Ltd 車載情報処理用音声認識装置
JPH07303053A (ja) * 1994-05-02 1995-11-14 Oki Electric Ind Co Ltd 地域判定装置及び音声認識装置
JPH08179790A (ja) * 1994-12-21 1996-07-12 Oki Electric Ind Co Ltd 音声認識装置
JP2000122686A (ja) * 1998-10-12 2000-04-28 Brother Ind Ltd 音声認識装置およびそれを用いた電子機器
JP2001249686A (ja) * 2000-03-08 2001-09-14 Matsushita Electric Ind Co Ltd 音声認識方法、音声認識装置、およびナビゲーション装置
JP2003004470A (ja) * 2001-06-18 2003-01-08 Alpine Electronics Inc ナビゲーション用音声認識装置
US20110093265A1 (en) * 2009-10-16 2011-04-21 Amanda Stent Systems and Methods for Creating and Using Geo-Centric Language Models

Also Published As

Publication number Publication date
KR20140137352A (ko) 2014-12-02
WO2013134287A1 (en) 2013-09-12
AU2013230105A1 (en) 2014-09-11
EP2805323A1 (en) 2014-11-26
US20130238332A1 (en) 2013-09-12
CN104160440A (zh) 2014-11-19

Similar Documents

Publication Publication Date Title
JP2015509618A (ja) 位置ベース言語モデリングを使用した自動入力信号認識
US10419429B2 (en) Information providing method and device for sharing user information
JP6343010B2 (ja) ワイヤレスネットワークのアクセスポイントに関連したエンティティの識別
JP6017678B2 (ja) 音声制御ナビゲーション・システム用のランドマークに基づく場所思考追跡
US9811679B2 (en) Electronic system with access management mechanism and method of operation thereof
US9377311B2 (en) Method and apparatus for identifying geographic locations
JP7176011B2 (ja) デジタルアシスタントアプリケーションとナビゲーションアプリケーションとの間のインターフェーシング
US11989246B2 (en) Providing electronic search and guidance using non-address destination designations
Cha et al. Design and implementation of a voice based navigation for visually impaired persons
JP2014519606A (ja) 短距離において複数の曲がり角を曲がるための支援を備えるナビゲーションシステム
JP2020509444A (ja) データ記憶及び呼出の方法及び装置
JP5587281B2 (ja) 注記表記変換装置、注記表記変換方法および注記表記変換プログラム
US11280623B2 (en) Predictive intersection search
US11347821B2 (en) Real-time generation of an improved graphical user interface for overlapping electronic content
RU2691851C1 (ru) Система композиции запросов
CN114048797A (zh) 确定地址相似度的方法、装置、介质及电子设备
CN114661920A (zh) 地址编码关联方法、业务数据分析方法及相应装置
US9888347B1 (en) Resolving location criteria using user location data
KR101391588B1 (ko) 주소록 정보 서비스 시스템, 그 시스템에서의 주소록 정보 서비스를 위한 방법 및 장치
WO2023055356A1 (en) Navigation route sharing
JP6443843B2 (ja) 言語モデル作成装置、言語モデル作成方法、およびプログラム
WO2009139254A1 (ja) 検索システム、それに用いる装置、検索方法および検索用プログラムを格納する記録媒体
JP6051081B2 (ja) 検索装置、検索方法および検索プログラム
US20180121567A1 (en) Technologies for location-based visualization of social data
CN116384983A (zh) 支付处理方法及装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141209

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141209

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151116

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151204

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20160513