JP5475795B2 - カスタム言語モデル - Google Patents

カスタム言語モデル Download PDF

Info

Publication number
JP5475795B2
JP5475795B2 JP2011534984A JP2011534984A JP5475795B2 JP 5475795 B2 JP5475795 B2 JP 5475795B2 JP 2011534984 A JP2011534984 A JP 2011534984A JP 2011534984 A JP2011534984 A JP 2011534984A JP 5475795 B2 JP5475795 B2 JP 5475795B2
Authority
JP
Japan
Prior art keywords
cluster
user
clusters
vector
generating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011534984A
Other languages
English (en)
Other versions
JP2012507809A (ja
Inventor
ジュン・ウ
ヘンリー・オウ
ヨンヤン・リュー
シリウ・タン
ヨン−ガン・ワン
Original Assignee
グーグル・インコーポレーテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by グーグル・インコーポレーテッド filed Critical グーグル・インコーポレーテッド
Publication of JP2012507809A publication Critical patent/JP2012507809A/ja
Application granted granted Critical
Publication of JP5475795B2 publication Critical patent/JP5475795B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本発明は、言語モデルに関する。
言語モデルは、所定の語彙中のトークンの文字列(例えば、単語又は文字)が言語中で出現する確率をモデル化するために使用する。例えば、言語モデルは、限定しないが、インプット・メソッド・エディタ(IME)、自動音声認識(ARS)、機械翻訳、手書き認識、及び光学式文字認識(OCR)アプリケーションなどの入力方法で使用される。前記語彙中のトークンの文字列に対する確率をモデル化することは、一般的にチェーン・ルールを使用するとともに、所定の文字列の文脈中における、所定のトークンwの確率p(w|context)の計算を行う。ここで前記文脈は前記所定のトークンwより前にある文字列中のトークンである。
Nグラム言語モデルでは、テキスト中のn個の連続トークンは、Nグラムに形成されるとともに、現在の単語zの確率は、例えば、n-1個の先行単語の確率に依存している。例えば、p(zi|context)=p(zi|zi-n+1,zi-n+2,...,zi-1)である。Nグラムは、前記Nグラム中のトークンの番号である順序を有する。例えば、1グラム(又はユニグラム)は、1つのトークンを有しており、2グラム(又はバイグラム)は、2つのトークンを有している。
テキスト(例えば、文章中の単語)中のNグラムの確率分布は、大半が、文脈に依存しており、そのことはまた、より一般的な意味で見ることができる。例えば、テキスト中の特定のNグラムの前記確率分布は、前記テキストによって表現されたトピック、又は前記テキストの発生するドメイン次第であることができる。スポーツ記事中に発生する「バスケットボール」の確率は、金融関連記事中に発生する「バスケットボール」の確率よりも大きい。加えて、異なるユーザが、例えば、同じアイデアを表現するのに、異なる単語を使用する(例えば、特別扱いする)可能性がある。スペインのユーザは、「フットボール」を使用し、一方アメリカ合衆国のユーザは、「サッカー」を使用するであろう。従って、テキスト中のNグラムの確率分布は、ユーザ依存とドメイン依存の両方でありうる。
従来の入力方法は、汎用的な言語モデルを使用している。例えば、一つの言語モデルを、全てのユーザに対して使用することもある。他の例では、前記同じ言語モデルを使用するとともに、全てのドメイン(例えば、コンピュータ・システムのドメイン、地理的なドメイン)に対する学習用データから生成することもある。一般の言語モデルは、入力方法の用途全般に対して最適化されていない。
本明細書は、カスタム言語モデルに関する技術を記載している。
一般に、本明細書中に記載の要旨の一態様は、文書のコレクションを受信する動作と、前記文書を1又は2以上のクラスタにクラスタリングする動作と、前記1又は2以上のクラスタの各クラスタに対するクラスタ・ベクトルを生成する動作と、対象プロファイルに関連付けられた対象ベクトルを生成する動作と、前記クラスタ・ベクトルの各々と前記対象ベクトルを比較する動作と、比較に基づいて前記1又は2以上のクラスタの1又は2以上を選択する動作と、選択された1又は2以上のクラスタから文書を使用して言語モデルを生成する動作とを有する方法で具現化できる。この態様の他の実施形態は、対応するシステム、装置、及びコンピュータ・プログラム製品を含む。
これら及び他の具体例では、任意の方法で、1又は2以上の以下の特徴を有することができる。言語モデルを生成する段階は、選択された1又は2以上のクラスタの文書から、Nグラムのコレクションを識別する段階を有する。各Nグラムは、選択された前記1又は2以上のクラスタの文書中の発生に関して、対応する相対頻度を有する。各クラスタは、トピック又はドメインと関連付けされている。各クラスタ・ベクトルは、対応するクラスタに対する重心を表す。前記文書のクラスタリングは、クラスタに各文書を無作為に割り当てる段階と、収束するまで、各クラスタに対する重心を反復して計算するとともに、最近傍の重心に基づいてクラスタに各文書を再割り当てする段階とを有する。前記対象ベクトルは、用語頻度ベクトルを有する。前記対象ベクトルは、ユーザ辞書又はユーザ入力のうちの少なくとも1つから生成する。比較する段階は、前記対象ベクトル及び各前記クラスタ・ベクトルの間のコサイン類似度を計算する段階を有する。前記方法は、1又は2以上の追加の文書を受信する段階と、前記1又は2以上の追加の文書に基づいて前記言語モデルを更新する段階とをさらに有する。
一般に、本明細書中に記載の要旨の他の態様は、文書のコレクションを受信する動作と、1又は2以上の一般クラスタに前記文書をクラスタリングする動作と、前記1又は2以上の一般クラスタの各クラスタに対するクラスタ・ベクトルを生成する動作と、対象プロファイルに関連付けられた対象ベクトルを生成する動作と、前記クラスタ・ベクトルの各々と前記対象ベクトルを比較する動作と、前記比較に基づいて前記1又は2以上の一般クラスタの1又は2以上を選択する動作とを有する方法で具現化できる。この態様の他の具体例は、対応するシステム、装置、及びコンピュータ・プログラム製品を更に含む。
これら及び他の具体例は、任意の方法で、1又は2以上の以下の特徴を有することができる。前記方法は、選択された1又は2以上に汎用クラスタから文書を使用して、言語モデルを生成する段階をさらに有する。
一般に、本明細書中に記載の要旨の他の態様は、前記ユーザを識別するユーザ入力を受信する動作と、前記ユーザに対応するユーザ・プロファイルを識別する動作と、ユーザ固有の言語モデルを生成するために識別したプロファイルを使用する動作と、第一クライアントに前記ユーザ固有の言語モデルを送信する動作とを有する方法で具現化できる。この態様の他の具体例は、対応するシステム、装置、及びコンピュータ・プログラム製品を含む。
これら及び他の具体例は、任意の方法で、1又は2以上の以下の特徴を有することができる。前記方法は、第二クライアントに前記ユーザ固有の言語モデルを送信する段階をさらに有する。前記方法は、文書のコレクションを受信する段階と、1又は2以上のクラスタに前記文書をクラスタリングする段階と、前記1又は2以上のクラスタの各クラスタに対するクラスタ・ベクトルを生成する段階と、前記ユーザ・プロファイルに関連付けられた対象ベクトルを生成する段階と、前記クラスタ・ベクトルの各々と前記対象ベクトルを比較する段階と、比較に基づいて前記1又は2以上のクラスタの1又は2以上を選択する段階とを更に有する。ユーザ固有の言語モデルを生成する段階は、選択された前記1又は2以上のクラスタの文書からNグラムのコレクションを識別する段階を有する。各Nグラムは、選択された前記1又は2以上のクラスタの文書中の発生に関して、対応する相対頻度を有する。
一般に、本明細書中に記載の要旨の他の態様は、1又は2以上の文書の第一コレクションを受信する動作と、1又は2以上の文書の前記第一コレクションに基づいてプロファイルを生成する動作と、1又は2以上の文書の第二コレクションを受信する動作と、1又は2以上の前記第二コレクションと前記プロファイルとに基づいて、カスタム言語モデルを生成する動作と、クライアントに前記カスタム言語モデルを送信する動作とを有する方法で具現化できる。この態様の他の具体例は、対応するシステム、装置、及びコンピュータ・プログラム製品を含む。
これら及び他の具体例は、任意の方法で、1又は2以上の以下の特徴を有することができる。1又は2以上の文書の前記第一コレクションは、ユーザ辞書又は前記ユーザの入力習慣を表すユーザ入力の少なくとも1を有する。
本明細書中に記載の要旨の特定の具体例は、1又は2以上の以下の利点を実現するように実施できる。サブセットへの学習用データの教師なし分類(Unsupervised classification)は、(i)カスタム言語モデルを学習させるために検討するデータ量(例えば、コーパスのサイズ)を増やすとともに、(ii)ユーザ・エラーを減らすために、ユーザの介入量を減らすことができる。
カスタム言語モデルは、前記入力方法の正確率、適合率、及び再呼出率を増加させ、それによって入力エラー率を下げるために、特定の入力方法の用途に対して(例えば、特定のユーザ及びドメインに対して)生成できる。加えて、カスタム言語モデルは、ユーザの習性(例えば、ユーザの習性、又はユーザ辞書を表す前記ユーザが入力した文書に基づいて生成/改良する)に適合させることができる。それによって、カスタム言語モデルは、さらに正確率、適合率、及び再呼出率を増加させるとともに、前記入力エラー率を減らすことができる。その上、カスタム言語モデルは、トピックス依存であるとともに、ユーザの現在の入力のトピックに適合させることができる。例えば、ユーザは、関心のあるトピックスに基づいて、サーバ上に保存されている、種々のトピックスの複数のカスタム言語モデルから選択してもよい。カスタム言語モデルは、前記利用可能な学習用データ全体のサブセットから学習させることができるため、前記カスタム言語モデルは、一般の言語モデルよりもメモリ・サイズをより小さくできる。結果として、前記カスタム言語モデルの使用は、(i)前記カスタム言語モデルを使用する入力方法のメモリ・フットプリントと、(ii)前記カスタム言語モデルを保存するために使用するメモリ量と、(iii)ユーザに前記カスタム言語モデルを提供するために要求される単位時間当たりの帯域幅の量とを減少させる。
本明細書に記載の要旨の1又は2以上の具体例の詳細は、添付の図面と以下の明細書中で明らかにする。前記要旨の他の特徴、様態、及び利点は、明細書、図面、及び請求項から明らかになる。
種々の図中の同様の参照番号、及び名称は、同一の要素を示す。
カスタム言語モデルを生成するためのシステム例を示す図である。 文書のクラスタ例を含めた図である。 図2のクラスタ例、及び対応する重心を含めた図である。 図2の文書のうちのいくつかの再分類例を説明した図である。 図4の再分類に基づいて、クラスタ例の再調整例を説明した図である。 図5の各クラスタ例に対するプロファイルの生成例を説明した図である。 1又は2以上の図6のクラスタ例の選択例を説明した図である。 カスタム言語モデルの生成例を説明した図である。 クラスタ・ベクトルを生成するための処理例を図示したフローチャートである。 カスタム言語モデルを生成するための処理例を図示したフローチャートである。
概要
図1は、カスタム言語モデル124を生成するためのシステム例100を図示した図である。前記システム100は、第一クライアント112(例えば、デスクトップ・コンピュータ)、第二クライアント114(例えば、携帯電話)、及びサーバ120を有している。前記サーバ120は、対象プロファイル122、カスタム言語モデル124、及び学習用データ126(例えば、構造なしコーパス)を有することができる。
カスタム言語モデル生成の概要として、前記学習用データ126は、前記学習用データ126のコレクション内に分類できる(例えば、文書の1又は2以上のコレクション)。前記サーバ120は、ユーザを識別するユーザ入力を受信できる(例えば、前記第一クライアント112の第一ユーザ、前記第一クライアント112の第二ユーザ、前記第二クライアント114の第一ユーザ)。例えば、前記サーバ120は、前記ユーザを識別するために、ユーザ・ログイン情報、又はクッキーを使用できる。前記サーバ120は、各ユーザに対応した対象プロファイル122(例えば、ユーザ・プロファイル)を生成できる。
いくつかの実施形態では、前記対象プロファイル122は、予め決定されうる。例えば、前記サーバ120は、前記ユーザに対応した、以前に作成した対象プロファイル122を識別できる。いくつかの実施形態では、前記対象プロファイル122は、前記ユーザ又はユーザ入力の辞書に基づいて生成してもよい(例えば、前記ユーザの入力習性に対応した、前記ユーザによって提供されたデータ)。その上、前記対象プロファイル122は、前記サーバ120とクライアント(例えば、第一クライアント112)との間を、自動あるいは手動で同期できる。前記対象プロファイル122は、前記学習用データ126の各サブセットのプロファイルと比較できる。1又は2以上の前記学習用データ126のサブセットは、例えば、前記対象プロファイル122と各サブセットの前記プロファイルとの間の類似度に基づいて選択できる。
学習用データ126の選択されたサブセットは、カスタム言語モデル124(例えば、ユーザ固有の言語モデル、ドメイン固有の言語モデル)を生成するために使用できる。前記カスタム言語モデルは、ネットワークを介して、例えば第一クライアント112に送信できる。前記第一クライアント112は、前記ユーザが使用する入力メソッドのための前記カスタム言語モデルを使用できる。いくつかの実施形態では、カスタム言語モデルのコピーは、前記サーバ120上に保存される。前記ユーザが、前記第二クライアント114で入力メソッドを使用する場合、例えば、前記カスタム言語モデルのコピーを、前記第二クライアント114に送信できる(及び/又は、第二クライアント上で更新できる)。
いくつかの実施形態では、前記対象プロファイル122、カスタム言語モデル124、及び/又は学習用データ126は、複数のサーバ上か又は複数の他の場所に保存する。例えば、前記学習用データ126は、前記サーバ120によってアクセス可能な任意の文書を有することができる。特に、前記学習用データ126は、限定しないが、ユーザが使用するインプット・メソッド・エディタ(IME)、IMEユーザ辞書、ウェブ・ページ、検索クエリ・ログ、電子メール、ブログ、インスタント・メッセージ(IM)スクリプト、及びニュース記事を有し、カスタム言語モデル124を学習させるために使用できる。
対象プロファイルの生成
対象プロファイル122は、各ユーザ(又はドメイン)に対して生成可能である。いくつかの実施形態では、前記対象プロファイル122を、識別されたユーザに対して生成する。例えば、前記ユーザは、ログイン情報を提供することによって、彼自身/彼女自身を識別できるとともに、対象プロファイル122は、例えば、識別されたユーザに関連付けられたユーザ辞書といった、前記ユーザに関連付けられたデータに基づいて生成可能である。ユーザ辞書は、例えば、IMEから、及び/又はユーザ入力から所定の単語を有することができる。加えて、ユーザ辞書は、例えば、ユーザの入力履歴中(例として、チャット・テキスト、検索クエリ)の単語数及び頻度といった単語の使用法に関連付けられた統計を有することができる。また、ユーザ入力中に発生するNグラムのような他の統計データは、前記対象プロファイル122内に保存できる。いくつかの実施形態では、対象プロファイル122を、前記ユーザが提供するデータに基づいて前記ユーザに対して生成する。例えば、ユーザは、彼/彼女の入力習性を表す文書を送信できるとともに、対象プロファイル122は、送信文書に基づいて生成可能である。いくつかの実施形態では、前記対象プロファイル122を、前記サーバ120(又はクライアント)上に保存するとともに、再利用する。
前記対象プロファイル122は、前記ユーザにとっての特定トークンの比重を表すことができる。いくつかの実施形態では、前記対象プロファイル122は、ベクトルを使用して表す。例えば、特徴ベクトルは、1又は2以上の特徴(例えば、用語)と、各特徴に対して対応する用語頻度(tf)加重値(weight)を有することができる。前記tf加重値は、前記ユーザにとっての特徴の重要度の統計的基準として使用できる。例えば、ユーザにとっての特徴の前記重要度は、前記ユーザ、又は前記ユーザの辞書によって入力した文書のコレクション中で、前記特徴が発生する頻度(例えば、用語頻度)に比例して増加可能である。
文書中の前記用語頻度は、特定用語が前記文書中に発生する相対頻度であり、かつ次のように表すことができる:
ここで、前記用語頻度は、文書(dj)中の前記特定用語の発生度数(nij)を、文書(dj)中の全ての用語の発生度数によって割ったものである。
いくつかの実施形態では、tf−idf加重値は、前記ユーザにとっての前記特徴の重みの統計的基準として使用できる。tf−idf加重値は、用語頻度と、逆文書頻度(idf)との積によって計算できる。
前記逆文書頻度(idf)は、次のように表すことができる:
ここで、文書のコレクション中の全ての文書の個数Dは、前記用語tiを含む文書djの個数Djによって除されている。いくつかの実施形態では、10を底とする対数の代わりに自然対数を使用する。
tdf−idf加重値は、次のように表すことができる:
tf_idfi,j=tfi,j・idfi,j
前記対象プロファイル122は、前記カスタム言語モデル124を学習させるために使用した学習用データ126のサブセットを決定するために、学習用データ126のサブセットのプロファイル(例えば、特徴ベクトル)と比較できる。
学習用データの分類
前記学習用データ126は、種々の分類方法を使用してサブセットに分類できる。いくつかの実施形態では、前記学習用データ126をサブセットに分類するためにクラスタリングを使用する。例えば、分割最適化クラスタリング(例として、k平均法クラスタリング、LSH(locality sensitive hashing)、グラフ理論法)、又は階層的クラスタリング(例として、凝集型階層的クラスタリング、概念クラスタリング)が、前記学習用データ126を分類するために使用できる。他の例として、特異値分解(SVD)と、潜在意味解析(LSA)と、ニューラル・ネットワークとを使用することで、文書をクラスタと相互に関係付けることができる。他の実施形態が可能である。例えば、前記学習用データ126をサブセットに分類するために、2次分類器、又はk近傍法を使用できる。
図2は、文書のクラスタ例(210、220、230、240、及び250)を含む図である。前記文書は、図2中では点によって表されている。k平均法クラスタリング手法が、前記クラスタ生成のために使用できる。特に、クラスタの個数kを選択できる。例えば、5つのクラスタ(k=5)を図2に図示する。前記クラスタ210、220、230、240、及び250は、無作為に生成できる。特に、各文書を無作為にクラスタに割り当てることができる。いくつかの実施形態では、最初に文書を1クラスタ以上に割り当てることができる。以下に記載するように、クラスタ210、220、230、240、及び250の各々に対して重心(又はクラスタ中心)を決めることができる。
図3は、図2のクラスタ例と、対応する重心(215、225、235、245、及び255)とを含む図である。いくつかの実施形態では、クラスタの重心は、前記クラスタ中の各文書に対するtf−idf(用語頻度−逆文書頻度)ベクトルを計算することによって決定する。前記tf−idfベクトルは、特徴と、対応する特徴加重値(例えば、tf−idf加重値)とを含むことができる。クラスタの重心は、前記クラスタ中の文書に対応するtf−idfベクトル全体の平均によって表すことができる。前記tf−idf加重値は、上記記載の方法で計算できる。
例として、特定の文書(例えば、図3のクラスタ250内の点)は、5,000語を含んでもよい。前記文書中で、「バスケットボール」という単語が、200回発生してもよい。「バスケットボール」に対する用語頻度は、0.04(200/5,000)である。クラスタ250中の文書のコレクション(例えば、クラスタ250中の全ての点)は、9つの文書を含む。「バスケットボール」が、9文書中1文書に出現すると仮定すると、逆文書頻度は、log(9/1)≒0.95である。その文書に対する前記tf−idfベクトルは、前記特徴「バスケットボール」とともに、(0.04・0.95)≒0.04の対応するtf−idf加重値を有することができる。同様の計算を使用することで、特定のクラスタの文書中の別の用語に対して、別の特徴とウェイトを生成できる。
前記クラスタの重心は、前記クラスタ中の前記文書全体に対する前記tf−idfベクトルの平均として計算できる。例えば、各々の文書がtf−idfベクトル(各々が3つの特徴を持つ)を有する2つの文書X及びYを有するクラスタに対し、前記文書X及びYは、それぞれ次のように表すことができる:X=(x1,x2,x3)及びY=(y1,y2,y3)。前記クラスタの重心Zは、次のように表すことができる:Z=(z1,z2,z3)、ここで、z1=(x1+y1)/2;z2=(x2+y2)/2;z3=(x3+y3)/2である。
前記初期クラスタに対して前記重心を計算した後、各文書は、最近傍の重心に再割り当てされる。図4は、図2のいくつかの文書の再分類例を説明する図である。特に、図4は、対応する最近傍の重心に基づいて異なるクラスタに割り当てられたいくつかの文書を図示している。例えば、クラスタ250中の文書410は、矢印415に図示しているように、クラスタ220に再割り当てできる。最近傍の重心は、文書とクラスタの各重心との間の距離を計算することで決定できる。特に、前記文書を表す前記td−idfベクトルと、各重心を表す前記td−idfベクトルとの間の距離が計算できる。前述の例に戻ると、重心Zと文書Xとの間の距離は、コサイン距離として表すことができる:
前記文書は、前記文書から最小距離であるクラスタに割り当てることができる。前記文書の各々を、各々の文書の最近傍の重心に再割り当てした後、新しい重心を計算できる。
図5は、図4中の再分類に基づいたクラスタ例510・520・530・540・550の再調整例を説明する図である。図2及び図3に関して上述したように、新しい重心を決定できる。特に、重心515・525・535・545・555を、クラスタ510・520・530・540・550に対して決定できる。
最近傍の重心に基づく文書の再分類の複数回の繰り返しと、前記再分類に基づく前記クラスタの再調整の複数回の繰り返しとは、1又はそれ以上の基準を満たすまで実行できる。例えば、前記再分類及び再調整は、収束基準を満たすまで(例えば、文書が再割り当てされなくなるまで)、実行できる。
分類が完了した後、前記クラスタの各々に対するプロファイルを生成できる。図6は、図5のクラスタ例510・520・530・540・550の各々に対するプロファイル610・620・630・640・650の生成例を説明する図である。例えば、前記プロファイルは、前記各クラスタ中の前記文書に応じて、前記クラスタの各々に対して計算した(上述の通りに)td−idfベクトルによって表すことができる。
結果として生じたクラスタは、各クラスタへの前記文書の初期の無作為な割り当てに依存するため、いくつかの実施形態では、前記学習用データ126から追加のクラスタを作り出すために、上述の処理を繰り返す。
さらに、学習用データ126のサブセットが生成されるため、トピック又はドメインを、学習用データの各サブセットに対して予め決定する必要はない。例えば、生成した前記クラスタを一般的なクラスタと考えることができる。特に、各クラスタは、当初、任意の特定のトピック/ドメインを表すために作り出されていないが、各クラスタは、本質的に、類似文書のクラスタリングの結果として、トピック又はドメインを表すことができる。結果として、例えば、前記クラスタを分類又は識別するために、トピック、キーワード、又はドメインを予め決定する必要はない。しかしながら、ユーザに対して生成したカスタム言語モデルを前記クラスタに基づいて生成できるとともに、前記カスタム言語モデルはまた、本質的に、前記クラスタによって表された1又は2以上のトピックス/ドメインを含むことができる。
学習用データの選択
図7は、図6の1又は2以上のクラスタ例の選択例を説明する図である。特に、クラスタ510・520は、ユーザ辞書710から対象プロファイルに基づいて選択されている。前述のように、前記対象プロファイルは、前記対象プロファイルと各クラスタ・プロファイルとの間の類似度を決定するために、各クラスタのプロファイルと比較できる。
いくつかの実施形態では、コサイン類似度を、前記対象プロファイルと各クラスタ・プロファイルとの間で計算する。前記コサイン類似度は、2つのベクトルの類似度を測定するために使用できる。前記コサイン類似度は次のように表すことができる:
ここで、xiは、前記対象プロファイルを表すベクトルであるとともに、yiはクラスタ・プロファイルを表すベクトルである。2つのベクトルの間の前記コサイン類似度が1に近づくほど、前記2つのベクトルは、近づいているか、又はより類似している。前記コサイン類似度は、前記クラスタが選択されたかどうかを判断するために閾値と比較できる。例えば、前記コサイン類似度が0.8の閾値より大きい場合、x及びyは、トピックに関して高い関連性があると考えることができ、かつyに対応するクラスタを選択できる。
カスタム言語モデルの生成
図8は、カスタム言語モデル810の生成例を説明する図である。前記カスタム言語モデルは、選択された前記クラスタ中の前記文書に基づいて生成できる。前記カスタム言語モデルは、Nグラムと、前記Nグラムが選択された前記クラスタ中の前記文書中に発生するという、対応する確率とを有することができる。
特定の文字列が発生するNグラム言語モデルに応じた確率は、連鎖法則を使用して決定できる。前記連鎖法則は、個々の確率の積として、文字列の確率を決定する。このように、所定の文字列「e1,e2,...,ek」の場合の、文字列に対する確率p(e1,e2,...,ek)は、次に等しい:
前記Nグラム言語モデルは、例えば、1グラム、2グラム、3グラムなどに制限するように、Nグラムの特定の最大サイズに制限できる。例えば、所定の文字列「NASA officials say they hope」とし、ここで前記最大Nグラム・オーダーを3グラムに制限すると、前記文字列に対する確率は、次のように条件付き確率の積として決定できる:p(NASA officials say they hope)=p(NASA)・p(officials|NASA)・p(say|NASA officials)・p(they|officials say)・p(hope|say they)。これは、次のように一般化できる:
ここで、nは、前記言語モデル中で許容される最大のNグラムのオーダーである。
一般的に、選択された前記クラスタの前記文書中の相対頻度に応じて、前記条件付き確率を実験的に決定する。例えば、上述の例では、「NASA officials」の文脈という条件下で、単語「say」の確率は、次の式によって与えられる:
ここで、f(NASA officials say)は、前記選択されたクラスタの前記文書中で、文字列「NASA officials say」の発生度数、又は回数である。例えば、p(say|NASA officials)といった前記Nグラムに対する前記言語モデル内に格納された確率に対応するNグラム言語モデル内の最大Nグラム・オーダーの範囲内の文字列に対する条件付き確率は、3グラム・エントリである「NASA officials say」に対する前記言語モデル内に格納された条件付き確率である。
図9Aは、クラスタ・ベクトルを生成するための処理例を示すフローチャートである。便宜のため、クラスタ・ベクトルの生成は、前記生成を実行するシステムに関して記載する。システムは、文書のコレクションを受信する(910)。例えば、前記サーバ120は、前記学習用データ126を受信できる。前記システムは、1又は2以上のクラスタ内に前記文書をクラスタリングする(920)。例えば、前記サーバ中の分類エンジン(図示せず)は、前記文書をクラスタリングできる。前記システムは、前記1又は2以上のクラスタの各クラスタに対し、クラスタ・ベクトルを生成する(930)。例えば、前記サーバ120内の前記分類エンジンはまた、各クラスタに対してクラスタ・ベクトルを生成できる。
図9Bは、カスタム言語モデルを生成するための処理例を示すフローチャートである。便宜のため、前記カスタム言語モデルの生成は、前記生成を実行するシステムに関して記載する。前記システムは、前記対象プロファイルに関連付けられた対象ベクトルを生成する(940)。例えば、前記分類エンジンは、対象プロファイルに関連付けられた対象ベクトルを生成できる。前記システムは、前記クラスタ・ベクトルの各々と前記対象ベクトルを比較する(950)。例えば、前記サーバ120内の比較エンジン(図示せず)は、前記クラスタ・ベクトルの各々と前記対象ベクトルを比較できる。前記システムは、該比較に基づいて1又は2以上のクラスタのうちの1又は2以上を選択する(960)とともに、選択された1又は2以上のクラスタから文書を使用して、言語モデル(例えば、カスタム言語モデル)を生成する(970)。
本明細書は、英単語としてNグラムの多くの例を説明しているが、記載した要旨及び機能的動作の実施形態は、他の言語(例えば、中国語、日本語、及び韓国語)に対して実行可能である。例えば、Nグラムは、1又は2以上の中国語を含むことができる。
電子文書(簡潔に文書と呼んでいた)は、必ずしもファイルに対応していない。文書は、当の文書専用の単一ファイル中、又は複数の調整ファイル内で、他の文書を含むファイルの一部の中に保存されていてもよい。
本明細書中の前記要旨及び前記機能的動作の実施形態は、本明細書中で開示した構造物及び構造的均等物、又は1又は2以上のそれらの組み合わせを有する、デジタル電子回路内、又はコンピュータ・ソフトウェア、ファームウェア、又はハードウェア内で実行できる。本明細書中に記載の要旨の実施形態は、1又は2以上のコンピュータ・プログラムとして、すなわち、データ処理装置によって実行するために、又はデータ処理装置の動作を制御するために、実体的なプログラム・キャリア上に符号化した、1又は2以上のコンピュータ・プログラム命令のモジュールとして実行できる。前記実体的なプログラム・キャリアは、コンピュータ可読媒体でありうる。前記コンピュータ可読媒体は、機械可読の記録デバイス、機械可読の記録回路基板、メモリ・デバイス、機械可読の伝播信号をもたらす物体の構成物、又は1又は2以上のそれらの組み合わせでありうる。
「データ処理装置」という用語は、例のようにプログラム可能なプロセッサ、コンピュータ、もしくはマルチ・プロセッサ又はマルチ・コンピュータを含め、データを処理するための全ての装置、デバイス、及び機械を含む。前記装置は、ハードウェアに加え、当のコンピュータ・プログラムのための実行環境を作り出すコードを有することができる。例えば、コードは、プロセッサ・ファームウェア、プロトコル・スタック、データベース管理システム、オペレーティング・システム、又は1又は2以上のそれらの組み合わせを構成する。
コンピュータ・プログラム(プログラム、ソフトウェア、ソフトウェア・アプリケーション、スクリプト、又はコードとしても知られる)は、コンパイラ型又はインタプリタ型言語、若しくは宣言型又は手続き型言語を含め、プログラム言語の任意の形式で記述可能である。かつ、前記コンピュータ・プログラムは、スタンドアロン・プログラムとして、若しくは、モジュール、コンポーネント、サブルーチン、又はコンピュータ環境中で使用に適した他のユニットとしてなどの、任意の形式で展開可能である。コンピュータ・プログラムは、ファイル・システム中のファイルに対応する必要はない。プログラムは、他のプログラム又はデータ(例えば、マークアップ言語文書中に保存された1又は2以上のスクリプト)を保持するファイルの一部の中に、当のプログラム専用の単一ファイル中、又は複数の調整ファイル中(例えば、1又は2以上のモジュール、サブプログラム、又はコードの一部を保存するファイル)に保存できる。コンピュータ・プログラムは、1つのコンピュータ上、若しくは1つのサイトに配置するか、又は複数サイトにまたがって分配し、かつ通信ネットワークによって相互接続した複数のコンピュータ上で実行するように展開できる。
本明細書中に記載の処理及び論理フローは、インプット・データに対する動作と出力の生成とによって、機能を実行するための1又は2以上のコンピュータ・プログラムを実行する1又は2以上のプログラム可能なプロセッサによって実行できる。前記処理及び論理フローはまた、特定目的の論理回路、例えばFPGA(field programmable gate array)又はASIC(application-specific integrated circuit)によって実行できるとともに、装置はまた、前記特定目的の論理回路として実装できる。
コンピュータ・プログラムの実行に適したプロセッサは、例として、汎用目的と特定目的の両方のマイクロプロセッサ、及び任意の種類のデジタル・コンピュータのいずれか1又は2以上のプロセッサを含む。一般に、プロセッサは、読取専用メモリ又はランダム・アクセス・メモリ、又はその両方から、命令及びデータを受け取る。コンピュータの必須要素は、命令を実行するためのプロセッサと、命令及びデータを保存するための1又は2以上のメモリ装置とである。一般に、コンピュータはまた、例えば、磁気、光磁気ディスク、又は光ディスクといったデータを保存するための1又は2以上の大容量記録装置を具備しているか、又は前記1又は2以上の大容量記録装置からデータを受信するために、又は前記1又は2以上の大容量記録装置にデータを送信するために、又はその両方のために、効果的に連結している。しかしながら、コンピュータは、そのような装置を具備していなくてもよい。その上、コンピュータは、例えば、少数の例を挙げると、携帯電話、携帯情報端末(PDA)、携帯オーディオ又はビデオ・プレイヤ、デジタル写真フレーム、ゲーム機、全地球測位システム(GPS)受信機といった他の装置内に内蔵できる。
コンピュータ・プログラム命令及びデータを保存するためのコンピュータ可読媒体は、例えば、EPROM、EEPROM、及びフラッシュ・メモリ装置;磁気ディスク(例えば、内蔵ハード・ディスク、又はリムーバブル・ディスク;磁気光ディスク;かつCD−ROM及びDVD−ROMディスク)といった半導体メモリ装置を含め、不揮発性メモリ、媒体、及びメモリ装置の全ての形式を含む。前記プロセッサ及び前記メモリは、特定目的の論理回路によって補足されうるか、又は前記特定目的の論理回路中に組み入れることができる。
ユーザとの対話を提供するために、本明細書中に記載の要旨の実施形態は、前記ユーザに情報を表示するための、例えば、CRT(cathode ray tube)又はLCD(liquid crystal display)モニタといったディスプレイ装置と、前記ユーザを前記コンピュータに入力可能にするキーボード及びポインティング・デバイス(例えば、マウス又はトラックボール)とを有するコンピュータ上で実行できる。他の種類の装置が、同様に前記ユーザとの対話を提供するために使用可能である。例えば、前記ユーザに提供するフィードバックは、例えば、視覚的フィードバック、聴覚的フィードバック、又は触覚的フィードバックといった任意の形式の感覚的フィードバックでもよく、かつ前記ユーザからの入力は、音響入力、音声入力、又は触覚入力を含む任意の形式で受信できる。
本明細書中に記載の要旨の実施形態は、例えば、データ・サーバといったバックエンド構成要素を有するか、例えば、アプリケーション・サーバといったミドルウェア構成要素を有するか、又は例えば、ユーザが本明細書中に記載の要旨の実施形態と対話可能なグラフィカル・ユーザ・インターフェース又はウェブ・ブラウザを具備するクライアント・コンピュータといったフロントエンド構成要素か、又は1又は2以上のそのようなバックエンド、ミドルウェア、又はフロントエンド構成要素の任意の組み合わせを有するコンピュータ・システム内で実行できる。前記システムの前記構成要素は、例えば、通信ネットワークといったデジタル・データ通信の任意の形式又は媒体によって、相互接続可能である。通信ネットワークの例は、ローカル・エリア・ネットワーク(LAN)と、例えば、インターネットといったワイド・エリア・ネットワーク(WAN)とを含む。
前記コンピュータ・システムは、クライアントとサーバを含んでもよい。クライアントとサーバとは、一般的に互いに遠隔にあり、かつ典型的には、通信ネットワークを介して相互交信している。クライアントとサーバとの関係は、各コンピュータ上で処理するとともに、互いにクライアント−サーバ関係を有するコンピュータ・プログラムの効力によって生じている。
本明細書は、多くの特別の実施形態の詳細を含む一方で、これらは、任意の発明、又は請求可能な範囲の限定として解釈すべきではなく、むしろ特定の発明の特定の実施形態に特有の特徴の記載として解釈すべきである。また、個々の実施形態の文脈中で、本明細書中に記載されたある特徴は、単一の実施形態内で組み合わせて実行することができる。反対に、単一の実施形態の文脈中に記載の種々の特徴は、複数の実施形態で個々に、又は任意の適切な副組み合わせ(subcombination)の中で、実行できる。その上、特徴は、一定の組み合わせの中の動作として上述され、かつそのように最初から請求されてさえいるかもしれないが、請求した組み合わせの中の1又は2以上の特徴は、場合によっては、前記組み合わせから削除できるとともに、前記請求した組み合わせは、副組み合わせ又は種々の副組み合わせに向けることができる。
同じように、動作を特定順序で図面中に図示している一方で、このことは、所望の結果を達成するために、そのような動作を、図示した前記特定順序で、又は順番通りの順序で実行すること、又は図示した動作の全てを実行することを要求しているとして理解すべきではない。ある状況では、マルチタスク及び並列処理は、都合がよい場合がある。その上、上述の実施形態中の種々のシステム構成要素の分離は、全ての実施形態中でそのような分離を要求しているとして理解すべきではなく、かつ前記記載のプログラム構成要素及びシステムは、一般的に単一のソフトウェア製品に一体化できるか、又は複数のソフトウェア製品にパッケージ化できる。
本明細書中に記載の要旨の特定の実施形態を説明した。他の実施形態は、以降の請求項の範囲内である。例えば、前記請求項中に列挙した動作は、異なる順序で実行してもよく、かつそれでも所望の結果を達成できる。一例として、添付の図面中に図示した処理は、所望の結果を達成するために、必ずしも図示した特定の順序、又は順番通りの順序を要求していない。ある実施形態では、マルチタスク及び並列処理が、都合がよい場合がある。
112 第一クライアント
114 第二クライアント
120 サーバ
122 対象プロファイル
124 カスタム言語モデル
126 学習用データ

Claims (15)

  1. 文書のコレクションを受信する段階と、
    前記文書を1又は2以上のクラスタにクラスタリングする段階と、
    前記1又は2以上のクラスタの各クラスタに対するクラスタ・ベクトルを生成する段階と、
    対象プロファイルに関連付けられた対象ベクトルを生成する段階であって、前記対象ベクトルは識別されたユーザに対して生成されるとともに保存される、段階と、
    前記クラスタ・ベクトルの各々と前記対象ベクトルを比較する段階と、
    前記クラスタ・ベクトルの各々と前記対象ベクトルとの比較に基づいて前記1又は2以上のクラスタの1又は2以上を選択する段階と、
    選択された1又は2以上のクラスタから文書を使用して言語モデルを生成する段階と
    を有し、
    前記対象ベクトルは、少なくとも1つのユーザ辞書及びユーザ入力から生成することを特徴とする方法。
  2. 言語モデルを生成する段階は、
    前記選択された1又は2以上のクラスタの前記文書からNグラムのコレクションを識別する段階を有し、
    各Nグラムは、前記選択された1又は2以上のクラスタの前記文書中の発生に関して、対応する相対頻度を有する
    ことを特徴とする請求項1に記載の方法。
  3. 各クラスタは、トピック又はドメインと関連付けられる
    ことを特徴とする請求項1に記載の方法。
  4. 各クラスタ・ベクトルは、対応するクラスタに対する重心を表す
    ことを特徴とする請求項1に記載の方法。
  5. 前記文書をクラスタリングする段階は、
    クラスタに各文書を無作為に割り当てる段階と、
    収束するまで、各クラスタに対する重心を繰り返し計算するとともに、最近傍の重心に基づいてクラスタに各文書を再割り当てする段階と、
    を有することを特徴とする請求項4に記載の方法。
  6. 前記対象ベクトルは、用語頻度ベクトルを有する
    ことを特徴とする請求項1に記載の方法。
  7. 前記比較する段階は、
    前記対象ベクトルと前記クラスタ・ベクトルの各々との間のコサイン類似度を計算する段階
    を有することを特徴とする請求項1に記載の方法。
  8. 1又は2以上の追加文書を受信する段階と、
    前記1又は2以上の追加文書に基づいて前記言語モデルを更新する段階と
    を更に有することを特徴とする請求項1に記載の方法。
  9. 文書のコレクションを受信する段階と、
    1又は2以上の一般クラスタに前記文書をクラスタリングする段階と、
    前記1又は2以上の一般クラスタの各クラスタに対するクラスタ・ベクトルを生成する段階と、
    対象プロファイルに関連付けられた対象ベクトルを生成する段階であって、前記対象ベクトルは識別されたユーザに対して生成されるとともに保存される、段階と、
    前記クラスタ・ベクトルの各々と前記対象ベクトルを比較する段階と、
    前記クラスタ・ベクトルの各々と前記対象ベクトルとの比較に基づいて前記1又は2以上の一般クラスタの1又は2以上を選択する段階と
    を有し、
    前記対象ベクトルは、少なくとも1つのユーザ辞書及びユーザ入力から生成することを特徴とする方法。
  10. 前記選択された1又は2以上の一般クラスタから文書を使用して、言語モデルを生成する段階
    をさらに有することを特徴とする請求項9に記載の方法。
  11. ユーザを識別するユーザ入力を受信する段階と、
    前記ユーザに対応するユーザ・プロファイルを識別する段階であって、前記ユーザ・プロファイルは識別されたユーザに対して生成されるとともに保存される、段階と、
    ユーザ固有の言語モデルを生成するために識別したプロファイルを使用する段階と、
    第一クライアントに前記ユーザ固有の言語モデルを送信する段階と、
    文書のコレクションを受信する段階と、
    1又は2以上のクラスタに前記文書をクラスタリングする段階と、
    前記1又は2以上のクラスタの各クラスタに対するクラスタ・ベクトルを生成する段階と、
    前記ユーザ・プロファイルに関連付けられた対象ベクトルを生成する段階と、
    前記クラスタ・ベクトルの各々と前記対象ベクトルを比較する段階と、
    前記クラスタ・ベクトルの各々と前記対象ベクトルとの比較に基づいて前記1又は2以上のクラスタの1又は2以上を選択する段階と、
    を有し、
    前記対象ベクトルは、少なくとも1つのユーザ辞書及びユーザ入力から生成することを特徴とする方法。
  12. 第二クライアントに前記ユーザ固有の言語モデルを送信する段階
    をさらに有することを特徴とする請求項11に記載の方法。
  13. 前記ユーザ固有の言語モデルを生成する段階は、
    前記選択された1又は2以上のクラスタの前記文書からNグラムのコレクションを識別する段階をさらに有し、
    各Nグラムは、前記選択された1又は2以上のクラスタの前記文書中の発生に関して、対応する相対頻度を有する
    ことを特徴とする請求項11に記載の方法。
  14. 文書のコレクションを受信する段階と、
    1又は2以上のクラスタに前記文書をクラスタリングする段階と、
    前記1又は2以上のクラスタの各クラスタに対するクラスタ・ベクトルを生成する段階と、
    対象プロファイルに関連付けられた対象ベクトルを生成する段階であって、前記対象プロファイルは識別されたユーザに対して生成されるとともに保存される、段階と、
    前記クラスタ・ベクトルの各々と前記対象ベクトルを比較する段階と、
    前記クラスタ・ベクトルの各々と前記対象ベクトルとの比較に基づいて前記1又は2以上のクラスタの1又は2以上を選択する段階と、
    選択された1又は2以上のクラスタから文書を使用して、言語モデルを生成する段階と
    を有し、前記対象ベクトルは、少なくとも1つのユーザ辞書及びユーザ入力から生成することを特徴とする動作をデータ処理装置に実行させるように動作可能なコンピュータ・プログラム。
  15. コンピュータ・プログラムを有する機械可読記録デバイスと、
    1又は2以上のコンピュータと
    を具備し、
    前記1又は2以上のコンピュータは、前記コンピュータ・プログラムを読み込むことで、
    文書のコレクションを受信する段階と、
    1又は2以上のクラスタに前記文書をクラスタリングする段階と、
    前記1又は2以上のクラスタの各クラスタに対するクラスタ・ベクトルを生成する段階と、
    対象プロファイルに関連付けられた対象ベクトルを生成する段階であって、前記対象プロファイルは識別されたユーザに対して生成されるとともに保存される、段階と、
    前記クラスタ・ベクトルの各々と前記対象ベクトルを比較する段階と、
    前記クラスタ・ベクトルの各々と前記対象ベクトルとの比較に基づいて前記1又は2以上のクラスタの1又は2以上を選択する段階と、
    選択された1又は2以上のクラスタから文書を使用して、言語モデルを生成する段階と
    を有する処理を実行可能であり、
    前記対象ベクトルは、少なくとも1つのユーザ辞書及びユーザ入力から生成する
    ことを特徴とするシステム。
JP2011534984A 2008-11-05 2008-11-05 カスタム言語モデル Active JP5475795B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2008/001845 WO2010051654A1 (en) 2008-11-05 2008-11-05 Custom language models

Publications (2)

Publication Number Publication Date
JP2012507809A JP2012507809A (ja) 2012-03-29
JP5475795B2 true JP5475795B2 (ja) 2014-04-16

Family

ID=42152444

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011534984A Active JP5475795B2 (ja) 2008-11-05 2008-11-05 カスタム言語モデル

Country Status (6)

Country Link
US (1) US8826226B2 (ja)
JP (1) JP5475795B2 (ja)
KR (1) KR101537078B1 (ja)
CN (1) CN102272754B (ja)
TW (1) TWI512502B (ja)
WO (1) WO2010051654A1 (ja)

Families Citing this family (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8510109B2 (en) 2007-08-22 2013-08-13 Canyon Ip Holdings Llc Continuous speech transcription performance indication
US9973450B2 (en) 2007-09-17 2018-05-15 Amazon Technologies, Inc. Methods and systems for dynamically updating web service profile information by parsing transcribed message strings
TWI506019B (zh) * 2008-12-08 2015-11-01 Basf Se 製造經取代5-甲氧基甲基吡啶-2,3-二羧酸衍生物之方法
DK2982673T3 (en) * 2008-12-09 2018-06-06 Basf Se PROCEDURE FOR PREPARING 5-CHLORMETHYLPYRIDINE-2,3-DICARBOXYLYAIC ANHYRIDE
US8447608B1 (en) * 2008-12-10 2013-05-21 Adobe Systems Incorporated Custom language models for audio content
US20110071817A1 (en) * 2009-09-24 2011-03-24 Vesa Siivola System and Method for Language Identification
US8589163B2 (en) * 2009-12-04 2013-11-19 At&T Intellectual Property I, L.P. Adapting language models with a bit mask for a subset of related words
JP5504097B2 (ja) * 2010-08-20 2014-05-28 Kddi株式会社 意味的に類似している語対を二項関係に分類する二項関係分類プログラム、方法及び装置
US9099087B2 (en) * 2010-09-03 2015-08-04 Canyon IP Holdings, LLC Methods and systems for obtaining language models for transcribing communications
US9484018B2 (en) * 2010-11-23 2016-11-01 At&T Intellectual Property I, L.P. System and method for building and evaluating automatic speech recognition via an application programmer interface
US9679561B2 (en) 2011-03-28 2017-06-13 Nuance Communications, Inc. System and method for rapid customization of speech recognition models
US9176941B2 (en) * 2011-07-14 2015-11-03 Tencent Technology (Shenzhen) Company Limited Text inputting method, apparatus and system based on a cache-based language model and a universal language model
US9324323B1 (en) * 2012-01-13 2016-04-26 Google Inc. Speech recognition using topic-specific language models
US8775177B1 (en) 2012-03-08 2014-07-08 Google Inc. Speech recognition process
US20140129221A1 (en) * 2012-03-23 2014-05-08 Dwango Co., Ltd. Sound recognition device, non-transitory computer readable storage medium stored threreof sound recognition program, and sound recognition method
WO2013165334A1 (en) * 2012-04-29 2013-11-07 Hewlett-Packard Development Company, L.P. Re-digitization and error correction of electronic documents
US9620111B1 (en) * 2012-05-01 2017-04-11 Amazon Technologies, Inc. Generation and maintenance of language model
GB201208373D0 (en) * 2012-05-14 2012-06-27 Touchtype Ltd Mechanism for synchronising devices,system and method
US9035884B2 (en) 2012-10-17 2015-05-19 Nuance Communications, Inc. Subscription updates in multiple device language models
US20150278194A1 (en) * 2012-11-07 2015-10-01 Nec Corporation Information processing device, information processing method and medium
US20140278349A1 (en) * 2013-03-14 2014-09-18 Microsoft Corporation Language Model Dictionaries for Text Predictions
US9672818B2 (en) * 2013-04-18 2017-06-06 Nuance Communications, Inc. Updating population language models based on changes made by user clusters
CN104166455B (zh) * 2013-05-16 2018-11-13 百度在线网络技术(北京)有限公司 用于确定目标用户所对应的输入模型的方法与设备
US9728184B2 (en) 2013-06-18 2017-08-08 Microsoft Technology Licensing, Llc Restructuring deep neural network acoustic models
US9311298B2 (en) 2013-06-21 2016-04-12 Microsoft Technology Licensing, Llc Building conversational understanding systems using a toolset
US9589565B2 (en) 2013-06-21 2017-03-07 Microsoft Technology Licensing, Llc Environmentally aware dialog policies and response generation
TWI506458B (zh) 2013-12-24 2015-11-01 Ind Tech Res Inst 辨識網路產生裝置及其方法
US9552408B2 (en) * 2014-01-24 2017-01-24 Facebook, Inc. Nearest neighbor clustering determination and estimation algorithm that hashes centroids into buckets and redistributes vectors between clusters
US9626426B2 (en) 2014-01-24 2017-04-18 Facebook, Inc. Clustering using locality-sensitive hashing with improved cost model
US20150254233A1 (en) * 2014-03-06 2015-09-10 Nice-Systems Ltd Text-based unsupervised learning of language models
JP6165657B2 (ja) * 2014-03-20 2017-07-19 株式会社東芝 情報処理装置、情報処理方法およびプログラム
US9564122B2 (en) * 2014-03-25 2017-02-07 Nice Ltd. Language model adaptation based on filtered data
US9529794B2 (en) * 2014-03-27 2016-12-27 Microsoft Technology Licensing, Llc Flexible schema for language model customization
WO2015166508A1 (en) * 2014-04-30 2015-11-05 Hewlett-Packard Development Company, L.P. Correlation based instruments discovery
US9678822B2 (en) * 2015-01-02 2017-06-13 Tata Consultancy Services Limited Real-time categorization of log events
KR102450853B1 (ko) * 2015-11-30 2022-10-04 삼성전자주식회사 음성 인식 장치 및 방법
US10032463B1 (en) * 2015-12-29 2018-07-24 Amazon Technologies, Inc. Speech processing with learned representation of user interaction history
RU2634180C1 (ru) * 2016-06-24 2017-10-24 Акционерное общество "Лаборатория Касперского" Система и способ определения сообщения, содержащего спам, по теме сообщения, отправленного по электронной почте
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
US10586528B2 (en) * 2017-02-02 2020-03-10 Adobe Inc. Domain-specific speech recognizers in a digital medium environment
WO2019021804A1 (ja) * 2017-07-24 2019-01-31 ソニー株式会社 情報処理装置、および情報処理方法、並びにプログラム
CA3072444A1 (en) * 2017-08-10 2019-02-14 The Dun & Bradstreet Corporation System and method for dynamic synthesis and transient clustering of semantic attributions for feedback and adjudication
US10515637B1 (en) * 2017-09-19 2019-12-24 Amazon Technologies, Inc. Dynamic speech processing
US10685183B1 (en) * 2018-01-04 2020-06-16 Facebook, Inc. Consumer insights analysis using word embeddings
US10732952B1 (en) * 2018-02-06 2020-08-04 Intuit, Inc. Deployment and customization of applications at the widget level
US11488602B2 (en) 2018-02-20 2022-11-01 Dropbox, Inc. Meeting transcription using custom lexicons based on document history
US10657954B2 (en) * 2018-02-20 2020-05-19 Dropbox, Inc. Meeting audio capture and transcription in a collaborative document context
US10467335B2 (en) 2018-02-20 2019-11-05 Dropbox, Inc. Automated outline generation of captured meeting audio in a collaborative document context
US11106868B2 (en) * 2018-03-06 2021-08-31 Samsung Electronics Co., Ltd. System and method for language model personalization
WO2019212267A1 (en) 2018-05-02 2019-11-07 Samsung Electronics Co., Ltd. Contextual recommendation
CN110968246A (zh) * 2018-09-28 2020-04-07 北京搜狗科技发展有限公司 中文智能手写输入识别方法及装置
US11595484B2 (en) * 2019-05-03 2023-02-28 Servicenow, Inc. Centralized machine learning predictor for a remote network management platform
US11689379B2 (en) 2019-06-24 2023-06-27 Dropbox, Inc. Generating customized meeting insights based on user interactions and meeting media
CN110349569B (zh) * 2019-07-02 2022-04-15 思必驰科技股份有限公司 定制化产品语言模型的训练和识别方法及装置
US11257486B2 (en) * 2020-02-28 2022-02-22 Intuit Inc. Machine learning to propose actions in response to natural language questions
TWI833072B (zh) * 2021-03-30 2024-02-21 緯創資通股份有限公司 語音辨識系統及語音辨識方法

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5675801A (en) * 1994-09-30 1997-10-07 International Business Machines Corporation Object oriented system and method for generating target language code
US5828999A (en) * 1996-05-06 1998-10-27 Apple Computer, Inc. Method and system for deriving a large-span semantic language model for large-vocabulary recognition systems
US6418431B1 (en) 1998-03-30 2002-07-09 Microsoft Corporation Information retrieval and speech recognition based on language models
JP2001134285A (ja) * 1999-11-01 2001-05-18 Matsushita Electric Ind Co Ltd 音声認識装置
US7430717B1 (en) * 2000-09-26 2008-09-30 International Business Machines Corporation Method for adapting a K-means text clustering to emerging data
US6934683B2 (en) * 2001-01-31 2005-08-23 Microsoft Corporation Disambiguation language model
JP4067776B2 (ja) * 2001-03-13 2008-03-26 三菱電機株式会社 言語モデル構成装置及び音声認識装置
US7418386B2 (en) * 2001-04-03 2008-08-26 Intel Corporation Method, apparatus and system for building a compact language model for large vocabulary continuous speech recognition (LVCSR) system
US7134075B2 (en) * 2001-04-26 2006-11-07 International Business Machines Corporation Conversion of documents between XML and processor efficient MXML in content based routing networks
JP2003255985A (ja) * 2002-02-28 2003-09-10 Toshiba Corp 統計的言語モデル作成方法及び装置並びにプログラム
JP2004109906A (ja) * 2002-09-20 2004-04-08 Advanced Telecommunication Research Institute International テキストクラスタリング方法および音声認識方法
CN100380373C (zh) * 2002-10-29 2008-04-09 埃里·阿博 知识系统方法和装置
US7047251B2 (en) * 2002-11-22 2006-05-16 Accenture Global Services, Gmbh Standardized customer application and record for inputting customer data into analytic models
US7283997B1 (en) * 2003-05-14 2007-10-16 Apple Inc. System and method for ranking the relevance of documents retrieved by a query
US7406416B2 (en) * 2004-03-26 2008-07-29 Microsoft Corporation Representation of a deleted interpolation N-gram language model in ARPA standard format
KR100816934B1 (ko) * 2006-04-13 2008-03-26 엘지전자 주식회사 문서검색 결과를 이용한 군집화 시스템 및 그 방법
US7856350B2 (en) * 2006-08-11 2010-12-21 Microsoft Corporation Reranking QA answers using language modeling
US20090299822A1 (en) * 2006-11-08 2009-12-03 P C Grocery Ltd. System and method for optimized shopping transactions
US7617182B2 (en) * 2007-01-08 2009-11-10 Microsoft Corporation Document clustering based on entity association rules
JP2008226104A (ja) * 2007-03-15 2008-09-25 National Institute Of Information & Communication Technology 情報処理装置、情報処理方法、及びプログラム
US8127270B1 (en) * 2007-04-09 2012-02-28 Cisco Technology, Inc. Abstracting transformation for model driven architecture
US7720870B2 (en) * 2007-12-18 2010-05-18 Yahoo! Inc. Method and system for quantifying the quality of search results based on cohesion
CN101226557B (zh) * 2008-02-22 2010-07-14 中国科学院软件研究所 一种高效的关联主题模型数据处理方法
US20140059514A1 (en) * 2008-11-14 2014-02-27 Adobe Systems Incorporated Methods and Systems Utilizing Behavioral Data Models
US8972927B2 (en) * 2009-09-25 2015-03-03 Adobe Systems Incorporated Method and system for providing modeled components
US8949773B2 (en) * 2010-03-25 2015-02-03 International Business Machines Corporation Deriving process models from natural language use case models

Also Published As

Publication number Publication date
US20110296374A1 (en) 2011-12-01
CN102272754B (zh) 2015-04-01
TW201022964A (en) 2010-06-16
TWI512502B (zh) 2015-12-11
US8826226B2 (en) 2014-09-02
KR101537078B1 (ko) 2015-07-15
WO2010051654A1 (en) 2010-05-14
KR20110093785A (ko) 2011-08-18
CN102272754A (zh) 2011-12-07
JP2012507809A (ja) 2012-03-29

Similar Documents

Publication Publication Date Title
JP5475795B2 (ja) カスタム言語モデル
US11550871B1 (en) Processing structured documents using convolutional neural networks
US11443170B2 (en) Semi-supervised training of neural networks
US9535896B2 (en) Systems and methods for language detection
US8386240B2 (en) Domain dictionary creation by detection of new topic words using divergence value comparison
US10089576B2 (en) Representation learning using multi-task deep neural networks
US8688727B1 (en) Generating query refinements
US10282419B2 (en) Multi-domain natural language processing architecture
US8918348B2 (en) Web-scale entity relationship extraction
US9727637B2 (en) Retrieving text from a corpus of documents in an information handling system
JP5379138B2 (ja) 領域辞書の作成
US8073877B2 (en) Scalable semi-structured named entity detection
JP5710581B2 (ja) 質問応答装置、方法、及びプログラム
US9773166B1 (en) Identifying longform articles
US11983502B2 (en) Extracting fine-grained topics from text content
US20170185672A1 (en) Rank aggregation based on a markov model
JP6553180B2 (ja) 言語検出を行うためのシステムおよび方法
Xu et al. A new feature selection method based on support vector machines for text categorisation
US20230119161A1 (en) Efficient Index Lookup Using Language-Agnostic Vectors and Context Vectors
Pusateri et al. Connecting and comparing language model interpolation techniques
Barkovska et al. A Conceptual Text Classification Model Based on Two-Factor Selection of Significant Words.
US11263394B2 (en) Low-resource sentence compression system
JP2019535082A (ja) 言語検出のためのシステムおよび方法
Mendes SmartTags: Continuously learning to suggest news articles according to user preferences
JP2019215876A (ja) 言語検出を行うためのシステムおよび方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130301

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130312

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130516

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130702

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131031

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20131127

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140107

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140206

R150 Certificate of patent or registration of utility model

Ref document number: 5475795

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250