JP5819860B2 - 複合語分割 - Google Patents

複合語分割 Download PDF

Info

Publication number
JP5819860B2
JP5819860B2 JP2012553041A JP2012553041A JP5819860B2 JP 5819860 B2 JP5819860 B2 JP 5819860B2 JP 2012553041 A JP2012553041 A JP 2012553041A JP 2012553041 A JP2012553041 A JP 2012553041A JP 5819860 B2 JP5819860 B2 JP 5819860B2
Authority
JP
Japan
Prior art keywords
vocabulary
word
candidate
token
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012553041A
Other languages
English (en)
Other versions
JP2013519949A (ja
Inventor
アンドリュー・エム・ダイ
クラウス・マシュリー
フランツ・ジョセフ・オック
アショク・シー・ポパット
デイヴィッド・アール・タルボット
Original Assignee
グーグル・インコーポレーテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by グーグル・インコーポレーテッド filed Critical グーグル・インコーポレーテッド
Publication of JP2013519949A publication Critical patent/JP2013519949A/ja
Application granted granted Critical
Publication of JP5819860B2 publication Critical patent/JP5819860B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/49Data-driven translation using very large corpora, e.g. the web

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Description

本発明は一般に脱複合語化に関する。
英語、ドイツ語及びスウェーデン語のような多くの言語は、語彙数を増やすために複合語を使用する。ここで複合語は、意味の単一ユニットとして機能する2つ又はそれ以上の単語の組み合わせ、又は、2つ又はそれ以上の構成要素、部分又は形態素を含む語彙素である。いくつかの言語では、その構成語彙素(あるいは「構成要素」又は「部分語」)から複合語を発生するには、1つ又はそれ以上の形態素演算を必要とする。
複合語分割(すなわち「脱複合語化」)は、複合語をその対応する構成要素に分割するプロセスに関係する。言語に精通する人は、通常は複合語をその対応する構成要素に認識及び分割することができるが、構成要素を変換する形態素演算は、機械がこれらの同じ仕事を行うことをはるかにより困難にする。
機械翻訳を行う場合、フレーズに基づく統計的処理を使用し、原フレーズと目標フレーズとをフレーズテーブルを使用して対応付けることができる。フレーズテーブルは、機械が原フレーズと目標フレーズとを対応付けるために使用することができる多言語情報を格納している。一方の言語が単語を複合する能力を有し、他方の言語がこの能力を持たない場合、原フレーズと目標フレーズとの対応付けは困難又は不可能であるかもしれない。
複合語分割は、原フレーズと目標フレーズとの間の対応付けを改善することができ、これにより、機械翻訳の質を改善する。本明細書に記載された主題の1つの発明態様によれば、機械が複合語をその構成要素に脱複合語化し、各々の構成要素をその原言語から目標言語に翻訳する。
一般に、本明細書に記載された主題の他の発明態様は、文字列を含むトークンを取得する動作と、前記トークンの構成要素である2つ又はそれ以上の候補部分語と、前記部分語を前記トークンに変換するのに必要な1つ又はそれ以上の形態素演算とを識別する動作であって、前記形態素演算の少なくとも1つが辞書にない単語の使用を含む、動作と、各々の部分語に関係するコスト及び各々の形態素演算に関係するコストを決定する動作とを含む方法で具体化することができる。本態様の他の実施形態は、コンピュータ記憶装置上で符号化された前記方法の動作を実行するように構成された対応するシステム、装置及びコンピュータプログラムを含む。
これら及び他の実施形態は、以下の特徴の1つ又はそれ以上を各々任意に含むことができる。例えば、前記動作は、前記各々の部分語に関係するコストを前記各々の形態素演算に関係するコストと結合する動作を含むことができ、前記動作は、前記結合したコストに基づいて前記トークンを前記候補部分語に脱複合語化することを決定する動作を含むことができ、前記トークンを脱複合語化することを決定する動作は、前記結合されたコストが予め規定されたしきい値を満たす場合に前記トークンを前記候補部分語に脱複合語化することを決定する動作を含むことができ、前記トークンを脱複合語化することを決定する動作は、前記結合されたコストが前記トークンの構成要素である候補部分語のすべての識別された組み合わせに関して最も低い結合されたコストである場合に前記トークンを前記候補部分語に脱複合語化することを決定する動作を含むことができ、前記動作は、前記部分語間の分割点の量を決定する動作と、前記分割点の量に関係するコストを決定する動作とを含むことができ、前記少なくとも1つの形態素演算は、2つの前記候補部分語間に辞書にない単語を挿入する演算、前記トークンから辞書にない単語を除去する演算、前記辞書にない単語を1つ又はそれ以上の前記候補部分語の接頭辞として前置する演算、前記辞書にない単語を1つ又はそれ以上の前記候補部分語の接尾辞として後置する演算、又は、前記辞書にない単語を1つ又はそれ以上の前記候補部分語に挿入辞として挿入する演算を含むことができ、前記辞書にない単語は、前記部分語の言語で定義された意味を持たない文字の部分列を含むつなぎ形態素であってもよい。
一般に、本明細書に記載された主題の他の発明態様は、第1語彙に現れる単語と個々の単語が前記第1語彙に現れる頻度とを識別する動作と、前記第1語彙に現れる単語を構成要素として使用して第2語彙に現れる単語を脱複合語化する動作と、前記第2語彙に現れる単語を脱複合語化する構成要素として使用された前記第1語彙に現れる単語を汎用複合語分割器語彙として出力する動作とを含む方法で具体化することができる。本態様の他の実施形態は、コンピュータ記憶装置上で符号化された前記方法の動作を実行するように構成された対応するシステム、装置及びコンピュータプログラムを含む。
これら及び他の実施形態は、以下の特徴の1つ又はそれ以上を各々任意に含むことができる。例えば、前記第1語彙はニュース言語モデル語彙であってもよく、前記第2語彙はウェブ言語モデル語彙であってもよく、前記動作は、前記第2語彙に現れる単語を脱複合語化するために構成要素として予め決められた回数より多く使用された前記第1語彙に現れる単語を選択することを含むことができ、ここで、前記第2語彙に現れる単語を脱複合語化するために構成要素として使用された前記第1語彙に現れる単語を汎用複合語分割器語彙として出力する動作は、前記第2語彙に現れる単語を脱複合語化するために予め決められた回数より多く構成要素として使用された前記第1語彙に現れる前記選択された単語を出力する動作を含み、前記動作は、個々の単語が前記第1語彙に現れる頻度に基づいて前記汎用複合語分割器語彙から単語をフィルタで除去する動作を含むことができる。
一般に、本明細書に記載された主題の他の発明態様は、第1語彙に現れる単語と個々の単語が前記第1語彙に現れる頻度とを識別する動作と、前記第1語彙に現れる単語を構成要素として使用して第2語彙に現れる単語を脱複合語化する動作と、前記第2語彙に現れる単語を脱複合語化する構成要素として使用された前記第1語彙に現れる単語を汎用複合語分割器語彙として出力する動作と、文字列を含むトークンを取得する動作と、前記汎用複合語分割器語彙に現れる前記トークンの構成要素である2つ又はそれ以上の候補単語及び前記単語を前記トークンに変換するために必要な1つ又はそれ以上の形態素演算を識別する動作とを含む方法で具体化することができ、前記形態素演算の少なくとも1つは、辞書にない単語を使用する演算と、各々の単語に関係するコスト及び各々の形態素演算に関係するコストを決定する演算とを含み、前記各々の単語に関係するコストは、個々の単語が前記第1語彙に現れる頻度に対応する。本態様の他の実施形態は、コンピュータ記憶装置上で符号化された前記方法の動作を実行するように構成された対応するシステム、装置及びコンピュータプログラムを含む。
一般に、本明細書に記載された主題の他の発明態様は、フレーズ対の多言語フレーズテーブルを取得する動作であって、前記フレーズ対は、非英語原言語の単一トークン原単語と、個々の単一トークン原単語の翻訳である多トークン英語フレーズとを識別する、動作と、原単語と少なくとも部分的に一致する1つ又はそれ以上のフレーズ対を識別する動作と、1つ又はそれ以上の前記フレーズ対の識別に基づいて前記原単語がおそらく複合語であることを決定する動作とを含む方法で具体化することができる。本態様の他の実施形態は、コンピュータ記憶装置上で符号化された前記方法の動作を実行するように構成された対応するシステム、装置及びコンピュータプログラムを含む。
一般に、本明細書に記載された主題の他の発明態様は、言語依存単語頻度リストに項目を格納する動作であって、各々の項目は、単語のフィンガープリントを識別するデータと、1つ又はそれ以上の言語で個々の単語が現れる頻度を識別するデータとを含む、動作と、候補複合語を取得する動作と、前記候補と前記フィンガープリントの1つとの一致に基づいて前記候補複合語に関係する出現頻度を決定する動作とを含む方法で具体化することができる。本態様の他の実施形態は、コンピュータ記憶装置上で符号化された前記方法の動作を実行するように構成された対応するシステム、装置及びコンピュータプログラムを含む。これら及び他の実施形態は、以下の特徴の1つ又はそれ以上を各々任意に含むことができる。例えば、前記項目は64ビット項目であってもよく、前記単語のフィンガープリントを識別するデータは40ビットを含むことができ、前記1つ又はそれ以上の言語での個々の単語の出現頻度を識別するデータは24ビットを含むことができる。
本明細書に記載された主題の1つ又はそれ以上の実施形態の細部は、添付図面及び以下の記載で明らかにされる。前記主題の他の潜在的な特徴、態様及び利点は、記載、図面及び請求項から明らかになるであろう。
目標言語への翻訳のための、原言語の複合語のその構成要素への分割を説明する図である。 複数の言語のための複合部分の、単一言語抽出のための訓練手順プロセスの一例のフローチャートである。 汎用複合語分割システムによる複合語分割に使用される形態素の部分的リストである。 一例の動的プログラムモデルを基礎とする複合語分割プロセスのリスト作成を示す。 単一言語言語モデル語彙リストから抽出された語彙素例のリストを示す。 複合部分の接尾辞に関するステマー終了形態素及び発生器終了形態素を示す。 汎用複合語分割システムによってサポートされる言語のテーブルを示す。 本開示の実施によって使用することができるネットワークアーキテクチャの一例の図である。 一例の脱複合語化プロセスのフローチャートである。
同じ参照番号は全体を通して対応する部分を表す。
図1は、汎用複合語分割システム100による、目標言語への翻訳のための、原言語の複合語のその構成要素への分割を説明する図である。システム100は、語彙データベース102、104、106及び128と、データプロバイダデータベース116と、脱複合語化エンジン108と、翻訳エンジン110とを含んでいる。図1はさらに、状態「A」から「O」の間のシステム100の部品間のデータの流れを例示しており、これらは必ずしも時系列順ではない。
システム100は、構成要素のリスト(例えば複合語辞書に見られる)を複合語分割器132への入力として使用する。しかしながら特定の要因が、脱複合語化プロセスの困難さと、さらに複合語の機械翻訳の複雑さとを増加させるかもしれない。1つの要因は、複合語の構成要素に現れる形態素変換に関係している。他の要因は、複合語内の分割点の認識に関係している。
一例では、分割点の認識は、脱複合語化プロセスに利用可能なデータ(例えば構成要素リスト)に基づくことができる。いくつかの場合で、限定された量のデータの使用は、構成要素の除外を結果として生じるかもしれない。他の場合で、ノイズ入りデータ(例えば、複合語又は構成要素リストのいずれかの誤ってつづられた語)は、構成要素を認識せず、続いて分割点を認識しない脱複合語化プロセスを結果として生じるかもしれない。いくつかの場合で、その構成要素に分割されたときに複合語の意味が失われてしまうため、特定の複合語(例えば固有名詞)が分割されず、そのまま残ってしまうかもしれない。他の場合で、構成要素リストをフィルタ処理し、特定の構成要素を除外することができ、あるいは、脱複合語化プロセスは、プロセスが複合語として認識しない特定のフレーズの認識を含むことができる。
脱複合語化エンジン108は、複合語分割プロセスで複合部分確率モデルを使用して、複数の異なった言語に関する複合語の複合語分割を行い、これは動的プログラミングを使用して実施される。各々の言語は、種々の複雑さの形態論を示すかもしれず、ある言語の形態論は、他の言語の形態論より複雑であるかもしれない。例えば、言語は、英語、ドイツ語、スウェーデン語、ギリシア語、ハンガリー語及び中国語を含むことができるが、これらに限定されない。複合語分割プロセスは、複合語の2つ又はそれ以上の構成要素を決定するために、構成要素リスト(例えば、複合語の構成要素を含む複合語辞書)を使用する。構成要素リストは、(例えば、データプロバイダデータベース116に関係付けられた自動ニュースアグリゲータ、辞書等)大きいコーパスから抽出された識別された複合語構成要素の結果である。複合語分割プロセスは、特定の言語で複合語をその構成要素にうまく分割するために、各々の言語のための特定の形態素演算を学習する。脱複合語化プロセスによってサポートされる言語のための多言語情報は、フレーズテーブルに格納されている。例えば、フレーズテーブルは、2500より多くの言語対をサポートする統計的機械翻訳システムから得ることができる。
図1に例示されているように、システム100は、複合語「flowerpot(植木鉢)」を英語からドイツ語に翻訳するプロセスに関係している。第1コンテンツ発生器112は、状態「A」でデータプロバイダデータベース116から複数の言語のための言語モデル語彙リストを受け取る。いくつかの実施では、デープロバイダデータベース116は、自動ニュースアグリゲータ(例えば、ニュース記事の集合体を含むデータベース)を含んでいる。言語モデル語彙リストは、ニュース記事から得られるような、特定の言語で使用される単語の集合体である。いくつかの実施では、データプロバイダデータベース116は、辞書データベースによって提供される言語モデル語彙リストを含んでいる。
第1コンテンツ発生器112は、状態「B」で複数の言語のための言語モデル語彙リストから単語頻度リストを受け取る。単語頻度リストは、複合語の考えられる構成要素のリストを含んでいる。第1コンテンツ発生器112は、状態「C」でデータベース102に格納するための単一断片テーブルの形式の第1語彙リストを供給する。第1部分的語彙リスト114は、単語頻度リストの英語項目の部分集合の一例である。テーブル項目は、言語コード114a(例えば英語のための「en」)、言語コード114aによって指定される言語の単語114b(例えば「flower」)、及び、言語モデル語彙リストでの単語114bの出現頻度を表す頻度カウント114c(例えば43,545,654)を含んでいる。頻度カウント114cは、言語モデル語彙リスト内の単語114bの出現数を表すことができる。例えば、頻度カウントは、辞書探索を行うことによって、あるいは、自動ニュースアグリゲータによって提供される複数のニュース記事を見ることによって決定される。
図1に例示されているように、第2コンテンツ発生器118も、状態「D」でデータプロバイダデータベース116から複数の言語のための言語モデル語彙リストを受け取る。第2コンテンツ発生器118は、状態「E」で複数の言語のための言語モデル語彙リストから複合語リストを取得する。第2コンテンツ発生器118は、状態「F」でデータベース104に格納するための第2語彙リストを供給する。第2部分的語彙リスト124は、複合語リストの英語項目の部分集合の一例である。
クライアント装置のユーザ操作が、変換するための入力文字列(例えば「flowerpot」)を、表示装置でユーザに表示されるグラフィカルユーザインタフェースに含まれるデータ入力ボックスに入力することができる。ユーザは、入力文字列のための原言語(例えば英語)及び翻訳のための目標言語(例えばドイツ語)を選択することができる。ユーザは次に、翻訳ボタンを活性化することができる。翻訳ボタンの活性化に応じて、入力文字列モジュール122は、状態「G」で入力文字列126(例えば「flowerpot」)及び入力文字列126のための原言語選択130(例えば英語)を受け取る。クライアント装置及びその動作環境の一例は、図3を参照して説明される。
入力文字列モジュール122は、状態「H」で入力文字列126を原言語のためのデータベース128のコンテンツと比較する。データベース128は、汎用複合語分割システム100によってサポートされる各々の言語のためのフレーズテーブルである第3語彙を含んでいる。データベース128に入力文字列126に関する項目が存在しない場合、入力文字列モジュール122は、状態「I」で入力文字列126を原言語のためのデータベース104のコンテンツと比較する。データベース104は、入力文字列126(例えばデータベース項目124aの「flowerpot」)を含む複合語リストを含んでいる。状態「J」で、脱複合語化エンジン108は、入力文字列126及び原言語選択130を受け取る。
図1に示されているように、脱複合語化エンジン108は、複合語分割器132,コストモジュール134、及び変換モジュール136を含んでいる。分割器132は、複合語(例えば入力文字列126)のその構成要素への分割を行い、前記構成要素は1つ又はそれ以上の辞書にない単語を含んでいるかもしれない。分割器132は、動的プログラムモデルに基づく複合語分割プロセスを使用し、複合語(入力文字列126)に関する所望の分割シーケンス(分割点の数及び位置と構成要素)を識別することができる。
状態「K」で、分割器132は、再帰的複合語分割プロセスを実行し、入力文字列126のための所望の分割シーケンスを決定する。複合語分割プロセスは、入力文字列126の原言語(例えば英語)のためのデータベース102に含まれる単語頻度リストを使用し、入力文字列126のための分割点及び構成要素を決定する。複合語分割プロセスは、入力文字列126内の異なった分割点を再帰的に試み、結果として複数の種々の候補構成要素及び分割シーケンスを生じる。コストモジュール134は、分割器132によって試みられた各々の脱複合語化のための分割シーケンスに関する全確率又はコストを計算する。分割シーケンスに関する全確率は、とりわけ、分割点の数及び位置によって決定される各々の構成要素の頻度カウントの和を含む。
コストモジュール134は、最も高い合計頻度カウントを生じる入力文字列126のための分割シーケンスとなる、入力文字列126のための所望の分割シーケンスを決定する。所望の分割シーケンスは、最適な分割シーケンスであってもなくてもよい。次に、最大数の頻度カウント(最も高い確率)の分割シーケンスが所望の分割シーケンスとして確立される。いくつかの実施では、合計コストが分割シーケンスに関係付けられ、分割シーケンスに関する確率がより高くなると(頻度カウントの合計数がより大きくなると)、分割シーケンスに関する合計コストはより低くなる。
図1に示されている例では、分割器132及びコストモジュール136を使用する脱複合語化エンジン108は、入力文字列126(例えば「flowerpot」)のための所望の分割シーケンスは、結果として2つの構成要素、すなわち構成要素138a(例えば「flower」)及び構成要素138b(例えば「pot」)を生じることを決定する。原言語のための辞書は、構成要素138a、138bを含むことができ、各々別個の構成要素が原言語で使用される辞書にある単語である(例えば、「flower」及び「pot」が英語辞書に見られ、各々の単語は単独でこの言語で使用することができる)。いくつかの実施では、1つ又はそれ以上の構成要素は、複合語の原言語のための辞書に含まれない単語であってもよい。この場合、変換モジュール136は、非標準単語構成要素を、後に容易に翻訳することができる標準単語に(例えば、接頭辞及び/又は接尾辞を非標準単語に追加することによって、構成要素の一文字を他の文字に変更することによって等)変換することができる。
状態「L」では、翻訳エンジン110は、脱複合語化エンジン108によって決定された所望の分割シーケンスに関する脱複合語化された構成要素(構成要素138a(例えば「flower」)及び構成要素138b(例えば「pot」))と、目標言語選択140とを受け取る。状態「M」では、翻訳エンジン110は、構成要素138a、138bを原言語から目標言語に翻訳する(例えば、構成要素138a、構成要素138b(「flower」及び「pot」の各々、又は、フレーズ「flower」「pot」)が英語からドイツ語へ翻訳される)。翻訳エンジン110はデータベース106を使用し、データベース106は、原言語のための目標言語への翻訳辞書(例えば英語からドイツ語への辞書)である第4語彙を含んでいる。翻訳エンジン110は、原言語(例えば英語)から目標言語(例えばドイツ語)への構成要素138a、138bの翻訳を見つけるために、構成要素138a、138bをこの辞書の項目と比較する。状態「N」では、出力文字列モジュール142は、翻訳された出力文字列144(例えば「blumentoph」)を受け取り、この出力文字列144は、脱複合語化された入力文字列126(例えば「flowerpot」)の原言語(例えば英語)から目標言語(例えばドイツ語)の出力文字列144(例えば「blumentoph」)への翻訳である。
例えば、状態「O」では、ユーザは、ユーザが変換する入力文字列を入力するために使用されたのと同じ計算装置の表示装置にユーザに対して表示されるグラフィカルユーザインタフェースに含まれる出力ボックスに出力文字列144を見ることができる。計算装置及びその動作環境の一例は、図3を参照して説明される。
図2は、複数の言語に関する複合部分の形態論的抽出のための訓練手順プロセス200のフローチャートである。汎用複合語分割システム100はプロセス200を実行することができる。
図1に説明されているように、単語頻度リスト(例えば、第1部分的語彙リスト114は単語頻度リストの英語項目の部分集合の一例である)は、分割器132によって実行される複合語分割プロセスによって使用される複合部分のソースを提供する。単語頻度リストは、言語に依存しており、単一言語データから抽出された格納された複合部分候補のリストを含んでいる。第1コンテンツ発生器112は、汎用複合語分割システム100によってサポートされる各々の言語に関する単語頻度リストを発生することができる。汎用複合語分割システム100を、言語モデル語彙リスト(例えば、データプロバイダデータベース116によって提供される言語モデル語彙リスト)から複合部分候補を抽出し、単語頻度リストを発生するように訓練することができる。
いくつかの実施では、汎用複合語分割システム100は、単語頻度リストを発生するために、1つ又はそれ以上のフィルタステップを、言語モデル語彙リストからの複合部分候補の抽出と組み合わせる。脱複合語化エンジン108は、単語頻度リストを汎用複合語分割器語彙として使用する。汎用複合語分割システム100は、4つの段階に分割される訓練手順を使用し、システム100は、1つ又はそれ以上のフィルタステップをこれらの段階に自動的に適用し、データベース102に格納することができるすべての言語のための単語頻度リストを発生する。プロセス200は、4つの訓練手順段階202、204、206、208を示す。例えば、汎用複合語分割システム100は、訓練手順の4つの段階202、204、206、208を実行することができる。
例えば、図1及び2を参照すると、プロセス200は、ニュース言語モデル語彙を受け取ったとき(204)、開始する(202)。ニュース言語モデル語彙は、データベース(例えばデータベース116)に含まれることができる。訓練手順の第1段階が次に実行される(206)。訓練手順の第1段階では、第1コンテンツ発生器112は、汎用複合語分割システム100によってサポートされる複数の言語のためのニュース言語モデル語彙から得られる単語頻度リストを発生する。ニュース記事は、一般的なウェブ文書に基づくモデル語彙より綴り誤りが少ない単語を含むニュース言語モデル語彙を結果として生じる、言語依存語彙のデータベースを提供することができる。加えて、ニュース記事は、不正確な又は辞書にない単語をより少なく含む(例えば、データベースにノイズが少ない)ニュース言語モデル語彙を提供することができる。第1段階では、第1コンテンツ発生器112は、1つ又はそれ以上のフィルタステップにしたがって、ニュース言語モデル語彙に含まれる言語依存語彙をフィルタ処理する。第1コンテンツ発生器112は、マップリデュースマップ段階(208)中に前記フィルタステップを実行する。マップリデュースマップ段階は、言語依存語彙中の各々の単語又はトークンの出現の頻度に関係する多数のカウントを集計する減少プロセスを行う。マップリデュースマップ段階は、さらに、ニュース言語モデル語彙に含まれる言語依存語彙のサイズを減少させ、複合語の潜在的な構成要素であるかもしれない項目を含むようにする。例えば、第1フィルタステップは、固有名詞(例えば、Michelle、Washington、Pentagon等)をフィルタで除去することができる。
訓練手順の第1段階202の完了の結果は、汎用複合語分割器語彙の出力である(210)。汎用複合語分割器語彙は、データベース102に格納するための単一断片テーブルとして出力される。第1部分的語彙リスト114は、言語コードに関する単語列及び対応する頻度カウントとして、複数のテーブル項目を示す。テーブル項目は、言語コード114a(例えば、英語のための「en」)、言語コード114aによって示される言語の単語114b(例えば「flower」)、及び、データベース102での単語114bの出現頻度を表す頻度カウント114c(例えば43,545,654)を含むフォーマットに入れられる。
いつくかの実施では、前記単一断片テーブルは、汎用複合語分割システム100によってサポートされる言語の各々に関する複数の項目を含んでいる。シーケンス開始項目が、言語に関する言語コードの各々のシーケンスの最初に配置される。シーケンス開始項目は、特定の言語コードに関するその後のテーブル項目の数を示すカウントを含んでいる。データベース102の英語項目に関するシーケンス開始項目の一例は、
Figure 0005819860
であり、ここで「[en]」は言語コード(英語)であり、カウント「nnnnn」は英語に関するその後のテーブル項目の数を示す。シーケンス開始項目の先頭の「0」は、この項目が言語コードに関するすべての他の項目に先行することを保証する。
再び図1及び2を参照すると、ウェブ言語モデル語彙が受け取られる(212)。ウェブ言語モデル語彙は、データベース(例えばデータベース116)に含まれていてもよい。訓練手順の第2段階が次に実行される(214)。訓練手順の第2段階では、汎用複合語分割システム100は、マップリデュースマップ段階を継続する第1段階からの単語頻度リスト(汎用複合語分割器語彙)出力をさらに減少させ、且つフィルタ処理する。ウェブ言語モデル語彙は、汎用複合語分割システム100によってサポートされる各々の言語の任意のウェブ文書に基づいている。ウェブ言語モデル語彙は、各々のサポートされている言語に関する項目を含んでいる。訓練手順の第2段階では、マップリデュースマップのマップステップが、汎用複合語分割システム100を使用して、受け取られたウェブ言語モデル語彙を分割する。
訓練手順の第2段階では、汎用複合語分割システム100は、分割器132への入力として、データベース102に格納された単語頻度リストを使用する。脱複合語化エンジン108は、ウェブ言語モデル語彙に含まれる単語を分割することを試みる。訓練手順の第2段階を実行する際に、ウェブ言語モデル語彙からの入力複合語を分割するために分割器132によって使用される単語頻度リストに含まれる複合語構成要素が、減少器に渡される。減少器は、単語頻度リストの各々の構成要素がどれくらい使用されるかを決定する(216)。予め決められたしきい値レベルを超えて使用される構成要素が決定され、結果として、汎用複合語分割器語彙として使用される複合部分の出力が生じる(218)。第2段階は、単語頻度リストのサイズをさらに減少させる。いくつかの実施では、減少器は脱複合語化エンジン108に含まれている。いくつかの実施では、減少器は汎用複合語分割システム100に含まれているモジュールである。
例えば、第1段階の実施後、第1コンテンツ発生器112の出力は、第1部分的語彙リスト114を含んでいる。第2段階204では、脱複合語化エンジン108は入力文字列126(例えば「flower」)を受け取り、入力文字列126はウェブ言語モデル語彙に含まれている。第1部分的語彙リスト114を分割器132への入力として使用すると、入力文字列126を分割するために分割器132によって使用される第1部分的語彙リスト114に含まれている構成要素は、単語114b(「flower」)及び単語114d(「pot」)である。この例では、追加の単語が分割されず、減少器のための予め決められたしきい値レベルが1に等しい場合、減少器の出力は部分的語彙リスト、
Figure 0005819860
を含むことになる。
減少器の出力は、脱複合語化エンジン108がウェブ言語モデル語彙に含まれている複合語を分割するために使用する複合部分候補を含んでいる。減少器によって使用される予め決められたしきい値レベルの追加は、脱複合語化エンジン108が単語頻度リストに含まれるのに十分なほど頻繁な複合部分候補を使用することをさらに保証する。
いくつかの実施では、第1段階の実行後、汎用複合語分割器語彙は複合語を含むことができる。構成要素の使用が脱複合語化エンジン108による複合語の使用より多いとすると、第2段階は単語頻度リストから複合語をフィルタで除去することができる。
図1及び2を参照すると、訓練手順の第3段階が実行される(220)。訓練手順の第3段階では、汎用複合語分割システム100は、頻度カウントが予め決められたしきい値レベル未満の単語を単語頻度リストから除去することができる。第3段階はさらに、単語頻度リストのサイズを減少させることができる。第3段階は、汎用複合語分割器語彙として使用することができる最終的な単語頻度リストを単一断片テーブルで提供する(222)。
いくつかの実施では、第4段階が実行される(224)。第4段階は、最終的な統計を出力することができる(226)報告段階であってもよい。例えば、前記統計は、複数の言語にわたって複合部分の数を比較するために使用することができる。他の例では、前記統計は、汎用複合語分割システム100の誤り解析に使用することができる。プロセスは終了する(228)。
いくつかの実施では、複合語候補及びそれらの構成要素が2言語環境に含まれていてもよい。2言語汎用複合語分割システムでは、複合語はその構成要素に分割され、次に原言語から目標言語に翻訳される。例えば、英語が原言語であってもよく、フレーズテーブルは原言語(英語)から目標言語への翻訳を提供することができる。他の例では、英語が目標言語であってもよく、フレーズテーブルは原言語から英語への翻訳を提供することができる。
簡潔に言うと、一例のプロセスは、フレーズ対の多言語フレーズテーブルを得るステップであって、前記フレーズ対は、非英語原言語の単一トークン原単語と、個々の単一トークン原単語の翻訳である多トークン英語フレーズとを識別する、ステップと、原単語との少なくとも部分な一致である1つ又はそれ以上のフレーズ対を識別するステップと、前記1つ又はそれ以上のフレーズ対の識別に基づいて複合語らしい原単語を決定するステップとを含むことができる。
より詳細には、2言語汎用複合語分割システムは、訓練手順の一段階で、自動的に翻訳フレーズテーブルを発生することができる。2言語汎用複合語分割システムによって実行される訓練手順の次の段階は、英語が多くの複合語を含まないという仮定の下で動作する。したがって、訓練段階の実行は、多トークン英語フレーズe,...,eに翻訳する言語lの単一トークン原単語fを探索するステップを含むことができる。単一トークン原単語f及びその翻訳された多トークン英語フレーズe,...,eは、フレーズ対(f,e,...,e)を形成することができる。各々のフレーズ対は、言語lの単一トークン原単語fの、その英語多トークンフレーズ翻訳e,...,eへの翻訳のための候補であってもよい。
2言語汎用複合語分割システムは、多トークン英語フレーズe,...,eに含まれる各々のトークンを取り出し、語彙データベース(例えば図1のデータベース106)中で言語lのための個々のトークンの対応する翻訳を探索する。2言語抽出プロセスでは、2言語汎用複合語分割システムは、元の原単語wが複合語である場合、元の原単語wと少なくとも部分的に一致する語彙データベースの項目を見つけることができる。語彙データベースでの追加の探索を含むと、式(1)は2言語抽出プロセスからの結果として生じる翻訳対の形式を表すことができる。
PTCS(f)=(f,e,...,e;g,...,g) (1)
式(1)では、PTCS(f)は、この場合は複合語でありそうな原単語fに関する翻訳対である。多トークン英語フレーズe,...,eは原単語fの英語翻訳を含み、g,...,gは原単語fの複合部分である。PTCSテーブルは、複数の単一トークン原単語fに関する項目を含むことができる。
いくつかの実施では、訓練手順中の自動的な翻訳フレーズテーブルの発生は、翻訳フレーズテーブル中に誤りを導入するかもしれない(例えば、不正確な単語の包含)。2言語抽出プロセスも、脱複合語化プロセス中にある程度のノイズ又は誤りを導入するかもしれない。しかしながら、2言語抽出プロセスは、図1に記載されている単一言語抽出プロセスよりよい、可能な複合語並びにそれらの構成部分の指標でありえる。2言語汎用複合語分割システムは、式(1)で定義される組(例えば(f,e,...,e;g,...,g))を使用し、構成部分g,...,gを一緒に結合して複合語fを形成するときに必要かもしれない1つ又は複数の形態素変換を自動的に抽出することができる。例えば、2言語汎用複合語分割システムは、式(1)で定義される組を使用し、ドイツ語の複合語fの構成部分を結合するのに必要かもしれないどのようなつなぎ形態素も自動的に抽出することができる。
単一言語及び2言語汎用複合語分割システムは、訓練手順を使用し、複合語翻訳プロセスで使用される最終的な単語リスト(例えば、単語頻度リスト及び翻訳フレーズテーブルのそれぞれ)を発生させることができる。訓練手順の段階は、1つ又はそれ以上のフィルタステップを使用し、最終的な単語リストのサイズを制御すると共に、最終的な単語リストの品質を保証することができる。最終的な単語リストの品質に寄与する1つの要因は、1つ又はそれ以上の無効な複合部分の包含である。最終的な単語リストの品質に寄与する他の要因は、1つ又はそれ以上の有効な複合部分の除外である。
いくつかの実施では、汎用複合語分割システムは、白リスト及び黒リスト(又は「中止リスト」)を含むことができる。例えば、白リストは、システムが最終的な単語リストに常に含む1つ又はそれ以上の単語(例えば、構成要素、複合部分、複合語)を含むことができる。例えば、黒リストは、システムが最終的な単語リストから常に除外する又は通常は除外する1つ又はそれ以上の単語(例えば、構成要素、複合部分、複合語)を含むことができる。例えば、黒リスト及び白リストは、汎用複合語分割システムのパラメータ又はしきい値を学習又は訓練し、システム全体の性能を改善するために使用することができる。
いくつかの実施では、複合語の生成は、1つ又はそれ以上の形態素演算を含むことができる。例えば、ドイツ語の複合語、Verkehrszeichen(英訳:traffic sign(交通標識))は、2つの名詞、Verkehr(traffic(交通))及びZeichen(sign(標識))から構成される。複合語Verkehrszeichenの生成は、追加の形態素、s形態素を含み、このs形態素は、複合語Verkehrszeichenの2つの構成要素Verkehr及びZeichenを共に「つなぐ」ため、つなぎ形態素と呼ぶことができる。複合語Verkehrszeichenを生成することは、追加の形態素演算、すなわち、文字「s」の2つの構成要素Verkehr及びZeichen間への挿入を含む。文字「s」は、それ自身ではドイツ語の意味を持たないため、辞書にある単語ではない。
ドイツ語に関する形態素演算は、候補文字の小さい組に含まれている少数の文字の挿入及び削除を含むことができる。他の言語(例えばギリシア語、ハンガリー語)では、形態素演算はより複雑であるかもしれない(例えば、候補文字のより大きい組、1つの構成要素の1つ又はそれ以上の文字の置換、等)。汎用複合語分割システムは、形態素演算で使用するために選択するための文字の候補の組を含むことができる。汎用複合語分割システムは、例えば、訓練手順の段階を経て、特定の言語の複合語を生成するために使用されるつなぎ形態素及び他の追加の形態素演算をどのように検出するかを学習することができる。
いくつかの実施では、形態素演算は、文字列s、t0Aの対(s,t)を含み、ここで文字列sは文字列tに置き換えられ、文字列s及びtの1つ又はそれ以上の文字が原言語のアルファベットAに含まれる。クリーネ演算子「」は、原言語のアルファベットAで演算し、ここで文字列s及びtは、記号「ε」によって示される空(ヌル)文字列であってもよい。クリーネ演算子を使用すると、各々の文字列s、tが文字の組である場合、結果として、空文字列を含むA内の記号全体に渡るすべての文字列の組としてAを生じる。
ドイツ語での形態素演算のための一例の文字列は(es,ε)であり、これは、空文字列εに対するドイツ語の複合語Bundesagentur(英訳:federal agency(連邦機関))のつなぎ形態素esをモデル化している。複合語(Bundesagenturの構成要素は、Bund(federal(連邦の))及びagentur(agency(機関))であり、「es」はつなぎ形態素である。
いくつかの実施では、1つ又はそれ以上の部分(部分語)から複合語を生成するために使用される形態素演算を学習するために、汎用複合語分割システムは、複合語とその複合部分との違いを決定する。システムは、2つのシーケンス(文字列)間の距離を測定するために使用される測定基準であるレーベンシュタイン距離を使用することができ、許容可能な編集演算は、単一文字の挿入、削除又は置換である。汎用複合語分割システムは、編集距離及び編集演算を格納する。レーベンシュタイン距離は、複合語化に必要な形態素演算を提供する。システムは、逆演算(例えば、文字列tを文字列sによって置き換える)を使用し、結果として、複合語の脱複合語化に必要な演算が生じる。各々の形態素演算は関係する「コスト」を有する。
レーベンシュタイン距離は、一様なコストを有する編集演算を含んでいる。しかしながらいくつかの実施では、一様なコストは、コストをすべての言語に関して同じにする脱複合語化のための形態素演算を学習することに関して望ましいかもしれない。いくつかの実施では、コストは、言語ごとに設定することができ、より複雑な言語はより高い演算コストを招くかもしれない。
式(1)の翻訳対を使用すると、汎用複合語分割システムは、訓練手順の一段階であってもよい学習プロセスで、レーベンシュタイン距離を複合語(f)及びその構成部分(g,...,g)の両方に使用し、1つ又はそれ以上の形態素演算を抽出することができる。例えば、(例えば、綴り誤りによって生じる)偽の及び単体の演算を学習することを回避するために、汎用複合語分割システムは、どれくらい各々の識別された形態素演算が使用されたかを明確にカウントすることができる。システムは、使用カウントが所定の予め決められたしきい値を超える演算を保持することができる。
図3は、汎用複合語分割システムによる複合語分割に使用される形態素の部分的リスト300である。リスト300は、汎用複合語分割システムが明確に指定することができる形態素を含むことができる。リスト300は、例えば、上述した訓練手順の段階を経てシステムによって学習された形態素を含むことができる。リスト300は、それぞれドイツ語(de)及びオランダ語(da)に使用される形態素302、304を含んでいる。いくつかの実施では、追加の言語のための形態素をリスト300に含めることができ、これらの形態素は辞書にない単語を含んでもよい。形態素は、部分的リスト300に含まれるドイツ語形態素302の部分集合であるつなぎ形態素306を含んでいる。例えば、つなぎ形態素306は、ドイツ語の複合語の2つの部分語間に生じるかもしれない。汎用複合語分割システムが、訓練手順のある段階によって使用されるレーベンシュタイン距離を、挿入のみを含むように制限する(例えば、削除及び置換に関するコストが無限に設定される)場合、訓練手順のこの段階の出力は、つなぎ形態素306のリストを含むことができる。
形態論的に豊かな言語(例えば、ギリシア語、ハンガリー語)では、訓練手順を使用する形態素の学習は、形態素演算が挿入に加えて削除及び置換を含むことができるため、困難であるかもしれない。つなぎ形態素は挿入の一例である。汎用複合語分割システムは、訓練手順の段階であってもよい学習プロセスで、式(1)の翻訳対を使用し、1つ又はそれ以上の形態素演算を抽出することができる。PTCSテーブル内の複数の単一トークン原単語fに関して含まれる翻訳対の品質は、形態素演算の完全な範囲(挿入、削除及び置換)の学習に影響を及ぼすかもしれない。各々の単一トークン原単語fは、複数の翻訳を有するかもしれず、これは翻訳対の選択の困難さを増す。加えて、単一トークン原単語fに関する正確な翻訳は、PTCSテーブルに含まれていないかもしれない。
いくつかの実施では、汎用複合語分割システムは、PTCSテーブルのための項目を決定するために使用される抽出プロセスを改良することができる。例えば、第1ステップでは、システムは、複合語を含む言語が、いかなる追加の形態素演算を使用することなくそれらの複合部分を直接連結することによって形成された多数の複合語を含んでいると仮定することができる。この仮定は、汎用複合語分割器語彙に含めるための確実な複合部分の第1グループを提供することができる。例えば、第2ステップでは、汎用複合語分割システムは、第1ステップで決定された汎用複合語分割器語彙の複合部分を使用する唯一の形態素演算として、挿入(つなぎ形態素の使用)を許可することができる。
一例の実施では、システムは、それらの原言語から2つの英単語に翻訳される2つの複合部分を含む複合語のみを考慮する。加えて、最初の複合部分の始め又は最後の複合部分の終わりに生じる挿入は、個々の複合部分のそれら自身の形態論的変形であるかもしれない。複合部分のこれらの識別された形態論的変形は、汎用複合語分割器語彙に加えられる。複合語の追加の挿入演算は、つなぎ形態素と考えられる。システムは、任意の追加の学習されたつなぎ形態素を、汎用複合語分割システムによる複合語分割に使用される形態素のリストに加えることができる。例えば、第3ステップでは、汎用複合語分割システムは、更新された汎用複合語分割器語彙と、第2ステップからの更新された形態素のリストとを使用し、1つ又はそれ以上の形態素演算を含むかもしれない複合語に脱複合語化及び翻訳演算を行うことができる。
他の実施では、図1を参照すると、分割器132は、動的プログラムモデルを基礎とする複合語分割プロセスを使用し、入力複合語のための所望の分割シーケンス(分割点の数及び位置と構成要素)を決定することができる。分割器132は、入力文字列のトークンw=c...c=c を受け取ることができ、ここでc は文字のシーケンスである。分割器132は、動的プログラムモデルを基礎とする複合語分割プロセスを使用し、複合部分がトークンwの構成要素となるように、分割点の所望のシーケンス
Figure 0005819860
を決定することができ、ここで、
Figure 0005819860
である。
図1を参照すると、式(2)は、分割器132がトークンwを構成要素である語彙素のシーケンスに完全に分割することを必要とする。したがって、分割器132は、構成要素を見つけ、トークンwに関する所望の分割を決定することができる。いくつかの実施では、トークンwの原言語(例えばドイツ語)の複合語の構成要素は、語彙素である。いくつかの実施では、トークンwの原言語の複合語の構成要素は、有効な単語ではなくてもよい(すなわち、辞書にない単語であってもよい)。例えば、ギリシア語では、式(4)に使用されている構成部分は、ギリシア語辞書に含まれている有効な単語でなくてもよい。この場合、分割器132は、トークンwを、有効な辞書にある単語でなくてもよい構成要素に分割することができる。脱複合語化エンジン108に含まれる翻訳モジュール136は、各々の辞書にない単語構成要素を語彙素に変換することができる。変換された語彙素は、g Kによって示される。決定規則は、式(5)、(6)及び(7)に示すように改良することができる。
Figure 0005819860
Figure 0005819860
によって表される複合部分確率は、ゼロ次モデルである。複合部分確率は、分割の数Kに依存する。脱複合語化エンジン108は、分割器132によって識別された各々の分割に、一定の分割ペナルティξを科す。このとき確率は、分割数Kと無関係であってもよい。複合部分確率が前の分割と無関係で分割数と無関係の場合、式(8)は、複合語の分割点を決定するために使用される決定規則を表すことができる。
Figure 0005819860
いくつかの実施では、脱複合語化エンジン108は、動的プログラミングを使用し、複合語の原トークンのための所望の分割シーケンスを見つけることができる。コスト関数は、各々の複合語分割に関するコストを決定することができる。コスト関数は、各々の複合部分(構成要素)に関する個々のコストから、脱複合語化された単語の合計コストを計算することができる。動的プログラムモデルを基礎とする複合語分割プロセスは、補助関数Qを使用することができる。
Figure 0005819860
したがって、Q(c )は、分割器132が位置n でK分割を使用する場合、コスト関数を接頭辞文字列c に割り当てる最小コスト(最高確率)に等しい。これは結果として再帰式(10)を生じる。
Figure 0005819860
バックポインタB(j)が式(11)で定義される。
Figure 0005819860
式(11)では、
Figure 0005819860
は、確率又はコスト関数である。逆対数を式(10)及び式(11)に用いることにより、確率量をコストとして解釈することができる。
図4は、一例の動的プログラムモデルを基礎とする複合語分割プロセス400(プロセス1)のリスト化を示す。プロセス400は、入力文字列の長さにおいて二次である。いくつかの実施では、「for」ループ402を、
「for j=i+1,...,min(i+l,N)do」に変更することができ、ここで各々の複合部分は予め定義された長さlを超えない。この変更の結果として、長さlは予め定義された定数であるため、プロセス400は入力単語O(|w|)の長さにおいて一次になる。
いくつかの実施では、プロセス400の成果はコスト関数cost(・)又は確率
Figure 0005819860
に依存する。複数の知識源を使用し、確率をモデル化することができる。図1を参照して説明したように、単語頻度リスト(例えば第1部分的語彙リスト114)は、頻度カウント(例えば頻度カウント114c)を潜在的な複合部分候補(例えば単語114b)と関係づけることができる。変換された語彙素複合部分gに関する適切な候補の発生は、PTCSテーブルを参照して前に説明した。
への依存性を無視すると、確率
Figure 0005819860
の部分語
Figure 0005819860
は、トークンwを形成するために使用することができる複合部分候補を示すことができる。複合部分候補は、これらの関係する頻度カウントと共に、言語モデル語彙リストから単一言語的に、あるいは、フレーズテーブルから2言語的に抽出することができる。これらの抽出プロセスは、本明細書で前に説明した。複合部分確率に関するゼロ次モデルの使用は、言語モデル語彙リストによって提供されるユニグラムカウント(頻度カウント)による複合部分確率の直接の置き換えを考慮している。この場合、規格化定数である、一定の分割ペナルティξは、言語モデル語彙リストの各項目に関して同じままである。したがって、規格化定数は、複合部分確率に影響せず、省略することができる。
図5は、単一言語言語モデル語彙リストから抽出された語彙素例のリスト500を示す。リスト500は、語彙素(例えば語彙素502)と、語彙素の関係する頻度カウント(例えば頻度カウント502a)と、語彙素の言語を表す言語コード(例えば言語コード502b)とを含んでいる。図1を参照すると、リスト500は、汎用複合語分割システム(例えばシステム100)による脱複合語化エンジン(例えば脱複合語化エンジン108)によって使用されるデータベース(例えばデータベース102)に含めることができる。
分割位置nk−1に対する確率の依存性は、動的プログラムモデルを基礎とする複合語分割プロセス(例えばプロセス400)がトークンwの始めか、中央か、又は終わりにあるのかを示す。次にプロセスは、開始形態素、つなぎ形態素及び終了形態素間を識別することができる。図3を参照して説明したように、汎用複合語分割システムは、2か国語フレーズテーブルを使用する訓練手順中、形態素の明確な設定、あるいは、形態素の自動的な抽出を可能にすることができる。
形態素リスト300は、それぞれ接頭辞形態素、挿入辞形態素又は接尾辞形態素として使用し、複合部分のシーケンスを接続して複合語を形成することができる開始形態素、つなぎ形態素(例えば形態素306)及び終了形態素(例えば形態素308)を含むことができる。汎用複合語分割システムは、複合語を脱複合語化するとき、開始形態素、つなぎ形態素及び終了形態素を、それぞれ接頭辞形態素、挿入辞形態素又は接尾辞形態素として検出することができる。いくつかの実施では、汎用複合語分割システムは、複合語を脱複合語化するとき、1つ又はそれ以上の形態素を検出又は置換することができる。
図6は、複合部分の接尾辞に関するステマー終了形態素602及び発生器終了形態素604のリスト600を示す。汎用複合語分割システムは、ステマー規則及び発生器規則を使用して形態素置換を行うことができる。部分的リスト600は、ギリシア語(例えば言語コード「el」)のための終了形態素を含んでいる。例えば、動的プログラムモデルを基礎とする複合語分割プロセスを使用する汎用複合語分割システムは、ギリシア語の単語:
Figure 0005819860
(英訳:gamble(ギャンブル))を以下に示すように脱複合語化する。
Figure 0005819860
この例では、複合部分
Figure 0005819860
の接尾辞oは、ステマー接尾辞606によって語幹処理され、発生器接尾辞608によって置換される。いくつかの実施では、汎用複合語分割システムは、発生器規則のその後の適用なしでステマー規則を適用することによって、形態素の除去を行うことができる。いくつかの実施では、図4に示すプロセス400は、複数の形態素間の直接翻訳を処理して形態素シーケンスの発生を回避することができない。これを達成するために、他の形態素に直接続くこれらの形態素のコストを無限に設定することができる。
いくつかの実施では、汎用複合語分割システムに含まれる汎用プリプロセッサは、カスタマイズ可能なスコアラインタフェースを提供し、複数のコスト関数をサポートする。例えば、特定のスコアラは、コストを複合語の構成要素の各々に割り当てるスコアリング機能を実施する。加えて、スコアラインタフェースは、任意の形態素演算を処理する方法を提供することができる。一度汎用複合語分割システムが訓練手順中に形態素演算を学習すると、形態素演算は、形態素リスト(例えば、リスト300、リスト600)に含めることができる。
図7は、汎用複合語分割システムによってサポートされる言語のテーブル700である。テーブル700は、それらの言語ファミリーにしたがって分類された言語を列挙している。汎用複合語分割システムは、テーブル700に列挙されていない追加の言語をサポートすることができる。いくつかの実施では、汎用複合語分割システムは、システムによってサポートされている各々の言語に関する脱複合語化プロセスで使用される言語特定情報を含んでいる。言語特定情報は、言語依存単語頻度リストと、言語依存形態素又は形態素演算とを含むことができる。
図1及び4を参照すると、コスト関数であるプロセス400に関する
Figure 0005819860
を計算するために、分割器132は、複合部分候補
Figure 0005819860
の単語頻度を、データベース102に格納されている単語頻度リストから引き出す。例えば、単語頻度リストが言語あたり約100000項目を含み、単語あたり平均20バイトの長さで、単語頻度を格納するために4バイト整数値の場合、データベース102は、50言語をサポートする脱複合語化モデルのための情報を格納するために、約115メガバイトの記憶装置を必要とする。
いくつかの実施では、言語に関する情報に必要な記憶容量を減少するために、汎用複合語分割システムは、パックされた64ビットフィンガープリントを計算し、単語のフィンガープリントのために40ビット、単語の頻度のために24ビットを受け取る。したがって、単語頻度項目のためのルックアップテーブルは、すべての単語を格納する必要はない。汎用複合語分割システムは、特定の複合語候補が単語頻度リストに現れるかどうかを対象とし、候補それ自体を引き出す必要はない。したがって、単語頻度リスト内に単語のためのフィンガープリントを保持すれば十分である。40ビットフィンガープリントの使用は、衝突(異なった単語に同じフィンガープリント)の数を減少させる。40ビットフィンガープリントの使用は、結果として、50言語をサポートするための19メガバイトのメモリフットプリントを生じ、これは、単語頻度リストにすべての単語を格納するために必要な115メガバイトより有意に少ない。
例えば、図1の汎用複合語分割システム100は、英語の複合語:flowerpotを分割することを試みる。図1を参照すると、脱複合語化エンジン108は、この複合語を受け取る。分割器132は、プロセス400を実行し、すべての分割点を試し、コスト関数にしたがって最小のコストを結果として生じる複合語分割を決定する。この例では、複合語は2つの部分に分割される。分割器132は2つの分割点を位置づけ、ここで分割点の数はK(例えばK=2)によって示され、複合語中の分割点の位置はn及びnによって示される。複合語「flowerpot」は9つの文字c,...,cから構成されるため、文字c,...,c内に分割点nの位置に関して8つの可能性が存在する。例えば、n=6ならば、6番目の文字で終わる構成要素候補は、第1複合部分「flower」である。分割点nの位置は、常に複合語の最後の文字である。分割点nの位置は、固定され、予め設定することができ、ここでn=9である。したがって残りの文字c,...,cは第2複合部分「pot」を形成する。複合語「flowerpot」内のすべての可能な単一分割を試すと、結果として以下の構成要素候補が生じる。
flowerpot→f+lowerpot
flowerpot→fl+owerpot
flowerpot→flo+werpot
・・・
flowerpot→flower+pot
・・・
flowerpot→flowerpo+t
構成要素候補が複合語「flowerpot」の複合部分であるかどうかを決定する際、プロセス400を使用する分割器132は、単語頻度リストに含まれる候補に関する頻度カウントを使用し、各々の複合部分候補にコストを関係付ける。プロセス400は、各々の構成要素候補のコストを合計することによって、複合語の脱複合語化のための構成要素候補に関する合計コストを決定する。例えば、単一の文字「f」が頻繁に現れ、複合語を脱複合語化するための合計コストに小さいコスト(高い確率)しか寄与しないかもしれず、単語「lowerpot」がまったく現れず、複合語を脱複合語化するための合計コストに高いコスト(低い確率)を寄与すると思われる。したがって、「flowerpot」の「f」及び「lowerpot」への分割はありそうにない。
他の例では、構成要素「flower」が英語の中で頻繁に現れ、複合語を脱複合語化するための合計コストに小さいコスト(高い確率)しか寄与せず、構成要素「pot」も英語の中で頻繁に現れ、複合語を脱複合語化するための合計コストに追加の小さいコスト(高い確率)しか寄与しない。プロセス400は、この分割のためのコストは最も低く、したがって、これらの構成要素は複合語の複合部分であることを決定する。分割点nのための所望の位置は6に等しい。
例えば、図1の汎用複合語分割システム100は、ドイツ語の複合語「Verkehrszeichen」(英訳:traffic sign(交通標識))を分割することを試みる。英語の複合語「flowerpot」の2つの複合部分への分割の例では、複合語は、2つの連結された、辞書にある単語から構成されていた。しかしながら、ドイツ語の複合語「Verkehrszeichen」は、2つの複合部分である辞書にある単語と、2つの部分語間の形態素又はつなぎ形態素とから構成されている。図1を参照すると、脱複合語化エンジン108は複合語を受け取る。分割器132は、プロセス400を実行し、すべての分割点を試し、コスト関数に従って最小コストを結果として生じる複合語分割を決定することができる。この例では、複合語は3つの部分に分割され、K=3となる。複合語「Verkehrszeichen」中のすべての可能な2つの分割を試すと、結果として以下の構成要素候補が生じる。

Verkehrszeichen→V+e+rkehrszeichen
Verkehrszeichen→V+er+kehrszeichen
Verkehrszeichen→V+erk+ehrszeichen
...
Verkehrszeichen→Verkehr+s+zeichen
...
Verkehrszeichen→Verkehrszeich+e+n
分割器132は、単語頻度リスト中に各々の可能な構成要素を検索し、その頻度を決定する。プロセス400は、最低のコスト(最高の確率)を有する複合語分割を決定することによって、所望の分割点を決定する。これは結果として、n=7、n=8及びn=15の分割点の位置となる所望の複合語分割を生じる。この例では、追加のs形態素は、複合部分Verkehr及びzeichenをつなぐため、つなぎ形態素である。いくつかの実施では、汎用複合語分割システム100は、すべての可能なつなぎ形態素のリスト(例えばリスト300)を含むことができる。システムは、可能なつなぎ形態素を仮定し、2つの複合部分間に挿入することができる。
例えば、図1の汎用複合語分割システム100は、ギリシア語の複合語
Figure 0005819860
(英訳:cardboard box(段ボール箱))を分割することを試みる。ドイツ語の複合語「Verkehrszeichen」を分割する例では、システム100はつなぎ形態素を2つの複合部分間に挿入した。ギリシア語の複合語の第1複合部分
Figure 0005819860
は、ギリシア語の辞書に見つけることができる。第2複合部分
Figure 0005819860
は、有効なギリシア語単語ではなく、ギリシア語の辞書に見つけることができない。
加えて、第1複合部分
Figure 0005819860
は、ギリシア語の辞書に見つけることができるが、複合部分のより一般的に見つけられる形は、
Figure 0005819860
である。図1を参照すると、汎用複合語分割システム100の脱複合語化エンジン108は、1つ又はそれ以上の形態素置換を行うことができる。特に、脱複合語化エンジン108内の変換モジュール136は、1つ又はそれ以上の複合部分の接尾辞を形態素に置換し、形態素演算gを行い、結果として変換された複合部分候補を生じることができる。脱複合語化エンジン108は、変換された複合部分候補を単語頻度リスト内で検索し、その頻度カウントを決定することができる。分割器132は、プロセス400を実行し、すべての分割点を試し、コスト関数に従って最小コストを結果として生じる複合語分割を決定することができる。この例では、複合語は2つの部分に分割される。
分割器132は、複合語
Figure 0005819860
中のすべての可能な2つの分割を試すことができ、1つ又はそれ以上の複合部分候補に種々の形態素演算gを行い、候補を辞書にない単語から辞書にある単語に変換することができる。これは結果として、以下の複合部分候補及び形態素演算gを生じる。
Figure 0005819860
言語に応じて、形態素演算gは任意に複雑になるかもしれない。加えて、言語ごとにすべての形態素操作を明示的にリスト化することは実行可能ではないかもしれない。したがって、訓練手順を使用すると、形態素演算を見つけ、追加の知識源として汎用複合語分割システムに提供することができる。
図8は、本開示の実施にしたがって使用することができるネットワークアーキテクチャ800の一例の図である。要素のすべてはネットワーク806に結合されている。図8の装置808、806、814の各々は、ハードウェア部品、ソフトウェア部品又はファームウェア部品、あるいはこれらのような部品の任意の組み合わせで実装することができ、又はこれらと関係づけることができる。例えば、装置808、806、814は、汎用のサービス、ソフトウェアプロセッサ及びエンジン、及び/又は種々の組込みシステムで実装することができ、又はこれらと関係づけることができる。
アーキテクチャ800は、1つ又はそれ以上のユーザアクセス装置808(ユーザアクセス装置808a、ユーザアクセス装置808b、ユーザアクセス装置808c)及びコンピュータシステム814を含んでいる。コンピュータシステム814は、サーバ802及びデータベース804a、804b、804c、804dを含んでいる。いくつかの実施では、アーキテクチャ800は、ネットワーク806上で互いに通信するために接続的に結合されている1つ又はそれ以上のクライアント(例えば、ユーザアクセス装置808aがクライアントとして機能することができる)及び/又は1つ又はそれ以上のサーバ(例えばサーバ802)を含む複数のコンピュータシステムをサポートするクライアント/サーバシステムを表している。いくつかの実施では、クライアントは1つ又はそれ以上のサーバに(ネットワーク806による接続なしで)直接接続されている。
ユーザアクセス装置808は、ネットワーク806からの情報を受信することができる装置を含むことができる。ユーザアクセス装置808は、汎用コンピュータ、専用コンピュータ、デスクトップコンピュータ、ラップトップコンピュータ、ハンドヘルドコンピュータ、パーソナルデジタルアシスタント(PDA:Personal Digital Assistant)、携帯電話、ネットワーク機器、カメラ、スマートフォン、拡張型汎用パケット無線サービス(EGPRS:enhanced general packet radio service)携帯電話、メディアプレイヤー、ナビゲーション装置、電子メールサービス、ゲームコンソール、あるいは、これらのデータ処理装置又は他のデータ処理装置の任意の2つ又はそれ以上の組み合わせを含むがこれらに限定されない処理装置の種々の形態を表すことができる。加えて、各々のユーザアクセス装置808は、サーバ802上のアプリケーションソフトウェアにアクセスすることができる。
サーバ802は、ウェブサーバ、アプリケーションサーバ、プロキシサーバ、ネットワークサーバ、又はサーバファームを含むがこれらに限定されない種々の形態を表すことができる。例えば、サーバ802は、ユーザアクセス装置808によってアクセスされるソフトウェアを実行するアプリケーションサーバであってもよい。動作中、複数のユーザアクセス装置808は、ネットワーク806によってサーバ802と通信することができる。いくつかの実施では、アーキテクチャ800は、ユーザが、ユーザアクセス装置802の1つの上で実行するウェブブラウザを使用してサーバ802上で利用可能なアプリケーションを呼び出すことを可能にすることができる。各々のアプリケーションは、1つ又はそれ以上のリポジトリリソース(例えば、データベース804a、804b、804c、804d)からのデータに個々にアクセスすることができる。例えば、サーバ802は、データベース804a、804b、804c、804dにアクセスすることができる。
いくつかの実施では、ユーザアクセス装置808は通信インタフェース(図示せず)を介して無線式に通信し、通信インタフェースは必要ならばデジタル信号処理回路網を含むことができる。通信インタフェースは、とりわけ、モバイル通信用グローバルシステム(GSM(登録商標):Global System for Mobile Communications)音声通話、ショートメッセージサービス(SMS:Short Message Service)、拡張メッセージサービス(EMS:Enhanced Messaging Service)又はマルチメディアメッセージサービス(MMS:Multimedia Messaging Service)メッセージング、符号分割多元接続(CDMA:Code Division Multiple Access)、時分割多元接続(TDMA:Time Division Multiple Access)、プライベートデータチャンネル(PDC:Private Data Channel)、広帯域符号分割多元接続(WCDMA:Wideband Code Division Multiple Access)、符号分割多元接続2000(CDMA2000)又は汎用パケット無線サービス(GPRS:General Packet Radio Service)のような種々のモデル又はプロトコルの下での通信を提供することができる。例えば、通信は、無線周波数送受信機(図示せず)を介して生じてもよい。加えて、ブルートゥース(Bluetooth(登録商標))(例えばIEEE 802.15x)、ワイファイ(WiFi)(例えば802.11x)又は他のこのような送受信機を使用するような近距離通信が生じてもよい。
いくつかの実施では、アーキテクチャ800は、ネットワーク806のような1つ又はそれ以上のネットワークに及ぶ分散型クライアント/サーバシステムである。ネットワーク806は、任意の数のモバイルクライアント、固定クライアント及びサーバを接続する、ローカルエリアネットワーク(LAN:local area network)、ワイドエリアネットワーク(WAN:wide area network)、インターネット、セルラネットワーク、又はそれらの組み合わせのような大規模コンピュータ・ネットワークであってもよい。いくつかの実施では、ユーザアクセス装置808の各々は、仮想プライベートネットワーク(VPN:virtual private network)、セキュアシェル(SSH:Secure Shell)トンネル、又は他のセキュアネットワーク接続を介してサーバ802と通信する。いくつかの実施では、ネットワーク806は、インターネット、無線サービスネットワークを含み、公衆電話交換網(PSTN:Public Switched Telephone Network)を含んでもよい。他の実施では、ネットワーク106は企業ネットワーク(例えばインターネット)及び1つ又はそれ以上の無線アクセスポイントを含んでいる。
ユーザアクセス装置808の各々は、サーバ802とのそれ自身のセッションを確立することができる。各々のセッションは、ある時点で確立され他の時点で破棄されるため、半永久的であることができる。各々のセッションは、コンピュータシステム814と個々のユーザアクセス装置との間の双方向情報交換を含むことができる。例えば、ハイパーテキスト転送プロトコル(HTTP:Hypertext Transfer Protocol)セッションは、個々のユーザとの情報の関連付けを可能にする。1つ又はそれ以上のユーザアクセス装置808は、ネットワーク806を介してサーバ802と通信することができる。アプリケーションを実行するために、各々のユーザアクセス装置は、アプリケーションサーバ802との対応するセッションを確立することができる。
例えば、ユーザアクセス装置808aを使用するユーザは、ネットワーク806によってサーバ802との通信セッションを確立することができる。サーバは、汎用複合語分割システム(例えば、図1で説明した汎用複合語分割システム100)を含むことができる。ユーザは、表示装置818上に表示されたグラフィカルユーザインタフェース(GUI:Graphical User Interface)で、キーボード816を使用して、翻訳する複合語を入力することができる。GUIに含まれる翻訳ボタンのユーザによる活性化に応じて、ユーザアクセス装置808aは、ネットワーク806によって複合語を計算システム814に送信する。図1を参照すると、汎用複合語分割システム100を含むサーバ802は、複合語を受信し、複合語を入力文字列モジュール122に入力する。汎用複合語分割システム100は次に、本明細書で前に説明したような入力複合語への脱複合語化及び翻訳プロセスを実行する。このプロセスを実行する間、システム100はデータベース102、104、106及び128を表すことができる1つ又はそれ以上のデータベース804a、804b、804c、804dにアクセスすることができる。システム100は、計算装置814と同様に、汎用複合語分割システムによって必要とされるような追加のデータベースを含むことができる。翻訳エンジン142は、翻訳された出力文字列144を出力する。サーバ802は、ネットワーク806によって、翻訳された出力文字列144を、表示装置818上のGUIでユーザに表示するために、ユーザアクセス装置808aに送信する。
図9は、一例の脱複合語化プロセス900のフローチャートである。汎用複合語分割システム100、特に脱複合語化エンジン108は、プロセス900を実行することができる。
例えば、図1を参照すると、プロセス900は、トークンが取得された(904)場合、開始する(902)。例えば、入力文字列モジュール122は、トークン(入力文字列126)を取得する。脱複合語化エンジン108は、トークン(入力文字列126)を受け取る。脱複合語化エンジン108は、トークンに含まれる2つ又はそれ以上の候補部分語を識別する(906)。図1を参照して説明したように、分割器132は、(図4の)プロセス400を実行し、入力トークンに関する2つ又はそれ以上の候補部分語を決定する。脱複合語化エンジン108は、1つ又はそれ以上の形態素演算を識別する。翻訳モジュール136は、脱複合語化プロセスで1つ又はそれ以上の形態素演算を使用することができる。脱複合語化エンジン108、特にコストモジュール134は、各々の部分語のコストを決定する(908)。加えて、脱複合語化エンジン108及びコストモジュール134は、各々の形態素演算のコストを決定する(910)。プロセスが終了する(912)。
いくつかの実施を説明してきた。それにもかかわらす、本開示の趣旨及び範囲から逸脱することなく種々の変更を行うことができることは理解されるであろう。例えば、上記で示した流れは、ステップを再順序付けして、ステップを追加して、又はステップを除去して使用することができる。したがって、他の実施は、以下の請求項の範囲内である。
本発明の実施形態及び本明細書に記載した機能的動作のすべては、本明細書で開示された構成及びそれらの構造的等価物を含むデジタル電子回路網で、コンピュータソフトウェア、ファームウェア又はハードウェアで、あるいはそれらの1つ又はそれ以上の組み合わせで実施することができる。本発明の実施形態は、1つ又はそれ以上のコンピュータプログラム製品として、すなわち、データ処理装置の動作によって実行又はこれを制御するためのコンピュータ読み込み可能な媒体上で符号化されているコンピュータプログラム命令の1つ又はそれ以上のモジュールとして実現することができる。コンピュータ読み込み可能な媒体は、機械可読記憶基板、メモリ装置、機械可読伝搬信号に作用する組成物、又はそれらの1つ又はそれ以上の組み合わせとすることができる。用語「データ処理装置」は、例としてプログラム可能プロセッサ、コンピュータ、あるいは、マルチプロセッサ又はプロセッサを含む、データを処理するすべての装置、デバイス及び機械を含む。装置は、ハードウェアに加えて、問題のコンピュータプログラムのための実行環境を形成するコード、例えば、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、又はそれらの1つ又はそれ以上の組み合わせを構成するコードを含むことができる。伝搬信号は、人工的に発生された信号、例えば、好適な受信装置に送信するための情報を符号化するために発生された、機械により発生された電気信号、光信号又は電磁信号である。
コンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、スクリプト、又はコードとしても知られる)は、コンパイル型言語又はインタプリタ型言語を含む任意の形式のプログラミング言語で書くことができ、独立型プログラムとして、又はモジュールとして、部品、サブルーチン又は、計算環境で使用するのに好適な他のユニットを含む、任意の形式で配置することができる。コンピュータプログラムは、ファイルシステム内のファイルに必ずしも対応しない。プログラムは、他のプログラム又はデータ(例えば、マークアップ言語ドキュメントに格納された1つ又はそれ以上のスクリプト)を保持するファイルの一部に、問題のプログラムに専用の単一のファイルに、又は、複数の協調ファイル(例えば、1つ又はそれ以上のモジュール、サブルーチン又はコードの部分を格納するファイル)に格納することができる。コンピュータプログラムは、1台のコンピュータ上で、あるいは、1つのサイトに設置されるか、分散され通信ネットワークによって相互接続された複数のサイトに渡って設置された複数のコンピュータ上で実行されるように配置することができる。
本明細書で説明されたプロセス及び論理フローは、1つ又はそれ以上のコンピュータプログラムを実行して、入力データへの演算及び出力の発生によって機能を実行する、1つ又はそれ以上のプログラム可能なプロセッサによって実行することができる。プロセス及び論理フローは、専用論理回路網、例えば、FPGA(field programmable gate array(現場プログラム可能ゲートアレイ))又はASIC(application specific integrated circuit(特定用途向け集積回路))によっても実行することができ、装置をこれらとして実装することができる。
コンピュータプログラムの実行に好適なプロセッサは、例として、汎用及び専用のマイクロプロセッサの両方と、任意の種類のデジタルコンピュータの任意の1つ又はそれ以上のプロセッサとを含む。一般に、プロセッサは、読み出し専用メモリ又はランダムアクセスメモリ、あるいはその両方から命令及びデータを受け取る。コンピュータの必須の要素は、命令を実行するプロセッサと、命令及びデータを格納する1つ又はそれ以上のメモリ装置である。一般に、コンピュータは、データを格納する1つ又はそれ以上の大容量記憶装置、例えば、磁気ディスク、光磁気ディスク、又は光ディスクも含み、あるいは、これらからデータを受け取るかこれらにデータを伝送する、又はそれらの両方を行うようにこれらに動作可能に結合される。しかしながら、コンピュータはこのような装置を有する必要はない。さらに、コンピュータは他の装置、例えば、いくらかの例を挙げると、タブレットコンピュータ、携帯電話、パーソナルデジタルアシスタント(PDA)、携帯オーディオプレイヤ、全地球測位システム(GPS:Global Positioning System)受信機、に組み込むことができる。コンピュータプログラム命令及びデータを格納するのに好適なコンピュータ読み込み可能な媒体は、例として、半導体メモリ装置、例えばEPROM、EEPROM及びフラッシュメモリ装置と、磁気ディスク、例えば内蔵ハードディスク又はリムーバブルディスクと、光磁気ディスクと、CD ROM及びDVD−ROMとを含む、すべての形式の不揮発性メモリ、媒体及びメモリ装置を含む。プロセッサ及びメモリは、専用論理回路網によって補う、又はこれに組み込むことができる。
ユーザとの対話を提供するために、本発明の実施形態は、情報をユーザに表示する表示装置、例えばCRT(cathord ray tube(陰極線管))又はLCD(liquid crystal display(液晶ディスプレイ))モニタ、と、ユーザがコンピュータに入力を提供することができるようにするキーボード及びポインティングデバイス、例えばマウス又はトラックボール、とを有するコンピュータ上で実施することができる。他の種類の装置を使用して同様にユーザとの対話を提供することができ、例えば、ユーザに与えられるフィードバックは、任意の形式の感覚フィードバック、例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック、とすることができ、ユーザからの入力は、音響、音声、又は触覚入力を含む任意の形式で受け取ることができる。
本発明の実施形態は、例えばデータサーバとしてバックエンド構成要素を含む、又は、ミドルウェア構成要素、例えばアプリケーションサーバを含む、又は、フロントエンド構成要素、例えばグラフィカルユーザインタフェースを有するクライアントコンピュータか、ユーザが本発明の実施と対話することができるようにするウェブブラウザを含む、あるいは、1つ又はそれ以上のこのようなバックエンド、ミドルウェア又はフロントエンド構成要素の任意の組み合わせを含む計算システムで実施することができる。システムの構成要素は、デジタルデータ通信の任意の形式又は媒体、例えば通信ネットワークによって、相互接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(「LAN」)及びワイドエリアネットワーク(「WAN」)、例えばインターネットを含む。
計算システムは、クライアント及びサーバを含むことができる。クライアント及びサーバは、一般には互いに離れており、代表的には通信ネットワークを通じて相互作用する。クライアントとサーバの関係は、個々のコンピュータ上で実行され、互いにクライアント−サーバ関係を有するコンピュータプログラムによって生じる。
本明細書は多くの詳細を含んでいるが、これらは本発明の又は請求することができるものの範囲への制限として解釈すべきではなく、本発明の特定の実施形態に特有の特徴の説明として解釈すべきである。個々の実施形態の文脈で本明細書に記載された特定の特徴は、単一の実施形態で組み合わせて実施することもできる。逆に、単一の実施形態の文脈で記載された種々の特徴は、複数の実施形態で別々に、又は、任意の適切な部分的組み合わせで実施することもできる。さらに、特徴が、特定の組み合わせで作用するように上記で説明され、そのように最初に請求さえされているかもしれないが、請求された組み合わせからの1つ又はそれ以上の特徴は、いくつかの場合で、組み合わせから削除することができ、請求せれた組み合わせは、部分的組み合わせ又は部分的組み合わせの変形を対象としてもよい。
同様に、動作が特定の順序で図面に示されているが、これは、所望の結果を達成するために、これらの動作が示された順序で又は順番に実行されること、あるいは、すべての例示された動作が実行されることを必要とするとして理解すべきではない。特定の状況では、マルチタスク及び並列処理が有利であるかもしれない。さらに、上述した実施形態の種々のシステム構成要素の分離は、すべての実施形態でこのような分離を必要すると理解すべきではなく、記載されたプログラム構成要素及びシステムが、一般に、単一のソフトウェア製品に一緒に統合することができ、又は複数のソフトウェア製品にパッケージ化することができることを理解すべきである。
このように、本発明の特定の実施形態が説明された。他の実施形態は、以下の請求項の範囲内にある。例えば、請求項に記載された動作は、異なった順序で実行することができ、依然として所望の結果を達成する。
100 汎用複合語分割システム
102 語彙データベース
104 語彙データベース
106 語彙データベース
108 脱複合語化エンジン
110 翻訳エンジン
112 第1コンテンツ発生器
114 第1部分的語彙リスト
114a 言語コード
114b 単語
114c 頻度カウント
114d 単語
116 データプロバイダデータベース
118 第2コンテンツ発生器
122 入力文字列モジュール
124 第2部分的語彙リスト
124a データベース項目
126 入力文字列
128 語彙データベース
130 原言語選択
132 複合語分割器
134 コストモジュール
136 変換モジュール
138a 構成要素
138b 構成要素
140 目標言語選択
142 出力文字列モジュール
144 出力文字列
300 形態素の部分的リスト
302 形態素
304 形態素
306 形態素
308 形態素
400 複合語分割プロセス
402 「for」ループ
500 語彙素例のリスト
502 語彙素
502a 頻度カウント
502b 言語コード
600 部分的リスト
602 ステマー終了形態素
604 発生器終了形態素
606 ステマー接尾辞
608 発生器接尾辞
700 テーブル
800 ネットワークアーキテクチャ
802 サーバ
804a データベース
804b データベース
804c データベース
804d データベース
806 ネットワーク
808 ユーザアクセス装置
808a ユーザアクセス装置
808b ユーザアクセス装置
808c ユーザアクセス装置
814 コンピュータシステム
816 キーボード
818 表示装置
900 脱複合語化プロセス

Claims (21)

  1. 1つ又はそれ以上のコンピュータと、
    前記1つ又はそれ以上のコンピュータに結合され、命令が格納された記憶装置と
    を備えるシステムであって、
    前記命令は、前記1つ又はそれ以上のコンピュータによって実行されると前記1つ又はそれ以上のコンピュータに、
    文字のシーケンスを含むトークンを取得する手順と、
    前記トークンの構成要素である2つ又はそれ以上の候補部分語と、前記候補部分語を前記トークンに変換するために必要な1つ又はそれ以上の形態素演算とを識別する手順であって、少なくとも1つの前記形態素演算は、前記トークンの考えられる構成要素のリストに基づいた、辞書にない単語の使用を含む、手順と、
    複合語の考えられる構成要素を出現頻度と共にリスト化した単語頻度リストに基づいて、各々の候補部分語に関係するコストを決定する手順と、
    文字列と該文字列の構成要素との間のレーベンシュタイン距離によって定まる形態素演算のコストのデータベースを使用し、前記候補部分語と前記トークンとの間のレーベンシュタイン距離に基づいて、各々の形態素演算に関係するコストを決定する手順と、
    決定したコストに基づいて、前記トークンを前記候補部分語に選択的に脱複合語化する手順と
    を実行させる、システム。
  2. 前記命令が、前記1つ又はそれ以上のコンピュータに、
    前記各々の候補部分語に関係するコストと前記各々の形態素演算に関係するコストとを結合する手順をさらに実行させる、請求項1に記載のシステム。
  3. 前記トークンを前記候補部分語に選択的に脱複合語化する手順が、前記結合されたコストに基づいて実行される、請求項2に記載のシステム。
  4. 前記コストを決定する手順が、複数のスコアリング機能の中から、前記候補部分語にコストを割り当てるカスタムスコアリング機能を選択する手順をさらに含む、請求項3に記載のシステム。
  5. 前記トークンを前記候補部分語に選択的に脱複合語化する手順が、前記結合されたコストが、前記トークンの構成要素である候補部分語のすべての識別された組み合わせに関係する最低の結合されたコストを構成する場合、前記トークンを前記候補部分語に脱複合語化する手順をさらに含む、請求項3に記載のシステム。
  6. 前記命令が、前記1つ又はそれ以上のコンピュータに、
    前記候補部分語間の分割点の量を決定する手順と、
    前記分割点の量に関係するコストを決定する手順と
    をさらに実行させる、請求項1に記載のシステム。
  7. 前記少なくとも1つの形態素演算が、
    前記辞書にない単語を2つの前記候補部分語間に挿入する演算と、
    前記トークンから前記辞書にない単語を除去する演算と、
    前記辞書にない単語を1つ又はそれ以上の前記候補部分語の接頭辞として前置する演算と、
    前記辞書にない単語を1つ又はそれ以上の前記候補部分語の接尾辞として後置する演算と、
    前記辞書にない単語を1つ又はそれ以上の前記候補部分語の挿入辞として挿入する演算と
    のうちの少なくとも1つを含む前記候補部分語の使用を含んでいる、請求項1に記載のシステム。
  8. 前記辞書にない単語がつなぎ形態素を含む、請求項1に記載のシステム。
  9. 前記辞書にない単語が、前記候補部分語の言語で定義された意味を持たない文字のサブシーケンスを含む、請求項1に記載のシステム。
  10. 文字のシーケンスを含むトークンを取得するステップと、
    前記トークンの構成要素である2つ又はそれ以上の候補部分語と、前記候補部分語を前記トークンに変換するために必要な1つ又はそれ以上の形態素演算とを識別するステップであって、少なくとも1つの前記形態素演算は、前記トークンの考えられる構成要素のリストに基づいた、辞書にない単語の使用を含む、ステップと、
    複合語の考えられる構成要素を出現頻度と共にリスト化した単語頻度リストに基づいて、各々の候補部分語に関係するコストを決定するステップと、
    文字列と該文字列の構成要素との間のレーベンシュタイン距離によって定まる形態素演算のコストのデータベースを使用し、前記候補部分語と前記トークンとの間のレーベンシュタイン距離に基づいて、各々の形態素演算に関係するコストを決定するステップと、
    決定したコストに基づいて、前記トークンを前記候補部分語に選択的に脱複合語化するステップと
    を有する、コンピュータにより実施される方法。
  11. コンピュータプログラムを格納したコンピュータ読み取り可能な記録媒体であって、
    前記コンピュータプログラムは、データ処理装置によって実行されると前記データ処理装置に、
    文字のシーケンスを含むトークンを取得する手順と、
    前記トークンの構成要素である2つ又はそれ以上の候補部分語と、前記候補部分語を前記トークンに変換するために必要な1つ又はそれ以上の形態素演算とを識別する手順であって、少なくとも1つの前記形態素演算は、前記トークンの考えられる構成要素のリストに基づいた、辞書にない単語の使用を含む、手順と、
    複合語の考えられる構成要素を出現頻度と共にリスト化した単語頻度リストに基づいて、各々の候補部分語に関係するコストを決定する手順と、
    文字列と該文字列の構成要素との間のレーベンシュタイン距離によって定まる形態素演算のコストのデータベースを使用し、前記候補部分語と前記トークンとの間のレーベンシュタイン距離に基づいて、各々の形態素演算に関係するコストを決定する手順と、
    決定したコストに基づいて、前記トークンを前記候補部分語に選択的に脱複合語化する手順と
    を実行させる、コンピュータ読み取り可能な記録媒体。
  12. 1つ又はそれ以上のコンピュータと、
    前記1つ又はそれ以上のコンピュータに結合され、命令が格納された記憶装置と
    を備えるシステムであって、
    前記命令は、前記1つ又はそれ以上のコンピュータによって実行されると前記1つ又はそれ以上のコンピュータに、
    第1語彙に現れる単語と、各々の単語が前記第1語彙に現れる頻度とを識別する手順と、
    前記第1語彙に現れる1つ又はそれ以上の単語を各々の単語に対応する頻度に基づいて構成要素として使用して、第2語彙に現れる単語を選択的に脱複合語化する手順と、
    前記第2語彙に現れる単語を脱複合語化するために構成要素として使用された前記第1語彙に現れる前記1つ又はそれ以上の単語を、汎用複合語分割器語彙として出力する手順と
    を実行させる、システム。
  13. 前記第1語彙がニュース言語モデル語彙を含む、請求項12に記載のシステム。
  14. 前記第2語彙がウェブ言語モデル語彙を含む、請求項12に記載のシステム。
  15. 前記命令が、前記1つ又はそれ以上のコンピュータに、
    前記第2語彙に現れる単語を脱複合語化するために予め決められた回数より多く構成要素として使用された前記第1語彙に現れる1つ又はそれ以上の単語を選択する手順をさらに実行させ、
    前記第2語彙に現れる単語を脱複合語化するために構成要素として使用された前記第1語彙に現れる前記1つ又はそれ以上の単語を、汎用複合語分割器語彙として出力する手順が、前記第2語彙に現れる単語を脱複合語化するために予め決められた回数より多く構成要素として使用された前記第1語彙に現れる選択された前記1つ又はそれ以上の単語を出力する手順をさらに含む、請求項12に記載のシステム。
  16. 前記命令が、前記1つ又はそれ以上のコンピュータに、
    個々の単語が前記第1語彙に現れる頻度に基づいて、前記汎用複合語分割器語彙から単語をフィルタで除去する手順をさらに実行させる、請求項12に記載のシステム。
  17. 前記汎用複合語分割器語彙が単一言語又は多言語語彙である、請求項12に記載のシステム。
  18. 前記第1語彙及び前記第2語彙が単一言語からの単語のみを含んでいる、請求項12に記載のシステム。
  19. コンピュータプログラムを格納したコンピュータ読み取り可能な記録媒体であって、
    前記コンピュータプログラムは、データ処理装置によって実行されると前記データ処理装置に、
    第1語彙に現れる単語と、各々の単語が前記第1語彙に現れる頻度とを識別する手順と、
    前記第1語彙に現れる1つ又はそれ以上の単語を各々の単語に対応する頻度に基づいて構成要素として使用して、第2語彙に現れる単語を選択的に脱複合語化する手順と、
    前記第2語彙に現れる単語を脱複合語化するために構成要素として使用された前記第1語彙に現れる前記1つ又はそれ以上の単語を、汎用複合語分割器語彙として出力する手順と
    を実行させる、コンピュータ読み取り可能な記録媒体。
  20. 第1語彙に現れる単語と、各々の単語が前記第1語彙に現れる頻度とを識別するステップと、
    前記第1語彙に現れる1つ又はそれ以上の単語を各々の単語に対応する頻度に基づいて構成要素として使用して、第2語彙に現れる単語を選択的に脱複合語化するステップと、
    前記第2語彙に現れる単語を脱複合語化するために構成要素として使用された前記第1語彙に現れる前記1つ又はそれ以上の単語を、汎用複合語分割器語彙として出力するステップと
    を有する、コンピュータにより実施される方法。
  21. コンピュータプログラムを格納したコンピュータ読み取り可能な記録媒体であって、
    前記コンピュータプログラムは、データ処理装置によって実行されると前記データ処理装置に、
    第1語彙に現れる単語と、各々の単語が前記第1語彙に現れる頻度とを識別する手順と、
    前記第1語彙に現れる1つ又はそれ以上の単語を各々の単語に対応する頻度に基づいて構成要素として使用して、第2語彙に現れる単語を選択的に脱複合語化する手順と、
    前記第2語彙に現れる単語を脱複合語化するために構成要素として使用された前記第1語彙に現れる前記1つ又はそれ以上の単語を、汎用複合語分割器語彙として出力する手順と、
    文字のシーケンスを含むトークンを取得する手順と、
    前記汎用複合語分割器語彙に現れ、且つ前記トークンの構成要素である2つ又はそれ以上の候補単語と、前記候補単語を前記トークンに変換するために必要な1つ又はそれ以上の形態素演算とを識別する手順であって、少なくとも1つの前記形態素演算は、前記トークンの考えられる構成要素のリストに基づいた、辞書にない単語の使用を含む、手順と、
    各々の候補単語に関係するコストを決定する手順であって、前記各々の候補単語に関係するコストは前記各々の候補単語が前記第1語彙に現れる頻度に対応する、手順と
    文字列と該文字列の構成要素との間のレーベンシュタイン距離によって定まる形態素演算のコストのデータベースを使用し、前記候補単語と前記トークンとの間のレーベンシュタイン距離に基づいて、各々の形態素演算に関係するコストを決定する手順と、
    決定したコストに基づいて、前記トークンを前記候補単語に選択的に脱複合語化する手順と
    を実行させる、コンピュータ読み取り可能な記録媒体。
JP2012553041A 2010-02-12 2011-02-11 複合語分割 Active JP5819860B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US30409810P 2010-02-12 2010-02-12
US61/304,098 2010-02-12
PCT/US2011/024563 WO2011100573A1 (en) 2010-02-12 2011-02-11 Compound splitting

Publications (2)

Publication Number Publication Date
JP2013519949A JP2013519949A (ja) 2013-05-30
JP5819860B2 true JP5819860B2 (ja) 2015-11-24

Family

ID=44368156

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012553041A Active JP5819860B2 (ja) 2010-02-12 2011-02-11 複合語分割

Country Status (6)

Country Link
US (1) US9075792B2 (ja)
EP (1) EP2534585A4 (ja)
JP (1) JP5819860B2 (ja)
KR (1) KR101744861B1 (ja)
CN (1) CN102859515B (ja)
WO (1) WO2011100573A1 (ja)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2534585A4 (en) * 2010-02-12 2018-01-24 Google LLC Compound splitting
US10417646B2 (en) 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
CN102479191B (zh) * 2010-11-22 2014-03-26 阿里巴巴集团控股有限公司 提供多粒度分词结果的方法及其装置
US8308379B2 (en) 2010-12-01 2012-11-13 Digitaloptics Corporation Three-pole tilt control system for camera module
US9164988B2 (en) * 2011-01-14 2015-10-20 Lionbridge Technologies, Inc. Methods and systems for the dynamic creation of a translated website
US11003838B2 (en) 2011-04-18 2021-05-11 Sdl Inc. Systems and methods for monitoring post translation editing
JP5834772B2 (ja) * 2011-10-27 2015-12-24 カシオ計算機株式会社 情報処理装置及びプログラム
US8224836B1 (en) * 2011-11-02 2012-07-17 Google Inc. Searching in multiple languages
CN103197764B (zh) * 2012-01-10 2016-08-17 联想(北京)有限公司 拼音输入法及装置
US8990066B2 (en) * 2012-01-31 2015-03-24 Microsoft Corporation Resolving out-of-vocabulary words during machine translation
US9294667B2 (en) 2012-03-10 2016-03-22 Digitaloptics Corporation MEMS auto focus miniature camera module with fixed and movable lens groups
CN103425691B (zh) 2012-05-22 2016-12-14 阿里巴巴集团控股有限公司 一种搜索方法和系统
US10261994B2 (en) * 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
US9070303B2 (en) * 2012-06-01 2015-06-30 Microsoft Technology Licensing, Llc Language learning opportunities and general search engines
US9081762B2 (en) 2012-07-13 2015-07-14 Enyuan Wu Phrase-based dictionary extraction and translation quality evaluation
US9001268B2 (en) 2012-08-10 2015-04-07 Nan Chang O-Film Optoelectronics Technology Ltd Auto-focus camera module with flexible printed circuit extension
US9007520B2 (en) 2012-08-10 2015-04-14 Nanchang O-Film Optoelectronics Technology Ltd Camera module with EMI shield
US9055207B2 (en) 2012-12-31 2015-06-09 Digitaloptics Corporation Auto-focus camera module with MEMS distance measurement
US9454240B2 (en) 2013-02-05 2016-09-27 Google Inc. Gesture keyboard input of non-dictionary character strings
US8756499B1 (en) 2013-04-29 2014-06-17 Google Inc. Gesture keyboard input of non-dictionary character strings using substitute scoring
US9460088B1 (en) * 2013-05-31 2016-10-04 Google Inc. Written-domain language modeling with decomposition
CN104239343B (zh) * 2013-06-20 2018-04-27 腾讯科技(深圳)有限公司 一种用户输入信息的处理方法和装置
CN104346325B (zh) * 2013-07-30 2017-05-10 富士通株式会社 信息处理方法和装置
CN104750687B (zh) * 2013-12-25 2018-03-20 株式会社东芝 改进双语语料库的方法及装置、机器翻译方法及装置
US9530404B2 (en) * 2014-10-06 2016-12-27 Intel Corporation System and method of automatic speech recognition using on-the-fly word lattice generation with word histories
WO2016058138A1 (en) * 2014-10-15 2016-04-21 Microsoft Technology Licensing, Llc Construction of lexicon for selected context
US10552462B1 (en) * 2014-10-28 2020-02-04 Veritas Technologies Llc Systems and methods for tokenizing user-annotated names
CN105843811B (zh) * 2015-01-13 2019-12-06 华为技术有限公司 转换文本的方法和设备
US10347240B2 (en) * 2015-02-26 2019-07-09 Nantmobile, Llc Kernel-based verbal phrase splitting devices and methods
JP6524008B2 (ja) * 2016-03-23 2019-06-05 株式会社東芝 情報処理装置、情報処理方法およびプログラム
CN105912600B (zh) * 2016-04-05 2019-08-16 上海智臻智能网络科技股份有限公司 问答知识库及其建立方法、智能问答方法和系统
WO2018074895A1 (en) * 2016-10-21 2018-04-26 Samsung Electronics Co., Ltd. Device and method for providing recommended words for character input
CN107169169B (zh) * 2017-04-20 2020-05-05 上海交通大学 软式飞机机械式操纵系统的仿真实现方法
US10528407B2 (en) * 2017-07-20 2020-01-07 Vmware, Inc. Integrated statistical log data mining for mean time auto-resolution
US10572976B2 (en) 2017-10-18 2020-02-25 International Business Machines Corporation Enhancing observation resolution using continuous learning
CN107894979B (zh) * 2017-11-21 2021-09-17 北京百度网讯科技有限公司 用于语义挖掘的复合词处理方法、装置及其设备
US10572586B2 (en) * 2018-02-27 2020-02-25 International Business Machines Corporation Technique for automatically splitting words
US11010553B2 (en) * 2018-04-18 2021-05-18 International Business Machines Corporation Recommending authors to expand personal lexicon
CN109165391A (zh) * 2018-07-27 2019-01-08 纤瑟(天津)新材料科技有限公司 一种利用偏旁部首信息的神经网络机器翻译系统及方法
CN111310452B (zh) * 2018-12-12 2024-06-18 北京汇钧科技有限公司 一种分词方法和装置
CN109871425A (zh) * 2019-02-12 2019-06-11 马三和 英文单词信息处理方法、装置及计算机可读存储介质
KR20210052958A (ko) * 2019-11-01 2021-05-11 엘지전자 주식회사 인공 지능 서버
CN112434521A (zh) * 2020-11-13 2021-03-02 北京搜狗科技发展有限公司 词汇处理方法和装置
US20230196034A1 (en) * 2021-12-21 2023-06-22 International Business Machines Corporation Automatically integrating user translation feedback
US11886826B1 (en) * 2023-03-14 2024-01-30 Openai Opco Llc Systems and methods for language model-based text insertion

Family Cites Families (69)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4328561A (en) * 1979-12-28 1982-05-04 International Business Machines Corp. Alpha content match prescan method for automatic spelling error correction
JPS6126176A (ja) * 1984-07-17 1986-02-05 Nec Corp 言語処理用辞書
US4672571A (en) * 1984-10-24 1987-06-09 International Business Machines Corporation Compound word suitability for spelling verification
US4864503A (en) * 1987-02-05 1989-09-05 Toltran, Ltd. Method of using a created international language as an intermediate pathway in translation between two national languages
US4777617A (en) * 1987-03-12 1988-10-11 International Business Machines Corporation Method for verifying spelling of compound words
US4873634A (en) * 1987-03-27 1989-10-10 International Business Machines Corporation Spelling assistance method for compound words
US5065318A (en) * 1989-04-24 1991-11-12 Sharp Kabushiki Kaisha Method of translating a sentence including a compound word formed by hyphenation using a translating apparatus
US5708829A (en) * 1991-02-01 1998-01-13 Wang Laboratories, Inc. Text indexing system
US5477451A (en) * 1991-07-25 1995-12-19 International Business Machines Corp. Method and system for natural language translation
US5625554A (en) * 1992-07-20 1997-04-29 Xerox Corporation Finite-state transduction of related word forms for text indexing and retrieval
JP2583386B2 (ja) * 1993-03-29 1997-02-19 日本電気株式会社 キーワード自動抽出装置
US6496793B1 (en) * 1993-04-21 2002-12-17 Borland Software Corporation System and methods for national language support with embedded locale-specific language driver identifiers
US6304841B1 (en) * 1993-10-28 2001-10-16 International Business Machines Corporation Automatic construction of conditional exponential models from elementary features
US5963893A (en) * 1996-06-28 1999-10-05 Microsoft Corporation Identification of words in Japanese text by a computer system
JP3272288B2 (ja) * 1997-12-24 2002-04-08 日本アイ・ビー・エム株式会社 機械翻訳装置および機械翻訳方法
US6424983B1 (en) * 1998-05-26 2002-07-23 Global Information Research And Technologies, Llc Spelling and grammar checking system
US6092036A (en) * 1998-06-02 2000-07-18 Davox Corporation Multi-lingual data processing system and system and method for translating text used in computer software utilizing an embedded translator
US6401060B1 (en) * 1998-06-25 2002-06-04 Microsoft Corporation Method for typographical detection and replacement in Japanese text
US6882970B1 (en) * 1999-10-28 2005-04-19 Canon Kabushiki Kaisha Language recognition using sequence frequency
JP2001249922A (ja) * 1999-12-28 2001-09-14 Matsushita Electric Ind Co Ltd 単語分割方式及び装置
SE519636C2 (sv) * 2000-07-06 2003-03-25 Hapax Information Systems Ab Förfarande och anordning för analys av sammansatta ord
US7516063B1 (en) * 2001-04-17 2009-04-07 Personalized Mass Media Corporation System and method for storing data using a machine readable vocabulary
US7668718B2 (en) * 2001-07-17 2010-02-23 Custom Speech Usa, Inc. Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile
JP4947861B2 (ja) * 2001-09-25 2012-06-06 キヤノン株式会社 自然言語処理装置およびその制御方法ならびにプログラム
US7610189B2 (en) * 2001-10-18 2009-10-27 Nuance Communications, Inc. Method and apparatus for efficient segmentation of compound words using probabilistic breakpoint traversal
US7634397B2 (en) * 2002-06-27 2009-12-15 Siebel Systems, Inc. Single server instance, multi-lingual applications based on loosely coupled metadata and presentation layers
US20040002849A1 (en) * 2002-06-28 2004-01-01 Ming Zhou System and method for automatic retrieval of example sentences based upon weighted editing distance
JP4001283B2 (ja) * 2003-02-12 2007-10-31 インターナショナル・ビジネス・マシーンズ・コーポレーション 形態素解析装置および自然言語処理装置
US8548794B2 (en) * 2003-07-02 2013-10-01 University Of Southern California Statistical noun phrase translation
US7711545B2 (en) * 2003-07-02 2010-05-04 Language Weaver, Inc. Empirical methods for splitting compound words with application to machine translation
US7555428B1 (en) * 2003-08-21 2009-06-30 Google Inc. System and method for identifying compounds through iterative analysis
US7447627B2 (en) 2003-10-23 2008-11-04 Microsoft Corporation Compound word breaker and spell checker
US7421386B2 (en) * 2003-10-23 2008-09-02 Microsoft Corporation Full-form lexicon with tagged data and methods of constructing and using the same
US7814101B2 (en) * 2003-10-30 2010-10-12 Microsoft Corporation Term database extension for label system
US7580827B1 (en) * 2003-12-31 2009-08-25 Google Inc. Semantic unit recognition
US8229751B2 (en) * 2004-02-26 2012-07-24 Mediaguide, Inc. Method and apparatus for automatic detection and identification of unidentified Broadcast audio or video signals
JP4754247B2 (ja) * 2004-03-31 2011-08-24 オセ−テクノロジーズ ビーブイ 複合語を構成する単語を割り出す装置及びコンピュータ化された方法
CA2577075C (en) * 2004-08-13 2014-10-07 5 Examples, Inc. The one-row keyboard and approximate typing
US8335789B2 (en) * 2004-10-01 2012-12-18 Ricoh Co., Ltd. Method and system for document fingerprint matching in a mixed media environment
US8090579B2 (en) * 2005-02-08 2012-01-03 Landmark Digital Services Automatic identification of repeated material in audio signals
US7672830B2 (en) * 2005-02-22 2010-03-02 Xerox Corporation Apparatus and methods for aligning words in bilingual sentences
JP2006243104A (ja) * 2005-03-01 2006-09-14 Canon Inc 音声合成方法
US7583205B2 (en) * 2005-07-28 2009-09-01 Research In Motion Limited Handheld electronic device with disambiguation of compound word text input
US7813918B2 (en) * 2005-08-03 2010-10-12 Language Weaver, Inc. Identifying documents which form translated pairs, within a document collection
JP5011751B2 (ja) * 2006-02-27 2012-08-29 富士通株式会社 訳語情報出力処理プログラム,処理方法および処理装置
US7991608B2 (en) * 2006-04-19 2011-08-02 Raytheon Company Multilingual data querying
WO2008043582A1 (en) * 2006-10-13 2008-04-17 International Business Machines Corporation Systems and methods for building an electronic dictionary of multi-word names and for performing fuzzy searches in said dictionary
US8086599B1 (en) * 2006-10-24 2011-12-27 Google Inc. Method and apparatus for automatically identifying compunds
US7860707B2 (en) * 2006-12-13 2010-12-28 Microsoft Corporation Compound word splitting for directory assistance services
US8468244B2 (en) * 2007-01-05 2013-06-18 Digital Doors, Inc. Digital information infrastructure and method for security designated data and with granular data stores
US8645119B2 (en) * 2007-03-26 2014-02-04 Google Inc. Minimum error rate training with a large number of features for machine learning
US20080312902A1 (en) * 2007-06-18 2008-12-18 Russell Kenneth Dollinger Interlanguage communication with verification
US8046355B2 (en) * 2007-09-04 2011-10-25 Google Inc. Word decompounder
US7983903B2 (en) * 2007-09-07 2011-07-19 Microsoft Corporation Mining bilingual dictionaries from monolingual web pages
US20090091087A1 (en) * 2007-10-03 2009-04-09 Robert Andrew Wasmund Quiz-nested quiz game and system therefore
JP5239307B2 (ja) * 2007-11-20 2013-07-17 富士ゼロックス株式会社 翻訳装置及び翻訳プログラム
JP5224851B2 (ja) * 2008-02-27 2013-07-03 インターナショナル・ビジネス・マシーンズ・コーポレーション 検索エンジン、検索システム、検索方法およびプログラム
JP5112116B2 (ja) * 2008-03-07 2013-01-09 株式会社東芝 機械翻訳する装置、方法およびプログラム
US8615388B2 (en) * 2008-03-28 2013-12-24 Microsoft Corporation Intra-language statistical machine translation
US7827187B2 (en) * 2008-04-04 2010-11-02 International Business Machines Corporation Frequency partitioning: entropy compression with fixed size fields
US8473279B2 (en) * 2008-05-30 2013-06-25 Eiman Al-Shammari Lemmatizing, stemming, and query expansion method and system
JP2010055235A (ja) * 2008-08-27 2010-03-11 Fujitsu Ltd 翻訳支援プログラム、及び該システム
CN101576876B (zh) * 2009-03-03 2011-01-05 杜小勇 一种自动拆分英文复合词组的系统和方法
US8108391B1 (en) * 2009-03-12 2012-01-31 Google Inc. Identifying non-compositional compounds
US8392441B1 (en) * 2009-08-15 2013-03-05 Google Inc. Synonym generation using online decompounding and transitivity
US8781814B2 (en) * 2009-09-15 2014-07-15 Hewlett-Packard Development Company, L.P. Method for locating line breaks in text
EP2534585A4 (en) * 2010-02-12 2018-01-24 Google LLC Compound splitting
US8612205B2 (en) * 2010-06-14 2013-12-17 Xerox Corporation Word alignment method and system for improved vocabulary coverage in statistical machine translation
US20120035905A1 (en) * 2010-08-09 2012-02-09 Xerox Corporation System and method for handling multiple languages in text

Also Published As

Publication number Publication date
CN102859515A (zh) 2013-01-02
WO2011100573A1 (en) 2011-08-18
KR20120129906A (ko) 2012-11-28
EP2534585A1 (en) 2012-12-19
US20110202330A1 (en) 2011-08-18
US9075792B2 (en) 2015-07-07
JP2013519949A (ja) 2013-05-30
KR101744861B1 (ko) 2017-06-08
CN102859515B (zh) 2016-01-13
EP2534585A4 (en) 2018-01-24

Similar Documents

Publication Publication Date Title
JP5819860B2 (ja) 複合語分割
US8745065B2 (en) Query parsing for map search
CN105917327B (zh) 用于将文本输入到电子设备中的系统和方法
US8412517B2 (en) Dictionary word and phrase determination
US8010344B2 (en) Dictionary word and phrase determination
US10803241B2 (en) System and method for text normalization in noisy channels
US20170197152A1 (en) Named entity recognition on chat data
JP2005267638A (ja) 改善されたスペルチェックのためのシステムおよび方法
KR20100105586A (ko) Cjk 성명 검출
US8793120B1 (en) Behavior-driven multilingual stemming
US10140282B2 (en) Input string matching for domain names
US10853569B2 (en) Construction of a lexicon for a selected context
KR20140068520A (ko) 자동완성 질의어 제공 시스템 및 방법
US9336317B2 (en) System and method for searching aliases associated with an entity
JP2022511139A (ja) 情報処理方法、装置および記憶媒体
JP2011076408A (ja) データ管理装置、データ管理方法、およびデータ管理プログラム
CN107220249B (zh) 基于分类的全文搜索
US20170220557A1 (en) Method, device, and computer program for providing a definition or a translation of a word belonging to a sentence as a function of neighbouring words and of databases
JP2013225200A (ja) 意味的対応付け装置及びその処理方法とプログラム
KR20180007183A (ko) 대표문자와 공백 입력을 통한 둘 이상의 단어로 구성된 문장입력방법 및 장치
Adesina et al. A query-based SMS translation in information access system
JP2016194822A (ja) サーバシステム及びそのプログラム、並びにエラーチェック方法
JP5363178B2 (ja) 修正候補取得装置、修正候補取得システム、修正候補取得方法、修正候補取得プログラム
JP5159657B2 (ja) 複数種類の読み仮名を有する漢字含み文字列の誤変換を指摘する誤変換指摘装置及びその方法
JP2011238055A (ja) 文章ファイル評価装置、文章ファイル評価方法、及びコンピュータプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140205

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140627

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140707

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140929

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20150223

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150623

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20150701

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150907

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151001

R150 Certificate of patent or registration of utility model

Ref document number: 5819860

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250