JP6077727B1

JP6077727B1 - 多言語の固有表現認識モデルの転移を行うコンピュータシステム、方法、およびプログラム

Info

Publication number: JP6077727B1
Application number: JP2016562284A
Authority: JP
Inventors: 正人萩原; アヤージリクリー
Original assignee: Rakuten Inc
Current assignee: Rakuten Group Inc
Priority date: 2016-01-28
Filing date: 2016-06-22
Publication date: 2017-02-08
Anticipated expiration: 2036-06-22
Also published as: JPWO2017130434A1

Abstract

一実施形態に係る多言語の固有表現認識システムは、注釈付きのソース言語のサンプルと、ターゲット言語のサンプルとを取得する取得部と、注釈付きのソース言語のサンプルに対して条件付き確率場の系列ラベリングを適用して注釈付きのソース言語の固有表現のそれぞれについて最適な重みを求めることで、注釈付きのソース言語の固有表現認識モデルを生成する第１生成部と、注釈付きのソース言語のサンプルとターゲット言語のサンプルとの類似度を算出する算出部と、注釈付きのソース言語の固有表現認識モデルと類似度とに基づいて、ターゲット言語の固有表現認識モデルを生成する第２生成部とを備える。

Description

本願は、多言語の固有表現認識モデルの転移を行う方法、及びその方法を行うためのコンピュータ可読プログラムに関する。

固有表現認識（ＮＥＲ）は、ここ数十年間で活発に研究されている情報抽出の一分野である。「固有表現」は、事物の特定の特性を識別するテキスト列であり、通常は単語や短いフレーズである。例えば、固有表現は人名、地名、企業名などの固有名詞である。固有表現は、しばしば、特定の物を特に組み合わせで識別する役割を果たす。例えば、「カイロ」は町の固有名である可能性があるが、その町は例えばエジプトのカイロ、イリノイ州（米国）のカイロ、又はジョージア州（米国）のカイロである可能性がある。「エジプト」、「イリノイ州」、「ジョージア州」、及び「米国」という追加の固有表現により、どの「カイロ」を意味するのかがより明確になる。

大規模なテキスト列中の固有表現を自動的に認識することには多数の実用的な用途がある。例えば、米国イリノイ州のカイロからエジプトのカイロに旅行する人の旅程は、数百又は数千の単語を含む数千文字の長さのテキスト列となる可能性がある。固有表現「米国イリノイ州のカイロ」、「エジプトのカイロ」、及びその間にある滞在地を自動的に認識すれば、コンピュータが人間の支援なしにそのテキストを旅行の日程と認識できる可能性がある。

ＮＥＲは、オンライン検索やオンラインショッピングの分野で特定の用途を有する。テキスト列中の固有表現を適切に認識することにより、検索及び処理がより高速且つ効率的になり得る。例えば、オンラインで買い物をする人が「ｓｍａｌｌｗｈｉｔｅｂｌｏｕｓｅ（小さな白いブラウス）」を検索するとする。買い物データベースのあらゆるテキスト列からそれらの語を検索することは計算の負荷が非常に大きい。検索及びデータベース項目の両方で「ｓｍａｌｌ」、「ｗｈｉｔｅ」、及び「ｂｌｏｕｓｅ」を適切に固有表現として識別すると、データベース中の全テキストを検索するのではなく固有表現だけが検索されるため、検索がより高速で効率的になる。検索語を固有表現のカテゴリ、例えば「サイズ」、「色」、及び「種類」に適切に分類することにより、さらなる向上を実現し得る。そのような分類を行うと、検索しなければならないテキスト列の数と大きさがさらに減る。そのような分類によりファセット検索も容易になる。ファセット検索では、ユーザは複数のフィルタを適用することにより検索の範囲を狭めることができる。その場合、適切に識別された固有表現は、様々なフィルタの値の役割を果たすことができる。例えば、ユーザが「ｂｌｏｕｓｅ」を検索し、その後「色」＝「ｗｈｉｔｅ」になるように結果をフィルタリングすることができる。

ＮＥＲは、通常、教師あり学習の方式で解決され、この方式では、人の手で注釈付き多量のコーパスから、順次ラベリングモデルがトレーニングされる。しかし、そのような注釈付きの豊富なデータは、英語や、中国語、アラビア語などのような、十分に検証され資源が豊富にある言語にしか存在しない。世界の中で、十分に検証されておらず資源が乏しい言語の大半に、又は任意の言語の特定の領域にＮＥＲシステムを構築することは依然として大きな課題である。ここで、「領域」は、技術の応用分野、又はその技術の使用の種類若しくは利用分野である。

この問題を解決するために、パラレルテキストを利用した注釈投影が従来から使用されている。注釈投影では、（資源が豊富な）ソース言語中の注釈付きタグを、単語の位置を合わせた２言語のパラレルテキスト（ｂｉｔｅｘｔ）を介して投影し、それを使用して（資源が少ない）ターゲット言語の順次ラベリングモデルをトレーニングする。例えば、Ｙａｒｏｗｓｋｙらの２００１（非特許文献１）、Ｄａｓ及びＰｅｔｒｏｖの２０１１（非特許文献２）、並びにＷａｎｇ及びＭａｎｎｉｎｇの２０１４（非特許文献３）を参照されたい。これらの文献は全体が参照により組み込まれる。しかし、この方式では、単語の位置合わせと投影されるタグとの一貫性が望ましい水準よりも低くなり（すなわち「ノイズが多い」）、トレーニングされたモデルが最適とは言えなくなる。また、そのようなｂｉｔｅｘｔの有用性も、特に、利用できる唯一の資源が中程度の大きさの単言語のテキストサンプルや比較用のテキストサンプル（すなわち「コーパス」）と小さな２言語辞書であることが多い、資源が少ない言語や領域では制限される。

そのような問題を克服するために、言語間でＮＥＲモデルを直接的に転移する方式が開発されており、これはトランスダクティブ（ｔｒａｎｓｄｕｃｔｉｖｅ）転移学習にも分類され、領域の適合に密接に関連する。例えば、Ｐａｎ及びＹａｎｇの２０１０（非特許文献４）を参照されたい。同文献は参照により全体が組み込まれる。直接転移方式では、近い関係にある言語、すなわちデンマーク語とスウェーデン語の間の直接の転移を使用して、構成要素となる（すなわち文法ベースの）パーサーが構築される。例えば、Ｚｅｍａｎらの２００８（非特許文献５）を参照されたい。同文献は参照により全体が組み込まれる。また、例えばＭｃＤｏｎａｌｄらの２０１１（非特許文献６。全体が参照により組み込まれる）では、語彙分析機能を持たない（すなわち特定の単語に依存しない）依存関係パーサーを英語でトレーニングしてから、そのパーサーを「再語彙化（ｌｅｘｉｃａｌｉｚｅｄ）」する。

しかし、ＮＥＲタガー（ｔａｇｇｅｒ）の転移は、構文の転移とは異なる難しい課題を呈する。過去の研究の大半は語彙分析機能を持たないパーサーを扱っているが、ＮＥＲ、ガゼティア（ｇａｚｅｔｔｅｅｒ）にとって最も重要な手がかりの一つは本質的に語彙化されており、すなわち、単に単語の種類ではなく、具体的な単語が本質的に問題となる。また、依存関係による構文解析に使用される様々な機能（汎用品詞タグや教師なしクラスタリングなど）は、ＮＥＲモデルの直接の転移に有用であるとは証明されていない。

強力な機械翻訳のベースラインについては例えばＳｈａｈらの２０１０（非特許文献７）に記載され、同文献では、ソース言語のシステム出力を単に機械翻訳でターゲット言語にする。

David Yarowsky, Grace Ngai, and Richard Wicentowski. 2001. Inducing multilingual text analysis tools via robust projection across aligned corpora. In Proceedings of the First International Conference on Human Language Technology Research, HLT '01, pages 1-8, Stroudsburg, PA, USA. Association for Computational Linguistics. Dipanjan Das and Slav Petrov. 2011. Unsupervised part-of-speech tagging with bilingual graph-based projections. In Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies, pages 600-609, Portland, Oregon, USA, June. Association for Computational Linguistics. Mengqiu Wang and Christopher D Manning. 2014. Cross-lingual projected expectation regularization for weakly supervised learning. Sinno Jialin Pan and Qiang Yang. 2010. A survey on transfer learning. IEEE Trans. on Knowl. and Data Eng., 22(10):1345-1359, October. Daniel Zeman, Univerzita Karlova, and Philip Resnik. 2008. Cross-language parser adaptation between related languages. In In IJCNLP-08 Workshop on NLP for Less Privileged Languages, pages 35-42. Ryan McDonald, Slav Petrov, and Keith Hall. 2011. Multi-source transfer of delexicalized dependency parsers. In Proceedings of the Conference on Empirical Methods in Natural Language Processing, EMNLP '11, pages 62-72, Stroudsburg, PA, USA. Association for Computational Linguistics. Rushin Shah, Bo Lin, Anatole Gershman, and Robert Frederking. 2010. Synergy: A named entity recognition system for resource-scarce languages such as swahili using online machine translation. In Proceedings of the Second Workshop on African Language Technology (AfLaT 2010), pages 21-26.

第１の言語から第２の言語に固有表現認識（ＮＥＲ）モデルを転移することは、第１の言語及び第２の言語の固有表現の種類同士の関連付けを生成するための十分に検証された固有表現データが第２の言語に不足している場合には難しい。

本願の一態様は、多言語のＮＥＲモデルを転移する方法を提供し、この方法は上述した課題を克服し、従来の強力な機械翻訳のベースラインと比べてはるかに効率的に多言語のＮＥＲモデルの転移を行う。

第１の言語から第２の言語に固有表現認識（ＮＥＲ）モデルを転移する問題を解決するために、二つの改良された手段を提示する。第１の手段は、条件付き確率場（ＣＲＦ）の系列ラベリングを複数の多言語特徴に適用し、Ｂｒｏｗｎクラスタリングマッピングの新しい技術を使用して、第１の言語で生成されたＣＲＦの特徴を第２の言語に対応付けることを利用する。第２の手段は、条件付き確率場（ＣＲＦ）の系列ラベリングを複数の多言語特徴に適用し、ガゼティア拡張の新しい技術を使用して、第１の言語で生成されたＣＲＦの特徴を第２の言語に対応付けることを利用する。Ｂｒｏｗｎクラスタリングマッピングとガゼティア拡張とを組み合わせて用いることもできる。

上記の態様を実現するために、本願は、効果的な多言語のＮＥＲモデルの転移のために、汎用品詞タグ、Ｂｒｏｗｎクラスタマッピング、位置の特徴など、語彙によらない各種の機能を含む方法を提供する。

本願の別の態様は、多言語のＮＥＲモデルを転移する方法を提供し、この方法は、ソース言語のガゼティア及び比較用コーパスからターゲット言語のガゼティアを生成するガゼティア拡張技術に関連する機能を含む。

本願のさらに別の態様は、多言語のＮＥＲモデルを転移する方法を提供し、この方法は、言語間の綴り字法の類似度に基づいて多言語のＮＥＲモデルの転移を効率的に行う。

本願の一側面によれば、効率的に多言語のＮＥＲモデルの転移を行うことができる。

本開示に係るシステムに含まれ得る特定の構成要素間の関係を説明するコンピュータシステムのブロック図である。本開示に係るＣＲＦマッピングで使用される情報要素のブロック図であり、情報入力、中間情報、及び情報出力を示す図である。本開示に係るＢｒｏｗｎクラスタリングマッピングで使用される情報要素のブロック図であり、情報入力、中間情報、及び情報出力を示す図である。本開示に係るガゼティアの拡張で使用される情報要素のブロック図であり、情報入力、中間情報、及び情報出力を示す図である。本開示に係るターゲット言語の固有表現認識モデルを生成するプロセスを示すフローチャートである。本開示に係るＢｒｏｗｎクラスタリングマッピング及び完全一致による文字列の類似度を使用してソース言語とターゲット言語との間の単語類似度の数値表現を生成するプロセスを示すフローチャートである。本開示に係るＢｒｏｗｎクラスタリングマッピング及び編集距離による文字列の類似度を使用してソース言語とターゲット言語との間の単語類似度の数値表現を生成するプロセスを示すフローチャートである。本開示に係るＢｒｏｗｎクラスタリングマッピング及び２値の同義語集合の類似度を使用してソース言語とターゲット言語との間の単語類似度の数値表現を生成するプロセスを示すフローチャートである。本開示に係るＢｒｏｗｎクラスタリングマッピング及び頻度で重み付けされた同義語集合の類似度を使用して、ソース言語とターゲット言語との間の単語類似度の数値表現を生成するプロセスを示すフローチャートである。本開示に係る、Ｂｒｏｗｎクラスタリングマッピングと、完全一致、編集距離、２値の同義語集合、及び頻度で重み付けされた同義語集合の組み合わせとを使用して、ソース言語とターゲット言語との間の単語類似度の数値表現を生成するプロセスを示すフローチャートである。本開示に係るガゼティアの拡張を使用してソース言語とターゲット言語との間の単語類似度の数値表現を生成する別のプロセスを示すフローチャートである。本開示に係るエッジ重みの概念を説明する図である。本開示の技術と従来の方法との性能を示す試験結果のグラフである。本開示に係るコンピュータシステムの機能構成を示す図である。本開示に係る多言語の固有表現認識方法を示すフローチャートである。本開示に係る多言語の固有表現認識プログラムの構成を示す図である。

開示される技術の原理及び特徴の理解を助けるために、以下で例示的な実施形態を説明する。以下で開示される技術の各種要素を構成すると説明される構成要素は例示的なものであり、制限的なものではないことを意図する。本明細書に記載される構成要素と同じ又は同様の機能を行う多数の適切な構成要素が、開示される電子装置及び方法の範囲に包含されることを意図する。そのような本明細書に記載されない他の構成要素には、例えば、開示される技術の開発後に開発される構成要素が含まれ得るが、これに限定されるわけではない。

また、本明細書及び添付の特許請求の範囲で使用される単数形の「ａ」、「ａｎ」、及び「ｔｈｅ」は、文脈がその他の意味を明確に指示しない限りは、複数形の指示対象も含むことにも留意されたい。

「〜を含む（ｃｏｍｐｒｉｓｉｎｇ又はｃｏｎｔａｉｎｉｎｇ又はｉｎｃｌｕｄｉｎｇ）」は、少なくとも言及される複合物、要素、項目、又は方法ステップがその合成物又は物品又は方法内に存在するが、他の複合物、材料、項目、方法ステップが言及されるものと同じ機能を持つ場合であっても、そのような他の複合物、材料、項目、又は方法ステップの存在を排除しないことを意味する。

また、１以上の方法ステップの言及は、追加的な方法ステップ、又は明示的に識別されるステップの間に介在する方法ステップの存在を除外しないことも理解されたい。同様に、装置又はシステムにおける１以上の構成要素の言及は、追加的な構成要素、又は明示的に識別される構成要素の間に介在する構成要素の存在を除外しないことも理解されたい。

本開示は、十分にモデル化された言語のＮＥＲモデルを、モデル化が不十分な言語又はモデル化されていない言語に直接適用する新しい手段を提供することにより、ＮＥＲを改良することを対象とする。基本的なプロセスでは、条件付き確率場（ＣＲＦ）の系列ラベリングを使用して、言語に中立的なＮＥＲモデルをソース言語で開発する。ＣＲＦモデリングは、複数の単言語特徴を入力として取り込み、各特徴の重みを最適化し、ソース言語のＮＥＲのモデルを返す。そしてＢｒｏｗｎクラスタリングマッピング及び／又はガゼティア拡張の新しい技術を使用して、そのモデルをターゲット言語に翻訳する。

次いで図を参照して、コンピューティング装置及び方法の各種実施形態を詳細に説明する。図では同様の部分を同様の参照符号で表す。図１は、統合された不動産データを生成および視覚化するのに適するコンピューティング装置１００の一例を示すブロック図である。

図１は、本開示の内容を実装するのに使用できる典型的なコンピューティング装置１００を示す。装置１００を使用して、例えば、下記で詳細に説明するように、図４に示すシステムの１以上の構成要素を実装することができる。別の例として、下記で詳細に説明するように、装置１００を使用して図２又は図３の方法を実装することができる。装置１００は記憶構成要素１０４に動作可能に接続された１以上のプロセッサ１０２を含む。記憶構成要素１０４は、記憶された実行可能命令１１６及びデータ１１８を含む。一実施形態では、プロセッサ１０２は、記憶された命令１１６を実行し記憶されたデータ１１８に従って動作することが可能なマイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ、コプロセッサなどの一つ若しくは複数、又はそれらの組み合わせを含み得る。同様に、記憶構成要素１０４は、ランダムアクセスメモリ（ＲＡＭ）や読み出し専用メモリ（ＲＯＭ）を含む揮発性又は不揮発性メモリなどの１以上の装置を含み得るが、これらに限定されるわけではない。さらに、記憶構成要素１０４は、ハードドライブ、光ディスクドライブ、フロッピー（登録商標）ディスクドライブ、フラッシュメモリなどの各種形態で実装することができる。図１に示す種類のプロセッサ及び記憶機構は当業者にはよく知られている。一実施形態では、本明細書に記載される処理技術は記憶構成要素１０４内の実行可能命令とデータの組み合わせとして実装される。

図示するように、コンピューティング装置１００は、１以上のユーザ入力装置１０６と、ディスプレイ１０８と、周辺インターフェース１１０と、他の出力装置１１２と、プロセッサ１０２と通信接続されるネットワークインターフェース１１４とを含み得る。ユーザ入力装置１０６は、プロセッサ１０２にユーザ入力を提供するための任意の機構を含み得る。例えば、ユーザ入力装置１０６は、キーボード、マウス、タッチ画面、マイクロフォン、及び適切な音声認識アプリケーション、又は装置１００のユーザがプロセッサ１０２に入力データを提供できる他の手段を含み得る。ディスプレイ１０８は、陰極線管（ＣＲＴ）、フラットパネルディスプレイ、プロジェクタ、又は当業者に知られる他の表示機構などの従来の表示機構を含み得る。一実施形態では、ディスプレイ１０８を適切な記憶命令１１６と併せて使用して、グラフィカルユーザインターフェースを実装することができる。そのようなグラフィカルユーザインターフェースの実装法は当業者にはよく知られている。周辺インターフェース１１０は、メディアドライブ（例えば磁気ディスク、ソリッドステート、光ディスクドライブ）、他の処理装置、又は本開示の技術との関連で使用される他の入力ソースなど、各種の周辺機器と通信するのに必要なハードウェア、ファームウェア、及び／又はソフトウェアを含み得る。例えば、周辺インターフェースはユニバーサルシリアルバス（ＵＳＢ）である。同様に、他の出力装置１１２は、任意で、同様のメディアドライブ機構、他の処理装置、又はスピーカ、ＬＥＤ、触覚出力など、装置１００のユーザに情報を提供することができる他の出力先を含むこともできる。最後に、ネットワークインターフェース１１４は、プロセッサ１０２が、有線ネットワーク又は無線ネットワークを介して他の装置と通信することを可能にするハードウェア、ファームウェア、及び／又はソフトウェアを含むことができ、ネットワークは、当技術分野で知られるように、ローカル又はワイドエリアであっても、私設又は公衆のネットワークであってもよい。例えば、そのようなネットワークには、当技術分野で知られるように、ＷｏｒｌｄＷｉｄｅＷｅｂすなわちインターネット、又は私設の企業内ネットワークが含まれる可能性がある。

コンピューティング装置１００を、本明細書に記載される技術を実装するための一形態として説明したが、当業者は、他の機能的に同等の技術を用いることも可能であることを認識されよう。例えば、当技術分野で知られるように、実行可能命令を介して実装される機能の一部又はすべてを、特定用途集積回路（ＡＳＩＣ）、プログラマブル論理配列、状態機械などのファームウェア及び／又はハードウェア装置を使用して実装することもできる。さらに、装置１００の他の実装は、図示するよりも多くの数又は少ない数の構成要素を含んでもよい。ここでも、当業者は、そのようにして使用することが可能な多数の変形例を認識されよう。さらに、図１には一つのコンピューティング装置１００を示すが、そのようなコンピューティング装置の組み合わせを、協働して（例えば知られるネットワーク技術を使用して）本開示の内容を実装するように構成することも可能であることが理解される。

ソース言語の固有表現認識
図２は、ＣＲＦマッピングで使用される情報要素のブロック図であり、情報入力、中間情報、及び情報出力を示す。このプロセスは、ソース言語の注釈付きのテキストサンプル２０２と、ターゲット言語のテキストサンプル２０４とにより開始する。ソース言語の注釈付きテキストサンプル２０２中の固有表現に、例えばブランド名、サイズ、色、種類などの各自の固有表現クラスをタグ付けする。ソース言語の注釈付きテキストサンプル２０２中の残りの単語はタグ付けしないか、又はそれらが固有表現でないことを示すような形でタグ付けする。

ソース言語の注釈付きテキストサンプル２０２をＣＲＦ系列トレーナ２０６に入力する。ＣＲＦ系列トレーナ２０６は、複数の単言語特徴を使用して、ソース言語の注釈付きテキストサンプル２０２に基づいてＮＥＲシステムをトレーニングする。トレーニング中に、システムは、反復的なＮＥＲモデルを生成して、ソース言語の注釈付きテキストサンプル２０２にあるタグ付けされた固有表現のそれぞれについて、クラス確率（すなわちエッジ重み）及び単語の確率（すなわち放出重み）を最適化しようとする。この種類のモデルでは、特定の単語の適正なクラスが、注釈付きサンプルの中では分かるが、分類される将来のサンプルでは分からない。本開示の分野では、単語のクラスをより一般的にその状態、カテゴリ、又はクラスタと呼ぶ場合がある。クラス確率は、遷移確率（すなわち状態間の遷移）又はエッジ重みと呼ぶこともできる。したがって、クラス確率は、系列中の次の単語が特定のクラスに属する確率である。例えば、単語ｎが衣服のサイズ（クラス=「サイズ」）である場合には、クラス確率は、次の単語又は直前の単語が別のクラス、例えば「色」や「種類」に属する確率を示すことになる。

単語確率は、特定の単語がソース言語の注釈付きテキストサンプル２０２中にその単語のクラスに基づいて出現する確率である。特定の単語は常に同じクラスに属するとは限らない。「ｓｍａｌｌ」という単語を考えたい。「ｓｍａｌｌｗｈｉｔｅｂｌｏｕｓｅ」というフレーズでは、「ｓｍａｌｌ」はクラス「サイズ」の固有表現である。しかし、「ｔｈｅｗｈｉｔｅｂｌｏｕｓｅｈａｓｓｍａｌｌｂｕｔｔｏｎｓ」というフレーズでは、「ｓｍａｌｌ」は固有表現ではなく、当該のクラスには属さない。そのため、本開示の分野では、サンプル中の単語をより一般的に観測とみなすことができる。すなわち、注釈が付いていないサンプルをタグ付けするために、単語の並びは観測することができるが、各単語のクラス（すなわちその単語の状態）は未知である。このモデルでは各単語の適正な状態を推測することを試みる。本開示の分野では、単語確率は放出確率、放出重み、又は出力確率と呼ばれる場合もある。（さらなる説明については、下記の図１２の説明を参照されたい）。ＣＲＦ系列トレーナ２０６は以下の単言語の特徴を使用する。

１．トークンの位置
単語トークンの位置２０８は、文の中で単語が固有表現であるかどうか、また固有表現である場合にはどのクラスの固有表現であるかを判定する助けとなり得る位置に、その単語があるか否かを示す。例えば、文頭又は文末にあることや、文頭又は文末から一定の距離にあることは、単語がある固有表現のクラスに属するかどうかを判定する助けとなる場合がある。これらの特徴は、あるトークン（製品の見出しや説明中にあるブランド名など）が文頭に出現する傾向があり他のトークンが文末に出現する傾向があるという観測に基づく。

２．単語形状
単語形状２１０では、単語を「普通の」テキストから目立たせる単語の特定の特徴を解析する。単語形状２１０の特徴は２値である。２値の特徴は、存在するかしないかのどちらかである。したがって、単語は特定の単語形状２１０の特徴を持つか持たないかのどちらかになる。２値の単語形状２１０の特徴は、単語が英数文字であるかどうか、大文字が使用されているかどうか、特定のパターンに基づく特徴を持つかどうか（例えば特定のパターンは製品のモデル番号を示す）である。

３．見出しの存在
見出しの存在２１２は、トークンが製品の見出し中にあるか否かを記述する別の２値の特徴である。例えば、ある単語が項目の見出しの中にある場合には、その単語は固有表現である可能性が高い。例えば、製品の見出しにある単語は、製品の説明にある単語よりもブランド名である可能性が高い。

４．近接キーワード
近接キーワード２１４は、単語の前又は後ろの一定の距離内にある。例えば、テキスト列「ｓｍａｌｌｗｈｉｔｅｂｌｏｕｓｅ」で単語「ｗｈｉｔｅ」を解析する場合は、「ｓｍａｌｌ」は「ｗｈｉｔｅ」の１単語前にあり、「ｂｌｏｕｓｅ」は１単語後ろにある。同様に、同じテキスト列で「ｂｌｏｕｓｅ」を解析する場合は、「ｓｍａｌｌ」は「ｂｌｏｕｓｅ」の２単語前にある。

固有表現の中にはしばしば特定のキーワードをその前に伴うものがある。例えば、ニュース配信の領域では、個人名はしばしばその前に「Ｄｒ．」、「Ｍｒ．」、「Ｐｒｅｓｉｄｅｎｔ」などの肩書を伴う。実施形態によっては、キーワードリストは領域に依存する場合がある。すなわち、ニュース配信における重要な近接キーワード２１４は、オンライン店舗の重要なキーワードとは異なる可能性がある。

別の実施形態では、近接キーワード２１４を近接分類に置き換えることができる。例えば、テキスト列「ｓｍａｌｌｗｈｉｔｅｂｌｏｕｓｅ」を解析する場合は、分類「サイズ」が分類「色」の前にあり、分類「種類」が「色」の後にある。実施形態によっては、このさらに一般化した技術で優れた結果を得ることができる。

５．汎用（ｕｎｉｖｅｒｓａｌ）品詞タグ
品詞（ＰＯＳ：ｐａｒｔｏｆｓｐｅｅｃｈ）は、文における単語の機能を識別する。品詞の例として名詞、動詞、形容詞、副詞などがある。特定の単語が、異なる文では異なる品詞を有する場合がある。例えば、「ｃｏｏｋ」は、英語では文によって名詞になる場合も動詞になる場合もある。同様に、ソース言語にある品詞の一部がすべてのターゲット言語には存在しない場合もある。

言語に固有の品詞タグは多くのＮＥＲシステムで広く使用されている。しかし、各言語の品詞タグセットはしばしば他の言語の品詞タグセットとの重複が限られているため、汎用品詞と呼ばれる粒度の粗い品詞タグの層が用いられる。汎用品詞タグの一実施形態は下記参考文献１（Ｐｅｔｒｏｖら２０１１）で提案され、同文献はその全体が参照により組み込まれる。汎用品詞タグ２１６は、言語に固有の品詞ではなく、「普遍的な（ｕｎｉｖｅｒｓａｌ）」品詞で単語をタグ付けする。
（参考文献１）Slav Petrov, Dipanjan Das, and Ryan McDonald. 2011. A universal part-of-speech tagset. arXiv preprint arXiv:1104.2086.

６．ガゼティア
ガゼティア２１８は、固有表現に相当する単語及び／又はフレーズのリストである。ガゼティア２１８は、固有表現の辞書、用語集、又は年鑑に似る場合がある。しかし、ＮＥＲシステムのガゼティア２１８は単なるリストとすることができる。辞書、用語集、又は年鑑の各項目にある追加的な詳細が存在してもよいが、ガゼティア２１８がＮＥＲシステムで機能するためには必要ない。一実施形態では、１以上のガゼティア２１８は、リスト中の各固有表現について１以上の分類を含み得る。ソース言語の１以上のガゼティア２１８をＣＲＦ系列ラベリング２０６に組み込むことができる。

７．Ｂｒｏｗｎクラスタリング（ＢＣ）
単語の数値表現は多くの自然言語処理作業で使用されている。単語の数値表現を使用する方法で特に一般的なのは、１９９２年にＩＢＭ（商標）のＢｒｏｗｎらによって提案された方法である（下記参考文献２（Ｂｒｏｗｎらの１９９２））。同文献は全体が参照により組み込まれる。そのため、この技術は一般にＩＢＭ（商標）クラスタリング又はＢｒｏｗｎクラスタリング２２０と呼ばれている。
（参考文献２）Peter F Brown, Peter V Desouza, Robert L Mercer, Vincent J Della Pietra, and Jenifer C Lai. 1992. Classbased n-gram models of natural language. Computational linguistics, 18(4):467-479.

Ｂｒｏｗｎクラスタリング２２０では、サンプルテキストを解析して、隣接する文字列に基づいて特定の文字列が出現する確率を予測する。Ｂｒｏｗｎクラスタリング２２０はこの解析を「ｎグラム」に基づいて行う。ｎグラムはｎ個の情報単位の集まりである。情報単位は、テキストの個々の文字、単語（スペース、タブ、カンマ、又は当業者に理解される他の手法で境界が示される）、いくつかの単語からなるフレーズ、又は、音声学的な音すなわち音節などである。同様に、Ｂｒｏｗｎクラスタリング２２０モデルは、単語の一部を切り捨てて、接頭辞若しくは接尾辞だけを解析する、又はそれらを除外することができる。すなわち、解析できるｎグラムの種類は、必要性と人間の創意工夫によってのみ制限される。しかし、最も一般的な種類のｎグラムは、音声（例えば音声認識）、テキストの文字（例えば予測型テキスト入力）、及び単語である。本開示の残りの部分では、Ｂｒｏｗｎクラスタリング２２０の例を単語に基づくｎグラムの点から説明するが、この技術はどのｎグラムにも適用できることが理解される。

その最も一般的な形態では、Ｂｒｏｗｎクラスタリング２２０はサンプルテキストを解析し、特定の単語がｎグラム中の位置「ｎ」に出現する確率を、ｎグラム中の他のｎ−１個の単語に基づいて予測する。例えば、２グラム（バイグラムとも呼ばれる）では、ｎ−１＝１であり、したがって特定のＢｒｏｗｎクラスタリング２２０モデルは、単語が出現する確率を、その単語の直前にある単語又は直後にある単語に基づいて予測する。これがＢｒｏｗｎクラスタリング２２０の最も単純な実装である。

さらに別の例で、３グラムのＢｒｏｗｎクラスタリング２２０モデルは、直前の単語と直後の単語の両方に基づいて、単語が出現する確率を予測することができる。３グラムのＢｒｏｗｎクラスタリング２２０モデルでは、同様に、前にある二つの単語と後にある二つの単語のどちらかに基づいて、単語が出現する確率を予測することもできる。

完全なモデルを生成するために、Ｂｒｏｗｎクラスタリング２２０では、ｎ−１個の単語のあらゆる可能な組み合わせに基づいて、あらゆる単語がｎグラム中の位置ｎに出現する確率を解析する。したがって、２グラムのＢｒｏｗｎクラスタリング２２０モデルでは、サンプルテキスト中の異なる単語それぞれが、サンプルテキスト中で異なる各単語（その単語自体を含む）の隣に出現する確率を予測する。サンプル中にＶ個の異なる単語がある場合は、各ｎグラムにＶ個の取り得るｎ−１の完了がある。しかし、あり得るｎグラムの多くはサンプルに出現せず、したがってゼロの予測確率を有する。そのため、各ｎグラムにＶ^２個の取り得るｎ−１の完了があるため、３グラムのＢｒｏｗｎクラスタリング２２０モデルは指数関数的に大きくなる。

サンプル中の異なる単語をクラスに分け、任意のｎグラム中のｎ−１個の単語のクラスを予測に取り込むことにより、Ｂｒｏｗｎクラスタリング２２０モデルの予測精度をさらに向上することができる。一実施形態では、そのようなクラスの一つ又は複数は、一般的な固有表現である場合も、又は特定の固有表現のクラス（例えば色やサイズなど）である場合もある。本開示の分野では、クラスは「クラスタ」と呼ばれる場合もある（したがって「Ｂｒｏｗｎクラスタリング」）。

一実施形態では、個々の単語のそれぞれは、その単語が特定のｎグラムに出現する計算確率に基づくビット列で表される。別の実施形態では、そのようなビット列に基づいて単語を分類することができる。要求される分類の粒度に基づいて、増減したビット列を使用して単語を分類することができる。その場合の粒度が、所与のクラスの特異性又は広さになる。最大の粒度又は特異性では、各単語のクラスにはその単語だけが存在する。これは最小のクラスの広さに相当する。逆に、最小の粒度では、すべての単語が一つのクラスに属する。これは最大のクラスの広さに相当する。好ましい実施形態では、単語が分類される際の粒度を様々に変えて、単言語の各特徴に最適な重みを得る。

ＣＲＦ系列ラベリング２０６が完了すると、単言語の特徴２０８〜２２０に基づいてその結果が重み付けされ、注釈付きソース言語の固有表現認識モデル２２２になる。次に、そのソース言語モデル２２２を１以上のターゲット言語に外挿しなければならない。この外挿は翻訳又はマッピングと呼ばれる場合もある。外挿は、Ｂｒｏｗｎクラスタリングマッピング３００及び／又はガゼティアの拡張４００を使用して実現される。Ｂｒｏｗｎクラスタリングマッピング３００とガゼティアの拡張４００はどちらも、ソース言語の注釈付きテキストサンプル２０２とターゲット言語のサンプルテキスト２０４を入力として取り込む。次いで、Ｂｒｏｗｎクラスタリングマッピング３００及び／又はガゼティアの拡張４００の出力を、重み付けされ注釈が付けられたソース言語の固有表現認識モデル２２２と組み合わせて、重み付けされ注釈が付けられたターゲット言語の固有表現認識モデル２２４を生成する。

Ｂｒｏｗｎクラスタリングマッピング
次いで、Ｂｒｏｗｎクラスタリングマッピング３００で使用される情報要素のブロック図であり、情報入力、中間情報、及び情報出力を示す図３を参照する。Ｂｒｏｗｎクラスタリングマッピング３００は、ソース言語とターゲット言語の語彙、ソース言語の注釈付きのテキストサンプル２０２、及びターゲット言語のサンプルテキスト２０４で開始する。次いで各語彙に別々にＢｒｏｗｎクラスタリングを行って、ソース言語サンプルのクラスタリングモデル３０２と、ターゲット言語サンプルのクラスタリングモデル３０４とを生成する。実施形態によっては、これらのモデルは、上記で説明したように確率の行列で表すことができる。次いで、各クラスタリングモデルにＢｒｏｗｎクラスタリング分類を行って、ソース言語サンプルのモデル３０６を生成し、ターゲット言語サンプルの分類済みモデル３０８を生成する。次いで、ソース言語サンプルの分類済みモデル３０６とターゲット言語サンプルの分類済みモデル３０８との間の類似度行列３１０を生成する。そしてこの類似度行列３１０をソース言語サンプルの分類済みモデル３０６及びターゲット言語サンプルの分類済みモデル３０８と組み合わせて、２言語の固有表現認識モデル３１２を生成する。

類似度行列３１０の各要素は、ソース言語サンプルの分類済みモデル３０６中の分類と、ターゲット言語サンプルの分類済みモデル３０８中の分類との間の類似度を表す数値である。要素の数値は、単語類似度関数の加重平均を最大にすることによって得られる。単語類似度関数は、特定のソース言語の分類の各単語を比較対象のターゲット言語の分類の各単語と比較する。加重平均は、ソース言語のクラス及びターゲット言語のクラスの単語の対ごとに単語類似度関数の出力を加算し、それをソース言語のクラス及びターゲット言語のクラスの単語数の積で割ることによって計算される。一実施形態では、類似度関数の加重平均を確率的に最大にする。別の実施形態では、類似度関数の加重平均を反復的に最大にする。以下にＢｒｏｗｎクラスタリングマッピング３００のプロセスを数学的に要約する。

いくつかの異なる単語類似度関数をＢｒｏｗｎクラスタリングマッピング３００で使用することができる。以下では単語類似度関数の四つの例を示すが、当業者は他の単語類似度関数も使用可能であることを理解するであろう。

１．完全一致による文字列の類似度
完全一致による文字列の類似度では、単語類似度関数は、ソース言語のクラスにある単語がターゲット言語のクラスにある単語と完全に同じである場合、すなわちテキスト列が各言語で全く同じである場合に第１の値を返す。単語が完全に同じでない場合には異なる値が返される。一般的な値は、一致する場合が「１」で一致しない場合が「０」である。この概念は数学的には次のように説明することができる。

２．編集距離による文字列の類似度
ソース言語の単語とターゲット言語の単語とが似ているが完全には同じでない場合がある。そのような状況では、編集距離による文字列の類似度がより適する場合がある。編集距離とは、第２の文字列の完全一致を作り出すために第１の文字列に加えられる変更の最小数の測定値である。変更は文字の追加、文字の削除、及び文字の入れ替えを含み得る。例えば、文字列「ｓｍｉｔｅ」を「ｓｍｉｌｅｙ」に変えるには、「ｔ」を「ｌ」に入れ替え、「ｙ」を追加することが必要となる。したがって、「ｓｍｉｔｅ」と「ｓｍｉｌｅｙ」の編集距離は２になる。例えばレーベンシュタイン（Ｌｅｖｅｎｓｈｔｅｉｎ）距離など、編集距離を生成する多くの手段が当技術分野で知られている。編集距離による文字列の類似度では、単語類似度関数は、ソース言語のクラスにある単語とターゲット言語のクラスにある単語との間の編集距離が閾値Θ未満である場合に第１の値を返す。編集距離が閾値を超える場合は異なる値が返される。一般的な値は、編集距離が閾値未満である場合が「１」、それ以外の場合が「０」である。この概念は数学的には次のように説明することができる。

３．２値の同義語集合の類似度
同義語集合は、同義の単語のリスト又はグループである。同義語集合は、単一の言語に制限してもよいし複数の言語の類義語を含んでもよい。２値の同義語集合の類似度では、ターゲット言語のクラスにある単語を、ソース言語のクラスにある単語の同義語集合、すなわちソース言語のクラスにおけるその単語の同義語のリストと比較する。２値の同義語集合の類似度では、単語類似度関数は、ターゲット言語のクラスにある単語が、ソース言語のクラスにある単語の同義語集合にある単語と完全に同じである場合に第１の値を返す。単語が完全に同じではない場合には異なる値が返される。一般的な値は、一致する場合が「１」、一致しない場合が「０」である。一実施形態では、Ｎａｖｉｇｌｉ及びＰｏｎｚｅｔｔｏの２０１２（下記参考文献３）で説明されるようにＢａｂｅｌＮｅｔ同義語集合を使用することができ、同文献はその全体が参照により組み込まれる。別の実施形態では、ＷｏｒｄＮｅｔ同義語集合を使用することができる。当業者に理解されるように、他の実施形態では他の同義語集合も使用することができる。
（参考文献３）Roberto Navigli and Simone Paolo Ponzetto. 2012. BabelNet: The automatic construction, evaluation and application of a wide-coverage multilingual semantic network. Artificial Intelligence, 193:217-250.

例えば、「ｂａｂｙｇｒａｎｄ」についての英語の同義語集合が「ｋｅｙｂｏａｒｄ」及び「ｐｉａｎｏ」を含む場合、スペイン語の「ｐｉａｎｏ」を英語の「ｂａｂｙｇｒａｎｄ」と比較すると、「ｐｉａｎｏ」は「ｂａｂｙｇｒａｎｄ」の同義語集合にあるため、一致が返される。この概念は数学的には次のように説明することができる。

４．頻度で重み付けした同義語集合の類似度
Ｂｒｏｗｎクラスタリングにおいて、それほど頻繁に出現しない単語についての予測確率は信頼性が高くない可能性がある。単語類似度関数に生成されるクラスはＢｒｏｗｎクラスタリングを使用して生成されるため、頻度で重み付けされた成分を追加することで２値の同義語集合の類似度の精度をさらに高めることが望ましい場合がある。例えば、上記の２値の同義語集合の類似度関数によって生成される２値行列を、その行列の各要素で比較される単語の一方又は両方の頻度を表す別の関数で変更することができる。例示的な一実施形態では、２値の同義語集合の類似度行列の各要素に、ソース言語の単語が出現する頻度の１０を底とする対数とターゲット言語の単語が出現する頻度の１０を底とする対数との和を乗算することができる。この概念は数学的には次のように説明することができる。

ここで、ｆ（ｗ）は所与の単語の頻度である。当業者は、頻度による他の重み付けの基準を使用できることを理解されよう。また、当業者は、出現の頻度は、当該クラス内の頻度としても、テキストサンプル全体における頻度としてもよいことを理解されよう。

ガゼティアの拡張
上記のように、ガゼティアは、固有表現に相当する単語及び／又はフレーズのリストである。ガゼティアの拡張は、グラフに基づく半教師あり学習を使用して、ソース言語のガゼティアをターゲット言語に拡張する。例えば、ソース言語（すなわち英語=Ｌ_Ｓ）のガゼティアにある文字列「ＮｅｗＹｏｒｋ」を考えると、「ＮｅｗＹｏｒｋ」をターゲット言語（例えばＬ_Ｔ=スペイン語）のガゼティアの対応する単語に対応付けることが望ましい。「ＮｅｗＹｏｒｋ」と「ＮｕｅｖａＹｏｒｋ」の間には直接の関連はないが、何らかの言語内意味類似度モデルに基づいて、「ＰｕｅｒｔｏＲｉｃｏ」（英語）が「ＮｅｗＹｏｒｋ」に類似すると推測する可能性がある。同じくスペイン語の言語内類似度モデルに基づくと、「ＮｕｅｖａＹｏｒｋ」も同様に「ＰｕｅｒｔｏＲｉｃｏ」（スペイン語）に類似する。そして、「ＰｕｅｒｔｏＲｉｃｏ」は実際には両方の言語で全く同じであるため、「ＮｅｗＹｏｒｋ」を「ＮｕｅｖａＹｏｒｋ」に対応付けることができる。ソース言語のガゼティアからターゲット言語のガゼティアへのこの間接的な見解の推測は、半教師ありのグラフ伝播（下記参考文献４（Ｚｈｕらの２００３）。参照により全体が組み込まれる）によりモデル化することができる。グラフ伝播では、グラフノードがＶ_Ｓ∪Ｖ_Ｔであり、正のラベルは、Ｌ_Ｔに拡張されるＬ_Ｓガゼティアの項目である。負のラベルは、Ｌ_Ｓにある他の異なるガゼティアの項目である。
（参考文献４）Xiaojin Zhu, Zoubin Ghahramani, and John Lafferty. 2003. Semi-supervised learning using gaussian fields and harmonic functions. In IN ICML, pages 912-919.

図４は、ガゼティアの拡張で使用される情報要素のブロック図であり、情報入力、中間情報、及び情報出力を示す。ソース言語の注釈付きテキストサンプル２０２にある各単語を、その単語の数値表現、すなわちソース言語の単語ベクトル４０２に変換する。同様に、ターゲット言語のサンプルテキスト２０４にある各単語を、その単語の数値表現、すなわちソース言語の単語ベクトル４０４に変換する。そして、すべてのソース言語の単語ベクトル４０２の間でソース言語の単語のエッジ重み４０６を生成し、すべてのターゲット言語の単語ベクトル４０４の間でターゲット言語の単語のエッジ重み４０８を生成する。次いで、ソース言語の各単語ベクトル４０２とターゲット言語の各単語ベクトル４０４の間の類似度行列４１０を生成する。最後に、類似度行列４１０、ソース言語の単語のエッジ重み４０６、及びターゲット言語の単語のエッジ重み４０８を組み合わせて、ターゲット言語のガゼティア４１２を生成する。そしてターゲット言語のガゼティア４１２を使用して２言語のＮＥＲモデル４１４を生成する。

エッジ重みは単語間の類似度を表す。当業者に理解されるように、多くの方法を使用して所与の集合内でエッジ重みを生成することができる。一実施形態では、同一言語のノードｗ_ｉとｗ_ｊとの間のエッジ重みはｅｘｐ（−σ｜｜ｗ_ｉ，ｗ_ｊ｜｜）で与えられ、ここで、ｗ_ｉは、プログラムｗｏｒｄ２ｖｅｃで算出される単語ｗ_ｉの分散ベクトル表現である。当業者に理解されるように、代わりに他のベクトル化プログラムを使用することもできる。ノードｗ_ｉ∈Ｖ_Ｓとｗ_ｊ∈Ｖ_Ｔとの間のエッジ重みは、それら二つの単語の綴りが全く同じである場合に第１の値（例えば１）と定義され、その他の場合は別の値（例えば０）と定義される。この伝播の解析的な解決法はｎ×ｎ（ｎはラベリングされていないノードの数）の行列の算出を伴うため、３つの伝播ステップ、すなわちＬ_Ｓ→Ｌ_Ｓ、Ｌ_Ｓ→Ｌ_Ｔ、及びＬ_Ｔ→Ｌ_Ｔを反復的に実行することによって近似することができる。この伝播の後、伝播された値がｆ（ｗ_ｉ）＞Θであるすべてのノードが、新しいガゼティアの項目として入力される。

以下は、本開示の一実施形態の実装と性能を説明する実験による実施例である。

１．データセット
対象とするデータセットは、製品のリスト（見出しと説明）を含む。製品の見出しは長さが約１０語で構造が整っておらず、そのため認識作業の難しさが増す。電子商取引では、従来のタグセット、すなわち人名、地名、及び組織名に対して、新しい固有表現のタグセットを導入することが必要とされている。この実験では、次の６つの新しいタグタイプ、１）色、２）ブランド名、３）サイズ、４）種類、例えばカメラやシャツ、５）素材、例えばプラスチックや木綿、及び６）モデル、すなわち製品のモデル番号（例えば「Ａ１５３３」）を導入した。この実験の残りの部分では、ソース言語は英語でありターゲット言語はスペイン語であった。使用したデータセットは、ｉ）Ｂｒｏｗｎクラスタリングのデータセット：Ｒａｋｕｔｅｎショッピング（Ｒａｋｕｔｅｎ，２０１３ａ）の英語とスペイン語のデータと、スペイン語のＷｉｋｉｐｅｄｉａからのダンプ（Ａｌ−Ｒｆｏｕ’，２０１３）、ｉｉ）トレーニングデータ：英語のＲａｋｕｔｅｎショッピングから取った１８００個の注釈付きの英語の製品、ｉｉｉ）テストデータ：ＲａｋｕｔｅｎＳｐａｉｎ（Ｒａｋｕｔｅｎ，２０１３ｂ）から取った３００個の注釈付きのスペイン語の製品、であった。

２．ベースライン
本開示の技術は新しい技術であるため、結果を比較するための強固なベースラインが必要であった。言語のペア（Ｌ_Ｓ；Ｌ_Ｔ）を考慮し、Ｍｉｃｒｏｓｏｆｔ（商標）のＢｉｎｇ（商標）ＴｒａｎｓｌａｔｅＡＰＩを使用してＬ_ＴからＬ_Ｓへの翻訳を生成した。次いで翻訳後のテキストにＬ_ＳのＮＥＲモデルを適用し、Ｂｉｎｇ（商標）Ｔｒａｎｓｌａｔｅで生成された単語の位置合わせを使用して、タグ付けされたトークンを再度Ｌ_Ｔに対応付けることによってＮＥＲの性能を評価した。

３．結果及び考察
調査した各言語で、英語にはＳｔａｎｆｏｒｄＣｏｒｅＮＬＰ（下記参考文献５（Ｍａｎｎｉｎｇらの２０１４）。全体が参照により組み込まれる）、スペイン語にはＴｒｅｅＴａｇｇｅｒ（下記参考文献６（Ｓｃｈｍｉｄの１９９４）。全体が参照により組み込まれる）を使用して、文をトークン付けし、品詞タグを割り当てた。英語単言語の場合の性能（８０：２０のトレーニング用／試験用の分割比、及び５倍の交差検証）は、最新の英語のＮＥＲシステムと比べて大幅に低かったが、これは主として、対象とした領域及び固有表現のタグセットの性質と、トレーニングデータの量が少なかったことに起因した。トレーニングデータの量が少なかったことは、単言語の結果と、ベースラインと、本提案のシステムの性能に著しい影響を与えた。本提案のシステムの性能は低かったが、タグタイプの大半ではベースライン性能を上回り、全体で約＋１３％のマイクロ平均のＦスコアの向上が得られた。「モデル」タグは最も言語に依存しないタグであるため、タグの中で最良のＦスコアをもたらす。ベースラインの性能が低いのは、主として、機械翻訳で生成された単語の位置合わせの品質が低いためであることに留意されたい。さらに他の所見には、ｉ）Ｂｒｏｗｎクラスタリング機能が主に「Ｂｒａｎｄ」タグを向上させることと、ｉｉ）ガゼティア拡張技術が、Ｇｏｏｇｌｅ（商標）で翻訳したＬ_Ｓのガゼティアを使用するのと同等の性能（．３％）を示すこととが含まれる。図１３は、本開示の技術と従来の方法の性能を示す試験結果のグラフである。
（参考文献５）Christopher D. Manning, Mihai Surdeanu, John Bauer, Jenny Finkel, Steven J. Bethard, and David McClosky. 2014. The Stanford CoreNLP natural language processing toolkit. In Proceedings of 52nd Annual Meeting of the Association for Computational Linguistics: System Demonstrations, pages 55-60.
（参考文献６）Helmut Schmid. 1994. Probabilistic part-of-speech tagging using decision trees.

図５は、ターゲット言語の固有表現認識モデルを生成するプロセス５００を示すフローチャートである。５０２で、ソース言語の注釈付きサンプルを得る。５０４で、注釈が付いていないソース言語のサンプルを得る。５０６で、ＣＲＦを使用して、ソース言語およびターゲット言語のサンプルに特徴の重みを生成する。５０８で、ソース言語とターゲット言語との間の翻訳モデルを生成する。５１０で、最終的なＮＥＲモデルを生成する。

図６は、Ｂｒｏｗｎクラスタリングマッピング及び完全一致による文字列の類似度を使用してソース言語とターゲット言語との間の単語類似度の数値表現を生成するプロセス６００を示すフローチャートである。６０２で、ソース言語の注釈付きサンプルを得る。６０４で、注釈付きのソース言語のサンプルのクラスタリングモデルを生成する。６０６で、クラスタリングモデルに基づいて、注釈付きのソース言語サンプルの分類済みモデルを生成する。６０８で、注釈が付いていないソース言語のサンプルを得る。６１０で、注釈付きのターゲット言語サンプルのクラスタリングモデルを生成する。６１２で、クラスタリングモデルに基づいて、注釈付きのターゲット言語サンプルの分類済みモデルを生成する。６１４で、完全一致による文字列の類似度を使用して、ソース言語の分類済みモデルとターゲット言語の分類済みモデルとの間の類似度の指標を生成する。

図７は、Ｂｒｏｗｎクラスタリングマッピング及び編集距離による文字列の類似度を使用して、ソース言語とターゲット言語との間の単語類似度の数値表現を生成するプロセス７００を示すフローチャートである。７０２で、ソース言語の注釈付きサンプルを得る。７０４で、注釈付きのソース言語サンプルのクラスタリングモデルを生成する。７０６で、クラスタリングモデルに基づいて、注釈付きのソース言語サンプルの分類済みモデルを生成する。７０８で、注釈が付いていないソース言語のサンプルを得る。７１０で、注釈付きのターゲット言語サンプルのクラスタリングモデルを生成する。７１２で、クラスタリングモデルに基づいて、注釈付きのターゲット言語サンプルの分類済みモデルを生成する。７１４で、編集距離による文字列の類似度を使用して、ソース言語の分類済みモデルとターゲット言語の分類済みモデルとの間の類似度の指標を生成する。

図８は、Ｂｒｏｗｎクラスタリングマッピング及び２値の同義語集合の類似度を使用して、ソース言語とターゲット言語の間の単語類似度の数値表現を生成するプロセス８００を示すフローチャートである。８０２で、ソース言語の注釈付きサンプルを生成する。８０４で、注釈付きのソース言語サンプルのクラスタリングモデルを生成する。８０６で、クラスタリングモデルに基づいて、注釈付きのソース言語サンプルの分類済みモデルを生成する。８０８で、注釈が付いていないソース言語のサンプルを得る。８１０で、注釈付きのターゲット言語サンプルのクラスタリングモデルを生成する。８１２で、クラスタリングモデルに基づいて、注釈付きのターゲット言語サンプルの分類済みモデルを生成する。８１４で、２値の同義語集合の類似度を使用して、ソース言語の分類済みモデルとターゲット言語の分類済みモデルとの間の類似度の指標を生成する。

図９は、Ｂｒｏｗｎクラスタリングマッピング及び頻度で重み付けされた同義語集合の類似度を使用して、ソース言語とターゲット言語との間の単語類似度の数値表現を生成するプロセス９００を示すフローチャートである。９０２で、ソース言語の注釈付きサンプルを得る。９０４で、注釈付きのソース言語サンプルのクラスタリングモデルを生成する。９０６で、クラスタリングモデルに基づいて、注釈付きのソース言語サンプルの分類済みモデルを生成する。９０８で、注釈が付いていないソース言語のサンプルを得る。９１０で、注釈付きのターゲット言語サンプルのクラスタリングモデルを生成する。９１２で、クラスタリングモデルに基づいて、注釈付きのターゲット言語サンプルの分類済みモデルを生成する。９１４で、頻度で重み付けされた同義語集合の類似度を使用して、ソース言語の分類済みモデルとターゲット言語の分類済みモデルとの間の類似度の指標を生成する。

図１０は、Ｂｒｏｗｎクラスタリングマッピングと、完全一致、編集距離、２値の同義語集合、及び頻度で重み付けされた同義語集合の組み合わせとを使用して、ソース言語とターゲット言語との間の単語類似度の数値表現を生成するプロセス１０００を示すフローチャートである。１００２で、ソース言語の注釈付きサンプルを得る。１００４で、注釈付きのソース言語サンプルのクラスタリングモデルを生成する。１００６で、クラスタリングモデルに基づいて、注釈付きのソース言語サンプルの分類済みモデルを生成する。１００８で、注釈が付いていないソース言語のサンプルを得る。１０１０で、注釈付きのターゲット言語サンプルのクラスタリングモデルを生成する。１０１２で、クラスタリングモデルに基づいて、注釈付きのターゲット言語サンプルの分類済みモデルを生成する。１０１４で、完全一致による文字列の類似度、編集距離による文字列の類似度、２値の同義語集合の類似度、及び頻度で重み付けされた同義語集合の類似度を使用して、ソース言語の分類済みモデルとターゲット言語の分類済みモデルとの間の類似度の指標を生成する。１０１６で、ステップ１０１４で各方法により得られた類似度の結果をクラスごとに評価する。１０１８で、クラスごとに最良の類似度の結果を選択する。

図１１は、ガゼティアの拡張を使用してソース言語とターゲット言語との間の単語類似度の数値表現を生成する別のプロセス１１００を示すフローチャートである。１１０２で、ソース言語のガゼティアを得る。１１０４で、ソース言語のガゼティアにある各単語の数値表現（例えばベクトル）を生成する。１１０６で、数値表現に基づいてソース言語のガゼティアのエッジ重みを生成する。１１０８で、ターゲット言語のガゼティアの候補単語を得る。１１１０で、候補ターゲット言語の各単語の数値表現（例えばベクトル）を生成する。１１１２で、数値表現に基づいて、各候補ターゲット言語のエッジ重みを生成する。１１１４で、ソース言語のガゼティアと候補のターゲット言語の単語との間のエッジ重みを生成する。１１１６で、前のステップで生成されたエッジ重みに基づいてターゲット言語の新しいガゼティアを生成する。

図１２は、エッジ重み及び放出重みの概念を説明する図である。３つの状態、Ａ１２０２、Ｂ１２０４、及びＣ１２０６と、４つの観測、Ｗ１２１０、Ｘ１２１２、Ｙ１２１４、及びＺ１２１６とを示す。各状態１２０２〜１２０６について、エッジ重み１２０８は、現在の状態に基づいて次の単語が状態Ａ、Ｂ、又はＣである確率を示す。また、各観測Ｗ、Ｘ、Ｙ、及びＺに対して、放出重み１２１０（図示せず）は、その観測が特定のクラスに属する確率を示す。

図１４は、上述した多言語の固有表現認識システムとして機能するコンピューティング装置１００の機能構成の一例を示す。この例では、コンピューティング装置１００は取得部１４０２、第１生成部１４０４、算出部１４０６、第２生成部１４０８、及び出力部１４１０を備える。

取得部１４０２は、注釈付きのソース言語のサンプルと、ターゲット言語のサンプルとを取得する機能要素である。取得部１４０２は所定のデータベースからこれらのサンプルを取得してもよいし、他の装置からこれらのサンプルを受信してもよい。取得部１４０２は取得した注釈付きのソース言語のサンプルを第１生成部１４０４に出力する。また、取得部１４０２は取得した注釈付きのソース言語のサンプル及びターゲット言語のサンプルを算出部１４０６に出力する。

第１生成部１４０４は、注釈付きのソース言語の固有表現認識モデルを生成する機能要素である。第１生成部１４０４は、注釈付きのソース言語のサンプルに対して条件付き確率場（ＣＲＦ）の系列ラベリングを適用して、注釈付きのソース言語の固有表現のそれぞれについて最適な重みを求める。これにより、注釈付きのソース言語の固有表現認識モデルが得られる。例えば、第１生成部１４０４は、注釈付きのソース言語の固有表現のそれぞれについてクラス確率及び単語確率を最適化することで、注釈付きのソース言語の固有表現認識モデルを生成する。第１生成部１４０４はその固有表現認識モデルを第２生成部１４０８に出力する。

算出部１４０６は、注釈付きのソース言語のサンプルとターゲット言語のサンプルとの類似度を算出する機能要素である。例えば、算出部１４０６はＢｒｏｗｎクラスタマッピング及びガゼティア拡張の少なくとも一方を用いて類似度を算出する。算出部１４０６はその類似度を第２生成部１４０８に出力する。

第２生成部１４０８は、注釈付きのソース言語の固有表現認識モデルと類似度とに基づいてターゲット言語の固有表現認識モデルを生成する機能要素である。第２生成部１４０８は、注釈付きのソース言語の固有表現認識モデルと、ターゲット言語の固有表現認識モデルとを出力部１４１０に出力する。

出力部１４１０は、生成された固有表現認識モデルを出力する機能要素である。出力部１４１０は少なくともターゲット言語の固有表現認識モデルを出力する。出力部１４１０は注釈付きのソース言語の固有表現認識モデルを出力してもよい。出力方法は限定されない。例えば、出力部１４１０はその固有表現認識モデルを所定のデータベースに格納してもよいし、他のコンピュータに送信してもよいし、モニタに表示してもよいし、プリンタに出力してもよい。

図１５は、上述した多言語の固有表現認識方法を示すフローチャートの一例である。この方法は、例えば、プロセッサを備えるコンピューティング装置１００（多言語の固有表現認識システム）により実行される。

まず、取得部１４０２が、注釈付きのソース言語のサンプルと、ターゲット言語のサンプルとを取得する（ステップ１５０２、取得ステップ）。続いて、第１生成部１４０４が、注釈付きのソース言語のサンプルに対してＣＲＦの系列ラベリングを適用して注釈付きのソース言語の固有表現のそれぞれについて最適な重みを求めることで、注釈付きのソース言語の固有表現認識モデルを生成する（ステップ１５０４、第１生成ステップ）。続いて、算出部１４０６が、注釈付きのソース言語のサンプルとターゲット言語のサンプルとの類似度を算出する（ステップ１５０６、算出ステップ）。続いて、第２生成部１４０８が、注釈付きのソース言語の固有表現認識モデルと類似度とに基づいて、ターゲット言語の固有表現認識モデルを生成する（ステップ１５０８、第２生成ステップ）。そして、出力部１４１０が少なくともターゲット言語の固有表現認識モデルを出力する（ステップ１５１０、出力ステップ）。

図１６は、上述した多言語の固有表現認識方法をコンピュータに実行させるプログラム（多言語の固有表現認識プログラム）の一例を示す図である。

プログラム１６００はメインモジュール１６０１、取得モジュール１６０２、第１生成モジュール１６０４、算出モジュール１６０６、第２生成モジュール１６０８、及び出力モジュール１６１０を含む。メインモジュール１６０１は、多言語の固有表現認識モデルの生成を統括的に実行する部分である。取得モジュール１６０２、第１生成モジュール１６０４、算出モジュール１６０６、第２生成モジュール１６０８、及び出力モジュール１６１０を実行することにより実現される機能はそれぞれ、上記の取得部１４０２、第１生成部１４０４、算出部１４０６、第２生成部１４０８、及び出力部１４１０の機能と同様である。

プログラム１６００は、例えば、ＣＤ−ＲＯＭやＤＶＤ−ＲＯＭ、半導体メモリなどの有形の記録媒体に固定的に記録された上で提供されてもよい。あるいは、プログラム１６００は、搬送波に重畳されたデータ信号として通信ネットワークを介して提供されてもよい。

以上説明したように、本願の一態様に係る多言語の固有表現認識システムは、注釈付きのソース言語のサンプルと、ターゲット言語のサンプルとを取得する取得部と、注釈付きのソース言語のサンプルに対して条件付き確率場の系列ラベリングを適用して注釈付きのソース言語の固有表現のそれぞれについて最適な重みを求めることで、注釈付きのソース言語の固有表現認識モデルを生成する第１生成部と、注釈付きのソース言語のサンプルとターゲット言語のサンプルとの類似度を算出する算出部と、注釈付きのソース言語の固有表現認識モデルと類似度とに基づいて、ターゲット言語の固有表現認識モデルを生成する第２生成部とを備える。

本願の一態様に係る多言語の固有表現認識方法は、コンピュータにより実行される多言語の固有表現認識方法であって、注釈付きのソース言語のサンプルと、ターゲット言語のサンプルとを取得する取得ステップと、注釈付きのソース言語のサンプルに対して条件付き確率場の系列ラベリングを適用して注釈付きのソース言語の固有表現のそれぞれについて最適な重みを求めることで、注釈付きのソース言語の固有表現認識モデルを生成する第１生成ステップと、注釈付きのソース言語のサンプルとターゲット言語のサンプルとの類似度を算出する算出ステップと、注釈付きのソース言語の固有表現認識モデルと類似度とに基づいて、ターゲット言語の固有表現認識モデルを生成する第２生成ステップとを含む。

本願の一態様に係る多言語の固有表現認識プログラムは、注釈付きのソース言語のサンプルと、ターゲット言語のサンプルとを取得する取得ステップと、注釈付きのソース言語のサンプルに対して条件付き確率場の系列ラベリングを適用して注釈付きのソース言語の固有表現のそれぞれについて最適な重みを求めることで、注釈付きのソース言語の固有表現認識モデルを生成する第１生成ステップと、注釈付きのソース言語のサンプルとターゲット言語のサンプルとの類似度を算出する算出ステップと、注釈付きのソース言語の固有表現認識モデルと類似度とに基づいて、ターゲット言語の固有表現認識モデルを生成する第２生成ステップとをコンピュータに実行させる。

本願の一態様に係る多言語の固有表現認識システムでは、第１生成部が、注釈付きのソース言語の固有表現のそれぞれについて、次の単語又は直前の単語が別のクラスに属する確率を示すクラス確率と、特定の単語が注釈付きのソース言語のサンプル中に該特定の単語のクラスに基づいて出現する確率である単語確率とを最適化することで、注釈付きのソース言語の固有表現認識モデルを生成してもよい。

本願の一態様に係る多言語の固有表現認識システムでは、算出部が、Ｂｒｏｗｎクラスタマッピング及びガゼティア拡張の少なくとも一方を用いて類似度を算出してもよい。

本願の一態様に係る多言語の固有表現認識システムでは、算出部が、完全一致による文字列の類似度と、編集距離による文字列の類似度と、２値の同義語集合の類似度と、頻度で重み付けした同義語集合の類似度とのうちの少なくとも一つを用いたＢｒｏｗｎクラスタマッピングにより類似度を算出してもよい。

本願に記載される設計及び機能は、例示的な性質であることを意図し、決して本開示を制限することを意図するものではない。当業者は、本開示の教示は、本明細書に開示される形態及び当業者に知られる他の形態を含む様々な適切な形態で実装可能であることを認識されよう。例えば、当業者は、実行可能命令は非一時的なコンピュータ読取り可能記憶媒体に記憶することができ、１以上のプロセッサによって実行されると、その１以上のプロセッサに上記の方法を実装させることを認識されよう。

本願で使用される場合、用語「コンポーネント」、「モジュール」、「システム」などは、これらに限定されないが、ハードウェア、ファームウェア、ハードウェアとソフトウェアの組み合わせ、ソフトウェア、又は実行中のソフトウェアなどのコンピュータに関連するエンティティを含むことを意図する。例えば、コンポーネントは、これらに限定されないが、プロセッサで実行されるプロセス、プロセッサ、オブジェクト、実行ファイル、実行のスレッド、プログラム、及び／又はコンピュータである可能性がある。例示として、コンピューティング装置で実行されるアプリケーションとそのコンピューティング装置の両方がコンポーネントである可能性がある。１以上のコンポーネントがプロセス及び／又は実行のスレッド中に存在する可能性があり、コンポーネントは、一つのコンピュータにローカルに位置する場合も、且つ／又は二つ以上のコンピュータに分散される場合もある。また、そのようなコンポーネントは、各種のデータ構造が記憶されている各種のコンピュータ読取り可能媒体から実行することができる。コンポーネントは、ローカルシステム、分散システム、及び／又はインターネットなどのネットワークを介して、別の構成要素と対話する、ある構成要素からのデータなどの１以上のデータパケットを有する信号に従うなどして、ローカルのプロセス及び／又はリモートのプロセスを介して、信号を通じて他のシステムと通信することができる。

上記では、本技術の特定の実施形態について、本開示の例示的実施形態によるコンピューティング装置並びに方法、及び／又はコンピュータプログラム製品のブロック図及び流れ図を参照して説明した。ブロック図及び流れ図の１以上のブロック、並びにブロック図及び流れ図のブロックの組み合わせはそれぞれ、コンピュータ実行可能プログラム命令で実装できることが理解されよう。同様に、ブロック図及び流れ図のブロックの一部は、本開示の実施形態によっては、必ずしも述べられる順序で行わなくてよい、又は、必ずしもそもそも行わなくてよい場合もある。

これらのコンピュータ実行可能プログラム命令は、汎用コンピュータ、特殊目的コンピュータ、プロセッサ、又は他のプログラム可能データ処理機器にロードして特定の機械を生成し、それによってそのコンピュータ、プロセッサ、又は他のプログラム可能データ処理機器で実行される命令により、流れ図の１以上のブロックに指定される１以上の機能を実装する手段を作り出すことができる。これらのコンピュータプログラム命令は、コンピュータ又は他のプログラム可能データ処理機器に特定の形で機能するように指示することができるコンピュータ読取り可能メモリに記憶することもでき、それによってコンピュータ読取り可能メモリに記憶された命令が、流れ図の１以上のブロックに指定される１以上の機能を実装する命令手段を含んだ製造品を作製することができる。

一例として、本開示の実施形態は、コンピュータ可読プログラムコードやプログラム命令が具現化された、コンピュータにより使用可能な媒体を含むコンピュータプログラム製品を提供することができ、前記コンピュータ可読プログラムコードは、実行されて、流れ図の１以上のブロックに指定される１以上の機能を実装するように構成される。コンピュータプログラム命令は、コンピュータ又は他のプログラム可能データ処理機器にロードして、一続きの動作要素又はステップをコンピュータ又は他のプログラム可能機器で行わせて、コンピュータで実装されるプロセスを生成することもでき、それによってコンピュータ又は他のプログラム可能機器で実行される命令が、流れ図の１以上のブロックに指定される１以上の機能を実装する要素又はステップを提供する。

したがって、ブロック図及び流れ図のブロックは、指定された機能を行う手段の組み合わせ、指定された機能を行う要素又はステップの組み合わせ、及び指定された機能を行うプログラム命令手段に対応することができる。ブロック図及び流れ図の各ブロック、並びにブロック図及び流れ図のブロックの組み合わせは、指定された機能、要素若しくはステップを行う汎用的なハードウェアベースのコンピュータシステム、又は特殊目的ハードウェアとコンピュータ命令の組み合わせで実装できることも理解されよう。

本開示の特定の実施形態について、現時点で最も実際的と思われる事柄と各種の実施形態に関連して説明したが、本開示はここに開示される実施形態に制限されず、その逆に、添付の特許請求の範囲に含まれる様々な変更及び均等の構成を包含することが意図されることを理解されたい。本明細書では特定の用語が用いられるが、それらは一般的且つ説明的な意味のみで使用され、限定を目的とするものではない。

この書面による説明では、例を使用して本技術の特定の実施形態を開示し、また、装置やシステムを作製及び使用し、それらに組み込まれた方法を行うことを含めて、当業者が本技術の特定の実施形態を実施できるようにする。本技術の特定の実施形態の特許性のある範囲は、特許請求の範囲に定義され、当業者に想到される他の実施例を含み得る。そのような他の実施例は、請求項の字義的な文言と異ならない構造的要素を有する場合、又は請求項の字義的な文言と実質的に異ならない均等の構造的要素を有する場合には、特許請求の範囲内にあることが意図される。

１００…コンピューティング装置、１４０２…取得部、１４０４…第１生成部、１４０６…算出部、１４０８…第２生成部、１４１０…出力部、１６００…多言語の固有表現認識プログラム、１６０１…メインモジュール、１６０２…取得モジュール、１６０４…第１生成モジュール、１６０６…算出モジュール、１６０８…第２生成モジュール、１６１０…出力モジュール。

Claims

注釈付きのソース言語のサンプルと、ターゲット言語のサンプルとを取得する取得部と、
前記注釈付きのソース言語のサンプルに対して条件付き確率場の系列ラベリングを適用して前記注釈付きのソース言語の固有表現のそれぞれについて最適な重みを求めることで、前記注釈付きのソース言語の固有表現認識モデルを生成する第１生成部と、
前記注釈付きのソース言語のサンプルと前記ターゲット言語のサンプルとの類似度を算出する算出部と、
前記注釈付きのソース言語の固有表現認識モデルと前記類似度とに基づいて、前記ターゲット言語の固有表現認識モデルを生成する第２生成部と
を備える多言語の固有表現認識システム。
前記第１生成部が、前記注釈付きのソース言語の固有表現のそれぞれについて、次の単語又は直前の単語が別のクラスに属する確率を示すクラス確率と、特定の単語が前記注釈付きのソース言語のサンプル中に該特定の単語のクラスに基づいて出現する確率である単語確率とを最適化することで、前記注釈付きのソース言語の固有表現認識モデルを生成する、
請求項１に記載の多言語の固有表現認識システム。
前記算出部が、Ｂｒｏｗｎクラスタマッピング及びガゼティア拡張の少なくとも一方を用いて前記類似度を算出する、
請求項１又は２に記載の多言語の固有表現認識システム。
前記算出部が、完全一致による文字列の類似度と、編集距離による文字列の類似度と、２値の同義語集合の類似度と、頻度で重み付けした同義語集合の類似度とのうちの少なくとも一つを用いた前記Ｂｒｏｗｎクラスタマッピングにより前記類似度を算出する、
請求項３に記載の多言語の固有表現認識システム。
コンピュータにより実行される多言語の固有表現認識方法であって、
注釈付きのソース言語のサンプルと、ターゲット言語のサンプルとを取得する取得ステップと、
前記注釈付きのソース言語のサンプルに対して条件付き確率場の系列ラベリングを適用して前記注釈付きのソース言語の固有表現のそれぞれについて最適な重みを求めることで、前記注釈付きのソース言語の固有表現認識モデルを生成する第１生成ステップと、
前記注釈付きのソース言語のサンプルと前記ターゲット言語のサンプルとの類似度を算出する算出ステップと、
前記注釈付きのソース言語の固有表現認識モデルと前記類似度とに基づいて、前記ターゲット言語の固有表現認識モデルを生成する第２生成ステップと
を含む多言語の固有表現認識方法。
注釈付きのソース言語のサンプルと、ターゲット言語のサンプルとを取得する取得ステップと、
前記注釈付きのソース言語のサンプルに対して条件付き確率場の系列ラベリングを適用して前記注釈付きのソース言語の固有表現のそれぞれについて最適な重みを求めることで、前記注釈付きのソース言語の固有表現認識モデルを生成する第１生成ステップと、
前記注釈付きのソース言語のサンプルと前記ターゲット言語のサンプルとの類似度を算出する算出ステップと、
前記注釈付きのソース言語の固有表現認識モデルと前記類似度とに基づいて、前記ターゲット言語の固有表現認識モデルを生成する第２生成ステップと
をコンピュータに実行させる多言語の固有表現認識プログラム。