JP6077727B1 - 多言語の固有表現認識モデルの転移を行うコンピュータシステム、方法、およびプログラム - Google Patents

多言語の固有表現認識モデルの転移を行うコンピュータシステム、方法、およびプログラム Download PDF

Info

Publication number
JP6077727B1
JP6077727B1 JP2016562284A JP2016562284A JP6077727B1 JP 6077727 B1 JP6077727 B1 JP 6077727B1 JP 2016562284 A JP2016562284 A JP 2016562284A JP 2016562284 A JP2016562284 A JP 2016562284A JP 6077727 B1 JP6077727 B1 JP 6077727B1
Authority
JP
Japan
Prior art keywords
source language
sample
similarity
word
annotated source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016562284A
Other languages
English (en)
Other versions
JPWO2017130434A1 (ja
Inventor
正人 萩原
正人 萩原
アヤー ジリクリー
アヤー ジリクリー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rakuten Group Inc
Original Assignee
Rakuten Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rakuten Inc filed Critical Rakuten Inc
Priority claimed from PCT/JP2016/068565 external-priority patent/WO2017130434A1/ja
Application granted granted Critical
Publication of JP6077727B1 publication Critical patent/JP6077727B1/ja
Publication of JPWO2017130434A1 publication Critical patent/JPWO2017130434A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

一実施形態に係る多言語の固有表現認識システムは、注釈付きのソース言語のサンプルと、ターゲット言語のサンプルとを取得する取得部と、注釈付きのソース言語のサンプルに対して条件付き確率場の系列ラベリングを適用して注釈付きのソース言語の固有表現のそれぞれについて最適な重みを求めることで、注釈付きのソース言語の固有表現認識モデルを生成する第1生成部と、注釈付きのソース言語のサンプルとターゲット言語のサンプルとの類似度を算出する算出部と、注釈付きのソース言語の固有表現認識モデルと類似度とに基づいて、ターゲット言語の固有表現認識モデルを生成する第2生成部とを備える。

Description

本願は、多言語の固有表現認識モデルの転移を行う方法、及びその方法を行うためのコンピュータ可読プログラムに関する。
固有表現認識(NER)は、ここ数十年間で活発に研究されている情報抽出の一分野である。「固有表現」は、事物の特定の特性を識別するテキスト列であり、通常は単語や短いフレーズである。例えば、固有表現は人名、地名、企業名などの固有名詞である。固有表現は、しばしば、特定の物を特に組み合わせで識別する役割を果たす。例えば、「カイロ」は町の固有名である可能性があるが、その町は例えばエジプトのカイロ、イリノイ州(米国)のカイロ、又はジョージア州(米国)のカイロである可能性がある。「エジプト」、「イリノイ州」、「ジョージア州」、及び「米国」という追加の固有表現により、どの「カイロ」を意味するのかがより明確になる。
大規模なテキスト列中の固有表現を自動的に認識することには多数の実用的な用途がある。例えば、米国イリノイ州のカイロからエジプトのカイロに旅行する人の旅程は、数百又は数千の単語を含む数千文字の長さのテキスト列となる可能性がある。固有表現「米国イリノイ州のカイロ」、「エジプトのカイロ」、及びその間にある滞在地を自動的に認識すれば、コンピュータが人間の支援なしにそのテキストを旅行の日程と認識できる可能性がある。
NERは、オンライン検索やオンラインショッピングの分野で特定の用途を有する。テキスト列中の固有表現を適切に認識することにより、検索及び処理がより高速且つ効率的になり得る。例えば、オンラインで買い物をする人が「small white blouse(小さな白いブラウス)」を検索するとする。買い物データベースのあらゆるテキスト列からそれらの語を検索することは計算の負荷が非常に大きい。検索及びデータベース項目の両方で「small」、「white」、及び「blouse」を適切に固有表現として識別すると、データベース中の全テキストを検索するのではなく固有表現だけが検索されるため、検索がより高速で効率的になる。検索語を固有表現のカテゴリ、例えば「サイズ」、「色」、及び「種類」に適切に分類することにより、さらなる向上を実現し得る。そのような分類を行うと、検索しなければならないテキスト列の数と大きさがさらに減る。そのような分類によりファセット検索も容易になる。ファセット検索では、ユーザは複数のフィルタを適用することにより検索の範囲を狭めることができる。その場合、適切に識別された固有表現は、様々なフィルタの値の役割を果たすことができる。例えば、ユーザが「blouse」を検索し、その後「色」=「white」になるように結果をフィルタリングすることができる。
NERは、通常、教師あり学習の方式で解決され、この方式では、人の手で注釈付き多量のコーパスから、順次ラベリングモデルがトレーニングされる。しかし、そのような注釈付きの豊富なデータは、英語や、中国語、アラビア語などのような、十分に検証され資源が豊富にある言語にしか存在しない。世界の中で、十分に検証されておらず資源が乏しい言語の大半に、又は任意の言語の特定の領域にNERシステムを構築することは依然として大きな課題である。ここで、「領域」は、技術の応用分野、又はその技術の使用の種類若しくは利用分野である。
この問題を解決するために、パラレルテキストを利用した注釈投影が従来から使用されている。注釈投影では、(資源が豊富な)ソース言語中の注釈付きタグを、単語の位置を合わせた2言語のパラレルテキスト(bitext)を介して投影し、それを使用して(資源が少ない)ターゲット言語の順次ラベリングモデルをトレーニングする。例えば、Yarowskyらの2001(非特許文献1)、Das及びPetrovの2011(非特許文献2)、並びにWang及びManningの2014(非特許文献3)を参照されたい。これらの文献は全体が参照により組み込まれる。しかし、この方式では、単語の位置合わせと投影されるタグとの一貫性が望ましい水準よりも低くなり(すなわち「ノイズが多い」)、トレーニングされたモデルが最適とは言えなくなる。また、そのようなbitextの有用性も、特に、利用できる唯一の資源が中程度の大きさの単言語のテキストサンプルや比較用のテキストサンプル(すなわち「コーパス」)と小さな2言語辞書であることが多い、資源が少ない言語や領域では制限される。
そのような問題を克服するために、言語間でNERモデルを直接的に転移する方式が開発されており、これはトランスダクティブ(transductive)転移学習にも分類され、領域の適合に密接に関連する。例えば、Pan及びYangの2010(非特許文献4)を参照されたい。同文献は参照により全体が組み込まれる。直接転移方式では、近い関係にある言語、すなわちデンマーク語とスウェーデン語の間の直接の転移を使用して、構成要素となる(すなわち文法ベースの)パーサーが構築される。例えば、Zemanらの2008(非特許文献5)を参照されたい。同文献は参照により全体が組み込まれる。また、例えばMcDonaldらの2011(非特許文献6。全体が参照により組み込まれる)では、語彙分析機能を持たない(すなわち特定の単語に依存しない)依存関係パーサーを英語でトレーニングしてから、そのパーサーを「再語彙化(lexicalized)」する。
しかし、NERタガー(tagger)の転移は、構文の転移とは異なる難しい課題を呈する。過去の研究の大半は語彙分析機能を持たないパーサーを扱っているが、NER、ガゼティア(gazetteer)にとって最も重要な手がかりの一つは本質的に語彙化されており、すなわち、単に単語の種類ではなく、具体的な単語が本質的に問題となる。また、依存関係による構文解析に使用される様々な機能(汎用品詞タグや教師なしクラスタリングなど)は、NERモデルの直接の転移に有用であるとは証明されていない。
強力な機械翻訳のベースラインについては例えばShahらの2010(非特許文献7)に記載され、同文献では、ソース言語のシステム出力を単に機械翻訳でターゲット言語にする。
David Yarowsky, Grace Ngai, and Richard Wicentowski. 2001. Inducing multilingual text analysis tools via robust projection across aligned corpora. In Proceedings of the First International Conference on Human Language Technology Research, HLT '01, pages 1-8, Stroudsburg, PA, USA. Association for Computational Linguistics. Dipanjan Das and Slav Petrov. 2011. Unsupervised part-of-speech tagging with bilingual graph-based projections. In Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies, pages 600-609, Portland, Oregon, USA, June. Association for Computational Linguistics. Mengqiu Wang and Christopher D Manning. 2014. Cross-lingual projected expectation regularization for weakly supervised learning. Sinno Jialin Pan and Qiang Yang. 2010. A survey on transfer learning. IEEE Trans. on Knowl. and Data Eng., 22(10):1345-1359, October. Daniel Zeman, Univerzita Karlova, and Philip Resnik. 2008. Cross-language parser adaptation between related languages. In In IJCNLP-08 Workshop on NLP for Less Privileged Languages, pages 35-42. Ryan McDonald, Slav Petrov, and Keith Hall. 2011. Multi-source transfer of delexicalized dependency parsers. In Proceedings of the Conference on Empirical Methods in Natural Language Processing, EMNLP '11, pages 62-72, Stroudsburg, PA, USA. Association for Computational Linguistics. Rushin Shah, Bo Lin, Anatole Gershman, and Robert Frederking. 2010. Synergy: A named entity recognition system for resource-scarce languages such as swahili using online machine translation. In Proceedings of the Second Workshop on African Language Technology (AfLaT 2010), pages 21-26.
第1の言語から第2の言語に固有表現認識(NER)モデルを転移することは、第1の言語及び第2の言語の固有表現の種類同士の関連付けを生成するための十分に検証された固有表現データが第2の言語に不足している場合には難しい。
本願の一態様は、多言語のNERモデルを転移する方法を提供し、この方法は上述した課題を克服し、従来の強力な機械翻訳のベースラインと比べてはるかに効率的に多言語のNERモデルの転移を行う。
第1の言語から第2の言語に固有表現認識(NER)モデルを転移する問題を解決するために、二つの改良された手段を提示する。第1の手段は、条件付き確率場(CRF)の系列ラベリングを複数の多言語特徴に適用し、Brownクラスタリングマッピングの新しい技術を使用して、第1の言語で生成されたCRFの特徴を第2の言語に対応付けることを利用する。第2の手段は、条件付き確率場(CRF)の系列ラベリングを複数の多言語特徴に適用し、ガゼティア拡張の新しい技術を使用して、第1の言語で生成されたCRFの特徴を第2の言語に対応付けることを利用する。Brownクラスタリングマッピングとガゼティア拡張とを組み合わせて用いることもできる。
上記の態様を実現するために、本願は、効果的な多言語のNERモデルの転移のために、汎用品詞タグ、Brownクラスタマッピング、位置の特徴など、語彙によらない各種の機能を含む方法を提供する。
本願の別の態様は、多言語のNERモデルを転移する方法を提供し、この方法は、ソース言語のガゼティア及び比較用コーパスからターゲット言語のガゼティアを生成するガゼティア拡張技術に関連する機能を含む。
本願のさらに別の態様は、多言語のNERモデルを転移する方法を提供し、この方法は、言語間の綴り字法の類似度に基づいて多言語のNERモデルの転移を効率的に行う。
本願の一側面によれば、効率的に多言語のNERモデルの転移を行うことができる。
本開示に係るシステムに含まれ得る特定の構成要素間の関係を説明するコンピュータシステムのブロック図である。 本開示に係るCRFマッピングで使用される情報要素のブロック図であり、情報入力、中間情報、及び情報出力を示す図である。 本開示に係るBrownクラスタリングマッピングで使用される情報要素のブロック図であり、情報入力、中間情報、及び情報出力を示す図である。 本開示に係るガゼティアの拡張で使用される情報要素のブロック図であり、情報入力、中間情報、及び情報出力を示す図である。 本開示に係るターゲット言語の固有表現認識モデルを生成するプロセスを示すフローチャートである。 本開示に係るBrownクラスタリングマッピング及び完全一致による文字列の類似度を使用してソース言語とターゲット言語との間の単語類似度の数値表現を生成するプロセスを示すフローチャートである。 本開示に係るBrownクラスタリングマッピング及び編集距離による文字列の類似度を使用してソース言語とターゲット言語との間の単語類似度の数値表現を生成するプロセスを示すフローチャートである。 本開示に係るBrownクラスタリングマッピング及び2値の同義語集合の類似度を使用してソース言語とターゲット言語との間の単語類似度の数値表現を生成するプロセスを示すフローチャートである。 本開示に係るBrownクラスタリングマッピング及び頻度で重み付けされた同義語集合の類似度を使用して、ソース言語とターゲット言語との間の単語類似度の数値表現を生成するプロセスを示すフローチャートである。 本開示に係る、Brownクラスタリングマッピングと、完全一致、編集距離、2値の同義語集合、及び頻度で重み付けされた同義語集合の組み合わせとを使用して、ソース言語とターゲット言語との間の単語類似度の数値表現を生成するプロセスを示すフローチャートである。 本開示に係るガゼティアの拡張を使用してソース言語とターゲット言語との間の単語類似度の数値表現を生成する別のプロセスを示すフローチャートである。 本開示に係るエッジ重みの概念を説明する図である。 本開示の技術と従来の方法との性能を示す試験結果のグラフである。 本開示に係るコンピュータシステムの機能構成を示す図である。 本開示に係る多言語の固有表現認識方法を示すフローチャートである。 本開示に係る多言語の固有表現認識プログラムの構成を示す図である。
開示される技術の原理及び特徴の理解を助けるために、以下で例示的な実施形態を説明する。以下で開示される技術の各種要素を構成すると説明される構成要素は例示的なものであり、制限的なものではないことを意図する。本明細書に記載される構成要素と同じ又は同様の機能を行う多数の適切な構成要素が、開示される電子装置及び方法の範囲に包含されることを意図する。そのような本明細書に記載されない他の構成要素には、例えば、開示される技術の開発後に開発される構成要素が含まれ得るが、これに限定されるわけではない。
また、本明細書及び添付の特許請求の範囲で使用される単数形の「a」、「an」、及び「the」は、文脈がその他の意味を明確に指示しない限りは、複数形の指示対象も含むことにも留意されたい。
「〜を含む(comprising又はcontaining又はincluding)」は、少なくとも言及される複合物、要素、項目、又は方法ステップがその合成物又は物品又は方法内に存在するが、他の複合物、材料、項目、方法ステップが言及されるものと同じ機能を持つ場合であっても、そのような他の複合物、材料、項目、又は方法ステップの存在を排除しないことを意味する。
また、1以上の方法ステップの言及は、追加的な方法ステップ、又は明示的に識別されるステップの間に介在する方法ステップの存在を除外しないことも理解されたい。同様に、装置又はシステムにおける1以上の構成要素の言及は、追加的な構成要素、又は明示的に識別される構成要素の間に介在する構成要素の存在を除外しないことも理解されたい。
本開示は、十分にモデル化された言語のNERモデルを、モデル化が不十分な言語又はモデル化されていない言語に直接適用する新しい手段を提供することにより、NERを改良することを対象とする。基本的なプロセスでは、条件付き確率場(CRF)の系列ラベリングを使用して、言語に中立的なNERモデルをソース言語で開発する。CRFモデリングは、複数の単言語特徴を入力として取り込み、各特徴の重みを最適化し、ソース言語のNERのモデルを返す。そしてBrownクラスタリングマッピング及び/又はガゼティア拡張の新しい技術を使用して、そのモデルをターゲット言語に翻訳する。
次いで図を参照して、コンピューティング装置及び方法の各種実施形態を詳細に説明する。図では同様の部分を同様の参照符号で表す。図1は、統合された不動産データを生成および視覚化するのに適するコンピューティング装置100の一例を示すブロック図である。
図1は、本開示の内容を実装するのに使用できる典型的なコンピューティング装置100を示す。装置100を使用して、例えば、下記で詳細に説明するように、図4に示すシステムの1以上の構成要素を実装することができる。別の例として、下記で詳細に説明するように、装置100を使用して図2又は図3の方法を実装することができる。装置100は記憶構成要素104に動作可能に接続された1以上のプロセッサ102を含む。記憶構成要素104は、記憶された実行可能命令116及びデータ118を含む。一実施形態では、プロセッサ102は、記憶された命令116を実行し記憶されたデータ118に従って動作することが可能なマイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ、コプロセッサなどの一つ若しくは複数、又はそれらの組み合わせを含み得る。同様に、記憶構成要素104は、ランダムアクセスメモリ(RAM)や読み出し専用メモリ(ROM)を含む揮発性又は不揮発性メモリなどの1以上の装置を含み得るが、これらに限定されるわけではない。さらに、記憶構成要素104は、ハードドライブ、光ディスクドライブ、フロッピー(登録商標)ディスクドライブ、フラッシュメモリなどの各種形態で実装することができる。図1に示す種類のプロセッサ及び記憶機構は当業者にはよく知られている。一実施形態では、本明細書に記載される処理技術は記憶構成要素104内の実行可能命令とデータの組み合わせとして実装される。
図示するように、コンピューティング装置100は、1以上のユーザ入力装置106と、ディスプレイ108と、周辺インターフェース110と、他の出力装置112と、プロセッサ102と通信接続されるネットワークインターフェース114とを含み得る。ユーザ入力装置106は、プロセッサ102にユーザ入力を提供するための任意の機構を含み得る。例えば、ユーザ入力装置106は、キーボード、マウス、タッチ画面、マイクロフォン、及び適切な音声認識アプリケーション、又は装置100のユーザがプロセッサ102に入力データを提供できる他の手段を含み得る。ディスプレイ108は、陰極線管(CRT)、フラットパネルディスプレイ、プロジェクタ、又は当業者に知られる他の表示機構などの従来の表示機構を含み得る。一実施形態では、ディスプレイ108を適切な記憶命令116と併せて使用して、グラフィカルユーザインターフェースを実装することができる。そのようなグラフィカルユーザインターフェースの実装法は当業者にはよく知られている。周辺インターフェース110は、メディアドライブ(例えば磁気ディスク、ソリッドステート、光ディスクドライブ)、他の処理装置、又は本開示の技術との関連で使用される他の入力ソースなど、各種の周辺機器と通信するのに必要なハードウェア、ファームウェア、及び/又はソフトウェアを含み得る。例えば、周辺インターフェースはユニバーサルシリアルバス(USB)である。同様に、他の出力装置112は、任意で、同様のメディアドライブ機構、他の処理装置、又はスピーカ、LED、触覚出力など、装置100のユーザに情報を提供することができる他の出力先を含むこともできる。最後に、ネットワークインターフェース114は、プロセッサ102が、有線ネットワーク又は無線ネットワークを介して他の装置と通信することを可能にするハードウェア、ファームウェア、及び/又はソフトウェアを含むことができ、ネットワークは、当技術分野で知られるように、ローカル又はワイドエリアであっても、私設又は公衆のネットワークであってもよい。例えば、そのようなネットワークには、当技術分野で知られるように、World Wide Webすなわちインターネット、又は私設の企業内ネットワークが含まれる可能性がある。
コンピューティング装置100を、本明細書に記載される技術を実装するための一形態として説明したが、当業者は、他の機能的に同等の技術を用いることも可能であることを認識されよう。例えば、当技術分野で知られるように、実行可能命令を介して実装される機能の一部又はすべてを、特定用途集積回路(ASIC)、プログラマブル論理配列、状態機械などのファームウェア及び/又はハードウェア装置を使用して実装することもできる。さらに、装置100の他の実装は、図示するよりも多くの数又は少ない数の構成要素を含んでもよい。ここでも、当業者は、そのようにして使用することが可能な多数の変形例を認識されよう。さらに、図1には一つのコンピューティング装置100を示すが、そのようなコンピューティング装置の組み合わせを、協働して(例えば知られるネットワーク技術を使用して)本開示の内容を実装するように構成することも可能であることが理解される。
ソース言語の固有表現認識
図2は、CRFマッピングで使用される情報要素のブロック図であり、情報入力、中間情報、及び情報出力を示す。このプロセスは、ソース言語の注釈付きのテキストサンプル202と、ターゲット言語のテキストサンプル204とにより開始する。ソース言語の注釈付きテキストサンプル202中の固有表現に、例えばブランド名、サイズ、色、種類などの各自の固有表現クラスをタグ付けする。ソース言語の注釈付きテキストサンプル202中の残りの単語はタグ付けしないか、又はそれらが固有表現でないことを示すような形でタグ付けする。
ソース言語の注釈付きテキストサンプル202をCRF系列トレーナ206に入力する。CRF系列トレーナ206は、複数の単言語特徴を使用して、ソース言語の注釈付きテキストサンプル202に基づいてNERシステムをトレーニングする。トレーニング中に、システムは、反復的なNERモデルを生成して、ソース言語の注釈付きテキストサンプル202にあるタグ付けされた固有表現のそれぞれについて、クラス確率(すなわちエッジ重み)及び単語の確率(すなわち放出重み)を最適化しようとする。この種類のモデルでは、特定の単語の適正なクラスが、注釈付きサンプルの中では分かるが、分類される将来のサンプルでは分からない。本開示の分野では、単語のクラスをより一般的にその状態、カテゴリ、又はクラスタと呼ぶ場合がある。クラス確率は、遷移確率(すなわち状態間の遷移)又はエッジ重みと呼ぶこともできる。したがって、クラス確率は、系列中の次の単語が特定のクラスに属する確率である。例えば、単語nが衣服のサイズ(クラス=「サイズ」)である場合には、クラス確率は、次の単語又は直前の単語が別のクラス、例えば「色」や「種類」に属する確率を示すことになる。
単語確率は、特定の単語がソース言語の注釈付きテキストサンプル202中にその単語のクラスに基づいて出現する確率である。特定の単語は常に同じクラスに属するとは限らない。「small」という単語を考えたい。「small white blouse」というフレーズでは、「small」はクラス「サイズ」の固有表現である。しかし、「the white blouse has small buttons」というフレーズでは、「small」は固有表現ではなく、当該のクラスには属さない。そのため、本開示の分野では、サンプル中の単語をより一般的に観測とみなすことができる。すなわち、注釈が付いていないサンプルをタグ付けするために、単語の並びは観測することができるが、各単語のクラス(すなわちその単語の状態)は未知である。このモデルでは各単語の適正な状態を推測することを試みる。本開示の分野では、単語確率は放出確率、放出重み、又は出力確率と呼ばれる場合もある。(さらなる説明については、下記の図12の説明を参照されたい)。CRF系列トレーナ206は以下の単言語の特徴を使用する。
1.トークンの位置
単語トークンの位置208は、文の中で単語が固有表現であるかどうか、また固有表現である場合にはどのクラスの固有表現であるかを判定する助けとなり得る位置に、その単語があるか否かを示す。例えば、文頭又は文末にあることや、文頭又は文末から一定の距離にあることは、単語がある固有表現のクラスに属するかどうかを判定する助けとなる場合がある。これらの特徴は、あるトークン(製品の見出しや説明中にあるブランド名など)が文頭に出現する傾向があり他のトークンが文末に出現する傾向があるという観測に基づく。
2.単語形状
単語形状210では、単語を「普通の」テキストから目立たせる単語の特定の特徴を解析する。単語形状210の特徴は2値である。2値の特徴は、存在するかしないかのどちらかである。したがって、単語は特定の単語形状210の特徴を持つか持たないかのどちらかになる。2値の単語形状210の特徴は、単語が英数文字であるかどうか、大文字が使用されているかどうか、特定のパターンに基づく特徴を持つかどうか(例えば特定のパターンは製品のモデル番号を示す)である。
3.見出しの存在
見出しの存在212は、トークンが製品の見出し中にあるか否かを記述する別の2値の特徴である。例えば、ある単語が項目の見出しの中にある場合には、その単語は固有表現である可能性が高い。例えば、製品の見出しにある単語は、製品の説明にある単語よりもブランド名である可能性が高い。
4.近接キーワード
近接キーワード214は、単語の前又は後ろの一定の距離内にある。例えば、テキスト列「small white blouse」で単語「white」を解析する場合は、「small」は「white」の1単語前にあり、「blouse」は1単語後ろにある。同様に、同じテキスト列で「blouse」を解析する場合は、「small」は「blouse」の2単語前にある。
固有表現の中にはしばしば特定のキーワードをその前に伴うものがある。例えば、ニュース配信の領域では、個人名はしばしばその前に「Dr.」、「Mr.」、「President」などの肩書を伴う。実施形態によっては、キーワードリストは領域に依存する場合がある。すなわち、ニュース配信における重要な近接キーワード214は、オンライン店舗の重要なキーワードとは異なる可能性がある。
別の実施形態では、近接キーワード214を近接分類に置き換えることができる。例えば、テキスト列「small white blouse」を解析する場合は、分類「サイズ」が分類「色」の前にあり、分類「種類」が「色」の後にある。実施形態によっては、このさらに一般化した技術で優れた結果を得ることができる。
5.汎用(universal)品詞タグ
品詞(POS:part of speech)は、文における単語の機能を識別する。品詞の例として名詞、動詞、形容詞、副詞などがある。特定の単語が、異なる文では異なる品詞を有する場合がある。例えば、「cook」は、英語では文によって名詞になる場合も動詞になる場合もある。同様に、ソース言語にある品詞の一部がすべてのターゲット言語には存在しない場合もある。
言語に固有の品詞タグは多くのNERシステムで広く使用されている。しかし、各言語の品詞タグセットはしばしば他の言語の品詞タグセットとの重複が限られているため、汎用品詞と呼ばれる粒度の粗い品詞タグの層が用いられる。汎用品詞タグの一実施形態は下記参考文献1(Petrovら2011)で提案され、同文献はその全体が参照により組み込まれる。汎用品詞タグ216は、言語に固有の品詞ではなく、「普遍的な(universal)」品詞で単語をタグ付けする。
(参考文献1)Slav Petrov, Dipanjan Das, and Ryan McDonald. 2011. A universal part-of-speech tagset. arXiv preprint arXiv:1104.2086.
6.ガゼティア
ガゼティア218は、固有表現に相当する単語及び/又はフレーズのリストである。ガゼティア218は、固有表現の辞書、用語集、又は年鑑に似る場合がある。しかし、NERシステムのガゼティア218は単なるリストとすることができる。辞書、用語集、又は年鑑の各項目にある追加的な詳細が存在してもよいが、ガゼティア218がNERシステムで機能するためには必要ない。一実施形態では、1以上のガゼティア218は、リスト中の各固有表現について1以上の分類を含み得る。ソース言語の1以上のガゼティア218をCRF系列ラベリング206に組み込むことができる。
7.Brownクラスタリング(BC)
単語の数値表現は多くの自然言語処理作業で使用されている。単語の数値表現を使用する方法で特に一般的なのは、1992年にIBM(商標)のBrownらによって提案された方法である(下記参考文献2(Brownらの1992))。同文献は全体が参照により組み込まれる。そのため、この技術は一般にIBM(商標)クラスタリング又はBrownクラスタリング220と呼ばれている。
(参考文献2)Peter F Brown, Peter V Desouza, Robert L Mercer, Vincent J Della Pietra, and Jenifer C Lai. 1992. Classbased n-gram models of natural language. Computational linguistics, 18(4):467-479.
Brownクラスタリング220では、サンプルテキストを解析して、隣接する文字列に基づいて特定の文字列が出現する確率を予測する。Brownクラスタリング220はこの解析を「nグラム」に基づいて行う。nグラムはn個の情報単位の集まりである。情報単位は、テキストの個々の文字、単語(スペース、タブ、カンマ、又は当業者に理解される他の手法で境界が示される)、いくつかの単語からなるフレーズ、又は、音声学的な音すなわち音節などである。同様に、Brownクラスタリング220モデルは、単語の一部を切り捨てて、接頭辞若しくは接尾辞だけを解析する、又はそれらを除外することができる。すなわち、解析できるnグラムの種類は、必要性と人間の創意工夫によってのみ制限される。しかし、最も一般的な種類のnグラムは、音声(例えば音声認識)、テキストの文字(例えば予測型テキスト入力)、及び単語である。本開示の残りの部分では、Brownクラスタリング220の例を単語に基づくnグラムの点から説明するが、この技術はどのnグラムにも適用できることが理解される。
その最も一般的な形態では、Brownクラスタリング220はサンプルテキストを解析し、特定の単語がnグラム中の位置「n」に出現する確率を、nグラム中の他のn−1個の単語に基づいて予測する。例えば、2グラム(バイグラムとも呼ばれる)では、n−1=1であり、したがって特定のBrownクラスタリング220モデルは、単語が出現する確率を、その単語の直前にある単語又は直後にある単語に基づいて予測する。これがBrownクラスタリング220の最も単純な実装である。
さらに別の例で、3グラムのBrownクラスタリング220モデルは、直前の単語と直後の単語の両方に基づいて、単語が出現する確率を予測することができる。3グラムのBrownクラスタリング220モデルでは、同様に、前にある二つの単語と後にある二つの単語のどちらかに基づいて、単語が出現する確率を予測することもできる。
完全なモデルを生成するために、Brownクラスタリング220では、n−1個の単語のあらゆる可能な組み合わせに基づいて、あらゆる単語がnグラム中の位置nに出現する確率を解析する。したがって、2グラムのBrownクラスタリング220モデルでは、サンプルテキスト中の異なる単語それぞれが、サンプルテキスト中で異なる各単語(その単語自体を含む)の隣に出現する確率を予測する。サンプル中にV個の異なる単語がある場合は、各nグラムにV個の取り得るn−1の完了がある。しかし、あり得るnグラムの多くはサンプルに出現せず、したがってゼロの予測確率を有する。そのため、各nグラムにV個の取り得るn−1の完了があるため、3グラムのBrownクラスタリング220モデルは指数関数的に大きくなる。
サンプル中の異なる単語をクラスに分け、任意のnグラム中のn−1個の単語のクラスを予測に取り込むことにより、Brownクラスタリング220モデルの予測精度をさらに向上することができる。一実施形態では、そのようなクラスの一つ又は複数は、一般的な固有表現である場合も、又は特定の固有表現のクラス(例えば色やサイズなど)である場合もある。本開示の分野では、クラスは「クラスタ」と呼ばれる場合もある(したがって「Brownクラスタリング」)。
一実施形態では、個々の単語のそれぞれは、その単語が特定のnグラムに出現する計算確率に基づくビット列で表される。別の実施形態では、そのようなビット列に基づいて単語を分類することができる。要求される分類の粒度に基づいて、増減したビット列を使用して単語を分類することができる。その場合の粒度が、所与のクラスの特異性又は広さになる。最大の粒度又は特異性では、各単語のクラスにはその単語だけが存在する。これは最小のクラスの広さに相当する。逆に、最小の粒度では、すべての単語が一つのクラスに属する。これは最大のクラスの広さに相当する。好ましい実施形態では、単語が分類される際の粒度を様々に変えて、単言語の各特徴に最適な重みを得る。
CRF系列ラベリング206が完了すると、単言語の特徴208〜220に基づいてその結果が重み付けされ、注釈付きソース言語の固有表現認識モデル222になる。次に、そのソース言語モデル222を1以上のターゲット言語に外挿しなければならない。この外挿は翻訳又はマッピングと呼ばれる場合もある。外挿は、Brownクラスタリングマッピング300及び/又はガゼティアの拡張400を使用して実現される。Brownクラスタリングマッピング300とガゼティアの拡張400はどちらも、ソース言語の注釈付きテキストサンプル202とターゲット言語のサンプルテキスト204を入力として取り込む。次いで、Brownクラスタリングマッピング300及び/又はガゼティアの拡張400の出力を、重み付けされ注釈が付けられたソース言語の固有表現認識モデル222と組み合わせて、重み付けされ注釈が付けられたターゲット言語の固有表現認識モデル224を生成する。
Brownクラスタリングマッピング
次いで、Brownクラスタリングマッピング300で使用される情報要素のブロック図であり、情報入力、中間情報、及び情報出力を示す図3を参照する。Brownクラスタリングマッピング300は、ソース言語とターゲット言語の語彙、ソース言語の注釈付きのテキストサンプル202、及びターゲット言語のサンプルテキスト204で開始する。次いで各語彙に別々にBrownクラスタリングを行って、ソース言語サンプルのクラスタリングモデル302と、ターゲット言語サンプルのクラスタリングモデル304とを生成する。実施形態によっては、これらのモデルは、上記で説明したように確率の行列で表すことができる。次いで、各クラスタリングモデルにBrownクラスタリング分類を行って、ソース言語サンプルのモデル306を生成し、ターゲット言語サンプルの分類済みモデル308を生成する。次いで、ソース言語サンプルの分類済みモデル306とターゲット言語サンプルの分類済みモデル308との間の類似度行列310を生成する。そしてこの類似度行列310をソース言語サンプルの分類済みモデル306及びターゲット言語サンプルの分類済みモデル308と組み合わせて、2言語の固有表現認識モデル312を生成する。
類似度行列310の各要素は、ソース言語サンプルの分類済みモデル306中の分類と、ターゲット言語サンプルの分類済みモデル308中の分類との間の類似度を表す数値である。要素の数値は、単語類似度関数の加重平均を最大にすることによって得られる。単語類似度関数は、特定のソース言語の分類の各単語を比較対象のターゲット言語の分類の各単語と比較する。加重平均は、ソース言語のクラス及びターゲット言語のクラスの単語の対ごとに単語類似度関数の出力を加算し、それをソース言語のクラス及びターゲット言語のクラスの単語数の積で割ることによって計算される。一実施形態では、類似度関数の加重平均を確率的に最大にする。別の実施形態では、類似度関数の加重平均を反復的に最大にする。以下にBrownクラスタリングマッピング300のプロセスを数学的に要約する。
いくつかの異なる単語類似度関数をBrownクラスタリングマッピング300で使用することができる。以下では単語類似度関数の四つの例を示すが、当業者は他の単語類似度関数も使用可能であることを理解するであろう。
1.完全一致による文字列の類似度
完全一致による文字列の類似度では、単語類似度関数は、ソース言語のクラスにある単語がターゲット言語のクラスにある単語と完全に同じである場合、すなわちテキスト列が各言語で全く同じである場合に第1の値を返す。単語が完全に同じでない場合には異なる値が返される。一般的な値は、一致する場合が「1」で一致しない場合が「0」である。この概念は数学的には次のように説明することができる。
2.編集距離による文字列の類似度
ソース言語の単語とターゲット言語の単語とが似ているが完全には同じでない場合がある。そのような状況では、編集距離による文字列の類似度がより適する場合がある。編集距離とは、第2の文字列の完全一致を作り出すために第1の文字列に加えられる変更の最小数の測定値である。変更は文字の追加、文字の削除、及び文字の入れ替えを含み得る。例えば、文字列「smite」を「smiley」に変えるには、「t」を「l」に入れ替え、「y」を追加することが必要となる。したがって、「smite」と「smiley」の編集距離は2になる。例えばレーベンシュタイン(Levenshtein)距離など、編集距離を生成する多くの手段が当技術分野で知られている。編集距離による文字列の類似度では、単語類似度関数は、ソース言語のクラスにある単語とターゲット言語のクラスにある単語との間の編集距離が閾値Θ未満である場合に第1の値を返す。編集距離が閾値を超える場合は異なる値が返される。一般的な値は、編集距離が閾値未満である場合が「1」、それ以外の場合が「0」である。この概念は数学的には次のように説明することができる。
3.2値の同義語集合の類似度
同義語集合は、同義の単語のリスト又はグループである。同義語集合は、単一の言語に制限してもよいし複数の言語の類義語を含んでもよい。2値の同義語集合の類似度では、ターゲット言語のクラスにある単語を、ソース言語のクラスにある単語の同義語集合、すなわちソース言語のクラスにおけるその単語の同義語のリストと比較する。2値の同義語集合の類似度では、単語類似度関数は、ターゲット言語のクラスにある単語が、ソース言語のクラスにある単語の同義語集合にある単語と完全に同じである場合に第1の値を返す。単語が完全に同じではない場合には異なる値が返される。一般的な値は、一致する場合が「1」、一致しない場合が「0」である。一実施形態では、Navigli及びPonzettoの2012(下記参考文献3)で説明されるようにBabelNet同義語集合を使用することができ、同文献はその全体が参照により組み込まれる。別の実施形態では、WordNet同義語集合を使用することができる。当業者に理解されるように、他の実施形態では他の同義語集合も使用することができる。
(参考文献3)Roberto Navigli and Simone Paolo Ponzetto. 2012. BabelNet: The automatic construction, evaluation and application of a wide-coverage multilingual semantic network. Artificial Intelligence, 193:217-250.
例えば、「baby grand」についての英語の同義語集合が「keyboard」及び「piano」を含む場合、スペイン語の「piano」を英語の「baby grand」と比較すると、「piano」は「baby grand」の同義語集合にあるため、一致が返される。この概念は数学的には次のように説明することができる。
4.頻度で重み付けした同義語集合の類似度
Brownクラスタリングにおいて、それほど頻繁に出現しない単語についての予測確率は信頼性が高くない可能性がある。単語類似度関数に生成されるクラスはBrownクラスタリングを使用して生成されるため、頻度で重み付けされた成分を追加することで2値の同義語集合の類似度の精度をさらに高めることが望ましい場合がある。例えば、上記の2値の同義語集合の類似度関数によって生成される2値行列を、その行列の各要素で比較される単語の一方又は両方の頻度を表す別の関数で変更することができる。例示的な一実施形態では、2値の同義語集合の類似度行列の各要素に、ソース言語の単語が出現する頻度の10を底とする対数とターゲット言語の単語が出現する頻度の10を底とする対数との和を乗算することができる。この概念は数学的には次のように説明することができる。
ここで、f(w)は所与の単語の頻度である。当業者は、頻度による他の重み付けの基準を使用できることを理解されよう。また、当業者は、出現の頻度は、当該クラス内の頻度としても、テキストサンプル全体における頻度としてもよいことを理解されよう。
ガゼティアの拡張
上記のように、ガゼティアは、固有表現に相当する単語及び/又はフレーズのリストである。ガゼティアの拡張は、グラフに基づく半教師あり学習を使用して、ソース言語のガゼティアをターゲット言語に拡張する。例えば、ソース言語(すなわち英語=L)のガゼティアにある文字列「New York」を考えると、「New York」をターゲット言語(例えばL=スペイン語)のガゼティアの対応する単語に対応付けることが望ましい。「New York」と「Nueva York」の間には直接の関連はないが、何らかの言語内意味類似度モデルに基づいて、「Puerto Rico」(英語)が「New York」に類似すると推測する可能性がある。同じくスペイン語の言語内類似度モデルに基づくと、「Nueva York」も同様に「Puerto Rico」(スペイン語)に類似する。そして、「Puerto Rico」は実際には両方の言語で全く同じであるため、「New York」を「Nueva York」に対応付けることができる。ソース言語のガゼティアからターゲット言語のガゼティアへのこの間接的な見解の推測は、半教師ありのグラフ伝播(下記参考文献4(Zhuらの2003)。参照により全体が組み込まれる)によりモデル化することができる。グラフ伝播では、グラフノードがV∪Vであり、正のラベルは、Lに拡張されるLガゼティアの項目である。負のラベルは、Lにある他の異なるガゼティアの項目である。
(参考文献4)Xiaojin Zhu, Zoubin Ghahramani, and John Lafferty. 2003. Semi-supervised learning using gaussian fields and harmonic functions. In IN ICML, pages 912-919.
図4は、ガゼティアの拡張で使用される情報要素のブロック図であり、情報入力、中間情報、及び情報出力を示す。ソース言語の注釈付きテキストサンプル202にある各単語を、その単語の数値表現、すなわちソース言語の単語ベクトル402に変換する。同様に、ターゲット言語のサンプルテキスト204にある各単語を、その単語の数値表現、すなわちソース言語の単語ベクトル404に変換する。そして、すべてのソース言語の単語ベクトル402の間でソース言語の単語のエッジ重み406を生成し、すべてのターゲット言語の単語ベクトル404の間でターゲット言語の単語のエッジ重み408を生成する。次いで、ソース言語の各単語ベクトル402とターゲット言語の各単語ベクトル404の間の類似度行列410を生成する。最後に、類似度行列410、ソース言語の単語のエッジ重み406、及びターゲット言語の単語のエッジ重み408を組み合わせて、ターゲット言語のガゼティア412を生成する。そしてターゲット言語のガゼティア412を使用して2言語のNERモデル414を生成する。
エッジ重みは単語間の類似度を表す。当業者に理解されるように、多くの方法を使用して所与の集合内でエッジ重みを生成することができる。一実施形態では、同一言語のノードwとwとの間のエッジ重みはexp(−σ||w,w||)で与えられ、ここで、wは、プログラムword2vecで算出される単語wの分散ベクトル表現である。当業者に理解されるように、代わりに他のベクトル化プログラムを使用することもできる。ノードw∈Vとw∈Vとの間のエッジ重みは、それら二つの単語の綴りが全く同じである場合に第1の値(例えば1)と定義され、その他の場合は別の値(例えば0)と定義される。この伝播の解析的な解決法はn×n(nはラベリングされていないノードの数)の行列の算出を伴うため、3つの伝播ステップ、すなわちL→L、L→L、及びL→Lを反復的に実行することによって近似することができる。この伝播の後、伝播された値がf(w)>Θであるすべてのノードが、新しいガゼティアの項目として入力される。
以下は、本開示の一実施形態の実装と性能を説明する実験による実施例である。
1.データセット
対象とするデータセットは、製品のリスト(見出しと説明)を含む。製品の見出しは長さが約10語で構造が整っておらず、そのため認識作業の難しさが増す。電子商取引では、従来のタグセット、すなわち人名、地名、及び組織名に対して、新しい固有表現のタグセットを導入することが必要とされている。この実験では、次の6つの新しいタグタイプ、1)色、2)ブランド名、3)サイズ、4)種類、例えばカメラやシャツ、5)素材、例えばプラスチックや木綿、及び6)モデル、すなわち製品のモデル番号(例えば「A1533」)を導入した。この実験の残りの部分では、ソース言語は英語でありターゲット言語はスペイン語であった。使用したデータセットは、i)Brownクラスタリングのデータセット:Rakutenショッピング(Rakuten,2013a)の英語とスペイン語のデータと、スペイン語のWikipediaからのダンプ(Al−Rfou’,2013)、ii)トレーニングデータ:英語のRakutenショッピングから取った1800個の注釈付きの英語の製品、iii)テストデータ:Rakuten Spain(Rakuten,2013b)から取った300個の注釈付きのスペイン語の製品、であった。
2.ベースライン
本開示の技術は新しい技術であるため、結果を比較するための強固なベースラインが必要であった。言語のペア(L;L)を考慮し、Microsoft(商標)のBing(商標)Translate APIを使用してLからLへの翻訳を生成した。次いで翻訳後のテキストにLのNERモデルを適用し、Bing(商標)Translateで生成された単語の位置合わせを使用して、タグ付けされたトークンを再度Lに対応付けることによってNERの性能を評価した。
3.結果及び考察
調査した各言語で、英語にはStanford CoreNLP(下記参考文献5(Manningらの2014)。全体が参照により組み込まれる)、スペイン語にはTree Tagger(下記参考文献6(Schmidの1994)。全体が参照により組み込まれる)を使用して、文をトークン付けし、品詞タグを割り当てた。英語単言語の場合の性能(80:20のトレーニング用/試験用の分割比、及び5倍の交差検証)は、最新の英語のNERシステムと比べて大幅に低かったが、これは主として、対象とした領域及び固有表現のタグセットの性質と、トレーニングデータの量が少なかったことに起因した。トレーニングデータの量が少なかったことは、単言語の結果と、ベースラインと、本提案のシステムの性能に著しい影響を与えた。本提案のシステムの性能は低かったが、タグタイプの大半ではベースライン性能を上回り、全体で約+13%のマイクロ平均のFスコアの向上が得られた。「モデル」タグは最も言語に依存しないタグであるため、タグの中で最良のFスコアをもたらす。ベースラインの性能が低いのは、主として、機械翻訳で生成された単語の位置合わせの品質が低いためであることに留意されたい。さらに他の所見には、i)Brownクラスタリング機能が主に「Brand」タグを向上させることと、ii)ガゼティア拡張技術が、Google(商標)で翻訳したLのガゼティアを使用するのと同等の性能(.3%)を示すこととが含まれる。図13は、本開示の技術と従来の方法の性能を示す試験結果のグラフである。
(参考文献5)Christopher D. Manning, Mihai Surdeanu, John Bauer, Jenny Finkel, Steven J. Bethard, and David McClosky. 2014. The Stanford CoreNLP natural language processing toolkit. In Proceedings of 52nd Annual Meeting of the Association for Computational Linguistics: System Demonstrations, pages 55-60.
(参考文献6)Helmut Schmid. 1994. Probabilistic part-of-speech tagging using decision trees.
図5は、ターゲット言語の固有表現認識モデルを生成するプロセス500を示すフローチャートである。502で、ソース言語の注釈付きサンプルを得る。504で、注釈が付いていないソース言語のサンプルを得る。506で、CRFを使用して、ソース言語およびターゲット言語のサンプルに特徴の重みを生成する。508で、ソース言語とターゲット言語との間の翻訳モデルを生成する。510で、最終的なNERモデルを生成する。
図6は、Brownクラスタリングマッピング及び完全一致による文字列の類似度を使用してソース言語とターゲット言語との間の単語類似度の数値表現を生成するプロセス600を示すフローチャートである。602で、ソース言語の注釈付きサンプルを得る。604で、注釈付きのソース言語のサンプルのクラスタリングモデルを生成する。606で、クラスタリングモデルに基づいて、注釈付きのソース言語サンプルの分類済みモデルを生成する。608で、注釈が付いていないソース言語のサンプルを得る。610で、注釈付きのターゲット言語サンプルのクラスタリングモデルを生成する。612で、クラスタリングモデルに基づいて、注釈付きのターゲット言語サンプルの分類済みモデルを生成する。614で、完全一致による文字列の類似度を使用して、ソース言語の分類済みモデルとターゲット言語の分類済みモデルとの間の類似度の指標を生成する。
図7は、Brownクラスタリングマッピング及び編集距離による文字列の類似度を使用して、ソース言語とターゲット言語との間の単語類似度の数値表現を生成するプロセス700を示すフローチャートである。702で、ソース言語の注釈付きサンプルを得る。704で、注釈付きのソース言語サンプルのクラスタリングモデルを生成する。706で、クラスタリングモデルに基づいて、注釈付きのソース言語サンプルの分類済みモデルを生成する。708で、注釈が付いていないソース言語のサンプルを得る。710で、注釈付きのターゲット言語サンプルのクラスタリングモデルを生成する。712で、クラスタリングモデルに基づいて、注釈付きのターゲット言語サンプルの分類済みモデルを生成する。714で、編集距離による文字列の類似度を使用して、ソース言語の分類済みモデルとターゲット言語の分類済みモデルとの間の類似度の指標を生成する。
図8は、Brownクラスタリングマッピング及び2値の同義語集合の類似度を使用して、ソース言語とターゲット言語の間の単語類似度の数値表現を生成するプロセス800を示すフローチャートである。802で、ソース言語の注釈付きサンプルを生成する。804で、注釈付きのソース言語サンプルのクラスタリングモデルを生成する。806で、クラスタリングモデルに基づいて、注釈付きのソース言語サンプルの分類済みモデルを生成する。808で、注釈が付いていないソース言語のサンプルを得る。810で、注釈付きのターゲット言語サンプルのクラスタリングモデルを生成する。812で、クラスタリングモデルに基づいて、注釈付きのターゲット言語サンプルの分類済みモデルを生成する。814で、2値の同義語集合の類似度を使用して、ソース言語の分類済みモデルとターゲット言語の分類済みモデルとの間の類似度の指標を生成する。
図9は、Brownクラスタリングマッピング及び頻度で重み付けされた同義語集合の類似度を使用して、ソース言語とターゲット言語との間の単語類似度の数値表現を生成するプロセス900を示すフローチャートである。902で、ソース言語の注釈付きサンプルを得る。904で、注釈付きのソース言語サンプルのクラスタリングモデルを生成する。906で、クラスタリングモデルに基づいて、注釈付きのソース言語サンプルの分類済みモデルを生成する。908で、注釈が付いていないソース言語のサンプルを得る。910で、注釈付きのターゲット言語サンプルのクラスタリングモデルを生成する。912で、クラスタリングモデルに基づいて、注釈付きのターゲット言語サンプルの分類済みモデルを生成する。914で、頻度で重み付けされた同義語集合の類似度を使用して、ソース言語の分類済みモデルとターゲット言語の分類済みモデルとの間の類似度の指標を生成する。
図10は、Brownクラスタリングマッピングと、完全一致、編集距離、2値の同義語集合、及び頻度で重み付けされた同義語集合の組み合わせとを使用して、ソース言語とターゲット言語との間の単語類似度の数値表現を生成するプロセス1000を示すフローチャートである。1002で、ソース言語の注釈付きサンプルを得る。1004で、注釈付きのソース言語サンプルのクラスタリングモデルを生成する。1006で、クラスタリングモデルに基づいて、注釈付きのソース言語サンプルの分類済みモデルを生成する。1008で、注釈が付いていないソース言語のサンプルを得る。1010で、注釈付きのターゲット言語サンプルのクラスタリングモデルを生成する。1012で、クラスタリングモデルに基づいて、注釈付きのターゲット言語サンプルの分類済みモデルを生成する。1014で、完全一致による文字列の類似度、編集距離による文字列の類似度、2値の同義語集合の類似度、及び頻度で重み付けされた同義語集合の類似度を使用して、ソース言語の分類済みモデルとターゲット言語の分類済みモデルとの間の類似度の指標を生成する。1016で、ステップ1014で各方法により得られた類似度の結果をクラスごとに評価する。1018で、クラスごとに最良の類似度の結果を選択する。
図11は、ガゼティアの拡張を使用してソース言語とターゲット言語との間の単語類似度の数値表現を生成する別のプロセス1100を示すフローチャートである。1102で、ソース言語のガゼティアを得る。1104で、ソース言語のガゼティアにある各単語の数値表現(例えばベクトル)を生成する。1106で、数値表現に基づいてソース言語のガゼティアのエッジ重みを生成する。1108で、ターゲット言語のガゼティアの候補単語を得る。1110で、候補ターゲット言語の各単語の数値表現(例えばベクトル)を生成する。1112で、数値表現に基づいて、各候補ターゲット言語のエッジ重みを生成する。1114で、ソース言語のガゼティアと候補のターゲット言語の単語との間のエッジ重みを生成する。1116で、前のステップで生成されたエッジ重みに基づいてターゲット言語の新しいガゼティアを生成する。
図12は、エッジ重み及び放出重みの概念を説明する図である。3つの状態、A1202、B1204、及びC1206と、4つの観測、W1210、X1212、Y1214、及びZ1216とを示す。各状態1202〜1206について、エッジ重み1208は、現在の状態に基づいて次の単語が状態A、B、又はCである確率を示す。また、各観測W、X、Y、及びZに対して、放出重み1210(図示せず)は、その観測が特定のクラスに属する確率を示す。
図14は、上述した多言語の固有表現認識システムとして機能するコンピューティング装置100の機能構成の一例を示す。この例では、コンピューティング装置100は取得部1402、第1生成部1404、算出部1406、第2生成部1408、及び出力部1410を備える。
取得部1402は、注釈付きのソース言語のサンプルと、ターゲット言語のサンプルとを取得する機能要素である。取得部1402は所定のデータベースからこれらのサンプルを取得してもよいし、他の装置からこれらのサンプルを受信してもよい。取得部1402は取得した注釈付きのソース言語のサンプルを第1生成部1404に出力する。また、取得部1402は取得した注釈付きのソース言語のサンプル及びターゲット言語のサンプルを算出部1406に出力する。
第1生成部1404は、注釈付きのソース言語の固有表現認識モデルを生成する機能要素である。第1生成部1404は、注釈付きのソース言語のサンプルに対して条件付き確率場(CRF)の系列ラベリングを適用して、注釈付きのソース言語の固有表現のそれぞれについて最適な重みを求める。これにより、注釈付きのソース言語の固有表現認識モデルが得られる。例えば、第1生成部1404は、注釈付きのソース言語の固有表現のそれぞれについてクラス確率及び単語確率を最適化することで、注釈付きのソース言語の固有表現認識モデルを生成する。第1生成部1404はその固有表現認識モデルを第2生成部1408に出力する。
算出部1406は、注釈付きのソース言語のサンプルとターゲット言語のサンプルとの類似度を算出する機能要素である。例えば、算出部1406はBrownクラスタマッピング及びガゼティア拡張の少なくとも一方を用いて類似度を算出する。算出部1406はその類似度を第2生成部1408に出力する。
第2生成部1408は、注釈付きのソース言語の固有表現認識モデルと類似度とに基づいてターゲット言語の固有表現認識モデルを生成する機能要素である。第2生成部1408は、注釈付きのソース言語の固有表現認識モデルと、ターゲット言語の固有表現認識モデルとを出力部1410に出力する。
出力部1410は、生成された固有表現認識モデルを出力する機能要素である。出力部1410は少なくともターゲット言語の固有表現認識モデルを出力する。出力部1410は注釈付きのソース言語の固有表現認識モデルを出力してもよい。出力方法は限定されない。例えば、出力部1410はその固有表現認識モデルを所定のデータベースに格納してもよいし、他のコンピュータに送信してもよいし、モニタに表示してもよいし、プリンタに出力してもよい。
図15は、上述した多言語の固有表現認識方法を示すフローチャートの一例である。この方法は、例えば、プロセッサを備えるコンピューティング装置100(多言語の固有表現認識システム)により実行される。
まず、取得部1402が、注釈付きのソース言語のサンプルと、ターゲット言語のサンプルとを取得する(ステップ1502、取得ステップ)。続いて、第1生成部1404が、注釈付きのソース言語のサンプルに対してCRFの系列ラベリングを適用して注釈付きのソース言語の固有表現のそれぞれについて最適な重みを求めることで、注釈付きのソース言語の固有表現認識モデルを生成する(ステップ1504、第1生成ステップ)。続いて、算出部1406が、注釈付きのソース言語のサンプルとターゲット言語のサンプルとの類似度を算出する(ステップ1506、算出ステップ)。続いて、第2生成部1408が、注釈付きのソース言語の固有表現認識モデルと類似度とに基づいて、ターゲット言語の固有表現認識モデルを生成する(ステップ1508、第2生成ステップ)。そして、出力部1410が少なくともターゲット言語の固有表現認識モデルを出力する(ステップ1510、出力ステップ)。
図16は、上述した多言語の固有表現認識方法をコンピュータに実行させるプログラム(多言語の固有表現認識プログラム)の一例を示す図である。
プログラム1600はメインモジュール1601、取得モジュール1602、第1生成モジュール1604、算出モジュール1606、第2生成モジュール1608、及び出力モジュール1610を含む。メインモジュール1601は、多言語の固有表現認識モデルの生成を統括的に実行する部分である。取得モジュール1602、第1生成モジュール1604、算出モジュール1606、第2生成モジュール1608、及び出力モジュール1610を実行することにより実現される機能はそれぞれ、上記の取得部1402、第1生成部1404、算出部1406、第2生成部1408、及び出力部1410の機能と同様である。
プログラム1600は、例えば、CD−ROMやDVD−ROM、半導体メモリなどの有形の記録媒体に固定的に記録された上で提供されてもよい。あるいは、プログラム1600は、搬送波に重畳されたデータ信号として通信ネットワークを介して提供されてもよい。
以上説明したように、本願の一態様に係る多言語の固有表現認識システムは、注釈付きのソース言語のサンプルと、ターゲット言語のサンプルとを取得する取得部と、注釈付きのソース言語のサンプルに対して条件付き確率場の系列ラベリングを適用して注釈付きのソース言語の固有表現のそれぞれについて最適な重みを求めることで、注釈付きのソース言語の固有表現認識モデルを生成する第1生成部と、注釈付きのソース言語のサンプルとターゲット言語のサンプルとの類似度を算出する算出部と、注釈付きのソース言語の固有表現認識モデルと類似度とに基づいて、ターゲット言語の固有表現認識モデルを生成する第2生成部とを備える。
本願の一態様に係る多言語の固有表現認識方法は、コンピュータにより実行される多言語の固有表現認識方法であって、注釈付きのソース言語のサンプルと、ターゲット言語のサンプルとを取得する取得ステップと、注釈付きのソース言語のサンプルに対して条件付き確率場の系列ラベリングを適用して注釈付きのソース言語の固有表現のそれぞれについて最適な重みを求めることで、注釈付きのソース言語の固有表現認識モデルを生成する第1生成ステップと、注釈付きのソース言語のサンプルとターゲット言語のサンプルとの類似度を算出する算出ステップと、注釈付きのソース言語の固有表現認識モデルと類似度とに基づいて、ターゲット言語の固有表現認識モデルを生成する第2生成ステップとを含む。
本願の一態様に係る多言語の固有表現認識プログラムは、注釈付きのソース言語のサンプルと、ターゲット言語のサンプルとを取得する取得ステップと、注釈付きのソース言語のサンプルに対して条件付き確率場の系列ラベリングを適用して注釈付きのソース言語の固有表現のそれぞれについて最適な重みを求めることで、注釈付きのソース言語の固有表現認識モデルを生成する第1生成ステップと、注釈付きのソース言語のサンプルとターゲット言語のサンプルとの類似度を算出する算出ステップと、注釈付きのソース言語の固有表現認識モデルと類似度とに基づいて、ターゲット言語の固有表現認識モデルを生成する第2生成ステップとをコンピュータに実行させる。
本願の一態様に係る多言語の固有表現認識システムでは、第1生成部が、注釈付きのソース言語の固有表現のそれぞれについて、次の単語又は直前の単語が別のクラスに属する確率を示すクラス確率と、特定の単語が注釈付きのソース言語のサンプル中に該特定の単語のクラスに基づいて出現する確率である単語確率とを最適化することで、注釈付きのソース言語の固有表現認識モデルを生成してもよい。
本願の一態様に係る多言語の固有表現認識システムでは、算出部が、Brownクラスタマッピング及びガゼティア拡張の少なくとも一方を用いて類似度を算出してもよい。
本願の一態様に係る多言語の固有表現認識システムでは、算出部が、完全一致による文字列の類似度と、編集距離による文字列の類似度と、2値の同義語集合の類似度と、頻度で重み付けした同義語集合の類似度とのうちの少なくとも一つを用いたBrownクラスタマッピングにより類似度を算出してもよい。
本願に記載される設計及び機能は、例示的な性質であることを意図し、決して本開示を制限することを意図するものではない。当業者は、本開示の教示は、本明細書に開示される形態及び当業者に知られる他の形態を含む様々な適切な形態で実装可能であることを認識されよう。例えば、当業者は、実行可能命令は非一時的なコンピュータ読取り可能記憶媒体に記憶することができ、1以上のプロセッサによって実行されると、その1以上のプロセッサに上記の方法を実装させることを認識されよう。
本願で使用される場合、用語「コンポーネント」、「モジュール」、「システム」などは、これらに限定されないが、ハードウェア、ファームウェア、ハードウェアとソフトウェアの組み合わせ、ソフトウェア、又は実行中のソフトウェアなどのコンピュータに関連するエンティティを含むことを意図する。例えば、コンポーネントは、これらに限定されないが、プロセッサで実行されるプロセス、プロセッサ、オブジェクト、実行ファイル、実行のスレッド、プログラム、及び/又はコンピュータである可能性がある。例示として、コンピューティング装置で実行されるアプリケーションとそのコンピューティング装置の両方がコンポーネントである可能性がある。1以上のコンポーネントがプロセス及び/又は実行のスレッド中に存在する可能性があり、コンポーネントは、一つのコンピュータにローカルに位置する場合も、且つ/又は二つ以上のコンピュータに分散される場合もある。また、そのようなコンポーネントは、各種のデータ構造が記憶されている各種のコンピュータ読取り可能媒体から実行することができる。コンポーネントは、ローカルシステム、分散システム、及び/又はインターネットなどのネットワークを介して、別の構成要素と対話する、ある構成要素からのデータなどの1以上のデータパケットを有する信号に従うなどして、ローカルのプロセス及び/又はリモートのプロセスを介して、信号を通じて他のシステムと通信することができる。
上記では、本技術の特定の実施形態について、本開示の例示的実施形態によるコンピューティング装置並びに方法、及び/又はコンピュータプログラム製品のブロック図及び流れ図を参照して説明した。ブロック図及び流れ図の1以上のブロック、並びにブロック図及び流れ図のブロックの組み合わせはそれぞれ、コンピュータ実行可能プログラム命令で実装できることが理解されよう。同様に、ブロック図及び流れ図のブロックの一部は、本開示の実施形態によっては、必ずしも述べられる順序で行わなくてよい、又は、必ずしもそもそも行わなくてよい場合もある。
これらのコンピュータ実行可能プログラム命令は、汎用コンピュータ、特殊目的コンピュータ、プロセッサ、又は他のプログラム可能データ処理機器にロードして特定の機械を生成し、それによってそのコンピュータ、プロセッサ、又は他のプログラム可能データ処理機器で実行される命令により、流れ図の1以上のブロックに指定される1以上の機能を実装する手段を作り出すことができる。これらのコンピュータプログラム命令は、コンピュータ又は他のプログラム可能データ処理機器に特定の形で機能するように指示することができるコンピュータ読取り可能メモリに記憶することもでき、それによってコンピュータ読取り可能メモリに記憶された命令が、流れ図の1以上のブロックに指定される1以上の機能を実装する命令手段を含んだ製造品を作製することができる。
一例として、本開示の実施形態は、コンピュータ可読プログラムコードやプログラム命令が具現化された、コンピュータにより使用可能な媒体を含むコンピュータプログラム製品を提供することができ、前記コンピュータ可読プログラムコードは、実行されて、流れ図の1以上のブロックに指定される1以上の機能を実装するように構成される。コンピュータプログラム命令は、コンピュータ又は他のプログラム可能データ処理機器にロードして、一続きの動作要素又はステップをコンピュータ又は他のプログラム可能機器で行わせて、コンピュータで実装されるプロセスを生成することもでき、それによってコンピュータ又は他のプログラム可能機器で実行される命令が、流れ図の1以上のブロックに指定される1以上の機能を実装する要素又はステップを提供する。
したがって、ブロック図及び流れ図のブロックは、指定された機能を行う手段の組み合わせ、指定された機能を行う要素又はステップの組み合わせ、及び指定された機能を行うプログラム命令手段に対応することができる。ブロック図及び流れ図の各ブロック、並びにブロック図及び流れ図のブロックの組み合わせは、指定された機能、要素若しくはステップを行う汎用的なハードウェアベースのコンピュータシステム、又は特殊目的ハードウェアとコンピュータ命令の組み合わせで実装できることも理解されよう。
本開示の特定の実施形態について、現時点で最も実際的と思われる事柄と各種の実施形態に関連して説明したが、本開示はここに開示される実施形態に制限されず、その逆に、添付の特許請求の範囲に含まれる様々な変更及び均等の構成を包含することが意図されることを理解されたい。本明細書では特定の用語が用いられるが、それらは一般的且つ説明的な意味のみで使用され、限定を目的とするものではない。
この書面による説明では、例を使用して本技術の特定の実施形態を開示し、また、装置やシステムを作製及び使用し、それらに組み込まれた方法を行うことを含めて、当業者が本技術の特定の実施形態を実施できるようにする。本技術の特定の実施形態の特許性のある範囲は、特許請求の範囲に定義され、当業者に想到される他の実施例を含み得る。そのような他の実施例は、請求項の字義的な文言と異ならない構造的要素を有する場合、又は請求項の字義的な文言と実質的に異ならない均等の構造的要素を有する場合には、特許請求の範囲内にあることが意図される。
100…コンピューティング装置、1402…取得部、1404…第1生成部、1406…算出部、1408…第2生成部、1410…出力部、1600…多言語の固有表現認識プログラム、1601…メインモジュール、1602…取得モジュール、1604…第1生成モジュール、1606…算出モジュール、1608…第2生成モジュール、1610…出力モジュール。

Claims (6)

  1. 注釈付きのソース言語のサンプルと、ターゲット言語のサンプルとを取得する取得部と、
    前記注釈付きのソース言語のサンプルに対して条件付き確率場の系列ラベリングを適用して前記注釈付きのソース言語の固有表現のそれぞれについて最適な重みを求めることで、前記注釈付きのソース言語の固有表現認識モデルを生成する第1生成部と、
    前記注釈付きのソース言語のサンプルと前記ターゲット言語のサンプルとの類似度を算出する算出部と、
    前記注釈付きのソース言語の固有表現認識モデルと前記類似度とに基づいて、前記ターゲット言語の固有表現認識モデルを生成する第2生成部と
    を備える多言語の固有表現認識システム。
  2. 前記第1生成部が、前記注釈付きのソース言語の固有表現のそれぞれについて、次の単語又は直前の単語が別のクラスに属する確率を示すクラス確率と、特定の単語が前記注釈付きのソース言語のサンプル中に該特定の単語のクラスに基づいて出現する確率である単語確率とを最適化することで、前記注釈付きのソース言語の固有表現認識モデルを生成する、
    請求項1に記載の多言語の固有表現認識システム。
  3. 前記算出部が、Brownクラスタマッピング及びガゼティア拡張の少なくとも一方を用いて前記類似度を算出する、
    請求項1又は2に記載の多言語の固有表現認識システム。
  4. 前記算出部が、完全一致による文字列の類似度と、編集距離による文字列の類似度と、2値の同義語集合の類似度と、頻度で重み付けした同義語集合の類似度とのうちの少なくとも一つを用いた前記Brownクラスタマッピングにより前記類似度を算出する、
    請求項3に記載の多言語の固有表現認識システム。
  5. コンピュータにより実行される多言語の固有表現認識方法であって、
    注釈付きのソース言語のサンプルと、ターゲット言語のサンプルとを取得する取得ステップと、
    前記注釈付きのソース言語のサンプルに対して条件付き確率場の系列ラベリングを適用して前記注釈付きのソース言語の固有表現のそれぞれについて最適な重みを求めることで、前記注釈付きのソース言語の固有表現認識モデルを生成する第1生成ステップと、
    前記注釈付きのソース言語のサンプルと前記ターゲット言語のサンプルとの類似度を算出する算出ステップと、
    前記注釈付きのソース言語の固有表現認識モデルと前記類似度とに基づいて、前記ターゲット言語の固有表現認識モデルを生成する第2生成ステップと
    を含む多言語の固有表現認識方法。
  6. 注釈付きのソース言語のサンプルと、ターゲット言語のサンプルとを取得する取得ステップと、
    前記注釈付きのソース言語のサンプルに対して条件付き確率場の系列ラベリングを適用して前記注釈付きのソース言語の固有表現のそれぞれについて最適な重みを求めることで、前記注釈付きのソース言語の固有表現認識モデルを生成する第1生成ステップと、
    前記注釈付きのソース言語のサンプルと前記ターゲット言語のサンプルとの類似度を算出する算出ステップと、
    前記注釈付きのソース言語の固有表現認識モデルと前記類似度とに基づいて、前記ターゲット言語の固有表現認識モデルを生成する第2生成ステップと
    をコンピュータに実行させる多言語の固有表現認識プログラム。
JP2016562284A 2016-01-28 2016-06-22 多言語の固有表現認識モデルの転移を行うコンピュータシステム、方法、およびプログラム Active JP6077727B1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201662288109P 2016-01-28 2016-01-28
US62/288,109 2016-01-28
PCT/JP2016/068565 WO2017130434A1 (ja) 2016-01-28 2016-06-22 多言語の固有表現認識モデルの転移を行うコンピュータシステム、方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP6077727B1 true JP6077727B1 (ja) 2017-02-08
JPWO2017130434A1 JPWO2017130434A1 (ja) 2018-02-01

Family

ID=57981620

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016562284A Active JP6077727B1 (ja) 2016-01-28 2016-06-22 多言語の固有表現認識モデルの転移を行うコンピュータシステム、方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP6077727B1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109710927A (zh) * 2018-12-12 2019-05-03 东软集团股份有限公司 命名实体的识别方法、装置、可读存储介质及电子设备
CN110399614A (zh) * 2018-07-26 2019-11-01 北京京东尚科信息技术有限公司 用于真产品词识别的系统和方法
CN110705295A (zh) * 2019-09-11 2020-01-17 北京航空航天大学 基于关键词提取的实体名消岐方法
CN111274829A (zh) * 2020-02-07 2020-06-12 中国科学技术大学 一种利用跨语言信息的序列标注方法
WO2021214941A1 (ja) * 2020-04-23 2021-10-28 富士通株式会社 機械学習プログラム、機械学習方法および固有表現認識装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009093481A (ja) * 2007-10-10 2009-04-30 Nippon Telegr & Teleph Corp <Ntt> 大規模タグ付きコーパス作成方法、その装置およびプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009093481A (ja) * 2007-10-10 2009-04-30 Nippon Telegr & Teleph Corp <Ntt> 大規模タグ付きコーパス作成方法、その装置およびプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JPN6016050799; 天野 禎章 外1名: 'ラベル伝播による他言語資源の利用と転移学習を用いた重要文抽出システム' 言語処理学会第17回年次大会発表論文集 チュートリアル 本会議 ワークショップ [CD-ROM] , 20110331, p.500-503, 言語処理学会 *
JPN6016050801; 菊井 玄一郎: 'ウエブからの情報抽出とその応用における課題' 電子情報通信学会技術研究報告 第111巻第228号, 20111003, p.57-62, 社団法人電子情報通信学会 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110399614A (zh) * 2018-07-26 2019-11-01 北京京东尚科信息技术有限公司 用于真产品词识别的系统和方法
CN109710927A (zh) * 2018-12-12 2019-05-03 东软集团股份有限公司 命名实体的识别方法、装置、可读存储介质及电子设备
CN109710927B (zh) * 2018-12-12 2022-12-20 东软集团股份有限公司 命名实体的识别方法、装置、可读存储介质及电子设备
CN110705295A (zh) * 2019-09-11 2020-01-17 北京航空航天大学 基于关键词提取的实体名消岐方法
CN110705295B (zh) * 2019-09-11 2021-08-24 北京航空航天大学 基于关键词提取的实体名消岐方法
CN111274829A (zh) * 2020-02-07 2020-06-12 中国科学技术大学 一种利用跨语言信息的序列标注方法
CN111274829B (zh) * 2020-02-07 2023-06-16 中国科学技术大学 一种利用跨语言信息的序列标注方法
WO2021214941A1 (ja) * 2020-04-23 2021-10-28 富士通株式会社 機械学習プログラム、機械学習方法および固有表現認識装置
JP7440797B2 (ja) 2020-04-23 2024-02-29 富士通株式会社 機械学習プログラム、機械学習方法および固有表現認識装置

Also Published As

Publication number Publication date
JPWO2017130434A1 (ja) 2018-02-01

Similar Documents

Publication Publication Date Title
WO2017130434A1 (ja) 多言語の固有表現認識モデルの転移を行うコンピュータシステム、方法、およびプログラム
Khan et al. A novel natural language processing (NLP)–based machine translation model for English to Pakistan sign language translation
Xia et al. Dual sentiment analysis: Considering two sides of one review
Danenas et al. Natural language processing-enhanced extraction of SBVR business vocabularies and business rules from UML use case diagrams
JP6077727B1 (ja) 多言語の固有表現認識モデルの転移を行うコンピュータシステム、方法、およびプログラム
Wang et al. Automatic paper writing based on a RNN and the TextRank algorithm
Ren et al. Detecting the scope of negation and speculation in biomedical texts by using recursive neural network
Sazzed Development of sentiment lexicon in bengali utilizing corpus and cross-lingual resources
Lata et al. Mention detection in coreference resolution: survey
Dehkharghani et al. A novel approach to sentiment analysis in Persian using discourse and external semantic information
Sujoy et al. Pre-annotation based approach for development of a Sanskrit named entity recognition dataset
Hnin et al. Aspect level opinion mining for hotel reviews in Myanmar language
JP4478042B2 (ja) 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置
Jabbar et al. A comparative review of Urdu stemmers: Approaches and challenges
Zeng et al. Lexicon expansion for latent variable grammars
Trandabăţ Mining Romanian texts for semantic knowledge
TW201822031A (zh) 以文字資訊建立圖表索引方法及其電腦程式產品
Gupta et al. A Statistical Language Modeling Framework for Extractive Summarization of Text Documents
Hasan et al. Learning-based named entity recognition for morphologically-rich, resource-scarce languages
Devi et al. Advancements on NLP applications for Manipuri language
Nathani et al. Part of Speech Tagging for a Resource Poor Language: Sindhi in Devanagari Script using HMM and CRF
Bindu et al. Design and development of a named entity based question answering system for Malayalam language
Liu et al. Domain phrase identification using atomic word formation in Chinese text
Iwakura et al. A named entity recognition method based on decomposition and concatenation of word chunks
Khedkar et al. A survey of machine translation and parts of speech tagging for indian languages

Legal Events

Date Code Title Description
A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20161212

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170110

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170112

R150 Certificate of patent or registration of utility model

Ref document number: 6077727

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D02

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250