JP2005208782A - 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム - Google Patents

自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム Download PDF

Info

Publication number
JP2005208782A
JP2005208782A JP2004012558A JP2004012558A JP2005208782A JP 2005208782 A JP2005208782 A JP 2005208782A JP 2004012558 A JP2004012558 A JP 2004012558A JP 2004012558 A JP2004012558 A JP 2004012558A JP 2005208782 A JP2005208782 A JP 2005208782A
Authority
JP
Japan
Prior art keywords
analysis
learning
learning data
anaphora
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004012558A
Other languages
English (en)
Inventor
Daigo Sugihara
大悟 杉原
Hiroshi Masuichi
博 増市
Tomoko Okuma
智子 大熊
Hiroki Yoshimura
宏樹 吉村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2004012558A priority Critical patent/JP2005208782A/ja
Publication of JP2005208782A publication Critical patent/JP2005208782A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】 指示詞又はゼロ代名詞など照応詞が先行詞の語彙情報を失う照応関係を含むコーパス・テキストを用いた機械学習に基づいて自然言語の処理を好適に行なう。
【解決手段】 学習データに指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析処理を施し、学習データ中の代名詞化又はゼロ代名詞化したテキストの主題を担う重要な表現を本来の語彙形態に戻して、学習データとして使用可能にし、よりテキストの意味を捉えた学習が可能となる。パラレル・コーパスを利用した機械学習手法では、より学習実行者の意図を反映した学習が可能となる。
【選択図】 図1

Description

本発明は、人間が日常的なコミュニケーションに使用する自然言語を数学的に取り扱うための自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムに係り、特に、機械学習手法に基づいて自然言語の処理を行なう自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムに関する。
さらに詳しくは、本発明は、コーパスから言語の振る舞いに関するリソースを得て、機械学習に基づいて自然言語の処理を行なう自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムに係り、特に、指示詞やゼロ代名詞など照応詞が先行詞の語彙情報を失うような照応関係を含むコーパス・テキストを用いた機械学習に基づいて自然言語の処理を行なう自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムに関する。
日本語や英語など、人間が日常的なコミュニケーションに使用する言葉のことを「自然言語」と呼ぶ。多くの自然言語は、自然発生的な起源を持ち、人類、民族、社会の歴史とともに進化してきた。勿論、人は身振りや手振りなどによっても意思疎通を行なうことが可能であるが、自然言語により最も自然で且つ高度なコミュニケーションを実現することができる。
日本語や英語を始めとする各種の言語で記述される自然言語は、本来抽象的で曖昧性が高い性質を持つが、文章を数学的に取り扱うことにより、コンピュータ処理を行なうことができる。この結果、機械翻訳や対話システム、検索システム、質問応答システムなど、自動化処理により自然言語に関するさまざまなアプリケーション/サービスが実現される。
最近では、計算機環境が発達し大規模コーパスが整備される中、コーパスから言語の振る舞いに関するリソースを得て、形態素解析や構文解析などの自然言語処理ツール、あるいは、文書分類や単語語義曖昧性解消などに応用する手法が現在の自然言語処理研究の主流になりつつある。
また、計算機環境の発達により、コーパスはさまざまな言語において整備されている。2ヶ国語翻訳対集合は、対訳コーパス(パラレル・コーパス)とも呼ばれ、機械翻訳や多言語検索のアプリケーションを実現する上で極めて有用な自然言語リソースである。パラレル・コーパスを広く利用可能にするための研究も続けられており、徐々にその利便性は高まっている(例えば、非特許文献1、非特許文献2を参照のこと)。また、2ヶ国語翻訳対集合に対して機械学習手法を適用し、多言語検索や機械翻訳のための知見を得ようとする発明や研究にはさまざまな手法がある。対訳コーパスからの翻訳知識自動獲得に関する研究もなされている(例えば、非特許文献3を参照のこと)。
また、パラレル・コーパスを学習データとして、異なる言語で書かれた文書の各々を同一のベクトル空間上の文書ベクトルとして表現し、ベクトル間の内積の値を文書間の類似度であるとして多言語文書検索を行なう手法が提案されている(例えば、非特許文献2並びに非特許文献4を参照のこと)。
ところで、自然言語文には、「ある言語表現が、後に現れる言語表現と同じ内容や対象を指すという照応現象が散見される。例えば、下の例文では、1文目に現れた「太郎」という人名を表す表現を2文目では「彼」で置き換えて表現している。この「太郎」と「彼」は照応関係にあると言い、「太郎」が先行詞になり、「彼」が照応詞になっている。
1.太郎が本を買いました。
2.彼は雑誌二冊を買いました。
照応詞には、先行詞と同一又は同様の表現で先行詞の内容を繰り返すもの(名詞照応)や、あるいは、先行詞の表現を代名詞などの指示詞で置き換えたもの(指示詞による照応)などがある。また、照応詞の特別な場合としてゼロ代名詞というものがある。ゼロ代名詞とは、「テキスト中に繰り返し現われた表現のうち、省略されてテキストから見えなくなってしまったもの」である。下の例では、「0が」は実際には目には見えないが、読者にとっては、1文目の太郎を参照しているゼロ代名詞があるものとして読まれる。
1.太郎が本を買いました。
2.(0が)雑誌二冊を買いました。
照応現象の解析は、特に指示詞による照応やゼロ代名詞などの照応詞が先行詞の語彙形態を損なっている場合にこれを補完することが機械翻訳などの自然言語アプリケーションに有用であるとして、さまざまな研究が行なわれてきた。例えば、英語の指示詞の指示性に関する統計手法の研究や(例えば、非特許文献5を参照のこと)、日本語の指示詞及びゼロ代名詞の指示対象の同定に関するルールベース手法の研究(例えば、非特許文献6を参照のこと)など、多種多様な方法での研究がある。
英語においては、文法的に動詞が主語と目的語を明確に要求するため、ゼロ代名詞が出現するということは少ない。これに対し、日本語などでは頻出するため、特にゼロ代名詞照応解析は解決すべき課題として、日本語の照応解析研究では言及されてきた。
照応解析の中で、特にゼロ代名詞の解析に焦点を当てた研究は多くある。例えば、大規模なコーパスから確率分布を推定し、その確率の値によってゼロ代名詞の検出と補完に対することができる(例えば、非特許文献7を参照のこと)。
また、大規模コーパスから自動的に構築された格フレーム辞書によりゼロ代名詞の検出と補完を行なうことができる(例えば、非特許文献8を参照のこと)。
また、ゼロ代名詞を含む照応解析を組み込むことによって翻訳機の性能を高めることができる(例えば、特許文献1、特許文献2を参照のこと)
また、パラレル・コーパスを用いて、ある言語の表現ともう一方の言語の対訳文における省略要素の補完要素を自動的に抽出し、省略要素を補完する省略要素補完規則を自動的に作成するシステムに関して提案がなされている(例えば、特許文献3を参照のこと)。
さらには、検索対象の文書に対し指示詞やゼロ代名詞に関する照応解析を施し、検索性能の向上を図る情報検索装置に関して提案がなされている(例えば、特許文献4を参照のこと)。すなわち、文書データを構文解析する際に、指示詞やゼロ代名詞に関する照応解析処理により欠落している情報を補完し、検索処理することによって、欠落している情報を補完した状態で検索が可能となる。
しかしながら、従来は、コーパスを対象にして学習を行ない、何らかの言語的なリソースを得ようとする手法において、コーパス・テキスト内における指示詞やゼロ代名詞などの照応詞が先行詞の語彙形態を失うような照応現象を適切に処理してはこなかった。また、同様にパラレル・コーパスを用いた学習に際しても指示詞やゼロ代名詞などの照応詞が先行詞の語彙形態を失うような照応現象を考慮してこなかった。すなわち、既存の自然言語に関する手法では、学習データに対して形態素解析処理や構文解析処理・意味解析処理などを施すことはあっても、学習データに対して照応現象によって失われた語彙情報を考慮する照応解析処理を施すものはなかった。また、機械学習に際して、英語などのゼロ代名詞の出現しない言語と日本語などゼロ代名詞が頻出する言語の差について言及したものはなかった。
コーパスを用いた学習を行なう場合、学習の対象となるテキストの意味を、そのテキストを執筆した筆者の意図を正確に捉えて学習することが望ましいが、照応詞が先行詞の語彙情報を失うような照応現象はそれを阻害する。さらに、パラレル・コーパスを用いた学習においても、2つの言語間における照応現象の違いによって、2つの言語間の対応関係を損なってしまう。以下に簡単な例を挙げてこれを説明する。
ここで、カテゴリの付与されている対訳対を学習データとして、文書分類器を学習するタスクを考える。以下のテキストを基に学習する場合を考える。
・日本は海と関わりが深い。
Japan is closely associated with the sea.
・四方を海に囲まれ、
It is surrounded by the sea on all sides.
・居住する人々は好んで魚を食べる。
People in it are friends for fish.
・海を越えて様々な文化も伝えられた。
The various cultures was imported into Japan through the sea.
このテキストの主題は、第1文の提題助詞「は」が後置する名詞である「日本」について述べられており、「日本」に関するテキストとしてラベル付けされているとする。
このとき、このテキストからテキストを自動分類するためのベクトル・モデルや確率分布を得るために、代名詞、冠詞などのストップ・ワードを除去し、同時に、問題を簡単にするために動詞も除くと、以下のような単語列となる。
・日本、海、Japan sea
・四方、海、sea、sides
・人々、魚、people friends、fish
・海、文化、cultures、Japan、sea
このテキストの特徴を表す指標として、単語の出現頻度は単語ベクトルを作成したり確率分布を推定したりするときに用いられる。
日本 1
四方 1
人々 1
文化 1
魚 1
海 3
Japan 2
sea 3
sides 1
people 1
friends 1
fish 1
cultures 1
ここで注目すべきは、「海」及び「sea」という単語の頻度がそれぞれ3であり、このテキスト中で最も出現頻度が高いということである。すなわち、ベクトル空間法であれ確率分布を用いる手法であれ、このテキストから学習した場合、「海」及び「sea」という単語が「日本」というラベル付けに対して大きな影響を与えているという結論を得る。しかし、その場合だと、「海」や「sea」といった単語を含む別の国のテキストに対して「日本」のラベルをはるような誤った学習をしてしまう恐れがある。これは、テキスト中の主語や目的語が指示詞化したか、ゼロ代名詞として省略されてしまった場合に、その本来の語彙形態を失ってしまい、学習データとして用いることができないためである。
語彙の代名詞化やゼロ代名詞化は、その語彙がテキスト中に何度も言及されて冗長であるが故に発生する現象である。そして、それは裏返って指示詞化あるいはゼロ代名詞化した語彙というものはテキストの主題や特徴を表す最も重要な語彙だということである。この場合だと、むしろ「日本」や「Japan」という単語が「日本」というカテゴリに対してより重要であるということを学習しなければならない。
また、上記テキストでは「日本」の出現頻度は1であるが、英語対訳にあたる「Japan」の出現頻度は2である。このとき、日本語の「日本」の単語頻度はゼロ代名詞の部分が目減りしていることになり、「日本」よりも「Japan」の方がラベル付けに対して大きな影響を持つことになる。もし、同じ内容の対訳文書ペアであるが片方のペアではゼロ代名詞が頻出し、もう片方のペアではゼロ代名詞が出現しなかった場合には、同じ内容の対訳文書であったとしても、異なる学習結果が生成されてしまうことになる。つまり、対訳ペアの日本語文書におけるゼロ代名詞の出現が、システムの性能に対して本来システムが意図しない影響を与える恐れがある。
このことは、広く一般的に、対訳コーパス中のテキストペアからペアごとに素性を抽出して学習を行なう場合には生じる恐れのある現象である。通常、対訳コーパスを用いて機械学習を行なう場合には、対訳ペアは言語が異なっていても同じ内容として学習を行なうが、ゼロ代名詞が含まれている場合には、対訳ペアの間には語彙的な齟齬が生じ易い。
特開平07−093333号公報 特開2002−055977号公報 特開平10−269215号公報 特開平09−179875号公報 内山将夫、井佐原均著「日英新聞の記事および文を対応付けるための高信頼性尺度」(自然言語処理,Vol.10,No.4,pp.201−220,2003) Hiroshi Masuichi,Raymond Flournoy, Stefan Kaufmann,Stanley Peters,"A Bootstrapping Method for Extracting Bilingual Text Pairs"(In the Proceedings of The 18th International Conference on Computational Linguistics,pp.1066−1070,2000) 荒牧英治、黒橋禎夫、佐藤理史、渡辺日出雄共著「用例ベース翻訳のためのパラレル・コーパスからの対訳対発見」(情報処理学会研究会 自然言語処理144−4,pp.23−30,2001) Hiroshi Masuichi,Raymond Flournoy,Stefan Kaufmann AND Stefan Peters,"Query Translation Method for Cross Language Information Retrieval"(The Proceedings of Machine Translation Summit’99 Workshop on Machine Translation for Cross Language Information Retrieval,1999) Xiaofeng Yang,Guodong Zhou,Jian Su and Chew Lim Tan,"Coreference Resolution Using Competition Learning Approach"(In the Proceedings of the 41st Annual Meetings of the Association for Computational Linguistics,pp.176−183,2003) 村田真樹、長尾真共著「用例や表層表現を用いた日本語文章中の指示詞・代名詞・ゼロ代名詞の指示対象の推定」(自然言語処理,Vol.4,No.1,pp.87−109,1997) Kazuhiro Seki,Atsushi Fujii and Tetsuya Ishikawa,"A Probabilistic Method for Analyzing Japanese Anaphora Integrating Zero Pronoun Detection AND Resolution"(In the Proceedings of the 19th International Conference on Computational Linguistics (COLING 2002),pp.911−917, 2002) 河原大輔、黒橋禎夫共著「自動構築された格フレーム辞書に基づく省略解析の大規模評価」(言語処理学会第9回年次大会,2003)
本発明の目的は、コーパスから言語の振る舞いに関するリソースを得て、機械学習に基づいて自然言語の処理を好適に行なうことができる、優れた自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムを提供することにある。
本発明のさらなる目的は、指示詞やゼロ代名詞などの照応詞が先行詞の語彙形態を失う照応関係を含むコーパス・テキストを用いた機械学習に基づいて自然言語の処理を好適に行なうことができる、優れた自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムを提供することにある。
本発明は、学習データを利用した機械学習に基づいて自然言語処理を行なう際に、学習データとしてのコーパスに格納されたテキスト中の主語や目的語が指示詞化し、又はゼロ代名詞として省略されてしまった場合であっても、主語や目的語がその本来の語彙形態を失うことにより学習データとして用いることができなくなることを防ぐとともに、パラレル・コーパスを用いた場合には対訳ペアの間の語彙的な齟齬を回避することを目的とする。
本発明は、上記課題を参酌してなされたものであり、その第1の側面は、機械学習に基づく自然言語処理を行なう自然言語処理システムであって、
学習データを保持する初期学習データ保持手段と、前記初期学習データ保持手段中の学習データを指示詞及びゼロ代名詞のうち少なくとも一方に関して照応解析する照応解析処理手段と、前記照応解析処理手段により照応解析済みの学習データを用いて機械学習を行なう機械学習手段と、非学習データを入力する非学習データ入力手段と、前記機械学習手段による機械学習結果を用いて非学習データに対して評価を行なう学習結果適用手段とを具備することを特徴とする自然言語処理システムである。
この自然言語処理システムは、例えば文書分類や文書検索、機械翻訳や多言語検索などのアプリケーションに適用することができる。
また、この自然言語処理システムは、初期学習データ保持手段中の学習データを照応解析に適した形式のデータ構造に変換する照応解析前処理手段と、指示詞及びゼロ代名詞のうち少なくとも一方に関して照応解析を行なうための言語的リソースを保持する照応解析リソース保持手段をさらに備えている。そして、前記照応解析処理手段は、前記照応解析前処理手段により作成されたデータに対して前記照応解析リソース保持手段中の言語的リソースを用いて指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析処理を行なうことができる。
自然言語処理において、学習データとしてのコーパスから言語の振る舞いに関するリソースを得て機械学習を行なう場合、コーパス・テキスト中に「ある言語表現が、後に現れる言語表現と同じ内容や対象を指すという照応現象が散見される。先に現れる表現を先行詞、後に現れる表現を照応詞という。照応詞には、先行詞と同一又は同様の表現で先行詞の内容を繰り返すもの(名詞照応)や、あるいは、先行詞の表現を代名詞などの指示詞で置き換えたもの(指示詞による照応)などがある。また、照応詞の特別な場合としてゼロ代名詞というものがある。
コーパスのテキスト中の主語や目的語が代名詞化し又はゼロ代名詞として省略された結果として、主語や目的語がその本来の語彙形態を失ってしまい、学習データとして用いることができなくなる。また、パラレル・コーパスを用いた場合には対訳ペアの間の語彙的な齟齬を生じてしまう。
そこで、本発明に係る自然言語処理システムでは、学習システムが学習データとして用いるテキストに対して指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析処理を行なうようにした。この結果、非学習データに対する評価の精度を向上することができる。
また、本発明に係る自然言語処理システムは、単一の言語だけでなく、多言語についても対応することができる。
このような場合、前記初期学習データ保持手段は、第1の言語で記述された文書と、該第1の文書を第2の言語に翻訳した対訳文書からなる対訳対の集合を学習データとして保持し、前記照応解析リソース保持手段は、第1の言語に対して指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析を行なうための第1の言語照応解析リソース、及び第2の言語に対して指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析を行なうための第2の言語照応解析リソースを保持する。そして、前記照応解析手段は、第1の言語照応解析リソースを利用して第1の言語で記述された学習データに対して指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析処理を行なうとともに、第2の言語照応解析リソースを利用して第2の言語で記述された学習データに対して指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析処理を行ない、前記機械学習手段は、第1の言語及び第2の言語で記述された照応解析済みの学習データを用いて機械学習を行なう。したがって、第1の言語で記述された文書と第2の言語で記述された文書が混在する非学習データが入力されると、前記学習結果適用手段は、前記機械学習手段による機械学習結果を用いて非学習データに対して評価を行なうことができる。
また、本発明に係る自然言語処理システムは、前記非学習データ入力手段に入力された非学習データを指示詞及びゼロ代名詞のうち少なくとも一方に関して照応解析する第2の照応解析手段をさらに備えていてもよい。学習データを指示詞及びゼロ代名詞のうち少なくとも一方に関して照応解析することにより、本発明者らの意図に忠実な自然言語処理を実現することは可能であるが、このように学習データと非学習データの双方に指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析を適用することにより、本システムを例えば文書分類や文書検索、機械翻訳や多言語検索などのアプリケーションに適用した際における非学習データの評価の精度をより向上することができる。例えばベクトル空間モデルによる文書分類の手法では、ベクトルの類似度によって評価を行なうが故に、分類の対象となる文書に対して照応解析を行なうならばより効果的である。
前記機械学習手段は、学習データとしてのテキストに現れる、単語や表現の出現など、統語上の現象を素性として用い、機械学習を行なう。したがって、前記照応解析手段により学習データに指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析を施すことにより、統語情報を補完することができ、この結果、機械学習の精度を向上させることができる。
本発明に係る自然言語処理システムでは、さまざまな照応解析処理手法を適用することができる。例えば、パラレル・コーパスの日本語テキストに対しては、指示詞の照応解析に対しては非特許文献6に記載の手法を適用し、ゼロ代名詞補完処理には非特許文献7に記載の手法を適用し、対訳英語テキスト部分の代名詞照応解析には非特許文献5に記載の手法を適用することができる。
例えば、上述した対訳例文に対して、日本語照応解析処理と、英語照応解析処理を行った場合には、以下のような対訳対となる。
・日本は海と関わりが深い。
Japan is closely associated with the sea.
・四方を海に日本が囲まれ、
Japan is surrounded by the sea on all sides.
・日本に居住する人々は好んで魚を食べる。
People in Japan are friends for fish.
・海を越えて様々な文化も日本に伝えられた。
The various cultures was imported into Japan through the sea.
ストップ・ワードと動詞を除いた単語頻度は以下のようになる。
日本 4
四方 1
人々 1
文化 1
魚 1
海 3
Japan 4
sea 3
sides 1
people 1friends 1
fish 1
cultures 1
このように、コーパス・テキストに対して指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析処理を適用することにより、「日本」と「Japan」の単語頻度がそれぞれ4となり、「海」や「sea」を上回る頻度となる。これにより、「海」や「sea」といった単語よりも、本来の主題を表す「日本」と「Japan」が学習結果に対してより大きな影響を与えることができるようになる。また、「日本」と「Japan」の単語頻度は同数となり、学習結果に対する日英単語対訳のバランスも取れることになる。
指示詞化した単語やゼロ代名詞化した単語は、テキスト中で何度も言及されている表現であり、テキストの主題を担う重要な単語である場合が多い。これら失われてしまった重要単語を、照応解析処理により本来の語彙形態に戻してやることで学習データとして使用可能し、指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析処理を行なわない学習データによる機械学習と比較して、よりテキストの意味を捉えた学習が可能となる。また、パラレル・コーパスを利用した機械学習手法においても、一方の言語におけるゼロ代名詞の出現による対訳単語間の齟齬を防ぎ、学習データに照応解析処理を行なわない機械学習と比較して、コーパスに発生しているゼロ代名詞に左右されず、より学習実行者の意図を反映した学習が可能となる。
図1には、本発明に係る自然言語処理システムの機能構成を模式的に示している。同図に示すように、このシステムは、初期データ保持部1と、照応解析前処理部2と、照応解析リソース保持部3と、照応解析処理部4と、機械学習部5と、学習結果適用部6と、非学習データ保持部7で構成される。
初期データ保持部1は、学習データとして使用するコーパスを保持している。照応解析前処理部2は、初期学習データ保持部1に学習データとして保持されているコーパス・テキストを、照応解析し易いデータ構造の表現となるように形式変換を行なう。
照応解析前処理部2は、学習データとしてのテキストの言語に応じた形態素解析処理及び構文解析処理を行なう。文書を形態素解析処理及び構文解析処理を行なうことにより、統語上の現象を素性として扱うことができるようになる。
ここで、形態素とは、言語学において、単語や接辞など、文法上、最小の単位となる要素のことである。したがって、形態素解析では、形態素の文法的属性(品詞や活用など)を同定するために、単語を分割して品詞付けを行なう。また、構文解析では、文法規則などを基に句構造などの文の構造を解析する。文法規則が木構造であることから、構文解析結果は一般に個々の形態素が係り受け関係などを基にして接合された木構造となる。例えば、Lexical Functional Grammar(LFG)文法理論に基づく構文解析を利用することができる。
照応解析リソース保持部3は、指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析を行なうための言語的リソースを保持している。そして、照応解析処理部4は、照応解析リソース保持部3に保持されている言語的リソースを用いて、照応解析前処理部2で作成されたデータに対して指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析を行なう。ここではさまざまな照応解析処理手法を適用することができる(前述)。
機械学習部5は、照応解析済みの学習データを用いて機械学習を行なう。照合前処理として形態素解析及び構文解析を行なう場合には、学習データとしてのテキストに現れる、単語や表現の出現など、統語上の現象を素性として用い、学習データの素性と評価の間の対応規則を行なう。
ここで、機械学習部5は、例えば、ベクトル空間法に基づいてテキスト・データの素性と評価の間の対応規則を計算し、文書を定量的に表現することができる。ここで言うベクトル空間法とは、全テキスト・データに含まれる全単語のうち出現頻度の多い所定数のものを「特徴表現語」として抽出し、各単語と特徴表現語が共起(同じテキスト・データで出現)する回数を共起行列として表した単語ベクトルを生成し、次いで、対象とするテキスト・データに含まれる全単語の単語ベクトルの総和を正規化した文書ベクトルを生成し、評価対象となるテキスト・データについても同様の評価文書ベクトルを生成し、各分類の文書ベクトルと評価文書ベクトルとの内積により、評価対象のテキスト・データを分類することができる。
あるいは、機械学習部5は、確率モデルを用いて文書を定量的に表現するようにしてもよい。このような場合、学習結果適用部6は、確率モデルを用いて文書分類を行なうことができる。
非学習データ保持部7は、評価対象となる非学習データをあらかじめ保持し、あるいは随時システム外から入力する。そして、学習結果適用部6は、機械学習部5による機械学習の結果を用いて非学習データに対して何らかの評価を行なう。
また、本発明の第2の側面は、学習データを利用した機械学習に基づいて自然言語処理を行なうための処理をコンピュータ・システム上で実行するようにコンピュータ可読形式で記述されたコンピュータ・プログラムであって、
初期の学習データを照応解析に適した形式のデータ構造に変換する照応解析前処理ステップと、前記照応解析前処理ステップにおいて作成されたデータに対して、指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析を行なうための言語的リソースを用いて照応解析処理を行なう照応解析処理ステップと、前記照応解析処理ステップにおいて照応解析済みの学習データを用いて機械学習を行なう機械学習ステップと、前記機械学習ステップにおける機械学習結果を用いて非学習データに対して評価を行なう学習結果適用ステップとを具備することを特徴とするコンピュータ・プログラムである。
本発明の第2の側面に係るコンピュータ・プログラムは、コンピュータ・システム上で所定の処理を実現するようにコンピュータ可読形式で記述されたコンピュータ・プログラムを定義したものである。換言すれば、本発明の第2の側面に係るコンピュータ・プログラムをコンピュータ・システムにインストールすることによって、コンピュータ・システム上では協働的作用が発揮され、本発明の第1の側面に係る自然言語処理システムと同様の作用効果を得ることができる。
本発明によれば、コーパスから言語の振る舞いに関するリソースを得て、機械学習に基づいて自然言語の処理を好適に行なうことができる、優れた自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムを提供することができる。
また、本発明によれば、指示詞やゼロ代名詞など照応詞が先行詞の語彙形態を失うような照応関係を含むコーパス・テキストを用いた機械学習に基づいて自然言語の処理を好適に行なうことができる、優れた自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムを提供することができる。
本発明に係る自然言語処理システムでは、学習データに対して指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析処理を施すことによって、学習データ中の代名詞化あるいはゼロ代名詞化したテキストの主題を担う重要な表現を本来の語彙形態に戻してやることにより学習データとして使用可能にするとともに、指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析処理を行なわない学習データによる機械学習と比較して、よりテキストの意味を捉えた学習が可能となる。また、パラレル・コーパスを利用した機械学習手法においても、一方の言語におけるゼロ代名詞の出現による対訳単語間の齟齬を防ぎ、学習データに指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析処理を行わない機械学習と比較して、コーパスに発生しているゼロ代名詞に左右されず、より学習実行者の意図を反映した学習が可能となる。
したがって、本発明に係る機械学習に基づく自然言語処理システムによれば、よりテキストの意味をとらえた処理が可能となる。
本発明のさらに他の目的、特徴や利点は、後述する本発明の実施形態や添付する図面に基づくより詳細な説明によって明らかになるであろう。
以下、図面を参照しながら本発明の実施形態について詳解する。
図2には、本発明の一実施形態に係る自然言語処理システムの機能構成を模式的に示している。図示の自然言語処理システムは、日英のパラレル・コーパスに対して指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析システムを適用し、ベクトル空間法による文書自動分類システムのための学習を行なうことを想定しており、初期学習コーパス保持部11と、未分類文書保持部12と、対訳データ分離部13と、照応解析前処理部14と、日本語リソース保持部15と、英語照応解析リソース保持部16と、日本語照応解析部17と、英語照応解析部18と、単語ベクトル生成部19と、文書ベクトル生成部20と、カテゴリ・ベクトル生成部21と、学習結果保持部22と、文書分類部23で構成される。この自然言語処理システムは、実際には、パーソナル・コンピュータのような一般的な計算機システムに所定の機械学習アプリケーションを実行するという形態で実現される。
なお、本実施形態では、日英のパラレル・コーパスに対して指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析システムを適用し、ベクトル空間法による文書自動分類システムのための学習を行なうことを想定しているが、勿論、パラレル・コーパスでない単一言語によるコーパスを用いる学習システムに対しても「指示詞やゼロ代名詞の出現などの照応現象により学習データから失われてしまう語彙の情報を復元し、よりテキストの意味を捉えた学習が可能である」という効果を得ることができる。また、テキスト自動分類のための学習データのみならず、テキスト中の語彙から素性を得るあらゆる機械学習手法を用いた自然言語処理システムに対しても適用することができることを理解されたい。
初期学習コーパス保持部11は、日本語文書とその英訳である英語文書の対と、それに対してあらかじめ付与された文書のカテゴリを表すラベルを複数、計算機内に保持している。
未分類文書保持部12は、未分類の日本語文書と英語文書を格納している。あらかじめ日英に分離されて文書は格納されているとする。未分類文書保持部12中の日英文書間に対訳関係がある必要はない。
対訳データ分離部13は、対訳コーパスとして保存されている日本語文書と英語文書を分離する。本実施形態では、初期学習コーパスとして保持されている対訳関係にある日本語文書と英語文書を各言語に応じた形態素解析処理・構文解析処理を施すためにそれぞれの言語毎に分離して保持している。照応解析処理を行なうためには、テキストに対して各言語用の形態素解析処理や構文解析処理を行なった上で、それぞれの言語に合わせた指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析手法を用いることになる。したがって、パラレル・コーパスの2つの言語を分けた方が処理が簡単なため、ここでパラレル・コーパスを2つに分ける。その際、本実施形態では、対訳対に振られたラベル付けを別の配列にあらかじめ格納しておく。これをラベル付け格納配列とする。
照応解析前処理部14は、コーパスの文書に対して照応解析を行ない易いようなデータ構造で表現する。本実施形態では、対訳データ分離部13で分離された日本語文書と英語文書に対して、照応解析前処理として、それぞれの言語に応じた形態素解析処理及び構文解析処理を行なう。文書を形態素解析処理及び構文解析処理を行なうことにより、統語上の現象を素性として扱うことができるようになる。
ここで、形態素とは、言語学において、単語や接辞など、文法上、最小の単位となる要素のことである。したがって、形態素解析では、形態素の文法的属性(品詞や活用など)を同定するために、単語を分割して品詞付けを行なう。また、構文解析では、文法規則などを基に句構造などの文の構造を解析する。文法規則が木構造であることから、構文解析結果は一般に個々の形態素が係り受け関係などを基にして接合された木構造となる。
本実施形態では、Lexical Functional Grammar(LFG)文法理論に基づく構文解析を利用する。LFGでは、ネイティブ・スピーカの言語知識すなわち文法ルールを、コンピュータ処理や、コンピュータの処理動作に影響を及ぼすその他の非文法的な処理パラメータとは切り離したコンポーネントとして構成しており、単語や形態素などからなる文章の句構造を木構造として表した“c−structure(constituent structure)”と、主語、目的語などの格構造に基づいて入力文を疑問文、過去形、丁寧文など意味的・機能的に解析した結果として“f−structure(functional structure)”を出力する。
なお、LFGの詳細に関しては、例えばR.M.Kaplan及びJ.Bresnan共著の論文“Lexical−Functional Grammar: A Formal System for Grammatical Representation”(The MIT Press,Cambridge (1982). Reprinted in Formal Issues in Lexical−Functional Grammar,pp.29−130.CSLI publications,Stanford University(1995).)、Dalrymple, M.著"Syntax and Semantics −Lexical Functional Grammar"(Academic Press,2001)及び当該論文中の引用文献などに記述されている。また、日本語LFGによる意味解析処理については、増市博、大熊智子共著「Lexical Functional Grammarに基づく実用的な日本語解析システムの構築」(自然言語処理,Vol.10,No.2,pp.79−109,言語処理学会,2003)などに記載されている。
照応解析前処理部14は、LFGに基づく日本語解析システムを用いて、日本語文書に対しては日本語文法を用いた解析を行ない、英語文書に対しては英語文法を用いて解析を行なう。また、解析結果は文書対(未分類の文書は文書単体)ごとのオブジェクト内にある配列に格納される。
図3には、ラベル付け格納配列と文書毎のオブジェクトのイメージを示している。オブジェクト内の配列については以下に説明を行なう。
日本語文書の構文解析結果から、文書中に出現した名詞や指示詞のうち指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析の対象となるものを配列に格納する。これを日本語照応解析対象名詞配列と呼ぶ。同時に文書自動分類に用いる単語の並びも配列に格納しておく。
このとき、本来はストップ・ワードとして除去してしまう代名詞なども、除去せずに配列内に格納しておく。これを日本語単語配列とする。
同様に、英語文書の構文解析結果から、文書中に出現した名詞や指示詞のうち指示詞に関する照応解析の対象となるものを配列に格納し、これを英語照応解析対象名詞配列とする。また、文書自動分類の学習時に用いる単語の並びも配列に格納しておく。これも、日本語の場合と同様に、本来はストップ・ワードとして除去してしまう代名詞なども除去せずに配列内に格納しておく。これを英語単語配列とする。
また、日本語文書構文解析結果から、テキスト中の各用言に対して名詞や指示詞が何格で係り受け関係にあるかの情報も配列に格納しておく。これを日本語用言格納配列と呼ぶ。
同様に、英語文書構文解析結果からは、テキスト中の各動詞に対して、どの名詞や指示詞が主語になっているのか、あるいは目的語なのか、などの情報を配列に格納しておく。これを英語用言格納配列とする。
そして、日本語文書、並びに英語文書構文解析結果から、指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析に必要な素性を、用言とその照応解析対象となる名詞句や指示詞毎に作成し、日本語照応解析素性配列、及び英語照応解析素性配列として、それぞれに格納する。ここで言う素性とは、「用言と照応解析の対象となっている名詞が何文だけ離れているか」などの、照応解析システムが照応現象を解析する際に、現象に対して何らかの判定を行なう材料となる情報である。これら素性配列は、日本語照応解析部17と英語照応解析部18のそれぞれに必要なものを格納する。
図4には、対訳文書オブジェクト内の日本語に関する配列の実装上のイメージを示している。
日本語用言格納配列には、処理対象となっている文書に出現する用言を、当該文書内での出現順に配列している。同図に示す例では、「深い」、「囲む:られる」、「居住:する」、「好む」、「食べる」、「超える」、「伝える:られる」の順に用言が格納されている。
日本語用言格納配列に格納されている各配列には、日本語単語配列へのポインタと、当該用言の係り受け関係と、日本語照応解析素性配列へのポインタが記述されている。
例えば、日本語用言格納配列に用言2として格納されている「囲む:られる」は、日本語単語配列の単語13へのポインタを持つ。また、用言の係り受け関係は格フレーム辞書(結合価辞書)を参照して特定されるが、用言「囲む:られる」については「ガ格」、「ヲ格」、並びに「ニ格」を持ち、それぞれの格は日本語照応解析対象名詞配列へのポインタを持つ。このうち「ガ格」の係り受け関係は照応現象により省略されてテキストから見えなくなってしまっており、後述の照応解析によりゼロ代名詞である旨を記述することができる。
日本語照応解析素性配列は、日本語用言格納配列に格納されている各用言についての素性の集合で構成される。用言の素性集合は、例えば先行詞の候補と用言が共起する確率や、これらの出現位置の距離など、指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析に必要な素性情報で構成される。
これら日本語英語双方の各配列、すなわち、用言格納配列、照応解析対象名詞配列、単語配列、照応解析素性配列は、照応解析前処理により対訳文書毎に作成し、対訳文書毎のオブジェクト内に格納する。文書自動分類の機械学習と照応解析は文書を単位に適用されるからである。
日本語照応解析リソース保持部15は、指示詞及びゼロ代名詞のうち少なくとも一方に関する日本語照応解析のための言語的なリソースを保持している。例えば、非特許文献8で使用される格フレーム辞書など、照応解析の手法に応じたリソースを照応解析に前以って保持する。
また、英語照応解析リソース保持部16は、指示詞に関する英語照応解析のための言語的リソースを保持する。例えば、非特許文献5に記載されている英語照応関係タグ付きのコーパスから学習された分類器が格納される。
日本語照応解析部17と英語照応解析部18により、対訳文書毎に指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析処理を行なう。
日本語照応解析部17により、日本語用言格納配列中の用言についてゼロ代名詞を検出する。そして、用言が指示詞やゼロ代名詞と係り受け関係にあるならば、その照応解析手法に基づき、日本語照応解析リソース保持部15に格納されている言語的リソース及び日本語照応解析素性配列を用いて、日本語照応解析対象名詞配列内に格納されている対象指示詞又はゼロ代名詞の先行詞候補に対してランキングを行ない、第1位の先行詞候補を先行詞として認識する。
同様に、英語照応解析部18により、英語用言格納配列中に指示詞を持つならば、その照応解析手法に基づき、英語照応解析リソース保持部16に格納されている言語的リソース及び英語照応解析素性配列を用いて、英語照応解析対象名詞配列内に格納されている対象指示詞の先行詞候補に対してランキングを行ない、ランキング第1位のものを対象指示詞の先行詞として認識する。
日英それぞれの照応解析部17及び18は、指示詞の先行詞を見つけた場合に、日英双方の単語配列の該当する指示詞部分を先行詞の名詞で置き換える。また特に、日本語照応解析部17は、ゼロ代名詞の先行詞を見つけたならば日本語単語配列の対象用言の直前に先行詞の名詞を挿入する。
単語ベクトル生成部19及び文書ベクトル生成部20は、機械学習手段に相当し、ベクトル空間法に基づいてテキスト・データの素性と評価の間の対応規則を計算する。上述したように指示詞及びゼロ代名詞のうち少なくとも一方に関r.照応解析により消失した照応関係が復元することから、単語ベクトルを正確に作成することができ、さらに後続の処理の精度を向上することができる。
単語ベクトル生成部19は、日本語文書及び英語文書に含まれる単語に対して、対応する多次元ベクトルすなわち単語ベクトルを計算する。文書自動分類のタスクは、分類したいカテゴリを検索質問と捉えることにより、本質的には情報検索タスクと同じだと考えることができる。例えば、非特許文献4に記載されている多次元ベクトル空間法による多言語情報検索手法を参考にして文書自動分類を行なっている。本実施形態では、非特許文献4に記載されている手法に基づいて、文書自動分類に関する学習のために、まず、日英の照応解析処理手段から得られたすべての日英学習データ配列中の単語を用いて単語ベクトルを計算する。以下にその過程を説明する。
ステップ1:
処理対象とするすべての日本語文書及び英語文書に対して形態素解析処理を施し、単語に分割する。但し、学習データを生成する際には、あらかじめ照応解析前処理部14にて形態素解析処理が施され、単語は日英の単語配列に格納されているので、このステップはスキップされる。未分類文書保存部12中に格納されている、カテゴリに分類されていない文書に対して分類を行なうために多次元ベクトルを計算する際にはステップ1を実行する。
ステップ2:
処理対象とする日本語単語配列及び英語単語配列の中からすべての単語を取り出し、助詞、指示詞や冠詞などのストップ・ワードを除去した上で、出現頻度の上位n個の単語を選択し、これを基底語とする。本実施形態では、日英の学習コーパスともに指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析処理が行なわれておいる。したがって、本来ならば、代名詞やゼロ代名詞となってしまい基底語として用いることができなくなっているテキストの主題を表すような重要な単語も、指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析によって補完されているので、文書上の意味をとらえた頻度によって行列の作成に用いることができる。
ステップ3:
ステップ2において日英単語配列内から取得したすべての単語からストップ・ワードを除いたものを行とし、且つ、ステップ2で得られた基底語を列とする行列を作成する。ここにおいても、代名詞など本来ノイズとして学習データから取り除かれてしまうような語彙も、本実施形態においては指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析によって補完されているため、行列の要素として用いることができる。
この行列の各要素には、その要素の行に対応する単語と列に対応する基底語とが、学習データ内に含まれるすべての日英対訳文書内で何度共起(すなわち同じ文書内で同時に出現している)しているかを記録する。こうして得られた行列のことを「共起行列」と呼ぶことにする。このようにして、すべての日英対訳文書中の全単語をそれぞれn次元のベクトルで表現する共起行列を作成することができる。このベクトルは、すべての日英対訳文書中において、各単語がどのようなコンテキストで出現し易い傾向にあるかを示すベクトルであると言える。
ステップ4:
ステップ3で得られたn次元のベクトルの次元数が大きいならば、ステップ3で得られたベクトルを行列の次元圧縮法によりn'次元(数百次元)まで圧縮する。ベクトルの次元が大き過ぎると、計算が実時間内で終わらない可能性があるからである。次元圧縮手法にはさまざまなものが存在するが、例えばBerry,M.、Do,T.、O’Brien,G.、Krishna,V.及びVaradhan,S.共著“SVDPACKC USER’S GUIDE”(Tech.Rep.CS−93−194.University of Tennessee,Knoxville,TN(1993))で詳細な説明がなされているSingular Value Decomposition(特異値分解)を利用する手法がその代表例である。このようにして文書中のすべての単語に対して得られたn'次元のベクトルのことを「単語ベクトル」と呼ぶことにする。
文書ベクトル生成部20は、1つの日本語文書及び英語文書、あるいは1つの日英対訳文書対に対して、単語ベクトル生成部19で得られた単語ベクトルを用いて、文書毎の単語の出現傾向を表す文書ベクトルを計算する。ここで言う文書ベクトルとは、ある文書中に含まれる全単語に対応する単語ベクトルの総和を正規化した(ベクトルの長さを1とした)ベクトルのことである。
ここでは、日英の照応解析部17及び18で作成された照応解析済みのすべての日英文書対に対応する文書ベクトルを作成する。また、未分類文書保持部12に格納された未分類文書についても、単語ベクトル生成部19、文書ベクトル生成部20を適用し、各々の文書の単語出現傾向を表す文書ベクトルを生成し、これを保持する。
カテゴリ・ベクトル生成部21は、文書ベクトル生成部20で得られた日英対訳文書対毎の文書ベクトルを用いて、カテゴリ毎の単語の出現傾向を表す多次元ベクトルであるカテゴリ・ベクトルを計算する。文書対毎にラベル付け格納配列を参照し、あるカテゴリに属するすべての日英文書対について文書ベクトルの総和をとり、ついでベクトルの長さを1となるように正規化する。この正規化されたベクトルをカテゴリ・ベクトルとし、すべての分類カテゴリに対して作成される。学習結果保持部22は、すべてのカテゴリについてのカテゴリ・ベクトルを保持する。
文書分類部23は、文書ベクトル生成部20で得られた未分類文書に対応する文書ベクトルと学習結果保持部22中に格納されたカテゴリ・ベクトルを用いて、未分類の文書をカテゴリに分類する。具体的には、文書分類部23は、未分類の文書に対応する文書ベクトルと、すべての文書カテゴリのカテゴリ・ベクトルとの間の内積を計算する。そして、ある文書に対する内積の値の中で閾値T(但し、Tは0から1までの間をとる実数定数)の値を超えており、且つ、最も大きな内積値を与えるカテゴリがその文書が属するカテゴリであるとして分類を行なう。
また、未分類文書保持部12中の文書に対して、指示詞及びゼロ代名詞のうち少なくとも一方に関する日本語照応解析処理あるいは英語照応解析処理を適用し、これらの照応解析結果を用いて文書ベクトルを作成することも考えられる。学習データを指示詞及びゼロ代名詞のうち少なくとも一方に関して照応解析することにより、本発明者らの意図に忠実な分類性能を持つ分類カテゴリ・ベクトルは作成可能であるが、ベクトル空間モデルによる文書分類の手法では、ベクトルの類似度によって評価を行なうが故に、分類の対象となる文書に対して指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析を行なうならばより効果的だからである。
図5には、本実施形態に係る自然言語処理システムによる処理動作の手順をフローチャートの形式で示している。図示の例では、日英のパラレル・コーパスに対して指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析システムを適用し、ベクトル空間法による文書自動分類を行なう。
まず、日英対訳文書に対し形態素解析及び構文解析施し、照応解析のためのデータ構造に変換する(ステップS1)。
次いで、データ構造を変換された日英対訳文書に対し、指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析処理を施す(ステップS2)。
そして、照応解析済み学習コーパスから単語ベクトル及び文書ベクトルを生成する(ステップS3)。また、未分類文書から文書ベクトルを生成する。
機械学習時においては、照応解析済み学習コーパスから得られた文書ベクトルから、カテゴリ・ベクトルを生成する(ステップS4)。
また、文書分類時においては、ある未分類文書の文書ベクトルについて未計算のカテゴリ・ベクトルとの内積を計算する(ステップS5)。
ここで、未分類文書の文書ベクトルとカテゴリ・ベクトルとの内積が所定の閾値以上である場合には(ステップS6)、この内積値を与えるカテゴリを未分類の文書に対する分類候補に加える(ステップS7)。そして、このような内積値の計算をすべてのカテゴリ・ベクトルについて繰り返し実行する(ステップS8)。
そして、未分類文書の分類候補の中で最大となる内積値を持つカテゴリ・ベクトルに対応する分類を当該未分類文書の文書分類とする(ステップS9)。このような文書分類処理を、未分類文書保持部12に保持されているすべての未分類文書に対し繰り返し実行する(ステップS10)。
上述した実施形態では、ベクトル空間法に基づいてテキスト・データの素性と評価の間の対応規則を計算し、文書を定量的に表現することにより文書分類を行なうが、勿論、確率モデルを用いて文書を定量的に表現することによっても、同様に文書の自動分類を実現することができる。
例えば、Iwayama,M.and Tokunaga,T.“A probabilistic model for text categorization:based on a single random variable with multiple values”(In Proceedings of 4th Conference on Applied Natural Language Processing,pp.162−167,1994)に記載の手法を用いた場合、自然言語処理システムは、単語配列から単語ベクトルを生成する代わりに、以下の確率値を推定する。
1:カテゴリCに現れるある単語wの出現確率P(w|C)
2:すべての文書中の単語wに関する出現確率P(w)
3:カテゴリCの全文書中における出現確率P(C)
4:ある文書d中の単語wのテキスト中の単語における出現確率P(w|d)
そして、ある文書dがあり、この文書dに出現する単語がW={W1,W2,…,Wn}で与えられるときの文書分類の方法は、P(C|d)=P(C)Sigma_{i}{P(Wi|C)P(Wi|d)/P(Wi)}を最大化するCを見つけることである。
Nigam.K.,McCallum.A.,Thrun,S.,Mitchell,T.“Learning to classify text from labeled and unlabeled documents”(In Proceedings of the 15th National Conference on Artificial Intelligence,1998)の手法では、主にカテゴリCに現れるある単語wの出現確率P(w|C)とカテゴリCの全文書中における出現確率P(C)を分類に用いている。P(C)はカテゴリCの全カテゴリ中の相対頻度であるので、文書の中身から文書の分類を判断するときに、その分類性能を最も左右するのは、P(w|C)である。このとき、学習データに対して照応解析を行うことで、指示詞化あるいはゼロ代名詞化してしまった主題を担い易い単語wにおけるP(w|C)を増大させることができる。
確率空間モデルを用いて文書の自動分類を実現しようとした場合では、英語照応解析部18および日本語照応解析部17において指示詞またはゼロ代名詞またはその両方に関して照応解析を済ませた学習データから上記確率値を推定する。この場合は、単語ベクトル生成部19及び文書ベクトル生成部20およびカテゴリベクトル生成部21で行なうベクトル計算は、確率値推定部24における確率推定に置き換わる。確率値推定部24が機械学習手段に相当し、確率モデルに基づいてテキスト・データの素性と評価の間の対応規則を計算する。指示詞またはゼロ代名詞またはその両方に関する照応解析により、消失した照応関係が復元することから、本来ならば指示詞化あるいはゼロ代名詞化して失われてしまう単語を元にも確率値を正確に作成することができ、さらに後続の処理の精度を向上することができる。
確率値推定部24は、例えば、Iwayama,M.and Tokunaga,T.“A probabilistic model for text categorization:based on a single random variable with multiple values”(In Proceedings of 4th Conference on Applied Natural Language Processing,pp.162−167,1994)に記載の手法にのっとり、日英の照応解析処理手段から得られたすべての日英学習データ配列中の単語を用いて上記1、2、3、4の確率値を推定する。以下にその過程を説明する。
1:カテゴリCに現れるある単語wの出現確率P(w|C)
処理対象とする日本語単語配列及び英語単語配列のすべての単語を取り出し、助詞、代名詞や冠詞などのストップ・ワードを除去した上で、ラベル付け格納配列に格納されたカテゴリの情報を参照しながら、ある一定以上の頻度を持つ単語に関しては、P(w|C)=単語wがカテゴリC中に現れた回数/カテゴリC中に現れた単語数、によって算出する。この時、ある一定値以下の頻度を持つ単語に関しては一律にごく小さな確率値を割り振る。
2:すべての文書中の単語wに関する出現確率P(w)
処理対象とする日本語単語配列及び英語単語配列の中からすべての単語を取り出し、助詞、代名詞や冠詞などのストップ・ワードを除去した上で、ある一定以上の頻度を持つ単語に関して、P(w)=単語wの学習データ中に現れた回数/学習データに表れた単語数、によって算出する。この時ある一定値以下の頻度しか持たない単語に関しては一律にごく小さな確率値を割り振る。
3:カテゴリCの全文書中における出現確率P(C)
ラベル付け格納配列に格納された文書対毎のカテゴリ情報を参照し、学習データとして用いた全ての種類のカテゴリについて、そのカテゴリが現れる確率を推定する。P(C)=カテゴリCに分類されている学習データ中の文書対数/学習データ中のすべての文書数、で計算する。
4:ある文書d中の単語wのテキスト中の単語における出現確率P(w|d)
未分類文書保持部12に格納されているすべての文書を対象に、各文書ごとに、以下の確率を推定する。P(w|d)=文書dにおけるある単語wの出現頻度/文書dにおけるすべての単語頻度数、で計算する。
本実施形態では、日英の学習コーパスに対して、指示詞またはゼロ代名詞またはその両方に関する照応解析処理が行なわれている。したがって、本来ならば、代名詞化やゼロ代名詞化してテキストから失われてしまい、確率値推定に用いることができなくなっているテキストの主題を表すような重要な単語も、指示詞またはゼロ代名詞又はその両方に関する照応解析によって補完されているので、文書上の意味をとらえた頻度によって確率値の推定に用いることができる。そして、確率推定部24によって得られた確率値のうち、1と2と3の確率値については、学習結果として学習結果保持部22に保持される。
文書分類部23は、確率推定部24で得た未分類文書に関する確率値、ある文書d中の単語wのテキスト中の単語における出現確率P(w|d)と学習結果保持部22中に格納された上記1、2、3の確率値を用いて、未分類の文書をカテゴリに分類する。具体的には、文書分類部23は、未分類の文書について、全ての文書カテゴリ毎に、条件付確率P(C|d)を計算する。この文書dに出現する単語がW={W1,W2,…,Wn}で与えられるとき、P(C|d)=P(C)Sigma_{i}{P(Wi|C)P(Wi|d)/P(Wi)}で計算する。そして、ある文書に対する確率値が閾値T(但し、Tは0から1までの間をとる実数定数)の値を超えており、且つ、最も大きな確率値を与えるカテゴリがその文書が属するカテゴリであるとして分類を行なう。
ベクトル空間法による実施形態と同様に確率モデルによる実施形態においても、未分類文書保持部12中の文書に対して、指示詞及びゼロ代名詞のうち少なくとも一方に関する日本語照応解析処理あるいは指示詞に関する英語照応解析処理を適用し、これらの照応解析結果を用いて未分類文書に関する確率値P(w|d)を計算することも考えられる。確率モデルによる実施例では、単語の頻度を元に確率値推定を行ない、その推定値を基に文書分類を行なうが故に、指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析を行なうことによって、指示詞化あるいはゼロ代名詞化してテキスト中から失われた重要な単語を用いて確率推定を行なうことができ、より文書を作成した筆者の意図を捉えた文書分類が期待できる。
図6には、確率モデルに基づいた実施形態に係る自然言語処理システムの機能構成を模式的に示している。図示の自然言語処理システムは、日英のパラレル・コーパスに対して指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析システムを適用し、確率モデルによる文書自動分類システムのための学習を行なうことを想定しており、初期学習コーパス保持部11と、未分類文書保持部12と、対訳データ分離部13と、照応解析前処理部14と、日本語リソース保持部15と、英語照応解析リソース保持部16と、日本語照応解析部17と、英語照応解析部18と、確率推定部24と、学習結果保持部22と、文書分類部23で構成される。この自然言語処理システムは、実際には、パーソナル・コンピュータのような一般的な計算機システムに所定の機械学習アプリケーションを実行するという形態で実現される。
また、図7には、確率モデルに基づく実施形態に係る自然言語処理システムによる処理動作の手順をフローチャートの形式で示している。図示の例では、日英のパラレル・コーパスに対して指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析システムを適用し、学習結果として得た確率値による文書自動分類を行なう。
まず、日英対訳文書に対し形態素解析及び構文解析施し、照応解析のためのデータ構造に変換する(ステップS11)。
次いで、データ構造を変換された日英対訳文書に対し、指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析処理を施す(ステップS12)。
そして、照応済み学習コーパスからP(w)、P(w|C)、P(C)、未分類文書からP(w|d)を推定する。
次いで、ある未分類文書についてP(C|d)を計算し(ステップS14)、算出されたP(C|d)が所定の閾値T以上かどうかを判別する(ステップS15)。
ここで、P(C|d)が所定の閾値T以上である場合には、左確率値を与えるカテゴリを未分類の分書に対する文書候補に加える(ステップS16)。そして、このような確率値の計算をすべてのカテゴリについて繰り返し実行する(ステップS17)。
そして、未分類文書の分類候補の中で最も確率値の大きなカテゴリにその文書の文書分類とする(ステップS18)。このような文書分類処理を、未分類文書保持部12に保持されているすべての未分類文書に対し繰り返し実行する(ステップS19)。
よって、本発明において指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析処理を行なった学習データを用いることで、確率モデルによる文書分類システムを、学習データ文書を作成した筆者の意図する本来の意味内容を基に作成することが可能であり、文書の意味を捉えた正しい学習を行なうことができる。
以上、特定の実施形態を参照しながら、本発明について詳解してきた。しかしながら、本発明の要旨を逸脱しない範囲で当業者が該実施形態の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、本明細書の記載内容を限定的に解釈するべきではない。本発明の要旨を判断するためには、冒頭に記載した特許請求の範囲の欄を参酌すべきである。
図1は、本発明に係る自然言語処理システムの機能構成を模式的に示した図である。 図2は、本発明の一実施形態に係る自然言語処理システムの機能構成を模式的に示した図である。 図3は、ラベル付け格納配列と文書毎のオブジェクトのイメージを示した図である。 図4は、対訳文書オブジェクト内の日本語に関する配列の実装上のイメージを示した図である。 図5は、本発明に係る自然言語処理システムによる処理動作の手順を示したフローチャートである。 図6は、確率モデルに基づいた実施形態に係る自然言語処理システムの機能構成を模式的に示した図である。 図7は、確率モデルに基づく実施形態に係る自然言語処理システムによる処理動作の手順を示したフローチャートである。
符号の説明
1…初期データ保持部
2…照応解析前処理部
3…照応解析リソース保持部
4…照応解析部
5…機械学習部
6…学習結果適用部
7…非学習データ保持部
11…初期学習コーパス保持部
12…未分類文書保持部
13…対訳データ分離部
14…照応解析前処理部
15…日本語リソース保持部
16…英語照応解析リソース保持部
17…日本語照応解析部
18…英語照応解析部
19…単語ベクトル生成部
20…文書ベクトル生成部
21…カテゴリ・ベクトル生成部
22…学習結果保持部
23…文書分類部

Claims (17)

  1. 機械学習に基づく自然言語処理を行なう自然言語処理システムであって、
    学習データを保持する初期学習データ保持手段と、
    前記初期学習データ保持手段中の学習データを、指示詞及びゼロ代名詞のうち少なくとも一方に関して照応解析する照応解析処理手段と、
    前記照応解析処理手段により照応解析済みの学習データを用いて機械学習を行なう機械学習手段と、
    非学習データを入力する非学習データ入力手段と、
    前記機械学習手段による機械学習結果を用いて非学習データに対して評価を行なう学習結果適用手段と、
    を具備することを特徴とする自然言語処理システム。
  2. 初期学習データ保持手段中の学習データを照応解析に適した形式のデータ構造に変換する照応解析前処理手段と、
    指示詞及びゼロ代名詞のうち少なくとも一方に関して照応解析を行なうための言語的リソースを保持する照応解析リソース保持手段とをさらに備え、
    前記照応解析処理手段は、前記照応解析前処理手段により作成されたデータに対して前記照応解析リソース保持手段中の言語的リソースを用いて照応解析処理を行なう、
    ことを特徴とする請求項1に記載の自然言語処理システム。
  3. 前記初期学習データ保持手段は、第1の言語で記述された文書と、該第1の文書を第2の言語に翻訳した対訳文書からなる対訳対の集合を学習データとして保持し、
    前記照応解析リソース保持手段は、第1の言語に対して指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析を行なうための第1の言語照応解析リソース、及び第2の言語に対して指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析を行なうための第2の言語照応解析リソースを保持し、
    前記照応解析手段は、第1の言語照応解析リソースを利用して第1の言語で記述された学習データに対して指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析処理を行なうとともに、第2の言語照応解析リソースを利用して第2の言語で記述された学習データに対して指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析処理を行ない、
    前記機械学習手段は、第1の言語及び第2の言語で記述された照応解析済みの学習データを用いて機械学習を行ない、
    非学習データ入力手段は、第1の言語で記述された文書と第2の言語で記述された文書が混在する非学習データを入力し、
    前記学習結果適用手段は、前記機械学習手段による機械学習結果を用いて非学習データに対して評価を行なう、
    ことを特徴とする請求項2に記載の自然言語処理システム。
  4. 前記非学習データ入力手段に入力された非学習データに対して指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析する第2の照応解析手段をさらに備える、
    ことを特徴とする請求項1に記載の自然言語処理システム。
  5. 前記照応解析前処理手段は、学習データとしてのテキストの言語に応じた形態素解析処理及び構文解析処理を行なう、
    ことを特徴とする請求項2乃至4のいずれかに記載の自然言語処理システム。
  6. 前記機械学習手段は、学習データとしてのテキストに現れる統語上の現象を素性として用い、機械学習を行なう、
    ことを特徴とする請求項5に記載の自然言語処理システム。
  7. 前記機械学習手段は、学習データとしてのテキストに現れる統語上の現象を素性として用い、ベクトル空間法に基づいて素性と評価の間の対応規則を計算し、
    前記学習結果適用手段は、ベクトル間の内積の値に基づいて非学習データに対して評価を行なう、
    ことを特徴とする請求項5に記載の自然言語処理システム。
  8. 前記機械学習手段は、学習データとしてのテキストに現れる統語上の現象を確率モデルを用いて定量的に表現し、
    前記学習結果適用手段は、確率モデルを用いて文書分類を行なう、
    ことを特徴とする請求項5に記載の自然言語処理システム。
  9. 学習データを利用した機械学習に基づいて自然言語処理を行なう自然言語処理方法であって、
    初期の学習データを指示詞及びゼロ代名詞のうち少なくとも一方に関して照応解析する照応解析処理ステップと、
    前記照応解析処理ステップにおいて照応解析済みの学習データを用いて機械学習を行なう機械学習ステップと、
    前記機械学習ステップにおける機械学習結果を用いて非学習データに対して評価を行なう学習結果適用ステップと、
    を具備することを特徴とする自然言語処理方法。
  10. 初期の学習データを照応解析に適した形式のデータ構造に変換する照応解析前処理ステップをさらに備え、
    前記照応解析処理ステップでは、前記照応解析前処理ステップにおいて作成されたデータに対して、指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析を行なうための言語的リソースを用いて照応解析処理を行なう、
    ことを特徴とする請求項9に記載の自然言語処理方法。
  11. 第1の言語で記述された文書と、該第1の文書を第2の言語に翻訳した対訳文書からなる対訳対の集合を学習データとして用い、
    前記照応解析ステップでは、第1の言語に対して指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析を行なうための第1の言語照応解析リソースを利用して第1の言語で記述された学習データに対して照応解析処理を行なうとともに、第2の言語に対して指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析を行なうための第2の言語照応解析リソースを利用して第2の言語で記述された学習データに対して指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析処理を行ない、
    前記機械学習ステップでは、第1の言語及び第2の言語で記述された照応解析済みの学習データを用いて機械学習を行ない、
    前記学習結果適用ステップでは、前記機械学習ステップにおける機械学習結果を用いて、第1の言語で記述された文書と第2の言語で記述された文書が混在する非学習データに対して評価を行なう、
    ことを特徴とする請求項10に記載の自然言語処理方法。
  12. 非学習データを照応解析する第2の照応解析ステップをさらに備える、
    ことを特徴とする請求項9に記載の自然言語処理方法。
  13. 前記照応解析前処理ステップでは、学習データとしてのテキストの言語に応じた形態素解析処理及び構文解析処理を行なう、
    ことを特徴とする請求項10乃至12のいずれかに記載の自然言語処理方法。
  14. 前記機械学習ステップでは、学習データとしてのテキストに現れる統語上の現象を素性として用い、機械学習を行なう、
    ことを特徴とする請求項13に記載の自然言語処理方法。
  15. 前記機械学習ステップでは、学習データとしてのテキストに現れる統語上の現象を素性として用い、ベクトル空間法に基づいて素性と評価の間の対応規則を計算し、
    前記学習結果適用ステップでは、ベクトル間の内積の値に基づいて非学習データに対して評価を行なう、
    ことを特徴とする請求項13に記載の自然言語処理方法。
  16. 前記機械学習ステップでは、学習データとしてのテキストに現れる統語上の現象を確率モデルを用いて定量的に表現し、
    前記学習結果適用ステップでは、確率モデルを用いて文書分類を行なう、
    ことを特徴とする請求項13に記載の自然言語処理方法。
  17. 学習データを利用した機械学習に基づいて自然言語処理を行なうための処理をコンピュータ・システム上で実行するようにコンピュータ可読形式で記述されたコンピュータ・プログラムであって、
    初期の学習データを照応解析に適した形式のデータ構造に変換する照応解析前処理ステップと、
    前記照応解析前処理ステップにおいて作成されたデータに対して、指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析を行なうための言語的リソースを用いて指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析処理を行なう照応解析処理ステップと、
    前記照応解析処理ステップにおいて照応解析済みの学習データを用いて機械学習を行なう機械学習ステップと、
    前記機械学習ステップにおける機械学習結果を用いて非学習データに対して評価を行なう学習結果適用ステップと、
    を具備することを特徴とするコンピュータ・プログラム。
JP2004012558A 2004-01-21 2004-01-21 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム Pending JP2005208782A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004012558A JP2005208782A (ja) 2004-01-21 2004-01-21 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004012558A JP2005208782A (ja) 2004-01-21 2004-01-21 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム

Publications (1)

Publication Number Publication Date
JP2005208782A true JP2005208782A (ja) 2005-08-04

Family

ID=34898885

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004012558A Pending JP2005208782A (ja) 2004-01-21 2004-01-21 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム

Country Status (1)

Country Link
JP (1) JP2005208782A (ja)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011013776A (ja) * 2009-06-30 2011-01-20 Nippon Telegr & Teleph Corp <Ntt> 述語項構造解析方法、その装置及びプログラム
CN105630771A (zh) * 2015-12-25 2016-06-01 陈福 语句处理方法及装置
CN106055537A (zh) * 2016-05-23 2016-10-26 王立山 一种自然语言机器识别方法及系统
JP2018013863A (ja) * 2016-07-19 2018-01-25 富士通株式会社 符号化プログラム、検索プログラム、符号化装置、検索装置、符号化方法、及び検索方法
JP2018036725A (ja) * 2016-08-29 2018-03-08 日本電信電話株式会社 整合性判定装置、方法、及びプログラム
CN109165386A (zh) * 2017-08-30 2019-01-08 哈尔滨工业大学 一种中文零代词消解方法及系统
CN110291520A (zh) * 2017-03-30 2019-09-27 国际商业机器公司 用自然语言对话支持交互式文本挖掘处理
CN110413996A (zh) * 2019-07-15 2019-11-05 阿里巴巴集团控股有限公司 构造零指代消解语料的方法及装置
JP2019194807A (ja) * 2018-05-02 2019-11-07 株式会社Fronteoヘルスケア 危険行動予測装置、予測モデル生成装置および危険行動予測用プログラム
WO2019212006A1 (ja) * 2018-05-02 2019-11-07 株式会社Fronteoヘルスケア 事象予測装置、予測モデル生成装置および事象予測用プログラム
US10489400B2 (en) 2017-03-03 2019-11-26 International Business Machines Corporation Question pre-processing in a question and answer system
WO2020054186A1 (ja) * 2018-09-12 2020-03-19 株式会社Fronteo 認知症予測装置、予測モデル生成装置および認知症予測用プログラム
US11068524B2 (en) 2016-11-07 2021-07-20 Fujitsu Limited Computer-readable recording medium recording analysis program, information processing apparatus, and analysis method
WO2022113306A1 (ja) * 2020-11-27 2022-06-02 日本電信電話株式会社 対応装置、学習装置、対応方法、学習方法、及びプログラム

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011013776A (ja) * 2009-06-30 2011-01-20 Nippon Telegr & Teleph Corp <Ntt> 述語項構造解析方法、その装置及びプログラム
CN105630771A (zh) * 2015-12-25 2016-06-01 陈福 语句处理方法及装置
CN106055537A (zh) * 2016-05-23 2016-10-26 王立山 一种自然语言机器识别方法及系统
JP2018013863A (ja) * 2016-07-19 2018-01-25 富士通株式会社 符号化プログラム、検索プログラム、符号化装置、検索装置、符号化方法、及び検索方法
US10740562B2 (en) 2016-07-19 2020-08-11 Fujitsu Limited Search apparatus, encoding method, and search method based on morpheme position in a target document
JP2018036725A (ja) * 2016-08-29 2018-03-08 日本電信電話株式会社 整合性判定装置、方法、及びプログラム
US11068524B2 (en) 2016-11-07 2021-07-20 Fujitsu Limited Computer-readable recording medium recording analysis program, information processing apparatus, and analysis method
US10489400B2 (en) 2017-03-03 2019-11-26 International Business Machines Corporation Question pre-processing in a question and answer system
US10521422B2 (en) 2017-03-03 2019-12-31 International Business Machines Corporation Question pre-processing in a question and answer system
CN110291520A (zh) * 2017-03-30 2019-09-27 国际商业机器公司 用自然语言对话支持交互式文本挖掘处理
CN110291520B (zh) * 2017-03-30 2023-05-23 国际商业机器公司 用自然语言对话支持交互式文本挖掘处理
CN109165386A (zh) * 2017-08-30 2019-01-08 哈尔滨工业大学 一种中文零代词消解方法及系统
WO2019212006A1 (ja) * 2018-05-02 2019-11-07 株式会社Fronteoヘルスケア 事象予測装置、予測モデル生成装置および事象予測用プログラム
WO2019212005A1 (ja) * 2018-05-02 2019-11-07 株式会社Fronteoヘルスケア 危険行動予測装置、予測モデル生成装置および危険行動予測用プログラム
CN112074825A (zh) * 2018-05-02 2020-12-11 株式会社Fronteo 危险行为预测装置、预测模型生成装置以及危险行为预测用程序
CN112106040A (zh) * 2018-05-02 2020-12-18 株式会社Fronteo 事件预测装置、预测模型生成装置以及事件预测用程序
JP2019194807A (ja) * 2018-05-02 2019-11-07 株式会社Fronteoヘルスケア 危険行動予測装置、予測モデル生成装置および危険行動予測用プログラム
WO2020054186A1 (ja) * 2018-09-12 2020-03-19 株式会社Fronteo 認知症予測装置、予測モデル生成装置および認知症予測用プログラム
JP2020042659A (ja) * 2018-09-12 2020-03-19 株式会社Fronteo 認知症予測装置、予測モデル生成装置および認知症予測用プログラム
CN112470143A (zh) * 2018-09-12 2021-03-09 株式会社Fronteo 痴呆症预测装置、预测模型生成装置及痴呆症预测用程序
CN110413996B (zh) * 2019-07-15 2023-01-31 创新先进技术有限公司 构造零指代消解语料的方法及装置
CN110413996A (zh) * 2019-07-15 2019-11-05 阿里巴巴集团控股有限公司 构造零指代消解语料的方法及装置
WO2022113306A1 (ja) * 2020-11-27 2022-06-02 日本電信電話株式会社 対応装置、学習装置、対応方法、学習方法、及びプログラム

Similar Documents

Publication Publication Date Title
US10614106B2 (en) Automated tool for question generation
US11449556B2 (en) Responding to user queries by context-based intelligent agents
JP4065936B2 (ja) 機械学習法を用いた言語解析処理システムおよび機械学習法を用いた言語省略解析処理システム
KR102256240B1 (ko) 논팩토이드형 질의 응답 시스템 및 방법
Hermann et al. Semantic frame identification with distributed word representations
JP5936698B2 (ja) 単語意味関係抽出装置
US9262406B1 (en) Semantic frame identification with distributed word representations
US11210468B2 (en) System and method for comparing plurality of documents
JP5356197B2 (ja) 単語意味関係抽出装置
CN111666758A (zh) 中文分词方法、训练设备以及计算机可读存储介质
JP2005208782A (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
CN111274829A (zh) 一种利用跨语言信息的序列标注方法
JP2005181928A (ja) 機械学習システム及び機械学習方法、並びにコンピュータ・プログラム
Reshadat et al. A new open information extraction system using sentence difficulty estimation
Mahata et al. Simplification of English and Bengali sentences for improving quality of machine translation
US20230136889A1 (en) Fine-grained concept identification for open information knowledge graph population
Khoufi et al. Chunking Arabic texts using conditional random fields
Shahade et al. Deep learning approach-based hybrid fine-tuned Smith algorithm with Adam optimiser for multilingual opinion mining
Yesuf et al. Amharic Word Sense Disambiguation Using Wordnet
Agarwal et al. Gradient Boosted Trees for Identification of Complex Words in Context.
Stoikov Using Conditional Probability for Discovering Semantic Relationships be-tween Named Entities in Cultural Heritage Data
Astuti et al. Code-Mixed Sentiment Analysis using Transformer for Twitter Social Media Data
Bhana et al. Knowledge graph fusion for language model fine-tuning
Rhazi et al. Corpus-Based Extraction and Translation of Arabic Multi-Words Expressions (MWEs)
Boumahdi et al. Generating an Extract Summary from a Document

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080313

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080507

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090203