JP2005208782A

JP2005208782A - 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム

Info

Publication number: JP2005208782A
Application number: JP2004012558A
Authority: JP
Inventors: Daigo Sugihara; 大悟杉原; Hiroshi Masuichi; 博増市; Tomoko Okuma; 智子大熊; Hiroki Yoshimura; 宏樹吉村
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2004-01-21
Filing date: 2004-01-21
Publication date: 2005-08-04

Abstract

【課題】指示詞又はゼロ代名詞など照応詞が先行詞の語彙情報を失う照応関係を含むコーパス・テキストを用いた機械学習に基づいて自然言語の処理を好適に行なう。
【解決手段】学習データに指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析処理を施し、学習データ中の代名詞化又はゼロ代名詞化したテキストの主題を担う重要な表現を本来の語彙形態に戻して、学習データとして使用可能にし、よりテキストの意味を捉えた学習が可能となる。パラレル・コーパスを利用した機械学習手法では、より学習実行者の意図を反映した学習が可能となる。
【選択図】図１

Description

本発明は、人間が日常的なコミュニケーションに使用する自然言語を数学的に取り扱うための自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムに係り、特に、機械学習手法に基づいて自然言語の処理を行なう自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムに関する。

さらに詳しくは、本発明は、コーパスから言語の振る舞いに関するリソースを得て、機械学習に基づいて自然言語の処理を行なう自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムに係り、特に、指示詞やゼロ代名詞など照応詞が先行詞の語彙情報を失うような照応関係を含むコーパス・テキストを用いた機械学習に基づいて自然言語の処理を行なう自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムに関する。

日本語や英語など、人間が日常的なコミュニケーションに使用する言葉のことを「自然言語」と呼ぶ。多くの自然言語は、自然発生的な起源を持ち、人類、民族、社会の歴史とともに進化してきた。勿論、人は身振りや手振りなどによっても意思疎通を行なうことが可能であるが、自然言語により最も自然で且つ高度なコミュニケーションを実現することができる。

日本語や英語を始めとする各種の言語で記述される自然言語は、本来抽象的で曖昧性が高い性質を持つが、文章を数学的に取り扱うことにより、コンピュータ処理を行なうことができる。この結果、機械翻訳や対話システム、検索システム、質問応答システムなど、自動化処理により自然言語に関するさまざまなアプリケーション／サービスが実現される。

最近では、計算機環境が発達し大規模コーパスが整備される中、コーパスから言語の振る舞いに関するリソースを得て、形態素解析や構文解析などの自然言語処理ツール、あるいは、文書分類や単語語義曖昧性解消などに応用する手法が現在の自然言語処理研究の主流になりつつある。

また、計算機環境の発達により、コーパスはさまざまな言語において整備されている。２ヶ国語翻訳対集合は、対訳コーパス（パラレル・コーパス）とも呼ばれ、機械翻訳や多言語検索のアプリケーションを実現する上で極めて有用な自然言語リソースである。パラレル・コーパスを広く利用可能にするための研究も続けられており、徐々にその利便性は高まっている（例えば、非特許文献１、非特許文献２を参照のこと）。また、２ヶ国語翻訳対集合に対して機械学習手法を適用し、多言語検索や機械翻訳のための知見を得ようとする発明や研究にはさまざまな手法がある。対訳コーパスからの翻訳知識自動獲得に関する研究もなされている（例えば、非特許文献３を参照のこと）。

また、パラレル・コーパスを学習データとして、異なる言語で書かれた文書の各々を同一のベクトル空間上の文書ベクトルとして表現し、ベクトル間の内積の値を文書間の類似度であるとして多言語文書検索を行なう手法が提案されている（例えば、非特許文献２並びに非特許文献４を参照のこと）。

ところで、自然言語文には、「ある言語表現が、後に現れる言語表現と同じ内容や対象を指すという照応現象が散見される。例えば、下の例文では、１文目に現れた「太郎」という人名を表す表現を２文目では「彼」で置き換えて表現している。この「太郎」と「彼」は照応関係にあると言い、「太郎」が先行詞になり、「彼」が照応詞になっている。

１．太郎が本を買いました。
２．彼は雑誌二冊を買いました。

照応詞には、先行詞と同一又は同様の表現で先行詞の内容を繰り返すもの（名詞照応）や、あるいは、先行詞の表現を代名詞などの指示詞で置き換えたもの（指示詞による照応）などがある。また、照応詞の特別な場合としてゼロ代名詞というものがある。ゼロ代名詞とは、「テキスト中に繰り返し現われた表現のうち、省略されてテキストから見えなくなってしまったもの」である。下の例では、「０が」は実際には目には見えないが、読者にとっては、１文目の太郎を参照しているゼロ代名詞があるものとして読まれる。

１．太郎が本を買いました。
２．（０が）雑誌二冊を買いました。

照応現象の解析は、特に指示詞による照応やゼロ代名詞などの照応詞が先行詞の語彙形態を損なっている場合にこれを補完することが機械翻訳などの自然言語アプリケーションに有用であるとして、さまざまな研究が行なわれてきた。例えば、英語の指示詞の指示性に関する統計手法の研究や（例えば、非特許文献５を参照のこと）、日本語の指示詞及びゼロ代名詞の指示対象の同定に関するルールベース手法の研究（例えば、非特許文献６を参照のこと）など、多種多様な方法での研究がある。

英語においては、文法的に動詞が主語と目的語を明確に要求するため、ゼロ代名詞が出現するということは少ない。これに対し、日本語などでは頻出するため、特にゼロ代名詞照応解析は解決すべき課題として、日本語の照応解析研究では言及されてきた。

照応解析の中で、特にゼロ代名詞の解析に焦点を当てた研究は多くある。例えば、大規模なコーパスから確率分布を推定し、その確率の値によってゼロ代名詞の検出と補完に対することができる（例えば、非特許文献７を参照のこと）。

また、大規模コーパスから自動的に構築された格フレーム辞書によりゼロ代名詞の検出と補完を行なうことができる（例えば、非特許文献８を参照のこと）。

また、ゼロ代名詞を含む照応解析を組み込むことによって翻訳機の性能を高めることができる（例えば、特許文献１、特許文献２を参照のこと）

また、パラレル・コーパスを用いて、ある言語の表現ともう一方の言語の対訳文における省略要素の補完要素を自動的に抽出し、省略要素を補完する省略要素補完規則を自動的に作成するシステムに関して提案がなされている（例えば、特許文献３を参照のこと）。

さらには、検索対象の文書に対し指示詞やゼロ代名詞に関する照応解析を施し、検索性能の向上を図る情報検索装置に関して提案がなされている（例えば、特許文献４を参照のこと）。すなわち、文書データを構文解析する際に、指示詞やゼロ代名詞に関する照応解析処理により欠落している情報を補完し、検索処理することによって、欠落している情報を補完した状態で検索が可能となる。

しかしながら、従来は、コーパスを対象にして学習を行ない、何らかの言語的なリソースを得ようとする手法において、コーパス・テキスト内における指示詞やゼロ代名詞などの照応詞が先行詞の語彙形態を失うような照応現象を適切に処理してはこなかった。また、同様にパラレル・コーパスを用いた学習に際しても指示詞やゼロ代名詞などの照応詞が先行詞の語彙形態を失うような照応現象を考慮してこなかった。すなわち、既存の自然言語に関する手法では、学習データに対して形態素解析処理や構文解析処理・意味解析処理などを施すことはあっても、学習データに対して照応現象によって失われた語彙情報を考慮する照応解析処理を施すものはなかった。また、機械学習に際して、英語などのゼロ代名詞の出現しない言語と日本語などゼロ代名詞が頻出する言語の差について言及したものはなかった。

コーパスを用いた学習を行なう場合、学習の対象となるテキストの意味を、そのテキストを執筆した筆者の意図を正確に捉えて学習することが望ましいが、照応詞が先行詞の語彙情報を失うような照応現象はそれを阻害する。さらに、パラレル・コーパスを用いた学習においても、２つの言語間における照応現象の違いによって、２つの言語間の対応関係を損なってしまう。以下に簡単な例を挙げてこれを説明する。

ここで、カテゴリの付与されている対訳対を学習データとして、文書分類器を学習するタスクを考える。以下のテキストを基に学習する場合を考える。

・日本は海と関わりが深い。
Ｊａｐａｎｉｓｃｌｏｓｅｌｙａｓｓｏｃｉａｔｅｄｗｉｔｈｔｈｅｓｅａ．
・四方を海に囲まれ、
Ｉｔｉｓｓｕｒｒｏｕｎｄｅｄｂｙｔｈｅｓｅａｏｎａｌｌｓｉｄｅｓ．
・居住する人々は好んで魚を食べる。
Ｐｅｏｐｌｅｉｎｉｔａｒｅｆｒｉｅｎｄｓｆｏｒｆｉｓｈ．
・海を越えて様々な文化も伝えられた。
ＴｈｅｖａｒｉｏｕｓｃｕｌｔｕｒｅｓｗａｓｉｍｐｏｒｔｅｄｉｎｔｏＪａｐａｎｔｈｒｏｕｇｈｔｈｅｓｅａ．

このテキストの主題は、第１文の提題助詞「は」が後置する名詞である「日本」について述べられており、「日本」に関するテキストとしてラベル付けされているとする。

このとき、このテキストからテキストを自動分類するためのベクトル・モデルや確率分布を得るために、代名詞、冠詞などのストップ・ワードを除去し、同時に、問題を簡単にするために動詞も除くと、以下のような単語列となる。

・日本、海、Ｊａｐａｎｓｅａ
・四方、海、ｓｅａ、ｓｉｄｅｓ
・人々、魚、ｐｅｏｐｌｅｆｒｉｅｎｄｓ、ｆｉｓｈ
・海、文化、ｃｕｌｔｕｒｅｓ、Ｊａｐａｎ、ｓｅａ

このテキストの特徴を表す指標として、単語の出現頻度は単語ベクトルを作成したり確率分布を推定したりするときに用いられる。

日本１
四方１
人々１
文化１
魚１
海３
Ｊａｐａｎ２
ｓｅａ３
ｓｉｄｅｓ１
ｐｅｏｐｌｅ１
ｆｒｉｅｎｄｓ１
ｆｉｓｈ１
ｃｕｌｔｕｒｅｓ１

ここで注目すべきは、「海」及び「ｓｅａ」という単語の頻度がそれぞれ３であり、このテキスト中で最も出現頻度が高いということである。すなわち、ベクトル空間法であれ確率分布を用いる手法であれ、このテキストから学習した場合、「海」及び「ｓｅａ」という単語が「日本」というラベル付けに対して大きな影響を与えているという結論を得る。しかし、その場合だと、「海」や「ｓｅａ」といった単語を含む別の国のテキストに対して「日本」のラベルをはるような誤った学習をしてしまう恐れがある。これは、テキスト中の主語や目的語が指示詞化したか、ゼロ代名詞として省略されてしまった場合に、その本来の語彙形態を失ってしまい、学習データとして用いることができないためである。

語彙の代名詞化やゼロ代名詞化は、その語彙がテキスト中に何度も言及されて冗長であるが故に発生する現象である。そして、それは裏返って指示詞化あるいはゼロ代名詞化した語彙というものはテキストの主題や特徴を表す最も重要な語彙だということである。この場合だと、むしろ「日本」や「Ｊａｐａｎ」という単語が「日本」というカテゴリに対してより重要であるということを学習しなければならない。

また、上記テキストでは「日本」の出現頻度は１であるが、英語対訳にあたる「Ｊａｐａｎ」の出現頻度は２である。このとき、日本語の「日本」の単語頻度はゼロ代名詞の部分が目減りしていることになり、「日本」よりも「Ｊａｐａｎ」の方がラベル付けに対して大きな影響を持つことになる。もし、同じ内容の対訳文書ペアであるが片方のペアではゼロ代名詞が頻出し、もう片方のペアではゼロ代名詞が出現しなかった場合には、同じ内容の対訳文書であったとしても、異なる学習結果が生成されてしまうことになる。つまり、対訳ペアの日本語文書におけるゼロ代名詞の出現が、システムの性能に対して本来システムが意図しない影響を与える恐れがある。

このことは、広く一般的に、対訳コーパス中のテキストペアからペアごとに素性を抽出して学習を行なう場合には生じる恐れのある現象である。通常、対訳コーパスを用いて機械学習を行なう場合には、対訳ペアは言語が異なっていても同じ内容として学習を行なうが、ゼロ代名詞が含まれている場合には、対訳ペアの間には語彙的な齟齬が生じ易い。

特開平０７−０９３３３３号公報特開２００２−０５５９７７号公報特開平１０−２６９２１５号公報特開平０９−１７９８７５号公報内山将夫、井佐原均著「日英新聞の記事および文を対応付けるための高信頼性尺度」（自然言語処理，Ｖｏｌ．１０，Ｎｏ．４，ｐｐ．２０１−２２０，２００３）ＨｉｒｏｓｈｉＭａｓｕｉｃｈｉ，ＲａｙｍｏｎｄＦｌｏｕｒｎｏｙ，ＳｔｅｆａｎＫａｕｆｍａｎｎ，ＳｔａｎｌｅｙＰｅｔｅｒｓ，"ＡＢｏｏｔｓｔｒａｐｐｉｎｇＭｅｔｈｏｄｆｏｒＥｘｔｒａｃｔｉｎｇＢｉｌｉｎｇｕａｌＴｅｘｔＰａｉｒｓ"（ＩｎｔｈｅＰｒｏｃｅｅｄｉｎｇｓｏｆＴｈｅ１８ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ，ｐｐ．１０６６−１０７０，２０００）荒牧英治、黒橋禎夫、佐藤理史、渡辺日出雄共著「用例ベース翻訳のためのパラレル・コーパスからの対訳対発見」（情報処理学会研究会自然言語処理１４４−４，ｐｐ．２３−３０，２００１）ＨｉｒｏｓｈｉＭａｓｕｉｃｈｉ，ＲａｙｍｏｎｄＦｌｏｕｒｎｏｙ，ＳｔｅｆａｎＫａｕｆｍａｎｎＡＮＤＳｔｅｆａｎＰｅｔｅｒｓ，"ＱｕｅｒｙＴｒａｎｓｌａｔｉｏｎＭｅｔｈｏｄｆｏｒＣｒｏｓｓＬａｎｇｕａｇｅＩｎｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌ"（ＴｈｅＰｒｏｃｅｅｄｉｎｇｓｏｆＭａｃｈｉｎｅＴｒａｎｓｌａｔｉｏｎＳｕｍｍｉｔ’９９ＷｏｒｋｓｈｏｐｏｎＭａｃｈｉｎｅＴｒａｎｓｌａｔｉｏｎｆｏｒＣｒｏｓｓＬａｎｇｕａｇｅＩｎｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌ，１９９９）ＸｉａｏｆｅｎｇＹａｎｇ，ＧｕｏｄｏｎｇＺｈｏｕ，ＪｉａｎＳｕａｎｄＣｈｅｗＬｉｍＴａｎ，"ＣｏｒｅｆｅｒｅｎｃｅＲｅｓｏｌｕｔｉｏｎＵｓｉｎｇＣｏｍｐｅｔｉｔｉｏｎＬｅａｒｎｉｎｇＡｐｐｒｏａｃｈ"（ＩｎｔｈｅＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ４１ｓｔＡｎｎｕａｌＭｅｅｔｉｎｇｓｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ，ｐｐ．１７６−１８３，２００３）村田真樹、長尾真共著「用例や表層表現を用いた日本語文章中の指示詞・代名詞・ゼロ代名詞の指示対象の推定」（自然言語処理，Ｖｏｌ.４，Ｎｏ．１，ｐｐ．８７−１０９，１９９７）ＫａｚｕｈｉｒｏＳｅｋｉ，ＡｔｓｕｓｈｉＦｕｊｉｉａｎｄＴｅｔｓｕｙａＩｓｈｉｋａｗａ，"ＡＰｒｏｂａｂｉｌｉｓｔｉｃＭｅｔｈｏｄｆｏｒＡｎａｌｙｚｉｎｇＪａｐａｎｅｓｅＡｎａｐｈｏｒａＩｎｔｅｇｒａｔｉｎｇＺｅｒｏＰｒｏｎｏｕｎＤｅｔｅｃｔｉｏｎＡＮＤＲｅｓｏｌｕｔｉｏｎ"（ＩｎｔｈｅＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１９ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ (ＣＯＬＩＮＧ２００２)，ｐｐ．９１１−９１７，２００２）河原大輔、黒橋禎夫共著「自動構築された格フレーム辞書に基づく省略解析の大規模評価」（言語処理学会第９回年次大会，２００３）

本発明の目的は、コーパスから言語の振る舞いに関するリソースを得て、機械学習に基づいて自然言語の処理を好適に行なうことができる、優れた自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムを提供することにある。

本発明のさらなる目的は、指示詞やゼロ代名詞などの照応詞が先行詞の語彙形態を失う照応関係を含むコーパス・テキストを用いた機械学習に基づいて自然言語の処理を好適に行なうことができる、優れた自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムを提供することにある。

本発明は、学習データを利用した機械学習に基づいて自然言語処理を行なう際に、学習データとしてのコーパスに格納されたテキスト中の主語や目的語が指示詞化し、又はゼロ代名詞として省略されてしまった場合であっても、主語や目的語がその本来の語彙形態を失うことにより学習データとして用いることができなくなることを防ぐとともに、パラレル・コーパスを用いた場合には対訳ペアの間の語彙的な齟齬を回避することを目的とする。

本発明は、上記課題を参酌してなされたものであり、その第１の側面は、機械学習に基づく自然言語処理を行なう自然言語処理システムであって、
学習データを保持する初期学習データ保持手段と、前記初期学習データ保持手段中の学習データを指示詞及びゼロ代名詞のうち少なくとも一方に関して照応解析する照応解析処理手段と、前記照応解析処理手段により照応解析済みの学習データを用いて機械学習を行なう機械学習手段と、非学習データを入力する非学習データ入力手段と、前記機械学習手段による機械学習結果を用いて非学習データに対して評価を行なう学習結果適用手段とを具備することを特徴とする自然言語処理システムである。

この自然言語処理システムは、例えば文書分類や文書検索、機械翻訳や多言語検索などのアプリケーションに適用することができる。

また、この自然言語処理システムは、初期学習データ保持手段中の学習データを照応解析に適した形式のデータ構造に変換する照応解析前処理手段と、指示詞及びゼロ代名詞のうち少なくとも一方に関して照応解析を行なうための言語的リソースを保持する照応解析リソース保持手段をさらに備えている。そして、前記照応解析処理手段は、前記照応解析前処理手段により作成されたデータに対して前記照応解析リソース保持手段中の言語的リソースを用いて指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析処理を行なうことができる。

自然言語処理において、学習データとしてのコーパスから言語の振る舞いに関するリソースを得て機械学習を行なう場合、コーパス・テキスト中に「ある言語表現が、後に現れる言語表現と同じ内容や対象を指すという照応現象が散見される。先に現れる表現を先行詞、後に現れる表現を照応詞という。照応詞には、先行詞と同一又は同様の表現で先行詞の内容を繰り返すもの（名詞照応）や、あるいは、先行詞の表現を代名詞などの指示詞で置き換えたもの（指示詞による照応）などがある。また、照応詞の特別な場合としてゼロ代名詞というものがある。

コーパスのテキスト中の主語や目的語が代名詞化し又はゼロ代名詞として省略された結果として、主語や目的語がその本来の語彙形態を失ってしまい、学習データとして用いることができなくなる。また、パラレル・コーパスを用いた場合には対訳ペアの間の語彙的な齟齬を生じてしまう。

そこで、本発明に係る自然言語処理システムでは、学習システムが学習データとして用いるテキストに対して指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析処理を行なうようにした。この結果、非学習データに対する評価の精度を向上することができる。

また、本発明に係る自然言語処理システムは、単一の言語だけでなく、多言語についても対応することができる。

このような場合、前記初期学習データ保持手段は、第１の言語で記述された文書と、該第１の文書を第２の言語に翻訳した対訳文書からなる対訳対の集合を学習データとして保持し、前記照応解析リソース保持手段は、第１の言語に対して指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析を行なうための第１の言語照応解析リソース、及び第２の言語に対して指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析を行なうための第２の言語照応解析リソースを保持する。そして、前記照応解析手段は、第１の言語照応解析リソースを利用して第１の言語で記述された学習データに対して指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析処理を行なうとともに、第２の言語照応解析リソースを利用して第２の言語で記述された学習データに対して指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析処理を行ない、前記機械学習手段は、第１の言語及び第２の言語で記述された照応解析済みの学習データを用いて機械学習を行なう。したがって、第１の言語で記述された文書と第２の言語で記述された文書が混在する非学習データが入力されると、前記学習結果適用手段は、前記機械学習手段による機械学習結果を用いて非学習データに対して評価を行なうことができる。

また、本発明に係る自然言語処理システムは、前記非学習データ入力手段に入力された非学習データを指示詞及びゼロ代名詞のうち少なくとも一方に関して照応解析する第２の照応解析手段をさらに備えていてもよい。学習データを指示詞及びゼロ代名詞のうち少なくとも一方に関して照応解析することにより、本発明者らの意図に忠実な自然言語処理を実現することは可能であるが、このように学習データと非学習データの双方に指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析を適用することにより、本システムを例えば文書分類や文書検索、機械翻訳や多言語検索などのアプリケーションに適用した際における非学習データの評価の精度をより向上することができる。例えばベクトル空間モデルによる文書分類の手法では、ベクトルの類似度によって評価を行なうが故に、分類の対象となる文書に対して照応解析を行なうならばより効果的である。

前記機械学習手段は、学習データとしてのテキストに現れる、単語や表現の出現など、統語上の現象を素性として用い、機械学習を行なう。したがって、前記照応解析手段により学習データに指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析を施すことにより、統語情報を補完することができ、この結果、機械学習の精度を向上させることができる。

本発明に係る自然言語処理システムでは、さまざまな照応解析処理手法を適用することができる。例えば、パラレル・コーパスの日本語テキストに対しては、指示詞の照応解析に対しては非特許文献６に記載の手法を適用し、ゼロ代名詞補完処理には非特許文献７に記載の手法を適用し、対訳英語テキスト部分の代名詞照応解析には非特許文献５に記載の手法を適用することができる。

例えば、上述した対訳例文に対して、日本語照応解析処理と、英語照応解析処理を行った場合には、以下のような対訳対となる。

・日本は海と関わりが深い。
Ｊａｐａｎｉｓｃｌｏｓｅｌｙａｓｓｏｃｉａｔｅｄｗｉｔｈｔｈｅｓｅａ．
・四方を海に日本が囲まれ、
Ｊａｐａｎｉｓｓｕｒｒｏｕｎｄｅｄｂｙｔｈｅｓｅａｏｎａｌｌｓｉｄｅｓ．
・日本に居住する人々は好んで魚を食べる。
ＰｅｏｐｌｅｉｎＪａｐａｎａｒｅｆｒｉｅｎｄｓｆｏｒｆｉｓｈ．
・海を越えて様々な文化も日本に伝えられた。
ＴｈｅｖａｒｉｏｕｓｃｕｌｔｕｒｅｓｗａｓｉｍｐｏｒｔｅｄｉｎｔｏＪａｐａｎｔｈｒｏｕｇｈｔｈｅｓｅａ．

ストップ・ワードと動詞を除いた単語頻度は以下のようになる。

日本４
四方１
人々１
文化１
魚１
海３
Ｊａｐａｎ４
ｓｅａ３
ｓｉｄｅｓ１
ｐｅｏｐｌｅ１ｆｒｉｅｎｄｓ１
ｆｉｓｈ１
ｃｕｌｔｕｒｅｓ１

このように、コーパス・テキストに対して指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析処理を適用することにより、「日本」と「Ｊａｐａｎ」の単語頻度がそれぞれ４となり、「海」や「ｓｅａ」を上回る頻度となる。これにより、「海」や「sea」といった単語よりも、本来の主題を表す「日本」と「Ｊａｐａｎ」が学習結果に対してより大きな影響を与えることができるようになる。また、「日本」と「Ｊａｐａｎ」の単語頻度は同数となり、学習結果に対する日英単語対訳のバランスも取れることになる。

指示詞化した単語やゼロ代名詞化した単語は、テキスト中で何度も言及されている表現であり、テキストの主題を担う重要な単語である場合が多い。これら失われてしまった重要単語を、照応解析処理により本来の語彙形態に戻してやることで学習データとして使用可能し、指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析処理を行なわない学習データによる機械学習と比較して、よりテキストの意味を捉えた学習が可能となる。また、パラレル・コーパスを利用した機械学習手法においても、一方の言語におけるゼロ代名詞の出現による対訳単語間の齟齬を防ぎ、学習データに照応解析処理を行なわない機械学習と比較して、コーパスに発生しているゼロ代名詞に左右されず、より学習実行者の意図を反映した学習が可能となる。

図１には、本発明に係る自然言語処理システムの機能構成を模式的に示している。同図に示すように、このシステムは、初期データ保持部１と、照応解析前処理部２と、照応解析リソース保持部３と、照応解析処理部４と、機械学習部５と、学習結果適用部６と、非学習データ保持部７で構成される。

初期データ保持部１は、学習データとして使用するコーパスを保持している。照応解析前処理部２は、初期学習データ保持部１に学習データとして保持されているコーパス・テキストを、照応解析し易いデータ構造の表現となるように形式変換を行なう。

照応解析前処理部２は、学習データとしてのテキストの言語に応じた形態素解析処理及び構文解析処理を行なう。文書を形態素解析処理及び構文解析処理を行なうことにより、統語上の現象を素性として扱うことができるようになる。

ここで、形態素とは、言語学において、単語や接辞など、文法上、最小の単位となる要素のことである。したがって、形態素解析では、形態素の文法的属性（品詞や活用など）を同定するために、単語を分割して品詞付けを行なう。また、構文解析では、文法規則などを基に句構造などの文の構造を解析する。文法規則が木構造であることから、構文解析結果は一般に個々の形態素が係り受け関係などを基にして接合された木構造となる。例えば、ＬｅｘｉｃａｌＦｕｎｃｔｉｏｎａｌＧｒａｍｍａｒ（ＬＦＧ）文法理論に基づく構文解析を利用することができる。

照応解析リソース保持部３は、指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析を行なうための言語的リソースを保持している。そして、照応解析処理部４は、照応解析リソース保持部３に保持されている言語的リソースを用いて、照応解析前処理部２で作成されたデータに対して指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析を行なう。ここではさまざまな照応解析処理手法を適用することができる（前述）。

機械学習部５は、照応解析済みの学習データを用いて機械学習を行なう。照合前処理として形態素解析及び構文解析を行なう場合には、学習データとしてのテキストに現れる、単語や表現の出現など、統語上の現象を素性として用い、学習データの素性と評価の間の対応規則を行なう。

ここで、機械学習部５は、例えば、ベクトル空間法に基づいてテキスト・データの素性と評価の間の対応規則を計算し、文書を定量的に表現することができる。ここで言うベクトル空間法とは、全テキスト・データに含まれる全単語のうち出現頻度の多い所定数のものを「特徴表現語」として抽出し、各単語と特徴表現語が共起（同じテキスト・データで出現）する回数を共起行列として表した単語ベクトルを生成し、次いで、対象とするテキスト・データに含まれる全単語の単語ベクトルの総和を正規化した文書ベクトルを生成し、評価対象となるテキスト・データについても同様の評価文書ベクトルを生成し、各分類の文書ベクトルと評価文書ベクトルとの内積により、評価対象のテキスト・データを分類することができる。

あるいは、機械学習部５は、確率モデルを用いて文書を定量的に表現するようにしてもよい。このような場合、学習結果適用部６は、確率モデルを用いて文書分類を行なうことができる。

非学習データ保持部７は、評価対象となる非学習データをあらかじめ保持し、あるいは随時システム外から入力する。そして、学習結果適用部６は、機械学習部５による機械学習の結果を用いて非学習データに対して何らかの評価を行なう。

また、本発明の第２の側面は、学習データを利用した機械学習に基づいて自然言語処理を行なうための処理をコンピュータ・システム上で実行するようにコンピュータ可読形式で記述されたコンピュータ・プログラムであって、
初期の学習データを照応解析に適した形式のデータ構造に変換する照応解析前処理ステップと、前記照応解析前処理ステップにおいて作成されたデータに対して、指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析を行なうための言語的リソースを用いて照応解析処理を行なう照応解析処理ステップと、前記照応解析処理ステップにおいて照応解析済みの学習データを用いて機械学習を行なう機械学習ステップと、前記機械学習ステップにおける機械学習結果を用いて非学習データに対して評価を行なう学習結果適用ステップとを具備することを特徴とするコンピュータ・プログラムである。

本発明の第２の側面に係るコンピュータ・プログラムは、コンピュータ・システム上で所定の処理を実現するようにコンピュータ可読形式で記述されたコンピュータ・プログラムを定義したものである。換言すれば、本発明の第２の側面に係るコンピュータ・プログラムをコンピュータ・システムにインストールすることによって、コンピュータ・システム上では協働的作用が発揮され、本発明の第１の側面に係る自然言語処理システムと同様の作用効果を得ることができる。

本発明によれば、コーパスから言語の振る舞いに関するリソースを得て、機械学習に基づいて自然言語の処理を好適に行なうことができる、優れた自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムを提供することができる。

また、本発明によれば、指示詞やゼロ代名詞など照応詞が先行詞の語彙形態を失うような照応関係を含むコーパス・テキストを用いた機械学習に基づいて自然言語の処理を好適に行なうことができる、優れた自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムを提供することができる。

本発明に係る自然言語処理システムでは、学習データに対して指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析処理を施すことによって、学習データ中の代名詞化あるいはゼロ代名詞化したテキストの主題を担う重要な表現を本来の語彙形態に戻してやることにより学習データとして使用可能にするとともに、指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析処理を行なわない学習データによる機械学習と比較して、よりテキストの意味を捉えた学習が可能となる。また、パラレル・コーパスを利用した機械学習手法においても、一方の言語におけるゼロ代名詞の出現による対訳単語間の齟齬を防ぎ、学習データに指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析処理を行わない機械学習と比較して、コーパスに発生しているゼロ代名詞に左右されず、より学習実行者の意図を反映した学習が可能となる。

したがって、本発明に係る機械学習に基づく自然言語処理システムによれば、よりテキストの意味をとらえた処理が可能となる。

本発明のさらに他の目的、特徴や利点は、後述する本発明の実施形態や添付する図面に基づくより詳細な説明によって明らかになるであろう。

以下、図面を参照しながら本発明の実施形態について詳解する。

図２には、本発明の一実施形態に係る自然言語処理システムの機能構成を模式的に示している。図示の自然言語処理システムは、日英のパラレル・コーパスに対して指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析システムを適用し、ベクトル空間法による文書自動分類システムのための学習を行なうことを想定しており、初期学習コーパス保持部１１と、未分類文書保持部１２と、対訳データ分離部１３と、照応解析前処理部１４と、日本語リソース保持部１５と、英語照応解析リソース保持部１６と、日本語照応解析部１７と、英語照応解析部１８と、単語ベクトル生成部１９と、文書ベクトル生成部２０と、カテゴリ・ベクトル生成部２１と、学習結果保持部２２と、文書分類部２３で構成される。この自然言語処理システムは、実際には、パーソナル・コンピュータのような一般的な計算機システムに所定の機械学習アプリケーションを実行するという形態で実現される。

なお、本実施形態では、日英のパラレル・コーパスに対して指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析システムを適用し、ベクトル空間法による文書自動分類システムのための学習を行なうことを想定しているが、勿論、パラレル・コーパスでない単一言語によるコーパスを用いる学習システムに対しても「指示詞やゼロ代名詞の出現などの照応現象により学習データから失われてしまう語彙の情報を復元し、よりテキストの意味を捉えた学習が可能である」という効果を得ることができる。また、テキスト自動分類のための学習データのみならず、テキスト中の語彙から素性を得るあらゆる機械学習手法を用いた自然言語処理システムに対しても適用することができることを理解されたい。

初期学習コーパス保持部１１は、日本語文書とその英訳である英語文書の対と、それに対してあらかじめ付与された文書のカテゴリを表すラベルを複数、計算機内に保持している。

未分類文書保持部１２は、未分類の日本語文書と英語文書を格納している。あらかじめ日英に分離されて文書は格納されているとする。未分類文書保持部１２中の日英文書間に対訳関係がある必要はない。

対訳データ分離部１３は、対訳コーパスとして保存されている日本語文書と英語文書を分離する。本実施形態では、初期学習コーパスとして保持されている対訳関係にある日本語文書と英語文書を各言語に応じた形態素解析処理・構文解析処理を施すためにそれぞれの言語毎に分離して保持している。照応解析処理を行なうためには、テキストに対して各言語用の形態素解析処理や構文解析処理を行なった上で、それぞれの言語に合わせた指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析手法を用いることになる。したがって、パラレル・コーパスの２つの言語を分けた方が処理が簡単なため、ここでパラレル・コーパスを２つに分ける。その際、本実施形態では、対訳対に振られたラベル付けを別の配列にあらかじめ格納しておく。これをラベル付け格納配列とする。

照応解析前処理部１４は、コーパスの文書に対して照応解析を行ない易いようなデータ構造で表現する。本実施形態では、対訳データ分離部１３で分離された日本語文書と英語文書に対して、照応解析前処理として、それぞれの言語に応じた形態素解析処理及び構文解析処理を行なう。文書を形態素解析処理及び構文解析処理を行なうことにより、統語上の現象を素性として扱うことができるようになる。

ここで、形態素とは、言語学において、単語や接辞など、文法上、最小の単位となる要素のことである。したがって、形態素解析では、形態素の文法的属性（品詞や活用など）を同定するために、単語を分割して品詞付けを行なう。また、構文解析では、文法規則などを基に句構造などの文の構造を解析する。文法規則が木構造であることから、構文解析結果は一般に個々の形態素が係り受け関係などを基にして接合された木構造となる。

本実施形態では、ＬｅｘｉｃａｌＦｕｎｃｔｉｏｎａｌＧｒａｍｍａｒ（ＬＦＧ）文法理論に基づく構文解析を利用する。ＬＦＧでは、ネイティブ・スピーカの言語知識すなわち文法ルールを、コンピュータ処理や、コンピュータの処理動作に影響を及ぼすその他の非文法的な処理パラメータとは切り離したコンポーネントとして構成しており、単語や形態素などからなる文章の句構造を木構造として表した“ｃ−ｓｔｒｕｃｔｕｒｅ（ｃｏｎｓｔｉｔｕｅｎｔｓｔｒｕｃｔｕｒｅ）”と、主語、目的語などの格構造に基づいて入力文を疑問文、過去形、丁寧文など意味的・機能的に解析した結果として“ｆ−ｓｔｒｕｃｔｕｒｅ（ｆｕｎｃｔｉｏｎａｌｓｔｒｕｃｔｕｒｅ）”を出力する。

なお、ＬＦＧの詳細に関しては、例えばＲ．Ｍ．Ｋａｐｌａｎ及びＪ．Ｂｒｅｓｎａｎ共著の論文“Ｌｅｘｉｃａｌ−ＦｕｎｃｔｉｏｎａｌＧｒａｍｍａｒ：ＡＦｏｒｍａｌＳｙｓｔｅｍｆｏｒＧｒａｍｍａｔｉｃａｌＲｅｐｒｅｓｅｎｔａｔｉｏｎ”（ＴｈｅＭＩＴＰｒｅｓｓ，Ｃａｍｂｒｉｄｇｅ（１９８２）．ＲｅｐｒｉｎｔｅｄｉｎＦｏｒｍａｌＩｓｓｕｅｓｉｎＬｅｘｉｃａｌ−ＦｕｎｃｔｉｏｎａｌＧｒａｍｍａｒ，ｐｐ．２９−１３０．ＣＳＬＩｐｕｂｌｉｃａｔｉｏｎｓ，ＳｔａｎｆｏｒｄＵｎｉｖｅｒｓｉｔｙ（１９９５）．）、Ｄａｌｒｙｍｐｌｅ，Ｍ．著"ＳｙｎｔａｘａｎｄＳｅｍａｎｔｉｃｓ −ＬｅｘｉｃａｌＦｕｎｃｔｉｏｎａｌＧｒａｍｍａｒ"（ＡｃａｄｅｍｉｃＰｒｅｓｓ，２００１）及び当該論文中の引用文献などに記述されている。また、日本語ＬＦＧによる意味解析処理については、増市博、大熊智子共著「ＬｅｘｉｃａｌＦｕｎｃｔｉｏｎａｌＧｒａｍｍａｒに基づく実用的な日本語解析システムの構築」（自然言語処理，Ｖｏｌ．１０，Ｎｏ．２，ｐｐ．７９−１０９，言語処理学会，２００３）などに記載されている。

照応解析前処理部１４は、ＬＦＧに基づく日本語解析システムを用いて、日本語文書に対しては日本語文法を用いた解析を行ない、英語文書に対しては英語文法を用いて解析を行なう。また、解析結果は文書対（未分類の文書は文書単体）ごとのオブジェクト内にある配列に格納される。

図３には、ラベル付け格納配列と文書毎のオブジェクトのイメージを示している。オブジェクト内の配列については以下に説明を行なう。

日本語文書の構文解析結果から、文書中に出現した名詞や指示詞のうち指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析の対象となるものを配列に格納する。これを日本語照応解析対象名詞配列と呼ぶ。同時に文書自動分類に用いる単語の並びも配列に格納しておく。

このとき、本来はストップ・ワードとして除去してしまう代名詞なども、除去せずに配列内に格納しておく。これを日本語単語配列とする。

同様に、英語文書の構文解析結果から、文書中に出現した名詞や指示詞のうち指示詞に関する照応解析の対象となるものを配列に格納し、これを英語照応解析対象名詞配列とする。また、文書自動分類の学習時に用いる単語の並びも配列に格納しておく。これも、日本語の場合と同様に、本来はストップ・ワードとして除去してしまう代名詞なども除去せずに配列内に格納しておく。これを英語単語配列とする。

また、日本語文書構文解析結果から、テキスト中の各用言に対して名詞や指示詞が何格で係り受け関係にあるかの情報も配列に格納しておく。これを日本語用言格納配列と呼ぶ。

同様に、英語文書構文解析結果からは、テキスト中の各動詞に対して、どの名詞や指示詞が主語になっているのか、あるいは目的語なのか、などの情報を配列に格納しておく。これを英語用言格納配列とする。

そして、日本語文書、並びに英語文書構文解析結果から、指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析に必要な素性を、用言とその照応解析対象となる名詞句や指示詞毎に作成し、日本語照応解析素性配列、及び英語照応解析素性配列として、それぞれに格納する。ここで言う素性とは、「用言と照応解析の対象となっている名詞が何文だけ離れているか」などの、照応解析システムが照応現象を解析する際に、現象に対して何らかの判定を行なう材料となる情報である。これら素性配列は、日本語照応解析部１７と英語照応解析部１８のそれぞれに必要なものを格納する。

図４には、対訳文書オブジェクト内の日本語に関する配列の実装上のイメージを示している。

日本語用言格納配列には、処理対象となっている文書に出現する用言を、当該文書内での出現順に配列している。同図に示す例では、「深い」、「囲む：られる」、「居住：する」、「好む」、「食べる」、「超える」、「伝える：られる」の順に用言が格納されている。

日本語用言格納配列に格納されている各配列には、日本語単語配列へのポインタと、当該用言の係り受け関係と、日本語照応解析素性配列へのポインタが記述されている。

例えば、日本語用言格納配列に用言２として格納されている「囲む：られる」は、日本語単語配列の単語１３へのポインタを持つ。また、用言の係り受け関係は格フレーム辞書（結合価辞書）を参照して特定されるが、用言「囲む：られる」については「ガ格」、「ヲ格」、並びに「ニ格」を持ち、それぞれの格は日本語照応解析対象名詞配列へのポインタを持つ。このうち「ガ格」の係り受け関係は照応現象により省略されてテキストから見えなくなってしまっており、後述の照応解析によりゼロ代名詞である旨を記述することができる。

日本語照応解析素性配列は、日本語用言格納配列に格納されている各用言についての素性の集合で構成される。用言の素性集合は、例えば先行詞の候補と用言が共起する確率や、これらの出現位置の距離など、指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析に必要な素性情報で構成される。

これら日本語英語双方の各配列、すなわち、用言格納配列、照応解析対象名詞配列、単語配列、照応解析素性配列は、照応解析前処理により対訳文書毎に作成し、対訳文書毎のオブジェクト内に格納する。文書自動分類の機械学習と照応解析は文書を単位に適用されるからである。

日本語照応解析リソース保持部１５は、指示詞及びゼロ代名詞のうち少なくとも一方に関する日本語照応解析のための言語的なリソースを保持している。例えば、非特許文献８で使用される格フレーム辞書など、照応解析の手法に応じたリソースを照応解析に前以って保持する。

また、英語照応解析リソース保持部１６は、指示詞に関する英語照応解析のための言語的リソースを保持する。例えば、非特許文献５に記載されている英語照応関係タグ付きのコーパスから学習された分類器が格納される。

日本語照応解析部１７と英語照応解析部１８により、対訳文書毎に指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析処理を行なう。

日本語照応解析部１７により、日本語用言格納配列中の用言についてゼロ代名詞を検出する。そして、用言が指示詞やゼロ代名詞と係り受け関係にあるならば、その照応解析手法に基づき、日本語照応解析リソース保持部１５に格納されている言語的リソース及び日本語照応解析素性配列を用いて、日本語照応解析対象名詞配列内に格納されている対象指示詞又はゼロ代名詞の先行詞候補に対してランキングを行ない、第１位の先行詞候補を先行詞として認識する。

同様に、英語照応解析部１８により、英語用言格納配列中に指示詞を持つならば、その照応解析手法に基づき、英語照応解析リソース保持部１６に格納されている言語的リソース及び英語照応解析素性配列を用いて、英語照応解析対象名詞配列内に格納されている対象指示詞の先行詞候補に対してランキングを行ない、ランキング第１位のものを対象指示詞の先行詞として認識する。

日英それぞれの照応解析部１７及び１８は、指示詞の先行詞を見つけた場合に、日英双方の単語配列の該当する指示詞部分を先行詞の名詞で置き換える。また特に、日本語照応解析部１７は、ゼロ代名詞の先行詞を見つけたならば日本語単語配列の対象用言の直前に先行詞の名詞を挿入する。

単語ベクトル生成部１９及び文書ベクトル生成部２０は、機械学習手段に相当し、ベクトル空間法に基づいてテキスト・データの素性と評価の間の対応規則を計算する。上述したように指示詞及びゼロ代名詞のうち少なくとも一方に関ｒ．照応解析により消失した照応関係が復元することから、単語ベクトルを正確に作成することができ、さらに後続の処理の精度を向上することができる。

単語ベクトル生成部１９は、日本語文書及び英語文書に含まれる単語に対して、対応する多次元ベクトルすなわち単語ベクトルを計算する。文書自動分類のタスクは、分類したいカテゴリを検索質問と捉えることにより、本質的には情報検索タスクと同じだと考えることができる。例えば、非特許文献４に記載されている多次元ベクトル空間法による多言語情報検索手法を参考にして文書自動分類を行なっている。本実施形態では、非特許文献４に記載されている手法に基づいて、文書自動分類に関する学習のために、まず、日英の照応解析処理手段から得られたすべての日英学習データ配列中の単語を用いて単語ベクトルを計算する。以下にその過程を説明する。

ステップ１：
処理対象とするすべての日本語文書及び英語文書に対して形態素解析処理を施し、単語に分割する。但し、学習データを生成する際には、あらかじめ照応解析前処理部１４にて形態素解析処理が施され、単語は日英の単語配列に格納されているので、このステップはスキップされる。未分類文書保存部１２中に格納されている、カテゴリに分類されていない文書に対して分類を行なうために多次元ベクトルを計算する際にはステップ１を実行する。

ステップ２：
処理対象とする日本語単語配列及び英語単語配列の中からすべての単語を取り出し、助詞、指示詞や冠詞などのストップ・ワードを除去した上で、出現頻度の上位ｎ個の単語を選択し、これを基底語とする。本実施形態では、日英の学習コーパスともに指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析処理が行なわれておいる。したがって、本来ならば、代名詞やゼロ代名詞となってしまい基底語として用いることができなくなっているテキストの主題を表すような重要な単語も、指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析によって補完されているので、文書上の意味をとらえた頻度によって行列の作成に用いることができる。

ステップ３：
ステップ２において日英単語配列内から取得したすべての単語からストップ・ワードを除いたものを行とし、且つ、ステップ２で得られた基底語を列とする行列を作成する。ここにおいても、代名詞など本来ノイズとして学習データから取り除かれてしまうような語彙も、本実施形態においては指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析によって補完されているため、行列の要素として用いることができる。

この行列の各要素には、その要素の行に対応する単語と列に対応する基底語とが、学習データ内に含まれるすべての日英対訳文書内で何度共起（すなわち同じ文書内で同時に出現している）しているかを記録する。こうして得られた行列のことを「共起行列」と呼ぶことにする。このようにして、すべての日英対訳文書中の全単語をそれぞれｎ次元のベクトルで表現する共起行列を作成することができる。このベクトルは、すべての日英対訳文書中において、各単語がどのようなコンテキストで出現し易い傾向にあるかを示すベクトルであると言える。

ステップ４：
ステップ３で得られたｎ次元のベクトルの次元数が大きいならば、ステップ３で得られたベクトルを行列の次元圧縮法によりｎ'次元（数百次元）まで圧縮する。ベクトルの次元が大き過ぎると、計算が実時間内で終わらない可能性があるからである。次元圧縮手法にはさまざまなものが存在するが、例えばＢｅｒｒｙ，Ｍ．、Ｄｏ，Ｔ．、Ｏ’Ｂｒｉｅｎ，Ｇ．、Ｋｒｉｓｈｎａ，Ｖ．及びＶａｒａｄｈａｎ，Ｓ．共著“ＳＶＤＰＡＣＫＣＵＳＥＲ’ＳＧＵＩＤＥ”（Ｔｅｃｈ．Ｒｅｐ．ＣＳ−９３−１９４．ＵｎｉｖｅｒｓｉｔｙｏｆＴｅｎｎｅｓｓｅｅ，Ｋｎｏｘｖｉｌｌｅ，ＴＮ（１９９３））で詳細な説明がなされているＳｉｎｇｕｌａｒＶａｌｕｅＤｅｃｏｍｐｏｓｉｔｉｏｎ（特異値分解）を利用する手法がその代表例である。このようにして文書中のすべての単語に対して得られたｎ'次元のベクトルのことを「単語ベクトル」と呼ぶことにする。

文書ベクトル生成部２０は、１つの日本語文書及び英語文書、あるいは１つの日英対訳文書対に対して、単語ベクトル生成部１９で得られた単語ベクトルを用いて、文書毎の単語の出現傾向を表す文書ベクトルを計算する。ここで言う文書ベクトルとは、ある文書中に含まれる全単語に対応する単語ベクトルの総和を正規化した（ベクトルの長さを１とした）ベクトルのことである。

ここでは、日英の照応解析部１７及び１８で作成された照応解析済みのすべての日英文書対に対応する文書ベクトルを作成する。また、未分類文書保持部１２に格納された未分類文書についても、単語ベクトル生成部１９、文書ベクトル生成部２０を適用し、各々の文書の単語出現傾向を表す文書ベクトルを生成し、これを保持する。

カテゴリ・ベクトル生成部２１は、文書ベクトル生成部２０で得られた日英対訳文書対毎の文書ベクトルを用いて、カテゴリ毎の単語の出現傾向を表す多次元ベクトルであるカテゴリ・ベクトルを計算する。文書対毎にラベル付け格納配列を参照し、あるカテゴリに属するすべての日英文書対について文書ベクトルの総和をとり、ついでベクトルの長さを１となるように正規化する。この正規化されたベクトルをカテゴリ・ベクトルとし、すべての分類カテゴリに対して作成される。学習結果保持部２２は、すべてのカテゴリについてのカテゴリ・ベクトルを保持する。

文書分類部２３は、文書ベクトル生成部２０で得られた未分類文書に対応する文書ベクトルと学習結果保持部２２中に格納されたカテゴリ・ベクトルを用いて、未分類の文書をカテゴリに分類する。具体的には、文書分類部２３は、未分類の文書に対応する文書ベクトルと、すべての文書カテゴリのカテゴリ・ベクトルとの間の内積を計算する。そして、ある文書に対する内積の値の中で閾値Ｔ（但し、Ｔは０から１までの間をとる実数定数）の値を超えており、且つ、最も大きな内積値を与えるカテゴリがその文書が属するカテゴリであるとして分類を行なう。

また、未分類文書保持部１２中の文書に対して、指示詞及びゼロ代名詞のうち少なくとも一方に関する日本語照応解析処理あるいは英語照応解析処理を適用し、これらの照応解析結果を用いて文書ベクトルを作成することも考えられる。学習データを指示詞及びゼロ代名詞のうち少なくとも一方に関して照応解析することにより、本発明者らの意図に忠実な分類性能を持つ分類カテゴリ・ベクトルは作成可能であるが、ベクトル空間モデルによる文書分類の手法では、ベクトルの類似度によって評価を行なうが故に、分類の対象となる文書に対して指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析を行なうならばより効果的だからである。

図５には、本実施形態に係る自然言語処理システムによる処理動作の手順をフローチャートの形式で示している。図示の例では、日英のパラレル・コーパスに対して指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析システムを適用し、ベクトル空間法による文書自動分類を行なう。

まず、日英対訳文書に対し形態素解析及び構文解析施し、照応解析のためのデータ構造に変換する（ステップＳ１）。

次いで、データ構造を変換された日英対訳文書に対し、指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析処理を施す（ステップＳ２）。

そして、照応解析済み学習コーパスから単語ベクトル及び文書ベクトルを生成する（ステップＳ３）。また、未分類文書から文書ベクトルを生成する。

機械学習時においては、照応解析済み学習コーパスから得られた文書ベクトルから、カテゴリ・ベクトルを生成する（ステップＳ４）。

また、文書分類時においては、ある未分類文書の文書ベクトルについて未計算のカテゴリ・ベクトルとの内積を計算する（ステップＳ５）。

ここで、未分類文書の文書ベクトルとカテゴリ・ベクトルとの内積が所定の閾値以上である場合には（ステップＳ６）、この内積値を与えるカテゴリを未分類の文書に対する分類候補に加える（ステップＳ７）。そして、このような内積値の計算をすべてのカテゴリ・ベクトルについて繰り返し実行する（ステップＳ８）。

そして、未分類文書の分類候補の中で最大となる内積値を持つカテゴリ・ベクトルに対応する分類を当該未分類文書の文書分類とする（ステップＳ９）。このような文書分類処理を、未分類文書保持部１２に保持されているすべての未分類文書に対し繰り返し実行する（ステップＳ１０）。

上述した実施形態では、ベクトル空間法に基づいてテキスト・データの素性と評価の間の対応規則を計算し、文書を定量的に表現することにより文書分類を行なうが、勿論、確率モデルを用いて文書を定量的に表現することによっても、同様に文書の自動分類を実現することができる。

例えば、Ｉｗａｙａｍａ，Ｍ．ａｎｄＴｏｋｕｎａｇａ，Ｔ．“Ａｐｒｏｂａｂｉｌｉｓｔｉｃｍｏｄｅｌｆｏｒｔｅｘｔｃａｔｅｇｏｒｉｚａｔｉｏｎ：ｂａｓｅｄｏｎａｓｉｎｇｌｅｒａｎｄｏｍｖａｒｉａｂｌｅｗｉｔｈｍｕｌｔｉｐｌｅｖａｌｕｅｓ”（ＩｎＰｒｏｃｅｅｄｉｎｇｓｏｆ４ｔｈＣｏｎｆｅｒｅｎｃｅｏｎＡｐｐｌｉｅｄＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ，ｐｐ．１６２−１６７，１９９４）に記載の手法を用いた場合、自然言語処理システムは、単語配列から単語ベクトルを生成する代わりに、以下の確率値を推定する。

１：カテゴリＣに現れるある単語ｗの出現確率Ｐ（ｗ｜Ｃ）
２：すべての文書中の単語ｗに関する出現確率Ｐ（ｗ）
３：カテゴリＣの全文書中における出現確率Ｐ（Ｃ）
４：ある文書ｄ中の単語ｗのテキスト中の単語における出現確率Ｐ（ｗ｜ｄ）

そして、ある文書ｄがあり、この文書ｄに出現する単語がＷ＝｛Ｗ１，Ｗ２，…，Ｗｎ｝で与えられるときの文書分類の方法は、Ｐ（Ｃ｜ｄ）＝Ｐ（Ｃ）Ｓｉｇｍａ＿｛ｉ｝｛Ｐ（Ｗｉ｜Ｃ）Ｐ（Ｗｉ｜ｄ）／Ｐ（Ｗｉ）｝を最大化するＣを見つけることである。

Ｎｉｇａｍ．Ｋ．，ＭｃＣａｌｌｕｍ．Ａ．，Ｔｈｒｕｎ，Ｓ．，Ｍｉｔｃｈｅｌｌ，Ｔ．“Ｌｅａｒｎｉｎｇｔｏｃｌａｓｓｉｆｙｔｅｘｔｆｒｏｍｌａｂｅｌｅｄａｎｄｕｎｌａｂｅｌｅｄｄｏｃｕｍｅｎｔｓ”（ＩｎＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１５ｔｈＮａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ，１９９８）の手法では、主にカテゴリＣに現れるある単語ｗの出現確率Ｐ（ｗ｜Ｃ）とカテゴリＣの全文書中における出現確率Ｐ（Ｃ）を分類に用いている。Ｐ（Ｃ）はカテゴリＣの全カテゴリ中の相対頻度であるので、文書の中身から文書の分類を判断するときに、その分類性能を最も左右するのは、Ｐ（ｗ｜Ｃ）である。このとき、学習データに対して照応解析を行うことで、指示詞化あるいはゼロ代名詞化してしまった主題を担い易い単語ｗにおけるＰ（ｗ｜Ｃ）を増大させることができる。

確率空間モデルを用いて文書の自動分類を実現しようとした場合では、英語照応解析部１８および日本語照応解析部１７において指示詞またはゼロ代名詞またはその両方に関して照応解析を済ませた学習データから上記確率値を推定する。この場合は、単語ベクトル生成部１９及び文書ベクトル生成部２０およびカテゴリベクトル生成部２１で行なうベクトル計算は、確率値推定部２４における確率推定に置き換わる。確率値推定部２４が機械学習手段に相当し、確率モデルに基づいてテキスト・データの素性と評価の間の対応規則を計算する。指示詞またはゼロ代名詞またはその両方に関する照応解析により、消失した照応関係が復元することから、本来ならば指示詞化あるいはゼロ代名詞化して失われてしまう単語を元にも確率値を正確に作成することができ、さらに後続の処理の精度を向上することができる。

確率値推定部２４は、例えば、Ｉｗａｙａｍａ，Ｍ．ａｎｄＴｏｋｕｎａｇａ，Ｔ．“Ａｐｒｏｂａｂｉｌｉｓｔｉｃｍｏｄｅｌｆｏｒｔｅｘｔｃａｔｅｇｏｒｉｚａｔｉｏｎ：ｂａｓｅｄｏｎａｓｉｎｇｌｅｒａｎｄｏｍｖａｒｉａｂｌｅｗｉｔｈｍｕｌｔｉｐｌｅｖａｌｕｅｓ”（ＩｎＰｒｏｃｅｅｄｉｎｇｓｏｆ４ｔｈＣｏｎｆｅｒｅｎｃｅｏｎＡｐｐｌｉｅｄＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ，ｐｐ．１６２−１６７，１９９４）に記載の手法にのっとり、日英の照応解析処理手段から得られたすべての日英学習データ配列中の単語を用いて上記１、２、３、４の確率値を推定する。以下にその過程を説明する。

１：カテゴリＣに現れるある単語ｗの出現確率Ｐ（ｗ｜Ｃ）
処理対象とする日本語単語配列及び英語単語配列のすべての単語を取り出し、助詞、代名詞や冠詞などのストップ・ワードを除去した上で、ラベル付け格納配列に格納されたカテゴリの情報を参照しながら、ある一定以上の頻度を持つ単語に関しては、Ｐ（ｗ｜Ｃ）＝単語ｗがカテゴリＣ中に現れた回数／カテゴリＣ中に現れた単語数、によって算出する。この時、ある一定値以下の頻度を持つ単語に関しては一律にごく小さな確率値を割り振る。

２：すべての文書中の単語ｗに関する出現確率Ｐ（ｗ）
処理対象とする日本語単語配列及び英語単語配列の中からすべての単語を取り出し、助詞、代名詞や冠詞などのストップ・ワードを除去した上で、ある一定以上の頻度を持つ単語に関して、Ｐ（ｗ）＝単語ｗの学習データ中に現れた回数／学習データに表れた単語数、によって算出する。この時ある一定値以下の頻度しか持たない単語に関しては一律にごく小さな確率値を割り振る。

３：カテゴリＣの全文書中における出現確率Ｐ（Ｃ）
ラベル付け格納配列に格納された文書対毎のカテゴリ情報を参照し、学習データとして用いた全ての種類のカテゴリについて、そのカテゴリが現れる確率を推定する。Ｐ（Ｃ）＝カテゴリＣに分類されている学習データ中の文書対数／学習データ中のすべての文書数、で計算する。

４：ある文書ｄ中の単語ｗのテキスト中の単語における出現確率Ｐ（ｗ｜ｄ）
未分類文書保持部１２に格納されているすべての文書を対象に、各文書ごとに、以下の確率を推定する。Ｐ（ｗ｜ｄ）＝文書ｄにおけるある単語ｗの出現頻度／文書ｄにおけるすべての単語頻度数、で計算する。

本実施形態では、日英の学習コーパスに対して、指示詞またはゼロ代名詞またはその両方に関する照応解析処理が行なわれている。したがって、本来ならば、代名詞化やゼロ代名詞化してテキストから失われてしまい、確率値推定に用いることができなくなっているテキストの主題を表すような重要な単語も、指示詞またはゼロ代名詞又はその両方に関する照応解析によって補完されているので、文書上の意味をとらえた頻度によって確率値の推定に用いることができる。そして、確率推定部２４によって得られた確率値のうち、１と２と３の確率値については、学習結果として学習結果保持部２２に保持される。

文書分類部２３は、確率推定部２４で得た未分類文書に関する確率値、ある文書ｄ中の単語ｗのテキスト中の単語における出現確率Ｐ（ｗ｜ｄ）と学習結果保持部２２中に格納された上記１、２、３の確率値を用いて、未分類の文書をカテゴリに分類する。具体的には、文書分類部２３は、未分類の文書について、全ての文書カテゴリ毎に、条件付確率Ｐ（Ｃ｜ｄ）を計算する。この文書ｄに出現する単語がＷ＝｛Ｗ１，Ｗ２，…，Ｗｎ｝で与えられるとき、Ｐ（Ｃ｜ｄ）＝Ｐ（Ｃ）Ｓｉｇｍａ＿｛ｉ｝｛Ｐ（Ｗｉ｜Ｃ）Ｐ（Ｗｉ｜ｄ）／Ｐ（Ｗｉ）｝で計算する。そして、ある文書に対する確率値が閾値Ｔ（但し、Ｔは０から１までの間をとる実数定数）の値を超えており、且つ、最も大きな確率値を与えるカテゴリがその文書が属するカテゴリであるとして分類を行なう。

ベクトル空間法による実施形態と同様に確率モデルによる実施形態においても、未分類文書保持部１２中の文書に対して、指示詞及びゼロ代名詞のうち少なくとも一方に関する日本語照応解析処理あるいは指示詞に関する英語照応解析処理を適用し、これらの照応解析結果を用いて未分類文書に関する確率値Ｐ（ｗ｜ｄ）を計算することも考えられる。確率モデルによる実施例では、単語の頻度を元に確率値推定を行ない、その推定値を基に文書分類を行なうが故に、指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析を行なうことによって、指示詞化あるいはゼロ代名詞化してテキスト中から失われた重要な単語を用いて確率推定を行なうことができ、より文書を作成した筆者の意図を捉えた文書分類が期待できる。

図６には、確率モデルに基づいた実施形態に係る自然言語処理システムの機能構成を模式的に示している。図示の自然言語処理システムは、日英のパラレル・コーパスに対して指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析システムを適用し、確率モデルによる文書自動分類システムのための学習を行なうことを想定しており、初期学習コーパス保持部１１と、未分類文書保持部１２と、対訳データ分離部１３と、照応解析前処理部１４と、日本語リソース保持部１５と、英語照応解析リソース保持部１６と、日本語照応解析部１７と、英語照応解析部１８と、確率推定部２４と、学習結果保持部２２と、文書分類部２３で構成される。この自然言語処理システムは、実際には、パーソナル・コンピュータのような一般的な計算機システムに所定の機械学習アプリケーションを実行するという形態で実現される。

また、図７には、確率モデルに基づく実施形態に係る自然言語処理システムによる処理動作の手順をフローチャートの形式で示している。図示の例では、日英のパラレル・コーパスに対して指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析システムを適用し、学習結果として得た確率値による文書自動分類を行なう。

まず、日英対訳文書に対し形態素解析及び構文解析施し、照応解析のためのデータ構造に変換する（ステップＳ１１）。

次いで、データ構造を変換された日英対訳文書に対し、指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析処理を施す（ステップＳ１２）。

そして、照応済み学習コーパスからＰ（ｗ）、Ｐ（ｗ｜Ｃ）、Ｐ（Ｃ）、未分類文書からＰ（ｗ｜ｄ）を推定する。

次いで、ある未分類文書についてＰ（Ｃ｜ｄ）を計算し（ステップＳ１４）、算出されたＰ（Ｃ｜ｄ）が所定の閾値Ｔ以上かどうかを判別する（ステップＳ１５）。

ここで、Ｐ（Ｃ｜ｄ）が所定の閾値Ｔ以上である場合には、左確率値を与えるカテゴリを未分類の分書に対する文書候補に加える（ステップＳ１６）。そして、このような確率値の計算をすべてのカテゴリについて繰り返し実行する（ステップＳ１７）。

そして、未分類文書の分類候補の中で最も確率値の大きなカテゴリにその文書の文書分類とする（ステップＳ１８）。このような文書分類処理を、未分類文書保持部１２に保持されているすべての未分類文書に対し繰り返し実行する（ステップＳ１９）。

よって、本発明において指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析処理を行なった学習データを用いることで、確率モデルによる文書分類システムを、学習データ文書を作成した筆者の意図する本来の意味内容を基に作成することが可能であり、文書の意味を捉えた正しい学習を行なうことができる。

以上、特定の実施形態を参照しながら、本発明について詳解してきた。しかしながら、本発明の要旨を逸脱しない範囲で当業者が該実施形態の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、本明細書の記載内容を限定的に解釈するべきではない。本発明の要旨を判断するためには、冒頭に記載した特許請求の範囲の欄を参酌すべきである。

図１は、本発明に係る自然言語処理システムの機能構成を模式的に示した図である。図２は、本発明の一実施形態に係る自然言語処理システムの機能構成を模式的に示した図である。図３は、ラベル付け格納配列と文書毎のオブジェクトのイメージを示した図である。図４は、対訳文書オブジェクト内の日本語に関する配列の実装上のイメージを示した図である。図５は、本発明に係る自然言語処理システムによる処理動作の手順を示したフローチャートである。図６は、確率モデルに基づいた実施形態に係る自然言語処理システムの機能構成を模式的に示した図である。図７は、確率モデルに基づく実施形態に係る自然言語処理システムによる処理動作の手順を示したフローチャートである。

符号の説明

１…初期データ保持部
２…照応解析前処理部
３…照応解析リソース保持部
４…照応解析部
５…機械学習部
６…学習結果適用部
７…非学習データ保持部
１１…初期学習コーパス保持部
１２…未分類文書保持部
１３…対訳データ分離部
１４…照応解析前処理部
１５…日本語リソース保持部
１６…英語照応解析リソース保持部
１７…日本語照応解析部
１８…英語照応解析部
１９…単語ベクトル生成部
２０…文書ベクトル生成部
２１…カテゴリ・ベクトル生成部
２２…学習結果保持部
２３…文書分類部

Claims

機械学習に基づく自然言語処理を行なう自然言語処理システムであって、
学習データを保持する初期学習データ保持手段と、
前記初期学習データ保持手段中の学習データを、指示詞及びゼロ代名詞のうち少なくとも一方に関して照応解析する照応解析処理手段と、
前記照応解析処理手段により照応解析済みの学習データを用いて機械学習を行なう機械学習手段と、
非学習データを入力する非学習データ入力手段と、
前記機械学習手段による機械学習結果を用いて非学習データに対して評価を行なう学習結果適用手段と、
を具備することを特徴とする自然言語処理システム。
初期学習データ保持手段中の学習データを照応解析に適した形式のデータ構造に変換する照応解析前処理手段と、
指示詞及びゼロ代名詞のうち少なくとも一方に関して照応解析を行なうための言語的リソースを保持する照応解析リソース保持手段とをさらに備え、
前記照応解析処理手段は、前記照応解析前処理手段により作成されたデータに対して前記照応解析リソース保持手段中の言語的リソースを用いて照応解析処理を行なう、
ことを特徴とする請求項１に記載の自然言語処理システム。
前記初期学習データ保持手段は、第１の言語で記述された文書と、該第１の文書を第２の言語に翻訳した対訳文書からなる対訳対の集合を学習データとして保持し、
前記照応解析リソース保持手段は、第１の言語に対して指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析を行なうための第１の言語照応解析リソース、及び第２の言語に対して指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析を行なうための第２の言語照応解析リソースを保持し、
前記照応解析手段は、第１の言語照応解析リソースを利用して第１の言語で記述された学習データに対して指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析処理を行なうとともに、第２の言語照応解析リソースを利用して第２の言語で記述された学習データに対して指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析処理を行ない、
前記機械学習手段は、第１の言語及び第２の言語で記述された照応解析済みの学習データを用いて機械学習を行ない、
非学習データ入力手段は、第１の言語で記述された文書と第２の言語で記述された文書が混在する非学習データを入力し、
前記学習結果適用手段は、前記機械学習手段による機械学習結果を用いて非学習データに対して評価を行なう、
ことを特徴とする請求項２に記載の自然言語処理システム。
前記非学習データ入力手段に入力された非学習データに対して指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析する第２の照応解析手段をさらに備える、
ことを特徴とする請求項１に記載の自然言語処理システム。
前記照応解析前処理手段は、学習データとしてのテキストの言語に応じた形態素解析処理及び構文解析処理を行なう、
ことを特徴とする請求項２乃至４のいずれかに記載の自然言語処理システム。
前記機械学習手段は、学習データとしてのテキストに現れる統語上の現象を素性として用い、機械学習を行なう、
ことを特徴とする請求項５に記載の自然言語処理システム。
前記機械学習手段は、学習データとしてのテキストに現れる統語上の現象を素性として用い、ベクトル空間法に基づいて素性と評価の間の対応規則を計算し、
前記学習結果適用手段は、ベクトル間の内積の値に基づいて非学習データに対して評価を行なう、
ことを特徴とする請求項５に記載の自然言語処理システム。
前記機械学習手段は、学習データとしてのテキストに現れる統語上の現象を確率モデルを用いて定量的に表現し、
前記学習結果適用手段は、確率モデルを用いて文書分類を行なう、
ことを特徴とする請求項５に記載の自然言語処理システム。
学習データを利用した機械学習に基づいて自然言語処理を行なう自然言語処理方法であって、
初期の学習データを指示詞及びゼロ代名詞のうち少なくとも一方に関して照応解析する照応解析処理ステップと、
前記照応解析処理ステップにおいて照応解析済みの学習データを用いて機械学習を行なう機械学習ステップと、
前記機械学習ステップにおける機械学習結果を用いて非学習データに対して評価を行なう学習結果適用ステップと、
を具備することを特徴とする自然言語処理方法。
初期の学習データを照応解析に適した形式のデータ構造に変換する照応解析前処理ステップをさらに備え、
前記照応解析処理ステップでは、前記照応解析前処理ステップにおいて作成されたデータに対して、指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析を行なうための言語的リソースを用いて照応解析処理を行なう、
ことを特徴とする請求項９に記載の自然言語処理方法。
第１の言語で記述された文書と、該第１の文書を第２の言語に翻訳した対訳文書からなる対訳対の集合を学習データとして用い、
前記照応解析ステップでは、第１の言語に対して指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析を行なうための第１の言語照応解析リソースを利用して第１の言語で記述された学習データに対して照応解析処理を行なうとともに、第２の言語に対して指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析を行なうための第２の言語照応解析リソースを利用して第２の言語で記述された学習データに対して指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析処理を行ない、
前記機械学習ステップでは、第１の言語及び第２の言語で記述された照応解析済みの学習データを用いて機械学習を行ない、
前記学習結果適用ステップでは、前記機械学習ステップにおける機械学習結果を用いて、第１の言語で記述された文書と第２の言語で記述された文書が混在する非学習データに対して評価を行なう、
ことを特徴とする請求項１０に記載の自然言語処理方法。
非学習データを照応解析する第２の照応解析ステップをさらに備える、
ことを特徴とする請求項９に記載の自然言語処理方法。
前記照応解析前処理ステップでは、学習データとしてのテキストの言語に応じた形態素解析処理及び構文解析処理を行なう、
ことを特徴とする請求項１０乃至１２のいずれかに記載の自然言語処理方法。
前記機械学習ステップでは、学習データとしてのテキストに現れる統語上の現象を素性として用い、機械学習を行なう、
ことを特徴とする請求項１３に記載の自然言語処理方法。
前記機械学習ステップでは、学習データとしてのテキストに現れる統語上の現象を素性として用い、ベクトル空間法に基づいて素性と評価の間の対応規則を計算し、
前記学習結果適用ステップでは、ベクトル間の内積の値に基づいて非学習データに対して評価を行なう、
ことを特徴とする請求項１３に記載の自然言語処理方法。
前記機械学習ステップでは、学習データとしてのテキストに現れる統語上の現象を確率モデルを用いて定量的に表現し、
前記学習結果適用ステップでは、確率モデルを用いて文書分類を行なう、
ことを特徴とする請求項１３に記載の自然言語処理方法。
学習データを利用した機械学習に基づいて自然言語処理を行なうための処理をコンピュータ・システム上で実行するようにコンピュータ可読形式で記述されたコンピュータ・プログラムであって、
初期の学習データを照応解析に適した形式のデータ構造に変換する照応解析前処理ステップと、
前記照応解析前処理ステップにおいて作成されたデータに対して、指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析を行なうための言語的リソースを用いて指示詞及びゼロ代名詞のうち少なくとも一方に関する照応解析処理を行なう照応解析処理ステップと、
前記照応解析処理ステップにおいて照応解析済みの学習データを用いて機械学習を行なう機械学習ステップと、
前記機械学習ステップにおける機械学習結果を用いて非学習データに対して評価を行なう学習結果適用ステップと、
を具備することを特徴とするコンピュータ・プログラム。