JP5419906B2

JP5419906B2 - 主題抽出装置、方法、及びプログラム

Info

Publication number: JP5419906B2
Application number: JP2011032545A
Authority: JP
Inventors: 真理子川場; 徹平野; 義博松尾
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2011-02-17
Filing date: 2011-02-17
Publication date: 2014-02-19
Anticipated expiration: 2031-02-17
Also published as: JP2012173810A

Description

本発明は、主題抽出装置、方法、及びプログラムに係り、特に、テキストデータとして入力された文書から、その文書が何について書かれているかを示す主題を抽出する主題抽出装置、方法、及びプログラムに関する。

従来、テキスト内に出現する語の出現頻度、及び重要語が出現するテキスト数を用いて、文書内から重要語を抽出するシステムが提案されている（例えば、非特許文献１参照）。従来のシステムでは、文書中で出現頻度が高く、かつ特定の文書にのみ多く現れるような文字列を重要語として抽出している。

従来のシステムでは、例えば、「Ａ社の商品Ｚを買ってしまいました。月曜日に表参道に行ったらＡ社前がすごい人だかりで、ついふらふらと…。早速今日から使っていますが、使い勝手は上々。電車内でインターネットをしたり、マンガを見たりするのに使ってます。」という文書からは、出現頻度の高い「Ａ社」が重要語として抽出される。

高村大也、奥村学、「最大被覆問題とその変種による文書要約モデル」、人工知能学会論文誌、Ｖｏｌ．２３、Ｎｏ．６、ｐ．５０５−５１３、２００８

ここで、文書がＸについて書かれている場合、Ｘを文書の「主題」と呼び、特に、主題が「固有表現」または「具体的な物」である場合、これを「具体主題」と呼ぶ。また、具体主題は、文書内において名詞句で表記される。主題は、文書の内容を最も含意し、端的に文書の内容を表すものである。よって、主題以外の名詞句よりも多くの情報を持ち、意味的な粒度が細かい名詞句が主題として抽出されることが望ましい。

しかしながら、従来のシステムのように頻度の情報だけでは、粒度の大小を考慮することができないため、主題とは異なる名詞句が重要語として抽出される可能性がある、という問題がある。例えば、上記の例文は、「商品Ｚ」について記述されており、主題は「商品Ｚ」であるが、上記のように、従来のシステムでは、出現頻度の高い「Ａ社」が重要語として抽出されてしまい、主題を抽出することができない。

本発明は、上記問題点に鑑みてなされたものであり、文書から主題を抽出することができる主題抽出装置、方法、及びプログラムを提供することを目的とする。

上記目的を達成するために、本発明の主題抽出装置は、入力された文書から名詞句を抽出する名詞句抽出手段と、多数の文書を含む大規模なテキストデータ中における、前記名詞句抽出手段により抽出された名詞句各々の出現頻度、及び前記抽出された名詞句各々より選択された２つの名詞句からなる名詞句ペア各々の共起頻度を求め、該名詞句各々の出現頻度及び該共起頻度から求まる前記名詞句各々の出現確率に基づいて、前記名詞句ペアを構成する名詞句のいずれの出現確率が高いかを示す第１の素性を算出する第１の素性算出手段と、多数の文書を含む大規模なテキストデータ中における、前記名詞句ペアの係り受け構造毎の出現頻度に基づいて、該名詞句ペアを構成する名詞句のいずれが係り先になり易いかを示す第２の素性を算出する第２の素性算出手段と、前記名詞句各々の前記第１の素性及び前記第２の素性を並べた素性列と、主題が既知の学習用文書に含まれる名詞句の素性列を用いて学習された分類器とに基づいて、前記抽出された名詞句各々から、前記入力された文書の主題となる名詞句を抽出する主題抽出手段と、を含んで構成されている。

本発明の主題抽出装置によれば、名詞句抽出手段が、入力された文書から名詞句を抽出する。文書の主題は名詞句であるため、名詞句抽出手段により抽出された名詞句が、文書の主題の候補となる。

そして、第１の素性算出手段が、多数の文書を含む大規模なテキストデータ中における、名詞句抽出手段により抽出された名詞句各々の出現頻度、及び抽出された名詞句各々より選択された２つの名詞句からなる名詞句ペア各々の共起頻度を求め、該名詞句各々の出現頻度及び該共起頻度から求まる名詞句各々の出現確率に基づいて、名詞句ペアを構成する名詞句のいずれの出現確率が高いかを示す第１の素性を算出する。主題としては、意味的な粒度が細かい名詞句が抽出されることが望ましい。第１の素性は、意味的な粒度が粗い名詞句に共起して意味的な粒度が細かい名詞句が出現する頻度よりも、意味的な粒度が細かい名詞句に共起して意味的な粒度が粗い名詞句が出現する頻度の方が高い傾向があることを考慮した素性である。

また、第２の素性算出手段が、多数の文書を含む大規模なテキストデータ中における、名詞句ペアの係り受け構造毎の出現頻度に基づいて、該名詞句ペアを構成する名詞句のいずれが係り先になり易いかを示す第２の素性を算出する。第２の素性は、主題が文書の内容を最も含意する言葉であり、より多くの情報を持つ語であるため、係り受け関係の係り先になり易い傾向があることを考慮した素性である。

そして、主題抽出手段が、名詞句各々の第１の素性及び第２の素性を並べた素性列と、主題が既知の学習用文書に含まれる名詞句の素性列を用いて学習された分類器とに基づいて、抽出された名詞句各々から、入力された文書の主題となる名詞句を抽出する。

このように、主題が備える性質を示す素性として、第１の素性及び第２の素性を用いるため、入力された文書から適切に主題を抽出することができる。

また、前記名詞句抽出手段は、固有表現を含む名詞句、及び１つ以上名詞が連続して具体的な物を示す名詞句を抽出し、分類器は、固有表現または具体的な物を示す主題である具体主題が既知の学習用文書を用いて学習されたものを用いることができる。これにより、主題の中でも、特に、固有表現または具体的な物を示す具体主題を抽出することができる。

また、前記第１の素性算出手段は、前記名詞句ペアを構成する一方の名詞句と他方の名詞句との共起頻度を該一方の名詞句の出現頻度で除して、該一方の名詞句の出現確率を求めることができる。上述の意味的な粒度を考慮した素性を算出するための出現確率の求め方の一例である。

また、前記第１の素性算出手段は、前記名詞句ペアを構成する一方の名詞句について、該名詞句ペアを構成する他方の名詞句より出現確率が高い場合には勝ちを示す値、低い場合には負けを示す値、同じ場合または係り受け関係がない場合には引き分けを示す値を前記第１の素性として算出することができる。

また、前記第２の素性算出手段は、前記名詞句ペアを構成する一方の名詞句について、該名詞句ペアを構成する他方の名詞句より係り先となる頻度が高い場合には、勝ちを示す値、低い場合には負けを示す値、同じ場合には引き分けを示す値を前記第２の素性として算出することができる。

また、本発明の主題抽出方法は、入力された文書から名詞句を抽出し、多数の文書を含む大規模なテキストデータ中における、抽出された名詞句各々の出現頻度、及び前記抽出された名詞句各々より選択された２つの名詞句を組み合わせた名詞句ペア各々の共起頻度を求め、該名詞句各々の出現頻度及び該共起頻度から求まる前記名詞句各々の出現確率に基づいて、前記名詞句ペアを構成する名詞句のいずれの出現確率が高いかを示す第１の素性を算出し、多数の文書を含む大規模なテキストデータ中における、前記名詞句ペアの係り受け構造毎の出現頻度に基づいて、該名詞句ペアを構成する名詞句のいずれが係り先になり易いかを示す第２の素性を算出し、前記名詞句各々の前記第１の素性及び前記第２の素性を並べた素性列と、主題が既知の学習用文書に含まれる名詞句の素性列を用いて学習された分類器とに基づいて、前記抽出された名詞句各々から、前記入力された文書の主題となる名詞句を抽出する方法である。

また、本発明の主題抽出プログラムは、コンピュータを、上記主題抽出装置を構成する各手段として機能させるためのプログラムである。

以上説明したように、本発明の主題抽出装置、方法、及びプログラムによれば、主題が備える性質を示す素性として、名詞句の意味的な粒度を反映した出現確率に基づく第１の素性、及び係り受け関係の係り先になり易いか否かを示す第２の素性を用いるため、入力された文書から、適切に主題を抽出することができる、という効果が得られる。

本実施の形態の主題抽出装置の概略構成を示すブロック図である。入力文書の一例を示す図である。名詞句抽出部により抽出された名詞句の一例を示す図である。名詞句ペア作成部により作成された名詞句ペアの一例を示す図である。名詞句頻度抽出部により抽出された名詞句の出現頻度及び名詞句ペアの共起頻度の一例を示す図である。出現確率勝敗算出部により算出された素性の一例を示す図である。係り受け構造抽出部により抽出された係り受け構造の頻度の一例を示す図である。係り受け関係勝敗算出部により算出された素性の一例を示す図である。本実施の形態の主題抽出装置における主題抽出処理ルーチンの内容を示すフローチャートである。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

図１に示すように、本実施の形態の主題抽出装置１０は、ＣＰＵと、ＲＡＭと、後述する主題抽出処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することができる。このコンピュータは、機能的には、入力された文書（テキストデータ）から具体主題の候補となる名詞句を抽出する名詞句抽出部１２と、抽出された名詞句から選択された２つの名詞句で名詞句ペアを作成する名詞句ペア作成部１４と、名詞句各々の特徴である素性を抽出する素性抽出部１６と、予め具体主題が既知の文書を用いて学習された分類器２８と、を含んだ構成で表すことができる。

素性抽出部１６は、主題が備える性質を示す素性（特徴量）を抽出する。素性抽出部１６は、名詞句の出現頻度及び名詞句ペアの共起頻度を抽出する名詞句頻度抽出部１８と、名詞句の出現頻度及び名詞句ペアの共起頻度から求まる出現確率に基づく名詞句ペアの勝敗を示す第１の素性を算出する出現確率勝敗算出部２０と、名詞句ペアの係り受け構造毎の出現頻度を抽出する係り受け構造抽出部２２と、係り受け構造の出現頻度に基づく名詞句ペアの勝敗を示す第２の素性を算出する係り受け関係勝敗算出部２４と、第１の素性及び第２の素性から素性ベクトルを生成する素性ベクトル生成部２６と、を含んだ構成で表すことができる。

なお、名詞句頻度抽出部１８及び出現確率勝敗算出部２０が本発明の第１の素性算出手段の一例であり、係り受け構造抽出部２２及び係り受け関係勝敗算出部２４が本発明の第２の素性算出手段の一例である。

名詞句抽出部１２は、入力された文書に対して形態素解析を行った上で、所定の名詞句を抽出する。主題は名詞句であるため、入力された文書に含まれる全ての名詞句が、抽出すべき主題の候補となる。ここでは、特に、具体主題を抽出することを目的として、固有表現を含む名詞句、及び１つ以上の名詞が連続して具体的な物を示す名詞句を、入力された文書の具体主題の候補として抽出する。

固有表現を含む名詞句は、例えば、人名、地名、組織名などの固有物を表す表現であって、既存の固有表現抽出技術により抽出することができる。固有表現抽出技術としては、例えば、「今村賢治、斎藤邦子、浅野久子、「テキストからの知識抽出の基盤となる日本語基本解析技術」、ＮＴＴ技術ジャーナル、社団法人電気通信協会、ｐｐ．２０−２３（２００８）」等に記載の技術を用いることができる。また、サ変名詞、動作名詞など、名詞の形態素情報も合わせて取得してもよい。

また、１つ以上の名詞が連続して具体的な物を示す名詞句としては、例えば、「マンガ」及び「ビューア」という名詞が連続して、１つの具体的な物を示す名詞句「マンガビューア」等がある。「マンガ」及び「ビューア」も各々具体的な物を示す名詞であるため、この場合、１つ以上の名詞が連続して具体的な物を示す名詞句として、「マンガ」、「ビューア」及び「マンガビューア」が各々抽出される。

図２に示すように、入力された文書（テキストＡ）が「Ａ社の商品Ｚを買ってしまいました。月曜日に表参道に行ったらＡ社前がすごい人だかりで、ついふらふらと・・・。早速今日から使っていますが、使い勝手は上々。電車内でインターネットをしたり、マンガを見たりするのに使ってます。」であった場合には、名詞句抽出部１２において、図３に示すように、「Ａ社」、「商品Ｚ」、「月曜日」、「表参道」、「今日」、「電車内」、「インターネット」及び「マンガ」が抽出される。

名詞句ペア作成部１４は、名詞句抽出部１２により抽出された名詞句から選択された２つの名詞句について、取り得る全ての順列で名詞句ペアを作成する。すなわち、名詞句がｎ個抽出された場合には、_ｎＰ_２個の名詞句ペアが作成される。図４に、名詞句ペア作成部１４で作成された名詞句ペアの一例を示す。

名詞句頻度抽出部１８は、多数の文書を含む大規模なテキストデータを利用して、名詞句抽出部１２により抽出された名詞句の出現頻度、及び名詞句ペア作成部１４で作成された名詞句ペアの共起頻度を抽出する。大規模なテキストデータは、予め主題抽出装置の所定の記憶領域に記憶しておいてもよいし、ネットワークを介してＷｅｂから収集した文書集合などを用いてもよい。図５に、名詞句頻度抽出部１８で抽出された名詞句の出現頻度、及び名詞句ペアの共起頻度の一例を示す。図５では、名詞句「Ａ社」の出現頻度は「１０００」、名詞句ペア「（Ａ社，商品Ｚ）」の共起頻度は「９８０」であることを表している。

出現確率勝敗算出部２０は、名詞句頻度抽出部１８で抽出された名詞句の出現頻度、及び名詞句ペアの共起頻度に基づいて、出現確率を算出する。上述のように、意味的な粒度が細かい名詞句が主題として抽出されることが望ましい。ここで、意味的な粒度が粗い名詞句に共起して意味的な粒度が細かい名詞句が出現する頻度よりも、意味的な粒度が細かい名詞句に共起して意味的な粒度が粗い名詞句が出現する頻度の方が高い傾向がある。この傾向を利用して、主題が備える性質を示す素性として、名詞句ペアを構成する名詞句同士における出現確率に基づく勝敗を示す第１の素性を算出する。

具体的には、名詞句Ａ及び名詞句Ｂで構成された名詞句ペアについて、下記（１）式により名詞句Ａの出現確率、下記（２）式により名詞句Ｂの出現確率を算出する。

そして、下記（３）式に示すように、名詞句Ａと名詞句Ｂとにおいて、出現確率が高い方が勝ち（ｗｉｎ）、低い方が負け（ｌｏｓｅ）、同じ場合は引き分け（ｄｒａｗ）とする。

このように算出された勝敗を示す情報(ｗｉｎ、ｌｏｓｅ、ｄｒａｗ)を、素性として抽出する。

図６に、出現確率勝敗算出部２０により算出された第１の素性の一例を示す。図６では、名詞句ペア（Ａ，Ｂ）における前者（Ａ）の勝敗を表している。例えば、名詞句ペア（Ａ社、商品Ｚ）では、名詞句「Ａ社」の出現確率より名詞句「商品Ｚ」の出現確率の方が高く、「Ａ社」が負け（ｌｏｓｅ）であることを表している。一方、名詞句ペア（商品Ｚ、Ａ社）では、「商品Ｚ」が勝ち（ｗｉｎ）であることを表している。

係り受け構造抽出部は２２、多数の文書を含む大規模なテキストデータを利用して、名詞句ペア作成部１４により作成された名詞句ペアの係り受け構造毎の出現頻度を抽出する。例えば、名詞句ペア（Ａ，Ｂ）であれば、名詞句Ａが係り元及び名詞句Ｂが係り先になる場合と、名詞句Ｂが係り元及び名詞句Ａが係り先になる場合がある。前者の場合の係り受け構造、及び後者の場合の係り受け構造が大規模なテキストデータ内にどれだけ出現するかを抽出する。なお、本実施の形態では、名詞句ペア（Ａ，Ｂ）と共に、名詞句ペア（Ｂ，Ａ）も作成されているため、各名詞句ペアについて、前者を係り元及び後者を係り先とする係り受け構造、または後者を係り元及び前者を係り先とする係り受け構造の出現頻度のみを抽出するようにしてもよい。

大規模なテキストデータは、予め主題抽出装置の所定の記憶領域に記憶しておいてもよいし、ネットワークを介してＷｅｂから収集した文書集合などを用いてもよい。大規模なテキストデータ内における出現頻度を抽出する際の係り受け構造の解析は、周知の係り受け解析技術を用いればよい。

図７に、係り受け構造抽出部２２で抽出された係り受け構造毎の出現頻度の一例を示す。

係り受け関係勝敗算出部２４は、係り受け構造抽出部２２で抽出された名詞句ペアの係り受け構造毎の出現頻度に基づいた第２の素性を算出する。上述のように、主題は文書の内容を最も含意する言葉であり、より多くの情報を持つ語であるため、係り受け関係の係り先になり易い傾向がある。この傾向を利用して、主題が備える性質を示す素性として、名詞句ペアを構成する名詞句同士において、いずれが係り先になり易いかに基づく勝敗を示す第２の素性を算出する。

具体的には、名詞句ペア（Ａ，Ｂ）について、係り受け構造抽出部２２で抽出された係り受け構造毎の出現頻度を参照して、名詞句Ａと名詞句Ｂとにおいて、係り先になる頻度が高い方が勝ち（ｗｉｎ）、低い方が負け（ｌｏｓｅ）、同じ場合または名詞句Ａと名詞句Ｂとの間に係り受け関係がない場合は引き分け（ｄｒａｗ）とする。

図８に、係り受け関係勝敗算出部２４により算出された第２の素性の一例を示す。図８では、名詞句ペア（Ａ，Ｂ）における前者（Ａ）の勝敗を表している。例えば、名詞句ペア（Ａ社、商品Ｚ）では、名詞句「Ａ社」より名詞句「商品Ｚ」の方が係り先になる頻度が高く、「Ａ社」が負け（ｌｏｓｅ）であることを表している。一方、名詞句ペア（商品Ｚ、Ａ社）では、「商品Ｚ」が勝ち（ｗｉｎ）であることを表している。

素性ベクトル生成部２６は、出現確率勝敗算出部２０で算出された第１の素性と、係り受け関係勝敗算出部２４で算出された第２の素性とを並べた素性ベクトルを生成する。例えば、第１の素性が図６に示すように算出され、第２の素性が図８に示すように算出されたとする。この場合、名詞句Ａの素性ベクトルは、図６のａで示される部分の素性ａ_１〜ａ_ｎ−１（ｎは名詞句抽出部１２で抽出された名詞句の総数）、及び図８のｂで示される部分の素性ｂ_１〜ｂ_ｎ−１を並べたベクトル（ａ_１，・・・，ａ_ｎ−１，・・・，ｂ_１，・・・，ｂ_ｎ−１）となる。なお、素性ベクトルの要素の並び順や構成等はこの例に限定されない。

分類器２８は、素性抽出部１６で抽出した素性ベクトルを入力とし、機械学習により予め定められた分類ルールに基づいて、入力された素性ベクトルに対応する名詞句が具体主題となるか否かを判別する。分類ルールは、名詞句ｍの素性ベクトルα（ｍ）を入力としたときに、名詞句ｍが具体主題となる可能性を示す値ｓｃｏｒｅ（ｍ）を返す関数のようなものであり、この関数をｆ（）とすると、
ｆ（α（ｍ））＝ｓｃｏｒｅ（ｍ）
となる。

この分類ルールｆ（）は、教師あり機械学習法を用いて予め学習しておく。例えば、テキスト集合中の名詞句に対して人手で具体主題であるか否かを示すラベルを付与するなどした、具体主題が既知の学習用文書について、素性抽出部１６で抽出された素性ベクトルと、対応する名詞句に付されたラベルとを学習データとして利用し、分類ルールｆ（）を構成する関数のパラメタを学習する。例えば、「J． Lafferty, A. McCallum and F. Pereira, Conditional Random Fields：Probabilistic Models for Segmenting and Labeling Sequence Data, In Proc. of ICML-2001, Pages 282-289, 2001」等に記載された既知の機械学習により、素性が付与された具体主題の候補（抽出された全ての名詞句）の中から具体主題を示す名詞句を選択するための分類ルールを学習する。

次に、図９を参照して、本実施の形態の主題抽出装置１０において実行される主題抽出処理ルーチンについて説明する。本ルーチンは、予め学習データを用いて分類ルールを学習して分類器が生成された状態でスタートする。

ステップ１００で、文書（テキストデータ）が入力されると、次に、ステップ１０２で、入力された文書に対して形態素解析を行った上で、固有表現を含む名詞句、及び１つ以上の名詞が連続して具体的な物を示す名詞句を、入力された文書の具体主題の候補として抽出する。

次に、ステップ１０４で、上記ステップ１０２で抽出された名詞句から選択された２つの名詞句について、取り得る全ての順列で名詞句ペアを作成する。

次に、ステップ１０６で、多数の文書を含む大規模なテキストデータを利用して、上記ステップ１０２で抽出された名詞句の出現頻度、及び上記ステップ１０４で作成された名詞句ペアの共起頻度を抽出し、（１）式及び（２）式に従って、各名詞句の出現確率を求める。そして、名詞句ペアを構成する名詞句同士における出現確率に基づく勝敗を示す第１の素性を算出する。

次に、ステップ１０８で、多数の文書を含む大規模なテキストデータを利用して、名詞句ペアの係り受け構造毎の出現頻度を抽出し、名詞句ペアを構成する名詞句同士において、いずれが係り先になり易いかに基づく勝敗を示す第２の素性を算出する。

次に、ステップ１１０で、上記ステップ１０６で算出した第１の素性と、上記ステップ１０８で算出した第２の素性とを並べた素性ベクトルを生成する。

次に、ステップ１１２で、上記ステップ１１０で生成した素性ベクトルを分類器に入力し、分類器の出力する値ｓｃｏｒｅ（ｍ）に基づいて、入力された素性ベクトルに対応する名詞句が具体主題となるか否かを判別し、具体主題となる名詞句を抽出し、抽出家かを出力して、処理を終了する。

なお、本ルーチンでは、第１の素性を先に算出してから第２の素性を算出する処理としたが、第２の素性を先に算出してから第１の素性を算出してもよいし、第１の素性の算出と第２の素性の算出とを並行処理するようにしてもよい。

以上説明したように、本実施の形態の主題抽出装置によれば、主題が備える性質を示す素性として、名詞句の意味的な粒度を反映した出現確率に基づく素性、及び係り受け関係の係り先になり易いか否かを示す素性を用いるため、入力された文書から、適切に主題を抽出することができる。

また、上記の実施の形態では、主題の中でも、特に、固有表現または具体的な物を示す主題である具体主題を抽出する場合について説明したが、抽出する主題を具体主題に限定しない場合には、名詞句抽出部で、入力された文書から全ての名詞句を抽出するようにすればよい。また、分類器の分類ルールの学習において、具体主題に限定しない主題が既知の学習用文書を用いて学習すればよい。

また、上記実施の形態で用いた第１の素性及び第２の素性に、各名詞句または名詞句に含まれる名詞の形態素情報を素性として加えてもよい。

また、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

また、本願明細書中において、プログラムが予めインストールされている実施の形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。

１０主題抽出装置
１２名詞句抽出部
１４名詞句ペア作成部
１６素性抽出部
１８名詞句頻度抽出部
２０出現確率勝敗算出部
２２係り受け構造抽出部
２４係り受け関係勝敗算出部
２６素性ベクトル生成部
２８分類器

Claims

入力された文書から名詞句を抽出する名詞句抽出手段と、
多数の文書を含む大規模なテキストデータ中における、前記名詞句抽出手段により抽出された名詞句各々の出現頻度、及び前記抽出された名詞句各々より選択された２つの名詞句からなる名詞句ペア各々の共起頻度を求め、該名詞句各々の出現頻度及び該共起頻度から求まる前記名詞句各々の出現確率に基づいて、前記名詞句ペアを構成する名詞句のいずれの出現確率が高いかを示す第１の素性を算出する第１の素性算出手段と、
多数の文書を含む大規模なテキストデータ中における、前記名詞句ペアの係り受け構造毎の出現頻度に基づいて、該名詞句ペアを構成する名詞句のいずれが係り先になり易いかを示す第２の素性を算出する第２の素性算出手段と、
前記名詞句各々の前記第１の素性及び前記第２の素性を並べた素性列と、主題が既知の学習用文書に含まれる名詞句の素性列を用いて学習された分類器とに基づいて、前記抽出された名詞句各々から、前記入力された文書の主題となる名詞句を抽出する主題抽出手段と、
を含む主題抽出装置。
前記名詞句抽出手段は、固有表現を含む名詞句、及び１つ以上の名詞が連続して具体的な物を示す名詞句を抽出し、
前記分類器は、固有表現または具体的な物を示す主題である具体主題が既知の学習用文書を用いて学習された
請求項１記載の主題抽出装置。
前記第１の素性算出手段は、前記名詞句ペアを構成する一方の名詞句と他方の名詞句との共起頻度を該一方の名詞句の出現頻度で除して、該一方の名詞句の出現確率を求める請求項１または請求項２記載の主題抽出装置。
前記第１の素性算出手段は、前記名詞句ペアを構成する一方の名詞句について、該名詞句ペアを構成する他方の名詞句より出現確率が高い場合には勝ちを示す値、低い場合には負けを示す値、同じ場合には引き分けを示す値を前記第１の素性として算出する請求項１〜請求項３のいずれか１項記載の主題抽出装置。
前記第２の素性算出手段は、前記名詞句ペアを構成する一方の名詞句について、該名詞句ペアを構成する他方の名詞句より係り先となる頻度が高い場合には、勝ちを示す値、低い場合には負けを示す値、同じ場合または係り受け関係がない場合には引き分けを示す値を前記第２の素性として算出する請求項１〜請求項４のいずれか１項記載の主題抽出装置。
入力された文書から名詞句を抽出し、
多数の文書を含む大規模なテキストデータ中における、抽出された名詞句各々の出現頻度、及び前記抽出された名詞句各々より選択された２つの名詞句を組み合わせた名詞句ペア各々の共起頻度を求め、該名詞句各々の出現頻度及び該共起頻度から求まる前記名詞句各々の出現確率に基づいて、前記名詞句ペアを構成する名詞句のいずれの出現確率が高いかを示す第１の素性を算出し、
多数の文書を含む大規模なテキストデータ中における、前記名詞句ペアの係り受け構造毎の出現頻度に基づいて、該名詞句ペアを構成する名詞句のいずれが係り先になり易いかを示す第２の素性を算出し、
前記名詞句各々の前記第１の素性及び前記第２の素性を並べた素性列と、主題が既知の学習用文書に含まれる名詞句の素性列を用いて学習された分類器とに基づいて、前記抽出された名詞句各々から、前記入力された文書の主題となる名詞句を抽出する
主題抽出方法。
コンピュータを、請求項１〜請求項５のいずれか１項記載の主題抽出装置を構成する各手段として機能させるための主題抽出プログラム。