JP2012173808A

JP2012173808A - 具体主題分類モデル学習装置、方法、プログラム、具体主題抽出装置、方法、及びプログラム

Info

Publication number: JP2012173808A
Application number: JP2011032543A
Authority: JP
Inventors: Mariko Kawaba; 真理子川場; Toru Hirano; 徹平野; Yoshihiro Matsuo; 義博松尾
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2011-02-17
Filing date: 2011-02-17
Publication date: 2012-09-10
Anticipated expiration: 2031-02-17
Also published as: JP5486525B2

Abstract

【課題】文書中の任意の数の具体主題を抽出する。
【解決手段】学習用名詞句抽出部１４で、具体主題が既知の学習用文書から学習用名詞句を抽出し、学習用素性抽出部１６で、各名詞句の学習用素性を抽出し、閾値生成部１８で、正例の素性の平均と負例の素性の平均の平均を、具体主題を示す名詞句か否かを判定するための閾値として生成する。正例の素性を１位、閾値を２位、負例の素性を３位とする学習データでランキング型の分類モデルを学習する。具体主題が未知の文書が入力されると、分類用名詞句抽出部３４で、分類用名詞句が抽出され、分類用素性抽出部３６で、各名詞句の分類用素性が抽出され、分類モデルに、閾値及び各名詞句の分類用素性を入力し、閾値とのランキング比較で１位となる分類用素性に対応する名詞句を、具体主題を示す名詞句として抽出する。
【選択図】図１

Description

本発明は、具体主題分類モデル学習装置、方法、プログラム、具体主題抽出装置、方法、及びプログラムに係り、特に、テキストデータとして入力された文書から、固有表現または具体的な物を示す主題である具体主題を任意の数抽出するための具体主題分類モデル学習装置、方法、プログラム、具体主題抽出装置、方法、及びプログラムに関する。

従来、文書から重要語を抽出する技術として、主にテキスト内に出現する語の頻度などを利用し、テキストからＮ個の重要語を抽出するシステムが提案されている（例えば、非特許文献１参照）。従来のシステムでは、文書中で出現頻度が高く、かつ特定の文書にのみ多く現れるような文字列にスコアを付与し、スコアの高い物からＮ個を重要語として抽出している。

従来のシステムでは、例えば、「今日商品Ｚを買いました。マンガビューアとして買ったので、それ以外のことにはほとんど利用していません。ですが、商品Ｚ独特の綺麗な液晶はマンガを見るのにとても見やすく、ビューアとして利用する点においては現時点で最強のマシンだと思います。」という文書から、「商品Ｚ」、「マンガビューア」、「液晶」、「マンガ」、「マシン」等のキーワードが抽出される。

若木裕美、正田備也、高須淳宏、安達淳、「検索語の曖昧性解消のためのトピック指向単語抽出および単語クラスタリング」、情報処理学会論文誌データベース（ＴＯＤ）、Ｖｏ．ｌ４９、Ｎｏ．ＳＩＧ１９（ＴＯＤ３２）、ｐｐ．７２−８５、２００６

ここで、文書がＸについて書かれている場合、Ｘを文書の「主題」と呼び、特に、主題が「固有表現」または「具体的な物」である場合、これを「具体主題」と呼ぶ。また、具体主題は、文書内において名詞句で表記される。例えば、「今日商品Ｚを買いました。マンガビューアとして買ったので、それ以外のことにはほとんど利用していません。ですが、マンガビューアとして利用する点においては現時点で最強のマシンだと思います。」という文書の場合、この文書の主題は「商品Ｚ」という具体主題である。具体主題は１つの文書に対し１つとは限らず、２つ以上存在する場合もあれば、０個の場合もある。

しかしながら、文書毎に０〜Ｎ個のように具体主題の個数が変わる場合には、文書毎に何個の具体主題が存在するかを特定しなければならず、従来のシステムのように、スコアの高い物からＸ個を重要語として抽出する場合のように、一律Ｘ個抽出する方法では、適切な具体主題を抽出することはできない。

本発明は、上記問題点に鑑みてなされたものであり、文書中の任意の数の具体主題を抽出することができる具体主題分類モデル学習装置、方法、プログラム、具体主題抽出装置、方法、及びプログラムを提供することを目的とする。

上記目的を達成するために本発明の具体主題分類モデル学習装置は、学習用文書に含まれる名詞句であって、固有表現または具体的な物を示す主題である具体主題を示す名詞句であるか否かの情報が付与された名詞句各々について、該名詞句の出現頻度及び係り受け関係の少なくとも一方を含む特徴を示す学習用素性を算出する学習用素性算出手段と、前記具体主題を示す名詞句について算出された学習用素性を正例の素性とし、前記具体主題を示さない名詞句について算出された学習用素性を負例の素性として、具体主題を示す名詞句か否かを判定するための閾値を生成する閾値生成手段と、前記正例の素性及び前記負例の素性が、前記閾値生成手段により生成された閾値を挟むランキングとなるように、該正例の素性を第１の順位、該閾値を第２の順位、及び該負例の素性を第３の順位とし、入力された素性に対応する名詞句が具体主題を示すか否かを、前記閾値とのランク比較により分類するための分類モデルを学習する学習手段と、を含んで構成されている。

本発明の具体主題分類モデル学習装置によれば、学習用素性算出手段が、学習用文書に含まれる名詞句であって、固有表現または具体的な物を示す主題である具体主題を示す名詞句であるか否かの情報が付与された名詞句各々について、該名詞句の出現頻度及び係り受け関係の少なくとも一方を含む特徴を示す学習用素性を算出する。文書の主題は名詞句であり、固有表現または具体的な物を示す主題が具体主題であるので、このような名詞句毎に学習用素性を算出する。

そして、閾値生成手段が、具体主題を示す名詞句について算出された学習用素性を正例の素性とし、具体主題を示さない名詞句について算出された学習用素性を負例の素性として、具体主題を示す名詞句か否かを判定するための閾値を生成する。学習手段は、正例の素性及び負例の素性が、閾値生成手段により生成された閾値を挟むランキングとなるように、該正例の素性を第１の順位、該閾値を第２の順位、及び該負例の素性を第３の順位とし、入力された素性に対応する名詞句が具体主題を示すか否かを、閾値とのランク比較により分類するための分類モデルを学習する。

このように、具体主題を示す名詞句か否かを、閾値とのランク比較で分類する分類モデルを学習するため、この分類モデルを用いて、文書中の任意の数の具体主題を抽出することができる。

また、前記閾値生成手段は、前記正例の素性の平均と、前記負例の素性の平均との平均を前記閾値として生成することができる。これにより、具体主題を示す名詞句か否かを判定するための閾値をより適切に生成することができる。

また、前記学習用素性算出手段は、前記学習用文書における前記名詞句の出現頻度、名詞句毎に予め定めた重み、前記学習用文書において前記名詞句が係り受け関係の係り先になった回数、前記学習用文書において前記名詞句が指示語により指示された回数、及び前記学習用文書がタイトルを有する場合に、該タイトルに前記名詞句を含むか否かを示す情報の少なくとも１つを含む素性を、前記学習用素性として算出することができる。

また、本発明の具体主題抽出装置は、入力された文書から、固有表現を含む名詞句、及び１つ以上の名詞が連続して具体的な物を示す名詞句を抽出する名詞句抽出手段と、前記名詞句抽出手段により抽出された名詞句各々について、上記具体主題分類モデル学習装置で学習された分類モデルに応じた分類用素性を算出する分類用素性算出手段と、前記具体主題分類モデル学習装置の閾値生成手段により生成された閾値と、前記分類用素性と、前記分類モデルとに基づいて、前記第１の順位となる分類用素性に対応する名詞句を、前記入力された文書の具体主題となる名詞句として抽出する具体主題抽出手段と、を含んで構成されている。

本発明の具体主題抽出装置によれば、名詞句抽出手段が、入力された文書から、固有表現を含む名詞句、及び１つ以上の名詞が連続して具体的な物を示す名詞句を抽出する。文書の主題は名詞句であり、固有表現または具体的な物を示す主題が具体主題であるので、名詞句抽出手段により抽出された名詞句が、具体主題の候補となる。

そして、分類用素性算出手段が、名詞句抽出手段により抽出された名詞句各々について、上記具体主題分類モデル学習装置で学習された分類モデルに応じた分類用素性を算出し、具体主題抽出手段が、具体主題分類モデル学習装置の閾値生成手段により生成された閾値、分類用素性、及び分類モデルに基づいて、第１の順位となる分類用素性に対応する名詞句を、入力された文書の具体主題となる名詞句として抽出する。

このように、具体主題を示す名詞句か否かを判定するための閾値、各名詞句の分類用素性、及び分類モデルに基づいて、閾値と名詞句の分類用素性とをランキングで比較して、第１の順位となる分類用素性に対応する名詞句を、具体主題を示す名詞句として抽出するため、文書中の任意の数の具体主題を抽出することができる。

また、本発明の具体主題分類モデル学習方法は、学習用文書に含まれる名詞句であって、固有表現または具体的な物を示す主題である具体主題を示す名詞句であるか否かの情報が付与された名詞句各々について、該名詞句の出現頻度及び係り受け関係の少なくとも一方を含む特徴を示す学習用素性を算出し、前記具体主題を示す名詞句について算出された学習用素性を正例の素性とし、前記具体主題を示さない名詞句について算出された学習用素性を負例の素性として、具体主題を示す名詞句か否かを判定するための閾値を生成し、前記正例の素性及び前記負例の素性が、生成された閾値を挟むランキングとなるように、該正例の素性を第１の順位、該閾値を第２の順位、及び該負例の素性を第３の順位とし、入力された素性に対応する名詞句が具体主題を示すか否かを、前記閾値とのランク比較により分類するための分類モデルを学習する方法である。

また、本発明の具体主題抽出方法は、入力された文書から、固有表現を含む名詞句、及び１つ以上の名詞が連続して具体的な物を示す名詞句を抽出し、抽出された名詞句各々について、上記具体主題分類モデル学習方法で学習された分類モデルに応じた分類用素性を算出し、前記具体主題分類モデル学習方法により生成された閾値、前記分類用素性、及び前記分類モデルに基づいて、前記第１の順位となる分類用素性に対応する名詞句を、前記入力された文書の具体主題となる名詞句として抽出する方法である。

また、本発明の具体主題分類モデル学習プログラムは、コンピュータを、上記具体主題分類モデル学習装置を構成する各手段として機能させるためのプログラムである。

また、本発明の具体主題抽出プログラムは、コンピュータを、上記具体主題抽出装置を構成する各手段として機能させるためのプログラムである。

以上説明したように、本発明の具体主題分類モデル学習装置、方法、プログラム、具体主題抽出装置、方法、及びプログラムによれば、具体主題を示す名詞句か否かを、閾値とのランク比較で分類する分類モデルを学習し、具体主題を示す名詞句か否かを判定するための閾値、各名詞句の分類用素性、及び分類モデルに基づいて、閾値と名詞句の分類用素性とをランキングで比較して、第１の順位となる分類用素性に対応する名詞句を、具体主題を示す名詞句として抽出するため、文書中の任意の数の具体主題を抽出することができる、という効果が得られる。

本実施の形態の具体主題分類モデル学習抽出装置の概略構成を示すブロック図である。入力文書の一例を示す図である。学習用名詞句抽出部により抽出された名詞句の一例を示す図である。学習用素性抽出部で抽出された学習用素性の一例を示す図である。閾値生成部で生成された閾値の一例を示す図である。分類モデル学習部で用いられる学習データの一例を示す図である。本実施の形態の具体主題分類モデル学習抽出装置における具体主題分類モデル学習処理ルーチンの内容を示すフローチャートである。本実施の形態の具体主題分類モデル学習抽出装置における具体主題抽出処理ルーチンの内容を示すフローチャートである。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

図１に示すように、本実施の形態の具体主題分類モデル学習抽出装置１０は、具体主題を抽出するための分類モデルを学習する具体主題分類モデル学習装置１２と、分類モデルを用いて入力された文書から具体主題を抽出する具体主題抽出装置３０とが一体となって構成されている。

具体主題分類モデル学習抽出装置１０は、ＣＰＵと、ＲＡＭと、後述する具体主題分類モデル学習処理ルーチン及び具体主題抽出処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することができる。このコンピュータは、機能的には、具体主題分類モデル学習装置１２について、入力された学習用文書（テキストデータ）から名詞句を抽出する学習用名詞句抽出部１４と、名詞句各々の特徴である学習用素性を抽出する学習用素性抽出部１６と、具体主題を示す名詞句か否かを判定するために用いる閾値を生成する閾値生成部１８と、閾値及び学習用素性を用いて分類モデルを学習する分類モデル学習部２０と、を含んだ構成で表すことができる。また、閾値生成部１８で生成された閾値を記憶する閾値記憶部２２と、分類モデル学習部２０で生成された分類モデルを記憶する分類モデル記憶部２４と、を含んで構成されている。

また、具体主題抽出装置３０について、入力された文書（テキストデータ）から具体主題の候補となる名詞句を抽出する分類用名詞句抽出部３４と、名詞句各々の特徴である分類用素性を抽出する分類用素性抽出部３６と、閾値記憶部２２から閾値を読み込む閾値読込部３８と、読み込んだ閾値、分類用素性、及び分類モデルを用いて具体主題を示す名詞句を抽出する具体主題抽出部４０と、を含んだ構成で表すことができる。

まず、具体主題分類モデル学習装置１２の各部について説明する。

学習用名詞句抽出部１４は、入力された学習用文書に対して形態素解析を行った上で、所定の名詞句を抽出する。学習用文書は、例えば、人手で具体主題となる名詞句にラベルを付与するなどした、具体主題を示す名詞句が既知のテキストである。学習用テキストとして複数のテキストが与えられてもよい。主題は名詞句であるため、入力された文書に含まれる全ての名詞句が、抽出すべき主題の候補となる。ここでは、固有表現を含む名詞句、及び１つ以上の名詞が連続して具体的な物を示す名詞句を、学習に用いるための名詞句として抽出する。

固有表現を含む名詞句は、例えば、人名、地名、組織名などの固有物を表す表現であって、既存の固有表現抽出技術により抽出することができる。固有表現抽出技術としては、例えば、「今村賢治、斎藤邦子、浅野久子、「テキストからの知識抽出の基盤となる日本語基本解析技術」、ＮＴＴ技術ジャーナル、社団法人電気通信協会、ｐｐ．２０−２３（２００８）」等に記載の技術を用いることができる。また、サ変名詞、動作名詞など、名詞の形態素情報も合わせて取得してもよい。

また、１つ以上の名詞が連続して具体的な物を示す名詞句としては、例えば、「マンガ」及び「ビューア」という名詞が連続して、１つの具体的な物を示す名詞句「マンガビューア」等がある。「マンガ」及び「ビューア」も各々具体的な物を示す名詞であるため、この場合、１つ以上の名詞が連続して具体的な物を示す名詞句として、「マンガ」、「ビューア」及び「マンガビューア」が各々抽出される。

図２に示すように、入力された学習用文書（テキストＡ）が「Ａ社の商品Ｚを買ってしまいました。月曜日に表参道に行ったらＡ社前がすごい人だかりで、ついふらふらと・・・。早速今日から使っていますが、使い勝手は上々。電車内でインターネットをしたり、マンガを見たりするのに使ってます。」であった場合には、学習用名詞句抽出部１４において、図３に示すように、「Ａ社」、「商品Ｚ」、「月曜日」、「表参道」、「今日」、「電車内」、「インターネット」及び「マンガ」が抽出される。ここでは、具体主題となる名詞句として「商品Ｚ」にラベルが付与されているものとする（図３中の（＊）で表記）。

学習用素性抽出部１６は、学習用名詞句抽出部１４で抽出した名詞句について、頻度や係り受けの情報など、具体主題を抽出する手掛かりとなる情報を素性として抽出する。また頻度や係り受けの情報に加えて、名詞句の重みやタイトルに含まれるか否かの情報を素性として用いてもよい。具体的には、
（１）各名詞句の入力テキスト中の出現頻度（単語頻度）
（２）各名詞句の重み
（３）入力テキスト中で係り先になった回数
（４）入力テキスト中で指示語（「この」、「その」など）により指示された回数
（５）名詞句が入力テキストのタイトルに含まれるか否か
等の情報を素性として抽出することができる。（２）の重みは、予めリスト等により設定しておくことができる。また、（５）の素性は、名詞句がタイトルに含まれる場合は「１」、含まれない場合は「０」とすればよい。なお、上記（３）及び（４）は、係り受けの情報であるが、係り受けの情報としては、（３）及び（４）のように回数を用いる場合に限定されず、周知の係り受け解析の結果から得られる情報を用いることができる。図４に、学習用素性抽出部１６で抽出された学習用素性の一例を示す。

閾値生成部１８は、後述の分類モデル学習部２０で、具体主題となる名詞句とそうでない名詞句を区別するため閾値（λ）を生成する。具体的には、学習用素性抽出部１６で抽出された学習用素性のうち、具体主題を示すラベルが付与された名詞句から抽出された素性（以下、「正例の素性」という）の平均（Ｘ）と、具体主題を示すラベルが付与されていない名詞句から抽出された素性（以下、「負例の素性」という）の平均（Ｙ）との平均を閾値λとする。

例えば、図３の例では、ラベル（＊）が付与されている「商品Ｚ」が具体主題となる名詞句であるので、「商品Ｚ」について抽出された素性がＸとなり、他の「Ａ社」、「月曜日」、・・・、「マンガ」等の名詞句について算出された素性の平均がＹとなる。そして、ＸとＹとの各素性の平均値を、閾値λの素性の値として、閾値記憶部２２に記憶する。図５に、閾値生成部１８で生成された閾値λの一例を示す。

分類モデル学習部２０は、学習用素性抽出部１６で抽出した学習用素性（正例の素性及び負例の素性）と閾値生成部１８で生成した閾値λとを入力とし、正例の素性及び負例の素性が、閾値を挟むランキングとなるように、正例の素性を第１の順位、閾値を第２の順位、及び負例の素性を第３の順位とし、入力された素性に対応する名詞句が具体主題を示すか否かを、閾値とのランク比較により分類するための分類モデル（ランキングモデル）を学習する。

ランキング型の分類モデルの学習は、参考文献「Aiwen Jiang, Chunheng Wang, and Yuanping Zhu, “Calibrated rank-SVM for multi-label image categorization,” Proc. The IEEE International Joint Conference on Neural Networks, pp. 1450-1455, 2008.」等に記載の技術を用いることができる。ここでは、参考文献のＣａｌｉｂｒａｔｅｄＲａｎｋ−ＳＶＭを用いる。学習用文書から抽出された名詞句に対して、学習用素性抽出部１６で抽出した学習用素性、閾値生成部１８で生成した閾値λ、及び各名詞句の正解ランキングが付与されたデータを学習データとして用いる。正解ランキングは、例えば、正例の素性に対応する名詞句（ここでは、「商品Ｚ」）は１位、閾値λは２位、負例の素性に対応する名詞句は３位とすることができる。この学習データを用いて、具体主題が未知の名詞句が入力された場合に、具体主題を示す名詞句が１位、具体主題を示さない名詞句が３位と出力されるように分類モデルを構成するパラメタを学習する。学習された分類モデルは、分類モデル記憶部２４に記憶する。図６に、分類モデル学習部２０で用いられる学習データの一例を示す。

次に、具体主題抽出装置３０の各部について説明する。

分類用名詞句抽出部３４は、学習用名詞句抽出部１４と同様の処理により、入力された具体主題が未知の文書から所定の名詞句を抽出する。

分類用素性抽出部３６は、学習用素性抽出部１６と同様の処理により、分類用名詞句抽出部３４で抽出された名詞句各々の分類用素性を抽出する。

閾値読込部３８は、具体主題分類モデル学習装置１２における分類モデルの学習時に利用した閾値λ、すなわち学習用文書から抽出された名詞句の素性（正例の素性及び負例の素性）から生成された閾値λを、閾値記憶部２２から読み込む。

具体主題抽出部４０は、分類モデル記憶部２４に記憶された分類モデルを読み込み、閾値読込部３８で読み込んだ閾値λ、及び分類用素性抽出部３６で抽出された分類用素性を入力し、分類用素性に対応する名詞句が具体主題か否かを、閾値とのランキング比較により判定し、閾値より上位（１位）となった名詞句を、具体主題として抽出する。

次に、図７を参照して、本実施の形態の具体主題分類モデル学習抽出装置１０において実行される具体主題分類モデル学習処理ルーチンについて説明する。本ルーチンは、具体主題分類モデル学習装置１２側で実行される。

ステップ１００で、学習用文書（テキストデータ）が入力されると、次に、ステップ１０２で、入力された学習用文書に対して形態素解析を行った上で、固有表現を含む名詞句、及び１つ以上の名詞が連続して具体的な物を示す名詞句を抽出する。なお、学習用文書の具体主題を示す名詞句には、予めラベルが付与されている。

次に、ステップ１０４で、上記ステップ１０２で抽出した名詞句各々について、頻度や係り受けの情報など、具体主題を抽出する手掛かりとなる情報を学習用素性として抽出する。

次に、ステップ１０６で、上記ステップ１０４で抽出された学習用素性のうち、正例の素性の平均と負例の素性の平均との平均を、閾値λとして生成し、生成した閾値λを後段の処理へ受け渡すと共に、閾値記憶部２２に記憶する。

次に、ステップ１０８で、上記ステップ１０４で抽出された学習用素性、上記ステップ１０６で生成した閾値λ、及び各名詞句の正解ランキング（正例の素性に対応する名詞句は１位、閾値λは２位、負例の素性に対応する名詞句は３位）が付与された学習データを用いて、具体主題が未知の名詞句が入力された場合に、具体主題を示す名詞句が１位、具体主題を示さない名詞句が３位と出力されるように分類モデルを構成するパラメタを学習する。学習された分類モデルは、分類モデル記憶部２４に記憶して、処理を終了する。

次に、図８を参照して、本実施の形態の具体主題分類モデル学習抽出装置１０において実行される具体主題抽出処理ルーチンについて説明する。本ルーチンは、具体主題抽出装置３０側で実行される。

ステップ１５０で、具体主題が未知の文書（テキストデータ）が入力されると、次に、ステップ１５２で、入力された文書に対して形態素解析を行った上で、固有表現を含む名詞句、及び１つ以上の名詞が連続して具体的な物を示す名詞句を抽出する。

次に、ステップ１５４で、上記ステップ１５２で抽出した名詞句各々について、頻度や係り受けの情報など、具体主題を抽出する手掛かりとなる情報を分類用素性として抽出する。ここで抽出される分類用素性は、具体主題分類モデル学習装置１２で学習された分類モデルに対応した素性である。すなわち、分類用素性は、具体主題分類モデル学習処理のステップ１０４と同様の処理により抽出される。

次に、ステップ１５６で、閾値記憶部２２から、具体主題分類モデル学習装置１２における分類モデルの学習時に利用した閾値λを読み込み、分類モデル記憶部２４から、具体主題分類モデル学習装置１２において学習された分類モデルを読み込む。

次に、ステップ１５８で、上記ステップ１５６で読み込んだ分類モデルに、読み込んだ閾値λ、及び上記ステップ１５４で抽出した各名詞句の分類用素性を入力し、分類用素性に対応する名詞句が具体主題か否かを、閾値とのランキング比較により判定し、閾値より上位（１位）となった名詞句を具体主題として抽出し、抽出結果を出力して、処理を終了する。

以上説明したように、本実施の形態の具体主題分類モデル学習抽出装置によれば、具体主題を示す名詞句か否かをランキングで出力する分類モデルを学習し、具体主題を示す名詞句か否かを判定するための閾値と共に、各名詞句の分類用素性を分類モデルに入力して、閾値と名詞句の分類用素性とをランキングで比較して閾値より上位の名詞句を、具体主題を示す名詞句として抽出するため、文書中の任意の数の具体主題を抽出することができる。

また、閾値として、正例の素性の平均と負例の素性の平均との平均を用いることで、精度良く具体主題を示す名詞句か否かを分類することができる。

なお、上記実施の形態では、正例の素性を１位、閾値を２位、負例の素性を３位として学習する場合について説明したが、これに限定されるものではなく、正例の素性及び負例の素性の順位が閾値の順位を挟むものであればよい。例えば、負例の素性を１位、閾値を２位、正例の素性を３位としてもよい。この場合、具体主題か否か未知の名詞句の素性を分類モデルに入力した際に、３位の出力が得られた素性に対応する名詞句を具体主題を示す名詞句として抽出したり、１位の出力が得られた素性に対応する名詞句を除外した結果を出力したりすることができる。

また、上記実施の形態では、具体主題分類モデル学習装置と具体主題抽出装置とが一体となった構成について説明したが、具体主題分類モデル学習装置と具体主題抽出装置とを別々に構成してもよい。この場合、具体主題分類モデル学習装置側に閾値記憶部及び分類モデル記憶部を設け、具体主題抽出装置は、ネットワーク等の送受信手段を介して、閾値及び分類モデルを読み込むようにするとよい。また、具体主題抽出装置側に閾値記憶部及び分類モデル記憶部を設けた場合には、具体主題分類モデル学習装置において閾値及び分類モデルを記憶する際に、ネットワーク等の送受信手段を介して記憶するようにするとよい。また、閾値記憶部及び分類モデル記憶部を、他の外部装置に記憶するようにしてもよい。この場合、具体主題分類モデル学習抽出装置、または具体主題分類モデル学習装置及び具体主題抽出装置から、ネットワーク等の送受信手段を介して、閾値及び分類モデルの記憶及び読み込みを行うようにするとよい。

また、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

また、本願明細書中において、プログラムが予めインストールされている実施の形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。

１０具体主題分類モデル学習抽出装置
１２具体主題分類モデル学習装置
１４学習用名詞句抽出部
１６学習用素性抽出部
１８閾値生成部
２０分類モデル学習部
２２閾値記憶部
２４分類モデル記憶部
３０具体主題抽出装置
３４分類用名詞句抽出部
３６分類用素性抽出部
３８閾値読込部
４０具体主題抽出部

Claims

学習用文書に含まれる名詞句であって、固有表現または具体的な物を示す主題である具体主題を示す名詞句であるか否かの情報が付与された名詞句各々について、該名詞句の出現頻度及び係り受け関係の少なくとも一方を含む特徴を示す学習用素性を算出する学習用素性算出手段と、
前記具体主題を示す名詞句について算出された学習用素性を正例の素性とし、前記具体主題を示さない名詞句について算出された学習用素性を負例の素性として、具体主題を示す名詞句か否かを判定するための閾値を生成する閾値生成手段と、
前記正例の素性及び前記負例の素性が、前記閾値生成手段により生成された閾値を挟むランキングとなるように、該正例の素性を第１の順位、該閾値を第２の順位、及び該負例の素性を第３の順位とし、入力された素性に対応する名詞句が具体主題を示すか否かを、前記閾値とのランク比較により分類するための分類モデルを学習する学習手段と、
を含む具体主題分類モデル学習装置。
前記閾値生成手段は、前記正例の素性の平均と、前記負例の素性の平均との平均を前記閾値として生成する請求項１記載の具体主題分類モデル学習装置。
前記学習用素性算出手段は、前記学習用文書における前記名詞句の出現頻度、名詞句毎に予め定めた重み、前記学習用文書において前記名詞句が係り受け関係の係り先になった回数、前記学習用文書において前記名詞句が指示語により指示された回数、及び前記学習用文書がタイトルを有する場合に、該タイトルに前記名詞句を含むか否かを示す情報の少なくとも１つを含む素性を、前記学習用素性として算出する請求項１または請求項２記載の具体主題分類モデル学習装置。
入力された文書から、固有表現を含む名詞句、及び１つ以上の名詞が連続して具体的な物を示す名詞句を抽出する名詞句抽出手段と、
前記名詞句抽出手段により抽出された名詞句各々について、請求項１〜請求項３のいずれか１項記載の具体主題分類モデル学習装置で学習された分類モデルに応じた分類用素性を算出する分類用素性算出手段と、
前記具体主題分類モデル学習装置の閾値生成手段により生成された閾値、前記分類用素性、及び前記分類モデルに基づいて、前記第１の順位となる分類用素性に対応する名詞句を、前記入力された文書の具体主題となる名詞句として抽出する具体主題抽出手段と、
を含む具体主題抽出装置。
学習用文書に含まれる名詞句であって、固有表現または具体的な物を示す主題である具体主題を示す名詞句であるか否かの情報が付与された名詞句各々について、該名詞句の出現頻度及び係り受け関係の少なくとも一方を含む特徴を示す学習用素性を算出し、
前記具体主題を示す名詞句について算出された学習用素性を正例の素性とし、前記具体主題を示さない名詞句について算出された学習用素性を負例の素性として、具体主題を示す名詞句か否かを判定するための閾値を生成し、
前記正例の素性及び前記負例の素性が、生成された閾値を挟むランキングとなるように、該正例の素性を第１の順位、該閾値を第２の順位、及び該負例の素性を第３の順位とし、入力された素性に対応する名詞句が具体主題を示すか否かを、前記閾値とのランク比較により分類するための分類モデルを学習する
具体主題分類モデル学習方法。
入力された文書から、固有表現を含む名詞句、及び１つ以上の名詞が連続して具体的な物を示す名詞句を抽出し、
抽出された名詞句各々について、請求項５記載の具体主題分類モデル学習方法で学習された分類モデルに応じた分類用素性を算出し、
前記具体主題分類モデル学習方法により生成された閾値、前記分類用素性、及び前記分類モデルに基づいて、前記第１の順位となる分類用素性に対応する名詞句を、前記入力された文書の具体主題となる名詞句として抽出する
具体主題抽出方法。
コンピュータを、請求項１〜請求項３のいずれか１項記載の具体主題分類モデル学習装置を構成する各手段として機能させるための具体主題分類モデル学習プログラム。
コンピュータを、請求項４記載の具体主題抽出装置を構成する各手段として機能させるための具体主題抽出プログラム。