JP2013114586A

JP2013114586A - 特徴語抽出装置、特徴語抽出方法、及びプログラム

Info

Publication number: JP2013114586A
Application number: JP2011262395A
Authority: JP
Inventors: Nozomi Kobayashi; のぞみ小林; Toshiaki Makino; 俊朗牧野; Yoshihiro Matsuo; 義博松尾
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2011-11-30
Filing date: 2011-11-30
Publication date: 2013-06-10
Anticipated expiration: 2031-11-30
Also published as: JP5705710B2

Abstract

【課題】適切な長さで、精度よく特徴語を抽出することができるようにする。
【解決手段】候補獲得部２４によって、未知語であるカタカナ語が分割され、かつ、形態素解析済みのＷｅｂテキストの集合から、カテゴリ語リストと、カテゴリ語及び特徴語の出現パタンとに基づいて、特徴語の候補を獲得する。スコア計算部２７によって、獲得された特徴語の候補の各々について、スコアを計算する。候補出力部２８によって、計算されたスコアが閾値以上となる特徴語の候補を、特徴語として特徴語辞書データベース２９に登録する。
【選択図】図１

Description

本発明は、特徴語抽出装置、特徴語抽出方法、及びプログラムに係り、特に、説明文から説明対象に関する特徴語を抽出する特徴語抽出装置、特徴語抽出方法、及びプログラムに関する。

従来において、さまざまな分野の専門用語を抽出する研究が存在する。たとえば、非特許文献１では、これ以上分割不可能な名詞（以下、「単名詞」）に着目し、単名詞の連接に基づくスコアリングを使用した専門用語抽出手法が挙げられている。

中川裕志, 森辰則, 湯本紘彰．出現頻度と連接頻度に基づく専門用語抽出．自然言語処理Vol.10 No.1, pp.27-45,2003年.

上記特許文献１に記載の手法では、文章中の名詞連続を対象としているが、文章の中にはたとえ名詞連続であっても、抽出したい商品と関連しない語も存在する。

また、上記特許文献１に記載の手法では、形態素解析によって切り出された名詞の連続を候補としているが、ファッションなどの分野ではカタカナ語の未知語が多く存在する。カタカナ未知語は、長い語であっても一語として獲得されてしまい、「ノースリーブフラワープリントワンピース」のような適当ではない語が誤って抽出されてしまう。

本発明は、上記の事実を鑑みてなされたもので、適切な長さで、精度よく特徴語を抽出することができる特徴語抽出装置、特徴語抽出方法、及びプログラムを提供することを目的とする。

上記の目的を達成するために本発明に係る特徴語抽出方法は、説明対象の説明文から前記説明対象に関する特徴語を抽出する特徴語抽出装置における特徴語抽出方法であって、候補獲得手段によって、入力された、未知語であるカタカナ語が分割され、かつ、形態素解析済みの説明文の集合から、予め求められた前記説明対象のカテゴリ語のリストと、予め求められた前記カテゴリ語及び該カテゴリ語を修飾する特徴語の出現パタンとに基づいて、特徴語の候補を獲得するステップと、スコア計算手段によって、前記獲得された特徴語の候補の各々について、前記説明文の集合における前記特徴語の候補の出現頻度、及び前記特徴語の候補が出現する説明文の数に基づいて、特徴語である度合いを示すスコアを計算するステップと、候補出力手段によって、前記計算されたスコアが閾値以上となる特徴語の候補を、前記特徴語として出力するステップと、を含む。

本発明に係る特徴語抽出装置は、説明対象の説明文から前記説明対象に関する特徴語を抽出する特徴語抽出装置であって、入力された、未知語であるカタカナ語が分割され、かつ、形態素解析済みの説明文の集合から、予め求められた前記説明対象のカテゴリ語のリストと、予め求められた前記カテゴリ語及び該カテゴリ語を修飾する特徴語の出現パタンとに基づいて、特徴語の候補を獲得する候補獲得手段と、前記獲得された特徴語の候補の各々について、前記説明文の集合における前記特徴語の候補の出現頻度、及び前記特徴語の候補が出現する説明文の数に基づいて、特徴語である度合いを示すスコアを計算するスコア計算手段と、前記計算されたスコアが閾値以上となる特徴語の候補を、前記特徴語として出力する候補出力手段と、を含んで構成されている。

本発明に係る特徴語抽出方法及び特徴語抽出装置によれば、候補獲得手段によって、入力された、未知語であるカタカナ語が分割され、かつ、形態素解析済みの説明文の集合から、予め求められた前記説明対象のカテゴリ語のリストと、予め求められた前記カテゴリ語及び該カテゴリ語を修飾する特徴語の出現パタンとに基づいて、特徴語の候補を獲得する。

そして、スコア計算手段によって、前記獲得された特徴語の候補の各々について、前記説明文の集合における前記特徴語の候補の出現頻度、及び前記特徴語の候補が出現する説明文の数に基づいて、特徴語である度合いを示すスコアを計算する。候補出力手段によって、前記計算されたスコアが閾値以上となる特徴語の候補を、前記特徴語として出力する。

このように、未知語であるカタカナ語が分割された説明文の集合から、特徴語の候補を獲得し、特徴語の候補の出現頻度、及び特徴語の候補が出現する説明文の数に基づいて、スコアを計算することにより、適切な長さで、精度よく特徴語を抽出することができる。

本発明に係るプログラムは、コンピュータに、上記の特徴語抽出方法の各ステップを実行させるためのプログラムである。

以上説明したように、本発明の特徴語抽出方法、特徴語抽出装置、及びプログラムによれば、未知語であるカタカナ語が分割された説明文の集合から、特徴語の候補を獲得し、特徴語の候補の出現頻度、及び特徴語の候補が出現する説明文の数に基づいて、スコアを計算することにより、適切な長さで、精度よく特徴語を抽出することができる、という効果が得られる。

本発明の実施の形態に係る特徴語抽出装置の構成を示す概略図である。Ｗｅｂテキストの例を示す図である。各候補語の出現頻度及サイト頻度を示す表である。各候補語のスコアを示す表である。本発明の実施の形態に係る特徴語抽出装置における特徴語抽出処理ルーチンの内容を示すフローチャートである。

以下、図面を参照して本発明の実施の形態を詳細に説明する。なお、商品情報を表わす大量のＷｅｂテキストから、商品の特徴語を抽出する特徴語抽出装置に本発明を適用した場合を例に説明する。

＜特徴語抽出装置の構成＞
図１に示すように、本発明の実施の形態に係る特徴語抽出装置１００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）と、後述する特徴語抽出処理ルーチンを実行するためのプログラムを記憶したＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）とを備えたコンピュータで構成され、機能的には次に示すように構成されている。特徴語抽出装置１００は、入力部１０と、演算部２０とを備えている。

入力部１０は、既知のキーボード、マウス、記憶装置などの入力器により入力された、抽出対象となるＷｅｂテキストの集合を受け付ける。入力されたＷｅｂテキストは、図２に示すように、商品に関する説明文が書かれたＷｅｂページのテキスト部分と、そのＷｅｂページのURLもしくはドメインとを含んでいる。なお、商品が説明対象の一例であり、Ｗｅｂテキストの集合が、説明文の集合の一例である。

演算部２０は、Ｗｅｂテキスト記憶部２１、形態素解析部２２、カタカナ未知語分割部２３、候補獲得部２４、カテゴリ語リストデータベース２５、抽出パタンデータベース２６、スコア計算部２７、候補出力部２８、及び特徴語辞書データベース２９を備えている。

Ｗｅｂテキスト記憶部２１は、入力部１０により受け付けたＷｅｂテキストの集合を記憶している。

形態素解析部２２は、Ｗｅｂテキスト記憶部２１に記憶されているＷｅｂテキストの各々のテキスト部分に対して、周知の技術である形態素解析処理を行って単語に分解し、各単語に、品詞、読み情報などを付与する。例えば「ノースリーブフラワープリントワンピース」という入力に対し、「ノースリーブフラワープリントワンピース（未知語）」が付与される。

カタカナ未知語分割部２３は、形態素解析部２２の結果を入力とし、品詞「未知語」が付与されているカタカナ語の分割を行なう。カタカナ語の分割は、例えば、参考文献（中澤敏明, 河原大輔, 黒橋禎夫,「日本語辞書整備のための日本語カタカナ複合名詞の自動分割」,言語処理学会第11回年次大会, pp.588-591, 2005年3月）などの既知の技術により実現でき、和英辞書を用いる方法、英語コーパスと和英辞書を用いる方法、基礎データ内の関係を用いる方法、又はこれらの方法の組み合わせにより実現できる。

「ノースリーブフラワープリントワンピース（未知語）」に対する出力は、「ノー（未知語） /スリーブ（未知語） /フラワー（未知語） /プリント（未知語） /ワンピース（未知語）」となる。

ここで、カテゴリ語に基づいて特徴語の候補を抽出する原理について説明する。

商品の特徴語は、典型的には、商品を表す語（カテゴリ語）を修飾する表現で出現する。

例えば、「ワンピース」、「シャツ」などがカテゴリ語であり、「フェミニンなワンピース」の「フェミニン」、「ノースリーブワンピース」の「ノースリーブ」が特徴語である。

あらかじめ用意した、商品を表すカテゴリ語と、あらかじめ用意した「Ｘな＜カテゴリ語＞」、「Ｘ＜カテゴリ語＞」のような出現パタンとを用いて、商品の説明文から、特徴語Xと考えられる候補語を獲得する。

カテゴリ語と特徴語との出現パタンとしては、以下の（１）〜（３）に示すようなものが考えられる。

（１）カテゴリ語を修飾する形容詞、形容動詞、副詞として特徴語が出現する出現パタン

例えば、「Ｘとした＜カテゴリ語＞」（e.g. ふわっとしたワンピース）や、「Ｘな＜カテゴリ語＞」（e.g. フェミニンなワンピース）である。

（２）カテゴリ語を含む複合語として特徴語が出現する出現パタン

例えば、「Ｘ＜カテゴリ語＞」（e.g. ノースリーブワンピース, 2way バッグ）である。

（３）カテゴリ語にかかる名詞句（未知語含む）として特徴語が出現する出現パタン

例えば、「Ｘの＜カテゴリ語＞」（e.g. チェックのワンピース）である。

そこで、本実施の形態では、カテゴリ語リストデータベース２５に、商品のカテゴリ語のリストを記憶しておく。なお、カテゴリ語は人手で用意してもよいし、各商品ページのトピックパス(e.g. ”top > レディース > トップス > シャツ”のように、Webサイト内での各ページの位置を、階層構造の上位ページへのリンクとして表したものをいう）から自動で獲得してもよい。

また、抽出パタンデータベース２６は、上記の（１）〜（３）の出現パタンを、特徴語を抽出するために用いる抽出パタンとして記憶している。

候補獲得部２４は、カタカナ未知語分割部２３により出力された、形態素解析済みであって、かつ、カタカナ未知語が分割されたＷｅｂテキストのテキスト部分から、カテゴリ語リストデータベース２５に記憶されたカテゴリ語リストと、抽出パタンデータベース２６に記憶された特徴語の抽出パタンとを用いて、特徴語の候補となる候補語を抽出する。

例えば、カテゴリ語リストに「ワンピース」が含まれ、抽出パタンに、「X ＜カテゴリ語＞」という出現パタンが含まれている場合に、説明文中の「ノー（未知語） /スリーブ（未知語） /フラワー（未知語） /プリント（未知語） /〈ワンピース〉」という部分から、「ノー/スリーブ/フラワー/プリント」が候補語ｘとして獲得される。

また、候補獲得部２４は、獲得した候補語が複数の形態素から構成される場合、候補語を分解し、分解により得られた語の各々を、候補語とする。なお、候補語が一語から構成される場合は分解しない。

例えば、獲得された候補語「ノー/スリーブ/フラワー/プリント」は複数形態素からなるため、「ノー」、「ノー/スリーブ」、「ノー/スリーブ/フラワー」、「ノー/スリーブ/フラワー/プリント」、「スリーブ」、「スリーブ/フラワー」、「スリーブ/フラワー/プリント」、「フラワー」、「フラワー/プリント」、及び「プリント」に分解し、それぞれの語を候補語とする。

また、候補獲得部２４は、得られたそれぞれの候補語について、入力されたＷｅｂテキストの集合における候補語の出現頻度と、その候補語が何個のＷｅｂサイトで出現したかを示すサイト頻度とを計算する。サイト頻度は、入力WebテキストのURLのうち、例えば最初の’/’までをサイト名として切り出して頻度を計算することで得られる。入力が説明文の集合であれば、サイト頻度の代わりに説明文の数を用いる。

図３に示すように、候補語（形態素境界が含まれたまま）と、計算した候補語の出現頻度ｎ（ｘ）と、候補語のサイト頻度sf(x)とが、候補獲得部２４の出力となる。

スコア計算部２７は、獲得された候補語の各々について、以下に説明するように、特徴語である度合いを示すスコアを計算する。

本実施の形態では、特徴語である度合いとして、獲得された語の適切な長さを測るため、語のユニット性に基づくスコアリングを行なう。語のユニット性とは、ある言語単位がコーパス中で安定して使用される度合いを示すものである。

具体的には、C-valueとよばれる尺度を、語が1語から成る場合にも対応させたModified C-value（上記の非特許文献１を参照）に基づく式を用いる。また、「エクストラファインコットン」のようなある特定サイトの商品にしか存在しない語に対しては低い重みがつくように改良した、以下の（１）式を用いて、スコアを計算する。これは、辞書に登録すべき特徴語は、広く様々なサイトで出現する語であることが望ましいためである。

ここで、sf(x)は候補語xが出現したＷｅｂテキストのサイト数を示すサイト頻度、length(x)は候補語xを構成する形態素数、n(x)は候補語xの出現頻度である。t(x)は候補語xを含む別の候補語の出現頻度の総数、c(x)は候補語xを含む別の候補語の種類数である。

上記（１）式は、もともとのC-valueを、上記の非特許文献１と同様に頻度1にも対応させ、さらにサイト毎の出現頻度の対数をかけることで、あるサイトにしか出現しない特定語の重みを低くするようにしたものである。

スコア計算部２７は、獲得された候補語の各々について、候補獲得部２４で得られた候補語、出現頻度、及びサイト頻度を用いて、上記（１）式に従って、スコアを計算する。

具体的には、入力された候補語すべてに対し、下記の１．〜６．の処理を行い、スコアを計算する。なお、混乱を避けるため、一つ一つ処理される候補語をxと表記する。

１．候補語xに紐付く出現頻度(n(x))及びサイト頻度(sf(x))を得る。
２．候補語xを形態素境界で分割し、分割数(length(x)に相当)を得る。
３．候補語xをキーとし、スコア計算部２７の入力である候補語を検索し、キーである候補語xを含む候補語とそれに紐付く出現頻度を取得し、候補語xを含む候補語と出現頻度とのペアを表わす候補語リストペアを作成する。
４．候補語リストペア中の出現頻度を足しこみ、t(x)を求める。
５．候補語リストペア中の候補語の種類数(c(x)に相当)を求める。
６．求められたn(x)、sf(x)、length(x)、t(x)、c(x)から、上記（１）式に従い score(x)を算出する。

なお、上記３．の候補語ｘを含む候補語の検索では、膨大な候補が想定され、処理時間が非常にかかると予想されるため、候補語と出現頻度を接尾辞配列などの構造体にすることで検索時間を短縮することが好ましい。

図４に示すような、各候補語と求められたスコアとのペアが、スコア計算部２７の出力となる。なお、上記図４の例における候補語は、形態素境界を削除したものとする。

候補出力部２８は、計算されたスコアが閾値以上となる候補語を特徴語として出力し、特徴語辞書データベース２９に登録する。例えば、候補語「ノー」、「ノー/スリーブ」、「ノー/スリーブ/フラワー」、「ノー/スリーブ/フラワー/プリント」、「スリーブ」、「スリーブ/フラワー」、「スリーブ/フラワー/プリント」、「フラワー」、「フラワー/プリント」、及び「プリント」のうち、「ノースリーブ」及び「フラワープリント」のスコアが閾値以上であれば、この２つの候補語のみを出力し、他の７の候補語は棄却する。

なお、閾値としては適当な値を選択することができる。たとえば、あらかじめ開発データでテストし、最適であった値を設定するなどの方法がある。また、入力データのサイズなどによって閾値は検討する必要がある。一例として、数万のＷｅｂテキストを入力とした場合の閾値は60〜100程度とした。

＜特徴語抽出装置の作用＞
次に、本実施の形態に係る特徴語抽出装置１００の作用について説明する。まず、特徴語抽出装置１００に、商品の説明文を含むＷｅｂテキストの集合が入力されると、Ｗｅｂテキスト記憶部２１に記憶される。そして、特徴語抽出装置１００において、図５に示す特徴語抽出処理ルーチンが実行される。

まず、ステップＳ１０１において、Ｗｅｂテキストの集合を、Ｗｅｂテキスト記憶部２１から読み込む。そして、ステップＳ１０２において、形態素解析部２２によって、上記ステップＳ１０１で読み込んだＷｅｂテキストの各々に対して形態素解析処理を行う。

次のステップＳ１０３では、カタカナ未知語分割部２３によって、各Ｗｅｂテキストの形態素解析結果に基づいて、各Ｗｅｂテキストのカタカナ未知語を分割する。ステップＳ１０４では、候補獲得部２４によって、カテゴリ語リストデータベース２５及び抽出パタンデータベース２６を参照して、上記ステップＳ１０３でカタカナ未知語が分割され、かつ、形態素解析済みの各Ｗｅｂテキストから、特徴語の候補となる候補語を抽出する。

そして、ステップＳ１０５において、候補獲得部２４によって、上記ステップＳ１０４で抽出された各候補語について、出現頻度及びサイト頻度を計算する。ステップＳ１０６では、スコア計算部２７によって、上記ステップＳ１０４で抽出された各候補語について、形態素の分割数を求めると共に、当該候補語を含む他の候補語及び出現頻度を求める。

そして、ステップＳ１０７において、スコア計算部２７によって、上記ステップＳ１０４で抽出された各候補語について、上記ステップＳ１０５で計算された出現頻度及びサイト頻度と、上記ステップＳ１０６で求められた分割数、他の候補語、及び出現頻度とを用いて、上記（１）式に従って、スコアを計算する。

ステップＳ１０８では、上記ステップＳ１０７で計算されたスコアが予め定められた閾値以上となる候補語を、特徴語として特徴語辞書データベース２９に登録して、特徴語抽出処理ルーチンを終了する。

以上説明したように、本実施の形態に係る特徴語抽出装置によれば、未知語であるカタカナ語が分割され、かつ、形態素解析済みのＷｅｂテキストの集合から、特徴語の候補を獲得し、特徴語の候補の出現頻度、及び特徴語の候補が出現するＷｅｂテキストの数に基づいて、スコアを計算することにより、適切な長さで、精度よく特徴語を抽出することができる。また、特徴語を抽出することにより、どういう商品が買われているか、注目されているかなどを分析する際の手がかり語が獲得でき、マーケティングなどにおいてより詳細な分析が可能になる。

また、特徴語の候補を、カテゴリ語リストと出現パタンとで絞り込むことにより、精度良く特徴語を抽出することができる。

また、カタカナ未知語を分割すると共に、語のユニット性に基づき、かつ、特定サイトの商品にしか存在しない語に対しては低い重みがつくようにした式を用いてスコアを計算することにより、カタカナ未知語の特徴語であっても、適切な長さで特徴語を獲得することができる。

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、商品以外のものを説明対象として、当該説明対象の特徴語を、説明文から抽出するようにしてもよい。

また、形態素解析部を、外部の装置に設けてもよい。この場合には、特徴語抽出装置に、形態素解析済みのＷｅｂテキスト（説明文)の集合が入力されるようにし、形態素解析済みのＷｅｂテキスト（説明文)の集合に対して、カタカナ未知語分割部によって、カタカナ未知語が分割されるようにすればよい。

また、形態素解析部及びカタカナ未知語分割部を外部の装置に設けてもよい。この場合には、特徴語抽出装置に、カタカナ未知語が分割され、かつ、形態素解析済みのＷｅｂテキスト（説明文)の集合が入力されるようにし、当該Ｗｅｂテキスト（説明文)の集合から、候補獲得部によって、特徴語の候補が獲得されるようにすればよい。

また、Ｗｅｂテキストを入力とする場合を例に説明したが、これに限定されるものではなく、Ｗｅｂテキスト以外の、説明対象の説明文を入力とするようにすればよい。

また、本発明は、周知のコンピュータに媒体もしくは通信回線を介して、プログラムをインストールすることによっても実現可能である。

また、上述の特徴語抽出装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。

１０入力部
２０演算部
２１Ｗｅｂテキスト記憶部
２２形態素解析部
２３カタカナ未知語分割部
２４候補獲得部
２５カテゴリ語リストデータベース
２６抽出パタンデータベース
２７スコア計算部
２８候補出力部
２９特徴語辞書データベース
１００特徴語抽出装置

Claims

説明対象の説明文から前記説明対象に関する特徴語を抽出する特徴語抽出装置における特徴語抽出方法であって、
候補獲得手段によって、入力された、未知語であるカタカナ語が分割され、かつ、形態素解析済みの説明文の集合から、予め求められた前記説明対象のカテゴリ語のリストと、予め求められた前記カテゴリ語及び該カテゴリ語を修飾する特徴語の出現パタンとに基づいて、特徴語の候補を獲得するステップと、
スコア計算手段によって、前記獲得された特徴語の候補の各々について、前記説明文の集合における前記特徴語の候補の出現頻度、及び前記特徴語の候補が出現する説明文の数に基づいて、特徴語である度合いを示すスコアを計算するステップと、
候補出力手段によって、前記計算されたスコアが閾値以上となる特徴語の候補を、前記特徴語として出力するステップと、
を含む特徴語抽出方法。
前記前記カテゴリ語及び該カテゴリ語を修飾する特徴語の出現パタンは、
前記カテゴリ語、及び該カテゴリ語を修飾する形容詞、形容動詞、又は副詞としての特徴語が出現するパタン、
前記カテゴリ語及び前記特徴語を含む複合語として出現するパタン、あるいは
前記カテゴリ語及び該カテゴリ語に係る名詞句としての特徴語が出現するパタンを含む請求項１記載の特徴語抽出方法。
前記スコア計算手段によって前記スコアを計算するステップは、前記獲得された特徴語の候補の各々について、前記特徴語の候補の出現頻度、前記特徴語の候補が出現する説明文の数、前記特徴語の候補を構成する形態素の数、前記特徴語の候補を含む他の候補の出現頻度の総数、及び前記特徴語の候補を含む他の候補の種類数に基づいて、前記スコアを計算する請求項１又は２記載の特徴語抽出方法。
カタカナ未知語分割手段によって、入力された、形態素解析済みの説明文の集合における、未知語であるカタカナ語を分割するステップを更に含み、
前記候補獲得手段によって前記特徴語の候補を獲得するステップは、前記カタカナ未知語分割手段によって未知語であるカタカナ語が分割され、かつ、形態素解析済みの説明文の集合から、前記特徴語の候補を獲得する請求項１〜３の何れか１項記載の特徴語抽出方法。
形態素解析手段によって、入力された説明文の集合に対して形態素解析を行うステップを更に含み、
前記カタカナ未知語分割手段によって前記未知語であるカタカナ語を分割するステップは、前記形態素解析手段による態素解析済みの説明文の集合における、未知語であるカタカナ語を分割する請求項４記載の特徴語抽出方法。
説明対象の説明文から前記説明対象に関する特徴語を抽出する特徴語抽出装置であって、
入力された、未知語であるカタカナ語が分割され、かつ、形態素解析済みの説明文の集合から、予め求められた前記説明対象のカテゴリ語のリストと、予め求められた前記カテゴリ語及び該カテゴリ語を修飾する特徴語の出現パタンとに基づいて、特徴語の候補を獲得する候補獲得手段と、
前記獲得された特徴語の候補の各々について、前記説明文の集合における前記特徴語の候補の出現頻度、及び前記特徴語の候補が出現する説明文の数に基づいて、特徴語である度合いを示すスコアを計算するスコア計算手段と、
前記計算されたスコアが閾値以上となる特徴語の候補を、前記特徴語として出力する候補出力手段と、
を含む特徴語抽出装置。
コンピュータに、請求項１〜請求項５の何れか１項記載の特徴語抽出方法の各ステップを実行させるためのプログラム。