JP5679400B2

JP5679400B2 - カテゴリ主題語句抽出装置及び階層的タグ付与装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体

Info

Publication number: JP5679400B2
Application number: JP2010012397A
Authority: JP
Inventors: 京介西田; 藤村　考; 考藤村; 優甲谷
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2010-01-22
Filing date: 2010-01-22
Publication date: 2015-03-04
Anticipated expiration: 2030-01-22
Also published as: JP2011150603A

Description

本発明は、カテゴリ主題語句抽出装置及び階層的タグ付与装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体に係り、特に、予めカテゴリ分けされた文書集合から、各カテゴリに属する文書のタイトル中に出現する語句の統計情報と各カテゴリに属する文書の全文中に出現する語句の統計情報を基に、カテゴリ毎に主題を表す語句を1つ以上抽出するカテゴリ主題語句抽出装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体と、カテゴリ主題語句抽出装置を使用して得られるカテゴリの主題を表す語句を基に、入力文書に対して該入力文書の内容に即した意味的階層構造を有する複数のタグを自動的に付与する階層的タグ付与装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体に関する。

近年では、Ｗｅｂ上のＱ＆Ａコミュニティやニュース記事など、ユーザの手によってカテゴリ分けされた文書が日々爆発的に増え続けている。

これらのカテゴリ分けされた文書集合から、各カテゴリに関連する語句を抽出する技術に関しては、大量の文書から有用な情報や知識を抽出することを目的としたテキストマイニング分野や、与えられた文書を精度良くカテゴリ分けすることを目的とした文書分類分野において取り組まれており、従来技術には、文書頻度、残差文書頻度、情報利得、相互情報量、カイ二乗統計量、逆カテゴリ頻度などを利用した技術がある（例えば、非特許文献１、２参照）。

また、文書の内容に沿った適切なタグを付与して文書の整理を行い、閲覧者を支援するための自動タグ付与装置がある（例えば、特許文献1参照）。

また、文書中から抽出した語句または属性値をタグとして利用する技術がある（例えば、特許文献２参照）。

特開２００８−３１０６２６号公報特開２００５−３３９１３９号公報

藤村滋、藤村考、片岡良治、奥雅博、"Blogのタグ間類似度のスコアリング"、日本データベース学会Letters, Vol. 5, No.4, pp. 33-36, 2007 G. Foreman, "An Extensive Empirical Study of Feature Selection Metrics for Text Classification", The Journal of Machine Learning Research 3, pp. 1289- 1305, 2002.

しかし、非特許文献１，２の従来技術によって獲得される語句は、各カテゴリに関連する語句であって、各カテゴリで扱われる主題を表す語句ではない。

例えば、上記従来技術による数学カテゴリに関連する語句の出力例として、「移項」や「代入」などがある。これらの語句は、数学カテゴリでの出現頻度に比べ、数学カテゴリを除くカテゴリにおける出現頻度が低く、数学カテゴリに関連した語句である一方で、数学カテゴリの文書の主題を表す語句ではない。このように、上記従来技術を、カテゴリで扱われる主題を表す語句を抽出する目的で利用する際には、出力語句にカテゴリで扱われる主題とは無関係な語句が含まれてしまう問題がある。

また、特許文献1の従来技術は、タグが付与されていない入力文書に対して、予めタグが設定されている大量の文書を基に、該入力文書の内容に沿った適切なタグを自動的に付与するものである。しかし、当該自動タグ付与装置では、Ｗｅｂ上のＱ＆Ａコミュニティにおける文書のようにカテゴリ分けされているが、タグが付与されていない文書集合を基に、入力文書に対してタグを自動的に付与することができない。例えカテゴリ名をタグと見做したとしても、通常カテゴリ名には「数学」など抽象度の高い語句が設定されるので、上記自動タグ付与装置では、「一階線形微分」や「余弦定理」など数学に関する文書の主題を具体的に表すタグを付与できない。要するに、入力文書に対して、タグが設定されていない文書集合を基に、前記入力文書の内容に即した適切なタグを付与するためには、前記文書集合からタグの候補として適切な語句を予め抽出しておき、前記タグの候補の中から前記入力文書の内容に即したタグを選出して付与する必要がある。

また、特許文献２の技術を用いれば、どのような文書に対しても自動的にタグを付与できるが、設定できるタグは文書中に出現するものに限られてしまう。例えば、「余弦定理」という語句が含まれていない文書に対して、余弦定理に関する内容が記載されていたとしても「余弦定理」というタグを設定することは不可能である。

また、タグが文書の整理と閲覧者の情報検索を支援する目的で利用されることを考慮すると、「数学」−「余弦定理」のように、意味的階層性を有する複数のタグが付与されることが望ましい。しかし、意味的階層性を考慮して入力文書へタグを付与する技術は過去にない。

上記のように、従来技術では、指定されたカテゴリで扱われる主題を表す語句のみを抽出することと、入力文書に対して該入力文書の内容に即した意味的階層構造を有する複数のタグを自動的に付与することが困難であった。

本発明は、上記従来技術の問題点に鑑みて、予めカテゴリ分けされた文書集合から、各カテゴリに属する文書のタイトル中における語句の出現に関する統計情報と、各カテゴリに属する文書の全文中における語句の出現に関する統計情報を基に、カテゴリ毎に主題を表す語句を１つ以上抽出するカテゴリ主題語句抽出装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体を提供することと、カテゴリ主題語句抽出装置を使用して得られるカテゴリの主題を表す語句を基に、入力文書に対して該入力文書の内容に即した意味的階層構造を有する複数のタグを自動的に付与する階層的タグ付与装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体を提供することを目的とする。

図１は、本発明の原理構成図である。

本発明（請求項１）は、予めカテゴリ分けされた文書集合から各カテゴリの主題を表す語句を抽出するカテゴリ主題語句抽出装置であって、
文書を語句の集合に分解する形態素解析手段１１と、
形態素解析結果の各カテゴリに属する文書のタイトル中に語句が出現する文書数の合計を含む語句の出現に関する情報の統計量、または、語句の出現するカテゴリ数、語句の出現する日数、語句の出現する時間間隔のいずれかを含む統計情報を集計し、第１の記憶手段に格納するタイトル中語句統計情報集計手段１２と、
形態素解析結果の各カテゴリに属する文書の全文中に出現する語句が出現する文書数の合計を含む語句の出現に関する情報の統計量、または、語句の出現するカテゴリ数、語句の出現する日数、語句の出現する時間間隔のいずれかを含む統計情報を集計し、第２の記憶手段に格納する全文中語句統計情報集計手段１３と、
カテゴリ毎に、第１の記憶手段に格納されている該カテゴリのタイトル中語句統計情報集計手段１２の集計結果と、第２の記憶手段に格納されている全文中語句統計情報集計手段１３の集計結果を入力として「カテゴリｃに属する文書タイトル中に語句ｗが出現する比率と、カテゴリｃを除くカテゴリに属する文書の全文書中に語句ｗが出現する比率は等しい」という帰無仮説の下で統計的検定を行った結果の有意確率が閾値αよりも小さな値となる語句を、主題を表す語句として抽出する主題語句抽出手段１４と、を有する。

また、本発明（請求項２）は、請求項１のカテゴリ主題語句抽出装置において、
形態素解析結果の語句の各カテゴリにおける出現文書数に関する時間情報に対応する統計量を語句流行度として算出し、第３の記憶手段に格納する語句流行度算出手段を更に有し、
主題語句抽出手段１４は、
カテゴリ毎に主題を表す語句に、第３の記憶手段に格納されている語句流行度を付記して出力する手段を含む。

本発明（請求項３）は、入力文書に対して、予めカテゴリ分けされた文書集合を基に、該入力文書の内容に即した意味的階層構造を有する複数のタグを自動的に付与する階層的タグ自動付与装置であって、
予めカテゴリ分けされた文書集合から請求項１または請求項２に記載のカテゴリ主題語句抽出装置を使用して、各カテゴリの主題を表す語句を抽出し、第１の記憶手段に格納するカテゴリ主題語句抽出手段と、
カテゴリ分けされた文書集合に出現する語句の統計情報をカテゴリ毎に集計し、第２の記憶手段に格納する語句統計情報集計手段と、
入力文書を語句集合に分解する形態素解析手段と、
形態素解析手段の結果である語句集合、第２の記憶手段に格納されている語句統計情報集計手段の集計結果から、カテゴリｃの文書中で語句ｗが出現する確率により、第１の記憶手段に格納されているカテゴリ名をタグとして入力文書へ付与すべき度合いを算出し、第３の記憶手段に格納するカテゴリタグスコア算出手段と、
形態素解析手段の結果である語句集合、第２の記憶手段に格納されている語句統計情報集計手段の集計結果であるカテゴリｃに属し、カテゴリ主題語句ｔが出現する文書数Ｎｃｔ個と、該カテゴリｃに属し、該カテゴリ主題語句ｔが出現する文書のうち、語句ｗが出現する文書数Ｄｃｔ（ｗ）の比率により、第１の記憶手段に格納されているカテゴリの主題を表す語句名をタグとして入力文書へ付与すべき度合いを算出し、第４の記憶手段に格納するカテゴリ主題タグスコア算出手段と、
第３の記憶手段に格納されているカテゴリタグスコア算出手段の算出結果と第４の記憶手段に格納されているカテゴリ主題タグスコア算出手段の算出結果とを乗算した値が大きいカテゴリとカテゴリ主題語句をタグとし、入力文書に対して該入力文書の内容に即した意味的階層構造を有する複数のタグを付与するタグ付与手段と、を有する。

また、本発明（請求項４）は、請求項３の階層的タグ付与装置において、
前記形態素解析手段の結果である語句集合、前記第２の記憶手段に格納されている前記語句統計情報集計手段の集計結果であるカテゴリｃに属し、カテゴリ主題語句ｔが出現する文書数Ｎｃｔ個と、該カテゴリｃに属し、該カテゴリ主題語句ｔが出現する文書のうち、語句ｗが出現する文書数Ｄｃｔ（ｗ）の比率により、前記第１の記憶手段に格納されているカテゴリの主題を表す語句名をタグとして前記入力文書に出現する語句の重要度を算出し、第５の記憶手段に格納するキーワードタグスコア算出手段を更に有し、
タグ付与手段は、
第３の記憶手段に格納されているカテゴリタグスコア算出手段の算出結果と第４の記憶手段に格納されているカテゴリ主題タグスコア算出手段の算出結果を乗算した値が大きいカテゴリとカテゴリ主題語句を選出し、該カテゴリ主題語句を除いた中で第５の記憶手段に格納されているキーワードタグスコア算出手段の算出結果が大きい語句をタグとして入力文書に付与する手段を含む。

図２は、本発明の原理を説明するための図である。

本発明（請求項５）は、予めカテゴリ分けされた文書集合から各カテゴリの主題を表す語句を抽出するカテゴリ主題語句抽出方法であって、
形態素解析手段、タイトル中語句統計情報集計手段、全文中語句統計情報集計手段、主題語句抽出手段を有する装置において、
形態素解析手段が、文書を語句の集合に分解する形態素解析ステップ（ステップ１）と、
タイトル中語句統計情報集計手段が、形態素解析結果の各カテゴリに属する文書のタイトル中に語句が出現する文書数の合計を含む語句の出現に関する情報の統計量、または、語句の出現するカテゴリ数、語句の出現する日数、語句の出現する時間間隔のいずれかを含む統計情報を集計し、第１の記憶手段に格納するタイトル中語句統計情報集計ステップ（ステップ２）と、
全文中語句統計情報集計手段が、形態素解析結果の各カテゴリに属する文書の全文中に出現する語句が出現する文書数の合計を含む語句の出現に関する情報の統計量、または、語句の出現するカテゴリ数、語句の出現する日数、語句の出現する時間間隔のいずれかを含む統計情報を集計し、第２の記憶手段に格納する全文中語句統計情報集計ステップ（ステップ３）と、
主題語句抽出手段が、カテゴリ毎に、第１の記憶手段に格納されている該カテゴリのタイトル中語句統計情報集計ステップ（ステップ２）の集計結果と、第２の記憶手段に格納されている全文中語句統計情報集計ステップ（ステップ３）の集計結果を入力として「カテゴリｃに属する文書タイトル中に語句ｗが出現する比率と、カテゴリｃを除くカテゴリに属する文書の全文書中に語句ｗが出現する比率は等しい」という帰無仮説の下で統計的検定を行った結果の有意確率が閾値αよりも小さな値となる語句を、主題を表す語句として抽出する主題語句抽出ステップ（ステップ４）と、を行う。

また、本発明（請求項６）は、請求項５のカテゴリ主題語句抽出方法において、
装置の語句流行度算出手段が、形態素解析結果の語句の各カテゴリにおける出現文書数に関する時間情報に対応する統計量を語句流行度として算出し、第３の記憶手段に格納する語句流行度算出ステップを更に行い、
主題語句抽出ステップにおいて、
カテゴリ毎に主題を表す語句に、第３の記憶手段に格納されている語句流行度を付与して出力する。

本発明（請求項７）は、入力文書に対して、予めカテゴリ分けされた文書集合を基に、該入力文書の内容に即した意味的階層構造を有する複数のタグを自動的に付与する階層的タグ付与方法であって、
カテゴリ主題語句抽出手段、語句統計情報集計手段、形態素解析手段、カテゴリタグスコア算出手段、カテゴリ主題タグスコア算出手段、タグ付与手段を有する装置において、
カテゴリ主題語句抽出手段が、予めカテゴリ分けされた文書集合から請求項１または請求項２に記載のカテゴリ主題語句抽出装置を使用して、各カテゴリの主題を表す語句を抽出し、第１の記憶手段に格納するカテゴリ主題語句抽出ステップと、
語句統計情報集計手段が、カテゴリ分けされた文書集合に出現する語句の統計情報をカテゴリ毎に集計し、第２の記憶手段に格納する語句統計情報集計ステップと、
形態素解析手段が、入力文書を語句集合に分解する形態素解析ステップと、
カテゴリタグスコア算出手段が、形態素解析ステップの結果である語句集合、第２の記憶手段に格納されている語句統計情報集計ステップの集計結果から、カテゴリｃの文書中で語句ｗが出現する確率により、第１の記憶手段に格納されているカテゴリ名をタグとして入力文書へ付与すべき度合いを算出し、第３の記憶手段に格納するカテゴリタグスコア算出ステップと、
カテゴリ主題タグスコア算出手段が、形態素解析ステップの結果である語句集合、第２の記憶手段に格納されている語句統計情報集計ステップの集計結果であるカテゴリｃに属し、カテゴリ主題語句ｔが出現する文書数Ｎｃｔ個と、該カテゴリｃに属し、該カテゴリ主題語句ｔが出現する文書のうち、語句ｗが出現する文書数Ｄｃｔ（ｗ）の比率により、第１の記憶手段に格納されているカテゴリの主題を表す語句名をタグとして入力文書へ付与すべき度合いを算出し、第４の記憶手段に格納するカテゴリ主題タグスコア算出ステップと、
タグ付与手段が、第３の記憶手段に格納されているカテゴリタグスコア算出ステップの算出結果と第４の記憶手段に格納されているカテゴリ主題タグスコア算出ステップの算出結果とを乗算した値が大きいカテゴリとカテゴリ主題語句をタグとし、入力文書に対して該入力文書の内容に即した意味的階層構造を有する複数のタグを付与するタグ付与ステップと、を行う。

また、本発明（請求項８）は、請求項７の階層的タグ付与方法において、
装置のキーワードタグスコア算出手段が、形態素解析ステップの結果である語句集合、第２の記憶手段に格納されている語句統計情報集計ステップの集計結果であるカテゴリｃに属し、カテゴリ主題語句ｔが出現する文書数Ｎｃｔ個と、該カテゴリｃに属し、該カテゴリ主題語句ｔが出現する文書のうち、語句ｗが出現する文書数Ｄｃｔ（ｗ）の比率により、第１の記憶手段に格納されているカテゴリの主題を表す語句名をタグとして入力文書に出現する語句の重要度を算出し、第５の記憶手段に格納するキーワードタグスコア算出ステップを更に行い、
タグ付与ステップにおいて、
第３の記憶手段に格納されているカテゴリタグスコア算出ステップの算出結果と第４の記憶手段に格納されているカテゴリ主題タグスコア算出ステップの算出結果を乗算した値が大きいカテゴリとカテゴリ主題語句を選出し、該カテゴリ主題語句を除いた中で第５の記憶手段に格納されているキーワードタグスコア算出ステップの算出結果が大きい語句をタグとして入力文書に付与する。

本発明（請求項９）は、請求項１または２に記載のカテゴリ主題語句抽出装置を構成する各手段としてコンピュータを機能させるためのカテゴリ主題語句抽出プログラムである。

本発明（請求項１０）は、請求項３または４に記載の階層的タグ付与装置を構成する各手段としてコンピュータを機能させるための階層的タグ付与プログラムである。

上記のように請求項１（請求項５）に係るカテゴリ主題語句抽出装置（方法）によれば、文書のタイトル中に出現する語句の統計情報と文書の全文中に出現する語句の統計情報とを区別して利用するので、カテゴリの主題を表す語句を抽出できる。

なお、請求項２（請求項６）に係るカテゴリ主題語句抽出装置（方法）によれば、語句の流行度をカテゴリの主題を表す語句の抽出に反映させるので、カテゴリの最近の主題を表す語句を抽出できる。

次に、請求項３（請求項７）に係る階層的タグ付与装置（方法）によれば、上記のように構成されたカテゴリ主題語句抽出装置を使用して得られるカテゴリの主題を表す語句をタグの候補とし、さらに、カテゴリとカテゴリの主題を表す語句との間の意味的階層構造を利用するので、入力文書に対して該入力文書の内容に即した意味的階層構造を有する複数のタグを自動的に付与できる。

なお、請求項３（請求項８）に係る階層的タグ付与装置（方法）によれば、文書中から抽出した語句を付与するタグの候補とするので、新奇な語句もタグとして付与できる。

本発明の原理構成図である。本発明の原理を説明するための図である。本発明の第１の実施の形態におけるカテゴリ主題語句抽出装置の構成図である。本発明の第１の実施の形態におけるカテゴリ主題語句抽出装置の処理を説明するための図である。本発明の第１の実施の形態におけるカテゴリの主題を表す語句の例である。本発明の第２の実施の形態におけるカテゴリ主題語句抽出装置の構成図である。本発明の第２の実施の形態におけるカテゴリ主題語句抽出装置の処理を説明するための図である。本発明の第２の実施の形態におけるカテゴリの主題を表す語句と該語句の流行度の例である。本発明の第３の実施の形態における階層的タグ付与装置の構成図である。本発明の第３の実施の形態における階層的タグ付与装置の処理を説明するための図である。本発明の第３の実施の形態におけるタグ付与例である。本発明の第４の実施の形態における階層的タグ付与装置の構成図である。本発明の第４の実施の形態における階層的タグ付与装置の処理を説明するための図である。

以下、図面と共に本発明の実施の形態を説明する。

以下において、第１、第２の実施の形態はカテゴリ主題語句抽出装置に関するものであり、第３、第４の実施の形態は階層的タグ付与装置に関するものである。

［第１の実施の形態］
本実施の形態では、予めカテゴリ分けされた文書群からカテゴリの主題を示す語句を抽出するカテゴリ主題語句抽出装置について説明する。

図３は、本発明の第１の実施の形態におけるカテゴリ主題語句抽出装置の構成を示す。

同図に示すカテゴリ主題語句抽出装置１０は、形態素解析部１１、タイトル中語句統計情報集計部１２、全文中語句統計情報集計部１３、主題語句抽出部１４から構成され、予めカテゴリ分けされた文書集合を入力として受け取り、カテゴリ毎に主題語句を１つ以上抽出して出力する。なお、形態素解析部１１は、分割された語句を格納するためのメモリ（図示せず）を有するものとし、タイトル中語句統計集計部１２、全文中語句統計情報集計部１３は集計結果を格納するメモリ（図示せず）を有するものとする。

図２は、本発明の第１の実施の形態における処理を説明するための図である。

ステップ１０１）形態素解析部１１は、予めカテゴリ分けされた文書が入力されると、語句に分割し、メモリ（図示せず）に格納する。ここで、「語句」とは、名詞、名詞接尾辞、冠名詞、数字、助数詞、助助数詞、アルファベット、カタカナのいずれかが１つ以上連続したものであるが、１つ以上の形態素から構成される形態素集合であればいかなるものでもよく、上記の品詞の他にも動詞と形容詞と記号などを語句の対象としてもよい。

ステップ１０２）上記の処理を、入力された文書全てについて終了するまで繰り返す。

ステップ１０３）タイトル中語句統計情報集計部１２は、形態素解析部１１のメモリ（図示せず）から語句を読み込み、カテゴリｃに属する文書のタイトル中に語句ｗが出現する文書数の合計Ｔｃ（ｗ）をタイトル中の語句統計情報として集計し、メモリ（図示せず）に格納する。

ステップ１０４）全文中語句統計情報集計部１３は、形態素解析部１１のメモリ（図示せず）から語句を読み込み、カテゴリｃに属する文書の全文中に語句ｗが出現する文書数の合計Ｄｃ（ｗ）を全文中の語句統計情報として集計し、メモリ（図示せず）に格納する。

ここで、「語句統計情報」とは、語句の出現に関する情報の統計量（合計、比率、平均、尤度、中央値、最頻値、分散、標準偏差など）を意味するものであって、必ずしも語句の出現する文書数の合計に限られるものではなく、例えば、語句の出現する段落数、語句の出現するカテゴリ数、語句の出現する日数、語句の出現する時間間隔で構成される統計量としてもよい。

ステップ１０５）上記のステップ１０３〜１０４をカテゴリｃの全ての語句について終了するまで繰り返す。

ステップ１０６）上記ステップ１０３〜１０５を全てのカテゴリについて終了するまで繰り返す。

ステップ１０７）主題語句抽出部１４は、タイトル中語句統計情報集計部１２のメモリ（図示せず）に格納されている各カテゴリ及び各語句のタイトル中における語句統計情報と、全文中語句統計情報集計部１３のメモリ（図示せず）に格納されている各カテゴリ及び各語句の全文中における語句統計情報を基に、「カテゴリｃに属する文書タイトル中に語句ｗが出現する比率と、カテゴリｃを除くカテゴリに属する文書の全文中に語句ｗが出現する比率は等しい」という帰無仮説の下でフィッシャーの正確確率検定の片側検定を行う。具体的には、カテゴリｃに属する文書のうち、タイトル中に語句ｗが出現する文書の比率Ｔｃ（ｗ）／Ｎｃが、カテゴリｃを除くカテゴリに属する文書のうち、全文中に語句ｗが出現する文書の比率

よりも有意水準αで有意に高いとき、語句ｗをカテゴリｃの主題語句として出力する。

図５は、本発明の第１の実施の形態におけるカテゴリの主題を表す語句の例を示しており、有意水準α＝０．０１として抽出された「数学」「税金」「家電製品」「北海道」カテゴリの主題を表す語句の例である。

ここで、主題語句抽出部１４は、要するに、タイトル中の語句統計情報と全文中の語句統計情報を比較できる手段を有していればいかなるものでもよく、具体的には、タイトル中の語句統計情報と全文中の語句統計情報の差分により順位付けした上位からＮ個の語句を抽出する手段等がある。また、カテゴリｃのタイトル中とカテゴリｃを除くカテゴリの全文中という比較は、カテゴリｃのタイトル中と全カテゴリの全文中という比較にしてもよい。

ステップ１０８）上記のステップ１０７をカテゴリｃに属する文書のタイトルに出現する全ての語句について終了するまで繰り返す。

ステップ１０９）上記ステップ１０７〜１０８を全てのカテゴリについて終了するまで繰り返す。

上記のように本実施の形態によれば、文書のタイトル中に出現する語句の統計情報と文書の全文書中に出現する語句の統計情報とを区別して利用するので、カテゴリの主題を表す語句を抽出できる。

［第２の実施の形態］
本実施の形態では、カテゴリ主題語句抽出装置の第１の実施の形態とは異なる構成、動作を説明する。

図６は、本発明の第２の実施の形態におけるカテゴリ主題語句抽出装置の構成を示す。

第１の実施の形態では、現在主題となっている語句が過去に主題となっていた語句かの区別が付かないため、本実施の形態では、語句流行度を導入して、現在の主題となっている語句を抽出する装置を提供することを目的とする。

同図に示すカテゴリ主題語句抽出装置２０は、形態素解析部２１、タイトル中語句統計情報集計部２２、全文中語句統計情報集計部２３、語句流行度算出部２４、主題語句抽出部２５から構成され、予めカテゴリ分けされた文書集合を入力として受け取り、カテゴリ毎に語句の流行度主題語句を１つ以上抽出して出力する。なお、形態素解析部２１は、分割された語句を格納するためのメモリ（図示せず）を有するものとし、タイトル中語句統計集計部２２、全文中語句統計情報集計部２３、語句流行度算出部２４は、集計または算出結果を格納するメモリ（図示せず）を有するものとする。

図７は、本発明の第２の実施の形態における処理を説明するための図である。

ステップ２０１〜２０６）当該ステップは図４に示すステップ１０１〜１０６と同様の動作であるので、その説明を省略する。

ステップ２０７）語句流行度算出部２４は、形態素解析部２１のメモリ(図示せず)から語句を読み込み、最近の一定期間Ｔにおいて、カテゴリｃにおいて語句ｗの出現した文書数Ｐｃ（ｗ）を語句流行度として集計し、メモリ（図示せず）に格納する。なお、最近の一定期間Ｔは入力装置（図示せず）から入力されるものとする。

当該語句流行度算出部２４が出力する語句流行度は、必ずしも文書数Ｐｃ（ｗ）に限定されるものではなく、例えば、カテゴリｃにおいて語句ｗの出現する文書数の時間減衰付き移動平均値、過去の期間における平均文書数と最近の期間における文書数の差分や比率、ＥＷＭＡ管理図やＣＵＳＵＭ管理図に代表される管理図技法における出現文書数の統計量と管理限界値の差分や比率などとしてもよい。

例えば、最近の一定期間における出現文書数を語句流行度とした場合は、過去の期間とは関係なく最近の期間において多くの主題として扱われている語句に高いスコアを与えることができ、管理図技法における出現文書数の統計量と管理限界値の差分や比率を語句の流行度とした場合には、過去の期間よりも最近の期間の方が多く主題として扱われている語句に高いスコアを与えることができるなど、用途に応じて種々の手段が使用可能である。

また、語句流行度は語句出現情報と同様に、語句の出現する文書数の代わりに語句の出現する頻度などに基づいて求めてもよい。

ステップ２０８）上記のステップ２０７をカテゴリｃの全ての語句について終了するまで繰り返す。

ステップ２０９）上記ステップ２０７〜２０８を全てのカテゴリについて終了するまで繰り返す。

ステップ２１０）主題語句選定部２５０は、前述の第１の実施の形態における図４のステップ１０７と同様の処理を行って主題語句を選出した後、上記のステップ２０６にて算出し、語句流行度算出部２４０のメモリ（図示せず）に格納されている語句流行度と併せて主題語句を出力する。

図８は、本発明の第２の実施の形態におけるカテゴリの主題を表す語句と該語句の流行度を示しており、最近の一定期間Ｔを１ヶ月として抽出された「政治」「書籍・文庫」「医療」「メンタルヘルス」カテゴリの主題を表す語句と、該語句の語句流行度の例である。

ステップ２１１〜２１２）当該ステップは、前述の第１の実施の形態におけるステップ１０８〜１０９と同様の動作であるので、その説明を省略する。

上記のように本実施の形態によれば、語句の流行度をカテゴリの主題を表す語句の抽出に反映させるので、カテゴリの最近の主題を表す語句を抽出できる。

［第３の実施の形態］
本実施の形態では、階層的タグ付与装置について説明する。

当該階層タグ付与装置は、カテゴリの主題を示す語句と、各文書のカテゴリとカテゴリの主題はカテゴリが上位、カテゴリの主題が下位の階層関係にあることに着目する。

本実施の形態では、文書がどのカテゴリに属するのか尤もらしさを示すスコア（カテゴリタグスコア）と、予め他の文書群から定めたそのカテゴリに属する文書の主題語句が、今着目している文書に対して適切かどうかを示すスコア（カテゴリ主題タグスコア）を求め、２種類のスコアの組み合わせの中で適切なものを抽出し、抽出した組み合わせに対応するカテゴリとカテゴリ主題語句を階層的タグとして文書に付与するものである。

図９は、本発明の第３の実施の形態における階層的タグ付与装置の構成を示す。

同図に示す階層的タグ付与装置３０は、カテゴリ主題語句抽出部３１、語句統計情報集計部３２、形態素解析部３３、カテゴリタグスコア算出部３４、カテゴリ主題タグスコア算出部３５、タグ付与部３６から構成され、入力文書に対して、予めカテゴリ分けされた文書データベースに格納された文書集合を基に、該入力文書の内容に即した意味的階層性を有する複数のタグを付与する。なお、入力文書がカテゴリ分けされていなくても意味的階層性を有するタグを付与できる。

また、形態素解析部３３は、分割された語句を格納するためのメモリ（図示せず）を有するものとし、カテゴリタグスコア算出部３４、カテゴリ主題タグスコア算出部３５は、算出結果を格納するメモリ（図示せず）を有するものとする。

図１０は、本発明の第３の実施の形態の動作を説明するための図である。

ステップ３０１）カテゴリ主題語句抽出部３１は、前述の第１または第２の実施の形態で示したカテゴリ主題語句抽出装置１０，２０を使用し、カテゴリ分けされた文書ＤＢ４０に格納された文書集合から、各カテゴリのカテゴリ主題語句を抽出する。つまり、カテゴリ主題語句抽出部３１は、第１、第２の実施の形態のカテゴリ主題語句抽出装置１０，２０の機能を有する。

ステップ３０２）語句統計情報集計部３２は、カテゴリｃに属するＮｃ個の文書のうち、語句ｗが出現する文書数Ｄｃ（ｗ）を語句統計情報として集計し、メモリ（図示せず）に格納する。

ステップ３０３）上記ステップ３０２のカテゴリｃの全ての語句について終了するまで繰り返す。

ステップ３０４）語句統計情報集計部３２は、カテゴリｃに属し、カテゴリ主題語句ｔが出現するＮ_ｃｔ個の文書のうち、語句ｗが出現する文書数Ｄ_ｃｔ（ｗ）を語句統計情報として集計し、メモリ（図示せず）に格納する。

ここで、カテゴリ主題語句が出現する文書は、カテゴリ主題語句がタイトル中に出現する文書として集計してもよい。

ステップ３０５）上記のステップ３０４をカテゴリｃの全ての語句について終了するまで繰り返す。

ステップ３０６）上記ステップ３０４〜３０５をカテゴリｃの全ての主題語句について終了するまで繰り返す。

ステップ３０７）上記ステップ３０２〜３０６を全てのカテゴリについて終了するまで繰り返す。

ステップ３０８）形態素解析部３３は、入力文書を語句に分解し、形態素解析結果をメモリ（図示せず）に格納する。

なお、以下のステップの処理に関して、入力文書が予めカテゴリ分けされている必要は無い。

ステップ３０９）カテゴリタグスコア算出部３４は、語句統計情報集計部３２のメモリ（図示せず）から語句統計情報（各カテゴリの文書中における各語句の語句統計情報）と、形態素解析部３３のメモリ（図示せず）から形態素解析結果（語句に分割された文書）を読み出して、カテゴリｃのタグスコアＳ_ｃを以下の式で計算し、メモリ（図示せず）に格納する。

ここで、上式中の語句集合Ｗは必ずしも入力文書に含まれる全ての語句でなくとも良く、

の値の大きさなどの指標を用いて選択した一部の語句としてもよい。│Ｖ│は予めカテゴリ分けされた文書集合に含まれる全語句数を表す。α（＞０）は平滑化パラメータである。

また、カテゴリタグスコア算出部３４は、要するに文書をスコア付きで分類できる手段ならいかなるものでもよく、サポートベクターマシンなどの文書分類手段を利用してもよい。

また、入力文書が予めカテゴリ分けされた状態で与えられた場合は、タグスコアＳ_ｃの値を算出結果に関わらず１．０などと大きく設定してもよい。

ステップ３１０）カテゴリ主題タグスコア算出部３５は、語句統計情報集計部３２のメモリ（図示せず）から語句統計情報（各カテゴリ主題語句が出現する文書中における各語句の語句統計情報）と、形態素解析部３３のメモリ（図示せず）から形態素解析結果（語句に分割された文書）を読み出して、カテゴリｃのカテゴリ主題語句ｔのタグスコアＳ_ctを以下の式で計算し、メモリ（図示せず）に格納する。

但し、β（＞０）は平滑化パラメータである。

また、カテゴリ主題タグスコア算出部３５は、カテゴリタグスコア算出部３４と同様に、サポートベクターマシンなどの文書分類手段を利用してもよい。

ステップ３１１）タグ付与部３６は、カテゴリタグスコア算出部３４のメモリ（図示せず）から各カテゴリのカテゴリスコア（Ｓ_c）と、カテゴリ主題タグスコア算出部３５のメモリ（図示せず）から各カテゴリ主題語句のカテゴリ主題タグスコア（Ｓ_ct）を読み出して、Ｓ_c×Ｓ_ctの値を計算する。

ステップ３１２）上記のステップ３１０〜３１１をカテゴリｃの全てのカテゴリ主題語句について終了するまで繰り返す。

ステップ３１３）上記のステップ３０９〜３１２を全てのカテゴリについて終了するまで繰り返す。

ステップ３１４）タグ付与部３６は、Ｓ_ｃ×Ｓ_ctの値を大きいカテゴリｃとカテゴリ主題語句をタグとして入力文書に付与する。

各カテゴリのカテゴリスコアＳ_cと各カテゴリ主題語句のカテゴリ主題タグスコアＳ_ctは、お互いにタグスコアの正しさを保障する役目を果たすため、Ｓ_c×Ｓ_ctの値を基にカテゴリタグ・カテゴリ主題タグを付与することで、Ｓ_ｃの値のみを基にカテゴリタグを付与する場合や、Ｓ_ctの値のみを基にカテゴリ主題タグを付与する場合よりも、精度よくタグを付与することが可能となる。

タグを付与する個数については、Ｓ_c×Ｓ_ctの値により順序付けして上位を付与するタグとする方法や、Ｓ_c×Ｓ_ctの値を閾値以上の場合にタグを付与する方法などにより決定できる。

図１１は、本発明の第３の実施の形態におけるタグ付与の例を示しており、「わかりやすい英語の文法の本」というタイトルの文書に対して、Ｓ_c×Ｓ_ctの値が大きい順に３つのカテゴリ主題タグを抽出し、カテゴリタグと併せて階層的に付与した例である。ここで、Ｓ_cとＳ_ctの計算に用いる語句集合Ｗは、Ｈ（ｗ）の値が小さな順に選択した１５個の語句から各々構成した。α＝0.001、β＝50と設定した。

上記のように、本発明によれば、カテゴリ主題語句抽出装置を利用して得られるカテゴリの主題を表す語句をタグの候補とし、さらに、カテゴリと当該カテゴリの主題を表す語句との間の意味的階層構造を利用するため、入力文書に対して、当該入力文書の内容に即した意味的階層構造を有する複数のタグを自動的に付与することが可能となる。

［第４の実施の形態］
本実施の形態では、階層的タグ付与装置において、新奇な語句もタグとして付与できるようにした例を説明する。

図１２は、本発明の第４の実施の形態における階層的タグ付与装置の構成を示す。

同図に示す階層的タグ付与装置５０は、カテゴリ主題語句抽出部５１、語句統計情報集計部５２、形態素解析部５３、キーワードタグスコア算出部５４、カテゴリタグスコア算出部５５、カテゴリ主題タグスコア算出部５６、タグ付与部５７から構成され、入力文書に対して、予めカテゴリ分けされた文書ＤＢ４０に格納された文書集合を基に、入力文書の内容に即した意味的階層性を有する複数のタグを付与する。

なお、形態素解析部５３は、分割された語句を格納するためのメモリ（図示せず）を有するものとし、カテゴリ主題語句抽出部５１、語句統計情報集計部５２、キーワードタグスコア算出部５４、カテゴリタグスコア算出部５５、カテゴリ首題タグスコア算出部５６は、集計または算出結果を格納するメモリ（図示せず）を有するものとする。

図１３は、本発明の第４の実施の形態における階層的タグ付与装置の処理を説明するための図である。

ステップ４０１〜４１３）当該ステップは、第３の実施の形態の図１０に示す階層的タグ付与装置の処理のステップ３０１〜３１３の処理と同様であるので、その説明を省略する。

ステップ４１４）キーワードスコア算出部５４は、入力文書に出現する語句ｗのＴＦＩＤＦ値をキーワードタグスコアＳ_ｗとして算出し、メモリ（図示せず）に格納する。

ここで、キーワードスコア算出部５４は、要するに、入力文書に出現する語句の重要度を測るものであればいかなるものでもよく、語句が形態素解析の辞書に登録された日付の新しさ、語句が形態素解析の辞書に含まれるか否か、語句の品詞（カタカナ、アルファベットなど）、Wikipedia（登録商標）の見出しに含まれるか否か、語句のカテゴリ間エントロピーなどの指標から算出してもよい。

ステップ４１５）全語句の処理が終了するまでステップ４１４を繰り返す。

ステップ４１６）タグ付与部５７は、Ｓ_c×Ｓ_ctの値が大きいカテゴリｃとカテゴリ主題語句ｔを選出し、さらに、選出された語句を除いた中でキーワードタグスコアＳ_ｗが大きい語句ｗをタグとして入力文書に付与する。

キーワードタグを付与する個数については、カテゴリタグとカテゴリ主題タグを付与する個数と同様に決定できる。

上記のように本実施の形態によれば、文書中から抽出した語句を付与するタグの候補とするので、新奇な語句もタグとして付与することが可能となる。

なお、上記のカテゴリ主題語句抽出装置及び階層的タグ付与装置の各動作をプログラムとして構築し、カテゴリ主題語句抽出装置及び階層的タグ付与装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。

また、構築されたプログラムをハードディスクや、フレキシブルディスク・ＣＤ−ＲＯＭ等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。

なお、本発明は、上記の実施の形態及び実施例に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。

１０，２０カテゴリ主題語句抽出装置
１１、２１形態素解析手段、形態素解析部
１２、２２タイトル中語句統計情報集計手段、タイトル中語句統計情報集計部
１３、２３全文中語句統計情報集計手段、全文中語句統計情報集計部
１４主題語句抽出手段、主題語句抽出部
２４語句流行度算出部
２５主題語句抽出部
３０５０階層的タグ付与装置
３１，５１カテゴリ主題語句抽出部
３２，５２語句統計情報集計部
３３，５３形態素解析部
３４，５５カテゴリタグスコア算出部
３５，５６カテゴリ主題タグスコア算出部
３６，５７タグ付与部
４０カテゴリ分けされた文書ＤＢ
５４キーワードタグスコア算出部

Claims

予めカテゴリ分けされた文書集合から各カテゴリの主題を表す語句を抽出するカテゴリ主題語句抽出装置であって、
文書を語句の集合に分解する形態素解析手段と、
形態素解析結果の各カテゴリに属する文書のタイトル中に語句が出現する文書数の合計を含む語句の出現に関する情報の統計量、または、語句の出現するカテゴリ数、語句の出現する日数、語句の出現する時間間隔のいずれかを含む統計情報を集計し、第１の記憶手段に格納するタイトル中語句統計情報集計手段と、
前記形態素解析結果の各カテゴリに属する文書の全文中に出現する語句が出現する文書数の合計を含む語句の出現に関する情報の統計量、または、語句の出現するカテゴリ数、語句の出現する日数、語句の出現する時間間隔のいずれかを含む統計情報を集計し、第２の記憶手段に格納する全文中語句統計情報集計手段と、
カテゴリ毎に、前記第１の記憶手段に格納されている該カテゴリの前記タイトル中語句統計情報集計手段の集計結果と、前記第２の記憶手段に格納されている前記全文中語句統計情報集計手段の集計結果を入力として「カテゴリｃに属する文書タイトル中に語句ｗが出現する比率と、カテゴリｃを除くカテゴリに属する文書の全文書中に語句ｗが出現する比率は等しい」という帰無仮説の下で統計的検定を行った結果の有意確率が閾値αよりも小さな値となる語句を、主題を表す語句として抽出する主題語句抽出手段と、
を有することを特徴とするカテゴリ主題語句抽出装置。
前記形態素解析結果の語句の各カテゴリにおける出現文書数に関する時間情報に対応する統計量を語句流行度として算出し、第３の記憶手段に格納する語句流行度算出手段を更に有し、
前記主題語句抽出手段は、
前記カテゴリ毎に主題を表す語句に、前記第３の記憶手段に格納されている前記語句流行度を付記して出力する手段を含む
ことを特徴とする請求項１記載のカテゴリ主題語句抽出装置。
入力文書に対して、予めカテゴリ分けされた文書集合を基に、該入力文書の内容に即した意味的階層構造を有する複数のタグを自動的に付与する階層的タグ自動付与装置であって、
予めカテゴリ分けされた文書集合から請求項１または請求項２に記載のカテゴリ主題語句抽出装置を使用して、各カテゴリの主題を表す語句を抽出し、第１の記憶手段に格納するカテゴリ主題語句抽出手段と、
前記カテゴリ分けされた文書集合に出現する語句の統計情報をカテゴリ毎に集計し、第２の記憶手段に格納する語句統計情報集計手段と、
入力文書を語句集合に分解する形態素解析手段と、
前記形態素解析手段の結果である語句集合、前記第２の記憶手段に格納されている前記語句統計情報集計手段の集計結果から、カテゴリｃの文書中で語句ｗが出現する確率により、前記第１の記憶手段に格納されているカテゴリ名をタグとして前記入力文書へ付与すべき度合いを算出し、第３の記憶手段に格納するカテゴリタグスコア算出手段と、
前記形態素解析手段の結果である語句集合、前記第２の記憶手段に格納されている前記語句統計情報集計手段の集計結果であるカテゴリｃに属し、カテゴリ主題語句ｔが出現する文書数Ｎｃｔ個と、該カテゴリｃに属し、該カテゴリ主題語句ｔが出現する文書のうち、語句ｗが出現する文書数Ｄｃｔ（ｗ）の比率により、前記第１の記憶手段に格納されているカテゴリの主題を表す語句名をタグとして前記入力文書へ付与すべき度合いを算出し、第４の記憶手段に格納するカテゴリ主題タグスコア算出手段と、
前記第３の記憶手段に格納されている前記カテゴリタグスコア算出手段の算出結果と前記第４の記憶手段に格納されている前記カテゴリ主題タグスコア算出手段の算出結果とを乗算した値が大きいカテゴリとカテゴリ主題語句をタグとし、前記入力文書に対して該入力文書の内容に即した意味的階層構造を有する複数のタグを付与するタグ付与手段と、
を有することを特徴とする階層的タグ付与装置。
前記形態素解析手段の結果である語句集合、前記第２の記憶手段に格納されている前記語句統計情報集計手段の集計結果であるカテゴリｃに属し、カテゴリ主題語句ｔが出現する文書数Ｎｃｔ個と、該カテゴリｃに属し、該カテゴリ主題語句ｔが出現する文書のうち、語句ｗが出現する文書数Ｄｃｔ（ｗ）の比率により、前記第１の記憶手段に格納されているカテゴリの主題を表す語句名をタグとして前記入力文書に出現する語句の重要度を算出し、第５の記憶手段に格納するキーワードタグスコア算出手段を更に有し、
前記タグ付与手段は、
前記第３の記憶手段に格納されている前記カテゴリタグスコア算出手段の算出結果と前記第４の記憶手段に格納されている前記カテゴリ主題タグスコア算出手段の算出結果を乗算した値が大きいカテゴリとカテゴリ主題語句を選出し、該カテゴリ主題語句を除いた中で前記第５の記憶手段に格納されている前記キーワードタグスコア算出手段の算出結果が大きい語句をタグとして前記入力文書に付与する手段を含む
ことを特徴とする請求項３記載の階層的タグ付与装置。
予めカテゴリ分けされた文書集合から各カテゴリの主題を表す語句を抽出するカテゴリ主題語句抽出方法であって、
形態素解析手段、タイトル中語句統計情報集計手段、全文中語句統計情報集計手段、主題語句抽出手段を有する装置において、
前記形態素解析手段が、文書を語句の集合に分解する形態素解析ステップと、
前記タイトル中語句統計情報集計手段が、形態素解析結果の各カテゴリに属する文書のタイトル中に語句が出現する文書数の合計を含む語句の出現に関する情報の統計量、または、語句の出現するカテゴリ数、語句の出現する日数、語句の出現する時間間隔のいずれかを含む統計情報を集計し、第１の記憶手段に格納するタイトル中語句統計情報集計ステップと、
前記全文中語句統計情報集計手段が、前記形態素解析結果の各カテゴリに属する文書の全文中に出現する語句が出現する文書数の合計を含む語句の出現に関する情報の統計量、または、語句の出現するカテゴリ数、語句の出現する日数、語句の出現する時間間隔のいずれかを含む統計情報を集計し、第２の記憶手段に格納する全文中語句統計情報集計ステップと、
前記主題語句抽出手段が、カテゴリ毎に、前記第１の記憶手段に格納されている該カテゴリの前記タイトル中語句統計情報集計ステップの集計結果と、前記第２の記憶手段に格納されている前記全文中語句統計情報集計ステップの集計結果を入力として「カテゴリｃに属する文書タイトル中に語句ｗが出現する比率と、カテゴリｃを除くカテゴリに属する文書の全文書中に語句ｗが出現する比率は等しい」という帰無仮説の下で統計的検定を行った結果の有意確率が閾値αよりも小さな値となる語句を、主題を表す語句として抽出する主題語句抽出ステップと、
を行うことを特徴とするカテゴリ主題語句抽出方法。
前記装置の語句流行度算出手段が、前記形態素解析結果の語句の各カテゴリにおける出現文書数に関する時間情報に対応する統計量を語句流行度として算出し、第３の記憶手段に格納する語句流行度算出ステップを更に行い、
前記主題語句抽出ステップにおいて、
前記カテゴリ毎に主題を表す語句に、前記第３の記憶手段に格納されている前記語句流行度を付与して出力する
ことを特徴とする請求項５記載のカテゴリ主題語句抽出方法。
入力文書に対して、予めカテゴリ分けされた文書集合を基に、該入力文書の内容に即した意味的階層構造を有する複数のタグを自動的に付与する階層的タグ付与方法であって、
カテゴリ主題語句抽出手段、語句統計情報集計手段、形態素解析手段、カテゴリタグスコア算出手段、カテゴリ主題タグスコア算出手段、タグ付与手段を有する装置において、
前記カテゴリ主題語句抽出手段が、予めカテゴリ分けされた文書集合から請求項１または請求項２に記載のカテゴリ主題語句抽出装置を使用して、各カテゴリの主題を表す語句を抽出し、第１の記憶手段に格納するカテゴリ主題語句抽出ステップと、
前記語句統計情報集計手段が、前記カテゴリ分けされた文書集合に出現する語句の統計情報をカテゴリ毎に集計し、第２の記憶手段に格納する語句統計情報集計ステップと、
前記形態素解析手段が、入力文書を語句集合に分解する形態素解析ステップと、
前記カテゴリタグスコア算出手段が、前記形態素解析ステップの結果である語句集合、前記第２の記憶手段に格納されている前記語句統計情報集計ステップの集計結果から、カテゴリｃの文書中で語句ｗが出現する確率により、前記第１の記憶手段に格納されているカテゴリ名をタグとして前記入力文書へ付与すべき度合いを算出し、第３の記憶手段に格納するカテゴリタグスコア算出ステップと、
前記カテゴリ主題タグスコア算出手段が、前記形態素解析ステップの結果である語句集合、前記第２の記憶手段に格納されている前記語句統計情報集計ステップの集計結果であるカテゴリｃに属し、カテゴリ主題語句ｔが出現する文書数Ｎｃｔ個と、該カテゴリｃに属し、該カテゴリ主題語句ｔが出現する文書のうち、語句ｗが出現する文書数Ｄｃｔ（ｗ）の比率により、前記第１の記憶手段に格納されているカテゴリの主題を表す語句名をタグとして前記入力文書へ付与すべき度合いを算出し、第４の記憶手段に格納するカテゴリ主題タグスコア算出ステップと、
前記タグ付与手段が、前記第３の記憶手段に格納されている前記カテゴリタグスコア算出ステップの算出結果と前記第４の記憶手段に格納されているカテゴリ主題タグスコア算出ステップの算出結果とを乗算した値が大きいカテゴリとカテゴリ主題語句をタグとし、前記入力文書に対して該入力文書の内容に即した意味的階層構造を有する複数のタグを付与するタグ付与ステップと、
を行うことを特徴とする階層的タグ付与方法。
前記装置のキーワードタグスコア算出手段が、前記形態素解析ステップの結果である語句集合、前記第２の記憶手段に格納されている前記語句統計情報集計ステップの集計結果であるカテゴリｃに属し、カテゴリ主題語句ｔが出現する文書数Ｎｃｔ個と、該カテゴリｃに属し、該カテゴリ主題語句ｔが出現する文書のうち、語句ｗが出現する文書数Ｄｃｔ（ｗ）の比率により、前記第１の記憶手段に格納されているカテゴリの主題を表す語句名をタグとして前記入力文書に出現する語句の重要度を算出し、第５の記憶手段に格納するキーワードタグスコア算出ステップを更に行い、
前記タグ付与ステップにおいて、
前記第３の記憶手段に格納されている前記カテゴリタグスコア算出ステップの算出結果と前記第４の記憶手段に格納されている前記カテゴリ主題タグスコア算出ステップの算出結果を乗算した値が大きいカテゴリとカテゴリ主題語句を選出し、該カテゴリ主題語句を除いた中で前記第５の記憶手段に格納されている前記キーワードタグスコア算出ステップの算出結果が大きい語句をタグとして前記入力文書に付与する
ことを特徴とする請求項７記載の階層的タグ付与方法。
請求項１または２に記載のカテゴリ主題語句抽出装置を構成する各手段としてコンピュータを機能させるためのカテゴリ主題語句抽出プログラム。
請求項３または４に記載の階層的タグ付与装置を構成する各手段としてコンピュータを機能させるための階層的タグ付与プログラム。