JP5679400B2 - カテゴリ主題語句抽出装置及び階層的タグ付与装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体 - Google Patents

カテゴリ主題語句抽出装置及び階層的タグ付与装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体 Download PDF

Info

Publication number
JP5679400B2
JP5679400B2 JP2010012397A JP2010012397A JP5679400B2 JP 5679400 B2 JP5679400 B2 JP 5679400B2 JP 2010012397 A JP2010012397 A JP 2010012397A JP 2010012397 A JP2010012397 A JP 2010012397A JP 5679400 B2 JP5679400 B2 JP 5679400B2
Authority
JP
Japan
Prior art keywords
category
phrase
word
subject
tag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010012397A
Other languages
English (en)
Other versions
JP2011150603A (ja
Inventor
京介 西田
京介 西田
藤村 考
考 藤村
優 甲谷
優 甲谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2010012397A priority Critical patent/JP5679400B2/ja
Publication of JP2011150603A publication Critical patent/JP2011150603A/ja
Application granted granted Critical
Publication of JP5679400B2 publication Critical patent/JP5679400B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、カテゴリ主題語句抽出装置及び階層的タグ付与装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体に係り、特に、予めカテゴリ分けされた文書集合から、各カテゴリに属する文書のタイトル中に出現する語句の統計情報と各カテゴリに属する文書の全文中に出現する語句の統計情報を基に、カテゴリ毎に主題を表す語句を1つ以上抽出するカテゴリ主題語句抽出装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体と、カテゴリ主題語句抽出装置を使用して得られるカテゴリの主題を表す語句を基に、入力文書に対して該入力文書の内容に即した意味的階層構造を有する複数のタグを自動的に付与する階層的タグ付与装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体に関する。
近年では、Web上のQ&Aコミュニティやニュース記事など、ユーザの手によってカテゴリ分けされた文書が日々爆発的に増え続けている。
これらのカテゴリ分けされた文書集合から、各カテゴリに関連する語句を抽出する技術に関しては、大量の文書から有用な情報や知識を抽出することを目的としたテキストマイニング分野や、与えられた文書を精度良くカテゴリ分けすることを目的とした文書分類分野において取り組まれており、従来技術には、文書頻度、残差文書頻度、情報利得、相互情報量、カイ二乗統計量、逆カテゴリ頻度などを利用した技術がある(例えば、非特許文献1、2参照)。
また、文書の内容に沿った適切なタグを付与して文書の整理を行い、閲覧者を支援するための自動タグ付与装置がある(例えば、特許文献1参照)。
また、文書中から抽出した語句または属性値をタグとして利用する技術がある(例えば、特許文献2参照)。
特開2008−310626号公報 特開2005−339139号公報
藤村滋、藤村考、片岡良治、奥雅博、"Blogのタグ間類似度のスコアリング"、日本データベース学会Letters, Vol. 5, No.4, pp. 33-36, 2007 G. Foreman, "An Extensive Empirical Study of Feature Selection Metrics for Text Classification", The Journal of Machine Learning Research 3, pp. 1289- 1305, 2002.
しかし、非特許文献1,2の従来技術によって獲得される語句は、各カテゴリに関連する語句であって、各カテゴリで扱われる主題を表す語句ではない。
例えば、上記従来技術による数学カテゴリに関連する語句の出力例として、「移項」や「代入」などがある。これらの語句は、数学カテゴリでの出現頻度に比べ、数学カテゴリを除くカテゴリにおける出現頻度が低く、数学カテゴリに関連した語句である一方で、数学カテゴリの文書の主題を表す語句ではない。このように、上記従来技術を、カテゴリで扱われる主題を表す語句を抽出する目的で利用する際には、出力語句にカテゴリで扱われる主題とは無関係な語句が含まれてしまう問題がある。
また、特許文献1の従来技術は、タグが付与されていない入力文書に対して、予めタグが設定されている大量の文書を基に、該入力文書の内容に沿った適切なタグを自動的に付与するものである。しかし、当該自動タグ付与装置では、Web上のQ&Aコミュニティにおける文書のようにカテゴリ分けされているが、タグが付与されていない文書集合を基に、入力文書に対してタグを自動的に付与することができない。例えカテゴリ名をタグと見做したとしても、通常カテゴリ名には「数学」など抽象度の高い語句が設定されるので、上記自動タグ付与装置では、「一階線形微分」や「余弦定理」など数学に関する文書の主題を具体的に表すタグを付与できない。要するに、入力文書に対して、タグが設定されていない文書集合を基に、前記入力文書の内容に即した適切なタグを付与するためには、前記文書集合からタグの候補として適切な語句を予め抽出しておき、前記タグの候補の中から前記入力文書の内容に即したタグを選出して付与する必要がある。
また、特許文献2の技術を用いれば、どのような文書に対しても自動的にタグを付与できるが、設定できるタグは文書中に出現するものに限られてしまう。例えば、「余弦定理」という語句が含まれていない文書に対して、余弦定理に関する内容が記載されていたとしても「余弦定理」というタグを設定することは不可能である。
また、タグが文書の整理と閲覧者の情報検索を支援する目的で利用されることを考慮すると、「数学」−「余弦定理」のように、意味的階層性を有する複数のタグが付与されることが望ましい。しかし、意味的階層性を考慮して入力文書へタグを付与する技術は過去にない。
上記のように、従来技術では、指定されたカテゴリで扱われる主題を表す語句のみを抽出することと、入力文書に対して該入力文書の内容に即した意味的階層構造を有する複数のタグを自動的に付与することが困難であった。
本発明は、上記従来技術の問題点に鑑みて、予めカテゴリ分けされた文書集合から、各カテゴリに属する文書のタイトル中における語句の出現に関する統計情報と、各カテゴリに属する文書の全文中における語句の出現に関する統計情報を基に、カテゴリ毎に主題を表す語句を1つ以上抽出するカテゴリ主題語句抽出装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体を提供することと、カテゴリ主題語句抽出装置を使用して得られるカテゴリの主題を表す語句を基に、入力文書に対して該入力文書の内容に即した意味的階層構造を有する複数のタグを自動的に付与する階層的タグ付与装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体を提供することを目的とする。
図1は、本発明の原理構成図である。
発明(請求項)は、予めカテゴリ分けされた文書集合から各カテゴリの主題を表す語句を抽出するカテゴリ主題語句抽出装置であって、
文書を語句の集合に分解する形態素解析手段11と、
形態素解析結果の各カテゴリに属する文書のタイトル中に語句が出現する文書数の合計を含む語句の出現に関する情報の統計量、または、語句の出現するカテゴリ数、語句の出現する日数、語句の出現する時間間隔のいずれかを含む統計情報を集計し、第1の記憶手段に格納するタイトル中語句統計情報集計手段12と、
形態素解析結果の各カテゴリに属する文書の全文中に出現する語句が出現する文書数の合計を含む語句の出現に関する情報の統計量、または、語句の出現するカテゴリ数、語句の出現する日数、語句の出現する時間間隔のいずれかを含む統計情報を集計し、第2の記憶手段に格納する全文中語句統計情報集計手段13と、
カテゴリ毎に、第1の記憶手段に格納されている該カテゴリのタイトル中語句統計情報集計手段12の集計結果と、第2の記憶手段格納されている全文中語句統計情報集計手段13の集計結果を入力として「カテゴリcに属する文書タイトル中に語句wが出現する比率と、カテゴリcを除くカテゴリに属する文書の全文書中に語句wが出現する比率は等しい」という帰無仮説の下で統計的検定を行った結果の有意確率が閾値αよりも小さな値となる語句を、主題を表す語句として抽出する主題語句抽出手段14と、を有する。
また、本発明(請求項)は、請求項1のカテゴリ主題語句抽出装置において、
形態素解析結果の語句の各カテゴリにおける出現文書数に関する時間情報に対応する統計量を語句流行度として算出し、第3の記憶手段に格納する語句流行度算出手段を更に有し、
主題語抽出手段14は、
カテゴリ毎に主題を表す語句に、第3の記憶手段に格納されている語句流行度を付記して出力する手段を含む。
本発明(請求項)は、入力文書に対して、予めカテゴリ分けされた文書集合を基に、該入力文書の内容に即した意味的階層構造を有する複数のタグを自動的に付与する階層的タグ自動付与装置であって、
予めカテゴリ分けされた文書集合から請求項1または請求項2に記載のカテゴリ主題語句抽出装置を使用して、各カテゴリの主題を表す語句を抽出し、第1の記憶手段に格納するカテゴリ主題語句抽出手段と、
カテゴリ分けされた文書集合に出現する語句の統計情報をカテゴリ毎に集計し、第2の記憶手段に格納する語句統計情報集計手段と、
入力文書を語句集合に分解する形態素解析手段と、
形態素解析手段の結果である語句集合、第2の記憶手段に格納されている語句統計情報集計手段の集計結果から、カテゴリcの文書中で語句wが出現する確率により、第1の記憶手段に格納されているカテゴリ名をタグとして入力文書へ付与すべき度合いを算出し、第3の記憶手段に格納するカテゴリタグスコア算出手段と、
形態素解析手段の結果である語句集合、第2の記憶手段に格納されている語句統計情報集計手段の集計結果であるカテゴリcに属し、カテゴリ主題語句tが出現する文書数Nct個と、該カテゴリcに属し、該カテゴリ主題語句tが出現する文書のうち、語句wが出現する文書数Dct(w)の比率により、第1の記憶手段に格納されているカテゴリの主題を表す語句名をタグとして入力文書へ付与すべき度合いを算出し、第4の記憶手段に格納するカテゴリ主題タグスコア算出手段と、
第3の記憶手段に格納されているカテゴリタグスコア算出手段の算出結果と第4の記憶手段に格納されているカテゴリ主題タグスコア算出手段の算出結果とを乗算した値が大きいカテゴリとカテゴリ主題語句をタグとし、入力文書に対して該入力文書の内容に即した意味的階層構造を有する複数のタグを付与するタグ付与手段と、を有する。
また、本発明(請求項)は、請求項の階層的タグ付与装置において、
前記形態素解析手段の結果である語句集合、前記第2の記憶手段に格納されている前記語句統計情報集計手段の集計結果であるカテゴリcに属し、カテゴリ主題語句tが出現する文書数Nct個と、該カテゴリcに属し、該カテゴリ主題語句tが出現する文書のうち、語句wが出現する文書数Dct(w)の比率により、前記第1の記憶手段に格納されているカテゴリの主題を表す語句名をタグとして前記入力文書に出現する語句の重要度を算出し、第5の記憶手段に格納するキーワードタグスコア算出手段を更に有し、
タグ付与手段は、
第3の記憶手段に格納されているカテゴリタグスコア算出手段の算出結果と第4の記憶手段に格納されているカテゴリ主題タグスコア算出手段の算出結果を乗算した値が大きいカテゴリとカテゴリ主題語句を選出し、該カテゴリ主題語句を除いた中で第5の記憶手段に格納されているキーワードタグスコア算出手段の算出結果が大きい語句をタグとして入力文書に付与する手段を含む。
図2は、本発明の原理を説明するための図である。
発明(請求項)は、予めカテゴリ分けされた文書集合から各カテゴリの主題を表す語句を抽出するカテゴリ主題語句抽出方法であって、
形態素解析手段、タイトル中語句統計情報集計手段、全文中語句統計情報集計手段、主題語句抽出手段を有する装置において、
形態素解析手段が、文書を語句の集合に分解する形態素解析ステップ(ステップ1)と、
タイトル中語句統計情報集計手段が、形態素解析結果の各カテゴリに属する文書のタイトル中に語句が出現する文書数の合計を含む語句の出現に関する情報の統計量、または、語句の出現するカテゴリ数、語句の出現する日数、語句の出現する時間間隔のいずれかを含む統計情報を集計し、第1の記憶手段に格納するタイトル中語句統計情報集計ステップ(ステップ2)と、
全文中語句統計情報集計手段が、形態素解析結果の各カテゴリに属する文書の全文中に出現する語句が出現する文書数の合計を含む語句の出現に関する情報の統計量、または、語句の出現するカテゴリ数、語句の出現する日数、語句の出現する時間間隔のいずれかを含む統計情報を集計し、第2の記憶手段に格納する全文中語句統計情報集計ステップ(ステップ3)と、
主題語句抽出手段が、カテゴリ毎に、第1の記憶手段に格納されている該カテゴリのタイトル中語句統計情報集計ステップ(ステップ2)の集計結果と、第2の記憶手段格納されている全文中語句統計情報集計ステップ(ステップ3)の集計結果を入力として「カテゴリcに属する文書タイトル中に語句wが出現する比率と、カテゴリcを除くカテゴリに属する文書の全文書中に語句wが出現する比率は等しい」という帰無仮説の下で統計的検定を行った結果の有意確率が閾値αよりも小さな値となる語句を、主題を表す語句として抽出する主題語句抽出ステップ(ステップ4)と、を行う。
また、本発明(請求項)は、請求項のカテゴリ主題語句抽出方法において、
装置の語句流行度算出手段が、形態素解析結果の語句の各カテゴリにおける出現文書数に関する時間情報に対応する統計量を語句流行度として算出し、第3の記憶手段に格納する語句流行度算出ステップを更に行い、
主題語抽出ステップにおいて、
カテゴリ毎に主題を表す語句に、第3の記憶手段に格納されている語句流行度を付与して出力する。
本発明(請求項)は、入力文書に対して、予めカテゴリ分けされた文書集合を基に、該入力文書の内容に即した意味的階層構造を有する複数のタグを自動的に付与する階層的タグ付与方法であって、
カテゴリ主題語句抽出手段、語句統計情報集計手段、形態素解析手段、カテゴリタグスコア算出手段、カテゴリ主題タグスコア算出手段、タグ付与手段を有する装置において、
カテゴリ主題語句抽出手段が、予めカテゴリ分けされた文書集合から請求項1または請求項2に記載のカテゴリ主題語句抽出装置を使用して、各カテゴリの主題を表す語句を抽出し、第1の記憶手段に格納するカテゴリ主題語句抽出ステップと、
語句統計情報集計手段が、カテゴリ分けされた文書集合に出現する語句の統計情報をカテゴリ毎に集計し、第2の記憶手段に格納する語句統計情報集計ステップと、
形態素解析手段が、入力文書を語句集合に分解する形態素解析ステップと、
カテゴリタグスコア算出手段が、形態素解析ステップの結果である語句集合、第2の記憶手段に格納されている語句統計情報集計ステップの集計結果から、カテゴリcの文書中で語句wが出現する確率により、第1の記憶手段に格納されているカテゴリ名をタグとして入力文書へ付与すべき度合いを算出し、第3の記憶手段に格納するカテゴリタグスコア算出ステップと、
カテゴリ主題タグスコア算出手段が、形態素解析ステップの結果である語句集合、第2の記憶手段に格納されている語句統計情報集計ステップの集計結果であるカテゴリcに属し、カテゴリ主題語句tが出現する文書数Nct個と、該カテゴリcに属し、該カテゴリ主題語句tが出現する文書のうち、語句wが出現する文書数Dct(w)の比率により、第1の記憶手段に格納されているカテゴリの主題を表す語句名をタグとして入力文書へ付与すべき度合いを算出し、第4の記憶手段に格納するカテゴリ主題タグスコア算出ステップと、
タグ付与手段が、第3の記憶手段に格納されているカテゴリタグスコア算出ステップの算出結果と第4の記憶手段に格納されているカテゴリ主題タグスコア算出ステップの算出結果とを乗算した値が大きいカテゴリとカテゴリ主題語句をタグとし、入力文書に対して該入力文書の内容に即した意味的階層構造を有する複数のタグを付与するタグ付与ステップと、を行う。
また、本発明(請求項)は、請求項の階層的タグ付与方法において、
装置のキーワードタグスコア算出手段が、形態素解析ステップの結果である語句集合、第2の記憶手段に格納されている語句統計情報集計ステップの集計結果であるカテゴリcに属し、カテゴリ主題語句tが出現する文書数Nct個と、該カテゴリcに属し、該カテゴリ主題語句tが出現する文書のうち、語句wが出現する文書数Dct(w)の比率により、第1の記憶手段に格納されているカテゴリの主題を表す語句名をタグとして入力文書に出現する語句の重要度を算出し、第5の記憶手段に格納するキーワードタグスコア算出ステップを更に行い、
タグ付与ステップにおいて、
第3の記憶手段に格納されているカテゴリタグスコア算出ステップの算出結果と第4の記憶手段に格納されているカテゴリ主題タグスコア算出ステップの算出結果を乗算した値が大きいカテゴリとカテゴリ主題語句を選出し、該カテゴリ主題語句を除いた中で第5の記憶手段に格納されているキーワードタグスコア算出ステップの算出結果が大きい語句をタグとして入力文書に付与する。
本発明(請求項)は、請求項1または2に記載のカテゴリ主題語句抽出装置を構成する各手段としてコンピュータを機能させるためのカテゴリ主題語句抽出プログラムである。
本発明(請求項10)は、請求項3または4に記載の階層的タグ付与装置を構成する各手段としてコンピュータを機能させるための階層的タグ付与プログラムである。
上記のように請求項1(請求項)に係るカテゴリ主題語句抽出装置(方法)によれば、文書のタイトル中に出現する語句の統計情報と文書の全文中に出現する語句の統計情報とを区別して利用するので、カテゴリの主題を表す語句を抽出できる。
なお、請求項(請求項)に係るカテゴリ主題語句抽出装置(方法)によれば、語句の流行度をカテゴリの主題を表す語句の抽出に反映させるので、カテゴリの最近の主題を表す語句を抽出できる。
次に、請求項(請求項)に係る階層的タグ付与装置(方法)によれば、上記のように構成されたカテゴリ主題語句抽出装置を使用して得られるカテゴリの主題を表す語句をタグの候補とし、さらに、カテゴリとカテゴリの主題を表す語句との間の意味的階層構造を利用するので、入力文書に対して該入力文書の内容に即した意味的階層構造を有する複数のタグを自動的に付与できる。
なお、請求項(請求項)に係る階層的タグ付与装置(方法)によれば、文書中から抽出した語句を付与するタグの候補とするので、新奇な語句もタグとして付与できる。
本発明の原理構成図である。 本発明の原理を説明するための図である。 本発明の第1の実施の形態におけるカテゴリ主題語句抽出装置の構成図である。 本発明の第1の実施の形態におけるカテゴリ主題語句抽出装置の処理を説明するための図である。 本発明の第1の実施の形態におけるカテゴリの主題を表す語句の例である。 本発明の第2の実施の形態におけるカテゴリ主題語句抽出装置の構成図である。 本発明の第2の実施の形態におけるカテゴリ主題語句抽出装置の処理を説明するための図である。 本発明の第2の実施の形態におけるカテゴリの主題を表す語句と該語句の流行度の例である。 本発明の第3の実施の形態における階層的タグ付与装置の構成図である。 本発明の第3の実施の形態における階層的タグ付与装置の処理を説明するための図である。 本発明の第3の実施の形態におけるタグ付与例である。 本発明の第4の実施の形態における階層的タグ付与装置の構成図である。 本発明の第4の実施の形態における階層的タグ付与装置の処理を説明するための図である。
以下、図面と共に本発明の実施の形態を説明する。
以下において、第1、第2の実施の形態はカテゴリ主題語句抽出装置に関するものであり、第3、第4の実施の形態は階層的タグ付与装置に関するものである。
[第1の実施の形態]
本実施の形態では、予めカテゴリ分けされた文書群からカテゴリの主題を示す語句を抽出するカテゴリ主題語句抽出装置について説明する。
図3は、本発明の第1の実施の形態におけるカテゴリ主題語句抽出装置の構成を示す。
同図に示すカテゴリ主題語句抽出装置10は、形態素解析部11、タイトル中語句統計情報集計部12、全文中語句統計情報集計部13、主題語句抽出部14から構成され、予めカテゴリ分けされた文書集合を入力として受け取り、カテゴリ毎に主題語句を1つ以上抽出して出力する。なお、形態素解析部11は、分割された語句を格納するためのメモリ(図示せず)を有するものとし、タイトル中語句統計集計部12、全文中語句統計情報集計部13は集計結果を格納するメモリ(図示せず)を有するものとする。
図2は、本発明の第1の実施の形態における処理を説明するための図である。
ステップ101) 形態素解析部11は、予めカテゴリ分けされた文書が入力されると、語句に分割し、メモリ(図示せず)に格納する。ここで、「語句」とは、名詞、名詞接尾辞、冠名詞、数字、助数詞、助助数詞、アルファベット、カタカナのいずれかが1つ以上連続したものであるが、1つ以上の形態素から構成される形態素集合であればいかなるものでもよく、上記の品詞の他にも動詞と形容詞と記号などを語句の対象としてもよい。
ステップ102) 上記の処理を、入力された文書全てについて終了するまで繰り返す。
ステップ103) タイトル中語句統計情報集計部12は、形態素解析部11のメモリ(図示せず)から語句を読み込み、カテゴリcに属する文書のタイトル中に語句wが出現する文書数の合計Tc(w)をタイトル中の語句統計情報として集計し、メモリ(図示せず)に格納する。
ステップ104) 全文中語句統計情報集計部13は、形態素解析部11のメモリ(図示せず)から語句を読み込み、カテゴリcに属する文書の全文中に語句wが出現する文書数の合計Dc(w)を全文中の語句統計情報として集計し、メモリ(図示せず)に格納する。
ここで、「語句統計情報」とは、語句の出現に関する情報の統計量(合計、比率、平均、尤度、中央値、最頻値、分散、標準偏差など)を意味するものであって、必ずしも語句の出現する文書数の合計に限られるものではなく、例えば、語句の出現する段落数、語句の出現するカテゴリ数、語句の出現する日数、語句の出現する時間間隔で構成される統計量としてもよい。
ステップ105) 上記のステップ103〜104をカテゴリcの全ての語句について終了するまで繰り返す。
ステップ106) 上記ステップ103〜105を全てのカテゴリについて終了するまで繰り返す。
ステップ107) 主題語句抽出部14は、タイトル中語句統計情報集計部12のメモリ(図示せず)に格納されている各カテゴリ及び各語句のタイトル中における語句統計情報と、全文中語句統計情報集計部13のメモリ(図示せず)に格納されている各カテゴリ及び各語句の全文中における語句統計情報を基に、「カテゴリcに属する文書タイトル中に語句wが出現する比率と、カテゴリcを除くカテゴリに属する文書の全文中に語句wが出現する比率は等しい」という帰無仮説の下でフィッシャーの正確確率検定の片側検定を行う。具体的には、カテゴリcに属する文書のうち、タイトル中に語句wが出現する文書の比率Tc(w)/Ncが、カテゴリcを除くカテゴリに属する文書のうち、全文中に語句wが出現する文書の比率
Figure 0005679400
よりも有意水準αで有意に高いとき、語句wをカテゴリcの主題語句として出力する。
図5は、本発明の第1の実施の形態におけるカテゴリの主題を表す語句の例を示しており、有意水準α=0.01として抽出された「数学」「税金」「家電製品」「北海道」カテゴリの主題を表す語句の例である。
ここで、主題語句抽出部14は、要するに、タイトル中の語句統計情報と全文中の語句統計情報を比較できる手段を有していればいかなるものでもよく、具体的には、タイトル中の語句統計情報と全文中の語句統計情報の差分により順位付けした上位からN個の語句を抽出する手段等がある。また、カテゴリcのタイトル中とカテゴリcを除くカテゴリの全文中という比較は、カテゴリcのタイトル中と全カテゴリの全文中という比較にしてもよい。
ステップ108) 上記のステップ107をカテゴリcに属する文書のタイトルに出現する全ての語句について終了するまで繰り返す。
ステップ109) 上記ステップ107〜108を全てのカテゴリについて終了するまで繰り返す。
上記のように本実施の形態によれば、文書のタイトル中に出現する語句の統計情報と文書の全文書中に出現する語句の統計情報とを区別して利用するので、カテゴリの主題を表す語句を抽出できる。
[第2の実施の形態]
本実施の形態では、カテゴリ主題語句抽出装置の第1の実施の形態とは異なる構成、動作を説明する。
図6は、本発明の第2の実施の形態におけるカテゴリ主題語句抽出装置の構成を示す。
第1の実施の形態では、現在主題となっている語句が過去に主題となっていた語句かの区別が付かないため、本実施の形態では、語句流行度を導入して、現在の主題となっている語句を抽出する装置を提供することを目的とする。
同図に示すカテゴリ主題語句抽出装置20は、形態素解析部21、タイトル中語句統計情報集計部22、全文中語句統計情報集計部23、語句流行度算出部24、主題語句抽出部25から構成され、予めカテゴリ分けされた文書集合を入力として受け取り、カテゴリ毎に語句の流行度主題語句を1つ以上抽出して出力する。なお、形態素解析部21は、分割された語句を格納するためのメモリ(図示せず)を有するものとし、タイトル中語句統計集計部22、全文中語句統計情報集計部23、語句流行度算出部24は、集計または算出結果を格納するメモリ(図示せず)を有するものとする。
図7は、本発明の第2の実施の形態における処理を説明するための図である。
ステップ201〜206) 当該ステップは図4に示すステップ101〜106と同様の動作であるので、その説明を省略する。
ステップ207) 語句流行度算出部24は、形態素解析部21のメモリ(図示せず)から語句を読み込み、最近の一定期間Tにおいて、カテゴリcにおいて語句wの出現した文書数Pc(w)を語句流行度として集計し、メモリ(図示せず)に格納する。なお、最近の一定期間Tは入力装置(図示せず)から入力されるものとする。
当該語句流行度算出部24が出力する語句流行度は、必ずしも文書数Pc(w)に限定されるものではなく、例えば、カテゴリcにおいて語句wの出現する文書数の時間減衰付き移動平均値、過去の期間における平均文書数と最近の期間における文書数の差分や比率、EWMA管理図やCUSUM管理図に代表される管理図技法における出現文書数の統計量と管理限界値の差分や比率などとしてもよい。
例えば、最近の一定期間における出現文書数を語句流行度とした場合は、過去の期間とは関係なく最近の期間において多くの主題として扱われている語句に高いスコアを与えることができ、管理図技法における出現文書数の統計量と管理限界値の差分や比率を語句の流行度とした場合には、過去の期間よりも最近の期間の方が多く主題として扱われている語句に高いスコアを与えることができるなど、用途に応じて種々の手段が使用可能である。
また、語句流行度は語句出現情報と同様に、語句の出現する文書数の代わりに語句の出現する頻度などに基づいて求めてもよい。
ステップ208) 上記のステップ207をカテゴリcの全ての語句について終了するまで繰り返す。
ステップ209) 上記ステップ207〜208を全てのカテゴリについて終了するまで繰り返す。
ステップ210) 主題語句選定部250は、前述の第1の実施の形態における図4のステップ107と同様の処理を行って主題語句を選出した後、上記のステップ206にて算出し、語句流行度算出部240のメモリ(図示せず)に格納されている語句流行度と併せて主題語句を出力する。
図8は、本発明の第2の実施の形態におけるカテゴリの主題を表す語句と該語句の流行度を示しており、最近の一定期間Tを1ヶ月として抽出された「政治」「書籍・文庫」「医療」「メンタルヘルス」カテゴリの主題を表す語句と、該語句の語句流行度の例である。
ステップ211〜212) 当該ステップは、前述の第1の実施の形態におけるステップ108〜109と同様の動作であるので、その説明を省略する。
上記のように本実施の形態によれば、語句の流行度をカテゴリの主題を表す語句の抽出に反映させるので、カテゴリの最近の主題を表す語句を抽出できる。
[第3の実施の形態]
本実施の形態では、階層的タグ付与装置について説明する。
当該階層タグ付与装置は、カテゴリの主題を示す語句と、各文書のカテゴリとカテゴリの主題はカテゴリが上位、カテゴリの主題が下位の階層関係にあることに着目する。
本実施の形態では、文書がどのカテゴリに属するのか尤もらしさを示すスコア(カテゴリタグスコア)と、予め他の文書群から定めたそのカテゴリに属する文書の主題語句が、今着目している文書に対して適切かどうかを示すスコア(カテゴリ主題タグスコア)を求め、2種類のスコアの組み合わせの中で適切なものを抽出し、抽出した組み合わせに対応するカテゴリとカテゴリ主題語句を階層的タグとして文書に付与するものである。
図9は、本発明の第3の実施の形態における階層的タグ付与装置の構成を示す。
同図に示す階層的タグ付与装置30は、カテゴリ主題語句抽出部31、語句統計情報集計部32、形態素解析部33、カテゴリタグスコア算出部34、カテゴリ主題タグスコア算出部35、タグ付与部36から構成され、入力文書に対して、予めカテゴリ分けされた文書データベースに格納された文書集合を基に、該入力文書の内容に即した意味的階層性を有する複数のタグを付与する。なお、入力文書がカテゴリ分けされていなくても意味的階層性を有するタグを付与できる。
また、形態素解析部33は、分割された語句を格納するためのメモリ(図示せず)を有するものとし、カテゴリタグスコア算出部34、カテゴリ主題タグスコア算出部35は、算出結果を格納するメモリ(図示せず)を有するものとする。
図10は、本発明の第3の実施の形態の動作を説明するための図である。
ステップ301) カテゴリ主題語句抽出部31は、前述の第1または第2の実施の形態で示したカテゴリ主題語句抽出装置10,20を使用し、カテゴリ分けされた文書DB40に格納された文書集合から、各カテゴリのカテゴリ主題語句を抽出する。つまり、カテゴリ主題語句抽出部31は、第1、第2の実施の形態のカテゴリ主題語句抽出装置10,20の機能を有する。
ステップ302) 語句統計情報集計部32は、カテゴリcに属するNc個の文書のうち、語句wが出現する文書数Dc(w)を語句統計情報として集計し、メモリ(図示せず)に格納する。
ステップ303) 上記ステップ302のカテゴリcの全ての語句について終了するまで繰り返す。
ステップ304) 語句統計情報集計部32は、カテゴリcに属し、カテゴリ主題語句tが出現するNct個の文書のうち、語句wが出現する文書数Dct(w)を語句統計情報として集計し、メモリ(図示せず)に格納する。
ここで、カテゴリ主題語句が出現する文書は、カテゴリ主題語句がタイトル中に出現する文書として集計してもよい。
ステップ305) 上記のステップ304をカテゴリcの全ての語句について終了するまで繰り返す。
ステップ306) 上記ステップ304〜305をカテゴリcの全ての主題語句について終了するまで繰り返す。
ステップ307) 上記ステップ302〜306を全てのカテゴリについて終了するまで繰り返す。
ステップ308) 形態素解析部33は、入力文書を語句に分解し、形態素解析結果をメモリ(図示せず)に格納する。
なお、以下のステップの処理に関して、入力文書が予めカテゴリ分けされている必要は無い。
ステップ309) カテゴリタグスコア算出部34は、語句統計情報集計部32のメモリ(図示せず)から語句統計情報(各カテゴリの文書中における各語句の語句統計情報)と、形態素解析部33のメモリ(図示せず)から形態素解析結果(語句に分割された文書)を読み出して、カテゴリcのタグスコアSを以下の式で計算し、メモリ(図示せず)に格納する。
Figure 0005679400
ここで、上式中の語句集合Wは必ずしも入力文書に含まれる全ての語句でなくとも良く、
Figure 0005679400
の値の大きさなどの指標を用いて選択した一部の語句としてもよい。│V│は予めカテゴリ分けされた文書集合に含まれる全語句数を表す。α(>0)は平滑化パラメータである。
また、カテゴリタグスコア算出部34は、要するに文書をスコア付きで分類できる手段ならいかなるものでもよく、サポートベクターマシンなどの文書分類手段を利用してもよい。
また、入力文書が予めカテゴリ分けされた状態で与えられた場合は、タグスコアSの値を算出結果に関わらず1.0などと大きく設定してもよい。
ステップ310) カテゴリ主題タグスコア算出部35は、語句統計情報集計部32のメモリ(図示せず)から語句統計情報(各カテゴリ主題語句が出現する文書中における各語句の語句統計情報)と、形態素解析部33のメモリ(図示せず)から形態素解析結果(語句に分割された文書)を読み出して、カテゴリcのカテゴリ主題語句tのタグスコアSctを以下の式で計算し、メモリ(図示せず)に格納する。
Figure 0005679400
但し、β(>0)は平滑化パラメータである。
また、カテゴリ主題タグスコア算出部35は、カテゴリタグスコア算出部34と同様に、サポートベクターマシンなどの文書分類手段を利用してもよい。
ステップ311) タグ付与部36は、カテゴリタグスコア算出部34のメモリ(図示せず)から各カテゴリのカテゴリスコア(Sc)と、カテゴリ主題タグスコア算出部35のメモリ(図示せず)から各カテゴリ主題語句のカテゴリ主題タグスコア(Sct)を読み出して、Sc×Sctの値を計算する。
ステップ312) 上記のステップ310〜311をカテゴリcの全てのカテゴリ主題語句について終了するまで繰り返す。
ステップ313) 上記のステップ309〜312を全てのカテゴリについて終了するまで繰り返す。
ステップ314) タグ付与部36は、S×Sctの値を大きいカテゴリcとカテゴリ主題語句をタグとして入力文書に付与する。
各カテゴリのカテゴリスコアScと各カテゴリ主題語句のカテゴリ主題タグスコアSctは、お互いにタグスコアの正しさを保障する役目を果たすため、Sc×Sctの値を基にカテゴリタグ・カテゴリ主題タグを付与することで、Sの値のみを基にカテゴリタグを付与する場合や、Sctの値のみを基にカテゴリ主題タグを付与する場合よりも、精度よくタグを付与することが可能となる。
タグを付与する個数については、Sc×Sctの値により順序付けして上位を付与するタグとする方法や、Sc×Sctの値を閾値以上の場合にタグを付与する方法などにより決定できる。
図11は、本発明の第3の実施の形態におけるタグ付与の例を示しており、「わかりやすい英語の文法の本」というタイトルの文書に対して、Sc×Sctの値が大きい順に3つのカテゴリ主題タグを抽出し、カテゴリタグと併せて階層的に付与した例である。ここで、ScとSctの計算に用いる語句集合Wは、H(w)の値が小さな順に選択した15個の語句から各々構成した。α=0.001、β=50と設定した。
上記のように、本発明によれば、カテゴリ主題語句抽出装置を利用して得られるカテゴリの主題を表す語句をタグの候補とし、さらに、カテゴリと当該カテゴリの主題を表す語句との間の意味的階層構造を利用するため、入力文書に対して、当該入力文書の内容に即した意味的階層構造を有する複数のタグを自動的に付与することが可能となる。
[第4の実施の形態]
本実施の形態では、階層的タグ付与装置において、新奇な語句もタグとして付与できるようにした例を説明する。
図12は、本発明の第4の実施の形態における階層的タグ付与装置の構成を示す。
同図に示す階層的タグ付与装置50は、カテゴリ主題語句抽出部51、語句統計情報集計部52、形態素解析部53、キーワードタグスコア算出部54、カテゴリタグスコア算出部55、カテゴリ主題タグスコア算出部56、タグ付与部57から構成され、入力文書に対して、予めカテゴリ分けされた文書DB40に格納された文書集合を基に、入力文書の内容に即した意味的階層性を有する複数のタグを付与する。
なお、形態素解析部53は、分割された語句を格納するためのメモリ(図示せず)を有するものとし、カテゴリ主題語句抽出部51、語句統計情報集計部52、キーワードタグスコア算出部54、カテゴリタグスコア算出部55、カテゴリ首題タグスコア算出部56は、集計または算出結果を格納するメモリ(図示せず)を有するものとする。
図13は、本発明の第4の実施の形態における階層的タグ付与装置の処理を説明するための図である。
ステップ401〜413) 当該ステップは、第3の実施の形態の図10に示す階層的タグ付与装置の処理のステップ301〜313の処理と同様であるので、その説明を省略する。
ステップ414) キーワードスコア算出部54は、入力文書に出現する語句wのTFIDF値をキーワードタグスコアSとして算出し、メモリ(図示せず)に格納する。
ここで、キーワードスコア算出部54は、要するに、入力文書に出現する語句の重要度を測るものであればいかなるものでもよく、語句が形態素解析の辞書に登録された日付の新しさ、語句が形態素解析の辞書に含まれるか否か、語句の品詞(カタカナ、アルファベットなど)、Wikipedia(登録商標)の見出しに含まれるか否か、語句のカテゴリ間エントロピーなどの指標から算出してもよい。
ステップ415) 全語句の処理が終了するまでステップ414を繰り返す。
ステップ416) タグ付与部57は、Sc×Sctの値が大きいカテゴリcとカテゴリ主題語句tを選出し、さらに、選出された語句を除いた中でキーワードタグスコアSが大きい語句wをタグとして入力文書に付与する。
キーワードタグを付与する個数については、カテゴリタグとカテゴリ主題タグを付与する個数と同様に決定できる。
上記のように本実施の形態によれば、文書中から抽出した語句を付与するタグの候補とするので、新奇な語句もタグとして付与することが可能となる。
なお、上記のカテゴリ主題語句抽出装置及び階層的タグ付与装置の各動作をプログラムとして構築し、カテゴリ主題語句抽出装置及び階層的タグ付与装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
また、構築されたプログラムをハードディスクや、フレキシブルディスク・CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。
なお、本発明は、上記の実施の形態及び実施例に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
10,20 カテゴリ主題語句抽出装置
11、21 形態素解析手段、形態素解析部
12、22 タイトル中語句統計情報集計手段、タイトル中語句統計情報集計部
13、23 全文中語句統計情報集計手段、全文中語句統計情報集計部
14 主題語句抽出手段、主題語句抽出部
24 語句流行度算出部
25 主題語句抽出部
3050 階層的タグ付与装置
31,51 カテゴリ主題語句抽出部
32,52 語句統計情報集計部
33,53 形態素解析部
34,55 カテゴリタグスコア算出部
35,56 カテゴリ主題タグスコア算出部
36,57 タグ付与部
40 カテゴリ分けされた文書DB
54 キーワードタグスコア算出部

Claims (10)

  1. 予めカテゴリ分けされた文書集合から各カテゴリの主題を表す語句を抽出するカテゴリ主題語句抽出装置であって、
    文書を語句の集合に分解する形態素解析手段と
    態素解析結果の各カテゴリに属する文書のタイトル中に語句が出現する文書数の合計を含む語句の出現に関する情報の統計量、または、語句の出現するカテゴリ数、語句の出現する日数、語句の出現する時間間隔のいずれかを含む統計情報を集計し、第1の記憶手段に格納するタイトル中語句統計情報集計手段と、
    前記形態素解析結果の各カテゴリに属する文書の全文中に出現する語句が出現する文書数の合計を含む語句の出現に関する情報の統計量、または、語句の出現するカテゴリ数、語句の出現する日数、語句の出現する時間間隔のいずれかを含む統計情報を集計し、第2の記憶手段に格納する全文中語句統計情報集計手段と、
    カテゴリ毎に、前記第1の記憶手段に格納されている該カテゴリの前記タイトル中語句統計情報集計手段の集計結果と、前記第2の記憶手段格納されている前記全文中語句統計情報集計手段の集計結果を入力として「カテゴリcに属する文書タイトル中に語句wが出現する比率と、カテゴリcを除くカテゴリに属する文書の全文書中に語句wが出現する比率は等しい」という帰無仮説の下で統計的検定を行った結果の有意確率が閾値αよりも小さな値となる語句を、主題を表す語句として抽出する主題語句抽出手段と、
    を有することを特徴とするカテゴリ主題語句抽出装置。
  2. 前記形態素解析結果の語句の各カテゴリにおける出現文書数に関する時間情報に対応する統計量を語句流行度として算出し、第3の記憶手段に格納する語句流行度算出手段を更に有し、
    前記主題語抽出手段は、
    前記カテゴリ毎に主題を表す語句に、前記第3の記憶手段に格納されている前記語句流行度を付記して出力する手段を含む
    ことを特徴とする請求項1記載のカテゴリ主題語句抽出装置。
  3. 入力文書に対して、予めカテゴリ分けされた文書集合を基に、該入力文書の内容に即した意味的階層構造を有する複数のタグを自動的に付与する階層的タグ自動付与装置であって、
    予めカテゴリ分けされた文書集合から請求項1または請求項2に記載のカテゴリ主題語句抽出装置を使用して、各カテゴリの主題を表す語句を抽出し、第1の記憶手段に格納するカテゴリ主題語句抽出手段と、
    前記カテゴリ分けされた文書集合に出現する語句の統計情報をカテゴリ毎に集計し、第2の記憶手段に格納する語句統計情報集計手段と、
    入力文書を語句集合に分解する形態素解析手段と、
    前記形態素解析手段の結果である語句集合、前記第2の記憶手段に格納されている前記語句統計情報集計手段の集計結果から、カテゴリcの文書中で語句wが出現する確率により、前記第1の記憶手段に格納されているカテゴリ名をタグとして前記入力文書へ付与すべき度合いを算出し、第3の記憶手段に格納するカテゴリタグスコア算出手段と、
    前記形態素解析手段の結果である語句集合、前記第2の記憶手段に格納されている前記語句統計情報集計手段の集計結果であるカテゴリcに属し、カテゴリ主題語句tが出現する文書数Nct個と、該カテゴリcに属し、該カテゴリ主題語句tが出現する文書のうち、語句wが出現する文書数Dct(w)の比率により、前記第1の記憶手段に格納されているカテゴリの主題を表す語句名をタグとして前記入力文書へ付与すべき度合いを算出し、第4の記憶手段に格納するカテゴリ主題タグスコア算出手段と、
    前記第3の記憶手段に格納されている前記カテゴリタグスコア算出手段の算出結果と前記第4の記憶手段に格納されている前記カテゴリ主題タグスコア算出手段の算出結果とを乗算した値が大きいカテゴリとカテゴリ主題語句をタグとし、前記入力文書に対して該入力文書の内容に即した意味的階層構造を有する複数のタグを付与するタグ付与手段と、
    を有することを特徴とする階層的タグ付与装置。
  4. 前記形態素解析手段の結果である語句集合、前記第2の記憶手段に格納されている前記語句統計情報集計手段の集計結果であるカテゴリcに属し、カテゴリ主題語句tが出現する文書数Nct個と、該カテゴリcに属し、該カテゴリ主題語句tが出現する文書のうち、語句wが出現する文書数Dct(w)の比率により、前記第1の記憶手段に格納されているカテゴリの主題を表す語句名をタグとして前記入力文書に出現する語句の重要度を算出し、第5の記憶手段に格納するキーワードタグスコア算出手段を更に有し、
    前記タグ付与手段は、
    前記第3の記憶手段に格納されている前記カテゴリタグスコア算出手段の算出結果と前記第4の記憶手段に格納されている前記カテゴリ主題タグスコア算出手段の算出結果を乗算した値が大きいカテゴリとカテゴリ主題語句を選出し、該カテゴリ主題語句を除いた中で前記第5の記憶手段に格納されている前記キーワードタグスコア算出手段の算出結果が大きい語句をタグとして前記入力文書に付与する手段を含む
    ことを特徴とする請求項記載の階層的タグ付与装置。
  5. 予めカテゴリ分けされた文書集合から各カテゴリの主題を表す語句を抽出するカテゴリ主題語句抽出方法であって、
    形態素解析手段、タイトル中語句統計情報集計手段、全文中語句統計情報集計手段、主題語句抽出手段を有する装置において、
    前記形態素解析手段が、文書を語句の集合に分解する形態素解析ステップと、
    前記タイトル中語句統計情報集計手段が、形態素解析結果の各カテゴリに属する文書のタイトル中に語句が出現する文書数の合計を含む語句の出現に関する情報の統計量、または、語句の出現するカテゴリ数、語句の出現する日数、語句の出現する時間間隔のいずれかを含む統計情報を集計し、第1の記憶手段に格納するタイトル中語句統計情報集計ステップと、
    前記全文中語句統計情報集計手段が、前記形態素解析結果の各カテゴリに属する文書の全文中に出現する語句が出現する文書数の合計を含む語句の出現に関する情報の統計量、または、語句の出現するカテゴリ数、語句の出現する日数、語句の出現する時間間隔のいずれかを含む統計情報を集計し、第2の記憶手段に格納する全文中語句統計情報集計ステップと、
    前記主題語句抽出手段が、カテゴリ毎に、前記第1の記憶手段に格納されている該カテゴリの前記タイトル中語句統計情報集計ステップの集計結果と、前記第2の記憶手段格納されている前記全文中語句統計情報集計ステップの集計結果を入力として「カテゴリcに属する文書タイトル中に語句wが出現する比率と、カテゴリcを除くカテゴリに属する文書の全文書中に語句wが出現する比率は等しい」という帰無仮説の下で統計的検定を行った結果の有意確率が閾値αよりも小さな値となる語句を、主題を表す語句として抽出する主題語句抽出ステップと、
    を行うことを特徴とするカテゴリ主題語句抽出方法。
  6. 前記装置の語句流行度算出手段が、前記形態素解析結果の語句の各カテゴリにおける出現文書数に関する時間情報に対応する統計量を語句流行度として算出し、第3の記憶手段に格納する語句流行度算出ステップを更に行い、
    前記主題語抽出ステップにおいて、
    前記カテゴリ毎に主題を表す語句に、前記第3の記憶手段に格納されている前記語句流行度を付与して出力する
    ことを特徴とする請求項記載のカテゴリ主題語句抽出方法。
  7. 入力文書に対して、予めカテゴリ分けされた文書集合を基に、該入力文書の内容に即した意味的階層構造を有する複数のタグを自動的に付与する階層的タグ付与方法であって、
    カテゴリ主題語句抽出手段、語句統計情報集計手段、形態素解析手段、カテゴリタグスコア算出手段、カテゴリ主題タグスコア算出手段、タグ付与手段を有する装置において、
    前記カテゴリ主題語句抽出手段が、予めカテゴリ分けされた文書集合から請求項1または請求項2に記載のカテゴリ主題語句抽出装置を使用して、各カテゴリの主題を表す語句を抽出し、第1の記憶手段に格納するカテゴリ主題語句抽出ステップと、
    前記語句統計情報集計手段が、前記カテゴリ分けされた文書集合に出現する語句の統計情報をカテゴリ毎に集計し、第2の記憶手段に格納する語句統計情報集計ステップと、
    前記形態素解析手段が、入力文書を語句集合に分解する形態素解析ステップと、
    前記カテゴリタグスコア算出手段が、前記形態素解析ステップの結果である語句集合、前記第2の記憶手段に格納されている前記語句統計情報集計ステップの集計結果から、カテゴリcの文書中で語句wが出現する確率により、前記第1の記憶手段に格納されているカテゴリ名をタグとして前記入力文書へ付与すべき度合いを算出し、第3の記憶手段に格納するカテゴリタグスコア算出ステップと、
    前記カテゴリ主題タグスコア算出手段が、前記形態素解析ステップの結果である語句集合、前記第2の記憶手段に格納されている前記語句統計情報集計ステップの集計結果であるカテゴリcに属し、カテゴリ主題語句tが出現する文書数Nct個と、該カテゴリcに属し、該カテゴリ主題語句tが出現する文書のうち、語句wが出現する文書数Dct(w)の比率により、前記第1の記憶手段に格納されているカテゴリの主題を表す語句名をタグとして前記入力文書へ付与すべき度合いを算出し、第4の記憶手段に格納するカテゴリ主題タグスコア算出ステップと、
    前記タグ付与手段が、前記第3の記憶手段に格納されている前記カテゴリタグスコア算出ステップの算出結果と前記第4の記憶手段に格納されているカテゴリ主題タグスコア算出ステップの算出結果とを乗算した値が大きいカテゴリとカテゴリ主題語句をタグとし、前記入力文書に対して該入力文書の内容に即した意味的階層構造を有する複数のタグを付与するタグ付与ステップと、
    を行うことを特徴とする階層的タグ付与方法。
  8. 前記装置のキーワードタグスコア算出手段が、前記形態素解析ステップの結果である語句集合、前記第2の記憶手段に格納されている前記語句統計情報集計ステップの集計結果であるカテゴリcに属し、カテゴリ主題語句tが出現する文書数Nct個と、該カテゴリcに属し、該カテゴリ主題語句tが出現する文書のうち、語句wが出現する文書数Dct(w)の比率により、前記第1の記憶手段に格納されているカテゴリの主題を表す語句名をタグとして前記入力文書に出現する語句の重要度を算出し、第5の記憶手段に格納するキーワードタグスコア算出ステップを更に行い、
    前記タグ付与ステップにおいて、
    前記第3の記憶手段に格納されている前記カテゴリタグスコア算出ステップの算出結果と前記第4の記憶手段に格納されている前記カテゴリ主題タグスコア算出ステップの算出結果を乗算した値が大きいカテゴリとカテゴリ主題語句を選出し、該カテゴリ主題語句を除いた中で前記第5の記憶手段に格納されている前記キーワードタグスコア算出ステップの算出結果が大きい語句をタグとして前記入力文書に付与する
    ことを特徴とする請求項記載の階層的タグ付与方法。
  9. 請求項1または2に記載のカテゴリ主題語句抽出装置を構成する各手段としてコンピュータを機能させるためのカテゴリ主題語句抽出プログラム。
  10. 請求項またはに記載の階層的タグ付与装置を構成する各手段としてコンピュータを機能させるための階層的タグ付与プログラム。
JP2010012397A 2010-01-22 2010-01-22 カテゴリ主題語句抽出装置及び階層的タグ付与装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体 Expired - Fee Related JP5679400B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010012397A JP5679400B2 (ja) 2010-01-22 2010-01-22 カテゴリ主題語句抽出装置及び階層的タグ付与装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010012397A JP5679400B2 (ja) 2010-01-22 2010-01-22 カテゴリ主題語句抽出装置及び階層的タグ付与装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体

Publications (2)

Publication Number Publication Date
JP2011150603A JP2011150603A (ja) 2011-08-04
JP5679400B2 true JP5679400B2 (ja) 2015-03-04

Family

ID=44537505

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010012397A Expired - Fee Related JP5679400B2 (ja) 2010-01-22 2010-01-22 カテゴリ主題語句抽出装置及び階層的タグ付与装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体

Country Status (1)

Country Link
JP (1) JP5679400B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015145524A1 (ja) * 2014-03-24 2015-10-01 株式会社Ubic 文書分析システム、文書分析方法、および、文書分析プログラム
US20230065007A1 (en) * 2020-02-25 2023-03-02 Nec Corporation Item classification assistance system, method, and program
CN113836905B (zh) * 2021-09-24 2023-08-08 网易(杭州)网络有限公司 一种主题提取方法、装置、终端及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004235497A (ja) * 2003-01-31 2004-08-19 Matsushita Electric Ind Co Ltd パターン寸法測定方法
JP4360167B2 (ja) * 2003-09-30 2009-11-11 ソニー株式会社 キーワード抽出装置、およびキーワード抽出方法、並びにコンピュータ・プログラム
KR100953491B1 (ko) * 2007-09-06 2010-04-16 엔에이치엔(주) 최신정보 제공 방법 및 시스템

Also Published As

Publication number Publication date
JP2011150603A (ja) 2011-08-04

Similar Documents

Publication Publication Date Title
Gambhir et al. Recent automatic text summarization techniques: a survey
Weiss et al. Fundamentals of predictive text mining
US10489439B2 (en) System and method for entity extraction from semi-structured text documents
Jeon et al. A framework to predict the quality of answers with non-textual features
Weiss et al. Text mining: predictive methods for analyzing unstructured information
US9015153B1 (en) Topic discovery, summary generation, automatic tagging, and search indexing for segments of a document
Avasthi et al. Techniques, applications, and issues in mining large-scale text databases
Kanaris et al. Learning to recognize webpage genres
Smith et al. Corpus tools and methods, today and tomorrow: Incorporating linguists’ manual annotations
Ransom et al. Facets of user‐assigned tags and their effectiveness in image retrieval
Kettunen et al. Names, right or wrong: Named entities in an OCRed historical Finnish newspaper collection
JP4426041B2 (ja) カテゴリ因子による情報検索方法
JP5679400B2 (ja) カテゴリ主題語句抽出装置及び階層的タグ付与装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体
Wiedemann et al. Document retrieval for large scale content analysis using contextualized dictionaries
Angrosh et al. Context identification of sentences in research articles: Towards developing intelligent tools for the research community
CN111881695A (zh) 一种审计知识的检索方法及装置
Marshman et al. Portability of cause–effect relation markers across specialised domains and text genres: a comparative evaluation
Wang et al. Unsupervised opinion phrase extraction and rating in Chinese blog posts
Greenbacker et al. Improving the accessibility of line graphs in multimodal documents
Sirajzade et al. The LuNa Open Toolbox for the Luxembourgish Language
Kim et al. Genre classification in automated ingest and appraisal metadata
Lama Clustering system based on text mining using the K-means algorithm: news headlines clustering
DeVille et al. Text as Data: Computational Methods of Understanding Written Expression Using SAS
Muhammad et al. Revisiting the challenges and surveys in text similarity matching and detection methods.
CN112487160B (zh) 技术文档溯源方法及装置、计算机设备、计算机存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120309

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130514

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130604

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130805

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20131001

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140311

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140512

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141224

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141226

R150 Certificate of patent or registration of utility model

Ref document number: 5679400

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees