JP5362651B2

JP5362651B2 - 重要語句抽出装置及び方法及びプログラム

Info

Publication number: JP5362651B2
Application number: JP2010130405A
Authority: JP
Inventors: 京介西田; 考藤村
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2010-06-07
Filing date: 2010-06-07
Publication date: 2013-12-11
Anticipated expiration: 2030-06-07
Also published as: JP2011257878A

Description

本発明は、重要語句抽出装置及び方法及びプログラムに係り、特に、複数のセクションから構成される訓練文書の集合を基に、複数のセクションから構成される入力文書から、概入力文書の重要な語句を抽出する重要語句抽出装置及び方法及びプログラムに関する。

近年では集合知の発展により、Q&Aコミュニティ上の質問回答や、ニュース本文とユーザによるコメントなど、複数ユーザによって記述された文書が爆発的に増加しており、情報検索や文書整理を目的とした重要語抽出手法の需要が高まっている。

前記文書では、複数ユーザが文章を記述し、校正などは一般的に行われないため、（１）タイプミス、（２）変換ミス、（３）一般的でない表現、（４）語句の誤用、などの非重要語が多く含まれる。

文書から重要な語句を抽出する技術として広く用いられている技術には、入力文書中の語句の出現頻度（Term Frequency；TF）と語句の訓練文書集合中の文書頻度の逆数（Inverse Document Frequency；IDF）を掛け合わせた値を語句の重要度とするTF-IDF法がある（例えば、非特許文献１参照）。

しかし、非特許文献１の従来技術（TF-IDF）によって獲得される語句は、IDFの影響が強く、前記非重要語（１）〜（４）のように、ごく僅かな文書にしか出現しない語句が抽出されやすい。

例えば、上記従来技術を用いると、
『質問タイトル：教えてください。質問本文：コンピュタ教育に携わっています。コンピュタを使った受業で良いアイデアはありますか？なお、当方コンピュタにはあまり詳しくありません。回答文：コンピュータによる英語の授業はどうでしょう』
という文書から「コンピュタ」「受業」が抽出される。「コンピュタ」は出現文書数（IDF値が高い）が少なく、概文書で多く出現するため（TF値が高い）、重要な語句として抽出されてしまう。次に、「受業」は変換ミスであり、重要語句には相応しくないが、IDF値が高いため、重要な語句として抽出されてしまう。文書内容を端的に表す「コンピュータ」や「授業」といった重要語句は、TF値・IDF値ともに低いため、重要語句には選出されない。

また、文書集合から重要語を抽出する従来技術として、語句の出現がポアソン分布に従っているかを利用する残差IDF（residual IDF; RIDF）がある（例えば、非特許文献２参照）。残差IDFでは、訓練集合で実際に観測されたIDF値と、訓練集合中のTF値の総和から予測したIDF値の差分を、語句の重要度とする。ポアソン分布は、「このほど」や「ほとんど」のような一般語に良くあてはまり、「捕鯨」や「チベット」など、同一文書内で繰り返し出現しやすい内容語に良くあてはまるため、前記非重要語（１）や（２）などのランダムに発生する語句については低い値を取る。

しかし、前記非重要語（３）や（４）は、文書内に繰り返し出現する傾向があるため、RIDFを用いても重要語として抽出されてしまう問題が残る。

そこで、本発明では、「タイトル」「本文」「コメント」など文書において異なる役割を持つ文章群を「セクション」として定義し、同一文書中の複数セクションにおいて、前記非重要語（１）〜（４）が同時に出現することは非常に少ないことに着目する。例えば、Q&Aコミュニティの質問回答文書において「質問タイトル」「質問本文」「回答文」をそれぞれセクションとすると、「コンピュタ」が質問本文と回答文の両方に登場する文書数に比べて、質問本文と回答文の両方に「コンピュータ」が登場する文書数は明らかに多い（質問タイトル・本文の記述者と、回答文の記述者が異なるため）。本発明では、この特性を鑑みて、語句が出現するセクション数を「セクション頻度」と定義して利用する。

徳永健伸、"情報検索と言語処理"、東京大学出版会、1999．北研二、津田和彦、獅々堀正幹、"情報検索アルゴリズム"、共立出版、2002．

上記のように、現在は質問回答文書、ブログ記事など複数ユーザによって記述された文書を明示的に対象にした重要語抽出手法が存在せず、従来技術では、タイプミス・変換ミス・一般的でない表現、語句の誤用などの、ごく僅かな文書にしか出現しない非重要語を重要語として抽出してしまう問題があった。

本発明は、上記従来技術の問題点に鑑みて、「タイトル」「本文」「コメント」などの、文書において異なる役割を持つ文章群を「セクション」として定義し、複数のセクションから構成される訓練文書の集合を基に、入力文書から、前記入力文書中に語句が出現するセクション数と、前記訓練集合と前記入力文書から算出する残差逆文書頻度を用いて、前記入力文書の重要な語句を抽出することが可能な重要語句抽出装置及び方法及びプログラムを提供することを目的とする。

上記の課題を解決するために、本発明（請求項１）は、異なる役割を持つ文章群であるセクションが複数含まれる訓練文書の集合を基に、複数のセクションから構成される入力文書から、概入力文書の重要な語句を抽出する重要語句抽出装置であって、
前記訓練文書集合を記憶する訓練文書集合記憶手段と、
前記入力文書を語句の集合に分解する形態素解析手段と、
前記入力文書中に語句が出現するセクション数を集計するセクション頻度集計手段と、
前記訓練文書集合と前記入力文書から残差逆文書頻度を算出する残差逆文書頻度算出手段と、
前記セクション頻度集計手段の集計結果と前記残差逆文書頻度算出手段の算出結果を基に、前記入力文書に含まれる語句の重要度を算出する重要度算出手段と、
前記重要度算出手段の算出結果を基に、前記入力文書の重要語句を所定の個数出力する重要語句出力手段と、を有する。

また、本発明（請求項２）は、質問タイトル、質問本文、複数の回答文から構成される質問回答文書から、請求項１記載の重要語句抽出装置を使用して、前記質問回答文書の重要な語句を抽出する質問回答重要語句抽出装置である。

また、本発明（請求項３）は、異なる役割を持つ文章群であるセクションが複数含まれる訓練文書の集合を基に、複数のセクションから構成される入力文書から、概入力文書の重要な語句を抽出するための訓練文書集合を記憶する訓練文書集合記憶手段、形態素解析手段、セクション頻度集計手段、残差逆文書頻度算出手段、重要度算出手段、重要語句出力手段を有する装置における重要語句抽出方法であって、
前記形態素解析手段が、前記入力文書を語句の集合に分解する形態素解析ステップと、
前記セクション頻度集計手段が、前記入力文書中に語句が出現するセクション数を集計するセクション頻度集計ステップと、
前記残差逆文書頻度算出手段が、前記訓練文書集合記憶手段から読み出した訓練文書集合と前記入力文書から残差逆文書頻度を算出する残差逆文書頻度算出ステップと、
前記重要度算出手段が、前記セクション頻度集計ステップの集計結果と前記残差逆文書頻度算出手段の算出結果を基に、前記入力文書に含まれる語句の重要度を算出する重要度算出ステップと、
前記重要語句出力手段が、前記重要度算出ステップの重要度に基づいて、前記入力文書の重要語句を所定の個数出力する重要語句出力ステップと、を行う。

また、本発明（請求項４）は、請求項１記載の重要語句抽出装置を構成する各手段としてコンピュータを機能させるための重要語句抽出プログラムである。

上記のように本発明によれば、入力文書中の語句が出現するセクション数と、訓練集合と前記入力文書を基に多くのセクションに繰り返し出現する重要語を精度良く抽出できる残差逆文書頻度を利用するので、ランダムに出現するタイプミスや変換ミス、また、特定のセクションで繰り返し発生するような一般的でない表現・語句の誤用といった非重要語句を抽出することなく、前記入力文書の重要な語句を抽出できる。

本発明の一実施の形態における重要語句抽出装置の構成図である。本発明の一実施の形態における重要語句抽出装置の処理のフローチャートである。本発明の一実施の形態における重要語句抽出処理の例である。

以下図面と共に、本発明の実施の形態を説明する。

図１は、本発明の一実施の形態における重要語句抽出装置の構成を示す。

同図に示す重要語句抽出装置１００は、形態素解析部１１０、訓練文書集合記憶手段セクション頻度集計部１２０、残差逆文書頻度算出部１３０、重要度算出部１４０、重要語句選出部１５０から構成され、形態素解析部１１０が複数のセクションから構成された文書を入力として受け取り、前記入力文書の重要語句を１つ以上抽出して重要語句出力部１５０から出力する。残差逆文書頻度算出部１３０には訓練文書集合ＤＢ２１０が接続されている。

訓練文書集合ＤＢ２１０には、語句に対する訓練文書集合中の文書頻度及びセクション頻度が格納されている。

上記の構成における一連の動作を以下に説明する。

図２は、本発明の一実施の形態における重要語句抽出装置の処理のフローチャートである。

ステップ１）形態素解析部１１０は、入力文書を受け取って語句に分割し、語句集合をセクション頻度集計部１２０と残差逆文書頻度算出部１３０に出力する。ここで、語句とは、１つ以上の形態素（名詞、形容詞、動詞）から構成される文字列を指す。

ステップ２）セクション頻度集計部１２０は、入力文書中に含まれる全ての語句に対して、各語句ｗが出現するセクション数の合計ｓ（ｗ）をセクション頻度として集計し、残差逆文書頻度算出部１３０と重要度算出部１４０に出力する。

ステップ３）残差逆文書頻度算出部１３０は、形態素解析部１１０から取得した語句ｗに基づいて訓練文書集合ＤＢ２１０から各語句ｗの訓練文書集合中の文書頻度Ｄ（ｗ）と各語句ｗの訓練文書集合中のセクション頻度の合計Ｓ（ｗ）と訓練文書集合の全文書数Ｄを取得する。

ステップ４）残差逆文書頻度算出部１３０は、訓練文書集合ＤＢ２１０から取得した文書頻度Ｄ（ｗ）とセクション頻度の合計Ｓ（ｗ）、全文書数Ｄと、セクション頻度集計部１２０から取得した入力文書中のセクション頻度ｓ（ｗ）を用いて、入力文書に含まれる全ての語句に対して、各語句ｗの残差逆文書頻度Ｒ（ｗ）を以下の式で算出する。

ステップ５）語句重要度算出部１３０は、入力文書に含まれる全ての語句に対して、各語句ｗの重要度Ｉ（ｗ）をセクション頻度集計部１２０から取得した語句毎のセクション頻度ｓ（ｗ）と残差逆文書頻度算出部１３０から取得した残差逆文書頻度Ｒ（ｗ）を用いて、以下の式で算出する。

残差逆文書頻度算出部１３０は、上記で求められた各語句ｗの重要度Ｉ（ｗ）を重要語句選択部１４０に出力する。
ステップ６）重要語句選出部１４０は、入力文書に含まれる全ての語句のうち、最もＩ（ｗ）の値が高いＫ個の語句を選出する。

図３は、本発明の一実施の形態における重要語句抽出処理の例であり、質問タイトル・質問本文・全回答文の３セクションから構成される質問回答文書が入力文書として重要語句抽出装置１００に与えられた際の重要語句抽出結果例を示す。

本発明の重要語句抽出装置は、「レンタルカー」や「37800円」といった、ごく僅かな文書にしか登場しない語句に対して低い重要度が付与されるため、重要語しては抽出されない。なお、全回答文ではなく、各回答文を1つのセクションと定義したり、質問タイトルと質問本文を1つのセクションにまとめても同様の結果が得られる。また、文書の段落を全てセクションとみなしてもよい。

なお、上記の重要語句抽出装置の各構成要素の図２に示す動作をプログラムとして構築し、重要語句抽出装置として利用されるコンピュータにインストールする、または、ネットワークを介して流通させることが可能である。

また、構築されたプログラムを、ハードディスクやフレキシブルディスク、ＣＤ−ＲＯＭ等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。

本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。例えば、Q&Aコミュニティ上の質問回答文書、ブログエントリ、ニュース記事、動画ページなど、種々の複数ユーザによって記述され、異なる役割を持つセクションを複数持つ文書に対して適用可能である。

本発明は、Ｑ＆Ａコミュニティ上の質問回答や、ニュース本文とユーザによるコメントなど、複数ユーザによって記述され、異なる役割を持つセクションを複数持つ文書に特化した重要語句抽出手法であり、情報整理と情報検索の支援に利用可能である。

また、本発明の重要語句抽出装置は、当該重要語句抽出装置を使用する質問回答重要語句抽出装置及びブログエントリ重要語句抽出装置及び動画ページ重要語句抽出装置及びニュース記事抽出装置に適用可能である。

１００重要語句抽出装置
１１０形態素解析部
１２０セクション頻度集計部
１３０残差逆文書頻度算出部
１４０重要度算出部
１５０重要語句出力部
２１０訓練文書集合データベース

Claims

異なる役割を持つ文章群であるセクションが複数含まれる訓練文書の集合を基に、複数のセクションから構成される入力文書から、概入力文書の重要な語句を抽出する重要語句抽出装置であって、
前記訓練文書集合を記憶する訓練文書集合記憶手段と、
前記入力文書を語句の集合に分解する形態素解析手段と、
前記入力文書中に語句が出現するセクション数を集計するセクション頻度集計手段と、
前記訓練文書集合と前記入力文書から残差逆文書頻度を算出する残差逆文書頻度算出手段と、
前記セクション頻度集計手段の集計結果と前記残差逆文書頻度算出手段の算出結果を基に、前記入力文書に含まれる語句の重要度を算出する重要度算出手段と、
前記重要度算出手段の算出結果を基に、前記入力文書の重要語句を所定の個数出力する重要語句出力手段と、
を有することを特徴とする重要語句抽出装置。
質問タイトル、質問本文、複数の回答文から構成される質問回答文書から、請求項１記載の重要語句抽出装置を使用して、前記質問回答文書の重要な語句を抽出する質問回答重要語句抽出装置。
異なる役割を持つ文章群であるセクションが複数含まれる訓練文書の集合を基に、複数のセクションから構成される入力文書から、概入力文書の重要な語句を抽出するための
前記訓練文書集合を記憶する訓練文書集合記憶手段、形態素解析手段、セクション頻度集計手段、残差逆文書頻度算出手段、重要度算出手段、重要語句出力手段を有する装置における重要語句抽出方法であって、
前記形態素解析手段が、前記入力文書を語句の集合に分解する形態素解析ステップと、
前記セクション頻度集計手段が、前記入力文書中に語句が出現するセクション数を集計するセクション頻度集計ステップと、
前記残差逆文書頻度算出手段が、前記訓練文書集合記憶手段から読み出した訓練文書集合と前記入力文書から残差逆文書頻度を算出する残差逆文書頻度算出ステップと、
前記重要度算出手段が、前記セクション頻度集計ステップの集計結果と前記残差逆文書頻度算出手段の算出結果を基に、前記入力文書に含まれる語句の重要度を算出する重要度算出ステップと、
前記重要語句出力手段が、前記重要度算出ステップの重要度に基づいて、前記入力文書の重要語句を所定の個数出力する重要語句出力ステップと、
を行うことを特徴とする重要語句抽出方法。
請求項１記載の重要語句抽出装置を構成する各手段としてコンピュータを機能させるための重要語句抽出プログラム。