JP4192760B2

JP4192760B2 - カテゴリ別新出特徴語ランキング方法及び装置及びプログラム及びカテゴリ別新出特徴語ランキングプログラムを記録したコンピュータ読み取り可能な記憶媒体

Info

Publication number: JP4192760B2
Application number: JP2003372996A
Authority: JP
Inventors: 吉秀佐藤; 晴美川島; 二大大橋; 伸治安部
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2003-10-31
Filing date: 2003-10-31
Publication date: 2008-12-10
Anticipated expiration: 2023-10-31
Also published as: JP2005135311A

Description

本発明は、カテゴリ別新出特徴語ランキング方法及び装置及びプログラム及びカテゴリ別新出特徴語ランキングプログラムを記録したコンピュータ読み取り可能な記憶媒体に係り、特に、新たに作成された文書を対象として、カテゴリ別に新出の特徴語をランキングするためのカテゴリ別新出特徴語ランキング方法及び装置及びプログラム及びカテゴリ別新出特徴語ランキングプログラムを記録したコンピュータ読み取り可能な記憶媒体に関する。

現在から数時間〜数日前以降に作成された文書は、現在の世間の流行や関心事、新着情報など、タイムリーな情報を含んでいる可能性が高い。従って、作成時刻の新しい文書を数多く収集して解析すれば、最近のトレンドやタイムリーな出来事を把握することができる。情報の更新が早いインターネット上の文書では、時々刻々と新しい情報が追加されるため、この傾向はなおさらである。

新着情報を入手するため、続々と送られる文字情報から、更新部分のみを選択して提示することでタイムリーな情報の継続的な入手を支援する技術がある（例えば、特許文献１参照）。しかしながら、以前に受信した文書と新しく受信した文書の一部が重複しているような情報ソースを対象とする技術であり、数時間〜数日程度前までの期間に作成された文書を対象としてトレンドやタイムリーな出来事を抽出するのは不可能である。

また、単語の出現頻度を集計し、出現頻度の高い単語はトレンドを表す語であるとしてリストアップする技術がある（例えば、特許文献２参照）。現在から数時間〜数日前以降に作成された文書をこの技術の入力とすれば最近のトレンドを表す語をリストアップすることは可能になるが、文章の中で出現頻度の高い単語は一般性の高い単語である場合が多く、必ずしもトレンドを表す語ばかりがリストアップされるわけではない。

一方、自然言語処理の分野では、語句の出現頻度の文書間での相関関係を解析し、各文書内で特徴的な語句を抽出する技術がある。これは、ある文書での出現頻度が高くて他の文書での出現頻度が少ない語句に大きな重みを与え、多くの文書に出現する一般性の高い語句の重みを小さくすることで、語句の評価を行うものである。この技術を、予め内容に応じて複数のカテゴリに分類した文書に対して適用すれば、「各カテゴリ内で特徴的な語」を抽出することが可能である。さらに、最近作成された文書に対して処理を行えば、最近のトレンドを表す語句の抽出は可能である。しかし、最近作成された文書に出現し、あるカテゴリに特徴的であり、かつごく最近登場するようになったタイムリーな話題を選択して抽出するのは非常に難しい。
特開平８−１６１２９９号公報特開平１０−６９４９６号公報

上記のように、従来の技術では、最近になって作成された文書から新しい概念やタイムリーな事件、出来事を表す語句を抽出するのは困難であった。

本発明は、上記の点に鑑みなされたもので、複数のカテゴリ別に収集された多数の文書からカテゴリ毎の新着特徴語を容易に抽出し、現在のトレンドを支援することが可能なカテゴリ別新出特徴語ランキング方法及び装置及びプログラム及びカテゴリ別新出特徴語ランキングプログラムを記録したコンピュータ読み取り可能な記憶媒体を提供することを目的とする。

図１は、本発明の原理を説明するための図である。

上記の目的を達成するために、本発明（請求項１）は、カテゴリ別に新出の特徴語をランキングするためのカテゴリ別新出特徴語ランキング方法において、
語句集計手段が、複数のカテゴリに分類された作成時刻情報付きの文書がデータベースより入力されると、該文書を解析し、該文書内に出現する語句と、該語句がカテゴリ内の文書中に少なくとも１つ含まれているカテゴリの数である出現カテゴリ数と、文書中の該語句の出現回数に該文書の作成時刻が新しいほど大きな重みを掛けた数をカテゴリ内の全文書について加算した数であるカテゴリ別時間傾斜出現量と、カテゴリ内の各文書を作成時刻により一定期間毎に分類した各期間に属する文書のうち該語句が少なくとも１つ含まれている文書を含む期間の長さの和である出現期間と、各カテゴリ内で該語句が出現する文書数を表すカテゴリ別語句出現文書数と、を語句付随情報として集計する語句集計ステップ（ステップ１）と、
カテゴリ関連度評価手段が、語句の語句付随情報を利用し、出現カテゴリ数に基づいて決定される出現カテゴリ数要素と、カテゴリ別時間傾斜出現量に基づいて決定される出現量要素と、カテゴリ内の全文書の作成された期間の長さを出現期間で割った値の対数値に該出現期間の対数値をかけた値である寿命要素と、カテゴリ別語句出現文書数に基づいて決定される出現文書数要素と、を乗じて該語句が出現するカテゴリへの関連度を各語句について算出し、該関連度によって語句をカテゴリ別にソートしたリストを作成するカテゴリ関連度評価ステップ（ステップ２）と、からなる。

図２は、本発明の原理構成図である。

本発明（請求項２）は、カテゴリ別に新出の特徴語をランキングするためのカテゴリ別新出特徴語ランキング装置であって、
複数のカテゴリに分類された作成時刻情報付きの文書がデータベースより入力されると、該文書を解析し、該文書内に出現する語句と、該語句がカテゴリ内の文書中に少なくとも１つ含まれているカテゴリの数である出現カテゴリ数と、文書中の該語句の出現回数に該文書の作成時刻が新しいほど大きな重みを掛けた数をカテゴリ内の全文書について加算した数であるカテゴリ別時間傾斜出現量と、カテゴリ内の各文書を作成時刻により一定期間毎に分類した各期間に属する文書のうち該語句が少なくとも１つ含まれている文書を含む期間の長さの和である出現期間と、各カテゴリ内で該語句が出現する文書数を表すカテゴリ別語句出現文書数と、を語句付随情報として集計する語句集計手段１３と、
語句の語句付随情報を利用し、出現カテゴリ数に基づいて決定される出現カテゴリ数要素と、カテゴリ別時間傾斜出現量に基づいて決定される出現量要素と、カテゴリ内の全文書の作成された期間の長さを出現期間で割った値の対数値に該出現期間の対数値をかけた値である寿命要素と、カテゴリ別語句出現文書数に基づいて決定される出現文書数要素と、を乗じて該語句が出現するカテゴリへの関連度を各語句について算出し、該関連度によって語句をカテゴリ別にソートしたリストを作成するカテゴリ関連度評価手段１４と、を有する。

本発明（請求項３）は、上記の請求項２記載のカテゴリ別新出特徴語ランキング装置を構成する各手段としてコンピュータを機能させるためのカテゴリ別新出特徴語ランキングプログラムである。

本発明（請求項４）は、上記の請求項３記載のカテゴリ別新出特徴語ランキングプログラムを格納したことを特徴とするコンピュータ読み取り可能な記録媒体である。

本発明によれば、多数の文書から、最近になって登場したタイムリーな話題を表す語句であって、かつ、各カテゴリに特徴的な語句を自動的に抽出することにより、各々の文章に目を通さなくても抽出語句を概観するだけでトレンドを把握することができる。

以下、図面と共に本発明の実施の形態を説明する。

図３は、本発明の一実施の形態におけるカテゴリ別新出特徴語ランキング装置の構成を示す。

カテゴリ別新出特徴語ランキング装置１１には、収集文書データベース１２と関連度ランキングデータベース１５が接続されている。

カテゴリ別新出特徴語ランキング装置１１は、語句集計部とカテゴリ関連度評価部１４から構成され、複数のカテゴリに分類された作成時刻情報付きの収集文書群を収集文書データベースから１２から入力し、カテゴリ別の語句関連度ランキングを関連度ランキングデータベース１５に出力する。

語句集計部１３は、形態素解析部１３１、出現カテゴリ数集計部１３２、カテゴリ別時間傾斜出現量集計部１３３、出現期間集計部１３４、カテゴリ別出現文書数集計部１３５から構成される。

カテゴリ関連評価部１４は、出現カテゴリ数要素算出部１４１、出現量要素算出部１４２、寿命要素算出部１４３、出現文書数要素算出部１４４及びカテゴリ関連度算出部１４５から構成される。

語句集計部１３は、収集文書データベース１２に蓄積されている収集文書を形態素解析部１３１で形態素に分解し、名詞のみを切り出す。

出現カテゴリ数集計部１３２、カテゴリ別時間傾斜出現量集計部１３３、出現期間集計部１３４、カテゴリ別出現文書数集計部１３５は、カテゴリ分類された各文書から抽出された名詞のそれぞれについて、関連度評価に用いる付随情報を集計し、メモリ等の記憶手段に一時的に記録する。

カテゴリ関連度評価部１４の出現カテゴリ数要素算出部１４１、出現量要素算出部１４２、寿命要素算出部１４３、出現文書数要素算出部１４４及びカテゴリ関連度算出部１４５は、メモリ等の記憶手段に記録されている各語句付随情報を用いてカテゴリ関連度を算出し、カテゴリ別に語句の関連度ランキング１５として出力する。

以下、具体例を用いて説明する。

本発明のカテゴリ別新出特徴語ランキング装置１１の入力となる収集文書データベース１２の収集文書データの例を図４に示す。収集文書データベース１２には、カテゴリ１〜カテゴリＮの全Ｎカテゴリのいずれかに分類された収集文書データが、作成時刻情報付きで保存されている。

図５は、本発明の一実施の形態におけるカテゴリ別新出特徴語ランキング方法の全体の流れを表すフローチャートである。

ステップ３０１）図４の収集文書データベース１２から収集文書が語句集計部１３の形態素解析部１３１に入力される。形態素解析部１３１は、入力された文書データを品詞情報を付けて品詞毎に分解し、ランキング作成の対象となる品詞のみを出力する。本実施の形態では、名詞のみを対象品詞としてランキングを作成するものとして説明する。

ステップ３０２）上記の処理を、収集文書全てについて終了するまで繰り返す。

ステップ３０３）次に、出現カテゴリ集計部１３２、カテゴリ別時間傾斜出現量集計部１３３、出現期間集計部１３４、カテゴリ別出現文書数集計部１３５のそれぞれが、語句の付随情報を集計する。以下の各々集計部１３２〜１３５の動作を示す。

出現カテゴリ集計部１３２は、ある語句ｗがカテゴリ内の文書中に１度でも登場すればそれをカテゴリ内での出現とみなし、語句ｗが出現するカテゴリ数ＣＦ（ｗ）を集計する。

カテゴリ別時間傾斜出現量集計部１３３は、カテゴリ内の全文書について、各文書内の語句の出現回数に、文書作成時刻に関連する重みを付けて加算する。

新出語を選出する本発明のカテゴリ別新出特徴語ランキング装置においては、文書の作成時刻が新しいほどその文書内での語句出現回数の影響が大きく、古いほど影響が小さくなるように重みを設定する必要があり、例えば、図６のように、作成時刻が最も新しい文書で重みが１、最も古い文書で０になるように直線的に設定する方法がある。カテゴリＣ内の文書ｄにおける語句ｗの出現回数がＴＦ（ｄ、ｗ）で、文書ｄの作成時刻がｔ（ｄ）であったとすると、出現回数ＴＦ（ｄ、ｗ）に図６から決定される重みＷ（ｔ（ｄ））を掛けた値をカテゴリＣ内の全文書について加算し、カテゴリＣにおける語句ｗのカテゴリ別時間傾斜出現量ＴＡ（Ｃ，ｗ）とする（式（１））。

カテゴリ別時間傾斜出現量は、どの期間の新出特徴語ランキングを作成するか、即ち、最近２日間や、最近２時間といった注目時間帯に応じて重みの付け方を変えればよく、図６のように直線的に変換する重みに限定するものではない。

出現期間集計部１３４は、ある語句ｗが１カテゴリ内の文書にどの程度の期間出現するか、すなわち語句の寿命とも言える期間を集計する。カテゴリ内の文書をその作成時刻によって、例えば、図７のように１５分間隔で分類し、各期間に作成された文書群中に一度でも語句ｗが存在すれば、その期間に出現したとみなす。図７の例では、１５分間隔の全７区間のうち、４区間について語句が出現しているため、カテゴリＣにおける語句ｗの出現期間Ｌ（Ｃ，ｗ）は４となる。

カテゴリ別出現文書集計部１３５は、カテゴリＣ内の全文書のうち、語句ｗが一度でも出現する文書数ＤＦ（Ｃ，ｗ）を集計する。

ステップ３０４）以上で集計した語句の付随情報を用いて、カテゴリ関連度評価部１４の出現カテゴリ数要素算出部１４１、出現量要素算出部１４２、寿命要素算出部１４３、出現文書数要素算出部１４４が必要な各要素を算出し、カテゴリ関連度算出部１４５に送出し、カテゴリ関連度算出部１４５がこれらの要素に基づいて語句のカテゴリ関連度を算出する。

出現カテゴリ数要素算出部１４１は、出現カテゴリ数集計部１３２が集計した語句ｗの出現カテゴリ数ＣＦ（ｗ）を用いて、特徴語の評価に必要な出現カテゴリ数要素を決定する。一般的な語句は多くのカテゴリに出現する可能性が高く、カテゴリに特徴的な語句は出現カテゴリ数が少ないと考えれば、出現カテゴリ数が少ないほど値が大きくなるように出現カテゴリ数要素を与えるのが望ましい。

例えば、Ｎをカテゴリ総数とした時、Ｎを語句ｗの出現カテゴリ数ＣＦ（ｗ）で割った値の対数値（式（２））を出現カテゴリ数要素Category（ｗ）とすれば、全カテゴリに出現する語句（出現カテゴリ数がＮである語句）では出現カテゴリ数要素が最小値０となり、図８に示すように、出現カテゴリが少なくなるほど大きな値をとる評価式が実現できる。

出現量要素算出部１４２は、作成時刻が新しい文書での語句の出現回数ほどカテゴリ関連度への影響を大きく、古い文書での出現回数ほど影響を小さく抑えることで、よりタイムリーな性格を持つ語句を高く評価する。

本実施の形態では、カテゴリ別時間傾斜出現量集計部１３３が集計するカテゴリ別時間傾斜出現量ＴＡ（Ｃ，ｗ）をそのまま出現量要素Appearance（Ｃ，ｗ）として扱うものとして説明する（式（３））。

寿命要素算出部１４３は、語句が出現している期間に基づき、長期間に渡って出現し続ける語句は新出語ではない、すなわち、タイムリー性が低いとみなし、短期間に出現する語句の影響を重視するような要素を出力する。しかしながら、極端に短い期間にのみ出現する語句は、偶然に出現したあまり重要ではない（カテゴリへの関連が薄い）語句である可能性も高いため、例えば（式（４））のＬｉｆｅ（Ｃ，ｗ）のように、全期間ＰをカテゴリＣでの語句ｗの出現期間Ｌ（Ｃ，ｗ）で割った値の対数値に出現期間Ｌ（Ｃ，ｗ）の対数値を掛けた値を寿命要素として用いるとよい。

出現文書数要素算出部１４４は、カテゴリ別出現文書数集計部１３５の出力を利用して、カテゴリ内における語句の出現文書数に基づく要素を出力する。出現文書数が多い語句ほどそのカテゴリに特徴的であり、例えば、カテゴリ別出現文書数ＤＦ（Ｃ，ｗ）をそのまま出現文書数要素Documents（Ｃ，ｗ）として用いる（式（５））。

ところで、例えば「経済」というカテゴリに分類できる文書の多くに出現する語句として「終値」「株価」「前日比」などがあり、これらは「経済」カテゴリに特徴的な語である。しかし、これらの語句は本発明のランキング装置が対象とするタイムリーな語句（新出特徴語）ではなく、「経済」カテゴリ内では常に出現しやすい一般的な語である。そこで、出現文書数要素Documents（Ｃ，ｗ）として、出現文書数があまりにも多い語句の評価を下げるように要因を含めてよい。この１例としては、カテゴリ内の全収集文書数Ｄ（Ｃ）を語句ｗの出現文書数ＤＦ（Ｃ，ｗ）で割った値の対数値に出現文書数のＤＦ（Ｃ，ｗ）の対数値を掛けた値（式（６））があげられる。この場合、図１０のように出現文書数ＤＦ（Ｃ，ｗ）が１の場合に出現文書数要素が０になり、出現文書数が大きな値をとった場合に出現文書数要素が小さくなる。

ステップ３０５）これを、全カテゴリの全語句について終了するまで繰り返す。

ステップ３０６）カテゴリ関連度算出部１４５は、出現カテゴリ数要素算出部１４１、出現量要素算出部１４２、寿命要素算出部１４３、出現文書数要素算出部１４４の各産出要素算出部の出力結果に乗じてカテゴリ関連度を算出し（式（７））、カテゴリ関連度によって語句をカテゴリ別にソートしたリストを関連度ランキングデータとして図１１のように出力する。「カテゴリ１」は、『政治』のカテゴリのランキング例であり、ランクの最上位には「小泉総裁」という語句とカテゴリ関連度Relation（“政治”、“小泉総裁”）＝１７．３６８が出力されている。

なお、上記の出現カテゴリ数集計部１３２、カテゴリ別時間傾斜出現量集計部１３３、出現期間集計部１３４、カテゴリ別出現文書数集計部１３５、ならびに、出現カテゴリ数要素算出部１４１、出現量要素算出部１４２、寿命要素算出部１４３、出現文書数要素算出部１４４は、本実施の形態で説明した以外にも、対象とするカテゴリの特性や収集文書の量などに応じて集計方法、ならびに算出方法を変えるのがよい。

なお、上記のカテゴリ別新出特徴語ランキング装置の各構成要素をプログラムとして構築し、ネットワークを介して流通させる、または、カテゴリ別新出特徴語ランキング装置として利用されるコンピュータにインストールし、ＣＰＵ等の制御手段により実行するようにしてもよい。

また、構築されたプログラムを、カテゴリ別新出特徴語ランキング装置として利用されるコンピュータに接続されるハードディスクや、フレキシブルディスク、ＣＤ−ＲＯＭ等のコンピュータ読み取り可能な記憶媒体に格納することも可能である。

なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。

本発明は、新着情報等の文書からタイムリー性があり、出来事を表す語句を抽出する技術に適用可能である。

本発明の原理を説明するための図である。本発明の原理構成図である。本発明の一実施の形態におけるカテゴリ別新出特徴語ランキング装置の構成図である。本発明の一実施の形態における収集文書データベースのデータ例である。本発明の一実施の形態におけるカテゴリ別新出特徴語ランキング方法の流れを表すフローチャートである。本発明の一実施の形態における文書作成時刻に基づく重みの例である。本発明の一実施の形態における語句出現期間の例である。本発明の一実施の形態における出現カテゴリ数要素の例である。本発明の一実施の形態における寿命要素を示す図である。本発明の一実施の形態における出現文書数要素を示す図である。本発明の一実施の形態におけるカテゴリ関連度ランキングデータベースの例である。

符号の説明

１１カテゴリ別新出特徴語ランキング装置
１２収集文書データベース
１３語句集計手段、語句集計部
１４カテゴリ関連度評価手段、カテゴリ関連度評価部
１５関連度ランキングデータベース
１３１形態素解析部
１３２出現カテゴリ数集計部
１３３カテゴリ別時間傾斜出現量集計部
１３４出現期間集計部
１３５カテゴリ別出現文書数集計部
１４１出現カテゴリ数要素算出部
１４２出現量要素算出部
１４３寿命要素算出部
１４４出現文書数要素算出部
１４５カテゴリ関連度算出部

Claims

カテゴリ別に新出の特徴語をランキングするためのカテゴリ別新出特徴語ランキング方法において、
語句集計手段が、複数のカテゴリに分類された作成時刻情報付きの文書がデータベースより入力されると、該文書を解析し、該文書内に出現する語句と、該語句がカテゴリ内の文書中に少なくとも１つ含まれているカテゴリの数である出現カテゴリ数と、文書中の該語句の出現回数に該文書の作成時刻が新しいほど大きな重みを掛けた数をカテゴリ内の全文書について加算した数であるカテゴリ別時間傾斜出現量と、カテゴリ内の各文書を作成時刻により一定期間毎に分類した各期間に属する文書のうち該語句が少なくとも１つ含まれている文書を含む期間の長さの和である出現期間と、各カテゴリ内で該語句が出現する文書数を表すカテゴリ別語句出現文書数と、を語句付随情報として集計する語句集計ステップと、
カテゴリ関連度評価手段が、語句の前記語句付随情報を利用し、前記出現カテゴリ数に基づいて決定される出現カテゴリ数要素と、前記カテゴリ別時間傾斜出現量に基づいて決定される出現量要素と、カテゴリ内の全文書の作成された期間の長さを前記出現期間で割った値の対数値に該出現期間の対数値をかけた値である寿命要素と、前記カテゴリ別語句出現文書数に基づいて決定される出現文書数要素と、を乗じて該語句が出現するカテゴリへの関連度を各語句について算出し、該関連度によって語句をカテゴリ別にソートしたリストを作成するカテゴリ関連度評価ステップと、からなるカテゴリ別新出特徴語ランキング方法。
カテゴリ別に新出の特徴語をランキングするためのカテゴリ別新出特徴語ランキング装置であって、
複数のカテゴリに分類された作成時刻情報付きの文書がデータベースより入力されると、該文書を解析し、該文書内に出現する語句と、該語句がカテゴリ内の文書中に少なくとも１つ含まれているカテゴリの数である出現カテゴリ数と、文書中の該語句の出現回数に該文書の作成時刻が新しいほど大きな重みを掛けた数をカテゴリ内の全文書について加算した数であるカテゴリ別時間傾斜出現量と、カテゴリ内の各文書を作成時刻により一定期間毎に分類した各期間に属する文書のうち該語句が少なくとも１つ含まれている文書を含む期間の長さの和である出現期間と、各カテゴリ内で該語句が出現する文書数を表すカテゴリ別語句出現文書数と、を語句付随情報として集計する語句集計手段と、
語句の前記語句付随情報を利用し、前記出現カテゴリ数に基づいて決定される出現カテゴリ数要素と、前記カテゴリ別時間傾斜出現量に基づいて決定される出現量要素と、カテゴリ内の全文書の作成された期間の長さを前記出現期間で割った値の対数値に該出現期間の対数値をかけた値である寿命要素と前記カテゴリ別語句出現文書数に基づいて決定される出現文書数要素と、を乗じて該語句が出現するカテゴリへの関連度を各語句について算出し、該関連度によって語句をカテゴリ別にソートしたリストを作成するカテゴリ関連度評価手段と、
を有するカテゴリ別新出特徴語ランキング装置。
請求項２記載のカテゴリ別新出特徴語ランキング装置を構成する各手段としてコンピュータを機能させるためのカテゴリ別新出特徴語ランキングプログラム。
請求項３記載のカテゴリ別新出特徴語ランキングプログラムを格納したことを特徴とするコンピュータ読み取り可能な記録媒体。