JP2007011651A

JP2007011651A - 文書処理装置

Info

Publication number: JP2007011651A
Application number: JP2005191105A
Authority: JP
Inventors: Noriya Furubayashi; 紀哉古林
Original assignee: Nomura Research Institute Ltd
Current assignee: Nomura Research Institute Ltd
Priority date: 2005-06-30
Filing date: 2005-06-30
Publication date: 2007-01-18
Anticipated expiration: 2025-06-30
Also published as: JP4504878B2

Abstract

【課題】世間の話題動向を分析する。
【解決手段】入力部１１２は、検索対象用語の入力を受け付ける。記事データ受信部１２２は、検索対象用語を含む文書データを外部装置から受信する。下位用語検出部１６０は、検索対象用語を含む文書データの集合において所定個数以上含まれ、かつ、検索対象用語とは異なる用語を解用語として検出する。記事データ受信部１２２は、下位用語を含む文書データを外部装置から受信する。等位用語検出部１６２は、下位用語を含む文書データの集合において所定個数以上含まれ、かつ、検索対象用語および下位用語とは異なる用語を検索対象用途の等位用語として検出する。
【選択図】図２

Description

この発明は、文書処理技術に関し、特には、特定の用語に対する関連用語を検索するための技術に関する。

近年、コンピュータの普及とネットワーク技術の進展に伴い、ネットワークを介した電子情報の交換が盛んになっている。そのような一例として、通称、ブログとよばれるウェブログ（Weblog）を挙げることができる。ユーザは、ウェブログサービスを提供するサイトで個人用のページを開設することにより、簡単に自己の意見を発信することができる。開設手続きの手軽さから、ウェブログ開設者の数は順調に増加しており、ウェブログは新たな情報発信手段として注目が集まっている。
特開２００３−１９６３０１号公報奥村学、南野朋之、藤木稔明、鈴木泰裕、「blogページの自動収集と監視に基づくテキストマイニング」、日本、人工知能学会、2004年７月２日、SIG-SWO-A401-01

ところで、世論調査やマーケティングなどにおける伝統的な情報収集方法として、アンケートという方法が一般的である。アンケートシステムが有効な情報収集システムとして機能するためには、当然ながらユーザの回答意欲を喚起する、または、ユーザに回答を強制する必要がある。ユーザのアンケートに回答しようという意欲が喚起されなければ、アンケートシステムは有効に機能しない。インターネットによって個人がつながる現代社会においては、企業は意見募集ホームページを開設してユーザの声を集め、マーケティングに活かそうとしている。しかし、これもいわば、ネットワークを介したアンケートであることには変わりがなく、紙ベースのアンケートと同様の課題を内包している。

本発明は、ウェブログのような「私的な」情報発信手段の特性と将来性に対する本発明者の着目に基づいて完成された発明であり、その主たる目的は、ネットワークを介して話題動向を効率的に分析するための技術を提供することにある。

本発明のある態様は、文書処理装置である。
この装置は、第１用語の入力を受け付け、第１用語を含む文書データの集合において頻出する第２用語を検出し、第２用語を含む文書データの集合において頻出する第３用語を検出し、第３用語を第１用語の関連用語として特定する。このような態様により、検索対象となる第１用語と話題関連性が高い第３用語を第２用語を介して発見することができる。

なお、以上の構成要素の任意の組合せ、本発明を方法、装置、システム、記録媒体、コンピュータプログラムにより表現したものもまた、本発明の態様として有効である。

本発明によれば、話題動向を効率的に分析するための技術を提供することができる。

本実施例においては、ウェブログサイトからさまざまな記事を収集し、世間の話題動向を分析する文書処理装置１００について説明する。

図１は、話題規模管理システムのハードウェア構成図である。
文書処理装置１００は、インターネット１２を介して接続されたウェブログサイト３００ａやウェブログサイト３００ｂなどの複数のサイト（以下、単に「ウェブログサイト３００」という）から、記事データを収集する。ウェブログサイトは既存のものでよい。ウェブログ開設者は、文書処理装置１００の存在を意識することなく、従来通り自己のウェブログサイトにさまざまな意見を記事として書き込み、インターネット１２上に発信できる。インターネット１２に接続されたコンピュータからは、こうして開設されたウェブログサイトの意見を閲覧したり、あるいは、記事に対するコメントを書き込むこともできる。
インターネット１２によって接続された文書処理装置１００およびウェブログサイト３００によって、本実施例における話題規模管理システム１０が構成される。

文書処理装置１００の主たる目的は、ウェブログのように個人がネットワーク上に発信する情報から世間の話題動向を把握することにある。文書処理装置１００は、特定の用語を含む記事データのデータ量に基づいて、その用語に関連した話題の動向を分析する。たとえば、「ドライブ」という用語が検索対象とされる場合においては、「ドライブ」という用語を含む記事データを収集し、そのような記事データのデータ量から「ドライブ」に関する話題の規模を分析する。更に、特定の用語に対して、話題としての関連性が高い用語を検出することもできる。その目的や原理については図４に関連して説明する。なお、ここでいう用語とは、単語であってもよいが、「昨日の夜」のように助詞を含んだ単語の組み合わせであってもよい。
以下、本実施例における文書処理装置１００について、その話題動向分析方法を中心として説明する。

図２は、文書処理装置の機能ブロック図である。
ここに示す各ブロックは、ハードウェア的には、コンピュータのＣＰＵをはじめとする素子や機械装置で実現でき、ソフトウェア的にはコンピュータプログラム等によって実現されるが、ここでは、それらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックはハードウェア、ソフトウェアの組合せによっていろいろなかたちで実現できることは、当業者には理解されるところである。
ここでは、主として各機能ブロックの発揮すべき機能について述べ、その具体的な作用については、図６等に関連して説明する。

文書処理装置１００は、ユーザインタフェース処理部１１０、通信処理部１２０、データ処理部１３０およびデータ記憶部１６４を含む。
ユーザインタフェース処理部１１０は、ユーザからの入力処理やユーザに対する情報表示のようなユーザインタフェース全般に関する処理を担当する。通信処理部１２０は、ウェブログサイト３００などインターネット１２を介した他のコンピュータとの通信処理を担当する。通信処理部１２０は、ウェブログサイト３００に電子掲載される記事データを収集する。
本実施例においては、ユーザインタフェース処理部１１０により文書処理装置１００のユーザインタフェースサービスが提供されるものとして説明する。別例として、ユーザはインターネット１２を介して文書処理装置１００を操作してもよい。この場合、通信処理部１２０は、ユーザ端末からの操作指示情報を受信し、またその操作指示に基づいて実行された処理結果情報をユーザ端末に送信することになる。

データ処理部１３０は、ユーザインタフェース処理部１１０を介した入力操作や通信処理部１２０から取得された記事データを元にして各種のデータ処理を実行する。データ処理部１３０は、ユーザインタフェース処理部１１０、通信処理部１２０およびデータ記憶部１６４の間のインタフェースの役割も果たす。
データ記憶部１６４は、予め用意された各種の設定データや、データ処理部１３０から受け取った記事データをはじめとするさまざまなデータを格納する。

ユーザインタフェース処理部１１０は、入力部１１２と表示部１１４を含む。入力部１１２は、ユーザからの入力操作を受け付ける。表示部１１４は、ユーザに対して各種情報を表示する。
通信処理部１２０は、記事データ受信部１２２を含む。記事データ受信部１２２は、ウェブログサイト３００から記事データを取得する。データ記憶部１６４は、収集対象とすべきウェブログサイトのＵＲＬ（Uniform Resource Locator）リストを予め保持している。記事データ受信部１２２は、電子掲示板やウェブログのリンクページからウェブログのＵＲＬを取得して、このＵＲＬリストを更新してもよい。記事データ受信部１２２は、ウェブログの更新通知サービスにより、記事内容の更新を検出し、更新対象となった記事データを適宜取得する。あるいは、記事データ受信部１２２は、定期的にこのＵＲＬリストに載っているウェブログサイト３００を巡回して、電子掲載されている記事データのうち新規の記事データを収集してもよい。

データ記憶部１６４は、記事データ保持部１６６、話題規模情報保持部１６８および構造情報保持部１４６を含む。
記事データ保持部１６６は、記事データ受信部１２２がウェブログサイト３００から受信した記事データを記憶する。本実施例における記事データ保持部１６６は、収集された記事データをすべて保持する。変形例として、記事データ保持部１６６は記事タイトルのような記事データの部分的な情報を保持し、その記事データの収集元となったウェブログサイト３００のＵＲＬと併せて保持してもよい。この場合、データ処理部１３０が通信処理部１２０にそのＵＲＬから元の記事データを取ってこさせることにより、一度収集された記事データを再取得することができる。
データ処理部１３０は、さまざまな用語に関連する話題の規模を話題規模値として指標化する。具体的には、ある用語を含む記事データの集合におけるデータ量が話題規模値として特定される。詳しくは後述する。話題規模情報保持部１６８は、このような話題規模値を示す情報としての話題規模情報を保持する。話題規模情報保持部１６８のデータ構造については、図５に関連して詳述する。以下、用語Ｘを含む記事データの話題規模値のことを「用語Ｘに関する話題規模値」ともよぶ。
また、各用語は木構造として構造化される。たとえば、「お酒」という用語に対して「日本酒」という用語は、下位用語の関係にあるとして、予め構造化されてもよい。構造情報保持部１４６は、このような構造化の内容を示す構造情報を保持している。構造情報については、図９に関連してより具体的に説明する。

データ処理部１３０は、統計部１４０および評価部１５０を含む。
評価部１５０は、記事データ受信部１２２によって受信された記事データの内容を分析し、さまざまな用語についての関連用語を検索する。統計部１４０は、各用語に関する話題規模値を算出する。

評価部１５０は、範囲特定部１５２、情報量計算部１５４、用語検出部１５８および構造情報生成部１５６を含む。
範囲特定部１５２は、記事データ受信部１２２がウェブログサイト３００から取得した記事データのうち、評価対象とすべきデータ範囲を特定する。記事データの中には、たとえば、画像や広告など、話題規模分析には不必要なデータが含まれることがある。範囲特定部１５２は、こうしたデータを排除して評価対象とすべき範囲を特定する。具体的な処理方法については図３に関連して説明する。以下、記事データのうち評価対象とされるべき範囲のデータのことを、「単位データ」とよぶ。

情報量計算部１５４は、その特定された単位データの情報量を計算する。たとえば、単位データに含まれる文字数がそのまま記事の情報量として特定されてもよい。そのほかにも、単位データの情報量は、たとえば、１０を底とし、文字数を真数とする対数値として算出されてもよい。本実施例においては、単位データの情報量は、文字数の平方根として算出される。たとえば、１２１文字の単位データであれば、その情報量は１１となる。いずれにせよ、単位データの情報量は、単位データの文字数を変数とする所定の単調増加関数によって算出されることが望ましい。

用語検出部１５８は、入力部１１２を介して入力された用語の関連用語を検出するための処理を実行する。構造情報生成部１５６は、用語検出部１５８により検出された関連用語に基づいて、構造情報保持部１４６の構造情報を更新する。
用語検出部１５８は、更に、下位用語検出部１６０と等位用語検出部１６２を含む。下位用語検出部１６０は、検索対象となる用語に対して下位の関係にある用語を下位用語として検出する。等位用語検出部１６２は、検索対象となる用語に対して等位の関係にある用語を等位用語として検出する。

統計部１４０は、話題規模値計算部１４２と相対値計算部１４４を含む。
話題規模値計算部１４２は、用語ごとの話題規模値を計算する。たとえば、用語１を含む記事データとして、情報量Ａ、情報量Ｂの記事データが受信されているときには、用語１に関する話題規模値は情報量Ａ＋情報量Ｂとして求められる。このようにして、話題規模値計算部１４２は各用語についての話題規模値を計算する。その用語を含む記事データが多いほど、話題規模値は大きくなる。また、記事データに含まれる情報量が多いほど、話題規模値が大きくなる。単なる記事数や単語数で話題規模値を算出するのではなく、記事の数と各記事の情報量を変数として話題規模値が算出されることになる。相対値計算部１４４は、各用語の話題規模値を比較してその相対値を計算する。以下、絶対値としての話題規模値と、相対値としての話題規模値を区別するときには、前者を「絶対話題規模値」、後者を「相対話題規模値」とよぶものとする。

図３は、ウェブログの一般的な表示フォーマットを示す図である。
ここでは、一般的なウェブログ表示フォーマット１７０を示している。記事データ受信部１２２は、このようなウェブログ表示フォーマット１７０に示される記事データを取得し、範囲特定部１５２がそのうち、評価対象とすべき範囲としての単位データを特定する。第１記事データ１８２は、このウェブログを開設しているユーザＡによって記事日付欄１７２に示される日時において投稿された記事データである。記事タイトル欄１７４は記事データのタイトルである。記事欄１７６は、記事データの内容である。第１記事データ１８２は、記事日付欄１７２、記事タイトル欄１７４および記事欄１７６を含んでいる。

第２記事データ１８４は、第１記事データ１８２の記事内容に対する別ユーザＢからの投稿されたコメントである。コメント欄１７８は、コメントの内容を示し、コメント日付欄１８０はその投稿日時を示す。第３記事データ１８６は、ユーザＡによって別の日時に投稿された記事データである。

このように、ウェブログ表示フォーマット１７０には複数の記事データが含まれている。範囲特定部１５２は、記事データに含まれる日付情報をキーとして単位データとすべき範囲を特定する。範囲特定部１５２は、ウェブログ表示フォーマット１７０に示される文書データから、記事日付欄１７２やコメント日付欄１８０のような日付書式を区切りとして、同図に示すウェブログ表示フォーマット１７０が、第１記事データ１８２、第２記事データ１８４および第３記事データ１８６の３つの記事データを含んでいることを認識する。そして、第１記事データ１８２については、記事タイトル欄１７４および記事欄１７６のデータを単位データとして特定する。第２記事データ１８４については、コメント欄１７８のデータが単位データとして特定される。

情報量計算部１５４は、単位データの文字数を計数する。たとえば、記事タイトル欄１７４に「花見は最高」、記事欄１７６に「今日、上野公園にグループで花見に行きました。」と記載されていた場合、情報量計算部１５４はこの２７文字の平方根、すなわち、５．１９をこの単位データの情報量として算出する。
別例として、情報量計算部１５４は、タイトルを記事内容に比べて高い評価対象としてもよい。たとえば、（タイトル文字数×所定数＋記事文字数）の平方根を単位データの情報量としてもよい。あるいは、記事欄１７６において、ボールド体のような特殊書体で対象用語が記載されている文章については、高い点数がつけられてもよい。情報量計算部１５４は、記事欄１７６のうち、文単位やパラグラフ単位で単位データを特定してもよい。このときには、情報量計算部１５４は、文単位、パラグラフ単位の単位データについて情報量を計算する。

なお、範囲特定部１５２は文書データに日付情報とタイトルその他、ウェブログであることを特定するための情報が含まれていないときには、その文書データを評価対象外とする。すなわち、インターネットショッピングサイトや、企業ホームページなど、所定のウェブログ表示フォーマットにマッチしない文書データは評価対象外としてもよい。あるいは、範囲特定部１５２は、日付情報を含む文書データであれば、評価対象として判定してもよい。本実施例においてはウェブログに限定して話題動向分析をするとして説明するが、変形例としては、ウェブログに限定することなく、文書分類処理を実行するとしてもよい。

図４は、関連用語検索の概念を示す模式図である。
本実施例における文書処理装置１００は、検索対象用語と関連性の高い用語を話題動向に基づいて検出する機能を有する。ここでは、「ドライブ」という用語を検索対象用語とする場合を例にとって、その目的と原理を説明する。
第１文書グループ１９０は、「ドライブ」という用語を含む記事データの集合である。第１文書グループ１９０の面積が、その話題規模値を示している。第２文書グループ１９２は、「ストレス」という用語を含む記事データの集合である。第１文書グループ１９０と第２文書グループ１９２が重なり合う部分、すなわち、第１文書グループ１９０と第２文書グループ１９２の積集合は、「ドライブ」および「ストレス」という用語を共に含む記事データの集合となる。いま、「ドライブ」という用語を検索対象用語として第１文書グループ１９０が特定されたとき、その中で最も頻出する用語が「ドライブ」以外では「ストレス」であったとする。このような情報から、一般的には「ドライブ」は「ストレス」解消のための有効な手法であると仮説を立ててみることにする。

次に、「ストレス」という用語を検索対象用語として第２文書グループ１９２が特定されたとき、その中で最も頻出する用語が「ストレス」以外では「ゲーム」であったとする。となれば、「ストレス」解消法として「ゲーム」もまた有力な手段であるという推測も可能である。すなわち、「ドライブ」と「ゲーム」は、共に、ストレスの解消方法という点については競合関係にある可能性がある。概念的には、「ドライブ」と「ゲーム」はそれほど近しい関係にある用語群であるとはいえないが、「ストレス」という共通の話題から、これらの一見関連性が小さい用語群が、案外、密な関係にあることが発見されることになる。
まとめると、第１用語「ドライブ」から、第２用語「ストレス」を特定し、更に、第３用語「ゲーム」を特定することにより、第１用語「ドライブ」と第３用語「ゲーム」の関連性を見つけることが可能となっている。本実施例における文書処理装置１００は、このような原理により、特定の用語から話題動向に基づく関連用語を検出する。

ここでは、第１文書グループ１９０において「ドライブ」の次に頻出する単語である「ストレス」を自動的に検索対象用語とすることにより、「ゲーム」を検出したが、第２用語は必ずしも第１文書グループ１９０において「ドライブ」の次に頻出する単語でなくてもよい。たとえば、第１用語「ドライブ」と第２用語「事故」により、「事故」に関して、第１用語「ドライブ」と関連する第３用語を見つけるという方法も可能である。

本実施例においては、第２用語のことを、便宜的に第１用語の「下位用語」とよぶ。また、第３用語のことを第１用語の「等位用語」とよぶ。
第１文書グループ１９０と、第３用語「ゲーム」に関連する記事データの集合である第３文書グループ１９４を比較することにより、等位用語同士についての話題規模を比較できる。また、第１文書グループ１９０と第２文書グループ１９２の積集合と、第２文書グループ１９２および第３文書グループ１９４の積集合の大きさを比較することにより、第２用語に関する第１用語と第３用語の関連性の大小についても解析することができる。このように、本実施例における文書処理装置１００は、用語をキーとして話題動向を分析した上で、話題動向に基づく用語間の関連性発見を支援する。

図５は、話題規模情報保持部のデータ構造図である。
ここでは、用語「飲み物」の下位用語が「酒」、「水」、「茶」、「ジュース」等であるとして説明する。また、このうち「酒」の下位用語が、「ビール」、「ワイン」、「ウィスキー」、「ブランデー」、「焼酎」、「日本酒」等として説明する。図４に関連して説明した内容は、この話題規模情報を構築する上で下位用語や等位用語を発見するという処理に関するものである。図５では、用語間の関係が一応定められたいるという前提で説明する。それぞれの処理の関係については、図６以降であきらかとなる。

用語欄２００は、用語とその上下関係を示す。絶対規模欄２０２は、各用語に対する絶対話題規模値を示す。また、相対規模欄２０４は、各用語間における相対話題規模値を示す。同図は、話題規模情報のうち、用語「飲み物」についての話題規模情報を示している。また、同図に示すのは、所定の日時における話題規模情報であり、話題規模情報保持部１６８は各日時についての話題規模情報の集合体として、所定期間の話題規模情報を保持している。

各話題規模値は、用語を含む単位データの情報量の加算値として計算される。同図においては、用語「飲み物」、「酒」、「ビール」のすべてを含む（以下、このようなとき「飲み物＋酒＋ビール」と表記する）単位データが４件投稿されている。これらの単位データのうち、１件目は１００文字、２件目も１００文字、３件目も１００文字、４件目も１００文字であったとする。となれば、１件目から４件目の各単位データの情報量は、１００の平方根である１０となる。話題規模値計算部１４２は、１０＋１０＋１０＋１０＝４０により、「飲み物＋酒＋ビール」に関する話題規模値を４０として算出している。なお、絶対規模欄２０２においては、各カテゴリの総記事データ数、総文字数が示されている。

一方、用語「飲み物＋酒＋ワイン」についての単位データは３件投稿されている。このとき、１件目から３件目の単位データの文字数は、それぞれ、１０文字、３０文字、６４０文字であったとする。この場合、同様の計算により、それぞれの情報量は、３．１６、５．４８、２５．３となる。話題規模値計算部１４２は「飲み物＋酒＋ワイン」に関する話題規模値をそれらの総和である３３．９４、すなわち、約３４として算出している。また、話題規模値計算部１４２は、「飲み物＋酒」に関する話題規模値を、同様の方法により「３６３」として算出する。「飲み物」に関する話題規模値も同様の方法によって、「３０２５」として算出されている。全体としての話題規模値も同様の方法によって「４５９８７」として算出されている。
このようにして、各用語を含む単位データから話題規模値を算出することによって、インターネット上においてホットな話題とそうでない話題を絶対話題規模値として定量化している。

ただし、以上は説明を簡単にするために状況を理想化している。たとえば、「飲み物＋酒＋ビール＋ワイン」についての単位データも存在しうる。このような単位データが存在するときには、その単位データ中における「ビール」と「ワイン」の出現頻度に応じて、単位データの情報量を按分してもよい。たとえば、「飲み物＋酒＋ビール＋ワイン」を含む単位データにおいて、「ビール」の出現回数が１５回、「ワイン」の出現回数が１０回であって、この単位データの情報量が「１００」であったとする。このようなときには、「酒＋飲み物＋ビール」についての単位データとして、１００×１５／（１５＋１０）＝６０の情報量が配分される。一方、「酒＋飲み物＋ワイン」についての単位データとして残り４０の情報量が割り当てられる。このような処理によって、各用語に対する話題規模値を好適に配分できる。

同図においては、「飲み物」→「酒」→「ビール」のように用語間の関係が階層化されているとして話題規模情報を説明したが、この上下関係は必ずしも一意に規定されることはない。たとえば、「ビール」を含むが、「飲み物」や「酒」を含まない記事データも存在しうる。あるいは、「ビール」の下位用語が「酒」であってもよい。同図に示すような話題規模情報の構造は必ずしも固定化される必要はなく、ユーザの検索目的に応じてその構造は柔軟に変更されてもよい。たとえば、「飲み物」を調べているときに、「酒」や「ビール」などの用語が頻出すると、今度は「ビール」を検索対象用語として、その関連語検索を実行してもよい。無論、構造情報として、用語間の上下関係が予め構造化されてもよい。

同図においては、「ビール」や「ワイン」が最終的な分類単位となっているが、これに限られないことはいうまでもない。たとえば、「ワイン」であれば、更にその銘柄ごとに話題規模値を調べてもよい。あるいは、ワイン銘柄を、「国産ワイン」や「イタリアワイン」、「ドイツワイン」のように類型化することにより、記事データには直接含まれている用語から直接的には含まれていない上位概念語についての話題規模値を算出してもよい。

相対値計算部１４４は、相対話題規模値を計算する。たとえば、文書処理装置１００が収集したすべての記事データについての話題規模値は「４５９８７」であり、そのうち、用語「飲み物」に対する話題規模値は「３０２５」である。３０２５÷４５９８７＝０．０６５８より、ウェブログにおける話題のうちの約６．５８パーセントが、飲み物に関する話題であると算定される。相対値計算部１４４は、このように、パーセンテージ表現として、相対話題規模値を計算する。

「飲み物＋酒」に関する話題規模値は「３６３」であるから、３６３÷４５９８７＝０．７９（パーセント）により、ウェブログにおける話題のうちの約０．７９パーセントが、「飲み物＋酒」に関する話題であると算定される。更に、「飲み物＋酒＋ビール」というように絞り込まれた話題規模値についてもウェブログにおけるすべての話題に対する相対話題規模値が計算される。

用語「飲み物」に対する話題規模値「３０２５」に対して、そのうち「酒」を含む関連記事データの話題規模値は「３６３」であるから、３６３÷３０２５＝１２．０（パーセント）より、飲み物に関する話題のうちの約１２パーセントが酒に関する話題であると算定される。
「飲み物＋酒」の話題規模値に対する「飲み物＋酒＋ビール」等の話題規模値についても、同様に相対話題規模値が計算される。「飲み物＋酒」に対する話題規模値「３６３」に対して、そのうち「ビール」を含む関連記事データの話題規模値は「４０」であるから、４０÷３６３＝１１（パーセント）より、「飲み物＋酒」に関する話題のうちの約１１パーセントがビールに関する話題であると算定される。
このようにして、さまざまな用語間について相対話題規模値が計算される。

図６は、関連用語検索の処理過程を示すフローチャートである。
図５に関連して説明したように、検索対象用語を絞っていきながら、それらの用語の話題規模値を算出することができる。また、図４に関連して説明したように、検索対象用語に対し、話題動向からみて関連性が高い用語を検出することも、文書処理装置１００の重要な機能である。図６においては、第１用語「酒」という検索対象用語に対して、等位関係にある第３用語を見つけるための処理を実行しつつ、第１用語「酒」やそれらに関連する第２用語や第３用語の話題規模を算出し、図５に示したような話題規模情報も生成するという一連の処理過程を示す。

まず、入力部１１２はユーザから第１用語としての検索対象用語の入力を受け付ける（Ｓ１０）。ここでは、「酒」という用語が検索対象用語として入力されている。次に、この用語「酒」に対する話題規模値が計算される（Ｓ１４）。詳しい処理内容については図７に関連して詳述する。第１用語「酒」を含む記事データの集合が、図４でいえば第１文書グループ１９０に相当する。下位用語検出部１６０は、第１用語「酒」を含む記事データを単語分解して、その頻出用語を抽出する。たとえば、第１用語「酒」を含む記事が４０あって、そのうちの１０の記事において用語「日本酒」が含まれているときには、用語「日本酒」の出現回数が１０として記録される。すなわち、用語「日本酒」は、検索対象用語「酒」の下位用語のうちの一つである。このようにして、第１用語「酒」を含む記事データ群における頻出用語について、それぞれの出現回数が記録される。ここでは、「日本酒」、「ビール」、「ワイン」、「ウィスキー」、「ブランデー」等の用語がそれぞれ数回出現したとする。これらの各用語は、第１用語「酒」の下位用語としてリストアップされる（Ｓ１６）。このなかでも、「日本酒」がもっとも頻出する単語であったとする。
なお、ここでは、「日本酒」は「酒」の下位用語であるとされているが、第１用語が「日本酒」である場合、「日本酒」の下位用語として「酒」が検出されるかもしれない。同様に、第１用語としての「ワイン」の下位用語が「酒」となる可能性もある。すなわち、Ｓ１６において特定される用語間の上下関係は、あくまでも第１用語「酒」を中心として決定される上下関係である。

次に、これらの各下位用語についての話題規模値が計算される（Ｓ１８）。詳しい処理内容については図８に関連して詳述する。ここでは、第１用語「酒」を含む記事データの集合のうち、「日本酒」や「ビール」などの各下位用語を含む記事データの部分集合について話題規模値が計算される。これにより、第１用語「酒」を含む記事データの話題規模と、そのうち「日本酒」に関する記事データの話題規模の割合、「ビール」に関する記事データの話題規模の割合などを特定できる。すなわち、「酒」という話題のうち、「日本酒」や「ビール」等の話題の割合が定量化され、第１用語「酒」とその下位用語に関する話題規模情報が生成される。下位用語検出部１６０は、第１用語「酒」を含む記事データの集合において「酒」以外で最も頻出する下位用語である「日本酒」を新たな検索対象用語として選択する（Ｓ２０）。なお、ユーザは、Ｓ１６においてリストアップされた下位用語の中から検索対象用語を選択してもよい。

こうして選択された下位用語「日本酒」が新たな検索対象用語として話題規模値が計算される（Ｓ２２）。この処理内容はＳ１４と同等であるため、詳しい処理内容については図７に関連して詳述する。下位用語「日本酒」を含む記事データの集合が、図４でいえば第２文書グループ１９２に相当する。ここでは、Ｓ１８と異なり、「酒」を含む記事データ集合における「日本酒」を含む記事データの部分集合ではなく、単に「日本酒」を含む記事データの集合について話題規模値が計算される。すなわち、Ｓ２２においては、「日本酒」が新たな検索対象用語として、Ｓ１４と同様に話題規模値が計算されている。等位用語検出部１６２は、この用語「日本酒」を含む記事データを単語分解して、その頻出用語を抽出する。ここでは、「茶」、「酒」、「水」等の用語がそれぞれ数回出現したとする。これらの各用語は、用語「日本酒」の下位用語といえるが、もともとの検索対象であった第１用語「酒」の等位用語としてリストアップされる（Ｓ２４）。

今度は、これら各等位用語についての話題規模値が計算される（Ｓ２６）。その処理内容はＳ１８と同等であるため、詳しい処理内容については図８に関連して詳述する。ここでも、部分集合ではなく、各等位用語を検索対象として話題規模値が計算されている。計算結果は、話題規模情報として反映される。表示部１１４は、計算結果を画面に表示させる（Ｓ２８）。表示態様については、図１０以降に示す。
まとめておくと、まず、Ｓ１４において第１用語「酒」の話題規模値が計算される。Ｓ１８においては、第１用語「酒」を含む記事データの集合のうちの部分集合として、各下位用語の話題規模値が計算される。Ｓ２２では、下位用語のうちもっとも頻出した第２用語「日本酒」についての話題規模値が計算される。Ｓ２６においては、第１用語「酒」の下位用語「日本酒」を介した話題関連性の高い各等位用語について話題規模値が計算されている。こうして、第１用語とその下位の話題規模の相対関係、最頻出下位用語の話題規模、等位用語の話題規模が特定される。

図７は、図６のＳ１４およびＳ２２の処理を詳細に示すフローチャートである。
まず、記事データ受信部１２２はウェブログサイト３００から記事データを受信する（Ｓ３０）。範囲特定部１５２は、取得された記事データのうち評価対象となるべき範囲である単位データを特定する（Ｓ３２）。用語検出部１５８は、この単位データ中において、Ｓ１０やＳ２０にて指定された検索対象用語が含まれているかを判定する（Ｓ３４）。含まれていなければ（Ｓ３４のＮ）、処理はＳ３０に戻り次の記事データが取得される。含まれていれば（Ｓ３４のＹ）、情報量計算部１５４は、単位データの情報量を計算する（Ｓ３５）。なお、Ｓ１４の場合は、検索対象用語とは、図６に関連して説明した第１用語「酒」が相当し、Ｓ２２の場合は、検索対象用語とは、図６に関連して説明した下位用語「日本酒」が相当する。収集対象となるすべての記事データについて以上の処理が完了していなければ（Ｓ３６のＮ）、話題規模値計算部１４２は、単位データの情報量から検索対象用語に対する絶対話題規模値を再計算する（Ｓ３８）。こうして、話題規模情報保持部１６８の話題規模情報が更新される。すべての記事データについて処理済みであれば（Ｓ３６のＹ）、Ｓ１４またはＳ２２の処理は終了する。

なお、ここでは、記事データがウェブログデータであることを前提として説明した。Ｓ３２において範囲特定部１５２は受信した記事データが所定の表示フォーマットに合わない場合には、評価対象外として以降の処理を実行させないとしてもよい。
また、ユーザは日付範囲を指定して、その期間に投稿されている記事データを調査対象としてもよい。この場合には、範囲特定部１５２は、受信した記事データの日付情報を参照して、評価対象外であれば以降の処理を実行させないとしてもよい。
Ｓ３２において示したように、文書処理装置１００は、図６に示す関連用語検索処理実行時においてウェブログサイト３００から適宜記事データを取得しつつ関連用語の検索や、話題規模値の計算処理をランタイムに実行してもよいが、このような方法に限る必要はない。別例としては、文書処理装置１００は、定期的にウェブログサイト３００から記事データを収集して、単位データの特定および情報量計算を行った後で、記事データ保持部１６６に単位データを保持してもよい。そして、関連用語検索処理実行時において、データ処理部１３０は、記事データ保持部１６６のデータを処理対象として関連用語検索処理を実行してもよい。

図８は、図６のＳ１８およびＳ２６の処理を詳細に示すフローチャートである。
用語検出部１５８は、下位用語のリストや等位用語のリストの中から検索対象用語を選択する（Ｓ４０）。こうして、選択された検索対象用語に基づいて、図７に示した話題規模値算出処理が実行される（Ｓ１４）。リストアップされていた各用語のすべてについて、話題規模値の算出処理が終了していなければ（Ｓ４２のＮ）、Ｓ４０に戻って次の検索対象用語が選択される。全ての検索対象用語について以上の処理が終了すると（Ｓ４２のＹ）、Ｓ１８またはＳ２６の処理は終了する。

図９は、用語間の上下関係を示す模式図である。
以上の説明において明らかなように、用語間の上下関係、すなわち、用語構造はユーザが指定する検索対象用語をもとにして動的、かつ、便宜的に規定されることになる。一方、予め用語間の上下関係を定めた構造情報が用意されてもよい。話題動向に基づく関連用語の発見というよりは全般的な話題動向を俯瞰するというニーズに対して、所定の構造情報に基づく絶対話題規模値や相対話題規模値の算出は有効な方法である。図６のＳ１６の場合、下位用語検出部１６０は、構造情報に基づいて下位用語を検出してもよい。また、構造情報において、ある用語Ａと別の用語Ｂが同じ上位用語を持つ場合、用語Ａと用語Ｂは等位関係にあるといえる。等位用語検出部１６２は、構造情報を用いて等位用語を検出してもよい。

ただし、日常のあらゆる用語について上下関係を構造化するというのは現実的な解ではない。そこで、本実施例においては、いくつかの関連性の高い用語群について、用語構造２１０、用語構造２１２および用語構造２１４に示すようにいくつかの構造情報があたえられている。同図において丸印で示されているのが用語に対応し、木構造としてその上下関係が定められている。例として、用語構造２１０の一部として構造化されている用語２１６は、構造情報において用語２２２と用語２２４が下位用語として予め定義されている。また、用語２１６を検索対象用語として下位用語を検索したときに、用語２２０や用語２１８が検出されたとする。このような場合には、構造情報生成部１５６は用語２１６の下位用語として用語２１８と用語２２０を新たに構造情報の一部とする。更に、用語２１８が用語構造２１２に含まれる用語であれば、用語構造２１０と用語構造２１２は連結されてもよい。
このような態様によれば、検索過程においてベースとなる構造情報を適宜更新することができる。そのため、話題動向に基づく関連用語の発見という目的と、構造情報に基づく既定の用語について話題動向を俯瞰するという目的を同時に達成できる。

図１０は、話題規模情報を数値表示する画面図である。
ユーザは、入力部１１２を介して話題規模情報を画面表示するように指示する。表示部１１４は、このような指示に応じて、話題規模情報保持部１６８に保持される話題規模情報を画面に表示させる。同図においては、４月１日から４月７日までの７日間についての記事が表示対象として指定されている。

図１０（ａ）は、「飲み物」に対する話題規模情報を数値表示する画面図である。
ここでは、「飲み物＋各下位用語」の話題規模値が表示されている。表示部１１４は、データ処理部１３０を介して話題規模情報保持部１６８の話題規模情報のうち「飲み物」についての話題規模情報を表示させる。このときには、すべての話題規模値と「飲み物」の話題規模値、「飲み物＋各下位用語」の話題規模値間の相対話題規模値が表示される。話題規模値は大きい順に表示順序がソートされる。ユーザは、このような画面で、更に詳しく調べたい用語を選択できる。同図においては用語「酒」が選択されたとする。

図１０（ｂ）は、「飲み物＋酒」についての話題規模情報を数値表示する画面図である。
図１０（ａ）において「酒」が選択されたときに図１０（ｂ）に示す画面が表示される。表示部１１４は、データ処理部１３０を介して話題規模情報保持部１６８の話題規模情報のうち「飲み物＋酒」についての話題規模情報を表示させる。このときには、すべての話題規模値と「飲み物」の話題規模値、「飲み物＋酒」の話題規模値、「飲み物＋酒＋各下位用語」の話題規模値間の相対話題規模値が表示される。図１０（ｂ）においても、話題規模値が大きい順に表示順序がソートされる。ユーザは、このような画面で更に詳しく見たい用語を選択できる。同図においては「ブランデー」が選択されている。

図１０（ｃ）は、選択された用語における記事の抄録を表示する画面図である。
図１０（ｂ）において「ブランデー」が選択されたときに図１０（ｃ）に示す画面が表示される。このときには、ユーザは「ブランデー」の選択とともにその抄録を表示させる旨を入力する。表示部１１４は、「飲み物＋酒＋ブランデー」を含む記事データを記事データ保持部１６６から読み出して一覧表示させる。表示部１１４は、記事データの全部を表示させてもよいが、その一部を表示させてもよい。同図に示す画面においてユーザが記事データを選択すると、その選択された記事の内容が全体表示される。

なお、ユーザは、図１０（ａ）、図１０（ｂ）に示した態様を棒グラフや円グラフのようなグラフ形式にて表示させることもできる。この場合、表示部１１４は、指示されたグラフ形式にて話題規模値を表示させる。次に、円グラフ表示させるときの画面図を示す。

図１１は、話題規模情報を円グラフ表示する画面図である。
ユーザは、入力部１１２を介して話題規模情報を円グラフとして画面表示するように指示する。表示部１１４は、このような指示に応じて、指定された期間についての話題規模情報を円グラフとして画面表示させる。

図１１（ａ）は、「飲み物」についての話題規模情報を円グラフ表示する画面図である。
円グラフ表示を指示されると、表示部１１４は、まず、「飲み物＋各下位用語」についての話題規模値を円グラフとして画面表示させる。同図に示す円グラフは、図１０に関連して説明したデータを円グラフ表示させたものである。表示部１１４は、「飲み物＋酒」等の話題規模情報を表示させる。ユーザは、このような画面で、より詳しく見たい用語を選択できる。同図においては、「飲み物＋酒」に対応する領域がマウスクリックにより選択されたとする。なお、相対話題規模値が小さいカテゴリは、表示上は「その他」としてまとめられている。ユーザが「その他」の領域をクリックすると、表示部１１４はその詳細を画面表示させてもよい。

図１１（ｂ）は、「飲み物＋酒」についての話題規模情報を円グラフ表示する画面図である。
図１１（ａ）において「飲み物＋酒」が選択されたときに図１１（ｂ）に示す画面が表示される。表示部１１４は、「飲み物＋酒＋各下位用語」の話題規模情報を円グラフ形式にて表示させる。ユーザは、このような画面で、更に詳しく見たいカテゴリを選択できる。

図１２は、話題規模値の時間推移を示す画面図である。
ユーザは、入力部１１２を介して話題規模情報の推移を画面表示するように指示する。表示部１１４は、このような指示に応じて、話題規模情報の推移をグラフ表示させる。話題規模情報保持部１６８は、図５に示したような話題規模情報を１日単位で管理している。表示部１１４は、ユーザにより指定された期間における話題規模情報の推移を画面に表示させる。同図においては、１月１日から４月７日までの約３ヶ月間における「酒」に関する話題の推移が示されている。

図１２（ａ）は、「酒」に対する絶対話題規模値の推移を示す画面図である。
ユーザが、同図に示すような「酒」について、話題規模値の推移を表示させるように指示すると、表示部１１４は同図に示すような話題規模値の推移を示すグラフを表示させる。同図によれば、選択された期間において「酒」の話題規模が順調に増加していることがわかる。

図１２（ｂ）は、「酒」に関する各下位用語の相対話題規模値の推移を示す画面図である。
ユーザは、「酒」に関する各下位用語についての相対話題規模値の推移を画面表示させるように入力部１１２を介して指示する。表示部１１４は、図５の相対規模欄２０４に示したような相対話題規模値に関する情報を参照してその推移を画面表示させる。同図によれば、「酒＋ビール」に関する話題規模が「酒」の話題規模に対して相対的に低下していることがわかる。その一方で、「酒＋ワイン」に関する話題規模が相対的に拡大しつつある。

図１２（ａ）および図１２（ｂ）のグラフによれば、「酒」についての話題規模は拡大しているものの、「ビール」についての話題規模はむしろ減少傾向にあることがわかる。その一方で、「ワイン」の話題規模は相対的にも絶対的にも拡大傾向にあることがわかる。

そこで、このような情報のマーケティングへの応用が考えられる。たとえば、発売前、あるいは、発売中のビール銘柄について世間の話題規模推移を分析することにより、ユーザのビール銘柄に対する嗜好・新発売ビール銘柄に対する反応などを把握しやすくなる。たとえば、あるビール銘柄についてテレビコマーシャルを集中的に流したときに話題規模が拡大しているかによって広告の費用対効果を評価することができる。

図１２（ａ）のグラフ上において、所定のポイントが選択されると、その日時における話題規模値の詳細が、図１０や図１１にて説明した画面として表示されてもよい。また、図１２（ｂ）の画面において、ユーザの指示により各下位用語の絶対話題規模値の推移に表示内容を変更してもよい。また、「酒＋ビール」や「酒＋ワイン」の比較ではなく、「ビール」と「ワイン」の比較がなされてもよい。表示部１１４は、こういった推移を示すグラフの移動平均をとることによって、曜日による話題規模の増減や、一過性の話題規模の増減を平滑化して、推移グラフを表示してもよい。

以上、本実施例における文書処理装置１００によれば、ウェブログサイト３００などの個人メディアから情報を収集して世間の話題動向を分析できる。

インターネットを介したアンケートによって個人の意見を収集しようとする場合、まず、ユーザをそのアンケートの存在に気づかせる必要がある。このためには、ユーザをそのアンケートホームページに引きつけるための工夫が必要である。また、アンケート回答意欲を喚起するためには懸賞をつけるといった工夫がされていたが、このような方法はコストがかかるのも事実である。更に、アンケートに答えるときに個人情報を送信する必要がある場合が多く、ユーザ側にも心理的抵抗感が生じやすいため、これがアンケート回答意欲の阻害要因となっている。

特定の時事問題についての世論調査を行う仕組みを設けているニュースサイトもあるが、やはり同様の問題を抱えている。また、アンケートは、質問事項に対する回答としてデータを収集するので、いいかえれば、その質問事項から外れた付随的な情報を収集しにくいというデメリットもある。更には、アンケートに対しておもしろ半分の回答がなされる場合もあり、このようないわばノイズ情報がアンケートの信頼性を悪化させる可能性がある。

個人の意見を収集するシステムとしては、そのほかにも視聴率調査やサイトのアクセス数調査といった方法が挙げられる。このような調査方法は、ユーザの心理的抵抗感や手間といった問題は、アンケートに比べて軽減されるといえるが、得られる情報は極めて限定的である。

これに対して、本実施例の文書処理装置１００は、個人の意見が表明されているウェブログデータを収集することにより、世間の話題動向を分析する。そのメリットとしては、主なものだけでも以下のものを挙げることができる。１．調査対象者の回答意欲を喚起するための工夫が事実上不要となる。２．ウェブログ開設者などの調査対象者にとってはアンケートなどの調査に協力しているという感覚すら持たなくて済む。３．質問項目によってユーザの意見を型にはめなくて済むため、多様な話題動向を収集できる。４．文書処理装置１００は、既存のウェブログサイトにアクセスするだけなので、既存のシステムとの親和性が高い。５．膨大なインターネット上の情報を情報源とするため、統計的に安定すると考えられる。６．話題の推移という時系列データを簡易に収集できる。７．話題の絶対規模、相対規模という有用性が高く曖昧な情報を定量化できる。８．話題動向からみた用語間の関連性を検出できる。

マーケティングなどにおいては、製品嗜好、市場反応を正確にキャッチすることが重要である。本実施例の文書処理装置１００は、広告の費用対効果や新しいマーケットの発見など多様な分析に応用可能である。たとえば、マスコミ関係者であれば、人々がどのようなニュースに興味を持ち、どのような情報を求めているのかを探った上で、提供すべき情報の量配分を考える必要がある。たとえば、大きなニュースであっても、世間に飽きられてくれば、別のニュースを積極的に提供すべきである。その反対に、時間が経っても世間が興味を持っているニュースであれば、積極的に提供すべきである。また、あるニュースと関連して、どのような情報が話題となっているのか、求められているのかを話題動向に基づく関連情報検索によって検出できるため、潜在的な情報ニーズを発見する上で効果的なツールとなる。
製造業関係者であれば、発売した製品がどの程度話題になっているか、話題規模がどのように推移しているかによって、生産計画に反映するという手法も考えられる。また、図４に関連して説明したように、製品名などを検索対象用語として、その製品がどのような製品、あるいは、どのようなモノと話題関連性が高いのかを発見することもできる。概念的に固定された用語構造ではなく、話題動向からみた用語間の関連性を検出することは業務企画において、潜在的な競合、潜在的な市場を発見する上でも効果的なツールとなる。
このように、本実施例に示した文書処理装置１００はサービスの提供者と受け手とを緊密化させる上で効果的である

一方、続々とウェブログが開設される現在、開設したウェブログが実際に他人に見てもらえる保証はない。実際、多くのウェブログがインターネットに接続されているだけの「独り言」サイトにすぎない。文書処理装置１００は、こういったウェブログの意見も自動的に収集して解析する。そのため、ウェブログ開設者にとっても、自分の意見が社会に反映されやすいというメリットがある。このように文書処理装置１００は個人の情報発信意欲を喚起する効果がある。
文書処理装置１００は、個人が積極的に自己の意見を発信するような活性化された社会を実現するのに資するといえる。

なお、文書処理装置１００はマーケティングや世論調査などに有効であることはもちろんであるが、一般のユーザにとっても、世間の話題動向を知る上で有効である。また、本実施例においてはウェブログを情報源として説明したが、文書処理装置１００が収集する文書データは、インターネット上のニュースサイトなどさまざまなものが考えられる。
また、文書処理装置１００は、特定の用語を無意味に連呼するようなデータ解析の信頼性を損なう記事データを調査対象外とすることにより、調査の正確性を期してもよい。

以上、実施の形態をもとに本発明を説明した。なお本発明はこの実施の形態に限定されることなく、そのさまざまな変形例もまた、本発明の態様として有効である。

請求項に記載の第１用語入力部および用語選択部の機能は、本実施例においては、主として入力部１１２により実現される。請求項に記載の第１文書データ受信部、第２文書データ受信部および第３文書データ受信部の機能は、本実施例においては主として記事データ受信部１２２により実現される。請求項に記載の第２用語検出部の機能は、本実施例においては主として下位用語検出部１６０により実現される。請求項に記載の第３用語検出部および関連用語特定部の機能は、主として等位用語検出部１６２により実現される。請求項に記載の推移表示部および規模値表示部の各機能は、本実施例においては主として表示部１１４により実現される。
請求項に記載の各構成要件が果たすべき機能は、本実施例において示された各機能ブロックの単体もしくはそれらの連係によって実現されることも当業者には理解されるところである。

話題規模管理システムのハードウェア構成図である。文書処理装置の機能ブロック図である。ウェブログの一般的な表示フォーマットを示す図である。関連用語検索の概念を示す模式図である。話題規模情報保持部のデータ構造図である。関連用語検索の処理過程を示すフローチャートである。図６のＳ１４およびＳ２２の処理を詳細に示すフローチャートである。図６のＳ１８およびＳ２６の処理を詳細に示すフローチャートである。用語間の上下関係を示す模式図である。話題規模情報を数値表示する画面図である。図１０（ａ）は、「飲み物」に対する話題規模情報を数値表示する画面図である。図１０（ｂ）は、「飲み物＋酒」についての話題規模情報を数値表示する画面図である。図１０（ｃ）は、選択された用語における記事の抄録を表示する画面図である。話題規模情報を円グラフ表示する画面図である。図１１（ａ）は、「飲み物」についての話題規模情報を円グラフ表示する画面図である。図１１（ｂ）は、「飲み物＋酒」についての話題規模情報を円グラフ表示する画面図である。話題規模値の時間推移を示す画面図である。図１２（ａ）は、「酒」に対する絶対話題規模値の推移を示す画面図である。図１２（ｂ）は、「酒」に関する各下位用語の相対話題規模値の推移を示す画面図である。

符号の説明

１０話題規模管理システム、１２インターネット、１００文書処理装置、１１０ユーザインタフェース処理部、１１２入力部、１１４表示部、１２０通信処理部、１２２記事データ受信部、１３０データ処理部、１４０統計部、１４２話題規模値計算部、１４４相対値計算部、１４６構造情報保持部、１５０評価部、１５２範囲特定部、１５４情報量計算部、１５６構造情報生成部、１５８用語検出部、１６０下位用語検出部、１６２等位用語検出部、１６４データ記憶部、１６６記事データ保持部、１６８話題規模情報保持部、３００ウェブログサイト。

Claims

関連用語検索の対象となるべき第１用語の入力を受け付ける第１用語入力部と、
前記第１用語を含む文書データを外部装置から受信する第１文書データ受信部と、
前記第１用語を含む文書データの集合である第１文書グループにおいて所定個数以上含まれ、かつ、前記第１用語とは異なる用語を第２用語として検出する第２用語検出部と、
前記第２用語を含む文書データを外部装置から受信する第２文書データ受信部と、
前記第２用語を含む文書データの集合である第２文書グループにおいて所定個数以上含まれ、かつ、前記第１用語および前記第２用語とは異なる用語を第３用語として検出する第３用語検出部と、
前記第３用語を前記第１用語の関連用語として特定する関連用語特定部と、
を備えることを特徴とする文書処理装置。
前記第３用語検出部は、前記第１文書グループにおいて、前記第１用語以外で最も多くの文書データに含まれている用語としての第２用語に対して第３用語を検出することを特徴とする請求項１に記載の文書処理装置。
所定の用語グループについて各用語の上下関係を定めた構造情報を保持する構造情報保持部を更に備え、
前記第２用語検出部は、前記第１用語が前記構造情報に含まれるときであって、前記第１用語に対して下位の関係にある下位用語が前記構造情報に定義されているときには、前記下位用語を第２用語として検出することを特徴とする請求項１または２に記載の文書処理装置。
前記第１文書グループから前記第２用語が検出されたときには、前記第２用語を前記第１用語に対して下位の関係にある下位用語として設定することにより、用語の上下関係を示す構造情報を生成する構造情報生成部を更に備えることを特徴とする請求項１から３のいずれかに記載の文書処理装置。
文書データの情報量を算出する情報量計算部と、
各文書グループにおける文書データの情報量から、文書グループごとの累積情報量を話題規模値として算出する話題規模値計算部と、
を備えることを特徴とする請求項１から４のいずれかに記載の文書処理装置。
前記情報量計算部は、文書データに含まれる文字数を変数とする所定の単調増加関数によって前記文書データについての情報量を算出することを特徴とする請求項５に記載の文書処理装置。
前記第１文書グループおよび前記第２文書グループの積集合についての話題規模値の前記第１文書グループの話題規模値に対する相対値を算出する相対値計算部を更に備えることを特徴とする請求項５または６に記載の文書処理装置。
前記第３用語を含む文書データを外部装置から受信する第３文書データ受信部を更に備え、
前記相対値計算部は、前記第３用語を含む文書データの集合である第３文書グループの話題規模値の前記第１文書グループの話題規模値に対する相対値を算出することを特徴とする請求項７に記載の文書処理装置。
文書データに含まれる日付情報を参照して、所定の期間における文書データに基づいて計算される話題規模値の推移を画面にグラフ表示させる推移表示部を更に備えることを特徴とする請求項５から８のいずれかに記載の文書処理装置。
各用語に関する話題規模値を画面表示させる規模値表示部を更に備え、
前記規模値表示部は、第１用語についての話題規模値と、前記第１用語に対する１以上の第３用語の話題規模値を一覧表示させることを特徴とする請求項５から９のいずれかに記載の文書処理装置。
その話題規模値が画面表示対象となっている用語のうちのいずれかに対するユーザの選択入力を検出する用語選択部を更に備え、
前記規模値表示部は、用語が選択されると、前記選択された用語を含む文書グループに含まれ、かつ、前記選択された用語とは異なる用語についての話題規模値を画面表示させることを特徴とする請求項１０に記載の文書処理装置。
前記規模値表示部は、各用語についての話題規模値の画面表示態様として、用語間における話題規模値の比率を円グラフとして画面表示させ、
前記用語選択部は、円グラフ表示領域のうちユーザにより指定された領域に対応する用語を選択対象として特定することを特徴とする請求項１１に記載の文書処理装置。
前記規模値表示部は、前記選択された用語についての文書グループに含まれる文書データの内容の少なくとも一部のデータを一覧表示させることを特徴とする請求項１０から１２のいずれかに記載の文書処理装置。
前記第１文書データ受信部は、ウェブログ（Weblog）として電子掲載される記事から前記第１用語を含む文書データを受信することを特徴とする請求項１から１３のいずれかに記載の文書処理装置。