JP4504878B2 - 文書処理装置 - Google Patents

文書処理装置 Download PDF

Info

Publication number
JP4504878B2
JP4504878B2 JP2005191105A JP2005191105A JP4504878B2 JP 4504878 B2 JP4504878 B2 JP 4504878B2 JP 2005191105 A JP2005191105 A JP 2005191105A JP 2005191105 A JP2005191105 A JP 2005191105A JP 4504878 B2 JP4504878 B2 JP 4504878B2
Authority
JP
Japan
Prior art keywords
term
document
unit
topic
scale value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005191105A
Other languages
English (en)
Other versions
JP2007011651A (ja
Inventor
紀哉 古林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nomura Research Institute Ltd
Original Assignee
Nomura Research Institute Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nomura Research Institute Ltd filed Critical Nomura Research Institute Ltd
Priority to JP2005191105A priority Critical patent/JP4504878B2/ja
Publication of JP2007011651A publication Critical patent/JP2007011651A/ja
Application granted granted Critical
Publication of JP4504878B2 publication Critical patent/JP4504878B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

この発明は、文書処理技術に関し、特には、特定の用語に対する関連用語を検索するための技術に関する。
近年、コンピュータの普及とネットワーク技術の進展に伴い、ネットワークを介した電子情報の交換が盛んになっている。そのような一例として、通称、ブログとよばれるウェブログ(Weblog)を挙げることができる。ユーザは、ウェブログサービスを提供するサイトで個人用のページを開設することにより、簡単に自己の意見を発信することができる。開設手続きの手軽さから、ウェブログ開設者の数は順調に増加しており、ウェブログは新たな情報発信手段として注目が集まっている。
特開2003−196301号公報 奥村 学、 南野 朋之、 藤木稔明、 鈴木泰裕、「blogページの自動収集と監視に基づくテキストマイニング」、日本、人工知能学会、2004年7月2日、SIG-SWO-A401-01
ところで、世論調査やマーケティングなどにおける伝統的な情報収集方法として、アンケートという方法が一般的である。アンケートシステムが有効な情報収集システムとして機能するためには、当然ながらユーザの回答意欲を喚起する、または、ユーザに回答を強制する必要がある。ユーザのアンケートに回答しようという意欲が喚起されなければ、アンケートシステムは有効に機能しない。インターネットによって個人がつながる現代社会においては、企業は意見募集ホームページを開設してユーザの声を集め、マーケティングに活かそうとしている。しかし、これもいわば、ネットワークを介したアンケートであることには変わりがなく、紙ベースのアンケートと同様の課題を内包している。
本発明は、ウェブログのような「私的な」情報発信手段の特性と将来性に対する本発明者の着目に基づいて完成された発明であり、その主たる目的は、ネットワークを介して話題動向を効率的に分析するための技術を提供することにある。
本発明のある態様は、文書処理装置である。
この装置は、第1用語の入力を受け付け、第1用語を含む文書データの集合において頻出する第2用語を検出し、第2用語を含む文書データの集合において頻出する第3用語を検出し、第3用語を第1用語の関連用語として特定する。このような態様により、検索対象となる第1用語と話題関連性が高い第3用語を第2用語を介して発見することができる。
なお、以上の構成要素の任意の組合せ、本発明を方法、装置、システム、記録媒体、コンピュータプログラムにより表現したものもまた、本発明の態様として有効である。
本発明によれば、話題動向を効率的に分析するための技術を提供することができる。
本実施例においては、ウェブログサイトからさまざまな記事を収集し、世間の話題動向を分析する文書処理装置100について説明する。
図1は、話題規模管理システムのハードウェア構成図である。
文書処理装置100は、インターネット12を介して接続されたウェブログサイト300aやウェブログサイト300bなどの複数のサイト(以下、単に「ウェブログサイト300」という)から、記事データを収集する。ウェブログサイトは既存のものでよい。ウェブログ開設者は、文書処理装置100の存在を意識することなく、従来通り自己のウェブログサイトにさまざまな意見を記事として書き込み、インターネット12上に発信できる。インターネット12に接続されたコンピュータからは、こうして開設されたウェブログサイトの意見を閲覧したり、あるいは、記事に対するコメントを書き込むこともできる。
インターネット12によって接続された文書処理装置100およびウェブログサイト300によって、本実施例における話題規模管理システム10が構成される。
文書処理装置100の主たる目的は、ウェブログのように個人がネットワーク上に発信する情報から世間の話題動向を把握することにある。文書処理装置100は、特定の用語を含む記事データのデータ量に基づいて、その用語に関連した話題の動向を分析する。たとえば、「ドライブ」という用語が検索対象とされる場合においては、「ドライブ」という用語を含む記事データを収集し、そのような記事データのデータ量から「ドライブ」に関する話題の規模を分析する。更に、特定の用語に対して、話題としての関連性が高い用語を検出することもできる。その目的や原理については図4に関連して説明する。なお、ここでいう用語とは、単語であってもよいが、「昨日の夜」のように助詞を含んだ単語の組み合わせであってもよい。
以下、本実施例における文書処理装置100について、その話題動向分析方法を中心として説明する。
図2は、文書処理装置の機能ブロック図である。
ここに示す各ブロックは、ハードウェア的には、コンピュータのCPUをはじめとする素子や機械装置で実現でき、ソフトウェア的にはコンピュータプログラム等によって実現されるが、ここでは、それらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックはハードウェア、ソフトウェアの組合せによっていろいろなかたちで実現できることは、当業者には理解されるところである。
ここでは、主として各機能ブロックの発揮すべき機能について述べ、その具体的な作用については、図6等に関連して説明する。
文書処理装置100は、ユーザインタフェース処理部110、通信処理部120、データ処理部130およびデータ記憶部164を含む。
ユーザインタフェース処理部110は、ユーザからの入力処理やユーザに対する情報表示のようなユーザインタフェース全般に関する処理を担当する。通信処理部120は、ウェブログサイト300などインターネット12を介した他のコンピュータとの通信処理を担当する。通信処理部120は、ウェブログサイト300に電子掲載される記事データを収集する。
本実施例においては、ユーザインタフェース処理部110により文書処理装置100のユーザインタフェースサービスが提供されるものとして説明する。別例として、ユーザはインターネット12を介して文書処理装置100を操作してもよい。この場合、通信処理部120は、ユーザ端末からの操作指示情報を受信し、またその操作指示に基づいて実行された処理結果情報をユーザ端末に送信することになる。
データ処理部130は、ユーザインタフェース処理部110を介した入力操作や通信処理部120から取得された記事データを元にして各種のデータ処理を実行する。データ処理部130は、ユーザインタフェース処理部110、通信処理部120およびデータ記憶部164の間のインタフェースの役割も果たす。
データ記憶部164は、予め用意された各種の設定データや、データ処理部130から受け取った記事データをはじめとするさまざまなデータを格納する。
ユーザインタフェース処理部110は、入力部112と表示部114を含む。入力部112は、ユーザからの入力操作を受け付ける。表示部114は、ユーザに対して各種情報を表示する。
通信処理部120は、記事データ受信部122を含む。記事データ受信部122は、ウェブログサイト300から記事データを取得する。データ記憶部164は、収集対象とすべきウェブログサイトのURL(Uniform Resource Locator)リストを予め保持している。記事データ受信部122は、電子掲示板やウェブログのリンクページからウェブログのURLを取得して、このURLリストを更新してもよい。記事データ受信部122は、ウェブログの更新通知サービスにより、記事内容の更新を検出し、更新対象となった記事データを適宜取得する。あるいは、記事データ受信部122は、定期的にこのURLリストに載っているウェブログサイト300を巡回して、電子掲載されている記事データのうち新規の記事データを収集してもよい。
データ記憶部164は、記事データ保持部166、話題規模情報保持部168および構造情報保持部146を含む。
記事データ保持部166は、記事データ受信部122がウェブログサイト300から受信した記事データを記憶する。本実施例における記事データ保持部166は、収集された記事データをすべて保持する。変形例として、記事データ保持部166は記事タイトルのような記事データの部分的な情報を保持し、その記事データの収集元となったウェブログサイト300のURLと併せて保持してもよい。この場合、データ処理部130が通信処理部120にそのURLから元の記事データを取ってこさせることにより、一度収集された記事データを再取得することができる。
データ処理部130は、さまざまな用語に関連する話題の規模を話題規模値として指標化する。具体的には、ある用語を含む記事データの集合におけるデータ量が話題規模値として特定される。詳しくは後述する。話題規模情報保持部168は、このような話題規模値を示す情報としての話題規模情報を保持する。話題規模情報保持部168のデータ構造については、図5に関連して詳述する。以下、用語Xを含む記事データの話題規模値のことを「用語Xに関する話題規模値」ともよぶ。
また、各用語は木構造として構造化される。たとえば、「お酒」という用語に対して「日本酒」という用語は、下位用語の関係にあるとして、予め構造化されてもよい。構造情報保持部146は、このような構造化の内容を示す構造情報を保持している。構造情報については、図9に関連してより具体的に説明する。
データ処理部130は、統計部140および評価部150を含む。
評価部150は、記事データ受信部122によって受信された記事データの内容を分析し、さまざまな用語についての関連用語を検索する。統計部140は、各用語に関する話題規模値を算出する。
評価部150は、範囲特定部152、情報量計算部154、用語検出部158および構造情報生成部156を含む。
範囲特定部152は、記事データ受信部122がウェブログサイト300から取得した記事データのうち、評価対象とすべきデータ範囲を特定する。記事データの中には、たとえば、画像や広告など、話題規模分析には不必要なデータが含まれることがある。範囲特定部152は、こうしたデータを排除して評価対象とすべき範囲を特定する。具体的な処理方法については図3に関連して説明する。以下、記事データのうち評価対象とされるべき範囲のデータのことを、「単位データ」とよぶ。
情報量計算部154は、その特定された単位データの情報量を計算する。たとえば、単位データに含まれる文字数がそのまま記事の情報量として特定されてもよい。そのほかにも、単位データの情報量は、たとえば、10を底とし、文字数を真数とする対数値として算出されてもよい。本実施例においては、単位データの情報量は、文字数の平方根として算出される。たとえば、121文字の単位データであれば、その情報量は11となる。いずれにせよ、単位データの情報量は、単位データの文字数を変数とする所定の単調増加関数によって算出されることが望ましい。
用語検出部158は、入力部112を介して入力された用語の関連用語を検出するための処理を実行する。構造情報生成部156は、用語検出部158により検出された関連用語に基づいて、構造情報保持部146の構造情報を更新する。
用語検出部158は、更に、下位用語検出部160と等位用語検出部162を含む。下位用語検出部160は、検索対象となる用語に対して下位の関係にある用語を下位用語として検出する。等位用語検出部162は、検索対象となる用語に対して等位の関係にある用語を等位用語として検出する。
統計部140は、話題規模値計算部142と相対値計算部144を含む。
話題規模値計算部142は、用語ごとの話題規模値を計算する。たとえば、用語1を含む記事データとして、情報量A、情報量Bの記事データが受信されているときには、用語1に関する話題規模値は情報量A+情報量Bとして求められる。このようにして、話題規模値計算部142は各用語についての話題規模値を計算する。その用語を含む記事データが多いほど、話題規模値は大きくなる。また、記事データに含まれる情報量が多いほど、話題規模値が大きくなる。単なる記事数や単語数で話題規模値を算出するのではなく、記事の数と各記事の情報量を変数として話題規模値が算出されることになる。相対値計算部144は、各用語の話題規模値を比較してその相対値を計算する。以下、絶対値としての話題規模値と、相対値としての話題規模値を区別するときには、前者を「絶対話題規模値」、後者を「相対話題規模値」とよぶものとする。
図3は、ウェブログの一般的な表示フォーマットを示す図である。
ここでは、一般的なウェブログ表示フォーマット170を示している。記事データ受信部122は、このようなウェブログ表示フォーマット170に示される記事データを取得し、範囲特定部152がそのうち、評価対象とすべき範囲としての単位データを特定する。第1記事データ182は、このウェブログを開設しているユーザAによって記事日付欄172に示される日時において投稿された記事データである。記事タイトル欄174は記事データのタイトルである。記事欄176は、記事データの内容である。第1記事データ182は、記事日付欄172、記事タイトル欄174および記事欄176を含んでいる。
第2記事データ184は、第1記事データ182の記事内容に対する別ユーザBからの投稿されたコメントである。コメント欄178は、コメントの内容を示し、コメント日付欄180はその投稿日時を示す。第3記事データ186は、ユーザAによって別の日時に投稿された記事データである。
このように、ウェブログ表示フォーマット170には複数の記事データが含まれている。範囲特定部152は、記事データに含まれる日付情報をキーとして単位データとすべき範囲を特定する。範囲特定部152は、ウェブログ表示フォーマット170に示される文書データから、記事日付欄172やコメント日付欄180のような日付書式を区切りとして、同図に示すウェブログ表示フォーマット170が、第1記事データ182、第2記事データ184および第3記事データ186の3つの記事データを含んでいることを認識する。そして、第1記事データ182については、記事タイトル欄174および記事欄176のデータを単位データとして特定する。第2記事データ184については、コメント欄178のデータが単位データとして特定される。
情報量計算部154は、単位データの文字数を計数する。たとえば、記事タイトル欄174に「花見は最高」、記事欄176に「今日、上野公園にグループで花見に行きました。」と記載されていた場合、情報量計算部154はこの27文字の平方根、すなわち、5.19をこの単位データの情報量として算出する。
別例として、情報量計算部154は、タイトルを記事内容に比べて高い評価対象としてもよい。たとえば、(タイトル文字数×所定数+記事文字数)の平方根を単位データの情報量としてもよい。あるいは、記事欄176において、ボールド体のような特殊書体で対象用語が記載されている文章については、高い点数がつけられてもよい。情報量計算部154は、記事欄176のうち、文単位やパラグラフ単位で単位データを特定してもよい。このときには、情報量計算部154は、文単位、パラグラフ単位の単位データについて情報量を計算する。
なお、範囲特定部152は文書データに日付情報とタイトルその他、ウェブログであることを特定するための情報が含まれていないときには、その文書データを評価対象外とする。すなわち、インターネットショッピングサイトや、企業ホームページなど、所定のウェブログ表示フォーマットにマッチしない文書データは評価対象外としてもよい。あるいは、範囲特定部152は、日付情報を含む文書データであれば、評価対象として判定してもよい。本実施例においてはウェブログに限定して話題動向分析をするとして説明するが、変形例としては、ウェブログに限定することなく、文書分類処理を実行するとしてもよい。
図4は、関連用語検索の概念を示す模式図である。
本実施例における文書処理装置100は、検索対象用語と関連性の高い用語を話題動向に基づいて検出する機能を有する。ここでは、「ドライブ」という用語を検索対象用語とする場合を例にとって、その目的と原理を説明する。
第1文書グループ190は、「ドライブ」という用語を含む記事データの集合である。第1文書グループ190の面積が、その話題規模値を示している。第2文書グループ192は、「ストレス」という用語を含む記事データの集合である。第1文書グループ190と第2文書グループ192が重なり合う部分、すなわち、第1文書グループ190と第2文書グループ192の積集合は、「ドライブ」および「ストレス」という用語を共に含む記事データの集合となる。いま、「ドライブ」という用語を検索対象用語として第1文書グループ190が特定されたとき、その中で最も頻出する用語が「ドライブ」以外では「ストレス」であったとする。このような情報から、一般的には「ドライブ」は「ストレス」解消のための有効な手法であると仮説を立ててみることにする。
次に、「ストレス」という用語を検索対象用語として第2文書グループ192が特定されたとき、その中で最も頻出する用語が「ストレス」以外では「ゲーム」であったとする。となれば、「ストレス」解消法として「ゲーム」もまた有力な手段であるという推測も可能である。すなわち、「ドライブ」と「ゲーム」は、共に、ストレスの解消方法という点については競合関係にある可能性がある。概念的には、「ドライブ」と「ゲーム」はそれほど近しい関係にある用語群であるとはいえないが、「ストレス」という共通の話題から、これらの一見関連性が小さい用語群が、案外、密な関係にあることが発見されることになる。
まとめると、第1用語「ドライブ」から、第2用語「ストレス」を特定し、更に、第3用語「ゲーム」を特定することにより、第1用語「ドライブ」と第3用語「ゲーム」の関連性を見つけることが可能となっている。本実施例における文書処理装置100は、このような原理により、特定の用語から話題動向に基づく関連用語を検出する。
ここでは、第1文書グループ190において「ドライブ」の次に頻出する単語である「ストレス」を自動的に検索対象用語とすることにより、「ゲーム」を検出したが、第2用語は必ずしも第1文書グループ190において「ドライブ」の次に頻出する単語でなくてもよい。たとえば、第1用語「ドライブ」と第2用語「事故」により、「事故」に関して、第1用語「ドライブ」と関連する第3用語を見つけるという方法も可能である。
本実施例においては、第2用語のことを、便宜的に第1用語の「下位用語」とよぶ。また、第3用語のことを第1用語の「等位用語」とよぶ。
第1文書グループ190と、第3用語「ゲーム」に関連する記事データの集合である第3文書グループ194を比較することにより、等位用語同士についての話題規模を比較できる。また、第1文書グループ190と第2文書グループ192の積集合と、第2文書グループ192および第3文書グループ194の積集合の大きさを比較することにより、第2用語に関する第1用語と第3用語の関連性の大小についても解析することができる。このように、本実施例における文書処理装置100は、用語をキーとして話題動向を分析した上で、話題動向に基づく用語間の関連性発見を支援する。
図5は、話題規模情報保持部のデータ構造図である。
ここでは、用語「飲み物」の下位用語が「酒」、「水」、「茶」、「ジュース」等であるとして説明する。また、このうち「酒」の下位用語が、「ビール」、「ワイン」、「ウィスキー」、「ブランデー」、「焼酎」、「日本酒」等として説明する。図4に関連して説明した内容は、この話題規模情報を構築する上で下位用語や等位用語を発見するという処理に関するものである。図5では、用語間の関係が一応定められたいるという前提で説明する。それぞれの処理の関係については、図6以降であきらかとなる。
用語欄200は、用語とその上下関係を示す。絶対規模欄202は、各用語に対する絶対話題規模値を示す。また、相対規模欄204は、各用語間における相対話題規模値を示す。同図は、話題規模情報のうち、用語「飲み物」についての話題規模情報を示している。また、同図に示すのは、所定の日時における話題規模情報であり、話題規模情報保持部168は各日時についての話題規模情報の集合体として、所定期間の話題規模情報を保持している。
各話題規模値は、用語を含む単位データの情報量の加算値として計算される。同図においては、用語「飲み物」、「酒」、「ビール」のすべてを含む(以下、このようなとき「飲み物+酒+ビール」と表記する)単位データが4件投稿されている。これらの単位データのうち、1件目は100文字、2件目も100文字、3件目も100文字、4件目も100文字であったとする。となれば、1件目から4件目の各単位データの情報量は、100の平方根である10となる。話題規模値計算部142は、10+10+10+10=40により、「飲み物+酒+ビール」に関する話題規模値を40として算出している。なお、絶対規模欄202においては、各カテゴリの総記事データ数、総文字数が示されている。
一方、用語「飲み物+酒+ワイン」についての単位データは3件投稿されている。このとき、1件目から3件目の単位データの文字数は、それぞれ、10文字、30文字、640文字であったとする。この場合、同様の計算により、それぞれの情報量は、3.16、5.48、25.3となる。話題規模値計算部142は「飲み物+酒+ワイン」に関する話題規模値をそれらの総和である33.94、すなわち、約34として算出している。また、話題規模値計算部142は、「飲み物+酒」に関する話題規模値を、同様の方法により「363」として算出する。「飲み物」に関する話題規模値も同様の方法によって、「3025」として算出されている。全体としての話題規模値も同様の方法によって「45987」として算出されている。
このようにして、各用語を含む単位データから話題規模値を算出することによって、インターネット上においてホットな話題とそうでない話題を絶対話題規模値として定量化している。
ただし、以上は説明を簡単にするために状況を理想化している。たとえば、「飲み物+酒+ビール+ワイン」についての単位データも存在しうる。このような単位データが存在するときには、その単位データ中における「ビール」と「ワイン」の出現頻度に応じて、単位データの情報量を按分してもよい。たとえば、「飲み物+酒+ビール+ワイン」を含む単位データにおいて、「ビール」の出現回数が15回、「ワイン」の出現回数が10回であって、この単位データの情報量が「100」であったとする。このようなときには、「酒+飲み物+ビール」についての単位データとして、100×15/(15+10)=60の情報量が配分される。一方、「酒+飲み物+ワイン」についての単位データとして残り40の情報量が割り当てられる。このような処理によって、各用語に対する話題規模値を好適に配分できる。
同図においては、「飲み物」→「酒」→「ビール」のように用語間の関係が階層化されているとして話題規模情報を説明したが、この上下関係は必ずしも一意に規定されることはない。たとえば、「ビール」を含むが、「飲み物」や「酒」を含まない記事データも存在しうる。あるいは、「ビール」の下位用語が「酒」であってもよい。同図に示すような話題規模情報の構造は必ずしも固定化される必要はなく、ユーザの検索目的に応じてその構造は柔軟に変更されてもよい。たとえば、「飲み物」を調べているときに、「酒」や「ビール」などの用語が頻出すると、今度は「ビール」を検索対象用語として、その関連語検索を実行してもよい。無論、構造情報として、用語間の上下関係が予め構造化されてもよい。
同図においては、「ビール」や「ワイン」が最終的な分類単位となっているが、これに限られないことはいうまでもない。たとえば、「ワイン」であれば、更にその銘柄ごとに話題規模値を調べてもよい。あるいは、ワイン銘柄を、「国産ワイン」や「イタリアワイン」、「ドイツワイン」のように類型化することにより、記事データには直接含まれている用語から直接的には含まれていない上位概念語についての話題規模値を算出してもよい。
相対値計算部144は、相対話題規模値を計算する。たとえば、文書処理装置100が収集したすべての記事データについての話題規模値は「45987」であり、そのうち、用語「飲み物」に対する話題規模値は「3025」である。3025÷45987=0.0658より、ウェブログにおける話題のうちの約6.58パーセントが、飲み物に関する話題であると算定される。相対値計算部144は、このように、パーセンテージ表現として、相対話題規模値を計算する。
「飲み物+酒」に関する話題規模値は「363」であるから、363÷45987=0.79(パーセント)により、ウェブログにおける話題のうちの約0.79パーセントが、「飲み物+酒」に関する話題であると算定される。更に、「飲み物+酒+ビール」というように絞り込まれた話題規模値についてもウェブログにおけるすべての話題に対する相対話題規模値が計算される。
用語「飲み物」に対する話題規模値「3025」に対して、そのうち「酒」を含む関連記事データの話題規模値は「363」であるから、363÷3025=12.0(パーセント)より、飲み物に関する話題のうちの約12パーセントが酒に関する話題であると算定される。
「飲み物+酒」の話題規模値に対する「飲み物+酒+ビール」等の話題規模値についても、同様に相対話題規模値が計算される。「飲み物+酒」に対する話題規模値「363」に対して、そのうち「ビール」を含む関連記事データの話題規模値は「40」であるから、40÷363=11(パーセント)より、「飲み物+酒」に関する話題のうちの約11パーセントがビールに関する話題であると算定される。
このようにして、さまざまな用語間について相対話題規模値が計算される。
図6は、関連用語検索の処理過程を示すフローチャートである。
図5に関連して説明したように、検索対象用語を絞っていきながら、それらの用語の話題規模値を算出することができる。また、図4に関連して説明したように、検索対象用語に対し、話題動向からみて関連性が高い用語を検出することも、文書処理装置100の重要な機能である。図6においては、第1用語「酒」という検索対象用語に対して、等位関係にある第3用語を見つけるための処理を実行しつつ、第1用語「酒」やそれらに関連する第2用語や第3用語の話題規模を算出し、図5に示したような話題規模情報も生成するという一連の処理過程を示す。
まず、入力部112はユーザから第1用語としての検索対象用語の入力を受け付ける(S10)。ここでは、「酒」という用語が検索対象用語として入力されている。次に、この用語「酒」に対する話題規模値が計算される(S14)。詳しい処理内容については図7に関連して詳述する。第1用語「酒」を含む記事データの集合が、図4でいえば第1文書グループ190に相当する。下位用語検出部160は、第1用語「酒」を含む記事データを単語分解して、その頻出用語を抽出する。たとえば、第1用語「酒」を含む記事が40あって、そのうちの10の記事において用語「日本酒」が含まれているときには、用語「日本酒」の出現回数が10として記録される。すなわち、用語「日本酒」は、検索対象用語「酒」の下位用語のうちの一つである。このようにして、第1用語「酒」を含む記事データ群における頻出用語について、それぞれの出現回数が記録される。ここでは、「日本酒」、「ビール」、「ワイン」、「ウィスキー」、「ブランデー」等の用語がそれぞれ数回出現したとする。これらの各用語は、第1用語「酒」の下位用語としてリストアップされる(S16)。このなかでも、「日本酒」がもっとも頻出する単語であったとする。
なお、ここでは、「日本酒」は「酒」の下位用語であるとされているが、第1用語が「日本酒」である場合、「日本酒」の下位用語として「酒」が検出されるかもしれない。同様に、第1用語としての「ワイン」の下位用語が「酒」となる可能性もある。すなわち、S16において特定される用語間の上下関係は、あくまでも第1用語「酒」を中心として決定される上下関係である。
次に、これらの各下位用語についての話題規模値が計算される(S18)。詳しい処理内容については図8に関連して詳述する。ここでは、第1用語「酒」を含む記事データの集合のうち、「日本酒」や「ビール」などの各下位用語を含む記事データの部分集合について話題規模値が計算される。これにより、第1用語「酒」を含む記事データの話題規模と、そのうち「日本酒」に関する記事データの話題規模の割合、「ビール」に関する記事データの話題規模の割合などを特定できる。すなわち、「酒」という話題のうち、「日本酒」や「ビール」等の話題の割合が定量化され、第1用語「酒」とその下位用語に関する話題規模情報が生成される。下位用語検出部160は、第1用語「酒」を含む記事データの集合において「酒」以外で最も頻出する下位用語である「日本酒」を新たな検索対象用語として選択する(S20)。なお、ユーザは、S16においてリストアップされた下位用語の中から検索対象用語を選択してもよい。
こうして選択された下位用語「日本酒」が新たな検索対象用語として話題規模値が計算される(S22)。この処理内容はS14と同等であるため、詳しい処理内容については図7に関連して詳述する。下位用語「日本酒」を含む記事データの集合が、図4でいえば第2文書グループ192に相当する。ここでは、S18と異なり、「酒」を含む記事データ集合における「日本酒」を含む記事データの部分集合ではなく、単に「日本酒」を含む記事データの集合について話題規模値が計算される。すなわち、S22においては、「日本酒」が新たな検索対象用語として、S14と同様に話題規模値が計算されている。等位用語検出部162は、この用語「日本酒」を含む記事データを単語分解して、その頻出用語を抽出する。ここでは、「茶」、「酒」、「水」等の用語がそれぞれ数回出現したとする。これらの各用語は、用語「日本酒」の下位用語といえるが、もともとの検索対象であった第1用語「酒」の等位用語としてリストアップされる(S24)。
今度は、これら各等位用語についての話題規模値が計算される(S26)。その処理内容はS18と同等であるため、詳しい処理内容については図8に関連して詳述する。ここでも、部分集合ではなく、各等位用語を検索対象として話題規模値が計算されている。計算結果は、話題規模情報として反映される。表示部114は、計算結果を画面に表示させる(S28)。表示態様については、図10以降に示す。
まとめておくと、まず、S14において第1用語「酒」の話題規模値が計算される。S18においては、第1用語「酒」を含む記事データの集合のうちの部分集合として、各下位用語の話題規模値が計算される。S22では、下位用語のうちもっとも頻出した第2用語「日本酒」についての話題規模値が計算される。S26においては、第1用語「酒」の下位用語「日本酒」を介した話題関連性の高い各等位用語について話題規模値が計算されている。こうして、第1用語とその下位の話題規模の相対関係、最頻出下位用語の話題規模、等位用語の話題規模が特定される。
図7は、図6のS14およびS22の処理を詳細に示すフローチャートである。
まず、記事データ受信部122はウェブログサイト300から記事データを受信する(S30)。範囲特定部152は、取得された記事データのうち評価対象となるべき範囲である単位データを特定する(S32)。用語検出部158は、この単位データ中において、S10やS20にて指定された検索対象用語が含まれているかを判定する(S34)。含まれていなければ(S34のN)、処理はS30に戻り次の記事データが取得される。含まれていれば(S34のY)、情報量計算部154は、単位データの情報量を計算する(S35)。なお、S14の場合は、検索対象用語とは、図6に関連して説明した第1用語「酒」が相当し、S22の場合は、検索対象用語とは、図6に関連して説明した下位用語「日本酒」が相当する。収集対象となるすべての記事データについて以上の処理が完了していなければ(S36のN)、話題規模値計算部142は、単位データの情報量から検索対象用語に対する絶対話題規模値を再計算する(S38)。こうして、話題規模情報保持部168の話題規模情報が更新される。すべての記事データについて処理済みであれば(S36のY)、S14またはS22の処理は終了する。
なお、ここでは、記事データがウェブログデータであることを前提として説明した。S32において範囲特定部152は受信した記事データが所定の表示フォーマットに合わない場合には、評価対象外として以降の処理を実行させないとしてもよい。
また、ユーザは日付範囲を指定して、その期間に投稿されている記事データを調査対象としてもよい。この場合には、範囲特定部152は、受信した記事データの日付情報を参照して、評価対象外であれば以降の処理を実行させないとしてもよい。
S32において示したように、文書処理装置100は、図6に示す関連用語検索処理実行時においてウェブログサイト300から適宜記事データを取得しつつ関連用語の検索や、話題規模値の計算処理をランタイムに実行してもよいが、このような方法に限る必要はない。別例としては、文書処理装置100は、定期的にウェブログサイト300から記事データを収集して、単位データの特定および情報量計算を行った後で、記事データ保持部166に単位データを保持してもよい。そして、関連用語検索処理実行時において、データ処理部130は、記事データ保持部166のデータを処理対象として関連用語検索処理を実行してもよい。
図8は、図6のS18およびS26の処理を詳細に示すフローチャートである。
用語検出部158は、下位用語のリストや等位用語のリストの中から検索対象用語を選択する(S40)。こうして、選択された検索対象用語に基づいて、図7に示した話題規模値算出処理が実行される(S14)。リストアップされていた各用語のすべてについて、話題規模値の算出処理が終了していなければ(S42のN)、S40に戻って次の検索対象用語が選択される。全ての検索対象用語について以上の処理が終了すると(S42のY)、S18またはS26の処理は終了する。
図9は、用語間の上下関係を示す模式図である。
以上の説明において明らかなように、用語間の上下関係、すなわち、用語構造はユーザが指定する検索対象用語をもとにして動的、かつ、便宜的に規定されることになる。一方、予め用語間の上下関係を定めた構造情報が用意されてもよい。話題動向に基づく関連用語の発見というよりは全般的な話題動向を俯瞰するというニーズに対して、所定の構造情報に基づく絶対話題規模値や相対話題規模値の算出は有効な方法である。図6のS16の場合、下位用語検出部160は、構造情報に基づいて下位用語を検出してもよい。また、構造情報において、ある用語Aと別の用語Bが同じ上位用語を持つ場合、用語Aと用語Bは等位関係にあるといえる。等位用語検出部162は、構造情報を用いて等位用語を検出してもよい。
ただし、日常のあらゆる用語について上下関係を構造化するというのは現実的な解ではない。そこで、本実施例においては、いくつかの関連性の高い用語群について、用語構造210、用語構造212および用語構造214に示すようにいくつかの構造情報があたえられている。同図において丸印で示されているのが用語に対応し、木構造としてその上下関係が定められている。例として、用語構造210の一部として構造化されている用語216は、構造情報において用語222と用語224が下位用語として予め定義されている。また、用語216を検索対象用語として下位用語を検索したときに、用語220や用語218が検出されたとする。このような場合には、構造情報生成部156は用語216の下位用語として用語218と用語220を新たに構造情報の一部とする。更に、用語218が用語構造212に含まれる用語であれば、用語構造210と用語構造212は連結されてもよい。
このような態様によれば、検索過程においてベースとなる構造情報を適宜更新することができる。そのため、話題動向に基づく関連用語の発見という目的と、構造情報に基づく既定の用語について話題動向を俯瞰するという目的を同時に達成できる。
図10は、話題規模情報を数値表示する画面図である。
ユーザは、入力部112を介して話題規模情報を画面表示するように指示する。表示部114は、このような指示に応じて、話題規模情報保持部168に保持される話題規模情報を画面に表示させる。同図においては、4月1日から4月7日までの7日間についての記事が表示対象として指定されている。
図10(a)は、「飲み物」に対する話題規模情報を数値表示する画面図である。
ここでは、「飲み物+各下位用語」の話題規模値が表示されている。表示部114は、データ処理部130を介して話題規模情報保持部168の話題規模情報のうち「飲み物」についての話題規模情報を表示させる。このときには、すべての話題規模値と「飲み物」の話題規模値、「飲み物+各下位用語」の話題規模値間の相対話題規模値が表示される。話題規模値は大きい順に表示順序がソートされる。ユーザは、このような画面で、更に詳しく調べたい用語を選択できる。同図においては用語「酒」が選択されたとする。
図10(b)は、「飲み物+酒」についての話題規模情報を数値表示する画面図である。
図10(a)において「酒」が選択されたときに図10(b)に示す画面が表示される。表示部114は、データ処理部130を介して話題規模情報保持部168の話題規模情報のうち「飲み物+酒」についての話題規模情報を表示させる。このときには、すべての話題規模値と「飲み物」の話題規模値、「飲み物+酒」の話題規模値、「飲み物+酒+各下位用語」の話題規模値間の相対話題規模値が表示される。図10(b)においても、話題規模値が大きい順に表示順序がソートされる。ユーザは、このような画面で更に詳しく見たい用語を選択できる。同図においては「ブランデー」が選択されている。
図10(c)は、選択された用語における記事の抄録を表示する画面図である。
図10(b)において「ブランデー」が選択されたときに図10(c)に示す画面が表示される。このときには、ユーザは「ブランデー」の選択とともにその抄録を表示させる旨を入力する。表示部114は、「飲み物+酒+ブランデー」を含む記事データを記事データ保持部166から読み出して一覧表示させる。表示部114は、記事データの全部を表示させてもよいが、その一部を表示させてもよい。同図に示す画面においてユーザが記事データを選択すると、その選択された記事の内容が全体表示される。
なお、ユーザは、図10(a)、図10(b)に示した態様を棒グラフや円グラフのようなグラフ形式にて表示させることもできる。この場合、表示部114は、指示されたグラフ形式にて話題規模値を表示させる。次に、円グラフ表示させるときの画面図を示す。
図11は、話題規模情報を円グラフ表示する画面図である。
ユーザは、入力部112を介して話題規模情報を円グラフとして画面表示するように指示する。表示部114は、このような指示に応じて、指定された期間についての話題規模情報を円グラフとして画面表示させる。
図11(a)は、「飲み物」についての話題規模情報を円グラフ表示する画面図である。
円グラフ表示を指示されると、表示部114は、まず、「飲み物+各下位用語」についての話題規模値を円グラフとして画面表示させる。同図に示す円グラフは、図10に関連して説明したデータを円グラフ表示させたものである。表示部114は、「飲み物+酒」等の話題規模情報を表示させる。ユーザは、このような画面で、より詳しく見たい用語を選択できる。同図においては、「飲み物+酒」に対応する領域がマウスクリックにより選択されたとする。なお、相対話題規模値が小さいカテゴリは、表示上は「その他」としてまとめられている。ユーザが「その他」の領域をクリックすると、表示部114はその詳細を画面表示させてもよい。
図11(b)は、「飲み物+酒」についての話題規模情報を円グラフ表示する画面図である。
図11(a)において「飲み物+酒」が選択されたときに図11(b)に示す画面が表示される。表示部114は、「飲み物+酒+各下位用語」の話題規模情報を円グラフ形式にて表示させる。ユーザは、このような画面で、更に詳しく見たいカテゴリを選択できる。
図12は、話題規模値の時間推移を示す画面図である。
ユーザは、入力部112を介して話題規模情報の推移を画面表示するように指示する。表示部114は、このような指示に応じて、話題規模情報の推移をグラフ表示させる。話題規模情報保持部168は、図5に示したような話題規模情報を1日単位で管理している。表示部114は、ユーザにより指定された期間における話題規模情報の推移を画面に表示させる。同図においては、1月1日から4月7日までの約3ヶ月間における「酒」に関する話題の推移が示されている。
図12(a)は、「酒」に対する絶対話題規模値の推移を示す画面図である。
ユーザが、同図に示すような「酒」について、話題規模値の推移を表示させるように指示すると、表示部114は同図に示すような話題規模値の推移を示すグラフを表示させる。同図によれば、選択された期間において「酒」の話題規模が順調に増加していることがわかる。
図12(b)は、「酒」に関する各下位用語の相対話題規模値の推移を示す画面図である。
ユーザは、「酒」に関する各下位用語についての相対話題規模値の推移を画面表示させるように入力部112を介して指示する。表示部114は、図5の相対規模欄204に示したような相対話題規模値に関する情報を参照してその推移を画面表示させる。同図によれば、「酒+ビール」に関する話題規模が「酒」の話題規模に対して相対的に低下していることがわかる。その一方で、「酒+ワイン」に関する話題規模が相対的に拡大しつつある。
図12(a)および図12(b)のグラフによれば、「酒」についての話題規模は拡大しているものの、「ビール」についての話題規模はむしろ減少傾向にあることがわかる。その一方で、「ワイン」の話題規模は相対的にも絶対的にも拡大傾向にあることがわかる。
そこで、このような情報のマーケティングへの応用が考えられる。たとえば、発売前、あるいは、発売中のビール銘柄について世間の話題規模推移を分析することにより、ユーザのビール銘柄に対する嗜好・新発売ビール銘柄に対する反応などを把握しやすくなる。たとえば、あるビール銘柄についてテレビコマーシャルを集中的に流したときに話題規模が拡大しているかによって広告の費用対効果を評価することができる。
図12(a)のグラフ上において、所定のポイントが選択されると、その日時における話題規模値の詳細が、図10や図11にて説明した画面として表示されてもよい。また、図12(b)の画面において、ユーザの指示により各下位用語の絶対話題規模値の推移に表示内容を変更してもよい。また、「酒+ビール」や「酒+ワイン」の比較ではなく、「ビール」と「ワイン」の比較がなされてもよい。表示部114は、こういった推移を示すグラフの移動平均をとることによって、曜日による話題規模の増減や、一過性の話題規模の増減を平滑化して、推移グラフを表示してもよい。
以上、本実施例における文書処理装置100によれば、ウェブログサイト300などの個人メディアから情報を収集して世間の話題動向を分析できる。
インターネットを介したアンケートによって個人の意見を収集しようとする場合、まず、ユーザをそのアンケートの存在に気づかせる必要がある。このためには、ユーザをそのアンケートホームページに引きつけるための工夫が必要である。また、アンケート回答意欲を喚起するためには懸賞をつけるといった工夫がされていたが、このような方法はコストがかかるのも事実である。更に、アンケートに答えるときに個人情報を送信する必要がある場合が多く、ユーザ側にも心理的抵抗感が生じやすいため、これがアンケート回答意欲の阻害要因となっている。
特定の時事問題についての世論調査を行う仕組みを設けているニュースサイトもあるが、やはり同様の問題を抱えている。また、アンケートは、質問事項に対する回答としてデータを収集するので、いいかえれば、その質問事項から外れた付随的な情報を収集しにくいというデメリットもある。更には、アンケートに対しておもしろ半分の回答がなされる場合もあり、このようないわばノイズ情報がアンケートの信頼性を悪化させる可能性がある。
個人の意見を収集するシステムとしては、そのほかにも視聴率調査やサイトのアクセス数調査といった方法が挙げられる。このような調査方法は、ユーザの心理的抵抗感や手間といった問題は、アンケートに比べて軽減されるといえるが、得られる情報は極めて限定的である。
これに対して、本実施例の文書処理装置100は、個人の意見が表明されているウェブログデータを収集することにより、世間の話題動向を分析する。そのメリットとしては、主なものだけでも以下のものを挙げることができる。1.調査対象者の回答意欲を喚起するための工夫が事実上不要となる。2.ウェブログ開設者などの調査対象者にとってはアンケートなどの調査に協力しているという感覚すら持たなくて済む。3.質問項目によってユーザの意見を型にはめなくて済むため、多様な話題動向を収集できる。4.文書処理装置100は、既存のウェブログサイトにアクセスするだけなので、既存のシステムとの親和性が高い。5.膨大なインターネット上の情報を情報源とするため、統計的に安定すると考えられる。6.話題の推移という時系列データを簡易に収集できる。7.話題の絶対規模、相対規模という有用性が高く曖昧な情報を定量化できる。8.話題動向からみた用語間の関連性を検出できる。
マーケティングなどにおいては、製品嗜好、市場反応を正確にキャッチすることが重要である。本実施例の文書処理装置100は、広告の費用対効果や新しいマーケットの発見など多様な分析に応用可能である。たとえば、マスコミ関係者であれば、人々がどのようなニュースに興味を持ち、どのような情報を求めているのかを探った上で、提供すべき情報の量配分を考える必要がある。たとえば、大きなニュースであっても、世間に飽きられてくれば、別のニュースを積極的に提供すべきである。その反対に、時間が経っても世間が興味を持っているニュースであれば、積極的に提供すべきである。また、あるニュースと関連して、どのような情報が話題となっているのか、求められているのかを話題動向に基づく関連情報検索によって検出できるため、潜在的な情報ニーズを発見する上で効果的なツールとなる。
製造業関係者であれば、発売した製品がどの程度話題になっているか、話題規模がどのように推移しているかによって、生産計画に反映するという手法も考えられる。また、図4に関連して説明したように、製品名などを検索対象用語として、その製品がどのような製品、あるいは、どのようなモノと話題関連性が高いのかを発見することもできる。概念的に固定された用語構造ではなく、話題動向からみた用語間の関連性を検出することは業務企画において、潜在的な競合、潜在的な市場を発見する上でも効果的なツールとなる。
このように、本実施例に示した文書処理装置100はサービスの提供者と受け手とを緊密化させる上で効果的である
一方、続々とウェブログが開設される現在、開設したウェブログが実際に他人に見てもらえる保証はない。実際、多くのウェブログがインターネットに接続されているだけの「独り言」サイトにすぎない。文書処理装置100は、こういったウェブログの意見も自動的に収集して解析する。そのため、ウェブログ開設者にとっても、自分の意見が社会に反映されやすいというメリットがある。このように文書処理装置100は個人の情報発信意欲を喚起する効果がある。
文書処理装置100は、個人が積極的に自己の意見を発信するような活性化された社会を実現するのに資するといえる。
なお、文書処理装置100はマーケティングや世論調査などに有効であることはもちろんであるが、一般のユーザにとっても、世間の話題動向を知る上で有効である。また、本実施例においてはウェブログを情報源として説明したが、文書処理装置100が収集する文書データは、インターネット上のニュースサイトなどさまざまなものが考えられる。
また、文書処理装置100は、特定の用語を無意味に連呼するようなデータ解析の信頼性を損なう記事データを調査対象外とすることにより、調査の正確性を期してもよい。
以上、実施の形態をもとに本発明を説明した。なお本発明はこの実施の形態に限定されることなく、そのさまざまな変形例もまた、本発明の態様として有効である。
請求項に記載の第1用語入力部および用語選択部の機能は、本実施例においては、主として入力部112により実現される。請求項に記載の第1文書データ受信部、第2文書データ受信部および第3文書データ受信部の機能は、本実施例においては主として記事データ受信部122により実現される。請求項に記載の第2用語検出部の機能は、本実施例においては主として下位用語検出部160により実現される。請求項に記載の第3用語検出部および関連用語特定部の機能は、主として等位用語検出部162により実現される。請求項に記載の推移表示部および規模値表示部の各機能は、本実施例においては主として表示部114により実現される。
請求項に記載の各構成要件が果たすべき機能は、本実施例において示された各機能ブロックの単体もしくはそれらの連係によって実現されることも当業者には理解されるところである。
話題規模管理システムのハードウェア構成図である。 文書処理装置の機能ブロック図である。 ウェブログの一般的な表示フォーマットを示す図である。 関連用語検索の概念を示す模式図である。 話題規模情報保持部のデータ構造図である。 関連用語検索の処理過程を示すフローチャートである。 図6のS14およびS22の処理を詳細に示すフローチャートである。 図6のS18およびS26の処理を詳細に示すフローチャートである。 用語間の上下関係を示す模式図である。 話題規模情報を数値表示する画面図である。図10(a)は、「飲み物」に対する話題規模情報を数値表示する画面図である。図10(b)は、「飲み物+酒」についての話題規模情報を数値表示する画面図である。図10(c)は、選択された用語における記事の抄録を表示する画面図である。 話題規模情報を円グラフ表示する画面図である。図11(a)は、「飲み物」についての話題規模情報を円グラフ表示する画面図である。図11(b)は、「飲み物+酒」についての話題規模情報を円グラフ表示する画面図である。 話題規模値の時間推移を示す画面図である。図12(a)は、「酒」に対する絶対話題規模値の推移を示す画面図である。図12(b)は、「酒」に関する各下位用語の相対話題規模値の推移を示す画面図である。
符号の説明
10 話題規模管理システム、 12 インターネット、 100 文書処理装置、 110 ユーザインタフェース処理部、 112 入力部、 114 表示部、 120 通信処理部、 122 記事データ受信部、 130 データ処理部、 140 統計部、 142 話題規模値計算部、 144 相対値計算部、 146 構造情報保持部、 150 評価部、 152 範囲特定部、 154 情報量計算部、 156 構造情報生成部、 158 用語検出部、 160 下位用語検出部、 162 等位用語検出部、 164 データ記憶部、 166 記事データ保持部、 168 話題規模情報保持部、 300 ウェブログサイト。

Claims (11)

  1. 関連用語検索の対象となるべき第1用語の入力を受け付ける第1用語入力部と、
    前記第1用語を含む文書データを外部装置から受信する第1文書データ受信部と、
    前記第1用語を含む文書データの集合である第1文書グループにおいて所定個数以上含まれ、かつ、前記第1用語とは異なる用語を第2用語として検出する第2用語検出部と、
    前記第2用語を含む文書データを外部装置から受信する第2文書データ受信部と、
    前記第1文書グループにおいて第2用語を含む文書データの集合である第2文書グループにおいて所定個数以上含まれ、かつ、前記第1用語および前記第2用語とは異なる用語を、前記第1用語に対して等位の関係にある第3用語として検出する第3用語検出部と、
    前記第3用語を含む文書データを外部装置から受信する第3文書データ受信部と、
    文書データの情報量を算出する情報量計算部と、
    各文書グループにおける文書データの情報量から、文書グループごとの累積情報量を、世間の話題の規模を示す話題規模値として算出する話題規模値計算部と、
    話題規模値を画面表示させる規模値表示部と、
    を備え
    前記話題規模値計算部は、前記第1文書グループにおける文書データの情報量から、前記第1文書グループにおける累積情報量を第1用語の話題規模値として算出し、前記第3用語を含む文書データの集合である第3文書グループにおける文書データの情報量から、前記第3文書グループにおける累積情報量を第3用語の話題規模値として算出し、
    前記規模値表示部は、第1用語についての話題規模値と、前記第1用語に対する1以上の第3用語それぞれについての話題規模値を一覧表示させることを特徴とする文書処理装置。
  2. 前記第1文書グループおよび前記第2文書グループの積集合についての話題規模値の、前記第1用語の話題規模値に対する相対値を、第2用語の相対話題規模値として算出する相対値計算部と、
    文書データに含まれる日付情報を参照して、所定の期間における文書データに基づいて計算される相対値であって、1以上の第2用語それぞれの相対話題規模値の当該期間における推移を一画面にグラフ表示させる推移表示部と、
    を更に備えることを特徴とする請求項に記載の文書処理装置。
  3. 前記推移表示部は、相対話題規模値の移動平均値の推移をグラフ表示させることを特徴とする請求項2に記載の文書処理装置。
  4. 前記第3用語検出部は、前記第1文書グループにおいて、前記第1用語以外で最も多くの文書データに含まれている用語としての第2用語に対して第3用語を検出することを特徴とする請求項1から3のいずれかに記載の文書処理装置。
  5. 所定の用語グループについて各用語の上下関係を定めた構造情報を保持する構造情報保持部を更に備え、
    前記第2用語検出部は、前記第1用語が前記構造情報に含まれるときであって、前記第1用語に対して下位の関係にある下位用語が前記構造情報に定義されているときには、その下位用語についても第2用語として検出することを特徴とする請求項1から4のいずれかに記載の文書処理装置。
  6. 前記第2用語検出部において前記第1文書グループから前記第2用語が検出されたときには、前記第2用語を前記第1用語に対して下位の関係にある下位用語として新たに設定することにより前記構造情報を更新する構造情報生成部を更に備えることを特徴とする請求項に記載の文書処理装置。
  7. 前記情報量計算部は、文書データに含まれる文字数を変数とする所定の単調増加関数によって前記文書データについての情報量を算出することを特徴とする請求項1から6のいずれかに記載の文書処理装置。
  8. その話題規模値が画面表示対象となっている用語のうちのいずれかに対するユーザの選択入力を検出する用語選択部を更に備え、
    前記規模値表示部は、用語が選択されると、前記選択された用語を含む文書グループに含まれ、かつ、前記選択された用語とは異なる用語についての話題規模値を画面表示させることを特徴とする請求項1から7のいずれかに記載の文書処理装置。
  9. 前記規模値表示部は、1以上の第2用語もしくは1以上の第3用語についての話題規模値の画面表示態様として、1以上の第2用語間もしくは1以上の第3用語間における話題規模値の比率を円グラフとして画面表示させ、
    前記用語選択部は、円グラフ表示領域のうちユーザにより指定された領域に対応する用語を選択対象として特定することを特徴とする請求項に記載の文書処理装置。
  10. 前記規模値表示部は、前記選択された用語についての文書グループに含まれる文書データの内容の少なくとも一部のデータを一覧表示させることを特徴とする請求項8または9に記載の文書処理装置。
  11. 前記第1文書データ受信部、前記第2文書データ受信部、および前記第3文書データ受信部は、ウェブログ(Weblog)として電子掲載される記事から文書データを受信することを特徴とする請求項1から10のいずれかに記載の文書処理装置。
JP2005191105A 2005-06-30 2005-06-30 文書処理装置 Expired - Fee Related JP4504878B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005191105A JP4504878B2 (ja) 2005-06-30 2005-06-30 文書処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005191105A JP4504878B2 (ja) 2005-06-30 2005-06-30 文書処理装置

Publications (2)

Publication Number Publication Date
JP2007011651A JP2007011651A (ja) 2007-01-18
JP4504878B2 true JP4504878B2 (ja) 2010-07-14

Family

ID=37750072

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005191105A Expired - Fee Related JP4504878B2 (ja) 2005-06-30 2005-06-30 文書処理装置

Country Status (1)

Country Link
JP (1) JP4504878B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009123015A (ja) * 2007-11-15 2009-06-04 Bbmedia Inc ブランドランク評価システムおよび方法
JP2010092217A (ja) * 2008-10-07 2010-04-22 Kansai Electric Power Co Inc:The 文書処理方法
JP5474455B2 (ja) * 2009-09-07 2014-04-16 日本電信電話株式会社 文書群処理装置、文書群処理方法および文書群処理プログラム
JP5436356B2 (ja) * 2010-07-05 2014-03-05 日本電信電話株式会社 期間別主題語句抽出装置及び方法及びプログラム
JP5362674B2 (ja) * 2010-10-13 2013-12-11 日本電信電話株式会社 文書検索装置及び方法及びプログラム
JP5611853B2 (ja) * 2011-02-03 2014-10-22 Necパーソナルコンピュータ株式会社 情報処理システム、情報処理装置及びプログラム
JP2018190017A (ja) * 2017-04-28 2018-11-29 株式会社アイ・アール・ディー 技術マップ生成装置、技術マップ生成方法およびプログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000231569A (ja) * 1999-02-09 2000-08-22 Just Syst Corp インターネット情報検索装置、インターネット情報検索方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03273360A (ja) * 1990-03-23 1991-12-04 Hitachi Ltd 機械翻訳方法及び装置
JP3607462B2 (ja) * 1997-07-02 2005-01-05 松下電器産業株式会社 関連キーワード自動抽出装置及びこれを用いた文書検索システム
JPH1145268A (ja) * 1997-07-28 1999-02-16 Just Syst Corp 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP3655465B2 (ja) * 1998-04-24 2005-06-02 富士通株式会社 関連語の処理方法
JP5525673B2 (ja) * 2000-09-28 2014-06-18 オラクル・インターナショナル・コーポレイション エンタープライズウェブマイニングシステム及び方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000231569A (ja) * 1999-02-09 2000-08-22 Just Syst Corp インターネット情報検索装置、インターネット情報検索方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体

Also Published As

Publication number Publication date
JP2007011651A (ja) 2007-01-18

Similar Documents

Publication Publication Date Title
Chen et al. Customer engagement research in hospitality and tourism: a systematic review
US9881042B2 (en) Internet based method and system for ranking individuals using a popularity profile
US10257155B2 (en) Suggesting a discussion group based on indexing of the posts within that discussion group
CN101454780B (zh) 基于监视用户行为生成网站简档的方法
CN100485677C (zh) 搜索结果中放置内容排序的个性化
JP4185059B2 (ja) トレンド予測装置およびトレンド予測方法
WO2019203156A1 (ja) チャットボット検索システム、チャットボット検索方法、およびプログラム
US8180674B2 (en) Targeting of advertisements based on mutual information sharing between devices over a network
JP4504878B2 (ja) 文書処理装置
US20100169301A1 (en) System and method for aggregating and ranking data from a plurality of web sites
JP4451354B2 (ja) 話題規模管理装置
CN108537596B (zh) 搜索框内车型推荐的方法、装置、系统及存储器
WO2010119379A1 (en) A method and system for providing customized content using emotional preference
JP5398413B2 (ja) 銘柄推奨システム及び銘柄推奨プログラム
EP2307983A1 (en) Information processing with integrated semantic contexts
CN101432714A (zh) 自动生成推荐链接的方法和设备
WO2010000065A1 (en) Facilitating collaborative searching using semantic contexts associated with information
Jansen et al. Real time search on the web: Queries, topics, and economic value
US20140214548A1 (en) User Profiling Using Submitted Review Content
KR20150046431A (ko) 효과적인 마케팅을 도출하는 자동학습 시스템 및 방법
Rebón et al. Discovering insights within a blue ocean based on business intelligence
US20180047062A1 (en) Systems and methods for delivering relevant content
US20090112847A1 (en) Apparatus and method for enhancing a composition with relevant content pointers
JP2005234689A (ja) コミュニティ評価支援方法および装置
US10013699B1 (en) Reverse associate website discovery

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070313

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091222

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100215

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100420

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100423

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130430

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130430

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140430

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees