JPH10340275A - 情報抽出装置 - Google Patents

情報抽出装置

Info

Publication number
JPH10340275A
JPH10340275A JP16651697A JP16651697A JPH10340275A JP H10340275 A JPH10340275 A JP H10340275A JP 16651697 A JP16651697 A JP 16651697A JP 16651697 A JP16651697 A JP 16651697A JP H10340275 A JPH10340275 A JP H10340275A
Authority
JP
Japan
Prior art keywords
topic
document
word
phrase
evaluation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP16651697A
Other languages
English (en)
Other versions
JP3799750B2 (ja
Inventor
Naoki Hayashi
直樹 林
Takeshi Tanaka
剛 田中
Hideaki Munakata
英明 宗像
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP16651697A priority Critical patent/JP3799750B2/ja
Publication of JPH10340275A publication Critical patent/JPH10340275A/ja
Application granted granted Critical
Publication of JP3799750B2 publication Critical patent/JP3799750B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 複数の文書から話題を抽出するだけでなく、
更に、話題をより有効的に利用するための種々の情報を
抽出することのできる情報抽出装置を提供する。 【解決手段】 単語解析部2及び話題解析部4が文書デ
ータベース1に保持された複数の文書に含まれる特定の
語句の時間的な分布を文書の更新日時に基づいて検出し
て、分布の強度が高い語句を話題語句として抽出し、話
題カテゴリ解析部6が話題語句と同一文書に含まれる他
の語句をカテゴリ語句として抽出し、話題カテゴリ記憶
部7が話題語句をカテゴリ語句を用いて分類して管理す
る。また、話題評価解析部9が話題語句と同一文書に含
まれる評価キーワード記憶部8に保持されたキーワード
と同一のキーワードを検出し、話題評価記憶部が話題語
句と検出されたキーワードとを対応付けて管理する。し
たがって、複数の話題語句をカテゴリ語句によって関連
付けて抽出することができ、また、話題語句に対する評
価を表しているキーワードを抽出することができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、複数の電子文書か
ら話題となる語句を抽出する情報抽出装置に関する。
【0002】
【従来の技術】近年、広域コンピュータネットワークを
利用した電子商取引が盛んになってきている。このよう
な電子商取引によると、取り引き相手の所在地や活動地
域といった地理的制限に依存せずに、多くの見込み客に
対して安価に営業活動を行うことができる。
【0003】このような電子商取引では、商品の売り手
が商品カタログをネットワーク上に公開したり、直接買
い手に商品の提案書を送付している。一方、商品の買い
手は、多数の文書に示された複数の購入候補の商品から
どの商品が適切なものかを判断しなければならない。
【0004】このように買い手が購入候補の商品の中か
ら適切なものを判断する上では、購入候補の商品に関す
る動向を知ることは有用である。すなわち、今まで商品
に関するどのような話題があるか、また、今後どのよう
な商品が予定されているかといった話題を買い手が知る
ことで、売り手の提案する商品が機能や価格の面で妥当
なものであるか否かを買い手が判断できるようになる。
【0005】ここで、上記したような話題に関する情報
を収集する方法としては、例えば、ネットワーク等に存
在する複数の電子文書から収集する方法があり、複数の
文書から話題となっている単語を抽出する従来の技術と
しては、特開平7−141396号公報に示された技術
がある。この技術においては、装置に入力された文書に
含まれる単語の出現頻度を記録し、或る文書の入力時に
ある単語の出現頻度があらかじめ規定された閾値を超え
た場合に、この単語を現在の話題として抽出するもので
ある。
【0006】また、他にも特開平8−77178号公報
に示される技術がある。この技術においては、ある単語
の出現頻度が時間的に単調減少するものがあれば、その
単語が話題であるとして抽出するものである。また、他
にも特開平7−325832号公報に示される技術があ
る。この技術においては、特定分野・期間において話題
となった単語を検索したり、特定の単語と同時に話題と
なった単語を検索したり、特定の単語が話題となった分
野・期間を検索したりするものである。
【0007】
【発明が解決しようとする課題】しかしながら、従来の
技術においては、話題となっている複数の単語は抽出で
きても、各単語間の関連についての情報は何ら抽出され
ておらず、例えば、抽出された複数の単語が或る同一の
事項(例えば、商品)に関する話題を表す単語である場
合であっても、これら抽出された複数の単語が同一の事
項についての話題を表しているといったことを認識する
ことはできない。このため、或る事項についての複数の
話題を把握するといったことは不可能であり、また、或
る事項についての話題の推移を把握するといったことも
できない。
【0008】また、従来の技術では、或る話題に関する
情報として、或る話題が存在している期間について抽出
することができるが、或る商品に人気がある場合であっ
ても、人気がない場合であっても、商品に関する話題が
発生する可能性があり、また、或る商品が入手不能とな
ってしまった場合であっても、或る商品が広く定着して
しまった場合であっても或る商品に関する話題が消える
可能性があるといった現状を考えれば、抽出された話題
が存在している期間の情報だけでは、なぜその話題が発
生したか、なぜその話題が消えてしまったか等といった
話題の発生、消滅等といったことについての要因を把握
することができなかった。
【0009】本発明は、上記した従来の事情に鑑みてな
されたもので、複数の文書から話題を抽出するだけでな
く、更に、話題をより有効的に利用するための種々の情
報を抽出することのできる情報抽出装置を提供すること
目的としている。
【0010】
【課題を解決するための手段】上記した目的を達成する
ために本発明に係る情報抽出装置は、文書を当該文書の
更新日時に関する情報とともに保持する文書データベー
スと、文書データベースに保持された複数の文書に含ま
れる特定の語句の時間的な分布を文書の更新日時に基づ
いて検出して、分布の強度が高い語句を話題語句として
抽出する話題語句抽出手段と、話題語句と同一文書に含
まれる他の語句をカテゴリ語句として抽出する話題カテ
ゴリ抽出手段と、話題語句をカテゴリ語句を用いて分類
して管理する話題管理手段と、を備えたことを特徴とす
る。
【0011】ここで、語句とは、一つの単語であっても
よく、複数の単語であってもよい。また、分布の強度の
高い語句とは、分布している時間範囲に対する分布中の
ピークの度合いが高い語句のことをいい、例えば、短い
時間範囲に分布している語句、分布中のピークが突出し
ている語句等がある。この分布強度が高い語句は、話題
性の高い語句とみなすることができる。
【0012】上記した情報抽出装置では、話題語句抽出
手段が文書データベースに保持された複数の文書に含ま
れる特定の語句の時間的な分布を文書の更新日時に基づ
いて検出して、分布の強度が高い語句を話題語句として
抽出し、話題カテゴリ抽出手段が話題語句と同一文書に
含まれる他の語句をカテゴリ語句として抽出し、話題管
理手段が話題語句をカテゴリ語句を用いて分類して管理
する。
【0013】したがって、文書から話題性の高い話題語
句を抽出できるとともに、話題語句が関係するカテゴリ
語句によって複数の話題語句を関連付けて抽出すること
ができる。更に、話題語句に当該話題語句を含む文書の
更新日時に関する情報を対応付けておくことにより、同
一カテゴリ語句に分類される話題語句を時系列に表示さ
せることができ、同一カテゴリ語句に関する話題語句の
推移を示すことができる。
【0014】また、本発明に係る情報抽出装置は、文書
を当該文書の更新日時に関する情報とともに保持する文
書データベースと、文書データベースに保持された複数
の文書に含まれる特定の語句の時間的な分布を検出し
て、分布の強度が高い語句を話題語句として抽出する話
題語句抽出手段と、評価を表すキーワードを保持する評
価キーワード保持手段と、話題語句と同一文書に含まれ
るキーワードを検出する評価検出手段と、話題語句と検
出されたキーワードとを対応付けて管理する評価管理手
段と、を備えたことを特徴とする。
【0015】上記した情報抽出装置では、話題語句抽出
手段が文書データベースに保持された複数の文書に含ま
れる特定の語句の時間的な分布を検出して、分布の強度
が高い語句を話題語句として抽出し、評価検出手段が話
題語句と同一文書に含まれる評価キーワード保持手段に
保持されたキーワードと同一のキーワードを検出し、評
価管理手段が話題語句と検出されたキーワードとを対応
付けて管理する。
【0016】したがって、文書から話題性の高い話題語
句が抽出できるとともに、話題語句に対する評価を表し
ているキーワードを抽出することができる。更に、検出
されたキーワードに、当該キーワードを含む文書の更新
日時に関する情報を対応付けておくことにより、或る話
題語句に対する評価を表しているキーワードを時系列に
表示させることができ、話題語句に対する評価の推移を
示すことができる。
【0017】
【発明の実施の形態】本発明の一実施例に係る情報抽出
装置を図1を参照して説明する。この情報抽出装置は、
文書データベース1と、単語解析部2と、単語記憶部3
と、話題解析部4と、話題記憶部5と、話題カテゴリ解
析部6と、話題カテゴリ記憶部7と、評価キーワード記
憶部8と、話題評価解析部9と、話題評価記憶部10
と、提示選択部11と、情報提示部12と、を備えてい
る。
【0018】文書データベース1は、複数の電子文書を
記憶する機能を持ち、各電子文書を、文書の内容が最後
に更新された更新日時の情報と、各文書を一意に識別す
るための文書IDとともに記憶している。本実施例で
は、文書フォーマットとしては、HTML(HyperText
Mark-Up Language)を用い、文書IDとしては、文書が
格納されている場所を示すURL(uniform resource l
ocator)を用いている。
【0019】また、文書データベース1は、他の機能部
から電子文書に対する問い合わせ命令を受け付け、当該
問い合わせ命令に従って処理を行い、当該処理の結果を
前記他の機能部へ返答する機能を有している。図2に
は、本文書データベース1が受け付ける問い合わせ命令
及び当該問い合わせ命令の引数と、問い合わせ命令に対
する処理の結果を示してある。例えば、文書データベー
ス1が問い合わせ命令”全ID”を受け付けた場合に
は、文書データベース1に蓄積された全文書の文書ID
を返答し、また、或る文書IDを引数とする問い合わせ
命令”更新日時”を受け付けた場合には、引数の文書I
Dで示される文書の更新日時を返答する。なお、この文
書データベース1は、ネットワークによって接続された
複数のコンピュータシステムによって実現することもで
き、単一のコンピュータシステムによって実現すること
もできる。
【0020】単語解析部2は、文書データベース1に対
して問い合わせを行い、文書データベース1に記憶され
たすべての文書の文書IDを入手し、入手した文書ID
が示す文書の内容を文書データベース1に対して問い合
わせを行って順次入手し、入手した内容に含まれる単語
を抽出し、抽出した単語と、当該単語を含んでいた文書
の文書IDとを単語記憶部3に通知する。なお、文書の
内容から単語を抽出する方法としては、形態素解析等と
いった一般に知られている方法を用いることができる。
【0021】単語記憶部3は、単語解析部2から通知さ
れた単語と文書IDとを対応付けて記憶する機能を有し
ている。本実施例では、辞書形式のデータ構造によって
単語と文書IDとを対応付けて記憶している。すなわ
ち、辞書の項目見出しに当たるデータを単語とし、項目
内容に当たるデータを文書IDとして記憶している。な
お、単語記憶部3は、記憶した単語が重複しないよう
に、データを更新している。
【0022】話題解析部4は、単語記憶部3に記憶され
た各単語について、各単語を含んでいる文書の更新日時
の情報に基づいて時間的な分布を検出し、短期間に分布
している単語又はピークを持つ分布をしている単語、す
なわち、話題性が高いと考えられる単語を話題語句とし
て抽出し、抽出した話題語句を話題記憶部5に通知する
機能を有している。なお、話題解析部4の機能の詳細な
説明については後述する動作説明において行う。話題記
憶部5は、話題解析部4から通知された話題語句を記憶
する機能を有している。
【0023】話題カテゴリ解析部6は、話題の推移を分
類するための項目を表す語句(以下、話題カテゴリ語句
という。)を、文書データベース1に記憶された文書か
ら抽出し、抽出した話題カテゴリ語句と、当該話題カテ
ゴリ語句に関わる複数の話題語句とを話題カテゴリ記憶
部7に通知する。
【0024】本実施例では、話題カテゴリ語句として
は、複数の話題語句とともに文書に出現する割合の高い
単語としている。すなわち、単語記憶部3に記憶された
或る単語に対応づけられている複数の文書IDが、話題
記憶部5に記憶された複数の話題語句に単語記憶部3に
おいて対応付けられている複数の文書IDに含まれる割
合が高い(例えば、9割以上)場合に、前記単語を前記
複数の話題語句に対する話題カテゴリ語句とする。な
お、話題カテゴリ語句は、話題語句でない語句が好まし
く、話題語句である場合にあっては、より広い時期に渡
って文書に出現するものが好ましい。
【0025】例えば、”200MHz”という話題語句
が”文書1”、”文書2”に対応付けられ、”300MH
z”という話題語句が”文書2”、”文書3”、”文書
4”に対応付けられ、”CPU”という単語が”文書
1”、”文書2”、”文書3”、”文書4”に対応付け
られている場合には、”CPU”が話題語句”200MH
z”及び”300MHz”の話題カテゴリ語句となる。
【0026】話題カテゴリ記憶部7は、話題カテゴリ解
析部6から通知された、話題カテゴリ語句と複数の話題
語句とを対応付けて記憶する機能を有している。
【0027】評価キーワード記憶部8は、話題に対する
評価を表すキーワードを記憶する機能を有している。本
実施例では、品質に関する評価、コストに関する評価、
デリバリーに関する評価、総合的な評価という4種類の
評価を表すキーワードを記憶しており、品質に関する評
価のキーワードとしては、例えば、「最新」「最先端」
「ハイエンド」「エントリー」「多機能」「高速」「高
?画質」「機能?不足」「練り込み?不足」「完成度」
「個性的」等があり、コストに関する評価のキーワード
としては、例えば、「コストパフォーマンス」「ランニ
ングコスト」「高コスト」「高価」「低コスト」「安
価」等があり、デリバリーに関する評価のキーワードと
しては、例えば、「発売?開始」「販売?開始」「リリ
ース?遅れ」等があり、総合的な評価のキーワードとし
ては、例えば、「おすすめ」「チョイス」「様子?見」
「待ち」「見送り」「模様眺め」等がある。
【0028】なお、上記したキーワード中の”?”は、
0又は1個の文字が間に入っているといったことを示し
ており、例えば、「高?画質」といったキーワードは、
「高画質」、「高い画質」等といったものをすべて含ん
だものとなっている。上記したように、複数の観点の違
うキーワードを用意しておくことによって、或る話題に
対する種々の観点からの評価を文書から抽出することが
できる。
【0029】話題評価解析部9は、評価キーワード記憶
部8に記憶されているキーワードに基づいて、文書から
話題語句に対する評価のキーワードを検出し、話題語句
と、当該話題語句に対する評価のキーワードと、当該キ
ーワードを抽出した文書IDと、当該文書IDの文書の
更新日時の情報と、を組としたデータを話題評価記憶部
10に通知する機能を有している。なお、話題評価解析
部9の機能の詳細な説明については後述する動作説明に
おいて行う。
【0030】話題評価記憶部10は、話題評価解析部9
から通知されたデータを記憶する機能を有しており、新
たなデータが通知された場合には、現在までのデータに
追加して記憶する。
【0031】提示選択部11は、情報提示部12に提示
させる情報に対するユーザからの選択入力を受け付ける
機能を有している。本実施例では、すべての話題語句の
一覧、すべての話題カテゴリの一覧、特定の話題カテゴ
リに分類される話題語句の一覧、特定の話題語句と同一
の話題カテゴリに分類される話題語句の一覧、特定の話
題語句に対する評価一覧、特定話題語句に対する評価の
推移、特定話題カテゴリにおける話題語句の推移、特定
の話題カテゴリにおける話題語句の推移と評価の推移、
特定の話題語句が含まれる文書の一覧、特定の文書内容
等といった選択肢がある。なお、上記した選択肢を選択
した後に、更に複数の選択肢がある場合についても、提
示選択部11は、選択入力を受け付ける。
【0032】情報提示部12は、提示選択部11での選
択入力に応じた情報を収集してユーザに提示する機能
と、提示選択部11による選択入力に際して、取りうる
選択肢(例えば、特定の話題語句と同一の話題カテゴリ
に分類される話題語句の一覧を表示させる選択入力を提
示選択部11が受け付けた場合には、特定の話題語句と
して選ぶことができる話題語句の候補)を提示する機能
とを有している。なお、情報提示部12の機能の詳細な
説明は後述する動作説明において行う。
【0033】ここで、特許請求の範囲にいう話題語句抽
出手段は、主に、上記した話題解析部4によって構成さ
れ、話題カテゴリ抽出手段は、主に、上記した話題カテ
ゴリ解析部6によって構成され、話題管理手段は、主
に、上記した話題カテゴリ記憶部7によって構成され、
評価検出手段は、主に、話題評価解析部9によって構成
され、評価管理手段は、主に、話題評価記憶部10によ
って構成され、出力手段は、主に、情報提示部12によ
って構成されている。
【0034】次に、上記した情報抽出装置の処理動作を
図3を参照して説明する。なお、図4及び図5を途中取
り混ぜて説明を行う。まず、単語解析部2が文書データ
ベース1の文書から単語を抽出し、当該単語と文書ID
とを単語記憶部3に通知し、通知を受けた単語記憶部3
が単語と文書IDとを対応付けて記憶する(ステップS
1)。そして、話題解析部4が単語記憶部3に記憶され
た単語から話題語句を抽出する処理を行い、話題記憶部
5が話題解析部4から通知された話題語句を記憶する
(ステップS2)。
【0035】ここで、上記した話題解析部4による話題
語句を抽出する処理を図4を参照して詳細に説明する。
まず、話題解析部4は、分布を調べる対象となる時間軸
上の区間を設定する(ステップS7)。本実施例では、
図6(a)に示すように、文書データベース1の最古の
文書の更新日時Toを時間軸上の始点とし、最新の文書
の更新日時Tnを時間軸上の終点とした区間(以下、設
定区間という)を設定する。そして、単語記憶部3に記
憶されているすべての単語について処理を行ったか否か
を判断し(ステップS8)、未処理の単語がある場合に
は、未処理の単語について処理(ステップS9〜S1
4)を行う一方、未処理の単語がない場合には、処理を
終了する。
【0036】すなわち、未処理の単語がある場合には、
単語記憶部3から未処理の単語を一つ選択し(ステップ
S9)、選択した単語と対応付けられた文書IDが表す
文書の更新日時を文書データベース1に問い合わせ、問
い合わせた結果の更新日時を図6(b)に示すように時
間軸上にマップする(ステップS10)。そして、時間
軸上にマップされた分布の幅が、設定区間に較べて十分
短いか否かを判断する(ステップS11)。なお、本実
施例では、前記分布の幅が(Tn−To)/4 より短い
か否かによって判断している。
【0037】そして、設定区間に比べて十分に短くない
と判断した場合には、設定区間をn個(例えば、20
個)の小区間に分割し、各小区間ごとに、前記マップし
た更新日時の頻度の分布を採取し(ステップS12)、
当該採取した分布がピークを持つ山なりの分布(例え
ば、図6(c)に示す分布)に当てはまるか否かを判定
する(ステップS13)。なお、本実施例では、分布が
山なりであるか否かの判定は、カイ2乗分布にあてはま
るか否かによって判定している。そして、この判定の結
果、山なり分布ではない、例えば、図6(d)に示すよ
うな一様に近い分布の場合には、前記選択した単語が常
に一様に出現することを意味している、すなわち、話題
性が高くないことを意味しているので、前記選択した単
語についての処理を終了する一方、山なりの分布である
場合には、前記選択した単語が一時的にかなりの頻度で
出現したことを意味している、すなわち、話題性が高い
ことを意味しているので、前記選択した単語を話題語句
として話題記憶部5に通知し(ステップS14)、前記
選択した単語に対する処理を終了する。
【0038】一方、設定区間に比べて十分に短いと判断
した場合には、前記選択した単語が或る短い時間に出現
していることを意味しているので、前記選択した単語を
話題性の高い話題語句として話題記憶部5に通知し(ス
テップS14)、前記選択した単語に対する処理を終了
する。
【0039】上記したステップS2の処理が終了する
と、話題カテゴリ解析部6が、話題記憶部5に記憶され
ている話題語句の中の複数の話題語句に対応付けられて
いる文書IDを単語記憶部3から把握し、把握した文書
IDと同一の文書IDが高い確率で対応付けられている
単語を単語記憶部3から話題カテゴリ語句として抽出
し、当該抽出した話題カテゴリ語句及び前記話題語句中
の複数の話題語句を話題カテゴリ記憶部7に通知する。
そして、話題カテゴリ記憶部7が、話題カテゴリ解析部
6から通知された、話題カテゴリ語句と複数の話題語句
とを対応付けて記憶する(ステップS3)。これによ
り、関係を有する複数の話題語句同士を関連付けて管理
することができる。
【0040】次いで、話題評価解析部9が話題語句に対
する評価を文書から解析する処理を行い、話題評価記憶
部10が話題評価解析部9から通知されたデータを記憶
する(ステップS4)。
【0041】ここで、上記した話題語句に対する評価を
解析する処理を図5を参照して詳細に説明する。まず、
話題評価解析部9は、話題記憶部5に記憶されているす
べての話題語句について処理を行ったか否かを判断し
(ステップS15)、未処理の話題語句がある場合に
は、未処理の話題語句について処理(ステップS16〜
S23)を行う一方、未処理の話題語句がない場合に
は、処理を終了する。
【0042】すなわち、未処理の話題語句がある場合に
は、話題記憶部5から未処理の話題語句を一つ選択し
(ステップS16)、当該話題語句に対応付けられてい
る文書IDの一つを単語記憶部3から選択し(ステップ
S17、S18)、選択した文書IDの文書の内容を文
書データベース1から取り出して、当該文書の内容から
評価キーワード記憶部8に記憶された評価キーワードと
同一の評価キーワードを検出する(ステップS19)。
【0043】そして、文書の内容に評価キーワードが検
出できない場合には、他の文書IDの文書についての処
理(ステップS17〜S23)を行う。一方、文書の内
容に評価キーワードが検出できた場合には、当該文書の
内容に話題記憶部5に記憶されている他の話題語句が含
まれているか否かを検出し(ステップS20)、また、
文書の内容において、評価キーワードが前記話題語句と
同一の文中に含まれるか否かを検出し(ステップS2
1)、また、文書の内容において、評価キーワード及び
前記話題語句が含まれている段落に、他の話題語句が含
まれるているか否かを検出する(ステップS22)。
【0044】検出の結果、他の話題語句が含まれていな
いと検出した場合、同一の文中に評価キーワード及び前
記話題語句が含まれていると検出した場合、又は、評価
キーワード及び前記話題語句が含まれている段落に他の
話題語句が含まれていないと検出した場合には、前記検
出された評価キーワードは、すべて前記話題語句に対す
る評価であると考えられるので、前記文書の更新日時を
文書データベース1から取得し、当該更新日時と、検出
した評価キーワードと、前記文書のIDと、前記話題語
句とを組にしたデータを話題評価記憶部10に通知して
(ステップS23)、他の文書IDの文書に対する処理
(ステップS17〜S23)を行う。一方、上記したい
ずれにも該当しない場合には、当該文書は前記話題語句
に対する評価を有さないこと表しているので、他の文書
についての処理(ステップS17〜S23)を行う。
【0045】上記したステップS4が終了した後に、提
示選択部11が提示可能な情報を表す選択肢を情報提示
部12に提示させて、ユーザからの選択入力を受け付け
(ステップS5)、情報提示部12が提示選択部11に
よって受け付けられた選択入力に応じて情報を提示する
(ステップS6)。
【0046】例えば、提示選択部11によって、すべて
の話題語句の一覧についての選択入力が受け付けられた
場合には、情報提示部12は話題記憶部5からすべての
話題語句を取り出して、リスト形式の一覧表示を行う。
また、提示選択部11によってすべての話題カテゴリの
一覧についての選択入力が受け付けられた場合には、情
報提示部12は話題カテゴリ記憶部7からすべての話題
カテゴリ語句を取り出して、リスト形式の一覧表示を行
う。
【0047】また、提示選択部11によって特定の話題
カテゴリに分類される話題語句の一覧についての選択入
力が受け付けられ、更に、対象の話題カテゴリ語句の入
力が受け付けられた場合には、情報提示部12は、話題
カテゴリ記憶部7から該当する話題カテゴリ語句に対応
する複数の話題語句を取り出して、リスト形式の一覧表
示を行う。これにより、ユーザに複数の関連する話題語
句を把握させることができる。また、提示選択部11に
よって特定の話題語句に対する評価一覧についての選択
入力が受け付けられ、更に、対象の話題語句の入力が受
け付けられた場合には、情報提示部12が、話題評価記
憶部10から話題語句に対応付けられている評価を取り
出して、リスト形式の一覧表示を行う。これにより、ユ
ーザに話題語句についてどのような評価がなされている
のかを容易に把握させることができる。
【0048】また、提示選択部11によって特定の話題
カテゴリにおける話題語句の推移と評価の推移について
の選択入力が受け付けられ、更に、対象の話題カテゴリ
語句の入力が受け付けられた場合には、情報提示部12
は、話題カテゴリ記憶部7から話題カテゴリ語句に対応
付けられている話題語句を抽出し、話題評価記憶部10
から当該抽出した話題語句に対応するデータを取り出し
て、これらデータに基づいて図7(a)に示すチャート
形式で表示を行う。なお、図7(a)には、話題カテゴ
リ語句”CPU”についての話題語句の推移と評価の推
移を表示したものを示してある。
【0049】同図では、一つの横棒21が一つの話題語
句と対応付けられており、話題語句が文書に出現する期
間を示している。そして、横棒には、吹き出し22が併
設されており、一つの吹き出し22は、横棒21の表す
話題語句に対する評価を表す評価キーワード及び当該評
価がされた日時を示している。なお、評価キーワードと
当該評価がされた時間軸状の位置は、話題評価記憶部1
0に記憶されたデータによって一意に決定できる。上記
したチャートによると、ユーザは、或る話題カテゴリ語
句にまとめられる複数の話題語句の推移を容易に把握す
ることができるとともに、各話題語句に対する評価の推
移についても容易に把握することができる。
【0050】図7(b)には、上記した図7(a)と吹
き出しを表示する方法を変えたものを示してある。この
図7(b)では、カーソル23が接した位置に評価があ
る場合に当該評価の吹き出し22を表示するものであ
る。なお、吹き出しを表示する方法は、提示選択部11
により選択することができるようになっている。
【0051】なお、上記したチャートでは、話題語句の
出現した期間を表す横棒21が単色により描画されてい
るが、当該横棒に対して、話題語句の出現する頻度によ
って、例えば、濃淡(頻度が高い場合に濃くする)或い
は色相(頻度が高い場合に暖色を用い、頻度が少ない場
合に寒色を用いる)を変えることにより、対応する話題
語句がよく取り上げられているか否かをユーザに容易に
把握させることができる。なお、特定の話題カテゴリに
おける話題語句の推移について、或いは、特定の話題語
句に対する評価の推移については、上記した特定の話題
カテゴリにおける話題語句の推移と評価の推移について
の表示動作の一部の動作によって、表示させることがで
きる。
【0052】なお、上記した実施例では、話題カテゴリ
語句として、複数の話題語句とともに文書に出現する割
合の高い単語を用いていたが、これに限らず、例えば、
話題語句の分類に適すると考えられる複数の話題カテゴ
リ語句の候補を予め保持しておき、当該保持している候
補の中のいずれかが話題語句と同一文書に出現する場合
に、当該出現する候補を前記話題語句の話題カテゴリ語
句としてもよく、また、文書から話題語句の上位概念を
表す語句を解析して、当該語句を話題カテゴリ語句とし
てもよく、要は、話題語句と同一の文書に含まれる他の
語句であり、話題語句の分類に適した語句であればよ
い。
【0053】また、上記した実施例では、話題語句を分
類するための話題カテゴリ語句、及び、話題語句に対す
る評価を文書から抽出して管理するようにしていたが、
例えば、話題カテゴリ語句だけを抽出して管理するよう
にしてもよく、この場合には、複数の関連する話題語句
を結び付けて提供することができる。また、話題語句に
対する評価だけを抽出して管理するようにしてもよく、
この場合には、話題語句に対する評価を容易に提供する
ことができる。
【0054】なお、上記した各機能手段はプロセッサが
(ROM、RAM等に予め格納された)制御プログラム
を実行することにより構成されるが、本発明ではこれら
機能手段を独立したハードウエア回路として構成しても
よい。また、本発明は上記の制御プログラムをフロッピ
ーディスクやCD−ROM等といったコンピュータが読
み取り可能な記憶媒体として把握させておき、当該制御
プログラムを記憶媒体から読み取ってプロセッサに実行
させることにより、本発明に係る処理を実行させること
もできる。
【0055】
【発明の効果】以上説明したように、本発明に係る情報
抽出装置では、複数の文書に含まれる特定の語句の時間
的な分布を文書の更新日時に基づいて検出して、分布の
強度が高い語句を話題語句として抽出し、話題語句と同
一文書に含まれる他の語句をカテゴリ語句として抽出
し、話題語句をカテゴリ語句を用いて分類して管理する
ようにしたために、関係を有する複数の話題語句を関連
付けて管理することができる。したがって、ユーザに複
数の関連する話題語句を提供することができる。
【0056】また、本発明に係る情報抽出装置では、複
数の文書に含まれる特定の語句の時間的な分布を検出し
て、分布の強度が高い語句を話題語句として抽出し、話
題語句と同一文書に含まれる話題語句に対する評価を表
すキーワードを検出し、話題語句と検出されたキーワー
ドとを対応付けて管理するようにしたために、話題語句
に対する評価を管理することができる。したがって、ユ
ーザに話題語句に対する評価を提供することができる。
更に、本発明に係る情報抽出装置では、文書から抽出し
て管理する情報に対して、情報を抽出した文書の更新日
時を対応付けるようにしたために、情報を時系列に表示
出力することができ、ユーザに関連する話題語句の推移
を提供することや、話題語句に対する評価の推移を提供
することができる。
【図面の簡単な説明】
【図1】 本発明の一実施例に係る情報抽出装置の構成
図である。
【図2】 本発明の一実施例に係る文書データベースの
問い合わせ命令を説明する図である。
【図3】 本発明の一実施例に係る情報抽出装置の全体
の処理動作を説明するフローチャートである。
【図4】 本発明の一実施例に係る話題解析部の処理動
作を説明するフローチャートである。
【図5】 本発明の一実施例に係る話題評価解析部の処
理動作を説明するフローチャートである。
【図6】 分布を説明する図である。
【図7】 本発明の一実施例に係る情報提示部による情
報提示の一例を示す図である。
【符号の説明】
1・・文書データベース、 2・・単語解析部、3
・・単語記憶部、 4・・話題解析部、5
・・話題記憶部、 6・・話題カテゴリ解
析部、7・・話題カテゴリ記憶部、 8・・評価キー
ワード記憶部、9・・話題評価解析部、 10・
・話題評価記憶部、11・・提示選択部、 1
2・・情報提示部。

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】文書を当該文書の更新日時に関する情報と
    ともに保持する文書データベースと、 文書データベースに保持された複数の文書に含まれる特
    定の語句の時間的な分布を文書の更新日時に基づいて検
    出して、分布の強度が高い語句を話題語句として抽出す
    る話題語句抽出手段と、 話題語句と同一文書に含まれる他の語句をカテゴリ語句
    として抽出する話題カテゴリ抽出手段と、 話題語句をカテゴリ語句を用いて分類して管理する話題
    管理手段と、を備えたことを特徴とする情報抽出装置。
  2. 【請求項2】文書を当該文書の更新日時に関する情報と
    ともに保持する文書データベースと、 文書データベースに保持された複数の文書に含まれる特
    定の語句の時間的な分布を検出して、分布の強度が高い
    語句を話題語句として抽出する話題語句抽出手段と、 評価を表すキーワードを保持する評価キーワード保持手
    段と、 話題語句と同一文書に含まれるキーワードを検出する評
    価検出手段と、 話題語句と検出されたキーワードとを対応付けて管理す
    る評価管理手段と、を備えたことを特徴とする情報抽出
    装置。
  3. 【請求項3】文書を当該文書の更新日時に関する情報と
    ともに保持する文書データベースと、 文書データベースに保持された複数の文書に含まれる特
    定の語句の時間的な分布を検出して、分布の強度が高い
    語句を話題語句として抽出する話題語句抽出手段と、 話題語句と同一文書に含まれる他の語句をカテゴリ語句
    として抽出する話題カテゴリ抽出手段と、 話題語句をカテゴリ語句を用いて分類して管理する話題
    管理手段と、 評価を表すキーワードを保持する評価キーワード保持手
    段と、 話題語句と同一文書に含まれるキーワードを検出する評
    価検出手段と、 話題語句と検出されたキーワードとを対応付けて管理す
    る評価管理手段と、を備えたことを特徴とする情報抽出
    装置。
  4. 【請求項4】請求項1又は請求項3に記載した情報抽出
    装置において、 前記話題管理手段は、更に、話題語句に対して当該話題
    語句を含む文書の更新日時に関する情報を対応付けて管
    理することを特徴とする情報抽出装置。
  5. 【請求項5】請求項2又は請求項3に記載した情報抽出
    装置において、 前記評価管理手段は、更に、検出されたキーワードを含
    む文書の更新日時に関する情報を対応付けて管理するこ
    とを特徴とする情報抽出装置。
  6. 【請求項6】請求項4又は請求項5に記載した情報抽出
    装置において、 更に、話題管理手段或いは評価管理手段に管理されてい
    る情報を時系列に並べて出力する出力手段を備えたこと
    を特徴とする情報抽出装置。
JP16651697A 1997-06-09 1997-06-09 情報抽出装置 Expired - Fee Related JP3799750B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP16651697A JP3799750B2 (ja) 1997-06-09 1997-06-09 情報抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP16651697A JP3799750B2 (ja) 1997-06-09 1997-06-09 情報抽出装置

Publications (2)

Publication Number Publication Date
JPH10340275A true JPH10340275A (ja) 1998-12-22
JP3799750B2 JP3799750B2 (ja) 2006-07-19

Family

ID=15832777

Family Applications (1)

Application Number Title Priority Date Filing Date
JP16651697A Expired - Fee Related JP3799750B2 (ja) 1997-06-09 1997-06-09 情報抽出装置

Country Status (1)

Country Link
JP (1) JP3799750B2 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11143796A (ja) * 1997-11-10 1999-05-28 Nippon Telegr & Teleph Corp <Ntt> メーリングリストサービスシステム
KR20010088653A (ko) * 2001-08-17 2001-09-28 우연근 온오프라인 자료의 분류 표기방법
KR20010102687A (ko) * 2000-05-04 2001-11-16 정만원 카테고리 학습 기법을 이용한 주제별 웹 문서 자동 분류방법 및 시스템
KR20020001300A (ko) * 2000-06-27 2002-01-09 전병국 웹 사이트 검색 엔진
JP2002123478A (ja) * 2000-10-17 2002-04-26 Isao:Kk チャットシステム、チャット情報処理装置、チャット情報処理方法、および、記録媒体
JP2006293616A (ja) * 2005-04-08 2006-10-26 Nippon Telegr & Teleph Corp <Ntt> 文書集約方法及び装置及びプログラム
JP2006350656A (ja) * 2005-06-15 2006-12-28 Nippon Telegr & Teleph Corp <Ntt> 時系列文書集約方法及び装置及びプログラム及びプログラムを格納した記憶媒体
WO2010128574A1 (ja) * 2009-05-07 2010-11-11 日本電気株式会社 判定装置、判定方法、及びコンピュータ読み取り可能な記録媒体
KR101318843B1 (ko) * 2011-08-30 2013-10-17 성균관대학교산학협력단 시간 정보를 활용한 블로그 카테고리 분류 방법 및 장치

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11143796A (ja) * 1997-11-10 1999-05-28 Nippon Telegr & Teleph Corp <Ntt> メーリングリストサービスシステム
KR20010102687A (ko) * 2000-05-04 2001-11-16 정만원 카테고리 학습 기법을 이용한 주제별 웹 문서 자동 분류방법 및 시스템
KR20020001300A (ko) * 2000-06-27 2002-01-09 전병국 웹 사이트 검색 엔진
JP2002123478A (ja) * 2000-10-17 2002-04-26 Isao:Kk チャットシステム、チャット情報処理装置、チャット情報処理方法、および、記録媒体
KR20010088653A (ko) * 2001-08-17 2001-09-28 우연근 온오프라인 자료의 분류 표기방법
JP2006293616A (ja) * 2005-04-08 2006-10-26 Nippon Telegr & Teleph Corp <Ntt> 文書集約方法及び装置及びプログラム
JP4525433B2 (ja) * 2005-04-08 2010-08-18 日本電信電話株式会社 文書集約装置及びプログラム
JP2006350656A (ja) * 2005-06-15 2006-12-28 Nippon Telegr & Teleph Corp <Ntt> 時系列文書集約方法及び装置及びプログラム及びプログラムを格納した記憶媒体
JP4595692B2 (ja) * 2005-06-15 2010-12-08 日本電信電話株式会社 時系列文書集約方法及び装置及びプログラム及びプログラムを格納した記憶媒体
WO2010128574A1 (ja) * 2009-05-07 2010-11-11 日本電気株式会社 判定装置、判定方法、及びコンピュータ読み取り可能な記録媒体
JP5440814B2 (ja) * 2009-05-07 2014-03-12 日本電気株式会社 判定装置、判定方法、及びプログラム
KR101318843B1 (ko) * 2011-08-30 2013-10-17 성균관대학교산학협력단 시간 정보를 활용한 블로그 카테고리 분류 방법 및 장치

Also Published As

Publication number Publication date
JP3799750B2 (ja) 2006-07-19

Similar Documents

Publication Publication Date Title
JP4962967B2 (ja) Webページ検索サーバ及びクエリ推薦方法
US20110161144A1 (en) Information extraction system, information extraction method, information extraction program, and information service system
JP2000137668A (ja) リンク処理方法及び装置
JPH10198706A (ja) 情報検索装置及びその方法
JP2004102803A (ja) 掲示板システム及び情報表示方法
CN111191111A (zh) 内容推荐方法、装置及存储介质
JP6779405B1 (ja) 侵害情報抽出システム、方法及びプログラム
JPH06350546A (ja) 関連番組判定装置
JPH10340275A (ja) 情報抽出装置
JP2003162639A (ja) 銘柄選択支援装置
JP2007233584A (ja) 印象判定システム、広告記事生成システム、印象判定方法、広告記事生成方法、印象判定プログラムおよび広告記事生成プログラム
JP5259436B2 (ja) 知識共有支援装置とその方法及びプログラム
JP2022073872A (ja) 侵害情報抽出システム、方法及びプログラム
JP2001209655A (ja) 情報提供装置、情報更新方法、情報提供プログラムを記録した記録媒体、及び情報提供システム
JP2004192524A (ja) 支援方法、支援装置及びコンピュータプログラム
JP6549173B2 (ja) 計算機システム及び文章データの検索方法
JP2016197332A (ja) 情報処理システム、情報処理方法、およびコンピュータプログラム
JP3347702B2 (ja) 電子カタログアグリゲーションシステム
US20020062341A1 (en) Interested article serving system and interested article serving method
CN111353292B (zh) 针对用户操作指令的解析方法及装置
JP2005100221A (ja) 投資判断支援情報提供装置および方法
JPH11134410A (ja) 証券情報の表示方法とその端末装置
EP4002151A1 (en) Data tagging and synchronisation system
JP2021176085A (ja) ブランド辞書作成装置、商品等評価装置、ブランド辞書作成方法及びプログラム
JP2006293616A (ja) 文書集約方法及び装置及びプログラム

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060327

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060404

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060417

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100512

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110512

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110512

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120512

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130512

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140512

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees