JPH07141396A - 情報ウォッチングシステム - Google Patents

情報ウォッチングシステム

Info

Publication number
JPH07141396A
JPH07141396A JP5287865A JP28786593A JPH07141396A JP H07141396 A JPH07141396 A JP H07141396A JP 5287865 A JP5287865 A JP 5287865A JP 28786593 A JP28786593 A JP 28786593A JP H07141396 A JPH07141396 A JP H07141396A
Authority
JP
Japan
Prior art keywords
word
appearance frequency
information
document
document data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5287865A
Other languages
English (en)
Inventor
Etsunori Tawara
悦紀 田原
Setsuo Shibahara
節男 柴原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP5287865A priority Critical patent/JPH07141396A/ja
Publication of JPH07141396A publication Critical patent/JPH07141396A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 最近顕著に話題になっている特異情報を容易
に抽出すること。 【構成】 入力された文書データを単語データに分解す
る単語分解処理手段と、分解された単語データのそれぞ
れについて出現頻度を検出する出現頻度検出手段と、こ
の出現頻度検出手段が検出した各単語の出現頻度の情報
と文書識別情報とを単語単位に対応付けて蓄積する出現
頻度情報蓄積手段と、この出現頻度情報蓄積手段に対
し、出現頻度検出手段が検出した各単語の新たな出現頻
度の情報を蓄積する前の出現頻度の情報と新たな出現頻
度の情報とを比較し、その差が予め定めた閾値を超えて
いたならば、該当する単語に対応する文書データを文書
データ蓄積手段から検索して出力する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、各種情報の収集、分析
作業に使用する情報ウォッチングシステムに係り、詳し
くは各種情報の中から顕著に増加している特異情報を抽
出する情報ウォッチングシステムに関する。
【0002】
【従来の技術】従来、情報蓄積手段に蓄積した情報の中
から特定の情報を抽出するシステムとして、例えば特開
平05−35795号公報に開示されているように、文
書中の単語出現頻度を検索キーとして用い、その検索キ
ーに対応した文書を抽出するシステムがある。
【0003】また、特開平04−127272号公報に
開示されているように、単語出現頻度によって単語の繋
がりを検索する方法がある。
【0004】ところで、世界各地の社会情勢、特定の技
術分野での技術動向、特定の芸術分野での芸術家の動向
などの情報の中から最近顕著に話題になっている情報を
容易に知りたいという要望が該当する行政機構や企業担
当部署から寄せられている。
【0005】そこで、上記の公報に開示された技術を応
用し、最近顕著に話題になっている情報を抽出するよう
に構成したシステムが考えられる。
【0006】
【発明が解決しようとする課題】しかし、上記公報に開
示された技術は、単語の出現頻度によって該当する単語
あるいは繋がりを検索するものであるため、この場合の
「単語」を「情報」に単に置き換えたとしても、検索さ
れる情報は過去から現在までの蓄積量の多い情報になっ
てしまう。すなわち、最近特に増加している特異情報は
抽出することができない。
【0007】本発明は、このような問題を解決すべくな
されたもので、その目的は、最近顕著に話題になってい
る特異情報を容易に抽出することができる情報ウォッチ
ングシステムを提供することにある。
【0008】
【課題を解決するための手段】上記目的を達成するため
に、本発明の情報ウォッチングシステムは、複数の文字
列から成る文書データを入力する入力手段と、入力され
た文書データを単語データに分解する単語分解処理手段
と、分解された単語データのそれぞれについて出現頻度
を検出する出現頻度検出手段と、前記入力手段から入力
された文書データに文書識別情報を付加して蓄積する文
書データ蓄積手段と、前記出現頻度検出手段が検出した
各単語の出現頻度の情報と前記文書識別情報とを単語単
位に対応付けて蓄積する出現頻度情報蓄積手段と、この
出現頻度情報蓄積手段に対し、前記出現頻度検出手段が
検出した各単語の新たな出現頻度の情報を蓄積する前の
出現頻度の情報と新たな出現頻度の情報とを比較し、そ
の差が予め定めた閾値を超えていたならば、該当する単
語と一対になって前記出現頻度情報蓄積手段に蓄積され
ている文書識別情報に基づき、対応する文書データを前
記文書データ蓄積手段から検索する検索手段と、検索さ
れた文書データを出力する出力手段とから構成した。
【0009】そのうえで、前記検索手段では、前記差が
予め定めた閾値を超えた場合に加え、蓄積する前の出現
頻度の情報が零の場合にも該当する単語を含む文書デー
タを前記文書データ蓄積手段から検索するようにした。
【0010】さらに、必要に応じて、単語分解処理手段
によって分解された単語の中から予め指定された単語を
排除して前記出現頻度検出手段に入力する単語排除手段
を付加するようにした。
【0011】
【作用】本発明によれば、入力された文書データは、そ
の中の単語のそれぞれについて出現頻度が検出される。
そして、その検出された各単語の出現頻度の情報と文書
データ別の文書識別情報とが単語単位に対応付けられて
出現頻度情報蓄積手段に蓄積される。この蓄積に際し、
検索手段は、出現頻度検出手段が検出した各単語の新た
な出現頻度の情報を蓄積する前の出現頻度の情報と新た
な出現頻度の情報とを比較し、その差が予め定めた閾値
を超えた場合、および蓄積する前の出現頻度の情報が零
の場合、該当する単語と一対になって前記出現頻度情報
蓄積手段に蓄積されている文書識別情報に基づき、対応
する文書データを前記文書データ蓄積手段から検索し、
その検索結果を出力手段から出力させる。
【0012】すなわち、各単語の出現頻度の微分値が閾
値を超えていた場合は、該当する単語を含む文書データ
が抽出されて出力される。
【0013】これによって、顕著に増加している特異情
報を容易に知ることができる。
【0014】
【実施例】以下、本発明を実施例に基づいて詳細に説明
する。
【0015】図1は、本発明に係わる情報ウォッチング
システムの全体構成を示すブロック図、図2および図3
はこの実施例で使用する文書データ等のデータ構造図、
図4は動作フローチャートである。
【0016】図1において、1は文書データ等の情報の
蓄積・検索を行なうためのコンピュータ、2は文書を読
み込むためのスキャナ、3は読み込んだ文書を文字デー
タに変換するための文字データ読み取り処理部、4は読
み込んだ文書データに文書番号、文書作成日付を付加す
るためのキーボード、5は文字データに変換された文書
データおよび文書番号、文書作成日付を格納するための
文書データ読み込みファイル、6は文書データ中の単語
を分解し、単語別の出現頻度を検出して集計するための
単語分解集計処理部、7は不要な単語を排除するための
排除単語を格納したの排除単語ファイル、8は単語の出
現頻度を格納するための単語出現頻度ファイル、9は文
書データの蓄積と検索を行なうための文書データ蓄積検
索処理部、10は単語出現頻度と文書番号と文書作成日
付の関係を格納するための単語出現頻度文書番号対応フ
ァイル、11は文書データを格納するための文書データ
ファイル、12は単語の関連を示す関連語を格納するた
めの関連語ファイル、13は文書データを印刷するため
のプリンタである。
【0017】まず、この実施例の動作の概要を説明す
る。
【0018】スキャナ2より読み込まれた文書は、文書
データ読み取り処理部3で動作する文字コード変換プロ
グラムにより文字コードに変換される。その後、キーボ
ード4から入力された文書番号、文書作成日付が付加さ
れ、文書データ読み込みファイル5に格納される。
【0019】文書データ読み込みファイル5の内容は、
文書データ蓄積検索処理部で動作する文書データ蓄積プ
ログラムによって文書データファイル11に格納され
る。
【0020】また、文書データ読み込みファイル5の内
容は、単語分解集計処理部6で動作する単語分解プログ
ラムによって単語に分解された後、排除単語ファイル7
の内容と比較され、不要な単語が排除される。不要な単
語が排除された単語の集合は、単語分解集計処理部6で
動作する単語出現頻度集計プログラムによって各々の単
語の出現頻度が検出・集計され、さらに文書番号、文書
作成日付が付加された後に単語出現頻度ファイル8に格
納される。
【0021】単語出現頻度ファイル8の内容は、文書デ
ータ蓄積検索処理部9で動作する単語出現頻度文書番号
対応ファイル更新プログラムによって読み出され、既に
該当の単語が単語出現頻度文書番号対応ファイル10に
存在する場合、単語出現頻度文書番号対応ファイル10
の更新後の出現頻度が更新前の出現頻度に退避された
後、文書件数が加算更新され、文書番号、文書作成日付
が新たに追加される。該当の単語が単語出現頻度文書番
号対応ファイル10に存在しない場合、新たにレコード
が生成され追加される。
【0022】単語出現頻度文書番号対応ファイル10の
内容は、文書データ蓄積検索処理部9で動作する単語出
現頻度変化状況検出プログラムが定期的に自動実行され
ることによって四方出され、単語出現頻度文書番号対応
ファイル10の更新前の出現頻度と更新後の出現頻度の
差分が計算され、その差分があらかじめ与えられた閾値
を超える場合、及び更新前の出現頻度が零の場合、該当
の単語及び関連する単語が関連語ファイル12から求め
られ、これに対応する文書番号が単語出現頻度文書番号
対応ファイル10から求められる。
【0023】その後、求められた文書番号に対応する文
書データが文書データファイル11から抽出され、その
文書データがプリンタ13に出力される。
【0024】次に、図2,図3により、この実施例の各
ファイルに格納されるデータ構造を説明する。
【0025】まず、文書データ読み込みファイル5に格
納される文書単位のデータは、図2(a)に示すよう
に、文書番号21、文書作成日付22、文書データ23
から構成される。
【0026】また、排除単語ファイル7に格納されるデ
ータは、図2(b)に示すように、排除単語24によっ
て構成される。
【0027】さらに単語出現頻度ファイル8に格納され
るデータは、図2(c)に示すように、文書番号25、
文書作成日付26、単語27、出現頻度28によって構
成される。
【0028】また、単語出現頻度文書番号対応ファイル
10に格納されるデータは、図3(a)に示すように、
単語31、更新後の出現頻度32、更新前の出現頻度3
3、文書番号34と文書作成年月日35の対の複数回の
繰り返しによって構成される。
【0029】さらに、文書データファイル11に格納さ
れるデータは、図3(b)に示すように、文書番号3
6、文書作成日付37、文書データ38によって構成さ
れる。
【0030】また、関連語ファイル12に格納されるデ
ータは、図3(c)に示すように、基本単語39、複数
個の関連単語40〜43によって構成される。
【0031】次に、動作の詳細について図4のフローチ
ャートを参照して説明する。
【0032】まず、スキャナ2により文書データを読み
取り、文字コードに変換する(ステップ101)。次
に、文字コードに変換された文書データに文書番号2
1、文書作成日付22を付加し、文書データ読み込みフ
ァイル5に格納する(ステップ102)。次に、文書デ
ータ読み込みファイル5の内容を文書データファイル1
1に複写する(ステップ103)。次に、文書データ読
み込みファイル5の内容を単語に分解する(ステップ1
04)。
【0033】次に、排除単語ファイル7に格納された排
除単語と分解した単語の突合せを行ない、不要単語を排
除する(ステップ105)。次に、不要単語を排除した
後の単語の出現頻度を集計し、文書番号25、文書作成
日付26、単語27、出現頻度28を単語出現頻度ファ
イル8に格納する(ステップ106)。
【0034】次に、単語出現頻度ファイル8の内容にし
たがって単語出現頻度文書番号対応ファイル10の追
加、更新を行なう(ステップ107)。
【0035】次に、単語出現頻度文書番号対応ファイル
10の更新前の出現頻度33と更新後の出現頻度32と
の差を求める(ステップ108)。次に、予め設定され
た閾値との比較を行なう(ステップ109)。この結
果、差が閾値を超えている場合、関連語ファイル12か
ら関連する単語39〜43を求め、これらの単語を含む
文書番号を単語出現頻度文書番号対応ファイル10の文
書番号34から求める(ステップ111)。
【0036】しかし、差が閾値を超えていない場合、単
語出現頻度文書番号対応ファイル10の更新前の出現頻
度33が「零」かどうかの判定を行なう(ステップ11
0)。
【0037】更新前の出現頻度が「零」の場合、関連語
ファイル12から関連する単語39〜43を求め、これ
らの単語を含む文書番号を単語出現頻度文書番号対応フ
ァイルの文書番号34から求める(ステップ111)。
【0038】次に、求められた文書番号34をもとに文
書データファイル11から該当の文書データを抽出し、
プリンタ13に出力する(ステップ112)。
【0039】このように、情報の蓄積、検索を行なうシ
ステムにおいて、単語出現頻度の変化状況と文書番号、
文書作成日付を保持することにより、単語出現頻度、文
書件数の変化状況が定期的かつ自動的にチェックされ、
同時に該当の単語に関連する単語をも含む文書番号が自
動的に選択され、文書データの印刷が自動的に実行され
る。
【0040】従って、例えば特定の技術分野において最
近特に話題になっている技術に関する情報を知りたい場
合、その技術分野の雑誌、文献等を必要な期間だけスキ
ャナ2で入力し、文書データファイル11に順次蓄積す
る。すると、それらの文献に含まれる単語のうち出現頻
度の変化分(微分値)が閾値を超えた単語を含む文献の
情報、および更新前の出現頻度が「零」の単語を含む文
献の情報がプリンタ13から出力される。
【0041】これによって、最近顕著に増加している技
術内容等を簡単に知ることができ、分析や対策を講じる
ことが可能になる。すなわち、情報のウォッチングを行
なう場合、特別な検索指示などを行なうことなく、その
時点で着目すべき情報の特定を文書内容を読まなくても
行なうことができる。このため、情報ウォッチングの効
率向上が図れる。
【0042】なお、実施例においては、文書をスキャナ
で入力するようにしているが、これに限定されるもので
はなく、各種文書をデータ化して入力できるものであれ
ばどのうような機器を使用してもよい。
【0043】また、文書番号と作成日付を入力している
が、文書を特定可能なものであればよいので、これらを
代表する識別情報を用いてもよい。
【0044】さらに、単語について関連語をも含む文書
を抽出するようにしているが、これは必要に応じて付加
する構成であってもよい。
【0045】さらに、不要な単語を排除するようにして
いるが、この機能も必要に応じて付加する構成であって
もよい。但し、不要単語を排除することにより、検索速
度の向上が図れ、かつ不要な情報をウォッチングすると
いった無駄な処理から解放される。
【0046】
【発明の効果】以上説明したように本発明によれば、複
数の文字列から成る文書データを入力する入力手段と、
入力された文書データを単語データに分解する単語分解
処理手段と、分解された単語データのそれぞれについて
出現頻度を検出する出現頻度検出手段と、前記入力手段
から入力された文書データに文書識別情報を付加して蓄
積する文書データ蓄積手段と、前記出現頻度検出手段が
検出した各単語の出現頻度の情報と前記文書識別情報と
を単語単位に対応付けて蓄積する出現頻度情報蓄積手段
と、この出現頻度情報蓄積手段に対し、前記出現頻度検
出手段が検出した各単語の新たな出現頻度の情報を蓄積
する前の出現頻度の情報と新たな出現頻度の情報とを比
較し、その差が予め定めた閾値を超えていたならば、該
当する単語と一対になって前記出現頻度情報蓄積手段に
蓄積されている文書識別情報に基づき、対応する文書デ
ータを前記文書データ蓄積手段から検索する検索手段
と、検索された文書データを出力する出力手段とから構
成したので、最近顕著に話題になっている特異情報を容
易に抽出することができる。
【0047】そして、前記差が予め定めた閾値を超えた
場合に加え、蓄積する前の出現頻度の情報が零の場合に
も該当する単語を含む文書データを前記文書データ蓄積
手段から検索するようにした場合、最近初めて出現した
情報を知ることができる。
【0048】さらに、単語分解処理手段によって分解さ
れた単語の中から予め指定された単語を排除して前記出
現頻度検出手段に入力する単語排除手段を付加した場
合、検索速度の向上が図れ、かつ不要な情報をウォッチ
ングするといった無駄な処理から解放されるという効果
がある。
【図面の簡単な説明】
【図1】本発明に係る情報ウォッチングシステムの一実
施例を示すブロック図である。
【図2】実施例で取り扱うデータの構造図である。
【図3】実施例で取り扱うデータの構造図である。
【図4】実施例の動作を示すフローチャートである。
【符号の説明】
1…コンピュータ、2…スキャナ、3…文書データ読み
取り処理部、4…キーボード、5…文書データ読み込み
ファイル、6…単語分解集計処理部、7…排除単語ファ
イル、8…単語出現頻度ファイル、9…文書データ蓄積
検索処理部、10…単語出現頻度文書対応ファイル、1
1…文書データファイル、12…関連語ファイル、13
…プリンタ。

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 複数の文字列から成る文書データを入力
    する入力手段と、入力された文書データを単語データに
    分解する単語分解処理手段と、分解された単語データの
    それぞれについて出現頻度を検出する出現頻度検出手段
    と、前記入力手段から入力された文書データに文書識別
    情報を付加して蓄積する文書データ蓄積手段と、前記出
    現頻度検出手段が検出した各単語の出現頻度の情報と前
    記文書識別情報とを単語単位に対応付けて蓄積する出現
    頻度情報蓄積手段と、この出現頻度情報蓄積手段に対
    し、前記出現頻度検出手段が検出した各単語の新たな出
    現頻度の情報を蓄積する前の出現頻度の情報と新たな出
    現頻度の情報とを比較し、その差が予め定めた閾値を超
    えていたならば、該当する単語と一対になって前記出現
    頻度情報蓄積手段に蓄積されている文書識別情報に基づ
    き、対応する文書データを前記文書データ蓄積手段から
    検索する検索手段と、検索された文書データを出力する
    出力手段と、を備える情報ウォッチングシステム。
  2. 【請求項2】 前記検索手段は、前記差が予め定めた閾
    値を超えた場合に加え、蓄積する前の出現頻度の情報が
    零の場合にも該当する単語を含む文書データを前記文書
    データ蓄積手段から検索することを特徴とする請求項1
    記載の情報ウォッチングシステム。
  3. 【請求項3】 単語分解処理手段によって分解された単
    語の中から予め指定された単語を排除して前記出現頻度
    検出手段に入力する単語排除手段を付加したことを特徴
    とする請求項1または2記載の情報ウォッチングシステ
    ム。
JP5287865A 1993-11-17 1993-11-17 情報ウォッチングシステム Pending JPH07141396A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5287865A JPH07141396A (ja) 1993-11-17 1993-11-17 情報ウォッチングシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5287865A JPH07141396A (ja) 1993-11-17 1993-11-17 情報ウォッチングシステム

Publications (1)

Publication Number Publication Date
JPH07141396A true JPH07141396A (ja) 1995-06-02

Family

ID=17722758

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5287865A Pending JPH07141396A (ja) 1993-11-17 1993-11-17 情報ウォッチングシステム

Country Status (1)

Country Link
JP (1) JPH07141396A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003248751A (ja) * 2002-02-22 2003-09-05 Osaka Gas Co Ltd 営業データ解析システム
JP2008102737A (ja) * 2006-10-19 2008-05-01 Nippon Telegr & Teleph Corp <Ntt> 蓄積文書分類装置、蓄積文書分類方法、プログラムおよび記録媒体
JP2009064435A (ja) * 2007-09-06 2009-03-26 Nhn Corp 最新情報提供方法及びそのシステム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003248751A (ja) * 2002-02-22 2003-09-05 Osaka Gas Co Ltd 営業データ解析システム
JP2008102737A (ja) * 2006-10-19 2008-05-01 Nippon Telegr & Teleph Corp <Ntt> 蓄積文書分類装置、蓄積文書分類方法、プログラムおよび記録媒体
JP2009064435A (ja) * 2007-09-06 2009-03-26 Nhn Corp 最新情報提供方法及びそのシステム
JP2011118946A (ja) * 2007-09-06 2011-06-16 Nhn Corp 最新情報提供方法

Similar Documents

Publication Publication Date Title
EP0510634B1 (en) Data base retrieval system
US7783476B2 (en) Word extraction method and system for use in word-breaking using statistical information
US20050021545A1 (en) Very-large-scale automatic categorizer for Web content
CN112579155B (zh) 代码相似性检测方法、装置以及存储介质
US20100023505A1 (en) Search method, similarity calculation method, similarity calculation, same document matching system, and program thereof
JP4832952B2 (ja) データベース解析システム及びデータベース解析方法及びプログラム
US20040122660A1 (en) Creating taxonomies and training data in multiple languages
Manaf et al. Comparison of carp rabin algorithm and Jaro-Winkler distance to determine the equality of Sunda languages
CN109284441B (zh) 动态自适应网络敏感信息检测方法及装置
Yurtsever et al. Figure search by text in large scale digital document collections
JPH07141396A (ja) 情報ウォッチングシステム
KR102520305B1 (ko) 키워드 빈도수와 영역 중요도 분석 기반 딥러닝 문서 분석 시스템 및 방법
JP3531344B2 (ja) 情報検索装置
JP2000207404A (ja) 文書検索方法及び装置並びに記録媒体
JPH04340163A (ja) キーワード検索方式
JP2932667B2 (ja) 情報の検索方法および情報蓄積装置
JPH0991305A (ja) 情報処理方法及び装置
JP4572265B2 (ja) 実績管理支援システム及び実績管理支援プログラム
JP3239845B2 (ja) 全文検索装置および方法
JPH07239861A (ja) 文書検索装置
JP2000076254A (ja) キーワード抽出装置、このキーワード抽出装置を用いた類似文献検索装置、キーワード抽出方法及び記録媒体
JPH05298368A (ja) 電子ファイリングシステムの検索語入力方法
JPH0981377A (ja) 再利用プログラムの仕様書の自動生成装置
CN114116953A (zh) 基于词向量的高效率语义拓展检索方法、装置及存储介质
JP3498926B2 (ja) 文書データベース管理システム