JPH1185779A - 電子ファイル管理装置、電子ファイル管理方法及びその方法を記録した記録媒体 - Google Patents

電子ファイル管理装置、電子ファイル管理方法及びその方法を記録した記録媒体

Info

Publication number
JPH1185779A
JPH1185779A JP9238016A JP23801697A JPH1185779A JP H1185779 A JPH1185779 A JP H1185779A JP 9238016 A JP9238016 A JP 9238016A JP 23801697 A JP23801697 A JP 23801697A JP H1185779 A JPH1185779 A JP H1185779A
Authority
JP
Japan
Prior art keywords
data
electronic file
unit
similar
file management
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9238016A
Other languages
English (en)
Inventor
Shoichi Aoyama
昇一 青山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP9238016A priority Critical patent/JPH1185779A/ja
Publication of JPH1185779A publication Critical patent/JPH1185779A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Computer And Data Communications (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 本発明は、受信したデータを重複なく保存す
ることで効率的な管理を容易にする電子ファイル管理装
置及び方法を提供することを目的とする。 【解決手段】 受信部11は外部からデータを受信す
る。データ記憶部14はデータを記憶している。形態素
分解部16は、データを形態素に分解する。しきい値記
憶部15はしきい値を記憶している。類似性判断部12
は、受信したデータを形態素分解部16により形態素に
分解し、形態素群を得、データ記憶部14に記憶されて
いるデータを形態素分解部16により形態素に分解し、
形態素群を得、それぞれの形態素群としきい値を用い
て、受信データがデータ記憶部14に記憶されているデ
ータに類似しているかどうか判断する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、電子データを蓄積
・管理する電子ファイル管理装置、電子ファイル管理方
法及び管理方法を記録した媒体に関する。
【0002】
【従来の技術】近年、インターネットなどの普及に伴
い、電子データのやり取りが広く行われるようになって
きた。特に、新聞記事データのホームページサイトが数
多く存在し、また電子メール環境を利用した新聞記事配
信サービスなども広まりつつある。
【0003】上記インターネットを利用するにあたっ
て、最もよく利用されるサービスとしてワールドワイド
ウェブ(WWW)サービスがあり、WWWサービスで提
供される情報を検索して、コンピュータの画面に表示さ
せるアプリケーションソフトとして、Netscape
Navigator(Netscape Commu
nications Corporationの商標)
が有名である。
【0004】利用者は、このようなアプリケーションソ
フトを利用して受信した電子データをファイルとして保
存することができた。(Netscape Navig
ator日本語版マニュアルp38、p84、p12
2:Netscape communications
社 Edition April5,1996) 図X***に従来の電子ファイル管理装置のブロック図
を示す。図Xに示す電子ファイル管理装置は、受信部5
1、保存処理部52、データ記憶部53から構成され
る。受信部51は、インターネット又はデジタルデータ
放送サービスなど、外部からデータを受信する。保存処
理部52は、受信したデータをデータ記憶部53に書き
込む。データ記憶部53は、受信データを記憶してい
る。
【0005】
【発明が解決しようとする課題】しかしながら、上記の
ような電子ファイル管理装置においては、受信した電子
データをそのままファイルとして保存することができる
が、受信した電子データが例えば新聞記事データなどの
場合に、異なる配信元から同じ事件に関する記事が配信
されることがあるので、同じ内容の記事を重複して保存
してしまうという問題点を有していた。
【0006】本発明は、このような問題点を解決し、受
信した電子データの効率的な管理を容易にする電子ファ
イル管理装置、電子ファイル管理方法及び電子ファイル
管理方法を記憶した記録媒体を提供することを目的とす
る。
【0007】
【課題を解決するための手段】上記目的を達成するため
に、本発明は、データを管理する電子ファイル管理装置
であって、第1のデータを外部から取得する取得手段
と、第2のデータを記憶している記憶手段と、前記第1
のデータと前記第2のデータが類似しているかどうかを
判断する類似性判断手段と、前記類似性判断手段により
類似していると判断された場合に、前記第1のデータの
前記記憶手段への書き込みを抑制し、類似していないと
判断された場合に、前記第1のデータを前記記憶手段に
書き込む書込手段とを備えることを特徴とする。
【0008】ここで、前記類似性判断手段は、前記第1
のデータを分析し、第1の分析結果を得る第1の分析手
段と、前記第2のデータを分析し、第2の分析結果を得
る第2の分析手段と、前記得られた第1の分析結果と前
記得られた第2の分析結果とを比較して、前記第1のデ
ータと前記第2のデータとが類似しているかどうかを判
断する判断手段とを含むように構成してもよい。
【0009】ここで、前記第1の分析手段は、前記第1
のデータを形態素に分割し、第1の形態素群を得、前記
第2の分析手段は、前記第2のデータを形態素に分割
し、第2の形態素群を得、前記判断手段は、前記得られ
た第1の形態素群と前記得られた第2の形態素群とを比
較して、前記第1のデータと前記第2のデータとが類似
しているかどうかを判断するように構成してもよい。
【0010】ここで、前記第1の分析手段は、前記第1
のデータを構文解析し、第1の構造を得、前記第2の分
析手段は、前記第2のデータを構文解析し、第2の構造
を得、前記判断手段は、前記得られた第1の構造と前記
得られた第2の構造とを比較して、前記第1のデータと
前記第2のデータとが類似しているかどうかを判断する
ように構成してもよい。
【0011】ここで、前記第1の分析手段は、前記第1
のデータを形態素に分割し、第1の形態素群を得る第1
の形態素分割手段と、前記得られた第1の形態素群か
ら、所定の基準により、第1の重要語群を抽出する第1
の重要語抽出手段とを含み、前記第2の分析手段は、前
記第2のデータを形態素に分割し、第2の形態素群を得
る第2の形態素分割手段と、前記得られた第2の形態素
群から、所定の基準により、第2の重要語群を抽出する
第2の重要語抽出手段とを含み、前記判断手段は、前記
得られた第1の重要語群と前記得られた第2の重要語群
とを比較して、前記第1のデータと前記第2のデータと
が類似しているかどうかを判断するように構成してもよ
い。
【0012】ここで、前記第1の分析手段は、前記第1
のデータを分析し、第1の分析結果を得、得られた第1
の分析結果を数値化し第1の数値を得、前記第2の分析
手段は、前記第2のデータを分析し、第2の分析結果を
得、得られた第2の分析結果を数値化し第2の数値を
得、前記判断手段は、しきい値を保持するしきい値保持
手段と、前記得られた第1の数値と前記得られた第2の
数値との差分値を得る差分値算出手段と、前記得られた
差分値と前記しきい値とを比較して、前記第1のデータ
と前記第2のデータとが類似するか否かを判断する差分
値判断手段とを含むように構成してもよい。
【0013】ここで、前記電子ファイル管理装置は、さ
らに、前記類似性判断手段により類似していると判断さ
れた場合、前記類似している旨を表示する表示手段と、
前記表示が行われた場合、利用者より、前記第1のデー
タの前記記憶手段への書き込み抑制の承認を受け付ける
指定受付手段と、前記指定受付手段により書込み抑制の
承認が受け付けられた場合、前記第1のデータの前記記
憶手段への書込みを抑制する書込抑制手段とを含むよう
に構成してもよい。
【0014】ここで、前記電子ファイル管理装置は、さ
らに、前記類似性判断手段により類似すると判断された
場合、前記類似している旨と類似している第2のデータ
とを表示する表示手段と、前記表示が行われた場合、利
用者により、前記第1のデータの前記記憶手段への書き
込み抑制の承認を受け付ける指定受付手段と、前記指定
受付手段により書込み抑制の承認が受け付けられた場
合、前記第1のデータの前記記憶手段への書込みを抑制
する書込抑制手段とを含むように構成してもよい。
【0015】また、本発明は、第2のデータを記憶して
いる記憶手段を含む電子ファイル管理装置で用いられ、
データを管理する電子ファイル管理方法であって、第1
のデータを外部から取得する取得ステップと、前記第1
のデータと前記第2のデータが類似しているかどうかを
判断する類似性判断ステップと、前記類似性判断ステッ
プにより類似していると判断された場合に、前記第1の
データの前記記憶手段への書き込みを抑制し、類似して
いないと判断された場合に、前記第1のデータを前記記
憶手段に書き込む書込ステップとを含むことを特徴とす
る。
【0016】ここで、前記類似性判断ステップは、前記
第1のデータを分析し、第1の分析結果を得る第1の分
析ステップと、前記第2のデータを分析し、第2の分析
結果を得る第2の分析ステップと、前記得られた第1の
分析結果と前記得られた第2の分析結果とを比較して、
前記第1のデータと前記第2のデータとが類似している
かどうかを判断する判断ステップとを含むように構成し
てもよい。
【0017】ここで、前記第1の分析ステップは、前記
第1のデータを形態素に分割し、第1の形態素群を得、
前記第2の分析ステップは、前記第2のデータを形態素
に分割し、第2の形態素群を得、前記判断ステップは、
前記得られた第1の形態素群と前記得られた第2の形態
素群とを比較して、前記第1のデータと前記第2のデー
タとが類似しているかどうかを判断するように構成して
もよい。
【0018】ここで、前記第1の分析ステップは、前記
第1のデータを構文解析し、第1の構造を得、前記第2
の分析ステップは、前記第2のデータを構文解析し、第
2の構造を得、前記判断ステップは、前記得られた第1
の構造と前記得られた第2の構造とを比較して、前記第
1のデータと前記第2のデータとが類似しているかどう
かを判断するように構成してもよい。
【0019】ここで、前記第1の分析ステップは、前記
第1のデータを形態素に分割し、第1の形態素群を得る
第1の形態素分割ステップと、前記得られた第1の形態
素群から、所定の基準により、第1の重要語群を抽出す
る第1の重要語抽出ステップとを含み、前記第2の分析
ステップは、前記第2のデータを形態素に分割し、第2
の形態素群を得る第2の形態素分割ステップと、前記得
られた第2の形態素群から、所定の基準により、第2の
重要語群を抽出する第2の重要語抽出ステップとを含
み、前記判断ステップは、前記得られた第1の重要語群
と前記得られた第2の重要語群とを比較して、前記第1
のデータと前記第2のデータとが類似しているかどうか
を判断するように構成してもよい。
【0020】ここで、前記第1の分析ステップは、前記
第1のデータを分析し、第1の分析結果を得、得られた
第1の分析結果を数値化し第1の数値を得、前記第2の
分析ステップは、前記第2のデータを分析し、第2の分
析結果を得、得られた第2の分析結果を数値化し第2の
数値を得、前記判断ステップは、しきい値を保持するし
きい値保持ステップと、前記得られた第1の数値と前記
得られた第2の数値との差分値を得る差分値算出ステッ
プと、前記得られた差分値と前記しきい値とを比較し
て、前記第1のデータと前記第2のデータとが類似する
か否かを判断する差分値判断ステップとを含むように構
成してもよい。
【0021】また、本発明は、電子ファイルの管理プロ
グラムを記録したコンピュータ読み取り可能な記録媒体
であって、上記電子ファイル管理方法をコンピュータに
実行させる管理プログラムを含むことを特徴とする。
【0022】
【発明の実施の形態】 1.第1の実施の形態 ここでは、本発明に係る一つの実施の形態としての、電
子ファイル管理装置について、その構成および動作を説
明する。 (1) 電子ファイル管理装置の構成 ここでは、上記電子ファイル管理装置の構成について、
図1に示すブロック図を用いて説明する。
【0023】図1に示す電子ファイル管理装置は、受信
部11、類似性判断部12、保存処理部13、データ記
憶部14、しきい値記憶部15、形態素分解部16から
構成される。受信部11は、インターネット又はデジタ
ルデータ放送サービスなど、外部からデータを受信し、
類似性判断部12に出力する。図2に受信したデータの
一例を示す。図2に示すように、新聞記事データ201
が受信されたものとする。
【0024】データ記憶部14は、類似性判断部12に
より、データ記憶部14に書き込むと判断された受信デ
ータを記憶している。データ記憶部14に記憶されてい
るデータの一例を図3に示す。図3に示すように、新聞
記事データ301〜308が記憶されている。形態素分
解部16は、文章からなるデータを形態素に分解する。
文章からなるデータから形態素への分解は、公知の技術
(「自然言語処理」第3章 形態素解析(岩波書店発
行、1996年4月26日))であるので、説明を省略
する。図4には、形態素分解された形態素の一例を示
す。形態素群401は、新聞記事データ201を形態素
分解して得られたものであり、形態素群402は、新聞
記事データ301を形態素分解して得られたものであ
る。形態素群401は、17個の形態素からなり、形態
素群402は、22個の形態素からなる。
【0025】しきい値記憶部15は、類似性判断部12
により、類似性判断に使用されるしきい値を記憶してい
る。類似性判断部12は、受信部11から出力された新
聞記事データ201を形態素分解部16により形態素に
分解し、形態素群401を得る。次に、データ記憶部1
4に記憶されている新聞記事データを順に読み出し、読
み出したデータを形態素分解部16により形態素に分解
させる。データ記憶部14に記憶されている新聞記事デ
ータ301から、形態素群402が得られる。このよう
にして得られた形態素群401と形態素群402の形態
素をそれぞれ比較すると、形態素群401に含まれる1
7個の形態素のうち、形態素群402にも含まれる形態
素は、13個あることが分かる。
【0026】類似性判断部12は、しきい値記憶部15
にあらかじめ記憶されているしきい値を読み出す。ここ
で、しきい値とは、比較データと、被比較データが類似
しているか否かを判断する際の基準値である。類似性判
断部12は、類似性判断のための類似度を式1により算
出し、算出された類似度としきい値とを比較して、算出
された類似度がしきい値より大きいか等しい場合は、受
信データがデータ記憶部14に記憶されているデータに
類似していると判断し、算出された類似度がしきい値よ
り小さい場合は、受信データがデータ記憶部14に記憶
されているデータに類似していないと判断する。
【0027】ここで、例えばしきい値記憶部15から読
み出したしきい値が、0.7である場合に、新聞記事デ
ータ201の新聞記事データ301に対する類似度は、
式2により、0.76であることが分かる。この値0.
76はしきい値0.7より大きいので、新聞記事データ
201は新聞記事データ301に類似していると判断す
る。
【0028】(式1) 類似度=一致した形態素数/
受信したデータの形態素数 (式2) 13÷17=0.76 類似性判断部12は、このように得られた判断結果「類
似している」又は「類似していない」を保存処理部13
に出力する。保存処理部13は、類似性判断部12から
「類似している」判断結果が出力された場合は、当該受
信データを前記データ記憶部14に書き込まない。類似
性判断部12から「類似していない」判断結果が出力さ
れた場合は、当該受信データをデータ記憶部14に書き
込む。 (2) 電子ファイル管理装置の動作 ここでは、図1に示す電子ファイル管理装置の動作につ
いて、図5及び図6のフローチャートを用いて説明す
る。
【0029】受信部11は、インターネット又はデジタ
ルデータ放送サービスなど、外部から新聞記事データ2
01を受信し、類似性判断部12に出力する(ステップ
S501)。類似性判断部12は、受信部11から出力
された新聞記事データ201を形態素分解部16により
形態素に分解し、形態素群401を得る(ステップS5
02)。次に、類似性判断部12は、データ記憶部14
に記憶されている新聞記事データを順に読み出し(ステ
ップS503)、データ記憶部14からのデータの読み
出しが終了していなければ(ステップS504)、読み
出した新聞記事データ301を形態素分解部16により
形態素に分解し、形態素群402を得(ステップS50
5)、受信した新聞記事データ201とデータ記憶部1
4から読み出した新聞記事データ301とが類似してい
るかを判断し(ステップS505)、類似していない場
合は(ステップS507)、ステップS503に制御を
移し、類似している場合は(ステップS507)、処理
を終了する。データ記憶部14からのデータの読み出し
が終了すれば(ステップS504)、新聞記事データ2
01をデータ記憶部14に書き込み(ステップS50
6)、処理を終了する。
【0030】ここで、ステップS507の類似判断の詳
細動作について図6のフローチャートを用いて説明す
る。類似性判断部12は、しきい値記憶部15にあらか
じめ記憶されているしきい値を読み出す(ステップS6
01)。上記得られた形態素群401と形態素群402
に含まれる形態素をそれぞれ比較して、形態素群401
に含まれる17個の形態素のうち、形態素群402にも
含まれる形態素の数を算出する。ここでは、その数13
個が得られる(ステップS602)。次に、類似性判断
部12は、類似性判断のための類似度を式1により算出
し(ステップS603)、算出された類似度としきい値
とを比較して、算出された類似度がしきい値より大きい
か等しい場合は(ステップS604)、受信データがデ
ータ記憶部14に記憶されているデータに類似している
と判断し(ステップS606)、算出された類似度がし
きい値より小さい場合は、受信データがデータ記憶部1
4に記憶されているデータに類似していないと判断する
(ステップS605)。 2.第2の実施の形態 ここでは、本発明に係るまた別の一つの実施の形態とし
ての、電子ファイル管理装置について、その構成および
動作を説明する。 (1) 電子ファイル管理装置の構成 ここでは、上記電子ファイル管理装置の構成について、
図7に示すブロック図を用いて説明する。
【0031】図7に示す電子ファイル管理装置は、受信
部11、類似性判断部702、保存処理部13、データ
記憶部14、しきい値記憶部15、形態素分解部16、
重要語抽出部703から構成される。ここで、図1と同
じ符号を付した構成部については、同じ機能を有するの
で、説明を省略し、異なる符号を持つ構成部について以
下に説明する。なお、異なる符号を持つ構成部のうち類
似性判断部702については、類似性判断部12との相
違点を中心に説明する。
【0032】重要語抽出部703は、形態素分解部16
により分解された形態素から重要語を抽出する。重要語
を抽出するためには、様々な方法が存在するが、例え
ば、文書中に出現する形態素の出現頻度の多い順に重要
語としてもよい。図8には、重要語抽出部703によ
り、抽出された重要語の一例を示す。重要語群801
は、形態素群401から得られたものであり、重要語群
802は、形態素群402から得られたものでる。重要
語群801は、5個の重要語からなり、重要語群802
は、6個の重要語からなる。
【0033】類似性判断部702は、前記得られた形態
素群401から、重要語抽出部703により重要語を抽
出し、重要語群801を得る。次に、前記得られた形態
素群402から、重要語抽出部703により重要語を抽
出し、重要語群802を得る。このようにして得られた
重要語群801と重要語群802の重要語をそれぞれ比
較すると、重要語群801に含まれる5個の重要語のう
ち、重要語群802にも含まれる重要語は、4個あるこ
とが分かる。
【0034】類似性判断部702は、類似性判断のため
の類似度を式3により算出し、算出された類似度としき
い値とを比較して、類似を判断する。ここで、例えばし
きい値記憶部15から読み出したしきい値が、0.7で
ある場合に、新聞記事データ201の新聞記事データ3
01に対する類似度は、式4により、0.8あることが
分かる。この値0.8はしきい値0.7より大きいの
で、新聞記事データ201は新聞記事データ301に類
似していると判断する。
【0035】(式3) 類似度=一致した重要語数/
受信したデータの重要語数 (式4) 4÷ 5=0.8 なお、新聞記事データに特化し、日付に関する記述を重
要語として抽出するようにすれば、記事と記事の類似度
が上がり、類似記事検出の効果があることは明らかであ
る。 (2) 電子ファイル管理装置の動作 ここでは、図7に示す電子ファイル管理装置の動作につ
いて、図9及び図10のフローチャートを用いて説明す
る。なお、図5、図6と同じ符号を付したステップにつ
いては、同じ内容であるので、説明を省略し、異なるス
テップについてのみ説明する。
【0036】図9に示すフローチャートでは、図5に示
すフローチャートのステップS502とステップS50
3の間にステップS901を挿入し、ステップS505
とステップS507の間にステップS902を挿入し
た。ステップS901では、類似性判断部12は、分解
された形態素から、重要語抽出部703により、重要語
を抽出する。ステップS902では、類似性判断部12
は、分解された形態素から、重要語抽出部703によ
り、重要語を抽出する。
【0037】ここで、ステップS507の類似判断の詳
細動作について、図10のフローチャートを用いて、図
6のフローチャートとの相違点を中心に説明する。ステ
ップS1001では、上記得られた重要語群801と重
要語群802の重要語をそれぞれ比較して、重要語群8
01に含まれる5個の重要語のうち、重要語群802に
も含まれる重要語の数を算出する。ここでは、その数4
個が得られる。ステップS1002では、次に、類似性
判断部702は、類似性判断のための類似度を式3によ
り算出する。 3.第3の実施の形態 ここでは、本発明に係るまた別の一つの実施の形態とし
ての、電子ファイル管理装置について、その構成および
動作を説明する。 (1) 電子ファイル管理装置の構成 ここでは、本発明に係るまた別の一つの実施の形態とし
ての、電子ファイル管理装置の構成について、図11に
示すブロック図を用いて説明する。
【0038】図11の電子ファイル管理装置は、受信部
11、類似性判断部12、保存処理部1101、データ
記憶部14、しきい値記憶部15、形態素分解部16か
ら構成される。ここで、図1と同じ符号を付した構成部
については、同じ機能を有するので、説明を省略し、異
なる符号を持つ保存処理部1101について以下に説明
する。
【0039】保存処理部1101は、保存制御部110
2、表示部1103、入力部1104、保存実行部11
05から構成される。保存制御部1102は、類似性判
断部12から判断結果「類似している」又は「類似して
いない」と、受信データとを受け取る。保存制御部11
02が受け取った判断結果が「類似していない」の場合
には、受信データを保存実行部1105に出力し、保存
実行部1105が受信データをデータ記憶部14に書き
込むように制御する。保存制御部1102が受け取った
判断結果が「類似している」の場合には、「受信データ
は既存のデータベースの中のデータと類似しているため
保存しません。」というメッセージと「了解」ボタンと
から構成される画面を表示するように表示部1103を
制御し、この画面表示後に、利用者の「了解」ボタンの
押下を受け付けるように入力部1104を制御する。入
力部1104が利用者の「了解」ボタンの押下を受け付
けると、入力部1104から「了解」ボタンの押下の情
報を受け取り、処理を終了する。
【0040】表示部1103は、保存制御部1102の
制御により、「受信データは既存のデータベースの中の
データと類似しているため保存しません。」というメッ
セージと「了解」ボタンとから構成される画面を表示す
る。図12に、画面の表示例を示す。図12に示すよう
に、画面1201は、メッセージ1202と、「了解」
ボタン1203から構成される。
【0041】入力部1104は、保存制御部1102の
制御により、利用者の「了解」ボタンの押下を受け付け
る。利用者の「了解」ボタンの押下を受け付けると、
「了解」ボタンの押下の情報を保存制御部1102に出
力する。保存実行部1105は、受信部11より出力さ
れたデータをデータ記憶部14に書き込む。 (2) 電子ファイル管理装置の動作 ここでは、図11に示す電子ファイル管理装置の動作に
ついて、図13及び図14のフローチャートを用いて説
明する。なお、図5と同じ符号を付したステップについ
ては、同じ内容であるので、説明を省略し、異なるステ
ップについてのみ説明する。
【0042】図9に示すフローチャートでは、図5に示
すフローチャートのステップS507の後にステップS
1301を挿入した。ステップS1301では、図12
に示す保存処理確認画面の表示処理を行う。次に、ステ
ップS1301の詳細動作について、図14のフローチ
ャートを用いて説明する。
【0043】表示部1103は、「受信データは既存の
データベースの中のデータと類似しているため保存しま
せん。」というメッセージと「了解」ボタンとから構成
される画面を表示し(ステップS1401)、入力部1
104は、利用者の「了解」ボタンの押下を受け付ける
(ステップS1402)。 4.第4の実施の形態 ここでは、本発明に係るまた別の一つの実施の形態とし
ての、電子ファイル管理装置について、その構成および
動作を説明する。 (1) 電子ファイル管理装置の構成 ここでは、上記電子ファイル管理装置の構成について、
図15を用いて説明する。
【0044】図15の電子ファイル管理装置は、受信部
11、類似性判断部1501、保存処理部1503、デ
ータ記憶部14、しきい値記憶部15、形態素分解部1
6、類似データ記憶部1502から構成される。ここ
で、図11と同じ符号を付した構成部については、同じ
機能を有するので、説明を省略し、異なる符号を持つ構
成部について以下に説明する。なお、異なる符号を持つ
構成部については、相違点を中心に説明する。
【0045】類似性判断部1501は、受信部11より
出力されたデータとデータ記憶部14より読み出したデ
ータが類似していると判断した場合には、読み出したデ
ータを類似データ記憶部1502に書き込む。データ記
憶部14からのデータの読出しが終了した場合、類似デ
ータ記憶部1502に書き出したデータが存在すれば、
類似したデータが存在した旨の情報を保存制御部150
5に出力し、保存制御部1505が保存処理確認画面の
表示処理を行うよう制御し、類似データ記憶部1502
に書き出したデータが存在しなければ、類似したデータ
が存在しなかった旨の情報を保存制御部1505に出力
し、保存制御部1505が前記受信部11より出力され
たデータをデータ記憶部14に書き込むよう制御する。
【0046】また、受信部11より出力されたデータを
保存制御部1505に出力する。保存処理部1503
は、保存制御部1505、表示部1504、入力部11
04、保存実行部1105から構成される。保存制御部
1505は、類似性判断部1501から類似したデータ
が存在した旨の情報又は類似したデータが存在しなかっ
た旨の情報と受信部11より出力されたデータとを受け
取る。保存制御部1505が類似したデータが存在しな
かった旨の情報を受け取った場合には、受信データを保
存実行部1105に出力し、保存実行部1105が受信
データをデータ記憶部14に書き込むように制御する。
保存制御部1505が類似したデータが存在した旨の情
報を受け取った場合には、「受信データはデータベース
の中の下記の既存のデータと類似しているため保存しま
せん。」というメッセージと類似データ記憶部1502
より読み出したデータと「了解」ボタンとから構成され
る画面を表示するように表示部1504を制御し、この
画面表示後に、利用者の「了解」ボタンの押下を受け付
けるように入力部1104を制御する。入力部1104
が利用者の「了解」ボタンの押下を受け付けると、入力
部1104から「了解」ボタンの押下の情報を受け取
り、処理を終了する。
【0047】表示部1504は、保存制御部1505の
制御により、図16に示すように、「受信データはデー
タベースの中の下記の既存のデータと類似しているため
保存しません。」というメッセージ1602と、領域1
603と、スクロールバー1604と、類似データ記憶
部1502より読み出したデータ1605、1606
と、「了解」ボタン1607とから構成される画面を表
示する。類似データ記憶部1502から読み出したデー
タが画面1601内の、領域1603に表示しきれない
ときは、利用者がスクロールバー1604を移動させる
ことにより、表示されていないデータが領域1603に
表示される。 (2) 電子ファイル管理装置の動作 ここでは、図15に示す電子ファイル管理装置の動作に
ついて、図17及び図18のフローチャートを用いて説
明する。なお、図5と同じ符号を付したステップについ
ては、同じ内容であるので、説明を省略し、異なるステ
ップについてのみ説明する。
【0048】図17に示すフローチャートでは、図5に
示すフローチャートのステップS507の後にステップ
S1701を挿入し、ステップS1701の後、制御を
ステップS503に移すようにした。また、ステップS
506の前に、ステップS1702を挿入し、ステップ
S1702の分岐先にステップS1703を設けた。ス
テップS1701では、読み出したデータを類似データ
記憶部1502に書き込む。
【0049】ステップS1702では、類似データが存
在するかどうかを判断し、類似データが存在する場合
は、保存処理確認画面の表示処理を行い(ステップS1
703)で、類似データが存在しない場合は、受信した
データをデータ記憶部14に書き込む(ステップS50
6)。次に、ステップS1703の詳細動作について、
図18のフローチャートを用いて説明する。
【0050】表示部1504は、類似データ記憶部15
02に記憶されているデータを読み出し(ステップS1
801)、読み出したデータと「受信データは既存のデ
ータベースの中のデータと類似しているため保存しませ
ん。」というメッセージと「了解」ボタンとから構成さ
れる画面を表示し(ステップS1802)、入力部11
04は、利用者の「了解」ボタンの押下を受け付ける
(ステップS1803)。 5.第5の実施の形態 ここでは、本発明に係る一つの実施の形態としての、電
子ファイル管理装置について、その構成および動作を説
明する。 (1) 電子ファイル管理装置の構成 ここでは、上記電子ファイル管理装置の構成について、
図19に示すブロック図を用いて説明する。
【0051】図19に示す電子ファイル管理装置は、受
信部11、類似性判断部1901、保存処理部13、デ
ータ記憶部14、しきい値記憶部15、形態素分解部1
6、構文解析部1902から構成される。ここで、図1
と同じ符号を付した構成部については、同じ機能を有す
るので、説明を省略し、異なる符号を持つ構成部につい
て以下に説明する。なお、異なる符号を持つ構成部のう
ち類似性判断部1901については、類似性判断部12
との相違点を中心に説明する。
【0052】構文解析部1902は、文章から分解され
た形態素を基にして、構文を解析する。構文の解析につ
いては、公知の技術(「自然言語処理」第4章 構文解
析(岩波書店発行、1996年4月26日)参照)であ
るので、説明を省略する。図20、図21には、構文解
析して得られた構造の一例を示す。図20には、新聞記
事データ201を構文解析して得られた構造2001を
示し、図21には、新聞記事データ301を構文解析し
て得られた構造2101を示す。
【0053】構造2001は、主動詞である「乗り出
す」2011を持ち、主動詞「乗り出す」2011に
は、「事件」2021、「25日午後」2031、「東
京地検特捜部」2041、「容疑」2051、「強制捜
査」2061が属する。「事件」2021には、「利益
供与」2022が属し、「利益供与」2022には、
「A証券」2023と「総会屋親族企業」2024とが
属し、「総会屋親族企業」2024には「顧客」202
5が属する。以下同様に、「東京地検特捜部」204
1、「容疑」2051にもそれぞれ項目が属している。
このように、構造2001は、階層的構造を持つ。
【0054】構造2101は、主動詞である「乗り出
す」2101を持ち、構造2001と同様に階層的構造
を持つ。類似性判断部1901は、上記受信したデータ
から得られた構造と、上記読み出されたデータから得ら
れた構造とを比較するために、上記受信したデータから
得られた構造と、上記読み出されたデータから得られた
構造とを基にして、それぞれの構造の主動詞にどのよう
な格が存在するかを判断する。格には、主格、目的格、
場所格、時間格、背景格、並列格などが存在する。例え
ば、以下に示す文例1では、主動詞は「走る」であり、
主格は「彼」であり、目的格は存在せず、場所格は「公
園」である。「川沿いの」は「公園」の修飾語句であ
り、主動詞の格ではない。
【0055】(文例1)「彼は昼過ぎに川沿いの公園を
走った」 次に示す文例2の「雀」が、目的格である。(文例2)
「彼女は雀を追い払った」 また、次に示す文例3では、構文上、この文の主格は、
「太郎」である。しかし、「食べる」という主動詞の主
格は、「ケーキ」を「食べ」た「花子」である。この場
合には、文の主語がその文の主動詞の主格となるとは限
らない。この文においては、「太郎」は、使役主格とし
て扱う。
【0056】(文例3)「太郎が花子にケーキを食べさ
せた」 図20に、構造2001を構成する要素の格を示す。
「事件」2021は背景格2072であり、「25日午
後」2031は時間格2073であり、「東京地検特捜
部」2041は主格2074であり、「容疑」2051
は背景格2075であり、「強制捜査」2061は目的
格2076である。
【0057】また、図21に、構造2101を構成する
要素の格を示す。「事件」2121は背景格2151で
あり、「家宅捜索」2131は並列格2155であり、
「強制捜査」2141は目的格2156である。ここ
で、並列格とは、「家宅捜索」2131が主動詞「乗り
出す」2111と並列関係にあることを示すものであ
る。従って、「家宅捜索」2131に属する「25日午
後」2132の時間格2152、「東京地検特捜部」2
133の主格2153、「容疑」2136の背景格21
54も、主動詞2111の格と考える。
【0058】類似性判断部1901は、上記受信したデ
ータから得られた構造と、上記読み出されたデータから
得られた構造とから得られた格を比較し、図22に示す
算出基準2211を用いて構造の類似度を算出する。図
23は、受信したデータ201の構造2001と読み出
したデータ301の構造2101とを比較したものであ
る。
【0059】受信したデータ201の構造2001は、
主動詞「乗り出す」2311、背景格「事件」231
2、時間詞「25日午後」2314、主格「東京地検特
捜部」2315、背景格「容疑」2317、目的格「強
制捜査」2318から構成され、読み出したデータ30
1の構造2101は、主動詞「乗り出す」2331、背
景格「事件」2332、並列詞「家宅捜索」2333、
時間詞「25日午後」2334、主格「東京地検特捜
部」2335、背景格「容疑」2336、目的格「強制
捜査」2337から構成される。これらの格を比較する
と、並列格が読み出したデータの構造2101に存在す
るが、受信したデータの構造2001には存在しない。
また、並列格以外の格については、すべて過不足なく一
致している。受信したデータ201の構造2001に含
まれる格の数は「5」であり、不一致の格の数は、「並
列格」の不足分の「1」である。従って、構造の類似度
は、算出基準2211に従って算出すると、(5−4)
/4=0.8となる。
【0060】類似性判断部1901は、次に、上記得ら
れたそれぞれの構造を構成する構成要素を比較するため
に、上記受信したデータから得られた構造と、上記読み
出されたデータから得られた構造とを基にして、得られ
た構造を構成する構成要素である語句の意味的な類似性
の判断を次の3つの基準で行う。 (基準1)語句が表記上、同一であるかどうかを判断す
る。例えば、「調査する」と「調査する」とは、表記上
同一である。 (基準2)語句が意味上、同一であるかどうかを判断す
る。例えば、「川」と「河川」、「掃除」と「清掃」、
「調査する」と「調べる」などは、意味上同一である。 (基準3)語句の意味的階層関係が成立するかどうかを
判断する。例えば、「リンゴ」と「果物」、「軽自動
車」と「車両」などは、2つの語句が意味的に上下の階
層関係にあると言える。
【0061】類似性判断部1901は、比較する語句が
上記の類似性の判断の基準のどれにあてはまるかを判断
することにより、構成要素の類似度を算出する。図22
の算出基準2212に示すように、基準1の場合には類
似度を1.0とし、基準2の場合には類似度を0.9と
し、基準3の場合は類似度を0.7とし、その他の場合
には類似度は0とする。
【0062】構造2001、2101の各構成要素の語
句については、並列格以外については、表記上全て一致
しているので、構成要素の類似度は、算出基準2212
に従って算出すると、すべて1である。類似性判断部1
901は、上記得られた構造の類似度、構成要素の類似
度に、図22に示す重み付け係数2231、2232、
2233を掛け、得られた値を加算して類似度を得る。
重み付け係数は、構造の類似度に対しては、0.5と
し、構成要素のうち主動詞の類似度については、0.2
5とし、他の構成要素については、0.25とする。な
お、他の構成要素が複数の構成要素を含む場合について
は、0.25を他の構成要素の数で均等に割り、得られ
た値とする。
【0063】このようにして、構造全体の類似度は、式
5に示すように、これらの類似度にそれぞれの重み付け
係数2231、2232、2233を掛け、0.9が得
られる。 図24に構造2001、2101の構造の類似度、構成
要素の類似度、全体の類似度の算出例を示す。
【0064】しきい値記憶部から読み出したしきい値
が、0.7であるとすると、上記算出された全体の類似
度0.9は、0.7より大きいので、類似性判断部19
01は、受信したデータと読み出したデータとは、類似
としていると判断する。 (2) 電子ファイル管理装置の動作 ここでは、図19に示す電子ファイル管理装置の動作に
ついて、図25、図26及び図27のフローチャートを
用いて説明する。
【0065】図25に示すフローチャートでは、図5に
示すフローチャートのステップS502の後にステップ
S2501を挿入し、ステップS505の後にステップ
S2502を挿入した。なお、図5と同じ符号を付した
ステップについては、同じ内容であるので、説明を省略
し、異なるステップについてのみ説明する。ステップS
2501では、構文解析部1902は、分解された形態
素を基に構文解析を行う。また、ステップS2501で
は、構文解析部1902は、分解された形態素を基に構
文解析を行う。
【0066】図26に示すフローチャートでは、図25
に示すフローチャートのステップS507の詳細を示
す。ステップS2601では、類似性判断部1901
は、受信したデータの構造の構成要素を基に格を決定
し、ステップS2602では、類似性判断部1901
は、読み出したデータの構造の構成要素を基に格を決定
し、ステップS2603では、類似性判断部1901
は、受信したデータの構造の構成要素と読み出したデー
タの構造の構成要素との語句の類似性を判断し、ステッ
プS2604では、類似性判断部1901は、図22に
示す評価基準を用いて類似度を算出する。なお、図6と
同じ符号を付したステップについては、同じ内容である
ので、説明を省略し、異なるステップについてのみ説明
する。
【0067】図27に示すフローチャートでは、図26
に示すフローチャートのステップS2604の詳細を示
す。図22に示す算出基準2211を用いて構造の類似
度を算出し(ステップS2701)、主動詞の類似度を
基準2212を用いて算出し(ステップS2702)、
主動詞の他の構成要素の類似度を基準2212を用いて
算出し(ステップS2703)、他の構成要素の算出が
終了したかどうかを判断して、終了していなければ(ス
テップS2704)、ステップ2703を繰り返し、終
了すれば(ステップS2704)、全体の類似度を重み
付け係数を考慮して算出する(ステップS2705)。
【0068】なお、本実施の形態では、主動詞に直接属
する要素のみを用いて類似度を算出したが、さらに下の
階層の要素を類似度の算出基準に組み込んでもよい。ま
た、語句を修飾する語句も算出基準に組み込んでもよ
い。このようにすると、さらに精度の高い類似度の算出
が行える。
【0069】
【発明の効果】本発明は、上記に説明したように、デー
タを管理する電子ファイル管理装置であって、第1のデ
ータを外部から取得する取得手段と、第2のデータを記
憶している記憶手段と、前記第1のデータと前記第2の
データが類似しているかどうかを判断する類似性判断手
段と、前記類似性判断手段により類似していると判断さ
れた場合に、前記第1のデータの前記記憶手段への書き
込みを抑制し、類似していないと判断された場合に、前
記第1のデータを前記記憶手段に書き込む書込手段とを
備えている。
【0070】この構成によると、取得したデータと記憶
されているデータが類似している場合に、取得したデー
タの保存を抑制でき、記憶装置の記憶容量を節約できる
という効果がある。ここで、前記類似性判断手段は、前
記第1のデータを分析し、第1の分析結果を得る第1の
分析手段と、前記第2のデータを分析し、第2の分析結
果を得る第2の分析手段と、前記得られた第1の分析結
果と前記得られた第2の分析結果とを比較して、前記第
1のデータと前記第2のデータとが類似しているかどう
かを判断する判断手段とを含むように構成してもよい。
【0071】この構成によると、取得したデータの分析
結果と記憶されているデータの分析結果とを用いて類似
を判定するので、より正確に類似の判断ができるという
効果がある。ここで、前記第1の分析手段は、前記第1
のデータを形態素に分割し、第1の形態素群を得、前記
第2の分析手段は、前記第2のデータを形態素に分割
し、第2の形態素群を得、前記判断手段は、前記得られ
た第1の形態素群と前記得られた第2の形態素群とを比
較して、前記第1のデータと前記第2のデータとが類似
しているかどうかを判断するように構成してもよい。
【0072】この構成によると、取得したデータから抽
出した形態素と記憶されているデータから抽出した形態
素とを比較して類似を判定するので、より正確に類似の
判断ができるという効果がある。ここで、前記第1の分
析手段は、前記第1のデータを構文解析し、第1の構造
を得、前記第2の分析手段は、前記第2のデータを構文
解析し、第2の構造を得、前記判断手段は、前記得られ
た第1の構造と前記得られた第2の構造とを比較して、
前記第1のデータと前記第2のデータとが類似している
かどうかを判断するように構成してもよい。
【0073】この構成によると、取得したデータから構
文解析して得られた構造と記憶されているデータから構
文解析して得られた構造とを比較して類似を判定するの
で、より正確に類似の判断ができるという効果がある。
ここで、前記第1の分析手段は、前記第1のデータを形
態素に分割し、第1の形態素群を得る第1の形態素分割
手段と、前記得られた第1の形態素群から、所定の基準
により、第1の重要語群を抽出する第1の重要語抽出手
段とを含み、前記第2の分析手段は、前記第2のデータ
を形態素に分割し、第2の形態素群を得る第2の形態素
分割手段と、前記得られた第2の形態素群から、所定の
基準により、第2の重要語群を抽出する第2の重要語抽
出手段とを含み、前記判断手段は、前記得られた第1の
重要語群と前記得られた第2の重要語群とを比較して、
前記第1のデータと前記第2のデータとが類似している
かどうかを判断するように構成してもよい。
【0074】この構成によると、取得したデータから抽
出した重要語と記憶されているデータから抽出した重要
語とを比較して類似を判定するので、より正確に類似の
判断ができるという効果がある。ここで、前記第1の分
析手段は、前記第1のデータを分析し、第1の分析結果
を得、得られた第1の分析結果を数値化し第1の数値を
得、前記第2の分析手段は、前記第2のデータを分析
し、第2の分析結果を得、得られた第2の分析結果を数
値化し第2の数値を得、前記判断手段は、しきい値を保
持するしきい値保持手段と、前記得られた第1の数値と
前記得られた第2の数値との差分値を得る差分値算出手
段と、前記得られた差分値と前記しきい値とを比較し
て、前記第1のデータと前記第2のデータとが類似する
か否かを判断する差分値判断手段とを含むように構成し
てもよい。
【0075】この構成によると、取得したデータの分析
結果を基に算出した数値と記憶されているデータの分析
結果を基に算出した数値との差分値と、しきい値とを比
較して類似を判定するので、より正確に類似の判断がで
きるという効果がある。ここで、前記電子ファイル管理
装置は、さらに、前記類似性判断手段により類似してい
ると判断された場合、前記類似している旨を表示する表
示手段と、前記表示が行われた場合、利用者より、前記
第1のデータの前記記憶手段への書き込み抑制の承認を
受け付ける指定受付手段と、前記指定受付手段により書
込み抑制の承認が受け付けられた場合、前記第1のデー
タの前記記憶手段への書込みを抑制する書込抑制手段と
を含むように構成してもよい。
【0076】この構成によると、利用者は、取得したデ
ータを知らずに保存しないということがないという効果
がある。ここで、前記電子ファイル管理装置は、さら
に、前記類似性判断手段により類似すると判断された場
合、前記類似している旨と類似している第2のデータと
を表示する表示手段と、前記表示が行われた場合、利用
者により、前記第1のデータの前記記憶手段への書き込
み抑制の承認を受け付ける指定受付手段と、前記指定受
付手段により書込み抑制の承認が受け付けられた場合、
前記第1のデータの前記記憶手段への書込みを抑制する
書込抑制手段とを含むように構成してもよい。
【0077】この構成によると、利用者は、取得したデ
ータを知らずに保存しないということがないという効果
がある。また、本発明は、第2のデータを記憶している
記憶手段を含む電子ファイル管理装置で用いられ、デー
タを管理する電子ファイル管理方法であって、第1のデ
ータを外部から取得する取得ステップと、前記第1のデ
ータと前記第2のデータが類似しているかどうかを判断
する類似性判断ステップと、前記類似性判断ステップに
より類似していると判断された場合に、前記第1のデー
タの前記記憶手段への書き込みを抑制し、類似していな
いと判断された場合に、前記第1のデータを前記記憶手
段に書き込む書込ステップとを含んでいる。
【0078】この方法を利用すると、所定の基準により
取得したデータの保存を抑制でき、記憶装置の記憶容量
を節約できるという効果がある。ここで、前記類似性判
断ステップは、前記第1のデータを分析し、第1の分析
結果を得る第1の分析ステップと、前記第2のデータを
分析し、第2の分析結果を得る第2の分析ステップと、
前記得られた第1の分析結果と前記得られた第2の分析
結果とを比較して、前記第1のデータと前記第2のデー
タとが類似しているかどうかを判断する判断ステップと
を含むように構成してもよい。
【0079】この方法を利用すると、取得したデータと
記憶されているデータが類似している場合に、取得した
データの保存を抑制でき、記憶装置の記憶容量を節約で
きるという効果がある。ここで、前記第1の分析ステッ
プは、前記第1のデータを形態素に分割し、第1の形態
素群を得、前記第2の分析ステップは、前記第2のデー
タを形態素に分割し、第2の形態素群を得、前記判断ス
テップは、前記得られた第1の形態素群と前記得られた
第2の形態素群とを比較して、前記第1のデータと前記
第2のデータとが類似しているかどうかを判断するよう
に構成してもよい。
【0080】この方法を利用すると、取得したデータの
分析結果と記憶されているデータの分析結果とを用いて
類似を判定するので、より正確に類似の判断ができると
いう効果がある。ここで、前記第1の分析ステップは、
前記第1のデータを構文解析し、第1の構造を得、前記
第2の分析ステップは、前記第2のデータを構文解析
し、第2の構造を得、前記判断ステップは、前記得られ
た第1の構造と前記得られた第2の構造とを比較して、
前記第1のデータと前記第2のデータとが類似している
かどうかを判断するように構成してもよい。
【0081】この方法を利用すると、取得したデータか
ら抽出した形態素と記憶されているデータから抽出した
形態素とを比較して類似を判定するので、より正確に類
似の判断ができるという効果がある。ここで、前記第1
の分析ステップは、前記第1のデータを形態素に分割
し、第1の形態素群を得る第1の形態素分割ステップ
と、前記得られた第1の形態素群から、所定の基準によ
り、第1の重要語群を抽出する第1の重要語抽出ステッ
プとを含み、前記第2の分析ステップは、前記第2のデ
ータを形態素に分割し、第2の形態素群を得る第2の形
態素分割ステップと、前記得られた第2の形態素群か
ら、所定の基準により、第2の重要語群を抽出する第2
の重要語抽出ステップとを含み、前記判断ステップは、
前記得られた第1の重要語群と前記得られた第2の重要
語群とを比較して、前記第1のデータと前記第2のデー
タとが類似しているかどうかを判断するように構成して
もよい。
【0082】この方法を利用すると、取得したデータか
ら構文解析して得られた構造と記憶されているデータか
ら構文解析して得られた構造とを比較して類似を判定す
るので、より正確に類似の判断ができるという効果があ
る。ここで、前記第1の分析ステップは、前記第1のデ
ータを分析し、第1の分析結果を得、得られた第1の分
析結果を数値化し第1の数値を得、前記第2の分析ステ
ップは、前記第2のデータを分析し、第2の分析結果を
得、得られた第2の分析結果を数値化し第2の数値を
得、前記判断ステップは、しきい値を保持するしきい値
保持ステップと、前記得られた第1の数値と前記得られ
た第2の数値との差分値を得る差分値算出ステップと、
前記得られた差分値と前記しきい値とを比較して、前記
第1のデータと前記第2のデータとが類似するか否かを
判断する差分値判断ステップとを含むように構成しても
よい。
【0083】この方法を利用すると、取得したデータか
ら抽出した重要語と記憶されているデータから抽出した
重要語とを比較して類似を判定するので、より正確に類
似の判断ができるという効果がある。また、本発明は、
以上に説明した電子ファイル管理プログラムを記録した
コンピュータ読み取り可能な記録媒体であるので、上記
電子ファイル管理方法をコンピュータに実行させること
により、上記電子ファイル管理装置と同様の効果を奏す
ることは明らかである。
【図面の簡単な説明】
【図1】本発明に係る一つの実施形態としての電子ファ
イル管理装置のブロック図である。
【図2】図1の電子ファイル管理装置が受信したデータ
の一例を示す。
【図3】図1の電子ファイル管理装置の記憶部に記憶さ
れたデータの一例を示す。
【図4】図2のデータを形態素分解して得られた形態素
群の一例及び図3のデータを形態素分解して得られた形
態素群の一例を示す。
【図5】図1の電子ファイル管理装置の動作を示すフロ
ーチャートである。
【図6】図1の電子ファイル管理装置の動作を示すフロ
ーチャートである。
【図7】本発明に係るまた別の一つの実施形態としての
電子ファイル管理装置のブロック図である。
【図8】図4の形態素群から、抽出した重要語の一例を
示す。
【図9】図7の電子ファイル管理装置の動作を示すフロ
ーチャートである。
【図10】図7の電子ファイル管理装置の動作を示すフ
ローチャートである。
【図11】本発明に係るまた別の一つの実施形態として
の電子ファイル管理装置のブロック図である。
【図12】図11の電子ファイル管理装置が表示する画
面の一例を示す。
【図13】図11の電子ファイル管理装置の動作を示す
フローチャートである。
【図14】図11の電子ファイル管理装置の動作を示す
フローチャートである。
【図15】本発明に係るまた別の一つの実施形態として
の電子ファイル管理装置のブロック図である。
【図16】図15の電子ファイル管理装置が表示する画
面の一例を示す。
【図17】図15の電子ファイル管理装置の動作を示す
フローチャートである。
【図18】図15の電子ファイル管理装置の動作を示す
フローチャートである。
【図19】本発明に係るまた別の一つの実施形態として
の電子ファイル管理装置のブロック図である。
【図20】図19の電子ファイル管理装置の構文解析部
が出力した構造の一例である。
【図21】図19の電子ファイル管理装置の構文解析部
が出力した構造の一例である。
【図22】図19の電子ファイル管理装置の類似度の算
出基準である。
【図23】図19の電子ファイル管理装置の構造比較の
一例である。
【図24】図19の電子ファイル管理装置の類似度の算
出した一例である。
【図25】図19の電子ファイル管理装置の動作を示す
フローチャートである。
【図26】図19の電子ファイル管理装置の動作を示す
フローチャートである。
【図27】図19の電子ファイル管理装置の動作を示す
フローチャートである。
【図28】従来の電子ファイル管理装置のブロック図で
ある。
【符号の説明】
11 受信部 12 類似性判断部 13 保存処理部 14 データ記憶部 15 しきい値記憶部 16 形態素分解部 702 類似性判断部 703 重要語抽出部 1101 保存処理部 1102 保存制御部 1103 表示部 1104 入力部 1105 保存実行部 1501 類似性判断部 1502 類似データ記憶部 1503 保存処理部 1504 表示部 1505 保存制御部 1901 類似性判断部 1902 構文解析部
フロントページの続き (51)Int.Cl.6 識別記号 FI G06F 15/40 370A 15/403 350A

Claims (15)

    【特許請求の範囲】
  1. 【請求項1】 データを管理する電子ファイル管理装置
    であって、 第1のデータを外部から取得する取得手段と、 第2のデータを記憶している記憶手段と、 前記第1のデータと前記第2のデータが類似しているか
    どうかを判断する類似性判断手段と、 前記類似性判断手段により類似していると判断された場
    合に、前記第1のデータの前記記憶手段への書き込みを
    抑制し、類似していないと判断された場合に、前記第1
    のデータを前記記憶手段に書き込む書込手段とを備える
    ことを特徴とする電子ファイル管理装置。
  2. 【請求項2】 前記類似性判断手段は、 前記第1のデータを分析し、第1の分析結果を得る第1
    の分析手段と、 前記第2のデータを分析し、第2の分析結果を得る第2
    の分析手段と、 前記得られた第1の分析結果と前記得られた第2の分析
    結果とを比較して、前記第1のデータと前記第2のデー
    タとが類似しているかどうかを判断する判断手段とを含
    むことを特徴とする請求項1記載の電子ファイル管理装
    置。
  3. 【請求項3】 前記第1の分析手段は、前記第1のデー
    タを形態素に分割し、第1の形態素群を得、 前記第2の分析手段は、前記第2のデータを形態素に分
    割し、第2の形態素群を得、 前記判断手段は、前記得られた第1の形態素群と前記得
    られた第2の形態素群とを比較して、前記第1のデータ
    と前記第2のデータとが類似しているかどうかを判断す
    ることを特徴とする請求項2記載の電子ファイル管理装
    置。
  4. 【請求項4】 前記第1の分析手段は、前記第1のデー
    タを構文解析し、第1の構造を得、 前記第2の分析手段は、前記第2のデータを構文解析
    し、第2の構造を得、 前記判断手段は、前記得られた第1の構造と前記得られ
    た第2の構造とを比較して、前記第1のデータと前記第
    2のデータとが類似しているかどうかを判断することを
    特徴とする請求項2記載の電子ファイル管理装置。
  5. 【請求項5】 前記第1の分析手段は、前記第1のデー
    タを形態素に分割し、第1の形態素群を得る第1の形態
    素分割手段と、 前記得られた第1の形態素群から、所定の基準により、
    第1の重要語群を抽出する第1の重要語抽出手段とを含
    み、 前記第2の分析手段は、前記第2のデータを形態素に分
    割し、第2の形態素群を得る第2の形態素分割手段と、 前記得られた第2の形態素群から、所定の基準により、
    第2の重要語群を抽出する第2の重要語抽出手段とを含
    み、 前記判断手段は、前記得られた第1の重要語群と前記得
    られた第2の重要語群とを比較して、前記第1のデータ
    と前記第2のデータとが類似しているかどうかを判断す
    ることを特徴とする請求項2記載の電子ファイル管理装
    置。
  6. 【請求項6】 前記第1の分析手段は、前記第1のデー
    タを分析し、第1の分析結果を得、得られた第1の分析
    結果を数値化し第1の数値を得、 前記第2の分析手段は、前記第2のデータを分析し、第
    2の分析結果を得、得られた第2の分析結果を数値化し
    第2の数値を得、 前記判断手段は、 しきい値を保持するしきい値保持手段と、 前記得られた第1の数値と前記得られた第2の数値との
    差分値を得る差分値算出手段と、 前記得られた差分値と前記しきい値とを比較して、前記
    第1のデータと前記第2のデータとが類似するか否かを
    判断する差分値判断手段とを含むことを特徴とする請求
    項2記載の電子ファイル管理装置。
  7. 【請求項7】 前記電子ファイル管理装置は、さらに、 前記類似性判断手段により類似していると判断された場
    合、前記類似している旨を表示する表示手段と、 前記表示が行われた場合、利用者より、前記第1のデー
    タの前記記憶手段への書き込み抑制の承認を受け付ける
    指定受付手段と、 前記指定受付手段により書込み抑制の承認が受け付けら
    れた場合、前記第1のデータの前記記憶手段への書込み
    を抑制する書込抑制手段とを含むことを特徴とする請求
    項1記載の電子ファイル管理装置。
  8. 【請求項8】 前記電子ファイル管理装置は、さらに、 前記類似性判断手段により類似すると判断された場合、
    前記類似している旨と類似している第2のデータとを表
    示する表示手段と、 前記表示が行われた場合、利用者により、前記第1のデ
    ータの前記記憶手段への書き込み抑制の承認を受け付け
    る指定受付手段と、 前記指定受付手段により書込み抑制の承認が受け付けら
    れた場合、前記第1のデータの前記記憶手段への書込み
    を抑制する書込抑制手段とを含むことを特徴とする請求
    項1記載の電子ファイル管理装置。
  9. 【請求項9】 第2のデータを記憶している記憶手段を
    含む電子ファイル管理装置で用いられ、データを管理す
    る電子ファイル管理方法であって、 第1のデータを外部から取得する取得ステップと、 前記第1のデータと前記第2のデータが類似しているか
    どうかを判断する類似性判断ステップと、 前記類似性判断ステップにより類似していると判断され
    た場合に、前記第1のデータの前記記憶手段への書き込
    みを抑制し、類似していないと判断された場合に、前記
    第1のデータを前記記憶手段に書き込む書込ステップと
    を含むことを特徴とする電子ファイル管理方法。
  10. 【請求項10】 前記類似性判断ステップは、 前記第1のデータを分析し、第1の分析結果を得る第1
    の分析ステップと、 前記第2のデータを分析し、第2の分析結果を得る第2
    の分析ステップと、 前記得られた第1の分析結果と前記得られた第2の分析
    結果とを比較して、前記第1のデータと前記第2のデー
    タとが類似しているかどうかを判断する判断ステップと
    を含むことを特徴とする請求項9記載の電子ファイル管
    理方法。
  11. 【請求項11】 前記第1の分析ステップは、前記第1
    のデータを形態素に分割し、第1の形態素群を得、 前記第2の分析ステップは、前記第2のデータを形態素
    に分割し、第2の形態素群を得、 前記判断ステップは、前記得られた第1の形態素群と前
    記得られた第2の形態素群とを比較して、前記第1のデ
    ータと前記第2のデータとが類似しているかどうかを判
    断することを特徴とする請求項10記載の電子ファイル
    管理方法。
  12. 【請求項12】 前記第1の分析ステップは、前記第1
    のデータを構文解析し、第1の構造を得、 前記第2の分析ステップは、前記第2のデータを構文解
    析し、第2の構造を得、 前記判断ステップは、前記得られた第1の構造と前記得
    られた第2の構造とを比較して、前記第1のデータと前
    記第2のデータとが類似しているかどうかを判断するこ
    とを特徴とする請求項10記載の電子ファイル管理方
    法。
  13. 【請求項13】 前記第1の分析ステップは、前記第1
    のデータを形態素に分割し、第1の形態素群を得る第1
    の形態素分割ステップと、 前記得られた第1の形態素群から、所定の基準により、
    第1の重要語群を抽出する第1の重要語抽出ステップと
    を含み、 前記第2の分析ステップは、前記第2のデータを形態素
    に分割し、第2の形態素群を得る第2の形態素分割ステ
    ップと、 前記得られた第2の形態素群から、所定の基準により、
    第2の重要語群を抽出する第2の重要語抽出ステップと
    を含み、 前記判断ステップは、前記得られた第1の重要語群と前
    記得られた第2の重要語群とを比較して、前記第1のデ
    ータと前記第2のデータとが類似しているかどうかを判
    断することを特徴とする請求項10記載の電子ファイル
    管理方法。
  14. 【請求項14】 前記第1の分析ステップは、前記第1
    のデータを分析し、第1の分析結果を得、得られた第1
    の分析結果を数値化し第1の数値を得、 前記第2の分析ステップは、前記第2のデータを分析
    し、第2の分析結果を得、得られた第2の分析結果を数
    値化し第2の数値を得、 前記判断ステップは、 しきい値を保持するしきい値保持ステップと、 前記得られた第1の数値と前記得られた第2の数値との
    差分値を得る差分値算出ステップと、 前記得られた差分値と前記しきい値とを比較して、前記
    第1のデータと前記第2のデータとが類似するか否かを
    判断する差分値判断ステップとを含むことを特徴とする
    請求項10記載の電子ファイル管理方法。
  15. 【請求項15】 電子ファイルの管理プログラムを記録
    したコンピュータ読み取り可能な記録媒体であって、 請求項9〜14の何れかに記載の電子ファイル管理方法
    をコンピュータに実行させる管理プログラムを含むこと
    を特徴とする記録媒体。
JP9238016A 1997-09-03 1997-09-03 電子ファイル管理装置、電子ファイル管理方法及びその方法を記録した記録媒体 Pending JPH1185779A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9238016A JPH1185779A (ja) 1997-09-03 1997-09-03 電子ファイル管理装置、電子ファイル管理方法及びその方法を記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9238016A JPH1185779A (ja) 1997-09-03 1997-09-03 電子ファイル管理装置、電子ファイル管理方法及びその方法を記録した記録媒体

Publications (1)

Publication Number Publication Date
JPH1185779A true JPH1185779A (ja) 1999-03-30

Family

ID=17023912

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9238016A Pending JPH1185779A (ja) 1997-09-03 1997-09-03 電子ファイル管理装置、電子ファイル管理方法及びその方法を記録した記録媒体

Country Status (1)

Country Link
JP (1) JPH1185779A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110009142A (ko) * 2008-04-14 2011-01-27 알까뗄 루슨트 리던던시들을 최소화하는 웹 피드를 수집하기 위한 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110009142A (ko) * 2008-04-14 2011-01-27 알까뗄 루슨트 리던던시들을 최소화하는 웹 피드를 수집하기 위한 방법
JP2011517822A (ja) * 2008-04-14 2011-06-16 アルカテル−ルーセント 重複を最低限に抑えるWebフィードを集約するための方法

Similar Documents

Publication Publication Date Title
US7065483B2 (en) Computer method and apparatus for extracting data from web pages
Torres-Moreno Automatic text summarization
Feinerer et al. Text mining infrastructure in R
Sharoff Open-source corpora: Using the net to fish for linguistic data
Sharoff Creating general-purpose corpora using automated search engine queries
US7269544B2 (en) System and method for identifying special word usage in a document
Park et al. End user searching: A Web log analysis of NAVER, a Korean Web search engine
Pu et al. Subject categorization of query terms for exploring Web users' search interests
US20070027672A1 (en) Computer method and apparatus for extracting data from web pages
US9251249B2 (en) Entity summarization and comparison
US8880389B2 (en) Computer implemented semantic search methodology, system and computer program product for determining information density in text
US20150095320A1 (en) Apparatus, systems and methods for scoring the reliability of online information
Nandi et al. Bangla news recommendation using doc2vec
Fišer et al. Distributional modelling for semantic shift detection
JP2001084250A (ja) 膨大な文書データからの知識抽出方法、その装置及び媒体
EP1128289A2 (en) Data cross-referencing method
CN109992647B (zh) 一种内容搜索方法及装置
Khalil et al. Extracting Arabic composite names using genitive principles of Arabic grammar
Steinberger et al. Coreference applications to summarization
Whidby Citation handling: Processing citation texts in scientific documents
Berendt et al. Finding Your Way through Blogspace: Using Semantics for Cross-Domain Blog Analysis.
Hansen et al. A pilot gender study of the Danish Parliament Corpus
JP2009098932A (ja) 連想検索システム
Thelwall et al. Language evolution and the spread of ideas on the Web: A procedure for identifying emergent hybrid word family members
Kishore et al. Document Summarization in Malayalam with sentence framing