JPH11338874A - 分散型適合電子文書検索配信装置及び記録媒体 - Google Patents

分散型適合電子文書検索配信装置及び記録媒体

Info

Publication number
JPH11338874A
JPH11338874A JP10144690A JP14469098A JPH11338874A JP H11338874 A JPH11338874 A JP H11338874A JP 10144690 A JP10144690 A JP 10144690A JP 14469098 A JP14469098 A JP 14469098A JP H11338874 A JPH11338874 A JP H11338874A
Authority
JP
Japan
Prior art keywords
electronic document
distributed electronic
distributed
site
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10144690A
Other languages
English (en)
Inventor
Hiroto Inagaki
博人 稲垣
Kazuo Tanaka
一男 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP10144690A priority Critical patent/JPH11338874A/ja
Publication of JPH11338874A publication Critical patent/JPH11338874A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 ユーザが希望するインターネットやイントラ
ネットで流通されている電子文書を取得する際に、分散
環境に蓄積されている電子文書を一括して、検索、配信
する。 【解決手段】 通信ネットワークから入力された分散電
子文書サイト中の電子文書を収集・蓄積する分散電子文
書蓄積手段と、各分散電子文書サイト中の分散電子文書
蓄積手段に蓄積された分散電子文書をインデックスする
分散電子文書インデックス手段と、ネットワーク上に分
散蓄積されている電子文書のサイトを指定する分散電子
文書サイト指定手段と、ユーザの検索要望をキーワード
化し、前記分散電子文書サイト指定手段で指定されたサ
イトの分散電子文書インデックス手段の持つインデック
スに応じて、キーワード化されたユーザの入力と一致す
る文書を検索する分散電子文書検索手段と、該分散電子
文書検索手段が検索した分散電子文書群を配信規約に基
づき、配信する分散電子文書配信手段とを備える分散型
適合電子文書検索配信装置である。

Description

【発明の詳細な説明】
【0001】
【発明が属する技術分野】本発明は、インターネットや
イントラネット等のネットワーク上に分散蓄積されてい
る電子文書の中からユーザが要望する電子文書を検索
し、適合する分散電子文書を配信する装置に関する。
【0002】
【従来の技術】従来は、インターネットのHTML(H
yper Text Markup Language)文書HTTP(Hyper
Text Transfer Protocol)やFTP(File Trans
fer Protocol)等の分散蓄積状態にある電子文書を配
信・取得する通信規約においては、ユーザが、まず最初
に、当該サイトを決定し、決定した後、各サイトに蓄積
されている構造(例えば、トリー構造)に基づき、たど
って、最終的に所望の電子文書を発見していた。
【0003】
【発明が解決しようとする課題】前記従来の技術では、
ユーザが、まず最初に、当該サイトを決定し、決定した
後、各サイトに蓄積されている構造(例えば、トリー構
造)に基づき、たどって、最終的に所望の電子文書を発
見して取得する方法であったため、ユーザ検索要望に適
合する電子文書を発見するのが非常に煩雑であった。
【0004】また、HTTPやFTPでは、電子文書を
蓄積しているサイトに対して、TCP/IPレベルでオ
ンラインとしなくてはならず、オンライン接続費用、専
用線回線接続費用等が必要となり、非常にコストが高か
った。
【0005】本発明の目的は、ユーザが希望するインタ
ーネットやイントラネットで流通されている電子文書を
取得する際に、事前に電子文書をインデックス化してお
き、該インデックス済み文書を分散環境において検索で
きる状態にしておくとともに、分散環境に蓄積されてい
る電子文書を一括して、検索、配信することが可能な技
術を提供することにある。
【0006】本発明の前記ならびにその他の目的と新規
な特徴は、本明細書の記述及び添付図面によって明らか
にする。
【0007】
【課題を決決するための手段】本願において開示される
発明のうち、代表的なものの概要を簡単に説明すれば、
以下のとおりである。
【0008】(1)通信ネットワークを介して分散電子
文書サイト中の電子文書を収集・蓄積する分散電子文書
通信・蓄積手段と、各分散電子文書サイト中の分散電子
文書通信・蓄積手段に蓄積された分散電子文書をインデ
ックスする分散電子文書インデックス手段と、通信ネッ
トワーク上に分散蓄積されている分散電子文書のサイト
を指定する分散電子文書サイト指定手段と、ユーザの検
索要望情報をキーワード化し、前記指定された分散電子
文書サイトの分散電子文書インデックスに応じて、キー
ワード化されたユーザの入力と一致する文書を検索する
分散電子文書検索手段と、該分散電子文書検索手段が検
索した分散電子文書群を配信規約に基づき、配信する分
散電子文書配信手段とを備えた分散型適合電子文書検索
配信装置である。
【0009】(2)通信ネットワークを介して分散電子
文書サイト中の電子メールを受信する電子メール受信手
段と、通信ネットワークを介して分散電子文書サイト中
の電子メールを受信する電子メール受信手段と、通信ネ
ットワークを介して分散電子文書サイト中の電子文書を
収集・蓄積する分散電子文書通信・蓄積手段と、各分散
電子文書サイト中の分散電子文書通信・蓄積手段に蓄積
された分散電子文書をインデックスする分散電子文書イ
ンデックス手段と、通信ネットワーク上に分散蓄積され
ている分散電子文書のサイトを指定する分散電子文書サ
イト指定手段と、ユーザの検索要望情報をキーワード化
し、前記指定された分散電子文書サイトの分散電子文書
インデックスに応じて、キーワード化されたユーザの入
力と一致する文書を検索する分散電子文書検索手段と、
該分散電子文書検索手段が検索した分散電子文書群を配
信規約に基づき、配信する分散電子文書配信手段とを備
えた分散型適合電子文書検索配信装置である。
【0010】(3)通信ネットワークを介して分散電子
文書サイト中の電子文書を収集・蓄積する分散電子文書
通信・蓄積手段と、各分散電子文書サイト中の分散電子
文書通信・蓄積手段に蓄積された分散電子文書をインデ
ックスする分散電子文書インデックス手段と、通信ネッ
トワーク上に分散蓄積されている分散電子文書のサイト
を指定する分散電子文書サイト指定手段と、ユーザの検
索要望情報をキーワード化し、前記指定された分散電子
文書サイトの分散電子文書インデックスに応じて、キー
ワード化されたユーザの入力と一致する文書を検索する
分散電子文書検索手段と、該分散電子文書検索手段が検
索した分散電子文書を出力するとともに、該分散電子文
書のリンクをたどり、それに関連する電子文書を出力す
るリンク分散電子文書出力手段と、該リンク分散電子文
書出力手段が出力した分散電子文書群を配信規約に基づ
き、配信する分散電子文書配信手段とを備えた分散型適
合電子文書検索配信装置である。
【0011】(4)通信ネットワークを介して分散電子
文書サイト中の電子メールを受信する電子メール受信手
段と、通信ネットワークを介して分散電子文書サイト中
の電子文書を収集・蓄積する分散電子文書通信・蓄積手
段と、各分散電子文書サイト中の分散電子文書通信・蓄
積手段に蓄積された分散電子文書をインデックスする分
散電子文書インデックス手段と、通信ネットワーク上に
分散蓄積されている分散電子文書のサイトを指定する分
散電子文書サイト指定手段と、ユーザの検索要望情報を
キーワード化し、前記指定された分散電子文書サイトの
分散電子文書インデックスに応じて、キーワード化され
たユーザの入力と一致する文書を検索する分散電子文書
検索手段と、該分散電子文書検索手段が検索した分散電
子文書を出力するとともに、該分散電子文書のリンクを
たどり、それに関連する電子文書を出力するリンク分散
電子文書出力手段と、該リンク分散電子文書出力手段が
出力した分散電子文書群を配信規約に基づき、配信する
分散電子文書配信手段とを備えた分散型適合電子文書検
索配信装置である。
【0012】(5)通信ネットワークを介して分散電子
文書サイト中の電子文書を収集して記録する手順と、各
分散電子文書サイト中の分散電子文書ファイルに記録さ
れた分散電子文書をインデックスする手順と、通信ネッ
トワーク上に分散蓄積されている電子文書のサイトを指
定する手順と、ユーザの検索要望情報をキーワード化
し、前記指定された分散電子文書サイトの分散電子文書
インデックスに応じて、キーワード化されたユーザの入
力検索要望情報と一致する文書を検索する手順と、この
検索された分散電子文書群を配信規約に基づき、配信す
る手順とをコンピュータに実行させるプログラムを記録
したコンピュータが読み取り可能な記録媒体である。
【0013】(6)通信ネットワークを介して分散電子
文書サイト中の電子メールを受信する手順と、通信ネッ
トワークを介して分散電子文書サイト中の電子メールを
受信する手順と、通信ネットワークを介して分散電子文
書サイト中の電子文書を収集して記録する手順と、各分
散電子文書サイト中の分散電子文書ファイルに記録され
た分散電子文書をインデックスする手順と、通信ネット
ワーク上に分散蓄積されている電子文書のサイトを指定
する手順と、ユーザの検索要望情報をキーワード化し、
前記指定された分散電子文書サイトの分散電子文書イン
デックスに応じて、キーワード化されたユーザの入力検
索要望情報と一致する文書を検索する手順と、この検索
された分散電子文書群を配信規約に基づき、配信する手
順とをコンピュータに実行させるプログラムを記録した
コンピュータが読み取り可能な記録媒体である。
【0014】(7)通信ネットワークを介して分散電子
文書サイト中の電子文書を収集して記録する手順と、各
分散電子文書サイト中の分散電子文書ファイルに記録さ
れた分散電子文書をインデックスする手順と、通信ネッ
トワーク上に分散蓄積されている電子文書のサイトを指
定する手順と、ユーザの検索要望情報をキーワード化
し、前記指定された分散電子文書サイトの分散電子文書
インデックスに応じて、キーワード化されたユーザの入
力検索要望情報と一致する文書を検索する手順と、この
検索された分散電子文書を出力するとともに、前記分散
電子文書のリンクをたどり、それに関連する電子文書を
出力する手順と、この出力された分散電子文書群を配信
規約に基づき、配信する手順とをコンピュータに実行さ
せるプログラムを記録したコンピュータが読み取り可能
な記録媒体である。
【0015】(8)通信ネットワークを介して分散電子
文書サイト中の電子メールを受信する手順と、通信ネッ
トワークを介して分散電子文書サイト中の電子文書を収
集して記録する手順と、各分散電子文書サイト中の分散
電子文書ファイルに記録された分散電子文書をインデッ
クスする手順と、通信ネットワーク上に分散蓄積されて
いる電子文書のサイトを指定する手順と、ユーザの検索
要望情報をキーワード化し、前記指定された分散電子文
書サイトの分散電子文書インデックスに応じて、キーワ
ード化されたユーザの入力検索要望情報と一致する文書
を検索する手順と、この検索された分散電子文書を出力
するとともに、前記分散電子文書のリンクをたどり、そ
れに関連する電子文書を出力する手順と、この出力され
た分散電子文書群を配信規約に基づき、配信する手順と
をコンピュータに実行させるプログラムを記録したコン
ピュータが読み取り可能な記録媒体。
【0016】以下、本発明について、図面を参照して実
施の形態(実施例)とともに詳細に説明する。
【0017】
【発明の実施の形態】図1は本発明の実施形態(実施
例)の分散型適合電子文書検索配信装置の概略構成を示
すブロック構成図であり、図2は本実施形態の一実施例
のTREI構造を示す図である。
【0018】図1において、100はクライアント端
末、200は通信ネットワーク、300は分散型適合電
子文書検索配信装置、400はインターネットサーバ等
である。
【0019】前記分散型適合電子文書検索配信装置30
0は、図1に示すように、通信ネットワーク200を介
して分散電子文書サイト中の電子文書を収集・蓄積する
分散電子文書通信・蓄積手段301と、各分散電子文書
サイト中の分散電子文書通信・蓄積手段301に蓄積さ
れた分散電子文書をインデックスする分散電子文書イン
デックス手段302と、通信ネットワーク200上に分
散蓄積されている分散電子文書のサイトを指定する分散
電子文書サイト指定手段303と、ユーザの検索要望情
報をキーワード化し、前記分散電子文書サイト指定手段
303で指定されたサイトの分散電子文書インデックス
に応じて、キーワード化されたユーザの入力検索要望情
報と一致する文書を検索する分散電子文書検索手段30
4と、該分散電子文書検索手段304が検索した分散電
子文書を出力するとともに、該分散電子文書のリンクを
たどり、それに関連する電子文書を出力するリンク分散
電子文書出力手段305と、該リンク分散電子文書出力
手段305が出力した分散電子文書群を配信規約に基づ
き、配信する分散電子文書配信手段306とを備えてな
る。
【0020】前記分散電子文書通信・蓄積手段301で
は、通信ネットワーク200上に分散蓄積されている電
子文書を入力(収集)して蓄積する。電子文書では、市
販のワードプロセッサーや文書作成ソフトの文書、イン
ターネットでは、HTML文書やadobe社のAcrobat P
DF(Portable Dixstributed File)等を対象とし、
収集して蓄積が行われる。各文書は、文書特有のファイ
ルフォーマットで記述される。
【0021】なお、分散蓄積されている電子文書を収集
するために、おらかじめ当該電子文書の蓄積されている
アドレスの全部又は一部を前記分散電子文書通信・蓄積
手段301に入力して記録しておくこととする。前記蓄
積されたアドレスに基づいて前記分散電子文書通信・蓄
積手段301は、分散蓄積されている電子文書を収集す
る。
【0022】分散環境にある電子文書は、すべて、各ロ
ーカルな装置上に蓄積されている。インターネットの世
界では、これらローカルな装置上に蓄積されている電子
文書のうち、外部に公開してよい情報をwebサーバに
登録することにより、外部から分散環境で、各ローカル
装置に蓄積されている電子文書を取得できるようにする
ことができる。この分散環境において、通常、HTTP
プロトコルが利用される。
【0023】例えば、収集すべき、URL(ユニフォー
ム・リソース・ロケータ)が以下の場合、http://www.i
nagaki.ntt.co.jp/index.htmlの場合、これはwww.inaga
ki.ntt.co.jpという装置のindex.htmlというファイル名
を収集するということを意味する。
【0024】HTTPにおける要求文は以下のようにな
る(例えば、GET http://www.inagaki.ntt.co.jp/in
dex.html HTTP/1.0)。このように、HTTPプ
ロトコルを利用して、webサーバからファイルを収集
することができる。該分散環境でwebサーバに蓄積さ
れている電子文書をhttpプロトコルで、一時的なバッフ
ァ(一時バッファ)に蓄積する。勿論、必要があれば、
一時バッファでなく、恒久的に電子文書に記録しておい
てもよい。
【0025】前記分散電子文書インデックス手段302
では、前記分散電子文書通信・蓄積手段301で一時バ
ッファ又は分散電子文書通信・蓄積手段301に蓄積さ
れている電子文書中から表題、副題、キーワード、テキ
スト情報、著者、変更履歴等を抽出する。例えば、HT
MLファイルでは、すべての情報はHTMLと呼ばれる
言語によりテキスト形式で記述され、種々の文書属性
(表題、副題、キーワード等)は、タグで記述される。
以下に文書属性の一部を示す。
【0026】 文書属性 タグ 表題 〈TITLE〉・・・〈/TITLE〉 キーワード 〈META Keyword=“・・・”〉・・・ で示した部分に属性値が入力される。HTMLファ
イルではさらに、文書構造属性まで記述される。
【0027】以下に文書構造属性の一部を示す。 文書構造属性 タグ 章 〈h1〉・・・〈/h1〉 節 〈h2〉・・・〈/h2〉 段落 〈p〉・・・〈/p〉 これらの文書属性は、属性名と属性値として、それぞれ
記憶するとともに、文書構造属性については、無視し
て、テキスト部を抽出する。
【0028】抽出されたテキスト部は、まず、形態素解
析される。形態素解析とは、入力された文字列を単語辞
書に対して、検索を行い、品詞情報(品詞)、文頭可否
情報(文頭可)、前方接続情報(前接)、後方接続情報
(後接)などの情報を取得する。通常の単語辞書では、
TREI辞書構造という特別な辞書構造を行うことによ
り高速な検索を行えるようになっている。
【0029】図2にTREI辞書構造の一実施例を示
す。辞書項目として、“ああ”、“あいさつ”、“あ
い”、などがある場合、それぞれ、の第一文字(ここで
は、日本語であるので、C言語の文字である。アルファ
ベットと異なり、日本語文字2byteを指す)が同じも
の、第二文字目が同じものなど、それぞれ順次に、木構
造的に構成される。そして、最後の文字まで、一致した
場合には、その単語辞書項目に対する品詞情報(品
詞)、文頭可否情報(文頭可)、前方接続情報(前
接)、後方接続情報(後接)などの情報が記述される。
【0030】文頭可否情報とは、文頭にあってよいかど
うかを示すフラグである。文頭可であれば、文頭に存在
してもよいが、文頭否であれば、文頭にあることが許可
されない単語ということになる。
【0031】前方接続情報とは、前の単語の品詞又は属
性が適正な場合だけ接続が許可され、前接で接続が許可
されない単語の場合、候補として削除される。同様に後
方接続情報も、後の単語の品詞又は属性が適正な場合だ
け接続が許可され、後接で接続が許可されない単語の場
合、候補として削除される。
【0032】このような、品詞接続により、候補を選択
する。最尤候補は、コスト最小法と呼ぶ方法により選択
する。最小コスト法とは、最もコストが最小となる形態
素候補を最尤候補とする処理方式である。形態素解析に
おいて利用されるコストは、以下の2種類のコストがあ
る。
【0033】・接続コスト ・単語コスト 接続コストは、ある単語と単語を接続する場合に必要な
コストである。単語と単語であるため、単語+該活用に
対する接続コストは0となる。単語コストとは、その単
語に関するコストであり、例えば、使用頻度が高い単語
は、コストが低くなる。また、活用は単語ではないの
で、コストは0となる。
【0034】図3に本実施例の形態素解析の一実施例を
示す。入力が、“あいすることは,”という文があった
場合、“あ”という単語と“い”という単語、“する”
という単語、“こと”という単語、“は”と言う単語で
構成されるという解析を最初の候補はおこなっている。
一方、2番目の候補は、“あい(する)”、“こと”、
“は”の3単語から構成されている。それぞれの候補の
コストを計算すると最初の候補が、97点、2番目の候
補が、37点ということになり、2番目の候補が、最小
コストの候補(最尤候補)ということになる。
【0035】このように、形態素解析により、テキスト
部が単語単位に分解されると同時に、書く単語に尤も正
しいと考えられる品詞が付与される。分散電子文書のた
めのインデックスとしては、この形態素解析された単語
の中で、主に自立語(和語動詞を除く)をインデックス
としてもいいし、形態素解析された単語をすべてインデ
ックスとしてもよい。
【0036】特に、分散電子文書環境で、検索したい内
容に基づき、インデックスとして必要な品詞を選択し、
選択された品詞を持つ単語をインデックスとする。
【0037】例えば、名詞や固有名詞、サ変名詞などを
検索キーワードとして利用する場合には、自立語(和語
動詞を除く)をインデックスだけでよい。しかし、例え
ば、特定の文末表現などを参照する場合は、自立語(和
語動詞を除く)だけをインデックスしただけでは、ノイ
ズが大きく、適切な文書を検索することができない。例
えば、“決定した”、“決定する”、“〜する予定”な
どを検索する場合には、自立語(和語動詞を除く)のみ
のインデックスでは、“決定”や“予定”という単語だ
けが、キーワードとなってしまうために、“決定しな
い”、“決定できない”、“決定できなかった”などの
ノイズの部分までヒットすることになってしまう。そこ
で、文末表現等の検索を行う場合には、自立語だけでな
く、助動詞、助詞、活用語もキーワードとする。さら
に、各単語の連接情報をキーワードに対して付与する。
連接情報とは、各単語の前後にどのような語がきている
かを示す情報である。“決定した”の例を以下に示す。
【0038】(例) (自立語のみのインデックスの場合) 決定 サ変名詞 だけがキーワードとして登録される。
【0039】(例) (形態素解析された全単語をインデックスとする場合) 決定 →し →た サ変名詞 活用語 終助詞 ここで、各ボックスがキーワードである単語を示し、各
ボックス間を結んでいる線が連接情報である。このよう
に、単にキーワード列だけでなく、連接情報を利用する
ことによりノイズの少ない検索が可能となる。
【0040】例えば、連接情報がない場合、“予定した
決定が…”などのような文を形態素解析すると、“予
定”、“し”“た”“決定”という単語に分割される、
品詞とも“決定した”と全く同じとなってしまう。その
ため、まったく別の文が解析されることになる。順序列
を連接情報として記憶しておくこともできる。その場
合、連接情報と同様に適切な検索が可能となる。例え
ば、以下の順序列で登録されていると仮定する。
【0041】“決定” “し” “た” 次に、形態素解析情報と、そのもととなった蓄積情報の
関係を蓄積する。
【0042】例えば、“あいすることは…”のような蓄
積文書があるとする。この例では、以下のような単語と
単語に対応する蓄積情報識別子のペアからなる単語−蓄
積情報関係テーブルを記憶しているとする。
【0043】(例) (単語−蓄積情報関係テーブル) 単語 対応する蓄積情報識別子 “あい(する)”−>“あいすることは、、、、、”と
いう文書に含まれている単語である。
【0044】 “する” −>“あいすることは、、、、、”と
いう文書に含まれている単語である。
【0045】 “こと” −>“あいすることは、、、、、”と
いう文書に含まれている単語である。
【0046】(例) “あいすることは、、、、、”という文書の蓄積情報識
別子として、URL:http://www.inagaki.ntt.co.jp/aisur
u.htmlとすると。
【0047】 (例) (単語−蓄積情報関係テーブル) 単語 対応する蓄積情報識別子 “あい(する)”−>URL:http://www.inagaki.ntt.co.jp/aisuru.html “する” −>URL:http://www.inagaki.ntt.co.jp/aisuru.html “こと” −>URL:http://www.inagaki.ntt.co.jp/aisuru.html となる。
【0048】対応する蓄積情報は、例えば、ファイル
名、であるとか、HTMLファイルであれば、URLで
あったりする。この単語−蓄積情報関係テーブルの作成
をすべての蓄積電子文書に対して行う。
【0049】分散電子文書サイト指定手段303は、ネ
ットワーク上に分散蓄積されている電子文書のサイトを
指定する。ユーザは、検索対象である、電子文書のサイ
ト(電子文書がおかれている場所)を指定する。例え
ば、以下のURLのように指定する。
【0050】(例) (サイト指定例) http://www.inagaki.ntt.co.jp URLの場合、webサーバの名称を指定するだけでな
く、webサーバ上のある特定のディレクトリの特定の
ファイルを指定できる。
【0051】(例) (サイトだけでなく、ディレクトリ、ファイル名を指定
する場合) http://www.inagaki.ntt.co.jp/HILAB/index.html 前記例では、HILABがディレクトリ名であり、inde
x.htmlがファイル名を示す。
【0052】以上のように、通信ネットワーク200上
に分散蓄積された電子文書のサイトを指定する。電子メ
ールプロトコルを用いて電子文書のサイトを指定する場
合を説明する。電子メールのような通信文の場合、以下
のようなテキスト属性が通常用意される。電子メールに
おけるテキスト属性の内容を左側に“#”以降に示す。 To: #通信相手先 From: #通信送り主 Date: #通信日付 Subject: #通信概要 cc: #通信の同報先 Bcc: #通信の同報先(ただし、秘密) Mime: #通信文のデータ形式 #通信テキスト本文 電子メールでは、送り先の名称は、以下のような規則と
なっている。 ユーザ名@マシン名 ユーザ名の個所に適切なユーザを識別する名称が記述さ
れる。例えば、“taro”。勿論、漢字コードの使用
は許されておらず、7ビットで表されるIA−5(AS
CII)で記述される。同様に、マシン名も階層的に表
示され、“ntt.co.jp”のようなドメイン名(jpが日本を
意味し、coが企業を意味する、また、nttは企業の中の
一企業体を表す)が記述される。
【0053】また、Subjectは、電子メールでは規定さ
れていないが、通信文の概要を示したり、その通信文が
どのような内容であるかを分類されるための分類名が付
与されたりする。
【0054】例えば、“Subject:〔一般〕今日のテス
トについて"。(但し、通常、電子メールでは、Subject
自体も通信相手先名称と同様に、ASCIIで表示する
か、MIMEという特殊な識別子によりバイナリー化さ
れた漢字が埋め込まれる。ここでは、読みやすいように
漢字で表記した。) ここで、Subject部分は、IA−5(ASCII)で記
述できるため、URL等のサイトを指定する場合が適当
である。一方、ローカルディスクのように、IA−5
(ASCII)で記述されない漢字コードが記述されて
いる場合には、Subject部分には記述できない。これ
は、電子メール転送プロトコルにおいて、7ビット以降
のビットがあった情報について(ここでは、漢字コード
を意味する。)転送を保証していないため発生する。そ
のため、この種の漢字コードを含んだサイトの指定で
は、以下のように通信テキスト本文にサイトを指定しな
ければならない。
【0055】例えば、ここでは、分散型適合電子文書検
索配信装置側のメイルアドレスをretrieve@ntt.co.jp
とすると、subjectに記述可能な場合は、以下のように
なる。 To:retrieve@ntt.co.jp #通信相手先 From #通信送り主 Date #通信日付 Subject:http://www.inagaki.ntt.co.jp/HILAB/index.html cc: #通信の同報先 Bcc: #通信の同報先(ただし、秘密) Mime #通信文のデータ形式 #通信テキスト本文 また、subjectに記述できないような場合では、以下の
ように通信テキスト本文にURL:などと指定して、記
述する。 To:retrieve@ntt.co.jp #通信相手先 From #通信送り主 Date #通信日付 Subject: cc: #通信の同報先 Bcc: #通信の同報先(ただし、秘密) Mime #通信文のデータ形式 URL:http://www.inagaki.ntt.co.jp/HILAB/index.html 分散電子文書検索手段304は、ユーザの検索要望をキ
ーワード化し、該分散電子文書サイト指定部で指定され
たサイトの分散電子文書インデックス手段302の持つ
インデックスに応じて、キーワード化されたユーザの入
力と一致する文書を検索する。
【0056】ここでは、ユーザの検索要求および、検索
結果の配信に、電子メールプロトコルを用いて説明す
る。
【0057】ユーザの検索要求は、例えば、通信テキス
ト本文の中に、input:のタグの後に例えば、記述され
る。input:のタグは、通信テキスト本文にタグ付けで記
述することもできるが、例えば、Subject:に記述しても
よい。サイト名がある場合、“?input=あいとは?”
をサイト名に続ける記述が考えられる。Subject:http:/
/www.inagaki.ntt.co.jp/HILAB/index.html“?input=
あいとは?”FJJまたはサイト名がない場合、Subject:
“?input=あいとは?”となる。
【0058】下記の例では、“あいとは?”というユー
ザの検索要求があった場合の電子メール文の例である。
なお、URLやinputは複数記述してもよい。 To:retrieve@ntt.co.jp #通信相手先 From: #通信送り主 Date: #通信日付 Subject: cc: #通信の同報先 Bcc: #通信の同報先(ただし、秘密) Mime: #通信文のデータ形式 URL:http://www.inagaki.ntt.co.jp/HILAB/index.html input:あいとは? 前記電子メール文を受け取った分散電子文書検索手段3
04では、まず、ユーザの検索要求を解析する。入力
は、INPUT:のタグで記述されている部分である。
入力文を抽出し、形態素解析を行う。形態素解析につい
ては、先に説明した最小コスト法をもちいる。
【0059】形態素解析すると以下のようになる。 あいとは cost=15 あい 動詞 サ名 語幹 あいする あい とは 助詞 係助.とは 非活 一番左側に、入力された単語の形態素が記述されてい
る。第2番目が品詞(大分類)、3番目が品詞(中分
類)、4番目が品詞(小分類)である。
【0060】分散電子文書検索手段304では、分散電
子文書インデックス手段302が蓄積する単語−蓄積情
報関係テーブルと前記入力の形態素解析結果とを比較す
る。入力の形態素と単語−蓄積情報関係テーブルで一致
するのは、 “あい(する)”−>URL:http://www.inagaki.ntt.co.
jp/aisuru.html の部分であることがわかる。同様にして、すべての入力
文の形態素と単語−蓄積情報関係テーブルを比較する。
比較した結果をリンク分散電子文書出力手段305にわ
たす。
【0061】リンク分散電子文書出力手段305では、
分散電子文書検索手段304で、単語−蓄積情報関係テ
ーブルと入力文とを比較して、得た検索結果(ここで
は、URL)を元に、対象となる電子文書をGETす
る。なお、前記URL:http://www.inagaki.ntt.co.jp/ais
uru.html中にリンク情報を示す<ahref=http://www.in
agaki.ntt.co.jp/index.html>が入っていたとする。こ
れによりhttpプロトコルで以下のURLをGETす
る。
【0062】http://www.inagaki.ntt.co.jp/index.htm
lの場合、これは、www.inagaki.ntt.co.jpという装置の
index.htmlというファイル名を収集するということを意
味する。
【0063】HTTPにおける要求文は以下の例のよう
になる。
【0064】(例) GET http://www.inagaki.ntt.co.jp/index.html HTT
P/1.0 このように、HTTPプロトコルを利用して、webサ
ーバから蓄積電子文書を収集することができる。
【0065】HTML文書や、PDF等の電子化文書で
は、当該URLから、さらに先のURLを参照すること
ができる。
【0066】例えば、HTML文書では、前記同様以下
のタグで、…の部分に、リンク先URLを指定すること
ができる。 〈a href=…〉 …のところに、URLを記述する。 〈a href=http://www.inagaki.ntt.co.jp/test.html〉 となる。このように、蓄積した電子化文書のリンクをた
どり、それに関連する電子文書をさらに、再帰的にたど
る処理を行う。
【0067】但し、リンクをたどっていくと、同じUR
Lにたどりついて、循環リンクとなってしまう場合や、
リンク数が、膨大になることがあるので、リンクをたど
る数をあるしきい値で制限する。
【0068】最終的に、リンク分散電子文書出力手段3
05は、該分散電子文書検索手段304が検索した分散
文書を出力するとともに、該分散分子文書のリンクを再
帰的にたどり、それに関連する電子文書を分散電子文書
配信手段306に出力する。
【0069】分散電子文書配信手段306は、リンク分
散電子文書出力手段305が出力した分散電子文書群を
配信規約に基づき配信する。
【0070】先の例では、電子メールのプロトコルに基
づいて、リンク分散電子文書出力手段305が出力した
分散電子文書群を配信する。電子メールのプロトコルの
中で、直接、通信テキスト文の中に記述する方法、添付
書類として、別ファイルとして転送することもできる。
【0071】さらに、リンク分散電子文書出力手段30
5が収集した、電子文書の容量が多い場合、リンク分散
電子文書出力手段305で収集した文書のうち、最も検
索結果に適合している情報を何件か電子メールで直接配
信し、それ以外については、該蓄積文書の識別子番号
(例えば、URL)をテキスト情報として、付与する。
【0072】また、すべて電子化文書を添付又は、電子
メールの通信テキスト本文中に記述する場合、分散電子
文書検索手段304で入力した、ユーザの検索要望のキ
ーワードと一致する数が多い文書を優先して出力する。
【0073】また、電子メールを見る環境として、モバ
イル環境のように、かなり表示画面等が小さかったり、
受信側の端末の記憶容量が小さい場合は、稲垣らが開発
した、出力機器適合型一括テキスト変換方法、装置およ
び記憶媒体(特願平9−334457)を利用して、収
集・蓄積したテキスト情報を出力機器に適合させ変換し
て出力させる。
【0074】次に、本実施形態の分散型適合電子文書検
索配信装置の処理動作を図4に示すフローチャートに沿
って説明する。
【0075】まず、通信ネットワーク200を介して分
散電子文書サイト(S)中の電子文書を収集して記録す
る(S401)。前記各分散電子文書サイト中の分散電
子文書ファイルに記録された分散電子文書をインデック
スする(S402)。通信ネットワーク200上に分散
蓄積されている分散電子文書のサイトを分散電子文書サ
イト指定手段303により指定し(S403)、分散電
子文書サイトが指定されているかを確認する(S40
4)。ユーザの検索要望情報(T)をキーワード化し、
前記分散電子文書サイト指定手段303で指定された分
散電子文書サイトのインデックスに応じて、キーワード
化されたユーザの入力検索要望情報(T)と一致する文
書を分散電子文書検索手段304により検索する(S4
05、S406)。この検索された分散電子文書を出力
するとともに、前記分散電子文書のリンクをたどり、そ
れに関連する電子文書をリンク分散電子文書出力手段3
05から出力する(S407、S408、S409)。
この出力された分散電子文書群を配信規約に基づき、分
散電子文書配信手段306により配信する。
【0076】前記電子メールプロトコルを用いて電子文
書のサイトを指定する場合の一実施例の分散型適合電子
文書検索配信装置の概略構成を図5に示す。30Aは電
子メール受信手段であり、この電子メール受信手段30
Aを設けた点以外は、図1と同じ構成になっている。
【0077】この例の分散型適合電子文書検索配信装置
は、図5に示すように、通信ネットワークを介して分散
電子文書サイト中の電子メールを受信する電子メール受
信手段30Aと、通信ネットワークを介して分散電子文
書サイト中の電子文書を収集・蓄積する分散電子文書通
信・蓄積手段301と、各分散電子文書サイト中の分散
電子文書通信・蓄積手段に蓄積された分散電子文書をイ
ンデックスする分散電子文書インデックス手段302
と、通信ネットワーク上に分散蓄積されている分散電子
文書のサイトを指定する分散電子文書サイト指定手段3
03と、ユーザの検索要望情報をキーワード化し、前記
指定された分散電子文書サイトの分散電子文書インデッ
クスに応じて、キーワード化されたユーザの入力と一致
する文書を検索する分散電子文書検索手段304と、該
分散電子文書検索手段304が検索した分散電子文書を
出力するとともに、該分散電子文書のリンクをたどり、
それに関連する電子文書を出力するリンク分散電子文書
出力手段305と、該リンク分散電子文書出力手段が出
力した分散電子文書群を配信規約に基づき、配信する分
散電子文書配信手段306から成る。そして、前述した
処理動作を行う。
【0078】以上、本発明を、前記実施例に基づき具体
的に説明したが、本発明は、前記実施例に限定されるも
のではなく、その要旨を逸脱しない範囲において種々変
更可能であることは勿論である。
【0079】
【発明の効果】以上説明したように、本発明によれば、
ユーザが希望するインターネットやイントラネットで流
通されている電子文書を取得する際に、事前に電子文書
をインデックス化しておき、該インデックス済み文書を
分散環境において検索できる状態にしておくとともに、
分散環境に蓄積されている電子文書を一括して、検索、
配信することである。これにより、従来のインターネッ
トのHTML文書等の分散蓄積されている電子文書を効
率よく検索する取得することができる。
【0080】特に、配信通信規約として、STMP(Si
mple Mail Transfer Protocol)を利用することによ
り、オンラインで分散電子文書を蓄積しているサイトに
接続する必要なく、オフラインで検索要求や、検索結果
を取得することができるため、接続費用が比較的安価に
なるとともに、回線使用料も安価となる。
【図面の簡単な説明】
【図1】本発明の実施形態(実施例)の分散型適合電子
文書検索配信装置の概要構成を示すブロック構成図であ
る。
【図2】本実施形態の一実施例のTREI構造を示す図
である。
【図3】本実施形態の形態素解析の一実施例を説明する
ための図である。
【図4】本実施形態の分散型適合電子文書検索配信装置
の処理動作の手順を示すフローチャートである。
【図5】本実施形態の電子メールプロトコルを用いて電
子文書のサイトを指定する場合の一実施例の分散型適合
電子文書検索配信装置の概略構成を示すブロック構成図
である。
【符号の説明】
100…クライアント端末、200…通信ネットワー
ク、300…分散型適合電子文書検索配信装置、400
…インターネットサーバ等、30A…電子メール受信手
段、301…分散電子文書通信・蓄積手段、302…分
散電子文書インデックス手段、303…分散電子文書サ
イト指定手段、304…分散電子文書検索手段、305
…リンク分散電子文書出力手段、306…分散電子文書
配信手段。

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 通信ネットワークを介して分散電子文書
    サイト中の電子文書を収集・蓄積する分散電子文書通信
    ・蓄積手段と、各分散電子文書サイト中の分散電子文書
    通信・蓄積手段に蓄積された分散電子文書をインデック
    スする分散電子文書インデックス手段と、通信ネットワ
    ーク上に分散蓄積されている分散電子文書のサイトを指
    定する分散電子文書サイト指定手段と、ユーザの検索要
    望情報をキーワード化し、前記指定された分散電子文書
    サイトの分散電子文書インデックスに応じて、キーワー
    ド化されたユーザの入力と一致する文書を検索する分散
    電子文書検索手段と、該分散電子文書検索手段が検索し
    た分散電子文書群を配信規約に基づき、配信する分散電
    子文書配信手段とを備えたことを特徴とする分散型適合
    電子文書検索配信装置。
  2. 【請求項2】 通信ネットワークを介して分散電子文書
    サイト中の電子メールを受信する電子メール受信手段
    と、通信ネットワークを介して分散電子文書サイト中の
    電子文書を収集・蓄積する分散電子文書通信・蓄積手段
    と、各分散電子文書サイト中の分散電子文書通信・蓄積
    手段に蓄積された分散電子文書をインデックスする分散
    電子文書インデックス手段と、通信ネットワーク上に分
    散蓄積されている分散電子文書のサイトを指定する分散
    電子文書サイト指定手段と、ユーザの検索要望情報をキ
    ーワード化し、前記指定された分散電子文書サイトの分
    散電子文書インデックスに応じて、キーワード化された
    ユーザの入力と一致する文書を検索する分散電子文書検
    索手段と、該分散電子文書検索手段が検索した分散電子
    文書群を配信規約に基づき、配信する分散電子文書配信
    手段とを備えたことを特徴とする分散型適合電子文書検
    索配信装置。
  3. 【請求項3】 通信ネットワークを介して分散電子文書
    サイト中の電子文書を収集・蓄積する分散電子文書通信
    ・蓄積手段と、各分散電子文書サイト中の分散電子文書
    通信・蓄積手段に蓄積された分散電子文書をインデック
    スする分散電子文書インデックス手段と、通信ネットワ
    ーク上に分散蓄積されている分散電子文書のサイトを指
    定する分散電子文書サイト指定手段と、ユーザの検索要
    望情報をキーワード化し、前記指定された分散電子文書
    サイトの分散電子文書インデックスに応じて、キーワー
    ド化されたユーザの入力と一致する文書を検索する分散
    電子文書検索手段と、該分散電子文書検索手段が検索し
    た分散電子文書を出力するとともに、該分散電子文書の
    リンクをたどり、それに関連する電子文書を出力するリ
    ンク分散電子文書出力手段と、該リンク分散電子文書出
    力手段が出力した分散電子文書群を配信規約に基づき、
    配信する分散電子文書配信手段とを備えたことを特徴と
    する分散型適合電子文書検索配信装置。
  4. 【請求項4】 通信ネットワークを介して分散電子文書
    サイト中の電子メールを受信する電子メール受信手段
    と、通信ネットワークを介して分散電子文書サイト中の
    電子文書を収集・蓄積する分散電子文書通信・蓄積手段
    と、各分散電子文書サイト中の分散電子文書通信・蓄積
    手段に蓄積された分散電子文書をインデックスする分散
    電子文書インデックス手段と、通信ネットワーク上に分
    散蓄積されている分散電子文書のサイトを指定する分散
    電子文書サイト指定手段と、ユーザの検索要望情報をキ
    ーワード化し、前記指定された分散電子文書サイトの分
    散電子文書インデックスに応じて、キーワード化された
    ユーザの入力と一致する文書を検索する分散電子文書検
    索手段と、該分散電子文書検索手段が検索した分散電子
    文書を出力するとともに、該分散電子文書のリンクをた
    どり、それに関連する電子文書を出力するリンク分散電
    子文書出力手段と、該リンク分散電子文書出力手段が出
    力した分散電子文書群を配信規約に基づき、配信する分
    散電子文書配信手段とを備えたことを特徴とする分散型
    適合電子文書検索配信装置。
  5. 【請求項5】 通信ネットワークを介して分散電子文書
    サイト中の電子文書を収集して記録する手順と、各分散
    電子文書サイト中の分散電子文書ファイルに記録された
    分散電子文書をインデックスする手順と、通信ネットワ
    ーク上に分散蓄積されている電子文書のサイトを指定す
    る手順と、ユーザの検索要望情報をキーワード化し、前
    記指定された分散電子文書サイトの分散電子文書インデ
    ックスに応じて、キーワード化されたユーザの入力検索
    要望情報と一致する文書を検索する手順と、この検索さ
    れた分散電子文書群を配信規約に基づき、配信する手順
    とをコンピュータに実行させるプログラムを記録したコ
    ンピュータが読み取り可能な記録媒体。
  6. 【請求項6】 通信ネットワークを介して分散電子文書
    サイト中の電子メールを受信する手順と、通信ネットワ
    ークを介して分散電子文書サイト中の電子文書を収集し
    て記録する手順と、各分散電子文書サイト中の分散電子
    文書ファイルに記録された分散電子文書をインデックス
    する手順と、通信ネットワーク上に分散蓄積されている
    電子文書のサイトを指定する手順と、ユーザの検索要望
    情報をキーワード化し、前記指定された分散電子文書サ
    イトの分散電子文書インデックスに応じて、キーワード
    化されたユーザの入力検索要望情報と一致する文書を検
    索する手順と、この検索された分散電子文書群を配信規
    約に基づき、配信する手順とをコンピュータに実行させ
    るプログラムを記録したコンピュータが読み取り可能な
    記録媒体。
  7. 【請求項7】 通信ネットワークを介して分散電子文書
    サイト中の電子文書を収集して記録する手順と、各分散
    電子文書サイト中の分散電子文書ファイルに記録された
    分散電子文書をインデックスする手順と、通信ネットワ
    ーク上に分散蓄積されている電子文書のサイトを指定す
    る手順と、ユーザの検索要望情報をキーワード化し、前
    記指定された分散電子文書サイトの分散電子文書インデ
    ックスに応じて、キーワード化されたユーザの入力検索
    要望情報と一致する文書を検索する手順と、この検索さ
    れた分散電子文書を出力するとともに、前記分散電子文
    書のリンクをたどり、それに関連する電子文書を出力す
    る手順と、この出力された分散電子文書群を配信規約に
    基づき、配信する手順とをコンピュータに実行させるプ
    ログラムを記録したコンピュータが読み取り可能な記録
    媒体。
  8. 【請求項8】 通信ネットワークを介して分散電子文書
    サイト中の電子メールを受信する手順と、通信ネットワ
    ークを介して分散電子文書サイト中の電子文書を収集し
    て記録する手順と、各分散電子文書サイト中の分散電子
    文書ファイルに記録された分散電子文書をインデックス
    する手順と、通信ネットワーク上に分散蓄積されている
    電子文書のサイトを指定する手順と、ユーザの検索要望
    情報をキーワード化し、前記指定された分散電子文書サ
    イトの分散電子文書インデックスに応じて、キーワード
    化されたユーザの入力検索要望情報と一致する文書を検
    索する手順と、この検索された分散電子文書を出力する
    とともに、前記分散電子文書のリンクをたどり、それに
    関連する電子文書を出力する手順と、この出力された分
    散電子文書群を配信規約に基づき、配信する手順とをコ
    ンピュータに実行させるプログラムを記録したコンピュ
    ータが読み取り可能な記録媒体。
JP10144690A 1998-05-26 1998-05-26 分散型適合電子文書検索配信装置及び記録媒体 Pending JPH11338874A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10144690A JPH11338874A (ja) 1998-05-26 1998-05-26 分散型適合電子文書検索配信装置及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10144690A JPH11338874A (ja) 1998-05-26 1998-05-26 分散型適合電子文書検索配信装置及び記録媒体

Publications (1)

Publication Number Publication Date
JPH11338874A true JPH11338874A (ja) 1999-12-10

Family

ID=15368006

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10144690A Pending JPH11338874A (ja) 1998-05-26 1998-05-26 分散型適合電子文書検索配信装置及び記録媒体

Country Status (1)

Country Link
JP (1) JPH11338874A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012215992A (ja) * 2011-03-31 2012-11-08 Hammock:Kk 情報共有・活用システム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012215992A (ja) * 2011-03-31 2012-11-08 Hammock:Kk 情報共有・活用システム

Similar Documents

Publication Publication Date Title
US7809710B2 (en) System and method for extracting content for submission to a search engine
US6742163B1 (en) Displaying multiple document abstracts in a single hyperlinked abstract, and their modified source documents
US6338059B1 (en) Hyperlinked search interface for distributed database
US6981217B1 (en) System and method of obfuscating data
US6654754B1 (en) System and method of dynamically generating an electronic document based upon data analysis
US6581057B1 (en) Method and apparatus for rapidly producing document summaries and document browsing aids
US6094649A (en) Keyword searches of structured databases
JP3703080B2 (ja) ウェブコンテンツを簡略化するための方法、システムおよび媒体
US7496581B2 (en) Information search system, information search method, HTML document structure analyzing method, and program product
JP4724701B2 (ja) 文章検索サーバコンピュータ,文章検索方法,文章検索プログラム,そのプログラムを記録した記録媒体
US7062707B1 (en) System and method of providing multiple items of index information for a single data object
JPH11232192A (ja) 電子メッセージをアーカイブし、アクセスするためのデータ処理システム及び方法
US20070271274A1 (en) Using a community generated web site for metadata
JP2001519952A (ja) データ要約装置
KR20090032305A (ko) 스팸 ucc를 감지하기 위한 방법 및 시스템
US7783643B2 (en) Direct navigation for information retrieval
JP2001290843A (ja) 文書検索装置及びその方法並びに文書検索プログラム及びそのプログラムを記録した記録媒体
JP2004086845A (ja) 電子文書情報拡充装置、方法及びプログラム、並びに、電子文書情報拡充プログラムを記録した記録媒体
JP2001265774A (ja) 情報検索方法、装置、および情報検索プログラムを記録した記録媒体、ハイパーテキスト情報検索システム
JP3588507B2 (ja) 情報フィルタリング装置
US20050154703A1 (en) Information partitioning apparatus, information partitioning method and information partitioning program
JPH11338874A (ja) 分散型適合電子文書検索配信装置及び記録媒体
JP4417497B2 (ja) 情報検索装置及びプログラムを記憶した記憶媒体
JP3939477B2 (ja) データベース検索システムおよび方法、記録媒体
KR102280028B1 (ko) 빅데이터와 인공지능을 이용한 챗봇 기반 콘텐츠 관리 방법 및 장치

Legal Events

Date Code Title Description
FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070827

Year of fee payment: 14

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080827

Year of fee payment: 15

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090827

Year of fee payment: 16

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100827

Year of fee payment: 17

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100827

Year of fee payment: 17