JP2004086845A

JP2004086845A - 電子文書情報拡充装置、方法及びプログラム、並びに、電子文書情報拡充プログラムを記録した記録媒体

Info

Publication number: JP2004086845A
Application number: JP2003002978A
Authority: JP
Inventors: Yasuhiro Kawakita; 川北　泰広; Tokuji Ikeno; 池野　篤司
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2002-06-27
Filing date: 2003-01-09
Publication date: 2004-03-18
Also published as: US20040010556A1

Abstract

【課題】関連する情報の所在を含む電子文書の情報を拡充できる電子文書情報拡充装置、方法及びプログラム、並びに、電子文書情報拡充プログラムを記録した記録媒体を提供する。
【解決手段】入力された電子メール文書から、それに含まれているデータの所在情報を抽出し、抽出した所在情報に基づき、補充し得る外部データを取得し、取得した外部データから、入力された電子文書で不足する要素の情報を拡充する。
【選択図】　　　図１

Description

【０００１】
【発明の属する技術分野】
本発明は、電子文書に対し、それが有しない要素の情報を拡充する電子文書情報拡充装置に関し、例えば、電子メール文書を情報源として扱う情報マネージメントシステムに適用し得るものである。
【０００２】
【従来の技術】
近年、電子メールの文書中に、関連する情報の所在（例えばＵＲＬ、ＵＲＩなど；以下、この項の説明ではＵＲＬとする）を記述して送信することが日常的に行われるようになっている。電子メール閲覧ソフトは、それに対応して、そのＵＲＬを選択するだけで、Ｗｅｂブラウザソフトが起動するように連携するなどさまざまな工夫がされてきている。ところが、電子メールを着信した時点では、まだＵＲＬで示される場所にある情報は取得しておらず、利用者が改めてその情報を取得する動作を行う必要がある。
【０００３】
【特許文献１】特開２００１−１８４２７７号公報
この問題点に着目して、特許文献１では、電子メールの中に参照すべき情報の所在がＵＲＬで示されていると、そのＵＲＬが示す場所にある情報（ＨＴＭＬ文書など）を自動的に取得し、受信した電子メールと関連付けて保存しておくという方法が紹介されている。これにより、電子メールを受信したユーザは、ネットワークとの接続が切れた状態でも、電子メール文書中のＵＲＬを指定するだけで、既に取得済みのデータを表示装置によって閲覧することができる。
【０００４】
【発明が解決しようとする課題】
上記特許文献１の方法によると、電子メール文書内に含まれるＵＲＬのデータを、電子メールと関連付けて全て取得するため、実際には、電子メール文書の内容とは関係のない部分まで取得する恐れがある。したがって、全てのＵＲＬのデータを蓄積するのは、ネットワークとの接続が切れた状態でも、ＵＲＬのデータを閲覧できる利点がある反面、蓄積効率が悪くなるという課題がある。
【０００５】
さらに、企業のＵＲＬが示されているときには、企業のトップページがリンクされていることが多く、このトップページのデータが蓄積されていると、電子メール文書の内容に関連する情報を、トップページからのリンクをたどって探さなければならない。上記特許文献１の方法によると、指定したＵＲＬのページを取得して蓄積しているため、ネットワークの接続が切れた状態では、さらなるリンク先を探すことができないという課題が残されている。
【０００６】
そのため、関連する情報の所在を含む電子文書の情報を拡充できる電子文書情報拡充装置、方法及びプログラム、並びに、電子文書情報拡充プログラムを記録した記録媒体が望まれている。
【０００７】
【課題を解決するための手段】
第１の本発明の電子文書情報拡充装置は、電子文書に対し、それが有しない要素の情報を拡充するものであって、（１）入力された電子文書から、それに含まれているデータの所在情報を抽出する所在情報抽出手段と、（２）抽出された所在情報に基づき、補充し得る外部データを取得する外部データ取得手段と、（３）取得した外部データから、入力された上記電子文書で不足する要素の情報を拡充する情報補完手段とを備えることを特徴とする。
【０００８】
第２の本発明の電子文書情報拡充方法は、電子文書に対し、それが有しない要素の情報を拡充するものであって、（１）入力された電子文書から、それに含まれているデータの所在情報を抽出する所在情報抽出工程と、（２）抽出された所在情報に基づき、補充し得る外部データを取得する外部データ取得工程と、（３）取得した外部データから、入力された上記電子文書で不足する要素の情報を拡充する情報補完工程とを有することを特徴とする。
【０００９】
第３の本発明の電子文書情報拡充プログラムは、第２の本発明の電子文書情報拡充方法の各工程をコンピュータが処理し得るコードで記述したことを特徴とする。
【００１０】
第４の本発明の記録媒体は、第３の本発明の電子文書情報拡充プログラムを記録していることを特徴とする。
【００１１】
【発明の実施の形態】
（Ａ）実施形態
以下、本発明による電子文書情報拡充装置、方法及びプログラム、並びに、電子文書情報拡充プログラムを記録した記録媒体の一実施形態を図面を参照しながら詳述する。
【００１２】
この実施形態は、電子メール文書に対して、ＵＲＬで示された情報源にアクセスし、個々の情報と関連する内容を情報源から取得した上でキーワード抽出を行い、その結果を含めて構造化データを生成するものである。
【００１３】
（Ａ−１）実施形態の構成
図１は、この実施形態の電子文書情報拡充装置の機能的構成を示すブロック図である。
【００１４】
例えば、実施形態の電子文書情報拡充装置は、通信機能を有するパソコン等のユーザの情報処理装置（メールクライアント）に対し、ＣＤ−ＲＯＭやフロッピー（登録商標）ディスク等の記録媒体に記録されている電子文書情報拡充プログラム（例えば、電子メール閲覧ソフトの追加機能となっている）をインストールすることで実現されるが、機能的には、図１で表すことができる。また例えば、メールサーバに対し、ＣＤ−ＲＯＭやフロッピーディスク等の記録媒体に記録されている電子文書情報拡充プログラムをインストールすることで実現されるが、この場合にも、機能的には、図１で表すことができる。
【００１５】
この実施形態の電子文書情報拡充装置は、入力部１００、情報解析部１０１、外部データ取得部１０２、情報補完部（情報補充部）１０３及び構造化データ生成部１０４を有する。
【００１６】
入力部１００は、情報、及び、その情報に関連する情報の情報源を示したＵＲＬ（ＵＲＩ、ＦＴＰ、ファイル名等でも良いが、以下では、ＵＲＬで説明する）を含む電子メール文書（例えば、メールマガジン）の入力を行うものである。電子メール文書の入力は、この入力時に取り出したものであっても良く、過去に取り出して記憶しているものを読み出したものであっても良い。
【００１７】
情報解析部１０１は、入力された電子メール文書を、個々の情報単位に分割し、それぞれの情報単位から、情報源を示すＵＲＬを抽出するものである。例えば、電子メール文書がニュースのメールマガジンであれば、１つの記事を１単位とする情報に分割する。そして、それぞれの情報単位の中に含まれるＵＲＬを抽出する。
【００１８】
外部データ取得部１０２は、情報解析部１０１で分割された情報単位毎に、そこに含まれているＵＲＬに基づいて、情報単位内に記載されている内容と類似する詳細なデータをＵＲＬなどで示される外部の情報源から取得するものである。外部データ取得部１０２は、取得するに値するデータの判断は、情報単位内に記載されている元の文章と、ＵＲＬなどで示される情報源から取得したデータとの類似度を見ることで行う。
【００１９】
情報補完部１０３は、外部データ取得部１０２で取得したデータに対して、キーワードの抽出と主要箇所の抽出を行い、元の情報単位に追加する補充データを作成するものである。
【００２０】
構造化データ生成部１０４は、情報補完部１０３がそろえた補充すべきデータをまとめて、構造化データを生成するものである。
【００２１】
（Ａ−２）実施形態の動作
図２は、この実施形態の電子文書情報拡充装置の全体動作（電子文書情報拡充方法）を示すフローチャートである。
【００２２】
ここでは、情報単位の例として、タイトル＜ＴＩＴＬＥ＞、概要＜ＢＯＤＹ＞、キーワード＜ＫＥＹＷＯＲＤ＞、情報源の場所＜ＵＲＬ＞を、情報単位を構成する必須の内容とし、これらを全て含む構造化データの生成について説明する。また、キーワードは全ての場合に生成されることになるが、電子メール文書に対して分割処理を行った後、概要が欠けている場合について以降で詳細に説明する。
【００２３】
ステップＳ２００の入力処理では、入力部１００が電子メール文書を入力する。
【００２４】
ステップＳ２０１の情報単位抽出処理では、情報解析部１０１が、入力された電子メール文書の中に含まれている情報を、それぞれ関連する内容毎に切り分ける。例えば、電子メール文書が、図３に示されているような場合には、図４に示すような情報単位に切り分けられる。このとき、切り分ける方法は、セパレータと呼ばれる特殊な記号の連続や、空白行などを手がかりに、これらで挟まれた部分を情報単位としても良い。また、段落や、表題記号などを手がかりにして、次の段落や表題記号が出現するまでを１つの情報単位としても良い。
【００２５】
そして、切り分けられた情報単位の中に、その情報の詳細情報の所在を示すＵＲＬが記載されていれば抽出する。
【００２６】
この実施形態では、抽出した結果をタグでマーキングするという形で表現している。例えば、図４に示す情報単位に対しては、図５に示すように抽出し、表現する。例えば、情報単位の１行目はタイトルと認識している。また、１つの情報単位の中に、ＵＲＬが複数個存在する場合にも、同様に抽出する。但し、複数の出現については、ＵＲＬの表現を区別するために、タグの中にｉｄという属性を付与し出力順に番号を付与している。ＵＲＬの発見方法については、ｈｔｔｐ：／／で始まる文字列を検索するなど、一般的な方法を利用すれば良い。また、ＵＲＬ抽出後の表現方法も、複数のＵＲＬを識別できるのであれば、上記の方法に限るものではない。
【００２７】
ステップＳ２０２〜Ｓ２０７の処理は、抽出された情報単位毎に実行される処理である。
【００２８】
ステップＳ２０２のデータ取得処理（情報取得処理）では、外部データ取得部１０２が、ステップＳ２０１で抽出したＵＲＬに基づいて、そのＵＲＬが示す情報源等からデータを取得する。これは一般に、ネットワークを介してＵＲＬが示すサーバにアクセスし、該当するＨＴＭＬ文書を取得するという処理になる。
【００２９】
ステップＳ２０３の判定処理では、データ取得処理Ｓ２０２で取得したＵＲＬが示す場所のデータと、そのＵＲＬが含まれていた情報単位の内容とが一致するかを判定する。判定の方法としては、例えば、取得したデータと、情報単位の内容のそれぞれからキーワードを抽出し、互いのキーワードの一致度を計算し、一致度を閾値と比較する方法で行う。一致と判定した場合には、処理をステップＳ２０５に移行し、不一致と判定した場合には、処理をステップＳ２０４に移行する。
【００３０】
図６は、図５の２番目の情報単位に取得したデータを追加した様子を示したものであり、取得したデータに＜ＧＥＴ−ＤＡＴＡ＞というタグを付けて表現したものである。
【００３１】
ここで、取得したデータは、一般的にＨＴＭＬ文書と呼ばれる制御文字を含んだ文書である。そのため、予め取得したデータのハイパーリンク以外の制御文字を取り除く前処理を行った上で、判定処理を行っても良い。
【００３２】
また、取得したデータは、レイアウトなどによって記載内容を分類できるため、予め取得したデータの主要箇所を抽出する前処理を行った上で、抽出された主要箇所との判定処理を行っても良い。
【００３３】
ステップＳ２０３の判定処理において、不一致と判定された場合に移行する、ステップＳ２０４のＵＲＬ変更処理では、先に取得したデータの中に含まれる全てのハイパーリンクを抽出して、第１階層のＵＲＬリストを作成した上で一時的に記憶しておき、各ＵＲＬに対してデータ取得処理Ｓ２０２及び判定処理Ｓ２０３を繰り返す。第１階層のＵＲＬリストに対しても全て不一致となった場合は、一時的に記憶されている第１階層のＵＲＬリストから取得できるデータに対して、再びハイパーリンクを抽出して第２階層のＵＲＬリストを作成して一時的に記憶しておき、各ＵＲＬに対してデータ取得処理Ｓ２０２及び判定処理Ｓ２０３を繰り返す。
【００３４】
例えば、情報単位に含まれているＵＲＬが企業のトップページのような場合には、トップページに含まれている全てのハイパーリンクを取り出して、そのリンク先のＷｅｂページに移行して、情報単位に関連するかを判定し、第１階層のＵＲＬに係るＷｅｂページも情報単位に関連しない場合には、その各Ｗｅｂページに含まれている全てのハイパーリンクを取り出し、情報単位に関連するＷｅｂページの探索を行う。
【００３５】
ここで、探索をやめるまでの階層の深さは予め固定設定しておいても良く、ユーザが任意に設定できるようにしても良く、いずれにせよ、繰り返しの回数を制限できるものとする。
【００３６】
なお、抽出した情報単位に複数のＵＲＬが記載されている場合には、ある１個のＵＲＬについてデータ取得を行い、取得データが情報単位に関係しないと判定された場合には、次のＵＲＬでのデータ取得、判定を行い、一致するものが見つかるまで繰り返す。しかし、全てのＵＲＬでの取得データが不一致のときには、ある１個のＵＲＬの取得データに対する上述した第１階層のリンクの処理を行い、これでも一致する取得データがなければ、他のＵＲＬの取得データに対する上述した第１階層のリンクの処理を行い、以下、情報単位の内容に一致する取得データを得るまで（階層の制限はある）、同様な処理を繰り返す。上述とは異なり、各ＵＲＬのそれぞれについて、取得データを得て、その中で一致度が最も高いものを選択するようにしても良い。
【００３７】
また、ステップＳ２０１で抽出された情報単位にＵＲＬが含まれていない場合には、その情報単位に対するステップＳ２０２〜Ｓ２０７の処理を省略しても良い。また、電子メール文書（例えばメールマガジン）を提供している企業の代表のＵＲＬや、新聞社等のＵＲＬ等が情報単位に含まれているものとみなして（このようなＵＲＬはシステムが固定設定しても良く、ユーザが任意設定しても良い）、処理を行うようにしても良い。この場合の探索階層の深さは、情報単位にＵＲＬが含まれている場合と同様でも良いが、より深くしても構わない。
【００３８】
情報単位の内容に関連する取得データが得られた場合には、処理はステップＳ２０５に移行する。情報単位の内容に関連する取得データが得られなかった場合には、ステップＳ２０５に移行しないで、次の情報単位の処理に移行しても良く、ステップＳ２０５に移行し、情報単位に係る処理だけを行うようにしても良い（取得データに対する処理は実行されない）。
【００３９】
ステップＳ２０５のキーワード抽出処理は、情報補完部１０３の処理の一つで、情報単位の中に含まれる内容と、取得したデータに対して、キーワードとして扱う文字列の抽出を行う。なお、ステップＳ２０３の判定処理でキーワード抽出を行っているならばそれを利用するようにしても良い。キーワードの抽出方法については、特に限定されるものではなく、既存の方法を用いて良い。但し、情報単位の中に含まれるキーワードであるのか、取得したデータの中に含まれるキーワードであるのかは、情報単位に対する検索を行う際に検索対象を選択可能にするため、区別して情報単位を管理する。
【００４０】
例えば、図７に示すように、情報単位の中から抽出したキーワードと、取得データから抽出したキーワードとにキーワードであることを表すタグを付けると共に、キーワードタグの属性値を利用して、どちらから抽出したキーワードであるかを表して情報単位の中に表現しておく。例えば、キーワードが情報単位の中に含まれるものであれば、属性値をＴ（タイトル部分）やＤ（概要部分）とし、取得したデータからであれば属性値をＧとし、複数の部分に含まれているものであれば、その記号を列挙する。
【００４１】
ステップＳ２０６の主要部抽出処理は、情報補完部１０３の処理の一つで、取得したデータの中から、主要部のみを抽出する。なお、主要部抽出方法としても、既存の方法を適用することができ、既存の要約作成方法を適用することができる。ここでの主要部とは、取得したデータの中から、情報単位が示す内容と類似する、又は、情報単位の示す内容の詳細に相当する部分をいう。主要部として抽出する文字数を制限しなければ、取得したデータを全て主要部として扱っても良いが、具体的にはある文字数で制限し、その文字数に収まるように、取得したデータから主要部を抽出する。
【００４２】
例えば、図８に示すように、＜ＧＥＴ−ＤＡＴＡ＞というタグで囲むことにより表現されている取得したデータから、主要部を抽出し、＜ＢＯＤＹ＞というタグで囲んで、情報単位の中に表現する。このとき、この主要部が取得したデータから得られたものであることを示す情報として、属性値にＧという記号をつけておく。情報単位内にもともと主要部（又は要約）含まれていた場合には、属性値にＯという記号をつけておく。
【００４３】
ステップＳ２０７の構造化データ作成処理は、構造化データ生成部１０４の処理で、情報単位の内容と、キーワード抽出処理（Ｓ２０４）の結果と、主要部抽出処理（Ｓ２０５）の結果を組み合わせて、構造化データを生成する。例えば、図９に示すように、タグ付けした形で、構造化データを生成する。このとき、取得したデータについては、不要なものも含まれているため、主要部を抽出した後は削除することで、蓄積効率を上げる。なお、取得データを残しても良いことは勿論である。
【００４４】
ステップＳ２０８の判定処理では、情報単位抽出処理（Ｓ２０１）において、複数の情報単位が抽出された場合に、処理されていない情報単位があるか否かを判定する。処理されていない情報単位があれば、ステップＳ２０２に処理を移行する。
【００４５】
全ての情報単位に対して処理されていれば、生成した全ての構造化データを出力する。出力は、表示出力でも、印刷出力でも、送信出力でも良く、また、後での表示出力や印刷出力などのための記憶処理でも良い。また、生成した全ての構造化データを出力するのではなく、ユーザが予め指定したキーワードを含む構造化データを出力するようにしても良い。
【００４６】
（Ａ−３）実施形態の効果
上記実施形態によれば、メールサーバ若しくはメールクライアントの１機能として動作させることにより、電子メール文書の中に、ＵＲＬで示されている部分があった場合、ＵＲＬで示された部分から、電子メール文書の内容に該当するデータが読み込まれた状態で出力できるため、ユーザは、改めてＵＲＬの指定や、ＵＲＬの情報を取得する必要がなく、十分な必要な情報を得ることができる。特に、メールサーバに拡充機能を持たせた場合には、ユーザは、メール受信時に何らの操作も行うことなく、十分な情報を得ることができる。
【００４７】
また、取得したデータ全てを蓄積するのではなく、電子メール文書の内容に相当するデータの中から、さらに主要部のみを抽出して蓄積するため、蓄積効率が良い。
【００４８】
さらに、電子メールの受信だけで、ＵＲＬの情報も同時に取得できているので、電子メールの閲覧ソフトウエアだけで、必要なＵＲＬ情報も閲覧することができる。
【００４９】
さらにまた、タイトルとＵＲＬだけからなるような情報に対して、ＵＲＬが示すサーバから取得したデータに対してキーワード抽出を行った上で、構造化データを作成するため、本構造化データをデータベース等に蓄積した上でキーワード検索をする際、検索精度が、タイトルだけに対して検索を行った場合に比べて、格段に向上する。
【００５０】
（Ｂ）他の実施形態
上記実施形態の電子文書情報拡充装置からのの最終出力の形式は、必要に応じて、電子メール文書の形態や、Ｗｅｂブラウザで閲覧可能な形態に変換しても良い。そして、これらを電子メールとしてユーザに送信しても良い。すなわち、拡充後の情報単位は、構造化データになっていなくても良い。
【００５１】
また、情報単位の内容とＵＲＬが示すサーバから取得したデータとの類似度（一致度）を判定する際、予め指定した深さの階層までの全てのリンク先のデータを取得して類似度を計算した上で、最も類似度の高いデータを採用するようにしても良い。
【００５２】
さらに、ステップＳ２０５のキーワード抽出処理とステップＳ２０６の主要部抽出処理の順序を入れ替えても良い。その場合は、主要部抽出処理の結果に対して、キーワード抽出処理を行うことになる。
【００５３】
さらにまた、入力される電子メール文書が、複数の情報を含んでいない場合でも良く、このような電子メール文書を専用に扱う装置であれば、分割処理手段を備えなていなくても良い。また、本発明の電子文書は、電子メール文書に限定されず、入力文書そのものがＷｅｂページ等であっても良く、その場合、タグを外して上記と同様な処理を行っても良く、上記で用いるタグはそのまま残して処理しても良い。電子文書は、コンテンツとして提供されるようなものであっても良い。また、既に、情報単位に分割されたものが入力され、各情報単位に対して情報の拡充を行うものであっても良い。
【００５４】
上記実施形態では、ＵＲＬが情報の所在を表すものであったが、ＵＲＩやＦＴＰやファイル名等であっても良い。
【００５５】
また、上記実施形態では、取得データの詳細を最終的には除去するものを示したが、除去するか否かをユーザに予め設定させるようにしても良い。すなわち、拡充情報は、主要部及びキーワードに限定されず、取得データの詳細情報を含めても良く、キーワードだけを拡充するものであっても良く、ユーザに任意に設定させるものであっても良い。
【００５６】
さらに、上記実施形態では、情報を拡充する場合を示したが、情報を置換するようにしても良い。例えば、情報単位に概要が含まれていても、取り出した取得データでの概要の方が詳しい場合には（例えば、文字数や文章数で判断する）、情報単位に含まれている概要を、取得データの概要に置換するようにしても良い。
【００５７】
さらにまた、上記実施形態では、情報を拡充する場合を示したが、拡充の際に、拡充情報や当初情報を翻訳するようにしても良い。例えば、取り出した取得データが、外国語（当初情報から見た場合の外国語や利用者の指定言語と異なる外国語）であった場合に、利用者が理解できる言語等に翻訳した上で、拡充するようにしても良い。また例えば、両言語の情報を並記するようにしても良い。
【００５８】
特許請求の範囲の「拡充」の用語には、このような置換や翻訳による情報量の拡充も含むものとする。
【００５９】
【発明の効果】
以上のように、本発明によれば、関連する情報の所在を含む電子文書の情報を拡充できる電子文書情報拡充装置、方法及びプログラム、並びに、電子文書情報拡充プログラムを記録した記録媒体を提供できる。
【図面の簡単な説明】
【図１】実施形態の電子文書情報拡充装置（電子メール文書情報拡充装置）の機能的構成を示すブロック図である。
【図２】実施形態の電子メール文書情報拡充装置の全体動作を示すフローチャートである。
【図３】電子メール文書の一例を示す説明図である。
【図４】実施形態の情報解析部による図３の文書に対する情報単位抽出処理の結果例を示す説明図である。
【図５】実施形態の情報解析部による抽出情報単位に対するＵＲＬの抽出結果例を示す説明図である。
【図６】実施形態の外部データ取得部の取得結果例を示す説明図である。
【図７】実施形態のキーワード抽出処理の処理結果例を示す説明図である。
【図８】実施形態の主要部抽出処理の処理結果例を示す説明図である。
【図９】実施形態の構造化データ生成処理による構造化データ例を示す説明図である。
【符号の説明】
１００…入力部、１０１…情報解析部、１０２…外部データ取得部、１０３…情報補完部（情報補充部）、１０４…構造化データ生成部。

Claims

電子文書に対し、それが有しない要素の情報を拡充する電子文書情報拡充装置であって、
入力された電子文書から、それに含まれているデータの所在情報を抽出する所在情報抽出手段と、
抽出された所在情報に基づき、補充し得る外部データを取得する外部データ取得手段と、
取得した外部データから、入力された上記電子文書で不足する要素の情報を拡充する情報補完手段と
を備えることを特徴とする電子文書情報拡充装置。
入力された上記電子文書を解析して情報単位に分割する情報解析手段をさらに備え、
上記所在情報抽出手段、上記外部データ取得手段及び上記情報補完手段が、分割された上記各情報単位に対して所定の処理を行う
ことを特徴とする請求項１に記載の電子文書情報拡充装置。
上記外部データ取得手段は、抽出された所在情報に基づき、外部データを取得する際、外部データと、情報拡充対象の電子文書又は情報単位の内容とが類似していることを判定した上で取得することを特徴とする請求項１又は２に記載の電子文書情報拡充装置。
上記外部データ取得手段は、抽出された所在情報が示す場所の外部データと、その外部データが含む所在情報をたどって到達し得る外部データとを取得可能な外部データとしていることを特徴とする請求項１〜３のいずれかに記載の電子文書情報拡充装置。
電子文書に対し、それが有しない要素の情報を拡充する電子文書情報拡充方法であって、
入力された電子文書から、それに含まれているデータの所在情報を抽出する所在情報抽出工程と、
抽出された所在情報に基づき、補充し得る外部データを取得する外部データ取得工程と、
取得した外部データから、入力された上記電子文書で不足する要素の情報を拡充する情報補完工程と
を有することを特徴とする電子文書情報拡充方法。
入力された上記電子文書を解析して情報単位に分割する情報解析工程をさらに有し、
上記所在情報抽出工程、上記外部データ取得工程及び上記情報補完工程が、分割された上記各情報単位に対して所定の処理を行う
ことを特徴とする請求項５に記載の電子文書情報拡充方法。
上記外部データ取得工程は、抽出された所在情報に基づき、外部データを取得する際、外部データと、情報拡充対象の電子文書又は情報単位の内容とが類似していることを判定した上で取得することを特徴とする請求項５又は６に記載の電子文書情報拡充方法。
上記外部データ取得工程は、抽出された所在情報が示す場所の外部データと、その外部データが含む所在情報をたどって到達し得る外部データとを取得可能な外部データとしていることを特徴とする請求項５〜７のいずれかに記載の電子文書情報拡充方法。
請求項５〜８のいずれかに記載の電子文書情報拡充方法の各工程をコンピュータが処理し得るコードで記述したことを特徴とする電子文書情報拡充プログラム。
請求項９の電子文書情報拡充プログラムを記録していることを特徴とする記録媒体。