JP4255538B2 - 構造化文書蓄積検索装置 - Google Patents

構造化文書蓄積検索装置 Download PDF

Info

Publication number
JP4255538B2
JP4255538B2 JP22397798A JP22397798A JP4255538B2 JP 4255538 B2 JP4255538 B2 JP 4255538B2 JP 22397798 A JP22397798 A JP 22397798A JP 22397798 A JP22397798 A JP 22397798A JP 4255538 B2 JP4255538 B2 JP 4255538B2
Authority
JP
Japan
Prior art keywords
document
unit
individual element
individual
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP22397798A
Other languages
English (en)
Other versions
JP2000057154A (ja
Inventor
澤華 譚
昌孝 冨樫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP22397798A priority Critical patent/JP4255538B2/ja
Publication of JP2000057154A publication Critical patent/JP2000057154A/ja
Application granted granted Critical
Publication of JP4255538B2 publication Critical patent/JP4255538B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、利用者が文書作成のアプリケーションソフトウエア(例えば、ワードプロセッサ)の文書テンプレートを用いて作成した構造化文書を、構造化文書を構成する個別要素に区分し、文書を作成したアプリケーションソフトウエアに依存した形式の構造化文書と、データベースの保存形式であるテキスト形式の構造化文書と、個別要素に対応する表示用データの3種類の形式のデータを連携して効率的に生成・蓄積・管理し、利用者の検索要求に適合した文書の文書内の該当部分を印刷物と同等レベルで高品位な表示を実現する装置に関する。
【0002】
【従来の技術】
従来から構造化文書は構造化文書専用エディタで作成されていた。この問題を解決する手段として特開平8−221399「構造化文書作成方法および装置」がある。この装置によると、予め用意したユーザが定義した文書論理構造を表す仮タグと複数の文書論理構造定義との対応関係を参照して、ユーザが仮タグを用いて作成した原テキストと各文書型定義との一致度を求め、その一致度順に文書型定義を表示し、ユーザに対して文書型定義の選択要求を行い、選択された文書型定義に合わせて原テキスト中の仮タグを文書型定義に基づく文書論理構造を表す情報に変換し、変換結果を含むテキストを文書型定義に基づいて構文解析を行なうパーサによって解析し、変換結果の整合性を検証を行う、というものである。
【0003】
また、従来から文書単位でしか文書を取り扱うことができなかったことを解決するための装置として特開平6−301721「全文データベース検索方法」や特開平5−225240「文書データベース装置」がある。特開平6−301721によると、文書の論理的構造情報を含めた検索要求文の指定及び検索結果の表示を可能とする全文データベース検索方式で、文書の構成要素単位で文書を分解して、文書の論理的構造を示す構造情報と、この構成要素を識別するための構成要素識別子と、この構成要素識別子に続くテキスト情報とを含むデータベースを作成し、このデータベースを検索し、検索結果であるテキスト情報を表示する、というものである。特開平5−225240によると、文書データベースに蓄積されている構造化文書から一部分の文書内容を抽出することができるとともに抽出した内容の割付処理を行うことができる、というものである。
【0004】
【発明が解決しようとする課題】
これまでに示した従来の文書の生成、蓄積、表示方式を採用した装置では、利用者に対して構造化文書を効率的に生成・蓄積すること、また、印刷物と同等レベルの高品質な画質の検索結果を提供することは不可能であった。
【0005】
特開平8−221399では、テキストのみを扱うエディタで文書を作成するが、印刷結果と同じイメージが得られる編集画面で作業を行うことが可能なアプリケーションが普及している現状において、このことは文書作成者にとって大きなデメリットである。また、ユーザが仮タグを付ける作業を行わなければならないため、付帯的作業が増加する。また、原テキストと予め用意した文書論理構造定義との対応関係を参照して一致度を求め、一致度順に文書型定義を表示し、ユーザにその内1つを選択させるため、利用者が選択を誤る可能性がある。
【0006】
また、特開平6−301721に示す方法や特開平5−225240に示す装置では、蓄積している区分した構造化文書の一部分をもとに検索結果としてテキストのみが表示対象となっている。また、利用者が構造化文書を生成、再利用する手段を備えていない。
【0007】
以上のように、従来の構造化文書の生成、蓄積、表示方式を採用した装置では、利用者に対して効率的に生成・蓄積・管理すること、また、印刷物と同等レベルの高品質な検索結果を提供することは不可能であった。これまでの構造化文書管理システムでは蓄積時に文書内に記されている文書属性を再度別途入力する必要がある点や、利用者が構造化文書を生成、再利用する手段を備えていない点、検索結果として印刷物と同等レベルの高品質な表示が不可能である点、などの問題点があった。
【0008】
本発明は、かかる現状に鑑みてなされたものであり、利用者に対して効果的な構造化文書作成環境を提供し、生成された文書の文書構成を解析し、構成要素ごとにアプリケーション依存形式構造化文書個別要素に区分し、このアプリケーション依存形式構造化文書個別要素からテキスト形式構造化文書個別要素および表示用データ個別要素を生成し、これら3種類のデータ形式を蓄積し、連携して管理することにより、利用者の検索要求を受付け、検索結果として印刷物と同等レベルの高品質な画質の表示を提供することを目的としている。
【0009】
【課題を解決するための手段】
この発明に係る構造化文書蓄積検索装置は、作成する構造化文書を構成する各構成要素をあらかじめ定義した文書構造定義を記憶する記憶部と、上記文書構造定義に定義された構成要素に基づいて、文書を作成する文書作成部と、上記文書作成部で作成された文書を、上記文書構造定義に定義されている構成要素に対応する文書部分である個別要素に区分する個別要素区分部と、上記個別要素区分部で区分された個別要素に対して、複数の形式のデータを生成する個別要素生成部と、上記個別要素生成部で生成された複数の形式のデータを個別要素に対応づけて蓄積するデータ蓄積処理部と、上記データ蓄積処理部が複数の形式のデータを蓄積する記憶領域であるデータ蓄積部と、上記データ蓄積処理部でデータ蓄積部に蓄積されたデータを検索する検索管理部とを備えたことを特徴とする。
【0010】
上記文書作成部は、文書を作成するアプリケーションソフトウエアを有し、アプリケーションソフトウエアは、アプリケーションソフトウエアのデータ保存形式に従ったアプリケーション依存形式構造化文書を作成し、上記個別要素区分部は、上記アプリケーション依存形式構造化文書を区分してアプリケーション依存形式構造化文書個別要素を生成し、上記データ蓄積部は、少なくとも、上記アプリケーション依存形式構造化文書個別要素と、上記アプリケーション依存形式構造化文書個別要素をテキスト形式に変換したテキスト形式構造化文書個別要素と、検索結果を出力する際に使用する表示用データ個別要素とのいずれかを含む複数の形式のデータを蓄積する記憶領域を有することを特徴とする。
【0011】
上記検索管理部は、上記データ蓄積部で蓄積したデータを検索する検索部と、上記検索部で検索したデータを上記複数の形式のデータの少なくともいずれか一つを出力する検索結果出力部とを備えることを特徴とする。
【0012】
上記個別要素生成部は、上記アプリケーション依存形式構造化文書個別要素を構造化文書のデータ形式であるテキスト形式のデータに変換し、上記構造化文書個別要素を生成するとともに、上記アプリケーション依存形式構造化文書個別要素に対応させて、表示用に使用する表示用データを生成することを特徴とする。
【0013】
各個別要素は、当該個別要素を識別する識別名を有し、上記データ蓄積処理部は、上記識別名に対応づけて上記複数の形式のデータを蓄積することを特徴とする。
【0014】
上記アプリケーションソフトウエアは、マクロ言語を有するとともに、上記マクロ言語により、上記文書構造定義に基づいて、構造化文書を作成する文書テンプレートを作成し、上記文書作成部は、上記文書テンプレートに従い文書を作成することにより、アプリケーション依存形式構造化文書を作成することを特徴とする。
【0015】
上記検索結果出力部は、アプリケーション依存形式構造化文書を作成したアプリケーションソフトウエアを有し、表示用データ個別要素を出力することを特徴とする。
【0016】
【発明の実施の形態】
実施の形態1.
本発明の実施の形態の一例を図を用いて説明する。本実施の形態においては、テキストで表現される構造化文書の形式としてSGML(Standard Generalized Markup Language)を採用する。従って、文書構造定義に相当する概念はSGMLのDTD(Document Type Definition)である。
【0017】
図1は構造化文書蓄積検索装置全体の処理フローを示した図である。文書作成部101は、具体的には文書編集アプリケーションソフトウエア(ワードプロセッサ)である。文書作成部101には、入力制限機能および文書の構成要素の名称を示すスタイル付機能がある。入力制限機能は、予めSGMLのDTDにより定義されている文書構造定義102を読み込み、使用できるスタイルを制限して、構造化文書の作成を実現する。スタイルは、文字列が章であるのか、節であるのか、タイトルであるかなど属性を示すものである。スタイル付機能は、文書作成時入力された文書を使用できるスタイルに変更する機能である。この機能は文書編集アプリケーションソフトウエアに付属しているマクロ言語で作成される。文書作成部101では、文書を作成するアプリケーションソフトウエアに依存した形式の構造化した文書を作成する。この形式の文書をアプリケーション依存形式構造化文書とする。アプリケーション依存形式構造化文書201の具体例を、図8に示している。
【0018】
アプリケーション依存形式構造化文書を構成している各構成要素は、スタイルで区分すること、具体的には、文字列が章であるのか、節であるのか、タイトルであるかなど属性によって区分することが可能である。アプリケーション依存形式構造化文書を区分し、各構成要素に区分する(103)。区分した各構成要素の文書をアプリケーション依存形式構造化文書個別要素とする(104)。具体的には、アプリケーション依存形式構造化文書個別要素は、章部分、節部分など文書を構成要素ごとに区分したものである。図9は、図8に示すアプリケーション依存形式構造化文書201に基づいて、アプリケーション依存形式構造化文書個別要素203を生成した場合を示している。
【0019】
次に、アプリケーション依存形式構造化文書個別要素をもとに、SGML形式で表現されている個別要素であるテキスト形式構造化文書個別要素(図10)、表示用データである表示用データ個別要素(図11)を生成する(105)。テキスト形式構造化文書個別要素と表示用データ個別要素は、アプリケーション依存形式構造化文書個別要素と1対1にそれぞれ対応して蓄積されている。図10は、図9に示すアプリケーション依存形式構造化文書個別要素203に基づいて、テキスト形式構造化文書個別要素206を生成した場合を示している。また、図11は、図9に示すアプリケーション依存形式構造化文書個別要素203に基づいて、表示用データ個別要素208を生成した場合を示している。
【0020】
検索部は検索要求を受け付け、検索結果を出力する(109)。利用者から受け付けた検索要求をもとに、データベースに蓄積したテキスト形式構造化文書個別要素について検索を行い、検索結果に対応するアプリケーション依存形式構造化文書個別要素を再利用の用途として、また表示用データ個別要素を表示用データとして利用者に返す。
以上が本装置の全体の処理フローである。
【0021】
次に本装置の各部分の構成を、図2に基づいて説明する。
構造化文書蓄積検索装置は、文書を作成するアプリケーションソフトウエアによりアプリケーション依存形式構造化文書201を作成する文書作成部101と、文書作成部101で作成したアプリケーション依存形式構造化文書201を構成要素に対応する文書部分である個別要素に区分する個別要素区分部202と、個別要素区分部202で区分された個別要素に対して複数のデータ形式を生成する個別要素生成部220と、個別要素生成部220で生成された複数形式のデータを個別要素ごとに対応づけて蓄積するデータ蓄積処理部209と、データを蓄積するデータ蓄積部230と、データを検索する検索管理部303とから構成されている。
【0022】
データ蓄積部230は、蓄積管理部211と、文書個別要素蓄積部212と、検索結果表示用データ蓄積部213とを含む構成となっている。
検索管理部303は、図3に示すように、検索キー種別判定部302と、検索部304と、検索結果出力部305とを含む構成となっている。
さらに、個別要素生成部220は、図2に示すように、構造化文書個別要素生成部205と表示用データ個別要素生成部207とから構成されている。
【0023】
次に、各構成要素の動作について説明する。まず、文書作成部101について、図4を用いて動作を説明する。文書作成部101では、アプリケーションソフトウエア(ワードプロセッサなど)によりアプリケーション依存形式構造化文書を作成する。
【0024】
文書作成者は、あらかじめ、作成する文書の構造を定めた文書構造定義102を作成しておく。次に、文書作成者は、アプリケーションソフトウエアによって、文書構造定義102に基づいて、文書テンプレートを作成しておく。文書テンプレートは、アプリケーションソフトウエアに付属する機能であるマクロプログラムで作成されるものであって、入力制限機能とスタイル付機能を有するため、文書構造定義102に沿った文書の作成を可能にするものである。文書テンプレートはマクロプログラムが組み込まれているため、文書構造に従った入力制限機能および文書を構成するの構成要素の名称を示すスタイル付機能を有する。これらの機能は、文書テンプレートごとに備えられている。文書は、文書テンプレートを利用して、入力制限機能とスタイル付機能に従って作成する。
尚、文書作成のアプリケーションソフトウエアは、上記機能を満たすものであれば、複数のアプリケーションソフトウエアを使用することも可能である。
【0025】
具体例として、図8に示すアプリケーション依存形式構造化文書201を作成する場合を取り上げる。この具体例では、文書の冒頭は文書タイトルで始まり、次に作者名、章のタイトル、章の段落、節のタイトル、節の段落の順で構成される文書の場合の動作を例として図4を用いて説明する。文書作成部101は、文書テンプレートごとに、文書を構成する各要素の順を記憶するDTDに従った文書構造記憶領域を有する。利用者が文書の編集を始める際に、対象となる文書テンプレートを開くと、文書テンプレート中に埋め込まれたマクロプログラムが動作し、文書構成記憶領域より最初の構成要素を探し出し、その構成要素に対応する最初のスタイルを設定する(401)。本実施の形態の場合、最初の構成要素は文書タイトルなので、スタイルに文書タイトルを設定する。利用者が文書タイトルを入力し、入力終了を意味する改行コードをキーボードから入力する。改行コードによりアプリケーションソフトウエアに文書タイトルの入力完了が伝えられると、マクロプログラムはスタイルに文書タイトルに次の構成要素である作者名を設定する(402)。次に、利用者が作者名を入力し、改行コードを入力し、アプリケーションソフトウエアに文書タイトルの入力完了を伝えると、マクロプログラムはスタイルに章タイトルを設定する。以下同様に、文書テンプレートに付属するマクロプログラムは改行キーを現在のスタイルに対する入力完了と判断し、文書構造記憶領域より次の構成要素をスタイルに設定する。スタイルを設定する際、次の構成要素が複数該当する場合(405)、選択画面を提示し、利用者に次に記す文字列が該当する文書構成要素名を選択させ、選択された構成要素をスタイルに設定する(406、407)。文書編集が終了すると、図8に示すアプリケーション依存形式構造化文書201の作成が完了する。
【0026】
以上のように、作成する文書の特徴に応じて予め準備される文書テンプレートを使用して文書を作成することにより論理的構造を持ち、テキストで表現される構造化文書の原形となるアプリケーション依存形式構造化文書を作成できる。
【0027】
次に、個別要素区分部202について、図5を用いて動作を説明する。個別要素区分部202では、アプリケーション依存形式構造化文書個別要素203を生成する。この具体例では、図8に示すアプリケーション依存形式構造化文書201に基づいて、図9に示すアプリケーション依存形式構造化文書個別要素203を生成する場合を示す。アプリケーション依存形式構造化文書201を文書の構成要素ごとに区分したものをアプリケーション依存形式構造化文書個別要素とする。個別要素は、アプリケーション依存形式構造化文書に記録されているスタイルも基づいて区分する(501)。個別要素に区分する際は、個別要素の属性を文書個別要素種別記憶領域210に記録する。具体的には、文書タイトルや作成者などのような文書全体に影響を及ぼす文書属性部分個別要素と、章のタイトル、章段落、節のタイトル、節段落などのような各部分を示す文書個別要素のいずれに属するのか文書個別要素種別記憶領域210に記録する(502、503)。
【0028】
次に個別要素生成部220の動作について、図2を用いて説明する。構造化文書個別要素生成部205は、個別要素区分部202で生成されたアプリケーション依存形式構造化文書個別要素203を、スタイルに基づいてSGMLの保存形式であるテキストからなるテキスト形式構造化文書個別要素206を生成する。テキスト形式構造化文書個別要素206を生成する場合、構造化文書102で使用されている文書構造を示すタグを使用する。使用するタグは、スタイルに対応するタグ名を文書構造定義からスタイルに対応するタグを探し出し付けて行く。スタイル−タグ対応記憶領域の生成は、予め文書テンプレート毎にスタイルとタグの対応を作成したスタイル−タグ定義ファイルを起動時に読み込むことにより生成される。
図9に示すアプリケーション依存形式構造化文書個別要素203に基づいて生成したテキスト形式構造化文書個別要素206を図10に示している。
【0029】
表示用データ個別要素生成部207は、アプリケーション依存形式構造化文書個別要素203を表示イメージに変換して表示用データ個別要素208を生成する。生成された表示用データ個別要素208には、アプリケーション依存形式構造化文書201に含まれるテキストのほか、表や図など貼り付けているオブジェクトすべてが表示用データとして含まれている。図9に示すアプリケーション依存形式構造化文書個別要素203に基づいて生成した表示用データ個別要素208を図11に示している。
【0030】
データ蓄積処理部209の動作について、図6を用いて説明する。データ蓄積処理部209は、複数形式のデータをデータ蓄積部230へ蓄積する。本実施の形態では、検索用データとしてテキスト形式構造化文書個別要素206を、検索された文書の再利用の用途として、データ蓄積部230へ蓄積する。テキスト形式構造化文書個別要素206に対応するアプリケーション依存形式構造化文書個別要素203を、検索結果の表示用として、データ蓄積部230へ蓄積する。テキスト形式構造化文書個別要素206に対応する表示用データ個別要素208を表示用データとして、データ蓄積部230へ蓄積する。
【0031】
データ蓄積部230は、蓄積管理部211と、文書個別要素蓄積部212と、検索結果表示用データ蓄積部213を構成要素として有する。蓄積管理部211は、各個別要素を一意に決定する識別名と構造化文書の文書属性部分個別要素に対応を格納した2次元のテーブルで構成される。2次元テーブルは、まず、識別名生成部204で予め利用者が生成した識別名をキーとして、文書個別要素種別記憶領域210の記録内容をもとに、文書属性部分個別要素に対応する構造化文書個別要素のみを取り出すことにより生成する。この2次元テーブルを図6の蓄積管理部211に示す。蓄積管理部211の識別名211aが識別名生成部204で生成された個別要素区分部202生成した各個別要素を一意に決定する識別名である。また、図6の例では、文書タイトル211bおよび作成者211cを構造化文書個別要素の文書属性部分の情報をとして挙げている。
【0032】
さらに蓄積管理部211では、アプリケーション依存形式構造化文書個別要素203と表示用データ個別要素208の実際の格納位置を記録する。これを図6と図7を用いて説明する。データ蓄積処理部209において蓄積するアプリケーション依存形式構造化文書203と表示用データ個別要素208を受付けると、検索結果表示用データ蓄積部213へ蓄積すると同時にそれらの格納位置を蓄積管理部211に含まれる表示用データ格納位置211dとアプリケーション依存形式構造化文書個別要素格納位置211eに記録する。
文書個別要素蓄積部212は、テキスト形式構造化文書個別要素206を蓄積する。蓄積する際に、上記の識別名211aを、各テキスト形式構造化文書個別要素の先頭に付ける(212a)。尚、各識別名212aは、各テキスト形式構造化文書個別要素に対応する識別名211aと同一の識別名である。
【0033】
テキスト形式構造化文書個別要素206のデータを蓄積管理部211及び文書個別要素蓄積部212に蓄積する具体例を図12に示す。図12は、文書名「aaaa」(206a)及び文書名「bbbb」(206b)の2つの文書の例である。蓄積管理部211へは、文書属性部分のデータを蓄積する。図12では、文書タイトルと作者名である。また、文書個別要素蓄積部212へは、章のデータ部分に識別名212aを付加したものを蓄積する。また、図12では表していないが、節のデータ部分についても、節のデータ部分に識別名を付加したものを、文書個別要素蓄積部212へ蓄積する。
【0034】
検索結果表示用データ蓄積部213は、アプリケーション依存形式構造化文書個別要素203および表示用データ個別要素蓄積部208を格納する。この部分は各データ形式のままで蓄積される。各個別要素を格納している位置は蓄積管理部211に記録する。
【0035】
次に、検索管理部303の動作について図3を用いて説明する。検索は蓄積した3種類のデータを連携させることにより行われる。まず、検索部304では、検索要求を受け付ける。
検索画面の各検索キー入力部は、文書属性部分、文書個別要素入力部分が独立した入力枠が設けられている。入力された入力枠によりいずれか1つの種別を示すフラグを入力された検索キーに付けて検索部304に送信する。検索部304は送られてきたフラグを元に、検索キーが文書タイトルや作者名などの文書属性部分であるのか、章・節をはじめとする文書個別要素であるのか、検索キーの種別を検索キー種別判定部302において判定する。
【0036】
判定結果は検索部304に送られ、最初に検索キーとして文書タイトル、作者名など文書属性に対する検索要求がきた場合、文書属性であるので、蓄積管理部211が管理している2次元テーブルから検索結果を表示する。この際、蓄積管理部211を検索することによって識別名を得る。識別名を基に、文書個別要素蓄積部212に格納されている章、節などのテキスト形式構造化文書個別要素206を取り出し、一時記憶領域308に保管する。次に絞込検索の検索キーとして、文書個別要素が指定された場合、一時記憶領域308に記憶された文書個別要素を検索する。以下、同様に検索を行う。
【0037】
次に最初に検索キーとして章・節などテキスト形式構造化文書個別要素206に対応する検索要求がきた場合、テキスト形式構造化文書個別要素206であるので、文書個別要素蓄積部212から該当するテキスト形式構造化文書個別要素206を取り出して一時記憶領域308に記憶する。その際、識別名を取り出し、対応する文書属性を蓄積管理部211から特定する。以下、同様に検索を行う。テキスト形式構造化文書個別要素206は、テキスト形式になっている全文を検索する。
【0038】
次に検索結果出力部305の動作について図3を用いて説明する。検索結果出力部305は、アプリケーション依存形式構造化文書個別要素および表示用データ個別要素を抽出し、出力する。検索部304の検索結果をもとにが蓄積管理部211に記録されているアプリケーション依存形式構造化文書個別要素の格納位置および表示用データ個別要素の格納位置に従い検索結果表示用データ蓄積部213より各データ形式の個別要素を抽出し、利用者に検索結果として出力する。その際、アプリケーション依存形式構造化文書個別要素は、検索後に編集等の再利用を目的として、表示用データ個別要素は表示用データとして表示される。
文書個別要素が検索キーとして含まれている場合は、検索にヒットした文書の該当部分のみを表示する。検索キーが文書属性のみの場合、全文表示する必要があるため、文書個別要素を全て取り出し、文書全体を検索結果として表示する。
【0039】
実施の形態2.
上記実施の形態1.では、データ蓄積部230は、蓄積管理部211と、文書個別要素蓄積部212と、検索結果表示用データ蓄積部213を含む構成としたが、この構成でなくとも、アプリケーション依存形式構造化文書個別要素203と、テキスト形式構造化文書個別要素206と、表示用データ個別要素208を含む複数形式のデータが、個別要素ごとに関連付けられて保存されれば、他の形態でもかまわない。
例えば、データ蓄積部230を、蓄積管理部211と文書個別要素蓄積部212の構成とし、上記複数形式のデータを文書個別要素蓄積部212に総て保存することも可能である。
【0040】
実施の形態3.
上記実施の形態1.では、検索結果出力部305は、検索結果を表示する例を取り上げたが、検索結果を加工して、ファクシミリに出力することも可能である。
また、所定のファイルに加工して、通信網を使用して、指定された場所へ転送することも可能である。
さらに、上記の場合、予め、出力の形態にあわせたデータ形式で保存しておくことも考えられる。
【0041】
【発明の効果】
本発明に係る構造化文書蓄積検索装置によれば、作成した文書について、個別要素ごとに複数の形式でデータの保存及び利用ができる。
【0042】
さらに、この発明によれば、検索結果を複数の形式のデータで取得し、出力することができる。
【0043】
また、この発明によれば、テキスト形式の文書総てを検索可能にし、文書を作成したアプリケーションプログラムを使用して、検索して取得した文書の利用が可能になり、さらに、高画質の表示をすることができる。
【0044】
この発明によれば、個別要素ごとに複数形式のデータを対応させて生成し、保存することができる。
【0045】
この発明によれば、識別キーにより、文書属性及び文書個別要素のいずれの検索キーであっても、複数のデータを対応づけて検索することができる。
【0046】
この発明によれば、文書作成のアプリケーションプログラムのマクロを利用することができる。
【0047】
この発明によれば、複数のデータ形式に対応して検索結果を出力し、検索して取得した文書を再利用することができる。
従って、アプリケーション依存形式構造化文書個別要素203により、構造化文書を専用エディタではなくワードプロセッサを利用し生成することが可能となり、また文書を蓄積する際は文書の属性部分を再入力する必要もない。
さらに、表示用データ個別要素208により、テキストのみならず、図や表やイメージを含む印刷物と同等レベルの高品質な検索結果を提示することができる。
また、テキスト形式構造化文書個別要素206についても、検索結果として提示し作成した文書として再利用することができる。
このように、文書作成から蓄積、検索、表示、再利用に至る全般的な文書管理を行うことができる。
【図面の簡単な説明】
【図1】 本発明の構造化文書蓄積検索装置の処理を示す処理フロー図である。
【図2】 本発明のシステム構成を示す図である。
【図3】 本発明の検索処理の流れを示す図である。
【図4】 本発明のアプリケーション依存形式構造化文書作成の流れを示すフローチャート図である。
【図5】 本発明のアプリケーション依存形式構造化文書個別要素生成の流れを示すフローチャート図である。
【図6】 本発明のデータ蓄積処理の詳細を示す図である。
【図7】 本発明のデータ蓄積処理の詳細を示す図である。
【図8】 本発明のアプリケーション依存形式構造化文書の具体例を示す図である。
【図9】 本発明のアプリケーション依存形式構造化文書個別要素の具体例を示す図である。
【図10】 本発明のテキスト形式構造化文書個別要素の具体例を示す図である。
【図11】 本発明の表示用データ個別要素の具体例を示す図である。
【図12】 本発明のデータ蓄積処理の詳細の具体例を示す図である。
【符号の説明】
101 文書作成部、102 文書構造定義、201 アプリケーション依存形式構造化文書、202 個別要素区分部、203 アプリケーション依存形式構造化文書個別要素、204 識別名生成部、205 構造化文書個別要素生成部、206 テキスト形式構造化文書個別要素、206a,206b テキスト形式構造化文書個別要素の具体例、207 表示用データ個別要素生成部、208 表示用データ個別要素、209 データ蓄積処理部、210 文書個別要素種別記憶領域、211 蓄積管理部、211a,211b,211c,211d,211e 蓄積管理部の構成要素、212 文書個別要素蓄積部、212a テキスト形式構造化文書個別要素の先頭に付加される識別名、213 検索結果表示用データ蓄積部、220 個別要素生成部、230 データ蓄積部、302検索キー種別判定部、304 検索部、305 検索結果出力部、308 一時記憶領域。

Claims (1)

  1. 文書の属性を示す属性部分と、文書の内容を示す複数の要素部分とを有する文書を検索する構造化文書蓄積検索装置において、
    上記文書を入力して文書の有する複数の要素部分に区分して、区分した複数の要素部分の各要素部分に入力した文書の有する属性部分を付加して属性部分と要素部分とを有する複数の個別要素を生成する個別要素区分部と、
    属性部分と要素部分とを有する個別要素からSGML(Standard Generalized Markup Language)形式のテキストデータを生成するタグ情報をあらかじめ記憶するタグ定義ファイルと、
    上記個別要素区分部が生成した複数の個別要素を入力して、入力した複数の個別要素の各個別要素に対応するSGML形式のテキストデータであって、属性部分と要素部分とを有するテキストデータを上記タグ定義ファイルが記憶したタグ情報を用いて生成する個別要素生成部と、
    テキストデータを記憶する文書個別要素蓄積部と、
    個別要素を記憶する検索用蓄積部と、
    上記個別要素区分部が生成した複数の個別要素を入力して、入力した複数の個別要素の各個別要素ごとに、個別要素を上記検索用蓄積部に記憶するとともに、個別要素に対応するテキストデータを入力して、入力したテキストデータを識別する識別名を入力させ、入力された識別名をテキストデータに付加して上記文書個別要素蓄積部に記憶し、さらに、テキストデータが有する属性部分を取得して、取得した属性部分と上記識別名と上記個別要素を上記検索用蓄積部に記憶した際の記憶位置とを対応させてテーブルに記憶するデータ蓄積処理部と、
    検索する文書の属性を示す情報と検索する文書の内容を示す情報とのいずれか一方の情報を検索キーとして入力する検索キー入力部と、
    上記検索キー入力部が文書の属性を示す情報を上記検索キーとして入力した場合、上記文書の属性を示す情報をキーとして上記データ蓄積処理部が記憶したテーブルの属性部分を検索して検索された属性部分に対応す識別名を取得し、取得し識別名に対応する記憶位置を上記データ蓄積処理部が記憶したテーブルより取得し、取得した記憶位置を出力し、
    上記検索キー入力部が文書の内容を示す情報を上記検索キーとして入力した場合、上記文書の内容を示す情報を含む要素部分を有するテキストデータに付与された識別名を上記文書個別要素蓄積部よ取得し、得した識別名と一致する識別名に対応する記憶位置を上記データ蓄積処理部が記憶したテーブルより取得し、取得した記憶位置を出力する検索部と、
    上記検索部が出力した記憶位置に記憶された個別要素を上記検索用蓄積部より取得し、取得した個別要素を表示する検索結果出力部と
    を備えたことを特徴とする構造化文書蓄積検索装置。
JP22397798A 1998-08-07 1998-08-07 構造化文書蓄積検索装置 Expired - Fee Related JP4255538B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP22397798A JP4255538B2 (ja) 1998-08-07 1998-08-07 構造化文書蓄積検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP22397798A JP4255538B2 (ja) 1998-08-07 1998-08-07 構造化文書蓄積検索装置

Publications (2)

Publication Number Publication Date
JP2000057154A JP2000057154A (ja) 2000-02-25
JP4255538B2 true JP4255538B2 (ja) 2009-04-15

Family

ID=16806650

Family Applications (1)

Application Number Title Priority Date Filing Date
JP22397798A Expired - Fee Related JP4255538B2 (ja) 1998-08-07 1998-08-07 構造化文書蓄積検索装置

Country Status (1)

Country Link
JP (1) JP4255538B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7085755B2 (en) * 2002-11-07 2006-08-01 Thomson Global Resources Ag Electronic document repository management and access system
JP2005352716A (ja) * 2004-06-10 2005-12-22 Chugoku Electric Power Co Inc:The 省エネ診断報告書自動作成支援システムおよび方法
JP5435568B2 (ja) * 2006-07-09 2014-03-05 マイクロソフト アマルガメイテッド カンパニー ザ サード データアクセス及びプレゼンテーション要素を再利用する方法及び装置

Also Published As

Publication number Publication date
JP2000057154A (ja) 2000-02-25

Similar Documents

Publication Publication Date Title
US7890486B2 (en) Document creation, linking, and maintenance system
US6353840B2 (en) User-defined search template for extracting information from documents
JP3887867B2 (ja) 構造化文書の登録方法
US6510425B1 (en) Document search method for registering documents, generating a structure index with elements having position of occurrence in documents represented by meta-nodes
US20060080361A1 (en) Document information processing apparatus, document information processing method, and document information processing program
WO2021108038A1 (en) Systems and methods for extracting and implementing document text according to predetermined formats
JPH09223007A (ja) 入力シートシステム
JP4666996B2 (ja) 電子ファイリングシステム、電子ファイリング方法
JP2001084254A (ja) 電子ファイリングシステムおよびファイリング方法
JP4255538B2 (ja) 構造化文書蓄積検索装置
KR19990038731A (ko) 전자문서를 위한 메타데이타 모형 및 모형화 방법과 메타데이타관리시스템 및 그 관리방법
JP2010250439A (ja) 検索システム、データ生成方法、プログラムおよびプログラムを記録した記録媒体
JP2007279978A (ja) 文書検索装置及び文書検索方法
JP2001256043A (ja) プログラムソースの修正履歴管理方法および修正履歴管理システム
JP2000003366A (ja) 文書登録方法と文書検索方法及びその実施装置並びにその処理プログラムを記録した媒体
JPH06309365A (ja) 文書処理装置
JPH117452A (ja) ネットワークを介した情報収集方法および装置と該方法を実施するプログラムを記録した記録媒体
JP2000020549A (ja) 文書データベースシステムへの入力支援装置
JP4480109B2 (ja) 画像管理装置および画像管理方法
JP2003316773A (ja) 文書管理システム、方法、プログラム及び記憶媒体
JP2001297080A (ja) 読取支援装置
JP2003288332A (ja) 構造化文書作成支援方法及び構造化文書作成支援システム
Hu et al. An electronic edition of Don Quixote for humanities scholars
US10990338B2 (en) Information processing system and non-transitory computer readable medium
JP2003196296A (ja) 文献知識管理装置、文献知識管理方法、プログラム、および、記録媒体

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20050715

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050722

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080701

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080806

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081007

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081202

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090127

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090128

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120206

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130206

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130206

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140206

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees