JP3737629B2 - Document editing system, method, and recording medium - Google Patents

Document editing system, method, and recording medium Download PDF

Info

Publication number
JP3737629B2
JP3737629B2 JP07272798A JP7272798A JP3737629B2 JP 3737629 B2 JP3737629 B2 JP 3737629B2 JP 07272798 A JP07272798 A JP 07272798A JP 7272798 A JP7272798 A JP 7272798A JP 3737629 B2 JP3737629 B2 JP 3737629B2
Authority
JP
Japan
Prior art keywords
document
area
information
location
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP07272798A
Other languages
Japanese (ja)
Other versions
JPH11272666A (en
Inventor
泰之 藤川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP07272798A priority Critical patent/JP3737629B2/en
Publication of JPH11272666A publication Critical patent/JPH11272666A/en
Application granted granted Critical
Publication of JP3737629B2 publication Critical patent/JP3737629B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、文書を編集するシステムに関し、より詳しくは、複数の文書から、同様のパターンに属する領域を抽出し、その抽出された各領域を再構成して表示装置上に編集可能に表示し、更にその編集後の各領域を抽出元の文書に反映させる文書編集システムに関する。
【0002】
【従来の技術】
従来より、文書を一定の規則で効率よく表示または印刷するための技術としてSGML(Standard Generalized Markup Language)が広く知られている。ユーザはSGMLによって、文書の構造を定義した文書型定義と表示レイアウトまたは印刷レイアウトに使用される文書レイアウト定義を事前に設定することができ、ユーザはこれらの定義を用いて、効率的に一定の規則に従って文書を再構成し、その表示または印刷を行うことができる。前記文書型定義はDTD(Document Type Definition)と呼ばれ、例えば、文書が複数の領域から成る場合、その各領域の階層構造(包含関係)、出現順及び繰り返し等に関する情報を有している。また前記各領域はそれぞれ任意の一対のタグ(識別子)に関連付けられている。
【0003】
ユーザが文書を作成する場合には、DTDで定義した領域に対応させる部分を、前記領域に関連付けられた一対のタグで挟むように作成する。例えば、文章のタイトル領域は一対のタグ「title」と「/title」に関連付けられており、ユーザは、タイトルとして表示させたい文字列を、この一対のタグで挟むようにする。タグは、場合によっては、対で指定しなくてもよい。
【0004】
前記文書レイアウト定義は、DTDで定義された一対のタグに対応して設定され、例えば、その一対のタグで挟まれた文書内の領域をどういったフォント・スタイルやフォント・サイズで出力するか等を定義する。この文書レイアウト定義は、通常フォーマッタと呼ばれる出力ソフトウエア等によって保持され、フォーマッタが文書を処理する際にフォーマッタによって、その文書内に現れる一対のタグに挟まれた各領域が、文書レイアウト定義においてそのタグに関して定義された内容に従って表示または印刷される。例えば、文書内で一対のタグ「title」と「/title」で挟まれた領域は12ポイントのゴシック体で表示される。
【0005】
また、特開平7−98708号公報「文書処理システム及びその方法」には、ユーザが意図した通りに文書またはその文書の一部を選択して、その内容を再構成して表示する文書処理システムが開示されている。この文書処理システムは、ユーザが、例えば「認識技術に役立つ文書を読みたい。」という要求を文章で入力すると、その意図を解析し、その意図に合致した少なくとも1つの文書等(素材)が選択され、更にその文書の全てまたは一部が再構成されて、ユーザの読みやすい状態に加工された後、表示される。ユーザの意図に合致した文書または文書の一部を選択するために、ユーザが入力した前記文章内の複数のキーワードまたはそのキーワードの類義語が用いられる。
【0006】
また更に、特開平8−202711号公報「文書編集操作電子装置」には、ユーザが最初に指定した編集対象の範囲から、特定の文字パターンを検出し、同一文書内に同様のパターンを有する部分があれば、その部分も編集対象として自動的に追加登録する装置が開示されている。前記装置は、1つの文書内に散在する見出し、タイトル部分、または注釈文等を一括して編集対象として選択することを目的としている。前記装置は、最初にユーザが編集対象の範囲を1つ選択すると、その範囲内で、見出しなどで多用される「・」や「§」といった特定の記号が存在するかどうかを判定し、それらの記号のうちいずれかが存在する場合は、その記号と記号の表示カラム位置等をパターンとして登録する。次に前記装置は、その文書内で、前記登録されたパターンと同じパターンを有する部分、即ち「・」や「§」といった記号を同じカラム位置に有する部分を検出し、それらを全て編集対象として自動的に選択する。
【0007】
【発明が解決しようとする課題】
前述した第1の従来技術SGMLにおいては、文書の一部を抽出し、再構成するために、意識的に一対のタグを文書に埋め込むことが必要であり、このため文書作成の際の労力は多大なものである。この結果、文書内には文書の内容とは直接関係のないタグが散りばめられ、全体的に見映えが悪くなり、場合によってはタグを文書内容と誤解するといった弊害も生じる。また、タグは固定的な文字列であり、これらをパターン化して表示や印刷の際に使用する文書レイアウト定義に対応付けることはできない。
【0008】
更に、SGMLでは、1文書を対象とする部分的な抽出と再構成が可能であるが、複数の文書から同様のパターンの文字列に挟まれる領域をそれぞれ抽出して、それらを一覧的に集約して再構成することはできない。また、SGMLは主に、表示または印刷において一定の規則に基づいてレイアウトを行うものであり、再構成された文書の内容を編集可能とし、その編集された内容を元の文書に書き戻すような機能はない。
【0009】
また、SGMLでは、文書の構造を定義するDTDと、フォーマッタ内に保持されたレイアウト定義をそれぞれ設定しなければならない。これはユーザにとって非常に繁雑な作業である。更に、タグ名称などはこれらの定義の間で一致させておかなくてはならず、別々に作成することによってタグ名や構造上の矛盾が生じやすくなる。
【0010】
前述した第2の従来技術、特開平7−98708号公報「文書処理システム及びその方法」においては、文書の一部を抽出し再構成するために、ユーザの要求として入力された文章から解析されたキーワードまたはそのキーワードの類義語による文字列検索が行われる。こうした文字列検索では、抽出元の文書を少しでも変更すると、その部分は抽出されなくなってしまい、検索結果が大きく変わってしまう。また、キーワードの類義語も検索しているため、場合によっては検索結果が膨大になり、実用に耐えないケースも生じる。更に、ユーザが要求を文章等で入力するため、所定のパターン化した文字列等を使用して抽出を行うことができない。
【0011】
更に、この技術では、複数の文書を対象として抽出を行うことができるが、複数の文書の選択自体がユーザの入力から解析されたキーワード等を用いているので、実際に選択される文書を事前に確定させることができない。また、再構成された文書の内容を編集して、その編集結果を元の文書に書き戻すような機能はない。
【0012】
前述した第3の従来技術、特開平8−202711号公報「文書編集操作電子装置」においては、文書の一部を抽出し再構成するために、ユーザが最初に選択した範囲と同じパターンを有する部分が検索されるが、前記パターンは、「・」や「§」といった見出し部分に多用される特定の文字列とその表示カラムであって、汎用的なパターンを用いて検索を行うことはできない。
【0013】
更に、この技術では、1文書内における複数の部分を対象にしており、前記パターンを有する文のみが編集対象として選択される。また、編集対象として選択された文に対してレイアウト情報などを用いて再構成するといった機能はない。
【0014】
本発明の課題は、汎用的な開始パターン及び終了パターンからなる一対のパターンと、文書の構造を定義する文書構造情報を用いて、複数の文書から前記開始パターンに該当する個所と前記終了パターンに該当する個所との間の領域をそれぞれ抽出し、その抽出結果を前記文書構造情報とレイアウト情報に従って集約して再構成し、ユーザが編集可能な状態で表示する文書編集システムを提供することにある。
【0015】
更に、本発明の課題は、編集可能な状態で再構成され表示された領域をユーザが編集した後に、その編集された領域を抽出元の文書に書き戻し、ユーザの編集結果を抽出元の文書に反映させる文書編集システムを提供することにある。
【0016】
また更に、本発明の課題は、前記文書構造情報と前記レイアウト情報を一体として登録、保持でき、前記文書構造情報が前記文書内の各領域の領域名、階層構造(包含関係)、出現順序、繰り返しの有無及び省略の可否などの文書構造に関する情報を定義し、前記レイアウト情報が、前記各領域の表示位置、フォント・スタイル、フォント・サイズ、文字列の配置、及び文字色等のレイアウト情報を定義する文書編集システムを提供することにある。
【0017】
【課題を解決するための手段】
上記本発明の課題を解決するための文書編集システムは、少なくとも1つの文書から任意の領域を抽出して、該抽出された領域を編集可能な状態で表示する文書編集システムであって、各文書から所望の領域を抽出するために使用される領域定義情報をパターンとして登録する領域定義情報登録手段と、各文書内の領域の構造に関する文書構造情報、及び該各領域を再構成するために使用されるレイアウト情報を登録する文書構造・レイアウト情報登録手段と、記領域定義登録手段によって登録された領域定義情報と、該文書構造・レイアウト情報登録手段によって登録された文書構造情報を使用して、領域の開始箇所と終了箇所を判定し、該2つの箇所の間にある領域を抽出する文書抽出手段と、該文書構造・レイアウト情報登録手段によって登録された該文書構造情報及び該レイアウト情報を使用して、該抽出された少なくとも1つの領域を再構成して表示する文書再構成手段を有するよう構成される。これによって、抽出パターンを使用した安定的な領域の抽出が行われ、少なくとも1つの文書から抽出された各領域の内容を集約して見やすい形式で表示することができる。
【0018】
また、前記文書編集システムは、前記再構成して表示された少なくとも1つの領域を編集できるように制御する文書編集制御手段を有するように構成することができる。これによって、少なくとも1つの文書から抽出された各領域の内容が集約され見やすく表示されると共に、その状態で編集を行うことができる。
【0019】
また、前記文書編集システムは、前記文書編集制御手段が更に、前記再構成して表示された少なくとも1つの領域に関する編集機能を、前記文書から抽出された領域の内容のみに制限するよう制御するように構成することができる。これによって、抽出された各領域の内容を編集しようとする際に、各領域の内容以外の表示上の修飾部分などを誤って編集することがなく、編集の操作性が向上する。
【0020】
また、前記文書編集システムは、前記抽出された少なくとも1つの領域が編集された場合、その編集結果を該領域の抽出元の文書に反映させる文書編集結果反映手段を有するように構成することができる。これによって、複数の文書の同様の部分を個別に検索してそれぞれ編集作業を行うことが不要となり、集約的に複数文書の関連部分を編集できる。
【0021】
また、前記文書編集システムは、前記各文書内の領域の構造に関する前記文書構造情報、及び該各領域を再構成するために使用される前記レイアウト情報が、前記文書構造・レイアウト情報登録手段によって一体的に登録されるように構成することができる。これによって、前記文書構造情報と前記レイアウト情報が一体として登録、保持され、両者を矛盾なく一体化して容易に作成できるようになった。
【0022】
【発明の実施の形態】
以下に、本発明の実施の形態の例について、図面を参照して説明する。尚、各図において、同一または類似のものには同一の参照番号または、記号を付与して説明する。
【0023】
図1は、本発明の文書編集システム100の一実施の形態のシステム構成を示すブロック図である。文書編集システム100は、処理装置110、記憶装置120、入力装置130、及び表示装置140を含む。処理装置110は、記憶装置120に記憶されている必要なデータを読み込み、そのデータから得られる情報を元に処理を行い、その処理結果を表示装置140に表示した後、必要に応じてその表示内容を記憶装置120内に記憶された関連するデータに書き込む。
【0024】
記憶装置120は、通常ハードディスクやフロッピーディスクなどの2次記憶装置であり、文書編集システム100に必要な、後で詳述する領域定義情報121、文書構造・レイアウト情報122、領域−文書構造対応情報123、及び複数の抽出元となる文書124を格納する。しかし、これらのデータは、ネットワーク経由で他のコンピュータの記憶装置等から読み込まれ、また逆の経路で書き込まれることも可能であり、この場合に前記データが記憶装置120内に格納されている必要はない。
【0025】
入力装置130は、必要に応じて記憶装置120に格納されたデータの入力・変更を行うための、マウスやキーボードといった入力装置である。また、入力装置130は、表示装置140上に表示される再構成結果を編集するためにユーザによって使用される。ここで編集とは、表示装置140上に表示された文字列等の対象を入力装置130を使用して追加、変更、または削除することを指す。
【0026】
表示装置140は、記憶装置120に格納されたデータや、処理装置110における処理結果の内容を表示するための、CRTディスプレイなどの表示装置である。処理装置110によって処理された再構成結果は最初に、表示装置140に表示される。また、再構成結果やその再構成結果を編集した結果などを印刷するために、印刷装置を設けることも可能である。
【0027】
これらの装置の構成は、パーソナル・コンピュータやUNIXワークステーション等において一般的なものである。従って本発明の文書編集システム100も、単一の一般的なパーソナル・コンピュータ等によって実施可能である。
【0028】
処理装置110は更に、領域定義情報登録部111、文書構造・レイアウト情報登録部112、文書抽出部113、文書再構成部114、文書編集制御部115、及び文書編集結果反映部116を含む。
【0029】
領域定義情報登録部111は、ユーザが処理対象とする複数の文書のそれぞれから、再構成すべき文書の領域を抽出するための開始パターンと終了パターンからなる1対のパターンを登録する機能を提供する。登録結果は、記憶装置120内の領域定義情報121として記憶される。また、領域定義情報121はテキスト情報でよいため、前記領域定義情報登録部111は、任意のテキストエディタで実現されうるが、所定の入力エリアやチェック機能を備えた特定のアプリケーションによって達成されることが望ましい。
【0030】
文書構造・レイアウト情報登録部112は、前記領域定義情報登録部111によって登録された抽出パターンに対応する各領域に対し、領域名、階層構造(包含関係)、出現順序、繰り返しの有無、及び省略の可否などの文書構造情報と、再構成する際の各領域の表示位置、フォント・スタイル、フォント・サイズ、文字列の配置、及び文字色等のレイアウト情報を登録する機能を提供する。登録結果は、記憶装置120内の文書構造・レイアウト情報122として記憶される。この実施の形態では、前記文書構造情報と前記レイアウト情報を一体として登録しているため、登録機構も一体化して示しているが、文書構造情報登録部とレイアウト情報登録部という個別の機構として構成することもできる。またその場合、記憶装置120内の文書構造・レイアウト情報122も、文書構造情報及びレイアウトとして別々に記憶されうる。
【0031】
文書抽出部113は、ユーザが指定した記憶装置120内の少なくとも1つの文書124を読み込み、領域定義情報登録部111によって登録された領域定義情報121と文書構造・レイアウト情報登録部112によって登録された文書構造・レイアウト情報122を使用して、文書124の所望の領域を抽出する。文書抽出部113は、読み込んだ前記文書124のそれぞれの中で、前記領域定義情報121に登録された開始パターンと終了パターンからなる1対の抽出パターンに合致する箇所をそれぞれ判定し、更にそれらの箇所に挟まれた領域が、前記文書構造・レイアウト情報122内に定義されている文書内の各領域に関する領域名、階層構造(包含関係)、出現順序、繰り返しの有無、及び省略の可否などの文書構造情報と矛盾していないことを判定すると、その領域を抽出する。また、この抽出の際、抽出元の文書124のどこからどこまでの領域を抽出したかを対応づける情報を、記憶装置120内の領域−文書構造対応情報123に出力する。これは、抽出された各領域が後述する文書編集制御部115によって編集された結果、その領域の長さが変更される可能性があり、その後、これらの領域が後述する文書編集結果反映部116によって個別に抽出元の文書124に反映される際に、文書124内の抽出されていない他の領域を更新してしまわないようにするためである。
【0032】
また、文書抽出部113では、ユーザが文書124を指定した際に、その各文書124の内容をそれぞれ1つのウインドウに表示させ、その後、抽出を指示するよう設定する。しかし、各文書124の内容を表示させることなく、抽出の指定を行うよう構成しても構わない。
【0033】
文書再構成部114は、文書抽出部113によって抽出された文書124内の各領域を、領域定義情報登録部111によって登録された領域定義情報121と文書構造・レイアウト情報登録部112によって登録された文書構造・レイアウト情報122を使用して、表示装置140上に再構成する。前記抽出された領域には、それが抽出された抽出パターンに対応する名前(領域名)がつけられており、その領域名に対応する前記文書構造・レイアウト情報122内の内容がそれぞれの領域の再構成に用いられる。また、この再構成に際しては、レイアウト情報によって、抽出された領域に含まれていない見出しなどの固定の文字列や、囲み線、下線等の修飾が付加され、ユーザが見やすいような再構成がなされる。
【0034】
また、文書再構成部114は、前記領域−文書構造対応情報123の出力を前記文書抽出部113に代わって行うことも可能である。その場合には、文書抽出部113は、抽出対象となった領域の内容に加えて、それらの領域が抽出元の文書124のどこからどこまでの内容に対応するかを示す中間情報を、文書再構成部114に対して出力しておく必要がある。
【0035】
再構成結果は、複数の文書に関して抽出された少なくとも1つの領域が前記レイアウト情報に従って1つのウインドウとして表示される。この実施の形態では、例えばマイクロソフト社のWindows95のようなマルチウインドウシステム上でワープロWordを稼働させて、その中の1ウインドウに再構成結果を表示させている。また、再構成結果は、1つの文書に関して抽出された少なくとも1つの領域を前記レイアウト情報に従って1つのウインドウとして表示し、それぞれの文書に関して1つのウインドウで表示されるように構成しても良い。
【0036】
文書編集制御部115は、前記文書再構成部114によって表示装置140に表示されたウインドウにおいて、そのウインドウ内の編集を制御する。前述の通り、前記ウインドウ内には、複数の文書に関して再構成された結果が表示されているが、抽出された領域と、レイアウト情報によって新たに付加された見出しなどの情報が混在している。そこで、前記文書編集制御部115は、このウインドウ内において、前記抽出された領域のみを編集可能とし、レイアウト情報によって付加された見出しなどの修飾領域の編集を禁止する。また、ここでの編集は、結果的に抽出された領域の長さを変えてしまうような編集であっても構わない。
【0037】
文書編集結果反映部116は、ユーザが抽出元の文書124にその編集結果を反映させるよう指示すると、記憶装置120内の領域−文書構造対応情報123に記憶された対応情報に従って、その抽出元の文書124の内容を編集された内容に更新する。もちろん、反映されるのは、複数の文書から抽出され編集された領域であって、レイアウト情報によって新たに付加された見出しなどの情報は対象外である。
【0038】
以上、図1に関して説明を行ってきたが、図示した構成は本発明の一実施の形態の構成を示したに過ぎず、こうした構成に限られるものではない。例えば、処理装置110内の各部分は、複数のコンピュータに分散させて行うことができる。更に、記憶装置120、入力装置130、及び表示装置140は、ネットワークを介して単数または複数の処理装置110と接続させることができ、ユーザがリモートで本発明の文書編集システム100を操作することが可能である。
【0039】
次に、図4から図12までを参照しながら図2の処理フローを説明する。図2は、前記文書抽出部113及び前記文書再構成部114による文書抽出及び再構成処理の流れを示す図である。図2は、左1/3の欄が文書抽出及び再構成処理により作成された情報を示し、中央1/3の欄が文書抽出及び再構成処理の流れを示し、右1/3の欄がユーザが予め定義した情報を示している。
【0040】
図2の最初のステップS10において、文書抽出部113は領域定義情報121を読み込む。領域定義情報121は、予めユーザが領域定義情報登録部111を用いて登録したものである。
【0041】
図4はユーザによって登録された領域定義情報121の一例を示すものである。なお、図面中に記載された黒く塗りつぶされた括弧は本文中では“〔〕”の括弧に置き換えて表記する。この例では、ある一対の文字列パターン(開始パターンと終了パターン)に該当する文字列に挟まれる文書124内の領域を抽出するように定義されている。例えば、抽出する領域の直前を示す文字列パターン(開始パターン)は〔@@〕であり、直後を示す文字列パターン(終了パターン)は〔@@−終了〕であり、〔@@〕に該当する文字列と〔@@−終了〕に該当する文字列の間の領域が抽出されるように定義される。 外1 (以下、本文中にお
【0042】
【外1】

Figure 0003737629
【0043】
いて、この黒く塗りつぶされた四角は“(黒四角)”と置き換えて表記する。)は任意の領域の終了を示すパターンとして定義されている。
但し、ここで、〔@@−終了〕は必須でなく、〔@@〕に該当する文字列の次に更に〔@@〕に該当する別の文字列があれば、2つ目の〔@@〕の直前までが1つ目の〔@@〕に関する領域の抽出範囲となる。また、@@とは、任意の文字数の文字列を示し、一対の文字列パターンにおける〔@@〕と〔@@−終了〕内の@@は同一の文字列である。なお、@@に該当する文字列は、後述する図5の文書構造情報の各領域名(構成要素の名称)と一致するべきものである。
【0044】
図2の次のステップS11において、文書抽出部113は文書構造・レイアウト情報122を読み込む。文書構造・レイアウト情報122は、予めユーザが文書構造・レイアウト情報登録部112を用いて登録したものである。ステップS11で使用されるのは、この文書構造・レイアウト情報122のうち、文書124の中の各領域の領域名、階層構造(包含関係)、出現順序、繰り返しの有無及び省略の可否などを定義した文書構造情報のみである。この実施の形態では、文書構造・レイアウト情報122は一体として定義されており、後で図10に関して詳述する。ここでは、説明を簡略化するため、前記文書構造情報の例を概念的に示す図5を用いて説明する。
【0045】
図5に示された文書構造情報は、プログラムの仕様書に関する文書構造を規定した例であり、主として文書200の階層構造(包含関係)を示している。最下位の階層のブロック(即ち、見出し、関数名、処理概要、呼出形式、インタフェース、及び注意)が文書内の領域の実体を示している。文書200は、見出し210と処理仕様220から成っている。見出し210は1つ存在する。処理仕様220は繰り返しありと記述されており、複数存在する可能性がある。処理仕様220は、関数名221、処理概要222、呼出形式223、インタフェース224、及び注意225を含んでいるという包含関係を規定する。処理仕様220は前記各要素の集合を規定するのみで、文書200の実体領域に対応しない。インタフェース224は繰り返しありと記述されていることから、1つの処理仕様の中に複数存在する可能性があり、注意225は省略可であり、存在しない場合がある。
【0046】
逆に、見出し210、関数名221、処理概要222、呼出形式223、及び少なくとも1つのインタフェース224は、文書200内に必須のものであり、これがない場合は、後述の図2のステップS12において、該当文書に関して所定のタイミングでエラーメッセージを表示したりする対応が考えられる。
【0047】
次に図2のステップS12では、文書抽出部113が、ユーザの指定した少なくとも1つの文書124を読み込み、図4の領域定義情報121と図5の文書構造情報に基づいて、各文書124から少なくとも1つの領域を抽出する。前述のように、図5に示された文書構造情報の各領域名(構成要素の名称)が、図4の領域定義情報121のパターンに記載された@@に該当する文字列に対応している。即ち文書抽出部113は、既に読み取った図4の領域定義情報121と図5の文書構造情報から、ユーザより指定された前記各文書124が、少なくとも〔見出し〕〜〔見出し−終了〕の領域、〔関数名〕〜〔関数名−終了〕の領域、〔処理概要〕〜〔処理概要−終了〕の領域、〔呼出形式〕〜〔呼出形式−終了〕の領域、〔インタフェース〕〜〔インタフェース−終了〕の領域、及び〔注意〕〜〔注意−終了〕の領域をこの順序で有し、更に〔関数名〕〜〔関数名−終了〕の領域から〔注意〕〜〔注意−終了〕の領域までは、同じ順序で繰り返される可能性があるものとして解釈する。
【0048】
但し、前述のように、〔見出し−終了〕、〔関数名−終了〕、〔処理概要−終了〕、〔呼出形式−終了〕、〔インタフェース−終了〕、及び〔注意−終了〕といった領域の終了を判定する文字列は文書124中で省略される場合があり、次の領域の開始を判定する文字列または(黒四角)などの所定の文字列の出現により領域の終了が判定される。
【0049】
こうした抽出の例を、図6に示される文書124の例で考えてみる。前述の説明から、文書124では、見出し210に関する領域は必須となっているが、ここでは省略する。文書抽出部113が図6の文書124を読み込むと、最初に「〔関数名〕」という文字列を検出し、その後「〔関数名−終了〕」という文字列を検出する。これは、図4の領域定義情報121のパターンに合致し、図5の文書構造情報における関数名221の出現順序に合致するため(前述の通り、ここでは見出し210はないものと考え、関数名221が最初に現れる有効な領域である)、「〔関数名〕」〜「〔関数名−終了〕」の間の文字列「ZaikoHikiate」が「関数名」という領域名と関連付けて抽出される。
【0050】
次に、文書抽出部113が読み込みを続けると、「★この行は抽出されません★」という文字列が抽出されるが、この文字列は、図4の領域定義情報121で定義されたパターンで挟まれておらず、またそのようなパターンで始まっていないため、抽出されない。
【0051】
次に、文書抽出部113は、「〔処理概要〕」という文字列を検出し、その後「〔呼出形式〕」という文字列を検出する。ここで、「〔処理概要〕」という文字列は図4の領域定義情報121のパターンに合致し、図5の文書構造情報において、関数名221の次に出現する領域名が処理概要222であることから出現順序の条件も満たし、「〔処理概要〕」〜「〔呼出形式〕」の間の文字列「(改行)与えられた商品コードと受注数量を基に、在庫が引き当て可能かどうか(改行)を判断する。」が、「処理概要」という領域名と関連付けて抽出される。この場合、「〔処理概要−終了〕」という、領域の終了を示す文字列はないが、次の妥当な領域「呼出形式」の開始を示す「〔呼出形式〕」という文字列が出現したため前記文字列「〔処理概要−終了〕」が省略されているものと判断される。また、ここで抽出される文字列の内容には、抽出元の内容を忠実に再現すべく、文字情報の他に改行や改ページに関する制御情報も抽出される。前記処理概要の例では、改行に関する制御情報が、抽出文字列内に「(改行)」として抽出されている。
【0052】
以降、同様の処理を繰り返すと、その後、以下のような文字列が各領域名に関連付けて抽出される。
Figure 0003737629
【0053】
ここで、処理仕様220の繰り返しはないがインタフェース224は3回繰り返されており、このような場合、領域名には、前述のようにインタフェースの後に(1)〜(3)が付加される。これは、繰り返しの要素を固有に識別可能にするためであって、他の様々な方法を用いることもできる。
【0054】
図7には、領域定義情報121の第2の例が示されている。この例では、ある程度規則的な文字列のパターンを有する文書124内の文字列から開始される領域が抽出されるように定義されている。例えば、抽出する領域の直前の文字列は^[0−9]+¥.@@$であり、領域の直後の文字列を示すパターンはない。^[0−9]+¥.@@$は、行頭から少なくとも1つの数字の並び、1つのピリオド、領域名に対応する任意の数の文字列、及び改行からなる文字列を示している。任意の領域の終了を示すパターンは、 外2 である。ここで、^$は改
【0055】
【外2】
Figure 0003737629
【0056】
行のみの行を示している。従って、改行のみの行または文字列(黒四角)が現れた場合に任意の領域が終了する。前述のように@@は、文書構造情報の各領域名(構成要素の名称)と同じものである。
【0057】
図7の領域定義情報121に基づいた抽出の例を、図8に示す第2の文書124の例で考えてみる。また、ここでは、図5に示したような文書構造情報が省略されているが、階層構造、及び繰り返しを持たない「発明の名称」、「特許請求の範囲」、及び「発明の詳細な説明」の各領域が、この順で並んでいる単純な文書構造を仮定する。
【0058】
文書抽出部113が図8の文書124を読み込むと、最初に「1.発明の名称」という文字列を検出し、その後改行のみの行を検出する。ここで、図7の領域定義情報121から、@@に対応するのは「発明の名称」であり、前記仮定した文書構造情報において文書内で最初にあるべき領域「発明の名称」に合致するため、「1.発明の名称」〜改行のみの行の間にある文字列「(改行)電子ファイル編集装置(改行)」を「発明の名称」という領域名に関連付けて抽出する。以降同様に抽出を繰り返すと、その後、以下のような文字列が各領域名に関連付けて抽出される。
【0059】
領域名:特許請求の範囲=「(改行)電子ファイルの領域を指定するためのルールと、その領域をレイアウトする情報を定義することにより、電子ファイルを再構成し、編集する装置(改行)」、
領域名:発明の詳細な説明=「(改行)本発明は、複数...(改行)は不定になる。」。
【0060】
図9には、領域定義情報121の第3の例が示されている。この例では、ある程度固定的な文字列のパターンを有する文書124内の文字列に挟まれた領域が抽出されるように定義されている。例えば、「1.発明の名称」という文字列と、^$(改行のみの行)、または(黒四角)との間の文字列は、発明名称という領域名で抽出され、「2.特許請求の範囲」という文字列と、^$または(黒四角)との間の文字列は、請求範囲という領域名で抽出され、「3.発明の詳細な説明」という文字列と、^$または(黒四角)との間の文字列は、詳細説明という領域名で抽出される。ここで、^$は改行のみの行を示している。
【0061】
図4または図7に示した領域定義情報の例では、文書中のパターンの中の一部分(@@に対応する部分)が領域名に対応していたが、この第3の例では、パターン毎に固定的に設定されている。また、この例でも、文書構造情報が省略されているが、階層構造、及び繰り返しを持たない「発明名称」、「請求範囲」、及び「詳細説明」の各領域が、この順で並んでいる単純な文書構造を仮定する。ここでは、各領域の名称が前記領域定義情報121内の各抽出パターンに対応して設定されており、図8の説明で仮定した文書構造情報における領域名とは異なっていることに注意すべきである。
【0062】
図9の領域定義情報121を用いて、再び図8の文書124からの抽出を行うと、文書抽出部113は最初に「1.発明の名称」という文字列を検出し、その後改行のみの行を検出する。ここで、図9の領域定義情報121から、対応する領域名は「発明名称」であり、前記仮定した文書構造情報において文書内で最初にあるべき領域「発明名称」に合致するため、「1.発明の名称」〜改行のみの行までの文字列「(改行)電子ファイル編集装置(改行)」を「発明名称」という領域名に関連付けて抽出する。以降同様に抽出を繰り返すと、その後、以下のような文字列が各領域名に関連付けて抽出される。
【0063】
領域名:請求範囲=「(改行)電子ファイルの領域を指定するためのルールと、その領域をレイアウトする情報を定義することにより、電子ファイルを再構成し、編集する装置(改行)」、
領域名:詳細説明=「(改行)本発明は、複数...(改行)は不定になる。」。
【0064】
図2のステップS12で、文書抽出部113が文書124から抽出対象の領域を抽出する方法を以上に示したが、文書抽出部113は、この抽出と共に、抽出元の文書124のどこからどこまでの領域を抽出したかを対応づける情報を、記憶装置120内の領域−文書構造対応情報123に出力する。図10は、前記領域−文書構造対応情報123の内容の一例を示す図である。
【0065】
領域−文書構造対応情報123は、前記文書構造情報における領域名毎に、その領域が抽出元の文書124のどの位置に対応するかを示す抽出元文書情報を有している。ここで、図5に示す文書構造情報を有する文書124を仮定すると、「見出し」に対応する抽出元文書情報は、「”C:¥文書¥source−1.c”, From(2,10), To(2,20)」であり、これは、抽出元の文書が、記憶装置120内のCドライブ内の「文書」というディレクトリ内の「source−1.c」というファイルであり、抽出された「見出し」の領域をその文書の2行目の10カラム〜2行目の20カラムの位置から抽出したということを示している。他の領域も同様であるが、図10では、処理仕様及びインタフェースに繰り返しがあり、領域名においては、それぞれ繰り返し要素が括弧内に表されている。また、その繰り返し要素と階層関係(包含関係)を表すために、前記領域名は、例えば「処理仕様(2).インタフェース(1)」といった連結された表記となっている。
【0066】
この例では、抽出された領域の抽出元の文書124における位置を、各領域の開始行とカラム、及び終了行とカラムを保持することによって記憶するようにしているが、各領域名、即ち検索パターン毎の抽出順(この場合は、書き戻す際に、文書124に対して前記文書抽出部113による抽出処理と同様のパターン検索処理が必要)や、抽出元の文書124における開始アドレス位置と抽出された領域のサイズを保持することによって、前記抽出された領域の抽出元の文書124における位置を記憶してもよい。
【0067】
こうして、抽出された各領域の抽出元の文書124における位置が記憶されることによって、即ち、領域−文書構造対応情報123を保持することによって、前記文書抽出部113によって抽出された領域が、抽出元の文書124と独立して編集された場合でも、文書124内の抽出されていない他の領域との整合性を保ちつつ、前記抽出され編集された領域を文書124に反映することが可能となる。
【0068】
再び図2のステップS13に戻ると、ここでは前記文書再構成部114が、前記文書抽出部113が文書124から抽出した領域の情報を読み込み、文書構造・レイアウト情報122に基づいて、表示装置140上に、それらの領域の情報を再構成して表示する。
【0069】
図11に文書構造・レイアウト情報122の例を示す。この文書構造・レイアウト情報122は、図5に示した概念的な文書構造情報と、前記再構成のために使用されるレイアウト情報を同時に定義するための方法を示したものである。前述したように、文書構造情報とレイアウト情報は、個別に定義されていても良い。
【0070】
この例では、マイクロソフト社のワープロWordを使用して、各領域に関して、その領域の表示位置、フォント・スタイル、フォント・サイズ、文字列の配置、及び文字色等のレイアウト情報と、領域名、包含関係、繰り返しの有無、及び省略の可否を示す文書構造情報を定義し、その他囲み線や区切り線などのワープロによる修飾を付加している。これらの情報のうち、フォント・スタイル、フォント・サイズ、文字列の配置、及び文字色等のレイアウト情報と、領域名、繰り返しの有無、及び省略の可否を示す文書構造情報は、各領域毎にWordのブックマークの機能を利用して設定している。
【0071】
しかし、このように、各領域に対して、レイアウト情報及び文書構造情報を定義可能であり、その情報をコンピュータによって制御(入出力を含む)できれば、他のどのような手段を用いても構わない。また、マイクロソフト社のWordを用いた本発明の例は、単に例示のためのものに過ぎず、こうした具体的な手段のみに制限されるものではない。
【0072】
図11に示す文書構造・レイアウト情報122は、まず可視部分と不可視部分に大別される。可視部分は更に、ユーザによる編集が禁止される固定部分と、抽出された領域が表示される、ユーザによる編集が可能な編集部分に分類される。区切り線326、固定タイトル327、328、329、及び32A、及び各領域を囲む囲み線は固定部分である。領域310、321、322、323、324、及び325は、それぞれ見出し、関数名、処理概要、呼出形式、インタフェース、及び注意の各領域名称に対応する編集部分である。
【0073】
前述のように、文書抽出部113は、前記文書124から抽出した領域をそれぞれ見出しや関数名といった領域名と関連付けて、抽出された領域の情報として出力する。前記文書再構成部114は、文書抽出部113から受け取った抽出された領域の情報を、対応する領域名を有する図11に示された領域の位置に出力する。この領域は、ユーザによる編集が可能で、前記編集制御部115によって、表示された内容の削除、変更、追加を行うことができる。前記編集制御部115は、その他の領域のユーザによる編集を禁止する。所定の領域のみ編集を有効にすることは、従来のワープロの機能を使用して容易に達成することができるが、特別なアプリケーションを用意して、ワープロ上に組み込むこともできるし、全く独立した別のアプリケーションとして作成することもできる。
【0074】
不可視部分には、上位階層の領域である処理仕様に対応する領域320と、各領域に関してレイアウト情報、及び文書構造情報を定義する定義部分330、331、332、333、334、335、及び336がある(この定義内容は、Wordのブックマーク機能によって設定されている)。領域320は、図5の文書構造情報に示す処理仕様220に対応するものであり、前記編集領域321、322、323、324、及び325の集合を含むように示されている。このことによって、前記各領域320及び321〜325の階層構造(包含関係)が分かり、これも1つの文書構造情報である。この領域320の定義をしているのが定義部分336である。ここでは、この領域320が処理仕様という領域名称を有し、繰り返し有りであることが定義されている。領域320が、各領域321から325を包含しているということは、各領域321から325を全て含むように領域320が設定されていることで示されている。
【0075】
その他の定義部分330、331、332、333、334、及び335は、それぞれ編集領域310、321、322、323、324、及び325に関するものであり、表示される編集対象の文字列に関するレイアウト情報及び文章構造情報を含んでいる。
【0076】
例えば、定義部分330領域310に対応し、表示される文字列のフォント・スタイルは明朝体、フォント・サイズは22ポイント、文字修飾はBOLD(太字)とし、文字列の配置は中央揃え(センタリング)、色は黒で、対応する領域310の領域名称が「見出し」であることを示している。
【0077】
また、領域324に対応する定義部分334は、領域324の領域名称がインタフェースであり、繰り返し有りであることを示している。領域325に対応する定義部分335は、領域325の領域名称が注意であり、省略可であることを示している。
【0078】
文書再構成部114が、このようにして文書抽出部113から抽出された領域の情報を再構成して表示画面140上に表示した表示例400を図12に示す。図12の表示例400は、図6に示した文書124を、図4に示す領域定義情報121、及び図11に示す文書情報・レイアウト情報122に基づいて抽出し、再構成し、表示したものである(但し、図6の文書124では、見出し「Aプロジェクト−関数定義仕様書」は省略してある)。
【0079】
この表示例400では、1つの文書から複数の領域が抽出された場合を示している。複数の文書から領域が抽出された場合は、この表示の下に追加されるか、または別のウインドウ内の表示として提供される。このことによって、ユーザは、例えば、複数のプログラムの仕様書の処理概要や呼出形式等の内容を同じ様式で一覧表示させる事ができる。
【0080】
図3には、文書編集結果反映部116による文書編集結果反映処理の流れが示されている。図3は、左1/3の欄が再構成処理及びユーザの編集により作成された情報を示し、中央1/3の欄が文書編集結果反映処理の流れを示し、右1/3の欄がユーザが予め定義した情報を示している。
【0081】
ユーザが編集結果を抽出元の文書124に反映させるよう指示すると、図3の最初のステップS20において、文書編集結果反映部116が文書構造情報・レイアウト情報122を読み込む。これは、各編集領域の領域名等を取得するためであり、この実施の形態では、前述のように文書構造情報・レイアウト情報122の保存及び編集にWordの機能が使用されているため、Wordの関係ファイルまたはメモリから読み込まれる。
【0082】
次に、ステップS21において、文書編集結果反映部116は、文書抽出部113によって出力された領域−文書構造対応情報123を読み込み、ユーザによって編集された表示装置140上の各領域の内容を、抽出元の文書124のどの位置に反映させるかを判定する。
【0083】
次に、ステップS22において、文書編集結果反映部116は、ユーザによって編集された表示装置140上の各領域の内容を、抽出元の文書124の対応する位置に反映させる。ユーザが表示装置140上のある領域に対して任意の文字数だけ削除を行った場合は、その領域を抽出元の文書124に反映させた時にその領域の最終位置となるアドレスAが、領域−文書構造対応情報123に保持されているその領域の抽出時における最終位置のアドレスBより小さいので、その領域を抽出元の文書124に反映させた後、両者のアドレスの差だけ、抽出元の文書124のアドレスB以降の内容をアドレスAの後に移動させる必要がある。
【0084】
ユーザが表示装置140上のある領域に対して任意の文字数だけ追加を行った場合は、その領域を抽出元の文書124に反映させた時にその領域の最終位置となるアドレスAが、領域−文書構造対応情報123に保持されているその領域の抽出時における最終位置のアドレスBより大きいので、その領域を抽出元の文書124に反映させる前に、両者のアドレスの差だけ、抽出元の文書124のアドレスB以降の内容をアドレスAの後に移動させておく必要がある。
【0085】
ユーザが表示装置140上のある領域に対して編集を行わなかったかまたは、編集を行ったものの結果的に文字数に変動がなかった場合は、その領域を抽出元の文書124に反映させた時にその領域の最終位置となるアドレスAと、領域−文書構造対応情報123に保持されているその領域の抽出時における最終位置のアドレスBは等しいので、その領域を抽出元の文書124の元の位置に反映させるだけでよい。
【0086】
前記アドレスAやアドレスBは、図10に例示した領域−文書構造対応情報123に示すように、文書124における行とカラムで把握することができるが、文書124の先頭からの論理アドレスとして把握する事も可能である。
【0087】
次に、図13から図20を参照して、本発明の文書編集システムの一連の操作をより具体的に説明する。また、領域定義情報121は図4に示したもの、文書構成・レイアウト情報122は図11に示したものが使用される。
【0088】
図13には、抽出元の文書124の読み込みを指定する画面410が示されている。このように、本発明の文書編集システムは、例えばマイクロソフト社のワープロWordなどに本発明の独自の機能を組み込むことによって達成することができるが、新たに作成してもよく、また任意の方法で既存のアプリケーションと組み合わせて実現することも可能である。
【0089】
画面の表示例410のメニューで「表示(V)」をマウスのクリックやキーボド等によって選択すると、図示するようなサブメニュー411が表示される。そこで、このサブメニュー411から「抽出ファイル指定(S)」を選択すると、図14に示すような抽出元の文書124を選択する画面421が表示される。
【0090】
図14は、抽出元の文書124を選択する画面421を示している。画面421は画面420からのポップアップ・ウインドウとして表示される。この例では、Title.txt(422)、ZaikoHikiate.c(423)、及びZaikoKousin.c(424)の3ファイルが選択されている。これらのファイルはいずれもテキスト・ファイルである。本発明が抽出元の文書124に関して文字列のパターン検索を行い、抽出結果の編集を可能にするシステムであることから、ここでテキスト情報を有しないバイナリ・ファイルなどを指定することに意味はない。この画面421で抽出の対象となる抽出元の文書124を選択した後「開く(O)」ボタンを選択すると、図15に示すように、選択された抽出元の文書124の内容を表示する画面430が表示される。
【0091】
図15は、選択された抽出元の文書124の内容を表示する画面430を示している。指定された文書124の内容がそれぞれ1つのウインドウ内に表示されている。ウインドウ431には、ZaikoKousin.cの内容が、ウインドウ432には、ZaikoHikiate.cの内容が、ウインドウ433にはTitle.txtの内容がそれぞれ表示されている。
【0092】
図16は、図15の状態から再構成処理を指示する画面440を示している。画面440のメニューで「表示(V)」を選択すると、図示するようなサブメニュー444が表示される。そこで、このサブメニュー444から「ソース→仕様(S)」を選択すると、選択された全ての文書124に関して再構成処理が開始される。設計によっては、図15の内容表示画面を省略することも可能である。
【0093】
図17は、図16で再構成の指定がされた場合に、再構成結果を表示する画面450を示している。画面450の再構成結果は1ウインドウとして表示され、抽出元の文書124の区切りはページ区切りで表される。例えば、ZaikoHikiate.cから抽出され再構成された内容は、領域451に示され、ZaikoKousin.cから抽出され再構成された内容は、領域452に示されている。このように、抽出元の文書124の区切りをページ区切りによって表すのに代えて、抽出元の文書124毎に別のウインドウで表示するような態様も可能である。この画面450においては、図11に示す領域310、321、322、323、324、及び325に対応する部分に関して、ユーザはワープロと同様の方法で自由に編集作業を行うことができ、それ以外の領域にはカーソルが移動せず、ユーザによる編集ができないように制御されている。
【0094】
図18は、図17で示された再構成結果の表示画面450において、ZaikoHikiate.cから抽出され再構成された内容を編集している画面460を示している。ここでの編集は、処理概要に関する記述内容を付加するものである。ユーザの編集によって加えられた部分461は、それが再構成された後に編集されたものであることを明示するために、この例のように反転表示されているのが望ましい。
【0095】
図19は、編集結果を抽出元の文書124に反映させる指示を行う画面470を示している。画面470のメニューで「表示(V)」を選択すると、図示するようなサブメニュー472が表示される。そこで、このサブメニュー472から「仕様→ソース(D)」を選択すると、元の文書124に対してその編集結果が反映される。この例では、抽出元の文書ZaikoHikiate.cに対して、実質的に内容が追加された部分(反転領域471)が反映される。
【0096】
図20は、編集結果が反映された抽出元の文書124の内容を示す画面480を示している。図19に示す画面470の操作で編集結果が反映された文書ZaikoHikiate.cを再び表示させてみると、ウインドウ481に示すように、処理概要の内容に、「その際...チェックする。」という文が追加されている。また、図3のステップS22において、文書編集結果反映部116が、ユーザによる編集結果を抽出元の文書124に反映させた時に、その編集された部分が最終的に抽出元の文書124のどの位置に反映されたかを記憶しておけば、ウインドウ481に示すように、ユーザによって追加等された領域を反転表示させることも可能である。
【0097】
図21は、上述した文書編集システム100を構築するために使用されるコンピュータ600のハードウエア構成の一例を示している。該コンピュータ600は、それぞれバス680に接続されたCPU610、記憶部620、メモリ部630、表示部640、入力部650、印刷部660、及びネットワーク・インタフェース部670からなる。
【0098】
CPU610は、図1の文書編集システム100の処理装置110に対応し、領域定義情報登録部111、文書構造・レイアウト情報登録部112、文書抽出部113、文書再構成部114、文書編集制御部115、及び文書編集結果反映部116の各部分を実行する。
【0099】
記憶部620は、図1の文書編集システム100の記憶装置120に対応し、CPU610によって実行される前記各機能を実現するプログラム、及び領域定義情報121、文書構造・レイアウト情報122、領域−文書構造対応情報123、及び複数の抽出元となる文書124を格納する
メモリ部630には、CPU610によって実行される前記各部分を実現するプログラムがロードされ、また必要に応じてユーザの編集内容などを含む表示部640に表示されている内容や、記憶部620内の各種情報の内容がロードされる。
【0100】
表示部640は、図1の文書編集システム100の表示装置140に対応し、再構成結果を表示し、それをユーザが編集する際に必要とされ、通常はCRTやLCD等のディスプレイ装置である。
【0101】
入力部650は、図1の文書編集システム100の入力装置130に対応し、前記表示部640に表示された画面に沿って入力や指示を行うために使用される装置であり、通常キーボード、マウス等から成る入力装置やタッチパネル、音声入力装置等で構成される。
【0102】
印刷部660は、ユーザ等の指示に従って、前記記憶部620またはメモリ部630に格納されているデータ等を印刷する、レーザプリンタ等の印刷装置である。前記印刷部660は、前記文書編集システム100の実施に関して必須の構成要件ではない。
【0103】
ネットワーク・インタフェース部670は、主に、リモートにある記憶部620との接続、または他のCPUとの接続を実現するよう機能する。前記文書編集システム100を単一のコンピュータで実施する場合には必要とされない。
【0104】
バス680は、前記各構成要素610〜670間でデータ、指令等の送受信を行うための共通伝送経路である。
【0105】
【発明の効果】
本発明の文書編集システムによれば、汎用的な開始パターン及び終了パターンからなる一対のパターンと、文書の構造を定義する文書構造情報を用いて、複数の文書から前記開始パターンに該当する個所と終了パターンに該当する個所との間の領域がそれぞれ抽出され、その抽出結果が、前記文書構造情報とレイアウト情報に従って集約して再構成され、ユーザが編集可能な状態で表示される。この結果、複数の文書の情報を、ユーザが最も見やすいレイアウトで表示させたまま編集作業を行うことができ、複数の文書から必要な領域を検索して直接編集作業を行うことに比べて格段に編集作業が効率化された。
【0106】
また、抽出対象を文字列の一致などではなく、抽出領域の開始、終了を示す文字列パターンを用いて指定することにより、複数の文を含む広い領域を指定することができる。文字列の一致などの方法では、抽出元の文書を少し変えただけでも抽出結果が大きく変化するのに対し、本発明のシステムでは開始や終了パターンに該当する部分が変更されない限り、抽出される領域自体に変化はない。この結果、常にユーザの意図した抽出結果を得ることができ、安定した再構成結果を表示させることができる。
【0107】
更に本発明によって、編集可能な状態で再構成され表示された領域がユーザに編集された後、その編集された領域が抽出元の文書に、その文書の他の領域と矛盾することなく書き戻される。
【0108】
また更に本発明によって、前記文書構造情報と前記レイアウト情報が一体として登録、保持され、前記文書構造情報には前記文書内の各領域の領域名、階層構造(包含関係)、出現順序、繰り返しの有無、及び省略の可否などの文書構造に関する情報が含まれ、前記レイアウト情報には、前記各領域の表示位置、フォント・スタイル、フォント・サイズ、文字列の配置、及び文字色等のレイアウト情報が含まれる。従来は両方の前記情報を突き合わせながら、両者が矛盾しないように注意深く作成していたが、本発明により、両者を矛盾なく一体化して容易に作成できるようになった。
【図面の簡単な説明】
【図1】本発明の文書編集システムの一実施の形態のシステム構成を示すブロック図である。
【図2】文書抽出及び再構成処理の流れを示す図である。
【図3】文書編集結果反映処理の流れを示す図である。
【図4】領域定義情報の例を示す図である。
【図5】文書構造情報の例を概念的に示す図である。
【図6】抽出元の文書の例を示す図である。
【図7】領域定義情報の第2の例を示す図である。
【図8】抽出元の文書の第2の例を示す図である。
【図9】領域定義情報の第3の例を示す図である。
【図10】領域−文書構造対応情報の例を示す図である。
【図11】文書構造・レイアウト情報の例を示す図である。
【図12】再構成結果の表示例を示す図である。
【図13】抽出元の文書の読み込みを指定する画面の例を示す図である。
【図14】抽出元の文書を選択する画面の例を示す図である。
【図15】選択された抽出元の文書の内容を表示する画面の例を示す図である。
【図16】再構成処理を指示する画面の例を示す図である。
【図17】再構成結果を表示する画面の例を示す図である。
【図18】表示された再構成結果に対して編集を行った画面の例を示す図である。
【図19】編集結果を抽出元の文書に出力するよう指示する画面の例を示す図である。
【図20】編集結果が反映された抽出元の文書の内容を示す画面の例を示す図である。
【図21】文書編集システムを実行するコンピュータのハードウエア構成を示す図である。
【符号の説明】
100 文書編集システム
110 処理装置
111 領域定義情報登録部
112 文書構造・レイアウト情報登録部
113 文書抽出部
114 文書再構成部
115 文書編集制御部
116 文書編集結果反映部
120 記憶装置
121 領域定義情報
122 文書構造・レイアウト情報
123 領域−文書構造対応情報
124 文書
130 入力装置
140 表示装置[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a system for editing a document, and more specifically, extracts a region belonging to a similar pattern from a plurality of documents, reconstructs each extracted region, and displays it on a display device in an editable manner. Furthermore, the present invention relates to a document editing system for reflecting each edited area in an extraction source document.
[0002]
[Prior art]
Conventionally, SGML (Standard Generalized Markup Language) is widely known as a technique for efficiently displaying or printing a document with a certain rule. With SGML, the user can preset the document type definition that defines the structure of the document and the document layout definition that is used for the display layout or print layout. Documents can be reconstructed according to rules and displayed or printed. The document type definition is called DTD (Document Type Definition). For example, when a document is composed of a plurality of regions, the document type definition has information on the hierarchical structure (inclusion relationship), appearance order, repetition, and the like of each region. Each area is associated with an arbitrary pair of tags (identifiers).
[0003]
When the user creates a document, a part corresponding to the area defined by the DTD is created so as to be sandwiched between a pair of tags associated with the area. For example, a title area of a sentence is associated with a pair of tags “title” and “/ title”, and the user inserts a character string to be displayed as a title between the pair of tags. Tags may not be specified in pairs in some cases.
[0004]
The document layout definition is set corresponding to a pair of tags defined by DTD. For example, what font style or font size is used to output an area in a document sandwiched between the pair of tags. Etc. This document layout definition is usually held by output software called a formatter, etc., and when the formatter processes a document, each area sandwiched between a pair of tags appearing in the document is displayed in the document layout definition by the formatter. Displayed or printed according to the content defined for the tag. For example, an area between a pair of tags “title” and “/ title” in a document is displayed in a 12-point Gothic font.
[0005]
Japanese Patent Application Laid-Open No. 7-98708 discloses a document processing system that selects a document or a part of the document as intended by a user and reconstructs and displays the contents. Is disclosed. In this document processing system, when a user inputs a request such as “I want to read a document useful for recognition technology” in a sentence, the intention is analyzed, and at least one document (material) that matches the intention is selected. Further, all or a part of the document is reconstructed and processed into a user-readable state, and then displayed. In order to select a document or a part of a document that matches the user's intention, a plurality of keywords in the sentence input by the user or synonyms of the keywords are used.
[0006]
Furthermore, Japanese Patent Application Laid-Open No. 8-202711 “Document Editing Operation Electronic Device” detects a specific character pattern from a range to be edited first designated by a user, and has a similar pattern in the same document. If there is a device, an apparatus for automatically registering that portion as an editing target is disclosed. The apparatus is intended to collectively select headlines, title parts, annotations, etc. scattered in one document as editing targets. When the user first selects one range to be edited, the device determines whether or not there is a specific symbol such as “•” or “§” that is frequently used in a headline, and the like. If any of the symbols exists, the symbol and the display column position of the symbol are registered as a pattern. Next, the apparatus detects a part having the same pattern as the registered pattern in the document, that is, a part having a symbol such as “•” or “§” at the same column position, and sets all of them as edit targets. Select automatically.
[0007]
[Problems to be solved by the invention]
In the first prior art SGML described above, in order to extract and reconstruct a part of a document, it is necessary to consciously embed a pair of tags in the document. It is a great thing. As a result, tags that are not directly related to the contents of the document are scattered in the document, and the overall appearance is deteriorated. In some cases, the tag is misunderstood as the document contents. A tag is a fixed character string, and these cannot be patterned and associated with a document layout definition used for display or printing.
[0008]
Furthermore, SGML allows partial extraction and reconstruction of a single document, but each region that is sandwiched between character strings of similar patterns is extracted from a plurality of documents and aggregated in a list. And cannot be reconfigured. SGML mainly performs layout based on a certain rule in display or printing. The contents of the reconstructed document can be edited, and the edited contents are written back to the original document. There is no function.
[0009]
In SGML, the DTD that defines the document structure and the layout definition held in the formatter must be set. This is a very complicated task for the user. Furthermore, tag names and the like must be matched between these definitions, and tag names and structural inconsistencies are likely to occur when they are created separately.
[0010]
In the second prior art described above, Japanese Patent Application Laid-Open No. 7-98708, “Document Processing System and Method”, a part of a document is extracted from a sentence inputted as a user's request and reconstructed. A character string search is performed using a keyword or a synonym of the keyword. In such a character string search, if the extraction source document is changed even a little, the portion will not be extracted, and the search result will change greatly. In addition, since keyword synonyms are also searched, the search results may be enormous in some cases, and there may be cases where the search results are not practical. Furthermore, since the user inputs the request in a sentence or the like, it is not possible to perform extraction using a predetermined patterned character string or the like.
[0011]
Furthermore, in this technique, it is possible to extract a plurality of documents. However, since the selection of a plurality of documents itself uses a keyword or the like analyzed from a user input, a document to be actually selected is selected in advance. Cannot be fixed. Further, there is no function for editing the contents of the reconstructed document and writing the edited result back to the original document.
[0012]
In the above-described third prior art, Japanese Patent Application Laid-Open No. 8-202711 “Document Editing Operation Electronic Device”, in order to extract and reconstruct a part of a document, it has the same pattern as the range initially selected by the user. The part is searched, but the pattern is a specific character string and its display column that are frequently used for heading parts such as “·” and “§”, and it is not possible to search using a general-purpose pattern .
[0013]
Furthermore, in this technique, a plurality of parts in one document are targeted, and only a sentence having the pattern is selected for editing. Further, there is no function for reconstructing a sentence selected as an edit target using layout information or the like.
[0014]
An object of the present invention is to use a pair of general-purpose start patterns and end patterns, and document structure information that defines the structure of a document, so that a location corresponding to the start pattern and the end pattern are determined from a plurality of documents. An object is to provide a document editing system that extracts areas between corresponding portions, aggregates and extracts the extraction results according to the document structure information and layout information, and displays them in a state that can be edited by the user. .
[0015]
Furthermore, the problem of the present invention is that after a user edits an area that is reconstructed and displayed in an editable state, the edited area is written back to the extraction source document, and the user's editing result is returned to the extraction source document. It is to provide a document editing system to be reflected in.
[0016]
Still further, the problem of the present invention is that the document structure information and the layout information can be registered and held together, and the document structure information includes an area name, a hierarchical structure (inclusion relationship), an appearance order of each area in the document, Defines document structure information such as the presence or absence of repetition and whether or not it can be omitted, and the layout information includes layout information such as the display position, font style, font size, character string arrangement, and character color of each area. It is to provide a document editing system to be defined.
[0017]
[Means for Solving the Problems]
To solve the above-mentioned problems of the present invention Sentence of A document editing system is a document editing system that extracts an arbitrary area from at least one document and displays the extracted area in an editable state, and is used to extract a desired area from each document. Area definition information registration means for registering the area definition information as a pattern, document structure information relating to the structure of the area in each document, and document structure for registering layout information used for reconstructing each area Layout information registration means; in front Using the area definition information registered by the area definition registration means and the document structure information registered by the document structure / layout information registration means Determine the start and end points of the area A document extracting means for extracting an area between the two locations, and at least one extracted using the document structure information and the layout information registered by the document structure / layout information registering means. It is configured to have document reconstruction means for reconstructing and displaying the area. As a result, a stable region extraction using the extraction pattern is performed, and the contents of each region extracted from at least one document can be aggregated and displayed in an easy-to-view format.
[0018]
In addition, The document editing system includes a document editing control unit that controls to edit at least one of the reconfigured and displayed areas. can do . As a result, the contents of each region extracted from at least one document are aggregated and displayed in an easy-to-view manner, and editing can be performed in that state.
[0019]
In addition, The document editing system is configured such that the document editing control means further controls the editing function related to the at least one area displayed in the reconfiguration to be limited only to the contents of the area extracted from the document. can do . As a result, when trying to edit the contents of each extracted area, editing modification parts other than the contents of each area are not erroneously edited, and editing operability is improved.
[0020]
In addition, The document editing system includes a document editing result reflecting means for reflecting the editing result in the extraction source document of the area when the extracted at least one area is edited. can do . As a result, it is not necessary to individually search for similar parts of a plurality of documents and perform editing operations, respectively, and the related parts of the plurality of documents can be collectively edited.
[0021]
In addition, In the document editing system, the document structure information relating to the structure of the area in each document and the layout information used for reconstructing each area are integrally registered by the document structure / layout information registration unit. Configured to be can do . As a result, the document structure information and the layout information are registered and held together, and can be easily created by integrating both without contradiction.
[0022]
DETAILED DESCRIPTION OF THE INVENTION
Examples of embodiments of the present invention will be described below with reference to the drawings. In the drawings, the same reference numerals or symbols are assigned to the same or similar elements for explanation.
[0023]
FIG. 1 is a block diagram showing a system configuration of an embodiment of a document editing system 100 of the present invention. The document editing system 100 includes a processing device 110, a storage device 120, an input device 130, and a display device 140. The processing device 110 reads necessary data stored in the storage device 120, performs processing based on information obtained from the data, displays the processing result on the display device 140, and displays the processing as necessary. The contents are written to related data stored in the storage device 120.
[0024]
The storage device 120 is a secondary storage device such as a normal hard disk or floppy disk, and is necessary for the document editing system 100. Area definition information 121, document structure / layout information 122, and area-document structure correspondence information, which will be described in detail later. 123, and a plurality of extraction source documents 124 are stored. However, these data can be read from a storage device of another computer via a network and written in the reverse path. In this case, the data needs to be stored in the storage device 120. There is no.
[0025]
The input device 130 is an input device such as a mouse or a keyboard for inputting / changing data stored in the storage device 120 as necessary. The input device 130 is used by the user to edit the reconstruction result displayed on the display device 140. Here, editing refers to adding, changing, or deleting an object such as a character string displayed on the display device 140 using the input device 130.
[0026]
The display device 140 is a display device such as a CRT display for displaying the data stored in the storage device 120 and the contents of the processing result in the processing device 110. The reconstruction result processed by the processing device 110 is first displayed on the display device 140. In addition, a printing apparatus can be provided for printing the reconstruction result, the result of editing the reconstruction result, and the like.
[0027]
The configuration of these devices is common in personal computers, UNIX workstations, and the like. Therefore, the document editing system 100 of the present invention can also be implemented by a single general personal computer or the like.
[0028]
The processing apparatus 110 further includes an area definition information registration unit 111, a document structure / layout information registration unit 112, a document extraction unit 113, a document reconstruction unit 114, a document editing control unit 115, and a document editing result reflection unit 116.
[0029]
The area definition information registration unit 111 provides a function of registering a pair of patterns including a start pattern and an end pattern for extracting a document area to be reconstructed from each of a plurality of documents to be processed by the user. To do. The registration result is stored as area definition information 121 in the storage device 120. Since the area definition information 121 may be text information, the area definition information registration unit 111 can be realized by an arbitrary text editor, but is achieved by a specific application having a predetermined input area and a check function. Is desirable.
[0030]
The document structure / layout information registration unit 112 performs region name, hierarchical structure (inclusion relationship), appearance order, presence / absence of repetition, and omission for each region corresponding to the extraction pattern registered by the region definition information registration unit 111. A function for registering document structure information such as whether or not possible, and layout information such as the display position of each area at the time of reconstruction, font style, font size, character string arrangement, and character color is provided. The registration result is stored as document structure / layout information 122 in the storage device 120. In this embodiment, since the document structure information and the layout information are registered as a unit, the registration mechanism is also shown as an integrated unit. However, the document structure information and the layout information registration unit are configured as separate mechanisms. You can also In this case, the document structure / layout information 122 in the storage device 120 can also be stored separately as document structure information and layout.
[0031]
The document extraction unit 113 reads at least one document 124 in the storage device 120 specified by the user, and is registered by the region definition information 121 registered by the region definition information registration unit 111 and the document structure / layout information registration unit 112. A desired area of the document 124 is extracted using the document structure / layout information 122. The document extraction unit 113 determines each portion of the read document 124 that matches a pair of extraction patterns composed of a start pattern and an end pattern registered in the area definition information 121, and further determines those locations. The area sandwiched between places is the area name, hierarchical structure (inclusion relationship), appearance order, presence / absence of repetition, omissibility of omission, etc. for each area defined in the document structure / layout information 122 When it is determined that there is no contradiction with the document structure information, the area is extracted. Further, at the time of this extraction, information associating where the extracted area of the original document 124 is extracted is output to the area-document structure correspondence information 123 in the storage device 120. This is because there is a possibility that the length of each extracted area is changed by the document editing control unit 115 described later, and the length of the area is changed. This is to prevent other areas not extracted in the document 124 from being updated when individually reflected in the extraction source document 124.
[0032]
In addition, when the user designates a document 124, the document extraction unit 113 displays the contents of each document 124 in one window, and then sets to instruct extraction. However, the extraction may be designated without displaying the contents of each document 124.
[0033]
The document reconstruction unit 114 registers each region in the document 124 extracted by the document extraction unit 113 by the region definition information 121 registered by the region definition information registration unit 111 and the document structure / layout information registration unit 112. The document structure / layout information 122 is used to reconstruct on the display device 140. The extracted area is given a name (area name) corresponding to the extracted pattern from which the extracted pattern is extracted, and the contents in the document structure / layout information 122 corresponding to the area name correspond to the respective areas. Used for reconstruction. In this reconstruction, a fixed character string such as a headline that is not included in the extracted area, or a modification such as a surrounding line or an underline is added according to the layout information, so that the reconstruction is easy for the user to see. The
[0034]
The document reconstruction unit 114 can also output the region-document structure correspondence information 123 in place of the document extraction unit 113. In that case, in addition to the contents of the extraction target area, the document extraction unit 113 converts the intermediate information indicating where the area corresponds to the content of the extraction source document 124 from the document reconstruction. It is necessary to output to the unit 114.
[0035]
As the reconstruction result, at least one area extracted for a plurality of documents is displayed as one window according to the layout information. In this embodiment, for example, a word processor Word is operated on a multi-window system such as Microsoft Windows 95, and the reconstruction result is displayed in one of the windows. The reconstruction result may be configured such that at least one area extracted for one document is displayed as one window according to the layout information, and is displayed in one window for each document.
[0036]
The document editing control unit 115 controls editing in the window displayed on the display device 140 by the document reconstruction unit 114. As described above, the reconstructed results for a plurality of documents are displayed in the window, but the extracted area and information such as a headline newly added by the layout information are mixed. Therefore, the document editing control unit 115 can edit only the extracted area in this window, and prohibits editing of a modification area such as a heading added by layout information. The editing here may be editing that changes the length of the region extracted as a result.
[0037]
When the user instructs to reflect the editing result on the extraction source document 124, the document editing result reflection unit 116 follows the corresponding information stored in the area-document structure correspondence information 123 in the storage device 120, and extracts the source of the extraction. The content of the document 124 is updated to the edited content. Of course, what is reflected is an area extracted and edited from a plurality of documents, and information such as a headline newly added by the layout information is excluded.
[0038]
1 has been described above, the illustrated configuration is merely a configuration of an embodiment of the present invention, and is not limited to such a configuration. For example, each part in the processing device 110 can be distributed among a plurality of computers. Further, the storage device 120, the input device 130, and the display device 140 can be connected to one or more processing devices 110 via a network, and the user can remotely operate the document editing system 100 of the present invention. Is possible.
[0039]
Next, the processing flow of FIG. 2 will be described with reference to FIGS. FIG. 2 is a diagram showing the flow of document extraction and reconstruction processing by the document extraction unit 113 and the document reconstruction unit 114. In FIG. 2, the left 1/3 column indicates information created by document extraction and reconstruction processing, the central 1/3 column indicates the flow of document extraction and reconstruction processing, and the right 1/3 column indicates the flow. It shows information predefined by the user.
[0040]
In the first step S 10 in FIG. 2, the document extraction unit 113 reads the area definition information 121. The area definition information 121 is registered in advance by the user using the area definition information registration unit 111.
[0041]
FIG. 4 shows an example of the area definition information 121 registered by the user. In addition, the black brackets described in the drawings are replaced with “[]” brackets in the text. In this example, it is defined to extract an area in the document 124 that is sandwiched between character strings corresponding to a certain pair of character string patterns (start pattern and end pattern). For example, the character string pattern (start pattern) indicating immediately before the area to be extracted is [@@], the character string pattern (end pattern) indicating immediately after is [@@-end], and corresponds to [@@] And an area between the character string corresponding to [@@-End] is extracted. Outside 1 (Hereafter, in the text
[0042]
[Outside 1]
Figure 0003737629
[0043]
In this case, the black square is replaced with “(black square)”. ) Is defined as a pattern indicating the end of an arbitrary area.
However, here, [@@-End] is not essential. If there is another character string corresponding to [@@] after the character string corresponding to [@@], the second [@@ The area up to immediately before @] is the extraction range of the first area related to [@@]. Further, @@ indicates a character string having an arbitrary number of characters, and @@ in [@@] and [@@-end] in a pair of character string patterns is the same character string. Note that the character string corresponding to @@ should match each area name (component name) in the document structure information of FIG.
[0044]
In step S11 in FIG. 2, the document extraction unit 113 reads the document structure / layout information 122. The document structure / layout information 122 is registered in advance by the user using the document structure / layout information registration unit 112. In step S11, the document structure / layout information 122 defines the area name of each area in the document 124, the hierarchical structure (inclusion relationship), the order of appearance, the presence / absence of repetition, and the possibility of omission. Only document structure information. In this embodiment, the document structure / layout information 122 is defined as a unit, and will be described in detail later with reference to FIG. Here, in order to simplify the description, a description will be given using FIG. 5 conceptually showing an example of the document structure information.
[0045]
The document structure information shown in FIG. 5 is an example in which the document structure related to the specification of the program is defined, and mainly shows the hierarchical structure (inclusion relationship) of the document 200. Blocks at the lowest level (i.e., headings, function names, processing outlines, call formats, interfaces, and notes) indicate the substance of the area in the document. The document 200 includes a heading 210 and a processing specification 220. There is one heading 210. The processing specification 220 is described as being repeated, and there may be a plurality of processing specifications. The process specification 220 defines an inclusive relationship that includes a function name 221, a process outline 222, a call format 223, an interface 224, and a note 225. The processing specification 220 only defines the set of the elements, and does not correspond to the actual area of the document 200. Since the interface 224 is described as being repeated, there is a possibility that a plurality of interfaces exist in one processing specification, and the note 225 may be omitted and may not exist.
[0046]
On the contrary, the heading 210, the function name 221, the processing outline 222, the call format 223, and the at least one interface 224 are essential in the document 200. If there is no heading 210, in step S12 of FIG. It is conceivable that an error message is displayed at a predetermined timing for the document.
[0047]
Next, in step S12 of FIG. 2, the document extraction unit 113 reads at least one document 124 designated by the user, and at least from each document 124 based on the area definition information 121 of FIG. 4 and the document structure information of FIG. One area is extracted. As described above, each area name (component name) in the document structure information shown in FIG. 5 corresponds to the character string corresponding to @@ described in the pattern of the area definition information 121 in FIG. Yes. That is, the document extraction unit 113 reads at least each of the documents 124 designated by the user from the area definition information 121 of FIG. 4 and the document structure information of FIG. [Function name]-[Function name-End] area, [Process overview]-[Process overview-End] area, [Call format]-[Call format-End] area, [Interface]-[Interface-End] ] And [Caution]-[Caution-End] areas in this order, and from [Function Name]-[Function Name-End] area to [Caution]-[Caution-End] area. Are interpreted as possible repetitions in the same order.
[0048]
However, as described above, the end of areas such as [Heading-End], [Function Name-End], [Process Outline-End], [Call Format-End], [Interface-End], and [Caution-End] The character string for determining the end of the area may be omitted in the document 124, and the end of the area is determined by the appearance of a character string for determining the start of the next area or a predetermined character string such as (black square).
[0049]
An example of such extraction is considered in the example of the document 124 shown in FIG. From the above description, in the document 124, the area related to the heading 210 is essential, but is omitted here. When the document extraction unit 113 reads the document 124 of FIG. 6, the character string “[function name]” is first detected, and then the character string “[function name−end]” is detected. This matches the pattern of the area definition information 121 in FIG. 4 and matches the appearance order of the function names 221 in the document structure information in FIG. 5 (as described above, it is assumed that there is no heading 210, and the function name 221 is a valid area that appears first), and the character string “ZaikouWiki” between “[function name]” and “[function name-end]” is extracted in association with the area name “function name”.
[0050]
Next, when the document extraction unit 113 continues reading, a character string “★ This line is not extracted ★” is extracted. This character string is a pattern defined in the area definition information 121 of FIG. It is not extracted because it is not sandwiched between and does not start with such a pattern.
[0051]
Next, the document extraction unit 113 detects a character string “[processing outline]” and then detects a character string “[call format]”. Here, the character string “[processing outline]” matches the pattern of the area definition information 121 in FIG. 4, and the area name that appears next to the function name 221 in the document structure information in FIG. 5 is the processing outline 222. Therefore, the condition of the appearance order is also satisfied, and whether or not the stock can be allocated based on the product code and the order quantity given to the character string “(new line) between“ [Process Overview] ”to“ [Call Format] ”( Is determined in association with the area name “processing outline”. In this case, there is no character string indicating the end of the area called “[Processing Outline-End]”, but the character string “[Call Format]” indicating the start of the next valid area “Call Format” appears. It is determined that the character string “[processing outline-end]” is omitted. In addition to the character information, control information regarding line breaks and page breaks is also extracted from the contents of the character string extracted here in order to faithfully reproduce the contents of the extraction source. In the example of the processing outline, the control information related to the line feed is extracted as “(line feed)” in the extracted character string.
[0052]
Thereafter, when the same processing is repeated, the following character string is extracted in association with each area name.
Figure 0003737629
[0053]
Here, although the processing specification 220 is not repeated, the interface 224 is repeated three times. In such a case, (1) to (3) are added to the area name after the interface as described above. This is to make the repetitive elements uniquely identifiable, and various other methods can be used.
[0054]
FIG. 7 shows a second example of the area definition information 121. In this example, it is defined that an area starting from a character string in the document 124 having a somewhat regular character string pattern is extracted. For example, the character string immediately before the area to be extracted is ^ [0-9] + ¥. @@ $ and there is no pattern indicating the character string immediately after the area. ^ [0-9] + ¥. @@ $ indicates a character string composed of a sequence of at least one number from the beginning of the line, one period, an arbitrary number of character strings corresponding to the area name, and a line feed. The pattern indicating the end of an arbitrary area is 2. Where ^ $ is a break
[0055]
[Outside 2]
Figure 0003737629
[0056]
A line with only lines is shown. Therefore, an arbitrary area ends when a line or a character string (black square) with only a line feed appears. As described above, @@ is the same as each region name (component name) in the document structure information.
[0057]
Consider an example of extraction based on the area definition information 121 of FIG. 7 in the example of the second document 124 shown in FIG. In addition, here, the document structure information as shown in FIG. 5 is omitted, but the hierarchical structure and “invention name”, “claims”, and “detailed description of the invention” that do not have repetitions. Is assumed to be a simple document structure in which the regions are arranged in this order.
[0058]
When the document extraction unit 113 reads the document 124 shown in FIG. 8, the character string “1. Invention name” is first detected, and then only a line feed is detected. Here, from the area definition information 121 in FIG. 7, the “@invention name” corresponds to @@, which matches the first “invention name” in the document in the assumed document structure information. Therefore, the character string “(line feed) electronic file editing device (line feed)” between “1. invention name” to line with only a line feed is extracted in association with the area name “invention name”. Thereafter, when extraction is repeated in the same manner, the following character string is extracted in association with each area name.
[0059]
Area name: Claim = “(Line feed) Device for reconfiguring and editing an electronic file (line feed) by defining rules for specifying the area of the electronic file and information for laying out the area” ,
Area name: Detailed description of the invention = “(line feed) In the present invention, a plurality of ... (line feed) is undefined”.
[0060]
FIG. 9 shows a third example of the area definition information 121. In this example, it is defined that an area sandwiched between character strings in the document 124 having a character string pattern fixed to some extent is extracted. For example, a character string between the character string “1. Invention name” and ^ $ (line with line feed only) or (black square) is extracted with an area name “invention name”, and “2. The character string between the character string “range of” and ^ $ or (black square) is extracted with the area name of claim range, and the character string “3. Detailed Description of the Invention” and ^ $ or ( Character strings between the black squares) are extracted by area names called detailed descriptions. Here, ^ $ indicates a line with only a line feed.
[0061]
In the example of the area definition information shown in FIG. 4 or FIG. 7, a part of the pattern in the document (the part corresponding to @@) corresponds to the area name. Is fixedly set. Also in this example, the document structure information is omitted, but the hierarchical structure and the “invention name”, “claim”, and “detailed description” areas that are not repeated are arranged in this order. Assume a simple document structure. Here, it should be noted that the name of each area is set corresponding to each extraction pattern in the area definition information 121 and is different from the area name in the document structure information assumed in the description of FIG. It is.
[0062]
When the extraction from the document 124 of FIG. 8 is performed again using the area definition information 121 of FIG. 9, the document extraction unit 113 first detects the character string “1. Invention name”, and then only the line feed Is detected. Here, from the area definition information 121 of FIG. 9, the corresponding area name is “invention name”, which matches the area “invention name” that should be first in the document in the assumed document structure information. The character string “(line feed) electronic file editing device (line feed)” from the “name of invention” to the line containing only a line feed is extracted in association with the area name “invention name”. Thereafter, when extraction is repeated in the same manner, the following character string is extracted in association with each area name.
[0063]
Area name: claim range = “(line feed) device for reconfiguring and editing an electronic file (line feed) by defining rules for specifying the area of the electronic file and information for laying out the area”
Area name: Detailed description = “(Line feed) In the present invention, a plurality of ... (line feed) is undefined”.
[0064]
The method of extracting the extraction target region from the document 124 by the document extraction unit 113 in step S12 of FIG. 2 has been described above. The document extraction unit 113, together with this extraction, includes a region from where to where in the extraction source document 124. Is output to region-document structure correspondence information 123 in the storage device 120. FIG. 10 is a diagram showing an example of the contents of the area-document structure correspondence information 123.
[0065]
The area-document structure correspondence information 123 has extraction source document information indicating for each area name in the document structure information, which position of the extraction source document 124 the area corresponds to. Assuming that the document 124 having the document structure information shown in FIG. 5 is assumed, the extraction source document information corresponding to “Heading” is “C: ¥ document ¥ source-1. c ″, From (2, 10), To (2, 20) ”. This is because the source document is“ source-1 ”in the directory“ document ”in the C drive in the storage device 120. The file “c” indicates that the extracted “headline” area is extracted from the position of the 10th column of the second row to the 20th column of the second row of the document. The same applies to other areas, but in FIG. 10, there are repetitions in processing specifications and interfaces, and in the area names, each repetition element is represented in parentheses. In addition, in order to represent a hierarchical relationship (inclusion relationship) with the repetitive element, the area name has a connected notation such as “processing specification (2). Interface (1)”.
[0066]
In this example, the position of the extracted area in the extraction source document 124 is stored by holding the start line and column and the end line and column of each area. The extraction order for each pattern (in this case, when writing back, the document 124 needs to be subjected to pattern search processing similar to the extraction processing by the document extraction unit 113), and the start address position and extraction in the extraction source document 124 By holding the size of the extracted area, the position of the extracted area in the extraction source document 124 may be stored.
[0067]
Thus, by storing the position of each extracted region in the extraction source document 124, that is, by holding the region-document structure correspondence information 123, the region extracted by the document extracting unit 113 is extracted. Even when edited independently of the original document 124, the extracted and edited area can be reflected in the document 124 while maintaining consistency with other areas not extracted in the document 124. Become.
[0068]
Returning to step S13 in FIG. 2 again, here, the document reconstruction unit 114 reads the information of the area extracted from the document 124 by the document extraction unit 113, and displays the display device 140 based on the document structure / layout information 122. Above, information on those areas is reconstructed and displayed.
[0069]
FIG. 11 shows an example of the document structure / layout information 122. The document structure / layout information 122 shows a method for simultaneously defining the conceptual document structure information shown in FIG. 5 and the layout information used for the reconstruction. As described above, the document structure information and the layout information may be defined individually.
[0070]
In this example, using Microsoft's word processor Word, for each area, layout information such as the display position, font style, font size, character string arrangement, and character color of the area, area name, and inclusion Document structure information indicating the relationship, presence / absence of repetition, and omission / non-execution is defined, and other word processor modifications such as a surrounding line and a dividing line are added. Among these pieces of information, layout information such as font style, font size, character string arrangement, and character color, and document structure information indicating region names, presence / absence of repetition, and omission / absence of each region. It is set using the bookmark function of Word.
[0071]
However, any other means may be used as long as layout information and document structure information can be defined for each area and the information can be controlled (including input / output) by a computer. . In addition, the example of the present invention using Microsoft's Word is merely illustrative and is not limited to such specific means.
[0072]
The document structure / layout information 122 shown in FIG. 11 is roughly divided into a visible part and an invisible part. The visible portion is further classified into a fixed portion in which editing by the user is prohibited and an editing portion in which the extracted area is displayed and can be edited by the user. The delimiter line 326, the fixed titles 327, 328, 329, and 32A, and the enclosing line surrounding each area are fixed portions. Areas 310, 321, 322, 323, 324, and 325 are edit portions corresponding to the respective area names of heading, function name, processing outline, call format, interface, and caution.
[0073]
As described above, the document extraction unit 113 associates each area extracted from the document 124 with an area name such as a heading or a function name, and outputs the extracted area information. The document reconstruction unit 114 outputs the extracted area information received from the document extraction unit 113 to the position of the area shown in FIG. 11 having the corresponding area name. This area can be edited by the user, and the editing control unit 115 can delete, change, or add the displayed contents. The editing control unit 115 prohibits editing by other users in other areas. Enabling editing only in a specific area can be easily achieved using the functions of a conventional word processor, but a special application can be prepared and embedded in the word processor or completely independent. It can also be created as a separate application.
[0074]
The invisible part includes an area 320 corresponding to a processing specification that is an upper layer area, and definition parts 330, 331, 332, 333, 334, 335, and 336 that define layout information and document structure information for each area. Yes (this definition is set by the bookmark function of Word). An area 320 corresponds to the processing specification 220 shown in the document structure information of FIG. 5 and is shown to include a set of the editing areas 321, 322, 323, 324, and 325. Thus, the hierarchical structure (inclusion relationship) of each of the areas 320 and 321 to 325 is known, and this is also one document structure information. It is a definition portion 336 that defines the area 320. Here, it is defined that this area 320 has an area name of processing specification and is repeatedly present. The fact that the area 320 includes the areas 321 to 325 is indicated by the fact that the area 320 is set to include all the areas 321 to 325.
[0075]
The other definition parts 330, 331, 332, 333, 334, and 335 relate to the editing areas 310, 321, 322, 323, 324, and 325, respectively, and layout information about the displayed character strings to be edited and Contains sentence structure information.
[0076]
For example, corresponding to the definition portion 330 area 310, the font style of the displayed character string is Mincho, the font size is 22 points, the character modification is BOLD (bold), and the character string is centered (centering) ), The color is black, and the area name of the corresponding area 310 is “heading”.
[0077]
The definition portion 334 corresponding to the area 324 indicates that the area name of the area 324 is an interface and that there is repetition. The definition portion 335 corresponding to the region 325 indicates that the region name of the region 325 is a caution and can be omitted.
[0078]
FIG. 12 shows a display example 400 in which the document reconstruction unit 114 reconstructs the area information extracted from the document extraction unit 113 in this way and displays it on the display screen 140. A display example 400 in FIG. 12 is obtained by extracting, reconstructing, and displaying the document 124 shown in FIG. 6 based on the area definition information 121 shown in FIG. 4 and the document information / layout information 122 shown in FIG. (However, in the document 124 in FIG. 6, the heading “A project-function definition specification” is omitted).
[0079]
This display example 400 shows a case where a plurality of regions are extracted from one document. If an area is extracted from multiple documents, it is added below this display or provided as a display in a separate window. As a result, the user can display, for example, a list of processing outlines and call formats of specifications of a plurality of programs in the same format.
[0080]
FIG. 3 shows the flow of document editing result reflection processing by the document editing result reflection unit 116. In FIG. 3, the left 1/3 column shows information created by the reconstruction process and user editing, the central 1/3 column shows the flow of document editing result reflection processing, and the right 1/3 column shows the flow. It shows information predefined by the user.
[0081]
When the user gives an instruction to reflect the editing result in the extraction source document 124, the document editing result reflecting unit 116 reads the document structure information / layout information 122 in the first step S20 of FIG. This is for acquiring the area name and the like of each editing area. In this embodiment, since the Word function is used for storing and editing the document structure information / layout information 122 as described above, the Word is used. Read from the relationship file or memory.
[0082]
In step S21, the document editing result reflection unit 116 reads the region-document structure correspondence information 123 output by the document extraction unit 113, and extracts the contents of each region on the display device 140 edited by the user. It is determined in which position of the original document 124 it is reflected.
[0083]
Next, in step S <b> 22, the document editing result reflecting unit 116 reflects the contents of each area on the display device 140 edited by the user in the corresponding position of the extraction source document 124. If the user deletes an arbitrary number of characters from a certain area on the display device 140, the address A that is the final position of the area when the area is reflected in the extraction source document 124 is the area-document. Since it is smaller than the address B of the final position at the time of extraction of the area held in the structure correspondence information 123, the area is reflected in the extraction source document 124, and then the extraction source document 124 is equal to the difference between the addresses. It is necessary to move the contents after address B to address A.
[0084]
When the user adds an arbitrary number of characters to a certain area on the display device 140, the address A that is the final position of the area when the area is reflected in the extraction source document 124 is the area-document. Since it is larger than the address B of the final position at the time of extraction of the area held in the structure correspondence information 123, before the area is reflected in the extraction source document 124, the difference between the addresses is the extraction source document 124. The contents after address B must be moved after address A.
[0085]
If the user did not edit a certain area on the display device 140 or if the number of characters did not change as a result of editing, the area is reflected when the area is reflected in the extraction source document 124. Since the address A which is the final position of the area and the address B of the final position at the time of extraction of the area held in the area-document structure correspondence information 123 are equal, the area is set to the original position of the document 124 of the extraction source. Just reflect.
[0086]
The address A and the address B can be grasped as a row and a column in the document 124 as shown in the area-document structure correspondence information 123 illustrated in FIG. Things are also possible.
[0087]
Next, a series of operations of the document editing system of the present invention will be described more specifically with reference to FIGS. Further, the area definition information 121 shown in FIG. 4 is used, and the document configuration / layout information 122 shown in FIG. 11 is used.
[0088]
FIG. 13 shows a screen 410 for designating reading of the extraction source document 124. As described above, the document editing system of the present invention can be achieved by, for example, incorporating the unique function of the present invention into a Microsoft word processor Word or the like. It can also be realized in combination with existing applications.
[0089]
When “display (V)” is selected by a mouse click, keyboard, or the like in the menu of the screen display example 410, a submenu 411 as shown is displayed. Therefore, when “extracted file designation (S)” is selected from the submenu 411, a screen 421 for selecting an extraction source document 124 as shown in FIG. 14 is displayed.
[0090]
FIG. 14 shows a screen 421 for selecting an extraction source document 124. Screen 421 is displayed as a pop-up window from screen 420. In this example, Title. txt (422), Zaiko Wiki. c (423), and Zaiko Kousin. Three files c (424) are selected. These files are all text files. Since the present invention is a system that performs a character string pattern search on the extraction source document 124 and enables editing of the extraction result, it does not make sense to specify a binary file or the like that does not have text information here. . When an “Open (O)” button is selected after selecting an extraction source document 124 to be extracted on this screen 421, a screen for displaying the contents of the selected extraction source document 124 as shown in FIG. 430 is displayed.
[0091]
FIG. 15 shows a screen 430 that displays the content of the selected extraction source document 124. Each content of the designated document 124 is displayed in one window. In window 431, Zaiko Kousin. c is displayed in the window 432, Zaiko Wiki. c, the window 433 displays Title. The contents of txt are displayed respectively.
[0092]
FIG. 16 shows a screen 440 for instructing reconstruction processing from the state of FIG. When “display (V)” is selected from the menu on the screen 440, a submenu 444 as shown is displayed. Therefore, when “source → specification (S)” is selected from the submenu 444, the reconstruction process is started for all the selected documents 124. Depending on the design, the content display screen of FIG. 15 can be omitted.
[0093]
FIG. 17 shows a screen 450 that displays the reconstruction result when the reconstruction is designated in FIG. The reconstruction result of the screen 450 is displayed as one window, and the separation of the extraction source document 124 is represented by a page separation. For example, Zaiko Wiki. The content extracted and reconstructed from c is shown in a region 451 and ZaikoKousin. The content extracted from c and reconstructed is shown in region 452. In this way, instead of representing the separation of the extraction source document 124 by page separation, a mode in which each extraction source document 124 is displayed in a separate window is also possible. In this screen 450, the user can freely edit the parts corresponding to the areas 310, 321, 322, 323, 324, and 325 shown in FIG. The area is controlled so that the cursor does not move and editing by the user is not possible.
[0094]
FIG. 18 illustrates a display screen 450 of the reconstruction result shown in FIG. A screen 460 for editing the content extracted from c and reconstructed is shown. The editing here is to add description contents regarding the processing outline. The portion 461 added by user editing is preferably highlighted as in this example to clearly indicate that it was edited after being reconstructed.
[0095]
FIG. 19 shows a screen 470 for giving an instruction to reflect the editing result in the extraction source document 124. When “display (V)” is selected from the menu on the screen 470, a submenu 472 as shown in the figure is displayed. Therefore, when “specification → source (D)” is selected from the submenu 472, the editing result is reflected in the original document 124. In this example, the extraction source document ZaikoHikeate. A portion (inverted region 471) to which content is substantially added is reflected on c.
[0096]
FIG. 20 shows a screen 480 showing the contents of the extraction source document 124 in which the editing result is reflected. A document Zaiko Wiki. In which the editing result is reflected by the operation of the screen 470 shown in FIG. When c is displayed again, as shown in a window 481, a sentence “Check at that time” is added to the contents of the processing outline. In addition, when the document editing result reflecting unit 116 reflects the editing result by the user on the extraction source document 124 in step S22 of FIG. If it is stored in the window 481, the area added by the user can be highlighted as shown in the window 481.
[0097]
FIG. 21 shows an example of a hardware configuration of a computer 600 used for constructing the document editing system 100 described above. The computer 600 includes a CPU 610, a storage unit 620, a memory unit 630, a display unit 640, an input unit 650, a printing unit 660, and a network interface unit 670 connected to a bus 680.
[0098]
The CPU 610 corresponds to the processing device 110 of the document editing system 100 in FIG. 1, and includes an area definition information registration unit 111, a document structure / layout information registration unit 112, a document extraction unit 113, a document reconstruction unit 114, and a document editing control unit 115. , And each part of the document editing result reflection unit 116 is executed.
[0099]
The storage unit 620 corresponds to the storage device 120 of the document editing system 100 in FIG. 1, and programs for realizing the functions executed by the CPU 610, area definition information 121, document structure / layout information 122, area-document structure. Correspondence information 123 and a plurality of extraction source documents 124 are stored.
The memory unit 630 is loaded with a program that implements each of the parts executed by the CPU 610, and the contents displayed on the display unit 640 including the user's editing contents as necessary, and the contents in the storage unit 620 The contents of various information are loaded.
[0100]
The display unit 640 corresponds to the display device 140 of the document editing system 100 of FIG. 1 and is necessary for displaying the reconstruction result and editing it by the user, and is usually a display device such as a CRT or LCD. .
[0101]
The input unit 650 corresponds to the input device 130 of the document editing system 100 in FIG. 1 and is a device used for inputting and giving instructions along the screen displayed on the display unit 640. Usually, a keyboard and a mouse are used. And the like, and a touch panel, a voice input device, and the like.
[0102]
The printing unit 660 is a printing device such as a laser printer that prints data stored in the storage unit 620 or the memory unit 630 in accordance with an instruction from a user or the like. The printing unit 660 is not an essential component for the implementation of the document editing system 100.
[0103]
The network interface unit 670 mainly functions to realize connection with a remote storage unit 620 or connection with another CPU. This is not necessary when the document editing system 100 is implemented on a single computer.
[0104]
The bus 680 is a common transmission path for transmitting and receiving data, commands, and the like between the components 610 to 670.
[0105]
【The invention's effect】
According to the document editing system of the present invention, using a pair of general-purpose start patterns and end patterns and document structure information that defines the structure of the document, a portion corresponding to the start pattern from a plurality of documents, and Areas between the portions corresponding to the end pattern are extracted, and the extraction results are aggregated and reconfigured according to the document structure information and layout information, and displayed in a state that can be edited by the user. As a result, it is possible to perform editing operations while displaying the information of multiple documents in the layout that is most easily viewable by the user, which is much more efficient than searching for necessary areas from multiple documents and performing direct editing operations. Editing work has been streamlined.
[0106]
In addition, by designating the extraction target using a character string pattern indicating the start and end of the extraction area instead of matching the character strings, a wide area including a plurality of sentences can be designated. In a method such as matching character strings, the extraction result changes greatly even if the extraction source document is slightly changed. In the system of the present invention, the extraction is performed unless the part corresponding to the start and end patterns is changed. There is no change in the area itself. As a result, an extraction result intended by the user can always be obtained, and a stable reconstruction result can be displayed.
[0107]
Further, according to the present invention, after the area reconstructed and displayed in an editable state is edited by the user, the edited area is written back to the extraction source document without conflicting with other areas of the document. It is.
[0108]
Further, according to the present invention, the document structure information and the layout information are registered and held as a unit, and the document structure information includes the region name, hierarchical structure (inclusion relationship), appearance order, and repetition of each region in the document. Information on document structure such as presence / absence and omission / non-existence is included, and the layout information includes layout information such as display position, font style, font size, character string arrangement, and character color of each area. included. Conventionally, the two pieces of information have been carefully matched so as not to contradict each other. However, according to the present invention, both can be easily integrated and made consistent.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a system configuration of an embodiment of a document editing system of the present invention.
FIG. 2 is a diagram illustrating a flow of document extraction and reconstruction processing.
FIG. 3 is a diagram illustrating a flow of a document editing result reflection process.
FIG. 4 is a diagram illustrating an example of region definition information.
FIG. 5 is a diagram conceptually illustrating an example of document structure information.
FIG. 6 is a diagram illustrating an example of an extraction source document.
FIG. 7 is a diagram illustrating a second example of area definition information.
FIG. 8 is a diagram illustrating a second example of an extraction source document;
FIG. 9 is a diagram illustrating a third example of area definition information.
FIG. 10 is a diagram illustrating an example of region-document structure correspondence information.
FIG. 11 is a diagram illustrating an example of document structure / layout information.
FIG. 12 is a diagram illustrating a display example of a reconstruction result.
FIG. 13 is a diagram showing an example of a screen for designating reading of an extraction source document.
FIG. 14 is a diagram illustrating an example of a screen for selecting an extraction source document;
FIG. 15 is a diagram illustrating an example of a screen that displays the contents of a selected extraction source document;
FIG. 16 is a diagram illustrating an example of a screen for instructing a reconstruction process.
FIG. 17 is a diagram illustrating an example of a screen that displays a reconstruction result.
FIG. 18 is a diagram illustrating an example of a screen obtained by editing the displayed reconstruction result.
FIG. 19 is a diagram illustrating an example of a screen for instructing to output an editing result to an extraction source document.
FIG. 20 is a diagram illustrating an example of a screen showing the contents of an extraction source document in which an editing result is reflected.
FIG. 21 is a diagram illustrating a hardware configuration of a computer that executes a document editing system.
[Explanation of symbols]
100 Document editing system
110 processor
111 Area definition information registration part
112 Document structure / layout information registration section
113 Document extraction unit
114 Document reconstruction unit
115 Document editing control unit
116 Document editing result reflection part
120 storage device
121 Area definition information
122 Document structure / layout information
123 Area-document structure correspondence information
124 documents
130 Input device
140 Display device

Claims (8)

少なくとも1つの文書から任意の領域を抽出して、該抽出された領域を編集可能な状態で表示する文書編集システムであって、
各文書から所望の領域を抽出するために使用される情報であって、該所望の領域の直前の箇所を特定する第1のパターンを含む領域定義情報を登録する領域定義情報登録手段と、
各文書内の領域の構造に関する情報であって、文書内の各領域の領域名を含む文書構造情報、及び該各領域を再構成するために使用されるレイアウト情報を登録する文書構造・レイアウト情報登録手段と、
文書内のある箇所が前記領域定義情報から得られる前記第1のパターンに該当し、かつその箇所に対応する領域名が前記文書構造情報から得られる同じ領域名の出現条件を満たす場合に、その箇所を領域の開始箇所と判定し、該第1のパターンと同じかまたは異なるパターンに該当する箇所であって、該開始箇所とその箇所との間に任意のパターンに該当する箇所がない場合に、その箇所を領域の終了箇所と判定し、該開始箇所と該終了箇所との間の領域を、前記文書構造情報から得られる該領域名に対応付けて抽出する文書抽出手段と、
該文書構造・レイアウト情報登録手段によって登録された該文書構造情報及び該レイアウト情報を使用して、該抽出された少なくとも1つの領域を再構成して表示する文書再構成手段と、
を有することを特徴とする文書編集システム。
A document editing system that extracts an arbitrary area from at least one document and displays the extracted area in an editable state.
Area definition information registration means for registering area definition information that is used to extract a desired area from each document and includes a first pattern that identifies a location immediately before the desired area;
Document structure / layout information for registering area structure in each document, document structure information including the area name of each area in the document, and layout information used to reconstruct each area Registration means;
When a location in the document corresponds to the first pattern obtained from the region definition information and the region name corresponding to the location satisfies the appearance condition of the same region name obtained from the document structure information, When the location is determined as the start location of the area, and the location corresponds to the same or different pattern as the first pattern, and there is no location corresponding to any pattern between the start location and the location A document extracting means for determining the location as the end location of the region, and extracting the region between the start location and the end location in association with the region name obtained from the document structure information;
Document reconstruction means for reconstructing and displaying the extracted at least one area using the document structure information and the layout information registered by the document structure / layout information registration means;
A document editing system characterized by comprising:
少なくとも1つの文書から任意の領域を抽出して、該抽出された領域を編集可能な状態で表示する文書編集システムであって、
各文書から所望の領域を抽出するために使用される情報であって、該所望の領域の直前の箇所を特定する第1のパターンと、該所望の領域の直後の箇所を特定する第2のパターンとを含む領域定義情報を登録する領域定義情報登録手段と、
各文書内の領域の構造に関する情報であって、文書内の各領域の領域名を含む文書構造情報、及び該各領域を再構成するために使用されるレイアウト情報を登録する文書構造・レイアウト情報登録手段と、
文書内のある箇所が該領域定義情報から得られる該第1のパターンに該当し、かつその箇所に対応する領域名が該文書構造情報から得られる同じ領域名の出現条件を満たす場合に、その箇所を前記第1の箇所と判定し、該第1の箇所以降で、該第2のパターンに該当する箇所であって、該第1の箇所とその箇所との間に任意のパターンに該当する箇所がない場合に、その箇所を前記第2の箇所と判定し、該第1の箇所と該第2の箇所との間の領域を、該文書構造情報から得られる該領域名に対応付けて抽出する文書抽出手段と、
該文書構造・レイアウト情報登録手段によって登録された該文書構造情報及び該レイアウト情報を使用して、該抽出された少なくとも1つの領域を再構成して表示する文書再構成手段と、
を有することを特徴とする文書編集システム。
A document editing system that extracts an arbitrary area from at least one document and displays the extracted area in an editable state.
Information used for extracting a desired area from each document, a first pattern for specifying a position immediately before the desired area, and a second pattern for specifying a position immediately after the desired area Area definition information registration means for registering area definition information including a pattern;
Document structure / layout information for registering area structure in each document, document structure information including the area name of each area in the document, and layout information used to reconstruct each area Registration means;
When a location in the document corresponds to the first pattern obtained from the region definition information and the region name corresponding to the location satisfies the appearance condition of the same region name obtained from the document structure information, A location is determined as the first location, and the location corresponding to the second pattern after the first location is applicable to any pattern between the first location and the location. If there is no location, the location is determined as the second location, and an area between the first location and the second location is associated with the region name obtained from the document structure information. A document extracting means for extracting;
Document reconstruction means for reconstructing and displaying the extracted at least one area using the document structure information and the layout information registered by the document structure / layout information registration means;
A document editing system characterized by comprising:
少なくとも1つの文書から任意の領域を抽出して、該抽出された領域を編集可能な状態で表示する文書編集システムであって、
各文書から所望の領域を抽出するために使用される情報であって、該領域の開始の文字列のパターンと該領域の終了のパターンの組を単数または複数を含む領域定義情報を登録する領域定義情報登録手段と、
各文書内の領域の構造に関する情報であって、文書内の各領域の領域名を含む文書構造情報、及び該各領域を再構成するために使用されるレイアウト情報を登録する文書構造・レイアウト情報登録手段と、
文書内のある箇所が該領域定義情報から得られる該開始の文字列のパターンに該当し、かつその箇所に対応する領域名が該文書構造情報から得られる同じ領域名の出現条件を満たす場合に、その箇所を領域の開始箇所と判定し、該終了の文字列のパターンに該当する箇所であって、前記開始箇所とその箇所との間に任意のパターンに該当する箇所がない場合に、その箇所を領域の終了箇所と判定し、該開始箇所と該終了箇所との間の領域を、該文書構造情報から得られる該領域名に対応付けて抽出する文書抽出手段と、
該文書構造・レイアウト情報登録手段によって登録された該文書構造情報及び該レイアウト情報を使用して、該抽出された少なくとも1つの領域を再構成して表示する文書再構成手段と、
を有することを特徴とする文書編集システム。
A document editing system that extracts an arbitrary area from at least one document and displays the extracted area in an editable state.
An area for registering area definition information including one or more sets of a character string pattern at the start of the area and a pattern at the end of the area, which is information used for extracting a desired area from each document Definition information registration means;
Document structure / layout information for registering area structure in each document, document structure information including the area name of each area in the document, and layout information used to reconstruct each area Registration means;
When a certain point in the document corresponds to the pattern of the starting character string obtained from the region definition information, and the region name corresponding to the portion satisfies the appearance condition of the same region name obtained from the document structure information The part is determined to be the start part of the region, and the part corresponds to the pattern of the end character string, and there is no part corresponding to an arbitrary pattern between the start part and the part. A document extracting means for determining a location as an end location of a region, and extracting a region between the start location and the end location in association with the region name obtained from the document structure information;
Document reconstruction means for reconstructing and displaying the extracted at least one area using the document structure information and the layout information registered by the document structure / layout information registration means;
A document editing system characterized by comprising:
前記再構成して表示された少なくとも1つの領域を編集できるように制御する文書編集制御手段を有すること、を特徴とする請求項1ないし3に記載の文書編集システム。  4. The document editing system according to claim 1, further comprising document editing control means for controlling the at least one area displayed by reconfiguration so as to be edited. 前記文書編集制御手段が更に、前記再構成して表示された少なくとも1つの領域に関する編集機能を、前記文書から抽出された領域の内容のみに制限するよう制御すること、を特徴とする請求項4に記載の文書編集システム。  5. The document editing control means further controls to limit an editing function relating to the at least one area displayed by reconfiguration to only contents of the area extracted from the document. Document editing system described in 1. 前記抽出された少なくとも1つの領域が編集された場合、その編集結果を該領域の抽出元の文書に反映させる文書編集結果反映手段を有すること、を特徴とする請求項4に記載の文書編集システム。  5. The document editing system according to claim 4, further comprising: a document editing result reflecting means for reflecting the editing result in the extraction source document of the area when the extracted at least one area is edited. . 前記パターンが、固定的な文字列と、任意の数の任意の文字との組み合わせで定義されること、
を特徴とする請求項1ないし3に記載の文書編集システム。
The pattern is defined by a combination of a fixed character string and an arbitrary number of arbitrary characters;
The document editing system according to any one of claims 1 to 3.
前記各文書内の領域の構造に関する前記文書構造情報、及び該各領域を再構成するために使用される前記レイアウト情報が、前記文書構造・レイアウト情報登録手段によって一体的に登録されること、
を特徴とする請求項1ないし3に記載の文書編集システム。
The document structure information relating to the structure of the area in each document, and the layout information used for reconstructing each area are integrally registered by the document structure / layout information registration means;
The document editing system according to any one of claims 1 to 3.
JP07272798A 1998-03-20 1998-03-20 Document editing system, method, and recording medium Expired - Fee Related JP3737629B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP07272798A JP3737629B2 (en) 1998-03-20 1998-03-20 Document editing system, method, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP07272798A JP3737629B2 (en) 1998-03-20 1998-03-20 Document editing system, method, and recording medium

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2005291620A Division JP2006059378A (en) 2005-10-04 2005-10-04 Document edition method and recording medium

Publications (2)

Publication Number Publication Date
JPH11272666A JPH11272666A (en) 1999-10-08
JP3737629B2 true JP3737629B2 (en) 2006-01-18

Family

ID=13497689

Family Applications (1)

Application Number Title Priority Date Filing Date
JP07272798A Expired - Fee Related JP3737629B2 (en) 1998-03-20 1998-03-20 Document editing system, method, and recording medium

Country Status (1)

Country Link
JP (1) JP3737629B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100359309B1 (en) * 2000-10-20 2002-10-31 아이원더넷 주식회사 Method for applicating memory for repeting graphic pattern
JP2002140325A (en) 2000-10-31 2002-05-17 Fujitsu Ltd Medium with document generating program recorded thereon
JP7141078B2 (en) * 2017-06-29 2022-09-22 株式会社寺岡精工 Printer and program
CN113807058A (en) * 2021-09-24 2021-12-17 维沃移动通信有限公司 Text display method and text display device

Also Published As

Publication number Publication date
JPH11272666A (en) 1999-10-08

Similar Documents

Publication Publication Date Title
Bradley The XML companion
US20180293307A1 (en) User driven computerized selection, categorization, and layout of live content components
US6792475B1 (en) System and method for facilitating the design of a website
US7823061B2 (en) System and method for text segmentation and display
JP4907715B2 (en) Method and apparatus for synchronizing, displaying, and manipulating text and image documents
US7836043B2 (en) Database system and method for data acquisition and perusal
US6442576B1 (en) Searching for documents with multiple element types
CA2036859C (en) System and method for editing a structured document to modify emphasis characteristics
US5982365A (en) System and methods for interactively generating and testing help systems
JP7289556B2 (en) PATENT DOCUMENT DEVELOPMENT DEVICE, METHOD, COMPUTER PROGRAM, COMPUTER-READABLE RECORDING MEDIUM, SERVER, AND SYSTEM
US7793224B1 (en) Methods and apparatus for formatting identified content
JP4577847B2 (en) Authoring systems, software, and methods for creating content
EP1204053A1 (en) Method and apparatus for handling a plurality of test modes for a computer readable document
JPH07239850A (en) Structured document preparation supporting system
JP3737629B2 (en) Document editing system, method, and recording medium
Agrawal et al. Creating bibliographies using endnote
JP4012047B2 (en) Electronic document creation apparatus, electronic document creation method, and program causing computer to execute the method
JP2006059378A (en) Document edition method and recording medium
US7613709B2 (en) System and method for editing operations of a text object model
JP3712320B2 (en) Variable document creation system, variable document output device and variable document creation device
Koch et al. TEXShop
KR20240055309A (en) Paper creating device, method, computer program, computer-readable recording medium, server and system
KR20240055290A (en) Document creating device, method, computer program, computer-readable recording medium, server and system having text auto-generating functionality using natural language generation model
KR20240055302A (en) Document creating device, method, computer program, computer-readable recording medium, server and system having text auto-generating functionality using sentence template
KR20240055313A (en) Article creating device, method, computer program, computer-readable recording medium, server and system

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040518

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040720

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050816

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051004

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20051013

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20051025

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20051027

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081104

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091104

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees