JP3724878B2 - キーワード抽出ルール生成方法 - Google Patents

キーワード抽出ルール生成方法 Download PDF

Info

Publication number
JP3724878B2
JP3724878B2 JP18687796A JP18687796A JP3724878B2 JP 3724878 B2 JP3724878 B2 JP 3724878B2 JP 18687796 A JP18687796 A JP 18687796A JP 18687796 A JP18687796 A JP 18687796A JP 3724878 B2 JP3724878 B2 JP 3724878B2
Authority
JP
Japan
Prior art keywords
character string
information
keyword
output
keyword extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP18687796A
Other languages
English (en)
Other versions
JPH1021249A (ja
Inventor
佳史 里
雅則 加藤
尚史 東
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP18687796A priority Critical patent/JP3724878B2/ja
Publication of JPH1021249A publication Critical patent/JPH1021249A/ja
Application granted granted Critical
Publication of JP3724878B2 publication Critical patent/JP3724878B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、文字認識装置やワードプロセッサ等の手段によって入力された、文書の構造を明示的に表す情報を含まない文書(以下「非構造化文書」と呼ぶ)を、文書の構造を明示的に表す情報を含む構造化文書に変換する際に用いるキーワード抽出ルールを生成する方法に関するものである。
【0002】
【従来の技術】
構造化文書の形式の一つに、論理構造を明示的に表す情報をテキスト中に埋め込む方法がある。一般にユーザが作成した構造化文書(以下「文書インスタンス」と呼ぶ)は、文書の論理構造を規定する論理構造定義を記述したファイルを指定する部分と、文書の内容を表す内容テキスト部からなることが多い。
論理構造定義には、その文書の論理構造と、その構成要素を表すマーク(以下、「タグ」と呼ぶ)が定義される。
また、内容テキスト部には、論理構造定義内で定義されたタグを、そのタグに対応する論理構造の内容となる文字列が一意に定まるように挿入し、文書の論理構造を明示的に表現する。
【0003】
このようにして構造化された文書インスタンスを出力する際には、論理構造の各構成要素(以下「エレメント」と呼ぶ)をどのような書式で出力するかを規定する出力書式定義を記述したファイル参照し、出力すべきイメージを生成する。
この方法によると、文書インスタンスと出力書式定義とが独立しているために、出力に用いる個々の装置やシステムに関わらず文書インスタンスを交換することができる。
【0004】
また、こうした構造化文書における文字列の内容は、例えば「<著者名>」や「<タイトル>」というような、エレメントと一対一に対応するタグの挿入によって明示的に表現されてるため、構造化文書に対応した全文検索システム等のツールと組み合わせることにより、文書インスタンスの集合をそのままデータベースとして利用することができる。構造化文書とその利用については、文献「SGMLのススメ」(吉岡誠編著、オーム社)等において詳しく解説されている。
【0005】
こうした利点から、大量の文書を蓄積,利用する文書処理システムにおける文書管理形式として、構造化文書形式の採用が進んでいる。
それと共に、既存の紙面文書やワープロ入力文書などの非構造化文書を構造化文書へと変換する手法について検討が行なわれている。
【0006】
非構造化文書の構造化文書への変換に関する従来の技術としては、特開昭62−24970や、「文書画像のODA論理構造化文書への変換方式(電子情報通信学会論文誌,D−II,Vol.J76−DII,No.11,pp.2274−2284)」に見られる方法がある。
これは、非構造化文書から「第1章」や「1.1」等の論理構造を表現する特徴的な文字列(以下「キーワード」と呼ぶ)を抽出し、抽出したキーワードを手がかりとして文書の論理構造を認識することにより、構造化文書を生成するものである。
【0007】
しかし、従来の技術においては、キーワードを抽出するためのルールの作成を支援するという観点が存在せず、その手段については未だ発表されていない。
そのため、キーワードとすべきエレメントの決定およびキーワードの抽出に必要なレイアウトや文字列に関する条件の設定を、全て人手によって行なう必要がある。
【0008】
【発明が解決しようとする課題】
従来の方法の問題点として、
(1)キーワードとして抽出するエレメント(以下「キーワード対応要素」と呼ぶ)の決定を支援する手段がないことである。
文字列を内容とするエレメントを全てキーワードとして抽出するわけではない。
特にレイアウトや文字列に特徴のないエレメントについては、キーワードとして抽出せず、キーワードの間に挟まれる文字列、すなわち非キーワードとして扱う。
【0009】
どのエレメントをキーワード対応要素とするかを決定する際には、「文書インスタンス中で非キーワードが隣接してはならない」という拘束条件が課せられる。
これは、非キーワードは「キーワードの間に挟まれる文字列」であることから、非キーワードは必ずキーワードと隣接する必要があるためである。
しかし、従来の方法には、キーワード対応要素と設定したエレメントの集合が、この拘束条件を満たすか否かを自動的に検定する手段が存在しない。
そのため、設定したキーワード対応要素の集合がこの拘束条件を満たさない場合、論理構造認識のためのルール作成時または論理構造認識時に不都合が生じ、その結果、再びキーワード対応要素を設定し直す必要がでてくる。そして、このサイクルを適切なキーワード対応要素の集合が設定されるまで繰り返す必要がある。
【0010】
(2)キーワードの抽出に必要なレイアウトや文字列に関する条件の設定を支援する方法が存在しないことである。
そのため、キーワードの抽出に必要な情報は、対象とする非構造化文書そのものや、非構造化文書の記述様式を定めた規則集等から人手で抽出する必要があり、これには多大な労力を要する。
【0011】
本発明の目的は、上記問題点を解決し、非構造化文書から構造化文書を生成する際に、非構造化文書からキーワードを抽出するためのキーワード抽出ルール生成方法を提供することにある。
【0012】
【課題を解決するための手段】
上記目的を達成するため、本発明は、
文書の論理構造の構成要素を表わす特徴的な文字列すなわちキーワードを非構造化文書から抽出するためのルールであり、非構造化文書から構造化文書を生成する際に用いられるキーワード抽出ルールを生成するためのキーワード抽出ルール生成方法であり、
対象とする文書に与えられた論理構造定義から論理構造情報を抽出し文字列対応要素情報を生成する文字列対応要素情報生成ステップと、前記対象とする文書に与えられた出力書式定義から出力書式情報を抽出し出力書式情報を生成する出力書式情報生成ステップと、前記生成した文字列対応要素情報と出力書式情報に基づきキーワード抽出ルールを生成するキーワード抽出ルール生成ステップからなるようにしている。
【0013】
さらに、前記文字列対応要素情報生成ステップは、文字列対応要素情報として文字列対応要素と該文字列対応要素に後接しうる文字列対応要素とを対として生成し、前記出力書式情報生成ステップは、出力書式情報として文書の論理構造の構成要素を出力する際のレイアウトと文字列に関する情報抽出するようにしている。
【0014】
さらに、前記キーワード抽出ルール生成ステップは、前記出力書式情報をキーワード抽出に必要な項目毎にユーザに対して表示し、ユーザの入力に従い、非構造化文書上の出力様式に沿うように前記出力書式情報を修正し、かつ欠如している情報を前記出力書式情報に補うようにしている。
【0015】
さらに、前記キーワード抽出ルール生成ステップは、前記出力書式情報から前記論理構造の構成要素のどれをキーワードとして抽出するかをユーザが決定するとき、前記文字列対応要素情報に基づき抽出すべき前記論理構造の構成要素を指示、表示してユーザの決定を支援するようにしている。
【0016】
【発明の実施の形態】
図面を参照して本発明の一実施例を説明する。
本実施例においては、構造化文書形式の一例としてSGML(Standa−rd Generalized Markup Language)形式を採用し、論理構造定義としては、対象とする文書に対して設定されたSGMLの文書型定義であるDTD(Document Type Definition)を用いる。
SGML及びDTDの処理内容や記述規則は、ISO(国際標準化機構)の標準規約であるISO8879において規定されており、その詳細は文献「SGML入門」(Martin Bryan著、アスキー出版局)において解説されている。
【0017】
本実施例は、図1に示す「キーワード抽出ルール生成方法」に関するものであるが、まず構造化文書生成方法の流れについて説明し、本発明の位置付けを具体的な例を示しながら述べる。
【0018】
図2は、構造化文書生成方法の流れを示すブロック図である。この流れ自体は、特願平7−223017や特開昭62−24970、あるいは「文書画像のODA論理構造化文書への変換方式(電子情報通信学会論文誌,D−II,Vol.J76−DII,No.11,pp.2274−2284)」といった従来技術で共通して採用されている。
【0019】
201は、文字認識装置やワードプロセッサ等の手段によって入力された、文書の構造を明示的に表す情報を含まない文書、すなわち非構造化文書である。
非構造化文書の例を図3に示す。これは、法規を例に紙面文書に対して文字認識を行なった結果であり、論理構造を示す明示的な表記は存在しないが、文書の各構成要素はスペース等を用いて読み易いようにレイアウトされている。
【0020】
このようなテキスト形式の電子化文書を文書処理システムで活用するために、論理構造定義(図2の207)が設定されている。
図3の非構造化文書に対応する論理構造定義(DTD)の例を図4に示す。
冒頭の401は、この論理構造定義が「条例」という名称であることを示す。402〜415はエレメントの定義であり、「!ELEMENT」の次にエレメントの名称が記述され、その後に「(」と「)」で挟む形式で、そのエレメントを構成する要素の集まりであるモデルグループが記述される。
例えば、モデルグループは、(公布年月日,例規番号,公布文?)、(#PCDATA)等であり、題名は「#PCDATA」をモデルグループの要素とするエレメントであり、条例は「題名」,「公布」,「本則」をモデルグループのそれぞれの要素とするエレメントである。
モデルグループは、一個以上のエレメントや、「#PCDATA」などデータを表す内容トークンを要素とする集合であり、入れ子状にモデルグループ自身を要素とすることもできる。
【0021】
402は、エレメント「条例」が、「題名」「公布」「本則」といったエレメントの並びによって構成されることを示す。
また、409は、エレメント「条」が「見出し?」「条番号」「条規定」「号*」といったエレメントの並びによって構成されることを示す。
アスタリスク(”*”)の付いた要素は、その要素が0回以上複数回出現可能であることを意味し、クエスチョン(”?”)の付いた要素は、その要素が存在してもしなくてもよいことを意味する。例えば、409は、「見出し」が存在しなくてもよく、また「号」が0回以上複数回出現可能であることを表現している。
モデルグループの内容が(#PCDATA)である403、405〜407等は、それぞれ「題名」「公布年月日」「例規番号」「公布文」といったエレメントが、そのモデルグループの内容を表す文字列を保持することを意味する。
【0022】
401から416までの論理構造をツリー状に表現したものを図5に示す。
図5では、図4の402〜415に定義された各エレメントをそれぞれノードとして表現しており、上位のノードに対応するエレメントが、下位のノードに対応するエレメントから構成されていることを示している。「#PCDATA」を下位にもつノードは、対応するエレメントがモデルグループとして文字列を保持すること意味している。
【0023】
図3の非構造化文書の内容を、図4の論理構造定義に従って構造化した構造化文書を図6に示す。
図4の中で定義されたエレメント(例えば404の「公布」)の内容は、図6の構造化文書中において、その要素の始まりを表す記号(ここでは601の<公布>)と終りを表す記号(ここでは602の</公布>)に挟まれる記号と文字列によって表現されている。
このような構造化文書を、図3に示すような非構造化文書から生成することが、図2に示した構造化文書生成処理の目的である。
【0024】
図2の構造化文書生成処理は、大きく二つに分けられる。一つは202のキーワード抽出処理であり、もう一つは204の論理構造認識処理である。
キーワード抽出処理202は、キーワード抽出ルール203を参照して、非構造化文書の中から「第1条」や「2.1.1」のような、論理構造を表す特徴的な文字列であるキーワードを抽出する処理である。
論理構造認識処理204は、論理構造認識ルール205を参照して、キーワード抽出処理202で抽出されたキーワードを手がかりとして論理構造認識を行ない、図5に示したようなツリー状の論理構造を文書に割り当てることにより、図6のような構造化文書206を生成する処理である。
【0025】
以下、キーワード抽出処理202について詳細に説明する。
キーワード抽出ルール203の例を図7に示す。
キーワード抽出ルールは、キーワードとして抽出すべきエレメント名と、それを抽出するためのレイアウト及び文字列に関する条件である書式条件とを組合せたルールの集合である。
図7における書式条件の記述要素の説明を図8に示す。
図7においては、各行の先頭の項目がキーワードの名称であり、二番目以降の項目が書式条件である。
図7における701は、キーワード「題名」の書式条件が、「センタリングされている行であり、最初に文字『○』が存在し、それに任意長の文字列が続き、最後に文字列『条例』または文字列『規則』で行が終る。」という条件であることを意味する。
また、702については、キーワード「公布年月日」の書式条件が、「行頭から任意個のスペースを置いて文字列『大正』または文字列『昭和』が存在し、その後は順に整数,『年』,整数,『月』,整数,『日』と続き、行が終る」という条件であることを意味する。
【0026】
図2のキーワード抽出処理202では、キーワード抽出ルールの書式条件に適合する文字列が非構造化文書中に存在するか否かを判定し、適合する場合にはその文字列をキーワードとして抽出する。図3の非構造化文書キーワードの抽出例を図9に示す。
図2の論理構造認識処理204では、抽出されたキーワードを手がかりにして論理構造認識を行なうことにより構造化文書を生成するが、この処理の詳細については、特願平7−223017や特開昭62−24970、あるいは「文書画像のODA論理構造化文書への変換方式(電子情報通信学会論文誌,D−II,Vol.J76−DII,No.11,pp.2274−2284)」に開示されている。
【0027】
本実施例で詳述するキーワード抽出ルール生成方法は、図2のキーワード抽出ルール203の作成を支援するものである。
キーワード抽出ルールは、従来全て人手で生成していたが、本システムは、与えられた論理構造定義と出力書式定義とを用いて、キーワード抽出ルールの作成支援を行なう。
【0028】
図1は、キーワード抽出ルール生成方法の構成を示すブロック図である。まず、図1を用いて本システムの処理概要を説明する。
101は、対象文書に対して設定された論理構造定義であり、構造化文書中に現われるエレメントと、エレメント間の関係とが定義されている。
論理構造情報抽出部102では、論理構造定義101を参照して、文字列に直接対応する論理構造要素であるエレメント(以下「文字列対応要素」と呼ぶ)と、それらの間の隣接情報とを記述した文字列対応要素情報103を生成する。
上記の文字列対応要素は、図5における「#PCDATA」を下位に持つノードのエレメントであり、題名、公布年月日、例規番号、・・・、号番号、号規定がこれにあたり、図4の場合には、403、405、406、407、410、411、412、414、415のエレメントがこれにあたる。
104は、対象文書に対して設定された出力書式定義であり、各エレメントをどのような書式で出力するのかが定義されている。
出力書式情報抽出部105では、出力書式定義104を参照して、各エレメントの出力時のレイアウトや出力文字列に関する情報の中から、キーワード抽出ルールの作成に必要な項目を可能な限り抽出する。
以下、この項目自体を「要件項目」と呼び、各項目について抽出された情報を「要件項目内容」と呼ぶ。出力書式情報106は、各文字列対応要素についての要件項目内容を記述したものである。
【0029】
キーワード抽出ルール作成部107では、各文字列対応要素に関する出力書式情報106内の要件項目内容を、入出力装置112を通じてユーザに提示する。そして、ユーザが入力する情報を受理して要件項目内容の修正を行ない、修正後の要件項目内容を基にキーワード抽出ルール113を生成する。
【0030】
キーワード抽出ルール作成部107における処理をより具体的に述べる。
キーワード情報表示部108では、文字列対応要素情報103に記述された文字列対応要素の名称をユーザに対して表示する。
ある文字列対応要素がキーワード対応要素として設定され、書式条件が付与されている場合には、その書式条件を、文字列対応要素の名称に併せて表示する。
各文字列対応要素に対する書式条件の設定は、補完情報入力部109において行なう。補完情報入力部109では、出力書式情報106を参照して、ユーザの選択した文字列対応要素についての要件項目内容を表示する。
ユーザは、表示された要件項目内容が、非構造化文書上のレイアウト及び文字列と異る場合にはこれを修正する。また、出力書式情報抽出部105で抽出できなかった要件項目について内容を付与する。
このようにして、全ての要件項目内容が、非構造化文書上のレイアウトおよび文字列に適合した内容になるように、要件項目内容の編集を行なう。
110は、要件項目内容の一つである文字列条件をユーザが編集する際に、その編集を支援する文字列条件入力部である。
補完情報入力部109では、全ての要件項目の編集が終了すると、その要件項目内容からキーワード抽出に用いる書式条件を生成する。そして、書式条件を返り値として処理をキーワード表示部に戻す。
キーワード情報表示部108では、補完情報入力部109において書式条件を生成した文字列対応要素をキーワード対応要素として設定し、その要素名に併せて書式条件を表示する。
【0031】
以上の手続きによってキーワード対応要素を定めていくが、ある時点において定められたキーワード対応要素の集合が、「非キーワードが隣接してはならない」という拘束条件を満たすか否かを、要素隣接検定部111によって検定する。
要素隣接検定部111は、文字列対応要素情報103に記述された文字列対応要素間の隣接情報を参照して、キーワード対応要素以外の文字列対応要素(以下「非キーワード対応要素」と呼ぶ)が隣接するか否かを検定する。
非キーワード対応要素同士が隣接しうる場合には、そのどちらかに対して書式条件の生成を行ない、キーワード対応要素として設定する。 逆に、非キーワード対応要素同士が隣接する可能性のない場合には、その時点で十分なキーワード対応要素が設定できていることになる。このとき、各キーワード対応要素の名称と書式条件との組み合わせの集合を、キーワード抽出ルール113とする。
以上が、キーワード抽出ルール生成方法の処理概要である。以下、図1における各処理の詳細な説明を行なう。
【0032】
論理構造情報抽出部102では、図4および図5に具体例を示したような論理構造定義101を参照して、文字列対応要素と、文字列対応要素間の隣接可能性についての情報を抽出し、文字列対応要素情報103として出力する。
文字列対応要素とは、論理構造定義において、文字列を意味する(#PCDATA)をモデルグループの要素とするエレメントのことである。
図4の論理構造定義における文字列対応要素を図10に示す。図10の例では、エレメント「題名」「公布年月日」「例規番号」「公布文」「見出し」「条番号」「条規定」「号番号」「号規定」が文字列対応要素として抽出される。
【0033】
論理構造情報抽出部102では、文字列対応要素間での隣接の可能性を調べる。具体的には、以下の二つの処理を行なう。
1.各エレメント毎に、その冒頭及び末尾に現われうる文字列対応要素の集合を求める。
例えば図6の構造化文書において、エレメント「公布」の冒頭に文字列対応要素「公布年月日」が現われており、またエレメント「公布」の末尾には文字列対応要素「公布文」が現われている。
ここでの処理は、このようなエレメントの冒頭及び末尾に現われうる要素を、 図4に示すような論理構造定義から導くものである。
2.論理構造定義のモデルグループ内で隣接するエレメントの組み合わせを求める。
各組み合わせについて、前側のエレメントの最後に現われうる文字列対応要素と、後ろ側のエレメントの最初に現われうる文字列対応要素とが、隣接する可能性を有することになる。
【0034】
本実施例においては、この二つの処理を容易にするための準備として、図4に示した論理構造定義をBNF(Buckus Naur Form)記法を用いた表現に変換する。
BNFは「生成規則」と呼ばれるルールの集合である。各生成規則は「A :B C」というようにコロン’:’によって区切られた左辺と右辺から成り、左辺の要素が、右辺に記述された要素の並びによって成り立つことを意味する。「A : BC」という生成規則の例では、要素Aが、「B C」という要素の並びによって構成されることを意味する。
また、記号’|’は並列を表す記号であり、例えば「A : B | C」という生成規則は、要素Aが要素Bまたは要素Cから成り立つことを意味する。
BNFの詳細については、文献「yaccとlexの使い方」(斉藤 孝著、HBJ出版局)等において解説されている。
【0035】
図11に、図4に示した論理構造定義(DTD)をBNF記法を用いて表現する際の変換規則を示し、図12にBNF記法で表現した論理構造定義の例を示す。
例えば、図4における404の定義は、図12の1203および1204に示した生成規則に変換される。
ここでは、図4の「公布文」が、図11の変換規則1101によって、図12の1203の「opt0」に置き換えられている。そして、「opt0」の定義が1204に記述されている。
以下、本実施例においては、BNF記法によって表現した論理構造定義の各生成規則における右辺を、左辺のエレメントの「内容モデル」と呼ぶことにする。
【0036】
BNF記法によって表現した論理構造定義から、各エレメント毎にその冒頭と末尾に現われうる文字列対応要素の集合を求める手続きについて説明する。
この手続きのアルゴリズムを図13に示す。
図13においてAから始まる手続きは、エレメントを入力引数とし、そのエレメントの冒頭に現われうる文字列対応要素の集合を返り値とする手続きであり、再帰呼び出しを含む。
ここで、この手続き内で用いられている変数mg及びelemは、Aに手続きが進むごとに新たに生成される局所的な変数である。
また、First[××]は、エレメント××の冒頭に現われうる文字列対応要素の集合を表す大域的な変数である。
【0037】
あるエレメントの冒頭に現われうる文字列対応要素の集合を求めるには、そのエレメントを引数(図13中のnt)として手続きAを実行する。
手続きAでは、まずntの冒頭に現われうる文字列対応要素の集合を表すFirst[nt]を空集合にセットする(1301)。
また、ntの内容モデルにおいて、並列記号’|’で区切られたエレメント列のうち、最初のエレメント列を変数mgに代入する(1302)。
並列記号が存在しない場合は、内容モデル全体をmgとする。そして、変数elemに、mgの最初のエレメントを代入する(1303)。
次に、1304において、elemが文字列対応要素であるか否かを調べる。
elemが文字列対応要素である場合には、First[nt]にelemを加え(1305)、1309に進む。
逆にelemが文字列対応要素でない場合には、First[elem]が設定されていれば(1306)First[elem]の内容をFirst[nt]に加え(1308)、1309に進む。
また、1306においてFirst[elem]が設定されていない場合には、elemを引数として、手続きAを再帰的に実行する(1307)。そして、その返り値すなわちFirst[elem]の内容をFirst[nt]に加え(1308)、1309に進む。
1309では、ntの内容モデルにおいてmgが並列記号で区切られた最後のエレメント列であるか否かを調べる。
mgが最後のエレメント列でない場合には、変数mgに次のエレメント列を代入し(1310)、1303に戻る。逆にmgが最後のエレメント列である場合には、First[nt]を返り値として、この手続きを呼び出した手続きに処理を戻す(1311)。
【0038】
以上、図13に示した手続きを、全てのエレメントについてFirst[]が設定されるまで実施することにより、各エレメントについて、冒頭に現われうる文字列対応要素の集合を求めることができる。
また、末尾に現われうる文字列対応要素の集合Last[]を求めるには、図13に対して以下の2つの置換を行なう事により、図13と同様の手順で求めることが出来る。
a.図13中のFirst[XXX]をLast[XXX]に置き換える。
b.1303の「最初のエレメント」を「最後のエレメント」に置き換える。
【0039】
図14に、図4に示した論理構造定義中のエレメントについて、冒頭及び末尾に現われうる文字列対応要素の集合、すなわちFirst[]とLast[]とを求めた結果を示す。
以上の手続きにより、各エレメントについて冒頭に現われうる文字列対応要素の集合First[]と、末尾に現われうる文字列対応要素の集合Last[]を求めることができる。
【0040】
次に、論理構造定義の内容モデル内で隣接するエレメントの組み合わせを求める。
各組み合わせについて、前側のエレメントのLast[]の要素と、後ろ側のエレメントのFirst[]の要素とが、隣接する可能性を有することになる。
この処理例を図15に示す。本図は、図12の1201の「条例 : 題名 公布 本則」という生成規則についての処理例である。
この生成規則では、エレメント「条例」の内容モデルにおいて、題名と公布が隣接し、また公布と本則が隣接している(1501)。
そのため、Last[題名]の要素にFirst[公布]の要素が後接しうる(1502)。
すなわち、文字列対応要素「題名」には、文字列対応要素「公布年月日」が後接しうる(1504)。
また、Last[公布]の要素にFirst[本則]の要素が後接しうる(1503)。
すなわち、文字列対応要素「公布文」と「例規番号」には、どちらも文字列対応要素「見出し」及び「条番号」が後接しうる(1505)。
この手続きを、BNF記法で表現した論理構造定義中の全ての生成規則に対して適用することにより、全ての文字列対応要素について後接しうる文字列対応要素の集合を求めることができ、これがすなわち文字列対応要素情報(図1の103)になる。
文字列対応要素情報103の例を図16に示す。
以上、図11〜図15に示した手続きによって、図1の論理構造情報抽出部102において文字列対応要素情報103が生成される。
【0041】
次に、図1の出力書式情報抽出部105において、出力書式定義104から出力書式情報106を抽出する処理について説明する。
104は、対象文書に対して設定された出力書式定義であり、各エレメントをどのような書式で出力するのかが定義されている。
図17に、図4の論理構造定義に沿った構造化文書のために用意された出力書式定義の例の一部を示す。
1701は、1701〜1711がエレメント「題名」の出力書式に関する定義であることを示す。
[フォント種類]1702は、「題名」を出力する際のフォントの種類がゴシック体であることを示し、[フォントサイズ]1703は、そのフォントのサイズが12ptであることを示す。pt(ポイント)は長さの単位であり、1pt=1/72インチである。
[文字ピッチ]1704は、「題名」の文字ピッチが14ptであることを示す。1705の[オフセット1]と1706の[オフセット2]は、それぞれこの文書を出力する領域の左端および右端から、最低どれくらいのスペースを空けて「題名」の内容を出力するかを表すものである。
1707の[冒頭変位]は、他の行と比べて特殊なオフセットを取ることが多い第一行目の、[オフセット1]との差を表す。
1708の[前要素との接続]は、直前に現れる要素との間にどのような文字列を出力するかを表す。1708の例では、直前に現れる要素を出力した後、改行して「題名」を出力することを示している。
1709の[文字列情報]は、どのような文字列を出力するかを記述するものであり、1709の例では、題名に相当する文字列(CONTENT)、つまり構造化文書においてタグ<題名>とタグ</題名>に挟まれる文字列をそのまま出力することを意味している。
1710の[配置]は、[オフセット1]と[オフセット2]によって指定された区間内に、内容文字列をどのように配置するかを示すものである。左寄せ、右寄せ、センタリング、均等割り付けの4種類の割り付け方法に応じて、それぞれstart、end、center、justifyの4つの値をとる。1710の例では、「題名」の内容文字列をセンタリングして出力することを表している。
【0042】
このような出力書式定義は、本来構造化文書を出力するためのものであり、非構造化文書の書式を表現するためのものではない。
しかし、例えば法規文書のように記述様式に規則性のある文書については、出力書式定義がその規則に即して定義されていることが多い。
このような文書については、出力書式定義中のレイアウトや文字列に関する情報の多くを、非構造化文書からキーワードを抽出するための情報として利用することができる。
【0043】
出力書式情報抽出部105では、出力書式定義104を参照して、各エレメントの出力時のレイアウトに関する情報と出力文字列に関する情報の中から、キーワードの抽出に必要な項目を可能な限り抽出する。
前述したように、この項目自体を「要件項目」と呼び、各項目について抽出される情報を「要件項目内容」と呼ぶ。
【0044】
図18に、図7に示したキーワード抽出ルールを作成する際に、各キーワード毎に必要な要件項目の例を示す。
[論理構造要素名]1801は、対象とする文字列対応要素の名称であり、文字列を値とする。
1802の[左スペース]と1803の[右スペース]は、このエレメントを出力する領域に対して、それぞれ左端および右端から最低何文字分のスペースを空けて内容文字列が記述されているかを表す条件である。
1804の[第一行スペース]は、他の行と比べて特殊なオフセットを取ることが多い第一行目が、左側に何文字分のスペースを空けて始まるかを表す。
1805の[文字列条件]は、このキーワードがどのような文字列によって記述されているかを示す。
1806の[割り付け]は、左スペース1802と右スペース1803によって定まる領域において、キーワードがどのように割り付けられているかを示す項目であり、右寄せ、左寄せ、センタリング、均等、の4種類の値をとる。
1807の[前接文字列]および1808[後接文字列]は、それぞれ注目しているキーワードの前後に現われる文字列対応要素との間に、どのような文字列が挟まれるのかを表す文字列である。
【0045】
出力書式情報抽出部105では、出力書式定義104を参照して、図18に示したような要件項目に関する情報、すなわち要件項目内容を可能な限り抽出する。
以下、図17に示した出力書式定義から、要件項目内容を抽出する例を図19に示す。
ある文字列対応要素についての要件項目内容を抽出するには、出力書式定義中の、その文字列対応要素に関する定義を利用する。例えば、条番号に関する要件項目は、図17の1712〜1722の条番号に関する定義から抽出する。
要件項目[左スペース]及び[右スペース]は、それぞれ出力書式定義中の[オフセット1]および[オフセット2]と同じ内容を表す項目であるため、長さの単位をptから文字数へと変換するだけでよい。具体的には、[オフセット1]および[オフセット2]の値を[文字ピッチ]の値で割ればよい(1901および1902)。
要件項目[第一行スペース]は、出力書式定義中の[オフセット1]に[冒頭変位]を加えたものに相当する。そこで、その両者の和を[文字ピッチ]で割った値を内容とする(1903)。
要件項目[文字列条件]は、出力書式定義中の[文字列情報]を参照して作成する(1904)が、図17の例では全ての要素について[文字列情報]が”CONTENT”、つまり文書インスタンス中の内容文字列をそのまま出力することになっているため、出力書式定義から文字列に関する具体的な情報は得られない。
要件項目[割り付け]は、出力書式定義中の[配置]と同じ概念を表す項目であるため、1905の規則に従って値を変換する。
要件項目[前接文字列]は、出力書式定義中の[前要素との接続]の内容をそのまま代入する(1906)。
要件項目:[後接文字列]は、文字列対応要素情報と、出力書式定義中の他の要素の[前要素との接続]を利用して求める(1907)。
具体的には、まず文字列対応要素情報を用いて、注目する文字列対応要素に後接する文字列対応要素(以下、「後接要素」と呼ぶ)を求める。
次に、全ての後接要素について、その要素の[前要素との接続]を調べ、その内容がどの後接要素についても同じであれば、その内容を注目する文字列対応要素の[後接文字列]として設定する。
後接要素によって[前要素との接続]の内容が異る場合には、[後接文字列]は設定しない。例えば条番号については、図16の文字列対応要素情報の1606より、条番号の後接要素は条規定だけであることが分る。従って、条規定の[前要素との接続]である「” ”」が条番号の[後接文字列]の内容となる。
以上の手続きを全ての文字列対応要素に対して適用することにより、図1の出力書式情報106が生成される。
【0046】
図1のキーワード抽出ルール作成部107では、文字列対応要素情報103と出力書式情報106の情報を、入出力装置112を通じてユーザに提示する。そして、ユーザから補完情報の入力を受け、要件項目情報の追加,修正を行なうことにより、キーワード抽出ルール113を生成する。
以下、キーワード抽出ルール作成部107における具体的な処理について説明する。
キーワード情報表示部108では、ユーザに対して、文字列対応要素名と、ある時点でどの文字列対応要素がキーワード対応要素として設定されているかを示す情報を提示する。
そして、ある文字列対応要素をキーワード対応要素として設定するようユーザから指示された場合には、補完情報入力部109を起動し、その文字列対応要素の要件項目内容を補完して書式条件を生成する。
また、その時点において「非キーワードが隣接してはならない」という拘束条件を満たすのに十分なキーワード対応要素が設定されているか否か検定するようユーザから指示された場合には、要素隣接検定部111を起動し、検定を行なう。
【0047】
キーワード情報表示部108が入出力装置112を通じてユーザに表示するインタフェースの例を図20に示し、処理フローを図21に示す。
この二つの図を用いて、キーワード情報表示部108の動作を説明する。
キーワード情報表示部108は、起動時に文字列対応要素情報103を読み込み、各文字列対応要素の名称を得る(2101)。
2001は、キーワード情報表示窓であり、文字列対応要素名を全て表示する要素名表示領域2002と、キーワード対応要素として設定された文字列対応要素について、その書式条件を表示する書式条件表示領域2003から構成される。
処理2102において、文字列対応要素名と、その時点においてキーワード対応要素として設定された要素の書式条件とを表示するが、最初はどの要素についても書式条件が設定されていないため、書式条件表示領域2003には何も表示されない。
ある文字列対応要素に対して書式条件を付与し、その要素をキーワード対応要素として設定するには、ユーザが例えばマウスを用いて要素名表示領域2002中の要素名をダブルクリックすることにより、補完情報入力部(図1の109)を起動する(2104)。
補完情報入力部109の動作については後述するが、文字列対応要素名を補完情報入力部109に渡し、その書式条件を返り値として受けとる。そして、ユーザの指示した文字列対応要素をキーワード対応要素として設定し(2105)、その書式条件を書式条件表示領域2003に表示する(2102)。
図20の例は、ある時点におけるインタフェースの表示例を示したものである。
この時点では、2006の題名と2007の項番号の二つの文字列対応要素に書式条件が付与されており、これはこの二つの文字列対応要素がキーワード対応要素として設定されていることを意味する。
【0048】
2004は隣接チェックボタンであり、このボタンをクリックすると、その時点で設定されているキーワード対応要素の集合が「非キーワードが隣接してはならない」という拘束条件を満たすのに十分であるか否かを検定する要素隣接検定部(図1の111)が起動される(2106)。
要素隣接検定部111の動作については後述するが、その検定を行ない、拘束条件を満たすのに十分なキーワード対応要素が設定されていることが判明した場合、ユーザは終了ボタンをクリックし、キーワード情報表示部108の処理を終了することを指示する。
キーワード情報表示部108は、キーワード対応要素名とその書式条件とを、キーワード抽出ルール(図1の113)として出力し、処理を終了する(2107)。
以上がキーワード情報表示部108の処理内容である。
【0049】
次に、キーワード情報表示部108において、要素名をダブルクリックした際に起動される補完情報入力部109のインタフェースを図22に示し、その処理フローを図23に示す。
補完情報入力部109では、キーワード情報表示部108から渡された、キーワード対応要素として書式条件を設定すべき要素名を読み込み(2301)、その要素に対応する要件項目内容を出力書式情報(図1の106)から読み込む(2302)。そして、要件項目内容を要件項目編集窓2201に表示する(2303)。
要件項目編集窓2201は、表示内容を編集できる窓であり、表示内容が非構造化文書上の記述様式と異なる場合は、ユーザがその内容を変更する。
また、出力書式情報抽出部105において抽出できなかった要件項目内容(例えば、図18および図19の抽出例における「文字列条件」)については要件項目編集窓が空白になっているため、ユーザはその編集窓に要件項目内容を入力する(2304→2303)。
文字列条件についても要件項目編集窓上で編集してもよいが、文字列条件入力ボタン2202をクリックして文字列条件入力部(図1の110)を起動することにより(2305)、より容易に入力することができる。
文字列条件入力部110の処理については後述する。文字列条件を入力した後の表示例を図22中の「文字列条件入力後」に示す。
【0050】
要件項目内容の編集が終了し、全ての要件項目内容が非構造化文書上の記述様式に適合すると、ユーザは終了ボタン2203をクリックし、補完情報入力部109の処理を終了することを指示する。
補完情報入力部109は、要件項目を編集した文字列対応要素の要件項目内容から書式条件を生成し(2306)、その書式条件を返り値として処理をキーワード情報表示部108に戻す(2307)。要件項目内容から書式条件を生成する処理フローを図24に示す。
図22の「文字列条件入力後」に示した条番号の要件項目内容を書式条件に変換する例を、点線枠で囲む形で処理フローに付与する。
まず、要件項目[文字列条件]の内容(例えば「”第” NUM1 ”条”」)を書式条件に代入する。
そして、要件項目[前接文字列]の内容が改行であるか否かを調べる(2401)。改行であれば、2403へ進む。改行でなければ、書式条件を’[’と’]’とで挟み、その直前に’+’と[前接文字列]の内容を付加する(2402)。その際、空白についてはSPC{整数}に変換する。
次に、処理2403において、要件項目[後接文字列]の内容が改行であるか否かを調べる。改行であれば、書式条件の末尾に’$’を付加して(2405)、処理2406へ進む。改行でなければ、書式条件中に’[’と’]’が存在しない場合には’[’と’]’とで挟み、直後に[後接文字列]の内容と’ +’とを付加する(2404,例えば「[”第” NUM1 ”条”] SPC1 +」)。
処理2406では、要件項目[割り付け]の内容がセンタリングであるか否かを調べる。センタリングである場合には、書式条件の冒頭に’C’を付加し(2407)、書式条件の生成を終了する。逆にセンタリングでない場合には、処理2408に進み、[割り付け]の内容に従ってAおよびBの処理を行なう。
[割り付け]の内容が左寄せならばA、右寄せならばB、均等ならばAとBの両方の処理を実行し、書式条件の生成を終了する。
Aでは、書式条件の冒頭部に’^SPCx’を付加する(2409)。ただしxは[冒頭インデント]の内容である(例えば「^SPC0 [”第” NUM1 ”条”] SPC1 +」)。
Bでは、まず書式条件の末尾部に’SPCy$’を付加する(2410)。ここで、yは[右スペース]の内容である。
次に、書式条件の冒頭に’^’または’+’が存在しなければ、冒頭に’!’を付加する(2411)。
補完情報入力部109は、以上の手続きによって得られる書式条件を返り値として、処理をキーワード情報表示部108に戻す(図23の2307)。以上が、補完情報入力部109の処理内容である。
【0051】
次に、補完情報入力部109において、文字列条件入力ボタンをクリックした際に起動する文字列条件入力部110のインタフェースを図25に示し、その処理フローを図26に示す。
文字列条件入力部110は、文字列条件においてよく用いられる文字列の入力をボタン化することにより、入力の手間を削減することを目的とする。
2501は文字列条件表示窓であり、この窓上でユーザが文字列条件の編集を行なう。
2502は文字列条件表示窓内のカーソルであり、このカーソルの位置する箇所にユーザの挿入する文字を挿入することを表す。
2503〜2508は編集ボタンであり、これらをクリックすると、それぞれ図26の表に示した処理を行なう(2602)。
このボタンでは入力できない文字、例えばNUMやSPCの後に続く文字等については、ユーザがキーボードから入力する。
2509はクリアボタンであり、ユーザがこのボタンをクリックすると、文字列条件表示窓内の内容がクリアされる(2603)。
2510は終了ボタンであり、ユーザがこのボタンをクリックすると、文字列条件入力部110は、文字列条件表示窓2501内の内容を返り値として、処理を補完情報入力部109に戻す(2604)。
以上が、文字列条件入力部110の処理内容である。
【0052】
次に、キーワード情報表示部(図1の108)において、隣接チェックボタンをクリックした際に起動する要素隣接検定部111の処理フローを図27に示し、その処理例を図28に示す。
要素隣接検定部111では、まずキーワード情報表示部108から与えられるキーワード対応要素名を読み込む(2701,例えば2801)。
次に、文字列対応要素情報(図1の103)を読み込む(2702)。
そして、全ての文字列対応要素からキーワード対応要素を差し引いた集合として、非キーワード対応要素群を求める(2703,例えば2802)。
処理2704では、文字列対応要素情報を参照して、非キーワード対応要素の後接要素中に非キーワード対応要素が存在するか否かを調べる(例えば2803)。
存在する場合には、隣接する非キーワード対応要素をユーザに提示して(2705,例えば2804)処理を終了する。
また、存在しない場合には、非キーワードが隣接しないことをユーザに提示して(2706)、処理を終了する。
以上が要素隣接検定部111の処理内容である。
【0053】
以上、本実施例に示した形態によって、キーワード抽出ルールの作成を支援することができる。
【0054】
【発明の効果】
以上のように、本発明によれば、与えられた論理構造定義から抽出した文字列対応要素間の隣接情報を用いて、キーワードとして抽出する文字列対応要素の決定を支援し、またキーワードを抽出する際のレイアウトや文字列に関する条件を、与えられた出力書式定義から抽出することにより、キーワード抽出ルールの作成に要する労力を大幅に軽減することができる。
【図面の簡単な説明】
【図1】本発明の実施例に係わるキーワード抽出ルール生成方法の概要を説明するブロック図である。
【図2】構造化文書生成の全体的な流れを示した図である。
【図3】非構造化文書の例を示した図である。
【図4】図3に示した文書に対して設定されたSGML形式の論理構造定義であるDTDを示した図である。
【図5】図4に示したDTDをツリー状に表現した図である。
【図6】図2に示した非構造化文書を、図4に示した論理構造定義に沿う構造化文書に変換した例である。
【図7】キーワード抽出ルールの例を示した図である。
【図8】図7に示したキーワード抽出ルールにおける書式条件の記述要素を示した図である。
【図9】キーワードの抽出例を示した図である。
【図10】文字列対応要素の抽出例を示した図である。
【図11】DTDをBNF記法によって記述する際の変換規則の例を示した図である。
【図12】図4のDTDをBNF記法によって記述した例である。
【図13】エレメントの冒頭に現われうる文字列対応要素を求める手続きを示した図である。
【図14】図12の論理構造定義について、各エレメントの冒頭と末尾に現われうる文字列対応要素を示した図である。
【図15】図12の論理構造定義について、文字列対応要素間の隣接関係を求める処理の例を示した図である。
【図16】文字列対応要素情報の例を示した図である。
【図17】出力書式定義の例を示した図である。
【図18】キーワードを抽出するために必要な要件項目の例を示した図である。
【図19】出力書式定義から要件項目の内容を抽出する処理の例を示した図である。
【図20】キーワード情報表示部のインタフェース例を示した図である。
【図21】キーワード情報表示部の処理フローを示した図である。
【図22】補完情報入力部のインタフェース例を示した図である。
【図23】補完情報入力部の処理フローを示した図である。
【図24】書式条件生成の処理フローを示した図である。
【図25】文字列条件入力部のインタフェースを示した図である。
【図26】文字列条件入力部の処理フローを示した図である。
【図27】要素隣接検定部の処理フローを示した図である。
【図28】要素隣接検定部の処理例を示した図である。
【符号の説明】
101 論理構造定義
102 論理構造情報抽出部
103 文字列対応要素情報
104 出力書式定義
105 出力書式情報抽出部
106 出力書式情報
107 要素隣接検定部
108 キーワード情報表示部
109 補完情報入力部
110 文字列条件入力部
201 非構造化文書
202 キーワード抽出処理
203 キーワード抽出ルール
204 論理構造認識処理
205 論理構造認識ルール
206 構造化文書
207 論理構造定義

Claims (3)

  1. 処理装置と、記憶装置と、入出力装置を備える情報処理システムにおける構造化文書生成のためのキーワード抽出ルール生成方法であって、
    前記処理装置は、
    前記記憶装置から該記憶装置に格納されている構造化対象文書に対応付けられた論理構造定義を読み込み、該論理構造定義から文字列対応要素と該文字列対応要素に後接しうる文字列対応要素を抽出し、抽出した文字列対応要素と該文字列対応要素に後接しうる文字列対応要素の対から構成される文字列対応要素情報を生成する文字列対応要素情報生成ステップと、
    前記記憶装置から該記憶装置に格納されている前記構造化対象文書に対応付けられた出力書式定義を読み込み、該出力書式定義から文書の論理構造の構成要素を出力する際のレイアウトおよび出力文字列に関する情報を抽出し、該抽出した情報のうちの前記文字列対応要素に関する情報を出力書式情報として生成する出力書式情報生成ステップと、
    前記生成した文字列対応要素情報と出力書式情報に基づいてキーワード抽出ルールを生成するキーワード抽出ルール生成ステップとを実行することを特徴とする情報処理システムにおける構造化文書生成のためのキーワード抽出ルール生成方法。
  2. 請求項1記載のキーワード抽出ルール生成方法において、
    前記キーワード抽出ルール生成ステップにおいて前記処理装置は、前記出力書式情報をキーワード抽出に必要な項目毎に入出力装置に出力することによりユーザに対して表示し、前記入出力装置によりユーザが入力した入力情報に従い、非構造化文書上の出力様式に沿うように前記出力書式情報を修正し、かつ欠如している情報を前記出力書式情報に補うことを特徴とするキーワード抽出ルール生成方法。
  3. 請求項1記載のキーワード抽出ルール生成方法において、
    前記キーワード抽出ルール生成ステップにおいて、前記入出力装置により表示された前記出力書式情報から前記論理構造の構成要素のどれをキーワードとして抽出するかをユーザが決定するとき、前記処理装置は前記文字列対応要素情報に基づき抽出すべき前記論理構造の構成要素を前記入出力装置に出力することによりユーザに対して指示、表示してユーザの決定を支援することを特徴とするキーワード抽出ルール生成方法。
JP18687796A 1996-06-28 1996-06-28 キーワード抽出ルール生成方法 Expired - Fee Related JP3724878B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP18687796A JP3724878B2 (ja) 1996-06-28 1996-06-28 キーワード抽出ルール生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP18687796A JP3724878B2 (ja) 1996-06-28 1996-06-28 キーワード抽出ルール生成方法

Publications (2)

Publication Number Publication Date
JPH1021249A JPH1021249A (ja) 1998-01-23
JP3724878B2 true JP3724878B2 (ja) 2005-12-07

Family

ID=16196253

Family Applications (1)

Application Number Title Priority Date Filing Date
JP18687796A Expired - Fee Related JP3724878B2 (ja) 1996-06-28 1996-06-28 キーワード抽出ルール生成方法

Country Status (1)

Country Link
JP (1) JP3724878B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4923413B2 (ja) * 2005-02-28 2012-04-25 富士通株式会社 情報抽出プロブラム及び方法
JP5025118B2 (ja) * 2005-10-31 2012-09-12 株式会社東芝 文書データ処理装置および文書データ処理プログラム
JP5400344B2 (ja) * 2008-10-07 2014-01-29 株式会社プロフィールド ドキュメント変換装置、およびプログラム
US9477749B2 (en) 2012-03-02 2016-10-25 Clarabridge, Inc. Apparatus for identifying root cause using unstructured data
JP5838871B2 (ja) 2012-03-14 2016-01-06 富士通株式会社 データ解析装置、データ分割装置、データ解析方法、データ分割方法、データ解析プログラム、及びデータ分割プログラム
EP2874070A4 (en) * 2012-07-12 2015-12-23 Fujitsu Ltd PROGRAM, DOCUMENT CONVERTING DEVICE AND DOCUMENT CONVERSION METHOD
CN110110164A (zh) * 2019-03-21 2019-08-09 平安普惠企业管理有限公司 字符串的解析方法、装置、计算机设备和存储介质
CN111242060B (zh) * 2020-01-17 2024-03-19 上海兑观信息科技技术有限公司 一种文档图像关键信息提取方法及系统

Also Published As

Publication number Publication date
JPH1021249A (ja) 1998-01-23

Similar Documents

Publication Publication Date Title
US6014680A (en) Method and apparatus for generating structured document
US5956726A (en) Method and apparatus for structured document difference string extraction
US20190220504A1 (en) Method and system for editing text with a find and replace function leveraging derivations of the find and replace input
JP3425408B2 (ja) 文書読取装置
EP0947931A2 (en) Document Production
JPH07325827A (ja) ハイパーテキスト自動生成装置
JP3724878B2 (ja) キーワード抽出ルール生成方法
JP4815934B2 (ja) テキストマイニング装置、テキストマイニング方法、テキストマイニングプログラム
CN107679038B (zh) 一种文本段落的抽取方法及装置
JP4373470B2 (ja) 文書変換活用システム
JPH09146931A (ja) 文書型定義生成装置
US7900136B2 (en) Structured document processing apparatus and structured document processing method, and program
JP3085383B2 (ja) 文書処理方法
CN113971044A (zh) 组件文档生成方法、装置、设备及可读存储介质
JPH09101959A (ja) 構造化文書生成装置
JP5206675B2 (ja) 構造化文書変換装置
JP3611061B2 (ja) 図形作成装置
JPH0743728B2 (ja) 要約文生成方式
WO2010035405A1 (ja) 情報処理装置
JPH10214265A (ja) 構造化文書処理装置
JP3003459B2 (ja) プログラム作成支援装置
JPH11232305A (ja) Webブラウザを利用した情報検索システム及び方法
JP2002312713A (ja) 公募申請書作成支援システムおよび公募申請書作成支援方法
JPH08263490A (ja) 法規文書更新システム
CN113609821A (zh) 一种正则表达式转换方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040109

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040210

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20040316

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040412

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050913

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050920

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees