JP3961993B2 - 文書変換装置及び文書変換方法 - Google Patents
文書変換装置及び文書変換方法 Download PDFInfo
- Publication number
- JP3961993B2 JP3961993B2 JP2003197794A JP2003197794A JP3961993B2 JP 3961993 B2 JP3961993 B2 JP 3961993B2 JP 2003197794 A JP2003197794 A JP 2003197794A JP 2003197794 A JP2003197794 A JP 2003197794A JP 3961993 B2 JP3961993 B2 JP 3961993B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- conversion
- conversion rule
- rule
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
【発明の属する技術分野】
本発明は文書変換装置及び文書変換方法に関するものである。
【0002】
【従来の技術】
近年、電子化文書の有効活用のために、文書を予めXMLなどに準拠した規定の構造で保持しておくことにより、検索や任意の部分構造の抽出など、文書の再利用に役立てようという考え方が広まってきている。
【0003】
従来、既存の任意の構造をもつ電子化文書からの、規定の構造をもつ構造化文書すなわちタグ付き文書の作成は、PerlやXSLTといったテキスト文字列処理に適したスクリプト言語を用いて、変換前文書と変換後文書間に出現している明示的な構造の対応を記述した変換スクリプトにより変換を行なったり、CやC++といった汎用の高級言語を用いて変換対象文書に特化した変換プログラムを作りこむことで実現していた。
【0004】
また、上記のような変換前文書と変換後文書の構造の対応をプログラムやスクリプトで記述することが困難な場合には、エディタを利用し人手による手作業で構造化文書の作成が行われていた。
【0005】
以下は従来の文書変換装置の一例である。
【0006】
【特許文献1】
特開2001−22740公報
【0007】
【特許文献2】
特開2002−297603公報
【0008】
【特許文献3】
特開平09−231220号公報
【0009】
【発明が解決しようとする課題】
従来のように、文書種別毎に変換プログラムやスクリプトを作りこむという手法では、プログラム作成の際に入力サンプルとして用いた文書と、実際に処理を行なう際に入力として用いた文書構造が一部でも異なった場合にはその変換動作が正しく保証されない場合があり、その場合には修正を必要とする箇所を特定するのが困難であった。
【0010】
また逆に一つのプログラムで様々な入力形式に対応を試みる場合には、入力文書における部分構造の出現条件を詳細に列挙し、さらにその出現の場合分けである分岐条件を記述しておく必要があるため、プログラムサイズが膨大となり、また変換処理自体にも膨大な時間がかかっていた。
【0011】
更にこのような変換プログラムやスクリプトを用いた変換においては、変換作業が困難な場合がある。この場合には人手による変換作業を行なうのが実情であった。
【0012】
本発明はこのような課題に着目してなされたものであり、上記の課題を克服した文書変換装置及び文書変換方法を提供することにある。
【0013】
【課題を解決するための手段】
上記の目的を達成するために、本発明の第1の態様に係る文書変換装置は、構造を持たない文書であるプレーンテキストを任意の構造をもつ構造化文書に変換可能な文書変換装置であって、入力文書の解析を行い、当該入力文書がプレーンテキストであるときに、当該プレーンテキストにXML宣言を付与することによりXML文書に形式的に変換する文書入力部と、前記形式的に変換されたXML文書と、前記任意の構造をもつ構造化文書との対応付けに関する変換ルールの記述に基いて、新たなタグの付与を含む構造の詳細化処理に関する変換ルールが規定された第1の変換ルール群と、文書中のタグ名や属性の変更を含むノードの移動・要素名の変更に関する変換ルールが規定された第2の変換ルール群と、文書中のタグや内容の削除、タグの並び替えを含む要素の削除・整合性の検証に関する変換ルールが規定された第3の変換ルール群とを含む、各々機能が異なる複数の変換ルール群のいずれかに属する変換ルールを作成する変換ルール作成部と、前記形式的に変換されたXML文書を前記任意の構造をもつ構造化文書へ変換するのに用いられる語彙を記憶した知識辞書を作成する知識辞書作成部と、前記知識辞書作成部で作成された知識辞書と、前記第1、第2、第3の変換ルール群を含む複数の変換ルール群から適宜選択された変換ルールとを用いて、前記形式的に変換されたXML文書を前記任意の構造をもつ構造化文書へ変換する文書変換実行部と、を具備する
【0014】
また、本発明の第2の態様に係る文書変換装置は、第1の態様において、前記変換ルール作成部は、前記形式的に変換された XML 文書をユーザへ提示する入力文書提示部と、前記入力文書提示部に提示された文書中の一部文書を前記ユーザが選択するための選択手段と、前記知識辞書を前記ユーザへ提示する知識辞書提示部と、前記選択手段により選択された前記一部文書の形式に一致する前記語彙を前記知識辞書の中から検索して前記知識辞書提示部に表示する知識辞書検索手段と、前記変換ルールを作成するための複数の項目を入力する画面を作成するための変換ルール入力画面作成手段と、この変換ルール入力画面作成手段により入力された複数の項目に応じて変換ルールを記録する変換ルール作成手段と、前記知識辞書検索手段により検索された語彙に応じて前記変換ルール入力画面作成手段が作成した前記画面の項目を入力する入力補助手段と、を備える。
【0015】
また、本発明の第3の態様に係る文書変換装置は、第2の態様において、前記変換ルール入力画面作成手段により作成された画面に設定されている項目から仮の変換ルールを作成する仮変換ルール作成手段と、この仮の変換ルールを用いて、前記形式的に変換された XML 文書を仮変換する文書仮変換実行部と、この仮変換した文書をユーザへ提示する仮変換文書提示部とを備える。
【0016】
また、本発明の第4の態様に係る文書変換装置は、第3の態様において、前記仮変換文書提示部は、前記仮の変換ルールにより、前記変換が適用される箇所とされない箇所とをユーザが識別可能な形態で提示する。
【0017】
また、本発明の第5の態様に係る文書変換装置は、第4の態様において、前記仮変換文書提示部は、前記仮の変換ルールの条件,文書中の語彙,出現位置,適用範囲,変換結果の内、少なくともいずれか1つを変換ルール毎に提示する。
【0018】
また、本発明の第6の態様に係る文書変換方法は、文書入力部と、変換ルール作成部と、知識辞書作成部と、文書変換実行部とを具備する文書変換装置により、構造を持たない文書であるプレーンテキストを任意の構造をもつ構造化文書に変換可能な文書変換方法であって、前記文書入力部が、入力文書の解析を行い、当該入力文書がプレーンテキストであるときに、当該プレーンテキストにXML宣言を付与することによりXML文書に形式的に変換する文書入力ステップと、前記変換ルール作成部が、前記形式的に変換された XML 文書と、前記任意の構造をもつ構造化文書との対応付けに関する変換ルールの記述に基いて、新たなタグの付与を含む構造の詳細化処理に関する変換ルールが規定された第1の変換ルール群と、文書中のタグ名や属性の変更を含むノードの移動・要素名の変更に関する変換ルールが規定された第2の変換ルール群と、文書中のタグや内容の削除、タグの並び替えを含む要素の削除・整合性の検証に関する変換ルールが規定された第3の変換ルール群とを含む、各々機能が異なる複数の変換ルール群のいずれかに属する変換ルールを作成する変換ルール作成ステップと、前記知識辞書作成部が、前記形式的に変換された XML 文書を前記任意の構造をもつ構造化文書へ変換するのに用いられる語彙を記憶した知識辞書を作成する知識辞書作成ステップと、前記文書変換実行部が、前記知識辞書作成部で作成された知識辞書と、前記第1、第2、第3の変換ルール群を含む複数の変換ルール群から適宜選択された変換ルールとを用いて、前記形式的に変換された XML 文書を前記任意の構造をもつ構造化文書へ変換する文書変換実行ステップと、を具備する。
【0019】
【発明の実施の形態】
以下、図面を参照して本発明の一実施形態を詳細に説明する。図1は本発明が適用される文書変換装置のシステム全体を示す機能ブロック図である。なお、実際のハードウェアはCPU,プログラムを記憶するROM,プログラムを記憶するために必要なRAM等により処理が行われる。本実施形態の文書変換装置は、構造をもたない文書(プレーンテキスト)または任意の構造をもつ文書を入力として受理し、ユーザ指定の構造へ変換する構造化文書変換装置であり、入力文書10を読み込む文書入力部11と、入力文書を指定の構造へ変換するための変換ルール16−2を作成する変換ルール作成部17と、変換の手掛かりとなる文書中の出現語彙を予め記載した知識辞書16−1を作成する知識辞書作成部20と、作成した変換ルール16−2と知識辞書16−1を受理し解析を行なうルール解析部13と、変換ルール16−2と知識辞書16−1の解析結果に基づき実際に入力文書10に対する変換処理を行なう文書変換実行部12と、この文書変換実行部12によって得られた結果をXML形式で出力する文書出力部14とを具備する。さらに、変換ルールの作成に関して使用される訂正情報入力部18及び仮変換結果出力部19を備えている。
【0020】
図2は、図1を用いた文書構造変換手順の概略を説明するためのフローチャートである。
【0021】
なお、次のステップS1〜ステップS3までは、ユーザが変換する前に事前に把握しておくだけの手順であり、本発明の文書変換装置が行う処理ではない。
【0022】
ユーザは入力文書10の内容を把握する(ステップS1)。次に、ユーザは手作業により目標とするXML文書(文書変換装置によって変換されて出力されるXML文書)を作成する(ステップS2)。次に、ユーザは入力文書10と目標XML文書とに含まれるデータの対応付けを行う(ステップS3)。
【0023】
このステップS1〜S3迄は、ユーザが変換ルールを作成する上で把握しておくための手順であり、ステップS1とステップS2とは順番が入れ替わってもかまわない。
【0024】
次のステップS4以降について文書変換装置による変換動作を示すフローチャートである。ステップS4およびステップS5は変換ルール作成時における文書変換装置のルール作成フェイズを示すフローチャートである。
【0025】
変換ルール作成時、変換ルール作成部17は、ユーザがキーボードやマウス等から構成された訂正情報入力部18を操作することによりステップS1の入力文書からステップS2の目標XML文書へ変換するための変換ルール16−2を作成する(ステップS4)。このとき必要に応じて知識辞書作成部20は、ユーザの操作により足りない知識辞書16−1を作成する。
【0026】
次に、ステップS1の入力文書とステップS2の目標XML文書との間で、ルール記述が可能な全ての対応付けに関して、変換ルールの記述を終了したか否かを判断する(ステップS5)。ステップS5の判断の結果がNOの場合にはステップS4に戻る。ステップS5でYESになったときにルール作成フェイズが終了することになる。これにより変換ルールは完成されたものとなる。
【0027】
ステップS6以降は、ステップS5により変換ルールが完成された後、実際に文書入力部11から入力されたステップS1の入力文書を、目標とするXML文書へ変換するときの文書変換装置の変換実行フェイズを示すフローチャートである。
【0028】
ステップS5により変換ルールが完成すると、次に、文書入力部11は入力文書10の読み込みを行う(ステップS6)。
【0029】
次に、ルール解析部13は、ステップS5で完成した変換ルール16−2及び知識辞書16−1の読み込みを行う(ステップS7)。
【0030】
次に、ルール解析部13は、ステップS7で読み込んだ変換ルール16−2及び知識辞書16−1のルール解析を行なう(ステップS8)。
【0031】
次に、文書変換実行部12は、ルール解析部13が解析したルールに基づいて文書入力部11から入力された文書を変換し、文書出力部14へ出力する(ステップS9)。
【0032】
次に文書出力部14は、文書変換実行部12から入力された変換結果を出力する(ステップS10)。以上の手順により変換実行フェイズが終了する。
【0033】
以下に、図面を参照して上記した変換手順をさらに詳細に説明する。
【0034】
なお、文書変換装置を用いた動作であるルール作成フェイズおよび変換実行フェイズについて詳細に説明する。
【0035】
ルール作成フェイズでは、まずユーザがこれから変換を行う入力文書10をユーザインタフェース等で指定することにより、入力文書10を文書入力部11へ入力する。文書入力部11は、入力された入力文書10がXML文書であれば文書入力部11内のXMLパーサにより木構造へと解析して文書変換実行部12へ出力する。また、文書入力部11は、入力文書がXML形式以外であれば、変換ルール16−2の指定に基づきXML宣言とルートノードなどを付与することによりXML文書へ形式変換した後、上記XML文書が入力である場合と同様に木構造へと解析して文書変換実行部12へ出力する。図3はhtml形式で書かれた入力文書(一部)の一例を示す図である。
【0036】
変換ルール作成部17は、図4に示すGUI(グラフィカルユーザインタフェース)を作成する機能を備え、ユーザが、作成中の変換ルールである図4(D)に示す自動生成された変換ルール表示部34と、この変換ルールを図4(A)に示す入力文書表示部30に表示された入力文書10に適用して得られる仮出力結果表示部32とを参照しながら作成中の変換ルールの変更を行なうことを可能にしている。変換ルール作成部17により作成されたGUI画面は、図4(A)〜(E)に示す通り5つの画面から構成されている。
【0037】
図4(A)は、入力文書10を表示する入力文書表示部30である。図4(B)は、知識辞書16−1の表現を表示する知識辞書表示部31である。図4(C)は、変換ルールを作成するために各項目の内容を入力するための変換ルールの各項目入力部33である。図4(D)は、現在入力されている変換ルールの各項目入力部33のデータから作成される変換ルールを表示する変換ルール表示部34である。図4(E)は、変換ルール表示部34に表示される変換ルールから作成される仮の出力結果を確認するための仮出力結果表示部32である。変換ルール記述が可能な全てについて変換ルールを作成し終え変換ルール16−2が確定すると、この仮出力結果表示部32に表示される画面は、ユーザの目的とする変換結果の文書となる。
【0038】
仮変換結果出力部19は、変換ルール作成部17により作成された上記図4(A)〜(E)に示す5つのGUI画面を表示する。
【0039】
ここで変換ルール作成部17での変換ルールの作成手順を説明する前に、まず変換ルール作成に必要となる知識辞書16−1および変換ルール16−2について先に説明を行なう。
【0040】
図5(A),(B)は知識辞書16−1の一例を示している。知識辞書16−1は文書変換の手掛かりとなる特徴的な文書中の語彙を予め保持しておくものであり、知識辞書作成部20において作成される。知識辞書16−1では、同一処理を適用したい類義語や類似表現等を階層構造の最下位に記述して定義することによって、後段で用いられる変換ルール16−2において任意の上位階層ラベルであるIDや上位概念を指定することにより、この指定したものの下位に属する類義語や類似表現に同一のルールを適用させることが可能となる。こうした目的から知識辞書は階層構造が記述できる形式であればどのような形式のものでも良く、ここでは例としてリスト形式の3階層の例(図5(A))と、これをXML形式にて記述した例(図5(B))の2つの例を示している。
【0041】
図5(A)に示すリスト形式は一行が一つの概念を示し、一行はセミコロンで区切られた10カラムからなる。各行8カラム目の内容が文書中の抽出したい表現を記載した表層表現である。ここでは正規表現を用いた記述も可能であり、第一行目の"\d"は任意の数字が該当することを意味する。すなわち"通達D-\d\d\d\d\d"であれば、文書中の"通達D-12345"や"通達D-65502"という表記と適合する。5カラム目は表層表現に対して一段高次の概念ID(jn00)、2カラム目の内容は更にその高次の概念ID(rei1)を意味する。変換ルールから任意の概念を参照する場合にはこうした概念IDを組み合わせることで指定する。図の一行目の概念を指定したい場合にはrei1.jn00という表記を行なう。
【0042】
図5(B)は上記リスト形式の内容をXML形式で記述した場合の例を示している。タグ名<exp>間に囲まれた内容が表層表現を表している。ここでもリスト形式と同様に正規表現による記述を可能とする。<exp>タグの上位に位置する要素名は、表層表現からみて一段高次の概念IDを表している。また、更に上位の要素名は更に高次の概念IDを表している。
【0043】
次に変換ルール16−2について説明する。入力文書中に変換ルール16−2が記載した条件(表層表現や要素名、部分構造など)に適合する箇所が見つかった場合に、該当する変換コマンドが実行される。
【0044】
図6は変換ルール16−2の一例を示している。変換ルール16−2は5つ組で定義され、XML形式で記述される。一つのルールは"<rule>"タグ中に記述される。まず、第一の要素として"<type>"がある。ここには図7、図8に示すようなシステム側で事前に定義された20数種類の変換コマンドと呼ばれる、要素削除や移動、広範囲タグがけ等を表現する語を内容として記述する。第二の要素"<key>"で囲まれた内容には、該当ルールが起動される手掛かりとなる条件である表層表現や要素名、文書の部分構造などを記載する。
【0045】
第三の要素"<tag>"で囲まれた内容には、ルールが適用された結果、新たに文書中に付与されるべきタグ名や部分構造などを記載する。第四の要素"<begin>"および第五の要素"<end>"の内容には変換ルール16−2の適用範囲やコマンドオプションを記載する。コマンドオプションとしては、任意の数値を指定することにより、ルールの重み付けのための確信度指定などが挙げられる。
【0046】
なお上記、各5つ組の子要素記述には、XMLの特性を用いた子要素の付加により、さらに細かな条件指定や拡張記述が可能である。
【0047】
こうして記述された"<rule>"の内容をユーザが任意に組み合わせて宣言的に記述することにより、所望の構造への文書変換を実現する。
【0048】
図9(A)、(B)は、図3に示す入力文書10に対する変換ルール16−2の一具体例を示している。
【0049】
以下に、図4および図10を参照して変換ルール16−2を作成する手順を詳細に説明する。ここでは文書中のある特定の表層表現にタグを掛けるルールを作成するものとする。 ユーザは、図示しない新規作成ボタンを押すことにより新規作成モードとする。変換ルール作成部17は、図4に示すGUI(変換ルールの各項目入力部33)を作成し、仮変換結果出力部19に表示する。ユーザは、図4(c)に示すGUI画面において、"<type>"タグの内容を埋めるために、訂正情報入力部18を操作することにより図4(c)に示すtypeのプルダウンメニューから直接タグがけのためのコマンド"direct_tagging"を選択する。この結果タグ名"<type>"の間に記述される内容が自動で補完され、この時点でのXML形式のルールが作成されて図4(c)に示す通り、"<type>direct_tagging</type>"と仮変換結果出力部19へ仮出力される。なお、このコマンド"direct_tagging"(直接タグがけ操作)とは、もし、"key"として<key>の要素の欄へ記入したIDに対応する記載があれば、これを<tag>の要素の欄へ記入したtagへ置き換えるコマンドである。
【0050】
続いてユーザは、図4(c)に示すGUI画面において、ルールの起動条件"<key>"となる表現を記述する。この記述は図4(C)に示すGUI画面の例ではテキストボックスを用いて抽出したい概念IDや表層表現を、ユーザが直接"reil.jn00"と記述する。
【0051】
この<key>要素の欄を入力するにあたり、文書変換装置がユーザ操作を次のように補助してもよい。
【0052】
ユーザは、図4(A)に示す通り、入力文書中から変換ルールを作成しようとする参照したい表現(表層表現)を選択(マーキング)する(ステップS20)。
【0053】
すると変換ルール作成部17は、当該表現に一致する表現を知識辞書16−1を参照して自動探索し、知識辞書16−1中に当該表現の記載があるか否かを判定する(ステップS21)。
【0054】
変換ルール作成部17は、ステップS21で当該表現の記載が知識辞書16−1にあれば図2(B)に示す通り表示すると共に、当該表現の階層構造にあたる上位ラベル(図4(B)の"rei1.jn00")を、図4(C)の変換ルールの各項目入力部33に示す図4(C)の<key>要素の欄へ概念IDである"reil.jn00"自動的に埋め込まれる(ステップS22)変換ルール作成部17は、ステップS21で当該表現の記載が知識辞書16−1にない場合には処理を終了する。以上のステップは図4の吹き出しに記載のステップ1.〜3.に対応するものである。
【0055】
次に、"<tag>"記述にはテキストボックス等を用いて、タグがけを行いたい要素名を記述する。またはプルダウンメニューを用いて、変換後文書に出現すべき要素名が列挙された中から選択することにより、内容の記述を行なうことも可能である。更に必要があれば"<begin>"、"<end>"の内容を記載する。これらも他要素と同様にテキストボックスなどを用いた直接記述の他、指定すべき要素内容を予めリストとして保持しておくことにより、プルダウンメニューを用いた選択操作で、要素内容を簡単に指定するようにすることも可能である。
【0056】
このようにして"<rule>"タグ中で囲まれた1つの変換ルールで必要とする要件が全て埋められた後、ユーザは図示しない保存ボタンを押すと、変換ルール作成部17は変換ルール16−2の一部の変換ルールとして保存される。
【0057】
上記の作成手順を繰り返し、変換ルール記述が可能な全てについて変換ルールを作成し終えると、変換ルール16−2はユーザの所望の変換ルールとなり完成する。
【0058】
図6は、上記手順により作成された変換ルールの一部の例である、表層表現"通達D-65502"に対し要素名"<FRONTM>"で直接タグがけを行なう変換ルールの例は図6に示すとおりである。
【0059】
図11は、図6の変換ルールを適用した変換前文書と変換後文書の部分構造例を示している。条件として該当した"通達D-65502"の箇所に<FRONTM>のタグが掛けられた例である。
【0060】
仮変換結果出力部19は、作成中の変換ルールがユーザの意図を反映したものになっているかどうかの検証を目的として、あるいは文書中における変換ルールの未適用箇所を明示的にユーザに提示するための手段を提供する。具体的にはある変換ルールによって変換が行なわれた場合に、入力および出力文書中でルールが適用された箇所である要素名や内容を、変換ルールの違いによって文字サイズや色、フォント、下線や強調などの文字装飾によって差異を明確化したり、変換箇所を矩形で囲んだり背景を網掛けにするなどの手段によって、変換箇所と変換が行なわれていない箇所に対して視覚的な差異を明確にする提示を行なう。図12(A)、(B)は変換ルール適用箇所の背景色変更の例を示している。この図12(A)は、図4(A)に示す入力文書表示部30であり、図12(B)は図4(E)に示す仮出力結果表示部32である。
【0061】
図13は、ユーザが図4(E)に示す仮出力結果表示部32を参照して、変換ルール16−2が保持している変換ルールの修正を行う手順の一例を説明するための図である。
【0062】
ユーザは、図示しない編集ボタンを押すことにより編集モードとする。この後ユーザは、図4(E)に示す仮出力結果表示部32の中から参照したい箇所(要素名)を選択する(ステップS31)。すると変換ルール作成部17は、該当する要素名を含む変換ルールを変換ルール16−2から読み出して図4(C)へ表示する(ステップS32)。このときこの変換ルールに対応する知識辞書16−1の一部も読み出して図4(B)へ表示する。次に、変換ルール作成部17は、該当要素名を含む変換ルールを編集可能な状態にする(ステップS33)。次に、ユーザは、当該変換ルールの修正作業を、変換ルール登録時と同様の操作により行う(ステップS34)。ユーザはこの修正が終わった後、図示しない保存ボタンを押す。これにより変換ルール作成部17は修正された1つの変換ルールを、変換ルール16−2の一部の変換ルールとして更新・保存する。
【0063】
さらに仮出力結果表示のバリエーションとして、図14に示すような確信度の異なる変換ルールが適用された場合に、入出力文書における変換適用箇所を、確信度の違いによって、異なる文字サイズや色、フォント等で文字修飾を施したり、矩形や網掛け種、背景色を変えて出力するなどの例が挙げられる。
【0064】
個々の変換ルールに対し、その変換ルールの属性の一つとして、変換ルールで行なわれる変換がどれほど正確で確実であるかの値をユーザが定義した確信度を定義としてもたせておくことにより、例えば変換ルールにより<SECTION>や<TITLE>タグが掛けられた部分は確信度が高いので該当タグ表示部分の背景色を白、<FRONTM>のタグはやや低いので背景色を灰色、<NOTE>や<REFERENCE>タグは確信度の低いルールでタグがけが行なわれたので背景色をより深い灰色等で出力する例があげられる。またフォントサイズの大きさでその差異を表現する場合には、例えば修正の必要が無い確信度の高いルールの適用により自動付与されたタグを文字サイズの小さいもので表示したり、確信度の低いルールが適用されて自動付与されたタグは、ユーザの修正や確認が必要となるため必大きな文字サイズで表示することにより目立ちやすくする、などの出力例が挙げられる。
【0065】
またさらに、仮出力結果表示のバリエーションとして、図15に示すように、変換の未適用箇所を色違いで出力する場合に、変換ルールが適用されず変換が行なわれない箇所において、単に要素名のみを削除したような、すなわち文書内容が全く改変されずにその内容に係る親タグのみに変化が生じた場合にも、内容が記載されている箇所には元文書の構造を反映したような視覚的な差異である背景色の違いや、文字装飾の違いによって差異を明確化する例が挙げられる。図では出力文書例の<classification-ipc>タグや<classification-national>タグで囲まれた箇所において、変換処理の結果、各行ごとに付与されていた<p>タグが除去されたという変換ルールしか適用されていないと仮定する。しかしながら、この箇所の付与はさらに正しい修正が必要であり、こうした単純なルールが適用された場合には修正候補箇所として、変換がおこなわれた箇所をユーザの目にとまりやすくする為に、背景色の違いによって該当箇所をわかりやすく表示する。
【0066】
図16(A)〜(E)は、変換ルール作成部17により作成され、仮変換結果出力部19に表示されるGUI画面を示す図であり、図4とは異なる文書が表示されている。
【0067】
仮変換結果を参照したルール編集のバリエーションとして、この図16に示すような仮出力結果表示部32の画面に対し、ユーザが既に変換ルールが適用された任意の箇所を訂正情報入力部18により指定(図4(E)の1.出力文書から参照したい箇所をマーキング)すると、変換ルール生成部17は、変換ルール表示部34にこの変換が行なわれた理由となる1つの変換ルールを変換ルール16−2から読み出して図4と同様に編集可能に提示して(2.該当する要素名を含む変換ルールへジャンプし)、ユーザによる編集を促すインターフェースを具備しても良い。
【0068】
このように仮出力結果表示部32を表示するときに変換ルールの適用が行なわれた否かを識別可能に表示することにより、視覚的効果を施すようにしても良い。この視覚的効果を施すときの文字装飾や背景色などの種別指定は、予め変換ルール作成部17に複数のテンプレートを保持しておき予めユーザが1つのテンプレート指定しておくことにより所望の視覚効果により表示するようにしても良い。また、変換ルールの中にオプションとしてテンプレートの指定を記述しておきプルダウンメニューによってテンプレート選択できるようにいても良い。そしてデフォルトで所定のテンプレートが選択されるようにすることにより、変換ルール毎に異なるテンプレートを使えると共に、テンプレートの指定をユーザが逐次選択する煩わしさを省くことが可能となる。
【0069】
文書変換実行部12は、変換ルール作成部17により作成された変換ルール16−2と、知識辞書16−1を用いたルール解析部13での解析結果とを元に入力文書10に対して文書変換を行なう。文書出力部14は、文書変換実行部12により変換された文書を外部へ出力する。
【0070】
以下に、変換ルールのグループ化について説明する。変換ルール16−2は原則として記述順にルール解析部13により解析される。しかし、記述順序に先行して、変換ルール16−2中に記載するコマンドの所属するグループ種別が優先してルール解析部13により変換処理が行なわれる。
【0071】
変換ルール(コマンド)のグループ種別とは、図17の記載例にあるように、文書変換を行なう上での変換ルール作成手順や、変換が行なわれる場合に適用されるルールの後戻りを防ぐために、変換ルールを機能別に大まかに3種(グループA,グループB,グループC)に分類したものである。グループAは構造の詳細化処理に関しており、文書中の表層表現に対して新たにタグを付与する。グループBはノードの移動・要素名の変更に関しており、文書中のタグ名や属性の変更、ノードの移動、テンプレートを用いた部分構造の変換を行う。グループCは要素の削除・整合性の検証に関しており、文書中のタグや内容の削除、あるいはタグの並び替えを行う。
【0072】
図18はグループ種別を考慮した変換の手順を説明するための図である。図18において、ルール解析部13は知識辞書16−1を読み込む(ステップS40)。次に、ルール解析部13は変換ルールを読み込む(ステップS41)。次に、文書入力部11は入力文書の解析結果を受理する(ステップS42)。次に、ルール解析部13は、入力文書をXML化する変換ルールの指定があるか否かを判断する(ステップS43)。入力文書部11はルール解析部13の結果を受け、ステップS43の判断結果がYESの場合には、変換前処理を実行(入力文書に対するXML宣言の付与を)行い(ステップS44)、この後、ステップS45に移行する。文書入力部11は、ステップS43の判断結果がNOの場合には、ただちにステップS45に移行する。
【0073】
文書変換実行部では、ステップS45ではグループAのルールによるタグ付けを行い、続いてグループBのルールによるタグ付け、グループCのルールによるタグ付けを順に行う(ステップS46、S47)。最後に文書変換実行部12は、変換結果を出力する(ステップS48)。
【0074】
図19はコマンドごとに変換ルールが適用される変換手順を示す一具体例である。図20は図19の変換を行う変換ルールの一具体例である。
【0075】
図19において、まず初めに、文書入力部11は、文書の中の1行である文書1901を文書変換実行部12へ入力する。文書変換実行部12は、文書1901に対して直接タグがけ操作のコマンドである"direct_tagging"(グループAに属する)の、図20左上欄の変換ルールおよび図20右上欄の変換ルールを適用して変換する。この結果、文書1901は、知識辞書16−1に記載のある表層表現"通達D-65502"には、タグ"<FRONTM>"およびこの内側に"<DOCNUM>"のタグが掛けられ(図19(2)の処理))、図19の文書1902に変換される。
【0076】
次に、文書変換実行部12は、文書1902に対して箇条書き数字の操作である"direct_tagging"(グループAに属する)の図20左下欄の変換ルールを適用して変換する。実際には、文書変換実行部12は、文書1902から箇条書き数字である"1.1.1"を検出し、この検出した箇条書き数字"<del>"タグを掛ける((3)の処理))。 以上でグループAに属する"direct_tagging"のコマンドは全て処理が終了する。
【0077】
次に、文書変換実行部12は、文書1903に対してグループBに属するコマンド"rename"の図20右欄中央の変換ルールを適用して変換する。実際には、文書変換実行部12は、文書1903から"<h3>"タグを検出し、この検出した"<h3>"タグを"<TITLE>"へ変更する((4)の処理))。
【0078】
次に、文書変換実行部12は、グループBに属するコマンド"move"の図20左欄中央の変換ルールを実行する。この結果、"<TITLE>"の子要素にあった"<FRONTM>"が"<TITLE>"の兄弟ノードの位置に移動し、<TITLE><FRONTM>の並列化が行われ((5)の処理))、続いてグループCに属するコマンド"delall"の図20右下欄の変換ルールを実行し、"<del>"タグが掛けられていた箇条書き番号がタグと共に削除される。この結果、文書変換実行部12からは図19の文書1905に示す変換後の文書が出力される。
【0079】
以上の変換手順によって、文書変換実行部12は所望の変換結果である図19の文書1905に示す文書を得ることができる。
【0080】
次に、変換の変形例として、任意回数タグがけの変換例を説明する。ここでは入力文書10として図21、変換ルール16−2として図22を例に説明する。文書変換実行部12は、最初にグループAに属する直接タグがけ操作である"direct_tagging"を適用する。ここでは図21の1行目に記載された表層表現である"1.主要文献"に対して事前に"direct_tagging"の処理が行なわれ、その結果、既に"<_sbunken>"タグが掛かっている文書を入力文書と仮定する。
【0081】
次に、文書変換実行部12はグループBに属するコマンドである"transform_refrain"の図22に記載の変換ルールを適用し、"<_sbunken>"の一つ親のノードを軸として、一つ隣の兄弟ノードの子要素("<begin>"タグが示す指定内容に基づく)に"<li>"タグが繰り返し出現している限り、"<li>"の記述内容を変数"$a"として取り出し"<tag>"タグで囲まれたテンプレート中の指定箇所に埋め込んだ後、これを元文書中の条件が合致した箇所と置き換えるという操作を繰り返す。なお、文書変換実行部12は、図22に示したテンプレート中で変数"$count"が記載されている箇所は、変換後に繰り返された操作回数が数値として代入する。
【0082】
図23は、この変換により文書変換実行部12から得られる変換結果を示す。入力文書10中の指定ノード"<li>"タグで囲まれていた各文献内容が抽出され、変換ルールで指定されたテンプレートへ埋め込まれた後、元文書中の該当箇所と置き換えらていることがわかる。
【0083】
次に、入力文書10としてXML文書ではなく図24に示すプレーンテキスト(構造をもたない文書)が与えられた場合の処理について説明する。この場合には、文書入力部11は、文書変換実行部12により文書変換が行なわれる前処理に相当する処理として入力文書11の解析を行い、この解析結果(例えば、プレーンテキストであると文書入力部11が解析)に基づいて図25に示す変換ルールを内部のメモリ等から読出してXML宣言等を入力文書10へ付与することにより図26に示す形式的にXML文書へと変換し、このXML文書を文書変換実行部12へ出力する。これにより文書変換実行部12は通常の変換ルール実行処理が行なわれる。なお、文書入力部11での変換ルールを用いた文書変換については、文書変換実行部12と同じ構成を持たせることで実現可能である。
【0084】
文書出力部14では、前段の文書変換実行部12の出力結果として、メモリ上に木構造形式として格納されているXML文書を受理しその結果をXML文書として出力する。
【0085】
図27は図3の入力文書に対し図9の変換ルールを適用した場合の出力文書を示している。
【0086】
なお、知識辞書16−1で保持されている文書中の出現語彙を変換ルールに記載しておくことにより、知識辞書16−1を不要にすることが可能である。
【0087】
【発明の効果】
本発明によれば、入力文書と変換ルールを受理して文書変換を行なう場合に、変換文書の種別毎に要する変換ルールの作成に伴うユーザの負担を極力抑えた上で、構造化文書の作成を行なうことが可能となる。
【図面の簡単な説明】
【図1】本発明が適用される文書変換装置のシステム全体を示すブロック図である。
【図2】図1を用いた文書構造変換手順の概略を説明するためのフローチャートである。
【図3】入力文書(一部)の一例を示す図である。
【図4】ルール作成時に用いられるGUI(グラフィカルユーザインタフェース)を示す図である。
【図5】知識辞書の一例を示す図である。
【図6】変換ルールの一例を示す図である。
【図7】変換コマンドの一例を示す図である。
【図8】変換コマンドの一例を示す図である。
【図9】図3の入力文書に対する変換ルールの一具体例を示す図である。
【図10】変換ルールを作成する手順を説明するための図である。
【図11】図6の変換ルールを適用した変換前文書と変換後文書の部分構造例を示す図である。
【図12】変換ルール適用箇所の背景色変更の例を示す図である。
【図13】仮出力結果表示を参照して、適用された変換ルールの修正を行う手順の一例を説明するための図である。
【図14】確信度の違いを反映した表示例を示す図である。
【図15】仮出力結果の表示例(タグ除去後の背景色変更)を示す図である。
【図16】仮出力結果表示を参照して、適用された変換ルールの修正を行うGUIの一例を示す図である。
【図17】変換ルール中で用いられるコマンドのグループ分けを示す図である。
【図18】グループ種別を考慮した変換の手順を説明するための図である。
【図19】コマンドごとにルールが適用される手順を示す一具体例を示す図である。
【図20】図19の変換を行う変換ルールの一具体例を示す図である。
【図21】任意回数タグがけの変換において、変換前の文書の一例を示す図である。
【図22】任意回数タグがけの変換において、変換ルールを一例を示す図である。
【図23】任意回数タグがけの変換において、変換後の文書の一例を示す図である。
【図24】入力文書の一例としてのプレーンテキストを示す図である。
【図25】図24のプレーンテキストに適用される変換ルールの一例を示す図である。
【図26】図24の入力文書に対して図25の変換ルールを適用した場合の出力文書を示す図である。
【図27】図3の入力文書に対し図9の変換ルールを適用した場合の出力文書を示す図である。
【符号の説明】
10…入力文書、11…文書入力部、12…文書変換実行部、13…ルール解析部、14…文書出力部、15…出力文書、16−1…知識辞書、16−2…変換ルール、17…変換ルール作成部、18…訂正情報入力部、19…仮変換結果出力部、20…知識辞書作成部。
Claims (6)
- 構造を持たない文書であるプレーンテキストを任意の構造をもつ構造化文書に変換可能な文書変換装置であって、
入力文書の解析を行い、当該入力文書がプレーンテキストであるときに、当該プレーンテキストにXML宣言を付与することによりXML文書に形式的に変換する文書入力部と、
前記形式的に変換されたXML文書と、前記任意の構造をもつ構造化文書との対応付けに関する変換ルールの記述に基いて、新たなタグの付与を含む構造の詳細化処理に関する変換ルールが規定された第1の変換ルール群と、文書中のタグ名や属性の変更を含むノードの移動・要素名の変更に関する変換ルールが規定された第2の変換ルール群と、文書中のタグや内容の削除、タグの並び替えを含む要素の削除・整合性の検証に関する変換ルールが規定された第3の変換ルール群とを含む、各々機能が異なる複数の変換ルール群のいずれかに属する変換ルールを作成する変換ルール作成部と、
前記形式的に変換されたXML文書を前記任意の構造をもつ構造化文書へ変換するのに用いられる語彙を記憶した知識辞書を作成する知識辞書作成部と、
前記知識辞書作成部で作成された知識辞書と、前記第1、第2、第3の変換ルール群を含む複数の変換ルール群から適宜選択された変換ルールとを用いて、前記形式的に変換されたXML文書を前記任意の構造をもつ構造化文書へ変換する文書変換実行部と、
を具備することを特徴とする文書変換装置。 - 前記変換ルール作成部は、
前記形式的に変換された XML 文書をユーザへ提示する入力文書提示部と、
前記入力文書提示部に提示された文書中の一部文書を前記ユーザが選択するための選択手段と、
前記知識辞書を前記ユーザへ提示する知識辞書提示部と、
前記選択手段により選択された前記一部文書の形式に一致する前記語彙を前記知識辞書の中から検索して前記知識辞書提示部に表示する知識辞書検索手段と、
前記変換ルールを作成するための複数の項目を入力する画面を作成するための変換ルール入力画面作成手段と、
この変換ルール入力画面作成手段により入力された複数の項目に応じて変換ルールを記録する変換ルール作成手段と、
前記知識辞書検索手段により検索された語彙に応じて前記変換ルール入力画面作成手段が作成した前記画面の項目を入力する入力補助手段と、を備えたことを特徴とする請求項1記載の文書変換装置。 - 前記変換ルール入力画面作成手段により作成された画面に設定されている項目から仮の変換ルールを作成する仮変換ルール作成手段と、
この仮の変換ルールを用いて、前記形式的に変換された XML 文書を仮変換する文書仮変換実行部と、
この仮変換した文書をユーザへ提示する仮変換文書提示部とを備えたことを特徴とする請求項2記載の文書変換装置。 - 前記仮変換文書提示部は、
前記仮の変換ルールにより、前記変換が適用される箇所とされない箇所とをユーザが識別可能な形態で提示することを特徴とする請求項3記載の文書変換装置。 - 前記仮変換文書提示部は、
前記仮の変換ルールの条件,文書中の語彙,出現位置,適用範囲,変換結果の内、少なくともいずれか1つを変換ルール毎に提示することを特徴とする請求項2記載の文書変換装置。 - 文書入力部と、変換ルール作成部と、知識辞書作成部と、文書変換実行部とを具備する文書変換装置により、構造を持たない文書であるプレーンテキストを任意の構造をもつ構造化文書に変換可能な文書変換方法であって、
前記文書入力部が、入力文書の解析を行い、当該入力文書がプレーンテキストであると きに、当該プレーンテキストにXML宣言を付与することによりXML文書に形式的に変換する文書入力ステップと、
前記変換ルール作成部が、前記形式的に変換された XML 文書と、前記任意の構造をもつ構造化文書との対応付けに関する変換ルールの記述に基いて、新たなタグの付与を含む構造の詳細化処理に関する変換ルールが規定された第1の変換ルール群と、文書中のタグ名や属性の変更を含むノードの移動・要素名の変更に関する変換ルールが規定された第2の変換ルール群と、文書中のタグや内容の削除、タグの並び替えを含む要素の削除・整合性の検証に関する変換ルールが規定された第3の変換ルール群とを含む、各々機能が異なる複数の変換ルール群のいずれかに属する変換ルールを作成する変換ルール作成ステップと、
前記知識辞書作成部が、前記形式的に変換された XML 文書を前記任意の構造をもつ構造化文書へ変換するのに用いられる語彙を記憶した知識辞書を作成する知識辞書作成ステップと、
前記文書変換実行部が、前記知識辞書作成部で作成された知識辞書と、前記第1、第2、第3の変換ルール群を含む複数の変換ルール群から適宜選択された変換ルールとを用いて、前記形式的に変換された XML 文書を前記任意の構造をもつ構造化文書へ変換する文書変換実行ステップと、
を具備することを特徴とする文書変換方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003197794A JP3961993B2 (ja) | 2003-07-16 | 2003-07-16 | 文書変換装置及び文書変換方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003197794A JP3961993B2 (ja) | 2003-07-16 | 2003-07-16 | 文書変換装置及び文書変換方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005038050A JP2005038050A (ja) | 2005-02-10 |
JP3961993B2 true JP3961993B2 (ja) | 2007-08-22 |
Family
ID=34207818
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003197794A Expired - Fee Related JP3961993B2 (ja) | 2003-07-16 | 2003-07-16 | 文書変換装置及び文書変換方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3961993B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009122933A (ja) * | 2007-11-14 | 2009-06-04 | Nec Corp | Xml文書変換の定義情報再構築装置、その方法およびプログラム |
JPWO2009157082A1 (ja) * | 2008-06-27 | 2011-12-01 | 株式会社富士通エフサス | プログラム変換処理装置およびプログラム |
CN101794282B (zh) | 2009-02-03 | 2013-11-06 | 日电(中国)有限公司 | 知识标注结果检查方法和系统 |
DE102012112900A1 (de) * | 2011-12-22 | 2013-06-27 | Fanuc Robotics America Corp. | Numerische Steuerungsprogrammausrichtung durch Roboter |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09265431A (ja) * | 1996-03-28 | 1997-10-07 | Nippon Telegr & Teleph Corp <Ntt> | ドキュメント編集方法及び装置と、ドキュメント編集装置を含むクライアント装置 |
JPH11195022A (ja) * | 1997-12-29 | 1999-07-21 | Canon Inc | 文字処理装置、文字処理方法および記録媒体 |
JP2001101184A (ja) * | 1999-10-01 | 2001-04-13 | Nippon Telegr & Teleph Corp <Ntt> | 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体 |
JP2001290801A (ja) * | 2000-02-04 | 2001-10-19 | Fujitsu Ltd | 構造文書化システム,構造文書化プログラム,及び、コンピュータ可読格納媒体 |
JP4573402B2 (ja) * | 2000-06-28 | 2010-11-04 | 大日本印刷株式会社 | 文書サーバ、文書加工システム及び記録媒体 |
JP2003058523A (ja) * | 2001-08-21 | 2003-02-28 | Nippon Telegr & Teleph Corp <Ntt> | 構造化文書の変換ルール作成方法および装置と変換ルール作成プログラムおよび該プログラムを記録した記録媒体 |
-
2003
- 2003-07-16 JP JP2003197794A patent/JP3961993B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2005038050A (ja) | 2005-02-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7912846B2 (en) | Document processing method, recording medium, and document processing system | |
JP2001243222A (ja) | 構造化文書の表示規則の生成方法、システムおよびプログラムが記録された媒体ならびに構造化文書およびその文書型定義の変更方法、システムおよびプログラムが記録された媒体 | |
US20070198915A1 (en) | Document Processing Device And Document Processing Method | |
US20070208995A1 (en) | Document Processing Device and Document Processing Method | |
US8423888B2 (en) | Document conversion and use system | |
JP3961993B2 (ja) | 文書変換装置及び文書変換方法 | |
JPH07200587A (ja) | 文書編集装置 | |
JPWO2007052680A1 (ja) | 文書処理装置及び文書処理方法 | |
JP3597940B2 (ja) | Html文書本型整形方法及びその装置 | |
US20090228678A1 (en) | Mapping definition creation system and mapping definition creation program | |
JPWO2006137564A1 (ja) | 文書処理装置 | |
JPH09245052A (ja) | 構造化文書処理装置 | |
JP5206675B2 (ja) | 構造化文書変換装置 | |
KR101905675B1 (ko) | 모듈의 구조 해석을 지원하는 장치 및 프로그램 | |
JPH09265431A (ja) | ドキュメント編集方法及び装置と、ドキュメント編集装置を含むクライアント装置 | |
JP4014065B2 (ja) | 構造化文書処理装置 | |
JP4719743B2 (ja) | グラフ処理装置 | |
JP3828499B2 (ja) | 文書編集装置、文書編集方法および文書編集プログラム | |
JP4698943B2 (ja) | プログラム生産方法、プログラム生産装置、プログラム自動変換方法、およびプログラム | |
JP4220439B2 (ja) | 構造化データ変換装置及び方法 | |
JPH07107711B2 (ja) | 文書画像の処理装置 | |
JP2000339307A (ja) | 組版装置 | |
JPH10207884A (ja) | 原稿テキスト生成処理装置 | |
JP2009059110A (ja) | 情報処理装置およびプログラム | |
CN114265916A (zh) | 文档目录的生成方法、装置、终端设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060613 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060620 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060821 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061107 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070109 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070213 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070416 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070515 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070517 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100525 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110525 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110525 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120525 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120525 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130525 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130525 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140525 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |