JP2003242167A - 構造化文書の変換ルール作成方法および装置と変換ルール作成プログラムおよび該プログラムを記録したコンピュータ読取り可能な記録媒体 - Google Patents

構造化文書の変換ルール作成方法および装置と変換ルール作成プログラムおよび該プログラムを記録したコンピュータ読取り可能な記録媒体

Info

Publication number
JP2003242167A
JP2003242167A JP2002042073A JP2002042073A JP2003242167A JP 2003242167 A JP2003242167 A JP 2003242167A JP 2002042073 A JP2002042073 A JP 2002042073A JP 2002042073 A JP2002042073 A JP 2002042073A JP 2003242167 A JP2003242167 A JP 2003242167A
Authority
JP
Japan
Prior art keywords
conversion rule
structured documents
schema
similarity
structured
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002042073A
Other languages
English (en)
Inventor
Yukiteru Chokai
幸輝 鳥海
Shiro Kasuga
史朗 春日
Nobuyuki Kobayashi
伸幸 小林
Tetsuo Sakata
哲夫 坂田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2002042073A priority Critical patent/JP2003242167A/ja
Publication of JP2003242167A publication Critical patent/JP2003242167A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 スキーマが異なる複数の構造化文書間のスキ
ーマを効率的に変換するための変換ルールを作成する構
造化文書の変換ルール作成方法および装置を提供する。 【解決手段】 複数の構造化文書間のスキーマを変換す
るための変換ルールの生成要求を変換ルール自動生成部
201においてユーザ端末100から受け取ると、この
複数の構造化文書のそれぞれのスキーマを取得し、複数
の構造化文書のそれぞれのスキーマからタグ名を抽出
し、複数の構造化文書から抽出したタグ名の各々につい
て複数の構造化文書間の各タグ名間における類似度を算
出し、各タグ名について類似度が最も高いタグ名との対
応関係を変換ルールとして追加して複数の構造化文書間
のスキーマの変換ルールを生成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、複数の構造化文書
間の異なるスキーマを変換するための変換ルールを作成
する構造化文書の変換ルール作成方法および装置に関
し、更に具体的にはスキーマが異なる例えば企業間の電
子伝票のような複数の構造化文書間のスキーマを変換す
るための変換ルールを作成する構造化文書の変換ルール
作成方法および装置と変換ルール作成プログラムおよび
該プログラムを記録したコンピュータ読取り可能な記録
媒体に関する。
【0002】
【従来の技術】例えば、企業間の電子商取引を円滑に行
うには、その電子商取引に使用される例えば電子伝票な
どの構造化文書の構造を定義しているスキーマが同じで
あることが重要であるが、各企業の構造化文書のスキー
マは各企業によって異なっていることが多い。
【0003】そこで、従来は、このようにスキーマが異
なる電子伝票などの構造化文書を流通させるために、各
構造化文書間のスキーマを変換する変換ルールを人手に
より作成し、この人手により作成された変換ルールを用
いて、例えばある企業Aの電子伝票を他の企業のBの電
子伝票に変換して、電子商取引を行っている。
【0004】
【発明が解決しようとする課題】上述した従来のスキー
マ変換方法では、人手によって変換ルールを作成してい
るため、時間とコストがかかるという問題がある。
【0005】また、今後、流通する構造化文書のスキー
マのサイズが大きくなるにつれて、変換ルールは複雑で
膨大になる可能性があり、人手では更に時間とコストが
かかるという問題がある。
【0006】そこで、このような不具合を解決するため
に、特願2001−250652号に記載されているよ
うに、同義語辞書(シソーラス)を用いてタグ名を判別
することにより変換ルールを機械的に生成し、これをユ
ーザが編集して最終的な変換ルールを作成する方法が提
案されている。
【0007】しかしながら、例えば電子商取引における
電子伝票はタグ名に「発注番号」や「商品価格」などの
ような複合語を用いている場合が多く、複合語が登録さ
れていない同義語辞書を用いて変換ルールを生成する
と、精度が非常に悪いという問題がある。
【0008】本発明は、上記に鑑みてなされたもので、
その目的とするところは、スキーマが異なる複数の構造
化文書間のスキーマを効率的に変換するための変換ルー
ルを作成する構造化文書の変換ルール作成方法および装
置と変換ルール作成プログラムおよび該プログラムを記
録したコンピュータ読取り可能な記録媒体を提供するこ
とにある。
【0009】
【課題を解決するための手段】上記目的を達成するた
め、請求項1記載の本発明は、複数の構造化文書間の異
なるスキーマを変換するための変換ルールを作成する構
造化文書の変換ルール作成方法であって、複数の構造化
文書間のスキーマを変換するための変換ルールの生成要
求を受け取って、この受け取った複数の構造化文書のそ
れぞれのスキーマを取得し、この取得した複数の構造化
文書のそれぞれのスキーマから、特定の文字列を用いて
構造を表現する部分であるタグ名を抽出し、複数の構造
化文書から抽出したタグ名の各々について複数の構造化
文書間の各タグ名間における類似度を算出し、各タグ名
について前記類似度が最も高いタグ名との対応関係を変
換ルールとして追加して複数の構造化文書間のスキーマ
の変換ルールを生成することを要旨とする。
【0010】請求項1記載の本発明にあっては、複数の
構造化文書のそれぞれのスキーマからタグ名を抽出し、
この抽出したタグ名の各々について複数の構造化文書間
の各タグ名間における類似度を算出し、各タグ名につい
て類似度が最も高いタグ名との対応関係を変換ルールと
して追加するため、従来のようにユーザがスキーマ変換
のためのルールを記述する必要がなくなり、時間および
コストを削減することができるとともに、更に従来のよ
うに複合語などのために同義語辞書に登録されていない
タグ名のために変換ルールが生成されないということが
なくなり、変換ルール生成精度を大幅に向上させること
ができ、ユーザの変換ルールの編集作業も減少し、時間
およびコストを削減することが可能となる。また、今後
流通する構造化文書のスキーマのサイズが大きくなって
も、対応可能であり、異なる構造化文書のスキーマを用
いている企業間の電子商取引を円滑に行うことを可能と
する。
【0011】また、請求項2記載の本発明は、請求項1
記載の発明において、前記類似度が、複数の構造化文書
間の、各タグ名を構成する各単語間の意味的な距離であ
るタグ名類似度に対して複数の構造化文書間のタグ名の
木構造に基づいて算出される木構造類似度を反映させた
木構造反映タグ名類似度であることを要旨とする。
【0012】請求項2記載の本発明にあっては、各タグ
名を構成する各単語間の意味的な距離であるタグ名類似
度に対して複数の構造化文書間のタグ名の木構造に基づ
いて算出される木構造類似度を反映させるため、変換ル
ール生成の精度を大幅に向上することができる。
【0013】更に、請求項3記載の本発明は、請求項1
記載の発明において、前記生成された変換ルールをユー
ザ端末に提示し、該変換ルールの確認および修正をユー
ザ端末を介してユーザに依頼し、ユーザ端末により確認
および修正された変換ルールを変換ルール蓄積装置に格
納し、この格納された変換ルールに基づき複数の構造化
文書間のスキーマの変換を行うことを要旨とする。
【0014】請求項3記載の本発明にあっては、変換ル
ールをユーザ端末に提示し、ユーザ端末より確認および
修正された変換ルールに基づき複数の構造化文書間のス
キーマの変換を行うため、ユーザは生成された変換ルー
ルの確認および修正のみを行えばよく、従来のようにす
べて人手で行うことに比較して効率的に変換ルールを作
成することができる。
【0015】請求項4記載の本発明は、複数の構造化文
書間の異なるスキーマを変換するための変換ルールを作
成する構造化文書の変換ルール作成装置であって、複数
の構造化文書間のスキーマを変換するための変換ルール
の生成要求を受け取って、この受け取った複数の構造化
文書のそれぞれのスキーマを取得するスキーマ取得手段
と、この取得した複数の構造化文書のそれぞれのスキー
マから、特定の文字列を用いて構造を表現する部分であ
るタグ名を抽出するタグ名抽出手段と、複数の構造化文
書から抽出したタグ名の各々について複数の構造化文書
間の各タグ名間における類似度を算出する類似度算出手
段と、各タグ名について前記類似度が最も高いタグ名と
の対応関係を変換ルールとして追加して複数の構造化文
書間のスキーマの変換ルールを生成する変換ルール生成
手段とを有することを要旨とする。
【0016】請求項4記載の本発明にあっては、複数の
構造化文書のそれぞれのスキーマからタグ名を抽出し、
この抽出したタグ名の各々について複数の構造化文書間
の各タグ名間における類似度を算出し、各タグ名につい
て類似度が最も高いタグ名との対応関係を変換ルールと
して追加するため、従来のようにユーザがスキーマ変換
のためのルールを記述する必要がなくなり、時間および
コストを削減することができるとともに、更に従来のよ
うに複合語などのために同義語辞書に登録されていない
タグ名のために変換ルールが生成されないということが
なくなり、変換ルール生成精度を大幅に向上させること
ができ、ユーザの変換ルールの編集作業も減少し、時間
およびコストを削減することが可能となる。また、今後
流通する構造化文書のスキーマのサイズが大きくなって
も、対応可能であり、異なる構造化文書のスキーマを用
いている企業間の電子商取引を円滑に行うことを可能と
する。
【0017】また、請求項5記載の本発明は、請求項4
記載の発明において、前記類似度算出手段が、複数の構
造化文書間の、各タグ名を構成する各単語間の意味的な
距離であるタグ名類似度を算出するタグ名類似度算出手
段と、前記タグ名類似度に対してタグ名の木構造を反映
させるための、複数の構造化文書間のタグ名の木構造に
基づく木構造類似度を算出する木構造類似度手段とを有
することを要旨とする。
【0018】請求項5記載の本発明にあっては、各タグ
名を構成する各単語間の意味的な距離であるタグ名類似
度に対して複数の構造化文書間のタグ名の木構造に基づ
いて算出される木構造類似度を反映させるため、変換ル
ール生成の精度を大幅に向上することができる。
【0019】更に、請求項6記載の本発明は、請求項4
記載の発明において、前記生成された変換ルールをユー
ザ端末に提示し、該変換ルールの確認および修正をユー
ザ端末を介してユーザに依頼する変換ルール確認修正手
段と、ユーザ端末により確認および修正された変換ルー
ルを格納する変換ルール蓄積装置と、この格納された変
換ルールに基づき複数の構造化文書間のスキーマの変換
を行うスキーマ変換手段とを有することを要旨とする。
【0020】請求項6記載の本発明にあっては、変換ル
ールをユーザ端末に提示し、ユーザ端末より確認および
修正された変換ルールに基づき複数の構造化文書間のス
キーマの変換を行うため、ユーザは生成された変換ルー
ルの確認および修正のみを行えばよく、従来のようにす
べて人手で行うことに比較して効率的に変換ルールを作
成することができる。
【0021】請求項7記載の本発明は、複数の構造化文
書間の異なるスキーマを変換するための変換ルールを作
成する構造化文書の変換ルール作成プログラムであっ
て、複数の構造化文書間のスキーマを変換するための変
換ルールの生成要求を受け取って、この受け取った複数
の構造化文書のそれぞれのスキーマを取得し、この取得
した複数の構造化文書のそれぞれのスキーマから、特定
の文字列を用いて構造を表現する部分であるタグ名を抽
出し、複数の構造化文書から抽出したタグ名の各々につ
いて複数の構造化文書間の各タグ名間における類似度を
算出し、各タグ名について前記類似度が最も高いタグ名
との対応関係を変換ルールとして追加して複数の構造化
文書間のスキーマの変換ルールを生成することを要旨と
する。
【0022】請求項7記載の本発明にあっては、複数の
構造化文書のそれぞれのスキーマからタグ名を抽出し、
この抽出したタグ名の各々について複数の構造化文書間
の各タグ名間における類似度を算出し、各タグ名につい
て類似度が最も高いタグ名との対応関係を変換ルールと
して追加するため、従来のようにユーザがスキーマ変換
のためのルールを記述する必要がなくなり、時間および
コストを削減することができるとともに、更に従来のよ
うに複合語などのために同義語辞書に登録されていない
タグ名のために変換ルールが生成されないということが
なくなり、変換ルール生成精度を大幅に向上させること
ができ、ユーザの変換ルールの編集作業も減少し、時間
およびコストを削減することが可能となる。また、今後
流通する構造化文書のスキーマのサイズが大きくなって
も、対応可能であり、異なる構造化文書のスキーマを用
いている企業間の電子商取引を円滑に行うことを可能と
する。
【0023】また、請求項8記載の本発明は、複数の構
造化文書間の異なるスキーマを変換するための変換ルー
ルを作成する構造化文書の変換ルール作成プログラムを
記録したコンピュータ読取り可能な記録媒体であって、
複数の構造化文書間のスキーマを変換するための変換ル
ールの生成要求を受け取って、この受け取った複数の構
造化文書のそれぞれのスキーマを取得し、この取得した
複数の構造化文書のそれぞれのスキーマから、特定の文
字列を用いて構造を表現する部分であるタグ名を抽出
し、複数の構造化文書から抽出したタグ名の各々につい
て複数の構造化文書間の各タグ名間における類似度を算
出し、各タグ名について前記類似度が最も高いタグ名と
の対応関係を変換ルールとして追加して複数の構造化文
書間のスキーマの変換ルールを生成する構造化文書の変
換ルール作成プログラムをコンピュータ読取り可能な記
録媒体に記録することを要旨とする。
【0024】請求項8記載の本発明にあっては、複数の
構造化文書のそれぞれのスキーマからタグ名を抽出し、
この抽出したタグ名の各々について複数の構造化文書間
の各タグ名間における類似度を算出し、各タグ名につい
て類似度が最も高いタグ名との対応関係を変換ルールと
して追加する構造化文書の変換ルール作成プログラムを
記録媒体に記録しているため、該記録媒体を用いて、そ
の流通性を高めることができる。
【0025】
【発明の実施の形態】以下、図面を用いて本発明の実施
の形態を説明する。図1は、本発明の一実施形態に係る
構造化文書の変換ルール作成方法を実施するシステムの
構成を示すブロック図である。なお、本発明では、機械
的に変換ルールを求める作業を「生成」と称し、これを
ユーザが修正する作業を「編集」と称し、変換ルールを
「生成」した後、ユーザが編集して変換ルールを最終的
に確定する作業を「作成」と称する。
【0026】図1に示すシステム200は、企業Aの構
造化文書とそのスキーマAが記憶されているデータベー
ス300Aと企業Bの構造化文書とそのスキーマBが記
憶されているデータベース300Bに接続されている
が、ユーザ端末100から例えば企業Aのスキーマに従
った構造化文書を企業Bのスキーマに従った構造化文書
に変換するためのスキーマの変換ルールの生成要求を受
け取ると、企業Aのデータベース300Aから企業Aの
構造化文書のスキーマAを取得するとともに、企業Bの
データベース300Bから企業Bの構造化文書のスキー
マBを取得し、この取得したスキーマAおよびBに基づ
き例えば企業Aのスキーマに従った構造化文書を企業B
のスキーマに従った構造化文書に変換するための変換ル
ールを作成するものであり、変換ルール自動生成部20
1、タグ名称評価装置202、概念ベース203、木構
造評価装置204、変換ルール編集部205、変換ルー
ル蓄積装置206、および変換部207から構成されて
いる。
【0027】変換ルール自動生成部201は、ユーザ端
末100から変換ルール生成要求を受け取って、企業A
のデータベース300Aから構造化文書のスキーマAお
よび企業Bのデータベース300Bから構造化文書のス
キーマBを取得して変換ルールを生成し、この変換ルー
ルを変換ルール編集部205に渡す機能を有する。な
お、変換ルールとは、個々のタグ名の対応関係の集合で
ある。
【0028】タグ名称評価装置202は、変換ルールを
生成する場合に、タグ名を構成する複合語を単語に分割
し、タグ名間の意味的な距離であるタグ名類似度を求め
る機能を有する。概念ベース203は、タグ名を構成す
る単語間の意味的な距離であるタグ名類似度を求めるた
めに参照される辞書である。木構造評価装置204は、
評価関数を用いて、タグ名である要素間の木構造に基づ
く類似性、すなわち木構造類似度を求める機能を有す
る。
【0029】変換ルール編集部205は、変換ルール自
動生成部201から渡された変換ルールに対してユーザ
端末100においてユーザが確認を行い、修正箇所があ
る場合、ユーザ端末100からの指示に従い変換ルール
を編集する機能を有する。変換ルール蓄積装置206
は、変換ルール編集部205においてユーザ端末100
からの指示により編集した変換ルールを蓄積する。
【0030】変換部207は、変換ルール蓄積装置20
6に蓄積された変換ルールに基づいて企業Aの構造化文
書のスキーマAを企業Bの構造化文書のスキーマBに変
換することにより、企業Aと企業B間で構造化文書を流
通させる機能を有する。
【0031】次に、図2〜図4に示すフローチャートに
基づくとともに、図5〜図14を参照しながら図1に示
す実施形態の作用について説明する。
【0032】なお、本実施形態では、スキーマの定義に
XML(Extensible Markup Language:W3Cによって
規格化)のDTD(Document Type Definition)を用
い、構造化文書にはXMLインスタンス(DTDに従っ
て実際にタグ付き文書が記述される部分)を用いる。
【0033】本実施形態では、企業Aのデータベース3
00Aに記憶されているXML電子伝票である発注書A
のスキーマAと企業Bのデータベース300Bに記憶さ
れている発注書BのスキーマBから変換ルールを作成
し、発注書AのXMLインスタンスを発注書Bのスキー
マBに従ったXMLインスタンスに変換する場合につい
て説明する。
【0034】また、本実施形態では、企業Aは例えばコ
ンピュータ製造メーカ、企業Bはコンピュータ周辺企業
メーカとし、企業Aと企業Bは新たに電子商取引を開始
する予定であり、XML電子伝票を流通させるために、
企業AのXMLのスキーマと企業BのXMLのスキーマ
から変換ルールを作成したいという変換ルール生成要求
がユーザ端末100から変換ルール自動生成部201に
行われたものとする。
【0035】まず、図2に示すように、ユーザ端末10
0はスキーマの変換を行いたいXML電子伝票である発
注書Aのスキーマと発注書Bのスキーマ、およびこれら
を格納している企業Aのデータベース300Aと企業B
のデータベース300Bを指定しながら、発注書Aのス
キーマに従ったXMLインスタンスを発注書Bのスキー
マに従ったXMLインスタンスに変換するための変換ル
ールの生成を要求する変換ルール生成要求をシステム2
00に行い、システム200において変換ルール自動生
成部201がユーザ端末100からの変換ルール生成要
求を受け取る(図2のステップS100)。この場合に
指定された発注書Aのスキーマの例を図5に示し、発注
書Bのスキーマの例を図6に示す。
【0036】変換ルール自動生成部201は、ユーザ端
末100からの変換ルール生成要求に応答して、データ
ベース300Aから図5に示す発注書Aである構造化文
書のスキーマを取得するとともに、またデータベース3
00Bから図6に示す発注書Bである構造化文書のスキ
ーマを取得する(図2のステップS200)。
【0037】次に、変換ルール自動生成部201は、こ
のように取得した発注書Aのスキーマと発注書Bのスキ
ーマを用いて、変換ルールを生成するが(図2のステッ
プS300)、この変換ルールの生成について図3に示
すフローチャートを参照して詳細に説明する。
【0038】図3に示すフローチャートに従って、変換
ルールの生成について説明するに当たり図3で使用され
ている用語についての説明をする。図3において、Sは
発注書Aである変換元の構造化文書のスキーマを示し、
Tは発注書Bである変換先の構造化文書のスキーマを示
す。
【0039】また、要素sおよびtは、構造化文書のス
キーマにおいて特定の文字列を用いて構造を表現する部
分であるタグ名を示し、例えば図5、図6では発注書、
発注番号、注文番号、年月日、注文数などであり、要素
sはスキーマSの要素であり、要素tはスキーマTの要
素である。そして、末端要素は、子要素を持たない要素
であり、例えば図5、図6に示すスキーマの例では、後
述する図7からよくわかるように、発注番号、年月日、
注文数などであり、また中間要素は子要素を持つ要素で
あり、図7からわかる例では、子要素として発注者氏名
や発注者連絡先などを持つ発注者である。
【0040】lsim(s,t)はタグ名称評価装置2
02によって算出されるスキーマSの要素sとスキーマ
Tの要素tのタグ名間の意味的な距離であるタグ名類似
度である。この場合、タグ名が複合語である場合には、
複合語を単語に分割し、この分割された単語間の意味的
な距離であるタグ名類似度を概念ベース203を参照し
て求め、これにより複合語を用いたタグ名でも変換ルー
ルの生成を可能としている。なお、lsimはlinguist
ic similarity coefficientsの略であり、タグ名類似度
lsim(s,t)は0〜1の値を取る。
【0041】cssim(s,t)は、木構造評価装置
204において評価関数を用いて算出されるスキーマS
の中間要素sとスキーマTの中間要素tが持つ子要素集
合同士の類似度である。なお、cssimはchild set
similarity coefficientsの略であり、子要素類似度c
ssim(s,t)は0〜1の値を取る。
【0042】wsim(s,t)は、スキーマSの要素
sとスキーマTの要素tのタグ名類似度lsim(s,
t)に木構造に基づく類似度を反映させた類似度であ
り、wsimはweighted similarity coefficientsの略
であり、木構造反映タグ名類似度wsim(s,t)は
0〜1の値を取る。
【0043】タグ名である要素間の木構造に基づく木構
造類似度は、木構造評価装置204において評価関数を
用いて算出されるが、この木構造に基づく類似度の判断
は、下記のように行われる。
【0044】(1)中間要素と中間要素は、それらのタ
グ名が似ているか、それらの直下の子要素同士が似てい
るものが多ければ類似していると判断する。
【0045】(2)末端要素と中間要素の変換は存在し
ない。すなわち、末端要素は値を持つが子要素を持た
ず、また中間要素は値を持たないが子要素を持つという
ように末端要素と中間要素は性質が全く異なるため、こ
れらの変換は存在しない。
【0046】(3)末端要素と末端要素はそれらのタグ
名が似ていれば類似していると判断する。すなわち、末
端要素は子要素を持たないため、考慮されるのは結果的
にタグ名の類似性のみである。
【0047】そこで、木構造反映タグ名類似度wsim
(s,t)の演算に当たっては、(1)要素sと要素t
が共に末端要素である場合1と、(2)要素sと要素t
の一方が末端要素で一方が中間要素である場合2と、
(3)上記以外、すなわち要素sと要素tが共に中間要
素である場合3とに分けて、木構造反映タグ名類似度w
sim(s,t)の演算を行う。そして、要素sから見
て、最も木構造反映タグ名類似度wsim(s,t)が
高い要素tとの対応関係を変換ルールとして追加する。
【0048】図3に戻って、変換ルールの生成処理につ
いて説明する。図3では、まずスキーマSの要素sとス
キーマTの要素tにそれぞれ識別子s1 ,s2 ,s3
…,sn およびt1 ,t2 ,t3 ,…,tn を付与し、 S={s1 ,s2 ,s3 ,…,sn} T={t1 ,t2 ,t3 ,…,tn} とする(ステップS301)。なお、この識別子は、子
要素よりも親要素の方が後になるように付与される。
【0049】構造化文書のスキーマは、図7に示すよう
に表現可能であるが、図7はこのように表現されたスキ
ーマSの各要素sとスキーマTの各要素tに対して識別
子を付与した結果を併せて図示しているものである。同
図からわかるように、例えば発注番号は識別子としてs
1 を付与されているが、この発注番号を子要素として有
する親要素に当たる発注書には識別子s1 よりも後の番
号の識別子s11 が付与されている。
【0050】次に、スキーマSの要素sとスキーマTの
要素tの組合せにおいて、総当たりのマトリックスを作
成する(ステップS302)。図8は、このように作成
されたマトリックスを示しているものであり、縦方向に
スキーマSの各要素sが羅列され、横方向にスキーマT
の各要素tが羅列されている。
【0051】次に、マトリックスの配列要素(s,t)
に値、すなわち木構造反映タグ名類似度wsim(s,
t)が格納されていない要素sと要素tの1つの組合せ
を取り出す(ステップS303)。そして、この取り出
した要素sと要素tの組合せにより上述した場合分けを
行うために、すなわち前記場合1,2または3への場合
分けを行うために、まず要素sと要素tが共に末端要素
であるか否かの判定を行う(ステップS304)。
【0052】この判定の結果、要素sと要素tが共に末
端要素である場合(場合1)には、ステップS305に
進み、タグ名称評価装置202により要素sと要素tの
タグ名類似度lsim(s,t)を算出し、このタグ名
類似度lsim(s,t)を木構造反映タグ名類似度w
sim(s,t)として設定または格納する(wsim
(s,t)=lsim(s,t))。そして、この木構
造反映タグ名類似度wsim(s,t)の演算結果をマ
トリックスの配列要素(s,t)として格納する(ステ
ップS309)。図9は、マトリックスの配列要素(s
1 ,t1)に木構造反映タグ名類似度wsim(s,
t)の演算結果を格納した結果を示している。なお、こ
の場合、要素s1 と要素t1 は共に末端要素であるた
め、木構造反映タグ名類似度wsim(s,t)=タグ
名類似度lsim(s,t)=0.67602となって
いる。
【0053】また、ステップS304の判定において、
要素sと要素tが共に末端要素でない場合には、ステッ
プS306に進み、要素sと要素tの一方が末端要素で
あり、他方が中間要素であるか否かを判定する。この判
定の結果、要素sと要素tの一方が末端要素であり、他
方が中間要素である場合には(場合2)、上述した木構
造に基づく類似度の判断に基づき木構造反映タグ名類似
度wsim(s,t)として0を設定または格納する
(ステップS307)(wsim(s,t)=0)。そ
して、この木構造反映タグ名類似度wsim(s,t)
である0をマトリックスの配列要素(s,t)として格
納する(ステップS309)。
【0054】また、ステップS306の判定において、
要素sと要素tの一方が末端要素であり、他方が中間要
素である組合せでない場合、すなわち要素sと要素tが
共に中間要素である場合には(場合3)、タグ名類似度
lsim(s,t)と子要素類似度cssim(s,
t)を算出し、このタグ名類似度lsim(s,t)と
子要素類似度cssim(s,t)を加重平均した値を
木構造反映タグ名類似度wsim(s,t)として設定
または格納する(ステップS308)。
【0055】すなわち、木構造反映タグ名類似度wsi
m(s,t)は、wsim(s,t)=k・lsim
(s,t)+(k−1)・cssim(s,t)のよう
に加重平均される。ここで、kは木構造反映タグ名類似
度wsim(s,t)と子要素類似度cssim(s,
t)の加重平均を行う場合にそれらの重み付けを行う定
数であり、0〜1の値を取る。なお、本実施形態では、
kは0.5を用いている。
【0056】また、子要素類似度cssim(s,t)
の算出においては、まず要素sの子要素s′=
{s′1 ,s′2 ,…,s′n}と要素tの子要素t′
={t′1 ,t′2 ,…,t′m}の排他的な組合せを
求める。それから、このように得られたすべての排他的
な組合せの中で、各対応関係の木構造反映タグ名類似度
wsim(s′,t′)を平均した値が最大なものが子
要素類似度cssim(s,t)となる。
【0057】そして、上述したように算出された木構造
反映タグ名類似度wsim(s,t)をマトリックスの
配列要素(s,t)として格納する(ステップS30
9)。
【0058】次に、ステップS310に進み、マトリッ
クスのすべての配列要素に木構造反映タグ名類似度ws
im(s,t)の演算結果を格納したか否かを判定する
(ステップS310)。マトリックスのすべての配列要
素に木構造反映タグ名類似度wsim(s,t)が格納
されていない場合には、ステップS303に戻り、マト
リックスのすべての配列要素に木構造反映タグ名類似度
wsim(s,t)が格納されるまで、同じ処理を繰り
返すが、マトリックスのすべての配列要素に木構造反映
タグ名類似度wsim(s,t)が格納されている場合
には、次のステップS311に進む。
【0059】図10は、マトリックスのすべての配列要
素に対して木構造反映タグ名類似度wsim(s,t)
が格納された結果を図示しているものである。
【0060】ステップS311では、図10に示したよ
うに木構造反映タグ名類似度wsim(s,t)が格納
されたマトリックスにおいて、要素sから見て、最も木
構造反映タグ名類似度wsim(s,t)が高い要素t
との対応関係を変換ルールとして追加する。すなわち、
図10において、斜線を施した部分が要素sから見て、
最も木構造反映タグ名類似度wsim(s,t)の値が
高い要素tとの組合せである。
【0061】それから、すべての要素sに対して要素t
との対応関係を変換ルールとして追加したか否かを判定
し(ステップS312)、まだ追加していないものがあ
る場合には、ステップS311に戻って、すべての要素
sに対して要素tとの対応関係を変換ルールとして追加
するまで同じ処理を繰り返し行い、すべての要素sに対
して要素tとの対応関係を変換ルールとして追加した場
合に、変換ルールの生成処理を終了する。このようにし
て生成された変換ルールは、図11に示すように、例え
ば企業Aの発注書Aの発注番号が企業Bの発注書Bの注
文番号に対応するという変換ルールとなる。
【0062】次に、上述したように生成された変換ルー
ルに対してユーザによるユーザ端末100を介した編集
が変換ルール編集部205によって行われる(図2のス
テップS400)。すなわち、図11は上述したように
生成された変換ルールを示しているが、この変換ルール
をユーザがユーザ端末100を介して確認し、修正箇所
があった場合、変換ルールを訂正して編集を行う。
【0063】この変換ルールの編集処理について図4に
示すフローチャートを参照して詳しく説明する。図4で
は、図11に示すように先の処理で作成された変換ルー
ルをユーザがユーザ端末100から確認し、この変換ル
ールに間違いがあるか否かを判定する(ステップS40
1)。間違いがない場合には、本処理をそのまま終了す
るが、間違いがある場合には、その変換ルールの間違い
をユーザ端末100から修正する(ステップS40
2)。図11に示す変換ルールでは、「数量」=「商品
番号」となっていて、両者の対応関係は間違っているの
で、「数量」=「注文数」と修正される。
【0064】それから、まだ間違いがあるか否かを判定
し(ステップS403)、まだ間違いがある場合には、
ステップS402に戻って、変換ルールの修正がすべて
終了するまで同じ処理を繰り返し行い、変換ルールに間
違いがなくなると、本処理を終了する。このようにして
編集された変換ルールが図12に示されているが、この
図12では、上述した編集により、「数量」=「注文
数」に修正されている。
【0065】上述したようにユーザ端末100を用いた
ユーザによる変換ルールの編集が終了すると、次にこの
ように編集された変換ルールを変換ルール蓄積装置20
6に格納する(図2のステップS500)。
【0066】以上のようにして、変換ルールが変換ルー
ル蓄積装置206に格納されると、次に変換ルール蓄積
装置206に格納されている変換ルールを用いて、構造
化文書のスキーマSを構造化文書のスキーマTに変換
し、スキーマの変換された構造化文書が得られることに
なる(図2のステップS600)。
【0067】具体的に説明すると、発注書Aのスキーマ
に従って記述された企業Aのデータベース300Aに格
納されている例えば図13に示すようなXMLインスタ
ンスに対して、変換ルール蓄積装置206に格納されて
いる変換ルールを用いて、図6に示す発注書Bのスキー
マに従ったXMLインスタンスに変換すると、図14に
示すようにスキーマの変換された発注書AのXMLイン
スタンスが得られる。
【0068】なお、図13に示すXMLインスタンスを
図6に示す発注書Bのスキーマに従ったXMLインスタ
ンスに変換することを想定した場合、特願2001−2
50652号に記載されている従来の手法では、変換ル
ールが生成されるのは同義語辞書(シソーラス)に登録
されている<製品>=<商品>の対応関係のみであり、
変換ルール生成の精度PをP=正しい対応関係を合計し
た数/全対応関係数とすると、前記従来の手法の変換ル
ール生成の精度P1は P1=1/11≒0.1 であるのに対して、本発明の方法では変換ルール生成の
精度P2は P2=10/11≒0.9 となり、精度が約80%向上した。これにより本発明の
方法では、従来の手法に比較して、更に時間およびコス
トを削減することが可能となる。
【0069】なお、上記実施形態の構造化文書の変換ル
ール作成方法の処理手順をプログラムとして例えばCD
やFDなどの記録媒体に記録して、この記録媒体をコン
ピュータシステムに組み込んだり、または記録媒体に記
録されたプログラムを通信回線を介してコンピュータシ
ステムにダウンロードしたり、または記録媒体からイン
ストールし、該プログラムでコンピュータシステムを作
動させることにより、構造化文書の変換ルール作成方法
を実施する変換ルール作成装置として機能させることが
できることは勿論であり、このような記録媒体を用いる
ことにより、その流通性を高めることができるものであ
る。
【0070】
【発明の効果】以上説明したように、本発明によれば、
複数の構造化文書のそれぞれのスキーマから抽出したタ
グ名の各々について複数の構造化文書間の各タグ名間に
おける類似度を算出し、各タグ名について類似度が最も
高いタグ名との対応関係を変換ルールとして追加するの
で、従来のようにユーザがスキーマ変換のためのルール
を記述する必要がなくなり、時間およびコストを削減す
ることができることは勿論のこと、更に従来のように複
合語などのために同義語辞書に登録されていないタグ名
のために変換ルールが生成されないということがなくな
り、変換ルール生成精度を大幅に向上させることがで
き、ユーザの変換ルールの編集作業も減少し、時間およ
びコストを削減することが可能となる。また、今後流通
する構造化文書のスキーマのサイズが大きくなっても、
対応可能であり、異なる構造化文書のスキーマを用いて
いる企業間の電子商取引を円滑に行うことを可能とす
る。
【0071】また、本発明によれば、各タグ名を構成す
る各単語間の意味的な距離であるタグ名類似度に対して
複数の構造化文書間のタグ名の木構造に基づいて算出さ
れる木構造類似度を反映させるので、変換ルール生成の
精度を大幅に向上することができる。
【0072】更に、本発明によれば、変換ルールをユー
ザ端末に提示し、ユーザ端末より確認および修正された
変換ルールに基づき複数の構造化文書間のスキーマの変
換を行うので、ユーザは生成された変換ルールの確認お
よび修正のみを行えばよく、従来のようにすべて人手で
行うことに比較して効率的に変換ルールを作成すること
ができる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る構造化文書の変換ル
ール作成方法を実施するシステムの構成を示すブロック
図である。
【図2】図1に示すシステムの全体的作用を示すフロー
チャートである。
【図3】図2に示すフローチャートのステップS300
における変換ルールの生成処理を示すフローチャートで
ある。
【図4】図2に示すフローチャートのステップS400
における変換ルールの編集処理を示すフローチャートで
ある。
【図5】企業Aのデータベースに格納されている発注書
Aのスキーマの例を示す図である。
【図6】企業Bのデータベースに格納されている発注書
Bのスキーマの例を示す図である。
【図7】構造化文書のスキーマを表現した図であり、各
スキーマの各要素に対して識別子を付与した例を示して
いる。
【図8】各スキーマの各要素の組合せで総当たりのマト
リックスを示す図である。
【図9】図8に示すマトリックスの1つの配列要素(s
1 ,t1)に対して木構造反映タグ名類似度wsim
(s,t)の値を格納した結果を示す図である。
【図10】図8に示すマトリックスのすべての配列要素
に対して木構造反映タグ名類似度wsim(s,t)の
値を格納した結果を示す図である。
【図11】図1の実施形態において生成された変換ルー
ルを示す図である。
【図12】図11に示した変換ルールに対してユーザに
よる編集が行われた結果の変換ルールを示す図である。
【図13】発注書Aのスキーマに従ったXMLインスタ
ンスの例を示す図である。
【図14】スキーマの変換された発注書AのXMLイン
スタンスを示す図である。
【符号の説明】
100 ユーザ端末 201 変換ルール自動生成部 202 タグ名称評価装置 203 概念ベース 204 木構造評価装置 205 変換ルール編集部 206 変換ルール蓄積装置 207 変換部 300A 企業Aのデータベース 300B 企業Bのデータベース
───────────────────────────────────────────────────── フロントページの続き (72)発明者 小林 伸幸 東京都千代田区大手町二丁目3番1号 日 本電信電話株式会社内 (72)発明者 坂田 哲夫 東京都千代田区大手町二丁目3番1号 日 本電信電話株式会社内 Fターム(参考) 5B075 ND03 ND34 NK32 QM08 5B082 GA02

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 複数の構造化文書間の異なるスキーマを
    変換するための変換ルールを作成する構造化文書の変換
    ルール作成方法であって、 複数の構造化文書間のスキーマを変換するための変換ル
    ールの生成要求を受け取って、この受け取った複数の構
    造化文書のそれぞれのスキーマを取得し、 この取得した複数の構造化文書のそれぞれのスキーマか
    ら、特定の文字列を用いて構造を表現する部分であるタ
    グ名を抽出し、 複数の構造化文書から抽出したタグ名の各々について複
    数の構造化文書間の各タグ名間における類似度を算出
    し、 各タグ名について前記類似度が最も高いタグ名との対応
    関係を変換ルールとして追加して複数の構造化文書間の
    スキーマの変換ルールを生成することを特徴とする構造
    化文書の変換ルール作成方法。
  2. 【請求項2】 前記類似度は、複数の構造化文書間の、
    各タグ名を構成する各単語間の意味的な距離であるタグ
    名類似度に対して複数の構造化文書間のタグ名の木構造
    に基づいて算出される木構造類似度を反映させた木構造
    反映タグ名類似度であることを特徴とする請求項1記載
    の構造化文書の変換ルール作成方法。
  3. 【請求項3】 前記生成された変換ルールをユーザ端末
    に提示し、該変換ルールの確認および修正をユーザ端末
    を介してユーザに依頼し、 ユーザ端末により確認および修正された変換ルールを変
    換ルール蓄積装置に格納し、 この格納された変換ルールに基づき複数の構造化文書間
    のスキーマの変換を行うことを特徴とする請求項1記載
    の構造化文書の変換ルール作成方法。
  4. 【請求項4】 複数の構造化文書間の異なるスキーマを
    変換するための変換ルールを作成する構造化文書の変換
    ルール作成装置であって、 複数の構造化文書間のスキーマを変換するための変換ル
    ールの生成要求を受け取って、この受け取った複数の構
    造化文書のそれぞれのスキーマを取得するスキーマ取得
    手段と、 この取得した複数の構造化文書のそれぞれのスキーマか
    ら、特定の文字列を用いて構造を表現する部分であるタ
    グ名を抽出するタグ名抽出手段と、 複数の構造化文書から抽出したタグ名の各々について複
    数の構造化文書間の各タグ名間における類似度を算出す
    る類似度算出手段と、 各タグ名について前記類似度が最も高いタグ名との対応
    関係を変換ルールとして追加して複数の構造化文書間の
    スキーマの変換ルールを生成する変換ルール生成手段と
    を有することを特徴とする構造化文書の変換ルール作成
    装置。
  5. 【請求項5】 前記類似度算出手段は、 複数の構造化文書間の、各タグ名を構成する各単語間の
    意味的な距離であるタグ名類似度を算出するタグ名類似
    度算出手段と、 前記タグ名類似度に対してタグ名の木構造を反映させる
    ための、複数の構造化文書間のタグ名の木構造に基づく
    木構造類似度を算出する木構造類似度手段とを有するこ
    とを特徴とする請求項4記載の構造化文書の変換ルール
    作成装置。
  6. 【請求項6】 前記生成された変換ルールをユーザ端末
    に提示し、該変換ルールの確認および修正をユーザ端末
    を介してユーザに依頼する変換ルール確認修正手段と、 ユーザ端末により確認および修正された変換ルールを格
    納する変換ルール蓄積装置と、 この格納された変換ルールに基づき複数の構造化文書間
    のスキーマの変換を行うスキーマ変換手段とを有するこ
    とを特徴とする請求項4記載の構造化文書の変換ルール
    作成装置。
  7. 【請求項7】 複数の構造化文書間の異なるスキーマを
    変換するための変換ルールを作成する構造化文書の変換
    ルール作成プログラムであって、 複数の構造化文書間のスキーマを変換するための変換ル
    ールの生成要求を受け取って、この受け取った複数の構
    造化文書のそれぞれのスキーマを取得し、 この取得した複数の構造化文書のそれぞれのスキーマか
    ら、特定の文字列を用いて構造を表現する部分であるタ
    グ名を抽出し、 複数の構造化文書から抽出したタグ名の各々について複
    数の構造化文書間の各タグ名間における類似度を算出
    し、 各タグ名について前記類似度が最も高いタグ名との対応
    関係を変換ルールとして追加して複数の構造化文書間の
    スキーマの変換ルールを生成することを特徴とする構造
    化文書の変換ルール作成プログラム。
  8. 【請求項8】 複数の構造化文書間の異なるスキーマを
    変換するための変換ルールを作成する構造化文書の変換
    ルール作成プログラムを記録したコンピュータ読取り可
    能な記録媒体であって、 複数の構造化文書間のスキーマを変換するための変換ル
    ールの生成要求を受け取って、この受け取った複数の構
    造化文書のそれぞれのスキーマを取得し、 この取得した複数の構造化文書のそれぞれのスキーマか
    ら、特定の文字列を用いて構造を表現する部分であるタ
    グ名を抽出し、 複数の構造化文書から抽出したタグ名の各々について複
    数の構造化文書間の各タグ名間における類似度を算出
    し、 各タグ名について前記類似度が最も高いタグ名との対応
    関係を変換ルールとして追加して複数の構造化文書間の
    スキーマの変換ルールを生成することを特徴とする構造
    化文書の変換ルール作成プログラムを記録したコンピュ
    ータ読取り可能な記録媒体。
JP2002042073A 2002-02-19 2002-02-19 構造化文書の変換ルール作成方法および装置と変換ルール作成プログラムおよび該プログラムを記録したコンピュータ読取り可能な記録媒体 Pending JP2003242167A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002042073A JP2003242167A (ja) 2002-02-19 2002-02-19 構造化文書の変換ルール作成方法および装置と変換ルール作成プログラムおよび該プログラムを記録したコンピュータ読取り可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002042073A JP2003242167A (ja) 2002-02-19 2002-02-19 構造化文書の変換ルール作成方法および装置と変換ルール作成プログラムおよび該プログラムを記録したコンピュータ読取り可能な記録媒体

Publications (1)

Publication Number Publication Date
JP2003242167A true JP2003242167A (ja) 2003-08-29

Family

ID=27782297

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002042073A Pending JP2003242167A (ja) 2002-02-19 2002-02-19 構造化文書の変換ルール作成方法および装置と変換ルール作成プログラムおよび該プログラムを記録したコンピュータ読取り可能な記録媒体

Country Status (1)

Country Link
JP (1) JP2003242167A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005309970A (ja) * 2004-04-23 2005-11-04 Junichi Fukuda 区分割当て装置、区分割当て方法、及びプログラム
WO2007119567A1 (ja) * 2006-03-31 2007-10-25 Justsystems Corporation 文書処理装置および文書処理方法
JP2008192039A (ja) * 2007-02-07 2008-08-21 Nippon Telegr & Teleph Corp <Ntt> 管理情報自動変換装置、そのプログラム及び方法
JP2009122933A (ja) * 2007-11-14 2009-06-04 Nec Corp Xml文書変換の定義情報再構築装置、その方法およびプログラム
JP2009211599A (ja) * 2008-03-06 2009-09-17 Hitachi Ltd マッピング定義作成システムおよびマッピング定義作成プログラム
WO2012063451A1 (ja) * 2010-11-09 2012-05-18 日本電気株式会社 情報処理装置
US10437857B2 (en) 2012-07-10 2019-10-08 Fujitsu Limited Mapping device, mapping method, and recording medium
CN113407610A (zh) * 2021-06-30 2021-09-17 北京百度网讯科技有限公司 信息抽取方法、装置、电子设备和可读存储介质
CN116776854A (zh) * 2023-08-25 2023-09-19 湖南汇智兴创科技有限公司 在线多版本文献内容关联方法、装置、设备及介质

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005309970A (ja) * 2004-04-23 2005-11-04 Junichi Fukuda 区分割当て装置、区分割当て方法、及びプログラム
WO2007119567A1 (ja) * 2006-03-31 2007-10-25 Justsystems Corporation 文書処理装置および文書処理方法
JP4878624B2 (ja) * 2006-03-31 2012-02-15 株式会社ジャストシステム 文書処理装置および文書処理方法
JP2008192039A (ja) * 2007-02-07 2008-08-21 Nippon Telegr & Teleph Corp <Ntt> 管理情報自動変換装置、そのプログラム及び方法
JP2009122933A (ja) * 2007-11-14 2009-06-04 Nec Corp Xml文書変換の定義情報再構築装置、その方法およびプログラム
JP2009211599A (ja) * 2008-03-06 2009-09-17 Hitachi Ltd マッピング定義作成システムおよびマッピング定義作成プログラム
WO2012063451A1 (ja) * 2010-11-09 2012-05-18 日本電気株式会社 情報処理装置
JP5761200B2 (ja) * 2010-11-09 2015-08-12 日本電気株式会社 情報処理装置
US10437857B2 (en) 2012-07-10 2019-10-08 Fujitsu Limited Mapping device, mapping method, and recording medium
CN113407610A (zh) * 2021-06-30 2021-09-17 北京百度网讯科技有限公司 信息抽取方法、装置、电子设备和可读存储介质
CN113407610B (zh) * 2021-06-30 2023-10-24 北京百度网讯科技有限公司 信息抽取方法、装置、电子设备和可读存储介质
CN116776854A (zh) * 2023-08-25 2023-09-19 湖南汇智兴创科技有限公司 在线多版本文献内容关联方法、装置、设备及介质
CN116776854B (zh) * 2023-08-25 2023-11-03 湖南汇智兴创科技有限公司 在线多版本文献内容关联方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
US7349911B2 (en) Data processing method and apparatus
US8250469B2 (en) Document layout extraction
US20080262994A1 (en) Populating requests to multiple destinations using a mass request
US20040230569A1 (en) Method and apparatus for information transformation and exchange in a relational database environment
US7469378B2 (en) Layout system, layout program, and layout method
JP2003150586A (ja) 文書変換システム、文書変換方法及び文書変換プログラムを記録したコンピュータ読み取り可能な記録媒体
US20170364981A1 (en) Brand-Based Product Management
EP1870821A1 (en) Structured data conversion method
JP2001306654A (ja) 様々な形式の内容を出版するためのリポジトリ
JP2003242167A (ja) 構造化文書の変換ルール作成方法および装置と変換ルール作成プログラムおよび該プログラムを記録したコンピュータ読取り可能な記録媒体
JP2003058523A (ja) 構造化文書の変換ルール作成方法および装置と変換ルール作成プログラムおよび該プログラムを記録した記録媒体
US7093195B2 (en) Standards-based formatting of flat files into markup language representations
WO2003067470A1 (fr) Appareil de delivrance de documents, appareil de reception de documents, procede de delivrance de documents, programme de delivrance de documents et systeme de delivrance de documents
JP5634374B2 (ja) 仕様作成支援装置、及び、プログラム
CN117194615B (zh) 企业合规数据处理方法及平台
US9405749B2 (en) Methods and data structures for improved searchable formatted documents including citation and corpus generation
CN113297856B (zh) 文档翻译方法、装置及电子设备
JP4072293B2 (ja) データ処理方法及び装置及び記憶媒体
CN111858938B (zh) 一种裁判文书标签的提取方法及装置
JP4072285B2 (ja) データ処理方法及び装置及び記憶媒体
US20030191770A1 (en) System and method for formatting, proofreading and annotating information to be printed in directories
JP5198149B2 (ja) 情報処理装置、プログラム、及び保険商品約款生成方法
JP4072284B2 (ja) データ処理方法及び装置及び記憶媒体
KR102629150B1 (ko) Ocr 수행 시 문서 구조화 태그를 활용한 표가 포함된복잡한 구조의 문서 인식으로 데이터셋을 구축하는 방법
JP2003281123A (ja) 電子申請書作成ツール及び電子申請書作成方法並びに電子申請書作成プログラム