JP2005267566A - 構造化文書作成装置及び構造化文書作成方法 - Google Patents

構造化文書作成装置及び構造化文書作成方法 Download PDF

Info

Publication number
JP2005267566A
JP2005267566A JP2004083093A JP2004083093A JP2005267566A JP 2005267566 A JP2005267566 A JP 2005267566A JP 2004083093 A JP2004083093 A JP 2004083093A JP 2004083093 A JP2004083093 A JP 2004083093A JP 2005267566 A JP2005267566 A JP 2005267566A
Authority
JP
Japan
Prior art keywords
color
color mark
mark
character string
tag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004083093A
Other languages
English (en)
Inventor
Takeshi Kusaka
武 日下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2004083093A priority Critical patent/JP2005267566A/ja
Publication of JP2005267566A publication Critical patent/JP2005267566A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)
  • Document Processing Apparatus (AREA)
  • Editing Of Facsimile Originals (AREA)

Abstract

【課題】 予め文字レイアウトを識別するルールを作成することなく、書式が複雑な文書でも構造化文書を作成することができる構造化文書作成装置及び構造化文書作成方法を得ることを目的とする。
【解決手段】 カラーマークが塗り込まれた透明セロハンBを走査して、カラーマークのマーク色を解析するとともに、そのカラーマークの塗り込み位置を解析するカラーマーク解析部5を設け、非構造化文書Aを走査して、そのカラーマーク解析部5により解析されたカラーマークの塗り込み位置に対応する文字列を抽出し、そのカラーマークのマーク色に対応するタグを文字列に付加する。
【選択図】 図1

Description

この発明は、非構造化文書の文字レイアウトを解析して構造化文書を作成する構造化文書作成装置及び構造化文書作成方法に関するものである。
従来の構造化文書作成装置は、非構造化文書をスキャンし、その非構造化文書のレイアウトに応じて構造化タグを付与するようにしている。
即ち、従来の構造化文書作成装置は、予め、文字レイアウトに対応するルールを作成し、そのルールにしたがって非構造化文書の文字列に構造化タグを付与する(例えば、特許文献1,2参照)。
特開平11−238053号公報(段落番号[0023]から[0042]、図1) 特開平10−49522号公報(段落番号[0022]から[0050]、図1)
従来の構造化文書作成装置は以上のように構成されているので、予め、文字レイアウトに対応するルールを作成すれば、非構造化文書の文字列に構造化タグを付与して構造化文書を作成することができる。しかし、例えば、カタログなどの文書は見栄えを重視して作成されるため様々な文字レイアウトが存在し、数多くの文字レイアウトを識別するルールを作成するには、多くの時間と手間を要するなどの課題があった。
この発明は上記のような課題を解決するためになされたもので、予め文字レイアウトを識別するルールを作成することなく、書式が複雑な文書でも構造化文書を作成することができる構造化文書作成装置及び構造化文書作成方法を得ることを目的とする。
この発明に係る構造化文書作成装置は、透明セロハンを走査して、カラーマークのマーク色を解析するとともに、そのカラーマークの塗り込み位置を解析するカラーマーク解析手段を設け、非構造化文書を走査して、そのカラーマーク解析手段により解析されたカラーマークの塗り込み位置に対応する文字列を抽出し、そのカラーマークのマーク色に対応するタグを文字列に付加するようにしたものである。
この発明によれば、透明セロハンを走査して、カラーマークのマーク色を解析するとともに、そのカラーマークの塗り込み位置を解析するカラーマーク解析手段を設け、非構造化文書を走査して、そのカラーマーク解析手段により解析されたカラーマークの塗り込み位置に対応する文字列を抽出し、そのカラーマークのマーク色に対応するタグを文字列に付加するように構成したので、予め文字レイアウトを識別するルールを作成することなく、書式が複雑な文書でも構造化文書を作成することができる効果がある。
実施の形態1.
図1はこの発明の実施の形態1による構造化文書作成装置を示す構成図であり、図において、マンマシンI/F1は例えばキーボードやマウスなどから構成され、ユーザが各種のマーク色に対応するタグを設定する際に使用する。設定受付部2はユーザによるマンマシンI/F1の操作内容を入力して、各種のマーク色に対応するタグの設定を受け付ける処理を実施する。メモリ3は各種のマーク色に対応するタグなどを格納する。
なお、マンマシンI/F1、設定受付部2及びメモリ3から設定受付手段が構成されている。
イメージスキャナ4は非構造化文書Aに記述されている文字列や、透明セロハンBに塗り込まれているカラーマークの読込処理を実施する。
カラーマーク解析部5はイメージスキャナ4が透明セロハンBに塗り込まれているカラーマークの読込処理を実施すると、そのカラーマークのマーク色を解析するとともに、そのカラーマークの塗り込み位置を解析し、その解析結果をメモリ3に格納する。
なお、イメージスキャナ4及びカラーマーク解析部5からカラーマーク解析手段が構成されている。
文字列抽出部6はイメージスキャナ4が非構造化文書Aに記述されている文字列の読込処理を実施すると、カラーマーク解析部5により解析されたカラーマークの塗り込み位置に対応する文字列を抽出する。
タグ付加部7はメモリ3を参照して、カラーマーク解析部5により解析されたカラーマークのマーク色に対応するタグを取得し、そのカラーマークの塗り込み位置に対応する文字列に当該タグを付加する。
なお、イメージスキャナ4、文字列抽出部6及びタグ付加部7からタグ付加手段が構成されている。
なお、この実施の形態1では、設定受付部2、カラーマーク解析部5、文字列抽出部6及びタグ付加部7が、専用のハードウェア(例えば、各種のIC集積回路が搭載され、コンピュータのスロットに挿入可能な基板)から構成されるものを想定しているが、構造化文書作成装置がコンピュータから構成される場合、設定受付部2、カラーマーク解析部5、文字列抽出部6及びタグ付加部7の処理内容が記述されたプログラムをコンピュータのメモリに格納し、そのコンピュータのCPUが当該プログラムを実行するようにしてもよい。
図2はこの発明の実施の形態1による構造化文書作成方法を示すフローチャートである。
次に動作について説明する。
最初に、構造化対象の文書である非構造化文書Aと同一サイズの透明セロハンBを用意し、図3に示すように、ユーザが非構造化文書Aの上に透明セロハンBを重ね合わせる(ステップST1)。
次に、ユーザは、図4に示すように、透明セロハンBに写っている非構造化文書Aにおける識別対象の文字列毎に、異なる色のカラーマークの塗り込みを行う(ステップST2)。
即ち、ユーザは、例えば、非構造化文書Aにおける章見出しは赤色、節見出しは青色、節内の文章は黄色などのように決定し、章見出し、節見出しや節内の文章を色分けする。
この際、ユーザは構造化文書作成装置のマンマシンI/F1を操作して、章見出しに対応するタグ名、節見出しに対応するタグ名、節内の文章に対応するタグ名を入力する。
設定受付部2は、ユーザによるマンマシンI/F1の操作内容を入力し、各種のマーク色に対応するタグ名の設定を受け付けて、その設定内容をメモリ3に格納する(ステップST3)。
図5は各種のマーク色に対応するタグ名を示す説明図である。図5の例では、赤色に対応するタグ名は<t1>、青色に対応するタグ名は<t2>、黄色に対応するタグ名は<t3>に設定している。
次に、ユーザは、上記のようにして、カラーマークを塗り込んだ透明セロハンBをイメージスキャナ4にセットする。
これにより、イメージスキャナ4は、透明セロハンBに塗り込まれているカラーマークの読込処理を実施し、その読込結果であるイメージデータをカラーマーク解析部5に出力する(ステップST4)。
カラーマーク解析部5は、イメージスキャナ4から透明セロハンBに塗り込まれているカラーマークの読込結果であるイメージデータを受けると、そのイメージデータを参照して、透明セロハンBに塗り込まれている各カラーマークのマーク色を解析するとともに、各カラーマークの塗り込み位置を解析し、その解析結果をメモリ3に格納する(ステップST5)。
なお、カラーマークの塗り込み位置として、例えば、透明セロハンBの左端からカラーマークの塗り込み開始位置までの距離XL1〜XL3や、カラーマークの塗り込み終了位置から透明セロハンBの右端までの距離XR1〜XR3などを解析している(図6を参照)。
ユーザは、カラーマーク解析部5が各カラーマークのマーク色と塗り込み位置を解析すると、非構造化文書Aをイメージスキャナ4にセットする。
これにより、イメージスキャナ4は、非構造化文書Aに記述されている文字列の読込処理を実施し、その読込結果であるイメージデータを文字列抽出部6に出力する(ステップST6)。
文字列抽出部6は、イメージスキャナ4から文字列の読込結果であるイメージデータを受けると、そのイメージデータを参照して、非構造化文書Aに記述されている各文字列の記述位置を解析する(ステップST7)。
なお、文字列の記述位置として、例えば、非構造化文書Aの左端から文字列の先頭位置までの距離GL1〜GL3や、文字列の後尾位置から非構造化文書Aの右端までの距離GR1〜GR3などを解析している(図7を参照)。
そして、文字列抽出部6は、非構造化文書Aに記述されている各文字列の記述位置と、メモリ3に格納されている各カラーマークの塗り込み位置とを比較し、各カラーマークの塗り込み位置に対応する文字列を抽出する(ステップST8)。
即ち、左端から先頭位置までの距離と、左端から塗り込み開始位置までの距離とが一致し、かつ、後尾位置から右端までの距離と、塗り込み終了位置から右端までの距離とが一致している文字列とカラーマークの組み合わせを検出する。
図8の例では、章見出しである文字列M1と赤色のカラーマークとが対応し、節見出しである文字列M2と青色のカラーマークとが対応し、節内の文章である文字列M3と黄色のカラーマークとが対応している。
タグ付加部7は、文字列抽出部6が各カラーマークの塗り込み位置に対応する文字列を抽出すると、図9に示すように、非構造化文書Aに記述されている各文字列に連番を付与する(ステップST9)。
そして、タグ付加部7は、メモリ3を参照して、カラーマーク解析部5により解析されたカラーマークのマーク色に対応するタグを取得し、そのカラーマークの塗り込み位置に対応する文字列に当該タグを付加することにより、構造化文書Cを作成する(ステップST10)。
即ち、タグ付加部7は、図10に示すように、章見出しである文字列M1にはタグ名が<t1>のタグを付与し、節見出しである文字列M2にはタグ名が<t2>のタグを付与し、節内の文章である文字列M3にはタグ名が<t3>のタグを付与する。
以上で明らかなように、この実施の形態1によれば、カラーマークが塗り込まれた透明セロハンBを走査して、カラーマークのマーク色を解析するとともに、そのカラーマークの塗り込み位置を解析するカラーマーク解析部5を設け、非構造化文書Aを走査して、そのカラーマーク解析部5により解析されたカラーマークの塗り込み位置に対応する文字列を抽出し、そのカラーマークのマーク色に対応するタグを文字列に付加するように構成したので、予め文字レイアウトを識別するルールを作成することなく、書式が複雑な文書でも構造化文書を作成することができる効果を奏する。
また、この実施の形態1によれば、ユーザによるマンマシンI/F1の操作内容を入力して、各種のマーク色に対応するタグの設定を受け付ける設定受付部2を設けたので、ユーザが所望のタグを非構造化文書Aに記述されている各文字列に付与することができる効果を奏する。
実施の形態2.
上記実施の形態1では、カラーマークが塗り込まれた透明セロハンBを走査して、カラーマークのマーク色と塗り込み位置を解析するものについて示したが、カラーマークが塗り込まれた非構造化文書Aの複写文書Dを走査して、そのカラーマークのマーク色と塗り込み位置を解析するようにしてもよい。
図11はこの発明の実施の形態2による構造化文書作成方法を示すフローチャートである。
次に動作について説明する。
最初に、構造化対象の文書である非構造化文書Aを複写して、その複写文書Dを用意する(ステップST11)。
次に、ユーザは、図4に示すように、複写文書Dにおける識別対象の文字列毎に、異なる色のカラーマークの塗り込みを行う(ステップST12)。
即ち、ユーザは、例えば、複写文書Dにおける章見出しは赤色、節見出しは青色、節内の文章は黄色などのように決定し、章見出し、節見出しや節内の文章を色分けする。
この際、ユーザは構造化文書作成装置のマンマシンI/F1を操作して、章見出しに対応するタグ名、節見出しに対応するタグ名、節内の文章に対応するタグ名を入力する。
設定受付部2は、ユーザによるマンマシンI/F1の操作内容を入力し、各種のマーク色に対応するタグ名の設定を受け付けて、その設定内容をメモリ3に格納する(ステップST13)。
図5は各種のマーク色に対応するタグ名を示す説明図である。図5の例では、赤色に対応するタグ名は<t1>、青色に対応するタグ名は<t2>、黄色に対応するタグ名は<t3>に設定している。
次に、ユーザは、上記のようにして、カラーマークを塗り込んだ複写文書Dをイメージスキャナ4にセットする。
これにより、イメージスキャナ4は、複写文書Dに塗り込まれているカラーマークの読込処理を実施し、その読込結果であるイメージデータをカラーマーク解析部5に出力する(ステップST14)。
カラーマーク解析部5は、イメージスキャナ4から複写文書Dに塗り込まれているカラーマークの読込結果であるイメージデータを受けると、そのイメージデータを参照して、複写文書Dに塗り込まれている各カラーマークのマーク色を解析するとともに、各カラーマークの塗り込み位置を解析し、その解析結果をメモリ3に格納する(ステップST15)。
なお、カラーマークの塗り込み位置として、例えば、複写文書Dの左端からカラーマークの塗り込み開始位置までの距離XL1〜XL3や、カラーマークの塗り込み終了位置から複写文書Dの右端までの距離XR1〜XR3などを解析している(図6を参照)。
ユーザは、カラーマーク解析部5が各カラーマークのマーク色と塗り込み位置を解析すると、非構造化文書Aをイメージスキャナ4にセットする。
これにより、イメージスキャナ4は、非構造化文書Aに記述されている文字列の読込処理を実施し、その読込結果であるイメージデータを文字列抽出部6に出力する(ステップST16)。
文字列抽出部6は、イメージスキャナ4から文字列の読込結果であるイメージデータを受けると、そのイメージデータを参照して、非構造化文書Aに記述されている各文字列の記述位置を解析する(ステップST17)。
なお、文字列の記述位置として、例えば、非構造化文書Aの左端から文字列の先頭位置までの距離GL1〜GL3や、文字列の後尾位置から非構造化文書Aの右端までの距離GR1〜GR3などを解析している(図7を参照)。
そして、文字列抽出部6は、非構造化文書Aに記述されている各文字列の記述位置と、メモリ3に格納されている各カラーマークの塗り込み位置とを比較し、各カラーマークの塗り込み位置に対応する文字列を抽出する(ステップST18)。
即ち、左端から先頭位置までの距離と、左端から塗り込み開始位置までの距離とが一致し、かつ、後尾位置から右端までの距離と、塗り込み終了位置から右端までの距離とが一致している文字列とカラーマークの組み合わせを検出する。
図8の例では、章見出しである文字列M1と赤色のカラーマークとが対応し、節見出しである文字列M2と青色のカラーマークとが対応し、節内の文章である文字列M3と黄色のカラーマークとが対応している。
タグ付加部7は、文字列抽出部6が各カラーマークの塗り込み位置に対応する文字列を抽出すると、図9に示すように、非構造化文書Aに記述されている各文字列に連番を付与する(ステップST19)。
そして、タグ付加部7は、メモリ3を参照して、カラーマーク解析部5により解析されたカラーマークのマーク色に対応するタグを取得し、そのカラーマークの塗り込み位置に対応する文字列に当該タグを付加することにより、構造化文書Cを作成する(ステップST20)。
即ち、タグ付加部7は、図10に示すように、章見出しである文字列M1にはタグ名が<t1>のタグを付与し、節見出しである文字列M2にはタグ名が<t2>のタグを付与し、節内の文章である文字列M3にはタグ名が<t3>のタグを付与する。
以上で明らかなように、この実施の形態2によれば、カラーマークが塗り込まれた複写文書Dを走査して、カラーマークのマーク色を解析するとともに、そのカラーマークの塗り込み位置を解析するカラーマーク解析部5を設け、非構造化文書Aを走査して、そのカラーマーク解析部5により解析されたカラーマークの塗り込み位置に対応する文字列を抽出し、そのカラーマークのマーク色に対応するタグを文字列に付加するように構成したので、予め文字レイアウトを識別するルールを作成することなく、書式が複雑な文書でも構造化文書を作成することができる効果を奏する。
また、この実施の形態2によれば、ユーザによるマンマシンI/F1の操作内容を入力して、各種のマーク色に対応するタグの設定を受け付ける設定受付部2を設けたので、ユーザが所望のタグを非構造化文書Aに記述されている各文字列に付与することができる効果を奏する。
実施の形態3.
上記実施の形態1,2では、非構造化文書Aにおける文字列を、章見出し、節見出し、あるいは、節内の文章に識別してタグを付加するものについて示したが、識別対象はこれらに限るものではなく、例えば、図面や表のタイトルなどを識別してタグを付加するようにしてもよい。
また、節内の文章も1種類に限るものではなく、2種類以上の文章を区別するようにしてもよい。章見出しや節見出しも同様に、1種類に限るものではなく、2種類以上の章見出し等を区別するようにしてもよい。
また、上記実施の形態1,2では、左端から先頭位置までの距離と、左端から塗り込み開始位置までの距離とが一致し、かつ、後尾位置から右端までの距離と、塗り込み終了位置から右端までの距離とが一致している文字列とカラーマークの組み合わせを検出するものについて示したが、文字列とカラーマークの組み合わせの検出処理は、これに限るものではなく、他の検出処理を実施するようにしてもよい。
例えば、左端から先頭位置までの距離と、左端から塗り込み開始位置までの距離とが一致している文字列とカラーマークの組み合わせを検出し、後尾位置から右端までの距離と、塗り込み終了位置から右端までの距離との一致を判別しないようにしてもよい。
この場合、識別対象の文字列を字下げ幅だけで識別することになるため、書式が比較的簡単な文書に限られるが、後尾位置から右端までの距離と、塗り込み終了位置から右端までの距離との一致を判別しないで済むため、処理の簡単化と高速化を図ることができる効果を奏する。
実施の形態4.
上記実施の形態1〜3では、非構造化文書Aから抽出した文字列の記述位置とカラーマークの塗り込み位置とを比較して、その記述位置と塗り込み位置が一致する文字列とカラーマークの組み合わせを検出するものについて示したが、例えば、イメージスキャナ4に対する非構造化文書Aのセット具合と、イメージスキャナ4に対する透明セロハンB又は複写文書Dのセット具合との相違などを起因にして、本来的には対応する文字列とカラーマークの位置が完全には一致しないことがある。
そこで、この実施の形態4では、イメージスキャナ4の読込処理時に位置ズレなどが発生しても、文字列とカラーマークの対応付けを可能にするため、次のようにしている。
即ち、タグ付加部7は、非構造化文書Aから抽出した文字列の記述位置と一致するカラーマークの塗り込み位置がメモリ3に格納されていない場合、その塗り込み位置が文字列の記述位置に最も近いカラーマークを当該文字列と対応付けるようにする。
例えば、左端から先頭位置までの距離がGL1である文字列に対して、左端から塗り込み開始位置までの距離がGL1に一致するカラーマークが存在しない場合において、下記に示すように、距離GL1に最も近い塗り込み開始位置までの距離がXL1であれば、塗り込み開始位置までの距離がXL1であるカラーマークを当該文字列と対応付けるようにする。
|GD1−XL1|=K1
|GD1−XL2|=K2
|GD1−XL3|=K3
K1<K2<K3
以上で明らかなように、この実施の形態4によれば、非構造化文書Aから抽出した文字列の記述位置と一致するカラーマークの塗り込み位置が存在しない場合、その塗り込み位置が文字列の記述位置に最も近いカラーマークを当該文字列と対応付けるように構成したので、仮に、イメージスキャナ4の読込処理時に位置ズレなどが発生しても、文字列とカラーマークの対応付けを行うことができる効果を奏する。
実施の形態5.
上記実施の形態1〜4では、カラーマーク解析部5が透明セロハンBや複写文書Dに塗り込まれているカラーマークのマーク色や塗り込み位置を解析するものについて示したが、図13に示すように、カラーマークの形状を解析するようにしてもよい。
この場合、文字列抽出部6は、イメージスキャナ4から出力されたイメージデータを参照して、非構造化文書Aに記述されている文字列を囲んでいる吹き出しや表などの枠の形状を検出し、その枠の形状に一致するカラーマークの形状を検出するようにする。
ただし、形状の検出処理は、特に問うものではなく、公知の形状検出処理を利用すればよい。形状の検出処理は、本発明の主眼ではないので、説明を省略する。
これにより、形状が一致するカラーマークのマーク色に対応するタグを当該文字列に付加することができるので、吹き出しや表などの枠の中に文字列が挿入されているような複雑な書式の文書であっても、そのような文字列にタグを付加して構造化文書Cを作成することができる効果を奏する。
図12に示すように、上記枠に対応するカラーマークのマーク色が緑色であり、上記枠に対応するカラーマークのタグ名が<t4>であれば、例えば、図14の非構造化文書Aに記述されている文字列には、図15のような連番が付与されたのち、図16のようなタグが付加される。
実施の形態6.
上記実施の形態1〜5では、イメージスキャナ4が非構造化文書Aを1回だけ読込処理を行うものについて示したが、その読込結果であるイメージデータの精度を高めるため、複数回読込処理を行うようにしてもよい。
この場合、文字列抽出部6は、イメージスキャナ4から出力される複数のイメージデータを相互に比較する。
イメージスキャナ4による読取エラーなどが発生していなければ、複数のイメージデータは同一であるが、何らかの原因で一部の文字を正確に読み取ることができず、文字化けしていると、複数のイメージデータが相互に異なる結果となる。
具体的には、文字列抽出部6は、例えば、イメージスキャナ4から3回分のイメージデータを受けると、3回分のイメージデータを相互に比較する。
そして、2回分のイメージデータが同一であり、1回分のイメージデータが異なる場合には、多数決により、2回分のイメージデータを正規のイメージデータとして採用し、以後、そのイメージデータを参照して、非構造化文書Aに記述されている各文字列の記述位置を解析するようにする。
以上で明らかなように、この実施の形態6によれば、非構造化文書Aの読込処理を複数回実施し、複数の読込結果が相互に異なる場合、多数決を実施して複数の読込結果を統一するように構成したので、非構造化文書Aを1回だけ読込処理を行う場合より、その読込結果であるイメージデータの精度を高めることができる効果を奏する。
この発明の実施の形態1による構造化文書作成装置を示す構成図である。 この発明の実施の形態1による構造化文書作成方法を示すフローチャートである。 非構造化文書の上に重ね合わされた透明セロハンを示す説明図である。 異なる色のカラーマークが塗り込まれた透明セロハンや複写文書を示す説明図である。 各種のマーク色に対応するタグ名を示す説明図である。 カラーマークの塗り込み開始位置と塗り込み終了位置とを示す説明図である。 文字列の先頭位置と後尾位置とを示す説明図である。 文字列とカラーマークの対応関係を示す説明図である。 文字列に連番が付与された非構造化文書を示す説明図である。 文字列にタグが付加された構造化文書を示す説明図である。 この発明の実施の形態2による構造化文書作成方法を示すフローチャートである。 各種のマーク色に対応するタグ名を示す説明図である。 形状が解析されたカラーマークを示す説明図である。 文字列とカラーマークの対応関係を示す説明図である。 文字列に連番が付与された非構造化文書を示す説明図である。 文字列にタグが付加された構造化文書を示す説明図である。
符号の説明
1 マンマシンI/F(設定受付手段)、2 設定受付部(設定受付手段)、3 メモリ(設定受付手段)、4 イメージスキャナ(カラーマーク解析手段、タグ付加手段)、5 カラーマーク解析部(カラーマーク解析手段)、6 文字列抽出部(タグ付加手段)、7 タグ付加部(タグ付加手段)、A 非構造化文書、B 透明セロハン、C 構造化文書、D 複写文書。

Claims (8)

  1. 非構造化文書に重ねられてカラーマークが塗り込まれた透明セロハンを走査して、そのカラーマークのマーク色を解析するとともに、そのカラーマークの塗り込み位置を解析するカラーマーク解析手段と、上記非構造化文書を走査して、上記カラーマーク解析手段により解析されたカラーマークの塗り込み位置に対応する文字列を抽出し、そのカラーマークのマーク色に対応するタグを当該文字列に付加するタグ付加手段とを備えた構造化文書作成装置。
  2. カラーマークが塗り込まれた非構造化文書の複写文書を走査して、そのカラーマークのマーク色を解析するとともに、そのカラーマークの塗り込み位置を解析するカラーマーク解析手段と、上記非構造化文書を走査して、上記カラーマーク解析手段により解析されたカラーマークの塗り込み位置に対応する文字列を抽出し、そのカラーマークのマーク色に対応するタグを当該文字列に付加するタグ付加手段とを備えた構造化文書作成装置。
  3. 各種のマーク色に対応するタグの設定を受け付ける設定受付手段を設けたことを特徴とする請求項1または請求項2記載の構造化文書作成装置。
  4. タグ付加手段は、非構造化文書から抽出した文字列の記述位置と一致するカラーマークの塗り込み位置が存在しない場合、その塗り込み位置が文字列の記述位置に最も近いカラーマークを当該文字列と対応付けることを特徴とする請求項1から請求項3のうちのいずれか1項記載の構造化文書作成装置。
  5. タグ付加手段は、カラーマーク解析手段によりカラーマークの形状が解析された場合、上記カラーマーク解析手段により解析されたカラーマークの形状に対応する枠に囲まれている文字列を抽出し、そのカラーマークのマーク色に対応するタグを当該文字列に付加することを特徴とする請求項1から請求項4のうちのいずれか1項記載の構造化文書作成装置。
  6. タグ付加手段は、非構造化文書を複数回走査し、複数の走査結果が相互に異なる場合、多数決を実施して複数の走査結果を統一することを特徴とする請求項1から請求項5のうちのいずれか1項記載の構造化文書作成装置。
  7. 非構造化文書に透明セロハンを重ね合わせて、その透明セロハンに写っている非構造化文書における識別対象の文字列毎に、異なる色のカラーマークを塗り込むカラーマーク塗り込みステップと、上記カラーマーク塗り込みステップでカラーマークが塗り込まれた透明セロハンを走査して、そのカラーマークのマーク色を解析するとともに、そのカラーマークの塗り込み位置を解析するカラーマーク解析ステップと、上記非構造化文書を走査して、上記カラーマーク解析ステップで解析されたカラーマークの塗り込み位置に対応する文字列を抽出し、そのカラーマークのマーク色に対応するタグを当該文字列に付加するタグ付加ステップとを備えた構造化文書作成方法。
  8. 非構造化文書の複写文書における識別対象の文字列毎に、異なる色のカラーマークを塗り込むカラーマーク塗り込みステップと、上記カラーマーク塗り込みステップでカラーマークが塗り込まれた複写文書を走査して、そのカラーマークのマーク色を解析するとともに、そのカラーマークの塗り込み位置を解析するカラーマーク解析ステップと、上記非構造化文書を走査して、上記カラーマーク解析ステップで解析されたカラーマークの塗り込み位置に対応する文字列を抽出し、そのカラーマークのマーク色に対応するタグを当該文字列に付加するタグ付加ステップとを備えた構造化文書作成方法。
JP2004083093A 2004-03-22 2004-03-22 構造化文書作成装置及び構造化文書作成方法 Pending JP2005267566A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004083093A JP2005267566A (ja) 2004-03-22 2004-03-22 構造化文書作成装置及び構造化文書作成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004083093A JP2005267566A (ja) 2004-03-22 2004-03-22 構造化文書作成装置及び構造化文書作成方法

Publications (1)

Publication Number Publication Date
JP2005267566A true JP2005267566A (ja) 2005-09-29

Family

ID=35092013

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004083093A Pending JP2005267566A (ja) 2004-03-22 2004-03-22 構造化文書作成装置及び構造化文書作成方法

Country Status (1)

Country Link
JP (1) JP2005267566A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007219579A (ja) * 2006-02-14 2007-08-30 Profield Co Ltd ドキュメント変換装置、およびプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02297121A (ja) * 1989-02-28 1990-12-07 Canon Inc 文書処理装置
JPH05244387A (ja) * 1992-02-26 1993-09-21 Fuji Xerox Co Ltd 文書処理装置
JPH09282309A (ja) * 1996-04-17 1997-10-31 Sharp Corp 文書編集校正処理装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02297121A (ja) * 1989-02-28 1990-12-07 Canon Inc 文書処理装置
JPH05244387A (ja) * 1992-02-26 1993-09-21 Fuji Xerox Co Ltd 文書処理装置
JPH09282309A (ja) * 1996-04-17 1997-10-31 Sharp Corp 文書編集校正処理装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007219579A (ja) * 2006-02-14 2007-08-30 Profield Co Ltd ドキュメント変換装置、およびプログラム
JP4519081B2 (ja) * 2006-02-14 2010-08-04 株式会社プロフィールド ドキュメント変換装置、およびプログラム

Similar Documents

Publication Publication Date Title
US8467614B2 (en) Method for processing optical character recognition (OCR) data, wherein the output comprises visually impaired character images
KR100570224B1 (ko) 전표정의데이터 작성방법 및 전표처리장치
JP2007109118A (ja) 入力指示処理装置および入力指示処理プログラム
JP2008192032A (ja) 文書処理装置、文書処理方法、プログラム
JPH11143986A (ja) ビットマップイメージの処理方法及び処理装置、ビットマップイメージの処理を行うイメージ処理プログラムを格納した記憶媒体
JP2010009509A (ja) 画像処理装置、画像処理方法およびそのプログラムならびに記憶媒体
JP2008022159A (ja) 文書処理装置及び文書処理方法
JP2008059157A (ja) 書類確認支援システム、書類確認支援装置およびプログラム
US11348331B2 (en) Information processing apparatus and non-transitory computer readable medium
JP2003022269A (ja) 漫画翻訳装置及びそのシステム並びに漫画翻訳方法
JP2012190434A (ja) 帳票定義装置、帳票定義方法、プログラム及び記録媒体
JP2007164705A (ja) 電子化文書の変換方法及びプログラム
JPH09231291A (ja) 帳票読取方法及びその装置
JP2005267566A (ja) 構造化文書作成装置及び構造化文書作成方法
JP2002222183A (ja) 印刷テンプレート作成用のユーザーインターフェース
JP5288617B2 (ja) 文書管理システム、文書管理方法及びコンピュータプログラム
JP2000168294A (ja) 電子黒板システム
JP2003223610A (ja) 文字認識装置及び文字認識方法
JP2006276912A (ja) 文書編集装置、文書編集方法およびプログラム
JP2007241355A (ja) 画像処理装置及び画像処理プログラム
JP4347675B2 (ja) 帳票ocrプログラム、方法及び装置
JP2021047688A (ja) 帳票認識方法およびプログラム
JPH0660222A (ja) 文字認識装置
JP2003132078A (ja) データベース構築装置、データベース構築方法、データベース構築プログラム、記録媒体
JP2004164376A (ja) 識別コード添付帳票、帳票読取プログラム、及び帳票作成プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070301

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20071016

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080715

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090702

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090707

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090904

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100302

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100629