JP2005267566A - 構造化文書作成装置及び構造化文書作成方法 - Google Patents
構造化文書作成装置及び構造化文書作成方法 Download PDFInfo
- Publication number
- JP2005267566A JP2005267566A JP2004083093A JP2004083093A JP2005267566A JP 2005267566 A JP2005267566 A JP 2005267566A JP 2004083093 A JP2004083093 A JP 2004083093A JP 2004083093 A JP2004083093 A JP 2004083093A JP 2005267566 A JP2005267566 A JP 2005267566A
- Authority
- JP
- Japan
- Prior art keywords
- color
- color mark
- mark
- character string
- tag
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Processing Or Creating Images (AREA)
- Document Processing Apparatus (AREA)
- Editing Of Facsimile Originals (AREA)
Abstract
【解決手段】 カラーマークが塗り込まれた透明セロハンBを走査して、カラーマークのマーク色を解析するとともに、そのカラーマークの塗り込み位置を解析するカラーマーク解析部5を設け、非構造化文書Aを走査して、そのカラーマーク解析部5により解析されたカラーマークの塗り込み位置に対応する文字列を抽出し、そのカラーマークのマーク色に対応するタグを文字列に付加する。
【選択図】 図1
Description
即ち、従来の構造化文書作成装置は、予め、文字レイアウトに対応するルールを作成し、そのルールにしたがって非構造化文書の文字列に構造化タグを付与する(例えば、特許文献1,2参照)。
図1はこの発明の実施の形態1による構造化文書作成装置を示す構成図であり、図において、マンマシンI/F1は例えばキーボードやマウスなどから構成され、ユーザが各種のマーク色に対応するタグを設定する際に使用する。設定受付部2はユーザによるマンマシンI/F1の操作内容を入力して、各種のマーク色に対応するタグの設定を受け付ける処理を実施する。メモリ3は各種のマーク色に対応するタグなどを格納する。
なお、マンマシンI/F1、設定受付部2及びメモリ3から設定受付手段が構成されている。
カラーマーク解析部5はイメージスキャナ4が透明セロハンBに塗り込まれているカラーマークの読込処理を実施すると、そのカラーマークのマーク色を解析するとともに、そのカラーマークの塗り込み位置を解析し、その解析結果をメモリ3に格納する。
なお、イメージスキャナ4及びカラーマーク解析部5からカラーマーク解析手段が構成されている。
タグ付加部7はメモリ3を参照して、カラーマーク解析部5により解析されたカラーマークのマーク色に対応するタグを取得し、そのカラーマークの塗り込み位置に対応する文字列に当該タグを付加する。
なお、イメージスキャナ4、文字列抽出部6及びタグ付加部7からタグ付加手段が構成されている。
図2はこの発明の実施の形態1による構造化文書作成方法を示すフローチャートである。
最初に、構造化対象の文書である非構造化文書Aと同一サイズの透明セロハンBを用意し、図3に示すように、ユーザが非構造化文書Aの上に透明セロハンBを重ね合わせる(ステップST1)。
次に、ユーザは、図4に示すように、透明セロハンBに写っている非構造化文書Aにおける識別対象の文字列毎に、異なる色のカラーマークの塗り込みを行う(ステップST2)。
この際、ユーザは構造化文書作成装置のマンマシンI/F1を操作して、章見出しに対応するタグ名、節見出しに対応するタグ名、節内の文章に対応するタグ名を入力する。
設定受付部2は、ユーザによるマンマシンI/F1の操作内容を入力し、各種のマーク色に対応するタグ名の設定を受け付けて、その設定内容をメモリ3に格納する(ステップST3)。
図5は各種のマーク色に対応するタグ名を示す説明図である。図5の例では、赤色に対応するタグ名は<t1>、青色に対応するタグ名は<t2>、黄色に対応するタグ名は<t3>に設定している。
これにより、イメージスキャナ4は、透明セロハンBに塗り込まれているカラーマークの読込処理を実施し、その読込結果であるイメージデータをカラーマーク解析部5に出力する(ステップST4)。
なお、カラーマークの塗り込み位置として、例えば、透明セロハンBの左端からカラーマークの塗り込み開始位置までの距離XL1〜XL3や、カラーマークの塗り込み終了位置から透明セロハンBの右端までの距離XR1〜XR3などを解析している(図6を参照)。
これにより、イメージスキャナ4は、非構造化文書Aに記述されている文字列の読込処理を実施し、その読込結果であるイメージデータを文字列抽出部6に出力する(ステップST6)。
なお、文字列の記述位置として、例えば、非構造化文書Aの左端から文字列の先頭位置までの距離GL1〜GL3や、文字列の後尾位置から非構造化文書Aの右端までの距離GR1〜GR3などを解析している(図7を参照)。
即ち、左端から先頭位置までの距離と、左端から塗り込み開始位置までの距離とが一致し、かつ、後尾位置から右端までの距離と、塗り込み終了位置から右端までの距離とが一致している文字列とカラーマークの組み合わせを検出する。
図8の例では、章見出しである文字列M1と赤色のカラーマークとが対応し、節見出しである文字列M2と青色のカラーマークとが対応し、節内の文章である文字列M3と黄色のカラーマークとが対応している。
そして、タグ付加部7は、メモリ3を参照して、カラーマーク解析部5により解析されたカラーマークのマーク色に対応するタグを取得し、そのカラーマークの塗り込み位置に対応する文字列に当該タグを付加することにより、構造化文書Cを作成する(ステップST10)。
即ち、タグ付加部7は、図10に示すように、章見出しである文字列M1にはタグ名が<t1>のタグを付与し、節見出しである文字列M2にはタグ名が<t2>のタグを付与し、節内の文章である文字列M3にはタグ名が<t3>のタグを付与する。
上記実施の形態1では、カラーマークが塗り込まれた透明セロハンBを走査して、カラーマークのマーク色と塗り込み位置を解析するものについて示したが、カラーマークが塗り込まれた非構造化文書Aの複写文書Dを走査して、そのカラーマークのマーク色と塗り込み位置を解析するようにしてもよい。
図11はこの発明の実施の形態2による構造化文書作成方法を示すフローチャートである。
最初に、構造化対象の文書である非構造化文書Aを複写して、その複写文書Dを用意する(ステップST11)。
次に、ユーザは、図4に示すように、複写文書Dにおける識別対象の文字列毎に、異なる色のカラーマークの塗り込みを行う(ステップST12)。
この際、ユーザは構造化文書作成装置のマンマシンI/F1を操作して、章見出しに対応するタグ名、節見出しに対応するタグ名、節内の文章に対応するタグ名を入力する。
設定受付部2は、ユーザによるマンマシンI/F1の操作内容を入力し、各種のマーク色に対応するタグ名の設定を受け付けて、その設定内容をメモリ3に格納する(ステップST13)。
図5は各種のマーク色に対応するタグ名を示す説明図である。図5の例では、赤色に対応するタグ名は<t1>、青色に対応するタグ名は<t2>、黄色に対応するタグ名は<t3>に設定している。
これにより、イメージスキャナ4は、複写文書Dに塗り込まれているカラーマークの読込処理を実施し、その読込結果であるイメージデータをカラーマーク解析部5に出力する(ステップST14)。
なお、カラーマークの塗り込み位置として、例えば、複写文書Dの左端からカラーマークの塗り込み開始位置までの距離XL1〜XL3や、カラーマークの塗り込み終了位置から複写文書Dの右端までの距離XR1〜XR3などを解析している(図6を参照)。
これにより、イメージスキャナ4は、非構造化文書Aに記述されている文字列の読込処理を実施し、その読込結果であるイメージデータを文字列抽出部6に出力する(ステップST16)。
なお、文字列の記述位置として、例えば、非構造化文書Aの左端から文字列の先頭位置までの距離GL1〜GL3や、文字列の後尾位置から非構造化文書Aの右端までの距離GR1〜GR3などを解析している(図7を参照)。
即ち、左端から先頭位置までの距離と、左端から塗り込み開始位置までの距離とが一致し、かつ、後尾位置から右端までの距離と、塗り込み終了位置から右端までの距離とが一致している文字列とカラーマークの組み合わせを検出する。
図8の例では、章見出しである文字列M1と赤色のカラーマークとが対応し、節見出しである文字列M2と青色のカラーマークとが対応し、節内の文章である文字列M3と黄色のカラーマークとが対応している。
そして、タグ付加部7は、メモリ3を参照して、カラーマーク解析部5により解析されたカラーマークのマーク色に対応するタグを取得し、そのカラーマークの塗り込み位置に対応する文字列に当該タグを付加することにより、構造化文書Cを作成する(ステップST20)。
即ち、タグ付加部7は、図10に示すように、章見出しである文字列M1にはタグ名が<t1>のタグを付与し、節見出しである文字列M2にはタグ名が<t2>のタグを付与し、節内の文章である文字列M3にはタグ名が<t3>のタグを付与する。
上記実施の形態1,2では、非構造化文書Aにおける文字列を、章見出し、節見出し、あるいは、節内の文章に識別してタグを付加するものについて示したが、識別対象はこれらに限るものではなく、例えば、図面や表のタイトルなどを識別してタグを付加するようにしてもよい。
また、節内の文章も1種類に限るものではなく、2種類以上の文章を区別するようにしてもよい。章見出しや節見出しも同様に、1種類に限るものではなく、2種類以上の章見出し等を区別するようにしてもよい。
例えば、左端から先頭位置までの距離と、左端から塗り込み開始位置までの距離とが一致している文字列とカラーマークの組み合わせを検出し、後尾位置から右端までの距離と、塗り込み終了位置から右端までの距離との一致を判別しないようにしてもよい。
この場合、識別対象の文字列を字下げ幅だけで識別することになるため、書式が比較的簡単な文書に限られるが、後尾位置から右端までの距離と、塗り込み終了位置から右端までの距離との一致を判別しないで済むため、処理の簡単化と高速化を図ることができる効果を奏する。
上記実施の形態1〜3では、非構造化文書Aから抽出した文字列の記述位置とカラーマークの塗り込み位置とを比較して、その記述位置と塗り込み位置が一致する文字列とカラーマークの組み合わせを検出するものについて示したが、例えば、イメージスキャナ4に対する非構造化文書Aのセット具合と、イメージスキャナ4に対する透明セロハンB又は複写文書Dのセット具合との相違などを起因にして、本来的には対応する文字列とカラーマークの位置が完全には一致しないことがある。
即ち、タグ付加部7は、非構造化文書Aから抽出した文字列の記述位置と一致するカラーマークの塗り込み位置がメモリ3に格納されていない場合、その塗り込み位置が文字列の記述位置に最も近いカラーマークを当該文字列と対応付けるようにする。
|GD1−XL1|=K1
|GD1−XL2|=K2
|GD1−XL3|=K3
K1<K2<K3
上記実施の形態1〜4では、カラーマーク解析部5が透明セロハンBや複写文書Dに塗り込まれているカラーマークのマーク色や塗り込み位置を解析するものについて示したが、図13に示すように、カラーマークの形状を解析するようにしてもよい。
この場合、文字列抽出部6は、イメージスキャナ4から出力されたイメージデータを参照して、非構造化文書Aに記述されている文字列を囲んでいる吹き出しや表などの枠の形状を検出し、その枠の形状に一致するカラーマークの形状を検出するようにする。
ただし、形状の検出処理は、特に問うものではなく、公知の形状検出処理を利用すればよい。形状の検出処理は、本発明の主眼ではないので、説明を省略する。
図12に示すように、上記枠に対応するカラーマークのマーク色が緑色であり、上記枠に対応するカラーマークのタグ名が<t4>であれば、例えば、図14の非構造化文書Aに記述されている文字列には、図15のような連番が付与されたのち、図16のようなタグが付加される。
上記実施の形態1〜5では、イメージスキャナ4が非構造化文書Aを1回だけ読込処理を行うものについて示したが、その読込結果であるイメージデータの精度を高めるため、複数回読込処理を行うようにしてもよい。
この場合、文字列抽出部6は、イメージスキャナ4から出力される複数のイメージデータを相互に比較する。
そして、2回分のイメージデータが同一であり、1回分のイメージデータが異なる場合には、多数決により、2回分のイメージデータを正規のイメージデータとして採用し、以後、そのイメージデータを参照して、非構造化文書Aに記述されている各文字列の記述位置を解析するようにする。
Claims (8)
- 非構造化文書に重ねられてカラーマークが塗り込まれた透明セロハンを走査して、そのカラーマークのマーク色を解析するとともに、そのカラーマークの塗り込み位置を解析するカラーマーク解析手段と、上記非構造化文書を走査して、上記カラーマーク解析手段により解析されたカラーマークの塗り込み位置に対応する文字列を抽出し、そのカラーマークのマーク色に対応するタグを当該文字列に付加するタグ付加手段とを備えた構造化文書作成装置。
- カラーマークが塗り込まれた非構造化文書の複写文書を走査して、そのカラーマークのマーク色を解析するとともに、そのカラーマークの塗り込み位置を解析するカラーマーク解析手段と、上記非構造化文書を走査して、上記カラーマーク解析手段により解析されたカラーマークの塗り込み位置に対応する文字列を抽出し、そのカラーマークのマーク色に対応するタグを当該文字列に付加するタグ付加手段とを備えた構造化文書作成装置。
- 各種のマーク色に対応するタグの設定を受け付ける設定受付手段を設けたことを特徴とする請求項1または請求項2記載の構造化文書作成装置。
- タグ付加手段は、非構造化文書から抽出した文字列の記述位置と一致するカラーマークの塗り込み位置が存在しない場合、その塗り込み位置が文字列の記述位置に最も近いカラーマークを当該文字列と対応付けることを特徴とする請求項1から請求項3のうちのいずれか1項記載の構造化文書作成装置。
- タグ付加手段は、カラーマーク解析手段によりカラーマークの形状が解析された場合、上記カラーマーク解析手段により解析されたカラーマークの形状に対応する枠に囲まれている文字列を抽出し、そのカラーマークのマーク色に対応するタグを当該文字列に付加することを特徴とする請求項1から請求項4のうちのいずれか1項記載の構造化文書作成装置。
- タグ付加手段は、非構造化文書を複数回走査し、複数の走査結果が相互に異なる場合、多数決を実施して複数の走査結果を統一することを特徴とする請求項1から請求項5のうちのいずれか1項記載の構造化文書作成装置。
- 非構造化文書に透明セロハンを重ね合わせて、その透明セロハンに写っている非構造化文書における識別対象の文字列毎に、異なる色のカラーマークを塗り込むカラーマーク塗り込みステップと、上記カラーマーク塗り込みステップでカラーマークが塗り込まれた透明セロハンを走査して、そのカラーマークのマーク色を解析するとともに、そのカラーマークの塗り込み位置を解析するカラーマーク解析ステップと、上記非構造化文書を走査して、上記カラーマーク解析ステップで解析されたカラーマークの塗り込み位置に対応する文字列を抽出し、そのカラーマークのマーク色に対応するタグを当該文字列に付加するタグ付加ステップとを備えた構造化文書作成方法。
- 非構造化文書の複写文書における識別対象の文字列毎に、異なる色のカラーマークを塗り込むカラーマーク塗り込みステップと、上記カラーマーク塗り込みステップでカラーマークが塗り込まれた複写文書を走査して、そのカラーマークのマーク色を解析するとともに、そのカラーマークの塗り込み位置を解析するカラーマーク解析ステップと、上記非構造化文書を走査して、上記カラーマーク解析ステップで解析されたカラーマークの塗り込み位置に対応する文字列を抽出し、そのカラーマークのマーク色に対応するタグを当該文字列に付加するタグ付加ステップとを備えた構造化文書作成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004083093A JP2005267566A (ja) | 2004-03-22 | 2004-03-22 | 構造化文書作成装置及び構造化文書作成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004083093A JP2005267566A (ja) | 2004-03-22 | 2004-03-22 | 構造化文書作成装置及び構造化文書作成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005267566A true JP2005267566A (ja) | 2005-09-29 |
Family
ID=35092013
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004083093A Pending JP2005267566A (ja) | 2004-03-22 | 2004-03-22 | 構造化文書作成装置及び構造化文書作成方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005267566A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007219579A (ja) * | 2006-02-14 | 2007-08-30 | Profield Co Ltd | ドキュメント変換装置、およびプログラム |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02297121A (ja) * | 1989-02-28 | 1990-12-07 | Canon Inc | 文書処理装置 |
JPH05244387A (ja) * | 1992-02-26 | 1993-09-21 | Fuji Xerox Co Ltd | 文書処理装置 |
JPH09282309A (ja) * | 1996-04-17 | 1997-10-31 | Sharp Corp | 文書編集校正処理装置 |
-
2004
- 2004-03-22 JP JP2004083093A patent/JP2005267566A/ja active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02297121A (ja) * | 1989-02-28 | 1990-12-07 | Canon Inc | 文書処理装置 |
JPH05244387A (ja) * | 1992-02-26 | 1993-09-21 | Fuji Xerox Co Ltd | 文書処理装置 |
JPH09282309A (ja) * | 1996-04-17 | 1997-10-31 | Sharp Corp | 文書編集校正処理装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007219579A (ja) * | 2006-02-14 | 2007-08-30 | Profield Co Ltd | ドキュメント変換装置、およびプログラム |
JP4519081B2 (ja) * | 2006-02-14 | 2010-08-04 | 株式会社プロフィールド | ドキュメント変換装置、およびプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8467614B2 (en) | Method for processing optical character recognition (OCR) data, wherein the output comprises visually impaired character images | |
KR100570224B1 (ko) | 전표정의데이터 작성방법 및 전표처리장치 | |
JP2007109118A (ja) | 入力指示処理装置および入力指示処理プログラム | |
JP2008192032A (ja) | 文書処理装置、文書処理方法、プログラム | |
JPH11143986A (ja) | ビットマップイメージの処理方法及び処理装置、ビットマップイメージの処理を行うイメージ処理プログラムを格納した記憶媒体 | |
JP2010009509A (ja) | 画像処理装置、画像処理方法およびそのプログラムならびに記憶媒体 | |
JP2008022159A (ja) | 文書処理装置及び文書処理方法 | |
JP2008059157A (ja) | 書類確認支援システム、書類確認支援装置およびプログラム | |
US11348331B2 (en) | Information processing apparatus and non-transitory computer readable medium | |
JP2003022269A (ja) | 漫画翻訳装置及びそのシステム並びに漫画翻訳方法 | |
JP2012190434A (ja) | 帳票定義装置、帳票定義方法、プログラム及び記録媒体 | |
JP2007164705A (ja) | 電子化文書の変換方法及びプログラム | |
JPH09231291A (ja) | 帳票読取方法及びその装置 | |
JP2005267566A (ja) | 構造化文書作成装置及び構造化文書作成方法 | |
JP2002222183A (ja) | 印刷テンプレート作成用のユーザーインターフェース | |
JP5288617B2 (ja) | 文書管理システム、文書管理方法及びコンピュータプログラム | |
JP2000168294A (ja) | 電子黒板システム | |
JP2003223610A (ja) | 文字認識装置及び文字認識方法 | |
JP2006276912A (ja) | 文書編集装置、文書編集方法およびプログラム | |
JP2007241355A (ja) | 画像処理装置及び画像処理プログラム | |
JP4347675B2 (ja) | 帳票ocrプログラム、方法及び装置 | |
JP2021047688A (ja) | 帳票認識方法およびプログラム | |
JPH0660222A (ja) | 文字認識装置 | |
JP2003132078A (ja) | データベース構築装置、データベース構築方法、データベース構築プログラム、記録媒体 | |
JP2004164376A (ja) | 識別コード添付帳票、帳票読取プログラム、及び帳票作成プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070301 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20071016 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20080715 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090702 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090707 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090904 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100302 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100629 |