JP4646300B2 - 繰り返し行決定装置、繰り返し行決定方法、プログラム及び記録媒体 - Google Patents
繰り返し行決定装置、繰り返し行決定方法、プログラム及び記録媒体 Download PDFInfo
- Publication number
- JP4646300B2 JP4646300B2 JP2005133390A JP2005133390A JP4646300B2 JP 4646300 B2 JP4646300 B2 JP 4646300B2 JP 2005133390 A JP2005133390 A JP 2005133390A JP 2005133390 A JP2005133390 A JP 2005133390A JP 4646300 B2 JP4646300 B2 JP 4646300B2
- Authority
- JP
- Japan
- Prior art keywords
- line
- group
- information
- row
- lines
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
よって、電子帳票システムが保存している電子帳票データには、その電子帳票が何行ずつの繰り返し明細であるか、また、どの領域のデータが明細として繰り返し表現とされているか、などの情報は保持していない。そこで、従来の電子帳票システムでは、このような複数行明細の繰り返し帳票を検索する際、事前に利用者によって、繰り返し明細領域の最上限座標、および最下限座標、また何行ずつの繰り返しであるか、の3つの情報を手動で設定する必要があった。
なお、特許文献1記載の技術は、段組グループは人為的に入力するものであり、段組明細が何行単位で構成されているかを特定する処理については開示されていない。
まず、本発明の一実施形態による電子帳票サーバと、その電子帳票サーバにアクセスして電子帳票を閲覧する機能と帳票解析機能を有する利用者端末(解析装置)とから構成される電子帳票システムの概略構成について説明する。
図1は、本発明の一実施形態に係る利用者端末(解析装置)を含む電子帳票システムの構成を示す図である。本実施形態に係る電子帳票システムは、電子帳票を参照するための複数の利用者端末13(図1では、一つの利用者端末のみを表記)と、帳票データの集中管理を行なう電子帳票サーバ12とを通信ネットワークによって接続されることにより構築される。
図5は、図4のステップS41における罫線データ解析処理の流れを説明しているフローチャートである。罫線データ解析処理では、帳票解析処理部138は、まずフォームデータを、メモリ上に読み込む(ステップS51)。実際にはメモリ上に、フォームを描画する為のベクタ命令の列が読み込まれている。尚、ベクタ命令とは、罫線のような直線や多角形、円などの幾何学図形を、その種類を表す符号と、極点の座標や半径などのパラメータ列により表現するものである。そのため、図形を点(ラスタ)の集合として表現するラスタ形式と比べ、一般的に少ない情報量で幾何学図形を表現することができ、出力デバイスの解像度に対する依存性が低いという特徴を有する。フォームデータには、このようなベクタ形式の図形描画命令が複数含まれ、例えば、線を表す描画命令の集まりによって、帳票中の罫線が表現されている。
図6は、複数の罫線を含む帳票例を示す図である。図6の帳票の場合には、合計14本の水平線分が抽出されることになる。実際には、水平線分の情報として、図7に示すような水平線分の座標情報を抽出してメモリ上に保持することになる。また、複数の水平線分の情報をメモリ上に保持するために、図7の情報を配列で保持する。
この対象罫線判定処理は、ステップS53の処理にて生成された罫線グループ配列の中から、繰り返し明細を囲む罫線グループを選別する処理である。帳票解析処理部138は、この選別処理に、罫線グループで保持する水平線分数に関する情報と水平線分が含まれる表示画面上の領域の面積に関する情報を用いる。
(200−100)×(150−100)=5000
で算出される。又、同様に罫線グループ2では、水平線分が8本存在し、同様の計算によって96000と算出される。
尚、ステップS704〜S709のループ処理時には、帳票解析処理部138は、罫線グループを順次処理する上で、それまでに最適と判断した罫線グループを一時的に保持し、ステップS704で取り出した罫線グループとの比較対象とする為に、一時領域Aを用いている。
図16は、図36で説明した帳票例から、フォームデータ(罫線)を取り除いたテキストデータのみの概念図である。図16の帳票イメージ161では、フィールドを分かりやすく表現する為に、矩形枠で表現している。尚、本実施形態においてフィールドと呼んでいるのは、図16の矩形枠で囲った部分である。一つのフィールドには、文字列、配置座標、文字列の書式(フォントの種類やサイズなど)が定義されている。一般的な電子帳票設計ツールでは、このようなフィールドを配置することによって、帳票が設計されている。図17は、帳票イメージ161中の丸で囲んだフィールドの情報であるフィールド情報例を示す図である。図17に示すように、フィールド情報には、フィールドの範囲(図16の矩形枠)を示す位置情報と、フィールド内に含まれる文字列の情報と、書式情報が含まれている。すなわち、図15のステップS84において、帳票解析処理部138は、図17のようなフィールド情報をメモリ上に生成し、フィールド配列を生成する。
1.一行に含まれるフィールド数。
2.各フィールドの左端X座標。
3.各フィールドの書式情報(フォント名、サイズ等)。
図28は、罫線の存在しない帳票の例である。図28において文字列を囲む矩形枠は、フィールドを示し、また、罫線の様に見える横長の矩形枠は、複数のフィールドを横方向に束ねる行を示しており、実際の罫線ではない。すなわち、図28の帳票には実際には罫線が全く無い。また、図28において右端に記載している数値は、この帳票における行パターン配列の内容を示すものであり、行番号と行特徴パターンNo.を記載している。
・最多パターンNo.
・最多パターン先頭行番号
・最多パターン末尾行番号
・上端行番号A
・下端行番号B
・範囲内出現パターン集合X
・開始行番号S
・終了行番号E
・繰り返し行数N
・評価基準行番号B
・評価行番号R
上記はいずれも数値を格納可能なメモリ上の領域である。
(開始行番号S+(繰り返し行数N×2))≦(終了行番号E+1)
これは、開始行番号Sと終了行番号Eの間に明細が2回以上繰り返せない繰り返し行数NまでNが達してしまった場合に、特定不能となる式である。
(4+(N×2))≦(23+1)
となり、Nが11に達した場合には、特定不能となるが、実際にこの例ではNが11まで達することはない(ステップS1206)。次に、ステップS1207において、帳票解析処理部138は、開始行番号Sを評価基準行番号Bと評価行番号Rへ代入する(ステップS1207)。この処理は、Nが更新される毎に1度実行される。
ここで、ステップS1208において
開始行番号S+繰り返し行数N>B
が不成立となった場合に、その時検査していた繰り返し行数Nが、この帳票の繰り返し明細の行数として特定される。
この場合は、繰り返し明細が2行で不整合がないかを終了行番号Eまで検査することとなる。この場合のNを2とした場合の一番上部の明細を図30の太枠302に示す。Nを2として、検査を進めた場合、まず4行目と6行目が同じパターンNo.であるかがステップS1213で判定されるが、符号301に示すように同じではないので、ステップS1215において、Nに1加算され、繰り返し行数Nを3行としての検査に移行する。
(罫線グループ領域内の行数)÷(仕切り罫線数+1)=繰り返し明細行数
例えば、図34の例では、罫線グループ領域内に4〜23行目の様に20行存在し、仕切っている罫線数は4本である。よって、判定式に適用すると20÷(4+1)=4となり、繰り返し明細行数が4行と特定される。
また、コンピュータが記録媒体から読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているOS(基本システム或いはオペレーティングシステム)などが実際の処理の一部又は全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
12 電子帳票サーバ
13 利用者端末
121、126、131 通信部
122 印字用データ記憶部
123 帳票データ変換部
124 帳票データ記憶部
125 検索実行部
132 帳票画像再現部
133 検索結果表示部
134 検索領域入力部
135 検索式入力部
136 表示装置
137 キーボード
138 帳票解析処理部
21 CPU
22 RAM
23 ROM
24 HDD(ハードディスクドライブ)
25 記録媒体ドライブ
26 ビデオアダプタ
27 K/B(キーボード)
28 マウス
29 NIC(ネットワークインタフェースカード)
Claims (8)
- 帳票イメージ上に配置される行群の繰り返し単位を決定する繰り返し行決定装置であって、
前記帳票イメージ上でテキストが配置されるフィールドの定義情報であるフィールド定義情報に含まれる位置情報に基づいて、前記帳票イメージ上の同じ行にテキストを配置するフィールドを、行毎に抽出する抽出手段と、
前記抽出手段で抽出されたフィールドにより構成される行毎に、行を構成するフィールドの数及び前記フィールドに配置されるテキストの書誌情報を用いて、行毎の特徴をパターン分けするパターン分け手段と、
前記パターン分け手段でパターン分けされた各行が前記帳票イメージ上に配置される配置順に従って、パターン分けされた行の配置傾向から、同じ配置傾向をもつ行群の繰り返し単位を決定する決定手段と、
を有することを特徴とする繰り返し行決定装置。 - 前記決定手段で決定された繰り返し単位を一まとまりとする行群に対する検索要求を受け付ける受付手段と、
前記受付手段で受け付けられた検索要求に基づいて、前記一まとまりの行群毎に検索する検索手段と、
を更に有することを特徴とする請求項1に記載の繰り返し行決定装置。 - 前記帳票イメージ上の罫線の配置に関する情報である罫線情報を用いて、同じ左右位置をもつ水平線分群を一つのグループにまとめ、前記グループに含まれる水平線分群の上限座標および下限座標の間に含まれる範囲を、前記決定手段で前記行群の繰り返し単位を決定する際に配置傾向を分析する範囲として選択する選択手段を更に有することを特徴とする請求項1または2に記載の繰り返し行決定装置。
- 前記選択手段は、同じ左右位置をもつ水平線分群をまとめたグループが複数ある場合、それぞれのグループに含まれる水平線分群により構成される前記帳票イメージ上の面積を基準として一つのグループを特定し、前記特定したグループに含まれる水平線分群の上限座標および下限座標の間に含まれる範囲を、前記決定手段で前記行群の繰り返し単位を決定する際に配置傾向を分析する範囲として選択することを特徴とする請求項3に記載の繰り返し行決定装置。
- 前記帳票イメージ上に罫線がない場合、前記パターン分け手段でパターン分けされた各行の前記帳票イメージ上における配置頻度、および前記各行に含まれる前記フィールドの位置情報を用いて、前記決定手段で前記行群の繰り返し単位を決定する際に配置傾向を分析する範囲を特定する第一の仮想罫線および第二の仮想罫線を生成する生成手段を更に有し、
前記選択手段は、前記生成手段により生成された仮想罫線の上限座標および下限座標の間に含まれる範囲を、前記決定手段で前記行群の繰り返し単位を決定する際に配置傾向を分析する範囲として選択することを特徴とする請求項3又は4に記載の繰り返し行決定装置。 - 抽出手段と、パターン分け手段と、決定手段とを備える、帳票イメージ上に配置される行群の繰り返し単位を決定する繰り返し行決定装置における繰り返し行決定方法であって、
前記抽出手段が、前記帳票イメージ上でテキストが配置されるフィールドの定義情報であるフィールド定義情報に含まれる位置情報に基づいて、前記帳票イメージ上の同じ行にテキストを配置するフィールドを、行毎に抽出する抽出ステップと、
前記パターン分け手段が、前記抽出ステップで抽出されたフィールドにより構成される行毎に、行を構成するフィールドの数及び前記フィールドに配置されるテキストの書誌情報を用いて、行毎の特徴をパターン分けするパターン分けステップと、
前記決定手段が、前記パターン分けステップでパターン分けされた各行が前記帳票イメージ上に配置される配置順に従って、パターン分けされた行の配置傾向から、同じ配置傾向をもつ行群の繰り返し単位を決定する決定ステップと、
を有することを特徴とする繰り返し行決定方法。 - 帳票イメージ上に配置される行群の繰り返し単位を決定するコンピュータを、
前記帳票イメージ上でテキストが配置されるフィールドの定義情報であるフィールド定義情報に含まれる位置情報に基づいて、前記帳票イメージ上の同じ行にテキストを配置するフィールドを、行毎に抽出する抽出手段と、
前記抽出手段で抽出されたフィールドにより構成される行毎に、行を構成するフィールドの数及び前記フィールドに配置されるテキストの書誌情報を用いて、行毎の特徴をパターン分けするパターン分け手段と、
前記パターン分け手段でパターン分けされた各行が前記帳票イメージ上に配置される配置順に従って、パターン分けされた行の配置傾向から、同じ配置傾向をもつ行群の繰り返し単位を決定する決定手段と、
して機能させることを特徴とするプログラム。 - 請求項7に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005133390A JP4646300B2 (ja) | 2005-04-28 | 2005-04-28 | 繰り返し行決定装置、繰り返し行決定方法、プログラム及び記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005133390A JP4646300B2 (ja) | 2005-04-28 | 2005-04-28 | 繰り返し行決定装置、繰り返し行決定方法、プログラム及び記録媒体 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2006309611A JP2006309611A (ja) | 2006-11-09 |
JP2006309611A5 JP2006309611A5 (ja) | 2008-05-29 |
JP4646300B2 true JP4646300B2 (ja) | 2011-03-09 |
Family
ID=37476406
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005133390A Expired - Fee Related JP4646300B2 (ja) | 2005-04-28 | 2005-04-28 | 繰り返し行決定装置、繰り返し行決定方法、プログラム及び記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4646300B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008243144A (ja) * | 2007-03-29 | 2008-10-09 | Toray Eng Co Ltd | 帳票レイアウトデータ作成方法及び印刷システム |
JP7486112B2 (ja) * | 2019-06-21 | 2024-05-17 | 辻・本郷税理士法人 | 会計支援装置、会計支援プログラム及び会計支援方法 |
JP6869394B1 (ja) * | 2020-03-23 | 2021-05-12 | 三菱電機Itソリューションズ株式会社 | 検証装置、検証方法、及び、検証プログラム |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62165275A (ja) * | 1986-01-17 | 1987-07-21 | Hitachi Ltd | 文書画像フアイル装置 |
JPH08249419A (ja) * | 1995-03-10 | 1996-09-27 | Fuji Xerox Co Ltd | 表領域判定装置 |
JPH10134143A (ja) * | 1996-10-30 | 1998-05-22 | Fujitsu Ltd | 文字抽出装置 |
JPH10307888A (ja) * | 1997-05-09 | 1998-11-17 | Ricoh Co Ltd | 表処理方法、装置および記録媒体 |
JPH11161736A (ja) * | 1997-12-01 | 1999-06-18 | Fujitsu Ltd | 文字認識方法 |
JP2000207184A (ja) * | 1999-01-12 | 2000-07-28 | Fujitsu Ltd | プログラムソ―ス記述再標準化装置 |
JP2002251589A (ja) * | 2000-12-22 | 2002-09-06 | Bsp Inc | グラフ生成支援プログラムおよびそのプログラムが記録された記録媒体並びにグラフ自動生成方法およびシステム |
JP2005100079A (ja) * | 2003-09-25 | 2005-04-14 | Casio Comput Co Ltd | 帳票データ入力装置およびプログラム |
-
2005
- 2005-04-28 JP JP2005133390A patent/JP4646300B2/ja not_active Expired - Fee Related
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62165275A (ja) * | 1986-01-17 | 1987-07-21 | Hitachi Ltd | 文書画像フアイル装置 |
JPH08249419A (ja) * | 1995-03-10 | 1996-09-27 | Fuji Xerox Co Ltd | 表領域判定装置 |
JPH10134143A (ja) * | 1996-10-30 | 1998-05-22 | Fujitsu Ltd | 文字抽出装置 |
JPH10307888A (ja) * | 1997-05-09 | 1998-11-17 | Ricoh Co Ltd | 表処理方法、装置および記録媒体 |
JPH11161736A (ja) * | 1997-12-01 | 1999-06-18 | Fujitsu Ltd | 文字認識方法 |
JP2000207184A (ja) * | 1999-01-12 | 2000-07-28 | Fujitsu Ltd | プログラムソ―ス記述再標準化装置 |
JP2002251589A (ja) * | 2000-12-22 | 2002-09-06 | Bsp Inc | グラフ生成支援プログラムおよびそのプログラムが記録された記録媒体並びにグラフ自動生成方法およびシステム |
JP2005100079A (ja) * | 2003-09-25 | 2005-04-14 | Casio Comput Co Ltd | 帳票データ入力装置およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2006309611A (ja) | 2006-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3425408B2 (ja) | 文書読取装置 | |
JP4926004B2 (ja) | 文書処理装置、文書処理方法及び文書処理プログラム | |
JP5040925B2 (ja) | 情報抽出規則作成支援システム、情報抽出規則作成支援方法及び情報抽出規則作成支援プログラム | |
EP1698988A1 (en) | Image processing apparatus and its method | |
CN103838566A (zh) | 信息处理装置和信息处理方法 | |
JP5141560B2 (ja) | 情報検索プログラム、該プログラムを記録した記録媒体、情報検索装置、および情報検索方法 | |
US5557789A (en) | Text retrieval method and apparatus based on a handwritten keyword | |
JP2009238217A (ja) | 情報処理システム、情報処理装置、情報処理方法およびプログラム | |
CN103995816B (zh) | 信息处理设备和信息处理方法 | |
US20170132484A1 (en) | Two Step Mathematical Expression Search | |
JP4991407B2 (ja) | 情報処理装置、その制御プログラムおよび該制御プログラムを記録したコンピュータ読み取り可能な記録媒体、ならびに制御方法 | |
JP5247311B2 (ja) | 電子文書処理装置および電子文書処理方法 | |
JP2009211432A (ja) | 文書認識プログラム、文書認識装置、および文書認識方法 | |
JP2008077454A (ja) | タイトル抽出装置、画像読取装置、タイトル抽出方法、及びタイトル抽出プログラム | |
JP4646300B2 (ja) | 繰り返し行決定装置、繰り返し行決定方法、プログラム及び記録媒体 | |
JP2006065477A (ja) | 文字認識装置 | |
CN114118070A (zh) | 文档目录生成方法及装置、电子设备和介质 | |
JP2018055256A (ja) | 情報処理装置、情報処理方法及びプログラム | |
JPH1139315A (ja) | フォーマットされた文書を順序付けされたワードリストへ変換する方法 | |
KR20050061620A (ko) | 문서편집 소프트웨어의 수식 편집기 및 그 편집방법 | |
JP7383882B2 (ja) | 情報処理装置、及び情報処理プログラム | |
JP7160432B2 (ja) | 画像処理装置、画像処理方法、プログラム | |
JP4213558B2 (ja) | 文書レイアウト解析プログラム、文書レイアウト解析プログラムを記憶したコンピュータ読み取り可能な記憶媒体、文書レイアウト解析方法および文書レイアウト解析装置 | |
JP5428316B2 (ja) | 識別子短縮表示プログラム,識別子短縮表示装置および識別子短縮表示方法 | |
WO2014170965A1 (ja) | 文書処理方法、文書処理装置および文書処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080414 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080414 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100903 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100914 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101111 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20101130 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20101206 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131217 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4646300 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131217 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131217 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131217 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141217 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |