JP6190549B1 - 文書処理システム - Google Patents

文書処理システム Download PDF

Info

Publication number
JP6190549B1
JP6190549B1 JP2017007222A JP2017007222A JP6190549B1 JP 6190549 B1 JP6190549 B1 JP 6190549B1 JP 2017007222 A JP2017007222 A JP 2017007222A JP 2017007222 A JP2017007222 A JP 2017007222A JP 6190549 B1 JP6190549 B1 JP 6190549B1
Authority
JP
Japan
Prior art keywords
document
processing unit
information
recognition
completed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017007222A
Other languages
English (en)
Other versions
JP2018116520A (ja
Inventor
雅史 上田
雅史 上田
太一 河上
太一 河上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Osk Co Ltd
Original Assignee
Osk Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Osk Co Ltd filed Critical Osk Co Ltd
Priority to JP2017007222A priority Critical patent/JP6190549B1/ja
Application granted granted Critical
Publication of JP6190549B1 publication Critical patent/JP6190549B1/ja
Publication of JP2018116520A publication Critical patent/JP2018116520A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】本発明は,文書処理システムを提供することを目的とする。【解決手段】記入項目が定められている原文書に対して,OCRによるテキスト認識用の項目欄である認識用領域に関する情報の設定を受け付け,認識用領域を備えた原文書をひな形文書として出力するひな形文書処理部と,ひな形文書に記入がされた記入済文書を受け付けて,その記入済文書における認識用領域に対してテキスト認識処理を実行する記入済文書処理部と,認識用領域に関する情報に基づいて,記入済文書から認識用領域を表示しない状態の提出文書を生成し,出力をする提出文書処理部と,を備える文書処理システムである。【選択図】 図1

Description

本発明は,文書処理システムに関する。
各種文書の写しを保管する場合,従来は,その文書を複写機で複写するなどして,紙媒体で保管することが多かった。しかし文書の写しを紙媒体で保管することは保管スペースが必要となり,最近では,文書をスキャナなどで読み取り,電子化して保管することもある。
そのような場合,単に読み取っただけでは誰の文書か,あるいはどのような内容の文書であるかを特定できないため,特に企業などでは,その電子化した文書(以下,「電子化文書」という)が誰の文書であるか,あるいはどのような内容の文書であるかの情報と紐付けて管理することが多い。その場合,誰の文書であるか,どのような内容の文書であるかの情報を入力してそれによって紐付けを行うことが考えられる。しかし,文書が多い場合には紐付けの作業負担が重くなる。
そこで電子化文書についてOCR機能などを利用して,電子化文書に記載されている文字,特に個人を識別可能な氏名の項目欄をテキスト化して,氏名などの情報を自動的に電子化文書に紐付けて管理をすることが考えられる。
さらに,電子化文書について,機密情報(特定の担当者のみに取り扱わせることが望ましい秘密情報,たとえば暗証番号,パスワード,クレジットカード番号,個人番号(マイナンバー),その他の秘密情報)を入れ込み,その文書を出力したい場合もある。かかる場合にも,電子化文書についてOCR機能などを利用して,電子化文書に記載されている文字,特に個人を識別可能な氏名の項目欄に記入されている文字をテキスト化して,氏名などの情報を認識した上で,その氏名に紐付けられた機密情報を特定して,特定した機密情報を当該電子化した文書の所定欄に入れ込み,それを出力することが行われる(特許文献1乃至特許文献3)。
特許第5782203号 特許第5827440号 特許第5940203号
株式会社複合研ディーエル,"OCRの能力|入力支援システム",インターネット<URL:https://www.fk-data.com/abilityofocr.html>
しかし上述のいずれの場合においても,電子化文書に対してOCR機能を利用してテキスト化する場合,氏名の欄を自動認識しても,その精度が高いとはいえない場合が多い。たとえば非特許文献1に記載のように,日本語の手書き文字の認識率は93%程度に過ぎない。そのため,自動認識したテキストについては,担当者によるチェックが必須である。これは,日本語がひらがな,漢字,カタカナを含んでおり,特に漢字は,外形が類似するものも多くあるためである。
一方,手書き数字や手書き英字の認識率は,日本語の手書き文字よりも高いことが知られている。たとえば非特許文献1では日本語の手書き文字の認識率が93%であるのに対し,手書き数字の認識率は99.5%と高い。
そこで,電子化文書に対してOCR機能を利用してテキスト化する場合,日本語の手書き文字ではなく,手書き数字などに対して認識を行うことで,個人との紐付けの精度を向上させることが考えられる。
しかし,記入項目があらかじめ定められている文書もある。そのような文書には,個人を特定する情報の項目欄が氏名以外には実質的に存在していないこともある。そうすると,当該文書をスキャナなどで読み取り電子化文書としても,個人を特定する情報として氏名の項目欄しかなく,認識精度を向上させることが困難である。
本発明者は上記課題に鑑み,本発明の文書処理システムを発明した。
第1の発明は,記入項目が定められている原文書に対して,OCRによるテキスト認識用の項目欄である認識用領域に関する情報の設定を受け付け,前記認識用領域を備えた原文書をひな形文書として出力するひな形文書処理部と,前記ひな形文書に記入がされた記入済文書を受け付けて,その記入済文書における認識用領域に対してテキスト認識処理を実行する記入済文書処理部と,前記認識用領域に関する情報に基づいて,前記記入済文書から前記認識用領域およびその記載事項を表示しない状態の提出文書を生成し,出力をする提出文書処理部と,を備える文書処理システムである。
本発明のように構成することで,原文書にテキスト認識率の高い項目欄が含まれていない場合であっても,当該文書を電子化した際に,原文書に追加して設定したテキスト認識用の項目欄をOCRによってテキスト認識することができる。そして提出する際に必要な提出文書の出力時には,当該テキスト認識のために用いた項目欄は表示されていないので,そのまま提出文書として用いることができる。このような構成によって,文書とテキスト認識した情報とを紐付けることを可能とせしめる。
上述の発明において,前記記入済文書処理部は,さらに,前記テキスト認識処理で認識したテキストに基づいて,対応する関連情報を直接的または間接的に特定する,文書処理システムのように構成することができる。
また,上述の発明において,前記記入済文書処理部は,さらに,前記テキスト認識処理で認識したテキストに基づいて,対応する機密情報を直接的または間接的に特定する,文書処理システムのように構成することができる。
本発明のように構成することで,テキスト認識の結果に基づいて,関連情報,機密情報を特定することができる。
上述の発明において,前記記入済文書処理部は,前記特定した関連情報を前記記入済文書に対応付けて保存する,文書処理システムのように構成することができる。
本発明のように構成することで,関連情報を記入済文書に対応付けることができる。
上述の発明において,前記ひな形文書処理部は,さらに,前記機密情報を入れ込むための領域の情報の設定を受け付け,前記記入済文書処理部は,前記受け付けた記入済文書において前記機密情報を入れ込むための領域に,前記特定した機密情報を入れ込む,文書処理システムのように構成することができる。
本発明のように構成することで,テキスト認識した結果に基づいて特定した機密情報を,記入済文書の所定の領域に入れ込むことができる。
上述の発明において,前記ひな形文書処理部は,さらに,前記認識用領域を表示しない状態とする情報の設定を受け付け,前記提出文書処理部は,前記受け付けた前記認識用領域に関する情報と前記認識用領域を表示しない状態とする情報とに基づいて,前記認識用領域を表示しない状態とする情報で前記認識用領域の表示状態を変更することで,前記記入済文書から前記認識用領域およびその記載事項を表示しない状態の提出文書を生成する,文書処理システムのように構成することができる。
記入済文書に基づいて提出文書を生成する際には,本発明のような処理を適用することができる。
上述の発明において,前記ひな形文書処理部は,前記認識用領域として前記テキスト認識の認識率が高い情報の項目欄の設定を受け付ける,文書処理システムのように構成することができる。
上述の発明において,前記ひな形文書処理部は,前記認識用領域として,数字および/または英字による情報の項目欄の設定を受け付ける,文書処理システムのように構成することができる。
文書,とくに日本語による文書をテキスト認識するのはその精度が高いとはいえず,誤認識も発生する。そのため,認識用領域として認識率の高い情報,とくに数字,英字を記入する項目欄を設定することが好ましい。
第1の発明は,本発明のように構成することでも実現できる。すなわち,記入項目が定められている原文書に対する,OCRによるテキスト認識用の項目欄である認識用領域に関する情報と,前記原文書の書式を識別するための書式識別情報とを対応づけて記憶する書式定義記憶部と,前記書式定義記憶部に記憶する情報に基づいて,前記認識用領域が前記原文書に表示された状態のひな形文書を出力するひな形文書出力処理部と,前記ひな形文書の項目欄に記入がされた記入済文書を受け付ける記入済文書受付処理部と,前記記入済文書に対応する書式識別情報に基づいて,前記認識用領域を前記書式定義記憶部から特定して,前記特定した認識用領域に対してテキスト認識処理を実行するOCR処理部と,前記記入済文書の出力指示を受け付けると,前記認識用領域およびその記載事項を表示させない状態の提出文書を生成する提出文書生成処理部と,前記生成した提出文書を出力する提出文書出力処理部と,を備える文書処理システムのように構成することができる。
第1の発明は,本発明のプログラムをコンピュータに読み込ませることで実現できる。すなわち,コンピュータを,記入項目が定められている原文書に対して,OCRによるテキスト認識用の項目欄である認識用領域に関する情報の設定を受け付け,前記認識用領域を備えた原文書をひな形文書として出力するひな形文書処理部,前記ひな形文書に記入がされた記入済文書を受け付けて,その記入済文書における認識用領域に対してテキスト認識処理を実行する記入済文書処理部,前記認識用領域に関する情報に基づいて,前記記入済文書から前記認識用領域およびその記載事項を表示しない状態の提出文書を生成し,出力をする提出文書処理部,として機能させる文書処理プログラムである。
本発明の文書処理システムを用いることによって,記入項目があらかじめ定められている文書であって,文書にテキスト認識率の高い項目欄が含まれていない場合であっても,当該文書を電子化した際に,原文書に追加して設定したテキスト認識用の項目欄をOCRによってテキスト認識することで必要な情報を読み取ることができる。これによって,文書と所定の情報,たとえば個人とを紐付けることを可能とせしめる。また,その文書を出力する場合には,不要である当該項目欄を削除した上で出力させるので,その文書をそのまま提出に用いることができる。
本発明の文書処理システムの全体の構成の一例を模式的に示す図である。 コンピュータのハードウェア構成の一例を模式的に示す図である。 本発明の文書処理システムの全体の処理プロセスの一例を示すフローチャートである。 ひな形文書に関する処理の処理プロセスの一例を示すフローチャートである。 記入済文書に関する処理の処理プロセスの一例を示すフローチャートである。 提出文書に関する処理の処理プロセスの一例を示すフローチャートである。 原文書の一例を模式的に示す図である。 ひな形文書の一例を模式的に示す図である。 書式定義記憶部の一例を模式的に示す図である。 記入済文書の一例を模式的に示す図である。 記入済文書記憶部の一例を模式的に示す図である。 関連情報として社員情報を記憶している場合の関連情報記憶部の一例を模式的に示す図である。 記入済文書の横に,テキスト認識の結果を表示させた画面の一例を模式的に示す図である。 提出文書の一例を模式的に示す図である。 実施例3における文書処理システムの全体の構成の一例を模式的に示す図である。 実施例3における書式定義記憶部の一例を模式的に示す図である。 実施例3における記入済文書に関する処理の処理プロセスの一例を示すフローチャートである。 給与所得の源泉徴収票が記入済文書として読み込まれた場合の一例を模式的に示す図である。 図18の記入済文書である給与所得の源泉徴収票が提出文書処理部における処理の結果,提出文書として生成された場合の一例を模式的に示す図である。
本発明の文書処理システム1の全体の構成の一例を図1に示す。また,本発明の文書処理システム1を実現するコンピュータのハードウェア構成の一例を図2に示す。
コンピュータには,プログラムの演算処理を実行するCPUなどの演算装置70と,情報を記憶するRAMやハードディスクなどの記憶装置71と,演算装置70の処理結果や記憶装置71に記憶する情報をインターネットやLANなどのネットワークを介して送受信する通信装置74とを有している。また,ディスプレイなどの表示装置72と,キーボードやポインティングデバイス(マウスやテンキーなど)などの入力装置73とを有していてもよい。
なお,各図面では,各コンピュータが一台のコンピュータで実現される場合を示したが,複数台のコンピュータにその機能が分散配置され,実現されても良い。また,本発明における各手段は,その機能が論理的に区別されているのみであって,物理上あるいは事実上は同一の領域を為していても良い。たとえば,文書処理システム1は,サーバやクラウドサーバなどで機能しており,文書処理システム1を操作する操作者のコンピュータからの操作で機能してもよい。
文書処理システム1は,ひな形文書処理部10と記入済文書処理部20と提出文書処理部30とを有する。
ひな形文書処理部10は,記入項目があらかじめ定められている文書(以下,「原文書」という)をスキャナなどで読み取って,後述する処理により生成したひな形の文書(以下,「ひな形文書」という)を生成する。ひな形文書処理部10は,原文書受付処理部11とひな形文書生成処理部12と書式定義記憶部13とひな形文書出力処理部14とを有する。なお,原文書,ひな形文書には,紙媒体,電子媒体による文書の双方を含む。
記入済文書処理部20は,ひな形文書の各項目欄に所定事項が記入された文書(以下,「記入済文書」という)をスキャナなどで読み取って電子化文書としてOCRによるテキスト認識処理などを行う。記入済文書処理部20は,記入済文書受付処理部21と記入済文書記憶部22とOCR処理部23と特定処理部24とを有する。なお,記入済文書には,紙媒体,電子媒体による文書の双方を含む。
提出文書処理部30は,記入済文書のうち,提出文書として出力する際の処理を行う。提出文書とは,記入済文書のうち,認識用領域およびその記載事項が削除された文書である。提出文書処理部30は,提出文書生成処理部31と提出文書出力処理部32とを有する。なお,提出文書には,紙媒体,電子媒体による文書の双方を含む。
原文書受付処理部11は,記入項目があらかじめ定められている文書(原文書)を,スキャナや,MFP(Multifunction Peripheral :多機能周辺装置)のスキャナ機能などで読み取って電子化して入力を受け付ける。原文書を電子化した場合のファイル形式としてはPDFのほか,画像形式など,任意のファイル形式が利用可能である。原文書受付処理部11で受け付ける原文書の一例を図7に示す。
ひな形文書生成処理部12は,原文書受付処理部11で入力を受け付けた原文書に対して,その書式を識別するための書式識別情報を割り当てる。書式識別情報としては自動的に付加してもよいし,操作者からの入力を受け付けてもよい。さらに,その文書の名称(書式名)などをさらに対応づけることが好ましい。
またひな形文書生成処理部12は,原文書の任意の箇所に,後述する記入済文書処理部20のOCR処理部23におけるテキスト認識処理で読み取る領域である認識用領域の設定を受け付ける。たとえば社員コードなど,OCR処理部23におけるテキスト認識処理で認識精度が高い,数字および/または英字による情報の記載が可能な項目欄を認識用領域として設定を受け付ける。設定された認識用領域は,原文書上に表示されるほか,認識用領域の座標情報も,後述の書式定義記憶部13に記憶させる。
さらに,後述する提出文書処理部30の提出文書生成処理部31で認識用領域を表示しない処理を実行するため,原文書の余白部分を消去用領域として設定を受け付けてもよい。この場合,認識用領域を重畳可能な大きさ(認識用領域以上の大きさ)であることが好ましいが,それに限定されるものではない。なお,設定された消去用領域の座標情報も,後述の書式定義記憶部13に記憶させる。なお,消去用領域とは,後述する提出文書を出力するため,認識用領域を消去するために認識用領域に重畳して表示させる領域である。
なお,操作者が認識用領域と消去用領域をともに設定するようにしてもよいし,操作者が認識用領域を設定すると,認識用領域の大きさに基づいて,それを消去可能な,認識用領域に重畳可能な大きさの消去用領域の枠が原文書上に表示され,操作者にその確定を受け付けるようにしてもよい。また,原文書において,情報(文字や枠線など)が存在しない領域を余白領域として識別し,消去用領域の枠をその領域に表示するようにしてもよい。また,複数の消去用領域の候補を表示させ,操作者による選択を受け付けてもよい。
ひな形文書生成処理部12で生成した,原文書の書式識別情報,名称,認識用領域に関する情報,消去用領域に関する情報などは,後述の書式定義記憶部13に記憶させる。認識用領域が設定された原文書をひな形文書という。図8にひな形文書の一例を模式的に示す。なお図8のひな形文書のうち,消去用領域は書式定義記憶部13に消去用領域としてその領域の座標が記憶されているのみであり,ひな形文書において表示されなくてもよい。
書式定義記憶部13は,ひな形文書,書式識別情報,名称,認識用領域に関する情報,消去用領域に関する情報などを対応付けて記憶している。書式定義記憶部13の一例を図9に示す。認識用領域に関する情報としては認識用領域の表示位置を示す座標情報,認識用領域に記載される項目の情報を識別する認識用情報種別がある。また消去用領域に関する情報としては消去用領域の座標情報がある。
ひな形文書出力処理部14は,操作者などの所定の者からの要求に応じて,ひな形文書の出力処理を実行する。ひな形文書出力処理部14は,書式定義記憶部13に記憶した情報に基づいて,出力の際に,認識用領域として設定された座標に,認識用領域を描画した上で出力をする。なお,出力時に認識用領域を描画するほか,あらかじめひな形文書上に認識用領域を描画しておき,それをそのまま出力してもよい。なお,ひな形文書出力処理部14は,紙媒体でプリンタによって出力することが好ましいが,電子媒体のまま,記入を行う者がタブレットと電子ペンを利用するなどによって記入可能な形式で出力するようにしてもよい。
記入済文書受付処理部21は,紙媒体や電子媒体のひな形文書の所定項目に所定事項が記入された文書(記入済文書)の入力を受け付ける。記入済文書が紙媒体の場合,原文書受付処理部11と同様に,スキャナや,MFP(Multifunction Peripheral :多機能周辺装置)のスキャナ機能などで読み取って電子化して入力を受け付ける。電子化した場合のファイル形式としてはPDFのほか,画像形式など,任意のファイル形式が利用可能である。なお,記入済文書では,ひな形文書における認識用領域の項目欄に,所定の情報が記入されている。記入済文書受付処理部21で受け付ける記入済文書の一例を図10に示す。なお,図10では認識用領域に「1234」が「社員コード」として記入されている。なお,手書きであってもよいし,タイプで記入されていてもよい。
記入済文書受付処理部21では,記入済文書の入力を受け付けるほか,操作者の操作により書式名の入力等を受け付けることで,書式定義記憶部13を参照して,書式識別情報を特定する。また,入力を受け付けた記入済文書について,その文書を識別するための文書識別情報を割り当てる。文書識別情報は自動的に付加してもよいし,操作者からの入力を受け付けてもよい。入力を受け付けた記入済文書は,後述する記入済文書記憶部22に記憶させる。
記入済文書記憶部22は,記入済文書について,文書識別情報と,特定した書式識別情報,記入済文書の記憶領域へのパスなどの情報を対応付けて記憶している。図11に記入済文書記憶部22の一例を模式的に示す。
OCR処理部23は,記入済文書受付処理部21で特定した書式識別情報に基づいて,書式定義記憶部13を参照して認識用領域を特定する。たとえば書式識別情報が図11のように,「10502」の書式の文書を受け付けていた場合,書式定義記憶部13から認識用領域として「(x7,y7)−(x8,y8)」を特定する。そして,OCR処理部23は,特定した領域に対して,テキスト認識処理を実行する。記入済文書が図10の場合,テキスト「1234」を認識する。
特定処理部24は,OCR処理部23で特定したテキストに基づいて,記入済文書に対応する関連情報を特定する。たとえばOCR処理部23で社員コードをテキストとして認識した場合,その記入済文書に記載されている社員を,関連情報として特定する。この場合,特定処理部24は,任意の関連情報を記憶する関連情報記憶部(図示せず)を参照することができる。たとえば,関連情報記憶部として,図12に示すように社員情報を記憶している場合,それを参照することで,対応する社員を特定する。なお,ここで特定した関連情報をファイル名などとして用い,記入済文書に対応付けて記憶させてもよい。
なお,特定処理部24は,特定した関連情報を表示して,必要に応じて,操作者から情報の入力を受け付けてもよい。たとえば,図13に示すように,記入済文書の横に,テキストの認識結果を表示させる。この場合,少なくともOCR処理部23で認識したテキストのみを表示させればよいが,さらに,特定処理部24で特定した関連情報も抽出して表示させるとよい。これにより,操作者は認識したテキストの相違を判断するよりも容易に,誤認識であるかを把握することができ,修正するかの判断をより容易に行うことができる。
関連情報記憶部に記憶する関連情報としては,原文書に記入する項目欄に対応する情報であることが好ましいが,それに限定されるものではない。
提出文書生成処理部31は,記入済文書記憶部22に記憶する記入済文書について,操作者から出力することの入力を受け付けると,当該選択された記入済文書に対応する書式識別情報に基づいて,書式定義記憶部13を参照して,認識用領域と消去用領域の各領域の情報を取得する。たとえば書式識別情報が「10502」であった場合,認識用領域として「(x7,y7)−(x8,y8)」,消去用領域として「(x5,y5)−(x6,y6)」とを取得する。そして認識用領域と消去用領域の大きさを,たとえば座標情報から幅,高さを算出することで比較し,比較結果に基づいて,消去用領域を拡大または縮小あるいはそのままでデータを生成する。すなわち,認識用領域が重畳可能な大きさに消去用領域を拡大,縮小あるいはそのままとして生成する。そして,生成した消去用領域のデータを,認識用領域に重畳して出力することで,認識用領域が表示されない状態にして提出文書として生成する処理を実行する。
このような消去処理は,後述する提出文書出力処理部32で出力する際に表示されない状態となればよく,たとえば認識用領域の位置に消去用領域のデータを埋め込んでもよいし,レイヤーを設けてこれを重ねることによって,消去用領域のデータを埋め込んだような外観となるようにしてもよいなど,いかなる方法であってもよい。記入済文書から認識用領域が消去された文書を「提出文書」とよぶ。
提出文書出力処理部32は,提出文書生成処理部31において,記入済文書から認識用領域が消去された提出文書の出力処理を実行する。なお,提出文書出力処理部32は,紙媒体でプリンタによって出力することが好ましいが,電子媒体のまま,提出先の所定の形式で出力するようにしてもよい。この際に出力される提出文書の一例を図14に示す。
つぎに本発明の文書処理システム1の処理プロセスの一例を図3乃至図6のフローチャートを用いて説明する。
まず企業などの文書処理システム1を利用する操作者は,自らが操作するコンピュータから文書処理システム1にアクセスし,ひな形文書に関する処理を実行させる(S100)。まず,ひな形文書を生成するため,たとえば図7などの原文書をスキャナなどで読み取らせる。
スキャナは原文書を電子化し,それを原文書受付処理部11で受け付ける(S110)。なお,原文書があらかじめ電子化されている場合には,その入力を原文書受付処理部11で受け付ければよい。
原文書受付処理部11で電子化した原文書を受け付け後,書式識別情報が割り当てられ,書式定義記憶部13に記憶される。また,操作者は,原文書の任意の箇所に,認識用領域を設定する操作を行い,その操作入力をひな形文書生成処理部12で受け付ける(S120)。受け付けた認識用領域に関する情報,たとえばその領域の座標情報,認識用領域に記入される情報の種別などの情報は,書式識別情報に対応付けて書式定義記憶部13に記憶させる。
さらに,操作者は,原文書の余白部分に,消去用領域の設定をする操作を行い,その操作入力をひな形文書生成処理部12で受け付ける。受け付けた消去用領域に関する情報,たとえばその領域の座標情報は,書式識別情報に対応付けて書式定義記憶部13に記憶させる。
以上のようにして原文書に基づいてひな形文書を生成すると,ひな形文書生成処理部12は,書式識別情報に対応付けてそれを記憶させる。
そして,ひな形文書への記入を行う記入者や,企業で所定の業務を行う担当者など,各種の操作者が操作するコンピュータからの要求に応じて,ひな形文書の出力を,ひな形文書出力処理部14が行う(S130)。この際には,出力するひな形文書の書式定義記憶部13に記憶する認識用領域に関する情報に基づいて,出力の際に,認識用領域として設定された座標に,認識用領域を描画した上で,プリンタなどで出力を行う。
以上のようにして出力した紙媒体または電子媒体のひな形文書(図8)に対して,記入者が各項目欄への記入を行う。そして,それを企業の所定の操作者などに提出後,文書処理システム1は,記入済文書に関する処理を実行する(S200)。
まず,文書処理システム1の操作者は,図10などの記入済文書をスキャナなどで読み取らせる。スキャナは記入済文書を電子化し,それを記入済文書受付処理部21で受け付ける(S210)。なお,記入済文書があらかじめ電子化されている場合には,その入力を記入済文書受付処理部21で受け付ければよい。受け付けた記入済文書は,文書識別情報が割り当てられて,記入済文書記憶部22に記憶される。また,受け付けた記入済文書に対応付けて書式識別情報を特定し,対応付けて記入済文書記憶部22に記憶される。
そしてOCR処理部23は,記入済文書受付処理部21で特定した書式識別情報に基づいて,書式定義記憶部13を参照して認識用領域を特定し,テキスト認識処理を実行する(S220)。これによって,記入済文書が図10の場合,テキスト「1234」を認識する。
OCR処理部23によってテキスト認識処理を実行後,特定処理部24は,認識したテキストに基づいて,記入済文書に対応する関連情報,たとえば社員などを,所定の関連情報記憶部を参照することで特定する(S230)。
このようにして特定した情報に基づいて,記入済文書を対応付けて記入済文書記憶部22に記憶させることで,記入済文書がどの社員のものであるかなどの紐付けが容易となる。
そして所定のタイミングで記入済文書について,官公庁などの提出先に提出するため,出力をする提出文書出力処理を実行する(S300)。すなわち,記入済文書記憶部22に記憶する記入済文書について,操作者から出力することの入力を受け付けると(S310),提出文書生成処理部31は,当該選択された記入済文書に対応する書式識別情報に基づいて,書式定義記憶部13を参照して,認識用領域と消去用領域の各領域の情報を取得する。
そして,認識用領域と消去用領域の大きさの比較結果に基づいて,消去用領域が認識用領域に重畳可能とするように,拡大したり,縮小したり,あるいはその大きさのまま,消去用領域のデータを生成し,消去用領域のデータを,認識用領域に重畳して出力することで消去処理を実行して提出文書を生成する(S320)。
そして提出文書出力処理部32が,S320で生成した提出文書を紙媒体でプリンタなどから出力をする(S330)。これによって,図14に示すように提出文書について,提出可能な紙媒体で出力される。また電子媒体のまま提出可能な場合には,電子化した提出文書をそのまま提出すればよい。
上述の実施例1では,認識用領域のほかに消去用領域を設定し,認識用領域の消去処理の際に消去用領域のデータで消去をする方法を示したが,消去用領域を設けなくてもよい。たとえば,書式定義記憶部13に記憶する認識用領域の座標情報の範囲を,あらかじめ定められた色,たとえば白色で上書きするなどであってもよい。
またひな形文書に対して,直接,タブレットや電子ペンなどを用いて,記入が行われる場合には,ひな形文書生成処理部12では,原文書受付処理部11で受け付けた原文書にレイヤを設け,そのレイヤに認識用領域が描画されるようにしてもよい。
このようにレイヤに認識用領域が描画された場合,記入済文書受付処理部21は,電子化されたまま記入済文書を受け付けることとなるので,認識用領域のレイヤは保持されたままとなる。そのため,提出文書生成処理部31が認識用領域を消去する場合,認識用領域が描画されるレイヤを削除することで,消去用領域を設けずに認識用領域の消去処理が可能となる。
実施例1および実施例2の異なる実施態様として,記入済文書に機密情報を入れ込み,それが表示された提出文書を出力する場合を説明する。本実施例における文書処理システム1のシステム構成の一例を図15に示す。
本実施例の文書処理システム1では,さらに機密情報記憶部25を備える。
本実施例のひな形文書生成処理部12では,認識用領域の設定の際などに,原文書に,後述する機密情報処理部において機密情報を入れ込む領域の領域情報の入力を受け付けて,書式識別情報に対応付けて書式定義記憶部13に記憶させる。本実施例における書式定義記憶部13の一例を図16に示す。
本実施例の特定処理部24では,OCR処理部23で認識したテキストに基づいて機密情報記憶部25に記憶する,対応する機密情報を特定し,それを書式定義記憶部13に記憶した,機密情報を入れ込む領域に,当該特定した機密情報を入れ込む処理を実行する。ここで機密情報を入れ込む処理を実行することで,記入済文書の機密情報を入れ込む領域に,特定した機密情報が項目欄の情報として記載されることとなる。
機密情報記憶部25は,機密情報を記憶する。機密情報は,好ましくは認識用領域に記入される項目欄の情報に対応付けられていることがよいが,それに限定されない。たとえば機密情報が個人番号の場合,認識用領域に記入される社員コードの情報に対応付けられていることが好ましい。また,社員コードと直接対応していなくても,関連情報記憶部に記憶する関連情報と対応付けられていてもよい。たとえば機密情報記憶部25では氏名と個人番号とが対応付けて記憶されており,関連情報記憶部で社員コードと氏名とが対応付けて記憶されている。この場合,特定処理部24が,認識用領域に記入される社員コードの情報に基づいて関連情報記憶部を参照して氏名を特定し,特定した指名に基づいて機密情報記憶部25を参照してその個人番号を特定する。
特定処理部24は,認識用領域に記入される項目欄の情報に基づいて,直接的または間接的に,機密情報記憶部25に記憶される機密情報を特定し,記入済文書の機密情報を入れ込む領域に,当該特定した機密情報を入れ込む処理を実行する。
つぎに本実施例における文書処理システム1の処理プロセスの一例を図3,図4,図6,図17のフローチャートを用いて説明する。
まず企業などの文書処理システム1を利用する操作者は,自らが操作するコンピュータから文書処理システム1にアクセスし,ひな形生成処理を実行させる(S100)。まず,ひな形文書を生成するため,たとえば図7などの原文書をスキャナなどで読み取らせる。
スキャナは原文書を電子化し,それを原文書受付処理部11で受け付ける(S110)。なお,原文書があらかじめ電子化されている場合には,その入力を原文書受付処理部11で受け付ければよい。
原文書受付処理部11で原文書を受け付け後,書式識別情報が割り当てられ,書式定義記憶部13に記憶される。また,操作者は,原文書の所定箇所に,認識用領域を設定する操作を行い,その操作入力をひな形文書生成処理部12で受け付ける(S120)。受け付けた認識用領域に関する情報,たとえばその領域の座標情報,認識用領域に表示する項目欄やそこに表示する項目欄の名称などの情報は,書式識別情報に対応付けて書式定義記憶部13に記憶させる。
さらに,操作者は,原文書の余白部分に,消去用領域の設定を行い,その操作入力をひな形文書生成処理部12で受け付ける。受け付けた消去用領域に関する情報,たとえばその領域の座標情報は,書式識別情報に対応付けて書式定義記憶部13に記憶させる。
加えて,操作者は,機密情報を入れ込む領域を設定する操作を行い,その操作入力をひな形文書生成処理部12で受け付ける。受け付けた機密情報を入れ込む領域の座標情報は,書式識別情報に対応付けて書式定義記憶部13に記憶させる。
以上のようにして原文書に基づいてひな形文書を生成すると,ひな形文書生成処理部12は,書式識別情報に対応付けてそれを記憶させる。
そして,ひな形文書への記入を行う記入者や,企業で所定の業務を行う担当者など,各種の操作者からが操作するコンピュータからの要求に応じて,ひな形文書の出力を,ひな形文書出力処理部14が行う(S130)。この際には,出力するひな形文書の書式定義記憶部13に記憶する認識用領域に関する情報に基づいて,出力の際に,認識用領域として設定された座標に,認識用領域を描画した上で,プリンタなどで出力を行う。
以上のようにして出力した紙媒体または電子媒体のひな形文書(図8)に対して,記入者が各項目欄への記入を行う。そして,それを企業の所定の操作者などに提出後,文書処理システム1は,記入済文書読取処理を実行する(S200)。
まず,文書処理システム1の操作者は,図10などの記入済文書をスキャナなどで読み取らせる。スキャナは記入済文書を電子化し,それを記入済文書受付処理部21で受け付ける(S210)。なお,記入済文書があらかじめ電子化されている場合には,その入力を記入済文書受付処理部21で受け付ければよい。受け付けた記入済文書は,文書識別情報が割り当てられて,記入済文書記憶部22に記憶される。また,受け付けた記入済文書に対応付けて書式識別情報を特定し,対応付けて記入済文書記憶部22に記憶される。
そしてOCR処理部23は,記入済文書受付処理部21で特定した書式識別情報に基づいて,書式定義記憶部13を参照して認識用領域を特定し,テキスト認識処理を実行する(S220)。これによって,記入済文書が図10の場合,テキスト「1234」を認識する。
OCR処理部23によってテキスト認識処理を実行後,特定処理部24は,認識したテキストに基づいて,機密情報記憶部25を参照し,対応する機密情報を特定する(S230)。そして,特定処理部24は,書式識別情報に基づいて書式定義記憶部13を参照して機密情報を入れ込む領域を特定し,その領域に,特定した機密情報を入れ込む処理を実行する(S240)。
以上のような処理を実行することで,記入済文書に機密情報を入れ込むことが可能となる。
そして所定のタイミングで記入済文書について,官公庁などの提出先に提出するため,出力をする提出文書出力処理(S300)を実行するが,以降の処理は実施例1と同様であるため説明を省略する。
上述の実施例1乃至実施例3において,OCR処理部23は,認識用領域のみについてテキスト認識処理を行うのではなく,さらに記入済文書の一以上の項目欄についてテキスト認識処理を行ってもよい。この場合,ひな形文書の一以上の項目欄に,テキスト認識の対象となる補助領域の設定がひな形文書において行われ,それが書式定義記憶部13に記憶されている。そしてOCR処理部23は記入済文書の書式識別情報に基づいて書式定義記憶部13を参照する際に,認識用領域のみらならず,補助領域の座標情報を抽出し,それらに基づいてテキスト認識処理を行うように構成をしてもよい。
この場合,認識用領域でのテキスト認識の結果と,補助領域でのテキスト認識の結果に齟齬が生じる可能性がある。その場合,特定処理部24は,認識用領域のテキスト認識の結果を優先的に利用してその処理を実行する。すなわち,認識用領域のテキスト認識の結果に基づいて,それと一致するまたは類似する関連情報,機密情報を関連情報記憶部,機密情報記憶部25から特定し,その中から,さらに補助領域でのテキスト認識の結果に基づいて,一致するまたは類似する関連情報,機密情報を関連情報記憶部,機密情報記憶部25から特定することで絞込の処理を行う。
補助領域は氏名の項目欄のほか生年月日の項目欄など,関連情報,機密情報を一意に特定可能な程度,一または複数設定されていてもよい。
図18に,給与所得の源泉徴収票が記入済文書として読み込まれた場合の一例を模式的に示す。図18では認識用領域として社員コードの項目欄が設けられており,補助領域として氏名の項目欄が設定されている。また機密情報を入れ込む領域として個人番号(マイナンバー)の項目欄が設定されている。また認識用領域と補助領域での認識の結果,補助領域による認識では氏名として「伊藤 英治」,「伊藤 英一」の2名が特定されており,社員コードとしては「090003」が認識されている。
図19に,図18の記入済文書が提出文書処理部30における処理の結果,提出文書として生成された場合の一例を模式的に示す。図19では認識用領域が表示されておらず,また機密情報を入れ込む領域に個人番号が入れ込まれている。
このように,本実施例を用いることで,認識の精度を向上させることもできる。
本発明の文書処理システム1を用いることによって,記入項目があらかじめ定められている文書であって,文書にテキスト認識率の高い項目欄が含まれていない場合であっても,当該文書を電子化した際に,原文書に追加して設定したテキスト認識用の項目欄をOCRによってテキスト認識することで必要な情報を読み取ることができる。これによって,文書と所定の情報,たとえば個人とを紐付けることを可能とせしめる。また,その文書を出力する場合には,不要である当該項目欄を削除した上で出力させるので,その文書をそのまま提出に用いることができる。
1:文書処理システム
10:ひな形文書処理部
11:原文書受付処理部
12:ひな形文書生成処理部
13:書式定義記憶部
14:ひな形文書出力処理部
20:記入済文書処理部
21:記入済文書受付処理部
22:記入済文書記憶部
23:OCR処理部
24:特定処理部
25:機密情報記憶部
30:提出文書処理部
31:提出文書生成処理部
32:提出文書出力処理部
70:演算装置
71:記憶装置
72:表示装置
73:入力装置
74:通信装置

Claims (10)

  1. 記入項目が定められている原文書に対して,OCRによるテキスト認識用の項目欄である認識用領域に関する情報の設定を受け付け,前記認識用領域を備えた原文書をひな形文書として出力するひな形文書処理部と,
    前記ひな形文書に記入がされた記入済文書を受け付けて,その記入済文書における認識用領域に対してテキスト認識処理を実行する記入済文書処理部と,
    前記認識用領域に関する情報に基づいて,前記記入済文書から前記認識用領域およびその記載事項を表示しない状態の提出文書を生成し,出力をする提出文書処理部と,
    を備えることを特徴とする文書処理システム。
  2. 前記記入済文書処理部は,さらに,
    前記テキスト認識処理で認識したテキストに基づいて,対応する関連情報を直接的または間接的に特定する,
    ことを特徴とする請求項1に記載の文書処理システム。
  3. 前記記入済文書処理部は,さらに,
    前記テキスト認識処理で認識したテキストに基づいて,対応する機密情報を直接的または間接的に特定する,
    ことを特徴とする請求項1または請求項2に記載の文書処理システム。
  4. 前記記入済文書処理部は,
    前記特定した関連情報を前記記入済文書に対応付けて保存する,
    ことを特徴とする請求項2に記載の文書処理システム。
  5. 前記ひな形文書処理部は,さらに,
    前記機密情報を入れ込むための領域の情報の設定を受け付け,
    前記記入済文書処理部は,
    前記受け付けた記入済文書において前記機密情報を入れ込むための領域に,前記特定した機密情報を入れ込む,
    ことを特徴とする請求項3に記載の文書処理システム。
  6. 前記ひな形文書処理部は,さらに,
    前記認識用領域を表示しない状態とする情報の設定を受け付け,
    前記提出文書処理部は,
    前記受け付けた前記認識用領域に関する情報と前記認識用領域を表示しない状態とする情報とに基づいて,前記認識用領域を表示しない状態とする情報で前記認識用領域の表示状態を変更することで,前記記入済文書から前記認識用領域およびその記載事項を表示しない状態の提出文書を生成する,
    ことを特徴とする請求項1から請求項5のいずれかに記載の文書処理システム。
  7. 前記ひな形文書処理部は,
    前記認識用領域として前記テキスト認識の認識率が高い情報の項目欄の設定を受け付ける,
    ことを特徴とする請求項1から請求項6のいずれかに記載の文書処理システム。
  8. 前記ひな形文書処理部は,
    前記認識用領域として,数字および/または英字による情報の項目欄の設定を受け付ける,
    ことを特徴とする請求項1から請求項7のいずれかに記載の文書処理システム。
  9. 記入項目が定められている原文書に対する,OCRによるテキスト認識用の項目欄である認識用領域に関する情報と,前記原文書の書式を識別するための書式識別情報とを対応づけて記憶する書式定義記憶部と,
    前記書式定義記憶部に記憶する情報に基づいて,前記認識用領域が前記原文書に表示された状態のひな形文書を出力するひな形文書出力処理部と,
    前記ひな形文書の項目欄に記入がされた記入済文書を受け付ける記入済文書受付処理部と,
    前記記入済文書に対応する書式識別情報に基づいて,前記認識用領域を前記書式定義記憶部から特定して,前記特定した認識用領域に対してテキスト認識処理を実行するOCR処理部と,
    前記記入済文書の出力指示を受け付けると,前記認識用領域およびその記載事項を表示させない状態の提出文書を生成する提出文書生成処理部と,
    前記生成した提出文書を出力する提出文書出力処理部と,
    を備えることを特徴とする文書処理システム。
  10. コンピュータを,
    記入項目が定められている原文書に対して,OCRによるテキスト認識用の項目欄である認識用領域に関する情報の設定を受け付け,前記認識用領域を備えた原文書をひな形文書として出力するひな形文書処理部,
    前記ひな形文書に記入がされた記入済文書を受け付けて,その記入済文書における認識用領域に対してテキスト認識処理を実行する記入済文書処理部,
    前記認識用領域に関する情報に基づいて,前記記入済文書から前記認識用領域およびその記載事項を表示しない状態の提出文書を生成し,出力をする提出文書処理部,
    として機能させることを特徴とする文書処理プログラム。
JP2017007222A 2017-01-19 2017-01-19 文書処理システム Active JP6190549B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017007222A JP6190549B1 (ja) 2017-01-19 2017-01-19 文書処理システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017007222A JP6190549B1 (ja) 2017-01-19 2017-01-19 文書処理システム

Publications (2)

Publication Number Publication Date
JP6190549B1 true JP6190549B1 (ja) 2017-08-30
JP2018116520A JP2018116520A (ja) 2018-07-26

Family

ID=59720426

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017007222A Active JP6190549B1 (ja) 2017-01-19 2017-01-19 文書処理システム

Country Status (1)

Country Link
JP (1) JP6190549B1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6910273B2 (ja) * 2017-11-17 2021-07-28 グローリー株式会社 帳票画像処理装置、帳票画像処理システム、帳票画像処理方法およびプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11345243A (ja) * 1998-06-03 1999-12-14 Canon Inc 画像処理装置及びその方法、コンピュータ可読メモリ
JP2009153021A (ja) * 2007-12-21 2009-07-09 Oki Electric Ind Co Ltd 画像入力システム、画像入力方法及びプログラム
US20150033107A1 (en) * 2012-02-27 2015-01-29 Foxit Corporation Method and device for adding fillable form field into pdf document static form
JP2015227013A (ja) * 2014-05-30 2015-12-17 キヤノンマーケティングジャパン株式会社 印刷装置、制御方法、及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11345243A (ja) * 1998-06-03 1999-12-14 Canon Inc 画像処理装置及びその方法、コンピュータ可読メモリ
JP2009153021A (ja) * 2007-12-21 2009-07-09 Oki Electric Ind Co Ltd 画像入力システム、画像入力方法及びプログラム
US20150033107A1 (en) * 2012-02-27 2015-01-29 Foxit Corporation Method and device for adding fillable form field into pdf document static form
JP2015227013A (ja) * 2014-05-30 2015-12-17 キヤノンマーケティングジャパン株式会社 印刷装置、制御方法、及びプログラム

Also Published As

Publication number Publication date
JP2018116520A (ja) 2018-07-26

Similar Documents

Publication Publication Date Title
US10810351B2 (en) Integrated document editor
JP4719543B2 (ja) ワークフローシステム、サーバ装置、ワークフローシステムの処理方法及びワークフロープログラム
US20090049375A1 (en) Selective processing of information from a digital copy of a document for data entry
US11303769B2 (en) Image processing system that computerizes documents with notification of labeled items, control method thereof, and storage medium
EP2884425B1 (en) Method and system of extracting structured data from a document
JP2973913B2 (ja) 入力シートシステム
JP6976763B2 (ja) 仕訳情報処理装置、仕訳情報処理方法、およびプログラム
JP6190549B1 (ja) 文書処理システム
JP7379987B2 (ja) 情報処理装置及びプログラム
JP2008257530A (ja) 電子ペン入力データ処理システム
US20220357844A1 (en) Integrated document editor
JP2000322417A (ja) 画像ファイリング装置及び方法及び記憶媒体
JP4396205B2 (ja) 帳票データ入力装置およびプログラム
US20230368555A1 (en) Information processing apparatus, information processing method, and storage medium
JPH07114610A (ja) 情報処理システムの入力装置及び情報処理システムの入力方法
JP6693045B2 (ja) 個人情報表示プログラム、個人情報表示方法、および表示制御装置
JP2019144853A (ja) 墨消し処理を行う情報処理装置、その制御方法及びプログラム
JP7161797B1 (ja) データ入力支援装置、データ入力支援システム、データ入力支援方法、及びデータ入力支援プログラム
US20220222362A1 (en) Method and apparatus for document processing
US11698763B2 (en) Information processing apparatus for registered files and issuing identification information for tracking an evaluation of a user using the files
JP6739261B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2024068871A (ja) 図面管理システム
JP2024084452A (ja) 情報処理装置とその制御方法、及びプログラム
JP2023035045A (ja) 情報処理装置およびプログラム
JPH03149651A (ja) 電子文書承認装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170210

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20170210

A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20170210

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20170315

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170523

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170530

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170714

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170801

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170804

R150 Certificate of patent or registration of utility model

Ref document number: 6190549

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250