JP2014182477A - プログラム及び帳票処理装置 - Google Patents

プログラム及び帳票処理装置 Download PDF

Info

Publication number
JP2014182477A
JP2014182477A JP2013055335A JP2013055335A JP2014182477A JP 2014182477 A JP2014182477 A JP 2014182477A JP 2013055335 A JP2013055335 A JP 2013055335A JP 2013055335 A JP2013055335 A JP 2013055335A JP 2014182477 A JP2014182477 A JP 2014182477A
Authority
JP
Japan
Prior art keywords
attribute
character string
attribute item
document
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013055335A
Other languages
English (en)
Inventor
Kazutoshi Ikeda
和敏 池田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2013055335A priority Critical patent/JP2014182477A/ja
Publication of JP2014182477A publication Critical patent/JP2014182477A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】入力された帳票の中の属性項目の文字認識結果に対する的確な修正候補を提供する。
【解決手段】文字認識部14は、入力された帳票の画像から、その帳票内の各属性項目の属性値を文字認識すると共に、その帳票に含まれる種別コードを解析してその帳票の種別を判定する。属性マッピング部16は、認識した各属性値がそれぞれ帳票のどの属性項目に該当するかを判定する。同種帳票検索部18は、入力された帳票の種別と同じ種別の過去の帳票のデータを帳票データベース10から検索する。サンプル文字列特定部20は、入力された帳票内の確認対象の属性項目と同じ属性項目の属性値を、同種帳票検索部18の検索結果の帳票群のデータから求める。修正候補判定部22は、サンプル文字列特定部20が特定した各属性値(文字列)と、入力された帳票から認識された確認対象の属性項目の属性値との類似度を計算し、閾値以上の類似度を持つ属性値を修正候補に選ぶ。
【選択図】図2

Description

本発明は、プログラム及び帳票処理装置に関する。
紙の帳票をスキャナ等の読み取り装置で読み取り、読み取り結果の画像からOCR(光学文字認識)技術によりテキスト情報を得ることが行われている。しかし、OCRの認識精度は100%ではないため、正しいテキスト情報を得るには、OCR結果を人の目で確認し、間違いがあれば修正するという確認・修正プロセスが必要である。この人による確認・修正プロセスの効率化が求められている。
特許文献1に開示された技術では、単語辞書による単語照合と文法規則を用いた文法チェックにより候補単語列を列挙し、文字認識評価結果、単語長、単語の出現頻度および文法的な単語の接続関係から各単語列の評価値を算出し、評価値が大きい単語列を誤読修正候補として出力することで文章を修正する際のキー入力を減らす。
特許文献2に開示される技術では、電子図書から単語データを抽出し、電子図書の電子図書番号とともに単語辞書に保管しておく。以降、電子図書から文字認識により抽出した単語データを含む電子図書を前記単語辞書より検索し、検索された電子図書に含まれる単語データ群の中から補正候補を特定する。
特開平07−028956号公報 特開2003−173421号公報
本発明は、入力された帳票の中の属性項目の文字認識結果に対する修正候補として、辞書や文法などに基づいた修正候補や、単に関連文書に含まれているという共通点に基づいて求められる修正候補よりも的確な修正候補を提供することを目的とする。
請求項1に係る発明は、コンピュータを、サンプル帳票ごとに、当該サンプル帳票の種別と、当該各サンプル帳票に記載された各属性項目の値の文字列とを記憶する記憶手段、入力された帳票の画像から当該帳票の種別を認識し、認識した種別に該当するサンプル帳票群を前記記憶手段から検索する検索手段、前記入力された帳票の画像から文字認識により求められた属性項目の文字列のうちの確認対象の属性項目の文字列について、当該文字列に類似する文字列を、前記検索手段により検索された各サンプル帳票における当該確認対象の属性項目の文字列の中から特定し、特定した文字列を前記確認対象の属性項目の文字列の修正候補として提示する候補提示手段、として機能させるためのプログラムである。
請求項2に係る発明は、前記検索手段は、前記入力された帳票の画像から認識した種別に該当する帳票のうち、あらかじめ定められた絞込条件に合致するもののみを検索する、ことを特徴とする請求項1に記載のプログラムである。
請求項3に係る発明は、前記絞込条件は、前記入力された帳票に含まれる属性項目の組み合わせと一致又は類似する属性項目の組み合わせを持つことである、ことを特徴とする請求項2に記載のプログラムである。
請求項4に係る発明は、サンプル帳票ごとに、当該サンプル帳票の種別と、当該各サンプル帳票に記載された各属性項目の値の文字列とを記憶する記憶手段と、入力された帳票の画像から当該帳票の種別を認識し、認識した種別に該当するサンプル帳票群を前記記憶手段から検索する検索手段と、前記入力された帳票の画像から文字認識により求められた属性項目の文字列のうちの確認対象の属性項目の文字列について、当該文字列に類似する文字列を、前記検索手段により検索された各サンプル帳票における当該確認対象の属性項目の文字列の中から特定し、特定した文字列を前記確認対象の属性項目の文字列の修正候補として提示する候補提示手段と、を備える帳票処理装置である。
請求項1又は4に係る発明によれば、入力された帳票の中の属性項目の文字認識結果に対する修正候補として、辞書や文法などに基づいた修正候補や、単に関連文書に含まれているという共通点に基づいて求められる修正候補よりも的確な修正候補を提供することができる。
請求項2に係る発明によれば、入力された帳票の種別に該当するサンプル帳票群の数が多い場合に、確認対象の属性項目の文字列に類似する文字列を特定する処理の対象とするサンプル帳票群を減らし、その特定する処理に要する時間を短縮することができる。
請求項3に係る発明によれば、類似する文字列を特定する処理の対象とするサンプル帳票群として、この発明を用いない場合よりも、入力された帳票に関連性の高い帳票群を選ぶことができる。
帳票種別の識別コードを含んだ帳票の一例を示す図である。 実施形態の帳票処理装置の構成の一例を示す図である。 図1に例示した帳票から抽出された属性情報の一覧を示す図である。 実施形態における、文字認識結果に対する修正候補提示の流れを説明するための図である。 変形例の帳票処理装置の構成の一例を示す図である。
以下に説明する実施形態の帳票処理装置は、紙の帳票をスキャンすることで得た画像から、文字認識処理によりその帳票に含まれる各属性項目の値(文字列)を認識する。文字認識の結果は画面表示され、ユーザがその画面を見て文字認識結果に誤りが無いか確認し、誤りがあれば修正する。このユーザによる確認・修正の作業を支援するために、この実施形態の帳票処理装置は、帳票中のすべての属性項目、又は確認対象に選ばれた属性項目について、その属性項目の値(以下「属性値」と呼ぶ)の文字認識結果が誤りであったとした場合の正解の候補を求め、ユーザに提示する。
帳票処理装置が取り扱う「帳票」は、1以上の属性項目の値を含んだ文書である。紙の帳票の場合、個々の属性項目に対応して用意された記入欄に対し、手書き、タイプ打ち、又はパーソナルコンピュータ上のアプリケーション経由での印刷、などにより属性値である文字列が記入される。各記入欄がそれぞれどの属性項目に対応するかは、例えば、帳票上で記入欄の近傍(例えば記入欄の上や左隣)に印刷された属性名から判別される。また、別の例では、各属性項目の記入欄がそれぞれ帳票上のどの位置に配置されているかなどを表す帳票定義情報を参照することで、各記入欄に記入された値がどの属性項目に対応するものかを特定する。これらいずれの方式を用いてもよい。
図1に、本実施形態で用いる帳票の一例を示す。この例では、帳票100には、表題110の文字列「サンプル帳票」や、各属性項目の識別名である属性名112の文字列(「申請日」、「本籍地」など)が印刷されている。そして、各属性項目の属性名112の下に、属性値を記入する記入欄114が設けられている。この例では、記入欄114は、1つ乃至複数の文字枠を並べたものであり、1つの文字枠に1文字を記入するように構成されている。
また、帳票100には、その帳票100の種別に対応づけられたコード116が印刷されている。ある例では、コード116は帳票の種別そのものを表す。また、別の例では、コード116は、その帳票100そのものの識別情報を表しており、帳票の識別情報に対応づけてその帳票の種別を記録しているデータベースを参照することで、そのコード116からその帳票の種別が特定される。これらはあくまで例示的なものであり、コード116が表す情報は、その情報から当該帳票の種別が特定できるものであれば、どのようなものであってもよい。
図示例では、コード116のコード形式として、QRコード(登録商標)を用いているが、これは一例に過ぎない。コード116は、画像認識処理によりそのコード116の示す値が認識可能な形式であればどのような形式であってもよい。例えばバーコードなどといった他の画像コード形式であってもよいし、文字列形式(例えば種別の識別番号を表す数字列)であってもよい。
図2に、本発明に係る帳票処理装置の一つの実施形態の構成を示す。
図2の構成において、帳票データベース10には、サンプルとなる複数の帳票の認識結果のデータが蓄積されている。例えば、帳票処理装置が過去に処理した帳票の認識結果のデータを、帳票データベース10に蓄積し、サンプルとして利用する運用形態を採用する。
帳票データベース10に蓄積された帳票のデータの一例を図3に示す。この例では、帳票から認識した各属性項目の情報を、ID、型、及び値という3つの項目の組として管理している。属性IDは、当該属性項目の識別情報である。例えば、属性項目に固有の名前である属性名を属性IDとして用いてもよい。属性値は、当該属性項目の値である。属性型は、属性値がとるデータ型(例えば文字列、整数、日付)であり、属性値はこの属性型に従って解釈される。なお、本実施形態が対象とする属性値は、文字認識により認識されるものであり、整数や日付などもその点では文字列と同じである。以下では、特に区別する必要がない場合には、文字認識により得られた文字列、整数、日付などの文字の列を文字列と総称する。
図3に例示した帳票データの最上位の属性項目である「帳票種別」の属性値は、帳票100に印刷されたコード116(図1参照)を読み取って求めたものである。その他の各属性項目の属性値は、帳票100の各記入欄内の画像を文字認識することで求められる。なお、帳票データベース10に蓄積される各属性値としては、ユーザによる確認・修正を経たものを用いてもよい。帳票データベース10には、過去に読み取った具体的な帳票から求めた図3のような帳票データが多数蓄積されている。
図2の説明に戻ると、画像入力部12には、この帳票処理装置に接続されたスキャナがスキャンした帳票の画像が入力される。文字認識部14は、入力された帳票の画像に対して光学文字認識(OCR)処理を実行することで、帳票の各記入欄に記入された属性値の文字列を求める。また、文字認識部14は、入力された帳票100の画像内のコード116を認識することで、その帳票100の種別を認識する。属性マッピング部16は、文字認識部14が求めた各属性値の文字列が、それぞれその帳票のどの属性項目に対応するかを特定するマッピング(対応付け)処理を行う。このマッピング処理は、帳票上の当該文字列の近傍から読み取った属性名に基づいて行ってもよいし、認識された帳票種別に対応する帳票の定義情報を参照して行ってもよい。文字認識により得られた各属性項目の文字列の解釈は、当該属性項目の属性型に従って行われる。
以上に説明した画像入力部12、文字認識部14及び属性マッピング部16としては、従来のOCRアプリケーションが備えている機能を用いてもよい。
同種帳票検索部18は、入力された帳票の種別(文字認識部14が認識したもの)と同じ種別の帳票のデータを帳票データベース10から検索する。ここでは、同じ種別の帳票のデータを全て検索してもよいし、同じ種別の帳票のうちあらかじめ定めた絞り込み条件(詳細は後述)を満たすもののみを検索してもよい。
サンプル文字列特定部20は、入力された帳票から文字認識した属性値のうちの確認対象の属性値について、同種帳票検索部18が検索した帳票群のデータの中から、その確認対象の属性値と同じ属性項目の属性値を特定する。すなわち、サンプル文字列特定部20は、確認対象の属性値の属性項目の値として、過去の同種帳票でどのような値が用いられていたのかを求める。サンプル文字列特定部20が特定した属性値のことを、以下では「サンプル文字列」と呼ぶ。一般に、確認対象の1つの属性値に対して、複数のサンプル文字列が求められる。
なお、「確認対象の属性値」とは、文字認識結果の属性値に誤りがないかを人が確認すべき属性値のことである。入力された帳票中のすべての属性項目の属性値を確認対象の属性値としてもよい。また、それら属性値のうち確認作業を行うユーザが指定したものを確認対象の属性値としてもよい。これは、例えばユーザが、文字認識部14の認識結果の画面表示を閲覧し、表示された各属性項目の属性値の文字認識結果の中から、確認が必要なものを指定する場合に該当する。また、文字認識部14による文字認識の精度が低い属性値を確認対象の属性値としてもよい。すなわち、OCRアプリケーションには、文字認識結果と共に、認識精度(文字認識結果がどの程度確からしいかを表す数値)を出力する機能を持つものがあり、その機能から提供された認識精度が、例えばあらかじめ定めた閾値より低い属性値(文字列)を、確認対象の属性値として自動抽出するようにしてもよい。
修正候補判定部22は、確認対象の属性値ごとに、サンプル文字列特定部20が特定したその属性値に対応するサンプル文字列の中から、その属性値に対する類似度の高いものを、修正候補の文字列に判定する。修正候補の文字列とは、確認対象の属性値(文字認識結果)に対する正解(正しい認識結果)である可能性が高い文字列である。修正候補判定部22は、確認対象の属性値と各サンプル文字列との類似度を計算し、類似度の値があらかじめ定めた閾値より高いサンプル文字列を、修正候補の文字列に選定する。ここで類似度は、レーベンシュタイン距離(「編集距離」とも呼ばれる)などの公知の手法を用いて計算すればよい。この例では、確認対象の属性値に対する距離が小さいサンプル文字列ほど、確認対象の属性値に対する類似度の値が高くなる。閾値以上の類似度を持つサンプル文字列を全て修正候補に選んでもよいし、閾値以上の類似度を持つサンプル文字列のうち類似度が上位のあらかじめ定めた数まで修正候補を絞り込んでもよい。
修正候補提示部24は、修正候補判定部22が求めた修正候補のリストを、ユーザに対して提示する。1つの例では、帳票の各属性項目の文字認識結果を帳票のレイアウトに従って配置した認識結果提示画面上で、確認対象の属性項目の属性値(文字認識結果)の近傍に、修正候補のリストを表示する。修正候補のリストは、修正候補を例えば確認対象の属性値に対する類似度が高い順にソートしたものとする。
ユーザは、認識結果提示画面に表示された属性値の文字認識結果と、その近傍に表示された修正候補リストを確認し、文字認識結果に誤りがあれば、修正候補リストの中から正しい文字列を選択する。これにより、その属性値が、選択された正しい文字列に置き換えられる。
次に、図4に示す具体例を参照して、本実施形態における処理の流れを説明する。
この例では、帳票200を帳票処理装置に入力し、電子化する場合を考える。帳票200は、「開発業務委託契約書」と題されており、帳票データベース10では「業務委託契約書」という種別に分類される文書である。この帳票200をスキャンし、OCRアプリケーションにより文字認識を行って得られた文字認識結果210において、属性項目「納入品」の属性値の1つである「テスト設計書」という文字列中の、先頭のカタカナ「テ」が「〒」(郵便番号のマーク)として誤認識されていたとする。この場合、文字認識部14によりその帳票200の種別が「業務委託契約書」であると認識され、同種帳票検索部18が帳票データベース10から「業務委託契約書」の種別に該当する過去の帳票のデータを検索する。そして、検索された過去の帳票群のデータから、サンプル文字列特定部20が、属性項目「納入品」の属性値を求め、求めた属性値のリスト220を作成する。そして、修正候補判定部22が、その属性値リスト220内の各文字列について、それぞれ文字認識結果210(「テスト設計書」の先頭文字を誤認識したもの)の文字列との類似度をレーベンシュタイン距離などの類似度算出法により計算し、類似度が閾値を超える文字列を修正候補に選抜して類似度の降順にソートする。これにより修正候補リスト230が生成される。この例では、「テスト設計書」という文字列が最も類似する文字列として選ばれている。ユーザは、この修正候補リスト230の各文字列から、紙の帳票又はそのスキャン画像上のその文字列に該当するものを選択する。これにより、その文字列の文字認識結果が正しい値に修正される。
以上に説明したように、本実施形態では、過去に読み取った同種の帳票の中の、確認対象の属性値と同じ属性項目の属性値の中から、確認対象の属性値に類似するものを抽出し、その確認対象の属性値に対する修正候補としてユーザに提示する。同種帳票の中の同一属性項目の属性値の中から求めた修正候補は、辞書から求めた類似文字列や、単なる関連文書の中にある類似文字列(属性項目まで考慮していない)などよりも妥当な候補である可能性が高い。
以上の例では、同種帳票の中の同一属性項目の属性値の中から修正候補を求めたが、ここでいう「同一」の属性項目とは、帳票中の属性名の表記が一致するものに限られるわけではない。例えば、帳票中の属性名の表記をそのまま属性項目の識別情報として取り込み、帳票データベース10に登録する場合を考えると、実質上同じ意味を持つ属性項目が、帳票ごとの事情に応じて異なる属性名で示されることもあり得る(例えば「納入品」を「対象物品」と記載するなど)。そこで、表記自体は異なっていても実質的に同じものと見なせる属性名で表される属性項目は、同じ属性項目として取り扱うようにする。ある属性項目にどのような属性名が対応するかは、データベース化し、サンプル文字列特定部20から参照できるようにしておけばよい。
次に、図5を参照して、上記実施形態の変形例を説明する。この変形例は、同種帳票検索部18aが絞込部19を有している。絞込部19は、確認対象の属性値(文字認識結果)に対する修正候補の母集団を、入力された帳票と同じ種別の帳票群から更に絞り込む処理を行う。この絞込は、例えば、帳票データベース10内の過去の帳票データの数が膨大になり、同じ種別の帳票という条件だけでは母集団となる帳票の数が多くなりすぎる場合を考慮したものである。すなわち、母集団の帳票の数が多いと、確認対象の属性値と比較すべきサンプル文字列の数が多くなり、類似度の計算等の処理に多大な処理時間を要することとなるので、本実施形態では、母集団の帳票の数を絞り込むことで、そのような処理時間の増大を押さえる。
この変形例では、同種の帳票の中でも、入力された帳票に対する関連が強い帳票ができるだけ母集団に残るような方法で絞込を行う。そのための方策として、この変形例では、(1)帳票に含まれる属性項目の個数の類似度、(2)帳票に含まれる属性項目の種類の組み合わせの類似度、(3)ユーザが指定した属性値に関する条件、のうちの1以上を用いて絞込を行う。
(1)帳票に含まれる属性項目の個数の類似度、及び(2)帳票に含まれる属性項目の種類の組み合わせの類似度は、同種の帳票であっても帳票ごとの個別の事情などにより帳票に含まれる属性項目群が必ずしも完全に一致しないことを考慮したものである。例えば、同じ契約書であっても、契約対象物や契約相手先が異なると、契約書内に記載される項目に相違が出てくる。
(1)の基準を用いる例では、絞込部19は、入力された帳票と同種別であり、かつ、含んでいる属性項目(すなわち属性値が存在する属性項目)の数が一致する帳票を、帳票データベース10から検索する。属性項目の数が一致する帳票は、入力された帳票と同種の帳票の中でも、入力された帳票に対する関連性が高いと考えられる。ここでは、属性項目の個数が「一致」する同種帳票を検索するとしたが、この代わりに、入力された帳票の属性項目数との差があらかじめ定めた範囲内である同種帳票を検索するようにしてもよい。
入力された帳票に対する関連性をより厳密に考慮する場合、(2)の基準を用いる。この場合、絞込部19は、入力された帳票と同種別であり、かつ、含んでいる属性項目の組み合わせが一致する帳票を、帳票データベース10から検索する。例えば、入力された帳票が、「申請日」、「氏名」、「住所」という3つの属性項目の組を含んでいる場合、帳票データベース10のその帳票と同種の帳票のうち、含んでいる属性項目の組が「申請日」、「氏名」、「住所」である帳票(他の属性項目は含まない)を検索するのである。種別が同じでかつ属性項目の組が一致している帳票は、入力された帳票に対する関連性が非常に高いと考えられる。なお、ここでは属性項目の組み合わせが「一致」する同種帳票を検索するとしたが、完全一致に限らず、属性項目の組み合わせが類似しているものを検索してもよい。
(3)の方式では、確認作業を行うユーザが、絞込条件として、1以上の属性項目がとるべき属性値がとるべき条件を指定する。例えば、ユーザが、属性項目「申請日」が2012年の6〜12月である、という絞込条件を入力すると、絞込部19は、入力された帳票と同種の帳票のうち、「申請日」がその条件に合致する帳票を帳票データベース10から抽出する。
上記3つの基準のうちの2以上をAND条件やOR条件などといった論理式の形で組み合わせることで、絞込の条件を構成してもよい。
帳票処理装置に対して、それら3つの基準に基づく絞込のためのプログラムを組み込んでおき、ユーザがそれらのうちから所望の1つ乃至複数の組み合わせを選択できるようにしてもよい。
以上に説明した実施形態及び変形例の帳票処理装置は、例えば、デジタル複合機(コピー機、プリンタ、スキャナなどの複数の機能を兼ね備えた多機能装置)内に例えばソフトウエアとして組み込まれてもよいし、デジタル複合機やスキャナに接続されたPC(パーソナルコンピュータ)にソフトウエアとして実装されてもよい。
上述した帳票処理装置は、例えば、汎用のコンピュータ(例えばPC、又はデジタル複合機に内蔵されたコンピュータ)に上述の各機能モジュールの処理を表すプログラムを実行させることにより実現される。ここで、コンピュータは、例えば、ハードウエアとして、CPU等のマイクロプロセッサ、ランダムアクセスメモリ(RAM)およびリードオンリメモリ(ROM)等のメモリ(一次記憶装置)、二次記憶装置(ハードディスクドライブ、ソリッドステートドライブ、フラッシュメモリなど)、各種I/O(入出力)インタフェース、ローカルエリアネットワークなどのネットワークとの接続のための制御を行うネットワークインタフェース等が、例えばバスを介して接続された回路構成を有する。また、そのバスに対し、例えばI/Oインタフェース経由で、CDやDVDなどの可搬型ディスク記録媒体に対する読み取り及び/又は書き込みのためのディスクドライブ、フラッシュメモリなどの各種規格の可搬型の不揮発性記録媒体に対する読み取り及び/又は書き込みのためのメモリリーダライタ、などが接続されてもよい。上に例示した各機能モジュールの処理内容が記述されたプログラムがCDやDVD等の記録媒体を経由して、又はネットワーク等の通信手段経由で、二次記憶装置に保存され、コンピュータにインストールされる。二次記憶装置に記憶されたプログラムがRAMに読み出されCPU等のマイクロプロセッサにより実行されることにより、上に例示した機能モジュール群が実現される。
10 帳票データベース、12 画像入力部、14 文字認識部、16 属性マッピング部、18,18a 同種帳票検索部、19 絞込部、20 サンプル文字列特定部、22 修正候補判定部、24 修正候補提示部、100 帳票、110 表題、112 属性名、114 記入欄、116 コード、200 帳票、210 文字認識結果、220 属性値リスト、230 修正候補リスト。

Claims (4)

  1. コンピュータを、
    サンプル帳票ごとに、当該サンプル帳票の種別と、当該各サンプル帳票に記載された各属性項目の値の文字列とを記憶する記憶手段、
    入力された帳票の画像から当該帳票の種別を認識し、認識した種別に該当するサンプル帳票群を前記記憶手段から検索する検索手段、
    前記入力された帳票の画像から文字認識により求められた属性項目の文字列のうちの確認対象の属性項目の文字列について、当該文字列に類似する文字列を、前記検索手段により検索された各サンプル帳票における当該確認対象の属性項目の文字列の中から特定し、特定した文字列を前記確認対象の属性項目の文字列の修正候補として提示する候補提示手段、
    として機能させるためのプログラム。
  2. 前記検索手段は、前記入力された帳票の画像から認識した種別に該当する帳票のうち、あらかじめ定められた絞込条件に合致するもののみを検索する、ことを特徴とする請求項1に記載のプログラム。
  3. 前記絞込条件は、前記入力された帳票に含まれる属性項目の組み合わせと一致又は類似する属性項目の組み合わせを持つことである、ことを特徴とする請求項2に記載のプログラム。
  4. サンプル帳票ごとに、当該サンプル帳票の種別と、当該各サンプル帳票に記載された各属性項目の値の文字列とを記憶する記憶手段と、
    入力された帳票の画像から当該帳票の種別を認識し、認識した種別に該当するサンプル帳票群を前記記憶手段から検索する検索手段と、
    前記入力された帳票の画像から文字認識により求められた属性項目の文字列のうちの確認対象の属性項目の文字列について、当該文字列に類似する文字列を、前記検索手段により検索された各サンプル帳票における当該確認対象の属性項目の文字列の中から特定し、特定した文字列を前記確認対象の属性項目の文字列の修正候補として提示する候補提示手段と、
    を備える帳票処理装置。
JP2013055335A 2013-03-18 2013-03-18 プログラム及び帳票処理装置 Pending JP2014182477A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013055335A JP2014182477A (ja) 2013-03-18 2013-03-18 プログラム及び帳票処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013055335A JP2014182477A (ja) 2013-03-18 2013-03-18 プログラム及び帳票処理装置

Publications (1)

Publication Number Publication Date
JP2014182477A true JP2014182477A (ja) 2014-09-29

Family

ID=51701154

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013055335A Pending JP2014182477A (ja) 2013-03-18 2013-03-18 プログラム及び帳票処理装置

Country Status (1)

Country Link
JP (1) JP2014182477A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016071898A (ja) * 2014-09-30 2016-05-09 メディア株式会社 帳票認識装置、帳票認識システム、帳票認識システムのプログラム、帳票認識システムの制御方法、帳票認識システムプログラムを搭載した記録媒体
JP2017033477A (ja) * 2015-08-06 2017-02-09 日本電気株式会社 画像判定システム、画像判定方法、画像判定プログラム、画像判定プログラムを記録する記録媒体
JP2018109856A (ja) * 2016-12-29 2018-07-12 株式会社アルファTkg 通し番号情報付与プログラム
CN109063080A (zh) * 2018-07-25 2018-12-21 北京小度互娱科技有限公司 一种视频推荐方法及装置
WO2019194051A1 (ja) * 2018-04-02 2019-10-10 日本電気株式会社 画像処理装置、画像処理方法、およびプログラムを記憶する記憶媒体
JP2020154997A (ja) * 2019-03-22 2020-09-24 富士ゼロックス株式会社 情報処理装置及びプログラム
JP2020155155A (ja) * 2020-06-24 2020-09-24 日本電気株式会社 画像判定システム、画像判定方法、画像判定プログラム、画像判定プログラムを記録する記録媒体
JP2021002287A (ja) * 2019-06-24 2021-01-07 富士ゼロックス株式会社 情報処理装置、及び情報処理プログラム
WO2023132341A1 (ja) * 2022-01-05 2023-07-13 キャディ株式会社 図面検索装置、図面データベース構築装置、図面検索システム、図面検索方法、及び記録媒体

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10105654A (ja) * 1996-09-30 1998-04-24 Aibitsukusu Kk 帳票用文字認識装置
JP2003242441A (ja) * 2002-02-15 2003-08-29 Glory Ltd 帳票処理方法および装置並びにプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10105654A (ja) * 1996-09-30 1998-04-24 Aibitsukusu Kk 帳票用文字認識装置
JP2003242441A (ja) * 2002-02-15 2003-08-29 Glory Ltd 帳票処理方法および装置並びにプログラム

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016071898A (ja) * 2014-09-30 2016-05-09 メディア株式会社 帳票認識装置、帳票認識システム、帳票認識システムのプログラム、帳票認識システムの制御方法、帳票認識システムプログラムを搭載した記録媒体
JP2017033477A (ja) * 2015-08-06 2017-02-09 日本電気株式会社 画像判定システム、画像判定方法、画像判定プログラム、画像判定プログラムを記録する記録媒体
JP2018109856A (ja) * 2016-12-29 2018-07-12 株式会社アルファTkg 通し番号情報付与プログラム
US11321936B2 (en) 2018-04-02 2022-05-03 Nec Corporation Image processing device, image processing method, and storage medium storing program
WO2019194051A1 (ja) * 2018-04-02 2019-10-10 日本電気株式会社 画像処理装置、画像処理方法、およびプログラムを記憶する記憶媒体
JP2019185137A (ja) * 2018-04-02 2019-10-24 日本電気株式会社 画像処理装置、画像処理方法およびプログラム
CN109063080B (zh) * 2018-07-25 2022-01-21 北京小度互娱科技有限公司 一种视频推荐方法及装置
CN109063080A (zh) * 2018-07-25 2018-12-21 北京小度互娱科技有限公司 一种视频推荐方法及装置
JP2020154997A (ja) * 2019-03-22 2020-09-24 富士ゼロックス株式会社 情報処理装置及びプログラム
JP2021002287A (ja) * 2019-06-24 2021-01-07 富士ゼロックス株式会社 情報処理装置、及び情報処理プログラム
JP7298330B2 (ja) 2019-06-24 2023-06-27 富士フイルムビジネスイノベーション株式会社 情報処理装置、及び情報処理プログラム
JP2020155155A (ja) * 2020-06-24 2020-09-24 日本電気株式会社 画像判定システム、画像判定方法、画像判定プログラム、画像判定プログラムを記録する記録媒体
WO2023132341A1 (ja) * 2022-01-05 2023-07-13 キャディ株式会社 図面検索装置、図面データベース構築装置、図面検索システム、図面検索方法、及び記録媒体
JP7377565B2 (ja) 2022-01-05 2023-11-10 キャディ株式会社 図面検索装置、図面データベース構築装置、図面検索システム、図面検索方法、及びプログラム

Similar Documents

Publication Publication Date Title
JP2014182477A (ja) プログラム及び帳票処理装置
US8468167B2 (en) Automatic data validation and correction
CN108984578B (zh) 计算机、文档识别方法以及系统
US8176054B2 (en) Retrieving electronic documents by converting them to synthetic text
US9552516B2 (en) Document information extraction using geometric models
US8139870B2 (en) Image processing apparatus, recording medium, computer data signal, and image processing method
US9754176B2 (en) Method and system for data extraction from images of semi-structured documents
US20060045340A1 (en) Character recognition apparatus and character recognition method
US11475688B2 (en) Information processing apparatus and information processing method for extracting information from document image
JP2007172077A (ja) 画像検索システム及び方法及びプログラム
US10769360B1 (en) Apparatus and method for processing an electronic document to derive a first electronic document with electronic-sign items and a second electronic document with wet-sign items
US7359896B2 (en) Information retrieving system, information retrieving method, and information retrieving program
JP2019169025A (ja) 情報処理装置、文字認識エンジン選択方法及びプログラム
Ha et al. Information extraction from scanned invoice images using text analysis and layout features
JP2008310772A (ja) 情報処理装置、その制御プログラムおよび該制御プログラムを記録したコンピュータ読み取り可能な記録媒体、ならびに制御方法
JP2019169026A (ja) 情報処理装置、文字認識エンジン最適化方法及びプログラム
CN109074355B (zh) 用于表意字符分析的方法和介质
US11657367B2 (en) Workflow support apparatus, workflow support system, and non-transitory computer readable medium storing program
JP2021149439A (ja) 情報処理装置及び情報処理プログラム
US20150199582A1 (en) Character recognition apparatus and method
JP5550959B2 (ja) 文書処理システム、及びプログラム
WO2014068770A1 (ja) データ抽出方法、データ抽出装置及びそのプログラム
JP2586372B2 (ja) 情報検索装置及び情報検索方法
JP2017004218A (ja) 文書を処理する情報処理装置、情報処理方法、およびプログラム
US11315351B2 (en) Information processing device, information processing method, and information processing program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150306

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160121

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160126

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160324

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20160621