JP2022091608A - 情報処理装置、及び情報処理プログラム - Google Patents

情報処理装置、及び情報処理プログラム Download PDF

Info

Publication number
JP2022091608A
JP2022091608A JP2020204533A JP2020204533A JP2022091608A JP 2022091608 A JP2022091608 A JP 2022091608A JP 2020204533 A JP2020204533 A JP 2020204533A JP 2020204533 A JP2020204533 A JP 2020204533A JP 2022091608 A JP2022091608 A JP 2022091608A
Authority
JP
Japan
Prior art keywords
character string
key
value
key character
target image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020204533A
Other languages
English (en)
Inventor
大祐 辰巳
Daisuke Tatsumi
学 植田
Manabu Ueda
茜 阿部
Akane Abe
惇 安藤
Andojun
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujifilm Business Innovation Corp filed Critical Fujifilm Business Innovation Corp
Priority to JP2020204533A priority Critical patent/JP2022091608A/ja
Priority to US17/322,907 priority patent/US11699296B2/en
Publication of JP2022091608A publication Critical patent/JP2022091608A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Abstract

Figure 2022091608000001
【課題】本発明は、文字認識処理によるキーバリュー抽出においてキー文字列が抽出できない場合、又はキー文字列の確信度が低い場合であっても、キー文字列に対応するバリュー文字列を抽出することができる情報処理装置、及び情報処理プログラムを提供することを目的とする。
【解決手段】プロセッサを有し、プロセッサは、文字列を含む対象画像に対する文字認識の実行結果から、キーとして予め指定された文字列であるキー文字列を抽出した結果に応じて、対象画像からキー文字列に対応する画像を取得し、キー文字列に対応する画像を取得した結果を用いて、文字認識の実行結果から、キー文字列に対応するバリューを示す文字列であるバリュー文字列を抽出し、抽出したキー文字列、及び対応するバリュー文字列を出力する。
【選択図】図2

Description

本発明は、情報処理装置、及び情報処理プログラムに関する。
特許文献1には、多種レイアウトが混在する帳票群を、帳票定義なしに、読取対象文字列の読み取りおよび当該文字列の属性の判定を行う帳票認識装置であって、前記帳票画像から文字列領域を検出する文字列検出部と、前記文字列領域の個々の文字を認識する文字列認識部と、帳票画像内の文字列に対し、当該文字列が項目名である確率を表す項目名尤度を計算する項目名尤度計算部と、帳票画像内の文字列に対し、当該文字列が表記辞書に登録された単語や文字列の文法表記ルールに一致する確率を表す項目値尤度を計算する項目値尤度計算部と、帳票画像内の文字列ペアに対し、当該文字列ペアの文字列の枠または文字列矩形に基づいて、当該文字列ペアの配置関係が項目名-項目値関係として妥当であるかを表す配置尤度を計算する配置尤度計算部と、前記項目名尤度、項目値尤度、配置尤度を基に、当該文字列ペアの項目名-項目値としての尤もらしさを表す評価値を計算する項目名-項目値関係評価値計算部と、前記項目名-項目値関係評価値計算部の出力する前記評価値により、帳票画像内での項目名-項目値関係の対応付けを決定する項目名-項目値関係決定部を有することを特徴とする技術が開示されている。
特許文献2には、帳票を処理する帳票処理装置のコンピュータを、画像読取装置で前記帳票を読み取らせて帳票画像を取得する画像読取手段、前記画像読取手段によって取得した帳票画像に文字認識処理を実行して文字列を認識する文字列認識手段、前記文字列認識手段によって認識された文字列のうち、同一行内に配置された文字列群から構成される同一行文字列群情報を取得する同一行文字列群情報取得手段、前記同一行文字列群情報取得手段によって取得された同一行文字列群情報毎に予め定められた特定文字列を含むか否かを判断する特定文字列判断手段、前記特定文字列判断手段によって前記特定文字列を含むと判断された同一行文字列群情報の近傍に、予め定められた特定画像が存在するか否かを判断する特定画像判断手段、前記特定画像判断手段によって前記特定画像が存在すると判断された場合、前記特定画像の前記近傍の同一行文字列群情報に含まれる項目文字列を前記帳票に記載された特定の内容項目として取得する内容項目取得手段、として機能させる技術が開示されている。
特許第5621169号公報 特許第6616269号公報
書類等を読み取った画像に対して文字認識(OCR:Optical Character Recognition)処理を実行することによって、画像に含まれている文字列を抽出する技術がある。文字認識処理によって画像から文字列を抽出する場合において、キーとして予め指定された文字列(以下、「キー文字列」という。)に対応するバリューとなる文字列(以下、「バリュー文字列」という。)を抽出するキーバリュー抽出を行うことがある。
文字認識処理によるキーバリュー抽出は、文字認識の実行結果に誤認識等が含まれ、実行結果からキー文字列が抽出できない場合、又はキー文字列が抽出できるものの、抽出したキー文字列の確信度が予め定められた基準よりも低い場合、当該キー文字列に対応するバリュー文字列が抽出できない。
本発明は、文字認識処理によるキーバリュー抽出においてキー文字列が抽出できない場合、又はキー文字列の確信度が低い場合であっても、キー文字列に対応するバリュー文字列を抽出することができる情報処理装置、及び情報処理プログラムを提供することを目的とする。
第1の態様の情報処理装置は、プロセッサを有し、プロセッサは、文字列を含む対象画像に対する文字認識の実行結果から、キーとして予め指定された文字列であるキー文字列を抽出した結果に応じて、対象画像からキー文字列に対応する画像を取得し、キー文字列に対応する画像を取得した結果を用いて、文字認識の実行結果から、キー文字列に対応するバリューを示す文字列であるバリュー文字列を抽出し、抽出したキー文字列、及び対応するバリュー文字列を出力する。
第2の態様の情報処理装置は、第1の態様に係る情報処理装置において、プロセッサは、画像から文字列の画像を取得するための学習を行った学習モデルをさらに備え、学習モデルを用いて、対象画像からキー文字列に対応する画像を取得する。
第3の態様の情報処理装置は、第2の態様に係る情報処理装置において、プロセッサは、キー文字列に対応する画像を取得した対象画像を用いて、学習モデルを学習させる。
第4の態様の情報処理装置は、第1の態様から第3の態様の何れか1つの態様に係る情報処理装置において、キー文字列に対応する画像を取得した結果は、対象画像におけるキー文字列の位置を示す情報を含み、プロセッサは、キー文字列の位置を用いて、バリュー文字列を抽出する。
第5の態様の情報処理装置は、第4の態様に係る情報処理装置において、プロセッサは、キー文字列を基点としたバリュー文字列の位置を示す情報である位置情報をさらに取得し、キー文字列の位置を用いて、位置情報が示す対象画像上の位置におけるバリュー文字列を抽出する。
第6の態様の情報処理装置は、第1の態様から第5の態様の何れか1つの態様に係る情報処理装置において、プロセッサは、バリュー文字列に対する確からしさの度合を示す確信度をさらに導出し、確信度に応じて、抽出したバリュー文字列を出力する。
第7の態様の情報処理装置は、第6の態様に係る情報処理装置において、プロセッサは、予め記憶されたバリュー文字列を用いて、確信度を導出する。
第8の態様の情報処理プログラムは、コンピュータに、文字列を含む対象画像に対する文字認識の実行結果から、キーとして予め指定された文字列であるキー文字列を抽出した結果に応じて、対象画像からキー文字列に対応する画像を取得し、キー文字列に対応する画像を取得した結果を用いて、文字認識の実行結果から、キー文字列に対応するバリューを示す文字列であるバリュー文字列を抽出し、抽出したキー文字列、及び対応するバリュー文字列を出力する。
第1の態様の情報処理装置、及び第8の態様の情報処理プログラムによれば、文字認識処理によるキーバリュー抽出においてキー文字列が抽出できない場合、又はキー文字列の確信度が低い場合であっても、キー文字列に対応するバリュー文字列を抽出することができる。
第2の態様の情報処理装置によれば、予め定められた画像を用いて、キー文字列に対応する画像を取得する場合と比較して、キー文字列に対応する画像を取得する精度がより向上する。
第3の態様の情報処理装置によれば、無作為に対象画像を学習させる場合と比較して、キー文字列に対応する画像を取得する精度がより向上する。
第4の態様の情報処理装置によれば、キー文字列の位置を基点として、キー文字列に対応するバリュー文字列を検索して抽出できる。
第5の態様の情報処理装置によれば、検索する方向が定められていない場合と比較して、バリュー文字列を抽出する精度がより向上する。
第6の態様の情報処理装置によれば、バリュー文字列が対象画像から正確に抽出できているか否かを判断できる。
第7の態様の情報処理装置によれば、文字列のパターンを用いて、バリュー文字列が正確に抽出できているか否かを判断する場合と比較して、対象画像から正確に抽出できているか否かをより精度よく判断できる。
本実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。 本実施形態に係る情報処理装置の機能構成の一例を示すブロック図である。 本実施形態に係る文字列の抽出を行う対象画像の一例を示す図である。 本実施形態に係る位置情報データベースの一例を示す図である。 本実施形態に係る抽出処理によるデータの流れの一例を示すデータフロー図である。 本実施形態に係る文字列の訂正、及びキー文字列の指定の説明に供する確認訂正画面の一例を示す図である。 本実施形態に係る文字列を抽出する抽出処理の流れの一例を示すフローチャート図である。
以下、図面を参照して、本発明を実施するための形態例を詳細に説明する。
図1を参照して、情報処理装置10の構成について説明する。図1は、本実施形態に係る情報処理装置10のハードウェア構成の一例を示すブロック図である。一例として、本実施形態に係る情報処理装置10は、パーソナルコンピュータ等の端末、又はサーバである形態について説明する。しかし、これに限定されない。情報処理装置10は、画像形成装置等の他の装置に組み込まれていてもよい。
図1に示すように、本実施形態に係る情報処理装置10は、CPU(Central Processing Unit)11、ROM(Read Only Memory)12、RAM(Random Access Memory)13、ストレージ14、入力部15、モニタ16、及び通信インターフェース(通信I/F)17を含んで構成されている。CPU11、ROM12、RAM13、ストレージ14、入力部15、モニタ16、及び通信I/F17の各々は、バス18により相互に接続されている。ここで、CPU11は、プロセッサの一例である。
CPU11は、情報処理装置10の全体を統括し、制御する。ROM12は、本実施形態で用いる抽出処理プログラムを含む各種プログラム及びデータ等を記憶している。RAM13は、各種プログラムの実行時のワークエリアとして用いられるメモリである。CPU11は、ROM12に記憶されたプログラムをRAM13に展開して実行することにより、文字列を抽出する処理を行う。ストレージ14は、一例としてHDD(Hard Disk Drive)、SSD(Solid State Drive)、又はフラッシュメモリ等である。なお、ストレージ14には、抽出処理プログラム等を記憶してもよい。入力部15は、文字の入力等を受け付けるマウス、及びキーボード等である。モニタ16は、抽出した文字列等を表示する。通信I/F17は、データの送受信を行う。
次に、図2を参照して、情報処理装置10の機能構成について説明する。図2は、本実施形態に係る情報処理装置10の機能的な構成の一例を示すブロック図である。
図2に示すように、情報処理装置10は、取得部21、認識部22、検出部23、抽出部24、導出部25、判定部26、確認訂正部27、出力部28、記憶部29、及び学習部30を備えている。CPU11が情報処理プログラムを実行することで、取得部21、認識部22、検出部23、抽出部24、導出部25、判定部26、確認訂正部27、出力部28、記憶部29、及び学習部30として機能する。
取得部21は、文字列を抽出する対象となる画像(以下、「対象画像」という。)31を取得する。なお、本実施形態に係る対象画像31は、図3に示すように、記載する項目、及び項目に対してユーザによって記載又は入力された文字列を含む書類の画像である形態について説明する。しかし、これに限定されない。対象画像31は、罫線等で区切られた帳票又は伝票の画像であってもよいし、機械的に印字された領収書等であってもよいし、文字列が含まれている書類の画像であれば、如何なる画像であってもよい。
認識部22は、文字認識(OCR:Optical Charactor Recognition)処理を用いて、対象画像31から書類に含まれている文字列、及び対象画像31における文字列の位置(座標)等を取得し、認識結果として出力する。
検出部23は、物体検知処理を用いて、対象画像31から指定された文字列に対応する画像の領域の位置を検出する。具体的には、検出部23は、CNN(Convolution Neural Network)及びYOLO(You Only Look Once)等の指定された文字列を検出するための機械学習を行った学習モデルである。検出部23は、対象画像31から指定された文字列に対応する画像の領域を検出し、指定された文字列、及び対象画像31における指定された文字列に対応する画像の領域の位置(座標)等を取得して、検出結果として出力する。
なお、本実施形態では、機械学習を用いた学習モデルによって、対象画像31から指定された文字列に対応する画像の領域を検出する形態について説明した。しかし、これに限定されない。パターンマッチング処理を用いて、対象画像31から指定された文字列に対応する画像の領域の位置を検出してもよい。例えば、指定された文字列に対応する各々の画像を予め記憶し、形状検出、及びテンプレートマッチング等のパターンマッチング処理によって、指定された文字列に対応する画像を用いて、対象画像31から指定された文字列に対応する画像の領域を検出してもよい。
抽出部24は、認識部22によって実行された文字認識処理の結果、又は検出部23によって実行された検出処理の結果を用いて、対象画像31から文字列を抽出する。なお、本実施形態では、キーバリュー抽出を用いて、対象画像31から文字列を抽出する形態について説明する。ここで、キーバリュー抽出とは、抽出の基点となる予め定められた文字列であるキーと、キーに対応する文字列であるバリューと、の組み合わせを抽出する処理である。
抽出部24は、文字認識処理の結果、又は検出処理の結果から、指定されたキーとなる文字列(以下、「キー文字列」という。)を検索し、キー文字列の位置を取得する。抽出部24は、取得した位置を用いて、キー文字列に対応するバリューとなる文字列(以下、「バリュー文字列」という。)を文字認識処理の結果から抽出する。具体的には、抽出部24は、キー文字列の近傍に位置する文字列をバリュー文字列として抽出する。ここで、近傍に位置する文字列とは、例えば、キー文字列の位置から予め定められた距離に位置する文字列、又はキー文字列の位置から最も短い距離に位置する文字列である。例えば、図3に示す「氏名」がキー文字列として指定された場合、抽出部24は、「富士 太郎」をバリュー文字列として抽出する。
なお、本実施形態では、キー文字列の近傍に位置する文字列をバリュー文字列として抽出する形態について説明した。しかし、これに限定されない。キー文字列を基点として予め定められた方向に位置する文字列をバリュー文字列として抽出してもよい。例えば、後述する記憶部29は、図4に示すように、キー名と、位置情報と、を関連付けて記憶する位置情報データベース(以下、「位置情報DB」という。)32を記憶していてもよい。キー名は、対象画像31における書類に記載されているキー文字列の名称であり、位置情報は、各々のキー文字列を基点として、対応するバリュー文字列が位置する方向を示す情報である。一例として図4に示す「申込日」の位置情報「K-右-V」は、対象画像31において、キー文字列「申込日」の右側にバリュー文字列である「XX年XX月XX日」が位置することを表している。つまり、抽出部24は、キー文字列の位置を基点にして、位置情報DB32の位置情報が示す方向に位置する文字列をバリュー文字列として抽出してもよい。
導出部25は、抽出部24によって抽出されたキー文字列、及びバリュー文字列の確からしさを示す度合(以下、「確信度」という。)を導出する。例えば、後述する記憶部29に予め記憶されたキー文字列、及びバリュー文字列から類似する文字列を参照して、対象画像31から抽出したキー文字列、及びバリュー文字列の確信度を導出することが可能である。例えば、導出部25は、抽出したキー文字列及びバリュー文字列と、記憶部29に記憶されているキー文字列及びバリュー文字列と、のレーベンシュタイン距離を導出する。導出部25は、最も小さいレーベンシュタイン距離に係るキー文字列及びバリュー文字列と、抽出したキー文字列及びバリュー文字列と、の類似の度合から確信度を導出する。ここで、レーベンシュタイン距離とは、任意の文字列を他の文字列に変更する際に、文字の入れ替え、追加、及び削除した回数を計数して導出される距離である。
判定部26は、対象画像31からキー文字列が抽出できたか否かを判定する。具体的には、判定部26は、確信度が予め定められた閾値より小さい場合、又はキー文字列が抽出できていなかった場合、判定部26は、対象画像31からキー文字列が抽出できていないと判定する。
確認訂正部27は、対象画像31から抽出したキー文字列、バリュー文字列、及び対象画像31におけるキー文字列の位置を表示して、キー文字列の位置の訂正を受け付ける。
出力部28は、対象画像31から抽出したキー文字列、及びバリュー文字列を出力する。
記憶部29は、対象画像31から抽出したキー文字列、及びバリュー文字列を記憶する。記憶部29は、対象画像31、及び対象画像31におけるキー文字列の位置を関連付けて記憶する。また、記憶部29は、上述したキー文字列に対応する画像、位置情報DB32、及び過去に抽出されたキー文字列、及びバリュー文字列を記憶している。
学習部30は、検出部23に対して、対象画像31を用いて、キー文字列、及びキー文字列の位置の学習を行う。なお、学習部30は、対象画像31、及びキー文字列を入力データとし、キー文字列の位置を教師データとして、検出部23に学習させる。
次に、情報処理装置10の作用について説明する前に、図5を参照して、本実施形態に係るキー文字列、及びバリュー文字列を抽出する手法について説明する。図5は、本実施形態に係るキー文字列、及びバリュー文字列を抽出する処理の流れの一例を示すデータフロー図である。
取得部21は、対象画像31を取得し、認識部22に入力する。
認識部22は、取得した対象画像31に対して文字認識処理を実行し、対象画像31に含まれている文字を認識した認識結果33を出力する。ここで、認識結果33には、対象画像31から認識した文字列、及び対象画像における文字列の位置(座標)を含む。なお、本実施形態では、認識部22において対象画像31に含まれる文字列を認識する形態について説明したが、認識部22において対象画像31を解析して書類の種別を識別して、認識結果として出力してもよい。例えば、解析として、特定の文字列、及び罫線等の位置を認識し、予め記憶しておいた書類の特徴と比較して書類の種類を識別してもよいし、対象画像31に含まれている書類を識別するための識別子を認識して、書類の種類を識別してもよい。書類の種類を識別させることによって、書類毎に書類に含まれるキー文字列が特定される。つまり、認識部22は、書類の種類を識別して、抽出するキー文字列を特定してもよい。
抽出部24は、認識部22が出力した認識結果33から予め定められたキー文字列を検索してキー文字列に係る位置を取得する。抽出部24は、キー文字列の位置を用いて、対応するバリュー文字列を特定して、キー文字列、及びバリュー文字列を関連付けて、抽出結果として出力する。
導出部25は、抽出部24が出力した抽出結果34を用いて、キー文字列、及びバリュー文字列に対する確信度を導出する。
判定部26は、抽出部24が出力した抽出結果34、及び導出された確信度を用いて、キー文字列が抽出され、かつキー文字列の確信度が予め定められた閾値より大きいか否かの判定を行う。判定部26は、キー文字列が抽出されていない場合、又はキー文字列の確信度が予め定められた閾値以下である場合、キー文字列が抽出できていないと判定して、検出部23に対象画像31からキー文字列を抽出する処理を実行する指示を出力する。
検出部23は、判定部26によってキー文字列が抽出できていないと判定された場合、抽出できていないキー文字列を指定して、機械学習を行った学習モデルを用いて対象画像31からキー文字列に対応する画像の領域を検出する。検出部23は、キー文字列に対応する画像の領域が検出できた場合、検出結果35として、指定されたキー文字列、及びキー文字列に対応する画像の領域の位置を出力する。ここで、キー文字列に対応する画像の領域が検出できなかった場合、情報処理装置10は、次のキー文字列の抽出を行ってもよいし、キー文字列が抽出できなかった旨、及びキー文字列に対応する画像の領域が検出できなかった旨を通知してもよい。
また、本実施形態に係る「キー文字列に対応する画像の領域を検出する」とは、キー文字列に相応する文字列が記載された画像の領域を検出することを示す。例えば、キー文字列が「住所」であった場合、検出部23は、「住所」に相応する「おところ」、「居所」、及び「所在地」等の文字列が記載された画像の領域を対象画像31から検出する。なお、本実施形態に係る検出部23は、キー文字列に相応する文字列の画像の領域を検出する形態について説明した。しかし、これに限定されない。括弧書き、下線、及び囲み等が付された当該文字列の画像の領域を検出してもよいし、強調表示を行う網掛け、ハイライト、及び黒抜き等の加工がされている当該文字列の画像の領域を検出してもよい。また、検出器23は、キー文字列に相応する当該文字列、又は括弧書き、下線、囲み、網掛け、ハイライト、及び黒抜き等が施された当該文字列の画像を学習して、キー文字列に対応する画像の領域を検出してもよい。
抽出部24は、検出結果35におけるキー文字列の位置を用いて、キー文字列に対応するバリュー文字列を特定して、キー文字列、及びバリュー文字列を関連付けて、抽出結果34として出力する。
確認訂正部27は、予め定められたキー文字列の抽出が終了した場合、対象画像31、キー文字列、及びキー文字列の位置を表示して、ユーザによるキー文字列の位置の訂正を受け付ける。
一例として、図6に示すように、確認訂正部27は、確認訂正画面40を表示する。確認訂正画面40は、指定文字列表示領域41、及び対象画像表示領域42を備えている。確認訂正部27は、抽出部24が抽出したキー文字列及びバリュー文字列を抽出文字列として指定文字列表示領域41に表示し、認識結果33及び検出結果35から取得したキー文字列の位置を対象画像表示領域42における対象画像31にハイライトで表示する。
また、確認訂正画面40は、指定文字列表示領域41に表示されている抽出文字列が選択された後、対象画像表示領域42における抽出文字列に対応する位置を指定されることによって、キー文字列、及び対象画像31におけるキー文字列の位置の訂正を受け付ける。例えば、指定文字列表示領域41において「申込日」が選択された後、対象画像表示領域42において、ユーザによって指定された「申込日」が記載されている領域をハイライトすることによって、キー文字列、及びキー文字列の位置の対応が行われたことを示す。この際に、指定文字列表示領域41の「申込日」における色彩欄、及び対象画像表示領域42における「申込日」が記載された領域には、同一の色彩のハイライトが表示される。
確認訂正部27は、対象画像31、キー文字列、バリュー文字列、及び対象画像31におけるキー文字列の位置を記憶部29に入力し、キー文字列、バリュー文字列を出力部28に入力する。
出力部28は、確認訂正部27から入力されたキー文字列、及びバリュー文字列を出力する。
記憶部29は、確認訂正部27から入力された対象画像31、キー文字列、バリュー文字列、及びユーザに指定された対象画像31におけるキー文字列の位置を記憶する。
学習部30は、記憶部29に記憶されている対象画像31を用いて、キー文字列、及び対象画像31におけるキー文字列の位置を検出部23に学習させる。ここで、学習部30は、抽出部24によってキー文字列が抽出できなかった対象画像31、及びキー文字列が抽出できたもののキー文字列に対する確信度が閾値より小さかった対象画像31を検出部23に学習させる。言い換えると、学習部30は、検出部23によって検出処理が実行された対象画像31と、当該対象画像31に係るキー文字列と、当該対象画像31に係るキー文字列の位置と、を検出部23に学習させる。これにより、文字認識処理の精度が低くなる対象画像31を検出部23に学習させることが可能である。なお、検出部23の学習は、学習する対象画像31を取得する度に実行してもよいし、対象画像31が予め定められた数を超えた場合、又は予め定められた時刻となった場合、実行してもよい。
次に、図7を参照して、本実施形態に係る情報処理装置10の作用について説明する。図7は、本実施形態に係る文字列を抽出する抽出処理の一例を示すフローチャートである。CPU11がROM12又はストレージ14から抽出処理プログラムを読み出し、実行することによって、図7に示す抽出処理プログラムが実行される。図7に示す抽出処理プログラムは、例えば、ユーザから対象画像31、及び抽出処理を実行する指示が入力された場合、抽出処理プログラムが実行される。
ステップS101において、CPU11は、ユーザによって入力された対象画像31を取得する。
ステップS102において、CPU11は、入力された対象画像31に対して文字認識処理を実行して、文字列、及び文字列の位置を認識結果33として出力する。
ステップS103において、CPU11は、抽出対象として、指定されたキー文字列を取得する。
ステップS104において、CPU11は、認識結果33から指定されたキー文字列を検索して抽出し、抽出したキー文字列、及びキー文字列の位置を抽出結果34として出力する。
ステップS105において、CPU11は、抽出結果34を用いて、指定されたキー文字列が抽出できているか否かの判定を行う。キー文字列が抽出できている場合(ステップS105:YES)、CPU11は、ステップS106に移行する。一方、キー文字列が抽出できない場合(ステップS105:NO)、CPU11は、ステップS108に移行する。
ステップS106において、CPU11は、抽出結果34を用いて、抽出したキー文字列の確信度を導出する。
ステップS107において、CPU11は、導出した確信度が予め定められた閾値より大きいか否かの判定を行う。導出した確信度が予め定められた閾値より大きい場合(ステップS107:YES)、CPU11は、ステップS110に移行する。一方、導出した確信度が予め定められた閾値以下である場合(ステップS107:NO)、CPU11は、ステップS108に移行する。
ステップS108において、CPU11は、対象画像31に対して、指定されたキー文字列に対応する画像の領域を検出する検出処理を実行して、キー文字列、及びキー文字列の位置を検出結果35として出力する。
ステップS109において、CPU11は、キー文字列に対応する画像の領域が検出できているか否かの判定を行う。キー文字列に対応する画像の領域が抽出できている場合(ステップS109:YES)、CPU11は、ステップS110に移行する。一方、キー文字列に対応する画像の領域が検出できていない場合(ステップS109:NO)、CPU11は、ステップS112に移行する。
ステップS110において、CPU11は、認識結果33、又は検出結果35に係るキー文字列の位置を用いて、認識結果33からキー文字列に対応するバリュー文字列を抽出する。
ステップS111において、CPU11は、キー文字列、及びバリュー文字列を関連付けて、抽出結果34に出力する。
ステップS112において、CPU11は、抽出対象である、指定されたキー文字列に対して、「検出不可」を設定する。
ステップS113において、CPU11は、次の抽出対象であるキー文字列が存在するか否かの判定を行う。次の抽出対象が存在する場合(ステップS113:YES)、CPU11は、ステップS103に移行する。一方、次の抽出対象が存在しない場合(ステップS113:NO)、CPU11は、ステップS114に移行する。
ステップS114において、CPU11は、確認訂正画面を表示して、ユーザによるキー文字列の位置の訂正を受け付ける。ここで、CPU11は、指定されたキー文字列に対して、「検出不可」が設定されている場合、対象画像31から当該指定されたキー文字列の抽出、及びキー文字列に対応する画像の領域の検出ができなかった旨を確認訂正画面に表示して通知する。
ステップS115において、CPU11は、対象画像31、キー文字列、バリュー文字列、及びキー文字列の位置を関連付けて記憶する。ここで、記憶された対象画像31が、検出処理が実行された対象画像31である場合、関連付けて記憶された対象画像31、キー文字列、及び指定されたキー文字列の位置の学習を実行する。
ステップS116において、CPU11は、抽出結果34を用いて、キー文字列、及びバリュー文字列を出力する。
以上説明したように、本実施形態によれば、文字認識処理によってキー文字列が抽出できない場合、又はキー文字列が抽出できたものの確信度が予め定められた閾値以下である場合、検出処理によって、指定されたキー文字列の検出が実行される。したがって、文字認識処理によるキーバリュー抽出においてキー文字列が抽出できない場合、又はキー文字列の確信度が低い場合であっても、キー文字列が検出され、キー文字列に対応するバリュー文字列が抽出される。
なお、本実施形態では、キー文字列として、書類に含まれる文字列を抽出して出力する形態について説明した。しかし、これに限定されない。キー文字列として、書類に含まれる文字列の属性を抽出してもよい。例えば、図3に示す書類において「申込日」を抽出した場合、「申込日」が属する属性である「年月日」をキー文字列として抽出し、バリュー文字列である「XX年XX月XX日」を関連付けて出力してもよい。また、属性「年月日」、キー文字列「申込日」、及びバリュー文字列「XX年XX月XX日」として、関連付けて出力してもよい。
また、本実施形態に係るキー文字列は、書類の種類からキー文字列を特定する形態について説明した。しかし、これに限定されない。ユーザからキー文字列を受け付けてもよい。また、本実施形態では、書類に含まれているキー文字列が指定され、抽出する形態について説明した。しかし、これに限定されない。属性が指定されてもよい。例えば、ユーザによって属性が指定され、指定された属性に属するキー文字列、及びバリュー文字列を抽出してもよい。
また、本実施形態では、抽出処理によって、指定されたキー文字列が抽出できなかった場合、検出処理を実行する形態について説明した。しかし、これに限定されない。検出処理によって、キー文字列が検出できなかった場合、抽出処理によってキー文字列を抽出してもよいし、学習モデルによる検出処理によって検出できなかった場合、さらにパターンマッチング処理による検出処理によってキー文字列を検出してもよい。
また、本実施形態では、検出処理によって、キー文字列を検出する形態について説明した。しかし、これに限定されない。バリュー文字列を検出してもよい。
また、本実施形態では、確認訂正画面40において、キー文字列の位置の訂正を受け付ける形態について説明した。しかし、これに限定されない。抽出したキー文字列、及びバリュー文字列の訂正を受け付けてもよい。また、抽出したキー文字列、及びバリュー文字列の訂正を受け付ける場合、抽出したキー文字列、及びバリュー文字列を一律に表示して訂正を受け付けてもよい。また、キー文字列、又はバリュー文字列の確信度が予め定められた閾値より小さい場合、確信度が予め定められた閾値より小さいキー文字列及びバリュー文字列を表示してもよい。
また、本実施形態では、確認訂正画面40において、認識結果33及び検出結果35から取得したキー文字列の位置の訂正を受け付ける形態について説明した。しかし、これに限定されない。対象画像31におけるキー文字列の位置の指定を受け付けてもよい。
また、本実施形態では、確認訂正を行う際に、キー文字列の位置の訂正を受け付ける形態について説明した。しかし、これに限定されない。対象画像31を情報処理装置10に入力した際に、キー文字列の位置の指定を受け付けてもよいし、キー文字列、及びバリュー文字列を出力した後の任意の契機に、記憶部29に記憶されている対象画像31を表示して、キー文字列の位置の訂正を受け付けてもよい。
また、本実施形態では、確認訂正画面40においてキー文字列、及びバリュー文字列の修正を受け付ける形態について説明した。しかし、これに限定されない。記憶部29に記憶されているバリュー文字列を用いて、抽出したバリュー文字列を修正してもよい。また、記憶部29は、複数のバリュー文字列を関連付けて記憶し、抽出したバリュー文字列に対応する他のバリュー文字列を記憶部29から検索して提示してもよい。例えば、記憶部29は、「氏名」のバリュー文字列と、「住所」のバリュー文字列と、を関連付けて、予め記憶する。「氏名」のバリュー文字列を抽出した場合、「氏名」のバリュー文字列に対応する「住所」のバリュー文字列を記憶部29から取得して、修正候補として提示してもよい。
以上、各実施形態を用いて本発明について説明したが、本発明は各実施形態に記載の範囲には限定されない。本発明の要旨を逸脱しない範囲で各実施形態に多様な変更又は改良を加えることができ、当該変更又は改良を加えた形態も本発明の技術的範囲に含まれる。
なお上記実施形態において、プロセッサとは広義的なプロセッサを指し、例えば汎用的なプロセッサ(例えば、CPU:Central Processing Unit)や、専用のプロセッサ(例えば、GPU:Graphics Processing Unit、ASIC:Application Specific Integrated Circuit、FPGA:Field Programmable Gate Array、プログラマブル論理デバイス、等)を含むものである。
また、上記各実施形態におけるプロセッサの動作は、1つのプロセッサによって成すのみでなく、物理的に離れた位置に存在する複数のプロセッサが協働して成すものであってもよい。また、プロセッサの各動作の順序は上記各実施形態において記載した順序のみに限定されるものではなく、適宜変更してもよい。
また、本実施形態では、情報処理プログラムがストレージ14にインストールされている形態を説明したが、これに限定されるものではない。本実施形態に係る情報処理プログラムを、コンピュータ読取可能な記憶媒体に記録した形態で提供してもよい。例えば、本発明に係る情報処理プログラムを、CD(Compact Disc)-ROM及びDVD(Digital Versatile Disc)-ROM等の光ディスクに記録した形態で提供してもよい。本発明に係る情報処理プログラムを、USB(Universal Serial Bus)メモリ及びメモリカード等の半導体メモリに記録した形態で提供してもよい。また、本実施形態に係る情報処理プログラムを、通信I/F17に接続された通信回線を介して外部装置から取得するようにしてもよい。
10 情報処理装置
11 CPU
12 ROM
13 RAM
14 ストレージ
15 入力部
16 モニタ
17 通信インターフェース
18 バス
21 取得部
22 認識部
23 検出部
24 抽出部
25 導出部
26 判定部
27 確認訂正部
28 出力部
29 記憶部
30 学習部
31 対象画像
32 位置情報データベース
33 認識結果
34 抽出結果
35 検出結果
40 確認訂正画面
41 指定文字列表示領域
42 対象画像表示領域

Claims (8)

  1. プロセッサを有し、前記プロセッサは、
    文字列を含む対象画像に対する文字認識の実行結果から、キーとして予め指定された文字列であるキー文字列を抽出した結果に応じて、前記対象画像から前記キー文字列に対応する画像を取得し、
    前記キー文字列に対応する画像を取得した結果を用いて、前記文字認識の実行結果から、前記キー文字列に対応するバリューを示す文字列であるバリュー文字列を抽出し、
    抽出した前記キー文字列、及び対応する前記バリュー文字列を出力する
    情報処理装置。
  2. 前記プロセッサは、
    画像から文字列の画像を取得するための学習を行った学習モデルをさらに備え、
    前記学習モデルを用いて、前記対象画像から前記キー文字列に対応する画像を取得する
    請求項1に記載の情報処理装置。
  3. 前記プロセッサは、
    前記キー文字列に対応する画像を取得した前記対象画像を用いて、前記学習モデルを学習させる
    請求項2に記載の情報処理装置。
  4. 前記キー文字列に対応する画像を取得した結果は、前記対象画像における前記キー文字列の位置を示す情報を含み、
    前記プロセッサは、前記キー文字列の位置を用いて、前記バリュー文字列を抽出する
    請求項1から請求項3の何れか1項に記載の情報処理装置。
  5. 前記プロセッサは、
    前記キー文字列を基点とした前記バリュー文字列の位置を示す情報である位置情報をさらに取得し、
    前記キー文字列の位置を用いて、前記位置情報が示す前記対象画像上の位置における前記バリュー文字列を抽出する
    請求項4に記載の情報処理装置。
  6. 前記プロセッサは、
    前記バリュー文字列に対する確からしさの度合を示す確信度をさらに導出し、
    前記確信度に応じて、抽出した前記バリュー文字列を出力する
    請求項1から請求項5の何れか1項に記載の情報処理装置。
  7. 前記プロセッサは、
    予め記憶された前記バリュー文字列を用いて、前記確信度を導出する
    請求項6に記載の情報処理装置。
  8. コンピュータに、
    文字列を含む対象画像に対する文字認識の実行結果から、キーとして予め指定された文字列であるキー文字列を抽出した結果に応じて、前記対象画像から前記キー文字列に対応する画像を取得し、
    前記キー文字列に対応する画像を取得した結果を用いて、前記文字認識の実行結果から、前記キー文字列に対応するバリューを示す文字列であるバリュー文字列を抽出し、
    抽出した前記キー文字列、及び対応する前記バリュー文字列を出力する
    ことを実行させるための情報処理プログラム。
JP2020204533A 2020-12-09 2020-12-09 情報処理装置、及び情報処理プログラム Pending JP2022091608A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020204533A JP2022091608A (ja) 2020-12-09 2020-12-09 情報処理装置、及び情報処理プログラム
US17/322,907 US11699296B2 (en) 2020-12-09 2021-05-18 Information processing apparatus and non-transitory computer readable medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020204533A JP2022091608A (ja) 2020-12-09 2020-12-09 情報処理装置、及び情報処理プログラム

Publications (1)

Publication Number Publication Date
JP2022091608A true JP2022091608A (ja) 2022-06-21

Family

ID=81848196

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020204533A Pending JP2022091608A (ja) 2020-12-09 2020-12-09 情報処理装置、及び情報処理プログラム

Country Status (2)

Country Link
US (1) US11699296B2 (ja)
JP (1) JP2022091608A (ja)

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5621169U (ja) 1979-07-25 1981-02-25
JPS619688U (ja) 1984-06-22 1986-01-21 野村マイクロサイエンス株式会社 純水用流量制御弁のパツキン
JP4566510B2 (ja) 2002-12-20 2010-10-20 富士通株式会社 帳票認識装置および帳票認識方法
JP4419426B2 (ja) * 2003-04-24 2010-02-24 コニカミノルタエムジー株式会社 医用画像システム
JP4266695B2 (ja) * 2003-04-30 2009-05-20 キヤノン株式会社 画像処理装置及び画像処理方法
US8693043B2 (en) * 2003-12-19 2014-04-08 Kofax, Inc. Automatic document separation
JP5621169B2 (ja) 2010-05-26 2014-11-05 日立オムロンターミナルソリューションズ株式会社 帳票認識装置および帳票認識方法
JP6109688B2 (ja) 2013-09-06 2017-04-05 株式会社東芝 帳票読取装置およびプログラム
JP6616269B2 (ja) 2016-10-31 2019-12-04 富士通フロンテック株式会社 帳票処理プログラム、帳票処理装置および帳票処理方法
TWI607387B (zh) * 2016-11-25 2017-12-01 財團法人工業技術研究院 字符辨識系統及其字符辨識方法
JP7225548B2 (ja) * 2018-03-22 2023-02-21 セイコーエプソン株式会社 画像処理装置、画像処理方法および画像処理プログラム
JP2021047693A (ja) * 2019-09-19 2021-03-25 富士ゼロックス株式会社 情報処理装置及びプログラム

Also Published As

Publication number Publication date
US11699296B2 (en) 2023-07-11
US20220180091A1 (en) 2022-06-09

Similar Documents

Publication Publication Date Title
US10853638B2 (en) System and method for extracting structured information from image documents
JP5144940B2 (ja) 目次抽出におけるロバスト性向上
US20230015054A1 (en) Text classification method, electronic device and computer-readable storage medium
US10740899B2 (en) Image processing apparatus for identifying region within image, information processing method, and storage medium
CN111340020B (zh) 一种公式识别方法、装置、设备及存储介质
CN113312899B (zh) 文本分类方法、装置和电子设备
CN103902993A (zh) 文档图像识别方法和设备
JP7149721B2 (ja) 情報処理装置、文字認識エンジン最適化方法及びプログラム
CN115240213A (zh) 表格图像识别方法、装置、电子设备及存储介质
JP2019169025A (ja) 情報処理装置、文字認識エンジン選択方法及びプログラム
WO2023038722A1 (en) Entry detection and recognition for custom forms
CN114511857A (zh) 一种ocr识别结果处理方法、装置、设备及存储介质
EP2138959A1 (en) Word recognizing method and word recognizing program
US11756321B2 (en) Information processing apparatus and non-transitory computer readable medium
US20120281919A1 (en) Method and system for text segmentation
CN111291535A (zh) 剧本处理方法、装置、电子设备及计算机可读存储介质
US9437020B2 (en) System and method to check the correct rendering of a font
JP2022091608A (ja) 情報処理装置、及び情報処理プログラム
JP2023003887A (ja) 書類画像処理システム、書類画像処理方法、および書類画像処理プログラム
CN112560849B (zh) 基于神经网络算法的文理分割方法及系统
JP2008027133A (ja) 帳票処理装置及び帳票処理方法ならびに帳票処理方法を実行するプログラムと記憶媒体
JP4194020B2 (ja) 文字認識方法、該方法の実行に用いるプログラム及び文字認識装置
JP5712415B2 (ja) 帳票処理システム及び帳票処理方法
CN111125160A (zh) 一种基于商标近似分析的数据预处理方法、系统及终端
CN115082919B (zh) 一种地址识别方法、电子设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231120