JP2022147830A

JP2022147830A - 読取システム、読取プログラムおよび読取方法

Info

Publication number: JP2022147830A
Application number: JP2021049256A
Authority: JP
Inventors: 元邦飯室; Motokuni Iimuro
Original assignee: Artibrains; Artibrains LLC; Ysk E Com Co Ltd
Current assignee: Artibrains; Artibrains LLC; Ysk E Com Co Ltd
Priority date: 2021-03-23
Filing date: 2021-03-23
Publication date: 2022-10-06
Anticipated expiration: 2041-03-23
Also published as: JP6960646B6; JP6960646B1

Abstract

【課題】文書を効率的にデータ化するための読取システム、方法及びプログラムを提供する。【解決手段】定型の書に含まれる文字及びコードの認識を行う読取システムにおいて、読取装置１は、ユーザ指定により文書における複数の認識領域及び認識領域毎の認識種別を特定した文書の種類別のテンプレートを取得するテンプレート取得手段とテンプレートと同一種類の複数の文書の画像を取得する画像取得手段と、テンプレートより画像毎に認識領域を特定する認識領域特定手段と、文字の認識種別が指定された認識領域に対して文字認識を実行するとともにその結果を画像と対応付けて登録する文字認識手段と、コードを示す認識種別が指定された認識領域からコード領域を特定してコード領域におけるコードの認識を実行し、その結果を画像と対応付けて登録するコード認識手段と、を備える。【選択図】図１

Description

本発明は、読取システム、読取プログラムおよび読取方法に関する。

近年、パターン認識技術の開発が進んでおり、手書き文字の認識やコードの読取等、広く活用されている。例えば特許文献１には、効率的にパターン認識を行うための技術が開示されている。

ここで、例えば予防接種の予診票等を認識してデータ化する際には、手書きの文字だけでなく、予診票に貼付された接種券のバーコードをそれぞれ認識してデータを登録する必要がある。このような要望に対し、非特許文献１には、事前に読取位置が定義された定型の予診票の文字認識において、シールの傾きを補正したワクチンロットシールの読取や、バーコードの読取を行う技術が開示されている。

特開2009-199256号公報

「ＡＩＲｅａｄ＋予診票読取オプション」、令和３年３月１日、［令和３年３月１１日検索］、インターネット＜ＵＲＬ：https://airead.ai/yoshin-hyo/＞

一方で、非特許文献１のような文書の認識においては、大量の文書をデータ化する必要があり、効率的に正確なデータの登録を行うことができる技術が求められていたが、大量の文書のデータ化に適した技術は知られていなかった。

上記の現状に鑑み、本発明は、文書を効率的にデータ化するための新規な読取システムを提供することを課題とする。

上記課題を解決するために、本発明は、定型の文書に含まれる文字及びコードの認識を行う読取システムであって、前記読取システムは、画像取得手段と、テンプレート取得手段と、認識領域特定手段と、文字認識手段と、コード認識手段と、を備え、前記テンプレート取得手段は、ユーザの指定に基づいて、前記文書における複数の認識領域及び前記認識領域ごとの認識種別を特定した、前記文書の種類別のテンプレートを取得し、前記画像取得手段は、前記テンプレートと同一種類の複数の前記文書の画像を取得し、前記認識領域特定手段は、前記テンプレートに基づいて、前記画像ごとに前記認識領域を特定し、前記文字認識手段は、文字を示す前記認識種別が指定された前記認識領域に対して文字認識を実行するとともに、その結果を前記画像と対応付けて登録し、前記コード認識手段は、コードを示す前記認識種別が指定された前記認識領域からコード領域を特定して、前記コード領域におけるコードの認識を実行するとともに、その結果を前記画像と対応付けて登録する。

このような構成とすることで、テンプレートとして登録された文書と同一種類の文書の画像を複数取得し、テンプレートに設定された認識領域の文字認識及びコード認識を画像ごとに一括して行うことができる。

本発明の好ましい形態では、前記読取システムは、修正手段を更に備え、前記修正手段は、ユーザに対して表示される修正画面を介して、前記文字認識手段及び／又はコード認識手段による認識結果を修正する入力を受け付けて登録し、前記修正画面は、前記画像における前記認識領域及び認識結果を対応付けて表示する。
このような構成とすることで、ユーザは、修正画面において対象の認識領域とその認識結果を対比しながら、必要に応じて認識結果の修正を行うことができる。

本発明の好ましい形態では、前記修正画面は、複数の前記文書における、同一の前記認識領域について、前記認識領域及び認識結果をそれぞれ対応付けて同一画面上に表示する。
このような構成とすることで、一括して取得された複数の文書間における同一の認識領域について、認識結果と対比しながら一括して修正作業を行うことができる。具体的には、例えば予診票には、病院名、医師名等、複数の項目があり、それぞれに対してテンプレートとして認識領域が設定される。このような場合に、例えば病院名の認識領域について、複数の文書に対し一括して修正作業を行うことが可能となり、作業効率の向上効果が期待できる。ユーザは、例えば特に認識の誤りが多い項目の認識領域について、複数の文書をまとめて修正することが可能となる。

本発明の好ましい形態では、前記修正画面は、前記画像ごとに前記認識領域別の前記認識結果を選択可能に表示する一覧表示部と、前記一覧表示部において選択された前記認識結果に対応する前記認識領域を表示する選択領域表示部と、を備える。
このような構成とすることで、認識結果を一覧で確認し、その中で詳しく確認したい画像の認識領域を選択して選択領域表示部において確認することができる。これにより、認識の誤りがありそうな部分を一覧表示部において確認し、その部分を選択して詳細を確認することができるため、明らかな誤認識を個別確認前に修正したり、全体の確認後に最終チェックしたりする作業を効率的に行うことができる。

本発明の好ましい形態では、前記読取システムは、修正画面設定手段を更に備え、前記修正画面設定手段は、前記修正画面における前記認識結果の表示位置の指定を、対応する前記認識領域ごとに受け付けて登録し、前記修正画面は、前記修正画面設定手段により登録された表示位置に前記認識結果を表示するとともに、選択された前記認識結果に対応する前記認識領域を表示する。
このような構成とすることで、ユーザ自身が修正画面のレイアウトを設定することができ、個人に合わせた修正画面を提供することができる。これにより、それぞれの好みや用途に応じて柔軟な表示が可能となる。

本発明の好ましい形態では、前記読取システムは、テンプレート作成手段を更に備え、前記テンプレート作成手段は、前記文書の種類ごとに、前記文書の見本画像における前記認識領域及びその認識種別を指定する入力をユーザから受け付けて、前記テンプレートを登録する。
このような構成とすることで、任意の文書についてテンプレートを作成することができる。また、ユーザの指定により認識領域を設定することができるため、例えば枠をはみ出すことが多い場合には広めの認識領域を設定し、枠外の文字の誤認識が多い場合には認識領域を狭める等、認識精度を高めるために自由に調整することができる。

本発明の好ましい形態では、前記テンプレート作成手段は、認識対象としない色として認識除外色の指定を受け付けて、前記テンプレートの情報として登録し、前記文字認識手段及び／又はコード認識手段は、前記認識除外色と類似する色の部分を認識対象から除外する。
このような構成とすることで、例えば記入用の枠の色を認識除外色として指定することにより、誤認識を減らす効果が期待できる。また例えば、医師等が予診票にメモをする場合にも、認識除外色で記入することにより、メモを認識対象から除外することができる。

本発明の好ましい形態では、記文字認識手段は、前記画像から文字領域を検出し、前記認識領域特定手段は、前記文字領域に基づいて、前記認識領域を拡張し、前記文字認識手段に拡張後の領域において文字認識を実行させる。
このような構成とすることで、事前に設定された認識領域を超えて文字が記載されていた場合にも、文字領域に応じて認識領域を拡張し、適切に文字の認識を行うことができる。

本発明の好ましい形態では、前記認識領域特定手段は、前記文字領域と前記認識領域の端部とが重複する場合に、当該認識領域が前記文字領域を含むように領域を拡張し、前記文字認識手段に拡張後の領域において文字認識を実行させる。
このような構成とすることで、はみ出した文字が本来どの認識領域に属するべきものかを適切に判断して文字の認識を行うことができる。

本発明の好ましい形態では、前記認識領域特定手段は、前記テンプレートに基づいて、前記画像の向きを補正する。
このような構成とすることで、画像の取得時に向きを揃える手間が不要となり、より効率的に文書をデータ化することができる。

上記課題を解決するために、本発明は、定型の文書に含まれる文字及びコードの認識を行う読取プログラムであって、画像取得手段と、テンプレート取得手段と、認識領域特定手段と、文字認識手段と、コード認識手段と、としてコンピュータを機能させ、前記テンプレート取得手段は、ユーザの指定に基づいて、前記文書における複数の認識領域及び前記認識領域ごとの認識種別を特定した、前記文書の種類別のテンプレートを取得し、前記画像取得手段は、前記テンプレートと同一種類の複数の前記文書の画像を取得し、前記認識領域特定手段は、前記テンプレートに基づいて、前記画像ごとに前記認識領域を特定し、前記文字認識手段は、文字を示す前記認識種別が指定された前記認識領域に対して文字認識を実行するとともに、その結果を前記画像と対応付けて登録し、前記コード認識手段は、コードを示す前記認識種別が指定された前記認識領域からコード領域を特定して、前記コード領域におけるコードの認識を実行するとともに、その結果を前記画像と対応付けて登録する。

上記課題を解決するために、本発明は、定型の文書に含まれる文字及びコードの認識を行う読取システムを用いた読取方法であって、前記読取システムは、画像取得手段と、テンプレート取得手段と、認識領域特定手段と、文字認識手段と、コード認識手段と、を備え、前記テンプレート取得手段は、ユーザの指定に基づいて、前記文書における複数の認識領域及び前記認識領域ごとの認識種別を特定した、前記文書の種類別のテンプレートを取得し、前記画像取得手段は、前記テンプレートと同一種類の複数の前記文書の画像を取得し、前記認識領域特定手段は、前記テンプレートに基づいて、前記画像ごとに前記認識領域を特定し、前記文字認識手段は、文字を示す前記認識種別が指定された前記認識領域に対して文字認識を実行するとともに、その結果を前記画像と対応付けて登録し、前記コード認識手段は、コードを示す前記認識種別が指定された前記認識領域からコード領域を特定して、前記コード領域におけるコードの認識を実行するとともに、その結果を前記画像と対応付けて登録する。

本発明によれば、文書を効率的にデータ化するための新規な読取システムを提供することができる。

本発明の実施形態における読取システムの機能ブロック図である。本発明の実施形態における読取処理の手順を示すフローチャートである。本発明の実施形態における認識領域の拡張処理の手順を示すフローチャートである。本発明の実施形態における読取システムのユーザからテンプレートの指定を受け付けるための画面の表示例である。本発明の実施形態における認識結果一覧画面の表示例である。本発明の実施形態における修正画面の表示例である。本発明の実施形態における修正画面の表示例である。本発明の実施形態における修正画面の表示例である。本発明の実施形態における修正画面の表示例である。本発明の実施形態におけるテンプレート作成画面の表示例である。本発明の実施形態におけるテンプレート作成画面の表示例である。本発明の実施形態におけるテンプレート作成画面の表示例である。本発明の実施形態におけるテンプレート作成画面の表示例である。

以下、図面を用いて、本発明の読取システムについて説明する。なお、以下に示す実施形態は本発明の一例であり、本発明を以下の実施形態に限定するものではなく、様々な構成を採用することもできる。

例えば、本実施形態では読取システムの構成、動作等について説明するが、同様の構成の方法、装置、コンピュータプログラム等も、同様の作用効果を奏することができる。また、プログラムは、記録媒体に記憶させてもよい。この記録媒体を用いれば、例えばコンピュータにプログラムをインストールすることができる。ここで、プログラムを記憶した記録媒体は、例えばＣＤ－ＲＯＭ等の非一過性の記録媒体であっても良い。

本発明は、定型の文書に含まれる文字及びコードをそれぞれ認識し、文書ごとにデータとして登録するための認識システムに関する。ここで本発明における文書とは、例えば予防接種の予診票等のように、あらかじめ項目ごとに決まった位置に記入枠が設けられた、物理的な媒体を意味する。本実施形態では、項目ごとの記入枠が設けられ、手書きで文字が記入された紙の書面を想定する。また文書の画像とは、例えば紙の文書をスキャンする等して画像化したもののことを指す。ここで、文書は複数ページで構成されていてもよい。この場合、文書の画像とは、ひとつの文書を構成する複数ページの画像の組を指す。

本発明では、事前に定型の文書に対応するテンプレートが登録され、テンプレートに従って文書の認識が実行される。本発明のテンプレートとは、文書における記入項目ごとに認識領域が指定された、認識用の型を指す。認識領域とは、記入内容の認識を行う領域のことを指し、例えば記入欄等の領域が認識領域として指定される。各テンプレートには、見本画像と対応付けて複数の認識領域が設定され、認識領域ごとに認識種別が選択される。認識種別は、少なくとも文字及びコードを含む選択肢の中から選択され、本実施形態では更に文字及びコードそれぞれについて細分する種別が特定される。なお本実施形態では、ユーザ自ら見本画像に対して１以上の認識領域を指定してテンプレートを作成することができる。

本発明では、ユーザがデータとして取り込みたい文書の種類に応じたテンプレートを選択して、複数の文書の画像を一括して取得し、画像ごとに各認識領域の認識を実行して、画像及び認識領域と対応付けて登録する。これにより、文書及び記入項目ごとに、記入された内容を文字情報としてデータ化することができる。

本実施形態では、文書としてワクチンの予診票を例示して説明する。なおワクチンの種類や、また同じ種類のワクチンであっても自治体ごとに予診票の型が異なる場合がある。そのため本実施形態では、予診票の型ごとにテンプレートを登録し、ユーザから読取対象の予診票の種類に応じて対応するテンプレートの選択を受け付けることで、文書に適した読取を行う。

＜システム構成＞
図１は、本実施形態の読取システムの機能構成を示す図である。本実施形態の読取システムは読取装置１を含み、読取装置１は、テンプレート取得手段１０と、画像取得手段１１と、認識領域特定手段１２と、文字認識手段１３と、コード認識手段１４と、修正手段１５と、修正画面設定手段１６と、テンプレート作成手段１７と、表示手段１８と、記憶部１９と、を備える。なお一つのコンピュータがこれらの手段を全て備える必要はなく、複数のコンピュータが協働することによって本実施形態の読取装置１として機能してもよい。例えばネットワークを介してデータベースと接続し、当該データベースが記憶部１９として機能してもよい。

読取装置１としては、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）やＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）等の演算装置、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等の主記憶装置、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）やＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、フラッシュメモリ等の補助記憶装置、ネットワークへの接続手段を含む種々の入出力装置等を備えた一般的なコンピュータ装置を利用することができる。記憶装置が本発明の読取プログラムを記憶し、演算装置に各種の処理を実行させることにより、任意のコンピュータ装置が、本発明の読取装置１の各手段として機能する。

テンプレート取得手段１０は、ユーザの指定に基づいて、文書における記入項目にそれぞれ対応する複数の認識領域及び、認識領域ごとの認識種別を特定した、文書の種類別のテンプレートを取得する。事前に登録されたテンプレートの中から、ユーザが対応するものを選択することで、テンプレート取得手段１０が選択されたテンプレートを取得する。

画像取得手段１１は、文字及びコードの認識を行いたい複数の文書の画像を取得する。画像は、読取装置１と接続されたスキャナ等から取得されてもよいし、記憶部１９等や外部のデータベースに保存された情報から取得されてもよい。

認識領域特定手段１２は、画像取得手段１１が取得した複数の画像のそれぞれに対し、テンプレートに基づいて認識領域を特定する。具体的には、まず取得した画像の特徴量を計算して、テンプレート取得手段１０が取得したテンプレートの見本画像の特徴量を計算して比較し、取得した画像の向き・位置・拡大縮小して、テンプレートの見本画像と同一の向き・位置・大きさになるよう取得した画像を補正変換する。

補正変換の方法は、任意の周知技術を用いればよい。例えば、取得した画像及び見本画像のキーポイントを特徴量に基づいてそれぞれ検出し、双方で対応するキーポイントを対応付け、対応付けられたキーポイントが一致するように取得した画像を補正変換する方法等が想定される（参考：https://qiita.com/suuungwoo/items/9598cbac5adf5d5f858e、検索日：２０２１年３月２２日）。ここで、取得した画像を回転したり拡大縮小したりしても見本画像の記入枠と一致しない場合には、当該画像について文書の種類が異なる可能性がある旨のアラートを出力してもよい。

そして認識領域特定手段１２は、向きが補正された画像に対し、テンプレートに基づいて認識領域を特定する。具体的には、テンプレート情報に対応付けて、各認識領域の位置と大きさを示す座標が登録されており、補正後の画像における指定座標を当該画像の認識領域として特定することができる。

文字認識手段１３は、文字を示す認識種別が指定された認識領域に対して文字認識を実行するとともに、その結果を画像及び対象の認識領域と対応付けて登録する。ここで本実施形態では、文字の認識を行う前に、画像の中から文字領域を検出する。そして検出された文字領域に基づいて必要に応じて拡張された認識領域に対して文字の認識を行い、文字情報を特定する。

ここで本実施形態では、認識種別として、当該認識領域において使用される文字の種類が指定される。具体的には、例えば数字が記載される項目の認識領域については使用可能な数字の範囲や全角／半角が指定され、また選択式で記載される場合にはその種類や選択肢が指定される。そして文字認識手段１３は、認識種別に応じて指定される範囲内で認識を行う。具体的には、全ての文字を認識する汎用モデルを特徴量抽出器と認識器を学習しておき、認識する文字の種類範囲（例えば数字のみ）ごとに学習データを与えて文字の種類の範囲に合わせた認識器を作成し、認識種別により特定される種類範囲に応じたモデルにより文字の認識を行うことが想定される。これにより、適切な認識種別を指定したテンプレートを用いることで、例えばアルファベットの小文字の「ｌ」と数字の「１」を相互に誤認識してしまうことを避けることができる。また、指定された文字の符号を判別し、認識器が対応していない符号があれば、汎用モデルの認識器を用いて、指定された文字種類の確率の範囲を限定し、文字の認識を行う。

コード認識手段１４は、コードを示す認識種別が指定された認識領域からコード領域を特定して、当該コード領域におけるコードの認識を実行するとともに、その結果を画像及び対象の認識領域と対応付けて登録する。例えば本実施形態において、予診票にはバーコードが印字された接種券が貼付されるが、この時、接種券が傾いた状態で貼付される等、文書ごとに異なる位置及び向きでコードが存在することが想定される。このような場合にも適切にコードの認識ができるよう、コード認識手段１４は、認識領域内でコード領域を特定し、コード領域に対してその向きを認識して認識処理を行う。ここで、コードは文字列を表しており、コード認識手段１４によるコードの認識とは、コードが表す文字列を特定することを指し、認識結果とはその文字列を指す。ここでコードにはバーコードや二次元コードを含め様々な種類があるため、認識種別としてコードの種類が設定されることが好ましい。

修正手段１５は、ユーザに対して表示される修正画面を介して、認識結果を修正する入力を受け付けて登録する。例えば、文書においては「００１」と記載されていたのに対し文字認識手段１３が「０１」と認識した場合、ユーザは文書の画像を確認しながら認識結果を「００１」に修正することが想定される。修正手段１５は、修正前後の文字列、修正が行われた日時及び修正を行ったユーザの情報を、画像及びその認識領域に対応付けて登録する。

ここで本実施形態では、ユーザによる指定に従って修正画面の配置を設定することができる。修正画面については後述するが、修正画面設定手段１６は、修正画面における認識結果の表示位置の指定を、対応する認識領域ごとにユーザから受け付けて記憶部１９に登録する。このような修正画面の配置情報はユーザ及びテンプレートに紐づけて登録され、ユーザごとに好みの配置で修正作業を行うことができる。

テンプレート作成手段１７は、ユーザによる入力を受け付けて、見本画像を基準としたテンプレートを作成する。具体的には、認識領域ごとに、見本画像上の座標の指定とともに認識種別の指定を受け付けて、記憶部１９にテンプレート情報を登録する。

表示手段１８は、修正画面を含む、各種の操作を受け付ける画面をディスプレイに表示させる。表示画面の詳細は後述する。

記憶部１９は、テンプレート情報、認識結果、ユーザ情報、文書の画像等の各種の情報を記憶する。テンプレート情報としては、テンプレートＩＤ、テンプレート名、作成者のユーザＩＤ、作成日時等が記憶され、テンプレートＩＤに紐づけて、見本画像、認識領域の情報が記憶される。認識領域の情報としては、認識領域の位置及び大きさを示す座標と、認識種別と、が記憶される。

また認識結果としては、認識された文字列及び認識日時が、テンプレートＩＤ、文書の画像ＩＤ、認識領域に紐づけて記憶される。認識結果が修正されると、修正日時及び修正後の文字列が更に登録される。ここで本実施形態では、まとめて取得された複数の画像に対する認識結果を、一つの「認識履歴」として扱う。即ち、認識履歴には一括して取り込まれた複数の画像に対する認識結果が紐づけられており、一群のものとして扱われる。

＜読取処理＞
次に、読取処理について説明する。図２は、読取処理の一例を示すフローチャートである。まずステップＳ１１で、テンプレート取得手段１０がユーザによる指定を受け付けて、記憶部１９に登録されたテンプレートを取得する。図４は、ユーザからテンプレートの指定を受け付けるための画面の表示例である。

テンプレート選択部Ｗ１１は、登録されているテンプレートの一覧を選択可能に表示する。なおテンプレート選択部Ｗ１１に表示されるテンプレートは、テンプレート名や作成者、作成日時等の任意の条件により検索可能であってもよい。選択されたテンプレートはハイライト表示等により識別可能に表示され、図４では、一番上の「ｔｅｍｐｌａｔｅ１」が選択された状態を示している。そしてテンプレート表示部Ｗ１２に、テンプレート選択部Ｗ１１において選択されたテンプレートの見本画像（上部）及びテンプレート名、説明、最終更新日時等のテンプレート情報（下部）が表示される。

ここで右下の「ファイルを選んで新規作成」、「スキャンして新規作成」のボタンはそれぞれ、新たにテンプレートを作成するためのボタンである。テンプレートの作成については後述する。

読取を行いたい文書に対応するテンプレートを選択して図４の画面において右下の「選択したひな形を使う」のボタンが選択されると、テンプレート選択部Ｗ１１において選択されたテンプレートをテンプレート取得手段１０が取得してステップＳ１２に進む。

ステップＳ１２では、画像取得手段１１が読取対象の文書の画像を取得する。即ち、接種対象者により手書きで記入された予診票をスキャナ等で画像化したものを、複数取得する。画像は、記憶部１９に記憶されたものの中から選択されてもよい。

次にステップＳ１３で、認識領域特定手段１２が、画像ごとに補正及び認識領域の特定を行う。まず、テンプレートにおける見本画像に基づいて画像の向きを補正する。そして、補正された画像に対し、テンプレートにおいて指定された位置により認識領域を特定する。本実施形態では、取得された画像の一覧を表示して、複数の画像に対する一括補正の指示を受け付ける。そして、補正後の画像を表示した上で、認識指示を受け付ける。なお補正後の画像の表示を省略し、一括補正と認識指示をまとめて受け付けてもよい。

認識指示が受け付けられると、認識領域ごとにステップＳ１４～ステップＳ１８で認識処理が実行される。まずある認識領域について、認識種別が文字の場合にはステップＳ１５に、またコードの場合にはステップＳ１７にそれぞれ進む。ステップＳ１５では文字認識手段１３が、またステップＳ１７ではコード認識手段１４がそれぞれ認識領域に対して認識処理を実行し、それぞれステップＳ１６及びステップＳ１８で、当該画像に対して未認識の認識領域の有無を確認し、未認識の認識領域がなくなると処理を終了する。未認識の認識領域がある場合にはステップＳ１４に戻って全ての認識領域に対して認識処理が完了するまで繰り返す。

ここで、手書きで記入を行う場合、記入量や字の大きさによっては、記入欄をはみ出してしまうことがある。このような場合にも、記入欄からはみ出した文字も含めて適切に認識できるようにするため、本実施形態では、ステップＳ１３において、各画像についてはみ出し文字に応じた認識領域の拡張処理を行う。

図３は、認識領域拡張処理を示すフローチャートである。まず文字認識手段１３が、ステップＳ２１において、認識領域内の文字領域を検出して認識領域特定手段１２に受け渡す。文字領域の検出には公知の認識技術（例：https://qiita.com/KTake/items/dbce1e7361fe0f03139a、検索日：２０２１年３月１１日）を任意に用いてよい。ここで文字領域の検出前に、記入枠を除去しておくことが好ましい。記入枠の除去は、機械学習モデルによって行われてもよいし、見本画像との比較に基づいて行われてもよい。

次にステップＳ２２に進み、認識領域特定手段１２は、認識領域のいずれかの端が、ステップＳ２１で検出された文字領域と重複するか否かを確認する。ここで認識領域のいずれかの端が文字領域と重複する場合には、文字が認識領域内に収まっておらず、はみ出ている部分を認識できていないと判断できる。従って、ステップＳ２２において認識領域の輪郭と文字領域とが重複する部分がある場合には、ステップＳ２３に進んで、認識領域特定手段１２が、輪郭が重複した認識領域が文字領域を完全に含むように、認識領域を拡張する。これにより、事前に予想された認識領域の外に文字が記載されていた場合でも、適切に認識領域を拡張して、欄外の文字も含めて認識を行うことが可能となる。

なお、どの認識領域とも重複しない部分に文字領域が検出されたり、文字領域が複数の認識領域と重複したりすることも想定される。ここで、左から右に、上から下に向かって書く言語の場合、文字のはみ出しは認識領域の右側及び下側に対してよく起こることが予想される。そのため、日本語による記入を想定した本実施形態では、どの認識領域とも重複しない、又は複数の認識領域と重複する文字領域は、その左方向又は上方向に最も近い認識領域に属するものとして、左方向又は上方向に最も近い認識領域が当該文字領域を含むように、認識領域を拡張する。ただ、左方向又は上方向にあらかじめテンプレートで設定されている認識領域がない場合には、右方向又は下方向の認識領域を考慮することもできる。なお複数の認識領域と重複する文字領域については、それぞれの認識領域と重複する面積を考慮して、その文字領域が属する認識領域を判断してもよい。

＜修正処理＞
以上のようにして文書の認識を行うことができるが、誤認識が生じる場合もある。従って、認識結果を確認して適宜修正を行う必要がある。ここでは、修正処理について詳しく説明する。図５は、認識履歴を選択可能に表示する一覧画面の表示例である。この画面においては、テンプレート名やユーザ名、認識日、修正日等により認識履歴を検索することができ、検索結果が一覧表示される。図５では、一番上のＮｏ．１の認識履歴が選択されており、選択中の認識履歴はハイライト等により識別可能に表示される。なお認識履歴単位の検索ではなく、画像単位の検索が可能であってもよい。このようにして認識履歴を選択し、右下の「結果確認」ボタンを選択することにより、認識結果の確認を行うことができる。

ステータスが「正常終了」となった認識履歴を選択して結果確認ボタンが選択されると、画像における認識領域及びその認識結果を対応付けて示す、修正画面が表示される。本実施形態では、複数種類の修正画面があり、ユーザの選択によってそれぞれ表示される。図６～図９は、本実施形態における修正画面の表示例である。

図６に示す修正画面では、画像ごとに認識結果の確認及び修正を行うことができる。画面上部の「ページ別修正」が選択されている場合にはこのようにして画像ごとの確認・修正用の修正画面が表示される。この画面では、画像表示部Ｗ３１と、修正部Ｗ３２と、画像切替部Ｗ３３と、が表示され、画面右上には画像のファイル名が表示される。

画像表示部Ｗ３１には、読取対象の画像上で認識領域が示される。ここでは、薄い色の太線に、ハッチングした領域で認識領域を表した。以下、認識結果の確認及び修正において表示される認識領域は、図３に示した処理によって拡張された後の領域とすることが好ましい。

また修正部Ｗ３２には、認識領域ごとに、認識種別を示すアイコン、項目名、画像の認識領域、及び認識結果がそれぞれ表示される。例えば一番上の欄では、バーコードを認識する認識領域であり、バーコードの認識の結果「１１０００００００００６３１７４６３」という文字列が特定されていることがわかる。そして修正部Ｗ３２においては、認識結果の部分が編集可能に表示されており、ユーザは表示された画像の認識領域を確認しながら必要に応じて適切な文字列に修正することができる。認識結果を修正した場合には、右下の「修正結果を保存」ボタンを選択することにより、画像及び認識領域に対応付けて、修正を保存することができる。

なお、認識領域は重複して設定することも可能である。例えば図６の例では、バーコードを読み取るための認識領域と重複して、更に通常バーコードの下に印字されるＯＣＲラインを読み取るための認識領域が設定されている。ＯＣＲラインは、バーコードが表す文字列を文字として印字したものであり、このようにバーコードの認識と併用することにより、認識精度の向上や修正の手間削減の効果が期待できる。

また画像切替部Ｗ３３では、図５の画面で選択した認識履歴に含まれる複数の画像を切り替えて、画像表示部Ｗ３１に表示させることができる。ここでは５つの画像が含まれる認識履歴を確認する画面が示されており、２つ目の画像を表示している状態である。

一方、画面上部の「項目別修正」が選択されると、複数の画像における認識結果を認識領域（記入項目）ごとに確認することができる。図７は、項目別修正が選択されている場合の修正画面の表示例である。項目別修正では、選択された認識履歴に含まれる複数の画像における同一の認識領域について、それぞれ画像の認識領域及び認識結果が対応付けて表示される。図７の修正画面は項目選択部Ｗ４１と、修正部Ｗ４２とを備えている。

修正部Ｗ４２には、項目選択部Ｗ４１において選択された項目に対応する、各画像の認識領域が、画像ごとに表示される。修正部Ｗ４２では、画像を区別するための番号がそれぞれ右上に表示され、画像の認識領域及びその認識結果が対応付けて、画像ごとに表示される。ここでも、修正部Ｗ４２は認識結果の部分が編集可能に表示されており、ユーザは表示された画像の認識領域を確認しながら必要に応じて適切な文字列に修正することができる。修正結果の保存は「ページ別修正」の場合と同様である。

またこの他、ユーザが図６及び図７の右下の「一覧修正へ」を選択すると、図８のような修正画面により修正を行うことができる。図８は、一覧修正における修正画面の表示例である。一覧修正では、一覧表示部Ｗ５１において、対象の認識履歴に含まれる画像について、認識領域ごとの認識結果が一覧表示されており、確認したい認識領域が選択できる。ここでは、Ｎｏ．１の画像における「実施場所」の項目の認識結果「赤十字病院」が選択され、ハイライト表示されている。

一覧表示部Ｗ５１の上には、選択された認識結果に対応する画像の認識領域を表示する選択領域表示部Ｗ５２が表示される。ここでは、Ｎｏ．１の画像の「実施場所」の項目に対応する認識領域が表示されている。また図８では、選択領域表示部Ｗ５２の右側に認識結果が表示されており、「修正後」の欄を編集することによって、選択された認識結果を修正することができる。修正結果の保存は「ページ別修正」及び「項目別修正」の場合と同様である。

更に本実施形態では、修正画面における各修正領域の配置を、ユーザの指定により設定することができる。図９は、ユーザが設定した配置で表示される場合の、修正画面の表示例を示す。図９の修正画面は修正部Ｗ６１を備え、このように、修正領域ごとに事前に設定された位置に、画像の認識結果が表示される。

この画面では、全ての認識結果に対応する認識領域が常に表示されるわけではなく、選択された認識結果に対応する認識領域が表示される。ここでは「病院名」の項目に対応する認識結果が選択されている場合を示しており、選択された認識結果に対応する認識領域が、修正部Ｗ６１内に表示されている。また認識結果を選択すると編集することができるようになり、ユーザは表示された画像の認識領域を確認しながら必要に応じて適切な文字列に修正することができる。修正結果の保存は「ページ別修正」、「項目別修正」及び「一覧修正」の場合と同様である。

このような専用修正フォームは、修正画面設定手段１６がユーザの入力を受け付けることによって作成される。具体的には、修正画面設定手段１６は、ユーザから、テンプレートを指定し、当該テンプレートにおける修正領域ごとの認識結果の画面上の表示位置を指定する入力を受け付けて、テンプレート及びユーザに対応付けて修正画面設定情報を記憶部１９に登録する。これにより、専用修正フォームの作成者であるユーザは、ページ別修正、項目別修正及び一覧修正の他、自らが設定した配置の修正画面を介して、認識結果の修正を行うことができる。

＜テンプレート作成＞
更に、本実施形態では、文書の読取に用いるテンプレートを、ユーザ自ら作成することができる。ここでは、図１０～図１３を参照して、テンプレートの作成について詳しく説明する。

テンプレートの作成に際しては、まず認識対象とする型の文書の、見本画像を取得する。見本画像は、読取装置１に接続されたスキャナ等により取得されてもよいし、記憶部１９等に記憶された画像の中から選択されてもよい。見本画像は、書式の見本となる画像であるため、未記入の文書を適切な向きで画像化したものであることが好ましい。

図１０は、テンプレート作成画面の表示例である。テンプレート作成画面は、見本画像表示部Ｗ７１と、認識領域設定部Ｗ７２を備える。図１０は、認識領域が作成されていない状態のテンプレート作成画面を示しており、この場合には認識領域設定部Ｗ７２には自動検出ボタンが表示される。

自動検出ボタンが選択されると、テンプレート作成手段１７が見本画像の枠線を認識し、記入欄を検出して認識領域を作成する。図１１は、自動検出により認識領域が作成された状態のテンプレート作成画面である。作成された認識領域は、見本画像表示部Ｗ７１において薄い色の太線に、ハッチングした領域で示されており、位置や大きさは任意に編集可能である。このように自動作成された認識領域ごとに、認識領域設定部Ｗ７２を介して認識種別を含む種々の設定を行うことができる。また不要な認識領域は削除することができる。なお自由選択によって見本画像表示部Ｗ７１において領域を指定することで認識領域を作成することもできる。

図１２は、コードの認識領域の設定例を示す図である。認識種別としては、例えば住所、氏名、銀行名、支店名、郵便番号、電話番号、メール、ＯＣＲ、コード等、各種の情報が想定される。またＯＣＲやコードについては、更にその種別を細分して認識種別が設定可能である。このように見本画像表示部Ｗ７１において指定した位置及び大きさの認識領域に対して、認識領域設定部Ｗ７２において認識種別、項目名等の詳細な情報を入力することで、認識領域ごとに詳細な設定を行うことができる。

特に、認識種別として、正規表現や禁止文字等を設定することができる。具体的には、医療機関コードの記入欄に対応する認識領域については全て半角数字として認識することや、ふりがな欄に対応する認識領域についてはひらがな又はカタカナとして認識すること等を指定することができる。また、認識種別としては、文字やコードの他、チェックボックスの認識を行うこともでき、その場合には、チェックボックスに対応する選択肢を予め認識領域の情報として登録しておくことで、選択肢の文字列を認識結果として登録することができる。例えば、ワクチンの接種量として、０．３ｍｌと０．５ｍｌの選択肢があり、チェックボックスにより選択される場合、チェックされた選択肢を画像認識によって特定することで、認識結果として「０．３」又は「０．５」等を登録することができる。

このようにして、読み取りたい全ての項目に対して認識領域の設定情報を入力し、画面右下の「保存」ボタンを選択することにより、テンプレート作成手段１７が、指定されたテンプレート名でテンプレート情報と認識領域の情報を記憶部１９に登録する。このようにして登録されたテンプレートは、先に説明した認識処理において利用することができる。

その他、認識領域については、認識対象から除外する情報の設定を行うこともできる。図１３は、除外設定のためのポップアップ画面の表示例である。本実施形態では、テンプレート作成手段１７がユーザから除外指定の入力を受け付けて、指定された対象を認識対象から除外することができる。

図１３では、認識領域における枠線部を認識対象から除外するように、除外領域を個々に設定している。またこの他本実施形態では、認識領域ごとに、認識対象としない色として認識除外色の指定を受け付ける。例えば記入欄の枠線が赤色で印刷されている予診票において赤を認識除外色とすれば、枠線を誤って文字と認識してしまうことを避けることができる。また認識除外色は複数指定可能であってよく、例えばメモ書きに赤と青のペンがよく使われる場合に、赤と青を認識除外色とすることで、メモ書きを除外して、記入欄に記入された情報のみを認識する等の応用が可能である。

テンプレートにおいてこのように除外設定が行われている場合、文字認識手段１３及びコード認識手段１４は、図２及び図３の処理で、認識領域内においてそれぞれ除外領域以外の部分について、文字領域やコード領域の検出、認識を行う。また認識除外色が設定されている場合、文字認識手段１３及びコード認識手段１４は認識除外色に類似する色の部分を特定し、その部分については認識対象から除外される。

以上のように、本実施形態の読取システムによれば、認識領域ごとに詳細に認識条件を設定することができる。また、種々の修正画面において、選択された認識履歴に含まれる複数の画像に対する認識結果をその認識領域と対応付けて表示させることにより、効率的に修正作業が可能となる。

なお認識履歴には、個人情報が含まれるため、権限設定により、アクセスできるユーザを制限することが好ましい。例えば、初期設定では、認識履歴を作成した（認識指示をした）ユーザのみがアクセスできるようにし、当該ユーザから任意のユーザに対して権限を与えられるようにしてもよい。また作成されたテンプレートについても同様に、利用できるユーザを制限してもよい。

１：読取装置
１０：テンプレート取得手段
１１：画像取得手段
１２：認識領域特定手段
１３：文字認識手段
１４：コード認識手段
１５：修正手段
１６：修正画面設定手段
１７：テンプレート作成手段
１８：表示手段
１９：記憶部
Ｗ１１：テンプレート選択部
Ｗ１２：テンプレート表示部
Ｗ３１：画像表示部
Ｗ３２：修正部
Ｗ３３：画像切替部
Ｗ４１：項目選択部
Ｗ４２：修正部
Ｗ５１：一覧表示部
Ｗ５２：選択領域表示部
Ｗ６１：修正部
Ｗ７１：見本画像表示部
Ｗ７２：認識領域設定部

Claims

定型の文書に含まれる文字及びコードの認識を行う読取システムであって、前記読取システムは、画像取得手段と、テンプレート取得手段と、認識領域特定手段と、文字認識手段と、コード認識手段と、を備え、
前記テンプレート取得手段は、ユーザの指定に基づいて、前記文書における記入項目にそれぞれ対応する複数の認識領域及び前記認識領域ごとの認識種別を特定した、前記文書の種類別のテンプレートを取得し、
前記画像取得手段は、前記テンプレートと同一種類の複数の前記文書の画像を取得し、
前記認識領域特定手段は、前記テンプレートに基づいて、前記画像ごとに前記認識領域を特定し、
前記文字認識手段は、文字を示す前記認識種別が指定された前記認識領域に対して文字認識を実行するとともに、その結果を前記画像と対応付けて登録し、
前記コード認識手段は、コードを示す前記認識種別が指定された前記認識領域からコード領域を特定して、前記コード領域におけるコードの認識を実行するとともに、その結果を前記画像と対応付けて登録する読取システム。
前記読取システムは、修正手段を更に備え、
前記修正手段は、ユーザに対して表示される修正画面を介して、前記文字認識手段及び／又はコード認識手段による認識結果を修正する入力を受け付けて登録し、
前記修正画面は、前記画像における前記認識領域及び認識結果を対応付けて表示する
請求項１に記載の読取システム。
前記修正画面は、複数の前記文書における、同一の前記認識領域について、前記認識領域及び認識結果をそれぞれ対応付けて同一画面上に表示する
請求項２に記載の読取システム。
前記修正画面は、
前記画像ごとに前記認識領域別の前記認識結果を選択可能に表示する一覧表示部と、
前記一覧表示部において選択された前記認識結果に対応する前記認識領域を表示する選択領域表示部と、を備える
請求項２に記載の読取システム。
前記読取システムは、修正画面設定手段を更に備え、
前記修正画面設定手段は、前記修正画面における前記認識結果の表示位置の指定を、対応する前記認識領域ごとに受け付けて登録し、
前記修正画面は、前記修正画面設定手段により登録された表示位置に前記認識結果を表示するとともに、選択された前記認識結果に対応する前記認識領域を表示する
請求項２に記載の読取システム。
前記読取システムは、テンプレート作成手段を更に備え、
前記テンプレート作成手段は、前記文書の種類ごとに、前記文書の見本画像における前記認識領域及びその認識種別を指定する入力をユーザから受け付けて、前記テンプレートを登録する
請求項１から請求項５の何れかに記載の読取システム。
前記テンプレート作成手段は、認識対象としない色として認識除外色の指定を受け付けて、前記テンプレートの情報として登録し、
前記文字認識手段及び／又はコード認識手段は、前記認識除外色と類似する色の部分を認識対象から除外する
請求項６に記載の読取システム。
前記文字認識手段は、前記画像から文字領域を検出し、
前記認識領域特定手段は、前記文字領域に基づいて、前記認識領域を拡張し、前記文字認識手段に拡張後の領域において文字認識を実行させる
請求項１から請求項７の何れかに記載の読取システム。
前記認識領域特定手段は、前記文字領域と前記認識領域の端部とが重複する場合に、当該認識領域が前記文字領域を含むように領域を拡張し、前記文字認識手段に拡張後の領域において文字認識を実行させる
請求項８に記載の読取システム。
前記認識領域特定手段は、前記テンプレートに基づいて、前記画像の向きを補正する
請求項１から請求項９の何れかに記載の読取システム。
定型の文書に含まれる文字及びコードの認識を行う読取プログラムであって、画像取得手段と、テンプレート取得手段と、認識領域特定手段と、文字認識手段と、コード認識手段と、としてコンピュータを機能させ、
前記テンプレート取得手段は、ユーザの指定に基づいて、前記文書における記入項目にそれぞれ対応する複数の認識領域及び前記認識領域ごとの認識種別を特定した、前記文書の種類別のテンプレートを取得し、
前記画像取得手段は、前記テンプレートと同一種類の複数の前記文書の画像を取得し、
前記認識領域特定手段は、前記テンプレートに基づいて、前記画像ごとに前記認識領域を特定し、
前記文字認識手段は、文字を示す前記認識種別が指定された前記認識領域に対して文字認識を実行するとともに、その結果を前記画像と対応付けて登録し、
前記コード認識手段は、コードを示す前記認識種別が指定された前記認識領域からコード領域を特定して、前記コード領域におけるコードの認識を実行するとともに、その結果を前記画像と対応付けて登録する読取プログラム。
定型の文書に含まれる文字及びコードの認識を行う読取システムを用いた読取方法であって、前記読取システムは、画像取得手段と、テンプレート取得手段と、認識領域特定手段と、文字認識手段と、コード認識手段と、を備え、
前記テンプレート取得手段は、ユーザの指定に基づいて、前記文書における記入項目にそれぞれ対応する複数の認識領域及び前記認識領域ごとの認識種別を特定した、前記文書の種類別のテンプレートを取得し、
前記画像取得手段は、前記テンプレートと同一種類の複数の前記文書の画像を取得し、
前記認識領域特定手段は、前記テンプレートに基づいて、前記画像ごとに前記認識領域を特定し、
前記文字認識手段は、文字を示す前記認識種別が指定された前記認識領域に対して文字認識を実行するとともに、その結果を前記画像と対応付けて登録し、
前記コード認識手段は、コードを示す前記認識種別が指定された前記認識領域からコード領域を特定して、前記コード領域におけるコードの認識を実行するとともに、その結果を前記画像と対応付けて登録する読取方法。