JP2019175037A - 文字認識装置、方法およびプログラム - Google Patents

文字認識装置、方法およびプログラム Download PDF

Info

Publication number
JP2019175037A
JP2019175037A JP2018061297A JP2018061297A JP2019175037A JP 2019175037 A JP2019175037 A JP 2019175037A JP 2018061297 A JP2018061297 A JP 2018061297A JP 2018061297 A JP2018061297 A JP 2018061297A JP 2019175037 A JP2019175037 A JP 2019175037A
Authority
JP
Japan
Prior art keywords
text data
likelihood
character recognition
character
reading item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018061297A
Other languages
English (en)
Other versions
JP6462930B1 (ja
Inventor
択 渡久地
Taku Toguchi
択 渡久地
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ai Inside
AI Inside Inc
Original Assignee
Ai Inside
AI Inside Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ai Inside, AI Inside Inc filed Critical Ai Inside
Priority to JP2018061297A priority Critical patent/JP6462930B1/ja
Application granted granted Critical
Publication of JP6462930B1 publication Critical patent/JP6462930B1/ja
Publication of JP2019175037A publication Critical patent/JP2019175037A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

【課題】項目ごとに尤度を算出し、算出した尤度に基づいて読取項目の表示態様を変更することが可能な文字認識装置、方法およびプログラムを提供する。【解決手段】書類をスキャンして変換された画像データに対して、読取を行う読取項目の設定を行う読取項目設定部231と、OCR機能を備え、画像データの読取項目に表示されている文字情報をOCRで読み取ってテキストデータを生成する文字認識部232と、読取項目の画像データとテキストデータとを並列に表示させるテキストデータ表示部233と、テキストデータの尤度を算出する尤度算出部234と、表示されたテキストデータの表示の態様を変更する表示変更部235と、を有する制御部230を備える文字認識装置200を提供する。【選択図】図2

Description

本開示は、画像データから文字情報を読み取る文字認識装置、方法およびプログラムに関する。
手書きで文字が記入された書類をイメージスキャナなどで読み取り、OCR(Optical Character Recognition)処理を行うことにより、入力情報を所定の文字コードに変換したデジタルデータを生成する技術が普及している。
手書きの書類等を画像としてスキャンした画像データから、機械学習により文字認識を行う文字識別システムが開示されている(例えば、特許文献1参照。)。特許文献1に開示されている文字認識システムでは、見本文字画像の入力を受け付ける文字画像入力受付部と、見本文字画像に基づいて文字部品を抽出する文字部品抽出と、文字部品に基づいて擬似文字モデルを生成する擬似文字モデル生成部と、擬似文字モデルに基づいて文字識別パターンを生成して識別辞書を生成する識別辞書生成と、により構成されるシステムが提案されている。
特開2015−069256号公報
ところで、OCRによる文字認識の正解率は必ずしも完全ではないため、文字認識処理を行った後に、人間の目視による確認が一般的に行われる。その際に、文字認識の精度(文字認識処理を行った文字の尤度)は文字ごとに異なるが、その尤度によらず全ての項目・文字を目視で一律に確認するため、非効率であった。
そこで、本開示では、手書きの書類等を画像としてスキャンした画像データからOCR処理により文字認識を行う際に、項目ごとに尤度を算出し、算出した尤度に基づいて読取項目の表示態様を変更することにより、読取項目ごとの読取処理の信頼性を把握することで無駄な目視確認処理を行わず、精度の高いテキストデータ生成を行うことができる文字認識装置、方法およびプログラムについて説明する。
本開示の一態様における文字認識装置は、書類を画像としてスキャンした画像データから、文字情報を読み取る文字認識装置であって、書類の画像データに設定された読取項目に表示されている文字情報の文字認識を行い、テキストデータを生成する文字認識部と、読取項目ごとに読取項目の画像データとテキストデータとを比較可能に表示し、テキストデータを編集可能な状態にするテキストデータ表示部と、読取項目ごとに文字認識の尤度を算出する尤度算出部と、算出された尤度に基づき、テキストデータを表示する箇所の態様を変化させる表示変更部と、を備える。
本開示の一態様における文字認識方法は、書類を画像としてスキャンした画像データから、文字情報を読み取る文字認識方法であって、文字認識部が行う、書類の画像データに設定された読取項目に表示されている文字情報の文字認識を行い、テキストデータを生成する文字認識ステップと、テキストデータ表示部が行う、読取項目ごとに読取項目の画像データとテキストデータとを比較可能に表示し、テキストデータを編集可能な状態にするテキストデータ表示ステップと、尤度算出部が行う、読取項目ごとに文字認識の尤度を算出する尤度算出ステップと、算出された尤度に基づき、表示変更部が行う、テキストデータを表示する箇所の態様を変化させる表示変更ステップと、を備える。
また、本開示の一態様における文字認識プログラムは、書類を画像としてスキャンした画像データから、文字情報を読み取る文字認識プログラムであって、書類の画像データに設定された読取項目に表示されている文字情報の文字認識を行い、テキストデータを生成する文字認識ステップと、読取項目ごとに読取項目の画像データとテキストデータとを比較可能に表示し、テキストデータを編集可能な状態にするテキストデータ表示ステップと、読取項目ごとに文字認識の尤度を算出する尤度算出ステップと、算出された尤度に基づき、テキストデータを表示する箇所の態様を変化させる表示変更ステップと、を電子計算機に実行させる。
本開示によれば、手書きの書類等を画像としてスキャンした画像データからOCR処理により文字認識を行う際に、項目ごとに尤度を算出し、算出した尤度に基づいて読取項目の表示態様を変更することができるため、読取項目ごとの読取処理の信頼性を把握することが可能である。これにより、無駄な目視確認処理を行わず、精度の高いテキストデータ生成を行うことが可能である。
本開示の一実施形態に係る文字認識システムを示す機能ブロック図である。 図1に示す文字認識装置200の構成の一例を示す機能ブロック図である。 図1の画像データDB221に記憶されている画像データの例である口座振替依頼書を示す模式図である。 図3の口座振替依頼書の画像データが表示部に表示されている状態の例を示す模式図である。 図4の画像データから抽出された読取項目の画像データとテキストデータとが並列に表示されている状態の例を示す模式図である。 図2の文字認識部232による特徴抽出とベクトル変換の様子を示す模式図である。 図2の文字認識部232による字種の判定の様子を示す模式図である。 図5の読取項目の画像データとテキストデータとが並列に表示されている状態からテキストデータの右端に色彩が施された状態の例を示す模式図である。 図1に示す文字認識システム1による文字認識方法を示すフローチャートである。 図1に示す記憶部240に記憶される金融機関テーブルの例を示す図である。 本開示の一実施形態に係る文字認識システムにおける画像データから抽出された読取項目の画像データと、テキストデータとが並列に表示されている状態の例を示す模式図である。 本開示の一実施形態に係る文字認識システムにおける画像データから抽出された読取項目の画像データと、テキストデータとが並列に表示されている状態の例を示す模式図である。 本開示の一実施形態に係る文字認識システムにおける画像データから抽出された読取項目の画像データと、テキストデータとが並列に表示されている状態の例を示す模式図である。
本開示の実施形態について図面を参照して説明する。なお、以下に説明する実施形態は、特許請求の範囲に記載された本開示の内容を不当に限定するものではない。また、実施形態に示される構成要素のすべてが、本開示の必須の構成要素であるとは限らない。
(実施形態1)
<構成>
図1は、本開示の実施形態1に係る文字認識システム1のブロック図である。この文字認識システム1は、例えば、手書きの申込書や口座振替依頼書等の書類を画像としてスキャンした画像データから、文字情報を読み取るシステムであり、顧客から申込書や口座振替依頼書を受領するユーザ企業が、申込書や口座振替依頼書に記載された手書きの文字情報を読み取るために使用される。
文字認識システム1は、ユーザシステム100と、文字認識装置200と、ネットワークNWと、を有している。ユーザシステム100と、文字認識装置200とは、ネットワークNWを介して接続される。ネットワークNWは、インターネット、LAN(Local Area Network)やWAN(Wide Area Network)等により構成される。また、このネットワークNWは有線通信でも無線通信でも良く、LTE(Long Term Evolution)等の4Gと呼ばれる通信方式や、5Gによる通信方式も含まれる。
ユーザシステム100は、複数の項目から構成される申込書や口座振替依頼書などの書類をスキャンし、画像データに変換する。このユーザシステム100は、スキャナ装置110と、ユーザ端末120とを備え、例えば、USB(登録商標)やLANにより相互に通信可能に接続されている。
スキャナ装置110は、申込書や口座振替依頼書などの書類をスキャンして画像データに変換する装置である。なお、この実施形態1ではスキャナ装置としたが、紙媒体による書類を電子データ化できる装置であれば良く、例えば、カメラ等でも良い。スキャナ装置110でスキャンした画像データは、後述する画像データDB221に記憶される。
ユーザ端末120は、ユーザ企業に設置される端末であり、ユーザの操作により、画像データに対して読取項目を設定し、読取項目の文字認識が行われたテキストデータに対して目視確認を行う端末である。このユーザ端末120は、画像データを表示する表示部を備え、操作部を操作することでネットワークNWを介して文字認識装置200にアクセスされ、各種プログラムが起動されて提供されるようになっており、表示部はディスプレイ等から構成され、操作部はキーボードやマウス等から構成される。
図2は、図1に示す文字認識装置200の構成の一例を示す機能ブロック図である。この文字認識装置200は、設定された読取項目に基づき、画像データ上の読取項目に表示されている文字情報をテキストデータとして生成する。文字認識装置200は、通信部210と、記憶部220と、制御部230とを備える。
通信部210は、ネットワークNWを介してユーザシステム100と通信を行うための通信インターフェースであり、TCP/IP(Transmission Control Protocol/Internet Protocol)等の通信規約により通信が行われる。
記憶部220は、各種制御処理や制御部250内の各機能を実行するためのプログラム、入力データ等を記憶するものであり、RAM(Random Access Memory)、ROM(Read Only Memory)等から構成される。また、記憶部220は、後述するテキストデータ表示部233により表示された読取項目の画像データや、尤度算出部234により算出された尤度を一時的に記憶している。
さらに、記憶部220は、スキャナ装置110で変換した画像データを記憶する画像データDB221と、画像データに対して設定した読取項目を記憶する読取項目DB222と、読取項目が読み取られて生成されたテキストデータを記憶するテキストデータDB223とを備えている。画像データDB221、読取項目DB222、テキストデータDB223は、制御部230の各種プログラムからアクセスされて参照、更新が可能なデータベースである。
制御部230は、記憶部220に記憶されているプログラムを実行することにより、文字認識装置200の全体の動作を制御するものであり、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)等から構成される。制御部230により実行されるプログラムの機能として、読取項目設定部231、文字認識部232、テキストデータ表示部233、尤度算出部234、表示変更部235を備えている。この読取項目設定部231、文字認識部232、テキストデータ表示部233、尤度算出部234、表示変更部235は、記憶部220に記憶されているプログラムにより起動されて実行される。
読取項目設定部231は、ユーザ端末120の操作部が操作されることにより、画像データDB221に記憶されている画像データに対して、読取を行う読取項目の設定を行う。読取項目の設定は、画像データが表示されているユーザ端末120の表示部で、操作部(例えば、マウス)が操作されて、例えば、いわゆるドラッグ&ドロップによる範囲設定により行われる。設定された読取項目は、読取項目DB222に記憶される。
図3は、図2の画像データDB221に記憶されている画像データの例である口座振替依頼書を示す模式図である。この口座振替依頼書は、公共料金の引き落とし等のために、金融機関に対して口座振替を依頼するための申込書であり、記入項目として、氏名フリガナ記入欄A1、氏名漢字記入欄A2、金融機関名記入欄A3、支店名記入欄A4、金融機関コード記入欄A5、支店コード記入欄A6、預金種目記入欄A7、口座番号記入欄A8が設けられている。また、これらの記入項目には例として、氏名フリガナ記入欄A1には「トッキョ タロウ」と、氏名漢字記入欄A2には「特許 太郎」と、金融機関名記入欄A3には「みずほ(銀行)」と、支店名記入欄A4には「麹町(支店)」と、金融機関コード記入欄A5には「0001」と、支店コード記入欄A6には「021」と、口座番号記入欄A8には「1111111」と手書きで記入され、預金種目記入欄A7には「普通」に〇がつけられている。
ユーザ企業では、口座振替依頼書をテキスト化する処理を行う際、このような口座振替依頼書を、スキャナ装置110を使用してスキャンを行い、画像データを画像データDB221に記憶させる。
図4は、図3の口座振替依頼書の画像データが表示部に表示されている状態の例を示す模式図である。ユーザ端末120の表示部の画面P1には、図3に示す口座振替依頼書の画像データが表示され、口座振替依頼書の記入項目と同様の氏名フリガナ記入欄A1、氏名漢字記入欄A2、金融機関名記入欄A3、支店名記入欄A4、金融機関コード記入欄A5、支店コード記入欄A6、預金種目記入欄A7、口座番号記入欄A8が表示されている。
この状態で、ユーザ端末120の操作部が操作されてドラッグ&ドロップを行い、図4に破線で示すように読取項目の範囲設定を行う。例えば、氏名フリガナ読取項目S1、氏名漢字読取項目S2、金融機関名読取項目S3、支店名読取項目S4、金融機関コード読取項目S5、支店コード読取項目S6、口座番号読取項目S7が読取項目として範囲設定される。
なお、ここでは、ユーザの操作により読取項目の範囲設定を行う方法について説明したが、文字認識装置200により読取項目を自動設定しても良い。例えば、図3の口座振替依頼書において、印刷されている文字や罫線等以外の、手書きにより記入されている文字を認識し、その範囲を文字認識ごとに設定しても良い。これにより、印刷されている罫線からはみ出して記載されている場合でも文字認識が可能である。
文字認識部232は、OCR機能を備え、画像データDB221に記憶されている画像データを読み出し、読取項目DB222に記憶されている読取項目に表示されている文字情報をOCRで読み取ってテキストデータを生成する。生成されたテキストデータは、テキストデータDB223に記憶される。
図3に示す例では、氏名フリガナ読取項目S1に記載されている内容として「トッキョ タロウ」がテキストデータとして生成される。同様に、氏名漢字読取項目S2の記載内容として「特許 太郎」が、金融機関名読取項目S3の記載内容として「みずほ(銀行)」が、支店名読取項目S4の記載内容として「麹町(支店)」が、金融機関コード読取項目S5の記載内容として「0001」が、支店コード読取項目S6の記載内容として「021」が、口座番号読取項目S7の記載内容として「1111111」がテキストデータとして生成される。
テキストデータ表示部233は、画像データDB221に記憶されている画像データから、読取項目DB222に記憶されている読取項目の画像データを抽出する。また、テキストデータ表示部233は、テキストデータDB223に記憶されているテキストデータを読み出し、読取項目の画像データとテキストデータとを、ユーザ端末120の表示部上に並列に表示する。
図5は、図4の画像データから抽出された読取項目の画像データとテキストデータとが並列に表示されている状態の例を示す模式図である。ユーザ端末120の表示部の画面P1の左側には、図4と同様に、氏名フリガナ記入欄A1、氏名漢字記入欄A2、金融機関名記入欄A3、支店名記入欄A4、金融機関コード記入欄A5、支店コード記入欄A6、預金種目記入欄A7、口座番号記入欄A8が表示されている。
また、画面P1の右側には、画像データから抽出された読取項目の画像データの例として、氏名フリガナ読取項目S1、氏名漢字読取項目S2、金融機関名読取項目S3、支店名読取項目S4、金融機関コード読取項目S5、支店コード読取項目S6、口座番号読取項目S7が表示されている。
さらに、これらの読取項目から読み取ったテキストデータの例として、氏名フリガナテキストT1、氏名漢字テキストT2、金融機関名テキストT3、支店名テキストT4、金融機関コードテキストT5、支店コードテキストT6、口座番号テキストT7が、それぞれの読取項目の画像データの下側にそれぞれ並列に表示されている。このように表示するのは、それぞれの読取項目の画像データと読取結果であるテキストデータとを対比しやすくすることで、正確にテキストデータ生成が行われていることを確認しやすくするためである。
この読取項目の画像データ及びテキストデータは、図5に示すように画像データに並列に表示しても良く、また、画面P1の上に別画面(ウィンドウ)として表示させても良い。
尤度算出部234は、画面P1に表示されている読取項目ごとのテキストデータの尤度を算出する。このとき、テキストデータを構成する文字ごとに算出された尤度に対して所定の演算、例えば、文字ごとの尤度を乗算することにより、読取項目ごとのテキストデータの尤度を算出する。なお、テキストデータの尤度の算出はこれ以外の方法で算出しても良く、例えば、文字ごとの尤度の平均値を算出することにより算出しても良い。
ここで、文字認識部232で行われるOCR機能における文字識別と尤度との関係について説明する。図6は、図2の文字認識部232による特徴抽出とベクトル変換の様子を示す模式図である。また、図7は、図2の文字認識部232による字種の判定の様子を示す模式図である。
文字認識部232は、図6に示すように、切り出した1個の文字パターンの画像データに対して特徴抽出を行う。そして、文字のストロークの方向成分などを抽出し、画像データを特徴空間上の1つのベクトルに変換する。図6に示す例では、画像データXが多層のニューラルネットワークに入力され、方向や位置等の特徴を捉えて特徴抽出をされている様子を模式的に示している。また、図6に示す例では、ベクトルXと、ベクトルXと、ベクトルXとに変換された様子が模式的に示されている。
次に、文字認識部232は、図7に示すように、変換されたベクトルに基づいて字種が何であるかを判定する。例えば、当該判定において、事前に大量のパターンを使った分布の様子から、どの字種が特徴空間上のどの辺りに分布しているかを保持している辞書データを参照し、未知の入力パターンである画像データの候補を決定する。図7に示す例では、辞書データにおいて、字種「中」、字種「申」および字種「十」の情報が記憶されている様子を概念的に示しており、原点から離れるほどその字種の尤もらしさが高いことを示している。
文字認識部232は、以上のプロセスにより、複数のテキスト候補(例えば、中、申、十)を取得する。そして、各テキスト候補の尤もらしさを示す尤度が文字ごとに算出される。尤度算出部234では、その文字ごとの尤度から、読取項目の尤度が算出される。なお、各テキスト候補の尤度は、特徴空間内における各候補の中心と、未知の入力パターンである画像データとの距離で算出することができる。
表示変更部235は、尤度算出部234によって算出されたテキストデータの尤度に基づき、テキストデータ表示部233によって表示されたテキストデータの表示の態様を変更する。例えば、画面P2に表示されている各テキストデータの枠の右端に色彩を施し、その色をテキストデータの尤度に基づいて変化させる。
図8は、図5の読取項目の画像データとテキストデータとが並列に表示されている状態からテキストデータの右端に色彩が施された状態の例を示す模式図である。テキストデータ表示部233によって表示された、氏名フリガナテキストT1、氏名漢字テキストT2、金融機関名テキストT3、支店名テキストT4、金融機関コードテキストT5、支店コードテキストT6、口座番号テキストT7には、図8に示すように、それぞれ氏名フリガナ彩色部T11、氏名漢字彩色部T21、金融機関名彩色部T31、支店名彩色部T41、金融機関コード彩色部T51、支店コード彩色部T61、口座番号彩色部T71が設けられている。
この氏名フリガナ彩色部T11、氏名漢字彩色部T21、金融機関名彩色部T31、支店名彩色部T41、金融機関コード彩色部T51、支店コード彩色部T61、口座番号彩色部T71は、尤度算出部234によって算出された、氏名フリガナテキストT1、氏名漢字テキストT2、金融機関名テキストT3、支店名テキストT4、金融機関コードテキストT5、支店コードテキストT6、口座番号テキストT7の尤度により、例えば、尤度が0〜0.6の場合は赤色に、0.6〜0.8の場合はオレンジ色に、0.8以上の場合は黄色に彩色される。また、尤度が高くなるほど細く表示されている。このように態様を変化させるのは、テキストデータの尤度が高いほどその読取項目のテキストデータへの変換処理が正確に行われているといえるので、その読取項目の尤度がどれくらいであったかを一目で把握することを可能にするためである。
<処理の流れ>
以下、図9を参照しながら、文字認識システム1が実行する文字認識方法の一例を説明する。図9は、図1に示す文字認識システム1による文字認識方法を示すフローチャートである。
ステップS101の処理として、読取項目設定部231では、画像データDB221に記憶されている画像データに対して、読み取ってテキストデータの生成を行う読取項目の設定を行う。
このとき、例えば、図4に示す氏名フリガナ読取項目S1にはカタカナのみが記載され、金融機関コード読取項目S5、支店コード読取項目S6、及び口座番号読取項目S7には数字のみが記載されるため、生成するテキストデータの文字種類を限定するように設定することも可能である。また、金融機関名読取項目S3は、金融機関コード読取項目S5の値に対応する金融機関名が記入され、支店名読取項目S4は、支店コード読取項目S6の値に対応する支店名が記入されるので、例えば図10に示すような金融機関テーブルから該当するテキスト及び値を選択するように設定することも可能である。設定された読取項目は、読取項目DB222に記憶される。
ステップS102の処理として、文字認識部232では、画像データDB221に記憶されている画像データが読み出され、読取項目DB222に記憶されている読取項目に表示されている文字情報がOCRで読み取られ、テキストデータが生成される。具体的には、例えば、文字パターンの画像データに対して特徴抽出が行われ、文字のストロークの方向成分などが抽出されて特徴空間上の1つのベクトルに変換され、どの字種が特徴空間上のどの辺りに分布しているかを保持している辞書データを参照されて尤度の高い字種が決定される。
ステップS103の処理として、テキストデータ表示部233では、画像データDB221に記憶されている画像データから読取項目DB222に記憶されている読取項目の画像データが抽出され、また、テキストデータDB223に記憶されているテキストデータが読み出され、読取項目の画像データとテキストデータとが、図5に示す画面P1のように並列に表示する。
図5の例では、氏名フリガナ読取項目S1と氏名フリガナテキストT1とが、氏名漢字読取項目S2と氏名漢字テキストT2とが、金融機関名読取項目S3と金融機関名テキストT3とが、支店名読取項目S4と支店名テキストT4とが、金融機関コード読取項目S5と金融機関コードテキストT5とが、支店コード読取項目S6と支店コードテキストT6とが、口座番号読取項目S7と口座番号テキストT7とがそれぞれ並列に表示されている。
ステップS104の処理として、尤度算出部234では、テキストデータDB223に記憶されているテキストデータを構成する文字ごとに算出された、文字ごとの尤度を乗算して、その読取項目の尤度を算出する。
ステップS105の処理として、表示変更部235では、尤度算出部234によって算出されたテキストデータの尤度に基づき、図8に示すように、氏名フリガナテキストT1、氏名漢字テキストT2、金融機関名テキストT3、支店名テキストT4、金融機関コードテキストT5、支店コードテキストT6、口座番号テキストT7にそれぞれ設けられた、氏名フリガナ彩色部T11、氏名漢字彩色部T21、金融機関名彩色部T31、支店名彩色部T41、金融機関コード彩色部T51、支店コード彩色部T61、口座番号彩色部T71の色彩及び太さが変更される。例えば、算出されたテキストデータの尤度が0〜0.6の場合は赤色に、0.6〜0.8の場合はオレンジ色に、0.8以上の場合は黄色に彩色される。
以上のように、本実施形態に係る文字認識システムは、テキストデータを構成する文字ごとに算出された尤度を、テキストデータを構成する文字の分だけ乗算して、その読取項目のテキストデータの尤度を算出する。これにより、読み取ったテキストデータの尤度から、読取項目ごとの読取の信頼性を評価することが可能になる。
また、読取項目ごとのテキストデータの尤度に基づき、表示されたテキストデータの枠の右端に色彩を施し、その色をテキストデータの尤度に基づいて変化させる等の手法により態様を変化させることができるので、テキストデータの尤度を一目で把握することが可能になる。これにより、読取項目ごとの信頼性を一目で把握することができるため、信頼性の低い読取項目のみ重点的に確認するなど、目視による確認の効率向上に寄与することが可能である。
(実施形態2)
<構成>
図11は、本開示の実施形態2に係る文字認識システムにおける、画像データから抽出された読取項目の画像データとテキストデータとが並列に表示されている状態の例を示す模式図である。この文字認識システム1は、実施形態1と同様の構成であるが、表示変更部235により変更される、テキストデータ表示部233によって表示されたテキストデータの表示の態様が異なる。この実施形態2では、表示変更部235は、尤度算出部234によって算出された読取項目ごとのテキストデータの尤度が所定の閾値以下の場合、当該読取項目のテキストデータの表示を行わない(ブランクにして表示させる)点において、実施形態1と異なる。
図11に示すように、画面P1には、実施形態1の図5と同様に、氏名フリガナ読取項目S1、氏名漢字読取項目S2、金融機関名読取項目S3、支店名読取項目S4、金融機関コード読取項目S5、支店コード読取項目S6、口座番号読取項目S7、氏名フリガナテキストT1、氏名漢字テキストT2、金融機関名テキストT3、支店名テキストT4、金融機関コードテキストT5、支店コードテキストT6、口座番号テキストT7が表示されているが、氏名フリガナテキストT1及び氏名漢字テキストT2のテキストデータが表示されず、ブランク(空白)状態になっている。この例では、氏名フリガナテキストT1及び氏名漢字テキストT2のテキストデータの尤度が所定の閾値以下であるため、表示変更部235は表示を行っていない。
このように、所定の閾値以下のテキストデータを表示していないのは、これらのテキストデータの尤度が低く、一定の信頼性がないと考えられるため、人間が目視確認して個別に手入力し直す必要がある。そのため、最初からテキストデータを表示しないことにより、余計な目視確認処理を省略し、効率的に文字入力を行うことを可能にするためである。その他の構成及び処理の流れについては、実施形態1と同様である。
本実施形態によれば、上記実施形態1の効果に加え、尤度算出部234によって算出されたテキストデータの尤度が所定の閾値以下の場合、表示変更部235ではテキストデータの表示を行わないので、一定の信頼性がない読取項目についてテキストデータの表示を省略することができる。これにより、余計な目視確認処理を省略し、効率的に文字入力を行うことが可能になる。
(実施形態3)
<構成>
図12は、本開示の実施形態3に係る文字認識システムにおける、画像データから抽出された読取項目の画像データとテキストデータとが並列に表示されている状態の例を示す模式図である。この文字認識システム1は、実施形態1と同様の構成であるが、表示変更部235により変更される、テキストデータ表示部233によって表示されたテキストデータの表示の態様が異なる。この実施形態3では、表示変更部235は、読取項目ごとのテキストデータの尤度により各テキスト表示欄に設けられた彩色部に色彩を施すとともに、文字ごとの尤度に応じて文字の態様を変更する点において、実施形態1と異なる。文字の態様の変更は、例えば、文字の色彩の変更や、文字のフォント(字体や文字の太さ)の変更、文字の大きさの変更等によって行われる。
図12に示すように、画面P1には、実施形態1の図5と同様に、氏名フリガナ読取項目S1、氏名漢字読取項目S2、金融機関名読取項目S3、支店名読取項目S4、金融機関コード読取項目S5、支店コード読取項目S6、口座番号読取項目S7、氏名フリガナテキストT1、氏名漢字テキストT2、金融機関名テキストT3、支店名テキストT4、金融機関コードテキストT5、支店コードテキストT6、口座番号テキストT7が表示されているが、氏名フリガナテキストT1に表示されている「トッキョ タロウ」のうち、「ト」の部分と、「ッキョ」の部分と、「タロウ」の部分とが、それぞれ異なる色彩で表示されている。また、氏名漢字テキストT2に表示されている「特許 太郎」のうち、「特許」の部分と、「太郎」の部分とが、それぞれ異なる文字の太さで表示されている。例えば、それぞれの文字の尤度により、例えば、尤度が0〜0.6の場合は太字の赤色に、0.6〜0.8の場合は通常の太さの赤色に、0.8以上の場合は通常の太さの黒色に表示される。
このように、それぞれの文字の尤度により異なる態様で表示しているのは、テキストデータの中でも文字により尤度が異なる場合があるので、その文字の尤度がどれくらいであったかを一目で把握することを可能にするためである。その他の構成及び処理の流れについては、実施形態1と同様である。
本実施形態によれば、上記実施形態1の効果に加え、テキストデータを構成する文字ごとの尤度に応じて、文字の態様を変更するので、その文字の尤度がどれくらいであったかを一目で把握することが可能になる。これにより、文字ごとの読取の信頼性を評価することが可能になる。
(実施形態4)
<構成>
図13は、本開示の実施形態4に係る文字認識システムにおける、画像データから抽出された読取項目の画像データとテキストデータとが並列に表示されている状態の例を示す模式図である。この文字認識システム1は、実施形態1と同様の構成であるが、表示変更部235により変更される、テキストデータ表示部233によって表示されたテキストデータの表示の態様が異なる。この実施形態4では、表示変更部235は、尤度算出部234によって算出されたテキストデータの尤度が所定の閾値以上の場合、読取項目の画像データとテキストデータとの表示を行わない点において、実施形態1と異なる。
図13に示すように、画面P1には、氏名フリガナ読取項目S1、氏名漢字読取項目S2、口座番号読取項目S7、氏名フリガナテキストT1、氏名漢字テキストT2、口座番号テキストT7が表示されているが、図5に示す金融機関名読取項目S3、支店名読取項目S4、金融機関コード読取項目S5、支店コード読取項目S6、金融機関名テキストT3、支店名テキストT4、金融機関コードテキストT5、支店コードテキストT6は表示されていない状態になっている。この例では、金融機関名テキストT3、支店名テキストT4、金融機関コードテキストT5、支店コードテキストT6のテキストデータの尤度が所定の閾値以上であるため、表示変更部235は表示を行っていない。
このように、所定の閾値以上の読取項目の画像データ及びテキストデータを表示していないのは、これらのテキストデータの尤度が高く、一定の信頼性があると考えられるため、人間による確認を省略することが可能であると考えられる。そのため、画面P2にこれらの項目を表示せず、人間が確認して個別に手入力で修正を行う可能性のあるテキストデータのみ表示することにより、効率的に文字入力を行うことを可能にするためである。その他の構成及び処理の流れについては、実施形態1と同様である。
本実施形態によれば、上記実施形態1の効果に加え、尤度算出部234によって算出されたテキストデータの尤度が所定の閾値以上の場合、表示変更部235では読取項目の画像データ及びテキストデータの表示を行わないので、一定の信頼性がある読取項目についてテキストデータの確認を省略することができる。これにより、効率的に文字入力を行うことが可能になる。
なお、その他の実施形態として、文字認識装置に直接スキャナ装置を接続し、ネットワークを経由せずにスタンドアローンで文字認識装置を構成することも可能である。これは、外部への情報漏洩を防止するために、文字認識装置をネットワークに接続せずに構成したい場合に有効である。
以上、開示に係る実施形態について説明したが、これらはその他の様々な形態で実施することが可能であり、種々の省略、置換および変更を行なって実施することができる。また、実施形態1〜4に記載した構成を組み合わせて実施することもできる。これらの実施形態および変形例ならびに省略、置換および変更を行なったものは、特許請求の範囲の技術的範囲とその均等の範囲に含まれるものである。
1 文字認識システム、100 ユーザシステム、110 スキャナ装置、120 ユーザ端末、200 文字認識装置、210 通信部、220 記憶部、221 画像データDB、222 読取項目DB、223 テキストデータDB、230 制御部、231 読取項目設定部、232 文字認識部、233 テキストデータ表示部、234 尤度算出部、235 表示変更部、NW ネットワーク
本開示の一態様における文字認識装置は、書類を画像としてスキャンした画像データから、文字情報を読み取る文字認識装置であって、書類の画像データに設定された読取項目に表示されている文字情報の文字認識を行い、テキストデータを生成する文字認識部と、読取項目ごとに読取項目の画像データとテキストデータとを比較可能に表示し、テキストデータに対して文字入力を行うことでテキストデータを編集可能な状態にするテキストデータ表示部と、読取項目ごとに文字認識の尤度を算出する尤度算出部と、算出された尤度に基づき、テキストデータを表示する箇所の態様を変化させる表示変更部と、を備え、表示変更部は、読取項目ごとの尤度が所定の第1の閾値以下であるテキストデータの読取項目について、テキストデータの表示欄から文字列を表示しない設定に変更し、読取項目ごとの尤度が所定の第2の閾値以上の読取項目の画像データとテキストデータとを表示せず、読取項目ごとの尤度が第1の閾値より大きく第2の閾値未満である場合、読取項目ごとの尤度に応じて読取項目のテキストデータを表示する箇所の態様を変化させる。
本開示の一態様における文字認識方法は、書類を画像としてスキャンした画像データから、文字情報を読み取る文字認識方法であって、文字認識部が行う、書類の画像データに設定された読取項目に表示されている文字情報の文字認識を行い、テキストデータを生成する文字認識ステップと、テキストデータ表示部が行う、読取項目ごとに読取項目の画像データとテキストデータとを比較可能に表示し、テキストデータに対して文字入力を行うことでテキストデータを編集可能な状態にするテキストデータ表示ステップと、尤度算出部が行う、読取項目ごとに文字認識の尤度を算出する尤度算出ステップと、算出された尤度に基づき、表示変更部が行う、テキストデータを表示する箇所の態様を変化させる表示変更ステップと、を備え、表示変更ステップでは、読取項目ごとの尤度が所定の第1の閾値以下であるテキストデータの読取項目について、テキストデータの表示欄から文字列を表示しない設定に変更し、読取項目ごとの尤度が所定の第2の閾値以上の読取項目の画像データとテキストデータとを表示せず、読取項目ごとの尤度が第1の閾値より大きく第2の閾値未満である場合、読取項目ごとの尤度に応じて読取項目のテキストデータを表示する箇所の態様を変化させる。
また、本開示の一態様における文字認識プログラムは、書類を画像としてスキャンした画像データから、文字情報を読み取る文字認識プログラムであって、書類の画像データに設定された読取項目に表示されている文字情報の文字認識を行い、テキストデータを生成する文字認識ステップと、読取項目ごとに読取項目の画像データとテキストデータとを比較可能に表示し、テキストデータに対して文字入力を行うことでテキストデータを編集可能な状態にするテキストデータ表示ステップと、読取項目ごとに文字認識の尤度を算出する尤度算出ステップと、算出された尤度に基づき、テキストデータを表示する箇所の態様を変化させる表示変更ステップと、を電子計算機に実行させ、表示変更ステップでは、読取項目ごとの尤度が所定の第1の閾値以下であるテキストデータの読取項目について、テキストデータの表示欄から文字列を表示しない設定に変更し、読取項目ごとの尤度が所定の第2の閾値以上の読取項目の画像データとテキストデータとを表示せず、読取項目ごとの尤度が第1の閾値より大きく第2の閾値未満である場合、読取項目ごとの尤度に応じて読取項目のテキストデータを表示する箇所の態様を変化させる。
(実施形態2)
<構成>
図11は、本開示の実施形態2に係る文字認識システムにおける、画像データから抽出された読取項目の画像データとテキストデータとが並列に表示されている状態の例を示す模式図である。この文字認識システム1は、実施形態1と同様の構成であるが、表示変更部235により変更される、テキストデータ表示部233によって表示されたテキストデータの表示の態様が異なる。この実施形態2では、表示変更部235は、尤度算出部234によって算出された読取項目ごとのテキストデータの尤度が所定の閾値(第1の閾値)以下の場合、当該読取項目のテキストデータの表示を行わない(ブランクにして表示させる)点において、実施形態1と異なる。
(実施形態4)
<構成>
図13は、本開示の実施形態4に係る文字認識システムにおける、画像データから抽出された読取項目の画像データとテキストデータとが並列に表示されている状態の例を示す模式図である。この文字認識システム1は、実施形態1と同様の構成であるが、表示変更部235により変更される、テキストデータ表示部233によって表示されたテキストデータの表示の態様が異なる。この実施形態4では、表示変更部235は、尤度算出部234によって算出されたテキストデータの尤度が所定の閾値(第2の閾値)以上の場合、読取項目の画像データとテキストデータとの表示を行わない点において、実施形態1と異なる。

Claims (12)

  1. 書類を画像としてスキャンした画像データから、文字情報を読み取る文字認識装置であって、
    前記書類の画像データに設定された読取項目に表示されている文字情報の文字認識を行い、テキストデータを生成する文字認識部と、
    前記読取項目ごとに前記読取項目の画像データと前記テキストデータとを比較可能に表示し、前記テキストデータを編集可能な状態にするテキストデータ表示部と、
    前記読取項目ごとに文字認識の尤度を算出する尤度算出部と、
    前記読取項目ごとの尤度に基づき、前記テキストデータを表示する箇所の態様を変化させる表示変更部と、を備える文字認識装置。
  2. 前記テキストデータ表示部は、前記読取項目の画像データと前記テキストデータとを並列に表示する、請求項1に記載の文字認識装置。
  3. 前記書類の画像データから前記読取項目を設定する読取項目設定部を備える、請求項1または請求項2に記載の文字認識装置。
  4. 前記読取項目設定部は、前記読取項目ごとの尤度が所定の閾値以下である前記テキストデータの前記読取項目について、前記テキストデータを表示しない設定に変更する、請求項3に記載の文字認識装置。
  5. 前記文字認識部は、前記テキストデータを生成するとともに、前記テキストデータを構成する文字ごとに尤度を算出し、
    前記尤度算出部は、前記文字ごとの尤度に対して所定の演算を行い、前記読取項目ごとの尤度を算出する、請求項1から請求項4のいずれか1項に記載の文字認識装置。
  6. 前記尤度算出部は、前記文字ごとの尤度を乗算して前記読取項目ごとの尤度を算出する、請求項5に記載の文字認識装置。
  7. 前記表示変更部は、前記文字ごとの尤度に応じて前記文字ごとに異なる態様で表示する、請求項5または請求項6に記載の文字認識装置。
  8. 前記表示変更部は、前記読取項目ごとの尤度に応じて前記読取項目の前記テキストデータを表示する箇所を異なる色で表示する、請求項1から請求項7のいずれか1項に記載の文字認識装置。
  9. 前記表示変更部は、前記読取項目ごとの尤度が所定の閾値以上の前記読取項目の画像データと前記テキストデータとを表示しない、請求項1から請求項8のいずれか1項に記載の文字認識装置。
  10. 前記表示変更部は、前記読取項目ごとの尤度が所定の閾値以上の前記読取項目の前記テキストデータを編集不可能な状態にする、請求項1から請求項9のいずれか1項に記載の文字認識装置。
  11. 書類を画像としてスキャンした画像データから、文字情報を読み取る文字認識方法であって、
    文字認識部が行う、前記書類の画像データに設定された読取項目に表示されている文字情報の文字認識を行い、テキストデータを生成する文字認識ステップと、
    テキストデータ表示部が行う、前記読取項目ごとに前記読取項目の画像データと前記テキストデータとを比較可能に表示し、前記テキストデータを編集可能な状態にするテキストデータ表示ステップと、
    尤度算出部が行う、前記読取項目ごとに文字認識の尤度を算出する尤度算出ステップと、
    算出された尤度に基づき、表示変更部が行う、前記テキストデータを表示する箇所の態様を変化させる表示変更ステップと、を備える文字認識方法。
  12. 書類を画像としてスキャンした画像データから、文字情報を読み取る文字認識プログラムであって、
    前記書類の画像データに設定された読取項目に表示されている文字情報の文字認識を行い、テキストデータを生成する文字認識ステップと、
    前記読取項目ごとに前記読取項目の画像データと前記テキストデータとを比較可能に表示し、前記テキストデータを編集可能な状態にするテキストデータ表示ステップと、
    前記読取項目ごとに文字認識の尤度を算出する尤度算出ステップと、
    算出された尤度に基づき、前記テキストデータを表示する箇所の態様を変化させる表示変更ステップと、を電子計算機に実行させる文字認識プログラム。

JP2018061297A 2018-03-28 2018-03-28 文字認識装置、方法およびプログラム Active JP6462930B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018061297A JP6462930B1 (ja) 2018-03-28 2018-03-28 文字認識装置、方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018061297A JP6462930B1 (ja) 2018-03-28 2018-03-28 文字認識装置、方法およびプログラム

Publications (2)

Publication Number Publication Date
JP6462930B1 JP6462930B1 (ja) 2019-01-30
JP2019175037A true JP2019175037A (ja) 2019-10-10

Family

ID=65229058

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018061297A Active JP6462930B1 (ja) 2018-03-28 2018-03-28 文字認識装置、方法およびプログラム

Country Status (1)

Country Link
JP (1) JP6462930B1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021068292A (ja) * 2019-10-25 2021-04-30 株式会社 ゆうちょ銀行 情報処理装置、情報処理方法および情報処理プログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023004111A (ja) * 2021-06-25 2023-01-17 ローレルバンクマシン株式会社 情報処理装置及びプログラム

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05182014A (ja) * 1991-12-28 1993-07-23 Ricoh Co Ltd 文字認識方法
JPH08101880A (ja) * 1994-09-30 1996-04-16 Ricoh Co Ltd 文字認識装置
JP2000082115A (ja) * 1998-07-03 2000-03-21 Nec Corp 文字認識装置及び文字認識プログラムを記録した記録媒体
JP2000113105A (ja) * 1995-07-31 2000-04-21 Fujitsu Ltd 媒体処理方法及び媒体処理装置
JP2003108919A (ja) * 2001-10-01 2003-04-11 Matsushita Electric Ind Co Ltd 文字認識装置
JP2003346080A (ja) * 2002-05-22 2003-12-05 Toshiba Corp 文字認識方法
JP2014078203A (ja) * 2012-10-12 2014-05-01 Fuji Xerox Co Ltd 画像処理装置及び画像処理プログラム
JP2014137605A (ja) * 2013-01-15 2014-07-28 Fujitsu Marketing Ltd レシート定義データ作成装置およびそのプログラム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05182014A (ja) * 1991-12-28 1993-07-23 Ricoh Co Ltd 文字認識方法
JPH08101880A (ja) * 1994-09-30 1996-04-16 Ricoh Co Ltd 文字認識装置
JP2000113105A (ja) * 1995-07-31 2000-04-21 Fujitsu Ltd 媒体処理方法及び媒体処理装置
JP2000082115A (ja) * 1998-07-03 2000-03-21 Nec Corp 文字認識装置及び文字認識プログラムを記録した記録媒体
JP2003108919A (ja) * 2001-10-01 2003-04-11 Matsushita Electric Ind Co Ltd 文字認識装置
JP2003346080A (ja) * 2002-05-22 2003-12-05 Toshiba Corp 文字認識方法
JP2014078203A (ja) * 2012-10-12 2014-05-01 Fuji Xerox Co Ltd 画像処理装置及び画像処理プログラム
JP2014137605A (ja) * 2013-01-15 2014-07-28 Fujitsu Marketing Ltd レシート定義データ作成装置およびそのプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021068292A (ja) * 2019-10-25 2021-04-30 株式会社 ゆうちょ銀行 情報処理装置、情報処理方法および情報処理プログラム
JP7260455B2 (ja) 2019-10-25 2023-04-18 株式会社 ゆうちょ銀行 情報処理装置、情報処理方法および情報処理プログラム

Also Published As

Publication number Publication date
JP6462930B1 (ja) 2019-01-30

Similar Documents

Publication Publication Date Title
CN109190722B (zh) 基于满文字符图片的字体风格迁移变换方法
US10846553B2 (en) Recognizing typewritten and handwritten characters using end-to-end deep learning
US20180137350A1 (en) System and method of character recognition using fully convolutional neural networks with attention
JP4829920B2 (ja) フォーム自動埋込方法及び装置、グラフィカルユーザインターフェース装置
CN110178139B (zh) 使用具有注意力机制的全卷积神经网络的字符识别的系统和方法
NO20161728A1 (en) Written text transformer
JP2015146075A (ja) 会計データ入力支援システム、方法およびプログラム
CN111753744B (zh) 用于票据图像分类的方法、装置、设备及可读存储介质
EP3540644B1 (en) Image processing device, image processing method, and image processing program
CN114730241B (zh) 触摸式用户界面输入中的手势笔画识别
CN111630521A (zh) 图像处理方法和图像处理系统
JP6462930B1 (ja) 文字認識装置、方法およびプログラム
CN112308946A (zh) 题目生成方法、装置、电子设备及可读存储介质
JP2019028094A (ja) 文字生成装置、プログラム及び文字出力装置
CN108319578B (zh) 一种用于数据记录的介质的生成方法
JP2015069256A (ja) 文字識別システム
CN111860450A (zh) 票证识别装置以及票证信息管理系统
JP7021496B2 (ja) 情報処理装置及びプログラム
CN116311300A (zh) 表格生成方法、装置、电子设备以及存储介质
ITRM930179A1 (it) Apparecchio e procedimento per il riconoscimento di caratteri manoscritti.
CN115620314A (zh) 文本识别方法、答案文本的验证方法、装置、设备及介质
CN115311666A (zh) 图文识别方法、装置、计算机设备及存储介质
CN114332898A (zh) 连线试题的自动批改方法、装置及存储介质
JP6374079B1 (ja) 文字認識装置、方法およびプログラム
JP3014123U (ja) 文字認識装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180328

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20180328

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180629

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20180703

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180802

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181001

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181210

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181227

R150 Certificate of patent or registration of utility model

Ref document number: 6462930

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250