JP6374079B1 - 文字認識装置、方法およびプログラム - Google Patents

文字認識装置、方法およびプログラム Download PDF

Info

Publication number
JP6374079B1
JP6374079B1 JP2017251102A JP2017251102A JP6374079B1 JP 6374079 B1 JP6374079 B1 JP 6374079B1 JP 2017251102 A JP2017251102 A JP 2017251102A JP 2017251102 A JP2017251102 A JP 2017251102A JP 6374079 B1 JP6374079 B1 JP 6374079B1
Authority
JP
Japan
Prior art keywords
text data
reading
item
character
image data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017251102A
Other languages
English (en)
Other versions
JP2019117520A (ja
Inventor
択 渡久地
択 渡久地
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ai Inside
AI Inside Inc
Original Assignee
Ai Inside
AI Inside Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ai Inside, AI Inside Inc filed Critical Ai Inside
Priority to JP2017251102A priority Critical patent/JP6374079B1/ja
Application granted granted Critical
Publication of JP6374079B1 publication Critical patent/JP6374079B1/ja
Publication of JP2019117520A publication Critical patent/JP2019117520A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

【課題】様々な手書き文字が含まれている書類の読取項目ごとに精度の高いテキストデータ生成を行うことができる文字認識装置、方法およびプログラムを提供する。
【解決手段】ユーザの操作により見本画像データにおける読取範囲の設定を行う読取範囲設定部231、見本画像データにおける読取範囲の座標位置を算出して読取項目を決定する読取項目決定部232、ユーザの操作により所定の属性情報を付加する属性情報付加部233、属性情報付加部233にて付加した属性情報に基づいて読取項目決定部232により決定された読取項目に表示されている文字情報からテキストデータを生成するテキストデータ生成部234を有する制御部230を備える文字認識装置200を提供する。
【選択図】図2

Description

本開示は、画像データから文字情報を読み取る文字認識装置、方法およびプログラムに関する。
手書きで文字が記入された書類をイメージスキャナなどで読み取り、OCR(Optical Character Recognition)処理を行うことにより、入力情報を所定の文字コードに変換したデジタルデータを生成する技術が普及している。
例えば、特許文献1によれば、機械学習により文字認識を行う文字識別システムが開示されている。文字認識システムは、見本文字画像の入力を受け付ける文字画像入力受付部と、見本文字画像に基づいて文字部品を抽出する文字部品抽出と、文字部品に基づいて擬似文字モデルを生成する擬似文字モデル生成部と、擬似文字モデルに基づいて文字識別パターンを生成して識別辞書を生成する識別辞書生成と、により構成されるシステムが提案されている。
また、近年、BPO(Business Process Outsourcing)と呼ばれる、自社の業務プロセスの一部を外部企業に業務委託するサービスが提供されており、例えば、BPOサービスにおいては、手書きの申込書や口座振替依頼書などをテキスト化する処理を外部企業に委託するような形態がある。当該形態においては、自社において、申込書などをイメージスキャナなどで読み取って画像データに変換し、変換した画像データをインターネット等のネットワークを介して外部企業に送信している。
特開2015−069256号公報
しかしながら、このようなBPOサービスでは、画像データのままで外部企業に発注されるので、外部企業側で読取項目を設定することができない。例えば、手書きのデータに対してOCR処理を行う場合、数字の「1」と、小文字アルファベットの「l」(エル)のように、識別が困難な場合があるが、このような手書き文字が記入される項目は、例えば電話番号のように、その記入欄に記入される文字が数字しかあり得ない場合もあり、入力項目ごとに文字の種類が限定できたほうが、識別精度が上がる場合もある。
さらに、記入された文字が氏名等の場合、通常、誤りは許されないものであり、このような場合は人間が手入力したほうが誤りを防止できるので効率が良い場合もある。そのため、記入欄ごとに、文字の種類を限定してOCRによる文字認識を行ったり、人間による手入力と、OCRによる文字認識とを選択可能にしたりしたいという要望がある。
そこで、本開示では、様々な手書き文字が含まれている書類の画像データの見本画像データから、読取項目を決定し、読取項目ごとに文字種類や文字数、OCRによる文字認識を行うか否か等の属性情報を付加することで、読取項目ごとに精度の高いテキストデータ生成を行うことができる文字認識装置、方法およびプログラムについて説明する。
本開示の一態様における文字認識装置は、書類を画像としてスキャンした画像データから、文字情報を読み取る文字認識装置であって、書類の見本を画像としてスキャンした見本画像データから、ユーザの操作により、書類の読取範囲を設定する読取範囲設定部と、見本画像データにおける読取範囲の座標位置から、書類の読取項目を決定する読取項目決定部と、読取項目に対し、ユーザの操作により、読取項目ごとに、文字情報からテキストデータを生成するか、文字情報からテキストデータを生成せずにユーザに入力させるか、または文字情報からテキストデータを生成してユーザによる入力も行うか、を示す生成有無条件を含む所定の属性情報を付加する属性情報付加部と、画像データから、読取項目及び属性情報に基づき、画像データの読取項目に表示されている文字情報をテキストデータとして生成するテキストデータ生成部と、読取項目の生成有無条件が、文字情報からテキストデータを生成してユーザによる入力も行う場合、文字情報から生成されたテキストデータと、ユーザによる入力内容とが一致するか否か判定し、一致しない場合に注意喚起を行うテキストデータ判定部と、を備える。
本開示の一態様における文字認識方法は、書類を画像としてスキャンした画像データから、文字情報を読み取る文字認識方法であって、書類の見本を画像としてスキャンした見本画像データから、ユーザの操作により読取範囲設定部が行う、書類の読取範囲を設定する読取範囲設定ステップと、見本画像データにおける読取範囲の座標位置から、読取項目決定部が行う、書類の読取項目を決定する読取項目決定ステップと、読取項目に対し、ユーザの操作により属性情報付加部が行う、読取項目ごとに、文字情報からテキストデータを生成するか、文字情報からテキストデータを生成せずにユーザに入力させるか、または文字情報からテキストデータを生成してユーザによる入力も行うか、を示す生成有無条件を含む所定の属性情報を付加する属性情報付加ステップと、画像データから、読取項目及び属性情報に基づきテキストデータ生成部が行う、画像データの読取項目に表示されている文字情報をテキストデータとして生成するテキストデータ生成ステップと、読取項目の生成有無条件が、文字情報からテキストデータを生成してユーザによる入力も行う場合、テキストデータ判定部が行う、文字情報から生成されたテキストデータと、ユーザによる入力内容とが一致するか否か判定し、一致しない場合に注意喚起を行うテキストデータ判定ステップと、を備える。
また、本開示の一態様における文字認識プログラムは、書類を画像としてスキャンした画像データから、文字情報を読み取る文字認識プログラムであって、書類の見本を画像としてスキャンした見本画像データから、ユーザの操作により、書類の読取範囲を設定する読取範囲設定ステップと、見本画像データにおける読取範囲の座標位置から、書類の読取項目を決定する読取項目決定ステップと、読取項目に対し、ユーザの操作により、読取項目ごとに、文字情報からテキストデータを生成するか、文字情報からテキストデータを生成せずにユーザに入力させるか、または文字情報からテキストデータを生成してユーザによる入力も行うか、を示す生成有無条件を含む所定の属性情報を付加する属性情報付加ステップと、画像データから、読取項目及び属性情報に基づき、画像データの読取項目に表示されている文字情報をテキストデータとして生成するテキストデータ生成ステップと、読取項目の生成有無条件が、文字情報からテキストデータを生成してユーザによる入力も行う場合、文字情報から生成されたテキストデータと、ユーザによる入力内容とが一致するか否か判定し、一致しない場合に注意喚起を行うテキストデータ判定ステップと、を電子計算機に実行させる。
本開示によれば、様々な手書き文字が含まれている書類の画像データについて、読取項目ごとに精度の高いテキストデータ生成を行うことができる。
本開示の一実施形態に係る文字認識システムを示すブロック図である。 図1に示す文字認識装置の構成の一例を示す機能ブロック図である。 図1に示す文字認識システムによる文字認識方法を示すフローチャートである。 スキャンされる書類の例である口座振替依頼書を示す模式図である。 スキャンされる書類の見本の例である口座振替依頼書(見本)を示す模式図である。 読取範囲設定の例を示す模式図である。 図6のフリガナ読取範囲及び金融機関コード読取範囲に付加された属性情報の例を示す模式図である。 金融機関テーブルの例を示す図である。 生成されたテキストデータの例を示す図である。 本開示の一実施形態に係る文字認識装置の構成の一例を示す機能ブロック図である。 図10に示す文字認識装置を備えた文字認識システムによる文字認識方法を示すフローチャートである。 図6の氏名読取範囲及び金融機関コード読取範囲に付加された属性情報の例を示す模式図である。
本開示の実施形態について図面を参照して説明する。なお、以下に説明する実施形態は、特許請求の範囲に記載された本開示の内容を不当に限定するものではない。また、実施形態に示される構成要素のすべてが、本開示の必須の構成要素であるとは限らない。
(実施形態1)
<構成>
図1は、本開示の実施形態1に係る文字認識システム1のブロック図である。この文字認識システム1は、例えば、手書きの申込書や口座振替依頼書等の書類を画像としてスキャンした画像データから、文字情報を読み取るシステムであり、顧客から申込書や口座振替依頼書を受領する企業(発注側企業)が、BPOサービスを提供する外部企業(受注側企業)に業務委託するために使用される。
文字認識システム1は、画像データ変換装置100と、文字認識装置200と、ネットワークNWと、を有している。画像データ変換装置100と、文字認識装置200とは、ネットワークNWを介して接続される。ネットワークNWは、インターネット、LAN(Local Area Network)やWAN(Wide Area Network)等により構成される。また、このネットワークNWは有線通信でも無線通信でも良く、LTE(Long Term Evolution)等の4Gと呼ばれる通信方式や、5Gによる通信方式も含まれる。
画像データ変換装置100は、発注側企業に設置されており、複数の項目から構成される申込書や口座振替依頼書などの書類がスキャンされ、画像データに変換され、変換された画像データを記憶する。この画像データ変換装置100は、スキャナ装置110と、サーバ装置120と、ユーザ端末130とを備え、例えば、USB(登録商標)やLANにより相互に通信可能に接続されている。
スキャナ装置110は、申込書や口座振替依頼書などの書類をスキャンして画像データに変換し、これらの書類の見本となる書類をスキャンして見本画像データに変換する装置である。なお、この実施形態1ではスキャナ装置としたが、紙媒体による書類を電子データ化できる装置であれば良く、例えば、カメラ等でも良い。
サーバ装置120は、発注側企業の業務管理を行うサーバである。また、サーバ装置120は、スキャナ装置110で変換した画像データ及び見本画像データを記憶する画像データDB121と、文字認識装置200で見本画像データから決定した読取項目を記憶する読取項目DB122とを備えている。画像データDB121及び読取項目DB122は、文字認識装置200からアクセスされて参照、更新が可能なデータベースである。
ユーザ端末130は、発注側企業に設置される端末であり、ユーザの操作により、見本画像データから読取範囲を設定する端末である。このユーザ端末130は、見本画像データを表示する表示部を備え、操作部を操作することで読取範囲を設定できるようになっており、表示部はディスプレイ等から構成され、操作部はキーボードやマウス等から構成される。
図2は、図1に示す文字認識装置の構成の一例を示す機能ブロック図である。この文字認識装置200は、受注側企業に設置されており、ユーザ端末130が操作されることにより設定された読取範囲に基づき、見本画像データ上の読取項目を決定し、画像データの読取項目に表示されている文字情報をテキストデータとして生成する。文字認識装置200は、通信部210と、記憶部220と制御部230とを備える。
通信部210は、画像データ変換装置100と通信を行うための通信インターフェースであり、TCP/IP(Transmission Control Protocol/Internet Protocol)等の通信規約により通信が行われる。
記憶部220は、各種制御処理や制御部230内の各機能を実行するためのプログラム、入力データ等を記憶するものであり、RAM(Random Access Memory)、ROM(Read Only Memory)等から構成される。また、記憶部220は、見本画像データから決定した読取項目や、生成したテキストデータを一時的に記憶し、過去に手書き情報を読み取った結果も学習情報として記憶している。
制御部230は、記憶部220に記憶されているプログラムを実行することにより、文字認識装置200の全体の動作を制御するものであり、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)等から構成される。制御部230の機能として、読取範囲設定部231、読取項目決定部232、属性情報付加部233、テキストデータ生成部234を備えている。この読取範囲設定部231、読取項目決定部232、属性情報付加部233、テキストデータ生成部234は、記憶部220に記憶されているプログラムにより起動されて実行される。
読取範囲設定部231は、ユーザ端末130が操作されることにより通信部210を介してサーバ装置120をアクセスし、画像データDB121に記憶されている見本画像データを読み出し、ユーザ端末130の表示部に表示する。
また、読取範囲設定部231は、ユーザ端末130の操作部が操作されることにより、見本画像データにおける読取範囲の設定を行う。この読取範囲の設定は、見本画像データが表示されている表示部で、操作部(例えば、マウス)が操作されて、いわゆるドラッグ&ドロップによる範囲設定により行われる。
読取項目決定部232は、読取範囲設定部231により行われた読取範囲から、見本画像データにおける読取範囲の座標位置、例えばドラッグ&ドロップによる範囲の四隅の座標位置を算出し、その内側を読取項目と決定する。この読取項目は、サーバ装置120にアクセスされて読取項目DB122に記憶される。
属性情報付加部233は、読取項目決定部232により決定された読取項目に対して、ユーザの操作により、例えば項目名(氏名、電話番号、等)、生成条件(所定のテーブルから選択、OCRで読み取る、等)、文字種類条件(漢字+ひらがな+カタカナ、数字のみ、アルファベットのみ、等)等の属性情報を付加する。この属性情報は、サーバ装置120にアクセスされ、読取項目ごとに読取項目DB122に記憶される。
テキストデータ生成部234は、OCR機能を備え、画像データDB121に記憶されている画像データを読み出し、属性情報付加部233にて付加した属性情報に基づき、読取項目決定部232により決定された読取項目に表示されている文字情報をOCRで読み取ってテキストデータを生成する。
<処理の流れ>
以下、図3を参照しながら、文字認識システム1が実行する文字認識方法の一例を説明する。図3は、図1に示す文字認識システム1による文字認識方法を示すフローチャートである。
ステップS101の処理として、画像データ変換装置100では、スキャナ装置110を使用して、申込書や口座振替依頼書などの書類の見本となる見本書類がスキャンされて見本画像データに変換され、変換された画像データが画像データDB121に記憶される。
図4は、ステップS101にてスキャンされる見本書類の元になる、書類の例である口座振替依頼書を示す模式図である。この口座振替依頼書は、公共料金の引き落とし等のために、金融機関に対して口座振替を依頼するための申込書であり、フリガナ記入欄A1、氏名記入欄A2、金融機関名記入欄A3、支店名記入欄A4、金融機関コード記入欄A5、支店コード記入欄A6、預金種目記入欄A7、口座番号記入欄A8が設けられている。
発注側企業の顧客は、図4に示すように、これらの記入欄に自己の氏名等を記入して発注側企業に口座振替を依頼する。発注側企業では、記入済の口座振替依頼書を受領すると、スキャナ装置110を使用してスキャンを行い、画像データを画像データDB121に記憶させる。
図5は、ステップS101にてスキャンされる見本書類の例である口座振替依頼書(見本)を示す模式図である。この口座振替依頼書(見本)は、図4に示す口座振替依頼書と同様の見本であり、口座振替依頼書と同様に、フリガナ記入欄A11、氏名記入欄A12、金融機関名記入欄A13、支店名記入欄A14、金融機関コード記入欄A15、支店コード記入欄A16、預金種目記入欄A17、口座番号記入欄A18が設けられている。この見本は、口座振替依頼書の文字をOCRで読み取る際の読取項目を決定するために使用される。
発注側企業では、口座振替依頼書をテキスト化する処理を受注側企業に委託する際、見本としてこの口座振替依頼書(見本)を、スキャナ装置110を使用してスキャンを行い、見本画像データを画像データDB121に記憶させる。
ステップS102の処理として、ユーザ端末130の操作部が操作されることにより、文字認識装置200では、読取範囲設定部231によって通信部210を介してサーバ装置120がアクセスされ、画像データDB121に記憶されている見本画像データが読み出され、ユーザ端末130の表示部に表示される。ユーザの操作により、ユーザ端末130の操作部が操作され、見本画像データにおける読取範囲の設定が行われる。
図6は、ステップS102における読取範囲設定の例を示す模式図である。図6に示すように、表示部には、図5に示す口座振替依頼書(見本)の見本画像データが表示されている。口座振替依頼書(見本)と同様に、フリガナ記入欄A21、氏名記入欄A22、金融機関名記入欄A23、支店名記入欄A24、金融機関コード記入欄A25、支店コード記入欄A26、預金種目記入欄A27、口座番号記入欄A28が表示されている。
この状態で、ユーザ端末130の操作部を操作してドラッグ&ドロップを行い、図6に破線で示すように範囲設定を行う。例えば、フリガナ読取範囲S1、氏名読取範囲S2、金融機関名読取範囲S3、支店名読取範囲S4、金融機関コード読取範囲S5、支店コード読取範囲S6、口座番号読取範囲S7を読取範囲のとして設定する。
ステップS103の処理として、文字認識装置200では、読取項目決定部232によって、見本画像データにおける読取範囲の四隅の座標位置が算出され、その内側が読取項目と決定される。例えば、図6に示す見本画像データの左上の点P1の座標を(0,0)とし、読取範囲の四隅の点について、点P1からの相対座標をドット単位で算出する。これにより決定された読取範囲は、通信部210を介してサーバ装置120がアクセスされ、読取項目DB122に記憶される。
ステップS104の処理として、文字認識装置200では、属性情報付加部233によって、ステップS103にて決定された読取項目に対して、ユーザの操作により、項目名、生成条件、文字種類条件等の属性情報が付加される。付加された属性情報は、通信部210を介してサーバ装置120がアクセスされ、読取項目DB122に記憶される。
図7は、ステップS104における、図6のフリガナ読取範囲S1及び金融機関コード読取範囲S5に付加された属性情報の例を示す模式図である。例えば、図6に示すフリガナ読取範囲S1について、図7に示すフリガナ属性情報T1のように、項目名欄T11、生成条件欄T12、文字種類欄T13に対して、それぞれ「フリガナ」、「OCR読込」、「カタカナ」と入力される。また、金融機関コード読取範囲S5について、金融機関コード属性情報T2のように、項目名欄T21、生成条件欄T22、文字種類欄T23に対して、それぞれ「金融機関コード」、「テーブル選択」、「数字4桁」と入力される。
項目名欄T11,T21は、項目名がそのまま入力される。生成条件欄T12,T22は、例えば、「OCR読込」、「テーブル選択」のいずれかを選択可能であり、「OCR読込」は、OCRで読み取ってテキスト化することを示しており、「テーブル選択」は、図8に示す金融機関テーブルから選択することを示している。文字種類欄T13,T23は、例えば、「カタカナ」、「数字4桁」等を選択可能であり、「カタカナ」は、フリガナ読取範囲S1にはカタカナしか記入されないので、読み取る文字の種類もカタカナのみで良く、「数字4桁」は、金融機関コード読取範囲S5には数字しか記入されず、桁数も4桁と決められているので、読み取る文字の種類も4桁の数字のみで良いことを示している。なお、例えば、金融機関コード読取範囲S5、支店コード読取範囲S6、口座番号読取範囲S7のように1桁ごとにマスが設けられている場合(マス有り数字)と、電話番号等の記入欄のようにマスが設けられていない場合(マス無し数字)とのように区別しても良い。
図8は、金融機関テーブルの例を示す図である。この金融機関テーブルは、例えばサーバ装置120に記憶されている。図6の金融機関コード読取範囲S5、金融機関名読取範囲S3には、この金融機関テーブルに格納されている金融機関コード及び金融機関名しか入力されない。そのため、金融機関コード読取範囲S5の読取は、この金融機関テーブルの金融機関コードから選択すれば良い。
また、金融機関名読取範囲S3の生成条件は、「OCR読込」、「テーブル選択」のいずれでも良く、例えば、通常は「OCR読込」にしてOCRで読み取ってテキスト化を行い、手書き文字が判読できないような場合にのみ、金融機関コード読取範囲S5から読み取った金融機関コードに対応する、金融機関テーブルの金融機関名を取得するようにしても良い。
さらに、支店名読取範囲S4、支店コード読取範囲S6についても同様であり、支店コードテーブルをサーバ装置120に記憶させ、金融機関名読取範囲S3、金融機関コード読取範囲S5のように処理しても良い。
ステップS105の処理として、画像データ変換装置100では、スキャナ装置110を使用して、図4に示す申込書や口座振替依頼書などの書類がスキャンされて画像データに変換され、変換された見本画像データが画像データDB121に記憶される。この状態で、発注側企業は、画像データDB121内の画像データ及び見本画像データを示して受注側企業に委託する。
ステップS106の処理として、文字認識装置200では、テキストデータ生成部234によって、ステップS105にて付加したフリガナ属性情報T1、金融機関コード属性情報T2、・・・・に基づき、フリガナ読取範囲S1〜口座番号読取範囲S7に表示されている文字情報をOCRで読み取り、テキストデータを生成する。
図9は、ステップS106において生成されたテキストデータの例を示す図である。例えば、図4に示すフリガナ記入欄A1、氏名記入欄A2、金融機関名記入欄A3、支店名記入欄A4、金融機関コード記入欄A5、支店コード記入欄A6、口座番号記入欄A8に記載されていた「トッキョ タロウ」、「特許 太郎」、「0001」、「みずほ」、「021」、「丸の内」、「1111111」がそれぞれ読み取られ、テキストデータとして生成される。
ステップS107の処理として、文字認識装置200では、ステップS106にて生成されたテキストデータが、発注側企業への納品として、通信部210を介してサーバ装置120に送信される。
以上のように、本実施形態に係る文字認識システムは、見本画像データ上でドラッグ&ドロップにより読取範囲を設定すると、見本画像データにおける読取範囲の座標位置が算出されて読取項目が決定される。この読取項目に従ってテキストデータの生成が行われる。これにより、受注側企業で、OCRによる文字認識を行う読取項目を決定することが可能になる。
また、読取項目ごとに、文字種類や文字数、OCRで読み取るかまたはテーブルから選択するか等の属性情報を付加することができるので、不必要な文字の認識を排除することができるので、読取項目ごとに精度の高いテキストデータ生成を行うことが可能になる。
(実施形態2)
<構成>
図10は、本開示の実施形態2に係る文字認識装置の構成の一例を示す機能ブロック図である。この文字認識装置200は、実施形態1と同様の構成に対して、制御部230の機能としてテキストデータ入力部235及びテキストデータ判定部236が追加されている。
テキストデータ入力部235は、画像データDB121に記憶されている画像データを読み出して表示部に表示し、ユーザ端末130の操作部の操作により、テキストデータを入力させる。これは、口座振替依頼書などをテキスト化する処理において、誤りが許されないような場合、人間が手入力したほうが誤りを防止できるので入力情報の正確性を担保するためである。また、ダブルチェックを行うために、OCRによる読取を行い、さらにユーザによるテキストデータの手入力を行うことも可能である。このような場合に、ユーザによるテキストデータの手入力を可能にするための機能である。
テキストデータ判定部236は、前述のように、OCRによる読取を行い、さらにユーザによるテキストデータの手入力を行う場合に、ダブルチェックを行う。これは、口座振替依頼書などをテキスト化する処理において、誤りが許されないような場合、ダブルチェックを行うことで誤りを防止し、入力情報の正確性をさらに担保するためである。そして、OCRによる読取内容と、ユーザによるテキストデータの手入力の内容とが不一致の場合、当該入力欄が、例えば赤色に表示される等の注意喚起をする。その他の構成については、実施形態1と同様である。
<処理の流れ>
以下、図11を参照しながら、文字認識システム1が実行する文字認識方法の一例について、実施形態1と異なる処理について説明する。図11は、図10に示す文字認識装置200を備えた文字認識システム1による文字認識方法を示すフローチャートである。図3に示すステップS103までは、実施形態1と同様であるため、後続のステップS104について説明する。
ステップS104の処理として、読取項目に対して属性情報が付加され、読取項目DB122に記憶される点においては、実施形態1と同様であるが、付加される属性情報が実施形態1と異なる。
図12は、ステップS104における、図6の氏名読取範囲S2及び金融機関コード読取範囲S5に付加された属性情報の例を示す模式図である。例えば、図6に示す氏名読取範囲S1について、図12に示すフリガナ属性情報T3のように、実施形態1と同様の項目名欄T31、生成条件欄T32、文字種類欄T33に加えて、生成有無条件欄T34に対して、それぞれ「氏名」、「‐」、「漢字+ひらがな+カタカナ」、「OCR+エントリー」と入力される。また、金融機関コード読取範囲S5について、金融機関コード属性情報T4のように、項目名欄T41、生成条件欄T42、文字種類欄T43、生成有無条件欄T44に対して、それぞれ「金融機関コード」、「テーブル選択」、「数字4桁」、「OCR」と入力される。
生成有無条件欄T34,T44は、例えば、「エントリー」、「OCR+エントリー」、「OCR」のいずれかを選択可能であり、「エントリー」は、OCRによる読取を行わずにユーザによるテキストデータの手入力を行うことを示しており、「OCR+エントリー」は、OCRによる読取を行い、さらにユーザによるテキストデータの手入力を行い、双方の入力内容でダブルチェックを行い、「OCR」は、OCRによる読取を行うことを示している。
ステップS105の処理として、書類がスキャンされるのは実施形態1と同様である。
ステップS106の処理として、文字認識装置200では、テキストデータ生成部234によって、ステップS104にて付加したフリガナ属性情報T1、金融機関コード属性情報T2、・・・・に基づき、フリガナ読取範囲S1〜口座番号読取範囲S7に表示されている文字情報をOCRで読み取り、テキストデータを生成する。このとき、属性情報の生成有無条件が「エントリー」の場合は、テキストデータの生成は行われない。
ステップS108の処理として、文字認識装置200では、テキストデータ入力部235によって、画像データDB121に記憶されている画像データが読み出されて表示部に表示される。属性情報の生成有無条件欄に「エントリー」、「OCR+エントリー」を付加した項目の入力欄がユーザ端末130の表示部に表示され、操作部の操作により、テキストデータが入力される。
ステップS109の処理として、文字認識装置200では、テキストデータ判定部236によって、属性情報の生成有無条件欄に「OCR+エントリー」を付加した項目について、OCRによる読取内容と、ユーザによるテキストデータの手入力の内容とでダブルチェックが行われる。そして、双方の入力内容が一致した場合は注意喚起を行わず、双方の入力内容が不一致の場合は、ユーザ端末130の表示部の入力欄が赤色に表示され、注意喚起がされる。これ以降の処理の流れについては、実施形態1と同様である。
本実施形態によれば、上記実施形態1の効果に加え、読取項目ごとに、ユーザによるテキストデータの手入力を行うか、OCRによる読取とユーザによるテキストデータの手入力との双方を行ってダブルチェックを行うか、またはOCRによる読取を行うかの属性情報を付加することを可能にし、テキストデータの手入力を可能にしたので、人間が手入力したほうが誤りを防止できる場合に、読取項目ごとに精度の高いテキストデータ生成を行うことが可能になる。
なお、その他の実施形態として、文字認識装置に直接スキャナ装置を接続し、ネットワークを経由せずにスタンドアローンで文字認識装置を構成することも可能である。これは、外部への情報漏洩を防止するために、文字認識装置をネットワークに接続せずに構成したい場合に有効である。
以上、開示に係る実施形態について説明したが、これらはその他の様々な形態で実施することが可能であり、種々の省略、置換および変更を行なって実施することができる。これらの実施形態および変形例ならびに省略、置換および変更を行なったものは、特許請求の範囲の技術的範囲とその均等の範囲に含まれるものである。
1 文字認識システム、100 画像データ変換装置、110 スキャナ装置、120 サーバ装置、121 画像データDB、122 読取項目DB、200 文字認識装置、210 通信部、220 記憶部、230 制御部、231 読取範囲設定部、232 読取項目決定部、233 属性情報付加部、234 テキストデータ生成部、235 テキストデータ入力部、236 テキストデータ判定部、NW ネットワーク

Claims (7)

  1. 書類を画像としてスキャンした画像データから、文字情報を読み取る文字認識装置であって、
    前記書類の見本を画像としてスキャンした見本画像データから、ユーザの操作により、前記書類の読取範囲を設定する読取範囲設定部と、
    前記見本画像データにおける前記読取範囲の座標位置から、前記書類の読取項目を決定する読取項目決定部と、
    前記読取項目に対し、ユーザの操作により、前記読取項目ごとに、文字情報からテキストデータを生成するか、前記文字情報から前記テキストデータを生成せずに前記ユーザに入力させるか、または前記文字情報から前記テキストデータを生成して前記ユーザによる入力も行うか、を示す生成有無条件を含む所定の属性情報を付加する属性情報付加部と、
    前記画像データから、前記読取項目及び前記属性情報に基づき、前記画像データの前記読取項目に表示されている前記文字情報を前記テキストデータとして生成するテキストデータ生成部と、
    前記読取項目の前記生成有無条件が、前記文字情報から前記テキストデータを生成して前記ユーザによる入力も行う場合、前記文字情報から生成された前記テキストデータと、前記ユーザによる入力内容とが一致するか否か判定し、一致しない場合に注意喚起を行うテキストデータ判定部と、を備える、
    文字認識装置。
  2. 前記属性情報は、前記文字情報を所定のテーブルに登録されている登録情報から選択するか、または前記文字情報をOCRで読み取るか、を示す生成条件を含み、
    前記テキストデータ生成部は、前記生成条件に基づいて前記テキストデータを生成する、請求項1に記載の文字認識装置。
  3. 一の前記読取項目と他の前記読取項目とが関連付けされていて、前記一の読取項目の前記生成条件が前記文字情報をOCRで読み取り、前記他の読取項目の前記生成条件が前記登録情報から選択する場合であって、前記一の読取項目の前記文字情報が読み取れない場合、前記テキストデータ生成部は、前記他の読取項目において選択された前記登録情報から前記一の読取項目の前記文字情報を決定する、請求項に記載の文字認識装置。
  4. 前記属性情報は、前記文字情報の文字種類を指定する文字種類条件を含み、
    前記テキストデータ生成部は、前記文字種類条件に基づいて前記テキストデータを生成する、請求項1から請求項のいずれか1項に記載の文字認識装置。
  5. 前記属性情報は、前記文字情報の文字数を指定する文字数条件を含み、
    前記テキストデータ生成部は、前記文字数条件に基づいて前記テキストデータを生成する、請求項1から請求項のいずれか1項に記載の文字認識装置。
  6. 書類を画像としてスキャンした画像データから、文字情報を読み取る文字認識方法であって、
    前記書類の見本を画像としてスキャンした見本画像データから、ユーザの操作により読取範囲設定部が行う、前記書類の読取範囲を設定する読取範囲設定ステップと、
    前記見本画像データにおける前記読取範囲の座標位置から、読取項目決定部が行う、前記書類の読取項目を決定する読取項目決定ステップと、
    前記読取項目に対し、ユーザの操作により属性情報付加部が行う、前記読取項目ごとに、文字情報からテキストデータを生成するか、前記文字情報から前記テキストデータを生成せずに前記ユーザに入力させるか、または前記文字情報から前記テキストデータを生成して前記ユーザによる入力も行うか、を示す生成有無条件を含む所定の属性情報を付加する属性情報付加ステップと、
    前記画像データから、前記読取項目及び前記属性情報に基づきテキストデータ生成部が行う、前記画像データの前記読取項目に表示されている前記文字情報を前記テキストデータとして生成するテキストデータ生成ステップと、
    前記読取項目の前記生成有無条件が、前記文字情報から前記テキストデータを生成して前記ユーザによる入力も行う場合、テキストデータ判定部が行う、前記文字情報から生成された前記テキストデータと、前記ユーザによる入力内容とが一致するか否か判定し、一致しない場合に注意喚起を行うテキストデータ判定ステップと、を備える、
    文字認識方法。
  7. 書類を画像としてスキャンした画像データから、文字情報を読み取る文字認識プログラムであって、
    前記書類の見本を画像としてスキャンした見本画像データから、ユーザの操作により、前記書類の読取範囲を設定する読取範囲設定ステップと、
    前記見本画像データにおける前記読取範囲の座標位置から、前記書類の読取項目を決定する読取項目決定ステップと、
    前記読取項目に対し、ユーザの操作により、前記読取項目ごとに、文字情報からテキストデータを生成するか、前記文字情報から前記テキストデータを生成せずに前記ユーザに入力させるか、または前記文字情報から前記テキストデータを生成して前記ユーザによる入力も行うか、を示す生成有無条件を含む所定の属性情報を付加する属性情報付加ステップと、
    前記画像データから、前記読取項目及び前記属性情報に基づき、前記画像データの前記読取項目に表示されている前記文字情報を前記テキストデータとして生成するテキストデータ生成ステップと、
    前記読取項目の前記生成有無条件が、前記文字情報から前記テキストデータを生成して前記ユーザによる入力も行う場合、前記文字情報から生成された前記テキストデータと、前記ユーザによる入力内容とが一致するか否か判定し、一致しない場合に注意喚起を行うテキストデータ判定ステップと、を電子計算機に実行させる、
    文字認識プログラム。
JP2017251102A 2017-12-27 2017-12-27 文字認識装置、方法およびプログラム Active JP6374079B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017251102A JP6374079B1 (ja) 2017-12-27 2017-12-27 文字認識装置、方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017251102A JP6374079B1 (ja) 2017-12-27 2017-12-27 文字認識装置、方法およびプログラム

Publications (2)

Publication Number Publication Date
JP6374079B1 true JP6374079B1 (ja) 2018-08-15
JP2019117520A JP2019117520A (ja) 2019-07-18

Family

ID=63165877

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017251102A Active JP6374079B1 (ja) 2017-12-27 2017-12-27 文字認識装置、方法およびプログラム

Country Status (1)

Country Link
JP (1) JP6374079B1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020042320A (ja) * 2018-09-06 2020-03-19 富士通フロンテック株式会社 画像認識装置、画像認識方法、及び画像認識プログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1166228A (ja) * 1997-08-25 1999-03-09 Oki Electric Ind Co Ltd 光学式文字読取装置用帳票のフォーマット情報生成方法
JP2015069256A (ja) * 2013-09-27 2015-04-13 株式会社日立製作所 文字識別システム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1166228A (ja) * 1997-08-25 1999-03-09 Oki Electric Ind Co Ltd 光学式文字読取装置用帳票のフォーマット情報生成方法
JP2015069256A (ja) * 2013-09-27 2015-04-13 株式会社日立製作所 文字識別システム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020042320A (ja) * 2018-09-06 2020-03-19 富士通フロンテック株式会社 画像認識装置、画像認識方法、及び画像認識プログラム
JP7054662B2 (ja) 2018-09-06 2022-04-14 富士通フロンテック株式会社 画像認識装置、画像認識方法、及び画像認識プログラム

Also Published As

Publication number Publication date
JP2019117520A (ja) 2019-07-18

Similar Documents

Publication Publication Date Title
EP2772871A2 (en) Creating tables with handwriting images, symbolic representations and media images from forms
US10902193B2 (en) Automated generation of web forms using fillable electronic documents
US9870352B2 (en) Creating a dashboard for tracking a workflow process involving handwritten forms
US9767088B2 (en) Stroke autocompletion in a form
US11727701B2 (en) Techniques to determine document recognition errors
CN115935908A (zh) Html网页批量输化出pdf的方法、装置、设备和存储介质
CN115618826A (zh) 表单填充方法、装置、电子设备及介质
JP6374079B1 (ja) 文字認識装置、方法およびプログラム
US11875587B2 (en) Information processing system, information processing method, and non-transitory recording medium
CN111223155A (zh) 图像数据处理方法、装置、计算机设备和存储介质
CN111598707B (zh) 一种页面的生成方法及电子设备
CN113449732A (zh) 信息处理装置、图像读取装置、记录介质、信息处理方法
JP2740335B2 (ja) 自動セル属性判定機能を有する表読取装置
JP6462930B1 (ja) 文字認識装置、方法およびプログラム
JP2019074807A (ja) 情報処理装置及びプログラム
JP6397084B2 (ja) ユーザ情報入力支援システム
JP7304604B1 (ja) 帳票のデータ入力を支援する方法
JP2013062681A (ja) 入力支援システム
JP7278668B1 (ja) 表示制御装置及び情報処理装置
US20220382777A1 (en) Method and system for handling input data
WO2021260852A1 (ja) データ処理装置、データ処理方法、および、データ処理プログラム
JPH0384681A (ja) 名刺情報の入力処理方法
JP5176390B2 (ja) 文字入力装置及びコンピュータプログラム
CN115098103A (zh) 前端代码生成方法、装置、计算机设备和存储介质
JP2641391B2 (ja) 文字認識方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171227

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20171227

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20180119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180312

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180417

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180705

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180718

R150 Certificate of patent or registration of utility model

Ref document number: 6374079

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250