JP2011018109A - 認識文字列補正装置および認識文字列補正用プログラム - Google Patents

認識文字列補正装置および認識文字列補正用プログラム Download PDF

Info

Publication number
JP2011018109A
JP2011018109A JP2009160635A JP2009160635A JP2011018109A JP 2011018109 A JP2011018109 A JP 2011018109A JP 2009160635 A JP2009160635 A JP 2009160635A JP 2009160635 A JP2009160635 A JP 2009160635A JP 2011018109 A JP2011018109 A JP 2011018109A
Authority
JP
Japan
Prior art keywords
character string
recognized
information
correction
regular
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009160635A
Other languages
English (en)
Inventor
Keiji Ishimori
圭二 石森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2009160635A priority Critical patent/JP2011018109A/ja
Publication of JP2011018109A publication Critical patent/JP2011018109A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)

Abstract

【課題】イメージ化された書類から認識された文字列を、高い精度で補正することが可能な認識文字列補正装置および認識文字列補正用プログラムを提供する。
【解決手段】予め設定された、文書に使用する正規の文字列情報と、この正規の文字列情報ごとの、当該文字列の中の文字で構成された当該文字列を識別するためのキーワードおよび当該文字列として認識される文字の桁数の範囲とを記憶する補正情報記憶部31と、記憶されたキーワードおよび桁数の範囲に基づいて、認識された文字列に該当する正規の文字列情報を抽出する正規文字列抽出部33と、取得された認識文字列情報を抽出された正規の文字列情報に置き換えることで補正する文字列補正部34とを備える。
【選択図】図1

Description

本発明は、イメージ化された書類から文字認識される際に誤認識された文字列を、正確な文字列に補正する認識文字列補正装置および認識文字列補正用プログラムに関する。
従来、イメージ化された書類からコンピュータで文字を認識する技術として、OCRやテキストリーダーなどの装置を利用したものが知られている。これらの装置の機能はソフトウェアに搭載されて市販されているものもあり、新聞記事、各種明細書、著書等のテキスト化に広く活用されている。
ところで、これらの技術を利用した文字認識処理では文字が誤認識される場合もあるため、認識精度を向上させるために種々の技術が提供されている。
コンピュータによる文字認識の精度を向上させる技術として、例えば特許文献1および特許文献2に記載の技術がある。
特許文献1には、イメージ化された文字列から、予め記憶された単語辞書を利用して複数の単語候補を抽出し、単語候補と一致しない住所の番地のような否単語部分についてはこの否単語部分固有の構成知識を用いて評価値を求め、総合的な評価値で確からしさが高い文字列を抽出する技術が記載されている。
また、特許文献2には、イメージ化された文字列と類似した単語候補を抽出する際に、入力された文字列のストロークを抽出し、参照文字の標準ストローク数、ストローク間の接続関係、相対関係に基づいて類似度の高い単語を抽出する技術が記載されている。
特開平7−6213号公報 特開平5−189613号公報
上記の特許文献1または特許文献2に記載の技術を利用することにより、高い精度で正確な文字列を認識することが可能になるが、限定された分野の書類において利用する場合、例えば使用される文字列が限定的な帳票や請求書などの文字認識に利用する場合には、より確実な文字認識を行うことが望まれていた。
例えば、電話料金請求書の文字列の認識に利用する場合、「通信料」と「通話料」とは2文字が同一であるため類似性が高く誤認識される可能性が高いが、これらは全く異なる内容を示すため確実に識別することが必要であった。
従って本発明の目的は、イメージ化された書類から認識された文字列を、高い精度で補正することが可能な認識文字列補正装置および認識文字列補正用プログラムを提供することである。
上記課題を解決するための本発明の認識文字列補正装置は、イメージ画像情報による文書を解析することにより認識された認識文字列情報の、誤認識された文字を補正する認識文字列補正装置において、予め設定された、前記文書に使用する正規の文字列情報と、この正規の文字列情報ごとの、当該文字列の中の文字で構成された当該文字列を識別するためのキーワードおよび当該文字列として認識される文字の桁数の範囲とを記憶する補正情報記憶部と、前記認識文字列情報を取得する認識文字列情報取得部と、前記補正情報記憶部に記憶されたキーワードおよび桁数の範囲に基づいて、前記認識文字列情報取得部で取得された認識文字列に該当する正規の文字列情報を抽出する正規文字列抽出部と、前記認識文字列情報取得部で取得された認識文字列情報を、前記正規文字列抽出部で抽出された前記正規の文字列情報に置き換えることで補正する文字列補正部とを備えることを特徴とする。
この認識文字列補正装置の前記補正情報記憶部は、複数の前記キーワードを、当該文字列中に出現する順に並べて記憶し、前記正規文字列抽出部は、前記補正情報記憶部に記憶された並び順のすべてのキーワードおよび桁数の範囲に基づいて、前記認識文字列情報取得部で取得された認識文字列に該当する正規の文字列情報を抽出するようにしてもよい。
また、本発明の認識文字列補正用プログラムは、イメージ画像情報による文書を解析することにより認識された認識文字列情報の、誤認識された文字を補正する認識文字列補正装置に、予め設定された、前記文書に使用する正規の文字列情報と、この正規の文字列情報ごとの、当該文字列の中の文字で構成された当該文字列を識別するためのキーワードおよび当該文字列として認識される文字の桁数の範囲とを記憶する機能と、前記認識文字列情報を取得する機能と、記憶されたキーワードおよび桁数の範囲に基づいて、取得された認識文字列に該当する正規の文字列情報を抽出する機能と、取得された認識文字列情報を、抽出された前記正規の文字列情報に置き換えることで補正する機能とを実行させることを特徴とする。
本発明の認識文字列補正装置および認識文字列補正用プログラムによれば、イメージ化された書類から認識された文字列を、高い精度で補正することができる。
本発明の一実施形態による認識文字列補正装置を利用した文字認識システムの構成を示すブロック図である。 本発明の一実施形態による認識文字列補正装置の動作を示すフローチャートである。 本発明の一実施形態による認識文字列補正装置の補正情報記憶部に記憶された正規の文字列情報と、この正規の文字列情報ごとの、当該文字列を識別するためのキーワードおよび文字の桁数の範囲との一例を示す説明図である。 本発明の一実施形態による認識文字列補正装置で取得された認識文字列の例を示す説明図である。 本発明の一実施形態による認識文字列補正装置の正規文字列抽出部および文字列補正部で実行される処理を説明する説明図である。
本発明の認識文字列補正装置を利用した文字認識システムの一実施形態について、図面を参照して説明する。
〈一実施形態による文字認識システムの構成〉
本実施形態の文字認識システムは、印刷された書類から文字を認識してテキストファイルを生成するものであり、図1に示すように、画像読取装置10と、文字認識装置20と、認識文字列補正装置30とを有する。
画像読取装置10はスキャナ等であり、テキストファイル生成対象の書類をイメージ画像データとして読み取る読取制御部11と、読み取ったイメージ画像データを記憶するイメージ画像データ記憶部12とを有する。
文字認識装置20はOCR等であり、画像読取装置10のイメージ画像データ記憶部12に記憶されたイメージ画像データを解析して文字情報を認識する文字認識制御部21と、認識された文字情報で構成された文字列情報である認識文字列情報を記憶する認識文字列情報記憶部22とを有する。
認識文字列補正装置30は、補正情報記憶部31と、認識文字列情報取得部32と、正規文字列抽出部33と、文字列補正部34と、テキストファイル生成部35と、テキストファイル記憶部36とを有する。
補正情報記憶部31は、予め設定された当該文書に使用する正規の文字列情報と、この正規の文字列情報ごとの、当該文字列の中の文字で構成された当該文字列を識別するためのキーワードおよび当該文字列として認識される文字の桁数の範囲とを記憶する。このキーワードは、当該正規の文字列の中で比較的コンピュータにより認識率の良い文字の並び部分で構成され、1つの正規の文字列に対して1つでも複数でもよい。1つの正規の文字列に複数のキーワードがある場合には、当該正規の文字列中に出現する順にこれらのキーワードが並べられて記憶される。また、文字の桁数の範囲は、当該正規の文字列を有る程度の誤差を含めた文字数で限定するための情報であり、[当該正規の文字列の文字数±数文字]の範囲を示すものである。この「数文字」は、当該正規の文字列の中にある、実際よりも多い文字数で誤認識される可能性の高い文字の数、実際よりも少ない文字数で誤認識される可能性の高い文字の数等により調整される。
認識文字列情報取得部32は、文字認識装置20の認識文字列情報記憶部22に記憶された認識文字列情報を取得する。
正規文字列抽出部33は、補正情報記憶部31に記憶されたキーワードおよび桁数の範囲に基づいて、認識文字列情報取得部32で取得された認識文字列に該当する正規の文字列情報を抽出する。
文字列補正部34は、認識文字列情報取得部32で取得された認識文字列情報を、正規文字列抽出部33で抽出された正規の文字列情報に置き換えることで補正する。
テキストファイル生成部35は、文字列補正部34で補正された文字列情報で構成されたテキストファイルを生成する。
テキストファイル記憶部36は、テキストファイル生成部34で生成されたテキストファイルを記憶する。
〈一実施形態による文字認識システムの動作〉
次に、本実施形態による文字認識システム1において、印刷された書類としての電話料金請求書Xからテキストファイルを生成し記憶する場合の処理について説明する。
まず、テキストファイル生成対象の印刷された書類である電話料金請求書Xが画像読取装置10の読取制御部11によりイメージ画像データとして読み取られ、イメージ画像データ記憶部12に記憶される。
次に、文字認識装置20の文字認識制御部21により、イメージ画像データ記憶部12に記憶されたイメージ画像データが解析されて文字情報が認識される。認識された文字情報で構成された文字列情報は、認識文字列情報記憶部22に記憶される。
次に、認識文字列補正装置30において、認識された文字列情報の誤認識された文字を補正する処理が行われる。この誤認識された文字の補正処理について、図2のフローチャートを参照して説明する。
この認識文字列補正装置30の補正情報記憶部31には、予め設定された当該文書に使用する正規の文字列情報と、この正規の文字列情報ごとの、当該文字列の中の文字で構成された当該文字列を識別するためのキーワードおよび当該文字列として認識される文字の桁数の範囲とが記憶されている。
本実施形態における電話料金請求書に使用する正規の文字列情報と、この正規の文字列情報ごとの、当該文字列を識別するためのキーワードおよび文字の桁数の範囲との一例を、図3に示す。
図3では、電話料金請求書に使用する正規の文字列情報として「No.1:無料通話料(パケット通信料)」、「No.2:無料通話料(パケット通信料)タイプ1」、および「No.3:無料通話料(パケット通話料)」が格納されている。
また、この正規の文字列情報「No.1:無料通話料(パケット通信料)」を識別するためのキーワードとして、当該正規の文字列の中で比較的コンピュータにより認識率の良い文字の並び部分である「無」、「通話料」、「パケ」、「ト通信料)」が文字列中の出現順に格納され、また当該正規の文字列として認識される文字の桁数の範囲が「14〜15」であることが格納されている。
また、この正規の文字列情報「No.2:無料通話料(パケット通信料)タイプ1」を識別するためのキーワードとして、当該正規の文字列の中で比較的コンピュータにより認識率の良い文字の並び部分である「無」、「通話料」、「パケ」、「ト通信料)」が文字列中の出現順に格納され、また当該正規の文字列として認識される文字の桁数の範囲が「17〜19」であることが格納されている。
また、この正規の文字列情報「No.3:無料通話料(パケット通話料)」を識別するためのキーワードとして、当該正規の文字列の中で比較的コンピュータにより認識率の良い文字の並び部分である「無」、「通話料」、「パケ」、「ト通話料)」が文字列中の出現順に格納され、また当該正規の文字列として認識される文字の桁数の範囲が「14〜15」であることが格納されている。
これらの文字の桁数に範囲を持たせるのは、誤認識により文字数が加減した場合、例えば4桁の文字列「パケット」を、「パケ;・ト」のように5桁の文字列に誤認識したときにもこれを誤差とし、正規の文字列「パケット」に補正できるようにするためである。また、このように範囲を持たせながらも桁数に制限を設けることで、同じキーワードを含んでいるが桁数が誤差以上に異なる文字列、例えば「無料通話料(パケット通信料)」と、「無料通話料(パケット通信料)タイプ1」とを確実に区別することが可能になる。
これらの正規の文字列情報と、この正規の文字列情報ごとの、当該文字列の中の文字で構成された当該文字列を識別するためのキーワードおよび当該文字列として認識される文字の桁数の範囲とが記憶されている状態で、誤認識された文字を補正する処理が開始されると、まず認識文字列情報取得部32において文字認識装置20の認識文字列情報記憶部22に記憶された認識文字列情報が取得される(S1)。
次に、正規文字列抽出部33において、認識文字列情報取得部32で取得された認識文字列のうち、補正情報記憶部31に記憶されたキーワードを所定順序で全て含み、且つ文字の桁数の範囲に該当する正規の文字列情報が抽出される(S2)。
例えば認識文字列が、図4に示すような誤読例(1)「無判通話料(パケ・ト通信料)」、誤読例(2)「無判通話料[パケ;・ト通信料)」、誤読例(3)「無判通話料(パケ・>ト通信料)」、誤読例(4)「無判通話料(パケート通信料)」、誤読例(5)「無判通話料(パケ¥ト通信料)」、誤読例(6)「無判通話料(パケット通信料)」であるとする。このとき、これら全てが、図5の51、52に示すように正規の文字列情報「No.1:無料通話料(パケット通信料)」のキーワード「無」、「通話料」、「パケ」、「ト通信料」がこの並び順で出現し、且つ文字列の文字の桁数が14または15であるため、該当する正規の文字列情報として「No.1:無料通話料(パケット通信料)」が抽出される。
また図5の53に示すように、これらの誤読例(1)〜(6)の文字列には正規の文字列情報「No.2:無料通話料(パケット通信料)タイプ1」のキーワードも全て含まれるが、文字の桁数が「17〜19」に該当しないため、この文字列情報「No.2:無料通話料(パケット通信料)タイプ1」は抽出されない。
また図5の54に示すように、これらの誤読例(1)〜(6)の文字列には、正規の文字列情報「No.3:無料通話料(パケット通話料)」のキーワード中の「ト通話料」は含まれないため、この文字列情報「No.3:無料通話料(パケット通話料)」は抽出されない。
次に図5の55に示すように、文字列補正部34において、認識文字列情報取得部32で取得された認識文字列情報を、正規文字列抽出部33で抽出された正規の文字列情報に置き換えることで補正される(S3)。
そして、文字列補正部34で補正された文字列情報で構成されたテキストファイルがテキストファイル生成部35で生成され(S4)、テキストファイル記憶部36に記憶される(S5)。
以上の本実施形態によれば、使用する文字情報がある程度決まっている限定された分野の書類において、印刷された書類から認識された文字列を、高い精度で補正して正確なテキストファイルを生成することが可能になる。
なお、上記は本発明の最良の実施の形態によって記載したが、この開示の一部をなす論述および図面はこの発明を限定するものであると理解すべきではない。この開示から当業者には様々な代替実施の形態、実施例および運用技術が明らかとなる。
本発明はここでは記載していない様々な実施の形態等を含むことは勿論である。従って、本発明の技術的範囲は上記の説明から妥当な特許請求の範囲に係る発明特定事項によってのみ定められるものである。
1…文字認識システム
10…画像読取装置
11…読取制御部
12…イメージ画像データ記憶部
20…文字認識装置
21…文字認識制御部
22…認識文字列情報記憶部
30…認識文字列補正装置
31…補正情報記憶部
32…認識文字列情報取得部
33…正規文字列抽出部
34…文字列補正部
35…テキストファイル生成部
36…テキストファイル記憶部

Claims (3)

  1. イメージ画像情報による文書を解析することにより認識された認識文字列情報の、誤認識された文字を補正する認識文字列補正装置において、
    予め設定された、前記文書に使用する正規の文字列情報と、この正規の文字列情報ごとの、当該文字列の中の文字で構成された当該文字列を識別するためのキーワードおよび当該文字列として認識される文字の桁数の範囲とを記憶する補正情報記憶部と、
    前記認識文字列情報を取得する認識文字列情報取得部と、
    前記補正情報記憶部に記憶されたキーワードおよび桁数の範囲に基づいて、前記認識文字列情報取得部で取得された認識文字列に該当する正規の文字列情報を抽出する正規文字列抽出部と、
    前記認識文字列情報取得部で取得された認識文字列情報を、前記正規文字列抽出部で抽出された前記正規の文字列情報に置き換えることで補正する文字列補正部と、
    を備えることを特徴とする認識文字列補正装置。
  2. 前記補正情報記憶部は、複数の前記キーワードを、当該文字列中に出現する順に並べて記憶し、
    前記正規文字列抽出部は、前記補正情報記憶部に記憶された並び順のすべてのキーワードおよび桁数の範囲に基づいて、前記認識文字列情報取得部で取得された認識文字列に該当する正規の文字列情報を抽出する
    ことを特徴とする請求項1に記載の認識文字列補正装置。
  3. イメージ画像情報による文書を解析することにより認識された認識文字列情報の、誤認識された文字を補正する認識文字列補正装置に、
    予め設定された、前記文書に使用する正規の文字列情報と、この正規の文字列情報ごとの、当該文字列の中の文字で構成された当該文字列を識別するためのキーワードおよび当該文字列として認識される文字の桁数の範囲とを記憶する機能と、
    前記認識文字列情報を取得する機能と、
    記憶されたキーワードおよび桁数の範囲に基づいて、取得された認識文字列に該当する正規の文字列情報を抽出する機能と、
    取得された認識文字列情報を、抽出された前記正規の文字列情報に置き換えることで補正する機能と、
    を実行させる認識文字列補正用プログラム。
JP2009160635A 2009-07-07 2009-07-07 認識文字列補正装置および認識文字列補正用プログラム Pending JP2011018109A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009160635A JP2011018109A (ja) 2009-07-07 2009-07-07 認識文字列補正装置および認識文字列補正用プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009160635A JP2011018109A (ja) 2009-07-07 2009-07-07 認識文字列補正装置および認識文字列補正用プログラム

Publications (1)

Publication Number Publication Date
JP2011018109A true JP2011018109A (ja) 2011-01-27

Family

ID=43595874

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009160635A Pending JP2011018109A (ja) 2009-07-07 2009-07-07 認識文字列補正装置および認識文字列補正用プログラム

Country Status (1)

Country Link
JP (1) JP2011018109A (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03257693A (ja) * 1990-03-08 1991-11-18 N T T Data Tsushin Kk 文字認識結果修正方式
JPH0944604A (ja) * 1995-08-02 1997-02-14 Oki Electric Ind Co Ltd 文字認識処理方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03257693A (ja) * 1990-03-08 1991-11-18 N T T Data Tsushin Kk 文字認識結果修正方式
JPH0944604A (ja) * 1995-08-02 1997-02-14 Oki Electric Ind Co Ltd 文字認識処理方法

Similar Documents

Publication Publication Date Title
US8965126B2 (en) Character recognition device, character recognition method, character recognition system, and character recognition program
CN111177184A (zh) 基于自然语言的结构化查询语言转换方法、及其相关设备
US8340425B2 (en) Optical character recognition with two-pass zoning
CN103617415A (zh) 一种自动识别发票的装置和方法
CN109002768A (zh) 基于神经网络文本检测识别的医疗票据类文字提取方法
US8208726B2 (en) Method and system for optical character recognition using image clustering
JPH03161891A (ja) 表形式文書読取装置
CN112686047B (zh) 一种基于命名实体识别的敏感文本识别方法、装置、系统
CN111539414B (zh) 一种ocr图像字符识别和字符校正的方法及系统
Romero-Gómez et al. Automatic alignment of handwritten images and transcripts for training handwritten text recognition systems
CN111340020A (zh) 一种公式识别方法、装置、设备及存储介质
US10217020B1 (en) Method and system for identifying multiple strings in an image based upon positions of model strings relative to one another
US20080227062A1 (en) Phonetic teaching/correcting device for learning Mandarin
CN113408536A (zh) 票据的金额识别方法、装置、计算机设备及存储介质
CN112149678A (zh) 特殊语言的文字识别方法、识别模型训练方法和装置
JP7021496B2 (ja) 情報処理装置及びプログラム
CN110020640A (zh) 一种纠正身份证信息的方法及终端
JP2011018109A (ja) 認識文字列補正装置および認識文字列補正用プログラム
CN114677689A (zh) 一种文字图像识别纠错方法和电子设备
Kumar et al. Line based robust script identification for indianlanguages
JP2022075467A (ja) データ処理装置、データ処理方法及びプログラム
JP2011018108A (ja) 認識文字列補正装置および認識文字列補正用プログラム
Balasooriya Improving and Measuring OCR Accuracy for Sinhala with Tesseract OCR Engine
JP3812719B2 (ja) 文書検索装置
JP2985813B2 (ja) 文字列認識装置および知識データベース学習方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120208

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130613

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130618

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20131029