JP2023044206A

JP2023044206A - 文字認識装置、文字認識方法、および文字認識プログラム

Info

Publication number: JP2023044206A
Application number: JP2021152112A
Authority: JP
Inventors: 遼平田中; Ryohei Tanaka
Original assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Current assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Priority date: 2021-09-17
Filing date: 2021-09-17
Publication date: 2023-03-30
Anticipated expiration: 2041-09-17
Also published as: JP7098808B1

Abstract

【課題】字認識精度の向上を図る。【解決手段】文字認識装置１０は、文字列認識部２４を備える。文字列認識部２４は、文字を記入された記録媒体の画像５０に含まれる、文字列５２と該文字列５２に付帯された訂正文字および挿入文字の少なくとも一方である校正用文字５８とを同一行とした行ごとの第１行画像領域６０から、校正用文字５８によって校正された文字列５２の文字認識結果８０を出力する。【選択図】図２

Description

本発明の実施形態は、文字認識装置、文字認識方法、および文字認識プログラムに関する。

記録媒体に記入された文字を認識する技術が知られている。例えば、文字を記入された記録媒体の画像に含まれる文字列を行ごとに抽出し、抽出した行ごとに文字認識する技術が開示されている。また、文字の上または下に訂正文字が記入されている場合、訂正文字の文字認識結果を用いて、訂正文字の上または下の行の文字列を訂正して認識する技術が開示されている。

しかしながら従来技術では、訂正文字や挿入文字などの校正用文字が校正対象の文字を含む文字列と同一行に記入されている場合、校正用文字を抽出して校正に用いる事は困難であり、文字認識精度が低下する場合があった。

特開２０２０－１２３８１１号公報特開２００２－１７００７７号公報特開平１０－１１６３１５号公報特開昭６１－３６８７４号公報

本発明は、上記に鑑みてなされたものであって、文字認識精度の向上を図ることができる、文字認識装置、文字認識方法、および文字認識プログラムを提供することを目的とする。

実施形態の文字認識装置は、文字列認識部を備える。文字列認識部は、文字を記入された記録媒体の画像に含まれる、文字列と前記文字列に付帯された訂正文字および挿入文字の少なくとも一方である校正用文字とを同一行とした行ごとの第１行画像領域から、前記校正用文字によって校正された前記文字列の文字認識結果を出力する。

実施形態の文字認識装置の構成の一例を示すブロック図。行抽出部および文字列認識部による処理の全体の流れの一例を示す模式図。画像の一例を示す模式図。画像の一例を示す模式図。画像の一例を示す模式図。文字認識の説明図。行抽出部の構成の一例を示す模式図。第１導出部および抽出部による処理の一例を示す説明図。行抽出部の他の構成の一例を示す模式図。第１導出部、抽出部、および第２導出部による処理の一例を示す説明図。第１導出部、抽出部、および第２導出部による処理の一例を示す説明図。第１導出部による処理の一例を示す説明図。情報処理の流れの一例を示すフローチャート。従来の文字認識の一例の説明図。画像の一例を示す模式図。画像の一例を示す模式図。ハードウェア構成図。

以下に添付図面を参照して、文字認識装置、文字認識方法、および文字認識プログラムを詳細に説明する。

図１は、本実施形態の文字認識装置１０の構成の一例を示すブロック図である。

文字認識装置１０は、文字を記入された記録媒体の画像を認識し、文字認識結果を出力する情報処理装置である。

文字認識装置１０は、記憶部１２と、通信部１４と、ＵＩ（ユーザ・インタフェース）部１６と、制御部２０と、を備える。記憶部１２、通信部１４、ＵＩ部１６、および制御部２０は、バス１８などを介して通信可能に接続されている。

記憶部１２は、各種のデータを記憶する。記憶部１２は、例えば、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、フラッシュメモリ等の半導体メモリ素子、ハードディスク、光ディスク等である。なお、記憶部１２は、文字認識装置１０の外部に設けられた記憶装置であってもよい。

通信部１４は、ネットワーク等を介して外部の情報処理装置と通信する通信インターフェースである。

ＵＩ部１６は、ユーザによる操作入力を受付ける受付機能、および、各種の情報を表示する表示機能を有する。受付機能は、例えば、マウスなどのポインティングデバイスやキーボードなどによって実現される。表示機能は、例えば、ディスプレイによって実現される。なお、ＵＩ部１６は、受付機能と表示機能を一体的に構成したタッチパネルであってよい。

制御部２０は、文字認識装置１０において各種の情報処理を実行する。

制御部２０は、行抽出部２２と、文字列認識部２４と、を備える。

行抽出部２２および文字列認識部２４は、例えば、１または複数のプロセッサにより実現される。例えば上記各部は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のＩＣなどのプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち１つを実現してもよいし、各部のうち２以上を実現してもよい。

図２は、行抽出部２２および文字列認識部２４による処理の全体の流れの一例を示す模式図である。

行抽出部２２は、画像５０から第１行画像領域６０を抽出する。

画像５０は、文字を記入された記録媒体の画像である。図２には、画像５０の一例として画像５０Ａを示す。なお、本実施形態では、日本語の文字を記入された記録媒体の画像５０を一例として説明する。なお、文字認識装置１０の文字認識対象の文字は、日本語に限定されない。

画像５０Ａには、手書きなどにより記録媒体に記入された文字列５２が含まれる。文字列５２は、書字方向に沿って記載された１または複数の文字の群である。図２には、「１２３４」の文字からなる文字列５２Ａと、「５６７」の文字からなる文字列５２Ｂと、を一例として示す。文字列５２Ａおよび文字列５２Ｂは、文字列５２の一例である。

文字列５２には、校正記号５６、または、校正記号５６および校正用文字５８が付帯されている場合がある。

校正記号５６とは、校正指示を表すための記号である。校正記号５６は、例えば、文字の訂正、文字の挿入、文字の削除、などを表す記号である。具体的には、校正記号５６は、例えば、取り消し線、塗りつぶし、訂正印、挿入線、などによって表される。

校正用文字５８とは、校正後の文字を表す。言い換えると、校正用文字５８は、訂正後の文字や挿入後の文字などである。すなわち、校正用文字５８は、訂正文字および挿入文字の少なくとも一方を表す。校正用文字５８は、文字列５２に付帯された文字である。校正用文字５８は、文字列５２に示される校正記号５６に対応して配置され、校正記号５６によって示される校正指示に沿って文字列５２を校正するとき用いられる。

図２の画像５０Ａには、「１２３４」の文字からなる文字列５２Ａに含まれる文字「１２」に校正記号５６として取り消し線が示される。このため、画像５０Ａの場合、文字「１２」が校正対象文字５４である。また、校正記号５６によって取り消された校正対象文字５４である「１２」の近傍には、訂正後の訂正文字として「８９」を表す校正用文字５８が示される。すなわち、画像５０Ａの場合、校正用文字５８である「８９」は、文字列５２Ａに付帯されている。詳細には、校正用文字５８である「８９」は、文字列５２Ａの校正対象文字５４である「１２」および校正記号５６である取り消し線に付帯されている。

第１行画像領域６０は、文字列５２と文字列５２に付帯された校正用文字５８とを同一行とした行ごとの行画像領域である。

画像５０Ａの場合、行抽出部２２は、「１２３４」の文字からなる文字列５２Ａおよび文字列５２Ａに付帯された校正用文字５８である「８９」を第１行画像領域６０Ａとして抽出する。また、行抽出部２２は、文字列５２Ｂである「５６７」を第１行画像領域６０Ｂとして抽出する。第１行画像領域６０Ａおよび第１行画像領域６０Ｂは、第１行画像領域６０の一例である。

すなわち、行抽出部２２は、文字列５２Ａに付帯された校正用文字５８を、文字列５２Ａと同一の行の第１行画像領域６０Ａとして抽出する。

文字列認識部２４は、第１行画像領域６０から文字認識結果８０を出力する。

文字認識結果８０は、第１行画像領域６０に校正記号５６および校正用文字５８が含まれる場合には、校正用文字５８によって校正された文字列５２の文字の認識結果である。また、文字認識結果８０は、第１行画像領域６０に校正記号５６が含まれる場合には、校正記号５６によって校正された文字列５２の文字の認識結果である。また、文字認識結果８０は、第１行画像領域６０に校正記号５６および校正用文字５８が含まれない場合には、第１行画像領域６０に含まれる文字列５２の文字認識結果である。

文字列認識部２４は、同一の行として抽出された第１行画像領域６０ごとに、第１行画像領域６０から文字認識結果８０を出力する。図２に示す例の場合、文字列認識部２４は、行抽出部２２で抽出された第１行画像領域６０Ａおよび第１行画像領域６０Ｂの各々ごとに、文字認識結果８０を出力する。

詳細には、文字列認識部２４は、第１行画像領域６０の文字列５２に校正記号５６が含まれない場合、第１行画像領域６０に含まれる文字列５２の文字を公知の方法で文字認識した文字認識結果８０を出力する。例えば、文字列認識部２４は、第１行画像領域６０Ｂの文字列５２Ｂに含まれる文字を認識し、文字認識結果８０として「５６７」を出力する。

文字列認識部２４は、第１行画像領域６０の文字列５２に校正記号５６が含まれる場合、校正記号５６によって表される校正指示に応じて、該校正記号５６を含む文字列５２に付帯された校正用文字５８によって校正された文字列５２の文字認識結果８０を出力する。

例えば、文字列認識部２４は、第１行画像領域６０Ａの文字列５２Ａに含まれる、訂正を表す校正記号５６の記入された文字「１２」に替えて、該校正記号５６に付帯する校正用文字５８である「８９」を文字認識する。この処理により、文字列認識部２４は、第１行画像領域６０Ａの文字認識結果８０として「８９３４」を出力する。

図３Ａは、挿入を表す校正記号５６および挿入文字である校正用文字５８の付帯された文字列５２Ｃの画像５０Ｂの一例を示す模式図である。画像５０Ｂは、画像５０の一例である。文字列５２Ｃは、文字列５２の一例である。

校正記号５６が挿入を表す場合、文字列認識部２４は、以下の処理を行えばよい。例えば、文字列認識部２４は、行抽出部２２から第１行画像領域６０Ｃを受付ける。第１行画像領域６０Ｃは、第１行画像領域６０の一例である。文字列認識部２４は、第１行画像領域６０Ｃの文字列５２Ｃ「１２４」に含まれる、挿入を表す校正記号５６の記入された位置に、該校正記号５６に付帯された校正用文字５８である「３」を挿入した文字列５２Ｃの文字認識結果８０である「１２３４」を出力する。

図３Ｂは、複数種類の校正記号５６の付与された文字列５２Ｄの画像５０Ｃの一例の模式図である。画像５０Ｃは、画像５０の一例である。文字列５２Ｄは、文字列５２の一例である。

文字列認識部２４は、行抽出部２２から第１行画像領域６０Ｄを受付ける。第１行画像領域６０Ｄは、第１行画像領域６０の一例である。文字列認識部２４は、第１行画像領域６０Ｄの文字列５２Ｄに含まれる、取り消しを表す塗りつぶしによって表される校正記号５６および訂正印によって表される校正記号５６の付与された文字を、これらの校正記号５６に付帯する校正用文字５８である「２」に置き換える。これらの処理により、文字列認識部２４は、第１行画像領域６０Ｄの文字認識結果８０として「川崎市幸区堀川町７２－３４」を出力する。

図３Ｃは、他の画像５０Ｄの一例を示す模式図である。図３Ｃには、複数種類の校正記号５６の付与された文字列５２Ｅの画像５０Ｄを示す。画像５０Ｄは、画像５０の一例である。文字列５２Ｅは、文字列５２の一例である。文字列認識部２４は、行抽出部２２から第１行画像領域６０Ｅを受付ける。第１行画像領域６０Ｅは、第１行画像領域６０の一例である。

図３Ｃに示すように、校正記号５６が文字認識対象である文字の少なくとも一部上にかかって記入される場合がある。この場合、文字列認識部２４は、第１行画像領域６０Ｅに含まれる校正記号５６を付与された校正対象文字５４と、該校正対象文字５４に対して文字列５２Ｅの文字列方向の上流側および下流側の少なくとも一方に配置された文字との関係に基づいて、該校正対象文字５４を文字認識対象とした文字認識結果８０を出力する。

図３Ｃに示す例の場合、文字列認識部２４は、校正記号５６を付与された校正対象文字５４である「日」と、該校正対象文字５４に対して文字列５２Ｅの文字列方向の上流側に配置された文字「１９８９年２月」との関係に基づいて、該校正対象文字５４「日」を文字認識対象とする。そして、文字列認識部２４は、第１行画像領域６０Ｅの文字列５２Ｅに含まれる、取り消しを表す塗りつぶしによって表される校正記号５６および訂正印によって表される校正記号５６の付与された文字である校正対象文字５４の内、文字認識対象とした「日」以外の校正対象文字５４を、これらの校正記号５６に付帯する校正用文字５８である「１１」に置き換える。これらの処理により、文字列認識部２４は、第１行画像領域６０Ｅの文字認識結果８０として「１９８９年２月１１日」を出力する。

なお、文字列認識部２４は、第１行画像領域６０から文字認識結果８０を出力する処理を、ニューラルネットワークを用いて行ってよい。

図４は、文字列認識部２４によるニューラルネットワークを用いた文字認識の説明図である。

文字列認識部２４は、第１ＮＮＷ（ニューラルネットワーク）２６Ａを有する。第１ＮＮＷ２６Ａは、第１行画像領域６０を入力とし、文字認識結果８０を出力とする学習モデルである。第１ＮＮＷ２６Ａは、例えば、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）、ＧＣＮ（ＧｒａｐｈＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋ）、またはＲＮＮ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）などのニューラルネットワークで構成される深層学習モデル（ＤＮＮ）である。

文字列認識部２４は、複数の学習データ７０を用いて予め第１ＮＮＷ２６Ａを学習すればよい。学習データ７０は、第１行画像領域６０と文字認識結果８０との対である。学習データ７０に含まれる文字認識結果８０は、対応する第１行画像領域６０の正解データに相当する。第１ＮＮＷ２６Ａの学習に用いる複数の学習データ７０の少なくとも一部には、校正記号５６および校正用文字５８を付帯された文字列５２を第１行画像領域６０とした学習データ７０を用いればよい。

すなわち、文字列認識部２４は、第１行画像領域６０に校正記号５６および校正用文字５８が含まれる場合には、校正用文字５８によって校正された文字列５２の文字の文字認識結果８０を出力するように、予め第１ＮＮＷ２６Ａを学習する。また、文字列認識部２４は、第１行画像領域６０に校正記号５６が含まれる場合には、校正記号５６によって校正された文字列５２の文字の文字認識結果８０を出力するように、予め第１ＮＮＷ２６Ａを学習する。また、文字列認識部２４は、第１行画像領域６０に校正記号５６および校正用文字５８が含まれない場合には、第１行画像領域６０に含まれる文字列５２の文字の文字認識結果８０を出力するように、予め第１ＮＮＷ２６Ａを学習する。

また、文字列認識部２４は、校正記号５６が文字認識対象である文字の少なくとも一部上にかかって記入されている場合（図３Ｃ参照）については、以下の文字認識結果８０を出力するように予め第１ＮＮＷ２６Ａを学習すればよい。文字列認識部２４は、第１行画像領域６０Ｅに含まれる校正記号５６を付与された校正対象文字５４と、該校正対象文字５４に対して文字列５２Ｅの文字列方向の上流側および下流側の少なくとも一方に配置された文字との関係に基づいて、該校正対象文字５４を文字認識対象とした文字認識結果８０を出力するように、予め第１ＮＮＷ２６Ａを学習すればよい。

このため、文字列認識部２４が、図３Ｃに示す第１行画像領域６０Ｅを第１ＮＮＷ２６Ａに入力すると、第１ＮＮＷ２６Ａから図３Ｃに示す文字認識結果８０が出力される。同様に、文字列認識部２４が図３Ａに示す第１行画像領域６０Ｃを第１ＮＮＷ２６Ａに入力すると、第１ＮＮＷ２６Ａから図３Ａに示す文字認識結果８０が出力される。また、同様に、文字列認識部２４が図３Ｂに示す画像５０Ｃを第１ＮＮＷ２６Ａに入力すると、第１ＮＮＷ２６Ａから図３Ｂに示す文字認識結果８０が出力される。

次に、行抽出部２２の詳細を説明する。

上述したように、行抽出部２２は、画像５０から、文字列５２と文字列５２に付帯された校正用文字５８とを同一行とした行ごとの第１行画像領域６０を抽出する。

図５は、行抽出部２２の構成の一例を示す模式図である。

行抽出部２２は、第１導出部２２Ａと、抽出部２２Ｂと、を有する。

第１導出部２２Ａは、第２ＮＮＷ２６Ｂを用いて、画像５０の画素領域ごとに文字領域らしさを導出する。画素領域とは、１画素または連続（隣接）する複数の画素からなる領域である。文字領域らしさとは、１行分の文字領域である度合いを表す。文字領域らしさは、例えば、文字領域らしさを表すスコアなどによって表される。

抽出部２２Ｂは、第１導出部２２Ａで導出された画素領域ごとの文字領域らしさに応じて、画像５０から第１行画像領域６０を抽出する。

図６は、第１導出部２２Ａおよび抽出部２２Ｂによる処理の一例の説明図である。

第１導出部２２Ａは、第２ＮＮＷ２６Ｂを有する。第２ＮＮＷ２６Ｂは、画像５０を入力とし、画素領域の各々の文字領域らしさ６２を出力とする学習モデルである。第２ＮＮＷ２６Ｂは、例えば、ＣＮＮ、ＧＣＮ、またはＲＮＮなどのニューラルネットワークで構成される深層学習モデルである。

第１導出部２２Ａは、複数の学習データ７２を用いて予め第２ＮＮＷ２６Ｂを学習する。学習データ７２は、画像５０と画素領域の各々の文字領域らしさ６２との対である。学習データ７２に含まれる画素領域の各々の文字領域らしさ６２は、対応する画像５０の正解データに相当する。図６には、複数の学習データ７２として、学習データ７２Ａ～学習データ７２Ｃを示す。しかし、第２ＮＮＷ２６Ｂの学習には、実際には、４個以上の大量の学習データ７２が用いられることはいうまでもない。

第２ＮＮＷ２６Ｂの学習に用いる複数の学習データ７２の少なくとも一部には、校正記号５６および校正用文字５８を付帯された文字列５２の画像５０を含む学習データ７２を用いればよい（図６中、学習データ７２Ｃ参照）。

第１導出部２２Ａは、学習データ７２を用いて予め学習された第２ＮＮＷ２６Ｂに画像５０を入力することで、第２ＮＮＷ２６Ｂからの出力として画素領域ごとの文字領域らしさ６２を得る。例えば、画像５０Ａを第２ＮＮＷ２６Ｂに入力した場面を想定する。この場合、第１導出部２２Ａは、第２ＮＮＷ２６Ｂからの出力として、画像５０Ａに含まれる画素領域ごとの文字領域らしさ６２を導出する。

図６には、文字領域らしさ６２が閾値以上の領域を領域６２Ａとし、文字領域らしさ６２が閾値未満の領域を領域６２Ｂとして示す。画像５０Ａが第２ＮＮＷ２６Ｂに入力された場合、第１導出部２２Ａは、文字領域らしさ６２が閾値以上の領域６２Ａ１と、文字領域らしさ６２が閾値以上の領域６２Ａ２と、を導出する。文字領域らしさ６２が閾値以上の領域６２Ａ１は、文字領域らしさ６２が閾値以上の領域６２Ａの一例であり、文字列５２Ａおよび校正用文字５８の領域に相当する。文字領域らしさ６２が閾値以上の領域６２Ａ２は、文字領域らしさ６２が閾値以上の領域６２Ａの一例であり、文字列５２Ｂの領域に相当する。

抽出部２２Ｂは、文字領域らしさ６２が閾値以上の領域６２Ａを、第１行画像領域６０として抽出する。図６に示す例の場合、抽出部２２Ｂは、文字領域らしさ６２が閾値以上の領域６２Ａ１を第１行画像領域６０Ａとして抽出する。また、抽出部２２Ｂは、文字領域らしさ６２が閾値以上の領域６２Ａ２を第１行画像領域６０Ｂとして抽出する。

すなわち、第２ＮＮＷ２６Ｂは、抽出部２２Ｂにおいて、画像５０から文字列５２および文字列５２に付帯された校正用文字５８を同一行とした行ごとの第１行画像領域６０が抽出される文字領域らしさ６２を出力するように、予め学習されてなる。このため、行抽出部２２は、画像５０から第１行画像領域６０を抽出することができる。

なお、行抽出部２２は、校正記号らしさを更に用いて、画像５０から第１行画像領域６０を抽出してもよい。

図７は、行抽出部２２の他の構成の一例の模式図である。

行抽出部２２は、第１導出部２２Ａと、抽出部２２Ｂと、第２導出部２２Ｃと、を有する構成であってもよい。

第２導出部２２Ｃは、第３ＮＮＷ２６Ｃを用いて、画像５０の画素領域ごとに、校正記号らしさを導出する。校正記号らしさとは、校正記号５６である度合いを表す。校正記号らしさは、例えば、校正記号らしさを表すスコアなどによって表される。

この場合、第１導出部２２Ａは、画像５０および校正記号らしさから、文字領域らしさ６２を導出すればよい。

図８は、第１導出部２２Ａ、抽出部２２Ｂ、および第２導出部２２Ｃによる処理の一例の説明図である。

第２導出部２２Ｃは、第３ＮＮＷ２６Ｃを有する。第３ＮＮＷ２６Ｃは、画像５０を入力とし、画素領域の各々の校正記号らしさ６４を出力とする学習モデルである。第３ＮＮＷ２６Ｃは、例えば、ＣＮＮ、ＧＣＮ、またはＲＮＮなどのニューラルネットワークで構成される深層学習モデルである。

第２導出部２２Ｃは、複数の学習データを用いて予め第３ＮＮＷ２６Ｃを学習する。第３ＮＮＷ２６Ｃの学習に用いられる学習データは、画像５０と画素領域の各々の校正記号らしさ６４との対である。第３ＮＮＷ２６Ｃの学習に用いる複数の学習データの少なくとも一部には、校正記号５６および校正用文字５８を付帯された文字列５２の画像５０を含む学習データを用いればよい。

第２導出部２２Ｃは、第３ＮＮＷ２６Ｃに画像５０を入力することで、第３ＮＮＷ２６Ｃからの出力として、画素領域ごとの校正記号らしさ６４を得る。例えば、画像５０Ｅを第３ＮＮＷ２６Ｃに入力した場面を想定する。画像５０Ｅは、画像５０の一例である。画像５０Ｅは、校正記号５６を付与された校正対象文字５４である「３４」を含む文字列５２Ｆと、文字列５２Ｆに付帯された校正用文字５８と、を含む。この場合、第２導出部２２Ｃは、第３ＮＮＷ２６Ｃからの出力として、画像５０Ｅに含まれる画素領域ごとの校正記号らしさ６４を導出する。

図８には、校正記号らしさ６４が閾値以上の領域を領域６４Ａとし、校正記号らしさ６４が閾値未満の領域を領域６４Ｂとして示す。画像５０Ｅが第３ＮＮＷ２６Ｃに入力された場合、第２導出部２２Ｃは、校正記号らしさ６４が閾値以上の領域６４Ａと、校正記号らしさ６４が閾値未満の領域６４Ｂと、を導出する。

第２導出部２２Ｃは、第３ＮＮＷ２６Ｃを用いて導出した画素領域ごとの校正記号らしさ６４を第１導出部２２Ａへ出力する。すなわち、画素領域ごとの校正記号らしさ６４を第１導出部２２Ａへ出力することで、第２導出部２２Ｃは、画像５０に含まれる校正記号５６の位置情報を第１導出部２２Ａへ出力することができる。

なお、第２導出部２２Ｃは、第３ＮＮＷ２６Ｃから出力される校正記号らしさ６４に関する情報を第２ＮＮＷ２６Ｂへ出力すればよい。例えば、第２導出部２２Ｃは、第３ＮＮＷ２６Ｃの計算過程で出力される中間生成物である特徴量ベクトルを第１導出部２２Ａへ出力してもよい。また、第２導出部２２Ｃは、第３ＮＮＷ２６Ｃの最終生成物である画素領域ごとの校正記号らしさ６４を第１導出部２２Ａへ出力してもよい。第３ＮＮＷ２６Ｃの特徴量ベクトルまたは最終生成物を第２導出部２２Ｃへ出力することで、第２導出部２２Ｃは、画像５０に含まれる校正記号５６の位置情報を第１導出部２２Ａへ出力することができる。

第１導出部２２Ａは、画像５０および第２導出部２２Ｃで導出された画素領域ごとの校正記号らしさ６４または画像５０から校正記号らしさ６４を算出する過程で計算される特徴量ベクトルを第２ＮＮＷ２６Ｂへ入力することで、第２ＮＮＷ２６Ｂからの出力として、画素領域ごとの文字領域らしさ６２を導出する。

この場合、第２ＮＮＷ２６Ｂは、画像５０および校正記号らしさ６４または画像５０から校正記号らしさ６４を算出する過程で計算される特徴量ベクトルから、抽出部２２Ｂにおいて画像５０から第１行画像領域６０が抽出される文字領域らしさ６２を出力するように、予め学習されていればよい。

第１導出部２２Ａは、画像５０および校正記号らしさ６４から文字領域らしさ６２を導出することで、画素領域ごとの校正記号らしさ６４によって表される校正記号５６の位置情報を更に用いて文字領域らしさ６２を導出することができる。このため、第１導出部２２Ａは、文字列５２と文字列５２に付帯された訂正文字や挿入文字などの校正用文字５８とを高精度に同一行の第１行画像領域６０として抽出部２２Ｂで抽出可能となるような、文字領域らしさ６２を導出することができる。

なお、第２導出部２２Ｃは、画像５０の画素領域ごとに、推定認識文字らしさおよび背景領域らしさの少なくとも一方を更に導出してもよい。

図９は、第１導出部２２Ａ、抽出部２２Ｂ、および第２導出部２２Ｃによる処理の一例の説明図である。

第２導出部２２Ｃの第３ＮＮＷ２６Ｃは、画像５０を入力とし、画素領域の各々の、校正記号らしさ６４と、推定認識文字らしさ６６および背景領域らしさ６８の少なくとも一方と、を出力する学習モデルであってもよい。

推定認識文字らしさ６６とは、推定される何等かの文字である度合いを表す。推定認識文字らしさ６６は、例えば、推定認識文字らしさ６６を表すスコアなどによって表される。背景領域らしさ６８とは、画像５０における文字または線の記入されていない領域である度合いを表す。背景領域らしさ６８は、例えば、背景領域らしさ６８を表すスコアなどによって表される。

例えば、画像５０Ｅを第３ＮＮＷ２６Ｃに入力した場面を想定する。この場合、第２導出部２２Ｃは、第３ＮＮＷ２６Ｃからの出力として、画像５０Ｅに含まれる画素領域ごとに、校正記号らしさ６４、推定認識文字らしさ６６、および背景領域らしさ６８を導出する。

図９には、校正記号らしさ６４が閾値以上の領域を領域６４Ａとして示す。また、推定認識文字らしさ６６が閾値以上の領域を領域６６Ａとして示す。また、背景領域らしさ６８が閾値以上の領域を領域６８Ａとして示す。

画像５０Ｅが第３ＮＮＷ２６Ｃに入力された場合、第２導出部２２Ｃは、校正記号らしさ６４が閾値以上の領域６４Ａ、推定認識文字らしさ６６が閾値以上の領域６６Ａ、および背景領域らしさ６８が閾値以上の領域６８Ａ、を導出することとなる。

第２導出部２２Ｃは、第３ＮＮＷ２６Ｃを用いて導出した画素領域ごとの校正記号らしさ６４、推定認識文字らしさ６６、および背景領域らしさ６８を第１導出部２２Ａへ出力する。なお、第２導出部２２Ｃは、第３ＮＮＷ２６Ｃから出力される校正記号らしさ６４、推定認識文字らしさ６６、および背景領域らしさ６８の各々に関する情報を第１導出部２２Ａへ出力すればよい。例えば、第２導出部２２Ｃは、第３ＮＮＷ２６Ｃの計算過程で出力される中間生成物である特徴量ベクトルを第１導出部２２Ａへ出力してもよい。また、第２導出部２２Ｃは、第３ＮＮＷ２６Ｃの最終生成物である画素領域ごとの校正記号らしさ６４、推定認識文字らしさ６６、および背景領域らしさ６８を第１導出部２２Ａへ出力してもよい。

画素領域ごとの校正記号らしさ６４、推定認識文字らしさ６６、および背景領域らしさ６８を第１導出部２２Ａへ出力することで、第２導出部２２Ｃは、画像５０Ｅに含まれる、校正記号５６、推定認識文字、および背景領域の各々の位置情報を第１導出部２２Ａへ出力することができる。

第１導出部２２Ａは、画像５０と、校正記号らしさ６４と、推定認識文字らしさ６６および背景領域らしさ６８の少なくとも一方または画像５０から校正記号らしさ６４と、推定認識文字らしさ６６および背景領域らしさ６８の少なくとも一方とを算出する過程で計算される特徴量ベクトルと、を第２ＮＮＷ２６Ｂへ入力することで、第２ＮＮＷ２６Ｂからの出力として、画素領域ごとの文字領域らしさ６２を導出する。

この場合、第２ＮＮＷ２６Ｂは、画像５０と、校正記号らしさ６４と、推定認識文字らしさ６６および背景領域らしさ６８の少なくとも一方または画像５０から校正記号らしさ６４と、推定認識文字らしさ６６および背景領域らしさ６８の少なくとも一方とを算出する過程で計算される特徴量ベクトルと、から、抽出部２２Ｂにおいて画像５０から第１行画像領域６０が抽出される文字領域らしさ６２を出力するように、予め学習されていればよい。

第１導出部２２Ａは、画像５０と、校正記号らしさ６４と、推定認識文字らしさ６６および背景領域らしさ６８の少なくとも一方と、から文字領域らしさ６２を導出する。この処理により、第１導出部２２Ａは、画素領域ごとの校正記号らしさ６４、推定認識文字らしさ６６、および背景領域らしさ６８、によって表される、校正記号５６、推定認識文字、および背景領域の各々の位置情報を更に用いて文字領域らしさ６２を導出することができる。このため、第１導出部２２Ａは、文字列５２と文字列５２に付帯された訂正文字や挿入文字などの校正用文字５８とを高精度に同一行の第１行画像領域６０として抽出部２２Ｂで抽出可能となるような、文字領域らしさ６２を導出することができる。

なお、第１導出部２２Ａの第２ＮＮＷ２６Ｂは、校正文字機能が有効状態に設定されている場合に、抽出部２２Ｂで第１行画像領域６０が抽出される文字領域らしさ６２を抽出するように予め学習されていてもよい。

校正文字機能が有効状態である、とは、文字列５２および文字列５２に付帯された校正用文字５８を同一行とした行ごとの第１行画像領域６０を抽出する機能が有効な状態であることを意味する。

校正文字機能が無効状態である、とは、第１行画像領域６０を抽出する機能が無効な状態であることを意味する。

校正文字機能の有効状態および無効状態の切り替え指示は、例えば、ユーザによるＵＩ部１６の操作指示によって入力されればよい。

図１０は、第１導出部２２Ａによる処理の一例の説明図である。

第１導出部２２Ａが校正文字機能の有効状態または無効状態の切り替え機能を有する場合を想定する。この場合、第２ＮＮＷ２６Ｂは、校正文字機能が有効状態に設定されている場合には、抽出部２２Ｂで第１行画像領域６０が抽出される文字領域らしさ６２である第１文字領域らしさを抽出するように予め学習されていればよい。また、第２ＮＮＷ２６Ｂは、校正文字機能が無効状態に設定されている場合には、抽出部２２Ｂにおいて画像５０から文字列５２と該文字列５２に付帯された校正用文字５８とを異なる行とした行ごとの第２行画像領域６１が抽出される第２文字領域らしさ６３を出力するように、予め学習されていればよい。

図１０には、文字領域らしさ６２である第１文字領域らしさが閾値以上の領域を領域６２Ａとし、文字領域らしさ６２である第１文字領域らしさが閾値未満の領域を領域６２Ｂとして示す。

校正文字機能が有効状態に設定されているときに画像５０Ｅが第２ＮＮＷ２６Ｂに入力された場合、第１導出部２２Ａは、文字領域らしさ６２である第１文字領域らしさが閾値以上の領域６２Ａ３と、閾値未満の領域６２Ｂと、を導出することとなる。文字領域らしさ６２である第１文字領域らしさが閾値以上の領域６２Ａは、画像５０Ｅに含まれる文字列５２Ｆおよび校正用文字５８の領域に相当する。

抽出部２２Ｂは、文字領域らしさ６２が閾値以上の領域６２Ａを、第１行画像領域６０として抽出する。

一方、校正文字機能が無効状態に設定されているときに画像５０Ｅが第２ＮＮＷ２６Ｂに入力された場合、第１導出部２２Ａは、第２文字領域らしさ６３が閾値以上の領域６３Ａ１および領域６３Ａ２の各々と、閾値未満の領域６２Ｂと、を導出することとなる。第２文字領域らしさ６３が閾値以上の領域６３Ａ１は、画像５０Ｅに含まれる文字列５２Ｆの領域に相当する。第２文字領域らしさ６３が閾値以上の領域６３Ａ２は、画像５０Ｅに含まれる校正用文字５８の領域に相当する。

この場合、抽出部２２Ｂは、第２文字領域らしさ６３が閾値以上の領域６３Ａ１を第２行画像領域６１Ａとして抽出し、第２文字領域らしさ６３が閾値以上の領域６３Ａ２を第２行画像領域６１Ｂとして抽出する。第２行画像領域６１Ａおよび第２行画像領域６１Ｂは、第２行画像領域６１の一例である。

すなわち、第２ＮＮＷ２６Ｂは、校正文字機能が有効状態に設定されている場合、抽出部２２Ｂにおいて画像５０から、文字列５２および文字列５２に付帯された校正用文字５８を同一行とした行ごとの第１行画像領域６０が抽出される文字領域らしさ６２を出力するように、予め学習されてなる。このため、校正文字機能が有効状態に設定されている場合、行抽出部２２は、画像５０から第１行画像領域６０を抽出することができる。

また、第２ＮＮＷ２６Ｂは、校正文字機能が無効状態に設定されている場合、抽出部２２Ｂにおいて画像５０から、文字列５２と、文字列５２に付帯された校正用文字５８と、を異なる別の行とした第２行画像領域６１が抽出される第２文字領域らしさ６３を出力するように、予め学習されてなる。このため、校正文字機能が無効状態に設定されている場合、行抽出部２２は、画像５０から第２行画像領域６１を抽出することができる。

校正文字機能の有効状態、無効状態は、有効状態、無効状態をそれぞれ意味する所定のベクトルを第２ＮＮＷ２６Ｂに入力することで指定できる。すなわち、画像５０と共に有効状態を表すベクトルが入力されたときには文字領域らしさ６２を出力するように第２ＮＮＷ２６Ｂを学習すればよい。また、画像５０と共に無効状態を表すベクトルが入力されたときには文字領域らしさ６３を出力するように第２ＮＮＷ２６Ｂを学習すればよい。

よって、第１導出部２２Ａは、校正文字機能の設定を有効状態または無効状態に切り替えることで、１つの第２ＮＮＷ２６Ｂを用いて、用途に応じた文字領域らしさを導出することができる。また、この場合、１つの第２ＮＮＷ２６Ｂで有効状態および無効状態の２つの状態に対応することができるため、状態に応じた複数のモデルを学習する場合に比べて、省メモリおよび容易なメンテナンスを実現することができる。

次に、本実施形態の文字認識装置１０で実行する情報処理の流れの一例を説明する。

図１１は、文字認識装置１０で実行する情報処理の流れの一例を示すフローチャートである。なお、図１１には、校正文字機能が有効状態に設定されている場合の情報処理の流れを一例として示す。

行抽出部２２は、画像５０から第１行画像領域６０を抽出する（ステップＳ１００）。

文字列認識部２４は、ステップＳ１００で抽出された第１行画像領域６０の文字認識結果８０を出力する（ステップＳ１０２）。

そして、本ルーチンを終了する。

以上説明したように、本実施形態の文字認識装置１０は、文字列認識部２４を備える。文字列認識部２４は、文字を記入された記録媒体の画像５０に含まれる、文字列５２と該文字列５２に付帯された訂正文字および挿入文字の少なくとも一方である校正用文字５８とを同一行とした行ごとの第１行画像領域６０から、校正用文字５８によって校正された文字列５２の文字認識結果８０を出力する。

このように、本実施形態の文字認識装置１０では、文字列５２と該文字列５２に付帯された校正用文字５８とを同一行とした行ごとの第１行画像領域６０から文字認識結果８０を出力する。

ここで、従来では、画像５０に含まれる文字列５２と校正用文字５８とを別々の行として文字認識を行っていた。

図１２Ａは、従来の文字認識の一例の説明図である。例えば、画像５０Ａに含まれる文字を従来方式で認識する場面を想定して説明する。

従来技術では、画像５０Ａに含まれる文字列５２Ａである「１２３４」と、校正用文字５８である「８９」と、文字列５２Ｂである「５６７」とを、別々の行６００として認識していた。そして、文字列５２Ａの行６００に含まれる校正記号５６を付与された校正対象文字５４である「１２」を、校正記号５６である「８９」で置き換えるなどの処理を行うことで、文字認識を行っていた。

しかしながら従来技術では、訂正文字や挿入文字が校正対象文字５４を含む文字列５２と同一行に記入されている場合、訂正文字や挿入文字を校正用文字５８として抽出して校正に用いる事は困難であった。

図１２Ｂは、画像５０Ｃの一例の模式図である。画像５０Ｃは、図３Ｂの画像５０Ｃと同様である。図１２Ｂに示すように、画像５０Ｃには、文字列５２Ｄの領域内に校正用文字５８である「２」が記入されている。このような場合、従来技術では、文字「２」を校正対象文字５４に対する校正用文字５８として抽出して校正に用いる事は困難であった。

一方、本実施形態の文字認識装置１０では、文字列５２と該文字列５２に付帯された校正用文字５８とを同一行とした行ごとの第１行画像領域６０から文字認識結果８０を出力する。

このため、図３Ｂを用いて説明したように、第１行画像領域６０を用いて文字認識を行うことで、第１行画像領域６０に含まれる校正用文字５８によって校正された文字列５２の高精度な文字認識結果８０を出力することができる。

従って、本実施形態の文字認識装置１０は、文字認識精度の向上を図ることができる。

また、本実施形態の文字認識装置１０の文字列認識部２４は、第１行画像領域６０を入力とし文字認識結果８０を出力とする第１ＮＮＷ２６Ａを用いて、文字認識結果８０を出力する。

このため、例えば、文字列認識部２４は、第１行画像領域６０に含まれる校正記号５６を付与された校正対象文字５４と、該校正対象文字５４に対して文字列５２の文字列方向の上流側および下流側の少なくとも一方に配置された文字との関係に基づいて、該校正対象文字５４を文字認識対象とした文字認識結果８０を出力するように、予め第１ＮＮＷ２６Ａを学習すればよい。

図１２Ｃは、画像５０Ｄの一例の模式図である。画像５０Ｄは、図３Ｃの画像５０Ｄと同様である。図１２Ｃに示すように、校正記号５６が文字認識対象である文字の少なくとも一部上にかかって記入されている場合がある。図１２Ｃに示す例の場合、文字認識対象の文字である「日」に訂正印によって表される校正記号５６が重なって記入されている。このような場合、従来技術では校正記号５６が重なって記入された文字である「日」を文字認識対象とすることが出来なかった。

一方、本実施形態の文字列認識部２４は、第１行画像領域６０に含まれる校正記号５６を付与された校正対象文字５４と、該校正対象文字５４に対して文字列５２の文字列方向の上流側および下流側の少なくとも一方に配置された文字との関係に基づいて、該校正対象文字５４を文字認識対象とした文字認識結果８０を出力するように、予め第１ＮＮＷ２６Ａを学習する。

このため、本実施形態の文字認識装置１０は、図３Ｃを用いて説明したように、第１行画像領域６０Ｅの文字認識結果８０として、校正記号５６が重なって記入された文字である「日」を文字認識対象とした「１９８９年２月１１日」を出力することができる。

よって、本実施形態の文字認識装置１０は、上記効果に加えて、更に文字認識精度の向上を図ることができる。

次に、本実施形態の文字認識装置１０のハードウェア構成を説明する。

図１３は、本実施形態の文字認識装置１０の一例のハードウェア構成図である。

本実施形態の文字認識装置１０は、ＣＰＵ９１などの制御装置と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）９２やＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）９３などの記憶装置と、ネットワークに接続して通信を行う通信Ｉ／Ｆ９４と、各部を接続するバス９５と、を備える。

本実施形態の文字認識装置１０で実行されるプログラムは、ＲＯＭ９２等に予め組み込まれて提供される。

本実施形態の文字認識装置１０で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ－ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、フレキシブルディスク（ＦＤ）、ＣＤ－Ｒ（ＣｏｍｐａｃｔＤｉｓｋＲｅｃｏｒｄａｂｌｅ）、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。

さらに、本実施形態の文字認識装置１０で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、本実施形態の文字認識装置１０で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。

本実施形態の文字認識装置１０で実行されるプログラムは、コンピュータを、本実施形態の文字認識装置１０の各部として機能させうる。このコンピュータは、ＣＰＵ９１がコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。

上記には、本発明の実施形態を説明したが、本実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。上記新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。本実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１０文字認識装置
２２行抽出部
２２Ａ第１導出部
２２Ｂ抽出部
２４文字列認識部

実施形態の文字認識装置は、文字列認識部を備える。文字列認識部は、文字を記入された記録媒体の画像に含まれる、文字列と前記文字列に付帯された訂正文字および挿入文字の少なくとも一方である校正用文字とを同一行とした行ごとの第１行画像領域から、前記校正用文字によって校正された前記文字列の文字認識結果を出力する。前記文字列認識部は、校正指示を表すための校正記号が文字認識対象である文字の少なくとも一部上にかかって記入されている場合、前記第１行画像領域に含まれる前記校正記号を付与された校正対象文字と、該校正対象文字に対して文字列方向の上流側および下流側の少なくとも一方に配置された文字との関係に基づいて、前記校正対象文字を前記文字認識対象とした、前記文字認識結果を出力する。

Claims

文字を記入された記録媒体の画像に含まれる、文字列と前記文字列に付帯された訂正文字および挿入文字の少なくとも一方である校正用文字とを同一行とした行ごとの第１行画像領域から、前記校正用文字によって校正された前記文字列の文字認識結果を出力する文字列認識部、
を備える文字認識装置。
前記文字列認識部は、
前記第１行画像領域に含まれる校正記号を付与された校正対象文字と、該校正対象文字に対して文字列方向の上流側および下流側の少なくとも一方に配置された文字との関係に基づいて、前記校正対象文字を文字認識対象とした、前記文字認識結果を出力する、
請求項１に記載の文字認識装置。
前記文字列認識部は、
前記第１行画像領域を入力とし前記文字認識結果を出力とする第１ニューラルネットワークを用いて、前記文字認識結果を出力する、
請求項１または請求項２に記載の文字認識装置。
前記画像から前記第１行画像領域を抽出する行抽出部を備え、
前記文字列認識部は、
抽出された前記第１行画像領域から前記文字認識結果を出力する、
請求項１～請求項３の何れか１項に記載の文字認識装置。
前記行抽出部は、
第２ニューラルネットワークを用いて、前記画像の画素領域ごとに文字領域らしさを導出する第１導出部と、
前記文字領域らしさに応じて前記画像から前記第１行画像領域を抽出する抽出部と、
を有し、
前記第２ニューラルネットワークは、
前記抽出部において前記画像から前記第１行画像領域が抽出される前記文字領域らしさを出力するように、予め学習されてなる、
請求項４に記載の文字認識装置。
前記行抽出部は、
第３ニューラルネットワークを用いて、前記画像の画素領域ごとに、校正記号らしさを導出する第２導出部を更に有し、
前記第２ニューラルネットワークは、
前記画像および前記校正記号らしさまたは前記画像から前記校正記号らしさを算出する過程で計算される特徴量ベクトルから、前記抽出部において前記画像から前記第１行画像領域が抽出される前記文字領域らしさを出力するように、予め学習されてなる、
請求項５に記載の文字認識装置。
前記第２導出部は、
前記第３ニューラルネットワークを用いて、前記画像の画素領域ごとに、前記校正記号らしさと、推定認識文字らしさおよび背景領域らしさの少なくとも一方と、を導出し、
前記第２ニューラルネットワークは、
前記画像と、前記校正記号らしさと、前記推定認識文字らしさおよび前記背景領域らしさの少なくとも一方または前記画像から前記校正記号らしさと、推定認識文字らしさおよび背景領域らしさの少なくとも一方とを算出する過程で計算される特徴量ベクトルと、から、前記抽出部において前記画像から前記第１行画像領域が抽出される前記文字領域らしさを出力するように、予め学習されてなる、
請求項６に記載の文字認識装置。
前記第２ニューラルネットワークは、
校正文字機能が有効状態に設定されている場合、
前記抽出部において前記画像から前記第１行画像領域が抽出される前記文字領域らしさである第１文字領域らしさを出力し、
校正用文字機能が無効状態に設定されている場合、
前記抽出部において前記画像から前記文字列と前記文字列に付帯された前記校正用文字とを異なる行とした行ごとの第２行画像領域が抽出される第２文字領域らしさを出力するように、あらかじめ学習されてなる、
請求項５～請求項７の何れか１項に記載の文字認識装置。
文字を記入された記録媒体の画像に含まれる、文字列と前記文字列に付帯された訂正文字および挿入文字の少なくとも一方である校正用文字とを同一行とした行ごとの第１行画像領域から、前記校正用文字によって校正された前記文字列の文字認識結果を出力するステップ、
を含む文字認識方法。
文字を記入された記録媒体の画像に含まれる、文字列と前記文字列に付帯された訂正文字および挿入文字の少なくとも一方である校正用文字とを同一行とした行ごとの第１行画像領域から、前記校正用文字によって校正された前記文字列の文字認識結果を出力するステップをコンピュータに実行させるための文字認識プログラム。