JP2021182328A - 文字認識装置及び文字認識方法 - Google Patents

文字認識装置及び文字認識方法 Download PDF

Info

Publication number
JP2021182328A
JP2021182328A JP2020088261A JP2020088261A JP2021182328A JP 2021182328 A JP2021182328 A JP 2021182328A JP 2020088261 A JP2020088261 A JP 2020088261A JP 2020088261 A JP2020088261 A JP 2020088261A JP 2021182328 A JP2021182328 A JP 2021182328A
Authority
JP
Japan
Prior art keywords
character
recognition
image
character image
processing unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020088261A
Other languages
English (en)
Inventor
幸弘 村田
Yukihiro Murata
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi GE Nuclear Energy Ltd
Original Assignee
Hitachi GE Nuclear Energy Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi GE Nuclear Energy Ltd filed Critical Hitachi GE Nuclear Energy Ltd
Priority to JP2020088261A priority Critical patent/JP2021182328A/ja
Publication of JP2021182328A publication Critical patent/JP2021182328A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】動的又は静的なノイズの共存を前提とする文字認識の精度を向上させる。【解決手段】本発明の文字認識装置は、見本としての文字画像の第1の部分を平滑化するとともに、文字画像の第2の部分を鮮鋭化する鮮鋭化処理部と、平滑化した文字画像及び鮮鋭化した文字画像を教師付き学習データとして、文字画像から文字を認識する認識モデルを学習する学習処理部と、学習した認識モデルを使用して、認識対象としての文字画像から文字を認識する文字認識部と、を備えることを特徴とする。【選択図】図3

Description

本発明は、文字認識装置及び文字認識方法に関する。
近時、コンピュータを使用した文字認識が広く普及している。文字認識とは、単純にいえば、文字を撮像した画像を文字コードに変換する処理である。そして、ニューラルネットワーク等の認識モデルが当該処理を担う場合が多い。
カメラ等が撮像した文字の画像が活字のような原形を維持している場合、問題はない。しかしながら、例えば、機材に文字が表示されている場合、文字上に汚れが付着している、機材の配置に起因して文字が傾いて見える等、現場特有の問題が存在することもある。現場の事情によっては、このような問題を解決できないまま、カメラ等が文字を撮像せざるを得ない。すると、認識モデルを学習するために、このような事情を反映(先取)した教師付き学習データを作成することが重要になる。なお、“教師付き”とは、正解がラベル付けされている、という意味である。
特許文献1の画像処理装置は、正立位置を基準として左右に僅かに傾斜させた、複数の書体の文字を教師付き学習データとする。特許文献2の文字認識装置は、文字の画像を構成する5×7個の画素値を意図的に加工したデータを教師付き学習データとする。ここでの加工は、画素値の平行移動、画素値の回転及びノイズの加減である。特許文献3の画像処理装置は、路上で撮像された投稿画像から、輪郭が強調された画像を作成し、輪郭が強調された画像から、撮像地点の地名を抽出する。特許文献3の画像処理装置は、画像見本を意図的にぼかした画像を教師付き学習データとする。
特開2017−84299号公報 特開平5−54195号公報 特開2019−67106号公報
いま、ある機材に文字が表示されており、当該機材は、長期間水中に保管されているとする。ごみ、化学物質等が水に入り込んだ結果、機材には汚れが付着している。この水に対して熱が加わった結果、機材の周辺で対流、気泡が生じている。このような環境で撮像された文字は、その一部が汚れでかき消され、また、タイミングが悪いと、気泡又は対流によってその像が揺らいでしまう。前者の汚れは、静的つまり恒常的なものであり、文字の認識に資する場合もある。後者の揺らぎは、動的つまり一時的なものであり、その影響を取り除くことが望ましい。つまり、これら2種類のノイズのそれぞれに対して適切に対処すれば、文字認識の精度は向上するはずである。
特許文献1〜3は、このような2種類のノイズの存在を前提としていない。そこで、本発明は、動的又は静的なノイズの共存を前提とする文字認識の精度を向上させることを目的とする。
本発明の文字認識装置は、見本としての文字画像の第1の部分を平滑化するとともに、文字画像の第2の部分を鮮鋭化する鮮鋭化処理部と、平滑化した文字画像及び鮮鋭化した文字画像を教師付き学習データとして、文字画像から文字を認識する認識モデルを学習する学習処理部と、学習した認識モデルを使用して、認識対象としての文字画像から文字を認識する文字認識部と、を備えることを特徴とする。
その他の手段については、発明を実施するための形態のなかで説明する。
本発明によれば、動的又は静的なノイズの共存を前提とする文字認識の精度を向上させることができる。
文字認識装置の構成等を示す図である。 文字が撮像される現場を説明する図である。 画像見本の一例である。 学習処理手順のフローチャートである。 認識処理手順のフローチャートである。 係数の値を2つとする例を説明する図である。 係数の値を3つとする例を説明する図である。
以降、本発明を実施するための形態(“本実施形態”という)を、図等を参照しながら詳細に説明する。本実施形態は、水中において撮像された文字の画像を認識する例である。しかしながら、本発明は、水中に限らず、文字の画像が静的及び動的なノイズに影響される例に広く適用可能である。
(文字認識装置)
図1は、文字認識装置1の構成等を示す図である。文字認識装置1は、一般的なコンピュータであり、中央制御装置11、マウス、キーボード等の入力装置12、ディスプレイ等の出力装置13、主記憶装置14、補助記憶装置15及び通信装置16を備える。これらは、バスで相互に接続されている。補助記憶装置15は、画像見本31、認識モデル32及び教師付き学習データ33(いずれも詳細後記)を格納している。
主記憶装置14における画像入力部21、鮮鋭化処理部22、係数制御部23、ノイズ重畳部24、学習処理部25及び文字認識部26は、プログラムである。中央制御装置11は、これらのプログラムを補助記憶装置15から読み出し主記憶装置14にロードすることによって、それぞれのプログラムの機能(詳細後記)を実現する。補助記憶装置15は、文字認識装置1から独立した構成となっていてもよい。文字認識装置1は、ネットワーク4を介して、1又は複数の端末装置2及び1又は複数のカメラ3と通信可能である。
端末装置2は、現場で作業を行う作業者等によって携帯される。カメラ3は、機材等の近辺に設置され、当該機材上の文字を読み取る。
(現場)
図2は、文字が撮像される現場を説明する図である。容器41内に複数の原料(棒状のケースに入った確認対象物)5が配置されている。容器41内に、水42が貯留されており、その水位は、原料5を完全に水没させる程度に高い。防水仕様のカメラ3が原料5の外側に記載された文字を撮像している。当該文字は、例えば原料を一意に特定する識別子(原料ID)である。なお、ここの“原料”は、確認対象物の一例であり、確認対処物は、例えば、水没した原子力燃料であってもよい。原子力発電所の長い運用期間において、燃料はしばしば点検され交換される。その際の管理を徹底するために、水没した原子力燃料を正確に識別するニーズが存在する。
例えば、メンテナンス期間中に、カメラ3が水中の文字を撮像する機会が頻繁に発生する。容器41の中に異物が入り込むことも多く、それが汚れとなって原料5に付着する。容器41は熱を有しており、水中で頻繁に対流及び気泡が発生する。
(画像見本)
図3は、画像見本の一例である。画像見本43は、図2のカメラ3が原料5を撮像した結果の画像である。図3を見ると以下のことがわかる。なお、説明の便宜上、本実施形態では、文字及び数字を(広義の)文字と呼ぶ。
・文字“R”の一部に、汚れ44aが付着している。ここで“付着”とは、こびり付いており簡単には除去し得ないことを意味する。その結果、この文字が“R”であるのか、それとも、“P”であるのかが認識しにくくなっている。
・文字“0(ゼロ)”の一部に、汚れ44bが付着している。その結果、この文字が数字の“0”であるのか、それとも、アルファベットの“O”であるのかが認識しにくくなっている。
・文字“1”の近辺に、気泡45a及び45bが発生している。これらの気泡は、画面の下から上に移動していた。偶々撮像時、気泡45aが“1”の下部を隠し、気泡45bが“1”の上部を隠していた。その結果、この文字が“1”であるのか、それとも、アルファベットの“I”であるのかが認識しにくくなっている。
汚れ44a及び44bは、必ずしも無益ではない。文字が刻印されているような場合、例えば“R”に独特な汚れの付き方、“P”に独特な汚れの付き方等が存在する。このような汚れは鮮鋭化(強調)すれば、むしろ文字の認識精度を向上させる。一方、汚れ45a及び45bは、全く偶然に発生し、このような効果は期待できない。
(平滑化及び鮮鋭化)
2次元に整列している画素値を、ある規則に基づき変更することができる。ある画素値とその周囲の画素値との差分を拡大する処理は、鮮鋭化処理と呼ばれる。例えば境界を明確にするために鮮鋭化処理がなされる。その反対に、ある画素値とその周囲の画素値との差分を縮小する処理は、平滑化(ぼかし)処理と呼ばれる。例えば、ノイズを消去するため又は他の部分を強調するために、平滑化処理がなされる。
(オペレータ)
ある画素を平滑化又は鮮鋭化するために、当該画素を中心としその周囲の画素を含むn×n(n=3、5、9、・・)の行列が使用される。本実施形態において、この行列に対して係数“k”を乗算したものは、 “オペレータ”とも呼ばれる。本実施形態のオペレータは、“平滑化オペレータ”及び“鮮鋭化オペレータ”の2種類である。
(平滑化オペレータ)
式1は、平滑化オペレータの一例である。
Figure 2021182328
式1において、3×3の行列の中心の値は、“−8”であり、周囲の8つの値は、すべて“1”である。この行列は、一般的な畳み込み演算をするために使用される。平滑化オペレータは、この行列に係数“k”(0≦k)を乗算したものである。
(鮮鋭化オペレータ)
式2は、鮮鋭化オペレータの一例である。
Figure 2021182328
鮮鋭化オペレータは、平滑化オペレータで原画像を平滑化した後、原画像との差分によって境界を抽出し、原画像に境界を重畳して鮮鋭化するためのものである。
式1の行列及び式2の行列における、“1”及び“−8”という値は、あくまでも一例である。係数“k”の値を変化させることによって、平滑化オペレータの効果及び鮮鋭化オペレータの効果を同時に制御することができる。もちろん、平滑化オペレータ又は鮮鋭化オペレータの少なくとも一方のみが係数“k”を含むこととしてもよい。
(鮮鋭化の準備としての平滑化)
ユーザにとって、見本画像のうち平滑化又は鮮鋭化するべき部分を決定することは容易でない。文字認識装置1が、汚れ等の静的ノイズの部分を鮮鋭化し、気泡等の動的ノイズの部分を平滑化するのが効果的である。さらに、文字認識装置1が、見本画像の全体を一旦試験的に平滑化し、その結果文字認識が困難になった部分を選択的かつ最終的に鮮鋭化するのも効果的である。
(認識モデル)
本実施形態の認識モデル32は、一般的なニューラルネットワーク(図示せず)である。認識モデル32は、入力層、出力層、及び、複数の中間層を有する。各層は、複数のノードを有する。ノードは、自身が受け取った情報を、出力側の次の層の各ノードに伝搬する。このとき、どのノードにどれだけの情報を伝搬するかを示したものが“重みベクトル”である。重みベクトルは、入力層及び中間層の各ノードについて定義される。“重みベクトル”は、一般的に“パラメータ”と呼ばれる。文字認識装置1は、教師付き学習データ33を使用して、パラメータを最適化する(詳細後記)。
(処理手順)
以降で処理手順を説明する。処理手順は2つ存在し、それらは、学習処理手順及び認識処理手順である。認識処理手順を開始する前提として、学習処理手順が少なくとも1回終了しているものとする。
(学習処理手順)
図4は、学習処理手順のフローチャートである。
ステップS101において、文字認識装置1の画像入力部21は、見本画像を受け付ける。具体的には、画像入力部21は、文字を撮像した見本としての画像をユーザが入力装置12を介して入力するのを受け付ける。ここで入力される画像(以降“見本画像”とも呼ぶ)の枚数は、多ければ多いほどよいが、例えば数百枚程度である。
ステップS102において、文字認識装置1の係数制御部23は、係数を初期化する。具体的には、係数制御部23は、係数“k”に初期値“0”を代入する。ここでの“k” (0≦k)は、鮮鋭化オペレータ及び平滑化オペレータに含まれる“k”である。なお、“k”の初期値は、必ずしも“0”でなくてもよく、例えば、“0.3”でもよい。“k=0”である場合、見本画像は、平滑化も鮮鋭化もされない。
ステップS103において、文字認識装置1の鮮鋭化処理部22は、見本画像の一部に平滑化処理を行う。本実施形態では、説明の単純化のため、鮮鋭化処理部22が、平滑化処理及び鮮鋭化処理の両者を行うものとする。具体的には、第1に、鮮鋭化処理部22は、見本画像を出力装置13に表示する。
第2に、鮮鋭化処理部22は、見本画像のうちの平滑化対象部分をユーザがマウス等で指定するのを受け付ける。平滑化対象部分(第1の部分)とは、例えば、気泡等の動的ノイズ(図3の符号45a及び45b)を含む箇所である。
第3に、鮮鋭化処理部22は、平滑化オペレータを使用して、ステップS103の“第2”において指定された平滑化対象部分を平滑化する。
なお、鮮鋭化処理部22は、ユーザの指定を受け付けるまでもなく、自動的に平滑化対象部分を抽出してもよい。“k=0”である場合、ステップS103は、省略され得る。
ステップS104において、鮮鋭化処理部22は、見本画像の一部に鮮鋭化処理を行う。具体的には、第1に、鮮鋭化処理部22は、見本画像のうちの鮮鋭化対象部分をユーザがマウス等で指定するのを受け付ける。鮮鋭化対象部分(第2の部分)とは、例えば、汚れ等の静的ノイズ(図3の符号44a及び44b)を含む箇所である。
第2に、鮮鋭化処理部22は、鮮鋭化オペレータを使用して、ステップS104の“第1”において指定された鮮鋭化対象部分を鮮鋭化する。
なお、鮮鋭化処理部22は、ユーザの指定を受け付けるまでもなく、自動的に鮮鋭化対象部分を抽出してもよい。なお、鮮鋭化対象部分の抽出のために試験的に平滑化を行う変形例1を後記する。“k=0”である場合、ステップS104は、省略され得る。
ステップS105において、文字認識装置1のノイズ重畳部24は、見本画像の一部にノイズを重畳する。ユーザが見本画像を入力して行くうちに、図3において説明したノイズとは別に、ある種類のノイズが傾向的に出現することに気付く場合がある。そして、そのようなノイズが認識対象の画像にも出現することが相当の確率で予測される場合がある。ここでの傾向的なノイズの例は、以下の通りである。
・原料5に、その位置特有の光が差し込む。
・原料5に、その位置特有の陰が落ちる。
・原料5に、使用中のカメラ3に特有の歪が反映される。
このような場合、ノイズ重畳部24は、見本画像のうちユーザが指定した部分(第3の部分)に、一様なノイズを重畳する。ステップS105は、省略されてもよい。
ステップS106において、文字認識装置1の学習処理部25は、見本画像にラベル(正解)を付す。具体的には、学習処理部25は、ユーザが見本画像を視認し、そこから認識し得る文字を、入力装置12を介して入力するのを受け付ける。ユーザが入力した文字が、教師付き学習データ33のラベル(正解)となる。ここでのラベルは、例えば原料IDである。学習処理部25にとって、このラベルは所与のものである。
ステップS103〜S106が終了した段階で、処理済の見本画像が例えば数百枚程度蓄積されている。処理済の見本画像は、以下のタイプ1〜4のいずれかに属する。
〈タイプ1〉1又は複数の部分が平滑化されている。
〈タイプ2〉1又は複数の部分が鮮鋭化されている。
〈タイプ3〉1又は複数の部分が平滑化されており、他の1又は複数の部分が鮮鋭化されている。
〈タイプ4〉平滑化又は鮮鋭化されている部分がない。
なお、タイプ1〜4のいずれにおいても、1又は複数の部分にノイズが重畳されている場合と、重畳されていない場合がある。
ステップS107において、学習処理部25は、教師付き学習データ33を作成する。具体的には、学習処理部25は、処理済の見本画像とラベル(正解)との組を、教師付き学習データ33として補助記憶装置15に記憶する。
ステップS108において、学習処理部25は、認識モデル32のパラメータに適当な値を代入する。具体的には、学習処理部25は、補助記憶装置15から認識モデル32を読み出し、無作為に発生させた値をそのパラメータに代入する。
ステップS109において、学習処理部25は、認識モデル32に見本画像を入力する。具体的には、第1に、学習処理部25は、認識モデル32の入力層に見本画像を入力する。すると、認識モデル32の出力層は、認識結果(推定値)として例えば原料IDを出力する。初めのうちは、全くでたらめな原料IDが出力される。
第2に、学習処理部25は、画像見本と認識結果(推定値)との組合せを、画像見本の数だけ一時的に主記憶装置14に記憶する。
ステップS110において、学習処理部25は、認識結果とラベルとを比較する。具体的には、学習処理部25は、ステップS109の“第2”において記憶した組合せに含まれる認識結果を、ステップS106において付したラベルと比較し、比較結果を生成する。比較結果は、“一致”又は“不一致”のいずれかである。
ステップS111において、学習処理部25は、認識モデル32のパラメータを評価する。具体的には、学習処理部25は、以下の式に基づき認識精度を算出する。
認識精度=“一致”の数/(“一致”の数+“不一致”の数)
なお、ステップS111において損失関数値を使用する変形例2を後記する。
ステップS112において、学習処理部25は、繰り返し回数が所定の閾値に達したか否かを判断する。具体的には、学習処理部25は、ステップS108〜S111を繰り返した回数が所定の閾値に達した場合(ステップS112“Yes”)、ステップS113に進み、それ以外の場合(ステップS112“No”)、ステップS108に戻る。戻った後のステップS108においては、学習処理部25は、認識モデル32のパラメータに、無作為に発生させた別の値を代入することになる。
ステップS112の“Yes”を経由する段階で、学習処理部25は、繰り返し回数に等しい数の認識精度を保持していることになる。
ステップS113において、学習処理部25は、認識精度が所定の条件を満たすか否かを判断する。具体的には、第1に、学習処理部25は、保持しているすべての認識精度のうち最大のものを特定し、特定した認識精度が所定の閾値以上であるか否かを判断する。
第2に、学習処理部25は、特定した認識精度が所定の閾値以上である場合(ステップS113“Yes”)、処理中の係数“k”の値、及び、ステップ113の“第1”において特定した認識精度に対応するパラメータを保持してステップS115に進む。学習処理部25は、それ以外の場合(ステップS113“No”)、ステップS114に進む。
ステップS114において、文字認識装置1の係数制御部23は、係数を変更する。具体的には、係数制御部23は、係数kに対してΔkを加算する。Δkは、kの刻み幅であり、例えば“Δk=0.1”である。その後、ステップS103に戻る。戻った後のステップS103においては、見本画像の平滑化対象部分は、より大きな程度で平滑化される。その後のステップS104においては、見本画像の鮮鋭化対象部分は、より大きな程度で鮮鋭化される。
ステップS115において、文字認識装置1の学習処理部25は、パラメータ及び係数を保存する。具体的には、学習処理部25は、ステップS113の“第2”において保持した係数kの値及びパラメータを補助記憶装置15に記憶する。その後、学習処理手順を終了する。
(変形例1)
ステップS104において、第1に、鮮鋭化処理部22は、見本画像のうち既に平滑化された平滑化対象部分以外の全ての部分に対し平滑化処理を行う。ここで平滑化処理が行われた部分を“試験平滑化部分”と呼ぶ。
第2に、鮮鋭化処理部22は、ユーザが試験平滑化部分のうち、文字等を認識することが困難になった箇所を鮮鋭化対象部分として指定するのを受け付ける。もちろん、鮮鋭化処理部22は、ユーザの指定を受け付けるまでもなく、自動的に試験平滑化部分から鮮鋭化対象部分を抽出してもよい。鮮鋭化処理部22は、周辺の画素値との差が小さい画素値が存在する部分を鮮鋭化対象部分とする。
(変形例2)
前記のステップS111において算出された認識精度は、“一致”及び“不一致”を2値的に評価した結果であり、“惜しい不一致”の内容を連続的な数値として評価していない。学習処理部25は、以下の損失関数値を使用して、不一致の内容を連続的な数値として評価してもよい。以降、まず損失関数値を定義し、次に損失関数値の各項を説明する。
損失関数値=領域に対象物があった場合の、対象物のx,y座標の誤差
+領域に対象物があった場合の、対象物の横幅及び高さの誤差
+領域に対象物があった場合の、領域の信頼度の誤差
+領域に対象物がなかった場合の、領域の信頼度の誤差
+領域に対象物があった場合の、対象物の属性の誤差
損失関数値を使用する場合、学習処理部25は、見本画像を認識モデル32に入力し、その出力として以下の認識結果(推定値)を取得する。
〈右辺の第1項に関して〉
カメラ3の視野(領域)内における、対象物(例えば、原料IDが記載された長方形のプレート)の中心のx,y座標値
〈右辺の第2項に関して〉
カメラ3の視野内における、対象物の横幅及び大きさ
〈右辺の第3項及び第4項に関して〉
カメラ3の視野内における、対象物の有無
〈右辺の第5項に関して〉
認識すべき情報(例えば原料ID)
学習処理部25は、認識結果と見本画像(正解)との差分を誤差として算出する。文字列同士の誤差は、例えば文字の編集距離であってもよい。信頼度とは、認識結果としての対象物の“有”又は“無”が見本画像(正解)と一致する比率である。稀な例ではあるが、見本画像が原料IDの文字を含まない場合、認識結果が“無”となって一致するのが正しい。認識モデル32のパラメータの質が向上するほど、損失関数値は小さくなる。
損失関数値もまた、認識精度の一種である。しかしながら、ステップS113の“第1”においては、学習処理部25は、保持しているすべての認識精度(損失関数値)のうち最小のものを特定し、特定した認識精度が所定の閾値以下であるか否かを判断する。ステップS113の“第2”においては、学習処理部25は、特定した認識精度(損失関数値)が所定の閾値以下である場合(ステップS113“Yes”)、処理中の係数kの値、及び、ステップ113の“第1”において特定した認識精度に対応するパラメータを保持してステップS115に進む。学習処理部25は、それ以外の場合(ステップS113“No”)、ステップS114に進む。
(変形例3)
前記の例では、教師付き学習データは、平滑化処理又は鮮鋭化処理が行われた見本画像のみを含み、その元となった見本画像を含んでいない。しかしながら、教師付き学習データは、処理後の見本画像に加えて、元の見本画像を含んでもよい。
(認識処理手順)
図5は、認識処理手順のフローチャートである。
ステップS201において、文字認識装置1の文字認識部26は、認識対象の画像を受け付ける。具体的には、文字認識部26は、認識対象としての画像(どのような文字が撮像されているかが未知である画像)をユーザが入力装置12を介して入力するのを受け付ける。
ステップS202において、文字認識部26は、認識モデル32に画像を入力する。具体的には、文字認識部26は、パラメータが最適化されている認識モデル32の入力層に、認識対象としての画像を入力する。すると、認識モデル32の出力層は、認識結果として例えば原料IDを出力する。
ステップS203において、文字認識部26は、認識モデル32の認識結果を取得する。具体的には、第1に、文字認識部26は、認識モデル32の出力層が出力する認識結果を取得する。
第2に、文字認識部26は、認識結果(例えば、原料ID)を出力装置12又は端末装置2に表示する。その後、認識処理手順を終了する。
(係数kの値の数)
前記では、繰り返し処理の結果、学習処理部25は、最終的にkの値を1つに定める。しかしながら、学習処理部25は、最終的なkの値を、k、k、k、・・・のように複数の値としてもよい。
図6は、係数の値を2つとする例を説明する図である。学習処理手順(図4)のステップS103〜S114の1回目の繰り返し処理において、学習処理部25は、“k=0.0”及び“k=0.1”を同時に準備する。そのうえで、k又はkを適用する教師付き学習データの見本画像を適当な配分比率で分割する。図6の例の場合、kが適用される見本画像の配分比率は、見本画像全体の1/2であり、kが適用される見本画像の配分比率も、1/2である。
結局、小さめの平滑化処理、大きめの平滑化処理、小さめの鮮鋭化処理及び大きめの鮮鋭化処理が、1回目の繰り返し処理内で混在することになる。2回目の繰り返し処理において、学習処理部25は、“k=0.1”及び“k=0.2”を準備する。その後は前記と同様である。
図7は、係数の値を3つとする例を説明する図である。学習処理手順(図4)のステップS103〜S114の1回目の繰り返し処理において、学習処理部25は、“k=0.0”、“k=0.1” 及び“k=0.2”を同時に準備する。そのうえで、k、k又はkを適用する教師付き学習データの見本画像を適当な配分比率で分割する。図7の例の場合、kが適用される見本画像の配分比率は、見本画像全体の1/3であり、kが適用される見本画像の配分比率も、1/3であり、kが適用される見本画像の配分比率も、1/3である。
結局、小さめの平滑化処理、中程度の平滑化処理、大きめの平滑化処理、小さめの鮮鋭化処理、中程度の鮮鋭化処理及び大きめの鮮鋭化処理が、1回目の繰り返し処理内で混在することになる。2回目の繰り返し処理において、学習処理部25は、“k=0.1”、“k=0.2”及び“k=0.3”を準備する。その後は前記と同様である。
(変形例4)
前記では、同じ値の“k”が同時に平滑化オペレータ及び鮮鋭化オペレータに含まれる例を記載した。しかしながら、ある値の“k”が平滑化オペレータに含まれ、それと同時に、他の値の“k”が鮮鋭化オペレータに含まれてもよい。つまり、平滑化の程度と鮮鋭化の程度は、独立していてもよい。
(本実施形態の効果)
本実施形態の文字認識装置の効果は以下の通りである。
(1)文字認識装置は、見本画像に対して平滑化処理及び鮮鋭化処理を同時に行うことができる。
(2)文字認識装置は、係数を使用して平滑化の程度及び鮮鋭化の程度を制御することができる。
(3)文字認識装置は、見本画像に傾向的なノイズを重畳することができる。
(4)文字認識装置は、所定の基準を満たすように係数を決定することができる。
(5)文字認識装置は、連続的な認識精度に対して所定の基準を適用することができる。
(6)文字認識装置は、平滑化の程度及び鮮鋭化の程度を複数混在させることができる。
(7)文字認識装置は、静的なノイズ及び動的なノイズが混在する画像を高い精度で認識することができる。
(8)文字認識装置は、水中の文字を正確に認識することができる。
(9)文字認識装置は、水没した原子力燃料に記された文字を正確に認識することができる。
なお、本発明は前記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、前記した実施例は、本発明を分かり易く説明するために詳細に説明したものであり、必ずしも説明したすべての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
また、前記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウエアで実現してもよい。また、前記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウエアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、又は、ICカード、SDカード、DVD等の記録媒体に置くことができる。
また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしもすべての制御線や情報線を示しているとは限らない。実際には殆どすべての構成が相互に接続されていると考えてもよい。
1 文字認識装置
2 端末装置
3 カメラ
4 ネットワーク
11 中央制御装置
12 入力装置
13 出力装置
14 主記憶装置
15 補助記憶装置
16 通信装置
21 画像入力部
22 鮮鋭化処理部
23 係数制御部
24 ノイズ重畳部
25 学習処理部
26 文字認識部
31 画像見本
32 認識モデル
33 教師付き学習データ

Claims (10)

  1. 見本としての文字画像の第1の部分を平滑化するとともに、前記文字画像の第2の部分を鮮鋭化する鮮鋭化処理部と、
    前記平滑化した文字画像及び前記鮮鋭化した文字画像を教師付き学習データとして、文字画像から文字を認識する認識モデルを学習する学習処理部と、
    前記学習した認識モデルを使用して、認識対象としての文字画像から文字を認識する文字認識部と、
    を備えることを特徴とする文字認識装置。
  2. 前記平滑化の程度及び前記鮮鋭化の程度の少なくとも一方を規定する係数を制御する係数制御部を備えること、
    を特徴とする請求項1に記載の文字認識装置。
  3. 前記見本としての文字画像の第3の部分に傾向的なノイズが出現する場合、前記第3の部分にノイズを重畳するノイズ重畳部を備えること、
    を特徴とする請求項2に記載の文字認識装置。
  4. 前記係数制御部は、
    前記認識モデルの認識精度が所定の基準を満たす程度に前記係数を決定すること、
    を特徴とする請求項3に記載の文字認識装置。
  5. 前記係数制御部は、
    損失関数値を使用して前記認識精度を算出すること、
    を特徴とする請求項4に記載の文字認識装置。
  6. 前記係数制御部は、
    前記係数の値として複数の値を指定し、
    前記鮮鋭化処理部は、
    前記見本としての文字画像についての前記平滑化の程度又は前記鮮鋭化の程度を複数混在させること、
    を特徴とする請求項5に記載の文字認識装置。
  7. 前記第1の部分は、
    動的なノイズを含み、
    前記第2の部分は、
    静的なノイズを含むこと、
    を特徴とする請求項6に記載の文字認識装置。
  8. 水没した物体に記された文字を撮像した見本としての文字画像の第1の部分を平滑化するとともに、前記文字画像の第2の部分を鮮鋭化する鮮鋭化処理部と、
    前記平滑化した文字画像及び前記鮮鋭化した文字画像を教師付き学習データとして、文字画像から文字を認識する認識モデルを学習する学習処理部と、
    前記学習した認識モデルを使用して、水没した物体に記された文字を撮像した認識対象としての文字画像から文字を認識する文字認識部と、
    を備えることを特徴とする文字認識装置。
  9. 前記水没した物体は、
    水没した原子力燃料であること、
    を特徴とする前記8に記載の文字認識装置。
  10. 文字認識装置の鮮鋭化処理部は、
    見本としての文字画像の第1の部分を平滑化するとともに、前記文字画像の第2の部分を鮮鋭化し、
    前記文字認識装置の学習処理部は、
    前記平滑化した文字画像及び前記鮮鋭化した文字画像を教師付き学習データとして、文字画像から文字を認識する認識モデルを学習し、
    前記文字認識装置の文字認識部は、
    前記学習した認識モデルを使用して、認識対象としての文字画像から文字を認識すること、
    を特徴とする文字認識装置の文字認識方法。
JP2020088261A 2020-05-20 2020-05-20 文字認識装置及び文字認識方法 Pending JP2021182328A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020088261A JP2021182328A (ja) 2020-05-20 2020-05-20 文字認識装置及び文字認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020088261A JP2021182328A (ja) 2020-05-20 2020-05-20 文字認識装置及び文字認識方法

Publications (1)

Publication Number Publication Date
JP2021182328A true JP2021182328A (ja) 2021-11-25

Family

ID=78606622

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020088261A Pending JP2021182328A (ja) 2020-05-20 2020-05-20 文字認識装置及び文字認識方法

Country Status (1)

Country Link
JP (1) JP2021182328A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024057768A1 (ja) * 2022-09-14 2024-03-21 富士フイルム株式会社 画像生成装置、学習装置、画像処理装置、画像生成方法、学習方法及び画像処理方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024057768A1 (ja) * 2022-09-14 2024-03-21 富士フイルム株式会社 画像生成装置、学習装置、画像処理装置、画像生成方法、学習方法及び画像処理方法

Similar Documents

Publication Publication Date Title
JP6100744B2 (ja) 自動修復を用いたカラー文書画像セグメンテーション及び二値化
CN109389552B (zh) 一种基于上下文相关多任务深度学习的图像超分辨算法
JP2000137804A (ja) デジタル画像の異常検出方法およびシステム、ならびにそのための記憶媒体
Lin et al. A morphological mean filter for impulse noise removal
CN109241867B (zh) 采用人工智能算法识别数字岩心图像的方法及装置
CN114170227B (zh) 产品表面缺陷检测方法、装置、设备及存储介质
CN114119439A (zh) 红外与可见光图像融合方法、装置、设备及存储介质
CN112507876A (zh) 一种基于语义分割的有线表格图片解析方法和装置
CN111915635A (zh) 支持自阅卷的试题解析信息生成方法及系统
CN112102185A (zh) 基于深度学习的图像去模糊方法及装置、电子设备
CN112634288A (zh) 设备区域图像分割方法及装置
CN113688838A (zh) 红色笔迹提取方法、系统、可读存储介质及计算机设备
Leavline et al. On teaching digital image processing with MATLAB
CN114998290A (zh) 基于有监督模式的织物瑕疵检测方法、装置、设备及介质
JP2021182328A (ja) 文字認識装置及び文字認識方法
JP4804382B2 (ja) 画像処理方法、画像処理プログラムおよび画像処理装置
JP3636936B2 (ja) 濃淡画像の2値化方法および濃淡画像の2値化プログラムを記録した記録媒体
US20060171589A1 (en) Grayscale character dictionary generation apparatus
Soni et al. To Propose an improvement in Zhang-Suen algorithm for image thinning in image processing
CN112465817A (zh) 一种基于方向滤波器的路面裂缝检测方法
JPH0624014B2 (ja) 濃淡画像の処理方法
JPH06301775A (ja) 画像処理方法、画像識別方法および画像処理装置
JP2008219800A (ja) 書込み抽出方法、書込み抽出装置および書込み抽出プログラム
Hildebrandt et al. Benford's Law based detection of latent fingerprint forgeries on the example of artificial sweat printed fingerprints captured by confocal laser scanning microscopes
Wyzykowski et al. A Universal Latent Fingerprint Enhancer Using Transformers

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230220

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231219

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240130

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20240328