JP2023156815A - 文字認識装置、文字認識方法、及びプログラム - Google Patents

文字認識装置、文字認識方法、及びプログラム Download PDF

Info

Publication number
JP2023156815A
JP2023156815A JP2022066399A JP2022066399A JP2023156815A JP 2023156815 A JP2023156815 A JP 2023156815A JP 2022066399 A JP2022066399 A JP 2022066399A JP 2022066399 A JP2022066399 A JP 2022066399A JP 2023156815 A JP2023156815 A JP 2023156815A
Authority
JP
Japan
Prior art keywords
character
area
input image
likelihood
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022066399A
Other languages
English (en)
Inventor
陸 松本
Riku Matsumoto
昌満 村瀬
Masamitsu Murase
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Priority to JP2022066399A priority Critical patent/JP2023156815A/ja
Priority to PCT/JP2022/040880 priority patent/WO2023199542A1/ja
Publication of JP2023156815A publication Critical patent/JP2023156815A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

【課題】認識に失敗した文字を少ない手間で再認識する文字認識装置、文字認識方法及びプログラムを提供する。【解決手段】文字認識装置の演算回路は、入力画像において、文字を含む尤度が0よりも高い少なくとも1つの候補文字領域を検出しS2、候補文字領域のうち、予め決められたしきい値より高い尤度を有する候補文字領域を文字領域として決定しS3、文字領域を入力画像に重畳して表示装置に表示しS4、取得した入力画像における第1の点を指定する第1のユーザ入力を取得し、候補文字領域のうち、第1の点の近傍における第1の補正領域に含まれる候補文字領域の尤度を増大させるS6ことで、候補文字領域のうち、しきい値より高い尤度を有する候補文字領域を文字領域として再決定し、文字領域を入力画像に重畳して表示装置に再表示し、文字領域に含まれる文字を認識する。【選択図】図2

Description

本開示は、文字認識装置、文字認識方法、及びプログラムに関する。
コンピュータにより画像中の文字を自動的に認識しようとする場合、画像中の一部の文字の認識に失敗することがあり、また、文字ではない物体を文字として誤認識することがある。この場合、認識に失敗した文字を再認識するために、また、誤認識した文字を削除するために、コンピュータ又はユーザによる追加の処理が必要になる。
例えば、特許文献1は、情景画像として撮影される情景に実際には存在しているが隠されているために見えない文字(隠れた文字)が含まれている場合、隠れた文字を補完するかたちで認識結果のテキストを得ることができる文字認識装置を開示している。
特許第6342298号公報
認識に失敗した文字をユーザの手動処理により再認識する場合、ユーザが文字を含む領域を指定するために大きな手間がかかる。このため、従来よりも少ない手間で、認識に失敗した文字を再認識することが求められる。
本開示の目的は、従来よりも少ない手間で、認識に失敗した文字を再認識することができる文字認識装置、文字認識方法、及びプログラムを提供することにある。
本開示の一態様によれば、
入力画像を処理して前記入力画像に含まれる文字を認識する文字認識装置であって、前記文字認識装置は、
演算回路と、
前記演算回路によって実行可能な命令を格納したメモリとを備え、
前記演算回路は、前記命令を実行したとき、
前記入力画像において、文字を含む尤度が0よりも高い少なくとも1つの候補文字領域を検出し、
前記候補文字領域のうち、予め決められたしきい値より高い尤度を有する候補文字領域を文字領域として決定し、
前記文字領域を前記入力画像に重畳して表示装置に表示し、
入力装置を介して、前記入力画像における第1の点を指定する第1のユーザ入力を取得し、
前記候補文字領域のうち、前記第1の点の近傍における第1の補正領域に含まれる候補文字領域の尤度を増大させ、
前記候補文字領域のうち、前記しきい値より高い尤度を有する候補文字領域を前記文字領域として再決定し、
前記文字領域を前記入力画像に重畳して表示装置に再表示し、
前記文字領域に含まれる文字を認識する。
本開示の一態様に係る文字認識装置によれば、従来よりも少ない手間で、認識に失敗した文字を再認識することができる。
第1の実施形態に係る文字認識装置1の構成を示すブロック図である。 図1のCPU11によって実行される文字認識処理を示すフローチャートである。 図1の撮影装置14によって取得される入力画像20の例を示す図である。 図1の表示装置16に表示される画像の例であって、検出に失敗した文字領域が存在する場合を示す図である。 検出に失敗した文字領域を再検出する処理を説明するための図である。 図5のA-A’線に沿った候補文字領域の尤度を示す図である。 図6の候補文字領域34c’の尤度を補正した状態を示す図である。 図1の表示装置16に表示される画像の例であって、検出に失敗した文字領域34cを再検出した場合を示す図である。 図1の表示装置16に表示される画像の例であって、文字領域として誤検出した領域が存在する場合を示す図である。 文字領域として誤検出した領域を削除する処理を説明するための図である。 第2の実施形態に係る文字認識システム40の構成を示すブロック図である。
以下、適宜図面を参照しながら、実施形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。
なお、発明者(ら)は、当業者が本開示を十分に理解するために添付図面および以下の説明を提供するのであって、これらによって特許請求の範囲に記載の主題を限定することを意図するものではない。
[第1の実施形態]
第1の実施形態に係る文字認識装置は、撮影装置、入力装置、及び表示装置を備える一体型のコンピュータ、例えばタブレットコンピュータとして構成される。
[第1の実施形態の構成]
図1は、第1の実施形態に係る文字認識装置1の構成を示すブロック図である。文字認識装置1は、バス10、中央処理装置(CPU)11、メモリ12、記憶装置13、撮影装置14、入力装置15、及び表示装置16を備える。CPU11は、文字認識装置1全体の動作を制御し、また、図2を参照して後述する文字認識処理を実行することで、撮影装置14により取得された入力画像を処理して入力画像に含まれる文字を認識する。メモリ12は、文字認識装置1の動作に必要なプログラム及びデータを一時的に記憶する。記憶装置13は、文字認識装置1の動作に必要なプログラムを格納する不揮発性記憶媒体である。撮影装置14は、対象物を撮影して入力画像を生成する。撮影装置14は、例えば、RGBカメラである。入力装置15は、文字認識装置1の動作を制御するユーザ入力を受ける。入力装置15は、例えば、キーボード及び/又はポインティングデバイスを含む。表示装置16は、入力画像及び認識された文字などを表示する。CPU11、メモリ12、記憶装置13、撮影装置14、入力装置15、及び表示装置16は、バス10を介して互いに接続される。
入力装置15は、例えば、表示装置16に一体化されたタッチパネル装置であってもよく、ユーザの指又はスタイラスによって操作されてもよい。
CPU11は、演算回路の一例である。また、メモリ12及び記憶装置13に格納されるプログラムは、CPU11によって実行可能な命令の一例である。
本開示の実施形態では、例えば、分電盤の端子に印字された文字列、及び/又は、分電盤に接続されたケーブルに印字された文字列を認識する場合について説明する。
[第1の実施形態の動作]
図2は、図1のCPU11によって実行される文字認識処理を示すフローチャートである。
ステップS1において、CPU11は、撮影装置14によって撮影された入力画像を取得する。
図3は、図1の撮影装置14によって取得される入力画像20の例を示す図である。本開示の実施形態では、入力画像20がケーブル21a~21dを含み、各ケーブル21a~21dに印字された文字列を認識する場合について説明する。
ステップS2において、CPU11は、入力画像を分割した複数の部分画像のそれぞれに対して文字を含む尤度を計算し、尤度に基づいて少なくとも1つの候補文字領域を検出する。本明細書において、「候補文字領域」とは、文字を含む尤度が0よりも高い領域を示す。候補文字領域の尤度は、文字認識の技術分野で知られた任意の方法で計算されてもよい。
ステップS3において、CPU11は、各候補文字領域の尤度を予め決められたしきい値Thに対して比較し、しきい値Thよりも高い尤度を有する候補文字領域を文字領域として決定する。本明細書において、「文字領域」とは、所定の文字認識アルゴリズムを用いて文字を認識する対象となる領域を示す。
ステップS4において、CPU11は、文字領域を入力画像に重畳して表示装置16に表示する。
図4は、図1の表示装置16に表示される画像の例を示す図である。表示装置16に表示される画像は、入力画像20(図3を参照)を含み、さらに、入力画像20に重畳された追加ボタン31、削除ボタン32、文字認識ボタン33、及び文字領域34a,34b,34dを示すフレームを含む。追加ボタン31は、検出に失敗した文字領域が存在する場合に、当該文字領域を再検出するために使用される。削除ボタン32は、文字を含まないにもかかわらず文字を含むと誤検出された文字領域(すなわち、文字領域として誤検出された領域)が存在する場合に、当該文字領域を削除するために使用される。文字認識ボタン33は、検出された文字領域に含まれる文字を認識するために使用される。文字領域34a,34b,34dは、ケーブル21a,21b,21dの文字列にそれぞれ対応する。ユーザは、入力装置15を用いて、追加ボタン31、削除ボタン32、及び文字認識ボタン33を押下することができ、また、入力画像20における任意の点を指定することができる。図4の例は、ケーブル21cの文字列を文字領域として検出することに失敗した場合を示す。
検出に失敗した文字領域が存在する場合、又は、誤検出された文字領域が存在する場合、文字領域を修正する必要がある。文字認識装置1のユーザは、表示装置16に表示された画像を見て、必要に応じて、文字領域の修正を文字認識装置1に指示する。
ステップS5において、CPU11は、ユーザ入力に基づいて、文字領域の修正が指示されたか否かを判断し、YESのときはステップS6に進み、NOのときはステップS7に進む。図4を参照して説明すると、表示装置16に表示された追加ボタン31又は削除ボタン32が押下され、かつ、入力画像20におけるいずれかの点が指定されたとき、CPU11は、文字領域の修正が指示されたと判断し、処理はステップS6に進む。一方、表示装置16に表示された文字認識ボタン33が押下されたとき、処理はステップS7に進む。
ステップS6において、CPU11は、ユーザによって指定された点の近傍にあり、かつ、いずれかの候補文字領域(すなわち、0よりも高い尤度を有する領域)に含まれる領域の尤度を補正する。検出に失敗した文字領域が存在する場合、CPU11は、元の尤度に対して所定値を加算又は乗算することにより、領域の尤度を増大させる。誤検出された文字領域が存在する場合、CPU11は、元の尤度に対して所定値を減算又は乗算することにより、領域の尤度を減少させる。
ステップS3~S6は、入力画像に含まれるすべての文字領域が正しく検出されたとユーザが判断するまで繰り返される。
ステップS7において、CPU11は、文字認識の技術分野で知られた任意の文字認識アルゴリズムを用いて、文字領域に含まれる文字を認識する。認識された文字は、テキストデータとして表示装置16に表示されてもよく、CPU11によって実行される他のアプリケーションプログラムによってさらに処理されてもよい。
ここで、図4~図8を参照して、検出に失敗した文字領域が存在する場合における文字領域の修正について説明する。
図4は、前述したように、図1の表示装置16に表示される画像の例であって、検出に失敗した文字領域が存在する場合を示す図である。図4の例は、ケーブル21cの文字列を文字領域として検出することに失敗した場合を示す。
図5は、検出に失敗した文字領域を再検出する処理を説明するための図である。図6は、図5のA-A’線に沿った候補文字領域の尤度を示す図である。図7は、図6の候補文字領域34c’の尤度を補正した状態を示す図である。
図6を参照すると、ケーブル21a,21b,21dの文字列に対応する候補文字領域34a,34b,34dは、しきい値Thよりも高い尤度を有するので、そのまま文字領域34a,34b,34dとして決定される。一方、ケーブル21cの文字列に対応する候補文字領域34c’は、しきい値Thよりも低い尤度を有するので、文字領域としては処理されない。この場合、図4に示すように、文字領域34a,34b,34dは表示装置16に表示されるが、候補文字領域34c’は表示装置16には表示されない。
ユーザは、候補文字領域34c’を文字領域として処理するために、表示装置16に表示された追加ボタン31を押下し、次いで、図5に示すように、候補文字領域34c’の内部又は近傍の点35を指定する。CPU11は、図7に示すように、点35の近傍における補正領域36に含まれ、かつ、候補文字領域34c’に含まれる領域の尤度を増大させることで、補正された尤度を有する候補文字領域34cを生成する。図7の例は、補正領域36に含まれる候補文字領域34c’の尤度に一定値を加算する場合を示す。補正された候補文字領域34cの尤度はしきい値Thより高いので、CPU11は、候補文字領域34cを文字領域34cとして決定する。その後、CPU11は、文字領域34cを入力画像20に重畳して表示装置16に表示する。
図8は、図1の表示装置16に表示される画像の例であって、検出に失敗した文字領域34cを再検出した場合を示す図である。候補文字領域の尤度を補正することにより、図8に示すように、入力画像20に含まれるすべての文字列に対応する文字領域34a~34dを検出することができる。その後、表示装置16に表示された文字認識ボタン33が押下されたとき、CPU11は、文字領域34a~34dに含まれる文字を認識する。
補正領域36は、例えば、ユーザによって指定された点35を中心とする半径r1の円形領域であってもよい。補正領域36のサイズ(例えば半径r1の長さ)は、入力装置15のポインティングデバイスにより点35を指定する時間長が長くなるほど増大するように設定されてもよい。入力装置15のポインティングデバイスが圧力を検出可能である場合、補正領域36のサイズ(例えば半径r1の長さ)は、入力装置15のポインティングデバイスにより点35を指定する強さが大きくなるほど増大するように設定されてもよい。
図7の例では、補正領域36に含まれる候補文字領域34c’の尤度に一定値を加算する場合を説明したが、補正領域に含まれる候補文字領域の尤度に1より大きい係数を乗算することにより候補文字領域の尤度を補正してもよい。
図7の例では、補正領域36の全体にわたって補正量が一定である場合を説明したが、補正量は、点35からの距離rが増大するにつれて小さくなるように設定されてもよい。点35から距離rの位置における補正量は、例えば、a・exp(-r/b)(a,bは正の定数)に従って設定されてもよい。
補正領域36が、補正しようとする候補文字領域の全体をカバーできない場合、候補文字領域の全体の尤度を補正するまで尤度の補正を繰り返してもよい。また、候補文字領域の尤度を1回補正しても尤度がしきい値Thに達しない場合、尤度がしきい値Thを超えるまで尤度の補正を繰り返してもよい。
次に、図9~図10を参照して、誤検出された文字領域が存在する場合における文字領域の修正について説明する。
図9は、図1の表示装置16に表示される画像の例であって、文字領域として誤検出した領域が存在する場合を示す図である。図9において、文字領域34eは、ケーブル21dの文字列に加えて、ケーブル21dの表面の模様を含んでいる。言いかえると、文字領域34eでは、ケーブル21dの模様が文字の候補として誤検出されている。
図10は、文字領域として誤検出した領域を削除する処理を説明するための図である。候補文字領域34eは、ケーブル21dの文字列に対応する領域34dと、ケーブル21dの模様に対応する領域34e’とを含んでいる。しかしながら、最初、候補文字領域34eの全体は、しきい値Thよりも高い尤度を有し、文字領域34eとして決定される。この場合、図9に示すように、文字領域34eは表示装置16に表示される。
ユーザは、領域34e’を文字領域から削除するために、表示装置16に表示された削除ボタン32を押下し、次いで、図10に示すように、領域34e’の内部又は近傍の点37を指定する。CPU11は、点37の近傍における補正領域38に含まれ、かつ、候補文字領域34eに含まれる領域34e’の尤度を減少させる。補正された領域34e’の尤度はしきい値Thより低いので、CPU11は、候補文字領域34eのうち領域34dのみを文字領域34dとして決定する。その後、CPU11は、文字領域34dを入力画像20に重畳して表示装置16に表示する。候補文字領域の尤度を補正することにより、図8に示すように、誤検出された文字領域を含むことなく、入力画像20に含まれるすべての文字列に対応する文字領域34a~34dを検出することができる。
補正領域38は、例えば、ユーザによって指定された点37を中心とする半径r2の円形領域であってもよい。補正領域38のサイズ(例えば半径r2の長さ)は、入力装置15のポインティングデバイスにより点37を指定する時間長が長くなるほど増大するように設定されてもよい。入力装置15のポインティングデバイスが圧力を検出可能である場合、補正領域38のサイズ(例えば半径r2の長さ)は、入力装置15のポインティングデバイスにより点37を指定する強さが大きくなるほど増大するように設定されてもよい。
いずれかの候補文字領域の尤度又はその一部の領域の尤度を減少させるために、領域の尤度から一定値を減算してもよく、又は、領域の尤度に対して1より小さい係数を乗算してもよい。
補正量は、補正領域38の全体にわたって一定であってもよい。それに代わって、補正量は、点37からの距離rが増大するにつれて小さくなるように設定されてもよい。点37から距離rの位置における補正量は、例えば、a・exp(-r/b)(a,bは正の定数)に従って設定されてもよい。
補正領域38が、補正しようとする候補文字領域の全体をカバーできない場合、候補文字領域の全体の尤度を補正するまで尤度の補正を繰り返してもよい。また、候補文字領域の尤度を1回補正しても尤度がしきい値Th未満にならない場合、尤度がしきい値Th未満になるまで尤度の補正を繰り返してもよい。
以上説明したように、実施形態に係る文字認識装置1によれば、候補文字領域の尤度を補正することにより、検出に失敗した文字領域を再検出することができ、従って、文字の認識を失敗しにくくすること、又は、認識に失敗した文字を再認識することができる。また、実施形態に係る文字認識装置1によれば、候補文字領域の尤度を補正することにより、誤検出された文字領域を削除することができ、従って、文字の誤認識を生じにくくすること、又は、誤認識した文字を削除することができる。
実施形態に係る文字認識装置1によれば、ユーザは、入力画像上の1点を指定する(タップ又はクリックする)だけで、文字領域を修正する(すなわち、検出に失敗した文字領域を再検出する、又は、誤検出された文字領域を削除する)ことができる。従来の文字認識により文字領域を修正する場合、ユーザは、矩形のバウンディングボックスで対象の文字領域を包囲する必要がある。バウンディングボックスは、例えば、右上及び左下(又は、左上及び右下)の頂点の位置を指定することにより、又は、4つの頂点の位置を任意に指定することにより生成される。しかしながら、前者は、バウンディングボックスの辺の向きが画像の辺の向きに一致するように制限され、後者は、バウンディングボックスの形状及び向きを任意に設定可能であるものの、操作に手間がかかる。また、いずれの生成方法でも、ユーザの操作が介在することに起因して、バウンディングボックスの位置及び寸法に誤差が生じる。これに対して、実施形態に係る文字認識装置1によれば、ユーザは、入力画像上の1点を指定するだけでよく、文字認識装置1は、指定された点の近傍の補正領域に含まれ、かつ、候補文字領域に含まれる領域の尤度を自動的に補正する。実施形態に係る文字認識装置1によれば、従来よりもユーザの操作が少なくなっているので、少ない誤差で安定的に文字領域を修正することができる。実施形態に係る文字認識装置1によれば、入力画像の辺に対する文字列の向き(平行、垂直、又は斜め)にかかわらず、同様の処理で文字領域を修正することができる。
実施形態に係る文字認識装置1によれば、ユーザが文字領域を容易に修正できるので、検出に失敗した文字領域をユーザが再検出することを見込んで、文字を含まない領域を文字領域として誤検出しにくいように、しきい値Thをある程度高めに設定してもよい。これにより、文字の誤認識を生じにくくすることができ、誤認識による無駄な演算を回避することができる。
文字認識装置1は、分電盤の端子に印字された文字列と、分電盤に接続されたケーブルに印字された文字列とを認識してもよい。この場合、文字認識装置1は、端子の文字列及びケーブルの文字列をマッチングしてもよい。これにより、1人の作業者が、文字認識装置1により分電盤を撮影するだけで、ケーブルが正しい端子に接続されているか否かを容易に判断することができる。
[第1の実施形態の効果等]
本開示の一態様に係る文字認識装置1によれば、入力画像を処理して入力画像に含まれる文字を認識する。文字認識装置1は、CPU11と、CPU11によって実行可能な命令を格納したメモリとを備える。CPU11は、命令を実行したとき、入力画像において、文字を含む尤度が0よりも高い少なくとも1つの候補文字領域を検出する。CPU11は、命令を実行したとき、候補文字領域のうち、予め決められたしきい値より高い尤度を有する候補文字領域を文字領域として決定する。CPU11は、命令を実行したとき、文字領域を入力画像に重畳して表示装置16に表示する。CPU11は、命令を実行したとき、入力装置15を介して、入力画像における第1の点を指定する第1のユーザ入力を取得する。CPU11は、命令を実行したとき、候補文字領域のうち、第1の点の近傍における第1の補正領域に含まれる候補文字領域の尤度を増大させる。CPU11は、命令を実行したとき、候補文字領域のうち、しきい値より高い尤度を有する候補文字領域を文字領域として再決定する。CPU11は、命令を実行したとき、文字領域を入力画像に重畳して表示装置16に再表示する。CPU11は、命令を実行したとき、文字領域に含まれる文字を認識する。
これにより、従来よりも少ない手間で、認識に失敗した文字を再認識することができる。
本開示の一態様に係る文字認識装置1によれば、入力装置15はポインティングデバイスを含んでもよい。CPU11は、命令を実行したとき、第1の補正領域のサイズを、ポインティングデバイスにより第1の点を指定する時間長又は強さに依存して増大させてもよい。
これにより、検出に失敗した任意のサイズの文字領域を容易に再検出することができる。
本開示の一態様に係る文字認識装置1によれば、CPU11は、命令を実行したとき、入力装置15を介して、入力画像における第2の点を指定する第2のユーザ入力を取得してもよい。この場合、CPU11は、命令を実行したとき、候補文字領域のうち、第2の点の近傍における第2の補正領域に含まれる候補文字領域の尤度を減少させる。
これにより、従来よりも少ない手間で、誤認識した文字を削除することができる。
本開示の一態様に係る文字認識装置1によれば、入力装置15はポインティングデバイスを含んでもよい。CPU11は、命令を実行したとき、第2の補正領域のサイズを、ポインティングデバイスにより第2の点を指定する時間長又は強さに依存して増大させてもよい。
これにより、誤検出した任意のサイズの文字領域を容易に削除することができる。
本開示の一態様に係る文字認識装置1によれば、入力画像を生成する撮影装置14をさらに備えてもよい。また、本開示の一態様に係る文字認識装置1によれば、入力装置15及び表示装置16をさらに備えてもよい。本開示の一態様に係る文字認識装置1によれば、入力装置15は、表示装置16に一体化されたタッチパネル装置であってもよい。
これにより、文字認識装置1は、例えば、タブレットコンピュータとして構成することができる。
本開示の一態様に係る文字認識方法によれば、入力画像を処理して入力画像に含まれる文字を認識する。本方法は、入力画像において、文字を含む尤度が0よりも高い少なくとも1つの候補文字領域を検出するステップを含む。本方法は、候補文字領域のうち、予め決められたしきい値より高い尤度を有する候補文字領域を文字領域として決定するステップを含む。本方法は、文字領域を入力画像に重畳して表示装置16に表示するステップを含む。本方法は、入力装置15を介して、入力画像における第1の点を指定する第1のユーザ入力を取得するステップを含む。本方法は、候補文字領域のうち、第1の点の近傍における第1の補正領域に含まれる候補文字領域の尤度を増大させるステップを含む。本方法は、候補文字領域のうち、しきい値より高い尤度を有する候補文字領域を文字領域として再決定するステップを含む。本方法は、文字領域を入力画像に重畳して表示装置16に再表示するステップを含む。本方法は、文字領域に含まれる文字を認識するステップを含む。
これにより、従来よりも少ない手間で、認識に失敗した文字を再認識することができる。
本開示の一態様に係るプログラムによれば、入力画像を処理して入力画像に含まれる文字を認識するための文字認識装置に実装されたCPU11によって実行される命令を含む。本命令は、CPU11に、入力画像において、文字を含む尤度が0よりも高い少なくとも1つの候補文字領域を検出するステップを実行させる。本命令は、CPU11に、候補文字領域のうち、予め決められたしきい値より高い尤度を有する候補文字領域を文字領域として決定するステップを実行させる。本命令は、CPU11に、文字領域を入力画像に重畳して表示装置16に表示するステップを実行させる。本命令は、CPU11に、入力装置15を介して、入力画像における第1の点を指定する第1のユーザ入力を取得するステップを実行させる。本命令は、CPU11に、候補文字領域のうち、第1の点の近傍における第1の補正領域に含まれる候補文字領域の尤度を増大させるステップを実行させる。本命令は、CPU11に、候補文字領域のうち、しきい値より高い尤度を有する候補文字領域を文字領域として再決定するステップを実行させる。本命令は、CPU11に、文字領域を入力画像に重畳して表示装置16に再表示するステップを実行させる。本命令は、CPU11に、文字領域に含まれる文字を認識するステップを実行させる。
これにより、従来よりも少ない手間で、認識に失敗した文字を再認識することができる。
[第2の実施形態]
第1の実施形態では、文字認識装置が、撮影装置、入力装置、及び表示装置を備える一体型のコンピュータとして構成される場合について説明したが、撮影装置、入力装置、及び表示装置は、文字認識装置とは別個に設けられてもよい。
図11は、第2の実施形態に係る文字認識システム40の構成を示すブロック図である。図11の文字認識システム40は、文字認識装置41、撮影装置42、入力装置43、及び表示装置44を含む。文字認識装置41は、例えばデスクトップコンピュータであり、図1のバス10、CPU11、メモリ12、及び記憶装置13と同様に構成されたバス50、CPU51、メモリ52、及び記憶装置53を備える。撮影装置42、入力装置43、及び表示装置44は、図1の撮影装置14、入力装置15、及び表示装置16と同様に構成される。
図11の文字認識システム40もまた、図1の文字認識装置1と同様に、候補文字領域の尤度を補正することにより、検出に失敗した文字領域を再検出することができ、また、誤検出された文字領域を削除することができる。
[他の実施形態]
以上のように、本出願において開示する技術の例示として、実施形態を説明した。しかしながら、本開示における技術は、これに限定されず、適宜、変更、置き換え、付加、省略などを行った実施形態にも適用可能である。また、上記実施形態で説明した各構成要素を組み合わせて、新たな実施形態とすることも可能である。
そこで、以下、他の実施形態を例示する。
図1の文字認識装置1及び図11の文字認識装置41は、通信回線を介して他の装置に接続され、認識した文字を他の装置に送信するように構成されてもよい。
説明した実施形態では、候補文字領域の尤度を補正する場合について説明したが、ユーザによって指定された点の近傍においてしきい値Thを局所的に変更してもよい。
説明した実施形態では、表示装置16に表示された文字認識ボタン33が押下されたときに文字領域に含まれる文字を認識する場合について説明したが、それに代わって、尤度が修正されずにタイムアウトしたときに文字を認識してもよい。また、文字認識ボタン33が押下されたか否かにかかわらず、常にリアルタイムで文字を認識してもよい。
したがって、添付図面および詳細な説明に記載された構成要素の中には、課題解決のために必須な構成要素だけでなく、上記技術を例示するために、課題解決のためには必須でない構成要素も含まれ得る。そのため、それらの必須ではない構成要素が添付図面や詳細な説明に記載されていることをもって、直ちに、それらの必須ではない構成要素が必須であるとの認定をするべきではない。
また、上述の実施形態は、本開示における技術を例示するためのものであるから、特許請求の範囲またはその均等の範囲において種々の変更、置き換え、付加、省略などを行うことができる。
本開示の一態様に係る文字認識装置、文字認識方法、及びプログラムは、コンピュータにより画像中の文字を自動的に認識しようとする場合、文字の認識を失敗しにくくすること、認識に失敗した文字を再認識すること、文字の誤認識を生じにくくすること、及び/又は誤認識した文字を削除することに適用可能である。
1 文字認識装置
10 バス
11 中央処理装置(CPU)
12 メモリ
13 記憶装置
14 撮影装置
15 入力装置
16 表示装置
20 入力画像
21a~21d ケーブル
31 追加ボタン
32 削除ボタン
33 文字認識ボタン
34a~34e 文字領域
35,37 ユーザによって指定された点
36,38 補正領域
40 文字認識システム
41 文字認識装置
42 撮影装置
43 入力装置
44 表示装置
50 バス
51 中央処理装置(CPU)
52 メモリ
53 記憶装置
54 入出力インターフェース(I/F)

Claims (9)

  1. 入力画像を処理して前記入力画像に含まれる文字を認識する文字認識装置であって、前記文字認識装置は、
    演算回路と、
    前記演算回路によって実行可能な命令を格納したメモリとを備え、
    前記演算回路は、前記命令を実行したとき、
    前記入力画像において、文字を含む尤度が0よりも高い少なくとも1つの候補文字領域を検出し、
    前記候補文字領域のうち、予め決められたしきい値より高い尤度を有する候補文字領域を文字領域として決定し、
    前記文字領域を前記入力画像に重畳して表示装置に表示し、
    入力装置を介して、前記入力画像における第1の点を指定する第1のユーザ入力を取得し、
    前記候補文字領域のうち、前記第1の点の近傍における第1の補正領域に含まれる候補文字領域の尤度を増大させ、
    前記候補文字領域のうち、前記しきい値より高い尤度を有する候補文字領域を前記文字領域として再決定し、
    前記文字領域を前記入力画像に重畳して表示装置に再表示し、
    前記文字領域に含まれる文字を認識する、
    文字認識装置。
  2. 前記入力装置はポインティングデバイスを含み、
    前記演算回路は、前記命令を実行したとき、前記第1の補正領域のサイズを、前記ポインティングデバイスにより前記第1の点を指定する時間長又は強さに依存して増大させる、
    請求項1記載の文字認識装置。
  3. 前記演算回路は、前記命令を実行したとき、
    前記入力装置を介して、前記入力画像における第2の点を指定する第2のユーザ入力を取得し、
    前記候補文字領域のうち、前記第2の点の近傍における第2の補正領域に含まれる候補文字領域の尤度を減少させる、
    請求項1又は2記載の文字認識装置。
  4. 前記入力装置はポインティングデバイスを含み、
    前記演算回路は、前記命令を実行したとき、前記第2の補正領域のサイズを、前記ポインティングデバイスにより前記第2の点を指定する時間長又は強さに依存して増大させる、
    請求項3記載の文字認識装置。
  5. 前記入力画像を生成する撮影装置をさらに備える、
    請求項1記載の文字認識装置。
  6. 前記入力装置及び前記表示装置をさらに備える、
    請求項1記載の文字認識装置。
  7. 前記入力装置は、前記表示装置に一体化されたタッチパネル装置である、
    請求項6記載の文字認識装置。
  8. 入力画像を処理して前記入力画像に含まれる文字を認識する文字認識方法であって、前記文字認識方法は、
    前記入力画像において、文字を含む尤度が0よりも高い少なくとも1つの候補文字領域を検出するステップと、
    前記候補文字領域のうち、予め決められたしきい値より高い尤度を有する候補文字領域を文字領域として決定するステップと、
    前記文字領域を前記入力画像に重畳して表示装置に表示するステップと、
    入力装置を介して、前記入力画像における第1の点を指定する第1のユーザ入力を取得するステップと、
    前記候補文字領域のうち、前記第1の点の近傍における第1の補正領域に含まれる候補文字領域の尤度を増大させるステップと、
    前記候補文字領域のうち、前記しきい値より高い尤度を有する候補文字領域を前記文字領域として再決定するステップと、
    前記文字領域を前記入力画像に重畳して表示装置に再表示するステップと、
    前記文字領域に含まれる文字を認識するステップとを含む、
    文字認識方法。
  9. 入力画像を処理して前記入力画像に含まれる文字を認識するための文字認識装置に実装された演算回路によって実行される命令を含むプログラムであって、前記命令は、前記演算回路に、
    前記入力画像において、文字を含む尤度が0よりも高い少なくとも1つの候補文字領域を検出するステップと、
    前記候補文字領域のうち、予め決められたしきい値より高い尤度を有する候補文字領域を文字領域として決定するステップと、
    前記文字領域を前記入力画像に重畳して表示装置に表示するステップと、
    入力装置を介して、前記入力画像における第1の点を指定する第1のユーザ入力を取得するステップと、
    前記候補文字領域のうち、前記第1の点の近傍における第1の補正領域に含まれる候補文字領域の尤度を増大させるステップと、
    前記候補文字領域のうち、前記しきい値より高い尤度を有する候補文字領域を前記文字領域として再決定するステップと、
    前記文字領域を前記入力画像に重畳して表示装置に再表示するステップと、
    前記文字領域に含まれる文字を認識するステップと
    を実行させる、
    プログラム。
JP2022066399A 2022-04-13 2022-04-13 文字認識装置、文字認識方法、及びプログラム Pending JP2023156815A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2022066399A JP2023156815A (ja) 2022-04-13 2022-04-13 文字認識装置、文字認識方法、及びプログラム
PCT/JP2022/040880 WO2023199542A1 (ja) 2022-04-13 2022-11-01 文字認識装置、文字認識方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022066399A JP2023156815A (ja) 2022-04-13 2022-04-13 文字認識装置、文字認識方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2023156815A true JP2023156815A (ja) 2023-10-25

Family

ID=88329538

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022066399A Pending JP2023156815A (ja) 2022-04-13 2022-04-13 文字認識装置、文字認識方法、及びプログラム

Country Status (2)

Country Link
JP (1) JP2023156815A (ja)
WO (1) WO2023199542A1 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5257061B2 (ja) * 2008-12-25 2013-08-07 日本電気株式会社 画像処理装置、方法、プログラム、および発送物区分装置
JP2021076882A (ja) * 2019-11-05 2021-05-20 キヤノン電子株式会社 画像読取処理システム
JP7043670B1 (ja) * 2021-09-17 2022-03-29 株式会社東芝 文字列抽出装置、文字列抽出方法、および文字列抽出プログラム

Also Published As

Publication number Publication date
WO2023199542A1 (ja) 2023-10-19

Similar Documents

Publication Publication Date Title
US8634659B2 (en) Image processing apparatus, computer readable medium storing program, and image processing method
US9898845B2 (en) Information processing apparatus, information processing method, and storage medium
US10586099B2 (en) Information processing apparatus for tracking processing
US10643095B2 (en) Information processing apparatus, program, and information processing method
US10684772B2 (en) Document viewing apparatus and program
US10057438B2 (en) Image forming apparatus and method of controlling image forming apparatus
JP3795238B2 (ja) 文書画像処理装置及び文書画像処理方法
WO2023199542A1 (ja) 文字認識装置、文字認識方法、及びプログラム
JP2007164513A (ja) 画像処理装置
JP5200786B2 (ja) 差分抽出装置及び差分抽出プログラム
JP7241506B2 (ja) 光学式文字認識結果の修正支援装置および修正支援用プログラム
US20230071008A1 (en) Computer-readable, non-transitory recording medium containing therein image processing program for generating learning data of character detection model, and image processing apparatus
JP6805552B2 (ja) 情報処理装置及びプログラム
JP6598080B2 (ja) 画像読取装置、画像読取方法、画像形成装置及び画像読取プログラム
JP5761353B2 (ja) 隆線方向抽出装置、隆線方向抽出方法、隆線方向抽出プログラム
CN113452920B (zh) 一种对焦点确定方法、装置、设备及介质
JP2020061081A (ja) 画像処理装置および画像処理方法
US20180054310A1 (en) Authenticating apparatus that executes user authentication by comparing entered password with set password
US9619737B2 (en) Display apparatus, display method, and computer readable recording medium stored with display program
JP4798018B2 (ja) 画像照合装置
JP2020052480A (ja) 情報処理装置及びプログラム
US11258925B2 (en) Information processing apparatus for displaying the correction of an image and non-transitory computer readable medium
JP2007184842A (ja) 画像処理装置、画像処理方法、及び、画像処理プログラム
JP7271889B2 (ja) 情報処理装置及びプログラム
JP2007328652A (ja) 画像処理装置および画像処理プログラム