JP2023156815A

JP2023156815A - 文字認識装置、文字認識方法、及びプログラム

Info

Publication number: JP2023156815A
Application number: JP2022066399A
Authority: JP
Inventors: 陸松本; Riku Matsumoto; 昌満村瀬; Masamitsu Murase
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2022-04-13
Filing date: 2022-04-13
Publication date: 2023-10-25
Also published as: WO2023199542A1

Abstract

【課題】認識に失敗した文字を少ない手間で再認識する文字認識装置、文字認識方法及びプログラムを提供する。【解決手段】文字認識装置の演算回路は、入力画像において、文字を含む尤度が０よりも高い少なくとも１つの候補文字領域を検出しＳ２、候補文字領域のうち、予め決められたしきい値より高い尤度を有する候補文字領域を文字領域として決定しＳ３、文字領域を入力画像に重畳して表示装置に表示しＳ４、取得した入力画像における第１の点を指定する第１のユーザ入力を取得し、候補文字領域のうち、第１の点の近傍における第１の補正領域に含まれる候補文字領域の尤度を増大させるＳ６ことで、候補文字領域のうち、しきい値より高い尤度を有する候補文字領域を文字領域として再決定し、文字領域を入力画像に重畳して表示装置に再表示し、文字領域に含まれる文字を認識する。【選択図】図２

Description

本開示は、文字認識装置、文字認識方法、及びプログラムに関する。

コンピュータにより画像中の文字を自動的に認識しようとする場合、画像中の一部の文字の認識に失敗することがあり、また、文字ではない物体を文字として誤認識することがある。この場合、認識に失敗した文字を再認識するために、また、誤認識した文字を削除するために、コンピュータ又はユーザによる追加の処理が必要になる。

例えば、特許文献１は、情景画像として撮影される情景に実際には存在しているが隠されているために見えない文字（隠れた文字）が含まれている場合、隠れた文字を補完するかたちで認識結果のテキストを得ることができる文字認識装置を開示している。

特許第６３４２２９８号公報

認識に失敗した文字をユーザの手動処理により再認識する場合、ユーザが文字を含む領域を指定するために大きな手間がかかる。このため、従来よりも少ない手間で、認識に失敗した文字を再認識することが求められる。

本開示の目的は、従来よりも少ない手間で、認識に失敗した文字を再認識することができる文字認識装置、文字認識方法、及びプログラムを提供することにある。

本開示の一態様によれば、
入力画像を処理して前記入力画像に含まれる文字を認識する文字認識装置であって、前記文字認識装置は、
演算回路と、
前記演算回路によって実行可能な命令を格納したメモリとを備え、
前記演算回路は、前記命令を実行したとき、
前記入力画像において、文字を含む尤度が０よりも高い少なくとも１つの候補文字領域を検出し、
前記候補文字領域のうち、予め決められたしきい値より高い尤度を有する候補文字領域を文字領域として決定し、
前記文字領域を前記入力画像に重畳して表示装置に表示し、
入力装置を介して、前記入力画像における第１の点を指定する第１のユーザ入力を取得し、
前記候補文字領域のうち、前記第１の点の近傍における第１の補正領域に含まれる候補文字領域の尤度を増大させ、
前記候補文字領域のうち、前記しきい値より高い尤度を有する候補文字領域を前記文字領域として再決定し、
前記文字領域を前記入力画像に重畳して表示装置に再表示し、
前記文字領域に含まれる文字を認識する。

本開示の一態様に係る文字認識装置によれば、従来よりも少ない手間で、認識に失敗した文字を再認識することができる。

第１の実施形態に係る文字認識装置１の構成を示すブロック図である。図１のＣＰＵ１１によって実行される文字認識処理を示すフローチャートである。図１の撮影装置１４によって取得される入力画像２０の例を示す図である。図１の表示装置１６に表示される画像の例であって、検出に失敗した文字領域が存在する場合を示す図である。検出に失敗した文字領域を再検出する処理を説明するための図である。図５のＡ－Ａ’線に沿った候補文字領域の尤度を示す図である。図６の候補文字領域３４ｃ’の尤度を補正した状態を示す図である。図１の表示装置１６に表示される画像の例であって、検出に失敗した文字領域３４ｃを再検出した場合を示す図である。図１の表示装置１６に表示される画像の例であって、文字領域として誤検出した領域が存在する場合を示す図である。文字領域として誤検出した領域を削除する処理を説明するための図である。第２の実施形態に係る文字認識システム４０の構成を示すブロック図である。

以下、適宜図面を参照しながら、実施形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。

なお、発明者（ら）は、当業者が本開示を十分に理解するために添付図面および以下の説明を提供するのであって、これらによって特許請求の範囲に記載の主題を限定することを意図するものではない。

［第１の実施形態］
第１の実施形態に係る文字認識装置は、撮影装置、入力装置、及び表示装置を備える一体型のコンピュータ、例えばタブレットコンピュータとして構成される。

［第１の実施形態の構成］
図１は、第１の実施形態に係る文字認識装置１の構成を示すブロック図である。文字認識装置１は、バス１０、中央処理装置（ＣＰＵ）１１、メモリ１２、記憶装置１３、撮影装置１４、入力装置１５、及び表示装置１６を備える。ＣＰＵ１１は、文字認識装置１全体の動作を制御し、また、図２を参照して後述する文字認識処理を実行することで、撮影装置１４により取得された入力画像を処理して入力画像に含まれる文字を認識する。メモリ１２は、文字認識装置１の動作に必要なプログラム及びデータを一時的に記憶する。記憶装置１３は、文字認識装置１の動作に必要なプログラムを格納する不揮発性記憶媒体である。撮影装置１４は、対象物を撮影して入力画像を生成する。撮影装置１４は、例えば、ＲＧＢカメラである。入力装置１５は、文字認識装置１の動作を制御するユーザ入力を受ける。入力装置１５は、例えば、キーボード及び／又はポインティングデバイスを含む。表示装置１６は、入力画像及び認識された文字などを表示する。ＣＰＵ１１、メモリ１２、記憶装置１３、撮影装置１４、入力装置１５、及び表示装置１６は、バス１０を介して互いに接続される。

入力装置１５は、例えば、表示装置１６に一体化されたタッチパネル装置であってもよく、ユーザの指又はスタイラスによって操作されてもよい。

ＣＰＵ１１は、演算回路の一例である。また、メモリ１２及び記憶装置１３に格納されるプログラムは、ＣＰＵ１１によって実行可能な命令の一例である。

本開示の実施形態では、例えば、分電盤の端子に印字された文字列、及び／又は、分電盤に接続されたケーブルに印字された文字列を認識する場合について説明する。

［第１の実施形態の動作］
図２は、図１のＣＰＵ１１によって実行される文字認識処理を示すフローチャートである。

ステップＳ１において、ＣＰＵ１１は、撮影装置１４によって撮影された入力画像を取得する。

図３は、図１の撮影装置１４によって取得される入力画像２０の例を示す図である。本開示の実施形態では、入力画像２０がケーブル２１ａ～２１ｄを含み、各ケーブル２１ａ～２１ｄに印字された文字列を認識する場合について説明する。

ステップＳ２において、ＣＰＵ１１は、入力画像を分割した複数の部分画像のそれぞれに対して文字を含む尤度を計算し、尤度に基づいて少なくとも１つの候補文字領域を検出する。本明細書において、「候補文字領域」とは、文字を含む尤度が０よりも高い領域を示す。候補文字領域の尤度は、文字認識の技術分野で知られた任意の方法で計算されてもよい。

ステップＳ３において、ＣＰＵ１１は、各候補文字領域の尤度を予め決められたしきい値Ｔｈに対して比較し、しきい値Ｔｈよりも高い尤度を有する候補文字領域を文字領域として決定する。本明細書において、「文字領域」とは、所定の文字認識アルゴリズムを用いて文字を認識する対象となる領域を示す。

ステップＳ４において、ＣＰＵ１１は、文字領域を入力画像に重畳して表示装置１６に表示する。

図４は、図１の表示装置１６に表示される画像の例を示す図である。表示装置１６に表示される画像は、入力画像２０（図３を参照）を含み、さらに、入力画像２０に重畳された追加ボタン３１、削除ボタン３２、文字認識ボタン３３、及び文字領域３４ａ，３４ｂ，３４ｄを示すフレームを含む。追加ボタン３１は、検出に失敗した文字領域が存在する場合に、当該文字領域を再検出するために使用される。削除ボタン３２は、文字を含まないにもかかわらず文字を含むと誤検出された文字領域（すなわち、文字領域として誤検出された領域）が存在する場合に、当該文字領域を削除するために使用される。文字認識ボタン３３は、検出された文字領域に含まれる文字を認識するために使用される。文字領域３４ａ，３４ｂ，３４ｄは、ケーブル２１ａ，２１ｂ，２１ｄの文字列にそれぞれ対応する。ユーザは、入力装置１５を用いて、追加ボタン３１、削除ボタン３２、及び文字認識ボタン３３を押下することができ、また、入力画像２０における任意の点を指定することができる。図４の例は、ケーブル２１ｃの文字列を文字領域として検出することに失敗した場合を示す。

検出に失敗した文字領域が存在する場合、又は、誤検出された文字領域が存在する場合、文字領域を修正する必要がある。文字認識装置１のユーザは、表示装置１６に表示された画像を見て、必要に応じて、文字領域の修正を文字認識装置１に指示する。

ステップＳ５において、ＣＰＵ１１は、ユーザ入力に基づいて、文字領域の修正が指示されたか否かを判断し、ＹＥＳのときはステップＳ６に進み、ＮＯのときはステップＳ７に進む。図４を参照して説明すると、表示装置１６に表示された追加ボタン３１又は削除ボタン３２が押下され、かつ、入力画像２０におけるいずれかの点が指定されたとき、ＣＰＵ１１は、文字領域の修正が指示されたと判断し、処理はステップＳ６に進む。一方、表示装置１６に表示された文字認識ボタン３３が押下されたとき、処理はステップＳ７に進む。

ステップＳ６において、ＣＰＵ１１は、ユーザによって指定された点の近傍にあり、かつ、いずれかの候補文字領域（すなわち、０よりも高い尤度を有する領域）に含まれる領域の尤度を補正する。検出に失敗した文字領域が存在する場合、ＣＰＵ１１は、元の尤度に対して所定値を加算又は乗算することにより、領域の尤度を増大させる。誤検出された文字領域が存在する場合、ＣＰＵ１１は、元の尤度に対して所定値を減算又は乗算することにより、領域の尤度を減少させる。

ステップＳ３～Ｓ６は、入力画像に含まれるすべての文字領域が正しく検出されたとユーザが判断するまで繰り返される。

ステップＳ７において、ＣＰＵ１１は、文字認識の技術分野で知られた任意の文字認識アルゴリズムを用いて、文字領域に含まれる文字を認識する。認識された文字は、テキストデータとして表示装置１６に表示されてもよく、ＣＰＵ１１によって実行される他のアプリケーションプログラムによってさらに処理されてもよい。

ここで、図４～図８を参照して、検出に失敗した文字領域が存在する場合における文字領域の修正について説明する。

図４は、前述したように、図１の表示装置１６に表示される画像の例であって、検出に失敗した文字領域が存在する場合を示す図である。図４の例は、ケーブル２１ｃの文字列を文字領域として検出することに失敗した場合を示す。

図５は、検出に失敗した文字領域を再検出する処理を説明するための図である。図６は、図５のＡ－Ａ’線に沿った候補文字領域の尤度を示す図である。図７は、図６の候補文字領域３４ｃ’の尤度を補正した状態を示す図である。

図６を参照すると、ケーブル２１ａ，２１ｂ，２１ｄの文字列に対応する候補文字領域３４ａ，３４ｂ，３４ｄは、しきい値Ｔｈよりも高い尤度を有するので、そのまま文字領域３４ａ，３４ｂ，３４ｄとして決定される。一方、ケーブル２１ｃの文字列に対応する候補文字領域３４ｃ’は、しきい値Ｔｈよりも低い尤度を有するので、文字領域としては処理されない。この場合、図４に示すように、文字領域３４ａ，３４ｂ，３４ｄは表示装置１６に表示されるが、候補文字領域３４ｃ’は表示装置１６には表示されない。

ユーザは、候補文字領域３４ｃ’を文字領域として処理するために、表示装置１６に表示された追加ボタン３１を押下し、次いで、図５に示すように、候補文字領域３４ｃ’の内部又は近傍の点３５を指定する。ＣＰＵ１１は、図７に示すように、点３５の近傍における補正領域３６に含まれ、かつ、候補文字領域３４ｃ’に含まれる領域の尤度を増大させることで、補正された尤度を有する候補文字領域３４ｃを生成する。図７の例は、補正領域３６に含まれる候補文字領域３４ｃ’の尤度に一定値を加算する場合を示す。補正された候補文字領域３４ｃの尤度はしきい値Ｔｈより高いので、ＣＰＵ１１は、候補文字領域３４ｃを文字領域３４ｃとして決定する。その後、ＣＰＵ１１は、文字領域３４ｃを入力画像２０に重畳して表示装置１６に表示する。

図８は、図１の表示装置１６に表示される画像の例であって、検出に失敗した文字領域３４ｃを再検出した場合を示す図である。候補文字領域の尤度を補正することにより、図８に示すように、入力画像２０に含まれるすべての文字列に対応する文字領域３４ａ～３４ｄを検出することができる。その後、表示装置１６に表示された文字認識ボタン３３が押下されたとき、ＣＰＵ１１は、文字領域３４ａ～３４ｄに含まれる文字を認識する。

補正領域３６は、例えば、ユーザによって指定された点３５を中心とする半径ｒ１の円形領域であってもよい。補正領域３６のサイズ（例えば半径ｒ１の長さ）は、入力装置１５のポインティングデバイスにより点３５を指定する時間長が長くなるほど増大するように設定されてもよい。入力装置１５のポインティングデバイスが圧力を検出可能である場合、補正領域３６のサイズ（例えば半径ｒ１の長さ）は、入力装置１５のポインティングデバイスにより点３５を指定する強さが大きくなるほど増大するように設定されてもよい。

図７の例では、補正領域３６に含まれる候補文字領域３４ｃ’の尤度に一定値を加算する場合を説明したが、補正領域に含まれる候補文字領域の尤度に１より大きい係数を乗算することにより候補文字領域の尤度を補正してもよい。

図７の例では、補正領域３６の全体にわたって補正量が一定である場合を説明したが、補正量は、点３５からの距離ｒが増大するにつれて小さくなるように設定されてもよい。点３５から距離ｒの位置における補正量は、例えば、ａ・ｅｘｐ（－ｒ^２／ｂ）（ａ，ｂは正の定数）に従って設定されてもよい。

補正領域３６が、補正しようとする候補文字領域の全体をカバーできない場合、候補文字領域の全体の尤度を補正するまで尤度の補正を繰り返してもよい。また、候補文字領域の尤度を１回補正しても尤度がしきい値Ｔｈに達しない場合、尤度がしきい値Ｔｈを超えるまで尤度の補正を繰り返してもよい。

次に、図９～図１０を参照して、誤検出された文字領域が存在する場合における文字領域の修正について説明する。

図９は、図１の表示装置１６に表示される画像の例であって、文字領域として誤検出した領域が存在する場合を示す図である。図９において、文字領域３４ｅは、ケーブル２１ｄの文字列に加えて、ケーブル２１ｄの表面の模様を含んでいる。言いかえると、文字領域３４ｅでは、ケーブル２１ｄの模様が文字の候補として誤検出されている。

図１０は、文字領域として誤検出した領域を削除する処理を説明するための図である。候補文字領域３４ｅは、ケーブル２１ｄの文字列に対応する領域３４ｄと、ケーブル２１ｄの模様に対応する領域３４ｅ’とを含んでいる。しかしながら、最初、候補文字領域３４ｅの全体は、しきい値Ｔｈよりも高い尤度を有し、文字領域３４ｅとして決定される。この場合、図９に示すように、文字領域３４ｅは表示装置１６に表示される。

ユーザは、領域３４ｅ’を文字領域から削除するために、表示装置１６に表示された削除ボタン３２を押下し、次いで、図１０に示すように、領域３４ｅ’の内部又は近傍の点３７を指定する。ＣＰＵ１１は、点３７の近傍における補正領域３８に含まれ、かつ、候補文字領域３４ｅに含まれる領域３４ｅ’の尤度を減少させる。補正された領域３４ｅ’の尤度はしきい値Ｔｈより低いので、ＣＰＵ１１は、候補文字領域３４ｅのうち領域３４ｄのみを文字領域３４ｄとして決定する。その後、ＣＰＵ１１は、文字領域３４ｄを入力画像２０に重畳して表示装置１６に表示する。候補文字領域の尤度を補正することにより、図８に示すように、誤検出された文字領域を含むことなく、入力画像２０に含まれるすべての文字列に対応する文字領域３４ａ～３４ｄを検出することができる。

補正領域３８は、例えば、ユーザによって指定された点３７を中心とする半径ｒ２の円形領域であってもよい。補正領域３８のサイズ（例えば半径ｒ２の長さ）は、入力装置１５のポインティングデバイスにより点３７を指定する時間長が長くなるほど増大するように設定されてもよい。入力装置１５のポインティングデバイスが圧力を検出可能である場合、補正領域３８のサイズ（例えば半径ｒ２の長さ）は、入力装置１５のポインティングデバイスにより点３７を指定する強さが大きくなるほど増大するように設定されてもよい。

いずれかの候補文字領域の尤度又はその一部の領域の尤度を減少させるために、領域の尤度から一定値を減算してもよく、又は、領域の尤度に対して１より小さい係数を乗算してもよい。

補正量は、補正領域３８の全体にわたって一定であってもよい。それに代わって、補正量は、点３７からの距離ｒが増大するにつれて小さくなるように設定されてもよい。点３７から距離ｒの位置における補正量は、例えば、ａ・ｅｘｐ（－ｒ^２／ｂ）（ａ，ｂは正の定数）に従って設定されてもよい。

補正領域３８が、補正しようとする候補文字領域の全体をカバーできない場合、候補文字領域の全体の尤度を補正するまで尤度の補正を繰り返してもよい。また、候補文字領域の尤度を１回補正しても尤度がしきい値Ｔｈ未満にならない場合、尤度がしきい値Ｔｈ未満になるまで尤度の補正を繰り返してもよい。

以上説明したように、実施形態に係る文字認識装置１によれば、候補文字領域の尤度を補正することにより、検出に失敗した文字領域を再検出することができ、従って、文字の認識を失敗しにくくすること、又は、認識に失敗した文字を再認識することができる。また、実施形態に係る文字認識装置１によれば、候補文字領域の尤度を補正することにより、誤検出された文字領域を削除することができ、従って、文字の誤認識を生じにくくすること、又は、誤認識した文字を削除することができる。

実施形態に係る文字認識装置１によれば、ユーザは、入力画像上の１点を指定する（タップ又はクリックする）だけで、文字領域を修正する（すなわち、検出に失敗した文字領域を再検出する、又は、誤検出された文字領域を削除する）ことができる。従来の文字認識により文字領域を修正する場合、ユーザは、矩形のバウンディングボックスで対象の文字領域を包囲する必要がある。バウンディングボックスは、例えば、右上及び左下（又は、左上及び右下）の頂点の位置を指定することにより、又は、４つの頂点の位置を任意に指定することにより生成される。しかしながら、前者は、バウンディングボックスの辺の向きが画像の辺の向きに一致するように制限され、後者は、バウンディングボックスの形状及び向きを任意に設定可能であるものの、操作に手間がかかる。また、いずれの生成方法でも、ユーザの操作が介在することに起因して、バウンディングボックスの位置及び寸法に誤差が生じる。これに対して、実施形態に係る文字認識装置１によれば、ユーザは、入力画像上の１点を指定するだけでよく、文字認識装置１は、指定された点の近傍の補正領域に含まれ、かつ、候補文字領域に含まれる領域の尤度を自動的に補正する。実施形態に係る文字認識装置１によれば、従来よりもユーザの操作が少なくなっているので、少ない誤差で安定的に文字領域を修正することができる。実施形態に係る文字認識装置１によれば、入力画像の辺に対する文字列の向き（平行、垂直、又は斜め）にかかわらず、同様の処理で文字領域を修正することができる。

実施形態に係る文字認識装置１によれば、ユーザが文字領域を容易に修正できるので、検出に失敗した文字領域をユーザが再検出することを見込んで、文字を含まない領域を文字領域として誤検出しにくいように、しきい値Ｔｈをある程度高めに設定してもよい。これにより、文字の誤認識を生じにくくすることができ、誤認識による無駄な演算を回避することができる。

文字認識装置１は、分電盤の端子に印字された文字列と、分電盤に接続されたケーブルに印字された文字列とを認識してもよい。この場合、文字認識装置１は、端子の文字列及びケーブルの文字列をマッチングしてもよい。これにより、１人の作業者が、文字認識装置１により分電盤を撮影するだけで、ケーブルが正しい端子に接続されているか否かを容易に判断することができる。

［第１の実施形態の効果等］
本開示の一態様に係る文字認識装置１によれば、入力画像を処理して入力画像に含まれる文字を認識する。文字認識装置１は、ＣＰＵ１１と、ＣＰＵ１１によって実行可能な命令を格納したメモリとを備える。ＣＰＵ１１は、命令を実行したとき、入力画像において、文字を含む尤度が０よりも高い少なくとも１つの候補文字領域を検出する。ＣＰＵ１１は、命令を実行したとき、候補文字領域のうち、予め決められたしきい値より高い尤度を有する候補文字領域を文字領域として決定する。ＣＰＵ１１は、命令を実行したとき、文字領域を入力画像に重畳して表示装置１６に表示する。ＣＰＵ１１は、命令を実行したとき、入力装置１５を介して、入力画像における第１の点を指定する第１のユーザ入力を取得する。ＣＰＵ１１は、命令を実行したとき、候補文字領域のうち、第１の点の近傍における第１の補正領域に含まれる候補文字領域の尤度を増大させる。ＣＰＵ１１は、命令を実行したとき、候補文字領域のうち、しきい値より高い尤度を有する候補文字領域を文字領域として再決定する。ＣＰＵ１１は、命令を実行したとき、文字領域を入力画像に重畳して表示装置１６に再表示する。ＣＰＵ１１は、命令を実行したとき、文字領域に含まれる文字を認識する。

これにより、従来よりも少ない手間で、認識に失敗した文字を再認識することができる。

本開示の一態様に係る文字認識装置１によれば、入力装置１５はポインティングデバイスを含んでもよい。ＣＰＵ１１は、命令を実行したとき、第１の補正領域のサイズを、ポインティングデバイスにより第１の点を指定する時間長又は強さに依存して増大させてもよい。

これにより、検出に失敗した任意のサイズの文字領域を容易に再検出することができる。

本開示の一態様に係る文字認識装置１によれば、ＣＰＵ１１は、命令を実行したとき、入力装置１５を介して、入力画像における第２の点を指定する第２のユーザ入力を取得してもよい。この場合、ＣＰＵ１１は、命令を実行したとき、候補文字領域のうち、第２の点の近傍における第２の補正領域に含まれる候補文字領域の尤度を減少させる。

これにより、従来よりも少ない手間で、誤認識した文字を削除することができる。

本開示の一態様に係る文字認識装置１によれば、入力装置１５はポインティングデバイスを含んでもよい。ＣＰＵ１１は、命令を実行したとき、第２の補正領域のサイズを、ポインティングデバイスにより第２の点を指定する時間長又は強さに依存して増大させてもよい。

これにより、誤検出した任意のサイズの文字領域を容易に削除することができる。

本開示の一態様に係る文字認識装置１によれば、入力画像を生成する撮影装置１４をさらに備えてもよい。また、本開示の一態様に係る文字認識装置１によれば、入力装置１５及び表示装置１６をさらに備えてもよい。本開示の一態様に係る文字認識装置１によれば、入力装置１５は、表示装置１６に一体化されたタッチパネル装置であってもよい。

これにより、文字認識装置１は、例えば、タブレットコンピュータとして構成することができる。

本開示の一態様に係る文字認識方法によれば、入力画像を処理して入力画像に含まれる文字を認識する。本方法は、入力画像において、文字を含む尤度が０よりも高い少なくとも１つの候補文字領域を検出するステップを含む。本方法は、候補文字領域のうち、予め決められたしきい値より高い尤度を有する候補文字領域を文字領域として決定するステップを含む。本方法は、文字領域を入力画像に重畳して表示装置１６に表示するステップを含む。本方法は、入力装置１５を介して、入力画像における第１の点を指定する第１のユーザ入力を取得するステップを含む。本方法は、候補文字領域のうち、第１の点の近傍における第１の補正領域に含まれる候補文字領域の尤度を増大させるステップを含む。本方法は、候補文字領域のうち、しきい値より高い尤度を有する候補文字領域を文字領域として再決定するステップを含む。本方法は、文字領域を入力画像に重畳して表示装置１６に再表示するステップを含む。本方法は、文字領域に含まれる文字を認識するステップを含む。

本開示の一態様に係るプログラムによれば、入力画像を処理して入力画像に含まれる文字を認識するための文字認識装置に実装されたＣＰＵ１１によって実行される命令を含む。本命令は、ＣＰＵ１１に、入力画像において、文字を含む尤度が０よりも高い少なくとも１つの候補文字領域を検出するステップを実行させる。本命令は、ＣＰＵ１１に、候補文字領域のうち、予め決められたしきい値より高い尤度を有する候補文字領域を文字領域として決定するステップを実行させる。本命令は、ＣＰＵ１１に、文字領域を入力画像に重畳して表示装置１６に表示するステップを実行させる。本命令は、ＣＰＵ１１に、入力装置１５を介して、入力画像における第１の点を指定する第１のユーザ入力を取得するステップを実行させる。本命令は、ＣＰＵ１１に、候補文字領域のうち、第１の点の近傍における第１の補正領域に含まれる候補文字領域の尤度を増大させるステップを実行させる。本命令は、ＣＰＵ１１に、候補文字領域のうち、しきい値より高い尤度を有する候補文字領域を文字領域として再決定するステップを実行させる。本命令は、ＣＰＵ１１に、文字領域を入力画像に重畳して表示装置１６に再表示するステップを実行させる。本命令は、ＣＰＵ１１に、文字領域に含まれる文字を認識するステップを実行させる。

［第２の実施形態］
第１の実施形態では、文字認識装置が、撮影装置、入力装置、及び表示装置を備える一体型のコンピュータとして構成される場合について説明したが、撮影装置、入力装置、及び表示装置は、文字認識装置とは別個に設けられてもよい。

図１１は、第２の実施形態に係る文字認識システム４０の構成を示すブロック図である。図１１の文字認識システム４０は、文字認識装置４１、撮影装置４２、入力装置４３、及び表示装置４４を含む。文字認識装置４１は、例えばデスクトップコンピュータであり、図１のバス１０、ＣＰＵ１１、メモリ１２、及び記憶装置１３と同様に構成されたバス５０、ＣＰＵ５１、メモリ５２、及び記憶装置５３を備える。撮影装置４２、入力装置４３、及び表示装置４４は、図１の撮影装置１４、入力装置１５、及び表示装置１６と同様に構成される。

図１１の文字認識システム４０もまた、図１の文字認識装置１と同様に、候補文字領域の尤度を補正することにより、検出に失敗した文字領域を再検出することができ、また、誤検出された文字領域を削除することができる。

［他の実施形態］
以上のように、本出願において開示する技術の例示として、実施形態を説明した。しかしながら、本開示における技術は、これに限定されず、適宜、変更、置き換え、付加、省略などを行った実施形態にも適用可能である。また、上記実施形態で説明した各構成要素を組み合わせて、新たな実施形態とすることも可能である。

そこで、以下、他の実施形態を例示する。

図１の文字認識装置１及び図１１の文字認識装置４１は、通信回線を介して他の装置に接続され、認識した文字を他の装置に送信するように構成されてもよい。

説明した実施形態では、候補文字領域の尤度を補正する場合について説明したが、ユーザによって指定された点の近傍においてしきい値Ｔｈを局所的に変更してもよい。

説明した実施形態では、表示装置１６に表示された文字認識ボタン３３が押下されたときに文字領域に含まれる文字を認識する場合について説明したが、それに代わって、尤度が修正されずにタイムアウトしたときに文字を認識してもよい。また、文字認識ボタン３３が押下されたか否かにかかわらず、常にリアルタイムで文字を認識してもよい。

したがって、添付図面および詳細な説明に記載された構成要素の中には、課題解決のために必須な構成要素だけでなく、上記技術を例示するために、課題解決のためには必須でない構成要素も含まれ得る。そのため、それらの必須ではない構成要素が添付図面や詳細な説明に記載されていることをもって、直ちに、それらの必須ではない構成要素が必須であるとの認定をするべきではない。

また、上述の実施形態は、本開示における技術を例示するためのものであるから、特許請求の範囲またはその均等の範囲において種々の変更、置き換え、付加、省略などを行うことができる。

本開示の一態様に係る文字認識装置、文字認識方法、及びプログラムは、コンピュータにより画像中の文字を自動的に認識しようとする場合、文字の認識を失敗しにくくすること、認識に失敗した文字を再認識すること、文字の誤認識を生じにくくすること、及び／又は誤認識した文字を削除することに適用可能である。

１文字認識装置
１０バス
１１中央処理装置（ＣＰＵ）
１２メモリ
１３記憶装置
１４撮影装置
１５入力装置
１６表示装置
２０入力画像
２１ａ～２１ｄケーブル
３１追加ボタン
３２削除ボタン
３３文字認識ボタン
３４ａ～３４ｅ文字領域
３５，３７ユーザによって指定された点
３６，３８補正領域
４０文字認識システム
４１文字認識装置
４２撮影装置
４３入力装置
４４表示装置
５０バス
５１中央処理装置（ＣＰＵ）
５２メモリ
５３記憶装置
５４入出力インターフェース（Ｉ／Ｆ）

Claims

入力画像を処理して前記入力画像に含まれる文字を認識する文字認識装置であって、前記文字認識装置は、
演算回路と、
前記演算回路によって実行可能な命令を格納したメモリとを備え、
前記演算回路は、前記命令を実行したとき、
前記入力画像において、文字を含む尤度が０よりも高い少なくとも１つの候補文字領域を検出し、
前記候補文字領域のうち、予め決められたしきい値より高い尤度を有する候補文字領域を文字領域として決定し、
前記文字領域を前記入力画像に重畳して表示装置に表示し、
入力装置を介して、前記入力画像における第１の点を指定する第１のユーザ入力を取得し、
前記候補文字領域のうち、前記第１の点の近傍における第１の補正領域に含まれる候補文字領域の尤度を増大させ、
前記候補文字領域のうち、前記しきい値より高い尤度を有する候補文字領域を前記文字領域として再決定し、
前記文字領域を前記入力画像に重畳して表示装置に再表示し、
前記文字領域に含まれる文字を認識する、
文字認識装置。
前記入力装置はポインティングデバイスを含み、
前記演算回路は、前記命令を実行したとき、前記第１の補正領域のサイズを、前記ポインティングデバイスにより前記第１の点を指定する時間長又は強さに依存して増大させる、
請求項１記載の文字認識装置。
前記演算回路は、前記命令を実行したとき、
前記入力装置を介して、前記入力画像における第２の点を指定する第２のユーザ入力を取得し、
前記候補文字領域のうち、前記第２の点の近傍における第２の補正領域に含まれる候補文字領域の尤度を減少させる、
請求項１又は２記載の文字認識装置。
前記入力装置はポインティングデバイスを含み、
前記演算回路は、前記命令を実行したとき、前記第２の補正領域のサイズを、前記ポインティングデバイスにより前記第２の点を指定する時間長又は強さに依存して増大させる、
請求項３記載の文字認識装置。
前記入力画像を生成する撮影装置をさらに備える、
請求項１記載の文字認識装置。
前記入力装置及び前記表示装置をさらに備える、
請求項１記載の文字認識装置。
前記入力装置は、前記表示装置に一体化されたタッチパネル装置である、
請求項６記載の文字認識装置。
入力画像を処理して前記入力画像に含まれる文字を認識する文字認識方法であって、前記文字認識方法は、
前記入力画像において、文字を含む尤度が０よりも高い少なくとも１つの候補文字領域を検出するステップと、
前記候補文字領域のうち、予め決められたしきい値より高い尤度を有する候補文字領域を文字領域として決定するステップと、
前記文字領域を前記入力画像に重畳して表示装置に表示するステップと、
入力装置を介して、前記入力画像における第１の点を指定する第１のユーザ入力を取得するステップと、
前記候補文字領域のうち、前記第１の点の近傍における第１の補正領域に含まれる候補文字領域の尤度を増大させるステップと、
前記候補文字領域のうち、前記しきい値より高い尤度を有する候補文字領域を前記文字領域として再決定するステップと、
前記文字領域を前記入力画像に重畳して表示装置に再表示するステップと、
前記文字領域に含まれる文字を認識するステップとを含む、
文字認識方法。
入力画像を処理して前記入力画像に含まれる文字を認識するための文字認識装置に実装された演算回路によって実行される命令を含むプログラムであって、前記命令は、前記演算回路に、
前記入力画像において、文字を含む尤度が０よりも高い少なくとも１つの候補文字領域を検出するステップと、
前記候補文字領域のうち、予め決められたしきい値より高い尤度を有する候補文字領域を文字領域として決定するステップと、
前記文字領域を前記入力画像に重畳して表示装置に表示するステップと、
入力装置を介して、前記入力画像における第１の点を指定する第１のユーザ入力を取得するステップと、
前記候補文字領域のうち、前記第１の点の近傍における第１の補正領域に含まれる候補文字領域の尤度を増大させるステップと、
前記候補文字領域のうち、前記しきい値より高い尤度を有する候補文字領域を前記文字領域として再決定するステップと、
前記文字領域を前記入力画像に重畳して表示装置に再表示するステップと、
前記文字領域に含まれる文字を認識するステップと
を実行させる、
プログラム。