JP2013097590A - 文字認識用コンピュータプログラム、文字認識装置及び文字認識方法 - Google Patents
文字認識用コンピュータプログラム、文字認識装置及び文字認識方法 Download PDFInfo
- Publication number
- JP2013097590A JP2013097590A JP2011240093A JP2011240093A JP2013097590A JP 2013097590 A JP2013097590 A JP 2013097590A JP 2011240093 A JP2011240093 A JP 2011240093A JP 2011240093 A JP2011240093 A JP 2011240093A JP 2013097590 A JP2013097590 A JP 2013097590A
- Authority
- JP
- Japan
- Prior art keywords
- character
- path
- word
- candidate
- paths
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Character Discrimination (AREA)
Abstract
【解決手段】文字認識用コンピュータプログラムは、文字列を撮影した画像上の文字区間を検出して文字区間に対応するパスの集合である候補文字ラティスを求め、パスごとに候補文字を少なくとも一つ求め、互いに排他的なパスが排他的でなくなるように修正した候補文字ラティスにおいて連続するパスに含まれる候補文字の組み合わせと少なくとも一部が一致する単語を検出してその単語の位置を表す単語パスを候補文字ラティスに追加し、検出された単語の評価値を求め、文字列全体に対応する一列に連続した単語パス及びパスの配列のうちで評価値の合計値が最も高い配列に含まれる単語と候補文字の組み合わせを画像上の文字列として推定することをコンピュータに実行させる。
【選択図】図2
Description
上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を制限するものではないことを理解されたい。
あるいは画像取得部11は、イーサネット(登録商標)などの通信規格に従った通信ネットワークに接続するための通信インターフェース及びその制御回路を有してもよい。
この場合には、画像取得部11は、画像入力装置または通信ネットワークに接続された他の機器から、文字列が写った画像を取得し、その画像を処理部15へ渡す。
出力部12は、画像に写った文字列を処理部15が認識することにより生成された、電子データ化された文字列を処理部15から受け取り、その電子データ化された文字列を他の機器へ出力する。なお、画像取得部11と出力部12とは、一体化されていてもよい。
なお、候補文字抽出部23は、画像上に写っている文字を認識する他の公知技術を用いて、パスごとの候補文字を求めてもよい。但しこの場合も、候補文字ごとに、そのパスに対応する文字区間に写っている可能性が高い方から順に順位が付されることが好ましい。
候補文字抽出部23は、パスごとに抽出された候補文字を表すコードを、その候補文字に対応する順位とともに、そのパスと関連付けて記憶部13に記憶する。
(1)互いに排他的でない複数のパス、すなわち、文字列全体に対応する一列に連続するパスの同一の配列に含まれることが可能なパスの組については、候補文字ラティス修正部24は、それら複数のパスの順序を維持し、かつ、排他的でない状態を保つ。
(2)互いに排他的な複数のパスについては、候補文字ラティス修正部24は、長い方のパスを短い方のパスと一致させるよう修正した上で統合する。ただし、統合することによって(1)の条件が満たされなくなる場合には、候補文字ラティス修正部24は、長い方のパスを、そのパスに対して排他的なパスに隣接するように修正する。
(3)候補文字ラティス修正部24は、長い方のパスに対して排他的な相対的に短いパスが複数存在する場合には、長い方のパスをその複数の相対的に短いパスの何れと統合してもよい。あるいは、候補文字ラティス修正部24は、長い方のパスを複製して、複数の相対的に短いパスのそれぞれと統合してもよい。
(4)候補文字ラティス修正部24は、複数のパスを統合する際、各パスに対応する文字区間及び候補文字を、統合されたパスに対応付ける。
また、この時点では、修正パス列Pに含まれる修正パスp[k]と未確定グループに属するパスとの位置関係は調べられていないので、各修正パスについての他の候補パス群は空集合となっている。
一方、未注目のパスが残っていなければ(ステップS111−No)、候補文字ラティス修正部24は、他の候補パス群{Qk}についての候補文字を全て修正パスp[k]の候補文字として追加する(ステップS112)。そして修正パス列Pが、修正候補文字ラティスとなる。この場合、他の候補パス群{Qk}が空集合でない修正パスp[k]は、その修正パスp[k]に対応する確定グループα内のパス及び他の候補パス群{Qk}に含まれるパスを置換するものとなる。
その後、候補文字ラティス修正部24は、候補文字ラティス修正処理を終了する。
例えば、候補文字ラティス500では、先頭から順にx1〜x7の7個の境界があるので、下記の表4のように、6個の修正パスを含むパス記憶領域が設定される。
例えば、x1=10、x2=25、x3=30、x4=40とする。この場合、パスA6は、修正パスM1[x1,x2]、M2[x2,x3]、M3[x3,x4]と重なっているが、このうち修正パスM1との重なり幅が最も大きい。そこで候補文字ラティス修正部24は、パスA6を修正パスM1に割り当てる。
表5は、全てのパスを何れかの修正パスに割り当てたときのパス記憶領域を表す。
その後、候補文字ラティス修正部24は、候補文字ラティス修正処理を終了する。
本実施形態では、単語検索部25は、単語辞書中に登録されている単語を検索するために、動的計画法(Dynamic Programming)によるマッチング手法(以下、DPマッチングと呼ぶ)を利用する。
図8に示した例では、矢印で示される経路820が最短経路となり、検索対象単語に対応する入力文字列として「運動☆会」が選択される。なお、☆マークは、挿入された文字を表し、ここでは、右から2番目のパスに対応する候補文字「カ」、「力」、「刀」の何れかである。
なお、文字の再現率及び文字の適合率は、例えば、次式で表される。
文字の再現率=(入力文字列と検索対象単語間で一致する文字数)
/検索対象単語に含まれる文字数
文字の適合率=(入力文字列と検索対象単語間で一致する文字数)
/入力文字列に含まれる文字数
また、所定の閾値は、例えば、0.6〜0.8の範囲内の何れかの値に設定される。
しかし、上記のように、単語検索部25は、個々の単語について、排他的なパスを含まない修正候補文字ラティスに対してあいまい検索を行うので、パスの組み合わせが複数存在する元の候補文字ラティスに対してあいまい検索を行うよりも大幅に演算量を削減できる。そのため、単語辞書に登録されている単語の数が増えるほど、演算量の削減効果も大きくなる。また単語検索部25は、文字の置換、挿入及び欠落の何れも許容して単語の検索を行うので、個々のパスに対する文字の誤認識が生じていたり、あるいは、検出された文字区間が誤っている場合でも、単語検索部25は、文字列に含まれる単語を正しく検索できる。
単語評価値={Σ(1-α(Mi-1))}n
ここで、Miは、単語検索部25により検出された単語における先頭からi番目の文字と一致すると判定された候補文字の順位を表す。ただし、i番目の文字と一致すると判定された候補文字が無かった場合には、Miは候補文字抽出部23が個々のパスについて抽出する候補文字の最大個数に1を加算した値に設定される。αは係数であり、Miの値が大きいほど(1-α(Mi-1))が0に近づくように、例えば、候補文字抽出部23が個々のパスについて抽出する候補文字の最大個数の逆数以下の正の値、例えば、0.1に設定される。したがって、単語パスに対応する単語に含まれる個々の文字と一致する候補文字の順位の合計が小さいほど、単語評価値は高くなる。またnは補正係数であり、例えば、1以上の値に設定される。特に、単語に含まれる文字数が増えるほど単語評価値も高くなるようにするためには、補正係数nは、1よりも大きい値に設定されることが好ましく、例えば、2に設定される。このように補正係数を設定することで、文字数が多い単語ほど、文字列に含まれる単語であると推定され易くなる。
図9の例では、パス31→パス21→パス34の順序に従って選択された配列の連結パス評価値が最大となるので、推定部26は、それらのパスに対応する単語及び候補文字を並べた文字列「運動会の始まり」を、画像上に写っている文字列として推定する。
文字区間検出部21は、画像上に写った文字列から、個々の文字のそれぞれごとに、その文字が写っていると推定される文字区間を検出する(ステップS301)。さらに文字区間検出部21は、1文字に対応する可能性の有る連続した2以上の文字区間を連結した区間も文字区間として検出する(ステップS302)。その後、候補文字ラティス生成部22は複数の文字区間のそれぞれごとに設定された、他の文字区間との相対的な位置関係を表すパスの集合である候補文字ラティスを生成する(ステップS303)。
また候補文字抽出部23は、パスごとに候補文字を抽出する(ステップS304)。
推定部26は、各パスについて求めた単語評価値の総和が最大となるパスの配列に相当する文字列を画像上に写っている文字列と推定する(ステップS308)。そして処理部15は、推定された文字列に含まれる各文字のコードを、推定された文字列の順序に従って並べることにより、画像上に写った文字列を電子データ化する。処理部15は、文字列を表す電子データを出力部12を介して他の機器へ出力する。あるいは、処理部15は、文字列を表す電子データを記憶部13に記憶する。その後、処理部15は、文字認識処理を終了する。なお、処理部15は、ステップS303とステップS304の処理の順序を入れ替えてもよい。
また、文字区間検出部は、投影値に対する閾値を変更して文字の区切りを検出することによって、複数の文字区間を検出してもよい。例えば、文字区間検出部は、先ず、上記の実施形態と同様の閾値を用いて文字の区切りを検出することで、複数の文字区間を検出する。その後、文字区間検出部は、閾値をより低い値、例えば、元の閾値を1.2〜1.5で割った値に修正した後、再度各水平位置の投影値と修正後の閾値を比較して、修正後の閾値以下の投影値を持つ水平位置を文字の区切りとして再検出する。そして文字区間検出部は、再検出された文字の区切りで挟まれた区間を文字区間とする。これにより、文字の構成要素同士が近接する文字についても、その文字全体を含む文字区間が検出され易くなる。
11 画像取得部
12 出力部
13 記憶部
14 記憶媒体アクセス装置
15 処理部
16 記憶媒体
21 文字区間検出部
22 候補文字ラティス生成部
23 候補文字抽出部
24 候補文字ラティス修正部
25 単語検索部
26 推定部
Claims (7)
- 媒体上に表された複数の文字を含む文字列を撮影した画像から、前記複数の文字のそれぞれごとに、当該文字が写っていると推定される前記画像上の文字区間を検出し、
複数の前記文字区間のそれぞれごとに設定された、他の文字区間との相対的な位置関係を表すパスの集合である候補文字ラティスを求め、
複数の前記パスのそれぞれについて、当該パスに対応する前記文字区間に写っている文字の候補である候補文字を少なくとも一つ求め、
前記候補文字ラティスに含まれる複数の前記パスのうち、第1のパスと、前記第1のパスと少なくとも一部が重なっている2以上の連続したパスのうちの第2のパスとを、当該第1のパスの候補文字及び当該第2のパスの候補文字を含み、かつ、当該第2のパスと同一の文字区間に対応する第3のパスで置換するか、あるいは前記第1のパスが前記2以上の連続したパスの間に挿入されるように前記候補文字ラティスを修正し、
単語辞書に登録された複数の単語のうち、前記修正された候補文字ラティスにおける連続する2以上のパスのそれぞれに含まれる候補文字の組み合わせと少なくとも一部が一致する単語を前記文字列に含まれる可能性のある単語として検出し、当該検出された単語の前記文字列中の位置を表す単語パスを前記候補文字ラティスに追加した候補文字及び単語ラティスを求め、
前記候補文字及び単語ラティスにおいて、前記単語パスごとに、当該単語パスに対応する単語が前記文字列に含まれる確からしさを表す評価値を求め、
前記候補文字及び単語ラティスに含まれる前記単語パス及び前記パスの中から選択した前記文字列全体に対応する一列に連続した前記単語パス及び前記パスの配列ごとに、前記評価値の合計値を求め、当該合計値が最も高い配列に含まれる前記単語パス及び前記パスの順序に従って整列された当該単語パス及び当該パスに対応する単語と候補文字の組み合わせを前記文字列として推定する、
ことをコンピュータに実行させる文字認識用コンピュータプログラム。 - 前記候補文字ラティスを修正することは、前記2以上の連続するパスのうち、前記第1のパスに対応する前記文字区間と重なる幅が最大となる文字区間に対応するパスを前記2のパスとする、請求項1に記載の文字認識用コンピュータプログラム。
- 前記文字区間を求めることは、連続する2以上の前記文字区間のうち、当該2以上の文字区間を連結することにより得られる修正区間の幅が一つの文字の幅に相当する場合に、当該修正区間を文字区間として追加することを含む、請求項1または2に記載の文字認識用コンピュータプログラム。
- 前記候補文字を求めることは、複数の前記パスの少なくとも一つについて複数の候補文字を求めるとともに、当該パスについて求められた複数の候補文字のそれぞれに対して、当該パスに対応する前記文字区間に写っている確からしさが高い方から順に順位を設定し、
前記評価値を求めることは、前記単語パスに対応する単語に含まれる文字と一致する前記候補文字の順位の合計が小さいほど前記評価値を高くする、請求項1〜3の何れか一項に記載の文字認識用コンピュータプログラム。 - 前記評価値を求めることは、前記単語パスに対応する単語に含まれる文字の数が多いほど前記評価値を高くする、請求項1〜4の何れか一項に記載の文字認識用コンピュータプログラム。
- 媒体上に表された複数の文字を含む文字列を撮影した画像を取得する画像取得部と、
複数の単語を登録した単語辞書を記憶する記憶部と、
前記画像から、前記複数の文字のそれぞれごとに、当該文字が写っていると推定される前記画像上の文字区間を検出する文字区間検出部と、
複数の前記文字区間のそれぞれごとに設定された、他の文字区間との相対的な位置関係を表すパスの集合である候補文字ラティスを求める候補文字ラティス生成部と、
複数の前記パスのそれぞれについて、当該パスに対応する前記文字区間に写っている文字の候補である候補文字を少なくとも一つ求める候補文字抽出部と、
前記候補文字ラティスに含まれる複数の前記パスのうち、第1のパスと、前記第1のパスと少なくとも一部が重なっている2以上の連続したパスのうちの第2のパスとを、当該第1のパスの候補文字及び当該第2のパスの候補文字を含み、かつ、当該第2のパスと同一の文字区間に対応する第3のパスで置換するか、あるいは前記第1のパスが前記2以上の連続したパスの間に挿入されるように前記候補文字ラティスを修正する候補文字ラティス修正部と、
単語辞書に登録された複数の単語のうち、前記修正された候補文字ラティスにおける連続する2以上のパスのそれぞれに含まれる候補文字の組み合わせと少なくとも一部が一致する単語を前記文字列に含まれる可能性のある単語として検出し、当該検出された単語の前記文字列中の位置を表す単語パスを前記候補文字ラティスに追加した候補文字及び単語ラティスを求める単語検索部と、
前記候補文字及び単語ラティスにおいて、前記単語パスごとに、当該単語パスに対応する単語が前記文字列に含まれる確からしさを表す評価値を求め、前記候補文字及び単語ラティスに含まれる前記単語パス及び前記パスの中から選択した前記文字列全体に対応する一列に連続した前記単語パス及び前記パスの配列ごとに前記評価値の合計値を求め、当該合計値が最も高い配列に含まれる前記単語パス及び前記パスの順序に従って整列された当該単語パス及び当該パスに対応する単語と候補文字の組み合わせを前記文字列として推定する推定部と、
を有する文字認識装置。 - 媒体上に表された複数の文字を含む文字列を撮影した画像を取得し、
前記画像から、前記複数の文字のそれぞれごとに、当該文字が写っていると推定される前記画像上の文字区間を検出し、
複数の前記文字区間のそれぞれごとに設定された、他の文字区間との相対的な位置関係を表すパスの集合である候補文字ラティスを求め、
複数の前記パスのそれぞれについて、当該パスに対応する前記文字区間に写っている文字の候補である候補文字を少なくとも一つ求め、
前記候補文字ラティスに含まれる複数の前記パスのうち、第1のパスと、前記第1のパスと少なくとも一部が重なっている2以上の連続したパスのうちの第2のパスとを、当該第1のパスの候補文字及び当該第2のパスの候補文字を含み、かつ、当該第2のパスと同一の文字区間に対応する第3のパスで置換するか、あるいは前記第1のパスが前記2以上の連続したパスの間に挿入されるように前記候補文字ラティスを修正し、
単語辞書に登録された複数の単語のうち、前記修正された候補文字ラティスにおける連続する2以上のパスのそれぞれに含まれる候補文字の組み合わせと少なくとも一部が一致する単語を前記文字列に含まれる可能性のある単語として検出し、当該検出された単語の前記文字列中の位置を表す単語パスを前記候補文字ラティスに追加した候補文字及び単語ラティスを求め、
前記候補文字及び単語ラティスにおいて、前記単語パスごとに、当該単語パスに対応する単語が前記文字列に含まれる確からしさを表す評価値を求め、
前記候補文字及び単語ラティスに含まれる前記単語パス及び前記パスの中から選択した前記文字列全体に対応する一列に連続した前記単語パス及び前記パスの配列ごとに前記評価値の合計値を求め、当該合計値が最も高い配列に含まれる前記単語パス及び前記パスの順序に従って整列された当該単語パス及び当該パスに対応する単語と候補文字の組み合わせを前記文字列として推定する、
ことを含む方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011240093A JP5729260B2 (ja) | 2011-11-01 | 2011-11-01 | 文字認識用コンピュータプログラム、文字認識装置及び文字認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011240093A JP5729260B2 (ja) | 2011-11-01 | 2011-11-01 | 文字認識用コンピュータプログラム、文字認識装置及び文字認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013097590A true JP2013097590A (ja) | 2013-05-20 |
JP5729260B2 JP5729260B2 (ja) | 2015-06-03 |
Family
ID=48619468
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011240093A Expired - Fee Related JP5729260B2 (ja) | 2011-11-01 | 2011-11-01 | 文字認識用コンピュータプログラム、文字認識装置及び文字認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5729260B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015032239A (ja) * | 2013-08-06 | 2015-02-16 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
CN110263781A (zh) * | 2018-03-12 | 2019-09-20 | 精工爱普生株式会社 | 图像处理装置、图像处理方法以及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08243504A (ja) * | 1995-03-14 | 1996-09-24 | Hitachi Ltd | 住所読取り方法 |
JPH10198761A (ja) * | 1997-01-09 | 1998-07-31 | Oki Electric Ind Co Ltd | 文字認識方法および文字認識装置 |
JPH11328316A (ja) * | 1998-05-18 | 1999-11-30 | Nec Corp | 文字認識装置、方法及び記憶媒体 |
JP2006202068A (ja) * | 2005-01-21 | 2006-08-03 | Hitachi Ltd | 単語認識装置および単語認識方法 |
-
2011
- 2011-11-01 JP JP2011240093A patent/JP5729260B2/ja not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08243504A (ja) * | 1995-03-14 | 1996-09-24 | Hitachi Ltd | 住所読取り方法 |
JPH10198761A (ja) * | 1997-01-09 | 1998-07-31 | Oki Electric Ind Co Ltd | 文字認識方法および文字認識装置 |
JPH11328316A (ja) * | 1998-05-18 | 1999-11-30 | Nec Corp | 文字認識装置、方法及び記憶媒体 |
JP2006202068A (ja) * | 2005-01-21 | 2006-08-03 | Hitachi Ltd | 単語認識装置および単語認識方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015032239A (ja) * | 2013-08-06 | 2015-02-16 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
CN110263781A (zh) * | 2018-03-12 | 2019-09-20 | 精工爱普生株式会社 | 图像处理装置、图像处理方法以及存储介质 |
CN110263781B (zh) * | 2018-03-12 | 2023-08-18 | 精工爱普生株式会社 | 图像处理装置、图像处理方法以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP5729260B2 (ja) | 2015-06-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Baró et al. | Traffic sign recognition using evolutionary adaboost detection and forest-ECOC classification | |
CN111325110A (zh) | 基于ocr的表格版式恢复方法、装置及存储介质 | |
US20160239716A1 (en) | Targeted optical character recognition (ocr) for medical terminology | |
CN111340020B (zh) | 一种公式识别方法、装置、设备及存储介质 | |
JP6003705B2 (ja) | 情報処理装置及び情報処理プログラム | |
US20120257834A1 (en) | Computer vision-based methods for enhanced jbig2 and generic bitonal compression | |
Xiong et al. | Text detection in stores using a repetition prior | |
Zang et al. | Multimodal icon annotation for mobile applications | |
Gajjar et al. | Intersection over Union based analysis of Image detection/segmentation using CNN model | |
CN107533652B (zh) | 识别装置、识别方法及记录介质 | |
JP5729260B2 (ja) | 文字認識用コンピュータプログラム、文字認識装置及び文字認識方法 | |
Lin et al. | Region-based context enhanced network for robust multiple face alignment | |
US20180189562A1 (en) | Character recognition apparatus, character recognition method, and computer program product | |
JP2001337993A (ja) | 文字認識結果を利用して情報を検索する検索装置および方法 | |
JP2015135576A (ja) | 帳票項目認識方法、帳票項目認識装置及び帳票項目認識プログラム | |
JP5857634B2 (ja) | 単語間空白検出装置、単語間空白検出方法及び単語間空白検出用コンピュータプログラム | |
CN112667771A (zh) | 答案序列的确定方法及装置 | |
JP5712415B2 (ja) | 帳票処理システム及び帳票処理方法 | |
Liu et al. | A deep neural network to detect keyboard regions and recognize isolated characters | |
JP3792759B2 (ja) | 文字認識方法とその装置 | |
JP2010020421A (ja) | 文字認識装置、文字認識方法、コンピュータプログラム、記憶媒体 | |
JPWO2017013719A1 (ja) | 文字認識装置、文字認識方法及び文字認識プログラム | |
US11443552B2 (en) | Image pattern similarity calculation device and recognition device | |
CN115641573B (zh) | 一种文本排序方法、装置、电子设备和存储介质 | |
CN116740721B (zh) | 手指查句方法、装置、电子设备及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140704 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150304 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150310 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150323 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5729260 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |