JP6523988B2 - 文字認識装置、文字認識方法、およびプログラム - Google Patents
文字認識装置、文字認識方法、およびプログラム Download PDFInfo
- Publication number
- JP6523988B2 JP6523988B2 JP2016029068A JP2016029068A JP6523988B2 JP 6523988 B2 JP6523988 B2 JP 6523988B2 JP 2016029068 A JP2016029068 A JP 2016029068A JP 2016029068 A JP2016029068 A JP 2016029068A JP 6523988 B2 JP6523988 B2 JP 6523988B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- font
- recognition
- selection
- string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Character Discrimination (AREA)
Description
また、従来技術において、辞書と入力された文字との間の距離が所定の閾値を超えた回数をカウントし、そのカウント値に基づいて辞書を切り替える技術があった。しかし、そのカウント値に基づいて辞書を切り替える箇所が、フォント切り替えの場所には一致しない場合もあった。
また、従来技術においては、一文字単位で使用フォントの判断を行うなど、フォントを判定する処理が冗長となる可能性があった。
また、従来技術において、最も適合するフォントデータ(辞書)を判定し、その結果として選択されたフォントデータを用いて文字認識を行う技術があった。しかし、文章の途中でフォントが切り変わる場合には、選択された文章の全体において最適であるとは限らない可能性もあった。
図1は、本実施形態による文字認識装置の概略機能構成を示すブロック図である。同図に示すように、文字認識装置1は、画像入力部21と、画像処理部22と、文字抽出部23と、認識用データベース30と、文字認識部31と、フォント選択部33と、選択再考判断部35と、出力部41とを持つ。
文字抽出部23は、画像処理部22で処理した画像から、個々の文字の部分を抽出して、文字ごとに切り分ける。文字抽出部23が受け取る画像は文字列を含んでいるものであり、文字抽出部23は、その文字列に含まれている各文字の画像を切り出し、文字列内の文字の配列順にしたがって切り出した各文字の画像を保存する。なお、文字の抽出、切り出しの処理自体は、方法などは既存技術を用いて行うことができる。
なお、入力された画像データと辞書データとを比較することによってその画像データに含まれる文字を特定する(文字認識する)処理自体としては、既存の技術を用いることができる。
なお、フォント選択部33がフォントを選択する処理の詳細については、後述する。
入力文字画像は、文字抽出部23によって抽出された各文字の画像のデータである。この入力文字画像が、文字認識部31による認識処理の対象である。
採用されたフォントは、当該文字に対して、フォント選択部33が選択したフォントの種別を識別するデータを保持する。なお、フォント選択部33がフォントの選択の再設定を行った場合には、当該文字に対して、採用されたフォントのデータも書き換えられる。
認識結果は、認識された文字の種別を保持する。具体的には、認識結果として、文字コードが保持される。なお、例えばフォントの再選択の結果として認識処理を複数回行った場合には、この認識結果が書き換えられる場合もある。
なお、ステップS1からステップS2に移ってきた場合においても、フォント選択部33が、現在ポイントから後の数文字分の文字の画像に基づいて、フォントを識別し、選択するようにしてもよい。
なお、フォント選択部33がフォントを選択する処理の詳細については、後述する。
なお、選択再考判断部35が、形態素解析処理エンジンを備えるようにしてもよい。この場合、選択再考判断部35は、現在ポイントまでの文字の列(認識結果の文字の列)について、形態素解析処理を行う。そして、形態素解析処理の結果として、認識対象の文字列の中の形態素の区切りの位置を、単語の区切りの位置として扱う。なお、形態素と単語とをほぼ同一のものとみなしても、本実施形態では差し支えない。
なお、フォント変更位置を検出する処理については、後でもより詳細に説明する。
このように、選択再考判断部35は、文字認識部31によって算出された一連の文字に関するスコアと、知識とに基づいて、フォント変更位置を検出(推定)する。
ステップS10において、文字認識装置1は、現在ポイントを、次の文字に進める。
次にステップS11において、文字認識装置1は、文字認識処理の対象である入力文字画像がすべて終了したか否かを判定する。終了した場合(ステップS11:YES)、文字認識装置1は、このフローチャート全体の処理を終了する。終了していない場合、即ち、未処理の入力文字画像が残っている場合(ステップS11:NO)、次の文字を処理するために、ステップS3に戻る。
以上で、文字認識装置1の全体の処理手順の説明を終わる。
絶対総合スコアは、上記n個の文字のスコアだけによって定まる絶対的な値である。一例として、選択再考判断部35は、絶対総合スコアとして、これらn個のスコアの平均値を用いる。つまり、このとき、絶対総合スコアは、
(S−n+1+S−n+2+・・・+S0)/n
という式で計算される。
相対総合スコアは、上記n個の文字のスコアが、その直前の所定の長さの文字の列のスコアと比べてどの程度高いか或は低いかを表す相対的な値である。一例として、選択再考判断部35は、これらn個のスコアの平均値から、それらn個の文字の列の直前のN0個のスコアの平均値を減じた値を用いる。なお、N0は、適宜定められる整数値である。一例として、N0=Nmaxとしてよいが、その値には限定されない。つまり、このとき、相対総合スコアは、
{(S−n+1+S−n+2+・・・+S0)/n}−{(S−n−N0+1+S−n−N0+2+・・・+S−n)}/N0}
という式で計算される。
図示する例において、選択再考判断部35は、絶対総合スコアを次のように計算する。即ち、
(S−3+S−2+S−1+S0)/n
=(777+791+760+750)/4
=769.50
である。
また、図示する例において、選択再考判断部35は、相対総合スコアを次のように計算する。即ち、
{(S−3+S−2+S−1+S0)/n}−{(S−7+S−6+S−5+S−4)}/N0}
={(777+791+760+750)/4}−{(948+923+910+901)/4}
=−151.00
である。
絶対総合スコアについての基準値は、一例として、790点とする。
相対総合スコアについての基準値は、一例として、−100点とする。
なお、ここに例示した値以外を基準値として用いてもよい。
フォント選択部33は、所定の長さの文字画像の列に基づいて、それらの文字画像で使用されているフォント種別を識別するものである。フォント選択部33は、図3のステップS2でフォントを選択する処理を行う。
また、第1の実施形態では、選択再考判断部35が、単語の区切りのみがフォントの区切りになり得るというルール(知識)に基づいて、フォントが変更された位置を推定する。これにより、単語の途中でフォントが変更されたという判断を行うことなく、フォントが変更された位置を精度よく検出することができる。
そして、これらにより、文字認識の精度が向上する。
次に、第2の実施形態について説明する。なお、前述の実施形態と同様の事項については説明を省略する場合がある。以下では、本実施形態に特有の事項を中心に説明する。
図10は、本実施形態による文字認識装置の概略機能構成を示すブロック図である。同図に示すように、文字認識装置2は、画像入力部21と、画像処理部22と、文字抽出部23と、認識用データベース30と、文字認識部31と、フォント選択部33と、選択再考判断部36と、出力部41とを持つ。即ち、文字認識装置2は、第1の実施形態における選択再考判断部35に代えて、選択再考判断部36を持つ。
(ルール1)一対の括弧等で区切られた一連の文字の列は、特有のフォントで印字されている場合がある。
(ルール2)通貨記号で始まる一連の数字列(ただし、コンマ(comma)やピリオド(period)を含んでもよい)は、特有のフォントで印字されている場合がある。
上記のルール2における「通貨記号」とは、円を表す記号「¥」や、ドルを表す記号「$」や、その他の通貨を表す記号を含む。なお、通貨記号と、その通貨記号に後続する数字の列とを合わせて、便宜上「数字列」と呼ぶ。つまり、ルール2は、列内における数字列は、当該数字列の前の文字列および後の文字列とは、フォント種別が変更されるというルールである。
また、第2の実施形態では、選択再考判断部36が、数字列(数字のみの列や、数字とピリオドとコンマのみからなる列や、これらの列の先頭に通貨記号が存在するもの等)のフォントは、その前後の文字列と異なるフォントである(場合がある)というルールに基づいて、フォントが変更された位置を推定する。これにより、フォント変更点を推定する精度が向上する。
さらに第2の実施形態では、第1の実施形態で説明した、単語の区切りの位置のみがフォント変更点になり得るという知識を併用することもできる。これにより、フォント変更点を推定する精度が向上する。
Claims (6)
- フォント種別ごとの文字認識用の辞書データを保持する認識用データベースと、
文字画像の列を取得し、前記認識用データベース内の前記辞書データを参照しながら前記文字画像の認識処理を行うとともに、認識処理の際の前記辞書データと前記文字画像との間の合致度を表すスコアを出力する文字認識部と、
前記文字画像と前記認識用データベース内の前記フォント種別ごとの前記辞書データに基づいて前記文字画像のフォント種別を特定することによって、前記文字認識部が参照する前記辞書データのフォント種別を設定するフォント選択部と、
前記文字認識部が前記文字画像の列に含まれる前記文字画像の認識処理を順次行った際に、前記スコアが低下した前記列内の区間を検出するとともに、ルールベース内に記憶されているルールに基づいて当該区間または当該区間近傍におけるフォント変更点を推定し、前記フォント変更点以後について前記フォント選択部が前記フォント種別を再設定するよう制御する選択再考判断部と、
を備える文字認識装置。 - 前記選択再考判断部は、前記列内での単語の区切り位置のみにおいてフォント種別が変更されるという前記ルールに基づいて、前記フォント変更点を推定する、
請求項1に記載の文字認識装置。 - 前記選択再考判断部は、前記列内で一対の囲み記号に囲まれた文字列は、当該文字列の前の文字列および後の文字列とは、フォント種別が変更されるという前記ルールに基づいて、前記フォント変更点を推定する、
請求項1または2に記載の文字認識装置。 - 前記選択再考判断部は、前記列内における数字列は、当該数字列の前の文字列および後の文字列とは、フォント種別が変更されるという前記ルールに基づいて、前記フォント変更点を推定する、
請求項1から3までのいずれか一項に記載の文字認識装置。 - 文字画像の列を取得し、フォント種別ごとの文字認識用の辞書データを保持する認識用データベース内の前記辞書データを参照しながら前記文字画像の認識処理を行うとともに、認識処理の際の前記辞書データと前記文字画像との間の合致度を表すスコアを出力する文字認識過程と、
前記文字画像と前記認識用データベース内の前記フォント種別ごとの前記辞書データに基づいて前記文字画像のフォント種別を特定することによって、前記文字認識過程で参照する前記辞書データのフォント種別を設定するフォント選択過程と、
前記文字認識過程で前記文字画像の列に含まれる前記文字画像の認識処理を順次行った際に、前記スコアが低下した前記列内の区間を検出するとともに、ルールベース内に記憶されているルールに基づいて当該区間または当該区間近傍におけるフォント変更点を推定し、前記フォント変更点以後について前記フォント選択過程が前記フォント種別を再設定するよう制御する選択再考判断過程と、
を含む文字認識方法。 - コンピューターを
フォント種別ごとの文字認識用の辞書データを保持する認識用データベースと、
文字画像の列を取得し、前記認識用データベース内の前記辞書データを参照しながら前記文字画像の認識処理を行うとともに、認識処理の際の前記辞書データと前記文字画像との間の合致度を表すスコアを出力する文字認識部と、
前記文字画像と前記認識用データベース内の前記フォント種別ごとの前記辞書データに基づいて前記文字画像のフォント種別を特定することによって、前記文字認識部が参照する前記辞書データのフォント種別を設定するフォント選択部と、
前記文字認識部が前記文字画像の列に含まれる前記文字画像の認識処理を順次行った際に、前記スコアが低下した前記列内の区間を検出するとともに、ルールベース内に記憶されているルールに基づいて当該区間または当該区間近傍におけるフォント変更点を推定し、前記フォント変更点以後について前記フォント選択部が前記フォント種別を再設定するよう制御する選択再考判断部、
として機能させるためのプログラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2016029068A JP6523988B2 (ja) | 2016-02-18 | 2016-02-18 | 文字認識装置、文字認識方法、およびプログラム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2016029068A JP6523988B2 (ja) | 2016-02-18 | 2016-02-18 | 文字認識装置、文字認識方法、およびプログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2017146841A JP2017146841A (ja) | 2017-08-24 |
| JP6523988B2 true JP6523988B2 (ja) | 2019-06-05 |
Family
ID=59681516
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2016029068A Expired - Fee Related JP6523988B2 (ja) | 2016-02-18 | 2016-02-18 | 文字認識装置、文字認識方法、およびプログラム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP6523988B2 (ja) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2023002090A (ja) * | 2021-06-22 | 2023-01-10 | 株式会社Pfu | 情報処理システム、表示制御方法及びプログラム |
| JP7805211B2 (ja) * | 2022-03-16 | 2026-01-23 | キヤノン株式会社 | 情報処理装置、設定方法と検査システム及びプログラム |
Family Cites Families (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS63100586A (ja) * | 1986-10-16 | 1988-05-02 | Nec Home Electronics Ltd | パタ−ン認識方法 |
| JPH0233689A (ja) * | 1988-07-23 | 1990-02-02 | Seiko Epson Corp | 文字認識装置及び文字認識手段 |
| JPH07319879A (ja) * | 1994-05-30 | 1995-12-08 | Sharp Corp | 翻訳処理装置 |
| JPH10283355A (ja) * | 1997-04-02 | 1998-10-23 | Nippon Telegr & Teleph Corp <Ntt> | 企業名解析方法及び装置 |
| JP3349699B2 (ja) * | 2001-01-31 | 2002-11-25 | 株式会社アジャスト | 文書読取装置及び文書読取処理プログラム |
| JP3919617B2 (ja) * | 2002-07-09 | 2007-05-30 | キヤノン株式会社 | 文字認識装置および文字認識方法、プログラムおよび記憶媒体 |
-
2016
- 2016-02-18 JP JP2016029068A patent/JP6523988B2/ja not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2017146841A (ja) | 2017-08-24 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Bissacco et al. | Photoocr: Reading text in uncontrolled conditions | |
| CN100483450C (zh) | 地址识别设备和方法 | |
| JP3919617B2 (ja) | 文字認識装置および文字認識方法、プログラムおよび記憶媒体 | |
| US11170265B2 (en) | Image processing method and an image processing system | |
| US9836646B2 (en) | Method for identifying a character in a digital image | |
| US9286527B2 (en) | Segmentation of an input by cut point classification | |
| Clausner et al. | Icdar2019 competition on recognition of early indian printed documents–reid2019 | |
| US10534846B1 (en) | Page stream segmentation | |
| US11270143B2 (en) | Computer implemented method and system for optical character recognition | |
| CN111401099A (zh) | 文本识别方法、装置以及存储介质 | |
| RU2581786C1 (ru) | Определение преобразований изображения для повышения качества оптического распознавания символов | |
| US5524066A (en) | Text recognition by predictive composed shapes | |
| CN103310209A (zh) | 识别图像中的字符串的方法和装置 | |
| JP6523988B2 (ja) | 文字認識装置、文字認識方法、およびプログラム | |
| Naz et al. | Arabic script based character segmentation: a review | |
| Koga et al. | Segmentation of Japanese handwritten characters using peripheral feature analysis | |
| JP3187899B2 (ja) | 文字認識装置 | |
| JP2004046723A (ja) | 文字認識方法、該方法の実行に用いるプログラム及び文字認識装置 | |
| JP2022116983A (ja) | 画像処理装置、画像処理方法及びプログラム | |
| JPH07319880A (ja) | キーワード抽出・検索装置 | |
| US9047535B2 (en) | Image processing apparatus, image processing method, and computer readable medium | |
| JP2906758B2 (ja) | 文字読取装置 | |
| JPH10162103A (ja) | 文字認識装置 | |
| CN108564139B (zh) | 基于满文部件切分的印刷体满文识别装置 | |
| CN108537229B (zh) | 基于满文部件切分的印刷体满文识别方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180315 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190322 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190402 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190426 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6523988 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| LAPS | Cancellation because of no payment of annual fees |