JP2010055142A - 文書処理装置およびプログラム - Google Patents
文書処理装置およびプログラム Download PDFInfo
- Publication number
- JP2010055142A JP2010055142A JP2008216184A JP2008216184A JP2010055142A JP 2010055142 A JP2010055142 A JP 2010055142A JP 2008216184 A JP2008216184 A JP 2008216184A JP 2008216184 A JP2008216184 A JP 2008216184A JP 2010055142 A JP2010055142 A JP 2010055142A
- Authority
- JP
- Japan
- Prior art keywords
- character
- image
- character image
- category
- average
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/98—Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
Landscapes
- Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Discrimination (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】文字画像切り出し部12が、画像入力装置101から入力された文書画像から、文字画像を切り出し、文字画像分類部13が、切り出した文字画像を分類する。平均文字画像特徴取得部15が、カテゴリごとに、分類した文字画像を平均化した画像特徴を生成し、文字認識部16が、この平均化した画像特徴に対して文字認識を行う。カテゴリに含まれる文字画像に一律に認識文字コードを割り当てて文書の文字認識結果を生成する。
【選択図】図2
Description
11 ページ画像記憶部
12 文字画像切り出し部
13 文字画像分類部
13a カテゴリ記憶部
14 文字画像記憶部
15 平均文字画像特徴取得部
16 文字認識部
17 対応付け部
18 対応記憶部
19 認識結果出力部
20 形態素解析部
21 単語辞書
22 認識結果修正部
100 画像処理装置
101 画像入力装置
102 演算装置
103 記憶装置
104 情報出力装置
105 情報表示装置
106 ポインティングデバイス
Claims (10)
- 入力した文書画像から文字画像を切り出す文字切出手段と、
上記文字画像をカテゴリに分類する文字画像分類手段と、
分類した文字画像のカテゴリ毎に平均的な文字画像特徴を求める平均文字画像特徴取得手段と、
上記文字画像のカテゴリ毎に、上記平均的な文字画像特徴に対して文字認識を行う文字認識手段と、
上記文字画像に対する文字識別情報として、当該文字画像が分類されるカテゴリの上記平均的な文字画像の上記文字認識手段による文字認識結果を出力する出力手段とを有する
文書処理装置。 - 上記文字画像に対して割り当てられる文字識別情報を修正する修正手段をさらに有する請求項1記載の文書処理装置。
- 上記修正手段は、単語辞書を有し、上記出力手段から一連の文字画像の一連の文字識別情報に対して形態素解析を行い、照合する形態素がない場合には、該当する文字画像を上記文字画像が属するカテゴリから削除し、新しくカテゴリを生成する請求項2記載の文書処理装置。
- 上記修正手段は、1つの文字画像に対して割り当てられ文字識別情報を修正した場合に、上記1つの文字画像が属するカテゴリに含まれるすべての文字画像に対して、当該修正を反映する請求項2または3記載の画像処理装置。
- 上記文字画像のカテゴリを、当該文字画像のカテゴリの上記平均的な画像に対する上記文字認識手段の認識結果と対応させる対応付け手段をさらに有し、上記出力手段は、上記文字画像に対して割り当てられる文字識別情報として、当該文字画像が分類されるカテゴリが上記対応付け手段により対応付けられる上記文字認識結果を出力し、上記修正手段は、1つの文字画像に対して割り当てられ文字識別情報を修正した場合に、上記対応付け手段による対応づけを修正して、上記1つの文字画像が属するカテゴリに含まれるすべての文字画像に対して、当該修正を反映する請求項4記載の画像処理装置。
- 自動原稿送り機構を搭載した文書画像入力手段と、切り出した各文字画像が自動原稿送り機構に載置した文書の何枚目の文書から切り出したかの情報と、文字画像の座標と、切り出した文字画像そのものと、切り出した文字画像が分類されるカテゴリの情報を記憶する文字画像管理手段
をさらに有する請求項1〜5のいずれかに記載の文書処理装置。 - 上記平均文字画像特徴取得手段は、同じカテゴリに属するすべての文字画像の画素値を画素位置ごとに平均化し、各画素位置の画素値の平均値を用いて平均的な文字画像特徴を取得する請求項1〜6のいずれかに記載の文書処理装置。
- 上記平均文字画像特徴取得手段は、同じカテゴリに属するすべての文字画像から特定の特徴量を求め、上記特徴量の平均値から上記平均的な文字画像特徴を取得する請求項1〜6のいずれかに記載の文書処理装置。
- 上記カテゴリの各々について、上記文字認識手段による認識結果の文字識別情報を記憶する文字認識結果記憶手段をさらに有する請求項1〜8のいずれかに記載の文書処理装置。
- コンピュータを、
入力した文書画像から文字画像を切り出す文字切出手段、
上記文字画像をカテゴリに分類する文字画像分類手段、
分類した文字画像のカテゴリ毎に平均的な文字画像特徴を求める平均文字画像特徴取得手段、
上記文字画像のカテゴリ毎に、上記平均的な文字画像特徴に対して文字認識を行う文字認識手段、
上記文字画像に対する文字識別情報として、当該文字画像が分類されるカテゴリの上記平均的な文字画像の上記文字認識手段による文字認識結果を出力する出力手段
として機能させるためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008216184A JP4661921B2 (ja) | 2008-08-26 | 2008-08-26 | 文書処理装置およびプログラム |
US12/372,500 US8280175B2 (en) | 2008-08-26 | 2009-02-17 | Document processing apparatus, document processing method, and computer readable medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008216184A JP4661921B2 (ja) | 2008-08-26 | 2008-08-26 | 文書処理装置およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010055142A true JP2010055142A (ja) | 2010-03-11 |
JP4661921B2 JP4661921B2 (ja) | 2011-03-30 |
Family
ID=41725548
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008216184A Expired - Fee Related JP4661921B2 (ja) | 2008-08-26 | 2008-08-26 | 文書処理装置およびプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US8280175B2 (ja) |
JP (1) | JP4661921B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017084336A (ja) * | 2015-10-29 | 2017-05-18 | ザ ニールセン カンパニー (ユー エス) エルエルシー | 画像化された文書からテキストを抽出する方法及び装置 |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120113146A1 (en) * | 2010-11-10 | 2012-05-10 | Patrick Michael Virtue | Methods, apparatus and articles of manufacture to combine segmentations of medical diagnostic images |
US8818092B1 (en) * | 2011-09-29 | 2014-08-26 | Google, Inc. | Multi-threaded text rendering |
US8666123B2 (en) * | 2012-04-26 | 2014-03-04 | Google Inc. | Creating social network groups |
JP6525523B2 (ja) * | 2013-07-31 | 2019-06-05 | キヤノン株式会社 | 情報処理装置、制御方法およびプログラム |
CN104809109B (zh) * | 2014-01-23 | 2019-12-10 | 腾讯科技(深圳)有限公司 | 一种社交信息展示方法、装置及服务器 |
JP6472184B2 (ja) * | 2014-07-29 | 2019-02-20 | キヤノン株式会社 | オブジェクト識別装置、オブジェクト識別方法及びプログラム |
CN105184289B (zh) * | 2015-10-10 | 2019-06-28 | 北京百度网讯科技有限公司 | 字符识别方法和装置 |
CN109034158B (zh) * | 2017-06-09 | 2021-03-26 | 杭州海康威视数字技术股份有限公司 | 一种车牌识别方法、装置及计算机设备 |
CN109685100B (zh) * | 2018-11-12 | 2024-05-10 | 平安科技(深圳)有限公司 | 字符识别方法、服务器及计算机可读存储介质 |
CN111127339B (zh) * | 2019-12-04 | 2020-10-30 | 北京华宇信息技术有限公司 | 一种文档图像的梯形畸变矫正方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06119484A (ja) * | 1992-10-05 | 1994-04-28 | Matsushita Electric Ind Co Ltd | 文字認識装置 |
JPH06259595A (ja) * | 1993-03-10 | 1994-09-16 | Oki Electric Ind Co Ltd | 文字認識処理装置及び認識処理方法 |
JPH08305804A (ja) * | 1995-04-28 | 1996-11-22 | Matsushita Electric Ind Co Ltd | 文字認識用辞書作成装置及び文字認識装置 |
JPH09185674A (ja) * | 1995-12-28 | 1997-07-15 | Omron Corp | 誤認識文字検出装置、誤認識文字訂正装置、誤認識文字検出方法、および、誤認識文字訂正方法 |
JP2003099709A (ja) * | 2001-09-25 | 2003-04-04 | Toshiba Corp | 誤読文字修正方法及び光学的文字認識装置 |
JP2007179307A (ja) * | 2005-12-28 | 2007-07-12 | Hitachi Computer Peripherals Co Ltd | 帳票識別装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2281997B (en) * | 1993-09-20 | 1997-10-15 | Ricoh Kk | Method and apparatus for improving a text image by using character regeneration |
JPH11213087A (ja) | 1998-01-23 | 1999-08-06 | Ricoh Co Ltd | 文字認識装置 |
JP4172584B2 (ja) * | 2004-04-19 | 2008-10-29 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 文字認識結果出力装置、文字認識装置、その方法及びプログラム |
US7519221B1 (en) * | 2005-02-28 | 2009-04-14 | Adobe Systems Incorporated | Reconstructing high-fidelity electronic documents from images via generation of synthetic fonts |
US7650035B2 (en) * | 2006-09-11 | 2010-01-19 | Google Inc. | Optical character recognition based on shape clustering and multiple optical character recognition processes |
-
2008
- 2008-08-26 JP JP2008216184A patent/JP4661921B2/ja not_active Expired - Fee Related
-
2009
- 2009-02-17 US US12/372,500 patent/US8280175B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06119484A (ja) * | 1992-10-05 | 1994-04-28 | Matsushita Electric Ind Co Ltd | 文字認識装置 |
JPH06259595A (ja) * | 1993-03-10 | 1994-09-16 | Oki Electric Ind Co Ltd | 文字認識処理装置及び認識処理方法 |
JPH08305804A (ja) * | 1995-04-28 | 1996-11-22 | Matsushita Electric Ind Co Ltd | 文字認識用辞書作成装置及び文字認識装置 |
JPH09185674A (ja) * | 1995-12-28 | 1997-07-15 | Omron Corp | 誤認識文字検出装置、誤認識文字訂正装置、誤認識文字検出方法、および、誤認識文字訂正方法 |
JP2003099709A (ja) * | 2001-09-25 | 2003-04-04 | Toshiba Corp | 誤読文字修正方法及び光学的文字認識装置 |
JP2007179307A (ja) * | 2005-12-28 | 2007-07-12 | Hitachi Computer Peripherals Co Ltd | 帳票識別装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017084336A (ja) * | 2015-10-29 | 2017-05-18 | ザ ニールセン カンパニー (ユー エス) エルエルシー | 画像化された文書からテキストを抽出する方法及び装置 |
Also Published As
Publication number | Publication date |
---|---|
US20100054599A1 (en) | 2010-03-04 |
US8280175B2 (en) | 2012-10-02 |
JP4661921B2 (ja) | 2011-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4661921B2 (ja) | 文書処理装置およびプログラム | |
US7668372B2 (en) | Method and system for collecting data from a plurality of machine readable documents | |
CN109543501B (zh) | 图像处理装置、图像处理方法和存储介质 | |
US8467614B2 (en) | Method for processing optical character recognition (OCR) data, wherein the output comprises visually impaired character images | |
US20150095769A1 (en) | Layout Analysis Method And System | |
JP2005173730A (ja) | 帳票ocrプログラム、方法及び装置 | |
US10142499B2 (en) | Document distribution system, document distribution apparatus, information processing method, and storage medium | |
US20070116363A1 (en) | Image processing device, image processing method, and storage medium storing image processing program | |
CN113269101A (zh) | 一种票据识别方法、装置和设备 | |
US20220415008A1 (en) | Image box filtering for optical character recognition | |
JP2010061471A (ja) | 文字認識装置およびプログラム | |
JP2018042067A (ja) | 画像処理システム、画像処理方法、情報処理装置 | |
US6968501B2 (en) | Document format identification apparatus and method | |
US20010043742A1 (en) | Communication document detector | |
US7680331B2 (en) | Document processing device and document processing method | |
JP5657401B2 (ja) | 文書処理装置、及び文書処理プログラム | |
JP4347675B2 (ja) | 帳票ocrプログラム、方法及び装置 | |
US11972208B2 (en) | Information processing device and information processing method | |
US20210042555A1 (en) | Information Processing Apparatus and Table Recognition Method | |
JP5169648B2 (ja) | 原画像探索装置及び原画像探索プログラム | |
JP2010205122A (ja) | レイアウト構造解析装置及びレイアウト構造解析方法 | |
JP2003030654A (ja) | パターン識別装置、パターン識別方法及びパターン識別用プログラム | |
US11763582B2 (en) | Information processing apparatus, control method of information processing apparatus, and non-transitory storage medium | |
US12073645B2 (en) | Information processing apparatus, information processing system, and non-transitory computer readable medium for recognizing and correcting characters in forms | |
US11354890B2 (en) | Information processing apparatus calculating feedback information for partial region of image and non-transitory computer readable medium storing program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100902 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100914 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101029 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20101207 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20101220 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4661921 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140114 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |