JP4983526B2 - データ処理装置及びデータ処理プログラム - Google Patents
データ処理装置及びデータ処理プログラム Download PDFInfo
- Publication number
- JP4983526B2 JP4983526B2 JP2007267850A JP2007267850A JP4983526B2 JP 4983526 B2 JP4983526 B2 JP 4983526B2 JP 2007267850 A JP2007267850 A JP 2007267850A JP 2007267850 A JP2007267850 A JP 2007267850A JP 4983526 B2 JP4983526 B2 JP 4983526B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- image
- search
- nearest
- ocr
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
本実施形態では、画像形成装置に本発明を適用するものである。図1は、本発明の第1実施形態に係わる画像形成装置の構成を示すブロック図である。
また、先鋭化された文字画像は、画像圧縮部40による画像圧縮72とは別に、OCR処理部34によって、正立処理52、段組判定54、行列判定56、文字判定58、及びOCR処理60が行われる。例えば、正立処理52によって画像の向きを判定し、判定した向きに応じて、90度、180度、270度等の回転を画像に対して行い、特開平11−250041号公報に記載の技術等を適用して、見出し用の文字列、新聞の段落、段組などを画像分割することで段組判定54を行い、特許第2895122号や特開2004−102796号に記載の技術等を適用して分割された領域を更に1行、あるいは1列単位に画像分割することによって行列判定56を行い、分割された領域から、特開2000−057261号に記載の技術等を適用して1文字づつ画像分割することによって文字判定58を行う。そして、OCR処理60では、文字領域に分割した部分について、文字認識し、各文字に対応する画像を文字コードと文字位置情報に変換する。
続いて、参考形態について説明する。図9は、参考形態に係わるコンピュータネットワークシステムの概略構成を示す図である。
また、先鋭化された文字画像は、画像圧縮処理とは別に、正立処理52、段組判定54、行列判定56、文字判定58、及びOCR処理60が行われる。例えば、正立処理52によって、画像の向きを判定し、判定した向きに応じて、90度、180度、270度等の回転を画像に対して行い、特開平11−250041号公報に記載の技術等を適用して、見出し用の文字列、新聞の段落、段組などを画像分割することで段組判定54を行い、特許第2895122号や特開2004−102796号に記載の技術等を適用して分割された領域を更に1行、あるいは1列単位に画像分割することによって行列判定56を行い、分割された領域から、特開2000−057261号に記載の技術等を適用して1文字づつ画像分割することによって文字判定58を行う。そして、OCR処理60では文字領域に分割した部分について、文字認識し、各文字に対応する画像を文字コードと文字位置情報に変換する。
24 画像処理部
44 文字/画像レイアウト解析
46 文字画像/非文字画像分離
54 段組判定
56 行列判定
58 文字判定
60 OCR処理
62 OCR中間データ解析
64 OCR結果テキスト貼付け位置決め
66 テキスト/画像レイヤー合成
68 PDFフォーマット変換
80 コンピュータ
164 ファイル検索プログラム
166 強調表示プログラム
168 検索文字列入力ウィンドウ
170 OCR中間データ解析
172 文字列ハイライト
Claims (6)
- 文字画像を含む画像のレイアウトの解析結果から文字画像の段組領域を抽出して、抽出した前記段組領域から文字画像の行列を判定し、判定した前記行列から各行列の文字領域を分割し、分割した前記文字領域の文字を文字情報及び文字位置情報に変換して前記文字情報及び前記文字位置情報を文字認識結果として得る文字認識手段と、
前記文字認識手段によって得られる前記文字認識結果を解析し、注目文字からの最近傍文字を算出する算出手段と、
前記算出手段によって算出された前記最近傍文字が1つの場合に、注目文字の前記文字情報と前記算出手段の算出結果に対応する前記文字情報とを有する文字列を文字検索のための検索用レイヤーとして生成し、前記算出手段によって算出された前記最近傍文字が2以上の場合には、前記最近傍の文字毎にそれぞれ前記検索用レイヤーを生成する生成手段と、
前記生成手段によって生成された前記検索用レイヤーを文字検索可能なように前記画像を表すデータに合成する合成手段と、
を備えたデータ処理装置。 - 前記生成手段は、前記文字列と、該文字列と記述方向を逆にした文字列と、を前記検索用レイヤーとして生成することを特徴とする請求項1に記載のデータ処理装置。
- 前記生成手段は、前記算出手段によって最近傍文字を順次算出して前記検索用レイヤーを生成する際に、前記最近傍文字の方向が変化した場合に、前記方向が変化したところで文字列を分割して前記検索用レイヤーを生成することを特徴とする請求項1又は請求項2に記載のデータ処理装置。
- 文字画像を含む画像のレイアウトの解析結果から文字画像の段組領域を抽出して、抽出した前記段組領域から文字画像の行列を判定し、判定した前記行列から各行列の文字領域を分割し、分割した前記文字領域の文字を前記文字情報及び前記文字位置情報に変換して前記文字情報及び前記文字位置情報を文字認識結果として得る文字認識ステップと、
前記文字認識ステップで得られる前記文字認識結果を解析し、注目文字からの最近傍文字を算出する算出ステップと、
前記算出ステップで算出した前記最近傍文字が1つの場合に、注目文字の前記文字情報と前記算出手段の算出結果に対応する前記文字情報とを有する文字列を文字検索のための検索用レイヤーとして生成し、前記算出ステップで算出した前記最近傍文字が2以上の場合には、前記最近傍の文字毎にそれぞれ前記検索用レイヤーを生成する生成ステップと、
前記生成ステップで生成した前記検索用レイヤーを文字検索可能なように前記画像を表すデータに合成する合成ステップと、
を含む処理をコンピュータに実行させるデータ処理プログラム。 - 前記生成ステップは、前記文字列と、該文字列と記述方向を逆にした文字列と、を前記検索用レイヤーとして生成することを特徴とする請求項4に記載のデータ処理プログラム。
- 前記生成ステップは、前記算出ステップで順次最近傍文字を算出して前記検索用レイヤーを生成する際に、前記最近傍文字の方向が変化した場合に、前記方向が変化したところで文字列を分割して前記検索用レイヤー生成することを特徴とする請求項4又は請求項5に記載のデータ処理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007267850A JP4983526B2 (ja) | 2007-10-15 | 2007-10-15 | データ処理装置及びデータ処理プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007267850A JP4983526B2 (ja) | 2007-10-15 | 2007-10-15 | データ処理装置及びデータ処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009098777A JP2009098777A (ja) | 2009-05-07 |
JP4983526B2 true JP4983526B2 (ja) | 2012-07-25 |
Family
ID=40701746
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007267850A Expired - Fee Related JP4983526B2 (ja) | 2007-10-15 | 2007-10-15 | データ処理装置及びデータ処理プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4983526B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5520390B2 (ja) * | 2010-12-28 | 2014-06-11 | インターナショナル・ビジネス・マシーンズ・コーポレーション | データ要素列を処理する装置及び方法 |
JP5703270B2 (ja) * | 2012-08-29 | 2015-04-15 | 京セラドキュメントソリューションズ株式会社 | 画像読取装置、文書管理システム、及び画像読取制御プログラム |
JP5783990B2 (ja) | 2012-11-20 | 2015-09-24 | 京セラドキュメントソリューションズ株式会社 | 画像処理装置、画像処理プログラム、画像処理方法 |
JP6090269B2 (ja) * | 2014-09-08 | 2017-03-08 | コニカミノルタ株式会社 | 電子文書生成装置、プログラムおよび電子文書生成システム |
JP5993969B2 (ja) * | 2015-02-17 | 2016-09-21 | 京セラドキュメントソリューションズ株式会社 | 画像読取装置、文書管理システム、及び画像読取制御プログラム |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62184587A (ja) * | 1986-02-10 | 1987-08-12 | Nippon Telegr & Teleph Corp <Ntt> | 単語辞書検索装置 |
JPH02135582A (ja) * | 1988-11-16 | 1990-05-24 | Fujitsu Ltd | 文字列方向検出方式 |
US5892843A (en) * | 1997-01-21 | 1999-04-06 | Matsushita Electric Industrial Co., Ltd. | Title, caption and photo extraction from scanned document images |
JPH10261047A (ja) * | 1997-03-19 | 1998-09-29 | Fujitsu Ltd | 文字認識装置 |
JP4170441B2 (ja) * | 1997-11-28 | 2008-10-22 | 富士通株式会社 | 文書画像傾き検出装置および文書画像傾き検出プログラムの記憶媒体 |
JP3940491B2 (ja) * | 1998-02-27 | 2007-07-04 | 株式会社東芝 | 文書処理装置および文書処理方法 |
JP4065473B2 (ja) * | 1999-05-14 | 2008-03-26 | キヤノン株式会社 | 画像処理装置及び方法及び記憶媒体及びシステム |
JP4194309B2 (ja) * | 2002-07-11 | 2008-12-10 | 富士通株式会社 | 文書方向推定方法および文書方向推定プログラム |
JP2004078672A (ja) * | 2002-08-20 | 2004-03-11 | Canon Inc | 検索可能な文書フォーマットでのスキャン装置 |
JP2007148925A (ja) * | 2005-11-29 | 2007-06-14 | Canon Inc | 情報処理装置及び情報処理方法 |
JP4343213B2 (ja) * | 2006-12-25 | 2009-10-14 | 株式会社東芝 | 文書処理装置および文書処理方法 |
-
2007
- 2007-10-15 JP JP2007267850A patent/JP4983526B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2009098777A (ja) | 2009-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5647919B2 (ja) | 文字認識装置、文字認識方法、文字認識システム、および文字認識プログラム | |
US20200065601A1 (en) | Method and system for transforming handwritten text to digital ink | |
JP4785655B2 (ja) | 文書処理装置及び文書処理方法 | |
US8965125B2 (en) | Image processing device, method and storage medium for storing and displaying an electronic document | |
JP4347677B2 (ja) | 帳票ocrプログラム、方法及び装置 | |
JP5663866B2 (ja) | 情報処理装置及び情報処理プログラム | |
KR100412317B1 (ko) | 문자인식/수정방법및장치 | |
JP2011141598A (ja) | 画像処理装置、画像処理方法、及びプログラム | |
US11475688B2 (en) | Information processing apparatus and information processing method for extracting information from document image | |
US20150146985A1 (en) | Handwritten document processing apparatus and method | |
US20150138220A1 (en) | Systems and methods for displaying scanned images with overlaid text | |
JP4983526B2 (ja) | データ処理装置及びデータ処理プログラム | |
EP2806336A1 (en) | Text prediction in a text input associated with an image | |
EP2884425A1 (en) | Method and system of extracting structured data from a document | |
US8010564B2 (en) | Logical structure analyzing apparatus, method, and computer product | |
JP2007310501A (ja) | 情報処理装置、その制御方法、及びプログラム | |
JP2008225695A (ja) | 文字認識誤り修正装置およびプログラム | |
JP5353325B2 (ja) | 文書データ生成装置と文書データ生成方法 | |
JP5895828B2 (ja) | 情報処理装置及びプログラム | |
JPH08320914A (ja) | 表認識方法および装置 | |
Alzuru et al. | Cooperative human-machine data extraction from biological collections | |
JP2020047031A (ja) | 文書検索装置、文書検索システム及びプログラム | |
US11763582B2 (en) | Information processing apparatus, control method of information processing apparatus, and non-transitory storage medium | |
JP2010092426A (ja) | 画像処理装置、画像処理方法およびプログラム | |
JP2007148925A (ja) | 情報処理装置及び情報処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090212 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110926 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111004 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111201 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120327 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120409 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150511 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |