JP2009098777A - データ処理装置及びデータ処理プログラム - Google Patents
データ処理装置及びデータ処理プログラム Download PDFInfo
- Publication number
- JP2009098777A JP2009098777A JP2007267850A JP2007267850A JP2009098777A JP 2009098777 A JP2009098777 A JP 2009098777A JP 2007267850 A JP2007267850 A JP 2007267850A JP 2007267850 A JP2007267850 A JP 2007267850A JP 2009098777 A JP2009098777 A JP 2009098777A
- Authority
- JP
- Japan
- Prior art keywords
- character
- image
- search
- nearest
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Character Input (AREA)
- Processing Or Creating Images (AREA)
Abstract
【解決手段】文字認識の結果として得られる文字コード及び文字位置情報を含むOCR中間データを解析して、格段組の左上の文字から注目文字からの最近傍文字を算出して(100〜108)、最近傍文字の方向に応じて縦書きか横書きかを判定し(110〜118)、記述方向が変化したら、文字列を分割して(120、122)、検索用レイヤーに書き出す。また、検索用レイヤーに書き出した文字列と第1文字列群とし、逆順の文字列を第2文字列群として検索用レイヤーに書き出す(128、130)。そして、検索用レイヤーと元の画像を合成してPDF変換する。
【選択図】図7
Description
本実施形態では、画像形成装置に本発明を適用するものである。図1は、本発明の第1実施形態に係わる画像形成装置の構成を示すブロック図である。
また、先鋭化された文字画像は、画像圧縮部40による画像圧縮72とは別に、OCR処理部34によって、正立処理52、段組判定54、行列判定56、文字判定58、及びOCR処理60が行われる。例えば、正立処理52によって画像の向きを判定し、判定した向きに応じて、90度、180度、270度等の回転を画像に対して行い、特開平11−250041号公報に記載の技術等を適用して、見出し用の文字列、新聞の段落、段組などを画像分割することで段組判定54を行い、特許第2895122号や特開2004−102796号に記載の技術等を適用して分割された領域を更に1行、あるいは1列単位に画像分割することによって行列判定56を行い、分割された領域から、特開2000−057261号に記載の技術等を適用して1文字づつ画像分割することによって文字判定58を行う。そして、OCR処理60では、文字領域に分割した部分について、文字認識し、各文字に対応する画像を文字コードと文字位置情報に変換する。
続いて、本発明の第2実施形態について説明する。なお、本実施形態は、本発明をコンピュータネットワークシステムに適用したものである。図9は、本発明の第2実施形態に係わるコンピュータネットワークシステムの概略構成を示す図である。
また、先鋭化された文字画像は、画像圧縮処理とは別に、正立処理52、段組判定54、行列判定56、文字判定58、及びOCR処理60が行われる。例えば、正立処理52によって、画像の向きを判定し、判定した向きに応じて、90度、180度、270度等の回転を画像に対して行い、特開平11−250041号公報に記載の技術等を適用して、見出し用の文字列、新聞の段落、段組などを画像分割することで段組判定54を行い、特許第2895122号や特開2004−102796号に記載の技術等を適用して分割された領域を更に1行、あるいは1列単位に画像分割することによって行列判定56を行い、分割された領域から、特開2000−057261号に記載の技術等を適用して1文字づつ画像分割することによって文字判定58を行う。そして、OCR処理60では文字領域に分割した部分について、文字認識し、各文字に対応する画像を文字コードと文字位置情報に変換する。
24 画像処理部
44 文字/画像レイアウト解析
46 文字画像/非文字画像分離
54 段組判定
56 行列判定
58 文字判定
60 OCR処理
62 OCR中間データ解析
64 OCR結果テキスト貼付け位置決め
66 テキスト/画像レイヤー合成
68 PDFフォーマット変換
80 コンピュータ
164 ファイル検索プログラム
166 強調表示プログラム
168 検索文字列入力ウィンドウ
170 OCR中間データ解析
172 文字列ハイライト
Claims (10)
- 文字画像を含む画像のレイアウトの解析結果から文字画像の段組領域を抽出して、抽出した前記段組領域から文字画像の行列を判定し、判定した前記行列から各行列の文字領域を分割し、分割した前記文字領域の文字を前記文字情報及び前記文字位置情報に変換して前記文字情報及び前記文字位置情報を文字認識結果として得る文字認識手段と、
前記文字認識手段によって得られる前記文字認識結果を解析し、注目文字からの最近傍文字を算出する算出手段と、
注目文字の前記文字情報と前記算出手段の算出結果に対応する前記文字情報とを有する文字列を文字検索のための検索用レイヤーとして生成する生成手段と、
前記生成手段によって生成された前記検索用レイヤーを文字検索可能なように前記画像を表すデータに合成する合成手段と、
を備えたデータ処理装置。 - 前記生成手段は、前記文字列と、該文字列と記述方向を逆にした文字列と、を前記検索用レイヤーとして生成することを特徴とする請求項1に記載のデータ処理装置。
- 前記生成手段は、前記算出手段によって最近傍文字を順次算出して前記検索用レイヤーを生成する際に、前記最近傍文字の方向が変化した場合に、前記方向が変化したところで文字列を分割して前記検索用レイヤーを生成することを特徴とする請求項1又は請求項2に記載のデータ処理装置。
- 前記生成手段は、前記算出手段によって算出された前記最近傍文字が2以上の場合に、各前記最近傍文字毎の文字列を前記検索用レイヤーとして生成すること特徴とする請求項1〜3の何れか1項に記載のデータ処理装置。
- 文字画像を含む画像のレイアウトの解析結果から文字画像の段組領域を抽出して、抽出した前記段組領域から文字画像の行列を判定し、判定した前記行列から各行列の文字領域を分割し、分割した前記文字領域の文字を前記文字情報及び前記文字位置情報に変換して前記文字情報及び前記文字位置情報を文字認識結果として得る文字認識手段の前記文字認識結果が前記画像を表すデータに予め合成されたデータにおける前記文字認識結果を解析し、注目文字の最近傍文字を算出する算出手段と、
検索する文字を入力するための入力手段と、
前記入力手段によって検索するための文字が入力された場合に、前記入力手段によって入力された文字の前記文字情報に一致する前記文字情報を前記文字認識結果から検索して注目文字として前記算出手段によって前記最近傍文字を算出すると共に、前記入力手段に入力された続く文字の前記文字情報と、前記算出手段によって算出された前記最近傍文字の前記文字情報と、が一致するか否かを順次判定する判定手段と、
前記判定手段によって前記文字情報が一致すると判定された場合に、一致した文字を強調表示する表示手段と、
を備えたデータ処理装置。 - 文字画像を含む画像のレイアウトの解析結果から文字画像の段組領域を抽出して、抽出した前記段組領域から文字画像の行列を判定し、判定した前記行列から各行列の文字領域を分割し、分割した前記文字領域の文字を前記文字情報及び前記文字位置情報に変換して前記文字情報及び前記文字位置情報を文字認識結果として得る文字認識ステップと、
前記文字認識ステップで得られる前記文字認識結果を解析し、注目文字からの最近傍文字を算出する算出ステップと、
注目文字の前記文字情報と前記算出手段の算出結果に対応する前記文字情報とを有する文字列を文字検索のための検索用レイヤーとして生成する生成ステップと、
前記生成ステップで生成した前記検索用レイヤーを文字検索可能なように前記画像を表すデータに合成する合成ステップと、
を含む処理をコンピュータに実行させるデータ処理プログラム。 - 前記生成ステップは、前記文字列と、該文字列と記述方向を逆にした文字列と、を前記検索用レイヤーとして生成することを特徴とする請求項6に記載のデータ処理プログラム。
- 前記生成ステップは、前記算出ステップで順次最近傍文字を算出して前記検索用レイヤーを生成する際に、前記最近傍文字の方向が変化した場合に、前記方向が変化したところで文字列を分割して前記検索用レイヤー生成することを特徴とする請求項6又は請求項7に記載のデータ処理プログラム。
- 前記生成ステップは、前記算出ステップで算出した前記最近傍文字が2以上の場合に、各前記最近傍文字毎に前記検索用レイヤーを生成すること特徴とする請求項6〜8の何れか1項に記載のデータ処理プログラム。
- 文字画像を含む画像のレイアウトの解析結果から文字画像の段組領域を抽出して、抽出した前記段組領域から文字画像の行列を判定し、判定した前記行列から各行列の文字領域を分割し、分割した前記文字領域の文字を前記文字情報及び前記文字位置情報に変換して前記文字情報及び前記文字位置情報を文字認識結果として得る文字認識ステップの前記文字認識結果が前記画像を表すデータに予め合成されたデータにおける前記文字認識結果を解析し、注目文字の最近傍文字を算出する算出ステップと、
検索する文字を入力するための入力手段によって検索するための文字が入力された場合に、前記入力手段によって入力された文字の前記文字情報に一致する前記文字情報を前記文字認識結果から検索して注目文字として前記算出ステップに前記最近傍文字を算出させると共に、前記入力手段に入力された続く文字の前記文字情報と、前記算出ステップで算出した前記最近傍文字の前記文字情報と、が一致するか否かを順次判定する判定ステップと、
前記判定ステップで前記文字情報が一致すると判定した場合に、一致した文字を強調表示する表示ステップと、
を含む処理をコンピュータに実行させるデータ処理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007267850A JP4983526B2 (ja) | 2007-10-15 | 2007-10-15 | データ処理装置及びデータ処理プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007267850A JP4983526B2 (ja) | 2007-10-15 | 2007-10-15 | データ処理装置及びデータ処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009098777A true JP2009098777A (ja) | 2009-05-07 |
JP4983526B2 JP4983526B2 (ja) | 2012-07-25 |
Family
ID=40701746
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007267850A Expired - Fee Related JP4983526B2 (ja) | 2007-10-15 | 2007-10-15 | データ処理装置及びデータ処理プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4983526B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103283149A (zh) * | 2010-12-28 | 2013-09-04 | 国际商业机器公司 | 用于处理数据元素序列的装置和方法 |
JP2014049782A (ja) * | 2012-08-29 | 2014-03-17 | Kyocera Document Solutions Inc | 画像読取装置、文書管理システム、及び画像読取制御プログラム |
US8982427B2 (en) | 2012-11-20 | 2015-03-17 | Kyocera Document Solutions Inc. | Image processing apparatus, image processing method, and storage medium |
JP2015122796A (ja) * | 2015-02-17 | 2015-07-02 | 京セラドキュメントソリューションズ株式会社 | 画像読取装置、文書管理システム、及び画像読取制御プログラム |
JP2016057786A (ja) * | 2014-09-08 | 2016-04-21 | コニカミノルタ株式会社 | 電子文書生成装置、プログラムおよび電子文書生成システム |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62184587A (ja) * | 1986-02-10 | 1987-08-12 | Nippon Telegr & Teleph Corp <Ntt> | 単語辞書検索装置 |
JPH02135582A (ja) * | 1988-11-16 | 1990-05-24 | Fujitsu Ltd | 文字列方向検出方式 |
JPH10260993A (ja) * | 1997-01-21 | 1998-09-29 | Matsushita Electric Ind Co Ltd | 書類の走査画像からのタイトル、見出しおよび写真抽出 |
JPH10261047A (ja) * | 1997-03-19 | 1998-09-29 | Fujitsu Ltd | 文字認識装置 |
JPH11219407A (ja) * | 1997-11-28 | 1999-08-10 | Fujitsu Ltd | 文書画像認識装置および文書画像認識プログラムの記憶媒体 |
JPH11250041A (ja) * | 1998-02-27 | 1999-09-17 | Toshiba Corp | 文書処理装置および文書処理方法 |
JP2000332984A (ja) * | 1999-05-14 | 2000-11-30 | Canon Inc | 画像処理装置及び画像再生装置及びシステム及び方法及び記憶媒体 |
JP2004046528A (ja) * | 2002-07-11 | 2004-02-12 | Fujitsu Ltd | 文書方向推定方法および文書方向推定プログラム |
JP2004078672A (ja) * | 2002-08-20 | 2004-03-11 | Canon Inc | 検索可能な文書フォーマットでのスキャン装置 |
JP2007095102A (ja) * | 2006-12-25 | 2007-04-12 | Toshiba Corp | 文書処理装置および文書処理方法 |
JP2007148925A (ja) * | 2005-11-29 | 2007-06-14 | Canon Inc | 情報処理装置及び情報処理方法 |
-
2007
- 2007-10-15 JP JP2007267850A patent/JP4983526B2/ja not_active Expired - Fee Related
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62184587A (ja) * | 1986-02-10 | 1987-08-12 | Nippon Telegr & Teleph Corp <Ntt> | 単語辞書検索装置 |
JPH02135582A (ja) * | 1988-11-16 | 1990-05-24 | Fujitsu Ltd | 文字列方向検出方式 |
JPH10260993A (ja) * | 1997-01-21 | 1998-09-29 | Matsushita Electric Ind Co Ltd | 書類の走査画像からのタイトル、見出しおよび写真抽出 |
JPH10261047A (ja) * | 1997-03-19 | 1998-09-29 | Fujitsu Ltd | 文字認識装置 |
JPH11219407A (ja) * | 1997-11-28 | 1999-08-10 | Fujitsu Ltd | 文書画像認識装置および文書画像認識プログラムの記憶媒体 |
JPH11250041A (ja) * | 1998-02-27 | 1999-09-17 | Toshiba Corp | 文書処理装置および文書処理方法 |
JP2000332984A (ja) * | 1999-05-14 | 2000-11-30 | Canon Inc | 画像処理装置及び画像再生装置及びシステム及び方法及び記憶媒体 |
JP2004046528A (ja) * | 2002-07-11 | 2004-02-12 | Fujitsu Ltd | 文書方向推定方法および文書方向推定プログラム |
JP2004078672A (ja) * | 2002-08-20 | 2004-03-11 | Canon Inc | 検索可能な文書フォーマットでのスキャン装置 |
JP2007148925A (ja) * | 2005-11-29 | 2007-06-14 | Canon Inc | 情報処理装置及び情報処理方法 |
JP2007095102A (ja) * | 2006-12-25 | 2007-04-12 | Toshiba Corp | 文書処理装置および文書処理方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103283149A (zh) * | 2010-12-28 | 2013-09-04 | 国际商业机器公司 | 用于处理数据元素序列的装置和方法 |
CN103283149B (zh) * | 2010-12-28 | 2016-05-11 | 国际商业机器公司 | 用于处理数据元素序列的装置和方法 |
JP2014049782A (ja) * | 2012-08-29 | 2014-03-17 | Kyocera Document Solutions Inc | 画像読取装置、文書管理システム、及び画像読取制御プログラム |
US8982427B2 (en) | 2012-11-20 | 2015-03-17 | Kyocera Document Solutions Inc. | Image processing apparatus, image processing method, and storage medium |
JP2016057786A (ja) * | 2014-09-08 | 2016-04-21 | コニカミノルタ株式会社 | 電子文書生成装置、プログラムおよび電子文書生成システム |
JP2015122796A (ja) * | 2015-02-17 | 2015-07-02 | 京セラドキュメントソリューションズ株式会社 | 画像読取装置、文書管理システム、及び画像読取制御プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP4983526B2 (ja) | 2012-07-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5647919B2 (ja) | 文字認識装置、文字認識方法、文字認識システム、および文字認識プログラム | |
US20200065601A1 (en) | Method and system for transforming handwritten text to digital ink | |
JP5031741B2 (ja) | 文書視覚構造の文法的な解析 | |
US8155444B2 (en) | Image text to character information conversion | |
US8160402B2 (en) | Document image processing apparatus | |
JP4785655B2 (ja) | 文書処理装置及び文書処理方法 | |
JP5663866B2 (ja) | 情報処理装置及び情報処理プログラム | |
US8965125B2 (en) | Image processing device, method and storage medium for storing and displaying an electronic document | |
KR100412317B1 (ko) | 문자인식/수정방법및장치 | |
US20150146985A1 (en) | Handwritten document processing apparatus and method | |
US11475688B2 (en) | Information processing apparatus and information processing method for extracting information from document image | |
JP2005173730A (ja) | 帳票ocrプログラム、方法及び装置 | |
JP4983526B2 (ja) | データ処理装置及びデータ処理プログラム | |
US10803233B2 (en) | Method and system of extracting structured data from a document | |
US8010564B2 (en) | Logical structure analyzing apparatus, method, and computer product | |
JP2008225695A (ja) | 文字認識誤り修正装置およびプログラム | |
JP2008129793A (ja) | 文書処理システムおよび装置および方法、およびプログラムを記録した記録媒体 | |
JP2007310501A (ja) | 情報処理装置、その制御方法、及びプログラム | |
JP5353325B2 (ja) | 文書データ生成装置と文書データ生成方法 | |
JPH08320914A (ja) | 表認識方法および装置 | |
JP7252818B2 (ja) | デジタル文書からのデータ抽出システム | |
Alzuru et al. | Cooperative human-machine data extraction from biological collections | |
JP2020047031A (ja) | 文書検索装置、文書検索システム及びプログラム | |
JP2010092426A (ja) | 画像処理装置、画像処理方法およびプログラム | |
US11763582B2 (en) | Information processing apparatus, control method of information processing apparatus, and non-transitory storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090212 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110926 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111004 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111201 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120327 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120409 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150511 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |