JP6432179B2 - 文書ファイル生成装置及び文書ファイル生成方法 - Google Patents
文書ファイル生成装置及び文書ファイル生成方法 Download PDFInfo
- Publication number
- JP6432179B2 JP6432179B2 JP2014130606A JP2014130606A JP6432179B2 JP 6432179 B2 JP6432179 B2 JP 6432179B2 JP 2014130606 A JP2014130606 A JP 2014130606A JP 2014130606 A JP2014130606 A JP 2014130606A JP 6432179 B2 JP6432179 B2 JP 6432179B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- vector data
- image
- coordinate
- character image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Character Discrimination (AREA)
- Document Processing Apparatus (AREA)
Description
本発明の文書ファイル生成方法は、スキャナー部を備えた文書ファイル生成装置による文書ファイル生成方法であって、原稿の文字が前記スキャナー部によって読み取られた文字画像のOpticalCharacterReader(OCR)を行う画像認識工程と、前記画像認識工程において認識された前記文字画像毎の文字数をカウントして、前記文字画像を文字毎に登録するカウンター工程と、前記カウンター工程において登録されたそれぞれの前記文字画像をベクトル化するベクトル化工程と、前記カウンター工程において登録されたそれぞれの前記文字画像に対して、前記ベクトル化工程においてベクトル化されたベクトルデータによりフォント置き換え処理を行い、前記ベクトルデータを書き込んだ文書ファイルであるベクトル化ファイルを生成する画像処理工程とを有し、前記OCRで得られるOCR情報は文字座標と文字コードとを少なくとも含み、前記ベクトルデータは線の起終点の座標を少なくとも含み、前記OCR情報は、認識順に登録され、前記ベクトル化工程は、前記画像認識工程において認識され、前記カウンター工程により文字毎に登録された前記文字画像の左端から右端の間で描画開始位置が一致するX座標を、前記OCR情報から検索する工程と、前記文字画像の前記OCR情報の前記X座標と、前記ベクトルデータの描画開始位置のX座標とが一致した前記文字画像について、一致した前記文字画像の前記OCR情報のY座標の上端から下端間で前記ベクトルデータの描画開始位置のY座標を検索する工程と、前記OCR情報のX座標及びY座標と前記ベクトルデータのX座標及びY座標とが一致した場合、該当文字と判断し、前記文字画像のベクトルデータをフォント辞書に登録する工程と、前記フォント辞書に既に登録済みの文字が検索で見つかった場合、前記文字画像のベクトルデータの前記フォント辞書への登録を行なわず、前記ベクトルデータを再度検索し、前記OCR情報の前記X座標及びY座標と、前記ベクトルデータの描画開始位置のX座標及びY座標とが一致しない文字画像のベクトルデータを検索し、一致した文字画像のベクトルデータを破棄し、前記一致しない文字画像のベクトルデータを前記フォント辞書に追加登録する工程とを有し、前記一致しない文字画像のベクトルデータは、前記OCRで認識できていない文字についてのベクトル列をまとめたものであり、前記画像処理工程は、前記フォント辞書に登録された前記文字画像のベクトルデータを用いて前記ベクトル化ファイルを生成する工程を有することを特徴としている。
(1)たとえば「K」の文字画像がOCR(文字認識)されたとすると、「K」の文字画像の左端から右端の間で描画開始位置が一致するX座標を、OCR(文字認識)情報bから検索する。
(2)OCR座標(OCR(文字認識)情報bの文字座標)とベクトル画像情報aの描画開始位置のX座標とが一致した場合、Y座標の上端から下端間で描画開始位置が一致するY座標を検索する。
(3)どちらも一致した場合は、該当文字と判断しベクトル画像情報aのfillまでを文字としてフォント辞書cに登録する。
(4)既に登録済みの文字が検索で見つかった場合はフォント辞書cへの登録を行わない。
(6)一致した文字は、別認識した記号や既にフォント辞書cに登録済みであるため破棄する。
(7)一致しない文字は、ベクトル列をまとめて1つのフォント辞書cに追加登録する。
ここで、一致しない文字のブロックができるが、9割以上はフォント辞書cに登録されるためファイルのサイズの低減につながる。
(8)文字を登録したフォント辞書cからフォントを取得し、サイズ、記載座標を指定して描画処理を行う。すなわち、たとえば「K」「y」「o」「c」「o」「o」を描画する場合、それぞれの文字のフォントがフォント辞書cから取得されることになる。
すなわち、図10(a)に示すように、
(1)ベクトル化前の2値画像の近傍画素において同じ輝度を持つ要素を探し出しラベルを作成する。ここでは、たとえば「K」の文字のラベルが取得されることになる。
(2)ラベル取得時の基点dの場所の座標と、縦横のドット幅を記憶する。
(3)文字画像内の記載座標に対して検索をかける。
(4)横ドット幅(X座標)の文字画像の左端から右端間で、描画開始位置が一致するX座標をベクトル画像情報aから検索する。
(5)X座標が一致した場合は、縦ドット幅(Y座標)の上端から下端間で描画開始位置が一致するY座標をベクトル画像情報aから検索する。
(6)どちらも一致した場合は該当文字と判断し、ベクトル画像情報aのfillまでを文字として上述したフォント辞書cに登録する。
(7)既に登録済みの文字が検索で見つかった場合はフォント辞書cへの登録を行わない。
(8)ラベルの重心eを決め、その重心eの位置からのラベルの特徴量を算出する。
なお、特徴量は、ラベルの重心eから最外周輪郭線間までの距離(点線矢印で示している)である。これにより対象ラベルが拡大/縮小、回転をしても特徴の周期で一致させることが可能となる。
(9)特徴量の一致する文字をベクトル画像情報aから検索する。
(10)一致した文字の座標と縦横の幅を記憶する。
(11)文字が見つからなくなるまで(9)、(10)を繰り返す。
(12)次のラベルを取得し、上記同様のパターンマッチングを行う。
このとき、記憶した文字と座標を次の検索対象から外す。
(13)描画処理の際は、フォント辞書cからフォントを取得し、サイズ、記載座標が指定される。
11 制御部
11a 操作受付部
11b 画像認識部
11c 画像処理部
11d メモリー
11e カウンター
11e−1 aカウンター
11e−2 bカウンター
11e−3 cカウンター
11f ベクトル化部
12 操作部
13 表示部
14 スキャナー部
20 原稿
a ベクトル画像情報(ベクトルデータ)
b OCR(文字認識)情報
c フォント辞書
d 基点
e 重心
Claims (2)
- 制御部とスキャナー部とを備えた文書ファイル生成装置であって、
前記制御部は、
原稿の文字が前記スキャナー部によって読み取られた文字画像のOptical Character Reader(OCR)を行う画像認識手段と、
前記画像認識手段によって認識された前記文字画像毎の文字数をカウントして、前記文字画像を文字毎に登録するカウンターと、
前記カウンターにより登録されたそれぞれの前記文字画像をベクトル化するベクトル化手段と、
前記カウンターにより登録されたそれぞれの前記文字画像に対して、前記ベクトル化手段によりベクトル化されたベクトルデータによりフォント置き換え処理を行い、前記ベクトルデータを書き込んだ文書ファイルであるベクトル化ファイルを生成する画像処理手段とを有し、
前記OCRで得られるOCR情報は文字座標と文字コードとを少なくとも含み、前記ベクトルデータは線の起終点の座標を少なくとも含み、
前記OCR情報は、認識順に登録され、
前記ベクトル化手段は、
前記画像認識手段によって認識され、前記カウンターにより文字毎に登録された前記文字画像の左端から右端の間で描画開始位置が一致するX座標を、前記OCR情報から検索し、
前記文字画像の前記OCR情報の前記X座標と、前記ベクトルデータの描画開始位置のX座標とが一致した前記文字画像について、一致した前記文字画像の前記OCR情報のY座標の上端から下端間で前記ベクトルデータの描画開始位置のY座標を検索し、
前記OCR情報のX座標及びY座標と前記ベクトルデータのX座標及びY座標とが一致した場合、該当文字と判断し、前記文字画像のベクトルデータをフォント辞書に登録し、
前記フォント辞書に既に登録済みの文字が検索で見つかった場合、前記文字画像のベクトルデータの前記フォント辞書への登録を行なわず、
前記ベクトルデータを再度検索し、前記OCR情報の前記X座標及びY座標と、前記ベクトルデータの描画開始位置のX座標及びY座標とが一致しない文字画像のベクトルデータを検索し、一致した文字画像のベクトルデータを破棄し、前記一致しない文字画像のベクトルデータを前記フォント辞書に追加登録し、
前記一致しない文字画像のベクトルデータは、前記OCRで認識できていない文字についてのベクトル列をまとめたものであり、
前記画像処理手段は、
前記フォント辞書に登録された前記文字画像のベクトルデータを用いて前記ベクトル化ファイルを生成することを特徴とする文書ファイル生成装置。 - スキャナー部を備えた文書ファイル生成装置による文書ファイル生成方法であって、
原稿の文字が前記スキャナー部によって読み取られた文字画像のOptical Character Reader(OCR)を行う画像認識工程と、
前記画像認識工程において認識された前記文字画像毎の文字数をカウントして、前記文字画像を文字毎に登録するカウンター工程と、
前記カウンター工程において登録されたそれぞれの前記文字画像をベクトル化するベクトル化工程と、
前記カウンター工程において登録されたそれぞれの前記文字画像に対して、前記ベクトル化工程においてベクトル化されたベクトルデータによりフォント置き換え処理を行い、前記ベクトルデータを書き込んだ文書ファイルであるベクトル化ファイルを生成する画像処理工程とを有し、
前記OCRで得られるOCR情報は文字座標と文字コードとを少なくとも含み、前記ベクトルデータは線の起終点の座標を少なくとも含み、
前記OCR情報は、認識順に登録され、
前記ベクトル化工程は、
前記画像認識工程において認識され、前記カウンター工程により文字毎に登録された前記文字画像の左端から右端の間で描画開始位置が一致するX座標を、前記OCR情報から検索する工程と、
前記文字画像の前記OCR情報の前記X座標と、前記ベクトルデータの描画開始位置のX座標とが一致した前記文字画像について、一致した前記文字画像の前記OCR情報のY座標の上端から下端間で前記ベクトルデータの描画開始位置のY座標を検索する工程と、
前記OCR情報のX座標及びY座標と前記ベクトルデータのX座標及びY座標とが一致した場合、該当文字と判断し、前記文字画像のベクトルデータをフォント辞書に登録する工程と、
前記フォント辞書に既に登録済みの文字が検索で見つかった場合、前記文字画像のベクトルデータの前記フォント辞書への登録を行なわず、前記ベクトルデータを再度検索し、前記OCR情報の前記X座標及びY座標と、前記ベクトルデータの描画開始位置のX座標及びY座標とが一致しない文字画像のベクトルデータを検索し、一致した文字画像のベクトルデータを破棄し、前記一致しない文字画像のベクトルデータを前記フォント辞書に追加登録する工程とを有し、
前記一致しない文字画像のベクトルデータは、前記OCRで認識できていない文字についてのベクトル列をまとめたものであり、
前記画像処理工程は、前記フォント辞書に登録された前記文字画像のベクトルデータを用いて前記ベクトル化ファイルを生成する工程を有することを特徴とする文書ファイル生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014130606A JP6432179B2 (ja) | 2014-06-25 | 2014-06-25 | 文書ファイル生成装置及び文書ファイル生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014130606A JP6432179B2 (ja) | 2014-06-25 | 2014-06-25 | 文書ファイル生成装置及び文書ファイル生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016009395A JP2016009395A (ja) | 2016-01-18 |
JP6432179B2 true JP6432179B2 (ja) | 2018-12-05 |
Family
ID=55226895
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014130606A Expired - Fee Related JP6432179B2 (ja) | 2014-06-25 | 2014-06-25 | 文書ファイル生成装置及び文書ファイル生成方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6432179B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108108339B (zh) * | 2018-01-10 | 2018-12-04 | 北京仁和汇智信息技术有限公司 | 一种pdf边界及网格线标识的方法及装置 |
CN109460701B (zh) * | 2018-09-10 | 2020-09-25 | 昆明理工大学 | 一种基于纵横直方图的字体识别方法 |
CN109670461A (zh) * | 2018-12-24 | 2019-04-23 | 广东亿迅科技有限公司 | Pdf文字提取方法、装置、计算机设备和存储介质 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH096315A (ja) * | 1995-06-22 | 1997-01-10 | Canon Inc | フォントデータ管理方法およびフォントデータ管理装置 |
JP2002287674A (ja) * | 2001-03-28 | 2002-10-04 | Toshiba Corp | 広告挿入方法および広告挿入装置およびプログラム |
JP2003085164A (ja) * | 2001-09-07 | 2003-03-20 | Xelo Inc | 文書出力装置、方法及びコンピュータプログラム |
JP2006202026A (ja) * | 2005-01-20 | 2006-08-03 | Canon Inc | 情報処理装置及び制御方法 |
EP1736895A1 (en) * | 2005-06-21 | 2006-12-27 | PDFlib GmbH | Method of determining Unicode values corresponding to the text in digital documents |
US8201088B2 (en) * | 2006-07-25 | 2012-06-12 | Monotype Imaging Inc. | Method and apparatus for associating with an electronic document a font subset containing select character forms which are different depending on location |
JP2008117037A (ja) * | 2006-11-01 | 2008-05-22 | Fujitsu Ltd | 文字認識辞書作成プログラム及び文字認識辞書作成方法 |
JP2008148263A (ja) * | 2006-12-13 | 2008-06-26 | Canon Inc | 画像形成装置及びその制御方法 |
JP2008199249A (ja) * | 2007-02-13 | 2008-08-28 | Fuji Xerox Co Ltd | 画像処理装置、画像符号化装置、画像処理プログラム及び画像符号化プログラム |
JP4123299B1 (ja) * | 2007-02-21 | 2008-07-23 | 富士ゼロックス株式会社 | 画像処理装置及び画像処理プログラム |
JP5159588B2 (ja) * | 2008-12-05 | 2013-03-06 | キヤノン株式会社 | 画像処理装置、画像処理方法、コンピュータプログラム |
-
2014
- 2014-06-25 JP JP2014130606A patent/JP6432179B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2016009395A (ja) | 2016-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6000992B2 (ja) | 文書ファイル生成装置及び文書ファイル生成方法 | |
CN109409398B (zh) | 图像处理装置、图像处理方法以及存储介质 | |
JP4694613B2 (ja) | 原稿方向判定装置、原稿方向判定方法、プログラムおよびその記録媒体 | |
JP6527410B2 (ja) | 文字認識装置、文字認識方法、及びプログラム | |
US8254721B2 (en) | Data input system, data input receiving device, data input receiving method and computer readable medium | |
US10339657B2 (en) | Character detection apparatus and method | |
JP2009238217A (ja) | 情報処理システム、情報処理装置、情報処理方法およびプログラム | |
JP6432179B2 (ja) | 文書ファイル生成装置及び文書ファイル生成方法 | |
US10032059B2 (en) | Image analyzing apparatus that identifies barcode image in target image | |
JP2011090578A (ja) | 画像処理装置、画像処理方法及びプログラム | |
RU2597163C2 (ru) | Сравнение документов с использованием достоверного источника | |
JP5623574B2 (ja) | 帳票識別装置および帳票識別方法 | |
CN111338733A (zh) | 用户界面适配方法和系统 | |
JP6624120B2 (ja) | 文字認識装置、文字認識方法、文字認識プログラム、及び文字認識プログラムを記録したコンピューター読み取り可能な記録媒体 | |
JP2020087112A (ja) | 帳票処理装置および帳票処理方法 | |
JP2014154066A (ja) | 文字認識システム、文字認識プログラム及び文字認識方法 | |
JP6118646B2 (ja) | 帳票処理装置、帳票処理方法、帳票処理プログラム | |
JP2013182459A (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP5169648B2 (ja) | 原画像探索装置及び原画像探索プログラム | |
JP2021034778A (ja) | 情報処理装置及び情報処理プログラム | |
JP5277750B2 (ja) | 画像処理プログラム、画像処理装置及び画像処理システム | |
JP2004005761A (ja) | キーワード抽出・検索装置 | |
WO2015189941A1 (ja) | 情報処理装置、情報処理方法、および、プログラム | |
JP2017207837A (ja) | 画像検査装置、画像検査方法、およびプログラム | |
JP2016128990A (ja) | 画像補正装置、画像補正システム、画像補正方法、及び画像補正プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160721 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170524 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170530 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170728 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180206 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180405 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181009 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181022 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6432179 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |