JP2016045637A - 文書処理装置及びプログラム。 - Google Patents
文書処理装置及びプログラム。 Download PDFInfo
- Publication number
- JP2016045637A JP2016045637A JP2014168500A JP2014168500A JP2016045637A JP 2016045637 A JP2016045637 A JP 2016045637A JP 2014168500 A JP2014168500 A JP 2014168500A JP 2014168500 A JP2014168500 A JP 2014168500A JP 2016045637 A JP2016045637 A JP 2016045637A
- Authority
- JP
- Japan
- Prior art keywords
- image data
- character
- area
- document
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
【解決手段】
文書データ受付部301は、文書データを受け付ける。文字コード取得部302は、文書データから文字コードを取得する。文字画像データ生成部303は、取得された文字コードに基づいて、文字画像データを生成する。全体画像データ生成部305は、全体画像データを生成する。文章領域抽出部306は、文字画像データと一致する全体画像データの領域を、全体画像データの文章領域として抽出する。箇条書き記号検出部307は、全体画像データにおいて、抽出された文章領域を基準とした予め定められた範囲の領域内に複数存在する、文字画像データに含まれない同一の非文字オブジェクトを箇条書き記号として検出する。
【選択図】図3
Description
前記受付手段により受け付けられた文書データから文字コードを取得する取得手段と、
前記取得手段により取得された文字コードに基づいて、前記文書データにおける文字列の画像データである文字画像データを生成する第1の生成手段と、
前記文書データ全体の画像データである全体画像データを生成する第2の生成手段と、
前記文字画像データと一致する前記全体画像データの領域を、当該全体画像データの文章領域として抽出する抽出手段と、
前記全体画像データにおいて、前記抽出手段により抽出された文章領域を基準とした予め定められた範囲の領域内に複数存在する、前記文字画像データに含まれない同一の画像データを箇条書き記号として検出する検出手段と、
を有する文書処理装置である。
前記文書データ全体の画像データである第2画像データを生成する第2生成手段と、
前記第1画像データと一致する前記第2画像データの領域を基準とした予め定められた範囲に前記領域を拡大した拡大領域内に存在する、前記第1画像データに含まれない画像データを検出する検出手段と、
前記検出手段により検出された複数の画像データがそれぞれ対応する関係であるとき、前記複数の画像データを箇条書き記号と判定する判定手段と、
を有する文書処理装置である。
受け付けられた文書データから文字コードを取得するステップと、
取得された文字コードに基づいて、前記文書データにおける文字列の画像データである文字画像データを生成するステップと、
前記文書データ全体の画像データである全体画像データを生成するステップと、
前記文字画像データと一致する前記全体画像データの領域を、当該全体画像データの文章領域として抽出するステップと、
前記全体画像データにおいて、抽出された文章領域を基準とした予め定められた範囲の領域内に複数存在する、前記文字画像データに含まれない同一の画像データを箇条書き記号として検出するステップと、
をコンピュータに実行させるためのプログラムである。
まず、図7を参照して、非文字の箇条書き記号が含まれず、文字の箇条書き記号が含まれる文書データに対する文書処理サーバ30の処理の一例を説明する。
次に、図8を参照して、文書データに文字の箇条書き記号と、非文字の箇条書き記号とが含まれる場合の文書処理サーバ30の処理の一例を説明する。
次に、図9を参照して、文書データに複数種類の非文字の箇条書き記号が含まれる場合の文書処理サーバ30の処理の一例を説明する。
11 CPU
12 メモリ
13 記憶装置
14 通信IF
15 UI装置
16 制御バス
20 画像形成装置
30 文書処理サーバ
40 ネットワーク
101a〜101c、103a〜103c、104a〜104d 非文字オブジェクト
102a〜102c 画像オブジェクト
301 文書データ受付部
302 文字コード取得部
303 文字画像データ生成部
304 文字数カウント部
305 全体画像データ生成部
306 文章領域検出部
307 箇条書き記号検出部
308 記憶部
Claims (6)
- 文書データを受け付ける受付手段と、
前記受付手段により受け付けられた文書データから文字コードを取得する取得手段と、
前記取得手段により取得された文字コードに基づいて、前記文書データにおける文字列の画像データである文字画像データを生成する第1の生成手段と、
前記文書データ全体の画像データである全体画像データを生成する第2の生成手段と、
前記文字画像データと一致する前記全体画像データの領域を、当該全体画像データの文章領域として抽出する抽出手段と、
前記全体画像データにおいて、前記抽出手段により抽出された文章領域を基準とした予め定められた範囲の領域内に複数存在する、前記文字画像データに含まれない同一の画像データを箇条書き記号として検出する検出手段と、
を有する文書処理装置。 - 前記検出手段は、前記文章領域を基準とした予め定められた範囲の領域として、前記文章領域を、当該文章領域における文字列の行方向に予め定められた領域分広げた検出領域を生成し、前記全体画像データにおいて、前記検出領域内に前記文字画像データに含まれない画像データが複数存在し、当該複数の画像データがそれぞれ同一である場合、当該画像データを箇条書き記号として検出する請求項1記載の文書処理装置。
- 前記検出手段は、前記文章領域における文字列の行と、前記複数の画像データの座標位置とが対応する場合に、当該複数の画像データを箇条書き記号として検出する請求項1または2記載の文書処理装置。
- 前記検出手段は、検出した箇条書き記号に基づいて、前記文章領域において当該箇条書き記号と対応する文字列を箇条書きの行として検出する請求項1から3いずれか1項記載の文書処理装置。
- 文書データの中から文字コードを有するオブジェクトの画像データである第1画像データを生成する第1生成手段と、
前記文書データ全体の画像データである第2画像データを生成する第2生成手段と、
前記第1画像データと一致する前記第2画像データの領域を基準とした予め定められた範囲に前記領域を拡大した拡大領域内に存在する、前記第1画像データに含まれない画像データを検出する検出手段と、
前記検出手段により検出された複数の画像データがそれぞれ対応する関係であるとき、前記複数の画像データを箇条書き記号と判定する判定手段と、
を有する文書処理装置。 - 文書データを受け付けるステップと、
受け付けられた文書データから文字コードを取得するステップと、
取得された文字コードに基づいて、前記文書データにおける文字列の画像データである文字画像データを生成するステップと、
前記文書データ全体の画像データである全体画像データを生成するステップと、
前記文字画像データと一致する前記全体画像データの領域を、当該全体画像データの文章領域として抽出するステップと、
前記全体画像データにおいて、抽出された文章領域を基準とした予め定められた範囲の領域内に複数存在する、前記文字画像データに含まれない同一の画像データを箇条書き記号として検出するステップと、
をコンピュータに実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014168500A JP2016045637A (ja) | 2014-08-21 | 2014-08-21 | 文書処理装置及びプログラム。 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014168500A JP2016045637A (ja) | 2014-08-21 | 2014-08-21 | 文書処理装置及びプログラム。 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2016045637A true JP2016045637A (ja) | 2016-04-04 |
Family
ID=55636171
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014168500A Pending JP2016045637A (ja) | 2014-08-21 | 2014-08-21 | 文書処理装置及びプログラム。 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2016045637A (ja) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1185756A (ja) * | 1997-09-03 | 1999-03-30 | Sharp Corp | 翻訳装置及び翻訳装置制御プログラムを記憶した媒体 |
JP2002207494A (ja) * | 2001-01-11 | 2002-07-26 | Sharp Corp | 音声合成装置及び音声合成方法並びに音声合成プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2004173112A (ja) * | 2002-11-21 | 2004-06-17 | Nippon Telegr & Teleph Corp <Ntt> | 映像処理装置及び方法 |
JP2012212293A (ja) * | 2011-03-31 | 2012-11-01 | Dainippon Printing Co Ltd | 文書認識装置、文書認識方法、プログラム及び記憶媒体 |
JP2014099182A (ja) * | 2013-12-10 | 2014-05-29 | Toshiba Corp | 電子機器および手書き文書処理方法 |
-
2014
- 2014-08-21 JP JP2014168500A patent/JP2016045637A/ja active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1185756A (ja) * | 1997-09-03 | 1999-03-30 | Sharp Corp | 翻訳装置及び翻訳装置制御プログラムを記憶した媒体 |
JP2002207494A (ja) * | 2001-01-11 | 2002-07-26 | Sharp Corp | 音声合成装置及び音声合成方法並びに音声合成プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2004173112A (ja) * | 2002-11-21 | 2004-06-17 | Nippon Telegr & Teleph Corp <Ntt> | 映像処理装置及び方法 |
JP2012212293A (ja) * | 2011-03-31 | 2012-11-01 | Dainippon Printing Co Ltd | 文書認識装置、文書認識方法、プログラム及び記憶媒体 |
JP2014099182A (ja) * | 2013-12-10 | 2014-05-29 | Toshiba Corp | 電子機器および手書き文書処理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10049096B2 (en) | System and method of template creation for a data extraction tool | |
US11321559B2 (en) | Document structure identification using post-processing error correction | |
US10503993B2 (en) | Image processing apparatus | |
US7796817B2 (en) | Character recognition method, character recognition device, and computer product | |
US11418658B2 (en) | Image processing apparatus, image processing system, image processing method, and storage medium | |
US9519404B2 (en) | Image segmentation for data verification | |
JP2021043478A (ja) | 情報処理装置、その制御方法及びプログラム | |
US20150277745A1 (en) | Computer input using hand drawn symbols | |
EP2884425B1 (en) | Method and system of extracting structured data from a document | |
CN108062301A (zh) | 文字翻译方法及其装置 | |
JP2012173959A (ja) | 文字認識装置及びプログラム | |
JP2018055256A (ja) | 情報処理装置、情報処理方法及びプログラム | |
US10127478B2 (en) | Electronic apparatus and method | |
JP4518212B2 (ja) | 画像処理装置及びプログラム | |
JP2016045637A (ja) | 文書処理装置及びプログラム。 | |
JP2008004116A (ja) | 映像中の文字検索方法及び装置 | |
JP2021028770A (ja) | 情報処理装置及び表認識方法 | |
JP2006279090A (ja) | 画像処理装置、画像処理方法及び画像処理プログラム | |
JP2015176522A (ja) | 情報処理装置及び情報処理プログラム | |
JP2013182459A (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP5830996B2 (ja) | 画像処理装置及びプログラム | |
US8913079B2 (en) | Apparatus, a method and a program thereof | |
US20210295032A1 (en) | Information processing device and non-transitory computer readable medium | |
JP2018063597A (ja) | 文字認識装置、文字認識方法、文字認識プログラム、および帳票 | |
JP5298830B2 (ja) | 画像処理プログラム、画像処理装置及び画像処理システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170720 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180423 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180420 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180607 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20181206 |