JP2012120046A - データ処理装置 - Google Patents
データ処理装置 Download PDFInfo
- Publication number
- JP2012120046A JP2012120046A JP2010269634A JP2010269634A JP2012120046A JP 2012120046 A JP2012120046 A JP 2012120046A JP 2010269634 A JP2010269634 A JP 2010269634A JP 2010269634 A JP2010269634 A JP 2010269634A JP 2012120046 A JP2012120046 A JP 2012120046A
- Authority
- JP
- Japan
- Prior art keywords
- data
- divided
- division
- final
- dividing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims abstract description 44
- 238000007906 compression Methods 0.000 claims abstract description 9
- 230000006835 compression Effects 0.000 claims abstract description 9
- 238000012545 processing Methods 0.000 claims description 63
- 238000011156 evaluation Methods 0.000 claims description 13
- 238000012217 deletion Methods 0.000 claims 1
- 230000037430 deletion Effects 0.000 claims 1
- 238000004891 communication Methods 0.000 description 6
- 230000011218 segmentation Effects 0.000 description 6
- 240000000220 Panda oleosa Species 0.000 description 4
- 235000016496 Panda oleosa Nutrition 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000012384 transportation and delivery Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Landscapes
- Character Discrimination (AREA)
- Compression Of Band Width Or Redundancy In Fax (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
【解決手段】文字又は図形と空白とを含む処理対象データを処理するデータ分割装置10であって、処理対象データを複数の中間分割データに分割する中間分割部16aと、情報量に応じてデータサイズが異なる圧縮方法にて圧縮された複数の中間分割データの各々のデータサイズを取得し、当該取得したデータサイズに基づいて、処理対象データにおける空白位置を決定する空白位置決定部16bとを備える。
【選択図】図1
Description
このような問題は、データ分割を目的とする場合以外にも同様に存在していた。例えば、各種の書類をスキャナを介してイメージデータ化する場合、書類に含まれる文字や図形の位置を上記と同様の理由により正確に特定することができないために、スキャン時の位置ずれ(用紙のずれ)を検知できず、その後の処理(例えば、記入欄毎の分割等)に支障をきたすという問題があった。
これにより、処理対象データにおける空白位置の位置決め精度を向上させ、この空白位置を基準として文字や図形の位置決め精度を向上させることができるので、例えば、各種の書類をスキャナを介してイメージデータ化する場合の位置ずれを解消でき、データサービスの品質を向上させること等が可能となる。
これにより、複数の文字を含むデータを適切な位置で分割することができ、例えば、一つの記入欄に書き込まれた複数の文字についても適切な位置で分割することができるので、データ入力サービスにおける機密性を向上させること等が可能となる。
これにより、最終分割データのデータ幅を余裕を持った幅とすることができ、空白位置が仮にずれていた場合であっても、空白位置近傍の文字をオペレータが明確に判定することが可能になる。
これにより、最終分割データのいずれの側にデータ幅の余裕を持たせたのかをオペレータが容易かつ正確に判定することが可能になる。
これにより、処理対象データの属性に応じた適切な数に処理対象データを分割することが可能になる。
これにより、各中間分割データのデータサイズの相違を明確化することができ、空白位置の決定精度を向上させることが可能になる。
これにより、データサイズに基づく空白位置の決定精度を高めることができると共に、空白位置の決定処理等の各種のデータ処理の負荷を軽減することができる。
図1は、本実施の形態に係るデータ分割装置を含んだデータ入力サービスシステム(以下、本システム)1を機能概念的に示すブロック図である。本システム1は、データ分割装置10と、入力端末20とを、ネットワーク30を介して通信可能に接続して構成されている。
次に、図1の各部の構成について説明する。データ分割装置10は、配列方向に沿って配列された複数の文字を含む分割対象データを、複数の最終分割データに分割する装置であり、入力部11、出力部12、ネットワークインターフェース(以下、ネットワークIF)13、記憶部14、及び制御部15を備えて構成されている。
この記憶部14には、構成情報データベース(以下、データベースをDBと表記する)14aと属性情報DB14bが設けられている。
これは、氏名については中央で分割することで「氏」と「名」に分かれやすい傾向にあり、より個人情報を特定しづらい最終分割データが得られやすいためである。同様に、住所や電話番号は後半に番地・マンション名や、電話番号の下4桁があるため、後ろよりの分割位置とすることで、より個人情報を特定しづらい最終分割データとなる。
また、上記の住所における分割位置情報は「中央及び後半の2箇所」、電話番号は「中央及び後半の1箇所」のように定めてもよい。
なお、分割位置情報により最終分割数も判断可能であるため、属性情報DB14bに分割位置情報を設ける場合には、最終分割数については設けなくてもよい。
この制御部15は、機能概念的に、データ分割部16とデータ結合部17を備え、データ分割部16は、さらに中間分割部16a、空白位置決定部16b、及び最終分割部16cを備える。これら制御部15の各部の機能の詳細は後述する。
入力端末20は、オペレータが利用する端末装置であり、オペレータはこの入力端末20を操作して、データ分割装置10から最終分割データを受信し、最終分割データに含まれる文字をテキストデータとして入力し、入力したテキストデータをデータ分割装置10に送信する。このデータ入力端末20は、例えば、公知のパーソナルコンピュータ、携帯電話、スマートフォンなどとして構成することができるので、その説明を省略する。
ネットワーク30としては、WAN(Wide Area Network)であって、代表的にはインターネットであるが、専用通信線やLAN(Local Area Network)を含んでもよい。
次に、このように構成されたデータ分割装置10によって実行される処理について説明する。この処理は、主にデータ分割部16により実行されるデータ分割処理と、主にデータ結合部17により実行されるデータ結合処理に大別される。ただし、以下の説明においては、特記するタイミングを除いて任意のタイミングにて各処理が行われ、特記する主体を除いて制御部15にて処理が行われるものとする。
最初に、データ分割処理について説明する。図3は、データ分割処理のフローチャート、図4は、データ分割処理による分割例(漢字氏名の記入欄に記入されたデータの場合の分割例)を示す図である。
(1)分割対象データの幅により決定する方法
あらかじめ、分割対象データの幅に応じた中間分割数を定めておくことにより、各分割対象データの中間分割数を決定する。これにより、記入欄の幅に対してより適切な中間分割数を決定することができる。
(2)分割対象データの高さにより決定する方法
あらかじめ、中間分割データの分割幅を、例えば(上記のノイズ部分がカットされた分割対象データの高さ):(中間分割幅)=1:xと定めておくことにより、各分割対象データの中間分割数を決定する。なお、経験的に、上記xは1未満が好ましい。
なお、上記いずれの中間分割数の決定方法においても、中間分割結果の良否等に応じて後で中間分割数を変更できるよう、画面等の入力手段を用意しておくとよい。
図7の漢字氏名の場合を例として説明すると、上述したように、推定された空白位置は16分割の8の位置である。また、最終分割数は2であるため求めるべき空白位置の数は1である(なお、上述したように、分割位置情報からも最終分割数の判断は可能である)。また、分割位置情報は「中央」の1箇所であるため、文字書き込みの開始位置(4の位置)と終了位置(11の位置)の中央の位置、すなわち7と8の間の位置が、分割に適した位置となる。上記推定された空白位置が複数ある場合には、当該分割に適した位置に近いものを選択する。したがって、図7の例において決定される空白位置は、上記16分割の8の位置となる。
また、文章などの長い文字列を分割する場合には、あらかじめ最終分割数を決めず(または最小・最大の分割数のみを決め)、行単位に、例えば上記の方法で推定される空白位置の全てについて(または最小分割数以上最大分割数以下の数で)分割するようにしてもよい。
また、推定される空白位置がない場合には、分割位置情報に対応する位置をそのまま空白位置として決定するようにしてもよい。例えば、ある分割対象データについて求めたポイントが、各中間分割データにおいて一定またはほぼ一定である(グラフが横ばいとなる)場合には空白位置の推定はできないが、その分割対象データは空欄である(記入がない)と推定することができる。このような場合には、分割位置情報に対応する位置で分割し、オペレータにおいて空欄である旨を入力する(または何も入力しない)等の対応が可能である。
次に、データ結合処理について説明する。データ結合部17は、各オペレータの入力端末20から送信されたテキストデータを用いて、分割対象データのテキストデータを結合する。具体的には、テキストデータを送信したオペレータのオペレータIDを、通信時の送信元のIPアドレスに基づいて特定した、あるいは、オペレータによってテキストデータに付加されたデータとして取得する。また、テキストデータに対応する最終分割データの最終分割データIDを、オペレータによってテキストデータに付加されたデータとして取得する。そして、これら最終分割データIDとオペレータIDに基づいて、構成情報DB14aに格納された構成情報を参照することにより、テキストデータに対応する最終分割データの分割元になった分割対象データと、この分割対象データにおける最終分割データの結合順を特定し、当該結合順に最終分割データのテキストデータを結合することで、分割対象データのテキストデータを生成する。
以上、本発明に係る実施の形態について説明したが、本発明の具体的な構成及び手段は、特許請求の範囲に記載した各発明の技術的思想の範囲内において、任意に改変及び改良することができる。
上述で図1を用いて説明した各電気的構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各部の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成できる。例えば、データ処理装置の機能を複数のコンピュータやサーバに分散したり、クラウドコンピューティング技術を用いたネットワーク構成としてもよい。また、例えば、属性情報DB14bの各項目はデータベースとして格納するのでなく、各処理のロジック内に保持していてもよい。
上記実施の形態では、データ入力サービスを行うことを目的としてデータ分割を行う場合について説明したが、他の任意の目的のためにデータ分割を行うこともでき、例えば、データの秘密通信のための分割に適用してもよい。したがって、対象書類のテキストデータを記入欄毎のテキストデータに分割する処理等は省略してもよい。あるいは、各種の書類をスキャナを介してイメージデータ化する場合において、当該書類の位置決めや、スキャン時の用紙ずれの補正等を行うために適用することもでき、この場合には、最終分割に関する構成や処理は不要となる。
上記実施の形態では、日本語による横書きの文字を含む処理対象データを分割する場合について説明したが、英語を含む任意の言語の文字であって、縦書きを含む任意の配列方向の文字を分割する場合にも、同様に本発明を適用できる。また、文字に限定されず、図形のみを含んだり、文字と図形の両方を含むデータを、処理対象データとしてもよい。この場合において、図形には、記入欄の枠線や、データの位置決め等のために付与された基準線又は基準点を含めてもよい。また、位置を決定すべき対象となる空白とは、同一行における文字や図形の相互間に設けられた空白以外にも、複数行の相互間に設けられた行間であってもよい。また、複数の文字の相互間に複数の空白が存在する場合において、位置を決定すべき対象となる空白とは、当該複数の空白の中の少なくとも一つの空白を意味し、必ずしも全ての空白の位置を決定する必要はない。
上記実施の形態では、処理対象データを、文字の配列方向に対して直交する方向に沿った複数の中間分割線により分割する場合について説明したが、中間分割線の方向は、このような直交方向に限定されず、配列方向に沿った方向であってもよく、あるいは、配列方向に沿った中間分割線と直交方向に沿った中間分割線から構成される格子状の中間分割線による分割を行ってもよい。例えば、複数行を含む文章をスキャンする際の位置ずれを検出する場合、当該行に沿った方向の中間分割線を用いて分割を行うことで中間分割データを生成し、データサイズが少ない中間分割データの位置を、これら複数行の行間であると決定してもよい。
上記実施の形態では、分割対象データを中間分割データに分割した後、各中間分割データを圧縮するものとして説明したが、これ以前のタイミングで圧縮してもよい。
上記実施の形態では、データ結合処理により作成されたテキストデータをクライアントへの納品物(最終的なアウトプット)として説明したが、納品物はこれに限られない。例えば、クライアントからの依頼物がCADの定型帳票である場合に、図面部分はそのままイメージデータ化し、文字部分は上記実施の形態によりテキストデータを作成し、当該テキストデータを埋め込んだPDFファイルを納品物とすることで、テキスト検索可能な電子帳票を納品することができる。
10 データ分割装置
14 記憶部
15 制御部
16 データ分割部
16a 中間分割部
16b 空白位置決定部
16c 最終分割部
17 データ結合部
20 入力端末
30 ネットワーク
これにより、処理対象データにおける空白位置の位置決め精度を向上させ、この空白位置を基準として文字や図形の位置決め精度を向上させることができるので、例えば、各種の書類をスキャナを介してイメージデータ化する場合の位置ずれを解消でき、データサービスの品質を向上させること等が可能となる。
これにより、各中間分割データのデータサイズの相違を明確化することができ、空白位置の決定精度を向上させることが可能になる。
Claims (7)
- 文字又は図形と空白とを含む処理対象データを処理するデータ処理装置であって、
前記処理対象データを、所定方向に沿って均等間隔で設定された複数の中間分割線により、複数の中間分割データに分割する中間分割手段と、
前記中間分割手段にて分割された複数の中間分割データであって、圧縮データに含まれる情報量に応じて当該圧縮データのサイズが異なる圧縮方法にて圧縮された複数の中間分割データの各々のデータサイズを取得し、当該取得したデータサイズに基づいて、前記処理対象データにおける空白位置を決定する空白位置決定手段と、
を備えるデータ処理装置。 - 前記処理対象データは、配列方向に沿って配列された複数の文字と空白とを含むデータであり、
前記中間分割手段は、前記処理対象データを、前記所定方向としての前記配列方向に対して直交する方向に沿って均等間隔で設定された前記複数の中間分割線により、前記複数の中間分割データに分割し、
前記空白位置決定手段は、前記取得したデータサイズに基づいて、前記処理対象データにおける前記複数の文字の相互間の空白位置を決定し、
前記空白位置決定手段にて決定された空白位置に基づいて、前記処理対象データを前記配列方向に直交する方向に沿った最終分割線で分割することにより、前記処理対象データを複数の最終分割データに分割する最終分割手段を備える、
請求項1に記載のデータ処理装置。 - 前記最終分割手段は、前記空白位置決定手段にて決定された空白位置よりも前記配列方向に沿って所定幅だけ前記最終分割データのデータ幅を拡張する位置を、前記最終分割線の位置とする、
請求項2に記載のデータ処理装置。 - 前記最終分割手段は、前記空白位置を示す情報を、前記最終分割データに付加する、
請求項3に記載のデータ処理装置。 - 前記中間分割手段が前記処理対象データを分割する際の前記中間分割線の数、又は、前記空白位置決定手段が前記処理対象データに対して決定する前記空白位置の数を、前記処理対象データの属性又は寸法のすくなくとも一方に基づいて決定する、
請求項1から4のいずれか一項に記載のデータ処理装置。 - 前記空白位置決定手段は、
前記取得したデータサイズに基づいて、前記複数の中間分割データのデータサイズの最小値及び最大値を取得し、
各中間分割データのデータサイズの評価値を、前記取得したデータサイズの最大値に対する、当該中間分割データのデータサイズから前記取得したデータサイズの最小値を減算した結果の比率として算定し、
前記算定した各中間分割データの評価値に基づいて、前記空白位置を決定する、
請求項1から5のいずれか一項に記載のデータ処理装置。 - 前記中間分割手段は、前記処理対象データから、前記所定方向における端部又は前記配列方向に直交する方向における端部の少なくとも一方を削除し、当該削除後の前記処理対象データを対象として、前記中間分割線による分割を行う、
請求項1から6のいずれか一項に記載のデータ処理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010269634A JP4746711B1 (ja) | 2010-12-02 | 2010-12-02 | データ処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010269634A JP4746711B1 (ja) | 2010-12-02 | 2010-12-02 | データ処理装置 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011107923A Division JP4846058B1 (ja) | 2011-05-13 | 2011-05-13 | データ処理装置、及びデータ処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP4746711B1 JP4746711B1 (ja) | 2011-08-10 |
JP2012120046A true JP2012120046A (ja) | 2012-06-21 |
Family
ID=44541420
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010269634A Active JP4746711B1 (ja) | 2010-12-02 | 2010-12-02 | データ処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4746711B1 (ja) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03240186A (ja) * | 1990-02-17 | 1991-10-25 | Oki Electric Ind Co Ltd | 文字切出し装置 |
JP3185170B2 (ja) * | 1995-01-25 | 2001-07-09 | 株式会社日立情報システムズ | データ入力システム |
JP4510371B2 (ja) * | 1998-01-28 | 2010-07-21 | 大和コンピューターサービス株式会社 | 文書・情報入力システム |
-
2010
- 2010-12-02 JP JP2010269634A patent/JP4746711B1/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP4746711B1 (ja) | 2011-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102403964B1 (ko) | 화상 처리 장치, 화상 처리 방법, 및 저장 매체 | |
JP5974115B2 (ja) | 式検出エンジン | |
US7746341B2 (en) | System and method for parsing point-cloud data | |
US8838657B1 (en) | Document fingerprints using block encoding of text | |
KR101549792B1 (ko) | 문서 자동 작성 장치 및 방법 | |
CN112000902B (zh) | 用于地图区域绘制的方法、电子设备和存储介质 | |
CN112398809B (zh) | 协议规则转换方法、装置、计算机设备和存储介质 | |
JP7186075B2 (ja) | 電子文書中の文字列塊を推測する方法 | |
US10825213B2 (en) | Component-based digital image synchronization | |
US20180330156A1 (en) | Detection of caption elements in documents | |
US11182343B2 (en) | File management device and file management method and non-transitory computer readable medium | |
JP4746711B1 (ja) | データ処理装置 | |
JP4846058B1 (ja) | データ処理装置、及びデータ処理プログラム | |
US10455056B2 (en) | Cloud-based storage and interchange mechanism for design elements | |
US20210303782A1 (en) | Information processing apparatus and non-transitory computer readable medium | |
US9654140B1 (en) | Multi-dimensional run-length encoding | |
JP5223293B2 (ja) | 位置表現抽出装置、方法及びプログラム | |
JP6512763B2 (ja) | 情報処理装置、情報処理方法、プログラム | |
JP6171807B2 (ja) | 文書データ処理システム、文書データ処理プログラム | |
US20240177511A1 (en) | Generating synthetic training data including document images with key-value pairs | |
CN110991270B (zh) | 文本识别的方法、装置、电子设备和存储介质 | |
US10942969B2 (en) | Non-transitory computer-readable storage medium, search control method, and search control apparatus | |
JP2014154028A (ja) | 画像処理装置、画像処理方法、及びプログラム | |
CN116258794A (zh) | 一种地震剖面数字化方法及装置 | |
JP2024056576A (ja) | 判定プログラム、判定方法、および情報処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110308 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110412 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110513 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140520 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4746711 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140520 Year of fee payment: 3 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313115 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140520 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313117 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |