JP2007079979A - 文書管理装置、文書管理システムおよび文書管理方法 - Google Patents
文書管理装置、文書管理システムおよび文書管理方法 Download PDFInfo
- Publication number
- JP2007079979A JP2007079979A JP2005267400A JP2005267400A JP2007079979A JP 2007079979 A JP2007079979 A JP 2007079979A JP 2005267400 A JP2005267400 A JP 2005267400A JP 2005267400 A JP2005267400 A JP 2005267400A JP 2007079979 A JP2007079979 A JP 2007079979A
- Authority
- JP
- Japan
- Prior art keywords
- character code
- character
- code information
- information
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Character Discrimination (AREA)
Abstract
【解決手段】 本発明に係る管理サーバでは、イメージ化した画像情報(図6中の中央)を得る。文字認識処理により、図6中の右側に示す11文字の文字コードを得る。アプリケーションソフトF1の場合には、22文字の文字コードが文字コード情報として割り当てられる。そこで、この22文字を11文字の文字コードに置き換えて文字コード情報を作成する。これにより、影付き文字であっても、正確な文字コードが割り当てられる。
【選択図】 図6
Description
前記管理サーバが、文字コード情報を画像化した情報を含む画像情報および前記文字コード情報を有した電子文書を受け取る入力手段と、前記入力手段が受け取った前記電子文書の画像情報をイメージに展開する文書イメージ生成手段と、前記イメージ生成手段によって展開されたイメージのレイアウトを解析して領域を認識するレイアウト解析手段と、前記レイアウト解析手段によって認識された領域が文字領域か否かを判定する判定手段と、前記判定手段によって文字領域と判定された領域に対して文字認識処理を施して文字コード情報を生成する文字認識手段と、前記入力手段が受け取った文字コード情報と前記文字認識手段が生成した文字コード情報について、対応する部分同士を所定のアルゴリズムに従って文書解析して評価し、評価結果を選択する文字コード選択手段と、前記文字コード選択手段によって選択された文字コード情報の各部分を繋ぎ合わせて前記電子文書の文字コード情報とする文字コード情報作成手段と、を備え、
前記端末装置が、前記管理サーバの前記入力手段に対して電子文書を送信する電子文書送信手段を備えたことを特徴とする。
以下、図面を参照し、本発明に係る第1実施形態を説明する。図1は、本実施形態による文書管理システム1の全体構成を示す図である。このシステム1は、ネットワーク400を介して接続されたユーザ端末100、管理サーバ200およびデータベース300を具備している。
ユーザ端末100は、種々のアプリケーションソフトによって電子文書を生成する機能を有する。これらのアプリケーションソフトによって生成された電子文書は、文字コード情報(例えば、JISコード,EUC,シフトJIS)を画像化した情報を含む画像情報および前記文字コード情報を有している。
具体的には、送信された電子文書のファイル名から画像情報のフォーマットを特定し、変換可能なフォーマットである場合には所定フォーマット(例えば、PDF(Portable Document Format))に変換する。
具体的には、電子文書のファイル名「001」に対し、画像情報「001−D」・文字コード情報「001−C」、ファイル名「002」に対し、画像情報「002−D」・文字コード情報「002−C」、といった具合である。
図3は、管理サーバ200の機能構成を示すブロック図である。管理サーバ200は、データ送受信部210、文書イメージ生成部220、レイアウト解析部230、判定部240、OCR処理部250、文字コード情報選択部260、文字コード情報作成部270およびこれらを制御する制御部280を具備する。制御部280は、図示しないCPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)を備えており、各種の処理動作を司る機能を有する。
文書イメージ生成部220は、アプリケーションソフトによって生成された電子文書の画像情報をイメージ化する。即ち、電子的なデータから紙面に印刷される画像データに変換する。レイアウト解析部230は、文書イメージ生成部220によりイメージ化された画像データをレイアウト解析して文字領域と図形領域(図や写真)とに分ける。判定部240は、レイアウト解析部230によって認識された領域が文字領域であるか否かを判定する。OCR(Optical Character Reader)処理部250は、判定部240でレイアウト解析部230によって認識された領域が文字領域であると判定した場合、当該領域の文字認識を行い、文書データの各文字に対する文字コード情報を確定する。
ここで、自然言語解析とは、公知の形態素解析や構文解析の手法を用いて、文章を解析する手法であり、本実施形態では、言葉として意味が通じているか否かを解析するものである。
次に、図4のフローチャートに基づいて、本実施形態による文書管理システム1の文字コード情報作成処理動作について説明する。
管理サーバ200は、ユーザ端末100から所定のアプリケーションソフトによって生成された電子文書が送信されることにより、その動作を開始する(ステップS1;YES)。
この説明では、ユーザ端末100から送信される電子文書が1つの場合について説明するが、ユーザが電子文書をまとめて送信してもよいことは勿論である。
さらに、制御部280は判定部240に対し、レイアウト解析部230で分けられた領域のうち、これらの領域が文字領域であるか否かを判定させる。文字領域となる情報をOCR処理部250に転送する。このOCR処理部250では、転送された文字領域の文字に対して文字コードを確定して文字コード情報C2を生成する(ステップS5)。
次に、本実施形態の具体例について、図5および図6を参照しつつ説明する。
図5に示すように、電子文書中に「これは影付き文字です。」という文章X1が影付き文字の装飾が施され、「これは中抜き文字です。」という文章X2が中抜き文字の装飾が施されている。ここでは、アプリケーションソフトをF1,F2とする。
アプリケーションソフトF1における文章X1は、「これは影付き文字です。」→「ここれれはは影影付付きき文文字字でですす。。」となり、この22文字に対して文字コード情報が割り振られることになる。一方、アプリケーションソフトF2における文章X1は、「これは影付き文字です。」となり、この11文字に対して正確な文字コード情報が割り振られることになる。
また、文章X2の「これは中抜き文字です。」に対しては、文字画像として捕らえられているため、アプリケーションソフトF1,F2の両方とも文字コード情報は割り振られていない。
前述した如く、入力された文章X1は影付き文字の装飾が施された「これは影付き文字です。」であり、アプリケーションソフトF1では「ここれれはは影影付付きき文文字字でですす。。」となる。このため、この22文字に対して文字コードが割り振られた文字データ情報が画像情報に添付されている。
そして、ステップS8の処理において、画像情報に添付した文字コード情報の22文字の文字コードを11文字の文字コード情報に置換し、置換後の文字コード情報を画像情報に添付する。
因みに、「これは影付き文字です。」に対応したJISコードは、2433・246C・244F・3146・4955・242D・4A38・3B7A・2447・2439・2123と表される。
さらに、正確な文字コード情報が添付された画像情報を所定フォーマットに変換した他の画像情報にも添付させることができ、他のフォーマット形式の画像情報であっても、文字コード情報を利用しての検索や翻訳等の機能や再編集が可能となる。
以上、本発明の実施形態について説明したが、本発明は上述した各実施形態に限定されるものではなく、種々の態様が可能である。
前記実施形態では、ユーザ端末100と管理サーバ200とをネットワーク400で接続する文書管理システムとして説明したが、本発明はこれに限らず、ユーザ端末100内に管理サーバ200の機能を内蔵させ、ユーザ端末100を文書管理装置してもよい。また、管理サーバ200は、社内或いは社外に設置して文書管理を行ってもよい。さらに、管理サーバ200に翻訳部および翻訳辞書部を設け、前記管理サーバ200を管理サーバとして用いてもよい。
Claims (5)
- 文字コード情報を画像化した情報を含む画像情報および前記文字コード情報を有した電子文書を受け取る入力手段と、
前記入力手段が受け取った前記電子文書の画像情報をイメージに展開する文書イメージ生成手段と、
前記イメージ生成手段によって展開されたイメージのレイアウトを解析して領域を認識するレイアウト解析手段と、
前記レイアウト解析手段によって認識された領域が文字領域か否かを判定する判定手段と、
前記判定手段によって文字領域と判定された領域に対して文字認識処理を施して文字コード情報を生成する文字認識手段と、
前記入力手段が受け取った文字コード情報と前記文字認識手段が生成した文字コード情報について、対応する部分同士を所定のアルゴリズムに従って文書解析して評価し、評価結果に基づいて、いずれか一方の文字コード情報を選択する文字コード選択手段と、
前記文字コード選択手段によって選択された文字コード情報の各部分を繋ぎ合わせて前記電子文書の文字コード情報とする文字コード情報作成手段と、を具備する
ことを特徴とする文書管理装置。 - 請求項1記載の文書管理装置において、
前記画像情報を他のフォーマット形式に変換し、変換後の画像情報を前記文字コード情報作成手段が作成した文字コード情報とともに格納する電子文書格納手段を具備することを特徴とする
ことを特徴とする文書管理装置。 - 請求項1または2のいずれかに記載の文書管理装置において、
前記所定のアルゴリズムは自然言語解析に従ったアルゴリズムである
ことを特徴とする文書管理装置。 - 端末装置と、前記端末装置とネットワークを介して接続された管理サーバとを有し、
前記管理サーバが、
文字コード情報を画像化した情報を含む画像情報および前記文字コード情報を有した電子文書を受け取る入力手段と、
前記入力手段が受け取った前記電子文書の画像情報をイメージに展開する文書イメージ生成手段と、
前記イメージ生成手段によって展開されたイメージのレイアウトを解析して領域を認識するレイアウト解析手段と、
前記レイアウト解析手段によって認識された領域が文字領域か否かを判定する判定手段と、
前記判定手段によって文字領域と判定された領域に対して文字認識処理を施して文字コード情報を生成する文字認識手段と、
前記入力手段が受け取った文字コード情報と前記文字認識手段が生成した文字コード情報について、対応する部分同士を所定のアルゴリズムに従って文書解析して評価し、評価結果の方を選択する文字コード選択手段と、
前記文字コード選択手段によって選択された文字コード情報の各部分を繋ぎ合わせて前記電子文書の文字コード情報とする文字コード情報作成手段と、を備え、
前記端末装置が、
前記管理サーバの前記入力手段に対して電子文書を送信する電子文書送信手段を備えた
ことを特徴とする文書管理システム。 - 文字コード情報を画像化した情報を含む画像情報および前記文字コード情報を有した電子文書を受け取る入力ステップと、
前記入力ステップで受け取った前記電子文書の画像情報をイメージに展開する文書イメージ生成ステップと、
前記イメージ生成ステップによって展開されたイメージのレイアウトを解析して領域を認識するレイアウト解析ステップと、
前記レイアウト解析ステップによって認識された領域が文字領域か否かを判定する判定ステップと、
前記判定ステップによって文字領域と判定された領域に対して文字認識処理を施して文字コード情報を生成する文字認識ステップと、
前記入力ステップで受け取った文字コード情報と前記文字認識ステップで生成した文字コード情報について、対応する部分同士を所定のアルゴリズムに従って文書解析して評価し、評価結果に基づいて、いずれか一方の文字コード情報を選択する文字コード選択ステップと、
前記文字コード選択ステップによって選択された文字コード情報の各部分を繋ぎ合わせて前記電子文書の文字コード情報とする文字コード情報作成ステップと、を備える
ことを特徴とする文書管理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005267400A JP4872285B2 (ja) | 2005-09-14 | 2005-09-14 | 文書管理装置、文書管理システムおよび文書管理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005267400A JP4872285B2 (ja) | 2005-09-14 | 2005-09-14 | 文書管理装置、文書管理システムおよび文書管理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007079979A true JP2007079979A (ja) | 2007-03-29 |
JP4872285B2 JP4872285B2 (ja) | 2012-02-08 |
Family
ID=37940216
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005267400A Expired - Fee Related JP4872285B2 (ja) | 2005-09-14 | 2005-09-14 | 文書管理装置、文書管理システムおよび文書管理方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4872285B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012061971A (ja) * | 2010-09-16 | 2012-03-29 | Bridgestone Corp | タイヤ |
CN103167963A (zh) * | 2010-09-09 | 2013-06-19 | 株式会社普利司通 | 轮胎 |
CN114037823A (zh) * | 2021-11-08 | 2022-02-11 | 上海触讯信息科技有限公司 | 一种基于深度学习ocr的电子书补字文件管理方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58123152A (ja) * | 1982-01-14 | 1983-07-22 | Toshiba Corp | 文書画像編集装置 |
JPS62202283A (ja) * | 1986-03-01 | 1987-09-05 | Ricoh Co Ltd | 日本語処理方式 |
JP2000348137A (ja) * | 1999-06-04 | 2000-12-15 | Canon Inc | 画像出力装置、画像出力方法及び記憶媒体 |
JP2001126026A (ja) * | 1999-10-22 | 2001-05-11 | Toshiba Tec Corp | 情報入力装置 |
JP2001344235A (ja) * | 2000-05-31 | 2001-12-14 | Efooto Kk | 自動文字校正方法及びその装置 |
JP2002111918A (ja) * | 2000-09-27 | 2002-04-12 | Ricoh Co Ltd | ファクシミリ装置 |
-
2005
- 2005-09-14 JP JP2005267400A patent/JP4872285B2/ja not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58123152A (ja) * | 1982-01-14 | 1983-07-22 | Toshiba Corp | 文書画像編集装置 |
JPS62202283A (ja) * | 1986-03-01 | 1987-09-05 | Ricoh Co Ltd | 日本語処理方式 |
JP2000348137A (ja) * | 1999-06-04 | 2000-12-15 | Canon Inc | 画像出力装置、画像出力方法及び記憶媒体 |
JP2001126026A (ja) * | 1999-10-22 | 2001-05-11 | Toshiba Tec Corp | 情報入力装置 |
JP2001344235A (ja) * | 2000-05-31 | 2001-12-14 | Efooto Kk | 自動文字校正方法及びその装置 |
JP2002111918A (ja) * | 2000-09-27 | 2002-04-12 | Ricoh Co Ltd | ファクシミリ装置 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103167963A (zh) * | 2010-09-09 | 2013-06-19 | 株式会社普利司通 | 轮胎 |
CN103167963B (zh) * | 2010-09-09 | 2015-07-22 | 株式会社普利司通 | 轮胎 |
US9550397B2 (en) | 2010-09-09 | 2017-01-24 | Bridgestone Corporation | Tire |
JP2012061971A (ja) * | 2010-09-16 | 2012-03-29 | Bridgestone Corp | タイヤ |
CN114037823A (zh) * | 2021-11-08 | 2022-02-11 | 上海触讯信息科技有限公司 | 一种基于深度学习ocr的电子书补字文件管理方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
JP4872285B2 (ja) | 2012-02-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100936204B1 (ko) | 카피 앤드 페이스트 처리 방법, 장치 및 기록 매체 | |
US8155444B2 (en) | Image text to character information conversion | |
CN109492199B (zh) | 一种基于ocr预判断的pdf文件转换方法 | |
JP5121599B2 (ja) | 画像処理装置、画像処理方法およびそのプログラムならびに記憶媒体 | |
KR20080044156A (ko) | 기록 매체 및 문자 입력 편집 방법 | |
KR20080100179A (ko) | 벡터 그래픽 문서 내 리스트 인식 방법, 벡터 그래픽 문서해석 방법 및 컴퓨터 판독가능 매체 | |
US9286272B2 (en) | Method for transformation of an extensible markup language vocabulary to a generic document structure format | |
US20060143555A1 (en) | Apparatus and method for extracting information from a formatted document | |
JP4579595B2 (ja) | 音声認識文法作成装置、音声認識文法作成方法、プログラム、及び記憶媒体 | |
JP4872285B2 (ja) | 文書管理装置、文書管理システムおよび文書管理方法 | |
JP2002073598A (ja) | 文書処理装置および方法 | |
JP2006065467A (ja) | データ抽出定義情報生成装置およびデータ抽出定義情報生成方法 | |
CN112114803A (zh) | 基于深度学习的ui界面的前端代码生成方法、设备及介质 | |
JP2007043662A (ja) | 画像形成装置及び画像処理装置 | |
JP2010170525A (ja) | 付加画像処理システム、画像形成装置及び付加画像追加方法 | |
JP2010146143A (ja) | 文書処理装置及びプログラム | |
JPH0748217B2 (ja) | 文書要約装置 | |
KR100366657B1 (ko) | 프린트 출력 이미지의 텍스트 파일 역변환 방법 및 그 장치 | |
JP4111202B2 (ja) | 画像形成装置 | |
JP4734964B2 (ja) | 情報処理装置および方法並びにプログラム | |
JP2005050094A (ja) | 光学的文字読取装置 | |
JP2007265429A (ja) | 文書変換システム、文書変換方法及び文書変換プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2008046850A (ja) | 文書種類判別装置及び文書種類判別プログラム | |
JP5337516B2 (ja) | 文書処理装置及びプログラム | |
JPH11238053A (ja) | 文書作成装置および文書作成方法ならびに文書作成プログラムを記録した記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080821 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110628 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110729 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111025 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111107 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141202 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4872285 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees | ||
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R370 | Written measure of declining of transfer procedure |
Free format text: JAPANESE INTERMEDIATE CODE: R370 |