JP5550959B2 - 文書処理システム、及びプログラム - Google Patents
文書処理システム、及びプログラム Download PDFInfo
- Publication number
- JP5550959B2 JP5550959B2 JP2010066834A JP2010066834A JP5550959B2 JP 5550959 B2 JP5550959 B2 JP 5550959B2 JP 2010066834 A JP2010066834 A JP 2010066834A JP 2010066834 A JP2010066834 A JP 2010066834A JP 5550959 B2 JP5550959 B2 JP 5550959B2
- Authority
- JP
- Japan
- Prior art keywords
- metadata
- data
- character string
- corrected
- target data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Processing Or Creating Images (AREA)
- Character Discrimination (AREA)
Description
図4は、本発明の実施形態による文字列修正システム(文書処理システム)の概略構成を示す図である。当該文字列修正システムは、紙文書を予めスキャン・OCRを施して得られるスキャン画像及びスキャン画像の文字列データを蓄積するスキャンデータDB401と、スキャンデータから抽出したメタデータを格納するメタデータDB402と、メタデータとなり得る多数の文字列を格納する辞書DB403と、形態素解析時に使用する辞書を格納する形態素解析DB404と、メタデータの定義が記載されているメタデータ項目設定ファイル405(具体的な内容は図4参照)と、閾値や各種パラメータが記載されているパラメータ設定ファイル406と、検索結果やメタデータ設定画面の表示等を行う表示装置407と、データの入力や編集やメニューの選択などの操作を行うためのキーボード408及びマウスなどのポインティングデバイス409と、必要な演算処理、制御処理等を行う中央処理装置410と、を有している。
図5は、固定帳票のメタデータ項目の設定ファイルの例である。図5はXML形式のテキストデータで、各メタデータの項目名(item)、データ型(type)、記載フォーマット(define)、記載範囲(upper left, lower right)、順序関係(constraint order)、順序式(order)、従属関係(dependent item)の各情報が記載されている。itemタグは各メタデータの種類を表す。typeタグはメタデータのデータ型を表す。例えばStringは文字列型を表し、文字列のデータが格納されることを示す。Intは整数型を表し、整数のデータが格納されることを示す。Dateは日付型を表し、日付のデータが格納されることを示す。また、各データは組み合わせることもできる。例えば、String + Intは、文字列データと整数データが組み合わされたデータを示す。各型は「+」演算子で結合される。また、データは正規表現で表すこともできる。その際のデータは、次に続くdefineタグで定義される。upper leftタグとlower rightタグは帳票上のメタデータの記載範囲を表す。upper leftタグは、記載範囲の左上の座標を表し、lower rightタグは、記載範囲の右下の座標を表す。文書管理システムでは、このような定義に基づいてメタデータを格納する。
図6は、メタデータDB402内のメタデータの一例を示す図である。本発明では、メタデータを登録したファイルは、メタデータと共にここで管理するものとする。従って、メタデータが未登録のファイルはここには登録されていないものとする。
図7は、辞書DB403内の辞書データの一例を示す図である。辞書データは、メタデータ項目毎に、メタデータの文字列となり得るリストを集めたテキストファイルで構成され、あらかじめDBに登録しておく。メタデータ項目「文書種別名」におけるメタデータのキーワードを集めたものを「文書種別名.txt」に、メタデータ項目「顧客名」におけるキーワードを集めたものを「顧客名.txt」に登録した例を示している。図7に示すように、キーワードごとに改行して入力する。
図8は、修正画面表示部411が作成し、表示する修正画面の一例を示す図である。当該修正画面は、GUIのウインドウ上に、表形式で表されたメタデータの他に、処理実行時に押下される修正実行メニュー801と、各行の修正を実行するか否かを選択する処理チェックボックス802とを含んでいる。
アラート判定処理は、図8の修正画面が表示されるタイミングと、図8の修正画面において、セル内の文字列が更新されるタイミングで実行される。
図10は、図9におけるステップ907の修正の必要有無の判定処理の詳細を説明するためのフローチャートである。
図14は、アラート判定結果の一例である。修正すべきメタデータが色分けして表示されている(1401)。これにより、ユーザは修正すべきメタデータを簡単にチェックすることができ、見落とすリスクも減少する。
この点、本発明では、複数のアラートを同時に表示することも可能である。その場合はエラーフラグをアラートの種類毎に定義し、各アラートの必要の有無を当該エラーフラグに設定する。そしてアラート表示時にはエラーフラグを参照しアラートが必要な項目についてアラートを行う。
図15は、修正候補算出部413において実行されるサジェスト処理の内容を説明するためのフローチャートである。
以上説明したように、本実施形態によれば、メタデータデータベースに格納された複数の文書のそれぞれについて複数のメタデータの中で修正対象となるメタデータを抽出し、そのメタデータが修正必要であることを示すアラート表示を行う。また、修正対象のメタデータと辞書データベースに含まれる辞書データとを照合し、類似したデータを修正候補としてサジェスト表示を行う。これにより、紙文書に対してスキャン・OCRを施して得られた文字列を容易に発見・修正することが可能となり、ユーザにとってストレスのない形でのメタデータ設定を実現できる。
402…メタデータDB
403…辞書DB
404…形態素解析DB
405…メタデータ項目設定ファイル
406…パラメータ設定ファイル
407…表示装置
408…キーボード
409…マウス
410…中央処理装置
411…修正画面表示部
412…修正対象算出部
413…修正候補算出部
601…ファイルID
602…状態
603…ファイルパス
604…メタデータ全体
605…文書種別名
606…顧客名
607…起票日
608…案件ID
801…修正実行メニュー
802…処理チェックボックス
1401…アラート表示されたメタデータ
1601…フォーマット表示ポップアップ
1602…入力候補文字列サジェスト
1603…データ範囲ポップアップ
1604…適正文字列サジェスト
Claims (5)
- 複数の紙文書に対してスキャン・OCRを経て得られ、複数の文書毎に複数のメタデータを格納するメタデータデータベースと、
前記メタデータとなりうる文字列を格納する辞書データベースと、
表示装置と、
入力デバイスと、
中央処理装置と、を有し、
前記中央処理装置は、
前記メタデータデータベースに格納された前記複数の文書のそれぞれについて前記複数のメタデータの中で処理対象データが文字列であるか否か判断し、
(i)前記処理対象データが文字列である場合、前記処理対象データを前記辞書データベースに格納された文字列、及び前記メタデータデータベースにおいて正しいメタデータとして既に登録済のデータと比較し、前記処理対象データが前記辞書データベースに格納された文字列、又は前記登録済のデータと矛盾が生じているか否か判断し、矛盾が生じている場合に、前記処理対象データを修正対象のメタデータとして抽出し、前記抽出されたメタデータが修正必要であることを示すアラート表示を前記表示装置に表示し、
前記修正対象のメタデータと前記辞書データベースに含まれる辞書データとを照合し、類似したデータを修正候補として前記表示装置にサジェスト表示し、
(ii)前記処理対象データが文字列以外のデータである場合、前記処理対象データが予め定義されたフォーマットで記述されているか判断し、前記フォーマットで記述されていない前記処理対象データを前記修正対象のメタデータとして抽出し、
前記修正対象となった前記処理対象データに対して、メタデータの記述形式を定義するメタデータ項目設定ファイルにおいて定義されている適切なフォーマットを前記修正候補としてサジェスト表示し、
(iii)前記処理対象データが予め定義されたフォーマットで記述された文字列以外のデータである場合、前記登録済のデータの中に前記処理対象データを持つ文書の案件IDと同一の案件IDを持つ他の文書があるか否か判断し、
(iii-1)これらの文書間の作成順序が正当でない場合には、前記処理対象データを前記修正対象のメタデータとして抽出し、前記修正対象となった前記処理対象データに対して、正当な作成順序が担保されるようなデータを前記修正候補としてサジェスト表示し、
(iii-2)前記登録済のデータを持つ文書における各メタデータの項目の従属関係と、前記処理対象データを持つ文書におけるメタデータの項目の従属関係とに矛盾がある場合には、前記処理対象データを前記修正対象のメタデータとして抽出し、前記修正対象となった前記処理対象データに対して、正当な従属関係となるような文字列データを前記修正候補としてサジェスト表示することを特徴とする文書処理システム。 - 請求項1において、
さらに、形態素解析に使用する形態素解析辞書データを格納する形態素解析データベースを有し、
前記中央処理装置は、前記複数のメタデータの中の処理対象データに対して形態素解析を実行し、当該形態素解析により得られるデータが前記形態素解析辞書データに存在するか否か判断し、前記形態素解析により得られるデータの数が所定数未満の場合に、前記修正対象のメタデータであると判定することを特徴とする文書処理システム。 - 請求項2において、
前記中央処理装置は、修正対象となった前記処理対象データと、前記メタデータデータベース及び前記辞書データベースを比較し、マッチング度が高い文字列データを前記修正候補としてサジェスト表示することを特徴とする文書処理システム。 - 請求項1乃至3の何れか1項において、
前記中央処理装置は、前記処理対象データが修正された場合に、修正後のデータに対して、再度修正が必要か否か判断し、修正が必要な場合には、再度アラート表示をすることを特徴とする文書処理システム。 - コンピュータと記憶装置を、請求項1に記載の文書処理システムとして機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010066834A JP5550959B2 (ja) | 2010-03-23 | 2010-03-23 | 文書処理システム、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010066834A JP5550959B2 (ja) | 2010-03-23 | 2010-03-23 | 文書処理システム、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011198285A JP2011198285A (ja) | 2011-10-06 |
JP5550959B2 true JP5550959B2 (ja) | 2014-07-16 |
Family
ID=44876338
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010066834A Expired - Fee Related JP5550959B2 (ja) | 2010-03-23 | 2010-03-23 | 文書処理システム、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5550959B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7271987B2 (ja) * | 2019-02-14 | 2023-05-12 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及びプログラム |
JP7391343B1 (ja) * | 2023-03-15 | 2023-12-05 | 株式会社Fronteo | 情報処理装置及び情報処理方法 |
JP7376033B1 (ja) * | 2023-03-15 | 2023-11-08 | 株式会社Fronteo | 情報処理装置及び情報処理方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080162602A1 (en) * | 2006-12-28 | 2008-07-03 | Google Inc. | Document archiving system |
US7778953B2 (en) * | 2007-02-19 | 2010-08-17 | Kabushiki Kaisha Toshiba | Document management apparatus and document management method |
JP4998219B2 (ja) * | 2007-11-09 | 2012-08-15 | 富士通株式会社 | 帳票認識プログラム、帳票認識装置および帳票認識方法 |
JP2009193356A (ja) * | 2008-02-14 | 2009-08-27 | Canon Inc | 画像処理装置、画像処理方法、プログラム、及び記憶媒体 |
-
2010
- 2010-03-23 JP JP2010066834A patent/JP5550959B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011198285A (ja) | 2011-10-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
USRE49576E1 (en) | Standard exact clause detection | |
US8468167B2 (en) | Automatic data validation and correction | |
US10366123B1 (en) | Template-free extraction of data from documents | |
JP6871840B2 (ja) | 計算機及び文書識別方法 | |
JP6938228B2 (ja) | 計算機、文書識別方法、及びシステム | |
RU2613846C2 (ru) | Метод и система извлечения данных из изображений слабоструктурированных документов | |
US9098487B2 (en) | Categorization based on word distance | |
US10963717B1 (en) | Auto-correction of pattern defined strings | |
JP2014182477A (ja) | プログラム及び帳票処理装置 | |
US20120179702A1 (en) | Method for setting metadata, system for setting metadata, and program | |
Mosavi Miangah | FarsiSpell: A spell-checking system for Persian using a large monolingual corpus | |
EP4141818A1 (en) | Document digitization, transformation and validation | |
US11321384B2 (en) | Method and system for ideogram character analysis | |
US8571262B2 (en) | Methods of object search and recognition | |
JP5550959B2 (ja) | 文書処理システム、及びプログラム | |
Blanke et al. | Ocropodium: open source OCR for small-scale historical archives | |
US20240211518A1 (en) | Automated document intake system | |
JP5229102B2 (ja) | 帳票検索装置、帳票検索プログラムおよび帳票検索方法 | |
US20150186363A1 (en) | Search-Powered Language Usage Checks | |
US9600480B2 (en) | Systems and methods for indexing and linking electronic documents | |
CN112149402A (zh) | 文档对比方法、装置、电子设备和计算机可读存储介质 | |
JP7377565B2 (ja) | 図面検索装置、図面データベース構築装置、図面検索システム、図面検索方法、及びプログラム | |
US20230267274A1 (en) | Mapping entities in unstructured text documents via entity correction and entity resolution | |
US12056946B2 (en) | Method and system to align quantitative and qualitative statistical information in documents | |
US20240070377A1 (en) | Information processing apparatus, information processing method, and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120720 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130910 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140507 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140521 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5550959 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |