JP2010238159A - 認識パラメータチューニング方法 - Google Patents
認識パラメータチューニング方法 Download PDFInfo
- Publication number
- JP2010238159A JP2010238159A JP2009088089A JP2009088089A JP2010238159A JP 2010238159 A JP2010238159 A JP 2010238159A JP 2009088089 A JP2009088089 A JP 2009088089A JP 2009088089 A JP2009088089 A JP 2009088089A JP 2010238159 A JP2010238159 A JP 2010238159A
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- parameter
- correct answer
- training document
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】電子文書から文書情報を認識する認識プログラムの認識精度を変更する認識パラメータチューニング方法であって、認識処理部が、二つのトレーニング文書群の各々に対して一つの認識パラメータをもとに認識処理を実行し、該認識処理の認識精度を表す正答率を計算するステップと、表示処理部が、前記認識処理に対する各々の認識結果および正答率を表示するステップと、を有することを特徴とする。
【選択図】図1
Description
本発明は、文書に対する一般的な認識プログラムに関するものであるが、説明を容易にするため、“文書内の文字列からタイトル文字列を認識するプログラム”を認識プログラムの例題として以降説明する。対象とするのはOCR処理後の文字情報付きの電子文書またはオフィスソフトで作成した電子文書である。このタイトル認識プログラムは、文書中の各文字列について“タイトルらしさ”のスコア計算を行い、最も高いスコアを持つ文字列をタイトルとするプログラムである。ここで“タイトルらしさ”のスコアとは、レイアウト特徴とその配点を予め決めておき、文字列が該当する特徴を持てば特徴に対応する配点を加算して求めた点数である。例えばある文字列が、フォント大であれば2点、センタリングされていたら3点、等である。このような情報は、電子文書内の文字列の属性情報として組み込まれていればそれを利用し、組み込まれていないならば文字列の位置する領域座標や文字の高さや幅などから取得する。フォント大などの特徴は、文書中に現れる全ての文字から相対的に判断しても良く、属性情報から得た絶対値に閾値を設けて判断してもよい。このレイアウト上の特徴とそれに対する配点が、この認識プログラムにおけるパラメータとなる。このパラメータを変更すれば各文字列の“タイトルらしさ”のスコアが変わるため、結果的に認識されるタイトル文字列が変わり得る。
図1は、本発明の認識パラメータチューニング方法を実現するシステム、および、文書に対する認識プログラムの内部構造を概略的に示した構成図である。このシステムは、既存の(今まで用いていた)トレーニングセットの文書とその正解データを集めた既存トレーニング文書DB101、パラメータを更新するために、新たに収集したトレーニングセットの文書とその正解データを集めた新規トレーニング文書DB102、本認識プログラムに対するパラメータが入っているパラメータファイルDB103、本認識プログラムで出力した結果が蓄積されている認識結果DB104、本認識プログラムの実行対象となる(トレーニングセットではなく一般の)文書を集めた文書DB105、パラメータチューニングや認識プログラムの結果表示等を行う表示装置106、データの入力や編集、メニューの選択などの操作を行うためのキーボード107とマウスなどのポインティングデバイス108、必要な演算処理、制御処理等を行う中央処理装置109を備える。ここで既存トレーニング文書DB101・新規トレーニング文書DB102・パラメータファイルDB103・認識結果DB104・文書DB105は、DBとしての実体が物理的に一つではなく複数である場合も対象としている。またトレーニングセットとは、認識プログラムの認識精度を評価するためのデータ(文書の集合)である。正解データとは、各文書に対する正しい認識結果(タイトル文字列)である。新規トレーニング文書DB101の文書として、例えば、既存パラメータで正確に認識できなかった文書の集合や、既存トレーニング文書DBの中にはない文書種別を収集したものが考えられる。
図2は、文書データの一例である。本発明では、見積書・契約書・注文書・仕様書・設計書など一般的な文書を想定としており、OCR処理をした後のテキスト情報を含んだ文書データであるか、オフィス系ソフトで作成した文書データであるものとする。このような文書データが、既存トレーニング文書DB101、新規トレーニング文書DB102、文書DB105の中に蓄積されている。本発明で説明する文中の“文字列”とは、図2の「御見積書」や「見積No. 1111」のような、周りに空白エリアのある文字列とする。
図3は、トレーニング文書に対する正解データの一例を示したもので、既存トレーニング文書DB101、新規トレーニング文書DB102に含まれるものである。蓄積された文書ファイルに対するファイルパス301と、文書ファイルに対する正解データ302の組で登録されている。本発明では、正解データは文書のタイトルの文字列となる。
図4は、本認識プログラムで用いるパラメータファイルの一例であり、パラメータファイルDB103に蓄積される。図4に示すように、このパラメータファイルでは、文中のタイトル文字列が持つべきレイアウト特徴とその配点がカンマ区切りで記述される。本発明で例示する“タイトル文字列を認識するプログラム”では、文中の各文字列に対して、ここで指定したレイアウト特徴を持つ場合に対応する配点を加算し、最も高いスコアをもつ文字列を“タイトル文字列”とする。例えば、図2の「御見積書」という文字列は図4のパラメータによると7点(センタリング(3点)+太字(1点)+フォント大(2点)+アンダーライン有(1点))であり、他のどの文字列のスコアよりも高いので、「御見積書」をタイトル文字列と認識する。
図5は、本認識プログラムで認識されたタイトル領域を表す例(A)と、本認識プログラムの認識結果(B)の一例である。
図6は、既存トレーニング文書DB101と新規トレーニング文書DB102に蓄積された文書のタイトル認識結果を見比べて、手動で認識パラメータを設定する処理を概略的に示すフローチャートである。
図7は、最良のパラメータを自動的に取得する処理フローである。本処理では、ユーザから指定された「パラメータ条件」を満たすように既存トレーニング文書DB101に対してチューニングされたパラメータ群の中で、新規トレーニング文書DB102に対するタイトル認識精度が最も高いパラメータを選択する。
図8は、パラメータを設定するときの画面である。パラメータ設定画面は、パラメータの編集を行うペイン(部分表示領域)801と、認識結果の表示を行うペイン802からなる。
ラジオボタン807が選択されると、手動でパラメータが調整できるようになる。これは図6の処理フローに対応している。ユーザーによって、各レイアウト特徴に対するスライドバー809が操作されることでパラメータが調整され、最後に実行ボタン810が押下されると、認識処理部110が調整後のパラメータに従って認識処理を実行する。結果は、表示処理部114が認識結果の表示ペイン802に表示する。ユーザは既存トレーニング文書と新規トレーニング文書でどの程度認識精度が向上したか/悪化したかを確認し、認識結果が満足いかないものであれば、再度パラメータを調整し認識処理を実行することも可能である。ユーザはこのように、パラメータを調整してトライ&エラーを繰り返し、ペイン802の既存トレーニング文書と新規トレーニング文書の認識結果の精度のトレードオフを確かめながら、最適なパラメータを容易に探すことができる。
ラジオボタン808が選択されると、最良のパラメータを自動的に探索することができる。これは図7の処理フローに対応している。最良のパラメータを選ぶための基準として、既存トレーニング文書に対する正答率で絞り込むか、正確にタイトルを認識すべき文書を指定して絞り込むかの選択を受け付ける。これら両方の条件を指定しても良い。前者はチェックボックス811で、後者はチェックボックス812で指定される。
図9は、本発明の認識プログラムの実行処理のフローを概略的に示すフローチャートである。たとえば、タイトル文字列に「御見積書」を含む文書を検索したい場合、あらかじめ個々の文書に文書情報としてタイトル認識させたものを認識結果情報DB104に保存しておくのが一般的である。以下、個々の文書のタイトル認識にあたってパラメータ設定機能を新たに設け、文書中の文字列からタイトルを認識する精度を向上させた本発明の認識プログラムについて説明する。
図10は、認識プログラムを実行するときの画面である。文書を読み込むと、文書表示エリア1001に文書を表示する。ユーザはこの文書に対する適切なパラメータを、適用パラメータエリア1002に入力する。図10では、ユーザはパラメータ「規定値」を選択した様子を示している。パラメータとして「営業用」や「A社用」などを作っておいて、文書によって切り替えて使うことも可能である。
以上説明したように、本実施の形態によれば、ユーザから指定された「パラメータ条件」を満たすように既存トレーニング文書DB101に対してチューニングされたパラメータ群の中で、新規トレーニング文書DB102に対するタイトル認識精度が最も高いパラメータを選択する。こうすることで、電子文書に対する認識ソフトウェアに関して、既存の認識パラメータを既存の文書に対して適用したときのタイトル等の文書情報に関する認識精度をなるべく維持し、文書全体として認識精度が向上するようなパラメータを容易にチューニングできる。
102…新規トレーニング文書DB
103…パラメータファイルDB
104…認識結果DB
105…文書DB
106…表示装置
107…キーボード
108…マウス
109…中央処理装置
110…認識処理部
111…認識結果照合処理部
112…パラメータ編集処理部
113…最適パラメータ自動取得処理部
114…表示処理部
115…認識プログラム操作処理部
301…文書ファイルへのファイルパス
302…正解データ文字列
502…文書ファイルへのファイルパス
503…認識結果文字列
801…パラメータの編集を行うペイン
802…認識結果の表示を行うペイン
803…既存トレーニング文書に対する認識正答率
804…既存トレーニング文書に対する認識結果表示エリア
805…新規トレーニング文書に対する認識正答率
806…新規トレーニング文書に対する認識結果表示エリア
807…手動でパラメータを調整するときに選択するラジオボタン
808…最良のパラメータを自動的に探索させるときに選択するラジオボタン
809…レイアウト特徴とスライドバー
810…実行ボタン
811…正答率でパラメータを絞り込むときのチェックボックス
812…必須タイトルでパラメータを絞り込むときのチェックボックス
813…精度劣化許容割合テキストボックス
814…実行ボタン
815…認識必須文書の指定画面を呼び出すボタン
816…保存ボタン
1001…文書表示エリア
1002…適用パラメータエリア
1003…実行ボタン
1004…認識プログラムでタイトルとして認識された文字列の矩形表示
1005…認識結果テキストボックス
1006…保存ボタン
1101…適用パラメータエリア
1102…認識プログラムでタイトルとして認識された文字列の矩形表示
1103…認識プログラムでタイトルとして認識された文字列の矩形表示
1104…認識結果テキストボックス
1200…既存トレーニング文書とその正解データの一覧表示エリア
1201…必ず認識すべき文書を選択するためのチェックボックス
1202…OKボタン
1203…キャンセルボタン
1300…OKボタン
Claims (7)
- 電子文書から文書情報を認識する認識プログラムの認識精度を変更する認識パラメータチューニング方法であって、
認識処理部が、二つのトレーニング文書群の各々に対して一つの認識パラメータをもとに認識処理を実行し、該認識処理の認識精度を表す正答率を計算する、正答率計算ステップと、
表示処理部が、前記認識処理に対する各々の認識結果および正答率を表示する、表示ステップと、
を有することを特徴とする認識パラメータチューニング方法。 - 前記二つのトレーニング文書群は、既存トレーニング文書群と新規トレーニング文書群であり、
前記正答率計算ステップは、前記既存トレーニング文書群および前記新規トレーニング文書群に対して第一の認識パラメータをもとに認識処理を実行し、該認識処理の認識精度を表す第一の正答率を計算し、
該正答率計算ステップの後、さらに、
パラメータ編集処理部が、ユーザから受け付けた前記第一の正答率に対する認識精度劣化許容割合を満たし、かつ前記新規トレーニング文書群のみに対する第二の正答率が最も高くなる条件を満たす第二の認識パラメータを自動取得する、認識パラメータ取得ステップと、
を有することを特徴とする請求項1に記載の認識パラメータチューニング方法。 - 前記二つのトレーニング文書群は、既存トレーニング文書群と新規トレーニング文書群であり、
前記正答率計算ステップは、前記既存トレーニング文書群および前記新規トレーニング文書群に対して第一の認識パラメータをもとに認識処理を実行し、該認識処理の認識精度を表す第一の正答率を計算し、
該正答率計算ステップの後、さらに、
パラメータ編集処理部が、ユーザから受け付けた前記第一の正答率に対する認識精度劣化許容割合を満たし、かつ前記既存トレーニング文書群に対する正答率と前記新規トレーニング文書群に対する正答率の和が最も高くなる条件を満たす第二の認識パラメータを自動取得する、認識パラメータ取得ステップと、
を有することを特徴とする請求項1に記載の認識パラメータチューニング方法。 - 前記二つのトレーニング文書群は、既存トレーニング文書群と新規トレーニング文書群であり、
前記正答率計算ステップの後、さらに、
パラメータ編集処理部が、ユーザから受け付けた前記既存トレーニング文書群に対する認識必須文書を正確に認識する条件を満たす新たな認識パラメータを自動取得する、認識パラメータ取得ステップと、
を有することを特徴とする請求項1に記載の認識パラメータチューニング方法。 - 前記二つのトレーニング文書群は、既存トレーニング文書群と新規トレーニング文書群であり、
前記正答率計算ステップは、前記既存トレーニング文書群および前記新規トレーニング文書群に対して第一の認識パラメータをもとに認識処理を実行し、該認識処理の認識精度を表す第一の正答率を計算し、
該正答率計算ステップの後、さらに、
パラメータ編集処理部が、ユーザから受け付けた前記既存トレーニング文書群に対する認識必須文書を正確に認識し、かつ前記新規トレーニング文書群のみに対する第二の正答率が最も高くなる条件を満たす第二の認識パラメータを自動取得する、認識パラメータ取得ステップと、
を有することを特徴とする請求項1に記載の認識パラメータチューニング方法。 - 前記二つのトレーニング文書群は、既存トレーニング文書群と新規トレーニング文書群であり、
前記正答率計算ステップは、前記既存トレーニング文書群および前記新規トレーニング文書群に対して第一の認識パラメータをもとに認識処理を実行し、該認識処理の認識精度を表す第一の正答率を計算し、
該正答率計算ステップの後、さらに、
パラメータ編集処理部が、ユーザから受け付けた前記既存トレーニング文書群に対する認識必須文書を正確に認識し、かつ前記既存トレーニング文書群に対する正答率と前記新規トレーニング文書群に対する正答率の和が最も高くなる第二の認識パラメータを自動取得する、認識パラメータ取得ステップと、
を有することを特徴とする請求項1に記載の認識パラメータチューニング方法。 - コンピュータに請求項1に記載の認識パラメータチューニング方法を実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009088089A JP5256099B2 (ja) | 2009-03-31 | 2009-03-31 | 認識パラメータチューニング方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009088089A JP5256099B2 (ja) | 2009-03-31 | 2009-03-31 | 認識パラメータチューニング方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010238159A true JP2010238159A (ja) | 2010-10-21 |
JP5256099B2 JP5256099B2 (ja) | 2013-08-07 |
Family
ID=43092388
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009088089A Expired - Fee Related JP5256099B2 (ja) | 2009-03-31 | 2009-03-31 | 認識パラメータチューニング方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5256099B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014013534A (ja) * | 2012-07-05 | 2014-01-23 | Ricoh Co Ltd | 文書処理装置、画像処理装置、文書処理方法及び文書処理プログラム |
CN110457469A (zh) * | 2019-07-05 | 2019-11-15 | 中国平安财产保险股份有限公司 | 基于长短期记忆网络的信息分类方法、装置、计算机设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05314090A (ja) * | 1992-05-14 | 1993-11-26 | Hitachi Ltd | ニューラルネットを用いたパターン認識方法およびその装置 |
JPH11328306A (ja) * | 1998-03-09 | 1999-11-30 | Ricoh Co Ltd | 文書画像の論理要素抽出方法、装置および記録媒体 |
JP2009500755A (ja) * | 2005-07-01 | 2009-01-08 | マイクロソフト コーポレーション | 文書視覚構造の文法的な解析 |
-
2009
- 2009-03-31 JP JP2009088089A patent/JP5256099B2/ja not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05314090A (ja) * | 1992-05-14 | 1993-11-26 | Hitachi Ltd | ニューラルネットを用いたパターン認識方法およびその装置 |
JPH11328306A (ja) * | 1998-03-09 | 1999-11-30 | Ricoh Co Ltd | 文書画像の論理要素抽出方法、装置および記録媒体 |
JP2009500755A (ja) * | 2005-07-01 | 2009-01-08 | マイクロソフト コーポレーション | 文書視覚構造の文法的な解析 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014013534A (ja) * | 2012-07-05 | 2014-01-23 | Ricoh Co Ltd | 文書処理装置、画像処理装置、文書処理方法及び文書処理プログラム |
CN110457469A (zh) * | 2019-07-05 | 2019-11-15 | 中国平安财产保险股份有限公司 | 基于长短期记忆网络的信息分类方法、装置、计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
JP5256099B2 (ja) | 2013-08-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10984233B2 (en) | Image processing apparatus, control method, and non-transitory storage medium that obtain text data for an image | |
KR102403964B1 (ko) | 화상 처리 장치, 화상 처리 방법, 및 저장 매체 | |
US20200279107A1 (en) | Digital image-based document digitization using a graph model | |
CN102289667B (zh) | 对经历光学字符识别(ocr)过程的文本文档中出现的错误的用户纠正 | |
US7636886B2 (en) | System and method for grouping and organizing pages of an electronic document into pre-defined categories | |
JP5271667B2 (ja) | メタデータ抽出装置およびその方法 | |
US8015203B2 (en) | Document recognizing apparatus and method | |
US20160055376A1 (en) | Method and system for identification and extraction of data from structured documents | |
JP2012059248A (ja) | フォーム・フィールドを検出および生成するシステム、方法およびプログラム | |
AU2015203150A1 (en) | System and method for data extraction and searching | |
US9372843B2 (en) | Document association device, document association method, and non-transitory computer readable medium | |
JP2005173730A (ja) | 帳票ocrプログラム、方法及び装置 | |
US20090012830A1 (en) | Apparatus, method, and program for extracting work item | |
US8854635B2 (en) | Document processing device, method, and recording medium for creating and correcting formats for extracting characters strings | |
JP5424798B2 (ja) | メタデータ設定方法及びメタデータ設定システム、並びにプログラム | |
US8230365B2 (en) | Document management system, document management method and document management program | |
US11710329B2 (en) | Image processing apparatus with automated registration of previously encountered business forms, image processing method and storage medium therefor | |
US9049400B2 (en) | Image processing apparatus, and image processing method and program | |
JP5256099B2 (ja) | 認識パラメータチューニング方法 | |
JP6453502B1 (ja) | 特許調査支援方法 | |
JP2007323474A (ja) | Ocrシステム、ocrフォーマットパラメータ作成方法、そのプログラムおよびプログラム記録媒体 | |
CN107797979B (zh) | 分析装置和分析方法 | |
JP2014179831A (ja) | 情報表示装置及び情報編集方法並びに情報編集プログラム | |
US11288327B2 (en) | User configurable electronic medical records browser | |
WO2007070010A1 (en) | Improvements in electronic document analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110802 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130116 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130122 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130322 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130409 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130422 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160426 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |