JP5256099B2

JP5256099B2 - 認識パラメータチューニング方法

Info

Publication number: JP5256099B2
Application number: JP2009088089A
Authority: JP
Inventors: 康行野崎; 俊子松本; 光晴大峡
Original assignee: Hitachi Solutions Ltd
Current assignee: Hitachi Solutions Ltd
Priority date: 2009-03-31
Filing date: 2009-03-31
Publication date: 2013-08-07
Anticipated expiration: 2029-03-31
Also published as: JP2010238159A

Description

本発明は、電子文書から文書情報を認識する認識プログラムの認識精度を変更する認識パラメータチューニング方法に関する。

企業など多くの組織では、オフィスソフトで作成した文書や、紙文書をスキャニングした電子文書など、大量の電子文書が日々生成される。このような電子文書に対して、効率的に分類・整理・管理するためのいくつかの自動認識技術の応用がある。代表的には、イメージデータに対して文字認識するOCR認識技術が挙げられる。文書を単なるイメージデータでは無く文字付きの文書データに変換することで、より検索されやすくなり、文書の活用の幅が広がる。別の自動認識技術の応用として、特許文献１では、文書イメージから、文字行のサイズや、位置、アンダーラインの有無などの特徴に基づいてスコアリングを行い、タイトルや宛先情報等の文書情報を抽出する技術が開示されている。また特許文献２では、名刺のイメージから名刺の文字列やレイアウトを認識し、名刺の文字列の属性（住所や会社名など）を判定することが開示されている。

これらの認識技術（認識ソフトウェア）では、パラメータを調整し、認識結果を変更させることができる。パラメータの例として、OCRでは、ノイズとみなすべきドットの大きさの閾値がある。これを調整することで、文書中の微小なドットを、文字として認識するか、ノイズとして無視するかを決定できる。逆に、文字認識すべき最大値の閾値を設ければ、文字として認識するか、印紙や会社のロゴ等として認識するかを決定できる。

上記認識技術におけるパラメータの調整・最適化は、ユーザの希望に沿った形で認識精度の向上を図ることができるため有用であるが、一方でパラメータの調整作業はユーザにとってとても難しい。なぜならユーザは、目の前の文書に合うよう最適なパラメータを設定しても、それが全ての文書で最適かどうかは分からないからである。

この問題を解決するため、特許文献３では、予めトレーニングセットを用意しておき、分類器が正しいクラスと正しくないクラスとを判別するように、すべてのクラスに対して統計的言語モデルパラメータをチューニングすることを開示している。これを用いて、例えば代表的な文書１００ファイルをトレーニングセットとして選別しておき、それらの１００ファイルに対する正解データを用意しておくことで、この１００ファイルに最も適したパラメータを自動的に得ることができる。

特開平０９−１３４４０６特開平０６−１０３４０２特開２００４−３６２５８４

しかしながら、上記特許文献３では、運用を重ねるごとに、初めに設定したパラメータでは正確に判定しないケースが多くなってくる場合が想定される。すなわち、トレーニングセットの文書が、運用の初期段階では全体を代表していたものの、文書のバリエーションが多くなるにつれて、全体を代表するとはいえなくなる場合である。

このような場合に、新たにパラメータを作り直すとき、トレーニングセットとして選別すべき代表的な文書ファイルの判断が難しい。初めに設定したパラメータで“誤判定される文書ファイル”に絞ってトレーニングセットを選別すると、今度はそれに特化したパラメータが設定されるため、今まで正しく判定されていた既存文書が誤判定される可能性があるからである。

また、既存文書と新規文書とを混ぜたトレーニングセットに適当なパラメータを設定したからといって、必ずしもユーザを満足させるものとは限らない。例えば企業内の情報システム部門がパラメータを設定し、それを全社員に適用する場合を考える。社員であるエンドユーザは、新しいパラメータで分析すれば文書全体として認識精度が向上することは分かっていても、今まで正確に判定されていた既存文書が誤認識されることがあれば、納得できないものである。エンドユーザの心理としては、既存文書についてはできるだけ精度を落とすことなく、新規文書についても精度よく認識されてほしいものである。

本発明は上記問題に鑑みてなされたものであり、既存の認識パラメータを既存文書に対して適用したときのタイトル等の文書情報に関する認識精度をなるべく維持し、文書全体として認識精度が向上するような、パラメータチューニング手法を提案する。

本発明では、二つのトレーニング文書群（パラメータをチューニングするための評価用の文書群）を用いる。ひとつは、現在のパラメータの良し悪しを評価するために用いていた既存の文書群、もうひとつは、前記既存の文書群に追加された文書のみを集めた新規の文書群である。

すなわち、本発明によるパラメータチューニング手法は、電子文書から文書情報を認識する認識プログラムの認識精度を変更する認識パラメータチューニング方法であって、認識処理部が、二つのトレーニング文書群の各々に対して一つの認識パラメータをもとに認識処理を実行し、該認識処理の認識精度を表す正答率を計算する、正答率計算ステップと、表示処理部が、前記認識処理に対する各々の認識結果および正答率を表示する、表示ステップと、を有することを特徴とする。

この場合において、前記正答率計算ステップは、前記既存トレーニング文書群および前記新規トレーニング文書群に対して第一の認識パラメータをもとに認識処理を実行し、該認識処理の認識精度を表す第一の正答率を計算し、該正答率計算ステップの後、さらに、パラメータ編集処理部が、ユーザから受け付けた前記第一の正答率に対する認識精度劣化許容割合を満たし、かつ前記新規トレーニング文書群のみに対する第二の正答率が最も高くなる条件を満たす第二の認識パラメータを自動取得する、認識パラメータ取得ステップと、を有することを特徴とする。

または、前記正答率計算ステップは、既存トレーニング文書群および新規トレーニング文書群に対して第一の認識パラメータをもとに認識処理を実行し、該認識処理の認識精度を表す第一の正答率を計算し、該正答率計算ステップの後、さらに、パラメータ編集処理部が、ユーザから受け付けた前記第一の正答率に対する認識精度劣化許容割合を満たし、かつ前記既存トレーニング文書群に対する正答率と前記新規トレーニング文書群に対する正答率の和が最も高くなる条件を満たす第二の認識パラメータを自動取得する、認識パラメータ取得ステップと、を有することを特徴とする。

上記では、ユーザから受け付けた、認識精度劣化許容割合を満たすことを前提条件としたが、既存トレーニング文書群に対する認識必須文書を正確に認識させることを前提条件としてもよい。

さらなる本発明の特徴は、以下本発明を実施するための形態および添付図面によって明らかになるものである。

電子文書から認識した文字情報等を該文書に関連付けさせることで検索を容易化する文書検索システムに対し、認識精度を調整するパラメータを容易に変更することができる。特に、既存の認識パラメータを既存の文書に対して適用したときの認識精度をできるだけ維持し、全体として精度が向上するようなパラメータを得ることができる。

本発明の実施の形態に係るシステムの概要図である。文書データの一例である。トレーニング文書の正解データの一例である。認識プログラムに関するパラメータの一例である。本認識プログラムで抽出されたタイトル領域を表す例と認識結果の例である。手動によるパラメータ設定処理の流れを示すフローチャートである。最良パラメータ自動取得の処理の流れを示すフローチャートである。パラメータ設定画面の例である。認識プログラムを実行する処理の流れを示すフローチャートである。認識プログラムの実行画面の例である。認識プログラムの実行画面で二つのパラメータを使った場合の例である。取得必須文書の指定画面の例である。最適なパラメータが見つからなかった場合の表示画面の例である。

以下、添付図面を参照して本発明の実施形態に係わる認識パラメータチューニング方法について説明する。ただし、本実施形態は本発明を実現するための一例にすぎず、本発明の技術的範囲を限定するものではないことに注意すべきである。また、各図において共通の構成には同一の参照番号が付されている。

＜本実施形態で例示する認識プログラム＞
本発明は、文書に対する一般的な認識プログラムに関するものであるが、説明を容易にするため、“文書内の文字列からタイトル文字列を認識するプログラム”を認識プログラムの例題として以降説明する。対象とするのはOCR処理後の文字情報付きの電子文書またはオフィスソフトで作成した電子文書である。このタイトル認識プログラムは、文書中の各文字列について“タイトルらしさ”のスコア計算を行い、最も高いスコアを持つ文字列をタイトルとするプログラムである。ここで“タイトルらしさ”のスコアとは、レイアウト特徴とその配点を予め決めておき、文字列が該当する特徴を持てば特徴に対応する配点を加算して求めた点数である。例えばある文字列が、フォント大であれば２点、センタリングされていたら３点、等である。このような情報は、電子文書内の文字列の属性情報として組み込まれていればそれを利用し、組み込まれていないならば文字列の位置する領域座標や文字の高さや幅などから取得する。フォント大などの特徴は、文書中に現れる全ての文字から相対的に判断しても良く、属性情報から得た絶対値に閾値を設けて判断してもよい。このレイアウト上の特徴とそれに対する配点が、この認識プログラムにおけるパラメータとなる。このパラメータを変更すれば各文字列の“タイトルらしさ”のスコアが変わるため、結果的に認識されるタイトル文字列が変わり得る。

＜メタデータ認識システムの構成＞
図１は、本発明の認識パラメータチューニング方法を実現するシステム、および、文書に対する認識プログラムの内部構造を概略的に示した構成図である。このシステムは、既存の（今まで用いていた）トレーニングセットの文書とその正解データを集めた既存トレーニング文書DB１０１、パラメータを更新するために、新たに収集したトレーニングセットの文書とその正解データを集めた新規トレーニング文書DB１０２、本認識プログラムに対するパラメータが入っているパラメータファイルDB１０３、本認識プログラムで出力した結果が蓄積されている認識結果DB１０４、本認識プログラムの実行対象となる（トレーニングセットではなく一般の）文書を集めた文書DB１０５、パラメータチューニングや認識プログラムの結果表示等を行う表示装置１０６、データの入力や編集、メニューの選択などの操作を行うためのキーボード１０７とマウスなどのポインティングデバイス１０８、必要な演算処理、制御処理等を行う中央処理装置１０９を備える。ここで既存トレーニング文書DB１０１・新規トレーニング文書DB１０２・パラメータファイルDB１０３・認識結果DB１０４・文書DB１０５は、DBとしての実体が物理的に一つではなく複数である場合も対象としている。またトレーニングセットとは、認識プログラムの認識精度を評価するためのデータ（文書の集合）である。正解データとは、各文書に対する正しい認識結果（タイトル文字列）である。新規トレーニング文書DB１０１の文書として、例えば、既存パラメータで正確に認識できなかった文書の集合や、既存トレーニング文書DBの中にはない文書種別を収集したものが考えられる。

中央処理装置１０９は、本認識プログラムの認識処理（ここでは文中からのタイトル文字列の認識）を行う認識処理部１１０、認識結果と正解データとの比較を行う認識結果照合処理部１１１、認識パラメータを編集する処理を行うパラメータ編集処理部１１２、トレーニング文書に対して最も認識率（正答率）の高いパラメータを自動的に取得する最適パラメータ自動取得処理部１１３、認識結果や文書データなど全ての画面表示に関する処理を行う表示処理部１１４、また認識プログラムを実行するときにおいて、文書データの読み込み・認識パラメータの選択・認識結果の編集や登録を行う認識プログラム操作処理部１１５からなる。以上に述べた処理部・データ・処理部等で用いられるプログラム等は、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、ＭＯ、フロッピーディスク、ＵＳＢメモリ等の記録媒体に格納して提供することもできる。

＜文書データ＞
図２は、文書データの一例である。本発明では、見積書・契約書・注文書・仕様書・設計書など一般的な文書を想定としており、OCR処理をした後のテキスト情報を含んだ文書データであるか、オフィス系ソフトで作成した文書データであるものとする。このような文書データが、既存トレーニング文書DB１０１、新規トレーニング文書DB１０２、文書DB１０５の中に蓄積されている。本発明で説明する文中の“文字列”とは、図２の「御見積書」や「見積No. 1111」のような、周りに空白エリアのある文字列とする。

＜正解データ＞
図３は、トレーニング文書に対する正解データの一例を示したもので、既存トレーニング文書DB１０１、新規トレーニング文書DB１０２に含まれるものである。蓄積された文書ファイルに対するファイルパス３０１と、文書ファイルに対する正解データ３０２の組で登録されている。本発明では、正解データは文書のタイトルの文字列となる。

＜パラメータファイル＞
図４は、本認識プログラムで用いるパラメータファイルの一例であり、パラメータファイルDB１０３に蓄積される。図４に示すように、このパラメータファイルでは、文中のタイトル文字列が持つべきレイアウト特徴とその配点がカンマ区切りで記述される。本発明で例示する“タイトル文字列を認識するプログラム”では、文中の各文字列に対して、ここで指定したレイアウト特徴を持つ場合に対応する配点を加算し、最も高いスコアをもつ文字列を“タイトル文字列”とする。例えば、図２の「御見積書」という文字列は図４のパラメータによると７点（センタリング（３点）＋太字（１点）＋フォント大（２点）＋アンダーライン有（１点））であり、他のどの文字列のスコアよりも高いので、「御見積書」をタイトル文字列と認識する。

＜認識結果データ＞
図５は、本認識プログラムで認識されたタイトル領域を表す例（A）と、本認識プログラムの認識結果（B）の一例である。

図５（A）は、タイトルとして認識された文字列領域を点線の枠で表示した文書例である。上図ではタイトルとして「御見積書」の文字列（５００）が、下図ではタイトルとして「AAA株式会社」の文字列（５０１）が認識されている。認識プログラムでは、上図のように正しく判断されることも、下図のように誤って認識されることもある。

図５（B）は、このような認識結果を集めた認識結果データであり、認識結果DB１０４に蓄積される。認識結果データは、対象とする文書へのファイルパス５０２と認識結果５０３からなる。この認識結果データと図３の正解データとを比較して、どこが正確に認識されているか、正答率は何％かなどを計算する。

＜手動によるパラメータ設定の処理＞
図６は、既存トレーニング文書DB１０１と新規トレーニング文書DB１０２に蓄積された文書のタイトル認識結果を見比べて、手動で認識パラメータを設定する処理を概略的に示すフローチャートである。

ステップ６０１では、認識処理部１１０が、既存トレーニング文書DB１０１に蓄積された文書をよみこみ、パラメータファイルDB１０３内のパラメータにもとづいて、タイトル文字列の認識処理を実行する。認識結果は文書ファイルへのパス５０２と認識結果５０３の組として、認識結果DB１０４に登録される。同様の処理を新規トレーニング文書DB１０２に対しても行う。認識処理の具体的な内容は、上記＜本実施形態で例示する認識プログラム＞で説明したとおりである。

ステップ６０２では、認識結果照合処理部１１１が、認識結果５０３と正解データ３０２が同一かどうかを判定する。これにより、どの文書で正しく認識されたかが判断できる。また正しく認識された文書数の全体に占める割合を正答率として計算する。

ステップ６０３では、表示処理部１１４が、認識結果と正答率を表示する。正しく認識されたものについては斜線や網掛け等で強調表示する。

ステップ６０４では、パラメータ編集処理部１１２が、ユーザがパラメータを調整すると、本システムではその調整内容を受け付ける。

ステップ６０５では、認識結果照合処理部１１１が、ステップ６０４で調整後のパラメータに従って、既存トレーニング文書DB１０１と新規トレーニング文書DB１０２に対して認識処理（タイトル認識処理）を実行し、認識結果と正答率を表示する。ここはステップ６０１〜６０３と同様の処理であり、認識パラメータが異なるだけである。

ステップ６０６では、ユーザが、表示された認識結果や正答率の変化をみて、パラメータ変更による影響を確認する。変更後のパラメータで満足するようであれば、そのパラメータをパラメータファイルDB１０３に保存する。このとき従来のパラメータに上書き保存してもよいし、別ファイルとして保存しても良い。もし更に別のパラメータで再検討したい場合は、パラメータを再変更する。

ステップ６０７では、認識処理部１１０が、ステップ６０６でパラメータが再変更される場合ステップ６０４に戻り再実行する。以上で処理を終了する。

＜最良パラメータ自動取得の処理＞
図７は、最良のパラメータを自動的に取得する処理フローである。本処理では、ユーザから指定された「パラメータ条件」を満たすように既存トレーニング文書DB１０１に対してチューニングされたパラメータ群の中で、新規トレーニング文書DB１０２に対するタイトル認識精度が最も高いパラメータを選択する。

この「パラメータ条件」は二種類ある。一つは、認識精度の劣化割合の許容値である。既存トレーニング文書DB１０１に対するタイトル認識の正答率は、パラメータを変更することによって下がることもあるが、パラメータ探索にあたって何割まで下がることを許容するかを予めユーザに指定させる。例えばあるパラメータについて、既存トレーニング文書DB内の８０％の文書で正しくタイトルを認識していた場合、許容割合として５％を設定すると、既存トレーニング文書DBの少なくとも７５％の文書で正確にタイトルを認識できるようなパラメータ群の中で、最も新規トレーニング文書DB１０２に対する認識精度（タイトル認識精度）が高いパラメータを提示する。もう一つの条件は、認識必須文書の指定である。新規トレーニング文書DB１０２に対して最適なパラメータを用いてタイトル認識を実行するとき、既存トレーニング文書DBの中で正確にタイトルを認識しておくべき文書を予めユーザに指定させる。これら二つの条件は、どちらか一方を用いても良いし、両方用いても良い。

このような設定により、ユーザは従来の文書データに対する精度の大幅な劣化を防ぐことができ、また、既存トレーニング文書で正確に認識していた文書を認識処理後にも維持して欲しい場合は、新規トレーニング文書DB１０２においても必ず正確に認識するようなパラメータを自動的に得ることができる。

ステップ７０１では、認識処理部１１０と認識結果照合処理部１１１が、既存トレーニング文書DB１０１と新規トレーニング文書DB１０２に対して認識処理を実行し、認識結果と正答率を表示する。ここはステップ６０１〜６０３と同様の処理である。ここで既存トレーニング文書に対する正答率をK（％）、新規トレーニング文書に対する正答率をN（％）とする。

ステップ７０２では、最適パラメータ自動取得処理部１１３が、新規トレーニング文書DB１０２に対する認識結果の正答率の最大値を保持する変数NmaxにNを代入する。このNmaxが最大になるパラメータを探索する。

ステップ７０３では、パラメータ編集処理部１１２が、パラメータを自動的に取得するためのパラメータ条件の入力を受け付ける。ユーザが精度劣化割合を指定してパラメータを絞り込むことを希望する場合は、既存トレーニング文書DB１０１に対する精度劣化割合の許容値の入力を受け付ける。それをA（％）とする。

ステップ７０４では、ユーザが認識必須文書を指定してパラメータを絞り込むことを希望する場合は、パラメータ編集処理部１１２が、既存トレーニング文書DB１０１の中から、正確に認識すべき文書の選択を受け付ける。それらの文書をD1,…,Dnとおく。

本処理では、パラメータのとりうる値を全通り試すことで探索する。例えば本認識プログラムにおいて、レイアウト特徴が図４に示すようなセンタリング・太字・フォント大・アンダーライン有の４種類であって、それぞれの配点のとり得る値が０〜３である場合、（センタリング，太字，フォント大，アンダーライン有）＝（０，０，０，０）、（０，０，０，１）、・・・、（３，３，３，３）に至るまでの全通り（４の４乗通り）を確認する。

ステップ７０５では、認識処理部１１０と認識結果照合処理部１１１が、このとり得るパラメータのひとつを取り出す。このパラメータに従って、既存トレーニング文書DB１０１と新規トレーニング文書DB１０２に対して認識処理を実行し、正解データとつき合わせて正答率を計算する。既存トレーニング文書に対する正答率をK’（％）、新規トレーニング文書に対する正答率をN’（％）とおく。

ステップ７０６では、最適パラメータ自動取得処理部１１３が、（精度劣化割合を指定してパラメータを絞り込む場合は、）既存トレーニング文書に対する正答率が認識精度の劣化の許容範囲内であるかどうか、すなわちK’がK−Aよりも小さくないかどうかを調べる。K’がK−Aよりも小さいときはステップ７１０にスキップし、小さくないときは次のステップに進む。

ステップ７０７では、最適パラメータ自動取得処理部１１３が、（認識必須文書を指定してパラメータを絞り込む場合は、）文書D1,…,Dnの認識結果を参照し、それらが正解データと同一かを調べる。正解データと同一であれば（タイトルとして正確に認識されているならば）次のステップに進み、同一でないならばステップ７１０にスキップする。

ステップ７０８，７０９では、最適パラメータ自動取得処理部１１３が、ステップ７０７の条件を満たしたパラメータについて、新規トレーニング文書に対する正答率が今まで調べたパラメータの中で最もよいかどうか、すなわちN’がNmaxよりも大きいかどうかを調べる。N’がNmaxよりも大きくないときはステップ７１０にスキップし、大きいときは、これが今のところ最良のパラメータであるので、これを最良パラメータとして登録する。またこのときの正答率N’をNmaxとする。

ステップ７１０では、最適パラメータ自動取得処理部１１４が、ステップ７０５〜７０９の処理を全てのとり得るパラメータについて実行したかを調べ、まだ実行していないパラメータがあるならば、そのパラメータについてステップ７０５に戻って実行する。

ステップ７１１では、表示処理部１１４が、ステップ７１０で全てのパラメータについて実行後、最良パラメータにおける認識結果を画面上に表示し、この最良パラメータをパラメータファイルDB１０３に保存する。このとき従来のパラメータに上書き保存してもよいし、別ファイルとして保存しても良い。以上で処理を終了する。

図７のフローでは、新規トレーニング文書DB１０２の文書にパラメータを適用したときに最も正答率の高いパラメータを最良のパラメータとした（Nmaxが最大になるようなパラメータを最良のパラメータとした）が、既存トレーニング文書の正答率と新規トレーニング文書の正答率の和が最大となるようなパラメータを「最良のパラメータ」とする実行形態もあり得る。

＜パラメータ設定画面＞
図８は、パラメータを設定するときの画面である。パラメータ設定画面は、パラメータの編集を行うペイン（部分表示領域）８０１と、認識結果の表示を行うペイン８０２からなる。

認識結果の表示を行うペイン８０２では、パラメータの編集を行うペイン８０１で設定した条件に対する結果として、既存トレーニング文書に対する認識正答率（既存トレーニング文書全体のうち正確にタイトル認識できた文書の割合）８０３を表示し、各文書に対する認識結果を認識結果表示エリア８０４に表示する。認識結果表示エリア８０４では、正しく認識された文書名と認識結果を強調表示する（斜線背景部分）。同様に、新規トレーニング文書に対して認識正答率８０５を表示し、各文書に対する認識結果を認識結果表示エリア８０６に表示する。ユーザはこれらの表示によって、既存文書と新規文書のトレーニング文書に対するパラメータの影響やそのパラメータによる認識精度を比較することができる。パラメータの編集を行うペイン８０１では、パラメータを手動で調整するか自動的に取得するかを切り替えるラジオボタン８０７，８０８を配置している。

（認識精度の手動による調整）
ラジオボタン８０７が選択されると、手動でパラメータが調整できるようになる。これは図６の処理フローに対応している。ユーザーによって、各レイアウト特徴に対するスライドバー８０９が操作されることでパラメータが調整され、最後に実行ボタン８１０が押下されると、認識処理部１１０が調整後のパラメータに従って認識処理を実行する。結果は、表示処理部１１４が認識結果の表示ペイン８０２に表示する。ユーザは既存トレーニング文書と新規トレーニング文書でどの程度認識精度が向上したか／悪化したかを確認し、認識結果が満足いかないものであれば、再度パラメータを調整し認識処理を実行することも可能である。ユーザはこのように、パラメータを調整してトライ＆エラーを繰り返し、ペイン８０２の既存トレーニング文書と新規トレーニング文書の認識結果の精度のトレードオフを確かめながら、最適なパラメータを容易に探すことができる。

（認識精度の自動調整）
ラジオボタン８０８が選択されると、最良のパラメータを自動的に探索することができる。これは図７の処理フローに対応している。最良のパラメータを選ぶための基準として、既存トレーニング文書に対する正答率で絞り込むか、正確にタイトルを認識すべき文書を指定して絞り込むかの選択を受け付ける。これら両方の条件を指定しても良い。前者はチェックボックス８１１で、後者はチェックボックス８１２で指定される。

チェックボックス８１１がチェックされた場合、正答率による絞込みが有効になる。すなわち、タイトル認識精度劣化の許容割合（パーセント）が精度劣化割合テキストボックス８１３に入力され、実行ボタン８１４が押下されると、既存トレーニング文書でその割合を満たすパラメータと新規トレーニング文書で最も高い正答率が得られるパラメータとの組み合わせを選び出す。例えば、精度劣化割合テキストボックス８１３に「５」が入力されれば、既存トレーニング文書の正答率が７５％以上となる条件を確保しながら、新規トレーニング文書の正答率が一番高くなるようなパラメータを表示する。これによって、既存トレーニング文書に対する認識精度をある程度維持し、新規トレーニング文書で認識精度の高いパラメータをユーザに提示することができる。

チェックボックス８１２がチェックされた場合、新規トレーニング文書で正確にタイトルを認識すべき特定文書を指定して絞り込む方法が有効になる。認識必須文書の指定ボタン８１５が押下されると、後述の図１２に示す認識必須文書の指定画面を表示する。この画面では、特定文書（どのようなパラメータであっても、必ず正確にタイトル認識をしてほしい文書）が選択される。実行ボタン８１４が押下されると、ここで選択した特定文書に対して正しくタイトル認識できるパラメータ群のうち、新規トレーニング文書での正答率が最大になるようなパラメータを選択する。

このような機能を持つことで、既存トレーニング文書でチューニングしたパラメータで認識していた特定文書のタイトルを、新たなパラメータでも引き続き正しく認識させることができる。よって、パラメータが更新されても特定文書に関する認識結果が変わることがないので、エンドユーザが安心して認識処理を行うことができ、結果として検索効率の向上につながる。

上記自動実行により得られた最良のパラメータは、スライドバー８０９に反映する。そして最良のパラメータで認識した結果は、認識結果の表示ペイン８０２に表示する。ユーザはこの自動実行と手動実行を行き来しながらパラメータを調整することも可能である。最後に保存ボタン８１６が押下されると、現在のパラメータを保存する。保存時には、従来のパラメータファイルを上書きしてもよいし、別ファイルとして保存してもよい。

図１２は、図８において認識必須文書の指定ボタン８１５が押下されたときに現れる画面である。この画面では、既存トレーニングDB１０１に蓄積された既存トレーニング文書とその正解データの一覧を表示エリア１２００に表示する。ここでユーザは、最適パラメータを用いてタイトル認識を実行したときに、正確にタイトルを認識しているべき文書をチェックボックス１２０１で選択する。ここの選択項目が多いほど、設定変更後でも既存文書で正しく認識していた認識結果が増加され得るが、（最適パラメータを探索する上でのパラメータ候補の幅が狭くなるので）新規トレーニング文書に対して認識精度の高いパラメータを得ることは期待できなくなる。逆に選択項目が少ないほど、新規トレーニング文書で、より高い精度を期待することができる。OKボタン１２０２を押すと、チェックボックス１２０１でチェックした文書を、認識必須文書として保持する。キャンセルボタン１２０３を押下すると、認識必須文書としては何も登録しない。

図１３は、図８で実行ボタン８１４が押され条件を満たすパラメータを見つけようとしても、それが一つも見つけられなかった場合に表示する表示画面である。図８においてラジオボタン８０８が選択され、実行しても、必ずしも条件に合致するパラメータが得られるとは限らない。諸々の制約条件が厳しかったために、このメッセージが表示される。OKボタン１３００が押下されると、この表示画面を閉じる。

＜認識プログラムの処理＞
図９は、本発明の認識プログラムの実行処理のフローを概略的に示すフローチャートである。たとえば、タイトル文字列に「御見積書」を含む文書を検索したい場合、あらかじめ個々の文書に文書情報としてタイトル認識させたものを認識結果情報DB１０４に保存しておくのが一般的である。以下、個々の文書のタイトル認識にあたってパラメータ設定機能を新たに設け、文書中の文字列からタイトルを認識する精度を向上させた本発明の認識プログラムについて説明する。

ステップ９０１では、認識プログラム操作処理部１１５が、文書DB１０５から文書ファイルの読み込みを受け付ける。

ステップ９０２では、認識プログラム操作処理部１１５が、パラメータファイルDB１０３にあるパラメータファイルの選択を受け付け、パラメータファイルを読み込む。このとき、複数のパラメータファイルを読み込んでも良い。

ステップ９０３では、認識処理部１１０が、パラメータに基づいて認識処理を実行する。本処理では、ステップ９０２において複数のパラメータファイルを受け付けた場合、それぞれのパラメータで認識処理を実行する。

ステップ９０４では、表示処理部１１４が、ステップ９０３で得られた認識結果を画面上に表示する。複数のパラメータを用いて複数個の認識結果が出た場合は、その数の分の認識結果を表示する。

ステップ９０５，９０６では、認識プログラム操作処理部１１５が、認識結果について編集が行われて正しい結果に編集されると、その結果を認識結果DB１０４に保存する。以上で処理を終了する。

なお、ステップ９０４において、複数のパラメータを用いた場合に、いくつかのパラメータで同じ認識結果となる場合のみ、それを画面上に表示するという利用形態としてもよい。また、同ステップにおいて、複数のパラメータで複数の認識結果を得て、さらに別のパラメータで認識結果を得て、前者の認識結果から後者の認識結果を除いたものを認識結果として画面上に表示するという利用形態としてもよい。

＜認識プログラム実行画面＞
図１０は、認識プログラムを実行するときの画面である。文書を読み込むと、文書表示エリア１００１に文書を表示する。ユーザはこの文書に対する適切なパラメータを、適用パラメータエリア１００２に入力する。図１０では、ユーザはパラメータ「規定値」を選択した様子を示している。パラメータとして「営業用」や「A社用」などを作っておいて、文書によって切り替えて使うことも可能である。

実行ボタン１００３が押下されると、認識処理を開始し、文書表示エリア１００１に認識結果（ここではタイトル文字列）を枠で囲んで１００４のように表示する。同時に、認識結果テキストボックス１００５に、認識結果を出力する。図１０では、パラメータ「規定値」を用いたとき、誤って「AAA株式会社」をタイトルとして検出した様子を示している。ユーザは誤って認識された結果を正しく編集し、保存ボタン１００６を押下すると、認識結果が保存される。

図１１は、複数のパラメータを用いて認識プログラムを実行したときの様子である。パラメータエリア１１０１には、二つのパラメータ「規定値」と「営業用」が選択されている。

この状態で実行すると、それぞれのパラメータで認識処理を実行する。二つのパラメータに対する認識結果が異なる場合は、文書表示エリア上に二つの認識文字列を１１０２・１１０３のように表示する。また認識結果テキストボックス１１０４にも、二つの認識文字列を出力する。

このように複数のパラメータで認識処理を実行すると、複数の認識結果が出力されるものの、正しい認識結果が含まれる可能性も高くなる。よって、認識結果の編集をするときは正しくない認識結果を削除するだけでよく、書き直すよりも作業工数が軽減できる。

また認識結果の活用形態に応じて、複数の認識結果が出力されたままの状態で（つまりタイトルを「御見積書, AAA株式会社」という形のまま）DB内に保存してもよい。たとえばDBに対してタイトル文字列が「御見積書」を含む文書を検索したい場合、複数の認識結果であっても該当文書が検索できるのである。つまり、文書が適切なキーワードで検索されることを目的としたい場合は、認識結果テキストボックスにタイトル文字列が含まれるようにすればよいのである。

以上のように、個々の文書情報認識にあたってパラメータ設定機能を新たに設け、パラメータを変更したり、複数組合せたりすることで、文書中の文字列からタイトルを認識する精度を向上させることができる。

なお、図１１では、二つのパラメータについて実行した認識結果の論理和を“認識プログラムの認識結果”としていたが、認識結果の論理積、すなわち異なるパラメータで同じ認識結果が出たものだけを“認識プログラムの認識結果”とする利用方法もある。

＜まとめ＞
以上説明したように、本実施の形態によれば、ユーザから指定された「パラメータ条件」を満たすように既存トレーニング文書DB１０１に対してチューニングされたパラメータ群の中で、新規トレーニング文書DB１０２に対するタイトル認識精度が最も高いパラメータを選択する。こうすることで、電子文書に対する認識ソフトウェアに関して、既存の認識パラメータを既存の文書に対して適用したときのタイトル等の文書情報に関する認識精度をなるべく維持し、文書全体として認識精度が向上するようなパラメータを容易にチューニングできる。

また、本実施の形態によれば、個々の文書情報認識にあたってパラメータ設定機能を新たに設け、パラメータを変更したり、複数組合せたりすることで、文書中の文字列からタイトルを認識する精度を向上させることができる。

なお、本発明はタイトル認識に限定されるものではなく、その他の文書情報にも適用されうることは言うまでもない。

１０１…既存トレーニング文書DB
１０２…新規トレーニング文書DB
１０３…パラメータファイルDB
１０４…認識結果DB
１０５…文書DB
１０６…表示装置
１０７…キーボード
１０８…マウス
１０９…中央処理装置
１１０…認識処理部
１１１…認識結果照合処理部
１１２…パラメータ編集処理部
１１３…最適パラメータ自動取得処理部
１１４…表示処理部
１１５…認識プログラム操作処理部
３０１…文書ファイルへのファイルパス
３０２…正解データ文字列
５０２…文書ファイルへのファイルパス
５０３…認識結果文字列
８０１…パラメータの編集を行うペイン
８０２…認識結果の表示を行うペイン
８０３…既存トレーニング文書に対する認識正答率
８０４…既存トレーニング文書に対する認識結果表示エリア
８０５…新規トレーニング文書に対する認識正答率
８０６…新規トレーニング文書に対する認識結果表示エリア
８０７…手動でパラメータを調整するときに選択するラジオボタン
８０８…最良のパラメータを自動的に探索させるときに選択するラジオボタン
８０９…レイアウト特徴とスライドバー
８１０…実行ボタン
８１１…正答率でパラメータを絞り込むときのチェックボックス
８１２…必須タイトルでパラメータを絞り込むときのチェックボックス
８１３…精度劣化許容割合テキストボックス
８１４…実行ボタン
８１５…認識必須文書の指定画面を呼び出すボタン
８１６…保存ボタン
１００１…文書表示エリア
１００２…適用パラメータエリア
１００３…実行ボタン
１００４…認識プログラムでタイトルとして認識された文字列の矩形表示
１００５…認識結果テキストボックス
１００６…保存ボタン
１１０１…適用パラメータエリア
１１０２…認識プログラムでタイトルとして認識された文字列の矩形表示
１１０３…認識プログラムでタイトルとして認識された文字列の矩形表示
１１０４…認識結果テキストボックス
１２００…既存トレーニング文書とその正解データの一覧表示エリア
１２０１…必ず認識すべき文書を選択するためのチェックボックス
１２０２…OKボタン
１２０３…キャンセルボタン
１３００…OKボタン

Claims

電子文書から文書情報を認識する認識プログラムの認識精度を変更する認識パラメータチューニング方法であって、
認識処理部が、既存トレーニング文書群および新規トレーニング文書群の各々に対して一つの認識パラメータをもとに認識処理を実行し、該認識処理の認識精度を表す正答率を計算する、正答率計算ステップと、
表示処理部が、前記トレーニング文書群の各々に対する認識結果および正答率を表示する、表示ステップと、
を有することを特徴とする認識パラメータチューニング方法。
前記正答率計算ステップは、前記既存トレーニング文書群および前記新規トレーニング文書群に対して第一の認識パラメータをもとに認識処理を実行し、該認識処理の認識精度を表す第一の正答率を計算し、
該正答率計算ステップの後、さらに、
パラメータ編集処理部が、ユーザから受け付けた前記第一の正答率に対する認識精度劣化許容割合を満たし、かつ前記新規トレーニング文書群のみに対する第二の正答率が最も高くなる条件を満たす第二の認識パラメータを自動取得する、認識パラメータ取得ステップと、
を有することを特徴とする請求項１に記載の認識パラメータチューニング方法。
前記正答率計算ステップは、前記既存トレーニング文書群および前記新規トレーニング文書群に対して第一の認識パラメータをもとに認識処理を実行し、該認識処理の認識精度を表す第一の正答率を計算し、
該正答率計算ステップの後、さらに、
パラメータ編集処理部が、ユーザから受け付けた前記第一の正答率に対する認識精度劣化許容割合を満たし、かつ前記既存トレーニング文書群に対する正答率と前記新規トレーニング文書群に対する正答率の和が最も高くなる条件を満たす第二の認識パラメータを自動取得する、認識パラメータ取得ステップと、
を有することを特徴とする請求項１に記載の認識パラメータチューニング方法。
前記正答率計算ステップの後、さらに、
パラメータ編集処理部が、ユーザから受け付けた前記既存トレーニング文書群に対する認識必須文書を正確に認識する条件を満たす新たな認識パラメータを自動取得する、認識パラメータ取得ステップと、
を有することを特徴とする請求項１に記載の認識パラメータチューニング方法。
前記正答率計算ステップは、前記既存トレーニング文書群および前記新規トレーニング文書群に対して第一の認識パラメータをもとに認識処理を実行し、該認識処理の認識精度を表す第一の正答率を計算し、
該正答率計算ステップの後、さらに、
パラメータ編集処理部が、ユーザから受け付けた前記既存トレーニング文書群に対する認識必須文書を正確に認識し、かつ前記新規トレーニング文書群のみに対する第二の正答率が最も高くなる条件を満たす第二の認識パラメータを自動取得する、認識パラメータ取得ステップと、
を有することを特徴とする請求項１に記載の認識パラメータチューニング方法。
前記正答率計算ステップは、前記既存トレーニング文書群および前記新規トレーニング文書群に対して第一の認識パラメータをもとに認識処理を実行し、該認識処理の認識精度を表す第一の正答率を計算し、
該正答率計算ステップの後、さらに、
パラメータ編集処理部が、ユーザから受け付けた前記既存トレーニング文書群に対する認識必須文書を正確に認識し、かつ前記既存トレーニング文書群に対する正答率と前記新規トレーニング文書群に対する正答率の和が最も高くなる第二の認識パラメータを自動取得する、認識パラメータ取得ステップと、
を有することを特徴とする請求項１に記載の認識パラメータチューニング方法。
コンピュータに請求項１に記載の認識パラメータチューニング方法を実行させるプログラム。