JP2016126796A

JP2016126796A - 活字ｏｃｒシステム

Info

Publication number: JP2016126796A
Application number: JP2015255533A
Authority: JP
Inventors: 正美若山; Masami Wakayama; 夏菜子佐藤; Kanako Sato; 有祐松尾; Yusuke Matsuo
Original assignee: Hammock Corp
Current assignee: Hammock Corp
Priority date: 2014-12-27
Filing date: 2015-12-27
Publication date: 2016-07-11
Anticipated expiration: 2035-12-27
Also published as: JP6702629B2

Abstract

【課題】ＦＡＸの受信書面に標準的に適用される「グローバルルール」と特定の受信書面にのみ適用される「ローカルルール」とを用いてシステム自体に学習機能を持たせることを可能とし、ＯＣＲ処理の精度を高めることのできるこれまでにない新規な活字ＯＣＲシステムを提供することにある。
【解決手段】発信元からＦＡＸにより受信した受信書面を目的書面と非目的書面に分類する分類機能と、目的書面に分類された受信書面をＯＣＲ処理し、グローバルルールとローカルルールとを備えた抽出用データベースを用いて、当該受信書面から「項目名」「値」「座標」を抽出する抽出機能と、「値」と「ＯＣＲ領域」を確認する確認・修正機能と、確定された抽出結果をエクスポートするデータ出力機能と、確認・修正機能によって再度ＯＣＲ処理するために指定されたＯＣＲ領域を、抽出用データベースのローカルルールに反映させる学習機能と、を備えたことを特徴とする。
【選択図】図１

Description

本願発明は、全体を活字、又は一部に手書き部分がある以外は活字（例えば、日付、数量だけ手書き等）で作成されたＦＡＸの受信書面をＯＣＲ処理する活字ＯＣＲシステムに関するものである。

これまで、ＦＡＸにより受信された注文書や連絡書、その他のＦＡＸ文書を、相手先毎に自動仕分けする技術として特許文献１に開示されたものがある。
詳しくは、受信したＦＡＸの相手先を自動認識する相手先認識手段２と、自動認識された相手先の情報と関連付けして受信したＦＡＸのイメージデータを格納するイメージデータベース３と、受信したＦＡＸのイメージデータからＯＣＲ機能により読み取られた文字情報を格納する文字情報データベース４と、相手先を指定してイメージデータベース３または文字情報データベース４を検索する検索手段５とで受信ＦＡＸ管理システムを構成するものである。

特開２００２−１６５０７６号公報

このような受信ＦＡＸ管理システムは、受信したＦＡＸ文書の送信元である相手先毎に専任のオペレーターが存在することを前提とした上で、当該専任のオペレーターに仕分けるために開発されたシステムである。

これに対して、本願出願人は、受信したＦＡＸ文書を相手先毎に自動仕分けすることを目的とするものでなく、ＦＡＸの受信書面に標準的に適用される「グローバルルール」と特定の受信書面にのみ適用される「ローカルルール」とを用いてシステム自体に学習機能を持たせることを可能とし、ＯＣＲ処理の精度を高めることのできるこれまでにない新規な活字ＯＣＲシステムを提供すべく、本願発明を完成させるに至った。

上記目的を達成するために、本願発明の第１の発明は、全体を活字、又は一部に手書き部分がある以外は活字で作成されたＦＡＸの受信書面をＯＣＲ処理する活字ＯＣＲシステムであって、発信元からＦＡＸにより受信した発信元属性データ（ＴＳＩコード又はＦＡＸ番号等）の付随した受信書面をＯＣＲ処理し、分類用データベースを用いて、当該受信書面を目的書面と非目的書面に分類する分類機能と、目的書面に分類された受信書面をＯＣＲ処理し、標準的に適用されるグローバルルールと特定の属性データを有する発信元からの受信書面にのみ適用されるローカルルールとを備えた抽出用データベース及びＯＣＲ処理を補完する補完用データベースを用いて、当該受信書面から「項目名」「値」「座標」を抽出する抽出機能と、モニター画面に受信書面の画像と抽出機能によって抽出された当該受信書面の抽出表示とを並列して表示し、「項目名」に対する「値」を確認し、不適切であれば正しい「値」に修正し、また、抽出機能によるＯＣＲ領域を確認し、不適切であれば正しいＯＣＲ領域を指定し、指定されたＯＣＲ領域で再度ＯＣＲ処理し、改めて「項目名」に対する「値」を確認する確認・修正機能と、確認・修正機能によって確定された抽出結果を所定の出力フォーマットで出力し、これを目的書面のデータベースへエクスポートするデータ出力機能と、確認・修正機能によって指定されたＯＣＲ領域及び修正された値を、抽出用データベース及び補完用データベースに反映させる学習機能と、を備えたことを特徴とする活字ＯＣＲシステムである。

第２の発明は、全体を活字、又は一部に手書き部分がある以外は活字で作成されたＦＡＸの受信書面をＯＣＲ処理する活字ＯＣＲシステムであって、当該活字ＯＣＲシステムは、標準的に適用されるグローバルルールと特定の属性データを有する発信元からの受信書面にのみ適用されるローカルルールとをそれぞれ備えた構造辞書・項目辞書・補完用辞書を有し、構造辞書は、文書の種類、文書のレイアウト情報（ゾーン情報）、項目と値の位置関係と値の数に関する情報を含み、項目辞書は、同義語、値の形式に関する情報を含み、補完用辞書は、項目ごとに、誤認識しやすい文字とその場所の情報を含み、発信元からＦＡＸにより受信した発信元属性データの付随した受信書面をＯＣＲ処理し、構造辞書・項目辞書・補完用辞書を用いて、当該受信書面を目的書面と非目的書面に分類する分類機能と、目的書面に分類された受信書面のＯＣＲ処理に対して、構造辞書・項目辞書・補完用辞書を用いて、当該受信書面から「項目名」「値」「信頼性」「座標」を抽出する抽出機能と、モニター画面に受信書面の画像と抽出機能によって抽出された当該受信書面の抽出表示とを並列して表示し、「項目名」に対する「値」を確認し、不適切であれば正しい「値」に修正する確認・修正機能と、確認・修正機能によって確定された抽出結果を所定の出力フォーマットで出力し、これを目的書面のデータベースへエクスポートするデータ出力機能と、確認・修正機能によって修正された値を、構造辞書・項目辞書・補完用辞書に反映させる学習機能と、を備え、目的書面のレイアウトに依存せずにデータ化に必要な項目の値の抽出を可能とすることを特徴とした活字ＯＣＲシステムである。
また、第２の発明は、請求項２記載の活字ＯＣＲシステムによって様々なレイアウトを持つ目的書面を個々の目的書面のレイアウトに依存せずにデータ化に必要な項目の値を抽出するためにひとつの仮想帳票として論理的に定義し、この仮想帳票に基づいて抽出機能と確認・修正機能とデータ出力機能とを一括して設定可能とすることを特徴とした設計機能をを備えてもよい。

本願発明の第１の発明によれば、以下のような効果を有する。
（１）多く（例えば、７０〜８０％）のＦＡＸ受信書面は、標準的に適用される「グローバルルール」によってＯＣＲ処理できる。
（２）それ以外（例えば、２０〜３０％）のＦＡＸ受信書面は、「グローバルルール」によってＯＣＲ処理できないものであるが、特定の受信書面にのみ適用される「ローカルルール」によってＯＣＲ処理できる。
（３）従って、結果的に全てのＦＡＸ受信書面を効率良く且つ確実にＯＣＲ処理できる。
（４）しかも、本願発明は、形式の異なるＦＡＸ受信書面ごとにそのフォーマットを登録するものではないので、処理するＦＡＸ受信書面が増えてもシステムに負荷がかからず、むしろ、学習機能を備えているので、ＯＣＲ処理をすればするほどその精度が高くなるという効果を有する。

本願発明の第２の発明によれば、以下のような効果を有する。
（１）ＦＡＸ受信書面のレイアウトが変わってもその都度設計し直す必要がなく（再設計することなく）、様々なレイアウトのＦＡＸ受信書面であっても、データ化に必要な項目の値を確実に取り出す（抽出する）ことができる。
（２）すなわち、従来の帳票ＯＣＲでは、次のような場合には、そのままでは目的とする値を抽出できず、設計し直す必要があるが、本願発明では、ＦＡＸ受信書面のレイアウト座標に依存しないので、データ化に必要な項目の値を確実に取り出せる（抽出できる）。
・異なる取引先で似たレイアウトだが、微妙に配置やフォントが違う。
・登録した通りのレイアウトでＦＡＸ受信できない。
・取引先の拠点毎に、微妙に配置・フォント・印刷設定が異なる。
・枠数・枠幅が増減する。
・ＮＯ行の中の行が増減する。
・行が増減する。
（３）また、本願発明の活字ＯＣＲシステムによって様々なレイアウトを持つ目的書面を個々の目的書面のレイアウトに依存せずにデータ化に必要な項目の値を抽出するためにひとつの仮想帳票として論理的に定義することで、抽出機能と確認・修正機能とデータ出力機能とを一括して設定することが可能となる（設計機能）。
（４）すなわち、特別なプログラム知識を持たなくても、この設計機能を使用することで、抽出機能と確認・修正機能とデータ出力機能における設定を簡単に行うことができる。そして、それによって、活字ＯＣＲシステムの活用の場が広がる。

本願発明の第１の発明に関するシステム概念図。本願発明の第１の発明に関する「確認・修正画面」本願発明の第２の発明に関する説明図（１）。本願発明の第２の発明に関する説明図（２）。本願発明の第２の発明に関する説明図（３）。本願発明の第２の発明に関する説明図（４）。本願発明の第２の発明に関する説明図（５）。本願発明の第２の発明に関する説明図（６）。本願発明の第２の発明に関するシステム概念図。本願発明の第２の発明の「仮想帳票」に関する概念図（１）。本願発明の第２の発明の「仮想帳票」に関する概念図（２）。

まず、本願発明で使用する用語について説明する。
［構造辞書」
構造辞書には、以下のような情報が含まれている。
□文書のレイアウト情報（ゾーン情報）
・座標（左上の座標、幅、高さ）
・含まれる項目の項目ＩＤ一覧
□項目と値の位置関係と値の数
・右、下、右下、表示なし
・別カラム／同一カラム／カラムなし
・単一／複数（最大数）
［項目辞書］
項目辞書には、以下のような情報が含まれている。
□項目情報
・項目ＩＤ
・項目の属性
・同義語グループＩＤ
□値の形式
・文字種指定
・テンプレート
・正規表現
□同義語情報
・同義語グループＩＤ
・項目１，項目２，項目３…
例）同義語グループＩＤ氏名
項目１氏名
項目２ご氏名
項目３御氏名
項目４おなまえ
項目５お名前
項目６御名前
項目７ご芳名
［補完用辞書］
補完用辞書には、以下のような情報が含まれている。
□項目ごとに、誤認識しやすい文字とその場所の情報が保存されている。
・項目名
・文字位置
・御認識文字
例）項目名日付
文字位置１
正しい文字日
御認識文字口

口付→日付

［分類用データベース］
ＦＡＸの受信書面を分類するために使用する情報が含まれているデータベースである。実際には、抽出用データベースと同じに、構造辞書・項目辞書・補完用辞書を使用することになるので、分類用データベースというものが抽出用データベースと別に存在するわけではない。分類機能の具体的な処理を説明する場合において、分類しようする情報を蓄えてある場所という程度の意味である。
［抽出用データベース］
目的書面内にある項目を抽出するために使用する情報が含まれているデータベースである。実際には、分類用データベースと同じに、構造辞書・項目辞書・補完用辞書を使用することになるので、抽出用データベースというものが分類用データベースと別に存在するわけではない。抽出機能の具体的な処理を説明する場合において、抽出しようする項目と値の情報を蓄えてある場所という程度の意味である。
［補完用データベース］
補完用辞書とほぼ同じ意味で使われている。データベースという言葉が器を指すニュアンスが強く、辞書は器の中に入る内容を指すニュアンスが強い。

［得意先別翻訳マスタ］
得意先の品番と自社の品番が異なるとき、得意先の品番を自社の品番に置き換える必要があり、製品名についても同様である。得意先の品番や商品名と自社の品番や製品名の対応付けを行っているのが得意先翻訳マスタである。
［得意先別いつものマスタ］
得意先が発注時に指定する際に、製品名ではなく得意先で使用されている通称などが使用される場合がある。また、色や形状などの細かい仕様については記述されていない場合もある。その際に過去の購入情報をもとにいつも購入している製品の製品名、品番、枝版、仕様を特定して置き換える必要がある。そのような情報を保持しているのかが得意先別いつものマスタである。

［グローバルルール］
構造辞書、項目辞書、補完用辞書の中で、特定の得意先に依存しない情報の属性を「グローバル」としている。このグローバルの属性をもった辞書の内容を総称してグローバルルールと称する。
［ローカルルール］
構造辞書、項目辞書、補完用辞書の中で、特定の得意先のための情報の属性を「ローカル」としている。このローカルの属性をもった辞書の内容を総称しローカルルールと称する。

次に、本願発明の実施形態を図面に基づいて説明する。
図１は、本願発明の第１の発明に関するシステム概念図を図示したものである。本願発明の活字ＯＣＲシステムは、大きく「分類機能」「抽出機能」「確認・修正機能」「データ出力機能」「学習機能」から構成される。以下、各機能ごとに説明する。

まず、「分類機能」は、ＦＡＸで受信した書面（受信書面）をＯＣＲ処理する目的の「書面（目的書面）」か「目的外の書面（非目的書面）」かに分類する機能である。
分類の作業としては、発信元からＦＡＸにより受信した発信元属性データ（ＴＳＩコード又はＦＡＸ番号等）の付随した受信書面を全体的にＯＣＲ処理する。
そして、分類用データベースを用いて、「目的書面」と「非目的書面」に分類する。
ここで、「分類用データベース」は、受信書面を目的書面又は非目的書面に分類できる「用語の定義」や「分類のルール」等を備えたものである。例えば、目的書面が「注文書」の場合に、注文書を定義し、注文書と同義語の書面（「発注書」「依頼書」等）を目的書面として分類できるようにする。

次に、「抽出機能」は、目的書面から必要な「項目名」「値」「座標」を抽出する機能である。
抽出の作業としては、目的書面をＯＣＲ処理する。そして、抽出用データベースおよび補完用データベースを用いて、「項目名」「値」「座標」を抽出する。
ここで、抽出用データベースは、受信書面から「項目名」「値」を抽出できる「同義語辞書」や「項目名と値の配置」「項目別の値パターン」等を備えたものである。すなわち、目的書面から「項目名」を抽出する場合、項目名の表現にバラツキがあるので、「同義語辞書」で吸収して正規化を行う。例えば、「氏名」「なまえ」「名前」「お名前」「ご芳名」といったものを「氏名」という項目で代表する。また、「項目名」に対応した「値（数量・品名）」を抽出する場合、その抽出方法は「項目名」をテキストアンカーという目印として使い、その周辺（上下左右と斜め方向：項目名と値の配置で定義・設定）で「項目名」に対応する「値」のパターン（項目別の値パターン）から検索して抽出する。なお、「項目名」と「値」が同じ矩形領域の箱に含まれている場合にも対応する。
また、この抽出用データベースは、標準的に適用される「グローバルルール」と特定の属性データを有する発信元からの受信書面にのみ適用される「ローカルルール」とに分けられる。グローバルルールは、ＦＡＸ受信書面の７割〜８割方で適用され得るルールで、このグローバルルールを適用できない残りの２割〜３割のＦＡＸ受信書面に適用されるのがローカルルールである。ローカルルールは、ＦＡＸを受信する際に画像とともに受信する発信元属性データ（ＴＳＩコード又はＦＡＸ番号等）ごとに蓄積される。すなわち、同じ発信元からの受信書面であれば、同じフォーマットの書面であり、同じルールが適用できるからである。

次に、補完用データベースを用いた「補完機能」及び「標準化・正規化機能」について説明する。まず「補完機能」はＯＣＲ結果が誤って認識した文字を含む場合に、N-gram法などに代表されるような、あいまいな文字列から正しい文字列を見つけ出す手法を使って、あらかじめ正しい文字列が登録された補完用データベースからもっとも近い文字列を取り出して抽出結果の文字列を置き換える機能である。たとえば、アルファベットと数字が混在した製品コードをＯＣＲが認識する場合、大文字のI(アイ)と小文字l(エル)と数字の1(イチ)、大文字のO(オー)と数字の0(ゼロ)、M/m(エム)とN/n(エヌ)、V/v(ブイ)とY/y(ワイ)などを明確に識別することは非常に困難となるが、この「補完機能」によってＯＣＲの認識結果を正しい製品コードに補完できる可能性の大幅な向上を期待できる。

また「標準化・正規化機能」は、送信元ごとに存在する独自に定められたコード体系や慣用的な通称や略称を、受信側で定められた標準化されたコードや正式な名称に変換することを目的とする。変換にあたっては、ＯＣＲによる誤った文字の認識を考慮し、「補完機能」と同様なN-gram法などに代表される「あいまい検索」を使って慣用データベースの検索を行い、一致した文字列に対応する標準化されたコードや正式な名称の取得をおこない抽出結果を置き換える機能である。この「標準化・正規化機能」によって、送信元ごとに異なる暗黙のルールを標準的なルールに則したコードや名称に変換することができる。

次に、「確認・修正機能」は、抽出機能で抽出した「値」「ＯＣＲ領域」を確認・修正する機能である。
その確認・修正機能は、「確認・修正画面」で行われる（図２）。「確認・修正画面」は、目的書面の受信画像と、抽出機能によって当該受信画像から抽出した「項目名」と「値」のデータを表示する抽出表示とを並記したものである。
確認機能は、抽出表示の抽出された「項目名」や「値」の欄を指定すると、これに対応する受信画像の該当部分が識別できるようになり（色枠で表示、背景や文字・数字を別色で表示など）、確認が極めて容易になる。
修正機能は、抽出した「値」と抽出した「エリア（領域）」で異なる処理を行う。抽出対象の「エリア（領域）」は間違っていないが、そこから抽出された「値」が間違えていた場合（例えば、「３」と読み取るところを「８」と読み取っていた場合）は、正しい「値」を抽出表示に入力し直す（オペレータの手作業）。
一方、抽出対象の「エリア（領域）」を間違えた場合は、正しい「エリア（領域）」を受信画像上で指定（選択）し、その指定領域をＯＣＲ処理させて正しい「項目名」又は「値」を抽出し、抽出表示に自動的に入力させるようにする。

また、「データ出力機能」は、データ出力機能は、確認・修正したデータを所定の出力フォーマットの形で出力し、エクスポート（目的書面のデータベースへ保存等）するものである。

最後に、「学習機能」は、前記確認・修正機能において、抽出対象の「エリア（領域）」を間違えた場合は、正しい「エリア（領域）」を受信画像上で指定（選択）するが、このとき、この指定領域の情報は当該目的書面に付与された属性データ（発信元情報）と紐付けされて、「ローカル（個別）ルール」に蓄積される。以後、当該属性データ（発信元情報）を付与された目的書面については、抽出機能において「グローバル（標準）ルール」に優先されてこの「ローカル（個別）ルール」が適用されて処理されることになる。
また、抽出する「値」を間違えた場合は、正しい「値」に修正するが、このとき、この修正された「値」の情報は補完用データベースに蓄積される。以後、抽出機能において、この補完用データベースが用いられて「値」が自動的に補完され抽出される。

図３〜図８は、本願発明の第２の発明に関する説明図である。
本願発明の第２の発明は、全体を活字、又は一部に手書き部分がある以外は活字で作成されたＦＡＸの受信書面（ＦＡＸ受信書面）を、構造辞書・項目辞書・補完用辞書を用いて分析・抽出する。例えば、図の文書を例に説明すると、図示するようにＦＡＸ受信書面を「表題ゾーン」「発注先ゾーン」「発注元ゾーン」「メイン明細ゾーン」「共通ゾーン１」「共通ゾーン２」「共通ゾーン３」「共通ゾーン４」「共通ゾーン５」と分析する。分析の方法としては、「表題ゾーン」を例に挙げると、表題は一般的に書面の上段中央部に配置されて、文書名が記載されることが多い（これらの情報は、構造辞書・項目辞書等に蓄積されている）。図３のＦＡＸ受信書面では、書面の上段中央部に「注文書」と記載されていることから、構造辞書及び項目辞書等を用いることで、この「注文書」と記載されている領域が「表題ゾーン」であると分析する。同様に、「発注先ゾーン」〜「共通ゾーン５」について分析する。

（分類機能）
そして、「表題ゾーン」に記載されている表題（値）によって、目的書面と非目的書面に分類する。目的書面を「注文書」とするならば、「表題ゾーン」に「注文書」又は注文書と同義語で記載されているもの（これは項目辞書を用いることで、「発注書」「御注文書」などを同義語と認識できる）を目的書面と判断する。

（抽出機能）
次に、目的書面から「項目名」「値」「信頼性」「座標」を抽出する。「注文書」であれば、例えば「項目名」は商品番号、「値」は数量となる。商品番号や数量は、メイン明細ゾーンに記載されているので（その情報は構造辞書に蓄積）、メイン明細ゾーンに記載されている記載内容から（「座標」と構造辞書で認識できる）、文字種（商品番号であれば数字や英字による表記、数量であれば数字のみ又は数字と単位による表記）、テンプレート（Ａ会社の商品番号であれば、ＸＸＸＮＮＮＮ−ＸＮなど）、「項目名」と「値」の位置関係（数量は商品番号の右側又は下側：構造辞書に蓄積）などの情報を用いて、抽出される。
なお、数量などは、一般的に（各社共通で）算用数字で表記されるので、標準的に適用されるグローバルルールとして「数量は算用数字で表記されたもの」と構造辞書・項目辞書・補完用辞書に備えることになる。
一方、注文書番号などは、取引各社による共通ルールとして表記が一致することは期待できないが、会社・部署ごとに共通する場合もあるので、特定の属性データを有する発信元からの受信書面にのみ適用されるローカルルールとして「Ａ会社の注文書番号はＡＮＮＮＮ−Ｎ」などと構造辞書・項目辞書・補完用辞書に備えることになる。
なお、図８に図示するように、「項目名」の背景に着色や網掛けがされている場合に、一般的なＯＣＲ技術であれば、そこから項目名を認識し、値を抽出することは極めて困難であるが、本願発明では補完用辞書やローカルルール等を適用して値の抽出を可能にしている。
また、補完用辞書や得意先別翻訳マスタ・得意先別いつものマスタなどを用いて、ＯＣＲ認識を自動的に補完・置き換えなどをして、その結果を抽出結果とすることで、ＯＣＲ認識を支援する。万一、ＯＣＲの結果、「信頼性」の低いものがあれば、次の確認・修正機能でそれが分かるように表示する。

（確認・修正機能）
確認・修正機能については、モニター画面に受信書面の画像（左）と抽出機能によって抽出された当該受信書面の抽出表示（右）とを並列して表示し、「項目名」に対する「値」を確認し、不適切であれば正しい「値」に修正する（図２参照）。

図９は、本願発明の第２の発明に関するシステム概念図を図示したものである。
ここでは、目的書面の種類を「注文書」として説明する。なお、「分類機能」については、図１に示す第１の発明と同じであるので、その説明を省略するが、目的書面が「注文書」であるため、注文書、発注書、オーダーフォームとよばれる文書のみを抽出する必要がある。

次の「抽出機能」では、入力された文書から、抽出用データベース（構造辞書・項目辞書・補完用辞書）を使って、必要な項目の値を取り出す。「注文書」においては、得意先名、注文日時、品番、商品名、単価、数量、合計金額、希望納期などが抽出されるべき項目となる。
抽出機能では、ＯＣＲ結果を、「項目名、値、信頼性、座標」のセットして取り扱う。例としては、「得意先名、○×商事、８５％、(972, 246)-(1331,308)」などである。ＯＣＲエンジンによって信頼性の解釈が異なり、画像の解像度によって座標の返す値の範囲が異なることを考慮する必要はあるものの、これらの４つの情報は何らかの方法で取得できるはずのものとして取り扱う。
図示するように、分類機能で行った１回目のＯＣＲ処理或いは１回目のＯＣＲ処理では不十分であれば２回目のＯＣＲ処理に対して、ゾーン情報を基にして、ゾーンと項目との関係から項目と値の関係を抽出する。例えば、ゾーンＡは、注文書の中段より上側の右端に配置されており、項目として「会社名」「ＴＥＬ」「ＦＡＸ」があるので、これを発注元として抽出し、項目と値の関係を抽出する。また、ゾーンＢは、注文書の下半分に位置しており、これを注文数量として抽出する。

なお、この抽出機能については、補完用データベース（補完用辞書）を使用して、ＯＣＲで誤認識となった文字を正しい文字に置き換える補完機能を備えても良い。文字を正しい文字に置き換える際に、文字単位ではなく単語ごとに誤認識のパターンを保持して、単語を正しいものに修正するような動作を前提にしている。
例えば、「発シ主日目寺」→「発注日時」などである。
また、得意先別翻訳マスタを使用して、得意先の品番や製品名を自社の品番や製品名に置き換える機能（標準化・正規化機能）を備えても良い。

続く「確認・修正機能」は、ＯＣＲ結果で信頼性が低い文字を人が目で見て確認を行い、正しい文字に修正する機能である。一般的に、画面の片側に認識対象の画像、もう片側に認識結果の文字が表示され、認識結果の文字は修正可能になっている。
また「データ出力機能」は、ＯＣＲ認識、確認修正作業などを経た後、最終的に出力される形式を指定して、リレーショナルデータベースやＣＳＶファイルなどに出力する。
更に「学習機能」は、確認・修正機能において、修正した内容を補完用データベース（補完用辞書）に蓄積し、以降のＯＣＲ認識結果を補完する際に有効活用する。

また、第２の発明には「仮想帳票」という特徴を有する。
図１０及び図１１において、「仮想帳票」について説明する。
図１０に図示するように、従来は、各文書（同一レイアウトの文書）ごとに設定された処理内容で作業が進められていた。
これに対して、本願発明（第２の発明）は、各文書を論理的に定義された「仮想帳票」に集約することを技術思想としており、この仮想帳票に落とし込むために上記した構造辞書・項目辞書・補完用辞書を或いはグローバルルール・ローカルルールを用いて各文書のレイアウトに依存せずにデータ化に必要な項目の値を抽出している（図１１：仮想帳票と各種辞書の連関図）。
従って、従来は、各文書（同一レイアウトの文書）ごとそして各作業（例えば、抽出、確認・修正、出力）ごとに設定が必要であったが、本願発明では、理論的に定義された仮想帳票の定義内容を設定するだけで、各文書（各レイアウト）ごと及び各作業ごとの設定が当然に不要となる。換言すれば、本願発明では、仮想帳票を中心にして仮想帳票を作成するために各作業が進められているので、仮想帳票の定義（設定）が決まれば、その他の設定は基本的にいらないのである。

仮想帳票は、特定のレイアウトに依存しない帳票で、「注文書」「見積依頼書」「作業依頼書」など文書の目的ごとに作成される帳票で、以下のような情報を含んでいる。
□文書の種類（注文書、見積依頼書、連絡票など）
・文書種別ＩＤ
・文書種別名
・文書種別の説明
□使用する項目の一覧
仮想帳票を定義する場合に中心となるのが項目の情報である。「注文書」であれば、文書名、注文書番号、注文書日付、発注元、発注元電話番号、発注元ＦＡＸ番号、品番、品名、単価、数量、合計金額、消費税などの項目が必要となり、これらの項目の情報を項目辞書への参照方法（項目ＩＤ）として保持する。
□対応する構造辞書
仮想帳票には、書面のレイアウトについての情報や、項目の値の配置に関する情報がない。これらの情報は構造辞書にあるため、対応する構造辞書への参照情報（文書種別ＩＤＥＡ）を保持する。
□確認修正用画面レイアウト
具体的な個々の帳票の項目の物理的な配置に依存しない、一般的な帳票の項目の配置をして、目視で内容をチェックする効率があがるようなレイアウト
□出力フォーマット
具体的な個々の帳票に記載されている項目の形式に依存しない、日付や金額の形式が統一された形でリレーショナルデータベースやＣＳＶファイルに出力される設定
□ロジカルチェック
明細に書かれた金額の合計と合計金額欄に書かれた金額が一致するか、希望納期が注文日時よりも充分な日数分後になっているかなど論理的なチェックロジックの設定
□ＤＢルックアップ
入力する項目がいくつかの選択肢に限られる場合に、選択可能な項目を設定。支払い方法が「現金、クレジットカード、代引、納品後振込み」から選択できるなどの設定

一般的に活字ＯＣＲといった場合、カラー画像や高解像度の画像を前提としているため、対象画像が理想的な品質でなければ期待どおりのＯＣＲ結果を抽出することはできない。しかしながら、本願発明は、ＦＡＸや複写による白黒画像や解像度の低い画像で現実的には画像品質の悪い書面からＯＣＲ結果を取り出すことが可能となるため、ＦＡＸの注文書や請求書、ドットプリンタによる伝票などからのデータ抽出、原本が添付できない本人確認書（パスポート・運転免許書）の白黒コピー・グレイスケールコピーから必要なデータを抽出することが可能となる。また、設計機能（デザイン機能）を備えているので、ニーズにあわせて設定を行えば、目的のデータを効率よく抽出し活用できる。

Claims

全体を活字、又は一部に手書き部分がある以外は活字で作成されたＦＡＸの受信書面をＯＣＲ処理する活字ＯＣＲシステムであって、
発信元からＦＡＸにより受信した発信元属性データの付随した受信書面をＯＣＲ処理し、分類用データベースを用いて、当該受信書面を目的書面と非目的書面に分類する分類機能と、
目的書面に分類された受信書面をＯＣＲ処理し、標準的に適用されるグローバルルールと特定の属性データを有する発信元からの受信書面にのみ適用されるローカルルールとを備えた抽出用データベース及びＯＣＲ処理を補完する補完用データベースを用いて、当該受信書面から「項目名」「値」「座標」を抽出する抽出機能と、
モニター画面に受信書面の画像と抽出機能によって抽出された当該受信書面の抽出表示とを並列して表示し、「項目名」に対する「値」を確認し、不適切であれば正しい「値」に修正し、また、抽出機能によるＯＣＲ領域を確認し、不適切であれば正しいＯＣＲ領域を指定し、指定されたＯＣＲ領域で再度ＯＣＲ処理し、改めて「項目名」に対する「値」を確認する確認・修正機能と、
確認・修正機能によって確定された抽出結果を所定の出力フォーマットで出力し、これを目的書面のデータベースへエクスポートするデータ出力機能と、
確認・修正機能によって指定されたＯＣＲ領域及び修正された値を、抽出用データベース及び補完用データベースに反映させる学習機能と、
を備えたことを特徴とする活字ＯＣＲシステム。
全体を活字、又は一部に手書き部分がある以外は活字で作成されたＦＡＸの受信書面をＯＣＲ処理する活字ＯＣＲシステムであって、
当該活字ＯＣＲシステムは、標準的に適用されるグローバルルールと特定の属性データを有する発信元からの受信書面にのみ適用されるローカルルールとをそれぞれ備えた構造辞書・項目辞書・補完用辞書を有し、
構造辞書は、文書の種類、文書のレイアウト情報（ゾーン情報）、項目と値の位置関係と値の数に関する情報を含み、
項目辞書は、同義語、値の形式に関する情報を含み、
補完用辞書は、項目ごとに、誤認識しやすい文字とその場所の情報を含み、
発信元からＦＡＸにより受信した発信元属性データの付随した受信書面をＯＣＲ処理し、構造辞書・項目辞書・補完用辞書を用いて、当該受信書面を目的書面と非目的書面に分類する分類機能と、
目的書面に分類された受信書面のＯＣＲ処理に対して、構造辞書・項目辞書・補完用辞書を用いて、当該受信書面から「項目名」「値」「信頼性」「座標」を抽出する抽出機能と、
モニター画面に受信書面の画像と抽出機能によって抽出された当該受信書面の抽出表示とを並列して表示し、「項目名」に対する「値」を確認し、不適切であれば正しい「値」に修正する確認・修正機能と、
確認・修正機能によって確定された抽出結果を所定の出力フォーマットで出力し、これを目的書面のデータベースへエクスポートするデータ出力機能と、
確認・修正機能によって修正された値を、構造辞書・項目辞書・補完用辞書に反映させる学習機能と、
を備え、目的書面のレイアウトに依存せずにデータ化に必要な項目の値の抽出を可能とすることを特徴とした活字ＯＣＲシステム。
請求項２記載の活字ＯＣＲシステムによって様々なレイアウトを持つ目的書面を個々の目的書面のレイアウトに依存せずにデータ化に必要な項目の値を抽出するためにひとつの仮想帳票として論理的に定義し、この仮想帳票に基づいて抽出機能と確認・修正機能とデータ出力機能とを一括して設定可能とすることを特徴とした設計機能を備えた活字ＯＣＲシステム。