JPH10187751A - 認識データ処理装置およびそのプログラム記録媒体 - Google Patents

認識データ処理装置およびそのプログラム記録媒体

Info

Publication number
JPH10187751A
JPH10187751A JP8355472A JP35547296A JPH10187751A JP H10187751 A JPH10187751 A JP H10187751A JP 8355472 A JP8355472 A JP 8355472A JP 35547296 A JP35547296 A JP 35547296A JP H10187751 A JPH10187751 A JP H10187751A
Authority
JP
Japan
Prior art keywords
item name
item
keyword
recognition data
contents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8355472A
Other languages
English (en)
Inventor
Akira Hasegawa
明 長谷川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP8355472A priority Critical patent/JPH10187751A/ja
Publication of JPH10187751A publication Critical patent/JPH10187751A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 (修正有) 【課題】 文字認識された認識データの中に含まれてい
るキーワードに基づいて当該キーワードに対応する項目
名を決定する際に、それまで累積した決定内容を考慮す
ることで、項目名を精度良く決定する。 【解決手段】 CPU1はスキャナ装置8によって読み
取られた表形式の原稿イメージを文字認識し、この認識
データに基づいてキーワード辞書メモリ2−6を検索す
る。これによって1行分の認識データの中にキーワード
が含まれていれば、キーワード辞書メモリ2−6内の属
性を項目名として読み出すと共に、それに対応する確信
度を読み出してフィールド分類作業テーブル2−7を作
成する。そして、各行毎の確信度を項目名別に累計して
フィールド分類マスタテーブル2−8を作成し、このフ
ィールド分類マスタテーブル2−8の内容に基づいて項
目名を決定する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、イメージデータ
を文字認識すると共に、認識データを処理する認識デー
タ処理装置およびそのプログラム記憶媒体に関する。
【0002】
【従来の技術】一般に、表形式の原稿イメージを文字認
識すると共に、認識されたデータに基づいてデータベー
スファイルの内容を更新する認識データ処理装置におい
ては、認識データを更新先であるデータベースファイル
のどのファイルに書き込むかという対応付けを行う必要
がある。このような対応付けを以下、フィールド分類と
称すると、フィールド分類としては次のような方法が知
られていた。 、表形式の原稿イメージの先頭行に、項目名として例
えば「氏名」、「所属」等が記述されている場合におい
て、その項目名を文字認識し、その項目名の桁位置を検
出することによって全レコードの各項目を一括して対応
付ける方法。 、原稿イメージ内の何番目のフィールドは何かという
形式でオペレータに各項目を入力指定させることによ
り、その指定内容を基に全レコードの各項目を一括して
対応付ける方法。 、原稿イメージを文字認識した際に、「株式会社」、
「大学」等のキーワードを抽出して個々のレコード毎に
各項目を逐次対応付ける方法。
【0003】
【発明が解決しようとする課題】しかしながら、上述し
たの方法では、原稿イメージ内に項目名が記述されて
いることを条件とするため、項目名が記述されていない
ものについては、フィールド分類の対応付けを行うこと
ができないという欠点があった。また、の方法はオペ
レータにフィールド分類の対応付けを委ねるようにして
いるため、オペレータに大きな負担をかけると共に、作
業効率が悪くなるという欠点があった。更にの方法は
キーワードと一致したとしても確実性や信頼性の点で問
題が残ると共に、キーワード数が多くなり、メモリの膨
大化を招く。この発明の課題は、文字認識された認識デ
ータの中に含まれているキーワードに基づいて当該キー
ワードに対応する項目名を決定する際に、それまで累積
した決定内容を考慮することで、項目名を精度良く決定
できるようにすることである。
【0004】
【課題を解決するための手段】この発明の手段は次の通
りである。請求項1記載の発明は、複数レコード構成の
イメージデータを文字認識する文字認識手段と、この文
字認識手段によって認識された1レコード分の認識デー
タの中に含まれているキーワードを抽出すると共に、抽
出したキーワードに基づいて当該キーワードに対応する
項目名をそれぞれ推測する推測手段と、この推測手段に
よって1レコード内の各キーワードに応じてそれぞれ推
測された項目名毎に、その推測評価点を求めると共に、
各レコード毎に求められた同一項目名同士の推測評価点
を項目名別に累計する手段と、前記項目名別に累計され
た累計評価点に基づいて対応する項目名を決定する決定
手段と、この決定手段によって決定された項目名別に対
応する認識データを記憶する記憶手段とを具備するもの
である。なお、データベースに定義されている各項目名
に対応して1レコード分の前記推測評価点を記憶する第
1の評価点記憶手段と、前記データベースに定義されて
いる各項目名に対応して複数レコード分の前記累計評価
点を記憶する第2の評価点記憶手段とを有し、前記第1
の評価点記憶手段の内容を項目別に前記第2の評価点記
憶手段の内容にそれぞれ加算することにより前記累計評
価点を更新する際に、第1の評価点記憶手段、第2の評
価点記憶手段のうち何れの評価点を重視するかに応じた
係数を当該評価点に乗算することによって新たな累計評
価点を求めるようにしてもよい。また、キーワード毎に
項目名、確信度を記憶するキーワード辞書メモリを有
し、このキーワード辞書メモリを参照することにより、
前記認識データの中に含まれているキーワードを抽出す
ると共に、抽出したキーワードに基づいて対応する項目
名をそれぞれ推測し、推測した項目名に対応する前記確
信度を当該項目名の推測評価点として求めるようにして
もよい。更に、1レコード分の各項目名に対応して求め
られた推測評価点と、前記項目名別の累計評価点とに基
づいて前記決定手段は1レコード毎にその項目名を決定
し、この決定手段によって決定された項目名が一覧表示
されている状態において、任意の項目名を指定してその
項目名位置が修正された際に、修正された項目名に対応
する前記累計評価点を変更するようにしてもよい。
【0005】請求項1記載の発明によれば、複数レコー
ド構成のイメージデータが文字認識されると、認識され
た1レコード分の認識データの中に含まれているキーワ
ードを抽出すると共に、抽出したキーワードに基づいて
当該キーワードに対応する項目名をそれぞれ推測する他
に、推測された各項目名毎にその推測評価点を求めると
共に、各レコード毎に求められた同一項目名同士の推測
評価点を項目名別に累計するようにしたから、項目名別
に累計された累計評価点に基づいて対応する項目名を決
定し、決定された項目名別に対応する認識データを記憶
させることが可能となる。したがって、文字認識された
認識データの中に含まれているキーワードに基づいて当
該キーワードに対応する項目名を決定する際に、それま
で累積した決定内容を考慮することで、項目名を精度良
く決定することができる。
【0006】
【発明の実施の形態】
(第1実施形態)以下、図1〜図6を参照してこの発明
の第1実施形態を説明する。図1(A)は認識データ処
理装置の全体構成を示したブロック図である。CPU1
はRAM2内にロードされている各種プログラムにした
がってこの認識データ処理装置の全体動作を制御する中
央演算処理装置である。記憶装置3はオペレーティング
システムや各種アプリケーションプログラム、データフ
ァイル、文字フォントデータ等が予め格納されている記
憶媒体4やその駆動系を有している。この記憶媒体4は
固定的に設けたもの、もしくは着脱自在に装着可能なも
のであり、フロッピーディスク、ハードディスク、光デ
ィスク、RAMカード等の磁気的・光学的記憶媒体、半
導体メモリによって構成されている。また、記憶媒体4
内のプログラムやデータは、必要に応じてCPU1の制
御により、RAM2にロードされる。更に、CPU1は
通信回線等を介して他の機器側から送信されて来たプロ
グラム、データを受信して記憶媒体4に格納したり、他
の機器側に設けられている記憶媒体に格納されているプ
ログラム、データを通信回線等を介して使用することも
できる。また、CPU1にはその入出力周辺デバイスで
ある入力部5、表示部6、印字部7、スキャナ装置8が
接続されており、入出力プログラムにしたがってCPU
1はそれらの動作を制御する。
【0007】入力部5は文字列データや各種のコマンド
を入力するキーボード、マウス等のポインティングデバ
イスを有し、入力部5から入力されたかな文字列は、表
示部6のテキスト画面に表示されると共に、かな漢字変
換等が行われ、RAM2内にデータベースとして格納さ
れ、また、このデータベースは入力部5からの印字指令
にしたがって印字部7に送られ、印字出力される。スキ
ャナ装置8は1原稿分のイメージデータを光学的に読み
取って光電変換するイメージリーダであり、表形式の原
稿イメージがスキャナ装置8によって読み取られると、
CPU1はこの表形式の原稿イメージを行桁のセル単位
毎に分割し、各セル毎にイメージデータを文字認識する
処理を行う。
【0008】図1(B)はRAM2の主要構成を示し、
RAM2に割り当てられた所定のメモリ領域には、記憶
媒体4からロードされたプログラムやデータが必要に応
じて格納される。ワークメモリ2−1はプログラムやデ
ータを一時記憶するワーク域であり、イメージメモリ2
−2はスキャナ装置8によって読み取られた1原稿分の
イメージデータを記憶保持し、また、認識結果メモリ2
−3はこのイメージメモリ2−2の内容にしたがって文
字認識された文字列コード(キャラクタコード)を記憶
保持するメモリである。認識用辞書メモリ2−4は1文
字毎にイメージパターンと文字コードとを対応付けて記
憶する辞書メモリで、CPU1は認識用辞書メモリ2−
4の内容を参照することによって文字認識処理を行う。
データベースファイル2−5は文字認識された1原稿分
の認識データに基づいて更新されるもので、予め更新先
ファイルとして任意に入力指定されたファイルである。
【0009】キーワード辞書メモリ2−6はキーワード
毎に項目属性(項目名)、確信度を記憶するもので、図
2はキーワード辞書メモリ2−6の一部を具体的に示し
た図である。ここで、CPU1は文字認識したデータの
中にキーワード辞書メモリ2−6に定義されているキー
ワードが含まれている場合には、それに対応する属性を
当該キーワードに対応する項目名として推測すると共
に、それに対応する確信度を推測評価点として読み出
し、この推測評価点を項目別にフィールド分類作業テー
ブル2−7にセットする。なお、確信度を示す数値はそ
れが大きい程、確信度が高いことを示している。フィー
ルド分類作業テーブル2−7はデータベースファイル2
−5に定義されている項目名に対応して文字認識結果の
1レコード分の推測評価点を記憶するもので、この内容
はフィールド分類マスタテーブル2−8に項目毎に累計
される。ここで、CPU1はフィールド分類作業テーブ
ル2−7の内容を項目別にフィールド分類マスタテーブ
ル2−8の内容にそれぞれ加算することにより累計評価
点を求めてフィールド分類マスタテーブル2−8にセッ
トするが、その際、フィールド分類作業テーブル2−
7、フィールド分類マスタテーブル2−8のうち何れの
評価点を重視するかに応じた係数を当該評価点に乗算す
ることによって新たな累計評価点を求め、フィールド分
類マスタテーブル2−8にセットする。フィールド分類
マスタテーブル2−8はデータベースファイル2−5に
定義されている項目名に対応して累計評価点を記憶する
もので、CPU1はこのフィールド分類マスタテーブル
2−8の内容を参照することにより、文字認識された認
識データの項目名を1項目毎に決定する。項目別決定メ
モリ2−9はこれによって決定された項目名別に認識デ
ータを対応付けて記憶するもので、データベースファイ
ル2−5の内容はこの項目別決定メモリ2−9の内容に
したがって更新される。
【0010】次に、この認識データ処理装置の動作を図
3および図4に示すフローチャートにしたがって説明す
る。なお、これらのフローチャートに記述されている各
機能を実現するためのプログラムは、CPU1が読み取
り可能なプログラムコードの形態で記憶媒体4に記憶さ
れており、その内容がRAM2内のワークメモリ2−1
にロードされている。図3は認識データ処理装置の全体
動作を示したフローチャートである。先ず、処理対象の
データベース名が任意に選択されると、それに対応する
データベースファイル2−5がRAM2にセットされる
と共に(ステップA1)、このデータベース項目名がフ
ィールド分類作業テーブル2−7、フィールド分類マス
タテーブル2−8にそれぞれ割り当てられる(ステップ
A2)。この状態において、読み取り対象の原稿がスキ
ャナ装置8にセットされると、CPU1はスキャナ装置
8を起動させて、原稿分のイメージデータを取り込み、
イメージメモリ2−2に格納する(ステップA3)。す
ると、CPU1はこのイメージメモリ2−2の内容を解
析し、それが表形式の原稿イメージであれば、行列毎の
セル単位にイメージデータを分割する(ステップA
4)。その際、表内に罫線が有れば、その罫線位置を検
出し、罫線が無ければ、空白、数を検出することによっ
て1原稿分のイメージデータの分割を行う。このように
して1原稿分のイメージデータをセル単位毎に分割する
と、CPU1は認識用辞書メモリ2−4を参照し、イメ
ージデータをセル単位毎に1文字ずつ文字認識し、文字
列コードに変換して認識結果メモリ2−3に格納してゆ
く(ステップA5)。そして、文字認識結果に基づいて
その行数をカウントして記憶保持すると共に(ステップ
A6)、行カウンタ(図示せず)に初期値「1」をセッ
トしておく(ステップA7)。また、フィールド分類作
業テーブル2−7およびフィールド分類マスタテーブル
2−8の値(評価点)をクリアしてその内容を初期化し
ておく(ステップA8、A9)。
【0011】このようにして文字認識処理と初期化処理
が終ると、1行分の解析処理に移る(ステップA1
0)。この解析処理は図4のフローチャートにしたがっ
て実行される。すなわち、行カウンタで示される1行分
の認識結果(行データ)のうち、その先頭のセルデータ
を読み出し(ステップB1)、このセルデータに基づい
てキーワード辞書メモリ2−6を検索し(ステップB
2)、このセルデータの中にキーワードが含まれている
かを調べる(ステップB3)。ここで、キーワード辞書
メモリ2−6に定義されているキーワードがセルデータ
の中に含まれていれば、当該キーワードに対応する属性
および確信度をそれぞれ読み出し、この属性に基づいて
フィールド分類作業テーブル2−7内の該当項目位置を
捜し出し、その項目位置に確信度をセットする(ステッ
プB4)。
【0012】ここで、図5は原稿例を示したもので、そ
の1行目の先頭項目は具体的な“人名”であり、キーワ
ード辞書メモリ2−6にその“氏”がキーワードとして
定義されていれば、それに対応する属性として「名
前」、確信度として「2」が読み出され、フィールド分
類作業テーブル2−7の「名前」に対応する項目位置に
その確信度「2」がセットされる。図6(A)はこの場
合のフィールド分類作業テーブル2−7の内容を示し、
その列方向にはデータベース項目名が定義され、その行
方向にはフィールド番号が定義されており、フィールド
番号「1」、項目名「名前」に対応する位置に確信度
「2」がセットされる。なお、ステップB4においては
キーワード辞書メモリ2−6との照合の結果、例えば、
数字が何桁連続しているか、ハイフンの有無等に基づい
て電話番号であるか否か、あるいは電話番号が2項目分
存在していれば、2番目の項目をFAX番号であると推
測する。
【0013】一方、ステップB3で該当キーワード無し
が検出されると、ステップB5に進み、予め決められて
いるその他のルールに合致するものであれば、そのルー
ルに対応する確信度を求めてフィールド分類作業テーブ
ル2−7にセットする。そして、1行分の解析が終るま
で(ステップB6)、次のセルデータを指定して読み出
し(ステップB7)、このセルデータに基づいてキーワ
ード辞書メモリ2−6を検索してキーワードが含まれて
いるかを調べる(ステップB2)。以下、同様の動作を
1行終了するまで繰り返される結果、図5に示す原稿例
の1行目についてその解析が行われると、フィールド分
類作業テーブル2−7の内容は図6(A)に示す如くと
なり、2番目のフィールドは項目名が「部署」で、確信
度は「4」であることを示し、3番目のフィールドは項
目名が「電話」か「FAX」の何れかであり、その確信
度はそれぞれ「2」であることを示している。そして、
1行終了が検出されると、ステップB8に進み、フィー
ルド分類作業テーブル2−7の内容にしたがってフィー
ルド分類マスタテーブル2−8の内容を次式にしたがっ
て更新する処理が行われる。 「フィールド分類作業テーブル」×「作業テーブル係数
A1」+「フィールド分類マスタテーブル」×「マスタ
テーブル係数A2」→フィールド分類マスタテーブル ここで、テーブル係数A1、A2はフィールド分類作業
テーブル2−7、フィールド分類マスタテーブル2−8
の内容の何れを重視するかによって予め決められている
もので、いま、係数A1、A2を仮に「1」とすると、
フィールド分類マスタテーブル2−8の内容は図6
(B)に示す如くとなる。
【0014】このようにして1行分の解析処理が終る
と、行カウンタを更新し、次の行を指定し(ステップA
11)、全行終了かを調べるが(ステップA12)、い
ま、1行目を解析した場合であるから2行目が指定され
てステップA9に戻り、フィールド分類作業テーブル2
−7の内容を初期化したのち、2行目の解析処理が行わ
れる(ステップA10)。図6(C)は図5の原稿例に
おける2行目の解析結果を示したフィールド分類作業テ
ーブル2−7の内容を示している。この場合、2行目の
2フィールド目「特需部」はキーワード辞書メモリ2−
6内にキーワードとして定義されていないため、それに
対応するフィールド分類作業テーブル2−7内の確信度
は「0」のままとなっている。図6(D)はこのフィー
ルド分類作業テーブル2−7の内容とフィールド分類マ
スタテーブル2−8の内容に基づいて更新された新たな
フィールド分類マスタテーブル2−8の内容を示した図
である。これによって2行目の解析が終ると3行目が指
定され、以下、全行終了まで上述の動作が繰り返される
結果、フィールド分類マスタテーブル2−8の内容は1
行解析が行われる毎に更新されてゆく。
【0015】ここで全行終了が検出されると、フィール
ド分類マスタテーブル2−8の内容にしたがって各項目
名とフィールドとの対応関係を調べ、どのフィールドは
どの項目名に対応するかを決定する(ステップA1
3)。この場合、1つのフィールドに2以上の項目名が
割り当てられている場合には、累計確信度、つまり、全
行分の解析によって得られた累計評価点を比較し、大き
い方の評価点に対応する項目名を当該フィールドの項目
名として決定する。このようにして決定された各項目名
に対応付けて認識結果メモリ2−3から該当するフィー
ルドのセルデータを読み出し、項目別決定メモリ2−9
に1原稿分のデータをセットする(ステップA14)。
そして、項目別決定メモリ2−9の内容を一覧表示させ
(ステップA15)、入力部5から修正指示が有れば
(ステップA16)、修正処理に移る(ステップA1
7)。この場合、セル単位毎に文字認識結果を修正する
他に、行単位毎に項目の並べ替えを行うことができる。
そして、ステップA18に進み、項目別決定メモリ2−
9の内容にしたがってデータベースファイル2−5の内
容を項目別に更新する処理が行われる。
【0016】以上のようにこの認識データ処理装置にお
いては、表形式の原稿イメージを文字認識すると共に、
認識された1行分の認識データに基づいてセル単位毎に
キーワード辞書メモリ2−6を検索し、キーワードが含
まれている場合には、それに対応する確信度を項目別に
読み出してフィールド分類作業テーブル2−7を作成
し、このフィールド分類作業テーブル2−7の内容に基
づいてフィールド分類マスタテーブル2−8の内容を更
新する処理を全行分繰り返したのち、このフィールド分
類マスタテーブル2−8内の項目別累計評価点に基づい
て項目名を決定するようにしたから、キーワードに基づ
いて推測された項目名は極めて確信度の高いものとな
る。このように1原稿分の累計評価点に基づいて項目名
を最終決定するようにしているためキーワード辞書メモ
リ2−6に極め細かなキーワードを定義しておかなくて
もよく、キーワード辞書メモリ2−6の膨大化を防ぐこ
とができると共に、高精度な項目決定が可能となる。
【0017】(第2実施形態)以下、図7〜図14を参
照してこの発明の第2実施形態を説明する。なお、この
第2実施形態は1行毎に項目名を決定するようにしたも
のである。なお、この第2実施形態における認識データ
処理装置もその基本的な構成要素は、図1と同様に構成
されているため、そのブロック図は図示省略するものと
し、以下、図1を兼用して第2実施形態を説明する。こ
こで、RAM2内には後述するフィールド分類決定テー
ブル2−10(図10(B)参照)が設けられている。
図7は認識データ処理装置の全体動作を示したフローチ
ャートで、図3のフローチャートと同様の処理は図示省
略したものであり、先ず、図3のステップA1〜A8に
対応する略同様の処理、つまり、文字認識処理および初
期化処理が行われる(ステップC1)。この場合、図3
のステップA2においてはデータベース項目名をフィー
ルド分類作業テーブル2−7、フィールド分類マスタテ
ーブル2−8に割り当てるようにしたが、この第2実施
形態においては、データベース項目名を更にフィールド
分類決定テーブル2−10にも割り当てるようにしてい
る。
【0018】次に、フィールド分類作業テーブル2−7
を初期化すると共に(ステップC2)、フィールド分類
決定テーブル2−10の初期化が行われる(ステップC
3)。この状態において、1行分の解析処理が行われる
(ステップC4)。図8はこの解析処理を示したもの
で、図4に示すフローチャートと基本的には同様である
ため、特徴部分のみを図示したものである。すなわち、
図4のステップB1〜B5の処理が実行される(ステッ
プD1)。この結果、図10の原稿例で示した1行目を
解析することによってフィールド分類作業テーブル2−
7の内容は図11(A)に示す如くとなる。そして、次
のステップD2に進み、フィールド分類マスタテーブル
2−8とフィールド分類作業テーブル2−7とからフィ
ールド分類決定テーブル2−10を作成する処理が行わ
れる。この決定テーブルの作成は次式にしたがって行わ
れる。 「フィールド分類作業テーブル」×「作業テーブル係数
B1」+「フィールド分類マスタテーブル」×「マスタ
テーブル係数B2」→フィールド分類決定テーブル この場合においても、テーブル係数B1、B2はフィー
ルド分類作業テーブル2−7、フィールド分類マスタテ
ーブル2−8の何れを重視するかによって決められた値
であり、いま、係数B1、B2を仮に「1」とすると、
フィールド分類決定テーブル2−10の内容は図11
(B)に示す如くとなる。つまり、1行目の処理時点で
はフィールド分類マスタテーブル2−8の内容が初期化
されているので、テーブル係数B1=1であれば、フィ
ールド分類作業テーブル2−7の内容がそのままフィー
ルド分類決定テーブル2−10に転記されたものとな
る。そして、ステップB3に進み、図4のステップB6
〜B8と同様の処理が行われ、1行分の解析が終ると、
フィールド分類作業テーブル2−7の内容にしたがって
フィールド分類マスタテーブル2−8の内容が更新され
る結果、フィールド分類マスタテーブル2−8の内容は
図11(C)に示す如くとなる。
【0019】次に図7のステップC5に進み、フィール
ド分類決定デーブル2−10の内容にしたがって1行分
の項目名を決定する。そして、決定された項目名および
それに対応する認識データを一覧表示する(ステップC
6)。図12はこの場合の表示例を示し、この一覧表示
画面の下には操作ガイダンスが表示される。ここで、訂
正モードを指定するファンクションキーF1が操作され
ると(ステップC7)、訂正処理に移る(ステップC
8)。この訂正処理は図9のフローチャートにしたがっ
て実行される。すなわち、先ず、操作ガイダンスの表示
画面が訂正モード画面に切り替えられたのち(ステップ
E1)、キー入力待ちとなる(ステップE2)。図13
(A)はこの場合の表示画面例である。ここで、例え
ば、項目変換を指示するためにファンクションキーF4
が操作されたものとすると、ステップE3でそのことが
検出されてステップE4に進み、項目変換処理が実行さ
れる。いま、図13(B)に示すように操作ガイダンス
にしたがって変換元の項目「電話」をカーソル指定する
と共に、図14(A)に示すように変換先の項目「FA
X」をカーソル指定すると、図14(B)に示すよう
に、変換元と変換先の項目感において項目データの入れ
替えが行われる。このようにして項目変換が行われる
と、変換先に対応したフィールド分類マスタテーブル2
−8内の累計評価点に所定の値を加算する処理が行われ
る。この場合、加算値が「10」であれば、フィールド
分類マスタテーブル2−8の内容は図11(D)に示す
如くとなり、フィールド番号「2」に対応する「FA
X」の累計評価点は「2」から「12」に更新され、ま
たフィールド番号「3」に対応する「電話」の累計評価
点も「2」から「12」に更新される。
【0020】一方、項目移動が指定された場合にもそれ
に応じて項目の移動処理が行われると共に、移動先に対
応したフィールド分類マスタテーブル2−8内の累計評
価点に所定値が加算される(ステップE5)。また、項
目消去が指示されると、それに対応するフィールド分類
マスタテーブル2−8の内容が消去され、また、項目複
写が指示されると、それに対応するフィールド分類マス
タテーブル2−8の内容が複写先にコピーされる(ステ
ップE6)。また、文字訂正が指示されると、指定され
た項目データ(認識データ)を任意に修正することがで
きる(ステップE7)。そして、訂正終了が指示される
と、この訂正処理の終了となる。また、図12に示す表
示状態において、1行分の項目名、項目データが正しい
ことを確認した場合に、その確定が指示されると(ステ
ップC9)、1行分の認識結果にしたがってデータベー
スファイル2−5の内容を項目別に更新する(ステップ
C10)。そして、行カウンタを更新して次行を指定し
(ステップC11)、全行終了かを調べ(ステップC1
2)、終了でなければ、フィールド分類作業テーブル2
−7、フィールド分類決定テーブル2−10の内容を初
期化したのち(ステップC2、C3)、1行分の解析処
理を行う(ステップC4)。このような動作は全行分終
了するまで繰り返される。
【0021】以上のようにこの認識データ処理層値にお
いては、表形式の原稿イメージを文字認識することによ
って得られた1行分の認識データに基づいてセル単位毎
にキーワード辞書メモリ2−6を検索し、キーワードが
含まれている場合にはそれに対応する確信度を項目別に
読み出してフィールド分類作業テーブル2−7を作成
し、このフィールド分類作業テーブル2−7の内容に基
づいてフィールド分類マスタテーブル2−8を更新する
と共に、フィールド分類作業テーブル2−7とフィール
ド分類マスタテーブル2−8の内容に基づいてフィール
ド分類決定テーブル2−10を作成し、このフィールド
分類決定テーブル2−10の内容にしたがって1行分の
項目名を決定するようにしたから、フィールド分類マス
タテーブル2−8内の項目別累計評価点を考慮した決定
が可能となり、極めて確信度の高いものとなる。また、
1行単位毎に項目変換や項目移動によって項目並びを任
意に修正することができると共に、項目変換や項目移動
が行われると、それに応じてフィールド分類マスタテー
ブル2−8内の対応する累計評価点に所定値が加算され
るので、以降の項目名の決定に際し、オペレータの意向
を考慮することが可能となる。特に、第2実施形態は、
全行の項目並びが部分的に一致していないような原稿を
処理する際に有効なものとなる。
【0022】なお、上述した各実施形態においては、テ
ーブル係数A1、A2、B1、B2を「1」の場合を例
示したが、その値は任意であり、その重み付けに応じて
どのテーブル内容を重視するかの項目決定が可能とな
る。この場合、オペレータは原稿内容を確認し、フィー
ルド分類作業テーブル2−7を優先させるか、フィール
ド分類マスタテーブル2−8を優先させるか、つまり今
回の解析結果を優先させる場合には、それに対応するテ
ーブル係数を任意に変更し、また累積した学習内容を優
先させる場合には、それに対応するテーブル内容を任意
に変更するようにすれば、あらゆる形式の原稿を効率良
く処理することが可能となる。また、上述した各実施形
態においてはキーワード辞書メモリ2−6に確信度を定
義するようにしたが、キーワードと一致する毎にヒット
回数を累計するようにしてもよい。つまり、キーワード
の一致を検出すると、推測評価点として「1」を求め、
各行毎に求められた同一項目名同士の推測評価点を項目
別に累計することによってヒット回数を求めるようにし
てもよい。更に、フィールド分類マスタテーブル2−8
の内容を1原稿毎に初期化するようにしたが、同一種類
の原稿を複数枚集めて処理する場合には、フィールド分
類マスタテーブル2−8の内容をそのまま保持するよう
にすれば、原稿を1枚ずつ処理する毎に精度を段階的に
高めてゆくことが可能となる。
【0023】
【発明の効果】この発明によれば、文字認識された認識
データの中に含まれているキーワードに基づいて当該キ
ーワードに対応する項目名を決定する際に、それまで累
積した決定内容を考慮することで、項目名を精度良く決
定することができる。
【図面の簡単な説明】
【図1】(A)は認識データ処理装置の全体構成を示し
たブロック図、(B)はRAM2の主要構成を示した
図。
【図2】キーワード辞書メモリ2−6の構成を示した
図。
【図3】認識データ処理装置の全体動作を示したフロー
チャート。
【図4】図3のステップA10(1行分の解析処理)を
詳述したフローチャート。
【図5】読み取り対象の原稿例を示した図。
【図6】(A)〜(D)は図5に示す原稿を行単位毎に
処理することに応じて変遷するフィールド分類作業テー
ブル2−7、フィールド分類マスタテーブル2−8の内
容を示した図。
【図7】第2実施形態の全体動作を示したフローチャー
ト。
【図8】図7に示すステップC4(1行分の解析処理)
を詳述したフローチャート。
【図9】図7に示すステップC8(訂正処理)を詳述し
たフローチャート。
【図10】原稿例を示した図。
【図11】(A)〜(C)は図10に示す原稿を行単位
毎に処理することによって変遷するフィールド分類作業
テーブル2−7、フィールド分類決定テーブル2−1
0、フィールド分類マスタテーブル2−8の内容を示
し、(D)は訂正処理後のフィールド分類マスタテーブ
ル2−8の内容を示した図。
【図12】1行分の結果表示画面を示した図。
【図13】(A)は訂正画面を示した図、(B)は項目
変換が指示された際の表示画面を示した図。
【図14】(A)は項目変換の表示画面、(B)項目変
換が実行されたのちの表示画面を示した図。
【符号の説明】
1 CPU 2 RAM 3 記憶装置 4 記憶媒体 6 表示部 8 スキャナ装置 2−1 ワークメモリ 2−2 イメージメモリ 2−3 認識結果メモリ 2−4 認識用辞書メモリ 2−5 データベースファイル 2−6 キーワード辞書メモリ 2−7 フィールド分類作業テーブル 2−8 フィールド分類マスタテーブル 2−9 項目別決定メモリ 2−10 フィールド分類決定テーブル

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】複数レコード構成のイメージデータを文字
    認識する文字認識手段と、 この文字認識手段によって認識された1レコード分の認
    識データの中に含まれているキーワードを抽出すると共
    に、抽出したキーワードに基づいて当該キーワードに対
    応する項目名をそれぞれ推測する推測手段と、 この推測手段によって1レコード内の各キーワードに応
    じてそれぞれ推測された項目名毎に、その推測評価点を
    求めると共に、各レコード毎に求められた同一項目名同
    士の推測評価点を項目名別に累計する手段と、 前記項目名別に累計された累計評価点に基づいて対応す
    る項目名を決定する決定手段と、 この決定手段によって決定された項目名別に対応する認
    識データを記憶する記憶手段とを具備したことを特徴と
    する認識データ処理装置。
  2. 【請求項2】データベースに定義されている各項目名に
    対応して1レコード分の前記推測評価点を記憶する第1
    の評価点記憶手段と、 前記データベースに定義されている各項目名に対応して
    複数レコード分の前記累計評価点を記憶する第2の評価
    点記憶手段とを有し、 前記第1の評価点記憶手段の内容を項目別に前記第2の
    評価点記憶手段の内容にそれぞれ加算することにより前
    記累計評価点を更新する際に、第1の評価点記憶手段、
    第2の評価点記憶手段のうち何れの評価点を重視するか
    に応じた係数を当該評価点に乗算することによって新た
    な累計評価点を求めるようにしたことを特徴とする請求
    項1記載の認識データ処理装置。
  3. 【請求項3】キーワード毎に項目名、確信度を記憶する
    キーワード辞書メモリを有し、このキーワード辞書メモ
    リを参照することにより、前記認識データの中に含まれ
    ているキーワードを抽出すると共に、抽出したキーワー
    ドに基づいて対応する項目名をそれぞれ推測し、推測し
    た項目名に対応する前記確信度を当該項目名の推測評価
    点として求めるようにしたことを特徴とする請求項1記
    載の認識データ処理装置。
  4. 【請求項4】1レコード分の各項目名に対応して求めら
    れた推測評価点と、前記項目名別の累計評価点とに基づ
    いて前記決定手段は1レコード毎にその項目名を決定
    し、 この決定手段によって決定された項目名が一覧表示され
    ている状態において、任意の項目名を指定してその項目
    名位置が修正された際に、修正された項目名に対応する
    前記累計評価点を変更するようにしたことを特徴とする
    請求項1記載の認識データ処理装置。
  5. 【請求項5】コンピュータに対して、 文字認識された複数レコード構成のイメージデータの1
    レコード分の認識データの中に含まれているキーワード
    を抽出すると共に、抽出したキーワードに基づいて当該
    キーワードに対応する項目名をそれぞれ推測する機能
    と、 1レコード内の各キーワードに応じてそれぞれ推測され
    た項目名毎に、その推測評価点を求めると共に、各レコ
    ード毎に求められた同一項目名同士の推測評価点を項目
    名別に累計する機能と、 前記項目名別に累計された累計評価点に基づいて対応す
    る項目名を決定する機能と、 決定された項目名別に対応する認識データを記憶させる
    機能をそれぞれ実現させるためのプログラムを記録した
    記録媒体。
JP8355472A 1996-12-24 1996-12-24 認識データ処理装置およびそのプログラム記録媒体 Pending JPH10187751A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8355472A JPH10187751A (ja) 1996-12-24 1996-12-24 認識データ処理装置およびそのプログラム記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8355472A JPH10187751A (ja) 1996-12-24 1996-12-24 認識データ処理装置およびそのプログラム記録媒体

Publications (1)

Publication Number Publication Date
JPH10187751A true JPH10187751A (ja) 1998-07-21

Family

ID=18444151

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8355472A Pending JPH10187751A (ja) 1996-12-24 1996-12-24 認識データ処理装置およびそのプログラム記録媒体

Country Status (1)

Country Link
JP (1) JPH10187751A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000181931A (ja) * 1998-12-18 2000-06-30 Sharp Corp 自動オーサリング装置および記録媒体
JP2000348040A (ja) * 1999-06-03 2000-12-15 Fujitsu Ltd 情報処理装置および情報処理システム
JP2002063197A (ja) * 2000-06-06 2002-02-28 Matsushita Electric Ind Co Ltd 検索装置、記録媒体およびプログラム
US6944344B2 (en) 2000-06-06 2005-09-13 Matsushita Electric Industrial Co., Ltd. Document search and retrieval apparatus, recording medium and program
JP2009116488A (ja) * 2007-11-05 2009-05-28 Murata Mach Ltd 情報処理装置
CN111143374A (zh) * 2019-12-31 2020-05-12 杭州依图医疗技术有限公司 一种数据辅助识别的方法、系统、计算设备及存储介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000181931A (ja) * 1998-12-18 2000-06-30 Sharp Corp 自動オーサリング装置および記録媒体
JP2000348040A (ja) * 1999-06-03 2000-12-15 Fujitsu Ltd 情報処理装置および情報処理システム
JP2002063197A (ja) * 2000-06-06 2002-02-28 Matsushita Electric Ind Co Ltd 検索装置、記録媒体およびプログラム
US6944344B2 (en) 2000-06-06 2005-09-13 Matsushita Electric Industrial Co., Ltd. Document search and retrieval apparatus, recording medium and program
JP2009116488A (ja) * 2007-11-05 2009-05-28 Murata Mach Ltd 情報処理装置
CN111143374A (zh) * 2019-12-31 2020-05-12 杭州依图医疗技术有限公司 一种数据辅助识别的方法、系统、计算设备及存储介质
CN111143374B (zh) * 2019-12-31 2023-04-25 杭州依图医疗技术有限公司 一种数据辅助识别的方法、系统、计算设备及存储介质

Similar Documents

Publication Publication Date Title
US8015203B2 (en) Document recognizing apparatus and method
JP3167500B2 (ja) 手書き情報入力処理方式
JPH0773190A (ja) ペンベースコンピューターシステム用絵文字ネーミング
JPH04296989A (ja) 文字認識方法及び装置
US20060045340A1 (en) Character recognition apparatus and character recognition method
JP2005173730A (ja) 帳票ocrプログラム、方法及び装置
JP4991407B2 (ja) 情報処理装置、その制御プログラムおよび該制御プログラムを記録したコンピュータ読み取り可能な記録媒体、ならびに制御方法
JPH087033A (ja) 情報処理方法及び装置
JP2003524258A (ja) 電子ドキュメントを処理する方法および装置
JP3001065B2 (ja) プログラムの作成方法
US5680630A (en) Computer-aided data input system
JP6856916B1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JPH10187751A (ja) 認識データ処理装置およびそのプログラム記録媒体
JP2000231505A (ja) データオブジェクト群の自動命名方法およびその記憶媒体
JP2000322417A (ja) 画像ファイリング装置及び方法及び記憶媒体
JP3979288B2 (ja) 文書検索装置および文書検索プログラム
JP4092849B2 (ja) 帳票認識装置および記録媒体
JP3190603B2 (ja) 文字読み取り装置、その読み取り方法および記録媒体
JP2932667B2 (ja) 情報の検索方法および情報蓄積装置
US5617120A (en) Two-relation icon ranking and selecting method
JP7421384B2 (ja) 情報処理装置、修正候補表示方法、及びプログラム
WO2021140682A1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP4130429B2 (ja) 文字読取装置
JP7377565B2 (ja) 図面検索装置、図面データベース構築装置、図面検索システム、図面検索方法、及びプログラム
JP4361655B2 (ja) 文章入力装置及び記録媒体