JP2002304598A - 文書読取装置及び文書読取処理プログラム - Google Patents

文書読取装置及び文書読取処理プログラム

Info

Publication number
JP2002304598A
JP2002304598A JP2002006517A JP2002006517A JP2002304598A JP 2002304598 A JP2002304598 A JP 2002304598A JP 2002006517 A JP2002006517 A JP 2002006517A JP 2002006517 A JP2002006517 A JP 2002006517A JP 2002304598 A JP2002304598 A JP 2002304598A
Authority
JP
Japan
Prior art keywords
character string
character
pattern
database
product name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002006517A
Other languages
English (en)
Other versions
JP3349699B2 (ja
Inventor
Hiromasa Yokomizo
宏昌 横溝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AJASUTO KK
YASUDA DIRECT GENERAL INSURANC
YASUDA DIRECT GENERAL INSURANCE CO Ltd
Original Assignee
AJASUTO KK
YASUDA DIRECT GENERAL INSURANC
YASUDA DIRECT GENERAL INSURANCE CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AJASUTO KK, YASUDA DIRECT GENERAL INSURANC, YASUDA DIRECT GENERAL INSURANCE CO Ltd filed Critical AJASUTO KK
Priority to JP2002006517A priority Critical patent/JP3349699B2/ja
Publication of JP2002304598A publication Critical patent/JP2002304598A/ja
Application granted granted Critical
Publication of JP3349699B2 publication Critical patent/JP3349699B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【課題】 既存の光学文字読取装置で変換された文字列
が誤認識されたものかを判断する。 【解決手段】 光学文字読取装置で文書を読み取った読
取データ4の文字列を誤認識データベースで検索し、誤
認識文字列の場合は対応した修正文字列に変換した修正
データ6を作成し、修正データの文字種別に基づき解析
したパターンが数字文字を含む文字列のパターンに該当
するか否かを判断して、パターン認識データベースに記
憶している文字列から修正データ6の文字列が数字文字
を含む文字列のいずれに該当するか否かを判断し、修正
データの文字列が数字文字を含む文字列のいずれにも該
当しない文字列は前記商品名データベースに記憶してい
る文字列を検索し商品名に該当するか否かを判断する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、光学文字読取装置
(OCR:Optical CharacterRea
der)の読み取りデータに関する。
【0002】
【従来の技術】従来、光学文字読取装置(以降、OCR
とする。)で読み取った情報は、OCR文字変換ソフト
に記憶されている画像(イメージ)情報をもとに、該当
すると思われる文字(文字、記号、或いは、小さい図形
を含むものとして以降説明する。)に変換を行ってい
る。また、請求書などの項目に分かれて印刷されている
原稿にたいしては、罫線を文字列(文字列は、1文字、
或いは、複数文字のつらなりをさすものとして以降説明
する。)の区切りとして判断するか、文字列と文字列の
隙間(空白など)を項目の分かれ目として判断して項目
の区切りとして判断する。
【0003】
【発明が解決しようとする課題】しかし、既存のOCR
文字変換ソフトで変換された文字列は、OCR文字変換
ソフトの性能・スキャナーの解像度・原稿の鮮明度など
の諸条件により誤認識される場合が多い。また、項目の
分かれ目を文字列と文字列の隙間を項目の分かれ目とし
て判断している場合には、OCR文字変換ソフトの性能
・スキャナーの解像度・原稿の鮮明度などの諸条件によ
り文字列と文字列分かれ目の判断を誤ることがある。そ
のため、罫線がはっきり印刷されていない原稿や、薄い
インキで罫線が印刷されている原稿にたいしては、項目
の区切りの認識があまくなる。また、誤認識された場合
には、読み取った情報を画面に表示して画面を見ながら
人が修正を行う必要があった。
【0004】
【課題を解決するための手段】上記目的を達成するため
に、また、請求項1は、光学文字読取装置で文書を読み
取る文書読取装置であって、誤認識した文字を含む誤認
識文字列と誤認識した文字を修正する修正文字列とを対
応して記憶する誤認識データベースを有し、光学文字読
取装置で文書を読み取った読取データの文字列を前記誤
認識データベースで検索し、誤認識文字列の場合は対応
した修正文字列に変換した修正データを作成する誤認識
修正手段と、単位や規格や日付時間などを表す数字文字
を含む文字列の文字種別のパターンとそのパターンに該
当する文字列とを記憶するパターン認識データベース
と、商品名を記憶する商品名認識データベースとを有
し、前記修正データの文字種別に基づき解析したパター
ンが前記数字文字を含む文字列のパターンに該当するか
否かを判断して、パターン認識データベースに記憶して
いる文字列から前記修正データの文字列が前記数字文字
を含む文字列のいずれかに該当するか否かを判断し、前
記修正データの文字列が前記数字文字を含む文字列のい
ずれにも該当しない文字列は前記商品名データベースに
記憶している文字列を検索し商品名に該当するか否かを
判断する文字列解析手段と、を備える。
【0005】上記手段によれば、修正データ作成手段で
は、OCRで読み取った文字列のなかで誤認識し易い文
字列のパターンと、それに対応した修正文字列を誤認識
データベースに記憶し、OCRで読み取った文字列を誤
認識データベースで検索して該当する文字列は修正文字
列に変換して修正データを作成する。また、変換データ
作成手段では、修正データの文字列を数字、日本語文字
などの文字種別のパターンを判別して、文字列が単位や
規格や日付時間などを表すかを効率よく判断する。さら
に、単位や規格や日付時間などに該当しない文字列から
商品名を表す文字列を捜すことができる。
【0006】また、請求項2は、光学文字読取装置で診
療報酬明細書、納品書、請求書、見積書、伝票などの帳
票類を読み取る文書読取装置であって、誤認識した文字
を含む誤認識文字列と誤認識した文字を修正する修正文
字列とを対応して記憶する誤認識データベースを有し、
光学文字読取装置で帳票類を読み取った読取データの文
字列を前記誤認識データベースで検索し、誤認識文字列
の場合は対応した修正文字列に変換した修正データを作
成する誤認識修正手段と、単位や規格や日付時間などを
表す数字文字を含む文字列の文字種別のパターンとその
パターンに該当する文字列とを記憶するパターン認識デ
ータベースと、商品名を記憶する商品名認識データベー
スとを有し、前記修正データの文字種別に基づき解析し
たパターンが前記数字文字を含む文字列のパターンに該
当するか否かを判断して、パターン認識データベースに
記憶している文字列から前記修正データの文字列が前記
数字文字を含む文字列のいずれかに該当するか否かを判
断し、前記修正データの文字列が前記数字文字を含む文
字列のいずれにも該当しない文字列は前記商品名データ
ベースに記憶している文字列を検索し商品名に該当する
か否かを判断して、前記商品名を表す文字列や前記数字
文字を含む文字列で区切った変換データを作成する文字
列解析手段と、前記変換データの商品名や単位や規格や
日付時間などを表す文字列の並びから帳票類に応じて内
容を判断して、帳票類に応じた形式に変換する構成解析
手段と、を備える。
【0007】上記手段によれば、商品名や単位や規格や
日付時間などを表す文字列の並びから内容を把握し、帳
票類に応じた形式にまで変換できる。さらに、商品名や
単位や規格や日付時間などを表す文字列の並びから対応
する内容にあてはまらない場合には、光学文字読取装置
の誤認の可能性があると判断できる。
【0008】また、請求項3は、請求項1または2記載
の文書読取装置において、相違した文字列が同一内容を
表す文字列の組み合わせを記憶する組み合わせデータベ
ースを有し、前記商品名を表す文字列の組み合わせを前
記組み合わせデータベースで検索し、同一内容を表す文
字列の組み合わせを統一するように置き換える同一文字
列置き換え手段を備えることを特徴とする。
【0009】上記手段によれば、商品名を統一すること
で情報を整理することができる。
【0010】また、請求項4においては、請求項1〜3
いずれか記載の文書読取装置において、前記誤認識デー
タベースを業種などに応じて誤認識文字列と修正文字列
とを対応して記憶することを特徴とする。
【0011】上記手段によれば、業種によって誤認識し
易い文字列があり、誤認識データベースを業種などに応
じて用意することにより、光学文字読取装置で読み込ん
だデータに対して正確な変換ができるようになる。
【0012】また、請求項5においては、請求項1〜4
いずれか記載の文書読取装置において、前記誤認識デー
タベースを光学文字読取装置に応じて誤認識文字列と修
正文字列とを対応して記憶することを特徴とする。
【0013】上記手段によれば、光学文字読取装置やそ
のソフトには、読み取り方にそれぞれ癖があり、誤認識
データベースを光学文字読取装置やそのソフトに応じて
用意することにより正確な変換ができるようになる。
【0014】また、請求項6においては、請求項1〜5
いずれか記載の文書読取装置において、前記組み合わせ
データベースには、業種などに応じて同一のものを表す
文字列の組み合わせ記憶することを特徴とする。
【0015】上記手段によれば、文字列の順番が違うな
ど同じものを表す文字列の組み合わせのパターンを記憶
した組み合わせデータベースを業種に応じて記憶するこ
とにより的確な変換が行える。
【0016】また、請求項7では、光学文字読取装置で
文書を読み取った読取データの文字列を、誤認識した文
字を含む誤認識文字列と誤認識した文字を修正する修正
文字列とを対応して記憶する前記誤認識データベースで
検索して、誤認識文字列の場合は対応した修正文字列に
変換した修正データを作成し、前記修正データの文字種
別に基づき解析したパターンが単位や規格や日付時間な
どを表す数字文字を含む文字列のパターンに該当するか
否かを判断して、前記数字文字を含む文字列の文字種別
のパターンとそのパターンに該当する文字列とを記憶す
るパターン認識データベースから前記修正データの文字
列が前記数字文字を含む文字列のいずれに該当するか否
かを判断し、前記修正データの文字列が前記数字文字を
含む文字列のいずれにも該当しない文字列は商品名を記
憶する商品名データベースに記憶している文字列を検索
し商品名に該当するか否かを判断するように実行する文
書読取処理プログラム。
【0017】上記手段によれば、請求項1記載の発明を
コンピュータ上で実行可能なプログラムである。
【0018】請求項8は、光学文字読取装置で診療報酬
明細書、納品書、請求書、見積書、伝票などの帳票類を
読み取った読取データの文字列を誤認識した文字を含む
誤認識文字列と誤認識した文字を修正する修正文字列と
を対応して記憶する誤認識データベースで検索して、誤
認識文字列の場合は対応した修正文字列に変換した修正
データを作成し、前記修正データの文字種別に基づき解
析したパターンが単位や規格や日付時間などを表す数字
文字を含む文字列のパターンに該当するか否かを判断し
て、前記数字文字を含む文字列の文字種別のパターンと
そのパターンに該当する文字列とを記憶するパターン認
識データベースに記憶している文字列から前記修正デー
タの文字列が前記数字文字を含む文字列のいずれに該当
するか否かを判断し、前記修正データの文字列が前記数
字文字を含む文字列のいずれにも該当しない文字列は商
品名を記憶する商品名データベースに記憶している文字
列を検索し商品名に該当するか否かを判断して、前記商
品名を表す文字列や前記数字文字を含む文字列で区切っ
た変換データを作成し、前記変換データの商品名や単位
や規格や日付時間などを表す文字列の並びから帳票類に
応じて内容を解析して、帳票類に応じた形式に変換する
ように実行する文書読取処理プログラム。
【0019】上記手段によれば、請求項2記載の発明を
コンピュータ上で実行可能なプログラムである。
【0020】
【発明の実施の形態】以下、本発明にかかる実施の形態
を、図を用いて説明する。図1は、本発明の実施の1形
態の文書読取装置1の構成を示すブロック図である。文
書読取装置1は、診療報酬明細書、納品書、請求書、見
積書、伝票などの紙の情報2を読み取るOCR3に接続
される。文書読取装置1は、OCR3から読み取ったデ
ータであるOCR読み取りデータ4に含まれる誤認識し
た文字を修正して修正データ6を作成する誤認識修正手
段5と、修正データ6の文字列を文字種別のパターンに
基づいてパターン認識データベースで検索し、文字列が
単位や規格や日付時間を表す数字文字を含む文字列か判
断し、さらに、商品名認識データベースで文字列が商品
名を表すかを判断して文字列に分けた変換データ8を作
成する文字列解析手段7から構成される。さらに、変換
データ8から相違した文字列が同一のものを表す場合に
は文字列を統一した出力データ10を作成する同一文字
列置き換え手段9とで概略構成される。数字文字を含む
文字列は、単位や規格や日付時間に限らず、他にも住所
など数字と文字の組み合わせで意味をなす文字列を含む
ものである。
【0021】また、文書読取装置1は、図示しないが、
中央演算処理装置(CPU)やメモリーを備え、プログ
ラムをメモリー上にロードし起動することが可能であ
る。また、表示機能を備え、読み込んだデータや出力す
るデータなどを表示する機能を備えている。また、文書
読取装置1は、入力インターフェース11を備え、この
入力インターフェース11を介してOCR3と接続さ
れ、OCR文字変換ソフト12を介して読取データ4を
受け取る機能を有する。さらに、出力インターフェース
13を備え、出力インターフェース13を介して出力デ
ータ10を外部のハードディスク、MT(Magnet
ic Tape)、フレキシブルディスク、MO(Ma
gneto−Optical Disc)、MD(Ma
gnetic Disc)などの記憶媒体に出力する機
能をも有する。
【0022】誤認識修正手段5を、図2を用いて説明す
る。誤認識修正手段5は、OCR文字変換ソフトによる
誤読の癖を文字列のパターンで記憶し、誤認識と思われ
る文字列に応じて修正する文字列を記憶した誤認識デー
タベース51と誤認識修正処理52を備える。誤認識修
正処理52は読取データ4を先頭から読んでいき、空白
(スペース)、括弧、罫線、カンマなどを文字列の区切
りとして文字列に分け、各文字列が誤認識に当たるかを
誤認識データベース51で検索し、一致する文字列があ
る場合は誤認識データベース51より修正する文字列を
取り出して置き換え修正データ6に出力する機能を有す
る。また、空白は区切りとして判断するが、空白が複数
つながる場合には、複数の空白を1文字の空白に置き換
え、処理を簡略化する機能をも有する。
【0023】また、誤認識データベース51は業種毎に
用意することもでき、業種毎に用意することにより的確
な変換を行う機能を備える。
【0024】さらに、正しく修正されなかったものにつ
いては、誤認識データベース51に追加していくことで
誤認識の成功率を高くする機能も備える。
【0025】文字列解析手段7を、図3を用いて説明す
る。文字列解析手段7は、修正データ6から読み込んだ
文字列を数字や日本語や英字などの文字種別に基づき解
析してパターンを取り出すフィルタリング処理71と、
文字列を解析したパターンを記憶したパターン認識デー
タベース73と、解析したパターンが単位か数値かなど
を判断して、パターン認識データベース73をもとに単
位や規格や日付時間などに該当するかを判断し、さら
に、単位や規格や日付時間などに該当しない文字列が商
品名認識データベース74で商品名に該当するかを判断
する対応項目変換処理72とを備える。さらに、対応項
目変換処理72では、意味のある文字列に分けて変換デ
ータ8に出力する機能を備える。
【0026】パターン認識データベース73には、図4
に示すように、単位を記憶する単位認識データベース7
32と規格のパターンを記憶する規格認識データベース
733と日付時間認識データベース734等から構成さ
れる。また、商品名認識データベース74には商品名な
どを記憶する。診療報酬明細書(以下、レセプトとす
る。)を対象として変換する場合には、診療内容を表す
もの商品名として商品名認識データベース74に記憶す
る。他の帳票類でも、項目として取り扱うものや内容を
あらわすものを商品名認識データベース74に記憶する
ようにしてもよい。
【0027】単位認識データベース732の一例を図5
のに示す。単位認識データベース732には、単位を
表す文字列が項目7322に記憶され、単位のサブコー
ド7321、該当の文字列のタイプ7323を含んでい
る。タイプ7323は、例えば、「カプセル」は単位で
あることを表すものである。
【0028】また、規格認識データベース733の一例
を図5のに示す。規格認識データベース733には、
規格を表す文字列の組み合わせが項目1(7332)、
項目2(7333)、規格のサブコード7331、該当
の文字列のタイプ7334を含んでいる。
【0029】次に、日付時間データベース734の一例
を図5のに示す。日付時間データベース734は、日
付時間のサブコード7341、時間を表す文字列の組み
合わせが項目1(7342)、項目2(7343)に、
該当の文字列のタイプ7344を含んでいる。
【0030】図示しないが、商品名認識データベース7
4には、商品名とコードを含んでいる。
【0031】フィルタリング処理71では、図6のに
示すように、例えば、入力データが「○×△ 10カプ
セル」の場合には、文字種別が日本語の場合はN・数字
の場合には9・空白の場合にはSPとして「NNN S
P 99 NNNN」としてイメージされ、この文字列
の場合には数字+単位は単位のパターンであると解析す
る機能を有する。
【0032】対応項目変換処理72では、図6のの例
では、パターン認識データベース73の単位認識データ
ベース732を参照にして、該当するパターンに基づき
単位を表すか判断する。そこで、単位の前にある数字の
文字列は数値であると判断する機能を有する。つまり、
図5のに示すように、「カプセル」は単位認識データ
ベース732に存在するので「カプセル」は単位を表
し、「10」は「カプセル」の前にあるので数値である
と判断するものである。さらに、数値と単位の組み合わ
せで意味をなす文字列となるので、この文字列種別(あ
るいは、コード)と数値と単位を組み合わせた文字列
(例えば、「10カプセル」)を変換データに書き込む
機能を備える。
【0033】或いは、フィルタリング処理71では、図
6ので示すように、例えば、入力データが「○○△
10%20ml」の場合には、「NNN SP 99N
99NN」としてイメージして、この文字列の場合は数
字+単位+数字+単位は規格のパターンであると解析す
る機能を有する。
【0034】さらに、対応項目変換処理72では、パタ
ーン認識データベース73の規格認識データベース73
3を参照にして、該当するパターンに基づき規格を表す
パターンか判断する。規格の前にある数字の文字列を数
値であると判断する機能を有する。つまり、図5のに
示すように、「%」と「ml」は規格認識データベース
733に存在するので規格を表す。「%」と「ml」は
規格を表し、「10」は「%」の前にあるので数値であ
ると判断し、さらに、「20」は「ml」の前にあるの
で数値であると判断し、「10」や「20」は数値であ
ると判断する。さらに、数値と規格の組み合わせで意味
をなす文字列となるので、この文字列種別(あるいは、
コード)と数値と規格を組み合わせた文字列(例えば、
「10%20ml」)を変換データに書き込む機能を備
える。
【0035】日付時間も同様にして判断できる。また、
商品名の一部に数字を含む場合もあるが、文字列が単位
や規格や日付時間などの数字文字を含むパターンに該当
しない場合のみ、商品名データベース74から検索すれ
ばよい。
【0036】パターン認識データベース73は業種毎に
用意することもでき、業種毎に用意することにより的確
な変換を行う機能を備える。
【0037】さらに、正しく修正されなかったものを、
パターン認識データベース73に追加していくことで成
功率を高くする機能も備える。
【0038】同一文字列置き換え手段9を、図7を用い
て説明する。同一文字列置き換え手段9は、相違する文
字列が同じものを指す組み合わせを記憶している組み合
わせデータベース91と同一文字列変換処理92とを備
える。同一文字列変換処理92では、変換データ8から
読み取った文字列を組み合わせデータベース91から取
り出して統一した文字列に置き換え出力データ10に出
力する機能を備える。
【0039】例えば、「ボールペン・黒」と「黒・ボー
ルペン」と「ボールペン/黒」とは同じものをあらわ
し、組み合わせデータベース91には、全てのパターン
が同じものを指すことが検索できるように登録され、同
一文字列変換処理92では、いずれかの文字列で組み合
わせデータベース91を検索すると、どのパターンでも
必ず、「ボールペン・黒」と返すような機能を有する。
【0040】また、組み合わせデータベース91は業種
毎に用意することもでき、業種毎に用意することにより
的確な変換を行う機能を備える。
【0041】さらに、正しく修正されなかったものにつ
いては、組み合わせデータベース91に追加していくこ
とで成功率を高くする機能も備える。
【0042】以下、文書読取装置1の処理ついてレセプ
トを例にOCRで読み取ったデータの変換を説明する。
まず、誤認識修正手段について、図8のフローチャート
と図9に示す読取データ4と図10に示す修正データ6
を用いて説明する。紙の情報2(レセプト)をOCR3
で読み取り、OCR文字変換ソフト12で読み取ったイ
メージをOCR文字変換ソフト12に記憶されているパ
ターンと比較して文字に変換すると、図9に示すような
読取データ4として表示される。図9に示す読取データ
4は、明らかな誤字を含む文字列40、41、42、4
3、44、45がある。これを、誤認識修正手段5で変
換する。
【0043】まず、誤認識修正手段5の誤認識修正処理
52は読取データ4の先頭から文字列読み取り処理(S
100)で文字列を読み取る。図9の読取データ4の例
では、まず、文字列読み取り処理(S100)で先頭の
文字列「40」を読み取る。読み取った文字列「40」
を誤認識データベース51で該当するものがあるか検索
する(S102)。該当するもが無い場合は、文字列に
誤認識がないのでそのまま修正データ6に出力する(S
105)。
【0044】さらに、文字列読み取り処理(S100)
で次の文字列を読み取る。読取データ4から、「×××
ゼリー」「2%1ml」「5皿Ω」(40)・・・とい
う文字列を順次読み取っていく(S100)。「×××
ゼリー」「2%1ml」には、誤認識文字はない。つま
り、誤認識データベース51で検索しても(S10
2)、該当する文字列は見つからないので(S10
3)、そのまま修正データ6に出力される(S10
5)。しかし、「5皿Ω」(40)の文字列には誤認識
文字を含む。そこで、「5皿Ω」から数字を除いた「皿
Ω」を誤認識データベース51で検索すると「ml」が
取り出される。そこで、「皿Ω」を「ml」に変換して
(S104)、「5ml」を変換データ6に出力する
(S105)。全ての文字列が終了するまで(S10
2)、以上の処理を繰り返す。
【0045】ここで、文字列読み取り処理(S100)
は、具体的には、読取データ4から1文字づつ読み込
み、空白(スペース)、括弧、罫線、カンマなどの区切
り文字がくるまでを文字列とする。区切り文字を見つけ
ると、文字列を戻り値として返す。或いは、読取データ
4から読み込んだ文字が、ファイルの終了を表している
場合は戻り値として文字列無しを返す。
【0046】以上説明したように、図9の読取データ4
の誤認識した文字を含む文字列は誤認識データベース5
1に基づき修正され、「1f固」(41)を「1個」
(61)とし、「7夜」(42)を「液」(62)と
し、「500皿Ω」(43)を「500ml」(63)
とし、「220m3」(44)を「200ml」(6
4)とし、「25IIIL」(45)を「25ml」
(65)とし図10に示すの修正データ6のように出力
する。
【0047】従って、誤認識した文字列を正確な文字列
に変換でき、人が目で確認しながら修正する必要がな
い。
【0048】次に、文字列解析手段7について、図11
から図14のフローチャートと図10に示す修正データ
6と図15に示すの変換データ8を用いて説明する。ま
ず、文字列解析手段は図11のフローチャートに示すよ
うに、フィルタリング処理71(S120)で修正デー
タ6から読み込んだ文字列を解析したイメージのパター
ンが、単位・規格・日付時間・・・のいずれであるかが
返される。それに基づき(S121)、対応項目変換処
理72である単位認識処理(S122)・規格認識処理
(S123)・日付時間認識処理(S124)・・・で
該当するものがあるかをパターン認識データベース73
で検索し、数字の文字列が数値であるか判断する。さら
に、変換データ8に、単位・規格・日付時間の文字列の
文字種別(以降、コードとする。)と該当する文字列を
書き込む。以上S120からS124の処理を修正デー
タ6から読み込む文字列がなくなるまで繰り返す(S1
25)。
【0049】ここで、フィルタリング処理71(S12
0)を図12のフローチャートに基づいて説明する。フ
ィルタリング処理71は、図6を用いて説明したよう
に、修正データ6より1文字読み込み(S130)、日
本語をN、空白をSP、数字を9と置き(S131)、
区切り文字(S133)までを一つのイメージとして作
成する。このイメージのパターンから単位・規格・日付
時間を表すかが判断できる。
【0050】また、単位認識処理(S122)を図13
のフローチャートに基づいて説明する。単位認識処理
(S122)では、単位を表す部分の文字列を単位認識
DB(732)で検索し(S140)、単位に該当する
パターンかを判断する。例えば、図10の「5ml」
(60)の「ml」は、図5のに示すように単位認識
DB(732)で検索すると(S141)、「ml」は
該当するものがサブコード「54」に登録されている。
そこで、「ml」前にある数字「5」は数値を表すもの
と判断する(S142)。これにもとづき、図15に示
すように、単位を表すコード「2」(S143)と文字
列「5ml」を変換データ8の4行目のように書き込む
(S144)。単位認識DB(732)を検索して該当
するものが無い場合はエラーとする(S145)。或い
は、該当なしを戻すようにしても良い。
【0051】また、規格認識処理(S123)を図14
のフローチャートにもとづいて説明する。規格認識処理
(S123)では、規格を表す部分の文字列を規格認識
DB(733)で検索する(S150)。例えば、図1
0の「2%1ml」(66)の「%」と「ml」は、図
5のに示すように規格認識DB(733)で検索する
と(S151)、サブコード「15」に「%」と「m
l」の組み合わせが登録されている。そこで、「%」の
前にある数字「2」と「ml」の前にある数字「1」を
数値と判断する(S152)。これにもとづき、図15
に示すように、規格を表すコード「1」(S143)と
文字列「2%1ml」を変換データ8の3行目のように
書き込む(S144)。さらに、規格認識DB(73
3)に該当するものが無い場合はエラーとする(S15
5)。或いは、該当なしを戻すようにしても良い。
【0052】さらに、日付時間認識処理(S124)に
ついて説明する(フローチャートは省略する)。文字列
が単位のパターンか規格のパターンに該当し単位認識処
理や規格認識処理で該当するものが無い場合(単位認識
処理や規格認識処理でエラーの場合)は、日付時間認識
処理で、さらに、日付時間認識DB(734)を検索す
る。該当するものがある場合には、日付時間を表してい
ると判断し、該当する数字は数値であると判断できる。
また、図15の30行目に示すように、このとき日付時
間を表すコードは「4」である。
【0053】以上の結果に当てはまらないもので、文字
列が商品名認識DB(74)に該当する文字列がある場
合には場合にコード「S」とし、数字文字の並びの場合
にはコード「8」とし、いずれにも当てはまらない場合
にはコメントとしてコード「C」とする。さらに、
「×」などの特殊な意味を持つ文字(あるいは、文字
列)の場合には、特殊コード「89」を割り当てるよう
にする。「1」「2」「4」「8」「89」「C」
「S」などのコードは便宜上これを用いて説明するが、
これに限定する趣旨ではない。
【0054】以上説明したように、文字列の文字種別の
並びから文字列が単位や規格や日付時間などに該当する
かを判断することができ、読み取った文字が数値である
か、商品名などに含まれる文字であるかを正確に判断す
ることができ、OCRで読み取った文字が正しく変換さ
れているか判断することができる。
【0055】また、コメントとして処理されたものの中
には文字が正しく変換されていない場合がある。例え
ば、「2%1ml」などは「2%l(エル)ml」と読
み取る場合があり、この場合にはコメントとして判断さ
れる。そこで、コメントと判断された場合には、「%」
「ml」など規格・単位・日付時間などに該当する文字
列を含んでいるかいないかを再度検索して、「l(エ
ル)」と「1」のように誤認識した文字を再度修正する
ことが可能である。
【0056】さらに、同一文字列置き換え手段9では、
変換データ8の項目の相違する文字列が同一内容を表す
場合は統一する。以下、同一文字列置き換え手段9を図
16のフローチャートを用いて説明する。同一文字列変
換処理92で変換データファイルより項目の文字列を取
り出す(S160)。組み合わせデータベース91で検
索し(S161)、該当文字列ある場合は(S16
2)、組み合わせデータベース91から取り出された文
字列に置き換えて(S163)、出力データファイル1
0に書き込む(S164)。項目が無くなるまで(S1
65)、S160からS164の処理を繰り返す。例え
ば、請求書の場合は、 ・ **ボールペン(黒)と、**ボールペン黒色と、
黒色**ボールペン が同じものを表し、組み合わせデータベース91に同じ
ものとして記憶される。レセプトの場合には、 ・ 血清鉄定量検査と、B−Feと、B−テツ ・ 血清ピルビン定量と、B−BIL/値と、B−BI
L/チョクと、B−BIL/総と、B−BIL/ソウ が同じものを表す。これにより、コンピュータで違う文
字列が同じものであると判断して統一して他の処理に受
け渡すことができる。
【0057】以上、詳細に説明したように第1に実施の
形態では、商品名、規格、単位、日付日時であるかを判
断して該当しないものについて誤認識がないかをチェッ
クすることができる。さらに、数字を含む文字列につい
ては、規格や単位に該当する文字列で数値として意味を
持つものか、商品名などに含まれるもので数値として意
味を持たないものかを判断することができる。
【0058】次に、第2の実施の形態では、さらに、レ
セプト、納品書、請求書、見積書、伝票などの帳票類の
場合には、数値や文字列が出てくる順番が決まっている
ので、OCRで読み取ったデータから帳票類に応じた形
式に変換する場合について説明する。第2の実施の形態
では、第1の実施の形態と同じ構成には同一符号を振っ
て詳細な説明を省略する。
【0059】図 17は、第2の実施の形態の文書読取
装置1’の構成を示すブロック図である。文書読取装置
1’は、診療報酬明細書、納品書、請求書、見積書、伝
票などの紙の情報2を読み取るOCR3に接続される。
文書読取装置1’は、OCR3から読み取ったデータで
ある読取データ4に含まれる誤認識した文字を修正して
修正データ6を作成する誤認識修正手段5と、修正デー
タ6の文字列を文字種別のパターンに基づいてパターン
認識データベースで検索し、文字列が単位や規格や日付
時間を表すか判断し、さらに、商品名認識データベース
で文字列が商品名を表すかを判断して文字列に分けた変
換データ8を作成する文字列解析手段7と、変換データ
8からさらに、商品名、単位、規格、日時などを表す文
字列の並びがOCRから読み込んだ帳票類に応じた並び
になっているかをみてその文字列が表す内容を解析して
帳票類に応じた形式に変換した解析データ15を作成す
る構成解析手段14とで概略構成される。さらに、解析
データ15から相違した文字列が同一のものを表す場合
には文字列を統一した出力データ10’を作成する同一
文字列置き換え手段9を備えるように構成する。
【0060】解析手段14には、変換データ8の商品名
や単位や規格や日付時間などを表す文字列の並びから、
文字列の商品名や単位や規格や日付時間などコードが正
しいかや文字列の区切りが正しいかや文字列に誤認識文
字が含まれるか否かを判断する機能も備える。
【0061】ここで、レセプトの場合について説明す
る。レセプトの場合は、文字列の並びは以下のような形
式のパターン1〜4が考えられる。 パターン1:項目名称(S) パターン2:項目名称(S)使用量(2) パターン3:項目名称(S)力価(1)使用量(2) パターン4:パターン1からパターン3が複数並んだパ
ターン 上記パターンの最後には、必ず『点数(8)×(89)
回数(8)』のデータがあり、『点数(8)×(89)
回数(8)』が出てくるまでをひとまとまりのデータと
して判断する。また、この項目名称の前後には、日付時
間やコメントなどが来る場合も考えられる。ここで、項
目名称は商品名(コード「S」))に該当し、力価は規
格(コード「1」)、使用量は単位(コード「2」)に
該当し、点数や回数は数字の文字列(コード「8」)に
該当し、「×」は特殊コード「89」に該当する。ま
た、商品名はレセプトの場合には診療内容も含むもので
ある。以上示したパターンは例であり、この他にも様々
なパターンが考えられるが、便宜上、これらのパターン
にもとづいて以下説明する。
【0062】以下、構成解析処理14の動作について図
15の変換データ8と図18の解析データ15にもとづ
いて説明する。まず、レセプトの場合、変換データ8の
先頭にある数字の文字列(コード「8」)は診療区分を
表すものであるので、解析データ15の1行目のよう
に、項目のはじめである印と診療区分(「***40*
**」)を書き込む。『点数(8)×(89)回数
(8)』が出て来るまでがひとまとまりのデータである
ので、変換データ8の2行目〜7行目までがひとまとま
りのデータである。この文字列のコードの並びが「S、
1、2、8、89、8」であるのでパターン3に該当
し、解析データ15の2行目〜7行目のように書き込
む。
【0063】変換データ8の8行目からは次のデータで
ある。また、次の先頭が数字文字列(コード「8」)で
なければ、同じ診療区分であるので、ここで、項目のは
じめである印と診療区分(「***40***」)を解
析データ15に書き込む。
【0064】また、変換データ8の9行目にあるコード
「C」はコメントなので、8行目〜13行目はコメント
を含んだパターン2であることがわかる。また、9行目
にあるコメントは項目を修飾する内容として解釈して解
析データ15に書き込む。
【0065】14行目は数字文字列(コード「8」)
で、診療区分が変わったことを表す。そこで、項目のは
じめである印と診療区分(「***50***」)を解
析データ15書き込む。
【0066】変換データ8の26行目〜28行目が『点
数(8)×(89)回数(8)』であるので、ここまで
が次のひとまとまりのデータであることがわかる。そこ
で、25行目から前に戻って行き、24行目から25行
目、22行目から23行目、20行目から21行目、が
『項目名称(S)使用量(2)』(パターン2)の繰り
返しであることがわかる。そこで、コメントを含む15
行目〜19行目までは補助的な記載であると判断でき、
ここに含まれる単位に該当する「400cc」や「80
0cc」の文字列は数値としては意味を待ないことがわ
かるので、コメントとして解析データ15の15行目の
ようにまとめる。
【0067】また、変換データ8の34行目〜36行目
のようにコードが「S、2、2」に該当するパターンは
ない。しかし、力価には単位で表されるものも含まれる
ので、このときは、同じでパターン3であると解釈する
ことができる。このように、単位や規格の内容を正確に
判断することができる。以下同様に考えて、変換データ
8をもとに解析データ15に書き込む。
【0068】以上説明したいずれのパターンに当てはま
らない場合には、誤認識された部分があるものと解釈で
きる。例えば図15の25行目の「4袋」が、図19に
示すように「A袋」と誤認識されていた場合にはいずれ
のパターンにも当てはまらない。しかい、26行目〜2
8行目のコードは「8、89、8」の順に出てきている
ので、この前はコードが「2」であれば該当するパター
ンがある。そこで、25行目は誤認識されている可能性
があり、再度単位を表す文字列はないかを調べて、誤認
識部分を捜すことができる。
【0069】さらに、解析データ15をもとに同一文字
列置き換え手段9では文字列を統一した出力データ1
0’を作成する。
【0070】以上詳細に説明したように、第2の実施の
形態では、商品名、規格、単位、日付日時を表す文字列
の並びから帳票類に応じた形式に変換することができ
る。さらに、帳票類に応じた並びに該当しないものにつ
いて誤認識がないかをチェックし、再度見つけて修正す
ることが可能となる。
【0071】また、OCRで読み込んだデータから必要
な情報を取り出すことができ、関連する内容をまとめて
取り出すことができる。さらに、数字を含む文字列につ
いては、規格や単位に該当する文字列で数値として意味
を持つものか、数値として意味を持たないものかを判断
することができる。これにより、レセプトなどの帳票類
のデータをOCRで読み込んで計算処理にも使えるよう
に変換することも可能である。
【0072】本明細書記載の処理動作を実現するプログ
ラムをコンピュータで実行する際には、コンピュータ内
のハードディスク装置等の補助記憶装置にプログラムを
格納しておき、メモリー上にロードして実行する。ま
た、CD−ROMなどの可搬型記憶媒体にプログラムを
格納し、メモリー上にロードして実行することも可能で
ある。
【0073】以上レセプトを例に説明してきたが、納品
書、請求書、見積書、伝票などの帳票類に対応すること
が可能である。
【0074】
【発明の効果】以上述べたように、本願発明では、既存
のOCRやOCR用ソフトで変換された文字列は、OC
R文字変換ソフトの性能・スキャーの解像度・原稿の鮮
明度などの諸条件により誤認識されるが、文字列の文字
種別から解析したパターンに基づき、単位や規格や日付
時間などを表す文字列かを判断することで数字の文字列
が数値に該当するものか商品名などに該当するものかを
区別することが効率よく行える。さらに、商品名や単位
や規格や日付時間などを表す文字列のいずれにも該当し
ない場合には誤認識の可能性があり、いずれにも該当し
ない文字列だけ再度文字列をチェックして誤認識を正す
ことができる。
【0075】さらに、商品名や単位や規格や日付時間な
どを表す文字列の並びから文字列の区切りが適切でない
ことが判断できる。さらに、文字列の並びが適切でない
場合には誤認識文字を含んでいる可能性があり、その部
分を再チェックすることで誤認識を正すことができる。
さらに、これにより単位や規格や日付時間などの文字列
に含まれる数字文字が数値を表すことがわかるので計算
処理などのデータにすることができる。
【0076】OCRやそのOCR用ソフトの癖に応じて
データベースを用意する。あるいは、業種に合わせてデ
ータベースを用意することにより誤認識の訂正がより正
確に行われる。
【0077】また、以上のように何度も誤認識を判別す
ることが出来るので、読み取った情報を画面を見なが
ら、誤認識された文字を修正する必要がほとんど無い。
【0078】さらに、商品名などをいろんな表現で表す
ことは通常良く行われるが、コンピュータでは別のもの
として認識するためデータの適切な処理がおこなわれな
い。そこで本願発明のように、同じものを指す組み合わ
せを組み合わせデータベースに記憶することにより表現
を統一することができる。これより、表現が違っている
ものでも同じものを指す場合は、同じものとしてコンピ
ュータで認識することができる。
【0079】以上、レセプト、納品書、請求書、見積
書、伝票などの帳票類をOCRで読取ったデータをコン
ピュータの計算処理に利用する形式にまで変換すること
が可能である。
【図面の簡単な説明】
【図1】 第1の実施の形態の文書読取装置1の構成を
示すブロック図である。
【図2】 誤認識修正手段の構成を表す図である。
【図3】 文字列解析手段の構成を表す図である。
【図4】 パターン認識データベースの構成を表す図で
ある。
【図5】 パターン認識データベースの一例を示す図で
ある。
【図6】 フィルタリング処理を説明するための図であ
る。
【図7】 同一文字列置き換え手段の構成を表す図であ
る。
【図8】 誤認識修正処理のフローチャートである。
【図9】 OCRで読み取った読取データを表す図であ
る。
【図10】 誤認識データベースを基に作成した修正デ
ータを表す図である。
【図11】 文字列解析手段のフローチャートである。
【図12】 フィルタリング処理のフローチャートであ
る。
【図13】 単位認識処理のフローチャートである。
【図14】 規格認識処理のフローチャートである。
【図15】 パターン認識データベースと変換データの
関連を表す図である。
【図16】 同一文字列変換処理のフローチャートであ
る。
【図17】 第2の実施の形態の文書読取装置の構成を
示すブロック図である。
【図18】 解析データの一例を表す図である。
【図19】 誤認識されている例を示す図である。
【符号の説明】
1 文書読取装置 2 紙の情報 3 OCR 4 読取データ 5 誤認識修正手段 6 修正データ 7 文字列解析手段 8 変換データ 9 同一文字列置き換え手段 10 出力データ 11 入力インターフェース 12 OCR文字変換ソフト 13 出力インターフェース 14 構成解析手段 15 解析データ 51 誤認識データベース 52 誤認識修正処理 71 フィルタリング処理 72 対応項目変換処理 73 パターン認識データベース 74 商品名認識データベース 91 組み合わせデータベース 92 同一文字列変換処理 732 単位認識データベース 733 規格認識データベース 734 日付時間データベース 7321、7331、7341 サブコード 7322、7342 項目 7323、7334、7343 タイプ 7332 項目1 7333 項目2
─────────────────────────────────────────────────────
【手続補正書】
【提出日】平成14年7月19日(2002.7.1
9)
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】特許請求の範囲
【補正方法】変更
【補正内容】
【特許請求の範囲】
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0004
【補正方法】変更
【補正内容】
【0004】
【課題を解決するための手段】上記目的を達成するため
に、また、請求項1は、光学文字読取装置で文書を読み
取る文書読取装置であって、誤認識した文字を含む誤認
識文字列と誤認識した文字を修正する修正文字列とを対
応して記憶する誤認識データベースを有し、光学文字読
取装置で文書を読み取った読取データの文字列を前記誤
認識データベースで検索し、誤認識文字列の場合は対応
した修正文字列に変換した修正データを作成する誤認識
修正手段と、単位や規格や日付時間などと数値との組み
合わせで表される数字文字を含む文字列の文字種別のパ
ターンと、そのパターンに対応する単位や規格や日付時
間などの数値と組み合わせて用いられる文字列とを、記
憶するパターン認識データベースと、商品名を記憶する
商品名認識データベースとを有し、前記修正データの文
字列を文字種別に基づき解析したパターンが、前記パタ
ーン認識データベースに記憶されているパターンに該当
するか否かを判断して、該当する場合には、その該当す
るパターンに対応する文字列から、前記修正データの文
字列が単位や規格や日付時間などの数値と組み合わせて
用いられる文字列のいずれに該当するかいずれにも該当
しないかを判断し、前記修正データの文字列がいずれに
も該当しない場合は、前記商品名認識データベースに記
憶している文字列を検索し商品名に該当するか否かを判
断する文字列解析手段と、を備える。
【手続補正3】
【補正対象書類名】明細書
【補正対象項目名】0006
【補正方法】変更
【補正内容】
【0006】また、請求項2は、光学文字読取装置で診
療報酬明細書、納品書、請求書、見積書、伝票などの帳
票類を読み取る文書読取装置であって、誤認識した文字
を含む誤認識文字列と誤認識した文字を修正する修正文
字列とを対応して記憶する誤認識データベースを有し、
光学文字読取装置で帳票類を読み取った読取データの文
字列を前記誤認識データベースで検索し、誤認識文字列
の場合は対応した修正文字列に変換した修正データを作
成する誤認識修正手段と、単位や規格や日付時間などと
数値との組み合わせで表される数字文字を含む文字列の
文字種別のパターンと、そのパターンに対応する単位や
規格や日付時間などの数値と組み合わせて用いられる文
字列とを、記憶するパターン認識データベースと、商品
名を記憶する商品名認識データベースとを有し、前記修
正データの文字列を文字種別に基づき解析したパターン
が、前記パターン認識データベースに記憶されているパ
ターンに該当するか否かを判断して、該当する場合に
は、その該当するパターンに対応する文字列から、前記
修正データの文字列が単位や規格や日付時間などの数値
と組み合わせて用いられる文字列のいずれに該当するか
いずれにも該当しないかを判断し、前記修正データの文
字列がいずれにも該当しない場合は、前記商品名認識デ
ータベースに記憶している文字列を検索し商品名に該当
するか否かを判断して、前記商品名を表す文字列や前記
単位や規格や日付時間などの数値と組み合わせて用いら
れる文字列で区切った変換データを作成する文字列解析
手段と、前記変換データの前記商品名を表す文字列や前
記単位や規格や日付時間などと数値との組み合わせで表
される文字列がいかなる並びであるかに基づき、帳票類
に対応した並びであるか否かを判断する構成解析手段
と、を備える。
【手続補正4】
【補正対象書類名】明細書
【補正対象項目名】0014
【補正方法】変更
【補正内容】
【0014】また、請求項6においては、請求項〜5
いずれか記載の文書読取装置において、前記組み合わせ
データベースには、業種などに応じて同一のものを表す
文字列の組み合わせ記憶することを特徴とする。
【手続補正5】
【補正対象書類名】明細書
【補正対象項目名】0016
【補正方法】変更
【補正内容】
【0016】また、請求項7では、光学文字読取装置で
文書を読み取った読取データの文字列を、誤認識した文
字を含む誤認識文字列と誤認識した文字を修正する修正
文字列とを対応して記憶する誤認識データベースで検索
して、誤認識文字列の場合は対応した修正文字列に変換
した修正データを作成し、単位や規格や日付時間などと
数値との組み合わせで表される数字文字を含む文字列の
文字種別のパターンと、そのパターンに対応する単位や
規格や日付時間などの数値と組み合わせて用いられる文
字列とを、記憶するパターン認識データベースから、前
記修正データの文字列を文字種別に基づき解析したパタ
ーンが、前記パターン認識データベースに記憶されてい
るパターンに該当するか否かを判断して、該当する場合
には、その該当するパターンに対応する文字列から、前
記修正データの文字列が単位や規格や日付時間などの数
値と組み合わせて用いられる文字列のいずれに該当する
かいずれにも該当しないかを判断し、前記修正データの
文字列がいずれにも該当しない場合は、商品名を記憶す
商品名認識データベースに記憶している文字列を検索
し商品名に該当するか否かを判断するようにコンピュー
タで実行する文書読取処理プログラム。
【手続補正6】
【補正対象書類名】明細書
【補正対象項目名】0018
【補正方法】変更
【補正内容】
【0018】請求項8は、光学文字読取装置で診療報酬
明細書、納品書、請求書、見積書、伝票などの帳票類を
読み取った読取データの文字列を、誤認識した文字を含
む誤認識文字列と誤認識した文字を修正する修正文字列
とを対応して記憶する誤認識データベースで検索して、
誤認識文字列の場合は対応した修正文字列に変換した修
正データを作成し、単位や規格や日付時間などと数値と
の組み合わせで表される数字文字を含む文字列の文字種
別のパターンと、そのパターンに対応する単位や規格や
日付時間などの数値と組み合わせて用いられる文字列と
を、記憶するパターン認識データベースから、前記修正
データの文字列を文字種別に基づき解析したパターン
が、前記パターン認識データベースに記憶されているパ
ターンに該当するか否かを判断して、該当する場合に
は、その該当するパターンに対応する文字列から、前記
修正データの文字列が単位や規格や日付時間などの数値
と組み合わせて用いられる文字列のいずれに該当するか
いずれにも該当しないかを判断し、前記修正データの文
字列がいずれにも該当しない場合は、商品名を記憶する
商品名認識データベースに記憶している文字列を検索
し、商品名に該当するか否かを判断して、前記商品名を
表す文字列や前記単位や規格や日付時間などの数値と組
み合わせて用いられる文字列で区切った変換データを作
成し、前記変換データの前記商品名を表す文字列や前記
単位や規格や日付時間などと数値との組み合わせで表さ
れる文字列がいかなる並びであるかに基づき、帳票に対
応した並びであるか否かを判断するようにコンピュータ
で実行する文書読取処理プログラム。
───────────────────────────────────────────────────── フロントページの続き Fターム(参考) 5B064 EA19

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 光学文字読取装置で文書を読み取る文書
    読取装置であって、 誤認識した文字を含む誤認識文字列と誤認識した文字を
    修正する修正文字列とを対応して記憶する誤認識データ
    ベースを有し、 光学文字読取装置で文書を読み取った読取データの文字
    列を前記誤認識データベースで検索し、誤認識文字列の
    場合は対応した修正文字列に変換した修正データを作成
    する誤認識修正手段と、 単位や規格や日付時間などを表す数字文字を含む文字列
    の文字種別のパターンとそのパターンに該当する文字列
    とを記憶するパターン認識データベースと、 商品名を記憶する商品名認識データベースとを有し、 前記修正データの文字種別に基づき解析したパターンが
    前記数字文字を含む文字列のパターンに該当するか否か
    を判断して、パターン認識データベースに記憶している
    文字列から前記修正データの文字列が前記数字文字を含
    む文字列のいずれかに該当するか否かを判断し、前記修
    正データの文字列が前記数字文字を含む文字列のいずれ
    にも該当しない文字列は前記商品名データベースに記憶
    している文字列を検索し商品名に該当するか否かを判断
    する文字列解析手段と、を備える文書読取装置。
  2. 【請求項2】 光学文字読取装置で診療報酬明細書、納
    品書、請求書、見積書、伝票などの帳票類を読み取る文
    書読取装置であって、 誤認識した文字を含む誤認識文字列と誤認識した文字を
    修正する修正文字列とを対応して記憶する誤認識データ
    ベースを有し、 光学文字読取装置で帳票類を読み取った読取データの文
    字列を前記誤認識データベースで検索し、誤認識文字列
    の場合は対応した修正文字列に変換した修正データを作
    成する誤認識修正手段と、 単位や規格や日付時間などを表す数字文字を含む文字列
    の文字種別のパターンとそのパターンに該当する文字列
    とを記憶するパターン認識データベースと、 商品名を記憶する商品名認識データベースとを有し、 前記修正データの文字種別に基づき解析したパターンが
    前記数字文字を含む文字列のパターンに該当するか否か
    を判断して、パターン認識データベースに記憶している
    文字列から前記修正データの文字列が前記数字文字を含
    む文字列のいずれかに該当するか否かを判断し、前記修
    正データの文字列が前記数字文字を含む文字列のいずれ
    にも該当しない文字列は前記商品名データベースに記憶
    している文字列を検索し商品名に該当するか否かを判断
    して、前記商品名を表す文字列や前記数字文字を含む文
    字列で区切った変換データを作成する文字列解析手段
    と、前記変換データの商品名や単位や規格や日付時間な
    どを表す文字列の並びから帳票類に応じて内容を判断し
    て、帳票類に応じた形式に変換する構成解析手段と、を
    備える文書読取装置。
  3. 【請求項3】 請求項1または2記載の文書読取装置に
    おいて、 相違した文字列が同一内容を表す文字列の組み合わせを
    記憶する組み合わせデータベースを有し、 前記商品名を表す文字列の組み合わせを前記組み合わせ
    データベースで検索し、同一内容を表す文字列の組み合
    わせを統一するように置き換える同一文字列置き換え手
    段を備えることを特徴とする文書読取装置。
  4. 【請求項4】 請求項1〜3いずれか記載の文書読取装
    置において、 前記誤認識データベースを業種などに応じて誤認識文字
    列と修正文字列とを対応して記憶することを特徴とする
    文書読取装置。
  5. 【請求項5】 請求項1〜4いずれか記載の文書読取装
    置において、 前記誤認識データベースを光学文字読取装置に応じて誤
    認識文字列と修正文字列とを対応して記憶することを特
    徴とする文書読取装置。
  6. 【請求項6】 請求項1〜5いずれか記載の文書読取装
    置において、 前記組み合わせデータベースには、業種などに応じて同
    一のものを表す文字列の組み合わせ記憶することを特徴
    とする文書読取装置。
  7. 【請求項7】 光学文字読取装置で文書を読み取った読
    取データの文字列を、誤認識した文字を含む誤認識文字
    列と誤認識した文字を修正する修正文字列とを対応して
    記憶する前記誤認識データベースで検索して、誤認識文
    字列の場合は対応した修正文字列に変換した修正データ
    を作成し、 前記修正データの文字種別に基づき解析したパターンが
    単位や規格や日付時間などを表す数字文字を含む文字列
    のパターンに該当するか否かを判断して、前記数字文字
    を含む文字列の文字種別のパターンとそのパターンに該
    当する文字列とを記憶するパターン認識データベースか
    ら前記修正データの文字列が前記数字文字を含む文字列
    のいずれに該当するか否かを判断し、前記修正データの
    文字列が前記数字文字を含む文字列のいずれにも該当し
    ない文字列は商品名を記憶する商品名データベースに記
    憶している文字列を検索し商品名に該当するか否かを判
    断するように実行する文書読取処理プログラム。
  8. 【請求項8】 光学文字読取装置で診療報酬明細書、納
    品書、請求書、見積書、伝票などの帳票類を読み取った
    読取データの文字列を誤認識した文字を含む誤認識文字
    列と誤認識した文字を修正する修正文字列とを対応して
    記憶する誤認識データベースで検索して、誤認識文字列
    の場合は対応した修正文字列に変換した修正データを作
    成し、 前記修正データの文字種別に基づき解析したパターンが
    単位や規格や日付時間などを表す数字文字を含む文字列
    のパターンに該当するか否かを判断して、前記数字文字
    を含む文字列の文字種別のパターンとそのパターンに該
    当する文字列とを記憶するパターン認識データベースに
    記憶している文字列から前記修正データの文字列が前記
    数字文字を含む文字列のいずれに該当するか否かを判断
    し、前記修正データの文字列が前記数字文字を含む文字
    列のいずれにも該当しない文字列は商品名を記憶する商
    品名データベースに記憶している文字列を検索し商品名
    に該当するか否かを判断して、前記商品名を表す文字列
    や前記数字文字を含む文字列で区切った変換データを作
    成し、 前記変換データの商品名や単位や規格や日付時間などを
    表す文字列の並びから帳票類に応じて内容を解析して、
    帳票類に応じた形式に変換するように実行する文書読取
    処理プログラム。
JP2002006517A 2001-01-31 2002-01-15 文書読取装置及び文書読取処理プログラム Expired - Lifetime JP3349699B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002006517A JP3349699B2 (ja) 2001-01-31 2002-01-15 文書読取装置及び文書読取処理プログラム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2001024876 2001-01-31
JP2001-24876 2001-01-31
JP2002006517A JP3349699B2 (ja) 2001-01-31 2002-01-15 文書読取装置及び文書読取処理プログラム

Publications (2)

Publication Number Publication Date
JP2002304598A true JP2002304598A (ja) 2002-10-18
JP3349699B2 JP3349699B2 (ja) 2002-11-25

Family

ID=26608724

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002006517A Expired - Lifetime JP3349699B2 (ja) 2001-01-31 2002-01-15 文書読取装置及び文書読取処理プログラム

Country Status (1)

Country Link
JP (1) JP3349699B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011107966A (ja) * 2009-11-17 2011-06-02 Hitachi Solutions Ltd 文書処理装置
JP2017146841A (ja) * 2016-02-18 2017-08-24 株式会社東芝 文字認識装置、文字認識方法、およびプログラム
CN108038425A (zh) * 2017-11-28 2018-05-15 无锡十月中宸科技有限公司 一种模式识别索引系统及其索引方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011107966A (ja) * 2009-11-17 2011-06-02 Hitachi Solutions Ltd 文書処理装置
JP2017146841A (ja) * 2016-02-18 2017-08-24 株式会社東芝 文字認識装置、文字認識方法、およびプログラム
CN108038425A (zh) * 2017-11-28 2018-05-15 无锡十月中宸科技有限公司 一种模式识别索引系统及其索引方法

Also Published As

Publication number Publication date
JP3349699B2 (ja) 2002-11-25

Similar Documents

Publication Publication Date Title
JP5774597B2 (ja) 動的変動ネットワークを使用するシステムおよび方法
US7398200B2 (en) Token stream differencing with moved-block detection
JP5730890B2 (ja) 動的変動ネットワークを使用するシステムおよび方法
JPH11282955A (ja) 文字認識装置、文字認識方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JPS5968040A (ja) カード様式変更処理方法
JP3349699B2 (ja) 文書読取装置及び文書読取処理プログラム
JPH11272654A (ja) 文書編集装置及び方法
JP2019179470A (ja) 情報処理プログラム、情報処理方法、および情報処理装置
JP7122896B2 (ja) 帳票情報処理装置、帳票情報構造化処理方法及び帳票情報構造化処理プログラム
JP2007179347A (ja) プログラム検証支援システム
JP5550959B2 (ja) 文書処理システム、及びプログラム
JP2016018279A (ja) 文書ファイル検索プログラム、文書ファイル検索装置、文書ファイル検索方法、文書情報出力プログラム、文書情報出力装置及び文書情報出力方法
JP3732254B2 (ja) フォーマット情報生成方法及びフォーマット情報生成装置
JP6250307B2 (ja) 画像情報処理装置及び画像情報処理方法
JP2001320571A (ja) 帳票筆跡データの処理システム及び処理方法
CN112149402A (zh) 文档对比方法、装置、电子设备和计算机可读存储介质
JP2005165978A (ja) 帳票ocrプログラム、方法及び装置
JP2002056354A (ja) 光学的文字読取装置および同装置のデータ修正方法
JP4833134B2 (ja) 個別画像データ生成装置および個別画像データ生成プログラム
JP7544263B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP6954806B2 (ja) 不具合検出装置、及び不具合検出方法
US20240184985A1 (en) Information representation structure analysis device, and information representation structure analysis method
US11868726B2 (en) Named-entity extraction apparatus, method, and non-transitory computer readable storage medium
JP6012414B2 (ja) 情報処理装置及び情報処理方法及びプログラム
US6449610B1 (en) Memory media and method of processing date data using pseudo zoned decimal format

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
R150 Certificate of patent or registration of utility model

Ref document number: 3349699

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080913

Year of fee payment: 6

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080913

Year of fee payment: 6

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090913

Year of fee payment: 7

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110913

Year of fee payment: 9

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110913

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150913

Year of fee payment: 13

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150913

Year of fee payment: 13

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150913

Year of fee payment: 13

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term