JP2006079190A

JP2006079190A - 光学式文字読取装置

Info

Publication number: JP2006079190A
Application number: JP2004259901A
Authority: JP
Inventors: Shinya Kimura; 真也木村
Original assignee: Japan Medical Data Center Co Ltd
Current assignee: Japan Medical Data Center Co Ltd
Priority date: 2004-09-07
Filing date: 2004-09-07
Publication date: 2006-03-23

Abstract

【課題】レセプト画像の文字認識に優れた光学式文字読取装置を提供する。
【解決手段】本発明の光学式文字読取装置１２は、レセプトのイメージデータの画像情報に対して文字データを割り当てる文字割当部８０と、文字割当部により割り当てられた文字データの連続性を検出する連続性検出部８２と、連続性検出部により、同一または外見的に類似する文字データが所定数以上連続して所定方向に並ぶ場合に、連続した文字データの一群を線として判断する書式解析部８４を備える。
【選択図】図６

Description

本発明は、光学式文字読取装置の技術に関する。

病院などの医療機関では、医師が、傷病名、投薬、注射、検査、手術などの医療行為の内容（以下、「診療内容」という）をカルテに記入する。近年、多くの医療機関にレセプトコンピュータと呼ばれる処理装置（「医事コンピュータ」ともいう）が導入されており、医療機関の担当者は、カルテをもとに診療内容をレセプトコンピュータに入力して、レセプトコンピュータに記憶されたフォーマットで診療報酬明細書（以下、「レセプト」という）を作成する。また病院だけではなく、薬局においてもレセプトコンピュータの普及が進んでいる。医療機関は、レセプトを、診療報酬請求書（以下、「請求書」という）とともに各都道府県単位の社会保険診療報酬支払基金に提出する。支払基金は、投薬、注射、手術などの請求点数に誤りがないかを点検し、審査委員会が、支払基金にて点検された請求書およびレセプトを審査する。このような審査を終えたレセプトに基づいて、診療報酬額が決定される。健康保険組合などの保険者は、審査を経たレセプトを二次審査し、支払基金などを通じて医療機関に診療報酬を支払う一方で、診療内容に疑問のあるものについては審査委員会に対して再審査を請求する。
特許第３１３９４８５号明細書

近年、財政赤字の問題もあり、保険者が二次審査を強化している。医療機関の手違いなどにより誤った請求がなされることもあるため、それを二次審査により見つけて再審査にかけることで、過剰な診療報酬の支払を避けることを目的としている。しかしながら、一方で、レセプトの点検には医学的な専門知識が要求されるため、保険者の誤解に基づいた再審査請求が行われることもある。近頃、規制緩和の一環として、健康保険組合が、レセプトの審査・支払業務を医療機関に対して直接行うことも可能となった。利害が相反する保険者と医療機関とが直接交渉することになるため、いずれかの誤解に基づく無用なトラブルが発生する事態も考えられる。

一般にレセプトは紙ベースで受け渡されることが多い。レセプトは、患者に施された医療行為を表現するものであり、複数月さらには複数年にまたがった患者のレセプトの情報は、その患者の時系列的な傷病履歴を表現する。保険者側で患者個人の傷病履歴をまとめることができれば、その傷病履歴を解析して、個々の患者の健康管理にも役立てることができる。紙ベースのレセプトをテキスト化することで、患者の傷病履歴をデータとして効率的に管理できるとともに、患者に継続して施された診療行為が適切なものであるかをチェックすることも可能となる。そのためには、レセプトを光学式文字読取装置（ＯＣＲ：Optical Character Reader）で読み取り、高精度にテキスト化できることが好ましい。

レセプトのフォーマットが固定されていれば、フォーマットの枠検出が容易となり、文字認識の高精度化も期待できるが、レセプトは、各医療機関またはレセプトコンピュータにより独自のフォーマットで作成されている。そのため、平文の文字認識とは事情が異なり、現状のＯＣＲ技術ではレセプトの高い文字認識精度を実現することはできない。

そこで本発明は、レセプトの文字認識率を向上することのできる光学式文字読取技術を提供することを目的とする。

上記課題を解決するために、本発明のある態様は、レセプトのイメージデータから光学的文字認識によって文字を読み取る光学式文字読取装置に関する。この態様の光学式文字読取装置は、イメージデータの画像情報に対して文字データを割り当てる文字割当部と、文字割当部により割り当てられた文字データの連続性を検出する連続性検出部と、連続性検出部により、同一または外見的に類似する文字データが所定数以上連続して所定方向に並ぶ場合に、連続した文字データの一群を線として判断する書式解析部とを備える。

この態様の光学式文字読取装置によると、レセプトのイメージデータ中の線を認識可能とすることで、多様なフォーマットで作成されたレセプトに対応することができ、汎用性の高い光学式文字読取装置を実現できる。

文字割当部は、書式解析部により線として判断された文字データの一群を除いた状態で、イメージデータの画像情報を文字データに割り当ててもよい。文字認識の障害となる線を除いて画像情報を文字認識することで、文字認識精度を向上することが可能となる。

本発明の別の態様は、レセプトのイメージデータから光学的文字認識によって文字を読み取る光学式文字読取装置に関する。この態様の光学式文字読取装置は、イメージデータの画像情報に対して文字データを割り当てる文字割当部と、優先的に選択させる優先文字を格納する優先文字格納部を備え、文字割当部は、優先文字格納部に格納された優先文字を選択する。

この態様の光学式文字読取装置によると、レセプトのイメージデータに対して優先的に文字割当てを行うための優先文字を優先文字格納部が予め保持しておくことで、文字割当部における文字割当処理を容易にすることができ、文字認識精度を向上することが可能となる。

文字割当部は、画像情報に対して候補となる文字が複数存在する場合に、優先文字格納部に格納された文字を選択してもよい。優先文字を選択することで、文字認識精度を向上することが可能となる。

この態様の光学式文字読取装置は、文字割当部により割り当てられた所定の文字データを検出する所定文字検出部をさらに備え、優先文字格納部は、所定の文字データに対応付けて、優先文字を格納してもよい。所定の文字に対する周辺の文字の規則性を利用することで、文字認識精度を向上することができる。

この態様の光学式文字読取装置は、イメージデータの位置を検出する位置検出部をさらに備え、優先文字格納部は、イメージデータの位置に対応付けて、優先文字を格納してもよい。イメージデータの位置における文字の規則性を利用することで、文字認識精度を向上することができる。

なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。

本発明によると、レセプトの文字認識に優れた技術を提供することができる。

図１は、本発明の実施例におけるレセプト処理フローを示す。このレセプト処理フローは、１つの主体により実行されてもよく、複数の主体により協働して実行されてもよい。通常は、複数の主体で明確な役割分担を行い、全体として１つのレセプト処理システムを実現するケースが多いと考えられる。図１に示すレセプト処理フローでは、医療機関または支払基金などから提供される紙レセプトをデータ化し、統計処理などのデータ加工に適したレセプトファイルを効率的に生成する手順を表現している。以下に示す各ステップは、人手が介在することもあるが、多くはシステムによるコンピュータ処理により実行される。

本実施例のレセプト処理フローは、仕分け作業（Ｓ１０）、紙レセプトのイメージ化（Ｓ１２）、ＯＣＲ処理（Ｓ１４）、パンチ処理（Ｓ１６）、論理チェック処理（Ｓ１８）、対応チェック処理（Ｓ２０）、テキストデータ分解処理（Ｓ２２）、テキストデータ結合処理（Ｓ２３）、分解テーブル、結合テーブルの更新（Ｓ２４）、辞書テーブルの読出し（Ｓ２６）、マッチング処理（Ｓ２８）、マスタテーブル、辞書テーブルの更新（Ｓ３０）、一時辞書テーブル生成（Ｓ３２）、レセプトファイル生成（Ｓ３４）、データ加工（Ｓ３６）の処理ステップに分けることができる。

（１）仕分け作業
仕分け作業（Ｓ１０）では、入院レセプト、入院外レセプト、調剤レセプトなどの紙媒体に印刷された各帳票を仕分けする。この仕分け作業は、一般には人手により行われるが、後続のＳ１２のイメージ化の際に、コンピュータ処理により自動的に実行されてもよい。

（２）紙レセプトのイメージ化
紙レセプトのイメージ化（Ｓ１２）では、仕分けされた紙レセプトをスキャナにより読み込んで、イメージデータに変換する。ここでは、スキャナに紙レセプトを連続入力しながら、入力中の画像をディスプレイにリアルタイムに表示し、オペレータがスキャニング状況を確認する。紙レセプトが裏面で入力されたような場合には、画像認識処理により自動的にスキャニングを停止し、オペレータにその旨を通知する。また、用紙方向が上下逆のような場合にも、オペレータにその旨を通知する。以上により、向きの揃った紙レセプトのイメージデータを生成する。なお、スキャナのＣＰＵに、画像認識機能だけでなく、レセプト仕分け機能を追加することで、紙レセプトのイメージ化を行いながら、同時に仕分け処理を行って、イメージデータを、レセプトの種類ごとのフォルダに格納していく。

（３）ＯＣＲ処理
ＯＣＲ処理（Ｓ１４）では、レセプトのイメージデータから光学的文字認識により文字を読み取る。レセプトの上部には、被保険者記号番号や患者の氏名などの個人情報が記載されており、その下方には、傷病名や、投薬、注射などの診療情報、使用した医薬品とその使用量を示す診療明細が記載されている。本明細書では、レセプトの個人情報以外の情報を薬歴情報と呼ぶ。レセプトの薬歴情報は、レセプトの個人情報により、特定の個人と結び付けられることによって秘密に保護されるべきものであり、その取扱いには十分な注意が必要となる。そのため、ＯＣＲ処理の前段階として、まず、個人情報画像と薬歴画像とを切り離す。

最初にレセプトの個人情報画像をＯＣＲ処理によりテキスト化し、暗号技術によりユニークコードに変換する。続いて、このユニークコードを、レセプトの薬歴画像の画像データに結合する。これにより、オペレータは、この結合されたデータをみても個人を特定することができず、一方で、暗号化した個人情報と診療明細情報とを紐付けできる。次に、薬歴画像をＯＣＲ処理によりテキスト化する。テキスト化されたデータは、所定の形式で項目（フィールド）に分類されてファイル化される。このＯＣＲ処理では、高い文字認識率を実現することが好ましい。

（４）パンチ処理
パンチ処理（Ｓ１６）では、ＯＣＲ処理でテキスト化できなかった箇所または誤ったテキスト化がなされた箇所を、パンチャが入力または修正する。ＯＣＲ処理の精度が高くなるほどパンチャの作業量は減ることになり、したがって、紙レセプトのデータ化にかかるトータルコストを抑えることが可能となる。

Ｓ１０〜Ｓ１６のステップは、テキストデータ生成システムにより実行される。紙レセプトのテキストデータはファイルとしてまとめられ、このデータファイルが、Ｓ１８以降の処理を実行するレセプトファイル生成システムに引き渡される。

（５）論理チェック処理
論理チェック処理（Ｓ１８）では、テキスト化されたデータの論理チェックを行う。コンピュータが論理チェックを実行し、レセプト中の論理的なエラーを検出する。論理的なエラーとは、例えば患者の誕生日が未来の日付になっているような誤りである。

（６）対応チェック処理
対応チェック処理（Ｓ２０）では、データファイルにおけるテキストデータ間の対応関係をチェックする。ここでは、例えば、診療開始日と２回目以降の診療日との前後関係が逆であったり、薬歴の摘要欄に医薬品名が存在するものの、使用量が存在しなかったりという誤りをチェックする。また、数字が入力されるべき項目に、文字が入力されているような誤りもチェックする。コンピュータは、データ間の対応関係を予め保持しておき、この対応関係の適合の可否を判断することで、対応関係のエラーを検出する。検出されたエラーは、オペレータに通知される。オペレータはエラー内容を見て、正しい内容に修正する。コンピュータは、データ間の対応関係だけでなく、レセプト間の対応関係もチェックしてよい。例えば、調剤レセプトがあるのに、医科レセプトが存在しない場合、コンピュータは、その旨をオペレータに通知する。

（７）テキストデータ分解処理
テキストデータ分解処理（Ｓ２２）では、テキスト化された文字列を分類して区分けする。例えば、医科レセプトの摘要欄データを、医薬品、医療材料、診療行為に分類し、さらに医薬品、医療材料、診療行為の複数項目が１行のテキストデータとして存在している場合に、それらを項目ごとに分解する。具体的には、文字列に含まれるカンマや空白（ブランク）、改行などを検出して、文字列を医療関係用語ごとに区分けしていく。また、連続した文字列と、その文字列を複数の医療関係用語に対応付けた分解テーブルを参照して、文字列を医療関係用語に分解してもよい。例えば、傷病名と医薬品名が連続した文字列としてテキスト化されている場合に、分解テーブルは、その文字列を、傷病名と医薬品名とに対応付けて記憶している。

（８）テキストデータ結合処理
テキストデータ結合処理（Ｓ２３）では、テキストデータ分解処理（Ｓ２２）において空白や改行などにより分解された文字列のうち、医療関係用語として抽出されなかった文字列同士を結合して、１つの医療関係用語を抽出する。このとき、複数の文字列を結合して生成される医療関係用語をリスト化した結合テーブルを参照する。例えば、１つの医薬品名が、間に空白を入れてテキスト化されている場合に、結合テーブルは、その医薬品名を保持して記憶しており、分解処理された複数の文字列を結合することで結合テーブルに保持した医薬品名と一致した場合には、その複数の文字列を結合して、１つの医薬品名を抽出する。

（９）分解テーブル、結合テーブルの更新
分解テーブル、結合テーブルの更新処理（Ｓ２４）では、Ｓ２２のテキストデータ分解処理において分解できなかったテキストデータを、医療関係用語ごとに区分けして、分解テーブルの拡張を行い、また、Ｓ２３のテキストデータ結合処理において結合できなかった複数のテキストデータを１つの医療関係用語として結合して、結合テーブルの拡張を行う。この作業は人手によって行われる。

オペレータは、Ｓ２２において区分け不能な文字列を複数の医療関係用語に分解して、分解テーブルの登録内容を適宜補充していく。特に、大規模な医療機関で利用されるレセプトコンピュータは、独自の仕様でカスタマイズされていることがある。そのため、レセプトによっては、複数の医薬品名が連続して記入されたり、また傷病名と医薬品名とが連続して記入されていることもある。オペレータはこのような文字列を見つけると、対応する医療関係用語ごとに区分けして、分解テーブルの登録内容を増やしていく。これにより、次回実行するテキストデータの分解処理の信頼性を、前回よりも確実に高めることができ、処理時間を短縮することができる。

また、オペレータは、Ｓ２３において結合できなかった医療関係用語を結合テーブルに適宜登録していく。医療関係用語の文字数は様々であるが、特に長い文字列となる医療関係用語については、間に空白が挿入されたり、摘要欄において改行されて記入されることが多い。基本的に、テキストデータはＳ２２において空白部分や改行部分で分解されるが、この分解処理では、本来１つの医療関係用語であるにもかかわらず、それが不必要に分解されて１つの医療関係用語として特定できない結果を招くこともある。そのような場合の対応として、オペレータは、分解処理される１つの医療関係用語を結合テーブルに登録しておき、Ｓ２３における結合処理の精度を高めていく。結合テーブルを適宜更新していくことで、テキストデータの抽出処理の信頼性を前回よりも高めることができ、処理時間を短縮することができる。

（１０）辞書テーブルの読出
辞書テーブルの読出処理（Ｓ２６）では、格納部に記憶されている辞書テーブルを読み出す。医療関係用語には同じ意味を表す表現が複数存在することがあり、例えば、傷病名の「虫垂炎」、「盲腸」、「アッペ」は全て同じ傷病を意味する。用語の不統一は、後の統計処理などを実行する際の阻害要因となるため、レセプトファイル生成システムでは、レセプトデータの有効利用を図るべく、複数の同義語のうちの一つを「標準語」として設定し、標準語以外の同義語を「方言」と設定して取り扱うこととしている。標準語は、その識別コードおよび属性情報に対応付けられて、マスタテーブルに記憶されている。以下に、マスタテーブルと辞書テーブルとの関係を示す。

マスタテーブルは、システムで標準語として採用する傷病名、医薬品名などの医療関係用語と、その医療関係用語の識別コード、およびその属性情報とを対応付けて生成される。例えば傷病名に関していえば、「疾病、傷害及び死因分類」に分類されている傷病名を標準語として設定してもよい。識別コードは、マスタテーブルと辞書テーブルとを紐付けするために用いられ、レセプトファイル生成システムにおいて独自に設定したものを用いてもよい。また、医療業界に各種存在するコード体系における識別コードを、マスタテーブルと辞書テーブルの紐付け用の識別コードとして転用してもよい。

具体的に、傷病名「虫垂炎」を標準語と設定する場合、マスタテーブルは、「虫垂炎」を、その識別コードおよびその属性情報と対応付けて記憶する。属性情報は、虫垂炎のＩＣＤ分類などの情報を含む。医薬品名や他の区分のマスタテーブルについても同様に、標準語、識別コードおよび属性情報とが対応付けられる。医薬品名の属性情報は、薬価（保険点数）を含む。マスタテーブルは、傷病名を標準化した傷病マスタテーブル、医薬品を標準化した医薬品マスタテーブルなど、複数の区分に対して作成されている。

辞書テーブルは、医療関係用語として標準語と同じ意味を表す同義語を、標準語の識別コードに対応付けることで生成される。同義語は、標準語以外の同義語（方言）を含み、また標準語自身を含んでもよい。具体的には、「虫垂炎」の識別コードに対して、「虫垂炎」、「盲腸」、「アッペ」を対応付けて記憶するのが辞書テーブルである。ここで、虫垂炎は標準語であり、盲腸、アッペは方言である。辞書テーブルは、マスタテーブルに対応して、傷病名を辞書化した傷病辞書テーブル、医薬品を辞書化した医薬品辞書テーブルなど、複数の区分に対して作成されている。

（１１）マッチング処理
マッチング処理（Ｓ２８）では、項目ごとに分解されたテキストデータと、読み出した辞書テーブルのデータとのマッチングをとる。テキストデータが辞書テーブルに登録されたデータと一致する場合、そのデータに対応付けられている識別コードを読み出し、続くレセプトファイル生成処理に引き渡す。

なお、虫垂炎を表現する盲腸、アッペ以外の別の名前がテキストデータとして記述されている場合、この新しい名前は辞書テーブルに登録されていないため、コンピュータは、その名前を虫垂炎の方言として認識できない。辞書テーブルに対応する名前が存在しない場合、その名前を不明データとして所定の格納領域に記憶し、その旨がオペレータに出力される。

（１２）マスタテーブル、辞書テーブル更新
マスタテーブル、辞書テーブルの更新（Ｓ３０）では、まず、オペレータが、不明データとして所定の格納領域に記憶された名前を確認する。この確認作業は、不明データが発生する度に行ってもよく、また複数の不明データがまとまった段階で行ってもよい。オペレータは、不明データが虫垂炎の新しい呼び名であることを判断すると、その呼び名を虫垂炎の方言として追加し、辞書テーブルを更新する。なお、新薬がでた場合、または新しい傷病が発生した場合、オペレータは、新たな医療関係用語に識別コードを設定して、マスタテーブルおよび辞書テーブルを更新する。

（１３）一時辞書テーブル生成
一時辞書テーブル生成処理（Ｓ３２）では、一時的に利用される辞書テーブルを生成する。テキストデータが誤記であったり、ある医療機関でのみ使用される特殊な表現であるような場合、オペレータは、そのテキストデータで示す文字列を、標準語の識別コードと対応付ける一時辞書テーブルを生成する。一時辞書テーブルは、例えば当月に限って利用される。

（１４）レセプトファイル生成
レセプトファイル生成処理（Ｓ３４）では、テキストデータ中の方言や特殊な表現を標準語に紐付けたレセプトファイルを生成する。具体的にレセプトファイルでは、テキストデータ中の表現に対して、マスタテーブルで使用する標準語の識別コードをリンクさせる。このレセプトファイルは、もとの紙レセプトに記入されていた内容をそのまま残し、含まれる方言や特殊な表現については、辞書テーブルを参照することで、標準語に対応付けて構成される。

（１５）データ加工
データ加工処理（Ｓ３６）では、生成したレセプトファイルをもとに、統計的な処理や、予測医学など、ユーザのニーズに合わせた様々な処理を実行する。これは、レセプトファイル中の医療関係用語が標準語に紐付けされていることで可能となり、標準語の識別コードをキーとして、様々なデータ加工が可能となる。また、各レセプトファイルは、患者個人にも紐付けされているため、患者の傷病履歴の把握や、予測医療が可能となる。Ｓ１８〜Ｓ３６のステップは、レセプトファイル生成システムにより実行される。

図２は、本発明の実施例におけるレセプト処理システム１を示す。レセプト処理システム１は、紙レセプトのイメージデータから文字を読み取ってテキストデータを生成するテキストデータ生成システム２と、テキストデータ生成システム２において生成されたテキストデータから方言などを標準語に紐付けしたレセプトファイルを生成するレセプトファイル生成システム３を備える。テキストデータ生成システム２は、図１における紙レセプトのイメージ化処理（Ｓ１２）からパンチ処理（Ｓ１６）までの処理ステップを実行する。また、レセプトファイル生成システム３は、論理チェック処理（Ｓ１８）からデータ加工処理（Ｓ３６）までの処理ステップを実行する。テキストデータ生成システム２およびレセプトファイル生成システム３は、同一の主体により管理、運営されてもよく、また別主体が提携することで共同運営されてもよい。

本実施例におけるレセプト処理システム１の機能は、テキストデータ生成システム２およびレセプトファイル生成システム３において、ＣＰＵ、メモリ、メモリにロードされたプログラムなどによって実現される。プログラムは、テキストデータ生成システム２およびレセプトファイル生成システム３に内蔵されていてもよく、また記録媒体に格納された形態で外部から供給されるものであってもよい。したがってこれらの機能ブロックがハードウエアのみ、ソフトウエアのみ、またはそれらの組合せによっていろいろな形で実現できることは、当業者に理解されるところである。

図３は、テキストデータ生成システム２の構成を示す。テキストデータ生成システム２は、イメージデータ生成部１０、ＯＣＲ部１２、入力部１６、ディスプレイ１８、ドライブ装置２０および格納部２２を備える。入力部１６は、テキストデータ生成システム２の入力インタフェースであり、例えばキーボードや、マウスなどのポインティングデバイスなどにより構成される。入力部１６は、例えばディスプレイ１８に設けられるタッチパネルとして構成されてもよい。ドライブ装置２０は、ＤＶＤやＣＤなどの記憶媒体３０のデータ書込および／またはデータ読出を行う装置である。

イメージデータ生成部１０はスキャナであり、紙レセプトを入力されて、紙レセプトのイメージデータ（レセプト画像）を生成する。イメージデータは、個人情報を記入された個人情報画像と、全画像から個人情報画像を除いた薬歴画像に分けられる。オペレータがディスプレイ１８を見ながら、入力部１６のポインティングデバイスを用いてレセプト画像の範囲指定をすることで、個人情報画像と薬歴画像とが分割されてもよい。

図４は、診療報酬明細書（レセプト）のイメージデータを示す。このレセプトは、医科レセプトの一例である。レセプト画像３２は、一点鎖線３３の上方にある個人情報画像３４と、下方にある薬歴画像３６とに分けられる。薬歴画像３６には、医薬品、医療材料、診療行為などが記述された摘要欄３８が存在する。

摘要欄３８において、左端の数字は、診療区分コードを示し、アスタリスクは、同時処方であることを示す。１つのアスタリスクでブロック化される医薬品、医療材料、診療行為の一群は、同時処方された医薬品、医療材料、診療行為であることを意味し、保険点数に関して言えば、単純にそれぞれを加算した額となるのではなく、減額の対象となる。右端の数字は、回数を示し、その左にある「×」の左側の数字は、点数を示す。「点数×回数」により、そのブロックの保険点数が定まる。点数の左側にある文字列のうち、同時処方欄または診療区分コードに含まれない文字列は、医薬品名、医療材料名、診療行為名を示す。

図３に戻って、ＯＣＲ部１２は、まず個人情報画像３４から光学的文字認識による文字の読み取りを行う。個人情報画像３４の読み取り結果は暗号化され、薬歴画像３６に対応付けられる。

次に、ＯＣＲ部１２は、薬歴画像３６から光学的文字認識による文字の読み取りを行う。薬歴画像３６のうち、摘要欄３８は、使用した医薬品、診療行為などの保険点数を表記しており、支払金額に直接関係するところである。そのため、ＯＣＲ部１２は、精度よく摘要欄３８を読み取れることが必要となる。

ＯＣＲ部１２において読み取られた薬歴画像３６のテキストデータが、ディスプレイ１８に表示され、オペレータ（パンチャ）は、表示されたテキストデータを修正する。ＯＣＲ部１２の文字認識率が高いほどオペレータの作業負担が軽くなり、紙レセプトのテキスト化にかかるコストを低くできる。

図５は、摘要欄３８を文字認識して、項目ごとに分類して生成したデータファイルの表示例を示す。パンチャは、ディスプレイ１８に表示されるデータファイルと、もとの摘要欄３８の画像とを見比べながら、入力部１６を操作して、データファイルのデータ修正を行う。図５には、文字認識がうまくできた例を示しているが、文字の誤認識がある場合は、パンチャが適宜修正していく。

パンチャによる修正が終了したデータファイルは、格納部２２に格納される。ドライブ装置２０は、レセプトのデータファイルを記憶媒体３０に記録する。記憶媒体３０は、レセプトファイル生成システム３に引き渡される。

図６は、ＯＣＲ部の構成を示す。ＯＣＲ部１２は、レセプトのイメージデータから光学的文字認識によって文字を読み取る光学式文字読取装置として機能する。ＯＣＲ部１２は、文字割当部８０、連続性検出部８２、書式解析部８４、所定文字検出部８６、位置検出部８８、文字データ格納部９０、優先文字格納部９２、用語格納部９４および類似対応格納部９６を備える。文字データ格納部９０、優先文字格納部９２、用語格納部９４および類似対応格納部９６は、格納部２２における格納領域として構成されてもよく、またＯＣＲ部１２に内蔵される格納部であってもよい。文字データ格納部９０は、文字データおよびその文字の特徴データなどを格納し、優先文字格納部９２は、文字割当部８０に対して優先的に選択させる優先文字を格納する。用語格納部９４は、医薬品、医療材料、診療行為などの医療関係用語を格納し、類似対応格納部９６は、外見的に類似する文字の対応を格納する。

文字割当部８０は、パターンマッチング法や構造解析法などの文字認識アルゴリズムを用いて、イメージデータの画像情報を解析し、その画像情報に対して文字データ格納部９０に格納された文字データを割り当てる。本実施例のＯＣＲ処理の一つの方法として、まず文字割当部８０が既存のアルゴリズムにより画像情報に対して文字データを割り当てた後、縦線ないしは横線を文字データとして誤認識した場合の調整を行う。本来、ＯＣＲ処理では、縦線ないしは横線を無視して文字画像をテキスト化することが好ましいが、線分に近似した文字も存在するため、線を文字データと誤認識する可能性がある。以下では、文字割当部８０が、レセプト画像３２における摘要欄３８の画像データを文字認識する例について説明する。

連続性検出部８２は、文字割当部８０により割り当てられた文字データの連続性を検出する。具体的に、連続性検出部８２は、同一または外見的に類似する文字データが所定数以上連続して所定方向に並んでいるかを検出する。なお、ここでいう「同一または外見的に類似する文字データ」とは、本実施例において、縦方向または横方向に実質的に一本線で記載される文字データを意味する。数字の「１」とアルファベットの「ｌ」（小文字のエル）とは、外見的に縦方向の一本線の文字として類似しており、また漢数字の「一」とハイフン「−」は、外見的に横方向の一本線の文字として類似している。類似対応格納部９６は、数字「１」とアルファベット「ｌ」とが類似関係にあること、および、漢数字「一」とハイフン「−」とが類似関係にあることを格納する。また、他の文字データ、例えば、アルファベットの「Ｉ」（大文字のアイ）なども、縦方向の一本線の文字として外見的に類似するグループに含めて格納してもよい。類似対応格納部９６は、摘要欄３８における線を処理するために文字データの類似関係を記憶している。すなわち、文字割当部８０により縦線を縦線ではないものとして誤認識される可能性のある数字「１」とアルファベット「ｌ」、横線を横線ではないものとして誤認識される可能性のある漢数字「一」とハイフン「−」とを対応付けて保持する。

図７（ａ）は、摘要欄３８のイメージデータの一部を示す。文字列「＊ルプラック錠４ｍｇ１錠３×３」の左には、縦方向の破線１０１が記されており、また文字列の上下には、横方向の破線１０２、１０３が記されている。

文字割当部８０は、縦方向の破線１０１を、数字「１」、アルファベット「ｌ」または数字「１」とアルファベット「ｌ」を組み合わせたものが縦方向に連続したものと誤認識する可能性がある。そのように認識した場合、連続性検出部８２は、文字割当部８０の割当結果を受けて、類似対応格納部９６に記憶された類似グループおよび対応関係などをもとに、縦方向に「１」または「ｌ」が連続して並んでいることを検出する。なお、数字「１」とアルファベット「ｌ」とが交互に並んでいる場合であっても、類似対応格納部９６に対応関係が格納されているため、連続性検出部８２は、縦方向に一本線の同一または類似の文字が連続して並んでいることを検出する。

このとき、位置検出部８８が、摘要欄３８における文字データの一群の位置を検出し、その位置が右端でないことを確認する。例えば位置検出部８８は、文字割当部８０によりこの時点で割り当てられている「×」の位置を検出することで、文字データの一群の位置が右端であるか否かを判断してもよい。また単純に、摘要欄３８の左右方向の座標位置から、文字データの位置を検出してもよい。右端、すなわち「×」の右側には「回数」を表現する数字が記入され、数字「１」が連続して縦方向に並ぶこともあり得る。右端において「１」が連続して並んでいる場合には、文字認識が適切に行われている可能性があるため、この確認処理が行われる。書式解析部８４は、右端でない位置において、同一または類似の文字データが所定数以上、例えば５つ以上連続する文字データの一群を線として判断して、破線１０１を検出する。これにより、文字割当部８０による数字「１」またはアルファベット「ｌ」の割当ては無効とされ、破線１０１に対する誤認識を解消する。

以上により、文字割当部８０において、ＯＣＲ処理した文字割当の結果から、破線１０１を誤認識した結果である数字「１」またはアルファベット「ｌ」は削除され、適切なテキスト化を行うことができる。なお、この削除は必ずしも必要な処理ではなく、例えば書式解析部８４が、文字割当てしたデータが線を誤認識した結果であることを認識していれば足りる。この場合は、図３における記憶媒体３０にテキストデータを記録する際に、誤認識された文字データを書き込まないようにする。

同様に、文字割当部８０は、横方向の破線１０２、１０３を、漢数字「一」、ハイフン「−」または漢数字「一」とハイフン「−」を組み合わせたものが横方向に連続したものと誤認識する可能性がある。誤認識した場合、連続性検出部８２は、文字割当部８０の割当結果を受けて、横方向に、「一」または「−」が連続して並んでいることを検出する。なお、漢数字「一」とハイフン「−」とが交互に並んでいる場合であっても、類似対応格納部９６に対応関係が格納されているため、連続性検出部８２は、同一または類似の文字が連続して並んでいることを検出する。書式解析部８４は、横方向においても、同一または類似の文字データが所定数以上、例えば５つ以上連続する文字データの一群を線として判断して、破線１０２、１０３を検出する。これにより、文字割当部８０による漢数字「一」またはハイフン「−」の割当ては無効とされ、破線１０２、１０３に対する誤認識を解消する。これにより、ＯＣＲ処理した文字割当の結果から、破線１０２、１０３を誤認識した結果である漢数字「一」またはハイフン「−」は削除され、適切なテキスト化を行うことができる。なお、破線１０１について説明したように、この削除は必ずしも必要な処理ではなく、書式解析部８４が文字割当てしたデータがもとは線であることを認識していればよい。

なお、横線の破線１０２、１０３を「−」と誤認識する場合を説明したが、レセプトコンピュータによっては、破線１０２、１０３自体を、ハイフンで記述するものもある。この場合、文字割当部８０における文字割当ては適切に行われていることになるが、線のデータは、後のレセプトファイル生成システム３における処理に対して本来不要なものである。そのため、本実施例におけるレセプトのＯＣＲ処理においては、書式解析部８４が横方向に連続して存在するハイフンの一群を線として判断すると、その時点で文字割当部８０に対して文字割当てしたハイフンを削除するように指示してもよく、また、図３に示す記憶媒体３０へのテキストデータの記録時に、線として判断した文字データの一群の書き込みを不許可としてもよい。

図７（ｂ）は、破線１０２が文字列にかかった状態を示す。例えば、印刷フォーマットに対してデータを打ち込んでレセプトを作成した場合に、印刷位置がずれることで、このような状況が発生する。この場合も同様であり、書式解析部８４が破線１０２を検出することで、文字割当部８０は、線として判断された文字データの一群を除いた状態で、摘要欄３８の画像情報を文字データに割り当てる。すなわち、破線１０２が重なった文字列から破線１０２を無視することで、文字割当部８０は、高精度な文字認識を実現できるようになる。

本実施例のＯＣＲ処理の別の方法として、文字割当部８０は、優先文字格納部９２に格納された文字を選択することで、文字認識率を高めることができる。ＯＣＲ部１２において、上記した線の検出処理および優先文字を利用した処理を同時に実施することで、文字認識率を大幅に向上させることができる。

優先文字格納部９２の使用方法には様々なものが考えられ、文字割当部８０は、優先文字の範囲内で文字認識を行うようにしてもよく、また文字認識を行った結果、画像情報に対して候補となる文字が複数存在する場合に、優先文字格納部９２に格納された優先文字を選択してもよい。前者の場合、優先文字格納部９２は、過去実行した文字割当処理において使用した文字データを全て格納しておき、これらの文字データを優先文字として、使用する文字の範囲の絞り込みを行うために利用されてもよい。過去に使用されていない事実から、今後も使用されないだろうという予測に基づくものであり、優先文字として登録されていない文字を割り当てることはできないが、その後、オペレータにより新たな文字が登録されることで、その文字を優先文字として追加することが可能となる。後者の場合、例えば、医療関係用語の種類によって使用する文字の絞り込みをある程度行うことができるケースに有効であり、優先文字として登録しておくことで、複数候補からの選択の確実性を上げることが可能となる。

図７（ａ）を参照して、摘要欄３８の右端から２番目の文字に「×」が存在する。摘要欄３８は保険点数を記すものであり、したがって、摘要欄３８の右側には、常に「点数×回数」の計算式が記される。点数および回数は、数字以外のものは入らず、それ以外の文字を認識した場合には誤認識である。

所定文字検出部８６は、文字割当部８０により割り当てられた文字データを受け取り、文字「×」を探索して検出する。優先文字格納部９２は、文字「×」に対応付けて、優先文字を格納しておく。ここで、優先文字は、文字データそのものだけでなく、文字の種類も含む。文字「×」の左右の文字に数字を優先文字として格納しておくことで、文字割当部８０は、「×」の左右の文字を誤認識していた場合には、再度、文字認識を行い、数字の中から文字データを選択することができる。

これは、文字割当てを一度行った後、「×」の左右の文字をチェックする例であるが、例えば、文字割当処理の実行中、「×」の次の文字、すなわち「×」の右側の文字を文字認識する際に、文字割当部８０が、優先文字格納部９２を参照してもよい。これにより、「×」の右側には常に数字から選択されることになり、文字認識率を高めることが可能となる。

前述したように、位置検出部８８は、処理しようとするイメージデータの摘要欄３８における位置を検出する機能をもつ。つまり、摘要欄３８において左端側なのか右端側なのか、または中心であるのかなどの位置を検出する。この位置検出は、文字割当処理の前であれば、摘要欄３８の範囲を認識して、その摘要欄３８の左右方向ないしは前後方向の座標位置を用いて実行することが可能である。なお、文字割当処理を一回行った後であれば、摘要欄３８においてキーとなる文字、例えば「×」や「＊」を利用して、相対的な位置を検出することも可能となる。例えば、図７に示すように、「×」は摘要欄３８の右端近傍、「＊」は左端近傍に存在している。この位置関係を利用して、位置検出部８８は、摘要欄３８におけるイメージデータの位置を検出してもよい。

優先文字格納部９２は、イメージデータの位置に対応付けて優先文字を格納してもよい。具体的に、優先文字格納部９２は、摘要欄３８において診療区分コードが記入される位置、点数が記入される位置、回数が記入される位置に対応付けて、優先文字として数字を格納する。また、優先文字格納部９２は、同時処方欄の位置に対応付けて、＊（アスタリスク）を優先文字として格納する。位置検出部８８が、文字割当部８０で認識する画像情報が、診療区分コード、点数、回数に該当する位置にあることを検出すると、文字割当部８０は、検出された位置情報から優先文字格納部９２を参照し、数字を優先して文字認識する。また、位置検出部８８が、文字割当部８０で認識する画像情報が同時処方欄の位置にあることを検出すると、文字割当部８０が＊を優先して文字認識する。

以上の優先文字を利用した処理は、文字割当部８０による文字認識中に同時に実行されてもよく、文字割当部８０において画像情報に対して候補となる文字が複数存在する場合に、１つの文字を選択させるために行われてもよい。また、文字割当部８０が文字認識を行った後のチェック機能として行われてもよい。

また、文字割当部８０は、文字認識した文字列を、用語格納部９４に格納された医療関係用語を用いて決定してもよい。文字割当部８０は、文字列が用語格納部９４に格納された医療関係用語と一致する場合には、認識した文字列を確定する。また、類似している場合も、認識した文字列を、類似する用語に置き換えて、文字列を確定する。類似している場合とは、文字列の半分以上の文字が一致しているような場合である。このようなマッチング処理を行うことで、文字認識率を飛躍的に高めることが可能となる。

このとき、用語格納部９４は、それぞれの医療関係用語に対応付けて、他の医療関係用語との関連性を格納してもよい。例えば、用語格納部９４は、医薬品名を、その医薬品を使用する検査名または治療名に対応付けて格納しておく。まず、文字割当部８０は、摘要欄３８において既に文字認識した文字列が用語格納部９４に格納されている医療関係用語であることを認識する。続いて、文字割当部８０が、既に認識済みの医療関係用語と対応付けられた医療関係用語と、現在認識中の文字列とを比較する。このとき、上記のように、一致していればその文字列を確定し、一致していなくても、類似している場合には、その医療関係用語に置き換えて、文字列を確定する。具体的には、既に所定の検査名を認識しており、現在、認識中の文字列がその検査において使用される医薬品名に類似していれば、文字列を、その類似の医薬品名であると判断して、文字列を確定する。これにより、レセプトにおける医療関係用語の関連性を利用した文字認識を実現することが可能となる。

以上、本発明を実施例をもとに説明した。これらの実施例は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。ＯＣＲ処理では、上記した複数の手法を組み合わせることで、レセプトのイメージデータの文字認識率を高くすることが可能となる。

実施例におけるレセプト処理フローを示す図である。実施例におけるレセプト処理システムを示す図である。テキストデータ生成システムの構成を示す図である。診療報酬明細書（レセプト）のイメージデータを示す図である。摘要欄を文字認識して、項目ごとに分類して生成したデータファイルの表示例を示す図である。ＯＣＲ部の構成を示す図である。（ａ）は、摘要欄のイメージデータの一部の例を示す図であり、（ｂ）は、摘要欄のイメージデータの一部の別の例を示す図である。

符号の説明

１・・・レセプト処理システム、２・・・テキストデータ生成システム、３・・・レセプトファイル生成システム、１０・・・イメージデータ生成部、１２・・・ＯＣＲ部、１４・・・論理チェック部、１６・・・入力部、１８・・・ディスプレイ、２０・・・ドライブ装置、２２・・・格納部、３０・・・記憶媒体、３２・・・レセプト画像、３４・・・個人情報画像、３６・・・薬歴画像、３８・・・摘要欄、８０・・・文字割当部、８２・・・連続性検出部、８４・・・書式解析部、８６・・・所定文字検出部、８８・・・位置検出部、９０・・・文字データ格納部、９２・・・優先文字格納部、９４・・・用語格納部、９６・・・類似対応格納部。

Claims

レセプトのイメージデータから光学的文字認識によって文字を読み取る光学式文字読取装置であって、
イメージデータの画像情報に対して文字データを割り当てる文字割当部と、
前記文字割当部により割り当てられた文字データの連続性を検出する連続性検出部と、
前記連続性検出部により、同一または外見的に類似する文字データが所定数以上連続して所定方向に並ぶ場合に、連続した文字データの一群を線として判断する書式解析部と、
を備えることを特徴とする光学式文字読取装置。
前記文字割当部は、前記書式解析部により線として判断された文字データの一群を除いた状態で、イメージデータの画像情報を文字データに割り当てることを特徴とする請求項１に記載の光学式文字読取装置。
レセプトのイメージデータから光学的文字認識によって文字を読み取る光学式文字読取装置であって、
イメージデータの画像情報に対して文字データを割り当てる文字割当部と、
優先的に選択させる優先文字を格納する優先文字格納部を備え、
前記文字割当部は、前記優先文字格納部に格納された優先文字を選択することを特徴とする光学式文字読取装置。
前記文字割当部は、画像情報に対して候補となる文字が複数存在する場合に、前記優先文字格納部に格納された優先文字を選択することを特徴とする請求項３に記載の光学式文字読取装置。
前記文字割当部により割り当てられた所定の文字データを検出する所定文字検出部をさらに備え、
前記優先文字格納部は、所定の文字データに対応付けて、優先文字を格納することを特徴とする請求項３または４に記載の光学式文字読取装置。
前記イメージデータの位置を検出する位置検出部をさらに備え、
前記優先文字格納部は、イメージデータの位置に対応付けて、優先文字を格納することを特徴とする請求項３または４に記載の光学式文字読取装置。