JP2006079190A - 光学式文字読取装置 - Google Patents

光学式文字読取装置 Download PDF

Info

Publication number
JP2006079190A
JP2006079190A JP2004259901A JP2004259901A JP2006079190A JP 2006079190 A JP2006079190 A JP 2006079190A JP 2004259901 A JP2004259901 A JP 2004259901A JP 2004259901 A JP2004259901 A JP 2004259901A JP 2006079190 A JP2006079190 A JP 2006079190A
Authority
JP
Japan
Prior art keywords
character
data
unit
receipt
priority
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004259901A
Other languages
English (en)
Inventor
Shinya Kimura
真也 木村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Medical Data Center Co Ltd
Original Assignee
Japan Medical Data Center Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Medical Data Center Co Ltd filed Critical Japan Medical Data Center Co Ltd
Priority to JP2004259901A priority Critical patent/JP2006079190A/ja
Publication of JP2006079190A publication Critical patent/JP2006079190A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

【課題】 レセプト画像の文字認識に優れた光学式文字読取装置を提供する。
【解決手段】 本発明の光学式文字読取装置12は、レセプトのイメージデータの画像情報に対して文字データを割り当てる文字割当部80と、文字割当部により割り当てられた文字データの連続性を検出する連続性検出部82と、連続性検出部により、同一または外見的に類似する文字データが所定数以上連続して所定方向に並ぶ場合に、連続した文字データの一群を線として判断する書式解析部84を備える。
【選択図】 図6

Description

本発明は、光学式文字読取装置の技術に関する。
病院などの医療機関では、医師が、傷病名、投薬、注射、検査、手術などの医療行為の内容(以下、「診療内容」という)をカルテに記入する。近年、多くの医療機関にレセプトコンピュータと呼ばれる処理装置(「医事コンピュータ」ともいう)が導入されており、医療機関の担当者は、カルテをもとに診療内容をレセプトコンピュータに入力して、レセプトコンピュータに記憶されたフォーマットで診療報酬明細書(以下、「レセプト」という)を作成する。また病院だけではなく、薬局においてもレセプトコンピュータの普及が進んでいる。医療機関は、レセプトを、診療報酬請求書(以下、「請求書」という)とともに各都道府県単位の社会保険診療報酬支払基金に提出する。支払基金は、投薬、注射、手術などの請求点数に誤りがないかを点検し、審査委員会が、支払基金にて点検された請求書およびレセプトを審査する。このような審査を終えたレセプトに基づいて、診療報酬額が決定される。健康保険組合などの保険者は、審査を経たレセプトを二次審査し、支払基金などを通じて医療機関に診療報酬を支払う一方で、診療内容に疑問のあるものについては審査委員会に対して再審査を請求する。
特許第3139485号明細書
近年、財政赤字の問題もあり、保険者が二次審査を強化している。医療機関の手違いなどにより誤った請求がなされることもあるため、それを二次審査により見つけて再審査にかけることで、過剰な診療報酬の支払を避けることを目的としている。しかしながら、一方で、レセプトの点検には医学的な専門知識が要求されるため、保険者の誤解に基づいた再審査請求が行われることもある。近頃、規制緩和の一環として、健康保険組合が、レセプトの審査・支払業務を医療機関に対して直接行うことも可能となった。利害が相反する保険者と医療機関とが直接交渉することになるため、いずれかの誤解に基づく無用なトラブルが発生する事態も考えられる。
一般にレセプトは紙ベースで受け渡されることが多い。レセプトは、患者に施された医療行為を表現するものであり、複数月さらには複数年にまたがった患者のレセプトの情報は、その患者の時系列的な傷病履歴を表現する。保険者側で患者個人の傷病履歴をまとめることができれば、その傷病履歴を解析して、個々の患者の健康管理にも役立てることができる。紙ベースのレセプトをテキスト化することで、患者の傷病履歴をデータとして効率的に管理できるとともに、患者に継続して施された診療行為が適切なものであるかをチェックすることも可能となる。そのためには、レセプトを光学式文字読取装置(OCR:Optical Character Reader)で読み取り、高精度にテキスト化できることが好ましい。
レセプトのフォーマットが固定されていれば、フォーマットの枠検出が容易となり、文字認識の高精度化も期待できるが、レセプトは、各医療機関またはレセプトコンピュータにより独自のフォーマットで作成されている。そのため、平文の文字認識とは事情が異なり、現状のOCR技術ではレセプトの高い文字認識精度を実現することはできない。
そこで本発明は、レセプトの文字認識率を向上することのできる光学式文字読取技術を提供することを目的とする。
上記課題を解決するために、本発明のある態様は、レセプトのイメージデータから光学的文字認識によって文字を読み取る光学式文字読取装置に関する。この態様の光学式文字読取装置は、イメージデータの画像情報に対して文字データを割り当てる文字割当部と、文字割当部により割り当てられた文字データの連続性を検出する連続性検出部と、連続性検出部により、同一または外見的に類似する文字データが所定数以上連続して所定方向に並ぶ場合に、連続した文字データの一群を線として判断する書式解析部とを備える。
この態様の光学式文字読取装置によると、レセプトのイメージデータ中の線を認識可能とすることで、多様なフォーマットで作成されたレセプトに対応することができ、汎用性の高い光学式文字読取装置を実現できる。
文字割当部は、書式解析部により線として判断された文字データの一群を除いた状態で、イメージデータの画像情報を文字データに割り当ててもよい。文字認識の障害となる線を除いて画像情報を文字認識することで、文字認識精度を向上することが可能となる。
本発明の別の態様は、レセプトのイメージデータから光学的文字認識によって文字を読み取る光学式文字読取装置に関する。この態様の光学式文字読取装置は、イメージデータの画像情報に対して文字データを割り当てる文字割当部と、優先的に選択させる優先文字を格納する優先文字格納部を備え、文字割当部は、優先文字格納部に格納された優先文字を選択する。
この態様の光学式文字読取装置によると、レセプトのイメージデータに対して優先的に文字割当てを行うための優先文字を優先文字格納部が予め保持しておくことで、文字割当部における文字割当処理を容易にすることができ、文字認識精度を向上することが可能となる。
文字割当部は、画像情報に対して候補となる文字が複数存在する場合に、優先文字格納部に格納された文字を選択してもよい。優先文字を選択することで、文字認識精度を向上することが可能となる。
この態様の光学式文字読取装置は、文字割当部により割り当てられた所定の文字データを検出する所定文字検出部をさらに備え、優先文字格納部は、所定の文字データに対応付けて、優先文字を格納してもよい。所定の文字に対する周辺の文字の規則性を利用することで、文字認識精度を向上することができる。
この態様の光学式文字読取装置は、イメージデータの位置を検出する位置検出部をさらに備え、優先文字格納部は、イメージデータの位置に対応付けて、優先文字を格納してもよい。イメージデータの位置における文字の規則性を利用することで、文字認識精度を向上することができる。
なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。
本発明によると、レセプトの文字認識に優れた技術を提供することができる。
図1は、本発明の実施例におけるレセプト処理フローを示す。このレセプト処理フローは、1つの主体により実行されてもよく、複数の主体により協働して実行されてもよい。通常は、複数の主体で明確な役割分担を行い、全体として1つのレセプト処理システムを実現するケースが多いと考えられる。図1に示すレセプト処理フローでは、医療機関または支払基金などから提供される紙レセプトをデータ化し、統計処理などのデータ加工に適したレセプトファイルを効率的に生成する手順を表現している。以下に示す各ステップは、人手が介在することもあるが、多くはシステムによるコンピュータ処理により実行される。
本実施例のレセプト処理フローは、仕分け作業(S10)、紙レセプトのイメージ化(S12)、OCR処理(S14)、パンチ処理(S16)、論理チェック処理(S18)、対応チェック処理(S20)、テキストデータ分解処理(S22)、テキストデータ結合処理(S23)、分解テーブル、結合テーブルの更新(S24)、辞書テーブルの読出し(S26)、マッチング処理(S28)、マスタテーブル、辞書テーブルの更新(S30)、一時辞書テーブル生成(S32)、レセプトファイル生成(S34)、データ加工(S36)の処理ステップに分けることができる。
(1)仕分け作業
仕分け作業(S10)では、入院レセプト、入院外レセプト、調剤レセプトなどの紙媒体に印刷された各帳票を仕分けする。この仕分け作業は、一般には人手により行われるが、後続のS12のイメージ化の際に、コンピュータ処理により自動的に実行されてもよい。
(2)紙レセプトのイメージ化
紙レセプトのイメージ化(S12)では、仕分けされた紙レセプトをスキャナにより読み込んで、イメージデータに変換する。ここでは、スキャナに紙レセプトを連続入力しながら、入力中の画像をディスプレイにリアルタイムに表示し、オペレータがスキャニング状況を確認する。紙レセプトが裏面で入力されたような場合には、画像認識処理により自動的にスキャニングを停止し、オペレータにその旨を通知する。また、用紙方向が上下逆のような場合にも、オペレータにその旨を通知する。以上により、向きの揃った紙レセプトのイメージデータを生成する。なお、スキャナのCPUに、画像認識機能だけでなく、レセプト仕分け機能を追加することで、紙レセプトのイメージ化を行いながら、同時に仕分け処理を行って、イメージデータを、レセプトの種類ごとのフォルダに格納していく。
(3)OCR処理
OCR処理(S14)では、レセプトのイメージデータから光学的文字認識により文字を読み取る。レセプトの上部には、被保険者記号番号や患者の氏名などの個人情報が記載されており、その下方には、傷病名や、投薬、注射などの診療情報、使用した医薬品とその使用量を示す診療明細が記載されている。本明細書では、レセプトの個人情報以外の情報を薬歴情報と呼ぶ。レセプトの薬歴情報は、レセプトの個人情報により、特定の個人と結び付けられることによって秘密に保護されるべきものであり、その取扱いには十分な注意が必要となる。そのため、OCR処理の前段階として、まず、個人情報画像と薬歴画像とを切り離す。
最初にレセプトの個人情報画像をOCR処理によりテキスト化し、暗号技術によりユニークコードに変換する。続いて、このユニークコードを、レセプトの薬歴画像の画像データに結合する。これにより、オペレータは、この結合されたデータをみても個人を特定することができず、一方で、暗号化した個人情報と診療明細情報とを紐付けできる。次に、薬歴画像をOCR処理によりテキスト化する。テキスト化されたデータは、所定の形式で項目(フィールド)に分類されてファイル化される。このOCR処理では、高い文字認識率を実現することが好ましい。
(4)パンチ処理
パンチ処理(S16)では、OCR処理でテキスト化できなかった箇所または誤ったテキスト化がなされた箇所を、パンチャが入力または修正する。OCR処理の精度が高くなるほどパンチャの作業量は減ることになり、したがって、紙レセプトのデータ化にかかるトータルコストを抑えることが可能となる。
S10〜S16のステップは、テキストデータ生成システムにより実行される。紙レセプトのテキストデータはファイルとしてまとめられ、このデータファイルが、S18以降の処理を実行するレセプトファイル生成システムに引き渡される。
(5)論理チェック処理
論理チェック処理(S18)では、テキスト化されたデータの論理チェックを行う。コンピュータが論理チェックを実行し、レセプト中の論理的なエラーを検出する。論理的なエラーとは、例えば患者の誕生日が未来の日付になっているような誤りである。
(6)対応チェック処理
対応チェック処理(S20)では、データファイルにおけるテキストデータ間の対応関係をチェックする。ここでは、例えば、診療開始日と2回目以降の診療日との前後関係が逆であったり、薬歴の摘要欄に医薬品名が存在するものの、使用量が存在しなかったりという誤りをチェックする。また、数字が入力されるべき項目に、文字が入力されているような誤りもチェックする。コンピュータは、データ間の対応関係を予め保持しておき、この対応関係の適合の可否を判断することで、対応関係のエラーを検出する。検出されたエラーは、オペレータに通知される。オペレータはエラー内容を見て、正しい内容に修正する。コンピュータは、データ間の対応関係だけでなく、レセプト間の対応関係もチェックしてよい。例えば、調剤レセプトがあるのに、医科レセプトが存在しない場合、コンピュータは、その旨をオペレータに通知する。
(7)テキストデータ分解処理
テキストデータ分解処理(S22)では、テキスト化された文字列を分類して区分けする。例えば、医科レセプトの摘要欄データを、医薬品、医療材料、診療行為に分類し、さらに医薬品、医療材料、診療行為の複数項目が1行のテキストデータとして存在している場合に、それらを項目ごとに分解する。具体的には、文字列に含まれるカンマや空白(ブランク)、改行などを検出して、文字列を医療関係用語ごとに区分けしていく。また、連続した文字列と、その文字列を複数の医療関係用語に対応付けた分解テーブルを参照して、文字列を医療関係用語に分解してもよい。例えば、傷病名と医薬品名が連続した文字列としてテキスト化されている場合に、分解テーブルは、その文字列を、傷病名と医薬品名とに対応付けて記憶している。
(8)テキストデータ結合処理
テキストデータ結合処理(S23)では、テキストデータ分解処理(S22)において空白や改行などにより分解された文字列のうち、医療関係用語として抽出されなかった文字列同士を結合して、1つの医療関係用語を抽出する。このとき、複数の文字列を結合して生成される医療関係用語をリスト化した結合テーブルを参照する。例えば、1つの医薬品名が、間に空白を入れてテキスト化されている場合に、結合テーブルは、その医薬品名を保持して記憶しており、分解処理された複数の文字列を結合することで結合テーブルに保持した医薬品名と一致した場合には、その複数の文字列を結合して、1つの医薬品名を抽出する。
(9)分解テーブル、結合テーブルの更新
分解テーブル、結合テーブルの更新処理(S24)では、S22のテキストデータ分解処理において分解できなかったテキストデータを、医療関係用語ごとに区分けして、分解テーブルの拡張を行い、また、S23のテキストデータ結合処理において結合できなかった複数のテキストデータを1つの医療関係用語として結合して、結合テーブルの拡張を行う。この作業は人手によって行われる。
オペレータは、S22において区分け不能な文字列を複数の医療関係用語に分解して、分解テーブルの登録内容を適宜補充していく。特に、大規模な医療機関で利用されるレセプトコンピュータは、独自の仕様でカスタマイズされていることがある。そのため、レセプトによっては、複数の医薬品名が連続して記入されたり、また傷病名と医薬品名とが連続して記入されていることもある。オペレータはこのような文字列を見つけると、対応する医療関係用語ごとに区分けして、分解テーブルの登録内容を増やしていく。これにより、次回実行するテキストデータの分解処理の信頼性を、前回よりも確実に高めることができ、処理時間を短縮することができる。
また、オペレータは、S23において結合できなかった医療関係用語を結合テーブルに適宜登録していく。医療関係用語の文字数は様々であるが、特に長い文字列となる医療関係用語については、間に空白が挿入されたり、摘要欄において改行されて記入されることが多い。基本的に、テキストデータはS22において空白部分や改行部分で分解されるが、この分解処理では、本来1つの医療関係用語であるにもかかわらず、それが不必要に分解されて1つの医療関係用語として特定できない結果を招くこともある。そのような場合の対応として、オペレータは、分解処理される1つの医療関係用語を結合テーブルに登録しておき、S23における結合処理の精度を高めていく。結合テーブルを適宜更新していくことで、テキストデータの抽出処理の信頼性を前回よりも高めることができ、処理時間を短縮することができる。
(10)辞書テーブルの読出
辞書テーブルの読出処理(S26)では、格納部に記憶されている辞書テーブルを読み出す。医療関係用語には同じ意味を表す表現が複数存在することがあり、例えば、傷病名の「虫垂炎」、「盲腸」、「アッペ」は全て同じ傷病を意味する。用語の不統一は、後の統計処理などを実行する際の阻害要因となるため、レセプトファイル生成システムでは、レセプトデータの有効利用を図るべく、複数の同義語のうちの一つを「標準語」として設定し、標準語以外の同義語を「方言」と設定して取り扱うこととしている。標準語は、その識別コードおよび属性情報に対応付けられて、マスタテーブルに記憶されている。以下に、マスタテーブルと辞書テーブルとの関係を示す。
マスタテーブルは、システムで標準語として採用する傷病名、医薬品名などの医療関係用語と、その医療関係用語の識別コード、およびその属性情報とを対応付けて生成される。例えば傷病名に関していえば、「疾病、傷害及び死因分類」に分類されている傷病名を標準語として設定してもよい。識別コードは、マスタテーブルと辞書テーブルとを紐付けするために用いられ、レセプトファイル生成システムにおいて独自に設定したものを用いてもよい。また、医療業界に各種存在するコード体系における識別コードを、マスタテーブルと辞書テーブルの紐付け用の識別コードとして転用してもよい。
具体的に、傷病名「虫垂炎」を標準語と設定する場合、マスタテーブルは、「虫垂炎」を、その識別コードおよびその属性情報と対応付けて記憶する。属性情報は、虫垂炎のICD分類などの情報を含む。医薬品名や他の区分のマスタテーブルについても同様に、標準語、識別コードおよび属性情報とが対応付けられる。医薬品名の属性情報は、薬価(保険点数)を含む。マスタテーブルは、傷病名を標準化した傷病マスタテーブル、医薬品を標準化した医薬品マスタテーブルなど、複数の区分に対して作成されている。
辞書テーブルは、医療関係用語として標準語と同じ意味を表す同義語を、標準語の識別コードに対応付けることで生成される。同義語は、標準語以外の同義語(方言)を含み、また標準語自身を含んでもよい。具体的には、「虫垂炎」の識別コードに対して、「虫垂炎」、「盲腸」、「アッペ」を対応付けて記憶するのが辞書テーブルである。ここで、虫垂炎は標準語であり、盲腸、アッペは方言である。辞書テーブルは、マスタテーブルに対応して、傷病名を辞書化した傷病辞書テーブル、医薬品を辞書化した医薬品辞書テーブルなど、複数の区分に対して作成されている。
(11)マッチング処理
マッチング処理(S28)では、項目ごとに分解されたテキストデータと、読み出した辞書テーブルのデータとのマッチングをとる。テキストデータが辞書テーブルに登録されたデータと一致する場合、そのデータに対応付けられている識別コードを読み出し、続くレセプトファイル生成処理に引き渡す。
なお、虫垂炎を表現する盲腸、アッペ以外の別の名前がテキストデータとして記述されている場合、この新しい名前は辞書テーブルに登録されていないため、コンピュータは、その名前を虫垂炎の方言として認識できない。辞書テーブルに対応する名前が存在しない場合、その名前を不明データとして所定の格納領域に記憶し、その旨がオペレータに出力される。
(12)マスタテーブル、辞書テーブル更新
マスタテーブル、辞書テーブルの更新(S30)では、まず、オペレータが、不明データとして所定の格納領域に記憶された名前を確認する。この確認作業は、不明データが発生する度に行ってもよく、また複数の不明データがまとまった段階で行ってもよい。オペレータは、不明データが虫垂炎の新しい呼び名であることを判断すると、その呼び名を虫垂炎の方言として追加し、辞書テーブルを更新する。なお、新薬がでた場合、または新しい傷病が発生した場合、オペレータは、新たな医療関係用語に識別コードを設定して、マスタテーブルおよび辞書テーブルを更新する。
(13)一時辞書テーブル生成
一時辞書テーブル生成処理(S32)では、一時的に利用される辞書テーブルを生成する。テキストデータが誤記であったり、ある医療機関でのみ使用される特殊な表現であるような場合、オペレータは、そのテキストデータで示す文字列を、標準語の識別コードと対応付ける一時辞書テーブルを生成する。一時辞書テーブルは、例えば当月に限って利用される。
(14)レセプトファイル生成
レセプトファイル生成処理(S34)では、テキストデータ中の方言や特殊な表現を標準語に紐付けたレセプトファイルを生成する。具体的にレセプトファイルでは、テキストデータ中の表現に対して、マスタテーブルで使用する標準語の識別コードをリンクさせる。このレセプトファイルは、もとの紙レセプトに記入されていた内容をそのまま残し、含まれる方言や特殊な表現については、辞書テーブルを参照することで、標準語に対応付けて構成される。
(15)データ加工
データ加工処理(S36)では、生成したレセプトファイルをもとに、統計的な処理や、予測医学など、ユーザのニーズに合わせた様々な処理を実行する。これは、レセプトファイル中の医療関係用語が標準語に紐付けされていることで可能となり、標準語の識別コードをキーとして、様々なデータ加工が可能となる。また、各レセプトファイルは、患者個人にも紐付けされているため、患者の傷病履歴の把握や、予測医療が可能となる。S18〜S36のステップは、レセプトファイル生成システムにより実行される。
図2は、本発明の実施例におけるレセプト処理システム1を示す。レセプト処理システム1は、紙レセプトのイメージデータから文字を読み取ってテキストデータを生成するテキストデータ生成システム2と、テキストデータ生成システム2において生成されたテキストデータから方言などを標準語に紐付けしたレセプトファイルを生成するレセプトファイル生成システム3を備える。テキストデータ生成システム2は、図1における紙レセプトのイメージ化処理(S12)からパンチ処理(S16)までの処理ステップを実行する。また、レセプトファイル生成システム3は、論理チェック処理(S18)からデータ加工処理(S36)までの処理ステップを実行する。テキストデータ生成システム2およびレセプトファイル生成システム3は、同一の主体により管理、運営されてもよく、また別主体が提携することで共同運営されてもよい。
本実施例におけるレセプト処理システム1の機能は、テキストデータ生成システム2およびレセプトファイル生成システム3において、CPU、メモリ、メモリにロードされたプログラムなどによって実現される。プログラムは、テキストデータ生成システム2およびレセプトファイル生成システム3に内蔵されていてもよく、また記録媒体に格納された形態で外部から供給されるものであってもよい。したがってこれらの機能ブロックがハードウエアのみ、ソフトウエアのみ、またはそれらの組合せによっていろいろな形で実現できることは、当業者に理解されるところである。
図3は、テキストデータ生成システム2の構成を示す。テキストデータ生成システム2は、イメージデータ生成部10、OCR部12、入力部16、ディスプレイ18、ドライブ装置20および格納部22を備える。入力部16は、テキストデータ生成システム2の入力インタフェースであり、例えばキーボードや、マウスなどのポインティングデバイスなどにより構成される。入力部16は、例えばディスプレイ18に設けられるタッチパネルとして構成されてもよい。ドライブ装置20は、DVDやCDなどの記憶媒体30のデータ書込および/またはデータ読出を行う装置である。
イメージデータ生成部10はスキャナであり、紙レセプトを入力されて、紙レセプトのイメージデータ(レセプト画像)を生成する。イメージデータは、個人情報を記入された個人情報画像と、全画像から個人情報画像を除いた薬歴画像に分けられる。オペレータがディスプレイ18を見ながら、入力部16のポインティングデバイスを用いてレセプト画像の範囲指定をすることで、個人情報画像と薬歴画像とが分割されてもよい。
図4は、診療報酬明細書(レセプト)のイメージデータを示す。このレセプトは、医科レセプトの一例である。レセプト画像32は、一点鎖線33の上方にある個人情報画像34と、下方にある薬歴画像36とに分けられる。薬歴画像36には、医薬品、医療材料、診療行為などが記述された摘要欄38が存在する。
摘要欄38において、左端の数字は、診療区分コードを示し、アスタリスクは、同時処方であることを示す。1つのアスタリスクでブロック化される医薬品、医療材料、診療行為の一群は、同時処方された医薬品、医療材料、診療行為であることを意味し、保険点数に関して言えば、単純にそれぞれを加算した額となるのではなく、減額の対象となる。右端の数字は、回数を示し、その左にある「×」の左側の数字は、点数を示す。「点数×回数」により、そのブロックの保険点数が定まる。点数の左側にある文字列のうち、同時処方欄または診療区分コードに含まれない文字列は、医薬品名、医療材料名、診療行為名を示す。
図3に戻って、OCR部12は、まず個人情報画像34から光学的文字認識による文字の読み取りを行う。個人情報画像34の読み取り結果は暗号化され、薬歴画像36に対応付けられる。
次に、OCR部12は、薬歴画像36から光学的文字認識による文字の読み取りを行う。薬歴画像36のうち、摘要欄38は、使用した医薬品、診療行為などの保険点数を表記しており、支払金額に直接関係するところである。そのため、OCR部12は、精度よく摘要欄38を読み取れることが必要となる。
OCR部12において読み取られた薬歴画像36のテキストデータが、ディスプレイ18に表示され、オペレータ(パンチャ)は、表示されたテキストデータを修正する。OCR部12の文字認識率が高いほどオペレータの作業負担が軽くなり、紙レセプトのテキスト化にかかるコストを低くできる。
図5は、摘要欄38を文字認識して、項目ごとに分類して生成したデータファイルの表示例を示す。パンチャは、ディスプレイ18に表示されるデータファイルと、もとの摘要欄38の画像とを見比べながら、入力部16を操作して、データファイルのデータ修正を行う。図5には、文字認識がうまくできた例を示しているが、文字の誤認識がある場合は、パンチャが適宜修正していく。
パンチャによる修正が終了したデータファイルは、格納部22に格納される。ドライブ装置20は、レセプトのデータファイルを記憶媒体30に記録する。記憶媒体30は、レセプトファイル生成システム3に引き渡される。
図6は、OCR部の構成を示す。OCR部12は、レセプトのイメージデータから光学的文字認識によって文字を読み取る光学式文字読取装置として機能する。OCR部12は、文字割当部80、連続性検出部82、書式解析部84、所定文字検出部86、位置検出部88、文字データ格納部90、優先文字格納部92、用語格納部94および類似対応格納部96を備える。文字データ格納部90、優先文字格納部92、用語格納部94および類似対応格納部96は、格納部22における格納領域として構成されてもよく、またOCR部12に内蔵される格納部であってもよい。文字データ格納部90は、文字データおよびその文字の特徴データなどを格納し、優先文字格納部92は、文字割当部80に対して優先的に選択させる優先文字を格納する。用語格納部94は、医薬品、医療材料、診療行為などの医療関係用語を格納し、類似対応格納部96は、外見的に類似する文字の対応を格納する。
文字割当部80は、パターンマッチング法や構造解析法などの文字認識アルゴリズムを用いて、イメージデータの画像情報を解析し、その画像情報に対して文字データ格納部90に格納された文字データを割り当てる。本実施例のOCR処理の一つの方法として、まず文字割当部80が既存のアルゴリズムにより画像情報に対して文字データを割り当てた後、縦線ないしは横線を文字データとして誤認識した場合の調整を行う。本来、OCR処理では、縦線ないしは横線を無視して文字画像をテキスト化することが好ましいが、線分に近似した文字も存在するため、線を文字データと誤認識する可能性がある。以下では、文字割当部80が、レセプト画像32における摘要欄38の画像データを文字認識する例について説明する。
連続性検出部82は、文字割当部80により割り当てられた文字データの連続性を検出する。具体的に、連続性検出部82は、同一または外見的に類似する文字データが所定数以上連続して所定方向に並んでいるかを検出する。なお、ここでいう「同一または外見的に類似する文字データ」とは、本実施例において、縦方向または横方向に実質的に一本線で記載される文字データを意味する。数字の「1」とアルファベットの「l」(小文字のエル)とは、外見的に縦方向の一本線の文字として類似しており、また漢数字の「一」とハイフン「−」は、外見的に横方向の一本線の文字として類似している。類似対応格納部96は、数字「1」とアルファベット「l」とが類似関係にあること、および、漢数字「一」とハイフン「−」とが類似関係にあることを格納する。また、他の文字データ、例えば、アルファベットの「I」(大文字のアイ)なども、縦方向の一本線の文字として外見的に類似するグループに含めて格納してもよい。類似対応格納部96は、摘要欄38における線を処理するために文字データの類似関係を記憶している。すなわち、文字割当部80により縦線を縦線ではないものとして誤認識される可能性のある数字「1」とアルファベット「l」、横線を横線ではないものとして誤認識される可能性のある漢数字「一」とハイフン「−」とを対応付けて保持する。
図7(a)は、摘要欄38のイメージデータの一部を示す。文字列「*ルプラック錠4mg1錠 3×3」の左には、縦方向の破線101が記されており、また文字列の上下には、横方向の破線102、103が記されている。
文字割当部80は、縦方向の破線101を、数字「1」、アルファベット「l」または数字「1」とアルファベット「l」を組み合わせたものが縦方向に連続したものと誤認識する可能性がある。そのように認識した場合、連続性検出部82は、文字割当部80の割当結果を受けて、類似対応格納部96に記憶された類似グループおよび対応関係などをもとに、縦方向に「1」または「l」が連続して並んでいることを検出する。なお、数字「1」とアルファベット「l」とが交互に並んでいる場合であっても、類似対応格納部96に対応関係が格納されているため、連続性検出部82は、縦方向に一本線の同一または類似の文字が連続して並んでいることを検出する。
このとき、位置検出部88が、摘要欄38における文字データの一群の位置を検出し、その位置が右端でないことを確認する。例えば位置検出部88は、文字割当部80によりこの時点で割り当てられている「×」の位置を検出することで、文字データの一群の位置が右端であるか否かを判断してもよい。また単純に、摘要欄38の左右方向の座標位置から、文字データの位置を検出してもよい。右端、すなわち「×」の右側には「回数」を表現する数字が記入され、数字「1」が連続して縦方向に並ぶこともあり得る。右端において「1」が連続して並んでいる場合には、文字認識が適切に行われている可能性があるため、この確認処理が行われる。書式解析部84は、右端でない位置において、同一または類似の文字データが所定数以上、例えば5つ以上連続する文字データの一群を線として判断して、破線101を検出する。これにより、文字割当部80による数字「1」またはアルファベット「l」の割当ては無効とされ、破線101に対する誤認識を解消する。
以上により、文字割当部80において、OCR処理した文字割当の結果から、破線101を誤認識した結果である数字「1」またはアルファベット「l」は削除され、適切なテキスト化を行うことができる。なお、この削除は必ずしも必要な処理ではなく、例えば書式解析部84が、文字割当てしたデータが線を誤認識した結果であることを認識していれば足りる。この場合は、図3における記憶媒体30にテキストデータを記録する際に、誤認識された文字データを書き込まないようにする。
同様に、文字割当部80は、横方向の破線102、103を、漢数字「一」、ハイフン「−」または漢数字「一」とハイフン「−」を組み合わせたものが横方向に連続したものと誤認識する可能性がある。誤認識した場合、連続性検出部82は、文字割当部80の割当結果を受けて、横方向に、「一」または「−」が連続して並んでいることを検出する。なお、漢数字「一」とハイフン「−」とが交互に並んでいる場合であっても、類似対応格納部96に対応関係が格納されているため、連続性検出部82は、同一または類似の文字が連続して並んでいることを検出する。書式解析部84は、横方向においても、同一または類似の文字データが所定数以上、例えば5つ以上連続する文字データの一群を線として判断して、破線102、103を検出する。これにより、文字割当部80による漢数字「一」またはハイフン「−」の割当ては無効とされ、破線102、103に対する誤認識を解消する。これにより、OCR処理した文字割当の結果から、破線102、103を誤認識した結果である漢数字「一」またはハイフン「−」は削除され、適切なテキスト化を行うことができる。なお、破線101について説明したように、この削除は必ずしも必要な処理ではなく、書式解析部84が文字割当てしたデータがもとは線であることを認識していればよい。
なお、横線の破線102、103を「−」と誤認識する場合を説明したが、レセプトコンピュータによっては、破線102、103自体を、ハイフンで記述するものもある。この場合、文字割当部80における文字割当ては適切に行われていることになるが、線のデータは、後のレセプトファイル生成システム3における処理に対して本来不要なものである。そのため、本実施例におけるレセプトのOCR処理においては、書式解析部84が横方向に連続して存在するハイフンの一群を線として判断すると、その時点で文字割当部80に対して文字割当てしたハイフンを削除するように指示してもよく、また、図3に示す記憶媒体30へのテキストデータの記録時に、線として判断した文字データの一群の書き込みを不許可としてもよい。
図7(b)は、破線102が文字列にかかった状態を示す。例えば、印刷フォーマットに対してデータを打ち込んでレセプトを作成した場合に、印刷位置がずれることで、このような状況が発生する。この場合も同様であり、書式解析部84が破線102を検出することで、文字割当部80は、線として判断された文字データの一群を除いた状態で、摘要欄38の画像情報を文字データに割り当てる。すなわち、破線102が重なった文字列から破線102を無視することで、文字割当部80は、高精度な文字認識を実現できるようになる。
本実施例のOCR処理の別の方法として、文字割当部80は、優先文字格納部92に格納された文字を選択することで、文字認識率を高めることができる。OCR部12において、上記した線の検出処理および優先文字を利用した処理を同時に実施することで、文字認識率を大幅に向上させることができる。
優先文字格納部92の使用方法には様々なものが考えられ、文字割当部80は、優先文字の範囲内で文字認識を行うようにしてもよく、また文字認識を行った結果、画像情報に対して候補となる文字が複数存在する場合に、優先文字格納部92に格納された優先文字を選択してもよい。前者の場合、優先文字格納部92は、過去実行した文字割当処理において使用した文字データを全て格納しておき、これらの文字データを優先文字として、使用する文字の範囲の絞り込みを行うために利用されてもよい。過去に使用されていない事実から、今後も使用されないだろうという予測に基づくものであり、優先文字として登録されていない文字を割り当てることはできないが、その後、オペレータにより新たな文字が登録されることで、その文字を優先文字として追加することが可能となる。後者の場合、例えば、医療関係用語の種類によって使用する文字の絞り込みをある程度行うことができるケースに有効であり、優先文字として登録しておくことで、複数候補からの選択の確実性を上げることが可能となる。
図7(a)を参照して、摘要欄38の右端から2番目の文字に「×」が存在する。摘要欄38は保険点数を記すものであり、したがって、摘要欄38の右側には、常に「点数×回数」の計算式が記される。点数および回数は、数字以外のものは入らず、それ以外の文字を認識した場合には誤認識である。
所定文字検出部86は、文字割当部80により割り当てられた文字データを受け取り、文字「×」を探索して検出する。優先文字格納部92は、文字「×」に対応付けて、優先文字を格納しておく。ここで、優先文字は、文字データそのものだけでなく、文字の種類も含む。文字「×」の左右の文字に数字を優先文字として格納しておくことで、文字割当部80は、「×」の左右の文字を誤認識していた場合には、再度、文字認識を行い、数字の中から文字データを選択することができる。
これは、文字割当てを一度行った後、「×」の左右の文字をチェックする例であるが、例えば、文字割当処理の実行中、「×」の次の文字、すなわち「×」の右側の文字を文字認識する際に、文字割当部80が、優先文字格納部92を参照してもよい。これにより、「×」の右側には常に数字から選択されることになり、文字認識率を高めることが可能となる。
前述したように、位置検出部88は、処理しようとするイメージデータの摘要欄38における位置を検出する機能をもつ。つまり、摘要欄38において左端側なのか右端側なのか、または中心であるのかなどの位置を検出する。この位置検出は、文字割当処理の前であれば、摘要欄38の範囲を認識して、その摘要欄38の左右方向ないしは前後方向の座標位置を用いて実行することが可能である。なお、文字割当処理を一回行った後であれば、摘要欄38においてキーとなる文字、例えば「×」や「*」を利用して、相対的な位置を検出することも可能となる。例えば、図7に示すように、「×」は摘要欄38の右端近傍、「*」は左端近傍に存在している。この位置関係を利用して、位置検出部88は、摘要欄38におけるイメージデータの位置を検出してもよい。
優先文字格納部92は、イメージデータの位置に対応付けて優先文字を格納してもよい。具体的に、優先文字格納部92は、摘要欄38において診療区分コードが記入される位置、点数が記入される位置、回数が記入される位置に対応付けて、優先文字として数字を格納する。また、優先文字格納部92は、同時処方欄の位置に対応付けて、*(アスタリスク)を優先文字として格納する。位置検出部88が、文字割当部80で認識する画像情報が、診療区分コード、点数、回数に該当する位置にあることを検出すると、文字割当部80は、検出された位置情報から優先文字格納部92を参照し、数字を優先して文字認識する。また、位置検出部88が、文字割当部80で認識する画像情報が同時処方欄の位置にあることを検出すると、文字割当部80が*を優先して文字認識する。
以上の優先文字を利用した処理は、文字割当部80による文字認識中に同時に実行されてもよく、文字割当部80において画像情報に対して候補となる文字が複数存在する場合に、1つの文字を選択させるために行われてもよい。また、文字割当部80が文字認識を行った後のチェック機能として行われてもよい。
また、文字割当部80は、文字認識した文字列を、用語格納部94に格納された医療関係用語を用いて決定してもよい。文字割当部80は、文字列が用語格納部94に格納された医療関係用語と一致する場合には、認識した文字列を確定する。また、類似している場合も、認識した文字列を、類似する用語に置き換えて、文字列を確定する。類似している場合とは、文字列の半分以上の文字が一致しているような場合である。このようなマッチング処理を行うことで、文字認識率を飛躍的に高めることが可能となる。
このとき、用語格納部94は、それぞれの医療関係用語に対応付けて、他の医療関係用語との関連性を格納してもよい。例えば、用語格納部94は、医薬品名を、その医薬品を使用する検査名または治療名に対応付けて格納しておく。まず、文字割当部80は、摘要欄38において既に文字認識した文字列が用語格納部94に格納されている医療関係用語であることを認識する。続いて、文字割当部80が、既に認識済みの医療関係用語と対応付けられた医療関係用語と、現在認識中の文字列とを比較する。このとき、上記のように、一致していればその文字列を確定し、一致していなくても、類似している場合には、その医療関係用語に置き換えて、文字列を確定する。具体的には、既に所定の検査名を認識しており、現在、認識中の文字列がその検査において使用される医薬品名に類似していれば、文字列を、その類似の医薬品名であると判断して、文字列を確定する。これにより、レセプトにおける医療関係用語の関連性を利用した文字認識を実現することが可能となる。
以上、本発明を実施例をもとに説明した。これらの実施例は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。OCR処理では、上記した複数の手法を組み合わせることで、レセプトのイメージデータの文字認識率を高くすることが可能となる。
実施例におけるレセプト処理フローを示す図である。 実施例におけるレセプト処理システムを示す図である。 テキストデータ生成システムの構成を示す図である。 診療報酬明細書(レセプト)のイメージデータを示す図である。 摘要欄を文字認識して、項目ごとに分類して生成したデータファイルの表示例を示す図である。 OCR部の構成を示す図である。 (a)は、摘要欄のイメージデータの一部の例を示す図であり、(b)は、摘要欄のイメージデータの一部の別の例を示す図である。
符号の説明
1・・・レセプト処理システム、2・・・テキストデータ生成システム、3・・・レセプトファイル生成システム、10・・・イメージデータ生成部、12・・・OCR部、14・・・論理チェック部、16・・・入力部、18・・・ディスプレイ、20・・・ドライブ装置、22・・・格納部、30・・・記憶媒体、32・・・レセプト画像、34・・・個人情報画像、36・・・薬歴画像、38・・・摘要欄、80・・・文字割当部、82・・・連続性検出部、84・・・書式解析部、86・・・所定文字検出部、88・・・位置検出部、90・・・文字データ格納部、92・・・優先文字格納部、94・・・用語格納部、96・・・類似対応格納部。

Claims (6)

  1. レセプトのイメージデータから光学的文字認識によって文字を読み取る光学式文字読取装置であって、
    イメージデータの画像情報に対して文字データを割り当てる文字割当部と、
    前記文字割当部により割り当てられた文字データの連続性を検出する連続性検出部と、
    前記連続性検出部により、同一または外見的に類似する文字データが所定数以上連続して所定方向に並ぶ場合に、連続した文字データの一群を線として判断する書式解析部と、
    を備えることを特徴とする光学式文字読取装置。
  2. 前記文字割当部は、前記書式解析部により線として判断された文字データの一群を除いた状態で、イメージデータの画像情報を文字データに割り当てることを特徴とする請求項1に記載の光学式文字読取装置。
  3. レセプトのイメージデータから光学的文字認識によって文字を読み取る光学式文字読取装置であって、
    イメージデータの画像情報に対して文字データを割り当てる文字割当部と、
    優先的に選択させる優先文字を格納する優先文字格納部を備え、
    前記文字割当部は、前記優先文字格納部に格納された優先文字を選択することを特徴とする光学式文字読取装置。
  4. 前記文字割当部は、画像情報に対して候補となる文字が複数存在する場合に、前記優先文字格納部に格納された優先文字を選択することを特徴とする請求項3に記載の光学式文字読取装置。
  5. 前記文字割当部により割り当てられた所定の文字データを検出する所定文字検出部をさらに備え、
    前記優先文字格納部は、所定の文字データに対応付けて、優先文字を格納することを特徴とする請求項3または4に記載の光学式文字読取装置。
  6. 前記イメージデータの位置を検出する位置検出部をさらに備え、
    前記優先文字格納部は、イメージデータの位置に対応付けて、優先文字を格納することを特徴とする請求項3または4に記載の光学式文字読取装置。
JP2004259901A 2004-09-07 2004-09-07 光学式文字読取装置 Pending JP2006079190A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004259901A JP2006079190A (ja) 2004-09-07 2004-09-07 光学式文字読取装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004259901A JP2006079190A (ja) 2004-09-07 2004-09-07 光学式文字読取装置

Publications (1)

Publication Number Publication Date
JP2006079190A true JP2006079190A (ja) 2006-03-23

Family

ID=36158626

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004259901A Pending JP2006079190A (ja) 2004-09-07 2004-09-07 光学式文字読取装置

Country Status (1)

Country Link
JP (1) JP2006079190A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015201077A (ja) * 2014-04-09 2015-11-12 コニカミノルタ株式会社 画像処理装置、画像処理方法、および画像処理プログラム
WO2019194026A1 (ja) 2018-04-02 2019-10-10 日本電気株式会社 画像処理装置、画像処理方法、およびプログラムを記憶する記憶媒体
JP2020144636A (ja) * 2019-03-07 2020-09-10 セイコーエプソン株式会社 情報処理装置、学習装置及び学習済モデル
CN111914746A (zh) * 2020-07-31 2020-11-10 安徽华速达电子科技有限公司 一种缓解人脸识别设备负荷的方法及系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015201077A (ja) * 2014-04-09 2015-11-12 コニカミノルタ株式会社 画像処理装置、画像処理方法、および画像処理プログラム
WO2019194026A1 (ja) 2018-04-02 2019-10-10 日本電気株式会社 画像処理装置、画像処理方法、およびプログラムを記憶する記憶媒体
US11514700B2 (en) 2018-04-02 2022-11-29 Nec Corporation Image-processing device, image-processing method, and storage medium on which program is stored
JP2020144636A (ja) * 2019-03-07 2020-09-10 セイコーエプソン株式会社 情報処理装置、学習装置及び学習済モデル
JP7077998B2 (ja) 2019-03-07 2022-05-31 セイコーエプソン株式会社 情報処理装置
CN111914746A (zh) * 2020-07-31 2020-11-10 安徽华速达电子科技有限公司 一种缓解人脸识别设备负荷的方法及系统
CN111914746B (zh) * 2020-07-31 2024-05-03 安徽华速达电子科技有限公司 一种缓解人脸识别设备负荷的方法及系统

Similar Documents

Publication Publication Date Title
US20220020495A1 (en) Methods and apparatus for providing guidance to medical professionals
US20120065997A1 (en) Automatic Processing of Handwritten Physician Orders
KR102249739B1 (ko) 필기 인식 툴
US20140365239A1 (en) Methods and apparatus for facilitating guideline compliance
KR20070120152A (ko) 의료 데이터 분석 시스템 및 방법
WO2015187481A1 (en) Medical coding system with cdi clarification request notification
JP2006260318A (ja) 読影レポート入力支援方法及び読影レポート入力支援システム
JP4955197B2 (ja) レセプトファイル生成システム
JP2019040467A (ja) 画像処理装置およびその制御方法
WO2014197669A1 (en) Methods and apparatus for providing guidance to medical professionals
JP2016071898A (ja) 帳票認識装置、帳票認識システム、帳票認識システムのプログラム、帳票認識システムの制御方法、帳票認識システムプログラムを搭載した記録媒体
Dietrich et al. Adverse events in twitter-development of a benchmark reference dataset: results from IMI WEB-RADR
Soeny et al. Attended robotic process automation of prescriptions’ digitization
JP5112457B2 (ja) 処方チェック装置、及び、処方チェック方法
JP2006079190A (ja) 光学式文字読取装置
Nair et al. Automated clinical concept-value pair extraction from discharge summary of pituitary adenoma patients
JP4087873B2 (ja) 電子カルテシステム
CN113517050B (zh) 确定药方单的方法、装置、电子设备及存储介质
JP2008181509A (ja) デジタルペンを用いた医療情報の収集及び管理システム
JP3950118B2 (ja) レセプト審査装置及びその制御方法、コンピュータプログラム
Butala et al. Natural language parser for physician’s handwritten prescription
McInerney et al. That’s the Wrong Lung! Evaluating and Improving the Interpretability of Unsupervised Multimodal Encoders for Medical Data
Cruz et al. Towards an On-line Handwriting Recognition Interface for Health Service Providers using Electronic Medical Records.
Coelho et al. Automated Identification of Fall-Related Injuries in Unstructured Clinical Notes
JP7453707B2 (ja) 個人情報匿名化システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060612

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090414

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090804