JP2014099114A - 判定プログラム、判定方法及び判定装置 - Google Patents

判定プログラム、判定方法及び判定装置 Download PDF

Info

Publication number
JP2014099114A
JP2014099114A JP2012251667A JP2012251667A JP2014099114A JP 2014099114 A JP2014099114 A JP 2014099114A JP 2012251667 A JP2012251667 A JP 2012251667A JP 2012251667 A JP2012251667 A JP 2012251667A JP 2014099114 A JP2014099114 A JP 2014099114A
Authority
JP
Japan
Prior art keywords
character recognition
display medium
display
predetermined position
read
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012251667A
Other languages
English (en)
Other versions
JP5962449B2 (ja
Inventor
Takeshi Taito
毅 帯刀
鉄平 ▲角▼本
Teppei Kakumoto
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2012251667A priority Critical patent/JP5962449B2/ja
Publication of JP2014099114A publication Critical patent/JP2014099114A/ja
Application granted granted Critical
Publication of JP5962449B2 publication Critical patent/JP5962449B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】電子文書の分類を効果的に支援すること。
【解決手段】クライアント端末30は、複数の表示媒体のそれぞれに表示された表示内容を読み込み、読み込んだ各表示内容について文字認識処理を行う。さらに、クライアント端末30は、複数の表示媒体のうち、連続的に読み込まれていない関係にある第1の表示媒体と第2の表示媒体のそれぞれに共通する所定の位置に対応する文字認識処理の結果が、第1の整合率以上である場合に、該所定の位置に対応する文字認識結果が同じ識別情報を示すと判定する。また、クライアント端末30は、複数の表示媒体のうち、連続的に読み込まれた関係にある第3の表示媒体と第4の表示媒体のそれぞれに共通する所定の位置に対応する文字認識処理の結果が、第1の整合率より低い第2の整合率以上である場合に、該所定の位置に対応する文字認識結果が同じ識別情報を示すと判定する。
【選択図】図2

Description

本発明は、判定プログラム、判定方法及び判定装置に関する。
紙文書の電子化が進んでいる。例えば、医療分野においては、電子カルテシステムの導入が進んでいる。電子カルテシステムが新規に導入された場合には、一例として、導入前に業務で生じていた紙文書をスキャンすることによって紙文書が画像データへ電子化される。このように紙文書が電子化された電子文書は、電子カルテシステム上で病院の関係者が手軽に閲覧できるように、患者名、文書名や診療科などのインデックスによって分類がなされる場合がある。
かかる電子文書の分類を支援する技術の一例として、スキャンが実行される紙文書のインデックス情報、例えば患者名、文書名や診療科を表すバーコードが印字された紙を紙文書とともにスキャンすることによって電子文書の分類を自動化する技術が知られている。
特開2009−11874号公報 特開2007−87021号公報
しかしながら、上記の技術では、紙文書がスキャンされる度にバーコードを作成した上で印字する手間や余分な紙が生じるので、電子文書の分類を効果的に支援するには自ずから限界がある。
1つの側面では、電子文書の分類を効果的に支援できる判定プログラム、判定方法及び判定装置を提供することを目的とする。
一態様の判定プログラムは、複数の表示媒体のそれぞれに表示された表示内容を読み込み、読み込んだ各表示内容について文字認識処理を行う処理をコンピュータに実行させる。さらに、前記コンピュータに、前記複数の表示媒体のうち、連続的に読み込まれていない関係にある第1の表示媒体と第2の表示媒体のそれぞれに共通する所定の位置に対応する文字認識処理の結果が、第1の整合率以上である場合に、該所定の位置に対応する文字認識結果が同じ識別情報を示すと判定する処理を実行させる。さらに、前記コンピュータに、前記複数の表示媒体のうち、連続的に読み込まれた関係にある第3の表示媒体と第4の表示媒体のそれぞれに共通する所定の位置に対応する文字認識処理の結果が、第1の整合率より低い第2の整合率以上である場合に、該所定の位置に対応する文字認識結果が同じ識別情報を示すと判定する処理を実行させる。
一実施形態によれば、電子文書の分類を効果的に支援できる。
図1は、実施例1に係る電子カルテシステムの構成を示す図である。 図2は、実施例1に係るクライアント端末の機能的構成を示すブロック図である。 図3は、キーワードデータの一例を示す図である。 図4は、文書管理マスタの一例を示す図である。 図5は、識別情報の抽出例を示す図である。 図6は、実施例1に係る読込処理の手順を示すフローチャートである。 図7は、実施例1に係る判定処理の手順を示すフローチャートである。 図8は、実施例1及び実施例2に係る判定プログラムを実行するコンピュータの一例について説明するための図である。
以下に添付図面を参照して本願に係る判定プログラム、判定方法及び判定装置について説明する。なお、この実施例は開示の技術を限定するものではない。そして、各実施例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
[システム構成]
図1は、実施例1に係る電子カルテシステムの構成を示す図である。図1に示す電子カルテシステム1では、クライアント端末30A〜30C上で電子カルテの作成、編集および閲覧を実行させる電子カルテサービスがサーバ装置10によって提供される。このように、電子カルテシステム1では、導入後に作成された電子カルテをサーバ装置10に管理させる他、導入前には書類、書状や書籍等を表示媒体で管理していた病院の文書が電子化された電子文書についてもサーバ装置10に管理させる。
図1に示すように、電子カルテシステム1には、サーバ装置10と、クライアント端末30A、30B及び30Cとが収容される。以下では、クライアント端末30A〜30Cの各端末を総称して「クライアント端末30」と記載する場合がある。なお、図1の例では、3つのクライアント端末を図示したが、電子カルテシステム1が収容可能なクライアント端末の数は図示の数に限定されず、任意の数のクライアント端末を収容できる。
これらサーバ装置10及びクライアント端末30の間は、ネットワーク5を介して相互に通信可能に接続される。かかるネットワーク5の一例としては、有線または無線を問わず、インターネット(Internet)を始め、LAN(Local Area Network)やVPN(Virtual Private Network)などの任意の通信網を採用できる。
クライアント端末30は、上記の電子カルテサービスを利用する側のコンピュータである。例えば、クライアント端末30は、電子カルテシステム1へのアカウントを持つ病院の関係者、例えば医師、看護師を始め、大学病院であれば講師、准教授や教授等によって使用される。かかるクライアント端末30の一例としては、パーソナルコンピュータを始めとする固定端末の他、スマートフォン、携帯電話機、PHS(Personal Handyphone System)やPDA(Personal Digital Assistants)などの携帯端末も採用できる。
サーバ装置10は、上記の電子カルテサービスを提供する側のコンピュータである。かかるサーバ装置10の一態様としては、パッケージソフトウェアやオンラインソフトウェアとして電子カルテサービスを提供する電子カルテプログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、サーバ装置10は、上記の電子カルテサービスを提供するWebサーバとして実装することとしてもよいし、アウトソーシングによって上記の電子カルテサービスを提供するクラウドとして実装することとしてもかまわない。
ここで、病院の紙文書は、例えば、図示しない病院の保管庫等に保管される。例えば、電子カルテシステム1が導入前である場合には、医師が患者から受け取った紹介状、診察内容が記入されたカルテ、検査や手術の同意書などの各種の紙文書がクリアファイル等の包袋で纏められて患者単位に保管される。このうち、紹介状や同意書などの紙文書は、院外の医師の署名や患者の署名が書面に記入されるので、一旦は、電子カルテシステム1の導入後であっても保管庫に保管される。このため、電子カルテシステム1が導入された後であっても紙文書は生じ、電子文書を分類する場面が発生する。上記の紙文書のように、診察室で外来の診察時に発生する紙文書の他、入院時や検査時に発生する紙文書についても、患者単位に包袋で纏めて管理される。
かかる保管庫で保管された病院の紙文書は、例えば、クライアント端末30によって電子化される。例えば、クライアント端末30は、複数の紙をスキャナに読み込ませることによって各々の紙文書のイメージデータを順次取得する。このとき、スキャナは、複数の表示媒体に含まれる各々の表示媒体に表示された表示内容を表示媒体がセットされた順に読み込むことによって表示媒体ごとのイメージデータを生成する。その後、クライアント端末30は、表示媒体である紙文書のイメージデータに含まれる文字を認識した上で文字コードに変換する文字認識処理、いわゆるOCR(Optical Character Reader)処理を実行する。このようにOCR処理が実行されることによって、紙文書に含まれる文字のテキストデータが得られる。その上で、クライアント端末30は、表示媒体である紙文書に含まれる文字認識結果を用いて、イメージデータ及びテキストデータを含む電子文書を分類するインデックスを抽出した上で各電子文書のインデックスとともにイメージデータ及びテキストデータをサーバ装置10へアップロードする。
なお、本実施例では、電子文書を患者単位別に分類する場合を想定して以下の説明を行う。また、本実施例では、テキストデータの生成をクライアント端末30に実行させる場合を例示するが、サーバ装置10でテキストデータの生成を実行させることとしてもかまわない。また、本実施例では、クライアント端末30が有するスキャナによって紙文書のイメージデータを読み取る場合を例示したが、スキャナをサーバ装置10に接続することによってサーバ装置10側でイメージデータを生成させることもできる。
[クライアント端末30の構成]
続いて、本実施例に係るクライアント端末30の機能的構成について説明する。図2は、実施例1に係るクライアント端末30の機能的構成を示すブロック図である。図2に示すように、クライアント端末30は、スキャナ31と、通信I/F(interface)部32と、記憶部33と、制御部35とを有する。なお、クライアント端末30は、図2に示した機能部以外にも既知のコンピュータが有する各種の機能部、例えば各種の入出力デバイスなどを有することとしてもかまわない。
スキャナ31は、表示媒体から表示媒体に表示された表示内容を読み込んで画像データへ変換する読込装置である。一態様としては、スキャナ31は、読込対象とする紙などの表示媒体に光を照射して得られた反射光をCCD(Charge Coupled Devices)などで読み取ってデジタル信号の画像データに変換する。なお、スキャナ31の一例としては、原稿である表示媒体を固定して読込装置を動かすタイプのものを採用することもできるし、また、原稿である表示媒体を固定して手動で動かすタイプのものを採用することもできる。
通信I/F部32は、他の装置、例えばサーバ装置10や他のクライアント端末30との間で通信制御を行うインタフェースである。かかる通信I/F部32の一態様としては、LANカードなどのネットワークインタフェースカードを採用できる。例えば、通信I/F部32は、イメージデータ及びテキストデータを含む電子文書をサーバ装置10へ送信したり、あるいはサーバ装置10から閲覧対象とする電子カルテや電子文書を受信したりする。
記憶部33は、制御部35で実行されるOS(Operating System)や後述の判定プログラムなどの各種プログラムを記憶する記憶デバイスである。記憶部33の一態様としては、フラッシュメモリなどの半導体メモリ素子、ハードディスク、光ディスクなどの記憶装置が挙げられる。また、記憶部33は、上記の種類の記憶装置に限定されるものではなく、RAM(Random Access Memory)、ROM(Read Only Memory)であってもよい。
記憶部33は、制御部35で実行される各種のプログラムに用いられるデータの一例として、イメージデータ33a、テキストデータ33b、キーワードデータ33c及び文書管理マスタ33dなどを記憶する。なお、図2に図示されたデータ以外にも、他の電子データ、例えばスキャナ31における読取画像の解像度の設定やOCR処理に用いる文字認識のアルゴリズムの設定なども併せて記憶することもできる。
イメージデータ33aは、紙文書が電子化された画像データである。かかるイメージデータ33aの一態様としては、スキャナ31によって複数の紙が読み込まれた場合に、各紙文書の画像が所定のファイル形式で登録される。例えば、イメージデータ33aのファイル形式には、TIFF(Tagged Image File Format)、JPEG(Joint Photographic Experts Group)、GIF(Graphic Interchange Format)やPDF(Portable Document Format)などの任意のファイル形式を採用できる。
テキストデータ33bは、紙文書のイメージデータがテキスト化されたデータである。かかるテキストデータ33bは、スキャナ31によって各紙文書ごとに生成されたイメージデータに含まれる文字がOCR処理によってテキストデータへ変換された後に表示媒体ごと、すなわちページ単位ごとに登録される。
キーワードデータ33cは、電子文書を分類するインデックスを抽出するためのキーワードが定義されたデータである。かかるキーワードは、電子文書の閲覧時にインデックスとして用いられる識別情報の近傍に位置する属性情報が定義される。キーワードデータ33cの一態様としては、キーワードID(identifier)及びキーワードなどの項目が対応付けられたデータを採用できる。図3は、キーワードデータ33cの一例を示す図である。図3には、一例として、患者の名称を表す文字列を識別情報(属性値)として得るために、患者の名称の記入を促す属性情報に関する各種のキーワードが図示されている。図3に示すように、患者の名称を表す文字列を識別情報として抽出する場合には、患者の名称の記入を促す属性情報の各種の表記「患者氏名」、「患者名」や「入院患者名」などのキーワードが検索されることを意味する。なお、ここでは、患者の名称を表す文字列を識別情報として抽出する場合を例示したが、文書名や診療科を表す文字列を抽出する場合には、同様に、文書名または診療科の記入を促す属性情報の各種の表記がキーワードとして用いられる。
文書管理マスタ33dは、紙文書が電子化された電子文書を管理するために用いられるマスタデータである。かかる文書管理マスタ33dの一態様としては、レコード番号、画像ID、テキストID及び属性情報などの項目が対応付けられたデータを採用できる。ここで言う「レコード番号」とは、文書管理マスタ33dが持つレコードを識別する識別情報の一態様であり、ここでは、例えば、シーケンシャルな連番によって表される。また、「画像ID」は、イメージデータを識別する識別情報を指し、また、「テキストID」は、テキストデータを識別する識別情報を指す。また、「属性情報」は、電子文書の閲覧時にインデックスとして用いられる識別情報の近傍に位置する属性情報を指す。
図4は、文書管理マスタ33dの一例を示す図である。図4には、スキャナ31によって5枚の紙が読み込まれた場合の文書管理マスタ33dを例示している。図4に示すように、1番目に読み込まれた紙文書の画像IDが「G001」であり、テキストIDが「T001」であり、図3に示したキーワードと相対する所定の位置、例えばキーワードの右隣の位置から患者名の属性値「吉田太郎」が抽出されたことを意味する。また、図4に示すように、2番目に読み込まれた紙文書の画像IDが「G002」であり、テキストIDが「T002」であり、図3に示したキーワードの右隣の位置から患者名の属性値「吉×太郎」が抽出されたことを意味する。さらに、図4に示すように、3番目に読み込まれた紙文書の画像IDが「G003」であり、テキストIDが「T003」であり、キーワードの右隣の位置から患者名の属性値「吉田太×」が抽出されたことを意味する。
制御部35は、各種の処理手順を規定したプログラムや制御データを格納するための内部メモリを有し、これらによって種々の処理を実行する。制御部35は、図2に示すように、文字認識部35aと、判定部35bと、出力部35cとを有する。
文字認識部35aは、OCRソフトウェアを実行する処理部である。一態様としては、文字認識部35aは、スキャナ31によって紙文書が読み込まれてイメージデータ生成される度に、当該紙文書のイメージデータに対し、当該イメージデータに含まれる文字を認識した上で文字コードに変換するOCR処理を実行する。このようにOCR処理が実行されることによって、表示媒体である紙文書に含まれる文字のテキストデータが得られる。その後、文字認識部35aは、イメージデータに画像IDを採番するとともに、テキストデータにテキストIDを採番する。その上で、文字認識部35aは、イメージデータ及びテキストデータを記憶部33へ登録する。なお、ここでは、イメージデータに含まれる文字をテキストファイルへ変換する場合を例示したが、HTMLファイル、XMLファイルやRTF(Rich Text Format)ファイルへ変換することとしてもよい。
判定部35bは、各紙文書間で共通する所定の位置に対応する文字認識結果を用いて、当該文字認識結果が同じ識別情報を示すか否かを判定する処理部である。一態様としては、判定部35bは、文字認識部35aによってテキストデータが生成される度に、当該テキストデータからキーワードデータ33cに定義されたキーワードと一致する文字列を検索する。このとき、判定部35bは、キーワードと一致する文字列が検索された場合には、当該キーワードと一致する文字列から所定の位置、例えばキーワードの右隣の位置に対応する患者名の文字認識結果を抽出する。その上で、判定部35bは、文書管理マスタ33dのレコード番号、画像ID及びテキストIDとともに、属性情報の属性値として患者名の文字認識結果を対応付けて文書管理マスタ33dへ登録する。その後、判定部35bは、スキャナ31によって全ての紙文書が読み取られるまで、患者名の文字認識結果を抽出して文書管理マスタ33dへ登録する処理を繰り返し実行する。
図5は、識別情報の抽出例を示す図である。図5には、図4に示したレコード番号1およびレコード番号2の識別情報が抽出される場合を図示している。図5に示すように、紙文書のイメージデータ51AにOCR処理が実行された場合には、テキストデータ52Aが得られる。その後、テキストデータ52Aから図3に示したキーワード「患者氏名」、「患者名」や「入院患者名」などが検索される。この結果、テキストデータ52Aからは、「患者氏名」が検索される。この場合には、キーワード「患者氏名」の右隣に位置する文字認識結果「吉田太郎」が抽出される。また、紙文書51BにOCR処理が実行された場合には、テキストデータ52Bが得られる。その後、テキストデータ52Bから図3に示したキーワード「患者氏名」、「患者名」や「入院患者名」などが検索される。この結果、テキストデータ52Bからは、「患者氏名」が検索される。この場合には、キーワード「患者氏名」の右隣に位置する文字認識結果「吉×太郎」が抽出される。このように、紙文書が横書きの文書である場合には、患者の名称の記入を促す属性情報から見て右側や下側に患者の名称が並べて記入されることが多い。このため、テキスト化がなされた後には、キーワードに対応する文字列の右側に続けて識別情報の文字列が発現する可能性が高い。このことから、紙文書が横書きの文書である場合には、キーワードに対応する文字列の右側の文字認識結果が抽出される。
全ての紙文書を対象に患者名の文字認識結果を抽出して文書管理マスタ33dへ登録した後に、判定部35bは、連続的に読み込まれた関係にある紙文書の間でテキストデータに含まれるキーワードの右隣の文字認識結果が同一の識別情報を示すか否かを判定する。このとき、判定部35bは、連続的に読み込まれた関係にある紙文書の間で文字認識結果の整合率を算出する。例えば、判定部35bは、患者の名称を構成する文字列のうち文字列を構成する互いの文字が一致する割合を整合率として算出する。図5の例で言えば、テキストデータ52Aから抽出された文字認識結果「吉田太郎」と、テキストデータ52Bから抽出された文字認識結果「吉×太郎」との間では、「吉」、「太」及び「郎」の3文字の認識結果が一致する。このため、整合率は、「3÷4×100=75%」と算出される。
その上で、判定部35bは、連続的に読み込まれていない関係にある第1の表示媒体および第2の表示媒体の間でテキストデータに含まれるキーワードの右隣の文字認識結果が同じ識別情報を示すと判定するのに用いる第1の整合率より低い第2の整合率を先に算出された整合率と比較する。例えば、連続的に読み込まれた関係にある表示媒体のうち後で読み込まれた表示媒体のテキストデータからキーワードの右隣の文字認識結果が抽出できなかった場合などには、文字認識結果が得られた表示媒体まで比較対象とする表示媒体がとばされる場合がある。この場合には、連続的に読み込まれていない関係にある第1の表示媒体および第2の表示媒体の間でテキストデータに含まれるキーワードの右隣の文字認識結果が同じ識別情報を示すか否かが判定されることなる。かかる場合には、上記の第1の整合率が閾値として用いられることになる。
このように、第1の整合率よりも第2の整合率の値を低くするのは、連続的に読み込まれた関係にある第3の表示媒体および第4の表示媒体の間で患者の名称が類似する場合には、連続的に読み込まれていない関係にある第1の表示媒体および第2の表示媒体の間で患者の名称が類似する場合よりも、2つの表示媒体が同一の患者に関する紙文書である可能性が高いからである。なぜなら、病院の保管庫等で管理される紙文書等の表示媒体は、包袋によって患者単位で保管されており、各表示媒体が患者単位で重ねられた状態でスキャナ31へセットされる可能性が高いからである。なお、本実施例では、第1の整合率が90%であり、第2の整合率が70%である場合を想定して以下の説明を行う。
図5の例で言えば、テキストデータ52Aから抽出された文字認識結果「吉田太郎」と、テキストデータ52Bから抽出された文字認識結果「吉×太郎」との整合率「75%」が第2の整合率以上である。このため、テキストデータ52Aから抽出された文字認識結果「吉田太郎」と、テキストデータ52Bから抽出された文字認識結果「吉×太郎」とは、同じ識別情報を示すと同定する。その上で、判定部35bは、先に読み込まれていた紙文書のテキストデータ52Aから抽出された文字認識結果「吉田太郎」を、後に読み込まれた紙文書のテキストデータ52Bから抽出された文字認識結果へ上書きする。この結果、図4に示したレコード番号2の属性情報の属性値が「吉田太郎」と更新されることになる。すると、レコード番号2及びレコード番号3の間で文字認識結果の整合率が算出された場合にも、「吉」、「田」及び「太」の3文字の認識結果が一致する結果、第2の整合率「70%」以上の整合率「3÷4×100=75%」が算出される。このため、先に読み込まれていたレコード番号2の文字認識結果「吉田太郎」が、後に読み込まれたレコード番号3の文字認識結果へ上書きされる。このように、連続的に読み込まれた関係にある表示媒体のうち一方の表示媒体でキーワードに対応する位置の文字認識に誤認識等が発生した場合でも、他方の表示媒体の文字認識結果で補間して同じ識別情報を示すことが判定できるので、電子文書を患者単位で効果的に分類できる。
出力部35cは、サーバ装置10に対するデータの出力制御を実行する処理部である。一態様としては、出力部35cは、判定部35bによる判定処理が終了した後に、記憶部33に記憶されたイメージデータ33a及びテキストデータ33bを含む電子文書と、記憶部33に記憶された文書管理マスタ33dとをサーバ装置10へアップロードする。これによって、サーバ装置10では、文書管理マスタ33dに含まれる属性情報の属性値である識別情報「患者名」をインデックスとして電子文書を分類することができる。
なお、制御部35には、各種の集積回路や電子回路を採用できる。また、制御部35が有する機能部の一部を別の集積回路や電子回路とすることもできる。例えば、集積回路としては、ASIC(Application Specific Integrated Circuit)が挙げられる。また、電子回路としては、CPU(Central Processing Unit)やMPU(Micro Processing Unit)などが挙げられる。
[処理の流れ]
続いて、本実施例に係るクライアント端末30の処理の流れについて説明する。なお、ここでは、クライアント端末30によって実行される(1)読込処理を説明した後に、(2)判定処理を説明することとする。
(1)読込処理
図6は、実施例1に係る読込処理の手順を示すフローチャートである。この読込処理は、複数の紙がスキャナ31にセットされた状態で図示しない入力デバイス等を介して読込指示を受け付けた場合に処理が起動される。
図6に示すように、表示媒体である紙文書を読み込むと(ステップS101)、スキャン31は、紙文書のイメージデータを生成する(ステップS102)。続いて、文字認識部35aは、紙文書のイメージデータに含まれる文字を認識した上で文字コードに変換するOCR処理を実行することによって紙文書のテキストデータを生成する(ステップS103)。
そして、文字認識部35aは、イメージデータに画像IDを採番するとともに、テキストデータにテキストIDを採番する(ステップS104)。その上で、文字認識部35aは、イメージデータ及びテキストデータを記憶部33へ登録する(ステップS105)。
続いて、判定部35bは、ステップS103で生成されたテキストデータからキーワードデータ33cに定義されたキーワードと一致する文字列を検索する(ステップS106)。なお、キーワードと一致する文字列が検索されなかった場合(ステップS107No)には、ステップS110の処理へ移行する。
このとき、キーワードと一致する文字列が検索された場合(ステップS107Yes)には、判定部35bは、次のような処理を実行する。すなわち、判定部35bは、当該キーワードと一致する文字列から所定の位置、例えばキーワードの右隣の位置に対応する患者名の文字認識結果を抽出する(ステップS108)。
その上で、判定部35bは、文書管理マスタ33dのレコード番号、ステップS104で採番された画像ID及びテキストIDとともに、ステップS108で抽出された患者名の文字認識結果を対応付けて文書管理マスタ33dへ登録する(ステップS109)。
その後、スキャナ31によって全ての紙文書が読み込まれるまで(ステップS110No)、上記のステップS101〜ステップS109までの処理が繰り返し実行される。そして、スキャナ31によって全ての紙文書が読み込まれた場合(ステップS110Yes)に、処理を終了する。
(2)判定処理
図7は、実施例1に係る判定処理の手順を示すフローチャートである。この判定処理は、例えば、図6に示した読込処理が終了した場合に処理が起動される。なお、上記の判定処理は、文書管理マスタ33dのうち少なくとも連続的に読み込まれた関係にある2つのレコードに各々の文字認識結果が抽出された場合に文字認識結果が抽出されたレコードを対象に処理を起動して実行することもできる。
図7に示すように、判定部35bは、文書管理マスタ33dのレコード番号をカウントするカウンタNを初期値、例えばゼロに初期化する(ステップS301)。続いて、判定部35bは、レコード番号のカウンタNを1つインクリメントする(ステップS302)。
そして、判定部35bは、レコード番号Nにおける患者名の文字認識結果と、レコード番号N+1における患者名の文字認識結果とを比較して連続的に読み込まれた関係にある2つの紙文書の間で互いのテキストデータに含まれるキーワードの右隣の文字認識結果の整合率を算出する(ステップS303)。
ここで、ステップS303で算出された整合率が所定の閾値、例えば第2の整合率である70%以上である場合(ステップS304Yes)には、判定部35bは、次のような処理を実行する。すなわち、判定部35bは、レコード番号Nの文字認識結果をレコード番号N+1の文字認識結果へ設定する(ステップS305)。なお、ステップS303で算出された整合率が第2の整合率未満である場合(ステップS304No)には、上記のステップS305の処理は実行せずに、ステップS306の処理へ移行する。
その後、レコード番号N+1の次のレコード、すなわちレコード番号N+2のレコードが存在する限り(ステップS306Yes)、上記のステップS302〜ステップS305までの処理を繰り返し実行する。そして、レコード番号N+1の次のレコード、すなわちレコード番号N+2のレコードがなくなった場合(ステップS306No)に、処理を終了する。
[実施例1の効果]
上述してきたように、本実施例に係るクライアント端末30は、複数の表示媒体のそれぞれに表示された表示内容を読み込み、読み込んだ各表示内容について文字認識処理を行う。そして、本実施例に係るクライアント端末30は、複数の表示媒体のうち、連続的に読み込まれていない関係にある第1の表示媒体と第2の表示媒体のそれぞれに共通する所定の位置に対応する文字認識処理の結果が、第1の整合率以上である場合に、該所定の位置に対応する文字認識結果が同じ識別情報を示すと判定し、複数の表示媒体のうち、連続的に読み込まれた関係にある第3の表示媒体と第4の表示媒体のそれぞれに共通する所定の位置に対応する文字認識処理の結果が、第1の整合率より低い第2の整合率以上である場合に、該所定の位置に対応する文字認識結果が同じ識別情報を示すと判定する。
このため、本実施例に係るクライアント端末30では、連続的に読み込まれた関係にある表示媒体のうち一方の表示媒体で所定の位置の文字の認識率が低下した場合でも、他方の表示媒体の文字認識結果で補間して同じ識別情報を示すことが判定できる。それゆえ、本実施例に係るクライアント端末30では、病院の関係者に文字認識結果を目視の上で識別情報である文字認識結果を入力させたり、紙文書を改めて読み込ませて文字認識を再実行させたりする手間を抑制できる。したがって、本実施例に係るクライアント端末30によれば、電子文書の分類を効果的に支援できる。例えば、手書きで患者の名称が紙文書へ記入される場合などには、文字の認識率の低下は発生しやすいが、紙文書へ手書きによって文字が書き込まれる場合でも、電子文書の分類を効果的に支援できる。
さて、これまで開示の装置に関する実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。そこで、以下では、本発明に含まれる他の実施例を説明する。
[応用例]
上記の実施例1では、連続的に読み込まれた関係にある2つの表示媒体の間で識別情報を同定する場合を例示したが、連続的に読み込まれた関係にある表示媒体の数が3つ以上である場合にも互いの識別情報が同じ識別情報を示すことを同定できる。例えば、クライアント端末30は、第3の表示媒体、第4の表示媒体、第5の表示媒体の3つの表示媒体の間で識別情報を同定することもできる。
これを説明すると、クライアント端末30は、上記の3つの表示媒体のうち中央に位置する第4の表示媒体と、第4の表示媒体の前に位置する第3の表示媒体との間でそれぞれに共通する所定の位置に対応する文字認識処理の結果の整合率を算出する。さらに、クライアント端末30は、第4の表示媒体と、第4の表示媒体の後に位置する第5の表示媒体との間でそれぞれに共通する所定の位置に対応する文字認識処理の結果の整合率を算出する。ここで、クライアント端末30は、第3の表示媒体と第4の表示媒体との間で算出された文字認識処理の結果の整合率および第4の表示媒体と第5の表示媒体との間で算出された文字認識処理の結果の整合率の両方が第2の整合率より低かったとしても、第2の整合率より低い第3の整合率、例えば50%以上であれば、第3の表示媒体、第4の表示媒体および第5の表示媒体の間で所定の位置に対応する文字認識結果が同じ識別情報を示すと判定することもできる。これによって、同じ患者に関する表示媒体によって挟まれて読み込まれた表示媒体に含まれる所定の位置に対応する文字の認識率が低下した場合でも、前後に位置する表示媒体の文字認識結果で補間して同じ識別情報を示すことが判定できる。
[適用範囲]
上記の実施例1では、病院におけるカルテ等の紙文書が電子化された電子文書を分類する場合を例示したが、複数の紙をまとめて読み込んだ電子文書を分類する場合、例えば銀行窓口で受け付けられた各種の紙伝票が電子化された電子文書を顧客別に分類する場合などにも、制御部35内の各機能部35a〜35cで実行される処理を同様に適用することができる。この場合には、例えば、キーワードデータ33cに「氏名」、「お客様のご氏名」、「お名前」や「御名前」などのキーワードを定義しておくことができる。
[分散および統合]
また、図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、文字認識部35a、判定部35bまたは出力部35cをクライアント端末30の外部装置としてネットワーク経由で接続するようにしてもよい。また、文字認識部35a、判定部35bまたは出力部35cを別の装置がそれぞれ有し、ネットワーク接続されて協働することで、上記のクライアント端末30の機能を実現するようにしてもよい。
[判定プログラム]
また、上記の実施例で説明した各種の処理は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。そこで、以下では、図8を用いて、上記の実施例と同様の機能を有する判定プログラムを実行するコンピュータの一例について説明する。
図8は、実施例1及び実施例2に係る判定プログラムを実行するコンピュータの一例について説明するための図である。図8に示すように、コンピュータ100は、操作部110aと、スピーカ110bと、カメラ110cと、ディスプレイ120と、通信部130とを有する。さらに、このコンピュータ100は、CPU150と、ROM160と、HDD170と、RAM180とを有する。これら110〜180の各部はバス140を介して接続される。
HDD170には、図8に示すように、上記の実施例1で示した文字認識部35a、判定部35b及び出力部35cと同様の機能を発揮する判定プログラム170aが予め記憶される。この判定プログラム170aについては、図2に示した各々の文字認識部35a、判定部35b及び出力部35cの各構成要素と同様、適宜統合又は分離しても良い。すなわち、HDD170に格納される各データは、常に全てのデータがHDD170に格納される必要はなく、処理に必要なデータのみがHDD170に格納されれば良い。
そして、CPU150が、判定プログラム170aをHDD170から読み出してRAM180に展開する。これによって、図8に示すように、判定プログラム170aは、判定プロセス180aとして機能する。この判定プロセス180aは、HDD170から読み出した各種データを適宜RAM180上の自身に割り当てられた領域に展開し、この展開した各種データに基づいて各種処理を実行する。なお、判定プロセス180aは、図2に示した文字認識部35a、判定部35b及び出力部35cにて実行される処理、例えば図6〜図7に示す処理を含む。また、CPU150上で仮想的に実現される各処理部は、常に全ての処理部がCPU150上で動作する必要はなく、処理に必要な処理部のみが仮想的に実現されれば良い。
なお、上記の判定プログラム170aについては、必ずしも最初からHDD170やROM160に記憶させておく必要はない。例えば、コンピュータ100に挿入されるフレキシブルディスク、いわゆるFD、CD−ROM、DVDディスク、光磁気ディスク、ICカードなどの「可搬用の物理媒体」に各プログラムを記憶させる。そして、コンピュータ100がこれらの可搬用の物理媒体から各プログラムを取得して実行するようにしてもよい。また、公衆回線、インターネット、LAN、WANなどを介してコンピュータ100に接続される他のコンピュータまたはサーバ装置などに各プログラムを記憶させておき、コンピュータ100がこれらから各プログラムを取得して実行するようにしてもよい。
1 電子カルテシステム
5 ネットワーク
10 サーバ装置
30 クライアント端末
31 スキャナ
32 通信I/F部
33 記憶部
33a イメージデータ
33b テキストデータ
33c キーワードデータ
33d 文書管理マスタ
35 制御部
35a 文字認識部
35b 判定部
35c 出力部

Claims (4)

  1. 複数の表示媒体のそれぞれに表示された表示内容を読み込み、読み込んだ各表示内容について文字認識処理を行い、
    前記複数の表示媒体のうち、連続的に読み込まれていない関係にある第1の表示媒体と第2の表示媒体のそれぞれに共通する所定の位置に対応する文字認識処理の結果が、第1の整合率以上である場合に、該所定の位置に対応する文字認識結果が同じ識別情報を示すと判定し、
    前記複数の表示媒体のうち、連続的に読み込まれた関係にある第3の表示媒体と第4の表示媒体のそれぞれに共通する所定の位置に対応する文字認識処理の結果が、第1の整合率より低い第2の整合率以上である場合に、該所定の位置に対応する文字認識結果が同じ識別情報を示すと判定する、
    処理をコンピュータに実行させることを特徴とする判定プログラム。
  2. 前記第4の表示媒体は、前記第3の表示媒体との間で連続的に読み込まれた関係にあるともに第5の表示媒体との間で連続的に読み込まれた関係にあり、
    前記文字認識結果の識別情報を判定する処理として、
    前記第3の表示媒体と前記第4の表示媒体のそれぞれに共通する所定の位置に対応する文字認識処理の結果が前記第2の整合率より低い第3の整合率以上であり、かつ前記第4の表示媒体と前記第5の表示媒体のそれぞれに共通する所定の位置に対応する文字認識処理の結果が前記第3の整合率以上である場合に、該所定の位置に対応する文字認識結果が同じ識別情報を示すと判定することを特徴とする請求項1に記載の判定プログラム。
  3. コンピュータが、
    複数の表示媒体のそれぞれに表示された表示内容を読み込み、読み込んだ各表示内容について文字認識処理を行い、
    前記複数の表示媒体のうち、連続的に読み込まれていない関係にある第1の表示媒体と第2の表示媒体のそれぞれに共通する所定の位置に対応する文字認識処理の結果が、第1の整合率以上である場合に、該所定の位置に対応する文字認識結果が同じ識別情報を示すと判定し、
    前記複数の表示媒体のうち、連続的に読み込まれた関係にある第3の表示媒体と第4の表示媒体のそれぞれに共通する所定の位置に対応する文字認識処理の結果が、第1の整合率より低い第2の整合率以上である場合に、該所定の位置に対応する文字認識結果が同じ識別情報を示すと判定する、
    処理を実行することを特徴とする判定方法。
  4. 複数の表示媒体のそれぞれに表示された表示内容を読み込み、読み込んだ各表示内容について文字認識処理を行う文字認識部と、
    前記複数の表示媒体のうち、連続的に読み込まれていない関係にある第1の表示媒体と第2の表示媒体のそれぞれに共通する所定の位置に対応する文字認識処理の結果が、第1の整合率以上である場合に、該所定の位置に対応する文字認識結果が同じ識別情報を示すと判定し、前記複数の表示媒体のうち、連続的に読み込まれた関係にある第3の表示媒体と第4の表示媒体のそれぞれに共通する所定の位置に対応する文字認識処理の結果が、第1の整合率より低い第2の整合率以上である場合に、該所定の位置に対応する文字認識結果が同じ識別情報を示すと判定する判定部と
    を有することを特徴とする判定装置。
JP2012251667A 2012-11-15 2012-11-15 判定プログラム、判定方法及び判定装置 Active JP5962449B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012251667A JP5962449B2 (ja) 2012-11-15 2012-11-15 判定プログラム、判定方法及び判定装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012251667A JP5962449B2 (ja) 2012-11-15 2012-11-15 判定プログラム、判定方法及び判定装置

Publications (2)

Publication Number Publication Date
JP2014099114A true JP2014099114A (ja) 2014-05-29
JP5962449B2 JP5962449B2 (ja) 2016-08-03

Family

ID=50941058

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012251667A Active JP5962449B2 (ja) 2012-11-15 2012-11-15 判定プログラム、判定方法及び判定装置

Country Status (1)

Country Link
JP (1) JP5962449B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016122402A (ja) * 2014-12-25 2016-07-07 キヤノン株式会社 情報処理装置、情報処理方法、プログラムおよび記憶媒体
JP2016122403A (ja) * 2014-12-25 2016-07-07 キヤノン株式会社 情報処理装置、情報処理方法、プログラムおよび記憶媒体
JP2019219979A (ja) * 2018-06-21 2019-12-26 コニカミノルタ株式会社 医療情報管理装置及びファイル仕分け方法
JP2020187698A (ja) * 2019-05-17 2020-11-19 Necソリューションイノベータ株式会社 照合支援装置、照合支援方法、プログラム、および記録媒体
JP2021033889A (ja) * 2019-08-29 2021-03-01 コニカミノルタ株式会社 情報処理装置及び情報処理方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7109267B2 (ja) 2018-06-07 2022-07-29 リンナイ株式会社 熱源機

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6336392A (ja) * 1986-07-31 1988-02-17 Toshiba Corp 閾値設定方式
JP2000251017A (ja) * 1999-02-25 2000-09-14 Toshiba Corp 単語辞書作成装置および単語認識装置
JP2004240888A (ja) * 2003-02-07 2004-08-26 Oki Electric Ind Co Ltd 書類識別分類方法及び書類識別分類処理システム並びにプログラム
JP2005352582A (ja) * 2004-06-08 2005-12-22 Matsushita Electric Ind Co Ltd スライド同定装置、スライド同定方法、スライド同定用プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6336392A (ja) * 1986-07-31 1988-02-17 Toshiba Corp 閾値設定方式
JP2000251017A (ja) * 1999-02-25 2000-09-14 Toshiba Corp 単語辞書作成装置および単語認識装置
JP2004240888A (ja) * 2003-02-07 2004-08-26 Oki Electric Ind Co Ltd 書類識別分類方法及び書類識別分類処理システム並びにプログラム
JP2005352582A (ja) * 2004-06-08 2005-12-22 Matsushita Electric Ind Co Ltd スライド同定装置、スライド同定方法、スライド同定用プログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016122402A (ja) * 2014-12-25 2016-07-07 キヤノン株式会社 情報処理装置、情報処理方法、プログラムおよび記憶媒体
JP2016122403A (ja) * 2014-12-25 2016-07-07 キヤノン株式会社 情報処理装置、情報処理方法、プログラムおよび記憶媒体
JP2019219979A (ja) * 2018-06-21 2019-12-26 コニカミノルタ株式会社 医療情報管理装置及びファイル仕分け方法
JP2020187698A (ja) * 2019-05-17 2020-11-19 Necソリューションイノベータ株式会社 照合支援装置、照合支援方法、プログラム、および記録媒体
JP7287659B2 (ja) 2019-05-17 2023-06-06 Necソリューションイノベータ株式会社 照合支援装置、照合支援方法、プログラム、および記録媒体
JP2021033889A (ja) * 2019-08-29 2021-03-01 コニカミノルタ株式会社 情報処理装置及び情報処理方法

Also Published As

Publication number Publication date
JP5962449B2 (ja) 2016-08-03

Similar Documents

Publication Publication Date Title
JP5962449B2 (ja) 判定プログラム、判定方法及び判定装置
CN102414721B (zh) 具有多于一个操作模式的数据文件
RU2571545C1 (ru) Классификация изображений документов на основании контента
US10318641B2 (en) Language generation from flow diagrams
US8244037B2 (en) Image-based data management method and system
US20140195891A1 (en) System and method for automatically extracting multi-format data from documents and converting into xml
TWI536798B (zh) 影像分檔方法
KR101592981B1 (ko) 음성기반 이미지 파일 태깅장치 및 그를 이용한 클라우드 서비스 기반 이미지 파일 검색방법
US20090049104A1 (en) Method and system for configuring a variety of medical information
CN108664973A (zh) 文本处理方法和装置
US20140129245A1 (en) Document processing apparatus, document processing method, and computer readable medium
JP6529254B2 (ja) 情報処理装置、情報処理方法、プログラムおよび記憶媒体
TW201714124A (zh) 文件管理系統及其方法
US20220068276A1 (en) Information processor, print system, and control method
US9864750B2 (en) Objectification with deep searchability
JP7390071B2 (ja) 書類処理装置、書類処理方法、およびプログラム
JP7037180B2 (ja) 学習用データ判別装置および学習用データ判別プログラム
KR20130080745A (ko) 스마트폰의 카메라 모듈과 원격지 서버의 ocr 엔진을 이용한 전자문서 생성 방법 및 이를 위한 단말장치
JP4135659B2 (ja) フォーマット変換装置およびファイル検索装置
JP6011262B2 (ja) 表示制御プログラム、表示制御方法及び表示制御装置
JP2006085234A (ja) 電子文書作成装置、電子文書作成方法及び電子文書作成プログラム
JP5310206B2 (ja) 文書処理装置、文書処理方法および文書処理プログラム
JP5353427B2 (ja) 画像処理装置、プログラム及び画像処理システム
JP2004280514A (ja) Pdfファイル及びpdfファイル作成システム
JP2007048061A (ja) 文字処理装置、文字処理方法及び記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150706

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160426

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160531

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160613

R150 Certificate of patent or registration of utility model

Ref document number: 5962449

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150