JP6529254B2 - INFORMATION PROCESSING APPARATUS, INFORMATION PROCESSING METHOD, PROGRAM, AND STORAGE MEDIUM - Google Patents
INFORMATION PROCESSING APPARATUS, INFORMATION PROCESSING METHOD, PROGRAM, AND STORAGE MEDIUM Download PDFInfo
- Publication number
- JP6529254B2 JP6529254B2 JP2014263172A JP2014263172A JP6529254B2 JP 6529254 B2 JP6529254 B2 JP 6529254B2 JP 2014263172 A JP2014263172 A JP 2014263172A JP 2014263172 A JP2014263172 A JP 2014263172A JP 6529254 B2 JP6529254 B2 JP 6529254B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- extraction
- area
- unit
- extracting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Character Input (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Description
開示の技術は、情報処理装置、情報処理方法、プログラムおよび記憶媒体に関する。 The disclosed technology relates to an information processing apparatus, an information processing method, a program, and a storage medium.
電子カルテを中心に医療分野におけるIT化が急速に進みつつある。一方、院内には依然として様々な紙媒体の診療情報が存在する。紙媒体の診療情報とは例えば、診療情報提供書、説明同意書類、入退院時の必要書類、診断書類といった診療関連の文書、また、オーダー伝票や、予約票、申込書といった事務手続き用の文書である。 IT is rapidly advancing in the medical field centering on electronic medical records. On the other hand, medical information of various paper media still exists in the hospital. Paper medical care information includes, for example, medical care information provision documents, explanatory consent documents, documents necessary for medical treatment such as required documents at admission and discharge, diagnostic documents, and documents for administrative procedures such as order slips, reservation slips, and application forms. is there.
紙媒体の診療情報(紙文書)と電子カルテ等の電子情報とが混在する環境において、電子情報だけではなく紙文書も迅速に検索・活用できることが望ましい。 In an environment where medical information (paper documents) on paper media and electronic information such as electronic medical records are mixed, it is desirable that not only electronic information but also paper documents can be quickly retrieved and used.
そこで、紙文書の見読性を確保するため、紙文書をスキャナで電子化し、そして、紙文書の種類を示す種別情報、診療科情報、患者番号といった基本情報を人手によって登録し、電子システムに紐付けるワークフローが一般的に実施されている。しかし、病院で利用されている紙文書の種類は数千種類以上にも及ぶ場合があり、病院それぞれ独自の書式があるため、紙文書から上述の基本情報を登録する作業には膨大な時間と手間がかかる。 Therefore, in order to ensure readability of the paper document, the paper document is digitized by a scanner, and basic information such as type information indicating the type of paper document, medical department information, patient number is manually registered, and the electronic system A linking workflow is generally implemented. However, since the types of paper documents used in hospitals may be several thousand types or more, and each hospital has its own format, it takes an enormous amount of time to register the above basic information from paper documents. It takes time and effort.
紙文書に含まれる基本情報の登録作業の省力化を図るものとして、特許文献1において、紙文書にバーコードを付加し、バーコードリーダによってバーコードを読み取ることで紙文書に含まれる基本情報を抽出・登録する方法が開示されている。
In
また、特許文献2においては、帳票から抽出したい文字列(帳票の発行元の名前)を記憶しておき、この文字列を帳票の認識結果と照合して帳票の認識を行うことが開示されている。 Further, in Patent Document 2, it is disclosed that a character string (name of the issuer of the form) to be extracted from the form is stored, and this character string is collated with the recognition result of the form to recognize the form. There is.
しかしながら、特許文献1の方法では、大量の診療記録や問診票の各用紙を電子化するにあたって予めバーコードを紙文書に付与することが必要なため、人手を介する作業が煩雑で負荷が大きい。さらに特許文献2の方法では、抽出したい文字列全体と帳票の認識結果とを照合しているため、照合できなかった場合には所合できなかった文字とは異なる新たな文字列全体と認識結果とを過去と同様に照合する必要があるため帳票の認識に時間を要する。
However, in the method of
開示の技術はこのような状況に鑑みてなされたものであり、紙文書からより簡単且つ迅速に情報を自動抽出することを目的の1つとする。 The technology disclosed herein has been made in view of such circumstances, and has an object to automatically extract information from paper documents more easily and quickly.
なお、前記目的に限らず、後述する発明を実施するための形態に示す各構成により導かれる作用効果であって、従来の技術によっては得られない作用効果を奏することも本件の他の目的の1つとして位置付けることができる。 It is to be noted that the operation and effect are not limited to the above object but are derived from the respective configurations shown in the embodiments for carrying out the invention described later, and it is another object of the present invention to exert the operation and effect not obtained by the prior art. It can be positioned as one.
開示の技術に係る情報処理装置は、画像化された医療文書データから複数の領域を抽出する第1抽出手段と、前記複数の領域から第1の文字を含む領域を抽出する第2抽出手段と、前記第2抽出手段によって抽出された領域から前記医療文書データの診療科情報を抽出する第3抽出手段と、を備え、前記第1の文字は「科」を含む。 The information processing apparatus according to the disclosed technology includes a first extracting means for extracting a plurality of regions from the imaged medical document data, a second extraction means for extracting a region including a first character from said plurality of areas And third extraction means for extracting medical department information of the medical document data from the area extracted by the second extraction means, and the first character includes "family" .
開示の技術によれば画像化された紙文書から簡単且つ迅速に情報を自動抽出することができる。 According to the disclosed technology, information can be extracted easily and quickly from an imaged paper document.
以下、図面を参照して、本実施形態に係る情報処理装置について詳細に説明する。ただし、この実施の形態に記載されている構成要素はあくまで例示であり、本発明の技術の範囲は、特許請求の範囲によって確定されるものであって、以下の個別の実施形態によって限定されるわけではない。 Hereinafter, the information processing apparatus according to the present embodiment will be described in detail with reference to the drawings. However, the components described in this embodiment are merely examples, and the scope of the technology of the present invention is determined by the claims and is limited by the following individual embodiments. Do not mean.
(第1の実施形態)
まず、第1の実施形態について説明する。
First Embodiment
First, the first embodiment will be described.
図1は、第1の実施形態に係る情報処理システムの構成の一例を示すものである。 FIG. 1 shows an example of the configuration of the information processing system according to the first embodiment.
図1に示すように、情報処理システムは、登録部1(情報処理装置)、格納部2を備える。また、登録部1および格納部2は有線もしくは無線のネットワーク6を介して互いに通信可能に接続されている。また、登録部1および格納部2はネットワーク6を介して病院内の各種システム(電子カルテシステム3、オーダリングシステム4、その他のシステム5)と通信可能に接続されている。なお、登録部1および格納部2は複数台あっても構わない。
As shown in FIG. 1, the information processing system includes a registration unit 1 (information processing apparatus) and a storage unit 2. The
登録部1について詳細に述べる。登録部1は例えばPC等の情報処理装置である。登録部1はUIデバイス101、CPU102、RAM103、通信IF104、UI表示部105、プログラム用記憶領域106およびデータ用記憶領域107を備える。
The
UIデバイス101はマウス、デジタイザおよびキーボード等の少なくとも1つを含むものであり、ユーザによる登録情報の確認、修正、送信のために用いられる。
The
CPU102はプログラム用記憶領域106からRAM103に読み込んだプログラムを解釈・実行することによって装置内の各種制御や計算、UIの表示が可能である。例えば、CPU102は、プログラムを実行することで図2に示すように、文書画像解析部110、候補領域設定部120、候補領域認識部130、抽出情報同定部140および登録部150として機能する。なお、登録部1が備えるCPU102およびRAM103は1つであってもよいし複数であってもよい。すなわち、少なくとも1以上の処理装置(CPU)と少なくとも1つの記憶装置(RAM)とが接続されており、少なくとも1以上の処理装置が少なくとも1以上の記憶装置に記憶されたプログラムを実行した場合に登録部1は上記の各部として機能する。
The
文書画像解析部110は図示しないスキャナにより得られた紙文書が電子化された文書画像を取得し、解析を行う。ここでスキャナによる電子化とは画像化と言い換えることができる。すなわち、文書画像は画像化された文書データの一例に相当する。なお、画像化された医療文書を医療文書データという。文書画像解析部110はスキャナにより得られた電子化された文書画像をスキャナから直接取得してもよいし、スキャナにより得られた文書画像が格納部2に保存されている場合には文書画像解析部110は格納部2から文書画像を取得することとしてもよい。
The document
文書画像解析部110は、紙文書の電子化された文書画像のレイアウトを解析し、文字領域や写真領域の複数の領域に分割(領域分割)して領域を抽出する。すなわち、文書画像解析部110は画像化された文書データから複数の領域を抽出する第1抽出手段の一例に相当する。
The document
なお、領域分割によって、文書画像解析部110は領域分割した各領域の座標および各領域が文字領域か写真領域かを示す属性情報を領域毎に取得する。文字領域か写真領域かを示す属性情報は既知の種々の手法により取得可能である。なお、紙文書を電子化する手段はスキャナに限定されるものではなく他の手段であってもよい。
Note that the document
候補領域設定部120は、文書解析部110により分割された領域から情報を抽出する対象となる候補領域を設定する。具体的には、候補領域設定部120は文字領域を候補領域として設定する。言い換えれば、候補領域設定部120は文書解析部110により分割された領域のうち写真領域は候補領域としない。なお、候補領域設定部120の処理を省略して、候補領域を設定することなく抽出情報同定部140により後述する辞書を用いて文書の種別等を同定することとしてもよい。候補領域設定部120の処理により文書の種別等を同定するまでの時間は短縮されるが、候補領域設定部120の処理を省略しても上述の効果を奏することが可能である。
The candidate
候補領域認識部130は、候補領域設定部120により設定された候補領域の中身を認識する処理を行うことで文字認識情報を取得する。文字認識情報は候補領域の中身の認識結果である。
The candidate
抽出情報同定部140は、候補領域認識部130の認識結果に基づいて候補領域から抽出対象領域を同定し、同定した領域の記載から基本情報を同定する。具体的には、抽出情報同定部140は予め作成された辞書等の知識を用いて候補領域から抽出対象領域を同定する。そして、抽出情報同定部140は、同定した領域から予め作成された辞書等の知識を用いて例えば文書の種別を同定する。辞書等の知識についての詳細は後述する。なお、辞書等の知識はRAM103に記憶されていてもよいしデータ記憶領域107に記憶されていてもよい。また辞書等の知識は登録部1が備える不図示のROMに記憶されることとしてもよい。
The extraction
登録部150は、抽出情報同定部140によって同定された情報を用いて文書画像を所定の記憶手段に登録(記録)する。例えば、登録部150は抽出情報同定部140によって同定された紙文書の種別を文書画像と対応付けて登録情報10としてデータ記憶領域107等に登録する。なお、登録部150は登録情報10を格納部2に記憶することとしてもよい。
The
なお、上記の例ではCPU102が図2に示す各部として機能することとしているが、これに限定されるものではなくFPGAに上記の機能の少なくとも一部を持たせることとしてもよい。また、複数のCPUに上記の機能を分散させることとしてもよい。さらに、プログラム用記憶領域106は登録部1の内部に備えられることとしてもよいし登録部1の外部に備えられることとしてもよい。また、プログラム用記憶領域106は1つもメモリ等の記憶装置により構成されていてもよいし、複数の記憶装置により構成されることとしてもよい。
Although the
通信IF104はネットワーク6に繋がっており、登録部1と格納部2および病院内の各種サーバ3〜5との間の通信インタフェースである。
The communication IF 104 is connected to the network 6 and is a communication interface between the
UI表示部105は装置の状態や画像情報や登録内容を表示するLEDや液晶パネル等である。
The
プログラム用記憶領域106およびデータ用記憶領域107は具体的にはハードディスクやフラッシュメモリである。但し、特定の記憶媒体に限定されるものではない。登録部1では、データ用記憶領域107に登録情報10が記憶される。なお、登録情報10は格納部2上に記憶されることとしても構わない。なお、登録部1の登録情報10を直接病院内のシステム(例えば、電子カルテシステム3)に関連付けて格納してもよい。
Specifically, the
登録情報を格納部2に置かれる場合を想定し、格納部2について詳細に述べる。格納部2は少なくとも1以上のHDDまたはSSD等の記憶媒体であり、格納部2にはバインダプール20が記憶されている。バインダプール20にはバインダ201、202が含まれる。各バインダには医療文書が含まれている。すなわち、格納部2は医用文書をバインダという単位で管理する。なお、バインダプール20は病院内のシステム(例えば、電子カルテシステム3)に関連付けて記憶しても構わない。バインダプール20の中には、情報が使用しやすいように所定の規則で登録資料がバインダ毎に格納される。バインダのまとめ方として、例えば、患者毎に各種別の資料を保存してもよいし、種別毎に各資料を保存してもよい。例えば、登録部150は抽出情報同定部140によって同定された紙文書の種別に基づいて文書画像を含む登録情報を種別毎にバインダに記憶させることが可能である。
Assuming that registration information is stored in the storage unit 2, the storage unit 2 will be described in detail. The storage unit 2 is a storage medium such as at least one or more HDD or SSD, and the storage unit 2 stores a
上述の構成で、情報処理システム全体で登録情報を参照する事が可能となる。 With the above-described configuration, it is possible to refer to the registration information in the entire information processing system.
なお、ネットワーク6は、病院あるいは組織内で運用されるイントラネットであってもよいし、インターネットであってもよい。 The network 6 may be an intranet operated in a hospital or an organization, or may be the Internet.
なお、電子カルテシステム/オーダーシステムは、広く普及し良く知られている装置なので、ハードウェア構成例や動作フローの説明を省略する。 Since the electronic medical record system / order system is a widely spread and well-known device, the description of the hardware configuration and the operation flow will be omitted.
次に、本実施形態に係る情報処理システムによる情報処理方法の処理手順の一例について説明する。 Next, an example of the processing procedure of the information processing method by the information processing system according to the present embodiment will be described.
図3は、第1の実施形態に係る情報処理装置による情報処理方法の処理手順の一例を示すフローチャートである。 FIG. 3 is a flowchart illustrating an example of the processing procedure of the information processing method by the information processing apparatus according to the first embodiment.
まず、ステップS110において、文書画像解析部110は、図示しないスキャナにより得られた紙文書が電子化された文書画像を取得する。そして、文書画像解析部110は、紙文書の電子化された文書画像のレイアウトを解析し、文字領域や写真領域に分割(領域分割)する。尚、文書画像の領域分割方法として、例えば特開2002−314806公報で開示されている公知の方法等を使用することができる。
First, in step S110, the document
続いて、ステップS120において、候補領域設定部120は、上記文書画像の解析結果から抽出対象の候補となる領域を設定する。この処理の詳細については後述する。
Subsequently, in step S120, the candidate
続いて、ステップS130において、候補領域認識部130は、上記候補領域にある文字列を認識し、認識情報を記録する。認識情報として、文字列の認識結果および文字数、また、段落である場合の行数などが挙げられる。尚、認識処理は、公知の文字認識技術を用いることができる。
Subsequently, in step S130, the candidate
続いて、ステップS140において、情報処理装置の抽出情報同定部140は、上記候補領域の認識結果及び、知識情報に基づき抽出対象領域を同定し、抽出対象領域から基本情報を同定する。そして、情報処理装置の登録部150は、同定情報により文書画像を登録する。この処理の詳細については後述する。
Subsequently, in step S140, the extraction
次に、ステップS120における候補領域の設定処理について説明する。 Next, the setting process of the candidate area in step S120 will be described.
図4は、第1の実施形態に係る図3のステップS120における候補領域の設定処理の手順の一例を示すフローチャートである。 FIG. 4 is a flowchart showing an example of a procedure of setting processing of candidate areas in step S120 of FIG. 3 according to the first embodiment.
先ず、ステップS1201において、文書画像解析部110による文書画像解析により取得される領域情報、即ち、各領域の位置を示す座標情報と、各領域が文字領域か写真領域を示す属性情報とを文書画像解析部110は候補領域設定部120に入力する。
First, in
続いて、ステップS1202では、候補領域設定部120は、属性情報に基づいて文書画像解析部110よって取得された領域が文字領域であるかどうかを判断する。文字領域であれば、ステップS1203で、候補領域設定部120は当該文字領域を候補領域として設定する。
Subsequently, in step S1202, the candidate
続いて、ステップS1204では、候補領域設定部120は未処理の領域があるかどうかを判断します。まだ未処理の領域があれば、ステップS1202に入り、ステップS1202からステップS1204までの処理を繰り返して実行するが、未処理の領域がなければ、候補領域設定処理を終了する。
Subsequently, in step S1204, the candidate
次に、ステップS140における抽出対象の同定処理について説明する。 Next, the process of identifying the extraction target in step S140 will be described.
図5は、第1の実施形態に係る図3のステップS140における抽出対象の同定処理の手順の一例を示すフローチャートである。 FIG. 5 is a flowchart showing an example of the procedure of identification processing of the extraction target in step S140 of FIG. 3 according to the first embodiment.
先ず、ステップS1401において、候補領域情報を候補領域設定部120および候補領域認識部130は抽出情報同定部140に入力する。候補領域情報には、候補領域設定部120により得られた候補領域の座標情報及び候補領域認識部130により得られた文字認識情報が含まれる。
First, in step S1401, the candidate
続いて、ステップS1402からステップS1407において、抽出情報同定部140は候補領域の文字認識情報及び知識情報に基づいて抽出対象領域を同定し、抽出対象領域の中身を同定する。この部分について詳細に説明する。
Subsequently, in steps S1402 to S1407, the extraction
先ず、ステップS1402では、抽出情報同定部140は処理対象となる候補領域に語尾辞書(図6における符号604参照)にある語尾があるかどうかを判断する。
First, in step S1402, the extraction
語尾が候補領域にある場合、ステップS1403では、抽出情報同定部140は当該候補領域を抽出領域として同定する。すなわち、抽出情報同定部140は、複数の領域から第1の文字を含む領域を抽出する第2抽出手段の一例に相当する。また、語尾辞書に含まれる語尾は第1の文字または単語の一例に相当する。より具体的には第1の文字は複数の文字からなる単語の語尾である。また、語尾辞書に含まれる語尾は1文字としているがこれに限定されるものではなく複数の文字であってもよい。
If the ending is in the candidate area, the extraction
そして、ステップS1404では、抽出情報同定部140は当該抽出領域から用語辞書(図6における符号605参照)にある用語を抽出する。ここで、用語辞書に含まれる用語は第1の文字とは異なる情報の一例に相当する。すなわち、抽出情報同定部140は、第2抽出手段によって抽出された領域か第1の文字とは異なる情報を抽出する第3抽出手段の一例に相当する。
Then, in step S1404, the extraction
そして、ステップS1405では、用語辞書と分類辞書(図6における符号606参照)の関係に基づき、抽出された用語により文書の種別を同定し、抽出対象の同定処理を終了させる。すなわち、抽出情報同定部140は第3抽出手段により抽出された情報を用いて文書データを分類する分類手段の一例に相当する。
Then, in step S1405, based on the relationship between the term dictionary and the classification dictionary (see reference numeral 606 in FIG. 6), the type of the document is identified by the extracted term, and the extraction target identification process is ended. That is, the extraction
なお、語尾辞書に含まれる語尾が候補領域にない場合、ステップS1406では、抽出情報同定部140は未処理の候補領域があるかどうかを判断する。未処理の候補領域があれば、上記ステップS1402からステップS1405までの処理を繰り返して実行する。未処理の候補領域がなければ、抽出情報同定部140は候補領域の中に種別に該当する領域がないとし、種別なしと判断する。
If the word tail included in the word-end dictionary is not in the candidate area, in step S1406, the extraction
次に、本実施形態における抽出対象の同定処理の一例について辞書の内容を示しながらより詳細に説明する。 Next, an example of the identification process of the extraction target in the present embodiment will be described in more detail while showing the contents of the dictionary.
図6は、第1の実施形態に係るステップS120における候補領域の設定処理と、図5のステップS140における抽出対象の同定処理の一例を示す模式図である。 FIG. 6 is a schematic view showing an example of setting processing of candidate areas in step S120 according to the first embodiment, and identification processing of extraction targets in step S140 of FIG.
601は、ある文書画像に対する文書画像解析部110による解析の結果例である。文書画像は、枠に囲まれる領域毎に分割され、また、領域毎に文字領域か写真領域、或いは、その他の属性が付与される。
Reference numeral 601 denotes an example of the result of analysis of a document image by the document
602は、文書画像の解析結果から候補領域設定部120によって得られた候補領域の設定結果例である。各候補領域は順番に領域番号、そして、座標情報が記録される。
Reference numeral 602 denotes an example of the setting result of the candidate area obtained by the candidate
603は、候補領域から抽出対象の同定処理の結果である。 603 is the result of the identification process of the extraction object from the candidate area.
本実施形態においては抽出対象の同定処理に用いる語尾辞書604、用語辞書605および分類辞書606が不図示のROMに記憶されている。語尾辞書604は、種別に含まれる共通の語尾を記録する。用語辞書605は種別に含まれる用語を記録する。例えば、用語辞書605は「問診」および「質問」という用語を含む。すなわち、用語辞書605は互いに異なる第1の参照用の文字と第2の参照用の文字とを含んでおり、用語辞書605を保持する不図示のROMは保持手段の一例に相当する。分類辞書606は種別に関わる分類を記録する。なお、上記の辞書はROM以外の記憶手段(プログラム記憶領域106、データ記憶領域107、格納部2など)に記憶されることとしてもよい。この場合、記憶手段が保持手段の一例に相当する。
In the present embodiment, the inflection dictionary 604, the term dictionary 605, and the classification dictionary 606 used for the identification process of the extraction target are stored in a ROM (not shown). The ending dictionary 604 records common endings included in the type. The term dictionary 605 records terms included in the type. For example, the term dictionary 605 includes the terms "interview" and "question". That is, the term dictionary 605 includes first reference characters and second reference characters which are different from each other, and the ROM (not shown) holding the term dictionary 605 corresponds to an example of the holding means. The classification dictionary 606 records classifications related to types. The above dictionary may be stored in storage means (
候補領域の順番で処理する。候補領域認識部130により得られた候補領域01の文字認識情報には6語尾辞書04にある「書」という語尾が含まれるため、抽出情報同定部140は当該候補領域を抽出対象領域として同定する。
Process in the order of candidate areas. Since the character recognition information of the
また、抽出情報同定部140は当該抽出対象領域には用語辞書605にある「説明」という用語が含まれると判断する。具体的には、抽出情報同定部140は用語辞書605に含まれる用語と抽出対象領域に含まれる文字とを比較し、比較結果が一致する場合には用語辞書605に含まれる用語が抽出対象領域から抽出されたと判断する。本実施例では抽出情報同定部140は「問診」という用語を抽出対象領域に含まれる文字と比較し、一致しない場合には用語辞書605の次の用語と抽出対象領域に含まれる文字との比較を行う。すなわち、第3抽出手段の一例である抽出情報同定部140は、第2抽出手段によって抽出された領域に含まれる文字と第1の参照用の文字とを比較し、比較結果が一致する場合には第1の参照用の文字に一致する文字を情報として抽出し、比較結果が一致しない場合には第2抽出手段によって抽出された領域に含まれる文字と第2の参照用の文字とを比較する。
Further, the extraction
抽出情報同定部140は用語辞書605から、「説明」という用語は「02」という「種別番号」と対応付けられると判断する。したがって、抽出情報同定部140は、分類辞書606に「02」と対応する「説明・同意書」という種別が抽出対象(紙文書)の文書種別であると決定する。そして、登録部150は「説明・同意書」という種別を文書画像と対応付けてデータ記憶領域107または格納部2に記録する。
The extraction
上述の如く本実施形態は、文書画像における各領域の属性情報に基づき抽出対象の候補領域を設定し、候補領域の文字認識情報及び知識情報に基づき候補領域から抽出対象領域を同定し、紙文書の種別を取得するものである。しかしながら、本発明は上記の実施形態に限定されるものではなく、例えば医用文書(紙文書)から診療科情報や、患者情報(患者ID等の患者識別情報)などを抽出する場合は、抽出対象に応じて知識情報を置き換えればよい。患者IDは例えば数字である。 As described above, the present embodiment sets candidate areas to be extracted based on attribute information of each area in the document image, identifies extraction target areas from the candidate areas based on character recognition information and knowledge information of the candidate areas, and To obtain the type of However, the present invention is not limited to the above embodiment. For example, in the case of extracting medical department information or patient information (patient identification information such as patient ID) from a medical document (paper document), the extraction target The knowledge information should be replaced according to The patient ID is, for example, a number.
例えば、診療科情報抽出の場合、種別抽出用の語尾辞書を「科」などを含む診療科辞書にすればよい。さらに、用語辞書は「小児」、「皮膚」などの文言を含む辞書に変更すればよい。分類辞書は必須の構成ではないが、使用する場合には分類辞書についても同様に診療科で分類を行うよう種別を「小児科」、「皮膚科」などに変更すればよい。また、本実施形態では、知識を辞書という言葉で記述したが、辞書以外の呼び方をされるものであってもよい。なお、患者情報(患者ID等)などを抽出する場合には、種別抽出用の語尾辞書を「ID」、「番号」などを含む辞書にすればよい。この場合、「ID」等の文字は領域内の末尾ではなく先頭に存在する場合が多いが、本実施形態においては説明を簡単にするために語尾辞書という文言を用いている。なお、患者情報(患者ID等)などを抽出する場合には分類を行う必要がないため用語辞書等は不要である。なお診療科情報および患者情報(患者ID等)の抽出方法の詳細については後述の第5の実施形態で述べる。 For example, in the case of medical department information extraction, a term dictionary for type extraction may be a medical department dictionary including "family" and the like. Furthermore, the term dictionary may be changed to a dictionary including words such as "child" and "skin". Although the classification dictionary is not an essential component, the classification dictionary may be changed to "Pediatrics", "Dermatology", etc. so that classification can be performed in the medical department similarly. Further, in the present embodiment, knowledge is described in the word of dictionary, but it may be called other than dictionary. When patient information (patient ID and the like) is extracted, a term extraction dictionary for type extraction may be a dictionary including “ID”, “number”, and the like. In this case, characters such as “ID” are often present at the beginning of the region rather than at the end, but in the present embodiment, the term “endword dictionary” is used to simplify the description. In addition, when extracting patient information (patient ID etc.) etc., since it is not necessary to classify, a term dictionary etc. is unnecessary. The details of the medical department information and the method of extracting patient information (patient ID and the like) will be described in a fifth embodiment described later.
また、本実施形態では、医用文書の種別抽出に、文書画像を管理しやすいために種別を図6に示す分類に分けたが、これに限定されるものではなくより細かく分類することとしてもよいし、より粗く分類することとしてもよい。なお各辞書に含まれる言葉や言葉の数も図6記載の内容に限定されるものではなく任意に変更可能である。 Further, in the present embodiment, the classification is classified into the classification shown in FIG. 6 in order to easily manage the document image in extracting the medical document type, but the invention is not limited to this and may be classified more finely. And may be classified more roughly. The words and the number of words included in each dictionary are not limited to the contents described in FIG. 6 and can be arbitrarily changed.
また、本実施形態では、種別抽出用の語尾辞書、用語辞書、分類辞書を例にしたが、辞書の名称は図6記載の名称以外であってもよいし、辞書の構成を図6とは異なる構成にしてもよい。例えば、図7に示すように、用語辞書に用語及び用語と種別の関連付けのみならず、語尾との関連付けも持つようにしてもよい。この場合、語尾が見つかれば、それと組み合わせ可能な用語が含まれるかどうかのみをチェックし用語を抽出すればよい。例えば、ステップS1402では、「書」という「101」番号の語尾が見つかった場合、ステップS1404では、当該領域から用語辞書に含まれる用語すべてを抽出する代わりに、「101」番号の語尾「書」と組み合わせることが可能な用語のみを抽出する。即ち、「問診」、「説明」等だけを抽出すれば良く(「質問」を抽出しようとする必要はない)、処理の高速化を図ることが可能となる。また、図6の例に示す601、602、603をまとめて辞書として持っていてもよい。すなわち、辞書の形態は上記の例に限定されるものではなく他の形態とすることとしてもよい。 Further, in the present embodiment, an end dictionary for type extraction, a term dictionary, and a classification dictionary have been taken as an example, but the names of the dictionaries may be other than the names described in FIG. It may be configured differently. For example, as shown in FIG. 7, the term dictionary may have not only the association of terms and terms with types, but also the association with endings. In this case, if an end is found, it is only necessary to check whether or not a term that can be combined with it is included and extract the term. For example, in step S1402, when the ending of the "101" number "book" is found, in step S1404, instead of extracting all terms included in the term dictionary from the area, the ending "book" of the "101" number Extract only terms that can be combined with. That is, it is only necessary to extract “inquiry”, “explanation” and the like (there is no need to extract “question”), and it is possible to speed up the process. Also, 601, 602, and 603 shown in the example of FIG. 6 may be collected as a dictionary. That is, the form of the dictionary is not limited to the above example, and may be another form.
また、本実施形態では、辞書を登録部1の内部に持たせることを例にしたが、登録部1の外部に辞書を持たせることとしてもよい。外部で定義して参照するようにしてもよい。また、本実施形態では、種別に該当する情報を見つからない文書画像において種別なしと出力するが、それ以外の出力、例えば、種別不明としてもよい。
Further, in the present embodiment, the dictionary is provided inside the
以上、述べたように第1の実施形態によれば、紙文書から簡単に情報を自動抽出することができる。上記実施形態においてはバーコード等追加の情報を紙文書に付加する必要がないため、従来に比べて手間をかけずに文書種別等の情報を抽出することが可能となる。また、バーコード等の追加の情報を紙文書に付加する必要がないため未知のフォーマットの文書からも簡単に文書種別等の情報を抽出することが可能となる。すなわち、医用文書に人手を介する情報の付与作業が行われなくても、また、医用文書のフォーマットが予め分からなくても、文書種別等の情報を自動的に抽出できる。 As described above, according to the first embodiment, it is possible to easily and automatically extract information from a paper document. In the above embodiment, since it is not necessary to add additional information such as a barcode to the paper document, it is possible to extract the information such as the document type without taking much time as compared with the prior art. Further, since it is not necessary to add additional information such as a bar code to the paper document, it is possible to easily extract information such as the document type even from a document of unknown format. That is, information such as the document type can be extracted automatically, even if the medical document is not manually attached with information or the format of the medical document is not known in advance.
また、上記実施形態においては語尾辞書を用いて抽出領域を同定しているため、全ての領域に対して用語辞書と照らし合わせる必要がなく文書種別等の情報を高速で抽出することが可能となる。また、「問診票」など種別そのものを示す言葉を文書画像から抽出する場合には、種別を示す言葉の多さから抽出に多くの時間がかかる虞がある。しかし、本実施形態によれば語尾と用語との組み合わせを用いているため「問診票」などの種別を示す用語を抽出する時間を短縮することが可能である。ここで、医療分野においては診療科および文書の種別は病院毎に様々な呼び名があるため、本実施形態を医療分野に用いることで顕著な効果を得ることができる。 Further, in the above embodiment, since the extraction area is identified using the word end dictionary, it is not necessary to check all the areas with the term dictionary, and information such as the document type can be extracted at high speed. . In addition, in the case of extracting from the document image a word that indicates the type itself, such as the “interview sheet,” there is a risk that it takes a lot of time to extract the word that indicates the type. However, according to the present embodiment, since the combination of the ending and the term is used, it is possible to shorten the time for extracting the term indicating the type such as “interview sheet”. Here, in the medical field, the medical department and the type of the document have various names for each hospital, and therefore, it is possible to obtain a remarkable effect by using the present embodiment in the medical field.
なお、上記の例ではステップS1405において文書画像の種別を同定しているが、このステップは必須のものではなく、ステップS1404で処理を終了することとしてもよい。この場合、ステップS1404で抽出された用語を操作者が参照して分類を行うことができる。 In the above example, the type of the document image is identified in step S1405, but this step is not essential, and the process may be ended in step S1404. In this case, the operator can perform classification with reference to the terms extracted in step S1404.
(第2の実施形態)
次に、本発明の第2の実施形態について説明する。
Second Embodiment
Next, a second embodiment of the present invention will be described.
上述した第1の実施形態では、文書画像の解析結果から文字領域を抽出対象の候補領域として設定した。第2の実施形態では、文書画像の解析処理によって正しい塊の領域抽出ができていない場合に領域に併合するものである。 In the first embodiment described above, the character area is set as a candidate area to be extracted from the analysis result of the document image. In the second embodiment, the region is merged with the region if the region extraction of the correct chunk can not be performed by the analysis processing of the document image.
ここで、第2の実施形態に係る情報処理システムのハードウェア構成および情報処理装置の機能構成は、図1、2と同様であるため、その説明は省略する。 Here, the hardware configuration of the information processing system according to the second embodiment and the functional configuration of the information processing apparatus are the same as those in FIGS.
次に、本実施形態に係る情報処理方法の処理手順の一例について説明する。 Next, an example of the processing procedure of the information processing method according to the present embodiment will be described.
図8は、第2の実施形態に係る情報処理システムによる情報処理方法の処理手順の一例を示すフローチャートである。 FIG. 8 is a flowchart illustrating an example of the processing procedure of the information processing method by the information processing system according to the second embodiment.
まず、ステップS’210において、文書画像解析部110は、図示しないスキャナにより得られた紙文書が電子化された文書画像を取得する。そして、文書画像解析部110は、紙文書の電子化された文書画像を解析し、文字領域や写真領域に分割する。本ステップはステップS110と同様である。
First, in step S ′ 210, the document
続いて、ステップS’220において、候補領域設定部120は、上記文書画像の解析結果から文字領域を抽出対象の候補となる領域を設定する。具体的な処理はステップS120と同様である。
Subsequently, in step S'220, the candidate
続いて、ステップS’230において、候補領域設定部120は、上記候補領域を補正する。この処理についての詳細は後述する。
Subsequently, in step S ′ 230, the candidate
続いて、ステップS’240において、候補領域認識部130上記補正後の候補領域にある文字列を認識し、認識情報を記録する。本ステップはステップS130と同様である。
Subsequently, in step S ′ 240, the candidate
続いて、ステップS’250において、抽出情報同定部140は上記補正後の候補領域の認識結果及び、知識情報に基づき抽出対象領域を同定し、抽出対象中身を同定する。本ステップはステップS140と同様である。
Subsequently, in step S ′ 250, the extraction
次に、ステップS’230における候補領域の補正処理について説明する。 Next, the correction process of the candidate area in step S ′ 230 will be described.
図9は第2の実施形態に係る図8のステップS’230における候補領域の補正処理の手順の一例を示すフローチャートである。 FIG. 9 is a flowchart showing an example of the procedure of the correction process of the candidate area in step S ′ 230 of FIG. 8 according to the second embodiment.
先ず、ステップS’2301において、ステップS’220で設定された候補領域を入力する。 First, in step S ′ 2301, the candidate area set in step S ′ 220 is input.
続いて、ステップS’2302からステップS’2306では、上記候補領域から併合すべき領域を選択し、併合する。 Subsequently, in steps S ′ 2302 to S ′ 2306, an area to be merged is selected from the above candidate areas and merged.
ステップS’2302では、候補領域設定部120が処理対象となる二つの候補領域間の間隔は所定の閾値T1以下であるかどうかを判断する。すなわち、候補領域設定部120は隣り合う二つの候補領域間の間隔を閾値T1と比較する。ここで、閾値T1は第1の閾値の一例に相当する。
In step S ′ 2302, the candidate
候補領域間の間隔は所定の閾値T1以下あれば、ステップS’2303では、候補領域設定部120が更に処理対象となる二つの候補領域にある文字サイズの差は所定の閾値T2以下であるかどうかを判断する。ここで、閾値T2は第2の閾値の一例に相当する。
If the interval between candidate areas is less than or equal to a predetermined threshold value T1, in step S ′ 2303, is the difference between the character sizes in the two candidate areas targeted for further processing by the candidate
候補領域にある文字サイズの差は所定の閾値T2以下であれば、ステップS’2304へ進む。ステップS’2304では、候補領域設定部120が更に処理対象となる一の候補領域に複数の文字が含まれている場合には、それらの文字間隔の差が所定の閾値T3以下であるかどうかを判断する。すなわち、一の候補領域に複数の文字が含まれていない場合にはステップS’2304は実行されないこととしてもよい。ここで、閾値T3は第3の閾値の一例に相当する。
If the difference in character size in the candidate area is equal to or less than a predetermined threshold T2, the process proceeds to step S'2304. In step S'2304, when a plurality of characters are included in one candidate area to be processed further by the candidate
候補領域にある文字の間隔の差は所定の閾値T3以下であれば、ステップS’2305では、当該二つの候補領域は併合すべき領域と判断し、ステップS’2306では、候補領域設定部120が当該二つの候補領域同士を併合し、候補領域の情報を更新する。すなわち、候補領域設定部120は、第1抽出手段により抽出された領域に関する情報に基づいて第1抽出手段により抽出された領域を併合する領域併合手段の一例に相当する。また、本実施例では第2抽出手段の一例に相当する抽出情報同定部140は、併合された領域から第1の文字または単語を含む領域を抽出することとなる。
If the difference between the character spaces in the candidate area is equal to or less than the predetermined threshold value T3, in step S'2305, the two candidate areas are determined to be areas to be merged, and in step S'2306, the candidate
続いて、ステップS’2307では、候補領域設定部120が未比較の領域があるかどうかを判断します。まだ未比較の領域があれば、ステップS’2302に入り、ステップS’2302からステップS’2306までの処理を繰り返して実行するが、未比較の領域がなければ、候補領域の補正処理を終了する。
Subsequently, in step S'2307, the candidate
次に、ステップS’230における候補領域の補正処理の一例について説明する。 Next, an example of the correction process of the candidate area in step S ′ 230 will be described.
図10は、本発明の第2の実施形態を示し、図8のステップS’230における候補領域の補正処理の一例を示す模式図である。 FIG. 10 shows a second embodiment of the present invention, and is a schematic view showing an example of correction processing of a candidate area in step S ′ 230 of FIG.
10001は、ある文書画像における候補領域の設定結果例である。「同」「意」「書」は離れているため、それぞれ独立な領域として抽出されている。 Reference numeral 10001 denotes an example of setting results of candidate areas in a document image. Since "same", "mean" and "book" are separated, they are extracted as independent areas.
10002は、種別抽出の場合、10001から候補領域の補正処理の結果例である。10001の候補領域から領域の間隔が一定範囲T1以内、しかも、其々の領域にある文字サイズの差が一定範囲T2以内、其々の領域に複数の文字がある場合の文字列の間隔の差が一定範囲T3以内の候補領域を分断された領域として併合する。 In the case of type extraction, reference numeral 10002 is an example of the result of correction processing of candidate areas from 10001. The space between character areas from within the candidate area of 10001 is within a certain range T1, and the difference in character size in each area is within a certain range T2, and the difference in space between character strings when there are multiple characters in each area Merge the candidate areas within a certain range T3 as divided areas.
本実施形態では、抽出対象の特性に基づき候補領域を補正し、意味のある領域にするものである。本実施形態では、候補領域の併合条件として候補領域間の間隔、候補領域にある文字サイズの差、候補領域にある文字列の間隔の差を用いたが、それ以外の条件を設定してもよい。また、候補領域が過統合場合の分割処理を例にしてもよい。なお、上記の実施例では候補領域の併合条件として候補領域間の間隔(すなわち候補領域の位置)、候補領域にある文字サイズの差、候補領域にある文字列の間隔の差の全てを用いたが、少なくとも1つを用いることとしてもよい。すなわち、領域を併合するために用いられる領域に関する情報は、第1抽出手段により抽出された領域の位置、第1抽出手段により抽出された領域に含まれる文字の少なくとも1つを示す情報である。 In this embodiment, the candidate area is corrected based on the characteristics of the extraction target to make it a meaningful area. In the present embodiment, the interval between candidate areas, the difference in character size in candidate areas, and the difference in interval of character strings in candidate areas are used as merging conditions of candidate areas, but other conditions may be set. Good. Also, division processing in the case of over-integration of candidate areas may be taken as an example. In the above embodiment, the interval between candidate areas (that is, the position of the candidate area), the difference in character size in the candidate area, and the difference in the interval between character strings in the candidate area are all used as merging conditions for candidate areas. However, at least one may be used. That is, the information on the area used to merge the areas is information indicating at least one of the position of the area extracted by the first extraction means and the characters included in the area extracted by the first extraction means.
第2の実施形態によれば、意味のある領域の抽出ができ、情報抽出処理の精度を向上することが可能になる。 According to the second embodiment, a meaningful area can be extracted, and the accuracy of the information extraction process can be improved.
(第3の実施形態)
次に、本発明の第3の実施形態について説明する。
Third Embodiment
Next, a third embodiment of the present invention will be described.
上述した第2の実施形態では、文書画像の解析結果により意味のある領域に補正する領域にするものであった。第3の実施形態では、抽出対象の特性に基づき、候補領域を絞るものである。 In the second embodiment described above, the area is corrected to a meaningful area according to the analysis result of the document image. In the third embodiment, candidate regions are narrowed based on the characteristics of the extraction target.
ここで、第3の実施形態に係る情報処理システムのハードウェア構成は、図1に示す第1の実施形態に係る情報処理システムのハードウェア構成と同様であるため、その説明を省略する。また、第3の実施形態に係る情報処理システムの機能構成は、図2に示す第1の実施形態に係る情報処理システムの機能構成と同様であるため、その説明は省略する。 Here, the hardware configuration of the information processing system according to the third embodiment is the same as the hardware configuration of the information processing system according to the first embodiment shown in FIG. The functional configuration of the information processing system according to the third embodiment is the same as the functional configuration of the information processing system according to the first embodiment shown in FIG.
次に、本実施形態に係る情報処理方法の処理手順について説明する。 Next, the processing procedure of the information processing method according to the present embodiment will be described.
図11は、本発明の第3の実施形態に係る情報処理システムによる情報処理方法の処理手順の一例を示すフローチャートである。 FIG. 11 is a flowchart showing an example of the processing procedure of the information processing method by the information processing system according to the third embodiment of the present invention.
まず、ステップS210において、文書画像解析部110は紙文書の電子化された文書画像を解析し、文字領域や写真領域に分割する。具体的な処理はステップS110と同様である。
First, in step S210, the document
続いて、ステップS220において、候補領域設定部120は上記文書画像の解析結果から文字領域を抽出対象の候補となる領域を設定する。具体的な処理はステップS120と同様である。
Subsequently, in step S220, the candidate
続いて、ステップS230において、候補領域認識部130は上記候補領域にある文字列を認識し、認識情報を記録する。具体的な処理はステップS130と同様である。
Subsequently, in step S230, the candidate
続いて、ステップS240において、抽出情報同定部140は抽出対象の特性に基づき、上記候補領域を絞る。この処理の詳細については後述する。
Subsequently, in step S240, the extraction
続いて、ステップS250において、抽出情報同定部140は上記候補領域の認識結果及び、知識情報に基づき抽出対象領域を同定し、抽出対象中身を同定する。具体的な処理はステップS140と同様である。
Subsequently, in step S250, the extraction
次に、ステップS240における候補領域の絞込み処理について説明する。候補領域の絞込み処理は、以下、候補領域のフィルタリング処理とも呼ぶ。 Next, the narrowing-down process of the candidate area in step S240 will be described. The narrowing-down process of the candidate area is hereinafter also referred to as filtering process of the candidate area.
図12は、本発明の第3の実施形態を示し、図11のステップS240における候補領域の絞込み処理の手順の一例を示すフローチャートである。 FIG. 12 is a flowchart showing the third embodiment of the present invention, and showing an example of the procedure of narrowing-down processing of candidate areas in step S240 of FIG.
先ず、ステップS2401において、候補領域設定部120はステップS220で設定された候補領域を抽出情報同定部140に入力する。
First, in step S2401, the candidate
続いて、ステップS2402からステップS2404では、抽出情報同定部140は上記候補領域を絞る。種別抽出の場合、種別領域は文書画像の上から一定範囲以内にある可能性が高いこと及び種別領域は複数段落の文書内に存在する可能性は低いという特性を利用して候補領域の絞込み条件として設定する。ここで、複数段落は2以上の段落でもよいし3以上の段落であってもよい。また、一定範囲内とは例えば文書画像全体の上部1/3の範囲内である。なお、一定範囲は文書画像全体の上部1/2の範囲内であってもよいし他の範囲あってもよい。また、診療科抽出または患者情報抽出の場合には絞り込みの範囲を種別抽出の場合と異なる範囲にしてもよい。すなわち、抽出対象に応じて候補領域の絞りこみ条件を変更することとしてもよい。なお、候補領域を絞るためには上記の2つの条件を使用することとしてもよいし、どちらか一方の条件を使用することとしてもよい。また、上記2つの条件に文書画像の横方向における位置等の他の条件を加えることとしてもよい。
Subsequently, in steps S2402 to S2404, the extraction
ステップS2402では、抽出情報同定部140は処理対象となる候補領域は所定の範囲以内にあるかどうかを判断する。所定の範囲以内にあれば、ステップ2403では、抽出情報同定部140は更に候補領域の行数は所定の閾値T以下であるかどうかを判断する。所定の閾値T以下であれば、ステップ2404では、当該候補領域を候補領域として残す。ここで、閾値Tは第4の閾値の一例に相当する。
In step S2402, the extraction
ステップ2405では、所定の範囲以外にある候補領域あるいは候補領域内の文字の行数が所定の閾値T以上の候補領域を当該領域を候補領域から外す。これは文書画像の種別を示す情報は通常複数行の文書中に存在する可能性が低いことを利用したものである。上述のように、抽出情報同定部140は、第2抽出手段の処理対象とする領域を選択する領域選択手段の一例に相当する。
In step 2405, candidate areas outside the predetermined range or candidate areas with the number of lines of characters in the candidate area above the predetermined threshold T are excluded from the candidate areas. This is based on the fact that information indicating the type of document image is normally unlikely to exist in a document of a plurality of lines. As described above, the extraction
続いて、ステップS2406では、抽出情報同定部140は未処理の領域があるかどうかを判断します。まだ未処理の領域があれば、ステップS2402に入り、ステップS2402からステップS2405までの処理を繰り返して実行するが、未処理の領域がなければ、候補領域のフィルタリング処理を終了する。
Subsequently, in step S2406, the extraction
次に、ステップS240における候補領域の絞込み処理の一例について説明する。 Next, an example of the narrowing-down process of the candidate area in step S240 will be described.
図13は、本発明の第3の実施形態を示し、図11のステップS240における候補領域の絞込み処理の一例を示す模式図である。 FIG. 13 is a schematic view showing an example of the narrowing-down process of the candidate area in step S240 of FIG. 11 according to the third embodiment of the present invention.
1001は、ある文書画像における候補領域の設定結果例である。枠に囲まれる領域は、候補領域として設定されるものである。 Reference numeral 1001 denotes an example of setting results of candidate areas in a certain document image. The area enclosed by the frame is set as a candidate area.
1002は、種別抽出の場合、1001から候補領域のフィルタリングの結果例である。1001の候補領域から位置が一定範囲以内にある、しかも、複数行ではない枠に囲まれる領域のみが残る。これらの候補領域は同定処理の対象領域になる。 In the case of type extraction, 1002 is an example of the result of filtering of the candidate area from 1001 on. Only the area surrounded by a frame which has a position within a certain range from the candidate area 1001 and is not a plurality of lines remains. These candidate regions are the target regions of the identification process.
本実施形態では、抽出対象の特性に基づき候補領域を絞り、残った候補領域から抽出対象を同定するものである。本実施形態では、種別抽出を例に、種別情報の特性に基づき候補領域のフィルタリングの条件を設定したが、それ以外の条件を設定してもよい。また、他の情報を抽出する場合、当該抽出情報の特性に応じてフィルタリングの条件を設定してもよい。本実施形態では候補領域の絞り込みのために、候補領域の位置(ステップS2402)および候補領域内の文字の行数(ステップS2403)を用いたが、少なくとも一つの情報を用いることとしてもよい。 第3の実施形態によれば、第1の実施形態による効果に加え、情報抽出処理の効率を向上することが可能になる。 In the present embodiment, the candidate area is narrowed based on the characteristics of the extraction target, and the extraction target is identified from the remaining candidate areas. In the present embodiment, the condition of filtering of the candidate area is set based on the characteristics of the type information by taking the type extraction as an example, but other conditions may be set. Moreover, when extracting other information, you may set the conditions of filtering according to the characteristic of the said extraction information. In this embodiment, the position of the candidate area (step S2402) and the number of lines of characters in the candidate area (step S2403) are used to narrow down the candidate area, but at least one piece of information may be used. According to the third embodiment, in addition to the effects of the first embodiment, the efficiency of the information extraction process can be improved.
(第4の実施形態)
次に、本発明の第4の実施形態について説明する。
Fourth Embodiment
Next, a fourth embodiment of the present invention will be described.
上述した第3の実施形態では、文書画像の解析結果から候補領域を設定し、抽出対象の特性に応じて候補領域をフィルタリングし、対象となる候補領域から抽出対象を同定するものであった。第4の実施形態では、対象となる候補領域において、抽出対象らしさの順番を付けて、その抽出対象らしさ順で抽出対象を同定していくものである。 In the third embodiment described above, candidate areas are set from analysis results of a document image, candidate areas are filtered according to the characteristics of extraction targets, and extraction targets are identified from the candidate areas to be targets. In the fourth embodiment, in the candidate area to be an object, the order of the extraction object likeness is added, and the extraction object is identified in the order of the extraction object likeness.
ここで、第4の実施形態に係る情報処理システムのハードウェア構成は、図1に示す第1の実施形態に係る情報処理システムのハードウェア構成と同様であるため、その説明を省略する。また、第4の実施形態に係る情報処理システムの機能構成は、図1に示す第1の実施形態に係る情報処理システムの機能構成と同様であるため、その説明は省略する。 Here, the hardware configuration of the information processing system according to the fourth embodiment is the same as the hardware configuration of the information processing system according to the first embodiment shown in FIG. The functional configuration of the information processing system according to the fourth embodiment is the same as the functional configuration of the information processing system according to the first embodiment shown in FIG.
次に、本実施形態に係る情報処理方法の処理手順について説明する。 Next, the processing procedure of the information processing method according to the present embodiment will be described.
図14は、本発明の第4の実施形態に係る情報処理システムによる情報処理方法の処理手順の一例を示すフローチャートである。 FIG. 14 is a flowchart showing an example of the processing procedure of the information processing method by the information processing system according to the fourth embodiment of the present invention.
まず、ステップS310において、文書画像解析部110は紙文書の電子化された文書画像を解析し、文字領域や写真領域に分割する。具体的な処理はステップS110と同様である。
First, in step S310, the document
続いて、ステップS320において、候補領域設定部120は上記文書画像の解析結果から文字領域を抽出対象の候補となる領域を設定する。具体的な処理はステップS120と同様である。
Subsequently, in step S320, the candidate
続いて、ステップS330において、候補領域認識部130は上記候補領域にある文字列を認識し、認識情報を記録する。具体的な処理はステップS130と同様である。
Subsequently, in step S330, the candidate
続いて、ステップS340において、抽出情報同定部140は抽出対象の特性に基づき、上記候補領域を絞る。具体的な処理はステップS240と同様である。
Subsequently, in step S340, the extraction
続いて、ステップS350において、抽出情報同定部140は処理対象となる候補領域において、抽出対象らしさを計算し、抽出対象らしさの順番を付ける。すなわち、候補領域に対して処理の優先度を付与する。すなわち、抽出情報同定部140は第1抽出手段により抽出された領域に対して優先度を付与する付与手段の一例に相当する。抽出対象らしさの順番を付与する処理の詳細について後述する。
Subsequently, in step S350, the extraction
続いて、ステップS360において、抽出情報同定部140は上記候補領域の認識結果及び知識情報に基づき、ステップS350で決められる抽出対象らしさの順で、抽出対象領域を同定し、抽出対象中身を同定する。具体的な処理はステップS140と同様である。
Subsequently, in step S360, the extraction
次に、ステップS350における候補領域の抽出対象らしさの計算処理方法について説明する。 Next, the calculation processing method of the candidate area extraction target likelihood in step S350 will be described.
文書の種別領域は基本的に文書画像のタイトルらしい領域に該当する。タイトルは基本的に文書の上に位置する、文字サイズが大きい、また、中心線に寄せるといった特徴を持つ。しかし、医用文書のフォーマットが多種多様なため、種別領域は必ずしも上述の特性を持つわけではない。ここで、これらの特性を用いて、以下の式で候補領域の種別らしさを総合的に求めるようにする。
種別らしさ=w1*{文字サイズ}+w2*{中心線との近さの逆数}+w3*{上部にある領域数の逆数}
ここで、W1、W2、W3は各要素の重み付けである。重要視される要素に高い数値の重みを付ける。ここで、「上部」とは例えば文書画像全体の上部1/3の範囲内を示すが、これに限定されるものではない。なお、式1に示した種別らしさを示す値は3つの項のうち少なくとも1つの項目を用いることとしてもよい。また、上部にある領域数を求めるためには候補領域の位置を利用する。すなわち付与手段の一例である抽出情報同定部140は、第1抽出手段により抽出された領域の位置および領域に含まれる文字の大きさの少なくとも1つに基づいて優先度を付与する。
The document type area basically corresponds to the area that seems to be the title of the document image. The title is basically located above the document, large in character size, and centered on the center line. However, due to the wide variety of medical document formats, the type area does not necessarily have the above-mentioned characteristics. Here, these characteristics are used to comprehensively obtain the likeness of the candidate area according to the following equation.
Type likeness = w1 * {character size} + w2 * {reciprocal of proximity to center line} + w3 * {reciprocal of the number of areas at the top}
Here, W1, W2, and W3 are weightings of the respective elements. We give high numerical weight to the important elements. Here, “upper part” indicates, for example, the range of the upper one-third of the entire document image, but is not limited thereto. In addition, it is good also as using the value which shows the kind-likeness shown to
なお、式1に示した種別らしさを示す値は3つの項により求められているが、4つ以上の項目を用いて種別らしさを算出することとしてもよい。また、例えば、上記種別らしさを示す値が大きい領域から抽出情報同定部140の処理対象とする。
In addition, although the value which shows the classification likeness shown to
本実施形態では、候補領域の抽出対象らしさ(優先度)を計算し、抽出対象らしさ順で抽出対象を同定するものであった。本実施形態では、種別抽出を例に、抽出対象らしさに関わる要素として文字サイズ、領域の位置、領域の数を用いたが、それ以外の特性を使ってもよい。 In the present embodiment, the extraction target likelihood (priority) of the candidate area is calculated, and the extraction target is identified in the extraction target likelihood order. In the present embodiment, the type extraction is taken as an example, and the character size, the position of the area, and the number of areas are used as elements related to the likeness to be extracted, but other characteristics may be used.
第4の実施形態によれば、第1、第3の実施形態による効果に加え、抽出対象領域の可能性の高い候補領域から処理することが可能になり、更に抽出処理の効率性を向上することができるようになる。 According to the fourth embodiment, in addition to the effects of the first and third embodiments, processing can be performed from candidate areas with high probability of extraction target areas, and the efficiency of extraction processing is further improved. Will be able to
(第5の実施形態)
次に、第5の実施形態について説明する。
Fifth Embodiment
Next, a fifth embodiment will be described.
上述した第1、第2、第3及び第4の実施形態では、医用文書から種別情報を抽出する例を主として説明した。第5の実施形態では、医療文書から診療科情報、或いは、患者情報を抽出するものである。 In the first, second, third and fourth embodiments described above, examples of extracting type information from a medical document have been mainly described. In the fifth embodiment, medical department information or patient information is extracted from a medical document.
ここで、第5の実施形態に係る情報処理システムのハードウェア構成は、図1に示す第1の実施形態に係る情報処理システムのハードウェア構成と同様であるため、その説明を省略する。また、第5の実施形態に係る情報処理システムの機能構成は、図1に示す第1の実施形態に係る情報処理システムの機能構成と同様であるため、その説明は省略する。さらに、第5の実施形態に係る情報処理方法の処理手順は、図3に示す第1の実施形態に係る情報処理方法のステップS140を除いて同様であるため、ステップS110〜130の説明を省略する。 Here, the hardware configuration of the information processing system according to the fifth embodiment is the same as the hardware configuration of the information processing system according to the first embodiment shown in FIG. The functional configuration of the information processing system according to the fifth embodiment is the same as the functional configuration of the information processing system according to the first embodiment shown in FIG. Furthermore, since the processing procedure of the information processing method according to the fifth embodiment is the same as step S140 of the information processing method according to the first embodiment shown in FIG. 3, the description of steps S110 to 130 is omitted. Do.
種別抽出処理は基本的に種別領域の同定の後に、種別領域の中身による種別分類が必要なため、語尾情報による種別領域の同定、種別領域にある種別用語の抽出、種別同定の3ステップで処理される。診療科抽出は基本的に診療科名を抽出するためのものなので、診療科領域の同定、診療科領域にある診療科名の抽出の2ステップで処理する。患者情報の抽出は診療科抽出と同様である。 The classification extraction process basically requires classification of classification according to the contents of the classification area after identification of the classification area, so identification of the classification area according to the ending information, extraction of classification terms in the classification area, and classification identification are performed in three steps. Be done. Since the medical department extraction is basically for extracting the medical department name, it is processed in two steps of identification of the medical department area and extraction of the medical department name in the medical department area. Extraction of patient information is similar to that of medical department extraction.
ここで、本実施形態のステップS140における診療科抽出の同定処理について説明する。 Here, the identification processing of the medical department extraction in step S140 of this embodiment will be described.
図15は、本発明の第5の実施形態を示し、図3のステップS140における診療科の抽出処理の手順の一例を示すフローチャートである。 FIG. 15 is a flowchart showing the fifth embodiment of the present invention, and showing an example of the procedure of the medical department extraction process in step S140 of FIG.
先ず、ステップS4401では、候補領域設定部120は抽出情報同定部140に候補領域情報を入力する。
First, in step S4401, the candidate
続いて、ステップS4402では、抽出情報同定部140は処理対象となる候補領域に診療科語尾辞書にある語尾があるかどうかを判断する。
Subsequently, in step S4402, the extraction
語尾がある場合、ステップS4403では、抽出情報同定部140は当該候補領域を診療科領域として同定する。そして、ステップS4404では、抽出情報同定部140は当該領域に診療科用語辞書にある用語を診療科名として抽出する。
If there is an end, in step S4403, the extraction
語尾がない場合、ステップS4405では、未処理の候補領域があるかどうかを判断する。未処理の候補領域があれば、上記ステップS4402からステップS4404までの処理を繰り返して実行する。未処理の候補領域がなければ、候補領域のなかから診療科に該当する領域がないとし、診療科情報がないと判断する。 If there is no ending, it is determined in step S4405 whether there is an unprocessed candidate area. If there is an unprocessed candidate area, the processing from step S4402 to step S4404 is repeatedly executed. If there is no unprocessed candidate area, it is determined that there is no area corresponding to the medical department from the candidate areas, and it is determined that there is no medical department information.
本実施形態では、種別抽出の他、文書画像から診療科情報、或いは、患者情報を抽出するものであった。抽出対象に応じて、知識情報を置き換えればよい。 In the present embodiment, in addition to type extraction, medical department information or patient information is extracted from a document image. The knowledge information may be replaced according to the extraction target.
第5の実施形態によれば、第1、第2、第4の実施形態による効果に加え、種別情報以外の情報抽出も可能になる。 According to the fifth embodiment, in addition to the effects of the first, second, and fourth embodiments, extraction of information other than type information is also possible.
(第6の実施形態)
次に、第6の実施形態について説明する。
Sixth Embodiment
Next, a sixth embodiment will be described.
上述した第1、第2、第3、第4及び第5の実施形態では、種別、診療科、患者情報のうち1種類の情報のみを抽出する例を主として説明した。第6の実施形態では、文書画像から複数の情報を抽出する場合を説明する。 In the first, second, third, fourth and fifth embodiments described above, an example in which only one type of information is extracted among the type, medical department, and patient information has been mainly described. In the sixth embodiment, the case of extracting a plurality of pieces of information from a document image will be described.
ここで、第6の実施形態に係る情報処理システムのハードウェア構成は、図1に示す第1の実施形態に係る情報処理システムのハードウェア構成と同様であるため、その説明を省略する。また、第6の実施形態に係る情報処理システムの機能構成は、図2に示す第1の実施形態に係る情報処理システムの機能構成と同様であるため、その説明は省略する。 Here, the hardware configuration of the information processing system according to the sixth embodiment is the same as the hardware configuration of the information processing system according to the first embodiment shown in FIG. The functional configuration of the information processing system according to the sixth embodiment is the same as the functional configuration of the information processing system according to the first embodiment shown in FIG.
次に、本実施形態に係る情報処理システムによる情報処理方法の処理手順について説明する。 Next, the processing procedure of the information processing method by the information processing system according to the present embodiment will be described.
図16は、本発明の第6の実施形態に係る情報処理システムによる情報処理方法の処理手順の一例を示すフローチャートである。 FIG. 16 is a flowchart showing an example of the processing procedure of the information processing method by the information processing system according to the sixth embodiment of the present invention.
まず、ステップS510では、文書画像解析部110は紙文書の電子化された文書画像を分割する。具体的な処理はステップS110と同様である。
First, in step S510, the document
続いて、ステップS520では、候補領域設定部120は上記領域分割の結果から抽出対象の候補領域を設定する。具体的な処理はステップS120と同様である。
Subsequently, in step S520, the candidate
続いて、ステップS530では、候補領域認識部130は上記候補領域にある文字列を認識し、認識情報を記録する。具体的な処理はステップS130と同様である。
Subsequently, in step S530, the candidate
続いて、ステップS540では、抽出情報同定部140は、図17に示す情報を参照することで抽出対象が構造上の特性があるかどうかを判断する。
Subsequently, in step S540, the extraction
特性があると判断される場合、ステップS550では、抽出情報同定部140は抽出対象の特性に基づき候補領域を絞る。例えば、構造上の特性を有する種別情報を抽出する場合には抽出情報同定部140は候補領域を文書画像の上部に存在する候補領域に絞り込む。具体的な処理はステップS340と同様である。ここで、「上部」とは例えば文書画像全体の上部1/3の範囲内を示すが、これに限定されるものではない。
If it is determined that there is a characteristic, in step S550, the extraction
続いて、ステップS560では、抽出情報同定部140は図18に示す情報に基づいて抽出対象に応じて知識情報を切り替える。
Subsequently, in step S560, the extraction
続いて、ステップS570では、抽出情報同定部140は上記候補領域の認識結果及び知識情報に基づき抽出対象を同定する。具体的な処理はステップS140と同様である。なお、操作者が抽出対象を示す情報を登録部1に入力することで登録部1が抽出対象を把握できるようにしてもよいし、登録部1が所定の順序で抽出対象を自動的に切換えることで登録部1が抽出対象を把握することとしてもよい。
Subsequently, in step S570, the extraction
次に、抽出対象の構造上の特性有無、抽出対象の知識管理の一例について説明する。 Next, an example of presence / absence of structural characteristics of the extraction target and knowledge management of the extraction target will be described.
図17は、本発明の第6の実施形態を示し、図16に関わる抽出対象の構造上の特性有無、抽出対象の知識管理の一例を示す模式図である。 FIG. 17 shows a sixth embodiment of the present invention, and is a schematic view showing an example of presence or absence of structural characteristics of an extraction target and knowledge management of the extraction target concerning FIG.
1401は抽出対象の構造上の特性有無の管理表で、抽出対象は構造上の特性があるかどうかを記録するものである。種別情報は基本的に文書画像の上部にあるので、構造上の特性があるものとする。診療科情報と患者情報は文書画像のどこにも記述される可能性があるので、構造上の特性がないものとする。
1402は抽出対象の知識管理表で、抽出対象の抽出に必要な知識を管理するものである。種別抽出に種別抽出用の語尾辞書1、用語辞書1、更に分類に必要となる分類辞書1を用いる。診療科抽出に診療科抽出用の語尾辞書2、用語辞書2を用いる。患者情報抽出に患者情報抽出用の語尾辞書3を用いる。
Reference numeral 1402 denotes a knowledge management table to be extracted, which manages knowledge necessary for extracting the extraction target. For classification extraction, an
本実施形態では、複数の情報を抽出する場合、抽出対象の情報に応じて構造情報による候補領域の設定処理、抽出対象の同定処理に用いる知識情報を切り替えて行うものである。また、本実施形態では、抽出対象は構造上に特性がある場合、抽出対象の構造上の特性に基づき候補領域の絞込み処理を行うが、更に抽出対象の構造上の特性に基づき抽出対象らしさを計算し順位付け処理を行ってもよい。また、本実施形態では、複数の抽出情報の知識を別々に管理するものであったが、知識をまとめて管理してもよい。 In the present embodiment, when extracting a plurality of pieces of information, the knowledge information used for the setting process of the candidate area by the structure information and the identification process of the extraction target is switched according to the extraction target information. Further, in the present embodiment, when the extraction target has a characteristic on the structure, the narrowing-down processing of the candidate area is performed based on the structural characteristic of the extraction target, but the extraction target likeness is further It may be calculated and ranked. Further, in the present embodiment, knowledge of a plurality of pieces of extraction information is separately managed, but knowledge may be collectively managed.
第6の実施形態によれば、第1、第2、第3、第5の実施形態による効果に加え、複数の情報を抽出する場合、情報の特性を考慮する情報抽出の効率化が実現可能になる。 According to the sixth embodiment, in addition to the effects of the first, second, third and fifth embodiments, in the case of extracting a plurality of pieces of information, it is possible to realize the efficiency of the information extraction considering the characteristics of the information become.
なお、上述した第1、第2、第3、第4、第5及び第6の実施形態では、文書画像の解析結果から文字領域を抽出対象の候補領域として設定するであった。しかし、文字領域のみならず、所定範囲以内でその他の属性領域を抽出対象の候補領域として広く設定してもよい。また、上述した第1、第2、第3、第4及び第6の実施形態では、候補領域の文字認識及び知識に基づき抽出対象領域を同定し、抽出情報を同定するものであったが、候補領域の文字認識の結果を補正し、補正情報及び知識に基づき抽出対象を同定してもよい。 In the first, second, third, fourth, fifth and sixth embodiments described above, the character area is set as a candidate area to be extracted from the analysis result of the document image. However, not only the character area but also other attribute areas may be widely set as candidate areas to be extracted within a predetermined range. In the first, second, third, fourth and sixth embodiments described above, the extraction target area is identified based on the character recognition and knowledge of the candidate area, and the extraction information is identified. The character recognition result of the candidate area may be corrected, and the extraction target may be identified based on the correction information and the knowledge.
(第7の実施形態)
次に、第7の実施形態について説明する。
Seventh Embodiment
Next, a seventh embodiment will be described.
上述した第1、第2、第3、第4、第5及び第6の実施形態では、文書画像の解析により抽出対象となる情報を抽出するものであった。第7の実施形態では、院内システム(例えば、電子カルテシステム)に格納される診療情報及び文書画像の両方を解析し情報を抽出するものである。 In the first, second, third, fourth, fifth and sixth embodiments described above, the information to be extracted is extracted by analyzing the document image. In the seventh embodiment, both medical information and document images stored in a hospital system (for example, an electronic medical record system) are analyzed to extract information.
ここで、第7の実施形態に係る情報処理システムのハードウェア構成は、図1に示す第1の実施形態に係る情報処理システムのハードウェア構成と同様であるため、その説明を省略する。また、第7の実施形態に係る情報処理システムの機能構成は、図2に示す第1の実施形態に係る情報処理システムの機能構成と同様であるため、その説明は省略する。 Here, the hardware configuration of the information processing system according to the seventh embodiment is the same as the hardware configuration of the information processing system according to the first embodiment shown in FIG. The functional configuration of the information processing system according to the seventh embodiment is the same as the functional configuration of the information processing system according to the first embodiment shown in FIG.
次に、本実施形態に係る情報処理システムによる情報処理方法の処理手順について説明する。 Next, the processing procedure of the information processing method by the information processing system according to the present embodiment will be described.
図18は、本発明の第7の実施形態に係る情報処理システムによる情報処理方法の処理手順の一例を示すフローチャートである。 FIG. 18 is a flowchart showing an example of the processing procedure of the information processing method by the information processing system according to the seventh embodiment of the present invention.
まず、ステップS610では、抽出情報同定部140は文書画像から患者番号を抽出する。患者番号の抽出処理は上記第5の実施形態を使用することができる。
First, in step S610, the extraction
続いて、ステップS620では、抽出情報同定部140は電子カルテシステムから当該患者の関連情報を取り出す。関連情報は種別分類に関わるものとする。関連情報の詳細については後述する。
Subsequently, in step S620, the extraction
続いて、ステップS630では、抽出情報同定部140は種別分類の関連情報があるかどうかを確認する。関連情報があれば、ステップS640では、関連情報を用いて種別分類を絞る。関連情報がなければ、ステップS650に入る。
Subsequently, in step S630, the extraction
続いて、ステップS650では、種別分類から種別を同定する。種別の抽出処理は上記第1、第2、第4の実施形態の何れかを使用することができる。 Subsequently, in step S650, the type is identified from the type classification. The type extraction process can use any one of the first, second and fourth embodiments.
次に、本実施形態に係る情報処理システムによる情報処理の一例について説明する。 Next, an example of information processing by the information processing system according to the present embodiment will be described.
図19は、本発明の第7の実施形態を示し、図18の情報処理の一例を示す模式図である。 FIG. 19 is a schematic view showing the seventh embodiment of the present invention and showing an example of the information processing of FIG.
1601は、電子カルテシステムにおける診療情報の構造情報の記述例である。基本情報に患者情報、診察日、初診か再診を含む。また、診療情報としてS(主訴)O(所見)A(検査)P(計画)が含まれる。 Reference numeral 1601 is an example of description of structure information of medical care information in the electronic medical record system. Basic information includes patient information, examination date, and first visit or reexamination. Moreover, S (main complaint) O (finding) A (examination) P (plan) is included as medical treatment information.
1602は、電子カルテの診療情報に含まれる種別分類に関わる関連情報例である。基本情報の中に、例えば、初診、或いは、再診といった用語が挙げられる。また、診療情報の中に、例えば、手術予定、或いは、入院治療といった用語が挙げられる。 Reference numeral 1602 denotes an example of related information related to type classification included in medical care information of an electronic medical record. The basic information includes, for example, terms such as a first visit or a revisit. Further, among the medical care information, for example, terms such as scheduled surgery or hospitalization treatment may be mentioned.
1603は、本来種別抽出処理に用いる分類辞書である。 Reference numeral 1603 denotes a classification dictionary originally used for the type extraction process.
基本情報から種別分類に関わる用語を抽出し、種別分類候補を絞込む処理例では、先ず、1601から「初診」という関連情報が抽出される。「初診」の場合、文書画像が同意書や記録・報告などの種別の可能性がないので、それを種別候補から除外する。そして、「初診」と関連付け可能な種別番号「01」、「10」から種別を判定し、分類する。 In the processing example of extracting terms relating to type classification from basic information and narrowing down type classification candidates, first, related information of “first visit” is extracted from 1601. In the case of "first visit", the document image has no possibility of the type such as a written consent or a record / report, so it is excluded from the type candidates. Then, the type is determined from the type numbers “01” and “10” that can be associated with the “first visit” and classified.
また、診療情報から種別分類に関わる用語を抽出する場合は、上記と同様に、抽出される関連用語に対応する範囲の種別分類から文書画像の種別を同定する。 Further, when extracting a term relating to type classification from medical care information, the type of document image is identified from the type classification of the range corresponding to the extracted related term in the same manner as described above.
本実施形態では、電子カルテシステムから抽出情報と関連する内容を取り出し、抽出情報候補を絞るものである。本実施形態では、電子カルテシステムの利用を例にしたが、それ以外の関連システムと連携してもよい。また、本実施形態では、種別抽出に関連する情報を例に挙げたが、それ以外の関連情報を設定してもよい。また、本実施形態では、種別抽出を例に説明したが、診療科抽出、或いは、それ以外の情報抽出にしてもよい。さらに、本実施形態では、関連情報により種別分類候補を絞り、可能性のある種別分類から種別を同定するものであった。しかし、第1、第2、第3、第4、第5の実施例のように、種別分類を先に同定に、関連情報から絞った種別分類で抽出結果の確認を行う処理方法にしてもよい。 In the present embodiment, contents related to the extracted information are taken out from the electronic medical record system, and the extracted information candidates are narrowed down. In the present embodiment, the use of the electronic medical record system is taken as an example, but it may be linked with other related systems. Further, in the present embodiment, the information related to type extraction has been described as an example, but other related information may be set. Further, in the present embodiment, the type extraction has been described as an example, but medical department extraction or other information extraction may be performed. Furthermore, in the present embodiment, classification classification candidates are narrowed down based on the related information, and the classification is identified from the possible classifications. However, as in the first, second, third, fourth, and fifth embodiments, the classification method may be identified first, and the extraction result may be confirmed by the classification classified from related information. Good.
第7の実施形態によれば、第1、第2、第3、第4、第6の実施形態による効果に加え、関連システムと連携した情報抽出仕組みの実現が可能になる。 According to the seventh embodiment, in addition to the effects of the first, second, third, fourth and sixth embodiments, it is possible to realize an information extraction mechanism in cooperation with a related system.
(第8の実施形態)
次に、第8の実施形態について説明する。
Eighth Embodiment
Next, an eighth embodiment will be described.
上述した第1、第2、第3、第4、第5、第6及び第7の実施形態では、医用向け非定型文書を対象に種別情報等を自動的に情報を抽出するものであった。第8の実施形態では、一般分野の非定型文書における情報抽出に関するものである。 In the first, second, third, fourth, fifth, sixth and seventh embodiments described above, type information etc. is automatically extracted for medical non-fixed form documents. . The eighth embodiment relates to information extraction in an atypical document in the general field.
例えば、銀行の場合は、口座開設をはじめ、融資取組や、住宅ローンなどの業務に関連するドキュメントとデータのキャプチャは、基本的は手作業で行うのが現状である。例えば、米ドル建ての外国送金の場合では、米国OFAC規制により、取引の関係当事者の所在地に禁止取引国、また、問題のある法人・個人等が含まれているかどうかを確認する作業は非常に手間がかかるため、業務の効率化のサポートが必要である。 For example, in the case of a bank, capturing of documents and data related to operations such as opening an account, lending, and mortgage is basically performed manually. For example, in the case of US dollar denominated foreign remittances, it is very time-consuming to check whether the related parties of the transaction include prohibited trading countries or problematic corporations / individuals, etc. according to the US OFAC regulations. Support for business efficiency.
ここで、業務効率の向上に、様々なフォーマットを有するドキュメントから必要な情報を自動的に抽出し、ドキュメントを分類する第8の実施形態として挙げる。第8の実施形態に係る情報処理システムのハードウェア構成は、図1に示す第1の実施形態に係る情報処理システムのハードウェア構成と同様であるため、その説明を省略する。また、第8の実施形態に係る情報処理システムの機能構成は、図2に示す第1の実施形態に係る情報処理システムの機能構成と同様であるため、その説明は省略する。また、第3の実施形態に係る情報処理システムのハードウェア構成は、図2に示す第1の実施形態に係る情報処理システムのハードウェア構成と同様であるため、その説明も省略する。また、第8の実施形態に係る情報処理方法の処理手順は、図3に示す第1の実施形態に係る情報処理方法のステップS140を除いて同様であるため、ステップS110〜130の説明は省略する。 Here, in order to improve the work efficiency, necessary information is automatically extracted from documents having various formats, and the documents are classified as an eighth embodiment. The hardware configuration of the information processing system according to the eighth embodiment is the same as the hardware configuration of the information processing system according to the first embodiment shown in FIG. The functional configuration of the information processing system according to the eighth embodiment is the same as the functional configuration of the information processing system according to the first embodiment shown in FIG. Also, the hardware configuration of the information processing system according to the third embodiment is the same as the hardware configuration of the information processing system according to the first embodiment shown in FIG. In addition, since the processing procedure of the information processing method according to the eighth embodiment is the same as step S140 of the information processing method according to the first embodiment shown in FIG. 3, the description of steps S110 to 130 is omitted. Do.
次に、ステップS140における知識に基づく抽出対象の同定処理について説明する。 Next, identification processing of an extraction target based on knowledge in step S140 will be described.
図20は、本発明の第8の実施形態を示し、図3のステップS140における知識に基づく抽出対象を同定し、取引規制対象であるかどうかの確認作業支援の手順の一例を示すフローチャートである。 FIG. 20 is a flow chart showing an eighth embodiment of the present invention, identifying an extraction target based on the knowledge in step S140 of FIG. .
先ず、ステップS7401では、候補領域設定部120は候補領域情報を抽出情報同定部140に入力する。
First, in step S7401, the candidate
続いて、抽出情報同定部140はステップS7402からステップS7406において、基本抽出項目内容に該当するかどうかをチェックし、取引規制対象の判断を行う。以下、詳細に説明する。
Subsequently, in steps S7402 to S7406, the extraction
ステップS7402では、抽出情報同定部140は基本抽出項目nを取り出す。そして、ステップS7403では、基本抽出項目nに対応する中身mを取り出す。
In step S7402, the extraction
そして、ステップS7404では、候補情報の中に、上記基本抽出項目nの中身mに該当するものがあるかどうかをチェックする。上記基本抽出項目nの中身mに該当するものがあれば、当該文書は更に精査する必要があると判断し、ステップS7407の処理に入る。上記基本抽出項目nの中身mに該当するものがなければ、ステップS7405に入り、基本項目nの中身をすべてチェックしたかどうかを確認する。まだ未チェックの中身があれば、ステップS7403に入り、ステップS7403からステップS7404までの処理を繰り返して実行する。基本抽出項目nの中身はすべてチェックする場合、ステップS7406では、基本抽出項目はすべてチェックしたかどうかを確認する。まだ未チェックの基本抽出項目があれば、ステップS7402に入り、ステップS7402からステップS7406までの処理を繰り返して実行する。すべでの基本抽出項目において、すべでの基本項目の中身に該当するものがなければ、ステップS7412に入り、本文書画像は規制対象外と判断する。 Then, in step S7404, it is checked whether there is any candidate information that corresponds to the content m of the basic extraction item n. If there is any that corresponds to the content m of the basic extraction item n, it is determined that the document needs to be further examined, and the processing of step S7407 is entered. If there is nothing corresponding to the content m of the basic extraction item n, the process proceeds to step S7405, where it is checked whether all the content of the basic item n have been checked. If there is still unchecked content, step S7403 is entered, and the processing from step S7403 to step S7404 is repeated and executed. If all contents of the basic extraction item n are checked, it is checked in step S7406 whether all basic extraction items have been checked. If there are still unchecked basic extraction items, step S7402 is entered, and the processing from step S7402 to step S7406 is repeated and executed. In all the basic extraction items, if there is nothing corresponding to the contents of all the basic items, step S7412 follows and it is determined that the document image is not subject to restriction.
ステップS7407からステップS7413は、ステップS7404で基本抽出項目の中身に該当するものがある場合の精査処理である。以下、詳細に説明する。 Steps S7407 to S7413 are scrutinizing processes in the case where there is an item corresponding to the contents of the basic extraction item in step S7404. The details will be described below.
ステップS7407では、抽出項目を取り出す。そして、ステップS7408では、抽出項目n’に対応する中身m’を取り出す。 In step S7407, the extraction item is extracted. Then, in step S7408, the content m 'corresponding to the extraction item n' is extracted.
そして、ステップS7409では、候補情報の中に、上記抽出項目n’の中身m’に該当するものがあるかどうかをチェックする。上記抽出項目n’の中身m’に該当するものがあれば、ステップS7413に入り、当該文書を規制対象と判断する。上記抽出項目n’の中身m’に該当するものがなければ、ステップS74010に入り、抽出項目n’の中身をすべてチェックしたかどうかを確認する。まだ未チェックの中身があれば、ステップS7408に入り、ステップS7408からステップS7409までの処理を繰り返して実行する。抽出項目nの中身はすべてチェックする場合、ステップS7411では、抽出項目はすべてチェックしたかどうかを確認する。まだ未チェックの抽出項目があれば、ステップS7407に入り、ステップS7407からステップS7411までの処理を繰り返して実行する。すべでの抽出項目において、すべでの抽出項目の中身に該当するものがなければ、ステップS7412に入り、本文書画像は規制対象外と判断する。 Then, in step S7409, it is checked whether or not there is any candidate information that corresponds to the content m 'of the extraction item n'. If there is anything corresponding to the content m 'of the extraction item n', step S7413 is entered and it is determined that the document is to be restricted. If there is nothing corresponding to the content m 'of the extraction item n', step S74010 is entered to check whether all the content of the extraction item n 'has been checked. If there is still unchecked content, the processing proceeds to step S7408, and the processing from step S7408 to step S7409 is repeated and executed. If all contents of the extracted item n are checked, it is checked in step S7411 whether all the extracted items have been checked. If there is an extraction item that has not been checked yet, step S7407 is entered, and the processes from step S7407 to step S7411 are repeated and executed. If the contents of all the extracted items do not correspond to the contents of all the extracted items, the process proceeds to step S7412 and it is determined that the document image is not subject to restriction.
次に、本実施形態に係る情報処理システムによる情報処理の一例について説明する。 Next, an example of information processing by the information processing system according to the present embodiment will be described.
図21は、本発明の第8の実施形態を示し、図20の情報処理の一例を示す模式図である。 FIG. 21 is a schematic view showing an eighth embodiment of the present invention and showing an example of the information processing of FIG.
1801は、海外送金業務用の帳票例である。取引規制対象のチェック対象項目として、楕円で囲まれる送金通貨、国名、取引人が挙げられる。 1801 is an example of a form for overseas remittance business. Items to be checked for transaction control include the remittance currency, country name, and trader surrounded by an ellipse.
1802は、取引規制対象のチェックに用いる知識例である。知識情報は、18030基本抽出項目、18040抽出項目、18031基本抽出項目に含む各項目の中身リスト、18041、18042抽出項目に含む各項目の中身リストから構成される。例えば、18030基本抽出項目01「送金通貨」の中身番号は「0101」で、内容は「USD」として設定される。また、例えば、18040抽出項目11「国名」に対応する中身リストが複数あり、順番にリストアップされる。また、日本語だけではなく、他言語での記述も対応付けて記録されている。
上記情報処理では、基本抽出項目として設定されている「送金通貨」「USD」に該当するものがあれば、精査対象とする。そして、更に抽出項目として設定されている取引禁止国名のリスト、または、抽出項目として設定されている問題のある法人・個人のリストに該当するかどうかをチェックする。 In the above-mentioned information processing, if there is one that corresponds to “remittance currency” and “USD” set as basic extraction items, it is considered as a scrutiny target. Then, it is checked whether or not it corresponds to the list of trade prohibited country names set as extraction items, or the list of problematic companies / individuals set as extraction items.
本実施形態では、金融業務の知識を利用し、金融帳票から自動的に情報抽出するものである。本実施形態では、金融業務の中に、海外送金業務を例にしたが、それ以外の文書画像関連の業務に適用してもよい。また、海外送金業務の自動化の例では、チェックする項目を基本抽出項目と抽出項目に分けて管理する例を挙げたが、まとめて管理してもよいし、それ以外の構造にしてもよい。 In the present embodiment, information is automatically extracted from a financial form using knowledge of financial business. In the present embodiment, the overseas remittance business is taken as an example of the financial business, but the present invention may be applied to other business related to document images. Moreover, although the example which divides and checks the item to check into a basic extraction item and an extraction item was given in the example of automation of overseas remittance business, you may manage collectively and you may make it the structure of other than that.
第8の実施形態によれば、ターゲットと設定される分野の情報抽出において、必要となる知識を置き換えて、本提案のアーキテクチャを適用すれば、医療以外の業務にも適用が可能になる。 According to the eighth embodiment, if the proposed architecture is applied by replacing the necessary knowledge in the information extraction of the field to be set as a target, the application to non-medical work becomes possible.
上述した第1、第2、第3、第4、第5、第6、第7及び第8の実施形態では、スキャン文書画像から情報抽出するものであったが、カメラ撮影画像を情報抽出処理対象にしてもよい。その際に、カメラ入力画像用の画像補正処理を加えればよい。 In the first, second, third, fourth, fifth, sixth, seventh and eighth embodiments described above, information is extracted from a scanned document image. It may be a target. At that time, an image correction process for a camera input image may be added.
(他の実施形態)
なお、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録したコンピュータ可読の記憶媒体を、システムあるいは装置に供給することによっても、達成されることは言うまでもない。また、システムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読出し実行することによっても、達成されることは言うまでもない。
(Other embodiments)
It goes without saying that the object of the present invention can also be achieved by supplying a computer readable storage medium storing a program code of software that implements the functions of the above-described embodiments to a system or apparatus. Needless to say, this can also be achieved by the computer (or CPU or MPU) of the system or apparatus reading out and executing the program code stored in the storage medium.
この場合、記憶媒体から読出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。 In this case, the program code itself read out from the storage medium implements the functions of the above-described embodiments, and the storage medium storing the program code constitutes the present invention.
プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、不揮発性のメモリカード、ROMなどを用いることができる。 As a storage medium for supplying the program code, for example, a flexible disk, a hard disk, an optical disk, a magneto-optical disk, a CD-ROM, a CD-R, a non-volatile memory card, a ROM or the like can be used.
また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現される。また、プログラムコードの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態が実現される場合も含まれることは言うまでもない。 Also, the functions of the above-described embodiment are realized by executing the program code read by the computer. In addition, a case where the OS (Operating System) or the like operating on the computer performs a part or all of the actual processing based on the instructions of the program code, and the above-described embodiment is realized by the processing is also included. Needless to say.
なお、上記の複数の実施形態を組み合わせることとしてもよい。 The above plurality of embodiments may be combined.
110 文書画像解析部
120 候補領域設定部
130 候補領域認識部
140 抽出情報同定部
150 登録部
110 document
Claims (11)
前記複数の領域から第1の文字を含む領域を抽出する第2抽出手段と、
前記第2抽出手段によって抽出された領域から前記医療文書データの診療科情報を抽出する第3抽出手段と、
を備え、
前記第1の文字は「科」を含むことを特徴とする情報処理装置。 First extraction means for extracting a plurality of regions from imaged medical document data;
A second extraction means for extracting a region including a first character from said plurality of regions,
Third extraction means for extracting medical department information of the medical document data from the area extracted by the second extraction means;
Equipped with
An information processing apparatus characterized in that the first character includes "family" .
前記第2抽出手段は、前記選択された領域から前記第1の文字を含む領域を抽出することを特徴とする請求項1または請求項2に記載の情報処理装置。 The apparatus further comprises area selecting means for selecting an area to be processed by the second extracting means based on the information on the areas extracted by the first extracting means.
It said second extraction means, the information processing apparatus according to claim 1 or claim 2, characterized in that extracting a region including the first character from the selected region.
前記領域選択手段は、前記文書データにおける所定の範囲にあり、且つ、含まれる文字の行数が第4の閾値以下の前記第1抽出手段により抽出された領域を選択することを特徴とする請求項3記載の情報処理装置。 The information on the area is information indicating at least one of the position of the area extracted by the first extraction unit and the characters included in the area extracted by the first extraction unit.
The area selecting means selects an area extracted by the first extracting means which is within a predetermined range in the document data and in which the number of lines of contained characters is equal to or less than a fourth threshold. The information processing apparatus according to Item 3.
前記第2抽出手段は、前記優先度に基づいた順序で前記第1の文字を含む領域を抽出することを特徴とする請求項1乃至4のいずれか1項に記載の情報処理装置。 The apparatus further comprises an assigning unit that assigns a priority to the area extracted by the first extracting unit.
Said second extraction means, information processing apparatus according to any one of claims 1 to 4, characterized in that extracting a region including the first character in the order based on the priority.
前記複数の領域から第1の文字を含む領域を抽出する第2抽出工程と、
前記第2抽出工程において抽出された領域から前記医療文書データの診療科情報を抽出する第3抽出工程と、
を備え、
前記第1の文字は「科」を含むことを特徴とする情報処理方法。 A first extraction step of extracting a plurality of regions from imaged medical document data;
A second extraction step of extracting a region including a first character from said plurality of regions,
A third extraction step of extracting medical department information of the medical document data from the area extracted in the second extraction step;
Equipped with
An information processing method characterized in that the first character includes "family" ;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014263172A JP6529254B2 (en) | 2014-12-25 | 2014-12-25 | INFORMATION PROCESSING APPARATUS, INFORMATION PROCESSING METHOD, PROGRAM, AND STORAGE MEDIUM |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014263172A JP6529254B2 (en) | 2014-12-25 | 2014-12-25 | INFORMATION PROCESSING APPARATUS, INFORMATION PROCESSING METHOD, PROGRAM, AND STORAGE MEDIUM |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016122404A JP2016122404A (en) | 2016-07-07 |
JP6529254B2 true JP6529254B2 (en) | 2019-06-12 |
Family
ID=56329009
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014263172A Active JP6529254B2 (en) | 2014-12-25 | 2014-12-25 | INFORMATION PROCESSING APPARATUS, INFORMATION PROCESSING METHOD, PROGRAM, AND STORAGE MEDIUM |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6529254B2 (en) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6753370B2 (en) * | 2017-07-12 | 2020-09-09 | 京セラドキュメントソリューションズ株式会社 | Document reader |
JP6516337B2 (en) * | 2017-10-10 | 2019-05-22 | 株式会社フロンティア・フィールド | Reading system and reading program |
JP7031465B2 (en) * | 2018-04-18 | 2022-03-08 | 富士フイルムビジネスイノベーション株式会社 | Information processing equipment and programs |
JP7107743B2 (en) * | 2018-05-22 | 2022-07-27 | 日鉄ソリューションズ株式会社 | Information processing system, information processing method and program |
JP2021131612A (en) * | 2020-02-18 | 2021-09-09 | 日本ユニシス株式会社 | Foreign remittance processing system, foreign remittance management device and program |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08164365A (en) * | 1994-12-12 | 1996-06-25 | Toshiba Corp | Address reader |
JPH08224550A (en) * | 1995-02-20 | 1996-09-03 | Toshiba Corp | Address region processing apparatus |
JP2000210624A (en) * | 1999-01-26 | 2000-08-02 | Hitachi Ltd | Mail address recognition device |
JP2001314820A (en) * | 2001-03-23 | 2001-11-13 | Nec Corp | Device for detecting address region |
JP5356905B2 (en) * | 2009-04-28 | 2013-12-04 | 株式会社Pfu | Document management apparatus, image reading apparatus, document management system, document management method, and program |
-
2014
- 2014-12-25 JP JP2014263172A patent/JP6529254B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016122404A (en) | 2016-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10366123B1 (en) | Template-free extraction of data from documents | |
RU2571545C1 (en) | Content-based document image classification | |
CN103294746B (en) | For the method and system for going identification in visual media data | |
JP6529254B2 (en) | INFORMATION PROCESSING APPARATUS, INFORMATION PROCESSING METHOD, PROGRAM, AND STORAGE MEDIUM | |
US20210366055A1 (en) | Systems and methods for generating accurate transaction data and manipulation | |
US20200005032A1 (en) | Classifying digital documents in multi-document transactions based on embedded dates | |
US9710769B2 (en) | Methods and systems for crowdsourcing a task | |
JP2016048444A (en) | Document identification program, document identification device, document identification system, and document identification method | |
US20210209551A1 (en) | System and method for automatic analysis and management of a workers' compensation claim | |
JP6736012B2 (en) | Information processing apparatus, information processing method, program, and form reading system | |
US9311529B2 (en) | Image processing apparatus, image processing method, and non-transitory computer readable medium | |
US10614125B1 (en) | Modeling and extracting elements in semi-structured documents | |
CN113168527A (en) | System and method for extracting information from entity documents | |
US20150227690A1 (en) | System and method to facilitate patient on-boarding | |
Pandey et al. | AI-based Integrated Approach for the Development of Intelligent Document Management System (IDMS) | |
JP6917400B2 (en) | Document review support method, document review support device and computer program | |
CN114783559B (en) | Medical image report information extraction method and device, electronic equipment and storage medium | |
JP7021496B2 (en) | Information processing equipment and programs | |
JP2016200899A (en) | Information processing apparatus, information processing method, and program | |
Wu et al. | Automatic semantic knowledge extraction from electronic forms | |
JP5207810B2 (en) | Term input support apparatus and method, and program | |
US10229315B2 (en) | Identification of duplicate copies of a form in a document | |
JP2008176625A (en) | Device and method for managing character recognition result, and computer program | |
JP2007280413A (en) | Automatic input device of financial statement | |
JP6504812B2 (en) | INFORMATION PROCESSING APPARATUS, INFORMATION PROCESSING METHOD, PROGRAM, AND STORAGE MEDIUM |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20171218 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20181017 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181023 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181219 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190416 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190514 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6529254 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |