JP2023081564A - Information representation pattern generation device and method - Google Patents
Information representation pattern generation device and method Download PDFInfo
- Publication number
- JP2023081564A JP2023081564A JP2021195367A JP2021195367A JP2023081564A JP 2023081564 A JP2023081564 A JP 2023081564A JP 2021195367 A JP2021195367 A JP 2021195367A JP 2021195367 A JP2021195367 A JP 2021195367A JP 2023081564 A JP2023081564 A JP 2023081564A
- Authority
- JP
- Japan
- Prior art keywords
- information
- information representation
- pattern
- expression
- information expression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 23
- 238000007405 data analysis Methods 0.000 claims abstract description 23
- 238000004458 analytical method Methods 0.000 claims abstract description 14
- 230000014509 gene expression Effects 0.000 claims description 203
- 238000012937 correction Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 description 28
- 238000012545 processing Methods 0.000 description 20
- 238000010586 diagram Methods 0.000 description 15
- 230000036541 health Effects 0.000 description 13
- 230000006870 function Effects 0.000 description 12
- 238000004891 communication Methods 0.000 description 10
- 238000012790 confirmation Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 102000001554 Hemoglobins Human genes 0.000 description 1
- 108010054147 Hemoglobins Proteins 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000011976 chest X-ray Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 150000003626 triacylglycerols Chemical class 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Abstract
Description
本発明は、データ分析を支援するための技術に関する。その中でも特に、分析対象である情報表現から情報抽出するための定義付けを行う技術に関する。 The present invention relates to technology for supporting data analysis. In particular, it relates to a technique for defining information for extracting information from information representations to be analyzed.
なお、情報表現とは、何らかの情報が記録されたもので、文書、帳票、書類、書籍、ソースコードなど情報を表現したものであり、紙媒体に記録されたものの他、電子的な情報も含まれる。 In addition, information expression is a record of some kind of information, such as documents, forms, documents, books, source code, etc., and includes electronic information as well as those recorded on paper media. be
現在、データの有効利用のために、データサイエンスの重要性が高まっている。また、人工知能や機械学習の進歩により、データ分析の精度も高まっている。ここで、データ分析のためには、その対象となるデータを収集することが必要である。このデータ収集の対象物として、文書などの情報表現が用いられることがある。特に、紙媒体に記載された情報表現として、帳票が用いられることがある。この場合、情報表現の一種である帳票に記載された内容を認識し、その結果を用いて、データ分析が実行される。 Currently, the importance of data science is increasing for effective use of data. In addition, advances in artificial intelligence and machine learning have increased the accuracy of data analysis. Here, for data analysis, it is necessary to collect target data. Information representations such as documents are sometimes used as objects for this data collection. In particular, forms are sometimes used as information representations written on paper media. In this case, the content described in the form, which is a type of information expression, is recognized, and data analysis is performed using the result.
ここで、認識対象である帳票など情報表現は、様々なレイアウト、形式が混在していることが多々存在する。例えば、作成元ごとの形式で帳票が作成されることがある。このため、文書の認識において、レイアウトや形式といった位置情報を用いることがなされている。例えば、特許文献1では、「文書の2次元的表現を利用して、文書に関する認識を促進する階層構造を抽出する」ことが開示されている。このため、特許文献1では、「レイアウト構造(たとえば、段組、著者、タイトル、脚注など)およびその同類の認識が可能になるので、文書の構造コンポーネントを正確に解釈できる」。
In many cases, various layouts and formats are mixed in information expressions such as forms to be recognized. For example, a form may be created in a format for each creator. For this reason, positional information such as layout and format is used in document recognition. For example,
以上のように、特許文献1では、情報表現の一種である文書中に含まれるテキスト表現からレイアウト構造を機械的に認識し、テキストの位置を示すメタ情報である構造コンポーネントを特定できる。ここで、データ分析の対象となる情報表現は、様々な形式が混在、つまり、非定型であることが多い。また、データ分析のためには、必要な情報の情報抽出することが重要でとなる。この情報抽出とは、その意味を特定して、情報を抽出することである。したがって、情報抽出を行うためには、情報表現における意味を定義付けすることが必要となる。この定義付けには、項目の意味を定義した定義情報を用意することが考えられる。
As described above, in
しかし、非定型の情報表現について、定義情報を用意することは、手間が掛かり困難であった。これは、非定型の情報表現は、レイアウトや形式も多種多様であり、また、新たなレイアウト、形式の情報表現も追加されることがあるためである。特許文献1では、このような非定型の情報表現の一種である非定型文書での定義情報を用意することについては考慮されていなかった。このため、従来技術においては、手作業で定義情報を生成する必要があり、手間が膨大になると課題が存在する。
However, it is troublesome and difficult to prepare definition information for atypical information expressions. This is because atypical information representations have a wide variety of layouts and formats, and new layouts and formats of information representations are sometimes added. In
上記課題を解決するために、本発明では、非定型の情報表現の各項目について、定義できる情報表現パターンを生成する。より具体的には、情報表現からデータ分析に用いられる情報を抽出するために、前記情報表現を構成する項目を定義付けするための情報表現パターンを生成する情報表現パターン生成装置において、前記項目に関する定義を示す説明を含む情報表現テンプレートの集合で構成される情報表現テンプレート表を記憶する記憶部と、前記データ分析の対象となる情報表現の入力を受け付け、受け付けられた前記情報表現を構成する項目および当該項目の記載内容を特定する情報表現構成解析部と、特定された前記項目および記載内容と、前記情報表現テンプレート表の情報表現テンプレートを突き合せて対応関係を判定する情報表現テンプレート検索部と、前記対応関係の判定結果に応じて、特定された前記項目を前記情報表現テンプレートに組み合わせることで、特定された前記項目と前記情報表現テンプレートの説明が対応付けられた情報表現パターンを生成する情報表現パターン組合せ部を有する情報表現パターン生成装置である。 In order to solve the above problems, the present invention generates definable information representation patterns for each item of non-standard information representation. More specifically, in an information expression pattern generation device for generating an information expression pattern for defining items constituting the information expression in order to extract information used for data analysis from the information expression, a storage unit for storing an information expression template table composed of a set of information expression templates including explanations indicating definitions; and receiving input of the information expression to be subjected to the data analysis, and items constituting the received information expression. and an information representation configuration analysis unit that identifies the description content of the item; and an information representation template search unit that matches the specified item and description content with the information representation template of the information representation template table to determine a correspondence relationship. and information for generating an information representation pattern in which the specified item and the description of the information representation template are associated with each other by combining the specified item with the information representation template according to the determination result of the correspondence relationship. An information expression pattern generation device having an expression pattern combination unit.
また、本発明には、情報表現パターン生成装置を用いた情報表現パターン生成方法や情報表現パターン生成装置をコンピュータとして機能させるプログラムやこれを記憶した記憶媒体も含まれる。さらに、情報表現パターンを用いたデータ分析も本発明の一態様である。 The present invention also includes an information representation pattern generation method using the information representation pattern generation device, a program for causing the information representation pattern generation device to function as a computer, and a storage medium storing the same. Furthermore, data analysis using information expression patterns is also an aspect of the present invention.
本発明によれば、より容易に情報表現パターンを生成でき、データ分析の効率化に寄与できる。 According to the present invention, an information expression pattern can be generated more easily, contributing to efficiency improvement of data analysis.
以下、本発明の一実施形態を、図面を用いて説明する。本実施形態では、情報表現として、帳票の一種である健康診断書を例に説明する。図1Aおよび図1Bに、本実施形態で用いられる健康診断書101aおよび101bを示す。健康診断書101aと101bは、それぞれ氏名、生年月日等の被診断者の属性と、身長、ヘモグロビン、中性脂肪等の診断結果が記入される記入欄(項目)が設けられている。
An embodiment of the present invention will be described below with reference to the drawings. In the present embodiment, a medical certificate, which is a type of form, will be described as an example of information representation. 1A and 1B show
但し、健康診断書101aおよび101bは、その記入欄の配置、大きさなどが異なっている。つまり、健康診断書のレイアウトが異なっている。また、記入される情報の形式も異なっている。例えば、「胸部X線」の欄については、健康診断書101aが撮影年月日および異常所見を記録するのに対して、健康診断書101bでは、「正常範囲」との記載がされている。特に、健康診断書101aでは異常所見が選択制(なし・あり)に対し、健康診断書101bでは、所見がテキストで記入されている。
However, the medical examination forms 101a and 101b differ in the arrangement and size of the entry fields. In other words, the layout of the health certificate is different. Also, the format of the information entered is different. For example, in the column of "chest X-ray", the date of imaging and abnormal findings are recorded in the
以上のように、健康診断書でも様々なレイアウト、形式が存在している。このため、これらに対し、共通的に利用できる情報表現パターンを用意する必要がある。この情報表現パターンとは、情報表現を構成する項目を定義付けするための情報である。そして、本実施形態での情報表現パターンは、情報表現を構成する項目と項目に関する定義を示す説明が対応付けられて構成している。以下、本実施形態では、情報表現(健康診断書)からの情報表現パターンの生成について説明する。 As described above, there are various layouts and formats for medical examination reports. Therefore, it is necessary to prepare an information expression pattern that can be commonly used for these. This information expression pattern is information for defining items constituting information expression. The information expression pattern in the present embodiment is configured by associating items constituting the information expression with explanations indicating definitions of the items. In this embodiment, generation of an information expression pattern from an information expression (health certificate) will be described below.
まず、本実施形態における情報表現パターンの生成前後それぞれにおける健康診断書のプログラムコードについて、説明する。図2は、本実施形態における情報表現パターンの生成前の健康診断書のプログラムコード201を示す図である。プログラムコード201では、「検査年月日」や「診断日」とのテキストに日付(date)が記載されている記入欄(項目)を、「Registration Date」として定義付け(202)している。このため、情報表現パターンの生成前、つまり、テンプレート化していないと、各項目について、健康診断書の種類分の定義を行ったプログラムコードを生成する必要がある。
First, the program code of the medical certificate before and after the generation of the information expression pattern in this embodiment will be described. FIG. 2 is a diagram showing the
これに対して、図3は、本実施形態における情報表現パターンの生成後の健康診断書のプログラムコード301を示す図である。つまり、図3は、テンプレート化した健康診断書のプログラムコード301を示す図である。図3において、プログラムコード301は、その種別(Type)、定義(Description)、テンプレートコード(Template Code)で構成される。このため、健康診断書の種類が異なっていても、これらの構成の内容を変えるのみに容易に対応できる。このように、本実施形態では、プログラムコード301の形式を統一化するための情報表現パターンを生成する。
On the other hand, FIG. 3 is a diagram showing the
次に、図4は、本実施形態における情報表現パターン生成装置401の構成を示す構成図である。図4において、情報表現パターン生成装置401は、記憶装置411、CPU412、メモリ413および通信装置414を有し、これらはバスのような通信路を介して互いに接続されている。また、情報表現パターン生成装置401は、いわゆるコンピュータで実現できる。
Next, FIG. 4 is a configuration diagram showing the configuration of the information expression
ここで、記憶装置411は、情報、データを記憶する機能を有し、HDD(Hard Disk Drive)やSSD(Solid State Drive)などのいわゆるストレージ、記憶媒体で実現できる。そして、記憶装置411は、情報表現パターン生成装置401をコンピュータとして機能させるためのプログラム421、情報表現テンプレート表422および情報表現パターン423を記憶する。なお、記憶装置411は、情報表現パターン生成装置401を構成する「記憶部」とも表現できる。
Here, the
このプログラム421はメモリ413に展開され、これに従って後述するフローチャートに示す処理がCPU412で実行される。つまり、プログラム421は、メモリ413を図4に示す各部として機能させる。このため、プログラム421は、情報表現構成解析プログラム、情報表現パターン生成プログラムおよび情報表現パターン提案プログラムが含まれる。ここで、情報表現構成解析プログラムは、情報表現構成解析部431を機能させるためのプログラムである。また、情報表現パターン生成プログラムは、情報表現パターン生成部432を機能させるためのプログラムである。さらに、情報表現パターン提案プログラムは、情報表現パターン確認部433を機能させるためのプログラムである。なお、情報表現構成解析部431、情報表現パターン生成部432および情報表現パターン確認部433は、専用ハードウエアやFPGA(field-programmable gate array)などを用いて実現してもよい。
This
また、情報表現テンプレート表422は、情報表現を構成する項目に関する定義を示す説明を含む情報表現テンプレートの集合で構成される。このため、必ずしも「表」である必要はなく、情報表現テンプレートを少なくとも1つ含む情報であればよい。さらに、情報表現テンプレート表422は、予め入力装置416に対する利用者の操作に応じて、作成されることが可能である。
In addition, the information representation template table 422 is composed of a set of information representation templates including explanations indicating definitions of items constituting the information representation. For this reason, it does not necessarily have to be a "table", and information containing at least one information expression template may be used. Furthermore, the information representation template table 422 can be created in advance according to the user's operation on the
ここで、本実施形態における情報表現テンプレート表422を図5Aに示す。図5Aにおいて、情報表現テンプレート表422は、情報表現テンプレートごとに、グループ501、情報表現テンプレート名502および説明503を有する。グループ501は、情報表現テンプレートをその特性に応じて分類したグループを示す。グループには、項目のレイアウトで定義するレイアウト型、項目の位置を示す位置関係、項目を表の構造として定義する表構造、項目の記載形式で定義されるデータ型が含まれる。なお、情報表現テンプレート表422において、グループ501は省略可能である。
FIG. 5A shows the information representation template table 422 in this embodiment. 5A, information representation template table 422 has
また、情報表現テンプレート名502は、該当の情報表現テンプレートの名称である。なお、情報表現テンプレート名502の代わりないしこれに加えて情報表現テンプレートを識別する情報を用いてもよい。また、説明503は、該当の情報表現テンプレートの示す定義の内容を示す。
The information
次に、図5Bは、本実施形態における情報表現パターン423を示す図である。また、情報表現パターン423は、情報表現テンプレート表422に対して、項目504が追加されている。このことで、情報表現パターン423は、情報表現からデータ分析に用いられる情報を抽出するために、情報表現の各項目を定義付けている。ここで、項目504は、該当の情報表現テンプレートの説明503が、各項目(項目A、B・・・)で定義付けとして用いられるかを示す情報が記録される。図5Bの例では、「〇」は用いられることを示し、「-」は用いられないことを示す。
このように、情報表現パターン423は、情報表現における定義の内容(説明503)とこれが用いられるかを示す情報(項目504)の組合せで構成される。特に、本実施形態では、情報表現パターン423は、用いられるか否かを表のうちでもマトリクス状に構成している。
Next, FIG. 5B is a diagram showing an
In this way, the
但し、情報表現パターン423は、表ないしマトリクス状でなくともよい。またさらに、本実施形態では、情報表現パターン423は、情報表現テンプレート表422を含む形で構成しているが、本構成に限定されない。例えば、項目504自身を情報表現パターン423として用いる。この際、項目504の各レコードと、情報表現テンプレート表422の各レコードとの対応関係(リンク)を管理することが望ましい。なお、情報表現テンプレート表422や情報表現パターン423の内容については、処理フローを説明する際にも言及する。
However, the
次に、CPU412について説明する。CPU412は、いわゆるプロセッサであり、メモリ413に展開された各プログラムに従って、処理を行う。つまり、図4でメモリ413に記載した各部として機能する。
Next, the
次に、メモリ413は、上述のように各プログラムやこれらが用いる情報が展開される記憶媒体である。本実施形態では、メモリ413は、情報表現構成解析部431、情報表現パターン生成部432および情報表現パターン確認部433を有する。
Next, the
ここで、情報表現構成解析部431は、情報の抽出対象である情報表現(健康診断書)の構成を解析するものである。そして、情報表現構成解析部431は、テキスト情報抽出部441、構造情報抽出部442および情報表現項目特定部443を有する。これら各部の機能については、処理フローを説明する際に合わせて説明する。
Here, the information representation
また、情報表現パターン生成部432は、情報表現構成解析部431の解析結果や情報表現テンプレート表422を用いて、情報表現パターン423を生成する。そして、情報表現パターン生成部432は、情報表現テンプレート検索部451および情報表現パターン組合せ部452を有する。これらの機能についても処理フローを説明する際に合わせて説明する。またさらに、情報表現パターン確認部433は、生成された情報表現パターン423を、利用者に対して提示する。このために、情報表現パターン確認部433は、情報表現パターン照合部461および情報表現パターン提案部462を有する。これらの機能についても処理フローを説明する際に合わせて説明する。
Also, the information representation
次に、通信装置414は、ネットワークやその他接続出段を介して、他の装置と通信、接続する。この接続先としては、非定型情報表現管理装置402、表示装置415や入力装置416が含まれる。なお、通信装置414は、情報表現パターン生成装置401を構成する「通信部」とも表現できる。
非定型情報表現管理装置402は、情報の抽出対象である情報表現(健康診断書)を管理するものである。このために、非定型情報表現管理装置402は、少なくとも情報表現(健康診断書)を記憶している。非定型情報表現管理装置402は、例えば、サーバのようなコンピュータやデータベースで実現できる。
The atypical information
また、表示装置415や入力装置416は、情報表現パターン生成装置401の利用者が利用するものである。このため、表示装置415は、情報表現パターン生成装置401での処理結果や入力装置416での入力内容などを表示する。
A
また、入力装置416は、利用者からの入力を受け付け、通信装置414を介して情報表現パターン生成装置401に出力する。さらに、入力装置416は、情報の抽出対象、つまり、情報表現パターン423の生成に用いられる情報表示の入力を行う。このため、入力装置416は、キーボード、マウスやスキャナで実現できる。
なお、表示装置415および入力装置416は、PC、スマートフォンなどの端末装置として実現できる。さらに、表示装置415および入力装置416を、タッチパネルなど一体で構成してもよいしし、情報表現パターン生成装置401と一体として構成してもよい。
Also, the
Note that the
以上で、本実施形態の構成や情報の説明を終わり、以下、処理フローについて説明する。図6は、本実施形態における情報表現パターン423の生成処理を示すフローチャートである。本フローチャートでは、情報表現パターン生成装置401が、非定型情報表現管理装置402もしくは入力装置416からの情報表現である健康診断書101を用いて、情報表現パターン423を生成する。
This concludes the description of the configuration and information of the present embodiment, and the processing flow will be described below. FIG. 6 is a flowchart showing processing for generating the
ステップS601において、情報表現構成解析部431が、受け付けられた健康診断書101から、テキスト情報および表構造情報を抽出する。このために、まず、通信装置414が、非定型情報表現管理装置402から情報表現を受信したり、入力装置416から情報表現が入力されたりする。この際、数百枚など複数の健康診断書101が受け付けられ、ステップS601以降の処理は、健康診断書101の項目ごとに、ループ処理として実行される。
In step S601, the information representation
ステップS601のより具体的な処理は、テキスト情報抽出部441が文字認識技術を用いて、テキスト情報を抽出する。この際、テキスト情報抽出部441は、テキスト情報の種別(アルファベットや数字など)や健康診断書101での記載位置を特定する。図1Aの健康診断書101aの例では、「身長」「177.2cm」について、それぞれ「漢字」「数字+単位」であることや健康診断書101a上の原点に対する位置(左上方等)が特定される。
More specifically, in step S601, the text
また、構造情報抽出部442が、健康診断書101から表構造情報を抽出する。この表構造情報には、情報表現のレイアウトを示す情報、表の構造が含まれる。健康診断書101aの場合、「検査年月日」が右上方で、表が中央部に位置するといった健康診断書101全体のレイアウトを示す情報や「14行5列」で一部分割部分ありといった表の種類、構造が特定される。
Also, the structure
次に、ステップS602において、情報表現構成解析部431の情報表現項目特定部443が、受け付けられた健康診断書101の情報表現項目を特定する。この情報表現項目とは、項目504に該当する情報であり、健康診断書101に記載されている項目を示す。ここで、上述のとおり、項目504は情報表現パターン423として用いることが可能である。このため、本ステップには、健康診断書101の情報表現パターンを特定するとの態様も含まれる。
Next, in step S602, the information representation
このステップS602のために、情報表現項目特定部443は、利用者から入力装置416を介して入力される抽出対象項目やその特徴を受け付ける。例えば、情報抽出対象項目として「身長」や、特徴として「(数字)データ」を受け付ける。そして、情報表現項目特定部443は、これらに該当する項目を特定し、その集合として、健康診断書101の情報表現項目(項目504)を特定する。
For this step S602, the information representation
次に、ステップS603において、情報表現パターン生成部432が、ステップS601およびステップS602の結果を用いて、情報表現パターンを生成する。以下、図7を用いて、ステップS603の詳細を説明する。なお、次のステップS604以降で、本ステップで生成された情報表現パターンの確認等を行っている。これらステップS604以降の処理を省略し、ステップS603で生成された情報表現パターンを最終的な情報表現パターン423としてもよい。
Next, in step S603, the information representation
図7は、本実施形態におけるステップS603の詳細を示すフローチャートである。本フローチャートが示す処理は、情報表現パターン生成部432で実行される。
FIG. 7 is a flowchart showing details of step S603 in this embodiment. The processing shown in this flowchart is executed by the information expression
まず、ステップS701において、情報表現テンプレート検索部451が、ステップS601で受け付けられた健康診断書101について、抽出先の正解例の入力を受け付ける。この正解例とは、健康診断書101の記載内容(情報)と項目の対応関係を特定するものである。以下、表示装置415に「健康診断書101a」が対象として表示されている場合を例に説明する。入力装置416が利用者の操作に従って、記載内容として「177.2cm」を受け付ける。そして、同じく入力装置416が、項目の正解例として「身長」との入力を受け付ける。この結果、情報表現テンプレート検索部451が、記載内容「177.2cm」と項目「身長」の組合せを正解例として受け付けることになる。
First, in step S701, the information expression
次に、ステップS702において、情報表現テンプレート検索部451が、情報表現テンプレート表422の各情報表現テンプレートについて、受け付けられた正解例を判定する。つまり、情報表現テンプレート検索部451は、各情報表現テンプレートを情報表現テンプレート表422から抽出し、これと正解例を突き合せる。そして、情報表現テンプレート検索部451は、その対応関係が「真(TRUE)」「偽(FALSE)」もしくは「棄権(ABSTAIN)」のいずれであるかを判定する。ここで、「真(TRUE)」とは対応関係が正しいことを意味し、「偽(FALSE)」は正しくないことを意味する。但し、「真(TRUE)」「偽(FALSE)」はいずれも何らの対応関係を有するのに対し、「棄権(ABSTAIN)」は全くの無関係を意味する。例えば、図1Aの健康診断書101aの正解例の1つである「身長」の「177.2cm」に関して、情報表現テンプレートが「4行2列」が示す場合は、「真(TRUE)」と判定される。これに対して、「身長」の「177.2cm」に関して、情報表現テンプレートが「表外」を示す場合、「棄権(ABSTAIN)」と判定される。
Next, in step S 702 , the information expression
次に、ステップS703において、情報表現テンプレート検索部451が、ステップS702において、「棄権(ABSTAIN)」でないと判定した情報表現テンプレートを、情報表現テンプレート表422から検索する。なお、ここでは、「真(TRUE)」もしくは「偽(FALSE)」と判定してもよい。そして、情報表現テンプレート検索部451は、この判定結果をメモリ413に記録する。さらに、情報表現テンプレート検索部451は、判定結果として、この判定率を算出し、これを記録することが望ましい。判定率とは、「棄権(ABSTAIN)」でないと判定した割合を示し、判定率が高いほど当該情報表現テンプレートを利用すべきと判断できる。
Next, in step S703, the information expression
次に、ステップS704において、情報表現テンプレート検索部451が、受け付けられた各健康診断書101について、ステップS703までの処理を行ったかを判定する。つまり、各健康診断書101に対して、「棄権(ABSTAIN)」でないと判定した情報表現テンプレートの抽出が終了したかが判定される。終了したと判定された場合(YES)、ステップS705に遷移する。終了していないと判定された場合(NO)、ステップS701に戻り処理を継続する。
Next, in step S704, the information expression
また、ステップS705において、情報表現テンプレート検索部451が、健康診断書101ごとに、最も正解例に寄与した情報表現テンプレートを特定する。ここで、最も正解例に寄与したとは、ステップS703で検索された、つまり、「棄権(ABSTAIN)」以外と判定された数の最も多いこと示す。このために、メモリ413に記録された判定結果が用いられる。また、「棄権(ABSTAIN)」以外と判定された数の代わりに、上述の判定率を用いることも可能である。またさらに、本ステップでは、情報表現テンプレート表422に含まれる情報表現テンプレートから特定がされる。
Also, in step S705, the information expression
次に、ステップS706において、情報表現パターン組合せ部452が、ステップS705で特定された情報表現テンプレートに対して、正解例である項目を組み合わせる。つまり、情報表現パターン組合せ部452は、情報表現テンプレート表422において該当情報表現テンプレートに、項目を対応付ける。このことで、図5Bと同様の情報表現パターンが生成させることになる。なお、本ステップの組合せ対象は、完成したもしくはその途中の情報表現パターンをしてもよい。つまり、情報表現テンプレート表422を核として、逐次項目を追加することで、情報表現パターン423を完成させていくことが可能である。
Next, in step S706, the information expression
また、本ステップにおいては、さらに排他関係を考慮した組み合せ処理を行ってもよい。つまり、情報表現パターン組合せ部452は、情報表現パターン423の各項目504を、1つの情報表現テンプレートに対して限定的に組み合わせる。より好適には、情報表現パターン組合せ部452は、グループ501ごとに、1つの情報表現テンプレートに対して限定的に組み合わせることが望ましい。図5Bに示すように、項目A、項目Bのそれぞれは、グループ501ごとに、1つのレコード(情報表現テンプレート)が対応付けられている。
Further, in this step, combination processing may be performed in consideration of the exclusive relationship. That is, the information representation
以上で、図7を用いたステップS603の説明を終わり、図6の説明に戻る。次に行われるステップS604~S608は、情報表現パターン確認部433を用いた、生成された情報表現パターンの確認処理である。まず、ステップS604において、情報表現パターン提案部462が、表示装置415に生成された情報表現パターンを表示させる。つまり、生成された情報表現パターンを提案する。この結果、利用者が生成された情報表現パターンを確認できる。
This completes the description of step S603 using FIG. 7, and returns to the description of FIG. Steps S 604 to S 608 that are performed next are confirmation processing of the generated information expression pattern using the information expression
図8に、生成された情報表現パターンの表示内容800を示す。図8に示す表示内容は、グループ801、情報表現テンプレート名802、説明803および項目804からなり、それぞれ図5Bに示すグループ501、情報表現テンプレート名502、説明503および項目504に対応している。ここで、項目804の「レ点」(チェック部)は、それぞれ対応する情報表現テンプレートが該当の項目で利用されることを示している。例えば、「身長」については、#1、#4および#7の情報表現テンプレートが使用可能であることを示している。利用者はこの内容を確認し、入力装置416を用いて、修正する箇所があれば、入力装置416を用いて修正することができる。例えば、「身長」の#1のレ点を外したり、#2にレ点を追加したりできる。この場合、情報表現パターン組合せ部452が、利用者の修正指示に応じて、組合せ(情報表現パターン423)を修正することになる。
FIG. 8 shows
次に、ステップS605において、情報表現パターン照合部461が、生成された情報表現パターンを使用して、受け付けられた健康診断書101を対象に、抽出対象項目である情報を抽出する。情報表現パターン照合部461が、生成された情報表現パターンを実際の健康診断書101に照合することで、本ステップを実行する。
Next, in step S605, the information expression
次に、ステップS606において、情報表現パターン照合部461が、ステップS605での抽出結果を表示装置415に表示させる。この結果、利用者が情報表現パターンを使用された抽出結果を確認できる。ここで、図9に、この抽出結果を示す表示内容900を示す。情報表現テンプレートの判定結果を示す表示内容900は、抽出項目選択901、ファイル選択902、情報表現テンプレートの判定結果903および健康診断書表示904の各領域を有する。なお、以下では、情報表現パターンの確認として、これを構成する情報表現テンプレートに該当する部分を確認することなる。このため、以下では、これらを情報表現テンプレートと称する。
Next, in step S606, the information expression
まず、抽出項目選択901は、抽出対象となる項目を選択するための領域で、本実施形態ではプルダウンメニューで実現できる。また、ファイル選択902は、健康診断書101を選択するための領域であり、個々の健康診断書101をファイル名で選択できるようにしている。ファイル選択902についても、本実施形態ではプルダウンメニューで実現できる。そして、情報表現パターン照合部461は、ファイル選択902に対する入力装置416への利用者の操作に応じて、選択された健康診断書101を、健康診断書表示904に表示させる。また、情報表現パターン照合部461は、抽出項目選択901で選択された抽出項目を健康診断書表示904で表示させることができる。なお、抽出項目については、入力装置416への利用者の操作に応じて、図示したような枠線を、健康診断書表示904上で移動させて選択させることも可能である。
First, an
また、情報表現テンプレートの判定結果903は、上述のようにして選択された健康診断書101の抽出項目についての抽出結果を、情報表現テンプレート表422と同様の形式で表示される。つまり、情報表現テンプレートごとに、番号(#)、グループ、情報表現テンプレート名を有する。なお、図9では、内容を省いているが、これを情報表現テンプレートの判定結果903に含めてもよい。そして、各情報表現テンプレートに対し、判定結果が対応付けられている。また、図9においては、情報表現テンプレート名に、その内容を記載している。
The information expression
さらに、本実施形態では、情報表現テンプレートの判定結果903の下部に、「File1~10の情報表現テンプレート判定結果から、「心電図」のオススメ情報表現テンプレートを提案する」ための実行ボタンを表示する。これを、入力装置416を用いて利用者が指定することで、情報表現パターン照合部461は、「オススメ情報表現テンプレート」を作成し、提示する。つまり、情報表現パターン照合部461は、組み合わせ相手として推奨する情報表現テンプレートを表示装置415に表示させる。
Furthermore, in the present embodiment, an execution button for "proposing a recommended information expression template of 'electrocardiogram' based on the information expression template judgment results of
図10に、推奨する情報表現テンプレートの表示内容1000を示す。抽出結果を示す表示内容900は、抽出項目選択1001、オススメ情報表現テンプレート1002、情報表現テンプレートの判定結果(詳細)1003およびオススメ情報表現テンプレートを使用した場合の抽出結果1004の各領域を有する。
FIG. 10 shows display
まず、抽出項目選択1001は、抽出項目選択901と同様に抽出対象となる項目を選択するための領域で、本実施形態ではプルダウンメニューで実現できる。オススメ情報表現テンプレート1002は、推奨される情報表現テンプレートが表示される。そして、情報表現パターン照合部461は、入力装置416への利用者の操作に応じて、指定された情報表現テンプレートの説明を表示させることも可能である。
First, an
また、情報表現テンプレートの判定結果(詳細)1003は、情報表現テンプレートの判定結果903の詳細を示すもので、判定としてファイル(健康診断書101)ごとの判定結果とその判定率も表示される。このために、情報表現パターン照合部461は、メモリ413に記録された情報表現テンプレート検索部451の判定結果を用いる。なお、情報表現テンプレートの判定結果(詳細)1003では、判定率が所定以上のものを他と区別して表示してもよい。最後に、抽出結果1004は、図8のファイル選択902と健康診断書表示904の双方が表示される。以上で、ステップS606の説明を終わる。
The determination result (details) 1003 of the information representation template indicates the details of the
次に、ステップS607において、情報表現パターン照合部461は、通信装置414を介して、入力装置416からステップS606の抽出結果が十分であるかを受け付ける。このために、入力装置416は、利用者からの抽出結果に対する判断結果を受け付ける。この結果、十分である場合(YES)、ステップS608に遷移する。また、十分でない場合(NO)、ステップS603に戻る。この場合、ステップS606で利用者から受け付けた条件を反映してステップS603を実行することが望ましい。
Next, in step S607, the information expression
そして、ステップS608において、情報表現パターン照合部461は、ステップS604~S608の確認処理で確認された結果を、情報表現パターン423として記憶装置411に登録する。なお、情報表現パターン組合せ部452が、ステップS603において自身で生成したものを情報表現パターン423として登録してもよい。この場合、ステップS604~S607の処理は省略可能である。
Then, in step S608, the information representation
以上で、本実施形態の処理フローの説明を終了する。最後に、本実施形態の一実現例について説明する。本実施形態の情報表現パターン生成装置401は、いわゆるスタンドアロンなどのPCやネットワークを介して利用されるサーバ、クラウドシステムで実現できる。ここでは、クラウドシステムでの実現例を説明する。図11は、本実施形態をクラウドシステムで実現した実現例を示す図である。情報表現パターン生成装置401は、ネットワーク110を介して、他の装置と接続される。他の装置には、データベースで実現可能な非定型情報表現管理装置402、端末装置111a~111dやデータ分析装置112が存在する。
This completes the description of the processing flow of the present embodiment. Finally, an implementation example of this embodiment will be described. The information expression
ここで、非定型情報表現管理装置402は、本実施形態で情報表現の一例として記載した複数の健康診断書101が格納されている。また、データ分析装置112は、本実施形態で生成された情報表現パターン423を用いて各種データ分析を実行するコンピュータ(サーバ)である。なお、データ分析装置112の機能は、情報表現パターン生成装置401に設けてもよい。さらに、データ分析装置112は、自身もしくは外付け記憶装置に、情報表現パターン423を記憶していることが望ましい。また、データ分析装置112は、外部のデータベースや情報表現パターン生成装置401に記憶された情報表現パターン423を利用できる構成としてもよい。これらの場合、データ分析装置112は、データ分析にあたり情報表現パターン423を利用できる。
Here, the atypical information
また、端末装置111a~111dは、それぞれ表示装置415や入力装置416を有するコンピュータで実現できる。このように複数の端末装置111a~111dを用いることで、情報表現パターン生成装置401やデータ分析装置112を利用できる。ここで、端末装置111a~111dとネットワーク110の接続は有線、無線を問わない。特に、端末装置は、端末装置111dとして図示したように無線で通信するタブレットやスマートフォンで実現できる。またさらに、ネットワーク110は各種通信ができればよく、その種別は問わない。このため、ネットワーク110は、インターネットやイントラネットで実現できる。
Also, the
以上で、本実施形態の説明を終わるが、本発明は本実施形態に限定されない。特に、情報表現は、健康診断書101に限らず、各種文書などを用いることができる。
This is the end of the description of this embodiment, but the present invention is not limited to this embodiment. In particular, the information expression is not limited to the
401…情報表現パターン生成装置、402…非定型情報表現管理装置、411…記憶装置、412…CPU、413…メモリ、414…通信装置、415…表示装置、416…入力装置、421…プログラム、422…情報表現テンプレート表、423…情報表現パターン、431…情報表現構成解析部、432…情報表現パターン生成部、433…情報表現パターン確認部、441…テキスト情報抽出部、442…構造情報抽出部、443…情報表現項目特定部、451…情報表現テンプレート検索部、452…情報表現パターン組合せ部、461…情報表現パターン照合部、462…情報表現パターン提案部 401... Information expression pattern generation device, 402... Atypical information expression management device, 411... Storage device, 412... CPU, 413... Memory, 414... Communication device, 415... Display device, 416... Input device, 421... Program, 422 ... information expression template table, 423 ... information expression pattern, 431 ... information expression configuration analysis unit, 432 ... information expression pattern generation unit, 433 ... information expression pattern confirmation unit, 441 ... text information extraction unit, 442 ... structure information extraction unit, 443... Information expression item identification unit, 451... Information expression template search unit, 452... Information expression pattern combination unit, 461... Information expression pattern matching unit, 462... Information expression pattern proposal unit
Claims (14)
前記項目に関する定義を示す説明を含む情報表現テンプレートの集合で構成される情報表現テンプレート表を記憶する記憶部と、
前記データ分析の対象となる情報表現の入力を受け付け、受け付けられた前記情報表現を構成する項目および当該項目の記載内容を特定する情報表現構成解析部と、
特定された前記項目および記載内容と、前記情報表現テンプレート表の情報表現テンプレートを突き合せて対応関係を判定する情報表現テンプレート検索部と、
前記対応関係の判定結果に応じて、特定された前記項目を前記情報表現テンプレートに組み合わせることで、特定された前記項目と前記情報表現テンプレートの説明が対応付けられた情報表現パターンを生成する情報表現パターン組合せ部を有する情報表現パターン生成装置。 In an information expression pattern generation device for generating an information expression pattern for defining items constituting the information expression in order to extract information used for data analysis from the information expression,
a storage unit for storing an information representation template table composed of a set of information representation templates including explanations indicating definitions of the items;
an information expression configuration analysis unit that receives an input of an information expression to be subjected to data analysis, and specifies items that make up the received information expression and description content of the item;
an information expression template search unit for determining a correspondence relationship by matching the identified item and description with the information expression template of the information expression template table;
Information representation for generating an information representation pattern in which the specified item and the description of the information representation template are associated with each other by combining the specified item with the information representation template according to the determination result of the correspondence relationship. An information representation pattern generation device having a pattern combiner.
前記情報表現パターン組合せ部は、生成された前記情報表現パターンに、特定された前記項目を追加することで、前記情報表現パターンを完成させる情報表現パターン生成装置。 In the information representation pattern generation device according to claim 1,
The information representation pattern combination unit is an information representation pattern generation device that completes the information representation pattern by adding the specified item to the generated information representation pattern.
前記情報表現テンプレート表は、前記情報表現テンプレートを特性に応じて分類したグループごとに記録する情報表現パターン生成装置。 In the information representation pattern generation device according to claim 1,
The information expression template table is an information expression pattern generation device in which the information expression templates are recorded for each group classified according to characteristics.
前記情報表現パターン組合せ部は、前記グループごとに、前記項目を1つの情報表現テンプレートに対して組み合わせる情報表現パターン生成装置。 In the information representation pattern generation device according to claim 3,
The information expression pattern combination unit is an information expression pattern generation device that combines the items with one information expression template for each group.
さらに、前記対応関係の判定結果に応じて、組み合わせ相手として推奨する情報表現テンプレートを、表示装置に表示させる情報表現パターン提案部を有する情報表現パターン生成装置。 In the information representation pattern generation device according to claim 1,
Further, the information expression pattern generation device has an information expression pattern proposal unit that causes a display device to display an information expression template recommended as a combination partner in accordance with the determination result of the correspondence relationship.
前記情報表現パターン組合せ部は、利用者の修正指示に応じて、生成された前記情報表現パターンを修正する情報表現パターン生成装置。 In the information representation pattern generation device according to claim 1,
The information representation pattern combination unit is an information representation pattern generation device that modifies the generated information representation pattern according to a user's correction instruction.
前記情報表現テンプレート検索部は、前記対応関係の判定として、当該対応関係が棄権でないと判定した割合を示す判定率を算出し、
前記情報表現パターン組合せ部は、前記判定率を用いる情報表現パターン生成装置。 In the information representation pattern generation device according to any one of claims 1 to 6,
The information expression template search unit calculates, as the determination of the correspondence relationship, a determination rate indicating a percentage of determinations that the correspondence relationship is not abstained,
The information representation pattern combination unit is an information representation pattern generation device that uses the determination rate.
記憶部に、前記項目に関する定義を示す説明を含む情報表現テンプレートの集合で構成される情報表現テンプレート表を記憶しておき、
情報表現構成解析部により、前記データ分析の対象となる情報表現の入力を受け付け、受け付けられた前記情報表現を構成する項目および当該項目の記載内容を特定し、
情報表現テンプレート検索部により、特定された前記項目および記載内容と、前記情報表現テンプレート表の情報表現テンプレートを突き合せて対応関係を判定し、
情報表現パターン組合せ部により、前記対応関係の判定結果に応じて、特定された前記項目を前記情報表現テンプレートに組み合わせることで、特定された前記項目と前記情報表現テンプレートの説明が対応付けられた情報表現パターンを生成する情報表現パターン生成方法。 In an information expression pattern generation method for generating an information expression pattern for defining items constituting the information expression in order to extract information used for data analysis from the information expression using an information expression pattern generation device,
storing in the storage unit an information expression template table composed of a set of information expression templates including explanations indicating definitions of the items;
receiving an input of an information expression to be analyzed by the information expression configuration analysis unit, identifying items constituting the accepted information expression and descriptions of the items;
an information expression template search unit matching the identified items and descriptions with the information expression template of the information expression template table to determine a correspondence relationship;
Information in which the specified item and the description of the information representation template are associated with each other by combining the specified item with the information representation template by an information representation pattern combining unit according to the determination result of the correspondence relation. An information expression pattern generation method for generating an expression pattern.
前記情報表現パターン組合せ部により、生成された前記情報表現パターンに、特定された前記項目を追加することで、前記情報表現パターンを完成させる情報表現パターン生成方法。 In the information representation pattern generation method according to claim 8,
An information representation pattern generating method for completing the information representation pattern by adding the specified item to the generated information representation pattern by the information representation pattern combination unit.
前記情報表現テンプレート表は、前記情報表現テンプレートを特性に応じて分類したグループごとに記録する情報表現パターン生成方法。 In the information representation pattern generation method according to claim 8,
The information representation template table is an information representation pattern generation method in which the information representation templates are recorded for each group classified according to characteristics.
前記情報表現パターン組合せ部により、前記グループごとに、前記項目を1つの情報表現テンプレートに対して組み合わせる情報表現パターン生成方法。 In the information representation pattern generation method according to claim 10,
An information expression pattern generating method in which the information expression pattern combination unit combines the items with one information expression template for each group.
情報表現パターン提案部により、前記対応関係の判定結果に応じて、組み合わせ相手として推奨する情報表現テンプレートを、表示装置に表示させる情報表現パターン生成方法。 In the information representation pattern generation method according to claim 8,
An information expression pattern generation method for displaying, on a display device, an information expression template recommended as a combination partner by an information expression pattern proposing unit according to the determination result of the correspondence relationship.
前記情報表現パターン組合せ部により、利用者の修正指示に応じて、生成された前記情報表現パターンを修正する情報表現パターン生成方法。 In the information representation pattern generation method according to claim 8,
An information expression pattern generation method for correcting the generated information expression pattern by the information expression pattern combination unit in accordance with a user's correction instruction.
前記情報表現テンプレート検索部により、前記対応関係の判定として、当該対応関係が棄権でないと判定した割合を示す判定率を算出し、
前記情報表現パターン組合せ部では、前記判定率を用いる情報表現パターン生成方法。 In the information representation pattern generation method according to any one of claims 8 to 13,
calculating a determination rate indicating a percentage of determinations that the corresponding relationship is not abstained, as the determination of the corresponding relationship by the information expression template search unit;
An information representation pattern generating method using the determination rate in the information representation pattern combination unit.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021195367A JP2023081564A (en) | 2021-12-01 | 2021-12-01 | Information representation pattern generation device and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021195367A JP2023081564A (en) | 2021-12-01 | 2021-12-01 | Information representation pattern generation device and method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023081564A true JP2023081564A (en) | 2023-06-13 |
Family
ID=86728153
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021195367A Pending JP2023081564A (en) | 2021-12-01 | 2021-12-01 | Information representation pattern generation device and method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2023081564A (en) |
-
2021
- 2021-12-01 JP JP2021195367A patent/JP2023081564A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11868717B2 (en) | Multi-page document recognition in document capture | |
JP5455470B2 (en) | Medical image interpretation system | |
US10120537B2 (en) | Page-independent multi-field validation in document capture | |
US20160210426A1 (en) | Method of classifying medical documents | |
JP6874729B2 (en) | Image processing equipment, image processing methods and programs | |
CN102971763A (en) | Medical care support system and method of supporting medical care | |
JP2006260318A (en) | Diagnostic reading report input support method and system | |
US20090232398A1 (en) | Paper interface to an electronic record system | |
CN112257613A (en) | Physical examination report information structured extraction method and device and computer equipment | |
WO2019194026A1 (en) | Image processing device, image processing method, and storage medium on which program is stored | |
JP2009252023A (en) | Medical certificate preparation support apparatus and program | |
JP5151412B2 (en) | Notation fluctuation analyzer | |
JP2023081564A (en) | Information representation pattern generation device and method | |
JP2017033257A (en) | Image reading report creation support system, image reading report creation support method, and image reading report creation support program | |
CN112509661B (en) | Methods, computing devices, and media for identifying physical examination reports | |
KR102467096B1 (en) | Method and apparatus for checking dataset to learn extraction model for metadata of thesis | |
JP6655745B1 (en) | Information processing apparatus, information processing method, and information processing program | |
JP2013149265A (en) | Diagnosis support device and control method | |
JP6784274B2 (en) | Image processing equipment, image processing methods and programs | |
Cuff et al. | Statistical analysis of surgical pathology data using the R program | |
JP2010097262A (en) | Database creation device, database creation method, and computer program | |
JP2009230450A (en) | Document attribute information register and program | |
KR102578043B1 (en) | A system, a method and a program for managing medical documents | |
US11659104B2 (en) | Generation of an electronic document capable of receiving user input | |
US20240062862A1 (en) | Document creation support apparatus, document creation support method, and document creation support program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240220 |