JP2023081564A - Information representation pattern generation device and method - Google Patents

Information representation pattern generation device and method Download PDF

Info

Publication number
JP2023081564A
JP2023081564A JP2021195367A JP2021195367A JP2023081564A JP 2023081564 A JP2023081564 A JP 2023081564A JP 2021195367 A JP2021195367 A JP 2021195367A JP 2021195367 A JP2021195367 A JP 2021195367A JP 2023081564 A JP2023081564 A JP 2023081564A
Authority
JP
Japan
Prior art keywords
information
information representation
pattern
expression
information expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021195367A
Other languages
Japanese (ja)
Inventor
大羽 加藤
Daiba Kato
匡通 坂田
Tadamichi Sakata
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2021195367A priority Critical patent/JP2023081564A/en
Publication of JP2023081564A publication Critical patent/JP2023081564A/en
Pending legal-status Critical Current

Links

Images

Abstract

To solve the problem in which: in order to perform data analysis on information representations (documents) that have a wide variety of layouts and formats, it is necessary to manually generate definition information, which is a huge amount of time and effort.SOLUTION: In order to solve the problem to be solved, in the present invention, an information representation pattern generation device 401 for generating an information representation pattern to define items constituting an information representation, includes: a storage device 411 for storing an information representation template table 422 including descriptions indicating definitions relating to items; an information representation constitution analysis unit 431 for identifying items constituting the information representation and description contents of the items; an information representation template search unit 451 for determining a correspondence relation by collating the identified items and description contents with the information representation template table; and an information representation pattern combination unit 452 for generating an information representation pattern 423 by combining the identified items with the information representation template table 422 in accordance with a determination result of the correspondence relation.SELECTED DRAWING: Figure 4

Description

本発明は、データ分析を支援するための技術に関する。その中でも特に、分析対象である情報表現から情報抽出するための定義付けを行う技術に関する。 The present invention relates to technology for supporting data analysis. In particular, it relates to a technique for defining information for extracting information from information representations to be analyzed.

なお、情報表現とは、何らかの情報が記録されたもので、文書、帳票、書類、書籍、ソースコードなど情報を表現したものであり、紙媒体に記録されたものの他、電子的な情報も含まれる。 In addition, information expression is a record of some kind of information, such as documents, forms, documents, books, source code, etc., and includes electronic information as well as those recorded on paper media. be

現在、データの有効利用のために、データサイエンスの重要性が高まっている。また、人工知能や機械学習の進歩により、データ分析の精度も高まっている。ここで、データ分析のためには、その対象となるデータを収集することが必要である。このデータ収集の対象物として、文書などの情報表現が用いられることがある。特に、紙媒体に記載された情報表現として、帳票が用いられることがある。この場合、情報表現の一種である帳票に記載された内容を認識し、その結果を用いて、データ分析が実行される。 Currently, the importance of data science is increasing for effective use of data. In addition, advances in artificial intelligence and machine learning have increased the accuracy of data analysis. Here, for data analysis, it is necessary to collect target data. Information representations such as documents are sometimes used as objects for this data collection. In particular, forms are sometimes used as information representations written on paper media. In this case, the content described in the form, which is a type of information expression, is recognized, and data analysis is performed using the result.

ここで、認識対象である帳票など情報表現は、様々なレイアウト、形式が混在していることが多々存在する。例えば、作成元ごとの形式で帳票が作成されることがある。このため、文書の認識において、レイアウトや形式といった位置情報を用いることがなされている。例えば、特許文献1では、「文書の2次元的表現を利用して、文書に関する認識を促進する階層構造を抽出する」ことが開示されている。このため、特許文献1では、「レイアウト構造(たとえば、段組、著者、タイトル、脚注など)およびその同類の認識が可能になるので、文書の構造コンポーネントを正確に解釈できる」。 In many cases, various layouts and formats are mixed in information expressions such as forms to be recognized. For example, a form may be created in a format for each creator. For this reason, positional information such as layout and format is used in document recognition. For example, Patent Literature 1 discloses "using a two-dimensional representation of a document to extract a hierarchical structure that promotes recognition of the document". For this reason, US Pat. No. 6,000,002 states, "It enables the recognition of layout structure (eg, columns, authors, titles, footnotes, etc.) and the like, so that the structural components of the document can be interpreted accurately."

特表2009-500755号公報Japanese Patent Publication No. 2009-500755

以上のように、特許文献1では、情報表現の一種である文書中に含まれるテキスト表現からレイアウト構造を機械的に認識し、テキストの位置を示すメタ情報である構造コンポーネントを特定できる。ここで、データ分析の対象となる情報表現は、様々な形式が混在、つまり、非定型であることが多い。また、データ分析のためには、必要な情報の情報抽出することが重要でとなる。この情報抽出とは、その意味を特定して、情報を抽出することである。したがって、情報抽出を行うためには、情報表現における意味を定義付けすることが必要となる。この定義付けには、項目の意味を定義した定義情報を用意することが考えられる。 As described above, in Patent Document 1, the layout structure can be mechanically recognized from the text expression included in the document, which is a type of information expression, and the structural component, which is the meta information indicating the position of the text, can be specified. Here, the information expression targeted for data analysis is often a mixture of various forms, ie, atypical. For data analysis, it is important to extract necessary information. This information extraction is to specify the meaning and extract the information. Therefore, in order to extract information, it is necessary to define the meaning of information representation. For this definition, it is conceivable to prepare definition information that defines the meaning of the item.

しかし、非定型の情報表現について、定義情報を用意することは、手間が掛かり困難であった。これは、非定型の情報表現は、レイアウトや形式も多種多様であり、また、新たなレイアウト、形式の情報表現も追加されることがあるためである。特許文献1では、このような非定型の情報表現の一種である非定型文書での定義情報を用意することについては考慮されていなかった。このため、従来技術においては、手作業で定義情報を生成する必要があり、手間が膨大になると課題が存在する。 However, it is troublesome and difficult to prepare definition information for atypical information expressions. This is because atypical information representations have a wide variety of layouts and formats, and new layouts and formats of information representations are sometimes added. In Patent Document 1, no consideration is given to preparing definition information in an atypical document, which is a type of such atypical information expression. For this reason, in the conventional technology, it is necessary to manually generate the definition information, which poses a problem when the amount of time and effort increases.

上記課題を解決するために、本発明では、非定型の情報表現の各項目について、定義できる情報表現パターンを生成する。より具体的には、情報表現からデータ分析に用いられる情報を抽出するために、前記情報表現を構成する項目を定義付けするための情報表現パターンを生成する情報表現パターン生成装置において、前記項目に関する定義を示す説明を含む情報表現テンプレートの集合で構成される情報表現テンプレート表を記憶する記憶部と、前記データ分析の対象となる情報表現の入力を受け付け、受け付けられた前記情報表現を構成する項目および当該項目の記載内容を特定する情報表現構成解析部と、特定された前記項目および記載内容と、前記情報表現テンプレート表の情報表現テンプレートを突き合せて対応関係を判定する情報表現テンプレート検索部と、前記対応関係の判定結果に応じて、特定された前記項目を前記情報表現テンプレートに組み合わせることで、特定された前記項目と前記情報表現テンプレートの説明が対応付けられた情報表現パターンを生成する情報表現パターン組合せ部を有する情報表現パターン生成装置である。 In order to solve the above problems, the present invention generates definable information representation patterns for each item of non-standard information representation. More specifically, in an information expression pattern generation device for generating an information expression pattern for defining items constituting the information expression in order to extract information used for data analysis from the information expression, a storage unit for storing an information expression template table composed of a set of information expression templates including explanations indicating definitions; and receiving input of the information expression to be subjected to the data analysis, and items constituting the received information expression. and an information representation configuration analysis unit that identifies the description content of the item; and an information representation template search unit that matches the specified item and description content with the information representation template of the information representation template table to determine a correspondence relationship. and information for generating an information representation pattern in which the specified item and the description of the information representation template are associated with each other by combining the specified item with the information representation template according to the determination result of the correspondence relationship. An information expression pattern generation device having an expression pattern combination unit.

また、本発明には、情報表現パターン生成装置を用いた情報表現パターン生成方法や情報表現パターン生成装置をコンピュータとして機能させるプログラムやこれを記憶した記憶媒体も含まれる。さらに、情報表現パターンを用いたデータ分析も本発明の一態様である。 The present invention also includes an information representation pattern generation method using the information representation pattern generation device, a program for causing the information representation pattern generation device to function as a computer, and a storage medium storing the same. Furthermore, data analysis using information expression patterns is also an aspect of the present invention.

本発明によれば、より容易に情報表現パターンを生成でき、データ分析の効率化に寄与できる。 According to the present invention, an information expression pattern can be generated more easily, contributing to efficiency improvement of data analysis.

本発明の一実施形態で用いられる健康診断書101aを示す図である。It is a figure which shows the medical certificate 101a used by one Embodiment of this invention. 本発明の一実施形態で用いられる健康診断書101bを示す図である。FIG. 10 is a diagram showing a medical certificate 101b used in one embodiment of the present invention; 本発明の一実施形態における情報表現パターン生成前の健康診断書のプログラムコードを示す図である。FIG. 4 is a diagram showing program code of a medical checkup report before information expression pattern generation in one embodiment of the present invention; 本発明の一実施形態における情報表現パターンの生成後の健康診断書のプログラムコードを示す図である。FIG. 10 is a diagram showing the program code of the medical certificate after generating the information expression pattern in one embodiment of the present invention; 本発明の一実施形態における情報表現パターン生成装置の構成を示す構成図である。1 is a configuration diagram showing the configuration of an information expression pattern generation device according to an embodiment of the present invention; FIG. 本発明の一実施形態における情報表現テンプレート表を示す図である。FIG. 4 is a diagram showing an information representation template table in one embodiment of the present invention; 本発明の一実施形態における情報表現パターンを示す図である。FIG. 4 is a diagram showing information representation patterns in one embodiment of the present invention; 本発明の一実施形態における情報表現パターンの生成処理を示すフローチャートである。4 is a flow chart showing processing for generating an information representation pattern in one embodiment of the present invention. 本発明の一実施形態における図6のフローチャートのステップS603の詳細を示すフローチャートである。FIG. 7 is a flow chart showing details of step S603 of the flow chart of FIG. 6 in one embodiment of the present invention; FIG. 本発明の一実施形態における情報表現パターンの表示内容を示す図である。FIG. 4 is a diagram showing display contents of an information representation pattern in one embodiment of the present invention; 本発明の一実施形態における情報表現テンプレートの判定結果の表示内容を示す図である。FIG. 10 is a diagram showing display contents of determination results of information expression templates in one embodiment of the present invention. 本発明の一実施形態における推奨する情報表現テンプレートの表示内容を示す図である。FIG. 4 is a diagram showing display contents of a recommended information representation template in one embodiment of the present invention; 本発明の一実施形態をクラウドシステムで実現した実現例を示す図である。It is a figure which shows the implementation example which implement|achieved one Embodiment of this invention by the cloud system.

以下、本発明の一実施形態を、図面を用いて説明する。本実施形態では、情報表現として、帳票の一種である健康診断書を例に説明する。図1Aおよび図1Bに、本実施形態で用いられる健康診断書101aおよび101bを示す。健康診断書101aと101bは、それぞれ氏名、生年月日等の被診断者の属性と、身長、ヘモグロビン、中性脂肪等の診断結果が記入される記入欄(項目)が設けられている。 An embodiment of the present invention will be described below with reference to the drawings. In the present embodiment, a medical certificate, which is a type of form, will be described as an example of information representation. 1A and 1B show medical certificates 101a and 101b used in this embodiment. Each of the medical examination forms 101a and 101b has entry fields (items) in which attributes of the person to be diagnosed, such as name and date of birth, and diagnosis results, such as height, hemoglobin, and triglycerides, are entered.

但し、健康診断書101aおよび101bは、その記入欄の配置、大きさなどが異なっている。つまり、健康診断書のレイアウトが異なっている。また、記入される情報の形式も異なっている。例えば、「胸部X線」の欄については、健康診断書101aが撮影年月日および異常所見を記録するのに対して、健康診断書101bでは、「正常範囲」との記載がされている。特に、健康診断書101aでは異常所見が選択制(なし・あり)に対し、健康診断書101bでは、所見がテキストで記入されている。 However, the medical examination forms 101a and 101b differ in the arrangement and size of the entry fields. In other words, the layout of the health certificate is different. Also, the format of the information entered is different. For example, in the column of "chest X-ray", the date of imaging and abnormal findings are recorded in the medical certificate 101a, while "normal range" is described in the medical certificate 101b. In particular, in the health check-up 101a, abnormal findings are optional (absent or present), whereas in the health check-up 101b, the findings are entered in text.

以上のように、健康診断書でも様々なレイアウト、形式が存在している。このため、これらに対し、共通的に利用できる情報表現パターンを用意する必要がある。この情報表現パターンとは、情報表現を構成する項目を定義付けするための情報である。そして、本実施形態での情報表現パターンは、情報表現を構成する項目と項目に関する定義を示す説明が対応付けられて構成している。以下、本実施形態では、情報表現(健康診断書)からの情報表現パターンの生成について説明する。 As described above, there are various layouts and formats for medical examination reports. Therefore, it is necessary to prepare an information expression pattern that can be commonly used for these. This information expression pattern is information for defining items constituting information expression. The information expression pattern in the present embodiment is configured by associating items constituting the information expression with explanations indicating definitions of the items. In this embodiment, generation of an information expression pattern from an information expression (health certificate) will be described below.

まず、本実施形態における情報表現パターンの生成前後それぞれにおける健康診断書のプログラムコードについて、説明する。図2は、本実施形態における情報表現パターンの生成前の健康診断書のプログラムコード201を示す図である。プログラムコード201では、「検査年月日」や「診断日」とのテキストに日付(date)が記載されている記入欄(項目)を、「Registration Date」として定義付け(202)している。このため、情報表現パターンの生成前、つまり、テンプレート化していないと、各項目について、健康診断書の種類分の定義を行ったプログラムコードを生成する必要がある。 First, the program code of the medical certificate before and after the generation of the information expression pattern in this embodiment will be described. FIG. 2 is a diagram showing the program code 201 of the medical certificate before the generation of the information expression pattern in this embodiment. The program code 201 defines (202) an entry field (item) in which a date is described in the texts of "examination date" and "diagnosis date" as "Registration Date". For this reason, before the information expression pattern is generated, that is, if the template is not generated, it is necessary to generate a program code that defines each item for each type of medical examination.

これに対して、図3は、本実施形態における情報表現パターンの生成後の健康診断書のプログラムコード301を示す図である。つまり、図3は、テンプレート化した健康診断書のプログラムコード301を示す図である。図3において、プログラムコード301は、その種別(Type)、定義(Description)、テンプレートコード(Template Code)で構成される。このため、健康診断書の種類が異なっていても、これらの構成の内容を変えるのみに容易に対応できる。このように、本実施形態では、プログラムコード301の形式を統一化するための情報表現パターンを生成する。 On the other hand, FIG. 3 is a diagram showing the program code 301 of the medical certificate after generating the information expression pattern in this embodiment. In other words, FIG. 3 is a diagram showing the program code 301 of the health checkup template. In FIG. 3, the program code 301 is composed of its type (Type), definition (Description), and template code (Template Code). Therefore, even if the type of health certificate is different, it can be easily dealt with simply by changing the contents of these configurations. Thus, in this embodiment, an information representation pattern is generated for unifying the format of the program code 301 .

次に、図4は、本実施形態における情報表現パターン生成装置401の構成を示す構成図である。図4において、情報表現パターン生成装置401は、記憶装置411、CPU412、メモリ413および通信装置414を有し、これらはバスのような通信路を介して互いに接続されている。また、情報表現パターン生成装置401は、いわゆるコンピュータで実現できる。 Next, FIG. 4 is a configuration diagram showing the configuration of the information expression pattern generation device 401 in this embodiment. In FIG. 4, the information expression pattern generation device 401 has a storage device 411, a CPU 412, a memory 413 and a communication device 414, which are connected to each other via a communication path such as a bus. Also, the information expression pattern generation device 401 can be realized by a so-called computer.

ここで、記憶装置411は、情報、データを記憶する機能を有し、HDD(Hard Disk Drive)やSSD(Solid State Drive)などのいわゆるストレージ、記憶媒体で実現できる。そして、記憶装置411は、情報表現パターン生成装置401をコンピュータとして機能させるためのプログラム421、情報表現テンプレート表422および情報表現パターン423を記憶する。なお、記憶装置411は、情報表現パターン生成装置401を構成する「記憶部」とも表現できる。 Here, the storage device 411 has a function of storing information and data, and can be implemented by a so-called storage or storage medium such as an HDD (Hard Disk Drive) or an SSD (Solid State Drive). The storage device 411 stores a program 421, an information representation template table 422, and an information representation pattern 423 for causing the information representation pattern generation device 401 to function as a computer. Note that the storage device 411 can also be expressed as a “storage unit” that constitutes the information representation pattern generation device 401 .

このプログラム421はメモリ413に展開され、これに従って後述するフローチャートに示す処理がCPU412で実行される。つまり、プログラム421は、メモリ413を図4に示す各部として機能させる。このため、プログラム421は、情報表現構成解析プログラム、情報表現パターン生成プログラムおよび情報表現パターン提案プログラムが含まれる。ここで、情報表現構成解析プログラムは、情報表現構成解析部431を機能させるためのプログラムである。また、情報表現パターン生成プログラムは、情報表現パターン生成部432を機能させるためのプログラムである。さらに、情報表現パターン提案プログラムは、情報表現パターン確認部433を機能させるためのプログラムである。なお、情報表現構成解析部431、情報表現パターン生成部432および情報表現パターン確認部433は、専用ハードウエアやFPGA(field-programmable gate array)などを用いて実現してもよい。 This program 421 is developed in the memory 413, and the CPU 412 executes the processing shown in the flow chart described later. In other words, the program 421 causes the memory 413 to function as each unit shown in FIG. Therefore, the program 421 includes an information representation configuration analysis program, an information representation pattern generation program, and an information representation pattern proposal program. Here, the information representation configuration analysis program is a program for causing the information representation configuration analysis section 431 to function. Also, the information representation pattern generation program is a program for causing the information representation pattern generation unit 432 to function. Furthermore, the information representation pattern proposal program is a program for causing the information representation pattern confirmation section 433 to function. The information representation configuration analysis unit 431, the information representation pattern generation unit 432, and the information representation pattern confirmation unit 433 may be realized using dedicated hardware, an FPGA (field-programmable gate array), or the like.

また、情報表現テンプレート表422は、情報表現を構成する項目に関する定義を示す説明を含む情報表現テンプレートの集合で構成される。このため、必ずしも「表」である必要はなく、情報表現テンプレートを少なくとも1つ含む情報であればよい。さらに、情報表現テンプレート表422は、予め入力装置416に対する利用者の操作に応じて、作成されることが可能である。 In addition, the information representation template table 422 is composed of a set of information representation templates including explanations indicating definitions of items constituting the information representation. For this reason, it does not necessarily have to be a "table", and information containing at least one information expression template may be used. Furthermore, the information representation template table 422 can be created in advance according to the user's operation on the input device 416 .

ここで、本実施形態における情報表現テンプレート表422を図5Aに示す。図5Aにおいて、情報表現テンプレート表422は、情報表現テンプレートごとに、グループ501、情報表現テンプレート名502および説明503を有する。グループ501は、情報表現テンプレートをその特性に応じて分類したグループを示す。グループには、項目のレイアウトで定義するレイアウト型、項目の位置を示す位置関係、項目を表の構造として定義する表構造、項目の記載形式で定義されるデータ型が含まれる。なお、情報表現テンプレート表422において、グループ501は省略可能である。 FIG. 5A shows the information representation template table 422 in this embodiment. 5A, information representation template table 422 has group 501, information representation template name 502 and description 503 for each information representation template. A group 501 indicates a group in which information expression templates are classified according to their characteristics. A group includes a layout type defined by the item layout, a positional relationship indicating the position of the item, a table structure defining the item as a table structure, and a data type defined by the item description format. In addition, in the information representation template table 422, the group 501 can be omitted.

また、情報表現テンプレート名502は、該当の情報表現テンプレートの名称である。なお、情報表現テンプレート名502の代わりないしこれに加えて情報表現テンプレートを識別する情報を用いてもよい。また、説明503は、該当の情報表現テンプレートの示す定義の内容を示す。 The information representation template name 502 is the name of the corresponding information representation template. Instead of or in addition to the information representation template name 502, information for identifying the information representation template may be used. Also, the description 503 indicates the content of the definition indicated by the information representation template.

次に、図5Bは、本実施形態における情報表現パターン423を示す図である。また、情報表現パターン423は、情報表現テンプレート表422に対して、項目504が追加されている。このことで、情報表現パターン423は、情報表現からデータ分析に用いられる情報を抽出するために、情報表現の各項目を定義付けている。ここで、項目504は、該当の情報表現テンプレートの説明503が、各項目(項目A、B・・・)で定義付けとして用いられるかを示す情報が記録される。図5Bの例では、「〇」は用いられることを示し、「-」は用いられないことを示す。
このように、情報表現パターン423は、情報表現における定義の内容(説明503)とこれが用いられるかを示す情報(項目504)の組合せで構成される。特に、本実施形態では、情報表現パターン423は、用いられるか否かを表のうちでもマトリクス状に構成している。
Next, FIG. 5B is a diagram showing an information expression pattern 423 in this embodiment. An item 504 is added to the information expression template table 422 in the information expression pattern 423 . Thus, the information representation pattern 423 defines each item of the information representation in order to extract information used for data analysis from the information representation. Here, the item 504 records information indicating whether the description 503 of the corresponding information expression template is used as a definition for each item (items A, B, . . . ). In the example of FIG. 5B, "O" indicates used and "-" indicates not used.
In this way, the information expression pattern 423 is composed of a combination of the content of the definition in the information expression (description 503) and information indicating whether it is used (item 504). In particular, in the present embodiment, whether or not the information expression pattern 423 is used is configured in a matrix even in the table.

但し、情報表現パターン423は、表ないしマトリクス状でなくともよい。またさらに、本実施形態では、情報表現パターン423は、情報表現テンプレート表422を含む形で構成しているが、本構成に限定されない。例えば、項目504自身を情報表現パターン423として用いる。この際、項目504の各レコードと、情報表現テンプレート表422の各レコードとの対応関係(リンク)を管理することが望ましい。なお、情報表現テンプレート表422や情報表現パターン423の内容については、処理フローを説明する際にも言及する。 However, the information expression pattern 423 does not have to be table or matrix. Furthermore, in this embodiment, the information representation pattern 423 is configured to include the information representation template table 422, but is not limited to this configuration. For example, the item 504 itself is used as the information representation pattern 423 . At this time, it is desirable to manage the correspondence (link) between each record of the item 504 and each record of the information representation template table 422 . Note that the contents of the information expression template table 422 and the information expression pattern 423 will also be referred to when explaining the processing flow.

次に、CPU412について説明する。CPU412は、いわゆるプロセッサであり、メモリ413に展開された各プログラムに従って、処理を行う。つまり、図4でメモリ413に記載した各部として機能する。 Next, the CPU 412 will be explained. The CPU 412 is a so-called processor, and performs processing according to each program developed in the memory 413 . That is, it functions as each unit described in the memory 413 in FIG.

次に、メモリ413は、上述のように各プログラムやこれらが用いる情報が展開される記憶媒体である。本実施形態では、メモリ413は、情報表現構成解析部431、情報表現パターン生成部432および情報表現パターン確認部433を有する。 Next, the memory 413 is a storage medium in which each program and information used by these programs are developed as described above. In this embodiment, the memory 413 has an information representation configuration analysis section 431 , an information representation pattern generation section 432 and an information representation pattern confirmation section 433 .

ここで、情報表現構成解析部431は、情報の抽出対象である情報表現(健康診断書)の構成を解析するものである。そして、情報表現構成解析部431は、テキスト情報抽出部441、構造情報抽出部442および情報表現項目特定部443を有する。これら各部の機能については、処理フローを説明する際に合わせて説明する。 Here, the information representation configuration analysis unit 431 analyzes the configuration of the information representation (health certificate) from which information is to be extracted. The information representation configuration analysis section 431 has a text information extraction section 441 , a structure information extraction section 442 and an information representation item identification section 443 . Functions of these units will be described together with the description of the processing flow.

また、情報表現パターン生成部432は、情報表現構成解析部431の解析結果や情報表現テンプレート表422を用いて、情報表現パターン423を生成する。そして、情報表現パターン生成部432は、情報表現テンプレート検索部451および情報表現パターン組合せ部452を有する。これらの機能についても処理フローを説明する際に合わせて説明する。またさらに、情報表現パターン確認部433は、生成された情報表現パターン423を、利用者に対して提示する。このために、情報表現パターン確認部433は、情報表現パターン照合部461および情報表現パターン提案部462を有する。これらの機能についても処理フローを説明する際に合わせて説明する。 Also, the information representation pattern generation unit 432 generates an information representation pattern 423 using the analysis result of the information representation configuration analysis unit 431 and the information representation template table 422 . The information expression pattern generation unit 432 has an information expression template search unit 451 and an information expression pattern combination unit 452 . These functions will be explained together with the explanation of the processing flow. Furthermore, the information representation pattern confirmation unit 433 presents the generated information representation pattern 423 to the user. For this purpose, the information expression pattern checking section 433 has an information expression pattern matching section 461 and an information expression pattern proposing section 462 . These functions will be explained together with the explanation of the processing flow.

次に、通信装置414は、ネットワークやその他接続出段を介して、他の装置と通信、接続する。この接続先としては、非定型情報表現管理装置402、表示装置415や入力装置416が含まれる。なお、通信装置414は、情報表現パターン生成装置401を構成する「通信部」とも表現できる。
非定型情報表現管理装置402は、情報の抽出対象である情報表現(健康診断書)を管理するものである。このために、非定型情報表現管理装置402は、少なくとも情報表現(健康診断書)を記憶している。非定型情報表現管理装置402は、例えば、サーバのようなコンピュータやデータベースで実現できる。
Communication device 414, in turn, communicates and connects with other devices via a network or other connection outlet. The connection destinations include the atypical information representation management device 402 , the display device 415 and the input device 416 . Note that the communication device 414 can also be expressed as a “communication unit” that constitutes the information expression pattern generation device 401 .
The atypical information representation management device 402 manages the information representation (medical certificate) from which information is to be extracted. For this purpose, the atypical information representation management device 402 stores at least the information representation (medical certificate). The non-stereotypical information representation management device 402 can be realized by, for example, a computer such as a server or a database.

また、表示装置415や入力装置416は、情報表現パターン生成装置401の利用者が利用するものである。このため、表示装置415は、情報表現パターン生成装置401での処理結果や入力装置416での入力内容などを表示する。 A display device 415 and an input device 416 are used by the user of the information expression pattern generation device 401 . Therefore, the display device 415 displays the processing result of the information expression pattern generation device 401, the input content of the input device 416, and the like.

また、入力装置416は、利用者からの入力を受け付け、通信装置414を介して情報表現パターン生成装置401に出力する。さらに、入力装置416は、情報の抽出対象、つまり、情報表現パターン423の生成に用いられる情報表示の入力を行う。このため、入力装置416は、キーボード、マウスやスキャナで実現できる。
なお、表示装置415および入力装置416は、PC、スマートフォンなどの端末装置として実現できる。さらに、表示装置415および入力装置416を、タッチパネルなど一体で構成してもよいしし、情報表現パターン生成装置401と一体として構成してもよい。
Also, the input device 416 receives an input from the user and outputs it to the information expression pattern generation device 401 via the communication device 414 . Further, the input device 416 inputs the information to be extracted, that is, the information display used to generate the information expression pattern 423 . Therefore, the input device 416 can be realized by a keyboard, mouse or scanner.
Note that the display device 415 and the input device 416 can be implemented as terminal devices such as PCs and smartphones. Furthermore, the display device 415 and the input device 416 may be configured integrally with a touch panel or the like, or may be configured integrally with the information expression pattern generation device 401 .

以上で、本実施形態の構成や情報の説明を終わり、以下、処理フローについて説明する。図6は、本実施形態における情報表現パターン423の生成処理を示すフローチャートである。本フローチャートでは、情報表現パターン生成装置401が、非定型情報表現管理装置402もしくは入力装置416からの情報表現である健康診断書101を用いて、情報表現パターン423を生成する。 This concludes the description of the configuration and information of the present embodiment, and the processing flow will be described below. FIG. 6 is a flowchart showing processing for generating the information expression pattern 423 in this embodiment. In this flowchart, the information expression pattern generation device 401 generates an information expression pattern 423 using the medical certificate 101, which is the information expression from the atypical information expression management device 402 or the input device 416. FIG.

ステップS601において、情報表現構成解析部431が、受け付けられた健康診断書101から、テキスト情報および表構造情報を抽出する。このために、まず、通信装置414が、非定型情報表現管理装置402から情報表現を受信したり、入力装置416から情報表現が入力されたりする。この際、数百枚など複数の健康診断書101が受け付けられ、ステップS601以降の処理は、健康診断書101の項目ごとに、ループ処理として実行される。 In step S601, the information representation structure analysis unit 431 extracts text information and table structure information from the accepted medical certificate 101. FIG. For this purpose, first, the communication device 414 receives information expressions from the non-stereotypical information expression management device 402 or inputs information expressions from the input device 416 . At this time, a plurality of medical examination certificates 101 such as several hundred are received, and the processing after step S601 is executed as loop processing for each item of the medical examination certificate 101 .

ステップS601のより具体的な処理は、テキスト情報抽出部441が文字認識技術を用いて、テキスト情報を抽出する。この際、テキスト情報抽出部441は、テキスト情報の種別(アルファベットや数字など)や健康診断書101での記載位置を特定する。図1Aの健康診断書101aの例では、「身長」「177.2cm」について、それぞれ「漢字」「数字+単位」であることや健康診断書101a上の原点に対する位置(左上方等)が特定される。 More specifically, in step S601, the text information extraction unit 441 extracts text information using character recognition technology. At this time, the text information extraction unit 441 identifies the type of text information (alphabet, numerals, etc.) and the description position on the medical certificate 101 . In the example of the medical certificate 101a in FIG. 1A, for "height" and "177.2 cm", it is specified that it is "Kanji" and "number + unit" and the position (upper left, etc.) with respect to the origin on the medical certificate 101a. be done.

また、構造情報抽出部442が、健康診断書101から表構造情報を抽出する。この表構造情報には、情報表現のレイアウトを示す情報、表の構造が含まれる。健康診断書101aの場合、「検査年月日」が右上方で、表が中央部に位置するといった健康診断書101全体のレイアウトを示す情報や「14行5列」で一部分割部分ありといった表の種類、構造が特定される。 Also, the structure information extraction unit 442 extracts the table structure information from the medical certificate 101 . This table structure information includes information indicating the layout of information representation and the structure of the table. In the case of the health checkup 101a, information indicating the overall layout of the health checkup 101 such that the "examination date" is on the upper right and the table is located in the center, or a table such as "14 rows and 5 columns" with a partially divided portion. type and structure are identified.

次に、ステップS602において、情報表現構成解析部431の情報表現項目特定部443が、受け付けられた健康診断書101の情報表現項目を特定する。この情報表現項目とは、項目504に該当する情報であり、健康診断書101に記載されている項目を示す。ここで、上述のとおり、項目504は情報表現パターン423として用いることが可能である。このため、本ステップには、健康診断書101の情報表現パターンを特定するとの態様も含まれる。 Next, in step S602, the information representation item specifying unit 443 of the information representation structure analysis unit 431 specifies the information representation items of the received medical certificate 101. FIG. This information expression item is information corresponding to the item 504 and indicates the item described in the medical certificate 101 . Here, as described above, item 504 can be used as information representation pattern 423 . Therefore, this step also includes a mode of specifying the information representation pattern of the medical certificate 101 .

このステップS602のために、情報表現項目特定部443は、利用者から入力装置416を介して入力される抽出対象項目やその特徴を受け付ける。例えば、情報抽出対象項目として「身長」や、特徴として「(数字)データ」を受け付ける。そして、情報表現項目特定部443は、これらに該当する項目を特定し、その集合として、健康診断書101の情報表現項目(項目504)を特定する。 For this step S602, the information representation item identification unit 443 receives extraction target items and their characteristics input by the user via the input device 416. FIG. For example, "height" is accepted as an information extraction target item, and "(numeric) data" is accepted as a feature. Then, the information representation item specifying unit 443 specifies the items corresponding to these, and specifies the information representation item (item 504) of the medical certificate 101 as a set thereof.

次に、ステップS603において、情報表現パターン生成部432が、ステップS601およびステップS602の結果を用いて、情報表現パターンを生成する。以下、図7を用いて、ステップS603の詳細を説明する。なお、次のステップS604以降で、本ステップで生成された情報表現パターンの確認等を行っている。これらステップS604以降の処理を省略し、ステップS603で生成された情報表現パターンを最終的な情報表現パターン423としてもよい。 Next, in step S603, the information representation pattern generation unit 432 generates an information representation pattern using the results of steps S601 and S602. Details of step S603 will be described below with reference to FIG. It should be noted that the information expression pattern generated in this step is checked and the like in steps S604 and subsequent steps. The processing after step S604 may be omitted, and the information representation pattern generated in step S603 may be used as the final information representation pattern 423. FIG.

図7は、本実施形態におけるステップS603の詳細を示すフローチャートである。本フローチャートが示す処理は、情報表現パターン生成部432で実行される。 FIG. 7 is a flowchart showing details of step S603 in this embodiment. The processing shown in this flowchart is executed by the information expression pattern generation unit 432 .

まず、ステップS701において、情報表現テンプレート検索部451が、ステップS601で受け付けられた健康診断書101について、抽出先の正解例の入力を受け付ける。この正解例とは、健康診断書101の記載内容(情報)と項目の対応関係を特定するものである。以下、表示装置415に「健康診断書101a」が対象として表示されている場合を例に説明する。入力装置416が利用者の操作に従って、記載内容として「177.2cm」を受け付ける。そして、同じく入力装置416が、項目の正解例として「身長」との入力を受け付ける。この結果、情報表現テンプレート検索部451が、記載内容「177.2cm」と項目「身長」の組合せを正解例として受け付けることになる。 First, in step S701, the information expression template search unit 451 receives an input of a correct example from which to extract the medical certificate 101 received in step S601. This correct example specifies the correspondence relationship between the description (information) of the medical certificate 101 and the items. In the following, a case in which "medical certificate 101a" is displayed as an object on the display device 415 will be described as an example. The input device 416 accepts "177.2 cm" as the description content according to the user's operation. Similarly, the input device 416 accepts input of "height" as a correct example of the item. As a result, the information expression template search unit 451 accepts the combination of the description content "177.2 cm" and the item "height" as a correct example.

次に、ステップS702において、情報表現テンプレート検索部451が、情報表現テンプレート表422の各情報表現テンプレートについて、受け付けられた正解例を判定する。つまり、情報表現テンプレート検索部451は、各情報表現テンプレートを情報表現テンプレート表422から抽出し、これと正解例を突き合せる。そして、情報表現テンプレート検索部451は、その対応関係が「真(TRUE)」「偽(FALSE)」もしくは「棄権(ABSTAIN)」のいずれであるかを判定する。ここで、「真(TRUE)」とは対応関係が正しいことを意味し、「偽(FALSE)」は正しくないことを意味する。但し、「真(TRUE)」「偽(FALSE)」はいずれも何らの対応関係を有するのに対し、「棄権(ABSTAIN)」は全くの無関係を意味する。例えば、図1Aの健康診断書101aの正解例の1つである「身長」の「177.2cm」に関して、情報表現テンプレートが「4行2列」が示す場合は、「真(TRUE)」と判定される。これに対して、「身長」の「177.2cm」に関して、情報表現テンプレートが「表外」を示す場合、「棄権(ABSTAIN)」と判定される。 Next, in step S 702 , the information expression template search unit 451 determines the accepted correct example for each information expression template in the information expression template table 422 . That is, the information expression template search unit 451 extracts each information expression template from the information expression template table 422 and matches it with the correct example. Then, the information expression template search unit 451 determines whether the corresponding relationship is "true (TRUE)", "false (FALSE)", or "abstain (ABSTAIN)". Here, "TRUE" means that the correspondence is correct, and "FALSE" means that it is not correct. However, "TRUE" and "FALSE" both have some correspondence, whereas "ABSTAIN" means no relationship. For example, regarding "177.2 cm" for "height", which is one of the correct examples of the medical certificate 101a in FIG. be judged. On the other hand, when the information expression template indicates "out of table" for "height" of "177.2 cm", it is determined as "abstain".

次に、ステップS703において、情報表現テンプレート検索部451が、ステップS702において、「棄権(ABSTAIN)」でないと判定した情報表現テンプレートを、情報表現テンプレート表422から検索する。なお、ここでは、「真(TRUE)」もしくは「偽(FALSE)」と判定してもよい。そして、情報表現テンプレート検索部451は、この判定結果をメモリ413に記録する。さらに、情報表現テンプレート検索部451は、判定結果として、この判定率を算出し、これを記録することが望ましい。判定率とは、「棄権(ABSTAIN)」でないと判定した割合を示し、判定率が高いほど当該情報表現テンプレートを利用すべきと判断できる。 Next, in step S703, the information expression template search unit 451 searches the information expression template table 422 for the information expression template determined as not "abstain" in step S702. Here, it may be determined as "TRUE" or "FALSE". The information representation template search unit 451 then records this determination result in the memory 413 . Furthermore, it is desirable that the information expression template search unit 451 calculates this determination rate as the determination result and records it. The determination rate indicates the percentage of determinations that are not "abstain", and it can be determined that the higher the determination rate, the more the information expression template should be used.

次に、ステップS704において、情報表現テンプレート検索部451が、受け付けられた各健康診断書101について、ステップS703までの処理を行ったかを判定する。つまり、各健康診断書101に対して、「棄権(ABSTAIN)」でないと判定した情報表現テンプレートの抽出が終了したかが判定される。終了したと判定された場合(YES)、ステップS705に遷移する。終了していないと判定された場合(NO)、ステップS701に戻り処理を継続する。 Next, in step S704, the information expression template search unit 451 determines whether or not the processing up to step S703 has been performed for each received medical certificate 101. FIG. In other words, it is determined whether or not the extraction of the information expression template determined as not "abstain" has been completed for each medical certificate 101 . If it is determined that the processing has ended (YES), the process proceeds to step S705. If it is determined that the process has not ended (NO), the process returns to step S701 and continues.

また、ステップS705において、情報表現テンプレート検索部451が、健康診断書101ごとに、最も正解例に寄与した情報表現テンプレートを特定する。ここで、最も正解例に寄与したとは、ステップS703で検索された、つまり、「棄権(ABSTAIN)」以外と判定された数の最も多いこと示す。このために、メモリ413に記録された判定結果が用いられる。また、「棄権(ABSTAIN)」以外と判定された数の代わりに、上述の判定率を用いることも可能である。またさらに、本ステップでは、情報表現テンプレート表422に含まれる情報表現テンプレートから特定がされる。 Also, in step S705, the information expression template search unit 451 identifies, for each medical certificate 101, the information expression template that has contributed most to the correct example. Here, having contributed most to the correct answer indicates that the number of items retrieved in step S703, that is, determined to be other than "abstain (Abstain)" is the largest. For this purpose, the determination result recorded in the memory 413 is used. It is also possible to use the aforementioned determination rate instead of the number of determinations other than "abstain". Furthermore, in this step, the information representation template included in the information representation template table 422 is specified.

次に、ステップS706において、情報表現パターン組合せ部452が、ステップS705で特定された情報表現テンプレートに対して、正解例である項目を組み合わせる。つまり、情報表現パターン組合せ部452は、情報表現テンプレート表422において該当情報表現テンプレートに、項目を対応付ける。このことで、図5Bと同様の情報表現パターンが生成させることになる。なお、本ステップの組合せ対象は、完成したもしくはその途中の情報表現パターンをしてもよい。つまり、情報表現テンプレート表422を核として、逐次項目を追加することで、情報表現パターン423を完成させていくことが可能である。 Next, in step S706, the information expression pattern combining unit 452 combines items that are correct examples with the information expression template specified in step S705. In other words, the information representation pattern combination unit 452 associates the corresponding information representation template with the item in the information representation template table 422 . As a result, an information representation pattern similar to that in FIG. 5B is generated. The target of combination in this step may be information expression patterns that have been completed or are in the process of being completed. In other words, it is possible to complete the information expression pattern 423 by sequentially adding items to the information expression template table 422 as a core.

また、本ステップにおいては、さらに排他関係を考慮した組み合せ処理を行ってもよい。つまり、情報表現パターン組合せ部452は、情報表現パターン423の各項目504を、1つの情報表現テンプレートに対して限定的に組み合わせる。より好適には、情報表現パターン組合せ部452は、グループ501ごとに、1つの情報表現テンプレートに対して限定的に組み合わせることが望ましい。図5Bに示すように、項目A、項目Bのそれぞれは、グループ501ごとに、1つのレコード(情報表現テンプレート)が対応付けられている。 Further, in this step, combination processing may be performed in consideration of the exclusive relationship. That is, the information representation pattern combination unit 452 combines each item 504 of the information representation pattern 423 in a limited manner with one information representation template. More preferably, the information representation pattern combination unit 452 performs a limited combination of one information representation template for each group 501 . As shown in FIG. 5B, each of item A and item B is associated with one record (information representation template) for each group 501 .

以上で、図7を用いたステップS603の説明を終わり、図6の説明に戻る。次に行われるステップS604~S608は、情報表現パターン確認部433を用いた、生成された情報表現パターンの確認処理である。まず、ステップS604において、情報表現パターン提案部462が、表示装置415に生成された情報表現パターンを表示させる。つまり、生成された情報表現パターンを提案する。この結果、利用者が生成された情報表現パターンを確認できる。 This completes the description of step S603 using FIG. 7, and returns to the description of FIG. Steps S 604 to S 608 that are performed next are confirmation processing of the generated information expression pattern using the information expression pattern confirmation unit 433 . First, in step S604, the information representation pattern proposing unit 462 causes the display device 415 to display the generated information representation pattern. That is, the generated information representation pattern is proposed. As a result, the user can confirm the generated information expression pattern.

図8に、生成された情報表現パターンの表示内容800を示す。図8に示す表示内容は、グループ801、情報表現テンプレート名802、説明803および項目804からなり、それぞれ図5Bに示すグループ501、情報表現テンプレート名502、説明503および項目504に対応している。ここで、項目804の「レ点」(チェック部)は、それぞれ対応する情報表現テンプレートが該当の項目で利用されることを示している。例えば、「身長」については、#1、#4および#7の情報表現テンプレートが使用可能であることを示している。利用者はこの内容を確認し、入力装置416を用いて、修正する箇所があれば、入力装置416を用いて修正することができる。例えば、「身長」の#1のレ点を外したり、#2にレ点を追加したりできる。この場合、情報表現パターン組合せ部452が、利用者の修正指示に応じて、組合せ(情報表現パターン423)を修正することになる。 FIG. 8 shows display content 800 of the generated information representation pattern. The display contents shown in FIG. 8 are composed of a group 801, an information representation template name 802, a description 803 and an item 804, which correspond to the group 501, information representation template name 502, description 503 and item 504 shown in FIG. 5B, respectively. Here, the "ticker" (checked portion) of the item 804 indicates that the corresponding information expression template is used in the corresponding item. For example, for "height", it indicates that information representation templates #1, #4 and #7 are available. The user can check this content and use the input device 416 to make corrections, if any, using the input device 416 . For example, it is possible to remove the check mark #1 of "height" or add a check mark to #2. In this case, the information expression pattern combination unit 452 corrects the combination (information expression pattern 423) according to the user's correction instruction.

次に、ステップS605において、情報表現パターン照合部461が、生成された情報表現パターンを使用して、受け付けられた健康診断書101を対象に、抽出対象項目である情報を抽出する。情報表現パターン照合部461が、生成された情報表現パターンを実際の健康診断書101に照合することで、本ステップを実行する。 Next, in step S605, the information expression pattern matching unit 461 uses the generated information expression pattern to extract information, which is an item to be extracted, from the accepted health checkup certificate 101 . This step is executed by the information expression pattern matching unit 461 matching the generated information expression pattern with the actual medical certificate 101 .

次に、ステップS606において、情報表現パターン照合部461が、ステップS605での抽出結果を表示装置415に表示させる。この結果、利用者が情報表現パターンを使用された抽出結果を確認できる。ここで、図9に、この抽出結果を示す表示内容900を示す。情報表現テンプレートの判定結果を示す表示内容900は、抽出項目選択901、ファイル選択902、情報表現テンプレートの判定結果903および健康診断書表示904の各領域を有する。なお、以下では、情報表現パターンの確認として、これを構成する情報表現テンプレートに該当する部分を確認することなる。このため、以下では、これらを情報表現テンプレートと称する。 Next, in step S606, the information expression pattern matching unit 461 causes the display device 415 to display the extraction result in step S605. As a result, the user can confirm the extraction result using the information expression pattern. Here, FIG. 9 shows a display content 900 indicating the extraction result. The display content 900 indicating the determination result of the information representation template has areas for extraction item selection 901 , file selection 902 , information representation template determination result 903 , and medical certificate display 904 . In the following, to confirm the information expression pattern, the part corresponding to the information expression template constituting the pattern is confirmed. For this reason, these are hereinafter referred to as information representation templates.

まず、抽出項目選択901は、抽出対象となる項目を選択するための領域で、本実施形態ではプルダウンメニューで実現できる。また、ファイル選択902は、健康診断書101を選択するための領域であり、個々の健康診断書101をファイル名で選択できるようにしている。ファイル選択902についても、本実施形態ではプルダウンメニューで実現できる。そして、情報表現パターン照合部461は、ファイル選択902に対する入力装置416への利用者の操作に応じて、選択された健康診断書101を、健康診断書表示904に表示させる。また、情報表現パターン照合部461は、抽出項目選択901で選択された抽出項目を健康診断書表示904で表示させることができる。なお、抽出項目については、入力装置416への利用者の操作に応じて、図示したような枠線を、健康診断書表示904上で移動させて選択させることも可能である。 First, an extraction item selection 901 is an area for selecting an item to be extracted, and can be realized by a pull-down menu in this embodiment. A file selection 902 is an area for selecting the medical certificate 101, and allows individual medical certificate 101 to be selected by file name. File selection 902 can also be realized by a pull-down menu in this embodiment. Then, the information expression pattern matching unit 461 displays the selected medical certificate 101 on the medical certificate display 904 according to the user's operation on the input device 416 for the file selection 902 . In addition, the information expression pattern matching unit 461 can display the extraction item selected in the extraction item selection 901 in the health certificate display 904 . As for the items to be extracted, it is also possible to move the illustrated frame line on the medical certificate display 904 in accordance with the user's operation on the input device 416 to select the item.

また、情報表現テンプレートの判定結果903は、上述のようにして選択された健康診断書101の抽出項目についての抽出結果を、情報表現テンプレート表422と同様の形式で表示される。つまり、情報表現テンプレートごとに、番号(#)、グループ、情報表現テンプレート名を有する。なお、図9では、内容を省いているが、これを情報表現テンプレートの判定結果903に含めてもよい。そして、各情報表現テンプレートに対し、判定結果が対応付けられている。また、図9においては、情報表現テンプレート名に、その内容を記載している。 The information expression template determination result 903 displays the extraction results of the extraction items of the medical certificate 101 selected as described above in the same format as the information expression template table 422 . That is, each information representation template has a number (#), a group, and an information representation template name. Note that although the contents are omitted in FIG. 9, they may be included in the determination result 903 of the information expression template. A determination result is associated with each information expression template. In addition, in FIG. 9, the contents are described in the name of the information expression template.

さらに、本実施形態では、情報表現テンプレートの判定結果903の下部に、「File1~10の情報表現テンプレート判定結果から、「心電図」のオススメ情報表現テンプレートを提案する」ための実行ボタンを表示する。これを、入力装置416を用いて利用者が指定することで、情報表現パターン照合部461は、「オススメ情報表現テンプレート」を作成し、提示する。つまり、情報表現パターン照合部461は、組み合わせ相手として推奨する情報表現テンプレートを表示装置415に表示させる。 Furthermore, in the present embodiment, an execution button for "proposing a recommended information expression template of 'electrocardiogram' based on the information expression template judgment results of Files 1 to 10" is displayed below the information expression template judgment result 903. When the user designates this using the input device 416, the information expression pattern matching unit 461 creates and presents a "recommended information expression template". That is, the information expression pattern matching unit 461 causes the display device 415 to display information expression templates recommended as combination partners.

図10に、推奨する情報表現テンプレートの表示内容1000を示す。抽出結果を示す表示内容900は、抽出項目選択1001、オススメ情報表現テンプレート1002、情報表現テンプレートの判定結果(詳細)1003およびオススメ情報表現テンプレートを使用した場合の抽出結果1004の各領域を有する。 FIG. 10 shows display contents 1000 of the recommended information representation template. The display content 900 indicating the extraction result has areas for an extraction item selection 1001, a recommended information expression template 1002, an information expression template determination result (details) 1003, and an extraction result 1004 when the recommended information expression template is used.

まず、抽出項目選択1001は、抽出項目選択901と同様に抽出対象となる項目を選択するための領域で、本実施形態ではプルダウンメニューで実現できる。オススメ情報表現テンプレート1002は、推奨される情報表現テンプレートが表示される。そして、情報表現パターン照合部461は、入力装置416への利用者の操作に応じて、指定された情報表現テンプレートの説明を表示させることも可能である。 First, an extraction item selection 1001 is an area for selecting an item to be extracted, similar to the extraction item selection 901, and can be realized by a pull-down menu in this embodiment. A recommended information expression template 1002 displays a recommended information expression template. The information representation pattern matching unit 461 can also display the explanation of the designated information representation template in accordance with the user's operation on the input device 416 .

また、情報表現テンプレートの判定結果(詳細)1003は、情報表現テンプレートの判定結果903の詳細を示すもので、判定としてファイル(健康診断書101)ごとの判定結果とその判定率も表示される。このために、情報表現パターン照合部461は、メモリ413に記録された情報表現テンプレート検索部451の判定結果を用いる。なお、情報表現テンプレートの判定結果(詳細)1003では、判定率が所定以上のものを他と区別して表示してもよい。最後に、抽出結果1004は、図8のファイル選択902と健康診断書表示904の双方が表示される。以上で、ステップS606の説明を終わる。 The determination result (details) 1003 of the information representation template indicates the details of the determination result 903 of the information representation template, and the determination result and the determination rate for each file (health certificate 101) are displayed as the determination. For this purpose, the information expression pattern matching unit 461 uses the determination result of the information expression template search unit 451 recorded in the memory 413 . In the determination results (details) 1003 of the information expression template, those with determination rates equal to or higher than a predetermined value may be distinguished from others and displayed. Finally, for the extraction result 1004, both the file selection 902 and the health certificate display 904 in FIG. 8 are displayed. This completes the description of step S606.

次に、ステップS607において、情報表現パターン照合部461は、通信装置414を介して、入力装置416からステップS606の抽出結果が十分であるかを受け付ける。このために、入力装置416は、利用者からの抽出結果に対する判断結果を受け付ける。この結果、十分である場合(YES)、ステップS608に遷移する。また、十分でない場合(NO)、ステップS603に戻る。この場合、ステップS606で利用者から受け付けた条件を反映してステップS603を実行することが望ましい。 Next, in step S607, the information expression pattern matching unit 461 receives from the input device 416 via the communication device 414 whether the extraction result in step S606 is sufficient. For this purpose, the input device 416 accepts the judgment result for the extraction result from the user. As a result, if it is sufficient (YES), the process transitions to step S608. Moreover, when it is not enough (NO), it returns to step S603. In this case, it is desirable to execute step S603 by reflecting the conditions received from the user in step S606.

そして、ステップS608において、情報表現パターン照合部461は、ステップS604~S608の確認処理で確認された結果を、情報表現パターン423として記憶装置411に登録する。なお、情報表現パターン組合せ部452が、ステップS603において自身で生成したものを情報表現パターン423として登録してもよい。この場合、ステップS604~S607の処理は省略可能である。 Then, in step S608, the information representation pattern matching unit 461 registers the result of the verification process in steps S604 to S608 in the storage device 411 as the information representation pattern 423. FIG. The information expression pattern combination unit 452 may register the information expression pattern 423 generated by itself in step S603. In this case, the processing of steps S604 to S607 can be omitted.

以上で、本実施形態の処理フローの説明を終了する。最後に、本実施形態の一実現例について説明する。本実施形態の情報表現パターン生成装置401は、いわゆるスタンドアロンなどのPCやネットワークを介して利用されるサーバ、クラウドシステムで実現できる。ここでは、クラウドシステムでの実現例を説明する。図11は、本実施形態をクラウドシステムで実現した実現例を示す図である。情報表現パターン生成装置401は、ネットワーク110を介して、他の装置と接続される。他の装置には、データベースで実現可能な非定型情報表現管理装置402、端末装置111a~111dやデータ分析装置112が存在する。 This completes the description of the processing flow of the present embodiment. Finally, an implementation example of this embodiment will be described. The information expression pattern generation apparatus 401 of this embodiment can be realized by a so-called stand-alone PC, a server used via a network, or a cloud system. Here, an implementation example in a cloud system will be described. FIG. 11 is a diagram showing an implementation example in which the present embodiment is implemented by a cloud system. Information expression pattern generation device 401 is connected to other devices via network 110 . Other devices include an atypical information representation management device 402, terminal devices 111a to 111d, and a data analysis device 112 that can be realized with a database.

ここで、非定型情報表現管理装置402は、本実施形態で情報表現の一例として記載した複数の健康診断書101が格納されている。また、データ分析装置112は、本実施形態で生成された情報表現パターン423を用いて各種データ分析を実行するコンピュータ(サーバ)である。なお、データ分析装置112の機能は、情報表現パターン生成装置401に設けてもよい。さらに、データ分析装置112は、自身もしくは外付け記憶装置に、情報表現パターン423を記憶していることが望ましい。また、データ分析装置112は、外部のデータベースや情報表現パターン生成装置401に記憶された情報表現パターン423を利用できる構成としてもよい。これらの場合、データ分析装置112は、データ分析にあたり情報表現パターン423を利用できる。 Here, the atypical information representation management device 402 stores a plurality of medical examination certificates 101 described as an example of information representation in this embodiment. The data analysis device 112 is a computer (server) that executes various data analyzes using the information expression pattern 423 generated in this embodiment. Note that the function of the data analysis device 112 may be provided in the information expression pattern generation device 401 . Furthermore, it is desirable that the data analysis device 112 stores the information expression pattern 423 in itself or an external storage device. Further, the data analysis device 112 may be configured to be able to use the information expression pattern 423 stored in the external database or the information expression pattern generation device 401 . In these cases, the data analysis device 112 can use the information expression pattern 423 for data analysis.

また、端末装置111a~111dは、それぞれ表示装置415や入力装置416を有するコンピュータで実現できる。このように複数の端末装置111a~111dを用いることで、情報表現パターン生成装置401やデータ分析装置112を利用できる。ここで、端末装置111a~111dとネットワーク110の接続は有線、無線を問わない。特に、端末装置は、端末装置111dとして図示したように無線で通信するタブレットやスマートフォンで実現できる。またさらに、ネットワーク110は各種通信ができればよく、その種別は問わない。このため、ネットワーク110は、インターネットやイントラネットで実現できる。 Also, the terminal devices 111a to 111d can be implemented by computers having a display device 415 and an input device 416, respectively. By using a plurality of terminal devices 111a to 111d in this manner, the information expression pattern generation device 401 and the data analysis device 112 can be used. Here, the connection between the terminal devices 111a to 111d and the network 110 may be wired or wireless. In particular, the terminal device can be implemented by a tablet or smart phone that communicates wirelessly, as illustrated as the terminal device 111d. Moreover, the network 110 may be of any type as long as it can perform various types of communication. Therefore, the network 110 can be realized by the Internet or an intranet.

以上で、本実施形態の説明を終わるが、本発明は本実施形態に限定されない。特に、情報表現は、健康診断書101に限らず、各種文書などを用いることができる。 This is the end of the description of this embodiment, but the present invention is not limited to this embodiment. In particular, the information expression is not limited to the medical certificate 101, and various documents can be used.

401…情報表現パターン生成装置、402…非定型情報表現管理装置、411…記憶装置、412…CPU、413…メモリ、414…通信装置、415…表示装置、416…入力装置、421…プログラム、422…情報表現テンプレート表、423…情報表現パターン、431…情報表現構成解析部、432…情報表現パターン生成部、433…情報表現パターン確認部、441…テキスト情報抽出部、442…構造情報抽出部、443…情報表現項目特定部、451…情報表現テンプレート検索部、452…情報表現パターン組合せ部、461…情報表現パターン照合部、462…情報表現パターン提案部 401... Information expression pattern generation device, 402... Atypical information expression management device, 411... Storage device, 412... CPU, 413... Memory, 414... Communication device, 415... Display device, 416... Input device, 421... Program, 422 ... information expression template table, 423 ... information expression pattern, 431 ... information expression configuration analysis unit, 432 ... information expression pattern generation unit, 433 ... information expression pattern confirmation unit, 441 ... text information extraction unit, 442 ... structure information extraction unit, 443... Information expression item identification unit, 451... Information expression template search unit, 452... Information expression pattern combination unit, 461... Information expression pattern matching unit, 462... Information expression pattern proposal unit

Claims (14)

情報表現からデータ分析に用いられる情報を抽出するために、前記情報表現を構成する項目を定義付けするための情報表現パターンを生成する情報表現パターン生成装置において、
前記項目に関する定義を示す説明を含む情報表現テンプレートの集合で構成される情報表現テンプレート表を記憶する記憶部と、
前記データ分析の対象となる情報表現の入力を受け付け、受け付けられた前記情報表現を構成する項目および当該項目の記載内容を特定する情報表現構成解析部と、
特定された前記項目および記載内容と、前記情報表現テンプレート表の情報表現テンプレートを突き合せて対応関係を判定する情報表現テンプレート検索部と、
前記対応関係の判定結果に応じて、特定された前記項目を前記情報表現テンプレートに組み合わせることで、特定された前記項目と前記情報表現テンプレートの説明が対応付けられた情報表現パターンを生成する情報表現パターン組合せ部を有する情報表現パターン生成装置。
In an information expression pattern generation device for generating an information expression pattern for defining items constituting the information expression in order to extract information used for data analysis from the information expression,
a storage unit for storing an information representation template table composed of a set of information representation templates including explanations indicating definitions of the items;
an information expression configuration analysis unit that receives an input of an information expression to be subjected to data analysis, and specifies items that make up the received information expression and description content of the item;
an information expression template search unit for determining a correspondence relationship by matching the identified item and description with the information expression template of the information expression template table;
Information representation for generating an information representation pattern in which the specified item and the description of the information representation template are associated with each other by combining the specified item with the information representation template according to the determination result of the correspondence relationship. An information representation pattern generation device having a pattern combiner.
請求項1に記載の情報表現パターン生成装置において、
前記情報表現パターン組合せ部は、生成された前記情報表現パターンに、特定された前記項目を追加することで、前記情報表現パターンを完成させる情報表現パターン生成装置。
In the information representation pattern generation device according to claim 1,
The information representation pattern combination unit is an information representation pattern generation device that completes the information representation pattern by adding the specified item to the generated information representation pattern.
請求項1に記載の情報表現パターン生成装置において、
前記情報表現テンプレート表は、前記情報表現テンプレートを特性に応じて分類したグループごとに記録する情報表現パターン生成装置。
In the information representation pattern generation device according to claim 1,
The information expression template table is an information expression pattern generation device in which the information expression templates are recorded for each group classified according to characteristics.
請求項3に記載の情報表現パターン生成装置において、
前記情報表現パターン組合せ部は、前記グループごとに、前記項目を1つの情報表現テンプレートに対して組み合わせる情報表現パターン生成装置。
In the information representation pattern generation device according to claim 3,
The information expression pattern combination unit is an information expression pattern generation device that combines the items with one information expression template for each group.
請求項1に記載の情報表現パターン生成装置において、
さらに、前記対応関係の判定結果に応じて、組み合わせ相手として推奨する情報表現テンプレートを、表示装置に表示させる情報表現パターン提案部を有する情報表現パターン生成装置。
In the information representation pattern generation device according to claim 1,
Further, the information expression pattern generation device has an information expression pattern proposal unit that causes a display device to display an information expression template recommended as a combination partner in accordance with the determination result of the correspondence relationship.
請求項1に記載の情報表現パターン生成装置において、
前記情報表現パターン組合せ部は、利用者の修正指示に応じて、生成された前記情報表現パターンを修正する情報表現パターン生成装置。
In the information representation pattern generation device according to claim 1,
The information representation pattern combination unit is an information representation pattern generation device that modifies the generated information representation pattern according to a user's correction instruction.
請求項1乃至6のいずれかに記載の情報表現パターン生成装置において、
前記情報表現テンプレート検索部は、前記対応関係の判定として、当該対応関係が棄権でないと判定した割合を示す判定率を算出し、
前記情報表現パターン組合せ部は、前記判定率を用いる情報表現パターン生成装置。
In the information representation pattern generation device according to any one of claims 1 to 6,
The information expression template search unit calculates, as the determination of the correspondence relationship, a determination rate indicating a percentage of determinations that the correspondence relationship is not abstained,
The information representation pattern combination unit is an information representation pattern generation device that uses the determination rate.
情報表現パターン生成装置を用いて、情報表現からデータ分析に用いられる情報を抽出するために、前記情報表現を構成する項目を定義付けするための情報表現パターンを生成する情報表現パターン生成方法において、
記憶部に、前記項目に関する定義を示す説明を含む情報表現テンプレートの集合で構成される情報表現テンプレート表を記憶しておき、
情報表現構成解析部により、前記データ分析の対象となる情報表現の入力を受け付け、受け付けられた前記情報表現を構成する項目および当該項目の記載内容を特定し、
情報表現テンプレート検索部により、特定された前記項目および記載内容と、前記情報表現テンプレート表の情報表現テンプレートを突き合せて対応関係を判定し、
情報表現パターン組合せ部により、前記対応関係の判定結果に応じて、特定された前記項目を前記情報表現テンプレートに組み合わせることで、特定された前記項目と前記情報表現テンプレートの説明が対応付けられた情報表現パターンを生成する情報表現パターン生成方法。
In an information expression pattern generation method for generating an information expression pattern for defining items constituting the information expression in order to extract information used for data analysis from the information expression using an information expression pattern generation device,
storing in the storage unit an information expression template table composed of a set of information expression templates including explanations indicating definitions of the items;
receiving an input of an information expression to be analyzed by the information expression configuration analysis unit, identifying items constituting the accepted information expression and descriptions of the items;
an information expression template search unit matching the identified items and descriptions with the information expression template of the information expression template table to determine a correspondence relationship;
Information in which the specified item and the description of the information representation template are associated with each other by combining the specified item with the information representation template by an information representation pattern combining unit according to the determination result of the correspondence relation. An information expression pattern generation method for generating an expression pattern.
請求項8に記載の情報表現パターン生成方法において、
前記情報表現パターン組合せ部により、生成された前記情報表現パターンに、特定された前記項目を追加することで、前記情報表現パターンを完成させる情報表現パターン生成方法。
In the information representation pattern generation method according to claim 8,
An information representation pattern generating method for completing the information representation pattern by adding the specified item to the generated information representation pattern by the information representation pattern combination unit.
請求項8に記載の情報表現パターン生成方法において、
前記情報表現テンプレート表は、前記情報表現テンプレートを特性に応じて分類したグループごとに記録する情報表現パターン生成方法。
In the information representation pattern generation method according to claim 8,
The information representation template table is an information representation pattern generation method in which the information representation templates are recorded for each group classified according to characteristics.
請求項10に記載の情報表現パターン生成方法において、
前記情報表現パターン組合せ部により、前記グループごとに、前記項目を1つの情報表現テンプレートに対して組み合わせる情報表現パターン生成方法。
In the information representation pattern generation method according to claim 10,
An information expression pattern generating method in which the information expression pattern combination unit combines the items with one information expression template for each group.
請求項8に記載の情報表現パターン生成方法において、
情報表現パターン提案部により、前記対応関係の判定結果に応じて、組み合わせ相手として推奨する情報表現テンプレートを、表示装置に表示させる情報表現パターン生成方法。
In the information representation pattern generation method according to claim 8,
An information expression pattern generation method for displaying, on a display device, an information expression template recommended as a combination partner by an information expression pattern proposing unit according to the determination result of the correspondence relationship.
請求項8に記載の情報表現パターン生成方法において、
前記情報表現パターン組合せ部により、利用者の修正指示に応じて、生成された前記情報表現パターンを修正する情報表現パターン生成方法。
In the information representation pattern generation method according to claim 8,
An information expression pattern generation method for correcting the generated information expression pattern by the information expression pattern combination unit in accordance with a user's correction instruction.
請求項8乃至13のいずれかに記載の情報表現パターン生成方法において、
前記情報表現テンプレート検索部により、前記対応関係の判定として、当該対応関係が棄権でないと判定した割合を示す判定率を算出し、
前記情報表現パターン組合せ部では、前記判定率を用いる情報表現パターン生成方法。
In the information representation pattern generation method according to any one of claims 8 to 13,
calculating a determination rate indicating a percentage of determinations that the corresponding relationship is not abstained, as the determination of the corresponding relationship by the information expression template search unit;
An information representation pattern generating method using the determination rate in the information representation pattern combination unit.
JP2021195367A 2021-12-01 2021-12-01 Information representation pattern generation device and method Pending JP2023081564A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021195367A JP2023081564A (en) 2021-12-01 2021-12-01 Information representation pattern generation device and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021195367A JP2023081564A (en) 2021-12-01 2021-12-01 Information representation pattern generation device and method

Publications (1)

Publication Number Publication Date
JP2023081564A true JP2023081564A (en) 2023-06-13

Family

ID=86728153

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021195367A Pending JP2023081564A (en) 2021-12-01 2021-12-01 Information representation pattern generation device and method

Country Status (1)

Country Link
JP (1) JP2023081564A (en)

Similar Documents

Publication Publication Date Title
US11868717B2 (en) Multi-page document recognition in document capture
JP5455470B2 (en) Medical image interpretation system
US10120537B2 (en) Page-independent multi-field validation in document capture
US20160210426A1 (en) Method of classifying medical documents
JP6874729B2 (en) Image processing equipment, image processing methods and programs
CN102971763A (en) Medical care support system and method of supporting medical care
JP2006260318A (en) Diagnostic reading report input support method and system
US20090232398A1 (en) Paper interface to an electronic record system
CN112257613A (en) Physical examination report information structured extraction method and device and computer equipment
WO2019194026A1 (en) Image processing device, image processing method, and storage medium on which program is stored
JP2009252023A (en) Medical certificate preparation support apparatus and program
JP5151412B2 (en) Notation fluctuation analyzer
JP2023081564A (en) Information representation pattern generation device and method
JP2017033257A (en) Image reading report creation support system, image reading report creation support method, and image reading report creation support program
CN112509661B (en) Methods, computing devices, and media for identifying physical examination reports
KR102467096B1 (en) Method and apparatus for checking dataset to learn extraction model for metadata of thesis
JP6655745B1 (en) Information processing apparatus, information processing method, and information processing program
JP2013149265A (en) Diagnosis support device and control method
JP6784274B2 (en) Image processing equipment, image processing methods and programs
Cuff et al. Statistical analysis of surgical pathology data using the R program
JP2010097262A (en) Database creation device, database creation method, and computer program
JP2009230450A (en) Document attribute information register and program
KR102578043B1 (en) A system, a method and a program for managing medical documents
US11659104B2 (en) Generation of an electronic document capable of receiving user input
US20240062862A1 (en) Document creation support apparatus, document creation support method, and document creation support program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240220